CN114496112B - 一种基于多目标优化的抗乳腺癌药物成分智能量化方法 - Google Patents
一种基于多目标优化的抗乳腺癌药物成分智能量化方法 Download PDFInfo
- Publication number
- CN114496112B CN114496112B CN202210069880.2A CN202210069880A CN114496112B CN 114496112 B CN114496112 B CN 114496112B CN 202210069880 A CN202210069880 A CN 202210069880A CN 114496112 B CN114496112 B CN 114496112B
- Authority
- CN
- China
- Prior art keywords
- molecular
- compound
- feature
- molecular descriptors
- descriptor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005457 optimization Methods 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims abstract description 24
- 206010006187 Breast cancer Diseases 0.000 title claims abstract description 21
- 208000026310 Breast neoplasm Diseases 0.000 title claims abstract description 21
- 239000003560 cancer drug Substances 0.000 title claims abstract description 10
- 238000011002 quantification Methods 0.000 title claims abstract description 10
- 239000004615 ingredient Substances 0.000 title description 5
- 150000001875 compounds Chemical class 0.000 claims abstract description 54
- 230000004071 biological effect Effects 0.000 claims abstract description 27
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 26
- 239000002245 particle Substances 0.000 claims abstract description 24
- 238000003066 decision tree Methods 0.000 claims abstract description 18
- 102000007594 Estrogen Receptor alpha Human genes 0.000 claims abstract description 13
- 108010007005 Estrogen Receptor alpha Proteins 0.000 claims abstract description 13
- 238000013528 artificial neural network Methods 0.000 claims abstract description 13
- 238000012360 testing method Methods 0.000 claims abstract description 10
- 230000002068 genetic effect Effects 0.000 claims abstract description 9
- 238000009826 distribution Methods 0.000 claims abstract description 5
- 238000005070 sampling Methods 0.000 claims abstract description 5
- 239000003814 drug Substances 0.000 claims abstract description 4
- 230000035495 ADMET Effects 0.000 claims description 25
- 238000010535 acyclic diene metathesis reaction Methods 0.000 claims description 25
- 238000007637 random forest analysis Methods 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 11
- 230000014509 gene expression Effects 0.000 claims description 11
- 238000012216 screening Methods 0.000 claims description 9
- 238000010219 correlation analysis Methods 0.000 claims description 6
- 238000002474 experimental method Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 206010048610 Cardiotoxicity Diseases 0.000 claims description 3
- 231100000259 cardiotoxicity Toxicity 0.000 claims description 3
- 210000002919 epithelial cell Anatomy 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 230000002401 inhibitory effect Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000002503 metabolic effect Effects 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 230000035699 permeability Effects 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims description 3
- 238000000611 regression analysis Methods 0.000 claims description 3
- 210000000813 small intestine Anatomy 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000010998 test method Methods 0.000 claims description 3
- 238000009827 uniform distribution Methods 0.000 claims description 3
- 231100000025 genetic toxicology Toxicity 0.000 claims description 2
- 230000001738 genotoxic effect Effects 0.000 claims description 2
- 239000008194 pharmaceutical composition Substances 0.000 claims 1
- 229940079593 drug Drugs 0.000 abstract description 3
- 230000008685 targeting Effects 0.000 abstract description 2
- 231100000419 toxicity Toxicity 0.000 abstract description 2
- 230000001988 toxicity Effects 0.000 abstract description 2
- 238000010521 absorption reaction Methods 0.000 abstract 1
- 230000029142 excretion Effects 0.000 abstract 1
- 230000004060 metabolic process Effects 0.000 abstract 1
- 108090000623 proteins and genes Proteins 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 229940011871 estrogen Drugs 0.000 description 3
- 239000000262 estrogen Substances 0.000 description 3
- 102000015694 estrogen receptors Human genes 0.000 description 3
- 108010038795 estrogen receptors Proteins 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 101150087698 alpha gene Proteins 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000005764 inhibitory process Effects 0.000 description 2
- 210000004881 tumor cell Anatomy 0.000 description 2
- 101100441878 Caenorhabditis elegans cyn-3 gene Proteins 0.000 description 1
- 102000004328 Cytochrome P-450 CYP3A Human genes 0.000 description 1
- 108010081668 Cytochrome P-450 CYP3A Proteins 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 101100464856 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) cyp-3 gene Proteins 0.000 description 1
- 238000004617 QSAR study Methods 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000003388 anti-hormonal effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000000069 breast epithelial cell Anatomy 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000010261 cell growth Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000235 effect on cancer Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012224 gene deletion Methods 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- 238000001794 hormone therapy Methods 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000023247 mammary gland development Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000144 pharmacologic effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 102000005962 receptors Human genes 0.000 description 1
- 108020003175 receptors Proteins 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/60—In silico combinatorial chemistry
- G16C20/64—Screening of libraries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Crystallography & Structural Chemistry (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Optimization (AREA)
- Software Systems (AREA)
- Computational Mathematics (AREA)
- Medicinal Chemistry (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Algebra (AREA)
- Operations Research (AREA)
- General Engineering & Computer Science (AREA)
- Pharmacology & Pharmacy (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于多目标优化的抗乳腺癌药物成分智能量化方法。首先,在已有的化合物数据集上筛选影响ERα生物活性的主要分子描述符。然后,基于粒子群优化的神经网络构建化合物对ERα生物活性的定量预测模型。接着,以药物的吸收、分配、代谢、排泄和毒性(ADMET)的度量为目标,基于决策树构建化合物的ADMET特征的特性预测模型。最后,综合定量预测模型和特性预测模型,以帕累托(Pareto)优化理论为指导,构建基于多目标优化的遗传算法模型,找到满足最优目标的化合物(分子描述符的组合),再利用蒙特卡罗假设检验,对得到的最优化目标的化合物进行抽样统计,并以特定的置信度来确定化合物中不同分子描述符的最佳取值范围。
Description
技术领域
本发明属于人工智能技术领域,特别涉及一种基于多目标优化的抗乳腺癌药物成分智能量化方法。
背景技术
目前为止,科学家还未找到乳腺癌的确切致癌原因。经相关研究发现,乳腺癌的发生和发展与雌激素的作用密切相关,雌激素由其受体(estrogen receptor,ER)导引起ER结构发生改变,刺激各种与细胞生长有关的基因表达增高,诱导肿瘤细胞生长、增殖增速,并减弱对其基因的抑制作用,引起乳腺癌等恶性肿瘤。在基因水平上,ER受其相关基因调控,并且ER基因及其基因多态性与乳腺癌的发生、发展密切相关。而且雌激素受体型在不超过10%的正常乳腺上皮细胞中表达,但大约在50%-80%的乳腺肿瘤细胞中表达;而对ERα基因缺失小鼠的实验结果表明,ERα确实在乳腺发育过程中扮演十分重要的角色。
目前,抗激素治疗常用于Erα基因表达的乳腺癌患者,其通过调节雌激素受体活性来控制体内雌激素水平。因此,ERα被认为是治疗乳腺癌的重要靶标,能够拮抗ERα活性的化合物可能是治疗乳腺癌的候选药物。影响ERα活性的化合物种类繁多。因此找到不同化合物对ERα活性的影响作用至关重要。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于多目标优化的抗乳腺癌药物成分智能量化方法,以期找到不同化合物对ERα活性的影响程度,从而构建化合物的定量结构-活性关系对药物研发的影响,筛选出对乳腺癌的治疗产生积极作用的药物成分。
为了实现上述目的,本发明采用的技术方案是:
一种基于多目标优化的抗乳腺癌药物成分智能量化方法,包括如下步骤:
步骤1,在已有的化合物数据集上筛选影响ERα生物活性的主要分子描述符,步骤如下:
步骤1.1,采用随机森林模型分析分子描述符对ERα生物活性的影响,即分子描述符的重要程度,得出分子描述符的重要性排序;
步骤1.2,将分子描述符采用斯皮尔曼相关系数进行相关性分析,筛选出对ERα生物活性具有显著影响的分子描述符;
步骤2,基于粒子群优化的神经网络构建化合物对ERα生物活性的定量预测模型;
步骤3,基于决策树构建化合物的ADMET特征的特性预测模型;
步骤4,分子描述符最佳取值范围计算,步骤如下:
步骤4.1,综合定量预测模型和特性预测模型构建基于多目标优化的遗传算法模型;
步骤4.2,利用蒙特卡罗假设检验方法估计出分子描述符的最佳取值范围。
在一个实施例中,所述步骤1.1,采用随机森林算法在分类的基础上进行回归分析,通过将化合物及其分子描述符分类的结果进行运算,获得每个分子描述符的重要性程度,某一分子描述符重要性越大,表明该分子描述符对预测结果的影响越大,从而得到各个分子描述符对ERα生物活性的影响程度排名。
在一个实施例中,所述步骤1.2,通过多次筛选,提取出现次数超过预设值的分子描述符,然后使用斯皮尔曼相关系数对筛选出的分子描述符进行相关性分析,即,判断两个分子描述符之间是否具有相关性,以及它们之间相关强度的指标,当相关系数的绝对值越接近1时,越相关,斯皮尔曼相关系数ρ的表达公式为:
xi,yi表示筛选出的分子描述符中的第i个分子描述符,筛选出的分子描述符的总数为I,表示I个分子描述符重要程度的平均值;
通过计算各个分子描述符之间的相关性,过滤掉相似变量,依此筛选出具有相对独立性的分子描述符,即对ERα生物活性具有显著影响的分子描述符。
在一个实施例中,所述步骤2,构建包含1个输入层,10个隐藏层,1个输出层的神经网络,输入层为对ERα生物活性具有显著影响的分子描述符,输出层为预测的PIC50的值,计算公式如下:
y=f(wx+b)
x代表输入的分子描述符,y代表预测的PIC50的值,w为输入层网络权重矩阵,b为阈值矢量,w和b的具体形式如下:
引入粒子群优化算法寻优以避免神经网络陷入局部最优解,其公式为:
其中,r1和r2为(0,1)区间服从均匀分布的随机数,c1i和c2i为学习因子,n为迭代次数,为迭代n次时粒子i的速度,/>为迭代n次时粒子i对应的个体的数量,/>和Gn分别为粒子从初始到当前迭代n次搜索产生的局部最优解和全局最优解;
所述粒子,即分子描述符;所述个体,是将神经元之间所有的连接权值编码成的实数向量;随机生成这些向量的种群,按照算法原步骤迭代,迭代中新生成的个体向量还原成神经网络权值;所述种群,即个体的随机组合;所述局部最优解,指单个种群内产生的最接近PIC50的值;所述全局最优解,指全部种群产生的最接近PIC50的值
在一个实施例中,所述步骤2,使用定量预测模型进行结果预测,根据预测的PIC50的值检验是否符合结束条件,若符合,则停止迭代,输出定量预测模型的最终权值和阈值,如不符合,更新每个粒子的位置以及速度,并继续迭代,直到达到预期结果。
在一个实施例中,所述步骤3,采用分类回归树算法(CART)递归地构建二叉决策树,输入的随机变量为分子描述符,输出为化合物的ADMET特征的特性值,分别为小肠上皮细胞渗透性(Caco-2)、代谢稳定性(CYP3A4)、心脏毒性(hERG)、口服生物利用度(HOB)、遗传毒性(MN),决策树的分支使用0或1分别代表该化合物是否具备某种化学性质的特性;然后递归地二分每个分子描述符,将输入空间即特征空间划分为有限个单元,并在这些单元上确定预测的概率分布,最后使用基尼系数作为数据纯度的量化指标,得到5个特性预测模型并预测最终的结果。
在一个实施例中,所述二叉决策树使用基尼系数作为选择最优特征,基尼系数代表模型的不纯度,基尼系数越小,则不纯度越低,特征越好,针对样本N,即化合物数据集,其具有K个类别,第k个类别的数量为C,则样本N的基尼系数Gini(N)的表达式为:
ADMET特征中,根据特征A的某个特性a,将样本N分成N1和N2两部分,则在特征A的条件下样本N的基尼系数Gini(N,A)的表达式为:
ADMET特征中,特征D、特征M、特征E、特征T的条件下样本N的基尼系数按照上式计算。
在一个实施例中,所述步骤4.1,结合定量预测模型和特性预测模型,综合考虑最大化活性和ADMET性质两个目标,并以Pareto优化理论为指导,构建基于多目标优化的遗传算法模型,多目标优化函数为:
Maxf(PIC5O)
f(Caco-2),f(CYP3A4)、f(HOB)、f(hERG)、f(MN)分别为化合物的ADMET特征的特性值为0或者1的常量值,表示异或计算;以PIC50的最大值和ADMET的5种特性值中达到其中3个为最优特性为目标,使五种特性都为1时最好,5种特性值的总和大于等于3时为最优化合物。
在一个实施例中,所述步骤4.2,利用蒙特卡罗假设检验构造多组统计实验,在重复采样得到的集合的基础上进行假设检验,实验覆盖化合物中包括的分子描述符,通过估计得出不同分子描述符的取值范围,使化合物对抑制ERα具有更好的ERα生物活性,同时具有更好的ADMET性质。
与现有技术相比,本发明的有益效果是:
本发明提出的构建基于多目标优化的遗传算法模型,在治疗癌症的过程,筛选出对癌症具有显著抑制效果的化合物。在该方法中使用多目标优化的抗乳腺癌药物成分智能筛选方法,成功筛选出最优目标的化合物(分子描述符组合)并确定出主要分子描述符的最佳区间范围。
附图说明
图1是本发明流程示意图。
图2是本发明多目标优化的遗传算法流程图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图,通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明包括如下步骤:
步骤1,在已有的化合物数据集上筛选影响ERα生物活性的主要分子描述符。
在一个具体的实施例中,本步骤的化合物数据集包含了1974个化合物以及相应的729个分子描述符,以分子描述符为变量,根据变量对ERα生物活性影响的重要性进行排序。并使变量尽可能具有代表性、独立性。需要以下几个步骤。
1)采用随机森林模型分析分子描述符对ERα生物活性的影响(即分子描述符的重要程度),即,利用随机森林中的每个决策树计算每一节点的重要性,获取各个分子描述符对ERα生物活性的影响程度排名,得出每一种分子描述符变量对ERα生物活性的重要性,对排名结果保留前100个数据。
示例地,在该步骤中,由于ERα生物活性与分子描述符存在着非线性关系,所以采用随机森林算法在分类的基础上进行回归分析,通过将化合物及其分子描述符分类的结果进行运算,可以获得每个分子描述符的重要性程度,某一分子描述符重要性越大,则表明该分子描述符对预测结果的影响越大,从而得到各个分子描述符对ERα生物活性的影响程度排名。
随机森林是以K个决策树{h(X,θk),k=1,2,...,K}为基本分类器,进行集成学习后得到的一个组合分类器。当输入待分类样本时,随机森林输出的分类结果由每个决策树的分类结果简单投票决定。这里的{θk,k=1,2,...,K}是一个随机变量序列,它是由随机森林的两大随机化思想决定的:(1)Bagging思想:从原样本集X中有放回地随机抽取K个与原样本集同样大小的训练样本集,每个训练样本集Tk构造一个对应的决策树。(2)特征子空间思想:在对决策树每个节点进行分裂时,从全部属性中等概率随机抽取一个属性子集(通常取log2(M)+1个属性,M为特征总数),再从这个子集中选择一个最优属性来分裂节点。
使用sklearn集成器中的随机森林算法,综合考虑到算法速度和算法准确率,设定K=500,M=150。运行即可得到分子描述符对ERα生物活性的影响程度排名。
2)将分子描述符采用斯皮尔曼相关系数进行相关性分析,筛选出对ERα生物活性具有显著影响的分子描述符。
示例地,在该步骤中,由于随机森林的排名结果并不稳定,因此需要通过多次排序,筛选提取频繁出现的分子描述符,然后使用斯皮尔曼相关系数对筛选出的变量做进一步的相关性分析,也就是判断两个分子描述符之间是否具有相关性,以及它们之间相关强度的指标,当相关系数的绝对值越接近1时,越相关,斯皮尔曼相关系数ρ的表达公式为:
xi,yi表示筛选出的分子描述符中的第i个分子描述符,筛选出的分子描述符的总数为I,表示I个分子描述符重要程度的平均值;
通过计算各个分子描述符之间的相关性,过滤掉相似变量,依此筛选出具有相对独立性的分子描述符,即对ERα生物活性具有显著影响的分子描述符。
通过上述方法,本步骤淘汰掉相关系数较大的描述符,筛选出具有独立性的20个分子描述符,如表1所示。
表1具有独立性的20个分子描述符表
步骤2,基于粒子群优化的神经网络构建化合物对ERα生物活性的定量预测模型。具体如下:
1)构建包含1个输入层,10个隐藏层,1个输出层的神经网络,输入层为对ERα生物活性具有显著影响的分子描述符,输出层为预测的样本PIC50的值,计算公式如下:
y=f(wx+b)
x代表输入的分子描述符,y代表预测的PIC50的值,w为输入层网络权重矩阵,b为阈值矢量,w和b的具体形式如下:
2)由于多个分子描述符之间存在着高度非线性映射能力,容易导致定量预测模型陷入局部最优问题,为避免该问题,将粒子群优化算法与神经网络模型结合,并进行模型训练和验证。
其中粒子群优化算法寻优公式为:
其中r1和r2为(0,1)区间服从均匀分布的随机数,c1i和c2i为学习因子,n为迭代次数,为迭代n次时粒子i的速度,/>为迭代n次时粒子i对应的个体的数量,/>和Gn分别为粒子从初始到当前迭代n次搜索产生的局部最优解和全局最优解;
所述粒子,即分子描述符;所述个体,是将神经元之间所有的连接权值编码成的实数向量;随机生成这些向量的种群,按照算法原步骤迭代,迭代中新生成的个体向量还原成神经网络权值;所述种群,即个体的随机组合;所述局部最优解,指单个种群内产生的最接近PIC50的值;所述全局最优解,指全部种群产生的最接近PIC50的值。
3)使用定量预测模型进行结果预测,根据预测的PIC50的值检验是否符合结束条件,若符合,则停止迭代,输出定量预测模型的最终权值和阈值,如不符合,更新每个粒子的位置以及速度,并继续迭代,直到达到预期结果。
本步骤将含有1974个化合物的数据集进行划分,80%用于训练,20%用于测试来验证模型的合理性。并根据选取的20个分子描述符预测的PIC50的值,经过检验所选的20个分子描述符符合结束条件,停止迭代过程,保存每个分子描述符对应的PIC50的值。
步骤3,基于决策树构建化合物对ADMET特征的特性预测模型。
具体地,本步骤采用分类回归树算法(CART)递归地构建二叉决策树,输入的随机变量为分子描述符,输出为化合物的ADMET特征的特性值,分别为小肠上皮细胞渗透性(Caco-2)、代谢稳定性(CYP3A4)、心脏毒性(hERG)、口服生物利用度(HOB)、遗传毒性(MN),决策树的分支使用0或1分别代表该化合物是否具备某种化学性质的特性;然后递归地二分每个分子描述符,将输入空间即特征空间划分为有限个单元,并在这些单元上确定预测的概率分布,最后使用基尼系数作为数据纯度的量化指标,得到5个特性预测模型并预测最终的结果。
本发明二叉决策树可使用基尼系数作为选择最优特征,基尼系数代表模型的不纯度,基尼系数越小,则不纯度越低,特征越好,针对样本N,即化合物数据集,其具有K个类别,第k个类别的数量为C,则样本N的基尼系数Gini(N)的表达式为:
ADMET特征中,根据特征A的某个特性a,将样本N分成N1和DN2两部分,例如可以平分;则在特征A的条件下样本D的基尼系数Gini(DN,A)的表达式为:
由此,对化合物数据集,按照特征A中的Caco-2(a)特性分为两个类别,用0表示不含,1表示含,计算模型的基尼系数,判断模型的好坏。
ADMET特征中,特征D、特征M、特征E、特征T的条件下样本N的基尼系数按照上式计算。
本步骤通过进行模型训练与预测,得到5个特性模型的预测准确率,如表2所示。
表2模型准确率
ADMET | Caco-2 | CYP3A4 | hERG | HOB | MN |
Accuracy | 0.905 | 0.924 | 0.890 | 0.878 | 0.943 |
步骤4,分子描述符最佳取值范围计算,步骤如下:
步骤4.1,参考图2,综合定量预测模型和特性预测模型构建基于多目标优化的遗传算法模型。即,将定量预测模型和特性预测模型输出到同一文件,综合考虑最大化活性和ADMET性质两个目标,以Pareto优化理论为指导,进而建立多目标优化的遗传算法模型。含有对ERα生物活性的影响程度排名靠前的分子描述符组合的化合物达到最好的PIC50值,且化合物有三种特性值为好,则为最优目标化合物。
具体地,本步骤多目标优化函数为:
Maxf(PIC50)
f(Caco-2)、f(CYP3A4)、f(HOB)、f(hERG)、f(MN)分别为化合物的ADMET特征的特性值为0或者1的常量值。
即,以PIC50的最大值和ADMET的5种特性值中达到其中3个为最优特性为目标。其中由于hERG和MN特性0代表好,所以用到异或符号使五种特性都为1时最好,5种特性值的总和大于等于3时则为最优化合物。
本发明采用的遗传算法编码公式为:
其中(bi1,bi2,…,bil)为某个个体的第i段分量,设置每段段长均为1,每个bij是0或者1,代表特性的好坏,Ti和Ri是第i段分量的定义域的左右端点数值;
步骤4.2,利用蒙特卡罗假设检验方法估计出分子描述符的最佳取值范围。
具体地,本步骤利用蒙特卡罗假设检验构造多组统计实验,在重复采样得到的集合的基础上进行假设检验,实验覆盖化合物中包括的分子描述符,通过估计得出不同分子描述符的取值范围,使化合物对抑制ERα具有更好的ERα生物活性,同时具有更好的ADMET性质。
由此,在重复采样得到的集合的基础上,构建置信度为α=0.95的多组假设检验,覆盖化合物中包括的分子描述符的分布并进行估计,得到不同分子描述符的取值范围,如表3所示。
表3 20个分子描述符的区间范围
综上,本发明通过充分考虑了各分子描述符之间,各分子描述符与ERα生物活性之间的非线性关系,使用了随机森林回归、斯皮尔曼相关系数等适用于处理非线性特征的关系,保证准确性。所获得的主要分子描述符的药理意义明确,符合实际。针对主要分子描述符与ERα生物活性之间复杂的关系,利用基于粒子群优化的神经网络机器学习算法构建了准确的预测模型,在避免局部最优的前提下建模分子描述符与ERα生物活性之间的关系,模型具有较好的泛化能力和预测精度。综合考虑了确定分子描述符取值范围的过程中的优化约束,能够在多目标优化背景下完成最优分子描述符组合的发现,并利用蒙特卡洛假设检验确定相关分子描述符的范围。
以上,对本发明的具体实施方式做了具体描述,但是不应该认定本发明的具体实施只局限于这些说明。对于本发明所属领域的普通技术人员来说,在不脱离本发明构思和由权利要求书所限定的保护范围的前提之下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (6)
1.一种基于多目标优化的抗乳腺癌药物成分智能量化方法,其特征在于,包括如下步骤:
步骤1,在已有的化合物数据集上筛选影响ERα生物活性的主要分子描述符,步骤如下:
步骤1.1,采用随机森林模型分析分子描述符对ERα生物活性的影响,即分子描述符的重要程度,得出分子描述符的重要性排序;
步骤1.2,将分子描述符采用斯皮尔曼相关系数进行相关性分析,筛选出对ERα生物活性具有显著影响的分子描述符;
步骤2,基于粒子群优化的神经网络构建化合物对ERα生物活性的定量预测模型,方法为:构建包含1个输入层,10个隐藏层,1个输出层的神经网络,输入层为对ERα生物活性具有显著影响的分子描述符,输出层为预测的PIC50的值,计算公式如下:
y=f(wx+b)
x代表输入的分子描述符,y代表预测的PIC50的值,w为输入层网络权重矩阵,b为阈值矢量,w和b的具体形式如下:
引入粒子群优化算法寻优以避免神经网络陷入局部最优解,其公式为:
其中,r1和r2为(0,1)区间服从均匀分布的随机数,c1i和c2i为学习因子,n为迭代次数,为迭代n次时粒子i的速度,/>为迭代n次时粒子i对应的个体的数量,/>和Gn分别为粒子从初始到当前迭代n次搜索产生的局部最优解和全局最优解;
所述粒子,即分子描述符;所述个体,是将神经元之间所有的连接权值编码成的实数向量;随机生成这些向量的种群,按照算法原步骤迭代,迭代中新生成的个体向量还原成神经网络权值;所述种群,即个体的随机组合;所述局部最优解,指单个种群内产生的最接近PIC50的值;所述全局最优解,指全部种群产生的最接近PIC50的值;
步骤3,基于决策树构建化合物的ADMET特征的特性预测模型,方法为:采用分类回归树算法(CART)递归地构建二叉决策树,输入的随机变量为分子描述符,输出为化合物的ADMET特征的特性值,决策树的分支使用0或1分别代表该化合物是否具备某种化学性质的特性;然后递归地二分每个分子描述符,将输入空间即特征空间划分为有限个单元,并在这些单元上确定预测的概率分布,最后使用基尼系数作为数据纯度的量化指标,得到5个特性预测模型并预测最终的结果;其中A表示小肠上皮细胞渗透性(Caco-2)、D表示代谢稳定性(CYP3A4)、M表示心脏毒性(hERG)、E表示口服生物利用度(HOB)、T表示遗传毒性(MN);
步骤4,分子描述符最佳取值范围计算,步骤如下:
步骤4.1,结合定量预测模型和特性预测模型,综合考虑最大化活性和ADMET性质两个目标,并以Pareto优化理论为指导,构建基于多目标优化的遗传算法模型,多目标优化函数为:
Maxf(PIC50)
f(Caco-2)、f(CYP3A4)、f(HOB)、f(hERG)、f(MN)分别为化合物的ADMET特征的特性值为0或者1的常量值,表示异或计算;以PIC50的最大值和ADMET的5种特性值中达到其中3个为最优特性为目标,使五种特性都为1时最好,5种特性值的总和大于等于3时为最优化合物;
步骤4.2,利用蒙特卡罗假设检验方法估计出分子描述符的最佳取值范围。
2.根据权利要求1所述基于多目标优化的抗乳腺癌药物成分智能量化方法,其特征在于,所述步骤1.1,采用随机森林算法在分类的基础上进行回归分析,通过将化合物及其分子描述符分类的结果进行运算,获得每个分子描述符的重要性程度,某一分子描述符重要性越大,表明该分子描述符对预测结果的影响越大,从而得到各个分子描述符对ERα生物活性的影响程度排名。
3.根据权利要求1所述基于多目标优化的抗乳腺癌药物成分智能量化方法,其特征在于,所述步骤1.2中,通过多次筛选,提取出现次数超过预设值的分子描述符,然后使用斯皮尔曼相关系数对筛选出的分子描述符进行相关性分析,即,判断两个分子描述符之间是否具有相关性,以及它们之间相关强度的指标,当相关系数的绝对值越接近1时,越相关,斯皮尔曼相关系数ρ的表达公式为:
xi,yi表示筛选出的分子描述符中的第i个分子描述符,筛选出的分子描述符的总数为I,表示I个分子描述符重要程度的平均值;
通过计算各个分子描述符之间的相关性,过滤掉相似变量,依此筛选出具有相对独立性的分子描述符,即对ERα生物活性具有显著影响的分子描述符。
4.根据权利要求1所述基于多目标优化的抗乳腺癌药物成分智能量化方法,其特征在于,所述步骤2,使用定量预测模型进行结果预测,根据预测的PIC50的值检验是否符合结束条件,若符合,则停止迭代,输出定量预测模型的最终权值和阈值,如不符合,更新每个粒子的位置以及速度,并继续迭代,直到达到预期结果。
5.根据权利要求1所述基于多目标优化的抗乳腺癌药物成分智能量化方法,其特征在于,所述二叉决策树使用基尼系数作为选择最优特征,基尼系数代表模型的不纯度,基尼系数越小,则不纯度越低,特征越好,针对样本N,即化合物数据集,其具有K个类别,第k个类别的数量为C,则样本N的基尼系数Gini(N)的表达式为:
ADMET特征中,根据特征A的某个特性a,将样本N分成N1和N2两部分,则在特征A的条件下样本N的基尼系数Gini(N,A)的表达式为:
ADMET特征中,特征D、特征M、特征E、特征T的条件下样本N的基尼系数按照上式计算。
6.根据权利要求1所述基于多目标优化的抗乳腺癌药物成分智能量化方法,其特征在于,所述步骤4.2中,利用蒙特卡罗假设检验构造多组统计实验,在重复采样得到的集合的基础上进行假设检验,实验覆盖化合物中包括的分子描述符,通过估计得出不同分子描述符的取值范围,使化合物对抑制ERα具有更好的ERα生物活性,同时具有更好的ADMET性质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210069880.2A CN114496112B (zh) | 2022-01-21 | 2022-01-21 | 一种基于多目标优化的抗乳腺癌药物成分智能量化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210069880.2A CN114496112B (zh) | 2022-01-21 | 2022-01-21 | 一种基于多目标优化的抗乳腺癌药物成分智能量化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114496112A CN114496112A (zh) | 2022-05-13 |
CN114496112B true CN114496112B (zh) | 2023-10-31 |
Family
ID=81473599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210069880.2A Active CN114496112B (zh) | 2022-01-21 | 2022-01-21 | 一种基于多目标优化的抗乳腺癌药物成分智能量化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114496112B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114999579A (zh) * | 2022-06-27 | 2022-09-02 | 北京理工大学 | 一种筛选化合物分子描述符并确定其取值范围的方法 |
CN116705195B (zh) * | 2023-06-07 | 2024-03-26 | 之江实验室 | 基于矢量量化的图神经网络的药物性质预测方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103207947A (zh) * | 2013-03-29 | 2013-07-17 | 陕西科技大学 | 一种预测血管紧张素转化酶抑制剂活性的方法 |
CN105701340A (zh) * | 2016-01-06 | 2016-06-22 | 昆明理工大学 | 预测气态含硫化合物常温下在活性炭上的吸附速率常数的方法 |
CN110970099A (zh) * | 2019-12-10 | 2020-04-07 | 北京大学 | 一种基于正则化变分自动编码器的药物分子生成方法 |
CN112270951A (zh) * | 2020-11-10 | 2021-01-26 | 四川大学 | 基于多任务胶囊自编码器神经网络的全新分子生成方法 |
CN113284566A (zh) * | 2021-06-15 | 2021-08-20 | 青岛大学 | 一种基于定量构效关系模型实现预测果糖-1,6-双磷酸酶抑制剂的抑制活性的方法 |
CN113936736A (zh) * | 2021-10-29 | 2022-01-14 | 南通大学 | 基于遗传算法的ERα拮抗剂的生物活性和ADMET性质优化方法 |
-
2022
- 2022-01-21 CN CN202210069880.2A patent/CN114496112B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103207947A (zh) * | 2013-03-29 | 2013-07-17 | 陕西科技大学 | 一种预测血管紧张素转化酶抑制剂活性的方法 |
CN105701340A (zh) * | 2016-01-06 | 2016-06-22 | 昆明理工大学 | 预测气态含硫化合物常温下在活性炭上的吸附速率常数的方法 |
CN110970099A (zh) * | 2019-12-10 | 2020-04-07 | 北京大学 | 一种基于正则化变分自动编码器的药物分子生成方法 |
CN112270951A (zh) * | 2020-11-10 | 2021-01-26 | 四川大学 | 基于多任务胶囊自编码器神经网络的全新分子生成方法 |
CN113284566A (zh) * | 2021-06-15 | 2021-08-20 | 青岛大学 | 一种基于定量构效关系模型实现预测果糖-1,6-双磷酸酶抑制剂的抑制活性的方法 |
CN113936736A (zh) * | 2021-10-29 | 2022-01-14 | 南通大学 | 基于遗传算法的ERα拮抗剂的生物活性和ADMET性质优化方法 |
Non-Patent Citations (4)
Title |
---|
Multi-objective optimization methods in novel drug design;George Lambrinidis et al.;Expert Opinion on Drug Discovery;第1-12页 * |
PLS-ANN算法-NIR光谱非破坏性Norvasc 药物有效成分的定量分析;吕慧英 等;高等学校化学学报;第28卷(第5期);第847-850页 * |
基于图注意力网络的药物ADMET分类预测模型构建方法;顾耀文 等;数据分析与知识发现(第8期);第76-85页 * |
药物设计和研发中的定量构动关系研究进展;李婷婷 等;药学进展;第33卷(第03期);第97-103页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114496112A (zh) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114496112B (zh) | 一种基于多目标优化的抗乳腺癌药物成分智能量化方法 | |
CN108198621B (zh) | 一种基于神经网络的数据库数据综合诊疗决策方法 | |
Maraziotis | A semi-supervised fuzzy clustering algorithm applied to gene expression data | |
Saraswat et al. | Feature selection and classification of leukocytes using random forest | |
CN109360604B (zh) | 一种卵巢癌分子分型预测系统 | |
Kianmehr et al. | Fuzzy clustering-based discretization for gene expression classification | |
CN108335756B (zh) | 鼻咽癌数据库及基于所述数据库的综合诊疗决策方法 | |
CN108206056B (zh) | 一种鼻咽癌人工智能辅助诊疗决策终端 | |
CN114093515A (zh) | 一种基于肠道菌群预测模型集成学习的年龄预测方法 | |
KR20230152043A (ko) | 능동 학습에 의한 약물 최적화 | |
Iqbal et al. | Mitochondrial organelle movement classification (fission and fusion) via convolutional neural network approach | |
Qu et al. | Quantitative trait associated microarray gene expression data analysis | |
JP2022540618A (ja) | 機械学習モデルに基づいた必須遺伝子識別方法および分析装置 | |
Peng et al. | The health care fraud detection using the pharmacopoeia spectrum tree and neural network analytic contribution hierarchy process | |
Liu et al. | Comparison of tree-based feature selection algorithms on biological omics dataset | |
CN108320797B (zh) | 一种鼻咽癌数据库及基于所述数据库的综合诊疗决策方法 | |
CN112926251B (zh) | 一种基于机器学习的滑坡位移高精度预测方法 | |
Failmezger et al. | Unsupervised automated high throughput phenotyping of RNAi time-lapse movies | |
Zhao et al. | Rfe based feature selection improves performance of classifying multiple-causes deaths in colorectal cancer | |
Rong et al. | An ISSA-RF Algorithm for Prediction Model of Drug Compound Molecules Antagonizing ERα Gene Activity. | |
EP4356382A1 (en) | Methods and systems for associating cellular constituents with a cellular process of interest | |
CN115280415A (zh) | 致病性模型的应用和其训练 | |
CN110739028A (zh) | 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法 | |
Kelemen et al. | Bayesian regularized neural network for multiple gene expression pattern classification | |
Yue | Research on anti-breast cancer candidate drugs analysis based on random forest model and genetic algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |