CN114999579A - 一种筛选化合物分子描述符并确定其取值范围的方法 - Google Patents
一种筛选化合物分子描述符并确定其取值范围的方法 Download PDFInfo
- Publication number
- CN114999579A CN114999579A CN202210736639.0A CN202210736639A CN114999579A CN 114999579 A CN114999579 A CN 114999579A CN 202210736639 A CN202210736639 A CN 202210736639A CN 114999579 A CN114999579 A CN 114999579A
- Authority
- CN
- China
- Prior art keywords
- screening
- compound
- data
- molecular
- value range
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 150000001875 compounds Chemical class 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012216 screening Methods 0.000 title claims abstract description 42
- 230000004071 biological effect Effects 0.000 claims abstract description 28
- 238000007637 random forest analysis Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 7
- 102000004328 Cytochrome P-450 CYP3A Human genes 0.000 claims abstract 3
- 108010081668 Cytochrome P-450 CYP3A Proteins 0.000 claims abstract 3
- -1 hERG Proteins 0.000 claims abstract 3
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 12
- 238000003066 decision tree Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000012417 linear regression Methods 0.000 claims description 5
- 238000012706 support-vector machine Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000013210 evaluation model Methods 0.000 claims description 2
- 238000005065 mining Methods 0.000 abstract description 2
- 230000035495 ADMET Effects 0.000 abstract 1
- 238000010535 acyclic diene metathesis reaction Methods 0.000 abstract 1
- 230000002401 inhibitory effect Effects 0.000 abstract 1
- 206010006187 Breast cancer Diseases 0.000 description 7
- 208000026310 Breast neoplasm Diseases 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 239000003814 drug Substances 0.000 description 5
- 229940079593 drug Drugs 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000004617 QSAR study Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 229940011871 estrogen Drugs 0.000 description 2
- 239000000262 estrogen Substances 0.000 description 2
- 230000002503 metabolic effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 229910001316 Ag alloy Inorganic materials 0.000 description 1
- 206010048610 Cardiotoxicity Diseases 0.000 description 1
- 102000002004 Cytochrome P-450 Enzyme System Human genes 0.000 description 1
- 108010015742 Cytochrome P-450 Enzyme System Proteins 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108010007005 Estrogen Receptor alpha Proteins 0.000 description 1
- 102100038595 Estrogen receptor Human genes 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 101001047090 Homo sapiens Potassium voltage-gated channel subfamily H member 2 Proteins 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 101150053185 P450 gene Proteins 0.000 description 1
- 238000010220 Pearson correlation analysis Methods 0.000 description 1
- 102100022807 Potassium voltage-gated channel subfamily H member 2 Human genes 0.000 description 1
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000009166 antihormone therapy Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000017531 blood circulation Effects 0.000 description 1
- 230000000747 cardiac effect Effects 0.000 description 1
- 231100000259 cardiotoxicity Toxicity 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 102000015694 estrogen receptors Human genes 0.000 description 1
- 108010038795 estrogen receptors Proteins 0.000 description 1
- 230000029142 excretion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 231100000024 genotoxic Toxicity 0.000 description 1
- 230000001738 genotoxic effect Effects 0.000 description 1
- 229940088597 hormone Drugs 0.000 description 1
- 239000005556 hormone Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 210000002490 intestinal epithelial cell Anatomy 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035699 permeability Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 231100000419 toxicity Toxicity 0.000 description 1
- 230000001988 toxicity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C10/00—Computational theoretical chemistry, i.e. ICT specially adapted for theoretical aspects of quantum chemistry, molecular mechanics, molecular dynamics or the like
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及分子化合物数据筛选挖掘技术领域,尤其是指一种筛选化合物分子描述符并确定其取值范围的方法,包括以下步骤,S1:用皮尔逊相关系数发和最大信息系数法筛选前20个对生物活性最具有显著影响的分子描述符;S2:用随机森林回归模型构建化合物对ERα生物活性的定量预测模型;S3:分别构建化合物的Caco‑2、CYP3A4、hERG、HOB、MN的分类预测模型;S4:用统计学原理分析处理数据,结合上述模型通过数字特征去筛选数据,得出大致取值范围并进行验证。本发明能够使化合物对抑制ERα具有更好的生物活性,同时具有更好的ADMET性质。
Description
技术领域
本发明涉及分子化合物数据筛选挖掘技术领域,尤其涉及一种筛选化合物分子描述符并确定其取值范围的方法。
背景技术
乳腺癌是一种激素依赖型肿瘤,雌激素通过与雌激素受体相结合在乳腺癌的发生发展中发挥重要作用。研究表明,对于雌激素受体α亚型(Estrogen receptors alpha,ERα)表达的乳腺癌患者,抗激素治疗是一种有效的治疗方式,通过调节ERα活性来控制体内雌激素水平,从而抑制病情的发展。因此,ERα被认为是治疗乳腺癌的重要靶标,能够拮抗ERα活性的化合物可能是治疗乳腺癌的候选药物。
目前,在药物研发中,为了节约时间和成本,通常采用建立化合物活性预测模型的方法来筛选潜在活性化合物。具体做法是:针对与疾病相关的ERα靶标,收集一系列作用于该靶标的化合物及其生物活性数据,然后以一系列分子结构描述符作为自变量,化合物的生物活性值(用IC50表示,为实验测定值,单位是nM,一般用其负对数pIC50来建模,其通常与生物活性具有正相关性,即pIC50值越大表明生物活性越高)作为因变量,构建化合物的定量结构-活性关系(Quantitative Structure-Activity Relationship,QSAR)模型,然后使用该模型预测具有更好生物活性的新化合物分子,或者指导已有活性化合物的结构优化。
除了需要具备良好的抗乳腺癌活性外,研发的药物还需要在人体内具备良好的药代动力学性质和安全性,合称为ADMET(Absorption吸收、Distribution分布、Metabolism代谢、Excretion排泄、Toxicity毒性)性质。本方法中仅考虑化合物的5种ADMET性质(用0,1表示有无),分别是:1)小肠上皮细胞渗透性(Caco-2),可度量化合物被人体吸收的能力;2)细胞色素P450酶(Cytochrome P450,CYP)3A4亚型(CYP3A4),这是人体内的主要代谢酶,可度量化合物的代谢稳定性;3)化合物心脏安全性评价(human Ether-a-go-go Related Gene,hERG),可度量化合物的心脏毒性;4)人体口服生物利用度(Human Oral Bioavailability,HOB),可度量药物进入人体后被吸收进入人体血液循环的药量比例;5)微核试验(Micronucleus,MN),是检测化合物是否具有遗传毒性的一种方法。为使化合物其成为药物,还需要进行ADMET性质优化。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种筛选化合物分子描述符并确定其取值范围的方法。
为了实现上述目的,本发明采用了如下技术方案:一种筛选化合物分子描述符并确定其取值范围的方法,包括以下步骤,
S1:用皮尔逊相关系数发和最大信息系数法筛选前20个对生物活性最具有显著影响的分子描述符;
S2:用随机森林回归模型构建化合物对ERα生物活性的定量预测模型;
S3:分别构建化合物的Caco-2、CYP3A4、hERG、HOB、MN的分类预测模型;
S4:用统计学原理分析处理数据,结合上述模型通过数字特征去筛选数据,得出大致取值范围并进行验证。
作为上述技术方案的进一步描述:
所述步骤S1中筛选前20个对生物活性最具有显著影响的分子描述符,先分析现有数据,判断是否含有异常值,分子描述符是对分子的结构和物理化学属性的定量描述符号每个分子描述符都有其对应的物理化学意义;所述分析现有数据分别用皮尔逊相关系数和最大信息系数,所述皮尔逊相关系数公式为:
所述最大信息系数公式为:
式中,a,b是在X,Y方向上的划分格子的个数,本质上就是网格分布,B是变量,其取值是数据量的0.6次方左右。
作为上述技术方案的进一步描述:
所述步骤S2中构建化合物对ERα生物活性的定量预测模型建立了神经网络、支持向量机、线性回归、随机森林、XGBoost和梯度提升6种回归模型,所述预测模型采用的性能评价指标是均方根误差RMSE和平均绝对误差MAE。
作为上述技术方案的进一步描述:
所述随机森林算法框架包括以下步骤,
A1:从训练集中随机抽取一定数量的样本,作为每棵树的根节点样本;
A2:在建立决策树时,随机抽取一定数量的侯选属性,从中选择最合适属性作为分裂节点;
A3:建立好随机森林以后,对于测试样本,进入每一棵决策树进行类型输出和回归输出,以每一棵决策树输出的均值作为最终结果。
作为上述技术方案的进一步描述:
所述步骤S3中的分类预测模型的构建包括以下,S31:采用多层神经网络,所述多层神经网络由输入层、隐含层和输出层组成;S32:构建并优化分类预测模型,Dropout函数是指在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃;
S33:评价模型的准确性,Caco-2、CYP3A4、hERG、HOB、MN的准确性在分析数据时出现不平衡问题,出现不平衡问题采用加权交叉熵WCE来抵消数据集中存在的不平衡,加权交叉熵WCE公式为:
本发明具有如下有益效果:
1、与现有技术相比,该一种筛选化合物分子描述符并确定其取值范围的方法,通过采用皮尔逊相关系数筛选出与pIC50具有强线性关系的变量描述符,采用最大信息系数筛选出与pIC50具有强线性和强非线性的变量描述符,将不同模型下筛选出的变量描述符综合考量,并结合分子描述符的物理化学性质特点,得到20个与pIC50具有强相关性的变量描述符。通过这种方法,综合筛选后得到最终的结果,具有较高的合理性。
2、与现有技术相比,该一种筛选化合物分子描述符并确定其取值范围的方法,通过选择预测模型时,对比分析了各类常见的多维数据预测模型,包括线性回归模型、随机森林回归模型、梯度提升回归模型、支持向量机回归模型,最终基于RMSE及MAE评价指标选择出对样本数据具有最佳拟合效果的预测模型。
3、与现有技术相比,该一种筛选化合物分子描述符并确定其取值范围的方法,通过选取的多层分类预测模型运用了Dropout函数并进行了层归一化处理提高了模型的泛化性,并运用了加权交叉熵损失函数,使预测结果具有较高的准确率。
4、与现有技术相比,该一种筛选化合物分子描述符并确定其取值范围的方法,通过利用统计学原理分析处理数据,采用数字特征去筛选,简化了处理过程,并在范围内取随机数进行验证,使最终取值范围的选取更具有说服力。
附图说明
图1为本发明提出的一种筛选化合物分子描述符并确定其取值范围的方法的抗乳腺癌候选药物分子数据筛选技术方案流程框图;
图2为本发明提出的一种筛选化合物分子描述符并确定其取值范围的方法的筛选分子描述符的流程框图;
图3为本发明提出的一种筛选化合物分子描述符并确定其取值范围的方法的皮尔逊和最大信息系数法排序前20特征关系图;
图4为本发明提出的一种筛选化合物分子描述符并确定其取值范围的方法的32个特征的皮尔逊相关系数热力图;
图5为本发明提出的一种筛选化合物分子描述符并确定其取值范围的方法的预测模型预测结果优劣评估指标数值对比图;
图6为本发明提出的一种筛选化合物分子描述符并确定其取值范围的方法的随机森林算法框图;
图7为本发明提出的一种筛选化合物分子描述符并确定其取值范围的方法的多层神经网络示意图。
具体实施方式
参照图1-7,本发明提供的一种筛选化合物分子描述符并确定其取值范围的方法,包括以下步骤,
S1:用皮尔逊相关系数发和最大信息系数法筛选前20个对生物活性最具有显著影响的分子描述符;
S2:用随机森林回归模型构建化合物对ERα生物活性的定量预测模型;
S3:分别构建化合物的Caco-2、CYP3A4、hERG、HOB、MN的分类预测模型;
S4:用统计学原理分析处理数据,结合上述模型通过数字特征去筛选数据,得出大致取值范围并进行验证。
如图3、图4所示,作为上述技术方案的进一步的实施方式:
步骤S1中筛选前20个对生物活性最具有显著影响的分子描述符,先分析现有数据,判断是否含有异常值,分子描述符是对分子的结构和物理化学属性的定量描述符号每个分子描述符都有其对应的物理化学意义;分析现有数据分别用皮尔逊相关系数和最大信息系数,皮尔逊相关系数公式为:
最大信息系数公式为:
式中,a,b是在X,Y方向上的划分格子的个数,本质上就是网格分布,B是变量,其取值是数据量的0.6次方左右。
具体为,分子描述符是对分子的结构和物理化学属性的定量描述符号每个分子描述符都有其对应的物理化学意义,即使某些分子描述符出现全零列或极大值、极小值等情况,我们也将其视为正常数据,对文件中所列的729个分子描述符全部进行特征筛选。
分别用皮尔逊和最大信息系数方法进行相关性分析。皮尔逊相关系数,用来反映两个随机变量之间的线性相关程度,也称为积差相关或矩阵相关,是一种计算直线相关的方法。
通常情况下通过以下取值范围判断变量的相关强度:相关系数绝对值为0.8-1.0,极强相关;相关系数绝对值为0.4-0.6,强相关;相关系数绝对值为0.2-0.4,弱相关;相关系数绝对值为0-0.2,极弱相关或无相关。
最大信息系数方法的主要思想是针对两个变量之间的关系,将其离散在二维空间中,并且使用散点图来表示。将当前二维空间在X,Y方向分别划分为一定的区间数,然后查看当前的散点在各个方格中落入的情况。
由前述计算结果,我们分别得到了两种方法下的特征评价结果,并对特征重要性进行了排序。将每种方法得到的前20个特征分别放入一个集合,我们可以得到两个分别含有20个元素的集合。可以发现,两个集合的交集中有8个元素,并集中有32个元素。将32个特征进行皮尔逊相关性分析,结合分子描述符本身的含义研究特征间的相关性,去除部分具有强相关性的特征,得到McGowan_Volume、minsOH、maxsssN等20个特征。
如图5、图6所示,作为上述技术方案的进一步的实施方式:
步骤S2中构建化合物对ERα生物活性的定量预测模型建立了神经网络、支持向量机、线性回归、随机森林、XGBoost和梯度提升6种回归模型,预测模型采用的性能评价指标是均方根误差RMSE和平均绝对误差MAE。
具体为,建立了神经网络、支持向量机、线性回归、随机森林、XGBoost、梯度提升6种回归模型,随机将原始样本75%设置为训练集,25%设置为验证集,通过训练集对所建立模型进行训练和优化,并利用该模型对验证集进行预测,以判断构建预测模型的优劣程度。
对于预测模型,最常使用的性能评价指标是均方根误差RMSE和平均绝对误差MAE,经过计算,各预测模型预测结果优劣评估指标均方根误差RMSE、平均绝对误差MAE数值对比情况,最合适的预测模型为随机森林回归模型。
如图6所示,作为上述技术方案的进一步的实施方式:
随机森林算法框架包括以下步骤,
A1:从训练集中随机抽取一定数量的样本,作为每棵树的根节点样本;
A2:在建立决策树时,随机抽取一定数量的侯选属性,从中选择最合适属性作为分裂节点;
A3:建立好随机森林以后,对于测试样本,进入每一棵决策树进行类型输出和回归输出,以每一棵决策树输出的均值作为最终结果。
如图7所示,作为上述技术方案的进一步的实施方式:
步骤S3中的分类预测模型的构建包括以下,
S31:采用多层神经网络,多层神经网络由输入层、隐含层和输出层组成;
S32:构建并优化分类预测模型,Dropout函数是指在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃;
S33:评价模型的准确性,Caco-2、CYP3A4、hERG、HOB、MN的准确性在分析数据时出现不平衡问题,出现不平衡问题采用加权交叉熵WCE来抵消数据集中存在的不平衡,加权交叉熵WCE公式为:
具体为,
采用多层神经网络,示意图如图7,由输入层、隐含层和输出层组成。首先,分析数据集中的相关数据,按照训练集:测试集为4:1的比例随机在1974全体样本中进行选取。
其次,构建并优化分类预测模型。Dropout函数是指在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃。Dropout函数可以有效防止模型过拟合,提高泛化性。经过多次实验,得出参数为0.7时模型训练的准确度最高。之后用批量归一化不断对数据做标准化处理,将所有批数据强制在统一的数据分布下,再将其输入到下一层,使整个神经网络在各层的中间输出的数值更稳定,进而使深层神经网络更容易收敛。
最后,评价模型的准确性。Caco-2、CYP3A4、hERG、HOB、MN的准确性分别为92%、96%、89%、87%、97%。分析数据,0和1的数量在各样本中不平衡,数量多的类别会对损失函数的影响最大,从而主导训练过程。针对此问题,提出加权交叉熵WCE来抵消数据集中存在的类不平衡,使网络重视数量较少的类别。加权交叉熵WCE被定义为:
经加权交叉熵处理得到各样本的损失值如表1所示。
表1交叉熵损失值
Caco-2 | CYP3A4 | hERG | HOB | MN | |
交叉熵损失值 | 0.381 | 0.340 | 0.426 | 0.420 | 0.337 |
筛选数据得出大致范围:
目标是基于上述得到的结果,找到同时满足较高生物活性和较好ADMET性质的分子描述符,并确定其取值范围。生物活性即pIC50值可以视为一个连续变量,而对于ADMET的描述则为“0”、“1”这种离散型变量。提出一种统计学的方法
(1)对数据样本按照生物活性值和ADMET性质进行排序
根据初步选定前20个对生物活性最具有显著影响的分子描述符作为研究的基础。先对生物活性值pIC50的取值大小进行排序。ADMET性质排序是根据题目所给材料中对5个性质的实际意义进行符合程度的排序,5个性质分别取“0”和“1”,则ADMET共有32种编码形式。例如,若5个性质均表现为好,则ADMET的编码为“11010”,若5个性质中有一个性质不好,则ADMET的编码可能为“01010”、“10010”、“11110”、“11000”和“11011”,以此类推可得到3个、2个和1个性质较好时ADMET的编码。由此,对ADMET的编码按照满足5个性质较好、4个性质较好、3个性质较好、2个性质较好和1个性质较好的顺序进行排列。根据排序情况可以得到有634个化合物的ADMET性质满足3个性质较好的要求,有188个化合物的ADMET的性质满足4个性质较好的要求,有11个化合物的ADMET的性质满足5个性质较好的要求。从数据特征的稳定性和题目的实际情况出发,我们选择满足4个性质较好的188个化合物,以及生物活性值排名前188的化合物作为后续研究的对象。
(2)确定已求得20个分子描述符的取值范围
分别列出满足4个性质较好的188个化合物的数据集和生物活性值排名前188个化合物的数据集,为了使数据更具有集中性,在对各个分子描述符下的数值进行排序后,取中间90%的数据,将过大和过小的数值舍弃。取两个数据集中对应分子描述符下取值的交集,即得到同时满足生物活性和ADMET性质的20个分子描述符的取值范围。
(3)分子描述符降维处理
判断1974个样本数据中,分子描述符的取值范围在已得到的20个分子描述符的取值范围中的样本数据的个数。为了避免数据取值一致性过高对结果带来的影响,舍弃数据个数大于1000的分子描述符,这样就得到了9个分子描述符,分别为:“MDEC-23”、“MLogP”、“LipoaffinityIndex”、“maxsOH”、“nC”、“minsssN”、“BCUTp-1h”、“CrippenLogP”和“MLFER_A”得出其取值范围并在取值范围中取随机数验证数据合理性,有较高准确性。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种筛选化合物分子描述符并确定其取值范围的方法,其特征在于:包括以下步骤,
S1:用皮尔逊相关系数发和最大信息系数法筛选前20个对生物活性最具有显著影响的分子描述符;
S2:用随机森林回归模型构建化合物对ERα生物活性的定量预测模型;
S3:分别构建化合物的Caco-2、CYP3A4、hERG、HOB、MN的分类预测模型;
S4:用统计学原理分析处理数据,结合上述模型通过数字特征去筛选数据,得出大致取值范围并进行验证。
3.根据权利要求1所述的一种筛选化合物分子描述符并确定其取值范围的方法,其特征在于:所述步骤S2中构建化合物对ERα生物活性的定量预测模型建立了神经网络、支持向量机、线性回归、随机森林、XGBoost和梯度提升6种回归模型,所述预测模型采用的性能评价指标是均方根误差RMSE和平均绝对误差MAE。
4.根据权利要求3所述的一种筛选化合物分子描述符并确定其取值范围的方法,其特征在于:所述随机森林算法框架包括以下步骤,
A1:从训练集中随机抽取一定数量的样本,作为每棵树的根节点样本;
A2:在建立决策树时,随机抽取一定数量的侯选属性,从中选择最合适属性作为分裂节点;
A3:建立好随机森林以后,对于测试样本,进入每一棵决策树进行类型输出和回归输出,以每一棵决策树输出的均值作为最终结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210736639.0A CN114999579A (zh) | 2022-06-27 | 2022-06-27 | 一种筛选化合物分子描述符并确定其取值范围的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210736639.0A CN114999579A (zh) | 2022-06-27 | 2022-06-27 | 一种筛选化合物分子描述符并确定其取值范围的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114999579A true CN114999579A (zh) | 2022-09-02 |
Family
ID=83037628
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210736639.0A Pending CN114999579A (zh) | 2022-06-27 | 2022-06-27 | 一种筛选化合物分子描述符并确定其取值范围的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114999579A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116646024A (zh) * | 2023-07-26 | 2023-08-25 | 苏州创腾软件有限公司 | 基于机器学习的开环聚合焓预测方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200030769A (ko) * | 2018-09-13 | 2020-03-23 | 한국과학기술원 | 랜덤 포레스트 모델을 활용한 약물의 다중 표적 예측 방법 |
AU2020100709A4 (en) * | 2020-05-05 | 2020-06-11 | Bao, Yuhang Mr | A method of prediction model based on random forest algorithm |
CN114242178A (zh) * | 2021-10-29 | 2022-03-25 | 南通大学 | 基于梯度提升决策树的ERα拮抗剂的生物活性定量预测方法 |
CN114496112A (zh) * | 2022-01-21 | 2022-05-13 | 内蒙古工业大学 | 一种基于多目标优化的抗乳腺癌药物成分智能量化方法 |
CN114496304A (zh) * | 2022-01-13 | 2022-05-13 | 山东师范大学 | 抗癌候选药物的admet性质预测方法及系统 |
CN114550842A (zh) * | 2022-01-13 | 2022-05-27 | 山东师范大学 | 抑制靶标蛋白生物活性的药物化合物分子预测方法及系统 |
CN114566234A (zh) * | 2022-01-13 | 2022-05-31 | 山东师范大学 | 抗癌候选药物化合物分子的定量优化方法与系统 |
-
2022
- 2022-06-27 CN CN202210736639.0A patent/CN114999579A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200030769A (ko) * | 2018-09-13 | 2020-03-23 | 한국과학기술원 | 랜덤 포레스트 모델을 활용한 약물의 다중 표적 예측 방법 |
AU2020100709A4 (en) * | 2020-05-05 | 2020-06-11 | Bao, Yuhang Mr | A method of prediction model based on random forest algorithm |
CN114242178A (zh) * | 2021-10-29 | 2022-03-25 | 南通大学 | 基于梯度提升决策树的ERα拮抗剂的生物活性定量预测方法 |
CN114496304A (zh) * | 2022-01-13 | 2022-05-13 | 山东师范大学 | 抗癌候选药物的admet性质预测方法及系统 |
CN114550842A (zh) * | 2022-01-13 | 2022-05-27 | 山东师范大学 | 抑制靶标蛋白生物活性的药物化合物分子预测方法及系统 |
CN114566234A (zh) * | 2022-01-13 | 2022-05-31 | 山东师范大学 | 抗癌候选药物化合物分子的定量优化方法与系统 |
CN114496112A (zh) * | 2022-01-21 | 2022-05-13 | 内蒙古工业大学 | 一种基于多目标优化的抗乳腺癌药物成分智能量化方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116646024A (zh) * | 2023-07-26 | 2023-08-25 | 苏州创腾软件有限公司 | 基于机器学习的开环聚合焓预测方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Janitza et al. | An AUC-based permutation variable importance measure for random forests | |
CN111128380A (zh) | 模拟医生诊断和精准干预策略的慢性病健康管理模型的构建方法及系统 | |
Trussart et al. | Removing unwanted variation with CytofRUV to integrate multiple CyTOF datasets | |
CN107368707A (zh) | 基于us‑elm的基因芯片表达数据分析系统及方法 | |
CN112599218A (zh) | 药物敏感预测模型的训练方法、预测方法及相关装置 | |
CN111105877A (zh) | 基于深度置信网络的慢性病精确干预方法及系统 | |
US20230223099A1 (en) | Predicting method of cell deconvolution based on a convolutional neural network | |
CN111091916A (zh) | 人工智能中基于改进粒子群算法的数据分析处理方法及系统 | |
CN114999579A (zh) | 一种筛选化合物分子描述符并确定其取值范围的方法 | |
CN111128372A (zh) | 基于rf-lr改进算法的疾病预测方法 | |
CN116825186A (zh) | 基于生成对抗网络的单细胞数据批次效应校正方法 | |
CN115881232A (zh) | 一种基于图神经网络和特征融合的scRNA-seq细胞类型注释方法 | |
CN116525108A (zh) | 基于snp数据的预测方法、装置、设备及存储介质 | |
CN118312816A (zh) | 基于成员选择的簇加权聚类集成医学数据处理方法及系统 | |
CN114496112A (zh) | 一种基于多目标优化的抗乳腺癌药物成分智能量化方法 | |
Hediyeh-zadeh et al. | MSImpute: Imputation of label-free mass spectrometry peptides by low-rank approximation | |
KR20200116801A (ko) | 약물재창출을 이용한 질환에 대한 바이오 마커 선별 방법 | |
CN111128300B (zh) | 基于突变信息的蛋白相互作用影响判断方法 | |
CN111832854A (zh) | 汽车研发质量管理体系的成熟度量化评价方法、系统及可读介质 | |
CN113178234A (zh) | 一种基于神经网络和连接图算法的化合物功能预测方法 | |
CN113724195A (zh) | 基于免疫荧光图像的蛋白质的定量分析模型和建立方法 | |
CN116738172A (zh) | 一种基于机器学习的大型混合暴露数据分析方法 | |
CN113838519B (zh) | 基于自适应基因交互正则化弹性网络模型的基因选择方法及系统 | |
CN111383716B (zh) | 基因对的筛选方法、装置、计算机设备和存储介质 | |
CN114566234A (zh) | 抗癌候选药物化合物分子的定量优化方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |