CN114999579A

CN114999579A - 一种筛选化合物分子描述符并确定其取值范围的方法

Info

Publication number: CN114999579A
Application number: CN202210736639.0A
Authority: CN
Inventors: 颜培; 姜洪森; 程明辉; 孙婕; 宋逸凡; 焦黎; 王西彬; 赵斌; 仇天阳; 刘志兵
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-09-02

Abstract

本发明涉及分子化合物数据筛选挖掘技术领域，尤其是指一种筛选化合物分子描述符并确定其取值范围的方法，包括以下步骤，S1：用皮尔逊相关系数发和最大信息系数法筛选前20个对生物活性最具有显著影响的分子描述符；S2：用随机森林回归模型构建化合物对ERα生物活性的定量预测模型；S3：分别构建化合物的Caco‑2、CYP3A4、hERG、HOB、MN的分类预测模型；S4：用统计学原理分析处理数据，结合上述模型通过数字特征去筛选数据，得出大致取值范围并进行验证。本发明能够使化合物对抑制ERα具有更好的生物活性，同时具有更好的ADMET性质。

Description

一种筛选化合物分子描述符并确定其取值范围的方法

技术领域

本发明涉及分子化合物数据筛选挖掘技术领域，尤其涉及一种筛选化合物分子描述符并确定其取值范围的方法。

背景技术

乳腺癌是一种激素依赖型肿瘤，雌激素通过与雌激素受体相结合在乳腺癌的发生发展中发挥重要作用。研究表明，对于雌激素受体α亚型(Estrogen receptors alpha,ERα)表达的乳腺癌患者，抗激素治疗是一种有效的治疗方式，通过调节ERα活性来控制体内雌激素水平，从而抑制病情的发展。因此，ERα被认为是治疗乳腺癌的重要靶标，能够拮抗ERα活性的化合物可能是治疗乳腺癌的候选药物。

目前，在药物研发中，为了节约时间和成本，通常采用建立化合物活性预测模型的方法来筛选潜在活性化合物。具体做法是：针对与疾病相关的ERα靶标，收集一系列作用于该靶标的化合物及其生物活性数据，然后以一系列分子结构描述符作为自变量，化合物的生物活性值(用IC50表示，为实验测定值，单位是nM，一般用其负对数pIC50来建模，其通常与生物活性具有正相关性，即pIC50值越大表明生物活性越高)作为因变量，构建化合物的定量结构-活性关系(Quantitative Structure-Activity Relationship,QSAR)模型，然后使用该模型预测具有更好生物活性的新化合物分子，或者指导已有活性化合物的结构优化。

除了需要具备良好的抗乳腺癌活性外，研发的药物还需要在人体内具备良好的药代动力学性质和安全性，合称为ADMET(Absorption吸收、Distribution分布、Metabolism代谢、Excretion排泄、Toxicity毒性)性质。本方法中仅考虑化合物的5种ADMET性质(用0,1表示有无)，分别是：1)小肠上皮细胞渗透性(Caco-2)，可度量化合物被人体吸收的能力；2)细胞色素P450酶(Cytochrome P450,CYP)3A4亚型(CYP3A4)，这是人体内的主要代谢酶，可度量化合物的代谢稳定性；3)化合物心脏安全性评价(human Ether-a-go-go Related Gene,hERG)，可度量化合物的心脏毒性；4)人体口服生物利用度(Human Oral Bioavailability,HOB)，可度量药物进入人体后被吸收进入人体血液循环的药量比例；5)微核试验(Micronucleus，MN)，是检测化合物是否具有遗传毒性的一种方法。为使化合物其成为药物，还需要进行ADMET性质优化。

发明内容

本发明的目的是为了解决现有技术中存在的缺点，而提出的一种筛选化合物分子描述符并确定其取值范围的方法。

为了实现上述目的，本发明采用了如下技术方案：一种筛选化合物分子描述符并确定其取值范围的方法，包括以下步骤，

S1：用皮尔逊相关系数发和最大信息系数法筛选前20个对生物活性最具有显著影响的分子描述符；

S2：用随机森林回归模型构建化合物对ERα生物活性的定量预测模型；

S3：分别构建化合物的Caco-2、CYP3A4、hERG、HOB、MN的分类预测模型；

S4：用统计学原理分析处理数据，结合上述模型通过数字特征去筛选数据，得出大致取值范围并进行验证。

作为上述技术方案的进一步描述：

所述步骤S1中筛选前20个对生物活性最具有显著影响的分子描述符，先分析现有数据，判断是否含有异常值，分子描述符是对分子的结构和物理化学属性的定量描述符号每个分子描述符都有其对应的物理化学意义；所述分析现有数据分别用皮尔逊相关系数和最大信息系数，所述皮尔逊相关系数公式为：

所述最大信息系数公式为：

式中，a，b是在X，Y方向上的划分格子的个数，本质上就是网格分布，B是变量，其取值是数据量的0.6次方左右。

作为上述技术方案的进一步描述：

所述步骤S2中构建化合物对ERα生物活性的定量预测模型建立了神经网络、支持向量机、线性回归、随机森林、XGBoost和梯度提升6种回归模型，所述预测模型采用的性能评价指标是均方根误差RMSE和平均绝对误差MAE。

作为上述技术方案的进一步描述：

所述随机森林算法框架包括以下步骤，

A1：从训练集中随机抽取一定数量的样本，作为每棵树的根节点样本；

A2：在建立决策树时，随机抽取一定数量的侯选属性，从中选择最合适属性作为分裂节点；

A3：建立好随机森林以后，对于测试样本，进入每一棵决策树进行类型输出和回归输出，以每一棵决策树输出的均值作为最终结果。

作为上述技术方案的进一步描述：

所述步骤S3中的分类预测模型的构建包括以下，S31：采用多层神经网络，所述多层神经网络由输入层、隐含层和输出层组成；S32：构建并优化分类预测模型，Dropout函数是指在深度学习网络的训练过程中，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃；

S33：评价模型的准确性，Caco-2、CYP3A4、hERG、HOB、MN的准确性在分析数据时出现不平衡问题，出现不平衡问题采用加权交叉熵WCE来抵消数据集中存在的不平衡，加权交叉熵WCE公式为：

本发明具有如下有益效果：

1、与现有技术相比，该一种筛选化合物分子描述符并确定其取值范围的方法，通过采用皮尔逊相关系数筛选出与pIC50具有强线性关系的变量描述符，采用最大信息系数筛选出与pIC50具有强线性和强非线性的变量描述符，将不同模型下筛选出的变量描述符综合考量，并结合分子描述符的物理化学性质特点，得到20个与pIC50具有强相关性的变量描述符。通过这种方法，综合筛选后得到最终的结果，具有较高的合理性。

2、与现有技术相比，该一种筛选化合物分子描述符并确定其取值范围的方法，通过选择预测模型时，对比分析了各类常见的多维数据预测模型，包括线性回归模型、随机森林回归模型、梯度提升回归模型、支持向量机回归模型，最终基于RMSE及MAE评价指标选择出对样本数据具有最佳拟合效果的预测模型。

3、与现有技术相比，该一种筛选化合物分子描述符并确定其取值范围的方法，通过选取的多层分类预测模型运用了Dropout函数并进行了层归一化处理提高了模型的泛化性，并运用了加权交叉熵损失函数，使预测结果具有较高的准确率。

4、与现有技术相比，该一种筛选化合物分子描述符并确定其取值范围的方法，通过利用统计学原理分析处理数据，采用数字特征去筛选，简化了处理过程，并在范围内取随机数进行验证，使最终取值范围的选取更具有说服力。

附图说明

图1为本发明提出的一种筛选化合物分子描述符并确定其取值范围的方法的抗乳腺癌候选药物分子数据筛选技术方案流程框图；

图2为本发明提出的一种筛选化合物分子描述符并确定其取值范围的方法的筛选分子描述符的流程框图；

图3为本发明提出的一种筛选化合物分子描述符并确定其取值范围的方法的皮尔逊和最大信息系数法排序前20特征关系图；

图4为本发明提出的一种筛选化合物分子描述符并确定其取值范围的方法的32个特征的皮尔逊相关系数热力图；

图5为本发明提出的一种筛选化合物分子描述符并确定其取值范围的方法的预测模型预测结果优劣评估指标数值对比图；

图6为本发明提出的一种筛选化合物分子描述符并确定其取值范围的方法的随机森林算法框图；

图7为本发明提出的一种筛选化合物分子描述符并确定其取值范围的方法的多层神经网络示意图。

具体实施方式

参照图1-7，本发明提供的一种筛选化合物分子描述符并确定其取值范围的方法，包括以下步骤，

如图3、图4所示，作为上述技术方案的进一步的实施方式：

步骤S1中筛选前20个对生物活性最具有显著影响的分子描述符，先分析现有数据，判断是否含有异常值，分子描述符是对分子的结构和物理化学属性的定量描述符号每个分子描述符都有其对应的物理化学意义；分析现有数据分别用皮尔逊相关系数和最大信息系数，皮尔逊相关系数公式为：

最大信息系数公式为：

具体为，分子描述符是对分子的结构和物理化学属性的定量描述符号每个分子描述符都有其对应的物理化学意义，即使某些分子描述符出现全零列或极大值、极小值等情况，我们也将其视为正常数据，对文件中所列的729个分子描述符全部进行特征筛选。

分别用皮尔逊和最大信息系数方法进行相关性分析。皮尔逊相关系数，用来反映两个随机变量之间的线性相关程度，也称为积差相关或矩阵相关，是一种计算直线相关的方法。

通常情况下通过以下取值范围判断变量的相关强度：相关系数绝对值为0.8-1.0，极强相关；相关系数绝对值为0.4-0.6，强相关；相关系数绝对值为0.2-0.4，弱相关；相关系数绝对值为0-0.2，极弱相关或无相关。

最大信息系数方法的主要思想是针对两个变量之间的关系，将其离散在二维空间中，并且使用散点图来表示。将当前二维空间在X，Y方向分别划分为一定的区间数，然后查看当前的散点在各个方格中落入的情况。

由前述计算结果，我们分别得到了两种方法下的特征评价结果，并对特征重要性进行了排序。将每种方法得到的前20个特征分别放入一个集合，我们可以得到两个分别含有20个元素的集合。可以发现，两个集合的交集中有8个元素，并集中有32个元素。将32个特征进行皮尔逊相关性分析，结合分子描述符本身的含义研究特征间的相关性，去除部分具有强相关性的特征，得到McGowan_Volume、minsOH、maxsssN等20个特征。

如图5、图6所示，作为上述技术方案的进一步的实施方式：

步骤S2中构建化合物对ERα生物活性的定量预测模型建立了神经网络、支持向量机、线性回归、随机森林、XGBoost和梯度提升6种回归模型，预测模型采用的性能评价指标是均方根误差RMSE和平均绝对误差MAE。

具体为，建立了神经网络、支持向量机、线性回归、随机森林、XGBoost、梯度提升6种回归模型，随机将原始样本75％设置为训练集，25％设置为验证集，通过训练集对所建立模型进行训练和优化，并利用该模型对验证集进行预测，以判断构建预测模型的优劣程度。

对于预测模型，最常使用的性能评价指标是均方根误差RMSE和平均绝对误差MAE，经过计算，各预测模型预测结果优劣评估指标均方根误差RMSE、平均绝对误差MAE数值对比情况，最合适的预测模型为随机森林回归模型。

如图6所示，作为上述技术方案的进一步的实施方式：

随机森林算法框架包括以下步骤，

如图7所示，作为上述技术方案的进一步的实施方式：

步骤S3中的分类预测模型的构建包括以下，

S31：采用多层神经网络，多层神经网络由输入层、隐含层和输出层组成；

S32：构建并优化分类预测模型，Dropout函数是指在深度学习网络的训练过程中，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃；

具体为，

采用多层神经网络，示意图如图7，由输入层、隐含层和输出层组成。首先，分析数据集中的相关数据，按照训练集：测试集为4：1的比例随机在1974全体样本中进行选取。

其次，构建并优化分类预测模型。Dropout函数是指在深度学习网络的训练过程中，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃。Dropout函数可以有效防止模型过拟合，提高泛化性。经过多次实验，得出参数为0.7时模型训练的准确度最高。之后用批量归一化不断对数据做标准化处理，将所有批数据强制在统一的数据分布下，再将其输入到下一层，使整个神经网络在各层的中间输出的数值更稳定，进而使深层神经网络更容易收敛。

最后，评价模型的准确性。Caco-2、CYP3A4、hERG、HOB、MN的准确性分别为92％、96％、89％、87％、97％。分析数据，0和1的数量在各样本中不平衡，数量多的类别会对损失函数的影响最大，从而主导训练过程。针对此问题，提出加权交叉熵WCE来抵消数据集中存在的类不平衡，使网络重视数量较少的类别。加权交叉熵WCE被定义为：

经加权交叉熵处理得到各样本的损失值如表1所示。

表1交叉熵损失值

	Caco-2	CYP3A4	hERG	HOB	MN
						交叉熵损失值	0.381	0.340	0.426	0.420	0.337

筛选数据得出大致范围：

目标是基于上述得到的结果，找到同时满足较高生物活性和较好ADMET性质的分子描述符，并确定其取值范围。生物活性即pIC50值可以视为一个连续变量，而对于ADMET的描述则为“0”、“1”这种离散型变量。提出一种统计学的方法

(1)对数据样本按照生物活性值和ADMET性质进行排序

根据初步选定前20个对生物活性最具有显著影响的分子描述符作为研究的基础。先对生物活性值pIC50的取值大小进行排序。ADMET性质排序是根据题目所给材料中对5个性质的实际意义进行符合程度的排序，5个性质分别取“0”和“1”，则ADMET共有32种编码形式。例如，若5个性质均表现为好，则ADMET的编码为“11010”，若5个性质中有一个性质不好，则ADMET的编码可能为“01010”、“10010”、“11110”、“11000”和“11011”，以此类推可得到3个、2个和1个性质较好时ADMET的编码。由此，对ADMET的编码按照满足5个性质较好、4个性质较好、3个性质较好、2个性质较好和1个性质较好的顺序进行排列。根据排序情况可以得到有634个化合物的ADMET性质满足3个性质较好的要求，有188个化合物的ADMET的性质满足4个性质较好的要求，有11个化合物的ADMET的性质满足5个性质较好的要求。从数据特征的稳定性和题目的实际情况出发，我们选择满足4个性质较好的188个化合物，以及生物活性值排名前188的化合物作为后续研究的对象。

(2)确定已求得20个分子描述符的取值范围

分别列出满足4个性质较好的188个化合物的数据集和生物活性值排名前188个化合物的数据集，为了使数据更具有集中性，在对各个分子描述符下的数值进行排序后，取中间90％的数据，将过大和过小的数值舍弃。取两个数据集中对应分子描述符下取值的交集，即得到同时满足生物活性和ADMET性质的20个分子描述符的取值范围。

(3)分子描述符降维处理

判断1974个样本数据中，分子描述符的取值范围在已得到的20个分子描述符的取值范围中的样本数据的个数。为了避免数据取值一致性过高对结果带来的影响，舍弃数据个数大于1000的分子描述符，这样就得到了9个分子描述符，分别为：“MDEC-23”、“MLogP”、“LipoaffinityIndex”、“maxsOH”、“nC”、“minsssN”、“BCUTp-1h”、“CrippenLogP”和“MLFER_A”得出其取值范围并在取值范围中取随机数验证数据合理性，有较高准确性。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种筛选化合物分子描述符并确定其取值范围的方法，其特征在于：包括以下步骤，

2.根据权利要求1所述的一种筛选化合物分子描述符并确定其取值范围的方法，其特征在于：所述步骤S1中筛选前20个对生物活性最具有显著影响的分子描述符，先分析现有数据，判断是否含有异常值，分子描述符是对分子的结构和物理化学属性的定量描述符号每个分子描述符都有其对应的物理化学意义；所述分析现有数据分别用皮尔逊相关系数和最大信息系数，所述皮尔逊相关系数公式为：

所述最大信息系数公式为：

3.根据权利要求1所述的一种筛选化合物分子描述符并确定其取值范围的方法，其特征在于：所述步骤S2中构建化合物对ERα生物活性的定量预测模型建立了神经网络、支持向量机、线性回归、随机森林、XGBoost和梯度提升6种回归模型，所述预测模型采用的性能评价指标是均方根误差RMSE和平均绝对误差MAE。

4.根据权利要求3所述的一种筛选化合物分子描述符并确定其取值范围的方法，其特征在于：所述随机森林算法框架包括以下步骤，

5.根据权利要求1所述的一种筛选化合物分子描述符并确定其取值范围的方法，其特征在于：所述步骤S3中的分类预测模型的构建包括以下，

S31：采用多层神经网络，所述多层神经网络由输入层、隐含层和输出层组成；

。