CN114496112B

CN114496112B - 一种基于多目标优化的抗乳腺癌药物成分智能量化方法

Info

Publication number: CN114496112B
Application number: CN202210069880.2A
Authority: CN
Inventors: 许志伟; 陈宙; 刘利民; 刘广文
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2022-01-21
Filing date: 2022-01-21
Publication date: 2023-10-31
Anticipated expiration: 2042-01-21
Also published as: CN114496112A

Abstract

本发明公开了一种基于多目标优化的抗乳腺癌药物成分智能量化方法。首先，在已有的化合物数据集上筛选影响ERα生物活性的主要分子描述符。然后，基于粒子群优化的神经网络构建化合物对ERα生物活性的定量预测模型。接着，以药物的吸收、分配、代谢、排泄和毒性(ADMET)的度量为目标，基于决策树构建化合物的ADMET特征的特性预测模型。最后，综合定量预测模型和特性预测模型，以帕累托(Pareto)优化理论为指导，构建基于多目标优化的遗传算法模型，找到满足最优目标的化合物(分子描述符的组合)，再利用蒙特卡罗假设检验，对得到的最优化目标的化合物进行抽样统计，并以特定的置信度来确定化合物中不同分子描述符的最佳取值范围。

Description

一种基于多目标优化的抗乳腺癌药物成分智能量化方法

技术领域

本发明属于人工智能技术领域，特别涉及一种基于多目标优化的抗乳腺癌药物成分智能量化方法。

背景技术

目前为止，科学家还未找到乳腺癌的确切致癌原因。经相关研究发现，乳腺癌的发生和发展与雌激素的作用密切相关，雌激素由其受体(estrogen receptor，ER)导引起ER结构发生改变，刺激各种与细胞生长有关的基因表达增高，诱导肿瘤细胞生长、增殖增速，并减弱对其基因的抑制作用，引起乳腺癌等恶性肿瘤。在基因水平上，ER受其相关基因调控，并且ER基因及其基因多态性与乳腺癌的发生、发展密切相关。而且雌激素受体型在不超过10％的正常乳腺上皮细胞中表达，但大约在50％-80％的乳腺肿瘤细胞中表达；而对ERα基因缺失小鼠的实验结果表明，ERα确实在乳腺发育过程中扮演十分重要的角色。

目前，抗激素治疗常用于Erα基因表达的乳腺癌患者，其通过调节雌激素受体活性来控制体内雌激素水平。因此，ERα被认为是治疗乳腺癌的重要靶标，能够拮抗ERα活性的化合物可能是治疗乳腺癌的候选药物。影响ERα活性的化合物种类繁多。因此找到不同化合物对ERα活性的影响作用至关重要。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于多目标优化的抗乳腺癌药物成分智能量化方法，以期找到不同化合物对ERα活性的影响程度，从而构建化合物的定量结构-活性关系对药物研发的影响，筛选出对乳腺癌的治疗产生积极作用的药物成分。

为了实现上述目的，本发明采用的技术方案是：

一种基于多目标优化的抗乳腺癌药物成分智能量化方法，包括如下步骤：

步骤1，在已有的化合物数据集上筛选影响ERα生物活性的主要分子描述符，步骤如下：

步骤1.1，采用随机森林模型分析分子描述符对ERα生物活性的影响，即分子描述符的重要程度，得出分子描述符的重要性排序；

步骤1.2，将分子描述符采用斯皮尔曼相关系数进行相关性分析，筛选出对ERα生物活性具有显著影响的分子描述符；

步骤2，基于粒子群优化的神经网络构建化合物对ERα生物活性的定量预测模型；

步骤3，基于决策树构建化合物的ADMET特征的特性预测模型；

步骤4，分子描述符最佳取值范围计算，步骤如下：

步骤4.1，综合定量预测模型和特性预测模型构建基于多目标优化的遗传算法模型；

步骤4.2，利用蒙特卡罗假设检验方法估计出分子描述符的最佳取值范围。

在一个实施例中，所述步骤1.1，采用随机森林算法在分类的基础上进行回归分析，通过将化合物及其分子描述符分类的结果进行运算，获得每个分子描述符的重要性程度，某一分子描述符重要性越大，表明该分子描述符对预测结果的影响越大，从而得到各个分子描述符对ERα生物活性的影响程度排名。

在一个实施例中，所述步骤1.2，通过多次筛选，提取出现次数超过预设值的分子描述符，然后使用斯皮尔曼相关系数对筛选出的分子描述符进行相关性分析，即，判断两个分子描述符之间是否具有相关性，以及它们之间相关强度的指标，当相关系数的绝对值越接近1时，越相关，斯皮尔曼相关系数ρ的表达公式为：

x_i,y_i表示筛选出的分子描述符中的第i个分子描述符，筛选出的分子描述符的总数为I，表示I个分子描述符重要程度的平均值；

通过计算各个分子描述符之间的相关性，过滤掉相似变量，依此筛选出具有相对独立性的分子描述符，即对ERα生物活性具有显著影响的分子描述符。

在一个实施例中，所述步骤2，构建包含1个输入层，10个隐藏层，1个输出层的神经网络，输入层为对ERα生物活性具有显著影响的分子描述符，输出层为预测的PIC50的值，计算公式如下：

y＝f(wx+b)

x代表输入的分子描述符，y代表预测的PIC50的值，w为输入层网络权重矩阵，b为阈值矢量，w和b的具体形式如下：

引入粒子群优化算法寻优以避免神经网络陷入局部最优解，其公式为：

其中，r₁和r₂为(0,1)区间服从均匀分布的随机数，c_1i和c_2i为学习因子，n为迭代次数，为迭代n次时粒子i的速度，/>为迭代n次时粒子i对应的个体的数量，/>和Gⁿ分别为粒子从初始到当前迭代n次搜索产生的局部最优解和全局最优解；

所述粒子，即分子描述符；所述个体，是将神经元之间所有的连接权值编码成的实数向量；随机生成这些向量的种群,按照算法原步骤迭代，迭代中新生成的个体向量还原成神经网络权值；所述种群，即个体的随机组合；所述局部最优解，指单个种群内产生的最接近PIC50的值；所述全局最优解，指全部种群产生的最接近PIC50的值

在一个实施例中，所述步骤2，使用定量预测模型进行结果预测，根据预测的PIC50的值检验是否符合结束条件，若符合，则停止迭代，输出定量预测模型的最终权值和阈值，如不符合，更新每个粒子的位置以及速度，并继续迭代，直到达到预期结果。

在一个实施例中，所述步骤3，采用分类回归树算法(CART)递归地构建二叉决策树，输入的随机变量为分子描述符，输出为化合物的ADMET特征的特性值，分别为小肠上皮细胞渗透性(Caco-2)、代谢稳定性(CYP3A4)、心脏毒性(hERG)、口服生物利用度(HOB)、遗传毒性(MN)，决策树的分支使用0或1分别代表该化合物是否具备某种化学性质的特性；然后递归地二分每个分子描述符，将输入空间即特征空间划分为有限个单元，并在这些单元上确定预测的概率分布，最后使用基尼系数作为数据纯度的量化指标，得到5个特性预测模型并预测最终的结果。

在一个实施例中，所述二叉决策树使用基尼系数作为选择最优特征，基尼系数代表模型的不纯度，基尼系数越小，则不纯度越低，特征越好，针对样本N，即化合物数据集，其具有K个类别，第k个类别的数量为C，则样本N的基尼系数Gini(N)的表达式为：

ADMET特征中，根据特征A的某个特性a，将样本N分成N₁和N₂两部分，则在特征A的条件下样本N的基尼系数Gini(N,A)的表达式为：

ADMET特征中，特征D、特征M、特征E、特征T的条件下样本N的基尼系数按照上式计算。

在一个实施例中，所述步骤4.1，结合定量预测模型和特性预测模型，综合考虑最大化活性和ADMET性质两个目标，并以Pareto优化理论为指导，构建基于多目标优化的遗传算法模型，多目标优化函数为：

Maxf(PIC5O)

f(Caco-2),f(CYP3A4)、f(HOB)、f(hERG)、f(MN)分别为化合物的ADMET特征的特性值为0或者1的常量值，表示异或计算；以PIC50的最大值和ADMET的5种特性值中达到其中3个为最优特性为目标，使五种特性都为1时最好，5种特性值的总和大于等于3时为最优化合物。

在一个实施例中，所述步骤4.2，利用蒙特卡罗假设检验构造多组统计实验，在重复采样得到的集合的基础上进行假设检验，实验覆盖化合物中包括的分子描述符，通过估计得出不同分子描述符的取值范围，使化合物对抑制ERα具有更好的ERα生物活性，同时具有更好的ADMET性质。

与现有技术相比，本发明的有益效果是：

本发明提出的构建基于多目标优化的遗传算法模型，在治疗癌症的过程，筛选出对癌症具有显著抑制效果的化合物。在该方法中使用多目标优化的抗乳腺癌药物成分智能筛选方法，成功筛选出最优目标的化合物(分子描述符组合)并确定出主要分子描述符的最佳区间范围。

附图说明

图1是本发明流程示意图。

图2是本发明多目标优化的遗传算法流程图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图，通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明包括如下步骤：

步骤1，在已有的化合物数据集上筛选影响ERα生物活性的主要分子描述符。

在一个具体的实施例中，本步骤的化合物数据集包含了1974个化合物以及相应的729个分子描述符，以分子描述符为变量，根据变量对ERα生物活性影响的重要性进行排序。并使变量尽可能具有代表性、独立性。需要以下几个步骤。

1)采用随机森林模型分析分子描述符对ERα生物活性的影响(即分子描述符的重要程度)，即，利用随机森林中的每个决策树计算每一节点的重要性，获取各个分子描述符对ERα生物活性的影响程度排名，得出每一种分子描述符变量对ERα生物活性的重要性，对排名结果保留前100个数据。

示例地，在该步骤中，由于ERα生物活性与分子描述符存在着非线性关系，所以采用随机森林算法在分类的基础上进行回归分析，通过将化合物及其分子描述符分类的结果进行运算，可以获得每个分子描述符的重要性程度，某一分子描述符重要性越大，则表明该分子描述符对预测结果的影响越大，从而得到各个分子描述符对ERα生物活性的影响程度排名。

随机森林是以K个决策树{h(X,θk),k＝1,2,...,K}为基本分类器，进行集成学习后得到的一个组合分类器。当输入待分类样本时，随机森林输出的分类结果由每个决策树的分类结果简单投票决定。这里的{θk,k＝1,2,...,K}是一个随机变量序列，它是由随机森林的两大随机化思想决定的：(1)Bagging思想：从原样本集X中有放回地随机抽取K个与原样本集同样大小的训练样本集，每个训练样本集Tk构造一个对应的决策树。(2)特征子空间思想：在对决策树每个节点进行分裂时，从全部属性中等概率随机抽取一个属性子集(通常取log2(M)+1个属性，M为特征总数)，再从这个子集中选择一个最优属性来分裂节点。

使用sklearn集成器中的随机森林算法，综合考虑到算法速度和算法准确率，设定K＝500，M＝150。运行即可得到分子描述符对ERα生物活性的影响程度排名。

2)将分子描述符采用斯皮尔曼相关系数进行相关性分析，筛选出对ERα生物活性具有显著影响的分子描述符。

示例地，在该步骤中，由于随机森林的排名结果并不稳定，因此需要通过多次排序，筛选提取频繁出现的分子描述符，然后使用斯皮尔曼相关系数对筛选出的变量做进一步的相关性分析，也就是判断两个分子描述符之间是否具有相关性，以及它们之间相关强度的指标，当相关系数的绝对值越接近1时，越相关，斯皮尔曼相关系数ρ的表达公式为：

通过上述方法，本步骤淘汰掉相关系数较大的描述符，筛选出具有独立性的20个分子描述符，如表1所示。

表1具有独立性的20个分子描述符表

步骤2，基于粒子群优化的神经网络构建化合物对ERα生物活性的定量预测模型。具体如下：

1)构建包含1个输入层，10个隐藏层，1个输出层的神经网络，输入层为对ERα生物活性具有显著影响的分子描述符，输出层为预测的样本PIC50的值，计算公式如下：

y＝f(wx+b)

2)由于多个分子描述符之间存在着高度非线性映射能力，容易导致定量预测模型陷入局部最优问题，为避免该问题，将粒子群优化算法与神经网络模型结合，并进行模型训练和验证。

其中粒子群优化算法寻优公式为：

其中r₁和r₂为(0,1)区间服从均匀分布的随机数，c_1i和c_2i为学习因子，n为迭代次数，为迭代n次时粒子i的速度，/>为迭代n次时粒子i对应的个体的数量，/>和Gⁿ分别为粒子从初始到当前迭代n次搜索产生的局部最优解和全局最优解；

所述粒子，即分子描述符；所述个体，是将神经元之间所有的连接权值编码成的实数向量；随机生成这些向量的种群，按照算法原步骤迭代，迭代中新生成的个体向量还原成神经网络权值；所述种群，即个体的随机组合；所述局部最优解，指单个种群内产生的最接近PIC50的值；所述全局最优解，指全部种群产生的最接近PIC50的值。

3)使用定量预测模型进行结果预测，根据预测的PIC50的值检验是否符合结束条件，若符合，则停止迭代，输出定量预测模型的最终权值和阈值，如不符合，更新每个粒子的位置以及速度，并继续迭代，直到达到预期结果。

本步骤将含有1974个化合物的数据集进行划分，80％用于训练，20％用于测试来验证模型的合理性。并根据选取的20个分子描述符预测的PIC50的值，经过检验所选的20个分子描述符符合结束条件，停止迭代过程，保存每个分子描述符对应的PIC50的值。

步骤3，基于决策树构建化合物对ADMET特征的特性预测模型。

具体地，本步骤采用分类回归树算法(CART)递归地构建二叉决策树，输入的随机变量为分子描述符，输出为化合物的ADMET特征的特性值，分别为小肠上皮细胞渗透性(Caco-2)、代谢稳定性(CYP3A4)、心脏毒性(hERG)、口服生物利用度(HOB)、遗传毒性(MN)，决策树的分支使用0或1分别代表该化合物是否具备某种化学性质的特性；然后递归地二分每个分子描述符，将输入空间即特征空间划分为有限个单元，并在这些单元上确定预测的概率分布，最后使用基尼系数作为数据纯度的量化指标，得到5个特性预测模型并预测最终的结果。

本发明二叉决策树可使用基尼系数作为选择最优特征，基尼系数代表模型的不纯度，基尼系数越小，则不纯度越低，特征越好，针对样本N，即化合物数据集，其具有K个类别，第k个类别的数量为C，则样本N的基尼系数Gini(N)的表达式为：

ADMET特征中，根据特征A的某个特性a，将样本N分成N₁和DN₂两部分，例如可以平分；则在特征A的条件下样本D的基尼系数Gini(DN,A)的表达式为：

由此，对化合物数据集，按照特征A中的Caco-2(a)特性分为两个类别，用0表示不含，1表示含，计算模型的基尼系数，判断模型的好坏。

本步骤通过进行模型训练与预测，得到5个特性模型的预测准确率，如表2所示。

表2模型准确率

ADMET	Caco-2	CYP3A4	hERG	HOB	MN
						Accuracy	0.905	0.924	0.890	0.878	0.943

步骤4，分子描述符最佳取值范围计算，步骤如下：

步骤4.1，参考图2，综合定量预测模型和特性预测模型构建基于多目标优化的遗传算法模型。即，将定量预测模型和特性预测模型输出到同一文件，综合考虑最大化活性和ADMET性质两个目标，以Pareto优化理论为指导，进而建立多目标优化的遗传算法模型。含有对ERα生物活性的影响程度排名靠前的分子描述符组合的化合物达到最好的PIC50值，且化合物有三种特性值为好，则为最优目标化合物。

具体地，本步骤多目标优化函数为：

Maxf(PIC50)

f(Caco-2)、f(CYP3A4)、f(HOB)、f(hERG)、f(MN)分别为化合物的ADMET特征的特性值为0或者1的常量值。

即，以PIC50的最大值和ADMET的5种特性值中达到其中3个为最优特性为目标。其中由于hERG和MN特性0代表好，所以用到异或符号使五种特性都为1时最好，5种特性值的总和大于等于3时则为最优化合物。

本发明采用的遗传算法编码公式为：

其中(b_i1，b_i2，…，b_il)为某个个体的第i段分量，设置每段段长均为1，每个b_ij是0或者1，代表特性的好坏，T_i和R_i是第i段分量的定义域的左右端点数值；

具体地，本步骤利用蒙特卡罗假设检验构造多组统计实验，在重复采样得到的集合的基础上进行假设检验，实验覆盖化合物中包括的分子描述符，通过估计得出不同分子描述符的取值范围，使化合物对抑制ERα具有更好的ERα生物活性，同时具有更好的ADMET性质。

由此，在重复采样得到的集合的基础上，构建置信度为α＝0.95的多组假设检验，覆盖化合物中包括的分子描述符的分布并进行估计，得到不同分子描述符的取值范围，如表3所示。

表3 20个分子描述符的区间范围

综上，本发明通过充分考虑了各分子描述符之间，各分子描述符与ERα生物活性之间的非线性关系，使用了随机森林回归、斯皮尔曼相关系数等适用于处理非线性特征的关系，保证准确性。所获得的主要分子描述符的药理意义明确，符合实际。针对主要分子描述符与ERα生物活性之间复杂的关系，利用基于粒子群优化的神经网络机器学习算法构建了准确的预测模型，在避免局部最优的前提下建模分子描述符与ERα生物活性之间的关系，模型具有较好的泛化能力和预测精度。综合考虑了确定分子描述符取值范围的过程中的优化约束，能够在多目标优化背景下完成最优分子描述符组合的发现，并利用蒙特卡洛假设检验确定相关分子描述符的范围。

以上，对本发明的具体实施方式做了具体描述，但是不应该认定本发明的具体实施只局限于这些说明。对于本发明所属领域的普通技术人员来说，在不脱离本发明构思和由权利要求书所限定的保护范围的前提之下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于多目标优化的抗乳腺癌药物成分智能量化方法，其特征在于，包括如下步骤：

步骤2，基于粒子群优化的神经网络构建化合物对ERα生物活性的定量预测模型，方法为：构建包含1个输入层，10个隐藏层，1个输出层的神经网络，输入层为对ERα生物活性具有显著影响的分子描述符，输出层为预测的PIC50的值，计算公式如下：

y＝f(wx+b)

所述粒子，即分子描述符；所述个体，是将神经元之间所有的连接权值编码成的实数向量；随机生成这些向量的种群，按照算法原步骤迭代，迭代中新生成的个体向量还原成神经网络权值；所述种群，即个体的随机组合；所述局部最优解，指单个种群内产生的最接近PIC50的值；所述全局最优解，指全部种群产生的最接近PIC50的值；

步骤3，基于决策树构建化合物的ADMET特征的特性预测模型，方法为：采用分类回归树算法(CART)递归地构建二叉决策树，输入的随机变量为分子描述符，输出为化合物的ADMET特征的特性值，决策树的分支使用0或1分别代表该化合物是否具备某种化学性质的特性；然后递归地二分每个分子描述符，将输入空间即特征空间划分为有限个单元，并在这些单元上确定预测的概率分布，最后使用基尼系数作为数据纯度的量化指标，得到5个特性预测模型并预测最终的结果；其中A表示小肠上皮细胞渗透性(Caco-2)、D表示代谢稳定性(CYP3A4)、M表示心脏毒性(hERG)、E表示口服生物利用度(HOB)、T表示遗传毒性(MN)；

步骤4，分子描述符最佳取值范围计算，步骤如下：

步骤4.1，结合定量预测模型和特性预测模型，综合考虑最大化活性和ADMET性质两个目标，并以Pareto优化理论为指导，构建基于多目标优化的遗传算法模型，多目标优化函数为：

Maxf(PIC50)

f(Caco-2)、f(CYP3A4)、f(HOB)、f(hERG)、f(MN)分别为化合物的ADMET特征的特性值为0或者1的常量值，表示异或计算；以PIC50的最大值和ADMET的5种特性值中达到其中3个为最优特性为目标，使五种特性都为1时最好，5种特性值的总和大于等于3时为最优化合物；

2.根据权利要求1所述基于多目标优化的抗乳腺癌药物成分智能量化方法，其特征在于，所述步骤1.1，采用随机森林算法在分类的基础上进行回归分析，通过将化合物及其分子描述符分类的结果进行运算，获得每个分子描述符的重要性程度，某一分子描述符重要性越大，表明该分子描述符对预测结果的影响越大，从而得到各个分子描述符对ERα生物活性的影响程度排名。

3.根据权利要求1所述基于多目标优化的抗乳腺癌药物成分智能量化方法，其特征在于，所述步骤1.2中，通过多次筛选，提取出现次数超过预设值的分子描述符，然后使用斯皮尔曼相关系数对筛选出的分子描述符进行相关性分析，即，判断两个分子描述符之间是否具有相关性，以及它们之间相关强度的指标，当相关系数的绝对值越接近1时，越相关，斯皮尔曼相关系数ρ的表达公式为：

4.根据权利要求1所述基于多目标优化的抗乳腺癌药物成分智能量化方法，其特征在于，所述步骤2，使用定量预测模型进行结果预测，根据预测的PIC50的值检验是否符合结束条件，若符合，则停止迭代，输出定量预测模型的最终权值和阈值，如不符合，更新每个粒子的位置以及速度，并继续迭代，直到达到预期结果。

5.根据权利要求1所述基于多目标优化的抗乳腺癌药物成分智能量化方法，其特征在于，所述二叉决策树使用基尼系数作为选择最优特征，基尼系数代表模型的不纯度，基尼系数越小，则不纯度越低，特征越好，针对样本N，即化合物数据集，其具有K个类别，第k个类别的数量为C，则样本N的基尼系数Gini(N)的表达式为：

6.根据权利要求1所述基于多目标优化的抗乳腺癌药物成分智能量化方法，其特征在于，所述步骤4.2中，利用蒙特卡罗假设检验构造多组统计实验，在重复采样得到的集合的基础上进行假设检验，实验覆盖化合物中包括的分子描述符，通过估计得出不同分子描述符的取值范围，使化合物对抑制ERα具有更好的ERα生物活性，同时具有更好的ADMET性质。