CN114360661A

CN114360661A - 基于群体智能优化模型的分子结构预测方法及相关设备

Info

Publication number: CN114360661A
Application number: CN202210014242.0A
Authority: CN
Inventors: 潘庆涛; 李�浩; 汤俊; 老松杨; 詹建军; 王浩森; 赵子鹏; 秦婉亭; 万宇; 陈曦
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-01-06
Filing date: 2022-01-06
Publication date: 2022-04-15
Anticipated expiration: 2042-01-06
Also published as: CN114360661B

Abstract

本申请提供一种基于群体智能优化模型的分子结构预测方法及相关设备。该方法包括：获取作用于疾病靶标的待预测化合物集中每个待预测化合物对应的第一分子描述符集；基于每个第一分子描述符集得到对应的第一取值信息集，将全部第一取值信息集作为第一数据信息集；将第一数据信息集输入预先构建的群体智能优化模型进行处理，输出待预测化合物集对应的分子结构信息，其中，群体智能优化模型基于预先构建的构效关系模型和经过预训练分类预测模型进行构建。能够使其在具备良好的生物活性的同时能够符合药代动力学性质和安全性要求，符合作为候选药物的化合物的条件。

Description

基于群体智能优化模型的分子结构预测方法及相关设备

技术领域

本申请涉及分子结构预测技术领域，尤其涉及一种基于群体智能优化模型的分子结构预测方法及相关设备。

背景技术

目前，乳腺癌已经成为了世界上最常见，致死率较高的癌症之一。乳腺癌的发展与雌激素受体密切相关。具体表现为：雌激素受体α亚型在不超过10％的正常乳腺上皮细胞中表达，但大约在50％-80％的乳腺肿瘤细胞中表达。现如今，抗激素治疗常用于雌激素受体α亚型表达的乳腺癌患者，其通过调节雌激素受体活性来控制体内雌激素水平。因此，雌激素受体α亚型被认为是治疗乳腺癌的重要靶标，同时，能够拮抗雌激素受体α亚型活性的化合物可能是治疗乳腺癌的候选药物。

基于上述情况，现有技术中通常筛选具有潜在活性化合物作为候选药物的化合物，但是一个化合物的活性再好，如果药代动力学性质不佳，比如很难被人体吸收，或者体内代谢速度太快，或者具有某种毒性，那么其仍然难以成为药物。

发明内容

有鉴于此，本申请的目的在于提出一种基于群体智能优化模型的分子结构预测方法及相关设备，用以解决或部分解决上述技术问题。

基于上述目的，本申请的第一方面提供了一种提供了基于群体智能优化模型的分子结构预测方法，包括：

获取作用于疾病靶标的待预测化合物集中每个待预测化合物对应的第一分子描述符集；

基于每个所述第一分子描述符集得到对应的第一取值信息集，将全部所述第一取值信息集作为第一数据信息集；

将所述第一数据信息集输入预先构建的群体智能优化模型进行处理，输出所述待预测化合物集对应的分子结构信息，

其中，所述群体智能优化模型基于预先构建的构效关系模型和经过预训练分类预测模型进行构建。

本申请的第二方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的方法。

从上面所述可以看出，本申请提供的基于群体智能优化模型的分子结构预测方法及相关设备，通过基于预先构建的构效关系模型和经过预训练的分类预测模型构建群体智能优化模型，使得经过群体智能优化模型确定待预测化合物相应的分子描述符，以及分子描述符的取值或者最佳取值范围，以此作为预测的分子结构，能够使该分子结构对抑制相应的疾病靶标具有更好的生物活性，同时具有更好的药代动力学性质和安全性，符合作为候选药物的化合物的条件。

附图说明

为了更清楚地说明本申请或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的基于群体智能优化模型的分子结构预测方法的流程图；

图2为本申请实施例的分类预测模型训练方法的流程图；

图3为本申请一个实施例的362个分子描述符的相对特征重要度的示意图；

图4为本申请一个实施例的相对特征重要度最大的前30个分子描述符的示意图；

图5为本申请一个实施例的利用XGBoost模型筛选出来30的分子描述符与因变量(生物活性)的皮尔逊相关系数热力图；

图6为本申请一个实施例的剩余20个变量的皮尔逊相关系数热力图；

图7为本申请一个实施例的特征值的碎石图；

图8为本申请一个实施例的利用主成分分析筛选出来的20个变量的的皮尔逊相关系数热力图；

图9为本申请一个实施例的神经网络的结构示意图；

图10-a，图10-b为本申请一个实施例的逐步回归可视化结果示意图；

图11为本申请一个实施例的迭代结果示意图；

图12为本申请实施例的基于群体智能优化模型的分子结构预测装置的结构示意图；

图13为本申请实施例的电子设备的示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本申请进一步详细说明。

需要说明的是，除非另外定义，本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

相关技术在药物研发过程中收集针对与疾病相关的某个靶标的化合物，通常筛选具有潜在活性化合物作为候选药物的化合物，但是一个化合物的活性再好，如果药代动力学性质不佳，比如很难被人体吸收，或者体内代谢速度太快，或者具有某种毒性，那么其仍然难以成为药物。

本申请的实施例提供一种基于群体智能优化模型的分子结构预测方法，能够得到待预测化合物集中相应待预测化合物对应的分子结构信息，能够使其在具备良好的生物活性的同时能够符合药代动力学性质和安全性要求。

如图1所示，本实施例的方法包括：

步骤101，获取作用于疾病靶标的待预测化合物集中每个待预测化合物对应的第一分子描述符集。

在该步骤中，待预测化合物为疾病靶标的拮抗剂，其中疾病可包括乳腺癌、肺癌、胰腺癌等。

步骤102，基于每个所述第一分子描述符集得到对应的第一取值信息集，将全部所述第一取值信息集作为第一数据信息集。

在该步骤中，基于每个第一分子描述符集得到对应的第一取值信息集，将全部第一取值信息集作为第一数据信息集，获取了全部待预测化合物信息，为进一步预测全部待预测化合物构造了基础条件。

其中，第一分子描述符集是指分子在某一方面性质的度量，既可以是分子的物理化学性质，也可以是根据分子结构通过各种算法推导出来的数值指标。

步骤103，将所述第一数据信息集输入预先构建的群体智能优化模型进行处理，输出所述待预测化合物集对应的分子结构信息，

在该步骤中，群体智能优化模型为基于人工电厂算法的优化模型，人工电厂算法通过模拟带电粒子在静电场的运动，将其演化成随机搜索最优解的过程。

基于预先构建的构效关系模型和经过预训练的分类预测模型构建群体智能优化模型，结合人工电厂算法得到同时满足构效关系模型和分类预测模型优化条件的分子结构信息。

分子结构信息具体指经群体智能优化模型输出得到的分子描述符，同时确定了该分子描述符的取值或者最佳取值范围，能够使待预测化合物对抑制相应的疾病靶标具有更好的生物活性，同时具有更好的药代动力学性质和安全性。

在上述方案中，将待预测化合物集的第一数据信息集输入基于预先构建的构效关系模型和经过预训练的分类预测模型构建群体智能优化模型，结合人工电厂算法，使得能够在同时满足构效关系模型和分类预测模型优化条件下随机搜索得到相应的分子结构信息，使待预测化合物对抑制相应的疾病靶标具有更好的生物活性，同时具有更好的药代动力学性质和安全性。

在一些实施例中，所述疾病靶标为乳腺癌疾病的雌激素受体α亚型靶标。

在该步骤中，疾病靶标可包括乳腺癌相关的靶标、肺癌相关的靶标、胰腺癌相关的靶标等，这里优先选取乳腺癌相关的靶标，选取的靶标为雌激素受体α亚型靶标。

其中，乳腺癌的发展与雌激素受体密切相关，具体表现为雌激素受体α亚型在不超过10％的正常乳腺上皮细胞中表达，但大约在50％-80％的乳腺肿瘤细胞中表达。雌激素受体α亚型在乳腺发育过程中扮演了十分重要的角色。现如今，抗激素治疗常用于雌激素受体α亚型表达的乳腺癌患者，其通过调节雌激素受体活性来控制体内雌激素水平。因此，雌激素受体α亚型被认为是治疗乳腺癌的重要靶标，同时，能够拮抗雌激素受体α亚型活性的化合物可能是治疗乳腺癌的候选药物。

在一些实施例中，在步骤103之前，还包括：

步骤1031，获取作用于疾病靶标的化合物集中每个化合物对应的第二分子描述符集、第一初始生物活性信息集和初始药代动力性质信息集。

步骤1032，基于每个所述第二分子描述符集得到对应的第二取值信息集，将全部所述第二取值信息集作为第二数据信息集。

步骤1033，对所述第二数据信息集进行预处理，得到处理后数据集。

步骤1034，基于所述处理后数据集构建筛选模型。

步骤1035，通过所述筛选模型对所述处理后数据集进行筛选，得到第一筛选数据集。

步骤1036，对所述第一筛选数据集进行相关性分析，得到筛选独立数据集。

步骤1037，基于所述筛选独立数据集和所述第一初始生物活性信息集构建构效关系模型。

步骤1038，基于所述筛选独立数据集和所述初始药代动力性质信息集得到经过预训练的分类预测模型。

步骤1039，基于所述构效关系模型和所述分类预测模型构建所述群体智能优化模型。

在上述方案中，获取作用于疾病靶标的化合物集中每个化合物对应的第二分子描述符集、第一初始生物活性信息集和初始药代动力性质信息集，获取了全部化合物的信息，为模型构建提供了基础条件，再通过对第二数据信息集进行预处理，初步优化筛选得到第一筛选数据集，基于筛选独立数据集和对应的第一初始生物活性信息集构建构效关系模型，通过构效关系模型可以预测具有更好生物活性的待预测化合物分子，或者指导已有活性待预测化合物的结构优化。之后基于筛选独立数据集和初始药代动力性质信息集得到经过预训练的分类预测模型，通过分类预测模型预测具有更好药代动力学性质和安全性的待预测化合物分子，最后通过基于构效关系模型和分类预测模型构建群体智能优化模型。

其中，构效关系模型为逐步回归模型，能够处理多变量间的相关性问题和预测，把实际值当做因变量，各种单项预测方法的预测值当做自变量，通过逐个添加或逐个删除单项预测方法，反复建模，找到最优的化合物的分子描述符关于雌激素受体生物活性的构效关系模型。

另外，这里的药代动力学性质和安全性指ADMET(Absorption吸收、Distribution分布、Metabolism代谢、Excretion排泄、Toxicity毒性)性质。

在一些实施例中，步骤1033具体包括：

对每个所述第二分子描述符集中相同序号的分子描述符对应的取值信息进行筛选，剔除所述取值信息相同序号对应的所述分子描述符，得到对应的第一筛选结果；

基于全部所述第一筛选结果剔除取值不完整的序号对应的所述分子描述符，得到对应的第二筛选结果；

响应于全部所述第二筛选结果中所述取值信息出现的数量大于预先设置的第一阈值，剔除相应序号的所述分子描述符，得到对应的第三筛选结果，将全部所述第三筛选结果作为所述处理后数据集。

在该步骤中，通过预处理剔除掉数值相同、数据不完整以及数值重复率大的分子描述符，保留与生物活性、药代动力学性质和安全性密切相关的分子描述符，避免了冗余的分子描述符的存在增加所构建的模型不稳定性的问题。

在一些实施例中，步骤1035具体包括：

将所述处理后数据集输入所述筛选模型，输出对应的所述第二初始生物活性信息集；

对所述第二初始生物活性信息集进行排序处理得到第三分子描述符集；

从所述第三分子描述符集中取预定数量的所述分子描述符作为所述第一筛选数据集。

在该步骤中，筛选模型为XGBoost模型，XGBoost模型利用boosting算法，是一种基于集成思想的加法模型。通过在目标函数中加入正则化项，可以防止XGBoost模型过拟合。此外，XGBoost模型是基于决策树的梯度提升算法，因此能够用来对特征的重要性进行排序，从而实现对第二初始生物活性信息集进行排序处理得到第三分子描述符集。

在一些实施例中，步骤1036具体包括：

对所述第一筛选数据集进行相关性分析，得到相关性结果；

基于所述相关性结果，剔除对应的所述分子描述符，得到筛选独立数据集。

在该步骤中，通过皮尔逊相关系数热力图对XGBoost模型得到的第一筛选数据集进行相关性分析，得到相关性结果，基于相关性结果，剔除独立性不强、代表性不够高的分子描述符，得到对生物活性值的预测误差最小，同时也对生物活性产生更显著的筛选独立数据集。

皮尔逊相关系数热力图基于皮尔逊相关系数表示，通常也称为r值，用于度量分子描述符与分子描述符之间的相关程度。相关系数越高表明两个分子描述符之间的关系越密切。皮尔逊相关系数公式如下：

其中，x_i和y_i表示两种分子描述符中对应的点位值。r的取值范围在1和-1之间，取值越接近1则正相关性越高，越接近-1则负相关性越高；当r取值接近0时，则相关程度越低。

在一些实施例中，在步骤1034之前，还包括：

对所述处理后数据集进行归一化处理，具体包括：

其中，X_k表示为所述化合物集中第i个化合物中对应所述第一分子描述符集中序号为j的所述分子描述符的所述取值信息；min(X_ij)和max(X_ij)分别表示为X_ij的极大值和极小值。

在该步骤中，分子描述符通过区间[0,1]的缩放来进行归一化处理，每种类型的原始数据本身所代表的意义不相同，且度量标准也不同(量纲大小差异)。如果直接使用分子描述符的原始数据来计算，必然会突显具有较大绝对值的变量而掩盖具有较小量纲的变量。因此，要将原始数据规范化，以减小或消除带来的影响。

在一些实施例中，如图2所示，步骤1037中的分类预测模型通过以下方法进行训练：

步骤201，构建预训练模型。

步骤202，将所述第二数据信息集划分为训练数据信息集和测试数据信息集。

步骤203，利用所述筛选模型对所述训练数据信息集进行筛选，得到第二筛选数据集。

步骤204，将所述第二筛选数据集输入所述预训练模型，输出药代动力性质信息预测集。

步骤205，响应于所述预训练模型得到的所述药代动力性质信息预测集和所述初始药代动力性质信息集的误差小于预先设置的第二阈值，将得到的所述预训练模型作为所述分类预测模型。

在上述方案中，预训练模型为基于支持向量机的模型，支持向量机采用了结构风险最小化策略，能够有效防止过拟合发生，同时通过分类预测模型得到相应的每种ADMET性质数据，基于获得的每种ADMET性质数据进一步筛选出对ADMET性质相关的分子描述符。

其中，第二数据信息集为对ADMET的五种性质影响最相关的数据信息集，这里涉及到了五种ADMET性质，分别是：

小肠上皮细胞渗透性，可用于度量化合物被人体吸收的能力；

细胞色素P450酶3A4亚型，作为人体内的主要代谢酶，可用于度量化合物的代谢稳定性；

化合物心脏安全性评价，可用于度量化合物的心脏毒性；

人体口服生物利用度，可用于度量药物进入人体后被吸收进入人体血液循环的药量比例；

微核试验，可用于检测化合物是否具有遗传毒性。

在一些实施例中，步骤103具体包括：

将所述第一数据信息集输入所述群体智能优化模型进行初始化处理，得到初始化数据集；

将所述初始化数据集通过所述群体智能优化模型中的所述构效关系模型和所述分类预测模型，输出待预测生物活性信息预测集和待预测药代动力性质信息预测集；

响应于输出的所述待预测生物活性信息预测集最小化和所述待预测药代动力性质信息预测集大于或等于预先设置的第三阈值，输出所述待预测化合物集对应的分子结构信息。

在该步骤中，群体智能优化模型为基于人工电厂算法的优化模型，针对庞大的搜索范围，人工电厂优化的方法具有较强的全局搜索能力，实现非线性优化。通过人工电厂算法模拟带电粒子在静电场的运动，在约束条件内不断地对体系进行结构优化，以此获得分子描述符取到最优解。

由于不同分子描述符的选择以及分子描述符取值的差异均会对生物活性产生显著影响，通过基于预先构建的构效关系模型和经过预训练的分类预测模型构建群体智能优化模型，结合人工电厂算法得到来对分子描述符进行选择并确定其最佳取值范围，以使化合物对抑制雌激素受体α亚型具有更好的生物活性，同时使ADMET性质中的五种性质中至少三种性质达到较好。

在一些实施例中，获取雌激素受体α亚型拮抗剂信息，包括1974个化合物样本，每个样本都有729个分子描述符变量(第二分子描述符集)，1个生物活性数据(第一初始生物活性信息集)，5个ADMET性质数据(初始药代动力性质信息集)，通过对全部化合物的729个分子描述符变量(第二数据信息集)进行预处理，剔除掉数值相同、数据不完整以及数值重复率大于90％的分子描述符，保留与ADMET性质密切相关的分子描述符，通过以下方式对雌激素受体α亚型拮抗剂信息中每个化合物对应的729个分子描述符变量进行预处理：

规则1：排除所有数值相同的分子描述符；在执行规则1的过程中，通过比较所有样本的同一个分子描述符中的最大值和最小值是否相同的方式，来剔除具有常量值的分子描述符，该过程共计剔除掉225个取值相同的分子描述符，剩下的504个描述符。所剔除掉的分子描述符的数字编号如表1所示。

表1利用规则1所剔除掉的变量

规则2：消除结果不完全的分子描述符；通过对执行规则1后的数据进行分析，数据中不存在取值不完整的分子描述符。

规则3：排除数值重复率高的分子描述符；当分子描述符中某个值出现的次数超过一定的阈值，则将该分子描述符进行剔除。这些分子描述符提供了相同的信息，而冗余描述符的存在可能会增加模型的不稳定性。将阈值设为90％，当某个分子描述符中出现某个值的次数超过样本个数的90％时，则将该分子描述符剔除。在利用规则1和规则2对729个分子描述符变量进行预处理的基础上，执行规则3，该过程共计剔除142个分子描述符，最终剩余362个分子描述符(处理后数据集)。该过程所剔除的分子描述符的数字编号如表2所示：

表2利用规则3所剔除掉的变量

综上，除去数值相同、数据不完整以及数值重复率大于90％的分子描述符后，影响化合物生物活性的分子描述符由原来的729个缩减到了362个。

接下来，将从这剩余的362个变量中筛选出对生物活性最具有显著影响的分子描述符。使用XGBoost模型(筛选模型)筛选分子描述符，经过数据集预处理后，将所剩余的1974个化合物的362个分子描述符作为XGBoost模型的输入，以生物活性值作为XGBoost模型的输出。使用标准化后数据对模型进行训练，输出362个分子描述符的重要性排序(第三分子描述符集)，如图3所示；如图4所示表示的是排序中的前30个分子描述符(第一筛选数据集)；直接从中选择前20个分子描述符，汇总如表3所示：

表3根据XGBoost直接选出特征得分最高的前20个变量

1974个化合物的729个分子描述符，经过剔除数值相同、数据不完整以及数值重复率大于90％的分子描述符的处理后，对剩余的362个分子描述符的原始数据再进行标准化，如果直接使用描述符的原始数据来计算，必然会突显具有较大绝对值的变量而掩盖具有较小量纲的变量。因此，在建模之前要将原始数据规范化，以减小或消除上述因素带来的影响。分子描述符参数通过区间[0,1]的缩放来进行归一化处理，具体的标准化方法如下：

其中，X_k为第i个化合物的第j个分子描述符的取值；i＝1,2,...,1974；j＝1,2,...,362；min(X_ij)和max(X_ij)分别为X_ij的极大值和极小值。

然后利用XGBoost模型得出前20个对生物活性最具有显著影响的分子描述符，通过皮尔逊相关系数分析对利用XGBoost模型所筛选出来的特征重要性排名前30的分子描述符进行相关性分析。皮尔逊相关系数，通常也称为r值，用于度量变量与变量之间的相关程度。相关系数越高表明两个变量之间的关系越密切。皮尔逊相关系数公式如下：

其中，xi和y_i表示两种变量中对应的点位值。r的取值范围在1和-1之间，取值越接近1则正相关性越高，越接近-1则负相关性越高；当r取值接近0时，则相关程度越低。如图5所示，表示利用XGBoost所筛选出来30的分子描述符与因变量(生物活性)的皮尔逊相关系数热力图。

图5中两个变量交叉处的方框颜色越深，代表两个变量之间具有较高的相关性。根据图5可知，利用XGBoost模型筛选出来的前30个分子描述具有较高的相关性。相关变量之间，除了某些特殊变量存在极高的相关性外，大部分变量之间相互保持较高的独立性。热力图说明两方面问题：其一，30个变量中确实存在有效变量；其二，仍需要进一步对特征进行筛选，将独立性不强、代表性不够高的数据筛选出去。因而，从前30个变量中剔除相关系数较高的10个变量，将剩余的20个变量作为筛选结果(筛选独立数据集)，所剩余20个变量的皮尔逊相关系数热力图如图6所示。根据图6，可以发现筛选出的20个变量之间的相关性明显降低，具有较高的独立性。

此外，再使用主成分分析筛选分子描述符，通过对1974个化合物的729个分子描述符进行主成分分析，最终从729个分子描述符中筛选出37个主成分。在进行主成分分析时，输入的是经过预处理后的处理后数据集。其中，在排除高度相关的分子描述符的过程中，阈值设为90％。用主成分的得分代替特征参数来描述化合物的生物活性，各主成分的贡献率、累计贡献率如表4所示。

表4各主成分贡献率和累积贡献率

根据得到的各个成分的方差贡献，因为必须根据85％的标准确定主成分，而表中第一个主成分的方差贡献为25.331％，贡献最大，第二个主成分的方差贡献为12.740％，第三主成分的为9.901％，直到第二十个主成分时，累计贡献率已经达到85.161％，几乎包含了362个定义的特征参数的绝大部分信息。综上，选择方差累积贡献率为85.161％时的前二十个主成分，这二十个个主要成分包含原始化合物分子的大部分有用结构信息。根据表中特征值做出碎石图，如图7所示，每一个特征称为1个因子，总共有362个特征，即362个因子。通过分析碎石图可知，二十个因子之后折线就变得平缓了，说明前二十个主成分的表达效果较好。

如图8所示，展示了通过主成分分析所筛选出来的20个变量的相关性，通过对比三幅热力图，发现利用主成分分析方法所筛选出来的变量之间相互保持较高的独立性，说明利用该模型对变量进行降维的效果更佳，所筛选出来的变量更合理。

从三组变量中筛选出一组对生物活性最具有显著影响的分子描述符，并对比预测误差，将预测误差最小的那一组变量作为最终筛选出的分子描述符，

其中三组变量为：根据XGBoost模型直接选出特征得分最高的前20个变量(用XGBoost_20表示)；

根据相关性系数从前30个变量中剔除10个得到的剩余20个变量(用Co_XGBoost_20表示)；

利用主成分分析筛选出来的20个变量(用主成分分析_20表示)。

分别作为神经网络模型、逐步回归模型、多元线性回归模型和多元二次非线性回归模型(预测模型)的自变量，以预测雌激素雌激素受体α亚型生物活性的训练表中的化合物的IC50值，并求得预测值和真实值的误差，具体结果如表5所示。表5中的数值表示分别以上述三种不同方式所筛选出来的20个分子描述符变量，构建化合物对雌激素雌激素受体α亚型生物活性的定量预测模型，所得到的真实值和预测值之间的平均误差。

表5各个预测模型在各个数据集上的平均误差

通过对表5进行分析可知，根据XGBoost模型直接选出特征得分最高的前20个变量所构建的逐步回归模型，对生物活性值的预测误差最小，说明这20个变量更合理，同时也对生物活性产生更显著的影响。综上，表3即为最终确定下来的前20个对生物活性最具有显著影响的分子描述符：naAromAtom,nAtom,nBondsS3,nBondsD2,nHBa,nwHBa,nHBint9,nHCsats,SsssCH,maxHBint5,maxHdsCH,maxaaO,ETA_Beta_ns,ETA_Beta_ns_d,nAtomP,MDEN-23,n6Ring,nFRing,nT6Ring,LipinskiFailures。

从所筛选出的20个对生物活性最具有显著影响的分子描述符中选择部分子描述符变量；其次，再以一系列分子结构描述符作为自变量，化合物的生物活性值作为因变量，构建化合物对雌激素受体α亚型生物活性的定量结构-活性关系模型(构效关系模型)；最后使用构建的定量结构-活性关系模型，对待预测雌激素雌激素受体α亚型生物活性的测试表中的50个化合物进行IC50值和对应的pIC50值预测。

构建如图9所示的神经网络。将1974个化合物按照一定的比例划分成训练集和测试集。其中神经网络的输入层为20维，表示训练样本对应的20个分子描述符；隐藏层设置成2层，维度分别为50维和20维，用来学习输入到神经网络中的变量的特征，激活函数选择Sigmoid，输出为每个样本对应的对雌激素受体α亚型的生物活性值。分别利用XGBoost模型、相关性系数和主成分分析这三种方式筛选出来的20个分子描述符作为输入变量，对神经网络进行训练，得到在测试集上的误差值汇总如表6所示：

表6神经网络在各个数据集上的预测误差

由表6可知，不管选择的是利用何种方式筛选出的20个分子描述符，并且不管在训练之前对20个变量所对应的原始数据是否进行归一化，使用神经网络训练的生物活性预测模型的误差均大于1，说明神经网络化合物对雌激素受体α亚型生物活性的定量预测不具有很好的适用性。原因在于，所提供的样本数量较少，模型在训练过程中出现了过拟合的现象。为此，进一步通过经典的回归方法，来构建化合物对雌激素受体α亚型生物活性的定量结构-活性关系模型。

通过逐步回归模型、多元线性回归模型和多元二次非线性回归模型作为定量结构-活性关系模型，对三种模型进行对比，选出精度最高的模型作为最终的构效关系模型，

如图10，图11所示，Coeff.是回归系数，Intercept是常数项，R-square是回归模型的判定系数，即拟合度，等于1时为完全拟合。因而可以得到化合物对雌激素受体α亚型生物活性Y的定量预测模型为：

Y＝-24.5045X₂+8.59088X₃-11.842X₄+5.23279X₅+16.4388X₆

+8.58756X₇+15.7966X₈+4.77645X₉+0.615812X₁₀-0.627715X₁₂

-8.13832X₁₃-0.464074X₁₅-1.48568X₁₇-1.08984X₁₉-0.69302X₂₀

其中，各个变量对应的分子描述符见表7。

表7各个变量对应的分子描述符

通过逐步回归的方式，从20个变量中选出了其中的部分变量作为预测模型的自变量。并且如图10-a，图10-b所示，从两幅图下方的ModelHistory可以观察到，随着逐步回归的进行，RMSE(标准误差)的值逐渐减小，说明预测的精度也在逐渐提升。

表8展示了以上三种回归模型在六类数据集上的表现，分析表8可知：三类回归模型在归一化后的数据集上明显比在相应的未归一化数据集上的预测结果好，多元线性回归和多元二次非线性回归的预测结果相同，而逐步回归在六类数据集上预测的平均误差最小，并且选择XGBoost模型筛选出来的20个变量构建的逐步回归模型效果达到最佳。这是因为从逐步回归的原理来看，逐步回归是多元线性回归和多元二次非线性回归两种方法的结合，可以自动使得方程的因子设置最合理。

表8各个预测模型在不同数据集上的预测误差

利用逐步回归模型对雌激素受体α亚型测试表中的50个化合物进行IC50值和对应的pIC50值预测，如表9所示。

表950个化合物的预测IC50值和对应的pIC50值

通过获取的729个分子描述符，对1974个化合物的ADMET性质数据，分别构建化合物的Caco-2、CYP3A4、hERG、HOB、MN的分类预测模型，然后使用所构建的5个基于支持向量机的分类预测模型(分类预测模型)，对ADMET性质数据测试表中的50个化合物进行相应的预测。

通过筛选模型针对ADMET性质每个性质筛选出来与该性质最相关的20个分子描述符，将1974个化合物的每个性质所对应的20个分子描述符作为模型的输入，并按照4：1的比例将样本划分为训练集和测试集。如果基于支持向量机的分类预测模型在各个维度进行不均匀的伸缩，那么最优解将会与原来不等价，故而在构建基于支持向量机的分类预测模型的过程中，不对输入数据进行归一化处理；其次，训练支持向量机分类器，并将最大迭代次数设置为300。最后，当达到最大迭代次数时，训练结束，并输出在测试集上的准确率，如表10所示。表11给出了利用训练好的支持向量机模型对ADMET性质数据测试表中的50个化合物进行相应预测的结果。

表10模型在各个性质上的分类准确率

表11 50个化合物ADMET性质的预测分类

不同分子描述符的选择以及分子描述符取值的差异均会对生物活性产生显著影响，因此，通过基于人工电场算法的优化模型(群体智能优化模型)确定待预测化合物中相应的分子描述符，以及这些分子描述符的取值或者处于具体的取值范围时，能够使化合物对抑制雌激素受体α亚型具有更好的生物活性，同时具有更好的ADMET性质(给定的五个ADMET性质中，至少三个性质较好)。

通过基于人工电场算法的优化模型在搜索空间中，随机初始化种群，具体做法是：令每个解的每一维，随机取该维度对应的变量在样本最小值和最大值之间的某一个值；其次，计算每个个体对应的目标函数值，具体做法是：将每个个体所代表的解代入到建立的构效关系模型中，该个体应当能够使得IC50的值最小，并且还要同时使得分类预测模型预测出的五个性质中至少三个性质较好，即要求关于ADMET性质的五种ADMET类型对应的五个分类预测模型输出值的总和大于等于3，若小于3，则引入惩罚因子，即在第一个目标函数后面加上一个较大的数，作为对该项的惩罚，直到达到迭代次数为止；最后，输出最优解，结束循环。在应用人工电场算法求解的过程中，初始种群的个数为100，最大迭代次数设为3000，当五个分类预测模型输出值的总和小于3时，惩罚因子设置为100；等于3时，设置为50；等于4时，设置为10。如图11所示，展示了个体迭代的情况，根据该图可知，迭代到第50代左右，算法已经收敛。表13为20个描述符的初始取值范围。迭代得到的最优解值如表12所示，此时pIC50达到最大，为18.003；当分子描述符取到最优解时，化合物在CYP3A4、hERG和MN三个指标上达标，符合药代动力学性质要求。

表12优化模型迭代搜索得到的最优化合物分子描述符值

表13优化时分子描述符的初始取值范围

需要说明的是，本申请实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种基于群体智能优化模型的分子结构预测装置。

参考图12，所述基于群体智能优化模型的分子结构预测装置，包括：

第一获取模块1201，被配置为获取作用于疾病靶标的待预测化合物集中每个待预测化合物对应的第一分子描述符集；

第二获取模块1202，被配置为基于每个所述第一分子描述符集得到对应的第一取值信息集，将全部所述第一取值信息集作为第一数据信息集；

预测模块1203，将所述第一数据信息集输入预先构建的群体智能优化模型进行处理，输出所述待预测化合物集对应的分子结构信息，

在一些实施例中，所述基于群体智能优化模型的分子结构预测装置还包括综合处理模块，用以在将所述第一数据信息集输入预先构建的群体智能优化模型之前，具体被配置为：

第一获取单元，被配置为获取作用于疾病靶标的化合物集中每个化合物对应的第二分子描述符集、第一初始生物活性信息集和初始药代动力性质信息集；

第二获取单元，被配置为基于每个所述第二分子描述符集得到对应的第二取值信息集，将全部所述第二取值信息集作为第二数据信息集；

第一处理单元，对所述第二数据信息集进行预处理，得到处理后数据集；

第一构建单元，基于所述处理后数据集构建筛选模型；

筛选单元，通过所述筛选模型对所述处理后数据集进行筛选，得到第一筛选数据集；

第二处理单元，对所述第一筛选数据集进行相关性分析，得到筛选独立数据集；

第二构建单元，基于所述筛选独立数据集和所述第一初始生物活性信息集构建构效关系模型；

第三构建单元，基于所述筛选独立数据集和所述初始药代动力性质信息集得到经过预训练的分类预测模型；

第四构建单元，基于所述构效关系模型和所述分类预测模型构建所述群体智能优化模型。

在一些实施例中，第一处理单元具体被配置为：

对每个所述第二分子描述符集中相同序号的分子描述符对应的取值信息进行筛选，剔除所述取值信息相同序号对应的所述分子描述符，得到对应的第一筛选结果；基于全部所述第一筛选结果剔除取值不完整的序号对应的所述分子描述符，得到对应的第二筛选结果；响应于全部所述第二筛选结果中所述取值信息出现的数量大于预先设置的第一阈值，剔除相应序号的所述分子描述符，得到对应的第三筛选结果，将全部所述第三筛选结果作为所述处理后数据集。

在一些实施例中，筛选单元具体被配置为：

将所述处理后数据集输入所述筛选模型，输出对应的所述第二初始生物活性信息集；对所述第二初始生物活性信息集进行排序处理得到第三分子描述符集；从所述第三分子描述符集中取预定数量的所述分子描述符作为所述第一筛选数据集。

在一些实施例中，第二处理单元具体被配置为：

对所述第一筛选数据集进行相关性分析，得到相关性结果；基于所述相关性结果，剔除对应的所述分子描述符，得到筛选独立数据集。

在一些实施例中，所述基于群体智能优化模型的分子结构预测装置还包括归一处理模块，用以在基于所述处理后数据集构建筛选模型之前，被配置为：

对所述处理后数据集进行归一化处理，具体被配置为：

在一些实施例中，第三构建单元具体被配置为：

构建预训练模型；将所述第二数据信息集划分为训练数据信息集和测试数据信息集；利用所述筛选模型对所述训练数据信息集进行筛选，得到第二筛选数据集；将所述第二筛选数据集输入所述预训练模型，输出药代动力性质信息预测集；响应于所述预训练模型得到的所述药代动力性质信息预测集和所述初始药代动力性质信息集的误差小于预先设置的第二阈值，将得到的所述预训练模型作为所述分类预测模型。

在一些实施例中，预测模块1203具体被配置为：

将所述第一数据信息集输入所述群体智能优化模型进行初始化处理，得到初始化数据集；将所述初始化数据集通过所述群体智能优化模型中的所述构效关系模型和所述分类预测模型，输出待预测生物活性信息预测集和待预测药代动力性质信息预测集；响应于输出的所述待预测生物活性信息预测集最小化和所述待预测药代动力性质信息预测集大于或等于预先设置的第三阈值，输出所述待预测化合物集对应的分子结构信息。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的基于群体智能优化模型的分子结构预测方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的基于群体智能优化模型的分子结构预测方法。

图13示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1301、存储器1302、输入/输出接口1303、通信接口1304和总线1305。其中处理器1301、存储器1302、输入/输出接口1303和通信接口1304通过总线1305实现彼此之间在设备内部的通信连接。

处理器1301可以采用通用的CPU(Central ProcessingUnit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1302可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1302可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1302中，并由处理器1301来调用执行。

输入/输出接口1303用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1304用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1305包括一通路，在设备的各个组件(例如处理器1301、存储器1302、输入/输出接口1303和通信接口1304)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1301、存储器1302、输入/输出接口1303、通信接口1304以及总线1305，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的基于群体智能优化模型的分子结构预测方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的基于群体智能优化模型的分子结构预测方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的基于群体智能优化模型的分子结构预测方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本申请的范围(包括权利要求)被限于这些例子；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本申请实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本申请实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本申请的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本申请的具体实施例对本申请进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本申请实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于群体智能优化模型的分子结构预测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述疾病靶标为乳腺癌疾病的雌激素受体α亚型靶标。

3.根据权利要求1所述的方法，其特征在于，在将所述第一数据信息集输入预先构建的群体智能优化模型之前，所述方法还包括：

获取作用于疾病靶标的化合物集中每个化合物对应的第二分子描述符集、第一初始生物活性信息集和初始药代动力性质信息集；

基于每个所述第二分子描述符集得到对应的第二取值信息集，将全部所述第二取值信息集作为第二数据信息集；

对所述第二数据信息集进行预处理，得到处理后数据集；

基于所述处理后数据集构建筛选模型；

通过所述筛选模型对所述处理后数据集进行筛选，得到第一筛选数据集；

对所述第一筛选数据集进行相关性分析，得到筛选独立数据集；

基于所述筛选独立数据集和所述第一初始生物活性信息集构建构效关系模型；

基于所述筛选独立数据集和所述初始药代动力性质信息集得到经过预训练的分类预测模型；

基于所述构效关系模型和所述分类预测模型构建所述群体智能优化模型。

4.根据权利要求3所述的方法，其特征在于，所述对所述第二数据信息集进行预处理，得到处理后数据集，具体包括：

5.根据权利要求3所述的方法，其特征在于，所述通过所述筛选模型对所述处理后数据集进行筛选，得到第一筛选数据集，具体包括：

6.根据权利要求3所述的方法，其特征在于，所述对所述第一筛选数据集进行相关性分析，得到筛选独立数据集，具体包括：

对所述第一筛选数据集进行相关性分析，得到相关性结果；

7.根据权利要求3所述的方法，其特征在于，在基于所述处理后数据集构建筛选模型之前，还包括：

对所述处理后数据集进行归一化处理，具体包括：

8.根据权利要求3所述的方法，其特征在于，所述分类预测模型通过以下方法进行训练：

构建预训练模型；

将所述第二数据信息集划分为训练数据信息集和测试数据信息集；

利用所述筛选模型对所述训练数据信息集进行筛选，得到第二筛选数据集；

将所述第二筛选数据集输入所述预训练模型，输出药代动力性质信息预测集；

响应于所述预训练模型得到的所述药代动力性质信息预测集和所述初始药代动力性质信息集的误差小于预先设置的第二阈值，将得到的所述预训练模型作为所述分类预测模型。

9.根据权利要求1所述的方法，其特征在于，所述将所述第一数据信息集输入预先构建的群体智能优化模型，输出所述待预测化合物集对应的分子结构信息，具体包括：

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至9任意一项所述的方法。