CN114334033A

CN114334033A - 抗乳腺癌候选药物分子描述符的筛选方法、系统及终端

Info

Publication number: CN114334033A
Application number: CN202111663622.9A
Authority: CN
Inventors: 陈家锐; 杨培浩; 李升�; 林慧贤
Original assignee: Guangdong Ocean University
Current assignee: Guangdong Ocean University
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-12
Anticipated expiration: 2041-12-31
Also published as: CN114334033B

Abstract

本发明公开了抗乳腺癌候选药物分子描述符的筛选方法、系统及终端，涉及医学数据挖掘技术领域，其技术方案要点是：获取多个化合物对ERα的生物活性数据，每个化合物配置有多个分子描述符，得到由分子描述符组成的自变量集；基于LASSO回归方法建立初步筛选模型，以初步筛选模型对自变量集进行降维处理，得到变量系数不为零的初筛变量集；基于随机森林递归特征消除法建立变量筛选模型，以变量筛选模型对初筛变量集对初筛变量集进行迭代特征选择，得到分类精度最高的最优特征变量组合。本发明能够较好的从大量数据中筛选出最具显著影响的分子描述符，具有效率高、可靠性强以及智能化实现等特点。

Description

抗乳腺癌候选药物分子描述符的筛选方法、系统及终端

技术领域

本发明涉及医学数据挖掘技术领域，更具体地说，它涉及抗乳腺癌候选药物分子描述符的筛选方法、系统及终端。

背景技术

在我国，乳腺癌的发病率呈逐年上升趋势，每年有30余万女性被诊断出乳腺癌。从发病年龄来看，我国乳腺癌发病率从20岁以后开始逐渐上升，45～50岁达到高值。乳腺癌是乳腺上皮细胞在多种致癌因子的作用下，发生增殖失控的现象。作为一种激素依赖性肿瘤，是目前世界上最常见且致死率较高的癌症之一。

乳腺癌的发生、发展与雌激素受体α亚型(Estrogen receptors alpha,ERα)的表达密切相关。研究发现，雌激素受体ERα在50％-80％的乳腺肿瘤细胞中表达。而ERα的活性pIC₅₀值有关，pIC₅₀值越大表明生物活性越高，对抑制ERα活性越有效。因此，能够拮抗ERα活性的化合物可能是治疗乳腺癌的候选药物。近年来，数据挖掘技术通过揭示大量的数据中隐藏着未知的且具有潜在价值的信息，而引起了广大的关注，并提供给人们做决策。在药物研发中，因变量和自变量的切换频率较高、数据量较大，传统的人工处理、简单计算机分析已不能满足研究人员的需求。

因此，如何研究设计一种时间成本低、分析效率高的抗乳腺癌候选药物分子描述符的筛选方法、系统及终端是我们目前急需解决的问题。

发明内容

为解决现有技术中的不足，本发明的目的是提供抗乳腺癌候选药物分子描述符的筛选方法、系统及终端，建立化合物活性筛选模型来选择对活性具有显著影响的分子描述符，用来筛选潜在活性化合物或者预测新的化合物，具有效率高、可靠性强以及智能化实现等特点。

本发明的上述技术目的是通过以下技术方案得以实现的：

第一方面，提供了抗乳腺癌候选药物分子描述符的筛选方法，包括以下步骤：

获取多个化合物对ERα的生物活性数据，每个化合物配置有多个分子描述符，得到由分子描述符组成的自变量集；

基于LASSO回归方法建立初步筛选模型，以初步筛选模型对自变量集进行降维处理，得到变量系数不为零的初筛变量集；

基于随机森林递归特征消除法建立变量筛选模型，以变量筛选模型对初筛变量集对初筛变量集进行迭代特征选择，得到分类精度最高的最优特征变量组合。

进一步的，所述分子描述符为用于描述化合物的结构和性质特征的参数。

进一步的，所述初步筛选模型对自变量集进行降维处理时，综合考虑训练精度和正则化参数变化情况来确定实际降维处理的正则化参数取值。

进一步的，所述正则化参数取值的确定过程具体为：

获取不同惩罚项所对应的精度结果；

以惩罚项为横轴、精度结果为纵轴建立平滑拟合曲线；

分析得到平滑拟合曲线中不同惩罚项对应的曲线斜率绝对值；

将曲线斜率绝对值和惩罚项相乘计算得优先值；

以优先值最大的惩罚项所对应的正则化参数作为最终确定的正则化参数取值。

进一步的，所述初步筛选模型的计算公式具体为：

其中，J(θ)表示真实值与预测值的变量；θ表示回归系数；h_θ(x)⁽ⁱ⁾表示预测第i个样本的值；y⁽ⁱ⁾表示真实第i个样本的值，i∈[1,m]；m表示样本个数；n表示参数个数；α表示正则化参数，随着α的增大，各变量的系数会逐渐趋于零；x为自变量，表示分子描述符；y为因变量，表示生物活性；θ_j表示第j个变量的回归系数。

进一步的，所述最优特征变量组合的获得过程具体为：

将初筛变量集中的k个特征作为初始特征子集输入到随机森林分类器中，计算得到每个特征的重要性，并利用交叉验证方法得到初始特征子集的分类精度；

从当前特征子集中移除特征重要性最低的一个特征，得到一个新的特征子集，再次输入到随机森林分类器中，计算新的特征子集中每个特征的重要性，并利用交叉验证方法得到新的特征子集的分类精度；

递归的重复上述步骤，直至特征子集为空，最后得到k个不同特征数量的特征子集，选择分类精度最高的特征子集作为最优特征组合。

进一步的，该筛选方法还包括：

通过Pearson相关系数来度量最优特征变量组合中两个变量之间的相关程度，并建立相关系数热力分析图；

识别出相关系数热力分析图中相关系数的正负分布情况，依据正负分布情况将最优特征变量组合的变量分为正相关变量集和负相关变量集。

第二方面，提供了抗乳腺癌候选药物分子描述符的筛选系统，包括：

数据采集模块，用于获取多个化合物对ERα的生物活性数据，每个化合物配置有多个分子描述符，得到由分子描述符组成的自变量集；

初筛模块，用于基于LASSO回归方法建立初步筛选模型，以初步筛选模型对自变量集进行降维处理，得到变量系数不为零的初筛变量集；

终筛模块，用于基于随机森林递归特征消除法建立变量筛选模型，以变量筛选模型对初筛变量集对初筛变量集进行迭代特征选择，得到分类精度最高的最优特征变量组合。

第三方面，提供了一种计算机终端，包含存储器、处理器及存储在存储器并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面中任意一项所述的抗乳腺癌候选药物分子描述符的筛选方法。

第四方面，提供了一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行可实现如第一方面中任意一项所述的抗乳腺癌候选药物分子描述符的筛选方法。

与现有技术相比，本发明具有以下有益效果：

1、本发明提出的抗乳腺癌候选药物分子描述符的筛选方法，通过分子描述符表征化合物对ERα的生物活性数据，并基于LASSO回归、随机森林递归特征消除两种算法对数据进行有效降维，能够较好的从大量数据中筛选出最具显著影响的分子描述符，可用于筛选潜在活性化合物或者预测新的化合物，具有效率高、可靠性强以及智能化实现等特点；

2、本发明通过综合考虑了训练精度和正则化参数变化情况来确定实际降维处理的正则化参数取值，使得初筛变量集的筛选更加合理，即在降低初筛变量集的整体数量的基础上，能够有效避免具有影响的分子描述符漏选，达到了数量和筛选质量的平衡；

3、本发明还通过皮尔逊相关系数来分析主要变量的相关性，实现了最优特征变量组合中不同变量的正相关和负相关的自动划分。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1是本发明实施例中的整体流程图；

图2是本发明实施例中初步筛选模型的筛选结果示意图；

图3是本发明实施例中平滑拟合曲线的示意图；

图4是本发明实施例中变量筛选模型的筛选结果示意图；

图5是本发明实施例中分子描述符的重要程度分析图；

图6是本发明实施例中的相关系数热力分析图；

图7是本发明实施例中的系统框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例：抗乳腺癌候选药物分子描述符的筛选方法，如图1所示，包括以下步骤：

S1：获取多个化合物对ERα的生物活性数据，每个化合物配置有多个分子描述符，得到由分子描述符组成的自变量集；

S2：基于LASSO回归方法建立初步筛选模型，以初步筛选模型对自变量集进行降维处理，得到变量系数不为零的初筛变量集；

S3：基于随机森林递归特征消除法建立变量筛选模型，以变量筛选模型对初筛变量集对初筛变量集进行迭代特征选择，得到分类精度最高的最优特征变量组合。

分子描述符为用于描述化合物的结构和性质特征的参数,包括物理化学性质、拓扑结构特征等等，物理化学性如分子量、LogP等，拓扑结构特征如氢键供体数量、氢键受体数量等。

初步筛选模型对自变量集进行降维处理时，综合考虑训练精度和正则化参数变化情况来确定实际降维处理的正则化参数取值。

正则化参数取值的确定过程具体为：获取不同惩罚项所对应的精度结果；以惩罚项为横轴、精度结果为纵轴建立平滑拟合曲线；分析得到平滑拟合曲线中不同惩罚项对应的曲线斜率绝对值；将曲线斜率绝对值和惩罚项相乘计算得优先值；以优先值最大的惩罚项所对应的正则化参数作为最终确定的正则化参数取值。

初步筛选模型的计算公式具体为：

最优特征变量组合的获得过程具体为：

S4：将初筛变量集中的k个特征作为初始特征子集输入到随机森林分类器中，计算得到每个特征的重要性，并利用交叉验证方法得到初始特征子集的分类精度；

S5：从当前特征子集中移除特征重要性最低的一个特征，得到一个新的特征子集，再次输入到随机森林分类器中，计算新的特征子集中每个特征的重要性，并利用交叉验证方法得到新的特征子集的分类精度；

S6：递归的重复上述步骤，直至特征子集为空，最后得到k个不同特征数量的特征子集，选择分类精度最高的特征子集作为最优特征组合。

该筛选方法还包括：通过Pearson相关系数来度量最优特征变量组合中两个变量之间的相关程度，并建立相关系数热力分析图；识别出相关系数热力分析图中相关系数的正负分布情况，依据正负分布情况将最优特征变量组合的变量分为正相关变量集和负相关变量集。

实验验证：试验数据来源于2021年中国研究生数学建模竞赛D题，针对乳腺癌治疗靶标ERα，提供了1974个化合物对ERα的生物活性数据，每个化合物含有729个分子描述符信息，即自变量。LASSO回归的结果如图2所示。

从图2可以看出，LASSO回归可以使部分变量系数降为零，惩罚项(alpha)取不同值时，降维的效果有所不同，根据图3的训练集精度的结果，现取惩罚项alpha＝0.01的情况进行对分子描述符进行降维处理。

经过LASSO回归降维，我们剔除掉630个无关变量，剩余99个相关变量，如表1所示。

表1 99个变量的系数表

采用随机森林递归特征消除法的变量筛选模型对这99个变量进行迭代特征选择，选择结果如图4所示。

图4的黑色部分代表着前20个对生物活性最具有显著影响的变量。其中包括MDEC-23，maxsOH，BCUTp-1h，minss0，minsssN，CrippenLogP，SwHBa，SsOH，MLFER_A，VABC，VPC-6，SHBint6，SHBint10，Kier3，minHBint5，MAXDN2，TopoPSA，minHBa，nHBAcc，C1SP2。其中这20个分子描述符的重要程度见图5，可以看出MDEC-23的重要性最高。

当两个主要变量之间的相关性较弱时，某种意义上任何主要变量均可独立描述因变量的某些性质，此时主要变量就具有一定的独立性。通过计算出活性(Activity)和20个变量间的相关程度，结果如图6所示。

从图6可以看出，变量MDEC-23与生物活性(Activity)成正相关的相关性最大，变量C1SP2与生物活性成负相关的相关性最大。因此这20个主要变量不仅具有不同的代表性，而且也是1974个化合物中能够对活性起较大影响的分子描述符。

需要说明的是，本发明提供的筛选方法还可应用于针对其他病症的药物数据分析。

实施例2：抗乳腺癌候选药物分子描述符的筛选系统，如图7所示，包括数据采集模块、初筛模块和终筛模块。

其中，数据采集模块，用于获取多个化合物对ERα的生物活性数据，每个化合物配置有多个分子描述符，得到由分子描述符组成的自变量集。初筛模块，用于基于LASSO回归方法建立初步筛选模型，以初步筛选模型对自变量集进行降维处理，得到变量系数不为零的初筛变量集。终筛模块，用于基于随机森林递归特征消除法建立变量筛选模型，以变量筛选模型对初筛变量集对初筛变量集进行迭代特征选择，得到分类精度最高的最优特征变量组合。

工作原理：本发明通过分子描述符表征化合物对ERα的生物活性数据，并基于LASSO回归、随机森林递归特征消除两种算法对数据进行有效降维，能够较好的从大量数据中筛选出最具显著影响的分子描述符，可用于筛选潜在活性化合物或者预测新的化合物，具有效率高、可靠性强以及智能化实现等特点；此外，通过综合考虑了训练精度和正则化参数变化情况来确定实际降维处理的正则化参数取值，使得初筛变量集的筛选更加合理，即在降低初筛变量集的整体数量的基础上，能够有效避免具有影响的分子描述符漏选，达到了数量和筛选质量的平衡；另外，还通过皮尔逊相关系数来分析主要变量的相关性，实现了最优特征变量组合中不同变量的正相关和负相关的自动划分。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.抗乳腺癌候选药物分子描述符的筛选方法，其特征是，包括以下步骤：

2.根据权利要求1所述的抗乳腺癌候选药物分子描述符的筛选方法，其特征是，所述分子描述符为用于描述化合物的结构和性质特征的参数。

3.根据权利要求1所述的抗乳腺癌候选药物分子描述符的筛选方法，其特征是，所述初步筛选模型对自变量集进行降维处理时，综合考虑训练精度和正则化参数变化情况来确定实际降维处理的正则化参数取值。

4.根据权利要求3所述的抗乳腺癌候选药物分子描述符的筛选方法，其特征是，所述正则化参数取值的确定过程具体为：

获取不同惩罚项所对应的精度结果；

以惩罚项为横轴、精度结果为纵轴建立平滑拟合曲线；

将曲线斜率绝对值和惩罚项相乘计算得优先值；

5.根据权利要求1所述的抗乳腺癌候选药物分子描述符的筛选方法，其特征是，所述初步筛选模型的计算公式具体为：

6.根据权利要求1所述的抗乳腺癌候选药物分子描述符的筛选方法，其特征是，所述最优特征变量组合的获得过程具体为：

7.根据权利要求1所述的抗乳腺癌候选药物分子描述符的筛选方法，其特征是，该筛选方法还包括：

8.抗乳腺癌候选药物分子描述符的筛选系统，其特征是，包括：

9.一种计算机终端，包含存储器、处理器及存储在存储器并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现如权利要求1-7中任意一项所述的抗乳腺癌候选药物分子描述符的筛选方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征是，所述计算机程序被处理器执行可实现如权利要求1-7中任意一项所述的抗乳腺癌候选药物分子描述符的筛选方法。