CN115240781A

CN115240781A - 药物分子特征属性的预测方法及预测装置

Info

Publication number: CN115240781A
Application number: CN202110442039.9A
Authority: CN
Inventors: 侯园园; 袁曙光; 王世玉
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2022-10-25
Also published as: WO2022222492A1

Abstract

本发明公开了一种药物分子特征属性的预测方法及预测装置。所述预测方法包括：构建原始药物分子属性数据集；对原始药物分子属性数据集进行预处理，获得训练样本，训练样本包括分子指纹、分子图结构信息和分子特征属性值；以分子指纹和分子图结构信息作为输入，以分子特征属性作为输出，建立一个多输入预测模型，利用训练样本对预先构建的多输入预测模型进行训练，得到最终预测模型；将新获取的分子属性数据输入到最终预测模型，得到分子特征属性预测值。该训练样本充分考虑了药物小分子的空间几何特征和物理化学特征，该最终预测模型能有效地预测分子特征属性值，且具有较高的准确率。

Description

药物分子特征属性的预测方法及预测装置

技术领域

本发明属于计算机在药物设计以及药物开发早期的应用技术领域，具体地讲，涉及一种药物分子特征属性的预测方法及预测装置、计算机可读存储介质、计算机设备。

背景技术

在药物发现中，临床候选化合物分子必须满足一组不同的标准。除了对生物靶标有效效力外，该化合物应对不针对的靶标具有相当的选择性，并且具有良好的物理化学和ADMET特性(吸收、分布、代谢、排泄和毒性特性)。因此，化合物优化是一个多维度的挑战。在药物设计以及药物开发早期就开展药物分子属性研究，有利于提高药物研发的成功率，降低新药开发的成本，有助于获得安全，有效的治疗药物。与传统药物筛选需要进行大量活体实验和检测相比，利用计算机模拟方法能够更加快速有效的对新的具有潜在药用价值的分子属性进行预测。

其中，一些机器学习技术已经被成功应用于药物分子设计领域，但是使用机器学习(尤其是深度学习)预测分子和材料的性质仍处于起步阶段，迄今为止，大多数将机器学习应用于化学任务的研究都围绕特征工程展开，并没有将深度学习技术应用在药物分子特征属性的预测领域上。

发明内容

(一)本发明所要解决的技术问题

本发明解决的技术问题是：如何利用深度学习技术提高药物分子特征属性的预测准确率，以节省药物研发的时间和经济成本。

(二)本发明所采用的技术方案

一种药物分子特征属性的预测方法，所述预测方法包括：

构建原始药物分子属性数据集；

对所述原始药物分子属性数据集进行预处理，获得训练样本，所述训练样本要包括分子指纹、分子图结构信息和分子特征属性值；

利用训练样本对预先构建的多输入预测模型进行训练，得到最终预测模型；

将新获取的分子属性数据输入到所述最终预测模型，得到分子特征属性预测值。

优选地，所述原始药物分子属性数据集包括离散型数据集和连续型数据集，对所述原始药物分子属性数据集进行预处理，获得训练样本的方法包括：

对所述离散型数据集进行预处理，获得第一训练样本；

对所述连续型数据集进行预处理，获得第二训练样本，其中第一训练样本和第二训练样本均包括分子指纹、分子图结构信息和分子特征属性值。

优选地，预先构建的多输入预测模型包括分类预测子模型和回归预测子模型，利用训练样本对预先构建的多输入预测模型进行训练，得到最终预测模型的方法包括：

利用所述第一训练样本对所述分类预测子模型进行训练，得到最终的分类预测子模型，利用第二训练样本对所述回归预测子模型进行训练，得到最终的回归预测子模型，最终的分类预测子模型和最终的回归预测子模型构成最终预测模型。

优选地，所述分类预测子模型和所述回归预测子模型均包括序列预测网络、图神经网络、多层感知机，所述多层感知机连接所述序列预测网络和所述图神经网络，其中所述分子指纹用作序列预测网络的输入，所述分子图结构信息用作所述图神经网络的输入，所述分子特征属性值用作所述多输入预测模型的输出。

优选地，所述对所述离散型数据集进行预处理，获得第一训练样本的方法包括：

对离散型数据集进行聚类处理，对每种类别的样本进行筛选，获得均衡比例类别样本数组成第一训练样本。

优选地，所述分类预测子模型和所述回归预测子模型的数量均为多个，所述第一训练样本和所述第二训练样本的属性为多种，所述预测方法还包括：

利用不同属性的第一训练样本一一对应地分别训练不同的分类预测子模型，得到若干个最终的分类预测子模型；

利用不同属性的第二训练样本一一对应地分别训练不同的回归预测子模型，得到若干个最终的回归预测子模型，若干个最终的分类预测子模型和若干个最终的回归预测子模型构成最终预测模型。

优选地，所述预测方法还包括：

在利用每一种属性的第二训练样本对所述回归预测子模型进行训练，得到每个最终的回归预测子模型之后，判断所述最终的回归预测子模型的属性预测值是否达到预定值；

若是，则保留所述最终的回归预测子模型；若否，则删除所述最终的回归预测子模型，并且利用所述属性的第二训练样本对新的分类预测子模型进行训练，得到新的最终的分类预测模型。

优选地，所述序列预测网络的种类为多种，所述图神经网络的种类为多种，多输入预测模型的数量为多个，不同的多输入预测模型包括不同组合的序列预测网络和图神经网络，所述预测方法还包括：

利用训练样本对预先构建的多个不同的多输入预测模型进行训练，得到多个待评估的预测模型；

利用评估函数对多个待评估的预测模型进行评估，得到最终预测模型。

本申请还公开了一种药物分子特征属性的预测装置，所述预测装置包括：

构建单元，用于构建原始药物分子属性数据集；

预处理单元，用于对所述原始药物分子属性数据集进行预处理，获得训练样本，所述训练样本要包括分子指纹、分子图结构信息和分子特征属性值；

训练单元，用于利用训练样本对预先构建的多输入预测模型进行训练，得到最终预测模型；

预测单元，用于将新获取的分子属性数据输入到所述最终预测模型，得到分子特征属性预测值。

本申请还公开了一种计算机可读存储介质，所述计算机可读存储介质存储有药物分子特征属性的预测程序，所述药物分子特征属性的预测程序被处理器执行时实现上述的药物分子特征属性的预测方法。

(三)有益效果

本发明公开了一种药物分子特征属性的预测方法，相对于传统的预测方法，具有如下技术效果：

通过对原始药物分子属性数据集进行处理，获得包含分子指纹、分子图结构信息和分子特征属性值的训练样本，该训练样本充分考虑了药物小分子的空间几何特征和物理化学特征，利用训练样本训练预测模型，得到最终预测模型，该最终预测模型能有效地预测分子特征属性值，且具有较高的准确率。

附图说明

图1为本发明的实施例一的药物分子特征属性的预测方法的流程图；

图2为本发明的实施例一的分类预测子模型和回归预测子模型的原理框图；

图3为本发明的实施例一的药物分子特征属性的预测装置示意图；

图4为本发明的实施例四的计算机设备示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在详细描述本申请的各个实施例之前，首先简单描述本申请的发明构思：现有技术中，并没有将深度学习应用于药物分子特征属性预测领域，并不能很好地提高预测准确率和节省研发成本，本申请提供了一种预测方法，对原始药物分子属性数据集进行预处理得到训练样本，利用训练样本对若干个预先构建的预测模型分别进行训练，得到最终预测模型，利用最终预测模型预测新获取的分子的分子特征属性预测值。其中，训练样本包括分子指纹、分子图结构信息，充分考虑了分子的空间几何特征和物理化学特征。

如图1所示，本实施例一的药物分子特征属性的预测方法包括如下步骤：

步骤S10：构建原始药物分子属性数据集；

步骤S20：对所述原始药物分子属性数据集进行预处理，获得训练样本，所述训练样本要包括分子指纹、分子图结构信息和分子特征属性值；

步骤S30：利用训练样本对预先构建的多输入预测模型进行训练，最终预测模型；

步骤S40：将新获取的分子属性数据输入到所述最终预测模型，得到分子特征属性预测值。

具体地，步骤S10中构建原始药物分子属性数据集有两种途径，一种是从已有文献获取，另一种是从数据库爬取。示例性地，本实施例的药物分子特征属性为admet属性(药物的吸收、分配、代谢、排泄和毒性属性)，admet属性包括：血脑屏障透过率(BBB)、突变型(AMES)、糖蛋白基质(Pgp-substrate)、人体清除率Human clearance、口服吸收度oralobsorption、水溶性(solubility)、hERG阻断剂、毒性(toxicity)、人类肝毒性(HumanHepatotoxicity)、急毒性LD50(LD50 of acute toxicity)、药物性肝损伤DILI(DrugInduced Liver Injury)、半衰期T 1/2(Half Life)、脂蛋白结合PPB(Plasma ProteinBinding)、口服利用度F(20％Bioavailability)、油水分布系数LogP(DistributionCoefficient P)，PH＝7.4时的油水分布系数LogD(Distribution Coefficient D at PH＝7.4)。从化学数据库中爬取数据，针对ChemIDPlus数据库数据的爬取提出了一个新的爬取方法：下载ChemIDPlus数据库的ChemIDPlus.xml文件获取分子相关信息RN/CAS编号；根据毒性数据网页格式，爬取每个分子的json文档，利用爬取的json文档获取分子毒性信息，然后再利用分子RN/CAS编号爬取分子的SMILES信息，从而形成原始药物分子属性数据集。

进一步地，在步骤S20中，首先对原始药物分子属性数据集进行数据探索，针对分子特征属性值的不同，将原始药物分子属性数据集划分为离散型数据集和连续型数据集，对所述原始药物分子属性数据集进行预处理，获得训练样本的方法包括：对所述离散型数据集进行预处理，获得第一训练样本；对所述连续型数据集进行预处理，获得第二训练样本，其中第一训练样本和第二训练样本均包括分子指纹、分子图结构信息和分子特征属性值。

其中，预处理包括转换文件格式，将分子质量高的数据删除，保留500g/mol以下的数据。进一步地，利于rdkit、DGL等工具提取原始药物分子属性数据集中的分子指纹以及分子图结构信息，示例性地，分子指纹的类型包括PubChem、MACCS key、ECFP4、FCFP4等。根据提取到的原子的特征(原子的质量、极性表面积、分子油脂分配系数、类药性评估、氢键受体数量、氢键供体数量、电荷数、苯环、原子的类型和度数)、原子键之间的邻接矩阵、原子之间的三维距离矩阵，最终获得一个可被计算机处理的携带分子信息的分子图结构信息作为训练数据输入，充分考虑小分子的空间几何特征、物理化学特征、分子指纹信息。

在另一实施方式中，在对所述离散型数据集进行预处理时，对离散型数据集中各种类别的分子样本进行聚类处理，从不同类别的分子样本中筛选出相同数量的样本共同构成第一训练样本，这样同一属性的各个类别的分子样本量为1:1，以解决样本分类不均匀导致的模型拟合效果存在一定的偏向性，不具备泛化能力。

进一步地，在步骤S30中，每个预先构建的多输入预测模型包括分类预测子模型和回归预测子模型，利用训练样本对预先构建的多输入预测模型进行训练，得到最终预测模型的方法包括：利用所述第一训练样本对所述分类预测子模型进行训练，得到最终的分类预测子模型，利用第二训练样本对所述回归预测子模型进行训练，得到最终的回归预测子模型，最终的分类预测子模型和最终的回归预测子模型构成最终预测模型。其中，如图2所示，所述分类预测子模型和所述回归预测子模型均包括序列预测网络、图神经网络、多层感知机，所述多层感知机连接所述序列预测网络和所述图神经网络，所述分子指纹用作序列预测网络的输入，所述分子图结构信息用作所述图神经网络的输入，所述分子特征属性值用作整个入预测模型模型的输出。其中，分类预测子模型的损失函数为MSELoss，回归预测子模型的损失函数为SmoothL1Loss。分类预测子模型和回归预测子模型的训练过程均为现有技术，在此不进行赘述。其中，为了加快模型训练的效率以及模型的过拟合问题，在训练过程中，采用早停策略，即对某一属性类型的训练样本，如果训练过程中损失函数在30个epoch之内不再降低则停止训练，并保留最后20个训练模型，利用保留的最后20个训练多个模型的超参数加权平均值作为最终预测模型，可增强模型的鲁棒性和准确率。30个epoch和20个训练模型仅作为示例，具体的数量可根据实际情况进行调整。

在另一实施例中，所述分类预测子模型和所述回归预测子模型的数量均为多个，所述第一训练样本和所述第二训练样本的属性为多种，即每种属性类型的分子对应一种训练样本，每种属性类型的分子对应一个分类预测子模型或者回归预测子模型。利用不同属性的第一训练样本一一对应地分别训练不同的分类预测子模型，得到若干个最终的分类预测子模型；利用不同属性的第二训练样本一一对应地分别训练不同的回归预测子模型，得到若干个最终的回归预测子模型，若干个分类预测子模型和若干个回归预测子模型共同构成预测模型库，即最终预测模型。

作为优选实施例，所述预测方法还包括：在利用每一种属性的第二训练样本对所述回归预测子模型进行训练，得到每个最终的回归预测子模型之后，判断所述每个最终的回归预测子模型的属性预测值是否达到预定值；若是，则保留所述最终的回归预测子模型；若否，则删除所述最终的回归预测子模型，并且利用所述属性的第二训练样本对新的分类预测子模型进行训练，得到新的最终的分类预测模型。即将回归问题转化为了分类问题，由于数据其本身就存在一定的实验测量误差，并且在药物设计的分子初步筛选中种可能需要的只是属性的范围值。因此针对效果差的回归预测子模型，根据相关标准转化为分类问题，其中可利用中位数、平均值作为二分类的划分标准。即，对某一种连续型的属性值，当利用回归预测子模型对该属性预测值效果不好时，转用分类预测子模型进行训练。

在另一实施例中，序列预测网络和图神经网络的数量为多种，多输入预测模型的数量为多个，不同的多输入预测模型包括不同组合的序列预测网络和图神经网络。示例性地，序列预测网络为CNN、Resnet、BiLSTM中的任意一种和任意一种的各种变形，所述图神经网络为GCN、GAT、MPNN中的任意一种和任意一种的各种变形。即同一种训练样本对不同的多输入预测模型分别进行训练，训练完成之后，得到多个待评估的预测模型，利用评估函数对各个待评估的预测模型进行评估，根据评估结果选出最终预测模型。具体来说，针对分类预测子模型，评估标准为AUC(ROC曲线下与坐标轴围成的面积)，AUC越接近1.0，检测方法真实性越高，等于0.5时，则真实性最低，无应用价值。针对回归预测子模型，评估标准为决定系数R2和均方根误差RMSE：决定系数(R2)越趋于1，均方根误差(RMSE)越趋于0，数据拟合效果越好，评估标准的具体值可根据要求进行设定，在此不进行限定。经过评估筛选，得到最终预测模型，最终预测模型包括多个分类预测子模型和多个回归预测子模型，每个子模型对应一种属性类型的分子。

在步骤S40中，将新获取的分子属性数据输入到最终预测模型，得到分子特征属性预测值。对于新获取的分子属性数据，首先判断属性类型，根据属性类型选择对应的分类预测子模型或者回归预测子模型。接着对新获取的分子属性数据进行预处理，得到分子指纹和分子图结构信息，输入该多输入预测模型中，其中分子指纹被作为序列预测网络的输入，分子图结构信息被作为图神经网络的输入，输出分子特征属性预测值。

本实施例一公开的药物分子特征属性的预测方法，通过对原始药物分子属性数据集进行处理，获得包含分子指纹、分子图结构信息和分子特征属性值的训练样本，该训练样本充分考虑了药物小分子的空间几何特征和物理化学特征，利用训练样本训练若干个预测模型，并经过评估筛选得到最终预测模型，该最终预测模型能有效地预测分子特征属性值，且具有较高的准确率。

进一步地，如图3所示，本实施例二还公开了一种药物分子特征属性的预测装置，所述预测装置包括构建单元100、预处理单元200、训练单元300、预测单元500。其中，构建单元100用于构建原始药物分子属性数据集；预处理单元200用于对所述原始药物分子属性数据集进行预处理，获得训练样本，所述训练样本要包括分子指纹、分子图结构信息和分子特征属性值；训练单元300用于利用训练样本对若干个预先构建的预测模型进行训练，得到最终预测模型；预测单元500用于将新获取的分子属性数据输入到所述最终预测模型，得到分子特征属性预测值。

进一步地，原始药物分子属性数据集包括离散型数据集和连续型数据集，预处理单元200还用于对所述离散型数据集进行预处理，获得第一训练样本；对所述连续型数据集进行预处理，获得第二训练样本，其中第一训练样本和第二训练样本均包括分子指纹、分子图结构信息和分子特征属性值。在另一实施例中，预处理单元200还用于对离散型数据集中各种类别的分子样本进行聚类处理，从每种类别的分子样本中筛选出相同数量的样本共同构成第一训练样本。

进一步地，每个预先构建的预测模型包括分类预测子模型和回归预测子模型，训练单元300还用于利用所述第一训练样本对所述分类预测子模型进行训练，得到最终的分类预测子模型，利用第二训练样本对所述回归预测子模型进行训练，得到最终的回归预测子模型。

具体地，所述分类预测子模型和所述回归预测子模型的数量均为多个，所述第一训练样本和所述第二训练样本的属性为多种，训练单元300还用于利用不同属性的第一训练样本一一对应地分别训练不同的分类预测子模型，得到若干个最终的分类预测子模型；利用不同属性的第二训练样本一一对应地分别训练不同的回归预测子模型，得到若干个最终的回归预测子模型，若干个最终的分类预测子模型和若干个最终的回归预测子模型构成最终预测模型。

预测装置还包括评估单元400，评估单元400还用于在利用每一种属性的第二训练样本对所述回归预测子模型进行训练，得到最终的回归预测子模型之后，判断所述最终的回归预测子模型的属性预测值是否达到预定值；若是，则保留所述最终的回归预测子模型；若否，则删除所述最终的回归预测子模型，并且训练单元300还用于利用所述属性的第二训练样本对新的分类预测子模型进行训练，得到新的最终的分类预测模型。

进一步地，训练单元300利用训练样本对预先构建的多个不同的多输入预测模型进行训练，得到多个待评估的预测模型，评估单元400还用于利用评估函数对多个待评估的预测模型进行评估，得到最终预测模型。

其中，构建单元100、预处理单元200、训练单元300、评估单元400和预测单元500的更详细工作过程可参照实施例一的相关描述，在此不进行赘述。

本实施例三还公开了一种计算机可读存储介质，所述计算机可读存储介质存储有药物分子特征属性的预测程序，所述药物分子特征属性的预测程序被处理器执行时实现上述的药物分子特征属性的预测方法。

本实施例四还公开了一种计算机设备，在硬件层面，如图4所示，该终端包括处理器12、内部总线13、网络接口14、计算机可读存储介质11。处理器12从计算机可读存储介质中读取对应的计算机程序然后运行，在逻辑层面上形成请求处理装置。当然，除了软件实现方式之外，本说明书一个或多个实施例并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。所述计算机可读存储介质11上存储有药物分子特征属性的预测程序，所述药物分子特征属性的预测程序被处理器执行时实现上述的药物分子特征属性的预测方法。

计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上面对本发明的具体实施方式进行了详细描述，虽然已表示和描述了一些实施例，但本领域技术人员应该理解，在不脱离由权利要求及其等同物限定其范围的本发明的原理和精神的情况下，可以对这些实施例进行修改和完善，这些修改和完善也应在本发明的保护范围内。

Claims

1.一种药物分子特征属性的预测方法，其特征在于，所述预测方法包括：

构建原始药物分子属性数据集；

2.根据权利要求1所述的药物分子特征属性的预测方法，其特征在于，所述原始药物分子属性数据集包括离散型数据集和连续型数据集，对所述原始药物分子属性数据集进行预处理，获得训练样本的方法包括：

对所述离散型数据集进行预处理，获得第一训练样本；

3.根据权利要求2所述的药物分子特征属性的预测方法，其特征在于，预先构建的多输入预测模型包括分类预测子模型和回归预测子模型，利用训练样本对预先构建的多输入预测模型进行训练，得到最终预测模型的方法包括：

4.根据权利要求3所述的药物分子特征属性的预测方法，其特征在于，所述分类预测子模型和所述回归预测子模型均包括序列预测网络、图神经网络、多层感知机，所述多层感知机连接所述序列预测网络和所述图神经网络，其中所述分子指纹用作序列预测网络的输入，所述分子图结构信息用作所述图神经网络的输入，所述分子特征属性值用作所述多输入预测模型的输出。

5.根据权利要求2所述的药物分子特征属性的预测方法，其特征在于，所述对所述离散型数据集进行预处理，获得第一训练样本的方法包括：

6.根据权利要求3所述的药物分子特征属性的预测方法，其特征在于，所述分类预测子模型和所述回归预测子模型的数量均为多个，所述第一训练样本和所述第二训练样本的属性为多种，所述预测方法还包括：

7.根据权利要求6所述的药物分子特征属性的预测方法，其特征在于，所述预测方法还包括：

8.根据权利要求6所述的药物分子特征属性的预测方法，其特征在于，所述序列预测网络的种类为多种，所述图神经网络的种类为多种，多输入预测模型的数量为多个，不同的多输入预测模型包括不同组合的序列预测网络和图神经网络，所述预测方法还包括：

9.一种药物分子特征属性的预测装置，其特征在于，所述预测装置包括：

构建单元，用于构建原始药物分子属性数据集；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有药物分子特征属性的预测程序，所述药物分子特征属性的预测程序被处理器执行时实现权利要求1至8任一项所述的药物分子特征属性的预测方法。