CN113257369B

CN113257369B - 一种基于多任务图神经网络的分子毒性预测方法和装置

Info

Publication number: CN113257369B
Application number: CN202110542907.0A
Authority: CN
Inventors: 姜榕; 吴建盛; 胡海峰; 朱燕翔
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2022-08-30
Anticipated expiration: 2041-05-18
Also published as: CN113257369A

Abstract

本发明揭示了一种基于多任务图神经网络的分子毒性预测方法和装置，该方法包括以下步骤：S1：毒性数据集的准备，得到用化学分子规范表达式表示的毒性数据；S2：使用S1步骤中得到的用化学分子规范表达式的毒性数据，生成原子节点特征向量；S3：使用S1步骤中得到的用化学分子规范表达式的毒性数据，生成边信息特征向量；S4：基于S2步骤得到的原子节点特征向量和和S3步骤得到的边信息特征向量，构建基于多任务图神经网络的分子毒性预测模型；S5：对模型进行性能验证。针对分子毒性数据集设计的多任务图神经网络，构建自动学习分子图结构信息模型，能够结合分子毒性任务间的关联性，使用多任务学习方法来提升毒性预测任务的性能。

Description

一种基于多任务图神经网络的分子毒性预测方法和装置

技术领域

本发明涉及一种基于多任务图神经网络的分子毒性预测方法和装置，可用于人工智能药物技术领域。

背景技术

药物毒性是指由于化合物的作用或代谢而对生物体产生的不利影响。在药物发现的早期阶段，分子毒性预测对于提前排除在临床试验中的候选药物至关重要。新药研发失败约有30％是由于存在安全性和毒性问题而导致的，因此毒性预测在药物发现和开发周期中至关重要。

传统上通过体内生物实验来评估药物毒性通常是耗时耗力的，而基于机器学习的药物毒性预测是一种重要的补充。基于机器学习的毒性预测从化合物的分子结构出发，通过提取化合物的分子描述符或分子指纹，构建机器学习模型来预测化合物的分子毒性。

分子毒性根据作用机制或作用靶标的不同可以分为多种类型，同时这些不同类型的分子毒性任务之间存在着内在关联，如果能把这些分子毒性任务放在一起利用机器学习方法进行学习，可以有效地利用任务之间的关联信息，提升分子毒性预测模型的性能。另外，基于传统的机器学习方法做分子毒性预测时，化合物的分子特征主要通过人工进行提取，其要求研究者具有较高的专业知识背景，具有较高门槛。分子可天然表示为图结构，且不同的分子大小形状都不一样，利用图神经网络可以实现端到端的分子特征学习，不需要人工干预，这样可以降低使用者的门槛，并得到性能更好的分子特征表示，并有效提升分子毒性模型的预测能力。

目前我们想要解决的一些技术问题就是：

(1)如何能够有效利用分子毒性任务的关联性，来提高分子毒性预测性能；

(2)如何构建端到端的分子图结构学习模型，自动生成分子特征；

(3)如何有效提高训练样本数量不足情况下的分子毒性预测模型性能。

发明内容

本发明的目的就是为了解决现有技术中存在的上述问题，提出一种基于多任务图神经网络的分子毒性预测方法和装置。

本发明的目的将通过以下技术方案得以实现：一种基于多任务图神经网络的分子毒性预测方法，该方法包括以下步骤：

S1：毒性数据集的准备，得到用SMILES化学分子规范表达式表示的毒性数据；

S2：使用S1步骤中得到的用化学分子规范表达式的毒性数据，生成原子节点特征向量；

S3：使用S1步骤中得到的用化学分子规范表达式的毒性数据，生成边信息特征向量；

S4：基于S2步骤得到的原子节点特征向量和和S3步骤得到的边信息特征向量，构建基于多任务图神经网络的分子毒性预测模型；

S5：对S4步骤得到的分子毒性预测模型进行模型性能的验证。

优选地，所述S1步骤包括以下步骤：

S11：收集包含分子毒性的数据，将所有包含相关毒性的化合物用化学分子规范表达式SMILES描述；

S12：对化合物进行结构标准化、盐的清洗处理，去除混合物、无机物和有机金属，保留具有明确毒性标签的分子；

S13：将数据集按一定比例随机分为训练集和测试集；

S14：使用化学工具包rdkit处理毒性数据集；

优选地，所述S2步骤包括以下步骤：

S21：依次遍历所有SMILES分子式中的每一个原子，根据原子的性质进行ONE-HOT数字编码；

S22：将每个原子看作一个节点，生成节点的特征向量。原子特征包括：原子类型、原子连接数、原子度、邻居杂原子类型；

S23：单个原子特征信息记为y_x，y_x＝[x₁，x₂，...，x_m，x_t]，其中，计数特征x_t是一个实值嵌入向量，定义为单个分子式中各原子对应于总原子数的比重，[x₁，x₂，...，x_m]为对应原子特征的ONE-HOT数字编码向量；

S24：输入的n个SMILES分子式构建的总原子结构特征信息向量记为x＝X^N×(m+1)，x∈(x₁，x₂，...，x_n)，N为单个SMILES分子式中的原子节点个数。

优选地，所述S3步骤包括以下步骤：

S31：邻接特征向量取决于输入分子的嵌入键种类，由原子与原子间键的信息组成，边的特征包括：键的类型、环特征、芳香族、原子杂化方式；

S32：单个分子的邻接矩阵记为e^c×t，使用无向图来描述分子邻接矩阵信息，t对应单个SMILES分子式边信息的特征数，c表示无向图的邻接矩阵构建。

S33：输入的n个SMILES分子式的边特征信息矩阵记为e＝E^c×t，e∈(e₁，e₂，...，e_n)。

优选地，所述S4步骤包括以下步骤：

S41：将数据集按照一定比例划分，通过One-Hot编码生成原子节点特征与边信息特征，传入图神经网络输入端，从SMILES分子中进一步提取结构特征信息；

S42：为降低网络训练参数以及模型的过拟合程度，保留原子的显著特征信息，对提取到的特征矩阵进行池化/采样处理，将每个分子对应的所有原子特征相加，进行信息聚合，得到新的信息矩阵；

S43：保存图神经网络模型隐藏层的所有参数；

S44：经过多个全连接层，进行非线性变换，最后通过SoftMax来进行多分类任务预测，输出预测结果。

优选地，所述S5步骤包括以下步骤：

S51：传入验证集数据的原子节点特征与边信息特征，依次经过图神经网络的特征提取层、池化层、全连接层，通过k折交叉验证法对模型进行验证；

S52：通过隐藏层参数的共享，以及输出层对特定任务的单独训练，实现多任务图神经网络的分子毒性预测功能；

S53：根据实际毒性值与预测毒性值的误差，对模型进行评价与验证。

本发明还揭示了一种基于多任务图神经网络的分子毒性预测装置，该装置包括信息提取模块，用于学习分子毒性数据集的原子节点信息与边特征信息；图神经网络模型构建模块，用于构建毒性预测模型；多任务图神经网络模型分子毒性预测与性能评价模块，用于预测多个数据集的分子毒性和评价模型性能；信息提取模块只适用于提取信息，图神经网络模型构建模块是一个完整的预测模型，多任务图神经网络模型是一个完整的模型，三个模型间的关系为层层递进。

优选地，所述信息提取模块具体包括：原子节点特征生成模块，用于编码生成原子特征矩阵；边特征生成模块，利用原子间键的信息提取边特征矩阵；分子图全局结构信息表达模块，用于生成整个分子表达式的特征，构建分子毒性预测模型。

优选地，所述图神经网络模型构建模块具体包括：初始模块，用于从数据库获取包含SMILES字符串的毒性数据集；分子特征生成模块，用于遍历每一个分子式中的原子节点信息与边的信息；分子毒性预测模块，用于预测输入分子的毒性。

优选地，所述多任务图神经网络的分子毒性预测与性能评价模块具体包括：特征学习模块，用于学习数据的特征；多任务学习模块，用于学习共享隐藏层的参数特征，提升相关任务集的实验性能；验证模块，用于验证构建的网络模型性能。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：本技术方案针对分子毒性数据集设计的多任务图神经网络，构建自动学习分子图结构信息模型，能够结合分子毒性任务间的关联性，使用多任务学习方法，来提升毒性预测任务(特别是小样本下)的性能。

附图说明

图1为本发明的一种基于多任务图神经网络的分子毒性预测装置的系统框架图。

图2为本发明的一种基于多任务图神经网络的分子毒性预测方法的训练流程图。

图3为本发明的一种基于多任务图神经网络的分子毒性预测装置的结构框图。

图4为本发明的信息提取模块301的结构示意图。

图5为本发明的图神经网络模型构建模块302的结构示意图。

图6为本发明的多任务图神经网路模型分子毒性预测与性能评价模块303的结构示意图。

具体实施方式

本发明的目的、优点和特点，将通过下面优选实施例的非限制性说明进行图示和解释。这些实施例仅是应用本发明技术方案的典型范例，凡采取等同替换或者等效变换而形成的技术方案，均落在本发明要求保护的范围之内。

本发明揭示了一种基于多任务图神经网络的分子毒性预测方法，如图1和图2所示，该方法包括以下步骤：

S5：对S4步骤得到的分子毒性预测模型进行模型性能的验证。

所述S1步骤包括以下步骤：S11：收集包含分子毒性的数据，将所有包含相关毒性的化合物用化学分子规范表达式SMILES描述；

S13：将数据集按一定比例随机分为训练集和测试集；

S14：使用化学工具包rdkit处理毒性数据集；

所述S2步骤包括以下步骤：S21：依次遍历所有SMILES分子式中的每一个原子，根据原子的性质进行ONE-HOT数字编码；

所述S3步骤包括以下步骤：S31：邻接特征向量取决于输入分子的嵌入键种类，由原子与原子间键的信息组成，边的特征包括：键的类型、环特征、芳香族、原子杂化方式；

所述S4步骤包括以下步骤：S41：将数据集按照一定比例划分，通过One-Hot编码生成原子节点特征与边信息特征，传入图神经网络输入端，从SMILES分子中进一步提取结构特征信息；

S43：保存图神经网络模型隐藏层的所有参数；

所述S5步骤包括以下步骤：S51：传入验证集数据的原子节点特征与边信息特征，依次经过图神经网络的特征提取层、池化层、全连接层，通过k折交叉验证法对模型进行验证；

所述信息提取模块具体包括：原子节点特征生成模块，用于编码生成原子特征矩阵；边特征生成模块，利用原子间键的信息提取边特征矩阵；分子图全局结构信息表达模块，用于生成整个分子表达式的特征，构建分子毒性预测模型。

所述图神经网络模型构建模块具体包括：初始模块，用于从数据库获取包含SMILES字符串的毒性数据集；分子特征生成模块，用于遍历每一个分子式中的原子节点信息与边的信息；分子毒性预测模块，用于预测输入分子的毒性。

所述多任务图神经网络的分子毒性预测与性能评价模块具体包括：特征学习模块，用于学习数据的特征；多任务学习模块，用于学习共享隐藏层的参数特征，提升相关任务集的实验性能；验证模块，用于验证构建的网络模型性能。

在实施例中，构建了基于多任务图神经网络的学习算法来实现分子毒性预测功能。首先通过图神经网络自动提取化合物分子的原子特征和键特征，再结合分子毒性任务间的相关性，构建多任务图神经网络模型来预测分子毒性。

实施例：如图1和图2所述，该基于多任务图神经网络的分子毒性预测方法，包括以下步骤：

S1：通过在公开数据库与文献中，搜集有关分子毒性的数据集，去除无机物和有机金属、盐和混合物的化合物，丢弃数据集中缺少标签值的化学物质，去除重复分子，保存数据集。提供毒性预测标签并将分子化合物以SMILES字符串形式保存到数据集。：

S2：对化学分子规范表达式SMILES进行预处理，将完整的数据集按照一定比例随机分为训练集和测试集，其中训练集再以k折交叉验证的方式分出一部分作为验证模型性能的验证集。

使用化学工具包rdkit将完整的数据集中的每个化学分子规范表达式SMILES分子式进行预处理，多任务图神经网络模型的输入端。

S3：通过ONE-HOT数字编码方式对SMILES分子式进行编码，将每个分子式唯一地映射到分子图结构中。

(1)依次遍历每个SMILES分子式中的所有原子，根据原子元素的性质进行ONE-HOT数字编码，生成原子节点特征向量。原子特征包括：原子类型、原子连接数(受H是否隐藏影响)、原子度、邻居杂原子类型。

SMILES分子式单个原子特征信息记为y_x，y_x＝[X₁，X₂，...，X_m，X_t]，其中，计数特征X_t是一个实值嵌入向量，对应于分子式中各原子对应于总原子数的比重，[X₁，X₂，...，X_m]为ONE-HOT数字编码向量，m为自定义编码维度。

输入的n个SMILES分子式构建的总原子结构特征信息向量记为x＝X^N×(m+1)，x∈(x₁，x₂，...，x_n)，N为每个SMILES分子式中的原子节点个数。

(2)生成边特征向量：由输入分子的嵌入键的种类提供，表达原子与原子间边的信息，键的特征包括：键的类型、环特征、芳香族、原子杂化方式。

单个分子的边邻接矩阵记为E^c×t，t对应单个SMILES分子式边信息的特征数。输入的n个SMILES分子式的总邻接矩阵记为e＝E^c×t，e∈(e₁，e₂，...，e_n)。

S4：构建多任务图神经网络的分子毒性预测模型，模型共享隐藏层参数。

(1)将One-Hot数字编码生成的原子节点特征X^N×(m+1)与边信息特征E^c×t，传入图神经网络输入端，从SMILES分子中进一步提取利于毒性预测的结构信息。

图神经网络中将某一原子节点v的更新函数表示为：

表示第k层节点v处的特征，ε^(k)是一个可学习的参数，N(v)是节点v的邻域。

使用MLP来拟合函数，传入的图神经网络的初始分子结构信息矩阵通过d维的隐藏层网络，提取特征，最后输出新的分子结构信息的矩阵X^n×d。

(2)经过BN(Batch Normalization)层将训练集与测试集保持独立同分布，如果分布不能保持稳定，训练将难以收敛。通过添加非线性激活单元ReLU函数使网络权重得到很好的更新，去除冗余信息，分子结构信息矩阵维度保持不变。

(3)为了降低网络训练参数以及模型的过拟合程度，保留原子的显著特征信息，进行池化/采样处理，将每个分子对应的所有原子特征相加，进行信息聚合，得到信息矩阵Xⁿ ^×d。

(4)经过第一个全连接层，提高特征向量的维度，更加全面的表达SMILES分子式信息。

d₁＝σ(W₁x+b₁) (2-1)

(5)经过第二个全连接层，加SoftMax分类网络，输出多分类任务的预测标签：

(6)每次迭代训练，首先计算前馈方向训练集输出的预测值，然后利用有监督的反向传播进行调参，使损失函数达到最小，公式如下：

k是分类任务的个数，y是标签，如果类别是i，则y_i＝1，否则等于0。p是图神经网络的输出，指类别是i的概率，由上一步SoftMax计算得出。

(7)通过损失函数输出的分类信息，来优化网络中的参数。反向传播时，所采用的优化器可以是传统的SGD，也可以是SGD的改进算法Adam。训练过程中损失函数的值不断减小，当更新到最优的权重矩阵W与偏移量b时，训练停止，模型训练完成。

S5：对模型性能验证。

(1)传入验证集数据集，对输入数据集进行One-Hot数字编码，依次经过图神经网络的特征提取层、池化层、全连接层，再通过k折交叉验证法对模型进行验证。

(2)通过隐藏层参数的共享，以及输出层对特定任务的单独训练，实现多任务图神经网络的分子毒性预测功能。

(3)根据实际毒性值与预测毒性值的误差，对模型进行评价与验证。：

本发明还揭示了一种基于多任务图神经网络的分子毒性预测方法相对应，如图3所示，本申请还提供了一种基于多任务图神经网络的分子毒性预测方法实施例，在本实施例中，该装置包括：基于信息提取模块301，用于学习分子毒性数据集的原子节点信息与键特征信启、。

图4为信息提取模块的结构示意图，信息提取模块具体包括：(1)原子节点特征生成模块401，用于编码生成原子特征矩阵；(2)边特征生成模块402，用于原子间的信息提取边特征矩阵；(3)分子图全局结构信息表达模块403，用于生成整个分子表达式的特征，构建分子毒性预测模型。

基于图神经网络模型构建模块302，用于构建毒性预测模型；图5为基于图神经网络模型构建模块的结构示意图，具体包括：(1)初始模块501，用于从数据库获取包含SMILES字符串的毒性数据集；(2)分子特征生成模块502，用于遍历每一个分子式中的原子节点信息与边信息；(3)分子毒性预测模块503，用于预测输入分子的毒性；

基于多任务图神经网络的分子毒性预测与性能评价模块，用于生成整个分子表达式的特征，构建分子毒性预测模型。图6为所述基于多任务图神经网络的分子毒性预测与性能评价模块的结构示意图，具体包括：(1)特征学习模块601，用于学习数据的特征；(2)多任务学习模块602，用于学习共享隐藏层的参数特征，提升相关任务集的实验性能；(3)验证模块603，用于验证构建的网络模型性能；

该技术方案利用分子毒性任务间的关联性，使用多任务学习方法，提升分子毒性预测模型性能，并实现端到端的分子特征自动学习。

该技术方案能够帮助提前排除临床试验中可能失败的候选药物，它是药物发现和开发周期中重要的一环。采用本发明的方法和装置，可实现利用分子毒性任务间的关联性，基于多任务学习提升模型预测性能(尤其是样本量不足的分子毒性预测任务)，并可实现端到端的分子特征自动学习。

本发明尚有多种实施方式，凡采用等同变换或者等效变换而形成的所有技术方案，均落在本发明的保护范围之内。

Claims

1.一种基于多任务图神经网络的分子毒性预测方法，其特征在于：该方法包括以下步骤：

S2：使用S1步骤中得到的用化学分子规范表达式的毒性数据，生成原子节点特征向量，其具体步骤如下：

S22：将每个原子看作一个节点，生成节点的特征向量；原子特征包括：原子类型、原子连接数、原子度、邻居杂原子类型；

S23：单个原子特征信息记为y_x，y_x＝[x₁,x₂,...,x_m,x_t]，其中，计数特征x_t是一个实值嵌入向量，定义为单个分子式中各原子对应于总原子数的比重，[x₁,x₂,...,x_m]为对应原子特征的ONE-HOT数字编码向量；

S24：输入的n个SMILES分子式构建的总原子结构特征信息向量记为x＝X^N×(m+1)，x∈(x₁,x₂,...,x_n)，N为单个SMILES分子式中的原子节点个数；

S3：使用S1步骤中得到的用化学分子规范表达式的毒性数据，生成边信息特征向量，其具体步骤如下：

S32：单个分子的邻接矩阵记为e^c×t，使用无向图来描述分子邻接矩阵信息，t对应单个SMILES分子式边信息的特征数，c表示无向图的邻接矩阵构建；

S33：输入的n个SMILES分子式的边特征信息矩阵记为e＝E^c×t，e∈(e₁,e₂,...,e_n)；

S4：基于S2步骤得到的原子节点特征向量和S3步骤得到的边信息特征向量，构建基于多任务图神经网络的分子毒性预测模型；

S5：对S4步骤得到的分子毒性预测模型进行模型性能的验证。

2.根据权利要求1所述的一种基于多任务图神经网络的分子毒性预测方法，其特征在于：所述S1步骤包括以下步骤：

S13：将数据集按一定比例随机分为训练集和测试集；

S14：使用化学工具包rdkit处理毒性数据集。

3.根据权利要求1所述的一种基于多任务图神经网络的分子毒性预测方法，其特征在于：所述S4步骤包括以下步骤：

S43：保存图神经网络模型隐藏层的所有参数；

4.根据权利要求1所述的一种基于多任务图神经网络的分子毒性预测方法，其特征在于：所述S5步骤包括以下步骤：

5.一种实现如权利要求1所述的基于多任务图神经网络的分子毒性预测方法的装置，其特征在于：还包括分子毒性预测装置，所述分子毒性预测装置包括信息提取模块，用于学习分子毒性数据集的原子节点信息与边特征信息；图神经网络模型构建模块，用于构建毒性预测模型；多任务图神经网络模型分子毒性预测与性能评价模块，用于预测多个数据集的分子毒性和评价模型性能；信息提取模块只适用于提取信息，图神经网络模型构建模块是一个完整的预测模型，多任务图神经网络模型是一个完整的模型，三个模型间的关系为层层递进。

6.根据权利要求5所述的一种基于多任务图神经网络的分子毒性预测方法的装置，其特征在于：所述信息提取模块具体包括：原子节点特征生成模块，用于编码生成原子特征矩阵；边特征生成模块，利用原子间键的信息提取边特征矩阵；分子图全局结构信息表达模块，用于生成整个分子表达式的特征，构建分子毒性预测模型。

7.根据权利要求5所述的一种基于多任务图神经网络的分子毒性预测方法的装置，其特征在于：所述图神经网络模型构建模块具体包括：初始模块，用于从数据库获取包含SMILES字符串的毒性数据集；分子特征生成模块，用于遍历每一个分子式中的原子节点信息与边的信息；分子毒性预测模块，用于预测输入分子的毒性。

8.根据权利要求5所述的一种基于多任务图神经网络的分子毒性预测方法的装置，其特征在于：所述多任务图神经网络的分子毒性预测与性能评价模块具体包括：特征学习模块，用于学习数据的特征；多任务学习模块，用于学习共享隐藏层的参数特征，提升相关任务集的实验性能；验证模块，用于验证构建的网络模型性能。