CN115831260A

CN115831260A - 一种小样本分子毒性预测方法

Info

Publication number: CN115831260A
Application number: CN202310120430.6A
Authority: CN
Inventors: 赵鑫; 刘晶晶; 张涛
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-02-16
Filing date: 2023-02-16
Publication date: 2023-03-21
Anticipated expiration: 2043-02-16
Also published as: CN115831260B

Abstract

本发明提供了一种小样本分子毒性预测方法，包括将毒性数据集中的化合物转化成图结构数据；基于多分类模块图神经网络模型搭建预训练模型，构建预训练模型的训练集，将预训练模型的训练集输入至预训练模型中进行预训练模型的训练；对预训练模型进行变型，并对变形后的预训练模型进行迁移训练获得小样本分子毒性预测模型；利用小样本分子毒性预测模型进行毒性预测。本发明所提出的方法适用于只有少量训练样本的分子毒性预测任务，可以在只有少量训练样本情况下达到较高的毒性预测准确率。

Description

一种小样本分子毒性预测方法

技术领域

本发明属于数据处理技术领域，尤其是涉及一种小样本分子毒性预测方法。

背景技术

对于生物制造而言，目前研究人员面对大量未知性能的化合物，采用直接实验的方法费时费力、效率太低。考虑到这些因素，正日益被基于化合物结构的毒性预测方法所代替。由于现有可用的公开毒性数据有限，因此有必要构建一个高效的分子毒性预测的定量构效关系模型。

发明内容

有鉴于此，本发明提出一种小样本分子毒性预测方法，适用于只有少量训练样本的分子毒性预测任务，可以在只有少量训练样本情况下达到较高的毒性预测准确率。

为达到上述目的，本发明的技术方案是这样实现的：

一种小样本分子毒性预测方法，包括如下步骤：

步骤1：将毒性数据集中的化合物转化成图结构数据；

步骤2：基于多分类模块图神经网络模型搭建预训练模型，构建预训练模型的训练集，将预训练模型的训练集输入至预训练模型中进行预训练模型的训练；

步骤3：对预训练模型进行变型，并对变形后的预训练模型进行迁移训练获得小样本分子毒性预测模型；

步骤4：利用小样本分子毒性预测模型进行毒性预测。

进一步的，所述步骤1具体包括：

步骤101：从数据库中获取化合物的SMILES格式以及对应的毒理活性标签，将SMILES格式转化成RDkit的mol对象，同时生成一个空的DGL图；

步骤102：将化合物的原子映射成节点，化学键映射成边，从而将分子结构式转化成图的形式，对化合物中的原子进行编号组建节点数组，根据两个原子在数组中的编号，返回一个化学键的对象；

步骤103：通过RDkit计算原子基本特征；

步骤104：将节点特征和边数据存放在空的DGL图中，每个分子对应一个子图，也就是分子由一个邻域列表和一组节点特征向量表示。

进一步的，所述步骤2中，预训练模型包括

由图卷积层和图池化层构成的特征提取器；

多分类器模块，用n个分类器对应n个毒性预测任务，同时这n个分类器共用一个特征提取器。

进一步的，所述步骤3中对预训练模型进行变型包括在预训练模型原有的分类器的基础上，再添加一个新的分类器作为目标分子毒性对应的分类器。

进一步的，在步骤2之前还包括计算目标分子毒性与源域分子毒性之间的相关性系数，并对系数进行排列，取相关性系数排名前M的源域分子毒性数据作为后续与预训练模型的训练数据。

相对于现有技术，本发明所述的一种小样本分子毒性预测方法具有以下优势：通过实验结果证明，在小规模数据下，本发明提出的迁移策略下的模型相比于传统迁移策略下的模型有更好的预测准确率，并且源域样本选择策略下，可以使这种应用迁移策略的模型的准确率再度得到提升。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的方法流程示意图；

图2为本发明的丙酮酸的SMILES格式与图结构；

图3为本发明的丙酮酸分子的节点特征和邻接矩阵的示意图；

图4为本发明的预训练模型的池化层结构设置示意图；

图5为本发明的基于图神经网络结构的多分类模块模型示意图；

图6为本发明的源域分子毒性数据样本集示意图；

图7为本发明的预训练模型变型示意图；

图8为本发明的目标域与源域分子毒性组成的样本集；

图9为本发明的模型迁移训练策略示意图；

图10为本发明的具体实施例中的预训练的多分类器图神经网络模型示意图；

图11为本发明的本发明的具体实施例中的变型后的预训练模型示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

下面将参考附图并结合实施例来详细说明本发明。

本发明提出一种基于迁移学习策略和图神经网络模型的小样本分子毒性预测方法。首先提出一种化合物图结构数据表示方法，采用化学符号语言提取化合物的原子特征，将毒性数据集中化合物转化成图结构数据，进而可以从图结构数据处理的角度来进行化合物毒性预测；在此基础上，提出一种基于迁移学习策略的小样本分子毒性预测方法，该方法基于一个多分类模块图神经网络模型来进行模型预训练和模型迁移，通过充分利用不同类别毒性之间的关联性来提升模型的泛化能力。本发明所提出的方法适用于只有少量训练样本的分子毒性预测任务，可以在只有少量训练样本情况下达到较高的毒性预测准确率，具体步骤如图1所示：

步骤一：将化合物转化成图结构

从数据库中获取化合物的SMILES格式以及对应的毒理活性标签建立样本集，将SMILES格式转化成RDkit的mol对象，同时生成一个空的DGL图。

将样本集中每个化合物样本中的每个原子表示为一个节点，并为每个节点从0开始编号，组建节点数组；根据两个原子在数组中的编号，返回一个化学键的对象。将每个化合物中的化学键表示边；将样本集中的化合物毒性是否有活性用0和1表示，生成化合物毒性类别标签。如图2所示，以丙酮酸为例，说明此过程。

通过RDkit计算原子隐式化合价、原子的度、形成电荷数以及原子序号等原子基本特征。除此之外，我们分别对原子体积、原子半径、原子质量三个参数进行规范化处理如公式1。

公式1

其中，k为参数的种类数，b为原子的个数，x为原子特征值，y为规范后的原子特征值。

将节点特征和边数据存放在空的DGL图中，每个分子对应一个子图，即分子由一个邻域列表和一组节点特征向量X表示。通过步骤一提取的原子连接信息构建出每个化合物的邻接矩阵。当i原子和j原子之间存在化学键时，邻接矩阵对应位置

，反之则为0。考虑到结点的聚合表征不包括自身的特征，因此添加在邻接矩阵中添加自环来聚合时添加自身的特征如图3所示。

步骤二：样本数据选择策略

若某一类毒性拥有较多数据时即已有较多分子在该类毒性上的毒性信息已知，就将此类毒性数据选择为源域数据。我们采用Cramér’sV相关系数计算源域分子毒性与目标域分子毒性数据之间的相关性系数。

绘制目标分子毒性与源分子毒性的2*2的列联表，如表1，其中目标分子毒性中有活性的化合物有m₁个，无活性有n₁个，源域分子毒性有活性的化合物有m₂个，无活性的有n₂个。其中m₁、n₁、m₂、n₂统称为毒性观测次数。每个毒性类别对应的期望值，例如目标域分子毒性种有毒理活性的期望值如公式2。

公式2

随之，2*2维的表格里每个数值以

来计算。4项数值加和,即为皮尔森的卡方统计量之值，用

表示，Cramér’sV相关系数如公式3。

公式3

考虑到毒理活性只有有活性和无活性两种类别，所以交叉资料表的列数始终为2即

，所以Cramér’sV相关系数的公式可化简为公式4。

公式4

根据Cramér’sV计算目标分子毒性与源分子毒性之间的相关性系数，并对系数进行排列，取相关性系数排名前

的源域分子毒性数据作为后续与预训练模型的训练数据。

步骤三：搭建预训练模型

预训练模型主要包括两部分：第一部分是由图卷积层和图池化层构成的特征提取器。其中池化操作采用分层池化如图4，将每一层的最大池化和平均池化结果进行组合，将节点数不同的图降到同一个维度。在卷积和池化的过程中，不断聚合周围节点和边的信息，生成新的边和新的节点特征。我们在第一部分通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现分子的分布式特征表示。

第二部分是多分类器模块。该模块的设计思路是用n个分类器对应n个毒性预测任务，同时这n个分类器共用一个特征提取器，图5为基于图神经网络结构的多分类模块模型。

步骤四：构建预训练模型的训练集

从毒性数据库中获取M种源域分子毒性共同包含的N个化合物组建样本集，并对样本集中的每个化合物进行建模，得到该化合物的图结构。经过RDKit处理，N个化合物共

个节点且每个节点对应7个特征，其中

为第c个化合物所包含的原子数；由于化学键是无向的，共包括e条边。最后建立有

维度的毒性标签，基于编码后的数据及标签，完成训练集的构建。如图6所示。

将训练集输入到预训练模型，在训练过程中，采用多分类交叉熵损失函数BCEWithLogitsLoss计算预测值和实际值之间误差衡量模型优略，在M个标签,N个训练数据下所产生的损失可定义如公式5和公式6。

公式5

公式6

其中

代表第d个样本属于类别i的概率，

代表第d个样本属于类别i的标签值，

代表第d个样本属于类别i的损失值，

代表类别i的权重。

在训练过程中采用Adam优化算法来更新图神经网络中各层的参数直到损失函数收敛。

步骤五：预训练模型变型

获得预训练模型之后，需要基于该模型训练出适用于目标分子毒性预测的网络，首先对预训练模型的架构进行调整，调整后的架构如图7所示，该架构是在预训练模型第三部分原有的M个分类器的基础上，再添加一个新的分类器作为目标分子毒性对应的分类器。

步骤六：模型迁移训练策略

从毒性数据库中获取目标分子毒性有标签的样本,其中样本数为

，此时

的数量较少。对新的样本集的每个化合物进行建模，得到该化合物的图结构数据。根据样本中的化合物筛选出M种源域分子毒性对应的标签，标签维度由原来的1*M维变为1*(M+1)维，完成训练集的构建。如图8所示，其中，损失函数在公式6的基础上转化为公式7。

公式7

在训练过程中，保持M种源域分子毒性对应的分类器参数不变，只对特征提取器模块和第

个分类器的参数进行更新。图9中黑框部分为模型更新部分。在训练过程中采用Adam优化算法来更新这两部分的参数直到损失函数收敛。

步骤八：对预训练模型进行评估

训练完成后，考虑到化合物毒性标签的不平衡性，AUC对正负样本数分布不均情况具有鲁棒性，因此采用AUC评分来衡量模型的好坏。

下面列举一个具体的实施例说明本发明的方法，本发明从Tox21的SR部分获取5种毒性(SR-ARE、SR-ATAD5、SR-HSE、SR-MMP、SR-P53)作为源分子毒性，NR选择NR-AHR毒性作为目标分子毒性。计算目标分子毒性与源分子毒性的相关性系数，选取相关性系数排名前4的毒性，即剔除SR-ARE。从4种源分子毒性数据中提取共同的3833个化合物组成样本集，经过RDKit处理，3833个化合物共51402个节点且每个节点对应7个特征。3833个化合物对应3833*5的图标签。以上四个信息共同构成符合图神经网络输入的化合物数据集，其中训练集和测试集按照6：4进行随机划分。

建立一个

的邻接矩阵A，其中51402为所有化合物中所涉及的原子节点数，根据邻接矩阵A和度矩阵D求得规范后的拉普拉斯矩阵

。多分类器模型在特征提取部分，采用分层池化方式，每个图卷积层后接一个池化层，依次叠加五层共同构成特征提取，具体涉及的图神经网络结构如图10。

在该多分类器学习中，交叉熵损失函数采用BCEWithLogitsLoss，计算测试集中预测值和实际值之间的误差。在训练过程中采用Adam优化算法来更新图神经网络重铬层的参数直到损失函数收敛。在参数设置中隐藏层设置为128，学习率为

，权重衰减为

。

模型迁移涉及到的模型如图11，是在图8的基础上添加一个NR-AHR对应的分类器，再剔除sr-are对应的分类器。准备100组包含这5种毒性的样本数据作为预训练模型的训练样本，1000组样本数据作为预训练模型的测试样本。同时只对图9中的黑框部分进行训练。在训练过程中采用Adam优化算法来更新图神经网络重铬层的参数直到损失函数收敛。在参数设置中隐藏层设置为128，学习率为

，权重衰减为

。

如表1所示为七种模型的AUC得分，其中GCN是指使用GCN单独对NR-ARE进行训练；基于相关性系数选择前的多分类模块网络是指未对相关性系数进行筛选剔除，直接将NR-ARE迁移至多分类模块网络；基于新型迁移策略的多分类模块网络为该方法提出的模型。

表1

通过表1可观测到，从前7组数据可得基于多分类模块的迁移模型比基于传统迁移策略模型有更高的预测准确率，并且在添加源域样本选择策略之后的迁移模型比未添加选择策略的模型在AUC得分上高1.95%。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种小样本分子毒性预测方法，其特征在于：包括如下步骤：

步骤1：将毒性数据集中的化合物转化成图结构数据；

步骤4：利用小样本分子毒性预测模型进行毒性预测。

2.根据权利要求1所述的一种小样本分子毒性预测方法，其特征在于：所述步骤1具体包括：

步骤103：通过RDkit计算原子基本特征；

3.根据权利要求1所述的一种小样本分子毒性预测方法，其特征在于：所述步骤2中，预训练模型包括

由图卷积层和图池化层构成的特征提取器；

4.根据权利要求1所述的一种小样本分子毒性预测方法，其特征在于：所述步骤3中对预训练模型进行变型包括在预训练模型原有的分类器的基础上，再添加一个新的分类器作为目标分子毒性对应的分类器。

5.根据权利要求1所述的一种小样本分子毒性预测方法，其特征在于：在步骤2之前还包括计算目标分子毒性与源域分子毒性之间的相关性系数，并对系数进行排列，取相关性系数排名前M的源域分子毒性数据作为后续与预训练模型的训练数据。