CN113066537B

CN113066537B - 基于图神经网络的化合物分类方法

Info

Publication number: CN113066537B
Application number: CN202110419531.4A
Authority: CN
Inventors: 解宇; 马芷璇; 张琛; 鱼滨; 刘公绪; 温超
Original assignee: Xidian University; Shanxi University
Current assignee: Xidian University; Shanxi University
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2022-04-08
Anticipated expiration: 2041-04-19
Also published as: CN113066537A

Abstract

本发明公开了一种基于图神经网络的化合物分类方法，用于解决现有分类方法忽略了化合物分类中的结构信息导致分类结果不准确和分类效率较低的问题。本发明的步骤为：(1)构建两个图神经网络；(2)生成带有类别标签的训练集和不带有类别标签的训练集；(3)训练两个图神经网络；(4)对不包含类别标签的化合物进行分类。本发明搭建并训练了两个图神经网络，能更好地捕获化合物中所蕴含的结构信息，采用预训练、协同训练与自训练方法使得本发明在处理具有复杂信息的化合物时有着较短的处理时间和较高的化合物分类准确率。

Description

基于图神经网络的化合物分类方法

技术领域

本发明属于物理技术领域，更进一步涉及图像分类技术领域中的一种基于图神经网络的化合物分类方法。本发明可根据建模后的化合物图的结构特征和分子节点属性，通过图神经网络对图结构和节点属性提取化合物分子的属性信息，并根据该信息来进行分类，比如判断某个化合物是否为抗生素分子化合物。

背景技术

化合物作为现实生活中的非欧几里得数据可以自然地以图数据结构来表示，即通常用于表征一组对象(即节点)及其关系(即节点之间的连边)。在常规的化合物分类技术中，通常需要通过一系列的物理或者化学实验才能判断某一个化合物的特性，比如判断某一个化合物是否为抗生素分子化合物。机器学习作为一种先进技术，现在也被应用于这些工作中，这些化合物被作为一个图结构数据输入到一个特定的机器学习模型中，然后利用已有的带标签的数据进行大量的学习优化最终得出了一个有很强适应力的机器学习模型。然后在此模型的基础上，将待分类的化合物结构以及其属性信息输入模型中，最终得出该化合物的化学物理特性。

平安国际智慧城市科技股份有限公司在其申请的专利文献“化合物分类方法及相关设备”(申请号：202010917059.2，申请公布号：111986740 A)中提出了一种对化合物进行分类方法。该方法的实施步骤是：步骤1，获取样本化合物的基于化合物性质的第一标签向量。步骤2，将样本化合物的第一原子表示转化为第一原子向量序列，将第一原子表示对应的缺失原子转化为第一原子表示的第二标签向量。步骤3，根据第一标签向量和性质特征向量训练由特征提取模型和第一分类模型构成的性质分类模型，根据第二标签向量和缺失原子向量训练由特征提取模型和第二分类模型构成的缺失原子预测模型。步骤4，用训练后的性质分类模型以及目标化合物的第二原子向量为输入，对目标化合物进行分类。该方法存在的不足之处是，忽略了化合物的结构信息，在化合物中，不同的分子结构、原子结构均可能会带来与其结构对应的化合物特性的巨大变化，例如丙酮和丙醛具有相同的化学分子式，所含的元素是无差别的，但由于结构不同导致二者的化合物特性不同，因此如果不将对化合物的结构分析纳入化合物分类当中将会导致得到错误的分类结果。

华侨大学在其申请的专利文献“一种油茶籽油皂苷类化合物分类及结构推测方法”(申请号：201911145474.4，申请公布号：110849993 A)中提出了一种基于蛋白质三维模型的分类方法。该方法的实施步骤是：步骤1，按照皂苷元骨架结构差异分成三种不同类型。步骤2，总结油茶籽油不同类型皂苷类化合物在质谱中的裂解特征。步骤3，对油茶籽油样品进行皂苷类化合物提取和检测基础上，结合裂解特征，根据皂苷元骨架结构、m/z差值以及现有茶皂苷的官能团位点，推测未知皂苷类化合物的结构。该方法存在的不足之处是，由于该方法根据化合物在质谱中的裂解特征进行化合物分类，而通过质谱技术观察裂解特征进而计算出化合物的化学式工作量较大，会占用较长的时间，最终会影响到化合物分类的效率。

发明内容

本发明的目的在于针对上述现有技术存在的不足，提出一种基于图神经网络的化合物分类方法，用于解决现有分类方法忽略了化合物分类中的结构信息导致分类结果不准确和分类效率较低的问题。

实现本发明目的的思路是，构建化合物图结构数据集，构建两个图神经网络，采用预训练方法约束两个图神经网络对同一样本输出的一致性达到提高分类效率的目的，采用协同训练方法生成伪标签提高对不带有类别标签的化合物的利用率，采用自训练方法对化合物建模生成的图结构进行学习以避免因忽略化合物分类中的结构信息导致分类结果不准确的问题。

实现本发明目的的具体步骤如下：

(1)构建图神经网络：

(1a)搭建两个结构相同的10层的图神经网络GNN1和GNN2，每个图神经网络的结构依次为：第一全连接层，第一正则化层，第二全连接层，第二正则化层，卷积层，池化层，第三全连接层，第三正则化层，激活层，输出层；

(1b)将图神经网络GNN1中的第一至第三全连接层的参数分别设置为1000*256，256*128,128*64，第一至第三正则化层的大小分别设置为256，128和64，池化层设置为平均池化方式，激活层采用Softmax函数；将图神经网络GNN2中的第一至第三全连接层的参数分别设置为1000*256，256*128,128*64,第一至第三正则化层的大小分别设置为256，128和64，池化层设置为最大池化方式，激活层采用Softmax函数；

(2)生成两个训练集：

(2a)随机选取至少3000个带有类别标签的化合物组成第一样本集，随机选取至少2000个不带有类别标签的化合物组成第二样本集，每个样本集中的每个化合物均包含其内部的原子，原子间的连接关系以及原子的特征向量矩阵；

(2b)分别对第一、第二样本集中的每个化合物进行建模，生成由节点和连接边组成的图结构，将第一、第二样本集建模后的图结构分别组成带有类别标签的训练集和不带有类别标签的训练集；

(3)训练图神经网络：

(3a)将带有类别标签的训练集分别输入到两个图神经网络GNN1与GNN2中迭代更新网络参数，直至初步预训练的损失函数预测得到的类别标签与实际类别标签之间的差异值收敛为止，得到初步预训练好的两个图神经网络；

(3b)将不带有类别标签的训练集分别输入到初步预训练好的两个图神经网络GNN1与GNN2中迭代更新网络参数，直至JS散度函数收敛为止，得到预训练好的两个图神经网络GNN1与GNN2；

(3c)将不带有类别标签的训练集输入到预训练好的图神经网络GNN1中，输出带有伪标签的化合物图结构，将带有伪标签的化合物图结构输入到预训练好的GNN2中进行协同训练，直至协同训练的损失函数收敛为止，得到协同训练好的图神经网络GNN2；采用与协同训练图神经网络GNN2相同的方法得到协同训练好的图神经网络GNN1；

(3d)选取伪标签中每个类别标签中概率最高的10个化合物图结构加入到带有类别标签的训练集中，并将其分别输入到协同训练好的两个图神经网络GNN1与GNN2中迭代更新网络参数，直至自训练的损失函数收敛为止，得到自训练好的两个图神经网络GNN1与GNN2；

(4)对不包含类别标签的化合物进行分类：

将一个待分类的不包含类别标签的化合物图结构输入到自训练好的两个图神经网络GNN1与GNN2中，每个网络输出一个预测概率特征向量，将两个向量的平均值作为该化合物图结构的最终预测概率特征向量；将最终预测概率特征向量中的最大概率值对应的类别作为该化合物图结构的类别。

本发明与现有技术相比有以下优点：

第一，由于本发明搭建并训练了两个图神经网络，将化合物建模为能够充分表示出化合物结构信息的图结构，并通过多次迭代学习对化合物的特征及结构信息进行学习，克服了现有分类方法忽略了化合物分类中的结构信息导致分类结果不准确的问题，使得本发明能更好地捕获化合物的层次结构信息以提高对化合物分类的准确率。

第二，由于本发明利用预训练、协同训练与自训练依次对两个图神经网络进行训练，充分利用未标记数据，在未标记数据的帮助下训练有标签的样本，获得比只用有标签的样本训练得到的分类器性能更优的分类器，克服了现有分类技术中获取大量标记化合物样本作为训练集的时间成本太高，从而导致分类效率较低的问题，使得本发明能更好地减少分类的时间成本，以提高化合物分类的效率。

附图说明

图1是本发明的流程图。

具体实施方式

参照附图1对本发明的实现步骤做进一步的描述。

步骤1，构建图神经网络。

搭建两个结构相同的10层的图神经网络GNN1和GNN2，每个图神经网络的结构依次为：第一全连接层，第一正则化层，第二全连接层，第二正则化层，卷积层，池化层，第三全连接层，第三正则化层，激活层，输出层。

将图神经网络GNN1中的第一至第三全连接层的参数分别设置为1000*256，256*128,128*64，第一至第三正则化层的大小分别设置为256，128和64，池化层设置为平均池化方式，激活层采用Softmax函数；将图神经网络GNN2中的第一至第三全连接层的参数分别设置为1000*256，256*128,128*64,第一至第三正则化层的大小分别设置为256，128和64，池化层设置为最大池化方式，激活层采用Softmax函数。

步骤2，生成两个训练集。

随机选取至少3000个带有类别标签的化合物组成第一样本集，随机选取至少2000个不带有类别标签的化合物组成第二样本集，每个样本集中的每个化合物均包含其内部的原子，原子间的连接关系以及原子的特征向量矩阵。

分别对第一、第二样本集中的每个化合物进行建模，生成由节点和连接边组成的图结构，将第一、第二样本集建模后的图结构分别组成带有类别标签的训练集和不带有类别标签的训练集。

所述分别对第一、第二样本集中的每个化合物进行建模的步骤如下：

第1步，将第一、第二样本集中的每个化合物输入到计算机中，将化合物内的每个原子映射为以序号0开始的节点。

第2步，将每个化合物内的原子连接关系映射为节点的连接边。

第3步，将化合物的类别标签映射为以序号0开始的图标签。

第4步，将上述三步得到的节点、边和图标签组合为该化合物样本对应的图结构。

步骤3，训练图神经网络。

将带有类别标签的训练集分别输入到两个图神经网络GNN1与GNN2中迭代更新网络参数，直至初步预训练的损失函数预测得到的类别标签与实际类别标签之间的差异值收敛为止，得到初步预训练好的两个图神经网络。

所述的初步预训练的损失函数如下：

其中，L_s(·)表示初步预训练的损失函数，x表示带有类别标签的训练集中的所有化合物图结构，y表示带有类别标签的训练集中的所有化合物图结构的真实类别标签，θ表示初始值为0在迭代训练中更新的图神经网络训练参数，∑表示求和操作，x_i表示带有类别标签的训练集中的第i个化合物图结构，L_CE(·)表示交叉熵损失函数，argmax(·)表示求最大值操作，Z(x_i)表示对第i个化合物图结构x_i的标签预测概率，y_i表示第i个化合物图结构x_i的真实类别标签。

将不带有类别标签的训练集分别输入到初步预训练好的两个图神经网络GNN1与GNN2中迭代更新网络参数，直至JS散度函数收敛为止，得到预训练好的两个图神经网络GNN1与GNN2。

所述的JS散度函数如下：

其中，L_JS(x；θ₁,θ₂)表示两个图神经网络GNN1与GNN2分别通过训练参数θ₁，θ₂对同一化合物图结构x的标签预测之间的差异值，H(·)表示熵函数，Z₁(x)，Z₂(x)分别表示图神经网络GNN1与GNN2对不带有类别标签的训练集中的化合物图结构x的标签预测概率。

将不带有类别标签的训练集输入到预训练好的图神经网络GNN1中，输出带有伪标签的化合物图结构，将带有伪标签的化合物图结构输入到预训练好的GNN2中进行协同训练，直至协同训练的损失函数收敛为止，得到协同训练好的图神经网络GNN2；采用与协同训练图神经网络GNN2相同的方法得到协同训练好的图神经网络GNN1。

所述协同训练的损失函数的步骤如下：

第1步，按照下式，计算每个不带有类别标签的化合物图结构的权重：

其中，w_i表示第i个不带有类别标签的化合物图结构的权重，log(·)表示以常数10为底的对数操作，c表示类别标签的总数。

第2步，按照下式，计算每个图神经网络上的优化函数：

其中L_p(·)表示每个图神经网络上的优化函数，

表示所有不带有类别标签的化合物图结构的伪标签，

表示第i个不带有类别标签的化合物图结构的伪标签的重要性权衡系数，

表示第i个不带有类别标签的化合物图结构的伪标签。

第3步，按照下式，计算协同训练的损失函数：

其中，L_CO表示协同训练的损失函数，λ_CO表示初始置为0在迭代训练中更新的协同训练重要性权衡系数，ρ表示初始置为0在迭代训练中更新的带有类别标签的化合物图结构的重要性权衡系数。

选取伪标签中每个类别标签中概率最高的10个化合物图结构加入到带有类别标签的训练集中，并将其分别输入到协同训练好的两个图神经网络GNN1与GNN2中迭代更新网络参数，直至自训练的损失函数收敛为止，得到自训练好的两个图神经网络GNN1与GNN2。

所述的自训练的损失函数如下：

其中，L_self表示自训练的损失函数。

步骤4，对不包含类别标签的化合物进行分类：

下面结合仿真实验对本发明的效果做进一步的说明。

1.仿真实验条件：

本发明的仿真实验的硬件平台为：处理器为Intel(R)Xeon(R)CPU E5-2650v4，主频为2.20GHz，内存256GB。

本发明的仿真实验的软件平台为：Ubuntu 18.04操作系统和python 3.6。

2.仿真内容及其结果分析：

本发明仿真实验是采用本发明和五个现有技术的分类方法(DGCNN，PSCN，GCAPS-CNN，LDP，WL)分别对输入的化合物数据集分类，得到每个化合物的预测概率特征向量，将最终预测概率特征向量中的最大概率值对应的类别作为蛋白质样本的预测类别。

现有技术DCNN分类方法指的是，J.Atwood等人在“Diffusion-convolutionalneural networks,in:Advances in Neural Information Processing Systems,2016,pp.1993–2001”中提出的传播-卷积神经网络分类方法，简称DCNN。

现有技术PSCN分类方法指的是，M.Niepert等人在“Learning convolutionalneural networks for graphs,in:Proceedings of the 33nd InternationalConference on Machine Learning,2016,pp.2014–2023”中提出的基于图结构的CNN网络框架方法，简称PSCN。

现有技术DGCNN分类方法指的是，M.Zhang等人在“An end-to-end deep learningarchitecture for graph classification,in:Proceedings of the32nd AAAIConference on Artificial Intelligence,2018,pp.4438–4445”中提出的一个端到端的图分类框架，简称DGCNN。

现有技术GCAPS-CNN分类方法指的是，M.Niepert等人在“Learningconvolutional neural networks for graphs,in:Proceedings of the 33ndInternational Conference on Machine Learning,2016,pp.2014–2023”中提出的基于图置换的分类方法，简称GCAPS-CNN。

现有技术LDP分类方法指的是，C.Cai等人在“A simple yet effective baselinefor non-attribute graph classification,in:Proceedings of the 35ndInternational Conference on Machine Learning,2018,pp.623–635”中提出的对于无属性图的分类方法，简称LDP。

现有技术SP分类方法指的是，K.M.Borgwardt等人在“Shortest-path kernels ongraphs,in:Proceedings of the 6th IEEE International Conference on DataMining,2006”中提出的基于最短路径的核方法，简称SP。

现有技术GK分类方法指的是，N.Shervashidze等人在“Efficient graphletkernels for large graph comparison,in:Proceedings of the TwelfthInternational Conference on Artificial Intelligence and Statistics,AISTATS2009,Clearwater Beach,Florida,USA,April 16-18,2009,2009,pp.488–495”中提出的一种高效的图比较方法，简称GK。

现有技术WL分类方法指的是，N.Shervashidze等人在“Weisfeiler-lehman graphkernels,J.Mach.Learn.Res.12(2011)2539–2561”中提出的一种威斯费勒-莱曼图核分类方法，简称WL。

本发明仿真实验中所使用的化合物数据集为分别选取MUTAG、PTC、PROTEINS、NCI1、NCI109、D&D、ENZYMES七个数据集中所有的化合物，组成七个化合物数据集。

本发明使用的化合物数据集MUTAG数据集是由诱变的芳香族和杂芳香族硝基化合物组成，它具有188种化合物和两个图形标记，分别表示它们是否具有诱变作用。由Y.Yu等人在“Graph classification based on sparse graph feature selection and extremelearning machine,Neurocomputing 261(2017)20–27”公开的文献中所披露的数据集。

本发明使用的化合物数据集PTC是标明对雄性或雌性大鼠有致癌性的化学化合物数据集。由S.Pan等人在“Task sensitive feature exploration and learning formultitask graph classification,IEEE Transactions on Systems,Man,andCybernetics 47(3)(2017)744–758”公开的文献中所披露的数据集。

本发明使用的化合物数据集PROTEINS是一组蛋白质图。每个图有一个标签，以指示它是酶还是非酶。由I.Schomburg等人在“the enzyme database:updates and majornew developments,Nucleic Acids Research 32(90001)(2004)431–433”公开的文献中所披露的数据集。

本发明使用的化合物数据集NCI1和NCI109是两个表示是否可以延迟癌细胞系生长的化合物数据集，边缘表示两个原子之间的键。由S.Pan等人在“Cogboost:Boosting forfast cost-sensitive graph classification,IEEE Transactions on Knowledge andData Engineering 27(11)(2015)2933–2946”公开的文献中所披露的数据集。

本发明使用的化合物数据集D&D是一个蛋白质结构数据集，其图形标签指示它们是否为酶。由P.D.Dobson等人在“Distinguishing enzyme structures from non-enzymeswithout alignments,J.Mol.Biol(2003)771–783”公开的文献中所披露的数据集。

本发明使用的化合物数据集ENZYMES是一个蛋白质数据集。每个图都有一个标签，指出它所属的EC顶级类别。由I.Schomburg等人在“the enzyme database:updates andmajor new developments,Nucleic Acids Research 32(90001)(2004)431–433”公开的文献中所披露的数据集。

为了验证本发明的效果，对分别采用九种不同的分类方法得到的每个化合物数据集进行下述的分类准确率计算，将所有计算结果绘制成表1，表1中的Ours表示本发明的仿真实验结果。

表1九种方法的分类结果评价一览表

结合表1可以看出，本发明的在第一个MUTAG数据集上达到了现有技术的平均水平，而在后6个数据集上均超过了现有技术，证明本发明可以得到更高化合物分类准确率。

Claims

1.一种基于图神经网络的化合物分类方法，其特征在于，构建两个图神经网络，采用预训练方法约束两个图神经网络对同一化合物输出的一致性，采用协同训练方法生成伪标签提高对不带有类别标签的化合物的利用率，采用自训练方法对化合物建模生成的图结构进行学习；该方法的具体步骤包括：

(1)构建图神经网络：

(2)生成两个训练集：

(3)训练图神经网络：

(4)对不包含类别标签的化合物进行分类：

对一个待分类的不包含类别标签的化合物建模为图结构，将建模后的待分类化合物图结构分别输入到自训练好的两个图神经网络GNN1与GNN2中，每个网络输出一个预测概率特征向量，将两个向量的平均值作为该化合物图结构的最终预测概率特征向量；将最终预测概率特征向量中的最大概率值对应的类别作为该化合物图结构的类别。

2.根据权利要求1所述的基于图神经网络的化合物分类方法，其特征在于，步骤(2b)中所述分别对第一、第二样本集中的每个化合物进行建模的步骤如下：

第一步，将第一、第二样本集中的每个化合物输入到计算机中，将化合物内的每个原子映射为以序号0开始的节点；

第二步，将每个化合物内的原子连接关系映射为节点的连接边；

第三步，将化合物的类别标签映射为以序号0开始的图标签；

第四步，将上述三步得到的节点、边和图标签组合为该化合物对应的图结构。

3.根据权利要求1所述的基于图神经网络的化合物分类方法，其特征在于，步骤(3a)中所述的初步预训练的损失函数如下：