CN113066528A

CN113066528A - 基于主动半监督图神经网络的蛋白质分类方法

Info

Publication number: CN113066528A
Application number: CN202110389844.XA
Authority: CN
Inventors: 解宇; 解子璇; 吕圣泽; 鱼滨; 张琛
Original assignee: Xidian University; Shanxi University
Current assignee: Xidian University; Shanxi University
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2021-07-02
Anticipated expiration: 2041-04-12
Also published as: CN113066528B

Abstract

本发明公开了一种基于主动半监督图神经网络的蛋白质分类方法。其步骤为：(1)生成蛋白质训练集与测试集；(2)构建图神经网络；(3)训练图神经网络；(4)对无标签蛋白质样本进行预测。本发明克服了现有技术中获取大量标记蛋白质样本作为训练集的成本太高，而标记蛋白质样本数量稀缺会导致模型训练效果差的不足，采用主动学习和半监督学习的方法，选取测试集中的样本进行伪标记扩充训练集，使得本发明在处理大量无标记蛋白质时有着较短的处理时间和较大的空间利用率。

Description

基于主动半监督图神经网络的蛋白质分类方法

技术领域

本发明属于物理技术领域，更进一步涉及图像分类技术领域中的一种基于主动半监督图神经网络的蛋白质分类方法。本发明可通过主动半监督图神经网络从蛋白质图的结构和分子节点属性中提取蛋白质的属性特征，并根据该属性特征来对蛋白质进行分类，比如判断某个蛋白质是否为抗体蛋白。

背景技术

蛋白质作为一种非欧几里得数据，可以自然地用图结构来表示，即将蛋白质分子表示为一组对象(节点)和其关系(边缘)。在常规的蛋白质分类工作中，通常需要通过一系列的生物学实验才能判断蛋白质的性质，比如判断某个蛋白质是否为抗体蛋白。目前，图神经网络(GNN)也被应用于图分类工作中，将蛋白质作为一个图结构输入到一个特定的图神经网络中，利用已有的带标签的数据进行学习优化最终得出一个强有力的图神经网络。在此网络的基础上，把未知蛋白质的结构和分子节点属性输入进去，得到这个蛋白质的属性信息。

河南师范大学在其申请的专利文献“一种基于机器学习识别嗜热蛋白的方法”(申请号：201910824182.7，申请公布号：110517730A)中提出了一种基于机器学习识别嗜热蛋白的方法。该方法的实施步骤是：步骤1，蛋白质序列特征提取，运用g-gap氨基酸组成的方法提取蛋白质序列特征。步骤2，特征降维：运用主成分分析方法对提取出的特征集进行降维。步骤3，训练模型：将经过特征提取和特征降维的蛋白质序列数据集随机划分为测试集和训练集，将训练集导入SVM中，对模型进行训练。步骤4，评价模型。步骤5，预测和识别嗜热蛋白：训练、测试完成的SVM模型，可以对新的蛋白质序列进行识别，以判断其是否为嗜热蛋白。该方法存在的不足之处是，在训练模型时，将数据集随机分为训练集和测试集，导致训练集包含的蛋白质样本数量未知，而在实际操作中，获取标记蛋白质样本需要人工标记，因此获取大量标记蛋白质样本作为训练集的成本太高，而标记蛋白质样本不足导致模型训练效果差，最终影响到蛋白质分类的效率。

西安电子科技大学在其申请的专利文献“基于自注意力神经网络和粗化算法的蛋白质分类方法”(申请号：202010730960.9，申请公布号111916144A)中提出了一种基于自注意力神经网络和粗化算法的蛋白质分类方法。该方法的实施步骤是：步骤1，构建自注意力神经网络。步骤2，生成蛋白质训练集。步骤3，利用粗化算法粗化图结构。步骤4，利用正则化拉普拉斯矩阵计算公式，计算粗化后图结构的正则化拉普拉斯特征矩阵中的每个元素值。步骤5，训练自注意力神经网络。步骤6，对无标签蛋白质样本进行识别。该方法存在的不足之处是，利用粗化算法粗化后的图结构可能会丢失一些内部数据信息，导致蛋白质分类的准确率较低。

发明内容

本发明的目的在于针对上述现有技术中存在的不足，提出一种基于主动半监督图神经网络的蛋白质分类方法，用于解决现有分类方法中标记蛋白质样本稀缺问题。

实现本发明目的的思路是，构建并迭代训练图神经网络，在训练图神经网络时，利用主动学习和半监督学习具有的可以从无标注样本中选取对模型训练更有帮助的样本进行标记的优点，设计信息熵百分比和欧几里得百分比两个指标选取测试集的样本进行伪标记扩充训练集，达到不断扩展标记蛋白质样本集的目标。

实现本发明目的的具体步骤如下：

(1)生成蛋白质训练集与测试集：

(1a)随机选取包含至少50个种类的至少1000个蛋白质样本组成样本集，并对样本集中每个蛋白质样本进行建模，得到该蛋白质样本的包含多边形结构和单链结构的图结构，将所有图结构组成训练集；

(1b)随机选取未知种类的至少9000个蛋白质样本组成样本集，并对样本集内的每个蛋白质样本进行建模，得到该蛋白质样本的包含多边形结构和单链结构的所有图结构，将所有图结构组成测试集；

(2)构建图神经网络：

(2a)搭建两个结构相同的10层的图神经网络GNN1和GNN2，其结构依次为：第一全连接层，第一正则化层，第二全连接层，第二正则化层，卷积层，池化层，第三全连接层，第三正则化层，激活层，输出层；

(2b)将图神经网络GNN1中的第一至第三全连接层的参数分别设置为1000*256,256*128,128*64,第一至第三正则化层的大小分别设置为256，128和64，池化层设置为平均池化方式，激活层采用Softmax函数；将图神经网络GNN2中的第一至第三全连接层的参数分别设置为1000*256,256*128,128*64,第一至第三正则化层的大小分别设置为256，128和64，池化层设置为最大池化方式，激活层采用Softmax函数；

(3)训练图神经网络：

(3a)将当前迭代的测试集分别输入到图神经网络GNN1与GNN2中，输出经Softmax函数计算的测试集中每个蛋白质图的预测概率特征向量；

(3b)按照下式，分别计算测试集中未标记的每个蛋白质图的信息熵百分比和欧几里得距离百分比：

其中，E_z表示测试集中第z个蛋白质图的信息熵，z＝1.2…M，M表示测试集中蛋白质图的总数，l表示蛋白质图的类别标号，l＝1.2…L，L表示测试集中所有蛋白质图类别的总数，∑表示求和操作，p_zl表示第z个蛋白质图预测为第l类的概率，log表示以2为底的对数操作，

表示第z个蛋白质图的信息熵百分比，k表示测试集中所有蛋白质图中信息熵小于E_z的图的总数，D_z表示测试集中第z个蛋白质图到最近聚类中心的欧几里得距离，min表示取最小值操作，|·|₂表示2-范数操作，h_z表示测试集中第z个蛋白质图的特征向量，

表示测试集利用软聚类得出的类

的聚类中心，

表示第z个蛋白质图的欧几里得百分比，s表示所有蛋白质图中图的最小欧几里得距离大于D_z的图的总数；

(3c)按照下式，分别计算图神经网络GNN1与GNN2测试集中每个蛋白质图的信息值：

其中，I_z表示输入到图神经网络GNN1与GNN2的测试集中第z个蛋白质图的信息值，α表示信息熵百分比

的重要性权重，β表示欧几里得距离百分比

的重要性权重，且α+β＝1，α,β∈[0,1]；

(3d)分别将图神经网络GNN1的测试集中每个蛋白质图计算出的信息值与GNN2测试集中每个蛋白质图计算出的信息值从大到小排序，并从两个图神经网络中分别选取其排序的蛋白质图信息值前10的蛋白质图组成两个集合；

(3e)对两个蛋白质图集合进行取交集操作，选取交集中的每个蛋白质图，将预测的所有类别概率的最大值的标签作为该蛋白质图的类别标签，将添加标签后的蛋白质图分别添加到图神经网络GNN1的训练集与GNN2的训练集中并对两个网络进行训练，用梯度下降法更新图神经网络GNN1与GNN2中各层的参数直到损失函数收敛,记录已添加的蛋白质图的数量Q；

(3f)判断添加标签的蛋白质图的数量Q是否达到900个，若是，则执行步骤(3g)，否则，将本次迭代后的测试集作为当前迭代的测试集执行步骤(3a)操作；

(3g)将删除Q个添加标签的蛋白质图后得到的测试集分别输入到图神经网络GNN1与GNN2中，利用分别计算图神经网络GNN1与GNN2测试集中每个蛋白质图预测的所有类别的预测概率，分别选取出每一类预测概率最高的1个蛋白质样本组成两个集合；

(3h)对两个蛋白质图集合进行取交集操作，选取交集中的每个蛋白质图，将预测的所有类别概率的最大值的标签作为该蛋白质图的类别标签，将添加标签后的蛋白质图分别添加到图神经网络GNN1的训练集与GNN2的训练集中并对两个网络进行训练，用梯度下降法更新图神经网络GNN1与GNN2中各层的参数直到损失函数收敛,记录已添加的蛋白质图的数量Q；

(3i)判断添加标签的蛋白质图数量Q是否达到1800个，若是，执行步骤(4)操作，否则，将本次迭代后的测试集作为当前迭代的测试集执行步骤(3g)操作；

(4)对无标签蛋白质样本进行预测:

将待识别的无标签蛋白质样本输入到训练好的图神经网络GNN1和GNN2中，每个网络输出一个预测概率特征向量，将两个向量的平均值作为该蛋白质样本的最终预测概率特征向量；将最终预测概率特征向量中的最大概率值对应的类别作为该蛋白质样本的类别。

本发明与现有技术相比有以下优点：

由于本发明训练了一个主动半监督图神经网络，利用主动学习和半监督学习的优点，在无类标签的样例的帮助下训练有类标签的样本，获得比只用有类标签的样本训练得到的分类器性能更优的分类器，克服了现有技术中获取大量标记蛋白质样本作为训练集的成本太高，而标记蛋白质样本不足导致模型训练效果差的不足之处，使得本发明具有能以更少的标记蛋白质样本达到更好的训练效果，从而降低蛋白质分类成本的优点。

附图说明

图1是本发明的流程图。

具体实施方式

下面结合附图1对本发明的实现步骤做进一步的描述。

步骤1，生成蛋白质训练集与测试集。

随机选取包含至少50个种类的至少1000个蛋白质样本组成样本集，并对样本集中每个蛋白质样本进行建模，得到该蛋白质样本的包含多边形结构和单链结构的图结构，将所有图结构组成训练集。

所述的1000个蛋白质样本组成样本集中的每个蛋白质样本均包括其内部的原子，原子间的连接关系，原子的特征向量矩阵以及该蛋白质的类别标签。

所述样本集中每个蛋白质样本进行建模的步骤如下：

第1步，将样本集中每个蛋白质样本的每个原子表示为一个节点，并为每个节点从0开始编号；

第2步，将每个蛋白质样本的原子连接关系表示为节点的边；

第3步，将样本集中蛋白质分子的类别从0开始编号，生成蛋白质样本的类别标签；

第4步，将上述三步得到的节点、边和蛋白质样本的类别标签组合为该蛋白质样本对应的包含多边形结构和单链结构的图结构。

随机选取未知种类的至少9000个蛋白质样本组成样本集，并对样本集内的每个蛋白质样本进行建模，得到该蛋白质样本的包含多边形结构和单链结构的所有图结构，将所有图结构组成测试集。

所述9000个蛋白质样本组成样本集中的每个蛋白质样本包括其内部的原子，原子间的连接关系，原子的特征向量矩阵。

所述对样本集中每个蛋白质样本进行建模的步骤如下：

第2步，将每个蛋白质样本内的原子连接关系表示为节点的边；

第3步，将上述两步得到的节点和边组合为该蛋白质样本对应的包含多边形结构和单链结构的图结构。

步骤2，构建图神经网络。

搭建两个结构相同的10层的图神经网络GNN1和GNN2，其结构依次为：第一全连接层，第一正则化层，第二全连接层，第二正则化层，卷积层，池化层，第三全连接层，第三正则化层，激活层，输出层。

将图神经网络GNN1中的第一至第三全连接层的参数分别设置为1000*256,256*128,128*64,第一至第三正则化层的大小分别设置为256，128和64，池化层设置为平均池化方式，激活层采用Softmax函数；将图神经网络GNN2中的第一至第三全连接层的参数分别设置为1000*256,256*128,128*64,第一至第三正则化层的大小分别设置为256，128和64，池化层设置为最大池化方式，激活层采用Softmax函数。

步骤3，训练图神经网络。

3.1)将当前迭代的测试集分别输入到图神经网络GNN1与GNN2中，输出经Softmax函数计算的测试集中每个蛋白质图的预测概率特征向量。

所述经Softmax函数计算的测试集中每个蛋白质图的预测概率特征向量的步骤如下：

第1步，按照下式，计算测试集中每个蛋白质样本的图级特征向量：

其中，h_z表示测试集中第z个蛋白质样本g_z的图级特征向量，p表示测试集中蛋白质样本g_z中节点的总数，i表示测试集中蛋白质样本g_z中节点的序号，θ表示待学习的参数矩阵，

表示节点v_i的特征向量，v_j表示序号为j的节点，N(v_i)表示节点v_i的邻居节点集合，

表示节点v_j特征向量，T表示转置操作。

第2步，按照下式，计算测试集中每个蛋白质样本的预测概率特征向量：

其中，p_z表示第z个蛋白质样本g_z的预测概率特征向量，exp(·)表示以自然常数e为底的指数操作，

表示图级特征向量h_z中第l个分量值。

3.2)按照下式，分别计算测试集中未标记的每个蛋白质图的信息熵百分比和欧几里得距离百分比：

表示测试集利用软聚类得出的类

的聚类中心，

表示第z个蛋白质图的欧几里得百分比，s表示所有蛋白质图中图的最小欧几里得距离大于D_z的图的总数。

3.3)按照下式，分别计算图神经网络GNN1与GNN2测试集中每个蛋白质图的信息值：

的重要性权重，β表示欧几里得距离百分比

的重要性权重，且α+β＝1，α,β∈[0,1]。

3.4)分别将图神经网络GNN1的测试集中每个蛋白质图计算出的信息值与GNN2测试集中每个蛋白质图计算出的信息值从大到小排序，并从两个图神经网络中分别选取其排序的蛋白质图信息值前10的蛋白质图组成两个集合。

3.5)对两个蛋白质图集合进行取交集操作，选取交集中的每个蛋白质图，将预测的所有类别概率的最大值的标签作为该蛋白质图的类别标签，将添加标签后的蛋白质图分别添加到图神经网络GNN1的训练集与GNN2的训练集中并对两个网络进行训练，用梯度下降法更新图神经网络GNN1与GNN2中各层的参数直到损失函数收敛,记录已添加的蛋白质图的数量Q。

所述的损失函数公式如下：

其中，L_tra表示损失函数，n表示训练集中蛋白质样本的总数，f表示蛋白质图的类别标号，f＝1.2…F，F表示训练集中所有蛋白质图类别的总数，y_cf表示一个变量指标：当训练集中第c个蛋白质样本g_c的类标签为f时，y_cf＝1；当训练集中第c个蛋白质样本g_c的类标签不为f时，y_cf＝0，p_cf表示训练集中蛋白质样本g_c属于类别f的概率。

3.6)判断添加标签的蛋白质图的数量Q是否达到900个，若是，则执行本步骤的第3.7)步，否则，将本次迭代后的测试集作为当前迭代的测试集执行本步骤的第3.1)步。

3.7)将删除Q个添加标签的蛋白质图后得到的测试集分别输入到图神经网络GNN1与GNN2中，利用分别计算图神经网络GNN1与GNN2测试集中每个蛋白质图预测的所有类别的预测概率，分别选取出每一类预测概率最高的1个蛋白质样本组成两个集合。

3.8)对两个蛋白质图集合进行取交集操作，选取交集中的每个蛋白质图，将预测的所有类别概率的最大值的标签作为该蛋白质图的类别标签，将添加标签后的蛋白质图分别添加到图神经网络GNN1的训练集与GNN2的训练集中并对两个网络进行训练，用梯度下降法更新图神经网络GNN1与GNN2中各层的参数直到损失函数收敛,记录已添加的蛋白质图的数量Q。

3.9)判断添加标签的蛋白质图数量Q是否达到1800个，若是，执行步骤4，否则，将本次迭代后的测试集作为当前迭代的测试集执行本步骤的第3.7)步。

步骤4，对无标签蛋白质样本进行预测。

下面结合仿真实验对本发明的效果做进一步的说明。

1.仿真实验条件：

本发明的仿真实验的硬件平台为：处理器为Intel(R)Xeon(R)CPU E5-2650 v4，主频为2.20GHz，内存256GB。

本发明的仿真实验的软件平台为：Ubuntu 18.04操作系统和python 3.6。

2.仿真内容及其结果分析：

本发明仿真实验是采用本发明和五个现有技术的分类方法(DGCNN，PSCN，GCAPS-CNN，LDP，WL)分别对输入的蛋白质样本数据集分类，得到每个蛋白质样本的预测概率特征向量，将最终预测概率特征向量中的最大概率值对应的类别作为蛋白质样本的预测类别。

现有技术DGCNN分类方法指的是，M.Zhang等人在“An end-to-end deep learningarchitecture for graph classification,in:Proceedings of the 32nd AAAIConference on Artificial Intelligence,2018,pp.4438–4445”中提出的一个端到端的图分类框架，简称DGCNN。

现有技术PSCN分类方法指的是，M.Niepert等人在“Learning convolutionalneural networks for graphs,in:Proceedings ofthe 33nd International Conferenceon Machine Learning,2016,pp.2014–2023”中提出的基于图结构的CNN网络框架方法，简称PSCN。

现有技术GCAPS-CNN分类方法指的是，M.Niepert等人在“Learningconvolutional neural networks for graphs,in:Proceedings of the 33ndInternational Conference on Machine Learning,2016,pp.2014–2023”中提出的基于图置换的分类方法，简称GCAPS-CNN。

现有技术LDP分类方法指的是，C.Cai等人在“A simple yet effective baselinefor non-attribute graph classification,in:Proceedings of the 35ndInternational Conference on Machine Learning,2018,pp.623–635”中提出的对于无属性图的分类方法，简称LDP。

现有技术WL分类方法指的是，N.Shervashidze等人在“Weisfeiler-lehman graphkernels,J.Mach.Learn.Res.12(2011)2539–2561”中提出的一种威斯费勒-莱曼图核分类方法，简称WL。

本发明仿真实验中所使用的蛋白质样本数据集为分别选取MUTAG、PTC_MR、PROTEINS三个数据集中所有的蛋白质图，组成三个蛋白质数据集。每个蛋白质数据集均包括每个蛋白质图内部的原子、原子间的连接关系以及蛋白质图的类别。

MUTAG数据集由诱变的芳香族和杂芳香族硝基化合物组成，它具有188种化合物和两个图形标记，分别表示它们是否具有诱变作用。该数据集由Y.Yu等人在“Graphclassification based on sparse graph feature selection and extreme learningmachine,Neurocomputing 261(2017)20–27”中公开。

PTC_MR数据集包含了针对啮齿动物的致癌性标记的化合物，PTC_MR表示啮齿动物为雄性大鼠。该数据集由Hannu Toivonen等人在“Statistical evaluation of thepredictive toxicology challenge 2000-2001”中公开。

PROTEINS是一组蛋白质图。每个图有一个标签，以指示它是酶还是非酶。由I.Schomburg等人在“the enzyme database:updates and major new developments,Nucleic Acids Research 32(90001)(2004)431–433”中公开。

为了验证本发明的效果，计算分别计算采用六种不同的分类方法得到的每个蛋白质数据集的分类准确率，将所有计算结果绘制成表1：

表1六种方法分类准确率的评价表

表1中的Ours表示本发明的仿真实验结果。

由表1可以看出，本发明在MUTAG、PTC_MR、PROTEINS三个数据集上取得的分类准确率均超过了现有技术，证明采用本发明进行蛋白质分类可以得到更高蛋白质分类准确率。