CN113066528A - 基于主动半监督图神经网络的蛋白质分类方法 - Google Patents

基于主动半监督图神经网络的蛋白质分类方法 Download PDF

Info

Publication number
CN113066528A
CN113066528A CN202110389844.XA CN202110389844A CN113066528A CN 113066528 A CN113066528 A CN 113066528A CN 202110389844 A CN202110389844 A CN 202110389844A CN 113066528 A CN113066528 A CN 113066528A
Authority
CN
China
Prior art keywords
protein
sample
graph
test set
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110389844.XA
Other languages
English (en)
Other versions
CN113066528B (zh
Inventor
解宇
解子璇
吕圣泽
鱼滨
张琛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Shanxi University
Original Assignee
Xidian University
Shanxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University, Shanxi University filed Critical Xidian University
Priority to CN202110389844.XA priority Critical patent/CN113066528B/zh
Publication of CN113066528A publication Critical patent/CN113066528A/zh
Application granted granted Critical
Publication of CN113066528B publication Critical patent/CN113066528B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于主动半监督图神经网络的蛋白质分类方法。其步骤为:(1)生成蛋白质训练集与测试集;(2)构建图神经网络;(3)训练图神经网络;(4)对无标签蛋白质样本进行预测。本发明克服了现有技术中获取大量标记蛋白质样本作为训练集的成本太高,而标记蛋白质样本数量稀缺会导致模型训练效果差的不足,采用主动学习和半监督学习的方法,选取测试集中的样本进行伪标记扩充训练集,使得本发明在处理大量无标记蛋白质时有着较短的处理时间和较大的空间利用率。

Description

基于主动半监督图神经网络的蛋白质分类方法
技术领域
本发明属于物理技术领域,更进一步涉及图像分类技术领域中的一种基于主动半监督图神经网络的蛋白质分类方法。本发明可通过主动半监督图神经网络从蛋白质图的结构和分子节点属性中提取蛋白质的属性特征,并根据该属性特征来对蛋白质进行分类,比如判断某个蛋白质是否为抗体蛋白。
背景技术
蛋白质作为一种非欧几里得数据,可以自然地用图结构来表示,即将蛋白质分子表示为一组对象(节点)和其关系(边缘)。在常规的蛋白质分类工作中,通常需要通过一系列的生物学实验才能判断蛋白质的性质,比如判断某个蛋白质是否为抗体蛋白。目前,图神经网络(GNN)也被应用于图分类工作中,将蛋白质作为一个图结构输入到一个特定的图神经网络中,利用已有的带标签的数据进行学习优化最终得出一个强有力的图神经网络。在此网络的基础上,把未知蛋白质的结构和分子节点属性输入进去,得到这个蛋白质的属性信息。
河南师范大学在其申请的专利文献“一种基于机器学习识别嗜热蛋白的方法”(申请号:201910824182.7,申请公布号:110517730A)中提出了一种基于机器学习识别嗜热蛋白的方法。该方法的实施步骤是:步骤1,蛋白质序列特征提取,运用g-gap氨基酸组成的方法提取蛋白质序列特征。步骤2,特征降维:运用主成分分析方法对提取出的特征集进行降维。步骤3,训练模型:将经过特征提取和特征降维的蛋白质序列数据集随机划分为测试集和训练集,将训练集导入SVM中,对模型进行训练。步骤4,评价模型。步骤5,预测和识别嗜热蛋白:训练、测试完成的SVM模型,可以对新的蛋白质序列进行识别,以判断其是否为嗜热蛋白。该方法存在的不足之处是,在训练模型时,将数据集随机分为训练集和测试集,导致训练集包含的蛋白质样本数量未知,而在实际操作中,获取标记蛋白质样本需要人工标记,因此获取大量标记蛋白质样本作为训练集的成本太高,而标记蛋白质样本不足导致模型训练效果差,最终影响到蛋白质分类的效率。
西安电子科技大学在其申请的专利文献“基于自注意力神经网络和粗化算法的蛋白质分类方法”(申请号:202010730960.9,申请公布号111916144A)中提出了一种基于自注意力神经网络和粗化算法的蛋白质分类方法。该方法的实施步骤是:步骤1,构建自注意力神经网络。步骤2,生成蛋白质训练集。步骤3,利用粗化算法粗化图结构。步骤4,利用正则化拉普拉斯矩阵计算公式,计算粗化后图结构的正则化拉普拉斯特征矩阵中的每个元素值。步骤5,训练自注意力神经网络。步骤6,对无标签蛋白质样本进行识别。该方法存在的不足之处是,利用粗化算法粗化后的图结构可能会丢失一些内部数据信息,导致蛋白质分类的准确率较低。
发明内容
本发明的目的在于针对上述现有技术中存在的不足,提出一种基于主动半监督图神经网络的蛋白质分类方法,用于解决现有分类方法中标记蛋白质样本稀缺问题。
实现本发明目的的思路是,构建并迭代训练图神经网络,在训练图神经网络时,利用主动学习和半监督学习具有的可以从无标注样本中选取对模型训练更有帮助的样本进行标记的优点,设计信息熵百分比和欧几里得百分比两个指标选取测试集的样本进行伪标记扩充训练集,达到不断扩展标记蛋白质样本集的目标。
实现本发明目的的具体步骤如下:
(1)生成蛋白质训练集与测试集:
(1a)随机选取包含至少50个种类的至少1000个蛋白质样本组成样本集,并对样本集中每个蛋白质样本进行建模,得到该蛋白质样本的包含多边形结构和单链结构的图结构,将所有图结构组成训练集;
(1b)随机选取未知种类的至少9000个蛋白质样本组成样本集,并对样本集内的每个蛋白质样本进行建模,得到该蛋白质样本的包含多边形结构和单链结构的所有图结构,将所有图结构组成测试集;
(2)构建图神经网络:
(2a)搭建两个结构相同的10层的图神经网络GNN1和GNN2,其结构依次为:第一全连接层,第一正则化层,第二全连接层,第二正则化层,卷积层,池化层,第三全连接层,第三正则化层,激活层,输出层;
(2b)将图神经网络GNN1中的第一至第三全连接层的参数分别设置为1000*256,256*128,128*64,第一至第三正则化层的大小分别设置为256,128和64,池化层设置为平均池化方式,激活层采用Softmax函数;将图神经网络GNN2中的第一至第三全连接层的参数分别设置为1000*256,256*128,128*64,第一至第三正则化层的大小分别设置为256,128和64,池化层设置为最大池化方式,激活层采用Softmax函数;
(3)训练图神经网络:
(3a)将当前迭代的测试集分别输入到图神经网络GNN1与GNN2中,输出经Softmax函数计算的测试集中每个蛋白质图的预测概率特征向量;
(3b)按照下式,分别计算测试集中未标记的每个蛋白质图的信息熵百分比和欧几里得距离百分比:
Figure BDA0003016161400000031
Figure BDA0003016161400000032
Figure BDA0003016161400000033
Figure BDA0003016161400000034
其中,Ez表示测试集中第z个蛋白质图的信息熵,z=1.2…M,M表示测试集中蛋白质图的总数,l表示蛋白质图的类别标号,l=1.2…L,L表示测试集中所有蛋白质图类别的总数,∑表示求和操作,pzl表示第z个蛋白质图预测为第l类的概率,log表示以2为底的对数操作,
Figure BDA0003016161400000035
表示第z个蛋白质图的信息熵百分比,k表示测试集中所有蛋白质图中信息熵小于Ez的图的总数,Dz表示测试集中第z个蛋白质图到最近聚类中心的欧几里得距离,min表示取最小值操作,|·|2表示2-范数操作,hz表示测试集中第z个蛋白质图的特征向量,
Figure BDA0003016161400000036
表示测试集利用软聚类得出的类
Figure BDA0003016161400000037
的聚类中心,
Figure BDA0003016161400000038
表示第z个蛋白质图的欧几里得百分比,s表示所有蛋白质图中图的最小欧几里得距离大于Dz的图的总数;
(3c)按照下式,分别计算图神经网络GNN1与GNN2测试集中每个蛋白质图的信息值:
Figure BDA0003016161400000041
其中,Iz表示输入到图神经网络GNN1与GNN2的测试集中第z个蛋白质图的信息值,α表示信息熵百分比
Figure BDA0003016161400000042
的重要性权重,β表示欧几里得距离百分比
Figure BDA0003016161400000043
的重要性权重,且α+β=1,α,β∈[0,1];
(3d)分别将图神经网络GNN1的测试集中每个蛋白质图计算出的信息值与GNN2测试集中每个蛋白质图计算出的信息值从大到小排序,并从两个图神经网络中分别选取其排序的蛋白质图信息值前10的蛋白质图组成两个集合;
(3e)对两个蛋白质图集合进行取交集操作,选取交集中的每个蛋白质图,将预测的所有类别概率的最大值的标签作为该蛋白质图的类别标签,将添加标签后的蛋白质图分别添加到图神经网络GNN1的训练集与GNN2的训练集中并对两个网络进行训练,用梯度下降法更新图神经网络GNN1与GNN2中各层的参数直到损失函数收敛,记录已添加的蛋白质图的数量Q;
(3f)判断添加标签的蛋白质图的数量Q是否达到900个,若是,则执行步骤(3g),否则,将本次迭代后的测试集作为当前迭代的测试集执行步骤(3a)操作;
(3g)将删除Q个添加标签的蛋白质图后得到的测试集分别输入到图神经网络GNN1与GNN2中,利用分别计算图神经网络GNN1与GNN2测试集中每个蛋白质图预测的所有类别的预测概率,分别选取出每一类预测概率最高的1个蛋白质样本组成两个集合;
(3h)对两个蛋白质图集合进行取交集操作,选取交集中的每个蛋白质图,将预测的所有类别概率的最大值的标签作为该蛋白质图的类别标签,将添加标签后的蛋白质图分别添加到图神经网络GNN1的训练集与GNN2的训练集中并对两个网络进行训练,用梯度下降法更新图神经网络GNN1与GNN2中各层的参数直到损失函数收敛,记录已添加的蛋白质图的数量Q;
(3i)判断添加标签的蛋白质图数量Q是否达到1800个,若是,执行步骤(4)操作,否则,将本次迭代后的测试集作为当前迭代的测试集执行步骤(3g)操作;
(4)对无标签蛋白质样本进行预测:
将待识别的无标签蛋白质样本输入到训练好的图神经网络GNN1和GNN2中,每个网络输出一个预测概率特征向量,将两个向量的平均值作为该蛋白质样本的最终预测概率特征向量;将最终预测概率特征向量中的最大概率值对应的类别作为该蛋白质样本的类别。
本发明与现有技术相比有以下优点:
由于本发明训练了一个主动半监督图神经网络,利用主动学习和半监督学习的优点,在无类标签的样例的帮助下训练有类标签的样本,获得比只用有类标签的样本训练得到的分类器性能更优的分类器,克服了现有技术中获取大量标记蛋白质样本作为训练集的成本太高,而标记蛋白质样本不足导致模型训练效果差的不足之处,使得本发明具有能以更少的标记蛋白质样本达到更好的训练效果,从而降低蛋白质分类成本的优点。
附图说明
图1是本发明的流程图。
具体实施方式
下面结合附图1对本发明的实现步骤做进一步的描述。
步骤1,生成蛋白质训练集与测试集。
随机选取包含至少50个种类的至少1000个蛋白质样本组成样本集,并对样本集中每个蛋白质样本进行建模,得到该蛋白质样本的包含多边形结构和单链结构的图结构,将所有图结构组成训练集。
所述的1000个蛋白质样本组成样本集中的每个蛋白质样本均包括其内部的原子,原子间的连接关系,原子的特征向量矩阵以及该蛋白质的类别标签。
所述样本集中每个蛋白质样本进行建模的步骤如下:
第1步,将样本集中每个蛋白质样本的每个原子表示为一个节点,并为每个节点从0开始编号;
第2步,将每个蛋白质样本的原子连接关系表示为节点的边;
第3步,将样本集中蛋白质分子的类别从0开始编号,生成蛋白质样本的类别标签;
第4步,将上述三步得到的节点、边和蛋白质样本的类别标签组合为该蛋白质样本对应的包含多边形结构和单链结构的图结构。
随机选取未知种类的至少9000个蛋白质样本组成样本集,并对样本集内的每个蛋白质样本进行建模,得到该蛋白质样本的包含多边形结构和单链结构的所有图结构,将所有图结构组成测试集。
所述9000个蛋白质样本组成样本集中的每个蛋白质样本包括其内部的原子,原子间的连接关系,原子的特征向量矩阵。
所述对样本集中每个蛋白质样本进行建模的步骤如下:
第1步,将样本集中每个蛋白质样本的每个原子表示为一个节点,并为每个节点从0开始编号;
第2步,将每个蛋白质样本内的原子连接关系表示为节点的边;
第3步,将上述两步得到的节点和边组合为该蛋白质样本对应的包含多边形结构和单链结构的图结构。
步骤2,构建图神经网络。
搭建两个结构相同的10层的图神经网络GNN1和GNN2,其结构依次为:第一全连接层,第一正则化层,第二全连接层,第二正则化层,卷积层,池化层,第三全连接层,第三正则化层,激活层,输出层。
将图神经网络GNN1中的第一至第三全连接层的参数分别设置为1000*256,256*128,128*64,第一至第三正则化层的大小分别设置为256,128和64,池化层设置为平均池化方式,激活层采用Softmax函数;将图神经网络GNN2中的第一至第三全连接层的参数分别设置为1000*256,256*128,128*64,第一至第三正则化层的大小分别设置为256,128和64,池化层设置为最大池化方式,激活层采用Softmax函数。
步骤3,训练图神经网络。
3.1)将当前迭代的测试集分别输入到图神经网络GNN1与GNN2中,输出经Softmax函数计算的测试集中每个蛋白质图的预测概率特征向量。
所述经Softmax函数计算的测试集中每个蛋白质图的预测概率特征向量的步骤如下:
第1步,按照下式,计算测试集中每个蛋白质样本的图级特征向量:
Figure BDA0003016161400000071
其中,hz表示测试集中第z个蛋白质样本gz的图级特征向量,p表示测试集中蛋白质样本gz中节点的总数,i表示测试集中蛋白质样本gz中节点的序号,θ表示待学习的参数矩阵,
Figure BDA0003016161400000072
表示节点vi的特征向量,vj表示序号为j的节点,N(vi)表示节点vi的邻居节点集合,
Figure BDA0003016161400000073
表示节点vj特征向量,T表示转置操作。
第2步,按照下式,计算测试集中每个蛋白质样本的预测概率特征向量:
Figure BDA0003016161400000074
其中,pz表示第z个蛋白质样本gz的预测概率特征向量,exp(·)表示以自然常数e为底的指数操作,
Figure BDA0003016161400000075
表示图级特征向量hz中第l个分量值。
3.2)按照下式,分别计算测试集中未标记的每个蛋白质图的信息熵百分比和欧几里得距离百分比:
Figure BDA0003016161400000076
Figure BDA0003016161400000077
Figure BDA0003016161400000078
Figure BDA0003016161400000079
其中,Ez表示测试集中第z个蛋白质图的信息熵,z=1.2…M,M表示测试集中蛋白质图的总数,l表示蛋白质图的类别标号,l=1.2…L,L表示测试集中所有蛋白质图类别的总数,∑表示求和操作,pzl表示第z个蛋白质图预测为第l类的概率,log表示以2为底的对数操作,
Figure BDA00030161614000000710
表示第z个蛋白质图的信息熵百分比,k表示测试集中所有蛋白质图中信息熵小于Ez的图的总数,Dz表示测试集中第z个蛋白质图到最近聚类中心的欧几里得距离,min表示取最小值操作,|·|2表示2-范数操作,hz表示测试集中第z个蛋白质图的特征向量,
Figure BDA0003016161400000081
表示测试集利用软聚类得出的类
Figure BDA0003016161400000082
的聚类中心,
Figure BDA0003016161400000083
表示第z个蛋白质图的欧几里得百分比,s表示所有蛋白质图中图的最小欧几里得距离大于Dz的图的总数。
3.3)按照下式,分别计算图神经网络GNN1与GNN2测试集中每个蛋白质图的信息值:
Figure BDA0003016161400000084
其中,Iz表示输入到图神经网络GNN1与GNN2的测试集中第z个蛋白质图的信息值,α表示信息熵百分比
Figure BDA0003016161400000085
的重要性权重,β表示欧几里得距离百分比
Figure BDA0003016161400000086
的重要性权重,且α+β=1,α,β∈[0,1]。
3.4)分别将图神经网络GNN1的测试集中每个蛋白质图计算出的信息值与GNN2测试集中每个蛋白质图计算出的信息值从大到小排序,并从两个图神经网络中分别选取其排序的蛋白质图信息值前10的蛋白质图组成两个集合。
3.5)对两个蛋白质图集合进行取交集操作,选取交集中的每个蛋白质图,将预测的所有类别概率的最大值的标签作为该蛋白质图的类别标签,将添加标签后的蛋白质图分别添加到图神经网络GNN1的训练集与GNN2的训练集中并对两个网络进行训练,用梯度下降法更新图神经网络GNN1与GNN2中各层的参数直到损失函数收敛,记录已添加的蛋白质图的数量Q。
所述的损失函数公式如下:
Figure BDA0003016161400000087
其中,Ltra表示损失函数,n表示训练集中蛋白质样本的总数,f表示蛋白质图的类别标号,f=1.2…F,F表示训练集中所有蛋白质图类别的总数,ycf表示一个变量指标:当训练集中第c个蛋白质样本gc的类标签为f时,ycf=1;当训练集中第c个蛋白质样本gc的类标签不为f时,ycf=0,pcf表示训练集中蛋白质样本gc属于类别f的概率。
3.6)判断添加标签的蛋白质图的数量Q是否达到900个,若是,则执行本步骤的第3.7)步,否则,将本次迭代后的测试集作为当前迭代的测试集执行本步骤的第3.1)步。
3.7)将删除Q个添加标签的蛋白质图后得到的测试集分别输入到图神经网络GNN1与GNN2中,利用分别计算图神经网络GNN1与GNN2测试集中每个蛋白质图预测的所有类别的预测概率,分别选取出每一类预测概率最高的1个蛋白质样本组成两个集合。
3.8)对两个蛋白质图集合进行取交集操作,选取交集中的每个蛋白质图,将预测的所有类别概率的最大值的标签作为该蛋白质图的类别标签,将添加标签后的蛋白质图分别添加到图神经网络GNN1的训练集与GNN2的训练集中并对两个网络进行训练,用梯度下降法更新图神经网络GNN1与GNN2中各层的参数直到损失函数收敛,记录已添加的蛋白质图的数量Q。
3.9)判断添加标签的蛋白质图数量Q是否达到1800个,若是,执行步骤4,否则,将本次迭代后的测试集作为当前迭代的测试集执行本步骤的第3.7)步。
步骤4,对无标签蛋白质样本进行预测。
将待识别的无标签蛋白质样本输入到训练好的图神经网络GNN1和GNN2中,每个网络输出一个预测概率特征向量,将两个向量的平均值作为该蛋白质样本的最终预测概率特征向量;将最终预测概率特征向量中的最大概率值对应的类别作为该蛋白质样本的类别。
下面结合仿真实验对本发明的效果做进一步的说明。
1.仿真实验条件:
本发明的仿真实验的硬件平台为:处理器为Intel(R)Xeon(R)CPU E5-2650 v4,主频为2.20GHz,内存256GB。
本发明的仿真实验的软件平台为:Ubuntu 18.04操作系统和python 3.6。
2.仿真内容及其结果分析:
本发明仿真实验是采用本发明和五个现有技术的分类方法(DGCNN,PSCN,GCAPS-CNN,LDP,WL)分别对输入的蛋白质样本数据集分类,得到每个蛋白质样本的预测概率特征向量,将最终预测概率特征向量中的最大概率值对应的类别作为蛋白质样本的预测类别。
现有技术DGCNN分类方法指的是,M.Zhang等人在“An end-to-end deep learningarchitecture for graph classification,in:Proceedings of the 32nd AAAIConference on Artificial Intelligence,2018,pp.4438–4445”中提出的一个端到端的图分类框架,简称DGCNN。
现有技术PSCN分类方法指的是,M.Niepert等人在“Learning convolutionalneural networks for graphs,in:Proceedings ofthe 33nd International Conferenceon Machine Learning,2016,pp.2014–2023”中提出的基于图结构的CNN网络框架方法,简称PSCN。
现有技术GCAPS-CNN分类方法指的是,M.Niepert等人在“Learningconvolutional neural networks for graphs,in:Proceedings of the 33ndInternational Conference on Machine Learning,2016,pp.2014–2023”中提出的基于图置换的分类方法,简称GCAPS-CNN。
现有技术LDP分类方法指的是,C.Cai等人在“A simple yet effective baselinefor non-attribute graph classification,in:Proceedings of the 35ndInternational Conference on Machine Learning,2018,pp.623–635”中提出的对于无属性图的分类方法,简称LDP。
现有技术WL分类方法指的是,N.Shervashidze等人在“Weisfeiler-lehman graphkernels,J.Mach.Learn.Res.12(2011)2539–2561”中提出的一种威斯费勒-莱曼图核分类方法,简称WL。
本发明仿真实验中所使用的蛋白质样本数据集为分别选取MUTAG、PTC_MR、PROTEINS三个数据集中所有的蛋白质图,组成三个蛋白质数据集。每个蛋白质数据集均包括每个蛋白质图内部的原子、原子间的连接关系以及蛋白质图的类别。
MUTAG数据集由诱变的芳香族和杂芳香族硝基化合物组成,它具有188种化合物和两个图形标记,分别表示它们是否具有诱变作用。该数据集由Y.Yu等人在“Graphclassification based on sparse graph feature selection and extreme learningmachine,Neurocomputing 261(2017)20–27”中公开。
PTC_MR数据集包含了针对啮齿动物的致癌性标记的化合物,PTC_MR表示啮齿动物为雄性大鼠。该数据集由Hannu Toivonen等人在“Statistical evaluation of thepredictive toxicology challenge 2000-2001”中公开。
PROTEINS是一组蛋白质图。每个图有一个标签,以指示它是酶还是非酶。由I.Schomburg等人在“the enzyme database:updates and major new developments,Nucleic Acids Research 32(90001)(2004)431–433”中公开。
为了验证本发明的效果,计算分别计算采用六种不同的分类方法得到的每个蛋白质数据集的分类准确率,将所有计算结果绘制成表1:
Figure BDA0003016161400000111
表1六种方法分类准确率的评价表
Figure BDA0003016161400000112
表1中的Ours表示本发明的仿真实验结果。
由表1可以看出,本发明在MUTAG、PTC_MR、PROTEINS三个数据集上取得的分类准确率均超过了现有技术,证明采用本发明进行蛋白质分类可以得到更高蛋白质分类准确率。

Claims (7)

1.一种基于主动半监督图神经网络的蛋白质分类方法,其特征在于,构建并迭代训练图神经网络,借鉴主动学习和半监督学习两种学习方法的优点,利用信息熵百分比和欧几里得百分比两个指标,选取测试集的样本进行伪标记扩充训练集,该方法的具体步骤包括:
(1)生成蛋白质训练集与测试集:
(1a)随机选取包含至少50个种类的至少1000个蛋白质样本组成样本集,并对样本集中每个蛋白质样本进行建模,得到该蛋白质样本的包含多边形结构和单链结构的图结构,将所有图结构组成训练集;
(1b)随机选取未知种类的至少9000个蛋白质样本组成样本集,并对样本集内的每个蛋白质样本进行建模,得到该蛋白质样本的包含多边形结构和单链结构的所有图结构,将所有图结构组成测试集;
(2)构建图神经网络:
(2a)搭建两个结构相同的10层的图神经网络GNN1和GNN2,其结构依次为:第一全连接层,第一正则化层,第二全连接层,第二正则化层,卷积层,池化层,第三全连接层,第三正则化层,激活层,输出层;
(2b)将图神经网络GNN1中的第一至第三全连接层的参数分别设置为1000*256,256*128,128*64,第一至第三正则化层的大小分别设置为256,128和64,池化层设置为平均池化方式,激活层采用Softmax函数;将图神经网络GNN2中的第一至第三全连接层的参数分别设置为1000*256,256*128,128*64,第一至第三正则化层的大小分别设置为256,128和64,池化层设置为最大池化方式,激活层采用Softmax函数;
(3)训练图神经网络:
(3a)将当前迭代的测试集分别输入到图神经网络GNN1与GNN2中,输出经Softmax函数计算的测试集中每个蛋白质图的预测概率特征向量;
(3b)按照下式,分别计算测试集中未标记的每个蛋白质图的信息熵百分比和欧几里得距离百分比:
Figure FDA0003016161390000021
Figure FDA0003016161390000022
Figure FDA0003016161390000023
Figure FDA0003016161390000024
其中,Ez表示测试集中第z个蛋白质图的信息熵,z=1.2…M,M表示测试集中蛋白质图的总数,l表示蛋白质图的类别标号,l=1.2…L,L表示测试集中所有蛋白质图类别的总数,∑表示求和操作,pzl表示测试集中第z个蛋白质图预测为第l类的概率,log表示以2为底的对数操作,
Figure FDA0003016161390000025
表示测试集中第z个蛋白质图的信息熵百分比,k表示测试集中所有蛋白质图中信息熵小于Ez的图的总数,Dz表示测试集中第z个蛋白质图到最近聚类中心的欧几里得距离,min表示取最小值操作,|·|2表示2-范数操作,hz表示测试集中第z个蛋白质图的特征向量,
Figure FDA0003016161390000026
表示测试集利用软聚类得出的类
Figure FDA0003016161390000027
的聚类中心,
Figure FDA0003016161390000028
表示测试集中第z个蛋白质图的欧几里得百分比,s表示所有测试集中蛋白质图中图的最小欧几里得距离大于Dz的图的总数;
(3c)按照下式,分别计算图神经网络GNN1与GNN2测试集中每个蛋白质图的信息值:
Figure FDA0003016161390000029
其中,Iz表示输入到图神经网络GNN1与GNN2的测试集中第z个蛋白质图的信息值,α表示信息熵百分比
Figure FDA00030161613900000210
的重要性权重,β表示欧几里得距离百分比
Figure FDA00030161613900000211
的重要性权重,且α+β=1,α,β∈[0,1];
(3d)分别将图神经网络GNN1的测试集中每个蛋白质图计算出的信息值与GNN2测试集中每个蛋白质图计算出的信息值从大到小排序,并从两个图神经网络中分别选取其排序的蛋白质图信息值前10的蛋白质图组成两个集合;
(3e)对两个蛋白质图集合进行取交集操作,选取交集中的每个蛋白质图,将预测的所有类别概率的最大值的标签作为该蛋白质图的类别标签,将添加标签后的蛋白质图分别添加到图神经网络GNN1的训练集与GNN2的训练集中并对两个网络进行训练,用梯度下降法更新图神经网络GNN1与GNN2中各层的参数直到损失函数收敛,记录已添加的蛋白质图的数量Q;
(3f)判断添加标签的蛋白质图的数量Q是否达到900个,若是,则执行步骤(3g),否则,将本次迭代后的测试集作为当前迭代的测试集执行步骤(3a)操作;
(3g)将删除Q个添加标签的蛋白质图后得到的测试集分别输入到图神经网络GNN1与GNN2中,利用分别计算图神经网络GNN1与GNN2测试集中每个蛋白质图预测的所有类别的预测概率,分别选取出每一类预测概率最高的1个蛋白质样本组成两个集合;
(3h)对两个蛋白质图集合进行取交集操作,选取交集中的每个蛋白质图,将预测的所有类别概率的最大值的标签作为该蛋白质图的类别标签,将添加标签后的蛋白质图分别添加到图神经网络GNN1的训练集与GNN2的训练集中并对两个网络进行训练,用梯度下降法更新图神经网络GNN1与GNN2中各层的参数直到损失函数收敛,记录已添加的蛋白质图的数量Q;
(3i)判断添加标签的蛋白质图数量Q是否达到1800个,若是,得到训练好的图神经网络GNN1和GNN2后执行步骤(4),否则,将本次迭代后的测试集作为当前迭代的测试集后执行步骤(3g);
(4)对无标签蛋白质样本进行预测:
将待识别的无标签蛋白质样本输入到训练好的图神经网络GNN1和GNN2中,每个网络输出一个预测概率特征向量,将两个向量的平均值作为该蛋白质样本的最终预测概率特征向量;将最终预测概率特征向量中的最大概率值对应的类别作为该蛋白质样本的类别。
2.根据权利要求1所述的基于主动半监督图神经网络的蛋白质分类方法,其特征在于,步骤(1a)中所述1000个蛋白质样本组成样本集中的每个蛋白质样本均包括其内部的原子,原子间的连接关系,原子的特征向量矩阵以及该蛋白质的类别标签。
3.根据权利要求1所述的基于主动半监督图神经网络的蛋白质分类方法,其特征在于,步骤(1a)中所述样本集中每个蛋白质样本进行建模的步骤如下:
第一步,将样本集中每个蛋白质样本的每个原子表示为一个节点,并为每个节点从0开始编号;
第二步,将每个蛋白质样本的原子连接关系表示为节点的边;
第三步,将样本集中蛋白质分子的类别从0开始编号,生成蛋白质样本的类别标签;
第四步,将上述三步得到的节点、边和蛋白质样本的类别标签组合为该蛋白质样本对应的包含多边形结构和单链结构的图结构。
4.根据权利要求1所述的基于主动半监督图神经网络的蛋白质分类方法,其特征在于,步骤(1b)中所述9000个蛋白质样本组成样本集中的每个蛋白质样本包括其内部的原子,原子间的连接关系,原子的特征向量矩阵。
5.根据权利要求1所述的基于主动半监督图神经网络的蛋白质分类方法,其特征在于,步骤(1b)中所述对样本集中每个蛋白质样本进行建模的步骤如下:
第一步,将样本集中每个蛋白质样本的每个原子表示为一个节点,并为每个节点从0开始编号;
第二步,将每个蛋白质样本内的原子连接关系表示为节点的边;
第三步,将上述两步得到的节点和边组合为该蛋白质样本对应的包含多边形结构和单链结构的图结构。
6.根据权利要求1所述的基于主动半监督图神经网络的蛋白质分类方法,其特征在于,步骤(3a)中所述经Softmax函数计算的测试集中每个蛋白质图的预测概率特征向量的步骤如下:
第一步,按照下式,计算测试集中每个蛋白质样本的图级特征向量:
Figure FDA0003016161390000051
其中,hz表示测试集中第z个蛋白质样本gz的图级特征向量,p表示测试集中蛋白质样本gz中节点的总数,i表示测试集中蛋白质样本gz中节点的序号,θ表示待学习的参数矩阵,
Figure FDA0003016161390000052
表示节点vi的特征向量,vj表示序号为j的节点,N(vi)表示节点vi的邻居节点集合,
Figure FDA0003016161390000053
表示节点vj特征向量,T表示转置操作;
第二步,按照下式,计算测试集中每个蛋白质样本的预测概率特征向量:
Figure FDA0003016161390000054
其中,pz表示测试集中第z个蛋白质样本gz的预测概率特征向量,exp(·)表示以自然常数e为底的指数操作,
Figure FDA0003016161390000055
表示图级特征向量hz中第l个分量值。
7.根据权利要求1所述的基于主动半监督图神经网络的蛋白质分类方法,其特征在于,步骤(3e)中所述的损失函数如下:
Figure FDA0003016161390000056
其中,Ltra表示损失函数,n表示训练集中蛋白质样本的总数,f表示蛋白质图的类别标号,f=1.2…F,F表示训练集中所有蛋白质图类别的总数,ycf表示一个变量指标:当训练集中第c个蛋白质样本gc的类标签为f时,ycf=1;当训练集中第c个蛋白质样本gc的类标签不为f时,ycf=0,pcf表示训练集中蛋白质样本gc属于类别f的概率。
CN202110389844.XA 2021-04-12 2021-04-12 基于主动半监督图神经网络的蛋白质分类方法 Active CN113066528B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110389844.XA CN113066528B (zh) 2021-04-12 2021-04-12 基于主动半监督图神经网络的蛋白质分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110389844.XA CN113066528B (zh) 2021-04-12 2021-04-12 基于主动半监督图神经网络的蛋白质分类方法

Publications (2)

Publication Number Publication Date
CN113066528A true CN113066528A (zh) 2021-07-02
CN113066528B CN113066528B (zh) 2022-07-19

Family

ID=76566383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110389844.XA Active CN113066528B (zh) 2021-04-12 2021-04-12 基于主动半监督图神经网络的蛋白质分类方法

Country Status (1)

Country Link
CN (1) CN113066528B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023236306A1 (zh) * 2022-06-10 2023-12-14 慧壹科技(上海)有限公司 配体筛选模型构建方法及装置、筛选方法、设备和介质
WO2023240720A1 (zh) * 2022-06-16 2023-12-21 慧壹科技(上海)有限公司 药物筛选模型构建方法及装置、筛选方法、设备和介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030104526A1 (en) * 1999-03-24 2003-06-05 Qiang Liu Position dependent recognition of GNN nucleotide triplets by zinc fingers
CN109563137A (zh) * 2016-08-10 2019-04-02 富士胶片和光纯药株式会社 利用了ppr基序的dna结合性蛋白质及其应用
CN110348573A (zh) * 2019-07-16 2019-10-18 腾讯科技(深圳)有限公司 训练图神经网络的方法、图神经网络设备、装置、介质
CN110617966A (zh) * 2019-09-23 2019-12-27 江南大学 一种基于半监督生成对抗网络的轴承故障诊断方法
CN110797084A (zh) * 2019-11-06 2020-02-14 吉林大学 基于深层神经网络的脑脊液蛋白质的预测方法
CN110853703A (zh) * 2019-10-16 2020-02-28 天津大学 一种对蛋白质二级结构进行半监督学习预测方法
US20200311402A1 (en) * 2018-04-11 2020-10-01 Tencent Technology (Shenzhen) Company Limited Human pose prediction method and apparatus, device, and storage medium
CN111881936A (zh) * 2020-06-19 2020-11-03 北京三快在线科技有限公司 训练样本筛选方法、装置、电子设备及存储介质
CN111916144A (zh) * 2020-07-27 2020-11-10 西安电子科技大学 基于自注意力神经网络和粗化算法的蛋白质分类方法
CN112002378A (zh) * 2020-10-29 2020-11-27 武汉金开瑞生物工程有限公司 一种基于几何图神经网络的蛋白质信号肽的预测方法及装置
CN112529415A (zh) * 2020-12-11 2021-03-19 西安电子科技大学 基于组合多感受野图神经网络的物品评分方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030104526A1 (en) * 1999-03-24 2003-06-05 Qiang Liu Position dependent recognition of GNN nucleotide triplets by zinc fingers
CN109563137A (zh) * 2016-08-10 2019-04-02 富士胶片和光纯药株式会社 利用了ppr基序的dna结合性蛋白质及其应用
US20200311402A1 (en) * 2018-04-11 2020-10-01 Tencent Technology (Shenzhen) Company Limited Human pose prediction method and apparatus, device, and storage medium
CN110348573A (zh) * 2019-07-16 2019-10-18 腾讯科技(深圳)有限公司 训练图神经网络的方法、图神经网络设备、装置、介质
CN110617966A (zh) * 2019-09-23 2019-12-27 江南大学 一种基于半监督生成对抗网络的轴承故障诊断方法
CN110853703A (zh) * 2019-10-16 2020-02-28 天津大学 一种对蛋白质二级结构进行半监督学习预测方法
CN110797084A (zh) * 2019-11-06 2020-02-14 吉林大学 基于深层神经网络的脑脊液蛋白质的预测方法
CN111881936A (zh) * 2020-06-19 2020-11-03 北京三快在线科技有限公司 训练样本筛选方法、装置、电子设备及存储介质
CN111916144A (zh) * 2020-07-27 2020-11-10 西安电子科技大学 基于自注意力神经网络和粗化算法的蛋白质分类方法
CN112002378A (zh) * 2020-10-29 2020-11-27 武汉金开瑞生物工程有限公司 一种基于几何图神经网络的蛋白质信号肽的预测方法及装置
CN112529415A (zh) * 2020-12-11 2021-03-19 西安电子科技大学 基于组合多感受野图神经网络的物品评分方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
梁丽娜: "基于空间感知与细化残差的视频运动目标分割", 《南京大学学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023236306A1 (zh) * 2022-06-10 2023-12-14 慧壹科技(上海)有限公司 配体筛选模型构建方法及装置、筛选方法、设备和介质
WO2023240720A1 (zh) * 2022-06-16 2023-12-21 慧壹科技(上海)有限公司 药物筛选模型构建方法及装置、筛选方法、设备和介质

Also Published As

Publication number Publication date
CN113066528B (zh) 2022-07-19

Similar Documents

Publication Publication Date Title
US20220391767A1 (en) System and method for relational time series learning with the aid of a digital computer
CN110851645B (zh) 一种基于深度度量学习下相似性保持的图像检索方法
CN109753664A (zh) 一种面向领域的概念抽取方法、终端设备及存储介质
CN111860495A (zh) 一种层级化网络结构搜索方法、设备及可读存储介质
CN109492230B (zh) 一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法
CN113066528B (zh) 基于主动半监督图神经网络的蛋白质分类方法
CN110442523B (zh) 一种跨项目软件缺陷预测方法
CN108710576B (zh) 基于异构迁移的数据集扩充方法及软件缺陷预测方法
CN110619059A (zh) 一种基于迁移学习的建筑物标定方法
CN112036476A (zh) 基于二分类业务的数据特征选择方法、装置及计算机设备
CN111916144A (zh) 基于自注意力神经网络和粗化算法的蛋白质分类方法
CN111914159A (zh) 一种信息推荐方法及终端
CN113283524A (zh) 一种基于对抗攻击的深度神经网络近似模型分析方法
CN109583519A (zh) 一种基于p-Laplacian图卷积神经网络的半监督分类方法
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN113408802B (zh) 能耗预测网络的训练、能耗预测方法、装置和计算机设备
CN116415020A (zh) 一种图像检索的方法、装置、电子设备及存储介质
Jakaria et al. Comparison of classification of birds using lightweight deep convolutional neural networks
CN107578445B (zh) 基于卷积特征谱的图像可判别区域提取方法
CN109784404A (zh) 一种融合标签信息的多标签分类原型系统及方法
CN113255892A (zh) 一种解耦合的网络结构搜索方法、设备及可读存储介质
CN116304721A (zh) 基于数据类别的大数据治理中数据标准制定方法及系统
CN115496948A (zh) 一种基于深度学习的网络监督细粒度图像识别方法和系统
CN114610953A (zh) 一种数据分类方法、装置、设备及存储介质
CN113066537A (zh) 基于图神经网络的化合物分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant