CN113066537B - 基于图神经网络的化合物分类方法 - Google Patents

基于图神经网络的化合物分类方法 Download PDF

Info

Publication number
CN113066537B
CN113066537B CN202110419531.4A CN202110419531A CN113066537B CN 113066537 B CN113066537 B CN 113066537B CN 202110419531 A CN202110419531 A CN 202110419531A CN 113066537 B CN113066537 B CN 113066537B
Authority
CN
China
Prior art keywords
compound
graph
training
graph neural
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110419531.4A
Other languages
English (en)
Other versions
CN113066537A (zh
Inventor
解宇
马芷璇
张琛
鱼滨
刘公绪
温超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Shanxi University
Original Assignee
Xidian University
Shanxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University, Shanxi University filed Critical Xidian University
Priority to CN202110419531.4A priority Critical patent/CN113066537B/zh
Publication of CN113066537A publication Critical patent/CN113066537A/zh
Application granted granted Critical
Publication of CN113066537B publication Critical patent/CN113066537B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于图神经网络的化合物分类方法,用于解决现有分类方法忽略了化合物分类中的结构信息导致分类结果不准确和分类效率较低的问题。本发明的步骤为:(1)构建两个图神经网络;(2)生成带有类别标签的训练集和不带有类别标签的训练集;(3)训练两个图神经网络;(4)对不包含类别标签的化合物进行分类。本发明搭建并训练了两个图神经网络,能更好地捕获化合物中所蕴含的结构信息,采用预训练、协同训练与自训练方法使得本发明在处理具有复杂信息的化合物时有着较短的处理时间和较高的化合物分类准确率。

Description

基于图神经网络的化合物分类方法
技术领域
本发明属于物理技术领域,更进一步涉及图像分类技术领域中的一种基于图神经网络的化合物分类方法。本发明可根据建模后的化合物图的结构特征和分子节点属性,通过图神经网络对图结构和节点属性提取化合物分子的属性信息,并根据该信息来进行分类,比如判断某个化合物是否为抗生素分子化合物。
背景技术
化合物作为现实生活中的非欧几里得数据可以自然地以图数据结构来表示,即通常用于表征一组对象(即节点)及其关系(即节点之间的连边)。在常规的化合物分类技术中,通常需要通过一系列的物理或者化学实验才能判断某一个化合物的特性,比如判断某一个化合物是否为抗生素分子化合物。机器学习作为一种先进技术,现在也被应用于这些工作中,这些化合物被作为一个图结构数据输入到一个特定的机器学习模型中,然后利用已有的带标签的数据进行大量的学习优化最终得出了一个有很强适应力的机器学习模型。然后在此模型的基础上,将待分类的化合物结构以及其属性信息输入模型中,最终得出该化合物的化学物理特性。
平安国际智慧城市科技股份有限公司在其申请的专利文献“化合物分类方法及相关设备”(申请号:202010917059.2,申请公布号:111986740 A)中提出了一种对化合物进行分类方法。该方法的实施步骤是:步骤1,获取样本化合物的基于化合物性质的第一标签向量。步骤2,将样本化合物的第一原子表示转化为第一原子向量序列,将第一原子表示对应的缺失原子转化为第一原子表示的第二标签向量。步骤3,根据第一标签向量和性质特征向量训练由特征提取模型和第一分类模型构成的性质分类模型,根据第二标签向量和缺失原子向量训练由特征提取模型和第二分类模型构成的缺失原子预测模型。步骤4,用训练后的性质分类模型以及目标化合物的第二原子向量为输入,对目标化合物进行分类。该方法存在的不足之处是,忽略了化合物的结构信息,在化合物中,不同的分子结构、原子结构均可能会带来与其结构对应的化合物特性的巨大变化,例如丙酮和丙醛具有相同的化学分子式,所含的元素是无差别的,但由于结构不同导致二者的化合物特性不同,因此如果不将对化合物的结构分析纳入化合物分类当中将会导致得到错误的分类结果。
华侨大学在其申请的专利文献“一种油茶籽油皂苷类化合物分类及结构推测方法”(申请号:201911145474.4,申请公布号:110849993 A)中提出了一种基于蛋白质三维模型的分类方法。该方法的实施步骤是:步骤1,按照皂苷元骨架结构差异分成三种不同类型。步骤2,总结油茶籽油不同类型皂苷类化合物在质谱中的裂解特征。步骤3,对油茶籽油样品进行皂苷类化合物提取和检测基础上,结合裂解特征,根据皂苷元骨架结构、m/z差值以及现有茶皂苷的官能团位点,推测未知皂苷类化合物的结构。该方法存在的不足之处是,由于该方法根据化合物在质谱中的裂解特征进行化合物分类,而通过质谱技术观察裂解特征进而计算出化合物的化学式工作量较大,会占用较长的时间,最终会影响到化合物分类的效率。
发明内容
本发明的目的在于针对上述现有技术存在的不足,提出一种基于图神经网络的化合物分类方法,用于解决现有分类方法忽略了化合物分类中的结构信息导致分类结果不准确和分类效率较低的问题。
实现本发明目的的思路是,构建化合物图结构数据集,构建两个图神经网络,采用预训练方法约束两个图神经网络对同一样本输出的一致性达到提高分类效率的目的,采用协同训练方法生成伪标签提高对不带有类别标签的化合物的利用率,采用自训练方法对化合物建模生成的图结构进行学习以避免因忽略化合物分类中的结构信息导致分类结果不准确的问题。
实现本发明目的的具体步骤如下:
(1)构建图神经网络:
(1a)搭建两个结构相同的10层的图神经网络GNN1和GNN2,每个图神经网络的结构依次为:第一全连接层,第一正则化层,第二全连接层,第二正则化层,卷积层,池化层,第三全连接层,第三正则化层,激活层,输出层;
(1b)将图神经网络GNN1中的第一至第三全连接层的参数分别设置为1000*256,256*128,128*64,第一至第三正则化层的大小分别设置为256,128和64,池化层设置为平均池化方式,激活层采用Softmax函数;将图神经网络GNN2中的第一至第三全连接层的参数分别设置为1000*256,256*128,128*64,第一至第三正则化层的大小分别设置为256,128和64,池化层设置为最大池化方式,激活层采用Softmax函数;
(2)生成两个训练集:
(2a)随机选取至少3000个带有类别标签的化合物组成第一样本集,随机选取至少2000个不带有类别标签的化合物组成第二样本集,每个样本集中的每个化合物均包含其内部的原子,原子间的连接关系以及原子的特征向量矩阵;
(2b)分别对第一、第二样本集中的每个化合物进行建模,生成由节点和连接边组成的图结构,将第一、第二样本集建模后的图结构分别组成带有类别标签的训练集和不带有类别标签的训练集;
(3)训练图神经网络:
(3a)将带有类别标签的训练集分别输入到两个图神经网络GNN1与GNN2中迭代更新网络参数,直至初步预训练的损失函数预测得到的类别标签与实际类别标签之间的差异值收敛为止,得到初步预训练好的两个图神经网络;
(3b)将不带有类别标签的训练集分别输入到初步预训练好的两个图神经网络GNN1与GNN2中迭代更新网络参数,直至JS散度函数收敛为止,得到预训练好的两个图神经网络GNN1与GNN2;
(3c)将不带有类别标签的训练集输入到预训练好的图神经网络GNN1中,输出带有伪标签的化合物图结构,将带有伪标签的化合物图结构输入到预训练好的GNN2中进行协同训练,直至协同训练的损失函数收敛为止,得到协同训练好的图神经网络GNN2;采用与协同训练图神经网络GNN2相同的方法得到协同训练好的图神经网络GNN1;
(3d)选取伪标签中每个类别标签中概率最高的10个化合物图结构加入到带有类别标签的训练集中,并将其分别输入到协同训练好的两个图神经网络GNN1与GNN2中迭代更新网络参数,直至自训练的损失函数收敛为止,得到自训练好的两个图神经网络GNN1与GNN2;
(4)对不包含类别标签的化合物进行分类:
将一个待分类的不包含类别标签的化合物图结构输入到自训练好的两个图神经网络GNN1与GNN2中,每个网络输出一个预测概率特征向量,将两个向量的平均值作为该化合物图结构的最终预测概率特征向量;将最终预测概率特征向量中的最大概率值对应的类别作为该化合物图结构的类别。
本发明与现有技术相比有以下优点:
第一,由于本发明搭建并训练了两个图神经网络,将化合物建模为能够充分表示出化合物结构信息的图结构,并通过多次迭代学习对化合物的特征及结构信息进行学习,克服了现有分类方法忽略了化合物分类中的结构信息导致分类结果不准确的问题,使得本发明能更好地捕获化合物的层次结构信息以提高对化合物分类的准确率。
第二,由于本发明利用预训练、协同训练与自训练依次对两个图神经网络进行训练,充分利用未标记数据,在未标记数据的帮助下训练有标签的样本,获得比只用有标签的样本训练得到的分类器性能更优的分类器,克服了现有分类技术中获取大量标记化合物样本作为训练集的时间成本太高,从而导致分类效率较低的问题,使得本发明能更好地减少分类的时间成本,以提高化合物分类的效率。
附图说明
图1是本发明的流程图。
具体实施方式
参照附图1对本发明的实现步骤做进一步的描述。
步骤1,构建图神经网络。
搭建两个结构相同的10层的图神经网络GNN1和GNN2,每个图神经网络的结构依次为:第一全连接层,第一正则化层,第二全连接层,第二正则化层,卷积层,池化层,第三全连接层,第三正则化层,激活层,输出层。
将图神经网络GNN1中的第一至第三全连接层的参数分别设置为1000*256,256*128,128*64,第一至第三正则化层的大小分别设置为256,128和64,池化层设置为平均池化方式,激活层采用Softmax函数;将图神经网络GNN2中的第一至第三全连接层的参数分别设置为1000*256,256*128,128*64,第一至第三正则化层的大小分别设置为256,128和64,池化层设置为最大池化方式,激活层采用Softmax函数。
步骤2,生成两个训练集。
随机选取至少3000个带有类别标签的化合物组成第一样本集,随机选取至少2000个不带有类别标签的化合物组成第二样本集,每个样本集中的每个化合物均包含其内部的原子,原子间的连接关系以及原子的特征向量矩阵。
分别对第一、第二样本集中的每个化合物进行建模,生成由节点和连接边组成的图结构,将第一、第二样本集建模后的图结构分别组成带有类别标签的训练集和不带有类别标签的训练集。
所述分别对第一、第二样本集中的每个化合物进行建模的步骤如下:
第1步,将第一、第二样本集中的每个化合物输入到计算机中,将化合物内的每个原子映射为以序号0开始的节点。
第2步,将每个化合物内的原子连接关系映射为节点的连接边。
第3步,将化合物的类别标签映射为以序号0开始的图标签。
第4步,将上述三步得到的节点、边和图标签组合为该化合物样本对应的图结构。
步骤3,训练图神经网络。
将带有类别标签的训练集分别输入到两个图神经网络GNN1与GNN2中迭代更新网络参数,直至初步预训练的损失函数预测得到的类别标签与实际类别标签之间的差异值收敛为止,得到初步预训练好的两个图神经网络。
所述的初步预训练的损失函数如下:
Figure BDA0003027355010000051
其中,Ls(·)表示初步预训练的损失函数,x表示带有类别标签的训练集中的所有化合物图结构,y表示带有类别标签的训练集中的所有化合物图结构的真实类别标签,θ表示初始值为0在迭代训练中更新的图神经网络训练参数,∑表示求和操作,xi表示带有类别标签的训练集中的第i个化合物图结构,LCE(·)表示交叉熵损失函数,argmax(·)表示求最大值操作,Z(xi)表示对第i个化合物图结构xi的标签预测概率,yi表示第i个化合物图结构xi的真实类别标签。
将不带有类别标签的训练集分别输入到初步预训练好的两个图神经网络GNN1与GNN2中迭代更新网络参数,直至JS散度函数收敛为止,得到预训练好的两个图神经网络GNN1与GNN2。
所述的JS散度函数如下:
Figure BDA0003027355010000061
其中,LJS(x;θ12)表示两个图神经网络GNN1与GNN2分别通过训练参数θ1,θ2对同一化合物图结构x的标签预测之间的差异值,H(·)表示熵函数,Z1(x),Z2(x)分别表示图神经网络GNN1与GNN2对不带有类别标签的训练集中的化合物图结构x的标签预测概率。
将不带有类别标签的训练集输入到预训练好的图神经网络GNN1中,输出带有伪标签的化合物图结构,将带有伪标签的化合物图结构输入到预训练好的GNN2中进行协同训练,直至协同训练的损失函数收敛为止,得到协同训练好的图神经网络GNN2;采用与协同训练图神经网络GNN2相同的方法得到协同训练好的图神经网络GNN1。
所述协同训练的损失函数的步骤如下:
第1步,按照下式,计算每个不带有类别标签的化合物图结构的权重:
Figure BDA0003027355010000062
其中,wi表示第i个不带有类别标签的化合物图结构的权重,log(·)表示以常数10为底的对数操作,c表示类别标签的总数。
第2步,按照下式,计算每个图神经网络上的优化函数:
Figure BDA0003027355010000063
其中Lp(·)表示每个图神经网络上的优化函数,
Figure BDA0003027355010000064
表示所有不带有类别标签的化合物图结构的伪标签,
Figure BDA0003027355010000065
表示第i个不带有类别标签的化合物图结构的伪标签的重要性权衡系数,
Figure BDA0003027355010000066
表示第i个不带有类别标签的化合物图结构的伪标签。
第3步,按照下式,计算协同训练的损失函数:
Figure BDA0003027355010000067
其中,LCO表示协同训练的损失函数,λCO表示初始置为0在迭代训练中更新的协同训练重要性权衡系数,ρ表示初始置为0在迭代训练中更新的带有类别标签的化合物图结构的重要性权衡系数。
选取伪标签中每个类别标签中概率最高的10个化合物图结构加入到带有类别标签的训练集中,并将其分别输入到协同训练好的两个图神经网络GNN1与GNN2中迭代更新网络参数,直至自训练的损失函数收敛为止,得到自训练好的两个图神经网络GNN1与GNN2。
所述的自训练的损失函数如下:
Figure BDA0003027355010000071
其中,Lself表示自训练的损失函数。
步骤4,对不包含类别标签的化合物进行分类:
将一个待分类的不包含类别标签的化合物图结构输入到自训练好的两个图神经网络GNN1与GNN2中,每个网络输出一个预测概率特征向量,将两个向量的平均值作为该化合物图结构的最终预测概率特征向量;将最终预测概率特征向量中的最大概率值对应的类别作为该化合物图结构的类别。
下面结合仿真实验对本发明的效果做进一步的说明。
1.仿真实验条件:
本发明的仿真实验的硬件平台为:处理器为Intel(R)Xeon(R)CPU E5-2650v4,主频为2.20GHz,内存256GB。
本发明的仿真实验的软件平台为:Ubuntu 18.04操作系统和python 3.6。
2.仿真内容及其结果分析:
本发明仿真实验是采用本发明和五个现有技术的分类方法(DGCNN,PSCN,GCAPS-CNN,LDP,WL)分别对输入的化合物数据集分类,得到每个化合物的预测概率特征向量,将最终预测概率特征向量中的最大概率值对应的类别作为蛋白质样本的预测类别。
现有技术DCNN分类方法指的是,J.Atwood等人在“Diffusion-convolutionalneural networks,in:Advances in Neural Information Processing Systems,2016,pp.1993–2001”中提出的传播-卷积神经网络分类方法,简称DCNN。
现有技术PSCN分类方法指的是,M.Niepert等人在“Learning convolutionalneural networks for graphs,in:Proceedings of the 33nd InternationalConference on Machine Learning,2016,pp.2014–2023”中提出的基于图结构的CNN网络框架方法,简称PSCN。
现有技术DGCNN分类方法指的是,M.Zhang等人在“An end-to-end deep learningarchitecture for graph classification,in:Proceedings of the32nd AAAIConference on Artificial Intelligence,2018,pp.4438–4445”中提出的一个端到端的图分类框架,简称DGCNN。
现有技术GCAPS-CNN分类方法指的是,M.Niepert等人在“Learningconvolutional neural networks for graphs,in:Proceedings of the 33ndInternational Conference on Machine Learning,2016,pp.2014–2023”中提出的基于图置换的分类方法,简称GCAPS-CNN。
现有技术LDP分类方法指的是,C.Cai等人在“A simple yet effective baselinefor non-attribute graph classification,in:Proceedings of the 35ndInternational Conference on Machine Learning,2018,pp.623–635”中提出的对于无属性图的分类方法,简称LDP。
现有技术SP分类方法指的是,K.M.Borgwardt等人在“Shortest-path kernels ongraphs,in:Proceedings of the 6th IEEE International Conference on DataMining,2006”中提出的基于最短路径的核方法,简称SP。
现有技术GK分类方法指的是,N.Shervashidze等人在“Efficient graphletkernels for large graph comparison,in:Proceedings of the TwelfthInternational Conference on Artificial Intelligence and Statistics,AISTATS2009,Clearwater Beach,Florida,USA,April 16-18,2009,2009,pp.488–495”中提出的一种高效的图比较方法,简称GK。
现有技术WL分类方法指的是,N.Shervashidze等人在“Weisfeiler-lehman graphkernels,J.Mach.Learn.Res.12(2011)2539–2561”中提出的一种威斯费勒-莱曼图核分类方法,简称WL。
本发明仿真实验中所使用的化合物数据集为分别选取MUTAG、PTC、PROTEINS、NCI1、NCI109、D&D、ENZYMES七个数据集中所有的化合物,组成七个化合物数据集。
本发明使用的化合物数据集MUTAG数据集是由诱变的芳香族和杂芳香族硝基化合物组成,它具有188种化合物和两个图形标记,分别表示它们是否具有诱变作用。由Y.Yu等人在“Graph classification based on sparse graph feature selection and extremelearning machine,Neurocomputing 261(2017)20–27”公开的文献中所披露的数据集。
本发明使用的化合物数据集PTC是标明对雄性或雌性大鼠有致癌性的化学化合物数据集。由S.Pan等人在“Task sensitive feature exploration and learning formultitask graph classification,IEEE Transactions on Systems,Man,andCybernetics 47(3)(2017)744–758”公开的文献中所披露的数据集。
本发明使用的化合物数据集PROTEINS是一组蛋白质图。每个图有一个标签,以指示它是酶还是非酶。由I.Schomburg等人在“the enzyme database:updates and majornew developments,Nucleic Acids Research 32(90001)(2004)431–433”公开的文献中所披露的数据集。
本发明使用的化合物数据集NCI1和NCI109是两个表示是否可以延迟癌细胞系生长的化合物数据集,边缘表示两个原子之间的键。由S.Pan等人在“Cogboost:Boosting forfast cost-sensitive graph classification,IEEE Transactions on Knowledge andData Engineering 27(11)(2015)2933–2946”公开的文献中所披露的数据集。
本发明使用的化合物数据集D&D是一个蛋白质结构数据集,其图形标签指示它们是否为酶。由P.D.Dobson等人在“Distinguishing enzyme structures from non-enzymeswithout alignments,J.Mol.Biol(2003)771–783”公开的文献中所披露的数据集。
本发明使用的化合物数据集ENZYMES是一个蛋白质数据集。每个图都有一个标签,指出它所属的EC顶级类别。由I.Schomburg等人在“the enzyme database:updates andmajor new developments,Nucleic Acids Research 32(90001)(2004)431–433”公开的文献中所披露的数据集。
为了验证本发明的效果,对分别采用九种不同的分类方法得到的每个化合物数据集进行下述的分类准确率计算,将所有计算结果绘制成表1,表1中的Ours表示本发明的仿真实验结果。
Figure BDA0003027355010000091
表1九种方法的分类结果评价一览表
Figure BDA0003027355010000101
结合表1可以看出,本发明的在第一个MUTAG数据集上达到了现有技术的平均水平,而在后6个数据集上均超过了现有技术,证明本发明可以得到更高化合物分类准确率。

Claims (6)

1.一种基于图神经网络的化合物分类方法,其特征在于,构建两个图神经网络,采用预训练方法约束两个图神经网络对同一化合物输出的一致性,采用协同训练方法生成伪标签提高对不带有类别标签的化合物的利用率,采用自训练方法对化合物建模生成的图结构进行学习;该方法的具体步骤包括:
(1)构建图神经网络:
(1a)搭建两个结构相同的10层的图神经网络GNN1和GNN2,每个图神经网络的结构依次为:第一全连接层,第一正则化层,第二全连接层,第二正则化层,卷积层,池化层,第三全连接层,第三正则化层,激活层,输出层;
(1b)将图神经网络GNN1中的第一至第三全连接层的参数分别设置为1000*256,256*128,128*64,第一至第三正则化层的大小分别设置为256,128和64,池化层设置为平均池化方式,激活层采用Softmax函数;将图神经网络GNN2中的第一至第三全连接层的参数分别设置为1000*256,256*128,128*64,第一至第三正则化层的大小分别设置为256,128和64,池化层设置为最大池化方式,激活层采用Softmax函数;
(2)生成两个训练集:
(2a)随机选取至少3000个带有类别标签的化合物组成第一样本集,随机选取至少2000个不带有类别标签的化合物组成第二样本集,每个样本集中的每个化合物均包含其内部的原子,原子间的连接关系以及原子的特征向量矩阵;
(2b)分别对第一、第二样本集中的每个化合物进行建模,生成由节点和连接边组成的图结构,将第一、第二样本集建模后的图结构分别组成带有类别标签的训练集和不带有类别标签的训练集;
(3)训练图神经网络:
(3a)将带有类别标签的训练集分别输入到两个图神经网络GNN1与GNN2中迭代更新网络参数,直至初步预训练的损失函数预测得到的类别标签与实际类别标签之间的差异值收敛为止,得到初步预训练好的两个图神经网络;
(3b)将不带有类别标签的训练集分别输入到初步预训练好的两个图神经网络GNN1与GNN2中迭代更新网络参数,直至JS散度函数收敛为止,得到预训练好的两个图神经网络GNN1与GNN2;
(3c)将不带有类别标签的训练集输入到预训练好的图神经网络GNN1中,输出带有伪标签的化合物图结构,将带有伪标签的化合物图结构输入到预训练好的GNN2中进行协同训练,直至协同训练的损失函数收敛为止,得到协同训练好的图神经网络GNN2;采用与协同训练图神经网络GNN2相同的方法得到协同训练好的图神经网络GNN1;
(3d)选取伪标签中每个类别标签中概率最高的10个化合物图结构加入到带有类别标签的训练集中,并将其分别输入到协同训练好的两个图神经网络GNN1与GNN2中迭代更新网络参数,直至自训练的损失函数收敛为止,得到自训练好的两个图神经网络GNN1与GNN2;
(4)对不包含类别标签的化合物进行分类:
对一个待分类的不包含类别标签的化合物建模为图结构,将建模后的待分类化合物图结构分别输入到自训练好的两个图神经网络GNN1与GNN2中,每个网络输出一个预测概率特征向量,将两个向量的平均值作为该化合物图结构的最终预测概率特征向量;将最终预测概率特征向量中的最大概率值对应的类别作为该化合物图结构的类别。
2.根据权利要求1所述的基于图神经网络的化合物分类方法,其特征在于,步骤(2b)中所述分别对第一、第二样本集中的每个化合物进行建模的步骤如下:
第一步,将第一、第二样本集中的每个化合物输入到计算机中,将化合物内的每个原子映射为以序号0开始的节点;
第二步,将每个化合物内的原子连接关系映射为节点的连接边;
第三步,将化合物的类别标签映射为以序号0开始的图标签;
第四步,将上述三步得到的节点、边和图标签组合为该化合物对应的图结构。
3.根据权利要求1所述的基于图神经网络的化合物分类方法,其特征在于,步骤(3a)中所述的初步预训练的损失函数如下:
Figure FDA0003027355000000021
其中,Ls(·)表示初步预训练的损失函数,x表示带有类别标签的训练集中的所有化合物图结构,y表示带有类别标签的训练集中的所有化合物图结构的真实类别标签,θ表示初始值为0在迭代训练中更新的图神经网络训练参数,∑表示求和操作,xi表示带有类别标签的训练集中的第i个化合物图结构,LCE(·)表示交叉熵损失函数,argmax(·)表示求最大值操作,Z(xi)表示对第i个化合物图结构xi的标签预测概率,yi表示第i个化合物图结构xi的真实类别标签。
4.根据权利要求3所述的基于图神经网络的化合物分类方法,其特征在于,步骤(3b)中所述的JS散度函数如下:
Figure FDA0003027355000000031
其中,LJS(x;θ12)表示两个图神经网络GNN1与GNN2分别通过训练参数θ1,θ2对同一化合物图结构x的标签预测之间的差异值,H(·)表示熵函数,Z1(x),Z2(x)分别表示图神经网络GNN1与GNN2对不带有类别标签的训练集中的化合物图结构x的标签预测概率。
5.根据权利要求4所述的基于图神经网络的化合物分类方法,其特征在于,步骤(3c)中所述协同训练的损失函数的步骤如下:
第一步,按照下式,计算每个不带有类别标签的化合物图结构的权重:
Figure FDA0003027355000000032
其中,wi表示第i个不带有类别标签的化合物图结构的权重,log(·)表示以常数10为底的对数操作,c表示类别标签的总数;
第二步,按照下式,计算每个图神经网络上的优化函数:
Figure FDA0003027355000000033
其中Lp(·)表示每个图神经网络上的优化函数,
Figure FDA0003027355000000034
表示所有不带有类别标签的化合物图结构的伪标签,
Figure FDA0003027355000000035
表示第i个不带有类别标签的化合物图结构的伪标签的重要性权衡系数,
Figure FDA0003027355000000036
表示第i个不带有类别标签的化合物图结构的伪标签;
第三步,按照下式,计算协同训练的损失函数:
Figure FDA0003027355000000041
其中,LCO表示协同训练的损失函数,λCO表示初始置为0在迭代训练中更新的协同训练重要性权衡系数,ρ表示初始置为0在迭代训练中更新的带有类别标签的化合物图结构的重要性权衡系数。
6.根据权利要求5所述的基于图神经网络的化合物分类方法,其特征在于,步骤(3d)中所述的自训练的损失函数如下:
Figure FDA0003027355000000042
其中,Lself表示自训练的损失函数。
CN202110419531.4A 2021-04-19 2021-04-19 基于图神经网络的化合物分类方法 Active CN113066537B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110419531.4A CN113066537B (zh) 2021-04-19 2021-04-19 基于图神经网络的化合物分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110419531.4A CN113066537B (zh) 2021-04-19 2021-04-19 基于图神经网络的化合物分类方法

Publications (2)

Publication Number Publication Date
CN113066537A CN113066537A (zh) 2021-07-02
CN113066537B true CN113066537B (zh) 2022-04-08

Family

ID=76567356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110419531.4A Active CN113066537B (zh) 2021-04-19 2021-04-19 基于图神经网络的化合物分类方法

Country Status (1)

Country Link
CN (1) CN113066537B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114724646B (zh) * 2022-05-05 2023-06-02 北京科技大学 一种基于质谱图和图结构的分子属性预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472065A (zh) * 2019-07-25 2019-11-19 电子科技大学 基于gcn孪生网络的跨语言知识图谱实体对齐方法
CN111738438A (zh) * 2020-07-17 2020-10-02 支付宝(杭州)信息技术有限公司 图神经网络模型训练方法、装置及系统
CN111916144A (zh) * 2020-07-27 2020-11-10 西安电子科技大学 基于自注意力神经网络和粗化算法的蛋白质分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11468358B2 (en) * 2017-11-30 2022-10-11 Palo Alto Networks (Israel Analytics) Ltd. Framework for semi-supervised learning when no labeled data is given

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472065A (zh) * 2019-07-25 2019-11-19 电子科技大学 基于gcn孪生网络的跨语言知识图谱实体对齐方法
CN111738438A (zh) * 2020-07-17 2020-10-02 支付宝(杭州)信息技术有限公司 图神经网络模型训练方法、装置及系统
CN111916144A (zh) * 2020-07-27 2020-11-10 西安电子科技大学 基于自注意力神经网络和粗化算法的蛋白质分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Graph agreement models for semi-supervised learning;Otilia Stretcu 等;《NIPS"19》;20191231;第8713-8723页 *
HighwayGraph:Modelling Long-distance Node Relations for Improving General Graph Neural Networks;Deli Chen 等;《arXiv》;20200517;第1-11页 *
Where is the Bottleneck of Adversarial Learning with Unlabeled Data;Jingfeng Zhang 等;《arXiv》;20191120;第1-15页 *
双通道图卷积网络半监督学习;牛朝西;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20210115;第I140-127页 *

Also Published As

Publication number Publication date
CN113066537A (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
US11468262B2 (en) Deep network embedding with adversarial regularization
WO2021000903A1 (zh) 一种端到端的sar图像识别方法、装置及存储介质
CN107239802B (zh) 一种图像分类方法及装置
US11816183B2 (en) Methods and systems for mining minority-class data samples for training a neural network
WO2023087558A1 (zh) 基于嵌入平滑图神经网络的小样本遥感图像场景分类方法
CN109583501B (zh) 图片分类、分类识别模型的生成方法、装置、设备及介质
Jin et al. Object-oriented method combined with deep convolutional neural networks for land-use-type classification of remote sensing images
CN107194336B (zh) 基于半监督深度距离度量网络的极化sar图像分类方法
US11151417B2 (en) Method of and system for generating training images for instance segmentation machine learning algorithm
Gong et al. An artificial immune network approach to multi-sensor land use/land cover classification
CN114841257B (zh) 一种基于自监督对比约束下的小样本目标检测方法
CN111008337B (zh) 一种基于三元特征的深度注意力谣言鉴别方法及装置
CN111916144B (zh) 基于自注意力神经网络和粗化算法的蛋白质分类方法
CN113435253B (zh) 一种多源影像联合城区地表覆盖分类方法
WO2021218470A1 (zh) 一种神经网络优化方法以及装置
CN111931505A (zh) 一种基于子图嵌入的跨语言实体对齐方法
WO2023019698A1 (zh) 基于富上下文网络的高光谱图像分类方法
CN104700100A (zh) 面向高空间分辨率遥感大数据的特征提取方法
CN110993037A (zh) 一种基于多视图分类模型的蛋白质活性预测装置
CN115797781A (zh) 农作物识别方法、装置、计算机设备和存储介质
CN113987236B (zh) 基于图卷积网络的视觉检索模型的无监督训练方法和装置
CN109582960B (zh) 基于结构化关联语义嵌入的零示例学习方法
CN113066537B (zh) 基于图神经网络的化合物分类方法
CN112418256A (zh) 分类、模型训练、信息搜索方法、系统及设备
Khlifi et al. Graph-based deep learning techniques for remote sensing applications: Techniques, taxonomy, and applications—A comprehensive review

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant