CN115511145A - 一种基于子图网络和对比学习的化合物性质预测方法 - Google Patents

一种基于子图网络和对比学习的化合物性质预测方法 Download PDF

Info

Publication number
CN115511145A
CN115511145A CN202210485906.1A CN202210485906A CN115511145A CN 115511145 A CN115511145 A CN 115511145A CN 202210485906 A CN202210485906 A CN 202210485906A CN 115511145 A CN115511145 A CN 115511145A
Authority
CN
China
Prior art keywords
graph
network
node
original
subgraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210485906.1A
Other languages
English (en)
Inventor
宣琦
邵佳飞
王金焕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202210485906.1A priority Critical patent/CN115511145A/zh
Publication of CN115511145A publication Critical patent/CN115511145A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于子图网络和对比学习的化合物性质预测方法,包括:1)化合物数据采集,通过下载网络上现有的公开分子化合物数据集进行训练;2)子图网络变换,按照SGN规则对原始图网络进行一阶、二阶子图变换,获得子图网络结构;3)图编码器编码,通过GIN网络对原始图和一阶、二阶子图网络进行编码,提取图级表示向量;4)映射头提取网络特征并进行特征融合;5)计算对比损失,利用归一化的温度标量交叉熵损失NT‑Xent计算增广视图与原始图之间的对比损失,通过不断迭代,损失函数值降低,到达一定阈值,结束模型训练;6)将数据集中图数据输入无监督学习模式下训练好的编码器中获取最终图表示。本发明还包括基于子图网络和对比学习的化合物性质预测系统。

Description

一种基于子图网络和对比学习的化合物性质预测方法
技术领域
本发明涉及对比自监督学习、网络科学以及数据挖掘技术领域,涉及一种化合物性质预测方法。
背景技术
现实世界的许多系统都可以用网络表示,如生物网络、社交网络等。这些网络以图的形式展现,获取有效的图级表示能在实际任务中发挥着重要作用,实现高效的分类或预测功能,例如化学领域的化合物性质预测等。在化学领域中,少量的分子或蛋白质已被人们探索并认知,但仍存在大量化合物数据的作用与性质是未知的。对这些数据进行精准标注需要耗费大量人力、物力与时间,并且高度依赖于少数标签数据的模型容易导致过拟合和泛化能力差等问题。因此,人们将自监督学习应用到表征化学结构中,以实现无监督模式下对分子或蛋白质性质的预测分类。
图结构数据的自监督学习因其能够提高未标记图的泛化性、转移性以及鲁棒性而引起人们兴趣,包括对比学习。现有的基于对比学习的图分类算法大多通过随机增删节点、连边和特征掩蔽来实现数据增强,这在实际应用中容易破坏图的实际语义信息。另一方面,现有GNN算法大多只关注节点级或图级信息,未能捕获子图或motif中的潜在信息。受此启发,本发明提出用子图网络生成增广视图进行对比学习的方法。子图作为网络的一个基本组件,能够扩充原始网络深层次的潜在信息。原始图网络经过一阶子图网络变换和二阶子图网络变换后通过编码器编码映射到图对比空间,通过特征矩阵融合将增广视图的表示与原始图表示结合作为增广视图最终的图表示。然后,按照对比目标要求,让原始图与最终增广视图的图表示相似度最大化。最终,将训练好的编码器应用于下游分子性质预测任务中实现化合物属性分类工作。本方法在公开硝基化合物数据集MUTAG、小鼠致癌性数据集PTC、抗肿瘤数据集NCI1和蛋白质数据集PROTEIN上均取得了较好的化合物性质预测效果,预测的分类精度较高。
发明内容
本发明要克服现有技术的上述缺点,提供一种基于子图网络和对比学习的化合物性质预测方法。
本发明利用子图网络变换、图编码器、映射头以及对比目标模块构建一个对比学习模型,学习化合物的图的抽象语义。该模型通过子图网络变换、图编码和图映射方法获取图级表示,将原始图表示与融合原始图和多级子图网络的图表示进行对比,使编码器学习图的内部结构信息与图之间潜在的联系信息。然后将训练好的编码器应用于下游分子性质预测任务中,提高了无监督学习模式下的化合物性质分类,实现对未知化合物的性质预测。
为实现上述目的,本发明提供了如下技术方案:
一种基于子图网络和对比学习的化合物性质预测方法,包括如下步骤:
S1:化合物数据采集,通过下载网络上现有的公开分子化合物数据集进行训练;
S2:子图网络变换,按照SGN规则对原始图进行一阶、二阶子图变换,获得子图网络结构;
S3:图编码器编码,通过GIN网络对原始图和一阶、二阶子图网络进行编码,提取图级表示向量;
S4:映射头提取网络特征并进行特征融合,通过共享的3层感知器MLP提取特征,得到3个网络表征向量,分别来自于原始图网络、一阶子图网络和二阶子图网络。将3个表征向量融合作为增广视图最终的图级表示;
S5:计算对比损失,利用归一化的温度标量交叉熵损失NT-Xent计算增广视图与原始图之间的对比损失。要求原始图与它自身的增广视图相似度最大,与其他图的增广视图的相似度尽可能小。通过不断迭代,损失函数值降低,到达一定阈值,结束模型训练;
S6:将数据集中图数据输入无监督学习模式下训练好的编码器中获取最终图表示。使用最终图表示和已知的图标签进行有监督的随机森林分类器的训练,最后通过十折交叉验证获得图分类精度和图预测标签。高的图分类精度表明方法能准确识别未知分子或蛋白质性质所归属类别,获取的图预测标签则成功实现分子性质预测任务。
进一步,所述步骤S1中,本发明需要在公开硝基化合物数据集MUTAG、小鼠致癌性数据集PTC、抗肿瘤数据集NCI1和蛋白质数据集PROTEIN上进行模型训练和测试,这些数据集可通过图神经网络库PyG的TUDataset自行加载。下载的每种数据集中均已将现实世界的分子或蛋白质结构转化为图论中的图结构,包含节点、连边、图标签等等信息。其中节点相当于原子,连边相当于化学键,图标签相当于对应化合物的化学属性。
进一步的,所述步骤S2具体包括:
S2.1:一阶子图网络变换。本发明根据SGN规则执行子图变换,能够将节点级图网络转换为包含边信息的子图级网络。具体来说,将一个无标签图集合G=(V,E)视为原始网络,其中V={v1,v2,…,vn}是节点集合,E∈V×V是连边集合,Ni表示成对连接的节点Ni=(vj,vk)。子图网络变换函数
Figure BDA0003629153760000031
将所有原始网络的连边转换为新网络的节点,并根据连边两端节点类属性重新定义新节点的类标签,构建了一个新的节点集满足Vs={Ni|i=0,1,2,…,n}。同时,如果原始网络中两条连边共用一个节点,则在子图网络中对应两节点相连。根据上述规则,由原始网络获得一阶子图网络
Figure BDA0003629153760000032
作为一种增广视图。
S2.2:二阶子图网络变换。二阶子图网络在一阶子图的基础上按照SGN规则变换得到,即
Figure BDA0003629153760000033
取二阶子图网络作为另一种增广视图。
进一步的,所述步骤S3包括以下步骤:
S3-1:将原始网络G、一阶子图
Figure BDA0003629153760000034
和二阶子图
Figure BDA0003629153760000035
输入到三个同类型但是独立的3层图同构神经网络GIN中,获得节点级表示。GIN网络可以将来自同一原始网络的增广视图映射为相似的嵌入,以捕获图结构层次的相似性。它使用K层GINConv进行邻接节点聚合,当层数越多时,节点嵌入的感受野越大。节点表征捕获距离节点K的邻接节点信息,计算出节点v的第k层表示
Figure BDA0003629153760000036
Figure BDA0003629153760000037
其中,ε是可学习的参数,N(v)是节点v的邻居节点,k表示第k层。
S3-2:然后,对节点表示做图池化来得到图级表示,本发明选用全局平均池化,对每一层的所有节点特征取均值,横向拼接K层节点特征,获得相应的特征向量。
Figure BDA0003629153760000038
再进一步,所述步骤S4中,3个图级表示(来自于原始网络G、一阶子图
Figure BDA0003629153760000039
和二阶子图
Figure BDA00036291537600000310
)依次输入到一个共享参数的3层感知器MLP中,得到3个映射特征表示,分别为zG
Figure BDA0003629153760000041
Figure BDA0003629153760000042
然后,将映射头输出的3个特征表示取平均作为增广视图最终的图级表示
Figure BDA0003629153760000043
更进一步,所述步骤5包括以下步骤:
S5-1:对原始网络的图级表示zG和增广视图的最终图级表示
Figure BDA0003629153760000044
进行正则化操作,并进行矩阵乘法,获得zG
Figure BDA0003629153760000045
的相似矩阵
Figure BDA0003629153760000046
S5-2:使用归一化的温度标量τ的交叉熵损失函数计算zG
Figure BDA0003629153760000047
之间的对比损失,如下所示:
Figure BDA0003629153760000048
其中sim(zn,z′n)是来自同一原始图n的原始网络图级表示和增广视图图级表示的相似度,相当于对相似矩阵中对角数值。sim(zn,zn′)是来自不同图的两个图级表示,相当于相似矩阵中除对角数值以外部分。根据以上公式可计算对比损失,随着迭代次数增加,损失下降到一定阈值,完成编码器的训练。
再进一步,所述步骤S6包括以下步骤:
S6-1:构建并训练随机森林分类器。随机森林在Bagging集成的基础上,进一步在基决策树的训练过程中引入随机属性选择。对于基决策树中每个节点,从节点的属性集合中随机挑选k个属性组成子集,然后从该子集中选择一个最优属性用于划分。实例化随机森林模型,使用交叉网格搜索优化随机森林模型。将训练集带入实例化的模型进行训练。
S6-2:设置随机种子为[0,1,2,3,4],表示五次随机实验。每一次都通过十折交叉验证法得到分类精度,再将五次实验的分类精度取平均作为模型性能的评估。数据显示,方法对MUTAG数据集中芳香族还是杂芳族的预测精确度高达89.5%,对PTC中是否具有致癌性的预测精确度高达65.4%,对NCI1数据集中是否抗癌性的预测精确度高达78%,以及对PROTEIN中是否酶类的预测精确度高达74.3%。相交于其他基于无监督学习的模型具有较高预测性能。最后,将对比学习获取的图表示输入训练好的分类器中即可获得预测图标签。
更进一步,步骤S6-1设置交叉验证次数为10,将数据集分为10份,每次选择一个子集作为测试集进行模型测试,重复10次取平均值,评估指标为“accuracy”,参数设置为[100,200,500,1000]。
实现本发明的一种基于子图网络和对比学习的化合物性质预测方法,包括数据采集模块、数据增强模块、图编码模块、图映射模块、对比损失计算模块以及下游化合物属性分类模块:
所述的数据采集模块,通过图神经网络库PyG的TUDataset自行加载所需的公开硝基化合物数据集MUTAG、小鼠致癌性数据集PTC、抗肿瘤数据集NCI1和蛋白质数据集PROTEIN;
所述的数据增强模块,输入无标签的网络图集合,根据SGN规则进行子图网络变换得到一阶子图网络集合。同样对一阶子图网络集合进行相同变换得到二阶子图网络集合。这些获得的新网络集合作为原始网络的增广视图;
所述的图编码模块,将原始网络、一阶子图网络和二阶子图网络输入GIN网络中获得节点级表示,通过全局平均池化获得图级表示;
所述的图映射模块,将上述3个图级特征表示依次通过一个共享的多层感知器MLP,获得对应的映射向量。原始网络的映射向量作为原始网络在对比空间的图表示,3个映射向量的平均值作为增广视图在对比空间的映射表示;
所述的对比损失计算模块,将原始网络和增广视图的映射表示按照归一化的温度标量交叉熵损失NT-Xent计算对比损失;
所述的下游化合物属性分类模块,将训练集通过上述无监督学习训练后的编码器获得映射表示,构建和训练随机森林分类器,通过十折交叉验证得到实际模型分类精度。然后,将待预测化合物数据输入训练好的编码器和分类器中,获得化合物属性标签。
本发明的有益效果为:本发明将子图网络变换作为一种图增强方法进行对比学习。相较于其他对比方法通过增删节点或连边获取基础统计信息,该方法能够捕获子图间的交互信息,扩展网络底层结构信息,获取更多有效特征信息,保护图数据的语义信息。并且,在子图网络算法中应用对比学习,能够获取具有泛化性、迁移性和鲁棒性的图表示,应用于下游化合物属性分类任务能够提高分类精度,也可以迁移到类似化合物属性分类任务中。
附图说明
图1为本发明方法的整体示意图;
图2a~图2c为本发明的子图网络变换的示意图,图2a表示原始网络,图2b表示子图网络变换过程,图2c表示变换后的子图网络;
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细的描述。
参照图1,一种基于子图网络和对比学习的化合物性质预测方法,包括以下步骤:
S1:化合物数据采集,通过下载网络上现有的公开分子化合物数据集进行训练;
S2:子图网络变换,按照SGN规则对原始图进行一阶、二阶子图变换,获得子图网络结构;
S3:图编码器编码,通过GIN网络对原始图和一阶、二阶子图网络进行编码,提取图级表示向量;
S4:映射头提取网络特征并进行特征融合,通过共享的3层感知器MLP提取特征,得到3个网络表征向量,分别来自于原始图网络、一阶子图网络和二阶子图网络。将3个表征向量融合作为增广视图最终的图级表示;
S5:计算对比损失,利用归一化的温度标量交叉熵损失NT-Xent计算增广视图与原始图之间的对比损失。要求原始图与它自身的增广视图相似度最大,与其他图的增广视图的相似度尽可能小。通过不断迭代,损失函数值降低,到达一定阈值,结束模型训练;
S6:将数据集中图数据输入无监督学习模式下训练好的编码器中获取最终图表示。使用最终图表示和已知的图标签进行有监督的随机森林分类器的训练,最后通过十折交叉验证获得图分类精度和图预测标签。高的图分类精度表明方法能准确识别未知分子或蛋白质性质所归属类别,获取的图预测标签则成功实现分子性质预测任务。
进一步,如表1所示,步骤S1中,本发明需要在公开硝基化合物数据集MUTAG、小鼠致癌性数据集PTC、抗肿瘤数据集NCI1和蛋白质数据集PROTEIN上进行模型训练和测试,这些数据集可通过图神经网络库PyG的TUDataset自行加载。下载的每种数据集中均已将现实世界的分子或蛋白质结构转化为图论中的图结构,包含节点、连边、图标签等等信息。其中节点相当于原子,连边相当于化学键,图标签相当于对应化合物的化学属性。
表1.四个化合物数据集的描述
Figure BDA0003629153760000071
进一步的,参照图2,所述步骤S2具体包括:
S2.1:一阶子图网络变换。本发明根据SGN规则执行子图变换,能够将节点级图网络转换为包含边信息的子图级网络。具体来说,将一个无标签图集合G=(V,E)视为原始网络,其中V={v1,v2,…,vn}是节点集合,E∈V×V是连边集合,Ni表示成对连接的节点Ni=(vj,vk)。子图网络变换函数
Figure BDA0003629153760000072
将所有原始网络的连边转换为新网络的节点,并根据连边两端节点类属性重新定义新节点的类标签,构建了一个新的节点集满足Vs={Ni|i=0,1,2,…,n}。同时,如果原始网络中两条连边共用一个节点,则在子图网络中对应两节点相连。根据上述规则,由原始网络获得一阶子图网络
Figure BDA0003629153760000073
作为一种增广视图。
S2.2:二阶子图网络变换。二阶子图网络在一阶子图的基础上按照SGN规则变换得到,即
Figure BDA0003629153760000074
取二阶子图网络作为另一种增广视图。
进一步的,所述步骤S3包括以下步骤:
S3-1:将原始网络G、一阶子图
Figure BDA0003629153760000075
和二阶子图
Figure BDA0003629153760000076
输入到三个同类型但是独立的3层图同构神经网络GIN中,获得节点级表示。GIN网络可以将来自同一原始网络的增广视图映射为相似的嵌入,以捕获图结构层次的相似性。它使用K层GINConv进行邻接节点聚合,当层数越多时,节点嵌入的感受野越大。节点表征捕获距离节点K的邻接节点信息,计算出节点v的第k层表示
Figure BDA0003629153760000077
Figure BDA0003629153760000078
其中,ε是可学习的参数,N(v)是节点v的邻居节点,k表示第k层。
S3-2:然后,对节点表示做图池化来得到图级表示,本发明选用全局平均池化,对每一层的所有节点特征取均值,横向拼接K层节点特征,获得相应的特征向量。
Figure BDA0003629153760000081
再进一步,所述步骤S4中,3个图级表示(来自于原始网络G、一阶子图
Figure BDA0003629153760000082
和二阶子图
Figure BDA0003629153760000083
)依次输入到一个共享参数的3层感知器MLP中,得到3个映射特征表示,分别为zG
Figure BDA0003629153760000084
Figure BDA0003629153760000085
然后,将映射头输出的3个特征表示取平均作为增广视图最终的图级表示
Figure BDA0003629153760000086
更进一步,所述步骤5包括以下步骤:
S5-1:对原始网络的图级表示zG和增广视图的最终图级表示
Figure BDA0003629153760000087
进行正则化操作,并进行矩阵乘法,获得zG
Figure BDA0003629153760000088
的相似矩阵
Figure BDA0003629153760000089
S5-2:使用归一化的温度标量τ的交叉熵损失函数计算zG
Figure BDA00036291537600000810
之间的对比损失,如下所示:
Figure BDA00036291537600000811
其中sim(zn,z′n)是来自同一原始图n的原始网络图级表示和增广视图图级表示的相似度,相当于对相似矩阵中对角数值。sim(zn,zn′)是来自不同图的两个图级表示,相当于相似矩阵中除对角数值以外部分。根据以上公式可计算对比损失,随着迭代次数增加,损失下降到一定阈值,完成编码器的训练。
再进一步,所述步骤S6包括以下步骤:
S6-1:构建并训练随机森林分类器。随机森林在Bagging集成的基础上,进一步在基决策树的训练过程中引入随机属性选择。对于基决策树中每个节点,从节点的属性集合中随机挑选k个属性组成子集,然后从该子集中选择一个最优属性用于划分。实例化随机森林模型,使用交叉网格搜索优化随机森林模型。将训练集带入实例化的模型进行训练。
S6-2:设置随机种子为[0,1,2,3,4],表示五次随机实验。每一次都通过十折交叉验证法得到分类精度,再将五次实验的分类精度取平均作为模型性能的评估。数据显示,方法对MUTAG数据集中芳香族还是杂芳族的预测精确度高达89.5%,对PTC中是否具有致癌性的预测精确度高达65.4%,对NCI1数据集中是否抗癌性的预测精确度高达78%,以及对PROTEIN中是否酶类的预测精确度高达74.3%。相交于其他基于无监督学习的模型具有较高预测性能。最后,将对比学习获取的图表示输入训练好的分类器中即可获得预测图标签。
更进一步,步骤S6-1设置交叉验证次数为10,将数据集分为10份,每次选择一个子集作为测试集进行模型测试,重复10次取平均值,评估指标为“accuracy”,参数设置为[100,200,500,1000]。
实现本发明的一种基于子图网络和对比学习的化合物性质预测方法,包括数据采集模块、数据增强模块、图编码模块、图映射模块、对比损失计算模块以及下游化合物属性分类模块。
所述的数据采集模块,通过图神经网络库PyG的TUDataset自行加载所需的公开硝基化合物数据集MUTAG、小鼠致癌性数据集PTC、抗肿瘤数据集NCI1和蛋白质数据集PROTEIN。具体包括:
S1:本发明需要在公开硝基化合物数据集MUTAG、小鼠致癌性数据集PTC、抗肿瘤数据集NCI1和蛋白质数据集PROTEIN上进行模型训练和测试,这些数据集可通过图神经网络库PyG的TUDataset自行加载。下载的每种数据集中均已将现实世界的分子或蛋白质结构转化为图论中的图结构,包含节点、连边、图标签等等信息。其中节点相当于原子,连边相当于化学键,图标签相当于对应化合物的化学属性。
所述的数据增强模块,输入无标签的网络图集合,根据SGN规则进行子图网络变换得到一阶子图网络集合。同样对一阶子图网络集合进行相同变换得到二阶子图网络集合。这些获得的新网络集合作为原始网络的增广视图,具体包括:
S2.1:一阶子图网络变换。本发明根据SGN规则执行子图变换,能够将节点级图网络转换为包含边信息的子图级网络。具体来说,将一个无标签图集合G=(V,E)视为原始网络,其中V={v1,v2,…,vn}是节点集合,E∈V×V是连边集合,Ni表示成对连接的节点Ni=(vj,vk)。子图网络变换函数
Figure BDA0003629153760000091
将所有原始网络的连边转换为新网络的节点,并根据连边两端节点类属性重新定义新节点的类标签,构建了一个新的节点集满足Vs={Ni|i=0,1,2,…,n}。同时,如果原始网络中两条连边共用一个节点,则在子图网络中对应两节点相连。根据上述规则,由原始网络获得一阶子图网络
Figure BDA0003629153760000092
作为一种增广视图。
S2.2:二阶子图网络变换。二阶子图网络在一阶子图的基础上按照SGN规则变换得到,即
Figure BDA0003629153760000101
取二阶子图网络作为另一种增广视图。
所述的图编码模块,将原始网络、一阶子图网络和二阶子图网络输入GIN网络中获得节点级表示,通过全局平均池化获得图级表示,具体包括:
S3-1:将原始网络G、一阶子图
Figure BDA0003629153760000102
和二阶子图
Figure BDA0003629153760000103
输入到三个同类型但是独立的3层图同构神经网络GIN中,获得节点级表示。GIN网络可以将来自同一原始网络的增广视图映射为相似的嵌入,以捕获图结构层次的相似性。它使用K层GINConv进行邻接节点聚合,当层数越多时,节点嵌入的感受野越大。节点表征捕获距离节点K的邻接节点信息,计算出节点v的第k层表示
Figure BDA0003629153760000104
Figure BDA0003629153760000105
其中,ε是可学习的参数,N(v)是节点v的邻居节点,k表示第k层。
S3-2:然后,对节点表示做图池化来得到图级表示,本发明选用全局平均池化,对每一层的所有节点特征取均值,横向拼接K层节点特征,获得相应的特征向量。
Figure BDA0003629153760000106
所述的图映射模块,将上述3个图级特征表示依次通过一个共享的多层感知器MLP,获得对应的映射向量。原始网络的映射向量作为原始网络在对比空间的图表示,3个映射向量的平均值作为增广视图在对比空间的映射表示,具体包括:
S4:3个图级表示(来自于原始网络G、一阶子图
Figure BDA0003629153760000107
和二阶子图
Figure BDA0003629153760000108
)依次输入到一个共享参数的3层感知器MLP中,得到3个映射特征表示,分别为zG
Figure BDA0003629153760000109
Figure BDA00036291537600001010
然后,将映射头输出的3个特征表示取平均作为增广视图最终的图级表示
Figure BDA00036291537600001011
所述的对比损失计算模块,将原始网络和增广视图的映射表示按照归一化的温度标量交叉熵损失NT-Xent计算对比损失,具体包括:
S5-1:对原始网络的图级表示zG和增广视图的最终图级表示
Figure BDA00036291537600001012
进行正则化操作,并进行矩阵乘法,获得zG
Figure BDA0003629153760000111
的相似矩阵
Figure BDA0003629153760000112
S5-2:使用归一化的温度标量τ的交叉熵损失函数计算zG
Figure BDA0003629153760000113
之间的对比损失,如下所示:
Figure BDA0003629153760000114
其中sim(zn,z′n)是来自同一原始图n的原始网络图级表示和增广视图图级表示的相似度,相当于对相似矩阵中对角数值。sim(zn,zn′)是来自不同图的两个图级表示,相当于相似矩阵中除对角数值以外部分。根据以上公式可计算对比损失,随着迭代次数增加,损失下降到一定阈值,完成编码器的训练。
所述的下游化合物属性分类模块,将训练集通过上述无监督学习训练后的编码器获得映射表示,构建和训练随机森林分类器,通过十折交叉验证得到实际模型分类精度。然后,将待预测化合物数据输入训练好的编码器和分类器中,获得化合物属性标签。具体包括:
S6-1:构建并训练随机森林分类器。随机森林在Bagging集成的基础上,进一步在基决策树的训练过程中引入随机属性选择。对于基决策树中每个节点,从节点的属性集合中随机挑选k个属性组成子集,然后从该子集中选择一个最优属性用于划分。实例化随机森林模型,使用交叉网格搜索优化随机森林模型。将训练集带入实例化的模型进行训练。
S6-2:设置随机种子为[0,1,2,3,4],表示五次随机实验。每一次都通过十折交叉验证法得到分类精度,再将五次实验的分类精度取平均作为模型性能的评估。数据显示,方法对MUTAG数据集中芳香族还是杂芳族的预测精确度高达89.5%,对PTC中是否具有致癌性的预测精确度高达65.4%,对NCI1数据集中是否抗癌性的预测精确度高达78%,以及对PROTEIN中是否酶类的预测精确度高达74.3%。相交于其他基于无监督学习的模型具有较高预测性能。最后,将对比学习获取的图表示输入训练好的分类器中即可获得预测图标签。
更进一步,步骤S6-1设置交叉验证次数为10,将数据集分为10份,每次选择一个子集作为测试集进行模型测试,重复10次取平均值,评估指标为“accuracy”,参数设置为[100,200,500,1000]。
所述数据采集模块、数据增强模块、图编码模块、图映射模块、对比损失计算模块以及下游化合物属性分类模块依次连接。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (9)

1.一种基于子图网络和对比学习的化合物性质预测方法,其特征在于,包括以下步骤:
S1:化合物数据获取,通过下载网络上现有的公开分子化合物数据集进行训练;
S2:子图网络变换,按照SGN规则对原始图进行一阶、二阶子图变换,获得子图网络结构;
S3:图编码器编码,通过GIN网络对原始图和一阶、二阶子图网络进行编码,提取图级表示向量;
S4:映射头提取网络特征并进行特征融合,通过共享的3层感知器MLP提取特征,得到3个网络表征向量,分别来自于原始图网络、一阶子图网络和二阶子图网络。将3个表征向量融合作为增广视图最终的图级表示;
S5:计算对比损失,利用归一化的温度标量交叉熵损失NT-Xent计算增广视图与原始图之间的对比损失。要求原始图与它自身的增广视图相似度最大,与其他图的增广视图的相似度尽可能小。通过不断迭代,损失函数值降低,到达一定阈值,结束模型训练;
S6:将数据集中图数据输入无监督学习模式下训练好的编码器中获取最终图表示。使用最终图表示和已知的图标签进行有监督的随机森林分类器的训练,最后通过十折交叉验证获得图分类精度和图预测标签。高的图分类精度表明系统能准确识别未知分子或蛋白质性质所归属类别,获取的图预测标签则成功实现分子性质预测任务。
2.如权利要求1所述的一种基于子图网络和对比学习的化合物性质预测方法,其特征在于,所述步骤S1中,本发明需要在公开硝基化合物数据集MUTAG、小鼠致癌性数据集PTC、抗肿瘤数据集NCI1和蛋白质数据集PROTEIN上进行模型训练和测试,这些数据集可通过图神经网络库PyG的TUDataset自行加载。下载的每种数据集中均已将现实世界的分子或蛋白质结构转化为图论中的图结构,包含节点、连边、图标签等等信息。其中节点相当于原子,连边相当于化学键,图标签相当于对应化合物的化学属性。
3.如权利要求1所述的一种基于子图网络和对比学习的化合物性质预测方法,其特征在于,所述步骤S2包括以下步骤:
S2.1:一阶子图网络变换。本发明根据SGN规则执行子图变换,能够将节点级图网络转换为包含边信息的子图级网络。具体来说,将一个无标签图集合G=(V,E)视为原始网络,其中V={v1,v2,…,vn}是节点集合,E∈V×V是连边集合,Ni表示成对连接的节点Ni=(vj,vk)。子图网络变换函数
Figure FDA0003629153750000021
将所有原始网络的连边转换为新网络的节点,并根据连边两端节点类属性重新定义新节点的类标签,构建了一个新的节点集满足Vs={Ni|i=0,1,2,…,n}。同时,如果原始网络中两条连边共用一个节点,则在子图网络中对应两节点相连。根据上述规则,由原始网络获得一阶子图网络
Figure FDA0003629153750000022
作为一种增广视图。
S2.2:二阶子图网络变换。二阶子图网络在一阶子图的基础上按照SGN规则变换得到,即
Figure FDA0003629153750000023
取二阶子图网络作为另一种增广视图。
4.如权利要求1所述的一种基于子图网络和对比学习的化合物性质预测方法,其特征在于,所述步骤S3包括以下步骤:
S3-1:将原始网络G、一阶子图
Figure FDA0003629153750000024
和二阶子图
Figure FDA0003629153750000025
输入到三个同类型但是独立的3层图同构神经网络GIN中,获得节点级表示。GIN网络可以将来自同一原始网络的增广视图映射为相似的嵌入,以捕获图结构层次的相似性。它使用K层GINConv进行邻接节点聚合,当层数越多时,节点嵌入的感受野越大。节点表征捕获距离节点K的邻接节点信息,计算出节点v的第k层表示
Figure FDA0003629153750000026
Figure FDA0003629153750000027
其中,ε是可学习的参数,N(v)是节点v的邻居节点,k表示第k层。
S3-2:然后,对节点表示做图池化来得到图级表示,选用全局平均池化,对每一层的所有节点特征取均值,横向拼接K层节点特征,获得相应的特征向量。
Figure FDA0003629153750000028
5.如权利要求1所述的一种基于子图网络和对比学习的化合物性质预测方法,其特征在于,所述步骤S4中,3个图级表示(来自于原始网络G、一阶子图
Figure FDA0003629153750000029
和二阶子图
Figure FDA00036291537500000210
)依次输入到一个共享参数的3层感知器MLP中,得到3个映射特征表示,分别为zG
Figure FDA00036291537500000211
Figure FDA00036291537500000212
然后,将映射头输出的3个特征表示取平均作为增广视图最终的图级表示
Figure FDA00036291537500000213
6.如权利要求1所述的一种基于子图网络和对比学习的化合物性质预测方法,其特征在于,所述步骤S5包括以下步骤:
S5-1:对原始网络的图级表示zG和增广视图的最终图级表示
Figure FDA0003629153750000031
进行正则化操作,并进行矩阵乘法,获得zG
Figure FDA0003629153750000032
的相似矩阵
Figure FDA0003629153750000033
S5-2:使用归一化的温度标量τ的交叉熵损失函数计算zG
Figure FDA0003629153750000034
之间的对比损失,如下所示:
Figure FDA0003629153750000035
其中sim(zn,z′n)是来自同一原始图n的原始网络图级表示和增广视图图级表示的相似度,相当于对相似矩阵中对角数值。sim(zn,zn′)是来自不同图的两个图级表示,相当于相似矩阵中除对角数值以外部分。根据以上公式可计算对比损失,随着迭代次数增加,损失下降到一定阈值,完成编码器的训练。
7.如权利要求1所述的一种基于子图网络和对比学习的化合物性质预测方法,其特征在于,所述步骤S6包括以下步骤:
S6-1:构建并训练随机森林分类器。随机森林在Bagging集成的基础上,进一步在基决策树的训练过程中引入随机属性选择。对于基决策树中每个节点,从节点的属性集合中随机挑选k个属性组成子集,然后从该子集中选择一个最优属性用于划分。实例化随机森林模型,使用交叉网格搜索优化随机森林模型;将训练集带入实例化的模型进行训练。
S6-2:设置随机种子为[0,1,2,3,4],表示五次随机实验。每一次都通过十折交叉验证法得到分类精度,再将五次实验的分类精度取平均作为模型性能的评估;最后,将对比学习获取的图表示输入训练好的分类器中即可获得预测图标签。
8.如权利要求6所述的一种基于子图网络和对比学习的化合物性质预测方法,其特征在于:步骤S6-1设置交叉验证次数为10,将数据集分为10份,每次选择一个子集作为测试集进行模型测试,重复10次取平均值,评估指标为“accuracy”,参数设置为[100,200,500,1000]。
9.实施权利要求1所述的一种基于子图网络和对比学习的化合物性质预测方法,其特征在于:包括数据采集模块、数据增强模块、图编码模块、图映射模块、对比损失计算模块以及下游化合物属性分类模块:
所述的数据采集模块,通过图神经网络库PyG的TUDataset自行加载所需的公开硝基化合物数据集MUTAG、小鼠致癌性数据集PTC、抗肿瘤数据集NCI1和蛋白质数据集PROTEIN;
所述的数据增强模块,输入无标签的网络图集合,根据SGN规则进行子图网络变换得到一阶子图网络集合。同样对一阶子图网络集合进行相同变换得到二阶子图网络集合。这些获得的新网络集合作为原始网络的增广视图;
所述的图编码模块,将原始网络、一阶子图网络和二阶子图网络输入GIN网络中获得节点级表示,通过全局平均池化获得图级表示;
所述的图映射模块,将上述3个图级特征表示依次通过一个共享的多层感知器MLP,获得对应的映射向量。原始网络的映射向量作为原始网络在对比空间的图表示,3个映射向量的平均值作为增广视图在对比空间的映射表示;
所述的对比损失计算模块,将原始网络和增广视图的映射表示按照归一化的温度标量交叉熵损失NT-Xent计算对比损失;
所述的下游化合物属性分类模块,将训练集通过上述无监督学习训练后的编码器获得映射表示,构建和训练随机森林分类器,通过十折交叉验证得到实际模型分类精度;然后,将待预测化合物数据输入训练好的编码器和分类器中,获得化合物属性标签。
CN202210485906.1A 2022-05-06 2022-05-06 一种基于子图网络和对比学习的化合物性质预测方法 Withdrawn CN115511145A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210485906.1A CN115511145A (zh) 2022-05-06 2022-05-06 一种基于子图网络和对比学习的化合物性质预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210485906.1A CN115511145A (zh) 2022-05-06 2022-05-06 一种基于子图网络和对比学习的化合物性质预测方法

Publications (1)

Publication Number Publication Date
CN115511145A true CN115511145A (zh) 2022-12-23

Family

ID=84500859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210485906.1A Withdrawn CN115511145A (zh) 2022-05-06 2022-05-06 一种基于子图网络和对比学习的化合物性质预测方法

Country Status (1)

Country Link
CN (1) CN115511145A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115858002A (zh) * 2023-02-06 2023-03-28 湖南大学 基于图对比学习的二进制代码相似性检测方法及系统与存储介质
CN117153325A (zh) * 2023-10-30 2023-12-01 佛山科学技术学院 一种基于图对比学习的抗癌药物有效性评估方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115858002A (zh) * 2023-02-06 2023-03-28 湖南大学 基于图对比学习的二进制代码相似性检测方法及系统与存储介质
CN115858002B (zh) * 2023-02-06 2023-04-25 湖南大学 基于图对比学习的二进制代码相似性检测方法及系统与存储介质
CN117153325A (zh) * 2023-10-30 2023-12-01 佛山科学技术学院 一种基于图对比学习的抗癌药物有效性评估方法及系统
CN117153325B (zh) * 2023-10-30 2024-01-30 佛山科学技术学院 一种基于图对比学习的抗癌药物有效性评估方法及系统

Similar Documents

Publication Publication Date Title
Liang et al. Symbolic graph reasoning meets convolutions
Chen et al. Convolutional kernel networks for graph-structured data
WO2020088439A1 (zh) 实现异构图、分子空间结构性质识别的方法、装置和计算机设备
Guo et al. Supplier selection based on hierarchical potential support vector machine
CN105809672B (zh) 一种基于超像素和结构化约束的图像多目标协同分割方法
CN115511145A (zh) 一种基于子图网络和对比学习的化合物性质预测方法
CN113313232B (zh) 一种基于预训练和图神经网络的功能脑网络分类方法
Wu et al. Application of image retrieval based on convolutional neural networks and Hu invariant moment algorithm in computer telecommunications
CN111709518A (zh) 一种基于社区感知和关系注意力的增强网络表示学习的方法
CN107451210B (zh) 一种基于查询松弛结果增强的图匹配查询方法
CN111445963A (zh) 一种基于图节点信息聚合的子图同构约束求解方法
Moyano Learning network representations
Zhang et al. A Big Data Mining and Blockchain‐Enabled Security Approach for Agricultural Based on Internet of Things
Azizi et al. Graph-based generative representation learning of semantically and behaviorally augmented floorplans
CN109190490A (zh) 基于小数据集下的面部表情bn识别方法
Cai et al. Stereo Attention Cross-Decoupling Fusion-Guided Federated Neural Learning for Hyperspectral Image Classification
CN113692591A (zh) 节点消歧
Kokilambal Intelligent content based image retrieval model using adadelta optimized residual network
Zhou et al. MetaMove: On improving human mobility classification and prediction via metalearning
CN115130620B (zh) 一种电力设备用电模式识别模型生成方法及装置
CN116434347A (zh) 一种基于掩码图自编码器的骨架序列识别方法及系统
Bie et al. MICA: Towards Explainable Skin Lesion Diagnosis via Multi-Level Image-Concept Alignment
Chu et al. Towards a deep learning autoencoder algorithm for collaborative filtering recommendation
Vu et al. HCt-SNE: Hierarchical constraints with t-SNE
CN109086373B (zh) 一种构建公平的链接预测评估系统的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20221223

WW01 Invention patent application withdrawn after publication