CN115511145A

CN115511145A - 一种基于子图网络和对比学习的化合物性质预测方法

Info

Publication number: CN115511145A
Application number: CN202210485906.1A
Authority: CN
Inventors: 宣琦; 邵佳飞; 王金焕
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-05-06
Filing date: 2022-05-06
Publication date: 2022-12-23

Abstract

一种基于子图网络和对比学习的化合物性质预测方法，包括：1)化合物数据采集，通过下载网络上现有的公开分子化合物数据集进行训练；2)子图网络变换，按照SGN规则对原始图网络进行一阶、二阶子图变换，获得子图网络结构；3)图编码器编码，通过GIN网络对原始图和一阶、二阶子图网络进行编码，提取图级表示向量；4)映射头提取网络特征并进行特征融合；5)计算对比损失，利用归一化的温度标量交叉熵损失NT‑Xent计算增广视图与原始图之间的对比损失，通过不断迭代，损失函数值降低，到达一定阈值，结束模型训练；6)将数据集中图数据输入无监督学习模式下训练好的编码器中获取最终图表示。本发明还包括基于子图网络和对比学习的化合物性质预测系统。

Description

一种基于子图网络和对比学习的化合物性质预测方法

技术领域

本发明涉及对比自监督学习、网络科学以及数据挖掘技术领域，涉及一种化合物性质预测方法。

背景技术

现实世界的许多系统都可以用网络表示，如生物网络、社交网络等。这些网络以图的形式展现，获取有效的图级表示能在实际任务中发挥着重要作用，实现高效的分类或预测功能，例如化学领域的化合物性质预测等。在化学领域中，少量的分子或蛋白质已被人们探索并认知，但仍存在大量化合物数据的作用与性质是未知的。对这些数据进行精准标注需要耗费大量人力、物力与时间，并且高度依赖于少数标签数据的模型容易导致过拟合和泛化能力差等问题。因此，人们将自监督学习应用到表征化学结构中，以实现无监督模式下对分子或蛋白质性质的预测分类。

图结构数据的自监督学习因其能够提高未标记图的泛化性、转移性以及鲁棒性而引起人们兴趣，包括对比学习。现有的基于对比学习的图分类算法大多通过随机增删节点、连边和特征掩蔽来实现数据增强，这在实际应用中容易破坏图的实际语义信息。另一方面，现有GNN算法大多只关注节点级或图级信息，未能捕获子图或motif中的潜在信息。受此启发，本发明提出用子图网络生成增广视图进行对比学习的方法。子图作为网络的一个基本组件，能够扩充原始网络深层次的潜在信息。原始图网络经过一阶子图网络变换和二阶子图网络变换后通过编码器编码映射到图对比空间，通过特征矩阵融合将增广视图的表示与原始图表示结合作为增广视图最终的图表示。然后，按照对比目标要求，让原始图与最终增广视图的图表示相似度最大化。最终，将训练好的编码器应用于下游分子性质预测任务中实现化合物属性分类工作。本方法在公开硝基化合物数据集MUTAG、小鼠致癌性数据集PTC、抗肿瘤数据集NCI1和蛋白质数据集PROTEIN上均取得了较好的化合物性质预测效果，预测的分类精度较高。

发明内容

本发明要克服现有技术的上述缺点，提供一种基于子图网络和对比学习的化合物性质预测方法。

本发明利用子图网络变换、图编码器、映射头以及对比目标模块构建一个对比学习模型，学习化合物的图的抽象语义。该模型通过子图网络变换、图编码和图映射方法获取图级表示，将原始图表示与融合原始图和多级子图网络的图表示进行对比，使编码器学习图的内部结构信息与图之间潜在的联系信息。然后将训练好的编码器应用于下游分子性质预测任务中，提高了无监督学习模式下的化合物性质分类，实现对未知化合物的性质预测。

为实现上述目的，本发明提供了如下技术方案：

一种基于子图网络和对比学习的化合物性质预测方法，包括如下步骤：

S1：化合物数据采集，通过下载网络上现有的公开分子化合物数据集进行训练；

S2：子图网络变换，按照SGN规则对原始图进行一阶、二阶子图变换，获得子图网络结构；

S3：图编码器编码，通过GIN网络对原始图和一阶、二阶子图网络进行编码，提取图级表示向量；

S4：映射头提取网络特征并进行特征融合，通过共享的3层感知器MLP提取特征，得到3个网络表征向量，分别来自于原始图网络、一阶子图网络和二阶子图网络。将3个表征向量融合作为增广视图最终的图级表示；

S5：计算对比损失，利用归一化的温度标量交叉熵损失NT-Xent计算增广视图与原始图之间的对比损失。要求原始图与它自身的增广视图相似度最大，与其他图的增广视图的相似度尽可能小。通过不断迭代，损失函数值降低，到达一定阈值，结束模型训练；

S6：将数据集中图数据输入无监督学习模式下训练好的编码器中获取最终图表示。使用最终图表示和已知的图标签进行有监督的随机森林分类器的训练，最后通过十折交叉验证获得图分类精度和图预测标签。高的图分类精度表明方法能准确识别未知分子或蛋白质性质所归属类别，获取的图预测标签则成功实现分子性质预测任务。

进一步，所述步骤S1中，本发明需要在公开硝基化合物数据集MUTAG、小鼠致癌性数据集PTC、抗肿瘤数据集NCI1和蛋白质数据集PROTEIN上进行模型训练和测试，这些数据集可通过图神经网络库PyG的TUDataset自行加载。下载的每种数据集中均已将现实世界的分子或蛋白质结构转化为图论中的图结构，包含节点、连边、图标签等等信息。其中节点相当于原子，连边相当于化学键，图标签相当于对应化合物的化学属性。

进一步的，所述步骤S2具体包括：

S2.1：一阶子图网络变换。本发明根据SGN规则执行子图变换，能够将节点级图网络转换为包含边信息的子图级网络。具体来说，将一个无标签图集合G＝(V,E)视为原始网络，其中V＝{v₁,v₂,…,v_n}是节点集合，E∈V×V是连边集合，N_i表示成对连接的节点N_i＝(v_j,v_k)。子图网络变换函数

将所有原始网络的连边转换为新网络的节点，并根据连边两端节点类属性重新定义新节点的类标签，构建了一个新的节点集满足V_s＝{N_i|i＝0,1,2,…,n}。同时，如果原始网络中两条连边共用一个节点，则在子图网络中对应两节点相连。根据上述规则，由原始网络获得一阶子图网络

作为一种增广视图。

S2.2：二阶子图网络变换。二阶子图网络在一阶子图的基础上按照SGN规则变换得到，即

取二阶子图网络作为另一种增广视图。

进一步的，所述步骤S3包括以下步骤：

S3-1：将原始网络G、一阶子图

和二阶子图

输入到三个同类型但是独立的3层图同构神经网络GIN中，获得节点级表示。GIN网络可以将来自同一原始网络的增广视图映射为相似的嵌入，以捕获图结构层次的相似性。它使用K层GINConv进行邻接节点聚合，当层数越多时，节点嵌入的感受野越大。节点表征捕获距离节点K的邻接节点信息，计算出节点v的第k层表示

其中，ε是可学习的参数，N(v)是节点v的邻居节点，k表示第k层。

S3-2：然后，对节点表示做图池化来得到图级表示，本发明选用全局平均池化，对每一层的所有节点特征取均值，横向拼接K层节点特征，获得相应的特征向量。

再进一步，所述步骤S4中，3个图级表示(来自于原始网络G、一阶子图

和二阶子图

)依次输入到一个共享参数的3层感知器MLP中，得到3个映射特征表示，分别为z_G，

和

然后，将映射头输出的3个特征表示取平均作为增广视图最终的图级表示

更进一步，所述步骤5包括以下步骤：

S5-1：对原始网络的图级表示z_G和增广视图的最终图级表示

进行正则化操作，并进行矩阵乘法，获得z_G和

的相似矩阵

S5-2：使用归一化的温度标量τ的交叉熵损失函数计算z_G和

之间的对比损失，如下所示：

其中sim(z_n,z′_n)是来自同一原始图n的原始网络图级表示和增广视图图级表示的相似度，相当于对相似矩阵中对角数值。sim(z_n,z_n′)是来自不同图的两个图级表示，相当于相似矩阵中除对角数值以外部分。根据以上公式可计算对比损失，随着迭代次数增加，损失下降到一定阈值，完成编码器的训练。

再进一步，所述步骤S6包括以下步骤：

S6-1：构建并训练随机森林分类器。随机森林在Bagging集成的基础上，进一步在基决策树的训练过程中引入随机属性选择。对于基决策树中每个节点，从节点的属性集合中随机挑选k个属性组成子集，然后从该子集中选择一个最优属性用于划分。实例化随机森林模型，使用交叉网格搜索优化随机森林模型。将训练集带入实例化的模型进行训练。

S6-2：设置随机种子为[0,1,2,3,4]，表示五次随机实验。每一次都通过十折交叉验证法得到分类精度，再将五次实验的分类精度取平均作为模型性能的评估。数据显示，方法对MUTAG数据集中芳香族还是杂芳族的预测精确度高达89.5％，对PTC中是否具有致癌性的预测精确度高达65.4％，对NCI1数据集中是否抗癌性的预测精确度高达78％，以及对PROTEIN中是否酶类的预测精确度高达74.3％。相交于其他基于无监督学习的模型具有较高预测性能。最后，将对比学习获取的图表示输入训练好的分类器中即可获得预测图标签。

更进一步，步骤S6-1设置交叉验证次数为10，将数据集分为10份，每次选择一个子集作为测试集进行模型测试，重复10次取平均值，评估指标为“accuracy”，参数设置为[100,200,500,1000]。

实现本发明的一种基于子图网络和对比学习的化合物性质预测方法，包括数据采集模块、数据增强模块、图编码模块、图映射模块、对比损失计算模块以及下游化合物属性分类模块：

所述的数据采集模块，通过图神经网络库PyG的TUDataset自行加载所需的公开硝基化合物数据集MUTAG、小鼠致癌性数据集PTC、抗肿瘤数据集NCI1和蛋白质数据集PROTEIN；

所述的数据增强模块，输入无标签的网络图集合，根据SGN规则进行子图网络变换得到一阶子图网络集合。同样对一阶子图网络集合进行相同变换得到二阶子图网络集合。这些获得的新网络集合作为原始网络的增广视图；

所述的图编码模块，将原始网络、一阶子图网络和二阶子图网络输入GIN网络中获得节点级表示，通过全局平均池化获得图级表示；

所述的图映射模块，将上述3个图级特征表示依次通过一个共享的多层感知器MLP，获得对应的映射向量。原始网络的映射向量作为原始网络在对比空间的图表示，3个映射向量的平均值作为增广视图在对比空间的映射表示；

所述的对比损失计算模块，将原始网络和增广视图的映射表示按照归一化的温度标量交叉熵损失NT-Xent计算对比损失；

所述的下游化合物属性分类模块，将训练集通过上述无监督学习训练后的编码器获得映射表示，构建和训练随机森林分类器，通过十折交叉验证得到实际模型分类精度。然后，将待预测化合物数据输入训练好的编码器和分类器中，获得化合物属性标签。

本发明的有益效果为：本发明将子图网络变换作为一种图增强方法进行对比学习。相较于其他对比方法通过增删节点或连边获取基础统计信息，该方法能够捕获子图间的交互信息，扩展网络底层结构信息，获取更多有效特征信息，保护图数据的语义信息。并且，在子图网络算法中应用对比学习，能够获取具有泛化性、迁移性和鲁棒性的图表示，应用于下游化合物属性分类任务能够提高分类精度，也可以迁移到类似化合物属性分类任务中。

附图说明

图1为本发明方法的整体示意图；

图2a～图2c为本发明的子图网络变换的示意图，图2a表示原始网络，图2b表示子图网络变换过程，图2c表示变换后的子图网络；

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细的描述。

参照图1，一种基于子图网络和对比学习的化合物性质预测方法，包括以下步骤：

进一步，如表1所示，步骤S1中，本发明需要在公开硝基化合物数据集MUTAG、小鼠致癌性数据集PTC、抗肿瘤数据集NCI1和蛋白质数据集PROTEIN上进行模型训练和测试，这些数据集可通过图神经网络库PyG的TUDataset自行加载。下载的每种数据集中均已将现实世界的分子或蛋白质结构转化为图论中的图结构，包含节点、连边、图标签等等信息。其中节点相当于原子，连边相当于化学键，图标签相当于对应化合物的化学属性。

表1.四个化合物数据集的描述

进一步的，参照图2，所述步骤S2具体包括：

作为一种增广视图。

取二阶子图网络作为另一种增广视图。

进一步的，所述步骤S3包括以下步骤：

S3-1：将原始网络G、一阶子图

和二阶子图

和二阶子图

和

更进一步，所述步骤5包括以下步骤：

S5-1：对原始网络的图级表示z_G和增广视图的最终图级表示

进行正则化操作，并进行矩阵乘法，获得z_G和

的相似矩阵

S5-2：使用归一化的温度标量τ的交叉熵损失函数计算z_G和

之间的对比损失，如下所示：

再进一步，所述步骤S6包括以下步骤：

实现本发明的一种基于子图网络和对比学习的化合物性质预测方法，包括数据采集模块、数据增强模块、图编码模块、图映射模块、对比损失计算模块以及下游化合物属性分类模块。

所述的数据采集模块，通过图神经网络库PyG的TUDataset自行加载所需的公开硝基化合物数据集MUTAG、小鼠致癌性数据集PTC、抗肿瘤数据集NCI1和蛋白质数据集PROTEIN。具体包括：

S1：本发明需要在公开硝基化合物数据集MUTAG、小鼠致癌性数据集PTC、抗肿瘤数据集NCI1和蛋白质数据集PROTEIN上进行模型训练和测试，这些数据集可通过图神经网络库PyG的TUDataset自行加载。下载的每种数据集中均已将现实世界的分子或蛋白质结构转化为图论中的图结构，包含节点、连边、图标签等等信息。其中节点相当于原子，连边相当于化学键，图标签相当于对应化合物的化学属性。

所述的数据增强模块，输入无标签的网络图集合，根据SGN规则进行子图网络变换得到一阶子图网络集合。同样对一阶子图网络集合进行相同变换得到二阶子图网络集合。这些获得的新网络集合作为原始网络的增广视图，具体包括：

作为一种增广视图。

取二阶子图网络作为另一种增广视图。

所述的图编码模块，将原始网络、一阶子图网络和二阶子图网络输入GIN网络中获得节点级表示，通过全局平均池化获得图级表示，具体包括：

S3-1：将原始网络G、一阶子图

和二阶子图

所述的图映射模块，将上述3个图级特征表示依次通过一个共享的多层感知器MLP，获得对应的映射向量。原始网络的映射向量作为原始网络在对比空间的图表示，3个映射向量的平均值作为增广视图在对比空间的映射表示，具体包括：

S4：3个图级表示(来自于原始网络G、一阶子图

和二阶子图

和

所述的对比损失计算模块，将原始网络和增广视图的映射表示按照归一化的温度标量交叉熵损失NT-Xent计算对比损失，具体包括：

S5-1：对原始网络的图级表示z_G和增广视图的最终图级表示

进行正则化操作，并进行矩阵乘法，获得z_G和

的相似矩阵

S5-2：使用归一化的温度标量τ的交叉熵损失函数计算z_G和

之间的对比损失，如下所示：

所述的下游化合物属性分类模块，将训练集通过上述无监督学习训练后的编码器获得映射表示，构建和训练随机森林分类器，通过十折交叉验证得到实际模型分类精度。然后，将待预测化合物数据输入训练好的编码器和分类器中，获得化合物属性标签。具体包括：

所述数据采集模块、数据增强模块、图编码模块、图映射模块、对比损失计算模块以及下游化合物属性分类模块依次连接。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于子图网络和对比学习的化合物性质预测方法，其特征在于，包括以下步骤：

S1：化合物数据获取，通过下载网络上现有的公开分子化合物数据集进行训练；

S6：将数据集中图数据输入无监督学习模式下训练好的编码器中获取最终图表示。使用最终图表示和已知的图标签进行有监督的随机森林分类器的训练，最后通过十折交叉验证获得图分类精度和图预测标签。高的图分类精度表明系统能准确识别未知分子或蛋白质性质所归属类别，获取的图预测标签则成功实现分子性质预测任务。

2.如权利要求1所述的一种基于子图网络和对比学习的化合物性质预测方法，其特征在于，所述步骤S1中，本发明需要在公开硝基化合物数据集MUTAG、小鼠致癌性数据集PTC、抗肿瘤数据集NCI1和蛋白质数据集PROTEIN上进行模型训练和测试，这些数据集可通过图神经网络库PyG的TUDataset自行加载。下载的每种数据集中均已将现实世界的分子或蛋白质结构转化为图论中的图结构，包含节点、连边、图标签等等信息。其中节点相当于原子，连边相当于化学键，图标签相当于对应化合物的化学属性。

3.如权利要求1所述的一种基于子图网络和对比学习的化合物性质预测方法，其特征在于，所述步骤S2包括以下步骤：

作为一种增广视图。

取二阶子图网络作为另一种增广视图。

4.如权利要求1所述的一种基于子图网络和对比学习的化合物性质预测方法，其特征在于，所述步骤S3包括以下步骤：

S3-1：将原始网络G、一阶子图

和二阶子图

S3-2：然后，对节点表示做图池化来得到图级表示，选用全局平均池化，对每一层的所有节点特征取均值，横向拼接K层节点特征，获得相应的特征向量。

5.如权利要求1所述的一种基于子图网络和对比学习的化合物性质预测方法，其特征在于，所述步骤S4中，3个图级表示(来自于原始网络G、一阶子图

和二阶子图

和

6.如权利要求1所述的一种基于子图网络和对比学习的化合物性质预测方法，其特征在于，所述步骤S5包括以下步骤：

S5-1：对原始网络的图级表示z_G和增广视图的最终图级表示

进行正则化操作，并进行矩阵乘法，获得z_G和

的相似矩阵

S5-2：使用归一化的温度标量τ的交叉熵损失函数计算z_G和

之间的对比损失，如下所示：

7.如权利要求1所述的一种基于子图网络和对比学习的化合物性质预测方法，其特征在于，所述步骤S6包括以下步骤：

S6-1：构建并训练随机森林分类器。随机森林在Bagging集成的基础上，进一步在基决策树的训练过程中引入随机属性选择。对于基决策树中每个节点，从节点的属性集合中随机挑选k个属性组成子集，然后从该子集中选择一个最优属性用于划分。实例化随机森林模型，使用交叉网格搜索优化随机森林模型；将训练集带入实例化的模型进行训练。

S6-2：设置随机种子为[0,1,2,3,4]，表示五次随机实验。每一次都通过十折交叉验证法得到分类精度，再将五次实验的分类精度取平均作为模型性能的评估；最后，将对比学习获取的图表示输入训练好的分类器中即可获得预测图标签。

8.如权利要求6所述的一种基于子图网络和对比学习的化合物性质预测方法，其特征在于：步骤S6-1设置交叉验证次数为10，将数据集分为10份，每次选择一个子集作为测试集进行模型测试，重复10次取平均值，评估指标为“accuracy”，参数设置为[100,200,500,1000]。

9.实施权利要求1所述的一种基于子图网络和对比学习的化合物性质预测方法，其特征在于：包括数据采集模块、数据增强模块、图编码模块、图映射模块、对比损失计算模块以及下游化合物属性分类模块：

所述的下游化合物属性分类模块，将训练集通过上述无监督学习训练后的编码器获得映射表示，构建和训练随机森林分类器，通过十折交叉验证得到实际模型分类精度；然后，将待预测化合物数据输入训练好的编码器和分类器中，获得化合物属性标签。