CN116978483A

CN116978483A - 基于图神经网络和三维编码器的分子性质预测方法、系统

Info

Publication number: CN116978483A
Application number: CN202310948837.8A
Authority: CN
Inventors: 杨洋; 陶泉锦
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-07-31
Filing date: 2023-07-31
Publication date: 2023-10-31

Abstract

本发明公开了一种基于图神经网络和三维编码器的分子性质预测方法、系统，属于分子性质预测领域。本发明基于自监督学习、多任务学习、图神经网络和三维编码器的深度学习框架，能够实现获得给定分子的二维分子图和三维分子图，通过图神经网络与三维编码器，输出每个分子的二维视角表征与三维视角表征；通过自监督学习预测分子的键角和坐标噪声，采用一致性对齐提高不同视角的互信息，利用分类器预测分子性质；计算所有任务的损失以进行端到端训练。本发明通过分析分子在二维视角和三维视角的不同信息，通过增强分子不同视角的互信息，从而实现对分子性质的精准预测；同时，也可以大大降低标签数据的依赖性，提高模型的泛化能力和预测准确性。

Description

基于图神经网络和三维编码器的分子性质预测方法、系统

技术领域

本发明涉及分子性质预测领域，尤其涉及基于图神经网络和三维编码器的分子性质预测方法、系统。

背景技术

分子性质预测是药学和材料科学领域的一个热点问题。随着高通量实验技术的发展，可以快速地合成大量的化合物，并测量它们的性质。然而，这种实验方法的成本很高，而且有时可能会受到实验条件的限制。因此，需要一种更加高效、经济、可靠的方法来预测分子的性质。机器学习和人工智能技术在这个领域具有很大的潜力。通过使用大量已知分子的性质数据，可以训练模型来预测未知分子的性质。这种方法可以大大加速新药物、材料的发现和开发，促进医学、材料科学和化学领域的发展。

另一方面，用人工智能预测分子性质是一种基于深度学习技术的方法，旨在通过对已知分子性质数据的学习和分析，来预测未知分子的性质。在分子性质预测中，首先需要对分子进行特征提取，即将分子的结构信息转换为数值型的特征向量。常用的特征提取方法包括基于化学键、原子对和分子描述符等。然后，将这些特征作为输入，训练深度学习模型，来预测分子的性质。最后，通过对模型的评估和优化，可以提高预测的准确性和可靠性。分子的表示方式取决于所选择的分子描述符。通常情况下，分子可以用以下形式进行描述：

1)二维空间拓扑结构，分子的二维拓扑结构由一系列原子节点和化学键边构成：以原子为节点，化学键为边，构成分子的二维拓扑结构表示。

2)三维空间立体结构，分子的三维拓扑结构由原子节点和相互距离低于某个阈值的边组成：以原子为节点，原子之间的相互距离低于阈值β构建边，构成分子的三维立体结构表示。

分子的不同表示方法从不同的角度对其进行描述，所包含的信息是有差异的。比如说，二维分子表示是通过化学键连接的拓扑结构图来描述原子之间的关系；而三维分子的表示则是通过距离连接的空间关系图来描述原子之间的关系。对于分子性质预测来说，除了有化学键相连的官能团外，没有化学键相连但是空间距离很近的两个原子也会产生化学效应，从而对分子性质产生影响。

在分子领域，数据的标签包含着丰富的化学语义，可提供该分子的化学性质信息。然而，由于分子标签的获得代价很高，大部分数据需要在化学实验室进行湿实验收集，因此高质量的标签数据集比较难以获得。同时出于信息保护的目的，很多机构不愿意公开数据集。因此，如何有效利用已有的分子数据集，是当前急需解决的问题。

发明内容

本发明为了解决在分子的二维视角和三维视角特征提取以及增大互信息方面存在的技术问题，提出了一种基于图神经网络和三维编码器的分子性质预测方法、系统，以实现对分子性质的精准预测。

为此本发明采取以下技术方案：

第一个方面，本发明提供了一种基于图神经网络和三维编码器的分子性质预测方法，包括：

获取原始分子描述符的二维分子图和三维分子图，并分别通过二维编码器和三维编码器获取二维视角表征和三维视角表征；所述的二维编码器采用图神经网络；

将二维视角表征和三维视角表征映射到同一空间，得到二维视角映射后的表征和三维视角映射后的表征；利用二维视角映射后的表征预测分子性质；

基于二维视角表征结果，采用键角预测的自监督方法，计算键角预测损失；基于三维视角表征结果，采用坐标噪声预测的自监督方法，计算坐标噪声预测损失；通过一致性对齐增强二维视角映射后的表征和三维视角映射后的表征的互信息，计算一致性对齐损失；基于分子性质预测结果，计算性质预测损失；联合全部损失，更新模型参数；

针对待预测的原始分子描述符，依次获取二维分子图、二维视角表征和二维视角映射后的表征，利用二维视角映射后的表征预测分子性质。

第二个方面，本发明提供了一种基于图神经网络和三维编码器的分子性质预测系统，用于实现上述方法。

相比现有技术，本发明的有益效果有：

本技术方案通过分析分子在二维视角和三维视角包含不同的信息，挖掘并提取分子在不同视角下所包含的信息，通过增强分子不同视角的互信息，从而实现对分子性质的精准预测；同时，通过提取分子不同视角的特征，能够充分利用标签的丰富语义信息，可以大大降低标签数据的依赖性，提高模型的泛化能力和预测准确性。

附图说明

图1是一个实施例的基于图神经网络和三维编码器的分子性质预测方法的示意图；

图2是一个实施例所述的基于图神经网络和三维编码器的分子性质预测方法的实际应用。

具体实施方式

下面结合附图和实施例对本发明进行进一步说明。附图仅为本发明的示意性图解，附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

本实施例中，分子性质预测方法是基于自监督学习、多任务学习、二维编码器和三维编码器的深度学习框架。本发明能够实现给定分子，获得该分子在二维视角和三维视角的表示方式，通过二维编码器与三维编码器，输出每个分子的二维表征与三维表征，该表征可以被应用于下游分子性质预测任务。具体来说，本发明通过分子不同视角下的表征学习方法对分子进行表征学习；然后，将所学到分子表征用于分子性质预测模块的训练和测试。

本发明中，分子的性质与分子中原子的类型、化学键的类型、原子之间的位置关系有关。分子的二维视角注重于挖掘分子的拓扑结构信息，而忽略原子之间的位置关系特征。分子的三维注重于挖掘分子的空间结构信息，而忽略拓扑结构信息。因此，基于分子性质的影响因素以及数据集的观察，本发明使用一个图神经网络挖掘分子的二维拓扑结构信息和Transformer挖掘分子的三维空间结构信息，并通过一致性辅助损失增强不同视角下的互信息来实现对分子性质的预测。

图1所示为本发明的总体框架，模型的输入是分子SMILES描述符以及分子中每个原子的原始坐标，同时还包含分子性质的标签，比如分子是否具有毒性。

下面将介绍具体实施方法：

一、特征提取模块

首先，从输入的原始分子描述符SMILES构建二维分子图和三维分子图，作为分子编码器的输入，分子编码器由二维编码器和三维编码器构成。对于二维分子图：以原子为节点，化学键为边，得到二维分子图，其中节点的特征为原子特征(如原子的类型、化学价、度数(degree)、是否在芳香环内、是否在环内等)，边的特征为化学键特征(如化学键的类型、是否为共轭键等)；对于三维分子图：以原子为节点，通过原子间的距离建边(设置一个阈值β，原子之间的距离小于β的都建边)，得到三维分子图，其中节点的特征为原子特征(如原子的类型、化学价、度数(degree)、是否在芳香环内、是否在环内等)，边的特征为距离长度，三维分子图还包含添加扰动后的原子坐标。

G^2d＝(V，E^2d)

其中，G^2d表示二维分子图，G^3d表示三维分子图，V表示节点集合，E^2d表示二维视角的边集合，E^3d表示三维视角的边集合，表示添加扰动后的原子坐标集合。

在本发明的一项具体实施中，二维编码器为图神经网络，记为GNN。可以获得分子的二维视角表征H^2d：

H^2d＝GNN(V，E^2d)

三维编码器为Transformer，记为Transformer。可以获得分子的三维视角表征H^3d：

二、自监督学习模块

二维视角下键角预测的自监督任务：根据分子的化学键链接情况和分子的三维坐标获取分子的键角数据，具体来说，两个相连的化学键会形成一个键角，该键角与三个原子相关；利用二维编码器获得该分子的与键角相关的二维视角表征；根据与键角相关的二维视角表征，预测键角的大小；计算键角预测任务的损失。

三维视角下的坐标噪声预测自监督任务：对分子中每个原子的坐标进行随机扰动，获得每个原子干扰后的坐标与初始坐标的差值，记为y_angle；利用三维编码器获得分子的三维视角表征；根据三维视角表征，预测每个原子干扰后的坐标与初始坐标的差值，记为Out_noise；计算坐标噪声预测任务的损失。

(1)键角预测

分子性质预测中，引入键角可以提供关于分子立体构型、稳定性和相互作用的重要信息，对于理解和预测分子的性质具有重要意义。键角是决定分子的立体构型的关键因素之一，对于理解分子的性质非常重要。同时，键角可以提供关于分子的稳定性的信息，特定键角范围内的键相互作用更稳定，而超出该范围则可能导致键的断裂。因此键角的准确预测对于理解分子的性质非常重要。

首先，使用二维编码器图神经网络GNN将二维分子图G^2d＝(V，E^2d)映射到d维表征H^2d＝GNN(V，E^2d)∈R^N×d，其中，N是分子中原子的数量。在二维分子表示形式上通过图神经网络得到表示利用多层感知机对分子的各键角进行预测，得到预测的键角Out_angle＝(out_angle，1，out_angle，2，...，out_angle，n)。

键角为两个相连化学键的三个相关原子之间的夹角。具体来说，设这三个原子分别为i，j，k，其中i，j两个原子之间有一个化学键，j，k两个原子之间有一个化学键，两个化学键之间的夹角就是键角的大小，以三个原子分别为i，j，k所形成的键角为例，预测过程表示为：

其中，表示i原子的二维视角表征，/>表示j原子的二维视角表征，/>表示k原子的二维视角表征。

键角预测任务的损失，记为L₁，计算公式为：

其中，y_angle，i表示第i个键角的真实值，即标签；out_angle，i表示预测得到的第i个键角大小，n为分子中键角的数量。

(2)坐标噪声预测

具体来说，给定平衡状态的分子结构，添加一些独立的噪声到相应的原子坐标上，训练模型以重建输入，使得模型具有捕捉细粒度三维几何信息的能力。更重要的是，这种方法可以通过学习分子力场而具有物理解释。

首先，对每个原子的实际坐标P∈R^N×3，添加一个随机扰动得到

其中，σ为一个可调节的超参数，I₃表示三维坐标的方差。

使用三维编码器Transformer将三维分子图映射到d维表示三维视角表征H3d包含了每个原子的三维视角表征，即/>通过三维视角表征H^3d对每个原子干扰后的坐标与初始坐标的差值进行预测，得到预测的坐标噪声Out_noise＝(out_noise，1，out_noise，2，...，out_noise，N)：

Out_noise＝MLP(H^3d)；

获得坐标噪声预测任务的损失L₂：

其中，y_{noise，i，j}表示分子第i个原子第j个坐标的实际噪音，Out_{noise，i，j}表示分子第i个原子第i个坐标的预测噪音，N为分子中原子的数量。

上述介绍了特征提取和两种自监督任务，在实际训练中，训练样本是以batch的形式作为输入的，上述H^2a、H^3d用于表示一个batch的二维、三维视角表征，为了便于区分，将某一分子的二维、三维视角表征记为h_2a、h_3d。

三、互信息增强模块

通过二维编码器，获得分子的二维视角表征H^2d，通过三维编码器获得分子的三维视角表征H^3d。不同视角的表示侧重于分子的不同信息，因此需要设计方法增强二维视角和三维视角的互信息。由于二维表征和三维表征被不同的编码器学习，意味着他们分布在不同的表征空间，所以先将其映射到同一个空间。

在本发明的一项具体实施中，将一个batch内的B个分子作为输入，得到不同分子在二维视角下映射后的表征和在三维视角下映射后的表征其中可分为B个正例/>与B²-B个负例/>通过设计一致性辅助损失，提高分子不同视角的互信息：

其中，Sim表示相似度函数，表示分子i在二维视角下映射后的表征，/>表示分子i在三维视角下映射后的表征，/>表示分子j在三维视角下映射后的表征，L₃表示一致性辅助损失，τ表示温度系数。

得到通过学习后的二维视角映射后的表征使用MLP对每一个分子的性质进行预测，得到预测的分子性质/>

其中，σ_pred是一个激活函数，和b_pred都是可学习的参数。

得到性质预测任务的损失L₄：

其中，y_i是第i个分子的分子性质真实标签，是模型预测的第i个分子的分子性质。因此，将上述四项损失的加权结果作为总的损失，可以表示成：

L＝α₁L₁+α₂L₂+α₃L₃+L₄

其中，α₁、α₂、α₃分别是权衡键角大小预测任务的损失、坐标噪声预测任务的损失、一致性辅助损失的影响系数。根据反向传播的总损失L对模型进行优化，得到二维和三维视角下的综合分子表征。

在实际应用中，一项分子可能具有多种分子性质，如毒性、通透性、不良反应、亲和性、抑制性中的一种或多种，以独热编码方式标记分子性质。参考图2，针对待预测的分子，首先，从输入的原始分子描述符SMILES构建二维分子图，作为分子编码器的输入；使用二维编码器图神经网络将二维分子图G^2d＝(V，E^2d)映射到d维表征其中，N是分子中原子的数量；

再将h_2d映射，得到分子在二维视角下映射后的表征z_2d：

最后根据映射后的表征，对分子的性质进行预测，得到预测的分子性质

其中，σ_pred是一个激活函数，和b_pred都是经上述学习后得到的参数。

在本实施例中还提供了一种基于图神经网络和三维编码器的分子性质预测系统，该系统用于实现上述实施例，已经进行过说明的不再赘述。以下所使用的术语“模块”、“单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能的。

所述的系统包括：

分子预处理模块，其用于获取原始分子描述符的二维分子图和三维分子图；

分子编码器模块，其用于通过二维编码器和三维编码器获取二维视角表征和三维视角表征；所述的二维编码器采用图神经网络；

映射模块，其用于将二维视角表征和三维视角表征映射到同一空间，得到二维视角映射后的表征和三维视角映射后的表征；

分子键角预测模块，基于二维视角表征结果，采用键角预测的自监督方法，计算键角预测损失；

分子坐标噪声预测模块，其用于基于三维视角表征结果，采用坐标噪声预测的自监督方法，计算坐标噪声预测损失；

互信息增强模块，其用于通过一致性对齐增强二维视角映射后的表征和三维视角映射后的表征的互信息，计算一致性对齐损失；

分子性质预测模块，其用于利用二维视角映射后的表征预测分子性质，基于分子性质预测结果，计算性质预测损失；

训练模块，其用于联合全部损失，进行端到端训练，更新模型参数。

上述系统中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。对于系统实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述的利用图神经网络的分子性质预测方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

本实施例通过一项具体实验来验证本发明的实施效果：

(1)数据说明

为了进行全面且准确的比较，采用了来自MoleculeNet的六个数据集，这是一个广泛用于分子和药物表征学习以及性质预测任务的基准平台。这六个数据集分别是BBBP、BACE、Tox21、SIDER、ToxCast和HIV。

(2)对比实验

为了全面验证本发明模型的有效性，本次实验将其与几种不同类型的基线模型进行了比较，与本发明模型进行对比的基线模型包括：

图卷积网络(GCN)：一种基于图结构数据的直推式半监督机器学习算法，是深度神经网络算法在图上的应用。GCN从频谱图卷积的框架开始，其核心是图卷积操作，该操作通常使用共享的滤波器参数在图结构中的所有位置进行卷积。

图同构网络(GIN)：GIN的局部汇聚操作采用了一种可重复的、可交换的、可微的非线性函数，该函数将每个节点的特征向量与其邻居节点的特征向量进行聚合。

图注意力网络(GAT)：GAT会通过计算注意力分数值为节点的邻居分配不同权重，不用像基于拉普拉斯矩阵计算的方法需要知道整个网络结构，或者进行矩阵乘法运算。

Torchmd：一个以Transformer为基础的混合经典和机器学习势的分子模拟的框架。

测试结果如表1所示：

表1数据集的测试结果ROC(％)

由表1可见，本发明在分子性质预测中在大多数数据集中的表现优于其他比较方法，这个结果验证了本发明在分子性质预测上的有效性。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对专利保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种基于图神经网络和三维编码器的分子性质预测方法，其特征在于，包括：

2.根据权利要求1所述的一种基于图神经网络和三维编码器的分子性质预测方法，其特征在于，所述的二维分子图中，以原子为节点，化学键为边，其中节点特征为原子类型、化学价、是否在芳香环内、是否在环内中的一种或多种；边特征为化学键的类型和/或是否为共轭键。

3.根据权利要求1所述的一种基于图神经网络和三维编码器的分子性质预测方法，其特征在于，所述的三维分子图中，对初始原子坐标添加扰动，以原子为节点，通过原子间的距离建边；其中节点特征为原子类型、化学价、是否在芳香环内、是否在环内中的一种或多种；边特征为距离长度。

4.根据权利要求3所述的一种基于图神经网络和三维编码器的分子性质预测方法，其特征在于，在三维分子图中，当原子之间的距离小于阈值时，在两个原子之间建边。

5.根据权利要求1所述的一种基于图神经网络和三维编码器的分子性质预测方法，其特征在于，所述的通过二维编码器和三维编码器获取二维视角表征和三维视角表征，表示如下：

H^2d＝GNN(V,E^2d)

其中，V表示二维分子图和三维分子图中的节点集合，E^2d、E^3d表示二维分子图和三维分子图中的边集合，表示三维分子图中的扰动后的原子坐标集合，Transformer(.)表示Transformer模型，作为三维编码器。

6.根据权利要求1所述的一种基于图神经网络和三维编码器的分子性质预测方法，其特征在于，分别采用两个独立的多层感知机，将二维视角表征和三维视角表征映射到同一空间，得到二维视角映射后的表征和三维视角映射后的表征。

7.根据权利要求1所述的一种基于图神经网络和三维编码器的分子性质预测方法，其特征在于，所述的键角预测损失，具体为：

其中，L₁表示分子的键角预测损失，y_angle,i表示第i个键角的真实值，即标签；out_angle,i表示预测得到的第i个键角大小，n为分子中键角的数量。

8.根据权利要求1所述的一种基于图神经网络和三维编码器的分子性质预测方法，其特征在于，所述的坐标噪声预测损失，具体为：

其中，L₂表示分子的坐标噪声预测损失，y_noise,i,j表示分子第i个原子第j个坐标的实际噪音，Out_noise,i,j表示分子第i个原子第j个坐标的预测噪音，N为分子中原子的数量。

9.根据权利要求1所述的一种基于图神经网络和三维编码器的分子性质预测方法，其特征在于，所述的一致性对齐损失，具体为：

其中，L₃表示一致性对齐损失，Sim(.)表示相似度函数，表示分子i在二维视角下映射后的表征，/>表示分子i在三维视角下映射后的表征，/>表示分子j在三维视角下映射后的表征，L₃表示一致性辅助损失，τ表示温度系数，是一个超参数。

10.一种基于图神经网络和三维编码器的分子性质预测系统，其特征在于，包括：