CN117612615A

CN117612615A - 一种基于同分异构体Mixup增强的分子属性预测方法

Info

Publication number: CN117612615A
Application number: CN202311639632.8A
Authority: CN
Inventors: 宣琦; 蒋天依; 汪泽钰; 王金焕; 俞山青
Original assignee: Hangzhou Binjiang District Zhejiang University Of Technology Cyberspace Security Innovation Research Institute
Current assignee: Hangzhou Binjiang District Zhejiang University Of Technology Cyberspace Security Innovation Research Institute
Priority date: 2023-12-04
Filing date: 2023-12-04
Publication date: 2024-02-27

Abstract

本发明公开了一种基于同分异构体Mixup增强的分子属性预测方法，涉及分子属性预测、数据增强和图神经网络技术领域。包括：导入分子图数据集，将分子图数据集划分为训练集和测试集，将训练集的分子图进行重连边生成基于官能团不变的同分异构体和基于骨架不变的同分异构体，与原始分子图一起计算分子指纹相似度并对两个同分异构体进行基于分子指纹相似度的混合操作获得混合图，再与原始分子图一起进行基于节点相似度的混合操作获得增强图，之后与原始分子图输入图编码器，训练优化模型参数，获得预测结果。本发明有助于设计特定单张图的混合比例，分别提高原始分子图骨架和官能团的多样性，更具有普遍性。

Description

一种基于同分异构体Mixup增强的分子属性预测方法

技术领域

本发明涉及分子属性预测、数据增强和图神经网络技术领域，尤其涉及一种基于同分异构体Mixup增强的分子属性预测方法。

背景技术

分子属性预测是一个广泛应用于生物信息学和量子化学等多个领域的经典任务之一。随着深度学习的迅速发展，人们对其在分子属性预测方面的应用产生了广泛的兴趣。目前有多种方法可用于表示分子，例如SMILES和分子图等。尽管SMILES字符串可以为每个化学分子提供独特的编码，但它不能完全捕捉原子之间的拓扑关系。相对于传统的SMILES表示方法，基于图的方法提供了更丰富的描述方式。然而，这些方法都受数据驱动的限制，其性能受到可用数据的数量和质量的影响。此外，目前深度学习方法也需要利用大量标签数据进行训练，而在分子属性预测任务中，分子的性质需要在实验室中进行测定，其代价昂贵，因此基于图的分子表示方法存在数据标签稀缺的问题。为减轻有限的标签数据对方法性能的影响，数据增强策略引入其中。

数据增强的目的是通过对原始样本进行变换来生成新的训练样本，例如在图像领域，旋转或翻转原始图像将产生相同标签的新图像。与图像数据结构相比，图数据结构更加复杂多变。一个关键的挑战是，在对图进行修改时，很难保证标签的不变性。一些常见的图数据增强方法，如DropEdge、DropNode，它们通过随机删除节点或连边来修改图结构生成新的图。虽然这些方法提高了数据多样性，但它们可能在操作过程中导致语义的变化。因此，为解决这一问题，现有的数据增强方法引入了Mixup技术，它不仅可以生成新的样本，还能通过标签插值减轻标签不变性问题。

近年来，Mixup技术在图像数据增强领域取得显著成效。Mixup技术通过对一对原始样本和其标签进行凸组合来生成新的样本和标签。然而，将Mixup技术应用于图数据有一个关键问题：图数据是不规则的，且不同图之间的节点往往很难对齐。现有方法通过引入图生成器和软分配矩阵等技巧避免了该问题，但它们都没有针对分子领域的特定结构，也没有为每张图设计特定的混合比例。然而，每张图的不同部分对其属性的贡献各不相同，使用固定的全局混合比例可能会导致某些图的不充分或过度混合，从而导致原始图的结构和信息丢失。

因此，提出一种基于同分异构体Mixup增强的分子属性预测方法，来解决现有技术标签数据需求大、易导致语义变换和原始图结构易丢失的问题，是本领域技术人员亟须解决的问题。

发明内容

有鉴于此，本发明提供了一种基于同分异构体Mixup增强的分子属性预测方法，可以达到提高分子属性预测准确性的效果。

为了实现上述目的，本发明采用如下技术方案：

一种基于同分异构体Mixup增强的分子属性预测方法，包括以下步骤：

S1、导入分子图数据集，将分子图数据集划分为训练集和测试集；

S2、将训练集的分子图进行重连边生成基于官能团不变的同分异构体和基于骨架不变的同分异构体；

S3、将原始分子图与基于官能团不变的同分异构体和基于骨架不变的同分异构体一起进行基于分子指纹相似度的混合操作获得混合图；

S4、将混合图与原始分子图一起进行基于节点相似度的混合操作获得增强图；

S5、将增强图与原始分子图输入图编码器，训练优化模型参数，获得训练好的模型；

S6、将测试集分子图输入训练好的模型进行分子属性预测，获得预测结果。

上述的方法，可选的，S2中生成基于官能团不变的同分异构体包括：

将输入的分子图提取骨架并构造骨架的线图，原始图中的每条边转换为线图的节点，如果原始图的连边之间存在一个公共节点，则线图的对应节点之间存在一条连边；在线图中结合邻接矩阵并引入掩蔽向量选取两个节点并转换为骨架图对应的连边；通过交换原始图骨架上的连边，从而生成新的基于官能团不变的分子图并利用RDKit进行化学结构有效性判断。

上述的方法，可选的，S2中生成基于骨架不变的同分异构体包括：

将输入的分子图提取骨架并将其掩蔽，随机选取一条连边并将其断开并修改对应节点的氢原子数，然后选择两个不相连的节点将其连接得到一条新的连边，同时更新其氢原子数和电荷数，从而生成新的基于骨架不变的分子图并利用RDKit进行化学结构有效性判断。

上述的方法，可选的，S3中基于分子指纹相似度的混合操作包括：

利用RDKit获取原始分子图和两个同分异构体的分子指纹，计算原始分子图与各个同分异构体之间的分子指纹相似度，利用相似度对两个同分异构体的节点特征矩阵和邻接矩阵进行线性插值。

上述的方法，可选的，S4中基于节点相似度的混合操作包括：

将原始图和混合图输入原始预训练图编码器提取它们的节点表示，并计算节点融合矩阵M，然后根据节点融合矩阵混合原始图和混合图的节点特征矩阵。

上述的方法，可选的，节点融合矩阵M表达式为：

M＝soffmax(sim(H，H′))；

其中，sim(·)为相似度函数。

上述的方法，可选的，S5中，训练优化模型参数包括：

将训练集的原始分子图和增强图输入图神经网络编码器，获取图表示，再将图表示输入多层感知器得到每张图的预测值y_pred；进一步根据每张图的下游任务标签y计算损失：

其中，为含有Logistic的二分类交叉熵损失函数，根据损失计算结果优化模型参数。

经由上述的技术方案可知，与现有技术相比，本发明提供了一种基于同分异构体Mixup增强的分子属性预测方法，具有以下有益效果：1)现有技术方案中没有针对每张图设计特定的混合比例，只能使用固定的全局混合比例；本发明可以通过相似度方法设计特定于每张图的混合比例；2)本发明具有通用性，对所有深度神经网络模型均可使用；3)本发明基于骨架不变和官能团不变生成原始分子的同分异构体，可以分别提高原始分子图骨架和官能团的多样性，同时结合了分子指纹相似度和节点相似度生成增强图，并将原始分子图和增强图用于分子属性预测模型，以优化其性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明公开的一种基于同分异构体Mixup增强的分子属性预测方法流程图；

图2为本发明公开的同分异构体生成方法流程图；

图3为本发明公开的基于相似度的增强图生成方法流程图；

图4为本发明的模型增强和属性预测方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

参照图1所示，本发明公开了一种基于同分异构体Mixup增强的分子属性预测方法，包括以下步骤：

进一步的，参照图2所示，S2中生成基于官能团不变的同分异构体包括：

具体的，给定一个分子图G＝(A，X，W)，其中A∈{0，1}^n×n表示分子的结构，X表示原子的特征矩阵，W表示连边权重矩阵；提取分子图G的骨架得到骨架图G_S并构造骨架的线图其中线图的构造如下：将原始图中的每条边转换为线图的节点，如果原始图的连边之间存在一个公共节点，则线图的对应节点之间存在一条连边。

在线图中随机选择一个节点v_i，为避免在连边交换过程中选择有公共节点的连边或生成原始图中已存在的连边，本发明结合邻接矩阵并引入一个掩蔽向量M₁＝{m₁，m₂，...，m_n}，其中n表示/>中的节点数量，首先将邻接矩阵第i行中值为0的对应索引的掩蔽向量元素置1，其余为0；其次将第i行邻接矩阵与其余行分别执行逻辑与操作，若此操作后某行的第u个元素为1，则将第u行与该行及第i行执行逻辑与操作，如果元素1存在于任意一行中，则对应索引的掩蔽向量元素置0；最后为防止连边交换后骨架的显著变化而导致生成图与原始图的过度偏离，本发明还屏蔽了在第一次逻辑与操作后整行为0的节点。

为进一步降低交换连边的失败率，本发明掩蔽了具有不同价键值的连边，为此引入了另一个掩蔽向量M₂＝{m₁，m₂，...，m_n}，当线图中其他节点对应图G_S连边的价键值与v_i的价键值相同，则将掩蔽向量元素置1，否则置0。

在完成上述掩蔽操作后，第二个节点v_j的索引j从M₁和M₂中元素均为1的索引选择，然后将两个节点转换为骨架图G_S对应的连边，本发明最终将交换原始分子图上的连边，从而生成新的分子图并利用RDKit进行化学结构有效性判断。

进一步的，参照图2所示，S2中生成基于骨架不变的同分异构体包括：

具体的，提取分子图G的骨架将其掩蔽，本发明首先选取一条连边e₁＝(v₁，v₂，w)并将其断开，其中w为连边的价键值，在分子中修改连边会导致分子的拓扑结构变化，进而影响分子的属性，包括氢原子数量和电荷数量，此处将氢原子数量更新如下：

h_i＝h_i+w；

其中h_i为初始氢原子数量；

然后本发明选择两个不连接的节点将其连接得到一条新的连边e’₁＝(v₃，v₄，w)，类似地其氢原子数量更新如下：

h_j＝h_j-w；

其中，h_j为更新后氢原子数量，

当h_j小于0时，需要将电荷数更新为：

c_j＝c_j+h_j；

其中，c_j为电荷数；

并令h_j为0，在上述操作之后，利用RDKit进行化学结构有效性判断。

进一步的，S3中基于分子指纹相似度的混合操作包括：

具体的，输入原始分子图G和两个同分异构体G_sca和G_gro，其中G_sca为修改骨架的异构体，G_gro为修改官能团的异构体；使用RDKit获取原始图及同分异构体的分子指纹和它们之间的分子指纹相似度α₁和α₂，其中α₁为G和G_sca之间的分子指纹相似度，α₂为G和G_gro之间的分子指纹相似度。利用α₁和α₂对两个同分异构体的节点特征矩阵和邻接矩阵进行线性插值从而得到混合图G′；表达式为：

其中，X’为混合图G′的节点特征矩阵，X_sca为修改骨架异构体G_sca的节点特征矩阵，X_gro为修改官能团异构体G_gro的节点特征矩阵；A′为混合图G′的邻接矩阵，A_sca为修改骨架异构体G_sca的邻接矩阵，A_gro为修改官能团异构体G_gro的邻接矩阵。

进一步的，参照图3所示，S4中基于节点相似度的混合操作包括：

更进一步的，节点融合矩阵M表达式为：

M＝softmax(sim(H，H′))；

其中，sim(·)为相似度函数。

具体的，将原始图G和混合图G′输入原始预训练图编码器提取它们的节点表示H和H′，并计算节点融合矩阵M；其中sim(·)为相似度函数，例如余弦相似度；根据节点融合矩阵M混合原始图G和混合图G′的节点特征矩阵：X_aug＝(1-M)·X+M·X′得到增强图G_aug。

进一步的，参照图4所示，S5中，训练优化模型参数包括：

具体的，将训练集的原始数据和增强数据输入图神经网络编码器，获取图表示：

H＝GNN(G+G′)。

然后将图表示输入多层感知器得到每张图的预测值y_pred；进一步根据每张图的下游任务标签y计算损失；根据损失计算结果优化模型参数，并用最优模型进行分子属性预测得到预测结果。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于同分异构体Mixup增强的分子属性预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于同分异构体Mixup增强的分子属性预测方法，其特征在于，

S2中生成基于官能团不变的同分异构体包括：

3.根据权利要求1所述的一种基于同分异构体Mixup增强的分子属性预测方法，其特征在于，

S2中生成基于骨架不变的同分异构体包括：

4.根据权利要求1所述的一种基于同分异构体Mixup增强的分子属性预测方法，其特征在于，

S3中基于分子指纹相似度的混合操作包括：

5.根据权利要求1所述的一种基于同分异构体Mixup增强的分子属性预测方法，其特征在于，

S4中基于节点相似度的混合操作包括：

6.根据权利要求5所述的一种基于同分异构体Mixup增强的分子属性预测方法，其特征在于，

节点融合矩阵M表达式为：

M＝softmax(sim(H,H′))；

其中，sim(·)为相似度函数。

7.根据权利要求1所述的一种基于同分异构体Mixup增强的分子属性预测方法，其特征在于，

S5中，训练优化模型参数包括将训练集的原始分子图和增强图输入图神经网络编码器，获取图表示，再将图表示输入多层感知器得到每张图的预测值y_pred；进一步根据每张图的下游任务标签y计算损失：