CN113314189B

CN113314189B - 一种化学分子结构的图神经网络表征方法

Info

Publication number: CN113314189B
Application number: CN202110589957.4A
Authority: CN
Inventors: 李建欣; 孙庆赟; 杨贝宁; 彭浩; 季诚; 傅星珵
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2023-01-17
Anticipated expiration: 2041-05-28
Also published as: CN113314189A

Abstract

本发明通过机器学习领域的方法，实现了一种化学分子结构的图神经网络表征方法。包括三个步骤，步骤一为子图采样和编码步骤，进行子图采样并使用图神经网络对子图进行编码；步骤二为显著性子图选择步骤，引入强化学习筛选显著子图机制构建有限的马尔可夫过程解决显著子图选择中先验知识不足的问题；步骤三为子图骨架图构建和层次化聚合步骤，构造子图骨架图并进行子图内和子图间的层次化信息聚合，并通过自监督互信息增强机制，实现一个图神经网络表征新框架，最终实现自动高精度获得子图表征、自适应地捕捉化学分子结构的重要局部结构、可明确指出导致化学分子结构性质预测结果的具体局部结构的方法。

Description

一种化学分子结构的图神经网络表征方法

技术领域

本发明涉及机器学习领域，尤其涉及一种化学分子结构的图神经网络表征方法。

背景技术

化学分子性质预测是化学和生物学中的一个重要问题。在化学分子性质预测中，一个重要的方面在于化学分子是如何被表征的。几十年来在定量构效关系(QSAR)研究和分子相似性分析方面的药物发现研究表明，准确的预测依赖于化学分子特征的选择，而识别关键的结构特征对于揭示化学分子活性和性质关系至关重要。例如，在药物发现中，化学家通过寻找小分子先导物，并在治疗性发现中优化类药物的特性。图可以用于建模化学分子中各原子之间的复杂关系，在生物信息学分析等领域取得了广泛的应用。随着深度学习的发展，深度图神经网络被引入化学分子结构表征领域中。通过学习基于图的表征，可以捕获顺序、拓扑、几何等结构特征。然而，现有的嵌入表示方法大多集中在节点层级(将化学分子中每个原子表征为一个向量)和整图层级(将整个化学分子表征为一个向量)，无法捕捉化学分子结构中关键性的子结构(子图)，这对于化学分子结构表征分析是不够的。本发明综合研究了子图发现和全图嵌入表示技术，提出一种通过图神经网络表征的的化学分子结构性质预测方法。

目前的深度图神经网络在化学分子结构表征中有以下两点局限性：(1)只能产生节点层级和整图层级的表征，难以发现对化学分子结构表征产生重要影响的局部结构；(2)依赖于人手工构造的规则提取局部结构(子图)，缺少自适应性，如果在特定领域的先验知识不足，无法学习出准确高效的模型。本发明针对化学分子结构表征中局部结构抽取和领域知识的问题，提出了基于强化子图神经网络的化学分子结构表征与性质预测方法。

发明内容

为此，本发明首先提出一种化学分子结构的图神经网络表征方法，包括三个步骤，具体地，步骤一为子图采样和编码步骤，对输入的化学分子结构建模为图后，进行子图采样并使用图神经网络对子图进行编码；步骤二为显著性子图筛选步骤，引入强化学习筛选显著子图机制构建有限的马尔可夫过程解决显著子图筛选中先验知识不足的问题；步骤三为子图骨架图构建和层次化聚合步骤，构造子图骨架图并进行子图内和子图间的层次化信息聚合，并通过自监督互信息增强机制，实现一个图神经网络表征新框架，对每个子图进行分类并将分类结果投票，并将所述图神经网络表征新框架应用至分子性质预测中，最终实现化学分子结构的表征学习和性质预测。

所述子图采样并使用图神经网络对子图进行编码具体方法为：给定一个图

按度降序对图中的所有节点进行排序，并选择前个节点作为子图的中心节点，然后，对于每个中心节点，通过广度优先搜索提取一个大小为s的子图，以最大化原始图结构的覆盖范围，从原始图中抽取n个子图{g₁,g₂,...,g_n}；其次，学习一个基于图神经网络的编码器ε(g_i)，以获取子图中的节点表示：

然后，使用基于强化学习的top-k筛选策略筛选n'＝k*n个显著子图；最后，通过子图内的注意机制来学习子图中节点的重要性及其相互作用，并将节点表征嵌入到同一空间中，获得子图表征：

c_j为节点v_j的注意力系数。

所述显著性子图筛选步骤具体为：使用top-k筛选策略来筛选显著子图，首先使用可训练向量p将子图表征z_i投影到一维空间，学习子图重要性指标

以度量子图显著性信息；然后依据子图重要性指标排列分布，对所有子图进行降序排序，筛选前n'个子图作为显著子图。

所述强化学习筛选显著子图机制为：使用强化学习算法自适应地更新top-k筛选策略的筛选比例k，筛选比例k的更新过程建模为一个有限的马尔可夫决策过程，其状态、动作、奖励和终止的定义如下：

状态s_e：第e轮的状态s_e定义为当前轮选择的子图索引；

动作a_e：a_e定义为对当前轮的筛选比例k增加或减少一个离散值；

奖励reward(s_e,a_e)：奖励定义为一个离散函数，若当前状态和动作下图分类任务准确率提高，则奖励为正，否则为负；

终止：如果连续周期内筛选比例k的变化不超过阈值Δk，这意味着算法已经找到了一个最佳阈值，则算法将停止，并且在下一个训练过程中保持筛选比例k不变；

使用Q-learning方法解决有限离散优化马尔可夫决策过程问题，Q函数表示为：

Q^*(s_e,a_e)＝reward(s_e,a_e)+γargmax_a'(Q^*(s_e+1,a'))；

Q-learning的选择策略为：

所述子图骨架图并进行子图内和子图间的层次化信息聚合具体方法为：首先，将所选的显著子图作为超节点集合，记为

将原始图池化为一个子图骨架图：

其中，超节点之间的连通关系记为：

其由相应子图中的公共节点数量所决定；最后，采用子图间的注意力机制学习子图之间的结构及相互作用，捕捉更高阶的语义信息，经过子图间注意力机制的子图表征可表示为z'_i。

所述自监督互信息增强机制具体实现方式为：首先，使用读出函数READOUT(·)将子图表征嵌入

到一个固定长度的向量，即图全局表征：

然后，使用Jensen-Shannon互信息估计器来最大化给定(子图表征，图表征)对上的估计互信息。具体而言，学习一个判别器(Discriminator)：

判别输入的子图表征/图表征对(z'_n,r)是否来自同一个图；最后，基于显著子图选择与表征的图分类框架目标函数可定义为：

其中，

为图分类损失函数，

为互信息最大化机制中判别器损失函数，β和λ分别为判别器损失函数的权重系数和参数正则化的权重系数。

本发明所要实现的技术效果在于：

本发明针对化学分子结构表征中局部结构抽取和领域知识的问题，提出了基于强化子图神经网络的化学分子结构表征与性质预测方法。本发明具有以下特点：

1.能够学习具有强判别性的子图表征，获得分子性质预测高准确度

2.无需领域知识，能自适应地捕捉化学分子结构的重要局部结构。

3.可明确指出导致化学分子结构性质预测结果的具体局部结构，具有强解释性。

附图说明

图1方法整体框架；

具体实施方式

以下是本发明的优选实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于此实施例。

本发明提出了一种化学分子结构的图神经网络表征方法，首先，将化学分子结构建模为图，对于每一个节点，根据广度优先法则采样出子图，使用图神经网络对子图进行编码；其次，通过强化学习筛选显著子图，构造子图骨架图(Sketched Subgraph Network)；然后，设计子图内(Intra-Subgraph)和子图间(Inter-Subgraph)的层次化信息聚合，最大化子图表征与全局图表征之间的互信息(Mutual Information)，提高子图表征在不同图实例中的判别性；最后，实现显著子图挖掘、准确子图表征为一体的图神经网络表征新框架，并将新框架应用至分子性质预测中。

子图神经网络构造及层次性聚合方法

利用子图局部视野嵌入和池化，构建重构化子图骨架图，从子图内和子图间两个视角，分别引入注意力机制学习机制实现子图层嵌入，从而实现子图层次化和差异化表达，以挖掘和表征显著性子图。子图神经网络包括三个步骤：

第一步，子图采样和编码。给定一个图

我们从原始图中抽取n个子图{g₁,g₂,...,g_n}，按度降序对图中的所有节点进行排序，并选择前个节点作为子图的中心节点，然后，对于每个中心节点，通过广度优先搜索提取一个大小为s的子图，以最大化原始图结构的覆盖范围，从原始图中抽取n个子图{g₁,g₂,...,g_n}；；其次，学习一个基于图神经网络的编码器ε(g_i)，以获取子图中的节点表示：

然后，使用基于强化学习的top-k策略选择n'＝k*n个显著子图；

最后，通过子图内的注意机制来学习子图中节点的重要性及其相互作用，并将节点表征嵌入到同一空间中，获得子图表征：

其中，c_j为节点v_j的注意力系数。

第二步，显著性子图筛选。使用top-k筛选策略来筛选显著子图。具体而言，首先，使用可训练向量p将子图表征z_i投影到一维空间，学习子图重要性指标

以度量子图显著性信息；然后，依据子图重要性指标排列分布，对所有子图进行降序排序，选择前n'个子图作为显著子图。

第三步，子图骨架图构建和层次化聚合。首先，将所选的显著子图作为超节点集合，记为

将原始图池化为一个子图骨架图：

其中，超节点之间的连通关系记为：

其由相应子图中的公共节点数量所决定。最后，采用子图间的注意力机制学习子图之间的结构及相互作用，捕捉更高阶的语义信息，经过子图间注意力机制的子图表征可表示为z'_i。

基于强化学习的显著子图筛选机制

为了解决显著子图选择中先验知识不足的问题，使用强化学习算法自适应地更新top-k筛选策略的筛选比例k。筛选比例k的更新过程建模为一个有限的马尔可夫决策过程(MDP)，MDP的状态、动作、奖励和终止的定义如下：

(1)状态s_e：第e轮的状态s_e定义为当前轮选择的子图索引。

(2)动作a_e：a_e定义为对当前轮的筛选比例k增加或减少一个离散值。

(3)奖励reward(s_e,a_e)：奖励定义为一个离散函数，若当前状态和动作下图分类任务准确率提高，则奖励为正，否则为负。

(4)终止：如果连续周期内筛选比例k的变化不超过阈值Δk，这意味着算法已经找到了一个最佳阈值，则算法将停止，并且在下一个训练过程中保持筛选比例k不变。

使用Q-learning方法即可解决上述有限离散优化MDP问题。具体而言，Q函数可表示为：

Q^*(s_e,a_e)＝reward(s_e,a_e)+γargmax_a'(Q^*(s_e+1,a'))。Q-learning的选择策略为：

自监督互信息增强机制

自监督互信息增强机制通过最大化局部子图表征和图全局表征之间的互信息，使得子图表征能够反映全局结构属性，以获得高准确率、有区分度的子图表征。具体步骤如下：

首先，使用读出函数READOUT(·)将子图表征嵌入

到一个固定长度的向量，即图全局表征：

然后，使用Jensen-Shannon互信息估计器来最大化给定(子图表征，图全局表征)对上的估计互信息。具体而言，学习一个判别器(Discriminator)：

判别输入的子图表征/图全局表征对(z'_n,r)是否来自同一个图。最后，基于显著子图选择与表征的图分类框架目标函数可定义为：

其中，

为图分类损失函数，

Claims

1.一种化学分子结构的图神经网络表征方法，其特征在于：包括三个步骤，具体地，步骤一为子图采样和编码步骤，将输入的化学分子结构建模为图后，进行子图采样并使用图神经网络对子图进行编码；步骤二为显著子图筛选步骤，引入强化学习筛选显著子图机制构建有限的马尔可夫过程，解决显著子图选择中先验知识不足的问题；步骤三为子图骨架图构建和层次化聚合步骤，构造子图骨架图并进行子图内和子图间的层次化信息聚合，并通过自监督互信息增强机制，实现一个化学分子结构的图神经网络表征新框架，对每个显著子图进行分类并将分类结果投票，并将所述图神经网络表征新框架应用至化学分子结构分类中，最终进行化学分子结构的性质预测；

按节点度对图中的所有节点进行降序排序，并选择度最高的前n个节点作为子图的中心节点；从原始图中抽取n个子图{g₁,g₂,...,g_n}后，然后，对于每个中心节点，通过广度优先搜索提取一个大小为s的子图，以最大化原始图结构的覆盖范围；其次，学习一个基于图神经网络的编码器ε(g_i)，以获取子图中的节点表示：