CN113314189B - 一种化学分子结构的图神经网络表征方法 - Google Patents
一种化学分子结构的图神经网络表征方法 Download PDFInfo
- Publication number
- CN113314189B CN113314189B CN202110589957.4A CN202110589957A CN113314189B CN 113314189 B CN113314189 B CN 113314189B CN 202110589957 A CN202110589957 A CN 202110589957A CN 113314189 B CN113314189 B CN 113314189B
- Authority
- CN
- China
- Prior art keywords
- graph
- subgraph
- sub
- screening
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C10/00—Computational theoretical chemistry, i.e. ICT specially adapted for theoretical aspects of quantum chemistry, molecular mechanics, molecular dynamics or the like
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/40—Searching chemical structures or physicochemical data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Crystallography & Structural Chemistry (AREA)
- Software Systems (AREA)
- Chemical & Material Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明通过机器学习领域的方法,实现了一种化学分子结构的图神经网络表征方法。包括三个步骤,步骤一为子图采样和编码步骤,进行子图采样并使用图神经网络对子图进行编码;步骤二为显著性子图选择步骤,引入强化学习筛选显著子图机制构建有限的马尔可夫过程解决显著子图选择中先验知识不足的问题;步骤三为子图骨架图构建和层次化聚合步骤,构造子图骨架图并进行子图内和子图间的层次化信息聚合,并通过自监督互信息增强机制,实现一个图神经网络表征新框架,最终实现自动高精度获得子图表征、自适应地捕捉化学分子结构的重要局部结构、可明确指出导致化学分子结构性质预测结果的具体局部结构的方法。
Description
技术领域
本发明涉及机器学习领域,尤其涉及一种化学分子结构的图神经网络表征方法。
背景技术
化学分子性质预测是化学和生物学中的一个重要问题。在化学分子性质预测中,一个重要的方面在于化学分子是如何被表征的。几十年来在定量构效关系(QSAR)研究和分子相似性分析方面的药物发现研究表明,准确的预测依赖于化学分子特征的选择,而识别关键的结构特征对于揭示化学分子活性和性质关系至关重要。例如,在药物发现中,化学家通过寻找小分子先导物,并在治疗性发现中优化类药物的特性。图可以用于建模化学分子中各原子之间的复杂关系,在生物信息学分析等领域取得了广泛的应用。随着深度学习的发展,深度图神经网络被引入化学分子结构表征领域中。通过学习基于图的表征,可以捕获顺序、拓扑、几何等结构特征。然而,现有的嵌入表示方法大多集中在节点层级(将化学分子中每个原子表征为一个向量)和整图层级(将整个化学分子表征为一个向量),无法捕捉化学分子结构中关键性的子结构(子图),这对于化学分子结构表征分析是不够的。本发明综合研究了子图发现和全图嵌入表示技术,提出一种通过图神经网络表征的的化学分子结构性质预测方法。
目前的深度图神经网络在化学分子结构表征中有以下两点局限性:(1)只能产生节点层级和整图层级的表征,难以发现对化学分子结构表征产生重要影响的局部结构;(2)依赖于人手工构造的规则提取局部结构(子图),缺少自适应性,如果在特定领域的先验知识不足,无法学习出准确高效的模型。本发明针对化学分子结构表征中局部结构抽取和领域知识的问题,提出了基于强化子图神经网络的化学分子结构表征与性质预测方法。
发明内容
为此,本发明首先提出一种化学分子结构的图神经网络表征方法,包括三个步骤,具体地,步骤一为子图采样和编码步骤,对输入的化学分子结构建模为图后,进行子图采样并使用图神经网络对子图进行编码;步骤二为显著性子图筛选步骤,引入强化学习筛选显著子图机制构建有限的马尔可夫过程解决显著子图筛选中先验知识不足的问题;步骤三为子图骨架图构建和层次化聚合步骤,构造子图骨架图并进行子图内和子图间的层次化信息聚合,并通过自监督互信息增强机制,实现一个图神经网络表征新框架,对每个子图进行分类并将分类结果投票,并将所述图神经网络表征新框架应用至分子性质预测中,最终实现化学分子结构的表征学习和性质预测。
所述子图采样并使用图神经网络对子图进行编码具体方法为:给定一个图按度降序对图中的所有节点进行排序,并选择前个节点作为子图的中心节点,然后,对于每个中心节点,通过广度优先搜索提取一个大小为s的子图,以最大化原始图结构的覆盖范围,从原始图中抽取n个子图{g1,g2,...,gn};其次,学习一个基于图神经网络的编码器ε(gi),以获取子图中的节点表示:
然后,使用基于强化学习的top-k筛选策略筛选n'=k*n个显著子图;最后,通过子图内的注意机制来学习子图中节点的重要性及其相互作用,并将节点表征嵌入到同一空间中,获得子图表征:
cj为节点vj的注意力系数。
所述显著性子图筛选步骤具体为:使用top-k筛选策略来筛选显著子图,首先使用可训练向量p将子图表征zi投影到一维空间,学习子图重要性指标以度量子图显著性信息;然后依据子图重要性指标排列分布,对所有子图进行降序排序,筛选前n'个子图作为显著子图。
所述强化学习筛选显著子图机制为:使用强化学习算法自适应地更新top-k筛选策略的筛选比例k,筛选比例k的更新过程建模为一个有限的马尔可夫决策过程,其状态、动作、奖励和终止的定义如下:
状态se:第e轮的状态se定义为当前轮选择的子图索引;
动作ae:ae定义为对当前轮的筛选比例k增加或减少一个离散值;
奖励reward(se,ae):奖励定义为一个离散函数,若当前状态和动作下图分类任务准确率提高,则奖励为正,否则为负;
终止:如果连续周期内筛选比例k的变化不超过阈值Δk,这意味着算法已经找到了一个最佳阈值,则算法将停止,并且在下一个训练过程中保持筛选比例k不变;
使用Q-learning方法解决有限离散优化马尔可夫决策过程问题,Q函数表示为:
Q*(se,ae)=reward(se,ae)+γargmaxa'(Q*(se+1,a'));
Q-learning的选择策略为:
所述子图骨架图并进行子图内和子图间的层次化信息聚合具体方法为:首先,将所选的显著子图作为超节点集合,记为将原始图池化为一个子图骨架图:其中,超节点之间的连通关系记为:其由相应子图中的公共节点数量所决定;最后,采用子图间的注意力机制学习子图之间的结构及相互作用,捕捉更高阶的语义信息,经过子图间注意力机制的子图表征可表示为z'i。
然后,使用Jensen-Shannon互信息估计器来最大化给定(子图表征,图表征)对上的估计互信息。具体而言,学习一个判别器(Discriminator):
判别输入的子图表征/图表征对(z'n,r)是否来自同一个图;最后,基于显著子图选择与表征的图分类框架目标函数可定义为:
本发明所要实现的技术效果在于:
本发明针对化学分子结构表征中局部结构抽取和领域知识的问题,提出了基于强化子图神经网络的化学分子结构表征与性质预测方法。本发明具有以下特点:
1.能够学习具有强判别性的子图表征,获得分子性质预测高准确度
2.无需领域知识,能自适应地捕捉化学分子结构的重要局部结构。
3.可明确指出导致化学分子结构性质预测结果的具体局部结构,具有强解释性。
附图说明
图1方法整体框架;
具体实施方式
以下是本发明的优选实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于此实施例。
本发明提出了一种化学分子结构的图神经网络表征方法,首先,将化学分子结构建模为图,对于每一个节点,根据广度优先法则采样出子图,使用图神经网络对子图进行编码;其次,通过强化学习筛选显著子图,构造子图骨架图(Sketched Subgraph Network);然后,设计子图内(Intra-Subgraph)和子图间(Inter-Subgraph)的层次化信息聚合,最大化子图表征与全局图表征之间的互信息(Mutual Information),提高子图表征在不同图实例中的判别性;最后,实现显著子图挖掘、准确子图表征为一体的图神经网络表征新框架,并将新框架应用至分子性质预测中。
子图神经网络构造及层次性聚合方法
利用子图局部视野嵌入和池化,构建重构化子图骨架图,从子图内和子图间两个视角,分别引入注意力机制学习机制实现子图层嵌入,从而实现子图层次化和差异化表达,以挖掘和表征显著性子图。子图神经网络包括三个步骤:
第一步,子图采样和编码。给定一个图我们从原始图中抽取n个子图{g1,g2,...,gn},按度降序对图中的所有节点进行排序,并选择前个节点作为子图的中心节点,然后,对于每个中心节点,通过广度优先搜索提取一个大小为s的子图,以最大化原始图结构的覆盖范围,从原始图中抽取n个子图{g1,g2,...,gn};;其次,学习一个基于图神经网络的编码器ε(gi),以获取子图中的节点表示:
然后,使用基于强化学习的top-k策略选择n'=k*n个显著子图;
最后,通过子图内的注意机制来学习子图中节点的重要性及其相互作用,并将节点表征嵌入到同一空间中,获得子图表征:
其中,cj为节点vj的注意力系数。
第二步,显著性子图筛选。使用top-k筛选策略来筛选显著子图。具体而言,首先,使用可训练向量p将子图表征zi投影到一维空间,学习子图重要性指标以度量子图显著性信息;然后,依据子图重要性指标排列分布,对所有子图进行降序排序,选择前n'个子图作为显著子图。
第三步,子图骨架图构建和层次化聚合。首先,将所选的显著子图作为超节点集合,记为将原始图池化为一个子图骨架图:其中,超节点之间的连通关系记为:其由相应子图中的公共节点数量所决定。最后,采用子图间的注意力机制学习子图之间的结构及相互作用,捕捉更高阶的语义信息,经过子图间注意力机制的子图表征可表示为z'i。
基于强化学习的显著子图筛选机制
为了解决显著子图选择中先验知识不足的问题,使用强化学习算法自适应地更新top-k筛选策略的筛选比例k。筛选比例k的更新过程建模为一个有限的马尔可夫决策过程(MDP),MDP的状态、动作、奖励和终止的定义如下:
(1)状态se:第e轮的状态se定义为当前轮选择的子图索引。
(2)动作ae:ae定义为对当前轮的筛选比例k增加或减少一个离散值。
(3)奖励reward(se,ae):奖励定义为一个离散函数,若当前状态和动作下图分类任务准确率提高,则奖励为正,否则为负。
(4)终止:如果连续周期内筛选比例k的变化不超过阈值Δk,这意味着算法已经找到了一个最佳阈值,则算法将停止,并且在下一个训练过程中保持筛选比例k不变。
使用Q-learning方法即可解决上述有限离散优化MDP问题。具体而言,Q函数可表示为:
Q*(se,ae)=reward(se,ae)+γargmaxa'(Q*(se+1,a'))。Q-learning的选择策略为:
自监督互信息增强机制
自监督互信息增强机制通过最大化局部子图表征和图全局表征之间的互信息,使得子图表征能够反映全局结构属性,以获得高准确率、有区分度的子图表征。具体步骤如下:
然后,使用Jensen-Shannon互信息估计器来最大化给定(子图表征,图全局表征)对上的估计互信息。具体而言,学习一个判别器(Discriminator):
判别输入的子图表征/图全局表征对(z'n,r)是否来自同一个图。最后,基于显著子图选择与表征的图分类框架目标函数可定义为:
Claims (1)
1.一种化学分子结构的图神经网络表征方法,其特征在于:包括三个步骤,具体地,步骤一为子图采样和编码步骤,将输入的化学分子结构建模为图后,进行子图采样并使用图神经网络对子图进行编码;步骤二为显著子图筛选步骤,引入强化学习筛选显著子图机制构建有限的马尔可夫过程,解决显著子图选择中先验知识不足的问题;步骤三为子图骨架图构建和层次化聚合步骤,构造子图骨架图并进行子图内和子图间的层次化信息聚合,并通过自监督互信息增强机制,实现一个化学分子结构的图神经网络表征新框架,对每个显著子图进行分类并将分类结果投票,并将所述图神经网络表征新框架应用至化学分子结构分类中,最终进行化学分子结构的性质预测;
所述子图采样并使用图神经网络对子图进行编码具体方法为:给定一个图按节点度对图中的所有节点进行降序排序,并选择度最高的前n个节点作为子图的中心节点;从原始图中抽取n个子图{g1,g2,...,gn}后,然后,对于每个中心节点,通过广度优先搜索提取一个大小为s的子图,以最大化原始图结构的覆盖范围;其次,学习一个基于图神经网络的编码器ε(gi),以获取子图中的节点表示:
然后,使用基于强化学习的top-k筛选策略来筛选n'=k*n个显著子图;
最后,通过子图内的注意机制来学习子图中节点的重要性及其相互作用,并将节点表征嵌入到同一空间中,获得子图表征:
cj为节点vj的注意力系数,所述显著性子图筛选步骤具体为:使用top-k筛选策略来筛选显著子图,首先使用可训练向量p将子图表征zi投影到一维空间,学习子图重要性指标以度量子图的显著程度;然后依据子图重要性指标排列分布,对所有子图进行降序排序,筛选前n'个子图作为显著子图;
所述强化学习筛选显著子图机制为:使用强化学习算法自适应地更新top-k筛选的筛选比例k,筛选比例k的更新过程建模为一个有限的马尔可夫决策过程,其状态、动作、奖励和终止的定义如下:
状态se:第e轮的状态se定义为当前轮选择的子图索引;
动作ae:ae定义为对当前轮的筛选比例k增加或减少一个离散值;
奖励reward(se,ae):奖励定义为一个离散函数,若当前状态和动作下图分类任务准确率提高,则奖励为正,否则为负;
终止:如果连续周期内筛选比例k的变化不超过阈值Δk,这意味着算法已经找到了一个最佳阈值,则算法将停止,并且在下一个训练过程中保持筛选比例k不变;
使用Q-learning方法解决有限离散优化马尔可夫决策过程问题,Q函数表示为:
Q*(se,ae)=raward(se,ae)+γargmaxa'(Q*(se+1,a'));
Q-learning的选择策略为:
所述子图骨架图并进行子图内和子图间的层次化信息聚合具体方法为:首先,将所选的显著子图作为超节点集合,记为将原始图池化为一个子图骨架图:其中,超节点之间的连通关系记为:其由相应子图中的公共节点数量所决定;最后,采用子图间的注意力机制学习子图之间的结构及相互作用,捕捉更高阶的语义信息,经过子图间注意力机制的子图表征可表示为z'i;
然后,使用Jensen-Shannon互信息估计器来最大化给定(子图表征,图全局表征)对上的估计互信息,具体而言,学习一个判别器(Discriminator):
输入的(子图表征,图全局表征)对(z'n,r),二者是否来自于同一个图;最后,基于显著子图筛选与表征的图分类框架目标函数可定义为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110589957.4A CN113314189B (zh) | 2021-05-28 | 2021-05-28 | 一种化学分子结构的图神经网络表征方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110589957.4A CN113314189B (zh) | 2021-05-28 | 2021-05-28 | 一种化学分子结构的图神经网络表征方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113314189A CN113314189A (zh) | 2021-08-27 |
CN113314189B true CN113314189B (zh) | 2023-01-17 |
Family
ID=77376010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110589957.4A Active CN113314189B (zh) | 2021-05-28 | 2021-05-28 | 一种化学分子结构的图神经网络表征方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113314189B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110970099A (zh) * | 2019-12-10 | 2020-04-07 | 北京大学 | 一种基于正则化变分自动编码器的药物分子生成方法 |
CN112669916A (zh) * | 2020-12-25 | 2021-04-16 | 浙江大学 | 一种基于对比学习的分子图表示学习方法 |
CN112820361A (zh) * | 2019-11-15 | 2021-05-18 | 北京大学 | 一种基于对抗模仿学习的药物分子生成方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11853903B2 (en) * | 2017-09-28 | 2023-12-26 | Siemens Aktiengesellschaft | SGCNN: structural graph convolutional neural network |
CN110321999B (zh) * | 2018-03-30 | 2021-10-01 | 赛灵思电子科技(北京)有限公司 | 神经网络计算图优化方法 |
CN111950594B (zh) * | 2020-07-14 | 2023-05-05 | 北京大学 | 基于子图采样的大规模属性图上的无监督图表示学习方法和装置 |
-
2021
- 2021-05-28 CN CN202110589957.4A patent/CN113314189B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112820361A (zh) * | 2019-11-15 | 2021-05-18 | 北京大学 | 一种基于对抗模仿学习的药物分子生成方法 |
CN110970099A (zh) * | 2019-12-10 | 2020-04-07 | 北京大学 | 一种基于正则化变分自动编码器的药物分子生成方法 |
CN112669916A (zh) * | 2020-12-25 | 2021-04-16 | 浙江大学 | 一种基于对比学习的分子图表示学习方法 |
Non-Patent Citations (1)
Title |
---|
基于图神经网络的图分类方法研究;刘汪洋;《中国优秀硕士论文辑》;20201231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113314189A (zh) | 2021-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Angermueller et al. | Deep learning for computational biology | |
CN113887580B (zh) | 一种考虑多粒度类相关性的对比式开放集图像识别方法及装置 | |
CN107301328B (zh) | 基于数据流聚类的癌症亚型精准发现与演化分析方法 | |
CN113627463A (zh) | 基于多视图对比学习的引文网络图表示学习系统及方法 | |
CN108681742B (zh) | 用于分析司机驾驶行为对车辆能耗敏感性的分析方法 | |
Ghadiri et al. | BigFCM: Fast, precise and scalable FCM on hadoop | |
Kotanchek et al. | Symbolic regression via genetic programming as a discovery engine: Insights on outliers and prototypes | |
CN116506181A (zh) | 一种基于异构图注意力网络的车联网入侵检测方法 | |
Deng et al. | Selective clustering for representative paintings selection | |
CN110222610A (zh) | 一种信号分类的方法及装置 | |
Magister et al. | Concept distillation in graph neural networks | |
CN113314189B (zh) | 一种化学分子结构的图神经网络表征方法 | |
CN109344309A (zh) | 基于卷积神经网络堆叠泛化的文档图像分类方法和系统 | |
Cabanes et al. | Unsupervised learning for analyzing the dynamic behavior of online banking fraud | |
Ji et al. | Machine learning of discriminative gate locations for clinical diagnosis | |
Ma | The Research of Stock Predictive Model based on the Combination of CART and DBSCAN | |
CN116861226A (zh) | 一种数据处理的方法以及相关装置 | |
CN113689234B (zh) | 一种基于深度学习的平台相关的广告点击率预测方法 | |
CN114722920A (zh) | 一种基于图分类的深度图卷积模型钓鱼账户识别方法 | |
CN115965466A (zh) | 一种基于子图对比的以太坊账户身份推理方法及系统 | |
CN114818849A (zh) | 基于大数据信息的卷积神经网络和遗传算法的反窃电方法 | |
Bao et al. | Enhancing metric-based few-shot classification with weighted large margin nearest center loss | |
Mounce | Visualizing smart water meter dataset clustering with parametric t-distributed stochastic neighbour embedding | |
Liu et al. | Learning to describe collective search behavior of evolutionary algorithms in solution space | |
Brabec | Decision forests in the task of semi-supervised learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |