CN113241130B - 一种基于图卷积网络的分子结构预测方法 - Google Patents

一种基于图卷积网络的分子结构预测方法 Download PDF

Info

Publication number
CN113241130B
CN113241130B CN202110637452.0A CN202110637452A CN113241130B CN 113241130 B CN113241130 B CN 113241130B CN 202110637452 A CN202110637452 A CN 202110637452A CN 113241130 B CN113241130 B CN 113241130B
Authority
CN
China
Prior art keywords
layer
edge
feature
node
num
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202110637452.0A
Other languages
English (en)
Other versions
CN113241130A (zh
Inventor
江永全
林小惠
杨燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN202110637452.0A priority Critical patent/CN113241130B/zh
Publication of CN113241130A publication Critical patent/CN113241130A/zh
Application granted granted Critical
Publication of CN113241130B publication Critical patent/CN113241130B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions

Landscapes

  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于机器学习技术领域,具体的说是涉及一种基于图卷积网络的分子结构预测方法。本发明根据输入分子的SMILES来构建分子图和分子完全图,并对应构建具有两个分支的网络模型,一个分支采用MLP用于预测边,另一个分支包括图卷积网络和MLP,用于对分支的整体结构特征进行提取。本发明使用了图卷积提取分子结构特征,能很好地对分子的整体结构特征进行提取,从而更好地预测结构;使用了双分支的模型设计,解决了完全图破坏分子结构信息的问题。

Description

一种基于图卷积网络的分子结构预测方法
技术领域
本发明属于机器学习技术领域,具体的说是涉及一种基于图卷积网络的分子结构预测方法。
背景技术
分子的结构是研究分子的基础,因为分子的微观结构与包括了化学反应在内的各种宏观的化学性能以及各种物理性质的关系密不可分,因此,从很早以前开始人们就开始了对分子结构的研究,从各种已知的化学物质的分子构型和运动特征中归纳出物质结构的规律性,以解释物质的形成及其属性。
最早的分子结构测定主要是通过实验观察的方法,例如微波谱,X光衍射,电子衍射以及中子衍射等,其中微波谱常用于测量气相小分子结构,该方法通过测定转动常数从而得到转动惯量,而转动惯量是根据原子坐标和原子质量计算得到的,因此得到了转动惯量也就相当于测定到了分子的几何结构。X光衍射是在晶体环境下对分子结构进行测定,该方法通过测定晶体中的电子密度格点数据,再将其转换为原子核的位置信息,以达到测定分子结构的目的。电子衍射技术可用于固体也可用于气体,用于固体时有扫描透射显微镜等方式,用于气体时把气体分子喷到衍射腔里,射入加速后的电子并测量衍射数据,通过测量衍射数据得到原子间的距离矩阵,也等同于得到了分子的结构。
此外,还有一些计算的方法可以得到分子结构,例如,QM9数据集中的分子先由CORINA解析分子的SMILES(Simplified Molecular Input Line Entry Specification,简化分子线性输入规范)生成初始的笛卡尔坐标,随后使用MOPAC在PM7半经验理论水平上进行几何松弛,其结果用作高斯的B3LYP的几何松弛的输入,得到优化的原子坐标。Wolfram中根据分子化学图生成多个随机构象,再从中找到能量构象最低的分子,根据这个分子的坐标得到其化学结构。RDkit化学计算包中使用了两种方法,分别是基于距离的方法和基于知识的方法,基于知识的方法根据Riniker等人从晶体结构数据库的小分子结构中总结出的一些规则来修正基于距离的方法得到的结果。其中QM9数据集中的分子结构,经过多种方法优化,有较高的可信度,但需要转换几种方法,比较繁琐,而且耗时,而后面几种方法虽然计算速度较快,但常常比较粗糙或者需要先验知识。
近年来,随着机器学习的发展,越来越多的机器学习方法被应用与材料和化学等领域中并取得了成功,这极大地体现了机器学习方法在量子化学计算中的优势,其中近年新兴起的图神经网络非常适合对分子的图表示进行特征提取,但现有的方法通常将其用于对分子的性质进行预测而非结构,例如Chen等人开发了一种称作MEGNet的图网络模型,对分子和晶体特性进行了精准预测,Louis等针对许多GNN模型在进行性质预测是不能有效地区分不同原子所做出的贡献的问题提出了一种新的GATGNN模型,取得了相当好的预测性能。而使用图神经网络对分子结构进行预测的工作目前尚未见到相关的公开报道。
由于分子的结构对研究了解以及合成分子有着非常重要的作用,尤其在新药物研发领域,知道药物分子结构十分有助于药物分子属性预测、靶点预测以及化学反应预测,以指导新分子的合成,而通过实验的方法测定分子结构操作复杂,成本高,需耗费人力物力,并且无法测定尚未存在的新设计的分子,而在传统的计算方法中,存在无法很好地平衡计算精度和时间成本之间关系的问题。
发明内容
针对上述问题,本发明提出一种基于图卷积网络的分子结构预测方法,该方法通过预测原子距离矩阵得到分子几何结构。
本发明的技术方案是:
一种基于图卷积网络的分子结构预测方法,包括以下步骤:
S1、构建训练数据集,将获取的SMILES分子表达式转换为图表示:G1(num_nodes,num_edges,ndata={‘feature’:[X1,X2,…,X num_nodes]},edata={‘feature’:[E1,E2,…,Enum_edges],‘label’:[y1,y2,…,ynum_edges]})和G2(num_nodes,num_edges,ndata={‘feature’:[X1,X2,…,Xnum_nodes]},edata={‘feature’:[E1,E2,…,Enum_edges],‘label’:[y1,y2,…,ynum_edges]}),其中,G1表示分子图,G2表示分子完全图,分子完全图即没有键的原子之间也存在边,num_nodes和num_edges表示图结点和边的数量;ndata表示结点信息,其中的feature即为结点的特征向量集合,每个结点的特征向量由该结点所表示的原子的属性编码而成;edata表示边的信息,其中的feature为边的特征向量集合,每条边的特征向量由该边表示的键的属性编码而成,label为边的标签集合,是每条边长度的真值;
S2、构建网络模型,网络模型包括两条分支,第一分支包括MLP1,MLP1为四层的MLP,输入为G1,MLP1中每一层后都跟着一个BachNorm层,输入维度=结点特征维度*2+边特征维度,每一层的输出维度分别为32、16、16、1。MLP1用于预测有键之间的原子所构成的边,输出分子图中每一条边的长度预测值;
第二分支包括用于进行图卷积操作的更新层、边连接层和MLP2,更新层为四层,MLP2为三层的MLP,更新层结点输入特征为19维,隐藏层特征为32维,输出特征为5维,每一层更新之后都要进行BachNorm操作,更新层中更新边的全连接层为两层,输入维度=结点特征维度*2+边特征维度,输出维度为4;MLP2中每一层后都跟着一个BachNorm层,输入维度=结点特征维度*2+边特征维度*4,每一层的输出维度为32,8,1;更新层的输入为G1和G2,更新层每一层的具体更新方式为:对G1的每一个结点进行图卷积操作,聚合邻居结点信息,用聚合的结果更新每一个结点特征向量,再将更新了的结点特征向量赋给G2的结点特征,将G2中每一条边的特征向量和组成这条边的两个结点的特征向量拼接起来,送入两层全连接层,用于对边的特征向量进行更新;四层更新层结束后,将每一层的边特征向量和最后一层组成这个边的两个结点特征向量通过边连接层拼接起来,送入MLP2,输出完全分子图中没有键的原子之间构成的每一条边的长度预测;
最后将MLP1和MLP2的所有输出拼接起来,输出两两原子间的距离;
S3、采用训练数据集对构建的网络模型进行训练,具体为使用梯度下降法进行训练,整个模型的总体损失函数定义为Loss=αloss1+βloss2,其中loss1表示MLP1的损失,loss2表示MLP2的损失,α和β分别设置为0.4和0.6,loss1和loss2都使用了平均绝对误差,定义为
Figure BDA0003105749110000031
其中n为每个batch中边的条数,
Figure BDA0003105749110000032
为预测输出;根据总体损失函数Loss反向传播,训练各层的权重,完成模型的训练,获得训练好的网络模型;
S4、利用训练好的网络模型,将目标分子图输入网络模型,获得每一个分子图中两两原子距离预测。
本发明的有益效果是:(1)使用了图卷积提取分子结构特征,该方法能很好地对分子的整体结构特征进行提取,从而更好地预测结构;(2)使用了双分支的模型设计,解决了完全图破坏分子结构信息的问题;(3)本发明的预测结果相较于RDkit的方法更接近与QM9的计算结果,而在时间上也更优。
附图说明
图1为本发明的网络模型结构示意图。
具体实施方式
下面结合附图,详细描述本发明的技术方案:
本发明根据输入分子的SMILES来构建图,该图是由原子作为结点,键作为边,原子的一些属性,例如原子半径,价电子排布等作为结点的特征嵌入,键的类型作为边特征嵌入,此外,由于需要对分子的距离矩阵进行预测,因此在构建输入的图时,没有键的原子之间也需要进行边的构造,即构建一个完全图作为模型的输入,将原子距离矩阵预测转化为边的长度预测。模型的整体框架图如图1所示,由于完全图破坏了原有分子图的结构信息,因此,模型设置了两个分支,分别对完全图和分子图进行处理。分子图所在的分支需要完成两件事情,分别是对有键的原子之间的距离进行预测,以及将分子图送入带有图卷积操作的更新层进行结点更新,每层更新完后将结点信息传给完全图所在的分支,完全图使用更新的结点来完成对边的更新。在经过L1层这样的更新后,将每一次得到的新的边拼接起来,进行没有键之间的原子距离的预测。其中原子的距离预测使用的是含有L2层隐藏层的多层感知机,其定义如下:
Figure BDA0003105749110000041
其中,li表示第i层输出的向量,W是可训练的权重参数,b为偏置,
Figure BDA0003105749110000046
为激活函数,他能让函数具有非线性,用于更好的逼近真实值。
更新层中主要目的是对结点和边进行更新,主要操作是图卷积操作,对分子图中的每一个结点,聚合它的邻居节点用于更新自身,聚合操作如下:
Figure BDA0003105749110000042
其中,N(i)表示结点i的所有邻居节点,l表示图卷积层数,aggregate表示聚合函数,本发明使用了求平均值作为聚合函数,得到邻居的聚合信息之后,将其与结点i拼接起来,送入全连接层,输出更新后的i结点特征,公式如下:
Figure BDA0003105749110000043
其中||表示拼接操作,
Figure BDA0003105749110000044
表示激活函数,f表示全连接层。当分子图所有结点更新完毕后,将新的结点特征赋给完全图中的结点,然后更新完全图中没有键的原子之间的边,操作如下:
Figure BDA0003105749110000045
其中,ei表示第i条边的特征向量,
Figure BDA0003105749110000051
Figure BDA0003105749110000052
表示形成边的两个结点的特征向量。当所有的边更新完毕后更新层结束,在经过L1层这样的更新层后,将每一层得到的边特征向量和最后一层的形成该边的结点特征拼接起来,送入多层感知机中,进行边的长度预测,公式如下:
Figure BDA0003105749110000053
本发明基于图1所示网络模型的主要训练步骤为:
1、将步骤一中处理好的图数据G1、G2输入到模型中。
2、前向传播。
(1)将G1中每一条边的特征向量和组成这条边的两个结点的特征向量拼接起来,送入图1中MLP1中。
(2)将G1送入更新层中,对每一个结点进行图卷积操作,聚合邻居结点信息,用以提取整体结构特征,聚合操作为:
Figure BDA0003105749110000054
其中,N(i)表示结点i的所有邻居节点,l表示图卷积层数,aggregate表示聚合函数,本发明使用了求平均值作为聚合函数。用聚合的结果更新每一个结点特征向量。
(3)将第(2)步中更新了的结点特征向量赋给G2的结点特征。将G2中每一条边的特征向量和组成这条边的两个结点的特征向量拼接起来,送入两层全连接层,用于对边的特征向量进行更新,至此,一层更新层结束。
(4)四层更新层结束后,将每一层的边特征向量和最后一层组成这个边的两个结点特征向量拼接起来,送入MLP2中。
3、根据总体损失函数Loss反向传播,训练各层的权重,完成模型的训练。

Claims (1)

1.一种基于图卷积网络的分子结构预测方法,其特征在于,包括以下步骤:
S1、构建训练数据集,将获取的SMILES分子表达式转换为图表示:G1(num_nodes,num_edges,ndata={‘feature’:[X1,X2,…,Xnum_nodes]},edata={‘feature’:[E1,E2,…,Enum_edges],‘label’:[y1,y2,…,ynum_edges]})和G2(num_nodes,num_edges,ndata={‘feature’:[X1,X2,…,Xnum_nodes]},edata={‘feature’:[E1,E2,…,Enum_edges],‘label’:[y1,y2,…,ynum_edges]}),其中,G1表示分子图,G2表示分子完全图,分子完全图即没有键的原子之间也存在边,num_nodes和num_edges表示图结点和边的数量;ndata表示结点信息,其中的feature即为结点的特征向量集合,每个结点的特征向量由该结点所表示的原子的属性编码而成;edata表示边的信息,其中的feature为边的特征向量集合,每条边的特征向量由该边表示的键的属性编码而成,label为边的标签集合,是每条边长度的真值;
S2、构建网络模型,网络模型包括两条分支,第一分支包括MLP1,MLP1为四层的MLP,输入为G1,MLP1中每一层后都跟着一个BachNorm层,输入维度=结点特征维度*2+边特征维度,每一层的输出维度分别为32、16、16、1;MLP1用于预测有键之间的原子所构成的边,输出分子图的每一条边长度预测值;
第二分支包括用于进行图卷积操作的更新层、边连接层和MLP2,更新层为四层,MLP2为三层的MLP,更新层结点输入特征为19维,隐藏层特征为32维,输出特征为5维,每一层更新之后都要进行BachNorm操作,更新层中更新边的全连接层为两层,输入维度=结点特征维度*2+边特征维度,输出维度为4;MLP2中每一层后都跟着一个BachNorm层,输入维度=结点特征维度*2+边特征维度*4,每一层的输出维度为32,8,1;更新层的输入为G1和G2,更新层每一层的具体更新方式为:对G1的每一个结点进行图卷积操作,聚合邻居结点信息,用聚合的结果更新每一个结点特征向量,再将更新了的结点特征向量赋给G2的结点特征,将G2中每一条边的特征向量和组成这条边的两个结点的特征向量拼接起来,送入两层全连接层,用于对边的特征向量进行更新;四层更新层结束后,将每一层的边特征向量和最后一层组成这个边的两个结点特征向量通过边连接层拼接起来,送入MLP2,输出完全分子图中没有键的原子之间构成的每一条边的长度预测;
最后将MLP1和MLP2的所有输出拼接起来,输出两两原子间的距离;
S3、采用训练数据集对构建的网络模型进行训练,具体为使用梯度下降法进行训练,整个模型的总体损失函数定义为Loss=αloss1+βloss2,其中loss1表示MLP1的损失,loss2表示MLP2的损失,α和β分别设置为0.4和0.6,loss1和loss2都使用了平均绝对误差,定义为
Figure FDA0003105749100000021
其中n为每个batch中边的条数,
Figure FDA0003105749100000022
为预测输出;根据总体损失函数Loss反向传播,训练各层的权重,完成模型的训练,获得训练好的网络模型;
S4、利用训练好的网络模型,将目标分子图输入网络模型,获得每一个分子图中两两原子距离预测。
CN202110637452.0A 2021-06-08 2021-06-08 一种基于图卷积网络的分子结构预测方法 Expired - Fee Related CN113241130B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110637452.0A CN113241130B (zh) 2021-06-08 2021-06-08 一种基于图卷积网络的分子结构预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110637452.0A CN113241130B (zh) 2021-06-08 2021-06-08 一种基于图卷积网络的分子结构预测方法

Publications (2)

Publication Number Publication Date
CN113241130A CN113241130A (zh) 2021-08-10
CN113241130B true CN113241130B (zh) 2022-04-22

Family

ID=77137254

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110637452.0A Expired - Fee Related CN113241130B (zh) 2021-06-08 2021-06-08 一种基于图卷积网络的分子结构预测方法

Country Status (1)

Country Link
CN (1) CN113241130B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114446413B (zh) * 2022-02-17 2024-05-28 北京百度网讯科技有限公司 一种分子性质预测方法、装置及电子设备
CN116106461B (zh) * 2022-11-03 2024-02-06 西湖大学 一种基于深层图网络的预测液相色谱保留时间的方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111798934A (zh) * 2020-06-23 2020-10-20 苏州浦意智能医疗科技有限公司 一种基于图神经网络的分子性质预测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019173401A1 (en) * 2018-03-05 2019-09-12 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for spatial graph convolutions with applications to drug discovery and molecular simulation
JP2020139914A (ja) * 2019-03-01 2020-09-03 株式会社Preferred Networks 物質構造分析装置、方法及びプログラム
CN110867254A (zh) * 2019-11-18 2020-03-06 北京市商汤科技开发有限公司 预测方法及装置、电子设备和存储介质
CN112530514A (zh) * 2020-12-18 2021-03-19 中国石油大学(华东) 基于深度学习方法预测化合物蛋白质相互作用的新型深度模型、计算机设备、存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111798934A (zh) * 2020-06-23 2020-10-20 苏州浦意智能医疗科技有限公司 一种基于图神经网络的分子性质预测方法

Also Published As

Publication number Publication date
CN113241130A (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
Feng et al. Failure mode classification and bearing capacity prediction for reinforced concrete columns based on ensemble machine learning algorithm
Pinheiro et al. Choosing the right molecular machine learning potential
CN113241130B (zh) 一种基于图卷积网络的分子结构预测方法
CN110277144B (zh) 使用累积的化学数据创建具有期望性质的新化学化合物以构建用于合成的新化学结构
Chen et al. Soil liquefaction assessment using soft computing approaches based on capacity energy concept
Nguyen-Tang et al. Offline neural contextual bandits: Pessimism, optimization and generalization
Yang et al. Rethinking the value of just-in-time learning in the era of industrial big data
CN116185694A (zh) 一种基于相似度的多元时间序列异常检测与诊断方法
CN116894096A (zh) 一种基于递归双超图神经网络的新闻事件预测方法
Du et al. Data driven strength and strain enhancement model for FRP confined concrete using Bayesian optimization
CN114444701A (zh) 训练量子线路及数据嵌入的方法
CN116564555A (zh) 基于深度记忆交互的药物相互作用预测模型构建方法
Gao et al. A Graph is Worth $ K $ Words: Euclideanizing Graph using Pure Transformer
Haque et al. Improved adam-based feedforward deep neural network model for personalized asthma predictions
Lin et al. Molecular distance matrix prediction based on graph convolutional networks
Vita et al. Spline-based neural network interatomic potentials: Blending classical and machine learning models
Riguzzi ALLPAD: Approximate learning of logic programs with annotated disjunctions
Sattari et al. De novo molecule design towards biased properties via a deep generative framework and iterative transfer learning
Hauser et al. Probabilistic forecasting of symbol sequences with deep neural networks
Daou et al. Ensemble Tree Machine Learning Models for Improvement of Eurocode 2 Creep Model Prediction
Durvasula et al. Prediction of Material Properties using Crystal Graph Convolutional Neural Networks
Zhang et al. Ultimate Conditions Prediction and Stress–Strain Model for FRP-Confined Concrete Using Machine Learning
Wulff et al. Quantum Computing and Tensor Networks for Laminate Design: A Novel Approach to Stacking Sequence Retrieval
CN114036057B (zh) 一种软件可靠性模型参数估计方法
Pinheiro et al. The impact of low-cost molecular geometry optimization in property prediction via graph neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220422

CF01 Termination of patent right due to non-payment of annual fee