CN111882044A - 一种基于图神经网络的共晶预测方法、深度学习框架 - Google Patents

一种基于图神经网络的共晶预测方法、深度学习框架 Download PDF

Info

Publication number
CN111882044A
CN111882044A CN202010778523.4A CN202010778523A CN111882044A CN 111882044 A CN111882044 A CN 111882044A CN 202010778523 A CN202010778523 A CN 202010778523A CN 111882044 A CN111882044 A CN 111882044A
Authority
CN
China
Prior art keywords
eutectic
graph
neural network
sample
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010778523.4A
Other languages
English (en)
Other versions
CN111882044B (zh
Inventor
蒲雪梅
江源远
袁榕澳
李洪珍
刘建
徐涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202010778523.4A priority Critical patent/CN111882044B/zh
Publication of CN111882044A publication Critical patent/CN111882044A/zh
Application granted granted Critical
Publication of CN111882044B publication Critical patent/CN111882044B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于共晶体形成预测技术领域,公开了一种基于图神经网络的共晶预测方法、深度学习框架,包括:共晶样本收集;数据处理;数据集划分;引入迁移学习的计算策略,提出用于共晶筛选的图神经网络网框架CCGNet,并在CCGNet框架下构建共晶的预测模型,进行共晶筛选。本发明构建的深度学习框架CCGNet建立的模型的预测性能大幅超越了传统的机器学习模型和经典的图神经网络模型,为共晶筛选提供了一种高通量和高准确率的解决方案,丰富了共晶工程的方法论,向实现数据驱动的共晶工程设计迈出了重要的一步。本发明还收集了大量可靠的共晶数据,为以后基于机器学习的共晶筛选工作提供了有力的数据支撑。

Description

一种基于图神经网络的共晶预测方法、深度学习框架
技术领域
本发明属于共晶体形成预测技术领域,尤其涉及一种基于图神经网络的共晶预测方法、深度学习框架。
背景技术
目前,共晶已成为改善材料性能的一种有效途径,然而只通过实验手段来筛选共晶体时效慢、成本高。人工智能技术的发展为共晶体的筛选提供了另外途径,具有快速和成本低的优势。然而,目前没有大量且有代表性的共晶数据集,限制了深度学习方法在此领域应用的可靠性。因此,如何针对共晶样本量少的特点,利用机器学习算法去构建可靠的预测模型成为其使用的一个关键问题。
图神经网络是一种针对图结构数据的深度学习方法。将原子作为节点,共价键作为边对有机分子是一种很自然的表征方式。GNN已经在药物发现,晶体预测,量子化学等领域有了应用。对比经典的分子特征化算法,如ECFP指纹,分子描述符;图神经网络的特征提取策略是可学习的,意味着对特征提取策略进行修饰可以进一步提高模型性能。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有只通过实验手段来筛选含能共晶体时效慢、成本高。
(2)目前缺乏有代表性的共晶数据集,限制了机器学习方法在此领域应用的可靠性。
解决以上问题及缺陷的难度为:受数据集和算法的制约,目前文献报道机器学习模型预测准确率较低,最高只有85%左右,不具有实用价值。
解决以上问题及缺陷的意义为:通过文献和数据库的筛选收集到有代表性且足够支撑深度学习模型训练样本集。本发明通过样本表征和模型算法的改进极大地提高了机器学习模型预测共晶的准确率,达到了96%+。从而具有了实用价值,可以减少共晶筛选实验的成本,提高共晶筛选的效率。
发明内容
针对现有技术存在的问题,本发明提供了一种基于图神经网络的共晶预测方法、深度学习框架。
本发明是这样实现的,一种基于图神经网络的共晶预测方法,所述基于图神经网络的共晶预测方法包括以下步骤:
步骤一,共晶样本收集:将具有长程和短程有序性的cocrystal定义为共晶正样本,将不具有长程有序性的固体eutectic和其他形式的固体作为负样本。
步骤二,数据处理:将分子表示成图,将两个分子图组合表示共晶样本,成为共晶图;同时挑选描述分子整体信息的描述符作为全局状态输入模型。
步骤三,数据集划分:共晶数据集划分10%做独立验证集,剩下的样本做十倍交叉验证;含能共晶数据集同样划分10%做独立验证集,剩下的样本则做5倍交叉验证。
步骤四,引入迁移学习的计算策略,提出用于共晶筛选的图神经网络网框架CCGNet,并在CCGNet框架下构建药物共晶的预测模型,进行共晶筛选。
进一步,步骤一中,所述共晶正样本从剑桥数据库CCDC中筛选6829个,负样本从文献中收集1052个;所述含能共晶正样本收集151个;负样本来自九院实验结果以及FOX-7,RDX,EDTH,NTO与其他含能分子的组合,总共得到负样本843个。
进一步,所述正样本的筛选满足以下条件:
1)必须包含两个不同的分子;
2)排除常见的溶剂;
3)必须有3D结构且没有disorder原子;
4)单个分子量必须小于700;
5)只包含C,H,O,N,P,S,Cl,Br,I,F,Si;
6)必须是中性分子(排除盐);
7)排除只含C,H,O,N并且包含硝基的样本(这部分作为含能共晶正样本)。
进一步,步骤二中,所述数据处理的方法包括:
(1)将分子表示成图:G=(E,V);E表示边的集合,V表示节点集合。节点代表原子,每个原子有对应的特征描述符;边表示共价键,每一条边也有对应的描述符。
(2)将两个分子图组合表示共晶样本,成为共晶图。因氢键和π-π堆积是分子间的主要相互作用;计算每个分子之间氢键受体和供体以及芳香原子。
(3)将分子1的氢键供体与分子2的氢键受体连接表示可能的氢键相互作用;同理,把分子1和分子2的芳香原子相连表示可能的π-π堆积。
(4)挑选描述分子整体信息的描述符作为全局状态(Global State)输入模型。
进一步,步骤四中,所述用于共晶筛选的图神经网络网框架CCGNet的结构中,A,G,V分别表示样本的邻接张量,全局状态,节点特征。其中全局状态是指分子水平上的特征。CCGBlock是模型主要计算单元,用于变换节点、边以及全局状态。
所述CCGBlock主要有两个函数构成:Φg和Φv。Φg称作global state function,用来变换分子的全局状态,在这里使用单层的神经网络。Φv称作node update function用来更新节点特征,这里使用的是单层图卷积。
将最后一个CCGBlock输出的节点特征采用注意力机制生成表示整个共晶样本的嵌入向量。原始输入的全局状态G与这个嵌入向量连接得到最后表示整个共晶样本的特征向量,最后用ANN预测结果。
进一步,所述CCGBlock的计算流程包括:
(1)单层神经网络Φg变换样本分子水平的特征G(g1,g2):
G′=Φg(G)=ReLU(WG+b);
(2)将变换后的特征Gout和节点特征V融合,这里用的是连接(concatenate,用
Figure BDA0002619360410000041
符号表示)的方法。融合后的节点特征和邻接矩阵A输入Φv得到新的节点特征Vout
Figure BDA0002619360410000042
Figure BDA0002619360410000043
Figure BDA0002619360410000044
Figure BDA0002619360410000045
V′=(V1′,V2′)
Vout=Φv(V′)
CCGBlock计算过程以A,G,V做输入,对G和V做变换,A不做处理。所述CCGBlock的输入都有对应的输出。
进一步,所述图卷积算法是Graph-CNN,定义如下:
Figure BDA0002619360410000046
其中,
Figure BDA0002619360410000047
表示输入节点特征Vin(是一个N×C矩阵,C表示节点特征数)的一列,
Figure BDA0002619360410000048
是经过卷积操作后输出的节点矩阵。b是偏置。H(c)是图卷积算符
Figure BDA0002619360410000049
的一个N×N的切片:
其中,L是邻接矩阵数量,l是邻接矩阵的索引,Al指第l个邻接矩阵。L个邻接矩阵堆积成N×N×L的张量。
Figure BDA00026193604100000410
表示第c个特征和第l个邻接矩阵的卷积滤波器。
定义F个卷积滤波器,则图卷积算符H成为一个
Figure BDA00026193604100000411
的张量。
Figure BDA00026193604100000412
Figure BDA00026193604100000413
其中,
Figure BDA00026193604100000414
是第f个卷积滤波器得到节点矩阵。连接F个卷积滤波器的结果得到
Figure BDA00026193604100000415
整个Graph-CNN的形式为:
Vout=σ(W0I+GConv(VinF)+b);
其中,σ是ReLU激活函数;
Figure BDA00026193604100000416
是表示节点的单位矩阵;W0是可训练权重;
Figure BDA0002619360410000051
是偏置向量。
进一步,所述Readout function的作用是计算整个图的嵌入向量。引入globalattention作为Readout function。global attention引入了注意力机制,根据各个节点的特征计算出各自的注意力系数。将各节点特征乘以对应的注意力系数后求和得到整个图的嵌入向量。
Figure BDA0002619360410000052
Figure BDA0002619360410000053
其中,
Figure BDA0002619360410000054
在本发明中是单层神经网络;
Figure BDA0002619360410000055
是由各节点注意力系数组成的N维向量(N是节点个数);vi指节点i的特征,是节点特征矩阵vin的第i行。xgraph是整个图的嵌入向量。
进一步,所述global attention使用的是多头注意力。多头注意力是平行计算K次注意力系数,从而使模型能够学习到不同的表示子空间中的不同位置的信息。MHGA经过K次计算得到K个版本的注意力系数从而产生K个图嵌入向量;最后将这K个图嵌入向量连接作为最后用于DenseLayer预测的图嵌入向量。
αk=softmax(φk(Vin));
其中,φk是一个单层神经网络,αk是第k个版本的注意力系数,一个N维向量(N是节点数)。多头注意力的计算公式表示为:
Figure BDA0002619360410000056
其中,xgraph是多头注意力计算得到的图嵌入向量,是一个K×C的向量(C是节点特征维数);||表示向量的连接操作;K=10。
本发明的另一目的在于提供一种应用所述基于图神经网络的共晶预测方法的共晶体形成预测系统,所述共晶体形成预测系统包括:
共晶样本收集模块,用于从剑桥数据库中筛选得到共晶正样本,根据九院实验结果以及FOX-7,RDX,EDTH,NTO与其他含能分子的组合得到负样本;
数据处理模块,用于将分子表示成图,将两个分子图组合表示共晶样本,成为共晶图;同时挑选描述分子整体信息的描述符作为全局状态输入模型;
数据集划分模块,用于将共晶数据集划分10%做独立验证集,剩下的样本做十倍交叉验证;含能共晶数据集同样划分10%做独立验证集,剩下的样本则做5倍交叉验证;
预测模型构建模块,基于迁移学习的计算策略,提出用于共晶筛选的图神经网络网框架CCGNet,并在CCGNet框架下构建药物共晶的预测模型,进行共晶筛选。
本发明的另一目的在于提供一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施所述的基于图神经网络的共晶预测方法。
本发明的另一目的在于提供一种计算机可读存储介质,储存有指令,当所述指令在计算机上运行时,使得计算机执行所述的基于图神经网络的共晶预测方法。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明提供的基于图神经网络的共晶预测方法,引入迁移学习的计算策略,并开发了一种新的共晶体系的样本表征方法,提出了一种用于共晶筛选的图神经网络网框架CCGNet(Co-Crystal GraphNetwork)。在CCGNet框架下构建了一个准确率高的药物共晶的预测模型,用于共晶筛选。
本发明提出了一种基于图神经网络的共晶筛选方案,并由此构建了一个深度学习框架CCGNet;其预测性能大幅超越了传统的机器学习模型和经典的图神经网络模型。CCGNet框架有三个主要的创新点:
1.共晶的样本层次化表征:在边,节点,图三个层面表征不同层级的特征;
2.端到端的特征提取和手动挑选特征的结合:本发明手动挑选了与共晶形成相关的分子描述符与深度学习端到端提取的特征结合;
3.融合不同层次的特征:在CCGBlock计算过程中节点特征和全局状态不断交互融合,进一步提高了模型性能。本发明的工作表明深度学习在化学中的应用需要根据具体的任务将深度学习端到端特征提取的灵活性和手动特征的针对性相结合,从而可以获得更好的模型性能。综上,CCGNet为共晶筛选提供了一种高通量和高准确率的解决方案,丰富了共晶工程的方法论,向实现数据驱动的共晶工程设计迈出了重要的一步。此外,本发明在本发明中收集了大量可靠的共晶数据,为以后基于机器学习的共晶筛选工作提供了有力的数据支撑。
本发明将模型用共晶数据集做十倍交叉验证得到10个独立验证最佳的预训练模型。随后每个预训练模型用含能共晶数据集做五倍交叉验证,最后得到50个在含能共晶独立验证集表现最佳的模型。为了提高泛化能力,本发明采用集成学习的思想:将50个模型都用于预测,收集并统计每次预测为正样本且得分top20的结果。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于图神经网络的共晶预测方法流程图。
图2是本发明实施例提供的共晶体形成预测系统结构框图;
图中:1、共晶样本收集模块;2、数据处理模块;3、数据集划分模块;4、预测模型构建模块。
图3是本发明实施例提供的Graph-CNN共晶样本表征示意图。
图4是本发明实施例提供的CCGNet模型结构示意图。
图5是本发明实施例提供的CCGBlock内部结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种基于图神经网络的共晶预测方法、深度学习框架,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的基于图神经网络的共晶预测方法包括以下步骤:
S101,共晶样本收集:将具有长程和短程有序性的cocrystal定义为共晶正样本,将不具有长程有序性的固体eutectic和其他形式的固体作为负样本。
S102,数据处理:将分子表示成图,将两个分子图组合表示共晶样本,成为共晶图;同时挑选描述分子整体信息的描述符作为全局状态输入模型。
S103,数据集划分:共晶数据集划分10%做独立验证集,剩下的样本做十倍交叉验证;含能共晶数据集同样划分10%做独立验证集,剩下的样本则做5倍交叉验证。
S104,针对含能共晶数据量不足的问题,引入迁移学习的计算策略,用含能共晶数据集(ECC Dataset)微调已被共晶数据集(CC Dataset)预训练的模型,得到高精度的预测模型,然后进行含能共晶筛选。
本发明提供的基于图神经网络的共晶预测方法业内的普通技术人员还可以采用其他的步骤实施,图1的本发明提供的基于图神经网络的共晶预测方法仅仅是一个具体实施例而已。
如图2所示,本发明实施例提供的共晶体形成预测系统包括:
共晶样本收集模块1,用于从剑桥数据库中筛选得到共晶正样本,根据九院实验结果以及FOX-7,RDX,EDTH,NTO与其他含能分子的组合得到负样本;
数据处理模块2,用于将分子表示成图,将两个分子图组合表示共晶样本,成为共晶图;同时挑选描述分子整体信息的描述符作为全局状态输入模型;
数据集划分模块3,用于将共晶数据集划分10%做独立验证集,剩下的样本做十倍交叉验证;含能共晶数据集同样划分10%做独立验证集,剩下的样本则做5倍交叉验证;
预测模型构建模块4,基于迁移学习的计算策略,提出用于共晶筛选的图神经网络网框架CCGNet,并在CCGNet框架下构建药物共晶的预测模型,进行共晶筛选。
下面结合实施例对本发明的技术方案作进一步的描述。
1、方法概述
由于含能共晶样本的缺乏,本发明引入迁移学习的计算策略,并开发了一种新的共晶体系的样本表征方法,提出了一种用于共晶筛选的图神经网络网框架CCGNet(Co-Crystal Graph Network)。在CCGNet框架下构建了一个准确率高的共晶的预测模型,用于共晶筛选。
2、数据收集
2.1共晶样本收集
共晶数据集情况见表1。
表1共晶数据集情况
Figure BDA0002619360410000091
本发明将cocrystal定义为共晶正样本,具有长程和短程有序性;而eutectic(固体不具有长程有序性)和其他形式的固体作为负样本。负样本从文献一共收集1052个。为排除假阳性,所有正样本从剑桥数据库中筛选。正样本的筛选满足以下条件:
1)必须包含两个不同的分子;
2)排除常见的溶剂;
3)必须有3D结构且没有disorder原子;
4)单个分子量必须小于700;
5)只包含C,H,O,N,P,S,Cl,Br,I,F,Si;
6)必须是中性分子(排除盐);
7)排除只含C,H,O,N并且包含硝基的样本(这部分作为含能共晶正样本)。
本发明从CCDC中收集了6829个共晶正样本,文献中收集1052个负样本。收集含能共晶正样本151个;负样本来自九院实验结果以及FOX-7,RDX,EDTH,NTO与其他含能分子的组合,总共得到负样本843个。
2.2数据处理
将分子表示成图:G=(E,V);E表示边的集合,V表示节点集合。节点代表原子,每个原子有对应的特征描述符;边表示共价键,每一条边也有对应的描述符。原子和共价键特征的选择见表2。将两个分子图组合表示共晶样本,成为共晶图(图3)。因为氢键和π-π堆积是分子间的主要相互作用;本发明计算每个分子之间氢键受体和供体以及芳香原子。将分子1的氢键供体与分子2的氢键受体连接表示可能的氢键相互作用;同理,把分子1和分子2的芳香原子相连表示可能的π-π堆积。由于共晶的形成因素复杂,涉及分子的形状,极性,偶极矩等因素,而分子图不能直接提供这些信息。在此,表3显示了本发明挑选了一些描述分子整体信息的描述符作为全局状态(Global State)输入模型。
表2原子和共价键的特征选择
Figure BDA0002619360410000111
表3描述符选择
Figure BDA0002619360410000112
2.3数据集划分
共晶数据集划分10%做独立验证集,剩下的样本做十倍交叉验证。含能共晶数据集同样划分10%做独立验证集,剩下的样本则做5倍交叉验证。所有参与比较的模型(见表4)共享同样的数据划分,以排除随机划分对模型性能的影响。
3、模型描述
本发明提供的模型称为CCGNet(Co-Crystal Graph Network),结构如图4所示。A,G,V分别表示样本的邻接张量,全局状态,节点特征。其中全局状态(Global State)是指分子水平上的特征。CCGBlock是模型主要计算单元,用于变换节点,边以及全局状态。CCGBlock结构在绿色背景图4中显示。CCGBlock(见3.1)主要有两个函数构成:Φg和Φv。Φg称作global state function,用来变换分子的全局状态,在这里本发明使用单层的神经网络。Φv称作node update function用来更新节点特征,这里使用的是单层图卷积(见3.2)。
将最后一个CCGBlock输出的节点特征采用注意力机制(图4左边的GlobalAttention层,见3.3)生成表示整个共晶样本的嵌入向量。原始输入的全局状态G与这个嵌入向量连接(concatenate)得到最后表示整个共晶样本的特征向量。最后用ANN(图4左下方的Dense Layer)预测结果。
3.1 CCGBlock计算流程
整个计算过程(见图5)是首先Φg(这里是单层神经网络)变换样本分子水平的特征G(g1,g2):
Gout=Φg(G)=ReLU(WG+b)
将变换后的特征Gout和节点特征V融合,这里用的是连接(concatenate,用
Figure BDA0002619360410000121
符号表示)的方法。融合后的节点特征和邻接矩阵A输入Φv得到新的节点特征Vout
Figure BDA0002619360410000122
Figure BDA0002619360410000123
Figure BDA0002619360410000124
Figure BDA0002619360410000125
V′=(V1′,V2′)
Vout=Φv(V′)
CCGBlock计算过程以A,G,V做输入,对G和V做变换,A不做处理。CCGBlock的输入都有对应的输出,因此模型有很好的组合性,可以进行任意层数的堆叠。
3.2图卷积
本发明中使用的图卷积算法是Graph-CNN,定义如下:
Figure BDA0002619360410000131
其中,
Figure BDA0002619360410000132
表示输入节点特征Vin(是一个N×C矩阵,C表示节点特征数)的一列,
Figure BDA0002619360410000133
是经过卷积操作后输出的节点矩阵。b是偏置。H(c)是图卷积算符
Figure BDA0002619360410000134
的一个N×N的切片:
Figure BDA0002619360410000135
其中,L是邻接矩阵数量,l是邻接矩阵的索引,Al指第l个邻接矩阵。L个邻接矩阵堆积成N×N×L的张量。
Figure BDA0002619360410000136
表示第c个特征和第l个邻接矩阵的卷积滤波器。
这里本发明定义F个卷积滤波器,则图卷积算符H成为一个
Figure BDA0002619360410000137
的张量。
Figure BDA0002619360410000138
Figure BDA0002619360410000139
其中,
Figure BDA00026193604100001310
是第f个卷积滤波器得到节点矩阵。本发明连接F个卷积滤波器的结果得到
Figure BDA00026193604100001311
为了简洁的表达,考虑节点自环,本发明把整个Graph-CNN写成如下形式:
Vout=σ(W0I+GConv(VinF)+b);
其中,σ是ReLU激活函数;
Figure BDA00026193604100001312
是表示节点的单位矩阵;W0是可训练权重;
Figure BDA00026193604100001313
是偏置向量。
3.3 Global Attention
Readout function的作用是计算整个图的嵌入向量。在本发明引入globalattention作为Readout function(见图4左边)。global attention引入了注意力机制,根据各个节点的特征计算出各自的注意力系数。将各节点特征乘以对应的注意力系数后求和得到整个图的嵌入向量。
Figure BDA0002619360410000141
Figure BDA0002619360410000142
其中,
Figure BDA0002619360410000143
在本发明中是单层神经网络;
Figure BDA0002619360410000144
是由各节点注意力系数组成的N维向量(N是节点个数);vi指节点i的特征,是节点特征矩阵vin的第i行。xgraph是整个图的嵌入向量。
在本发明中,为了使模型的学习过程更加稳定,本发明提供的的globalattention使用的是多头注意力(Multi-Head Global Attention,MHGA)。多头注意力是平行计算K次注意力系数(前面的global attention只算了一次),从而使模型能够学习到不同的表示子空间中的不同位置的信息。MHGA经过K次计算得到K个版本的注意力系数从而产生K个图嵌入向量;最后将这K个图嵌入向量连接作为最后用于Dense Layer预测的图嵌入向量。
αk=softmax(φk(Vin));
这里φk是一个单层神经网络,αk是第k个版本的注意力系数,一个N维向量(N是节点数)。多头注意力的计算用下面公式表示:
Figure BDA0002619360410000145
其中,xgraph是多头注意力计算得到的图嵌入向量,是一个K×C的向量(C是节点特征维数);||表示向量的连接操作。在本发明中K=10。
4、结果与讨论
CCGNet在数据集上的表现并与其他模型比较见表4。
表4 CCGNet在数据集上的表现并与其他模型比较
Figure BDA0002619360410000146
Figure BDA0002619360410000151
4.1模型在共晶数据集上的表现
为了更好的体现CCGNet的优势,本发明引入几个传统的机器学习模型(SVM,RF,DNN)以及两个在生物化学领域有很好表现的图神经网络模型(NIC1,MPNN)。这里本发明使用了两个CCGNet模型:CCGNet-block(见图4)和CCGNet-simple。它们主要的区别是除了输入Dense Layer之前的连接操作,CCGNet-simple的图卷积和全局状态的变换是各自独立的。CCGNet-simple节点特征变换使用的5层图卷积,而GlobalState使用的是简单的三层神经网络。
由于共晶数据集样本的不均衡,正负样本比约6:1,本发明采用平衡准确率(BACC,Balanced Accuracy)作为模型性能的评估标准。BACC=(NACC+PACC)/2,PACC和NACC分别是正负样本的准确率。表4中显示的是各模型在独立验证集上的表现,本发明提供的模型性能提升巨大。CCGNet-simple和CCGNet-block的BACC显著高于其他模型。模型的正负样本准确率存在明显的差距。除CCGNet模型外,其他模型PACC和NACC的差超过了12%;而CCGNet模型低于5%。特别是CCGNet-block在计算过程中节点特征与全局状态的相互融合进一步地提高了性能,差距只有2.7%。这显示出本发明的模型在不均衡样本下有很好的鲁棒性。
此外,值得注意的是传统的机器学习模型SVM,除CCGNet模型之外取得了最好的性能表现,其BACC略高于MPNN。这说明以单纯的图作为输入的模型与经典的机器学习模型(ECFP指纹作为输入)相比没有优势。这也体现了有机共晶形成的复杂性:共晶不止与分子的2维拓扑结构有关还与分子整体的性质相关。所以单纯分子图组合不能很好地表征共晶样本,还需要在分子层面进行表征。而CCGNet使用了层次化的表征方法:分别从边,节点,图三个层面表征样本。本发明手动挑选了与共晶形成有关的描述符作为图层面的特征(即全局状态,global state);并且在计算过程中各层次的特征交互从而显著地提升了对共晶预测的准确率。
4.2迁移学习
由于含能共晶样本的缺乏并且与其他领域的共晶有区别,所以本发明采用迁移学习的方法获得有高预测性能的模型。用CC dataset预训练模型,再用含能共晶样本进行微调。表5显示CCGNet微调前后的性能提升是非常大的。CCGNet-block微调后的性能明显高于CCGNet-simple。
表5迁移前后模型性能对比
Figure BDA0002619360410000161
4.3预测结果
本次筛选的对象是HMX和CL-20。候选的共体分子一共有516个。
本发明将模型用共晶数据集做十倍交叉验证得到10个独立验证最佳的预训练模型。随后每个预训练模型用含能共晶数据集做五倍交叉验证,最后得到50个在含能共晶独立验证集表现最佳的模型。为了提高泛化能力,本发明采用集成学习的思想:将50个模型都用于预测,收集并统计每次预测为正样本且得分top20的结果。
5、结论
在本发明提出了一种基于图神经网络的共晶筛选方案,并由此构建了一个深度学习框架CCGNet;其预测性能大幅超越了传统的机器学习模型和经典的图神经网络模型。CCGNet框架有三个主要的创新点:
1.共晶的样本层次化表征:在边,节点,图三个层面表征不同层级的特征;
2.端到端的特征提取和手动挑选特征的结合:本发明手动挑选了与共晶形成相关的分子描述符与深度学习端到端提取的特征结合;
3.针对共晶特点设计的模型计算结构:在CCGBlock计算过程中节点特征和全局状态不断交互融合,进一步提高了模型性能。本发明的工作表明深度学习在化学中的应用需要根据具体的任务将深度学习端到端特征提取的灵活性和手动特征的针对性相结合,从而可以获得更好的模型性能。综上,CCGNet为共晶筛选提供了一种高通量和高准确率的解决方案,丰富了共晶工程的方法论,向实现数据驱动的共晶工程设计迈出了重要的一步。此外,本发明收集了大量可靠的共晶数据,为以后基于机器学习的共晶筛选工作提供了有力的数据支撑。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于图神经网络的共晶预测方法,其特征在于,所述基于图神经网络的共晶预测方法包括:
共晶样本收集:将具有长程和短程有序性的cocrystal定义为共晶正样本,将不具有长程有序性的固体eutectic和其他形式的固体作为负样本;
数据处理:将分子表示成图,将两个分子图组合表示共晶样本,成为共晶图;同时挑选描述分子整体信息的描述符作为全局状态输入模型;
数据集划分:共晶数据集划分10%做独立验证集,剩下的样本做十倍交叉验证;含能共晶数据集同样划分10%做独立验证集,剩下的样本则做5倍交叉验证;
引入迁移学习的计算策略,提出用于共晶筛选的图神经网络框架CCGNet,并在CCGNet框架下构建共晶的预测模型,进行共晶筛选。
2.如权利要求1所述的基于图神经网络的共晶预测方法,其特征在于,所述共晶正样本从剑桥数据库CCDC中筛选6829个,负样本从文献中收集1052个;所述含能共晶正样本收集151个;负样本来自九院实验结果以及FOX-7,RDX,EDTH,NTO与其他含能分子的组合,总共得到负样本843个。
3.如权利要求2所述的基于图神经网络的共晶预测方法,其特征在于,所述正样本的筛选满足以下条件:
1)必须包含两个不同的分子;
2)排除常见的溶剂;
3)必须有3D结构且没有disorder原子;
4)单个分子量必须小于700;
5)只包含C,H,O,N,P,S,Cl,Br,I,F,Si;
6)必须是中性分子,排除盐;
7)排除只含C,H,O,N并且包含硝基的样本,该部分作为含能共晶正样本。
4.如权利要求1所述的基于图神经网络的共晶预测方法,其特征在于,所述数据处理的方法包括:
(1)将分子表示成图:Graph=(E,V);E表示边的集合,V表示节点集合;节点代表原子,每个原子有对应的特征描述符;边表示共价键,每一条边也有对应的描述符;
(2)将两个分子图组合表示共晶样本,成为共晶图;因氢键和π-π堆积是分子间的主要相互作用;计算每个分子之间氢键受体和供体以及芳香原子;
(3)将分子1的氢键供体与分子2的氢键受体连接表示可能的氢键相互作用;同理,把分子1和分子2的芳香原子相连表示可能的π-π堆积;
(4)挑选描述分子整体信息的描述符作为全局状态输入模型。
5.如权利要求1所述的基于图神经网络的共晶预测方法,其特征在于,所述用于共晶筛选的图神经网络网框架CCGNet的结构中,A,G,V分别表示样本的邻接张量,全局状态,节点特征;其中全局状态是指分子水平上的特征;CCGBlock是模型主要计算单元,用于变换节点、边以及全局状态;
所述CCGBlock主要有两个函数构成:Φg和Φv;Φg称作global state function,用来变换分子的全局状态,使用单层神经网络;Φv称作node update function用来更新节点特征,使用单层图卷积;
将最后一个CCGBlock输出的节点特征采用注意力机制生成表示整个共晶样本的嵌入向量;原始输入的全局状态G与这个嵌入向量连接得到最后表示整个共晶样本的特征向量,最后用ANN预测结果。
6.如权利要求5所述的基于图神经网络的共晶预测方法,其特征在于,所述CCGBlock的计算流程包括:
(1)单层神经网络Φg变换样本分子水平的特征G:
G′=Φg(G)=ReLU(WG+b);
(2)将变换后的特征Gout和节点特征V融合,这里用的是连接的方法,融合后的节点特征和邻接矩阵A输入Φv得到新的节点特征Vout
Figure FDA0002619360400000021
Figure FDA0002619360400000022
Figure FDA0002619360400000023
Figure FDA0002619360400000031
V′=(V1′,V2′)
Vout=Φv(V′)
CCGBlock计算过程以A,G,V做输入,对G和V做变换,A不做处理;所述CCGBlock的输入都有对应的输出;
所述图卷积算法是Graph-CNN,定义如下:
Figure FDA0002619360400000032
其中,
Figure FDA0002619360400000033
表示输入节点特征的一列,Vin是一个N×C矩阵,C表示节点特征数;
Figure FDA0002619360400000034
是经过卷积操作后输出的节点矩阵;b是偏置;H(c)是图卷积算符
Figure FDA0002619360400000035
的一个N×N的切片:
Figure FDA0002619360400000036
其中,L是邻接矩阵数量,l是邻接矩阵的索引,Al指第l个邻接矩阵;L个邻接矩阵堆积成N×N×L的张量;
Figure FDA0002619360400000037
表示第c个特征和第l个邻接矩阵的卷积滤波器;
定义F个卷积滤波器,则图卷积算符H成为一个
Figure FDA0002619360400000038
的张量;
Figure FDA0002619360400000039
Figure FDA00026193604000000310
其中,
Figure FDA00026193604000000311
是第f个卷积滤波器得到节点矩阵;连接F个卷积滤波器的结果得到
Figure FDA00026193604000000312
整个Graph-CNN的形式为:
Vout=σ(W0I+GConv(Vin,F)+b);
其中,σ是ReLU激活函数;
Figure FDA00026193604000000313
是表示节点的单位矩阵;W0是可训练权重;
Figure FDA00026193604000000314
是偏置向量。
7.如权利要求5所述的基于图神经网络的共晶预测方法,其特征在于,所述Readoutfunction的作用是计算整个图的嵌入向量;引入global attention作为Readoutfunction;global attention引入了注意力机制,根据各个节点的特征计算出各自的注意力系数;将各节点特征乘以对应的注意力系数后求和得到整个图的嵌入向量;
Figure FDA0002619360400000041
Figure FDA0002619360400000042
其中,
Figure FDA0002619360400000043
在本发明中是单层神经网络;
Figure FDA0002619360400000044
是由各节点注意力系数组成的N维向量,N是节点个数;vi指节点i的特征,是节点特征矩阵vin的第i行;xgraph是整个图的嵌入向量;
所述global attention使用的是多头注意力;多头注意力是平行计算K次注意力系数,从而使模型能够学习到不同的表示子空间中的不同位置的信息;MHGA经过K次计算得到K个版本的注意力系数从而产生K个图嵌入向量;最后将这K个图嵌入向量连接作为最后用于Dense Layer预测的图嵌入向量;
αk=softmax(φk(Vin));
其中,φk是一个单层神经网络,αk是第k个版本的注意力系数,一个N维向量,N是节点数;多头注意力的计算公式表示为:
Figure FDA0002619360400000045
其中,xgraph是多头注意力计算得到的图嵌入向量,是一个K×C的向量(C是节点特征维数);||表示向量的连接操作;K=10。
8.一种应用如权利要求1~7任意一项所述的基于图神经网络的共晶预测方法的共晶体形成预测系统,其特征在于,所述共晶体形成预测系统包括:
共晶样本收集模块,用于从剑桥数据库中筛选得到共晶正样本,根据九院实验结果以及FOX-7,RDX,EDTH,NTO与其他含能分子的组合得到负样本;
数据处理模块,用于将分子表示成图,将两个分子图组合表示共晶样本,成为共晶图;同时挑选描述分子整体信息的描述符作为全局状态输入模型;
数据集划分模块,用于将共晶数据集划分10%做独立验证集,剩下的样本做十倍交叉验证;含能共晶数据集同样划分10%做独立验证集,剩下的样本则做5倍交叉验证;
预测模型构建模块,提出用于共晶筛选的图神经网络框架CCGNet,并在CCGNet框架下构建药物共晶的预测模型,进行共晶筛选。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
共晶样本收集:将具有长程和短程有序性的cocrystal定义为共晶正样本,将不具有长程有序性的固体eutectic和其他形式的固体作为负样本;
数据处理:将分子表示成图,将两个分子图组合表示共晶样本,成为共晶图;同时挑选描述分子整体信息的描述符作为全局状态输入模型;
数据集划分:共晶数据集划分10%做独立验证集,剩下的样本做十倍交叉验证;含能共晶数据集同样划分10%做独立验证集,剩下的样本则做5倍交叉验证;
引入迁移学习的计算策略,提出用于共晶筛选的图神经网络框架CCGNet,并在CCGNet框架下构建药物共晶的预测模型,进行共晶筛选。
10.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
共晶样本收集:将具有长程和短程有序性的cocrystal定义为共晶正样本,将不具有长程有序性的固体eutectic和其他形式的固体作为负样本;
数据处理:将分子表示成图,将两个分子图组合表示共晶样本,成为共晶图;同时挑选描述分子整体信息的描述符作为全局状态输入模型;
数据集划分:共晶数据集划分10%做独立验证集,剩下的样本做十倍交叉验证;含能共晶数据集同样划分10%做独立验证集,剩下的样本则做5倍交叉验证;
引入迁移学习的计算策略,提出用于共晶筛选的图神经网络框架CCGNet,并在CCGNet框架下构建药物共晶的预测模型,进行共晶筛选。
CN202010778523.4A 2020-08-05 2020-08-05 一种基于图神经网络的共晶预测方法、深度学习框架 Expired - Fee Related CN111882044B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010778523.4A CN111882044B (zh) 2020-08-05 2020-08-05 一种基于图神经网络的共晶预测方法、深度学习框架

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010778523.4A CN111882044B (zh) 2020-08-05 2020-08-05 一种基于图神经网络的共晶预测方法、深度学习框架

Publications (2)

Publication Number Publication Date
CN111882044A true CN111882044A (zh) 2020-11-03
CN111882044B CN111882044B (zh) 2021-09-14

Family

ID=73210795

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010778523.4A Expired - Fee Related CN111882044B (zh) 2020-08-05 2020-08-05 一种基于图神经网络的共晶预测方法、深度学习框架

Country Status (1)

Country Link
CN (1) CN111882044B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112435720A (zh) * 2020-12-04 2021-03-02 上海蠡图信息科技有限公司 一种基于自注意力机制与多药物特征组合的预测方法
CN113053457A (zh) * 2021-03-25 2021-06-29 湖南大学 一种基于多通路图卷积神经网络的药物靶标预测方法
CN113140267A (zh) * 2021-03-25 2021-07-20 北京化工大学 一种基于图神经网络的定向分子生成方法
CN113327652A (zh) * 2021-05-11 2021-08-31 扬州大学 一种基于注意力机制和晶体图卷神经网络的晶体性质预测和分类方法
CN113506591A (zh) * 2021-08-09 2021-10-15 北京思朗科技有限责任公司 共价键势的分配方法及系统
CN114462336A (zh) * 2022-04-11 2022-05-10 四川大学 一种核反应堆主管道冷却剂平均温度计算方法
CN114818948A (zh) * 2022-05-05 2022-07-29 北京科技大学 一种图神经网络的数据-机理驱动的材料属性预测方法
CN115762658A (zh) * 2022-11-17 2023-03-07 四川大学 基于图卷积神经网络的共晶密度预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104749337A (zh) * 2015-03-24 2015-07-01 沈阳理工大学 一种基于神经网络的铝合金变质效果在线检测方法及装置
CN108440456A (zh) * 2018-03-22 2018-08-24 中山万汉制药有限公司 奥利司他与有机酸钙的共晶体及包含该共晶体的药物组合物
US20190300466A1 (en) * 2017-12-11 2019-10-03 Artelo Biosciences, Inc. New solid forms of cannabidiol and uses thereof
CN111402967A (zh) * 2020-03-12 2020-07-10 中南大学 一种基于机器学习算法提升对接软件虚拟筛选能力的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104749337A (zh) * 2015-03-24 2015-07-01 沈阳理工大学 一种基于神经网络的铝合金变质效果在线检测方法及装置
US20190300466A1 (en) * 2017-12-11 2019-10-03 Artelo Biosciences, Inc. New solid forms of cannabidiol and uses thereof
CN108440456A (zh) * 2018-03-22 2018-08-24 中山万汉制药有限公司 奥利司他与有机酸钙的共晶体及包含该共晶体的药物组合物
CN111402967A (zh) * 2020-03-12 2020-07-10 中南大学 一种基于机器学习算法提升对接软件虚拟筛选能力的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MINOO SAXENA等: "Cocrystal formulation, characterization, and evaluation study", 《IEEE》 *
彭竹琴等: "基于BP神经网络的硼铸铁等离子熔凝硬化层性能预测", 《金属热处理》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112435720A (zh) * 2020-12-04 2021-03-02 上海蠡图信息科技有限公司 一种基于自注意力机制与多药物特征组合的预测方法
CN113053457A (zh) * 2021-03-25 2021-06-29 湖南大学 一种基于多通路图卷积神经网络的药物靶标预测方法
CN113140267A (zh) * 2021-03-25 2021-07-20 北京化工大学 一种基于图神经网络的定向分子生成方法
CN113140267B (zh) * 2021-03-25 2024-03-29 北京化工大学 一种基于图神经网络的定向分子生成方法
CN113327652A (zh) * 2021-05-11 2021-08-31 扬州大学 一种基于注意力机制和晶体图卷神经网络的晶体性质预测和分类方法
CN113327652B (zh) * 2021-05-11 2023-07-25 扬州大学 基于注意力机制和图卷积神经网络的晶体性质预测方法
CN113506591A (zh) * 2021-08-09 2021-10-15 北京思朗科技有限责任公司 共价键势的分配方法及系统
CN113506591B (zh) * 2021-08-09 2024-03-08 上海思朗科技有限公司 共价键势的分配方法及系统
CN114462336A (zh) * 2022-04-11 2022-05-10 四川大学 一种核反应堆主管道冷却剂平均温度计算方法
CN114818948A (zh) * 2022-05-05 2022-07-29 北京科技大学 一种图神经网络的数据-机理驱动的材料属性预测方法
CN114818948B (zh) * 2022-05-05 2023-02-03 北京科技大学 一种图神经网络的数据-机理驱动的材料属性预测方法
CN115762658A (zh) * 2022-11-17 2023-03-07 四川大学 基于图卷积神经网络的共晶密度预测方法

Also Published As

Publication number Publication date
CN111882044B (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN111882044B (zh) 一种基于图神经网络的共晶预测方法、深度学习框架
US20230281465A1 (en) Systems and Methods for Spatial Graph Convolutions with Applications to Drug Discovery and Molecular Simulation
Han et al. Training binary neural networks through learning with noisy supervision
Baldi et al. The principled design of large-scale recursive neural network architectures--dag-rnns and the protein structure prediction problem
CN110347932B (zh) 一种基于深度学习的跨网络用户对齐方法
Pujahari et al. Modeling side information in preference relation based restricted boltzmann machine for recommender systems
CN112287166B (zh) 一种基于改进深度信念网络的电影推荐方法及系统
KR102110176B1 (ko) 신약 후보 물질 도출 방법 및 장치
Nguyen et al. Perceiver CPI: a nested cross-attention network for compound–protein interaction prediction
Chen et al. Resistive-ram-based in-memory computing for neural network: A review
Tay et al. Feature-weighted elastic net: using “features of features” for better prediction
Du et al. Deep multiple non-negative matrix factorization for multi-view clustering
CN112216353B (zh) 一种用于预测药物-靶标相互作用关系的方法和设备
Zhao et al. CPGL: Prediction of compound-protein interaction by integrating graph attention network with long short-term memory neural network
Zhang et al. DBGRU-SE: predicting drug–drug interactions based on double BiGRU and squeeze-and-excitation attention mechanism
CN116384471A (zh) 模型剪枝方法、装置、计算机设备、存储介质和程序产品
Zhang et al. An ensemble latent factor model for highly accurate web service qos prediction
Li et al. An imbalanced ensemble learning method based on dual clustering and stage-wise hybrid sampling
Tang et al. Training Compact DNNs with ℓ1/2 Regularization
Fan et al. A Graph‐based One‐Shot Learning Method for Point Cloud Recognition
CN115511070A (zh) 模型训练方法、装置及可读存储介质
Tzacheva et al. MR-Apriori count distribution algorithm for parallel Action Rules discovery
Li et al. CUSNTF: A scalable sparse non-negative tensor factorization model for large-scale industrial applications on multi-GPU
WO2023108465A1 (zh) 虚拟筛选方法、装置及电子设备
Chen et al. Multi-index fusion via similarity matrix pooling for image retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210914