CN111710375B - 一种分子性质预测方法及系统 - Google Patents

一种分子性质预测方法及系统 Download PDF

Info

Publication number
CN111710375B
CN111710375B CN202010403158.9A CN202010403158A CN111710375B CN 111710375 B CN111710375 B CN 111710375B CN 202010403158 A CN202010403158 A CN 202010403158A CN 111710375 B CN111710375 B CN 111710375B
Authority
CN
China
Prior art keywords
functional
basis
model
molecules
vertex
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010403158.9A
Other languages
English (en)
Other versions
CN111710375A (zh
Inventor
马英晋
马硕
张宝花
刘倩
�金钟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Network Information Center of CAS
Original Assignee
Computer Network Information Center of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Network Information Center of CAS filed Critical Computer Network Information Center of CAS
Priority to CN202010403158.9A priority Critical patent/CN111710375B/zh
Publication of CN111710375A publication Critical patent/CN111710375A/zh
Application granted granted Critical
Publication of CN111710375B publication Critical patent/CN111710375B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出一种分子性质预测方法及系统,涉及量子化学/计算化学、化学信息学、机器学习/人工智能领域,在化学多世界阐释的框架下,使用密度泛函理论、化学信息学、机器学习/人工智能的手段,以分子结构、基组和泛函等信息作为输入,通过机器学习模型输出分子性质的预测结果。本发明对于任意类型的分子结构和任意的计算策略都可以做出预测,比一般的经验方法、回归分析方法更加精确。

Description

一种分子性质预测方法及系统
技术领域
本发明涉及量子化学/计算化学、化学信息学、机器学习/人工智能领域,具体为一种在化学多世界理论框架下,使用密度泛函理论、化学信息学、机器学习/人工智能的手段,预测未知分子性质的理论方法。
背景技术
分子的各种内禀性质计算在量子化学/计算化学中是核心问题之一。早期的解决方案是基于经验、半经验的模型哈密顿理论进行求解,例如休克尔分子轨道理论、经典价键理论。上世纪90年代开始,随着计算机软硬件的飞速发展,基于从头算哈密顿的理论方法占据了主要的地位,这些理论方法包括Hartree-Fock自洽场理论以及基于Hartree-Fock波函数的电子相关方法、密度泛函理论、基于格林函数的方法等。相对于Hartree-Fock等基于波函数的理论,密度泛函理论的最大区别就是用电子密度取代波函数,在此基础上对体系中的电子行为进行求解。因为多电子波函数有3n个变量(n为电子数,每个电子包含三个空间变量),而电子密度仅是三个变量的函数,无论在概念上还是实际上都更方便处理。虽然早期人们普遍认为密度泛函理论在量子化学计算中不能给出足够精确的结果,但是随着密度泛函理论中所采用的近似被重新提炼成更好的交换关联作用泛函,密度泛函方法的计算精度已经得到了很大的提升。当前密度泛函理论方法有着较低的理论计算标度(N3-4,N为体系大小)和较为可靠的精度,在计算化学领域已经发展为针对中小规模分子体系最为流行的理论计算方法。
一般来说,密度泛函方法计算至少需要选择交换关联泛函以及分子原子对应的基组模型。然而交换关联泛函至少有上百种,基组(某个原子所用基函数的组合,基函数为分子轨道线性展开时用到的独立基矢)的数目甚至更多于泛函的数目,而且无论泛函还是基组均有一定的可定制性。因此密度泛函计算中基组和泛函的组合可以认为有无限多种,这也导致科研工作者在相关性质的计算过程中要选择不同的基组和泛函进行计算测试;同时在特定泛函和基组下面得到的计算结果无法直接地外推到其他的泛函和基组组合下面。以上这些不便也极大的影响了科研工作者在该方面的工作效率。
发明内容
本发明的目的是提出一种分子性质预测方法及系统,在化学多世界理论框架下,使用密度泛函理论、化学信息学、机器学习/人工智能的手段,预测未知分子的各种性质。
为实现上述目的,本发明采用以下技术方案:
一种分子性质预测方法,包括以下步骤:
选取若干种已知结构的分子的收敛策略、泛函和基组作为训练数据,来训练机器学习模型:随机森林(RF)模型、双向长短期记忆网络(Bi-LSTM)模型、消息传递神经网络(MPNN)模型和多层图卷积神经网络(MGCN)模型中的一个或多个;
将待预测分子的分子结构信息(如SMILES编码)、收敛策略、泛函和基组作为输入信息,输入到机器学习模型中进行分子性质的预测,包括:
将分子的分子结构信息、泛函类型和基函数输入到RF模型中进行预测;
将独热形式的分子结构信息、泛函类型和基函数输入到Bi-LSTM模型中进行预测;
将分子结构信息输入到MPNN模型中进行预测;
将分子结构信息输入到MGCN模型中进行预测;
通过上述机器学习模型预测出分子的性质,作为初步预测结果;
如果输入信息中的泛函和基组属于已知空间,则将初步预测结果作为最终预测结果,否则采用近似策略根据初步预测结果推断分子的性质得到最终预测结果;该已知空间是指训练模型时已选的泛函和基组对应的结果空间,该结果空间是指一个给定结构的分子在确定了泛函和基组后所具有的状态集合。
一种分子性质预测系统,包括输入模块、预测模块、调度模块和输出模块,其中,
输入模块,负责将待预测分子的分子结构信息、收敛策略、泛函和基组作为输入信息进行输入;
预测模块,包括机器学习模型:RF模型、Bi-LSTM模型、MPNN模型和MGCN模型中的一个或多个;负责选取若干种已知结构的分子的收敛策略、泛函和基组作为训练数据,来训练机器学习模型,然后将输入信息输入到机器学习模型中进行分子性质的预测,输出初步预测结果;其中,RF模型根据分子的分子结构信息、泛函类型和基函数进行预测,Bi-LSTM模型根据独热形式的分子结构信息、泛函类型和基函数进行预测,MPNN模型根据分子结构信息进行预测,MGCN模型根据分子结构信息进行预测;
调度模块,负责将输入信息传递给预测模块,以及对预测模块输出的初步预测结果进行判断,并将得到的最终预测结果传递给输出模块;该判断为:如果输入信息中的泛函和基组属于已知空间,则将初步预测结果作为最终预测结果,否则采用近似策略根据初步预测结果推断分子的性质得到最终预测结果;该已知空间是指训练模型时已选的泛函和基组对应的结果空间,该结果空间是指一个给定结构的分子在确定了泛函和基组后所具有的状态集合;
输出模块,负责输出分子性质的最终预测结果。
本发明方法的优点在于:在本发明提出的化学多世界阐释的框架下,接收分子结构、基组和泛函等信息作为输入,输出分子性质的预测结果,对于任意类型的分子结构和任意的计算策略都可以做出预测,比一般的经验方法、回归分析方法更加精确。
附图说明
图1是智能预测系统的整体架构图。
图2是密度泛函理论下的化学多世界阐释示意图。
图3是RF的模型结构图。
图4是Bi-LSTM的模型结构图。
图5是MPNN的模型结构图。
图6是MGCN的模型结构图。
图7是调度模块的行为流程图。
图8是相似空间策略及超平面策略示意图。
具体实施方式
本发明受到量子力学中的多世界阐释(the many-worlds interpretation,缩写为MWI)的启发,提出密度泛函理论下的化学多世界阐释(the chemical MWI),并与化学信息学、机器学习/人工智能相结合,用以预测不同计算方案(交换关联泛函、基组)组合下的分子性质。
多世界阐释是由普林斯顿大学的Everett Hugh III在1957年提出,他假设所有的孤立系统的演化都遵循薛定谔方程且波函数不会坍塌,而量子的测量只能得到一种结果,也就是说量子处于叠加态。他认为测量与被测量的系统之间有某种关联,称之为相对态;同时其认为测量带来的不是坍塌,而是分裂的世界。1960-1970年代,该理论经由德克萨斯大学的Bryce DeWitt重新提出后,成为物理界的热门话题之一。
在本发明提出的化学多世界阐释中,假定密度泛函理论中需要求解的Kohn-Sham方程、化学分子集等为唯一的起点,不同基组和泛函的组合作为分裂产生不同世界的临界条件。每一个分裂的世界中均包含特定的泛函、基组等密度泛函理论下可计算得到的分子的各种内禀性质,例如分子的波函数、电负性、轨道能级、振子强度、计算机时等任何跟分子有联系的性质特征。
在本发明提出的化学多世界阐释的框架下,本发明进一步提出了结合化学信息学和机器学习/人工智能的分子性质预测方法及系统。本方法及系统接收分子结构、所采用的计算策略(基组和泛函的组合)作为输入,输出分子性质的预测结果,对于任意类型的分子结构和任意的计算策略都可以做出预测,比一般的经验方法、回归分析方法更加精确。
本实施例提供一种分子性质预测系统,结合分子性质预测方法实现分子性质的预测,本系统可划分为四个模块:输入模块、预测模块、调度模块、输出模块,系统整体架构如附图1所示,各个模块具体说明如下。
(1)输入模块
该模块负责接收用户输入信息,包括分子结构文件、计算策略(计算方法)、收敛策略(例如准牛顿方法、最陡下降法)、要使用的模型,并将这些信息传递给调度模块。
(2)预测模块
该模块内建四类机器学习/人工智能模型,分别是随机森林+前馈神经网络模型(random forest with feedforward neural networks,简称RF)、带有注意力机制的双向长短期记忆网络模型(bidirectional long short term memory with attention,简称Bi-LSTM)、消息传递神经网络模型(message passing neural network,简称MPNN)、多级图卷积神经网络模型(multi-level graph convolutional neural network,简称MGCN),根据需要选择哪一种或几种模型。这四种模型经过训练后,可以根据分子结构、基函数数目预测相应分子的各类性质。
四种模型的原理如下所述:
a)RF模型的结构如图3所示,其计算过程可分为输入、预处理、分类、拟合、输出五阶段。在输入阶段,模型接收分子的SMILES编码、泛函类型、基函数(标记为x)。在预处理阶段,基于分子的SMILES编码,统计出分子中的原子数、支链数、支链上原子数、环数、环上原子数、双键数,将这些信息拼接成一个表示分子结构特征的向量,并送入随即森林分类器。在分类阶段,随机森林分类器会给出输入的分子结构分别属于五种典型结构(线性结构、支链结构、环状结构、直链烯烃结构、聚苯结构)的概率(分别记为PL,PD,PR,PA,PP)。在拟合阶段,使用预训练的五个前馈神经网络模型(分别对应五种典型结构)基于基函数数目分别预测出性质参数(记为fL(x),fD(x),fR(x),fA(x),fP(x))。最后,模型输出的预测结果是各个子模块预测性质的叠加。例如对于线性的性质,该模型可以表示为
y=PL fL(x)+PDfD(x)+PRfR(x)+PAfA(x)+PPfP(x)
b)Bi-LSTM模型的结构如图4所示,可分为五个层次。首先是输入层,该层接收独热(one-hot)形式的SMILES编码、泛函类型、基函数(标记为x)作为输入,SMILES编码被送入词嵌入(Word Embedding)层。在词嵌入层,使用word2vec算法预训练一个权重矩阵(称为词嵌入,记为W),利用词嵌入将独热形式的SMILES编码转化为实数向量,并送入双向LSTM层(一层前向LSTM层,一层后向LSTM层)。双向LSTM层提取出SMILES中包含的高级结构特征,得到前向和后向两个输出向量(记为Hf和Hb)。接下来是Attention层,该层接收LSTM层输出向量之和作为输入(记为H,H=Hf+Hb),Attention层的输出记为向量c,
c=HaT
a=softmax(wTtanh(H))
最后是输出层,将Attention层的输出c和基函数x一起送入全连接网络进行拟合,得到最终的性质预测结果。
c)MPNN模型的结构如图5所示,其计算过程可分为输入、预处理、消息传递、读出、输出五个阶段。在输入阶段,根据分子结构信息将分子建模为图的形式(记为G),模型的输入包括G的顶点向量(记为xv)集合和边向量(evw)集合。每个顶点向量的分量保存该顶点对应原子的原子类型、是否在芳环上以及杂化类型,每个边向量保存这条边对应的化学键的类型。在预处理阶段xv通过一层网络(称为“顶点网络”)被转化为n×d维的矩阵(称为“点嵌入”),其中n是顶点数目,d是顶点网络隐藏层节点的维度。消息传递阶段对点嵌入执行T次卷积操作,第t次的卷积操作由消息函数Mt和顶点更新函数Ut来定义,顶点v的隐状态
Figure BDA0002490266490000051
由“消息”/>
Figure BDA0002490266490000052
来更新。因此,消息传递阶段所执行的操作可以归纳为:
Figure BDA0002490266490000053
Figure BDA0002490266490000054
其中,N(v)表示顶点v的邻域,Mt定义为M(hv,hw,eew)=A(evw)hw,w表示顶点,hw表示顶点w的隐状态,A(evw)是一个网络(称为“边网络”),evw表示顶点v和w连结成的边向量,将边向量evw映射为d×d的矩阵(称为“边嵌入”)。顶点更新函数Ut的具体形式是门控循环单元(gated recurrent unit,GRU)。在读出阶段,利用读出函数(readout function)R来得到图G的高层特征表示
Figure BDA0002490266490000055
Figure BDA0002490266490000056
其中R是set2set模型。在输出阶段,将
Figure BDA0002490266490000057
和泛函、基函数信息一起送入全连接网络进行拟合,得到分子性质的预测结果。
d)MGCN模型的结构如图6所示,其计算过程亦可分为输入、预处理、消息传递、读出、输出五个阶段。在输入阶段,根据分子结构信息将分子建模为图的形式(记为G),模型的输入包括G的顶点向量(记为a0)集合和边向量(e)集合。每个顶点向量的分量保存该顶点对应原子的原子类型、是否在芳环上以及杂化类型,每个边向量保存这条边对应的化学键的类型以及键长。在预处理阶段,由嵌入层将顶点向量集合和边向量集合转化为顶点嵌入
Figure BDA0002490266490000058
以及边嵌入/>
Figure BDA0002490266490000059
同时,径向基函数(radial basis function,RBF)层将键长转化为距离张量/>
Figure BDA00024902664900000510
D的分量dij代表原子i和j之间的距离。在消息传递阶段,交互层(interaction layer)被构建为层级结构的形式,目的是模拟原子之间的量子相互作用,记第l层交互层输出的边状态为/>
Figure BDA0002490266490000061
顶点状态为/>
Figure BDA0002490266490000062
则:
Figure BDA0002490266490000063
Figure BDA0002490266490000064
其中,N表示所有分子体系中所有的分子,dij表示原子i和j之间的距离;he是边状态更新函数,hv是顶点状态更新函数,he的具体形式为:
Figure BDA0002490266490000065
其中,η是一个常量,此处设为0.8,Wue是一个权重矩阵,
Figure BDA0002490266490000066
代表逐元素相加而⊙代表逐元素相乘。hv的具体形式为:
Figure BDA0002490266490000067
其中,v为图中表示原子的顶点,u为作为辅助的高斯径向基(Radial BasisFunction)里面的点,是用来辅助表示空间性质的参量;f表示函数,fa、fd、fe分别表示有关顶点、距离、边的函数;M(x)代表一层线性网络,为全连接层,其形式为M(x)=Wx+b,W是权重矩阵,x表示W后小括号中内容,b表示常数项,优化时b会被自动调整。之后,将T个交互层的输出
Figure BDA0002490266490000068
与初始的顶点状态/>
Figure BDA0002490266490000069
拼接起来,得到向量ai。之后,再读出阶段产生图G的高层特征表示g:
Figure BDA00024902664900000610
式中,r表示MGCN模型最后的readout层里的权重矩阵,在模型训练过程中会自动优化;σ代表softplus函数,为激活函数。在输出阶段,将高层特征表示g和基函数数目一起送入全连接网络进行拟合,得到分子性质的预测结果。
(3)调度模块
该模块主要负责与预测模块的机器学习/人工智能模型库进行交互,其行为视输入模块传递而来的用户输入信息而定。为便于说明,将一个给定结构的分子在确定了计算策略后所具有的状态集合称为一个“结果空间”,每一个结果空间对应于一种性质计算方案,即特定的收敛策略、特定的泛函以及基组的组合。选取若干种收敛策略、泛函和基组的组合,针对每种组合训练若干种机器学习模型,并封装于预测模块中。将已选的泛函和基组的组合对应的结果空间称为“已知空间”,将已知空间之外的结果空间称为“未知空间”。
调度模块的行为可如下所述:
1)若输入信息中泛函和基组信息属于已知空间,则调度模块直接将输入信息传递给机器学习模型库中相应的模型,模型接收根据输入信息进行推断,并将预测结果返回给调度模块,调度模块将预测结果传递给输出模块。
2)若输入信息中泛函和基组信息属于未知空间,则调度模块将采用近似策略推断分子的性质预测结果。近似策略分为两类:
a)相似空间策略
这种处理方式基于基组相似性或泛函相似性,比较适用于输入分子采用的基组、泛函其一已知(“已知”指基组或泛函包含于已知空间中),另一未知的情况。此处的基组相似性是指两个基组虽然类型不同,但是基函数数目相同。泛函相似性是指两个泛函属于同一类别的情形。对于给定的输入分子,如果其基组已知、泛函未知,则必定可以在已知空间中找出与其基组相同、泛函相似的空间,此时调度模块从预测模块中调用相应模型得到预测结果,并将结果传递给输出模块。
b)超平面(拟合)策略
这种策略对应于输入分子采用的基组、泛函未知的情况。由于同种分子可以作为纽带分子将不同的化学世界连接起来,纽带分子构成的空间即为超平面。在超平面内,可以使用简单拟合或者如前所述的机器学习的方法推导出同一分子的性质特征在不同结果空间里面的渐变关系。经由多个纽带分子,可以平均出较为普适的分子性质特征在不同结果空间里面的渐变关系。在渐变关系已知的基础上,可以通过少数内置的上述模型的数据,推断出任意结果空间内待预测分子的性质特征。
(4)输出模块
输出模块接收调度模块传来的预测结果,并将结果输出。
本实施例的分子性质预测系统采用python语言实现,系统支持SDF格式的分子文件作为输入,借助RDkit模块。本系统基于SDF格式的分子文件构建python支持的对象类型。此外,在输入时还需指定分子采用的泛函和基组类型。基组类型确定后,系统借助“BasisSet Exchange”量子化学数据库提供的信息计算相应的基函数数目。其中RF模型的随机森林分类器使用scikit-learn模块实现,五种前馈神经网络使用TensorFlow深度学习框架实现。Bi-LSTM、MPNN和MGCN模型全部使用PyTorch深度学习框架实现。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,本发明的保护范围以权利要求所述为准。

Claims (9)

1.一种分子性质预测方法,其特征在于,包括以下步骤:
选取若干种已知结构的分子的收敛策略、泛函和基组作为训练数据,来训练机器学习模型,该机器学习模型包括随机森林RF模型、双向长短期记忆网络Bi-LSTM模型、消息传递神经网络MPNN模型和多层图卷积神经网络MGCN模型中的一个或多个;
将待预测分子的分子结构信息、收敛策略、泛函和基组作为输入信息,输入到机器学习模型中进行分子性质的预测,包括:
将分子的分子结构信息、泛函类型和基函数输入到RF模型中进行预测;
将独热形式的分子结构信息、泛函类型和基函数输入到Bi-LSTM模型中进行预测;
将分子结构信息输入到MPNN模型中进行预测;
将分子结构信息输入到MGCN模型中进行预测;
通过上述机器学习模型预测出分子的性质,作为初步预测结果;
如果输入信息中的泛函和基组属于已知空间,该已知空间是指训练模型时已选的泛函和基组对应的结果空间,该结果空间是指一个给定结构的分子在确定了泛函和基组后所具有的状态集合,则将初步预测结果作为最终预测结果,否则采用近似策略根据初步预测结果推断分子的性质得到最终预测结果;
该近似策略选用相似空间策略或超平面策略;该相似空间策略为:对于分子的基组或泛函一个已知一个未知的情况,基于基组相似性或泛函相似性,该基组相似性是指两个类型不同的基组的基函数数目相同,该泛函相似性是指两个泛函属于同一类别,对于给定的输入分子,如果其基组已知、泛函未知,则可在已知空间中找出与其基组相同、泛函相似的空间,则直接调用相应的机器学习模型预测分子的性质;该超平面策略为:对于分子的基组和泛函都未知的情况,由同种分子作为纽带分子构成超平面空间,在超平面内使用简单拟合或者机器学习的方法推导出同一分子的性质特征在不同结果空间里面的渐变关系;通过多个纽带分子平均出最为普适的分子性质特征在不同结果空间里面的渐变关系;基于该渐变关系,通过机器学习模型数据,推断出任意结果空间内待预测分子的性质。
2.如权利要求1所述的方法,其特征在于,分子结构信息包括SMILES编码。
3.如权利要求2所述的方法,其特征在于,RF模型预测分子性质的步骤包括:
接收分子的SMILES编码、泛函类型、基函数;
基于分子的SMILES编码,统计出分子中的原子数、支链数、支链上原子数、环数、环上原子数、双键数,并拼接成一个表示分子结构特征的向量,送入随即森林分类器;
随机森林分类器给出输入的分子结构分别属于线性结构、支链结构、环状结构、直链烯烃结构、聚苯结构这五种典型结构的概率;
基于基函数数目,利用预训练的分别对应五种典型结构的五个前馈神经网络模型,分别预测出分子性质参数;
将五个模型预测出的分子性质参数进行叠加,得到预测的分子性质。
4.如权利要求2所述的方法,其特征在于,Bi-LSTM模型预测分子性质的步骤包括:
接收独热形式的SMILES编码、泛函类型、基函数;
利用word2vec算法预训练一个权重矩阵,利用该矩阵将独热形式的SMILES编码转化为实数向量,并送入双向LSTM层;
通过双向LSTM层提取出SMILES中包含的结构特征,得到前向和后向两个输出向量;
通过Attention层将双向LSTM层的两个输出向量之和作为输入,经过处理输出新的向量;
将新的向量和基函数送入全连接网络进行拟合,得到预测的分子性质。
5.如权利要求1所述的方法,其特征在于,MPNN模型预测分子性质的步骤包括:
根据分子结构信息将分子建模为图G的形式,将图G的顶点向量集合和边向量集合作为输入,其中每个顶点向量的分量保存该顶点对应原子的原子类型、是否在芳环上以及杂化类型,每个边向量保存这条边对应的化学键的类型;
顶点向量通过一层顶点网络进行点嵌入,转化为n×d维的矩阵,其中n顶点数目,d是顶点网络隐藏层节点的维度;
对点嵌入执行多次卷积操作,得到图G的高层特征表示;
将高层特征表示和泛函、基函数信息送入全连接网络进行拟合,得到预测的分子性质。
6.如权利要求5所述的方法,其特征在于,对点嵌入执行多次卷积操作,得到图G的高层特征表示的方法为:
第t次的卷积操作由消息函数Mt和顶点更新函数Ut定义,顶点v的隐状态
Figure FDA0004232719500000021
由消息
Figure FDA0004232719500000022
更新,则卷积操作表示为:
Figure FDA0004232719500000023
Figure FDA0004232719500000024
其中,N(v)表示顶点v的邻域,Mt定义为M(hv,hw,eew)=A(evw)hw,w表示顶点,hw表示顶点w的隐状态,A(evw)是一个边网络,evw表示顶点v和w连结成的边向量,将边向量evw映射为d×d的矩阵,顶点更新函数Ut为门控循环单元;
利用set2set模型R得到图G的高层特征表示
Figure FDA0004232719500000025
Figure FDA0004232719500000031
7.如权利要求1所述的方法,其特征在于,MGCN模型预测分子性质的步骤包括:
根据分子结构信息将分子建模为图G的形式,将图G的顶点向量集合和边向量集合作为输入,其中每个顶点向量的分量保存该顶点对应原子的原子类型、是否在芳环上以及杂化类型,每个边向量保存这条边对应的化学键的类型以及键长;
将顶点向量集合和边向量集合转化为顶点嵌入矩阵和边嵌入矩阵,将键长转化为距离张量,该张量的分量代表原子之间的距离;
利用构建为层级结构的形式的交互层得到图G的高层特征表示;
将高层特征表示和基函数数目送入全连接网络进行拟合,得到预测的分子性质。
8.如权利要求7所述的方法,其特征在于,利用交互层得到图G的高层特征表示的方法为:记第l层交互层输出的边状态为
Figure FDA0004232719500000032
顶点状态为/>
Figure FDA0004232719500000033
i和j表示两个原子,则:
Figure FDA0004232719500000034
Figure FDA0004232719500000035
其中,N表示所有分子体系中所有的分子,dij表示原子i和j之间的距离;he是边状态更新函数,具体形式为:
Figure FDA0004232719500000036
其中,η是一个常量,Wue是一个权重矩阵,
Figure FDA0004232719500000037
代表逐元素相加,⊙代表逐元素相乘;
其中,hv是顶点状态更新函数,具体形式为:
Figure FDA0004232719500000038
其中,v为图中表示原子的顶点,u为高斯径向基里面的点;f表示函数,fa、fd、fe分别表示有关顶点、距离、边的函数;M(x)代表一层线性网络,为全连接层,其形式为M(x)=Wx+b,W是权重矩阵,x表示W后小括号中内容,b表示常数项;
将T个交互层的输出
Figure FDA0004232719500000039
与初始的顶点状态/>
Figure FDA00042327195000000310
拼接起来,得到向量ai
则图G的高层特征表示g:
Figure FDA00042327195000000311
其中,r表示MGCN模型最后的readout层里的权重矩阵;σ代表softplus函数,为激活函数。
9.一种分子性质预测系统,其特征在于,包括:
输入模块,负责将待预测分子的分子结构信息、收敛策略、泛函和基组作为输入信息进行输入;
预测模块,包括机器学习模型,该机器学习模型包括随机森林RF模型、双向长短期记忆网络Bi-LSTM模型、消息传递神经网络MPNN模型和多层图卷积神经网络MGCN模型中的一个或多个;负责选取若干种已知结构的分子的收敛策略、泛函和基组作为训练数据,来训练机器学习模型,然后将输入信息输入到机器学习模型中进行分子性质的预测,输出初步预测结果;其中,RF模型根据分子的分子结构信息、泛函类型和基函数进行预测,Bi-LSTM模型根据独热形式的分子结构信息、泛函类型和基函数进行预测,MPNN模型根据分子结构信息进行预测,MGCN模型根据分子结构信息进行预测;
调度模块,负责将输入信息传递给预测模块,以及对预测模块输出的初步预测结果进行判断,并将得到的最终预测结果传递给输出模块;该判断为:如果输入信息中的泛函和基组属于已知空间,该已知空间是指训练模型时已选的泛函和基组对应的结果空间,该结果空间是指一个给定结构的分子在确定了泛函和基组后所具有的状态集合,则将初步预测结果作为最终预测结果,否则采用近似策略根据初步预测结果推断分子的性质得到最终预测结果;该近似策略选用相似空间策略或超平面策略;该相似空间策略为:对于分子的基组或泛函一个已知一个未知的情况,基于基组相似性或泛函相似性,该基组相似性是指两个类型不同的基组的基函数数目相同,该泛函相似性是指两个泛函属于同一类别,对于给定的输入分子,如果其基组已知、泛函未知,则可在已知空间中找出与其基组相同、泛函相似的空间,则直接调用相应的机器学习模型预测分子的性质;该超平面策略为:对于分子的基组和泛函都未知的情况,由同种分子作为纽带分子构成超平面空间,在超平面内使用简单拟合或者机器学习的方法推导出同一分子的性质特征在不同结果空间里面的渐变关系;通过多个纽带分子平均出最为普适的分子性质特征在不同结果空间里面的渐变关系;基于该渐变关系,通过机器学习模型数据,推断出任意结果空间内待预测分子的性质;
输出模块,负责输出分子性质的最终预测结果。
CN202010403158.9A 2020-05-13 2020-05-13 一种分子性质预测方法及系统 Active CN111710375B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010403158.9A CN111710375B (zh) 2020-05-13 2020-05-13 一种分子性质预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010403158.9A CN111710375B (zh) 2020-05-13 2020-05-13 一种分子性质预测方法及系统

Publications (2)

Publication Number Publication Date
CN111710375A CN111710375A (zh) 2020-09-25
CN111710375B true CN111710375B (zh) 2023-07-04

Family

ID=72537388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010403158.9A Active CN111710375B (zh) 2020-05-13 2020-05-13 一种分子性质预测方法及系统

Country Status (1)

Country Link
CN (1) CN111710375B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112147473A (zh) * 2020-09-28 2020-12-29 哈尔滨理工大学 一种高绝缘强度气体的筛选方法
CN112162182A (zh) * 2020-09-28 2021-01-01 哈尔滨理工大学 一种基于神经网络的气体介电强度预测方法
CN112669916B (zh) * 2020-12-25 2022-03-15 浙江大学 一种基于对比学习的分子图表示学习方法
CN112634992A (zh) * 2020-12-29 2021-04-09 上海商汤智能科技有限公司 分子性质预测方法及其模型的训练方法及相关装置、设备
CN113241128B (zh) * 2021-04-29 2022-05-13 天津大学 基于分子空间位置编码注意力神经网络模型的分子性质预测方法
CN113299354B (zh) * 2021-05-14 2023-06-30 中山大学 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
CN113707213B (zh) * 2021-09-08 2024-03-08 上海交通大学 基于对比图神经网络的蛋白质结构快速分类方法
WO2023065220A1 (zh) * 2021-10-21 2023-04-27 深圳阿尔法分子科技有限责任公司 一种基于深度学习的化学分子相关水溶性预测方法
CN114093435A (zh) * 2021-10-21 2022-02-25 深圳阿尔法分子科技有限责任公司 一种基于深度学习的化学分子相关水溶性预测方法
CN115171807B (zh) * 2022-09-07 2022-12-06 合肥机数量子科技有限公司 一种分子编码模型训练方法、分子编码方法和系统
CN115859597B (zh) * 2022-11-24 2023-07-14 中国科学技术大学 基于杂化泛函和第一性原理的分子动力学模拟方法和系统
CN115862751B (zh) * 2023-02-16 2023-06-27 泉州装备制造研究所 基于边特征更新聚合注意力机制的量子化学性质计算方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9373059B1 (en) * 2014-05-05 2016-06-21 Atomwise Inc. Systems and methods for applying a convolutional network to spatial data
JP2019020791A (ja) * 2017-07-12 2019-02-07 国立大学法人岐阜大学 毒性予測方法及びその利用
WO2019048965A1 (ja) * 2017-09-06 2019-03-14 株式会社半導体エネルギー研究所 物性予測方法および物性予測システム
CN109887541A (zh) * 2019-02-15 2019-06-14 张海平 一种靶点蛋白质与小分子结合预测方法及系统
CN110459274A (zh) * 2019-08-01 2019-11-15 南京邮电大学 一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用
CN110600085A (zh) * 2019-06-01 2019-12-20 重庆大学 一种基于Tree-LSTM的有机物物理化学性质预测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180172667A1 (en) * 2015-06-17 2018-06-21 Uti Limited Partnership Systems and methods for predicting cardiotoxicity of molecular parameters of a compound based on machine learning algorithms
US11727282B2 (en) * 2018-03-05 2023-08-15 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for spatial graph convolutions with applications to drug discovery and molecular simulation

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9373059B1 (en) * 2014-05-05 2016-06-21 Atomwise Inc. Systems and methods for applying a convolutional network to spatial data
JP2019020791A (ja) * 2017-07-12 2019-02-07 国立大学法人岐阜大学 毒性予測方法及びその利用
WO2019048965A1 (ja) * 2017-09-06 2019-03-14 株式会社半導体エネルギー研究所 物性予測方法および物性予測システム
CN109887541A (zh) * 2019-02-15 2019-06-14 张海平 一种靶点蛋白质与小分子结合预测方法及系统
CN110600085A (zh) * 2019-06-01 2019-12-20 重庆大学 一种基于Tree-LSTM的有机物物理化学性质预测方法
CN110459274A (zh) * 2019-08-01 2019-11-15 南京邮电大学 一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Sheng Wang 等.SMILES-BERT: Large Scale Unsupervised Pre-Training for Molecular Property Prediction.Proceedings of the 10th ACM International Conference on Bioinformatics, Computational Biology and Health Informatics.2019,429–436. *
张利娟.基于密度泛函理论的多取代苯胺混凝土钢筋阻锈剂缓蚀效率预测.混凝土与水泥制品.2017,(第9期),16-21. *
王晓东.基于图数据挖掘的化合物性质预测方法研究.中国优秀硕士学位论文全文数据库 信息科技辑.2019,(第1期),I138-1981. *
王正国.机器学习方法用于选择性环氧化酶-2抑制剂活性预测模型的建立.中国优秀硕士学位论文全文数据库 工程科技I辑.2008,(第5期),B016-146. *
王金莲 等.基于基因表达谱的白血病分子预测模型研究.北京工业大学学报.2009,(第03期), *

Also Published As

Publication number Publication date
CN111710375A (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
CN111710375B (zh) 一种分子性质预测方法及系统
Alzubaidi et al. A survey on deep learning tools dealing with data scarcity: definitions, challenges, solutions, tips, and applications
CN111291836B (zh) 一种生成学生网络模型的方法
Javadi et al. A hybrid intelligent genetic algorithm
Ma et al. Adaptive-step graph meta-learner for few-shot graph classification
CN111079931A (zh) 一种基于图神经网络的状态空间概率性多时间序列预测方法
CN111710376B (zh) 大分子及团簇体系分块计算负载均衡方法及系统
CN112926303A (zh) 一种基于BERT-BiGRU的恶意URL检测方法
CN113094822A (zh) 一种机械设备剩余寿命预测方法和系统
Myllymäki et al. Massively parallel case-based reasoning with probabilistic similarity metrics
Joshi et al. A survey of fractional calculus applications in artificial neural networks
CN112347756A (zh) 一种基于序列化证据抽取的推理阅读理解方法及系统
JPWO2019229931A1 (ja) 情報処理装置、制御方法、及びプログラム
CN112464996A (zh) 基于LSTM-XGBoost的智能电网入侵检测方法
Cheng et al. Towards automatic discovering of deep hybrid network architecture for sequential recommendation
CN114821218A (zh) 基于改进的通道注意力机制的目标检测模型搜索方法
Wu et al. Generative design for resilience of interdependent network systems
Varshitha et al. Natural language processing using convolutional neural network
WO2023179609A1 (zh) 一种数据处理方法及装置
Khosla et al. A comparison of computational efforts between particle swarm optimization and genetic algorithm for identification of fuzzy models
Özbakir et al. TACO-miner: An ant colony based algorithm for rule extraction from trained neural networks
CN116611504A (zh) 一种基于进化的神经架构搜索方法
CN113505937B (zh) 一种基于多视角编码器的法律判决预测系统及方法
CN115795035A (zh) 基于进化神经网络的科技服务资源分类方法、系统及其计算机可读存储介质
Zhang et al. Tuning extreme learning machine by an improved electromagnetism-like mechanism algorithm for classification problem

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant