CN108804869B - 基于神经网络的分子结构和化学反应能量函数构建方法 - Google Patents

基于神经网络的分子结构和化学反应能量函数构建方法 Download PDF

Info

Publication number
CN108804869B
CN108804869B CN201810420969.2A CN201810420969A CN108804869B CN 108804869 B CN108804869 B CN 108804869B CN 201810420969 A CN201810420969 A CN 201810420969A CN 108804869 B CN108804869 B CN 108804869B
Authority
CN
China
Prior art keywords
neural network
chemical reaction
energy
training
molecular
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810420969.2A
Other languages
English (en)
Other versions
CN108804869A (zh
Inventor
张佩宇
方栋
杨明俊
马健
赖力鹏
温书豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhiyao Technology Co.,Ltd.
Shenzhen Jingtai Technology Co Ltd
Original Assignee
Shenzhen Zhiyao Technology Co ltd
Shenzhen Jingtai Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhiyao Technology Co ltd, Shenzhen Jingtai Technology Co Ltd filed Critical Shenzhen Zhiyao Technology Co ltd
Priority to CN201810420969.2A priority Critical patent/CN108804869B/zh
Publication of CN108804869A publication Critical patent/CN108804869A/zh
Application granted granted Critical
Publication of CN108804869B publication Critical patent/CN108804869B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Medicines Containing Antibodies Or Antigens For Use As Internal Diagnostic Agents (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于量子化学技术领域,具体涉及一种基于神经网络的分子结构和化学反应能量函数构建方法,包括对分子或化学反应的各个自由度进行取样;通过量化计算寻找低能构象结构;对结构进行能量计算,准备训练集和测试集;选取合适的坐标表示结构;针对不同的坐标,构建不同的特征来描述结构;选取合适的神经网络;选取合适的方法对神经网络进行训练;训练完成后,在测试集进行误差统计,当误差小于1.0 kcal/mol时,训练结束;如果误差大于1.0 kcal/mol,则遵循重新寻找模型。本发明得到的构象能和反应能等精度更高,可以广泛的应用于量子动力学和分子动力学过程中;既可以模拟单分子构象,也可以模拟化学反应,包括分子内或分子间的断键和生成。

Description

基于神经网络的分子结构和化学反应能量函数构建方法
技术领域
本发明属于量子化学技术领域,具体涉及一种基于神经网络的分子结构和化学反应能量函数构建方法,通过反向传播神经网络构建势能面。
背景技术
分子的结构在化学(比如说有机化学反应、构象多晶型)、生物(比如药物分子活性构象、酶催化反应)具有决定性的作用。有机分子的结构不是静态的,具有各种构象自由度包括转动、拉伸、弯曲等运动。分子反应过程中存在分子之间的距离、相对取向、键的生成和断裂等。每个结构会对应不同的能量。分子的构象变化和化学反应对能量非常敏感。分子结构变化可以描述为在能量函数上运动,因此需要对能量函数进行很高精度的描述。
目前,描述有机分子的结构和反应,大多数是采用分子力场的方法。主要包括:
经典力场,为了描述分子内相互作用和分子间相互作用,人们设计了一种比较通用的函数性。这个函数形式包括键长、键角、二面角等相互作用项,同时也描述点电荷或极化作用的静电相互作用项、和描述排斥、色散相互作用的VDW项。经典力场的优势在于生物大分子的计算,在小分子结构的构象能误差通常有2-3kcal/mol,较低的精度限制了化学或生物中的工业应用。同时,经典力场不考虑键的断裂和生成,不能用来模拟反应。
反应力场,利用键极描述键的断裂和生成。键级可以直接从原子间距离得到。键级的函数由数个指数函数和修正因子组成。通常用来进行分子动力学模拟反应过程。目前反应力场主要是为烃类反应、含能材料、燃烧等模拟过程中。反应力场的函数形式很复杂,许多函数项都有特定的物理意义,不利于更进一步的开发和改进。
发明内容
针对上述技术问题,本发明提供一种基于神经网络的分子结构和化学反应能量函数构建方法,可以用于模拟分子结构和化学反应。所采用的技术方案为:
基于神经网络的分子结构和化学反应能量函数构建方法,包括以下步骤:
(1)对分子或化学反应的各个自由度进行取样;所述的对分子或化学反应的各个自由度进行取样,包括:对于分子,首先进行异构分析,寻找所有的异构,然后对每一个异构进行构象采样;对于化学反应,在分子取样的基础上,还需对参与化学反应的两个分子之间的距离、方位进行取样。
(2)通过量化计算寻找低能构象结构;对于化学反应,还包括通过量化计算得到可能的反应路径。
(3)对结构进行能量计算,准备训练集和测试集;
(4)选取合适的坐标表示结构;所述的坐标包括内坐标、笛卡尔坐标、球坐标。
(5)针对不同的坐标,构建不同的特征来描述结构;所述的特征包括原子间距离、键角、二面角、静电相互作用能、VDW相互作用能、键级。
(6)选取合适的神经网络;所述的神经网络包括全连接神经网络和卷积神经网络,神经网络的激活函数包括sigmoid和ReLU。
(7)选取合适的方法对神经网络进行训练;所述的训练策略包括代价函数的选择、学习率、参与训练的参数规模。
(8)训练完成后,在测试集进行误差统计,当误差小于1.0kcal/mol时,训练结束;如果误差大于1.0kcal/mol,则重新寻找模型。重新寻找模型遵循下列顺序:1)修改训练策略;2)修改神经网络模型;3)修改特征;4)更换坐标系;4)增大训练集。
本发明提供的基于神经网络的分子结构和化学反应能量函数构建方法,具有的技术效果有:
(1)精度高,相比于传统的力场,本发明得到的构象能和反应能等精度更高,可以广泛的应用于量子动力学和分子动力学过程中。
(2)易于扩展,不需要拘泥于现有的传统的函数形式。同时既可以模拟单分子构象,也可以模拟化学反应,包括分子内或分子间的断键和生成。
附图说明
图1是本发明的方法流程图;
图2是实施例的量子化学能量和力场能量比较;
图3是实施例的神经网络架构;
图4是实施例的在训练集上量子化学能量和用神经网络训练的模型的能量比较;
图5是实施例的在测试集上量子化学能量和用神经网络训练的模型的能量比较。
具体实施方式
结合实施例说明本发明的具体技术方案。
TASELISIB是PIK3CA的选择性抑制剂,结构式为:
Figure BDA0001650676960000031
这个分子含有62个原子,分子量有460.542g/mol,分子有6个可以转动的柔性单键,一个比较大的柔性环。对这个体系进行了量子化学计算,得到了2138个构象的密度泛函能量。
实施例采用如图1所示的流程。
从通用力场参数库中提取了分子的力场。用2138个结构计算了分子力场能量,计算结果如图2所示。线性拟合后的可决系数是0.2942。可决系数的定义是1减去y对回归方程的方差与y的总方差比值:
Figure BDA0001650676960000032
可决系数的值越接近于1,代表模型计算得到的能量与精确的量子化学能量的相关性越好。计算得到的均方根误差是6.48kcal/mol,远远超过了化学精度的1kcal/mol,降低了后续的动力学模拟和药物设计等工作的可信度。
把2138个数据中的90%的数据,即1925个数据作为训练集,训练神经网络。剩下的213个结构作为测试集,测试神经网络得到的能量函数准确性。
在该实施例中,采用了内坐标来表示分子结构。每个原子通过键连接的近邻、次近邻和次次近邻的原子距离作为神经网络的输入构建反馈神经网络,如图3所示,网络分为输入层,四个隐藏层和一个输出层组成。隐藏层的节点数为30*30*30*20,输出值为分子能量。
图4表明了神经网络在训练集上得到的能量和精确的量子化学能量比较。线性拟合后的可决系数是0.95505。均方根误差是0.65kcal/mol,小于化学精度的1kcal/mol。
利用该模型,在测试集上进行了模拟,计算结果在图5中。在测试集上,线性拟合后的可决系数是0.93543。均方根误差是0.79kcal/mol,仍然小于化学精度的1kcal/mol。因此,该能量可用于后续的构象采样和药物设计等工作。

Claims (6)

1.基于神经网络的分子结构和化学反应能量函数构建方法,其特征在于,包括以下步骤:
(1)对分子或化学反应的各个自由度进行取样;所述的对分子或化学反应的各个自由度进行取样,包括:对于分子,首先进行异构分析,寻找所有的异构,然后对每一个异构进行构象采样;对于化学反应,在分子取样的基础上,还需对参与化学反应的两个分子之间的距离、方位进行取样;
(2)通过量化计算寻找低能构象结构;对于化学反应,还包括通过量化计算得到可能的反应路径;
(3)对结构进行能量计算,准备训练集和测试集;
(4)选取合适的坐标表示结构;
(5)针对不同的坐标,构建不同的特征来描述结构;
(6)选取合适的神经网络模型;
(7)选取训练策略对神经网络模型进行训练;
(8)训练完成后,在测试集进行误差统计,当误差小于1.0 kcal/mol时,训练结束;如果误差大于1.0 kcal/mol,则重新寻找模型。
2.根据权利要求1所述的基于神经网络的分子结构和化学反应能量函数构建方法,其特征在于,步骤(4)所述的坐标包括内坐标、笛卡尔坐标、球坐标。
3.根据权利要求1所述的基于神经网络的分子结构和化学反应能量函数构建方法,其特征在于,步骤(5)所述的特征包括原子间距离、键角、二面角、静电相互作用能、VDW相互作用能、键级。
4.根据权利要求1所述的基于神经网络的分子结构和化学反应能量函数构建方法,其特征在于,步骤(6)所述的神经网络包括全连接神经网络和卷积神经网络,神经网络的激活函数包括sigmoid和ReLU。
5.根据权利要求1所述的基于神经网络的分子结构和化学反应能量函数构建方法,其特征在于,步骤(7)所述的训练策略包括代价函数的选择、学习率、参与训练的参数规模。
6.根据权利要求1所述的基于神经网络的分子结构和化学反应能量函数构建方法,其特征在于,步骤(8)重新寻找模型遵循下列顺序:1)修改训练策略;2)修改神经网络模型;3)修改特征;4)更换坐标系;5)增大训练集。
CN201810420969.2A 2018-05-04 2018-05-04 基于神经网络的分子结构和化学反应能量函数构建方法 Active CN108804869B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810420969.2A CN108804869B (zh) 2018-05-04 2018-05-04 基于神经网络的分子结构和化学反应能量函数构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810420969.2A CN108804869B (zh) 2018-05-04 2018-05-04 基于神经网络的分子结构和化学反应能量函数构建方法

Publications (2)

Publication Number Publication Date
CN108804869A CN108804869A (zh) 2018-11-13
CN108804869B true CN108804869B (zh) 2022-03-08

Family

ID=64093313

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810420969.2A Active CN108804869B (zh) 2018-05-04 2018-05-04 基于神经网络的分子结构和化学反应能量函数构建方法

Country Status (1)

Country Link
CN (1) CN108804869B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11455439B2 (en) * 2018-11-28 2022-09-27 Robert Bosch Gmbh Neural network force field computational algorithms for molecular dynamics computer simulations
CN109903818B (zh) * 2019-02-21 2022-03-18 深圳晶泰科技有限公司 基于恒定pH分子动力学模拟的蛋白质质子化状态确定方法
US11817184B2 (en) * 2019-05-16 2023-11-14 Robert Bosch Gmbh Graph neural network force field computational algorithms for molecular dynamics computer simulations
CN110634537B (zh) * 2019-07-24 2022-03-18 深圳晶泰科技有限公司 用于有机分子晶体结构高精度能量计算的双层神经网方法
CN110851954B (zh) * 2019-09-30 2023-07-11 温州大学 基于神经网络的高分子链在吸引表面的吸附相变识别方法
CN111063396B (zh) * 2019-10-17 2023-09-01 深圳晶泰科技有限公司 通过Ewald sum的计算水/苯液相界面张力的Monte Carlo分子模拟方法
CN111554355B (zh) * 2020-05-05 2023-04-25 湖南大学 一种基于非冯诺依曼架构的分子动力学计算方法
WO2021103469A1 (zh) * 2020-05-29 2021-06-03 深圳晶泰科技有限公司 原子序重排方法
CN111986735B (zh) * 2020-08-19 2023-05-26 兰州大学 Ardgpr模型预测rna中原子多极距的计算方法
CN112037868B (zh) * 2020-11-04 2021-02-12 腾讯科技(深圳)有限公司 用于确定分子逆合成路线的神经网络的训练方法和装置
CN112420131B (zh) * 2020-11-20 2022-07-15 中国科学技术大学 基于数据挖掘的分子生成方法
CN113689919A (zh) * 2021-08-10 2021-11-23 淮阴工学院 一种基于bp人工神经网络预测有机化学分子基态能量的方法
CN114171126B (zh) * 2021-10-26 2024-10-01 深圳晶泰科技有限公司 分子训练集的构建方法、训练方法及相关装置
CN114121146B (zh) * 2021-11-29 2023-10-03 山东建筑大学 一种基于并行和蒙特卡罗策略的rna三级结构预测方法
CN115527626B (zh) * 2022-08-16 2023-04-25 腾讯科技(深圳)有限公司 分子处理方法、装置、电子设备、存储介质及程序产品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6081766A (en) * 1993-05-21 2000-06-27 Axys Pharmaceuticals, Inc. Machine-learning approach to modeling biological activity for molecular design and to modeling other characteristics
CN104715096A (zh) * 2013-12-12 2015-06-17 中国科学院大连化学物理研究所 Bp神经网络预测二肽模型多极展开属性计算方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6081766A (en) * 1993-05-21 2000-06-27 Axys Pharmaceuticals, Inc. Machine-learning approach to modeling biological activity for molecular design and to modeling other characteristics
CN104715096A (zh) * 2013-12-12 2015-06-17 中国科学院大连化学物理研究所 Bp神经网络预测二肽模型多极展开属性计算方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于神经网络的大分子体系势能面的构建;陈炽宏;《中国优秀硕士学位论文全文数据库工程科技Ⅰ辑》;20180430;第B014-464页 *

Also Published As

Publication number Publication date
CN108804869A (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
CN108804869B (zh) 基于神经网络的分子结构和化学反应能量函数构建方法
Meuwly Machine learning for chemical reactions
Smith et al. The ANI-1ccx and ANI-1x data sets, coupled-cluster and density functional theory properties for molecules
CN110400598B (zh) 基于mm/pbsa模型的蛋白质-配体结合自由能计算方法
CN110970099A (zh) 一种基于正则化变分自动编码器的药物分子生成方法
CN110910951A (zh) 一种基于渐进式神经网络预测蛋白质与配体结合自由能的方法
Segler et al. Learning to plan chemical syntheses
CN106055920B (zh) 一种基于阶段性多策略副本交换的蛋白质结构预测方法
CN117334271B (zh) 一种基于指定属性生成分子的方法
Kayala et al. A machine learning approach to predict chemical reactions
CN114913938B (zh) 一种基于药效团模型的小分子生成方法、设备及介质
CN103886225A (zh) 基于可极化力场以及pso优化的蛋白质设计方法
Wong et al. Implementation of The Future of Drug Discovery: QuantumBased Machine Learning Simulation (QMLS)
CN110600075B (zh) 一种基于配体生长策略的蛋白质atp对接方法
CN114627980A (zh) 一种化学逆合成分析方法及系统
Huang et al. A global network alignment method using discrete particle swarm optimization
Jelfs Computational modeling to assist in the discovery of supramolecular materials
WO2019210524A1 (zh) 基于神经网络的分子结构和化学反应能量函数构建方法
CN110428875A (zh) 小分子药物的细胞色素p450代谢位点预测方法
Zou et al. Generation of focused drug molecule library using recurrent neural network
US20050177318A1 (en) Methods, systems and computer program products for identifying pharmacophores in molecules using inferred conformations and inferred feature importance
Brunken et al. Machine learning of force fields towards molecular dynamics simulations of proteins at DFT accuracy
Chan et al. 3D pride without 2D prejudice: Bias-controlled multi-level generative models for structure-based ligand design
Meuwly Transformative applications of machine learning for chemical reactions
Cingiz k-Strong Inference Algorithm: A Hybrid Information Theory Based Gene Network Inference Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 3 / F, Shunfeng industrial building, No.2 Hongliu Road, Fubao community, Fubao street, Futian District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen Jingtai Technology Co.,Ltd.

Address before: 518000 workshop, 4th floor, building 9, Hualian Industrial Zone, 91 Huaning Road, Dalang street, Longhua District, Shenzhen City, Guangdong Province

Applicant before: Shenzhen Jingtai Technology Co.,Ltd.

CB02 Change of applicant information
TA01 Transfer of patent application right

Effective date of registration: 20210209

Address after: 3 / F, Shunfeng industrial building, No.2 Hongliu Road, Fubao community, Fubao street, Futian District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen Jingtai Technology Co.,Ltd.

Applicant after: Shenzhen Zhiyao Technology Co.,Ltd.

Address before: 3 / F, Shunfeng industrial building, No.2 Hongliu Road, Fubao community, Fubao street, Futian District, Shenzhen City, Guangdong Province

Applicant before: Shenzhen Jingtai Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant