CN112102889A - 基于机器学习的自由能微扰网络设计方法 - Google Patents

基于机器学习的自由能微扰网络设计方法 Download PDF

Info

Publication number
CN112102889A
CN112102889A CN202011097352.5A CN202011097352A CN112102889A CN 112102889 A CN112102889 A CN 112102889A CN 202011097352 A CN202011097352 A CN 202011097352A CN 112102889 A CN112102889 A CN 112102889A
Authority
CN
China
Prior art keywords
machine learning
model
preparing
small molecules
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011097352.5A
Other languages
English (en)
Inventor
李治鹏
温书豪
杨明俊
林志雄
邹俊杰
马健
赖力鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Jingtai Technology Co Ltd
Original Assignee
Shenzhen Jingtai Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Jingtai Technology Co Ltd filed Critical Shenzhen Jingtai Technology Co Ltd
Priority to CN202011097352.5A priority Critical patent/CN112102889A/zh
Publication of CN112102889A publication Critical patent/CN112102889A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C10/00Computational theoretical chemistry, i.e. ICT specially adapted for theoretical aspects of quantum chemistry, molecular mechanics, molecular dynamics or the like
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于机器学习的自由能微扰网络设计方法,包括以下步骤:S1、准备计算所需的小分子数据集;S2、准备小分子/蛋白质输入文件;S3、利用FEP计算不同小分子对之间的△△G及std;S4、提取小分子的特征描述符;S5、准备机器学习模型所需的训练集和测试集;S6、构建机器学习模型;S7、训练机器学习模型;S8、测试集统计误差。本发明能够处理大量小分子结合自由能需要计算预测的场景,能够快速的设计出需要的微扰网络;得到的结果与std的相关性更高,进而能够有效的提高计算精度。并且随着计算的分子数量的增加,能够收集到更多的数据用于模型的训练,提高模型的泛化能力和精度。

Description

基于机器学习的自由能微扰网络设计方法
技术领域
本发明属于分子动力学模拟技术领域,具体涉及一种基于机器学习的自由能微扰网络设计方法。
背景技术
小分子药物与靶点蛋白的结合自由能(△G),对于小分子药物的设计有着十分重要的指导作用。自由能微扰方法(free energy perturbation, FEP)作为一种基于分子动力学(molecular dynamics, MD)的计算方法,能够对于结合自由能进行预测。当预测任务涉及多个小分子时,自由能微扰网络的设计十分必要,能够有效的提高预测的精度。设计的自由能微扰网络图中,每个节点代表小分子,而每条边代表两个小分子之间结合自由能的差值(△△G)。在网络的设计过程中,核心问题是判断两个小分子是否应该连接,使得这条边计算得到的△△G不确定性(std)最小。现有设计方法大多按照下述原则进行判断,以确定两个小分子是否应该连接:
(1)基于经验的人工判断;
(2)基于谷本相似系数(Tanimoto similarity score)判断。
现有方法主要存在以下问题
1、基于经验的人工判断:需要计算的小分子数目为n时,所有能够连接的边总数,即可以进行FEP计算的分子对总数为n(n-1)/2。随着小分子数目的增加,需要进行判断的边数会迅速增加。这种情况下几乎不可能通过人工的方法进行识别判断。
2、基于Tanimoto similarity score判断:使用这一指标时,通常尽量将相似的小分子(Tanimoto similarity score越接近1,两个小分子越相似)进行连接。相似系数是基于分子指纹进行计算,考虑的小分子的特征十分有限。同时,按照这种方法判断得到的相似的分子,并不能保证计算得到的△△G不确定性小。
发明内容
针对上述技术问题,本发明的目的在于提供一种基于机器学习的自由能微扰网络设计方法,利用大量△△G的计算结果,使用机器学习的方法训练模型,更加快捷的设计自由能微扰网络,提高计算精度。
为实现上述目的,本发明提供如下技术方案:
基于机器学习的自由能微扰网络设计方法,包括以下步骤:
S1、准备计算所需的小分子数据集;
S2、准备小分子/蛋白质输入文件;
S3、利用FEP计算不同小分子对之间的△△G及std;
S4、提取小分子的特征描述符;
S5、准备训练集和测试集;
S6、构建机器学习模型;
S7、训练机器学习模型;
S8、测试集统计误差。
具体包括以下步骤:
S1、准备计算所需的小分子数据集:准备数据集时保证体系的多样性,以免出现模型对于部分体系的过拟合;
S2、准备小分子/蛋白质输入文件:根据FEP计算的需求,生成用于FEP计算的初始文件;
S3、利用FEP计算不同小分子对之间的△△G及std:设计小分子之间必须的分子对,利用FEP计算多次△△G结果,进而得到对应的std值;
S4、提取小分子的特征描述符:提取小分子的二维结构特征描述符;
S5、准备训练集和测试集:收集FEP计算得到的分子对的std结果及对应小分子的二维特征描述符,并将收集到的数据按照一定比例划分为训练集和测试集;
S6、构建机器学习模型:将得到的小分子的二维描述符作为输入,分子对的std结果作为输出构建机器学习模型;
S7、训练机器学习模型:选取适当的参数对于模型进行训练,根据不同类型的机器学习模型设置不同的参数;
S8、测试集统计误差:训练完成后在测试集上统计误差,根据统计的误差对于模型参数进行优化,得到最佳的模型。
其中,步骤S4中,所述的小分子的二维结构特征描述符,包括分子质量、拓扑连接信息、柔性二面角数量。
与现有技术相比,本发明的有益效果是:
1、自动化设计微扰网络
相对于人工设计微扰网络的方法,本方法能够处理大量小分子结合自由能需要计算预测的场景,能够快速的设计出需要的微扰网络;
2、提高自由能微扰的计算精度
相对于基于 Tanimoto similarity score的方法,本方法得到的结果与std的相关性更高,进而能够有效的提高计算精度。
3、易于拓展
当计算过程确定之后,随着计算的分子数量逐渐增加。能够收集到更多的数据用于模型的训练,提高模型的泛化能力和精度。
附图说明
图1为本发明的流程图;
图2为实施例Tanimoto similarity score和std的相关性分析结果;
图3为实施例RFscore与std的相关性分析结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
按照图1所示的流程图,本实施例选取8个激酶体系共200个小分子,设计300个分子对,计算5次△△G的std作为模型的输出。
比较Tanimoto similarity score和std的相关性,如图2所示,可见,两者的相关性很弱,肯德尔相关系数(Kendall rank correlation coefficient)为-0.113。显然,通过这一标准构建的微扰网络将引进比较大的不确定性。
在本实施例中,提取各小分子的二维特征值,每个小分子有77个特征值。并通过按照7:3的比例划分训练集和测试集。选择随机森林作为本实例的机器学习模型。同时,对于最大特征数、决策树最大深度、内部节点在划分所需最小样本数、叶节点最小样本数等多个模型参数的不同组合,得到最佳的随机森林模型。利用该模型在训练集上得到误差为0.14,在测试集上得到的误差为0.31.同时,利用现有模型得到的RF score与前述Tanimotosimilarity score进行同样的相关性结果分析,如图3所示。得到的肯德尔相关系数为0.41。
由此可见,该方法得到的结果能够对于大量小分子进行自由能微扰网络设计,同时相对于Tanimoto similarity score方法能够提高精度。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (3)

1.基于机器学习的自由能微扰网络设计方法,其特征在于,包括以下步骤:
S1、准备计算所需的小分子数据集;
S2、准备小分子/蛋白质输入文件;
S3、利用FEP计算不同小分子对之间的△△G及std;
S4、提取小分子的特征描述符;
S5、准备机器学习模型所需的训练集和测试集;S6、构建机器学习模型;
S7、训练机器学习模型;
S8、测试集统计误差。
2.根据权利要求1所述的基于机器学习的自由能微扰网络设计方法,其特征在于,具体包括以下步骤:
S1、准备计算所需的小分子数据集:准备数据集时保证体系的多样性,以免出现模型对于部分体系的过拟合;
S2、准备小分子/蛋白质输入文件:根据FEP计算的需求,生成用于FEP计算的初始文件;
S3、利用FEP计算不同小分子对之间的△△G及std:设计小分子之间必须的分子对,利用FEP计算多次△△G结果,进而得到对应的std值;
S4、提取小分子的特征描述符:提取小分子的二维结构特征描述符;
S5、准备机器学习模型所需的训练集和测试集:收集FEP计算得到的分子对的std结果及对应小分子的二维特征描述符,并将收集到的数据按照一定比例划分为训练集和测试集;
S6、构建机器学习模型:将得到的小分子的二维描述符作为输入,分子对的std结果作为输出构建机器学习模型;
S7、训练机器学习模型:选取适当的参数对于模型进行训练,根据不同类型的机器学习模型设置不同的参数;
S8、测试集统计误差:训练完成后在测试集上统计误差,根据统计的误差对于模型参数进行优化,得到最佳的模型。
3.根据权利要求2所述的基于机器学习的自由能微扰网络设计方法,其特征在于,步骤S4中,所述的小分子的二维结构特征描述符,包括分子质量、拓扑连接信息、柔性二面角数量。
CN202011097352.5A 2020-10-14 2020-10-14 基于机器学习的自由能微扰网络设计方法 Pending CN112102889A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011097352.5A CN112102889A (zh) 2020-10-14 2020-10-14 基于机器学习的自由能微扰网络设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011097352.5A CN112102889A (zh) 2020-10-14 2020-10-14 基于机器学习的自由能微扰网络设计方法

Publications (1)

Publication Number Publication Date
CN112102889A true CN112102889A (zh) 2020-12-18

Family

ID=73783382

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011097352.5A Pending CN112102889A (zh) 2020-10-14 2020-10-14 基于机器学习的自由能微扰网络设计方法

Country Status (1)

Country Link
CN (1) CN112102889A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117037946A (zh) * 2022-11-14 2023-11-10 上海微观纪元数字科技有限公司 基于蛋白质结合口袋的优化化合物结构的方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020090631A1 (en) * 2000-11-14 2002-07-11 Gough David A. Method for predicting protein binding from primary structure data
CN103116713A (zh) * 2013-02-25 2013-05-22 浙江大学 基于随机森林的化合物和蛋白质相互作用预测方法
CN109033738A (zh) * 2018-07-09 2018-12-18 湖南大学 一种基于深度学习的药物活性预测方法
WO2019040444A1 (en) * 2017-08-22 2019-02-28 Schrodinger, Inc. METHODS AND SYSTEMS FOR CALCULATING FREE ENERGY DIFFERENCES USING AN ALCHEMICAL RESTRICTION POTENTIAL
US20200058366A1 (en) * 2018-08-20 2020-02-20 Fujitsu Limited Method and device for calculating binding free energy
CN110910951A (zh) * 2019-11-19 2020-03-24 江苏理工学院 一种基于渐进式神经网络预测蛋白质与配体结合自由能的方法
US20200176087A1 (en) * 2018-12-03 2020-06-04 Battelle Memorial Institute Method for simultaneous characterization and expansion of reference libraries for small molecule identification
WO2020167872A1 (en) * 2019-02-11 2020-08-20 Woodbury Neal W Systems, methods, and media for molecule design using machine learning mechanisms

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020090631A1 (en) * 2000-11-14 2002-07-11 Gough David A. Method for predicting protein binding from primary structure data
CN103116713A (zh) * 2013-02-25 2013-05-22 浙江大学 基于随机森林的化合物和蛋白质相互作用预测方法
WO2019040444A1 (en) * 2017-08-22 2019-02-28 Schrodinger, Inc. METHODS AND SYSTEMS FOR CALCULATING FREE ENERGY DIFFERENCES USING AN ALCHEMICAL RESTRICTION POTENTIAL
CN109033738A (zh) * 2018-07-09 2018-12-18 湖南大学 一种基于深度学习的药物活性预测方法
US20200058366A1 (en) * 2018-08-20 2020-02-20 Fujitsu Limited Method and device for calculating binding free energy
US20200176087A1 (en) * 2018-12-03 2020-06-04 Battelle Memorial Institute Method for simultaneous characterization and expansion of reference libraries for small molecule identification
WO2020167872A1 (en) * 2019-02-11 2020-08-20 Woodbury Neal W Systems, methods, and media for molecule design using machine learning mechanisms
CN110910951A (zh) * 2019-11-19 2020-03-24 江苏理工学院 一种基于渐进式神经网络预测蛋白质与配体结合自由能的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117037946A (zh) * 2022-11-14 2023-11-10 上海微观纪元数字科技有限公司 基于蛋白质结合口袋的优化化合物结构的方法
CN117037946B (zh) * 2022-11-14 2024-05-10 合肥微观纪元数字科技有限公司 基于蛋白质结合口袋的优化化合物结构的方法

Similar Documents

Publication Publication Date Title
CN110688288B (zh) 基于人工智能的自动化测试方法、装置、设备及存储介质
CN108595913B (zh) 鉴别mRNA和lncRNA的有监督学习方法
CN105279397B (zh) 一种识别蛋白质相互作用网络中关键蛋白质的方法
CN112487805B (zh) 一种基于元学习框架的小样本Web服务分类方法
CN110213003B (zh) 一种无线信道大尺度衰落建模方法及装置
CN108985617B (zh) 一种基于智能制造的产品生产流程调度方法及系统
CN111429977B (zh) 一种新的基于图结构注意力的分子相似性搜索算法
CN108879732A (zh) 电力系统暂态稳定评估方法及装置
CN108681660A (zh) 一种基于关联规则挖掘的非编码rna与疾病关系预测方法
CN114723522A (zh) 一种面向评论文本的图神经网络推荐方法
CN110491443B (zh) 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法
CN112102889A (zh) 基于机器学习的自由能微扰网络设计方法
CN116564409A (zh) 基于机器学习的转移性乳腺癌转录组测序数据识别方法
CN104750828A (zh) 一种基于6w规则的归纳演绎知识无意识自学习方法
CN109409522B (zh) 一种基于集成学习的生物网络推理算法
CN102799940B (zh) 基于遗传算法和先验知识的网络社区划分方法
CN116822360A (zh) 电力系统频率轨迹预测方法、装置、介质和设备
CN111639712A (zh) 一种基于密度峰值聚类和梯度提升算法的定位方法及系统
CN104616656A (zh) 一种基于改进abc算法的朱鹮鸣声码书设计方法
CN111325255A (zh) 特定人群圈定方法、装置、电子设备及存储介质
Bo Research on the classification of high dimensional imbalanced data based on the optimizational random forest algorithm
CN105373473A (zh) 基于原始信令解码的cdr准确性测试方法及测试系统
WO2022077258A1 (zh) 基于机器学习的自由能微扰网络设计方法
CN114691875A (zh) 一种数据分类分级处理方法及装置
CN112364566B (zh) 一种基于典型时刻数据特征的推演预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination