CN108763852B - 类药有机分子的自动化构象分析方法 - Google Patents

类药有机分子的自动化构象分析方法 Download PDF

Info

Publication number
CN108763852B
CN108763852B CN201810437477.4A CN201810437477A CN108763852B CN 108763852 B CN108763852 B CN 108763852B CN 201810437477 A CN201810437477 A CN 201810437477A CN 108763852 B CN108763852 B CN 108763852B
Authority
CN
China
Prior art keywords
conformation
force field
flexible
conformational
ring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810437477.4A
Other languages
English (en)
Other versions
CN108763852A (zh
Inventor
刘阳
张佩宇
杨明俊
孙广旭
马健
赖力鹏
温书豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Jingtai Technology Co Ltd
Original Assignee
Shenzhen Jingtai Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Jingtai Technology Co Ltd filed Critical Shenzhen Jingtai Technology Co Ltd
Priority to CN201810437477.4A priority Critical patent/CN108763852B/zh
Publication of CN108763852A publication Critical patent/CN108763852A/zh
Application granted granted Critical
Publication of CN108763852B publication Critical patent/CN108763852B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Genetics & Genomics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Physiology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明属于类药有机小分子模拟计算领域,具体涉及类药有机分子的自动化构象分析方法,包括:将输入分子提取成一组片段,片段分为三种类型:柔性键片段、环异构片段和构型异构片段;基于知识的构象推荐;基于力场扫描的构象推荐;利用QM的方法验证产生的构象;如果验证通过,说明推荐的构象是有效的,否则进行力场进行校正;汇集片段的构象列表;使用遗传算法,将各个片段的构象参数进行组合优化,找到最优的一组构象。本发明结合基于知识和计算两种方法的优点,可获得准确的构象推荐;当通用力场描述能力有限时,可以通过QM计算对通用力场进行校正,形成对于该片段描述跟精确的专有力场。

Description

类药有机分子的自动化构象分析方法
技术领域
本发明属于类药有机小分子模拟计算领域,具体涉及类药有机分子的自动化构象分析方法。
背景技术
药物分子的构象对其生物活性有非常重要的影响。药物分子和受体相互作用产生一些列的构象变化,形成了一种动态匹配的过程,从而产生特定的药理反应。所以类药有机分子的构象分析以及合理构象产生,对于计算机辅助药物设计、药物晶型预测等研究起到了至关重要的作用。
目前常见的构象分析或者构象产生的方法主要两种:
1. 基于分子力场对柔性键扫描,构建势能面并分析出所有可能的极值点。
2. 基于知识的方法进行构象推荐。通常利用已有的实验构象库,寻找相似的结构集团并给出推荐构象。
第一种方法主要适用于搜索柔性键数量少于 20 个的有机分子,通过一定策略对所有的柔性角进行一维扫描。然后根据柔性角的空间位组信息,挑选一些会产生耦合的柔性键对进行二维扫描。最后根据每个柔性角的局限低能点进行组合,找到最有可能的一组构象。这个方法可以利用分子力场计算量小的特点,可以高效的遍历大部分构象空间。但是这个方法的劣势也比较突出,因为能量计算主要依赖分子力场,所以计算的精度非常受制于分子力场的势能面描述能力。通常使用的 GAFF、FF94 等通用力场参数对于药物小分子的化学空间覆盖能力有限,如果对应体系不能被力场参数精确描述,那么推荐出的构象往往也是错误的。
第二种方法适用于更大分子结构的构象分析,比如糖或者蛋白质。这些分子通常构象空间非常巨大,无法通过扫描的方式遍历构象空间,所以只能基于预先知识指导构象生成。所以常见的方式基于已知的构象数据库,对目标分子的拆解成片段,然后在数据库中搜寻相同或相似的片段。然后将搜索出的片段构象进行统计分析,推荐出每个片段的构象,从而组合成为整体构象。这种方式可以有效的处理大分子,计算的复杂度随着分子的大小线性增长。不足之处主要是基于已有的知识,适合于处理糖和蛋白这类集团种类有限的分子。而药物小分子的多样性非常高,通常已有的数据库可能无法有效的覆盖,会出现无法在数据库中匹配到与目标片段相同或相似片段的情况,也就会导致无法推荐出合理的构象。
发明内容
针对上述技术问题,本发明提供类药有机分子的自动化构象分析方法,可使用这个方法对进行分子的手性异构、环异构、空间异构进行综合分析,推荐出所有合理的构象。所采用的技术方案为:
类药有机分子的自动化构象分析方法,主要包含以下步骤:
(1)将输入分子提取成一组片段,片段主要分为三种类型:柔性键片段、环异构片段和构型异构片段;
柔性键片段包含一柔性键或者两个耦合在一起的柔性键,以及柔性键旁边邻近的化学集团,使用基于拓扑的规则来判断两个柔性键是否有耦合关系;通过对该柔性键片段的进一步分析,找到该片段的柔性键上的势能面或者极值点,从而代表整个分子在这个柔性键上的势能面;
环异构片段包含一个非共轭环或者多个环组成的稠环;
构型异构片段是指包括了一个或多个顺反位点或手性中心,以及周围的化学环境;
(2)基于知识的构象推荐;从预建立的构象数据库检索出包含步骤(1)相应片段的分子构象,然后对检索出的分子中特定的柔性键或者环异构、顺反以及手性中心的构象统计,并得出推荐的构象以及置信度;置信度包括经验阈值,大于阈值会认为知识推荐的可信度较高,将会直接使用推荐的结果;如果置信度较低,则会通过后续更精确的方式进行构象分析;
(3)基于力场扫描的构象推荐;扫描策略主要包括以下几个策略:一维或二维的柔性键等间距旋转扫描;柔性环的构象扫描;顺反、旋光性的构型扫描;
利用分子力场,快速对策略产生的构象进行优化和能量计算,然后根据能量筛选出合理的构象;
(4)利用QM的方法验证步骤(3)产生的构象,验证方法主要有两种:
极值点位置分析,通过对极值点以及附近进行采样计算,比较QM和分子力场的极值点的位置是否吻合;
或者,对推荐出的构象的相对能量进行分析,验证QM与分子力场计算的相关性,从而验证力场的精度;
如果验证通过,说明步骤(3)推荐的构象是有效的,否则问题可能出在力场精度上,需要下一步对力场进行校正。
(5)力场修正;如果通用力场无法准确的描述这个分子的化学环境,就需要针对这个分子,对力场参数针对性的提升;通过对相应片段的分析,会根据柔性键、环异构、构型异构这几个类型加入QM采样计算作为力场参数修正的训练集,然后进行力场参数的修正;修正完之后,重新进行力场扫描;
(6)汇集片段的构象列表;将每个片段分开推荐的构象列表进行汇集,将构象表达的数值进行提取,包括柔性键的二面角值,或者环异构的异构空间参数,以及顺反或手性的标识,用于后续参数进行组合优化;
(7)使用遗传算法,将各个片段的构象参数进行组合优化,全局搜索的方式找到最优的一组构象。
本发明提供的类药有机分子的自动化构象分析方法,具有的技术效果有:
(1)结合基于知识和计算两种方法的优点,对于常见的片段可以快速的基于知识推荐;对于非常见片段可以通过扫描计算的方式获得准确的构象推荐。并且计算后的结果会保存在知识数据库中,随着计算的不断积累,知识推荐的能力也会不断提升。
(2)当通用力场描述能力有限时,可以通过QM计算对通用力场进行校正,形成对于该片段描述跟精确的专有力场。避免了因为力场局限性导致的构象推荐不准确的问题。
(3)使用遗传算法对片段的推荐构象进行组合。因为直接将片段推荐的构象进行组合空间过大,所以本专利使用遗传算法解决这一问题。
附图说明
图1是本发明的方法流程图;
图2是本发明的遗传算法的流程图;
图3是实施例的架构图。
具体实施方式
结合实施例说明本发明的具体技术方案。
实施例采用如图1所示的流程,主要包含以下几个步骤:
(1)将输入分子提取成一组片段,片段主要分为三种类型:柔性键片段、环异构片段和构型异构片段。柔性键片段会包含一柔性键或者两个耦合在一起的柔性键,以及柔性键旁边邻近的化学集团。通常可以使用基于拓扑的规则来判断两个柔性键是否有耦合关系。通过对该片段的进一步分析,就可以找到该片段的柔性键上的势能面或者极值点,从而代表整个分子在这个柔性键上的势能面;环异构片段通常包含一个非共轭环或者多个环组成的稠环;构型异构片段是指包括了一个或多个顺反位点或手性中心,以及周围的化学环境。这三种类型的片段代表了这个分子的三类异构类型,拆分成片段后更方便下一步的分析。
(2)基于知识的构象推荐。从步骤(1)提取的每一个片段,都首先经过这一步骤处理。在实际的系统实现中,该步骤包含一个预建立的构象数据库,预建立的构象数据库来自实验构象或者历史计算结果。通过数据库可以检索出包含相应片段的分子构象,然后对检索出的分子中特定的柔性键或者环异构、顺反以及手性中心的构象统计,并得出推荐的构象以及置信度。通常置信度会有个经验阈值,大于阈值会认为知识推荐的可信度较高,将会直接使用推荐的结果;如果置信度较低,则会通过后续更精确的方式进行构象分析。
(3)基于力场扫描的构象推荐。扫描策略主要包括几个策略:一维或二维的柔性键等间距旋转扫描;柔性环的构象扫描;顺反、旋光性的构型扫描。利用分子力场,可以将快速对策略产生的构象进行优化和能量计算。然后根据能量筛选出合理的构象。
(4)利用QM的方法验证步骤(3)产生的构象,验证方法主要有两种:极值点位置分析,通过对极值点以及附近进行采样计算,比较QM和分子力场的极值点的位置是否吻合;另外就是对推荐出的构象的相对能量进行分析,验证QM与分子力场计算的相关性,从而验证力场的精度。如果验证通过,说明步骤(3)推荐的构象是有效的,否则问题可能出在力场精度上,就需要下一步对力场进行校正。
(5)力场修正。如果通用力场无法准确的描述这个分子的化学环境,就需要针对这个分子,对力场参数针对性的提升。通过对相应片段的分析,会根据柔性键、环异构、构型异构这几个类型加入QM采样计算作为力场参数修正的训练集,然后进行力场参数的修正。修正完之后,重新进行力场扫描。
(6)汇集片段的构象列表。将每个片段分开推荐的构象列表进行汇集,将构象表达的数值进行提取,包括柔性键的二面角值,或者环异构的异构空间参数,以及顺反或手性的标识,方便后续将这些参数进行组合优化。
(7)使用遗传算法,将各个片段的构象参数进行组合优化,找到最优的一组构象。如果考虑一个较大的分子,包含8个柔性角(每个柔性角4个极值点),两个异构环(每个异构环两种构型、两种取代位点),两个手性碳。这样构象组合可能多达百万(4^8*2*2*2*2=1,048,576),无法进行遍历,所以需要全局搜索的方式找到最优的一组构象。本专利使用了遗传算法处理该步骤,因为遗传算法具有过程简单,收敛速度快的特点。具体的遗传算法的过程见图2。
本算法的实现主要B/S架构,如图3所示,用户可以通过浏览器访问自动化构象分析服务,可以通过SMILES的形式上传需要自动化构象分析的2D分子结构。自动化构象分析服务是使用Python 2.7作为编程语言编写,部署在Kubernetes平台上。
用户可以通过点击开始整个构象分析流程。当分子上传后,自动化构象分析服务会向构象数据库发起查询请求。构象数据库是由PostgreSQL 9.6搭建而成,数据库中主要有两张表:Compound和Conformation。Compound主要保存了构象库包含的化合物信息,Conformation表中保存了每个化合物对应的一组3D构象信息。
当构象数据库返回的信息不足时,自动化构象分析服务就会向计算集群提交计算作业,以完成后续的计算任务。主要包括四个计算模块:力场扫描分析模块、QM验证模块、力场修正模块和遗传算法模块。这三个均使用Python 2.7编写,其中力场部分使用OpenMM做为能量计算工具,QM部分使用Psi4作为计算工具。这三个计算模块使用Docker作为构建和分发工具,方便分布式的任务调度。
自动化构象分析服务会每隔十秒钟检查仍在运行的计算任务,如果发现计算失败,就会进行三次重试,如果仍然失败,就终止本次计算,并将错误信息返回给用户;如果发现计算完成,就会回收计算结果,并返回给用户。

Claims (2)

1.类药有机分子的自动化构象分析方法,其特征在于,主要包含以下步骤:
(1)将输入分子提取成一组片段,片段主要分为三种类型:柔性键片段、环异构片段和构型异构片段;
柔性键片段包含一柔性键或者两个耦合在一起的柔性键,以及柔性键旁边邻近的化学集团,使用基于拓扑的规则来判断两个柔性键是否有耦合关系;通过对该柔性键片段的进一步分析,找到该片段的柔性键上的势能面或者极值点,从而代表整个分子在这个柔性键上的势能面;
环异构片段包含一个非共轭环或者多个环组成的稠环;
构型异构片段是指包括了一个或多个顺反位点或手性中心,以及周围的化学环境;
(2)基于知识的构象推荐;从预建立的构象数据库检索出包含步骤(1)相应片段的分子构象,然后对检索出的分子中特定的柔性键或者环异构、顺反以及手性中心的构象统计,并得出推荐的构象以及置信度;置信度包括经验阈值,大于阈值会认为知识推荐的可信度较高,将会直接使用推荐的结果;如果置信度较低,则会通过后续更精确的方式进行构象分析;
(3)基于力场扫描的构象推荐;扫描策略主要包括以下几个策略:一维或二维的柔性键等间距旋转扫描,柔性环的构象扫描,顺反的构型扫描;
利用分子力场,快速对策略产生的构象进行优化和能量计算,然后根据能量筛选出合理的构象;
(4)利用QM的方法验证步骤(3)产生的构象,如果验证通过,说明步骤(3)推荐的构象是有效的,否则需要下一步对力场进行校正;
(5)力场修正;如果通用力场无法准确的描述这个分子的化学环境,就需要针对这个分子,对力场参数针对性的提升;通过对相应片段的分析,会根据柔性键、环异构、构型异构这几个类型加入QM采样计算作为力场参数修正的训练集,然后进行力场参数的修正;修正完之后,重新进行力场扫描;
(6)汇集片段的构象列表;将每个片段分开推荐的构象列表进行汇集,将构象表达的数值进行提取,包括柔性键的二面角值,或者环异构的异构空间参数,以及顺反或手性的标识,用于后续参数进行组合优化;
(7)使用遗传算法,将各个片段的构象参数进行组合优化,全局搜索的方式找到最优的一组构象。
2.根据权利要求1所述的类药有机分子的自动化构象分析方法,其特征在于,步骤(4)所述的验证方法主要有两种:
极值点位置分析,通过对极值点以及附近进行采样计算,比较QM和分子力场的极值点的位置是否吻合;
或者,对推荐出的构象的相对能量进行分析,验证QM与分子力场计算的相关性,从而验证力场的精度。
CN201810437477.4A 2018-05-09 2018-05-09 类药有机分子的自动化构象分析方法 Active CN108763852B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810437477.4A CN108763852B (zh) 2018-05-09 2018-05-09 类药有机分子的自动化构象分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810437477.4A CN108763852B (zh) 2018-05-09 2018-05-09 类药有机分子的自动化构象分析方法

Publications (2)

Publication Number Publication Date
CN108763852A CN108763852A (zh) 2018-11-06
CN108763852B true CN108763852B (zh) 2021-06-15

Family

ID=64009393

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810437477.4A Active CN108763852B (zh) 2018-05-09 2018-05-09 类药有机分子的自动化构象分析方法

Country Status (1)

Country Link
CN (1) CN108763852B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11443834B2 (en) 2018-05-09 2022-09-13 Shenzhen Jingtai Technology Co., Ltd. Automatic conformation analysis method for quasi-drug organic molecules
US11562809B2 (en) 2018-12-25 2023-01-24 Shenzhen Jingtai Technology Co., Ltd. Method for automatically generating universal set of stereoisomers of organic molecule
CN109741798B (zh) * 2018-12-25 2022-03-15 深圳晶泰科技有限公司 有机分子的立体异构全集自动化生成方法
CN111415710B (zh) * 2020-03-06 2021-03-19 深圳晶泰科技有限公司 用于分子构象空间分析的势能面扫描方法及系统
WO2021103402A1 (zh) * 2020-04-21 2021-06-03 深圳晶泰科技有限公司 分子力场拟合方法
CN111653320B (zh) * 2020-04-21 2021-02-12 深圳晶泰科技有限公司 分子力场拟合方法
CN111863140B (zh) * 2020-06-15 2022-04-15 深圳晶泰科技有限公司 一种测试和拟合力场二面角参数的方法
US20220310210A1 (en) * 2020-06-15 2022-09-29 Shenzhen Jingtai Technology Co., Ltd. Method of testing and fitting the dihedral angle parameters in force field
WO2022094873A1 (zh) * 2020-11-05 2022-05-12 深圳晶泰科技有限公司 分子力场质量控制系统及其控制方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010126669A2 (en) * 2009-03-25 2010-11-04 Massachusetts Institute Of Technology Cellular automotion digital material
CN102779239A (zh) * 2011-05-09 2012-11-14 中国科学院研究生院 一种用于建立蛋白质体系分子模拟力场的方法
CN104715096A (zh) * 2013-12-12 2015-06-17 中国科学院大连化学物理研究所 Bp神经网络预测二肽模型多极展开属性计算方法
CN107209813A (zh) * 2014-11-25 2017-09-26 国家信息及自动化研究院 用于分子结构的输入集合的相互作用参数
CN107229840A (zh) * 2017-06-01 2017-10-03 浙江工业大学 一种基于菌群优化算法的蛋白质结构从头预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010126669A2 (en) * 2009-03-25 2010-11-04 Massachusetts Institute Of Technology Cellular automotion digital material
CN102779239A (zh) * 2011-05-09 2012-11-14 中国科学院研究生院 一种用于建立蛋白质体系分子模拟力场的方法
CN104715096A (zh) * 2013-12-12 2015-06-17 中国科学院大连化学物理研究所 Bp神经网络预测二肽模型多极展开属性计算方法
CN107209813A (zh) * 2014-11-25 2017-09-26 国家信息及自动化研究院 用于分子结构的输入集合的相互作用参数
CN107229840A (zh) * 2017-06-01 2017-10-03 浙江工业大学 一种基于菌群优化算法的蛋白质结构从头预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
chen.et al.Single molecule interaction and conformation study based on atomic force microscopy.《EBSCO》.2011,正文第1-5页. *
分子构象多模态优化算法设计及实现;金媚媚;《中国优秀硕士论文全文数据库》;20140615;正文第1-10页 *

Also Published As

Publication number Publication date
CN108763852A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN108763852B (zh) 类药有机分子的自动化构象分析方法
CN107944046B (zh) 大规模高维数据快速检索方法及系统
Gao et al. Alphadesign: A graph protein design method and benchmark on alphafolddb
CN1881218A (zh) 聚类装置和聚类方法
CN109029472A (zh) 基于低采样率gps轨迹点的地图匹配方法
CN1869971A (zh) 数据划分设备和数据划分方法
JP6694447B2 (ja) ビッグデータの計算方法及びシステム、プログラムならびに記録媒体
Luo et al. A comprehensive review of scaffolding methods in genome assembly
CN105335415A (zh) 基于输入预测的搜索方法和输入法系统
Robles et al. Bayesian network multi-classifiers for protein secondary structure prediction
He et al. Evolutionary graph clustering for protein complex identification
CN110968801A (zh) 地产产品搜索方法、存储介质及电子设备
Wang et al. NAS-FCOS: efficient search for object detection architectures
WO2019134319A1 (zh) 类药有机分子的自动化构象分析方法
Villegas-Morcillo et al. Protein fold recognition from sequences using convolutional and recurrent neural networks
Ashtawy et al. Boosted neural networks scoring functions for accurate ligand docking and ranking
CN104573036B (zh) 一种基于距离的求解二维空间中代表性节点集的方法
US20120109860A1 (en) Enhanced Training Data for Learning-To-Rank
Zhao et al. Autodes: Automl pipeline generation of classification with dynamic ensemble strategy selection
Niu et al. HIV‐1 protease cleavage site prediction based on amino acid property
Zheng et al. Disentangled neural architecture search
Rahman et al. Exploring Chromatin Interaction Between Two Human Cell Types and Different Normalization Techniques for HI-C Data
CN114741548A (zh) 一种基于小样本学习的桑叶病虫害检测方法
CN112185466B (zh) 直接利用蛋白质多序列联配信息构建蛋白质结构的方法
KR101584857B1 (ko) 염기 서열 정렬 시스템 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 3 / F, Shunfeng industrial building, No.2 Hongliu Road, Fubao community, Fubao street, Futian District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen Jingtai Technology Co.,Ltd.

Address before: 518000 workshop, 4th floor, building 9, Hualian Industrial Zone, 91 Huaning Road, Dalang street, Longhua District, Shenzhen City, Guangdong Province

Applicant before: Shenzhen Jingtai Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant