CN108763852B - 类药有机分子的自动化构象分析方法 - Google Patents
类药有机分子的自动化构象分析方法 Download PDFInfo
- Publication number
- CN108763852B CN108763852B CN201810437477.4A CN201810437477A CN108763852B CN 108763852 B CN108763852 B CN 108763852B CN 201810437477 A CN201810437477 A CN 201810437477A CN 108763852 B CN108763852 B CN 108763852B
- Authority
- CN
- China
- Prior art keywords
- conformation
- force field
- flexible
- conformational
- ring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Genetics & Genomics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Physiology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
本发明属于类药有机小分子模拟计算领域,具体涉及类药有机分子的自动化构象分析方法,包括:将输入分子提取成一组片段,片段分为三种类型:柔性键片段、环异构片段和构型异构片段;基于知识的构象推荐;基于力场扫描的构象推荐;利用QM的方法验证产生的构象;如果验证通过,说明推荐的构象是有效的,否则进行力场进行校正;汇集片段的构象列表;使用遗传算法,将各个片段的构象参数进行组合优化,找到最优的一组构象。本发明结合基于知识和计算两种方法的优点,可获得准确的构象推荐;当通用力场描述能力有限时,可以通过QM计算对通用力场进行校正,形成对于该片段描述跟精确的专有力场。
Description
技术领域
本发明属于类药有机小分子模拟计算领域,具体涉及类药有机分子的自动化构象分析方法。
背景技术
药物分子的构象对其生物活性有非常重要的影响。药物分子和受体相互作用产生一些列的构象变化,形成了一种动态匹配的过程,从而产生特定的药理反应。所以类药有机分子的构象分析以及合理构象产生,对于计算机辅助药物设计、药物晶型预测等研究起到了至关重要的作用。
目前常见的构象分析或者构象产生的方法主要两种:
1. 基于分子力场对柔性键扫描,构建势能面并分析出所有可能的极值点。
2. 基于知识的方法进行构象推荐。通常利用已有的实验构象库,寻找相似的结构集团并给出推荐构象。
第一种方法主要适用于搜索柔性键数量少于 20 个的有机分子,通过一定策略对所有的柔性角进行一维扫描。然后根据柔性角的空间位组信息,挑选一些会产生耦合的柔性键对进行二维扫描。最后根据每个柔性角的局限低能点进行组合,找到最有可能的一组构象。这个方法可以利用分子力场计算量小的特点,可以高效的遍历大部分构象空间。但是这个方法的劣势也比较突出,因为能量计算主要依赖分子力场,所以计算的精度非常受制于分子力场的势能面描述能力。通常使用的 GAFF、FF94 等通用力场参数对于药物小分子的化学空间覆盖能力有限,如果对应体系不能被力场参数精确描述,那么推荐出的构象往往也是错误的。
第二种方法适用于更大分子结构的构象分析,比如糖或者蛋白质。这些分子通常构象空间非常巨大,无法通过扫描的方式遍历构象空间,所以只能基于预先知识指导构象生成。所以常见的方式基于已知的构象数据库,对目标分子的拆解成片段,然后在数据库中搜寻相同或相似的片段。然后将搜索出的片段构象进行统计分析,推荐出每个片段的构象,从而组合成为整体构象。这种方式可以有效的处理大分子,计算的复杂度随着分子的大小线性增长。不足之处主要是基于已有的知识,适合于处理糖和蛋白这类集团种类有限的分子。而药物小分子的多样性非常高,通常已有的数据库可能无法有效的覆盖,会出现无法在数据库中匹配到与目标片段相同或相似片段的情况,也就会导致无法推荐出合理的构象。
发明内容
针对上述技术问题,本发明提供类药有机分子的自动化构象分析方法,可使用这个方法对进行分子的手性异构、环异构、空间异构进行综合分析,推荐出所有合理的构象。所采用的技术方案为:
类药有机分子的自动化构象分析方法,主要包含以下步骤:
(1)将输入分子提取成一组片段,片段主要分为三种类型:柔性键片段、环异构片段和构型异构片段;
柔性键片段包含一柔性键或者两个耦合在一起的柔性键,以及柔性键旁边邻近的化学集团,使用基于拓扑的规则来判断两个柔性键是否有耦合关系;通过对该柔性键片段的进一步分析,找到该片段的柔性键上的势能面或者极值点,从而代表整个分子在这个柔性键上的势能面;
环异构片段包含一个非共轭环或者多个环组成的稠环;
构型异构片段是指包括了一个或多个顺反位点或手性中心,以及周围的化学环境;
(2)基于知识的构象推荐;从预建立的构象数据库检索出包含步骤(1)相应片段的分子构象,然后对检索出的分子中特定的柔性键或者环异构、顺反以及手性中心的构象统计,并得出推荐的构象以及置信度;置信度包括经验阈值,大于阈值会认为知识推荐的可信度较高,将会直接使用推荐的结果;如果置信度较低,则会通过后续更精确的方式进行构象分析;
(3)基于力场扫描的构象推荐;扫描策略主要包括以下几个策略:一维或二维的柔性键等间距旋转扫描;柔性环的构象扫描;顺反、旋光性的构型扫描;
利用分子力场,快速对策略产生的构象进行优化和能量计算,然后根据能量筛选出合理的构象;
(4)利用QM的方法验证步骤(3)产生的构象,验证方法主要有两种:
极值点位置分析,通过对极值点以及附近进行采样计算,比较QM和分子力场的极值点的位置是否吻合;
或者,对推荐出的构象的相对能量进行分析,验证QM与分子力场计算的相关性,从而验证力场的精度;
如果验证通过,说明步骤(3)推荐的构象是有效的,否则问题可能出在力场精度上,需要下一步对力场进行校正。
(5)力场修正;如果通用力场无法准确的描述这个分子的化学环境,就需要针对这个分子,对力场参数针对性的提升;通过对相应片段的分析,会根据柔性键、环异构、构型异构这几个类型加入QM采样计算作为力场参数修正的训练集,然后进行力场参数的修正;修正完之后,重新进行力场扫描;
(6)汇集片段的构象列表;将每个片段分开推荐的构象列表进行汇集,将构象表达的数值进行提取,包括柔性键的二面角值,或者环异构的异构空间参数,以及顺反或手性的标识,用于后续参数进行组合优化;
(7)使用遗传算法,将各个片段的构象参数进行组合优化,全局搜索的方式找到最优的一组构象。
本发明提供的类药有机分子的自动化构象分析方法,具有的技术效果有:
(1)结合基于知识和计算两种方法的优点,对于常见的片段可以快速的基于知识推荐;对于非常见片段可以通过扫描计算的方式获得准确的构象推荐。并且计算后的结果会保存在知识数据库中,随着计算的不断积累,知识推荐的能力也会不断提升。
(2)当通用力场描述能力有限时,可以通过QM计算对通用力场进行校正,形成对于该片段描述跟精确的专有力场。避免了因为力场局限性导致的构象推荐不准确的问题。
(3)使用遗传算法对片段的推荐构象进行组合。因为直接将片段推荐的构象进行组合空间过大,所以本专利使用遗传算法解决这一问题。
附图说明
图1是本发明的方法流程图;
图2是本发明的遗传算法的流程图;
图3是实施例的架构图。
具体实施方式
结合实施例说明本发明的具体技术方案。
实施例采用如图1所示的流程,主要包含以下几个步骤:
(1)将输入分子提取成一组片段,片段主要分为三种类型:柔性键片段、环异构片段和构型异构片段。柔性键片段会包含一柔性键或者两个耦合在一起的柔性键,以及柔性键旁边邻近的化学集团。通常可以使用基于拓扑的规则来判断两个柔性键是否有耦合关系。通过对该片段的进一步分析,就可以找到该片段的柔性键上的势能面或者极值点,从而代表整个分子在这个柔性键上的势能面;环异构片段通常包含一个非共轭环或者多个环组成的稠环;构型异构片段是指包括了一个或多个顺反位点或手性中心,以及周围的化学环境。这三种类型的片段代表了这个分子的三类异构类型,拆分成片段后更方便下一步的分析。
(2)基于知识的构象推荐。从步骤(1)提取的每一个片段,都首先经过这一步骤处理。在实际的系统实现中,该步骤包含一个预建立的构象数据库,预建立的构象数据库来自实验构象或者历史计算结果。通过数据库可以检索出包含相应片段的分子构象,然后对检索出的分子中特定的柔性键或者环异构、顺反以及手性中心的构象统计,并得出推荐的构象以及置信度。通常置信度会有个经验阈值,大于阈值会认为知识推荐的可信度较高,将会直接使用推荐的结果;如果置信度较低,则会通过后续更精确的方式进行构象分析。
(3)基于力场扫描的构象推荐。扫描策略主要包括几个策略:一维或二维的柔性键等间距旋转扫描;柔性环的构象扫描;顺反、旋光性的构型扫描。利用分子力场,可以将快速对策略产生的构象进行优化和能量计算。然后根据能量筛选出合理的构象。
(4)利用QM的方法验证步骤(3)产生的构象,验证方法主要有两种:极值点位置分析,通过对极值点以及附近进行采样计算,比较QM和分子力场的极值点的位置是否吻合;另外就是对推荐出的构象的相对能量进行分析,验证QM与分子力场计算的相关性,从而验证力场的精度。如果验证通过,说明步骤(3)推荐的构象是有效的,否则问题可能出在力场精度上,就需要下一步对力场进行校正。
(5)力场修正。如果通用力场无法准确的描述这个分子的化学环境,就需要针对这个分子,对力场参数针对性的提升。通过对相应片段的分析,会根据柔性键、环异构、构型异构这几个类型加入QM采样计算作为力场参数修正的训练集,然后进行力场参数的修正。修正完之后,重新进行力场扫描。
(6)汇集片段的构象列表。将每个片段分开推荐的构象列表进行汇集,将构象表达的数值进行提取,包括柔性键的二面角值,或者环异构的异构空间参数,以及顺反或手性的标识,方便后续将这些参数进行组合优化。
(7)使用遗传算法,将各个片段的构象参数进行组合优化,找到最优的一组构象。如果考虑一个较大的分子,包含8个柔性角(每个柔性角4个极值点),两个异构环(每个异构环两种构型、两种取代位点),两个手性碳。这样构象组合可能多达百万(4^8*2*2*2*2=1,048,576),无法进行遍历,所以需要全局搜索的方式找到最优的一组构象。本专利使用了遗传算法处理该步骤,因为遗传算法具有过程简单,收敛速度快的特点。具体的遗传算法的过程见图2。
本算法的实现主要B/S架构,如图3所示,用户可以通过浏览器访问自动化构象分析服务,可以通过SMILES的形式上传需要自动化构象分析的2D分子结构。自动化构象分析服务是使用Python 2.7作为编程语言编写,部署在Kubernetes平台上。
用户可以通过点击开始整个构象分析流程。当分子上传后,自动化构象分析服务会向构象数据库发起查询请求。构象数据库是由PostgreSQL 9.6搭建而成,数据库中主要有两张表:Compound和Conformation。Compound主要保存了构象库包含的化合物信息,Conformation表中保存了每个化合物对应的一组3D构象信息。
当构象数据库返回的信息不足时,自动化构象分析服务就会向计算集群提交计算作业,以完成后续的计算任务。主要包括四个计算模块:力场扫描分析模块、QM验证模块、力场修正模块和遗传算法模块。这三个均使用Python 2.7编写,其中力场部分使用OpenMM做为能量计算工具,QM部分使用Psi4作为计算工具。这三个计算模块使用Docker作为构建和分发工具,方便分布式的任务调度。
自动化构象分析服务会每隔十秒钟检查仍在运行的计算任务,如果发现计算失败,就会进行三次重试,如果仍然失败,就终止本次计算,并将错误信息返回给用户;如果发现计算完成,就会回收计算结果,并返回给用户。
Claims (2)
1.类药有机分子的自动化构象分析方法,其特征在于,主要包含以下步骤:
(1)将输入分子提取成一组片段,片段主要分为三种类型:柔性键片段、环异构片段和构型异构片段;
柔性键片段包含一柔性键或者两个耦合在一起的柔性键,以及柔性键旁边邻近的化学集团,使用基于拓扑的规则来判断两个柔性键是否有耦合关系;通过对该柔性键片段的进一步分析,找到该片段的柔性键上的势能面或者极值点,从而代表整个分子在这个柔性键上的势能面;
环异构片段包含一个非共轭环或者多个环组成的稠环;
构型异构片段是指包括了一个或多个顺反位点或手性中心,以及周围的化学环境;
(2)基于知识的构象推荐;从预建立的构象数据库检索出包含步骤(1)相应片段的分子构象,然后对检索出的分子中特定的柔性键或者环异构、顺反以及手性中心的构象统计,并得出推荐的构象以及置信度;置信度包括经验阈值,大于阈值会认为知识推荐的可信度较高,将会直接使用推荐的结果;如果置信度较低,则会通过后续更精确的方式进行构象分析;
(3)基于力场扫描的构象推荐;扫描策略主要包括以下几个策略:一维或二维的柔性键等间距旋转扫描,柔性环的构象扫描,顺反的构型扫描;
利用分子力场,快速对策略产生的构象进行优化和能量计算,然后根据能量筛选出合理的构象;
(4)利用QM的方法验证步骤(3)产生的构象,如果验证通过,说明步骤(3)推荐的构象是有效的,否则需要下一步对力场进行校正;
(5)力场修正;如果通用力场无法准确的描述这个分子的化学环境,就需要针对这个分子,对力场参数针对性的提升;通过对相应片段的分析,会根据柔性键、环异构、构型异构这几个类型加入QM采样计算作为力场参数修正的训练集,然后进行力场参数的修正;修正完之后,重新进行力场扫描;
(6)汇集片段的构象列表;将每个片段分开推荐的构象列表进行汇集,将构象表达的数值进行提取,包括柔性键的二面角值,或者环异构的异构空间参数,以及顺反或手性的标识,用于后续参数进行组合优化;
(7)使用遗传算法,将各个片段的构象参数进行组合优化,全局搜索的方式找到最优的一组构象。
2.根据权利要求1所述的类药有机分子的自动化构象分析方法,其特征在于,步骤(4)所述的验证方法主要有两种:
极值点位置分析,通过对极值点以及附近进行采样计算,比较QM和分子力场的极值点的位置是否吻合;
或者,对推荐出的构象的相对能量进行分析,验证QM与分子力场计算的相关性,从而验证力场的精度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810437477.4A CN108763852B (zh) | 2018-05-09 | 2018-05-09 | 类药有机分子的自动化构象分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810437477.4A CN108763852B (zh) | 2018-05-09 | 2018-05-09 | 类药有机分子的自动化构象分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108763852A CN108763852A (zh) | 2018-11-06 |
CN108763852B true CN108763852B (zh) | 2021-06-15 |
Family
ID=64009393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810437477.4A Active CN108763852B (zh) | 2018-05-09 | 2018-05-09 | 类药有机分子的自动化构象分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108763852B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11443834B2 (en) | 2018-05-09 | 2022-09-13 | Shenzhen Jingtai Technology Co., Ltd. | Automatic conformation analysis method for quasi-drug organic molecules |
US11562809B2 (en) | 2018-12-25 | 2023-01-24 | Shenzhen Jingtai Technology Co., Ltd. | Method for automatically generating universal set of stereoisomers of organic molecule |
CN109741798B (zh) * | 2018-12-25 | 2022-03-15 | 深圳晶泰科技有限公司 | 有机分子的立体异构全集自动化生成方法 |
CN111415710B (zh) * | 2020-03-06 | 2021-03-19 | 深圳晶泰科技有限公司 | 用于分子构象空间分析的势能面扫描方法及系统 |
WO2021103402A1 (zh) * | 2020-04-21 | 2021-06-03 | 深圳晶泰科技有限公司 | 分子力场拟合方法 |
CN111653320B (zh) * | 2020-04-21 | 2021-02-12 | 深圳晶泰科技有限公司 | 分子力场拟合方法 |
CN111863140B (zh) * | 2020-06-15 | 2022-04-15 | 深圳晶泰科技有限公司 | 一种测试和拟合力场二面角参数的方法 |
US20220310210A1 (en) * | 2020-06-15 | 2022-09-29 | Shenzhen Jingtai Technology Co., Ltd. | Method of testing and fitting the dihedral angle parameters in force field |
WO2022094873A1 (zh) * | 2020-11-05 | 2022-05-12 | 深圳晶泰科技有限公司 | 分子力场质量控制系统及其控制方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010126669A2 (en) * | 2009-03-25 | 2010-11-04 | Massachusetts Institute Of Technology | Cellular automotion digital material |
CN102779239A (zh) * | 2011-05-09 | 2012-11-14 | 中国科学院研究生院 | 一种用于建立蛋白质体系分子模拟力场的方法 |
CN104715096A (zh) * | 2013-12-12 | 2015-06-17 | 中国科学院大连化学物理研究所 | Bp神经网络预测二肽模型多极展开属性计算方法 |
CN107209813A (zh) * | 2014-11-25 | 2017-09-26 | 国家信息及自动化研究院 | 用于分子结构的输入集合的相互作用参数 |
CN107229840A (zh) * | 2017-06-01 | 2017-10-03 | 浙江工业大学 | 一种基于菌群优化算法的蛋白质结构从头预测方法 |
-
2018
- 2018-05-09 CN CN201810437477.4A patent/CN108763852B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010126669A2 (en) * | 2009-03-25 | 2010-11-04 | Massachusetts Institute Of Technology | Cellular automotion digital material |
CN102779239A (zh) * | 2011-05-09 | 2012-11-14 | 中国科学院研究生院 | 一种用于建立蛋白质体系分子模拟力场的方法 |
CN104715096A (zh) * | 2013-12-12 | 2015-06-17 | 中国科学院大连化学物理研究所 | Bp神经网络预测二肽模型多极展开属性计算方法 |
CN107209813A (zh) * | 2014-11-25 | 2017-09-26 | 国家信息及自动化研究院 | 用于分子结构的输入集合的相互作用参数 |
CN107229840A (zh) * | 2017-06-01 | 2017-10-03 | 浙江工业大学 | 一种基于菌群优化算法的蛋白质结构从头预测方法 |
Non-Patent Citations (2)
Title |
---|
chen.et al.Single molecule interaction and conformation study based on atomic force microscopy.《EBSCO》.2011,正文第1-5页. * |
分子构象多模态优化算法设计及实现;金媚媚;《中国优秀硕士论文全文数据库》;20140615;正文第1-10页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108763852A (zh) | 2018-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108763852B (zh) | 类药有机分子的自动化构象分析方法 | |
CN107944046B (zh) | 大规模高维数据快速检索方法及系统 | |
Gao et al. | Alphadesign: A graph protein design method and benchmark on alphafolddb | |
CN1881218A (zh) | 聚类装置和聚类方法 | |
CN109029472A (zh) | 基于低采样率gps轨迹点的地图匹配方法 | |
CN1869971A (zh) | 数据划分设备和数据划分方法 | |
JP6694447B2 (ja) | ビッグデータの計算方法及びシステム、プログラムならびに記録媒体 | |
Luo et al. | A comprehensive review of scaffolding methods in genome assembly | |
CN105335415A (zh) | 基于输入预测的搜索方法和输入法系统 | |
Robles et al. | Bayesian network multi-classifiers for protein secondary structure prediction | |
He et al. | Evolutionary graph clustering for protein complex identification | |
CN110968801A (zh) | 地产产品搜索方法、存储介质及电子设备 | |
Wang et al. | NAS-FCOS: efficient search for object detection architectures | |
WO2019134319A1 (zh) | 类药有机分子的自动化构象分析方法 | |
Villegas-Morcillo et al. | Protein fold recognition from sequences using convolutional and recurrent neural networks | |
Ashtawy et al. | Boosted neural networks scoring functions for accurate ligand docking and ranking | |
CN104573036B (zh) | 一种基于距离的求解二维空间中代表性节点集的方法 | |
US20120109860A1 (en) | Enhanced Training Data for Learning-To-Rank | |
Zhao et al. | Autodes: Automl pipeline generation of classification with dynamic ensemble strategy selection | |
Niu et al. | HIV‐1 protease cleavage site prediction based on amino acid property | |
Zheng et al. | Disentangled neural architecture search | |
Rahman et al. | Exploring Chromatin Interaction Between Two Human Cell Types and Different Normalization Techniques for HI-C Data | |
CN114741548A (zh) | 一种基于小样本学习的桑叶病虫害检测方法 | |
CN112185466B (zh) | 直接利用蛋白质多序列联配信息构建蛋白质结构的方法 | |
KR101584857B1 (ko) | 염기 서열 정렬 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 3 / F, Shunfeng industrial building, No.2 Hongliu Road, Fubao community, Fubao street, Futian District, Shenzhen City, Guangdong Province Applicant after: Shenzhen Jingtai Technology Co.,Ltd. Address before: 518000 workshop, 4th floor, building 9, Hualian Industrial Zone, 91 Huaning Road, Dalang street, Longhua District, Shenzhen City, Guangdong Province Applicant before: Shenzhen Jingtai Technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |