CN109741798B - 有机分子的立体异构全集自动化生成方法 - Google Patents

有机分子的立体异构全集自动化生成方法 Download PDF

Info

Publication number
CN109741798B
CN109741798B CN201811589905.1A CN201811589905A CN109741798B CN 109741798 B CN109741798 B CN 109741798B CN 201811589905 A CN201811589905 A CN 201811589905A CN 109741798 B CN109741798 B CN 109741798B
Authority
CN
China
Prior art keywords
atom
fragment
fragments
template
isomeric
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811589905.1A
Other languages
English (en)
Other versions
CN109741798A (zh
Inventor
张焕淮
孙广旭
刘阳
温书豪
马健
赖力鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Jingtai Technology Co Ltd
Original Assignee
Shenzhen Jingtai Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Jingtai Technology Co Ltd filed Critical Shenzhen Jingtai Technology Co Ltd
Priority to CN201811589905.1A priority Critical patent/CN109741798B/zh
Publication of CN109741798A publication Critical patent/CN109741798A/zh
Application granted granted Critical
Publication of CN109741798B publication Critical patent/CN109741798B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于有机分子模拟计算领域,具体涉及一种有机分子的立体异构全集自动化生成方法,(1)将输入分子切分成一组片段;(2)用得到的异构片段到片段模板库中匹配片段模板;(3)根据片段模板信息生成出对应片段的所有异构;(4)遍历所有的异构片段及其位点,将步骤(1)中断的键两端的片段,按断键原子的所有可能的位点进行组装,得到所有的立体异构;如果需要过滤,则可以按照指定的过滤规则进行过滤。本发明可以很方便的描述相似片段的立体异构,并大量减少片段数量,极大地降低片段库的构建难度。分片段,再遍历片段的所有立体异构,然后根据位点组合拼装,可以容易地生成一个分子的所有立体异构。

Description

有机分子的立体异构全集自动化生成方法
技术领域
本发明属于有机分子模拟计算领域,具体涉及一种有机分子的立体异构全集自动化生成方法,用于对分子的手性异构、环异构、顺反异构进行综合分析,在不考虑直链异构如转动柔性角形成的异构的情况下,生成出所有的立体异构。
背景技术
立体异构生成在化学信息学中具有重要意义。目前常见的立体异构生成方法主要是基于知识的方法进行异构生成:
通常利用已有的异构库,寻找相似的结构集团并给出其立体异构。此方法适常见的方式是基于已知的构象数据库,将目标分子拆解成片段,然后在数据库中搜寻相同或相似的片段。最后将搜索出的片段异构组合成为整体异构。这种方式不足之处主要在于:基于已有的知识,数据库的片段异构覆盖度不够,对一些分子生成的立体异构不全。特别是环异构,由于稠环形式多种多样,现有数据库很难覆盖所有的环异构片段。另外,对于新出现的立体异构,可能查找不到,需要手动生成。
发明内容
针对上述技术问题,本发明提供一种有机分子的立体异构全集自动化生成方法,尽可能的提供更多的常见环的立体异构,
具体技术方案为:
有机分子的立体异构全集自动化生成方法,包括以下步骤:
(一)将输入分子切分成一组片段,片段主要分为三种类型:环异构片段、顺反异构片段、手性异构片段;
(二)用得到的异构片段到片段模板库中匹配片段模板;手性异构和顺反异构可不需要用模板描述;
(三)根据片段模板信息生成出对应片段的所有异构;对于顺反异构和手性异构,只需要在第(四)步中,交换其任意两个位点进行组装;
(四)遍历所有的异构片段及其位点,将步骤(一)中断的键两端的片段,按断键原子的所有可能的位点进行组装,得到所有的立体异构。
其中,步骤(一)所述的分子切分方法包括以下步骤:
(1)判断原子为环上非平面原子,则断掉与该原子相连的非环上单键,即断掉与该原子相连的非等价取代基;判断原子是否为环上平面原子的规则为:不连接双键或三键且不在共轭体系里;
(2)判断原子为手性中心原子,则断掉与该原子相连的任意一根单键,一般断掉相连原子的原子序最小的单键;
(3)判断原子处于顺反异构结构中,则断掉其任意单键,选取邻接原子原子序较小的单键;
上述所断的键中都不包括与氢原子形成的化学键。
步骤(二)具体的过程为:以原子模板为节点,键模板为边,构建图; 然后使用子图同构算法进行片段模板地匹配;所述的原子模板是描述一组原子的模板对象,键模板为描述一组键类型的模板对象;所述的片段模板描述了该片段所有立体异构的形状和所有的可能的位点及其位点的相对位置。
进一步的,步骤(四)的片段组装具体过程为:
(1)输入所有异构片段frg_list;
(2)遍历所有断键,设当前断键的两端原子为a_atom、b_atom;
(3)从frg_list中找到包含a_atom 的片段或列表A和包含b_atom的片段或列表B;
(4)将B插入到A中的a_atom原子的所有异构位点中,将A插入到B中的a_atom原子的所有异构位点,将由A和B组装得到新片段列表加到frg_list中,并将A 和B从frg_list移除;
(5)未遍历完所有断键, 则跳转到步骤(2)。
本发明提供的有机分子的立体异构全集自动化生成方法,一个片段模板只需描述一类最简单的片段,所以很容易就穷举出常见环的立体异构。并且使用片段模板,可以很方便的描述相似片段的立体异构,并大量减少片段数量,极大地降低片段库的构建难度。分片段,再遍历片段的所有立体异构,然后根据位点组合拼装,可以容易地生成一个分子的所有立体异构。
附图说明
图1是本发明立体异构生成方法的流程图;
图2 是本实施例的分子切分示意图;
图3 是本实施例的六元单键环异构形成形成异构示意图;
图4是本实施例顺反异构形成形成异构示意图;
图5 是本实施例手性异构形成形成异构示意图;
图6是本发明的分子切分流程图;
图7 是本发明片段拼装流程图。
具体实施方式
结合实施例说明本发明的具体技术方案。
如图1所示,有机分子的立体异构全集自动化生成方法,包括以下步骤:
(一)将输入分子切分成一组片段,片段主要分为三种类型:环异构片段,顺反异构片段,手性异构片段。环异构片段通常包含一个非共轭环或者多个环组成的稠环;顺反异构片段是指包括了一个或多个顺反位点以及周围的化学环境;手性异构片段包括了手性中心以及周围的化学环境。这三种类型的片段代表了这个分子的三类异构类型,其中环异构是最复杂的情形。
如图6所示,为分子切分算法流程,该算法包括以下过程:
(1)判断原子为环上非平面原子,则断掉与该原子相连的非环上单键,即断掉与该原子相连的非等价取代基。判断原子是否为环上平面原子的规则为:不连接双键或三键且不在共轭体系里。
(2)判断原子为手性中心原子,则断掉与该原子相连的任意一根单键,一般断掉相连原子原子序最小的单键。
(3)判断原子处于顺反异构结构中,则断掉其任意单键,这里也选取邻接原子原子序较小的单键。
上述所断的键中都不包括与氢(H)或氟(F)原子形成的化学键。
图2中的分子切分为三个片段:fragment1为顺反异构片段, fragment2为环异构片段, fragment3为手性异构片段。
(二)用得到的异构片段到片段模板库中匹配片段模板。以原子模板为节点,键模板为边,构建图; 然后使用子图同构算法(一般使用VF2算法)进行片段模板地匹配。原子模板是描述一组原子的模板对象,键模板为描述一组键类型的模板对象。片段模板描述了该片段所有立体异构的形状和所有的可能的位点及其位点的相对位置。它描述的是同一类片段的所有可能的异构信息:如图3,描述的是一个单键六元环,它有两种立体异构,分别是船式异构和椅式异构,环上每个原子都可能有两个异构位点。片段模板描述的是最简的片段,所以一个稠环片段可能匹配到多个片段模板。手性异构和顺反异构很简单,可以不需要用模板描述,如图4和图5, 因为其化学性质天然决定其交换任意两个位点(相连集团或者原子)即可形成异构。
(三)根据片段模板信息生成出对应片段的所有异构。一个异构片段可能匹配到多个片段模板,一个模板对应一个环,所以稠环片段的异构就是该片段对应的所有片段模板的所有异构组合。对于顺反异构和手性异构,只需要在第四步中,交换其任意两个位点进行组装就可以了。
(四)遍历所有的异构片段及其位点,将步骤一中断的键两端的片段,按断键原子的所有可能的位点进行组装,得到所有的立体异构,如图7,片段组装具体过程为:
(1)输入所有异构片段frg_list;
(2)遍历所有断键,设当前断键的两端原子为a_atom、b_atom;
(3)从frg_list中找到包含a_atom 的片段或列表A和包含b_atom的片段或列表B;
(4)将B插入到A中的a_atom原子的所有异构位点中,将A插入到B中的a_atom原子的所有异构位点,将由A和B组装得到新片段列表加到frg_list中,并将A 和B从frg_list移除;
(5)未遍历完所有断键, 则跳转到步骤(2)。
如图2所示分子,切出来的fragment2就是一个六元单键环片段,这个环有两种异构形式,断键的两个碳原子都有两个异构位点,因而fragment1、fragment3和fragment2进行组装时,都有两个插入位点;因此与fragment2相关的立体异构就有8(2 * 2 *)种,而fragment1和 fragment3自身也分别有两种异构,所以最终该分子一共会生成32(8*2*2)种立体异构。如果需要过滤, 则可以按照指定的过滤规则进行过滤。

Claims (3)

1.有机分子的立体异构全集自动化生成方法,其特征在于,包括以下步骤:
(一)将输入分子切分成一组片段,片段分为三种类型:环异构片段、顺反异构片段、手性异构片段;包括以下步骤:
(1)若原子为环上非平面原子,则断掉与该原子相连的非环上单键,即断掉与该原子相连的非等价取代基;判断原子是否为环上平面原子的规则为:不连接双键或三键且不在共轭体系里;
(2)若原子为手性中心原子,则断掉与该原子相连的任意一根单键,包括断掉相连原子的原子序最小的单键;
(3)若原子处于顺反异构结构中,则断掉其任意单键,选取其邻接原子中原子序较小的单键;
上述断的键中都不包括与氢原子形成的化学键;
(二)用得到的异构片段到片段模板库中匹配片段模板;其中,手性异构和顺反异构片段不需要用模板描述;
(三)根据片段模板信息生成出对应片段的所有异构;
(四)遍历所有的异构片段及其位点,将步骤(一)中断的键两端的片段,按断键原子的所有可能的位点进行组装,得到所有的立体异构;其中,对于顺反异构和手性异构片段,只需交换其任意两个位点进行组装。
2.根据权利要求1所述的有机分子的立体异构全集自动化生成方法,其特征在于,步骤(二)具体的过程为:以原子模板为节点,键模板为边,构建图; 然后使用子图同构算法进行片段模板地匹配;所述的原子模板是描述一组原子的模板对象,键模板为描述一组键类型的模板对象;所述的片段模板描述了该片段所有立体异构的形状和所有的可能的位点及其位点的相对位置。
3.根据权利要求1所述的有机分子的立体异构全集自动化生成方法,其特征在于,步骤(四)的片段组装具体过程为:
(1)输入所有异构片段frg_list;
(2)遍历所有断键,设当前断键的两端原子为a_atom、b_atom;
(3)从frg_list中找到包含a_atom 的片段或列表A和包含b_atom的片段或列表B;
(4)将B插入到A中的a_atom原子的所有异构位点中,将A插入到B中的a_atom原子的所有异构位点,将由A和B组装得到新片段列表加到frg_list中,并将A 和B从frg_list移除;
(5)未遍历完所有断键, 则跳转到步骤(2)。
CN201811589905.1A 2018-12-25 2018-12-25 有机分子的立体异构全集自动化生成方法 Active CN109741798B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811589905.1A CN109741798B (zh) 2018-12-25 2018-12-25 有机分子的立体异构全集自动化生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811589905.1A CN109741798B (zh) 2018-12-25 2018-12-25 有机分子的立体异构全集自动化生成方法

Publications (2)

Publication Number Publication Date
CN109741798A CN109741798A (zh) 2019-05-10
CN109741798B true CN109741798B (zh) 2022-03-15

Family

ID=66361181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811589905.1A Active CN109741798B (zh) 2018-12-25 2018-12-25 有机分子的立体异构全集自动化生成方法

Country Status (1)

Country Link
CN (1) CN109741798B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110379468B (zh) * 2019-07-17 2022-08-23 成都火石创造科技有限公司 一种改进的化学分子式切分方法
CN110534164A (zh) * 2019-09-26 2019-12-03 广州费米子科技有限责任公司 基于深度学习的药物分子生成方法
CN112420131B (zh) * 2020-11-20 2022-07-15 中国科学技术大学 基于数据挖掘的分子生成方法
CN115083539A (zh) * 2021-03-10 2022-09-20 腾讯科技(深圳)有限公司 分子结构的重建方法、装置、设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB848198A (en) * 1958-07-07 1960-09-14 Universal Oil Prod Co Process for hydroisomerization of hydrocarbons
CN108763852A (zh) * 2018-05-09 2018-11-06 深圳晶泰科技有限公司 类药有机分子的自动化构象分析方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010056329A1 (en) * 1997-06-24 2001-12-27 Andrew S. Smellie Method and apparatus for conformationally analyzing molecular fragments
US6448407B1 (en) * 2000-11-01 2002-09-10 Pe Corporation (Ny) Atropisomers of asymmetric xanthene fluorescent dyes and methods of DNA sequencing and fragment analysis
US8140311B2 (en) * 2002-08-06 2012-03-20 Zauhar Randy J Computer aided ligand-based and receptor-based drug design utilizing molecular shape and electrostatic complementarity

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB848198A (en) * 1958-07-07 1960-09-14 Universal Oil Prod Co Process for hydroisomerization of hydrocarbons
CN108763852A (zh) * 2018-05-09 2018-11-06 深圳晶泰科技有限公司 类药有机分子的自动化构象分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
立体异构分子模型的简易制作及其应用;李长智;《绵阳师范学院学报》;20031231;第22卷(第2期);第94-96页 *

Also Published As

Publication number Publication date
CN109741798A (zh) 2019-05-10

Similar Documents

Publication Publication Date Title
CN109741798B (zh) 有机分子的立体异构全集自动化生成方法
Warr Representation of chemical structures
US11087861B2 (en) Creation of new chemical compounds having desired properties using accumulated chemical data to construct a new chemical structure for synthesis
CN104794195B (zh) 一种用于电信潜在换机用户发现的数据挖掘方法
Menon et al. From database to knowledge graph—using data in chemistry
CN108763852B (zh) 类药有机分子的自动化构象分析方法
CN111292356B (zh) 运动轨迹与道路的匹配方法及装置
CN102971729A (zh) 将可操作属性归于描述个人身份的数据
CN108804593B (zh) 基于图谱和可达路径数的无向加权图的子图查询方法
CN103077255B (zh) 核电站3d模型识别方法和系统
CN115237760A (zh) 一种基于自然语言处理的JavaScript引擎定向模糊测试方法及系统
US11562809B2 (en) Method for automatically generating universal set of stereoisomers of organic molecule
CN104008205A (zh) 一种内容路由的查询方法及系统
Chávez-Hernández et al. Natural products subsets: Generation and characterization
CN110046265B (zh) 一种基于双层索引的子图查询方法
CN102637202B (zh) 一种迭代式概念属性名称自动获取方法和系统
CN110866586A (zh) 用于受资源约束多项目调度的改进遗传规划算法优化方法
CN107133281B (zh) 一种基于分组的全局多查询优化方法
Zupan et al. Expert system for solving problems in carbon-13 nuclear magnetic resonance spectroscopy
CN104834832B (zh) 代谢物ms/ms质谱计算机仿真方法
Yirik et al. Review on chemical graph theory and its application in computer-assisted structure elucidation
CN115762656A (zh) 一种基于已知反应智能预测未知化学反应的方法
Buchanan et al. Machine Intelligence
Egli et al. Computer‐Assisted Structural Interpretation of 1H‐NMR. Spectral Data
CN105740246A (zh) 基于图数据的集合关键字查询方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 3 / F, Shunfeng industrial building, No.2 Hongliu Road, Fubao community, Fubao street, Futian District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen Jingtai Technology Co.,Ltd.

Address before: 518000 4th floor, No.9 Hualian Industrial Zone, Xinshi community, Dalang street, Longhua District, Shenzhen City, Guangdong Province

Applicant before: Shenzhen Jingtai Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant