CN112837764B - 分子杂交方法及平台 - Google Patents
分子杂交方法及平台 Download PDFInfo
- Publication number
- CN112837764B CN112837764B CN202110082194.4A CN202110082194A CN112837764B CN 112837764 B CN112837764 B CN 112837764B CN 202110082194 A CN202110082194 A CN 202110082194A CN 112837764 B CN112837764 B CN 112837764B
- Authority
- CN
- China
- Prior art keywords
- pharmacophore
- side chains
- side chain
- molecule
- pharmacophores
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
Landscapes
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Physics & Mathematics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种分子杂交方法及平台包括:接收标注好区域的参照分子,进行侧链切割,切割后保留侧链原始的三维坐标,输出侧链,将不同参照分子切割下来的功能类似的侧链合并在一起,同时将母核合并保存;对侧链进行扩增;对每批同样位点切下来的侧链片段,提取侧链的共同药效团,构建药效团模型,对于药效团数量大于或等于设定数量的则判断为有效药效团模型;对扩增的片段结构进行属性过滤,对有效药效团模型再进行药效团过滤;将过滤后的片段与保存的母核结构,按照对应的切割点进行拼接,产生候选分子库;上述分子杂交方法及平台,生成大量结构新颖,多样性强的侧链片段,再与母核进行拼接,设计产生大量结构新颖的药物分子,增强药物设计扩展性及多样性。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种分子杂交方法及平台。
背景技术
分子杂交分为融合型(fused hybrid molecules, FHM)和连接型(linked hybridmolecules, LHM)。融合型分子杂交,可以让两个分子的不同片段融合在一起,使新分子能保留2个原分子的优势。连接型分子杂交是将两个分子连在一起,使新分子能更好的针对多靶点发挥作用。在两种杂交方式中,融合型杂交占多数,连接型杂交一般用于多靶点药物的设计,如果两个亲本分子的结构本身就较大的情况下,连接杂交后产生结构有很大可能会超过分子过滤规则限制的范围(如类药五规则)。
现有的分子杂交药物设计受限于药物化学家的经验和想象空间,往往难以设计出大量的结构新颖的药物分子,设计过程自动化程度不高,效率低下。
发明内容
基于此,有必要提供一种可提高扩展性的分子杂交方法。
同时,提供一种可提高扩展性的分子杂交平台。
一种分子杂交方法,包括:
侧链切割:接收标注好区域的参照分子,对标注好区域的参照分子进行侧链切割,切割后保留侧链原始的三维坐标,输出侧链,将不同参照分子切割下来的功能类似的侧链合并在一起,同时将参照分子切下各区域剩下的部分形成的母核合并到一起保存;
片段扩增:根据切下来的侧链对侧链进行扩增,生成更多的侧链;
药效团模型构建:对每批同样位点切下来的侧链片段,提取侧链的共同药效团,构建药效团模型,若药效团数量低于设定数量则判断为无效模型,对于药效团数量大于或等于设定数量的则判断为有效药效团模型;
片段过滤:对扩增的片段结构进行属性过滤,对有对应有效药效团模型的片段,再进行药效团过滤,对没有对应有效药效团模型的片段进入下一步;
片段拼接:将过滤后的片段与保存的母核结构,按照对应的切割点进行拼接,产生候选分子库。
在优选的实施例中,所述侧链切割步骤前还包括:
准备:接收参照分子,若参照分子有对应靶点的复合物晶体结构,则提取复合物中的配体构象,若没有,则经过对接后提取最优的对接构象,接受参照分子上不同区域的标记,将预切割位点的原子替换为同位素,不同参照分子上功能相近的区域采用相同的标注方式,侧链为标注为数字相对较大的同位素所在的片段,母核标注为相对较小的数字。
在优选的实施例中,所述片段扩增包括:通过深度学习,迁移学习侧链切割下来的侧链结构,通过生成模型进行侧链生成,生成更多的侧链;或通过等排体替换,对切割下来的侧链结构进行替换,得到更多的侧链。
在优选的实施例中,所述侧链切割步骤中,切割后保留侧链原始的三维坐标,输出侧链的SMILES;
在优选的实施例中,所述片段扩增包括分子生成法,所述分子生成法包括如下一种或多种生成法:
第一生成法:对输入分子提取三维结构和药效团类型、位置信息,通过训练将上述信息与分子的SMILES建立对应关系,产生新的分子或片段,产生的新分子或片段与输入分子的三维结构相似或具有相近的药效团;
第二生成法:提取输入分子的二维结构图信息,根据相似的环或键、或新的连接方式进行替换生成新片段;
所述等排体替换包括:接受输入分子以及指定的被替换的基团,搜索候选等排体并对输入分子进行等排体替换,过滤,并择优推荐的化合物。
在优选的实施例中,所述药效团过滤包括:对待筛选侧链生成更多构象,从待筛选侧链的构象中提取药效团,与参照分子侧链的药效团进行对齐打分,根据打分进行对侧链的过滤。
在优选的实施例中,所述提取侧链的共同药效团包括:从参照分子中提取药效团,药效团包括:三维坐标、类型、半径,分别对其他配体的每个构象提取药效团,并逐一对齐到参照分子的药效团上,保留每个配体构象对齐后与参照分子药效团的体积重合度最高的构象,若该配体构象上的某个药效团的球心与参照分子的某个药效团的球心的距离在设定距离内,且类型相同,则判断该配体与参照分子有共同药效团,位置以参照分子上的药效团为准。
在优选的实施例中,还包括:直接形成药效团模型:接收给定配体的三维构象文件,分别提取每个配体的药效团,将同类型且距离小于1埃的药效团合并,输出提取结果,获取多个配体的共同药效团模型,以对药效团模型进行编辑。
在优选的实施例中,所述标注包括:将一组分子的三维结构在空间进行叠合,在一个分子上用同位素标记的方式标注一个或多个原子,找到其他分子上距离被标注原子最近的且能组成非环单键的原子,对该原子添加对应的同位素标记。
一种分子杂交平台,包括:
侧链切割模块:接收标注好区域的参照分子,对标注好区域的参照分子进行侧链切割,切割后保留侧链原始的三维坐标,输出侧链的SMILES,将不同参照分子切割下来的功能类似的侧链合并在一起,同时将参照分子切下各区域剩下的部分形成的母核合并到一起保存;
片段扩增模块:根据切下来的侧链对侧链进行扩增,生成更多的侧链;
药效团模型构建模块:对每批同样位点切下来的侧链片段,提取侧链的共同药效团,构建药效团模型,若药效团数量低于设定数量则判断为无效模型,对于药效团数量大于或等于设定数量的则判断为有效药效团模型;
片段过滤模块:对扩增的片段结构进行属性过滤,对有对应有效药效团模型的片段,再进行药效团过滤,对没有对应有效药效团模型的片段连接到片段拼接模块;
片段拼接模块:将过滤后的片段与保存的母核结构,按照对应的切割点进行拼接,产生候选分子库。
在优选的实施例中,所述侧链切割模块还连接有:准备模块:接收参照分子,若参照分子有对应靶点的复合物晶体结构,则提取复合物中的配体构象,若没有,则经过对接后提取最优的对接构象,接受参照分子上不同区域的标记,将预切割位点的原子替换为同位素,不同参照分子上功能相近的区域采用相同的标注方式,侧链为标注为数字相对较大的同位素所在的片段,母核标注为相对较小的数字;
所述片段扩增模块包括:通过深度学习,迁移学习侧链切割下来的侧链结构,通过生成模型进行侧链生成,生成更多的侧链;或通过等排体替换,对切割下来的侧链结构进行替换,得到更多的侧链。
在优选的实施例中,还包括直接形成药效团模型模块:接收给定配体的三维构象文件,分别提取每个配体的药效团,将同类型且距离小于1埃的药效团合并,输出提取结果,获取多个配体的共同药效团模型,以对药效团模型进行编辑。
上述分子杂交方法及平台,为小分子药物筛选提供了一种分子杂交的分子库构建方式,通过侧链切割将功能类似的侧链合并在一起,同时将母核合并到一起保存,并通过将过滤后的片段与保存的母核,按照对应的切割点进行拼接,可以适合用于同一靶点有多个母核不同的参照分子的药物筛选场景,通过片段扩增模块,根据切下来的侧链对侧链进行扩增,生成大量结构新颖,多样性强的侧链片段,再与母核进行拼接,设计产生大量结构新颖的药物分子,增强药物设计扩展性及多样性。
基于分子杂交的药物设计是将两个或多个活性分子组合成一个全新的分子,新的分子继承了母体分子的优势结构,用这种策略可以提升分子的亲和力或其他方面的性能,并且可以能够实现与两个或多个靶标相互作用,减少不良副作用,减少药物相互作用,或减少耐药性的产生。
在针对某一靶点的药物设计中,会出现同一靶点有几种代表性结构(参照分子)不太相似(无共同母核)的情况,不过这几种参照分子在与靶点相互作用的时候会存在功能类似的区域,将这些区域定义好,则可以将参照分子按定义好的区域进行切分,再把功能类似的片段合并到一起,分别进行分子生成或等排体替换,产生更多的片段,再将不同区域间的片段重新拼接,实现融合型分子杂交。
另该分子杂交平台有效利用了基于深度学习的分子生成技术、药效团筛选技术、生物电子等排体替换技术,用于侧链片段的扩增,生成大量结构新颖,多样性强的侧链片段,再与母核进行拼接,组成待筛分子库,可应用于多种小分子药物研发场景中。
附图说明
图1为本发明一实施例的分子杂交方法的部分流程图;
图2为本发明一实施例的同位素标记分子与切割侧链示意图;
图3为本发明一实施例的片段扩增的效果展示示意图;
图4为本发明一具体实施例的一参照分子Ref_1的示意图;
图5为本发明一具体实施例的另一参照分子Ref_2的示意图;
图6为对图4、图5的参照分子Ref_1、参照分子Ref_2杂交出的部分分子结构示意图;
图7为本发明另一具体实施例的一参照分子Ref_3的示意图;
图8为本发明另一具体实施例的另一参照分子Ref_4的示意图;
图9为对图7、图8的参照分子Ref_3、参照分子Ref_4杂交出的部分分子结构示意图。
具体实施方式
如图1所示,本发明一实施例的分子杂交方法,包括:
步骤S101,准备:接收参照分子,若参照分子有对应靶点的复合物晶体结构,则提取复合物中的配体构象,若没有,则经过对接后提取最优的对接构象,接受参照分子上不同区域的标记,将预切割位点的原子替换为同位素,不同参照分子上功能相近的区域采用相同的标注方式,侧链为标注为数字相对较大的同位素所在的片段,母核标注为相对较小的数字;标注可以采用手动标注,也可采用自动标注。自动标注包括:将一组分子的三维结构在空间进行叠合,在一个分子上用同位素标记的方式标注一个或多个原子,找到其他分子上距离被标注原子最近的且能组成非环单键的原子,对该原子添加对应的同位素标记。
步骤S103,侧链切割:接收标注好区域的参照分子,对标注好区域的参照分子进行侧链切割,切割后保留侧链原始的三维坐标,输出侧链的SMILES(Simplified molecularinput line entry specification简化分子线性输入规范,一种用ASCII字符串明确描述分子结构的规范),将不同参照分子切割下来的功能类似的侧链合并在一起,同时将参照分子切下各区域剩下的部分形成的母核合并到一起保存;
步骤S105,片段扩增:根据切下来的侧链对侧链进行扩增,生成更多的侧链;
步骤S107,药效团模型构建:对每批同样位点切下来的侧链片段,提取侧链的共同药效团,构建药效团模型,若药效团数量低于设定数量则判断为无效模型,对于药效团数量大于或等于设定数量的则判断为有效药效团模型;
步骤S109,片段过滤:对扩增的片段结构进行属性过滤,对有对应有效药效团模型的片段,再进行药效团过滤,对没有对应有效药效团模型的片段进入下一步;属性过滤可以设置如PAINS(Pan-assay interference compounds 泛测定干扰化合物)、类药五规则等;
步骤S111,片段拼接:将过滤后的片段与保存的核心区域结构,按照对应的切割点进行拼接,产生候选分子库。按照对应的切割点进行拼接例如可将切割下来的R1侧链所生成的片段,拼接回核心区即母核的R1位点。
本实施例的将预切割位点的原子替换为同位素指的是对虚拟分子上的原子进行的同位素替换。可以使用基于Python语言编写的开源化学信息学工具RDKit实现的。当然也可采用工具进行实现。原子替换为某种同位素只是用于标记,该过程仅在计算机中进行,不涉及真实分子。标记可以采用人工标记,由用户(如药物化学家)来指定要进行侧链切割的位点,该位点是基于药物研发前期的构效关系分析进行人工确定的。
步骤S103,侧链切割步骤中,如在图2中,同位素标注为887和888的原子所组成的键被切开,数字大的同位素所在的片段为侧链,数字小的为母核。对于图2中的分子1,除887和888以外,还有998和999所组成的键,因此分子1被分成了母核和R1、R2侧链三部分。分子2只有887和888键,因此只有母核和R1侧链两部分。
同位素的数字要求要断开的键上标注的数字是相连的,且较小的数字放在母核上,较大的数字放在侧链上,例如将母核上的原子标注为77,R1侧链的原子标注为78。标记是通过在sdf文件中每个分子区块的结尾以文本的方式进行标记的。如可通过M ISO 4表示分子中有4个同位素标记,2 887代表第二个原子被标记为887号同位素,11 886代表11号原子被标记为886号同位素,以此类推。在多个分子中,同样同位素标记所切下的片段为同一侧链。R1-Rn的顺序按照同位素标记的母核同位素数字大小排列。例如,切下分子A中的886-887同位素标记原子形成的键,再切下分子B中的886-887同位素标记原子形成的键,分别得到两条侧链,这两条侧链都为R1侧链;切下分子A中的996-997同位素标记原子形成的键,再切下分子B中的996-997同位素标记原子形成的键,分别得到两条侧链,这两条侧链都为R2侧链。
进一步,本实施例的片段扩增包括:通过深度学习,迁移学习侧链切割下来的侧链结构,通过生成模型进行侧链生成,生成更多的侧链;或通过等排体替换,对切割下来的侧链结构进行替换,得到更多的侧链。
进一步,本实施例的片段扩增包括:分子生成法。分子生成法包括:第一生成法、第二生成法的一种或多种生成法。
第一生成法:通过学习输入分子的三维形状生成分子。将保留原始坐标的侧链sdf输入进行迁移学习产生新的片段。对输入分子提取三维结构和药效团类型、位置信息,通过训练将上述信息与分子的SMILES建立对应关系,产生新的分子或片段,产生的新分子或片段与输入分子的三维结构相似或具有相近的药效团。如图3所示,通过分子生成法进行片段扩增的部分示意图。五角星遮挡住的部分为母核。
进一步,第一生成法以活性分子的构象为输入,生成与其形状和药效团特征相似的新分子;继承若干活性分子各自的部分结构特征生成杂交分子;在基于分子形状的化学空间中做随机探索和生成。模型的cVAE网络隐层空间代表了一种基于小分子构象的化学空间表示。在该隐层空间中按照标准高斯分布随机生成坐标,可在该化学空间中随机采样。将该变量通过cVAE的解码器部分以及CNN、LSTM网络,可以生成SMILES形式的随机分子。改变隐层空间中的采样策略,可以实现定向探索和生成。
第二生成法:基于分子结构片段,用侧链的SMILES输入模型,迁移学习后产生新的片段。迁移学习是在使用分子生成进行分子库构建时,在预训练模型的基础上,使用少量输入分子或片段对模型进行微调。提取输入分子的二维结构图信息,根据相似的环或键、或新的连接方式进行替换生成新片段。连接方式的替换例如由临位取代变为对位取代。如图3所示,进行片段扩增的部分示意图。五角星遮挡住的部分为母核。
除了上述分子生成法外,当然也可采用其他分子生成法进行片段扩增。
本实施例的等排体替换包括:接受输入分子以及指定的被替换的基团,搜索候选等排体并对输入分子进行等排体替换,过滤,并择优推荐的化合物。通过SGR(等排体替换)方法产生新的侧链片段,新生成的片段如图3所示。
等排体替换可以基于MMP(Maximum Margin Projection)算法生成的广义等排体库,来从中寻找待优化分子片段对应的等排体,并完成基团替换。当输入一个分子以及指定某些被替换的基团后,能快速搜索候选等排体并对输入分子进行等排体替换,自动过滤并推荐理化性质优异、结构多样的化合物。产生的新片段与被替换的片段在体积、形状、构象、电子分布、脂水分配系数pKa,化学反应性和氢键形成能力等性质上具有相似性。
进一步,本实施例的药效团过滤包括:对待筛选侧链生成更多构象,从待筛选侧链的构象中提取药效团,与参照分子侧链的药效团进行对齐打分,根据打分进行对侧链的过滤。优选的,可通过药效团模型提取参照分子侧链的药效团,然后通过药效团模型对侧链扩增得到的侧链进行药效团筛选。具体过程为:为待筛侧链生成更多构象,从每个待筛侧链的构象中提取药效团,然后将待筛侧链构象中提取出的药效团与参照分子侧链的药效团进行对齐打分(分数为0-1,1为两者的药效团可以完全重合),根据打分进行对侧链进行过滤。
药效团模型可以方便快捷的建立药效团模型,并进行高通量药效团模型筛选。有基于受体,基于配体,基于复合物三种可选的药效团模型构建方式。
进一步,本实施例的提取侧链的共同药效团包括:从参照分子中提取药效团,药效团包括:三维坐标、类型、半径,分别对其他配体的每个构象提取药效团,并逐一对齐到参照分子的药效团上,保留每个配体构象对齐后与参照分子药效团的体积重合度最高的构象,若该配体构象上的某个药效团的球心与参照分子的某个药效团的球心的距离在设定距离内,且类型相同,则判断该配体与参照分子有共同药效团,对药效团进行合并,位置以参照分子上的药效团为准。
具体的多个配体提取共同药效团的方式:用户指定一个参照分子。程序从参照分子中提取出药效团(药效团由x、y、z坐标,类型,以及半径组成)。然后分别对其它配体的每个构象提取药效团,并逐一尝试对齐到参照分子的药效团上,保留每个配体构象对齐后与参照分子药效团体积重合度最高的构象,如果该配体构象上的某个药效团的球心与参照分子的某个药效团的球心距离在1埃内,且类型相同,则认为这是该配体与参照分子的共同药效团,位置以参照分子上的药效团为准。即在参照分子中找哪些药效团是所有配体共有的。
步骤S105,片段扩增步骤进行扩增后,可分别将生成的侧链保存至CSV中,将多个分子生成模型输出的csv文件内容进行合并,合并成一个csv文件。并为每个侧链的拼接位点加上与切割侧链相同的同位素标记。例如可用分子生成模型生成一些R1侧链,将这些R1侧链放进一个csv文件中保存,为每一条侧链SMILES的星号位置添加#[999N]标记,该标记用于表示侧链拼接位点。
将合并后的csv与进行侧链切割前的母核进行随机拼接。例如对A和B两个分子进行同位素标记侧链切割,产生2条R1侧链和2条R2侧链,以及2个母核。对R1和R2侧链进行分子生成,假如生成共计200个R1和100个R2侧链。将这200个R1侧链和100个R2侧链拼接至A和B的母核上,对于A的母核,有200个R1侧链和100个R2侧链进行组合(200 x 100 = 20000),对B的母核也是同样(200 x 100 = 20000),因此最终通过拼接共计产生20000个A母核的分子和20000个B母核的分子,共计40000分子。
对侧链进行筛选时,可以设定一些化学属性的上限和下限范围,用于将符合条件的侧链选出。可设定的条件有:环的数量,芳香环的数量,可旋转键的数量,分子量,氢键供体个数,氢键受体个数,LogP值,TPSA值,最大环的原子数量,手性中心数量。为输入的每条侧链计算这些属性,然后只输出符合条件的侧链,输出输出的文件格式都为csv。例如用户设定分子量范围为[100, 250],环的数量范围为[1, 2],则选出的侧链分子量必定在100-250间,且必定包含1-2个环。
本发明还可以从多个参照分子中提取共同药效团,参照分子通常有三维构象,可以以sdf文件的格式保存。当用户给定配体为sdf格式的三维构象文件时,分别提取每个配体的药效团,然后将同类型且距离小于1埃的药效团合并,最终程序以mol2格式输出提取结果,即多个配体共同的药效团模型,可供用户通过文本编辑器对药效团模型进行编辑。优选的,可通过药效团模型从多个参照分子中提取共同药效团。参照分子通常有三维构象,以sdf文件的格式保存。当用户给定配体为sdf格式的三维构象文件时,模型会分别提取每个配体的药效团,然后将同类型且距离小于1埃的药效团合并。最终程序以mol2格式输出提取结果,即多个配体共同的药效团模型,可供用户通过文本编辑器对药效团模型进行编辑。
药效团模型可以方便快捷的建立药效团模型,并进行高通量药效团模型筛选。有基于受体,基于配体,基于复合物三种可选的药效团模型构建方式。
多个配体提取共同药效团的方式:用户指定一个参照分子。程序从参照分子中提取出药效团(药效团由x,y,z坐标,类型,以及半径组成)。然后分别对其它配体的每个构象提取药效团,并逐一尝试对齐到参照分子的药效团上,保留每个配体构象对齐后与参照分子药效团体积重合度最高的构象,如果该配体构象上的某个药效团的球心与参照分子的某个药效团的球心距离在1埃内,且类型相同,则认为这是该配体与参照分子的共同药效团,位置以参照分子上的药效团为准。其实就是在参照分子中找哪些药效团是所有配体共有的。
药效团模型中的药效团类型有:氢键供体(DON)、氢键受体(ACC)、芳香环(AR)、疏水相互作用(HYD)、正电荷(ANI)、负电荷(CAT)。模型中包含13个药效团,每个药效团都有种类、坐标信息。
优选的,本实施例中将药效团数量低于3个的,判断为无效模型;无效模型没有使用价值,后续不再通过该药效团模型进行过滤。对于药效团数量大于或等于3个的,判断为有效药效团模型。
本发明基于以上切割侧链-生成-拼接至母核的技术手段,构建了分子杂交平台,为药物筛选提供杂交分子库。
如图4至图5所示,将参照分子Ref_1和Ref_2的R1侧链与母核相连的单键上的原子分别以同位素标记为886和887, R2侧链与母核相连的单键上的原子分别以同位素标记为996和997,将两个标记后的分子保存到一个sdf文件中。输入含有标记后分子的sdf文件,分别切下两个分子的R1和R2侧链,保存到2个csv中,并将母核结构保存到1个csv中。
通过分子生成法分别对R1和R2侧链进行扩增,生成方法的最大生成数量设置为500。分别保存生成的R1和R2侧链至csv中。然后汇总生成的结果。最终得到R1侧链1461条,R2侧链1492条。
通过分子属性过滤对R1和R2侧链进行筛选:设置LogP(the logarithm of thePartition Coefficient脂水分配系数)范围为0-3,分子量范围为150-300,TPSA(Topological Polar Surface Area 拓扑极性表面积)范围为20-60,可旋转键范围为2-6。最终保留R1分侧链905条,R2侧链768条。
将筛选过后的R1和R2按对应的位点随机拼接至2个参照分子的母核结构上,最终产生了1390080 (768 x 905 x 2)个分子。杂交出的部分分子结构如图6所示。
如图7至图8将参照分子Ref_3和Ref_4的R1侧链与母核相连的单键上的原子分别以同位素标记为886和887, R2侧链与母核相连的单键上的原子分别以同位素标记为996和997, 将两个标记后的分子保存到一个sdf文件中。输入含有标记后分子的sdf文件,分别切下两个分子的R1和R2侧链,保存到2个csv中,并将母核结构保存到1个csv中。
通过分子生成法分别对R1和R2侧链进行扩增,生成方法的最大生成数量设置为500。分别保存生成的R1和R2侧链至csv中。然后通过MergeGenResult模块汇总生成的结果。最终得到R1侧链1410条,R2侧链1422条。
通过分子属性过滤对R1和R2侧链进行筛选:设置LogP范围为1-3,分子量范围为150-300,TPSA范围为30-60,可旋转键范围为2-6。 最终保留R1分侧链505条,R2侧链368条。
将筛选过后的R1和R2按对应的位点随机拼接至2个参照分子的母核结构上,最终产生了371680 (505 x 368 x 2)个分子。杂交出的部分分子结构如9图所示。
本发明一实施例的分子杂交平台,包括:
准备模块:接收参照分子,若参照分子有对应靶点的复合物晶体结构,则提取复合物中的配体构象,若没有,则经过对接后提取最优的对接构象,接受参照分子上不同区域的标记,将预切割位点的原子替换为同位素,不同参照分子上功能相近的区域采用相同的标注方式,侧链为标注为数字相对较大的同位素所在的片段,母核标注为相对较小的数字;
侧链切割模块:接收标注好区域的参照分子,对标注好区域的参照分子进行侧链切割,切割后保留侧链原始的三维坐标,输出侧链的SMILES,将不同参照分子切割下来的功能类似的侧链合并在一起,同时将参照分子切下各区域剩下的部分形成的母核合并到一起保存;
片段扩增模块:根据切下来的侧链对侧链进行扩增,生成更多的侧链;
药效团模型构建模块:对每批同样位点切下来的侧链片段,提取侧链的共同药效团,构建药效团模型,若药效团数量低于设定数量则判断为无效模型,对于药效团数量大于或等于设定数量的则判断为有效药效团模型;
片段过滤模块:对扩增的片段结构进行属性过滤,对有对应有效药效团模型的片段,再进行药效团过滤,对没有对应有效药效团模型的片段的连接到片段拼接模块进行处理;
片段拼接模块:将过滤后的片段与保存的核心区域结构,按照对应的切割点进行拼接,产生候选分子库。
标注可以采用手动标注,也可采用自动标注。自动标注包括:将一组分子的三维结构在空间进行叠合,在一个分子上用同位素标记的方式标注一个或多个原子,找到其他分子上距离被标注原子最近的且能组成非环单键的原子,对该原子添加对应的同位素标记。
进一步,本实施例的片段扩增模块包括:通过深度学习,迁移学习侧链切割下来的侧链结构,通过生成模型进行侧链生成,生成更多的侧链;或通过等排体替换,对切割下来的侧链结构进行替换,得到更多的侧链。
片段扩增模块生成的分子如图3所示,五角星遮挡住的部分为母核。进一步,本实施例的片段扩增模块包括:分子生成单元、等排体替换单元等。
分子生成单元:通过对输入分子进行学习,通过训练产生新的分子或片段;产生的新分子或片段与输入分子的三维结构相似或具有相近的药效团。分子生成单元包括:第一生成单元、第二生成单元等的一种或多个单元。
第一生成单元:通过学习输入分子的三维形状生成分子。将保留原始坐标的侧链sdf输入进行迁移学习产生新的片段。对输入分子提取三维结构和药效团类型、位置信息,通过训练将上述信息与分子的SMILE建立对应关系,产生新的分子或片段,产生的新分子或片段与输入分子的三维结构相似或具有相近的药效团。
第二生成单元:基于分子结构片段,用侧链的SMILES输入模型,迁移学习后产生新的片段。提取输入分子的二维结构图信息,根据相似的环或键、或新的连接方式进行替换生成新片段。连接方式的替换例如由临位取代变为对位取代。
等排体替换单元通过SGR(等排体替换)方法产生新的侧链片段。其可以基于MMP(Maximum Margin Projection)算法生成的广义等排体库,来从中寻找待优化分子片段对应的等排体,并完成基团替换的工具。当输入一个分子以及指定某些被替换的基团后,能快速搜索候选等排体并对输入分子进行等排体替换,自动过滤并推荐理化性质优异、结构多样的化合物。产生的新片段与被替换的片段在体积、形状、构象、电子分布、脂水分配系数pKa,化学反应性和氢键形成能力等性质上具有相似性。
进一步,本实施例的药效团过滤包括:对待筛选侧链生成更多构象,从待筛选侧链的构象中提取药效团,与参照分子侧链的药效团进行对齐打分,根据打分进行对侧链的过滤。 优选的,可通过药效团模型提取参照分子侧链的药效团,然后通过药效团模型对侧链扩增得到的侧链进行药效团筛选。具体过程为:为待筛侧链生成更多构象,从每个待筛侧链的构象中提取药效团,然后将待筛侧链构象中提取出的药效团与参照分子侧链的药效团进行对齐打分(分数为0-1,1为两者的药效团可以完全重合),根据打分进行对侧链进行过滤。
药效团模型可以方便快捷的建立药效团模型,并进行高通量药效团模型筛选。有基于受体,基于配体,基于复合物三种可选的药效团模型构建方式。
进一步,本实施例的提取侧链的共同药效团包括:从参照分子中提取药效团,药效团包括:三维坐标、类型、半径,分别对其他配体的每个构象提取药效团,并逐一对齐到参照分子的药效团上,保留每个配体构象对齐后与参照分子药效团的体积重合度最高的构象,若该配体构象上的某个药效团的球心与参照分子的某个药效团的球心的距离在设定距离内,且类型相同,则判断该配体与参照分子有共同药效团,对药效团进行合并,位置以参照分子上的药效团为准。
在优选的实施例中,还包括:直接形成药效团模型模块:接收给定配体的三维构象文件,分别提取每个配体的药效团,将同类型且距离小于1埃的药效团合并,输出提取结果,获取多个配体的共同药效团模型,以对药效团模型进行编辑。
本发明的分子杂交方法及平台,为小分子药物筛选提供了一种分子杂交的分子库构建方式,适合用于同一靶点有多个母核不同的参照分子的药物筛选场景。并且该分子杂交平台有效利用了基于深度学习的分子生成技术、药效团筛选技术、生物电子等排体替换技术,用于侧链片段的扩增,生成大量结构新颖,多样性强的侧链片段,再与母核进行拼接,组成待筛分子库,可应用于多种小分子药物研发场景中。
以上述依据本申请的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项申请技术思想的范围内,进行多样的变更以及修改。本项申请的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
Claims (7)
1.一种分子杂交方法,其特征在于,包括:
侧链切割:接收标注好区域的参照分子,对标注好区域的参照分子进行侧链切割,切割后保留侧链原始的三维坐标,输出侧链,将不同参照分子切割下来的功能类似的侧链合并在一起,同时将参照分子切下各区域剩下的部分形成的母核合并到一起保存;
片段扩增:根据切下来的侧链对侧链进行扩增,生成更多的侧链;
药效团模型构建:对每批同样位点切下来的侧链片段,提取侧链的共同药效团,构建药效团模型,若药效团数量低于设定数量则判断为无效模型,对于药效团数量大于或等于设定数量的则判断为有效药效团模型;
片段过滤:对扩增的片段结构进行属性过滤,对有对应有效药效团模型的片段,再进行药效团过滤,对没有对应有效药效团模型的片段进入下一步;
片段拼接:将过滤后的片段与保存的母核结构,按照对应的切割点进行拼接,产生候选分子库;
所述侧链切割步骤前还包括:
准备:接收参照分子,若参照分子有对应靶点的复合物晶体结构,则提取复合物中的配体构象,若没有,则经过对接后提取最优的对接构象,接受参照分子上不同区域的标记,将预切割位点的原子替换为同位素,不同参照分子上功能相近的区域采用相同的标注方式;
所述片段扩增包括:通过深度学习方法,迁移学习侧链切割下来的侧链结构,通过生成模型进行侧链生成,生成更多的侧链;或通过等排体替换,对切割下来的侧链结构进行替换,得到更多的侧链。
2.根据权利要求1所述的分子杂交方法,其特征在于,所述侧链切割步骤中,切割后保留侧链原始的三维坐标,输出侧链的SMILES;
所述片段扩增包括分子生成法,所述分子生成法包括如下一种或多种生成法:
第一生成法:对输入分子提取三维结构和药效团类型、位置信息,通过训练将上述信息与分子的SMILE建立对应关系,产生新的分子或片段,产生的新分子或片段与输入分子的三维结构相似或具有相近的药效团;
第二生成法:提取输入分子的二维结构图信息,根据相似的环或键、或新的连接方式进行替换生成新片段;
所述等排体替换包括:接受输入分子以及指定的被替换的基团,搜索候选等排体并对输入分子进行等排体替换,过滤,并择优推荐的化合物。
3.根据权利要求1至2任意一项所述的分子杂交方法,其特征在于,所述药效团过滤包括:对待筛选侧链生成更多构象,从待筛选侧链的构象中提取药效团,与参照分子侧链的药效团进行对齐打分,根据打分进行对侧链的过滤。
4.根据权利要求1至2任意一项所述的分子杂交方法,其特征在于,所述提取侧链的共同药效团包括:从参照分子中提取药效团,药效团包括:三维坐标、类型、半径,分别对其他配体的每个构象提取药效团,并逐一对齐到参照分子的药效团上,保留每个配体构象对齐后与参照分子药效团的体积重合度最高的构象,若该配体构象上的某个药效团的球心与参照分子的某个药效团的球心的距离在设定距离内,且类型相同,则判断该配体与参照分子有共同药效团,位置以参照分子上的药效团为准。
5.根据权利要求1至2任意一项所述的分子杂交方法,其特征在于,还包括:直接形成药效团模型:接收给定配体的三维构象文件,分别提取每个配体的药效团,将同类型且距离小于1埃的药效团合并,输出提取结果,获取多个配体的共同药效团模型,以对药效团模型进行编辑。
6.根据权利要求1至2任意一项所述的分子杂交方法,其特征在于,所述标注:将一组分子的三维结构在空间进行叠合,在一个分子上用同位素标记的方式标注一个或多个原子,找到其他分子上距离被标注原子最近的且能组成非环单键的原子,对该原子添加对应的同位素标记。
7.一种分子杂交平台,其特征在于,包括:
侧链切割模块:接收标注好区域的参照分子,对标注好区域的参照分子进行侧链切割,切割后保留侧链原始的三维坐标,输出侧链的SMILES,将不同参照分子切割下来的功能类似的侧链合并在一起,同时将参照分子切下各区域剩下的部分形成的母核合并到一起保存;
片段扩增模块:根据切下来的侧链对侧链进行扩增,生成更多的侧链;
药效团模型构建模块:对每批同样位点切下来的侧链片段,提取侧链的共同药效团,构建药效团模型,若药效团数量低于设定数量则判断为无效模型,对于药效团数量大于或等于设定数量的则判断为有效药效团模型;
片段过滤模块:对扩增的片段结构进行属性过滤,对有对应有效药效团模型的片段,再进行药效团过滤,对没有对应有效药效团模型的片段连接到片段拼接模块进行处理;
片段拼接模块:将过滤后的片段与保存的母核结构,按照对应的切割点进行拼接,产生候选分子库;
所述侧链切割模块还连接有:准备模块:接收参照分子,若参照分子有对应靶点的复合物晶体结构,则提取复合物中的配体构象,若没有,则经过对接后提取最优的对接构象,接受参照分子上不同区域的标记,将预切割位点的原子替换为同位素,不同参照分子上功能相近的区域采用相同的标注方式;
所述片段扩增模块包括:通过深度学习,迁移学习侧链切割下来的侧链结构,通过生成模型进行侧链生成,生成更多的侧链;或通过等排体替换,对切割下来的侧链结构进行替换,得到更多的侧链;
所述分子杂交平台还包括:直接形成药效团模型模块:接收给定配体的三维构象文件,分别提取每个配体的药效团,将同类型且距离小于1埃的药效团合并,输出提取结果,获取多个配体的共同药效团模型,以对药效团模型进行编辑。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110082194.4A CN112837764B (zh) | 2021-01-21 | 2021-01-21 | 分子杂交方法及平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110082194.4A CN112837764B (zh) | 2021-01-21 | 2021-01-21 | 分子杂交方法及平台 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112837764A CN112837764A (zh) | 2021-05-25 |
CN112837764B true CN112837764B (zh) | 2023-07-07 |
Family
ID=75929649
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110082194.4A Active CN112837764B (zh) | 2021-01-21 | 2021-01-21 | 分子杂交方法及平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112837764B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023097680A1 (zh) * | 2021-12-03 | 2023-06-08 | 深圳晶泰科技有限公司 | 确定相邻分子的方法、装置、设计方法和电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101329698A (zh) * | 2008-07-31 | 2008-12-24 | 四川大学 | 基于药效团模型的全新药物分子构建方法 |
CN101503827A (zh) * | 2009-03-19 | 2009-08-12 | 西安近代化学研究所 | 基于smile化学表达式生成含能化合物分子组合库的方法 |
CN102609586A (zh) * | 2012-02-10 | 2012-07-25 | 王世范 | 一种新药创制方法 |
CN104558200A (zh) * | 2004-09-02 | 2015-04-29 | 克格诺西有限公司 | 改进的apo e类似物及其使用方法 |
CN105273066A (zh) * | 2010-03-16 | 2016-01-27 | 欧洲分子生物学实验室(Embl) | 来自甲型流感2009大流行h1n1病毒的rna依赖性rna聚合酶的pa亚基片段及其用途 |
CN111935211A (zh) * | 2020-06-29 | 2020-11-13 | 山东爱城市网信息技术有限公司 | 基于区块链的采用侧链提升主链性能的方法及设备、介质 |
-
2021
- 2021-01-21 CN CN202110082194.4A patent/CN112837764B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104558200A (zh) * | 2004-09-02 | 2015-04-29 | 克格诺西有限公司 | 改进的apo e类似物及其使用方法 |
CN101329698A (zh) * | 2008-07-31 | 2008-12-24 | 四川大学 | 基于药效团模型的全新药物分子构建方法 |
CN101503827A (zh) * | 2009-03-19 | 2009-08-12 | 西安近代化学研究所 | 基于smile化学表达式生成含能化合物分子组合库的方法 |
CN105273066A (zh) * | 2010-03-16 | 2016-01-27 | 欧洲分子生物学实验室(Embl) | 来自甲型流感2009大流行h1n1病毒的rna依赖性rna聚合酶的pa亚基片段及其用途 |
CN102609586A (zh) * | 2012-02-10 | 2012-07-25 | 王世范 | 一种新药创制方法 |
CN111935211A (zh) * | 2020-06-29 | 2020-11-13 | 山东爱城市网信息技术有限公司 | 基于区块链的采用侧链提升主链性能的方法及设备、介质 |
Non-Patent Citations (1)
Title |
---|
基于药物数据报道数据库的虚拟组合片段库构建;张珉;盛春泉;徐辉;宋云龙;张万年;;中国科学(B辑:化学)(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112837764A (zh) | 2021-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113096723B (zh) | 小分子药物筛选通用分子库构建平台 | |
NL1028923C2 (nl) | Werkwijze, toestel en software voor het extraheren van chemische gegevens. | |
Dabrowski-Tumanski et al. | Topoly: Python package to analyze topology of polymers | |
US20130346383A1 (en) | Search query processing | |
EP3850546A1 (en) | Systems and methods for graph-based ai training | |
CN112837764B (zh) | 分子杂交方法及平台 | |
Rinderle et al. | Businesss process visualization-use cases, challenges, solutions | |
Yu et al. | DDOT: a Swiss army knife for investigating data-driven biological ontologies | |
CN109828886A (zh) | 一种容器云环境下的ci/cd监控方法和系统 | |
JP2022553990A (ja) | キーポイントの検出方法および装置、電子設備、記憶媒体、およびコンピュータプログラム | |
Grzybowski et al. | Network search algorithms and scoring functions for advanced‐level computerized synthesis planning | |
Szkandera et al. | Narrow passage problem solution for motion planning | |
Wolber et al. | Pharmacophores from macromolecular complexes with LigandScout | |
Gobbi et al. | Atom-Atom-Path similarity and Sphere Exclusion clustering: tools for prioritizing fragment hits | |
US20220180243A1 (en) | System and method of suggesting machine learning workflows through machine learning | |
CN114612211A (zh) | 一种启发式自引入技术债务数据标注及训练方法和系统 | |
Balint et al. | Procedural generation of narrative worlds | |
CN112992289B (zh) | 小分子激酶抑制剂筛选分子库构建方法及系统 | |
Daras et al. | Development of business spatial analysis tools: methodology and framework | |
Revell et al. | Generalising OS MasterMap® topographic buildings and ITN road centerlines to 1: 50000 scale using a spatial hierarchy of agents, triangulation and topology | |
KR101940251B1 (ko) | 하둡 맵리듀스 기반의 공간 지식 추출 시스템 | |
Çelik et al. | A sectoral hierarchical clustering of SMEs in Turkey with respect to general support programs | |
CN116108757B (zh) | 试训环境中多级仿真时间推进方法、服务器及存储介质 | |
CN112101679B (zh) | 基于人工智能的导航道路选择方法、装置 | |
JP2006521639A (ja) | インタロック状態のツリーデータストアにデータを記憶し、このデータにアクセスするためのシステムおよび方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Unit 706, 7th floor, block AB, Dongsheng building, 8 Zhongguancun East Road, Haidian District, Beijing 100083 Applicant after: Beijing Jingtai Technology Co.,Ltd. Address before: Unit 706, 7th floor, block AB, Dongsheng building, 8 Zhongguancun East Road, Haidian District, Beijing 100083 Applicant before: BEIJING JINGPAI TECHNOLOGY Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |