CN113096723B - 小分子药物筛选通用分子库构建平台 - Google Patents
小分子药物筛选通用分子库构建平台 Download PDFInfo
- Publication number
- CN113096723B CN113096723B CN202110314121.3A CN202110314121A CN113096723B CN 113096723 B CN113096723 B CN 113096723B CN 202110314121 A CN202110314121 A CN 202110314121A CN 113096723 B CN113096723 B CN 113096723B
- Authority
- CN
- China
- Prior art keywords
- molecules
- molecule
- molecular
- library
- pharmacophore
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000003814 drug Substances 0.000 title claims abstract description 35
- 238000012216 screening Methods 0.000 title claims abstract description 35
- 229940079593 drug Drugs 0.000 title claims abstract description 30
- 238000010276 construction Methods 0.000 title claims abstract description 21
- 239000003446 ligand Substances 0.000 claims abstract description 58
- 238000001914 filtration Methods 0.000 claims abstract description 52
- 238000007877 drug screening Methods 0.000 claims abstract description 43
- 150000003384 small molecules Chemical class 0.000 claims abstract description 34
- 238000005520 cutting process Methods 0.000 claims abstract description 30
- 239000000126 substance Substances 0.000 claims abstract description 28
- 150000001875 compounds Chemical class 0.000 claims abstract description 22
- 230000000694 effects Effects 0.000 claims abstract description 13
- 229940126586 small molecule drug Drugs 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 9
- 238000005457 optimization Methods 0.000 claims abstract description 8
- 238000013508 migration Methods 0.000 claims abstract description 6
- 230000005012 migration Effects 0.000 claims abstract description 6
- 239000012634 fragment Substances 0.000 claims description 64
- 238000000034 method Methods 0.000 claims description 30
- 238000003032 molecular docking Methods 0.000 claims description 28
- 238000009396 hybridization Methods 0.000 claims description 17
- 238000010586 diagram Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 16
- 238000005556 structure-activity relationship Methods 0.000 claims description 16
- 229910052739 hydrogen Inorganic materials 0.000 claims description 15
- 239000001257 hydrogen Substances 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 13
- 238000013526 transfer learning Methods 0.000 claims description 12
- 230000003321 amplification Effects 0.000 claims description 11
- 238000009826 distribution Methods 0.000 claims description 11
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 11
- 238000002372 labelling Methods 0.000 claims description 9
- 239000013078 crystal Substances 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 6
- 210000001503 joint Anatomy 0.000 claims description 6
- 150000002632 lipids Chemical class 0.000 claims description 6
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 6
- 230000004071 biological effect Effects 0.000 claims description 5
- 238000006664 bond formation reaction Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 230000009257 reactivity Effects 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 4
- 230000002209 hydrophobic effect Effects 0.000 claims description 4
- 230000004060 metabolic process Effects 0.000 claims description 4
- 102000004169 proteins and genes Human genes 0.000 claims description 4
- 108090000623 proteins and genes Proteins 0.000 claims description 4
- 238000010521 absorption reaction Methods 0.000 claims description 3
- 150000001413 amino acids Chemical class 0.000 claims description 3
- 230000029142 excretion Effects 0.000 claims description 3
- 125000001165 hydrophobic group Chemical group 0.000 claims description 3
- 230000002829 reductive effect Effects 0.000 claims description 3
- 230000001988 toxicity Effects 0.000 claims description 3
- 231100000419 toxicity Toxicity 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 8
- 102000005962 receptors Human genes 0.000 description 12
- 108020003175 receptors Proteins 0.000 description 12
- 238000006467 substitution reaction Methods 0.000 description 9
- 239000000370 acceptor Substances 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000003776 cleavage reaction Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 230000036961 partial effect Effects 0.000 description 5
- 238000005192 partition Methods 0.000 description 5
- 230000007017 scission Effects 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 238000009510 drug design Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 102000003688 G-Protein-Coupled Receptors Human genes 0.000 description 3
- 108090000045 G-Protein-Coupled Receptors Proteins 0.000 description 3
- 125000003118 aryl group Chemical group 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- KZMAWJRXKGLWGS-UHFFFAOYSA-N 2-chloro-n-[4-(4-methoxyphenyl)-1,3-thiazol-2-yl]-n-(3-methoxypropyl)acetamide Chemical compound S1C(N(C(=O)CCl)CCCOC)=NC(C=2C=CC(OC)=CC=2)=C1 KZMAWJRXKGLWGS-UHFFFAOYSA-N 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 150000002611 lead compounds Chemical class 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 208000035473 Communicable disease Diseases 0.000 description 1
- 206010013710 Drug interaction Diseases 0.000 description 1
- 206010059866 Drug resistance Diseases 0.000 description 1
- 206010061218 Inflammation Diseases 0.000 description 1
- 102000004310 Ion Channels Human genes 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 102000001253 Protein Kinase Human genes 0.000 description 1
- HCHKCACWOHOZIP-UHFFFAOYSA-N Zinc Chemical compound [Zn] HCHKCACWOHOZIP-UHFFFAOYSA-N 0.000 description 1
- 125000002015 acyclic group Chemical group 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000975 bioactive effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 210000003169 central nervous system Anatomy 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000000126 in silico method Methods 0.000 description 1
- 230000004054 inflammatory process Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000155 isotopic effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000329 molecular dynamics simulation Methods 0.000 description 1
- 238000000324 molecular mechanic Methods 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 108060006633 protein kinase Proteins 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000003107 structure activity relationship analysis Methods 0.000 description 1
- 239000011701 zinc Substances 0.000 description 1
- 229910052725 zinc Inorganic materials 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/40—Searching chemical structures or physicochemical data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/60—In silico combinatorial chemistry
- G16C20/64—Screening of libraries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medicinal Chemistry (AREA)
- Biotechnology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Pharmacology & Pharmacy (AREA)
- Evolutionary Biology (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Bioethics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
一种小分子药物筛选通用分子库构建平台,包括分子生成模块:在化合物库的基础上进行预训练,通过靶点分子及活性预测模型对化学空间进行方向性探索和优化,根据活性分子的结构确定母核,切割侧链,对切割下来的侧链进行迁移学习生成侧链,将生成的侧链拼接到母核上生成具有生物活性的类药小分子,或基于整个参照分子的结构生成新的小分子结构,进行药物筛选,推荐到分子库;商业库及公共分子库模块:调用商业库或公共分子库,设置条件进行检索过滤,针对靶点、适应症类型进行筛选,进行药物筛选后,推荐到分子库;上述平台通过分子生成技术等,结合商业库及公共分子库,根据靶点信息构建小分子药物的定向分子库,更符合特定靶点配体结构的特点。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种小分子药物筛选通用分子库构建平台。
背景技术
现有的药物设计受限于药物化学家的经验和想象空间,往往难以设计出大量的结构新颖的药物分子,设计过程自动化程度不高,效率低下。
发明内容
基于此,有必要提供一种定向性小分子药物筛选通用分子库构建平台。
一种小分子药物筛选通用分子库构建平台,包括:
分子生成模块:在化合物库的基础上进行预训练,通过靶点分子及活性预测模型对化学空间进行方向性探索和优化,搜索活性分子的靶点数据,根据活性分子的结构,进行SAR分析确定母核,指定分子的共同母核,切割侧链,对切割下来的侧链进行迁移学习,对生成的分子进行过滤,生成更多的侧链,将生成的侧链拼接到母核上,生成具有生物活性的类药小分子,基于生成的小分子进行药物筛选,推荐到分子库;或将完整活性分子作为参照,基于整个参照分子的结构生成新的小分子结构,基于生成的小分子进行药物筛选,推荐到分子库;
商业库及公共分子库模块:调用商业库或公共分子库数据,设置条件进行检索过滤,针对靶点、适应症类型进行筛选,再进行药物筛选后,推荐到分子库。
在优选的实施例中,所述对化学空间进行方向性探索和优化通过迁移学习学习靶点分子的结构,将探索的化学空间缩小到与靶点分子的化学空间的子空间,在子空间中探索新分子;所述SAR分析为分析药物分子与靶点受体的构效关系,以药物分子上的对应受体靶点的关键点发生相互作用的区域作为核心区,确定母核。
在优选的实施例中,所述分子生成模块包括
第一生成法单元:根据活性分子的结构,进行SAR分析确定母核,对切割下来的侧链进行迁移学习,以活性分子的构象为输入,对输入分子提取三维结构和药效团类型、位置信息,通过训练将上述信息与分子的SMILE建立对应关系,在基于分子形状的化学空间中进行随机探索和生成,产生新的分子或片段,产生的新分子或片段与输入分子的三维结构相似或具有相近的药效团,生成侧链,将生成的侧链拼接到母核上,生成具有生物活性的类药小分子及分子库,基于生成的分子库进行药物筛选,推荐到分子库;
第二生成法单元:根据活性分子的结构,进行SAR分析确定母核,对切割下来的侧链进行迁移学习,提取输入分子的二维结构图信息,根据相似的环或键、或新的连接方式进行替换生成新片段,对生成的分子进行过滤,生成侧链,将生成的侧链拼接到母核上,生成具有生物活性的类药小分子及分子库,基于生成的分子库进行药物筛选,推荐到分子库。
在优选的实施例中,还包括分子杂交模块,所述分子杂交模块包括:
标注单元:接收参照分子,若参照分子有对应靶点的复合物晶体结构,则提取复合物中的配体构象,若没有,则经过对接后提取最优的对接构象,接受参照分子上不同区域的标记,将预切割位点的原子替换为同位素,不同参照分子上功能相近的区域采用相同的标注方式;
侧链切割单元:接收标注好区域的参照分子,对标注好区域的参照分子进行侧链切割,切割后保留侧链原始的三维坐标,输出侧链,将不同参照分子切割下来的功能类似的侧链合并在一起,同时将参照分子切下各区域剩下的部分形成的母核合并到一起保存;
片段扩增单元:根据切下来的侧链对侧链进行扩增,生成更多的侧链;
药效团模型构建单元:对每批同样位点切下来的侧链片段,提取侧链的共同药效团,构建药效团模型,若药效团数量低于设定数量则判断为无效模型,对于药效团数量大于或等于设定数量的则判断为有效药效团模型;
片段过滤单元:对扩增的片段结构进行属性过滤,对有对应有效药效团模型的片段,再进行药效团过滤;
片段拼接单元:将过滤后的片段与保存的母核结构,按照对应的切割点进行拼接,随机拼接在不同母核上,产生候选分子库;
推荐单元:基于候选分子库生成的小分子进行药物筛选,推荐到分子库。
在优选的实施例中,所述药效团过滤包括:对待筛选侧链生成更多构象,从待筛选侧链的构象中提取药效团,与参照分子侧链的药效团进行对齐打分,根据打分进行对侧链的过滤;所述提取侧链的共同药效团包括:从参照分子中提取药效团,药效团包括:三维坐标、类型、半径,分别对其他配体的每个构象提取药效团,并逐一对齐到参照分子的药效团上,保留每个配体构象对齐后与参照分子药效团的体积重合度最高的构象,若该配体构象上的某个药效团的球心与参照分子的某个药效团的球心的距离在设定距离内,且类型相同,则判断该配体与参照分子有共同药效团,位置以参照分子上的药效团为准。
在优选的实施例中,还包括:等排体替换模块:接受输入分子以及指定的被替换的基团,从等排体库中搜索候选等排体,并对输入分子用其外层电子总数相等或在体积、形状、构象、电子分布、脂水分配系数pKa、化学反应性和氢键形成能力中一种或多种重要参数上存在相似性的原子或基团进行替换,通过受体-配体复合物的药物构效关系(SAR)分析,确定要替换的基团,产生新化合物,过滤,进行药物筛选,推荐到分子库。
在优选的实施例中,所述药物筛选包括:
粗筛:利用分子的活性数据建立模型,根据建立的模型对候选分子进行预测,选取预测值中结果好的分子进行保留;
细筛:将候选分子与靶点蛋白进行对接,挑选对接Pose,对保留的分子进行分子聚类,从每一类中根据对接打分挑选分子;
精筛:对候选分子进行预测,保留预测值中结果好的分子,再预测候选分子的性质,保留性质值好的分子;
评估:对候选分子进行评估、挑选推荐到分子库。
在优选的实施例中,所述挑选对接Pose,查看分子对接的Pose,与参照分子中的母核结构的RMSD偏移值,配体与特定受体氨基酸是否形成氢键、及氢键距离与角度打分,配体疏水基团进入受体疏水口袋进行打分,设置相应的阈值进行过滤分子;所述分子聚类根据分子中是否含有相似结构进行聚类,所述对接打分根据配体-受体复合物相互作用形成打分函数进行打分。
在优选的实施例中,所述分子聚类包括依据分子指纹的相似度进行聚类,或根据分子的骨架聚类中的一种或多种;所述过滤包括:类药物规则过滤或自定义过滤;所述自定义过滤编写过滤表达式,对分子的子结构进行匹配,对符合过滤表达式子结构的分子进行保留或删除。
在优选的实施例中,所述粗筛中对候选分子进行预测为预测候选分子的活性值,为候选分子打分,若打分高于设定阈值则判断为结果好的分子;所述精筛中的对候选分子进行预测为对受体-配体的结合能量进行预测,对候选分子进行结合能量打分,若打分高于设定阈值则判断为结果好的分子;所述预测候选分子的性质为对候选分子的吸收、分布、代谢、排泄、毒性中一种或多种性质进行预测,对候选分子的性质打分,若打分高于设定阈值则判断为性质值好的分子。
上述小分子药物筛选通用分子库构建平台,通过分子生成技术等,结合商业库及公共分子库的筛选方式,根据靶点信息构建小分子药物的定向分子库,从靶点信息出发,构建的定向分子库更符合特定靶点配体结构的特点,结构多样性也更强。
附图说明
图1为本发明一实施例的小分子药物筛选通用分子库构建平台的示意图;
图2为本发明一实施例的同位素标记分子与切割侧链示意图;
图3为本发明一实施例的片段扩增的效果展示示意图;
图4为本发明一具体实施例的一参照分子Ref_1的示意图;
图5为本发明一具体实施例的另一参照分子Ref_2的示意图;
图6为对图4、图5的参照分子Ref_1、参照分子Ref_2杂交出的部分分子结构示意图。
具体实施方式
如图1所示,本发明一实施例的小分子药物筛选通用分子库构建平台100,包括:
分子生成模块20:在化合物库的基础上进行预训练,通过靶点分子及活性预测模型对化学空间进行方向性探索和优化,搜索活性分子的靶点数据,根据活性分子的结构,进行SAR(药物构效关系)分析确定母核,指定分子的共同母核,切割侧链,对切割下来的侧链进行迁移学习,对生成的分子进行过滤,生成更多的侧链,将生成的侧链拼接到母核上,生成具有生物活性的类药小分子,基于生成的小分子进行药物筛选,推荐到分子库;
分子生成模块20也可将完整活性分子作为参照,基于整个参照分子的结构生成新的小分子结构,基于生成的小分子进行药物筛选,推荐到分子库;
商业库及公共分子库模块80:调用商业库或公共分子库数据,设置条件进行检索过滤,针对靶点、适应症类型进行筛选,再进行药物筛选后,推荐到分子库;
分子杂交模块40;
等排体替换模块60。
优选的, 本实施例的分子库为基于特定靶点信息的定向分子库。
进一步,本实施例的对化学空间进行方向性探索和优化通过迁移学习学习靶点分子的结构,将探索的化学空间缩小到与靶点分子的化学空间的子空间,在子空间中探索新分子。
进一步,本实施例的SAR(药物构效关系)分析为分析药物分子与靶点受体的构效关系,以药物分子上的对应受体靶点的关键点发生相互作用的区域作为核心区,确定母核。
受体靶点的关键位点参考受体-配体复合物的药物构效关系(SAR)分析来确定。通过查看已知的受体-配体复合物的结合模式,将受体上能与配体形成相互作用的位点作为受体靶点的关键位点。
本实施例的分子生成模块20,将deep learning 应用到药物设计的方法,其优点在于能快速生成大量的分子,弥补药物化学家在结构设计中想象力不足的情况。
本实施例的分子生成模块20的分子生成结合了深度神经网络、多样的化学空间表示(线性序列SMILES、连接树、三维结构、骨架、分子指纹),在如ChEMBL等质量较高的化合物库的基础上进行预训练,再通过少量的靶点/专利分子、以及各种活性预测工具/模型的辅助,以对广泛的化学空间进行有方向性的探索和优化,以生成新颖而具有生物活性的类药小分子及虚拟分子库。
迁移学习在预训练模型的基础上,使用少量输入分子对模型进行微调。在使用分子生成进行分子库构建时,经常会对特定靶点的专利分子进行迁移学习,从而生成对该靶点特异性更强的定向库。
本实施例的分子生成模块20生成的分子库,具有结构多样性和新颖性,能很大程度上帮助药物化学家跳出专利保护框架,挑出新颖的活性分子。
进一步,本实施例的分子生成模块20包括:
第一生成法单元:对切割下来的侧链进行迁移学习,以活性分子的构象为输入,对输入分子提取三维结构和药效团类型、位置信息,通过训练将上述信息与分子的SMILE建立对应关系,在基于分子形状的化学空间中进行随机探索和生成,产生新的分子或片段,产生的新分子或片段与输入分子的三维结构相似或具有相近的药效团,生成侧链,将生成的侧链拼接到母核上,生成具有生物活性的类药小分子及分子库,基于生成的分子库进行药物筛选,推荐到分子库;
第二生成法单元:对切割下来的侧链进行迁移学习,提取输入分子的二维结构图信息,根据相似的环或键、或新的连接方式进行替换生成新片段,对生成的分子进行过滤,生成侧链,将生成的侧链拼接到母核上,生成具有生物活性的类药小分子及分子库,基于生成的分子库进行药物筛选,推荐到分子库。
本实施例中,分子生成模块20将完整活性分子作为参照,基于整个参照分子的结构生成新的小分子结构过程与侧链的生成过程相同。直接生成出来是完整分子,就不用拼接了。
进一步,本实施例的分子杂交模块40包括:标注单元、侧链切割单元、片段扩增单元、药效团模型构建单元、片段过滤单元、片段拼接单元、推荐单元。
标注单元:接收参照分子,若参照分子有对应靶点的复合物晶体结构,则提取复合物中的配体构象,若没有,则经过对接后提取最优的对接构象,接受参照分子上不同区域的标记,将预切割位点的原子替换为同位素,不同参照分子上功能相近的区域采用相同的标注方式。
侧链为标注为数字相对较大的同位素所在的片段,母核标注为相对较小的数字;标注可以采用手动标注,也可采用自动标注。自动标注包括:将一组分子的三维结构在空间进行叠合,在一个分子上用同位素标记的方式标注一个或多个原子,找到其他分子上距离被标注原子最近的且能组成非环单键的原子,对该原子添加对应的同位素标记。
侧链切割单元:接收标注好区域的参照分子,对标注好区域的参照分子进行侧链切割,切割后保留侧链原始的三维坐标,输出侧链,将不同参照分子切割下来的功能类似的侧链合并在一起,同时将参照分子切下各区域剩下的部分形成的母核合并到一起保存。
切割后保留侧链原始的三维坐标,输出侧链的SMILES(Simplified molecularinput line entry specification简化分子线性输入规范,一种用ASCII字符串明确描述分子结构的规范),将不同参照分子切割下来的功能类似的侧链合并在一起,同时将参照分子切下各区域剩下的部分形成的母核合并到一起保存。
片段扩增单元:根据切下来的侧链对侧链进行扩增,生成更多的侧链;
药效团模型构建单元:对每批同样位点切下来的侧链片段,提取侧链的共同药效团,构建药效团模型,若药效团数量低于设定数量则判断为无效模型,对于药效团数量大于或等于设定数量的则判断为有效药效团模型;
片段过滤单元:对扩增的片段结构进行属性过滤,对有对应有效药效团模型的片段,再进行药效团过滤。属性过滤可以设置如PAINS(Pan-assay interference compounds泛测定干扰化合物)、类药五规则等。
片段拼接单元:将过滤后的片段与保存的母核结构,按照对应的切割点进行拼接,随机拼接在不同母核上,产生候选分子库。按照对应的切割点进行拼接例如可将切割下来的R1侧链所生成的片段,拼接回核心区即母核的R1位点。
推荐单元:基于候选分子库生成的小分子进行药物筛选,推荐到分子库。
药效团过滤包括:对待筛选侧链生成更多构象,从待筛选侧链的构象中提取药效团,与参照分子侧链的药效团进行对齐打分,根据打分进行对侧链的过滤。
提取侧链的共同药效团包括:从参照分子中提取药效团,药效团包括:三维坐标、类型、半径,分别对其他配体的每个构象提取药效团,并逐一对齐到参照分子的药效团上,保留每个配体构象对齐后与参照分子药效团的体积重合度最高的构象,若该配体构象上的某个药效团的球心与参照分子的某个药效团的球心的距离在设定距离内,且类型相同,则判断该配体与参照分子有共同药效团,位置以参照分子上的药效团为准。
本实施例的将预切割位点的原子替换为同位素指的是对虚拟分子上的原子进行的同位素替换。优选的,使用基于Python语言编写的开源化学信息学工具RDKit实现的。当然也可采用其他工具进行实现。原子替换为某种同位素只是用于标记,该过程仅在计算机中进行,不涉及真实分子。标记可以采用人工标记,由用户(如药物化学家)来指定要进行侧链切割的位点,该位点是基于药物研发前期的构效关系分析进行人工确定的。
侧链切割单元中,如在图2中,同位素标注为887和888的原子所组成的键被切开,数字大的同位素所在的片段为侧链,数字小的为母核。对于图2中的分子1,除887和888以外,还有998和999所组成的键,因此分子1被分成了母核和R1、R2侧链三部分。分子2只有887和888键,因此只有母核和R1侧链两部分。
同位素的数字要求要断开的键上标注的数字是相连的,且较小的数字放在母核上,较大的数字放在侧链上,例如将母核上的原子标注为77,R1侧链的原子标注为78。标记是通过在sdf文件中每个分子区块的结尾以文本的方式进行标记的。如可通过M ISO 4表示分子中有4个同位素标记,2 887代表第二个原子被标记为887号同位素,11 886代表11号原子被标记为886号同位素,以此类推。在多个分子中,同样同位素标记所切下的片段为同一侧链。R1-Rn的顺序按照同位素标记的母核同位素数字大小排列。例如,切下分子A中的886-887同位素标记原子形成的键,再切下分子B中的886-887同位素标记原子形成的键,分别得到两条侧链,这两条侧链都为R1侧链;切下分子A中的996-997同位素标记原子形成的键,再切下分子B中的996-997同位素标记原子形成的键,分别得到两条侧链,这两条侧链都为R2侧链。
进一步,本实施例的片段扩增包括:通过深度学习,迁移学习侧链切割下来的侧链结构,通过生成模型进行侧链生成,生成更多的侧链;或通过等排体替换,对切割下来的侧链结构进行替换,得到更多的侧链。
进一步,本实施例的片段扩增包括:分子生成法。分子生成法包括:第一生成法、第二生成法的一种或多种生成法。
第一生成法:通过学习输入分子的三维形状生成分子。将保留原始坐标的侧链sdf输入进行迁移学习产生新的片段。对输入分子提取三维结构和药效团类型、位置信息,通过训练将上述信息与分子的SMILES建立对应关系,产生新的分子或片段,产生的新分子或片段与输入分子的三维结构相似或具有相近的药效团。如图3所示,通过分子生成法进行片段扩增的部分示意图。五角星遮挡住的部分为母核。
进一步,第一生成法以活性分子的构象为输入,生成与其形状和药效团特征相似的新分子;继承若干活性分子各自的部分结构特征生成杂交分子;在基于分子形状的化学空间中做随机探索和生成。模型的cVAE网络隐层空间代表了一种基于小分子构象的化学空间表示。在该隐层空间中按照标准高斯分布随机生成坐标,可在该化学空间中随机采样。将该变量通过cVAE的解码器部分以及CNN、LSTM网络,可以生成SMILES形式的随机分子。改变隐层空间中的采样策略,可以实现定向探索和生成。
第二生成法:基于分子结构片段,用侧链的SMILES输入模型,迁移学习后产生新的片段。提取输入分子的二维结构图信息,根据相似的环或键、或新的连接方式进行替换生成新片段。连接方式的替换例如由临位取代变为对位取代。如图3所示,进行片段扩增的部分示意图。五角星遮挡住的部分为母核。
除了上述分子生成法外,当然也可采用其他分子生成法进行片段扩增。
迁移学习在使用分子生成进行分子库构建时,在预训练模型的基础上,使用少量输入分子或片段对模型进行微调。
本实施例的片段扩增也可采用等排体替换进行扩增,等排体替换包括:接受输入分子以及指定的被替换的基团,搜索候选等排体并对输入分子进行等排体替换,过滤,并择优推荐的化合物。通过SGR(等排体替换)方法产生新的侧链片段,新生成的片段如图3所示。
等排体替换优选的,可以基于如MMP(Maximum Margin Projection)算法生成的广义等排体库,来从中寻找待优化分子片段对应的等排体,并完成基团替换。当输入一个分子以及指定某些被替换的基团后,能快速搜索候选等排体并对输入分子进行等排体替换,自动过滤并推荐理化性质优异、结构多样的化合物。产生的新片段与被替换的片段在体积、形状、构象、电子分布、脂水分配系数pKa,化学反应性和氢键形成能力等性质上具有相似性。
进一步,本实施例的药效团过滤包括:对待筛选侧链生成更多构象,从待筛选侧链的构象中提取药效团,与参照分子侧链的药效团进行对齐打分,根据打分进行对侧链的过滤。优选的,可通过药效团模型提取参照分子侧链的药效团,然后通过药效团模型对侧链扩增得到的侧链进行药效团筛选。具体过程为:为待筛侧链生成更多构象,从每个待筛侧链的构象中提取药效团,然后将待筛侧链构象中提取出的药效团与参照分子侧链的药效团进行对齐打分(分数为0-1,1为两者的药效团可以完全重合),根据打分进行对侧链进行过滤。
药效团模型可以方便快捷的建立药效团模型,并进行高通量药效团模型筛选。有基于受体,基于配体,基于复合物三种可选的药效团模型构建方式。
进一步,本实施例的提取侧链的共同药效团包括:从参照分子中提取药效团,药效团包括:三维坐标、类型、半径,分别对其他配体的每个构象提取药效团,并逐一对齐到参照分子的药效团上,保留每个配体构象对齐后与参照分子药效团的体积重合度最高的构象,若该配体构象上的某个药效团的球心与参照分子的某个药效团的球心的距离在设定距离内,且类型相同,则判断该配体与参照分子有共同药效团,对药效团进行合并,位置以参照分子上的药效团为准。
具体的多个配体提取共同药效团的方式:用户指定一个参照分子。程序从参照分子中提取出药效团(药效团由x、y、z坐标,类型,以及半径组成)。然后分别对其它配体的每个构象提取药效团,并逐一尝试对齐到参照分子的药效团上,保留每个配体构象对齐后与参照分子药效团体积重合度最高的构象,如果该配体构象上的某个药效团的球心与参照分子的某个药效团的球心距离在1埃内,且类型相同,则认为这是该配体与参照分子的共同药效团,位置以参照分子上的药效团为准。即在参照分子中找哪些药效团是所有配体共有的。
片段扩增单元进行扩增后,可分别将生成的侧链保存至CSV中,将多个分子生成模型输出的csv文件内容进行合并,合并成一个csv文件。并为每个侧链的拼接位点加上与切割侧链相同的同位素标记。例如可用分子生成模型生成一些R1侧链,将这些R1侧链放进一个csv文件中保存,为每一条侧链SMILES的星号位置添加#[999N]标记,该标记用于表示侧链拼接位点。
将合并后的csv与进行侧链切割前的母核进行随机拼接。例如对A和B两个分子进行同位素标记侧链切割,产生2条R1侧链和2条R2侧链,以及2个母核。对R1和R2侧链进行分子生成,假如生成共计200个R1和100个R2侧链。将这200个R1侧链和100个R2侧链拼接至A和B的母核上,对于A的母核,有200个R1侧链和100个R2侧链进行组合(200 x 100 = 20000),对B的母核也是同样(200 x 100 = 20000),因此最终通过拼接共计产生20000个A母核的分子和20000个B母核的分子,共计40000分子。
对侧链进行筛选时,可以设定一些化学属性的上限和下限范围,用于将符合条件的侧链选出。可设定的条件有:环的数量,芳香环的数量,可旋转键的数量,分子量,氢键供体个数,氢键受体个数,LogP值,TPSA值,最大环的原子数量,手性中心数量。为输入的每条侧链计算这些属性,然后只输出符合条件的侧链,输出输出的文件格式都为csv。例如用户设定分子量范围为[100, 250],环的数量范围为[1, 2],则选出的侧链分子量必定在100-250间,且必定包含1-2个环。
本发明还可以从多个参照分子中提取共同药效团,参照分子通常有三维构象,可以以sdf文件的格式保存。当用户给定配体为sdf格式的三维构象文件时,分别提取每个配体的药效团,然后将同类型且距离小于1埃的药效团合并,最终程序以mol2格式输出提取结果,即多个配体共同的药效团模型,可供用户通过文本编辑器对药效团模型进行编辑。优选的,可通过药效团模型从多个参照分子中提取共同药效团。参照分子通常有三维构象,以sdf文件的格式保存。当用户给定配体为sdf格式的三维构象文件时,模型会分别提取每个配体的药效团,然后将同类型且距离小于1埃的药效团合并。最终程序以mol2格式输出提取结果,即多个配体共同的药效团模型,可供用户通过文本编辑器对药效团模型进行编辑。
药效团模型可以方便快捷的建立药效团模型,并进行高通量药效团模型筛选。有基于受体,基于配体,基于复合物三种可选的药效团模型构建方式。
多个配体提取共同药效团的方式:用户指定一个参照分子。程序从参照分子中提取出药效团(药效团由x,y,z坐标,类型,以及半径组成)。然后分别对其它配体的每个构象提取药效团,并逐一尝试对齐到参照分子的药效团上,保留每个配体构象对齐后与参照分子药效团体积重合度最高的构象,如果该配体构象上的某个药效团的球心与参照分子的某个药效团的球心距离在1埃内,且类型相同,则认为这是该配体与参照分子的共同药效团,位置以参照分子上的药效团为准。其实就是在参照分子中找哪些药效团是所有配体共有的。
药效团模型中的药效团类型有:氢键供体(DON)、氢键受体(ACC)、芳香环(AR)、疏水相互作用(HYD)、正电荷(ANI)、负电荷(CAT)。模型中包含13个药效团,每个药效团都有种类、坐标信息。
优选的,本实施例中将药效团数量低于3个的,判断为无效模型;无效模型没有使用价值,后续不再通过该药效团模型进行过滤。对于药效团数量大于或等于3个的,判断为有效药效团模型。
本发明基于以上切割侧链-生成-拼接至母核的技术手段,构建了分子杂交平台,为药物筛选提供杂交分子库。
如图4至图5所示,将参照分子Ref_1和Ref_2的R1侧链与母核相连的单键上的原子分别以同位素标记为886和887, R2侧链与母核相连的单键上的原子分别以同位素标记为996和997,将两个标记后的分子保存到一个sdf文件中。输入含有标记后分子的sdf文件,分别切下两个分子的R1和R2侧链,保存到2个csv中,并将母核结构保存到1个csv中。
通过分子生成法分别对R1和R2侧链进行扩增,生成方法的最大生成数量设置为500。分别保存生成的R1和R2侧链至csv中。然后汇总生成的结果。最终得到R1侧链1461条,R2侧链1492条。
通过分子属性过滤对R1和R2侧链进行筛选:设置LogP(the logarithm of thePartition Coefficient脂水分配系数)范围为0-3,分子量范围为150-300,TPSA(Topological Polar Surface Area 拓扑极性表面积)范围为20-60,可旋转键范围为2-6。最终保留R1分侧链905条,R2侧链768条。
将筛选过后的R1和R2按对应的位点随机拼接至2个参照分子的母核结构上,最终产生了1390080 (768 x 905 x 2)个分子。杂交出的部分分子结构如图6所示。
进一步,本实施例的等排体替换模块60:接受输入分子以及指定的被替换的基团,从等排体库中搜索候选等排体,并对输入分子用其外层电子总数相等或在体积、形状、构象、电子分布、脂水分配系数pKa、化学反应性和氢键形成能力一种或多种重要参数上存在相似性的原子或基团进行替换,通过受体-配体复合物的药物构效关系(SAR)分析,确定要替换的基团,产生新化合物,过滤,进行药物筛选,推荐到分子库。产生的新片段与被替换的片段在体积、形状、构象、电子分布、脂水分配系数pKa,化学反应性和氢键形成能力等性质上具有相似性。
本实施例的等排体替换模块60产生的新化合物具有优于、近于或拮抗原来药物的特点。先导化合物的优化是研究和开发新药的重要途径,生物电子等排原理是对先导化合物进行合理优化的有效策略之一。
通过等排体替换模块60,替换分子的侧链或母核,从而构建分子库,供药物筛选使用。
商业库及公共分子库模块80检索过滤通过一定的规则(例如类药5规则)的限制,从分子库中选出一部分子集来进行筛选,减小筛选规模。
针对靶点(如激酶、GPCR(G Protein-Coupled Receptors,G蛋白偶联受体)、离子通道、核酸受体等)、适应症类型(中枢神经系统、肿瘤、炎症、代谢、传染性疾病等)进行特定筛选。商业库包含如ChemDiv、SPECS等数据库。另外,筛选后的分子也能直接购买,便于直接进行生物实验。公共数据库,通常由公共组织构建,该类分子库规模大,数据量多,涵盖范围也广,包含如PubChem、ChEMBL、BindingDB、DrugBank、Zinc等数据库。
本实施例的药物筛选包括:
粗筛:利用分子的活性数据建立模型,根据建立的模型对候选分子进行预测,选取预测值中结果好的分子进行保留;
细筛:将候选分子与靶点蛋白进行对接,挑选对接Pose(小分子的对接结合构象),对保留的分子进行分子聚类,从每一类中根据对接打分挑选分子;
精筛:对候选分子进行预测,保留预测值中结果好的分子,再预测候选分子的性质,保留性质值好的分子;
评估:对候选分子进行评估、挑选推荐到分子库。
分子对接(molecular docking)是基于钥匙理论,通过研究配体与受体(生物大分子)之间的相互作用,预测两者结合模式和亲和力进而从分子层面解释配体起作用的机制。
本实施例的细筛过程中,候选分子与靶点蛋白通过分子对接软件进行对接,例如LeDock软件。
本实施例的挑选对接Pose(小分子的对接结合构象),查看分子对接的Pose(小分子的对接结合构象),与参照分子中的母核结构的RMSD(Root Mean Square Distance,均方根距离)偏移值,配体与特定受体氨基酸是否形成氢键、及氢键距离与角度打分,配体疏水基团进入受体疏水口袋进行打分,设置相应的阈值进行过滤分子。
分子聚类根据分子中是否含有相似结构进行聚类。本实施例的分子聚类包括如依据分子指纹的相似度进行聚类,或根据分子的骨架聚类等的多种。
对接打分根据配体-受体复合物相互作用形成打分函数进行打分。
本实施例的过滤包括:类药物规则过滤或自定义过滤。自定义过滤编写过滤表达式,对分子的子结构进行匹配,对符合过滤表达式子结构的分子进行保留或删除。
本实施例的粗筛中对候选分子进行预测为预测候选分子的活性值,为候选分子打分,若打分高于设定阈值则判断为结果好的分子。
精筛:通过高精度计算模型对候选分子进行预测,保留预测值中结果好的分子,再通过性质预测模型预测候选分子的性质,保留性质值好的分子。
本实施例的精筛中的对候选分子进行预测为对受体-配体的结合能量进行预测,对候选分子进行结合能量打分,若打分高于设定阈值则判断为结果好的分子;所述预测候选分子的性质为对候选分子的吸收、分布、代谢、排泄、毒性中一种或多种性质进行预测,对候选分子的性质打分,若打分高于设定阈值则判断为性质值好的分子。
进行预测的模型为机器学习模型或者深度学习模型,不限制具体的模型类型,可以用来做分子性值预测的模型都可以。
高精度计算模型通常是计算MM/GBSA(Molecular Mechanics/Poisson-BoltzmannSurface Area,分子动力学模拟结合自由能)或者FEP(Free Energy Perturbation,自由能微扰)。
性质预测模型也是通过机器学习模型或者深度学习模型进行预测,不限制具体的模型类型。
挑选分子是从聚类出的每一类分子中根据对接打分挑选一部分打分高的分子。例如候选分子被分为1000类,从每类中挑选出该类别里打分最高的5个分子,最终可能得到4231个分子(不到5000是因为某些类别中的分子个数小于5个)。
本实施例的评估优选的,综合考虑分子的构象是否合理,是否与受体有较好的结合模式,候选分子的可合成性,新颖性等因素进行评估。
本发明的小分子药物筛选通用分子库构建平台,包含多个可并用的深度学习分子库构建方法,同时也提供等排体替换模块,以及分子杂交模块,并提供商业数据库和公开数据库可供选用。能为针对某个靶点的药物筛选提供结构新颖、多样性强的分子库。还提供了自动化的侧链切割与拼接工具。本通用平台的分子库生成方法众多,可应用于小分不同的药物筛选场景。本发明的分子杂交模块,为小分子药物筛选提供了一种分子杂交的分子库构建方式,通过侧链切割将功能类似的侧链合并在一起,同时将母核合并到一起保存,并通过将过滤后的片段与保存的母核,按照对应的切割点进行拼接,可以适合用于同一靶点有多个母核不同的参照分子的药物筛选场景,通过片段扩增模块,根据切下来的侧链对侧链进行扩增,生成大量结构新颖,多样性强的侧链片段,再与母核进行拼接,设计产生大量结构新颖的药物分子,增强药物设计扩展性及多样性。
基于分子杂交的药物设计是将两个或多个活性分子组合成一个全新的分子,新的分子继承了母体分子的优势结构,用这种策略可以提升分子的亲和力或其他方面的性能,并且可以能够实现与两个或多个靶标相互作用,减少不良副作用,减少药物相互作用,或减少耐药性的产生。
在针对某一靶点的药物设计中,会出现同一靶点有几种代表性结构(参照分子)不太相似(无共同母核)的情况,不过这几种参照分子在与靶点相互作用的时候会存在功能类似的区域,将这些区域定义好,则可以将参照分子按定义好的区域进行切分,再把功能类似的片段合并到一起,分别进行分子生成或等排体替换,产生更多的片段,再将不同区域间的片段重新拼接,实现融合型分子杂交。
另该分子杂交模块有效利用了基于深度学习的分子生成技术、药效团筛选技术、生物电子等排体替换技术,用于侧链片段的扩增,生成大量结构新颖,多样性强的侧链片段,再与母核进行拼接,组成待筛分子库,可应用于多种小分子药物研发场景中。
本发明的分子杂交模块,为小分子药物筛选提供了一种分子杂交的分子库构建方式,适合用于同一靶点有多个母核不同的参照分子的药物筛选场景。并且该分子杂交平台有效利用了基于深度学习的分子生成技术、药效团筛选技术、生物电子等排体替换技术,用于侧链片段的扩增,生成大量结构新颖,多样性强的侧链片段,再与母核进行拼接,组成待筛分子库,可应用于多种小分子药物研发场景中。
以上述依据本申请的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项申请技术思想的范围内,进行多样的变更以及修改。本项申请的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
Claims (8)
1.一种小分子药物筛选通用分子库构建平台,其特征在于,包括:
分子生成模块:在化合物库的基础上进行预训练,通过靶点分子及活性预测模型对化学空间进行方向性探索和优化,搜索活性分子的靶点数据,根据活性分子的结构,进行SAR分析确定母核,指定分子的共同母核,切割侧链,对切割下来的侧链进行迁移学习,对生成的分子进行过滤,生成更多的侧链,将生成的侧链拼接到母核上,生成具有生物活性的类药小分子,基于生成的小分子进行药物筛选,推荐到分子库;或将完整活性分子作为参照,基于整个参照分子的结构生成新的小分子结构,基于生成的小分子进行药物筛选,推荐到分子库;
商业库及公共分子库模块:调用商业库或公共分子库数据,设置条件进行检索过滤,针对靶点、适应症类型进行筛选,再进行药物筛选后,推荐到分子库;
所述对化学空间进行方向性探索和优化通过迁移学习学习靶点分子的结构,将探索的化学空间缩小到与靶点分子的化学空间的子空间,在子空间中探索新分子;所述SAR分析为分析药物分子与靶点受体的构效关系,以药物分子上的对应受体靶点的关键点发生相互作用的区域作为核心区,确定母核;
所述分子生成模块包括:
第一生成法单元:根据活性分子的结构,进行SAR分析确定母核,对切割下来的侧链进行迁移学习,以活性分子的构象为输入,对输入分子提取三维结构和药效团类型、位置信息,通过训练将上述信息与分子的SMILE建立对应关系,在基于分子形状的化学空间中进行随机探索和生成,产生新的分子或片段,产生的新分子或片段与输入分子的三维结构相似或具有相近的药效团,生成侧链,将生成的侧链拼接到母核上,生成具有生物活性的类药小分子及分子库,基于生成的分子库进行药物筛选,推荐到分子库;
第二生成法单元:根据活性分子的结构,进行SAR分析确定母核,对切割下来的侧链进行迁移学习,提取输入分子的二维结构图信息,根据相似的环或键、或新的连接方式进行替换生成新片段,对生成的分子进行过滤,生成侧链,将生成的侧链拼接到母核上,生成具有生物活性的类药小分子及分子库,基于生成的分子库进行药物筛选,推荐到分子库。
2.根据权利要求1所述的小分子药物筛选通用分子库构建平台,其特征在于,还包括分子杂交模块,所述分子杂交模块包括:
标注单元:接收参照分子,若参照分子有对应靶点的复合物晶体结构,则提取复合物中的配体构象,若没有,则经过对接后提取最优的对接构象,接受参照分子上不同区域的标记,将预切割位点的原子替换为同位素,不同参照分子上功能相近的区域采用相同的标注方式;
侧链切割单元:接收标注好区域的参照分子,对标注好区域的参照分子进行侧链切割,切割后保留侧链原始的三维坐标,输出侧链,将不同参照分子切割下来的功能类似的侧链合并在一起,同时将参照分子切下各区域剩下的部分形成的母核合并到一起保存;
片段扩增单元:根据切下来的侧链对侧链进行扩增,生成更多的侧链;
药效团模型构建单元:对每批同样位点切下来的侧链片段,提取侧链的共同药效团,构建药效团模型,若药效团数量低于设定数量则判断为无效模型,对于药效团数量大于或等于设定数量的则判断为有效药效团模型;
片段过滤单元:对扩增的片段结构进行属性过滤,对有对应有效药效团模型的片段,再进行药效团过滤;
片段拼接单元:将过滤后的片段与保存的母核结构,按照对应的切割点进行拼接,随机拼接在不同母核上,产生候选分子库;
推荐单元:基于候选分子库生成的小分子进行药物筛选,推荐到分子库。
3.根据权利要求2所述的小分子药物筛选通用分子库构建平台,其特征在于,所述药效团过滤包括:对待筛选侧链生成更多构象,从待筛选侧链的构象中提取药效团,与参照分子侧链的药效团进行对齐打分,根据打分进行对侧链的过滤;所述提取侧链的共同药效团包括:从参照分子中提取药效团,药效团包括:三维坐标、类型、半径,分别对其他配体的每个构象提取药效团,并逐一对齐到参照分子的药效团上,保留每个配体构象对齐后与参照分子药效团的体积重合度最高的构象,若该配体构象上的某个药效团的球心与参照分子的某个药效团的球心的距离在设定距离内,且类型相同,则判断该配体与参照分子有共同药效团,位置以参照分子上的药效团为准。
4.根据权利要求1所述的小分子药物筛选通用分子库构建平台,其特征在于,还包括:等排体替换模块:接受输入分子以及指定的被替换的基团,从等排体库中搜索候选等排体,并对输入分子用其外层电子总数相等或在体积、形状、构象、电子分布、脂水分配系数pKa、化学反应性和氢键形成能力中一种或多种重要参数上存在相似性的原子或基团进行替换,通过受体-配体复合物的药物构效关系分析,确定要替换的基团,产生新化合物,过滤,进行药物筛选,推荐到分子库。
5.根据权利要求1至4任意一项所述的小分子药物筛选通用分子库构建平台,其特征在于,所述药物筛选包括:
粗筛:利用分子的活性数据建立模型,根据建立的模型对候选分子进行预测,选取预测值中结果好的分子进行保留;
细筛:将候选分子与靶点蛋白进行对接,挑选对接Pose,对保留的分子进行分子聚类,从每一类中根据对接打分挑选分子;
精筛:对候选分子进行预测,保留预测值中结果好的分子,再预测候选分子的性质,保留性质值好的分子;
评估:对候选分子进行评估、挑选推荐到分子库。
6.根据权利要求5所述的小分子药物筛选通用分子库构建平台,其特征在于,所述挑选对接Pose,查看分子对接的Pose,与参照分子中的母核结构的RMSD偏移值,配体与特定受体氨基酸是否形成氢键、及氢键距离与角度打分,配体疏水基团进入受体疏水口袋进行打分,设置相应的阈值进行过滤分子;所述分子聚类根据分子中是否含有相似结构进行聚类,所述对接打分根据配体-受体复合物相互作用形成打分函数进行打分。
7.根据权利要求6所述的小分子药物筛选通用分子库构建平台,其特征在于,所述分子聚类包括依据分子指纹的相似度进行聚类,或根据分子的骨架聚类中的一种或多种;所述过滤包括:类药物规则过滤或自定义过滤;所述自定义过滤编写过滤表达式,对分子的子结构进行匹配,对符合过滤表达式子结构的分子进行保留或删除。
8.根据权利要求5所述的小分子药物筛选通用分子库构建平台,其特征在于,所述粗筛中对候选分子进行预测为预测候选分子的活性值,为候选分子打分,若打分高于设定阈值则判断为结果好的分子;所述精筛中的对候选分子进行预测为对受体-配体的结合能量进行预测,对候选分子进行结合能量打分,若打分高于设定阈值则判断为结果好的分子;所述预测候选分子的性质为对候选分子的吸收、分布、代谢、排泄、毒性中一种或多种性质进行预测,对候选分子的性质打分,若打分高于设定阈值则判断为性质值好的分子。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110314121.3A CN113096723B (zh) | 2021-03-24 | 2021-03-24 | 小分子药物筛选通用分子库构建平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110314121.3A CN113096723B (zh) | 2021-03-24 | 2021-03-24 | 小分子药物筛选通用分子库构建平台 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113096723A CN113096723A (zh) | 2021-07-09 |
CN113096723B true CN113096723B (zh) | 2024-02-23 |
Family
ID=76669950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110314121.3A Active CN113096723B (zh) | 2021-03-24 | 2021-03-24 | 小分子药物筛选通用分子库构建平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113096723B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113838541B (zh) * | 2021-09-29 | 2023-10-10 | 脸萌有限公司 | 设计配体分子的方法和装置 |
CN114334037B (zh) * | 2021-12-23 | 2022-09-30 | 上海智药科技有限公司 | 分子对接的处理方法、装置及电子设备 |
WO2023123023A1 (zh) * | 2021-12-29 | 2023-07-06 | 深圳晶泰科技有限公司 | 筛选分子的方法、装置及其应用 |
CN114512199A (zh) * | 2021-12-30 | 2022-05-17 | 深圳晶泰科技有限公司 | 化合物分子成药性改良方法、装置、设备及存储介质 |
CN114530215B (zh) * | 2022-02-18 | 2023-03-28 | 北京有竹居网络技术有限公司 | 设计配体分子的方法和装置 |
CN114882940B (zh) * | 2022-03-28 | 2022-11-08 | 北京玻色量子科技有限公司 | 一种基于相干伊辛机的分子对接方法和装置 |
CN115762662A (zh) * | 2022-11-30 | 2023-03-07 | 苏州创腾软件有限公司 | 基于图神经网络的特定靶标药物生成方法、装置和MaxFlow平台 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112201313A (zh) * | 2020-09-15 | 2021-01-08 | 北京晶派科技有限公司 | 一种自动化的小分子药物筛选方法和计算设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010037714A1 (en) * | 2008-09-30 | 2010-04-08 | Basf Plant Science Gmbh | Method for producing a transgenic plant cell, a plant or a part thereof with increased resistance biotic stress |
US11705224B2 (en) * | 2017-07-06 | 2023-07-18 | Pukyong National University Industry-University Cooperation Foundation | Method for screening of target-based drugs through numerical inversion of quantitative structure-(drug)performance relationships and molecular dynamics simulation |
-
2021
- 2021-03-24 CN CN202110314121.3A patent/CN113096723B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112201313A (zh) * | 2020-09-15 | 2021-01-08 | 北京晶派科技有限公司 | 一种自动化的小分子药物筛选方法和计算设备 |
Non-Patent Citations (1)
Title |
---|
曹冉 ; 李伟 ; 孙汉资 ; 周宇 ; 黄牛 ; .计算化学方法在基于受体结构的药物分子设计中的基础理论及应用.药学学报.2013,(07),第1041-1051页. * |
Also Published As
Publication number | Publication date |
---|---|
CN113096723A (zh) | 2021-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113096723B (zh) | 小分子药物筛选通用分子库构建平台 | |
Dara et al. | Machine learning in drug discovery: a review | |
Tsou et al. | Comparative study between deep learning and QSAR classifications for TNBC inhibitors and novel GPCR agonist discovery | |
Qi et al. | Protein complex identification by supervised graph local clustering | |
Bunin et al. | Chemoinformatics theory | |
CN112201313A (zh) | 一种自动化的小分子药物筛选方法和计算设备 | |
Oprea et al. | Chemical information management in drug discovery: Optimizing the computational and combinatorial chemistry interfaces | |
Rahman et al. | KinaMetrix: a web resource to investigate kinase conformations and inhibitor space | |
CN115938488B (zh) | 基于深度学习和计算模拟的蛋白质变构调节剂的识别方法 | |
CN115240762B (zh) | 多尺度小分子虚拟筛选方法及系统 | |
Jiménez-Luna et al. | Benchmarking molecular feature attribution methods with activity cliffs | |
Kamal et al. | Self-organizing mapping based swarm intelligence for secondary and tertiary proteins classification | |
EP1839227A2 (en) | Modeling biological effects of molecules using molecular property models | |
CN112837764B (zh) | 分子杂交方法及平台 | |
Zabolotna et al. | Chemspace atlas: multiscale chemography of ultralarge libraries for drug discovery | |
Ertl et al. | The scaffold tree: an efficient navigation in the scaffold universe | |
Maniscalco et al. | Quantum network medicine: rethinking medicine with network science and quantum algorithms | |
Roy | Cheminformatics, QSAR and Machine Learning Applications for Novel Drug Development | |
Wolber et al. | Pharmacophores from macromolecular complexes with LigandScout | |
Grebner et al. | Artificial intelligence in compound design | |
Hua et al. | Multimodal multi-task deep neural network framework for kinase–target prediction | |
Habeeba | Use of artificial intelligence in drug discovery and its application in drug development | |
Lu et al. | Ensdti-kinase: web-server for predicting kinase-inhibitor interactions with ensemble computational methods and its applications | |
Donyapour | Predicting the Properties of Ligands Using Molecular Dynamics and Machine Learning | |
Marmolejo et al. | Interaction fingerprints and their applications to identify hot spots |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Unit 706, 7th floor, block AB, Dongsheng building, 8 Zhongguancun East Road, Haidian District, Beijing 100083 Applicant after: Beijing Jingtai Technology Co.,Ltd. Address before: Unit 706, 7th floor, block AB, Dongsheng building, 8 Zhongguancun East Road, Haidian District, Beijing 100083 Applicant before: BEIJING JINGPAI TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |