CN112102900B - 一种基于TopoMA定量构效关系模型的药物设计方法 - Google Patents
一种基于TopoMA定量构效关系模型的药物设计方法 Download PDFInfo
- Publication number
- CN112102900B CN112102900B CN202011085973.1A CN202011085973A CN112102900B CN 112102900 B CN112102900 B CN 112102900B CN 202011085973 A CN202011085973 A CN 202011085973A CN 112102900 B CN112102900 B CN 112102900B
- Authority
- CN
- China
- Prior art keywords
- molecule
- side chain
- topoma
- atom
- atoms
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000004617 QSAR study Methods 0.000 title claims abstract description 13
- 238000009510 drug design Methods 0.000 title claims abstract description 7
- 150000001875 compounds Chemical class 0.000 claims abstract description 34
- 238000004458 analytical method Methods 0.000 claims abstract description 31
- 239000011159 matrix material Substances 0.000 claims abstract description 31
- 239000000523 sample Substances 0.000 claims abstract description 25
- 125000002015 acyclic group Chemical group 0.000 claims abstract description 24
- 229910052799 carbon Inorganic materials 0.000 claims abstract description 14
- 125000004432 carbon atom Chemical group C* 0.000 claims abstract description 14
- 239000013598 vector Substances 0.000 claims abstract description 13
- 230000005686 electrostatic field Effects 0.000 claims abstract description 8
- 125000004429 atom Chemical group 0.000 claims description 122
- 230000003993 interaction Effects 0.000 claims description 17
- 229910052724 xenon Inorganic materials 0.000 claims description 17
- FHNFHKCVQCLJFQ-UHFFFAOYSA-N xenon atom Chemical compound [Xe] FHNFHKCVQCLJFQ-UHFFFAOYSA-N 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 16
- 238000010801 machine learning Methods 0.000 claims description 14
- 238000007689 inspection Methods 0.000 claims description 10
- 230000004071 biological effect Effects 0.000 claims description 9
- 239000000126 substance Substances 0.000 claims description 9
- 125000006574 non-aromatic ring group Chemical group 0.000 claims description 5
- 125000006413 ring segment Chemical group 0.000 claims description 5
- 239000003814 drug Substances 0.000 claims 3
- 229940079593 drug Drugs 0.000 claims 3
- 238000012360 testing method Methods 0.000 description 21
- 238000002790 cross-validation Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 238000004519 manufacturing process Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 6
- 238000005520 cutting process Methods 0.000 description 5
- 238000004510 Lennard-Jones potential Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 125000004435 hydrogen atom Chemical group [H]* 0.000 description 4
- 125000004122 cyclic group Chemical group 0.000 description 3
- 108010074860 Factor Xa Proteins 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 150000003384 small molecules Chemical class 0.000 description 2
- 102000014914 Carrier Proteins Human genes 0.000 description 1
- 108010078791 Carrier Proteins Proteins 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000029142 excretion Effects 0.000 description 1
- 239000003446 ligand Substances 0.000 description 1
- 229920002521 macromolecule Polymers 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 150000003431 steroids Chemical class 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/80—Data visualisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/90—Programming languages; Computing architectures; Database systems; Data warehousing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Crystallography & Structural Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Physics & Mathematics (AREA)
- Medicinal Chemistry (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Pharmacology & Pharmacy (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于TopoMA定量构效关系模型的药物设计方法,包括:步骤(1):在一个化合物上指定若干非环单键,通过所述非环单键将化合物分割出多个侧链;步骤(2):对于步骤(1)中分割出的每条侧链,TopoMA会执行侧链对齐至定位基、手性检查与调整、单键二面角调整以及非平面环检查与调整;步骤(3):对侧链进行CoMFA分析,通过SP3碳原子探针计算侧链在三维空间中的立体场描述符与静电场描述符,将每个分子三维格点的描述符平铺为一维向量,由多个分子的描述符组成矩阵,每个分子产生一个特征向量;步骤(4):建立分子描述符与生物活性数据之间关系的模型。相对于Topomer CoMFA方法采用PLS建模的单一建模方法而言,本发明有更大可能得到更好的模型。
Description
技术领域
本发明属于计算机辅助药物设计技术领域,涉及三维定量构效关系模型的构建方法,具体涉及一种基于TopoMA定量构效关系模型的药物设计方法。
背景技术
三维定量构效关系模型是一种借助分子的理化性质参数或是结构参数,以数学和统计学手段定量研究有机小分子与生物大分子相互作用、有机小分子在生物体内吸收、分布、代谢、排泄等生理相关性质的方法。目前广泛使用的三维定量构效关系研究方法主要有比较分子立场分析法(CoMFA)和分子相似性系数分析法(CoMSIA)。
已有技术中最接近的为Topomer CoMFA技术,是第二代CoMFA方法,该技术是按照固定规则,对小分子配体侧链的三维结构进行构象调整,使每个小分子侧链的相同子结构都具有较为一致的构象。构象调整包括对手性中心、非平面环、单键二面角的调整,然后通过传统CoMFA分析的方法,对调整后的侧链部分计算3D描述符。对输入的训练集分子使用偏最小二乘法对这些它们的3D描述符和性质数值进行建模,然后使用模型对带筛选分子进行性质预测。
主要技术问题及缺陷:1、传统的Topomer CoMFA技术中,用户需要在程序运行的过程中不断指定希望分割的化学键,对于一个较大的训练集/测试集来说,用户需要在程序运行的过程中一直守在电脑前等待。2、传统的Topomer CoMFA技术使用偏最小二乘法进行建模,建模手段单一,无特征工程与超参搜索过程,一些数据集上模型效果可能较差。
发明内容
为了解决以上技术问题,本发明提供一种基于TopoMA定量构效关系模型的药物设计方法。
其中,TopoMA是本发明中设计的方法的命名,基于的技术应是“Topomer CoMFA技术”。是对传统Topomer CoMFA方法的改进。
为实现上述目的,本发明所采用以下方案:
步骤(1):由用户在一个化合物上指定一些非环单键,通过这些键可以将化合物分割出多个侧链;TopoMA通过化学键匹配算法自动在分子库中其他化合物分子上自动匹配到这些对应的键,从而将分子库中的其它分子也拆分出多个侧链。
步骤(2):对于第1步中分割出的每条侧链,TopoMA会执行侧链对齐至定位基、手性检查与调整、单键二面角调整以及非平面环检查与调整。通过一套固定的调整规则,使所有化合物调整后的侧链都具有一致的构象。
步骤(3):对侧链进行CoMFA分析,通过SP3碳原子探针计算侧链在三维空间中的立体场描述符与静电场描述符,然后将每个分子三维格点的描述符平铺为一维向量,由多个分子的描述符组成矩阵,经过CoMFA分析,为每个分子产生了一个特征向量。
步骤(4):训练模型与预测,使用Xenon的Auto-ml框架,对CoMFA分析产生的矩阵进行自动建模,建立分子描述符与生物活性数据之间关系的模型,该模型可用于预测化合物的生物活性。
其中,Xenon代表申请人自主研发的自动化机器学习建模平台。该自动化建模平台,申请人于2020年9月15日申请了发明《一种分子预测模型的构建方法和计算设备》,申请号为:2020109680010。
进一步地,所述步骤(1)中用户输入一个参照分子,TopoMA程序会展示该分子的图片,每个原子都以索引号的形式展示,用户每次输入两个序号,指定一根键。TopoMA程序会检查指定的原子对是否成键,以及是否是非环单键,若满足全部条件,则断开用户输入的两个序号形成的键,从而将分子拆出两个侧链。
进一步地,所述步骤(1)中化学键匹配算法是根据参照分子上指定的键,从成键的其中一个原子出发,找到这一片段上所有原子的索引,然后按照与该原子的拓扑距离进行排序,最终整理成一个二维列表,与成键原子距离相同的原子放在一个子列表中。将每个二维列表与参照分子中指定原子的二维列表进行比对,检查两个列表中,同距离子列表中的每种原子类型个数是否一致,若一致,则加1分,若包含参照分子同距离子列表中的所有原子类型,额外加1分。对成键的另一个原子重复上述操作,最终将两个原子进行列表比对的总分相加,得分最高的键即为另一分子中与参照分子中的指定键匹配度最高的键。
进一步地,所述步骤(2)中侧链对齐至定位基是针对分子库中的每个分子,在找到所有参照分子指定键所对应的键后,便可将该分子像参照分子一样拆分出N个侧链。对于每个侧链,先将其对齐到设定好定位基上,定位基的设定与对齐方式如下:三个定位基坐标依次为(0, 0, 0), (1, 0, 0), (1, 1, 0)。将侧链上组成键所对应的两个原子及该片段上与匹配键直接相连的一个原子,分别对齐到三个定位基坐标上,并调整三个原子的夹角至与定位基夹角相同。
进一步地,所述步骤(2)中的手性检查与调整是针对经过侧链对齐至定位基的分子检查分子中的所有手性中心,对于每个手性中心原子,将其设为a2。与其相连的原子分别设为a1,a3和a4,拓扑距离上最靠近侧链根原子的为a1,较远的相邻原子中,在长链上的为a3,短链上的为a4。TopoMA会检查a4是否位于a1,a2,a3所组成平面的右侧(方向为a1→a3),如果不在右侧,则将a4及相连的基团镜像反射到平面另一侧。如果a1,a2,a3共线,则选择过a1,a2,a3的xy平面。
进一步地,所述步骤(2)中的单键二面角检查与调整是检查分子中所有的非端点的非环单键(不包括与氢原子形成的单键),将组成该非环单键的原子设为b和c,与b相连的原子设为a,与c相连的原子设为d。如果b和c都不在环中,将a,b,c,d的二面角调整至180度;如果b,c都在环中,将a,b,c,d二面角调整至60度;如果b,c其中有一个在环中,将a,b,c,d二面角调整至90度。
进一步地,所述步骤(2)中的非平面环检查与调整是将化合物中所有非芳香环调整为平面环,并将与环原子相连的所有基团调整至该平面上。
进一步地,所述步骤(3)中对侧链进行CoMFA分析的主要步骤如下:
A. 设定一个10*10*10的立方体虚拟盒子,每格长度为2埃,将第一个化合物分子的侧链1放入其中;
B. 放置SP3碳原子探针至第一个格点处,分别计算每个侧链原子与SP3碳原子探针的相互作用(Lennard-Jones potential & Coulomb interaction)。再将这两种相互作用的值乘这个原子的衰减因子(与侧链根原子的拓扑距离),最终得到该侧链原子与SP3碳原子探针的两种相互作用能;
C. 将第一个格点上探针与每个原子的相互作用能进行求和,得到该格点的立体场描述符(S001)和静电场描述符(E001);
D. 将该点的值写入侧链1的CoMFA矩阵。调整探针至格点2,以此类推,直到侧链1的CoMFA矩阵第一行被填满;
E. 放入第二个分子的侧链1,以此类推,直到侧链1的CoMFA矩阵被填满;
F. 计算每个分子的侧链2,重复以上步骤,直至所有侧链的矩阵都计算完毕。
进一步地,所述步骤(4)中使用Xenon的Auto-ml框架,对CoMFA分析产生的矩阵进行自动建模。Xenon可以通过随机搜索进行特征工程、建模方法、以及建模方法超参数的自动搜索,最终产出机器学习模型。
Xenon会对产出的机器学习模型进行五折交叉验证,用户从中选择五折交叉验证R^2值更高的模型进行集成学习,集成后的模型同样会有五折交叉验证的R^2值,从中选择最高的模型作为最终模型,再通过测试集来检验该模型在生产中可能的表现。
对于活性未知的化合物结构,由TopoMA产生该分子的特征向量,然后由Xenon机器学习模型进行预测。
在本发明中TopoMA方法与基于分子指纹的QSAR建模方法,以及普通TopomerCoMFA方法相比,分子指纹是典型的二维定量构象关系方法,无法精确描述分子三维空间排列与其理化性质和生物活性之间的相关性,TopoMA方法构造的模型具有更加明确的物理意义,建模信息量更加丰富,
TopoMA方法相比于同是三维定量构效关系Topomer CoMFA方法,TopoMA的键匹配算法,令用户无需在程序运行过程中多次对化合物上的键进行指定,克服了Topomer CoMFA方法的缺点;同是TopoMA以Xenon的Auto-ML方式进行建模,特征工程与建模方法更多样,相对于Topomer CoMFA方法采用PLS建模的单一建模方法而言,本发明有更大可能得到更好的模型。
附图说明
图1是本发明用户输入的一个参照分子后,TopoMA进行侧链拆分的示意图。
图2是本发明对分子的手性中心检查与调整的示意图。
图3是本发明对分子的单键二面角检查与调整的示意图。
图4是本发明对不同分子进行一系列调整后的侧链R1,进行堆叠后的可视化效果。
图5是本发明对不同分子进行一系列调整后的侧链R2,进行堆叠后的可视化效果。
图6是本发明对侧链R1执行CoMFA分析的示意图。
图7是本发明对侧链R1进行CoMFA分析后形成的CoMFA矩阵示意图。
图8是本发明建立分子描述符与生物活性数据之间关系的模型示意图。
图9是实施例2中,用户输入一个参照分子,TopoMA程序会展示该分子的图片。
图10是实施例2中,展示了通过在参照分子中的键将分子一分为二,定义出R1与R2侧链,在不同化合物中分别切出对应的侧链,再堆叠到一起的可视化效果。
图11是实施例3中,用户输入一个参照分子,TopoMA程序会展示该分子的图片。
图12是实施例3中,对不同分子进行一系列调整后的侧链R2,进行堆叠后的可视化效果。
具体实施方式
下面结合附图,对本发明的较优的实施例作进一步的详细说明:
实施例1
1、非环单键的指定与自动匹配
图1是用户输入一个参照分子,TopoMA程序会展示该分子的图片,每个原子都以索引号的形式展示。用户每次输入两个序号,指定一根键。例如输入[7, 6],然后输入[10,11], TopoMA程序会检查指定的原子对是否成键,以及是否是非环单键,若满足条件,则断开上图中标注为蓝色的键,从而将分子拆出两个侧链:R1, R2。
对于参照分子上已指定的键,TopoMA会在分子库中的其它分子上自动匹配到对应的键,从而将分子库中的其它分子也拆分出N个侧链,例如R1, R2。键匹配的算法如下:
对于参照分子上指定的键,从成键的其中一个原子出发,找到这一片段上所有原子的索引,然后按照与该原子的拓扑距离进行排序,最终整理成一个二维列表, 与成键原子距离相同的原子放在一个子列表中。例如图1中从6号原子出发,会找到[[5, 24], [2,1, 25], [0, 3], [4]]。然后对于分子库中的每个分子,循环分子中所有的非环单键,对于非环单键中的每一个原子,执行与参照分子相同的查找索引过程,得到按拓扑距离排列的二维列表,将每个二维列表与参照分子中指定原子的二维列表进行比对,检查两个列表中,同距离子列表中的每种原子类型个数是否一致,若一致,则加1分,若包含参照分子同距离子列表中的所有原子类型,额外加1分。对成键的另一个原子重复上述操作,最终将两个原子进行列表比对的总分相加,得分最高的键即为另一分子中与参照分子中的指定键匹配度最高的键。
2、侧链对齐至定位基
对于分子库中的每个分子,在找到所有参照分子指定键所对应的键后,便可将该分子像参照分子一样拆分出N个侧链。对于每个侧链,先将其对齐到设定好定位基上,定位基的设定与对齐方式如下:三个定位基坐标依次为(0, 0, 0), (1, 0, 0), (1, 1, 0)。将侧链上组成键所对应的两个原子及该片段上与匹配键直接相连的一个原子,分别对齐到三个定位基坐标上,并调整三个原子的夹角至与定位基夹角相同。在图1中,R1侧链会将7,6,5(5或24中会取1个)对齐到三个定位基上。
3. 手性中心检查与调整
检查分子中的所有手性中心,对于每个手性中心原子,将其设为a2。与其相连的原子设为a1,a3和a4,如图2所示。
TopoMA会检查a4 是否位于a1,a2,a3所组成平面的右侧(方向为a1→a3),如果不在右侧,则将a4及相连的基团镜像反射到平面另一侧。如果a1,a2,a3共线,则选择过a1,a2,a3的xy平面。
4. 单键二面角检查与调整
检查分子中所有的非端点的非环单键(不包括与氢原子形成的单键),将组成该非环单键的原子设为b和c,与b相连的原子设为a,与c相连的原子设为d。如图3所示。
如果b和c都不在环中,将a,b,c,d的二面角调整至180度;如果b,c都在环中,将a,b,c,d二面角调整至60度;如果b,c其中有一个在环中,将a,b,c,d二面角调整至90度。
5. 非平面环检查与调整
将化合物中所有非芳香环调整为平面环,并将与环原子相连的所有基团调整至该平面上。
6. 生成一致构象
基于以上调整规则,在对侧链进行一系列移动与调整后,最终在不同的化合物中,具有相同或类似结构的侧链必定具有较为一致的构象。如图4、图5所示,分别展示了通过在参照分子中的键定义出R1与R2侧链,R1与R2代表将分子分成第一侧链和第二侧链;在不同化合物中分别切出对应的侧链,再堆叠到一起的可视化效果。可见,侧链的结构越相近,调整后的侧链构象就越一致。
7. CoMFA分析
对每个调整后的侧链执行CoMFA分析,如图6,、图7所示,其中,图7的参考文献:Effect of Shape on Binding of Steroids to Carrier Proteins。
CoMFA分析的主要步骤如下:
A. 设定一个10*10*10的立方体虚拟盒子,每格长度为2埃,将第一个化合物分子的侧链1放入其中;
B. 放置SP3碳原子探针至第一个格点处,计算每个侧链原子与SP3碳原子探针的相互作用能(Lennard-Jones potential & Coulomb interaction)。再将值乘这个原子的衰减因子(与侧链根原子的拓扑距离)
C. 将第一个格点上探针与每个原子的相互作用能进行求和,得到该格点的立体场描述符(S001)和静电场描述符(E001)
D. 将该点的值写入侧链1的CoMFA矩阵。调整探针至格点2,以此类推,直到侧链1的CoMFA矩阵第一行被填满;
E. 放入第二个分子的侧链1,以此类推,直到侧链1的CoMFA矩阵被填满;
F. 计算每个分子的侧链2,重复以上步骤,直至所有侧链的矩阵都计算完毕;
经过以上CoMFA分析步骤,为每个分子产生了一个特征向量。
8. 训练模型与预测
图8是本发明建立分子描述符与生物活性数据之间关系的模型示意图;使用Xenon的Auto-ml框架,对CoMFA分析产生的矩阵进行自动建模。Xenon可以通过随机搜索进行特征工程、建模方法、以及建模方法超参数的自动搜索,最终产出机器学习模型。
Xenon会对产出的机器学习模型进行五折交叉验证,用户从中选择五折交叉验证R^2值更高的模型进行集成学习,集成后的模型同样会有五折交叉验证的R^2值,从中选择最高的模型作为最终模型,再通过测试集来检验该模型在生产中可能的表现。
对于活性未知的化合物结构,由TopoMA产生该分子的特征向量,然后由Xenon机器学习模型进行预测。
9. 具体的实施方式举例
在factor Xa、a2a、rvtrans三个数据集上的测试结果如表1:
表1
factor Xa数据集共有72个样本,a2a数据集有78个样本,rvtrans数据集有82个样本。训练集与测试集按照4:1的比例进行随机划分。表1中CV R2为训练模型五折交叉验证的R2,TEST R2是在测试集上预测值与真实活性的R2。该测试结果说明,TopoMA在以上数据集的测试集中,可以得到预测值与真实活性相关性为0.460、0.521、0.775、0.585的预测模型。如果放到生产环境中,若数据集样本的化学空间分布与训练集相似,就可以得到同样水平的预测结果。
实施例2
1、非环单键的指定与自动匹配
图9是用户输入一个参照分子,TopoMA程序会展示该分子的图片,每个原子都以索引号的形式展示。用户输入两个序号,指定一根键。例如输入[11, 12], TopoMA程序会检查指定的原子对是否成键,以及是否是非环单键,若满足条件,则断开图9中11和12号原子形成的单键。由于只指定了一根单键,因此TopoMA会询问用户,是将分子一分为二,或是只指定一个侧链。在该实施例中用户选择将分子一分为二,分子被拆成两个侧链:R1, R2。
对于参照分子上已指定的键,TopoMA会在分子库中的其它分子上自动匹配到对应的键,从而将分子库中的其它分子也拆分出N个侧链,例如R1, R2。键匹配的算法如下:
对于参照分子上指定的键,从成键的其中一个原子出发,找到这一片段上所有原子的索引,然后按照与该原子的拓扑距离进行排序,最终整理成一个二维列表, 与成键原子距离相同的原子放在一个子列表中。例如图1中从6号原子出发,会找到[[5, 24], [2,1, 25], [0, 3], [4]]。然后对于分子库中的每个分子,循环分子中所有的非环单键,对于非环单键中的每一个原子,执行与参照分子相同的查找索引过程,得到按拓扑距离排列的二维列表,将每个二维列表与参照分子中指定原子的二维列表进行比对,检查两个列表中,同距离子列表中的每种原子类型个数是否一致,若一致,则加1分,若包含参照分子同距离子列表中的所有原子类型,额外加1分。对成键的另一个原子重复上述操作,最终将两个原子进行列表比对的总分相加,得分最高的键即为另一分子中与参照分子中的指定键匹配度最高的键。
2、侧链对齐至定位基
对于分子库中的每个分子,在找到所有参照分子指定键所对应的键后,便可将该分子像参照分子一样拆分出N个侧链。对于每个侧链,先将其对齐到设定好定位基上,定位基的设定与对齐方式如下:三个定位基坐标依次为(0, 0, 0), (1, 0, 0), (1, 1, 0)。将侧链上组成键所对应的两个原子及该片段上与匹配键直接相连的一个原子,分别对齐到三个定位基坐标上,并调整三个原子的夹角至与定位基夹角相同。在图1中,R1侧链会将7,6,5(5或24中会取1个)对齐到三个定位基上。
3. 手性中心检查与调整
检查分子中的所有手性中心,对于每个手性中心原子,将其设为a2。与其相连的原子设为a1, a3和a4, 如图2所示。
TopoMA会检查a4 是否位于a1,a2,a3所组成平面的右侧(方向为a1→a3),如果不在右侧,则将a4及相连的基团镜像反射到平面另一侧。如果a1,a2,a3共线,则选择过a1,a2,a3的xy平面。
4. 单键二面角检查与调整
检查分子中所有的非端点的非环单键(不包括与氢原子形成的单键),将组成该非环单键的原子设为b和c,与b相连的原子设为a,与c相连的原子设为d。如图3所示。
如果b和c都不在环中,将a,b,c,d的二面角调整至180度;如果b,c都在环中,将a,b,c,d二面角调整至60度;如果b,c其中有一个在环中,将a,b,c,d二面角调整至90度。
5. 非平面环检查与调整
将化合物中所有非芳香环调整为平面环,并将与环原子相连的所有基团调整至该平面上。
6. 生成一致构象
基于以上调整规则,在对侧链进行一系列移动与调整后,最终在不同的化合物中,具有相同或类似结构的侧链必定具有较为一致的构象。如图10所示,展示了通过在参照分子中的键将分子一分为二,定义出R1与R2侧链,在不同化合物中分别切出对应的侧链,再堆叠到一起的可视化效果。可见,侧链的结构越相近,调整后的侧链构象就越一致。
7. CoMFA分析
对每个调整后的侧链执行CoMFA分析,如图6、图7所示:
CoMFA分析的主要步骤如下:
A. 设定一个10*10*10的立方体虚拟盒子,每格长度为2埃,将第一个化合物分子的侧链1放入其中;
B. 放置SP3碳原子探针至第一个格点处,计算每个侧链原子与SP3碳原子探针的相互作用能(Lennard-Jones potential & Coulomb interaction)。再将值乘这个原子的衰减因子(与侧链根原子的拓扑距离)
C. 将第一个格点上探针与每个原子的相互作用能进行求和,得到该格点的立体场描述符(S001)和静电场描述符(E001)
D. 将该点的值写入侧链1的CoMFA矩阵。调整探针至格点2,以此类推,直到侧链1的CoMFA矩阵第一行被填满;
E. 放入第二个分子的侧链1,以此类推,直到侧链1的CoMFA矩阵被填满;
F. 计算每个分子的侧链2,重复以上步骤,直至所有侧链的矩阵都计算完毕;
经过以上CoMFA分析步骤,为每个分子产生了一个特征向量。
8. 训练模型与预测
图8是本发明建立分子描述符与生物活性数据之间关系的模型示意图;使用Xenon的Auto-ml框架,对CoMFA分析产生的矩阵进行自动建模。Xenon可以通过随机搜索进行特征工程、建模方法、以及建模方法超参数的自动搜索,最终产出机器学习模型。
Xenon会对产出的机器学习模型进行五折交叉验证,用户从中选择五折交叉验证R^2值更高的模型进行集成学习,集成后的模型同样会有五折交叉验证的R^2值,从中选择最高的模型作为最终模型,再通过测试集来检验该模型在生产中可能的表现。
对于活性未知的化合物结构,由TopoMA产生该分子的特征向量,然后由Xenon机器学习模型进行预测。
9. 具体的实施方式举例
cannab数据集中共有70个样本。训练集与测试集按照4:1的比例进行随机划分。在cannab数据集上的测试结果为:训练模型五折交叉验证的R2 为0.737,测试集上预测值与真实活性的R2为0.693。 该测试结果说明,TopoMA在cannab数据集的测试集中,可以得到预测值与真实活性相关性为0.693的预测模型。如果放到生产环境中,若数据集样本的化学空间分布与训练集相似,就可以得到同样水平的预测结果。
实施例3
1、非环单键的指定与自动匹配
图11是用户输入一个参照分子,TopoMA程序会展示该分子的图片,每个原子都以索引号的形式展示。用户输入两个序号,指定一根键。例如输入[7, 8], TopoMA程序会检查指定的原子对是否成键,以及是否是非环单键,若满足条件,则断开上图11中7和8号原子形成的单键。由于只指定了一根单键,因此TopoMA会询问用户,是将分子一分为二,或是只指定一个侧链。在该例中用户选择只指定R1一个侧链,分子只有R1侧链被切出。
如果输入的是[7,8],则8号原子所在的部分为R1侧链;如果输入的是[8,7],则7号原子所在的部分为R1侧链。
对于参照分子上已指定的键,TopoMA会在分子库中的其它分子上自动匹配到对应的键,从而将分子库中的其它分子也拆分出N个侧链,例如R1, R2。键匹配的算法如下:
对于参照分子上指定的键,从成键的其中一个原子出发,找到这一片段上所有原子的索引,然后按照与该原子的拓扑距离进行排序,最终整理成一个二维列表, 与成键原子距离相同的原子放在一个子列表中。例如图1中从6号原子出发,会找到[[5, 24], [2,1, 25], [0, 3], [4]]。然后对于分子库中的每个分子,循环分子中所有的非环单键,对于非环单键中的每一个原子,执行与参照分子相同的查找索引过程,得到按拓扑距离排列的二维列表,将每个二维列表与参照分子中指定原子的二维列表进行比对,检查两个列表中,同距离子列表中的每种原子类型个数是否一致,若一致,则加1分,若包含参照分子同距离子列表中的所有原子类型,额外加1分。对成键的另一个原子重复上述操作,最终将两个原子进行列表比对的总分相加,得分最高的键即为另一分子中与参照分子中的指定键匹配度最高的键。
2、侧链对齐至定位基
对于分子库中的每个分子,在找到所有参照分子指定键所对应的键后,便可将该分子像参照分子一样拆分出N个侧链。对于每个侧链,先将其对齐到设定好定位基上,定位基的设定与对齐方式如下:三个定位基坐标依次为(0, 0, 0), (1, 0, 0), (1, 1, 0)。将侧链上组成键所对应的两个原子及该片段上与匹配键直接相连的一个原子,分别对齐到三个定位基坐标上,并调整三个原子的夹角至与定位基夹角相同。在图1中,R1侧链会将7,6,5(5或24中会取1个)对齐到三个定位基上。
3. 手性中心检查与调整
检查分子中的所有手性中心,对于每个手性中心原子,将其设为a2。与其相连的原子设为a1, a3和a4, 如图2所示。
TopoMA会检查a4 是否位于a1,a2,a3所组成平面的右侧(方向为a1→a3),如果不在右侧,则将a4及相连的基团镜像反射到平面另一侧。如果a1,a2,a3共线,则选择过a1,a2,a3的xy平面。
4. 单键二面角检查与调整
检查分子中所有的非端点的非环单键(不包括与氢原子形成的单键),将组成该非环单键的原子设为b和c,与b相连的原子设为a,与c相连的原子设为d。如图3所示。
如果b和c都不在环中,将a,b,c,d的二面角调整至180度;如果b,c都在环中,将a,b,c,d二面角调整至60度;如果b,c其中有一个在环中,将a,b,c,d二面角调整至90度。
5. 非平面环检查与调整
将化合物中所有非芳香环调整为平面环,并将与环原子相连的所有基团调整至该平面上。
6. 生成一致构象
基于以上调整规则,在对侧链进行一系列移动与调整后,最终在不同的化合物中,具有相同或类似结构的侧链必定具有较为一致的构象。如图12所示,展示了通过在参照分子中的键将分子R1侧链切出,定义出R1侧链,在不同化合物中分别切出对应的侧链,再堆叠到一起的可视化效果。可见,侧链的结构越相近,调整后的侧链构象就越一致。
7. CoMFA分析
对每个调整后的侧链执行CoMFA分析,如图6,、图7所示
CoMFA分析的主要步骤如下:
A. 设定一个10*10*10的立方体虚拟盒子,每格长度为2埃,将第一个化合物分子的侧链1放入其中;
B. 放置SP3碳原子探针至第一个格点处,计算每个侧链原子与SP3碳原子探针的相互作用能(Lennard-Jones potential & Coulomb interaction)。再将值乘这个原子的衰减因子(与侧链根原子的拓扑距离)
C. 将第一个格点上探针与每个原子的相互作用能进行求和,得到该格点的立体场描述符(S001)和静电场描述符(E001)
D. 将该点的值写入侧链1的CoMFA矩阵。调整探针至格点2,以此类推,直到侧链1的CoMFA矩阵第一行被填满;
E. 放入第二个分子的侧链1,以此类推,直到侧链1的CoMFA矩阵被填满;
F. 计算每个分子的侧链2,重复以上步骤,直至所有侧链的矩阵都计算完毕;
经过以上CoMFA分析步骤,为每个分子产生了一个特征向量。
8. 训练模型与预测
图8是本发明建立分子描述符与生物活性数据之间关系的模型示意图;使用Xenon的Auto-ml框架,对CoMFA分析产生的矩阵进行自动建模。Xenon可以通过随机搜索进行特征工程、建模方法、以及建模方法超参数的自动搜索,最终产出机器学习模型。
Xenon会对产出的机器学习模型进行五折交叉验证,用户从中选择五折交叉验证R^2值更高的模型进行集成学习,集成后的模型同样会有五折交叉验证的R^2值,从中选择最高的模型作为最终模型,再通过测试集来检验该模型在生产中可能的表现。
对于活性未知的化合物结构,由TopoMA产生该分子的特征向量,然后由Xenon机器学习模型进行预测。
9. 具体的实施方式举例
Btk数据集中共有115个样本。训练集与测试集按照4:1的比例进行随机划分。在Btk数据集上的测试结果为:训练模型五折交叉验证的R2 为0.653, 测试集上预测值与真实活性的R2为0.641。 该测试结果说明,TopoMA在cannab数据集的测试集中,可以得到预测值与真实活性相关性为0.641的预测模型。如果放到生产环境中,若数据集样本的化学空间分布与训练集相似,就可以得到同样水平的预测结果。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (4)
1.一种基于TopoMA定量构效关系模型的药物设计方法,其特征在于,包括如下步骤:
步骤(1):在一个化合物上指定若干非环单键,通过所述非环单键将化合物分割出多个侧链;TopoMA通过化学键匹配算法在分子库中其它化合物分子上自动匹配到这些对应的键,从而将分子库中的其它分子也拆分出多个侧链;
步骤(2):对于步骤(1)中分割出的每条侧链,TopoMA会执行侧链对齐至定位基、手性检查与调整、单键二面角调整以及非平面环检查与调整;使所有化合物调整后的侧链都具有一致的构象;
步骤(3):对侧链进行CoMFA分析,通过SP3碳原子探针计算侧链在三维空间中的立体场描述符与静电场描述符,然后将每个分子三维格点的描述符平铺为一维向量,由多个分子的描述符组成矩阵,经过CoMFA分析,为每个分子产生一个特征向量;
步骤(4):训练模型与预测,使用Xenon的Auto-ml框架,对CoMFA分析产生的矩阵进行建模,建立分子描述符与生物活性数据之间关系的模型,该模型用于预测化合物的生物活性;
所述步骤(1)中,化学键匹配算法是根据参照分子上指定的键,从成键的其中一个原子出发,找到这一片段上所有原子的索引,然后按照与该原子的拓扑距离进行排序,最终整理成一个二维列表,与成键原子距离相同的原子放在一个子列表中;
所述步骤(2)中,侧链对齐至定位基是针对分子库中的每个分子,在找到所有参照分子指定键所对应的键后,便可将该分子像参照分子一样拆分出N个侧链;
所述步骤(2)中,手性检查与调整是针对经过侧链对齐至定位基的分子检查分子中的所有手性中心,对于每个手性中心原子,将其设为a2;与其相连的原子设为a1,a3和a4,TopoMA会检查a4是否位于a1,a2,a3所组成平面的右侧,方向为a1→a3,如果不在右侧,则将a4及相连的基团镜像反射到平面另一侧;如果a1,a2,a3共线,则选择过a1,a2,a3的xy平面;
所述步骤(2)中的单键二面角检查与调整是检查分子中所有的非端点的非环单键,将组成该非环单键的原子设为b和c,与b相连的原子设为a,与c相连的原子设为d;如果b和c都不在环中,将a,b,c,d的二面角调整至180度;如果b,c都在环中,将a,b,c,d二面角调整至60度;如果b,c其中有一个在环中,将a,b,c,d二面角调整至90度;
所述步骤(2)中的非平面环检查与调整是将化合物中所有非芳香环调整为平面环,并将与环原子相连的所有基团调整至该平面上。
2.如权利要求1所述的基于TopoMA定量构效关系模型的药物设计方法,其特征在于,
所述步骤(1)中输入一个参照分子,TopoMA程序会展示该分子的图片,每个原子都以索引号的形式展示,用户每次输入两个序号,指定一根键;TopoMA程序检查指定的原子对是否成键,以及是否是非环单键,若满足全部条件,则断开用户输入的两个序号形成的键,从而将分子拆出两个侧链。
3.如权利要求1所述的基于TopoMA定量构效关系模型的药物设计方法,其特征在于,
所述步骤(3)中对侧链进行CoMFA分析的主要步骤如下:
A.设定一个10*10*10的立方体虚拟盒子,每格长度为2埃,将第一个化合物分子的侧链1放入其中;
B.放置SP3碳原子探针至第一个格点处,计算每个侧链原子与SP3碳原子探针的相互作用能;再将值乘这个原子的衰减因子;
C.将第一个格点上探针与每个原子的相互作用能进行求和,得到该格点的立体场描述符和静电场描述符;
D.将该点的值写入侧链1的CoMFA矩阵,调整探针至格点2,以此类推,直到侧链1的CoMFA矩阵第一行被填满;
E.放入第二个分子的侧链1,以此类推,直到侧链1的CoMFA矩阵被填满;
F.计算每个分子的侧链2,重复以上步骤,直至所有侧链的矩阵都计算完毕。
4.如权利要求1所述的基于TopoMA定量构效关系模型的药物设计方法,其特征在于,
所述步骤(4)中使用Xenon的Auto-ml框架,对CoMFA分析产生的矩阵进行自动建模;Xenon通过随机搜索进行特征工程、建模方法、以及建模方法超参数的自动搜索,最终产出机器学习模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011085973.1A CN112102900B (zh) | 2020-10-12 | 2020-10-12 | 一种基于TopoMA定量构效关系模型的药物设计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011085973.1A CN112102900B (zh) | 2020-10-12 | 2020-10-12 | 一种基于TopoMA定量构效关系模型的药物设计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112102900A CN112102900A (zh) | 2020-12-18 |
CN112102900B true CN112102900B (zh) | 2024-02-23 |
Family
ID=73783170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011085973.1A Active CN112102900B (zh) | 2020-10-12 | 2020-10-12 | 一种基于TopoMA定量构效关系模型的药物设计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112102900B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930113A (zh) * | 2012-11-14 | 2013-02-13 | 华南农业大学 | 用于预测化合物活性的两级拟合qsar模型的构建方法 |
CN104834831A (zh) * | 2015-04-08 | 2015-08-12 | 北京工业大学 | 一种基于三维定量构效关系模型的一致性模型构建方法 |
CN110832322A (zh) * | 2017-05-03 | 2020-02-21 | 比奥德赛公司 | 利用双光子荧光测定法确定蛋白质结构的方法 |
CN111445945A (zh) * | 2020-03-20 | 2020-07-24 | 北京晶派科技有限公司 | 一种小分子活性预测方法、装置和计算设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1502104A4 (en) * | 2002-02-25 | 2006-09-13 | Richard D Cramer | THE TOPOMERE ORIENTATION OF MOLECULAR FRAGMENTS USING COMPARATIVE FIELD ANALYSIS (COMFA) |
-
2020
- 2020-10-12 CN CN202011085973.1A patent/CN112102900B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930113A (zh) * | 2012-11-14 | 2013-02-13 | 华南农业大学 | 用于预测化合物活性的两级拟合qsar模型的构建方法 |
CN104834831A (zh) * | 2015-04-08 | 2015-08-12 | 北京工业大学 | 一种基于三维定量构效关系模型的一致性模型构建方法 |
CN110832322A (zh) * | 2017-05-03 | 2020-02-21 | 比奥德赛公司 | 利用双光子荧光测定法确定蛋白质结构的方法 |
CN111445945A (zh) * | 2020-03-20 | 2020-07-24 | 北京晶派科技有限公司 | 一种小分子活性预测方法、装置和计算设备 |
Non-Patent Citations (2)
Title |
---|
3D CoMFA, CoMSIA, topomer CoMFA and HQSAR studies on aromatic acid esters for carbonic anhydrase inhibitory activity;Shrikant S. Nilewar 等;《Journal of Chemometrics》;第28卷(第1期);第60-70页 * |
抑制性谷氨酸受体(IGluRs)的同源模建及分子对接;舒启超;《中国优秀硕士学位论文全文数据库工程科技Ⅰ辑》(第7期);第4.2节 * |
Also Published As
Publication number | Publication date |
---|---|
CN112102900A (zh) | 2020-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lewis et al. | Automated site-directed drug design: the concept of spacer skeletons for primary structure generation | |
Treangen et al. | M-GCAT: interactively and efficiently constructing large-scale multiple genome comparison frameworks in closely related species | |
JP2003527698A (ja) | データベース | |
KR101400717B1 (ko) | 전체원자기반 고분자 복합체의 시뮬레이션 시스템 및 방법 | |
JP2009520278A (ja) | 科学情報知識管理のためのシステムおよび方法 | |
Oprea et al. | Chemical information management in drug discovery: Optimizing the computational and combinatorial chemistry interfaces | |
Zok et al. | MCQ4Structures to compute similarity of molecule structures | |
WO2021103516A1 (zh) | 晶体复合物的药物虚拟筛选系统及方法 | |
CN111402967B (zh) | 一种基于机器学习算法提升对接软件虚拟筛选能力的方法 | |
CN107563653A (zh) | 一种多机器人全覆盖任务分配方法 | |
CN115240762B (zh) | 多尺度小分子虚拟筛选方法及系统 | |
US20080172216A1 (en) | Forward synthetic synthon generation and its useto identify molecules similar in 3 dimensional shape to pharmaceutical lead compounds | |
US8200439B2 (en) | Computer aided ligand-based and receptor-based drug design utilizing molecular shape and electrostatic complementarity | |
CN112102900B (zh) | 一种基于TopoMA定量构效关系模型的药物设计方法 | |
CN108875298B (zh) | 基于分子形状匹配的药物筛选方法 | |
Clyde et al. | Regression enrichment surfaces: a simple analysis technique for virtual drug screening models | |
CN105205351A (zh) | 一种药物靶标的高通量检索方法 | |
CN109062921A (zh) | 一种提取船舶托盘管理信息的方法及系统 | |
US20060178840A1 (en) | Method and apparatus for searching molecular structure databases | |
Miloserdov | Classifying amorphous polymers for membrane technology basing on accessible surface area of their conformations | |
CN114842924A (zh) | 一种优化的从头药物设计方法 | |
Shibberu et al. | Fast protein structure alignment | |
Inhester | Mining of Interaction Geometries in Collections of Protein Structures | |
US20110301858A1 (en) | Systems and methods for computer assisted alignment of conformers | |
Chida et al. | Enhanced Encoding with Improved Fuzzy Decision Tree Testing Using CASP Templates |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Unit 706, 7th floor, block AB, Dongsheng building, 8 Zhongguancun East Road, Haidian District, Beijing 100083 Applicant after: Beijing Jingtai Technology Co.,Ltd. Address before: 100083 unit 333, 3rd floor, block C, Dongsheng building, 8 Zhongguancun East Road, Haidian District, Beijing Applicant before: BEIJING JINGPAI TECHNOLOGY Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |