CN117174164B - 基于预测蛋白质-小分子结合姿势筛选先导化合物的方法 - Google Patents
基于预测蛋白质-小分子结合姿势筛选先导化合物的方法 Download PDFInfo
- Publication number
- CN117174164B CN117174164B CN202311412187.1A CN202311412187A CN117174164B CN 117174164 B CN117174164 B CN 117174164B CN 202311412187 A CN202311412187 A CN 202311412187A CN 117174164 B CN117174164 B CN 117174164B
- Authority
- CN
- China
- Prior art keywords
- fragments
- combined
- scoring
- small molecules
- complete
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012216 screening Methods 0.000 title claims abstract description 25
- 150000002611 lead compounds Chemical class 0.000 title claims abstract description 19
- 230000009149 molecular binding Effects 0.000 title claims description 5
- 239000012634 fragment Substances 0.000 claims abstract description 346
- 150000003384 small molecules Chemical class 0.000 claims abstract description 143
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 82
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 82
- 210000001503 joint Anatomy 0.000 claims abstract description 40
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 36
- 238000006757 chemical reactions by type Methods 0.000 claims abstract description 9
- 238000006243 chemical reaction Methods 0.000 claims description 38
- 238000003032 molecular docking Methods 0.000 claims description 26
- 230000027455 binding Effects 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 6
- 230000000155 isotopic effect Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 abstract description 19
- 238000009510 drug design Methods 0.000 abstract description 5
- 235000018102 proteins Nutrition 0.000 description 70
- 238000004422 calculation algorithm Methods 0.000 description 17
- 230000003993 interaction Effects 0.000 description 11
- 239000003814 drug Substances 0.000 description 9
- 229940079593 drug Drugs 0.000 description 9
- 238000012360 testing method Methods 0.000 description 9
- 230000036544 posture Effects 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 6
- 125000004429 atom Chemical group 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 238000013467 fragmentation Methods 0.000 description 4
- 238000006062 fragmentation reaction Methods 0.000 description 4
- 229910052739 hydrogen Inorganic materials 0.000 description 4
- 239000001257 hydrogen Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 2
- 238000005575 aldol reaction Methods 0.000 description 2
- 238000005447 aza-Wittig reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 229910052799 carbon Inorganic materials 0.000 description 2
- CREMABGTGYGIQB-UHFFFAOYSA-N carbon carbon Chemical compound C.C CREMABGTGYGIQB-UHFFFAOYSA-N 0.000 description 2
- 239000011203 carbon fibre reinforced carbon Substances 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000013537 high throughput screening Methods 0.000 description 2
- 238000009396 hybridization Methods 0.000 description 2
- 125000004435 hydrogen atom Chemical group [H]* 0.000 description 2
- 150000002500 ions Chemical class 0.000 description 2
- 125000002496 methyl group Chemical group [H]C([H])([H])* 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 241000631130 Chrysophyllum argenteum Species 0.000 description 1
- WHUUTDBJXJRKMK-UHFFFAOYSA-N Glutamic acid Natural products OC(=O)C(N)CCC(O)=O WHUUTDBJXJRKMK-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000001311 chemical methods and process Methods 0.000 description 1
- 238000003776 cleavage reaction Methods 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 230000000857 drug effect Effects 0.000 description 1
- 235000013922 glutamic acid Nutrition 0.000 description 1
- 239000004220 glutamic acid Substances 0.000 description 1
- 238000012482 interaction analysis Methods 0.000 description 1
- 230000009878 intermolecular interaction Effects 0.000 description 1
- 230000008863 intramolecular interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 230000007017 scission Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010189 synthetic method Methods 0.000 description 1
- 230000002110 toxicologic effect Effects 0.000 description 1
- 231100000723 toxicological property Toxicity 0.000 description 1
- 238000003041 virtual screening Methods 0.000 description 1
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明提供了基于预测蛋白质‑小分子结合姿势筛选先导化合物的方法,属于计算机辅助药物设计技术领域。本发明基于合成反应的反应中心结构拆分小分子,采用12C同位素替代所得碎片的虚原子,将完整小分子对接并计算碎片的对接打分;将12C同位素替换为虚原子,将碎片两两组合进行增长,根据组合碎片中两个碎片的对接打分得到组合碎片打分,若组合碎片中两个碎片连接的虚原子对应的合成反应类型不同,放弃组合;采用12C同位素替代组合碎片打分排名靠前的组合碎片中的虚原子,将完整组合小分子进行对接并计算对应组合碎片的对接打分;根据蛋白质口袋与完整组合小分子大小判断增长是否结束。本发明方法筛选效率高且丰富了搜索的化学空间。
Description
技术领域
本发明涉及计算机辅助药物设计技术领域,尤其涉及基于预测蛋白质-小分子结合姿势筛选先导化合物的方法。
背景技术
先导化合物的发现长期以来在制药领域都是至关重要的一步,作为药物研发与设计的起点,先导化合物的结构与性质对后续的设计思路、研发成本、药物效果与毒理性质等有着决定性的作用。而传统药物化学中对于先导化合物的高通量筛选,通常是数以万计地进行药物的合成与活性测试,具有时间长、成本高的特点,严重地限制了新药研发的进展。因此,在过去的数十年中,计算机辅助药物设计(CADD)获得了充分的关注,也得到了长足的发展。
CADD方法结合了药物设计理论与数值优化方法,利用理化模型对蛋白质与小分子结合的自由能进行拟合,采用全局优化算法对拟合得到的自由能面进行搜索,寻找小分子的三维坐标空间中的全局最优点,即自由能最低点,以代表该小分子与蛋白质结合的稳定构型。在对大量小分子的高通量筛选过程中,通过对结合自由能、结合姿势的关键相互作用、小分子的理化性质等因素的计算与分析,即可得到一批在模拟中表现出高亲和性,同时具有良好理化性质的小分子进行合成与实验测试。采用CADD方法通常能够对千万至亿数量级的庞大小分子数据库进行筛选,将最终需要合成及实验测试的小分子的数量降低数百倍,从而大大提高研发效率,降低研发成本。
在当前的CADD方法中,通常依赖现有的小分子数据库进行搜寻,为了保证搜寻的化学空间的完整性,其中部分较大的小分子数据库的规模已经达到了十亿级,但对如此庞大的小分子数据库进行搜寻要求十分庞大的计算资源,这逐渐成为了CADD虚拟筛选的瓶颈;同时,随着药物化学与合成方法的发展,即使如此庞大的小分子数据库也可能会无法包含所有需要的结构。
发明内容
本发明的目的在于提供基于预测蛋白质-小分子结合姿势筛选先导化合物的方法,本发明提供的方法能够解决CADD基于传统小分子数据库算法存在的筛选效率低以及化学空间有限的问题。
为了实现上述发明目的,本发明提供以下技术方案:
本发明提供了基于预测蛋白质-小分子结合姿势筛选先导化合物的方法,包括以下步骤:
(1)基于合成反应的反应中心结构,将小分子数据库中的小分子进行拆分,得到碎片库,所述碎片库中碎片经所述拆分得到的反应点位以虚原子表示,记录每个虚原子拆分的反应类型;
(2)采用12C同位素替代所述碎片库中碎片的虚原子,得到所述碎片对应的完整小分子,将所述完整小分子与蛋白质进行对接并计算对应碎片的对接打分;
(3)将所述完整小分子中12C同位素替换为虚原子,将所得碎片库中碎片两两组合并进行增长,得到组合碎片,根据所述组合碎片中两个碎片的对接打分得到组合碎片打分,其中,若所述组合碎片中两个碎片连接的虚原子对应的合成反应类型不同,放弃组合;
(4)采用12C同位素替代所述组合碎片打分排名靠前的组合碎片中的虚原子,得到所述组合碎片对应的完整组合小分子,将所述完整组合小分子与蛋白质进行对接并计算对应组合碎片的对接打分;
(5)当所述完整组合小分子与蛋白质口袋的大小适配,则结束增长,对接打分排名靠前的组合碎片对应的完整组合小分子为先导化合物;否则将所述组合碎片返回所述步骤(3)进行迭代。
优选地,所述步骤(3)中组合碎片的获得方法包括以下步骤:
将所述碎片的对接打分由低到高排序,采用Top-N筛选方式从所述碎片库中筛选出前N个碎片作为骨架碎片,将所述碎片库中剩余碎片作为增长碎片与所述骨架碎片组合并进行增长,得到组合碎片;
若所述增长碎片与所述骨架碎片连接的虚原子对应的合成反应类型不同或所述组合碎片对应的完整组合小分子不满足类药性质要求时,放弃组合。
优选地,所述步骤(3)中还包括:若所述组合碎片中两个碎片的虚原子距离靠近且方向相对时,所述组合碎片打分还包括奖励打分。
优选地,所述步骤(3)中奖励打分按照式I所示公式计算得到:
S bonus =min(0, D-D ref -cos(θ)+cos ref ) 式I;
所述S bonus 为奖励打分;D为两个碎片中虚原子之间的距离;θ为两个碎片中虚原子与所连接原子向量的夹角;D ref =1.55Å;cos ref =cos(109.28°)。
优选地,所述步骤(3)中组合碎片打分为所述组合碎片中两个碎片的对接打分之和,或者为所述组合碎片中两个碎片的对接打分与奖励打分之和。
优选地,所述步骤(1)中拆分的方式为一次性拆分。
优选地,所述步骤(2)中完整小分子与蛋白质进行对接和所述步骤(4)中完整组合小分子与蛋白质进行对接所用软件为Autodock Vina。
优选地,替代所述步骤(2)中虚原子与步骤(4)中虚原子所用基团为[12C]H3同位素基团。
优选地,所述步骤(1)中小分子数据库为ChEMBL分子库,所述步骤(2)中蛋白质和所述步骤(4)中蛋白质结构来自于RCSB蛋白质数据库。
优选地,所述步骤(5)中迭代的次数为5~7次。
有益效果:本发明提供了基于预测蛋白质-小分子结合姿势筛选先导化合物的方法,本发明基于合成子碎片的对接算法,基于合成反应的反应中心结构对小分子数据库进行拆分得到碎片,能够大大地丰富搜寻的化学空间;同时使用合成反应信息连接碎片(即若组合碎片中两个碎片连接的虚原子对应的合成反应类型不同,放弃组合),避免了许多无意义或化学上不合理的碎片相连,能够有效提高对小分子碎片的筛选效率,解决了CADD基于传统小分子数据库算法的化学空间有限、筛选效率低的缺点。
附图说明
图1为碎片拆分与碎片增长对接的流程图;
图2为基于合成反应的反应中心结构将碎片进行组合增长的示意图;
图3为根据碎片中虚原子距离与方向对碎片进行奖励评价的示意图;
图4为ChEMBL分子库中小分子拆分得到的碎片个数的分布图;
图5为采用ChEMBL分子库筛选的最优小分子与蛋白质的相互作用图;
图6为采用本发明碎片算法筛选的小分子与蛋白质的相互作用图。
实施方式
本发明提供了基于预测蛋白质-小分子结合姿势筛选先导化合物的方法,包括以下步骤:
(1)基于合成反应的反应中心结构,将小分子数据库中的小分子进行拆分,得到碎片库,所述碎片库中碎片经所述拆分得到的反应点位以虚原子表示,记录每个虚原子拆分的反应类型;
(2)采用12C同位素替代所述碎片库中碎片的虚原子,得到所述碎片对应的完整小分子,将所述完整小分子与蛋白质进行对接并计算对应碎片的对接打分;
(3)将所述完整小分子中12C同位素替换为虚原子,将所得碎片两两组合并进行增长,得到组合碎片,根据所述组合碎片中两个碎片的对接打分得到组合碎片打分,其中,若所述组合碎片中两个碎片连接的虚原子对应的合成反应类型不同,放弃组合;
(4)采用12C同位素替代所述组合碎片打分排名靠前的组合碎片中的虚原子,得到所述组合碎片对应的完整组合小分子,将所述完整组合小分子与蛋白质进行对接并计算对应组合碎片的对接打分;
(5)当所述完整组合小分子与蛋白质口袋的大小适配,则结束增长,对接打分排名靠前的组合碎片对应的完整组合小分子为先导化合物;否则将所述组合碎片返回所述步骤(3)进行迭代。
图1为本发明中碎片拆分与碎片增长对接的流程图,下面结合图1对本发明方法进行详细说明。
本发明基于合成反应的反应中心结构,将小分子数据库中的小分子进行拆分,得到碎片库,所述碎片库中碎片经所述拆分得到的反应点位以虚原子表示,记录每个虚原子拆分的反应类型。本发明对所述小分子数据库的种类没有特殊限定,具体是以包含约230万个小分子的ChEMBL分子库为例进行说明;在本发明的实施例中,具体是从ChEMBL分子库下载小分子Simplified Molecular Input Line Entry System(SMILES)对应文件,基于合成反应的反应中心结构对ChEMBL分子库中小分子进行拆分。本发明对所述合成反应的数量没有特殊限定,具体是以常见的84个合成反应为例进行说明,如包括羟醛反应、氮杂维蒂希反应、贝里思-希尔曼反应以及比吉内利反应等。本发明基于药物小分子合成过程中常见合成反应,以反应中心的子结构作为拆分的反应骨架碎片。在本发明中,所述拆分的方式优选为一次性拆分,即对小分子中所有可断开的键一次性断开。在本发明的实施例中,具体是对小分子数据库中每个小分子进行迭代,判别小分子中是否存在反应骨架碎片,若小分子中存在反应骨架碎片则对连接的化学键进行标记;将所有标记的化学键断开,得到拆分的碎片,对每一个碎片断开的反应点位(即虚原子)进行拆分反应的标记;将拆分的碎片进行对比,整合重复的碎片,更新反应点位的拆分反应信息,将最终唯一的碎片存入SQL数据库。在本发明中,若小分子中不存在反应骨架碎片则不进行拆分。
相比于DOCK等对接软件中根据可旋转键进行碎片拆分的算法,根据化学结构进行拆分的规则更加适用于得到有亲和可能性或特定理化性质的子结构作为碎片。现有的根据化学结构的拆分规则,例如Recap、BRICS这些拆分算法等,通常包含十几种特定的化学碎片作为反应骨架碎片,所述反应骨架碎片通常包含2~6个重原子,所有包含这些反应骨架碎片作为子结构的分子会因此将该子结构与所连接基团的键断开形成碎片。由于所述反应骨架碎片通常是较为常见的小分子片段,这样的拆分规则会将小分子拆分的比较碎,得到的碎片较小,单个碎片的理化性质和亲和表现对整个分子的影响过小,而且拆分得到的碎片数也会过大,增加对接的复杂性和难度,同时完全根据化学结构拆分的碎片在重组时会在实际化学合成中遇到困难,如两个被拆分的碎片即使在理论上能够组合,组合后的分子也有良好的性质,但是在合成过程中这两个碎片连接的合成反应很难发生或产率很低。本发明基于药物小分子合成过程中常见合成反应,选取反应中心的子结构作为拆分的反应骨架碎片,采用该拆分方式得到的碎片拥有相似的连接化学环境,连接上拥有相应化学环境的分子的合理性更高,有利于提高实际过程中碎片合成反应的可行性;同时所述碎片具有相对完整的结构,能够一定程度上影响所组成的分子的理化性质;而且在碎片与蛋白质对接过程中表现出更加合理的对接姿势和与关键残基的相互作用。
确定了反应与反应骨架碎片后,本发明采用的拆分方式也不同于Recap等算法。在Recap算法中采用递归方式进行拆分,即每一轮迭代中每根可断开的键只断开一次,剩余的键会在后续迭代中依次断开,该拆分方式的劣势则是在拆分较大的分子时,最终拆分得到的碎片数量会几何式增长,导致碎片数量过多,在碎片两两组合增长时的迭代次数急剧增加。基于此本发明没有采用递归拆分的算法,而是对小分子中所有可断开的键一次性断开,这样能够极大地减少碎片数量。
得到碎片库后,本发明即可针对蛋白质靶点口袋进行对接,主要架构为基于碎片拆分时合成反应与碎片对接信息的增长-对接的循环架构。在对接开始先将所有的碎片与蛋白质进行对接,得到碎片的三维对接构象与对应的对接打分,接下来在碎片组合以及增长的过程中,利用三维对接构象、对接打分与碎片拆分的合成反应对碎片进行两两组合,判别当前的两个碎片是否可以连接以及对连接后形成的组合分子的合理性与亲和力,并在此基础上进行预测与排序,在组合分子中选取排名较高的进行下一步的对接和增长。下面进行具体说明。
得到碎片库后,本发明采用12C同位素替代所述碎片库中碎片的虚原子,得到所述碎片对应的完整小分子,将所述完整小分子与蛋白质进行对接并计算对应碎片的对接打分。在本发明中,得到碎片库之后即可针对蛋白质靶点口袋进行对接;本发明对所需蛋白质数据库的种类没有特殊限定,具体以RCSB蛋白质数据库中3个蛋白质靶点作为测试体系,蛋白体系PDB代码分别为6MAJ、1B8Q以及7TCI。在本发明的实施例中,具体是从RCSB蛋白质数据库下载对应蛋白质文件,对所述蛋白质文件进行预处理,之后确定蛋白质的口袋位置。本发明对所述预处理的方式没有特殊限定,采用本领域技术人员熟知的预处理方式即可;本发明所述预处理优选包括:去除与口袋不相关的水和离子,补全蛋白质缺失的残基,添加蛋白质上的氢原子并分配电荷。
本发明采用12C同位素替代所述碎片库中碎片的虚原子,得到所述碎片对应的完整小分子,然后将所述完整小分子与蛋白质进行对接并计算对应碎片的对接打分。本发明优选采用开源软件Autodock Vina(以下简称Vina)进行完整小分子与蛋白质的对接(本发明后续涉及的完整组合小分子与蛋白质的对接优选也采用Vina),Vina利用Iterated LocalSearch算法进行高通量的完整分子的对接,因此需要将碎片转化为完整的分子,本发明采用12C同位素替代反应点位的虚原子,同时也能够标记虚原子的位置;在本发明的实施例中,具体是采用[12C]H3同位素基团替代反应点位的虚原子。本发明采用完整小分子对接而非直接采用碎片对接的原因主要是,在碎片的直接对接过程中,需要着重考虑虚原子在小分子内的分子内相互作用与虚原子和蛋白质的分子间相互作用,而虚原子的分子内作用和虚原子与蛋白质的相互排斥作用较难找到一个普适性强、对所有蛋白质靶点和小分子都适用的描述。因此本发明选择使用一个甲基来简单地描述排斥位阻作用,利用成熟的打分函数对完整小分子的对接进行更合理的评价,同时甲基对整个碎片的影响也较小,不会对碎片增长造成偏差。在本发明的实施例中,具体是对碎片的SMILES进行处理,将碎片中所有的虚原子替换为[12C]H3同位素基团,得到所述碎片对应的完整小分子;将所述完整小分子的SMILES转化为三维结构,生成三维坐标,保存为pdbqt格式的文件;使用Vina进行完整小分子与蛋白质的高通量对接,保存所得三维对接构象,并计算对应碎片的对接打分。
计算对应碎片的对接打分后,本发明将所述完整小分子中12C同位素替换为虚原子,将所得碎片两两组合并进行增长,得到组合碎片,根据所述组合碎片中两个碎片的对接打分得到组合碎片打分,其中,若所述组合碎片中两个碎片连接的虚原子对应的合成反应类型不同,放弃组合。在本发明中,基于合成反应的反应中心结构,将小分子数据库中的小分子进行拆分后得到的碎片量级较大,以ChEMBL分子库为例,230万个小分子中约有50万个小分子无法拆分,剩余约180万个小分子拆分得到约60万个碎片(这是因为有许多碎片在多个小分子中出现,这也是碎片拆分的意义之一:有许多小分子有共同的子结构,碎片拆分即整理归纳这些子结构,之后再重新组合),将碎片两两组合继而连接增长的量级也十分大,故本发明优选将拆分所得碎片进行筛选以在降低组合量级的同时尽量不漏去合理碎片组合,本发明对所述碎片进行筛选的方法(即组合碎片的获得方法)优选包括以下步骤:
将所述碎片的对接打分由低到高排序,采用Top-N筛选方式从所述碎片库中筛选出前N个碎片作为骨架碎片,将所述碎片库中剩余碎片作为增长碎片与所述骨架碎片组合并进行增长,得到组合碎片;
若所述增长碎片与所述骨架碎片连接的虚原子对应的合成反应类型不同或所述组合碎片对应的完整组合小分子不满足类药性质要求时,放弃组合。
在本发明中,所述碎片的对接打分代表该碎片与蛋白质结合活性,模拟预估碎片与蛋白质的结合自由能,碎片的对接打分低则代表该碎片与蛋白质结合活性好;本发明优选将碎片的对接打分从低到高排序,采用Top-N筛选方式,在碎片中选择与当前蛋白质结合活性最好的前N个碎片作为骨架碎片,而剩余的所有碎片作为增长碎片。在本发明中,以ChEMBL分子库为例,所述N优选为2000;即本发明优选将对接打分排名前2000个碎片作为骨架碎片,剩余的约60万个碎片作为增长碎片进行迭代,即依次与所述骨架碎片组合并进行增长,得到组合碎片。本发明中所述碎片是基于多个合成反应的反应中心结构将小分子拆分得到,为了提高小分子的合成性,当所述增长碎片与所述骨架碎片连接的虚原子对应的合成反应类型不同时,本发明优选放弃该组合,即本发明优选将合成反应类型相同的碎片进行组合,在减少组合碎片数量的同时增强了组合得到的小分子的可合成性;若不同合成反应拆分的碎片无限制地组合增长,对小分子的可合成性是负作用。图2为基于合成反应的反应中心结构将碎片进行组合增长的示意图,如图2所示,根据相同合成反应拆分得到的A碎片、C碎片可分别与B碎片、D碎片组合,但不与根据不同合成反应拆分得到的F碎片组合。同时根据图2可知,两个小分子通过本发明提供的碎片对接算法可得到四个小分子,与采用小分子数据库直接对接相比,能够有效扩大化学空间。
根据合成反应类型对所述碎片进行筛选后,本发明优选根据组合碎片对应的完整组合小分子是否满足类药性质要求进行筛选。类药性质在新药研发的过程中至关重要,因此本发明优选在碎片组合的过程中对完整组合小分子进行类药性质的筛选,具体的,当所述完整组合小分子不满足类药性质要求时,本发明优选放弃该组合,即本发明优选将完整组合小分子满足类药性质要求的碎片进行组合。在本发明的实施例中,所述类药性质要求优选以里宾斯基类药五规则为基准,即若完整组合小分子不满足里宾斯基类药五规则,则放弃该组合。
在本发明的实施例中,具体是选出对接打分排名前2000的碎片作为骨架碎片,将剩余的碎片进行迭代,将[12C]H3同位素基团替换为虚原子,并结合拆分反应信息以及类药性质,判别剩余碎片是否能够与骨架碎片组合并进行增长:a)判别骨架碎片与剩余碎片连接的虚原子对应的合成反应类型是否一致,若不一致则放弃组合;b)判别组合后所得组合碎片对应的完整组合小分子是否满足里宾斯基类药五规则,若不满足则放弃组合。
完成上述筛选后,本发明优选对满足上述筛选要求的组合碎片进行打分,具体的,本发明根据所述组合碎片中两个碎片的对接打分得到组合碎片打分,其中,若所述组合碎片中两个碎片的虚原子距离靠近且方向相对时,所述组合碎片打分还包括奖励打分。在本发明中,以ChEMBL分子库为例,完成上述筛选后,依旧会得到千万级的组合分子,而这对于多轮迭代过程中的对接来讲依旧过于庞大,因此本发明对组合碎片进行评价。本发明根据所述组合碎片中两个碎片的对接打分来评价组合碎片,具体是将组合碎片中两个碎片的对接打分相加得到组合碎片打分;同时,若所述组合碎片中两个碎片的虚原子距离靠近且方向相对时,代表这两个碎片各自的对接姿势适合二者进行直接连接,在此基础上所得完整组合分子的对接姿态不会因为组合而造成过大的改变,因此对这样的组合碎片额外增加一个奖励打分,即将两个碎片的对接打分之和与奖励打分相加得到组合碎片打分。在本发明中,所述组合碎片中两个碎片的虚原子距离靠近具体是指两个碎片的虚原子距离≤1.55Å。在本发明中,当组合碎片中两个碎片不满足上述要求,即虚原子距离较远(>1.55Å)和/或方向不相对时,并不会有惩罚,避免对构象对位过于重视。在本发明中,所述奖励打分优选按照式I所示公式计算得到:
S bonus =min(0, D-D ref -cos(θ)+cos ref ) 式I;
所述S bonus 为奖励打分;D为两个碎片中虚原子之间的距离;θ为两个虚原子与所连接原子向量的夹角;D ref =1.55Å,为参照距离,取自碳碳单键键长;cos ref =cos(109.28°),参照角度109.28°的cos值,取自sp3杂化下的碳的键角。
图3为根据碎片中虚原子距离与方向对碎片进行奖励评价的示意图,如图3所示,A碎片与B碎片的虚原子距离靠近且方向相对,因此会有奖励打分增强A碎片与B碎片组合的概率,而C碎片与A碎片以及B碎片距离较远,因此不会有奖励打分。
得到组合碎片打分后,本发明采用12C同位素替代所述组合碎片打分排名靠前的组合碎片中的虚原子,得到所述组合碎片对应的完整组合小分子,将所述完整组合小分子与蛋白质进行对接并计算对应组合碎片的对接打分。本发明优选根据所述组合碎片打分将所述组合碎片排序,采用12C同位素替代排名靠前的组合碎片中的虚原子,得到所述组合碎片对应的完整组合小分子,将所述完整组合小分子与蛋白质进行对接并计算对应组合碎片的对接打分。以ChEMBL分子库为例,本发明优选将前50万~100万个完整组合小分子与蛋白质进行对接,更优选将前70万个完整组合小分子与蛋白质进行对接。
得到完整组合小分子后,本发明根据蛋白质口袋与完整组合小分子大小判断增长是否结束,具体的,当所述完整组合小分子与蛋白质口袋的大小适配,则结束增长,对接打分排名靠前的组合碎片对应的完整组合小分子为先导化合物;否则将所述组合碎片返回增长步骤进行迭代。在本发明的实施例中,具体是将完整组合小分子的对接打分由低到高排序,将对接打分排名靠前的组合碎片对应的完整组合小分子作为先导化合物。本发明优选将对接打分排名靠前的组合碎片作为骨架碎片,按照前述方法与增长碎片组合进行增长。本发明优选根据晶体结构以及空间大小等判断完整组合小分子与蛋白质口袋是否适配。在本发明中,以ChEMBL分子库为例,所述迭代的次数优选为5~7次。在本发明的实施例中,以ChEMBL分子库为例,大多数小分子基于合成反应的反应中心结构能够拆分出的碎片数在2~7之间,故5~7次迭代足以复现ChEMBL分子库中的小分子,同时相比直接使用ChEMBL分子库极大地拓展了搜寻的化学空间。
下面将结合本发明中的实施例,对本发明中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例采用3个蛋白质靶点作为测试体系(蛋白体系PDB代码分别为6MAJ、1B8Q以及7TCI),以ChEMBL分子库直接对接作为参照,对本发明提供的碎片对接算法进行测试,其中,3个蛋白质靶点的实施方案基本相同,区别仅在于所需要输入的蛋白质文件不同;具体步骤如下:
(1)从RCSB蛋白质数据库下载对应蛋白质文件,对蛋白质文件进行预处理,之后确定蛋白质的口袋位置;所述预处理包括:去除与口袋不相关的水和离子,补全蛋白质缺失的残基,添加蛋白质上的氢原子并分配电荷;
(2)从ChEMBL分子库下载小分子Simplified Molecular Input Line EntrySystem(SMILES)对应文件。
(3)对ChEMBL分子库中小分子进行拆分,具体如下:
a)基于药物小分子合成过程中常见的84个合成反应(如包括羟醛反应、氮杂维蒂希反应、贝里思-希尔曼反应以及比吉内利反应等),选取反应中心的子结构作为拆分的反应骨架碎片;对ChEMBL分子库中每个小分子进行迭代,判别小分子中是否存在反应骨架碎片,若小分子中存在反应骨架碎片则对连接的化学键进行标记(若小分子中不存在反应骨架碎片则不进行拆分);
b)将所有标记的化学键断开,得到拆分的碎片(大多数小分子拆分出的碎片数在2~7之间,如图4所示),对每一个碎片断开的反应点位(即虚原子)进行拆分反应的标记;将拆分的碎片进行对比,整合重复的碎片,更新反应点位的拆分反应信息,将最终唯一的碎片存入SQL数据库;
(4)将碎片的虚原子进行替换后与蛋白质进行对接,具体如下:
a)对碎片的SMILES进行处理,将碎片中所有的虚原子替换为[12C]H3同位素基团,得到所述碎片对应的完整小分子;
b)将所述完整小分子的SMILES转化为三维结构,生成三维坐标,保存为pdbqt格式的文件;
c)使用Vina进行完整小分子与蛋白质的高通量对接,保存所得三维对接构象,并计算对应碎片的对接打分。
(5)碎片组合及增长,具体是将碎片的对接打分由低到高排序,选出对接打分排名前2000的碎片作为骨架碎片,将剩余的60万碎片进行迭代,将[12C]H3同位素基团替换为虚原子,并结合拆分反应信息以及类药性质,判别剩余碎片是否能够与骨架碎片组合并进行增长,判别方式具体如下:
a)判别骨架碎片与剩余碎片连接的虚原子对应的合成反应类型是否一致,若不一致则放弃组合;
b)判别组合后所得组合碎片对应的完整组合小分子是否满足里宾斯基类药五规则,若不满足则放弃组合;
将能够与骨架碎片组合的剩余碎片作为增长碎片,将所述增长碎片与所述骨架碎片两两组合并进行增长,得到组合碎片,并对所述组合碎片进行打分,具体如下:
a)计算骨架碎片的对接打分和增长碎片的对接打分之和作为基本打分;
b)计算骨架碎片的虚原子和增长碎片的虚原子之间的距离,同时计算各自虚原子和虚原子所连接原子的自由向量,计算自由向量得夹角,从而得到奖励打分,计算公式如式I所示:
S bonus =min(0, D-D ref -cos(θ)+cos ref ) 式I;
所述S bonus 为奖励打分;D为两个碎片中虚原子之间的距离;θ为两个虚原子与所连接原子向量的夹角;D ref =1.55Å,为参照距离,取自碳碳单键键长;cos ref =cos(109.28°),参照角度109.28°的cos值,取自sp3杂化下的碳的键角;
c)最终组合碎片打分为基本打分与奖励打分之和;
根据组合碎片打分对所有组合碎片进行排序,选择前70万个组合碎片,保存对应的SMILES;
(6)采用[12C]H3同位素基团代替所述组合碎片中虚原子,得到对应的完整组合小分子,将所述完整组合小分子与蛋白质进行对接并计算对应组合碎片的对接打分;
(7)若增长迭代轮数未达到5轮,则继续选择对接打分排名前2000且依旧有反应点位(即增长空间)的组合碎片作为骨架碎片,返回到步骤(5);
(8)若增长迭代轮数达到第5轮,则结束增长,收集整合所有轮数中的虚原子替换为[12C]H3同位素基团的组合小分子,将其对接打分由低到高排序,选择对接打分排名靠前100的组合小分子作为先导化合物。
表1为采用ChEMBL分子库直接对接的最优打分与采用本发明中碎片算法对接的最优打分在三个蛋白质靶点测试体系中的打分对比情况,结果显示,与采用ChEMBL分子库直接对接的结果相比,采用本发明中碎片对接算法在三个蛋白质靶点测试体系上都能够找到打分更好的小分子,其中在6MAJ体系上的打分差达到2.0kcal/mol,有显著提升,这证明了本发明中碎片对接算法的有效性,能够扩大搜寻的化学空间,找到与蛋白质结合活性更好的先导化合物。
表1 采用ChEMBL分子库直接对接的最优打分与采用本发明中碎片算法对接的最优打分在三个蛋白质靶点测试体系的打分对比
针对6MAJ体系,本实施例对筛选出来的小分子进行相互作用分析。图5为采用ChEMBL分子库筛选的最优小分子与蛋白质的相互作用图,图6为采用本发明碎片算法筛选的小分子与蛋白质的相互作用图,图中实线代表蛋白质轮廓,虚线代表氢键相互作用。结果显示,图5中根据传统方法从ChEMBL分子库中筛选得到的最优小分子与蛋白质有一些氢键相互作用,相比之下根据本发明碎片算法筛选得到的小分子与525谷氨酸有额外的氢键作用,打分为-13.903kcal/mol,比从ChEMBL分子库中筛选得到的最优小分子(打分为-12.084kcal/mol)低1.819kcal/mol,有较大的提升。而且由图6可知,该小分子进入蛋白质口袋时是由右侧往左侧进入,即图6中左侧为口袋深处,而在此处有稳定的氢键相互作用能够使小分子与口袋的结合更加紧密,也更加难以逃脱当前的口袋。这说明通过本发明提供的碎片算法筛选得到的小分子与蛋白质有更好的结合活性与更加合理的相互作用模式。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.基于预测蛋白质-小分子结合姿势筛选先导化合物的方法,包括以下步骤:
(1)基于合成反应的反应中心结构,将小分子数据库中的小分子进行拆分,得到碎片库,所述碎片库中碎片经所述拆分得到的反应点位以虚原子表示,记录每个虚原子拆分的反应类型;其中,所述拆分的方式为一次性拆分;
(2)采用12C同位素替代所述碎片库中碎片的虚原子,得到所述碎片对应的完整小分子,将所述完整小分子与蛋白质进行对接并计算对应碎片的对接打分,所述碎片的对接打分代表该碎片与蛋白质结合活性,所述碎片的对接打分低代表该碎片与蛋白质结合活性好,其中,将所述碎片的对接打分由低到高排序;
(3)将所述完整小分子中12C同位素替换为虚原子,将所得碎片两两组合并进行增长,得到组合碎片,根据所述组合碎片中两个碎片的对接打分得到组合碎片打分,其中,若所述组合碎片中两个碎片连接的虚原子对应的合成反应类型不同,放弃组合;
(4)采用12C同位素替代所述组合碎片打分排名靠前的组合碎片中的虚原子,得到所述组合碎片对应的完整组合小分子,将所述完整组合小分子与蛋白质进行对接并计算对应组合碎片的对接打分;
(5)当所述完整组合小分子与蛋白质口袋的大小适配,则结束增长,将所述完整组合小分子的对接打分由低到高排序,对接打分排名靠前的组合碎片对应的完整组合小分子为先导化合物;否则将所述组合碎片返回所述步骤(3)进行迭代。
2.根据权利要求1所述的方法,其特征在于,所述步骤(3)中组合碎片的获得方法包括以下步骤:
将所述碎片的对接打分由低到高排序,采用Top-N筛选方式从所述碎片库中筛选出前N个碎片作为骨架碎片,将所述碎片库中剩余碎片作为增长碎片与所述骨架碎片组合并进行增长,得到组合碎片;
若所述增长碎片与所述骨架碎片连接的虚原子对应的合成反应类型不同或所述组合碎片对应的完整组合小分子不满足类药性质要求时,放弃组合。
3.根据权利要求1所述的方法,其特征在于,所述步骤(3)中还包括:若所述组合碎片中两个碎片的虚原子距离靠近且方向相对时,所述组合碎片打分还包括奖励打分。
4.根据权利要求3所述的方法,其特征在于,所述步骤(3)中奖励打分按照式I所示公式计算得到:
S bonus =min(0, D-D ref -cos(θ)+cos ref ) 式I;
所述S bonus 为奖励打分;D为两个碎片中虚原子之间的距离;θ为两个碎片中虚原子与所连接原子向量的夹角;D ref =1.55Å;cos ref =cos(109.28°)。
5.根据权利要求3或4所述的方法,其特征在于,所述步骤(3)中组合碎片打分为所述组合碎片中两个碎片的对接打分之和,或者为所述组合碎片中两个碎片的对接打分与奖励打分之和。
6.根据权利要求1所述的方法,其特征在于,所述步骤(2)中完整小分子与蛋白质进行对接和所述步骤(4)中完整组合小分子与蛋白质进行对接所用软件为Autodock Vina。
7.根据权利要求1所述的方法,其特征在于,替代所述步骤(2)中虚原子与步骤(4)中虚原子所用基团为[12C]H3同位素基团。
8.根据权利要求1所述的方法,其特征在于,所述步骤(1)中小分子数据库为ChEMBL分子库,所述步骤(2)中蛋白质和所述步骤(4)中蛋白质结构来自于RCSB蛋白质数据库。
9.根据权利要求8所述的方法,其特征在于,所述步骤(5)中迭代的次数为5~7次。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311412187.1A CN117174164B (zh) | 2023-10-30 | 2023-10-30 | 基于预测蛋白质-小分子结合姿势筛选先导化合物的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311412187.1A CN117174164B (zh) | 2023-10-30 | 2023-10-30 | 基于预测蛋白质-小分子结合姿势筛选先导化合物的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117174164A CN117174164A (zh) | 2023-12-05 |
CN117174164B true CN117174164B (zh) | 2024-02-13 |
Family
ID=88947012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311412187.1A Active CN117174164B (zh) | 2023-10-30 | 2023-10-30 | 基于预测蛋白质-小分子结合姿势筛选先导化合物的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117174164B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108395567A (zh) * | 2018-04-17 | 2018-08-14 | 兰州大学 | 整体凝胶复合材料制备及用于高效分离人血清中蛋白质和小分子物质 |
CN108840922A (zh) * | 2018-06-04 | 2018-11-20 | 河北常山生化药业股份有限公司 | 分离白蛋白非结合物、白蛋白结合物和小分子化合物的方法 |
WO2018226828A2 (en) * | 2017-06-06 | 2018-12-13 | President And Fellows Of Harvard College | Determining small molecule-protein and protein-protein interactions |
CN110658270A (zh) * | 2018-06-29 | 2020-01-07 | 中国科学院大连化学物理研究所 | 一种定量分析小分子和蛋白质激酶相互作用的方法 |
CN114678082A (zh) * | 2022-03-08 | 2022-06-28 | 南昌立德生物技术有限公司 | 一种计算机辅助虚拟高通量筛选算法 |
CN115240762A (zh) * | 2021-07-23 | 2022-10-25 | 杭州钛石科技有限公司 | 多尺度小分子虚拟筛选方法及系统 |
CN115527607A (zh) * | 2022-10-19 | 2022-12-27 | 北京深势科技有限公司 | 一种药物分子和蛋白靶点结合姿势预测处理方法 |
CN115862768A (zh) * | 2022-12-11 | 2023-03-28 | 南昌大学 | 一种用于大规模药物虚拟筛选的优化方法 |
WO2023070087A1 (en) * | 2021-10-21 | 2023-04-27 | Annexon, Inc. | Compositions and methods for treating muscular dystrophy |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI611053B (zh) * | 2012-02-27 | 2018-01-11 | 曾宇鳳 | 為先導藥物最適化之以結構為基礎的片段遷越及合成可行性之改良 |
WO2021103516A1 (zh) * | 2020-06-28 | 2021-06-03 | 深圳晶泰科技有限公司 | 晶体复合物的药物虚拟筛选系统及方法 |
-
2023
- 2023-10-30 CN CN202311412187.1A patent/CN117174164B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018226828A2 (en) * | 2017-06-06 | 2018-12-13 | President And Fellows Of Harvard College | Determining small molecule-protein and protein-protein interactions |
CN108395567A (zh) * | 2018-04-17 | 2018-08-14 | 兰州大学 | 整体凝胶复合材料制备及用于高效分离人血清中蛋白质和小分子物质 |
CN108840922A (zh) * | 2018-06-04 | 2018-11-20 | 河北常山生化药业股份有限公司 | 分离白蛋白非结合物、白蛋白结合物和小分子化合物的方法 |
CN110658270A (zh) * | 2018-06-29 | 2020-01-07 | 中国科学院大连化学物理研究所 | 一种定量分析小分子和蛋白质激酶相互作用的方法 |
CN115240762A (zh) * | 2021-07-23 | 2022-10-25 | 杭州钛石科技有限公司 | 多尺度小分子虚拟筛选方法及系统 |
WO2023070087A1 (en) * | 2021-10-21 | 2023-04-27 | Annexon, Inc. | Compositions and methods for treating muscular dystrophy |
CN114678082A (zh) * | 2022-03-08 | 2022-06-28 | 南昌立德生物技术有限公司 | 一种计算机辅助虚拟高通量筛选算法 |
CN115527607A (zh) * | 2022-10-19 | 2022-12-27 | 北京深势科技有限公司 | 一种药物分子和蛋白靶点结合姿势预测处理方法 |
CN115862768A (zh) * | 2022-12-11 | 2023-03-28 | 南昌大学 | 一种用于大规模药物虚拟筛选的优化方法 |
Non-Patent Citations (2)
Title |
---|
Enzyme-Linked Small-Molecule Detection Using Split Aptamer Ligation;Ashwani K. Sharma 等;《ACS Publications》;全文 * |
蛋白质与小分子官能团相互作用及算法开发;杨柳;《知网》;第2023年卷(第10期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117174164A (zh) | 2023-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shehu et al. | Guiding the search for native-like protein conformations with an ab-initio tree-based exploration | |
Holm et al. | A database of protein structure families with common folding motifs | |
CA2245935C (en) | Method of creating and searching a molecular virtual library using validated molecular structure descriptors | |
Olson et al. | In search of the protein native state with a probabilistic sampling approach | |
US7092825B1 (en) | Protein engineering | |
US20130211808A2 (en) | Apparatus and method for structure-based prediction of amino acid sequences | |
Sheridan et al. | Designing targeted libraries with genetic algorithms | |
US7860657B2 (en) | Forward synthetic synthon generation and its useto identify molecules similar in 3 dimensional shape to pharmaceutical lead compounds | |
CA2415787A1 (en) | Method for determining three-dimensional protein structure from primary protein sequence | |
CN111145833B (zh) | 蛋白质复合物深度多序列比对方法 | |
Zheng et al. | Protein structure prediction constrained by solution X-ray scattering data and structural homology identification | |
US20030078374A1 (en) | Complementary peptide ligands generated from the human genome | |
CN117174164B (zh) | 基于预测蛋白质-小分子结合姿势筛选先导化合物的方法 | |
Liu et al. | PSP: million-level protein sequence dataset for protein structure prediction | |
Olson et al. | Enhancing sampling of the conformational space near the protein native state | |
CN1209111A (zh) | 生理活性化合物的创制方法 | |
Leclerc et al. | MCSS-based predictions of RNA binding sites | |
Fang et al. | Discover protein sequence signatures from protein-protein interaction data | |
WO1999001409A1 (fr) | Procede de deduction des fonctions proteiques au moyen d'une base de donnees de ligands | |
Guruprasad et al. | Database of structural motifs in proteins | |
CN116504302B (zh) | 基于生成模型与计算化学的新型乙肝病毒衣壳组装调节剂从头设计与虚拟筛选方法 | |
Samish | Search and sampling in structural bioinformatics | |
WO1998048270A1 (en) | Method of determining three-dimensional protein structure from primary protein sequence | |
Martín Hernández | Combination of fragment growing and feed forward fragment searches for lead optimization campaigns | |
Yang | Complete description of protein folding shapes for structural comparison |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |