CN116343949A - 蛋白配体结合亲和力预测方法、装置、系统及存储介质 - Google Patents
蛋白配体结合亲和力预测方法、装置、系统及存储介质 Download PDFInfo
- Publication number
- CN116343949A CN116343949A CN202310370233.XA CN202310370233A CN116343949A CN 116343949 A CN116343949 A CN 116343949A CN 202310370233 A CN202310370233 A CN 202310370233A CN 116343949 A CN116343949 A CN 116343949A
- Authority
- CN
- China
- Prior art keywords
- ligand
- protein
- conformation
- protein ligand
- free energy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000003446 ligand Substances 0.000 title claims abstract description 420
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 362
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 362
- 238000000034 method Methods 0.000 title claims abstract description 117
- 230000027455 binding Effects 0.000 title claims abstract description 104
- 238000004364 calculation method Methods 0.000 claims abstract description 100
- 238000000329 molecular dynamics simulation Methods 0.000 claims abstract description 41
- 238000004088 simulation Methods 0.000 claims abstract description 31
- 238000010586 diagram Methods 0.000 claims abstract description 22
- 230000008859 change Effects 0.000 claims description 43
- 238000003032 molecular docking Methods 0.000 claims description 28
- 125000004429 atom Chemical group 0.000 claims description 23
- 238000005070 sampling Methods 0.000 claims description 22
- 150000001413 amino acids Chemical class 0.000 claims description 16
- 125000004435 hydrogen atom Chemical group [H]* 0.000 claims description 11
- 238000012216 screening Methods 0.000 claims description 11
- 230000005588 protonation Effects 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 7
- 230000004888 barrier function Effects 0.000 claims description 5
- 238000006664 bond formation reaction Methods 0.000 claims description 4
- 230000035772 mutation Effects 0.000 claims description 4
- 238000005182 potential energy surface Methods 0.000 claims description 4
- 230000002427 irreversible effect Effects 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000009510 drug design Methods 0.000 abstract description 15
- 230000008569 process Effects 0.000 abstract description 12
- 238000013461 design Methods 0.000 abstract description 7
- 239000000126 substance Substances 0.000 abstract description 6
- 230000005624 perturbation theories Effects 0.000 abstract description 5
- 235000018102 proteins Nutrition 0.000 description 231
- 235000001014 amino acid Nutrition 0.000 description 15
- 230000006870 function Effects 0.000 description 11
- 230000001419 dependent effect Effects 0.000 description 9
- 229940079593 drug Drugs 0.000 description 8
- 239000003814 drug Substances 0.000 description 8
- 239000000243 solution Substances 0.000 description 8
- 238000007796 conventional method Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 210000001503 joint Anatomy 0.000 description 4
- 102000005962 receptors Human genes 0.000 description 4
- 108020003175 receptors Proteins 0.000 description 4
- 150000003384 small molecules Chemical class 0.000 description 4
- 238000011282 treatment Methods 0.000 description 4
- 239000002699 waste material Substances 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 239000013078 crystal Substances 0.000 description 3
- 235000018417 cysteine Nutrition 0.000 description 3
- XUJNEKJLAYXESH-UHFFFAOYSA-N cysteine Natural products SCC(N)C(O)=O XUJNEKJLAYXESH-UHFFFAOYSA-N 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000000857 drug effect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000013401 experimental design Methods 0.000 description 3
- 229910052739 hydrogen Inorganic materials 0.000 description 3
- 239000001257 hydrogen Substances 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 102100021257 Beta-secretase 1 Human genes 0.000 description 2
- 108010024986 Cyclin-Dependent Kinase 2 Proteins 0.000 description 2
- 102100036239 Cyclin-dependent kinase 2 Human genes 0.000 description 2
- 101000894895 Homo sapiens Beta-secretase 1 Proteins 0.000 description 2
- 101000950695 Homo sapiens Mitogen-activated protein kinase 8 Proteins 0.000 description 2
- 101000844245 Homo sapiens Non-receptor tyrosine-protein kinase TYK2 Proteins 0.000 description 2
- 102100037808 Mitogen-activated protein kinase 8 Human genes 0.000 description 2
- 108090000190 Thrombin Proteins 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 239000007864 aqueous solution Substances 0.000 description 2
- 238000005513 bias potential Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000013400 design of experiment Methods 0.000 description 2
- 230000005496 eutectics Effects 0.000 description 2
- 150000002611 lead compounds Chemical class 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 229960004072 thrombin Drugs 0.000 description 2
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 description 1
- 102100032028 Non-receptor tyrosine-protein kinase TYK2 Human genes 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000001493 electron microscopy Methods 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 238000005984 hydrogenation reaction Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000009149 molecular binding Effects 0.000 description 1
- 238000012900 molecular simulation Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000020978 protein processing Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000006049 ring expansion reaction Methods 0.000 description 1
- 238000007363 ring formation reaction Methods 0.000 description 1
- 238000007142 ring opening reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000005496 tempering Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C10/00—Computational theoretical chemistry, i.e. ICT specially adapted for theoretical aspects of quantum chemistry, molecular mechanics, molecular dynamics or the like
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Pharmacology & Pharmacy (AREA)
- Crystallography & Structural Chemistry (AREA)
- Medicinal Chemistry (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明提供了一种蛋白配体结合亲和力预测方法、装置、系统及存储介质,涉及药物设计技术领域。所述蛋白配体结合亲和力预测方法包括:根据蛋白配体分子构象,获取与蛋白配体分子构象对应的相似配体;进行配体分子对齐;构建微扰图;进行分子动力学模拟获得模拟数据;根据模拟数据进行自由能计算,并得出蛋白配体分子构象与对应的目标靶向蛋白之间的亲和力。本发明提供了一种FEP完整解决方案,将自由能微扰理论、分子动力学和高性能计算相结合,能够以化学精度高效评估蛋白质与配体的结合亲和力,设计和计算过程简便,大大提高了药物设计的精度和准确度。
Description
技术领域
本发明涉及药物设计技术领域,更具体地说,涉及一种蛋白配体结合亲和力预测方法、装置、系统及存储介质。
背景技术
计算机辅助药物设计(computer aided drug design)是以计算机化学为基础,通过计算机的模拟、计算和预算药物与受体生物大分子之间的关系,设计和优化先导化合物的方法。计算机辅助药物设计实际上就是通过模拟和计算受体与配体的这种相互作用,进行先导化合物的优化与设计。计算机辅助药物设计大致包括活性位点分析法、数据库搜寻、全新药物设计。
在药物设计过程中,基于众多理化性质,与靶点蛋白有较高的结合亲和力是配体分子能够成药的必要条件。过去二十年来,分子对接(Docking)在药物设计中得到了广泛的应用,其有能力进行千万级别分子数据库的筛选,但打分函数不准确以及采样不足限制了这种方法的精度,因此其多应用于粗筛阶段得到苗头化合物。
相较之下,自由能微扰方法(Free Energy Perturbation,FEP)严格基于统计物理和分子动力学,可以对结合位点构象变化进行有效采样,从而精准评估蛋白与配体的结合自由能。虽然FEP的算法理论早在20世纪末便已被提出,但至今仍然存在准备模拟流程繁杂、消耗计算资源庞大、计算模拟准确度差、精度低等问题。
发明内容
有鉴于此,针对于上述技术问题,本发明提供一种蛋白配体结合亲和力预测方法,包括:
根据所接收到的蛋白配体分子构象,获取与所述蛋白配体分子构象对应的相似配体;
对所述蛋白配体分子构象和所述相似配体进行配体分子对齐;
根据对齐后的所述蛋白配体分子构象和所述相似配体构建微扰图;
基于所述微扰图,进行分子动力学模拟,获得模拟数据;
根据所述模拟数据进行自由能计算,并根据自由能计算结果得出所述蛋白配体分子构象与对应的目标靶向蛋白之间的亲和力。
优选地,所述根据所接收到的蛋白配体分子构象,获取与所述蛋白配体分子构象对应的相似配体,包括:
对所述蛋白配体分子构象进行结构整理;
针对结构整理后的所述蛋白配体分子构象,获取待筛选的相似配体。
优选地,所述对所述蛋白配体分子构象进行结构整理,包括:
获取所述蛋白配体分子构象的蛋白特征参数;
根据所述蛋白特征参数判断当前的所述蛋白配体分子构象是否能够进行自由能计算;
若当前的所述蛋白配体分子构象不能进行自由能计算,则根据所述蛋白特征参数,对所述蛋白配体分子构象进行如下一项或多项的结构整理:
A保留或删除所述蛋白配体分子构象中的特定链;
B确定所述蛋白配体分子构象中的最优构象;
C补全所述蛋白配体分子构象中缺失的侧链原子;
D根据残基类型补充所述蛋白配体分子构象中的氢原子;
E根据预设pH值计算所述蛋白配体分子构象各极性氨基酸的质子化状态;
F对所述蛋白配体分子构象的结构中能量最小化;
G对所述蛋白配体分子构象进行单点突变。
优选地,所述对所述蛋白配体分子构象和所述相似配体进行配体分子对齐,包括:
基于所述蛋白配体分子构象的二维结构和三维结构,判断所述蛋白配体分子构象是否为预设复杂体系;
若所述蛋白配体分子构象不为预设复杂体系,则对所述蛋白配体分子构象与所述相似配体的进行基于刚性对齐方法和/或柔性对齐方法的配体分子对齐;
若所述蛋白配体分子构象为预设复杂体系,则对所述蛋白配体分子构象与所述相似配体的进行基于限制性对接方法的配体分子对齐。
优选地,所述对所述蛋白配体分子构象与所述相似配体的进行基于限制性对接方法的配体分子对齐,包括:
若所述相似配体与所述蛋白配体分子构象的骨架之间为接近结构骨架,则基于所述相似配体的配体骨架,对所述蛋白配体分子构象与所述相似配体施加限制性对接;
若所述蛋白配体分子构象的基团能与所述相似配体的基团产生相互作用,则基于所述相似配体的药效基团,对所述蛋白配体分子构象与所述相似配体施加限制性对接;
若所述蛋白配体分子构象与蛋白结合时,通过共价键与靶蛋白残基能发生不可逆结合,则针对所述蛋白配体分子构象与所述相似配体中形成共价键的位置施加限制性对接。
优选地,所述根据对齐后的所述蛋白配体分子构象和所述相似配体构建微扰图,包括:
将对齐后的所述蛋白配体分子构象和所述相似配体分别进行两两配对连边,得到pair对;
针对每个所述pair对进行配体分子间相似度计算,得到分子指纹相似度;
根据所述分子指纹相似度得到所述微扰图。
优选地,所述根据所述分子指纹相似度得到所述微扰图,包括:
以分子指纹相似度为权重指标,进行Modified Federov迭代计算,得到合理连边数量;
根据所述合理连边数量得到所述微扰图。
优选地,所述根据对齐后的所述蛋白配体分子构象和所述相似配体构建微扰图之后,还包括:
若预设反应体系中包含有成键断键结构变化,则获取构建所述微扰图后的所述蛋白配体分子构象和所述相似配体映射的3D结构;
基于所述3D结构,将所述蛋白配体分子构象的成键原子和/或断键原子加入至所述微扰图中。
优选地,所述基于所述微扰图,进行分子动力学模拟,获得模拟数据,包括:
获取与反应体系对应的预设MD参数,并通过所述预设MD参数采样,进行分子动力学模拟,获得所述模拟数据;
优选地,所述通过所述预设MD参数采样,包括:
采用REST2增强采样方法,对所述微扰图中结构进行升高温度,针对跨过能垒障碍的结构的势能面采样,并在针对微扰图结构的初始和末尾窗口的采样中恢复至正常温度。
优选地,所述根据所述模拟数据进行自由能计算,并根据自由能计算结果得出所述蛋白配体分子构象与对应的目标靶向蛋白之间的亲和力,包括:
根据所述模拟数据,分别计算所述蛋白配体分子构象和/或所述相似配体筛选后的分子对与所述目标靶向蛋白的自由能变化,根据所述自由能变化获得相对自由能差值;将所述相对自由能差值作为所述自由能计算结果;
根据自由能计算结果评价所述分子对中分子对应所述目标靶向蛋白的亲和力;
优选地,所述分子对中包括筛选后的第一分子和第二分子;所述自由能变化包括第一自由能变化和第二自由能变化;所述分别计算所述蛋白配体分子构象和/或所述相似配体筛选后的分子对与所述目标靶向蛋白的自由能变化,根据所述自由能变化获得相对自由能差值;将所述相对自由能差值作为所述自由能计算结果,包括:
计算所述第一分子与所述目标靶向蛋白结合的第一自由能变化;并且,计算所述第二分子与所述目标靶向蛋白结合的第二自由能变化;
计算所述第二自由能变化和所述第一自由能变化的差值,作为所述相对自由能差值;
优选地,所述根据自由能计算结果评价所述分子对中分子对应所述目标靶向蛋白的亲和力,包括:
判断所述自由能计算结果中的所述相对自由能差值是否小于0;
若所述相对自由能差值是否小于0,则所述第一分子针对于所述目标靶向蛋白的亲和力大于所述第二分子。
此外,为解决上述问题,本发明还提供一种蛋白配体结合亲和力预测装置,包括:
获取模块,用于根据所接收到的蛋白配体分子构象,获取与所述蛋白配体分子构象对应的相似配体;
对齐模块,用于对所述蛋白配体分子构象和所述相似配体进行配体分子对齐;
构建模块,用于根据对齐后的所述蛋白配体分子构象和所述相似配体构建微扰图;
模拟模块,用于基于所述微扰图,进行分子动力学模拟,获得模拟数据;
计算模块,用于根据所述模拟数据进行自由能计算,并根据自由能计算结果得出所述蛋白配体分子构象与对应的目标靶向蛋白之间的亲和力。
此外,为解决上述问题,本发明还提供一种蛋白配体结合亲和力预测系统,包括存储器以及处理器,所述存储器中存储有蛋白配体结合亲和力预测程序,所述处理器运行所述蛋白配体结合亲和力预测程序以使所述蛋白配体结合亲和力预测系统执行如上述所述的蛋白配体结合亲和力预测方法。
此外,为解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有蛋白配体结合亲和力预测程序,所述蛋白配体结合亲和力预测程序被处理器执行时实现如上述所述的蛋白配体结合亲和力预测方法。
本发明提供了一种蛋白配体结合亲和力预测方法、装置、系统及存储介质,其中,所述方法包括:根据所接收到的蛋白配体分子构象,获取与所述蛋白配体分子构象对应的相似配体;对所述蛋白配体分子构象和所述相似配体进行配体分子对齐;根据对齐后的所述蛋白配体分子构象和所述相似配体构建微扰图;基于所述微扰图,进行分子动力学模拟,获得模拟数据;根据所述模拟数据进行自由能计算,并根据自由能计算结果得出所述蛋白配体分子构象与对应的目标靶向蛋白之间的亲和力。
本发明通过对蛋白配体分子构象和相似配体进行限制性对接,从而实现配体分子对齐,构建结构的微扰图,进行分子动力学模拟后再实施自由能计算,并根据计算结果能够评估所输入的蛋白配体分子构象与对应目标靶向蛋白之间的亲和力。本发明提供了一种FEP完整解决方案,将自由能微扰理论、分子动力学和高性能计算相结合,能够以化学精度高效评估蛋白质与配体的结合亲和力,设计和计算过程简便,大大提高了药物设计的精度和准确度。
附图说明
图1为本发明蛋白配体结合亲和力预测方法实施例涉及的硬件运行环境的结构示意图;
图2为本发明蛋白配体结合亲和力预测方法第1实施例的流程示意图;
图3为本发明蛋白配体结合亲和力预测方法第2实施例中步骤S100细化的流程示意图;
图4为本发明蛋白配体结合亲和力预测方法第2实施例中步骤S110细化的流程示意图;
图5为本发明蛋白配体结合亲和力预测方法第3实施例中步骤S200细化的流程示意图;
图6为本发明蛋白配体结合亲和力预测方法第4实施例中步骤S400细化的流程示意图;
图7为本发明蛋白配体结合亲和力预测方法第4实施例的整体流程示意图;
图8为本发明蛋白配体结合亲和力预测方法第5实施例中的流程示意图;
图9为本发明蛋白配体结合亲和力预测方法的自由能计算原理示意图;
图10为本发明蛋白配体结合亲和力预测方法与Schrodinger平台的精度表现比较示意图(靶点蛋白从属基因组BACE在本发明方法a与Schrodinger平台方法b中精度表现);
图11为本发明蛋白配体结合亲和力预测方法与Schrodinger平台的精度表现比较示意图(靶点蛋白从属基因组CDK2在本发明方法c与Schrodinger平台方法d中精度表现);
图12为本发明蛋白配体结合亲和力预测方法与Schrodinger平台的精度表现比较示意图(靶点蛋白从属基因组JNK1在本发明方法e与Schrodinger平台方法f中精度表现);
图13为本发明蛋白配体结合亲和力预测方法与Schrodinger平台的精度表现比较示意图(靶点蛋白从属基因组Thrombin在本发明方法g与Schrodinger平台方法h中精度表现);
图14为本发明蛋白配体结合亲和力预测方法与Schrodinger平台的精度表现比较示意图(靶点蛋白从属基因组TYK2在本发明方法i与Schrodinger平台方法j中精度表现);
图15为本发明蛋白配体结合亲和力预测装置的模块示意图。
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面详细描述本发明的实施例,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,是本发明实施例涉及的终端的硬件运行环境的结构示意图。
本发明实施例蛋白配体结合亲和力预测系统,可以为PC,也可以是智能手机、平板电脑或者便携计算机等可移动式终端设备等。该蛋白配体结合亲和力预测系统中可以包括:处理器1001、例如CPU,网络接口1004、用户接口1003、存储器1005和通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏、输入单元比如键盘、遥控器,可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器,例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。可选地,蛋白配体结合亲和力预测系统还可以包括RF(RadioFrequency,射频)电路、音频电路、WiFi模块等等。此外,该蛋白配体结合亲和力预测系统还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的蛋白配体结合亲和力预测系统并不构成对其的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。如图1所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、数据接口控制程序、网络连接程序以及蛋白配体结合亲和力预测程序。
总之,本发明提供了一种FEP完整解决方案,将自由能微扰理论、分子动力学和高性能计算相结合,能够以化学精度高效评估蛋白质与配体的结合亲和力,设计和计算过程简便,大大提高了药物设计的精度和准确度。
实施例1:
参照图2,本发明第1实施例提供一种蛋白配体结合亲和力预测方法,包括:
步骤S100,根据所接收到的蛋白配体分子构象,获取与所述蛋白配体分子构象对应的相似配体;
需要说明的是,本实施例中可以针对的为FEP系统,用于进行计算机辅助的药物设计。
上述,FEP系统可以为Uni-FEP系统,其可以拥有自动化模块,从而能够实现帮助用户处理上传的蛋白结构文件(pdb格式)并进行蛋白结构的预处理。
上述,蛋白配体分子构象为用户通过FEP系统输入的蛋白或配体数据,即为pdb格式的蛋白结构文件。
上述,在输入pdb格式文件后,用户可以通过FEP系统或得到许多相似结构的配体(ligand),用户可以将上述数据进一步上传到系统中,进行进一步的精确筛选,从而对用户上传的配体可设定分子动力学模拟的pH值和ligand中可电离的氢原子的pKa,来确定ligands中相关重原子的质子化状态。
步骤S200,对所述蛋白配体分子构象和所述相似配体进行配体分子对齐。
上述,用户选择PDB数据库中的相似蛋白-配体的晶体结构作为参考结构(reference structure),将上传的蛋白配体分子构象用合适的对齐方法与referencestructure对齐。
上述,限制性对接方法,即为Constrained docking,即为根据分子的空间位置、空间结构的特征,对蛋白配体分子构象和相似配体之间进行对齐。可以包括多种不同的具体对齐方式。用户输入的反应体系往往为复杂体系,用户可以选择使用限制性对接(constrained docking),允许用户将配体对齐到目标口袋附近(在有reference共晶结构的时候)。同时,限制性对接基于autodock-bias功能,通过对原本docking所用的energygrid maps施加一个bias势,来让其他配体出现在我们期望位置时的能量更低,然后再进行一次dock操作,来让配体出现在所预期的位置。
步骤S300,根据对齐后的所述蛋白配体分子构象和所述相似配体构建微扰图。
上述,在系统中,针对于对齐后的配体分子,构建微扰图,即为PerturbationGraph。需要说明的是,微扰图,会将候选的相似配体之间进行两两连边,连边的时候遵循尽可能的让相连的两个配体分子相似度最大(即微扰的定义)的原则。微扰图构建,可认为是一个经典的实验设计(Design of Experiment,DoE)问题,需要设计选取分子对进行计算,用有限的实验数据,使回归分析能得到尽可能多的信息,即尽可能拟合出每个真实的结合自由能。
通过构建微扰图,可实现仅对经过连线的分子对进行自由能计算,就可以获得足够精准的每个分子的结合自由能,从而不需要浪费计算资源进行遍历所有可能分子对的自由能计算,避免了由于对系统资源的过渡占用造成的资源浪费。
在构建微扰图后,本实施例中的方法(Uni-FEP系统)能够提供修改微扰图的界面,允许用户按照自己的经验删除和增加连边(pairs),对已有的数据进行修正,以便于重新计算微扰图。
步骤S400,基于所述微扰图,进行分子动力学模拟,获得模拟数据;
上述,本实施例中的方法(Uni-FEP系统)采用Gromacs作为分子动力学(MD)计算引擎,可实现数十倍的GPU加速计算。
与传统系统的方法不同的是,本实施例中的Uni-FEP系统,提供全自动化的准备运行MD所需文件的功能,并且预设了绝大多数体系可用的MD参数,将用户从繁琐的生成力场(forcefield)参数、预平衡、设置窗口(lambda)步长、选择采样方法等手动过程中解放出来。通过GPU加速,可实现在10h-20h之内完成一次包含预平衡、分子动力学模拟、采样分析等全流程FEP计算。
步骤S500,根据所述模拟数据进行自由能计算,并根据自由能计算结果得出所述蛋白配体分子构象与对应的目标靶向蛋白之间的亲和力。
上述,为了预测药物的药效,需要计算药物小分子(配体ligand)与目标靶向蛋白(即作用靶点蛋白,target receptor)之间的结合自由能。结合自由能的绝对值越大(通常结合自由能为负数),药物效果越好。本实施例中通过计算自由能,从而能够评价蛋白配体分子构象与对应的所述目标靶向蛋白之间的亲和力,实现药物的评估。
总之,本实施例通过对蛋白配体分子构象和相似配体进行限制性对接,从而实现配体分子对齐,构建结构的微扰图,进行分子动力学模拟后再实施自由能计算,并根据计算结果能够评估所输入的蛋白配体分子构象与对应目标靶向蛋白之间的亲和力。
本实施例提供了一种FEP完整解决方案,将自由能微扰理论、分子动力学和高性能计算相结合,能够以化学精度高效评估蛋白质与配体的结合亲和力,设计和计算过程简便,大大提高了药物设计的精度和准确度。
实施例2:
参照图3,本发明第2实施例提供一种蛋白配体结合亲和力预测方法,基于上述实施例1。所述步骤S100,根据所接收到的蛋白配体分子构象,获取与所述蛋白配体分子构象对应的相似配体,包括:
步骤S110,对所述蛋白配体分子构象进行结构整理;
需要说明的是,在进行结构整理时,需要输入蛋白配体分子构象,该构象以pdb文件形式进行输入和整理。
蛋白配体分子构象在进行进一步的计算之前,需要进行蛋白力场参数检查。用户输入的未经过处理的蛋白配体分子构象,一般都无法通过蛋白力场参数检查,因而不能进行后续计算。本实施例中利用Uni-FEP系统的自动化蛋白处理模块进行结构整理,即针对于蛋白配体分子构象进行的预处理,从而使蛋白配体分子构象能通过力场参数检查。
对于蛋白配体分子构象的结构整理可以通过Uni-FEP系统的自动化模块进行自动化处理,也可以根据整理的反馈,提示可能的问题和可能的解决方法,用户可以手动修改蛋白参数,从而完成结构整理。经测试,本实施例中所提供的Uni-FEP系统的自动化模块处理后的蛋白配体分子构象,其通过率能够达到95%以上。
步骤S120,针对结构整理后的所述蛋白配体分子构象,获取待筛选的相似配体。
经过整理、对接、打分等方法初步设置和筛选后,用户输入的蛋白配体分子构象后,会得到许多相似结构的配体(ligand),即为相似配体。在得到相似配体后,可将蛋白配体分子构象和相似配体上传从而进行进一步的精确筛选。对所上传的配体设定分子动力学模拟的pH值和ligand中可电离的氢原子的pKa,来确定ligands中相关重原子的质子化状态。
进一步的,参考图4,所述步骤S110,对所述蛋白配体分子构象进行结构整理,包括:
步骤S111,获取所述蛋白配体分子构象的蛋白特征参数;
上述,结构整理,可以为蛋白配体分子构象输入后的预处理步骤。
首先,输入包含有蛋白配体分子构象的pdb格式文件后,获取每个蛋白配体分子构象的蛋白特征参数,该参数中,可以包括但不限于:蛋白配体分子构象所对应的特征信息、结构信息等。
步骤S112,根据所述蛋白特征参数判断当前的所述蛋白配体分子构象是否能够进行自由能计算;
上述,需要整体评价每个蛋白配体分子构象的蛋白特征参数,能否继续进行后续的计算,即为自由能计算。
如果能进行,表明该蛋白配体分子构象符合进行自由能计算的条件;如果不能进行,则表明该蛋白配体分子构象可能存在数据上、规格上的一些问题需要整理。例如,结构中存在无关链、存在多个异构体等构象、确实侧链原子等等。
步骤S113,若当前的所述蛋白配体分子构象不能进行自由能计算,则根据所述蛋白特征参数,对所述蛋白配体分子构象进行如下一项或多项的结构整理:
A保留或删除所述蛋白配体分子构象中的特定链;
所述特定链(chain),即为用户预先设定的需要进行计算、重点关注的蛋白配体分子构象中的部分链。当用户输入的蛋白配体分子构象中含有多条链时(如A链、B链),如果只需要计算与某一条链相关的蛋白部分,即特定链,可以通过结构整理自动选择删除无关链来减少后续计算成本,或者通过手动进行整理删除。通过去掉或保留特定链,使蛋白配体分子构象在进行进一步的计算时,能够更加有针对性的对于需要进行计算,需要重点关注的结构特征开展计算,提高计算效率,减少由于无关链的存在所造成的对于系统资源的浪费。
B确定所述蛋白配体分子构象中的最优构象;
用户导入的未进行结构整理的PDB格式的文件中,针对一些残基(residue)会含有多个不同的构象。本实施例中针对于构象进行如下处理:
(1)首先针对于蛋白配体分子构象进行列举,通过列举得到与蛋白配体分子构象对应的若干不同构象;
(2)获取不同构象中的最优构象;其中,可以通过自动选择所有构象中的最优构象,或让用户手动选择最优构象。
通过选择蛋白配体分子构象的所有构象中的最优构象,实现避免无用构象影响后续计算,能够大大降低无用的构象对于系统资源的浪费。
C补全所述蛋白配体分子构象中缺失的侧链原子;
所述侧链原子(side chain),指的是蛋白中的每个氨基酸非骨架部分的原子。
蛋白配体分子构象输入后,其中的骨架部分一般不会有出现问题,但其氨基酸的侧链部分往往会有缺失。
在补全侧链原子的过程中,可以根据氨基酸的名称可以进行侧链原子补齐,能够实现更精准的计算氨基酸的侧链部分如何与其他氨基酸、或者配体分子进行的相互作用,从而提升自由能计算的准确性。
需要说明的是,系统根据PDB文件所标注的“CYS”即可获知半胱氨酸(cysteine)的应该有的分子结构。但PDB文件中包含的蛋白质3维结构一般是由冷冻电镜照出的图像分析得出。冷冻电镜在照蛋白结构的时候会有照不到一些原子的情况,且在用户获取PDB文件的最大平台Protein Data Bank中有大量存在此种情况的PDB文件。
本实施例中,能够实现根据氨基酸名称(例如半胱氨酸)去检查并补全PDB文件中CYS部分的缺失原子。
D根据残基类型补充所述蛋白配体分子构象中的氢原子。
未经结构整理的蛋白配体分子构象中,往往都不含有氢原子,但氢原子在分子模拟中非常的重要,所以本实施例中需要进行如下处理:
(1)判断所述蛋白配体分子构象的结构中是否含有氢原子;
(2)若否,则根据自动补氢的功能,利用预先设定的残基类型信息,针对于所述蛋白配体分子构象在结构中对应位置补齐相应的氢原子。
E根据预设pH值计算所述蛋白配体分子构象各极性氨基酸的质子化状态。
氨基酸的质子化状态,会随着不同的预设pH值而不同。而氨基酸的质子化状态的不同,会影响到氨基酸与蛋白其他部分的氨基酸以及配体分子的相互作用。
因此,为了更准确的模拟蛋白和配体小分子的体系,本实施例中采用如下方法进行处理:
(1)获取会根据预设pH值,并且获取所述蛋白配体分子构象(用户输入的PDB文件)中的蛋白三维结构信息;
(2)根据所述预设pH值和所述白三维结构信息生成氨基酸的酸度常数(pKa);
(3)获取到所述酸度常数后,根据所述预设pH值和所述酸度常数的关系,进行氨基酸质子化状态的计算,从而得到所述质子化状态。
F对所述蛋白配体分子构象的结构中能量最小化。
针对于低精度的蛋白配体分子构象,需要进行能量调整。
获取到输入的低精度的蛋白配体分子构象后,通过预设结构能量规则信息,对其结构进行整体或局部的微调,达到局部的结构中能量最小化。
通过对于结构的调整,比如调整分子键的长度、角度、二面角,可以使蛋白质结构达到能量最小化,更加符合真实蛋白的三维结构,这样在模拟蛋白小分子系统的时候会计算的更加贴合真实实验数据,这对于用户输入的低精度的蛋白配体分子构象非常有用。
G对所述蛋白配体分子构象进行单点突变。
对于一些药物相关的计算中,需要对所输入的PDB格式文件中蛋白结构进行单个氨基酸的突变,本实施例中支持计算单点突变后的蛋白并可以优化蛋白结构。
此外,还包括优化蛋白内部的氢键网络,具体的,可以为如下处理方式中的一种或多种:
(1)翻转HIS、ASN和GLN残基的侧链;
(2)旋转SER、THR、TYR和CYS的侧链氢原子;
(3)确定中性HIS、质子化GLU和质子化ASP的侧链氢原子的最佳位置;
(4)优化所有水分子的氢原子。
本实施例中,通过对于所输入的蛋白配体分子构象进行结构整理,首先进行是否能够进行自由能计算、是否符合计算条件进行评价,如果不符合,则根据结构上的问题分别或同时进行保留或删除特定的链、多构象挑选、补全缺失侧链原子、加氢、计算质子化状态、优化蛋白内部的氢键网络、能量最小化和突变设置,从而能够使数据通过预处理而能够通过立场参数检查,达到进行自由能计算的条件。
实施例3:
参照图5,本发明第3实施例提供一种蛋白配体结合亲和力预测方法,基于上述实施例1,所述步骤S200,对所述蛋白配体分子构象和所述相似配体进行配体分子对齐,包括:
步骤S210,基于所述蛋白配体分子构象的二维结构和三维结构,判断所述蛋白配体分子构象是否为预设复杂体系;
对用户上传的配体分子结构,经过结构处理过后,系统会显示所有配体分子的二维结构,以及三维结构。
上述,预设复杂体系,如仅有一个晶体结构时。
步骤S220,若所述蛋白配体分子构象不为预设复杂体系,则对所述蛋白配体分子构象与所述相似配体的进行基于刚性对齐方法和/或柔性对齐方法的配体分子对齐;
本实施例中,提供的两种基本的对齐(Alignment)方法,分别为刚性对齐(RigidAlignment)和柔性对齐(Flexible Alignment)。
其中,刚性对齐(Rigid Alignment)方法中,仅会更改分子的整体空间位置,例如,将分子作为一个整体来进行旋转或平移。
而柔性对齐(Flexible Alignment)方法,不但能实现Rigid Alignment的功能,还可以修改单个原子的空间位置,从而实现更改二面角(dihedral)、化学键长、分子构型和手性等功能。如果在进行对齐的过程中,用户对于对柔性对齐结果不满意,也可以通过手动修改的方式,进行分子对齐。
用户可选择PDB数据库中的相似蛋白-配体的晶体结构作为参考结构(referencestructure),将上传的配体用合适的对齐方法(刚性对齐&柔性对齐)与referencestructure对齐。
步骤S230,若所述蛋白配体分子构象为预设复杂体系,则对所述蛋白配体分子构象与所述相似配体的进行基于限制性对接方法的配体分子对齐。
对于常规的简单体系,刚性对齐和柔性对齐能够满对接需求。但绝大部分的用户体系是复杂体系,即为预设复杂体系。例如,体系中的受体蛋白结合的位置和角度(bindingpose)会对FEP计算有很大影响,则通过选择使用限制性对接(constrained docking),将配体对齐到目标口袋附近(在有reference共晶结构的时候)。
限制性对接方法,基于autodock-bias功能,通过对原本蛋白配体分子构象所用的energy grid maps施加一个bias势,来让其他配体出现在预期位置时的能量更低,然后再进行一次dock操作,从而使配体出现在预期位置。
进一步的,所述步骤S230,对所述蛋白配体分子构象与所述相似配体的进行基于限制性对接方法的配体分子对齐,包括:
步骤S231,若所述相似配体与所述蛋白配体分子构象的骨架之间为接近结构骨架,则基于所述相似配体的配体骨架,对所述蛋白配体分子构象与所述相似配体施加限制性对接;
上述,当reference配体与新配体骨架比较接近时,即接近结构骨架,可以基于reference配体骨架,施加限制性对接。
步骤S232,若所述蛋白配体分子构象的基团能与所述相似配体的基团产生相互作用,则基于所述相似配体的药效基团,对所述蛋白配体分子构象与所述相似配体施加限制性对接。
上述,当已知reference配体的有些基团能够与蛋白发生相互作用时,需要保留上述的相互作用力,则可以基于reference配体药效团部分,施加constrain。
步骤S233,若所述蛋白配体分子构象与蛋白结合时,通过共价键与靶蛋白残基能发生不可逆结合,则针对所述蛋白配体分子构象与所述相似配体中形成共价键的位置施加限制性对接。
上述,当配体与蛋白结合时,通过共价键与靶蛋白残基发生不可逆结合,可以针对形成共价键的位置施加constrain。
本实施例中,通过针对于结构整理后的蛋白配体分子构象进行分子对其整理,提供了不同的对齐方式,包括刚性对齐、柔性对齐以及限制性对接,从而更加灵活的为不同结构不同体系的蛋白配体分子构象提供了对齐整理方法。
实施例4:
参照图6,本发明第4实施例提供一种蛋白配体结合亲和力预测方法,基于上述实施例1,所述步骤S400,根据对齐后的所述蛋白配体分子构象和所述相似配体构建微扰图,包括:
步骤S410,将对齐后的所述蛋白配体分子构象和所述相似配体分别进行两两配对连边,得到pair对;
步骤S420,针对每个所述pair对进行配体分子间相似度计算,得到分子指纹相似度;
上述,pair对中两个分子间的相似度,可以用相似度得分(similarity score)指标来衡量。
需要说明的是,常规方法中,相似度得分similarity score是通过对比分子指纹来给两个分子的相似度进行打分。
本实施例中,根据大量实际FEP计算的经验,发展了FEP分子相似性指标(FEPsimilarity),适用于评估pair对的一对连边是否适合进行FEP计算。针对于pair对中的两个相似分子,在筛选后将他们进行配对连边(pair)来进行之后的FEP计算。
需要说明的是,本实施例中,当similarity score>0.7时,才构成相似分子。
步骤S430,根据所述分子指纹相似度得到所述微扰图。
进一步的,所述步骤S430,根据所述分子指纹相似度得到所述微扰图,包括:
步骤S431,以分子指纹相似度为权重指标,进行Modified Federov迭代计算,得到合理连边数量;
步骤S432,根据所述合理连边数量得到所述微扰图。
本实施例中,基于实验设计的方法(Design of Experiment,DOE),通过将线性回归模型与DOE方法中的实验参数优化,将计算出的分子指纹相似度作为权重指标,进行Modified Federov迭代计算得到合理的连边数量(number of pairs),从而实现微扰图的构建。
此外,也可以进行微扰图的手动构建和修改。例如,构建微扰图后,给用户提供修改微扰图的界面,允许用户按照自己的经验删除和增加连边(pairs),重新计算微扰图。
进一步的,参考图7,所述步骤S400,根据对齐后的所述蛋白配体分子构象和所述相似配体构建微扰图之后,还包括:
步骤S600,若预设反应体系中包含有成键断键结构变化,则获取构建所述微扰图后的所述蛋白配体分子构象和所述相似配体映射的3D结构;
步骤S700,基于所述3D结构,将所述蛋白配体分子构象的成键原子和/或断键原子加入至所述微扰图中。
上述,需要说明的是,在自由能微扰计算中,两个配体分子之间的各个原子的对应关系(映射)对于计算结果影响很大。
所以,本实施例中,可以提供查看映射的3D结构,包括可以检查微扰后新变化增长出来的原子(dummy原子)映射的情况。同时也允许手动修改不够合理的映射情况(如当出现氢原子映射到了其他重原子上时,可以通过Uni-FEP的Mapping界面轻松发现错误并手动修改)。
如果反应体系中,涉及到了自身成键、断键的结构变化(包括:开环、成环、扩环、缩环等骨架跃迁的情况),本实施例中,提供Core Hopping功能,将存在断键、成键的原子纳入计算,更精准的预测Mapping。
实施例5:
参照图8,本发明第5实施例提供一种蛋白配体结合亲和力预测方法,基于上述实施例1,所述步骤S400,基于所述微扰图,进行分子动力学模拟,获得模拟数据,包括:
步骤S410,获取与反应体系对应的预设MD参数,并通过所述预设MD参数采样,进行分子动力学模拟,获得所述模拟数据;
上述,MD即分子动力学(molecular dynamics);预设MD参数,即预设的分子动力学的数值计算细节参数。是在预先设定的包括但不限于控制模拟的总时长、REST2方法加热区域和温度、模拟体系搭建中的水分子个数、离子浓度,以及对体系能量与受力等数值的计算细节。
进一步的,所述步骤S410,通过所述预设MD参数采样,包括:
步骤S411,采用REST2增强采样方法,对所述微扰图中结构进行升高温度,针对跨过能垒障碍的结构的势能面采样,并在针对微扰图结构的初始和末尾窗口的采样中恢复至正常温度。
需要说明的是,传统方法经常会遇到采样问题,无法采集到关键细节信息从而导致整个收敛困难。
本实施例中,采用REST2增强采样算法(Replica Exchange with SoluteTempering Version 2),在采样的过程中,对可能出现采样问题的部分(如小分子的某个二面角)进行升高温度采样,使其跨过能垒障碍(energy barrier)采集到更多势能面的信息。在初始和末尾窗口(lambda)的采样中再恢复正常温度,这样不会影响状态函数自由能的计算。
具体的REST2的算法流程,参考下表:
表1、REST2算法整体流程表:
所述步骤S500,根据所述模拟数据进行自由能计算,并根据自由能计算结果得出所述蛋白配体分子构象与对应的目标靶向蛋白之间的亲和力,包括:
步骤S510,根据所述模拟数据,分别计算所述蛋白配体分子构象和/或所述相似配体筛选后的分子对与所述目标靶向蛋白的自由能变化,根据所述自由能变化获得相对自由能差值;将所述相对自由能差值作为所述自由能计算结果;
需要说明的是,结合自由能的绝对值越大(通常结合自由能为负数),药物效果越好。因此,为了预测药物的药效,需要计算药物小分子(配体ligand)与作用靶点蛋白(target receptor)之间的结合自由能。
步骤S520,根据自由能计算结果评价所述分子对中分子对应所述目标靶向蛋白的亲和力;
进一步的,所述分子对中包括筛选后的第一分子和第二分子;所述自由能变化包括第一自由能变化和第二自由能变化;
所述步骤S510,分别计算所述蛋白配体分子构象和/或所述相似配体筛选后的分子对与所述目标靶向蛋白的自由能变化,根据所述自由能变化获得相对自由能差值;将所述相对自由能差值作为所述自由能计算结果,包括:
步骤S511,计算所述第一分子与所述目标靶向蛋白结合的第一自由能变化;并且,计算所述第二分子与所述目标靶向蛋白结合的第二自由能变化;
步骤S512,计算所述第二自由能变化和所述第一自由能变化的差值,作为所述相对自由能差值;
进一步的,所述步骤S520,根据自由能计算结果评价所述分子对中分子对应所述目标靶向蛋白的亲和力,包括:
步骤S521,判断所述自由能计算结果中的所述相对自由能差值是否小于0;
步骤S522,若所述相对自由能差值是否小于0,则所述第一分子针对于所述目标靶向蛋白的亲和力大于所述第二分子。
在常规方法中,为了对比两个小分子,即第一分子A和第二分子B,哪个药效更好,在评估时需要进行AB之间的相对结合自由能计算。利用如下公式进行计算:
ΔΔGbinding=ΔGB-ΔGA;
其中,ΔΔGbinding为相对自由能差值,ΔGB为第二分子B与所述目标靶向蛋白结合的第二自由能变化,ΔGA为第一分子A与所述目标靶向蛋白结合的第一自由能变化;如果ΔΔGbinding<0,即ΔGB-ΔGA<0,则说明第一分子A的结合强度大于第二分子B。
但是,如果采用常规方法,直接计算配体从在水溶液中到与蛋白结合的状态变化对应的自由能变化(ΔG),会消耗大量计算资源且不够精准,因为整个体系构象变化过大。
所以,本实施例中,利用了自由能是状态函数这一特征,即自由能变化只与初始和终点两个状态相关,且与中间路径无关;将原本消耗大量资源且不精准的蛋白配体结合自由能变化,转换成:
(1)计算A分子与蛋白结合和B分子与蛋白结合的构象自由能变化ΔG1;
(2)计算A分子在水溶液中与B分子在水溶液中的构象自由能变化ΔG2;
(3)计算ΔG1与ΔG2的差值,得到ΔΔGbinding。
其中,(1)和(2)可以任意一个在先执行,或者同时进行计算。
因为,第一分子A和第二分子B是经过之前的微扰图构建所选取的相似度很高的pair对,所以他们之间的构象变化很小,自由能变化的计算也会耗时更少更精准。
由此,利用构建的热力学循环图,本实施例中可以得到更精准的结合自由能差。即:ΔΔGbinding=ΔGB-ΔGA=ΔG1-ΔG2。
参考图9,本实施例中,并未采用传统方法中直接计算配体从在水溶液中到与蛋白结合的状态变化对应的自由能变化,而是根据“自由能变化只与初始和终点两个状态相关,且与中间路径无关”这一原理,基于A和B是相似度很高的pair对,其间构象变化小,以至于自由能变化的计算也会耗时更少更精准,利用ΔG1-ΔG2两个状态点之差,表征ΔΔGbinding,一方面减少了系统资源的无畏浪费,另一方面大大提高了蛋白配体结合自由能变化计算的准确度、精确度。
通过将本实施例中所提供的方法所基于的Uni-FEP模块,与薛定谔平台(Schrodinger)在配体-蛋白结合的自由能计算中的表现进行横向比较。参考图10-图14,5组图中每个图的横坐标代表着实验测量值的构象自由能变化(ΔGexP),而纵坐标代表着由FEP方法计算出来的计算值(ΔGFEP)。R2代表着计算值对实验测量值的拟合优度(越接近1越好),而RMSE(root mean square error)代表着计算值与实验测量值的均方根误差(越接近0越好)。其中,图10为靶点蛋白从属基因组BACE在本发明方法(a)与Schrodinger平台方法(b)中精度表现;图11为靶点蛋白从属基因组CDK2在本发明方法(c)与Schrodinger平台方法(d)中精度表现;图12为靶点蛋白从属基因组JNK1在本发明方法(e)与Schrodinger平台方法(f)中精度表现;图13为靶点蛋白从属基因组Thrombin在本发明方法(g)与Schrodinger平台方法(h)中精度表现;图14为靶点蛋白从属基因组TYK2在本发明方法(i)与Schrodinger平台方法(j)中精度表现。通过对比直观可见,采用本实施例中的方法的Uni-FEP计算结果(a、c、e、g、i),与薛定谔平台处理方法(b、d、f、h、j)相比,其体系都可以达到相似精度,甚至部分体系中的表现大幅超越薛定谔平台处理方法。
此外,参考图15,本实施例还提供一种蛋白配体结合亲和力预测装置,包括:
获取模块10,用于根据所接收到的蛋白配体分子构象,获取与所述蛋白配体分子构象对应的相似配体;
对齐模块20,用于对所述蛋白配体分子构象和所述相似配体进行配体分子对齐;
构建模块30,用于根据对齐后的所述蛋白配体分子构象和所述相似配体构建微扰图;
模拟模块40,用于基于所述微扰图,进行分子动力学模拟,获得模拟数据;
计算模块50,用于根据所述模拟数据进行自由能计算,并根据自由能计算结果得出所述蛋白配体分子构象与对应的目标靶向蛋白之间的亲和力。
此外,本实施例还提供一种蛋白配体结合亲和力预测系统,包括存储器以及处理器,所述存储器存储有蛋白配体结合亲和力预测程序,所述处理器运行所述蛋白配体结合亲和力预测程序以使所述蛋白配体结合亲和力预测系统执行如上述所述的蛋白配体结合亲和力预测方法。
此外,本实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有蛋白配体结合亲和力预测程序,所述蛋白配体结合亲和力预测程序被处理器执行时实现如上述所述蛋白配体结合亲和力预测方法。
总之,本发明通过对蛋白配体分子构象和相似配体进行限制性对接,从而实现配体分子对齐,通过机器学习所得FEP相似度和实验设计理论、Federov迭代法构建结构的微扰微扰图,进行分子动力学模拟后再实施自由能计算,并根据计算结果能够评估所输入的蛋白配体分子构象与对应目标靶向蛋白之间的亲和力。本发明提供了一种FEP完整解决方案,将自由能微扰理论、分子动力学和高性能计算相结合,能够以化学精度高效评估蛋白质与配体的结合亲和力,设计和计算过程简便,大大提高了药物设计的精度和准确度。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种蛋白配体结合亲和力预测方法,其特征在于,包括:
根据所接收到的蛋白配体分子构象,获取与所述蛋白配体分子构象对应的相似配体;
对所述蛋白配体分子构象和所述相似配体进行配体分子对齐;
根据对齐后的所述蛋白配体分子构象和所述相似配体构建微扰图;
基于所述微扰图,进行分子动力学模拟,获得模拟数据;
根据所述模拟数据进行自由能计算,并根据自由能计算结果得出所述蛋白配体分子构象与对应的目标靶向蛋白之间的亲和力。
2.如权利要求1所述蛋白配体结合亲和力预测方法,其特征在于,所述根据所接收到的蛋白配体分子构象,获取与所述蛋白配体分子构象对应的相似配体,包括:
对所述蛋白配体分子构象进行结构整理;
针对结构整理后的所述蛋白配体分子构象,获取待筛选的相似配体;
优选地,所述对所述蛋白配体分子构象进行结构整理,包括:
获取所述蛋白配体分子构象的蛋白特征参数;
根据所述蛋白特征参数判断当前的所述蛋白配体分子构象是否能够进行自由能计算;
若当前的所述蛋白配体分子构象不能进行自由能计算,则根据所述蛋白特征参数,对所述蛋白配体分子构象进行如下一项或多项的结构整理:
A保留或删除所述蛋白配体分子构象中的特定链;
B确定所述蛋白配体分子构象中的最优构象;
C补全所述蛋白配体分子构象中缺失的侧链原子;
D根据残基类型补充所述蛋白配体分子构象中的氢原子;
E根据预设pH值计算所述蛋白配体分子构象各极性氨基酸的质子化状态;
F对所述蛋白配体分子构象的结构中能量最小化;
G对所述蛋白配体分子构象进行单点突变。
3.如权利要求1所述蛋白配体结合亲和力预测方法,其特征在于,所述对所述蛋白配体分子构象和所述相似配体进行配体分子对齐,包括:
基于所述蛋白配体分子构象的二维结构和三维结构,判断所述蛋白配体分子构象是否为预设复杂体系;
若所述蛋白配体分子构象不为预设复杂体系,则对所述蛋白配体分子构象与所述相似配体的进行基于刚性对齐方法和/或柔性对齐方法的配体分子对齐;
若所述蛋白配体分子构象为预设复杂体系,则对所述蛋白配体分子构象与所述相似配体的进行基于限制性对接方法的配体分子对齐;
优选地,所述对所述蛋白配体分子构象与所述相似配体的进行基于限制性对接方法的配体分子对齐,包括:
若所述相似配体与所述蛋白配体分子构象的骨架之间为接近结构骨架,则基于所述相似配体的配体骨架,对所述蛋白配体分子构象与所述相似配体施加限制性对接;
若所述蛋白配体分子构象的基团能与所述相似配体的基团产生相互作用,则基于所述相似配体的药效基团,对所述蛋白配体分子构象与所述相似配体施加限制性对接;
若所述蛋白配体分子构象与蛋白结合时,通过共价键与靶蛋白残基能发生不可逆结合,则针对所述蛋白配体分子构象与所述相似配体中形成共价键的位置施加限制性对接。
4.如权利要求1所述蛋白配体结合亲和力预测方法,其特征在于,所述根据对齐后的所述蛋白配体分子构象和所述相似配体构建微扰图,包括:
将对齐后的所述蛋白配体分子构象和所述相似配体分别进行两两配对连边,得到pair对;
针对每个所述pair对进行配体分子间相似度计算,得到分子指纹相似度;
根据所述分子指纹相似度得到所述微扰图;
优选地,所述根据所述分子指纹相似度得到所述微扰图,包括:
以分子指纹相似度为权重指标,进行Modified Federov迭代计算,得到合理连边数量;
根据所述合理连边数量得到所述微扰图。
5.如权利要求1所述蛋白配体结合亲和力预测方法,其特征在于,所述根据对齐后的所述蛋白配体分子构象和所述相似配体构建微扰图之后,还包括:
若预设反应体系中包含有成键断键结构变化,则获取构建所述微扰图后的所述蛋白配体分子构象和所述相似配体映射的3D结构;
基于所述3D结构,将所述蛋白配体分子构象的成键原子和/或断键原子加入至所述微扰图中。
6.如权利要求1所述蛋白配体结合亲和力预测方法,其特征在于,所述基于所述微扰图,进行分子动力学模拟,获得模拟数据,包括:
获取与反应体系对应的预设MD参数,并通过所述预设MD参数采样,进行分子动力学模拟,获得所述模拟数据;
优选地,所述通过所述预设MD参数采样,包括:
采用REST2增强采样方法,对所述微扰图中结构进行升高温度,针对跨过能垒障碍的结构的势能面采样,并在针对微扰图结构的初始和末尾窗口的采样中恢复至正常温度。
7.如权利要求1所述蛋白配体结合亲和力预测方法,其特征在于,所述根据所述模拟数据进行自由能计算,并根据自由能计算结果得出所述蛋白配体分子构象与对应的目标靶向蛋白之间的亲和力,包括:
根据所述模拟数据,分别计算所述蛋白配体分子构象和/或所述相似配体筛选后的分子对与所述目标靶向蛋白的自由能变化,根据所述自由能变化获得相对自由能差值;将所述相对自由能差值作为所述自由能计算结果;
根据自由能计算结果评价所述分子对中分子对应所述目标靶向蛋白的亲和力;
优选地,所述分子对中包括筛选后的第一分子和第二分子;所述自由能变化包括第一自由能变化和第二自由能变化;所述分别计算所述蛋白配体分子构象和/或所述相似配体筛选后的分子对与所述目标靶向蛋白的自由能变化,根据所述自由能变化获得相对自由能差值;将所述相对自由能差值作为所述自由能计算结果,包括:
计算所述第一分子与所述目标靶向蛋白结合的第一自由能变化;并且,计算所述第二分子与所述目标靶向蛋白结合的第二自由能变化;
计算所述第二自由能变化和所述第一自由能变化的差值,作为所述相对自由能差值;
优选地,所述根据自由能计算结果评价所述分子对中分子对应所述目标靶向蛋白的亲和力,包括:
判断所述自由能计算结果中的所述相对自由能差值是否小于0;
若所述相对自由能差值是否小于0,则所述第一分子针对于所述目标靶向蛋白的亲和力大于所述第二分子。
8.一种蛋白配体结合亲和力预测装置,其特征在于,包括:
获取模块,用于根据所接收到的蛋白配体分子构象,获取与所述蛋白配体分子构象对应的相似配体;
对齐模块,用于对所述蛋白配体分子构象和所述相似配体进行配体分子对齐;
构建模块,用于根据对齐后的所述蛋白配体分子构象和所述相似配体构建微扰图;
模拟模块,用于基于所述微扰图,进行分子动力学模拟,获得模拟数据;
计算模块,用于根据所述模拟数据进行自由能计算,并根据自由能计算结果得出所述蛋白配体分子构象与对应的目标靶向蛋白之间的亲和力。
9.一种蛋白配体结合亲和力预测系统,其特征在于,包括存储器以及处理器,所述存储器中存储有蛋白配体结合亲和力预测程序,所述处理器运行所述蛋白配体结合亲和力预测程序以使所述蛋白配体结合亲和力预测系统执行如权利要求1-7任一项所述的蛋白配体结合亲和力预测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有蛋白配体结合亲和力预测程序,所述蛋白配体结合亲和力预测程序被处理器执行时实现如权利要求1-7任一项所述的蛋白配体结合亲和力预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310370233.XA CN116343949A (zh) | 2023-04-07 | 2023-04-07 | 蛋白配体结合亲和力预测方法、装置、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310370233.XA CN116343949A (zh) | 2023-04-07 | 2023-04-07 | 蛋白配体结合亲和力预测方法、装置、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116343949A true CN116343949A (zh) | 2023-06-27 |
Family
ID=86892886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310370233.XA Pending CN116343949A (zh) | 2023-04-07 | 2023-04-07 | 蛋白配体结合亲和力预测方法、装置、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116343949A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117577224A (zh) * | 2023-11-30 | 2024-02-20 | 上海智峪生物科技有限公司 | 一种基于模板的蛋白质小分子复合物建模方法及其应用 |
CN117935984A (zh) * | 2024-01-26 | 2024-04-26 | 苏州腾迈医药科技有限公司 | 分子运动的展示方法及装置、介质 |
-
2023
- 2023-04-07 CN CN202310370233.XA patent/CN116343949A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117577224A (zh) * | 2023-11-30 | 2024-02-20 | 上海智峪生物科技有限公司 | 一种基于模板的蛋白质小分子复合物建模方法及其应用 |
CN117577224B (zh) * | 2023-11-30 | 2024-06-11 | 上海智峪生物科技有限公司 | 一种基于模板的蛋白质小分子复合物建模方法及其应用 |
CN117935984A (zh) * | 2024-01-26 | 2024-04-26 | 苏州腾迈医药科技有限公司 | 分子运动的展示方法及装置、介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mey et al. | Best practices for alchemical free energy calculations | |
CN116343949A (zh) | 蛋白配体结合亲和力预测方法、装置、系统及存储介质 | |
WO2022206320A1 (zh) | 预测模型训练、数据预测方法、装置和存储介质 | |
Hahn et al. | Best practices for constructing, preparing, and evaluating protein-ligand binding affinity benchmarks [article v1. 0] | |
Anishchenko et al. | Protein tertiary structure prediction and refinement using deep learning and Rosetta in CASP14 | |
Sánchez et al. | Comparative protein structure modeling: introduction and practical examples with modeller | |
Baiesi et al. | Sequence and structural patterns detected in entangled proteins reveal the importance of co-translational folding | |
Viswanath et al. | Improving ranking of models for protein complexes with side chain modeling and atomic potentials | |
Wang et al. | SE-OnionNet: a convolution neural network for protein–ligand binding affinity prediction | |
CN101131707A (zh) | 分子力学力场参数的自动化生成方法 | |
AU2013275211B2 (en) | Interaction prediction device, interaction prediction method, and program | |
Yadav et al. | Homology Modeling and Generation of 3D-structure of Protein | |
CN114333980A (zh) | 模型训练、蛋白质特征提取和功能预测的方法与装置 | |
Oide et al. | Protein folding intermediates on the dimensionality reduced landscape with UMAP and native contact likelihood | |
Martens | Bringing proteomics into the clinic: The need for the field to finally take itself seriously | |
KR101743254B1 (ko) | 확률 그래프 모델을 이용한 단백질의 중요부위 예측장치 및 이의 예측방법 | |
Bernard et al. | RNAdvisor: a comprehensive benchmarking tool for the measure and prediction of RNA structural model quality | |
Wang et al. | Overview of AlphaFold2 and breakthroughs in overcoming its limitations. | |
Latek et al. | Protein structure prediction: combining de novo modeling with sparse experimental data | |
Konopka et al. | Quality assessment of protein model-structures based on structural and functional similarities | |
CN116705147A (zh) | 一种用于研究新型冠状病毒靶点蛋白的分子对接方法 | |
Sasidharan et al. | Prediction, validation, and analysis of protein structures: a beginner’s guide | |
Roche et al. | Toolbox for protein structure prediction | |
Zheng et al. | tFold-TR: combining deep learning enhanced hybrid potential energy for template-based modeling structure refinement | |
CN116864015B (zh) | 一种基于副本交换分子动力学的蛋白质构象变化分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |