CN109036580B - 基于相互作用能项和机器学习的蛋白-配体亲和力预测方法 - Google Patents
基于相互作用能项和机器学习的蛋白-配体亲和力预测方法 Download PDFInfo
- Publication number
- CN109036580B CN109036580B CN201810735055.5A CN201810735055A CN109036580B CN 109036580 B CN109036580 B CN 109036580B CN 201810735055 A CN201810735055 A CN 201810735055A CN 109036580 B CN109036580 B CN 109036580B
- Authority
- CN
- China
- Prior art keywords
- atom
- ligand
- interaction energy
- protein
- binding pocket
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000003446 ligand Substances 0.000 title claims abstract description 109
- 230000003993 interaction Effects 0.000 title claims abstract description 101
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000010801 machine learning Methods 0.000 title claims abstract description 19
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 37
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 37
- 125000000539 amino acid group Chemical group 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 7
- 230000000694 effects Effects 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims abstract description 3
- 125000004429 atom Chemical group 0.000 claims description 158
- 150000003384 small molecules Chemical class 0.000 claims description 39
- 229910052739 hydrogen Inorganic materials 0.000 claims description 31
- 239000001257 hydrogen Substances 0.000 claims description 31
- 230000009881 electrostatic interaction Effects 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 20
- 230000002209 hydrophobic effect Effects 0.000 claims description 15
- 150000001413 amino acids Chemical class 0.000 claims description 11
- 239000002184 metal Substances 0.000 claims description 11
- 239000013078 crystal Substances 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000007637 random forest analysis Methods 0.000 claims description 5
- 150000001875 compounds Chemical class 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 125000004435 hydrogen atom Chemical group [H]* 0.000 claims description 3
- 238000005984 hydrogenation reaction Methods 0.000 claims description 2
- 238000000547 structure data Methods 0.000 claims description 2
- 238000010200 validation analysis Methods 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- 230000001808 coupling effect Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 abstract description 2
- 125000003275 alpha amino acid group Chemical group 0.000 abstract 1
- 235000018102 proteins Nutrition 0.000 description 21
- 235000001014 amino acid Nutrition 0.000 description 8
- 229940024606 amino acid Drugs 0.000 description 8
- 238000009510 drug design Methods 0.000 description 4
- 239000003814 drug Substances 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- DHMQDGOQFOQNFH-UHFFFAOYSA-N Glycine Chemical compound NCC(O)=O DHMQDGOQFOQNFH-UHFFFAOYSA-N 0.000 description 2
- CKLJMWTZIZZHCS-REOHCLBHSA-N L-aspartic acid Chemical compound OC(=O)[C@@H](N)CC(O)=O CKLJMWTZIZZHCS-REOHCLBHSA-N 0.000 description 2
- 235000003704 aspartic acid Nutrition 0.000 description 2
- OQFSQFPPLPISGP-UHFFFAOYSA-N beta-carboxyaspartic acid Natural products OC(=O)C(N)C(C(O)=O)C(O)=O OQFSQFPPLPISGP-UHFFFAOYSA-N 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- MTCFGRXMJLQNBG-REOHCLBHSA-N (2S)-2-Amino-3-hydroxypropansäure Chemical compound OC[C@H](N)C(O)=O MTCFGRXMJLQNBG-REOHCLBHSA-N 0.000 description 1
- 239000004475 Arginine Substances 0.000 description 1
- WHUUTDBJXJRKMK-UHFFFAOYSA-N Glutamic acid Natural products OC(=O)C(N)CCC(O)=O WHUUTDBJXJRKMK-UHFFFAOYSA-N 0.000 description 1
- 239000004471 Glycine Substances 0.000 description 1
- XUJNEKJLAYXESH-REOHCLBHSA-N L-Cysteine Chemical compound SC[C@H](N)C(O)=O XUJNEKJLAYXESH-REOHCLBHSA-N 0.000 description 1
- ONIBWKKTOPOVIA-BYPYZUCNSA-N L-Proline Chemical compound OC(=O)[C@@H]1CCCN1 ONIBWKKTOPOVIA-BYPYZUCNSA-N 0.000 description 1
- QNAYBMKLOCPYGJ-REOHCLBHSA-N L-alanine Chemical compound C[C@H](N)C(O)=O QNAYBMKLOCPYGJ-REOHCLBHSA-N 0.000 description 1
- ODKSFYDXXFIFQN-BYPYZUCNSA-P L-argininium(2+) Chemical compound NC(=[NH2+])NCCC[C@H]([NH3+])C(O)=O ODKSFYDXXFIFQN-BYPYZUCNSA-P 0.000 description 1
- WHUUTDBJXJRKMK-VKHMYHEASA-N L-glutamic acid Chemical compound OC(=O)[C@@H](N)CCC(O)=O WHUUTDBJXJRKMK-VKHMYHEASA-N 0.000 description 1
- ZDXPYRJPNDTMRX-VKHMYHEASA-N L-glutamine Chemical compound OC(=O)[C@@H](N)CCC(N)=O ZDXPYRJPNDTMRX-VKHMYHEASA-N 0.000 description 1
- HNDVDQJCIGZPNO-YFKPBYRVSA-N L-histidine Chemical compound OC(=O)[C@@H](N)CC1=CN=CN1 HNDVDQJCIGZPNO-YFKPBYRVSA-N 0.000 description 1
- AGPKZVBTJJNPAG-WHFBIAKZSA-N L-isoleucine Chemical compound CC[C@H](C)[C@H](N)C(O)=O AGPKZVBTJJNPAG-WHFBIAKZSA-N 0.000 description 1
- ROHFNLRQFUQHCH-YFKPBYRVSA-N L-leucine Chemical compound CC(C)C[C@H](N)C(O)=O ROHFNLRQFUQHCH-YFKPBYRVSA-N 0.000 description 1
- KDXKERNSBIXSRK-YFKPBYRVSA-N L-lysine Chemical compound NCCCC[C@H](N)C(O)=O KDXKERNSBIXSRK-YFKPBYRVSA-N 0.000 description 1
- FFEARJCKVFRZRR-BYPYZUCNSA-N L-methionine Chemical compound CSCC[C@H](N)C(O)=O FFEARJCKVFRZRR-BYPYZUCNSA-N 0.000 description 1
- COLNVLDHVKWLRT-QMMMGPOBSA-N L-phenylalanine Chemical compound OC(=O)[C@@H](N)CC1=CC=CC=C1 COLNVLDHVKWLRT-QMMMGPOBSA-N 0.000 description 1
- AYFVYJQAPQTCCC-GBXIJSLDSA-N L-threonine Chemical compound C[C@@H](O)[C@H](N)C(O)=O AYFVYJQAPQTCCC-GBXIJSLDSA-N 0.000 description 1
- QIVBCDIJIAJPQS-VIFPVBQESA-N L-tryptophane Chemical compound C1=CC=C2C(C[C@H](N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-VIFPVBQESA-N 0.000 description 1
- OUYCCCASQSFEME-QMMMGPOBSA-N L-tyrosine Chemical compound OC(=O)[C@@H](N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-QMMMGPOBSA-N 0.000 description 1
- KZSNJWFQEVHDMF-BYPYZUCNSA-N L-valine Chemical compound CC(C)[C@H](N)C(O)=O KZSNJWFQEVHDMF-BYPYZUCNSA-N 0.000 description 1
- ROHFNLRQFUQHCH-UHFFFAOYSA-N Leucine Natural products CC(C)CC(N)C(O)=O ROHFNLRQFUQHCH-UHFFFAOYSA-N 0.000 description 1
- KDXKERNSBIXSRK-UHFFFAOYSA-N Lysine Natural products NCCCCC(N)C(O)=O KDXKERNSBIXSRK-UHFFFAOYSA-N 0.000 description 1
- 239000004472 Lysine Substances 0.000 description 1
- ONIBWKKTOPOVIA-UHFFFAOYSA-N Proline Natural products OC(=O)C1CCCN1 ONIBWKKTOPOVIA-UHFFFAOYSA-N 0.000 description 1
- MTCFGRXMJLQNBG-UHFFFAOYSA-N Serine Natural products OCC(N)C(O)=O MTCFGRXMJLQNBG-UHFFFAOYSA-N 0.000 description 1
- 238000003646 Spearman's rank correlation coefficient Methods 0.000 description 1
- AYFVYJQAPQTCCC-UHFFFAOYSA-N Threonine Natural products CC(O)C(N)C(O)=O AYFVYJQAPQTCCC-UHFFFAOYSA-N 0.000 description 1
- 239000004473 Threonine Substances 0.000 description 1
- QIVBCDIJIAJPQS-UHFFFAOYSA-N Tryptophan Natural products C1=CC=C2C(CC(N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-UHFFFAOYSA-N 0.000 description 1
- KZSNJWFQEVHDMF-UHFFFAOYSA-N Valine Natural products CC(C)C(N)C(O)=O KZSNJWFQEVHDMF-UHFFFAOYSA-N 0.000 description 1
- 235000004279 alanine Nutrition 0.000 description 1
- ODKSFYDXXFIFQN-UHFFFAOYSA-N arginine Natural products OC(=O)C(N)CCCNC(N)=N ODKSFYDXXFIFQN-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 235000018417 cysteine Nutrition 0.000 description 1
- XUJNEKJLAYXESH-UHFFFAOYSA-N cysteine Natural products SCC(N)C(O)=O XUJNEKJLAYXESH-UHFFFAOYSA-N 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000007877 drug screening Methods 0.000 description 1
- 238000003003 empirical scoring function Methods 0.000 description 1
- 238000003092 force field based scoring function Methods 0.000 description 1
- 235000013922 glutamic acid Nutrition 0.000 description 1
- 239000004220 glutamic acid Substances 0.000 description 1
- 235000004554 glutamine Nutrition 0.000 description 1
- ZDXPYRJPNDTMRX-UHFFFAOYSA-N glutamine Natural products OC(=O)C(N)CCC(N)=O ZDXPYRJPNDTMRX-UHFFFAOYSA-N 0.000 description 1
- HNDVDQJCIGZPNO-UHFFFAOYSA-N histidine Natural products OC(=O)C(N)CC1=CN=CN1 HNDVDQJCIGZPNO-UHFFFAOYSA-N 0.000 description 1
- AGPKZVBTJJNPAG-UHFFFAOYSA-N isoleucine Natural products CCC(C)C(N)C(O)=O AGPKZVBTJJNPAG-UHFFFAOYSA-N 0.000 description 1
- 229960000310 isoleucine Drugs 0.000 description 1
- 238000003095 knowledge based scoring function Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 235000006109 methionine Nutrition 0.000 description 1
- 229930182817 methionine Natural products 0.000 description 1
- COLNVLDHVKWLRT-UHFFFAOYSA-N phenylalanine Natural products OC(=O)C(N)CC1=CC=CC=C1 COLNVLDHVKWLRT-UHFFFAOYSA-N 0.000 description 1
- 235000013930 proline Nutrition 0.000 description 1
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 235000004400 serine Nutrition 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 235000008521 threonine Nutrition 0.000 description 1
- 230000001988 toxicity Effects 0.000 description 1
- 231100000419 toxicity Toxicity 0.000 description 1
- 235000002374 tyrosine Nutrition 0.000 description 1
- OUYCCCASQSFEME-UHFFFAOYSA-N tyrosine Natural products OC(=O)C(N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-UHFFFAOYSA-N 0.000 description 1
- 235000014393 valine Nutrition 0.000 description 1
- 239000004474 valine Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Toxicology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Chemical & Material Sciences (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明涉及一种基于相互作用能项和机器学习的蛋白‑配体亲和力预测方法,该方法通过分散配体与蛋白口袋的各种相互作用能项到20种氨基酸残基的主侧链上,并用机器学习的方法对PDB库中已知活性的蛋白‑配体相互作用能信息进行训练得到模型,利用所得模型进行配体与蛋白亲和力打分。本发明通过分散相互作用能项,可以充分考虑不同氨基酸残基主侧链对亲和力的影响;利用机器学习进行非线性拟合,有利于处理各个相互作用能之间的关联或耦合作用,从而针对性的减少不同氨基酸结构在亲和力计算过程中带来的误差。利用本发明,更有利于活性分子亲和力的预测,以达到提高预测准确度的目的。
Description
技术领域
本发明涉及打分函数技术领域,尤其涉及一种基于配体与蛋白结合口袋残基相互作用能和机器学习的蛋白质-配体亲和力预测方法。
背景技术
在药物设计过程中,打分函数通常用于蛋白质靶标与其配体之间的结合亲和力的预测,从而提高药物设计的成功率和降低药物筛选的成本。近年来,越来越受到相关科研机构和制药公司的重视。常用的打分函数方法可以分为基于力场的打分函数,基于经验的打分函数和基于知识的打分函数。常用打分函数有PLP,ChemScore,X-Score,和GlideScore等。其中,基于经验的打分函数应用最为广泛。基于经验的打分函数通常是由蛋白质和配体多种物理化学相互作用项组成,如范德华、氢键、静电以及金属-配体相互作用能等。这些项往往通过线性拟合得到相关系数。然而,目前基于经验的打分函数仍然存在如预测值与实验值相关性不佳、靶点依赖性大和对同系物敏感性差等相关问题。而导致这些问题的原因很多,比如相互作用能项过少导致差异化一定程度被忽略,蛋白配体复合物数据集很少导致多样性不够,线性回归忽略了各相互作用能项间的耦合作用。
机器学习已经被广泛的应用于药物设计的各个领域,包括靶标预测、毒性预测、药物相似性预测、药物活性预测等。常用的机器学习方法包括支持向量机、随机森林和人工神经网络等。
因此,利用机器学习发展新的预测蛋白-配体亲和力的打分函数新方法,在基于结构的药物设计和药物创新发展中有着至关重要的作用。
发明内容
本发明的目的在于提供一种基于氨基酸残基相互作用能项和机器学习的蛋白-配体亲和力预测方法,以弥补现有技术的不足。
实现本发明目的的具体技术方案是:
一种基于相互作用能项和机器学习的蛋白-配体亲和力预测方法,该方法包括以下具体步骤:
步骤1:从PDBbind数据库或RCSB-PDB数据库中得到含配体小分子的蛋白配体复合物结晶体结构,并从PDBbind数据库或文献中得到并提取亲和力的活性数据;其中,所述含配体小分子的蛋白配体复合物结晶体结构为:要求配体的亲和力类型为Kd或Ki,且所有复合物配体亲和力值于皮摩尔级、纳摩尔级、微摩尔级和毫摩尔级均有超过100个的分布;
步骤2:通过PDBFixer软件对所有蛋白进行预处理,其包括补齐缺失氨基酸残基,补齐缺失原子,加氢;
步骤3:基于amber99SB力场获取蛋白原子电荷;
步骤5:计算每个配体小分子的每个原子与蛋白结合口袋中的氨基酸残基每个原子的相互作用能,具体为:计算每个配体小分子的每个原子与氨基酸残基每个原子的范德华、氢键、疏水、静电的相互作用能和金属-配体相互作用能,以及配体自身的可旋转键数量;其具体定义如下:
1>范德华相互作用能为:
其中,VDWij代表结合口袋中第i个原子和配体小分子中第j个原子的范德华相互作用能,i 代表结合口袋残基上第i个原子,j代表配体小分子中的第j个原子,d0代表i原子与j原子的半径之和,dij代表i原子与j原子的实际距离;
2>疏水相互作用能为:
HCmn=f(dmn) (2)
其中
其中,HCmn代表结合口袋中第m个非极性原子和配体小分子中第n个非极性原子的疏水相互作用能,m代表结合口袋中残基上的第m个非极性原子,n代表配体小分子中的第n个非极性原子,d1代表m原子与n原子的半径之和,dmn代表m原子与n原子的实际距离;
3>氢键相互作用能为:
其中,对于满足氢键受体或供体要求的氨基酸残基重原子或配体小分子重原子,HBab代表结合口袋中第a个重原子和配体小分子中第b个重原子的氢键相互作用能,a代表结合口袋中残基上第a个重原子,b代表配体小分子中第b个重原子,dab代表a原子与b原子的实际距离;
4>静电相互作用能为:
其中,eleij代表结合口袋中第i个原子和配体小分子中第j个原子的静电相互作用能,i代表结合口袋中残基上第i个原子,j代表配体小分子中第j个原子,dij代表i原子与j原子的实际距离,qi代表i原子的电荷,qj代表j原子的电荷;
5>金属-配体相互作用能为:
Mkj=f(dkj) (5)
其中
其中,Mkj代表结合口袋中第k个金属原子和配体小分子中第j个原子的金属-配体相互作用能, k代表结合口袋中第k个金属原子,j代表配体小分子中第j个原子,dkj代表k原子与j原子的实际距离。
步骤6:根据不同氨基酸残基的主侧链形成相互作用能矩阵,具体包括:
1>将与结合口袋中所有氨基酸的主链原子相关的相互作用能按范德华相互作用能,氢键相互作用能,疏水相互作用能,正的静电相互作用能,负的静电相互作用能合并为5项;
2>将与结合口袋中所有氨基酸的侧链原子相关的相互作用能按人体20种不同氨基酸类型分别以范德华相互作用能,氢键相互作用能,疏水相互作用能,正的静电相互作用能,负的静电相互作用能共合并为100项;
3>配体小分子原子与金属的金属-配体相互作用能合并为1项;
4>配体小分子的可旋转键数量为1项;
共107项相互作用能形成相互作用能矩阵;
步骤7:调用随机森林的非线性回归方法;
步骤8:设置参数并训练得到打分函数模型,其参数n_estimators设置为100;
步骤9:由独立的测试集进行验证,其测试集需与拟合打分函数的训练集没有交叉数据集;
结果评估使用皮尔森相关系数,斯皮尔曼等级相关系数,均方根误差,标准偏差来体现;
步骤10:利用打分函数模型进行亲和力预测,具体包括:
1>输入靶点复合物中蛋白和小分子三维结构数据;
2>对蛋白结构进行预处理;
3>获取蛋白活性中心口袋;
4>生成107项相互作用能;
5>调用打分函数模型并输出给定复合物亲和力预测值。
本发明通过分散配体与蛋白口袋的各种相互作用能项到20种氨基酸残基的主侧链上并形成107项相互作用能项,并用机器学习的方法对各相互作用能项进行训练,构建了一种更加准确的蛋白质-配体亲和力预测方法。
本发明基本功能是预测蛋白质和配体之间亲和力的大小。相比于传统的方法,本发明的有益效果为:第一,分散相互作用项至不同氨基酸残基的主侧链上,有利于充分考虑不同氨基酸的差异性;第二,利用机器学习进行非线性拟合,相较于线性拟合更有利于处理各个相互作用能之间的关联或耦合作用;第三,结果表明利用本发明,蛋白-配体的亲和力预测结果较准确。
附图说明
图1为本发明流程图;
具体实施方式
本发明通过收集PDBbind库3746个蛋白质和配体复合物晶体结构及其结合亲和力实验值,构建了107项针对不同氨基酸残基的不同相互作用项,并采用机器学习方法中的随机森林的方法,从而建立了经验打分函数用于预测给定复合物的亲和力。
本发明的具体步骤:
步骤1:从PDBbing数据库中搜集准备了3746个复合物结构和其亲和力数据。配体的亲和力类型为Kd或Ki,且所有复合物配体亲和力值于皮摩尔级,纳摩尔级,微摩尔级和毫摩尔级均有超过100个的分布。
步骤2:通过PDBFixer对所有蛋白进行预处理。处理步骤包括补齐缺失氨基酸残基,补齐缺失原子,加氢。
步骤3:基于amber99SB力场获取蛋白原子电荷。
步骤5:计算每个配体小分子与结合口袋中的氨基酸残基的相互作用能及配体本身的可旋转键数量,具体是指计算每个小分子的每个原子与氨基酸残基每个原子的范德华、氢键、疏水、静电相互作用能,和金属-配体相互作用能,以及自身的可旋转键数量;几种相互作用的定义如下:
1>范德华相互作用能为:
其中,VDWij代表结合口袋中第i个原子和配体小分子中第j个原子的范德华相互作用能,i 代表结合口袋残基上第i个原子,j代表配体小分子中的第j个原子,d0代表i原子与j原子的半径之和,dij代表i原子与j原子的实际距离,这里采用了8-4形式的范德华相互作用形式;
2>疏水相互作用能为:
HCmn=f(dmn) (2)
其中
其中,HCmn代表结合口袋中第m个非极性原子和配体小分子中第n个非极性原子的疏水相互作用能,m代表结合口袋中残基上的第m个非极性原子,n代表配体小分子中的第n个非极性原子,d1代表m原子与n原子的半径之和,dmn代表m原子与n原子的实际距离;
3>氢键相互作用能为:
其中,对于满足氢键受体或供体要求的氨基酸残基重原子或配体小分子重原子,HBab代表结合口袋中第a个重原子和配体小分子中第b个重原子的氢键相互作用能,a代表结合口袋中残基上第a个重原子,b代表配体小分子中第b个重原子,dab代表a原子与b原子的实际距离;
4>静电相互作用能为:
其中,eleij代表结合口袋中第i个原子和配体小分子中第j个原子的静电相互作用能,i代表结合口袋中残基上第i个原子,j代表配体小分子中第j个原子,dij代表i原子与j原子的实际距离,qi代表i原子的电荷,qj代表j原子的电荷。
5>金属-配体相互作用能为:
Mkj=f(dkj) (5)
其中
其中,Mkj代表结合口袋中第k个金属原子和配体小分子中第j个原子的金属-配体相互作用能,k代表结合口袋中第k个金属原子,j代表配体小分子中第j个原子,dkj代表k原子与 j原子的实际距离。
其中,Mij代表结合口袋中第i个金属原子和配体小分子中第j个原子的金属-配体相互作用能,i代表结合口袋中第i个金属原子,j代表配体小分子中第j个原子,dij代表i原子与j原子的实际距离。
步骤6:根据不同氨基酸残基的主侧链形成相互作用能矩阵。
1>将与结合口袋中氨基酸的主链原子相关的相互作用能按范德华相互作用能,氢键相互作用能,疏水相互作用能,正的静电相互作用能,负的静电相互作用能合并为5项;
2>将与结合口袋中氨基酸的侧链原子相关的相互作用能按人体20种不同氨基酸类型分别以范德华相互作用能,氢键相互作用能,疏水相互作用能,正的静电相互作用能,负的静电相互作用能共合并为100项;
3>配体小分子原子与金属的金属-配体相互作用能合并为1项;
4>配体小分子的可旋转键数量为1项;
共107项相互作用能形成相互作用能矩阵。
其中,人体20种不同氨基酸分别为组氨酸、精氨酸、赖氨酸、异亮氨酸、苯丙氨酸、亮氨酸、色氨酸、丙氨酸、甲硫氨酸、脯氨酸、半胱氨酸、天门冬氨酸、缬氨酸、甘氨酸、丝氨酸、谷氨酰胺、酪氨酸、天门冬氨酸、谷氨酸和苏氨酸。
步骤7:调用random forest方法。
步骤8:设置参数。其中参数n_estimators设置为100。
步骤9:输出打分函数模型。
步骤10:使用独立的测试集进行验证:这里另外挑选了PDBbind库中共185个复合物作为测试集,该测试集与训练集没有交叉数据集;结果评估使用皮尔森相关系数,斯皮尔曼等级相关系数,均方根误差,标准偏差四个部分来体现。其中,对于测试集评价结果中
1>皮尔森相关系数为0.784,
2>斯皮尔曼等级相关系数为0.786,
3>均方根误差为1.522,
4>标准偏差为1.521。
Claims (7)
1.一种基于相互作用能项和机器学习的蛋白-配体亲和力预测方法,其特征在于,该方法包括以下具体步骤:
步骤1:从PDBbind数据库或RCSB-PDB数据库中得到含配体小分子的蛋白配体复合物结晶体结构,并从PDBbind数据库或文献中得到并提取亲和力的活性数据;
步骤2:通过PDBFixer软件对所有蛋白进行预处理;
步骤3:基于amber99SB力场获取蛋白原子电荷;
步骤4:计算找出每个蛋白配体小分子结合口袋附近的氨基酸残基;
步骤5:计算每个配体小分子的每个原子与蛋白结合口袋中的氨基酸残基每个原子的相互作用能;
步骤6:根据不同氨基酸残基的主侧链形成相互作用能矩阵;
步骤7:调用随机森林的非线性回归方法;
步骤8:设置参数并训练得到打分函数模型;
步骤9:由独立的测试集进行验证;
步骤10:利用打分函数模型进行亲和力预测;其中:
所述根据不同氨基酸残基的主侧链形成相互作用能矩阵,具体包括:
1>将与结合口袋中所有氨基酸的主链原子相关的相互作用能按范德华相互作用能,氢键相互作用能,疏水相互作用能,正的静电相互作用能,负的静电相互作用能合并为5项;
2>将与结合口袋中所有氨基酸的侧链原子相关的相互作用能按人体20种不同氨基酸类型分别以范德华相互作用能,氢键相互作用能,疏水相互作用能,正的静电相互作用能,负的静电相互作用能共合并为100项;
3>配体小分子原子与金属的金属-配体相互作用能合并为1项;
4>配体小分子的可旋转键数量为1项;
共107项相互作用能形成相互作用能矩阵;
所述利用打分函数模型进行亲和力预测,具体包括:
1>输入靶点复合物中蛋白和小分子三维结构数据;
2>对蛋白结构进行预处理;
3>获取蛋白活性中心口袋;
4>生成107项相互作用能;
5>调用打分函数模型并输出给定复合物亲和力预测值。
2.根据权利要求1所述一种基于相互作用能项和机器学习的蛋白-配体亲和力预测方法,其特征在于,步骤1中,所述含配体小分子的蛋白配体复合物结晶体结构为:要求蛋白-配体的亲和力类型为Kd或Ki,且所有复合物配体亲和力值于皮摩尔级、纳摩尔级、微摩尔级和毫摩尔级均有超过100个的分布。
3.根据权利要求1所述一种基于相互作用能项和机器学习的蛋白-配体亲和力预测方法,其特征在于,步骤2中,所述通过PDBFixer软件对所有蛋白进行预处理包括补齐缺失氨基酸残基,补齐缺失原子,加氢。
5.根据权利要求1所述一种基于相互作用能项和机器学习的蛋白-配体亲和力预测方法,其特征在于,步骤5中,所述计算每个配体小分子的每个原子与蛋白结合口袋中的氨基酸残基每个原子的相互作用能为:计算每个配体小分子的每个原子与氨基酸残基每个原子的范德华、氢键、疏水、静电的相互作用能和金属-配体相互作用能,以及配体自身的可旋转键数量;其具体定义如下:
1>范德华相互作用能为:
其中,VDWij代表结合口袋中第i个原子和配体小分子中第j个原子的范德华相互作用能,i代表结合口袋残基上第i个原子,j代表配体小分子中的第j个原子,d0代表i原子与j原子的半径之和,dij代表i原子与j原子的实际距离;
2>疏水相互作用能为:
HCmn=f(dmn) (2)
其中
其中,HCmn代表结合口袋中第m个非极性原子和配体小分子中第n个非极性原子的疏水相互作用能,m代表结合口袋中残基上的第m个非极性原子,n代表配体小分子中的第n个非极性原子,d1代表m原子与n原子的半径之和,dmn代表m原子与n原子的实际距离;
3>氢键相互作用能为:
其中,对于满足氢键受体或供体要求的氨基酸残基重原子或配体小分子重原子,HBab代表结合口袋中第a个重原子和配体小分子中第b个重原子的氢键相互作用能,a代表结合口袋中残基上第a个重原子,b代表配体小分子中第b个重原子,dab代表a原子与b原子的实际距离;
4>静电相互作用能为:
其中,eleij代表结合口袋中第i个原子和配体小分子中第j个原子的静电相互作用能,i代表结合口袋中残基上第i个原子,j代表配体小分子中第j个原子,dij代表i原子与j原子的实际距离,qi代表i原子的电荷,qj代表j原子的电荷;
5>金属-配体相互作用能为:
Mkj=f(dkj) (5)
其中
其中,Mkj代表结合口袋中第k个金属原子和配体小分子中第j个原子的金属-配体相互作用能,k代表结合口袋中第k个金属原子,j代表配体小分子中第j个原子,dkj代表k原子与j原子的实际距离。
6.根据权利要求1所述一种基于相互作用能项和机器学习的蛋白-配体亲和力预测方法,其特征在于,步骤8中,设置参数为:参数n_estimators设置为100。
7.根据权利要求1所述一种基于相互作用能项和机器学习的蛋白-配体亲和力预测方法,其特征在于,步骤9中,所述由独立的测试集进行验证为:测试集需与拟合打分函数的训练集没有交叉数据集;结果评估使用皮尔森相关系数,斯皮尔曼等级相关系数,均方根误差,标准偏差来体现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810735055.5A CN109036580B (zh) | 2018-07-06 | 2018-07-06 | 基于相互作用能项和机器学习的蛋白-配体亲和力预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810735055.5A CN109036580B (zh) | 2018-07-06 | 2018-07-06 | 基于相互作用能项和机器学习的蛋白-配体亲和力预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109036580A CN109036580A (zh) | 2018-12-18 |
CN109036580B true CN109036580B (zh) | 2021-08-20 |
Family
ID=64640556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810735055.5A Active CN109036580B (zh) | 2018-07-06 | 2018-07-06 | 基于相互作用能项和机器学习的蛋白-配体亲和力预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109036580B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3906556A4 (en) * | 2019-01-04 | 2022-09-28 | Cyclica Inc. | METHOD AND SYSTEM FOR PREDICTING DRUG BINDING USING SYNTHESIS DATA |
CA3132189A1 (en) | 2019-04-09 | 2020-10-15 | Derek Mason | Systems and methods to classify antibodies |
CN110428864A (zh) * | 2019-07-17 | 2019-11-08 | 大连大学 | 用于构建蛋白质和小分子的亲和力预测模型的方法 |
CN111429972A (zh) * | 2019-09-05 | 2020-07-17 | 中国海洋大学 | 一种基于深度学习的蛋白质小分子对接打分方案 |
CN111394339B (zh) * | 2020-03-18 | 2020-10-20 | 华东师范大学 | 一种基于酵母二肽基肽酶ⅲ的抗体模拟物及其应用 |
CN112289371A (zh) * | 2020-09-23 | 2021-01-29 | 北京望石智慧科技有限公司 | 蛋白质与小分子样本生成及结合能、结合构象预测方法 |
CN113241126B (zh) * | 2021-05-18 | 2023-08-11 | 百度时代网络技术(北京)有限公司 | 用于训练确定分子结合力的预测模型的方法和装置 |
CN114446383B (zh) * | 2022-01-24 | 2023-04-21 | 电子科技大学 | 一种基于量子计算的配体-蛋白相互作用的预测方法 |
CN117037946B (zh) * | 2022-11-14 | 2024-05-10 | 合肥微观纪元数字科技有限公司 | 基于蛋白质结合口袋的优化化合物结构的方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102509029A (zh) * | 2011-10-26 | 2012-06-20 | 重庆教育学院 | 人类1型双载蛋白Src同源结构域3结合肽的亲和力预测及分析方法 |
CN102930181A (zh) * | 2012-11-07 | 2013-02-13 | 四川大学 | 基于分子描述符的蛋白质-配体亲和力预测方法 |
CN103971030A (zh) * | 2014-04-18 | 2014-08-06 | 中国科学院烟台海岸带研究所 | 一种预测生物标志物p53与有机磷酸酯阻燃剂相互作用亲和力的方法 |
WO2015168774A1 (en) * | 2014-05-05 | 2015-11-12 | Chematria Inc. | Binding affinity prediction system and method |
CN106446607A (zh) * | 2016-09-26 | 2017-02-22 | 华东师范大学 | 基于相互作用指纹和机器学习的药物靶标的虚拟筛选方法 |
-
2018
- 2018-07-06 CN CN201810735055.5A patent/CN109036580B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102509029A (zh) * | 2011-10-26 | 2012-06-20 | 重庆教育学院 | 人类1型双载蛋白Src同源结构域3结合肽的亲和力预测及分析方法 |
CN102930181A (zh) * | 2012-11-07 | 2013-02-13 | 四川大学 | 基于分子描述符的蛋白质-配体亲和力预测方法 |
CN103971030A (zh) * | 2014-04-18 | 2014-08-06 | 中国科学院烟台海岸带研究所 | 一种预测生物标志物p53与有机磷酸酯阻燃剂相互作用亲和力的方法 |
WO2015168774A1 (en) * | 2014-05-05 | 2015-11-12 | Chematria Inc. | Binding affinity prediction system and method |
CN106446607A (zh) * | 2016-09-26 | 2017-02-22 | 华东师范大学 | 基于相互作用指纹和机器学习的药物靶标的虚拟筛选方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109036580A (zh) | 2018-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109036580B (zh) | 基于相互作用能项和机器学习的蛋白-配体亲和力预测方法 | |
Li et al. | TrimNet: learning molecular representation from triplet messages for biomedicine | |
US20190333604A1 (en) | Method and apparatus for identification of biomolecules | |
Homeyer et al. | Binding free energy calculations for lead optimization: assessment of their accuracy in an industrial drug design context | |
Park et al. | Rapid and accurate peptide identification from tandem mass spectra | |
Exner et al. | The field-adapted ADMA approach: Introducing point charges | |
CN107423570B (zh) | 快速准确计算蛋白酶与药物分子之间亲和自由能的算法 | |
ATE359561T1 (de) | Rechnerverfahren freie energieberechnung für ligandenentwurf verwendend und die voraussage von bindenden zielen | |
Gorham Jr et al. | An evaluation of Poisson–Boltzmann electrostatic free energy calculations through comparison with experimental mutagenesis data | |
Scholl et al. | Chaperones rescue luciferase folding by separating its domains | |
Liu et al. | Theoretical study on the interaction of glutathione with group IA (Li+, Na+, K+), IIA (Be 2+, Mg 2+, Ca 2+), and IIIA (Al 3+) metal cations | |
Churchill et al. | Effects of the biological backbone on stacking interactions at DNA–protein interfaces: the interplay between the backbone⋯ π and π⋯ π components | |
Holding et al. | Hekate: software suite for the mass spectrometric analysis and three-dimensional visualization of cross-linked protein samples | |
Yao et al. | A less‐biased analysis of metalloproteins reveals novel zinc coordination geometries | |
Xu et al. | A fragment quantum mechanical method for metalloproteins | |
Cundari et al. | CO2-formatics: how do proteins bind carbon dioxide? | |
Li et al. | A polarizable dipole–dipole interaction model for evaluation of the interaction energies for N H··· O C and C H··· O C hydrogen‐bonded complexes | |
Chen et al. | Fragment exchange potential for realizing Pauli deformation of Interfragment interactions | |
Daniel et al. | ELM-based ensemble classifier for gas sensor array drift dataset | |
Voitsitskyi et al. | Augmenting a training dataset of the generative diffusion model for molecular docking with artificial binding pockets | |
Santa Maria Jr et al. | Perspective on the challenges and opportunities of accelerating drug discovery with artificial intelligence | |
Li et al. | Rapid evaluation of the binding energies between peptide amide and DNA base | |
CN110428870B (zh) | 一种预测抗体重链轻链配对概率的方法及其应用 | |
Mahapatra et al. | Integrating resonant recognition model and stockwell transform for localization of hotspots in Tubulin | |
Náray-Szabó et al. | Protein modelling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |