CN109887541A - 一种靶点蛋白质与小分子结合预测方法及系统 - Google Patents
一种靶点蛋白质与小分子结合预测方法及系统 Download PDFInfo
- Publication number
- CN109887541A CN109887541A CN201910117693.5A CN201910117693A CN109887541A CN 109887541 A CN109887541 A CN 109887541A CN 201910117693 A CN201910117693 A CN 201910117693A CN 109887541 A CN109887541 A CN 109887541A
- Authority
- CN
- China
- Prior art keywords
- protein
- small molecule
- vector
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 146
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 146
- 150000003384 small molecules Chemical class 0.000 title claims abstract description 139
- 238000000034 method Methods 0.000 title claims abstract description 58
- 239000013598 vector Substances 0.000 claims abstract description 96
- 238000013528 artificial neural network Methods 0.000 claims abstract description 25
- 150000001875 compounds Chemical class 0.000 claims abstract description 12
- 230000027455 binding Effects 0.000 claims description 45
- 238000012549 training Methods 0.000 claims description 42
- 238000012360 testing method Methods 0.000 claims description 28
- 239000000126 substance Substances 0.000 claims description 21
- 238000000547 structure data Methods 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 11
- 150000001413 amino acids Chemical class 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 102000014914 Carrier Proteins Human genes 0.000 claims description 4
- 108091008324 binding proteins Proteins 0.000 claims description 4
- 230000009149 molecular binding Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 19
- 210000005036 nerve Anatomy 0.000 abstract 1
- REFJWTPEDVJJIY-UHFFFAOYSA-N Quercetin Chemical compound C=1C(O)=CC(O)=C(C(C=2O)=O)C=1OC=2C1=CC=C(O)C(O)=C1 REFJWTPEDVJJIY-UHFFFAOYSA-N 0.000 description 25
- 230000006870 function Effects 0.000 description 24
- 230000003993 interaction Effects 0.000 description 15
- ZVOLCUVKHLEPEV-UHFFFAOYSA-N Quercetagetin Natural products C1=C(O)C(O)=CC=C1C1=C(O)C(=O)C2=C(O)C(O)=C(O)C=C2O1 ZVOLCUVKHLEPEV-UHFFFAOYSA-N 0.000 description 13
- HWTZYBCRDDUBJY-UHFFFAOYSA-N Rhynchosin Natural products C1=C(O)C(O)=CC=C1C1=C(O)C(=O)C2=CC(O)=C(O)C=C2O1 HWTZYBCRDDUBJY-UHFFFAOYSA-N 0.000 description 13
- MWDZOUNAPSSOEL-UHFFFAOYSA-N kaempferol Natural products OC1=C(C(=O)c2cc(O)cc(O)c2O1)c3ccc(O)cc3 MWDZOUNAPSSOEL-UHFFFAOYSA-N 0.000 description 13
- 229960001285 quercetin Drugs 0.000 description 13
- 235000005875 quercetin Nutrition 0.000 description 13
- 238000010801 machine learning Methods 0.000 description 11
- 230000035945 sensitivity Effects 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 102000052116 epidermal growth factor receptor activity proteins Human genes 0.000 description 9
- 108700015053 epidermal growth factor receptor activity proteins Proteins 0.000 description 9
- YOHYSYJDKVYCJI-UHFFFAOYSA-N n-[3-[[6-[3-(trifluoromethyl)anilino]pyrimidin-4-yl]amino]phenyl]cyclopropanecarboxamide Chemical compound FC(F)(F)C1=CC=CC(NC=2N=CN=C(NC=3C=C(NC(=O)C4CC4)C=CC=3)C=2)=C1 YOHYSYJDKVYCJI-UHFFFAOYSA-N 0.000 description 9
- 101000997832 Homo sapiens Tyrosine-protein kinase JAK2 Proteins 0.000 description 8
- 102100033444 Tyrosine-protein kinase JAK2 Human genes 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000010200 validation analysis Methods 0.000 description 8
- 238000003032 molecular docking Methods 0.000 description 7
- 238000013136 deep learning model Methods 0.000 description 6
- 201000010099 disease Diseases 0.000 description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 6
- 230000000717 retained effect Effects 0.000 description 6
- 102000015792 Cyclin-Dependent Kinase 2 Human genes 0.000 description 5
- 108010024986 Cyclin-Dependent Kinase 2 Proteins 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000007637 random forest analysis Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 229940079593 drug Drugs 0.000 description 4
- 239000003814 drug Substances 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 4
- 102100035875 C-C chemokine receptor type 5 Human genes 0.000 description 3
- 101710149870 C-C chemokine receptor type 5 Proteins 0.000 description 3
- 101100439046 Caenorhabditis elegans cdk-2 gene Proteins 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- -1 small molecule compounds Chemical class 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 230000001225 therapeutic effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000032823 cell division Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 238000007877 drug screening Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 239000004615 ingredient Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000000329 molecular dynamics simulation Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004952 protein activity Effects 0.000 description 2
- 102000005962 receptors Human genes 0.000 description 2
- 108020003175 receptors Proteins 0.000 description 2
- 229940126586 small molecule drug Drugs 0.000 description 2
- 238000003041 virtual screening Methods 0.000 description 2
- 206010013710 Drug interaction Diseases 0.000 description 1
- 208000030453 Drug-Related Side Effects and Adverse reaction Diseases 0.000 description 1
- 241000588724 Escherichia coli Species 0.000 description 1
- 101150009057 JAK2 gene Proteins 0.000 description 1
- 108010024121 Janus Kinases Proteins 0.000 description 1
- 102000015617 Janus Kinases Human genes 0.000 description 1
- 239000005411 L01XE02 - Gefitinib Substances 0.000 description 1
- 239000005551 L01XE03 - Erlotinib Substances 0.000 description 1
- 208000014767 Myeloproliferative disease Diseases 0.000 description 1
- 108091000080 Phosphotransferase Proteins 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 208000017733 acquired polycythemia vera Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000008236 biological pathway Effects 0.000 description 1
- 230000005907 cancer growth Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009510 drug design Methods 0.000 description 1
- 238000012362 drug development process Methods 0.000 description 1
- 230000000857 drug effect Effects 0.000 description 1
- 238000002651 drug therapy Methods 0.000 description 1
- 229960001433 erlotinib Drugs 0.000 description 1
- AAKJLRGGTJKAMG-UHFFFAOYSA-N erlotinib Chemical compound C=12C=C(OCCOC)C(OCCOC)=CC2=NC=NC=1NC1=CC=CC(C#C)=C1 AAKJLRGGTJKAMG-UHFFFAOYSA-N 0.000 description 1
- 230000008713 feedback mechanism Effects 0.000 description 1
- 229960002584 gefitinib Drugs 0.000 description 1
- XGALLCVXEZPNRQ-UHFFFAOYSA-N gefitinib Chemical compound C=12C=C(OCCCN3CCOCC3)C(OC)=CC2=NC=NC=1NC1=CC=C(F)C(Cl)=C1 XGALLCVXEZPNRQ-UHFFFAOYSA-N 0.000 description 1
- QQLKULDARVNMAL-UHFFFAOYSA-N icotinib Chemical compound C#CC1=CC=CC(NC=2C3=CC=4OCCOCCOCCOC=4C=C3N=CN=2)=C1 QQLKULDARVNMAL-UHFFFAOYSA-N 0.000 description 1
- 229950007440 icotinib Drugs 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 239000003446 ligand Substances 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 102000037979 non-receptor tyrosine kinases Human genes 0.000 description 1
- 108091008046 non-receptor tyrosine kinases Proteins 0.000 description 1
- 238000011275 oncology therapy Methods 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 102000020233 phosphotransferase Human genes 0.000 description 1
- 208000037244 polycythemia vera Diseases 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000006916 protein interaction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 102000035160 transmembrane proteins Human genes 0.000 description 1
- 108091005703 transmembrane proteins Proteins 0.000 description 1
- 210000004881 tumor cell Anatomy 0.000 description 1
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种靶点蛋白质与小分子结合预测方法及系统,通过获取待结合蛋白质口袋和待查询小分子的物理化学特征数据;将所述待结合蛋白质口袋和待查询小分子的物理化学特征数据分别转化为口袋向量和小分子向量;将所述口袋向量和小分子向量作为输入预先设置的基于深度神经网络的预测模型,得到结合概率的预测结果。本发明所提供的方法及系统,提取了相互作用直接相关的活性口袋部分表示蛋白,有利于去除非相关信息,减少噪音,进而提高准确性。另外,设计了适合学习向量的神经全连接层网络模型更容易保留更全的信息,通过向量保留了蛋白小分子作用的关键信息,但是又不依赖于蛋白小分子复合物构象,为高速准确预测奠定了基础。
Description
技术领域
本发明涉及计算生物技术领域,尤其涉及的是一种靶点蛋白质与小分子结合预测方法及系统。
背景技术
蛋白质为生物体的基本功能单元,小分子药物可以通过与蛋白相互作用影响疾病相关生理通路。设计针对疾病靶点的小分子药物成为治疗疾病的最重要手段之一。实验方法预测或者筛选针对蛋白质的活性候选小分子,需要花费大量经费,并且耗时长。因此人们开发了一系列计算机辅助方法加速药物筛选,其中蛋白-小分子大规模对接被广泛运用于寻找药物-蛋白最佳空间作用位点以及作用方位,最后通过打分函数决定可能的最优复合物结构。然而研究者发现仅仅通过基于经验或者物理的打分函数对复合物进行准确评价一直是难点。另一方面基于结构的打分函数,依赖于获取准确蛋白小分子相互作用构象。传统打分函数局限也包括难以有效预测特异性,以及水效应等。目前研究蛋白药物相互作用的手段相对有限。刚性小分子蛋白对接用了假定分子骨架和侧链固定不变,这个巨大近似导致结果不够可靠。基于蒙特卡洛算法的柔性蛋白对接以及分子动力学模拟等常规方法在计算水效应,熵效应,多体效应时,极其耗时,而且并不能很好保证其准确性。近年来的报道中,运用metadyanmic分子动力模拟方法估算蛋白小分子相互作用,取得了相对准确的结果。其主要原因是其模拟中显性的包含了水分子,能很好的反应水效应,熵效应,并且运用了加速采样技术。但是该技术需要人工选取综合特征变量(collective variable),操作较为复杂,并且相对对接,仍然非常耗计算资源。
近年来,随着蛋白小分子复合物实验数据的增多,以及机器学习的发展,尤其是深度神经网络模型的迅速发展,不少研究人员运用机器学习或者深度学习模型预测蛋白小分子相互作用。其模型相对传统模型具有不少优势,一方面,深度学习模型不需要提前固定公式形式,可以随着训练过程演化,另一方面,深度学习能自动提前与相关的特征。但是,目前用于蛋白小分子相互作用的机器学习或者深度学习模型往往依赖于准确的蛋白 -小分子复合物结构。而大部分实际运用中,通过对接或者模拟方法较难获取准确的蛋白小分子复合物结构,并且增加了额外的计算时间。
因此,现有技术有待于进一步的改进。
发明内容
鉴于上述现有技术中的不足之处,本发明的目的在于为用户提供一种靶点蛋白质与小分子结合预测方法及系统,用于克服现有技术中由于依赖准确的蛋白小分子复合结构进行蛋白与小分子之间相互作用预测的模型或机器学习算法无法准确预测出结合结果的缺陷。
本发明解决技术问题所采用的技术方案如下:
本发明提供的第一实施例为一种靶点蛋白质与小分子结合预测方法,其中,包括:
获取待结合蛋白质口袋和待查询小分子的物理化学特征数据;
将所述待结合蛋白质口袋和待查询小分子的物理化学特征数据分别转化为口袋向量和小分子向量;
将所述口袋向量和小分子向量作为输入预先设置的基于深度神经网络的预测模型,得到结合概率的预测结果。
可选的,所述方法还包括:
获取蛋白-小分子复合物结构数据,并将所述蛋白-小分子复合物结构数据作为正样本集,以及为每个蛋白随机组合一个所述蛋白-小分子复合物结构中不含有的小分子作为负样本集,对所述预测模型进行训练,并结合输出结果,对预测模型进行参数调整。
可选的,所述对所述预测模型进行训练的步骤还包括:
将所述正样本集和所述负样本集的数据分成训练集、验证集和测试集;
使用所述训练集对预测模型进行训练得到预测模型的参数;
使用所述验证集对所述预测模型进行验证得到优化后的模型参数;
使用测试集对训练后得到的预测模型进行测试,得到预测模型的输出结果与真实结果之间的误差值。
可选的,所述预测模型为基于密集全连接神经网络构建的预测模型,其输出层的激活函数为线性整流函数。
可选的,所述将所述口袋向量和小分子向量作为输入预先设置的基于深度神经网络的预测模型,得到结合概率的预测结果的步骤包括:
根据预测输出的结合概率值对所述结合蛋白进行概率值排名,以及根据所述概率值排列名次得到小分子最佳结合靶点蛋白。
可选的,所述获取蛋白-小分子复合物结构数据的步骤包括:
提取蛋白-小分子复合物结构中距离小分子一纳米以内的蛋白质氨基酸作为蛋白质口袋,或者利用Fpocket软件提取未知蛋白-小分子复合物结构中潜在的蛋白质口袋并进行打分,并将打分高于预设值的活性口袋作为蛋白质口袋。
可选的,获取蛋白-小分子复合物结构数据的步骤还包括:
将所述蛋白质口袋和小分子的物理化学特征数据分别转化为口袋向量和小分子向量;组成向量化后的蛋白-小分子复合物数据库。
本发明提供的第二实施例为一种靶点蛋白质与小分子结合预测系统,其中,包括:
数据获取模块,用于获取待结合蛋白质口袋和待查询小分子的物理化学特征数据;
向量化模块,用于将所述待结合蛋白质口袋和待查询小分子的物理化学特征数据分别转化为口袋向量和小分子向量;
预测处理模块,用于将所述口袋向量和小分子向量作为输入预先设置的基于深度神经网络的预测模型,得到结合概率的预测结果。
可选的,所述系统还包括:
模型训练模块,用于获取蛋白-小分子复合物结构数据,并将所述蛋白 -小分子复合物结构数据作为正样本集,以及为每个蛋白随机组合一个所述蛋白-小分子复合物结构中不含有的小分子作为负样本集,对所述预测模型进行训练,并结合输出结果,对预测模型进行参数调整。
可选的,所述预测模型为基于密集全连接神经网络构建的预测模型,其输出层的激活函数为线性整流函数。
有益效果,本发明提供了一种靶点蛋白质与小分子结合预测方法及系统,通过获取待结合蛋白质口袋和待查询小分子的物理化学特征数据;将所述待结合蛋白质口袋和待查询小分子的物理化学特征数据分别转化为口袋向量和小分子向量;将所述口袋向量和小分子向量作为输入预先设置的基于深度神经网络的预测模型,得到结合概率的预测结果。本发明所提供的方法及系统,提取了相互作用直接相关的活性口袋部分表示蛋白,有利于去除非相关信息,减少噪音,进而提高准确性。另外,设计了适合学习向量的神经全连接层网络模型更容易保留更全的信息,通过向量保留了蛋白小分子作用的关键信息,但是又不依赖于蛋白小分子复合物构象,为高速准确预测奠定了基础。
附图说明
图1是本发明提供的一种靶点蛋白质与小分子结合预测方法的步骤流程图;
图2是本发明所述方法中预测模型建立及训练的步骤流程图;
图3是本发明所述方法具体应用实施的步骤流程图;
图4a是本发明所述方法中预测模型的结构示意图;
图4b是本发明所述方法所提供的密集全连接神经网络结构中密集模块之间的连接示意图;
图5a是本发明所述方法在进行预测模型训练时提取活性口袋的第一种方法的原理示意图;
图5b是本发明所述方法在进行预测模型训练时提取活性口袋的第二种方法的原理示意图;
图6是本发明所述系统的原理结构框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
由于现有技术中所使用的蛋白-小分子相互作用的预测方法均无法得到预测准确且计算量低的需求,因此提供了一种将蛋白质口袋表示成为能反应其物理化学特性的向量,将小分子表示成成能反应其物理化学特性的向量。将口袋向量合并小分子向量来表示蛋白小分子相互作用信息,进而对蛋白与小分子之间相互作用的结果进行预测。具体的本发明所提供的方法及系统如下:
实施例1
本发明提供的第一实施例为一种靶点蛋白质与小分子结合预测方法,如图1所示,包括:
步骤S1、获取待结合蛋白质口袋和待查询小分子的物理化学特征数据。
获取用于预测的各个靶点蛋白质和待查询的与所述靶点蛋白质进行结合的小分子的物理化学特征数据。上述数据可以从各个已知含有蛋白靶点及与所述蛋白靶点相结合的小分子数据库中直接获取。
步骤S2、将所述待结合蛋白质口袋和待查询小分子的物理化学特征数据分别转化为口袋向量和小分子向量。
对上述步骤S1中获取的蛋白质口袋和小分子的相关数据转向量化,具体的,为了提高预测的精确度,本步骤中蛋白质口袋使用氨基酸实现,而氨基酸向量以及小分子向量都可以使用开源软件mol2vec获取。
步骤S3、将所述口袋向量和小分子向量作为输入预先设置的基于深度神经网络的预测模型,得到结合概率的预测结果。
将转化为向量的口袋向量和小分子向量输入预测模型,得到口袋向量与小分子向量之间的结合概率值。由于结合概率值越高越说明该小分子对该活性蛋白质口袋之间的相互作用越强,也越能有效的治疗靶点所在的疾病,因此本步骤中选出结合概率值最高的前几位蛋白质口袋,以得到与该待查询小分子结合效果最佳的蛋白质。因此本步骤中还包括:根据预测输出的结合概率值对所述结合蛋白进行概率值排名,以及根据所述概率值排列名次得到小分子最佳结合靶点蛋白。
可以想到的,针对上述步骤S3中使用的预测模型,还需要对其进行建模和训练。
结合图2所示,获取蛋白-小分子复合物结构数据,并将所述蛋白-小分子复合物结构数据作为正样本集,以及为每个蛋白随机组合一个所述蛋白-小分子复合物结构中不含有的小分子作为负样本集,对所述预测模型进行训练,并结合输出结果,对预测模型进行参数调整。
进一步的,所述获取蛋白-小分子复合物结构数据的步骤包括:
提取蛋白-小分子复合物结构中距离小分子一纳米以内的蛋白质氨基酸作为蛋白质口袋,或者利用Fpocket软件提取未知蛋白-小分子复合物结构中潜在的蛋白质口袋并进行打分,并将打分高于预设值的活性口袋作为蛋白质口袋。使用两种不同的方法均可以得到较佳的提取蛋白质口袋的结果。
可以想到的是,为了获取蛋白-小分子复合物结构数据的步骤还包括:
将所述蛋白质口袋和小分子的物理化学特征数据分别转化为口袋向量和小分子向量;组成向量化后的蛋白-小分子复合物数据库。
具体的,为了得到较为准确的预测模型,所述对所述预测模型进行训练的步骤还包括:
将所述正样本集和所述负样本集的数据分成训练集、验证集和测试集;
使用所述训练集对预测模型进行训练得到预测模型的参数;
使用所述验证集对所述预测模型进行验证得到优化后的模型参数;
使用测试集对训练后得到的预测模型进行测试,得到预测模型的输出结果与真实结果之间的误差值。
较佳的,所述预测模型为基于密集全连接神经网络构建的预测模型,其输出层的激活函数为线性整流函数。
对于任何输入预测模型的小分子以及蛋白质,预测模型可以判断可能结合的概率,从而找出该分子的潜在蛋白靶点。具体实施时,将输入小分子预先与库中的蛋白组成600维度的向量。预测出的概率值越高,结合的可能性越高,最高排名的蛋白可以优先用于后续研究。本发明所提供的方法基于深度神经网络的预测模型进行预测,不同于现有技术方法中使用蛋白和小分子对接进行预测,也不需要进行构象搜索,因此减少模拟时产生的计算量,且通过向量保留了蛋白小分子作用的关键信息,可以获取较为准确的预测结果。
下面以具体应用实施例为例,对本发明所提供的方法做更为详细的解析。
结合图2和图3所示,在实际应用中,本发明所述的方法包括以下几个部分:
1.1训练验证以及测试数据准备
蛋白及小分子的数据准备,使用PDBbind数据库(2017年版本)中的数据来训练的预测模型。PDBbind数据库包含有14万多个来源于PDB结构数据库的蛋白-小分子复合物结构数据。小分子配体使用mol2vec软件转化成300维度的向量表示。对应的受体蛋白活性口袋用mol2vec转化成为300 维度的向量表示。对应同一个复合物的小分子和口袋向量合并成为一个600 维度的向量表示,这个600维度的向量将用于模型的最终输入。
来源于PDBBind数据库的14371个蛋白小分子复合物将定义为训练,验证,和测试的正样品。人为制造负样品,方法是每个蛋白随机组合一个小分子,但是保证组合蛋白小分子不是存在于原有的复合物中。假设是随机的蛋白小分子大概率不会相互作用。最终用于训练、验证和测试的正样品负样品总数是35,402。
为了训练更可靠的模型,数据被分成了各自独立的训练集、验证集和测试集。训练集用于产生模型参数,验证集用于优化可调参数 (hyper-parameters),测试集用来检验模型的可靠性,正负样品数量一致,以保证训练数据平衡。
表1. PDBbind数据分成独立的训练集、验证机和测试集,各自数量分配如下。
总数 | 正样本 | 负样本 | |
训练集 | 23000 | 11500 | 11500 |
验证集 | 6200 | 1435 | 4765 |
测试集 | 6202 | 1436 | 4766 |
1.2. IVS2vec运用实例数据准备
本发明所提供的方法中,将用于进行反向靶点搜索的系统称为 IVS2Vec,将用做正向小分子筛选的系统称为VS2Vec。其中,IVS2vec系统是个二分类器,将潜在靶点分为两组:潜在靶点和非潜在靶点。
进一步的,实施中使用了来源于DUD.E,ADReCS-Targ和Therapeutic TargetsDatabase(TTD)数据对IVS2vec系统在不同情况下的表现进行了测试。
DUD.E是一个旨在提高测试蛋白小分子模型的开源数据库,包含了 22,886活性小分子和102个它们对应的靶点.平均每个蛋白包含有224活性小分子.另外它也提供了大量针对这些蛋白的人造(decoy)小分子(总数大于100万).另外也提供了一些蛋白靶点的实验已知的非结合小分子,这次研究中选取了3个最重要靶点:JAK2,EGFR and CDK2来验证IVS2vec。表格2列出了它们每个靶点对应的活性小分子,以及非活性小分子数目。模型训练中,将活性小分子用作正样品,非活性小分子当作负样品。
表2:测试中靶点JAK2,EGFR和CDK2各自对应的活性和非活性小分子数量。
活性小分子 | 非活性小分子 | |
JAK2 | 153 | 6590 |
EGFR | 832 | 35442 |
CDK2 | 798 | 28328 |
ADReCS-target提供了已知副作用相关靶点的信息,其中,有1710个蛋白副作用的信息。使用IVS2vec来预测小分子可能结合的副作用相关靶点,从而预测药物副作用。基于ADReCS-target提供的信息,收集了318蛋白结构,用来预测1个草药成分小分子(quercetin)的作用。
治疗靶点数据库(TTD)提供了一系列疾病治疗相关靶点,这个数据库包含了3101靶点信息,基于这些信息,获取了1514蛋白结构,并以此构建了治疗靶点结构库,使用IVS2vec系统对quercetin与靶点库中靶点结合进行了类天然结合判别预测,通过预测值找出潜在治疗靶点。
1.3结合口袋提取
结合口袋与小分子转化成了600维度的向量表示。这里设计了两套获取蛋白结合口袋的方案。方案一,如图5a所示,对于有小分子蛋白结构的复合物,口袋定义为距离小分子一纳米以内的蛋白质氨基酸.然后所有的氨基酸用Mol2vec转化成向量。PDBbinddatabase和DUD.E中的口袋就是按方案一定义。方案2中,如图5b所示,ADReCS-Target和TTD中蛋白,很多没有已知蛋白小分子结构,统一用Fpocket件提取,这个软件可以提取潜在口袋,并进行打分。分数最高的最有可能是活性口袋。方案2 中将分数最高的fpocket定义成口袋,然后口袋氨基酸用Mol2vec转化成为向量。
1.4机器学习及深度学习方法
本研究中,分类模型主要要来选取能与靶点高度结合的候选分子。为了获取鲁棒的预测模型,选用了五种机器学习/深度学习模型来预测蛋白- 小分子结合。这些方法是:支持向量机(SVM)、随机森林(random forest)、 XGBoost、卷积神经网络(ConvolutionalNeural Network)、密集全连接神经网络(Dense Fully Connected Neural Network)。SVM和RF是用python scikit-learn kit工具构建。采用的随机森林有1500颗树,用信息熵函数来衡量分叉质量。支持向量机的核是径向基函数,惩罚系数为1.0,核系数为1/特征数量。XGBoost采用了梯度增强树(gradient boost tree),损失函数为二元逻辑损失(binarylogistic loss),树的最大深度为100。
结合图4a所示,在具体实施例中,本发明所提供的密集全连接神经网络含有多个全连接层,较佳的,设置有10层全连接层,蛋白向量和小分子向量输入所述密集全连接神经网络组建的预测模型,得到输出的预测结果,该预测结构为0和1之间的数值。进一步的,如图4b所示,每一层都将其之前的所有层的输入连接成一个新的向量,作为其输入,这种方法一定程度上使得预测结果更为稳定和准确,解决了梯度消失的问题,最后一层输出一个节点,输出值由sigmoid函数归一到了0和1之间,作为最后的预测结果,除此之外的每一层都输出100个节点,采用的激活函数是relu(线性整流函数,Rectified Linear Unit)。
1.5表现评估
本发明所述的方法中,使用了多个评估指标来评价和对比不同预测模型的表现,包括准确率、Area Under receiver operating characteristic Curve(AUC)、MatthewsCorrelation Coefficient(MCC)、特异性 (Specificity)和敏感性(Sensitivity)。
敏感度(Sensitivity)表示在阳性样本中,预测为出阳性的几率(检测出确实结合的能力)。特异性(Specificity)在负样品样本中,检测出阴性的几率(检测出确实不结合的能力)。MCC能综合评估模型表现,避免对正负存在偏差。AUC对模型的评估相较于准确率在样本不均衡时更为稳定。
其中,
1.6 IVS2vec流程
IVS2vec是基于word2vec技术,应用于虚拟筛选。Mol2vec利用 Word2vec原理用来将化学结构转化成向量。由于PDBbind database包含全面的蛋白-小分子结合结构数据,这个数据库用来构建IVS2vec预测模型的训练集、验证集和测试集。其中小分子和蛋白口袋通过Mol2vec分别被转化成为300维度向量,然后小分子向量和蛋白口袋向量结合成为600维度的向量表示蛋白小分子结合特征。因为口袋部分氨基酸与结合相关度最高,因为只有蛋白活性口袋而不是整个蛋白转化为向量,这样可以去除不必要噪音。通过本方法,将来源于PDBbind数据库中的14,371蛋白质小分子复合物转化成了600维度的向量表示,作为训练的正样品。另外,21031个负样品转化成了600维度向量表示。
2.1对PDBbind数据库的预测
本发明所公开的方法中PDBbind数据库分成了3部分:训练集,验证集和测试集,训练集用于构建预测模型:验证集用于算法的经验参数调节;测试集用于验证最终模型的表现,基于这个训练集,对多种方法:SVM, RandomForest,Xgboost,CNN and DFCNN,分别进行了分类模型的构造。
在验证集和测试集中的小分子蛋白相互作用的预测,是基于对训练集的学习得到。小分子和蛋白口袋结合信息使用600维度向量表示,基于这个输入信息,预测模型需要自动判断小分子蛋白的相互关系,从而得出准确预测。
以AUC为表现指标,深度学习算法DFCNN(AUC:0.9106)明显优于其他算法,另一种深度学习算法普通CNN,表现与机器学习方法XGB和RF 接近,如表3所示。
表3,五种机器学习方法预测结果。
准确度 | AUC | MCC | 敏感度 | 特异性 | |
SVM | 0.7681 | 0.6729 | 0.2497 | 0.2897 | 0.9123 |
RandomForest | 0.7261 | 0.8444 | 0.4361 | 0.8085 | 0.7012 |
xgboost | 0.7569 | 0.8601 | 0.4809 | 0.8175 | 0.7386 |
CNN | 0.7817 | 0.8642 | 0.5181 | 0.8231 | 0.7692 |
DFCNN | 0.7954 | 0.9106 | 0.566 | 0.883 | 0.769 |
他们测试集上AUC值分别是0.8642,0.8601和0.8444.SVM的表现最差,AUC值为0.6729,另外,表3中提供了更多统计指标来衡量这五种机器学习方法的表现,准确度上看,表现也与AUC值一致,然而MCC(0.2497),敏感度(0.2897)和特异性的值(0.9123)反应出SVM明显偏向于将数据预测成负样品,传统的SVM方法似乎不太适合运用于大规模数据的模型构造,除了SVM,其他算法没有出现明显的预测偏好,需要注意的是,深度学习算法包括CNN和DFCNN相对传统机器学习方法具有一定优势。基于大数据集的深度模型可以比传统机器学习表现更为优异,而且省去了特征提取的繁琐步骤。本研究中,CNN和DFCNN模型在测试集上的MCC指标(MCC: 0.5660)(MCC:0.5181)超过了0.500,并且他们的准确度大于0.7800,因为DFCNN的优异预测能力,最终决定用它作为IVS2vec预测模型的内核,另外发现DFCNN在敏感度(真阳性)的预测上优于其他模型(敏感度:0.8830)。高敏感度预测在大规模药物筛选过程中意义重大。
基于以上结果,我相信IVS2vec能在反向靶点筛选上表现优异。另外,它具有极快预测速度。平均来说,机器算法(NVIDA Titan V 12GB HBM2) 预测一个蛋白-小分子相互作用只需要花费0.00024s的时间。甚至使用普通机器都能表现进行完成大规模反向筛选任务。基于结合方法的反向筛选几乎不可能达到类似速度。
这套方法适用于前期药物开发过程中研究小分子潜在靶点。
2.2 DUD.E案例测试结果
DUD.E数据库包含102蛋白靶点以及2,886与靶点结合的小分子,这些活性小分子都经过了实验验证,适合用于模型预测。从DUD.E数据库中随机选择JAK2,EGFR和CDK2用以验证。
JAK2是一个non-receptor tyrosine kinase,属于janus kinase家族,在JAK2基因上的突变多种疾病相关(polycythemia vera,essentialthrombocythemiamyelofibrosis and other myeloproliferative disorders),在DUD.E数据库JAK2包含有153活性小分子和6590decoys 小分子。
EGFR是一个跨膜蛋白受体,在癌症治疗中起着重要作用,目前有多个针对EGFR的上市药物例如:erlotinib,gefitinib,icotinib。抑制EGRF 结合口袋能够防止癌症生长,对于EGFR,DUD.E有832已知的活性小分子,和35442decoys小分子。
CDK2与细胞分裂相关激酶,主要在细胞分裂的G1-S时期起关键作用。抑制CDK2的化合物能够降低肿瘤细胞的繁殖速度,DUD.E有798已知的活性小分子作为测试正样品和28328decoys小分子作为测试负样品.
在具体实施例时,较佳的,将每一对蛋白-小分子对都转化成为600维度的向量表示,作为输入项,因此对于DUD.E中的3个例子,数据集中的每个小分子都需要与其对应的靶点形成600维度的向量:JAK2、EGFR或者 CDK2。预测结果展示在表4。
表4. IVS2vec对于来着DUD.E数据库3个结果的预测情况。
准确度 | AUC | MCC | 敏感度 | 特异性 | |
EGFR | 0.5368 | 0.7320 | 0.1110 | 0.8410 | 0.5300 |
JAK2 | 0.6724 | 0.8268 | 0.1640 | 0.8560 | 0.6680 |
CDK2 | 0.6925 | 0.7635 | 0.1330 | 0.6870 | 0.6930 |
如在表格4中所示,IVS2vec能够对正样品给出准确的预测。正样品中的数据都是实验验证可以结合的蛋白小分子,因此敏感度的结果反应出 IVS2ves能够有效预测针对某个蛋白的潜在靶点。另外,看到3个例子中AUC值比较理想。然而,值得注意的是MCC相对较差,主要原因是负样品数据远远大于正样品数据。平均下来负样品数据是正样品数据的50倍。这些decoys小分子是人为制造的,并且没有经过实验验证。因此不可避免会有一些假阳性结果。对于这些假阳性结果,相信如果进一步测试有可能有一些其实是可以结合的小分子。
2.3药物治疗靶点库(TTD)测试结果
TTD整合了大量治疗靶点相关信息,本发明实施例中,选择使用治疗靶点信息来评估IVS2vec表现,草药成分小分子Quercetin被用来测试 IVS2vec搜寻蛋白靶点的能力。表5显示了Quercetin的预测靶点结果。
表5列出了vina和IVS2vec的预测分数。Vina分数来自于autodock vina对接软件,分数负值越大,也有可能可以结合。AutoDock vina的对接结果用来与IVS2vec对比,IVS2vec分数是DFCNN model的输出,DFCNN model的输出层使用sigmoid激活函数将值输出为0到1范围,一般情况下,将0.5定义为阀值。在之前对PDBbind database and DUD.Edatabase 分类任务中,如果IVS2vec的返回值高于0.5,那么被测试的蛋白-化合物将归为正样品,这里假定IVS2vec分数高于0.98的蛋白为潜在靶点,以这个标准,Quercetin 7个已知靶点,另外9个蛋白与Quercetin的功能相关,例如,Quercetin能够下调CCR5表达。虽然没有直接报道Quercetin和 CCR5可以结合,推测CCR5和Quercetin的结合,诱发了下游反馈机制,导致CCR5自身表达下降。因此,认为Quercetin功能相关的蛋白可以做进一步实验测试,另外CRP和TNF具有相对差的vina分数(CRP:-7.5and TNF:-6.4),这两个已知靶点如果用结合分数进行判断,很容易被当作无作用而丢失.从这个角度来看,IVS2vec在某些情况下,预测小分子的潜在靶点方面具有更大优势.
2.4.副作用相关靶点预测结果
不良副作用反应在药物安全上影响重大.副作用大部分是由脱靶导致的.虽然药物脱靶靶点对药物疗效影响重大,但是脱靶信息对药物设计有重要意义.小分子涉及的综合生物通路决定其药效.能够帮助药理学家药物组合,有利于药物研究者药物重运用.本实施例中,运用来自于 ADReCS-Target数据库的靶点来评价IVS2vec预测副作用相关靶点的能力。
ADReCS-Targe记录了大量蛋白和及其副作用相关信息(方法部分)。一共318ADR-related靶点被选取用来搜寻脱靶靶点,Quercetin的预测结果显示在表6。
表格6 Quercetin小分子在ADReCS-targets数据库中发现的潜在副作用靶点.这些潜在靶点用IVS2vec分数排序,并且只保留了分数大于 0.99的预测结果。
预测结果显示在表6(只保留有IVS2vec的预测值高于0.98的结果) 另外,副作用靶点被报道表达量会被Quercetin影响,这些也可能是结合蛋白以后反馈条件,导致的表达量改变,因此可以优先实验进一步研究是否能结合。
本发明所提供的方法将mol2vec运用到了蛋白小分子相互作用上,用合并的小分子向量,蛋白质活性口袋向量作为深度学习的输入,蛋白口袋以及小分子关键物理化学信息被保留到了合并的向量中。通过大数据的学习,模型能不断优化神经网络各层权重,最终重要特征将被识别,从而使输出的预测值接近于标签,即真实值。不同于其他方法,提取了相互作用直接相关的活性口袋部分表示蛋白,这样有利于去除非相关信息,减少噪音,进而提高准确性。另外,本方法专门设计了适合学习向量的神经全连接Densenet网络模型DFCNN,全连接层神经网络相对CNN模型容易保留更全的信息,这对于向量学习至关重要,另外使用了Densenet中的密集跨层连接,使得梯度消失问题大大减少,加强特征传播,有利于特征重复使用,参数量减少,能够用更深的神经网络模型,学习到数据更加复杂和抽象的特征及规律。
实施例2
本发明提供的第二实施例为一种靶点蛋白质与小分子结合预测系统,如图6所示,包括:
数据获取模块610,用于获取待结合蛋白质口袋和待查询小分子的物理化学特征数据;其功能如步骤S1所述。
向量化模块620,用于将所述待结合蛋白质口袋和待查询小分子的物理化学特征数据分别转化为口袋向量和小分子向量;其功能如步骤S2所述。
预测处理模块630,用于将所述口袋向量和小分子向量作为输入预先设置的基于深度神经网络的预测模型,得到结合概率的预测结果,其功能如步骤S3所述。
具体的,所述系统还包括:
模型训练模块,用于获取蛋白-小分子复合物结构数据,并将所述蛋白 -小分子复合物结构数据作为正样本集,以及为每个蛋白随机组合一个所述蛋白-小分子复合物结构中不含有的小分子作为负样本集,对所述预测模型进行训练,并结合输出结果,对预测模型进行参数调整。
较佳的,所述预测模型为基于密集全连接神经网络构建的预测模型,其输出层的激活函数为线性整流函数。
在运用方面,本发明所提供的系统为内核运用于小分子大规模虚拟筛选,以及反向靶点搜寻。示例数据的准备方式具有创新,通过向量保留了蛋白小分子作用的关键信息,但是又不依赖于蛋白小分子复合物构象,为高速准确预测奠定了基础。
本发明提供了一种靶点蛋白质与小分子结合预测方法及系统,通过获取待结合蛋白质口袋和待查询小分子的物理化学特征数据;将所述待结合蛋白质口袋和待查询小分子的物理化学特征数据分别转化为口袋向量和小分子向量;将所述口袋向量和小分子向量作为输入预先设置的基于深度神经网络的预测模型,得到结合概率的预测结果。本发明所提供的方法及系统,提取了相互作用直接相关的活性口袋部分表示蛋白,有利于去除非相关信息,减少噪音,进而提高准确性。另外,设计了适合学习向量的神经全连接层网络模型更容易保留更全的信息,通过向量保留了蛋白小分子作用的关键信息,但是又不依赖于蛋白小分子复合物构象,为高速准确预测奠定了基础。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。
Claims (10)
1.一种靶点蛋白质与小分子结合预测方法,其特征在于,包括:
获取待结合蛋白质口袋和待查询小分子的物理化学特征数据;
将所述待结合蛋白质口袋和待查询小分子的物理化学特征数据分别转化为口袋向量和小分子向量;
将所述口袋向量和小分子向量作为输入预先设置的基于深度神经网络的预测模型,得到结合概率的预测结果。
2.根据权利要求1所述的靶点蛋白质与小分子结合预测方法,其特征在于,所述方法还包括:
获取蛋白-小分子复合物结构数据,并将所述蛋白-小分子复合物结构数据作为正样本集,以及为每个蛋白随机组合一个所述蛋白-小分子复合物结构中不含有的小分子作为负样本集,对所述预测模型进行训练,并结合输出结果,对预测模型进行参数调整。
3.根据权利要求2所述的靶点蛋白质与小分子结合预测方法,其特征在于,所述对所述预测模型进行训练的步骤还包括:
将所述正样本集和所述负样本集的数据分成训练集、验证集和测试集;
使用所述训练集对预测模型进行训练得到预测模型的参数;
使用所述验证集对所述预测模型进行验证得到优化后的模型参数;
使用测试集对所述预测模型进行测试,得到预测模型的输出结果与真实结果之间的误差值。
4.根据权利要求1-3任一项所述的靶点蛋白质与小分子结合预测方法,其特征在于,所述预测模型为基于密集全连接神经网络构建的预测模型,其输出层的激活函数为线性整流函数。
5.根据权利要求1所述的靶点蛋白质与小分子结合预测方法,其特征在于,所述将所述口袋向量和小分子向量作为输入预先设置的基于深度神经网络的预测模型,得到结合概率的预测结果的步骤包括:
根据预测输出的结合概率值对所述结合蛋白进行概率值排名,以及根据所述概率值排列名次得到小分子最佳结合靶点蛋白。
6.根据权利要求2所述的靶点蛋白质与小分子结合预测方法,其特征在于,所述获取蛋白-小分子复合物结构数据的步骤包括:
提取蛋白-小分子复合物结构中距离小分子一纳米以内的蛋白质氨基酸作为蛋白质口袋,或者利用Fpocket软件提取未知蛋白-小分子复合物结构中潜在的蛋白质口袋并进行打分,并将打分高于预设值的活性口袋作为蛋白质口袋。
7.根据权利要求6所述的靶点蛋白质与小分子结合预测方法,其特征在于,获取蛋白-小分子复合物结构数据的步骤还包括:
将所述蛋白质口袋和小分子的物理化学特征数据分别转化为口袋向量和小分子向量;组成向量化后的蛋白-小分子复合物数据库。
8.一种靶点蛋白质与小分子结合预测系统,其特征在于,包括:
数据获取模块,用于获取待结合蛋白质口袋和待查询小分子的物理化学特征数据;
向量化模块,用于将所述待结合蛋白质口袋和待查询小分子的物理化学特征数据分别转化为口袋向量和小分子向量;
预测处理模块,用于将所述口袋向量和小分子向量作为输入预先设置的基于深度神经网络的预测模型,得到结合概率的预测结果。
9.根据权利要求8所述的靶点蛋白质与小分子结合预测系统,其特征在于,所述系统还包括:
模型训练模块,用于获取蛋白-小分子复合物结构数据,并将所述蛋白-小分子复合物结构数据作为正样本集,以及为每个蛋白随机组合一个所述蛋白-小分子复合物结构中不含有的小分子作为负样本集,对所述预测模型进行训练,并结合输出结果,对预测模型进行参数调整。
10.根据权利要求8所述的靶点蛋白质与小分子结合预测系统,其特征在于,所述预测模型为基于密集全连接神经网络构建的预测模型,其输出层的激活函数为线性整流函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910117693.5A CN109887541A (zh) | 2019-02-15 | 2019-02-15 | 一种靶点蛋白质与小分子结合预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910117693.5A CN109887541A (zh) | 2019-02-15 | 2019-02-15 | 一种靶点蛋白质与小分子结合预测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109887541A true CN109887541A (zh) | 2019-06-14 |
Family
ID=66928290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910117693.5A Pending CN109887541A (zh) | 2019-02-15 | 2019-02-15 | 一种靶点蛋白质与小分子结合预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109887541A (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110428864A (zh) * | 2019-07-17 | 2019-11-08 | 大连大学 | 用于构建蛋白质和小分子的亲和力预测模型的方法 |
CN110544506A (zh) * | 2019-08-27 | 2019-12-06 | 上海源兹生物科技有限公司 | 基于蛋白互作网络的靶点PPIs可药性预测方法及装置 |
CN110689919A (zh) * | 2019-08-13 | 2020-01-14 | 复旦大学 | 一种基于结构和等级分类的药物蛋白结合率预测方法及系统 |
CN110689965A (zh) * | 2019-10-10 | 2020-01-14 | 电子科技大学 | 一种基于深度学习的药物靶点亲和力预测方法 |
CN110706756A (zh) * | 2019-09-03 | 2020-01-17 | 兰州大学 | 一种基于人工智能进行靶向受体的3d药物设计方法 |
CN110910964A (zh) * | 2019-11-08 | 2020-03-24 | 深圳先进技术研究院 | 一种分子间的结合活性预测方法及装置 |
CN111243668A (zh) * | 2020-04-09 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 分子结合位点检测方法、装置、电子设备及存储介质 |
CN111435608A (zh) * | 2019-09-05 | 2020-07-21 | 中国海洋大学 | 一种基于深度学习的蛋白质药物结合位点预测方法 |
CN111627493A (zh) * | 2020-05-29 | 2020-09-04 | 北京晶派科技有限公司 | 一种激酶抑制剂的选择性预测方法和计算设备 |
CN111710375A (zh) * | 2020-05-13 | 2020-09-25 | 中国科学院计算机网络信息中心 | 一种分子性质预测方法及系统 |
CN112052915A (zh) * | 2020-09-29 | 2020-12-08 | 中国银行股份有限公司 | 一种数据训练方法、装置、设备及存储介质 |
CN112086145A (zh) * | 2020-09-02 | 2020-12-15 | 腾讯科技(深圳)有限公司 | 一种化合物活性预测方法、装置、电子设备和存储介质 |
CN112185458A (zh) * | 2020-10-23 | 2021-01-05 | 深圳晶泰科技有限公司 | 基于卷积神经网络预测蛋白和配体分子结合自由能的方法 |
CN112289370A (zh) * | 2020-12-28 | 2021-01-29 | 武汉金开瑞生物工程有限公司 | 一种基于多任务时域卷积神经网络的蛋白质结构预测方法及装置 |
CN112331273A (zh) * | 2020-10-28 | 2021-02-05 | 星药科技(北京)有限公司 | 一种基于多维度信息的药物小分子-蛋白靶点反应预测方法 |
CN112420124A (zh) * | 2021-01-19 | 2021-02-26 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、计算机设备和存储介质 |
CN112435720A (zh) * | 2020-12-04 | 2021-03-02 | 上海蠡图信息科技有限公司 | 一种基于自注意力机制与多药物特征组合的预测方法 |
CN112966702A (zh) * | 2019-12-12 | 2021-06-15 | 深圳先进技术研究院 | 蛋白质-配体复合物的分类方法及分类装置 |
CN113035270A (zh) * | 2019-12-24 | 2021-06-25 | 邵阳学院 | 一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法 |
CN116072242A (zh) * | 2023-02-01 | 2023-05-05 | 杭州碳硅智慧科技发展有限公司 | 复合物数据预测模型的训练方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663214A (zh) * | 2012-05-09 | 2012-09-12 | 四川大学 | 一种集成药物靶标预测系统的构建和预测方法 |
US20180101641A1 (en) * | 2015-03-23 | 2018-04-12 | New York University | Systems and methods of fragment-centric topographical mapping (fctm) to target protein-protein interactions |
CN108090836A (zh) * | 2018-01-30 | 2018-05-29 | 南京信息工程大学 | 基于加权密集连接卷积神经网络深度学习的股票投资方法 |
US20180341754A1 (en) * | 2017-05-19 | 2018-11-29 | Accutar Biotechnology Inc. | Computational method for classifying and predicting ligand docking conformations |
-
2019
- 2019-02-15 CN CN201910117693.5A patent/CN109887541A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663214A (zh) * | 2012-05-09 | 2012-09-12 | 四川大学 | 一种集成药物靶标预测系统的构建和预测方法 |
US20180101641A1 (en) * | 2015-03-23 | 2018-04-12 | New York University | Systems and methods of fragment-centric topographical mapping (fctm) to target protein-protein interactions |
US20180341754A1 (en) * | 2017-05-19 | 2018-11-29 | Accutar Biotechnology Inc. | Computational method for classifying and predicting ligand docking conformations |
CN108090836A (zh) * | 2018-01-30 | 2018-05-29 | 南京信息工程大学 | 基于加权密集连接卷积神经网络深度学习的股票投资方法 |
Non-Patent Citations (3)
Title |
---|
CAIHUA WANG ET AL.: "Pairwise input neural network for target-ligand interaction prediction", 《2014 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE (BIBM)》 * |
CAIHUA WANG ET AL.: "Pairwise input neural network for target-ligand interaction prediction", 《2014 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE (BIBM)》, 15 January 2015 (2015-01-15), pages 67 - 70 * |
CAIHUA WANG ET AL.: "Pairwise input neural network for target-ligand interaction prediction", 《2014 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE》, pages 67 - 70 * |
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110428864A (zh) * | 2019-07-17 | 2019-11-08 | 大连大学 | 用于构建蛋白质和小分子的亲和力预测模型的方法 |
CN110689919A (zh) * | 2019-08-13 | 2020-01-14 | 复旦大学 | 一种基于结构和等级分类的药物蛋白结合率预测方法及系统 |
CN110544506A (zh) * | 2019-08-27 | 2019-12-06 | 上海源兹生物科技有限公司 | 基于蛋白互作网络的靶点PPIs可药性预测方法及装置 |
CN110544506B (zh) * | 2019-08-27 | 2022-02-11 | 上海源兹生物科技有限公司 | 基于蛋白互作网络的靶点PPIs可药性预测方法及装置 |
CN110706756A (zh) * | 2019-09-03 | 2020-01-17 | 兰州大学 | 一种基于人工智能进行靶向受体的3d药物设计方法 |
CN110706756B (zh) * | 2019-09-03 | 2023-06-27 | 兰州大学 | 一种基于人工智能进行靶向受体的3d药物设计方法 |
CN111435608B (zh) * | 2019-09-05 | 2024-02-06 | 中国海洋大学 | 一种基于深度学习的蛋白质药物结合位点预测方法 |
CN111435608A (zh) * | 2019-09-05 | 2020-07-21 | 中国海洋大学 | 一种基于深度学习的蛋白质药物结合位点预测方法 |
CN110689965A (zh) * | 2019-10-10 | 2020-01-14 | 电子科技大学 | 一种基于深度学习的药物靶点亲和力预测方法 |
CN110689965B (zh) * | 2019-10-10 | 2023-03-24 | 电子科技大学 | 一种基于深度学习的药物靶点亲和力预测方法 |
CN110910964A (zh) * | 2019-11-08 | 2020-03-24 | 深圳先进技术研究院 | 一种分子间的结合活性预测方法及装置 |
WO2021089008A1 (zh) * | 2019-11-08 | 2021-05-14 | 深圳先进技术研究院 | 一种分子间的结合活性预测方法及装置 |
CN112966702A (zh) * | 2019-12-12 | 2021-06-15 | 深圳先进技术研究院 | 蛋白质-配体复合物的分类方法及分类装置 |
CN113035270B (zh) * | 2019-12-24 | 2022-07-19 | 邵阳学院 | 一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法 |
CN113035270A (zh) * | 2019-12-24 | 2021-06-25 | 邵阳学院 | 一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法 |
JP7246813B2 (ja) | 2020-04-09 | 2023-03-28 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 分子結合部位検出方法、装置、電子機器及びコンピュータプログラム |
CN111243668A (zh) * | 2020-04-09 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 分子结合位点检测方法、装置、电子设备及存储介质 |
JP2022532009A (ja) * | 2020-04-09 | 2022-07-13 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 分子結合部位検出方法、装置、電子機器及びコンピュータプログラム |
CN111710375B (zh) * | 2020-05-13 | 2023-07-04 | 中国科学院计算机网络信息中心 | 一种分子性质预测方法及系统 |
CN111710375A (zh) * | 2020-05-13 | 2020-09-25 | 中国科学院计算机网络信息中心 | 一种分子性质预测方法及系统 |
CN111627493A (zh) * | 2020-05-29 | 2020-09-04 | 北京晶派科技有限公司 | 一种激酶抑制剂的选择性预测方法和计算设备 |
CN112086145B (zh) * | 2020-09-02 | 2024-04-16 | 腾讯科技(深圳)有限公司 | 一种化合物活性预测方法、装置、电子设备和存储介质 |
CN112086145A (zh) * | 2020-09-02 | 2020-12-15 | 腾讯科技(深圳)有限公司 | 一种化合物活性预测方法、装置、电子设备和存储介质 |
CN112052915B (zh) * | 2020-09-29 | 2024-02-13 | 中国银行股份有限公司 | 一种数据训练方法、装置、设备及存储介质 |
CN112052915A (zh) * | 2020-09-29 | 2020-12-08 | 中国银行股份有限公司 | 一种数据训练方法、装置、设备及存储介质 |
CN112185458B (zh) * | 2020-10-23 | 2024-04-26 | 深圳晶泰科技有限公司 | 基于卷积神经网络预测蛋白和配体分子结合自由能的方法 |
CN112185458A (zh) * | 2020-10-23 | 2021-01-05 | 深圳晶泰科技有限公司 | 基于卷积神经网络预测蛋白和配体分子结合自由能的方法 |
CN112331273A (zh) * | 2020-10-28 | 2021-02-05 | 星药科技(北京)有限公司 | 一种基于多维度信息的药物小分子-蛋白靶点反应预测方法 |
CN112331273B (zh) * | 2020-10-28 | 2023-12-15 | 星药科技(北京)有限公司 | 一种基于多维度信息的药物小分子-蛋白靶点反应预测方法 |
CN112435720A (zh) * | 2020-12-04 | 2021-03-02 | 上海蠡图信息科技有限公司 | 一种基于自注意力机制与多药物特征组合的预测方法 |
CN112289370B (zh) * | 2020-12-28 | 2021-03-23 | 武汉金开瑞生物工程有限公司 | 一种蛋白质结构预测方法及装置 |
CN112289370A (zh) * | 2020-12-28 | 2021-01-29 | 武汉金开瑞生物工程有限公司 | 一种基于多任务时域卷积神经网络的蛋白质结构预测方法及装置 |
CN112420124A (zh) * | 2021-01-19 | 2021-02-26 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、计算机设备和存储介质 |
CN112420124B (zh) * | 2021-01-19 | 2021-04-13 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、计算机设备和存储介质 |
CN116072242A (zh) * | 2023-02-01 | 2023-05-05 | 杭州碳硅智慧科技发展有限公司 | 复合物数据预测模型的训练方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109887541A (zh) | 一种靶点蛋白质与小分子结合预测方法及系统 | |
Xu et al. | A risk prediction model for type 2 diabetes based on weighted feature selection of random forest and xgboost ensemble classifier | |
CN102663214B (zh) | 一种集成药物靶标预测系统的构建和预测方法 | |
Liu et al. | Inferring gene regulatory networks using the improved Markov blanket discovery algorithm | |
CN107609326A (zh) | 癌症精准医疗中的药物敏感性预测方法 | |
Sikandar et al. | Decision tree based approaches for detecting protein complex in protein protein interaction network (PPI) via link and sequence analysis | |
Zhang et al. | IVS2vec: a tool of inverse virtual screening based on word2vec and deep learning techniques | |
CN108647489A (zh) | 一种筛选疾病药物靶标和靶标组合的方法及系统 | |
Mandal et al. | Cancer classification using neural network | |
WO2024011837A1 (zh) | 药物筛选方法及系统 | |
Tang et al. | Enhancing drug repositioning through local interactive learning with bilinear attention networks | |
Zhao et al. | Motif-aware miRNA-disease association prediction via hierarchical attention network | |
CN112927765B (zh) | 一种药物重定位的方法 | |
Ni et al. | A feature and algorithm selection method for improving the prediction of protein structural class | |
CN114822716A (zh) | 目标药物筛选方法、装置、电子设备及存储介质 | |
CN112652355A (zh) | 一种基于深度森林和pu学习的药物-靶标关系预测方法 | |
CN108085382A (zh) | 通过多个miRNA的表达量确定雷公藤多苷片治疗类风湿性关节炎的个体有效性的系统 | |
CN119479782A (zh) | 一种靶向ythdf1蛋白的小分子抑制剂的虚拟筛选方法 | |
CN118800344A (zh) | 一种基于机器学习的kras抑制剂活性预测方法 | |
Bertsimas et al. | An analytics approach to designing clinical trials for cancer | |
CN118571327A (zh) | 一种ptm功能性位点预测模型建立方法及ptm功能性位点预测方法 | |
CN111383708B (zh) | 基于化学基因组学的小分子靶标预测算法及其应用 | |
Sammeth et al. | Global multiple‐sequence alignment with repeats | |
Talachian et al. | A Model for Diagnosis of Thyroid Disease Based on Rules Extraction Using Tree Algorithms and Feature Selection. | |
CN109801673B (zh) | 基于增强相互作用网络的关键蛋白质识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190614 |
|
RJ01 | Rejection of invention patent application after publication |