CN111435608B - 一种基于深度学习的蛋白质药物结合位点预测方法 - Google Patents
一种基于深度学习的蛋白质药物结合位点预测方法 Download PDFInfo
- Publication number
- CN111435608B CN111435608B CN201910839108.2A CN201910839108A CN111435608B CN 111435608 B CN111435608 B CN 111435608B CN 201910839108 A CN201910839108 A CN 201910839108A CN 111435608 B CN111435608 B CN 111435608B
- Authority
- CN
- China
- Prior art keywords
- protein
- grid
- proteins
- training
- binding site
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 149
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 147
- 230000027455 binding Effects 0.000 title claims abstract description 74
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000013135 deep learning Methods 0.000 title claims abstract description 17
- 239000003814 drug Substances 0.000 title claims abstract description 17
- 229940079593 drug Drugs 0.000 title claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 37
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 238000012360 testing method Methods 0.000 claims abstract description 14
- 238000013528 artificial neural network Methods 0.000 claims abstract description 10
- 238000012795 verification Methods 0.000 claims abstract description 4
- 238000005070 sampling Methods 0.000 claims description 28
- 150000001413 amino acids Chemical class 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000007621 cluster analysis Methods 0.000 claims description 5
- 230000002209 hydrophobic effect Effects 0.000 claims description 4
- 125000000539 amino acid group Chemical group 0.000 claims description 3
- 238000012106 screening analysis Methods 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 abstract description 10
- 239000000523 sample Substances 0.000 description 31
- 125000004429 atom Chemical group 0.000 description 12
- 238000012216 screening Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000005411 Van der Waals force Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000003032 molecular docking Methods 0.000 description 6
- 125000004432 carbon atom Chemical group C* 0.000 description 5
- 239000003446 ligand Substances 0.000 description 5
- 238000009510 drug design Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 150000003384 small molecules Chemical class 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000003041 virtual screening Methods 0.000 description 3
- DHMQDGOQFOQNFH-UHFFFAOYSA-N Glycine Chemical compound NCC(O)=O DHMQDGOQFOQNFH-UHFFFAOYSA-N 0.000 description 2
- 108091005461 Nucleic proteins Proteins 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 150000002611 lead compounds Chemical class 0.000 description 2
- 230000009149 molecular binding Effects 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- -1 small molecule compounds Chemical class 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 241000894006 Bacteria Species 0.000 description 1
- 239000004471 Glycine Substances 0.000 description 1
- COLNVLDHVKWLRT-QMMMGPOBSA-N L-phenylalanine Chemical compound OC(=O)[C@@H](N)CC1=CC=CC=C1 COLNVLDHVKWLRT-QMMMGPOBSA-N 0.000 description 1
- 206010034133 Pathogen resistance Diseases 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 238000007373 indentation Methods 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- COLNVLDHVKWLRT-UHFFFAOYSA-N phenylalanine Natural products OC(=O)C(N)CC1=CC=CC=C1 COLNVLDHVKWLRT-UHFFFAOYSA-N 0.000 description 1
- 238000005381 potential energy Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Abstract
本发明提出了一种基于深度学习的蛋白质药物结合位点预测方法,包括如下步骤:步骤1、选取蛋白数据库中的若干蛋白质形成训练集,若干蛋白质形成验证集,若干蛋白质形成测试集,其中训练集用于训练模型的训练;步骤2、训练后的训练模型对蛋白质数据库进行特征提取和标签提取,获取数据,完成神经网络的训练,得到预测模型;步骤3、将新的蛋白质输入预测模型中,进行结合位点位置的定位和预测,借此,本发明具有综合考虑结合位点形成因素,基于深度学习进行结合位点的定位和预测的优点。
Description
技术领域
本发明属于结合位点预测方法领域,特别涉及一种基于深度学习的蛋白质药物结合位点预测方法。
背景技术
目前,随着新型疾病的出现以及病毒、细菌等病原体耐药性的提高,药物的研发面临着巨大的压力。药物的研发需要经历先导化合物的发现、临床试验、上市以及追踪等多个过程,需要耗费大量的人力、物力、财力以及时间。计算机辅助药物设计的出现一定程度上解决了部分问题,计算机辅助药物设计通过使用计算机模拟药物的代谢、筛选等过程,为药物研发提供帮助。在计算机辅助药物设计中,虚拟筛选是关键的步骤,其通过筛选能与靶点蛋白相结合的小分子化合物,为先导化合物的发现奠定基础。而结合位点的预测,是通过发现和预测靶点蛋白上与小分子结合的口袋,在虚拟筛选中具有重要的指导作用。
结合位点(Binding Sites),也称为口袋(Pockets),是蛋白质表面的空腔,是能与小分子化合物结合的作用位点。结合位点的定位,能为分子对接时的结合构象提供重要的指导作用,减少对接构象空间搜索区间,从而减少对接和虚拟筛选的时间。
结合位点的筛选,主要通过影响结合位点形成的几个关键因素来预测。蛋白质的几何结构是形成结合位点的一个重要因素,其表面的空腔往往是结合位点形成的绝佳区域。通过查找蛋白质的空腔或者是凹陷部位来寻找蛋白质的结合位点称为基于几何结构的方法(geometry-based method)。LIGSITECSC和LIGSITE通过将蛋白质离散为的网格,继而寻找那些符合特殊几何结构(protein-solvent-protein和surfacesolvent-surface)的网格点。而surfnet则是通过在蛋白质和小分子的原子对之间填充圆圈来发现所谓的表面缺口,也就是空腔。fpocket算法同样利用圆球,不同的是,其利用维诺划分算法过滤出在阈值范围内的球体,即那些蛋白质表面的空腔。bSiteFinder方法通过寻找与目标蛋白质三维结构相似并且已知结合位点的蛋白质作为模板,并对这些蛋白质的结合位点信息进行聚类等分析,以此得到目标蛋白质的结合位点。
非键相互作用(Non-bonded Interactions)也是影响结合位点形成的重要因素,比如范德华力、氢键等,这类方法也成为基于能量的方法。基于能量的方法大多采用基团探针来不断计算各个位置与蛋白质的能量值,进而通过找出那些潜在的能量特异点来探索结合位点。Q-SiteFinder方法用-CH3探针来计算蛋白质网格的非键相互作用,并采用聚类算法对最终的能量分布进行聚类,预测出潜在的口袋。
蛋白质的残基序列中包含了丰富的遗传信息,而残基序列也是决定蛋白质功能的关键因素。通过挖掘蛋白质残基序列中所蕴含的信息来寻找结合位点称为基于序列的方法。该类方法只对蛋白质的残基序列进行分析,寻找具有结合活性的残基,其往往需要借助序列分析中的方法或者工具来协助分析。OSML方法便是对蛋白质序列提取PSSM(positionspecific scoring matrix)并构建SVM模型,其创新之处在于其构建模型的数据是根据输入的不同动态改变,也就是其所谓的Query-Driven Dynamic。
随着机器学习尤其是深度学习在图形领域的广泛应用,其在药物设计领域也成为了研究的热点。比如DeepSite,该方法根据原子类型构建蛋白质三维结构的8通道特征作为输入,进行卷积神经网络的训练,最终预测口袋的位置。
但是,基于几何结构的方法通过寻找蛋白质表面的空腔来寻找结合位点,也就是该方法只考虑蛋白质的几何结构。但在分子对接过程中,不少对接属于柔性对接,也就是在对接过程中,蛋白质与小分子接触时才产生口袋。因此,对于基于几何结构的方法来说,很难寻找适应于柔性对接的口袋,因而存在着局限性。
基于能量的方法则通过不断放置探针位置,来寻找其与蛋白质的能量值。该方法有效克服了基于几何结构中的弊端,能探索到适应于柔性对接的口袋。但其也忽视了蛋白质的立体结构,同样存在着局限性。
基于序列的方法对蛋白质的残基序列进行分析。蛋白质的序列蕴含了丰富的遗传信息,而序列同样也一定程度上决定了蛋白质的功能。但其忽视了蛋白质的几何结构和非键相互作用等影响蛋白质结合位点的重要因素。
发明内容
本发明提出一种基于深度学习的蛋白质药物结合位点预测方法,能够综合考虑结合位点形成因素,基于深度学习进行结合位点的定位和预测。
本发明的技术方案是这样实现的:一种基于深度学习的蛋白质药物结合位点预测方法,包括如下步骤:
步骤1、选取蛋白数据库中的若干蛋白质形成训练集,若干蛋白质形成验证集,若干蛋白质形成测试集,其中训练集用于训练模型的训练;
步骤2、训练后的训练模型对蛋白质数据库进行特征提取和标签提取,获取数据,完成神经网络的训练,得到预测模型;
步骤3、将新的蛋白质输入预测模型中,进行结合位点位置的定位和预测。
作为一种优选的实施方式,步骤1中蛋白数据库包括sc-PDB和PDBBind,其中sc-PDB中的蛋白质按照3:1:1的比例随机抽取蛋白质分别形成训练集、验证集和测试集,PDBBind中的所有蛋白质作为测试集。
作为一种优选的实施方式,步骤2中特征提取采用网格的多通道特征提取,对每个蛋白质进行计算,得到每个蛋白质的多通道网格。
作为一种优选的实施方式,网格的多通道特征提取的步骤如下:
步骤1、构建蛋白质的包围盒,并将蛋白质离散成的网格;
步骤2、设置原子网格通道;
步骤3、设置氨基酸网格通道;
步骤4、设置疏水性网格通道;
步骤5、设置能量通道网格;
步骤6、通过对每个蛋白质进行上述5个对蛋白质包围盒网格的处理步骤之后,得到每个蛋白质的4通道蛋白质网格值。
作为一种优选的实施方式,标签提取的步骤如下:
步骤1、将蛋白质的4通道网格按照步长5埃米进行取样,得到取样块;
步骤2、设定每个取样块的标签,若取样块的中心点位于结合位点中心半径3埃米以内的范围内,则该取样块的标签设置为正样本,否则设置为负样本。
作为一种优选的实施方式,对单个蛋白质的负样本取样块按照其正样本取样块数量的2倍进行随机取样,最终使得每个蛋白质产生的取样块的正负样本比例为1:2。
作为一种优选的实施方式,将新的蛋白质输入预测模型后,首先进行对新的蛋白质进行取样,得到新的取样块,并对每个新的取样块进行结合位点概率预测,其次对新的取样块进行阈值筛选和聚类分析。
作为一种优选的实施方式,聚类分析包括对新的取样块进行聚类,在得到多个聚类类别之后,也就是多个结合位点之后,计算单个类别当中所有新的取样块的平均几何中心,将其视作该结合位点的最终中心。
作为一种优选的实施方式,阈值的设定值为0.5,聚类分析采用DBSCAN聚类算法。
采用了上述技术方案后,本发明的有益效果是:
1、能准确地预测结合位点的位置,由于采用了聚类分析,模型最终能预测和定位多个结合位点。
2、其综合考虑影响结合位点形成的因素,包括蛋白质的几何形状、氨基酸的疏水性以及分子间作用力等。
3、由于采用了神经网络构建模型,并且合理进行正负样本的划分,使得预测的结果的准确性得以保障。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的整体流程图;
图2为蛋白质包围盒的构建以及网格化示意图;
图3为原子通道网格示意图;
图4为能量通道网格示意图;
图5为取样块的示意图;
图6为神经网络架构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据图1至图6所示,一种基于深度学习的蛋白质药物结合位点预测方法,包括训练模型和预测模型,训练模型通过对已知的蛋白质数据库进行特征提取和标签提取,获取数据,完成神经网络的训练,得到预测用的模型,即预测模型,训练得到的模型对新的蛋白质进行相同的预处理后提取特征,进行结合位点位置的定位和预测。
蛋白质的数据库的选择将直接影响最终的预测效果。目前可用的蛋白质数据库包括PDB、sc-PDB、PDBBind等。其中,PDB数据库包含的种类最多,包括10多万条记录。但其数据条目错综复杂,甚至包括错误的数据。更为重要的是PDB数据库包含的物种千差万别,后期的筛选过程会非常复杂,因而作为药物预测的数据库并不合适。
sc-PDB是对PDB进行筛选之后得到的专门用于药物研究的数据库,并对蛋白质进行了预处理。sc-PDB包含蛋白质的结构文件、配体的结构文件以及结合位点的结构文件和位点信息等。其蛋白质、配体以及结合位点的结构文件都是采用mol2文件格式。该数据库对结合位点的描述非常详细,不仅包含结合位点的位置、三维结构文件和体积,还包含了位点的结合特性如极性表面积、疏水性以及B-Factor等。基于sc-PDB的种种优点,本发明采用该数据库作为训练模型时的数据库。
PDBBind同样是一个描述蛋白质和配体结合的数据库。该数据库包含的数据不光包含蛋白质与配体,还包含蛋白质与核酸、蛋白质与蛋白质等结合信息。PDBBind的蛋白质采用pdb格式,而配体采用sdf和mol2格式。由于PDBBind也是描述蛋白质小分子结合的数据库,因此在本发明中作为进一步的验证数据库。
数据库中蛋白质样本需要经过特征提取作为神经网络的输入。本发明采用基于网格的多通道特征提取,即对每个蛋白质进行计算,得到每个蛋白质的多通道网格,详情如下:
如图2所示,对于每个样本蛋白质,首先,构建蛋白质的包围盒,并将蛋白质离散成的网格。另外,为保证能有效识别表面的结合位点,在蛋白质外围添加/>的网格。每个网格的初始值都设为0。
其次,如图3所示,设置原子网格通道。原子是蛋白质最基础的表现形式,也是构成蛋白质几何结构的最小单元,是蛋白质结构的载体,影响着蛋白质结合位点的形成。该通道的设置中,在得到的离散网格后,依次遍历蛋白质的原子,以该原子为中心,将该原子范德华半径范围内覆盖的网格的值设为该原子的值。原子的取值按照原子类型的不同依次设为整数。若不同原子的半径内覆盖到同一网格,则将该网格的值设为这些原子的平均值。经过以上处理后得到该蛋白质在几何结构通道上的网格值。
第三,设置氨基酸网格通道。氨基酸是构成蛋白质序列的基本单元,是蛋白质发挥功能的重要影响因素,处于不同位置的氨基酸残基可能带有结合位点的结合活性。在该通道的处理中,依次遍历该蛋白质的氨基酸,以每个氨基酸的几何中心为中心,将该中心4埃米范围内覆盖的网格的值设为该氨基酸残基的值。氨基酸的取值同样按照类型不同设为整数,多个氨基酸覆盖的网格值取平均值。这里取4埃米的原因是氨基酸的平均长度为8埃米,因此取4埃米作为半径。
第四,设置疏水性网格通道。疏水性是指分子对水的亲和性,是与水排斥程度的衡量标准,该属性是影响结合位点形成的一个重要因素。该通道同样遍历该蛋白质的氨基酸,将氨基酸中心4埃米覆盖的网格进行值的设置。不同的是,这里设置的值不再是氨基酸的类型值,而是氨基酸的疏水性数值。氨基酸的疏水性参考表如下,该表是以最疏水的苯丙氨酸设置为100、中性甘氨酸设置为0作对比并归一化之后的疏水性数值。
氨基酸疏水性数值参考表(PH=7)
最后,如图4所示,设置能量通道网格。范德华力是分子间普遍存在的作用力,是分子结合的关键因素,因而该因素也是影响结合位点形成的重要因素之一。得到蛋白质的包围盒离散网格后,依次将探针C原子放置在网格的各个位置,计算其与整个蛋白质的范德华力作用力作为该网格的值。最后得到C原子与蛋白质作用的范德华力作用力能量分布图,依次将C原子放置于网格的每个位置,计算其与蛋白质的范德华力作为该网格的值。
通过对每个蛋白质进行以上5个对蛋白质包围盒网格的处理步骤之后,得到每个蛋白质的4通道蛋白质网格值,用于之后的训练。
在训练之前,需要确定神经网络的输入以及正负样本。首先,因为蛋白质的大小并不相同,结合位点位置也不相同,每个蛋白质产生的4通道网格同样是长宽高各不一样的。如图5所示,本发明将蛋白质的4通道网格按照步长5埃米进行取样,也就是说对上述形成的蛋白质四通道网格取相邻长宽高20的4×20×20×20=32000个网格的网格块作为样本,具体过程如图4所示。
在进行取样块的设定后,还需要设定每个取样块的标签。本发明首先确定结合位点的几何中心,若取样块的中心点位于结合位点中心半径3埃米以内的范围内,则将该取样块的标签设置为正样本,否则设置为负样本。当然,最终的正负样本会存在巨大的比例差。为确保正负样本足够均衡,对单个蛋白质的负样本取样块按照其正样本块数量的2倍进行随机取样,最终使得每个蛋白质产生的取样块的正负样本比例为1:2。
在确定好训练样本数量和标签之后,需要构建神经网络,本网络使用如图6所示。该神经网络模型的输出为每个取样块是结合位点的可能性,输出值在0-1之间。训练时正样本的标签值为1,负样本的标签值为0。
将sc-PDB中的蛋白质按照3:1:1的比例随机抽取蛋白质形成训练集、验证集和测试集。其中训练集用于训练模型的训练,验证集用于监测训练过程,选择何时停止训练模型。测试集用于最后验证模型效果。
在sc-PDB的测试集上完成测试后,为进一步确保模型的效果,还需要PDBbind上进一步验证模型效果,将PDBBind所有蛋白质设置成测试集,并进行测试。若该模型的测试成功率达到一定阈值,则该模型可以作为最终的预测模型。
训练之后得到的模型便可以进行预测。预测时,同样对新的未知蛋白质进行取样,对于每个新的取样块都输入到训练好的模型中,即预测模型进行结合位点概率预测,步长同样为5。最终经过预测模型的预测,便可以得到该蛋白质所有新的取样块属于结合位点的概率。为了确保最终得到的结合位点是合适的,同样还能确保找到多个位点,还需要对新的取样块进行阈值筛选和聚类分析。本发明将阈值设置为0.5,也就是当新的取样块的预测值大于0.5时,就确认其属于结合位点,反之不属于。由于阈值筛选过后的新的取样块的分布在蛋白质网格中的分布还是比较分散的,还需要对筛选得到的新的取样块进行聚类。这里采用DBSCAN聚类算法,对新的取样块的中心进行聚类。在得到多个聚类类别之后,也就是多个口袋之后,计算单个类别当中所有新的取样块的平均几何中心,将其视作该口袋的最终中心。经过上述的概率预测、阈值筛选以及聚类分析之后便得到多个结合位点的几何中心,这便是最终的预测结果。
本发明将已有的方法进行结合,提出一种能综合考虑各种影响结合位点形成因素的位点预测方法。一方面考虑了蛋白质的三维几何结构,另一方面,该发明将一些能量因素包括范德华力以及疏水性等考虑在内,充分结合发挥各方面的优势,避免各自的弊端,预测的位点的位置更加准确。
再者,本发明采用基于多通道网格的实现方式,网格的设置能充分将蛋白质原子进行映射。多通道的设置能将影响结合位点形成的各因素更加简单的表示成计算机中的形式。
最后,本发明采用基于深度学习的模型构建。深度学习能够拟合复杂的非线性映射,具有强大的表征能力,可以学习到更加丰富的特征。通过构建深度神经网络,将蛋白质的多通道网格作为输入进行训练,得到能够预测结合位点位置的智能预测模型。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于深度学习的蛋白质药物结合位点预测方法,其特征在于,包括如下步骤:
步骤1、选取蛋白数据库中的若干蛋白质形成训练集,若干蛋白质形成验证集,若干蛋白质形成测试集,其中训练集用于训练模型的训练;
步骤2、训练后的训练模型对蛋白质数据库进行特征提取和标签提取,获取数据,完成神经网络的训练,得到预测模型;
步骤3、将新的蛋白质输入预测模型中,进行结合位点位置的定位和预测;
所述步骤1中蛋白数据库包括sc-PDB和PDBBind,其中sc-PDB中的蛋白质按照3:1:1的比例随机抽取蛋白质分别形成训练集、验证集和测试集,PDBBind中的所有蛋白质作为测试集;
所述步骤2中特征提取采用网格的多通道特征提取,对每个蛋白质进行计算,得到每个蛋白质的多通道网格;
所述网格的多通道特征提取的步骤如下:
步骤1、构建蛋白质的包围盒,并将蛋白质离散成的网格,在蛋白质外围添加/>的网格,每个网格的初始值都设为0;
步骤2、设置原子网格通道;
步骤3、设置氨基酸网格通道,在该通道的处理中,依次遍历该蛋白质的氨基酸,以每个氨基酸的几何中心为中心,将该中心4埃米范围内覆盖的网格的值设为该氨基酸残基的值,氨基酸的取值同样按照类型不同设为整数,多个氨基酸覆盖的网格值取平均值;
步骤4、设置疏水性网格通道;
步骤5、设置能量通道网格;
步骤6、通过对每个蛋白质进行上述5个对蛋白质包围盒网格的处理步骤之后,得到每个蛋白质的4通道蛋白质网格值。
2.根据权利要求1所述的一种基于深度学习的蛋白质药物结合位点预测方法,其特征在于,所述标签提取的步骤如下:
步骤1、将蛋白质的4通道网格按照步长5埃米进行取样,得到取样块;
步骤2、设定每个取样块的标签,若取样块的中心点位于结合位点中心半径3埃米以内的范围内,则该取样块的标签设置为正样本,否则设置为负样本。
3.根据权利要求2所述的一种基于深度学习的蛋白质药物结合位点预测方法,其特征在于,对单个蛋白质的负样本取样块按照其正样本取样块数量的2倍进行随机取样,最终使得每个蛋白质产生的取样块的正负样本比例为1:2。
4.根据权利要求3所述的一种基于深度学习的蛋白质药物结合位点预测方法,其特征在于,所述将新的蛋白质输入预测模型后,首先进行对新的蛋白质进行取样,得到新的取样块,并对每个新的取样块进行结合位点概率预测,其次对新的取样块进行阈值筛选和聚类分析。
5.根据权利要求4所述的一种基于深度学习的蛋白质药物结合位点预测方法,其特征在于,所述聚类分析包括对新的取样块进行聚类,在得到多个聚类类别之后,也就是多个结合位点之后,计算单个类别当中所有新的取样块的平均几何中心,将其视作该结合位点的最终中心。
6.根据权利要求4所述的一种基于深度学习的蛋白质药物结合位点预测方法,其特征在于,所述阈值的设定值为0.5,聚类分析采用DBSCAN聚类算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910839108.2A CN111435608B (zh) | 2019-09-05 | 2019-09-05 | 一种基于深度学习的蛋白质药物结合位点预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910839108.2A CN111435608B (zh) | 2019-09-05 | 2019-09-05 | 一种基于深度学习的蛋白质药物结合位点预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111435608A CN111435608A (zh) | 2020-07-21 |
CN111435608B true CN111435608B (zh) | 2024-02-06 |
Family
ID=71581072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910839108.2A Active CN111435608B (zh) | 2019-09-05 | 2019-09-05 | 一种基于深度学习的蛋白质药物结合位点预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111435608B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112289371A (zh) * | 2020-09-23 | 2021-01-29 | 北京望石智慧科技有限公司 | 蛋白质与小分子样本生成及结合能、结合构象预测方法 |
CN112489722B (zh) * | 2020-11-27 | 2023-07-07 | 江苏理工学院 | 药物靶点结合能预测方法及装置 |
CN112820355B (zh) * | 2020-12-16 | 2024-03-22 | 浙江工业大学 | 一种基于蛋白质序列比对的分子虚拟筛选方法 |
CN112309497B (zh) * | 2020-12-28 | 2021-04-02 | 武汉金开瑞生物工程有限公司 | 一种基于Cycle-GAN的蛋白质结构预测方法及装置 |
CN112599186B (zh) * | 2020-12-30 | 2022-09-27 | 兰州大学 | 基于多深度学习模型共识的化合物靶蛋白绑定预测方法 |
CN113393911B (zh) * | 2021-06-23 | 2022-08-19 | 石家庄鲜虞数字生物科技有限公司 | 一种基于深度学习的配体化合物快速预筛选方法 |
CN113593634B (zh) * | 2021-08-06 | 2022-03-11 | 中国海洋大学 | 一种融合dna形状特征的转录因子结合位点预测方法 |
CN114841898B (zh) * | 2022-06-29 | 2022-09-23 | 华中科技大学 | 基于深度学习的冷冻电镜三维密度图后处理方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107111691A (zh) * | 2014-10-27 | 2017-08-29 | 阿卜杜拉国王科技大学 | 识别配体‑蛋白质结合位点的方法和系统 |
CN108763865A (zh) * | 2018-05-21 | 2018-11-06 | 成都信息工程大学 | 一种预测dna蛋白质结合位点的集成学习方法 |
CN109887541A (zh) * | 2019-02-15 | 2019-06-14 | 张海平 | 一种靶点蛋白质与小分子结合预测方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0011818D0 (en) * | 2000-05-16 | 2000-07-05 | Inpharmatica Ltd | Lead molecule generation |
-
2019
- 2019-09-05 CN CN201910839108.2A patent/CN111435608B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107111691A (zh) * | 2014-10-27 | 2017-08-29 | 阿卜杜拉国王科技大学 | 识别配体‑蛋白质结合位点的方法和系统 |
CN108763865A (zh) * | 2018-05-21 | 2018-11-06 | 成都信息工程大学 | 一种预测dna蛋白质结合位点的集成学习方法 |
CN109887541A (zh) * | 2019-02-15 | 2019-06-14 | 张海平 | 一种靶点蛋白质与小分子结合预测方法及系统 |
Non-Patent Citations (2)
Title |
---|
J. Jime´nez et al..《DeepSite: protein-binding site predictor using 3D-convolutional neural networks》.《Bioinformatics》.2017,第33卷(第19期),第3036-3042页. * |
龚新奇等.《用五维特征空间预测蛋白质结合位点界面氨基酸》.《北京工业大学学报》.2017,第43卷(第12期),第1837-1845页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111435608A (zh) | 2020-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111435608B (zh) | 一种基于深度学习的蛋白质药物结合位点预测方法 | |
Simon et al. | Using cross-validation to evaluate predictive accuracy of survival risk classifiers based on high-dimensional data | |
CN106021984A (zh) | 一种全外显子组测序数据分析系统 | |
CN104762402A (zh) | 超快速检测人类基因组单碱基突变和微插入缺失的方法 | |
CN102693452A (zh) | 基于半监督回归学习的多模型软测量方法 | |
CN110910950A (zh) | 一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法 | |
Jiang et al. | A novel protein descriptor for the prediction of drug binding sites | |
CN105117618A (zh) | 一种基于牵连犯罪原则和网络拓扑结构特征的药物-靶标相互作用识别方法 | |
Gao et al. | An integrated graph regularized non-negative matrix factorization model for gene co-expression network analysis | |
Dai et al. | Applications of new technologies and new methods in ZHENG differentiation | |
CN113223609A (zh) | 基于异质信息网络的药物靶标相互作用预测方法 | |
CN113178230A (zh) | 三维基因组Hi-C数据中TAD嵌套结构检测方法及系统 | |
CN106815320B (zh) | 基于拓展三维直方图的调研大数据可视化建模方法及系统 | |
CN112016032A (zh) | 基于热解参数图版式的烃源岩排烃效率计算方法及系统 | |
CN111429972A (zh) | 一种基于深度学习的蛋白质小分子对接打分方案 | |
Ultsch | Density estimation and visualization for data containing clusters of unknown structure | |
CN105243300A (zh) | 基于近似化的谱聚类算法预测癌症转移复发的方法 | |
CN110534153B (zh) | 基于深度学习的靶标预测系统及其方法 | |
Ghai et al. | Proximity measurement technique for gene expression data | |
CN112908413A (zh) | 一种基于abo基因的血型分型方法 | |
Gong et al. | A 3D chromosome structure reconstruction method with high resolution Hi-C data using nonlinear dimensionality reduction and divide-and-conquer strategy | |
Reddy et al. | Real-time data mining-based cancer disease classification using KEGG gene dataset | |
Cheng et al. | Ancestral population genomics with jocx, a coalescent hidden Markov model | |
CN113870950B (zh) | 一种稻瘟菌侵染水稻关键sRNA识别系统及识别方法 | |
CN117789817A (zh) | 癌症跨组织免疫细胞类型富集和表达图谱的分析系统及检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |