CN113611360A - 一种基于深度学习和XGBoost的蛋白质-蛋白质相互作用位点预测方法 - Google Patents
一种基于深度学习和XGBoost的蛋白质-蛋白质相互作用位点预测方法 Download PDFInfo
- Publication number
- CN113611360A CN113611360A CN202110921719.9A CN202110921719A CN113611360A CN 113611360 A CN113611360 A CN 113611360A CN 202110921719 A CN202110921719 A CN 202110921719A CN 113611360 A CN113611360 A CN 113611360A
- Authority
- CN
- China
- Prior art keywords
- protein
- xgboost
- model
- deep learning
- predicting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000004850 protein–protein interaction Effects 0.000 title claims abstract description 27
- 238000013135 deep learning Methods 0.000 title claims abstract description 18
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 41
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 25
- 238000013136 deep learning model Methods 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000002790 cross-validation Methods 0.000 claims abstract description 6
- 230000003993 interaction Effects 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 16
- 238000004422 calculation algorithm Methods 0.000 description 8
- 230000004913 activation Effects 0.000 description 6
- 230000006916 protein interaction Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- ABEXEQSGABRUHS-UHFFFAOYSA-N 16-methylheptadecyl 16-methylheptadecanoate Chemical compound CC(C)CCCCCCCCCCCCCCCOC(=O)CCCCCCCCCCCCCCC(C)C ABEXEQSGABRUHS-UHFFFAOYSA-N 0.000 description 1
- 108091026890 Coding region Proteins 0.000 description 1
- 241000764238 Isis Species 0.000 description 1
- 101710100170 Unknown protein Proteins 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003915 cell function Effects 0.000 description 1
- 230000007248 cellular mechanism Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000005417 image-selected in vivo spectroscopy Methods 0.000 description 1
- 238000012739 integrated shape imaging system Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Biotechnology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Genetics & Genomics (AREA)
- Analytical Chemistry (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于深度学习和XGBoost的蛋白质‑蛋白质相互作用位点预测方法,包括步骤:根据蛋白质的序列信息、进化信息和结构信息编码得到蛋白质的局部特征和全局特征,对深度学习模型DeepPPISP超参数进行微调,微调后训练DeepPPISP模型训练后的模型充当特征提取器,将特征提取器的最后第三层的输出视为蛋白质的预处理特征向量。XGBoost模型作为最终的分类器,将特征提取器得到的预处理特征向量的训练数据输入到XGBoost模型进行10折交叉验证来对XGBoost模型的超参数进行微调,再对微调后的XGBoost模型进行训练,最后利用训练后XGBoost模型来预测未知蛋白质的作用位点。本发明充分利用蛋白质的序列信息、进化信息和结构信息编码后的局部特征和全局特征来提升预测蛋白质‑蛋白质相互作用位点的预测效果。
Description
技术领域
本发明涉及计算生物信息学领域,特别是涉及一种基于深度学习和XGBoost的蛋白质-蛋白质相互作用位点预测方法。
背景技术
蛋白质是机体内的一种重要的物质,蛋白质对机体的细胞功能、疾病、代谢等具有重要的调控作用,机体内蛋白质的功能主要通过蛋白质和蛋白质的相互作用来实现,对蛋白质相互作用的认识有助于理解细胞机制,蛋白质-蛋白质相互作用通常是根据蛋白质-蛋白质相互作用的位点来确定,由于现有技术的限制,蛋白质-蛋白质相互作用位点的检测仍然是一项具有挑战性的任务。
通过生物实验研究方法来鉴定蛋白质相互作用位点存在费用相对比较昂贵和时间周期长等缺点,自从Jones和Thornton在1997年开创了预测和分析蛋白质-蛋白质相互作用位点的计算方法以来,目前计算的方法来预测蛋白质-蛋白质相互作用位点的方法超过30种;2005年Bradford等人提出了一种基于支持向量机的方法,取得了不错的预测结果;2007年Li等人提出了一种基于条件随机场(CRFs)的蛋白质相互作用位点预测的方法,实验结果表明,基于条件随机场(CRFs)的方法是一种强大而稳健的蛋白质相互作用位点预测方法,可用于指导生物学家对蛋白质进行特异性实验;2010年Murakami等人提出了一种使用朴素贝叶斯分类器来训练序列特征,并且使用核密度估计方法估计每个序列特征的条件概率,通过留一法交差验证取得了30.6%的预测准确率;2014年Singh等人提出了一种神经网络的方法,在蛋白质-蛋白质相互作用的研究和应用取得了良好的性能。
这些机器学习的计算方法根据特征来源划分可以分为三类:基于序列的特征、基于结构特征和序列特征和结构特征结合的特征,基于序列的特征计算成本较低,但不包含蛋白质的结构信息;由于大多数蛋白质的结构都是未知的,蛋白质的结构信息一般都是通过计算预测的方法获得的,因此含有噪声,有时会严重影响后续的识别;在预测蛋白质相互作用位点时,相互作用位点的邻域信息对确定蛋白质相互作用位点具有重要意义;Zeng等人证明了包含全局特征可以提高预测蛋白-蛋白相互作用位点的性能;但是在将蛋白质序列的结构信息编码的过程中,会丢失一些信息,此外局部和全局特征也包含噪声;基于深度学习的编码器很好地解决了上述两个问题,受此启发,本发明提出了一种基于深度学习和极限梯度提升树(XGBoost)相结合的方法(称为DeepPPISP-XGB),先使用Zeng等人提出的DeepPPISP深度学习模型和数据集来预训练,再使用XGBoost模型来预测未知的蛋白质-蛋白质相互作用位点。
发明内容
本发明主要从深度学习的算法方面作为出发点,针对现有方法预测效果存在的不足,提供了一个基于深度学习和XGBoost相结合的蛋白质-蛋白质相互作用位点预测的方法,使用深度学习模型作为氨基酸序列的特征提取器,因为深度学习算法有强大的能力来表示对象,我们使用训练数据集来训练DeepPPISP模型,使用DeepPPISP中最后第三层的输出作为输入表示;通过验证数据集对XGBoost模型进行了优化和训练;对于未知的蛋白序列,使用训练过的XGBoost模型预测蛋白质-蛋白质相互作用位点。
为了解决上述问题,本发明提出了一个基于深度学习和XGBoost的蛋白质-蛋白质相互作用位点预测的方法,具体步骤如下。
步骤1:利用蛋白质的序列信息、进化信息和结构信息编码得到局部特征和全局特征。
步骤2:将深度学习模型DeepPPISP视为特征提取器,将特征提取器最后第三层输出的蛋白质预处理特征向量,从而得到所有样本的最终特征。
步骤3:构建极限梯度提升树(XGBoost)模型并利用步骤2得到的训练数据通过10折交叉验证对模型的超参数进行微调,再对微调后的XGBoost模型进行训练。
步骤4:利用训练后的XGBoost模型预测未知蛋白质的相互作用位点。
步骤1,利用蛋白质的序列信息、进化信息和结构信息编码得到局部特征和全局特征。
其中局部特征采用滑动窗口大小为2*m+1的窗口的方法进行提取,滑动窗口的原理如附图2所示,即一个窗口内包含2*m+1个残基,中心位置残基的上下游各有m个残基来表示其领域信息,若窗口内残基数目少于2*m+1,则在首端或末端用相应数量的0填充;残基的局部特征编码为(2*m+1)×49维的特征向量。
其中全局特征需要统一每条蛋白质序列中残基的个数为n个,若残基数少于n,则用相应数量的0填充;若多余n,则剪除掉;残基的全局特征编码为n*49维的特征向量。
进一步地,在全局特征和局部特征进行特征编码中,每个残基将由20维One-hot编码的序列特征向量、20维的位置特异性打分矩阵(PSSM)特征向量以及9维二级结构特征(DSSP)的特征向量表示。
步骤2,将深度学习模型DeepPPISP视为特征提取器,将特征提取器最后第三层输出的蛋白质预处理特征向量。
首先构建深度学习模型DeepPPISP;构建的模型主要有1个嵌入层,3个不同尺度的卷积层,2个完全连接层,2个RELU层,2个扁平化层和1个输出层:
(1)嵌入层由一层全连接层构成,其目的是为了将稀疏向量转为密集向量;
(2)卷积神经网络是深度学习领域局部特征提取的常用方法,核心思想是捕捉局部特征,本发明采用文本卷积神经网络,对于一个n*k的文本序列,n代表文本序列的长度,k代表embedding的维度,每个卷积核的宽度和embedding的维度保持一致,整个卷积核只在矩阵的长度维度上进行滑动;通过卷积核卷积之后得到的特征图,从而获得不同抽象层次的语义信息;
(3)RELU层引入的非线性因素,缓解了过拟合的发生,在输入大于0时才激活一个节点,当输入小于0时,输出为零,当输入大于0时,输出等于输入,假设Zi,j,k表示第K个通道第(i,j)位置激活函数的输入,那么输出表示为:ai,j,k=max(Zi,j,k,0);
(4)扁平化层常用在从卷积层到全连接层的过渡,其作用是能够把多维的输入转为一维的输出;
(5)全连接层中的每个神经元都连接到前一层中的神经元,其作用是将训练得到的特征进行整合,降低特征的维度,方便分类模型进行分类;
进一步地利用微调后深度学习模型DeepPPISP再进行训练,将训练后的深度学习模型DeepPPISP视为特征提取器,并且得到特征提取器最后第三层的蛋白质预处理特征向量。
步骤3,构建极限梯度提升树(XGBoost)模型并利用步骤2得到的训练数据预处理特征向量通过10折交叉验证对模型的超参数进行微调,再对微调后的XGBoost模型进行训练。
首先构建XGBoost模型;XGBoost是一种基于决策树的梯度提升算法,而且采用并
行和分布式的计算机制,能够有效的提升算法的运算速度,广泛运用于机器学习、数据挖掘
和文本分类等领域;学习的目标函数可以表示为, 表
示损失函数,通常定义为,表示为正则化项。
进一步地将特征提取器最后第三层的预处理特征向量的训练数据输入到XGBoost模型进行10倍交叉验证,即将训练数据分成10份,每次取其中的9份用于训练,剩余的1份用于验证,重复十次并计算平均性能,以此来优化模型的超参数。
利用训练数据对优化后的XGBoost模型进行训练。
步骤4,利用训练后的模型预测未知蛋白质的相互作用位点。
需要说明的是。
针对不同的蛋白质数据集,深度学习的模型参数的设定往往有很大不同,需要通过实验确定最佳的参数。
本发明的有益结果如下。
(1)本发明将局部特征和全局特征相结合,同时利用蛋白质的序列信息、进化信息和结构信息编码,使得深度模型能够获取更多有用的信息进行学习。
(2)本发明利用深度学习模型DeepPPISP作为特征提取器,有效的去除了数据的噪声信息,提高了预测的效果。
本发明的构思为:利用蛋白质的序列信息、进化信息和结构信息编码得到蛋白质的局部特征和全局特征,再输入到深度学习模型DeepPPISP进行特征提取,因为深度学习算法有强大的能力来表示对象,我们使用训练数据集来训练DeepPPISP模型,并使用验证集来微调超参数,使用DeepPPISP中最后第三层的输出作为输入表示,通过训练数据对XGBoost模型进行优化和训练,能够快速有效的预测未知的蛋白质-蛋白质相互作用位点。
附图说明
图1是本发明方法的流程图。
图2是滑动窗口的方法提取局部特征的邻域信息图。
图3是深度学习模型DeepPPISP网络结构图。
图4是XGBoost模型与其他分类模型比较的ROC曲线图。
图5是XGBoost模型与其他分类模型比较的PR曲线图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步说明。
本专利实现流程如附图1所示,主要分别三个阶段:训练深度学习模型提取特征、训练XGBoost模型和预测蛋白质-蛋白质相互作用位点,步骤如下。
将深度学习模型DeepPPISP视为特征提取器,将特征提取器最后第三层输出的蛋白质预处理特征向量,DeepPPISP模型的结构如附图3所示。
其中嵌入层由一个全连接层构成,其目的是为了将稀疏向量转为密集向量,从而充分的利用one-hot编码的蛋白质序列信息,输入和输出维度为(20*500,20*500),使用RELU函数作为激活函数。
其中多尺度文本卷积神经网络采用三个不同尺度二维卷积并行构建,卷积核大小分别为(13,49)、(15,49)和(17,49),滤波器都为228个,都使用RELU函数作为激活函数,池化层采用核的大小为(500,1)最大池化。
其中全连接层一共两层,上一个全连接层的输出作为下一个全连接层的输入,两个全连接层的输入和输出维度依次为(1027,1024)和(1024,256),都使用RELU函数作为激活函数。
其中输出层包括一个全连接层和激活函数,全连接层的输入和输出维度为(256,1),使用sigmoid函数作为激活函数。
特征提取器最后第三层输出的蛋白质预处理特征向量,即得到训练后深度模型的全连接层上一层的输出。
将特征提取器得到的训练数据平均分成10份,其中9份用于训练,剩余的1份用于测试,重复10次进行交叉验证,通过验证最终设置XGBoost模型迭代器数量为393、学习率为0.07和树的最大深度为5,此时能够达到最优的验证结果,再利用训练数据对优化后XGBoost模型进行训练。
最终将训练后的XGBoost模型用于预测未知蛋白质的相互作用位点。
本实施例的数据集是将分辨率小于3.0 Å和同源性小于25%的Dset_186、Dset_72、Dset_164三个基准数据集中没有定义蛋白质二级结构(DSSP)文件的两个蛋白质序列去除,得到的420条分为两个部分83.3%的用作训练样本,16.7%用作测试样本,再将训练样本的90%用于训练,剩余的10%用于验证,最终得到300条蛋白质序列(包含65869个残基)用于训练,50条蛋白质序列(包含7319个残基)用于验证,70条蛋白质序列(包含11791个残基)用于测试。
和其他方法一样,使用准确率(ACC)、精确度(Precision)、召回率(Recall)、F1值、接受者操作曲线下的面积(AUROC)、精确度-召回率曲线下的面积(AUPRC)和马修斯相关系数(MCC)作为本发明的评价指标,评价指标越高表示预测的效果越好。
下面通过三组实验验证本实施例的优势。
(1)与其他先进算法比较。
为了验证本实施例的算法优势,将本实施例的方法得到的结果分别与DeepPPISP、SCRIBER、IntPred等八种先进的算法比较,实验结果如下表所示(最好的结果以粗体突出显示),本实施例的方法得到的Recall、F1值、AUROC、AUPRC和MCC得分是所有方法里面最高,虽然ACC得分不如ISIS方法,但在其他方面的性能明显低于本实施例的方法;
(2)验证XGBoost模型的预测性能。
为了进一步验证DeepPPISP-XGB的预测性能,我们使用了决策树、随机森林(RF)、支持向量机(SVM)和极限随机数(ERT)四种传统机器学习分类算法进行蛋白质-蛋白质相互作用位点预测,这些模型在Scikit-Learn包(v0.24.2)中实现,该包在计算生物学中得到了广泛应用;如附图4和附图5所示,XGBoost模型的ROC和PRC独立测试的结果分别为0.681和0.339,显著优于其他4个分类模型。
(3)验证全局特征的重要性。
在去除全局特征后,我们训练了本实施例的模型。模型的参数与含有全局特征训练时的参数完全相同。下表显示了利用局部特征预测蛋白质-蛋白质相互作用位点的性能;除了ACC外结合了全局特征独立测试的评价指标均高于只有局部特征的结果,实验结果表明加入全局特征有利于改善蛋白质-蛋白质相互作用位点的预测;
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (6)
1.一种基于深度学习和XGBoost的蛋白质-蛋白质相互作用位点预测方法,步骤如下:
步骤1:利用蛋白质的序列信息、进化信息和结构信息编码得到局部特征和全局特征;
步骤2:将深度学习模型DeepPPISP视为特征提取器,将特征提取器最后第三层输出的蛋白质预处理特征向量,从而得到所有样本的最终特征;
步骤3:构建极限梯度提升树(XGBoost)模型并利用步骤2得到的训练数据通过10折交叉验证对模型的超参数进行微调,再对微调后的XGBoost模型进行训练;
步骤4:利用训练后的XGBoost模型预测未知蛋白质的相互作用位点。
2.根据权利要求项1所述一种基于深度学习和XGBoost的蛋白质-蛋白质相互作用位点预测方法,其特征在于:在所述的步骤1中包括以下内容:
局部特征采用滑动窗口大小为2*m+1的窗口的方法进行提取,滑动窗口的原理如附图2所示,一个窗口内包含2*m+1个残基,中心位置残基的上下游各有m个残基来表示其领域信息,若窗口内残基数目少于2*m+1,则在首端或末端用相应数量的0填充;残基的局部特征编码为(2*m+1)×49维的特征向量;全局特征需要统一每条蛋白质序列中残基的个数为n个,若残基数少于n,则用相应数量的0填充;若多余n,则剪除掉;残基的全局特征编码为n*49维的特征向量。
3.根据权利要求项2所述一种基于深度学习和XGBoost的蛋白质-蛋白质相互作用位点预测方法,其特征在于:在全局特征和局部特征进行特征编码中,每个残基将由20维One-hot编码的序列特征向量、20维的位置特异性打分矩阵(PSSM)特征向量以及9维二级结构特征(DSSP)的特征向量表示。
4.根据权利要求项1所述一种基于深度学习和XGBoost的蛋白质-蛋白质相互作用位点预测方法,其特征在于:在所述的步骤2中包括以下内容:
4.1 构建深度学习模型DeepPPISP,构建的模型主要有1个嵌入层,3个不同尺度的卷积层,2个完全连接层,2个RELU层,2个扁平化层和1个输出层:
4.2 微调深度学习模型DeepPPISP再进行训练,将训练后的深度学习模型DeepPPISP视为特征提取器,并且得到特征提取器最后第三层的蛋白质预处理特征向量。
5.根据权利要求项1所述一种基于深度学习和XGBoost的蛋白质-蛋白质相互作用位点预测方法,其特征在于:在所述的步骤3中包括以下内容:构建XGBoost模型,再利用训练数据对优化后的XGBoost模型进行训练。
6.根据权利要求项1所述一种基于深度学习和XGBoost的蛋白质-蛋白质相互作用位点预测方法,其特征在于:在所述的步骤4中包括以下内容:利用训练后的XGBoost模型预测未知蛋白质的相互作用位点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110921719.9A CN113611360A (zh) | 2021-08-11 | 2021-08-11 | 一种基于深度学习和XGBoost的蛋白质-蛋白质相互作用位点预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110921719.9A CN113611360A (zh) | 2021-08-11 | 2021-08-11 | 一种基于深度学习和XGBoost的蛋白质-蛋白质相互作用位点预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113611360A true CN113611360A (zh) | 2021-11-05 |
Family
ID=78340358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110921719.9A Pending CN113611360A (zh) | 2021-08-11 | 2021-08-11 | 一种基于深度学习和XGBoost的蛋白质-蛋白质相互作用位点预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113611360A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114420198A (zh) * | 2022-01-04 | 2022-04-29 | 香港中文大学(深圳) | 蛋白质-蛋白质结合亲和力预测方法、计算机和存储介质 |
CN114724630A (zh) * | 2022-04-18 | 2022-07-08 | 厦门大学 | 用于预测蛋白质翻译后修饰位点的深度学习方法 |
CN115295072A (zh) * | 2022-10-10 | 2022-11-04 | 山东大学 | 基于图神经网络的蛋白质相互作用位点预测方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110265085A (zh) * | 2019-07-29 | 2019-09-20 | 安徽工业大学 | 一种蛋白质相互作用位点识别方法 |
US20210151121A1 (en) * | 2019-11-18 | 2021-05-20 | Tata Consultancy Services Limited | Method and system for predicting protein-protein interaction between host and pathogen |
-
2021
- 2021-08-11 CN CN202110921719.9A patent/CN113611360A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110265085A (zh) * | 2019-07-29 | 2019-09-20 | 安徽工业大学 | 一种蛋白质相互作用位点识别方法 |
US20210151121A1 (en) * | 2019-11-18 | 2021-05-20 | Tata Consultancy Services Limited | Method and system for predicting protein-protein interaction between host and pathogen |
Non-Patent Citations (1)
Title |
---|
M.ZENG ET AL.: "Protein-protein interaction site prediction through combining local and global features with deep neural networks", 《BIOINFORMATICS》, vol. 36, no. 4, pages 1114 - 1126 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114420198A (zh) * | 2022-01-04 | 2022-04-29 | 香港中文大学(深圳) | 蛋白质-蛋白质结合亲和力预测方法、计算机和存储介质 |
CN114724630A (zh) * | 2022-04-18 | 2022-07-08 | 厦门大学 | 用于预测蛋白质翻译后修饰位点的深度学习方法 |
CN114724630B (zh) * | 2022-04-18 | 2024-05-31 | 厦门大学 | 用于预测蛋白质翻译后修饰位点的深度学习方法 |
CN115295072A (zh) * | 2022-10-10 | 2022-11-04 | 山东大学 | 基于图神经网络的蛋白质相互作用位点预测方法及系统 |
CN115295072B (zh) * | 2022-10-10 | 2023-01-24 | 山东大学 | 基于图神经网络的蛋白质相互作用位点预测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111667884B (zh) | 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型 | |
US11562585B2 (en) | Systems and methods for image preprocessing | |
CN110096968B (zh) | 一种基于深度模型优化的超高速静态手势识别方法 | |
CN113611360A (zh) | 一种基于深度学习和XGBoost的蛋白质-蛋白质相互作用位点预测方法 | |
CN112418329B (zh) | 一种基于多尺度纹理特征融合宫颈oct图像分类方法及系统 | |
CN112767997A (zh) | 一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法 | |
CN111798921A (zh) | 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置 | |
CN113033249A (zh) | 文字识别方法、装置、终端及其计算机存储介质 | |
CN110633725A (zh) | 训练分类模型的方法和装置以及分类方法和装置 | |
CN104966105A (zh) | 一种鲁棒机器错误检索方法与系统 | |
CN110827923B (zh) | 基于卷积神经网络的精液蛋白质的预测方法 | |
CN111354338B (zh) | 基于pso卷积核优化稀疏迁移学习的帕金森语音识别系统 | |
CN111400494B (zh) | 一种基于GCN-Attention的情感分析方法 | |
CN113538359B (zh) | 一种用于指静脉图像分割的系统以及方法 | |
CN113779295A (zh) | 一种异常细胞图像特征的检索方法、装置、设备和介质 | |
CN116805534A (zh) | 基于弱监督学习的疾病分型方法、系统、介质及设备 | |
CN113724779B (zh) | 基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备 | |
CN115810398A (zh) | 一种基于多特征融合的tf-dna结合识别方法 | |
CN115713505A (zh) | 基于聚焦交叉熵的多元特征融合的脑膜瘤分级方法及系统 | |
CN104778479B (zh) | 一种基于稀疏编码提取子的图像分类方法及系统 | |
CN113971984A (zh) | 分类模型构建方法及装置、电子设备、存储介质 | |
CN118430819B (zh) | 一种脑卒中预测复发方法及系统 | |
CN118016158B (zh) | 一种基于迁移学习的tcr-表位结合预测方法及系统 | |
Lu | Convolutional Neural Network (CNN) for COVID-19 Lung CT Scans Classification Detection | |
CN118097286A (zh) | 一种基于svm和双线性卷积神经网络的肺部ct影像衰老评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20211105 |
|
WD01 | Invention patent application deemed withdrawn after publication |