CN107463799B - 交互融合特征表示与选择性集成的dna结合蛋白识别方法 - Google Patents

交互融合特征表示与选择性集成的dna结合蛋白识别方法 Download PDF

Info

Publication number
CN107463799B
CN107463799B CN201710731309.1A CN201710731309A CN107463799B CN 107463799 B CN107463799 B CN 107463799B CN 201710731309 A CN201710731309 A CN 201710731309A CN 107463799 B CN107463799 B CN 107463799B
Authority
CN
China
Prior art keywords
sequence
matrix
classifier
information
equal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710731309.1A
Other languages
English (en)
Other versions
CN107463799A (zh
Inventor
游文杰
陈芳
甘胜进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Normal University
Original Assignee
Fujian Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Normal University filed Critical Fujian Normal University
Priority to CN201710731309.1A priority Critical patent/CN107463799B/zh
Publication of CN107463799A publication Critical patent/CN107463799A/zh
Application granted granted Critical
Publication of CN107463799B publication Critical patent/CN107463799B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及交互融合特征表示与选择性集成的DNA结合蛋白识别方法。相比于现有的方法,本发明的方法具有更加卓越的性能,这也间接表明本发明的交互融合特征表示能够生成携带有强判别信息的特征,同时选择性集成还能进一步提升整体学习器的泛化能力,最终能够保证对DNA结合蛋白的准确预测。

Description

交互融合特征表示与选择性集成的DNA结合蛋白识别方法
技术领域
本发明涉及生物学与信息学交叉领域,特别是涉及一种利用机器学习预测DNA结合蛋白的方法。
背景技术
DNA结合蛋白在各种细胞过程中发挥着极其重要的作用,在理解和解释蛋白质功能中,识别DNA结合蛋白是一个非常重要的任务。从蛋白质序列(一级结构)出发,利用机器学习方法对蛋白质的结构和功能进行预测,是目前生物信息学研究的热点问题,也是一种重要研究手段。
基于机器学习的DNA结合蛋白的预测方法有两大类:基于蛋白质结构的预测;基于蛋白质序列的预测。基于蛋白质结构预测DNA结合蛋白能得到较高的识别率,然而,由于没有足够的蛋白质结构信息,这类方法无法被广泛应用在高通量序列的诠释中。因此,目前的方法更多的是基于氨基酸序列的蛋白质功能预测。大量实验已经表明,蛋白质一级结构(氨基酸残基排列顺序)或多肽相似,其折叠后的空间构象与其功能也很相似,基于这个事实,利用蛋白质序列预测蛋白质功能,包含两个主要过程:1)提取蛋白质序列中包含的生物信息,把蛋白质序列转化为相应的特征向量;2)利用得到的特征向量,使用机器学习中的算法,进行模型训练并对未知序列做功能识别。
在已过的几十年间,基于蛋白质序列的有效特征表示方法,主要包括有:1)基于氨基酸组成的方法,这类方法考虑了相邻的且连续的氨基酸残基间的信息;2)基于伪氨基酸组成的方法,这类方法考虑了非相邻(不连续)氨基酸残基间的信息;以及3)基于蛋白质频率谱的方法,这类方法考虑了蛋白质的进化信息。基于氨基酸组成方法(AAC),使用序列的统计信息,如常用的k-mers方法,这类方法简单,但所生成特征维数较高(20k),存在维灾和过拟合问题。基于伪氨基酸组成方法,由Kuo-chen Chou提出并命名为PseAAC,它考虑了序列的局部顺序和全局顺序,能够较好的表达序列中的顺序与位置信息,该方法能将序列的位置信息映射到所生成特征向量中。基于蛋白质频率谱的方法,使用携带有进化信息的位置特异性得分矩阵(PSSM:Position Specific Scoring Matrix),该矩阵表达了与其比对序列相关的同源物信息。
研究表明进化信息、物化属性以及序列的结构与位置等信息,对DNA结合蛋白的识别均具有一定的作用。如果仅仅采用氨基酸组成信息或者蛋白质频率谱等单个信息的特征表示方法,所生成识别特征都显得过于单一。目前在相关文献中主流的做法是,考虑不同的属性(如不同的蛋白质物化属性)和信息(如进化信息与结构信息等),并对这些方法生成的特征向量进行组合,所生成的高维特征向量作为后继分类器的输入。我们把这类方法称为组合式融合特征表示(CFFR:Combined Fusion Feature Representation),它将氨基酸的物化属性、进化信息的频率谱以及序列信息(相邻和不相邻残基信息)进行组合,能够取得不错的预测性能。然而,这类方法把物化属性与进化信息等均视为彼此独立的特征进行组合,忽略了它们之间还应该存在着交互效应,并且利用这种交互效应能够更进一步提高DNA结合蛋白的预测性能。
发明内容
传统的特征表示把不同方法生成的特征,视为彼此独立的特征进行组合,忽略了这些特征之间还应该存在着交互效应。为了提高对DNA结合蛋白的预测能力,针对蛋白质序列数据,本发明提出交互融合的特征表示与选择性集成分类器:交互融合的特征表示,能够考虑物化属性与进化信息之间的交互效应,和非相邻残基间的位置信息,充分挖掘隐藏在蛋白质序列背后的潜在的生物信息,生成具有强判别能力的特征;选择性集成分类器,是通过对特征表示的参数进行扰动,生成不同的输入特征空间,并使用选择(或修剪)策略得到具有差异性的基分类器,投票集成得到具有强泛化能力的整体分类器。本发明能够显著提高对DNA结合蛋白的预测能力,同时本发明的特征表示也有利于从交互作用的视角去理解DNA结合蛋白在细胞中的功能与作用。
本发明所解决的技术问题是提供交互融合特征表示与选择性集成的DNA结合蛋白识别方法。相比于现有的方法,本发明方法具有更加卓越的性能,这也间接表明本发明的交互融合特征表示能够生成携带有强判别信息的特征,同时选择性集成还能进一步提升整体学习器的泛化能力,最终能够保证对DNA结合蛋白的准确预测。
附图说明
图1.DNA结合蛋白预测模型的框架图
图2.不同特征表示方法的性能指标(ACC,AUC,MCC,Sensitivity andSpecificity)比较(采用30次的10-fold交叉验证法).
具体实施方式
在机器学习实际应用中,通常认为“数据和特征决定了机器学习的上限,而模型和算法能够逼近这个上限”。因此,本发明同时从这两方面着手:1)对多种生物信息进行有效融合,生成具有强判别能力的特征;2)对多个分类器进行选择集成,生成具有强泛化能力的分类器。图1给出我们的预测模型框架,包括交互融合特征表示和选择性集成分类器。左边(虚线框)是交互融合特征表示,右边(虚线框)是选择性集成分类器。
1)交互融合特征表示
特征表示,是根据序列中的数学关系以及生物化学属性等指标,将由字符组成的序列,数值化成一个固定维数的特征向量。针对蛋白质序列数据,本发明先给出一种新的交互融合特征表示模型,该模型能够同时考虑不种物化属性和进化信息自身内部的相关性,以及物化属性与进化信息之间的交互效应。
进化信息的得分矩阵PSSM,即位置特异性得分矩阵(position-specific scoringmatrix),它是一个行数为L(L为序列长度)列数为20(20类标准氨基酸)的矩阵。蛋白质数据搜索程序PSI-BLAST,能够通过多次迭代寻找最优结果,对于寻找蛋白家族的新成员或者发现远亲物种的相似蛋白非常有效,使用它能够生成一个位置特异得分矩阵PSSM:
Figure BDA0001387175460000051
元素
Figure BDA0001387175460000052
表示蛋白质进化过程中蛋白质序列第i个位置(1≤i≤L)的氨基酸残基Ri突变为第j类(1≤j≤L)氨基酸的概率(对数似然得分),取值越大说明替换的可能性越大,该矩阵表达了序列的进化信息。
物化属性得分矩阵PCSM,本发明给出氨基酸的物化属性得分矩阵(physicochemical scoring matrix,)。在对DNA结合蛋白的识别过程中,我们假设不同氨基酸物化属性对预测结果将产生不同的贡献,因此,在特征表示过程中必须考虑合适的氨基酸物化属性。AAindex是一个包含多个氨基酸物理化学属性的氨基酸指数表,其中AAindex1部分的每一项表示氨基酸的某种物理化学属性量化后的数据,含有20个数值。对于第j种物化属性Q(j),任一条蛋白质序列S可表示为其中L是序列长度,(1≤i≤L)是序列中第i个氨基酸残基Ri的第j种物化属性指数。假设考虑有M种物化属性,则有氨基酸物化属性得分矩阵PCSM:
Figure BDA0001387175460000055
跳空距离为λ的得分矩阵λ-gapSM,考虑到蛋白质序列中不同距离的氨基酸残基之间存在着相互作用,借鉴伪氨基酸组成(非相邻残基)分析思想,给出λ-gap得分矩阵,给定得分矩阵
Figure BDA0001387175460000061
和参数λ,本发明定义矩阵:
Figure BDA0001387175460000062
为λ-gap得分矩阵,其中Aλ=(aij)(L-λ)×L为(0-1)矩阵,
aij∈{0,1},即
Figure BDA0001387175460000063
其中参数λ(1≤λ≤L-1)表示矩阵Aλ中任一行向量ai中两个非零元1之间的距离(λ-gap)。特别地,当λ=0时,A0退化为单位矩阵IL,也即0-gap得分矩阵
G0=A0P=IP=P
λ-gap得分矩阵间接刻画了序列中不相邻残基之间(跳空距离为λ)的位置信息。
给定长度为L的蛋白质序列,有PSSM矩阵P和PCSM矩阵Q,水平拼接得到矩阵W=(P,Q)=(wij)L×(M+20),由上面λ-gap得分矩阵定义,可得λ-gap得分矩阵
Gλ=AλW=Aλ(P,Q)=AλP,AλQ
由协差矩阵和分块矩阵运算,容易得到,
Figure BDA0001387175460000071
对上式方阵∑按列拉直运算(matrix vec operator),保留满足i≤j的元素的元素σij,则所得向量为
v=vec(Σ)=(σ1,1,σ1,2,σ2,2,…,σ1,M+20,σ2,M+20,…,σM+20,M+20)。
显然该向量的维数仅与M有关,而与L(序列长度)和λ(跳空距离)无关。
本发明的特征表示模型中,分别利用了物化属性Q和进化信息P各自本身所蕴含的相关性信息
Figure BDA0001387175460000072
Figure BDA0001387175460000073
同时,还考虑了物化属性和进化信息之间的交互效应项
Figure BDA0001387175460000074
其中
Figure BDA0001387175460000075
刻画了距离为λ的残基间位置信息。因此,我们把这种特征表示称为(三重信息)交互融合特征表示λ-gapIFFR。详细算法如下,算法1的输入参数λ,也即序列残基之间的跳空距离。
当λ=0时,特征表示算法λ-gapIFFR仅考虑了序列的不同物化属性和进化信息,算法1退化为二信息交互式融合IFFR;特别地,当λ=0时,且算法1的第4行W=P时,算法1退化为基于进化信息的特征表示,记为CovPSSM;当λ=0时,且算法1的第4行W=Q时,算法1退化为基于物化属性的特征表示,记为CovPCSM;传统的做法是,将这两种特征表示CovPSSM和CovPCSM所生成的特征向量进行组合式串联,记为CFFR。
2)选择性集成分类器
给定蛋白质序列集,随机划分训练集Strn,验证集Sval和测试集Stst。假设为对应于Strn的训练集,其中任一训练样本
Figure BDA0001387175460000082
的输入变量
Figure BDA0001387175460000083
是由算法1得到的跳空距离为λ的p维特征向量,输出变量为yi∈Y={-1,+1}。同理可得验证集
Figure BDA0001387175460000084
和测试集
Figure BDA0001387175460000085
Figure BDA0001387175460000086
上训练基分类器Cλ,构成集合T={C1,C2,…,CL-1},
Figure BDA0001387175460000087
为T的任一子集,计算子集
Figure BDA0001387175460000088
对应的集成基分类器在相应的验证集
Figure BDA0001387175460000089
上的泛化误差选取泛化误差最小的子集
Figure BDA00013871754600000811
理论上,最优基分类器子集T*可通过穷举法得到。然而,当L较大时,穷举法的计算量太大。一种简单直观的选择策略是:对基分类器Ci按性能指标M进行排序,选取前k(奇数)个基分类器构成的子集T*做为对集成分类器T的修剪,并对子集采用投票(Max-Wins Voting,MWV)策略进行表决。以下给出详细的算法实现:算法2选择性集成GapIFFR-SE,其实质是对参数λ进行扰动,生成不同的输入特征空间,并通过选择(或修剪)得到具有差异性的基分类器子集,达到提升整体分类器的性能。
Figure BDA0001387175460000091
为了验证本发明的有益效果,选取4个DNA结合蛋白序列数据进行分析,它们的样本容量相对较充足(≥300),同时它们又都是序列相似性小于40%的数据集,这些能保证实验结果的可信性。表1给出数据的汇总信息与数据来源1
Figure BDA0001387175460000092
表1 用于实验验证的基准数据集(蛋白质序列数据集)
Figure BDA0001387175460000101
系统评估本发明的预测性能,分别采用Jackknife校验法和k-fold交叉校验法(k-foldCV)对本发明进行比较和评估。其中k-foldCV能够有效降低由于数据不充分而造成的过学习和欠学习状态的发生,在实践中,10-foldCV被认为是标准方法;Jackknife校验法被认为是较客观的统计校验方法,它能够避免由于训练和测试数据的随机划分而造成的随机性,保证实验结果的可复制性。
对算法性能的评估指标有:预测准确率(ACC:Accuracy)、敏感性(SE:Sensitivity)、特异性(SP:Specificity)和综合评价预测结果的相关性系数Mathews相关系数(MCC:Mathews Correlation Coefficient),详细定义如下:
Figure BDA0001387175460000102
Figure BDA0001387175460000103
Figure BDA0001387175460000104
Figure BDA0001387175460000105
其中,TP(真阳性)表示DNA结合蛋白被预测为DNA结合蛋白的个数,TN(真阴性)表示非DNA结合蛋白被预测为非DNA结合蛋白的个数,FP(假阳性)表示非DNA结合蛋白被错误预测为DNA结合蛋白的个数,FN(假阴性)表示DNA结合蛋白被错误预测为非DNA结合蛋白的个数。
ACC表示预测结果中真阳性与真阴性之和在总测试实例中的百分比;SE表示真阳性在所有预测为阳性测试数据中的百分比;SP表示真阴性在所有预测为阴性测试数据中的百分比。对于完美的预测系统,这三指标都应该达到100%。然而,对于非平衡数据集,若SE增加时,则SP必然下降,反之亦然,这些指标不能很好的评估预测结果,相比较MCC是个更平衡的评估标准,其取值范围在[-1,+1]之间,值为1表示预测结果与真实类别完全相关,值为0表示是完全随机的预测,值为-1表示完全相反的相关性。另外,ROC曲线图中曲线下面积(area under the curve,AUC)可以作为更加客观的分类性能评估标准。ROC曲线图是一个单位平方,两坐标轴(真阳性率和假阳性率)的数值从0到1,AUC最大值为1,对应于完美分类器。
必须指出的是,以下用于比较的实验结果均是使用基分类器:线性核SVM(参数默认),由于我们更多专注于本发明的特征表示方法,所以未对分类器做任何的优化。事实上,可以通过调整分类器与参数,以及选用更为有效的物化属性,可以得到更高的预测结果。以下分别评估本发明的特征表示算法和选择性集成方法。
首先,在4个独立数据集上利用Jackknife验证,比较本发明的特征表示算法IFFR和CovPCSM,CovPSSM,CFFR三算法的性能,其中CovPCSM方法只是单一的考虑物化属性自身信息,生成的特征维数(d=21)较少,识别效果一般;CovPSSM方法只是单一的考虑进化信息,生成的特征维数(d=210)相对较多,识别效果较好;而CFFR方法是对它们二者进行简单串联组合,所生成特征向量同时考虑物化信息和进化信息,识别效果略优于CovPSSM的结果。本发明的IFFR方法不仅考虑了物化属性内部和进化信息内部的相关性,并且更进一步考虑了物化属性和进化信息之间的交互效应项,取得最好的识别性能。详细结果如表2。
表2 在4个独立数据集上不同特征表示方法的性能比较(采用Jackknife校验法)
Figure BDA0001387175460000121
aCFFR=Combined Fusion Feature Reresentation;
bIFFR=Interactive Fusion Feature Representation.
注意:表格中加粗的数值表示最好的识别结果.
其次,在4个独立数据集上,考查本发明的特征表示算法IFFR(λ=0)与三个经典的特征表示算法(PsePSSM,PseAAC和AAC)的性能比较,为使比较的结果更加客观可信,实验使用30次的10-fold CV校验结果进行分析。
从图2知,在数据集Alternate Dataset,PDB1075 Dataset和Independent2Dataset中,基于IFFR特征表示算法具有卓越的性能,其平均性能均优于其它算法(PsePSSM,PseAAC和AAC)。在全部数据集中,IFFR特征表示通常有较小的标准误差,这在某种程度上说明IFFR特征表示对训练样本集的随机构成不敏感,鲁棒性更好。在数据集Independent1 Dataset中,基于PsePSSM特征表示算法也有很好的表现,明显优于PseAAC和AAC的结果。这是因为IFFR与PsePSSM都使用了PSSM进化信息,也就是PSSM所携带的进化信息比序列自身所包含的信息更为丰富也更加重要,因此,考虑进化信息能够达到提升预测性能的目的。总之,相比较于经典算法(PsePSSM,PseAAC和AAC),在4个独立数据集中本发明的IFFR特征表示是有效的。
最后,在基准数据集PDB1075上,对本发明的选择性集成算法GapIFFR-SE和其它预测方法进行比较,其中用于比较的8个卓越方法包括有:iDNA-Prot|dis,PseDNA-Pro,iDNA-Prot,DNA-Prot,DNAbinder,iDNAPri-PseAAC,Kmer1+AAC和Local-DPP。基于Jackknife校验的比较结果如表3所示,容易看出,在众多的比较方法中,本发明的选择性集成算法GapIFFR-SE具有最好的预测性能,也即识别率达到最大值79.91%,MCC指标取得最大值0.61,SE指标也取得最大值87.43。因此,相比较于现有的最好方法,本发明方法具有更加卓越的性能,这也间接表明本发明的交互融合特征表示能够生成携带有强判别信息的特征,同时选择性集成还能进一步提升整体学习器的泛化能力,最终能够保证对DNA结合蛋白的准确预测。
表3:在数据集PDB1075上本发明识别方法和其它预测方法的性能比较(采用Jackknife校验法).
Figure BDA0001387175460000141
以上为本发明的优选实例,但本发明的实施并不限于上述实例。本领域人员阅读了上述内容后,任何对于本发明的修改和替代,都可被认为处于本发明的权利要求限定范围内。

Claims (7)

1.交互融合特征表示与选择性集成的DNA结合蛋白识别方法,其特征包括如下步骤:交互融合的特征表示与选择性集成分类器,其中所述的交互融合的特征表示是利用物化属性与进化信息之间的交互效应,和非相邻残基间的位置信息,充分挖掘隐藏在蛋白质序列背后的潜在的生物信息,生成具有强判别能力的特征;所述的选择性集成分类器是通过对特征表示的参数进行扰动,生成不同的输入特征空间,并使用选择或修剪策略得到具有差异性的基分类器,投票集成得到具有强泛化能力的整体分类器。
2.如权利要求1所述的方法,其特征在于,所述的交互融合的特征表示是根据序列中的数学关系以及生物化学属性,将由字符组成的序列,数值化成一个固定维数的特征向量,针对蛋白质序列数据,采用交互融合特征表示模型,从而能够同时考虑不种物化属性和进化信息自身内部的相关性,以及物化属性与进化信息之间的交互效应,其中所述的进化信息的得分矩阵(P)是一个行数为序列长度(L),列数为20的得分矩阵:
Figure FDA0002321618390000011
其中,元素pi (j)表示蛋白质进化过程中蛋白质序列第i个位置的氨基酸残基Ri突变为第j类氨基酸的概率,其中,1≤i≤L,1≤j≤L。
3.如权利要求2所述的方法,其特征在于,所述的物化属性的得分矩阵(Q)是一个行数为序列长度(L),列数为M的得分矩阵:
Figure FDA0002321618390000021
其中,任一条蛋白质序列S可表示为其中L是序列长度,M是所使用物化属性的个数,qi (j)是序列中第i个氨基酸残基Ri的第j种物化属性指数,其中,1≤i≤L。
4.如权利要求2所述的方法,其特征在于所述的交互融合的特征表示中得分矩阵λ-gapSM的定义形式为:
Figure FDA0002321618390000023
其中Al=(aij)(L-λ)×L为(0-1)矩阵,aij∈{0,1},
Figure FDA0002321618390000024
其中参数λ表示矩阵Al中任一行向量ai中两个非零元1之间的距离(λ-gap),其中,1≤λ≤L-1。
5.如权利要求4所述的方法,其中所述的λ-gapSM表示方法包括如下步骤:
输入:待查询蛋白质序列seq_FASTA,跳空距离λ
输出:数值型特征向量v
(1):初始化L为蛋白质序列seq_FASTA的长度,跳空距离λ≤L-1
(2):调用PSI-BLAST,得到进化信息的得分矩阵P:P=(pi (j))L×20
(3):利用氨基酸指数表AAindex,可得到物化属性得分矩阵Q:
Figure FDA0002321618390000031
(4):水平拼接矩阵P和矩阵Q:W=[P&Q]=(ωij)L×(20+M)
(5):由λ-gap得分矩阵定义,计算得到矩阵Gλ:
Gλ=AλW=(gij)(L-λ)×(20+M)
(6):计算协差矩阵Σ:
Figure FDA0002321618390000032
(7):对Σ按行向量进行拉直操作,保留i≤j的元素sij,返回行
向量:v=(σ1,1,σ1,2,…,σ1,20+M,σ2,2,…,σ2,20+M,…,σ20+M,20+M) 。
6.如权利要求5所述的方法,其中所述的选择性集成分类器包括如下步骤:给定蛋白质序列集,随机划分训练集Strn,验证集Sval和测试集Stst,假设为对应于Strn的训练集,其中任一训练样本
Figure FDA0002321618390000034
的输入变量
Figure FDA0002321618390000035
是由权利要求5的方法得到的跳空距离为λ的p维特征向量,输出变量为yi∈Y={-1,+1},并由此方法得验证集
Figure FDA0002321618390000036
和测试集
Figure FDA0002321618390000037
Figure FDA0002321618390000038
上训练基分类器Cl,构成集合T={C1,C2,…,CL-1},
Figure FDA0002321618390000039
为T的任一子集,计算子集对应的集成基分类器在相应的验证集
Figure FDA00023216183900000311
上的泛化误差
Figure FDA00023216183900000312
选取泛化误差最小的子集
Figure FDA00023216183900000313
7.如权利要求6所述的方法,其特征在于GapIFFR-SE的方法包括如下步骤:
输入:训练序列集Strn,校验序列集Sval,测试序列集Stst,基分类器算法C,评估标准M,集成基分类器个数k;
输出:测试序列集Stst的类别标签Y;
(1)初始化过程:
─设置T为空集Φ,L为序列集中的最短长度,调用权利要求6的算法计算得到Dtrn(λ),Dval(λ)和Dtst(λ),其中权利要求6的算法中λ-gapIFFR的输入参数λ=1,2,…,L-1
(2)基分类器训练过程:
─For i=1,2,...L-1do
──更新T为T∪Ci,其中Ci为分类算法C在训练数据集Dtrn(i)上训练所得的基分类器
─EndFor
(3)选择过程或剪枝过程:
─For j=1,2,...L-1do
──在校验数据集Dval(j)上计算基分类器Cj∈T的评估值Mj.
─EndFor
─对Mj进行降序排列,选择T的子集
Figure FDA0002321618390000041
其中Cλ1,Cλ2,…,Cλk对应于排名靠前的k个Mj值;
(4)多数投票集成过程:
─对测试数据集Stst的类别标签进行预测,
Figure FDA0002321618390000042
其中Cλt是第λt个基分类器在数据X∈Dtstt)上的预测结果,
Figure FDA0002321618390000043
返回Y。
CN201710731309.1A 2017-08-23 2017-08-23 交互融合特征表示与选择性集成的dna结合蛋白识别方法 Active CN107463799B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710731309.1A CN107463799B (zh) 2017-08-23 2017-08-23 交互融合特征表示与选择性集成的dna结合蛋白识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710731309.1A CN107463799B (zh) 2017-08-23 2017-08-23 交互融合特征表示与选择性集成的dna结合蛋白识别方法

Publications (2)

Publication Number Publication Date
CN107463799A CN107463799A (zh) 2017-12-12
CN107463799B true CN107463799B (zh) 2020-02-14

Family

ID=60550339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710731309.1A Active CN107463799B (zh) 2017-08-23 2017-08-23 交互融合特征表示与选择性集成的dna结合蛋白识别方法

Country Status (1)

Country Link
CN (1) CN107463799B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110310705B (zh) * 2018-03-16 2021-05-14 北京哲源科技有限责任公司 支持simd的序列比对方法及装置
CN109448792B (zh) * 2018-09-19 2021-11-05 语联网(武汉)信息技术有限公司 译员基因的选取方法、装置与电子设备
CN110379464B (zh) * 2019-07-29 2023-05-12 桂林电子科技大学 一种细菌中dna转录终止子的预测方法
CN113838520B (zh) * 2021-09-27 2024-03-29 电子科技大学长三角研究院(衢州) 一种iii型分泌系统效应蛋白识别方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103500292A (zh) * 2013-09-27 2014-01-08 南京理工大学 配体特异性蛋白质-配体绑定区域预测方法
CN103955628A (zh) * 2014-04-22 2014-07-30 南京理工大学 基于子空间融合的蛋白质-维他命绑定位点预测方法
CN104252581A (zh) * 2013-06-26 2014-12-31 中国科学院深圳先进技术研究院 一种基于支持向量机的跨膜蛋白残基作用关系预测方法
CN106529207A (zh) * 2016-10-08 2017-03-22 华中科技大学 一种与核糖核酸结合的蛋白质的预测方法
WO2017081687A1 (en) * 2015-11-10 2017-05-18 Ofek - Eshkolot Research And Development Ltd Protein design method and system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104252581A (zh) * 2013-06-26 2014-12-31 中国科学院深圳先进技术研究院 一种基于支持向量机的跨膜蛋白残基作用关系预测方法
CN103500292A (zh) * 2013-09-27 2014-01-08 南京理工大学 配体特异性蛋白质-配体绑定区域预测方法
CN103955628A (zh) * 2014-04-22 2014-07-30 南京理工大学 基于子空间融合的蛋白质-维他命绑定位点预测方法
WO2017081687A1 (en) * 2015-11-10 2017-05-18 Ofek - Eshkolot Research And Development Ltd Protein design method and system
CN106529207A (zh) * 2016-10-08 2017-03-22 华中科技大学 一种与核糖核酸结合的蛋白质的预测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Identification of DNA-binding proteins using multi-feature fusion and binary firefly optimization algorithm;Jian Zhang 等;《BMC BioInformatics》;20161231;第1-12页 *
Local-DPP:An improved DNA-binding protein prediction method by exploring local evolutionary Information;Leyi Wei 等;《Information Science》;20160623;第135-144页 *
Predicting Protein-DNA Binding Residues by Weightedly Combining Sequence-Based Features and Boosting Multiple SVMs;Jun Hun 等;《IEEE/ACM Transactions on Computational Biology and BioInformatics》;20161011;第14卷(第6期);第1389-1398页 *
PSSP-RFE:Accurate Prediction of Protein Structural Class by Recursive Feature Extraction from PSI-BLAST Profile,Physical-Chemical Property and Functional Annotations;Liqi Li 等;《PLOS ONE》;20140327;第9卷(第3期);第1-10页 *
多种信息融合的细胞凋亡蛋白质的亚细胞定位预测;薛济先 等;《计算生物学》;20160929;第6卷(第3期);第62-71页 *

Also Published As

Publication number Publication date
CN107463799A (zh) 2017-12-12

Similar Documents

Publication Publication Date Title
Larranaga et al. Machine learning in bioinformatics
CN107463799B (zh) 交互融合特征表示与选择性集成的dna结合蛋白识别方法
CN106529207B (zh) 一种与核糖核酸结合的蛋白质的预测方法
Vasighizaker et al. C-PUGP: A cluster-based positive unlabeled learning method for disease gene prediction and prioritization
Zhao et al. Whale optimized mixed kernel function of support vector machine for colorectal cancer diagnosis
Nasir et al. Single and mitochondrial gene inheritance disorder prediction using machine learning
Vengatesan et al. The performance analysis of microarray data using occurrence clustering
Zangooei et al. PSSP with dynamic weighted kernel fusion based on SVM-PHGS
Hussein et al. Deep learning and machine learning via a genetic algorithm to classify breast cancer DNA data
Babu et al. A comparative study of gene selection methods for cancer classification using microarray data
Abu Zaher et al. An adaptive memetic algorithm for feature selection using proximity graphs
CN111951889B (zh) 一种rna序列中m5c位点的识别预测方法及系统
He et al. Retracted: Overcoming the inadaptability of sparse group lasso for data with various group structures by stacking
Rahmani et al. Predicting the functions of proteins in protein-protein interaction networks from global information
Moyer et al. Motif identification using CNN-based pairwise subsequence alignment score prediction
Breimann et al. AAclust: k-optimized clustering for selecting redundancy-reduced sets of amino acid scales
Yousefi et al. Consensus clustering for robust bioinformatics analysis
Brasier et al. Analysis and predictive modeling of asthma phenotypes
Mahapatra et al. Gene Selection Using Integrative Analysis of Multi‐Level Omics Data: A Systematic Review
Huiqing Effective use of data mining technologies on biological and clinical data
Li Random KNN modeling and variable selection for high dimensional data
Abid et al. Discriminant analysis for the eigenvalues of variance covariance matrix of FFT scaling of DNA sequences: an empirical study of some organisms
CN107798217B (zh) 基于特征对的线性关系的数据分析方法
Monyai Unsupervised Learning Approach to Quality Control of Proteomics Studies
Shadbahr Application of variations of non-linear CCA for feature selection in drug sensitivity prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant