CN105205343A - 基于加权组成位置向量和支持向量机的蛋白质结构类预测方法 - Google Patents

基于加权组成位置向量和支持向量机的蛋白质结构类预测方法 Download PDF

Info

Publication number
CN105205343A
CN105205343A CN201510429363.1A CN201510429363A CN105205343A CN 105205343 A CN105205343 A CN 105205343A CN 201510429363 A CN201510429363 A CN 201510429363A CN 105205343 A CN105205343 A CN 105205343A
Authority
CN
China
Prior art keywords
protein
position vector
weighting
support vector
vector machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510429363.1A
Other languages
English (en)
Inventor
邹小勇
周喜斌
李占潮
戴宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
SYSU CMU Shunde International Joint Research Institute
Original Assignee
Sun Yat Sen University
SYSU CMU Shunde International Joint Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University, SYSU CMU Shunde International Joint Research Institute filed Critical Sun Yat Sen University
Priority to CN201510429363.1A priority Critical patent/CN105205343A/zh
Publication of CN105205343A publication Critical patent/CN105205343A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于加权组成位置向量和支持向量机的蛋白质结构类预测方法。首先选取或构建蛋白质结构类标准数据集,再在组成位置向量的基础上引入加权因子,采用加权组成位置向量方法,表征待预测的蛋白质序列;并将加权组成位置向量与支持向量机结合,采用直接的多类分类策略,建立了蛋白质结构类预测方法。该方法不仅含有氨基酸组成的信息,而且还包含了蛋白质序列中每个氨基酸残基的位置信息,并且与蛋白质序列之间是一一对应的函数关系,在组成位置向量表征方法中引入权重因子,通过调节权重因子可以明显地提高预测精度,而且本方法简单、快速和灵敏,有望应用于其它蛋白质预测领域。

Description

基于加权组成位置向量和支持向量机的蛋白质结构类预测方法
技术领域
本发明属于蛋白质结构预测技术领域,更具体地,涉及一种基于加权组成位置向量的蛋白质结构类预测方法。
背景技术
蛋白质的三维结构十分复杂,只有折叠成正确的空间结构才能行使其生物功能。蛋白质整体折叠模式(foldingpattern)可以通过蛋白质结构类来进行描述,主要包括四种,即全a、全b、a/b和a+b。其中全a类中主要包含的二级结构单元为a螺旋(a-helix),全b类主要包含的二级结构单元为b折叠(b-sheet),a/b类同时包含a螺旋和b折叠,并且b折叠片的走向主要为平行,a+b类也同时包含a螺旋和b折叠,但是b折叠片的走向主要为反向平行。结构类是蛋白质的主要性质之一,对于蛋白质结构类的预测,将有助于提高蛋白质二级结构和三级结构的预测率,对于研究蛋白质结构与功能关系,具有重要的理论意义和实用价值。
在蛋白质结构类预测模型的构建中,蛋白质序列表征方法是影响模型预测性能的关键。氨基酸组成是一种简单、有效的蛋白质序列表征方法,通过氨基酸组成,蛋白质序列可以表征为一个20维的离散向量。事实上,许多预测方法都是基于蛋白质的氨基酸组成提出的。然而,用氨基酸组成来表征蛋白质序列会丢失氨基酸残基之间的顺序信息,氨基酸组成表征方法无法区分氨基酸组成相同而排列次序不同的蛋白质序列,限制了预测方法性能的提高。因此,近年来研究者们又提出了许多新的蛋白质序列表征方法,包括:伪氨基酸组成、氨基酸对耦合组成、多肽组成、功能域组成以及其他的蛋白质表征方法。随着后基因组时代的来临,序列已知的蛋白质数目以及结构类已知的蛋白质数目之间的差距正在不断扩大。为了缩小这种差距,提高蛋白质结构类的预测率,建立新的蛋白质表征方法属研究热点,发展自动、可靠的预测方法意义重大。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种新的简单、快速、灵敏的蛋白质序列表征方法——加权组成位置向量,在组成位置向量的基础上,引入加权思想,与支持向量机结合,采用直接多类分类策略,对蛋白质结构类预测进行了研究,有望应用于其它蛋白质预测领域。该表征方法不仅含有氨基酸组成的信息,而且还包含了蛋白质序列中每个氨基酸残基的位置信息,并且与蛋白质序列之间是一一对应的函数关系,该方法通过调节加权因子可以明显地提高预测精度,预测结果优于文献报道的多数方法。
本发明的目的是提供一种基于加权组成位置向量的蛋白质结构类预测方法。
本发明上述目的是通过以下技术方案予以实现:
一种基于加权组成位置向量和支持向量机的蛋白质结构类预测方法,包括以下步骤:
S1.选取或构建蛋白质结构类标准数据集;
S2.用加权组成位置向量的蛋白质序列表征方法表征步骤S1数据集中的每一条蛋白质序列,加权组成位置向量可以表示如下:
X=(c1,c2,…,c20,c1,c2,…,c20)T
X是40维特征向量,前20个元素是氨基酸组成,后20个元素是加权的位置向量,计算如下:
c i ′ = w L ( L - 1 ) Σ j = 1 l p i j , i = ( 1 , ... , 20 )
式中,w为权重因子,为一大于0的整数;
L是蛋白质序列的长度;
l是第i种氨基酸在蛋白质序列中出现的次数;
pij是第i种氨基酸在蛋白质序列中所处的第j个位置。
S3.将加权组成位置向量与支持向量机结合,采用直接的多类分类策略,预测蛋白质结构。
需要指出的是,对于不同的问题和数据集,权重因子w的值是变化的,其最优值可以通过交叉验证选取,即得预测精度最大的w值为所选值。
优选地,所述w的最优值使用5-折交叉验证选取。
进一步地,步骤S3选取径向基核函数来建立预测模型,g为径向基宽度参数,径向基宽度参数g通过5-折交叉验证优化选择。
另外,惩罚参数C也通过5-折交叉验证优化选择。
优选地,支持向量机的计算是利用软件包LibSVM完成的。
上述方法在蛋白质预测中的应用也在本发明的保护范围之内。
本发明提出了新的蛋白质序列表征方法——加权组成位置向量,在组成位置向量的基础上,引入加权思想。该表征方法不仅含有氨基酸组成的信息,而且还包含了蛋白质序列中每个氨基酸残基的位置信息,并且与蛋白质序列之间是一一对应的函数关系。将其与支持向量机结合,采用直接的多类分类策略,建立了蛋白质结构类预测方法。对两个非同源的蛋白质结构类标准数据集进行了jackknife检验,预测结果优于文献报道的多数方法。该方法表明,在组成位置向量表征方法中引入权重因子十分必要,通过调节权重因子可以明显地提高预测精度。
与现有技术相比,本发明具有以下有益效果:
本发明提出了一种新的蛋白质序列表征方法——加权组成位置向量,在组成位置向量的基础上,引入加权思想,并将加权组成位置向量与支持向量机结合,采用直接的多类分类策略,建立了蛋白质结构类预测方法。该方法与现有方法比较,具有以下优点:
(1)在组成位置向量的基础上,引入加权思想;该表征方法不仅含有氨基酸组成的信息,而且还包含了蛋白质序列中每个氨基酸残基的位置信息,与蛋白质序列之间是一一对应的函数关系,蛋白质序列表征信息丰富;
(2)本发明引入权重因子,通过调节权重因子可以明显地提高预测精度;
(3)对于权重因子采用了5-折交叉验证优化,获得预测精度最大的权重因子值,适合于不同的问题和数据集,有较好推广应用价值;
(4)本方法采用了直接多分类方法,只需建立一个分类器,就能将多类同时一次分开;并且考虑了类别之间存在的联系,能够有效地克服假阳性等问题;
(5)本发明的蛋白质结构类预测方法简单、快速和灵敏,有望应用于各类蛋白质预测领域。
附图说明
图1为直接多分类支持向量机示意图。
图2数据集Z277上总预测精度随权重因子w的变化。
图3数据集Z498上总预测精度随权重因子w的变化。
具体实施方式
下面结合具体实施例进一步说明本发明的内容,但不应理解为对本发明的限制。在不背离本发明精神和实质的情况下,对本发明方法、步骤或条件所作的简单修改或替换,均属于本发明的范围。
实施例1
1、选取蛋白质结构类标准数据集
本实施例选取Z277和Z498两个蛋白质结构类标准数据集为例,进行蛋白质预测。
Z277和Z498两个蛋白质结构类标准数据集信息:
Z277数据集共包含277条蛋白质序列,其中70个全a类(all-a)蛋白质,61个全b类(all-b)蛋白质,81个a/b类蛋白质和65个a+b类蛋白质。
Z498数据集共含有498条蛋白质序列,其中107个全a类(all-a)蛋白质,126个全b类(all-b)蛋白质,136个a/b类蛋白质和129个a+b类蛋白质。
2、氨基酸组成分析
氨基酸组成表征蛋白质序列时会丢失序列中氨基酸残基之间的顺序信息,氨基酸组成表征方法无法区分氨基酸组成相同而排列次序不同的蛋白质序列。设P1和P2为两条蛋白质序列,其中P1的氨基酸残基序列为AACC,P2的氨基酸残基序列为CCAA。则其氨基酸组成分别为:
XP1=(0.5,0.5,0,…,0)T
XP2=(0.5,0.5,0,…,0)T
这两条蛋白质序列的氨基酸组成是完全相同的两个向量。也就是说,仅仅依靠氨基酸组成,我们无法区分蛋白质P1和P2。
3、组成位置向量
组成位置向量的蛋白质序列表征方法,同时考虑了氨基酸组成的信息和蛋白质序列中氨基酸的位置信息,采用位置矩阵来表征每一条蛋白质序列的具体形式如下:
矩阵的行称为位置向量,如第k行就称为k级位置向量。位置向量中的元素可由下式得到:
c i ( k ) = 1 L ( L - 1 ) ... ( L - k ) Σ j = 1 l p i j k , i = ( 1 , ... , 20 )
式中k是一个大于等于零的整数,当k=0时,位置向量就简化成了氨基酸组成。L是蛋白质序列的长度,l是第i种氨基酸在蛋白质序列中出现的次数。pij是第i种氨基酸在蛋白质序列中所处的第j个位置。
以蛋白质序列P1:AACC为例,其1级位置向量可计算如下:
c 1 ( 1 ) = 1 L ( L - 1 ) Σ j = 1 2 p 1 j 1 = 1 4 × ( 4 - 1 ) × ( 1 1 + 2 1 ) = 3 12 = 0.25
c 2 ( 1 ) = 1 L ( L - 1 ) Σ j = 1 2 p 2 j 1 = 1 4 × ( 4 - 1 ) × ( 3 1 + 4 1 ) = 7 12 = 0.58
为了运算上的方便,通常选取位置矩阵的第一、二行(0级和1级位置向量)合并成一个40维的向量来表征蛋白质序列。这个40维的特征向量就称作组成位置向量,如下式所示:
X = ( c 1 , c 2 , ... , c 20 , c 1 ( 1 ) , c 2 ( 1 ) , ... , c 20 ( 1 ) ) T
组成位置向量将蛋白序列表征为40维的特征向量,其中向量的前20个元素代表了氨基酸组成的信息,后20个元素代表了氨基酸残基在蛋白质序列中的位置信息。
对于P1:AACC和P2:CCAA的两条蛋白质序列,其组成位置向量分别为:
XP1=(0.5,0.5,0,…,0,0.25,0.58,0,…,0)T
XP2=(0.5,0.5,0,…,0,0.58,0.25,0,…,0)T
这两个特征向量的第21和第22个元素明显不同,使用组成位置向量表征方法能很容易地将其区别开来。
4、加权组成位置向量的优化
本方法将加权思想引入组成位置向量概念,提出了加权组成位置向量表征方法。对给定的蛋白质序列,加权组成位置向量可以表示如下:
X=(c1,c2,…,c20,c1,c2,…,c20)T
X是一40维特征向量,前20个元素是氨基酸组成,后20个元素是加权的位置向量,计算如下:
c i ′ = w L ( L - 1 ) Σ j = 1 l p i j , i = ( 1 , ... , 20 )
式中w为权重因子,为一大于0的整数,其它各项同式。需要指出的是,对于不同的问题和数据集,权重因子w的值是变化的。其最优值可以通过交叉验证选取,即使得预测精度最大的w值,即是所选值。本方法使用5-折交叉验证选取w的最优值。
本方法所提出新的蛋白质序列表征方法——加权组成位置向量。它是用一个40维的特征向量来表征蛋白质序列,其中向量的前20个元素反映了蛋白质序列中氨基酸残基的组成信息,后20个元素反映了氨基酸残基在蛋白质序列中的位置信息。使用加权组成位置向量表征蛋白质序列时,权重因子w是一个重要的参数并且需要优化。对于不同的数据集,权重因子w的值是变化的,其最优值可以通过交叉验证选取。我们使用5-折交叉验证对数据集Z277和Z498分别进行了权重因子w的优化,结果分别如附图2和附图3所示。
图2为数据集Z277上总预测精度随权重因子w变化的5-折交叉验证结果。w=1时,即用组成位置向量来表征蛋白质序列时,其5-折交叉验证总预测精度为81.59%。随着w值的增大,预测精度略有减小;w>3以后,随着w值的增大,预测精度开始增大;当w=14时,总预测精度达到最大值84.12%。所以对于数据集Z277,用加权组成位置向量来表征蛋白质序列时,权重因子w的最优值等于14。
图3为数据集Z498上总预测精度随权重因子w变化的5-折交叉验证结果。w=1时,即用组成位置向量来表征蛋白质序列时,其5-折交叉验证总预测精度为93.56%。然后预测精度随着w值的增大开始下降;w>4以后,随着w值的增大,预测精度开始增大;当w=9时,预测精度达到最大值93.56%。这里,当w=1和w=9时,总预测精度都达到了最大值。为了计算上的方便,对于数据集Z498,本文选择权重因子w的最优值等于1。
由以上实验结果,本方法在组成位置向量基础上成功地引入加权的思想。对于Z277数据集,用组成位置向量表征方法得到的总预测精度为81.59%,而用采用本方法提出的加权组成位置向量表征方法得到的总预测精度为84.12%(w=14),比组成位置向量表征方法提高了约3%。对于Z498数据集,虽然组成位置向量和加权组成位置向量表征方法得到的预测精度相同,但综合两个数据集上的实验结果,可以看出在组成位置向量表征方法中引入加权因子很有必要,通过对加权因子的优化,可以得到更高的预测精度。
5、支持向量机训练
结构类预测是多分类问题,对于多类问题,支持向量机一般是将多分类问题简化为一系列的二分类问题。常用的简化策略有一对多和一对一两种方法。但是,这两种方法将每一类孤立地对待,忽略了类与类之间的联系,并且两种方法都存在需构建的分类器数目较多,训练时间长的缺点。本方法采用直接多分类方法,只需建立一个分类器,就可以将多类同时一次分开。并且考虑了类别之间存在的联系,能够有效地克服假阳性问题,其预测模型的结构如图1所示。
选取径向基核函数来建立预测模型。径向基宽度参数g和惩罚参数C,通过5-折交叉验证优化。有关支持向量机的计算都是在软件包LibSVM中完成的。
本发明将加权组成位置向量表征方法与支持向量机结合,用直接多类分类策略,建立了蛋白质结构类预测新方法。为了检验本文方法的预测性能,我们对数据集Z277和Z498分别进行了jackknife验证,结果如表1所示,表中还同时列出几种文献报道的结果进行对比。
表1本发明预测方法与文献方法的jackknife结果比较
对于数据集Z277,本文方法的总预测精度为85.6%,其中全a类的预测精度为85.7%、全b类83.6%、a/b类90.1%,a+b类81.5%。从总预测精度来看,本方法的预测结果除略低于Fusionnetwork方法(87.7%)外,均优于文献报道的其它五种方法。从每一类预测精度来看,对全a类,本方法预测结果优于文献报道方法而与Fusionnetwork方法相当;对a+b类,本方法预测结果最高。从整体来看,本方法给出的预测结果较为均衡,各类预测精度均在81%以上。
对于数据集Z498,本方法的总预测精度为94.0%,其中全a类的预测精度为91.6%、全b类96.0%、a/b类97.1%,a+b类90.7%。从总预测精度来看,预测结果除略低于LogitBoost方法(94.8%)外,均优于文献报道的其它方法。其中,对于全b和a/b两类,预测结果优于多数文献报道方法,并且每一类的预测结果都在90%以上。
综上所述,本发明基于加权组成位置向量和支持向量机,提出了蛋白质结构类预测新方法。通过与文献报道方法的比较,预测结果要高于多数现有方法。此外,从整体上来看,本文方法对数据集中的每一类都能较好地预测,给出预测结果较为均衡。

Claims (8)

1.一种基于加权组成位置向量和支持向量机的蛋白质结构类预测方法,其特征在于,包括以下步骤:
S1.选取或构建蛋白质结构类标准数据集;
S2.用加权组成位置向量的蛋白质序列表征方法表征步骤S1数据集中的每一条蛋白质序列,加权组成位置向量可以表示如下:
X=(c1,c2,…,c20,c′1,c′2,…,c′20)T
X是40维特征向量,前20个元素是氨基酸组成,后20个元素是加权的位置向量,计算如下:
式中,w为权重因子,为一大于0的整数
L是蛋白质序列的长度;
l是第i种氨基酸在蛋白质序列中出现的次数;
pij是第i种氨基酸在蛋白质序列中所处的第j个位置;
S3.将加权组成位置向量与支持向量机结合,采用直接的多类分类策略,预测蛋白质结构。
2.根据权利要求1所述的基于加权组成位置向量和支持向量机的蛋白质结构类预测方法,其特征在于,针对不同的数据集,所述w的最优值不同。
3.根据权利要求2所述的基于加权组成位置向量和支持向量机的蛋白质结构类预测方法,其特征在于,使用5折交叉方法验证选择w的最优值。
4.根据权利要求1所述的基于加权组成位置向量和支持向量机的蛋白质结构类预测方法,其特征在于,步骤S3选取径向基核函数来建立预测模型,g为径向基宽度参数。
5.根据权利要求4所述的基于加权组成位置向量和支持向量机的蛋白质结构类预测方法,其特征在于,径向基宽度参数g通过5-折交叉验证优化选择。
6.根据权利要求4所述的基于加权组成位置向量和支持向量机的蛋白质结构类预测方法,其特征在于,惩罚参数C通过5-折交叉验证优化选择。
7.根据权利要求1所述的基于加权组成位置向量和支持向量机的蛋白质结构类预测方法,其特征在于,利用软件包LibSVM完成支持向量机的计算。
8.权利要求1~7任一所述方法在蛋白质预测中的应用。
CN201510429363.1A 2015-07-21 2015-07-21 基于加权组成位置向量和支持向量机的蛋白质结构类预测方法 Pending CN105205343A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510429363.1A CN105205343A (zh) 2015-07-21 2015-07-21 基于加权组成位置向量和支持向量机的蛋白质结构类预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510429363.1A CN105205343A (zh) 2015-07-21 2015-07-21 基于加权组成位置向量和支持向量机的蛋白质结构类预测方法

Publications (1)

Publication Number Publication Date
CN105205343A true CN105205343A (zh) 2015-12-30

Family

ID=54953020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510429363.1A Pending CN105205343A (zh) 2015-07-21 2015-07-21 基于加权组成位置向量和支持向量机的蛋白质结构类预测方法

Country Status (1)

Country Link
CN (1) CN105205343A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529203A (zh) * 2016-12-21 2017-03-22 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法
CN109300501A (zh) * 2018-09-20 2019-02-01 国家卫生计生委科学技术研究所 蛋白质三维结构预测方法及用其构建的预测云平台

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529203A (zh) * 2016-12-21 2017-03-22 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法
CN109300501A (zh) * 2018-09-20 2019-02-01 国家卫生计生委科学技术研究所 蛋白质三维结构预测方法及用其构建的预测云平台
CN109300501B (zh) * 2018-09-20 2021-02-02 国家卫生健康委科学技术研究所 蛋白质三维结构预测方法及用其构建的预测云平台

Similar Documents

Publication Publication Date Title
Liu et al. Improved ASD classification using dynamic functional connectivity and multi-task feature selection
García et al. Theoretical analysis of a performance measure for imbalanced data
CN103268431B (zh) 一种基于学生t分布的癌症亚型生物标志物检测系统
Zhou et al. A novel community detection method in bipartite networks
CN108173708A (zh) 基于增量学习的异常流量检测方法、装置及存储介质
CN105653450A (zh) 基于改进遗传算法与Adaboost结合的软件缺陷数据特征选择方法
Xin et al. Deep community detection in topologically incomplete networks
CN103955628B (zh) 基于子空间融合的蛋白质‑维他命绑定位点预测方法
CN103258130B (zh) 烧结矿转鼓强度预测方法
CN110210625A (zh) 基于迁移学习的建模方法、装置、计算机设备和存储介质
CN105868583A (zh) 一种基于序列使用代价敏感集成和聚类预测表位的方法
WO2020029951A1 (zh) 一种染色质拓扑结构域边界的分析方法
CN102254033A (zh) 基于熵权重的全局k-均值聚类方法
CN109448787A (zh) 基于改进pssm进行特征提取与融合的蛋白质亚核定位方法
Sun et al. Set-based tests for genetic association using the generalized Berk-Jones statistic
CN105205343A (zh) 基于加权组成位置向量和支持向量机的蛋白质结构类预测方法
CN108197431B (zh) 染色质相互作用差异的分析方法和系统
Idrus Distance Analysis Measuring for Clustering using K-Means and Davies Bouldin Index Algorithm
Jones Propensity to respond and nonresponse bias
CN109326329A (zh) 一种非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法
Fernando et al. Identifying all connected subsets in a two-way classification without interaction
Z Yuan et al. Using quadratic discriminant analysis to predict protein secondary structure based on chemical shifts
CN111180021B (zh) 一种蛋白质结构势能函数的预测方法
Zhang et al. Promotion incentives, tenure uncertainty, and local government debt risk
Buratin et al. Detecting differentially expressed circular RNAs from multiple quantification methods using a generalized linear mixed model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151230