CN1818916A - 基于序列比对核函数预测信号肽及其断裂点位置实现方法 - Google Patents

基于序列比对核函数预测信号肽及其断裂点位置实现方法 Download PDF

Info

Publication number
CN1818916A
CN1818916A CNA2006100242716A CN200610024271A CN1818916A CN 1818916 A CN1818916 A CN 1818916A CN A2006100242716 A CNA2006100242716 A CN A2006100242716A CN 200610024271 A CN200610024271 A CN 200610024271A CN 1818916 A CN1818916 A CN 1818916A
Authority
CN
China
Prior art keywords
signal peptide
centerdot
matrix
similarity
breakaway poing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2006100242716A
Other languages
English (en)
Inventor
刘惠
刘丹青
姚莉秀
杨杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CNA2006100242716A priority Critical patent/CN1818916A/zh
Publication of CN1818916A publication Critical patent/CN1818916A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于序列比对核函数预测信号肽及其断裂点位置实现方法,属于生物工程技术领域。本发明采用全局序列比对以解决所研究的氨基酸序列长度不一致的难题,并计算两氨基酸序列之间的统计相关性以表征两者之间的相似度,通过将相似度矩阵转换为非负定矩阵后经过空间转换得到新坐标,从而解决不满足非负定性条件的矩阵如何生成核矩阵的问题。对于新测定的氨基酸序列在新特征空间可预测其是否信号肽并判定其断裂点位置。本发明提高了以往预测信号肽的正确率以及断裂点的预测率,从而对于理解某些疾病的致病过程有极大促进作用,进而有助于开发有效的治疗方案。

Description

基于序列比对核函数预测信号肽及其断裂点位置实现方法
技术领域
本发明涉及的是一种生物工程技术领域的方法,具体的说,涉及的是一种基于序列比对核函数预测信号肽及其断裂点位置实现方法。
背景技术
目前信号肽的研究已成为生物信息学领域一个热点。信号肽对于控制蛋白质的分泌路径和指导蛋白质到达特定位置有重要作用,因此成为基因诊疗新药领域的一个关键工具。但是随着进入数据库的信号肽序列的急剧增加,单纯采用实验的方式识别信号肽需要高昂的资金和大量的时间。于是开发模式识别、机器学习领域的算法用于自动识别新合成的蛋白质中的信号肽成为必然。基于模式识别、机器学习的算法用于自动识别预测信号肽及判定信号肽断裂点位置的,可以比单纯采用实验的方式节省大量的时间和金钱,但是由于处理的氨基酸序列不同于以往传统的模式识别和机器学习处理的数据,必须考虑下列要求:1)氨基酸序列长度不一致的问题:信号肽序列长度变化很大。这种多样性使得信号肽的预测问题变得很困难。2)编码问题:氨基酸序列形式上表示为字母序列,通常需要进一步进行编码为数字属性方便处理。3)正确率问题:信号肽的预测正确率至少要求达到90%,信号肽断裂点的预测至少达到70%以上才算有意义。
现已有针对此问题的初步探讨。Heijne在1986首先针对信号肽预测问题提出了加权矩阵算法。然而加权矩阵算法对现今数据不能得到较高的正确率。2000年Nakai K提出了神经网络可以得到较高的信号肽预测率,但是对断裂点位置的正判率不是很高,另外对问题缺乏明确的物理解释且容易出现过拟合现象。Henrik Nielsen等人提出用隐马尔可夫模型HMM(Hidden Markov Model)来分类信号肽和信号锚。HMM的方法在区分信号肽和信号锚方面有所改善,但是在剪切点预测的方面结果不如其它经典方法。
经对现有技术的文献检索发现,Chou在《Proteins:Structure,Function,and Genetics》(蛋白质:结构、功能、遗传学)2001,42,pp.136-139上发表的“Prediction of protein signal sequences and their cleavage sites”(“预测信号肽及其断裂点位置”),以及Liu等在《Biochemical and BiophysicalResearch Communications》(生物化学与生物物理学研究快报)2005,338,pp.1005-1011上发表的“Prediction of protein signal sequences and theircleavage sites by statistical rulers”(“基于统计规则预测信号肽及其断裂点位置”),均借助滑动窗分隔信号肽序列得到等长的氨基酸序列从而借助传统的模式识别算法进行预测,这种算法可以得到较神经网络高的信号肽预测率,但是对断裂点的正判率仍然不高。
发明内容
本发明的目的在于针对现有技术的不足,提出一种基于序列比对核函数预测信号肽及其断裂点位置实现方法,使其提高预测信号肽及判定信号肽断裂点位置的正确率。
本发明是通过以下技术方案实现的,本发明采用全局序列比对解决氨基酸序列长度不一致的难题,并利用两氨基酸序列之间的全局序列比对值表征两者之间的相似度,进而借助支持向量机理论中只需要核矩阵即可实现分类预测的有利条件完成预测任务。借助全局序列比对得到的相似度测度具有生物学上的普遍意义,如果由其产生的针对整个数据集的相似度矩阵能够满足核函数理论中对矩阵的非负定性的要求,即可以借助SVM等非常理想的分类工具实现预测功能。但是由于此相似度不满足三角不等式,因此不能保证满足核空间的非负定条件。本发明通过研究发现相似度矩阵的负特征值可以剔除然后经过空间转换得到新坐标,从而解决不满足非负定性条件的矩阵如何生成核矩阵的问题。对于新测定的氨基酸序列在新特征空间可预测其是否信号肽并判定其断裂点位置。
本发明方法按如下步骤进行:
1.属性的数字化:
对每组数据分别处理,将氨基酸序列Pi的属性描述映射成整数标记yi,以1表示信号肽0表示非信号肽。
2.全局序列比对并建立相似度矩阵:
氨基酸序列Pi和Pj的全局序列比对。针对数据库中每两个氨基酸序列,应用全局序列比对Needleman-wunsch算法可以将不同长度的氨基酸序列通过加入删除点(gap)的方式对齐,另外序列Pi和Pj比对附加产生的评判值K(i,j)在本发明中将作为度量两氨基酸序列的相似度。
假设训练集有N个氨基酸序列,依照步骤1计算每两个对氨基酸序列对的全局比对,将所得相似度组成N×N相似度矩阵Si,j=K(i,j)。经过以下归一化处理:
I  归一化: S ′ ( i , j ) = S ( i , j ) - Min i , j S ( i , j ) Max i , j S ( i , j )
II 对角线归一化: S ′ ′ ( i , j ) = S ′ 2 ( i , j ) S ′ ( i , i ) S ′ ( j , j )
得到矩阵S″。
通过以下步骤除去矩阵S″的负特征值:设矩阵S″具有特征值Λ={λ1,λ2,…,λN}和相应的特征向量V={V1,V2,…,VN},区别于普通的特征值分解此处要求 | λ i | V i T V i = 1 V i T V j = 0 其中i,j=1,2,…,N且i≠j;经过实验证实矩阵S″只有少量负特征值且其绝对值相对正特征值小的多,因此可以通过大于零的特征值λi>0(i=1,2,…,N*≤N)近似重建新核矩阵:S*=VD*V-1,其中 D * = diag [ λ 1 , λ 2 , . . . , λ N * , 0 , . . . , 0 ] .
3.生成核矩阵得到新空间坐标:
由于新核矩阵满足非负定性条件,定义 S i , j * = ( X i , X j ) = X i T X j , 其中 X i = ( x 1 i , x 2 i , . . . , x j i , . . . x N i ) , i,j=1,2…N,矩阵S*的非零特征值为λ1,λ2,…,λN*对应的特征向量V1,V2,…,VN*。记相关矩阵为 C = 1 N Σ j = 1 N X i X i T , 可以证明矩阵C的特
征值为λ1/N(i=1,2…N*),对应的特征向量满足 O i = Σ j = 1 N v j i X j , 其中Vj i为向量Vi的第j个元素。则氨基酸序列Pi的坐标可以表示为 X i 0 = ( ( X i , O 1 ) , ( X i , O 2 ) , · · · , ( X i , O N * ) ) = ( S i * V 1 , S i * V 2 , · · · S i * V N * ) , Si *为矩阵S*的第i行。至此由核函数得到新空间的显式坐标形式。
4.训练分类器并预测是否信号肽:
对新空间的N个氨基酸序列 P i ( x 1 i , x 2 i , · · · x N * i ) i = 1,2 , · · · N , 由训练样本集训练SVM分类器。当SVM采用线性核时核矩阵即为S*的子矩阵,对未知属性的序列预测其是否信号肽。
5.预测信号肽断裂点位置:
按照预测氨基酸序列与已知属性序列的相似度K(i,j)降序排列得到相似度从大到小的次序,借助于相似性大的氨基酸序列与预测信号肽的全局序列比对预测断裂点位置。由几条氨基酸序列预测的断裂点位置不一定完全一致,此时只能通过借助投票预测的最可能的位置作为断裂点。
与现有技术相比,本发明具有以下四个优点:①直接应用全局序列比对将氨基酸序列的相似性度量引入算法,避免了以往算法处理长度不一致的氨基酸序列问题导致的一系列缺点。②核函数源于生物界普遍应用的全局序列比对,由此加入了领域知识的核函数有效地将生物意义融入SVM算法中,可以有效提高预测准确率;③有效地探讨解决自定义核矩阵不满足非负定条件的问题;④通过加入删除点使对比氨基酸序列对对齐的全局序列比对,将氨基酸序列作为一个整体考虑,避免了以往滑动窗处理中相邻窗的相似性导致断裂点预测率不高的缺点。
本发明可以对现代细胞生物学的研究产生巨大影响。当一个细胞分裂时,大量的蛋白质和新的细胞器生成。如果一个蛋白质的分类信号改变了,蛋白质就会被运送到错误的细胞位置,引起各种疾病。因此准确预测信号肽剪切点有助于理解某些疾病的致病过程,进而有助于开发有效的治疗方案。
附图说明
图1为信号肽序列“52 AGP_ECOLI“和信号肽“52 PPA_ECOLI”前部分的序列比对结果示意。
具体实施方式
以下结合具体的实施例对本发明的技术方案作进一步详细描述。
本发明所利用的数据库采用Nielsen(Nielsen,H.,Engelbrecht,J.,Brunak S.,and von Heijne,G.(1997):“Identification of prokaryoticand eukaryotic signal peptides and prediction of their cleavage sites”“Protein Eng.”,1997,10,pp.1-6)所提供的数据。本发明对Human数据库、E.coli数据库、Gram-数据库和Gram+数据库进行预测,各组数据包含的信号肽序列和非信号肽序列个数分别为416和251,105和119,266和186,141和64。每个氨基酸序列数据包含序列的类别信息、序列的氨基酸排列以及断裂点位置。
整个系统实现过程如下:
1.属性的数字化。
对每组数据分别处理,以E.coli数据库为例说明。E.coli数据库包含105条信号肽序列和119条非信号肽序列共224条氨基酸序列,将氨基酸序列Pi的属性描述映射成整数标记yi,以1表示信号肽0表示非信号肽。
2.全局序列比对并建立相似度矩阵。
对每组数据中的每两条氨基酸序列Pi和Pj应用全局序列比对Needleman-wunsch算法,记录序列比对的结果,图1为E.coli数据库中信号肽序列“52 AGP_ECOLI“和信号肽“52 PPA_ECOLI”前部分的序列比对结果,第1、3行分别两序列,对应于第1、3行之间的第2行处的符号”|”为两序列一致的位点,黑体字母的左边为断裂点。另外序列Pi和Pj全局序列比对附加产生的评判值K(i,j)在本发明中作为度量两氨基酸序列的相似度,将所有相似度存入224×224的矩阵得到相似度矩阵S224×224,Si,j=K(i,j)(其中i,j=1,2,…224)。
3.生成核矩阵得到新空间坐标。
以E.coli数据库为例,相似度矩阵为S224×224,其为正定矩阵,首先进行归一化处理 S ′ ( i , j ) = S ( i , j ) - Min i , j S ( i , j ) Max i , j S ( i , j ) S ′ ′ ( i , j ) = S ′ 2 ( i , j ) S ′ ( i , j ) S ′ ( j , j ) , 其中(i,j=1,2,…224)。计算矩阵 S 224 × 224 * = S 224 × 224 ′ ′ 的特征值Λ={λ1,λ2,…,λN}与特征向量V={V1,V2,…,VN),要求|λi|×(Vi,Vi)=1且相互正交,新空间坐标为 X i 0 = ( S i * V 1 , S i * V 2 , · · · S i * V N * ) .
对于相似度矩阵负定的情况,以Human数据为例,对矩阵S667×667进行归一化处理 S ′ ( i , j ) = S ( i , j ) - Min i , j S ( i , j ) Max i , j S ( i , j ) S ′ ′ ( i , j ) = S ′ 2 ( i , j ) S ′ ( i , j ) S ′ ( j , j ) 后,其非负特征值 Λ = { λ 1 , λ 2 , · · · , λ N * } 与对应特征向量 V = { V 1 , V 2 , · · · , V N * } , 新核矩阵为S*=VD*V-1,新空间坐标 X i 0 = ( S i * V 1 , S i * V 2 , · · · S i * V N * ) .
4.训练分类器并预测是否信号肽。
分类器采用SVM分类器,由已知属性的N1个氨基酸序列训练SVM分类器,训练样本属性对为{Xi 0,yi}i=1,2,…N1,SVM采用线性核即为矩阵S*的子矩阵。由训练所得分类器对未知属性的N2=N-N1个样本检测。本发明SVM采用参数C=1000。
5.预测信号肽断裂点位置。
按照预测信号肽Pi与已知断裂点信号肽Pi的相似度K(i,j)降序排列,得到相似度从大到小的次序,借助于相似性大的氨基酸序列与预测信号肽的全局序列比对预测断裂点位置。
针对预测信号肽Pi从具有最大相似度的信号肽Pj开始,通过全局比对确定断裂点位置,如果Pj的断裂点位置与Pi的确切位置对应如图1所示则此点即为预测断裂点,如果对应点为删除点则删除点后的第一个氨基酸位置为预测断裂点。依照相似度递减的顺序,通过已知断裂点的信号肽得到一系列预测点,相似度大的几条序列对断裂点的预测相对一致,会有一处突出的位置,但是相似度相对小的序列会使得预测点很凌乱,于是通过投票预测的最可能的位置作为断裂点。本发明通过多条信号肽序列预测断裂点位置增加了预测的鲁棒性。
目前实验针对Human数据、E.coli数据、Gram-数据和Gram+数据的信号肽预测率分别为99.1%、98.2%、96.4%、97.6%,对于断裂点的预测率分别为75.5%、88.6%、74.3%、75.9%。这些结果提高了以往预测信号肽的正确率以及断裂点的预测率,从而对于理解某些疾病的致病过程有极大促进作用,进而有助于开发有效的治疗方案。

Claims (3)

1、一种基于序列比对核函数预测信号肽及其断裂点位置实现方法,其特征在于包括如下步骤:
1)属性的数字化:将氨基酸序列的是否属于信号肽的文字描述映射成整数属性并标记为yi,以1表示信号肽、0表示非信号肽;
2)全局序列比对并建立相似度矩阵:对每组数据中的每两条氨基酸序列应用全局序列比对Needleman-wunsch算法,记录序列比对的结果;并将全局序列比对附加产生的评判值组成矩阵作为度量氨基酸序列间相似度的相似度矩阵;
3)生成核矩阵得到新空间坐标:对于非负定相似度矩阵只进行归一化处理, S ′ ( i , j ) = S ( i , j ) - Min i , j S ( i , j ) Max i , j S ( i , j ) S ′ ′ ( i , j ) = S ′ 2 ( i , j ) S ′ ( i , i ) S ′ ( j , j ) , 其中(i,j=1,2,…224),计算矩阵S*=S″的特征值Λ={λ1,λ2,…,λN}与特征向量V={V1,V2,…,VN},要求|λi|×(Vi,Vi)=1且相处正交,新空间坐标为
X i 0 = ( S i * V 1 , S i * V 2 , · · · S i * V N * ) ;
4)训练分类器并预测是否信号肽:分类器采用SVM分类器,由已知属性的N1个氨基酸序列训练SVM分类器,训练样本属性对为 { X i 0 , y i } i = 1,2 , · · · N 1 , SVM采用线性核即为矩阵S*的子矩阵,由训练所得分类器对未知属性的N2=N-N1个样本检测;
5)预测信号肽断裂点位置:按照预测信号肽与已知断裂点信号肽的相似度降序排列,得到相似度从大到小的次序,借助于相似性大的氨基酸序列与预测信号肽的全局序列比对预测断裂点位置。
2、根据权利要求1所述的基于序列比对核函数预测信号肽及其断裂点位置实现方法,其特征是,所述的3),对于负定矩阵则需要在归一化基础上由其非负特征值 Λ = { λ 1 , λ 2 , · · · , λ N * } 与对应的特征向量 V = { V 1 , V 2 , · · · , V N * } , 重构新核矩阵S*=VD*V-1,由此得到新空间坐标 X i 0 = ( S i * V 1 , S i * V 2 , · · · S i * V N * ) .
3、根据权利要求1所述的基于序列比对核函数预测信号肽及其断裂点位置实现方法,其特征是,所述的5),具体为:针对预测信号肽Pi从具有最大相似度的信号肽Pj开始,通过全局比对确定断裂点位置,如果Pj的断裂点位置与Pi的确切位置对应则此点即为预测断裂点,如果对应点为删除点则删除点后的第一个氨基酸位置为预测断裂点;依照相似度递减的顺序,通过已知断裂点的信号肽得到一系列预测点,相似度大的几条序列对断裂点的预测相对一致,会有一处突出的位置,但是相似度相对小的序列会使得预测点很凌乱,于是通过投票预测的最可能的位置作为断裂点。
CNA2006100242716A 2006-03-02 2006-03-02 基于序列比对核函数预测信号肽及其断裂点位置实现方法 Pending CN1818916A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2006100242716A CN1818916A (zh) 2006-03-02 2006-03-02 基于序列比对核函数预测信号肽及其断裂点位置实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2006100242716A CN1818916A (zh) 2006-03-02 2006-03-02 基于序列比对核函数预测信号肽及其断裂点位置实现方法

Publications (1)

Publication Number Publication Date
CN1818916A true CN1818916A (zh) 2006-08-16

Family

ID=36918927

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2006100242716A Pending CN1818916A (zh) 2006-03-02 2006-03-02 基于序列比对核函数预测信号肽及其断裂点位置实现方法

Country Status (1)

Country Link
CN (1) CN1818916A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102034029A (zh) * 2010-12-21 2011-04-27 福建师范大学 一种基于贝叶斯网络的信号肽剪切位点预测方法
CN106951735A (zh) * 2017-03-10 2017-07-14 上海交通大学 一种基于分层混合模型的信号肽及其切割位点的预测方法
CN109754843A (zh) * 2018-12-04 2019-05-14 志诺维思(北京)基因科技有限公司 一种探测基因组小片段插入缺失的方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102034029A (zh) * 2010-12-21 2011-04-27 福建师范大学 一种基于贝叶斯网络的信号肽剪切位点预测方法
CN106951735A (zh) * 2017-03-10 2017-07-14 上海交通大学 一种基于分层混合模型的信号肽及其切割位点的预测方法
CN106951735B (zh) * 2017-03-10 2019-06-04 上海交通大学 一种基于分层混合模型的信号肽及其切割位点的预测方法
CN109754843A (zh) * 2018-12-04 2019-05-14 志诺维思(北京)基因科技有限公司 一种探测基因组小片段插入缺失的方法及装置

Similar Documents

Publication Publication Date Title
Tsuda et al. Marginalized kernels for biological sequences
CN107622182B (zh) 蛋白质局部结构特征的预测方法及系统
CN102999756B (zh) 基于gpu实现pso-svm对道路标志的识别方法
CN112614538A (zh) 一种基于蛋白质预训练表征学习的抗菌肽预测方法和装置
CN110289050B (zh) 一种基于图卷积和词向量的药物-靶标相互作用预测方法
Dong et al. Identification of DNA-binding proteins by auto-cross covariance transformation
Bao et al. Prediction of protein structure classes with flexible neural tree
CN112100410A (zh) 一种基于语义条件关联学习的跨模态检索方法及系统
Zhang et al. Protein family classification from scratch: a CNN based deep learning approach
Chen et al. Recurrent kernel networks
CN114580566A (zh) 一种基于间隔监督对比损失的小样本图像分类方法
CN115101146A (zh) 基于Weisfeiler-Lehman与深度神经网络的药物靶点预测方法及系统
CN116013428A (zh) 基于自监督学习的药物靶标通用预测方法、设备及介质
CN105046323A (zh) 一种正则化rbf网络多标签分类方法
CN115472221A (zh) 一种基于深度学习的蛋白质适应度预测方法
CN1818916A (zh) 基于序列比对核函数预测信号肽及其断裂点位置实现方法
CN109215733B (zh) 一种基于残基接触信息辅助评价的蛋白质结构预测方法
CN112365931B (zh) 一种用于预测蛋白质功能的数据多标签分类方法
Dhyaram et al. RANDOM SUBSET FEATURE SELECTION FOR CLASSIFICATION.
CN113052367A (zh) 一种基于集成机器学习高效预测钙钛矿的稳定性的方法
CN112085245A (zh) 一种基于深度残差神经网络的蛋白质残基接触预测方法
Sun et al. Deep generative autoencoder for low-dimensional embeding extraction from single-cell RNAseq data
Shang et al. MIME-KNN: Improve KNN Classifier Performance Include Classification Accuracy and Time Consumption
Howe et al. Protein residue contact prediction using support vector machine
Liu et al. PEST: A General-Purpose Protein Embedding Model for Homology Search

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication