CN103902853A - 基于支持向量机的剪接位点识别方法 - Google Patents

基于支持向量机的剪接位点识别方法 Download PDF

Info

Publication number
CN103902853A
CN103902853A CN201210572684.3A CN201210572684A CN103902853A CN 103902853 A CN103902853 A CN 103902853A CN 201210572684 A CN201210572684 A CN 201210572684A CN 103902853 A CN103902853 A CN 103902853A
Authority
CN
China
Prior art keywords
sequence
vector
proper vector
splice site
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210572684.3A
Other languages
English (en)
Other versions
CN103902853B (zh
Inventor
魏丹
姜青山
魏彦杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201210572684.3A priority Critical patent/CN103902853B/zh
Publication of CN103902853A publication Critical patent/CN103902853A/zh
Application granted granted Critical
Publication of CN103902853B publication Critical patent/CN103902853B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于支持向量机的剪接位点识别方法,包括:构建数据集,数据集包括训练数据集及测试数据集;提取训练数据集的剪接位点序列的特征向量,记为第一特征向量;提取训练数据集的剪接位点上游序列及下游序列的特征向量,记为第二特征向量;根据第一特征向量及第二特征向量选取所述训练数据集的特征向量,记为第三特征向量;根据第三特征向量,构建SVM分类器;根据分类器识别所述测试数据集的剪接位点。本发明采用训练数据集构建马尔可夫模型,用该模型参数将训练数据集及测试数据集转换成特征向量,并将该特征向量和剪接位点上、下游密码子使用偏性的特征向量,进行线性组合,以提取剪接位点邻近序列中更多信息,从而提高分类精度。

Description

基于支持向量机的剪接位点识别方法
技术领域
本发明涉及基因预测技术,尤其涉及一种基于支持向量机的剪接位点识别方法。
背景技术
基因序列由碱基A、T、G、C组成。真核基因是由蛋白质编码序列(外显子)和非蛋白质编码序列(内含子)两部分组成的。剪接位点是外显子编码区与内含子非编码区的边界,外显子和内含子在序列水平上有明显的区别,编码区中每相邻的三个核苷酸组成的三联体称为一个密码子(codon),通常一个密码子对应一种氨基酸,而一种氨基酸可以有多个密码子,研究表明同一种氨基酸对应的不同密码子的使用频率是不一定相同的。氨基酸使对其相应的各种密码子使用频次的不同,称为密码子的使用偏性。密码子的使用偏性是编码区的特征,通过统计其在编码区和非编码区的分布差异可以识别剪接位点。剪接位点识别是基因预测分析的一个重要组成部分。精确地识别剪切位点对探测进而确定基因的位置有着重要的价值,有助于提高基因识别的精度和效率。
绝大部分剪接位点都以供体位点多为GT,受体位点多为AG为特征,一般被称为剪接位点识别的GT-AG法则。然而这些二聚体的出现并不意味着它们就是剪接位点。实际上,在生物序列中这些二聚体在非剪接位点位置也经常出现。因此,识别剪接位点需要从众多的保守供体位点以及受体位点中分辨出真正的剪接位点,可以把剪接位点识别看成一个分类问题。
支持向量机(support vector machine,SVM)是一种基于机器学习的模式识别方法,它在学习模型的复杂性和学习能力之间寻求最佳折衷,以此希望获得较好的泛化能力。SVM能够出色的解决分类问题并受到广泛地关注。现有基于SVM的剪接位点识别方法对当前位点到下一位点的碱基转移进行了统计,考虑了相邻碱基间的相关性,对剪接位点附近序列的保守性进行了分析,但没有考虑剪接位点附件序列的密码子使用偏性,忽略了对剪接位点本身所含分类信息的充分利用,从而影响了整体分类性能。
发明内容
基于此,有必要针对上述剪接位点的识别方法存在的缺陷,提供一种识别精确度高的基于支持向量机的剪接位点识别方法。
一种基于支持向量机的剪接位点识别方法,包括下述步骤:
构建数据集,所述数据集包括训练数据集及测试数据集,所述训练数据集包括剪接位点序列,所述剪接位点序列包括真剪接位点序列和假剪接位点序列,所述真剪接位点序列即为正样本,所述假剪接位点序列即为负样本;
提取所述训练数据集的剪接位点序列的特征向量,记为第一特征向量;
提取所述训练数据集的剪接位点上游序列及下游序列的特征向量,记为第二特征向量;
根据所述第一特征向量及第二特征向量获取所述训练数据集的特征向量,记为第三特征向量;
根据所述第三特征向量,构建SVM分类器;
根据所述分类器识别所述测试数据集的剪接位点。
在本实施例中,其中,提取所述训练数据集的剪接位点序列的特征向量,记为第一特征向量,包括下述步骤:
将所述训练数据集中的正样本构建一阶马尔可夫模型MT
将所述训练数据集中的负样本构建一阶马尔可夫模型MF
基于所述一阶马尔可夫模型MT构建MT模型参数,并通过所述MT模型参数将所述剪接位点序列转换为特征向量,记为第四特征向量,其中,所述MT模型参数为{p(si|si-1),i=i=1,2,…,l},其中si,si-1∈{A,G,T,C},l为序列长度,p(si|si-1)表示在位置i-1和i上分别出现碱基si、si-1的概率,所述第四特征向量为(p1,p2,…,pl-1);
基于所述一阶马尔可夫模型MF构建MF模型参数,并通过所述MF模型参数将所述剪接位点序列转换为特征向量,记为第五特征向量,其中所述MF模型参数为{p'(si┃si-1),i=1,2…….,l,其中si,si-1∈{A,G,T,C},l为序列长度,p′(si|si-1)表示在位置i-1和i上分别出现碱基si、si-1的概率,所述第五特征向量为(p′1,p′2,…,p′l-1);
将所述第四特征向量及第五特征向量线性组合,得到所述剪接位点序列的特征向量,记为第一特征向量,所述第一特征向量为(p1,p2,…,pl-1,p′1,p′2...,p′l-1)。
在本实施例中,其中,提取所述训练数据集的剪接位点上游序列及下游序列的特征向量,记为第二特征向量,包括下述步骤:
构造公式其中,Cjk是氨基酸j对应的密码子k在所述剪接位点序列中出现的次数,nj是氨基酸j对应的密码子个数,fjk为密码子使用偏性;
依据上述公式,分别计算所述剪接位点上游序列及下游序列的密码子使用偏性;
根据所述剪接位点上游序列及下游序列的密码子使用偏性,提取所述剪接位点上游序列及下游序列的特征向量,记为第二特征向量,所述第二特征向量为(f1,f2,...,f64,f65,...,f128),其中fi为密码子使用偏性。
在本实施例中,其中,根据所述第一特征向量及第二特征向量选取所述训练数据集的特征向量,记为第三特征向量,包括下述步骤:
计算所述第一特征向量(p1,p2,…,pl-1,p′1,p′2...,p′l-1)中每个特征向量的F-score并选取高分值的向量组合成第一子向量,所述第一子向量为(p1,p2,...);
计算所述第二特征向量(f1,f2,…,f64,f65,…,f128)为中每个特征向量的F-score并选取高分值的向量组合成第二子向量,所述第二子向量为(f1,f2,...);
将所述第一子向量与第二子向量线性组合,得到所述训练数据集的特征向量,记为第三特征向量,所述第三特征向量为(p1,p2,...,f1,f2,...)。
在本实施例中,其中,计算所述第一特征向量(p1,p2,…,pl-1,p′1,p′2…,p′l-1)中每个特征向量的F-score及计算第二特征向量(f1,f2,...,f64,f65,...,f128)为中每个特征向量的F-score,通过采用下述构造公式实现:
F ( η g ) = ( η ‾ g + - η ‾ g ) 2 + ( η ‾ g - - η ‾ g ) 2 σ g + + σ g -
其中,
Figure BDA00002650724200041
Figure BDA00002650724200042
Figure BDA00002650724200043
分别是训练数据集中所有序列、正样本序列、负样本序列中第g个向量的均值,
Figure BDA00002650724200044
分别是正样本序列、负样本序列中第g个向量的标准方差。
在本实施例中,其中,根据所述分类器识别所述测试数据集的剪接位点还包括下述步骤:
根据所述训练数据集构建的MT模型参数将所述测试数据集中的样本序列转换为特征向量(p1,p2,...,pl-1),记为第六特征向量;
根据训练数据集构建的MF模型参数将所述测试数据集中的样本序列转换为特征向量(p′1,p′2,...,p′l-1),记为第七特征向量;
将所述第六特征向量及第七特征向量线性组合得到组合特征向量(p1,p2,…,pl-1,p′1,p′2...,p′l-1),记为第八特征向量;
Figure BDA00002650724200046
码子k在所述剪接位点序列中出现的次数,nj是氨基酸j对应的密码子个数,fjk为密码子使用偏性;
通过采用下述构造公式分别计算所述第八特征向量及第九特征向量的F-score,并分别得到特征向量子集(p1,p2,…)及密码子使用偏性向量子集(f1,f2,…),其中,所述公式为:
F ( η g ) = ( η ‾ g + - η ‾ g ) 2 + ( η ‾ g - - η ‾ g ) 2 σ g + + σ g -
其中,
Figure BDA00002650724200048
Figure BDA00002650724200049
Figure BDA000026507242000410
分别是训练数据集中所有序列、正样本序列、负样本序列中第g个向量的均值,
Figure BDA000026507242000411
Figure BDA000026507242000412
分别是正样本序列、负样本序列中第g个向量的标准方差;
将上述特征向量(p1,p2,…)及密码子使用偏性向量子集(f1,f2,...)线性组合得到测试数据集样本序列特性向量(p1,p2,…,f1,f2,...);
将上述测试数据集样本序列特性向量(p1,p2,…,f1,f2,...)输入所述SVM分类器。
上述基于支持向量机的剪接位点识别方法通过提取训练数据集的剪接位点序列的特征向量,记为第一特征向量;提取训练数据集的剪接位点上游序列及下游序列的特征向量,记为第二特征向量;根据第一特征向量及第二特征向量获取训练数据集的特征向量,记为第三特征向量;根据第三特征向量,构建SVM分类器;根据分类器识别测试数据集的剪接位点。本发明采用训练数据集构建马尔可夫模型,用该模型参数将训练数据集及测试数据集转换成特征向量,并将该特征向量和剪接位点上、下游密码子使用偏性的特征向量,进行线性组合,以提取剪接位点邻近序列中更多信息,从而提高分类精度。
附图说明
图1为本发明实施例提供的基于支持向量机的剪接位点识别方法的示意图。
图2为本发明实施例提供的提取训练数据集的剪接位点序列的特征向量的步骤流程图。
图3为本发明实施例提供的提取训练数据集的剪接位点上游序列及下游序列的特征向量的步骤流程图。
图4为本发明实施例提供的根据上述第一特征向量及第二特征向量选取上述训练数据集的特征向量的步骤流程图。
图5为本发明实施例提供的根据分类器识别所述测试数据集的剪接位点的步骤流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,图1为本发明实施例提供的基于支持向量机的剪接位点识别方法的步骤流程图,包括下述步骤:
步骤S110:构建数据集。在本发明提供的实施例中,数据集取自人类剪接位点数据集(Homo Sapiens Splice Sites Data set,HS3D)。数据集包括训练数据集及测试数据集。训练数据集包括剪接位点序列。剪接位点序列包括真剪接位点序列和假剪接位点序列。真剪接位点序列即为正样本,假剪接位点序列即为负样本,其中,正样本和负样本的长度为l。正样本含有真正剪接位点的序列,负样本含有GT或AG,但这些二聚体并不是真正的剪接位点。可以理解,测试数据集中的正、负样本类别未知,测试数据集中的正样本真正剪接位点也未知。
步骤S120:提取训练数据集的剪接位点序列的特征向量,记为第一特征向量。
请参阅图2,图2为本发明实施例提供的提取训练数据集的剪接位点序列的特征向量的步骤流程图,包括下述步骤:
步骤S121:将训练数据集中的正样本构建一阶马尔可夫模型MT。在本实施例中,采用目前采用的技术,将训练数据集中的正样本构建一阶马尔可夫模型MT
步骤S122:将训练数据集中的负样本构建一阶马尔可夫模型MF。在本实施例中,采用目前采用的技术,将训练数据集中的负样本构建一阶马尔可夫模型MF
步骤S123:基于上述一阶马尔可夫模型MT构建MT模型参数,并通过MT模型参数将剪接位点序列转换为特征向量,记为第四特征向量,其中,MT模型参数为{p(si|si-1),i=i=1,2,...,l},第四特征向量为(p1,p2,…,pl-1)。可以理解,由于马尔可夫参数位置特异性的一阶条件概率为:
pi(si)=p(si|si-1)
其中,si,si-1∈{A,G,T,C},p(si|si-1)表示在位置i-1和i上分别出现碱基si、si-1的概率,则上述MT模型可用参数集:{p(si|si-1),i=i=1,2,...,l}表示,用MT模型参数将剪接位点序列转换为特征向量(p1,p2,…,pl-1)。可以理解,此时的剪接位点序列不仅包括正样本含有真正剪接位点的序列,而且还包括非真正的剪接位点序列(假剪接位点序列)。
步骤S124:基于上述一阶马尔可夫模型MF构建MF模型参数,并通过MF模型参数将剪接位点序列转换为特征向量,记为第五特征向量,其中MF模型参数为{p'(si┃si-1),i=1,2……,l},其中si,si-1∈{A,G,T,C},1为序列长度,p′(si|si-1)表示在位置i-1和i上分别出现碱基si、si-1的概率,第五特征向量为(p′1,p′2,...,p′l-1)。可以理解,由于马尔可夫参数位置特异性的一阶条件概率为:
pi(si)=p'(si┃si-1)
则上述MF模型可用参数集:{p'(si┃si-1),i=1,2……,l}表示,用MF模型参数将剪接位点序列转换为特征向量(p′1,p′2.. .,p′l-1)。可以理解,此时的剪接位点序列不仅包括真正剪接位点序列,而且还包括非真正的剪接位点序列(假剪接位点序列)。
步骤S125:将第四特征向量及第五特征向量线性组合,得到剪接位点序列的特征向量,记为第一特征向量,第一特征向量为(p1,p2,…,pl-1,p′1,p′2...,p′l-1)。在本发明实施例中,将上述第四特征向量及第五特征向量进行线性组合,得到剪接位点序列的特征向量(p1,p2,...,pl-1,p′1,p′2...,p′l-1),记为第一特征向量。
可以理解,经上述步骤S121~步骤S125后,可以提取训练数据集的剪接位点序列的特征向量(p1,p2,…,pl-1,p′1,p′2...,p′l-1),记为第一特征向量。
步骤S130:提取训练数据集的剪接位点上游序列及下游序列的特征向量,记为第二特征向量。
请参阅图3,图3为本发明实施例提供的提取训练数据集的剪接位点上游序列及下游序列的特征向量的步骤流程图,包括下述步骤:
步骤S131:构造公式
Figure BDA00002650724200081
其中,Cjk是氨基酸j对应的密码子k在所述剪接位点序列中出现的次数,nj是氨基酸j对应的密码子个数,fjk为密码子使用偏性。
步骤S132:依据上述公式,分别计算上剪接位点上游序列及下游序列的密码子使用偏性,并分别记为:f1,f2,f3……f64,f65……f128
步骤S133:根据上述剪接位点上游序列及下游序列的密码子使用偏性,提取剪接位点上游序列及下游序列的特征向量,记为第二特征向量,其中,第二特征向量为(f1,f2,...,f64,f65,...,f128)。
可以理解,根据上述步骤S131~步骤S133,可以提取训练数据集的剪接位点上游序列及下游序列的特征向量(f1,f2,...,f64,f65,...,f128),并记为第二特征向量为(f1,f2,...,f64,f65,...,f128)
步骤S140:根据上述第一特征向量及第二特征向量选取上述训练数据集的特征向量,记为第三特征向量。
请参阅图4,图4为本发明实施例提供的根据上述第一特征向量及第二特征向量选取上述训练数据集的特征向量的步骤流程图,包括下述步骤:
步骤S141:计算第一特征向量(p1,p2,…,pl-1,p′1,p′2...,p′l-1)中每个特征向量的F-score并选取高分值的向量组合成第一子向量,其中,第一子向量为(p1,p2,…)。在本发明提供的实施例中,通过下述构造公式实现第一特征向量(p1,p2,…,pl-1,p′1,p′2...,p′l-1)中每个特征向量的F-score的计算:
F ( η g ) = ( η ‾ g + - η ‾ g ) 2 + ( η ‾ g - - η ‾ g ) 2 σ g + + σ g -
其中,
Figure BDA00002650724200083
Figure BDA00002650724200085
分别是训练数据集中所有序列、正样本序列、负样本序列中第g个向量的均值,
Figure BDA00002650724200086
Figure BDA00002650724200087
分别是正样本序列、负样本序列中第g个向量的标准方差。通过上述公式完成了第一特征向量(p1,p2,...,pl-1,p′1,p′2…,p′l-1)中每个特征向量的F-score,并选取其中高分值的向量组合成第一子向量,其中,第一子向量为(p1,p2,…)。可以理解,若某个特征对应的F-score值越高,则该特征越具有高决策性。
步骤S142:计算第二特征向量(f1,f2,...,f64,f65,...,f128)为中每个特征向量的F-score并选取高分值的向量组合成第二子向量,第二子向量为(f1,f2,...)。在本发明提供的实施例中,通过下述构造公式实现第一特征向量(f1,f2,...,f64,f65,...,f128)中每个特征向量的F-score的计算:
F ( η g ) = ( η ‾ g + - η ‾ g ) 2 + ( η ‾ g - - η ‾ g ) 2 σ g + + σ g -
其中,
Figure BDA00002650724200094
分别是训练数据集中所有序列、正样本序列、负样本序列中第g个向量的均值,
Figure BDA00002650724200095
Figure BDA00002650724200096
分别是正样本序列、负样本序列中第g个向量的标准方差。通过上述公式完成了第二特征向量(f1,f2,...,f64,f65,...,f128)中每个特征向量的F-score,并选取其中高分值的向量组合成第二子向量,其中,第二子向量为(f1,f2,…),其中fi为密码子使用偏性。
步骤S143:将第一子向量与第二子向量线性组合,得到训练数据集的特征向量,记为第三特征向量,第三特征向量为(p1,p2,…,f1,f2,...)。在本发明提供的实施例中,将第一子向量与第二子向量线性组合,得到训练数据集的特征向量(p1,p2,…,f1,f2,…),并记为第三特征向量。
可以理解,经步骤S141~步骤S143后,可以完成上述训练数据集的特征向量的选取,并记为第三特征向量。
步骤S150:根据上述第三特征向量,构建SVM分类器。在本发明提供的实施例中,将上述训练数据集的特征向量,即第三特征向量(p1,p2,…,f1,f2,...)作为SVM的输入,构建SVM分类器。可以理解,由于第三特征向量(p1,p2,...,f1,f2,...)包含已知的真剪接位点及假剪接位点。通过将第三特征向量(p1,p2,…,f1,f2,...)输入SVM,SVM寻找一个分类平面,该分类平面能够尽可能将剪接位点和非剪接位点正确分开,并以相关联的类标号,表示不同的两类,记为ym,其中,ym=+1表示剪接位点,ym=-1表示非剪接位点,且同时使分开的两类数据点距离分类平面最远,从而完成了SVM分类器的构建。
步骤S160:根据上述SVM分类器识别测试数据集的剪接位点。
请参阅图5,图5为本发明提供实施例提供的根据分类器识别所述测试数据集的剪接位点的步骤流程图,具体包括下述步骤:
步骤S161:根据训练数据集构建的MT模型参数将测试数据集中的样本序列转换为特征向量(p1,p2,...,pl-1),记为第六特征向量。其中,MT模型参数为{p(si|si-1),i=i=1,2,…,l},其中,si,si-1∈{A,G,T,C},p(si|si-1)表示在位置i-1和i上分别出现碱基si、si-1的概率。
步骤S162:根据训练数据集构建的MF模型参数将测试数据集中的样本序列转换为特征向量(p′1,p′2,.,p′l-1),记为第七特征向量。其中MF模型参数为{p'(si┃si-1),i1,2……,l},其中si,si-1∈{A,G,T,C},l为序列长度,p'(si|si-1)表示在位置i-1和i上分别出现碱基si、si-1的概率。
步骤S163:将第六特征向量及第七特征向量线性组合得到组合特征向量(p1,p2,…,pl-1,p'1,p′2...,p′l-1),记为第八特征向量。
步骤S164:根据密码子使用偏性
Figure BDA00002650724200101
将训练数据集中的剪接位点序列转换为(f1,f2,...,f64,f65,...,f128),记为第九特征向量,其中,Cjk是氨基酸j对应的密码子k在所述剪接位点序列中出现的次数,nj是氨基酸j对应的密码子个数,fjk为密码子使用偏性。
步骤S165:通过采用下述构造公式分别计算第八特征向量及第九特征向量的F-score,并分别得到特征向量(p1,p2,…)及密码子使用偏性向量子集(f1,f2,...),其中,上述公式为:
F ( η g ) = ( η ‾ g + - η ‾ g ) 2 + ( η ‾ g - - η ‾ g ) 2 σ g + + σ g -
其中,
Figure BDA00002650724200103
Figure BDA00002650724200105
分别是训练数据集中所有序列、正样本序列、负样本序列中第g个向量的均值,
Figure BDA00002650724200106
Figure BDA00002650724200107
分别是正样本序列、负样本序列中第g个向量的标准方差。
步骤S166:将上述特征向量(p1,p2,…)及密码子使用偏性向量子集(f1,f2,…)线性组合得到测试数据集样本序列特性向量(p1,p2,…,f1,f2,...)。
步骤S167:将上述测试数据集样本序列特征向量(p1,p2,…,f1,f2,...)输入SVM分类器。
可以理解,在上述SVM分类器中输入上述测试数据集的样本序列的特征向量,SVM分类器根据上述寻找到的分类平面,对测试数据集的样本序列进行分类,并输出分类结果,根据分类结果判断测试数据集的剪接位点,其中,输出+1为真剪接位点,输出-1则为假剪接位点。
上述基于支持向量机的剪接位点识别方法通过提取训练数据集的剪接位点序列的特征向量,记为第一特征向量;提取训练数据集的剪接位点上游序列及下游序列的特征向量,记为第二特征向量;根据第一特征向量及第二特征向量获取训练数据集的特征向量,记为第三特征向量;根据第三特征向量,构建SVM分类器;根据分类器识别测试数据集的剪接位点。本发明采用训练数据集构建马尔可夫模型,用该模型参数将训练数据集及测试数据集转换成特征向量,并将该特征向量和剪接位点上、下游密码子使用偏性特征向量,进行线性组合,以提取剪接位点邻近序列中更多信息,从而提高分类精度。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (6)

1.一种基于支持向量机的剪接位点识别方法,其特征在于,包括下述步骤:
构建数据集,所述数据集包括训练数据集及测试数据集,所述训练数据集包括剪接位点序列,所述剪接位点序列包括真剪接位点序列和假剪接位点序列,所述真剪接位点序列即为正样本,所述假剪接位点序列即为负样本;
提取所述训练数据集的剪接位点序列的特征向量,记为第一特征向量;
提取所述训练数据集的剪接位点上游序列及下游序列的特征向量,记为第二特征向量;
根据所述第一特征向量及第二特征向量选取所述训练数据集的特征向量,记为第三特征向量;
根据所述第三特征向量,构建SVM分类器;
根据所述分类器识别所述测试数据集的剪接位点。
2.根据权利要求1所述的基于支持向量机的剪接位点识别方法,其特征在于,其中,提取所述训练数据集的剪接位点序列的特征向量,记为第一特征向量,包括下述步骤:
将所述训练数据集中的正样本构建一阶马尔可夫模型MT
将所述训练数据集中的负样本构建一阶马尔可夫模型MF
基于所述一阶马尔可夫模型MT构建MT模型参数,并通过所述MT模型参数将所述剪接位点序列转换为特征向量,记为第四特征向量,其中,所述MT模型参数为{p(si|si-1),i=i=1,2,…,l},其中si,si-1∈{A,G,T,C},l为序列长度,p(si|si-1)表示在位置i-1和i上分别出现碱基si、si-1的概率,所述第四特征向量为(p1,p2,…,pl-1);
基于所述一阶马尔可夫模型MF构建MF模型参数,并通过所述MF模型参数将所述剪接位点序列转换为特征向量,记为第五特征向量,其中所述MF模型参数为{p'(si┃si-1),i=1,2…….,l},其中si,si-1∈{A,G,T,C},l为序列长度,p′(si|si-1)表示在位置i-1和i上分别出现碱基si、si-1的概率,所述第五特征向量为(p′1,p′2,…,p′l-1);
将所述第四特征向量及第五特征向量线性组合,得到所述剪接位点序列的特征向量,记为第一特征向量,所述第一特征向量为(p1,p2,…,pl-1,p′1,p′2...,p′l-1)。
3.根据权利要求1所述的基于支持向量机的剪接位点识别方法,其特征在于,其中,提取所述训练数据集的剪接位点上游序列及下游序列的特征向量,记为第二特征向量,包括下述步骤:
构造公式
Figure FDA00002650724100021
其中,Cjk是氨基酸j对应的密码子k在所述剪接位点序列中出现的次数,nj是氨基酸j对应的密码子个数,fjk为密码子使用偏性;
依据上述公式,分别计算所述剪接位点上游序列及下游序列的密码子使用偏性;
根据所述剪接位点上游序列及下游序列的密码子使用偏性,提取所述剪接位点上游序列及下游序列的特征向量,记为第二特征向量,所述第二特征向量为(f1,f2,...,f64,f65,...,f128),其中fi为密码子使用偏性。
4.根据权利要求1或2或3所述的基于支持向量机的剪接位点识别方法,其特征在于,其中,根据所述第一特征向量及第二特征向量选取所述训练数据集的特征向量,记为第三特征向量,包括下述步骤:
计算所述第一特征向量(p1,p2,…,pl-1,p′1,p′2...,p′l-1)中每个特征向量的F-score并选取高分值的向量组合成第一子向量,所述第一子向量为(p1,p2,…);
计算所述第二特征向量(f1,f2,...,f64,f65,...,f128)为中每个特征向量的F-score并选取高分值的向量组合成第二子向量,所述第二子向量为(f1,f2,…);
将所述第一子向量与第二子向量线性组合,得到所述训练数据集的特征向量,记为第三特征向量,所述第三特征向量为(p1,p2,…,f1,f2,...)。
5.根据权利要求4所述的基于支持向量机的剪接位点识别方法,其特征在于,其中,计算所述第一特征向量(p1,p2,…,pl-1,p′1,p′2...,p′l-1)中每个特征向量的F-score及计算第二特征向量(f1,f2,...,f64,f65,...,f128)为中每个特征向量的F-score,通过采用下述构造公式实现:
F ( η g ) = ( η ‾ g + - η ‾ g ) 2 + ( η ‾ g - - η ‾ g ) 2 σ g + + σ g -
其中,
Figure FDA00002650724100023
Figure FDA00002650724100024
分别是训练数据集中所有序列、正样本序列、负样本序列中第g个向量的均值,
Figure FDA00002650724100026
Figure FDA00002650724100027
分别是正样本序列、负样本序列中第g个向量的标准方差。
6.根据权利要求1所述的基于支持向量机的剪接位点识别方法,其特征在于,其中,根据所述分类器识别所述测试数据集的剪接位点还包括下述步骤:
根据所述训练数据集构建的MT模型参数将所述测试数据集中的样本序列转换为特征向量(p1,p2,...,pl-1),记为第六特征向量;
根据训练数据集构建的MF模型参数将所述测试数据集中的样本序列转换为特征向量(p′1,p′2,...,p′l-1),记为第七特征向量;
将所述第六特征向量及第七特征向量线性组合得到组合特征向量(p1,p2,…,pl-1,p′1,p′2...,p′l-1),记为第八特征向量;
Figure FDA00002650724100031
码子k在所述剪接位点序列中出现的次数,nj是氨基酸j对应的密码子个数,fjk为密码子使用偏性;
通过采用下述构造公式分别计算所述第八特征向量及第九特征向量的F-score,并分别得到特征向量子集(p1,p2,…)及密码子使用偏性向量子集(f1,f2,…),其中,所述公式为:
F ( η g ) = ( η ‾ g + - η ‾ g ) 2 + ( η ‾ g - - η ‾ g ) 2 σ g + + σ g -
其中,
Figure FDA00002650724100033
Figure FDA00002650724100034
Figure FDA00002650724100035
分别是训练数据集中所有序列、正样本序列、负样本序列中第g个向量的均值,
Figure FDA00002650724100036
Figure FDA00002650724100037
分别是正样本序列、负样本序列中第g个向量的标准方差;
将上述特征向量(p1,p2,…)及密码子使用偏性向量子集(f1,f2,…)线性组合得到测试数据集样本序列特性向量(p1,p2,…,f1,f2,...);
将上述测试数据集样本序列特性向量(p1,p2,…,f1,f2,...)输入所述SVM分类器。
CN201210572684.3A 2012-12-25 2012-12-25 基于支持向量机的剪接位点识别方法 Active CN103902853B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210572684.3A CN103902853B (zh) 2012-12-25 2012-12-25 基于支持向量机的剪接位点识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210572684.3A CN103902853B (zh) 2012-12-25 2012-12-25 基于支持向量机的剪接位点识别方法

Publications (2)

Publication Number Publication Date
CN103902853A true CN103902853A (zh) 2014-07-02
CN103902853B CN103902853B (zh) 2017-04-05

Family

ID=50994170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210572684.3A Active CN103902853B (zh) 2012-12-25 2012-12-25 基于支持向量机的剪接位点识别方法

Country Status (1)

Country Link
CN (1) CN103902853B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598078A (zh) * 2015-01-19 2015-05-06 青岛海信移动通信技术股份有限公司 一种触摸屏检测方法及终端
CN104834834A (zh) * 2015-04-09 2015-08-12 苏州大学张家港工业技术研究院 一种启动子识别系统的构建方法和装置
CN107742063A (zh) * 2017-10-20 2018-02-27 桂林电子科技大学 一种原核生物σ54启动子的预测方法
CN109308935A (zh) * 2018-09-10 2019-02-05 天津大学 一种基于支持向量机预测非编码dna的方法及应用平台
CN114270323A (zh) * 2019-11-22 2022-04-01 日本有人宇宙系统有限公司 人工智能系统的安全性验证系统、安全性验证方法以及安全性验证程序

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
AKMA BATEN等: "Splice site identification using probabilistic parameters and SVM classification", 《BMC BIOINFORMATICS》 *
DAN WEI等: "A New Classification Method for Human Gene Splice Site Prediction", 《HIS 2012》 *
吴建盛等: "基于支持向量机的细菌基因组水平转移基因预测", 《生物化学与生物物理进展》 *
闫晓强: "RNA剪接识别研究", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598078A (zh) * 2015-01-19 2015-05-06 青岛海信移动通信技术股份有限公司 一种触摸屏检测方法及终端
CN104598078B (zh) * 2015-01-19 2017-07-11 青岛海信移动通信技术股份有限公司 一种触摸屏检测方法及终端
CN104834834A (zh) * 2015-04-09 2015-08-12 苏州大学张家港工业技术研究院 一种启动子识别系统的构建方法和装置
CN107742063A (zh) * 2017-10-20 2018-02-27 桂林电子科技大学 一种原核生物σ54启动子的预测方法
CN109308935A (zh) * 2018-09-10 2019-02-05 天津大学 一种基于支持向量机预测非编码dna的方法及应用平台
CN114270323A (zh) * 2019-11-22 2022-04-01 日本有人宇宙系统有限公司 人工智能系统的安全性验证系统、安全性验证方法以及安全性验证程序
CN114270323B (zh) * 2019-11-22 2023-02-21 日本有人宇宙系统有限公司 人工智能系统的安全性验证系统、安全性验证方法
US11593253B2 (en) 2019-11-22 2023-02-28 Japan Manned Space Systems Corporation Safety verification system for artificial intelligence system, safety verification method, and safety verification program

Also Published As

Publication number Publication date
CN103902853B (zh) 2017-04-05

Similar Documents

Publication Publication Date Title
Meng et al. Towards a weakly supervised framework for 3d point cloud object detection and annotation
CN103902853A (zh) 基于支持向量机的剪接位点识别方法
Wan et al. Machine learning for protein subcellular localization prediction
CN113971209B (zh) 一种基于注意力机制增强的无监督跨模态检索方法
CN111598214A (zh) 一种基于图卷积神经网络的跨模态检索方法
CN111832615A (zh) 一种基于前景背景特征融合的样本扩充方法及系统
CN102129560B (zh) 字符识别的方法和设备
Chen et al. Automated image analysis of protein localization in budding yeast
Li et al. Automated analysis and reannotation of subcellular locations in confocal images from the human protein atlas
CN104966105A (zh) 一种鲁棒机器错误检索方法与系统
CN106202004A (zh) 基于正则表达及分隔符的组合式数据切割方法
CN107577702B (zh) 一种社交媒体中交通信息的辨别方法
CN103955628A (zh) 基于子空间融合的蛋白质-维他命绑定位点预测方法
CN105718940A (zh) 基于多组间因子分析的零样本图像分类方法
CN105260742A (zh) 一种针对多种数据类型的统一分类方法及系统
Vladyka et al. Unsupervised classification of single-molecule data with autoencoders and transfer learning
Yang et al. Image-based classification of protein subcellular location patterns in human reproductive tissue by ensemble learning global and local features
CN102737244B (zh) 标注图像中区域与标注对应关系的确定方法
CN106445914A (zh) 微博情感分类器的构建方法及构建装置
JP5765583B2 (ja) 多クラス識別器、多クラス識別方法、及びプログラム
Höglund et al. Significantly improved prediction of subcellular localization by integrating text and protein sequence data
CN105760711A (zh) 使用knn计算与相似性比对预测蛋白质亚细胞区间方法
Mei et al. Adversarial multiscale feature learning for overlapping chromosome segmentation
Kazemian et al. Signal peptide discrimination and cleavage site identification using SVM and NN
CN113888636A (zh) 基于多尺度深度特征的蛋白质亚细胞定位方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant