CN103902853A

CN103902853A - 基于支持向量机的剪接位点识别方法

Info

Publication number: CN103902853A
Application number: CN201210572684.3A
Authority: CN
Inventors: 魏丹; 姜青山; 魏彦杰
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2012-12-25
Filing date: 2012-12-25
Publication date: 2014-07-02
Anticipated expiration: 2032-12-25
Also published as: CN103902853B

Abstract

本发明涉及一种基于支持向量机的剪接位点识别方法，包括：构建数据集，数据集包括训练数据集及测试数据集；提取训练数据集的剪接位点序列的特征向量，记为第一特征向量；提取训练数据集的剪接位点上游序列及下游序列的特征向量，记为第二特征向量；根据第一特征向量及第二特征向量选取所述训练数据集的特征向量，记为第三特征向量；根据第三特征向量，构建SVM分类器；根据分类器识别所述测试数据集的剪接位点。本发明采用训练数据集构建马尔可夫模型，用该模型参数将训练数据集及测试数据集转换成特征向量，并将该特征向量和剪接位点上、下游密码子使用偏性的特征向量，进行线性组合，以提取剪接位点邻近序列中更多信息，从而提高分类精度。

Description

基于支持向量机的剪接位点识别方法

技术领域

本发明涉及基因预测技术，尤其涉及一种基于支持向量机的剪接位点识别方法。

背景技术

基因序列由碱基A、T、G、C组成。真核基因是由蛋白质编码序列（外显子）和非蛋白质编码序列（内含子）两部分组成的。剪接位点是外显子编码区与内含子非编码区的边界，外显子和内含子在序列水平上有明显的区别，编码区中每相邻的三个核苷酸组成的三联体称为一个密码子（codon），通常一个密码子对应一种氨基酸，而一种氨基酸可以有多个密码子，研究表明同一种氨基酸对应的不同密码子的使用频率是不一定相同的。氨基酸使对其相应的各种密码子使用频次的不同，称为密码子的使用偏性。密码子的使用偏性是编码区的特征，通过统计其在编码区和非编码区的分布差异可以识别剪接位点。剪接位点识别是基因预测分析的一个重要组成部分。精确地识别剪切位点对探测进而确定基因的位置有着重要的价值，有助于提高基因识别的精度和效率。

绝大部分剪接位点都以供体位点多为GT，受体位点多为AG为特征，一般被称为剪接位点识别的GT-AG法则。然而这些二聚体的出现并不意味着它们就是剪接位点。实际上，在生物序列中这些二聚体在非剪接位点位置也经常出现。因此，识别剪接位点需要从众多的保守供体位点以及受体位点中分辨出真正的剪接位点，可以把剪接位点识别看成一个分类问题。

支持向量机（support vector machine，SVM）是一种基于机器学习的模式识别方法，它在学习模型的复杂性和学习能力之间寻求最佳折衷，以此希望获得较好的泛化能力。SVM能够出色的解决分类问题并受到广泛地关注。现有基于SVM的剪接位点识别方法对当前位点到下一位点的碱基转移进行了统计，考虑了相邻碱基间的相关性，对剪接位点附近序列的保守性进行了分析，但没有考虑剪接位点附件序列的密码子使用偏性，忽略了对剪接位点本身所含分类信息的充分利用，从而影响了整体分类性能。

发明内容

基于此，有必要针对上述剪接位点的识别方法存在的缺陷，提供一种识别精确度高的基于支持向量机的剪接位点识别方法。

一种基于支持向量机的剪接位点识别方法，包括下述步骤：

构建数据集，所述数据集包括训练数据集及测试数据集，所述训练数据集包括剪接位点序列，所述剪接位点序列包括真剪接位点序列和假剪接位点序列，所述真剪接位点序列即为正样本，所述假剪接位点序列即为负样本；

提取所述训练数据集的剪接位点序列的特征向量，记为第一特征向量；

提取所述训练数据集的剪接位点上游序列及下游序列的特征向量，记为第二特征向量；

根据所述第一特征向量及第二特征向量获取所述训练数据集的特征向量，记为第三特征向量；

根据所述第三特征向量，构建SVM分类器；

根据所述分类器识别所述测试数据集的剪接位点。

在本实施例中，其中，提取所述训练数据集的剪接位点序列的特征向量，记为第一特征向量，包括下述步骤：

将所述训练数据集中的正样本构建一阶马尔可夫模型M^T；

将所述训练数据集中的负样本构建一阶马尔可夫模型M^F；

基于所述一阶马尔可夫模型M^T构建M^T模型参数，并通过所述M^T模型参数将所述剪接位点序列转换为特征向量，记为第四特征向量，其中，所述M^T模型参数为{p(s_i|s_i-1),i＝i＝1,2,…,l}，其中s_i,s_i-1∈{A,G,T,C}，l为序列长度，p(s_i|s_i-1)表示在位置i-1和i上分别出现碱基s_i、s_i-1的概率，所述第四特征向量为(p₁,p₂,…,p_l-1)；

基于所述一阶马尔可夫模型M^F构建M^F模型参数，并通过所述M^F模型参数将所述剪接位点序列转换为特征向量，记为第五特征向量，其中所述M^F模型参数为{p'(s_i┃s_i-1)，i＝1,2…….,l，其中s_i,s_i-1∈{A,G,T,C}，l为序列长度，p′(s_i|s_i-1)表示在位置i-1和i上分别出现碱基s_i、s_i-1的概率，所述第五特征向量为(p′₁,p_′2,…,p′_l-1)；

将所述第四特征向量及第五特征向量线性组合，得到所述剪接位点序列的特征向量，记为第一特征向量，所述第一特征向量为(p₁,p₂,…,p_l-1,p′₁,p′₂...,p′_l-1)。

在本实施例中，其中，提取所述训练数据集的剪接位点上游序列及下游序列的特征向量，记为第二特征向量，包括下述步骤：

构造公式其中，C_jk是氨基酸j对应的密码子k在所述剪接位点序列中出现的次数，n_j是氨基酸j对应的密码子个数，f_jk为密码子使用偏性；

依据上述公式，分别计算所述剪接位点上游序列及下游序列的密码子使用偏性；

根据所述剪接位点上游序列及下游序列的密码子使用偏性，提取所述剪接位点上游序列及下游序列的特征向量，记为第二特征向量，所述第二特征向量为(f₁,f₂,...,f₆₄,f₆₅,...,f₁₂₈)，其中f_i为密码子使用偏性。

在本实施例中，其中，根据所述第一特征向量及第二特征向量选取所述训练数据集的特征向量，记为第三特征向量，包括下述步骤:

计算所述第一特征向量(p₁,p₂,…,p_l-1,p′₁,p′₂...,p′_l-1)中每个特征向量的F-score并选取高分值的向量组合成第一子向量，所述第一子向量为(p₁,p₂，...)；

计算所述第二特征向量(f₁,f₂,…,f₆₄,f₆₅,…,f₁₂₈)为中每个特征向量的F-score并选取高分值的向量组合成第二子向量，所述第二子向量为(f₁,f₂,...)；

将所述第一子向量与第二子向量线性组合，得到所述训练数据集的特征向量，记为第三特征向量，所述第三特征向量为(p₁,p₂,...,f₁,f₂,...)。

在本实施例中，其中，计算所述第一特征向量(p₁,p₂,…,p_l-1,p′₁,p′₂…,p′_l-1)中每个特征向量的F-score及计算第二特征向量(f₁,f₂,...,f₆₄,f₆₅,...,f₁₂₈)为中每个特征向量的F-score，通过采用下述构造公式实现：

F (η_{g}) = \frac{{({\overset{&OverBar;}{η}}_{g}^{+} - {\overset{&OverBar;}{η}}_{g})}^{2} + {({\overset{&OverBar;}{η}}_{g}^{-} - {\overset{&OverBar;}{η}}_{g})}^{2}}{σ_{g}^{+} + σ_{g}^{-}}

其中，

分别是训练数据集中所有序列、正样本序列、负样本序列中第g个向量的均值，

分别是正样本序列、负样本序列中第g个向量的标准方差。

在本实施例中，其中，根据所述分类器识别所述测试数据集的剪接位点还包括下述步骤：

根据所述训练数据集构建的M^T模型参数将所述测试数据集中的样本序列转换为特征向量(p₁,p₂,...,p_l-1)，记为第六特征向量；

根据训练数据集构建的M^F模型参数将所述测试数据集中的样本序列转换为特征向量(p′₁,p′₂，...,p′_l-1)，记为第七特征向量；

将所述第六特征向量及第七特征向量线性组合得到组合特征向量(p₁,p₂,…,p_l-1,p′₁,p′₂...,p′_l-1)，记为第八特征向量；

码子k在所述剪接位点序列中出现的次数，n_j是氨基酸j对应的密码子个数，f_jk为密码子使用偏性；

通过采用下述构造公式分别计算所述第八特征向量及第九特征向量的F-score，并分别得到特征向量子集(p₁,p₂,…)及密码子使用偏性向量子集(f₁,f₂,…)，其中，所述公式为：

F (η_{g}) = \frac{{({\overset{&OverBar;}{η}}_{g}^{+} - {\overset{&OverBar;}{η}}_{g})}^{2} + {({\overset{&OverBar;}{η}}_{g}^{-} - {\overset{&OverBar;}{η}}_{g})}^{2}}{σ_{g}^{+} + σ_{g}^{-}}

其中，

分别是正样本序列、负样本序列中第g个向量的标准方差；

将上述特征向量(p₁,p₂,…)及密码子使用偏性向量子集(f₁,f₂,...)线性组合得到测试数据集样本序列特性向量(p₁,p₂,…,f₁,f₂,...)；

将上述测试数据集样本序列特性向量(p₁,p₂,…,f₁,f₂,...)输入所述SVM分类器。

上述基于支持向量机的剪接位点识别方法通过提取训练数据集的剪接位点序列的特征向量，记为第一特征向量；提取训练数据集的剪接位点上游序列及下游序列的特征向量，记为第二特征向量；根据第一特征向量及第二特征向量获取训练数据集的特征向量，记为第三特征向量；根据第三特征向量，构建SVM分类器；根据分类器识别测试数据集的剪接位点。本发明采用训练数据集构建马尔可夫模型，用该模型参数将训练数据集及测试数据集转换成特征向量，并将该特征向量和剪接位点上、下游密码子使用偏性的特征向量，进行线性组合，以提取剪接位点邻近序列中更多信息，从而提高分类精度。

附图说明

图1为本发明实施例提供的基于支持向量机的剪接位点识别方法的示意图。

图2为本发明实施例提供的提取训练数据集的剪接位点序列的特征向量的步骤流程图。

图3为本发明实施例提供的提取训练数据集的剪接位点上游序列及下游序列的特征向量的步骤流程图。

图4为本发明实施例提供的根据上述第一特征向量及第二特征向量选取上述训练数据集的特征向量的步骤流程图。

图5为本发明实施例提供的根据分类器识别所述测试数据集的剪接位点的步骤流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1，图1为本发明实施例提供的基于支持向量机的剪接位点识别方法的步骤流程图，包括下述步骤：

步骤S110：构建数据集。在本发明提供的实施例中，数据集取自人类剪接位点数据集（Homo Sapiens Splice Sites Data set,HS3D）。数据集包括训练数据集及测试数据集。训练数据集包括剪接位点序列。剪接位点序列包括真剪接位点序列和假剪接位点序列。真剪接位点序列即为正样本，假剪接位点序列即为负样本，其中，正样本和负样本的长度为l。正样本含有真正剪接位点的序列，负样本含有GT或AG，但这些二聚体并不是真正的剪接位点。可以理解，测试数据集中的正、负样本类别未知，测试数据集中的正样本真正剪接位点也未知。

步骤S120：提取训练数据集的剪接位点序列的特征向量，记为第一特征向量。

请参阅图2，图2为本发明实施例提供的提取训练数据集的剪接位点序列的特征向量的步骤流程图，包括下述步骤：

步骤S121：将训练数据集中的正样本构建一阶马尔可夫模型M^T。在本实施例中，采用目前采用的技术，将训练数据集中的正样本构建一阶马尔可夫模型M^T。

步骤S122：将训练数据集中的负样本构建一阶马尔可夫模型M^F。在本实施例中，采用目前采用的技术，将训练数据集中的负样本构建一阶马尔可夫模型M^F。

步骤S123：基于上述一阶马尔可夫模型M^T构建M^T模型参数，并通过M^T模型参数将剪接位点序列转换为特征向量，记为第四特征向量，其中，M^T模型参数为{p(s_i|s_i-1),i＝i＝1,2,...,l}，第四特征向量为(p₁,p₂,…,p_l-1)。可以理解，由于马尔可夫参数位置特异性的一阶条件概率为：

p_i(s_i)＝p(s_i|s_i-1)

其中，s_i,s_i-1∈{A,G,T,C}，p(s_i|s_i-1)表示在位置i-1和i上分别出现碱基s_i、s_i-1的概率，则上述M^T模型可用参数集：{p(s_i|s_i-1),i＝i＝1,2,...,l}表示，用M^T模型参数将剪接位点序列转换为特征向量(p₁,p₂,…,p_l-1)。可以理解，此时的剪接位点序列不仅包括正样本含有真正剪接位点的序列，而且还包括非真正的剪接位点序列（假剪接位点序列）。

步骤S124：基于上述一阶马尔可夫模型M^F构建M^F模型参数，并通过M^F模型参数将剪接位点序列转换为特征向量，记为第五特征向量，其中M^F模型参数为{p'(s_i┃s_i-1)，i＝1,2……,l}，其中s_i,s_i-1∈{A,G,T,C}，1为序列长度，p′(s_i|s_i-1)表示在位置i-1和i上分别出现碱基s_i、s_i-1的概率，第五特征向量为(p′₁,p′₂，...,p′_l-1)。可以理解，由于马尔可夫参数位置特异性的一阶条件概率为：

p_i(s_i)=p'(s_i┃s_i-1)

则上述M^F模型可用参数集：{p'(s_i┃s_i-1)，i=1,2……,l}表示，用M^F模型参数将剪接位点序列转换为特征向量(p′₁,p′₂.. .,p′_l-1)。可以理解，此时的剪接位点序列不仅包括真正剪接位点序列，而且还包括非真正的剪接位点序列（假剪接位点序列）。

步骤S125：将第四特征向量及第五特征向量线性组合，得到剪接位点序列的特征向量，记为第一特征向量，第一特征向量为(p₁,p₂,…,p_l-1,p′₁,p′₂...,p′_l-1)。在本发明实施例中，将上述第四特征向量及第五特征向量进行线性组合，得到剪接位点序列的特征向量(p₁,p₂,...,p_l-1,p′₁,p′₂...,p′_l-1)，记为第一特征向量。

可以理解，经上述步骤S121~步骤S125后，可以提取训练数据集的剪接位点序列的特征向量(p₁,p₂,…,p_l-1,p′₁,p′₂...,p′_l-1)，记为第一特征向量。

步骤S130：提取训练数据集的剪接位点上游序列及下游序列的特征向量，记为第二特征向量。

请参阅图3，图3为本发明实施例提供的提取训练数据集的剪接位点上游序列及下游序列的特征向量的步骤流程图，包括下述步骤：

步骤S131：构造公式

其中，C_jk是氨基酸j对应的密码子k在所述剪接位点序列中出现的次数，n_j是氨基酸j对应的密码子个数，f_jk为密码子使用偏性。

步骤S132：依据上述公式，分别计算上剪接位点上游序列及下游序列的密码子使用偏性，并分别记为：f₁，f₂，f₃……f₆₄,f₆₅……f₁₂₈。

步骤S133：根据上述剪接位点上游序列及下游序列的密码子使用偏性，提取剪接位点上游序列及下游序列的特征向量，记为第二特征向量，其中，第二特征向量为(f₁,f₂,...,f₆₄,f₆₅,...,f₁₂₈)。

可以理解，根据上述步骤S131~步骤S133，可以提取训练数据集的剪接位点上游序列及下游序列的特征向量(f₁,f₂,...,f₆₄,f₆₅,...,f₁₂₈)，并记为第二特征向量为(f₁,f₂,...,f₆₄,f₆₅,...,f₁₂₈)

步骤S140：根据上述第一特征向量及第二特征向量选取上述训练数据集的特征向量，记为第三特征向量。

请参阅图4，图4为本发明实施例提供的根据上述第一特征向量及第二特征向量选取上述训练数据集的特征向量的步骤流程图，包括下述步骤：

步骤S141：计算第一特征向量(p₁,p₂,…,p_l-1,p′₁,p′₂...,p′_l-1)中每个特征向量的F-score并选取高分值的向量组合成第一子向量，其中，第一子向量为(p₁,p₂,…)。在本发明提供的实施例中，通过下述构造公式实现第一特征向量(p₁,p₂,…,p_l-1,p′₁,p′₂...,p′_l-1)中每个特征向量的F-score的计算：

F (η_{g}) = \frac{{({\overset{&OverBar;}{η}}_{g}^{+} - {\overset{&OverBar;}{η}}_{g})}^{2} + {({\overset{&OverBar;}{η}}_{g}^{-} - {\overset{&OverBar;}{η}}_{g})}^{2}}{σ_{g}^{+} + σ_{g}^{-}}

其中，

分别是正样本序列、负样本序列中第g个向量的标准方差。通过上述公式完成了第一特征向量(p₁,p₂,...,p_l-1,p′₁,p′₂…,p′_l-1)中每个特征向量的F-score，并选取其中高分值的向量组合成第一子向量，其中，第一子向量为(p₁,p₂,…)。可以理解，若某个特征对应的F-score值越高，则该特征越具有高决策性。

步骤S142：计算第二特征向量(f₁,f₂,...,f₆₄,f₆₅,...,f₁₂₈)为中每个特征向量的F-score并选取高分值的向量组合成第二子向量，第二子向量为(f₁,f₂,...)。在本发明提供的实施例中，通过下述构造公式实现第一特征向量(f₁,f₂,...,f₆₄,f₆₅,...,f₁₂₈)中每个特征向量的F-score的计算：

F (η_{g}) = \frac{{({\overset{&OverBar;}{η}}_{g}^{+} - {\overset{&OverBar;}{η}}_{g})}^{2} + {({\overset{&OverBar;}{η}}_{g}^{-} - {\overset{&OverBar;}{η}}_{g})}^{2}}{σ_{g}^{+} + σ_{g}^{-}}

其中，

分别是正样本序列、负样本序列中第g个向量的标准方差。通过上述公式完成了第二特征向量(f₁,f₂,...,f₆₄,f₆₅,...,f₁₂₈)中每个特征向量的F-score，并选取其中高分值的向量组合成第二子向量，其中，第二子向量为(f₁,f₂,…)，其中f_i为密码子使用偏性。

步骤S143：将第一子向量与第二子向量线性组合，得到训练数据集的特征向量，记为第三特征向量，第三特征向量为(p₁,p₂,…,f₁,f₂,...)。在本发明提供的实施例中，将第一子向量与第二子向量线性组合，得到训练数据集的特征向量(p₁,p₂,…,f₁,f₂,…)，并记为第三特征向量。

可以理解，经步骤S141~步骤S143后，可以完成上述训练数据集的特征向量的选取，并记为第三特征向量。

步骤S150：根据上述第三特征向量，构建SVM分类器。在本发明提供的实施例中，将上述训练数据集的特征向量，即第三特征向量(p₁,p₂,…,f₁,f₂,...)作为SVM的输入，构建SVM分类器。可以理解，由于第三特征向量(p₁,p₂,...,f₁,f₂,...)包含已知的真剪接位点及假剪接位点。通过将第三特征向量(p₁,p₂,…,f₁,f₂,...)输入SVM，SVM寻找一个分类平面，该分类平面能够尽可能将剪接位点和非剪接位点正确分开，并以相关联的类标号，表示不同的两类，记为y_m，其中，y_m=+1表示剪接位点，y_m=-1表示非剪接位点，且同时使分开的两类数据点距离分类平面最远，从而完成了SVM分类器的构建。

步骤S160：根据上述SVM分类器识别测试数据集的剪接位点。

请参阅图5，图5为本发明提供实施例提供的根据分类器识别所述测试数据集的剪接位点的步骤流程图，具体包括下述步骤：

步骤S161：根据训练数据集构建的M^T模型参数将测试数据集中的样本序列转换为特征向量(p₁,p₂,...,p_l-1)，记为第六特征向量。其中，M^T模型参数为{p(s_i|s_i-1),i＝i＝1,2,…,l}，其中，s_i,s_i-1∈{A,G,T,C}，p(s_i|s_i-1)表示在位置i-1和i上分别出现碱基s_i、s_i-1的概率。

步骤S162：根据训练数据集构建的M^F模型参数将测试数据集中的样本序列转换为特征向量(p′₁,p′₂，.,p′_l-1)，记为第七特征向量。其中M^F模型参数为{p'(s_i┃s_i-1)，i1,2……,l}，其中s_i,s_i-1∈{A,G,T,C}，l为序列长度，p'(s_i|s_i-1)表示在位置i-1和i上分别出现碱基s_i、s_i-1的概率。

步骤S163：将第六特征向量及第七特征向量线性组合得到组合特征向量(p₁,p₂,…,p_l-1,p'₁,p′₂...,p′_l-1)，记为第八特征向量。

步骤S164：根据密码子使用偏性

将训练数据集中的剪接位点序列转换为(f₁,f₂,...,f₆₄,f₆₅,...,f₁₂₈)，记为第九特征向量，其中，C_jk是氨基酸j对应的密码子k在所述剪接位点序列中出现的次数，n_j是氨基酸j对应的密码子个数，f_jk为密码子使用偏性。

步骤S165：通过采用下述构造公式分别计算第八特征向量及第九特征向量的F-score，并分别得到特征向量(p₁,p₂,…)及密码子使用偏性向量子集(f₁,f₂,...)，其中，上述公式为：

F (η_{g}) = \frac{{({\overset{&OverBar;}{η}}_{g}^{+} - {\overset{&OverBar;}{η}}_{g})}^{2} + {({\overset{&OverBar;}{η}}_{g}^{-} - {\overset{&OverBar;}{η}}_{g})}^{2}}{σ_{g}^{+} + σ_{g}^{-}}

其中，

分别是正样本序列、负样本序列中第g个向量的标准方差。

步骤S166：将上述特征向量(p₁,p₂,…)及密码子使用偏性向量子集(f₁,f₂,…)线性组合得到测试数据集样本序列特性向量(p₁,p₂,…,f₁,f₂,...)。

步骤S167：将上述测试数据集样本序列特征向量(p₁,p₂,…,f₁,f₂,...)输入SVM分类器。

可以理解，在上述SVM分类器中输入上述测试数据集的样本序列的特征向量，SVM分类器根据上述寻找到的分类平面，对测试数据集的样本序列进行分类，并输出分类结果，根据分类结果判断测试数据集的剪接位点，其中，输出+1为真剪接位点，输出-1则为假剪接位点。

上述基于支持向量机的剪接位点识别方法通过提取训练数据集的剪接位点序列的特征向量，记为第一特征向量；提取训练数据集的剪接位点上游序列及下游序列的特征向量，记为第二特征向量；根据第一特征向量及第二特征向量获取训练数据集的特征向量，记为第三特征向量；根据第三特征向量，构建SVM分类器；根据分类器识别测试数据集的剪接位点。本发明采用训练数据集构建马尔可夫模型，用该模型参数将训练数据集及测试数据集转换成特征向量，并将该特征向量和剪接位点上、下游密码子使用偏性特征向量，进行线性组合，以提取剪接位点邻近序列中更多信息，从而提高分类精度。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于支持向量机的剪接位点识别方法，其特征在于，包括下述步骤：

根据所述第一特征向量及第二特征向量选取所述训练数据集的特征向量，记为第三特征向量；

根据所述第三特征向量，构建SVM分类器；

根据所述分类器识别所述测试数据集的剪接位点。

2.根据权利要求1所述的基于支持向量机的剪接位点识别方法，其特征在于，其中，提取所述训练数据集的剪接位点序列的特征向量，记为第一特征向量，包括下述步骤：

将所述训练数据集中的正样本构建一阶马尔可夫模型M^T；

将所述训练数据集中的负样本构建一阶马尔可夫模型M^F；

基于所述一阶马尔可夫模型M^F构建M^F模型参数，并通过所述M^F模型参数将所述剪接位点序列转换为特征向量，记为第五特征向量，其中所述M^F模型参数为{p'(s_i┃s_i-1)，i＝1,2…….,l}，其中s_i,s_i-1∈{A,G,T，C}，l为序列长度，p′(s_i|s_i-1)表示在位置i-1和i上分别出现碱基s_i、s_i-1的概率，所述第五特征向量为(p′₁,p′₂,…,p′_l-1)；

3.根据权利要求1所述的基于支持向量机的剪接位点识别方法，其特征在于，其中，提取所述训练数据集的剪接位点上游序列及下游序列的特征向量，记为第二特征向量，包括下述步骤：

构造公式

其中，C_jk是氨基酸j对应的密码子k在所述剪接位点序列中出现的次数，n_j是氨基酸j对应的密码子个数，f_jk为密码子使用偏性；

4.根据权利要求1或2或3所述的基于支持向量机的剪接位点识别方法，其特征在于，其中，根据所述第一特征向量及第二特征向量选取所述训练数据集的特征向量，记为第三特征向量，包括下述步骤:

计算所述第一特征向量(p₁,p₂,…,p_l-1,p′₁,p′₂...,p′_l-1)中每个特征向量的F-score并选取高分值的向量组合成第一子向量，所述第一子向量为(p₁,p₂,…)；

计算所述第二特征向量(f₁,f₂,...,f₆₄,f₆₅,...,f₁₂₈)为中每个特征向量的F-score并选取高分值的向量组合成第二子向量，所述第二子向量为(f₁,f₂,…)；

将所述第一子向量与第二子向量线性组合，得到所述训练数据集的特征向量，记为第三特征向量，所述第三特征向量为(p₁,p₂,…,f₁,f₂,...)。

5.根据权利要求4所述的基于支持向量机的剪接位点识别方法，其特征在于，其中，计算所述第一特征向量(p₁,p₂,…,p_l-1,p′₁,p′₂...,p′_l-1)中每个特征向量的F-score及计算第二特征向量(f₁,f₂,...,f₆₄,f₆₅,...,f₁₂₈)为中每个特征向量的F-score，通过采用下述构造公式实现：

F (η_{g}) = \frac{{({\overset{&OverBar;}{η}}_{g}^{+} - {\overset{&OverBar;}{η}}_{g})}^{2} + {({\overset{&OverBar;}{η}}_{g}^{-} - {\overset{&OverBar;}{η}}_{g})}^{2}}{σ_{g}^{+} + σ_{g}^{-}}

其中，

分别是正样本序列、负样本序列中第g个向量的标准方差。

6.根据权利要求1所述的基于支持向量机的剪接位点识别方法，其特征在于，其中，根据所述分类器识别所述测试数据集的剪接位点还包括下述步骤：

F (η_{g}) = \frac{{({\overset{&OverBar;}{η}}_{g}^{+} - {\overset{&OverBar;}{η}}_{g})}^{2} + {({\overset{&OverBar;}{η}}_{g}^{-} - {\overset{&OverBar;}{η}}_{g})}^{2}}{σ_{g}^{+} + σ_{g}^{-}}

其中，

分别是正样本序列、负样本序列中第g个向量的标准方差；

将上述特征向量(p₁,p₂,…)及密码子使用偏性向量子集(f₁,f₂,…)线性组合得到测试数据集样本序列特性向量(p₁,p₂,…,f₁,f₂,...)；