CN103473484A

CN103473484A - 一种基于组和图稀疏化的基因序列分类方法

Info

Publication number: CN103473484A
Application number: CN2013104644018A
Authority: CN
Inventors: 戴新宇; 付强
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2013-09-30
Filing date: 2013-09-30
Publication date: 2013-12-25
Anticipated expiration: 2033-09-30
Also published as: CN103473484B

Abstract

本发明提出了一种基于组和图稀疏化的基因序列分类方法，包括以下步骤：按照基因序列的特征，把特征空间内的特征分成不重叠的组。在组与组之间建立一个有向无环图。利用基于组和图稀疏化的分类模型为基因序列分类。本发明对现有的基于组稀疏化的基因序列分类方法进行改善和提高，能够避免组与组之间相互独立以及组与组之间规模差距大导致的分类精度下降问题。组与组之间建立有向无环图的方式，能够很好地避免上述两个问题，提高学习效率。基于组和图稀疏化逻辑回归分类器可以很好的根据建立的有向无环图选择出有用的组，提高分类的精度的同时，还加强了分类模型的可解释性。

Description

一种基于组和图稀疏化的基因序列分类方法

技术领域

本发明涉及一种计算机生物信息处理领域，特别是一种基于组和图稀疏化的基因序列分类方法。

背景技术

随着当今世界科学技术的飞速发展，大量的生物学问题需要进行处理。然而，随着数据量变的越来越大，用人力进行处理已经无法满足要求。随着计算机技术迅速普及和发展，利用计算机对生物学数据进行自动的处理在科研领域和应用领域都变得十分重要。这其中，对基因序列的分类就是一个非常重要的任务。基因序列分类就是根据具体的碱基序列，利用计算机给一个序列安排一个类别（正类和负类）。比如在基因序列的分类任务中，判断一个基因序列是否是一个剪接位点。如果一个基因序列是剪接位点，就是正类。不是剪接位点就是负类。（Yeo,G.W.and Burge,C.B.Maximumentropy modeling of short sequence motifs with applications to rna splicing signals.Journalof Computational Biology,11(2/3):377–394,2004.）对于一个基因序列分类任务，首先把每一个碱基序列都映射到一个高维欧几里得空间，然后利用机器学习里的分类器，从大量的训练数据中学习出分类器模型，最后用这个分类器模型对未知类别的基因序列进行分类。近年来，随着机器学习技术的发展，基因序列的分类方法取得了一系列重要的进展。而在基因序列的表示步骤中，稀疏表示的方法有着广泛的应用。但是这种表示方法会导致稀疏性比较严重，同时，基因序列分类问题本身也有稀疏性，能够影响分类的关键特征只在特征空间中占有一小部分。这样就需要使用稀疏化的方法从大量的特征中训练出有用的特征。基于组稀疏化的方法就被大量用于这类问题。但是这个方法也有缺陷，在面对大规模问题的时候不能很好的表示出基因序列的结构特征。比如对于一个基因序列长度为90的数据集进行分类，如果用全部1,2,3阶模板的稀疏化表示，那么特征空间的维度大约是七百五十万维。这样大的特征空间用计算机处理就会比较吃力。更进一步，对于一个长度是90的基因序列，使用3阶模板并不够，想要表示更多的基因序列的结构信息，需要4阶，5阶，甚至更高的模板。但就这个问题来说，使用1,2,3,4阶模板会让特征空间增大到大约六亿六千万，这就很难使用甚至不能使用计算机来处理了。在组与组之间建立有向无环图可以让大的模板通过小的模板来表示，大的模板的结构信息可以通过小模板与小模板（组与组）之间的关系图结构来表示，比如把两个2阶的模板用一条边连接起来，就可以代替一个4阶的大模板。这样可以大大降低表达相似结构特征所需要的维度。同时，组与组之间规模差距大导致的分类精度降低的问题也可以通过建立组之间的有向无环图来解决。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种基于组和图稀疏化的基因序列分类方法。

为了解决上述技术问题，本发明公开了一种基于组和图稀疏化的基因序列分类方法，包括以下步骤：

步骤一，对基因序列的特征空间进行分组：用稀疏表示的方法把训练集中每一个基因序列表示为向量构成特征空间，向量的每一维代表特征空间中的一个特征，并且把整个特征空间划分成互不相交的两个以上的组，每一个基因序列包括一个类标；

步骤二，在两个以上的组之间建立一个有向无环图，并且为有向无环图上的每一条边给定一个代价值；

步骤三，利用基于组和图稀疏化的逻辑回归分类器模型为基因序列分类。

步骤一包括以下步骤：

对于训练集中的基因序列d_j=c₁,c₂,…c_jj…,c_k，其中c_jj∈{A,C,G,T}为基因序列d_j中的第jj个碱基，A为腺嘌呤、G为鸟嘌呤、T为胸腺嘧啶、C为胞嘧啶，jj=1,2,…k，k表示基因序列d_j的总长度；例如，一个长度为7的序列AAGATTG，这里k=7。基因序列的稀疏表示方法是根据碱基的模板的实例来表示的，。碱基的模板是由碱基的位置{1,2,…,k}组成的。根据组成模板的位置的个数，模板分为不同的阶数。一个n阶的模板是由{1,2,…,k}中n个不同的位置组成的，所以对于长度为k的序列，n阶模板的个数就是从k个里面选择n个的组合数。模板的实例是该模板下可能的碱基序列。每一个实例表示一个特征，所有模板的所有实例组成整个特征空间。比如对于一个2阶模板{1,3}，指的就是基因序列中第一个位置和第三个位置，根据上面的叙述，每一个位置有四种可能的碱基（A,C,G,T）。所以，对于这个2阶模板的实例，总共有4²=16个（AA，AC，AG，AT，CA，CC，CG,CT,GA,GC，GG，GT，TA，TC，TG，TT），也就是特征空间中的16个特征。对于基因序列d_j，特征空间中的一个特征如果出现在基因序列d_j中，则将这个特征对应的向量中的维度记为1，否则为0；由此基因序列d_j的稀疏表示的向量形式x_j为：

x_j=(w_1,j,w_2,j,...,w_m,j)，

m表示特征空间的总数，w_i,j表示特征的值，i∈{1,2,……m}，i表示特征的序号，w_i,j表示对应的特征是否存在于基因序列中。

步骤一包括以下步骤：

根据模板来对特征空间中的特征进行分组，把特征空间划分成互不相交的组；

所述模板是由碱基的位置组成的，也就是集合{1,2,…,k}中的元素组成的；根据组成模板的位置的个数，模板分为对应的阶数；一个n阶的模板是由{1,2,…,k}中n个不同的位置组成的，n的取值范围是1≤n≤k的整数，对于长度为k的基因序列，n阶模板的个数就是从k个里面选择n个的组合数；模板的实例是该模板下所有可能组合的碱基序列；每一个实例表示一个特征，所有模板的所有实例组成整个特征空间；模板的个数由下面的公式来计算：

C_{k}^{1} + C_{k}^{2} + \cdot \cdot \cdot + C_{k}^{nt},

其中nt表示一个正整数，表示使用的模板中的最大的阶数，nt的取值范围是

1≤nt≤k的整数；比如对于一个长度为7的基因序列，用所有的1,2,3阶模板的实例来作为特征，m=7×4+21×16+35×64=2604。

一个模板下的全部实例对应的特征组成一个组，把特征空间划分为互不相交的两个以上组，组的数目与模板数目相同。

特征空间中的划分记为π={B₁,…,B_ii...,B_q}，π表示所有组的集合，q表示组的个数，ii表示组号，B_ii表示特征空间I={1,2,...,m}上的一个子集，也就是一个组，I表示特征空间上的特征的序号的集合，并且满足条件：

表示所有组的并集组成全部特征空间，

表示每个组都是非空集合，

表示任意两个组与组都是不相交的。

步骤二包括以下步骤：

在组与组之间建立一个有向无环图G=(V,E)，V表示图的节点集合，图上的每一个节点代表一个组，E表示图的边集。

步骤三包括以下步骤：

根据基于组和图稀疏化逻辑回归分类器的目标函数：

其中ν∈R^m是分类器学习的参数，R^m表示m维实数空间，K_t是训练数据集中基因序列的总数，λ是调节惩罚项和损失函数之间关系的常数，

表示图G中的所有路径组成的集合，y_j是基因序列d_j的类标，x_j是基因序列d_j的向量形式；参数

的计算公式如下：

表示要找到一个G中的子图，使得子图中的路径包含Supp(σ(ν))中的点，并且子图的所有路径的代价的和最小。

是

的一个子集。其中，

Supp (σ (ν)) = {ii; \sqrt{Σ_{is &Element; B_{ii}} v_{is}^{2}} &NotEqual; 0},

表示学习参数ν按照给出的组集合π计算的非零的组的序号。is表示分类器学习参数ν的维度序号；

η_g的计算公式如下：

η_{g} = c_{{su}_{1}} + Σ_{ig = 1}^{pa - 1} c_{u_{ig} u_{ig + 1}} + c_{u_{pa} t},

表示这条路径中所有边的代价的和。其中，对于有向无环图G中的一条路径g=(u₁,…,u_ig...,u_pa)，u_ig表示有向无环图G中路径g上的任意一个节点，ig表示该点的序号，u_pa表示路径g上的最后一个点，s和t是有向无环图G之外的两个虚拟的固定点，两个固定点与有向无环图G中所有节点都有有向边相连，方向是点s指向有向无环图G中任意一点，有向无环图G中任意一点指向点t，

表示点s指向路径g的第一个点u₁的边的代价，

表示有向无环图G中一条边的代价，

表示路径g的最后一个点u_pa指向点t的边的代价。上述代价的取值范围是大于零的实数。表示要选择这条边所要付出的代价。其含义是，代价越大表示对应的边的重要性越小，反之，代价越小表示对应边的重要性越大；

根据基因序列训练集得到分类器模型y=ν^Tx，x为基因序列的向量形式。

本权利步骤三包括以下步骤：

对于一个输入基因序列d，根据步骤一转化为向量形式x后，根据分类器模型y=ν^Tx判断基因序列的类别；

如果y>0，则为正类；

如果y<0，则为负类。

有益效果：一、本发明通过优化算法，使得计算机在处理相同基因序列分类时，比以往的处理方法速度更快，效率更高；

二、本发明避免了基于组稀疏化的方法所带来的对基因序列分类性能的影响。通过在组的基础上建立图的方法，能够避免组与组之间相互独立以及组与组之间规模差距大导致的分类精度下降问题。基于组和图稀疏化逻辑回归分类器可以很好的根据建立的有向无环图选择出有用的组，提高基因序列分类的精度的同时，还加强了分类模型的可解释性。

三、本发明本发明对现有的基于组稀疏化的基因序列分类方法进行改善和提高，能够避免组与组之间相互独立以及组与组之间规模差距大对分类精度产生的不良影响。在组与组之间建立的有向无环图可以帮助反映出组之间的内在联系，从而可以更好地表达出数据的结构特征。基于组和图稀疏化逻辑回归分类器可以很好的根据建立的有向无环图选择出有用的组，提高基因序列分类的精度的同时，还加强了分类模型的可解释性。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是本发明的流程图。

具体实施方式

本发明提出了一种基于组和图稀疏化的基因序列分类方法，可以避免组与组之间相互独立以及组与组之间规模差距大对基因序列分类精度的影响。现有的技术中，基因序列分类通常使用稀疏表示方法对基因序列进行预处理。

本发明的计算机基因序列分类方法，包括以下步骤。

步骤一包括以下步骤：

对于训练集中的基因序列d_j=c₁,c₂,…c_jj…,c_k，其中c_jj∈{A,C,G,T}为基因序列d_j中的第jjj个碱基，A为腺嘌呤、G为鸟嘌呤、T为胸腺嘧啶、C为胞嘧啶，jj=1,2,…k，k表示基因序列d_j的总长度；例如，一个长度为7的序列AAGATTG，这里k=7。基因序列的稀疏表示方法是根据碱基的模板的实例来表示的。碱基的模板是由碱基的位置{1,2,…,k}组成的。根据组成模板的位置的个数，模板分为不同的阶数。一个n阶的模板是由{1,2,…,k}中n个不同的位置组成的，所以对于长度为k的序列，n阶模板的个数就是从k个里面选择n个的组合数。模板的实例是该模板下可能的碱基序列。每一个实例表示一个特征，所有模板的所有实例组成整个特征空间。比如对于一个2阶模板{1,3}，指的就是基因序列中第一个位置和第三个位置，根据上面的叙述，每一个位置有四种可能的碱基（A,C,G,T）。所以，对于这个2阶模板的实例，总共有4²=16个（AA，AC，AG，AT，CA，CC，CG,CT,GA,GC，GG，GT，TA，TC，TG，TT），也就是特征空间中的16个特征。对于基因序列d_j，特征空间中的一个特征如果出现在基因序列d_j中，则将这个特征对应的向量中的维度记为1，否则为0；由此基因序列d_j的稀疏表示的向量形式x_j为：

x_j=(w_1,j,w_2,j,...,w_m,j)，

步骤一包括以下步骤：

C_{k}^{1} + C_{k}^{2} + \cdot \cdot \cdot C_{k}^{nt},

其中nt表示一个正整数，表示使用的模板中的最大的阶数，nt的取值范围是1≤nt≤k的整数；比如对于一个长度为7的基因序列，用所有的1,2,3阶模板的实例来作为特征，m=7×4+21×16+35×64=2604。

一个模板下的全部实例对应的特征组成一个组，把特征空间划分为互不相交的两个以上组，组的数目与模板数目相同；

表示所有组的并集组成全部特征空间，

表示每个组都是非空集合，

表示任意两个组与组都是不相交的。

步骤二包括以下步骤：

步骤三包括以下步骤：

根据基于组和图稀疏化逻辑回归分类器的目标函数：

的计算公式如下：

是

的一个子集，s.t.的中文含义是‘使得’。其中，

Supp (σ (ν)) = {ii; \sqrt{Σ_{is &Element; B_{ii}} v_{is}^{2}} &NotEqual; 0},

η_g的计算公式如下：

η_{g} = c_{{su}_{1}} + Σ_{ig = 1}^{pa - 1} c_{u_{ig} u_{ig + 1}} + c_{u_{pa} t},

表示点s指向路径g的第一个点u₁的边的代价，表示有向无环图G中一条边的代价，

步骤三包括以下步骤：

如果y>0，则为正类；

如果y<0，则为负类。

实施例1

假设一个基因序列分类问题，要分类的基因序列是：

A、正类：AAGA，记为d₁

B、负类：ATTG，记为d₂

如果使用一阶模板来表示，特征空间变为：A，C，T，G，A，C，T，G，A，C，T，G，A，C，T，G。其中前四个特征表示位置1对应的四种可能，5-8个特征表示位置2对应的四种可能，9-12个特征表示位置3对应的四种可能，13-16个特征表示位置4对应的四种可能。按照前面叙述的向量表示方法，最后表示成表1的形式：

表1

类别	基因序列向量表示
		正类	x₁=(1,0,0,0,1,0,0,0,0,0,0,1,1,0,0,0)
负类	x₂=(1,0,0,0,0,0,1,0,0,0,1,0,0,0,0,1)

表1中每一个权重是根据稀疏表示的方法计算而来的。比如对于x₁向量的第一维，对应特征位置1的实例A，而d₁的第一个位置是A，所以权重是1。其他的权重依此类推来计算，最后可得到表1中的结果。

下面是在特征空间上进行分组。根据步骤一，分组是根据模板来分的，一个模板对应一个组，分组的情况如表2所示：

表2

组	第一组	第二组	第三组	第四组
					维度	1-4	5-8	9-12	13-16

然后是根据步骤二，在组与组之间建立一个有向无环图。根据不同的问题，建立的图可以是各种各样的，比如建立成：第一组→第二组，第一组→第三组，第二组→第四组，第三组→第四组。他们的边的代价如表3所示

表3

边	第一组→第二组	第一组→第三组	第二组→第四组	第三组→第四组
					代价	0.1	1	0.1	1

组和图都建立好了以后，根据基于组和图稀疏化逻辑回归分类器的目标函数：

的计算公式如下：

表示要找到一个G中的子图，使得子图中的路径包含Supp(σ(ν))中的点，并且子图的所有路径的代价的和最小。是

的一个子集，s.t.的中文含义是‘使得’。其中，

Supp (σ (ν)) = {ii; \sqrt{Σ_{is &Element; B_{ii}} v_{is}^{2}} &NotEqual; 0},

η_g的计算公式如下：

η_{g} = c_{{su}_{1}} + Σ_{ig = 1}^{pa - 1} c_{u_{ig} u_{ig + 1}} + c_{u_{pa} t},

表示点s指向路径g的第一个点u₁的边的代价，

表示有向无环图G中一条边的代价，表示路径g的最后一个点u_pa指向点t的边的代价。上述代价的取值范围是大于零的实数。表示要选择这条边所要付出的代价。其含义是，代价越大表示对应的边的重要性越小，反之，代价越小表示对应边的重要性越大；

步骤三包括以下步骤：

如果y>0，则为正类；

如果y<0，则为负类。

实施例2

本发明所用的算法全部由python语言编写实现。实验采用的机型为：Intel XeonX7550处理器，主频为2.00G HZ，内存为32G。本发明使用的SPAMS工具包是目前通用的一个开源分类器训练包。

更具体地说，如图1所示，本发明运行如下：

1.对特征空间进行分组：用稀疏表示的方法把每一个基因序列表示为向量，并且把整个特征空间划分成互不相交的组。特征空间使用一阶，二阶，三阶模板建立，分组也根据一阶，二阶，三阶模板来进行分组；

2.在组与组之间建立一个有向无环图：在组与组之间建立一个有向无环图，并且为图上的每一条边给定一个代价值（cost）；

3.利用基于组和图稀疏化的逻辑回归分类器模型为基因序列分类。

实验数据准备如下：选取MEMset作为训练数据集。数据集包含两个子数据集，分别是5’剪接位点和3’剪接位点两个数据集。5’剪接位点数据集被分成训练集（5610个正类，5610个负类），验证集（2805个正类，59804个负类）和测试集（4208个正类，89717个负类）。3’剪接位点数据集被分成训练集（5630个正类，5630个负类），验证集（2835个正类，60607个负类）和测试集（4233个正类，90494个负类）。

表4中的数据表示分类结果的最大相关系数，其数值越大越好。可以看出本发明在这两个数据集上的分类性能都是很好的。并且本发明的效率很高，例如，对于3‘剪接位点的任务，原方法处理问题需要两个小时左右，而本方法仅需要15分钟左右。

表4实验结果：

数据集	5’剪接位点	3’剪接位点
			分类精度	0.6637	0.6366

本发明提供了一种基于组和图稀疏化的基因序列分类方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于组和图稀疏化的基因序列分类方法，其特征在于，包括以下步骤：

2.根据权利要求1中所述的方法，其特征在于，步骤一包括以下步骤：

对于训练集中的基因序列d_j=c₁,c₂,…c_jj…,c_k，其中c_jj=)A,C,G,T}为基因序列d_j中的第jj个碱基，A为腺嘌呤、G为鸟嘌呤、T为胸腺嘧啶、C为胞嘧啶，jj=1,2,…k，k表示基因序列d_j的总长度；对于基因序列d_j，特征空间中的一个特征如果出现在基因序列d_j中，则将这个特征对应的向量中的维度记为1，否则为0；由此基因序列d_j的稀疏表示的向量形式x_j为：

x_j=(w_1,j,w_2,j,...,w_m,j)，

m表示特征空间的总数，w_i,j表示特征的值，i∈{1,2,......m}，i表示特征的序号，w_i,j表示对应的特征是否存在于基因序列中。

3.根据权利要求2所述的方法，其特征在于，步骤一包括以下步骤：

所述模板是由碱基的位置组成的，也就是集合{1,2,...,k}中的元素组成的；根据组成模板的位置的个数，模板分为对应的阶数；一个n阶的模板是由{1,2,…,k}中n个不同的位置组成的，n的取值范围是1≤n≤k的整数，对于长度为k的基因序列，n阶模板的个数就是从k个里面选择n个的组合数；模板的实例是该模板下所有可能组合的碱基序列；每一个实例表示一个特征，所有模板的所有实例组成整个特征空间；模板的个数由下面的公式来计算：

C_{k}^{1} + C_{k}^{2} + \cdot \cdot \cdot C_{k}^{nt},

其中nt表示一个正整数，表示使用的模板中的最大的阶数，nt的取值范围是1≤nt≤k的整数；

4.根据权利要求1中所述的方法，其特征在于，步骤二包括以下步骤：

5.根据权利要求4中所述的方法，其特征在于，步骤三包括以下步骤：

根据基于组和图稀疏化逻辑回归分类器的目标函数：

其中ν∈R^m是分类器学习的参数，R^m表示m维实数空间，K_t是训练数据集中基因序列的总数，λ是调节惩罚项和损失函数之间关系的常数，表示图G中的所有路径组成的集合，y_j是基因序列d_j的类标，x_j是基因序列d_j的向量形式；参

的计算公式如下：

是

的一个子集，其中，

Supp (σ (ν)) = {ii; \sqrt{Σ_{is &Element; B_{ii}} v_{is}^{2}} &NotEqual; 0},

is表示分类器学习参数ν的维度序号；

η_g的计算公式如下：

η_{g} = c_{{su}_{1}} + Σ_{ig = 1}^{pa - 1} c_{u_{ig} u_{ig + 1}} + c_{u_{pa} t},

其中，对于有向无环图G中的一条路径g=(u₁,…,u_ig...,u_pa)，u_ig表示有向无环图G中路径g上的任意一个节点，ig表示该点的序号，u_pa表示路径g上的最后一个点，s和t是有向无环图G之外的两个虚拟的固定点，两个固定点与有向无环图G中所有节点都有有向边相连，方向是点s指向有向无环图G中任意一点，有向无环图G中任意一点指向点t，

表示点s指向路径g的第一个点u₁的边的代价，

表示有向无环图G中一条边的代价，

表示路径g的最后一个点u_pa指向点t的边的代价；

6.根据权利要求5中所述的方法，其特征在于，步骤三包括以下步骤：

如果y>0，则为正类；

如果y<0，则为负类。