CN103473484A - 一种基于组和图稀疏化的基因序列分类方法 - Google Patents

一种基于组和图稀疏化的基因序列分类方法 Download PDF

Info

Publication number
CN103473484A
CN103473484A CN2013104644018A CN201310464401A CN103473484A CN 103473484 A CN103473484 A CN 103473484A CN 2013104644018 A CN2013104644018 A CN 2013104644018A CN 201310464401 A CN201310464401 A CN 201310464401A CN 103473484 A CN103473484 A CN 103473484A
Authority
CN
China
Prior art keywords
gene order
group
template
feature
acyclic graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013104644018A
Other languages
English (en)
Other versions
CN103473484B (zh
Inventor
戴新宇
付强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201310464401.8A priority Critical patent/CN103473484B/zh
Publication of CN103473484A publication Critical patent/CN103473484A/zh
Application granted granted Critical
Publication of CN103473484B publication Critical patent/CN103473484B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于组和图稀疏化的基因序列分类方法,包括以下步骤:按照基因序列的特征,把特征空间内的特征分成不重叠的组。在组与组之间建立一个有向无环图。利用基于组和图稀疏化的分类模型为基因序列分类。本发明对现有的基于组稀疏化的基因序列分类方法进行改善和提高,能够避免组与组之间相互独立以及组与组之间规模差距大导致的分类精度下降问题。组与组之间建立有向无环图的方式,能够很好地避免上述两个问题,提高学习效率。基于组和图稀疏化逻辑回归分类器可以很好的根据建立的有向无环图选择出有用的组,提高分类的精度的同时,还加强了分类模型的可解释性。

Description

一种基于组和图稀疏化的基因序列分类方法
技术领域
本发明涉及一种计算机生物信息处理领域,特别是一种基于组和图稀疏化的基因序列分类方法。
背景技术
随着当今世界科学技术的飞速发展,大量的生物学问题需要进行处理。然而,随着数据量变的越来越大,用人力进行处理已经无法满足要求。随着计算机技术迅速普及和发展,利用计算机对生物学数据进行自动的处理在科研领域和应用领域都变得十分重要。这其中,对基因序列的分类就是一个非常重要的任务。基因序列分类就是根据具体的碱基序列,利用计算机给一个序列安排一个类别(正类和负类)。比如在基因序列的分类任务中,判断一个基因序列是否是一个剪接位点。如果一个基因序列是剪接位点,就是正类。不是剪接位点就是负类。(Yeo,G.W.and Burge,C.B.Maximumentropy modeling of short sequence motifs with applications to rna splicing signals.Journalof Computational Biology,11(2/3):377–394,2004.)对于一个基因序列分类任务,首先把每一个碱基序列都映射到一个高维欧几里得空间,然后利用机器学习里的分类器,从大量的训练数据中学习出分类器模型,最后用这个分类器模型对未知类别的基因序列进行分类。近年来,随着机器学习技术的发展,基因序列的分类方法取得了一系列重要的进展。而在基因序列的表示步骤中,稀疏表示的方法有着广泛的应用。但是这种表示方法会导致稀疏性比较严重,同时,基因序列分类问题本身也有稀疏性,能够影响分类的关键特征只在特征空间中占有一小部分。这样就需要使用稀疏化的方法从大量的特征中训练出有用的特征。基于组稀疏化的方法就被大量用于这类问题。但是这个方法也有缺陷,在面对大规模问题的时候不能很好的表示出基因序列的结构特征。比如对于一个基因序列长度为90的数据集进行分类,如果用全部1,2,3阶模板的稀疏化表示,那么特征空间的维度大约是七百五十万维。这样大的特征空间用计算机处理就会比较吃力。更进一步,对于一个长度是90的基因序列,使用3阶模板并不够,想要表示更多的基因序列的结构信息,需要4阶,5阶,甚至更高的模板。但就这个问题来说,使用1,2,3,4阶模板会让特征空间增大到大约六亿六千万,这就很难使用甚至不能使用计算机来处理了。在组与组之间建立有向无环图可以让大的模板通过小的模板来表示,大的模板的结构信息可以通过小模板与小模板(组与组)之间的关系图结构来表示,比如把两个2阶的模板用一条边连接起来,就可以代替一个4阶的大模板。这样可以大大降低表达相似结构特征所需要的维度。同时,组与组之间规模差距大导致的分类精度降低的问题也可以通过建立组之间的有向无环图来解决。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于组和图稀疏化的基因序列分类方法。
为了解决上述技术问题,本发明公开了一种基于组和图稀疏化的基因序列分类方法,包括以下步骤:
步骤一,对基因序列的特征空间进行分组:用稀疏表示的方法把训练集中每一个基因序列表示为向量构成特征空间,向量的每一维代表特征空间中的一个特征,并且把整个特征空间划分成互不相交的两个以上的组,每一个基因序列包括一个类标;
步骤二,在两个以上的组之间建立一个有向无环图,并且为有向无环图上的每一条边给定一个代价值;
步骤三,利用基于组和图稀疏化的逻辑回归分类器模型为基因序列分类。
步骤一包括以下步骤:
对于训练集中的基因序列dj=c1,c2,…cjj…,ck,其中cjj∈{A,C,G,T}为基因序列dj中的第jj个碱基,A为腺嘌呤、G为鸟嘌呤、T为胸腺嘧啶、C为胞嘧啶,jj=1,2,…k,k表示基因序列dj的总长度;例如,一个长度为7的序列AAGATTG,这里k=7。基因序列的稀疏表示方法是根据碱基的模板的实例来表示的,。碱基的模板是由碱基的位置{1,2,…,k}组成的。根据组成模板的位置的个数,模板分为不同的阶数。一个n阶的模板是由{1,2,…,k}中n个不同的位置组成的,所以对于长度为k的序列,n阶模板的个数就是从k个里面选择n个的组合数。模板的实例是该模板下可能的碱基序列。每一个实例表示一个特征,所有模板的所有实例组成整个特征空间。比如对于一个2阶模板{1,3},指的就是基因序列中第一个位置和第三个位置,根据上面的叙述,每一个位置有四种可能的碱基(A,C,G,T)。所以,对于这个2阶模板的实例,总共有42=16个(AA,AC,AG,AT,CA,CC,CG,CT,GA,GC,GG,GT,TA,TC,TG,TT),也就是特征空间中的16个特征。对于基因序列dj,特征空间中的一个特征如果出现在基因序列dj中,则将这个特征对应的向量中的维度记为1,否则为0;由此基因序列dj的稀疏表示的向量形式xj为:
xj=(w1,j,w2,j,...,wm,j),
m表示特征空间的总数,wi,j表示特征的值,i∈{1,2,……m},i表示特征的序号,wi,j表示对应的特征是否存在于基因序列中。
步骤一包括以下步骤:
根据模板来对特征空间中的特征进行分组,把特征空间划分成互不相交的组;
所述模板是由碱基的位置组成的,也就是集合{1,2,…,k}中的元素组成的;根据组成模板的位置的个数,模板分为对应的阶数;一个n阶的模板是由{1,2,…,k}中n个不同的位置组成的,n的取值范围是1≤n≤k的整数,对于长度为k的基因序列,n阶模板的个数就是从k个里面选择n个的组合数;模板的实例是该模板下所有可能组合的碱基序列;每一个实例表示一个特征,所有模板的所有实例组成整个特征空间;模板的个数由下面的公式来计算:
C k 1 + C k 2 + · · · + C k nt ,
其中nt表示一个正整数,表示使用的模板中的最大的阶数,nt的取值范围是
1≤nt≤k的整数;比如对于一个长度为7的基因序列,用所有的1,2,3阶模板的实例来作为特征,m=7×4+21×16+35×64=2604。
一个模板下的全部实例对应的特征组成一个组,把特征空间划分为互不相交的两个以上组,组的数目与模板数目相同。
特征空间中的划分记为π={B1,…,Bii...,Bq},π表示所有组的集合,q表示组的个数,ii表示组号,Bii表示特征空间I={1,2,...,m}上的一个子集,也就是一个组,I表示特征空间上的特征的序号的集合,并且满足条件:
Figure BDA0000391545900000032
表示所有组的并集组成全部特征空间,
Figure BDA0000391545900000033
表示每个组都是非空集合,
Figure BDA0000391545900000034
表示任意两个组与组都是不相交的。
步骤二包括以下步骤:
在组与组之间建立一个有向无环图G=(V,E),V表示图的节点集合,图上的每一个节点代表一个组,E表示图的边集。
步骤三包括以下步骤:
根据基于组和图稀疏化逻辑回归分类器的目标函数:
Figure BDA0000391545900000041
其中ν∈Rm是分类器学习的参数,Rm表示m维实数空间,Kt是训练数据集中基因序列的总数,λ是调节惩罚项和损失函数之间关系的常数,
Figure BDA0000391545900000045
表示图G中的所有路径组成的集合,yj是基因序列dj的类标,xj是基因序列dj的向量形式;参数
Figure BDA0000391545900000046
的计算公式如下:
表示要找到一个G中的子图,使得子图中的路径包含Supp(σ(ν))中的点,并且子图的所有路径的代价的和最小。
Figure BDA0000391545900000047
Figure BDA0000391545900000048
的一个子集。其中,
Supp ( σ ( ν ) ) = { ii ; Σ is ∈ B ii v is 2 ≠ 0 } ,
表示学习参数ν按照给出的组集合π计算的非零的组的序号。is表示分类器学习参数ν的维度序号;
ηg的计算公式如下:
η g = c su 1 + Σ ig = 1 pa - 1 c u ig u ig + 1 + c u pa t ,
表示这条路径中所有边的代价的和。其中,对于有向无环图G中的一条路径g=(u1,…,uig...,upa),uig表示有向无环图G中路径g上的任意一个节点,ig表示该点的序号,upa表示路径g上的最后一个点,s和t是有向无环图G之外的两个虚拟的固定点,两个固定点与有向无环图G中所有节点都有有向边相连,方向是点s指向有向无环图G中任意一点,有向无环图G中任意一点指向点t,
Figure BDA0000391545900000051
表示点s指向路径g的第一个点u1的边的代价,
Figure BDA0000391545900000052
表示有向无环图G中一条边的代价,
Figure BDA0000391545900000053
表示路径g的最后一个点upa指向点t的边的代价。上述代价的取值范围是大于零的实数。表示要选择这条边所要付出的代价。其含义是,代价越大表示对应的边的重要性越小,反之,代价越小表示对应边的重要性越大;
根据基因序列训练集得到分类器模型y=νTx,x为基因序列的向量形式。
本权利步骤三包括以下步骤:
对于一个输入基因序列d,根据步骤一转化为向量形式x后,根据分类器模型y=νTx判断基因序列的类别;
如果y>0,则为正类;
如果y<0,则为负类。
有益效果:一、本发明通过优化算法,使得计算机在处理相同基因序列分类时,比以往的处理方法速度更快,效率更高;
二、本发明避免了基于组稀疏化的方法所带来的对基因序列分类性能的影响。通过在组的基础上建立图的方法,能够避免组与组之间相互独立以及组与组之间规模差距大导致的分类精度下降问题。基于组和图稀疏化逻辑回归分类器可以很好的根据建立的有向无环图选择出有用的组,提高基因序列分类的精度的同时,还加强了分类模型的可解释性。
三、本发明本发明对现有的基于组稀疏化的基因序列分类方法进行改善和提高,能够避免组与组之间相互独立以及组与组之间规模差距大对分类精度产生的不良影响。在组与组之间建立的有向无环图可以帮助反映出组之间的内在联系,从而可以更好地表达出数据的结构特征。基于组和图稀疏化逻辑回归分类器可以很好的根据建立的有向无环图选择出有用的组,提高基因序列分类的精度的同时,还加强了分类模型的可解释性。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明的流程图。
具体实施方式
本发明提出了一种基于组和图稀疏化的基因序列分类方法,可以避免组与组之间相互独立以及组与组之间规模差距大对基因序列分类精度的影响。现有的技术中,基因序列分类通常使用稀疏表示方法对基因序列进行预处理。
本发明的计算机基因序列分类方法,包括以下步骤。
步骤一,对基因序列的特征空间进行分组:用稀疏表示的方法把训练集中每一个基因序列表示为向量构成特征空间,向量的每一维代表特征空间中的一个特征,并且把整个特征空间划分成互不相交的两个以上的组,每一个基因序列包括一个类标;
步骤一包括以下步骤:
对于训练集中的基因序列dj=c1,c2,…cjj…,ck,其中cjj∈{A,C,G,T}为基因序列dj中的第jjj个碱基,A为腺嘌呤、G为鸟嘌呤、T为胸腺嘧啶、C为胞嘧啶,jj=1,2,…k,k表示基因序列dj的总长度;例如,一个长度为7的序列AAGATTG,这里k=7。基因序列的稀疏表示方法是根据碱基的模板的实例来表示的。碱基的模板是由碱基的位置{1,2,…,k}组成的。根据组成模板的位置的个数,模板分为不同的阶数。一个n阶的模板是由{1,2,…,k}中n个不同的位置组成的,所以对于长度为k的序列,n阶模板的个数就是从k个里面选择n个的组合数。模板的实例是该模板下可能的碱基序列。每一个实例表示一个特征,所有模板的所有实例组成整个特征空间。比如对于一个2阶模板{1,3},指的就是基因序列中第一个位置和第三个位置,根据上面的叙述,每一个位置有四种可能的碱基(A,C,G,T)。所以,对于这个2阶模板的实例,总共有42=16个(AA,AC,AG,AT,CA,CC,CG,CT,GA,GC,GG,GT,TA,TC,TG,TT),也就是特征空间中的16个特征。对于基因序列dj,特征空间中的一个特征如果出现在基因序列dj中,则将这个特征对应的向量中的维度记为1,否则为0;由此基因序列dj的稀疏表示的向量形式xj为:
xj=(w1,j,w2,j,...,wm,j),
m表示特征空间的总数,wi,j表示特征的值,i∈{1,2,……m},i表示特征的序号,wi,j表示对应的特征是否存在于基因序列中。
步骤一包括以下步骤:
根据模板来对特征空间中的特征进行分组,把特征空间划分成互不相交的组;
所述模板是由碱基的位置组成的,也就是集合{1,2,…,k}中的元素组成的;根据组成模板的位置的个数,模板分为对应的阶数;一个n阶的模板是由{1,2,…,k}中n个不同的位置组成的,n的取值范围是1≤n≤k的整数,对于长度为k的基因序列,n阶模板的个数就是从k个里面选择n个的组合数;模板的实例是该模板下所有可能组合的碱基序列;每一个实例表示一个特征,所有模板的所有实例组成整个特征空间;模板的个数由下面的公式来计算:
C k 1 + C k 2 + &CenterDot; &CenterDot; &CenterDot; C k nt ,
其中nt表示一个正整数,表示使用的模板中的最大的阶数,nt的取值范围是1≤nt≤k的整数;比如对于一个长度为7的基因序列,用所有的1,2,3阶模板的实例来作为特征,m=7×4+21×16+35×64=2604。
一个模板下的全部实例对应的特征组成一个组,把特征空间划分为互不相交的两个以上组,组的数目与模板数目相同;
特征空间中的划分记为π={B1,…,Bii...,Bq},π表示所有组的集合,q表示组的个数,ii表示组号,Bii表示特征空间I={1,2,...,m}上的一个子集,也就是一个组,I表示特征空间上的特征的序号的集合,并且满足条件:
Figure BDA0000391545900000072
表示所有组的并集组成全部特征空间,
Figure BDA0000391545900000073
表示每个组都是非空集合,
Figure BDA0000391545900000075
表示任意两个组与组都是不相交的。
步骤二,在两个以上的组之间建立一个有向无环图,并且为有向无环图上的每一条边给定一个代价值;
步骤二包括以下步骤:
在组与组之间建立一个有向无环图G=(V,E),V表示图的节点集合,图上的每一个节点代表一个组,E表示图的边集。
步骤三,利用基于组和图稀疏化的逻辑回归分类器模型为基因序列分类。
步骤三包括以下步骤:
根据基于组和图稀疏化逻辑回归分类器的目标函数:
Figure BDA0000391545900000081
其中ν∈Rm是分类器学习的参数,Rm表示m维实数空间,Kt是训练数据集中基因序列的总数,λ是调节惩罚项和损失函数之间关系的常数,
Figure BDA0000391545900000085
表示图G中的所有路径组成的集合,yj是基因序列dj的类标,xj是基因序列dj的向量形式;参数
Figure BDA0000391545900000086
的计算公式如下:
Figure BDA0000391545900000082
表示要找到一个G中的子图,使得子图中的路径包含Supp(σ(ν))中的点,并且子图的所有路径的代价的和最小。
Figure BDA0000391545900000087
Figure BDA0000391545900000088
的一个子集,s.t.的中文含义是‘使得’。其中,
Supp ( &sigma; ( &nu; ) ) = { ii ; &Sigma; is &Element; B ii v is 2 &NotEqual; 0 } ,
表示学习参数ν按照给出的组集合π计算的非零的组的序号。is表示分类器学习参数ν的维度序号;
ηg的计算公式如下:
&eta; g = c su 1 + &Sigma; ig = 1 pa - 1 c u ig u ig + 1 + c u pa t ,
表示这条路径中所有边的代价的和。其中,对于有向无环图G中的一条路径g=(u1,…,uig...,upa),uig表示有向无环图G中路径g上的任意一个节点,ig表示该点的序号,upa表示路径g上的最后一个点,s和t是有向无环图G之外的两个虚拟的固定点,两个固定点与有向无环图G中所有节点都有有向边相连,方向是点s指向有向无环图G中任意一点,有向无环图G中任意一点指向点t,
Figure BDA0000391545900000091
表示点s指向路径g的第一个点u1的边的代价,表示有向无环图G中一条边的代价,
Figure BDA0000391545900000093
表示路径g的最后一个点upa指向点t的边的代价。上述代价的取值范围是大于零的实数。表示要选择这条边所要付出的代价。其含义是,代价越大表示对应的边的重要性越小,反之,代价越小表示对应边的重要性越大;
根据基因序列训练集得到分类器模型y=νTx,x为基因序列的向量形式。
步骤三包括以下步骤:
对于一个输入基因序列d,根据步骤一转化为向量形式x后,根据分类器模型y=νTx判断基因序列的类别;
如果y>0,则为正类;
如果y<0,则为负类。
实施例1
假设一个基因序列分类问题,要分类的基因序列是:
A、正类:AAGA,记为d1
B、负类:ATTG,记为d2
如果使用一阶模板来表示,特征空间变为:A,C,T,G,A,C,T,G,A,C,T,G,A,C,T,G。其中前四个特征表示位置1对应的四种可能,5-8个特征表示位置2对应的四种可能,9-12个特征表示位置3对应的四种可能,13-16个特征表示位置4对应的四种可能。按照前面叙述的向量表示方法,最后表示成表1的形式:
表1
类别 基因序列向量表示
正类 x1=(1,0,0,0,1,0,0,0,0,0,0,1,1,0,0,0)
负类 x2=(1,0,0,0,0,0,1,0,0,0,1,0,0,0,0,1)
表1中每一个权重是根据稀疏表示的方法计算而来的。比如对于x1向量的第一维,对应特征位置1的实例A,而d1的第一个位置是A,所以权重是1。其他的权重依此类推来计算,最后可得到表1中的结果。
下面是在特征空间上进行分组。根据步骤一,分组是根据模板来分的,一个模板对应一个组,分组的情况如表2所示:
表2
第一组 第二组 第三组 第四组
维度 1-4 5-8 9-12 13-16
然后是根据步骤二,在组与组之间建立一个有向无环图。根据不同的问题,建立的图可以是各种各样的,比如建立成:第一组→第二组,第一组→第三组,第二组→第四组,第三组→第四组。他们的边的代价如表3所示
表3
第一组→第二组 第一组→第三组 第二组→第四组 第三组→第四组
代价 0.1 1 0.1 1
组和图都建立好了以后,根据基于组和图稀疏化逻辑回归分类器的目标函数:
Figure BDA0000391545900000101
其中ν∈Rm是分类器学习的参数,Rm表示m维实数空间,Kt是训练数据集中基因序列的总数,λ是调节惩罚项和损失函数之间关系的常数,
Figure BDA0000391545900000104
表示图G中的所有路径组成的集合,yj是基因序列dj的类标,xj是基因序列dj的向量形式;参数
Figure BDA0000391545900000105
的计算公式如下:
表示要找到一个G中的子图,使得子图中的路径包含Supp(σ(ν))中的点,并且子图的所有路径的代价的和最小。
Figure BDA0000391545900000107
的一个子集,s.t.的中文含义是‘使得’。其中,
Supp ( &sigma; ( &nu; ) ) = { ii ; &Sigma; is &Element; B ii v is 2 &NotEqual; 0 } ,
表示学习参数ν按照给出的组集合π计算的非零的组的序号。is表示分类器学习参数ν的维度序号;
ηg的计算公式如下:
&eta; g = c su 1 + &Sigma; ig = 1 pa - 1 c u ig u ig + 1 + c u pa t ,
表示这条路径中所有边的代价的和。其中,对于有向无环图G中的一条路径g=(u1,…,uig...,upa),uig表示有向无环图G中路径g上的任意一个节点,ig表示该点的序号,upa表示路径g上的最后一个点,s和t是有向无环图G之外的两个虚拟的固定点,两个固定点与有向无环图G中所有节点都有有向边相连,方向是点s指向有向无环图G中任意一点,有向无环图G中任意一点指向点t,
Figure BDA0000391545900000112
表示点s指向路径g的第一个点u1的边的代价,
Figure BDA0000391545900000113
表示有向无环图G中一条边的代价,表示路径g的最后一个点upa指向点t的边的代价。上述代价的取值范围是大于零的实数。表示要选择这条边所要付出的代价。其含义是,代价越大表示对应的边的重要性越小,反之,代价越小表示对应边的重要性越大;
根据基因序列训练集得到分类器模型y=νTx,x为基因序列的向量形式。
步骤三包括以下步骤:
对于一个输入基因序列d,根据步骤一转化为向量形式x后,根据分类器模型y=νTx判断基因序列的类别;
如果y>0,则为正类;
如果y<0,则为负类。
实施例2
本发明所用的算法全部由python语言编写实现。实验采用的机型为:Intel XeonX7550处理器,主频为2.00G HZ,内存为32G。本发明使用的SPAMS工具包是目前通用的一个开源分类器训练包。
更具体地说,如图1所示,本发明运行如下:
1.对特征空间进行分组:用稀疏表示的方法把每一个基因序列表示为向量,并且把整个特征空间划分成互不相交的组。特征空间使用一阶,二阶,三阶模板建立,分组也根据一阶,二阶,三阶模板来进行分组;
2.在组与组之间建立一个有向无环图:在组与组之间建立一个有向无环图,并且为图上的每一条边给定一个代价值(cost);
3.利用基于组和图稀疏化的逻辑回归分类器模型为基因序列分类。
实验数据准备如下:选取MEMset作为训练数据集。数据集包含两个子数据集,分别是5’剪接位点和3’剪接位点两个数据集。5’剪接位点数据集被分成训练集(5610个正类,5610个负类),验证集(2805个正类,59804个负类)和测试集(4208个正类,89717个负类)。3’剪接位点数据集被分成训练集(5630个正类,5630个负类),验证集(2835个正类,60607个负类)和测试集(4233个正类,90494个负类)。
表4中的数据表示分类结果的最大相关系数,其数值越大越好。可以看出本发明在这两个数据集上的分类性能都是很好的。并且本发明的效率很高,例如,对于3‘剪接位点的任务,原方法处理问题需要两个小时左右,而本方法仅需要15分钟左右。
表4实验结果:
数据集 5’剪接位点 3’剪接位点
分类精度 0.6637 0.6366
本发明提供了一种基于组和图稀疏化的基因序列分类方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (6)

1.一种基于组和图稀疏化的基因序列分类方法,其特征在于,包括以下步骤:
步骤一,对基因序列的特征空间进行分组:用稀疏表示的方法把训练集中每一个基因序列表示为向量构成特征空间,向量的每一维代表特征空间中的一个特征,并且把整个特征空间划分成互不相交的两个以上的组,每一个基因序列包括一个类标;
步骤二,在两个以上的组之间建立一个有向无环图,并且为有向无环图上的每一条边给定一个代价值;
步骤三,利用基于组和图稀疏化的逻辑回归分类器模型为基因序列分类。
2.根据权利要求1中所述的方法,其特征在于,步骤一包括以下步骤:
对于训练集中的基因序列dj=c1,c2,…cjj…,ck,其中cjj=)A,C,G,T}为基因序列dj中的第jj个碱基,A为腺嘌呤、G为鸟嘌呤、T为胸腺嘧啶、C为胞嘧啶,jj=1,2,…k,k表示基因序列dj的总长度;对于基因序列dj,特征空间中的一个特征如果出现在基因序列dj中,则将这个特征对应的向量中的维度记为1,否则为0;由此基因序列dj的稀疏表示的向量形式xj为:
xj=(w1,j,w2,j,...,wm,j),
m表示特征空间的总数,wi,j表示特征的值,i∈{1,2,......m},i表示特征的序号,wi,j表示对应的特征是否存在于基因序列中。
3.根据权利要求2所述的方法,其特征在于,步骤一包括以下步骤:
根据模板来对特征空间中的特征进行分组,把特征空间划分成互不相交的组;
所述模板是由碱基的位置组成的,也就是集合{1,2,...,k}中的元素组成的;根据组成模板的位置的个数,模板分为对应的阶数;一个n阶的模板是由{1,2,…,k}中n个不同的位置组成的,n的取值范围是1≤n≤k的整数,对于长度为k的基因序列,n阶模板的个数就是从k个里面选择n个的组合数;模板的实例是该模板下所有可能组合的碱基序列;每一个实例表示一个特征,所有模板的所有实例组成整个特征空间;模板的个数由下面的公式来计算:
C k 1 + C k 2 + &CenterDot; &CenterDot; &CenterDot; C k nt ,
其中nt表示一个正整数,表示使用的模板中的最大的阶数,nt的取值范围是1≤nt≤k的整数;
一个模板下的全部实例对应的特征组成一个组,把特征空间划分为互不相交的两个以上组,组的数目与模板数目相同;
特征空间中的划分记为π={B1,…,Bii...,Bq},π表示所有组的集合,q表示组的个数,ii表示组号,Bii表示特征空间I={1,2,...,m}上的一个子集,也就是一个组,I表示特征空间上的特征的序号的集合,并且满足条件:
Figure FDA0000391545890000021
Figure FDA0000391545890000024
4.根据权利要求1中所述的方法,其特征在于,步骤二包括以下步骤:
在组与组之间建立一个有向无环图G=(V,E),V表示图的节点集合,图上的每一个节点代表一个组,E表示图的边集。
5.根据权利要求4中所述的方法,其特征在于,步骤三包括以下步骤:
根据基于组和图稀疏化逻辑回归分类器的目标函数:
其中ν∈Rm是分类器学习的参数,Rm表示m维实数空间,Kt是训练数据集中基因序列的总数,λ是调节惩罚项和损失函数之间关系的常数,表示图G中的所有路径组成的集合,yj是基因序列dj的类标,xj是基因序列dj的向量形式;参
Figure FDA00003915458900000210
的计算公式如下:
Figure FDA00003915458900000211
Figure FDA00003915458900000212
的一个子集,其中,
Supp ( &sigma; ( &nu; ) ) = { ii ; &Sigma; is &Element; B ii v is 2 &NotEqual; 0 } ,
is表示分类器学习参数ν的维度序号;
ηg的计算公式如下:
&eta; g = c su 1 + &Sigma; ig = 1 pa - 1 c u ig u ig + 1 + c u pa t ,
其中,对于有向无环图G中的一条路径g=(u1,…,uig...,upa),uig表示有向无环图G中路径g上的任意一个节点,ig表示该点的序号,upa表示路径g上的最后一个点,s和t是有向无环图G之外的两个虚拟的固定点,两个固定点与有向无环图G中所有节点都有有向边相连,方向是点s指向有向无环图G中任意一点,有向无环图G中任意一点指向点t,
Figure FDA0000391545890000032
表示点s指向路径g的第一个点u1的边的代价,
Figure FDA0000391545890000033
表示有向无环图G中一条边的代价,
Figure FDA0000391545890000034
表示路径g的最后一个点upa指向点t的边的代价;
根据基因序列训练集得到分类器模型y=νTx,x为基因序列的向量形式。
6.根据权利要求5中所述的方法,其特征在于,步骤三包括以下步骤:
对于一个输入基因序列d,根据步骤一转化为向量形式x后,根据分类器模型y=νTx判断基因序列的类别;
如果y>0,则为正类;
如果y<0,则为负类。
CN201310464401.8A 2013-09-30 2013-09-30 一种基于组和图稀疏化的基因序列分类方法 Active CN103473484B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310464401.8A CN103473484B (zh) 2013-09-30 2013-09-30 一种基于组和图稀疏化的基因序列分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310464401.8A CN103473484B (zh) 2013-09-30 2013-09-30 一种基于组和图稀疏化的基因序列分类方法

Publications (2)

Publication Number Publication Date
CN103473484A true CN103473484A (zh) 2013-12-25
CN103473484B CN103473484B (zh) 2016-05-11

Family

ID=49798331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310464401.8A Active CN103473484B (zh) 2013-09-30 2013-09-30 一种基于组和图稀疏化的基因序列分类方法

Country Status (1)

Country Link
CN (1) CN103473484B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109671468A (zh) * 2018-12-13 2019-04-23 韶关学院 一种特征基因选择及癌症分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1710558A (zh) * 2005-07-07 2005-12-21 复旦大学 基于主集分割的基因芯片表达谱数据聚类方法
WO2008117278A2 (en) * 2007-03-27 2008-10-02 Rosetta Genomics Ltd. Gene expression signature for classification of cancers
CN102509107A (zh) * 2011-10-13 2012-06-20 西北工业大学 一种基于稀疏分解l0图的局部全局一致性分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1710558A (zh) * 2005-07-07 2005-12-21 复旦大学 基于主集分割的基因芯片表达谱数据聚类方法
WO2008117278A2 (en) * 2007-03-27 2008-10-02 Rosetta Genomics Ltd. Gene expression signature for classification of cancers
CN102509107A (zh) * 2011-10-13 2012-06-20 西北工业大学 一种基于稀疏分解l0图的局部全局一致性分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐建震 等: "结合基因功能分类体系筛选聚类特征基因", 《生物物理学报》 *
李放歌 等: "全基因组关联研究中的交互作用研究现状", 《遗传》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109671468A (zh) * 2018-12-13 2019-04-23 韶关学院 一种特征基因选择及癌症分类方法
CN109671468B (zh) * 2018-12-13 2023-08-15 韶关学院 一种特征基因选择及癌症分类方法

Also Published As

Publication number Publication date
CN103473484B (zh) 2016-05-11

Similar Documents

Publication Publication Date Title
CN105046279B (zh) 一种模拟电路故障模式分类方法
CN104166706B (zh) 基于代价敏感主动学习的多标签分类器构建方法
CN105389583A (zh) 图像分类器的生成方法、图像分类方法和装置
CN101980211A (zh) 一种机器学习模型及其建立方法
CN105373800A (zh) 分类方法及装置
CN102915448B (zh) 一种基于AdaBoost的三维模型自动分类方法
CN104966105A (zh) 一种鲁棒机器错误检索方法与系统
CN101980210A (zh) 一种标的词分类分级方法及系统
CN104166731A (zh) 一种社交网络重叠社区发现系统及其方法
CN101957859B (zh) 基于集成支撑矢量机排序的信息检索方法
CN103886330A (zh) 基于半监督svm集成学习的分类方法
CN105760888A (zh) 一种基于属性聚类的邻域粗糙集集成学习方法
CN101882136B (zh) 文本情感倾向性分析方法
CN103020167B (zh) 一种计算机中文文本分类方法
CN112925908A (zh) 一种基于Attention的图注意力网络的文本分类方法及系统
CN105931271B (zh) 一种基于变分bp-hmm的人的行为轨迹识别方法
CN102629272A (zh) 一种基于聚类的考试系统试题库优化方法
CN108875034A (zh) 一种基于层次化长短期记忆网络的中文文本分类方法
CN106601235A (zh) 一种半监督多任务特征选择的语音识别方法
CN105786898B (zh) 一种领域本体的构建方法和装置
CN110096630A (zh) 一类基于聚类分析的大数据处理方法
CN110738232A (zh) 一种基于数据挖掘技术的电网电压越限成因诊断方法
CN108009248A (zh) 一种数据分类方法和系统
CN104281569A (zh) 构建装置和方法、分类装置和方法以及电子设备
CN108021985A (zh) 一种模型参数训练方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant