CN103473484A - 一种基于组和图稀疏化的基因序列分类方法 - Google Patents
一种基于组和图稀疏化的基因序列分类方法 Download PDFInfo
- Publication number
- CN103473484A CN103473484A CN2013104644018A CN201310464401A CN103473484A CN 103473484 A CN103473484 A CN 103473484A CN 2013104644018 A CN2013104644018 A CN 2013104644018A CN 201310464401 A CN201310464401 A CN 201310464401A CN 103473484 A CN103473484 A CN 103473484A
- Authority
- CN
- China
- Prior art keywords
- gene sequence
- graph
- directed acyclic
- feature
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 112
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000007477 logistic regression Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 8
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 claims description 6
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 claims description 6
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical group CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 229930024421 Adenine Natural products 0.000 claims description 3
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 claims description 3
- 229960000643 adenine Drugs 0.000 claims description 3
- 229940104302 cytosine Drugs 0.000 claims description 3
- 229940113082 thymine Drugs 0.000 claims description 3
- 235000008434 ginseng Nutrition 0.000 claims 2
- 241000208340 Araliaceae Species 0.000 claims 1
- 240000004371 Panax ginseng Species 0.000 claims 1
- 235000002789 Panax ginseng Nutrition 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 108020005067 RNA Splice Sites Proteins 0.000 description 6
- 238000011161 development Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种基于组和图稀疏化的基因序列分类方法,包括以下步骤:按照基因序列的特征,把特征空间内的特征分成不重叠的组。在组与组之间建立一个有向无环图。利用基于组和图稀疏化的分类模型为基因序列分类。本发明对现有的基于组稀疏化的基因序列分类方法进行改善和提高,能够避免组与组之间相互独立以及组与组之间规模差距大导致的分类精度下降问题。组与组之间建立有向无环图的方式,能够很好地避免上述两个问题,提高学习效率。基于组和图稀疏化逻辑回归分类器可以很好的根据建立的有向无环图选择出有用的组,提高分类的精度的同时,还加强了分类模型的可解释性。
Description
技术领域
本发明涉及一种计算机生物信息处理领域,特别是一种基于组和图稀疏化的基因序列分类方法。
背景技术
随着当今世界科学技术的飞速发展,大量的生物学问题需要进行处理。然而,随着数据量变的越来越大,用人力进行处理已经无法满足要求。随着计算机技术迅速普及和发展,利用计算机对生物学数据进行自动的处理在科研领域和应用领域都变得十分重要。这其中,对基因序列的分类就是一个非常重要的任务。基因序列分类就是根据具体的碱基序列,利用计算机给一个序列安排一个类别(正类和负类)。比如在基因序列的分类任务中,判断一个基因序列是否是一个剪接位点。如果一个基因序列是剪接位点,就是正类。不是剪接位点就是负类。(Yeo,G.W.and Burge,C.B.Maximumentropy modeling of short sequence motifs with applications to rna splicing signals.Journalof Computational Biology,11(2/3):377–394,2004.)对于一个基因序列分类任务,首先把每一个碱基序列都映射到一个高维欧几里得空间,然后利用机器学习里的分类器,从大量的训练数据中学习出分类器模型,最后用这个分类器模型对未知类别的基因序列进行分类。近年来,随着机器学习技术的发展,基因序列的分类方法取得了一系列重要的进展。而在基因序列的表示步骤中,稀疏表示的方法有着广泛的应用。但是这种表示方法会导致稀疏性比较严重,同时,基因序列分类问题本身也有稀疏性,能够影响分类的关键特征只在特征空间中占有一小部分。这样就需要使用稀疏化的方法从大量的特征中训练出有用的特征。基于组稀疏化的方法就被大量用于这类问题。但是这个方法也有缺陷,在面对大规模问题的时候不能很好的表示出基因序列的结构特征。比如对于一个基因序列长度为90的数据集进行分类,如果用全部1,2,3阶模板的稀疏化表示,那么特征空间的维度大约是七百五十万维。这样大的特征空间用计算机处理就会比较吃力。更进一步,对于一个长度是90的基因序列,使用3阶模板并不够,想要表示更多的基因序列的结构信息,需要4阶,5阶,甚至更高的模板。但就这个问题来说,使用1,2,3,4阶模板会让特征空间增大到大约六亿六千万,这就很难使用甚至不能使用计算机来处理了。在组与组之间建立有向无环图可以让大的模板通过小的模板来表示,大的模板的结构信息可以通过小模板与小模板(组与组)之间的关系图结构来表示,比如把两个2阶的模板用一条边连接起来,就可以代替一个4阶的大模板。这样可以大大降低表达相似结构特征所需要的维度。同时,组与组之间规模差距大导致的分类精度降低的问题也可以通过建立组之间的有向无环图来解决。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于组和图稀疏化的基因序列分类方法。
为了解决上述技术问题,本发明公开了一种基于组和图稀疏化的基因序列分类方法,包括以下步骤:
步骤一,对基因序列的特征空间进行分组:用稀疏表示的方法把训练集中每一个基因序列表示为向量构成特征空间,向量的每一维代表特征空间中的一个特征,并且把整个特征空间划分成互不相交的两个以上的组,每一个基因序列包括一个类标;
步骤二,在两个以上的组之间建立一个有向无环图,并且为有向无环图上的每一条边给定一个代价值;
步骤三,利用基于组和图稀疏化的逻辑回归分类器模型为基因序列分类。
步骤一包括以下步骤:
对于训练集中的基因序列dj=c1,c2,…cjj…,ck,其中cjj∈{A,C,G,T}为基因序列dj中的第jj个碱基,A为腺嘌呤、G为鸟嘌呤、T为胸腺嘧啶、C为胞嘧啶,jj=1,2,…k,k表示基因序列dj的总长度;例如,一个长度为7的序列AAGATTG,这里k=7。基因序列的稀疏表示方法是根据碱基的模板的实例来表示的,。碱基的模板是由碱基的位置{1,2,…,k}组成的。根据组成模板的位置的个数,模板分为不同的阶数。一个n阶的模板是由{1,2,…,k}中n个不同的位置组成的,所以对于长度为k的序列,n阶模板的个数就是从k个里面选择n个的组合数。模板的实例是该模板下可能的碱基序列。每一个实例表示一个特征,所有模板的所有实例组成整个特征空间。比如对于一个2阶模板{1,3},指的就是基因序列中第一个位置和第三个位置,根据上面的叙述,每一个位置有四种可能的碱基(A,C,G,T)。所以,对于这个2阶模板的实例,总共有42=16个(AA,AC,AG,AT,CA,CC,CG,CT,GA,GC,GG,GT,TA,TC,TG,TT),也就是特征空间中的16个特征。对于基因序列dj,特征空间中的一个特征如果出现在基因序列dj中,则将这个特征对应的向量中的维度记为1,否则为0;由此基因序列dj的稀疏表示的向量形式xj为:
xj=(w1,j,w2,j,...,wm,j),
m表示特征空间的总数,wi,j表示特征的值,i∈{1,2,……m},i表示特征的序号,wi,j表示对应的特征是否存在于基因序列中。
步骤一包括以下步骤:
根据模板来对特征空间中的特征进行分组,把特征空间划分成互不相交的组;
所述模板是由碱基的位置组成的,也就是集合{1,2,…,k}中的元素组成的;根据组成模板的位置的个数,模板分为对应的阶数;一个n阶的模板是由{1,2,…,k}中n个不同的位置组成的,n的取值范围是1≤n≤k的整数,对于长度为k的基因序列,n阶模板的个数就是从k个里面选择n个的组合数;模板的实例是该模板下所有可能组合的碱基序列;每一个实例表示一个特征,所有模板的所有实例组成整个特征空间;模板的个数由下面的公式来计算:
其中nt表示一个正整数,表示使用的模板中的最大的阶数,nt的取值范围是
1≤nt≤k的整数;比如对于一个长度为7的基因序列,用所有的1,2,3阶模板的实例来作为特征,m=7×4+21×16+35×64=2604。
一个模板下的全部实例对应的特征组成一个组,把特征空间划分为互不相交的两个以上组,组的数目与模板数目相同。
特征空间中的划分记为π={B1,…,Bii...,Bq},π表示所有组的集合,q表示组的个数,ii表示组号,Bii表示特征空间I={1,2,...,m}上的一个子集,也就是一个组,I表示特征空间上的特征的序号的集合,并且满足条件:表示所有组的并集组成全部特征空间,表示每个组都是非空集合,表示任意两个组与组都是不相交的。
步骤二包括以下步骤:
在组与组之间建立一个有向无环图G=(V,E),V表示图的节点集合,图上的每一个节点代表一个组,E表示图的边集。
步骤三包括以下步骤:
根据基于组和图稀疏化逻辑回归分类器的目标函数:
其中ν∈Rm是分类器学习的参数,Rm表示m维实数空间,Kt是训练数据集中基因序列的总数,λ是调节惩罚项和损失函数之间关系的常数,表示图G中的所有路径组成的集合,yj是基因序列dj的类标,xj是基因序列dj的向量形式;参数的计算公式如下:
表示学习参数ν按照给出的组集合π计算的非零的组的序号。is表示分类器学习参数ν的维度序号;
ηg的计算公式如下:
表示这条路径中所有边的代价的和。其中,对于有向无环图G中的一条路径g=(u1,…,uig...,upa),uig表示有向无环图G中路径g上的任意一个节点,ig表示该点的序号,upa表示路径g上的最后一个点,s和t是有向无环图G之外的两个虚拟的固定点,两个固定点与有向无环图G中所有节点都有有向边相连,方向是点s指向有向无环图G中任意一点,有向无环图G中任意一点指向点t,表示点s指向路径g的第一个点u1的边的代价,表示有向无环图G中一条边的代价,表示路径g的最后一个点upa指向点t的边的代价。上述代价的取值范围是大于零的实数。表示要选择这条边所要付出的代价。其含义是,代价越大表示对应的边的重要性越小,反之,代价越小表示对应边的重要性越大;
根据基因序列训练集得到分类器模型y=νTx,x为基因序列的向量形式。
本权利步骤三包括以下步骤:
对于一个输入基因序列d,根据步骤一转化为向量形式x后,根据分类器模型y=νTx判断基因序列的类别;
如果y>0,则为正类;
如果y<0,则为负类。
有益效果:一、本发明通过优化算法,使得计算机在处理相同基因序列分类时,比以往的处理方法速度更快,效率更高;
二、本发明避免了基于组稀疏化的方法所带来的对基因序列分类性能的影响。通过在组的基础上建立图的方法,能够避免组与组之间相互独立以及组与组之间规模差距大导致的分类精度下降问题。基于组和图稀疏化逻辑回归分类器可以很好的根据建立的有向无环图选择出有用的组,提高基因序列分类的精度的同时,还加强了分类模型的可解释性。
三、本发明本发明对现有的基于组稀疏化的基因序列分类方法进行改善和提高,能够避免组与组之间相互独立以及组与组之间规模差距大对分类精度产生的不良影响。在组与组之间建立的有向无环图可以帮助反映出组之间的内在联系,从而可以更好地表达出数据的结构特征。基于组和图稀疏化逻辑回归分类器可以很好的根据建立的有向无环图选择出有用的组,提高基因序列分类的精度的同时,还加强了分类模型的可解释性。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明的流程图。
具体实施方式
本发明提出了一种基于组和图稀疏化的基因序列分类方法,可以避免组与组之间相互独立以及组与组之间规模差距大对基因序列分类精度的影响。现有的技术中,基因序列分类通常使用稀疏表示方法对基因序列进行预处理。
本发明的计算机基因序列分类方法,包括以下步骤。
步骤一,对基因序列的特征空间进行分组:用稀疏表示的方法把训练集中每一个基因序列表示为向量构成特征空间,向量的每一维代表特征空间中的一个特征,并且把整个特征空间划分成互不相交的两个以上的组,每一个基因序列包括一个类标;
步骤一包括以下步骤:
对于训练集中的基因序列dj=c1,c2,…cjj…,ck,其中cjj∈{A,C,G,T}为基因序列dj中的第jjj个碱基,A为腺嘌呤、G为鸟嘌呤、T为胸腺嘧啶、C为胞嘧啶,jj=1,2,…k,k表示基因序列dj的总长度;例如,一个长度为7的序列AAGATTG,这里k=7。基因序列的稀疏表示方法是根据碱基的模板的实例来表示的。碱基的模板是由碱基的位置{1,2,…,k}组成的。根据组成模板的位置的个数,模板分为不同的阶数。一个n阶的模板是由{1,2,…,k}中n个不同的位置组成的,所以对于长度为k的序列,n阶模板的个数就是从k个里面选择n个的组合数。模板的实例是该模板下可能的碱基序列。每一个实例表示一个特征,所有模板的所有实例组成整个特征空间。比如对于一个2阶模板{1,3},指的就是基因序列中第一个位置和第三个位置,根据上面的叙述,每一个位置有四种可能的碱基(A,C,G,T)。所以,对于这个2阶模板的实例,总共有42=16个(AA,AC,AG,AT,CA,CC,CG,CT,GA,GC,GG,GT,TA,TC,TG,TT),也就是特征空间中的16个特征。对于基因序列dj,特征空间中的一个特征如果出现在基因序列dj中,则将这个特征对应的向量中的维度记为1,否则为0;由此基因序列dj的稀疏表示的向量形式xj为:
xj=(w1,j,w2,j,...,wm,j),
m表示特征空间的总数,wi,j表示特征的值,i∈{1,2,……m},i表示特征的序号,wi,j表示对应的特征是否存在于基因序列中。
步骤一包括以下步骤:
根据模板来对特征空间中的特征进行分组,把特征空间划分成互不相交的组;
所述模板是由碱基的位置组成的,也就是集合{1,2,…,k}中的元素组成的;根据组成模板的位置的个数,模板分为对应的阶数;一个n阶的模板是由{1,2,…,k}中n个不同的位置组成的,n的取值范围是1≤n≤k的整数,对于长度为k的基因序列,n阶模板的个数就是从k个里面选择n个的组合数;模板的实例是该模板下所有可能组合的碱基序列;每一个实例表示一个特征,所有模板的所有实例组成整个特征空间;模板的个数由下面的公式来计算:
其中nt表示一个正整数,表示使用的模板中的最大的阶数,nt的取值范围是1≤nt≤k的整数;比如对于一个长度为7的基因序列,用所有的1,2,3阶模板的实例来作为特征,m=7×4+21×16+35×64=2604。
一个模板下的全部实例对应的特征组成一个组,把特征空间划分为互不相交的两个以上组,组的数目与模板数目相同;
特征空间中的划分记为π={B1,…,Bii...,Bq},π表示所有组的集合,q表示组的个数,ii表示组号,Bii表示特征空间I={1,2,...,m}上的一个子集,也就是一个组,I表示特征空间上的特征的序号的集合,并且满足条件:表示所有组的并集组成全部特征空间,表示每个组都是非空集合,表示任意两个组与组都是不相交的。
步骤二,在两个以上的组之间建立一个有向无环图,并且为有向无环图上的每一条边给定一个代价值;
步骤二包括以下步骤:
在组与组之间建立一个有向无环图G=(V,E),V表示图的节点集合,图上的每一个节点代表一个组,E表示图的边集。
步骤三,利用基于组和图稀疏化的逻辑回归分类器模型为基因序列分类。
步骤三包括以下步骤:
根据基于组和图稀疏化逻辑回归分类器的目标函数:
其中ν∈Rm是分类器学习的参数,Rm表示m维实数空间,Kt是训练数据集中基因序列的总数,λ是调节惩罚项和损失函数之间关系的常数,表示图G中的所有路径组成的集合,yj是基因序列dj的类标,xj是基因序列dj的向量形式;参数的计算公式如下:
表示学习参数ν按照给出的组集合π计算的非零的组的序号。is表示分类器学习参数ν的维度序号;
ηg的计算公式如下:
表示这条路径中所有边的代价的和。其中,对于有向无环图G中的一条路径g=(u1,…,uig...,upa),uig表示有向无环图G中路径g上的任意一个节点,ig表示该点的序号,upa表示路径g上的最后一个点,s和t是有向无环图G之外的两个虚拟的固定点,两个固定点与有向无环图G中所有节点都有有向边相连,方向是点s指向有向无环图G中任意一点,有向无环图G中任意一点指向点t,表示点s指向路径g的第一个点u1的边的代价,表示有向无环图G中一条边的代价,表示路径g的最后一个点upa指向点t的边的代价。上述代价的取值范围是大于零的实数。表示要选择这条边所要付出的代价。其含义是,代价越大表示对应的边的重要性越小,反之,代价越小表示对应边的重要性越大;
根据基因序列训练集得到分类器模型y=νTx,x为基因序列的向量形式。
步骤三包括以下步骤:
对于一个输入基因序列d,根据步骤一转化为向量形式x后,根据分类器模型y=νTx判断基因序列的类别;
如果y>0,则为正类;
如果y<0,则为负类。
实施例1
假设一个基因序列分类问题,要分类的基因序列是:
A、正类:AAGA,记为d1
B、负类:ATTG,记为d2
如果使用一阶模板来表示,特征空间变为:A,C,T,G,A,C,T,G,A,C,T,G,A,C,T,G。其中前四个特征表示位置1对应的四种可能,5-8个特征表示位置2对应的四种可能,9-12个特征表示位置3对应的四种可能,13-16个特征表示位置4对应的四种可能。按照前面叙述的向量表示方法,最后表示成表1的形式:
表1
类别 | 基因序列向量表示 |
正类 | x1=(1,0,0,0,1,0,0,0,0,0,0,1,1,0,0,0) |
负类 | x2=(1,0,0,0,0,0,1,0,0,0,1,0,0,0,0,1) |
表1中每一个权重是根据稀疏表示的方法计算而来的。比如对于x1向量的第一维,对应特征位置1的实例A,而d1的第一个位置是A,所以权重是1。其他的权重依此类推来计算,最后可得到表1中的结果。
下面是在特征空间上进行分组。根据步骤一,分组是根据模板来分的,一个模板对应一个组,分组的情况如表2所示:
表2
组 | 第一组 | 第二组 | 第三组 | 第四组 |
维度 | 1-4 | 5-8 | 9-12 | 13-16 |
然后是根据步骤二,在组与组之间建立一个有向无环图。根据不同的问题,建立的图可以是各种各样的,比如建立成:第一组→第二组,第一组→第三组,第二组→第四组,第三组→第四组。他们的边的代价如表3所示
表3
边 | 第一组→第二组 | 第一组→第三组 | 第二组→第四组 | 第三组→第四组 |
代价 | 0.1 | 1 | 0.1 | 1 |
组和图都建立好了以后,根据基于组和图稀疏化逻辑回归分类器的目标函数:
其中ν∈Rm是分类器学习的参数,Rm表示m维实数空间,Kt是训练数据集中基因序列的总数,λ是调节惩罚项和损失函数之间关系的常数,表示图G中的所有路径组成的集合,yj是基因序列dj的类标,xj是基因序列dj的向量形式;参数的计算公式如下:
表示学习参数ν按照给出的组集合π计算的非零的组的序号。is表示分类器学习参数ν的维度序号;
ηg的计算公式如下:
表示这条路径中所有边的代价的和。其中,对于有向无环图G中的一条路径g=(u1,…,uig...,upa),uig表示有向无环图G中路径g上的任意一个节点,ig表示该点的序号,upa表示路径g上的最后一个点,s和t是有向无环图G之外的两个虚拟的固定点,两个固定点与有向无环图G中所有节点都有有向边相连,方向是点s指向有向无环图G中任意一点,有向无环图G中任意一点指向点t,表示点s指向路径g的第一个点u1的边的代价,表示有向无环图G中一条边的代价,表示路径g的最后一个点upa指向点t的边的代价。上述代价的取值范围是大于零的实数。表示要选择这条边所要付出的代价。其含义是,代价越大表示对应的边的重要性越小,反之,代价越小表示对应边的重要性越大;
根据基因序列训练集得到分类器模型y=νTx,x为基因序列的向量形式。
步骤三包括以下步骤:
对于一个输入基因序列d,根据步骤一转化为向量形式x后,根据分类器模型y=νTx判断基因序列的类别;
如果y>0,则为正类;
如果y<0,则为负类。
实施例2
本发明所用的算法全部由python语言编写实现。实验采用的机型为:Intel XeonX7550处理器,主频为2.00G HZ,内存为32G。本发明使用的SPAMS工具包是目前通用的一个开源分类器训练包。
更具体地说,如图1所示,本发明运行如下:
1.对特征空间进行分组:用稀疏表示的方法把每一个基因序列表示为向量,并且把整个特征空间划分成互不相交的组。特征空间使用一阶,二阶,三阶模板建立,分组也根据一阶,二阶,三阶模板来进行分组;
2.在组与组之间建立一个有向无环图:在组与组之间建立一个有向无环图,并且为图上的每一条边给定一个代价值(cost);
3.利用基于组和图稀疏化的逻辑回归分类器模型为基因序列分类。
实验数据准备如下:选取MEMset作为训练数据集。数据集包含两个子数据集,分别是5’剪接位点和3’剪接位点两个数据集。5’剪接位点数据集被分成训练集(5610个正类,5610个负类),验证集(2805个正类,59804个负类)和测试集(4208个正类,89717个负类)。3’剪接位点数据集被分成训练集(5630个正类,5630个负类),验证集(2835个正类,60607个负类)和测试集(4233个正类,90494个负类)。
表4中的数据表示分类结果的最大相关系数,其数值越大越好。可以看出本发明在这两个数据集上的分类性能都是很好的。并且本发明的效率很高,例如,对于3‘剪接位点的任务,原方法处理问题需要两个小时左右,而本方法仅需要15分钟左右。
表4实验结果:
数据集 | 5’剪接位点 | 3’剪接位点 |
分类精度 | 0.6637 | 0.6366 |
本发明提供了一种基于组和图稀疏化的基因序列分类方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (6)
1.一种基于组和图稀疏化的基因序列分类方法,其特征在于,包括以下步骤:
步骤一,对基因序列的特征空间进行分组:用稀疏表示的方法把训练集中每一个基因序列表示为向量构成特征空间,向量的每一维代表特征空间中的一个特征,并且把整个特征空间划分成互不相交的两个以上的组,每一个基因序列包括一个类标;
步骤二,在两个以上的组之间建立一个有向无环图,并且为有向无环图上的每一条边给定一个代价值;
步骤三,利用基于组和图稀疏化的逻辑回归分类器模型为基因序列分类。
2.根据权利要求1中所述的方法,其特征在于,步骤一包括以下步骤:
对于训练集中的基因序列dj=c1,c2,…cjj…,ck,其中cjj=)A,C,G,T}为基因序列dj中的第jj个碱基,A为腺嘌呤、G为鸟嘌呤、T为胸腺嘧啶、C为胞嘧啶,jj=1,2,…k,k表示基因序列dj的总长度;对于基因序列dj,特征空间中的一个特征如果出现在基因序列dj中,则将这个特征对应的向量中的维度记为1,否则为0;由此基因序列dj的稀疏表示的向量形式xj为:
xj=(w1,j,w2,j,...,wm,j),
m表示特征空间的总数,wi,j表示特征的值,i∈{1,2,......m},i表示特征的序号,wi,j表示对应的特征是否存在于基因序列中。
3.根据权利要求2所述的方法,其特征在于,步骤一包括以下步骤:
根据模板来对特征空间中的特征进行分组,把特征空间划分成互不相交的组;
所述模板是由碱基的位置组成的,也就是集合{1,2,...,k}中的元素组成的;根据组成模板的位置的个数,模板分为对应的阶数;一个n阶的模板是由{1,2,…,k}中n个不同的位置组成的,n的取值范围是1≤n≤k的整数,对于长度为k的基因序列,n阶模板的个数就是从k个里面选择n个的组合数;模板的实例是该模板下所有可能组合的碱基序列;每一个实例表示一个特征,所有模板的所有实例组成整个特征空间;模板的个数由下面的公式来计算:
其中nt表示一个正整数,表示使用的模板中的最大的阶数,nt的取值范围是1≤nt≤k的整数;
一个模板下的全部实例对应的特征组成一个组,把特征空间划分为互不相交的两个以上组,组的数目与模板数目相同;
4.根据权利要求1中所述的方法,其特征在于,步骤二包括以下步骤:
在组与组之间建立一个有向无环图G=(V,E),V表示图的节点集合,图上的每一个节点代表一个组,E表示图的边集。
5.根据权利要求4中所述的方法,其特征在于,步骤三包括以下步骤:
根据基于组和图稀疏化逻辑回归分类器的目标函数:
其中ν∈Rm是分类器学习的参数,Rm表示m维实数空间,Kt是训练数据集中基因序列的总数,λ是调节惩罚项和损失函数之间关系的常数,表示图G中的所有路径组成的集合,yj是基因序列dj的类标,xj是基因序列dj的向量形式;参的计算公式如下:
is表示分类器学习参数ν的维度序号;
ηg的计算公式如下:
其中,对于有向无环图G中的一条路径g=(u1,…,uig...,upa),uig表示有向无环图G中路径g上的任意一个节点,ig表示该点的序号,upa表示路径g上的最后一个点,s和t是有向无环图G之外的两个虚拟的固定点,两个固定点与有向无环图G中所有节点都有有向边相连,方向是点s指向有向无环图G中任意一点,有向无环图G中任意一点指向点t,表示点s指向路径g的第一个点u1的边的代价,表示有向无环图G中一条边的代价,表示路径g的最后一个点upa指向点t的边的代价;
根据基因序列训练集得到分类器模型y=νTx,x为基因序列的向量形式。
6.根据权利要求5中所述的方法,其特征在于,步骤三包括以下步骤:
对于一个输入基因序列d,根据步骤一转化为向量形式x后,根据分类器模型y=νTx判断基因序列的类别;
如果y>0,则为正类;
如果y<0,则为负类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310464401.8A CN103473484B (zh) | 2013-09-30 | 2013-09-30 | 一种基于组和图稀疏化的基因序列分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310464401.8A CN103473484B (zh) | 2013-09-30 | 2013-09-30 | 一种基于组和图稀疏化的基因序列分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103473484A true CN103473484A (zh) | 2013-12-25 |
CN103473484B CN103473484B (zh) | 2016-05-11 |
Family
ID=49798331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310464401.8A Active CN103473484B (zh) | 2013-09-30 | 2013-09-30 | 一种基于组和图稀疏化的基因序列分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103473484B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109671468A (zh) * | 2018-12-13 | 2019-04-23 | 韶关学院 | 一种特征基因选择及癌症分类方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1710558A (zh) * | 2005-07-07 | 2005-12-21 | 复旦大学 | 基于主集分割的基因芯片表达谱数据聚类方法 |
WO2008117278A2 (en) * | 2007-03-27 | 2008-10-02 | Rosetta Genomics Ltd. | Gene expression signature for classification of cancers |
CN102509107A (zh) * | 2011-10-13 | 2012-06-20 | 西北工业大学 | 一种基于稀疏分解l0图的局部全局一致性分类方法 |
-
2013
- 2013-09-30 CN CN201310464401.8A patent/CN103473484B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1710558A (zh) * | 2005-07-07 | 2005-12-21 | 复旦大学 | 基于主集分割的基因芯片表达谱数据聚类方法 |
WO2008117278A2 (en) * | 2007-03-27 | 2008-10-02 | Rosetta Genomics Ltd. | Gene expression signature for classification of cancers |
CN102509107A (zh) * | 2011-10-13 | 2012-06-20 | 西北工业大学 | 一种基于稀疏分解l0图的局部全局一致性分类方法 |
Non-Patent Citations (2)
Title |
---|
徐建震 等: "结合基因功能分类体系筛选聚类特征基因", 《生物物理学报》 * |
李放歌 等: "全基因组关联研究中的交互作用研究现状", 《遗传》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109671468A (zh) * | 2018-12-13 | 2019-04-23 | 韶关学院 | 一种特征基因选择及癌症分类方法 |
CN109671468B (zh) * | 2018-12-13 | 2023-08-15 | 韶关学院 | 一种特征基因选择及癌症分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103473484B (zh) | 2016-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108564129B (zh) | 一种基于生成对抗网络的轨迹数据分类方法 | |
CN103559504B (zh) | 图像目标类别识别方法及装置 | |
CN110533024B (zh) | 基于多尺度roi特征的双二次池化细粒度图像分类方法 | |
CN104166706B (zh) | 基于代价敏感主动学习的多标签分类器构建方法 | |
CN108595688A (zh) | 基于在线学习的潜在语义跨媒体哈希检索方法 | |
CN103473380B (zh) | 一种计算机文本情感分类方法 | |
CN110516074B (zh) | 一种基于深度学习的网站主题分类方法及装置 | |
CN103617429A (zh) | 一种主动学习分类方法和系统 | |
CN104346629A (zh) | 一种模型参数训练方法、装置及系统 | |
CN111539444B (zh) | 一种修正式模式识别及统计建模的高斯混合模型方法 | |
CN101957859B (zh) | 基于集成支撑矢量机排序的信息检索方法 | |
CN102915448B (zh) | 一种基于AdaBoost的三维模型自动分类方法 | |
CN106156805A (zh) | 一种样本标签缺失数据的分类器训练方法 | |
CN103617203B (zh) | 基于查询驱动的蛋白质-配体绑定位点预测方法 | |
CN104820702B (zh) | 一种基于决策树的属性加权方法及文本分类方法 | |
CN103049679B (zh) | 蛋白质潜在致敏性的预测方法 | |
CN102842043A (zh) | 基于自动聚类的粒子群优化分类方法 | |
CN103279746A (zh) | 一种基于支持向量机的人脸识别方法及系统 | |
CN103020167A (zh) | 一种计算机中文文本分类方法 | |
CN103971136A (zh) | 一种面向大规模数据的并行结构化支持向量机分类方法 | |
CN106446011A (zh) | 数据处理的方法及装置 | |
CN107392155A (zh) | 基于多目标优化的稀疏受限玻尔兹曼机的手写体识别方法 | |
CN104809233A (zh) | 一种基于信息增益率的属性加权方法及文本分类方法 | |
CN110796260A (zh) | 一种基于类扩张学习的神经网络模型优化方法 | |
CN103559510B (zh) | 一种利用相关主题模型识别社会群体行为的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |