CN105825078A

CN105825078A - 基于基因大数据的小样本基因表达数据分类方法

Info

Publication number: CN105825078A
Application number: CN201610150049.4A
Authority: CN
Inventors: 郝志峰; 许柏炎; 蔡瑞初; 温雯; 张小文; 林殷娴; 王日宇; 陈炳丰
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology; Foshan University
Priority date: 2016-03-16
Filing date: 2016-03-16
Publication date: 2016-08-03
Anticipated expiration: 2036-03-16
Also published as: CN105825078B

Abstract

本发明公开了基于基因大数据的小样本基因表达数据分类方法，其技术步骤为：确定训练样本基因表达数据和类标签，构建矩阵；根据L阶频数统计结果和2阶频数统计结果，计算L+1阶估分，去除估分小于阈值的非频繁集；计算到最大阶数L_max；计算不同类别差异化的缺失情况；对各阶评分表进行排序，建立决策表；根据决策表对测试样本进行判别并输出类别。本发明基于基因大数据的跨平台分类器训练模型，结合基因表达数据公共储存库中海量的数据与小规模基因表达样本混合训练，有效的提高了分类效果。同时，该方法解决了跨平台所带来的缺失值的影响。

Description

基于基因大数据的小样本基因表达数据分类方法

技术领域

本发明涉及机器学习、数据挖掘、生物信息学等领域，特别涉及一种根据小规模基因表达数据样本改良的分类方法。

背景技术

目前，随着基因微阵列技术的出现，通过检测基因表达可以发现研究基因的功能或表现和不同基因间的相互关系，很快地成为生物学领域上一种重要的实验方法。关于基因的应用研究已经在医疗、农业和环境等各个领域有着不错的成效，对基因表达谱的研究具有一定的意义。因成本与技术等原因，基因表达数据往往样本数量少，但是基因数据的维度高，这为基因表达数据分析带来一定的困难，针对基因表达数据的分析在国内外成为了研究的热点。

针对基因表达数据的研究主要有分类和聚类，这里主要阐述分类。研究人员开始将经典的分类算法应用到基因表达数据领域。如孔祥增发明一种基于模糊K-NN算法的肿瘤基因表达谱分类方法(专利申请号：201010234954.0)，采用RFSC算法剔除无关基因，然后采用模糊K-NN算法对已剔除无关基因的基因表达谱数据进行分析。王文俊发明一种监督基因表达数据分类方法(专利申请号：201410817036.9)，先采用类别保留投影方法获得训练样本的鉴别特征向量，再用最近邻分类器实现测试样本的分类识别。孙鑫等人发明用于肿瘤检测的基因选择方法(专利申请号：201110319228.3)，选择结束后，输出最优基因集合给分类器。以上发明不可避免的是数据样本少，维度高，质量差等问题，都采取了一定的降低维度的手段如剔除无关基因或提取特征变量等。

Geman等人提出的TheTopScoringPair(TSP)分类器(论文Simpledecisionrulesforclassifyinghumancancersfromgeneexpressionprofiles)是一种基于排序思想的分类模型，它主要通过比较样本内两两基因大小关系，根据评分选择最具‘差异化’的基因对进行分类。该方法是一种无参数、数据驱动的机器学习方法，能很好地避免过拟合。与上文提到的发明不同的是，该方法没有对数据进行降维，但是在实验应用部分的数据维度不高或者样本量不大。但是该方法采用样本内的基因比较，在基因表达数据上应用具有一定的普适性。

降维手段会带来一定程度上的信息丢失，决不是解决基因表达数据样本少维度高问题的最佳手段。构建一种通用的解决小规模基因表达样本分类问题的方法，具有研究的价值与意义。近年来，检测实验已经累积产出了大量的基因表达数据，但由于测序平台的不一，暂无国际标准，实验环境的不同，还有样本的差异等问题，导致基因数据的可比性差，质量低。所以，现在的基因表达数储存库是大量的小规模基因表达样本的组合，带来了一定的挑战与风险。

发明内容

本发明主要研究如何结合基因表达数据公共储存库中海量的数据与小规模基因表达样本，提出一种基于基因大数据的跨平台分类方法。

为实现上述目的，本发明的技术方案包括以下步骤：

(S1)构建矩阵：获取基因样本数据，并划分训练样本和测试样本；确定训练样本基因表达数据和其类标签，给定N个基因表达样本，每个样本具有P个基因，构建一个N*P维的矩阵R，矩阵R的最大阶数为L_max，样本的类别为C＝{C1,C2}；

(S2)2阶“全搜索”：对整个矩阵R进行搜索，每个训练样本的基因表达量两两形成基因对，统计每个基因对的大小关系的频数，得到2阶频数统计结果，根据不同类别间的基因大小关系频数的差值作为评分表的排序依据，得到2阶评分表；根据2阶评分表计算3阶组合估分，设定阈值S_min，去掉估分小于阈值的非频繁集；

(S3)多阶“剪枝”：统计剩余频繁的3阶基因组合的大小关系的频数，得到3阶频数统计结果，根据不同类别间的基因大小关系频数的差值作为评分表的排序依据，得到3阶评分表；同样，可根据L阶频数统计结果和2阶频数统计结果计算L+1阶估分，去掉估分小于阈值的非频繁集；阶数每增加1，重复步骤S3直至计算到最大阶数L_max；

(S4)计算缺失：对基因表达数据缺失值情况做统计，记录存在的基因表达量与缺失的基因表达量的频数，计算不同类别差异化的缺失情况；

(S5)构建决策表：对各阶评分表按评分进行排序，当评分相同时根据基因对的缺失情况调整，缺失率越低的基因组排名越靠前；从各阶评分表中选择前Z项不相关的基因有序组合，加入到决策表；

(S6)输出分类：根据决策表对测试样本进行判别，输出更接近的类别，如果程度相等则根据缺失状态判别，输出对应的类别。

进一步地，步骤S2、S3中估分的计算方法为：

设2阶评分表为Prob(R_k<R_l)，L阶评分表为Prob(R_i<R_j<…R_k)，R_i为第i个基因在N个样本上的向量，α＝min{Prob(R_i<R_j<…R_k),Prob(R_k<R_l)}

β = \{\begin{matrix} \Pr o b (R_{i} < R_{j} < ... R_{k}) + \Pr o b (R_{k} < R_{l}) - 1, & i f P r o b (R_{i} < R_{j} < ... R_{k}) + \Pr o b (R_{k} < R_{l}) < 1 \\ 0, & o t h e r w i s e \end{matrix}

得到：Prob(R_i<R_j<…R_k<R_l)∈(α,β)

取上界与下界平均值可得到估分

其中，步骤S3中计算L+1阶估分时需在矩阵R上统计L+1阶的基因组合的频数，公式化定义为：

p_i..l+1(C_m)＝Prob(R_i<R_j…<R_l<R_l+1|Y＝C_m),m＝{1,2}

计算L+1阶的评分表为：Δ＝|p(C₁)-p(C₂)|。

其中，步骤S4中记录存在的基因表达量与缺失的基因表达量的频数，公式化定义为：

缺失状态表的得分为Δij＝|p_ij(C₁)-p_ij(C₂)|，选择评分最高为“特殊对”。

其中，步骤S6中根据决策表对测试样本进行判别，输出更符合的类别，计算方法如下：

h (x_{n e w}) = \{\begin{matrix} C_{1}, & i f R_{i, n e w} < R_{j, n e w} ... < R_{l, m e w} \\ C_{2}, & O t h e r w i s e \end{matrix}

y_{n e w} = argmax (C 1, C 2) Σ_{u = 1}^{z} h (x_{n e w})

x_new代表输入的新样本，R_i,new为输入的新样本在第i个基因表达量的值，y_new为最后的输出集合，如果C1与C2程度相等则根据缺失值特殊对判别，输出对应的类别。

与现有技术对比，本发明具有以下优点：

1)基于基因大数据的跨平台分类器训练模型，结合基因表达数据公共储存库中海量的数据与小规模基因表达样本混合训练，提高分类器的性能及分类效果。

2)本发明通过统计不同类的基因表达组合的差异化表现来进行判别，解决了跨平台基因表达数据可比性差的问题。

3)能解决跨平台基因表达数据缺失值多的问题，分类正确识别率高。

附图说明

图1为本发明的实现原理图；

图2为本发明的流程图。

具体实施方式

为了使本领域的技术人员更好地理解本发明的技术方案，下面结合附图和具体实施例对本发明作进一步详细的描述。

图1揭示了本发明的整体实现原理：首先从诸如GEO等基因表达数据公共储存库中获取样本数据。对数据进行规整预处理，并统计样本的类标签集合，形成“强化集”。同时对小规模基因表达样本对齐强化集基因分布序列，缺失的基因记为空值。从含有目标分类标签的强化集，按比例与小规模基因样本测试集混合，加入到跨平台分类器模型组合训练,最终判定输出分类结果。

本发明公开了分类器模型的分类方法，其具体步骤参照图2所示，详述如下。

(S1)构建矩阵：首先获取基因样本数据，并划分训练样本和测试样本。确定训练样本基因表达数据和其类标签。

给定N个基因表达样本，每个样本具有P个基因，构成一个NxP维的矩阵R。设R_i代表第i个基因在N个样本上的向量，矩阵R的最大阶数为L_max，样本的类别为C＝{C₁,C₂}。

(S2)2阶“全搜索”：本分类方法的目标是获得“关键基因有序组合”，这些关键性在于其在不同类间具有显著性变化。首先，对于计算2阶组合，要对整个矩阵集合中R进行搜索，统计存在基因表达量{R_i<R_j}的频数，公式化表示为：

p_ij(C_m)＝Prob(R_i<R_j|Y＝C_m),m＝{1,2},i≠j

分类器是基于排序思想的方法，依据是类间的差异表示为频数之间的差，公式化定义为：

Δij＝|p_ij(C₁)-p_ij(C₂)|,i≠j

得到2阶频数统计结果Prob(R_k<R_l)，，根据不同类别间的基因大小关系频数的差值作为评分表的排序依据，得到2阶评分表。根据2阶评分表计算3阶组合估分，设定阈值S_min(阈值的设置为多次实验获得的经验值)。去掉估分小于阈值的非频繁集。

(S3)多阶“剪枝”：计多项基因表达量大小关系，在动辄上万维度的基因表达数据之上算法的时间复杂度和空间复杂度都会很高。因此，必须对所有可能组合进行剪枝，计算“估分”去掉非频繁集，再统计剩余基因组的频数，可以大大减少统计时间，随着阶数提高下降很快。设L阶频数统计结果为Prob(R_i<R_j<…R_k<R_l)，还有2阶的Prob(R_k<R_l)，设：

α＝min{Prob(R_i<R_j<…R_k),Prob(R_k<R_l)}

β = \{\begin{matrix} \Pr o b (R_{i} < R_{j} < ... R_{k}) + \Pr o b (R_{k} < R_{l}) - 1, & i f P r o b (R_{i} < R_{j} < ... R_{k}) + \Pr o b (R_{k} < R_{l}) < 1 \\ 0, & o t h e r w i s e \end{matrix}

容易得到：

Prob(R_i<R_j<…R_k<R_l)∈(α,β)

取上界与下界平均值可得到估分S:

S = \frac{α + β}{2}

可根据L阶频数统计结果和2阶频数统计结果计算L+1阶估分。根据组合表剩余的组合可能，在矩阵R上统计L+1阶的有序组合的频数，公式化定义为：

p_i..l＋1(C_m)＝Prob(R_i<R_j…<R_l<R_l+1|Y＝C_m),m＝{1,2}

同样地，计算L+1阶的评分表：

Δ＝|p(C₁)-p(C₂)|

去掉估分小于阈值的非频繁集；重复步骤S3直至计算到最大阶数L_max；

(S4)计算缺失：为了统计缺失值情况，可以引入一个新的状态来表示成对的缺失值与存在值，称“存在&缺失”。记录存在的基因表达量与缺失的基因表达量的频数，计算不同类别差异化的缺失情况。公式化定义为：

同样地，缺失状态表的得分为Δij＝|p_ij(C₁)-p_ij(C₂)|，选择评分最高为“特殊对”。

(S5)构建决策表：对各阶评分表按评分排序，显然评分有可能出现同分情况。由于数据特性问题，每个基因缺失情况不一，频率不能体现数量上的对比。所以当同分时，选择缺失较为不严重的基因组合靠前。从每个有序的评分表中，选取前Z项不相关的基因加入到决策表中。每次把各阶评分表的顶端加入之后，将跳过与之相关的基因组合，直到加入Z项。

(S6)输出分类：根据决策表输入测试样本，输出更符合的类，公式化定义如下：

h (x_{n e w}) = \{\begin{matrix} C_{1}, & i f R_{i, n e w} < R_{j, n e w} ... < R_{l, m e w} \\ C_{2}, & O t h e r w i s e \end{matrix}

y_{n e w} = \arg m a x (C 1, C 2) Σ_{u = 1}^{z} h (x_{n e w})

如果C1与C2程度相等则根据缺失值特殊对判别，输出对应的类别。

R_i,new代表了输入的新样本在第i个基因表达量的值，x_new代表输入的新样本，h(x_new)：如果输入样本符合R_i,new<R_j,new…<R_l,new，则输出C1，否则输出C2。y_new，对于每个样本中，Z项有序组合判别后，输入结果中C1项数，C2项数的较大者。

以下结合一具体的实验例对本发明进行说明。

实例：对跨平台的基因表达数据进行分类实验

首先从GEO基因表达数据公共储存库中获取样本数据500个，样本的维数为20659维，来自于10个不同的测序平台，类标签选为性别，男/女两类，L_max为三阶；

(S1)首先按十折交叉验证方法将其划分为训练样本和测试样本，即样本分为10份，轮流将其中一份作为测试样本，其余为训练样本。可得到一个450x20659维的样本矩阵。

(S2)在矩阵上进行全搜索，为统计{R_i<R_j}在不同类上的频数，可得到两个20659x20659维频数矩阵，然后将两个矩阵作差，加入二阶评分表(范围为0～1)；计算有序组合的估分，阈值设置为0.3，去除估分低于0.3的组合，剩余三阶基因有序组合2530条。

(S3)在矩阵上统计三阶有序基因组合的实际频数矩阵，作差得到三阶评分表(范围为0～1)；达到L_max为三阶，去掉估分小于阈值0.3的组合。

(S4)在矩阵R上统计缺失值情况，统计存在的基因表达量与缺失的基因表达量的频数，得到“特殊对”。

(S5)最后在二阶与三阶评分表上做排序，只取不相关基因表达有序组合前10项加入到决策表。

(S6)根据决策表输入测试样本进行判别，输出分类结果。将输出的分类结果与样本真实类别比较，其中有46个样本分类正确，样本的分类正确识别率达到92％。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.基于基因大数据的小样本基因表达分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于基因大数据的小样本基因表达分类方法，其特征在于，步骤S2、S3中估分的计算方法为：

设2阶频数统计结果为Prob(R_k＜R_l)，L阶频数统计结果为Prob(R_i<R_j<…R_k)，R_i为第i个基因在N个样本上的向量，α＝min{Prob(R_i<R_j<…R_k),Prob(R_k<R_l)}

β = \{\begin{matrix} \Pr o b (R_{i} < R_{j} < ... R_{k}) + \Pr o b (R_{k} < R_{l}) - 1, & i f P r o b (R_{i} < R_{j} < ... R_{k}) + \Pr o b (R_{k} < R_{l}) < 1 \\ 0, & o t h e r w i s e \end{matrix}

得到：Prob(R_i<R_j<…R_k<R_l)∈(α,β)

取上界与下界平均值可得到估分

3.根据要求1所述的基于基因大数据的小样本基因表达分类方法，其特征在于，步骤S3中在矩阵R上统计L+1阶的基因组合的频数，公式化定义为：

p_i..l+1(C_m)＝Prob(R_i<R_j…<R_l<R_l+1|Y＝C_m),m＝{1,2}

计算L+1阶的评分表为：Δ＝|p(C₁)-p(C₂)|。

4.根据要求1所述的基于基因大数据的小样本基因表达分类方法，其特征在于，步骤S4中记录存在的基因表达量与缺失的基因表达量的频数，公式化定义为：

缺失状态表的得分为Δ_ij＝|p_ij(C₁)-p_ij(C₂)|，选择评分最高为“特殊对”。

5.根据要求1所述的基于基因大数据的小样本基因表达分类方法，其特征在于，步骤S6中根据决策表对测试样本进行判别，输出更符合的类别，计算方法如下：

h (x_{n e w}) = \{\begin{matrix} C_{1}, & \begin{matrix} i f & R_{i, n e w} < R_{j, n e w} ... \end{matrix} < R_{l, n e w} \\ C_{2}, & O t h e r w i s e \end{matrix}

y_{n e w} = \arg \max (C 1, C 2) Σ_{u = 1}^{z} h (x_{n e w})