CN104408332A

CN104408332A - 一种基因数据处理方法及装置

Info

Publication number: CN104408332A
Application number: CN201410616856.1A
Authority: CN
Inventors: 周丰丰; 赵苗苗
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2014-11-05
Filing date: 2014-11-05
Publication date: 2015-03-11

Abstract

本发明实施例公开了一种基因数据处理方法及装置，所述方法包括：接收参考人群的指定特征类型的基因数据，对所述基因数据进行预处理得到标准化基因数据，使用LASSO方法对所述标准化基因数据进行特征基因选择，得到特征基因数据，基于交叉验证方法，将所述特征基因数据的样本集分成测试样本和训练样本，将所述训练样本注入分类器，得到训练后分类器，将所述测试样本注入所述训练后分类器，对所述测试样本进行特征分类，并统计分类器的分类准确性。本发明实施例可以提高特征基因选择的准确性、降低测试样本和训练样本的选择对分类准确率的影响。

Description

一种基因数据处理方法及装置

技术领域

本发明涉及基因数据处理技术领域，尤其涉及一种基因数据处理方法及装置。

背景技术

DNA微阵列(基因芯片)技术是分子生物学领域的一项重大技术突破，被广泛应用于生物学和医学研究的各个领域，如大规模DNA测序、疾病诊断、基因调控与互作关系挖掘等。最小凸度绝对压缩选择算子(Least AbsoluteShrinkage and Selection Operator，LASSO)是一种基于一范式的特征选择方法，用于描述一类有约束的优化问题。基本思想是在回归系数的绝对值之和小于一个常数的约束条件下，使残差平方和最小化，从而能够产生某些严格等于0的回归系数，得到可以解释的模型。

每个基因样本中都记录了组织细胞中所有可测基因的表达水平，但实际上只有少数基因才真正和样本类别相关，这些包含样本分类信息的基因被称为特征基因。特征基因的选取问题是基因表达谱数据分析的核心内容，目标是希望从微阵列实验中找出可能受疾病影响的基因，作为早期诊断的生物标记，并成功建立诊断模型。目前常用的基因数据处理方法中，样本基因数据选择的覆盖率低，特征基因选择的准确性低，测试样本和训练样本的选择对分类准确率的影响较大。

发明内容

本发明实施例提供一种基因数据处理方法及装置，可以提高特征基因选择的准确性、降低测试样本和训练样本的选择对分类准确率的影响。

本发明实施例提供了一种基因数据处理方法，其可包括：

接收参考人群的样本特征类型的基因数据，基于交叉验证方法，将所述基因数据分成测试数据和训练数据；

对所述基因数据进行去噪和标准化处理得到标准化基因数据；

使用最小凸度绝对压缩选择算子LASSO方法对所述标准化基因数据进行特征基因选择，得到特征基因数据；

将所述训练数据对应的特征基因数据注入分类器，对所述分类器进行训练，得到训练后分类器；

将所述测试数据对应的特征基因数据注入所述训练后分类器，得到所述测试数据对应的特征基因数据的分类结果。

本发明实施例提供了一种基因数据处理装置，其可包括：

接收单元，用于接收参考人群的样本特征类型的基因数据，基于交叉验证方法，将所述基因数据分成测试数据和训练数据；

预处理单元，用于对所述基因数据进行去噪和标准化处理得到标准化基因数据；

特征提取单元，用于使用最小凸度绝对压缩选择算子LASSO方法对所述标准化基因数据进行特征基因选择，得到特征基因数据；

训练单元，用于将所述训练数据对应的特征基因数据注入分类器，对所述分类器进行训练，得到训练后分类器；

分类单元，用于将所述测试数据对应的特征基因数据注入所述训练后分类器，得到所述测试数据对应的特征基因数据的分类结果。

由上可见，本发明实施例通过对参考人群的样本特征类型的基因数据基于交叉验证方法，分为训练数据和测试数据，对基因数据处理成标准化基因数据后，基于LASSO方法进行特征基因提取得到特征基因数据，使用训练数据训练分类器后，利用所述分类器对测试数据进行分类，可以提高特征基因选择的准确性、降低测试样本和训练样本的选择对分类准确率的影响。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基因数据处理方法的第一实施例流程示意图；

图2为本发明提供的一种基因数据处理方法的第二实施例流程示意图；

图3为本发明提供的一种基因数据处理装置的第一实施例结构示意图；

图4为本发明提供的一种基因数据处理装置的第二实施例结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明提供的基因数据处理方法的第一实施例流程示意图。本实施例中所描述的基因数据处理方法，包括步骤：

S101，接收参考人群的样本特征类型的基因数据，基于交叉验证方法，将所述基因数据分成测试数据和训练数据。

在一些可行的实施例中，本发明实施例步骤S101所描述的特征类型可以包括健康类和贫血类，或者，普通贫血类和地中海贫血类，或者，α地中海贫血类和β地中海贫血类，或者，α地中海贫血类或β地中海贫血类中的静止型、轻型、HbH型以及重型，所述参考人群可以包括婚检人群和/或孕检人群，所述基因数据可以包括DNA微阵列数据。

本发明实施例步骤S101将所述基因数据分成测试数据和训练数据包括：

将所述基因数据分成三个数据集，依次选取每个数据集作为测试样本，将除所述测试样本的数据集设置为训练样本。

S102，对所述基因数据进行去噪和标准化处理得到标准化基因数据。

具体实现中，如图2所示，本实施例步骤S102所描述的对所述基因数据进行去噪和标准化处理得到标准化基因数据具体可以通过以下步骤实现：

S1021，去除所述基因数据中的噪音基因数据，得到去噪基因数据；

S1022，对所述去噪基因数据进行标准化处理，设置每个基因表达谱的平均值为0，标准差为1，得到标准化基因数据。

S103，使用最小凸度绝对压缩选择算子LASSO方法对所述标准化基因数据进行特征基因选择，得到特征基因数据。

在一些可行的实施例中，本发明实施例步骤S103中的LASSO方法用于描述一类有约束的优化问题，基本思想是在回归系数的绝对值之和小于一个常数的约束条件下，使残差平方和最小化，从而能够产生某些严格等于0的回归系数，得到可以解释的模型，所述LASSO方法计算过程如下：

假设所述标准化基因数据(X，Y)包含n个样本，m个特征，X＝(x¹，x²，…x^j，…，x^m)，x^j＝(x_1j，x_2j，…，x_nj)^T是自变量，Y＝(y₁，y₂，…，y_i，…，y_n)^T，y_i是响应变量，i＝1，2，…，n，j＝1，2，…，m，且x^j已标准化，y_j已中心化。用自变量对响应变量进行线性回归，并限定回归系数β＝(β₁,β₂,…,β_m)的一范数不超过某个阈值t。

x^j标准化，y_i中心化：

Σ_{i = 1}^{n} y_{i} = 0, Σ_{i = 1}^{n} x_{ij} = 0, Σ_{i = 1}^{n} x_{ij}^{2} = 1, j = 1,2, . . ., m - - - (1)

LASSO最小化残差平方和：

\arg \min_{β} {Σ_{i = 1}^{n} {(y_{i} - Σ_{j = 1}^{m} x_{ij} β_{j})}^{2}} subjectto Σ_{j = 1}^{m} | β_{j} | \leq t - - - (2)

其中，t≥0是一个可调整参数，当t值比较小时，某些相关度较低的变量系数会被压缩为0，从而删除这些变量对应的所述标准化基因数据，将剩余的标准化基因数据确定为特征基因数据。

优选地，还可以使用最小角回归(least angle regression，LARS)算法对所述标准化基因数据进行特征提取，所述LARS算法是一种残差拟合的过程，它保证了所有入选回归模型的变量在解路径上前进时，与当前残差的相关系数都是一样的。LARS算法可以有效地找到LASSO的最优解，算法流程如下所示。

1)将X中所有自变量标准化处理，即均值为0、方差为1；将Y中所有响应变量中心化处理，即均值为0，如式(1)所示。记残差假定所有的回归系数β＝(β₁，β₂，...，β_m)均为0；

2)寻找与残差r相关度最高的自变量x^j。

3)从0开始沿x^j和r的内积符号方向调整x^j的系数β_j并计算残差，直到找到另一个与r最相关的变量x^k；

4)继续沿(x^j，x^k)与当前r内积符号方向调整β_j和β_k，直到找到另一个变量x^p与当前残差r有次高的相关度，若有非零回归系数降为0，则将对应的变量从当前变量集合(所述标准化基因数据)中删除，然后重新计算；

5)重复上述步骤，直至所有的自变量都进入模型求解，得到特征基因数据。

设置迭代最大次数为1000。

具体实施例中，所述特征基因选择方法还可以通过如下步骤实现：

将所述标准化基因数据平均划分为K份基因数据集，分别使用LARS方法对每份基因数据集进行特征选择得到特征子集，将提取出来的每份特征子集进行合并得到合并后特征数据集，对所述合并后特征数据集进行特征选择，得到最终的特征基因数据，具体流程如下：

输入：数据(X，Y)，X＝(x¹，x²，...，x^j，...，x^m)包含n个样本，m个特征；Y＝(y₁，y₂，...，y_i，...，y_n)^T对应n个样本的标签；划分的份数K。

输出：与类标签强关联的特征子集FS。

F＝[]；//初始F为空；

FS＝[]；//初始化FS为空；

for i＝1:K

A[i]＝LARS(X[i])；//X[i]是将所述标准化基因数据划分为K份后的第i份基因子集,使用LARS算法对每一份基因子集X[i]进行特征选择，结果保存在A[i]中；

end

for i＝1:K

F＝F∪A[i]；//合并所有的特征基因子集A[i]，放入F中；

end

FS＝LARS(F)；//对合并后的特征基因子集F用LARS进行特征基因选择；

在一个可行的实施例中，实验所用的基因谱表达数据，该数据集的样本个数为27，特征维数为9266，直接使用LASSO特征选择方法计算开销会很大，易造成“过拟合”问题，因此将基因集合划分为100份，每份数据集包含九十多维基因，可以解决“过拟合”问题，减少计算开销。

S104，将所述训练数据对应的特征基因数据注入分类器，对所述分类器进行训练，得到训练后分类器。

在一些可行的实施例中，本发明实施例步骤S104中所描述的分类器可以包括LASSO分类器、支持向量机(SVM)分类器、贝叶斯分类器(NBayes)等等。

S105，将所述测试数据对应的特征基因数据注入所述训练后分类器，得到所述测试数据对应的特征基因数据的分类结果

在一些可行的实施例中，基于本发明提供的方法，使用20个鼻咽癌和20个对照组的微芯片数据作为基因数据，得到的分类准确率统计表如下：

Pattern

Classifier(分类器)

se

sp

acc

avc

mcc

Self

LASSO

100.00％

1.00

Self

SVM支持向量机

100.00％

1.00

Self

Nbayes

100.00％

1.00

Self

Dtree

90.00％

100.00％

95.00％

0.91

3-CV

LASSO

95.00％

100.00％

97.50％

0.95

3-CV

SVM

100.00％

95.00％

97.50％

0.95

3-CV

NBayes

100.00％

1.00

3-CV

Dtree

85.00％

0.70

本发明提供的基因数据处理方法通过对参考人群的样本特征类型的基因数据基于交叉验证方法，分为训练数据和测试数据，对基因数据处理成标准化基因数据后，基于LASSO方法进行特征基因提取得到特征基因数据，使用训练数据训练分类器后，利用所述分类器对测试数据进行分类，可以提高特征基因选择的准确性、降低测试样本和训练样本的选择对分类准确率的影响。

参见图3，是本发明提供的基因数据处理装置的第一实施例结构示意图。本实施例中所描述的基因数据处理装置，包括：

接收单元201，用于接收参考人群的样本特征类型的基因数据，基于交叉验证方法，将所述基因数据分成测试数据和训练数据。

具体实现中，所述特征类型包括：健康类和贫血类，或者，普通贫血类和地中海贫血类；或者，α地中海贫血类和β地中海贫血类；或者，α地中海贫血类或β地中海贫血类中的静止型、轻型、HbH型以及重型。

所述参考人群包括婚检人群和/或孕检人群。

所述接收单元201将所述基因数据分成测试数据和训练数据具体包括：

预处理单元202，用于对所述基因数据进行去噪和标准化处理得到标准化基因数据。

具体实现中，如图4所示本发明提供的基因数据处理装置的第二实施例结构示意图，所述预处理单元202具体包括：

去噪单元2021，用于去除所述基因数据中的噪音基因数据，得到去噪基因数据；

归一化单元2022，用于对所述去噪基因数据进行标准化处理，设置每个基因表达谱的平均值为0，标准差为1，得到标准化基因数据。

特征提取单元203，用于使用最小凸度绝对压缩选择算子LASSO方法对所述标准化基因数据进行特征基因选择，得到特征基因数据。

在一些可行的实施例中，本发明实施例特征提取单元203中的LASSO方法用于描述一类有约束的优化问题，基本思想是在回归系数的绝对值之和小于一个常数的约束条件下，使残差平方和最小化，从而能够产生某些严格等于0的回归系数，得到可以解释的模型，所述LASSO方法计算过程如下：

x^j标准化，y_i中心化：

Σ_{i = 1}^{n} y_{i} = 0, Σ_{i = 1}^{n} x_{ij} = 0, Σ_{i = 1}^{n} x_{ij}^{2} = 1, j = 1,2, . . ., m - - - (1)

LASSO最小化残差平方和：

\arg \min_{β} {Σ_{i = 1}^{n} {(y_{i} - Σ_{j = 1}^{m} x_{ij} β_{j})}^{2}} subjectto Σ_{j = 1}^{m} | β_{j} | \leq t - - - (2)

2)寻找与残差r相关度最高的自变量x^j。

设置迭代最大次数为1000。

输出：与类标签强关联的特征子集FS。

F＝[]；//初始F为空；

FS＝[]；//初始化FS为空；

for i＝1:K

end

for i＝1:K

F＝F∪A[i]；//合并所有的特征基因子集A[i]，放入F中；

end

训练单元204，用于将所述训练数据对应的特征基因数据注入分类器，对所述分类器进行训练，得到训练后分类器。

在一些可行的实施例中，本发明实施例训练单元204中所描述的分类器可以包括LASSO分类器、支持向量机(SVM)分类器、贝叶斯分类器(NBayes)等等。

分类单元205，用于将所述测试数据对应的特征基因数据注入所述训练后分类器，得到所述测试数据对应的特征基因数据的分类结果。

在一些可行的实施例中，基于本发明提供的装置，使用20个鼻咽癌和20个对照组的微芯片数据作为基因数据，得到的分类准确率统计表如下：

Pattern

Classifier(分类器)

se

sp

acc

avc

mcc

Self

LASSO

100.00％

1.00

Self

SVM支持向量机

100.00％

1.00

Self

Nbayes

100.00％

1.00

Self

Dtree

90.00％

100.00％

95.00％

0.91

3-CV

LASSO

95.00％

100.00％

97.50％

0.95

3-CV

SVM

100.00％

95.00％

97.50％

0.95

3-CV

NBayes

100.00％

1.00

3-CV

Dtree

85.00％

0.70

本发明提供的基因数据处理装置通过对参考人群的样本特征类型的基因数据基于交叉验证方法，分为训练数据和测试数据，对基因数据处理成标准化基因数据后，基于LASSO方法进行特征基因提取得到特征基因数据，使用训练数据训练分类器后，利用所述分类器对测试数据进行分类，可以提高特征基因选择的准确性、降低测试样本和训练样本的选择对分类准确率的影响。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基因数据处理方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，

所述样本特征类型包括：

健康类和贫血类，

或者，普通贫血类和地中海贫血类；

或者，α地中海贫血类和β地中海贫血类；

或者，α地中海贫血类或β地中海贫血类中的静止型、轻型、HbH型以及重型。

3.根据权利要求1所述的方法，其特征在于，

所述参考人群包括婚检人群和/或孕检人群。

4.根据权利要求1所述的方法，其特征在于，所述将所述基因数据分成测试数据和训练数据包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述对所述基因数据进行去噪和标准化处理得到标准化基因数据包括：

去除所述基因数据中的噪音基因数据，得到去噪基因数据；

对所述去噪基因数据进行标准化处理，设置每个基因表达谱的平均值为0，标准差为1，得到标准化基因数据。

6.一种基因数据处理装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述接收单元接收的基因数据中，

所述特征类型包括：

健康类和贫血类，

或者，普通贫血类和地中海贫血类；

或者，α地中海贫血类和β地中海贫血类；

8.根据权利要求6所述的装置，其特征在于，所述接收单元接收的基因数据中，

所述参考人群包括婚检人群和/或孕检人群。

9.根据权利要求6所述的装置，其特征在于，

所述接收单元将所述基因数据分成测试数据和训练数据包括：

10.根据权利要求6-9任一项所述的装置，其特征在于，

所述预处理单元，具体用于

去除所述基因数据中的噪音基因数据，得到去噪基因数据；