CN101515313B

CN101515313B - 一组微阵列误标记样本检测方法

Info

Publication number: CN101515313B
Application number: CN2009100667090A
Authority: CN
Inventors: 梁艳春; 张琛; 吴春国; 周柚; 王岩; 杜伟
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2009-03-27
Filing date: 2009-03-27
Publication date: 2012-02-01
Anticipated expiration: 2029-03-27
Also published as: CN101515313A

Abstract

本发明涉及一组用于微阵列数据误标记样本检测的计算方法，属于计算生物学领域。本发明利用数据扰动对回归模型的影响来识别微阵列数据中的疑似误标记样本，将其应用于疾病的基因表达数据预处理，可降低错误标记所带来的影响和损失。本发明建立了描述样本类标和样本基因表达向量之间关系的同归模型，而后通过依次扰动各样本的类标，建立扰动回归矩阵，进而捕获这些扰动对回归模型的影响。本发明定义了三种扰动影响指标：扰动影响值、总体扰动影响值和综合扰动影响值。在此基础上给出了三种针对微阵列数据的误标记样本检测方法：总体扰动影响值识别法，综合扰动影响值判别法和渐进修正法。

Description

一组微阵列误标记样本检测方法

技术领域

本发明专利涉及一组用于微阵列数据误标记样本检测的计算方法，属于计算生物学领域。

背景技术

在基因表达数据的采集过程中，由于实验手段的客观原因以及实验操作人员的主观疏忽，经常会引入许多噪声数据，样本的误标记是其中较为常见的一种。所谓样本的误标记，就是将原本属于某类的样本错误地标记为其他类别，致使该样本成为了错误样本。这种情况常见于针对疾病的实验中，产生的原因多为主观因素的影响，如实验员的误操作、医师的判断失误等等。由于分类方法在医学的癌症诊断等领域中有着非常广泛的应用，而一旦出现误标记的样本，必然对诊断结果产生影响，甚至导致错误的诊断，这样的后果是十分严重的，这就促使人们寻找一种高效准确的误标记样本检测方法来降低错误标记带来的影响和损失。

目前，误标记样本检测方法多数基于统计理论和机器学习方法。Brodley(1999)等采用多个不同的分类器进行过滤，将剩余的样本作为训练集来检测误标记样本；Furey(2000)等采用支持向量机和特征打分的方法来识别误标记样本；Sanchez(2003)等采用最近邻分类器来提高训练数据的质量；Muhlenbach(2004)等提出了一种过滤算法，该算法能够在训练分类器之前去除可能误标记的样本。然而，这些算法均不是针对微阵列数据集构建的。Kadota(2003)等采用微阵列异常点检测方法来识别误标记样本；Zhang(2006)等提出了一种迭代估计误分类可能性的方法，并应用于乳腺癌微阵列数据。但是，这两种算法都只在单一微阵列数据集中应用，没有在其他数据集上做广泛验证。Malossini(2006)等提出了两种分类扰动的方法来对误标记样本进行检测，其中的稳定性方法能够取得很好的识别效果，但仍有查全率偏低的缺陷。

发明内容

本发明的主要目的是提供一组用于微阵列数据误标记样本检测的计算方法。利用数据扰动对回归模型的影响来识别微阵列数据中的疑似误标记样本。本发明依次扰动各样本的类标，而后建立了描述样本类标和样本基因表达向量之间关系的回归模型，进而捕获数据扰动扰动对回归模型的影响。本发明定义了相关的扰动影响指标，并在此基础上给出了三种检测微阵列数据中误标记样本的方法：总体扰动影响值识别法、综合扰动影响值识别法以及渐进修正法。

本发明的预期目的将通过以下技术方案实现，技术方案以两分类数据误标记检测做说明，其思想可推广至多分类数据的情况。

一、扰动回归矩阵与扰动影响值

1.回归模型

假定一个两分类样本的微阵列，其探针数位p，样本数为n，那么微阵列数据x为一个p×n的矩阵，样本i的基因表达向量用x_i表示，类标用y_i表示，且满足y_i∈{+1，-1}，由此微阵列数据x的类标向量可用y来表示。本发明将定义一个回归模型来描述x_i和y_i之间的关系。

首先假定x_i和y_i均为连续值而非离散值，定义函数f如下：

y_i＝f(x_i)+ε(1)

其中f为实数值函数，ε为噪声值。本发明将使用支持向量机回归模型

来估计函数f。

2.扰动回归矩阵

扰动回归矩阵是一个n×n的实数值矩阵，记为Loopr。元素Loopr[i，j]代表在扰动样本x_i的类标(即令y_i＝-y_i)的情况下，以x_j作为测试样本，其他样本作为训练集时，对于样本x_j类标的回归预测值

由此可见，元素Loopr[i，i]代表无数据扰动的情况下样本x_i类标的回归预测值。

3.扰动影响值

扰动影响值q_ij代表在扰动样本x_i类标的情况下，回归模型在预测样本x_j类标时所受到的影响。本发明将q_ij定义为无数据扰动时样本x_j的回归预测值与扰动x_i类标时x_j的回归预测值之差，具体为：

q_ij＝Loopr[j，j]-Loopr[i，j](2)

4.总体扰动影响值

总体扰动影响值代表数据扰动对某一样本的总体影响。本发明将样本x_j的总体扰动影响值Q_j定义为其他样本分别扰动时，对于样本x_j的扰动影响值之和，具体为：

Q_{j} = Σ_{i = 1}^{n} q_{ij} = Σ_{i = 1}^{n} (Loopr [j, j] - Loopr [i, j]) - - - (3)

5.综合扰动影响值

综合扰动影响值代表扰动某一样本类标对其他样本的综合影响。本发明将样本x_i的综合扰动影响值F_i定义为：

F_{i} = \frac{1}{n} Σ_{j = 1}^{n} (y_{j} \times q_{ij}) = \frac{1}{n} \underset{j = 1}{Σ} y_{j} (Loopr [j, j] - Loopr [i, j]) - - - (4)

二、误标记样本识别方法

1.总体扰动影响值识别法

总体扰动影响值识别法利用总体扰动影响值来判别某一样本是否为误标记样本，对于待检测数据(x，y)，具体识别步骤如下：

1)构造扰动回归矩阵Loopr；

2)对于每一个样本x_j，根据公式(3)计算其总体扰动影响值Q_j；

3)若y_j×Q_j＜0，判定样本x_j为误标记样本。

2.综合扰动影响值识别法

该方法利用综合扰动影响值来判别某一样本是否为误标记样本，对于待检测数据(x，y)，具体识别步骤如下：

1)构造扰动回归矩阵Loopr；

2)对于每一个样本x_i，根据公式(4)计算其总体扰动影响值F_i；

3)若F_i＜0，判定样本x_i为误标记样本。

3.渐进修正方法

渐进修正法在综合扰动影响值识别法的基础上，加入渐进修正的策略来识别误标记样本，对于待检测数据(x，y)，具体识别步骤如下：

1)构建扰动回归矩阵Loopr，令V_min＝n，令修正类标向量y’＝y；

2)使用综合扰动影响值识别法得到疑似误标记样本集合S；

3)取S中未经评估的样本x_i，在修正列表向量y’中将x_i的类标翻转；

4)使用扰动回归矩阵Loopr及类标向量y’计算每一个样本的综合扰动影响值，将所有综合扰动影响值小与0的样本集合记为S’_i，在修正类标向量y’中将x_i的类标复原；

5)在原始类标向量y中将S’_i中的所有样本类标翻转，得到类标向量y”；

6)使用检测评估算法对数据(x，y”)进行评估，得到初始评估量D_i，其中检测评估算法可以为任意已有的误标记样本检测算法，包括总体扰动影响值识别法、综合扰动影响值识别法以及Malossini(2006)等提出的CL-Stability算法和LOOE-Sensitivity算法，D_i为误标记样本检测算法对(x，y”)检测得到的疑似误标记样本数量；

7)将样本x_i的综合扰动影响值F_i作为对初始评估量的补充，则样本x_i的总评估量V_i＝D_i-F_i；

8)对S中所有样本计算总评估量，取总评估量最小的样本记为x_k，其总评估量为V_k，若V_k＞V_min，则S即为最终结果，否则令V_min＝V_k；

9)在y’中翻转x_k类标，令S为对扰动回归矩阵Loopr和y’使用综合扰动影响值识别法得到的误标记样本集合，如果V_k＞0，则跳转至步骤3，否则S即为最终结果。

附图说明

图1为构造扰动回归矩阵的流程示意图；

图2为渐进修正法的流程示意图。

图3为实施例各样本的总体扰动影响值柱状图。

图4为实施例各样本的综合扰动影响值柱状图。

图5为渐进修正法对于实施例的识别效果图。

具体实施方式

以下通过乳腺癌两分类基因芯片数据的实例对本发明做详细说明。West等的乳腺癌(breast)基因表达谱数据集是一个通用数据集，它包含了49个乳腺癌样本，其中雌激素受体(estrogen receptor)阳性(ER+)的样本25个，雌激素受体阴性(ER-)的样本24个，基因芯片中包含7129个基因。自此基础上，剔除可疑样本11、14、16、31、33、45、46、40、43，而后手动翻转样本1、2、3、47、48、49使之成为误标记样本。得到的这个数据集就是下面将要使用的实例数据。

一、总体扰动影响识别法

步骤1：取数据集中的一个未翻转样本x_i，使其类标y_i＝-y_i；

步骤2：对于数据集中的每一个样本x_j，将x_j作为测试样本，其他样本作为训练集，把对于样本x_j类标的回归预测值填入扰动回归矩阵的元素Loopr[i，j]中；

步骤3：使yi＝-yi，将样本x_i标记为已翻转；

步骤4：若数据集中还有未翻转的样本，则转至步骤1；否则扰动回归矩阵Loopr构造完成，继续步骤5；

步骤5：对于每一个样本x_j，根据公式(3)计算其总体扰动影响值Q_j，若y_j×Q_j＜0，判定样本x_j为误标记样本，将样本x_j放入误标记样本集合S中；

步骤6：样本1、2、4、14、32、47、48、49被判定为误标记样本放入结果集合S中。

二、综合扰动影响识别法

步骤3：使y_i＝-y_i，将样本x_i标记为已翻转；

步骤4：若数据集中还有未翻转的样本，则转至步骤1；否则扰动回归矩阵构造完成，继续步骤5；

步骤5：对于每一个样本x_i，根据公式(4)计算其综合扰动影响值F_i，若F_i＜0，判定样本x_i为误标记样本，将样本x_i放入误标记样本集合S中；误标记样本集合S即为最终结果；

二、渐进修正方法

步骤1：令最小估价值V_min＝n；

步骤2：构造扰动回归矩阵Loopr，使用综合扰动影响值识别法检测数据集，样本1、2、4、14、32、47、48、49被判定为误标记样本放入结果集合S中；令新类标向量y’＝y，y为原类标向量；

步骤3：在S中取一个未评估的样本x_i，使其类标y’_i＝-y_i；

步骤4：使用向量y’和扰动回归矩阵Loopr计算每个样本的综合扰动影响值，将综合扰动影响值小于0的样本放入集合S’_i，将样本x_i的类标还原，即y’_i＝y_i；

步骤5：在原始类标向量y中将S’_i中的所有样本类标翻转，得到类标向量y”；

步骤6：使用检测评估算法对数据(x，y”)进行评估，得到初始评估量D_i，将样本x_i的综合扰动影响值F_i作为对初始评估量的补充，则样本x_i的总评估量V_i＝D_i-F_i；

步骤7：若S中还有未评估的样本，则跳转至步骤3，否则继续；

步骤8：选取评估量最小的样本，本实例中样本2的评估量V₂最小，于是令V_min＝V₂，y’₂＝-y₂，S＝S’₂，此时S＝{1，2，14，32，47，48，49}；

步骤9：重复步骤3-7，得到评估量最小的为样本49，令V_min＝V₄₉，y’₄₉＝-y₄₉，S＝S’₄₉，此时S＝{1，2，32，48，49}；

步骤10：重复步骤3-7，得到评估量最小的为样本48，令V_min＝V₄₈，y’₄₈＝-y₄₈，S＝S’₄₈，此时S＝{1，2，47，48，49}；

步骤11：重复步骤3-7，得到评估量最小的为样本1，令V_min＝V₁，y’₁＝-y₁，S＝S’₁，此时S＝{1，2，3，47，48，49}，且V_min＜0，因此算法结束，S＝{1，2，3，47，48，49}即为最终结果。

最后应说明的是：以上两分类数据实施例仅用以说明本发明而非限制，本发明可推广解决多分类数据的误标记样本检测问题。因为参照实施例对本发明进行了详细说明，此领域的普通技术人员应当能够理解本发明的实施过程，并能够对本发明进行修改或者等同替换。凡不脱离本发明的精神和范围的改动均应涵盖在本发明的权利要求范围当中。

Claims

1.一组微阵列误标记样本检测方法，其特征为利用数据扰动对回归模型的影响来识别微阵列数据中的疑似误标记样本，在构造扰动回归矩阵的基础上通过计算扰动影响值来识别基因芯片数据中的误标记样本，具体包括总体扰动影响值识别法、综合扰动影响值识别法及渐进修正法；

(1)对于n个样本的误标记检测，扰动回归矩阵Loopr是一个n×n的实数值矩阵，元素Loopr[i，j]代表在扰动样本x_i类标的情况下，即令y_i＝-y_i时，以x_j作为测试样本，其他样本作为训练集时，检测方法对于样本x_j类标的回归预测值元素Loopr[i，i]代表无数据扰动的情况下样本x_i类标的回归预测值；

(2)扰动影响值q_ij代表在扰动样本x_i类标的情况下，回归模型在测试样本x_j类标时所受到的影响，q_ij定义为无数据扰动时样本x_j的回归预测值与扰动x_i类标时x_j的回归预测值之差，具体为：

q_ij＝Loopr[j，j]-Loopr[i，j]

(3)总体扰动影响值识别法包含步骤(I)，(II)和(III)：

(I)构造扰动回归矩阵Loopr；

(II)对于每一个样本x_j，计算其总体扰动影响值Q_j，具体定义为：

Q_{j} = Σ_{i = 1}^{n} q_{ij} = Σ_{i = 1}^{n} (Loopr [j, j] - Loopr [i, j])

(III)若y_j×Q_j＜0，判定样本x_j为误标记样本；

(4)综合扰动影响值识别法包含步骤(A)，(B)和(C)：

(A)构造扰动回归矩阵Loopr；

(B)对于每一个样本x_i，计算其总体扰动影响值F_i，具体定义为：

F_{i} = \frac{1}{n} Σ_{j = 1}^{n} (y_{j} \times q_{ij}) = \frac{1}{n} Σ_{j = 1}^{n} y_{j} (Loopr [j, j] - Loopr [i, j])

(C)若F_i＜0，判定样本x_i为误标记样本；

(5)渐进修正法包括步骤(a)，(b)，(c)，(d)和(e)：

(a)构建扰动回归矩阵Loopr，令V_min＝n，令修正类标向量y’等于原类标向量y；

(b)使用综合扰动影响值识别法得到疑似误标记样本集合S；

(c)对S中的每个样本x_i进行评估，计算样本x_i的总评估量V_i；

(d)取总评估量最小的样本记为x_k，其总评估量为V_k，若V_k＞V_min，则S即为最终结果，否则令V_min＝V_k；

(e)在y’中翻转x_k类标，令S为对扰动回归矩阵Loopr和y’使用综合扰动影响值识别法得到的误标记样本集合，如果V_k＞0，则跳转至步骤(c)，否则S即为最终结果。