CN101515313B - 一组微阵列误标记样本检测方法 - Google Patents

一组微阵列误标记样本检测方法 Download PDF

Info

Publication number
CN101515313B
CN101515313B CN2009100667090A CN200910066709A CN101515313B CN 101515313 B CN101515313 B CN 101515313B CN 2009100667090 A CN2009100667090 A CN 2009100667090A CN 200910066709 A CN200910066709 A CN 200910066709A CN 101515313 B CN101515313 B CN 101515313B
Authority
CN
China
Prior art keywords
sample
perturbation
loopr
disturbance
influence value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009100667090A
Other languages
English (en)
Other versions
CN101515313A (zh
Inventor
梁艳春
张琛
吴春国
周柚
王岩
杜伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN2009100667090A priority Critical patent/CN101515313B/zh
Publication of CN101515313A publication Critical patent/CN101515313A/zh
Application granted granted Critical
Publication of CN101515313B publication Critical patent/CN101515313B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一组用于微阵列数据误标记样本检测的计算方法,属于计算生物学领域。本发明利用数据扰动对回归模型的影响来识别微阵列数据中的疑似误标记样本,将其应用于疾病的基因表达数据预处理,可降低错误标记所带来的影响和损失。本发明建立了描述样本类标和样本基因表达向量之间关系的同归模型,而后通过依次扰动各样本的类标,建立扰动回归矩阵,进而捕获这些扰动对回归模型的影响。本发明定义了三种扰动影响指标:扰动影响值、总体扰动影响值和综合扰动影响值。在此基础上给出了三种针对微阵列数据的误标记样本检测方法:总体扰动影响值识别法,综合扰动影响值判别法和渐进修正法。

Description

一组微阵列误标记样本检测方法
技术领域
本发明专利涉及一组用于微阵列数据误标记样本检测的计算方法,属于计算生物学领域。
背景技术
在基因表达数据的采集过程中,由于实验手段的客观原因以及实验操作人员的主观疏忽,经常会引入许多噪声数据,样本的误标记是其中较为常见的一种。所谓样本的误标记,就是将原本属于某类的样本错误地标记为其他类别,致使该样本成为了错误样本。这种情况常见于针对疾病的实验中,产生的原因多为主观因素的影响,如实验员的误操作、医师的判断失误等等。由于分类方法在医学的癌症诊断等领域中有着非常广泛的应用,而一旦出现误标记的样本,必然对诊断结果产生影响,甚至导致错误的诊断,这样的后果是十分严重的,这就促使人们寻找一种高效准确的误标记样本检测方法来降低错误标记带来的影响和损失。
目前,误标记样本检测方法多数基于统计理论和机器学习方法。Brodley(1999)等采用多个不同的分类器进行过滤,将剩余的样本作为训练集来检测误标记样本;Furey(2000)等采用支持向量机和特征打分的方法来识别误标记样本;Sanchez(2003)等采用最近邻分类器来提高训练数据的质量;Muhlenbach(2004)等提出了一种过滤算法,该算法能够在训练分类器之前去除可能误标记的样本。然而,这些算法均不是针对微阵列数据集构建的。Kadota(2003)等采用微阵列异常点检测方法来识别误标记样本;Zhang(2006)等提出了一种迭代估计误分类可能性的方法,并应用于乳腺癌微阵列数据。但是,这两种算法都只在单一微阵列数据集中应用,没有在其他数据集上做广泛验证。Malossini(2006)等提出了两种分类扰动的方法来对误标记样本进行检测,其中的稳定性方法能够取得很好的识别效果,但仍有查全率偏低的缺陷。
发明内容
本发明的主要目的是提供一组用于微阵列数据误标记样本检测的计算方法。利用数据扰动对回归模型的影响来识别微阵列数据中的疑似误标记样本。本发明依次扰动各样本的类标,而后建立了描述样本类标和样本基因表达向量之间关系的回归模型,进而捕获数据扰动扰动对回归模型的影响。本发明定义了相关的扰动影响指标,并在此基础上给出了三种检测微阵列数据中误标记样本的方法:总体扰动影响值识别法、综合扰动影响值识别法以及渐进修正法。
本发明的预期目的将通过以下技术方案实现,技术方案以两分类数据误标记检测做说明,其思想可推广至多分类数据的情况。
一、扰动回归矩阵与扰动影响值
1.回归模型
假定一个两分类样本的微阵列,其探针数位p,样本数为n,那么微阵列数据x为一个p×n的矩阵,样本i的基因表达向量用xi表示,类标用yi表示,且满足yi∈{+1,-1},由此微阵列数据x的类标向量可用y来表示。本发明将定义一个回归模型来描述xi和yi之间的关系。
首先假定xi和yi均为连续值而非离散值,定义函数f如下:
yi=f(xi)+ε(1)
其中f为实数值函数,ε为噪声值。本发明将使用支持向量机回归模型
Figure G2009100667090D00021
来估计函数f。
2.扰动回归矩阵
扰动回归矩阵是一个n×n的实数值矩阵,记为Loopr。元素Loopr[i,j]代表在扰动样本xi的类标(即令yi=-yi)的情况下,以xj作为测试样本,其他样本作为训练集时,对于样本xj类标的回归预测值
Figure G2009100667090D00022
由此可见,元素Loopr[i,i]代表无数据扰动的情况下样本xi类标的回归预测值。
3.扰动影响值
扰动影响值qij代表在扰动样本xi类标的情况下,回归模型在预测样本xj类标时所受到的影响。本发明将qij定义为无数据扰动时样本xj的回归预测值与扰动xi类标时xj的回归预测值之差,具体为:
qij=Loopr[j,j]-Loopr[i,j](2)
4.总体扰动影响值
总体扰动影响值代表数据扰动对某一样本的总体影响。本发明将样本xj的总体扰动影响值Qj定义为其他样本分别扰动时,对于样本xj的扰动影响值之和,具体为:
Q j = Σ i = 1 n q ij = Σ i = 1 n ( Loopr [ j , j ] - Loopr [ i , j ] ) - - - ( 3 )
5.综合扰动影响值
综合扰动影响值代表扰动某一样本类标对其他样本的综合影响。本发明将样本xi的综合扰动影响值Fi定义为:
F i = 1 n Σ j = 1 n ( y j × q ij ) = 1 n Σ j = 1 y j ( Loopr [ j , j ] - Loopr [ i , j ] ) - - - ( 4 )
二、误标记样本识别方法
1.总体扰动影响值识别法
总体扰动影响值识别法利用总体扰动影响值来判别某一样本是否为误标记样本,对于待检测数据(x,y),具体识别步骤如下:
1)构造扰动回归矩阵Loopr;
2)对于每一个样本xj,根据公式(3)计算其总体扰动影响值Qj
3)若yj×Qj<0,判定样本xj为误标记样本。
2.综合扰动影响值识别法
该方法利用综合扰动影响值来判别某一样本是否为误标记样本,对于待检测数据(x,y),具体识别步骤如下:
1)构造扰动回归矩阵Loopr;
2)对于每一个样本xi,根据公式(4)计算其总体扰动影响值Fi
3)若Fi<0,判定样本xi为误标记样本。
3.渐进修正方法
渐进修正法在综合扰动影响值识别法的基础上,加入渐进修正的策略来识别误标记样本,对于待检测数据(x,y),具体识别步骤如下:
1)构建扰动回归矩阵Loopr,令Vmin=n,令修正类标向量y’=y;
2)使用综合扰动影响值识别法得到疑似误标记样本集合S;
3)取S中未经评估的样本xi,在修正列表向量y’中将xi的类标翻转;
4)使用扰动回归矩阵Loopr及类标向量y’计算每一个样本的综合扰动影响值,将所有综合扰动影响值小与0的样本集合记为S’i,在修正类标向量y’中将xi的类标复原;
5)在原始类标向量y中将S’i中的所有样本类标翻转,得到类标向量y”;
6)使用检测评估算法对数据(x,y”)进行评估,得到初始评估量Di,其中检测评估算法可以为任意已有的误标记样本检测算法,包括总体扰动影响值识别法、综合扰动影响值识别法以及Malossini(2006)等提出的CL-Stability算法和LOOE-Sensitivity算法,Di为误标记样本检测算法对(x,y”)检测得到的疑似误标记样本数量;
7)将样本xi的综合扰动影响值Fi作为对初始评估量的补充,则样本xi的总评估量Vi=Di-Fi
8)对S中所有样本计算总评估量,取总评估量最小的样本记为xk,其总评估量为Vk,若Vk>Vmin,则S即为最终结果,否则令Vmin=Vk
9)在y’中翻转xk类标,令S为对扰动回归矩阵Loopr和y’使用综合扰动影响值识别法得到的误标记样本集合,如果Vk>0,则跳转至步骤3,否则S即为最终结果。
附图说明
图1为构造扰动回归矩阵的流程示意图;
图2为渐进修正法的流程示意图。
图3为实施例各样本的总体扰动影响值柱状图。
图4为实施例各样本的综合扰动影响值柱状图。
图5为渐进修正法对于实施例的识别效果图。
具体实施方式
以下通过乳腺癌两分类基因芯片数据的实例对本发明做详细说明。West等的乳腺癌(breast)基因表达谱数据集是一个通用数据集,它包含了49个乳腺癌样本,其中雌激素受体(estrogen receptor)阳性(ER+)的样本25个,雌激素受体阴性(ER-)的样本24个,基因芯片中包含7129个基因。自此基础上,剔除可疑样本11、14、16、31、33、45、46、40、43,而后手动翻转样本1、2、3、47、48、49使之成为误标记样本。得到的这个数据集就是下面将要使用的实例数据。
一、总体扰动影响识别法
步骤1:取数据集中的一个未翻转样本xi,使其类标yi=-yi
步骤2:对于数据集中的每一个样本xj,将xj作为测试样本,其他样本作为训练集,把对于样本xj类标的回归预测值填入扰动回归矩阵的元素Loopr[i,j]中;
步骤3:使yi=-yi,将样本xi标记为已翻转;
步骤4:若数据集中还有未翻转的样本,则转至步骤1;否则扰动回归矩阵Loopr构造完成,继续步骤5;
步骤5:对于每一个样本xj,根据公式(3)计算其总体扰动影响值Qj,若yj×Qj<0,判定样本xj为误标记样本,将样本xj放入误标记样本集合S中;
步骤6:样本1、2、4、14、32、47、48、49被判定为误标记样本放入结果集合S中。
二、综合扰动影响识别法
步骤1:取数据集中的一个未翻转样本xi,使其类标yi=-yi
步骤2:对于数据集中的每一个样本xj,将xj作为测试样本,其他样本作为训练集,把对于样本xj类标的回归预测值填入扰动回归矩阵的元素Loopr[i,j]中;
步骤3:使yi=-yi,将样本xi标记为已翻转;
步骤4:若数据集中还有未翻转的样本,则转至步骤1;否则扰动回归矩阵构造完成,继续步骤5;
步骤5:对于每一个样本xi,根据公式(4)计算其综合扰动影响值Fi,若Fi<0,判定样本xi为误标记样本,将样本xi放入误标记样本集合S中;误标记样本集合S即为最终结果;
步骤6:样本1、2、4、14、32、47、48、49被判定为误标记样本放入结果集合S中。
二、渐进修正方法
步骤1:令最小估价值Vmin=n;
步骤2:构造扰动回归矩阵Loopr,使用综合扰动影响值识别法检测数据集,样本1、2、4、14、32、47、48、49被判定为误标记样本放入结果集合S中;令新类标向量y’=y,y为原类标向量;
步骤3:在S中取一个未评估的样本xi,使其类标y’i=-yi
步骤4:使用向量y’和扰动回归矩阵Loopr计算每个样本的综合扰动影响值,将综合扰动影响值小于0的样本放入集合S’i,将样本xi的类标还原,即y’i=yi
步骤5:在原始类标向量y中将S’i中的所有样本类标翻转,得到类标向量y”;
步骤6:使用检测评估算法对数据(x,y”)进行评估,得到初始评估量Di,将样本xi的综合扰动影响值Fi作为对初始评估量的补充,则样本xi的总评估量Vi=Di-Fi
步骤7:若S中还有未评估的样本,则跳转至步骤3,否则继续;
步骤8:选取评估量最小的样本,本实例中样本2的评估量V2最小,于是令Vmin=V2,y’2=-y2,S=S’2,此时S={1,2,14,32,47,48,49};
步骤9:重复步骤3-7,得到评估量最小的为样本49,令Vmin=V49,y’49=-y49,S=S’49,此时S={1,2,32,48,49};
步骤10:重复步骤3-7,得到评估量最小的为样本48,令Vmin=V48,y’48=-y48,S=S’48,此时S={1,2,47,48,49};
步骤11:重复步骤3-7,得到评估量最小的为样本1,令Vmin=V1,y’1=-y1,S=S’1,此时S={1,2,3,47,48,49},且Vmin<0,因此算法结束,S={1,2,3,47,48,49}即为最终结果。
最后应说明的是:以上两分类数据实施例仅用以说明本发明而非限制,本发明可推广解决多分类数据的误标记样本检测问题。因为参照实施例对本发明进行了详细说明,此领域的普通技术人员应当能够理解本发明的实施过程,并能够对本发明进行修改或者等同替换。凡不脱离本发明的精神和范围的改动均应涵盖在本发明的权利要求范围当中。

Claims (1)

1.一组微阵列误标记样本检测方法,其特征为利用数据扰动对回归模型的影响来识别微阵列数据中的疑似误标记样本,在构造扰动回归矩阵的基础上通过计算扰动影响值来识别基因芯片数据中的误标记样本,具体包括总体扰动影响值识别法、综合扰动影响值识别法及渐进修正法;
(1)对于n个样本的误标记检测,扰动回归矩阵Loopr是一个n×n的实数值矩阵,元素Loopr[i,j]代表在扰动样本xi类标的情况下,即令yi=-yi时,以xj作为测试样本,其他样本作为训练集时,检测方法对于样本xj类标的回归预测值元素Loopr[i,i]代表无数据扰动的情况下样本xi类标的回归预测值;
(2)扰动影响值qij代表在扰动样本xi类标的情况下,回归模型在测试样本xj类标时所受到的影响,qij定义为无数据扰动时样本xj的回归预测值与扰动xi类标时xj的回归预测值之差,具体为:
qij=Loopr[j,j]-Loopr[i,j]
(3)总体扰动影响值识别法包含步骤(I),(II)和(III):
(I)构造扰动回归矩阵Loopr;
(II)对于每一个样本xj,计算其总体扰动影响值Qj,具体定义为:
Q j = Σ i = 1 n q ij = Σ i = 1 n ( Loopr [ j , j ] - Loopr [ i , j ] )
(III)若yj×Qj<0,判定样本xj为误标记样本;
(4)综合扰动影响值识别法包含步骤(A),(B)和(C):
(A)构造扰动回归矩阵Loopr;
(B)对于每一个样本xi,计算其总体扰动影响值Fi,具体定义为:
F i = 1 n Σ j = 1 n ( y j × q ij ) = 1 n Σ j = 1 n y j ( Loopr [ j , j ] - Loopr [ i , j ] )
(C)若Fi<0,判定样本xi为误标记样本;
(5)渐进修正法包括步骤(a),(b),(c),(d)和(e):
(a)构建扰动回归矩阵Loopr,令Vmin=n,令修正类标向量y’等于原类标向量y;
(b)使用综合扰动影响值识别法得到疑似误标记样本集合S;
(c)对S中的每个样本xi进行评估,计算样本xi的总评估量Vi
(d)取总评估量最小的样本记为xk,其总评估量为Vk,若Vk>Vmin,则S即为最终结果,否则令Vmin=Vk
(e)在y’中翻转xk类标,令S为对扰动回归矩阵Loopr和y’使用综合扰动影响值识别法得到的误标记样本集合,如果Vk>0,则跳转至步骤(c),否则S即为最终结果。
CN2009100667090A 2009-03-27 2009-03-27 一组微阵列误标记样本检测方法 Expired - Fee Related CN101515313B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100667090A CN101515313B (zh) 2009-03-27 2009-03-27 一组微阵列误标记样本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100667090A CN101515313B (zh) 2009-03-27 2009-03-27 一组微阵列误标记样本检测方法

Publications (2)

Publication Number Publication Date
CN101515313A CN101515313A (zh) 2009-08-26
CN101515313B true CN101515313B (zh) 2012-02-01

Family

ID=41039765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100667090A Expired - Fee Related CN101515313B (zh) 2009-03-27 2009-03-27 一组微阵列误标记样本检测方法

Country Status (1)

Country Link
CN (1) CN101515313B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10453557B2 (en) * 2011-09-30 2019-10-22 Life Technologies Corporation Methods and systems for visualizing and evaluating data
CN106777938A (zh) * 2016-12-06 2017-05-31 合肥工业大学 一种基于自适应权重的微阵列缺失值估计方法
CN107391962B (zh) * 2017-09-05 2020-12-29 武汉古奥基因科技有限公司 基于多组学分析基因或位点对疾病调控关系的方法
US11720819B2 (en) 2020-05-29 2023-08-08 International Business Machines, Incorporated Machine learning model error detection

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6965831B2 (en) * 2000-03-09 2005-11-15 Yeda Research And Development Co. Ltd. Coupled two-way clustering analysis of data
CN101145171A (zh) * 2007-09-15 2008-03-19 中国科学院合肥物质科学研究院 一种基于独立分量集成学习的基因微阵列数据预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6965831B2 (en) * 2000-03-09 2005-11-15 Yeda Research And Development Co. Ltd. Coupled two-way clustering analysis of data
CN101145171A (zh) * 2007-09-15 2008-03-19 中国科学院合肥物质科学研究院 一种基于独立分量集成学习的基因微阵列数据预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周柚,张琛,吴春国,时小虎,梁艳春.微阵列癌症数据误标记样本和异常样本识别的广义CL-stability算法.《吉林大学学报(理工版)》.2008,第46卷(第3期),第509-511页. *

Also Published As

Publication number Publication date
CN101515313A (zh) 2009-08-26

Similar Documents

Publication Publication Date Title
CN108173708A (zh) 基于增量学习的异常流量检测方法、装置及存储介质
CN104951809A (zh) 基于不平衡分类指标与集成学习的不平衡数据分类方法
CN105760712A (zh) 一种基于新一代测序的拷贝数变异检测方法
CN106326913A (zh) 一种洗钱账户的确定方法及装置
CN103761426B (zh) 一种在高维数据中快速识别特征组合的方法及系统
CN106651574A (zh) 一种个人信用评估方法及装置
CN101515313B (zh) 一组微阵列误标记样本检测方法
CN101738998B (zh) 一种基于局部判别分析的工业过程监测系统及方法
CN111343147B (zh) 一种基于深度学习的网络攻击检测装置及方法
CN106203530A (zh) 面向k近邻算法用于不平衡分布数据的特征权重确定方法
CN105241665A (zh) 一种基于IRBFNN-AdaBoost分类器的滚动轴承故障诊断方法
CN102507676A (zh) 基于多重自组织神经网络的电子鼻在线漂移补偿方法
CN106326915A (zh) 一种基于改进核Fisher的化工过程故障诊断方法
AU2019480813B2 (en) Methods for determining chromosome aneuploidy and constructing classification model, and device
CN104155245A (zh) 一种基于模式识别与谱图映射的油品多类性质的检测方法
CN103530515B (zh) 底栖生物完整性评价指数结构方程模型的构建方法
CN112199295B (zh) 一种基于频谱的深度神经网络缺陷定位方法及系统
CN103310205A (zh) 一种手写体数字识别方法及装置
CN109242008B (zh) 一种样本类别不完备条件下的复合故障识别方法
CN102938068B (zh) 桥梁结构多体系损伤识别方法
CN116258373A (zh) 一种基于大数据的病虫害测报预警系统及方法
CN116013527A (zh) 一种基于熵的cv-mabac高血压年龄段预测方法
CN115983534A (zh) 污水处理过程的状态评价方法以及评价系统
CN109214089A (zh) 一种桥梁结构健康监测指标的隶属度评估方法
CN109767430B (zh) 有价票据的质量检测方法及质量检测系统

Legal Events

Date Code Title Description
C57 Notification of unclear or unknown address
DD01 Delivery of document by public notice

Addressee: Liang Yanchun

Document name: Notification of Passing Preliminary Examination of the Application for Invention

C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
DD01 Delivery of document by public notice

Addressee: Liang Yanchun

Document name: the First Notification of an Office Action

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120201

Termination date: 20150327

EXPY Termination of patent right or utility model