CN101250584B - 一种识别显著差异表达基因集合的方法 - Google Patents

一种识别显著差异表达基因集合的方法 Download PDF

Info

Publication number
CN101250584B
CN101250584B CN2008100198623A CN200810019862A CN101250584B CN 101250584 B CN101250584 B CN 101250584B CN 2008100198623 A CN2008100198623 A CN 2008100198623A CN 200810019862 A CN200810019862 A CN 200810019862A CN 101250584 B CN101250584 B CN 101250584B
Authority
CN
China
Prior art keywords
gene
value
expression
gene sets
sets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008100198623A
Other languages
English (en)
Other versions
CN101250584A (zh
Inventor
王进
顾祖光
杨嵘
张辰宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN2008100198623A priority Critical patent/CN101250584B/zh
Publication of CN101250584A publication Critical patent/CN101250584A/zh
Application granted granted Critical
Publication of CN101250584B publication Critical patent/CN101250584B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种识别显著差异表达基因集合的方法,它包括以下步骤:(1)设置和输入数据;(2)将基因归属至各个基因集合;(3)检查每一个基因集合中基因的个数是否大于设置中定义的个数,如果结果为否,则抛弃此基因集合;(4)计算每一个基因集合的表达变化指数;(5)将整张芯片上所有基因作为背景基因,计算背景基因集合的表达变化指数;(6)从背景基因中随机抽样,检验各基因集合E值的显著性;(7)根据设定的E值和p值的阈值,输出符合阈值要求的基因集合作为识别结果。本发明方法对大基因集合识别效果优良,保证了在较少检测次数的情况下有较高的准确率,大大提高了基因表达值在实际应用中的价值。

Description

一种识别显著差异表达基因集合的方法
技术领域
本发明涉及高通量生物芯片基因表达检测方法,特别涉及基因表达谱芯片检测中一种识别显著差异表达基因集合的方法。
背景技术
高通量生物芯片检测是对生物体各过程、各状态进行各个层次的快速、并行、大信息量检测的先进技术。可以广泛应用于疾病预警、寻找新的疾病基因、以及分子生理和分子病理研究等方面。其关键技术之一是显著差异表达基因集合的识别。目前识别差异表达基因集合的方法是对基因表达值进行t检验后按t值排序,并与随机重排样本的统计结果进行比较,从而识别显著改变的基因集合。该方法的问题是对大基因集合识别效果不佳,且识别效果受实验重复性和检测次数的影响很大,若检测次数少则识别效果差。所以现有识别方法难以适应检测次数不多的现实状况,大大降低了基因表达值在实际应用中的价值。
发明内容
发明目的:本发明的主要目的是针对现有技术识别显著表达基因集合的准确度低、对检测次数要求过高的问题,提供一种基于表达值加权分布的识别显著差异表达基因集合的方法。
技术方案:本发明公开了一种识别显著差异表达基因集合的方法,它包括以下步骤:
(1)设置和输入芯片数据;
(2)将基因表达谱芯片所含基因归属至各个基因集合;
(3)判断每一个基因集合中基因的个数是否大于设置中定义的个数,如果判断结果为否,则抛弃此基因集合;否则,执行下一步;
(4)计算每一个基因集合的表达变化指数,即E’值;
(5)将整张芯片上所有基因作为背景基因,按照步骤4的方法计算背景基因集合的表达变化指数;对每一个基因集合去除背景,产生真实的基因集合表达变化指数E值;
(6)检验各基因集合E值的显著性;
(7)根据设定的E值和p值的阈值,判断是否符合阈值要求,如果判断结果为否,则抛弃;如果判断结果为是,则输出识别结果;
其中,步骤(7)中所述p值为置信度。
本发明中,步骤(1)中,设置和输入数据包括将荧光信号图像扫描获得的数据进行预处理(数据转换、缺失数据拟合、归一化等常规处理)后,根据检测目的所计算的基因表达水平比值,以及判断阈值,包括基因集合的表达变化指数E值和p值。
本发明中,步骤(3)中,设置基因集合中所含基因数,比如,大于10,一般根据本领域中实际应用中常见的情况而定的。
本发明中,步骤(4)中计算基因集合的表达变化指数的方法具体包括以下步骤:(11)基因表达值的离散化;(12)计算表达分布的一阶权重得分;(13)计算基因集合的表达变化指数。其中,优选地,步骤(12)包括以下步骤:计算上调区和下调区的差异表达离散分布和权重分布得分;对于有重复实验的单样本芯片数据,计算差异表达权重分布后,将所有重复实验中的加权表达值叠加;对于有重复试验的多样本芯片数据,将样本分级并赋予标签值,组合各种标签值的加权表达值。其中所述的赋予标签值,根据所识别基因集合的要求,样本之间正相关取+1,样本之间负相关取-1。步骤(13)中用上调区和下调区得分的比值取对数(E’值)来表示在此集合中的基因表达变化指数。
本发明中,步骤(6)检验各基因集合E值的显著性,从背景基因中随机挑选与选定基因集合数目相同的基因,按步骤(4)和步骤(5)的做法计算真实的基因集合表达变化指数E值,重复抽样(比如1000次),获得各集合的E值的显著性。
本发明中,所述的权重分布计算使用一阶权重公式为:
U = &Sigma; x > 0 x &CenterDot; P ( x ) , D = &Sigma; x < 0 | x | &CenterDot; P ( x ) .
本发明方法中,所述的阈值要求为:基因集合的表达变化指数E值的绝对值大于1。p值为置信度,即将观察结果认为有效(具有总体代表性)的犯错概率。p值越低,结果的可信度越高,在本发明中,所述的p值的阈值可以设定为0~0.05,该取值为经验值,通过对多个芯片检测结果与已知基因表达情况的比较得出,实际意义是识别的灵敏度与特异性之间的平衡。
本发明方法中所用到的基因表达谱芯片检测和识别装置为本领域常用的检测设备。
有益效果:本发明方法对大基因集合识别效果优良,且识别效果受实验重复性和检测次数的影响很小,保证了在较少检测次数条件下较高的准确率,大大提高了基因表达值在实际应用中的价值。
附图说明
图1是基因表达谱芯片检测和识别装置的工作流程图。
图2是本发明方法的流程图。
图3是产生基因集合表达变化指数的流程图。
图4是基因集合表达变化指数的散点图的对比图。
具体实施方式
下面结合附图对发明做更进一步的解释。
如图1所示,将样本进行荧光标记后,加样于高通量生物芯片基因表达检测与识别装置中,与基因芯片上的探针杂交,杂交完毕后清洗去杂物,光电部分检测并记录基因表达强度,将数据预处理,产生基因表达芯片数据。如图2所示,然后由识别机制对其进行处理,来识别显著表达变化的基因集合。
本发明的方法如图2所示。步骤1是初始动作,包括用户设置和输入数据;步骤2将芯片所含基因归属至各个基因集合;步骤3判断每一个基因集合中基因的个数是否大于设置中定义的个数,如果判断结果否,则抛弃此基因集合;否则,执行步骤4。步骤4计算每一个基因集合的表达变化指数(E’值)。该步骤将在后面的部分结合图3具体介绍。步骤5先计算背景基因集合的E’值,将整张芯片上所有基因作为背景基因,按步骤4的做法计算所有基因表达值分布的E’值。然后对每一个基因集合去除背景,产生真实的基因集合表达变化指数E值;步骤6检验各基因集合E值的显著性,从背景基因中随机挑选与选定基因集合数目相同的基因,按步骤4的做法计算E值,重复抽样(比如1000次),获得各集合的E值的显著性;步骤7根据设定的E值和p值的阈值,进行判断,输出识别结果。
图3详细说明了图2的步骤4,包括:步骤11基因表达值的离散化;步骤12计算表达分布的一阶权重得分;步骤13计算基因集合的表达变化指数。其作用是计算基因集合的表达变化指数。具体而言,对于单实验单样本的芯片数据{G|e},其中G表示基因,e表示相应基因的表达值,设Si是某一个给定的基因集合,其中包含的基因为G1,G2,…,Gn,芯片数据中属于此集合的基因为G1,G2,…,Gm(m≤n)。这些基因的表达值存在一个分布,以合适的区间作为分隔(比如0.1),可以得到一个离散型的表达值分布,记为P(x)。其中x>0的部分为上调基因的分布,x<0的部分为下调基因的分布。通过本发明专门设计的公式计算此集合中的上调区U和下调区D的权重分布得分:
U = &Sigma; x > 0 x &CenterDot; P ( x ) , D = &Sigma; x < 0 | x | &CenterDot; P ( x )
其中使用每个区间分布的区间值作为分布的权重,那么差异表达较大的基因就会在这个基因集合中有较大的权重,而差异表达较小的基因则权重较小。这样,表达差异明显的基因集合和不明显的基因集合可以很好地区分开来。
对于有重复实验的单样本芯片数据,记为{G|e1,e2,…,en},ei表示第i次重复实验。对于一个指定的基因集合Si,在每一次重复实验ei中,处于此基因集合中的基因在芯片上的表达值都会有一个分布,记为Pi(x),将所有重复实验中的加权表达值叠加,上调区和下调区的权重分布得分用本发明专门设计的公式表示:
U = &Sigma; i n &Sigma; x i > 0 x i &CenterDot; P i ( x ) , D = &Sigma; i n &Sigma; x i < 0 | x i | &CenterDot; P i ( x )
其中n是重复实验的次数。同样,在某次重复实验中差异表达较大的基因会占有较大的权重。
对于有重复试验的多样本芯片测试,不同样本属于不同的级别(class),用C1,C2,…,Cn来表示,芯片数据记为:
{ G | e 1 , c 1 , e 2 , c 1 , . . . , e n , c 1 , e 1 , c 2 , e 2 , c 2 , . . . , e n , c 2 , e 1 , c n , e 2 , c n , . . . , e n , c n } ,
Figure S2008100198623D00044
表示在Cj中的第i次重复实验。对于一个指定的基因集合Si,在每一次重复试验中,处于此基因集合中的基因在芯片上的表达值都有一个分布,记为Pi(x),上调区和下调区的权重分布得分用本发明专门设计的公式表示如下:
U = &Sigma; j C n &Sigma; i e n , C j &Sigma; label C j &CenterDot; x i , j > 0 x i , j &CenterDot; P i , j ( x ) , D = &Sigma; j C n &Sigma; i e n , C j &Sigma; label C j &CenterDot; x i , j < 0 | x i , j | &CenterDot; P i , j ( x )
其中第一个求和符号是将所有的样本叠加,第二个求和符号是将某个样本中所有的重复实验叠加,第三个是将每个实验中基因表达分布加权后叠加。其中n是级别的总数,此处的上调区和下调区与单样本数据不一样,在多样本数据中一般需要的是样本之间的比较,本发明给每个样本赋予一个label值,将多样本数据模拟为单样本数据。labelCj是指第j个样本的标记,如果需要找出在样本1的中被上调而在样本2中被下调的基因集合,则样本1中所有实验的label记为l,样本2中所有实验的label记为-1。相当于将样本2中所有数据的正负颠倒过来,研究样本1和样本2合并为一张芯片后的被显著上调的基因。
本专利中,用上调区和下调区得分的比值的对数来表示在此集合中基因被上调或者下调的程度,如果对数值大于0,则表示该基因集合被上调,反之亦然。
本专利中,也可以用上调区和下调区得分的比值来表示在此集合中基因被上调或者下调的程度,如果比值大于1,则表示该基因集合被上调,反之亦然。
图4是基因集合E值随基因集合中基因个数的散点图。图4a是对一个实际样本的处理结果,连续的曲线代表显著性等于p=0.05的E值,曲线之外的区域是具有统计显著性的区域。用本方法识别出31个显著差异表达的基因集合。图4b是随机数据对照(随机生成一套和原芯片数据大小相同的数据,依据正态分布,均值取每个样本中所有基因表达值的均值,方差取每个样本中所有基因表达值的方差),其中,几乎所有的散点都有较大的p值。与图4b相比,图4a下方显示出较多的散点,与随机分布相比有明显下调偏移。该图展示了本发明方法的有效性,也用于决定相应E值的阈值。
本发明方法中所用到的基因表达谱芯片检测和识别装置为本领域常用的设备,不需要硬件上的任何改动,因而更加显示出本方法在具体实施中的兼容性,大大降低了方法在实践应用中的成本。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (1)

1.一种识别显著差异表达基因集合的方法,其特征在于,它包括以下步骤:
(1)设置和输入芯片数据;
(2)将基因表达谱芯片所含基因归属至各个基因集合;
(3)判断每一个基因集合中基因的个数是否大于设置中定义的个数,如果判断结果为否,则抛弃此基因集合;否则,执行下一步;
(4)计算每一个基因集合的表达变化指数,即E’值;
(5)将整张芯片上所有基因作为背景基因,按照步骤4的方法计算背景基因集合的表达变化指数;对每一个基因集合去除背景,产生真实的基因集合表达变化指数E值;
(6)检验各基因集合E值的显著性;
(7)根据设定的E值和p值的阈值,判断是否符合阈值要求,如果判断结果为否,则抛弃;如果判断结果为是,则输出识别结果;
其中,步骤(7)中所述p值为置信度;
步骤(4)中计算基因集合的表达变化指数的方法具体包括以下步骤:
(11)基因表达值的离散化;
(12)计算表达分布的一阶权重得分;
(13)计算基因集合的表达变化指数;
步骤(12)包括以下步骤:
计算上调区和下调区的差异表达离散分布和权重分布得分;
对于有重复实验的单样本芯片数据,计算差异表达权重分布后,将所有重复实验中的加权表达值叠加;
对于有重复实验的多样本芯片数据,将样本分级并赋予标签值,组合各种标签值的加权表达值;
步骤(13)用上调区和下调区得分比值的对数来表示在此集合中的基因表达变化指数;
所述的权重分布得分计算使用一阶权重公式为:
U = &Sigma; x > 0 x &CenterDot; P ( x ) , D = &Sigma; x < 0 | x | &CenterDot; P ( x )
其中,U为上调区权重分布得分和D为下调区的权重分布得分;P(x)为离散型的表达值分布;其中x>0的部分为上调基因的分布,x<0的部分为下调基因的分布;
其中所述的赋予标签值,根据所识别基因集合的要求,样本之间正相关取+1,样本之间负相关取-1;
所述的阈值要求为:基因集合的表达变化指数的绝对值大于1;p值不大于0.05。
CN2008100198623A 2008-03-19 2008-03-19 一种识别显著差异表达基因集合的方法 Expired - Fee Related CN101250584B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008100198623A CN101250584B (zh) 2008-03-19 2008-03-19 一种识别显著差异表达基因集合的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008100198623A CN101250584B (zh) 2008-03-19 2008-03-19 一种识别显著差异表达基因集合的方法

Publications (2)

Publication Number Publication Date
CN101250584A CN101250584A (zh) 2008-08-27
CN101250584B true CN101250584B (zh) 2012-06-13

Family

ID=39954183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008100198623A Expired - Fee Related CN101250584B (zh) 2008-03-19 2008-03-19 一种识别显著差异表达基因集合的方法

Country Status (1)

Country Link
CN (1) CN101250584B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101565747B (zh) * 2009-06-04 2012-11-28 南京大学 一种提取多种基因集合特征表达模式的方法
CN103678954B (zh) * 2013-12-11 2017-05-24 深圳先进技术研究院 一种由生物芯片数据构建多类别特异表达分子集及类别网的方法及其应用和评价方法
CN115354076A (zh) 2014-03-25 2022-11-18 奎斯特诊断投资股份有限公司 通过使用平均循环阈值的基因内差异表达(ide)检测基因融合
EP3535678B1 (en) * 2016-11-03 2021-12-22 Illumina, Inc. Systems and methods for outlier significance assessment
CN111816247B (zh) * 2020-07-19 2022-02-11 西北工业大学 一种基于双向校正的差异表达基因识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1335893A (zh) * 1998-12-28 2002-02-13 罗斯塔英法美蒂克斯公司 细胞表达特征的统计合并

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1335893A (zh) * 1998-12-28 2002-02-13 罗斯塔英法美蒂克斯公司 细胞表达特征的统计合并

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
伍亚舟等.基因芯片表达数据的标准化策略研究.《第三军医大学学报》.2004,(第07期), *
宫改云等.基于模糊c-均值聚类的微阵列基因表达数据分析.《西安电子科技大学学报》.2004,(第02期), *
韩放等.利用PLS-VIP方法筛选差异表达基因(英文).《北京大学学报(自然科学版)》.2009,(第01期), *

Also Published As

Publication number Publication date
CN101250584A (zh) 2008-08-27

Similar Documents

Publication Publication Date Title
CN101250584B (zh) 一种识别显著差异表达基因集合的方法
CN111192631A (zh) 用于构建用于预测蛋白质-rna相互作用结合位点模型的方法和系统
CN105389480B (zh) 多类不平衡基因组学数据迭代集成特征选择方法及系统
CN106033502B (zh) 鉴定病毒的方法和装置
CN102110323B (zh) 一种验钞方法及验钞装置
CN111276252B (zh) 一种肿瘤良恶性鉴别模型的构建方法及装置
Hanssen et al. Optimizing body fluid recognition from microbial taxonomic profiles
CN109949863B (zh) 一种基于随机森林模型鉴别大曲质量的方法
CN105825078A (zh) 基于基因大数据的小样本基因表达数据分类方法
CN113593714A (zh) 一种多分类新冠肺炎病例的检测方法、系统、设备及介质
CN110562261A (zh) 一种基于马尔可夫模型检测驾驶员风险等级的方法
Biswas et al. Biological averaging in RNA-seq
CN113260710A (zh) 用于通过多个定制掺合混合物验证微生物组序列处理和差异丰度分析的组合物、系统、设备和方法
Liu et al. Mixed-Weight Neural Bagging for Detecting $ m^ 6A $ Modifications in SARS-CoV-2 RNA Sequencing
CN103184275A (zh) 一种水稻基因组基因标识的新方法
KR102376212B1 (ko) 신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법
CN105177130B (zh) 用来评估艾滋病人发生免疫重建炎性综合症的标志物
CN103576882B (zh) 非正常文本识别方法及其系统
CN104636636A (zh) 蛋白质远程同源性检测方法及装置
CN101565747B (zh) 一种提取多种基因集合特征表达模式的方法
CN101320404B (zh) 一种生物病毒的计算机自动分类方法
CN110265151A (zh) 一种基于ehr中异构时态数据的学习方法
CN117708569B (zh) 一种病原微生物信息的识别方法、装置、终端及存储介质
CN113496761B (zh) 确定核酸样本中cnv的方法、装置及应用
CN103064855B (zh) 分类文件的方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120613

Termination date: 20130319