CN104978497A - 一种大样本高通量生物数据关联分析方法 - Google Patents
一种大样本高通量生物数据关联分析方法 Download PDFInfo
- Publication number
- CN104978497A CN104978497A CN201510353906.6A CN201510353906A CN104978497A CN 104978497 A CN104978497 A CN 104978497A CN 201510353906 A CN201510353906 A CN 201510353906A CN 104978497 A CN104978497 A CN 104978497A
- Authority
- CN
- China
- Prior art keywords
- gene
- sample
- expression
- biological data
- analysis method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title abstract description 9
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 56
- 206010028980 Neoplasm Diseases 0.000 claims description 47
- 230000004907 flux Effects 0.000 claims description 15
- 238000012097 association analysis method Methods 0.000 claims description 12
- 230000000052 comparative effect Effects 0.000 claims description 7
- 230000014509 gene expression Effects 0.000 abstract description 33
- 238000004422 calculation algorithm Methods 0.000 abstract description 10
- 238000000265 homogenisation Methods 0.000 abstract description 8
- 238000004364 calculation method Methods 0.000 abstract description 3
- 238000007405 data analysis Methods 0.000 abstract description 2
- 201000011510 cancer Diseases 0.000 description 30
- 238000000034 method Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000000996 additive effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000003657 Likelihood-ratio test Methods 0.000 description 1
- 108700020796 Oncogene Proteins 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 230000011987 methylation Effects 0.000 description 1
- 238000007069 methylation reaction Methods 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供一种大样本高通量生物数据关联分析方法,包括:统计样本内部变量间比较结果的频数表、应用对数线性模型计算似然值、排序似然值得到跟表型差异最相关的变量的步骤。本发明公开的算法首先比较单个样本内基因间表达量,利用对数线性模型计算每个基因差异表达的显著性得分和差异程度,显著性得分越高的基因差异表达越显著。此计算方法不需要样本间的均一化处理,不需要假设基因表达的数值分布,因此很自然地避免了均一化算法和假设分布可能带来的分析偏差。而且,本算法通过样本内比较简单巧妙地将其它基因的表达信息纳入分析,但却并未陷入高维数据分析的“维度灾难”中。
Description
技术领域
本发明涉及生物信息技术领域,尤其涉及一种大样本高通量生物数据关联分析方法。
背景技术
随着高通量技术的发展和应用,积累了大量的高通量数据。整合分析这些大数据有助于发现事物运行的普遍规律。高通量生物数据关联分析是指从众多的分子变量(例如基因,突变,甲基化位点等)中鉴定出影响特定表型分子变异。例如,基因差异表达分析是指根据一系列的基因表达数据,从全基因组的数万个基因中挑选出与对照样本相比存在表达差异的基因,是发现疾病等表型相关基因的重要手段。现有的方法(传统思路)主要是逐个分析每个基因本身的表达量变化,表达量偏离假设分布的基因就被认为是差异表达基因。但是在分析大规模的高度异质样本(比如肿瘤的全基因组表达谱样本)时,这种方法具有如下的缺点:
首先,传统思路需要通过均一化处理观测值得到样本间可比较的表示基因表达水平的数值。由于大样本内部的数据变异情况非常复杂,准确地均一化处理大量高度异质的高维样本是非常困难的,甚至是不可行的;很显然,均一化处理带来的偏差会影响差异表达分析的结果。
其次,传统思路需要假设基因表达水平的数值分布,比如正态分布,Student t分布,泊松分布,负二项分布等。很明显,计算结果会受到所选分布的影响;由于大样本数据的高度异质性,这些分布也难准确地描述基因表达水平;由于全基因组的基因数量巨大(2万左右)且基因表达的模式不同,能否应用一种分布到所有基因也值得商榷。
最后,传统思路在分析某个基因时并未考虑其它基因的表达情况,即缺失了基因表达的背景信息。这不符合生物体内的基因间存在普遍的相互影响或调控这一事实,也不符合高通量技术同时测量数万个基因表达情况的观测特点。这可能也会影响关键的、重要的差异表达基因的发现。
发明内容
本发明的目的在于解决上述现有技术存在的缺陷,提供一种能够避免均一化算法和假设分布可能带来分析偏差的大样本高通量生物数据关联分析方法。
一种大样本高通量生物数据关联分析方法,包括:统计样本内部变量间比较结果的频数表、应用对数线性模型计算似然值、排序似然值得到跟表型差异最相关的变量的步骤。
进一步地,如上所述的一种大样本高通量生物数据关联分析方法,所述统计样本内变量间比较结果的频数表的步骤包括:对于基因i,首先在每个样本内比较基因i和其它基因的大小关系,然后根据R、C、S、G 4个变量计算频数,得到包含四个变量的频数表,其中,R表示大小关系,C表示肿瘤类型,S表示正常还是肿瘤样本,G表示同基因i比较的基因。
进一步地,如上所述的一种大样本高通量生物数据关联分析方法,所述应用对数线性模型计算似然值的步骤包括:应用对数线性模型到基因i的频数表计算模型(S+R)*C*G的似然值。
进一步地,如上所述的一种大样本高通量生物数据关联分析方法,所述根据排序似然值得到跟表型差异最相关的变量的步骤包括:所有的基因重复前两个步骤,降序排列所有基因的似然值得分。
本发明提供的一种大样本高通量生物数据关联分析方法,以大样本转录组肿瘤数据为具体应用对象阐述该方法的计算过程及特点,本发明公开的算法首先比较单个样本内基因间表达量,利用对数线性模型计算每个基因差异表达的显著性得分和差异程度,显著性得分越高的基因差异表达越显著。此计算方法不需要样本间的均一化处理,不需要假设基因表达的数值分布,因此很自然地避免了均一化算法和假设分布可能带来的分析偏差。而且,本算法通过样本内比较简单巧妙地将其它基因的表达信息纳入分析,但却并未陷入高维数据分析的“维度灾难”中。因为该算法仅仅建立在样本内变量间的比较上,如针对不同的数据类型设计相应的比较方式,本发明的计算框架也适用于除转录组外的其它大样本高通量生物数据。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
将本发明方法应用于大样本肿瘤基因表达谱分析时,假定待分析数据是来自多个肿瘤类型的正常和肿瘤组织样本,总样本数量巨大,可以利用本算法发现在肿瘤样本中的表达不同于正常样本的基因。假设基因数量为n,样本数量为m,肿瘤类型数量为k。本算法包括三个步骤:
步骤一:比较
对于基因i,首先在每个样本内比较基因i和其它基因的大小关系(大于、等于和小于)。然后把所有的比较结果根据下面4个分类变量:R(Relationship,代表大小关系,共有3个水平)、C(Cohort,比较所在样本的肿瘤类型,k个水平)、S(Sample_type,比较所在样本的正常还是肿瘤样本,2个水平),G(Gene,同基因i比较的基因,n-1个水平),计算频数,得到包含这四个变量的频数表。
步骤二:打分
应用对数线性模型到基因i的频数表,计算模型:(S+R)*C*G的似然值(Likelihood ratio test,LRT)。加号代表变量间的加和效应,分号代表变量间的交互效应,而星号代表变量间的加和效应和交互效应。因此,(S+R)*C*G表示这4个变量间的所有效应减去一切包含S和R交互效应的所有效应,也可以有如下表示:
S*R*C*G-S:R:C:G–S:R:C-S:R:G-S:R
利用此模型,就排除了许多其它效应,例如肿瘤类型对表达值的影响(C:R、C:R:S、C:R:G和C:R:S:G)。
根据对数线性模型理论和关于似然值的定义可计算得到该模型的似然值得分,我们用此数值表示基因i在肿瘤和正常样本间差异表达的显著程度得分。另外,我们计算变量S和R(去除等于水平)形成的二维频数表的比值比的对数(Log2Odds Ratio,LOR),用该数值指示跨肿瘤类型的、总的基因表达差异程度。
步骤三:排序
所有的基因重复前两个步骤,降序排列所有基因的LRT得分。排名靠前的基因就是显著差异表达的基因。
具体实施例:
模拟8个样本中5个基因的表达情况见表1、表2:
表1 8个样本的模拟表
表2 表1中5个基因的表达情况模拟表
步骤一:样本内比较并计算频数表(以基因2为例)
表3 比较结果(基因2)
将比较结果以如下方式转化为频数表,例如在样本1中基因2的表达大于基因1,则频数表的Cohort1-Normal–Greater-Gene1行的频数加1.
表4 频数表(基因2)
Cohort | Sample_type | Relationship | Gene | Frequency |
cohort1 | Cancer | Less | Gene1 | 0 |
cohort1 | Normal | Less | Gene1 | 0 |
cohort2 | Cancer | Less | Gene1 | 0 |
cohort2 | Normal | Less | Gene1 | 0 |
cohort1 | Cancer | Equal | Gene1 | 0 |
cohort1 | Normal | Equal | Gene1 | 0 |
cohort2 | Cancer | Equal | Gene1 | 0 |
cohort2 | Normal | Equal | Gene1 | 0 |
cohort1 | Cancer | Greater | Gene1 | 2 |
cohort1 | Normal | Greater | Gene1 | 2 |
cohort2 | Cancer | Greater | Gene1 | 2 |
cohort2 | Normal | Greater | Gene1 | 2 |
cohort1 | Cancer | Less | Gene2 | 0 |
cohort1 | Normal | Less | Gene2 | 2 |
cohort2 | Cancer | Less | Gene2 | 0 |
cohort2 | Normal | Less | Gene2 | 2 |
cohort1 | Cancer | Equal | Gene2 | 0 |
cohort1 | Normal | Equal | Gene2 | 0 |
cohort2 | Cancer | Equal | Gene2 | 0 |
cohort2 | Normal | Equal | Gene2 | 0 |
cohort1 | Cancer | Greater | Gene2 | 2 |
cohort1 | Normal | Greater | Gene2 | 0 |
cohort2 | Cancer | Greater | Gene2 | 2 |
cohort2 | Normal | Greater | Gene2 | 0 |
cohort1 | Cancer | Less | Gene3 | 0 |
cohort1 | Normal | Less | Gene3 | 2 |
cohort2 | Cancer | Less | Gene3 | 0 |
cohort2 | Normal | Less | Gene3 | 2 |
cohort1 | Cancer | Equal | Gene3 | 0 |
cohort1 | Normal | Equal | Gene3 | 0 |
cohort2 | Cancer | Equal | Gene3 | 0 |
cohort2 | Normal | Equal | Gene3 | 0 |
cohort1 | Cancer | Greater | Gene3 | 2 |
cohort1 | Normal | Greater | Gene3 | 0 |
cohort2 | Cancer | Greater | Gene3 | 2 |
cohort2 | Normal | Greater | Gene3 | 0 |
cohort1 | Cancer | Less | Gene4 | 0 |
cohort1 | Normal | Less | Gene4 | 2 |
cohort2 | Cancer | Less | Gene4 | 0 |
cohort2 | Normal | Less | Gene4 | 2 |
cohort1 | Cancer | Equal | Gene4 | 0 |
cohort1 | Normal | Equal | Gene4 | 0 |
cohort2 | Cancer | Equal | Gene4 | 0 |
cohort2 | Normal | Equal | Gene4 | 0 |
cohort1 | Cancer | Greater | Gene4 | 2 |
cohort1 | Normal | Greater | Gene4 | 0 |
cohort2 | Cancer | Greater | Gene4 | 2 |
cohort2 | Normal | Greater | Gene4 | 0 |
cohort1 | Cancer | Less | Gene5 | 2 |
cohort1 | Normal | Less | Gene5 | 2 |
cohort2 | Cancer | Less | Gene5 | 2 |
cohort2 | Normal | Less | Gene5 | 2 |
cohort1 | Cancer | Equal | Gene5 | 0 |
cohort1 | Normal | Equal | Gene5 | 0 |
cohort2 | Cancer | Equal | Gene5 | 0 |
cohort2 | Normal | Equal | Gene5 | 0 |
cohort1 | Cancer | Greater | Gene5 | 0 |
cohort1 | Normal | Greater | Gene5 | 0 |
cohort2 | Cancer | Greater | Gene5 | 0 |
cohort2 | Normal | Greater | Gene5 | 0 |
步骤2:计算的LRT值和LOR值,结果见表5。
表5
LRT | LOR | |
Gene1 | 11.09 | Inf |
Gene2 | 33.27 | 4 |
Gene3 | 27.73 | -0.58 |
Gene4 | 22.18 | 0 |
Gene5 | 38.82 | -5.17 |
Gene6 | 0 | NA |
注:Inf表示无穷大,NA表示缺失值
步骤3:LRT降序,结果见表6。
表6
LRT | LOR | |
Gene5 | 38.82 | -5.17 |
Gene2 | 33.27 | 4 |
Gene3 | 27.73 | -0.58 |
Gene4 | 22.18 | 0 |
Gene1 | 11.09 | Inf |
Gene6 | 0 | NA |
注:Inf表示无穷大,NA表示缺失值
根据排序结果可以推知,变化最显著的基因是基因5(LRT值最大),且在肿瘤中层表达下调趋势(LOR值小于零),紧接着的是在肿瘤中上调的基因2。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (4)
1.一种大样本高通量生物数据关联分析方法,其特征在于,包括:统计样本内部变量间比较结果的频数表、应用对数线性模型计算似然值、排序似然值得到跟表型差异最相关的变量的步骤。
2.根据权利要求1所述的一种大样本高通量生物数据关联分析方法,其特征在于,所述统计样本内变量间比较结果的频数表的步骤包括:对于基因i,首先在每个样本内比较基因i和其它基因的大小关系,然后根据R、C、S、G 4个变量计算频数,得到包含四个变量的频数表,其中,R表示大小关系,C表示肿瘤类型,S表示正常还是肿瘤样本,G表示同基因i比较的基因。
3.根据权利要求1所述的一种大样本高通量生物数据关联分析方法,其特征在于,所述应用对数线性模型计算似然值的步骤包括:应用对数线性模型到基因i的频数表计算模型(S+R)*C*G的似然值。
4.根据权利要求1所述的一种大样本高通量生物数据关联分析方法,其特征在于,所述根据排序似然值得到跟表型差异最相关的变量的步骤包括:所有的基因重复前两个步骤,降序排列所有基因的似然值得分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510353906.6A CN104978497B (zh) | 2015-06-24 | 2015-06-24 | 一种大样本高通量生物数据关联分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510353906.6A CN104978497B (zh) | 2015-06-24 | 2015-06-24 | 一种大样本高通量生物数据关联分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104978497A true CN104978497A (zh) | 2015-10-14 |
CN104978497B CN104978497B (zh) | 2019-01-29 |
Family
ID=54274996
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510353906.6A Expired - Fee Related CN104978497B (zh) | 2015-06-24 | 2015-06-24 | 一种大样本高通量生物数据关联分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104978497B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110706744A (zh) * | 2018-07-09 | 2020-01-17 | 深圳华大基因股份有限公司 | 亚群特异共表达网络鉴定方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101760540A (zh) * | 2008-12-19 | 2010-06-30 | 李祥 | Qtl的定位方法 |
CN102952854A (zh) * | 2011-08-25 | 2013-03-06 | 深圳华大基因科技有限公司 | 单细胞分类和筛选方法及其装置 |
US20130210014A1 (en) * | 2012-02-10 | 2013-08-15 | Jeff Sharman | Method for determining the prognosis and therapeutic response in chronic lymphocytic leukemia (cll) patients |
CN103268431A (zh) * | 2013-05-21 | 2013-08-28 | 中山大学 | 一种基于学生t分布的癌症亚型生物标志物检测系统 |
CN104508670A (zh) * | 2012-06-21 | 2015-04-08 | 菲利普莫里斯生产公司 | 用于生成生物标志物签名的系统和方法 |
-
2015
- 2015-06-24 CN CN201510353906.6A patent/CN104978497B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101760540A (zh) * | 2008-12-19 | 2010-06-30 | 李祥 | Qtl的定位方法 |
CN102952854A (zh) * | 2011-08-25 | 2013-03-06 | 深圳华大基因科技有限公司 | 单细胞分类和筛选方法及其装置 |
US20130210014A1 (en) * | 2012-02-10 | 2013-08-15 | Jeff Sharman | Method for determining the prognosis and therapeutic response in chronic lymphocytic leukemia (cll) patients |
CN104508670A (zh) * | 2012-06-21 | 2015-04-08 | 菲利普莫里斯生产公司 | 用于生成生物标志物签名的系统和方法 |
CN103268431A (zh) * | 2013-05-21 | 2013-08-28 | 中山大学 | 一种基于学生t分布的癌症亚型生物标志物检测系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110706744A (zh) * | 2018-07-09 | 2020-01-17 | 深圳华大基因股份有限公司 | 亚群特异共表达网络鉴定方法 |
CN110706744B (zh) * | 2018-07-09 | 2022-04-05 | 深圳华大基因股份有限公司 | 亚群特异共表达网络鉴定方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104978497B (zh) | 2019-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Linde et al. | Congruent species delineation of Tulasnella using multiple loci and methods | |
Rittmeyer et al. | The effects of sampling on delimiting species from multi-locus sequence data | |
Thode et al. | Evaluating character partitioning and molecular models in plastid phylogenomics at low taxonomic levels: A case study using Amphilophium (Bignonieae, Bignoniaceae) | |
Hopp et al. | Portraying the expression landscapes of cancer subtypes: A case study of glioblastoma multiforme and prostate cancer | |
Tian et al. | A data-driven clustering recommendation method for single-cell RNA-sequencing data | |
CN103955629A (zh) | 基于模糊k均值的宏基因组片段聚类方法 | |
CN102254033A (zh) | 基于熵权重的全局k-均值聚类方法 | |
CN102254020A (zh) | 基于特征权重的全局k-均值聚类方法 | |
CN104572587A (zh) | 数据矩阵相乘的加速运算方法和装置 | |
Sapkota et al. | Data summarization using clustering and classification: Spectral clustering combined with k-means using nfph | |
CN112669899B (zh) | 一种16s和宏基因组测序数据关联分析方法、系统及设备 | |
CN110111843A (zh) | 对核酸序列进行聚类的方法、设备及存储介质 | |
CN105808976A (zh) | 一种基于推荐模型的miRNA靶基因预测方法 | |
Le Van et al. | Ranked tiling | |
CN103678954A (zh) | 一种由生物芯片数据构建多类别特异表达分子集及类别网的方法及其应用和评价方法 | |
Badsha et al. | Robust complementary hierarchical clustering for gene expression data analysis by β-divergence | |
Hanczar et al. | On the comparison of classifiers for microarray data | |
Babichev et al. | Comparison analysis of biclustering algorithms with the use of artificial data and gene expression profiles | |
CN105139037B (zh) | 基于最小生成树的集成多目标进化自动聚类方法 | |
CN104978497A (zh) | 一种大样本高通量生物数据关联分析方法 | |
CN109978023A (zh) | 面向高维大数据分析的特征选择方法及计算机存储介质 | |
Powell et al. | Method or madness: does OTU delineation bias our perceptions of fungal ecology? | |
CN104462817B (zh) | 基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法 | |
CN111341390A (zh) | 定量构效关系辅助匹配分子对分析方法 | |
Ahmad et al. | A study on microarray image gridding techniques for DNA analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190129 |