CN104978497B

CN104978497B - 一种大样本高通量生物数据关联分析方法

Info

Publication number: CN104978497B
Application number: CN201510353906.6A
Authority: CN
Inventors: 李其刚; 孔庆鹏
Original assignee: Kunming Institute of Zoology of CAS
Current assignee: Kunming Institute of Zoology of CAS
Priority date: 2015-06-24
Filing date: 2015-06-24
Publication date: 2019-01-29
Anticipated expiration: 2035-06-24
Also published as: CN104978497A

Abstract

本发明提供一种大样本高通量生物数据关联分析方法，包括：统计样本内部变量间比较结果的频数表、应用对数线性模型计算似然值、排序似然值得到跟表型差异最相关的变量的步骤。本发明公开的算法首先比较单个样本内基因间表达量，利用对数线性模型计算每个基因差异表达的显著性得分和差异程度，显著性得分越高的基因差异表达越显著。此计算方法不需要样本间的均一化处理，不需要假设基因表达的数值分布，因此很自然地避免了均一化算法和假设分布可能带来的分析偏差。而且，本算法通过样本内比较简单巧妙地将其它基因的表达信息纳入分析，但却并未陷入高维数据分析的“维度灾难”中。

Description

一种大样本高通量生物数据关联分析方法

技术领域

本发明涉及生物信息技术领域，尤其涉及一种大样本高通量生物数据关联分析方法。

背景技术

随着高通量技术的发展和应用，积累了大量的高通量数据。整合分析这些大数据有助于发现事物运行的普遍规律。高通量生物数据关联分析是指从众多的分子变量(例如基因，突变，甲基化位点等)中鉴定出影响特定表型分子变异。例如，基因差异表达分析是指根据一系列的基因表达数据，从全基因组的数万个基因中挑选出与对照样本相比存在表达差异的基因，是发现疾病等表型相关基因的重要手段。现有的方法(传统思路)主要是逐个分析每个基因本身的表达量变化，表达量偏离假设分布的基因就被认为是差异表达基因。但是在分析大规模的高度异质样本(比如肿瘤的全基因组表达谱样本)时，这种方法具有如下的缺点：

首先，传统思路需要通过均一化处理观测值得到样本间可比较的表示基因表达水平的数值。由于大样本内部的数据变异情况非常复杂，准确地均一化处理大量高度异质的高维样本是非常困难的，甚至是不可行的；很显然，均一化处理带来的偏差会影响差异表达分析的结果。

其次，传统思路需要假设基因表达水平的数值分布，比如正态分布，Student t分布，泊松分布，负二项分布等。很明显，计算结果会受到所选分布的影响；由于大样本数据的高度异质性，这些分布也难准确地描述基因表达水平；由于全基因组的基因数量巨大(2万左右)且基因表达的模式不同，能否应用一种分布到所有基因也值得商榷。

最后，传统思路在分析某个基因时并未考虑其它基因的表达情况，即缺失了基因表达的背景信息。这不符合生物体内的基因间存在普遍的相互影响或调控这一事实，也不符合高通量技术同时测量数万个基因表达情况的观测特点。这可能也会影响关键的、重要的差异表达基因的发现。

发明内容

本发明的目的在于解决上述现有技术存在的缺陷，提供一种能够避免均一化算法和假设分布可能带来分析偏差的大样本高通量生物数据关联分析方法。

一种大样本高通量生物数据关联分析方法，包括：统计样本内部变量间比较结果的频数表、应用对数线性模型计算似然值、排序似然值得到跟表型差异最相关的变量的步骤。

进一步地，如上所述的一种大样本高通量生物数据关联分析方法，所述统计样本内变量间比较结果的频数表的步骤包括：对于基因i，首先在每个样本内比较基因i和其它基因的大小关系，然后根据R、C、S、G 4个变量计算频数，得到包含四个变量的频数表，其中，R表示大小关系，C表示肿瘤类型，S表示正常还是肿瘤样本，G表示同基因i比较的基因。

进一步地，如上所述的一种大样本高通量生物数据关联分析方法，所述应用对数线性模型计算似然值的步骤包括：应用对数线性模型到基因i的频数表计算模型(S+R)*C*G的似然值。

进一步地，如上所述的一种大样本高通量生物数据关联分析方法，所述根据排序似然值得到跟表型差异最相关的变量的步骤包括：所有的基因重复前两个步骤，降序排列所有基因的似然值得分。

本发明提供的一种大样本高通量生物数据关联分析方法，以大样本转录组肿瘤数据为具体应用对象阐述该方法的计算过程及特点，本发明公开的算法首先比较单个样本内基因间表达量，利用对数线性模型计算每个基因差异表达的显著性得分和差异程度，显著性得分越高的基因差异表达越显著。此计算方法不需要样本间的均一化处理，不需要假设基因表达的数值分布，因此很自然地避免了均一化算法和假设分布可能带来的分析偏差。而且，本算法通过样本内比较简单巧妙地将其它基因的表达信息纳入分析，但却并未陷入高维数据分析的“维度灾难”中。因为该算法仅仅建立在样本内变量间的比较上，如针对不同的数据类型设计相应的比较方式，本发明的计算框架也适用于除转录组外的其它大样本高通量生物数据。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

将本发明方法应用于大样本肿瘤基因表达谱分析时，假定待分析数据是来自多个肿瘤类型的正常和肿瘤组织样本，总样本数量巨大，可以利用本算法发现在肿瘤样本中的表达不同于正常样本的基因。假设基因数量为n，样本数量为m，肿瘤类型数量为k。本算法包括三个步骤：

步骤一：比较

对于基因i，首先在每个样本内比较基因i和其它基因的大小关系(大于、等于和小于)。然后把所有的比较结果根据下面4个分类变量：R(Relationship，代表大小关系，共有3个水平)、C(Cohort，比较所在样本的肿瘤类型，k个水平)、S(Sample_type，比较所在样本的正常还是肿瘤样本，2个水平)，G(Gene，同基因i比较的基因，n-1个水平)，计算频数，得到包含这四个变量的频数表。

步骤二：打分

应用对数线性模型到基因i的频数表，计算模型：(S+R)*C*G的似然值(Likelihoodratio test,LRT)。加号代表变量间的加和效应，分号代表变量间的交互效应，而星号代表变量间的加和效应和交互效应。因此，(S+R)*C*G表示这4个变量间的所有效应减去一切包含S和R交互效应的所有效应，也可以有如下表示：

S*R*C*G-S:R:C:G–S:R:C-S:R:G-S:R

利用此模型，就排除了许多其它效应，例如肿瘤类型对表达值的影响(C:R、C:R:S、C:R:G和C:R:S：G)。

根据对数线性模型理论和关于似然值的定义可计算得到该模型的似然值得分，我们用此数值表示基因i在肿瘤和正常样本间差异表达的显著程度得分。另外，我们计算变量S和R(去除等于水平)形成的二维频数表的比值比的对数(Log2 Odds Ratio,LOR)，用该数值指示跨肿瘤类型的、总的基因表达差异程度。

步骤三：排序

所有的基因重复前两个步骤，降序排列所有基因的LRT得分。排名靠前的基因就是显著差异表达的基因。

具体实施例：

模拟8个样本中5个基因的表达情况见表1、表2：

表1 8个样本的模拟表

表2表1中5个基因的表达情况模拟表

步骤一：样本内比较并计算频数表(以基因2为例)

表3比较结果(基因2)

将比较结果以如下方式转化为频数表，例如在样本1中基因2的表达大于基因1，则频数表的Cohort1-Normal–Greater-Gene1行的频数加1.

表4频数表(基因2)

步骤2：计算的LRT值和LOR值，结果见表5。

表5

	LRT	LOR
			Gene1	11.09	Inf
Gene2	33.27	4
			Gene3	27.73	-0.58
Gene4	22.18	0
			Gene5	38.82	-5.17
Gene6	0	NA

注：Inf表示无穷大，NA表示缺失值

步骤3：LRT降序，结果见表6。

表6

	LRT	LOR
			Gene5	38.82	-5.17
Gene2	33.27	4
			Gene3	27.73	-0.58
Gene4	22.18	0
			Gene1	11.09	Inf
Gene6	0	NA

注：Inf表示无穷大，NA表示缺失值

根据排序结果可以推知，变化最显著的基因是基因5(LRT值最大)，且在肿瘤中层表达下调趋势(LOR值小于零)，紧接着的是在肿瘤中上调的基因2。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种大样本高通量生物数据关联分析方法，其特征在于，包括：通过比较每个样本内基因间的大小关系建立每个基因的频数表，将对数似然模型应用到每个频数表计算似然值，排序似然值得到跟表型差异最相关联的基因；

所述通过比较每个样本内基因间的大小关系建立每个基因的频数表的步骤包括：对于基因 i，首先在每个样本内比较基因i和其它基因的大小关系，然后根据R、C、 S、G 4个变量计算频数，得到包含四个变量的频数表，其中，R表示大小关系，C表示肿瘤类型，S表示正常还是肿瘤样本，G表示同基因i比较的基因；

所述将对数似然模型应用到每个频数表计算似然值的步骤包括：应用对数线性模型到基因i的频数表计算模型(S+R)*C*G的似然值，加号代表变量间的加和效应，而星号代表变量间的加和效应和交互效应。

2.根据权利要求1所述的一种大样本高通量生物数据关联分析方法，其特征在于，所述排序似然值得到跟表型差异最相关联的基因的步骤包括：所有的基因重复前两个步骤，降序排列所有基因的似然值得分。