CN109300502A

CN109300502A - 一种从多组学数据中分析关联变化模式的系统和方法

Info

Publication number: CN109300502A
Application number: CN201811180071.9A
Authority: CN
Inventors: 徐建震; 杨德印; 范健; 张凡; 陈丹泽
Original assignee: Shantou University Medical College
Current assignee: Shantou University Medical College
Priority date: 2018-10-10
Filing date: 2018-10-10
Publication date: 2019-02-01

Abstract

本发明公开了一种从多组学数据中分析关联变化模式的系统和方法，该系统包括：包含有多种组学数据的组学数据集；用于对组学数据集进行预处理的二值化算法单元；用于挖掘出各分子改变的相互关联模式的关联规则Apriori算法单元。本发明能够有效整合不同组学数据，从而很好地挖掘出多组学数据中分析关联变化模式。

Description

一种从多组学数据中分析关联变化模式的系统和方法

技术领域

本发明涉及生物信息学与计算数据分析领域，具体涉及一种从多组学数据中分析关联变化模式的系统和方法。

背景技术

近年来随着高通量测序技术的飞速发展，可以对同一个样本测序产生各类组学数据，这里的多组学数据包括但不局限于以下数据：基因组外显子测序数据、基因组拷贝数变化数据、基因组甲基化数据、基因芯片表达谱数据、基因测序数据、非编码RNA表达数据以及蛋白质质谱数据等。这样当测序工具应用于科学研究中时，研究者可以从DNA、RNA、甲基化等多角度研究实验条件下的样本中的系统性变化；当测序工具应用于临床疾病样本中时，医生可以从分子水平多层面全方位观察疾病的状态和发展进程。

随着产生的数据量急剧增加，如何分析这些海量高维的数据并从中挖掘出有价值的信息是亟待解决的问题。国外一些研究人员开发了cBioPortal，OASIS等组学数据分析工具(Fernandez-Banet et al 2016; Gao et al 2013)。

但是上述组学数据分析方法和系统都仅仅是针对各类组学数据进行简单的查询和可视化，缺乏有效地整合多层次不同组学数据的方法，尤其是从多组学数据中分析关联变化模式的方法和系统。

发明内容

本发明的发明目的是提供一种从多组学数据中分析关联变化模式的系统和方法，能够有效整合不同层次的组学数据，从而很好地挖掘出多组学数据中分析关联变化模式。

为达到上述发明目的，本发明采用的技术方案是：一种从多组学数据中分析关联变化模式的系统，该系统包括：

包含有多种组学数据的组学数据集；

用于对组学数据集进行预处理的二值化算法单元；

用于挖掘出各分子改变的相互关联模式的关联规则Apriori算法单元。

上述技术方案中，所述组学数据集包括基因组外显子测序数据、基因组拷贝数变化数据、基因组甲基化数据、基因芯片表达谱数据、基因测序数据、非编码RNA表达数据以及蛋白质质谱数据。

一种从多组学数据中分析关联变化模式的方法，包括如下步骤：

步骤一、收集整理各类组学数据，构成组学数据集，其中，每类组学数据都以基因ID号为行，以各类组学检测的测量值为列产生一个数值型矩阵；

步骤二、对步骤一中的每个数值型矩阵进行二值化处理后，将多个数值型矩阵按照行合并的形式进行合并，得到一个新的数值型矩阵；

步骤三、利用关联规则Apriori算法处理步骤二中得到的新的数值型矩阵，挖掘出各分子改变的相互关联模式；

步骤四、按照支持度、置信度和提升度中的一个或多个指标的组合筛选出有价值的关联模式；

步骤五、重复步骤一至四，比较多个组学数据集后整理出分子变异关联模式异同，产生有价值的生物学发现；

其中，所述步骤二中，至少包含两个数值型矩阵。

上述技术方案中，所述步骤二中，定义和正常对照相比发生差异的基因或分子事件为1，定义和正常对照相比未发生差异的基因或分子事件为0。

上述技术方案中，采用T检验法筛选出和正常对照相比发生差异的基因或分子事件。

由于上述技术方案运用，本发明与现有技术相比具有下列优点：

1．本发明通过把多组学数据进行二值化等预处理后合并成一个新的数值型矩阵，再采用关联规则Apriori算法挖掘出多组学数据中分析关联变化模式，相比于现有技术仅针对单一组学数据挖掘基因间、分子事件间的相互关系而忽视疾病过程中系统性改变，取得了很大的进步；

2．本发明能够跨越不同疾病种类和应用平台，具有很强的兼容性和很好的适用性。

附图说明

图1是本发明实施例一的系统结构示意图。

其中：1、组学数据集；2、二值化算法单元；3、关联规则Apriori算法单元。

具体实施方式

下面结合附图及实施例对本发明作进一步描述：

实施例一：

参见图1所示，一种从多组学数据中分析关联变化模式的系统，该系统包括：

包含有多种组学数据的组学数据集1；

用于对组学数据集进行预处理的二值化算法单元2；

用于挖掘出各分子改变的相互关联模式的关联规则Apriori算法单元3。

本实施例中，所述组学数据集包括基因组外显子测序数据、基因组拷贝数变化数据、基因组甲基化数据、基因芯片表达谱数据、基因测序数据、非编码RNA表达数据以及蛋白质谱数据。需要说明的是，本发明的组学数据集并不局限于包括上述几种数据，可以根据实际的需要进行增加。

其中，所述步骤二中，至少包含两个数值型矩阵。

本实施例中，所述步骤二中，定义和正常对照相比发生差异的基因或分子事件为1，定义和正常对照相比未发生差异的基因或分子事件为0。

具体地，采用T检验法筛选出和正常对照相比发生差异的基因或分子事件。还可以采用分位数法等其他方法来代替T检验法。

下面以食管癌和乳腺癌为例阐述本发明的实际应用

实施例二：

利用食管癌病人的RNA-seq组学数据，用本发明共挖掘出14179条基因间相互关联的规则。例如其中一条规则是{CDK1}==>{CCNB2}，支持度是0.435,置信度是0.808,提升度是1.416。表明CDK1（cyclin dependent kinase 1，周期素依赖激酶1）和CCNB2（cyclin B2，周期素B2）具有很高的相互关联。在43.5%的食管癌病人的RNA-seq基因检测数据中发现两者同时出现差异表达；当CDK1出现差异表达时，CCNB2也发现差异表达的概率高达80.8%；两者同时发生差异表达的概率是CDK1独立于CCNB2发生差异表达的概率的1.416倍。

实施例三：

为了研究食管癌和乳腺癌受到DNA甲基化作用机制的相似性，我们使用本发明分别分析了食管癌病人和乳腺癌病人的DNA甲基化组学数据，然后比较两者的结果。在支持度是0.4,置信度是0.8时，共发现了239条共同的关联规则。我们发现这些形成规则的基因有很多是钙粘着蛋白（cadherin），发挥着细胞粘附的作用（cell adhesion）。这个结果说明了细胞粘附相关基因的甲基化作用是食管癌和乳腺癌的共同致癌机制。

实施例四：

为了研究食管癌和乳腺癌在基因表达变化的相似性，我们使用本发明分别分析了食管癌病人和乳腺癌病人的RNA-seq组学数据，然后比较两者的结果。在支持度是0.4,置信度是0.8时，共发现了149条共同的关联规则。我们发现在规则中的基因有很多是和细胞周期（cell cycle）、细胞分裂（cell division）、DNA复制（DNA replication）和DNA修复（DNArepair）等细胞功能有关的。该结果说明了以上这些细胞作用机制在食管癌和乳腺癌致癌机制中的重要作用，这也是目前学术界对细胞癌变的共识。

上述实施例二至四所用到的数据集来自于TCGA数据库，其中：

食管癌病人组学数据：

（1）RNA-seq组学数据，共包括184个病人，11个正常人的20531基因的RNA-seq检测值；

（2）DNA甲基化组学数据，共包括185个病人，16个正常人的485577基因的DNA甲基化位点的检测值；

乳腺癌病人组学数据：

（1）RNA-seq组学数据，共包括1066个病人，112个正常人的20531基因的RNA-seq检测值；

（2）DNA甲基化组学数据，共包括769个病人，97个正常人的485577基因的DNA甲基化位点的检测值。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对上述实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的上述实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种从多组学数据中分析关联变化模式的系统，其特征在于，该系统包括：

包含有多种组学数据的组学数据集；

用于对组学数据集进行预处理的二值化算法单元；

2.根据权利要求1所述的从多组学数据中分析关联变化模式的系统，其特征在于：所述组学数据集包括基因组外显子测序数据、基因组拷贝数变化数据、基因组甲基化数据、基因芯片表达谱数据、基因测序数据、非编码RNA表达数据以及蛋白质谱数据。

3.一种从多组学数据中分析关联变化模式的方法，其特征在于，包括如下步骤：

其中，所述步骤二中，至少包含两个数值型矩阵。

4.根据权利要求3所述的从多组学数据中分析关联变化模式的方法，其特征在于：所述步骤二中，定义和正常对照相比发生差异的基因或分子事件为1，定义和正常对照相比未发生差异的基因或分子事件为0。

5.根据权利要求4所述的从多组学数据中分析关联变化模式的方法，其特征在于：采用T检验法筛选出和正常对照相比发生差异的基因或分子事件。