CN109300502A - 一种从多组学数据中分析关联变化模式的系统和方法 - Google Patents
一种从多组学数据中分析关联变化模式的系统和方法 Download PDFInfo
- Publication number
- CN109300502A CN109300502A CN201811180071.9A CN201811180071A CN109300502A CN 109300502 A CN109300502 A CN 109300502A CN 201811180071 A CN201811180071 A CN 201811180071A CN 109300502 A CN109300502 A CN 109300502A
- Authority
- CN
- China
- Prior art keywords
- data
- multiple groups
- analyzing
- group
- gene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种从多组学数据中分析关联变化模式的系统和方法,该系统包括:包含有多种组学数据的组学数据集;用于对组学数据集进行预处理的二值化算法单元;用于挖掘出各分子改变的相互关联模式的关联规则Apriori算法单元。本发明能够有效整合不同组学数据,从而很好地挖掘出多组学数据中分析关联变化模式。
Description
技术领域
本发明涉及生物信息学与计算数据分析领域,具体涉及一种从多组学数据中分析关联变化模式的系统和方法。
背景技术
近年来随着高通量测序技术的飞速发展,可以对同一个样本测序产生各类组学数据,这里的多组学数据包括但不局限于以下数据:基因组外显子测序数据、基因组拷贝数变化数据、基因组甲基化数据、基因芯片表达谱数据、基因测序数据、非编码RNA表达数据以及蛋白质质谱数据等。这样当测序工具应用于科学研究中时,研究者可以从DNA、RNA、甲基化等多角度研究实验条件下的样本中的系统性变化;当测序工具应用于临床疾病样本中时,医生可以从分子水平多层面全方位观察疾病的状态和发展进程。
随着产生的数据量急剧增加,如何分析这些海量高维的数据并从中挖掘出有价值的信息是亟待解决的问题。国外一些研究人员开发了cBioPortal,OASIS等组学数据分析工具(Fernandez-Banet et al 2016; Gao et al 2013)。
但是上述组学数据分析方法和系统都仅仅是针对各类组学数据进行简单的查询和可视化,缺乏有效地整合多层次不同组学数据的方法,尤其是从多组学数据中分析关联变化模式的方法和系统。
发明内容
本发明的发明目的是提供一种从多组学数据中分析关联变化模式的系统和方法,能够有效整合不同层次的组学数据,从而很好地挖掘出多组学数据中分析关联变化模式。
为达到上述发明目的,本发明采用的技术方案是:一种从多组学数据中分析关联变化模式的系统,该系统包括:
包含有多种组学数据的组学数据集;
用于对组学数据集进行预处理的二值化算法单元;
用于挖掘出各分子改变的相互关联模式的关联规则Apriori算法单元。
上述技术方案中,所述组学数据集包括基因组外显子测序数据、基因组拷贝数变化数据、基因组甲基化数据、基因芯片表达谱数据、基因测序数据、非编码RNA表达数据以及蛋白质质谱数据。
一种从多组学数据中分析关联变化模式的方法,包括如下步骤:
步骤一、收集整理各类组学数据,构成组学数据集,其中,每类组学数据都以基因ID号为行,以各类组学检测的测量值为列产生一个数值型矩阵;
步骤二、对步骤一中的每个数值型矩阵进行二值化处理后,将多个数值型矩阵按照行合并的形式进行合并,得到一个新的数值型矩阵;
步骤三、利用关联规则Apriori算法处理步骤二中得到的新的数值型矩阵,挖掘出各分子改变的相互关联模式;
步骤四、按照支持度、置信度和提升度中的一个或多个指标的组合筛选出有价值的关联模式;
步骤五、重复步骤一至四,比较多个组学数据集后整理出分子变异关联模式异同,产生有价值的生物学发现;
其中,所述步骤二中,至少包含两个数值型矩阵。
上述技术方案中,所述步骤二中,定义和正常对照相比发生差异的基因或分子事件为1,定义和正常对照相比未发生差异的基因或分子事件为0。
上述技术方案中,采用T检验法筛选出和正常对照相比发生差异的基因或分子事件。
由于上述技术方案运用,本发明与现有技术相比具有下列优点:
1.本发明通过把多组学数据进行二值化等预处理后合并成一个新的数值型矩阵,再采用关联规则Apriori算法挖掘出多组学数据中分析关联变化模式,相比于现有技术仅针对单一组学数据挖掘基因间、分子事件间的相互关系而忽视疾病过程中系统性改变,取得了很大的进步;
2.本发明能够跨越不同疾病种类和应用平台,具有很强的兼容性和很好的适用性。
附图说明
图1是本发明实施例一的系统结构示意图。
其中:1、组学数据集;2、二值化算法单元;3、关联规则Apriori算法单元。
具体实施方式
下面结合附图及实施例对本发明作进一步描述:
实施例一:
参见图1所示,一种从多组学数据中分析关联变化模式的系统,该系统包括:
包含有多种组学数据的组学数据集1;
用于对组学数据集进行预处理的二值化算法单元2;
用于挖掘出各分子改变的相互关联模式的关联规则Apriori算法单元3。
本实施例中,所述组学数据集包括基因组外显子测序数据、基因组拷贝数变化数据、基因组甲基化数据、基因芯片表达谱数据、基因测序数据、非编码RNA表达数据以及蛋白质谱数据。需要说明的是,本发明的组学数据集并不局限于包括上述几种数据,可以根据实际的需要进行增加。
一种从多组学数据中分析关联变化模式的方法,包括如下步骤:
步骤一、收集整理各类组学数据,构成组学数据集,其中,每类组学数据都以基因ID号为行,以各类组学检测的测量值为列产生一个数值型矩阵;
步骤二、对步骤一中的每个数值型矩阵进行二值化处理后,将多个数值型矩阵按照行合并的形式进行合并,得到一个新的数值型矩阵;
步骤三、利用关联规则Apriori算法处理步骤二中得到的新的数值型矩阵,挖掘出各分子改变的相互关联模式;
步骤四、按照支持度、置信度和提升度中的一个或多个指标的组合筛选出有价值的关联模式;
步骤五、重复步骤一至四,比较多个组学数据集后整理出分子变异关联模式异同,产生有价值的生物学发现;
其中,所述步骤二中,至少包含两个数值型矩阵。
本实施例中,所述步骤二中,定义和正常对照相比发生差异的基因或分子事件为1,定义和正常对照相比未发生差异的基因或分子事件为0。
具体地,采用T检验法筛选出和正常对照相比发生差异的基因或分子事件。还可以采用分位数法等其他方法来代替T检验法。
下面以食管癌和乳腺癌为例阐述本发明的实际应用
实施例二:
利用食管癌病人的RNA-seq组学数据,用本发明共挖掘出14179条基因间相互关联的规则。例如其中一条规则是{CDK1}==>{CCNB2},支持度是0.435,置信度是0.808,提升度是1.416。表明CDK1(cyclin dependent kinase 1,周期素依赖激酶1)和CCNB2(cyclin B2,周期素B2)具有很高的相互关联。在43.5%的食管癌病人的RNA-seq基因检测数据中发现两者同时出现差异表达;当CDK1出现差异表达时,CCNB2也发现差异表达的概率高达80.8%;两者同时发生差异表达的概率是CDK1独立于CCNB2发生差异表达的概率的1.416倍。
实施例三:
为了研究食管癌和乳腺癌受到DNA甲基化作用机制的相似性,我们使用本发明分别分析了食管癌病人和乳腺癌病人的DNA甲基化组学数据,然后比较两者的结果。在支持度是0.4,置信度是0.8时,共发现了239条共同的关联规则。我们发现这些形成规则的基因有很多是钙粘着蛋白(cadherin),发挥着细胞粘附的作用(cell adhesion)。这个结果说明了细胞粘附相关基因的甲基化作用是食管癌和乳腺癌的共同致癌机制。
实施例四:
为了研究食管癌和乳腺癌在基因表达变化的相似性,我们使用本发明分别分析了食管癌病人和乳腺癌病人的RNA-seq组学数据,然后比较两者的结果。在支持度是0.4,置信度是0.8时,共发现了149条共同的关联规则。我们发现在规则中的基因有很多是和细胞周期(cell cycle)、细胞分裂(cell division)、DNA复制(DNA replication)和DNA修复(DNArepair)等细胞功能有关的。该结果说明了以上这些细胞作用机制在食管癌和乳腺癌致癌机制中的重要作用,这也是目前学术界对细胞癌变的共识。
上述实施例二至四所用到的数据集来自于TCGA数据库,其中:
食管癌病人组学数据:
(1)RNA-seq组学数据,共包括184个病人,11个正常人的20531基因的RNA-seq检测值;
(2)DNA甲基化组学数据,共包括185个病人,16个正常人的485577基因的DNA甲基化位点的检测值;
乳腺癌病人组学数据:
(1)RNA-seq组学数据,共包括1066个病人,112个正常人的20531基因的RNA-seq检测值;
(2)DNA甲基化组学数据,共包括769个病人,97个正常人的485577基因的DNA甲基化位点的检测值。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对上述实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的上述实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (5)
1.一种从多组学数据中分析关联变化模式的系统,其特征在于,该系统包括:
包含有多种组学数据的组学数据集;
用于对组学数据集进行预处理的二值化算法单元;
用于挖掘出各分子改变的相互关联模式的关联规则Apriori算法单元。
2.根据权利要求1所述的从多组学数据中分析关联变化模式的系统,其特征在于:所述组学数据集包括基因组外显子测序数据、基因组拷贝数变化数据、基因组甲基化数据、基因芯片表达谱数据、基因测序数据、非编码RNA表达数据以及蛋白质谱数据。
3.一种从多组学数据中分析关联变化模式的方法,其特征在于,包括如下步骤:
步骤一、收集整理各类组学数据,构成组学数据集,其中,每类组学数据都以基因ID号为行,以各类组学检测的测量值为列产生一个数值型矩阵;
步骤二、对步骤一中的每个数值型矩阵进行二值化处理后,将多个数值型矩阵按照行合并的形式进行合并,得到一个新的数值型矩阵;
步骤三、利用关联规则Apriori算法处理步骤二中得到的新的数值型矩阵,挖掘出各分子改变的相互关联模式;
步骤四、按照支持度、置信度和提升度中的一个或多个指标的组合筛选出有价值的关联模式;
步骤五、重复步骤一至四,比较多个组学数据集后整理出分子变异关联模式异同,产生有价值的生物学发现;
其中,所述步骤二中,至少包含两个数值型矩阵。
4.根据权利要求3所述的从多组学数据中分析关联变化模式的方法,其特征在于:所述步骤二中,定义和正常对照相比发生差异的基因或分子事件为1,定义和正常对照相比未发生差异的基因或分子事件为0。
5.根据权利要求4所述的从多组学数据中分析关联变化模式的方法,其特征在于:采用T检验法筛选出和正常对照相比发生差异的基因或分子事件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811180071.9A CN109300502A (zh) | 2018-10-10 | 2018-10-10 | 一种从多组学数据中分析关联变化模式的系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811180071.9A CN109300502A (zh) | 2018-10-10 | 2018-10-10 | 一种从多组学数据中分析关联变化模式的系统和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109300502A true CN109300502A (zh) | 2019-02-01 |
Family
ID=65162176
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811180071.9A Pending CN109300502A (zh) | 2018-10-10 | 2018-10-10 | 一种从多组学数据中分析关联变化模式的系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109300502A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110957007A (zh) * | 2019-11-26 | 2020-04-03 | 上海交通大学 | 一种基于组织外泌体磷酸化蛋白组的多组学分析方法 |
CN114429787A (zh) * | 2021-12-30 | 2022-05-03 | 北京百度网讯科技有限公司 | 组学数据处理方法、装置、电子设备和存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102473247A (zh) * | 2009-06-30 | 2012-05-23 | 陶氏益农公司 | 用于在包含分子遗传标志物的植物和动物数据集中挖掘关联规则,继而利用由这些关联规则创建的特征进行分类或预测的机器学习方法的应用 |
US20140052380A1 (en) * | 2012-08-16 | 2014-02-20 | Samsung Electronics Co., Ltd. | Method and apparatus for analyzing personalized multi-omics data |
CN106384128A (zh) * | 2016-09-09 | 2017-02-08 | 西安交通大学 | 一种挖掘时序数据状态关联的方法 |
CN107133448A (zh) * | 2017-04-10 | 2017-09-05 | 温州医科大学 | 一种代谢组学数据融合优化处理方法 |
CN107590516A (zh) * | 2017-09-16 | 2018-01-16 | 电子科技大学 | 基于光纤传感数据挖掘的输气管道泄漏检测识别方法 |
CN108038352A (zh) * | 2017-12-15 | 2018-05-15 | 西安电子科技大学 | 结合差异化分析和关联规则挖掘全基因组关键基因的方法 |
CN108292326A (zh) * | 2015-08-27 | 2018-07-17 | 皇家飞利浦有限公司 | 用于使用多组学癌症谱来识别功能性患者特异性体细胞畸变的整合方法和系统 |
CN108509771A (zh) * | 2018-03-27 | 2018-09-07 | 华南理工大学 | 一种基于稀疏匹配的多组学数据关联关系发现方法 |
-
2018
- 2018-10-10 CN CN201811180071.9A patent/CN109300502A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102473247A (zh) * | 2009-06-30 | 2012-05-23 | 陶氏益农公司 | 用于在包含分子遗传标志物的植物和动物数据集中挖掘关联规则,继而利用由这些关联规则创建的特征进行分类或预测的机器学习方法的应用 |
US20140052380A1 (en) * | 2012-08-16 | 2014-02-20 | Samsung Electronics Co., Ltd. | Method and apparatus for analyzing personalized multi-omics data |
CN108292326A (zh) * | 2015-08-27 | 2018-07-17 | 皇家飞利浦有限公司 | 用于使用多组学癌症谱来识别功能性患者特异性体细胞畸变的整合方法和系统 |
CN106384128A (zh) * | 2016-09-09 | 2017-02-08 | 西安交通大学 | 一种挖掘时序数据状态关联的方法 |
CN107133448A (zh) * | 2017-04-10 | 2017-09-05 | 温州医科大学 | 一种代谢组学数据融合优化处理方法 |
CN107590516A (zh) * | 2017-09-16 | 2018-01-16 | 电子科技大学 | 基于光纤传感数据挖掘的输气管道泄漏检测识别方法 |
CN108038352A (zh) * | 2017-12-15 | 2018-05-15 | 西安电子科技大学 | 结合差异化分析和关联规则挖掘全基因组关键基因的方法 |
CN108509771A (zh) * | 2018-03-27 | 2018-09-07 | 华南理工大学 | 一种基于稀疏匹配的多组学数据关联关系发现方法 |
Non-Patent Citations (3)
Title |
---|
YIMING ZUO ET AL: "A new approach for multi-omic data integration", 《2014 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE》 * |
周永章等: "《地球科学大数据挖掘与机器学习》", 30 September 2018 * |
孟辉: "蛋白质组数据模式可视化分析", 《微计算机信息》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110957007A (zh) * | 2019-11-26 | 2020-04-03 | 上海交通大学 | 一种基于组织外泌体磷酸化蛋白组的多组学分析方法 |
CN110957007B (zh) * | 2019-11-26 | 2023-04-28 | 上海交通大学 | 一种基于组织外泌体磷酸化蛋白组的多组学分析方法 |
CN114429787A (zh) * | 2021-12-30 | 2022-05-03 | 北京百度网讯科技有限公司 | 组学数据处理方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7284849B2 (ja) | 不均一分子長を有するユニーク分子インデックスセットの生成およびエラー補正のための方法およびシステム | |
CN107077537A (zh) | 用短读测序数据检测重复扩增 | |
EP3619712B1 (en) | Deep learning-based framework for identifying sequence patterns that cause sequence-specific errors | |
CN110846411B (zh) | 一种基于二代测序的单独肿瘤样本区分基因突变类型的方法 | |
CN107301330A (zh) | 一种利用全基因组数据挖掘甲基化模式的方法 | |
Holzinger et al. | ATHENA: a tool for meta-dimensional analysis applied to genotypes and gene expression data to predict HDL cholesterol levels | |
CN108899086A (zh) | 一种基于机器学习通过血液样本诊断骨关节炎亚型的系统 | |
CN109300502A (zh) | 一种从多组学数据中分析关联变化模式的系统和方法 | |
Pendergrass et al. | Phenome-wide association studies: embracing complexity for discovery | |
KR20210110241A (ko) | 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템 및 방법 | |
CN112735594B (zh) | 一种筛选疾病表型相关突变位点的方法及其应用 | |
CN115938592B (zh) | 一种基于局部增强图卷积网络的癌症预后预测方法 | |
CN107075586B (zh) | 用于鉴定多种癌症类型和亚型的糖基转移酶基因表达谱 | |
CN114875118A (zh) | 确定细胞谱系的方法、试剂盒和装置 | |
CN111785319A (zh) | 基于差异表达数据的药物重定位方法 | |
Fan et al. | The EM algorithm and the rise of computational biology | |
Tang et al. | Group-shrinkage feature selection with a spatial network for mining DNA methylation data | |
Bar-Or et al. | Utilizing microarray spot characteristics to improve cross-species hybridization results | |
CN117672361A (zh) | 一种急性b淋巴细胞白血病的分子分型预测系统及其应用 | |
WO2017136606A1 (en) | Apparatus, systems, and methods for dna amplification with post-sequencing data filtering and cell isolation | |
Tsakirakis | Advances and perspectives of viral quasispecies analysis using long-read sequencing in clinical practice | |
del Sol Mesa | Assessment of network module identification across complex diseases | |
Das et al. | Therapeutic target identification and evaluation using machine learning | |
Jünemann | Quality is a Myth-Assessing and Addressing Errors in Sequencing Data | |
WO2024073278A1 (en) | Detecting and genotyping variable number tandem repeats |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190201 |
|
RJ01 | Rejection of invention patent application after publication |