CN107967410B - 一种面向基因表达与甲基化数据的融合方法 - Google Patents
一种面向基因表达与甲基化数据的融合方法 Download PDFInfo
- Publication number
- CN107967410B CN107967410B CN201711204711.0A CN201711204711A CN107967410B CN 107967410 B CN107967410 B CN 107967410B CN 201711204711 A CN201711204711 A CN 201711204711A CN 107967410 B CN107967410 B CN 107967410B
- Authority
- CN
- China
- Prior art keywords
- data
- dna methylation
- gene expression
- methylation
- gene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Genetics & Genomics (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种面向基因表达与甲基化数据的融合方法,先从癌症基因组图谱数据库中获取某癌症的基因表达数据和450K芯片测得的DNA甲基化数据,然后分别对基因表达数据和DNA甲基化数据进行预处理,得到各自的差异基因,然后对两种差异基因求交集,得到交叠基因,最后通过David在线工具对交叠基因的通路进行分析,在显著富集通路里找出与癌症、免疫相关的通路,用于DNA甲基化数据的扩展,从而获得更多数量的全基因组CpG位点。
Description
技术领域
本发明属于生物多组学数据的融合技术领域,更为具体地讲,涉及一种面向基因表达与甲基化数据的融合方法。
背景技术
基于单一组学数据的信息挖掘方法较难系统全面地理解疾病的产生和发展过程,融合多组学数据对癌症的发生、发展过程进行研究,可以避免单一组学数据的片面性,它不仅对疾病机理研究、确定致病靶点起到推动作用,也为疾病基础科学和精准医学研究提供了新的思路。
目前对于基因表达数据以及DNA甲基化数据的融合分析,主要基于450K甲基化芯片的数据。由于450K芯片数据仅覆盖了人类全基因组CpG位点的2%,融合的分析结果很可能不可靠。
因此,基于具有更大覆盖范围的DNA甲基化数据进行融合分析具有重要意义。
发明内容
本发明的目的在于克服现有技术的不足,提供一种面向基因表达与甲基化数据的融合方法,通过基因表达数据和DNA甲基化数据的融合,可以更全面地找到相关癌症基因,提供更可靠的诊断和治疗癌症的指导。
为实现上述发明目的,本发明一种面向基因表达与甲基化数据的融合方法,其特征在于,包括以下步骤:
(1)、数据的获取
从癌症基因组图谱数据库中获取多种癌症的基因表达数据和450K芯片测得的DNA甲基化数据;
(2)、DNA甲基化数据的处理
(2.1)、DNA甲基化数据的预处理:将DNA甲基化数据中存在缺失值的CpG位点删除;
(2.2)、DNA甲基化数据的扩展:利用logistic回归模型对步骤(2.1)处理后的DNA甲基化数据进行了扩展,得到DNA甲基化图谱数据;
(2.3)、单个CpG位点甲基化数据的t假设检验
(2.3.1)、计算t假设检验后的每一个CpG位点的极值概率gm
设DNA甲基化图谱数据中有n1个正常样本数据和n2个癌症样本数据,那么某一个CpG位点p*在n1个正常样本数据中的甲基化水平为W1,其均值为在n2个癌症样本数据中的甲基化水平为W2,其均值为对应的正态分布参数分别为和其中,μ1、μ2分别表示设定的正常样本数据的均值和设定的癌症样本数据的均值,分别表示设定的正常样本数据的方差和设定癌症样本数据的方差;
(2.3.2)、判断每一个CpG位点是否是差异甲基化位点
(2.4)、对所有的DNA甲基化位点进行联合费雪检验
给定显著性水平α1,同时确定差异甲基化位点在整个基因启动子区的分布情况;
(3)、基因表达数据的预处理
(3.1)、缺失值处理
在基因表达数据中,将存在缺失值的基因表达数据删除处理;
(3.2)、数据标准化
设步骤(3.1)处理后的基因表达数据为一n行p列的矩阵,表示为X=(xij)n×p,其中前p-1列为基因表达数据的数据值,第p列为基因表达数据的标签;
对矩阵X=(xij)n×p的前p-1列取对数处理,得到矩阵Yij=log2xij,i=1,2,…,n,j=1,2,…,p-1;
(3.3)、基因表达数据的特征选择
对矩阵Yij中每一列作t假设检验:以矩阵Yij的每一列为单位,对矩阵Yij中正常样本和癌症样本在每一列的平均数是否相等进行t假设检验,得到差异基因;
(4)、数据融合;
(4.1)、基因表达数据和DNA甲基化数据的融合
将步骤(2)得到的差异基因与通过步骤(3)得到的差异基因取交集,得到交叠基因;
(4.2)、基因通路分析
通过David在线工具对交叠基因的通路进行分析,在显著富集通路里找出与癌症、免疫相关的通路,用于DNA甲基化数据的扩展。
本发明的发明目的为:
本发明一种面向基因表达与甲基化数据的融合方法,先从癌症基因组图谱数据库中获取某癌症的基因表达数据和450K芯片测得的DNA甲基化数据,然后分别对基因表达数据和DNA甲基化数据进行预处理,得到各自的差异基因,然后对两种差异基因求交集,得到交叠基因,最后通过David在线工具对交叠基因的通路进行分析,在显著富集通路里找出与癌症、免疫相关的通路,用于DNA甲基化数据的扩展,从而获得更多数量的全基因组CpG位点。
同时,本发明一种面向基因表达与甲基化数据的融合方法还具有以下有益效果:
(1)、传统的融合方法仅是基于450K甲基化芯片原始数据,原始数据相对来说数量较少。本发明人是基于优化扩展后甲基化芯片数据,可得到更大覆盖范围的甲基化数据,对后续的数据融合提供了更为全面完整的信息。
(2)、本发明在最后的数据融合上和普通融合有很大区别,普通融合取基因片段的启动子区有一个差异甲基化位点的基因作为差异甲基化位点的基因作为最后的融合特征。本发明对基因启动子区所有甲基化位点组合起来做fisher检验,得到的基因作为差异表达的基因,对比其他方法,有更高准确度。
附图说明
图1是本发明一种面向基因表达与甲基化数据的融合方法流程图;
图2是进行差异甲基化基因判断的示意图。
表1是本模型取得的效果,以及与其他传统方法的比较结果;
表2是本模型与其他传统方法在富集通路数量上的比较结果;
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明一种面向基因表达与甲基化数据的融合方法流程图。
在本实施例中,如图1所示,本发明一种面向基因表达与甲基化数据的融合方法,包括以下步骤:
S1、数据的获取
从癌症基因组图谱数据库中获取多种癌症的基因表达数据和450K芯片测得的DNA甲基化数据;
在本实施例中,从癌症基因组公共数据库TCGA中获取食管癌ESCA(esophagysquamous cell carcinoma),来作为例子来说明,并取其对应的基因表达数据和450K芯片的DNA甲基化数据;其中,食管癌ESCA的基因表达数据拥有202个样本,26893个基因特征,450K芯片的DNA甲基化数据拥有196个样本,376873个位点特征;并将食管癌ESCA的基因表达数据和DNA甲基化数据作为组学数据。
S2、DNA甲基化数据的处理
S2.1、DNA甲基化数据的预处理:将DNA甲基化数据中存在缺失值的CpG位点删除;
S2.2、DNA甲基化数据的扩展:利用logistic回归模型对步骤S2.1处理后的DNA甲基化数据进行了扩展,得到DNA甲基化图谱数据;
S2.3、单个CpG位点甲基化数据的t假设检验
S2.3.1、计算t假设检验后的每一个CpG位点的极值概率gm
设DNA甲基化图谱数据中有n1个正常样本数据和n2个癌症样本数据,那么某一个CpG位点p*在n1个正常样本数据中的甲基化水平为W1,其均值为在n2个癌症样本数据中的甲基化水平为W2,其均值为对应的正态分布参数分别为和其中,μ1、μ2分别表示设定的正常样本数据的均值和癌症样本数据的均值,分别表示设定的正常样本数据的方差和癌症样本数据的方差;
S2.3.2、判断每一个CpG位点是否是差异甲基化位点
S2.4、对所有的DNA甲基化位点进行联合费雪(combined fisher)检验
给定显著性水平α1,同时确定差异甲基化位点在整个基因启动子区的分布情况;
在本实施例中,如图2所示,该图表示一个DNA上的基因片段,图中的虚线框区域对应该基因的启动子区,该基因上有多个DNA甲基化位点,不同的颜色表征了该位点在癌症与正常样本中是否差异甲基化,黑点代表差异甲基化位点,白点代表非差异甲基化位点;利用差异甲基化位点去比对现有基因,用combined fisher检验方法对现有基因中每个启动子区的甲基化位点做检验,得到7367个差异基因。
S3、基因表达数据的处理
S3.1、缺失值处理
在基因表达数据中,将存在缺失值的基因表达数据删除处理;
S3.2、数据标准化
设步骤(3.1)处理后的基因表达数据为一n行p列的矩阵,表示为X=(xij)n×p,在本实施例中,基因表达数据为202×26893的矩阵,其中,前p-1=26892列为基因表达数据的数据值,第p=26893列为基因表达数据的标签,下面我们仅对前26892列的数值部分进行处理;
对矩阵X=(xij)n×p的前p-1列取对数处理,得到矩阵Yij=log2xij,i=1,2,…,n,j=1,2,…,p-1;
S3.3、基因表达数据的特征选择
对矩阵Yij中每一列作t假设检验:以矩阵Yij的每一列为单位,对矩阵Yij中正常样本和癌症样本在每一列的平均数是否相等进行t假设检验,得到差异基因;
在本实施例中,食管癌ESCA的基因表达数据经过上述步骤处理后剩余202个样本,得到1893个差异基因,如表1所示。
差异表达基因 | 差异甲基化基因 | 交集 | |
扩展 | 1893 | 7367 | 581 |
不扩展 | 1893 | 6615 | 442 |
表1
S4、数据融合;
S4.1、基因表达数据和DNA甲基化数据的融合
将步骤S2得到的差异基因与通过步骤S3得到的差异基因进行融合,也就是对二者取交集,得到交叠基因;在本实施例中,如表1所示,共计得到581个重叠基因,可用于后续的研究。对比使用未经过拓展的数据,可以看出,未扩展数据可以检测出6615个差异基因,重叠基因数为442,使用本方案大大提高了差异基因数量。
S4.2、基因通路分析
通过David在线工具对交叠基因的通路进行分析,在显著富集通路里找出与癌症、免疫相关的通路,用于DNA甲基化数据的扩展。
在本实施例中,如表2所示,与癌症密切相关的通路数量由不拓展的6个增加至扩展后的7个,与免疫相关的通路数量由4个增加至6个,对于后续的研究有极大的帮助。
与癌症密切相关的通路数量 | 与免疫相关的通路数量 | |
扩展 | 7 | 6 |
不扩展 | 6 | 4 |
表2
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (1)
1.一种面向基因表达与甲基化数据的融合方法,其特征在于,包括以下步骤:
(1)、数据的获取
从癌症基因组图谱数据库中获取多种癌症的基因表达数据和450K芯片测得的DNA甲基化数据;
(2)、DNA甲基化数据的处理
(2.1)、DNA甲基化数据的预处理:将DNA甲基化数据中存在缺失值的CpG位点删除;
(2.2)、DNA甲基化数据的扩展:利用logistic回归模型对步骤(2.1)处理后的DNA甲基化数据进行了扩展,得到DNA甲基化图谱数据,得到DNA甲基化图谱数据;
(2.3)、单个CpG位点甲基化数据的t假设检验
(2.3.1)、计算t假设检验后的每一个CpG位点的极值概率gm
设DNA甲基化图谱数据中有n1个正常样本数据和n2个癌症样本数据,那么某一个CpG位点p*在n1个正常样本数据中的甲基化水平为W1,其均值为在n2个癌症样本数据中的甲基化水平为W2,其均值为对应的正态分布参数分别为和其中,μ1、μ2分别表示n1个正常样本数据的均值和n2个癌症样本数据的均值,分别表示n1个正常样本数据的方差和n2个癌症样本数据的方差;
(2.3.2)、判断每一个CpG位点是否是差异甲基化位点
(2.4)、对所有的DNA甲基化位点进行联合费雪检验
给定显著性水平α1,同时确定差异甲基化位点在整个基因启动子区的分布情况;
(3)、基因表达数据的预处理
(3.1)、缺失值处理
在基因表达数据中,将存在缺失值的基因表达数据删除处理;
(3.2)、数据标准化
设步骤(3.1)处理后的基因表达数据为一n行p列的矩阵,表示为X=(xij)n×p,xij表示矩阵X的元素;
对矩阵X=(xij)n×p取对数处理,得到矩阵Yij=log2xij,i=1,2,…,n,j=1,2,…,p-1;
(3.3)、基因表达数据的特征选择
对矩阵Yij中每一列作t假设检验:以矩阵Yij的每一列为单位,对矩阵Yij中正常样本和癌症样本在每一列的平均数是否相等进行t假设检验,得到差异基因;
(4)、数据融合;
(4.1)、基因表达数据和DNA甲基化数据的融合
将步骤(2)得到的差异基因与通过步骤(3)得到的差异基因取交集,得到交叠基因;
(4.2)、基因通路分析
通过David在线工具对交叠基因的通路进行分析,在显著富集通路里找出与癌症、免疫相关的通路,用于DNA甲基化数据的扩展。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711204711.0A CN107967410B (zh) | 2017-11-27 | 2017-11-27 | 一种面向基因表达与甲基化数据的融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711204711.0A CN107967410B (zh) | 2017-11-27 | 2017-11-27 | 一种面向基因表达与甲基化数据的融合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107967410A CN107967410A (zh) | 2018-04-27 |
CN107967410B true CN107967410B (zh) | 2021-07-30 |
Family
ID=61998954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711204711.0A Expired - Fee Related CN107967410B (zh) | 2017-11-27 | 2017-11-27 | 一种面向基因表达与甲基化数据的融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107967410B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670543A (zh) * | 2018-12-12 | 2019-04-23 | 中国人民解放军军事科学院军事医学研究院 | 一种数据融合方法及装置 |
CN110428866A (zh) * | 2019-07-23 | 2019-11-08 | 哈尔滨工业大学 | 基于网络融合多组学数据的癌症相关通路识别方法 |
CN112885409B (zh) * | 2021-01-18 | 2023-03-24 | 吉林大学 | 一种基于特征选择的结直肠癌蛋白标志物选择系统 |
CN113889184B (zh) * | 2021-09-27 | 2023-08-11 | 中国矿业大学 | 一种融合基因组特征的m6A甲基化局部功能谱分解方法 |
CN116259360B (zh) * | 2023-03-16 | 2024-02-09 | 中国人民解放军空军军医大学 | 肺腺癌中高增殖肿瘤亚群的鉴别及特征基因集与应用 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011110751A1 (en) * | 2010-03-12 | 2011-09-15 | Medisapiens Oy | A method, an arrangement and a computer program product for analysing a biological or medical sample |
CN103080335A (zh) * | 2010-05-12 | 2013-05-01 | 阿伯里斯特维斯大学 | 选择甲基化标记的方法 |
CN103329138A (zh) * | 2011-01-19 | 2013-09-25 | 皇家飞利浦电子股份有限公司 | 用于处理基因组数据的方法 |
CN106682455A (zh) * | 2016-11-24 | 2017-05-17 | 西安电子科技大学 | 一种多样本拷贝数一致性变异区域的统计检验方法 |
CN107025387A (zh) * | 2017-03-29 | 2017-08-08 | 电子科技大学 | 一种用于癌症生物标志物识别的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140066317A1 (en) * | 2012-09-04 | 2014-03-06 | Guardant Health, Inc. | Systems and methods to detect rare mutations and copy number variation |
-
2017
- 2017-11-27 CN CN201711204711.0A patent/CN107967410B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011110751A1 (en) * | 2010-03-12 | 2011-09-15 | Medisapiens Oy | A method, an arrangement and a computer program product for analysing a biological or medical sample |
CN103080335A (zh) * | 2010-05-12 | 2013-05-01 | 阿伯里斯特维斯大学 | 选择甲基化标记的方法 |
CN103329138A (zh) * | 2011-01-19 | 2013-09-25 | 皇家飞利浦电子股份有限公司 | 用于处理基因组数据的方法 |
CN106682455A (zh) * | 2016-11-24 | 2017-05-17 | 西安电子科技大学 | 一种多样本拷贝数一致性变异区域的统计检验方法 |
CN107025387A (zh) * | 2017-03-29 | 2017-08-08 | 电子科技大学 | 一种用于癌症生物标志物识别的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107967410A (zh) | 2018-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107967410B (zh) | 一种面向基因表达与甲基化数据的融合方法 | |
JP2022521492A (ja) | 相同組換え欠損を推定するための統合された機械学習フレームワーク | |
CN111128299B (zh) | 一种结直肠癌预后显著相关ceRNA调控网络的构建方法 | |
CN106021984A (zh) | 一种全外显子组测序数据分析系统 | |
CN110010193A (zh) | 一种基于混合策略的复杂结构变异检测方法 | |
CN108256289B (zh) | 一种基于目标区域捕获测序基因组拷贝数变异的方法 | |
US20190073445A1 (en) | Identifying false positive variants using a significance model | |
CN113674803A (zh) | 一种拷贝数变异的检测方法及其应用 | |
CN113574602A (zh) | 从循环无细胞核酸中灵敏地检测拷贝数变异(cnv) | |
CN111653314B (zh) | 一种分析识别淋巴管浸润的方法 | |
CN107025387B (zh) | 一种用于癌症生物标志物识别的方法 | |
CN114038502A (zh) | 一种基于基因交互网络聚类和群稀疏学习的表达数量性状与cnv关联的方法 | |
CN108920889B (zh) | 化学品健康危害筛查方法 | |
KR20210110241A (ko) | 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템 및 방법 | |
Sun et al. | Multi-view biclustering for genotype-phenotype association studies of complex diseases | |
CN116564409A (zh) | 基于机器学习的转移性乳腺癌转录组测序数据识别方法 | |
JP5403563B2 (ja) | 網羅的フラグメント解析における遺伝子同定方法および発現解析方法 | |
CN109887543B (zh) | 一种低甲基化水平的差异甲基化位点识别方法 | |
CN113981081A (zh) | 一种基于rna编辑水平的乳腺癌分子标志物及诊断模型 | |
Subramanian et al. | Novel multisample scheme for inferring phylogenetic markers from whole genome tumor profiles | |
CN116168761B (zh) | 核酸序列特征区域确定方法、装置、电子设备及存储介质 | |
CN105624276A (zh) | 子宫内膜样腺癌预后相关基因和蛋白及其应用 | |
CN113195741A (zh) | 从循环核酸中鉴定全基因组序列数据中的全局序列特征 | |
Lauria | Rank-based miRNA signatures for early cancer detection | |
CN112466400B (zh) | 一种铁皮石斛产地的鉴别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210730 Termination date: 20211127 |
|
CF01 | Termination of patent right due to non-payment of annual fee |