CN107066835A - 一种利用公共数据资源发现并整合直肠癌相关基因及其功能分析的方法及系统和应用 - Google Patents

一种利用公共数据资源发现并整合直肠癌相关基因及其功能分析的方法及系统和应用 Download PDF

Info

Publication number
CN107066835A
CN107066835A CN201710037973.6A CN201710037973A CN107066835A CN 107066835 A CN107066835 A CN 107066835A CN 201710037973 A CN201710037973 A CN 201710037973A CN 107066835 A CN107066835 A CN 107066835A
Authority
CN
China
Prior art keywords
gene
analysis
data
disease
cancer associated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710037973.6A
Other languages
English (en)
Other versions
CN107066835B (zh
Inventor
陈瑞
高娜
李晓波
孟庆涛
吴申申
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201710037973.6A priority Critical patent/CN107066835B/zh
Publication of CN107066835A publication Critical patent/CN107066835A/zh
Application granted granted Critical
Publication of CN107066835B publication Critical patent/CN107066835B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种利用公共数据资源发现并整合直肠癌相关基因及其功能分析的方法及系统和应用。基于公共数据资源,合理运用开放性的大数据资源和多样的生物信息学分析手段,对mRNA表达数据进行分析处理,识别与复杂疾病相关的重要基因及其功能。包括:样本数据下载和整理;对基因表达数据的分析;筛选差异表达基因;对基因进行功能分析和蛋白互作分析。本发明能解决不擅长整合现有网络资源、不熟悉mRNA相关的最常用数据库及前沿分析方法以及不能独立完成mRNA表达谱相关的生物信息学分析等问题。能发现与直肠癌等复杂疾病相关的多个风险通路和基因,对复杂疾病的生物靶向治疗、生物药物研制、致病机理阐述及风险预测都有重要意义。

Description

一种利用公共数据资源发现并整合直肠癌相关基因及其功能 分析的方法及系统和应用
技术领域
本发明涉及医学基因组学和计算生物学领域,具体涉及一种利用公共数据资源发现并整合直肠癌相关基因及其功能分析的方法。
背景技术
基因是遗传的基本单位。它决定了生物的性状以及生物的生长与发育,基因与疾病以及生理特征之间有着极密切的关系。“人类基因组计划”的目标就是要阐明人类基因的全部序列,从整体上破译人类遗传信息,从而使人类可以第一次从分子水平上全面认识自身。“人类基因组”的研究,已从“结构基因组”阶段进入“功能基因组”阶段,主要通过海量生物学数据分析,进一步阐明基因组的生物学功能。因此,生物信息学是一门集生命科学、计算机科学、数学、物理学为一身的多学科交叉的前沿学科。公共数据库是开展生物信息学研究的重要工具。目前,国际上公共数据库发展极快,利用高通量测序、计算方法预测、文献挖掘等技术产生了海量的数据资源,平均每15个月就会增长一倍,并且这些数据库大部分是开放的,是免费提供各国科学家使用的。如何充分利用这些免费资源、高效整合数据、深入挖掘分析已成为生物信息学的一个重要课题。
随着高通量检测技术的发展,我们可以从全基因组水平定量或定性检测基因转录产物mRNA。由于生物体中的细胞种类繁多,同时基因表达具有时空特异性,因此,基因表达数据与基因组数据相比,要更为复杂,数据量更大,数据的增长速度更快。基因表达数据中蕴含着基因活动的信息,可以反映细胞当前的生理状态,例如细胞是处于正常还是恶化状态、药物对肿瘤细胞是否有效等。据统计,全球每年新增癌症患者达700万人,死于癌症的病人达500万人,60%的患者确诊后只能存活5年。目前已知的癌症有200多种,但是,无论什么癌症,在肿瘤的特殊类别(分型)或发展的不同分期方面都发现有基因组的特异变化,而正是基因组的改变(突变)导致了细胞分化、发育和生长通路的不正常,从而引发细胞不正常地失控增殖、生长。人类的基因个数超过3万,每种疾病相关的基因各不相同,有些疾病相关基因已经被发现,但是大多数的相关基因有待进一步研究。对基因表达数据的分析可以获取基因功能和基因表达调控信息,基因表达水平的差异可以识别癌症相关基因,基因的功能分析包括研究基因的共同功能、相互作用以及协同调控,可直观的看到基因功能间的所属关系和作用模式,能够发现预测基因与现有的癌症基因间的关联性、与重要基因之间存在的风险通路,这些关联性和通路联系可能是导致疾病发生的根源,从而可以阐释复杂疾病的致病机理。因此,将差异表达基因分组进行功能分析,并尝试推断潜在的基因调控网络是目前生物信息学领域研究癌症mRNA表达数据最前沿的分析方法之一,是生物信息学的重大挑战,也是高通量技术能够在生物医学领域中广泛应用的一个关键原因。
直肠癌是消化道最常见的恶性肿瘤之一,因其位置深入盆腔,解剖关系复杂,手术不易彻底,术后复发率高。我国直肠癌发病年龄中位数在45岁左右,青年人发病率有升高的趋势。直肠癌的病因目前仍不十分清楚,与多种因素有关。利用现有技术分析直肠癌mRNA大数据,预测与疾病相关基因,研究其潜在功能和致病机理是该领域目前最重要的问题。但是,在我国从事癌症相关研究的科研人员大多不具备生物信息学背景,单纯的实验和临床技术手段无法解析日益增长的高通量数据,也不能从宏观水平综合分析基因的表达变化和相互作用。其次,因为科研成本等问题,很多研究人员缺乏资金支持,不能负担实验所需费用,也不能承受高通量技术服务费特别是大样本量的高通量检测费用,而生物信息学研究所需的投资有限却可以做出高水平的工作,而且很多数据库的信息是基于文献验证的,能直接给相同领域的研究提供实验支持,这是面临同样困境的工作者能够继续研究工作的最佳解决方案。海量的数据资源虽然大多公开免费,质量却层次不齐,给科研人员带来极大不便,而且绝大多数的数据库在线服务全面具体,可是提供下载供本地化分析的数据都是原始数据,不能直接使用,需要进行再次或多次处理才可以。甚至不同数据库使用的基因组注释信息来源不同、标准不同,很多数据库还会专门使用自己数据库的特殊命名,也给工作者整合多个数据库信息的工作带来很大难度。因此,怎样进行有效的数据收集、预处理和分析是科研人员特别是无生物信息学背景的实验、临床人员面临的最大难点。
发明内容
本发明的目的是提供一种利用公共数据资源发现并整合直肠癌相关基因及其功能分析的方法,以解决不擅长整合现有网络资源以及不能独立完成基因相关的生物信息学分析的问题。
为实现上述目的,本发明采用以下技术方案:
一种利用公共数据资源发现并整合直肠癌相关基因及其功能分析的方法,包括如下步骤:
步骤1,样本数据下载和整理:获取基因表达数据,选定目标疾病直肠癌和测序平台,下载数据,下载的数据包含疾病样本和对应的正常样本;
步骤2,对步骤1得到的基因表达数据去极值并分析;
步骤3,对经过步骤2处理后的基因表达数据进行筛选差异表达分析基因;
步骤4,对步骤3得到的基因进行功能分析并找出与疾病相关的条目;
步骤5,互作基因分析,构建网络示意图。
优选的,所述步骤1具体包括如下步骤:
步骤1.1,进入R语言工作界面,载入TCGAbiolinks包;
步骤1.2,设定目标疾病、测序平台和mRNA文件类型;
步骤1.3,批量下载所需的标准化数据,得到单个样本数据;
步骤1.4,将上述步骤得到的单个样本数据进行合并。
优选的,所述步骤1.1中,TCGAbiolinks包是一个最新的数据库表达数据下载分析语言包。
优选的,所述步骤2中,所述基因表达数据去极值并分析的步骤中的极值数据为:作为RNA表达值的标准化测序片段数目为零的数据。
优选的,所述步骤3中,筛选差异表达分析基因选取1.5倍或者2倍的差异倍数,选用三个标准Benjamini–Hochberg方法、FDR方法或者Bonforroni方法校正P-value得到差异表达的mRNA。
优选的,所述步骤4中,基因进行功能分析基于DAVID数据库信息,包括基因本体分析,代谢通路分析,疾病相关分析和调控网络的构建;
所述基因本体分析的步骤采用DAVID数据库信息从生物过程、分子功能和细胞组分三个成分进行注释和富集分析;
所述代谢通路分析的步骤采用DAVID数据库信息包含的KEGG、Reactome数据库信息进行分析;
所述疾病相关分析的步骤采用DAVID数据库信息包含的GAD_DISEASE、GAD_DISEASE_CLASS和OMIM_DISEASE数据库信息进行分析。
优选的,所述步骤5中,所述互作基因分析的步骤整合基于文献验证或是算法预测的网络蛋白互作数据库STRING、DIP、HPRD、IntAct和MINT,构建数据量最大最全的预测及验证信息相结合的蛋白互作数据集,得到能够相互作用的基因对,其分析结果能够图形化展示。
本发明的另一个目的是提供一种利用公共数据资源发现并整合直肠癌相关基因及其功能分析的系统,技术方案如下:
一种利用公共数据资源发现并整合直肠癌相关基因及其功能分析的系统,该系统包括:
样本数据下载和整理模块,用于获取基因表达数据,包含疾病样本和对应的正常样本;
基因表达数据去极值并分析模块,用于对基因表达数据进行表达分析,统计差异显著性,此过程需排除零值等极值影响;
筛选差异基因模块,用于将差异表达的mRNA按照差异倍数绝对值和校正的P-value作为筛选条件,挑选出待研究mRNA;
功能分析模块,用于根据选中的mRNA,采用DAVID数据库信息进行基因本体分析,代谢通路分析和疾病相关分析;
互作基因注释模块,用于整合基于文献验证或是算法预测的网络现有的蛋白互作数据库找出预测或验证的互作基因并图形化展示。
本发明的再一个目的是提供上述利用公共数据资源发现并整合直肠癌相关基因及其功能分析的系统的应用。
所述的应用包括:
应用所述利用公共数据资源发现并整合直肠癌相关基因及其功能分析的系统的生物靶向治疗系统。
应用所述利用公共数据资源发现并整合直肠癌相关基因及其功能分析的系统的生物药物研制工艺。
应用所述利用公共数据资源发现并整合直肠癌相关基因及其功能分析的系统的致病机理系统。
应用所述利用公共数据资源发现并整合直肠癌相关基因及其功能分析的系统的致病风险预测系统。
有益效果:本发明提供的利用公共数据资源发现并整合直肠癌相关基因及其功能分析的方法,基于公共数据资源例如癌症基因组图谱TCGA(The Cancer Genome Atlas)下的直肠癌mRNA测序数据,运用生物信息学方法,对mRNA表达数据进行分析处理,识别与直肠癌相关的mRNA。本发明发现与直肠癌等癌症复杂疾病相关的多个重要通路和风险基因,对复杂疾病的生物靶向治疗、生物药物研制、致病机理阐释及风险预测等都有重要意义。本发明能解决不擅长整合现有网络资源、不熟悉mRNA相关的最常用数据库及前沿分析方法以及不能独立完成mRNA表达谱相关的生物信息学分析等问题。本发明采用丰富多样的生物信息学手段,整合多个权威性强普及率高的公共网络资源构建数据量最大最全的结合预测及验证信息的蛋白互作数据集,形成了一套完整的前沿的基因功能分析和互作分析流程,可有效利用公共数据库的海量高通量数据和实验验证数据,降低科研成本,提高分析效率。合理灵活使用不同类型的公共资源,既可以免费获得所需大数据进行分析为实验、临床人员提供研究思路和前期科研基础,也可为实验结果提供最新最全的证据支持。作为开放性的数据分析方法,不仅适用于各种癌症mRNA表达数据,也适用于其他公共平台的测序数据,还可以整合不同类型的公共数据库资源进行最详尽专业的功能分析和蛋白互作分析,发现疾病相关重要通路和风险基因,预测功能基因作用模式。本发明能发现与直肠癌等复杂疾病相关的多个风险通路和基因,对复杂疾病的生物靶向治疗、生物药物研制、致病机理阐述及风险预测都有重要意义。其分析流程思路清晰,实现方法简单,可广泛应用于生物学研究工作中,也可用于临床相关应用。
附图说明
图1是本发明提供的利用公共数据资源发现并整合直肠癌相关基因及其功能分析的方法的分析流程图;
图2是代谢通路示意图,显示直肠癌的差异表达基因主要富集的代谢通路;
图3是重要疾病相关示意图,显示已被验证的与直肠癌差异表达基因相关的重要疾病;
图4是直肠癌相关基因互作网络示意图,基因间有连线的,表明被连接的两个基因有互作关系,未连接的证明彼此间没有相互作用关系。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1所示,本发明的一种利用公共数据资源发现并整合直肠癌相关基因及其功能分析的方法,包括如下步骤:
步骤1,样本数据下载和整理:获取mRNA表达数据,选定目标疾病和测序平台,数据包含疾病样本和对应的正常样本;
步骤2,整合基因表达数据并分析;
步骤3,筛选差异表达分析基因;
步骤4,对基因进行功能分析并找出与疾病相关的条目。
步骤5,互作分析,构建网络示意图。
其中,步骤1具体包括如下步骤:
步骤1.1,进入R语言工作界面,载入TCGAbiolinks包;
步骤1.2,设定目标疾病、测序平台和mRNA文件类型;
步骤1.3,批量下载所需的标准化数据;
步骤1.4,将上述步骤得到多个表达数据文件进行合并。
如图1所示,步骤3中,差异表达mRNA的筛选包括选取1.5倍或者2倍的差异倍数(Fold change),选用国际最通用的三个标准Benjamini–Hochberg方法、FDR方法或者Bonforroni方法校正P-value得到差异表达的miRNA。
如图1所示,步骤4中,mRNA的功能性分析包括基因本体分析,代谢通路分析和疾病相关分析。
如图1所示,步骤5中,互作分析是整合网络蛋白互作数据库STRING等数据信息进行注释并图形化展示。
在本发明的一个实施方案中,在R平台,使用TCGAbiolinks软件包下载所需研究数据。
在本发明的一个实施方案中,在R平台,对mRNA的结果进行错误发现率矫正。可以采用Benjamini–Hochberg,FDR和Bonferroni方法。
Benjamini–Hochberg方法
上式中,α是给定的显著性阀值;K代表样本容量;M代表从小到大的排列顺序。
FDR方法
上式中,M0代表零假设是真的时候的样本总数;M代表样本容量;Q为显著性阀值。
Bonferroni方法
P=α/k
上式中,α是给定的显著性阀值;K是样本容量。
在本发明的一个实施方案中,对筛选的差异表达基因采用DAVID数据库信息从生物过程、分子功能和细胞组分三个成分进行基因本体注释和富集分析,差异显著可以用Benjamini–Hochberg,Bonferroni和FDR方法。
DAVID数据库
基因的功能注释在表达数据分析中是必需且关键的步骤。生物学知识的分布式性质经常需要研究者浏览很多可通过网络访问的数据库而收集的信息,一次一个基因。一个更明智更便利的方法是提供基于查询的对一个整合数据库的访问,该数据库散布跨大量数据集的生物学上富集的信息,并显示功能信息的图形化摘要。DAVID就是这样一个集注释、可视化和整合发现于一身的数据库,通过4个基于网络的分析模块:1)注释工具——从多个公共数据库中,对数个列表中的基因快速添加描述性数据;2)GoCharts——基于用户选择的分类和术语特异性水平,将基因分配到基因本体论功能分类中;3)KeggCharts——将基因分配到KEGG代谢过程中,并使用户在生物化学通路图环境中查看基因成为可能;及4)DomainCharts——根据PFAM保守型蛋白质域将基因进行分组。分析结果和图形化展示仍然动态的链接到原始数据和额外数据库,因此提供深入及广泛的数据覆盖。由DAVID提供的功能通过促进从数据收集到生物学意义的转换,加速了基因组范围的数据集的分析。
在本发明的一个实施方案中,对筛选的差异表达基因采用DAVID数据库信息整合的KEGG和Reactome数据库信息进行代谢通路分析,差异显著可以用Benjamini–Hochberg、Bonferroni和FDR方法。
KEGG数据库
KEGG由日本京都大学生物信息学中心的Kanehisa实验室于1995年建立。是国际最常用的生物信息数据库之一,以“理解生物系统的高级功能和实用程序资源库”著称,也是代谢分析领域应用最广最权威的数据库。大致分为系统信息、基因组信息和化学信息三大类。进一步可细分为16个主要的数据库。例如,基因组信息存储在GENES数据库里,包括完整和部分测序的基因组序列;更高级的功能信息存储在PATHWAY数据库里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息;KEGG的另一个数据库LIGAND,包含关于化学物质、酶分子、酶反应等信息。
Reactome数据库
反应组学(Reactome)是一个汇集了由专家撰写,经同行评阅的有关人体内各项反应及生物学路径的文献的数据库,该数据库相当于一个有效的数据资源以及电子图书。该库目前发布了共计2975个人类蛋白、2907项生物学反应以及4455个引用文献。该数据库为人们提供了一个全新的从整体水平上对生物学途径进行研究的工具,同时,它也是一个改良的搜索及数据挖掘工具,可以简化与生物学途径相关的数据搜索与研究。此外,对用户提供的高通量数据组进行分析,也变得更为简单。
在本发明的一个实施方案中,对筛选的差异表达基因采用DAVID数据库信息包含的GAD_DISEASE、GAD_DISEASE_CLASS和OMIM_DISEASE信息进行疾病相关分析,差异显著可以用Benjamini–Hochberg、Bonferroni和FDR方法。
GAD数据库
疾病关联数据库(GAD)收集了多种复杂疾病与相关基因关系的数据库。研究人员可以从数据库免费获取基因突变信息和基因与复杂疾病关系信息,为临床大规模SNP筛查,突变研究疾病相关等提供便利。
在本发明的一个实施方案中,对筛选的差异表达基因特别是参与重要通路或与疾病相关的基因进行互作分析,整合了基于文献验证或是算法预测的网络蛋白互作数据库STRING、DIP、HPRD、IntAct和MINT,构建数据量最大最全的预测及验证信息相结合的蛋白互作数据集,得到可以相互作用的基因对,其分析结果可图形化展示。
STRING数据库
STRING是用来浏览和分析基因间的基因组相关性的一个预计算的全局资源,预测的相互作用的数目是非常大的,能够评估并比较个别预测的显著性。因此,STRING包含了一种独特的基于对一个常用参考数据集的不同类型相关性基准的打分框架,整合为每个预测的一个单个置信分数。推断的、加权的蛋白质相互作用网络的图形化展示提供了功能链接的一个高水平查看,促进了生物过程中的模块化分析。STRING是持续更新的,当前包括了89种完全测序的基因组中的261033个直系同源。
DIP蛋白相互作用数据库
DIP(Database of Interacting Protein)研究生物反应机制的重要工具。DIP可以用基因的名字等关键词查询,使用上较方便。查询的结果列出节点(node)与连结(link)两项,节点是叙述所查询的蛋白质的特性,包括蛋白质的功能域(domain)、指纹(fingerprint)等,若有酶的代码或出现在细胞中的位置,也会一并批注。连结所指的是可能产生的相互作用,DIP对每一个相互作用都会说明证据(实验的方法)与提供文献,此外,也记录除巨量分析外,支持此相互作用的实验数量。DIP还可以用序列相似性(Blast)、模式(pattern)等查询。
HPRD数据库
HPRD(human protein reference database)是包含蛋白质注释、蛋白蛋白互作(PPI)、转录后修饰、亚细胞定位等多种信息的综合数据库。该数据库只收录人的PPIs,目前已包含25000多个蛋白质和37000多条相互作用信息,是来源于文献挖掘的最大的人PPI数据库。HPRD对PPI数据有2种分类方式。一是根据相互作用的拓扑结构和与数目,将PPI分成二元相互作用和复杂相互作用(复合物);二是根据实验类型,将PPI分为体内(in vivo),体外(in vitro)和酵母双杂交(Y2H)3类相互作用。
IntAct数据库
IntAct(molecular interaction database)也是一个存储和分析生物分子间相互作用的公共数据库。主要记录二元相互作用及其实验方法、实验条件和相互作用结构域,包括人、酵母、果蝇、大肠杆菌等物种。IntAct数据库分基本查询和高级查询,基本查询可以根据蛋白质名称、PubMedID等进行简单搜索;高级查询根据实验方法和IntAct自定义的控制词汇(controlled vocabularies)进行查询,查询结果更加精确。IntAct支持PSI-MI XML1.0和2.5格式,提供PPI网络的可视化在线分析,同时支持Cytoscape、Proviz等第3方网络构建软件。
MINT数据库
MINT(molecular interaction database)数据库建立的目标是提取文献信息,存储经实验证实的生物分子相互作用。目前,MINT主要存储蛋白质物理相互作用,尤其强调哺乳动物的PPIs,同时包含部分酵母、果蝇、病毒的PPIs。在查询时,MINT可根据蛋白质名称、各数据库ID(如UniProtKB、PDB、Ensembl、FlyBase、OMIM)、关键词等进行基本查询,也可与DIP数据库一样,按照序列BLAST查找同源相互作用。MINT支持平面文件格式、PSI2MI格式、Osprey格式,提供基于Java语言的网络可视化应用工具“MINTViewer”。
在本发明的一个实施方案中,在得到基因的基因本体、代谢、疾病相关和互作基因对后,生成含有这些信息的网络文件。可以用Cytoscape软件打开,图形化展示。
一种利用公共数据资源发现并整合直肠癌相关基因及其功能分析的系统,该系统包括:
样本数据下载和整理模块,用于获取基因表达数据,包含疾病样本和对应的正常样本;
基因表达数据去极值并分析模块,用于对基因表达数据进行表达分析,统计差异显著性,此过程需排除零值等极值影响;
筛选差异基因模块,用于将差异表达的mRNA按照差异倍数绝对值和校正的P-value作为筛选条件,挑选出待研究mRNA;
功能分析模块,用于根据选中的mRNA,采用DAVID数据库信息进行基因本体分析,代谢通路分析和疾病相关分析;
互作基因注释模块,用于整合基于文献验证或是算法预测的网络现有的蛋白互作数据库找出预测或验证的互作基因并图形化展示。
上述的利用公共数据资源发现并整合直肠癌相关基因及其功能分析的系统能够用于生物靶向治疗系统、生物药物研制工艺、致病机理系统、致病风险预测系统。
以下结合具体实施例对上述方案做进一步说明。应理解,这些实施例是用于说明本发明而不是限制本发明的范围。实施例中采用的实施条件可以根据具体应用要求的条件做进一步调整,未注明的实施条件通常为常规实验中的条件。
实施例
首先对原始数据进行过滤处理,然后去除低质量的数据,得到有效的mRNA标准化的表达值。基于mRNA表达数据差异分析结果,进行功能性分析和基因互作分析。在上述分析的基础上,可进行一系列的统计学和可视化分析。
1.mRNA表达值文件如表1所示
分析平台:R平台
分析软件:TCGAbiolinks
表1
列名解释:
2.mRNA表达分析结果如表2所示
分析平台:R平台
分析软件:TCGAbiolinks
表2
列名解释:
3.差异表达的mRNA结果如表3所示
分析平台:R平台
分析软件:TCGAbiolinks
表3
列名解释:
4.功能性分析
利用DAVID数据库的信息对靶基因从生物过程、分子功能和细胞组成进行基因本体分析,代谢通路分析和疾病相关分析。能够发现预测基因与癌症基因间的关联性、与重要基因之间存在的风险通路。这些关联分析和通路联系可能是导致疾病发生的根源。
分析软件:DAVID
结果所示:
表4生物通路富集分析
列名解释
表5分子功能富集分析
列名解释:
表6细胞组分富集分析
列名解释:
表7代谢通路富集分析
列名解释:
表8疾病相关分析
列名解释:
5.基因互作分析及互作网络构建
蛋白质间的功能链接通常能够从编码它们的基因间的基因组相关性中推断,通过整合公共网络含验证和预测蛋白蛋白互作的数据库信息,对差异表达的基因特别是参与重要通路和疾病相关的基因进行互作分析。使用的数据库通常有STRING、DIP、HPRD、IntAct和MINT等。
分析平台:R平台
图形化软件:Cytoscape
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实例的限制,上述实例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同物界定。

Claims (8)

1.一种利用公共数据资源发现并整合直肠癌相关基因及其功能分析的方法,其特征在于:包括如下步骤:
步骤1,样本数据下载和整理:获取基因表达数据,选定目标疾病直肠癌和测序平台,下载数据,下载的数据包含疾病样本和对应的正常样本;
步骤2,对步骤1得到的基因表达数据去极值并分析;
步骤3,对经过步骤2处理后的基因表达数据进行筛选差异表达分析基因;
步骤4,对步骤3得到的基因进行功能分析并找出与疾病相关的条目;
步骤5,互作基因分析,构建网络示意图。
2.根据权利要求1所述的利用公共数据资源发现并整合直肠癌相关基因及其功能分析的方法,其特征在于:所述步骤1具体包括如下步骤:
步骤1.1,进入R语言工作界面,载入TCGAbiolinks包;
步骤1.2,设定目标疾病、测序平台和mRNA文件类型;
步骤1.3,批量下载所需的标准化数据,得到单个样本数据;
步骤1.4,将上述步骤得到的单个样本数据进行合并。
3.根据权利要求1所述的利用公共数据资源发现并整合直肠癌相关基因及其功能分析的方法,其特征在于:所述步骤2中,所述基因表达数据去极值并分析的步骤中的极值数据为:作为RNA表达值的标准化测序片段数目为零的数据。
4.根据权利要求1所述的利用公共数据资源发现并整合直肠癌相关基因及其功能分析的方法,其特征在于:所述步骤3中,筛选差异表达分析基因选取1.5倍或者2倍的差异倍数,选用三个标准Benjamini–Hochberg方法、FDR方法或者Bonforroni方法校正P-value得到差异表达的mRNA。
5.根据权利要求1所述的利用公共数据资源发现并整合直肠癌相关基因及其功能分析的方法,其特征在于:所述步骤4中,基因进行功能分析基于DAVID数据库信息,包括基因本体分析,代谢通路分析,疾病相关分析和调控网络的构建;
所述基因本体分析的步骤采用DAVID数据库信息从生物过程、分子功能和细胞组分三个成分进行注释和富集分析;
所述代谢通路分析的步骤采用DAVID数据库信息包含的KEGG、Reactome数据库信息进行分析;
所述疾病相关分析的步骤采用DAVID数据库信息包含的GAD_DISEASE、GAD_DISEASE_CLASS和OMIM_DISEASE数据库信息进行分析。
6.根据权利要求1所述的利用公共数据资源发现并整合直肠癌相关基因及其功能分析的方法,其特征在于:所述步骤5中,所述互作基因分析的步骤整合基于文献验证或是算法预测的网络蛋白互作数据库STRING、DIP、HPRD、IntAct和MINT,构建数据量最大最全的预测及验证信息相结合的蛋白互作数据集,得到能够相互作用的基因对,其分析结果能够图形化展示。
7.一种利用公共数据资源发现并整合直肠癌相关基因及其功能分析的系统,其特征在于:该系统包括:
样本数据下载和整理模块,用于获取基因表达数据,包含疾病样本和对应的正常样本;
基因表达数据去极值并分析模块,用于对基因表达数据进行表达分析,统计差异显著性,此过程需排除零值等极值影响;
筛选差异基因模块,用于将差异表达的mRNA按照差异倍数绝对值和校正的P-value作为筛选条件,挑选出待研究mRNA;
功能分析模块,用于根据选中的mRNA,采用DAVID数据库信息进行基因本体分析,代谢通路分析和疾病相关分析;
互作基因注释模块,用于整合基于文献验证或是算法预测的网络现有的蛋白互作数据库找出预测或验证的互作基因并图形化展示。
8.权利要求7所述的利用公共数据资源发现并整合直肠癌相关基因及其功能分析的系统的应用,其特征在于:该系统能够用于生物靶向治疗系统、生物药物研制工艺、致病机理系统、致病风险预测系统。
CN201710037973.6A 2017-01-19 2017-01-19 一种发现并整合直肠癌相关基因及其功能分析的系统 Active CN107066835B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710037973.6A CN107066835B (zh) 2017-01-19 2017-01-19 一种发现并整合直肠癌相关基因及其功能分析的系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710037973.6A CN107066835B (zh) 2017-01-19 2017-01-19 一种发现并整合直肠癌相关基因及其功能分析的系统

Publications (2)

Publication Number Publication Date
CN107066835A true CN107066835A (zh) 2017-08-18
CN107066835B CN107066835B (zh) 2020-03-17

Family

ID=59598663

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710037973.6A Active CN107066835B (zh) 2017-01-19 2017-01-19 一种发现并整合直肠癌相关基因及其功能分析的系统

Country Status (1)

Country Link
CN (1) CN107066835B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885973A (zh) * 2017-11-20 2018-04-06 沈阳柏敖生信生物科技有限公司 一种dna修复基因在大肠癌中的临床研究方法
CN108121896A (zh) * 2017-12-19 2018-06-05 深圳先进技术研究院 一种基于miRNA的疾病间关系分析方法和装置
CN109584968A (zh) * 2018-11-27 2019-04-05 大连海事大学 一种用于筛选参与生物学过程调控新基因的方法
CN109841280A (zh) * 2017-11-29 2019-06-04 郑州大学第一附属医院 食管癌相关特征通路的识别及早期诊断模型的构建方法
CN110021360A (zh) * 2017-09-30 2019-07-16 山西医科大学 基于组学数据挖掘的疾病—药物关联平台
CN110019155A (zh) * 2017-09-30 2019-07-16 山西医科大学 microRNA组学数据扰动平台
CN110176271A (zh) * 2019-03-06 2019-08-27 山西医科大学 多组学数据扰动云
CN110211634A (zh) * 2018-02-05 2019-09-06 深圳华大基因科技服务有限公司 一种多组学数据联合分析的方法
CN112599201A (zh) * 2020-12-15 2021-04-02 中国人民解放军军事科学院军事医学研究院 病毒受体与人体靶器官的感染路径分析系统、电子设备
CN113314211A (zh) * 2020-02-26 2021-08-27 深圳市奇云生物信息科技有限公司 一种基于粪便微生物标志物和人dna含量的结直肠癌风险评估的方法及应用
CN117079726A (zh) * 2023-10-16 2023-11-17 浙江大学长三角智慧绿洲创新中心 基于单细胞的数据库可视化方法及相关设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701365A (zh) * 2016-01-12 2016-06-22 西安电子科技大学 一种利用miRNA表达数据发现癌症相关基因的方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701365A (zh) * 2016-01-12 2016-06-22 西安电子科技大学 一种利用miRNA表达数据发现癌症相关基因的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
于飞飞等: "宫颈鳞状细胞癌组织中miRNA差异性表达及其靶基因作为诊断标志物的意义", 《吉林大学学报(医学版)》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019155B (zh) * 2017-09-30 2023-04-07 山西医科大学 microRNA组学数据扰动平台
CN110021360B (zh) * 2017-09-30 2023-04-18 山西医科大学 基于组学数据挖掘的疾病—药物关联平台
CN110019155A (zh) * 2017-09-30 2019-07-16 山西医科大学 microRNA组学数据扰动平台
CN110021360A (zh) * 2017-09-30 2019-07-16 山西医科大学 基于组学数据挖掘的疾病—药物关联平台
CN107885973A (zh) * 2017-11-20 2018-04-06 沈阳柏敖生信生物科技有限公司 一种dna修复基因在大肠癌中的临床研究方法
CN107885973B (zh) * 2017-11-20 2023-06-09 辽宁省肿瘤医院 一种dna修复基因在大肠癌中的临床研究方法
CN109841280A (zh) * 2017-11-29 2019-06-04 郑州大学第一附属医院 食管癌相关特征通路的识别及早期诊断模型的构建方法
CN108121896B (zh) * 2017-12-19 2020-07-24 深圳先进技术研究院 一种基于miRNA的疾病间关系分析方法和装置
CN108121896A (zh) * 2017-12-19 2018-06-05 深圳先进技术研究院 一种基于miRNA的疾病间关系分析方法和装置
CN110211634A (zh) * 2018-02-05 2019-09-06 深圳华大基因科技服务有限公司 一种多组学数据联合分析的方法
CN109584968B (zh) * 2018-11-27 2022-09-23 大连海事大学 一种用于筛选参与生物学过程调控新基因的方法
CN109584968A (zh) * 2018-11-27 2019-04-05 大连海事大学 一种用于筛选参与生物学过程调控新基因的方法
CN110176271B (zh) * 2019-03-06 2023-05-02 山西医科大学 多组学数据扰动云
CN110176271A (zh) * 2019-03-06 2019-08-27 山西医科大学 多组学数据扰动云
CN113314211A (zh) * 2020-02-26 2021-08-27 深圳市奇云生物信息科技有限公司 一种基于粪便微生物标志物和人dna含量的结直肠癌风险评估的方法及应用
CN112599201A (zh) * 2020-12-15 2021-04-02 中国人民解放军军事科学院军事医学研究院 病毒受体与人体靶器官的感染路径分析系统、电子设备
CN117079726B (zh) * 2023-10-16 2024-01-30 浙江大学长三角智慧绿洲创新中心 基于单细胞的数据库可视化方法及相关设备
CN117079726A (zh) * 2023-10-16 2023-11-17 浙江大学长三角智慧绿洲创新中心 基于单细胞的数据库可视化方法及相关设备

Also Published As

Publication number Publication date
CN107066835B (zh) 2020-03-17

Similar Documents

Publication Publication Date Title
CN107066835A (zh) 一种利用公共数据资源发现并整合直肠癌相关基因及其功能分析的方法及系统和应用
CN106845104B (zh) 利用TCGA数据库资源发现直肠癌相关microRNA分子标志物的方法及系统和应用
Hocquette Where are we in genomics?
US9449143B2 (en) Ancestral-specific reference genomes and uses thereof
Molidor et al. New trends in bioinformatics: from genome sequence to personalized medicine
Walter et al. Artificial intelligence in hematological diagnostics: Game changer or gadget?
WO2022125806A1 (en) Predicting fractional flow reserve from electrocardiograms and patient records
CN115116624B (zh) 基于半监督迁移学习的药物敏感性预测方法和装置
CN109599157A (zh) 一种精准智能诊疗大数据系统
Sealfon et al. Machine learning methods to model multicellular complexity and tissue specificity
Jing et al. A review on bioinformatics enrichment analysis tools towards functional analysis of high throughput gene set data
Sofi et al. Bioinformatics for everyone
Bisognin et al. A-MADMAN: annotation-based microarray data meta-analysis tool
Raza et al. Principle, analysis, application and challenges of next-generation sequencing: a review
CN117457065A (zh) 一种基于单细胞多组学数据识别表型相关细胞类型的方法和系统
Poetsch et al. -Omics Technologies and Big Data
US20020091490A1 (en) System and method for representing and manipulating biological data using a biological object model
Shi Jing et al. A review on bioinformatics enrichment analysis tools towards functional analysis of high throughput gene set data
Sandie et al. Recent developments in StemBase: a tool to study gene expression in human and murine stem cells
Papageorgiou et al. Brain immunoinformatics: A symmetrical link between informatics, wet lab and the clinic
Pan et al. PACS: Prediction and analysis of cancer subtypes from multi-omics data based on a multi-head attention mechanism model
JP2003521071A (ja) 生物医学的リソースへの統合されたアクセス
Cappelli Big biomedical data modeling for knowledge extraction with machine learning techniques
Al‐Shahrour et al. Ontologies and functional genomics
Papageorgiou et al. Brain Immunoinformatics: A Symmetrical Link between Informatics, Wet Lab and the Clinic. Symmetry 2021, 13, 2168

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant