CN106845104B

CN106845104B - 利用TCGA数据库资源发现直肠癌相关microRNA分子标志物的方法及系统和应用

Info

Publication number: CN106845104B
Application number: CN201710037974.0A
Authority: CN
Inventors: 陈瑞; 高娜; 李晓波; 孟庆涛; 吴申申
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2017-01-19
Filing date: 2017-01-19
Publication date: 2019-04-09
Anticipated expiration: 2037-01-19
Also published as: CN106845104A

Abstract

本发明公开了一种利用TCGA数据库资源发现直肠癌相关microRNA分子标志物的方法及系统和应用。基于公共数据资源例如癌症基因组图谱TCGA数据库的直肠癌miRNA测序数据，合理运用开放性的大数据资源和多样的生物信息学分析手段，对miRNA表达数据进行分析处理，识别与直肠癌等复杂疾病相关的miRNA。包括：样本数据下载和整理；对miRNA表达数据的差异表达分析；将miRNA按照变化幅度排序；选定靶基因；对靶基因进行功能分析。本发明能解决不擅长整合现有网络资源、不熟悉miRNA相关的最常用数据库及前沿分析方法以及不能独立完成miRNA表达谱相关的生物信息学分析等问题。

Description

利用TCGA数据库资源发现直肠癌相关microRNA分子标志物的方法及系统和应用

技术领域

本发明涉及医学基因组学和计算生物学领域，具体涉及一种利用TCGA公共数据资源发现直肠癌相关miRNA的方法。

背景技术

生物信息学是一门生命科学和计算机科学相结合的学科，研究生物信息的采集、处理、存储、分析和解释等，通过综合利用生物学、计算机科学及信息技术来揭示复杂的生物数据所蕴藏的生物学奥秘。公共数据库是开展生物信息学研究的重要工具。如何充分利用免费资源、高效整合数据、深入挖掘分析已成为生物信息学的一个重要课题。

美国政府发起的癌症和肿瘤基因图谱(The Cancer Genome Atlas，TCGA)计划，试图通过应用基因组分析技术，特别是采用大规模的基因组测序，将人类全部癌症的基因组变异图谱绘制出来，并进行系统分析，旨在找到所有致癌和抑癌基因的微小变异，了解癌细胞发生、发展的机制，在此基础上取得新的诊断和治疗方法，最后可以勾画出整个新型“预防癌症的策略”。2005年12月13日，这一项目由美国国家癌症和肿瘤研究所(NCI)和国家人类基因组研究所(NHGRI)联合进行，预计耗资1亿美元，是迄今为止世界上所进行的最大一项基因工程。绘制癌症基因图谱有助于把研究人员从目前逐个追踪基因的大量劳动中解放出来，便于迅速设计和找到针对性抗癌药物。这项计划是生物医学研究中的一大转折点，也是药物治疗的一大转折点，人们用一种新的观点去审视遗传改变与恶性肿瘤的联系，突破固有的知识的限制，尝试研究某个病人一生的遗传序列，然后用得到的信息去设计目标性强的、基于个性化的治疗。

在癌症医学研究领域，TCGA试验项目革命性的将癌症生物学、基因组学技术、生物储藏库和生物信息学领域的最新成果协调发展和应用。目前，已成为最大的癌症基因信息数据库，收集了39种癌症，262,293个样本，mRNA/microRNA表达谱、拷贝数变异、突变、甲基化等大规模数据，数据量依然在逐年递增。TCGA推动了人们对癌症基因组学认识的大幅度提高，并将继续引领如何大规模的将分子数据真正应用到临床的研究。虽然TCGA公开了大量数据，但是样本庞大，信息繁多，格式难以转化，下载到的数据不能直接使用。而在我国，从事癌症相关研究的科研人员大多不具备生物信息学背景，如何有效的从TCGA进行数据收集、预处理和分析是一个难点。

MicroRNA(miRNA)是一类内生的、长度约为20-24个核苷酸的小RNA，是最早发现的非编码RNA。研究发现，每个miRNA可以有多个靶基因，而几个miRNA也可以调节同一个基因。这种复杂的调节网络既可以通过一个miRNA来调控多个基因的表达，也可以通过几个miRNA的组合来精细调控某个基因的表达。miRNA是众多细胞过程的关键调控子，与发育和癌症进程密切相关。人类目前已知的miRNA有两千多个，对应的测序数据得到的表达数据达到两千多维，虽然有些疾病相关miRNA已被发现，但是大多数的相关miRNA有待于进一步研究。直肠癌是消化道最常见的恶性肿瘤之一，在我国的发病率，特别是经济发达地区，逐年上升。由于其早期诊断手段缺乏，在疾病确诊时，往往已经发展到晚期。我国直肠癌发病年龄中位数在45岁左右，青年人发病率有升高的趋势。直肠癌的病因目前仍不十分清楚，与多种因素有关。miRNA在作为直肠癌等疾病的新型临床诊断标记物的开发应用上取得了很大进展，但仍有很多不足。而且因为科研成本等问题，很多研究人员缺乏资金支持，不能负担实验所需费用，也不能承受高通量技术服务费特别是大样本量的高通量检测费用，而生物信息学研究所需的投资有限却可以做出高水平的工作，这是面临同样困境的工作者能够继续研究工作的最佳解决方案。目前的公共数据平台，虽然大多公开免费，然而所提供下载供本地化分析的数据都是原始数据，需要进行再次或多次处理才可以使用，给科研人员带来极大不便。甚至不同数据库使用的基因组注释信息来源不同、标准不同，很多数据库还会专门使用自己数据库的特殊命名，也给工作者整合多个数据库信息的工作带来很大难度。再加上对miRNA功能机制了解的太少，分析手段单一简单，因此如何合理利用网络资源，有效地收集、整合、分析miRNA高通量大数据，研究其潜在功能特别是预测与疾病相关miRNA成为该领域目前最急需解决的问题，也是科研人员特别是无生物信息学背景的实验、临床人员面临的最大难点。

发明内容

本发明的目的是提供利用TCGA公共数据资源发现直肠癌相关miRNA的方法，以解决不擅长整合现有网络资源以及不能独立完成miRNA相关的生物信息学分析等问题。

为实现上述目的，本发明采用的技术方案是：

一种利用TCGA数据库资源发现直肠癌相关microRNA分子标志物的方法，包括如下步骤：

步骤1，样本数据下载和整理：获取miRNA表达数据，选定目标疾病直肠癌和测序平台，下载数据，数据包含疾病样本和对应的正常样本；

步骤2，对步骤1得到的miRNA表达数据的差异表达分析；

步骤3，将经过步骤2处理后的miRNA表达数据按照变化幅度排序，变化率越大的排名越靠前，筛选排名靠前的10个miRNA表达数据作为相关miRNA表达数据；

步骤4，应用靶基因预测网站或软件作为预测miRNA靶基因的工具，获取靶基因；

步骤5，对靶基因进行功能分析并找出与疾病相关的条目，构建网络示意图。

优选的，所述的步骤1具体包括如下步骤：

步骤1.1，进入R语言工作界面，载入TCGAbiolinks包；

步骤1.2，在TCGA数据库设定目标疾病直肠癌、测序平台和miRNA文件类型；

步骤1.3，批量下载所需的标准化数据；

步骤1.4，将上述步骤得到的数据进行合并，并去除极值，得到理论上有效的miRNA表达值。

优选的，所述步骤1.1中，所述TCGAbiolinks包是一个最新的数据库表达数据下载分析语言包。

优选的，所述步骤1.2中，所述的TCGA数据库是目前最大的癌症基因信息数据库，已收集了39种癌症，262,293个样本，涉及mRNA/microRNA表达谱、拷贝数变异、突变、甲基化等大规模数据，且数据量在逐年递增。

优选的，所述步骤1.4中，所述极值数据是作为RNA表达值的标准化测序片段数目为零的数据。

优选的，所述的步骤2中，差异表达分析选取1.5倍或者2倍的差异倍数，选用三个标准Benjamini–Hochberg方法、FDR方法或者Bonforroni方法校正P-value得到差异表达的miRNA。

优选的，所述的步骤4中，预测靶基因采用靶基因预测网站中已有数据资源整合和软件预测算法两种方式，需遵循预选基因至少被两个以上预测算法或数据库同时预测到；

所述的靶基因预测网站是miRWalk数据库和TargetScan；

所述的预测软件是TargetScan和miRanda。

优选的，所述的步骤5中，所述的对mRNA的功能性分析基于DAVID数据库信息，包括基因本体分析，代谢通路分析，疾病相关分析和调控网络的构建；

所述的基因本体分析采用DAVID数据库信息从生物过程、分子功能和细胞组分三个成分进行注释和富集分析；

所述的代谢通路分析采用DAVID数据库信息包含的KEGG、Reactome数据库信息进行分析；

所述的疾病相关分析采用DAVID数据库信息包含的GAD_DISEASE、GAD_DISEASE_CLASS和OMIM_DISEASE数据库信息进行分析。

本发明的另一目的在于提供一种所述利用TCGA公共数据库资源发现直肠癌相关microRNA分子标志物的系统，技术方案为：

一种利用TCGA数据库资源发现直肠癌相关microRNA分子标志物的系统，所述系统包括：

样本数据下载和整理模块，用于获取miRNA表达数据，包含疾病样本和对应的正常样本；

差异表达分析模块，用于对miRNA数据进行表达分析，统计差异显著性，此过程需排除零值等极值影响；

筛选排名模块，用于将差异表达的miRNA按照差异倍数绝对值排序，越大的排名越靠前，筛选一定数目的miRNA作为待研究miRNA；

选定靶基因模块，用于应用miRWalk、TargetScan等靶基因预测网站或软件作为预测miRNA靶基因的工具，获取靶基因；

功能分析模块，用于根据选中的mRNA，采用DAVID数据库信息进行基因本体分析，代谢通路分析和疾病相关分析并图形化展示。

本发明的再一个目的是提供上述利用TCGA数据库资源发现直肠癌相关microRNA分子标志物的系统的应用。

所述的应用包括：

应用所述利用TCGA公共数据库资源发现直肠癌相关microRNA分子标志物的方法的生物靶向治疗系统。

应用所述利用TCGA公共数据库资源发现直肠癌相关microRNA分子标志物的方法的生物药物研制工艺。

应用所述利用TCGA公共数据库资源发现直肠癌相关microRNA分子标志物的方法的致病机理系统。

应用所述利用TCGA公共数据库资源发现直肠癌相关microRNA分子标志物的方法的致病风险预测系统。

有益效果：本发明提供的利用TCGA公共数据库资源发现直肠癌相关microRNA分子标志物的方法，基于公共数据资源例如癌症基因组图谱TCGA数据库的直肠癌miRNA测序数据，运用生物信息学方法，对miRNA表达数据进行分析处理，识别与直肠癌相关的miRNA。本发明发现与直肠癌等癌症复杂疾病相关的miRNA和多个风险基因，对复杂疾病的生物靶向治疗、生物药物研制、致病机理阐释及风险预测等都有重要意义。本发明能解决不擅长整合现有网络资源、不熟悉miRNA相关的最常用数据库及前沿分析方法以及不能独立完成miRNA相关的生物信息学分析等问题。本发明采用丰富多样的生物信息学手段，整合权威性强普及率高的公共网络资源，建立了一套完整的前沿的分析流程，能对miRNA高通量数据进行系统的全面的功能分析并发现直肠癌相关miRNA分子标志物。可有效利用公共数据库的海量高通量数据，降低科研成本，提高分析效率，作为开放性的数据分析方法，不仅适用于TCGA现有的miRNA数据，还可实现与TCGA数据库的同步更新和数据扩充。分析流程思路清晰，其实现方法简单，可广泛应用于生物学研究工作中，也可用于临床相关应用。

附图说明

图1是本发明提供的利用TCGA公共数据库资源发现直肠癌相关microRNA分子标志物的方法的分析流程图；

图2是直肠癌miRNA差异表达top1疾病相关网络示意图；表明has-miR-1224-3p在直肠癌样本中差异表达top1，并且已被验证与部分疾病相关。

图3是直肠癌miRNA差异表达top2疾病相关网络示意图；表明has-miR-486-5p在直肠癌样本中差异表达top2，并且已被验证与部分疾病相关。

图4是直肠癌miRNA差异表达top3疾病相关网络示意图。表明has-miR-328-3p在直肠癌样本中差异表达top3，并且已被验证与部分疾病相关。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明作更进一步的说明。

如图1所示，本发明的一种利用TCGA数据库资源发现直肠癌相关microRNA分子标志物的方法，包括如下步骤：

步骤1，样本数据下载和整理，获取miRNA表达数据，选定目标疾病直肠癌和测序平台，下载数据，数据包含疾病样本和对应的正常样本；

步骤2，对步骤1得到的miRNA表达数据的差异表达分析；

步骤3，将经过步骤2处理后的miRNA表达数据按照变化幅度排序，变化率越大的排名越靠前，筛选排名靠前的10个miRNA作为相关miRNA；

其中，步骤1具体包括如下步骤：

步骤1.1，进入R语言工作界面，载入TCGAbiolinks包；

步骤1.2，设定目标疾病、测序平台和miRNA文件类型；

步骤1.3，批量下载所需的标准化数据；

如图1所示，步骤2中，差异表达miRNA的筛选包括选取1.5倍或者2倍的差异倍数(Fold change)，选用国际最通用的三个标准Benjamini–Hochberg方法、FDR方法或者Bonforroni方法校正P-value得到差异表达的miRNA。

如图1所示，预测靶基因采用靶基因预测网站中已有数据资源整合和软件预测算法两种方式，需遵循预选基因至少被两个以上预测算法或数据库同时预测到；所述的靶基因预测网站是miRWalk数据库和TargetScan；所述的预测软件是TargetScan和miRanda。

如图1所示，步骤5中，miRNA的功能性分析包括基因本体分析，代谢通路分析，疾病相关分析和调控网络的构建。

在本发明的一个实施方案中，在R平台，使用TCGAbiolinks软件包下载所需研究数据。

在本发明的一个实施方案中，在R平台，对miRNA的结果进行错误发现率矫正。可以采用Benjamini–Hochberg，FDR和Bonferroni方法。

Benjamini–Hochberg方法

上式中，α是给定的显著性阀值；K代表样本容量；M代表从小到大的排列顺序。

FDR方法

上式中，M₀代表零假设是真的时候的样本总数；M代表样本容量；Q为显著性阀值。

Bonferroni方法

P＝α/k

上式中，α是给定的显著性阀值；K是样本容量。

在本发明的一个实施方案中，对miRNA靶基因预测采用miRWalk和TargetScan数据库信息进行预测，同时通过预测软件miRanda和TargetScan进行结合位点预测，最后选定靶基因的条件是至少被两个预测软件或数据库同时预测到。

miRWalk数据库

miRWalk是一个综合性数据库，不仅提供来自人类、小鼠和大鼠的miRNA的预测信息和经过验证的位于其靶基因上的结位点，也提供mRNA的预测信息和验证信息，共整合了13个公共数据库资源，是整合数据库资源最多的靶基因信息数据库。

TargetScan数据库

TargetScan是由microRNA领域大牛Bartel实验室开发的数据库。基于靶mRNA序列的进化保守等特征搜寻动物的microRNA靶基因。是预测microRNA靶标假阳性率最低的数据库。

miRanda方法

miRanda是Enright等人于2003年开发一种miRNA靶标预测软件。miRanda的核心思想主要是基于碱基互补，近似于Smith-Waterman算法，但对碱基配对的原则作出了改进，允许G-U间的错配。考虑到miRNA与靶标位点结合时存在对5’端匹配程度要求较高的特性，软件使用scale参数对5’端的11个碱基的得分作出矫正。而对结合能计算方面，miRanda基于ViennaRNA软件包中RNAlib程序来计算miRNA-靶序列间的结合能。对于多个miRNA靶向同一位点的情况，miRanda采用贪婪算法选取得分最高结合能最低的结果。

TargetScan方法

Stark等人于2005年根据实验结果分析miRNA靶标位点序列的结构需求，提出了miRNA具有一个7bp左右的核心序列，也就是种子序列。这段序列只允许Watson-Crick配对。作为靶标位点核心的种子序列通常在物种间高度保守。TargetScan基于这一原则对脊椎动物的miRNA靶标位点进行预测。首先根据miRNA在各物种间的保守情况将其划分为广泛保守、保守和弱保守的miRNA及家族，并考虑了靶标位点在多个物种间的保守性，并根据保守性的得分高低区分为保守靶标位点和弱保守的靶标位点。

在本发明的一个实施方案中，对靶基因采用DAVID数据库信息从生物过程、分子功能和细胞组分三个成分进行基因本体注释和富集分析，差异显著可以用Benjamini–Hochberg，Bonferroni和FDR方法。

DAVID数据库

基因的功能注释在表达数据分析中是必需且关键的步骤。生物学知识的分布式性质经常需要研究者浏览很多可通过网络访问的数据库而收集的信息，一次一个基因。一个更明智更便利的方法是提供基于查询的对一个整合数据库的访问，该数据库散布跨大量数据集的生物学上富集的信息，并显示功能信息的图形化摘要。DAVID就是这样一个集注释、可视化和整合发现于一身的数据库，通过4个基于网络的分析模块：1)注释工具——从多个公共数据库中，对数个列表中的基因快速添加描述性数据；2)GoCharts——基于用户选择的分类和术语特异性水平，将基因分配到基因本体论功能分类中；3)KeggCharts——将基因分配到KEGG代谢过程中，并使用户在生物化学通路图环境中查看基因成为可能；及4)DomainCharts——根据PFAM保守型蛋白质域将基因进行分组。分析结果和图形化展示仍然动态的链接到原始数据和额外数据库，因此提供深入及广泛的数据覆盖。由DAVID提供的功能通过促进从数据收集到生物学意义的转换，加速了基因组范围的数据集的分析。

在本发明的一个实施方案中，对靶基因采用DAVID数据库信息整合的KEGG和Reactome数据库信息进行代谢通路分析，差异显著可以用Benjamini–Hochberg、Bonferroni和FDR方法。

KEGG数据库

KEGG由日本京都大学生物信息学中心的Kanehisa实验室于1995年建立。是国际最常用的生物信息数据库之一，以“理解生物系统的高级功能和实用程序资源库”著称，也是代谢分析领域应用最广最权威的数据库。大致分为系统信息、基因组信息和化学信息三大类。进一步可细分为16个主要的数据库。例如，基因组信息存储在GENES数据库里，包括完整和部分测序的基因组序列；更高级的功能信息存储在PATHWAY数据库里，包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期，还包括同系保守的子通路等信息；KEGG的另一个数据库LIGAND，包含关于化学物质、酶分子、酶反应等信息。

Reactome数据库

反应组学(Reactome)是一个汇集了由专家撰写，经同行评阅的有关人体内各项反应及生物学路径的文献的数据库，该数据库相当于一个有效的数据资源以及电子图书。该库目前发布了共计2975个人类蛋白、2907项生物学反应以及4455个引用文献。该数据库为人们提供了一个全新的从整体水平上对生物学途径进行研究的工具，同时，它也是一个改良的搜索及数据挖掘工具，可以简化与生物学途径相关的数据搜索与研究。此外，对用户提供的高通量数据组进行分析，也变得更为简单。

在本发明的一个实施方案中，对靶基因采用DAVID数据库信息包含的GAD_DISEASE、GAD_DISEASE_CLASS和OMIM_DISEASE信息进行疾病相关分析，差异显著可以用Benjamini–Hochberg、Bonferroni和FDR方法。

GAD数据库

疾病关联数据库(GAD)收集了多种复杂疾病与相关基因关系的数据库。研究人员可以从数据库免费获取基因突变信息和基因与复杂疾病关系信息，为临床大规模SNP筛查，突变研究疾病相关等提供便利。

在本发明的一个实施方案中，在得到基因的基因本体、代谢或者疾病相关信息后结合差异表达的miRNA，生成含有这些信息的网络文件。可以用Cytoscape软件打开，图形化展示。

以下结合具体实施例对上述方案做进一步说明。应理解，这些实施例是用于说明本发明而不是限制本发明的范围。实施例中采用的实施条件可以根据具体应用要求的条件做进一步调整，未注明的实施条件通常为常规实验中的条件。

实施例

首先对原始数据进行过滤处理，然后去除低质量的数据，得到有效的miRNA标准化的表达值。基于miRNA差异分析结果，可以基于其序列特征，进行靶基因预测。在上述分析的基础上，可进行一系列的统计学和可视化分析。

1.miRNA表达值文件如表1所示

分析平台：R平台

分析软件：TCGAbiolinks

表1

列名解释：

2.miRNA表达分析结果如表2所示

分析平台：R平台

分析软件：TCGAbiolinks

表2

列名解释：

3.差异表达的miRNA结果如表3所示

分析平台：R平台

分析软件：TCGAbiolinks

表3

列名解释：

4.miRNA的靶基因预测及筛选

对miRNA的靶基因预测采用miRWalk和TargetScan数据库信息、miRanda和TargetScan算法进行预测。

结果所示：

表4 miRWalk数据库预测结果

列名解释：

表5 miRWalk数据库验证结果

列名解释：

表6 TargetScan数据库预测结果

列名解释：

miRanda算法是基于位点结合自由能和序列互补配对得分的方法。默认参数使用strict种子序列互补配对法，score得分大于140分，最小自由能为-15KJ/mol。

分析平台：linux平台

结果所示：

表7 miRanda结果

列名解释：

TargetScan算法是在多重比对序列基础上通过寻找保守的种子序列来识别其靶基因的方法。

分析平台：perl平台

结果如表8所示：

表8 TargetScan结果

列名解释：

5.功能性分析

利用DAVID数据库的信息对靶基因从生物过程、分子功能和细胞组成进行基因本体分析，代谢通路分析和疾病相关分析。能够发现预测的miRNA与癌症基因间的关联性、与重要基因之间存在的风险通路。这些关联分析和通路联系可能是导致疾病发生的源头。

分析软件：DAVID

结果所示：

表9 生物通路富集分析

列名解释

表10 分子功能富集分析

列名解释：

表11 细胞组分富集分析

列名解释：

表12 代谢通路富集分析

列名解释：

表13 疾病相关分析

列名解释：

6.miRNA潜在功能调控网络的构建

分析平台：R平台

图形化软件：Cytoscape

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实例的限制，上述实例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种利用TCGA数据库资源发现直肠癌相关microRNA分子标志物的系统，其特征在于：所述系统包括：

功能分析模块，用于根据选中的mRNA，采用DAVID数据库信息进行基因本体分析，代谢通路分析和疾病相关分析并图形化展示；

该系统通过以下步骤实现发现直肠癌相关miRNA：

步骤1，样本数据下载和整理：获取miRNA表达数据，选定目标疾病直肠癌和测序平台，下载数据，数据包含疾病样本和对应的正常样本；具体为：

步骤1.1，进入R语言工作界面，载入TCGAbiolinks包；

步骤1.3，批量下载所需的标准化数据；

步骤1.4，将上述步骤得到的数据进行合并，并去除极值，得到理论上有效的miRNA表达值；所述极值数据是作为RNA表达值的标准化测序片段数目为零的数据；

步骤2，对步骤1得到的miRNA表达数据的差异表达分析；其中，差异表达分析选取1.5倍或者2倍的差异倍数，选用三个标准Benjamini–Hochberg方法、FDR方法或者Bonforroni方法校正P-value得到差异表达的miRNA；

步骤4，应用靶基因预测网站或软件作为预测miRNA靶基因的工具，获取靶基因；其中，预测靶基因采用靶基因预测网站中已有数据资源整合和软件预测算法两种方式，需遵循预选基因至少被两个以上预测算法或数据库同时预测到；

所述的靶基因预测网站是miRWalk数据库和TargetScan；

所述的预测软件是TargetScan和miRanda；

步骤5，对靶基因进行功能分析并找出与疾病相关的条目，构建网络示意图；其中，所述的对mRNA的功能性分析基于DAVID数据库信息，包括基因本体分析，代谢通路分析，疾病相关分析和调控网络的构建；