CN110021346B

CN110021346B - 基于RNAseq数据的基因融合与突变检测方法及系统

Info

Publication number: CN110021346B
Application number: CN201810017454.8A
Authority: CN
Inventors: 黄金艳; 陈赛娟; 李剑锋; 代雨婷; 崔博文; 严天奇; 白玲; 陈冰
Original assignee: Ruinjin Hospital Affiliated to Shanghai Jiaotong University School of Medicine Co Ltd
Current assignee: Ruinjin Hospital Affiliated to Shanghai Jiaotong University School of Medicine Co Ltd
Priority date: 2018-01-09
Filing date: 2018-01-09
Publication date: 2023-06-30
Anticipated expiration: 2038-01-09
Also published as: CN110021346A

Abstract

本发明公开了一种基于RNA‑seq数据的基因融合与突变检测方法，包括以下步骤：获得输入的RNA‑seq测序原始数据；对原始数据进行数据过滤和质量评估得到高质量序列；对获得的高质量序列进行基因序列比对得到比对结果；收集应用于临床的相关数据库建立核心数据库；根据核心数据库对比对结果进行分析检测得到分析结果；将分析结果生成为常用格式的分析报告。还公开了一种基于RNA‑seq数据的基因融合与突变检测系统，可设计为软件系统，可以快速的完成基于RNA‑seq的各类分析工作，并通过与整合的各类数据库进行匹配，寻找出真正与临床疾病息息相关的各类基因组异常，如融合基因、基因突变。

Description

基于RNAseq数据的基因融合与突变检测方法及系统

技术领域

本发明涉及基因检测技术领域，尤其涉及一种基于RNA-seq数据的基因融合与突变检测方法。

背景技术

人类疾病，特别是在各类比较难治愈的癌症中，基因组异常(如基因融合、基因突变)引起的细胞代谢、生长、分化失去调控，往往是导致疾病发生、发展的直接或间接原因。因此，如何快速、准确、全面的检测相关变异一直以来都是一个具有重要研究价值的课题。近年来，随着高通量测序技术(NGS)的推广和应用，在各类临床检测应用中，高通量测序技术正在逐渐地占据主导地位。

全转录组测序，又常被称为RNA-seq，是指利用第二代高通量测序技术(NGS)进行cDNA测序，全面快速地获取某一物种特定器官或组织在某一状态下的几乎所有转录本。主要可以应用于分析差异表达基因、表达谱聚类、融合基因检测、以及突变基因检测，是一种非常具有临床应用前景的测序技术之一。

目前，市场上还没有一款整合融合基因检测、异常基因表达、突变基因分析于一体的自动化分析工具。而已有的分析工具大多有以下几点问题：

1)没有一键式基于RNA-seq原始数据进行肿瘤基因突变分析的工具。

2)没有对融合基因检测、基因突变分析进行整合的工具。

3)没有成熟的，可以直接应用于临床的各类数据库，包括但不限于药物作用的基因位点、抗药性位点、疾病预测位点、疾病诊断位点等数据库。

4)缺乏方便的融合基因结构和突变位点模式图绘制软件包。

5)缺少一个可以同时产生Word、PDF、HTML等格式的便于使用的报告生成系统。

6)没有成熟的方法对分析得到的基因融合、基因突变结果进行假阳性的过滤筛查。

发明内容

鉴于目前存在的上述不足，本发明提供一种基于RNA-seq数据的基因融合与突变检测方法，可以一键式完成基于RNA-seq的基因组异常检测分析。

为达到上述目的，本发明的实施例采用如下技术方案：

一种基于RNA-seq数据的基因融合与突变检测方法，所述基于RNA-seq数据的基因融合与突变检测方法包括以下步骤：

获得输入的RNA-seq测序原始数据；

对原始数据进行数据过滤和质量评估得到高质量序列；

对获得的高质量序列进行基因序列比对得到比对结果；

收集应用于临床的相关数据库建立核心数据库；

根据核心数据库对比对结果进行分析检测得到分析结果；

将分析结果生成为常用格式的分析报告。

依照本发明的一个方面，所述输入的原始数据为：通过RNA-seq测序得到的原始数据。

依照本发明的一个方面，所述对获得的高质量序列进行基因序列比对得到比对结果包括：使用STAR和Hisat2进行基因序列的比对工作。

依照本发明的一个方面，所述根据核心数据库对比对结果进行分析检测得到分析结果包括：

基于RNA-seq数据分析基因融合与突变；

根据已知的阳性融合基因和假阳性融合基因数据列表，对分析结果进行优化得到进一步的分析结果；

对基因表达谱进行聚类分析；

检测基因表达值，发现异常表达基因。

对比对结果进行基因突变分析；

对比对结果进行融合基因检测；

对比对结果进行基因表达量分析；

根据核心数据库对得到的基因突变分析结果、融合基因检测结果合基因表达量分析结果进行分析判断得到最终分析结果。

依照本发明的一个方面，在融合基因检测步骤中，根据已有数据筛选出假阳性的融合基因结果信息然后以此建立黑名单，并在新的分析中根据黑名单对结果进行过滤。

依照本发明的一个方面，在融合基因检测步骤中，在假阳性融合基因黑名单基础上，根据已有分析结果及文献报道汇集了的标志性融合基因并以此建立白名单，确保这些关键的融合基因信息在结果中保留。

依照本发明的一个方面，在基因突变分析步骤中，根据基于RNA-seq数据的肿瘤基因突变检测R包SIMut，完成RNA-seq的肿瘤基因检测步骤。

依照本发明的一个方面，所述根据核心数据库对比对结果进行分析检测得到分析结果包括：通过R包绘制融合基因结构、突变模式图。

依照本发明的一个方面，所述通过R包绘制融合基因结构、突变模式图包括：通过可视化R包gfplot绘制出融合基因结构和基因突变的基因及蛋白质水平的模式图。

依照本发明的一个方面，所述将分析结果生成为常用格式的分析报告包括：使用ReporteRs以及WORD模板生成WORD类型的报告，使用Rmarkdown(.Rmd)文件以及R包rmarkdwon生成其它常用格式的报告。

一种基于RNA-seq数据的基因融合与突变检测系统，所述基于RNA-seq数据的基因融合与突变检测系统包括：

信息获取模块，用于获得输入的RNA-seq测序原始数据；

评估模块，用于对原始数据进行数据过滤和质量评估得到高质量序列；

比对模块，用于对获得的高质量序列进行基因序列比对得到比对结果；

数据库模块，用于收集应用于临床的相关数据库建立核心数据库；

分析模块，用于根据核心数据库对比对结果进行分析检测得到分析结果；

报告生成模块，用于将分析结果生成为常用格式的分析报告。

本发明实施的优点：本发明所述的基于RNA-seq数据的基因融合与突变检测方法，包括以下步骤：获得输入的RNA-seq测序原始数据；对原始数据进行数据过滤和质量评估得到高质量序列；对获得的高质量序列进行基因序列比对得到比对结果；收集应用于临床的相关数据库建立核心数据库；根据核心数据库对比对结果进行分析检测得到分析结果；将分析结果生成为常用格式的分析报告；完全基于R语言开发，整合了多个R包如SIMut、gfplot、Rreport，可以一键式完成基于RNA-seq的肿瘤基因突变检测、融合基因检测、基因表达量分析，还可以绘制各类融合基因和突变的基因水平和蛋白水平的模式图、并产生各类格式的报告(WORD、PDF、HTML)；可以快速的完成基于RNA-seq的各类分析工作，并通过与整合的各类数据库进行匹配，寻找出真正与临床疾病息息相关的各类基因组异常，如融合基因、基因突变。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所述的一种基于RNA-seq数据的基因融合与突变检测方法示意图；

图2为本发明所述的基因组异常检测分析流程图；

图3为本发明所述的基因融合模式图；

图4为本发明所述的基因突变模式图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

如图1、图2、图3和图4所示，一种基于RNA-seq数据的基因融合与突变检测方法，所述基于RNA-seq数据的基因融合与突变检测方法包括以下步骤：

步骤S1：获得输入的RNA-seq测序原始数据；

所述步骤S1获得输入的原始数据的具体实施方式可为：要求输入文件为RNA-seq测序得到的原始数据，接收并获得外界输入的如上通过RNA-seq测序得到的原始数据。

步骤S2：对原始数据进行数据过滤和质量评估得到高质量序列；

所述步骤S2：对原始数据进行数据过滤和质量评估得到高质量序列的具体实施方式包括：经过数据过滤、质量评估得到可以用于序列比对的高质量序列。

步骤S3：对获得的高质量序列进行基因序列比对得到比对结果；

所述步骤S3对获得的高质量序列进行基因序列比对得到比对结果的具体实施方式可为：在基因序列比对步骤，使用STAR和Hisat2用于基因序列的比对工作，通过STAR比对得到的结果主要用于突变检测，Hisat2比对的结果用于融合基因检测和基因表达量分析。

步骤S4：收集应用于临床的相关数据库建立核心数据库；

所述步骤S4收集应用于临床的相关数据库建立核心数据库的具体实施方式包括：收集并建立可以应用于临床的各类如基因位点、抗药性位点、疾病预测位点、疾病诊断位点数据库，充分整合利用各类与临床相关的公共数据库，从而整合建立核心数据库。

在实际应用中，核心数据库主要收集自各类公共数据库(UCSC、KEGG、Chembl、CTD、ANNOVAR、VEP等)、发表的文献或者正在进行的临床试验。与此同时，我们开发了利用这些数据库的注释工具annovarR,可以方便的完成基于RNA-seq的突变位点注释工作。

步骤S5：根据核心数据库对比对结果进行分析检测得到分析结果；

所述步骤S5根据核心数据库对比对结果进行分析检测得到分析结果包括以下步骤：

1)对比对结果进行基因突变分析；

2)对比对结果进行融合基因检测；

3)对比对结果进行基因表达量分析；

4)根据核心数据库对得到的基因突变分析结果、融合基因检测结果合基因表达量分析结果进行分析判断得到最终分析结果。

在实际应用中，在融合基因检测步骤中，利用软件从RNA-Seq数据中检测样本融合基因在实际过程中会出现许多假阳性结果，这些假阳性结果往往有规律的出现，我们根据已有数据筛选出假阳性的融合基因结果信息然后以此建立黑名单，并在新的分析中根据黑名单对结果进行过滤。同时，为了保证不遗漏关键数据，我们根据已有分析结果及文献报道汇集了的标志性融合基因并以此建立白名单，确保这些关键的融合基因信息在结果中保留。通过黑白名单联合作用机制，使得软件分析融合基因结果更加精准和可信。

在实际应用中，突变分析步骤是采用了我们开发的基于RNA-seq数据的肿瘤基因突变检测R包SIMut，该R包内置了数百例RNA-seq测序数据、全外显子测序的突变分析结果，并整合了各类与RNA-seq突变分析相关的注释数据库，可以方便、快速的完成RNA-seq的肿瘤基因检测步骤。

在实际应用中，如图3、图4所示，根据核心数据库对比对结果进行分析检测得到分析结果还包括：通过R包绘制融合基因结构、突变模式图。融合基因结构和突变基因模式图主要是使用我们开发的可视化R包gfplot，它可以方便的绘制出融合基因结构和基因突变的基因组及蛋白质水平的模式图。

步骤S6：将分析结果生成为常用格式的分析报告。

所述步骤S6将分析结果生成为常用格式的分析报告是通过开发了基因检测报告系统(Rreport)，所述基因检测报告系统(Rreport)是基于R语言开发，使用ReporteRs以及WORD模板可以完整的生成WORD类型的报告。使用Rmarkdown(.Rmd)文件以及R包rmarkdwon可以产生PDF、HTML等格式的报告。

实施例二

步骤S1：获得输入的RNA-seq测序原始数据；

步骤S4：收集应用于临床的相关数据库建立核心数据库；

基于RNA-seq数据分析基因融合与突变；

对基因表达谱进行聚类分析；

检测基因表达值，发现异常表达基因。

步骤S6：将分析结果生成为常用格式的分析报告。

实施例三

信息获取模块，用于获得输入的RNA-seq测序原始数据；

所述基于RNA-seq数据的基因融合与突变检测系统的工作原理如下：

1、获得输入的原始数据；要求输入文件为RNA-seq测序得到的原始数据，接收并获得外界输入的如上通过RNA-seq测序得到的原始数据。

2、对原始数据进行数据过滤和质量评估得到高质量序列；经过数据过滤、质量评估得到可以用于序列比对的高质量序列。

3、对获得的高质量序列进行基因序列比对得到比对结果；在基因序列比对步骤，使用STAR和Hisat2用于基因序列的比对工作，通过STAR比对得到的结果主要用于突变检测，Hisat2比对的结果用于融合基因检测和基因表达量分析。

4、收集应用于临床的相关数据库建立核心数据库；收集并建立可以应用于临床的各类如基因位点、抗药性位点、疾病预测位点、疾病诊断位点数据库，充分整合利用各类与临床相关的公共数据库，从而整合建立核心数据库。核心数据库主要收集自各类公共数据库(UCSC、KEGG、Chembl、CTD、ANNOVAR、VEP等)、发表的文献或者正在进行的临床试验。

5、根据核心数据库对比对结果进行分析检测得到分析结果；具体为：

基于RNA-seq数据分析基因融合与突变；

对基因表达谱进行聚类分析；

检测基因表达值，发现异常表达基因。

根据核心数据库对比对结果进行分析检测得到分析结果还包括：通过R包绘制融合基因结构、突变模式图。融合基因结构和突变基因模式图主要是使用我们开发的可视化R包gfplot，它可以方便的绘制出融合基因结构和基因突变的基因组及蛋白质水平的模式图。

6、将分析结果生成为常用格式的分析报告；通过开发了基因检测报告系统(Rreport)，所述基因检测报告系统(Rreport)是基于R语言开发，使用ReporteRs以及WORD模板可以完整的生成WORD类型的报告。使用Rmarkdown(.Rmd)文件以及R包rmarkdwon可以产生PDF、HTML等格式的报告。

本发明实施的优点：本发明所述的基于RNA-seq数据的基因融合与突变检测方法，包括以下步骤：获得输入的原始数据；对原始数据进行数据过滤和质量评估得到高质量序列；对获得的高质量序列进行基因序列比对得到比对结果；收集应用于临床的相关数据库建立核心数据库；根据核心数据库对比对结果进行分析检测得到分析结果；将分析结果生成为常用格式的分析报告；完全基于R语言开发，整合了多个R包如SIMut、gfplot、Rreport，可以一键式完成基于RNA-seq的肿瘤基因突变检测、融合基因检测、基因表达量分析，还可以绘制各类融合基因和突变的基因水平和蛋白水平的模式图、并产生各类格式的报告(WORD、PDF、HTML)；可以快速的完成基于RNA-seq的各类分析工作，并通过与整合的各类数据库进行匹配，寻找出真正与临床疾病息息相关的各类基因组异常，如融合基因、基因突变。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域技术的技术人员在本发明公开的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.在一种基于RNA-seq数据的基因融合与突变检测系统，其特征在于，所述基于RNA-seq数据的基因融合与突变检测系统包括：

信息获取模块，用于获得输入的RNA-seq测序原始数据；

分析模块，用于根据核心数据库对比对结果进行分析检测得到分析结果，包括：基于RNA-seq数据分析基因融合与突变，对比对结果进行基因突变分析，在基因突变分析步骤中，根据基于RNA-seq数据的肿瘤基因突变检测R包SIMut，完成RNA-seq的肿瘤基因检测步骤，对比对结果进行融合基因检测，在融合基因检测步骤中，根据已有数据筛选出假阳性的融合基因结果信息然后以此建立黑名单，在假阳性融合基因黑名单基础上，根据已有分析结果及文献报道汇集了的标志性融合基因并以此建立白名单，确保这些关键的融合基因信息在结果中保留，同时对根据已有数据筛选出真阳性的融合基因结果信息然后以此建立白名单，并在新的分析中根据白名单和黑名单对结果进行过滤，对比对结果进行基因表达量分析，对分析结果进行优化得到进一步的分析结果，对基因表达谱进行聚类分析，检测基因表达值，发现异常表达基因，根据核心数据库对得到的基因突变分析结果、融合基因检测结果和基因表达量分析结果进行分析判断得到最终分析结果，通过R包绘制融合基因结构和突变模式图，具体为通过可视化R包gfplot绘制出融合基因结构和基因突变的基因及蛋白质水平的模式图；

2.根据权利要求1所述的基于RNA-seq数据的基因融合与突变检测系统，其特征在于，所述对获得的高质量序列进行基因序列比对得到比对结果包括：使用STAR和Hisat2进行基因序列的比对工作。

3.根据权利要求2所述的基于RNA-seq数据的基因融合与突变检测系统，其特征在于，所述将分析结果生成为常用格式的分析报告包括：使用ReporteRs以及WORD模板生成WORD类型的报告，使用Rmarkdown文件以及R包rmarkdwon生成其它常用格式的报告。