CN110021348A

CN110021348A - 基于RNA-seq数据的肿瘤基因突变检测方法及系统

Info

Publication number: CN110021348A
Application number: CN201810632056.7A
Authority: CN
Inventors: 黄金艳; 李剑峰
Original assignee: Ruinjin Hospital Affiliated to Shanghai Jiaotong University School of Medicine Co Ltd
Current assignee: Ruinjin Hospital Affiliated to Shanghai Jiaotong University School of Medicine Co Ltd
Priority date: 2018-06-19
Filing date: 2018-06-19
Publication date: 2019-07-16

Abstract

本发明公开了一种基于RNA‑seq数据的肿瘤基因突变检测方法，包括以下步骤：收集并分别整理出不同肿瘤、疾病高发的基因突变，建立一个高优先级突变检测的基因列表及突变位点数据库；收集并整理出目前已经具有明确的靶向或化疗药物作用位点的基因突变及基因数据库；建立基于RNA‑seq的基因突变注释数据库；收集整理出用于RNA‑seq突变检测的质量控制、基因序列比对、基因突变检测算法；建立一套完整的从原始RNA‑seq测序数据到最后突变检测结果的分析流程；还公开了基于RNA‑seq数据的肿瘤基因突变检测系统。通过使用整合的多个数据库，通过检测分析流程人们可以更加快速的找到已知的与肿瘤发生相关的基因突变位点。

Description

基于RNA-seq数据的肿瘤基因突变检测方法及系统

技术领域

本发明涉及基因突变检测技术领域，尤其涉及基于RNA-seq数据的肿瘤基因突变检测方法及系统。

背景技术

近年来，随着二代测序技术的快速发展和推广，其在肿瘤基因检测领域起到了举足轻重的作用。在此之前，肿瘤基因检测大多是基于病人肿瘤组织的DNA测序结果，而很少有基于RNA-seq(转录组测序技术)数据的肿瘤基因突变检测应用。实际上，通过RNA-seq数据检测出的基因突变往往能够更加直接的反映相关基因突变是否被大量表达并产生异常蛋白参与到细胞的代谢途径中。所以，为了更好的完成基于RNA-seq数据进行肿瘤基因突变检测，急需一款基于RNA-seq并专门针对于与临床应用相关的肿瘤基因突变检测的应用技术。

发明内容

鉴于目前存在的上述不足，本发明提供一种基于RNA-seq数据的肿瘤基因突变检测方法以及检测系统，可以更加快速的找到已知的与肿瘤发生相关的基因突变位点。

为达到上述目的，本发明的实施例采用如下技术方案：

一种基于RNA-seq数据的肿瘤基因突变检测方法，所述基于RNA-seq数据的肿瘤基因突变检测方法包括以下步骤：

收集并分别整理出不同肿瘤、疾病高发的基因突变，建立一个高优先级突变检测的基因列表及突变位点数据库；

收集并整理出目前已经具有明确的靶向或化疗药物作用位点的基因突变及基因数据库；

建立基于RNA-seq的基因突变注释数据库；

收集整理出用于RNA-seq突变检测的质量控制、基因序列比对、基因突变检测算法；

建立一套完整的从原始RNA-seq测序数据到最后突变检测结果的分析流程。

依照本发明的一个方面，所述从原始RNA-seq测序数据到最后突变检测结果的分析流程包括以下步骤：

输入文件为FASTQ格式的RNA-seq测序数据；

将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件；

使用Picard和GATK完成一系列预处理步骤；

调用多种突变检测算法对BAM文件进行突变检测；

使用ANNOVAR和构建的annovarR注释工具来对检测出的突变进行注释；

挑选出与肿瘤发生、发展具有潜在相关性的基因突变位点。

依照本发明的一个方面，所述分析流程包括：通过可视化函数将最终突变检测结果转化为可以直接使用ProteinPaint工具进行基因突变数据可视化工作的格式。

依照本发明的一个方面，所述预处理步骤包括：去重、分割含有N的CIGAR reads、插入缺失序列的重排以及碱基质量矫正。

依照本发明的一个方面，所述分析流程包括：进行低敏感度的2pass检测来防止由于过滤条件严格导致的假阴性。

依照本发明的一个方面，所述分析流程包括：使用SAMtools或IGV对最终的突变位点进行人工检查，去掉一些潜在的假阳性位点。

依照本发明的一个方面，所述将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件包括：使用STAR 2pass模式将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件。

依照本发明的一个方面，所述annovarR注释工具是通过以ANNOVAR注释工具整合的50种与基因变异相关的数据库为基础进行相关开发和扩展形成的。

基于RNA-seq数据的肿瘤基因突变检测系统，所述基于RNA-seq数据的肿瘤基因突变检测系统包括：

基因列表及突变位点数据库模块，用于收集并分别整理出不同肿瘤、疾病高发的基因突变，建立一个高优先级突变检测的基因列表及突变位点数据库；

基因突变及基因数据库模块，用于收集并整理出目前已经具有明确的靶向或化疗药物作用位点的基因突变及基因数据库；

基因突变注释数据库模块，用于建立基于RNA-seq的基因突变注释数据库；

检测模块，用于收集整理出用于RNA-seq突变检测的质量控制、基因序列比对、基因突变检测算法；

分析模块，用于建立一套完整的从原始RNA-seq测序数据到最后突变检测结果的分析流程。

依照本发明的一个方面，所述分析模块包括：

输入模块，用于输入文件为FASTQ格式的RNA-seq测序数据；

比对模块，用于将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件；

预处理模块，用于使用Picard和GATK完成一系列预处理步骤；

突变检测模块，用于调用多种突变检测算法对BAM文件进行突变检测；

注释模块，用于使用ANNOVAR和构建的annovarR注释工具来对检测出的突变进行注释；

结果选择模块，用于挑选出与肿瘤发生、发展具有潜在相关性的基因突变位点。

本发明实施的优点：本发明所述的基于RNA-seq数据的肿瘤基因突变检测方法，包括以下步骤：收集并分别整理出不同肿瘤、疾病高发的基因突变，建立一个高优先级突变检测的基因列表及突变位点数据库；收集并整理出目前已经具有明确的靶向或化疗药物作用位点的基因突变及基因数据库；建立基于RNA-seq的基因突变注释数据库；收集整理出用于RNA-seq突变检测的质量控制、基因序列比对、基因突变检测算法；建立一套完整的从原始RNA-seq测序数据到最后突变检测结果的分析流程；目的在于建立一套完整的基于基因病人肿瘤组织RNA-seq的突变检测应用，并建立了不同肿瘤、疾病高发的基因突变位点及基因数据库、具有靶向或化疗药物作用位点的基因突变及基因数据库、302例急性淋巴细胞白血病(ALL)肿瘤组织RNA-seq数据库、172例B-ALL肿瘤及其对照组织的全外显子组数据库、基于RNA-seq的注释数据库。通过使用整合的多个数据库，通过检测分析流程人们可以更加快速的找到已知的与肿瘤发生相关的基因突变位点。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一所述的一种基于RNA-seq数据的肿瘤基因突变检测方法分析流程图；

图2为本发明实施例二所述的一种基于RNA-seq数据的肿瘤基因突变检测方法分析流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

如图1所示，一种基于RNA-seq数据的肿瘤基因突变检测方法，所述基于RNA-seq数据的肿瘤基因突变检测方法包括以下步骤：

步骤S1：收集并分别整理出不同肿瘤、疾病高发的基因突变，建立一个高优先级突变检测的基因列表及突变位点数据库；

步骤S2：收集并整理出目前已经具有明确的靶向或化疗药物作用位点的基因突变及基因数据库；

步骤S3：建立基于RNA-seq的基因突变注释数据库；

步骤S4：收集整理出用于RNA-seq突变检测的质量控制、基因序列比对、基因突变检测算法；

步骤S5：建立一套完整的从原始RNA-seq测序数据到最后突变检测结果的分析流程。

其中，所述从原始RNA-seq测序数据到最后突变检测结果的分析流程包括以下步骤：

1)输入文件为FASTQ格式的RNA-seq测序数据；

2)将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件；

使用STAR 2pass模式将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件。

3)使用Picard和GATK完成一系列预处理步骤；

所述预处理步骤包括：去重、分割含有N的CIGAR reads、插入缺失序列的重排以及碱基质量矫正。

4)调用多种突变检测算法对BAM文件进行突变检测；

其中，进行低敏感度的2pass检测来防止由于过滤条件严格导致的假阴性。

5)使用ANNOVAR和构建的annovarR注释工具来对检测出的突变进行注释；

所述annovarR注释工具是通过以ANNOVAR注释工具整合的50种与基因变异相关的数据库为基础进行相关开发和扩展形成的。

可以自动化的完成大量生物信息数据库的下载、安装以及相应注释工作。特别地，通过引入数据库池、数据过滤脚本池、数据注释函数库来大大提高基因注释的效率和灵活度。另外，通过使用R中的并行计算包以及大数据处理包来大大提高基于R的注释工具的性能。而且，通过整合多个数据库集合，如ANNOVAR、DAVID等，可以大大方便人们开展相关生物信息数据注释工作。建立一个数据过滤脚本池，用于对不同输入数据以及参考数据库进行标准化，用户只需要从中选取相对应的函数传入annovarR,就可以自动完成数据标准化，从而进行相关数据注释和分析。

6)挑选出与肿瘤发生、发展具有潜在相关性的基因突变位点。

使用SAMtools或IGV对最终的突变位点进行人工检查，去掉一些潜在的假阳性位点。

具体的操作流程可如下：

输入文件为FASTQ格式的RNA-seq测序数据，其使用STAR 2pass模式将RNA-seq测序数据比对到人类参考基因组上(如hg19、hg38、GRCh37、GRCh38)并生成相应的BAM文件。之后使用Picard和GATK完成一系列预处理步骤(去重、分割含有N的CIGAR reads、插入缺失序列的重排已经碱基质量矫正)。在完成预处理后，将调用多种突变检测算法(Varscan2/Lofreq/HaplotypeCaller/UnifiedGenotyper等)对BAM文件进行突变检测，另外，我们将对那些具有重要临床意义或对疾病有重要指导意义的基因和位点进行低敏感度的2pass检测(Varscan2)来防止由于过滤条件严格导致的假阴性。之后会使用ANNOVAR和我们构建的annovarR注释工具来对检测出的突变进行注释，从中挑选出与肿瘤发生、发展具有潜在相关性的基因突变位点。另外，为了保证突变检测的可靠性，防止某些系统性测序错误或重排导致的假阳性，我们推荐使用SAMtools或IGV对最终的突变位点进行人工检查，去掉一些潜在的假阳性位点。

实施例二

如图2所示，一种基于RNA-seq数据的肿瘤基因突变检测方法，所述基于RNA-seq数据的肿瘤基因突变检测方法包括以下步骤：

步骤S3：建立基于RNA-seq的基因突变注释数据库；

1)输入文件为FASTQ格式的RNA-seq测序数据；

3)使用Picard和GATK完成一系列预处理步骤；

4)调用多种突变检测算法对BAM文件进行突变检测；

7)通过可视化函数将最终突变检测结果转化为可以直接使用ProteinPaint工具进行基因突变数据可视化工作的格式。

通过一系列可以用于可视化的转化函数，将最终突变检测结果转化为可以直接使用cBioportal、St.Jude Pecan Data Portal的ProteinPaint工具进行基因突变数据可视化工作的格式。

具体的操作流程可如下：

输入文件为FASTQ格式的RNA-seq测序数据，其使用STAR 2pass模式将RNA-seq测序数据比对到人类参考基因组上(如hg19、hg38、GRCh37、GRCh38)并生成相应的BAM文件。之后使用Picard和GATK完成一系列预处理步骤(去重、分割含有N的CIGAR reads、插入缺失序列的重排已经碱基质量矫正)。在完成预处理后，将调用多种突变检测算法(Varscan2/Lofreq/HaplotypeCaller/UnifiedGenotyper等)对BAM文件进行突变检测，另外，我们将对那些具有重要临床意义或对疾病有重要指导意义的基因和位点进行低敏感度的2pass检测(Varscan2)来防止由于过滤条件严格导致的假阴性。之后会使用ANNOVAR和我们构建的annovarR注释工具来对检测出的突变进行注释，从中挑选出与肿瘤发生、发展具有潜在相关性的基因突变位点。另外，为了保证突变检测的可靠性，防止某些系统性测序错误或重排导致的假阳性，我们推荐使用SAMtools或IGV对最终的突变位点进行人工检查，去掉一些潜在的假阳性位点。最后，提供了一系列可以用于可视化的转化函数，其将最终突变检测结果转化为可以直接使用cBioportal、St.Jude Pecan Data Portal的ProteinPaint工具进行基因突变数据可视化工作的格式。

实施例三

在实际应用中，所述分析模块包括：

输入模块，用于输入文件为FASTQ格式的RNA-seq测序数据；

预处理模块，用于使用Picard和GATK完成一系列预处理步骤；

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域技术的技术人员在本发明公开的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.基于RNA-seq数据的肿瘤基因突变检测方法，其特征在于，所述基于RNA-seq数据的肿瘤基因突变检测方法包括以下步骤：

建立基于RNA-seq的基因突变注释数据库；

2.根据权利要求1所述的基于RNA-seq数据的肿瘤基因突变检测方法，其特征在于，所述从原始RNA-seq测序数据到最后突变检测结果的分析流程包括以下步骤：

输入文件为FASTQ格式的RNA-seq测序数据；

使用Picard和GATK完成一系列预处理步骤；

调用多种突变检测算法对BAM文件进行突变检测；

挑选出与肿瘤发生、发展具有潜在相关性的基因突变位点。

3.根据权利要求2所述的基于RNA-seq数据的肿瘤基因突变检测方法，其特征在于，所述分析流程包括：通过可视化函数将最终突变检测结果转化为可以直接使用ProteinPaint工具进行基因突变数据可视化工作的格式。

4.根据权利要求2所述的基于RNA-seq数据的肿瘤基因突变检测方法，其特征在于，所述预处理步骤包括：去重、分割含有N的CIGAR reads、插入缺失序列的重排以及碱基质量矫正。

5.根据权利要求2所述的基于RNA-seq数据的肿瘤基因突变检测方法，其特征在于，所述分析流程包括：进行低敏感度的2pass检测来防止由于过滤条件严格导致的假阴性。

6.根据权利要求2所述的基于RNA-seq数据的肿瘤基因突变检测方法，其特征在于，所述分析流程包括：使用SAMtools或IGV对最终的突变位点进行人工检查，去掉一些潜在的假阳性位点。

7.根据权利要求2所述的基于RNA-seq数据的肿瘤基因突变检测方法，其特征在于，所述将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件包括：使用STAR2pass模式将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件。

8.根据权利要求2至7之一所述的基于RNA-seq数据的肿瘤基因突变检测方法，其特征在于，所述annovarR注释工具是通过以ANNOVAR注释工具整合的50种与基因变异相关的数据库为基础进行相关开发和扩展形成的。

9.基于RNA-seq数据的肿瘤基因突变检测系统，其特征在于，所述基于RNA-seq数据的肿瘤基因突变检测系统包括：

10.根据权利要求9所述的基于RNA-seq数据的肿瘤基因突变检测系统，其特征在于，所述分析模块包括：

输入模块，用于输入文件为FASTQ格式的RNA-seq测序数据；

预处理模块，用于使用Picard和GATK完成一系列预处理步骤；