CN110021348A - 基于RNA-seq数据的肿瘤基因突变检测方法及系统 - Google Patents

基于RNA-seq数据的肿瘤基因突变检测方法及系统 Download PDF

Info

Publication number
CN110021348A
CN110021348A CN201810632056.7A CN201810632056A CN110021348A CN 110021348 A CN110021348 A CN 110021348A CN 201810632056 A CN201810632056 A CN 201810632056A CN 110021348 A CN110021348 A CN 110021348A
Authority
CN
China
Prior art keywords
rna
seq
mutation
data
gene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810632056.7A
Other languages
English (en)
Inventor
黄金艳
李剑峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ruinjin Hospital Affiliated to Shanghai Jiaotong University School of Medicine Co Ltd
Original Assignee
Ruinjin Hospital Affiliated to Shanghai Jiaotong University School of Medicine Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ruinjin Hospital Affiliated to Shanghai Jiaotong University School of Medicine Co Ltd filed Critical Ruinjin Hospital Affiliated to Shanghai Jiaotong University School of Medicine Co Ltd
Priority to CN201810632056.7A priority Critical patent/CN110021348A/zh
Publication of CN110021348A publication Critical patent/CN110021348A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于RNA‑seq数据的肿瘤基因突变检测方法,包括以下步骤:收集并分别整理出不同肿瘤、疾病高发的基因突变,建立一个高优先级突变检测的基因列表及突变位点数据库;收集并整理出目前已经具有明确的靶向或化疗药物作用位点的基因突变及基因数据库;建立基于RNA‑seq的基因突变注释数据库;收集整理出用于RNA‑seq突变检测的质量控制、基因序列比对、基因突变检测算法;建立一套完整的从原始RNA‑seq测序数据到最后突变检测结果的分析流程;还公开了基于RNA‑seq数据的肿瘤基因突变检测系统。通过使用整合的多个数据库,通过检测分析流程人们可以更加快速的找到已知的与肿瘤发生相关的基因突变位点。

Description

基于RNA-seq数据的肿瘤基因突变检测方法及系统
技术领域
本发明涉及基因突变检测技术领域,尤其涉及基于RNA-seq数据的肿瘤基因突变检测方法及系统。
背景技术
近年来,随着二代测序技术的快速发展和推广,其在肿瘤基因检测领域起到了举足轻重的作用。在此之前,肿瘤基因检测大多是基于病人肿瘤组织的DNA测序结果,而很少有基于RNA-seq(转录组测序技术)数据的肿瘤基因突变检测应用。实际上,通过RNA-seq数据检测出的基因突变往往能够更加直接的反映相关基因突变是否被大量表达并产生异常蛋白参与到细胞的代谢途径中。所以,为了更好的完成基于RNA-seq数据进行肿瘤基因突变检测,急需一款基于RNA-seq并专门针对于与临床应用相关的肿瘤基因突变检测的应用技术。
发明内容
鉴于目前存在的上述不足,本发明提供一种基于RNA-seq数据的肿瘤基因突变检测方法以及检测系统,可以更加快速的找到已知的与肿瘤发生相关的基因突变位点。
为达到上述目的,本发明的实施例采用如下技术方案:
一种基于RNA-seq数据的肿瘤基因突变检测方法,所述基于RNA-seq数据的肿瘤基因突变检测方法包括以下步骤:
收集并分别整理出不同肿瘤、疾病高发的基因突变,建立一个高优先级突变检测的基因列表及突变位点数据库;
收集并整理出目前已经具有明确的靶向或化疗药物作用位点的基因突变及基因数据库;
建立基于RNA-seq的基因突变注释数据库;
收集整理出用于RNA-seq突变检测的质量控制、基因序列比对、基因突变检测算法;
建立一套完整的从原始RNA-seq测序数据到最后突变检测结果的分析流程。
依照本发明的一个方面,所述从原始RNA-seq测序数据到最后突变检测结果的分析流程包括以下步骤:
输入文件为FASTQ格式的RNA-seq测序数据;
将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件;
使用Picard和GATK完成一系列预处理步骤;
调用多种突变检测算法对BAM文件进行突变检测;
使用ANNOVAR和构建的annovarR注释工具来对检测出的突变进行注释;
挑选出与肿瘤发生、发展具有潜在相关性的基因突变位点。
依照本发明的一个方面,所述分析流程包括:通过可视化函数将最终突变检测结果转化为可以直接使用ProteinPaint工具进行基因突变数据可视化工作的格式。
依照本发明的一个方面,所述预处理步骤包括:去重、分割含有N的CIGAR reads、插入缺失序列的重排以及碱基质量矫正。
依照本发明的一个方面,所述分析流程包括:进行低敏感度的2pass检测来防止由于过滤条件严格导致的假阴性。
依照本发明的一个方面,所述分析流程包括:使用SAMtools或IGV对最终的突变位点进行人工检查,去掉一些潜在的假阳性位点。
依照本发明的一个方面,所述将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件包括:使用STAR 2pass模式将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件。
依照本发明的一个方面,所述annovarR注释工具是通过以ANNOVAR注释工具整合的50种与基因变异相关的数据库为基础进行相关开发和扩展形成的。
基于RNA-seq数据的肿瘤基因突变检测系统,所述基于RNA-seq数据的肿瘤基因突变检测系统包括:
基因列表及突变位点数据库模块,用于收集并分别整理出不同肿瘤、疾病高发的基因突变,建立一个高优先级突变检测的基因列表及突变位点数据库;
基因突变及基因数据库模块,用于收集并整理出目前已经具有明确的靶向或化疗药物作用位点的基因突变及基因数据库;
基因突变注释数据库模块,用于建立基于RNA-seq的基因突变注释数据库;
检测模块,用于收集整理出用于RNA-seq突变检测的质量控制、基因序列比对、基因突变检测算法;
分析模块,用于建立一套完整的从原始RNA-seq测序数据到最后突变检测结果的分析流程。
依照本发明的一个方面,所述分析模块包括:
输入模块,用于输入文件为FASTQ格式的RNA-seq测序数据;
比对模块,用于将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件;
预处理模块,用于使用Picard和GATK完成一系列预处理步骤;
突变检测模块,用于调用多种突变检测算法对BAM文件进行突变检测;
注释模块,用于使用ANNOVAR和构建的annovarR注释工具来对检测出的突变进行注释;
结果选择模块,用于挑选出与肿瘤发生、发展具有潜在相关性的基因突变位点。
本发明实施的优点:本发明所述的基于RNA-seq数据的肿瘤基因突变检测方法,包括以下步骤:收集并分别整理出不同肿瘤、疾病高发的基因突变,建立一个高优先级突变检测的基因列表及突变位点数据库;收集并整理出目前已经具有明确的靶向或化疗药物作用位点的基因突变及基因数据库;建立基于RNA-seq的基因突变注释数据库;收集整理出用于RNA-seq突变检测的质量控制、基因序列比对、基因突变检测算法;建立一套完整的从原始RNA-seq测序数据到最后突变检测结果的分析流程;目的在于建立一套完整的基于基因病人肿瘤组织RNA-seq的突变检测应用,并建立了不同肿瘤、疾病高发的基因突变位点及基因数据库、具有靶向或化疗药物作用位点的基因突变及基因数据库、302例急性淋巴细胞白血病(ALL)肿瘤组织RNA-seq数据库、172例B-ALL肿瘤及其对照组织的全外显子组数据库、基于RNA-seq的注释数据库。通过使用整合的多个数据库,通过检测分析流程人们可以更加快速的找到已知的与肿瘤发生相关的基因突变位点。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一所述的一种基于RNA-seq数据的肿瘤基因突变检测方法分析流程图;
图2为本发明实施例二所述的一种基于RNA-seq数据的肿瘤基因突变检测方法分析流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
如图1所示,一种基于RNA-seq数据的肿瘤基因突变检测方法,所述基于RNA-seq数据的肿瘤基因突变检测方法包括以下步骤:
步骤S1:收集并分别整理出不同肿瘤、疾病高发的基因突变,建立一个高优先级突变检测的基因列表及突变位点数据库;
步骤S2:收集并整理出目前已经具有明确的靶向或化疗药物作用位点的基因突变及基因数据库;
步骤S3:建立基于RNA-seq的基因突变注释数据库;
步骤S4:收集整理出用于RNA-seq突变检测的质量控制、基因序列比对、基因突变检测算法;
步骤S5:建立一套完整的从原始RNA-seq测序数据到最后突变检测结果的分析流程。
其中,所述从原始RNA-seq测序数据到最后突变检测结果的分析流程包括以下步骤:
1)输入文件为FASTQ格式的RNA-seq测序数据;
2)将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件;
使用STAR 2pass模式将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件。
3)使用Picard和GATK完成一系列预处理步骤;
所述预处理步骤包括:去重、分割含有N的CIGAR reads、插入缺失序列的重排以及碱基质量矫正。
4)调用多种突变检测算法对BAM文件进行突变检测;
其中,进行低敏感度的2pass检测来防止由于过滤条件严格导致的假阴性。
5)使用ANNOVAR和构建的annovarR注释工具来对检测出的突变进行注释;
所述annovarR注释工具是通过以ANNOVAR注释工具整合的50种与基因变异相关的数据库为基础进行相关开发和扩展形成的。
可以自动化的完成大量生物信息数据库的下载、安装以及相应注释工作。特别地,通过引入数据库池、数据过滤脚本池、数据注释函数库来大大提高基因注释的效率和灵活度。另外,通过使用R中的并行计算包以及大数据处理包来大大提高基于R的注释工具的性能。而且,通过整合多个数据库集合,如ANNOVAR、DAVID等,可以大大方便人们开展相关生物信息数据注释工作。建立一个数据过滤脚本池,用于对不同输入数据以及参考数据库进行标准化,用户只需要从中选取相对应的函数传入annovarR,就可以自动完成数据标准化,从而进行相关数据注释和分析。
6)挑选出与肿瘤发生、发展具有潜在相关性的基因突变位点。
使用SAMtools或IGV对最终的突变位点进行人工检查,去掉一些潜在的假阳性位点。
具体的操作流程可如下:
输入文件为FASTQ格式的RNA-seq测序数据,其使用STAR 2pass模式将RNA-seq测序数据比对到人类参考基因组上(如hg19、hg38、GRCh37、GRCh38)并生成相应的BAM文件。之后使用Picard和GATK完成一系列预处理步骤(去重、分割含有N的CIGAR reads、插入缺失序列的重排已经碱基质量矫正)。在完成预处理后,将调用多种突变检测算法(Varscan2/Lofreq/HaplotypeCaller/UnifiedGenotyper等)对BAM文件进行突变检测,另外,我们将对那些具有重要临床意义或对疾病有重要指导意义的基因和位点进行低敏感度的2pass检测(Varscan2)来防止由于过滤条件严格导致的假阴性。之后会使用ANNOVAR和我们构建的annovarR注释工具来对检测出的突变进行注释,从中挑选出与肿瘤发生、发展具有潜在相关性的基因突变位点。另外,为了保证突变检测的可靠性,防止某些系统性测序错误或重排导致的假阳性,我们推荐使用SAMtools或IGV对最终的突变位点进行人工检查,去掉一些潜在的假阳性位点。
实施例二
如图2所示,一种基于RNA-seq数据的肿瘤基因突变检测方法,所述基于RNA-seq数据的肿瘤基因突变检测方法包括以下步骤:
步骤S1:收集并分别整理出不同肿瘤、疾病高发的基因突变,建立一个高优先级突变检测的基因列表及突变位点数据库;
步骤S2:收集并整理出目前已经具有明确的靶向或化疗药物作用位点的基因突变及基因数据库;
步骤S3:建立基于RNA-seq的基因突变注释数据库;
步骤S4:收集整理出用于RNA-seq突变检测的质量控制、基因序列比对、基因突变检测算法;
步骤S5:建立一套完整的从原始RNA-seq测序数据到最后突变检测结果的分析流程。
其中,所述从原始RNA-seq测序数据到最后突变检测结果的分析流程包括以下步骤:
1)输入文件为FASTQ格式的RNA-seq测序数据;
2)将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件;
使用STAR 2pass模式将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件。
3)使用Picard和GATK完成一系列预处理步骤;
所述预处理步骤包括:去重、分割含有N的CIGAR reads、插入缺失序列的重排以及碱基质量矫正。
4)调用多种突变检测算法对BAM文件进行突变检测;
其中,进行低敏感度的2pass检测来防止由于过滤条件严格导致的假阴性。
5)使用ANNOVAR和构建的annovarR注释工具来对检测出的突变进行注释;
所述annovarR注释工具是通过以ANNOVAR注释工具整合的50种与基因变异相关的数据库为基础进行相关开发和扩展形成的。
可以自动化的完成大量生物信息数据库的下载、安装以及相应注释工作。特别地,通过引入数据库池、数据过滤脚本池、数据注释函数库来大大提高基因注释的效率和灵活度。另外,通过使用R中的并行计算包以及大数据处理包来大大提高基于R的注释工具的性能。而且,通过整合多个数据库集合,如ANNOVAR、DAVID等,可以大大方便人们开展相关生物信息数据注释工作。建立一个数据过滤脚本池,用于对不同输入数据以及参考数据库进行标准化,用户只需要从中选取相对应的函数传入annovarR,就可以自动完成数据标准化,从而进行相关数据注释和分析。
6)挑选出与肿瘤发生、发展具有潜在相关性的基因突变位点。
使用SAMtools或IGV对最终的突变位点进行人工检查,去掉一些潜在的假阳性位点。
7)通过可视化函数将最终突变检测结果转化为可以直接使用ProteinPaint工具进行基因突变数据可视化工作的格式。
通过一系列可以用于可视化的转化函数,将最终突变检测结果转化为可以直接使用cBioportal、St.Jude Pecan Data Portal的ProteinPaint工具进行基因突变数据可视化工作的格式。
具体的操作流程可如下:
输入文件为FASTQ格式的RNA-seq测序数据,其使用STAR 2pass模式将RNA-seq测序数据比对到人类参考基因组上(如hg19、hg38、GRCh37、GRCh38)并生成相应的BAM文件。之后使用Picard和GATK完成一系列预处理步骤(去重、分割含有N的CIGAR reads、插入缺失序列的重排已经碱基质量矫正)。在完成预处理后,将调用多种突变检测算法(Varscan2/Lofreq/HaplotypeCaller/UnifiedGenotyper等)对BAM文件进行突变检测,另外,我们将对那些具有重要临床意义或对疾病有重要指导意义的基因和位点进行低敏感度的2pass检测(Varscan2)来防止由于过滤条件严格导致的假阴性。之后会使用ANNOVAR和我们构建的annovarR注释工具来对检测出的突变进行注释,从中挑选出与肿瘤发生、发展具有潜在相关性的基因突变位点。另外,为了保证突变检测的可靠性,防止某些系统性测序错误或重排导致的假阳性,我们推荐使用SAMtools或IGV对最终的突变位点进行人工检查,去掉一些潜在的假阳性位点。最后,提供了一系列可以用于可视化的转化函数,其将最终突变检测结果转化为可以直接使用cBioportal、St.Jude Pecan Data Portal的ProteinPaint工具进行基因突变数据可视化工作的格式。
实施例三
基于RNA-seq数据的肿瘤基因突变检测系统,所述基于RNA-seq数据的肿瘤基因突变检测系统包括:
基因列表及突变位点数据库模块,用于收集并分别整理出不同肿瘤、疾病高发的基因突变,建立一个高优先级突变检测的基因列表及突变位点数据库;
基因突变及基因数据库模块,用于收集并整理出目前已经具有明确的靶向或化疗药物作用位点的基因突变及基因数据库;
基因突变注释数据库模块,用于建立基于RNA-seq的基因突变注释数据库;
检测模块,用于收集整理出用于RNA-seq突变检测的质量控制、基因序列比对、基因突变检测算法;
分析模块,用于建立一套完整的从原始RNA-seq测序数据到最后突变检测结果的分析流程。
在实际应用中,所述分析模块包括:
输入模块,用于输入文件为FASTQ格式的RNA-seq测序数据;
比对模块,用于将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件;
预处理模块,用于使用Picard和GATK完成一系列预处理步骤;
突变检测模块,用于调用多种突变检测算法对BAM文件进行突变检测;
注释模块,用于使用ANNOVAR和构建的annovarR注释工具来对检测出的突变进行注释;
结果选择模块,用于挑选出与肿瘤发生、发展具有潜在相关性的基因突变位点。
本发明实施的优点:本发明所述的基于RNA-seq数据的肿瘤基因突变检测方法,包括以下步骤:收集并分别整理出不同肿瘤、疾病高发的基因突变,建立一个高优先级突变检测的基因列表及突变位点数据库;收集并整理出目前已经具有明确的靶向或化疗药物作用位点的基因突变及基因数据库;建立基于RNA-seq的基因突变注释数据库;收集整理出用于RNA-seq突变检测的质量控制、基因序列比对、基因突变检测算法;建立一套完整的从原始RNA-seq测序数据到最后突变检测结果的分析流程;目的在于建立一套完整的基于基因病人肿瘤组织RNA-seq的突变检测应用,并建立了不同肿瘤、疾病高发的基因突变位点及基因数据库、具有靶向或化疗药物作用位点的基因突变及基因数据库、302例急性淋巴细胞白血病(ALL)肿瘤组织RNA-seq数据库、172例B-ALL肿瘤及其对照组织的全外显子组数据库、基于RNA-seq的注释数据库。通过使用整合的多个数据库,通过检测分析流程人们可以更加快速的找到已知的与肿瘤发生相关的基因突变位点。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域技术的技术人员在本发明公开的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.基于RNA-seq数据的肿瘤基因突变检测方法,其特征在于,所述基于RNA-seq数据的肿瘤基因突变检测方法包括以下步骤:
收集并分别整理出不同肿瘤、疾病高发的基因突变,建立一个高优先级突变检测的基因列表及突变位点数据库;
收集并整理出目前已经具有明确的靶向或化疗药物作用位点的基因突变及基因数据库;
建立基于RNA-seq的基因突变注释数据库;
收集整理出用于RNA-seq突变检测的质量控制、基因序列比对、基因突变检测算法;
建立一套完整的从原始RNA-seq测序数据到最后突变检测结果的分析流程。
2.根据权利要求1所述的基于RNA-seq数据的肿瘤基因突变检测方法,其特征在于,所述从原始RNA-seq测序数据到最后突变检测结果的分析流程包括以下步骤:
输入文件为FASTQ格式的RNA-seq测序数据;
将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件;
使用Picard和GATK完成一系列预处理步骤;
调用多种突变检测算法对BAM文件进行突变检测;
使用ANNOVAR和构建的annovarR注释工具来对检测出的突变进行注释;
挑选出与肿瘤发生、发展具有潜在相关性的基因突变位点。
3.根据权利要求2所述的基于RNA-seq数据的肿瘤基因突变检测方法,其特征在于,所述分析流程包括:通过可视化函数将最终突变检测结果转化为可以直接使用ProteinPaint工具进行基因突变数据可视化工作的格式。
4.根据权利要求2所述的基于RNA-seq数据的肿瘤基因突变检测方法,其特征在于,所述预处理步骤包括:去重、分割含有N的CIGAR reads、插入缺失序列的重排以及碱基质量矫正。
5.根据权利要求2所述的基于RNA-seq数据的肿瘤基因突变检测方法,其特征在于,所述分析流程包括:进行低敏感度的2pass检测来防止由于过滤条件严格导致的假阴性。
6.根据权利要求2所述的基于RNA-seq数据的肿瘤基因突变检测方法,其特征在于,所述分析流程包括:使用SAMtools或IGV对最终的突变位点进行人工检查,去掉一些潜在的假阳性位点。
7.根据权利要求2所述的基于RNA-seq数据的肿瘤基因突变检测方法,其特征在于,所述将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件包括:使用STAR2pass模式将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件。
8.根据权利要求2至7之一所述的基于RNA-seq数据的肿瘤基因突变检测方法,其特征在于,所述annovarR注释工具是通过以ANNOVAR注释工具整合的50种与基因变异相关的数据库为基础进行相关开发和扩展形成的。
9.基于RNA-seq数据的肿瘤基因突变检测系统,其特征在于,所述基于RNA-seq数据的肿瘤基因突变检测系统包括:
基因列表及突变位点数据库模块,用于收集并分别整理出不同肿瘤、疾病高发的基因突变,建立一个高优先级突变检测的基因列表及突变位点数据库;
基因突变及基因数据库模块,用于收集并整理出目前已经具有明确的靶向或化疗药物作用位点的基因突变及基因数据库;
基因突变注释数据库模块,用于建立基于RNA-seq的基因突变注释数据库;
检测模块,用于收集整理出用于RNA-seq突变检测的质量控制、基因序列比对、基因突变检测算法;
分析模块,用于建立一套完整的从原始RNA-seq测序数据到最后突变检测结果的分析流程。
10.根据权利要求9所述的基于RNA-seq数据的肿瘤基因突变检测系统,其特征在于,所述分析模块包括:
输入模块,用于输入文件为FASTQ格式的RNA-seq测序数据;
比对模块,用于将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件;
预处理模块,用于使用Picard和GATK完成一系列预处理步骤;
突变检测模块,用于调用多种突变检测算法对BAM文件进行突变检测;
注释模块,用于使用ANNOVAR和构建的annovarR注释工具来对检测出的突变进行注释;
结果选择模块,用于挑选出与肿瘤发生、发展具有潜在相关性的基因突变位点。
CN201810632056.7A 2018-06-19 2018-06-19 基于RNA-seq数据的肿瘤基因突变检测方法及系统 Pending CN110021348A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810632056.7A CN110021348A (zh) 2018-06-19 2018-06-19 基于RNA-seq数据的肿瘤基因突变检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810632056.7A CN110021348A (zh) 2018-06-19 2018-06-19 基于RNA-seq数据的肿瘤基因突变检测方法及系统

Publications (1)

Publication Number Publication Date
CN110021348A true CN110021348A (zh) 2019-07-16

Family

ID=67188388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810632056.7A Pending CN110021348A (zh) 2018-06-19 2018-06-19 基于RNA-seq数据的肿瘤基因突变检测方法及系统

Country Status (1)

Country Link
CN (1) CN110021348A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933214A (zh) * 2020-09-27 2020-11-13 至本医疗科技(上海)有限公司 用于检测rna水平体细胞基因变异的方法、计算设备
CN112164423A (zh) * 2020-10-14 2021-01-01 深圳吉因加医学检验实验室 基于RNAseq数据的融合基因检测方法、装置和存储介质
CN112309499A (zh) * 2020-11-09 2021-02-02 浙江大学 一种细菌pdif快速注释方法及装置
CN113257347A (zh) * 2021-05-14 2021-08-13 温州谱希医学检验实验室有限公司 注释后的突变检测结果文件的数据处理方法及相关设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080050370A1 (en) * 2006-03-17 2008-02-28 Scott Glaser Stabilized polypeptide compositions
US20130184999A1 (en) * 2012-01-05 2013-07-18 Yan Ding Systems and methods for cancer-specific drug targets and biomarkers discovery
WO2015013191A1 (en) * 2013-07-21 2015-01-29 Dana-Farber Cancer Institute, Inc. Methods, systems, apparatus and their optimization for effective clinical analysis and conveying results thereof
CN106021994A (zh) * 2016-05-13 2016-10-12 万康源(天津)基因科技有限公司 一种肿瘤突变位点筛选及互斥基因挖掘的方法
CN107523563A (zh) * 2017-09-08 2017-12-29 杭州和壹基因科技有限公司 一种用于循环肿瘤dna分析的生物信息处理方法
CN107577921A (zh) * 2017-08-25 2018-01-12 云壹生物技术(大连)有限公司 一种肿瘤靶向基因测序数据解析方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080050370A1 (en) * 2006-03-17 2008-02-28 Scott Glaser Stabilized polypeptide compositions
US20130184999A1 (en) * 2012-01-05 2013-07-18 Yan Ding Systems and methods for cancer-specific drug targets and biomarkers discovery
WO2015013191A1 (en) * 2013-07-21 2015-01-29 Dana-Farber Cancer Institute, Inc. Methods, systems, apparatus and their optimization for effective clinical analysis and conveying results thereof
CN106021994A (zh) * 2016-05-13 2016-10-12 万康源(天津)基因科技有限公司 一种肿瘤突变位点筛选及互斥基因挖掘的方法
CN107577921A (zh) * 2017-08-25 2018-01-12 云壹生物技术(大连)有限公司 一种肿瘤靶向基因测序数据解析方法
CN107523563A (zh) * 2017-09-08 2017-12-29 杭州和壹基因科技有限公司 一种用于循环肿瘤dna分析的生物信息处理方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933214A (zh) * 2020-09-27 2020-11-13 至本医疗科技(上海)有限公司 用于检测rna水平体细胞基因变异的方法、计算设备
CN112164423A (zh) * 2020-10-14 2021-01-01 深圳吉因加医学检验实验室 基于RNAseq数据的融合基因检测方法、装置和存储介质
CN112309499A (zh) * 2020-11-09 2021-02-02 浙江大学 一种细菌pdif快速注释方法及装置
CN113257347A (zh) * 2021-05-14 2021-08-13 温州谱希医学检验实验室有限公司 注释后的突变检测结果文件的数据处理方法及相关设备

Similar Documents

Publication Publication Date Title
CN110021348A (zh) 基于RNA-seq数据的肿瘤基因突变检测方法及系统
Rosenberg et al. Taxon sampling, bioinformatics, and phylogenomics
US20210257050A1 (en) Systems and methods for using neural networks for germline and somatic variant calling
CN107391965A (zh) 一种基于高通量测序技术的肺癌体细胞突变检测分析方法
CN106021984A (zh) 一种全外显子组测序数据分析系统
CN107423578A (zh) 检测体细胞突变的装置
CN109686439A (zh) 遗传病基因检测的数据分析方法、系统及存储介质
CN106599616A (zh) 基于duplex‑seq的超低频突变位点检测分析方法
CN108830044A (zh) 用于检测癌症样本基因融合的检测方法和装置
CN107292129A (zh) 易感基因型检测方法
US20220277811A1 (en) Detecting False Positive Variant Calls In Next-Generation Sequencing
CN107451429A (zh) 一种一键化分析rna数据的系统
CN109767811A (zh) 用于预测肿瘤突变负荷的线型模型的构建方法、预测肿瘤突变负荷的方法及装置
CN111180013B (zh) 检测血液病融合基因的装置
Holtgrewe et al. Methods for the detection and assembly of novel sequence in high-throughput sequencing data
CN113380396A (zh) 一种基于粪便微生物标志物和人dna含量的多种肠道疾病风险评估的方法及应用
CN108256291A (zh) 一种生成具有较高可信度基因突变检测结果的方法
CN110164504B (zh) 二代测序数据的处理方法、装置及电子设备
Petri et al. isONform: reference-free transcriptome reconstruction from Oxford Nanopore data
Prunier et al. Fast alignment of mass spectra in large proteomics datasets, capturing dissimilarities arising from multiple complex modifications of peptides
CN110111890A (zh) 一种基于基因测序技术的个体精准养生方法
WO2021148283A1 (en) Guided analysis of single cell sequencing data using bulk sequencing data
CN115083517B (zh) 一种识别增强子与超级增强子的数据处理方法及其系统
Zheng et al. SVsearcher: A more accurate structural variation detection method in long read data
CN111653312B (zh) 一种利用基因组数据探究疾病亚型亲缘性的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190716

RJ01 Rejection of invention patent application after publication