CN110021348A - 基于RNA-seq数据的肿瘤基因突变检测方法及系统 - Google Patents
基于RNA-seq数据的肿瘤基因突变检测方法及系统 Download PDFInfo
- Publication number
- CN110021348A CN110021348A CN201810632056.7A CN201810632056A CN110021348A CN 110021348 A CN110021348 A CN 110021348A CN 201810632056 A CN201810632056 A CN 201810632056A CN 110021348 A CN110021348 A CN 110021348A
- Authority
- CN
- China
- Prior art keywords
- rna
- seq
- mutation
- data
- gene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003559 RNA-seq method Methods 0.000 title claims abstract description 100
- 238000001514 detection method Methods 0.000 title claims abstract description 56
- 230000035772 mutation Effects 0.000 title claims abstract description 51
- 108700020796 Oncogene Proteins 0.000 title claims abstract description 36
- 206010064571 Gene mutation Diseases 0.000 claims abstract description 67
- 230000008859 change Effects 0.000 claims abstract description 61
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 45
- 238000012163 sequencing technique Methods 0.000 claims abstract description 40
- 238000004458 analytical method Methods 0.000 claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 26
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 24
- 230000008569 process Effects 0.000 claims abstract description 23
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 230000000869 mutational effect Effects 0.000 claims abstract description 18
- 201000010099 disease Diseases 0.000 claims abstract description 16
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 16
- 238000003908 quality control method Methods 0.000 claims abstract description 10
- 230000008685 targeting Effects 0.000 claims abstract description 10
- 230000009471 action Effects 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims description 12
- 208000005623 Carcinogenesis Diseases 0.000 claims description 9
- 230000036952 cancer formation Effects 0.000 claims description 9
- 231100000504 carcinogenesis Toxicity 0.000 claims description 9
- 235000019506 cigar Nutrition 0.000 claims description 6
- 238000012217 deletion Methods 0.000 claims description 6
- 230000037430 deletion Effects 0.000 claims description 6
- 238000003780 insertion Methods 0.000 claims description 6
- 230000037431 insertion Effects 0.000 claims description 6
- 230000008707 rearrangement Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000035945 sensitivity Effects 0.000 claims description 6
- 238000013079 data visualisation Methods 0.000 claims description 5
- 238000011161 development Methods 0.000 claims description 5
- 230000018109 developmental process Effects 0.000 claims description 5
- 238000002203 pretreatment Methods 0.000 claims description 4
- 238000012800 visualization Methods 0.000 claims description 2
- 230000010354 integration Effects 0.000 abstract description 4
- 238000012360 testing method Methods 0.000 abstract description 3
- 238000001914 filtration Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 208000025321 B-lymphoblastic leukemia/lymphoma Diseases 0.000 description 2
- 241001269238 Data Species 0.000 description 2
- 230000001154 acute effect Effects 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 238000002512 chemotherapy Methods 0.000 description 2
- 230000000857 drug effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 208000017426 precursor B-cell acute lymphoblastic leukemia Diseases 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000001712 DNA sequencing Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000037353 metabolic pathway Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于RNA‑seq数据的肿瘤基因突变检测方法,包括以下步骤:收集并分别整理出不同肿瘤、疾病高发的基因突变,建立一个高优先级突变检测的基因列表及突变位点数据库;收集并整理出目前已经具有明确的靶向或化疗药物作用位点的基因突变及基因数据库;建立基于RNA‑seq的基因突变注释数据库;收集整理出用于RNA‑seq突变检测的质量控制、基因序列比对、基因突变检测算法;建立一套完整的从原始RNA‑seq测序数据到最后突变检测结果的分析流程;还公开了基于RNA‑seq数据的肿瘤基因突变检测系统。通过使用整合的多个数据库,通过检测分析流程人们可以更加快速的找到已知的与肿瘤发生相关的基因突变位点。
Description
技术领域
本发明涉及基因突变检测技术领域,尤其涉及基于RNA-seq数据的肿瘤基因突变检测方法及系统。
背景技术
近年来,随着二代测序技术的快速发展和推广,其在肿瘤基因检测领域起到了举足轻重的作用。在此之前,肿瘤基因检测大多是基于病人肿瘤组织的DNA测序结果,而很少有基于RNA-seq(转录组测序技术)数据的肿瘤基因突变检测应用。实际上,通过RNA-seq数据检测出的基因突变往往能够更加直接的反映相关基因突变是否被大量表达并产生异常蛋白参与到细胞的代谢途径中。所以,为了更好的完成基于RNA-seq数据进行肿瘤基因突变检测,急需一款基于RNA-seq并专门针对于与临床应用相关的肿瘤基因突变检测的应用技术。
发明内容
鉴于目前存在的上述不足,本发明提供一种基于RNA-seq数据的肿瘤基因突变检测方法以及检测系统,可以更加快速的找到已知的与肿瘤发生相关的基因突变位点。
为达到上述目的,本发明的实施例采用如下技术方案:
一种基于RNA-seq数据的肿瘤基因突变检测方法,所述基于RNA-seq数据的肿瘤基因突变检测方法包括以下步骤:
收集并分别整理出不同肿瘤、疾病高发的基因突变,建立一个高优先级突变检测的基因列表及突变位点数据库;
收集并整理出目前已经具有明确的靶向或化疗药物作用位点的基因突变及基因数据库;
建立基于RNA-seq的基因突变注释数据库;
收集整理出用于RNA-seq突变检测的质量控制、基因序列比对、基因突变检测算法;
建立一套完整的从原始RNA-seq测序数据到最后突变检测结果的分析流程。
依照本发明的一个方面,所述从原始RNA-seq测序数据到最后突变检测结果的分析流程包括以下步骤:
输入文件为FASTQ格式的RNA-seq测序数据;
将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件;
使用Picard和GATK完成一系列预处理步骤;
调用多种突变检测算法对BAM文件进行突变检测;
使用ANNOVAR和构建的annovarR注释工具来对检测出的突变进行注释;
挑选出与肿瘤发生、发展具有潜在相关性的基因突变位点。
依照本发明的一个方面,所述分析流程包括:通过可视化函数将最终突变检测结果转化为可以直接使用ProteinPaint工具进行基因突变数据可视化工作的格式。
依照本发明的一个方面,所述预处理步骤包括:去重、分割含有N的CIGAR reads、插入缺失序列的重排以及碱基质量矫正。
依照本发明的一个方面,所述分析流程包括:进行低敏感度的2pass检测来防止由于过滤条件严格导致的假阴性。
依照本发明的一个方面,所述分析流程包括:使用SAMtools或IGV对最终的突变位点进行人工检查,去掉一些潜在的假阳性位点。
依照本发明的一个方面,所述将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件包括:使用STAR 2pass模式将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件。
依照本发明的一个方面,所述annovarR注释工具是通过以ANNOVAR注释工具整合的50种与基因变异相关的数据库为基础进行相关开发和扩展形成的。
基于RNA-seq数据的肿瘤基因突变检测系统,所述基于RNA-seq数据的肿瘤基因突变检测系统包括:
基因列表及突变位点数据库模块,用于收集并分别整理出不同肿瘤、疾病高发的基因突变,建立一个高优先级突变检测的基因列表及突变位点数据库;
基因突变及基因数据库模块,用于收集并整理出目前已经具有明确的靶向或化疗药物作用位点的基因突变及基因数据库;
基因突变注释数据库模块,用于建立基于RNA-seq的基因突变注释数据库;
检测模块,用于收集整理出用于RNA-seq突变检测的质量控制、基因序列比对、基因突变检测算法;
分析模块,用于建立一套完整的从原始RNA-seq测序数据到最后突变检测结果的分析流程。
依照本发明的一个方面,所述分析模块包括:
输入模块,用于输入文件为FASTQ格式的RNA-seq测序数据;
比对模块,用于将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件;
预处理模块,用于使用Picard和GATK完成一系列预处理步骤;
突变检测模块,用于调用多种突变检测算法对BAM文件进行突变检测;
注释模块,用于使用ANNOVAR和构建的annovarR注释工具来对检测出的突变进行注释;
结果选择模块,用于挑选出与肿瘤发生、发展具有潜在相关性的基因突变位点。
本发明实施的优点:本发明所述的基于RNA-seq数据的肿瘤基因突变检测方法,包括以下步骤:收集并分别整理出不同肿瘤、疾病高发的基因突变,建立一个高优先级突变检测的基因列表及突变位点数据库;收集并整理出目前已经具有明确的靶向或化疗药物作用位点的基因突变及基因数据库;建立基于RNA-seq的基因突变注释数据库;收集整理出用于RNA-seq突变检测的质量控制、基因序列比对、基因突变检测算法;建立一套完整的从原始RNA-seq测序数据到最后突变检测结果的分析流程;目的在于建立一套完整的基于基因病人肿瘤组织RNA-seq的突变检测应用,并建立了不同肿瘤、疾病高发的基因突变位点及基因数据库、具有靶向或化疗药物作用位点的基因突变及基因数据库、302例急性淋巴细胞白血病(ALL)肿瘤组织RNA-seq数据库、172例B-ALL肿瘤及其对照组织的全外显子组数据库、基于RNA-seq的注释数据库。通过使用整合的多个数据库,通过检测分析流程人们可以更加快速的找到已知的与肿瘤发生相关的基因突变位点。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一所述的一种基于RNA-seq数据的肿瘤基因突变检测方法分析流程图;
图2为本发明实施例二所述的一种基于RNA-seq数据的肿瘤基因突变检测方法分析流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
如图1所示,一种基于RNA-seq数据的肿瘤基因突变检测方法,所述基于RNA-seq数据的肿瘤基因突变检测方法包括以下步骤:
步骤S1:收集并分别整理出不同肿瘤、疾病高发的基因突变,建立一个高优先级突变检测的基因列表及突变位点数据库;
步骤S2:收集并整理出目前已经具有明确的靶向或化疗药物作用位点的基因突变及基因数据库;
步骤S3:建立基于RNA-seq的基因突变注释数据库;
步骤S4:收集整理出用于RNA-seq突变检测的质量控制、基因序列比对、基因突变检测算法;
步骤S5:建立一套完整的从原始RNA-seq测序数据到最后突变检测结果的分析流程。
其中,所述从原始RNA-seq测序数据到最后突变检测结果的分析流程包括以下步骤:
1)输入文件为FASTQ格式的RNA-seq测序数据;
2)将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件;
使用STAR 2pass模式将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件。
3)使用Picard和GATK完成一系列预处理步骤;
所述预处理步骤包括:去重、分割含有N的CIGAR reads、插入缺失序列的重排以及碱基质量矫正。
4)调用多种突变检测算法对BAM文件进行突变检测;
其中,进行低敏感度的2pass检测来防止由于过滤条件严格导致的假阴性。
5)使用ANNOVAR和构建的annovarR注释工具来对检测出的突变进行注释;
所述annovarR注释工具是通过以ANNOVAR注释工具整合的50种与基因变异相关的数据库为基础进行相关开发和扩展形成的。
可以自动化的完成大量生物信息数据库的下载、安装以及相应注释工作。特别地,通过引入数据库池、数据过滤脚本池、数据注释函数库来大大提高基因注释的效率和灵活度。另外,通过使用R中的并行计算包以及大数据处理包来大大提高基于R的注释工具的性能。而且,通过整合多个数据库集合,如ANNOVAR、DAVID等,可以大大方便人们开展相关生物信息数据注释工作。建立一个数据过滤脚本池,用于对不同输入数据以及参考数据库进行标准化,用户只需要从中选取相对应的函数传入annovarR,就可以自动完成数据标准化,从而进行相关数据注释和分析。
6)挑选出与肿瘤发生、发展具有潜在相关性的基因突变位点。
使用SAMtools或IGV对最终的突变位点进行人工检查,去掉一些潜在的假阳性位点。
具体的操作流程可如下:
输入文件为FASTQ格式的RNA-seq测序数据,其使用STAR 2pass模式将RNA-seq测序数据比对到人类参考基因组上(如hg19、hg38、GRCh37、GRCh38)并生成相应的BAM文件。之后使用Picard和GATK完成一系列预处理步骤(去重、分割含有N的CIGAR reads、插入缺失序列的重排已经碱基质量矫正)。在完成预处理后,将调用多种突变检测算法(Varscan2/Lofreq/HaplotypeCaller/UnifiedGenotyper等)对BAM文件进行突变检测,另外,我们将对那些具有重要临床意义或对疾病有重要指导意义的基因和位点进行低敏感度的2pass检测(Varscan2)来防止由于过滤条件严格导致的假阴性。之后会使用ANNOVAR和我们构建的annovarR注释工具来对检测出的突变进行注释,从中挑选出与肿瘤发生、发展具有潜在相关性的基因突变位点。另外,为了保证突变检测的可靠性,防止某些系统性测序错误或重排导致的假阳性,我们推荐使用SAMtools或IGV对最终的突变位点进行人工检查,去掉一些潜在的假阳性位点。
实施例二
如图2所示,一种基于RNA-seq数据的肿瘤基因突变检测方法,所述基于RNA-seq数据的肿瘤基因突变检测方法包括以下步骤:
步骤S1:收集并分别整理出不同肿瘤、疾病高发的基因突变,建立一个高优先级突变检测的基因列表及突变位点数据库;
步骤S2:收集并整理出目前已经具有明确的靶向或化疗药物作用位点的基因突变及基因数据库;
步骤S3:建立基于RNA-seq的基因突变注释数据库;
步骤S4:收集整理出用于RNA-seq突变检测的质量控制、基因序列比对、基因突变检测算法;
步骤S5:建立一套完整的从原始RNA-seq测序数据到最后突变检测结果的分析流程。
其中,所述从原始RNA-seq测序数据到最后突变检测结果的分析流程包括以下步骤:
1)输入文件为FASTQ格式的RNA-seq测序数据;
2)将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件;
使用STAR 2pass模式将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件。
3)使用Picard和GATK完成一系列预处理步骤;
所述预处理步骤包括:去重、分割含有N的CIGAR reads、插入缺失序列的重排以及碱基质量矫正。
4)调用多种突变检测算法对BAM文件进行突变检测;
其中,进行低敏感度的2pass检测来防止由于过滤条件严格导致的假阴性。
5)使用ANNOVAR和构建的annovarR注释工具来对检测出的突变进行注释;
所述annovarR注释工具是通过以ANNOVAR注释工具整合的50种与基因变异相关的数据库为基础进行相关开发和扩展形成的。
可以自动化的完成大量生物信息数据库的下载、安装以及相应注释工作。特别地,通过引入数据库池、数据过滤脚本池、数据注释函数库来大大提高基因注释的效率和灵活度。另外,通过使用R中的并行计算包以及大数据处理包来大大提高基于R的注释工具的性能。而且,通过整合多个数据库集合,如ANNOVAR、DAVID等,可以大大方便人们开展相关生物信息数据注释工作。建立一个数据过滤脚本池,用于对不同输入数据以及参考数据库进行标准化,用户只需要从中选取相对应的函数传入annovarR,就可以自动完成数据标准化,从而进行相关数据注释和分析。
6)挑选出与肿瘤发生、发展具有潜在相关性的基因突变位点。
使用SAMtools或IGV对最终的突变位点进行人工检查,去掉一些潜在的假阳性位点。
7)通过可视化函数将最终突变检测结果转化为可以直接使用ProteinPaint工具进行基因突变数据可视化工作的格式。
通过一系列可以用于可视化的转化函数,将最终突变检测结果转化为可以直接使用cBioportal、St.Jude Pecan Data Portal的ProteinPaint工具进行基因突变数据可视化工作的格式。
具体的操作流程可如下:
输入文件为FASTQ格式的RNA-seq测序数据,其使用STAR 2pass模式将RNA-seq测序数据比对到人类参考基因组上(如hg19、hg38、GRCh37、GRCh38)并生成相应的BAM文件。之后使用Picard和GATK完成一系列预处理步骤(去重、分割含有N的CIGAR reads、插入缺失序列的重排已经碱基质量矫正)。在完成预处理后,将调用多种突变检测算法(Varscan2/Lofreq/HaplotypeCaller/UnifiedGenotyper等)对BAM文件进行突变检测,另外,我们将对那些具有重要临床意义或对疾病有重要指导意义的基因和位点进行低敏感度的2pass检测(Varscan2)来防止由于过滤条件严格导致的假阴性。之后会使用ANNOVAR和我们构建的annovarR注释工具来对检测出的突变进行注释,从中挑选出与肿瘤发生、发展具有潜在相关性的基因突变位点。另外,为了保证突变检测的可靠性,防止某些系统性测序错误或重排导致的假阳性,我们推荐使用SAMtools或IGV对最终的突变位点进行人工检查,去掉一些潜在的假阳性位点。最后,提供了一系列可以用于可视化的转化函数,其将最终突变检测结果转化为可以直接使用cBioportal、St.Jude Pecan Data Portal的ProteinPaint工具进行基因突变数据可视化工作的格式。
实施例三
基于RNA-seq数据的肿瘤基因突变检测系统,所述基于RNA-seq数据的肿瘤基因突变检测系统包括:
基因列表及突变位点数据库模块,用于收集并分别整理出不同肿瘤、疾病高发的基因突变,建立一个高优先级突变检测的基因列表及突变位点数据库;
基因突变及基因数据库模块,用于收集并整理出目前已经具有明确的靶向或化疗药物作用位点的基因突变及基因数据库;
基因突变注释数据库模块,用于建立基于RNA-seq的基因突变注释数据库;
检测模块,用于收集整理出用于RNA-seq突变检测的质量控制、基因序列比对、基因突变检测算法;
分析模块,用于建立一套完整的从原始RNA-seq测序数据到最后突变检测结果的分析流程。
在实际应用中,所述分析模块包括:
输入模块,用于输入文件为FASTQ格式的RNA-seq测序数据;
比对模块,用于将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件;
预处理模块,用于使用Picard和GATK完成一系列预处理步骤;
突变检测模块,用于调用多种突变检测算法对BAM文件进行突变检测;
注释模块,用于使用ANNOVAR和构建的annovarR注释工具来对检测出的突变进行注释;
结果选择模块,用于挑选出与肿瘤发生、发展具有潜在相关性的基因突变位点。
本发明实施的优点:本发明所述的基于RNA-seq数据的肿瘤基因突变检测方法,包括以下步骤:收集并分别整理出不同肿瘤、疾病高发的基因突变,建立一个高优先级突变检测的基因列表及突变位点数据库;收集并整理出目前已经具有明确的靶向或化疗药物作用位点的基因突变及基因数据库;建立基于RNA-seq的基因突变注释数据库;收集整理出用于RNA-seq突变检测的质量控制、基因序列比对、基因突变检测算法;建立一套完整的从原始RNA-seq测序数据到最后突变检测结果的分析流程;目的在于建立一套完整的基于基因病人肿瘤组织RNA-seq的突变检测应用,并建立了不同肿瘤、疾病高发的基因突变位点及基因数据库、具有靶向或化疗药物作用位点的基因突变及基因数据库、302例急性淋巴细胞白血病(ALL)肿瘤组织RNA-seq数据库、172例B-ALL肿瘤及其对照组织的全外显子组数据库、基于RNA-seq的注释数据库。通过使用整合的多个数据库,通过检测分析流程人们可以更加快速的找到已知的与肿瘤发生相关的基因突变位点。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域技术的技术人员在本发明公开的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.基于RNA-seq数据的肿瘤基因突变检测方法,其特征在于,所述基于RNA-seq数据的肿瘤基因突变检测方法包括以下步骤:
收集并分别整理出不同肿瘤、疾病高发的基因突变,建立一个高优先级突变检测的基因列表及突变位点数据库;
收集并整理出目前已经具有明确的靶向或化疗药物作用位点的基因突变及基因数据库;
建立基于RNA-seq的基因突变注释数据库;
收集整理出用于RNA-seq突变检测的质量控制、基因序列比对、基因突变检测算法;
建立一套完整的从原始RNA-seq测序数据到最后突变检测结果的分析流程。
2.根据权利要求1所述的基于RNA-seq数据的肿瘤基因突变检测方法,其特征在于,所述从原始RNA-seq测序数据到最后突变检测结果的分析流程包括以下步骤:
输入文件为FASTQ格式的RNA-seq测序数据;
将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件;
使用Picard和GATK完成一系列预处理步骤;
调用多种突变检测算法对BAM文件进行突变检测;
使用ANNOVAR和构建的annovarR注释工具来对检测出的突变进行注释;
挑选出与肿瘤发生、发展具有潜在相关性的基因突变位点。
3.根据权利要求2所述的基于RNA-seq数据的肿瘤基因突变检测方法,其特征在于,所述分析流程包括:通过可视化函数将最终突变检测结果转化为可以直接使用ProteinPaint工具进行基因突变数据可视化工作的格式。
4.根据权利要求2所述的基于RNA-seq数据的肿瘤基因突变检测方法,其特征在于,所述预处理步骤包括:去重、分割含有N的CIGAR reads、插入缺失序列的重排以及碱基质量矫正。
5.根据权利要求2所述的基于RNA-seq数据的肿瘤基因突变检测方法,其特征在于,所述分析流程包括:进行低敏感度的2pass检测来防止由于过滤条件严格导致的假阴性。
6.根据权利要求2所述的基于RNA-seq数据的肿瘤基因突变检测方法,其特征在于,所述分析流程包括:使用SAMtools或IGV对最终的突变位点进行人工检查,去掉一些潜在的假阳性位点。
7.根据权利要求2所述的基于RNA-seq数据的肿瘤基因突变检测方法,其特征在于,所述将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件包括:使用STAR2pass模式将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件。
8.根据权利要求2至7之一所述的基于RNA-seq数据的肿瘤基因突变检测方法,其特征在于,所述annovarR注释工具是通过以ANNOVAR注释工具整合的50种与基因变异相关的数据库为基础进行相关开发和扩展形成的。
9.基于RNA-seq数据的肿瘤基因突变检测系统,其特征在于,所述基于RNA-seq数据的肿瘤基因突变检测系统包括:
基因列表及突变位点数据库模块,用于收集并分别整理出不同肿瘤、疾病高发的基因突变,建立一个高优先级突变检测的基因列表及突变位点数据库;
基因突变及基因数据库模块,用于收集并整理出目前已经具有明确的靶向或化疗药物作用位点的基因突变及基因数据库;
基因突变注释数据库模块,用于建立基于RNA-seq的基因突变注释数据库;
检测模块,用于收集整理出用于RNA-seq突变检测的质量控制、基因序列比对、基因突变检测算法;
分析模块,用于建立一套完整的从原始RNA-seq测序数据到最后突变检测结果的分析流程。
10.根据权利要求9所述的基于RNA-seq数据的肿瘤基因突变检测系统,其特征在于,所述分析模块包括:
输入模块,用于输入文件为FASTQ格式的RNA-seq测序数据;
比对模块,用于将RNA-seq测序数据比对到人类参考基因组上并生成相应的BAM文件;
预处理模块,用于使用Picard和GATK完成一系列预处理步骤;
突变检测模块,用于调用多种突变检测算法对BAM文件进行突变检测;
注释模块,用于使用ANNOVAR和构建的annovarR注释工具来对检测出的突变进行注释;
结果选择模块,用于挑选出与肿瘤发生、发展具有潜在相关性的基因突变位点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810632056.7A CN110021348A (zh) | 2018-06-19 | 2018-06-19 | 基于RNA-seq数据的肿瘤基因突变检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810632056.7A CN110021348A (zh) | 2018-06-19 | 2018-06-19 | 基于RNA-seq数据的肿瘤基因突变检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110021348A true CN110021348A (zh) | 2019-07-16 |
Family
ID=67188388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810632056.7A Pending CN110021348A (zh) | 2018-06-19 | 2018-06-19 | 基于RNA-seq数据的肿瘤基因突变检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110021348A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933214A (zh) * | 2020-09-27 | 2020-11-13 | 至本医疗科技(上海)有限公司 | 用于检测rna水平体细胞基因变异的方法、计算设备 |
CN112164423A (zh) * | 2020-10-14 | 2021-01-01 | 深圳吉因加医学检验实验室 | 基于RNAseq数据的融合基因检测方法、装置和存储介质 |
CN112309499A (zh) * | 2020-11-09 | 2021-02-02 | 浙江大学 | 一种细菌pdif快速注释方法及装置 |
CN113257347A (zh) * | 2021-05-14 | 2021-08-13 | 温州谱希医学检验实验室有限公司 | 注释后的突变检测结果文件的数据处理方法及相关设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080050370A1 (en) * | 2006-03-17 | 2008-02-28 | Scott Glaser | Stabilized polypeptide compositions |
US20130184999A1 (en) * | 2012-01-05 | 2013-07-18 | Yan Ding | Systems and methods for cancer-specific drug targets and biomarkers discovery |
WO2015013191A1 (en) * | 2013-07-21 | 2015-01-29 | Dana-Farber Cancer Institute, Inc. | Methods, systems, apparatus and their optimization for effective clinical analysis and conveying results thereof |
CN106021994A (zh) * | 2016-05-13 | 2016-10-12 | 万康源(天津)基因科技有限公司 | 一种肿瘤突变位点筛选及互斥基因挖掘的方法 |
CN107523563A (zh) * | 2017-09-08 | 2017-12-29 | 杭州和壹基因科技有限公司 | 一种用于循环肿瘤dna分析的生物信息处理方法 |
CN107577921A (zh) * | 2017-08-25 | 2018-01-12 | 云壹生物技术(大连)有限公司 | 一种肿瘤靶向基因测序数据解析方法 |
-
2018
- 2018-06-19 CN CN201810632056.7A patent/CN110021348A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080050370A1 (en) * | 2006-03-17 | 2008-02-28 | Scott Glaser | Stabilized polypeptide compositions |
US20130184999A1 (en) * | 2012-01-05 | 2013-07-18 | Yan Ding | Systems and methods for cancer-specific drug targets and biomarkers discovery |
WO2015013191A1 (en) * | 2013-07-21 | 2015-01-29 | Dana-Farber Cancer Institute, Inc. | Methods, systems, apparatus and their optimization for effective clinical analysis and conveying results thereof |
CN106021994A (zh) * | 2016-05-13 | 2016-10-12 | 万康源(天津)基因科技有限公司 | 一种肿瘤突变位点筛选及互斥基因挖掘的方法 |
CN107577921A (zh) * | 2017-08-25 | 2018-01-12 | 云壹生物技术(大连)有限公司 | 一种肿瘤靶向基因测序数据解析方法 |
CN107523563A (zh) * | 2017-09-08 | 2017-12-29 | 杭州和壹基因科技有限公司 | 一种用于循环肿瘤dna分析的生物信息处理方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933214A (zh) * | 2020-09-27 | 2020-11-13 | 至本医疗科技(上海)有限公司 | 用于检测rna水平体细胞基因变异的方法、计算设备 |
CN112164423A (zh) * | 2020-10-14 | 2021-01-01 | 深圳吉因加医学检验实验室 | 基于RNAseq数据的融合基因检测方法、装置和存储介质 |
CN112309499A (zh) * | 2020-11-09 | 2021-02-02 | 浙江大学 | 一种细菌pdif快速注释方法及装置 |
CN113257347A (zh) * | 2021-05-14 | 2021-08-13 | 温州谱希医学检验实验室有限公司 | 注释后的突变检测结果文件的数据处理方法及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110021348A (zh) | 基于RNA-seq数据的肿瘤基因突变检测方法及系统 | |
Rosenberg et al. | Taxon sampling, bioinformatics, and phylogenomics | |
US20210257050A1 (en) | Systems and methods for using neural networks for germline and somatic variant calling | |
CN107391965A (zh) | 一种基于高通量测序技术的肺癌体细胞突变检测分析方法 | |
CN106021984A (zh) | 一种全外显子组测序数据分析系统 | |
CN107423578A (zh) | 检测体细胞突变的装置 | |
CN109686439A (zh) | 遗传病基因检测的数据分析方法、系统及存储介质 | |
CN106599616A (zh) | 基于duplex‑seq的超低频突变位点检测分析方法 | |
CN108830044A (zh) | 用于检测癌症样本基因融合的检测方法和装置 | |
CN107292129A (zh) | 易感基因型检测方法 | |
US20220277811A1 (en) | Detecting False Positive Variant Calls In Next-Generation Sequencing | |
CN107451429A (zh) | 一种一键化分析rna数据的系统 | |
CN109767811A (zh) | 用于预测肿瘤突变负荷的线型模型的构建方法、预测肿瘤突变负荷的方法及装置 | |
CN111180013B (zh) | 检测血液病融合基因的装置 | |
Holtgrewe et al. | Methods for the detection and assembly of novel sequence in high-throughput sequencing data | |
CN113380396A (zh) | 一种基于粪便微生物标志物和人dna含量的多种肠道疾病风险评估的方法及应用 | |
CN108256291A (zh) | 一种生成具有较高可信度基因突变检测结果的方法 | |
CN110164504B (zh) | 二代测序数据的处理方法、装置及电子设备 | |
Petri et al. | isONform: reference-free transcriptome reconstruction from Oxford Nanopore data | |
Prunier et al. | Fast alignment of mass spectra in large proteomics datasets, capturing dissimilarities arising from multiple complex modifications of peptides | |
CN110111890A (zh) | 一种基于基因测序技术的个体精准养生方法 | |
WO2021148283A1 (en) | Guided analysis of single cell sequencing data using bulk sequencing data | |
CN115083517B (zh) | 一种识别增强子与超级增强子的数据处理方法及其系统 | |
Zheng et al. | SVsearcher: A more accurate structural variation detection method in long read data | |
CN111653312B (zh) | 一种利用基因组数据探究疾病亚型亲缘性的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190716 |
|
RJ01 | Rejection of invention patent application after publication |