CN110021346A - 基于RNAseq数据的基因融合与突变检测方法及系统 - Google Patents
基于RNAseq数据的基因融合与突变检测方法及系统 Download PDFInfo
- Publication number
- CN110021346A CN110021346A CN201810017454.8A CN201810017454A CN110021346A CN 110021346 A CN110021346 A CN 110021346A CN 201810017454 A CN201810017454 A CN 201810017454A CN 110021346 A CN110021346 A CN 110021346A
- Authority
- CN
- China
- Prior art keywords
- gene
- analysis
- fusion
- rna
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 101
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 93
- 238000003559 RNA-seq method Methods 0.000 title claims abstract description 75
- 238000001514 detection method Methods 0.000 title claims abstract description 62
- 230000035772 mutation Effects 0.000 title claims abstract description 35
- 238000004458 analytical method Methods 0.000 claims abstract description 118
- 206010064571 Gene mutation Diseases 0.000 claims abstract description 18
- 238000001914 filtration Methods 0.000 claims abstract description 17
- 230000008859 change Effects 0.000 claims abstract description 16
- 238000013441 quality evaluation Methods 0.000 claims abstract description 15
- 230000005856 abnormality Effects 0.000 claims abstract description 10
- 238000011157 data evaluation Methods 0.000 claims abstract description 10
- 230000014509 gene expression Effects 0.000 claims description 22
- 238000012360 testing method Methods 0.000 claims description 13
- 108700020796 Oncogene Proteins 0.000 claims description 8
- 102000004169 proteins and genes Human genes 0.000 claims description 7
- 238000012800 visualization Methods 0.000 claims description 5
- 238000007405 data analysis Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 235000013399 edible fruits Nutrition 0.000 claims description 2
- 201000010099 disease Diseases 0.000 abstract description 13
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 abstract description 13
- 238000012163 sequencing technique Methods 0.000 abstract description 10
- 230000010354 integration Effects 0.000 abstract description 9
- 230000002068 genetic effect Effects 0.000 description 6
- 230000008140 language development Effects 0.000 description 5
- 206010059866 Drug resistance Diseases 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 4
- 238000000034 method Methods 0.000 description 4
- 241001269238 Data Species 0.000 description 3
- 206010028980 Neoplasm Diseases 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000000869 mutational effect Effects 0.000 description 3
- 238000002864 sequence alignment Methods 0.000 description 3
- 238000012165 high-throughput sequencing Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 206010070308 Refractory cancer Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000019522 cellular metabolic process Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 208000016691 refractory malignant neoplasm Diseases 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Engineering & Computer Science (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于RNA‑seq数据的基因融合与突变检测方法,包括以下步骤:获得输入的RNA‑seq测序原始数据;对原始数据进行数据过滤和质量评估得到高质量序列;对获得的高质量序列进行基因序列比对得到比对结果;收集应用于临床的相关数据库建立核心数据库;根据核心数据库对比对结果进行分析检测得到分析结果;将分析结果生成为常用格式的分析报告。还公开了一种基于RNA‑seq数据的基因融合与突变检测系统,可设计为软件系统,可以快速的完成基于RNA‑seq的各类分析工作,并通过与整合的各类数据库进行匹配,寻找出真正与临床疾病息息相关的各类基因组异常,如融合基因、基因突变。
Description
技术领域
本发明涉及基因检测技术领域,尤其涉及一种基于RNA-seq数据的基因融合与突变检测方法。
背景技术
人类疾病,特别是在各类比较难治愈的癌症中,基因组异常(如基因融合、基因突变)引起的细胞代谢、生长、分化失去调控,往往是导致疾病发生、发展的直接或间接原因。因此,如何快速、准确、全面的检测相关变异一直以来都是一个具有重要研究价值的课题。近年来,随着高通量测序技术(NGS)的推广和应用,在各类临床检测应用中,高通量测序技术正在逐渐地占据主导地位。
全转录组测序,又常被称为RNA-seq,是指利用第二代高通量测序技术(NGS)进行cDNA测序,全面快速地获取某一物种特定器官或组织在某一状态下的几乎所有转录本。主要可以应用于分析差异表达基因、表达谱聚类、融合基因检测、以及突变基因检测,是一种非常具有临床应用前景的测序技术之一。
目前,市场上还没有一款整合融合基因检测、异常基因表达、突变基因分析于一体的自动化分析工具。而已有的分析工具大多有以下几点问题:
1)没有一键式基于RNA-seq原始数据进行肿瘤基因突变分析的工具。
2)没有对融合基因检测、基因突变分析进行整合的工具。
3)没有成熟的,可以直接应用于临床的各类数据库,包括但不限于药物作用的基因位点、抗药性位点、疾病预测位点、疾病诊断位点等数据库。
4)缺乏方便的融合基因结构和突变位点模式图绘制软件包。
5)缺少一个可以同时产生Word、PDF、HTML等格式的便于使用的报告生成系统。
6)没有成熟的方法对分析得到的基因融合、基因突变结果进行假阳性的过滤筛查。
发明内容
鉴于目前存在的上述不足,本发明提供一种基于RNA-seq数据的基因融合与突变检测方法,可以一键式完成基于RNA-seq的基因组异常检测分析。
为达到上述目的,本发明的实施例采用如下技术方案:
一种基于RNA-seq数据的基因融合与突变检测方法,所述基于RNA-seq数据的基因融合与突变检测方法包括以下步骤:
获得输入的RNA-seq测序原始数据;
对原始数据进行数据过滤和质量评估得到高质量序列;
对获得的高质量序列进行基因序列比对得到比对结果;
收集应用于临床的相关数据库建立核心数据库;
根据核心数据库对比对结果进行分析检测得到分析结果;
将分析结果生成为常用格式的分析报告。
依照本发明的一个方面,所述输入的原始数据为:通过RNA-seq测序得到的原始数据。
依照本发明的一个方面,所述对获得的高质量序列进行基因序列比对得到比对结果包括:使用STAR和Hisat2进行基因序列的比对工作。
依照本发明的一个方面,所述根据核心数据库对比对结果进行分析检测得到分析结果包括:
基于RNA-seq数据分析基因融合与突变;
根据已知的阳性融合基因和假阳性融合基因数据列表,对分析结果进行优化得到进一步的分析结果;
对基因表达谱进行聚类分析;
检测基因表达值,发现异常表达基因。
依照本发明的一个方面,所述根据核心数据库对比对结果进行分析检测得到分析结果包括:
对比对结果进行基因突变分析;
对比对结果进行融合基因检测;
对比对结果进行基因表达量分析;
根据核心数据库对得到的基因突变分析结果、融合基因检测结果合基因表达量分析结果进行分析判断得到最终分析结果。
依照本发明的一个方面,在融合基因检测步骤中,根据已有数据筛选出假阳性的融合基因结果信息然后以此建立黑名单,并在新的分析中根据黑名单对结果进行过滤。
依照本发明的一个方面,在融合基因检测步骤中,在假阳性融合基因黑名单基础上,根据已有分析结果及文献报道汇集了的标志性融合基因并以此建立白名单,确保这些关键的融合基因信息在结果中保留。
依照本发明的一个方面,在基因突变分析步骤中,根据基于RNA-seq数据的肿瘤基因突变检测R包SIMut,完成RNA-seq的肿瘤基因检测步骤。
依照本发明的一个方面,所述根据核心数据库对比对结果进行分析检测得到分析结果包括:通过R包绘制融合基因结构、突变模式图。
依照本发明的一个方面,所述通过R包绘制融合基因结构、突变模式图包括:通过可视化R包gfplot绘制出融合基因结构和基因突变的基因及蛋白质水平的模式图。
依照本发明的一个方面,所述将分析结果生成为常用格式的分析报告包括:使用ReporteRs以及WORD模板生成WORD类型的报告,使用Rmarkdown(.Rmd)文件以及R包rmarkdwon生成其它常用格式的报告。
一种基于RNA-seq数据的基因融合与突变检测系统,所述基于RNA-seq数据的基因融合与突变检测系统包括:
信息获取模块,用于获得输入的RNA-seq测序原始数据;
评估模块,用于对原始数据进行数据过滤和质量评估得到高质量序列;
比对模块,用于对获得的高质量序列进行基因序列比对得到比对结果;
数据库模块,用于收集应用于临床的相关数据库建立核心数据库;
分析模块,用于根据核心数据库对比对结果进行分析检测得到分析结果;
报告生成模块,用于将分析结果生成为常用格式的分析报告。
本发明实施的优点:本发明所述的基于RNA-seq数据的基因融合与突变检测方法,包括以下步骤:获得输入的RNA-seq测序原始数据;对原始数据进行数据过滤和质量评估得到高质量序列;对获得的高质量序列进行基因序列比对得到比对结果;收集应用于临床的相关数据库建立核心数据库;根据核心数据库对比对结果进行分析检测得到分析结果;将分析结果生成为常用格式的分析报告;完全基于R语言开发,整合了多个R包如SIMut、gfplot、Rreport,可以一键式完成基于RNA-seq的肿瘤基因突变检测、融合基因检测、基因表达量分析,还可以绘制各类融合基因和突变的基因水平和蛋白水平的模式图、并产生各类格式的报告(WORD、PDF、HTML);可以快速的完成基于RNA-seq的各类分析工作,并通过与整合的各类数据库进行匹配,寻找出真正与临床疾病息息相关的各类基因组异常,如融合基因、基因突变。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所述的一种基于RNA-seq数据的基因融合与突变检测方法示意图;
图2为本发明所述的基因组异常检测分析流程图;
图3为本发明所述的基因融合模式图;
图4为本发明所述的基因突变模式图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
如图1、图2、图3和图4所示,一种基于RNA-seq数据的基因融合与突变检测方法,所述基于RNA-seq数据的基因融合与突变检测方法包括以下步骤:
步骤S1:获得输入的RNA-seq测序原始数据;
所述步骤S1获得输入的原始数据的具体实施方式可为:要求输入文件为RNA-seq测序得到的原始数据,接收并获得外界输入的如上通过RNA-seq测序得到的原始数据。
步骤S2:对原始数据进行数据过滤和质量评估得到高质量序列;
所述步骤S2:对原始数据进行数据过滤和质量评估得到高质量序列的具体实施方式包括:经过数据过滤、质量评估得到可以用于序列比对的高质量序列。
步骤S3:对获得的高质量序列进行基因序列比对得到比对结果;
所述步骤S3对获得的高质量序列进行基因序列比对得到比对结果的具体实施方式可为:在基因序列比对步骤,使用STAR和Hisat2用于基因序列的比对工作,通过STAR比对得到的结果主要用于突变检测,Hisat2比对的结果用于融合基因检测和基因表达量分析。
步骤S4:收集应用于临床的相关数据库建立核心数据库;
所述步骤S4收集应用于临床的相关数据库建立核心数据库的具体实施方式包括:收集并建立可以应用于临床的各类如基因位点、抗药性位点、疾病预测位点、疾病诊断位点数据库,充分整合利用各类与临床相关的公共数据库,从而整合建立核心数据库。
在实际应用中,核心数据库主要收集自各类公共数据库(UCSC、KEGG、Chembl、CTD、ANNOVAR、VEP等)、发表的文献或者正在进行的临床试验。与此同时,我们开发了利用这些数据库的注释工具annovarR,可以方便的完成基于RNA-seq的突变位点注释工作。
步骤S5:根据核心数据库对比对结果进行分析检测得到分析结果;
所述步骤S5根据核心数据库对比对结果进行分析检测得到分析结果包括以下步骤:
1)对比对结果进行基因突变分析;
2)对比对结果进行融合基因检测;
3)对比对结果进行基因表达量分析;
4)根据核心数据库对得到的基因突变分析结果、融合基因检测结果合基因表达量分析结果进行分析判断得到最终分析结果。
在实际应用中,在融合基因检测步骤中,利用软件从RNA-Seq数据中检测样本融合基因在实际过程中会出现许多假阳性结果,这些假阳性结果往往有规律的出现,我们根据已有数据筛选出假阳性的融合基因结果信息然后以此建立黑名单,并在新的分析中根据黑名单对结果进行过滤。同时,为了保证不遗漏关键数据,我们根据已有分析结果及文献报道汇集了的标志性融合基因并以此建立白名单,确保这些关键的融合基因信息在结果中保留。通过黑白名单联合作用机制,使得软件分析融合基因结果更加精准和可信。
在实际应用中,突变分析步骤是采用了我们开发的基于RNA-seq数据的肿瘤基因突变检测R包SIMut,该R包内置了数百例RNA-seq测序数据、全外显子测序的突变分析结果,并整合了各类与RNA-seq突变分析相关的注释数据库,可以方便、快速的完成RNA-seq的肿瘤基因检测步骤。
在实际应用中,如图3、图4所示,根据核心数据库对比对结果进行分析检测得到分析结果还包括:通过R包绘制融合基因结构、突变模式图。融合基因结构和突变基因模式图主要是使用我们开发的可视化R包gfplot,它可以方便的绘制出融合基因结构和基因突变的基因组及蛋白质水平的模式图。
步骤S6:将分析结果生成为常用格式的分析报告。
所述步骤S6将分析结果生成为常用格式的分析报告是通过开发了基因检测报告系统(Rreport),所述基因检测报告系统(Rreport)是基于R语言开发,使用ReporteRs以及WORD模板可以完整的生成WORD类型的报告。使用Rmarkdown(.Rmd)文件以及R包rmarkdwon可以产生PDF、HTML等格式的报告。
实施例二
如图1、图2、图3和图4所示,一种基于RNA-seq数据的基因融合与突变检测方法,所述基于RNA-seq数据的基因融合与突变检测方法包括以下步骤:
步骤S1:获得输入的RNA-seq测序原始数据;
所述步骤S1获得输入的原始数据的具体实施方式可为:要求输入文件为RNA-seq测序得到的原始数据,接收并获得外界输入的如上通过RNA-seq测序得到的原始数据。
步骤S2:对原始数据进行数据过滤和质量评估得到高质量序列;
所述步骤S2:对原始数据进行数据过滤和质量评估得到高质量序列的具体实施方式包括:经过数据过滤、质量评估得到可以用于序列比对的高质量序列。
步骤S3:对获得的高质量序列进行基因序列比对得到比对结果;
所述步骤S3对获得的高质量序列进行基因序列比对得到比对结果的具体实施方式可为:在基因序列比对步骤,使用STAR和Hisat2用于基因序列的比对工作,通过STAR比对得到的结果主要用于突变检测,Hisat2比对的结果用于融合基因检测和基因表达量分析。
步骤S4:收集应用于临床的相关数据库建立核心数据库;
所述步骤S4收集应用于临床的相关数据库建立核心数据库的具体实施方式包括:收集并建立可以应用于临床的各类如基因位点、抗药性位点、疾病预测位点、疾病诊断位点数据库,充分整合利用各类与临床相关的公共数据库,从而整合建立核心数据库。
在实际应用中,核心数据库主要收集自各类公共数据库(UCSC、KEGG、Chembl、CTD、ANNOVAR、VEP等)、发表的文献或者正在进行的临床试验。与此同时,我们开发了利用这些数据库的注释工具annovarR,可以方便的完成基于RNA-seq的突变位点注释工作。
步骤S5:根据核心数据库对比对结果进行分析检测得到分析结果;
所述步骤S5根据核心数据库对比对结果进行分析检测得到分析结果包括以下步骤:
基于RNA-seq数据分析基因融合与突变;
根据已知的阳性融合基因和假阳性融合基因数据列表,对分析结果进行优化得到进一步的分析结果;
对基因表达谱进行聚类分析;
检测基因表达值,发现异常表达基因。
在实际应用中,在融合基因检测步骤中,利用软件从RNA-Seq数据中检测样本融合基因在实际过程中会出现许多假阳性结果,这些假阳性结果往往有规律的出现,我们根据已有数据筛选出假阳性的融合基因结果信息然后以此建立黑名单,并在新的分析中根据黑名单对结果进行过滤。同时,为了保证不遗漏关键数据,我们根据已有分析结果及文献报道汇集了的标志性融合基因并以此建立白名单,确保这些关键的融合基因信息在结果中保留。通过黑白名单联合作用机制,使得软件分析融合基因结果更加精准和可信。
在实际应用中,突变分析步骤是采用了我们开发的基于RNA-seq数据的肿瘤基因突变检测R包SIMut,该R包内置了数百例RNA-seq测序数据、全外显子测序的突变分析结果,并整合了各类与RNA-seq突变分析相关的注释数据库,可以方便、快速的完成RNA-seq的肿瘤基因检测步骤。
在实际应用中,如图3、图4所示,根据核心数据库对比对结果进行分析检测得到分析结果还包括:通过R包绘制融合基因结构、突变模式图。融合基因结构和突变基因模式图主要是使用我们开发的可视化R包gfplot,它可以方便的绘制出融合基因结构和基因突变的基因组及蛋白质水平的模式图。
步骤S6:将分析结果生成为常用格式的分析报告。
所述步骤S6将分析结果生成为常用格式的分析报告是通过开发了基因检测报告系统(Rreport),所述基因检测报告系统(Rreport)是基于R语言开发,使用ReporteRs以及WORD模板可以完整的生成WORD类型的报告。使用Rmarkdown(.Rmd)文件以及R包rmarkdwon可以产生PDF、HTML等格式的报告。
实施例三
一种基于RNA-seq数据的基因融合与突变检测系统,所述基于RNA-seq数据的基因融合与突变检测系统包括:
信息获取模块,用于获得输入的RNA-seq测序原始数据;
评估模块,用于对原始数据进行数据过滤和质量评估得到高质量序列;
比对模块,用于对获得的高质量序列进行基因序列比对得到比对结果;
数据库模块,用于收集应用于临床的相关数据库建立核心数据库;
分析模块,用于根据核心数据库对比对结果进行分析检测得到分析结果;
报告生成模块,用于将分析结果生成为常用格式的分析报告。
所述基于RNA-seq数据的基因融合与突变检测系统的工作原理如下:
1、获得输入的原始数据;要求输入文件为RNA-seq测序得到的原始数据,接收并获得外界输入的如上通过RNA-seq测序得到的原始数据。
2、对原始数据进行数据过滤和质量评估得到高质量序列;经过数据过滤、质量评估得到可以用于序列比对的高质量序列。
3、对获得的高质量序列进行基因序列比对得到比对结果;在基因序列比对步骤,使用STAR和Hisat2用于基因序列的比对工作,通过STAR比对得到的结果主要用于突变检测,Hisat2比对的结果用于融合基因检测和基因表达量分析。
4、收集应用于临床的相关数据库建立核心数据库;收集并建立可以应用于临床的各类如基因位点、抗药性位点、疾病预测位点、疾病诊断位点数据库,充分整合利用各类与临床相关的公共数据库,从而整合建立核心数据库。核心数据库主要收集自各类公共数据库(UCSC、KEGG、Chembl、CTD、ANNOVAR、VEP等)、发表的文献或者正在进行的临床试验。
5、根据核心数据库对比对结果进行分析检测得到分析结果;具体为:
基于RNA-seq数据分析基因融合与突变;
根据已知的阳性融合基因和假阳性融合基因数据列表,对分析结果进行优化得到进一步的分析结果;
对基因表达谱进行聚类分析;
检测基因表达值,发现异常表达基因。
根据核心数据库对比对结果进行分析检测得到分析结果还包括:通过R包绘制融合基因结构、突变模式图。融合基因结构和突变基因模式图主要是使用我们开发的可视化R包gfplot,它可以方便的绘制出融合基因结构和基因突变的基因组及蛋白质水平的模式图。
6、将分析结果生成为常用格式的分析报告;通过开发了基因检测报告系统(Rreport),所述基因检测报告系统(Rreport)是基于R语言开发,使用ReporteRs以及WORD模板可以完整的生成WORD类型的报告。使用Rmarkdown(.Rmd)文件以及R包rmarkdwon可以产生PDF、HTML等格式的报告。
本发明实施的优点:本发明所述的基于RNA-seq数据的基因融合与突变检测方法,包括以下步骤:获得输入的原始数据;对原始数据进行数据过滤和质量评估得到高质量序列;对获得的高质量序列进行基因序列比对得到比对结果;收集应用于临床的相关数据库建立核心数据库;根据核心数据库对比对结果进行分析检测得到分析结果;将分析结果生成为常用格式的分析报告;完全基于R语言开发,整合了多个R包如SIMut、gfplot、Rreport,可以一键式完成基于RNA-seq的肿瘤基因突变检测、融合基因检测、基因表达量分析,还可以绘制各类融合基因和突变的基因水平和蛋白水平的模式图、并产生各类格式的报告(WORD、PDF、HTML);可以快速的完成基于RNA-seq的各类分析工作,并通过与整合的各类数据库进行匹配,寻找出真正与临床疾病息息相关的各类基因组异常,如融合基因、基因突变。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域技术的技术人员在本发明公开的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种基于RNA-seq数据的基因融合与突变检测方法,其特征在于,所述基于RNA-seq数据的基因融合与突变检测方法包括以下步骤:
获得输入的RNA-seq测序原始数据;
对原始数据进行数据过滤和质量评估得到高质量序列;
对获得的高质量序列进行基因序列比对得到比对结果;
收集应用于临床的相关数据库建立核心数据库;
根据核心数据库对比对结果进行分析检测得到分析结果;
将分析结果生成为常用格式的分析报告。
2.根据权利要求1所述的基于RNA-seq数据的基因融合与突变检测方法,其特征在于,根据核心数据库对比对结果进行分析检测得到分析结果包括:
基于RNA-seq数据分析基因融合与突变;
根据已知的阳性融合基因和假阳性融合基因数据列表,对分析结果进行优化得到进一步的分析结果;
对基因表达谱进行聚类分析;
检测基因表达值,发现异常表达基因。
3.根据权利要求1所述的基于RNA-seq数据的基因融合与突变检测方法,其特征在于,所述根据核心数据库对比对结果进行分析检测得到分析结果包括:
对比对结果进行基因突变分析;
对比对结果进行融合基因检测;
对比对结果进行基因表达量分析;
根据核心数据库对得到的基因突变分析结果、融合基因检测结果和基因表达量分析结果进行分析判断得到最终分析结果。
4.根据权利要求3所述的基于RNA-seq数据的基因融合与突变检测方法,其特征在于,在融合基因检测步骤中,根据已有数据筛选出假阳性的融合基因结果信息然后以此建立黑名单,同时对根据已有数据筛选出真阳性的融合基因结果信息然后以此建立白名单,并在新的分析中根据白名单和黑名单对结果进行过滤。
5.根据权利要求4所述的基于RNA-seq数据的基因融合与突变检测方法,其特征在于,在融合基因检测步骤中,在假阳性融合基因黑名单基础上,根据已有分析结果及文献报道汇集了的标志性融合基因并以此建立白名单,确保这些关键的融合基因信息在结果中保留。
6.根据权利要求3所述的基于RNA-seq数据的基因融合与突变检测方法,其特征在于,在基因突变分析步骤中,根据基于RNA-seq数据的肿瘤基因突变检测R包SIMut,完成RNA-seq的肿瘤基因检测步骤。
7.根据权利要求1所述的基于RNA-seq数据的基因融合与突变检测方法,其特征在于,所述对获得的高质量序列进行基因序列比对得到比对结果包括:使用STAR和Hisat2进行基因序列的比对工作。
8.根据权利要求4至6之一所述的基于RNA-seq数据的基因融合与突变检测方法,其特征在于,所述根据核心数据库对比对结果进行分析检测得到分析结果包括:通过R包绘制融合基因结构和突变模式图,具体为通过可视化R包gfplot绘制出融合基因结构和基因突变的基因及蛋白质水平的模式图。
9.根据权利要求7所述的基于RNA-seq数据的基因融合与突变检测方法,其特征在于,所述将分析结果生成为常用格式的分析报告包括:使用ReporteRs以及WORD模板生成WORD类型的报告,使用Rmarkdown文件以及R包rmarkdwon生成其它常用格式的报告。
10.一种基于RNA-seq数据的基因融合与突变检测系统,其特征在于,所述基于RNA-seq数据的基因融合与突变检测系统包括:
信息获取模块,用于获得输入的RNA-seq测序原始数据;
评估模块,用于对原始数据进行数据过滤和质量评估得到高质量序列;
比对模块,用于对获得的高质量序列进行基因序列比对得到比对结果;
数据库模块,用于收集应用于临床的相关数据库建立核心数据库;
分析模块,用于根据核心数据库对比对结果进行分析检测得到分析结果;
报告生成模块,用于将分析结果生成为常用格式的分析报告。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810017454.8A CN110021346B (zh) | 2018-01-09 | 2018-01-09 | 基于RNAseq数据的基因融合与突变检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810017454.8A CN110021346B (zh) | 2018-01-09 | 2018-01-09 | 基于RNAseq数据的基因融合与突变检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110021346A true CN110021346A (zh) | 2019-07-16 |
CN110021346B CN110021346B (zh) | 2023-06-30 |
Family
ID=67187576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810017454.8A Active CN110021346B (zh) | 2018-01-09 | 2018-01-09 | 基于RNAseq数据的基因融合与突变检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110021346B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111063390A (zh) * | 2019-12-12 | 2020-04-24 | 爱尔生基因医学科技有限公司 | 一种基于大数据的融合基因数据检测方法及系统 |
CN111402960A (zh) * | 2020-03-10 | 2020-07-10 | 中南大学湘雅三医院 | 一种基于大数据的白血病基因融合筛选系统及方法 |
CN111696629A (zh) * | 2020-06-29 | 2020-09-22 | 电子科技大学 | 一种rna测序数据的基因表达量计算方法 |
CN112164423A (zh) * | 2020-10-14 | 2021-01-01 | 深圳吉因加医学检验实验室 | 基于RNAseq数据的融合基因检测方法、装置和存储介质 |
CN114664375A (zh) * | 2022-03-15 | 2022-06-24 | 浙江博圣生物技术股份有限公司 | 一种基于多样本全外显子测序的变异过滤方法 |
CN116453591A (zh) * | 2023-05-08 | 2023-07-18 | 上海信诺佰世医学检验有限公司 | 基于RNA-seq数据分析、变异评级和报告生成系统及方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2649920A1 (en) * | 2006-04-21 | 2007-11-01 | Celera Corporation | Genetic polymorphisms associated with coronary heart disease, methods of detection and uses thereof |
US20150275277A1 (en) * | 2014-03-25 | 2015-10-01 | Quest Diagnostics Investments Incorporated | Detection of gene fusions by intragenic differential expression (ide) using average cycle thresholds |
US20150302143A1 (en) * | 2012-11-05 | 2015-10-22 | Genomic Health, Inc. | Gene fusions and alternatively spliced junctions associated with breast cancer |
US20160340743A1 (en) * | 2014-02-10 | 2016-11-24 | Baylor College Of Medicine | Recurrent fusion genes identified in high -grade serous ovarian carcinoma |
US20170240972A1 (en) * | 2015-10-10 | 2017-08-24 | Guardant Health, Inc. | Methods and applications of gene fusion detection in cell-free dna analysis |
CA2926943A1 (en) * | 2016-04-13 | 2017-10-13 | The Hospital For Sick Children | Methods and uses related to rhabdoid tumors |
CN107292129A (zh) * | 2017-05-26 | 2017-10-24 | 中国科学院上海药物研究所 | 易感基因型检测方法 |
-
2018
- 2018-01-09 CN CN201810017454.8A patent/CN110021346B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2649920A1 (en) * | 2006-04-21 | 2007-11-01 | Celera Corporation | Genetic polymorphisms associated with coronary heart disease, methods of detection and uses thereof |
US20150302143A1 (en) * | 2012-11-05 | 2015-10-22 | Genomic Health, Inc. | Gene fusions and alternatively spliced junctions associated with breast cancer |
US20160340743A1 (en) * | 2014-02-10 | 2016-11-24 | Baylor College Of Medicine | Recurrent fusion genes identified in high -grade serous ovarian carcinoma |
US20150275277A1 (en) * | 2014-03-25 | 2015-10-01 | Quest Diagnostics Investments Incorporated | Detection of gene fusions by intragenic differential expression (ide) using average cycle thresholds |
US20170240972A1 (en) * | 2015-10-10 | 2017-08-24 | Guardant Health, Inc. | Methods and applications of gene fusion detection in cell-free dna analysis |
CA2926943A1 (en) * | 2016-04-13 | 2017-10-13 | The Hospital For Sick Children | Methods and uses related to rhabdoid tumors |
CN107292129A (zh) * | 2017-05-26 | 2017-10-24 | 中国科学院上海药物研究所 | 易感基因型检测方法 |
Non-Patent Citations (6)
Title |
---|
周彩存: "循环肿瘤标志物在肺癌中的应用", 《中国肺癌杂志》 * |
朱晓丽等: "中国人甲状腺乳头状癌中RET/PTC融合基因DNA序列特征的初步研究", 《中华医学遗传学杂志》 * |
王杰等: "非小细胞肺癌中c-Met、EGFR、K-Ras和EML4-ALK基因的检测分析", 《临床肿瘤学杂志》 * |
王琴荣,施静艺,施琳,陈赛娟: "混合系白血病全长基因在AML-M4 /M5患者中的突变检测", 《中国实验血液学杂志》 * |
田家伟等: "Ventana-IHC对ALK+非小细胞肺癌诊断价值的Meta分析", 《中国肿瘤》 * |
霍建华,马爱群,郭雪艳,强华,刘平,白玲: "绿色荧光蛋白基因与hERG基因G604S突变共表达功能研究", 《山西医科大学学报》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111063390A (zh) * | 2019-12-12 | 2020-04-24 | 爱尔生基因医学科技有限公司 | 一种基于大数据的融合基因数据检测方法及系统 |
CN111402960A (zh) * | 2020-03-10 | 2020-07-10 | 中南大学湘雅三医院 | 一种基于大数据的白血病基因融合筛选系统及方法 |
CN111696629A (zh) * | 2020-06-29 | 2020-09-22 | 电子科技大学 | 一种rna测序数据的基因表达量计算方法 |
CN112164423A (zh) * | 2020-10-14 | 2021-01-01 | 深圳吉因加医学检验实验室 | 基于RNAseq数据的融合基因检测方法、装置和存储介质 |
CN112164423B (zh) * | 2020-10-14 | 2021-03-23 | 深圳吉因加医学检验实验室 | 基于RNAseq数据的融合基因检测方法、装置和存储介质 |
CN114664375A (zh) * | 2022-03-15 | 2022-06-24 | 浙江博圣生物技术股份有限公司 | 一种基于多样本全外显子测序的变异过滤方法 |
CN116453591A (zh) * | 2023-05-08 | 2023-07-18 | 上海信诺佰世医学检验有限公司 | 基于RNA-seq数据分析、变异评级和报告生成系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110021346B (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110021346A (zh) | 基于RNAseq数据的基因融合与突变检测方法及系统 | |
US20240218445A1 (en) | Methods for clonotype screening | |
CN109033749B (zh) | 一种肿瘤突变负荷检测方法、装置和存储介质 | |
CN106021984A (zh) | 一种全外显子组测序数据分析系统 | |
Guo et al. | Illumina human exome genotyping array clustering and quality control | |
CN109686439B (zh) | 遗传病基因检测的数据分析方法、系统及存储介质 | |
CN106599616B (zh) | 基于duplex-seq的超低频突变位点检测分析方法 | |
CN108664766B (zh) | 拷贝数变异的分析方法、分析装置、设备及存储介质 | |
CN107423578A (zh) | 检测体细胞突变的装置 | |
CN110021364A (zh) | 基于病人临床症状数据和全外显子组测序数据筛选单基因遗传病致病基因的分析检测系统 | |
CN111326212B (zh) | 一种结构变异的检测方法 | |
CN106022001B (zh) | 一种肿瘤突变位点筛选及互斥基因挖掘的系统 | |
CN114694750B (zh) | 一种基于ngs平台的单样本肿瘤体细胞突变判别及tmb检测方法 | |
CN115052994A (zh) | 确定胚胎细胞染色体中预定位点碱基类型的方法及其应用 | |
CN107292129A (zh) | 易感基因型检测方法 | |
CN112270960B (zh) | 一种二级肿瘤诊断知识库及肿瘤突变解析系统 | |
CN106021994A (zh) | 一种肿瘤突变位点筛选及互斥基因挖掘的方法 | |
CN110379459A (zh) | 一种基于转录组时序动态变化和基因功能关联发现分子标志物的方法及系统 | |
Miller et al. | Quality-controlled R-loop meta-analysis reveals the characteristics of R-loop consensus regions | |
US20160357906A1 (en) | Biological data annotation and visualization | |
CN117612600A (zh) | 一种基于PacBio测序的全长转录组测序数据的分析方法、存储介质及设备 | |
CN110164504B (zh) | 二代测序数据的处理方法、装置及电子设备 | |
CN116564406A (zh) | 一种遗传变异自动化解读方法及设备 | |
CN117275577A (zh) | 一种基于二代测序技术检测人线粒体遗传突变位点算法 | |
CN114530200B (zh) | 基于计算snp熵值的混合样本鉴定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |