基于单样本的二代测序肿瘤体细胞变异检测装置
技术领域
本发明实施例涉及肿瘤检测技术领域,尤其涉及一种基于单样本的二代测序肿瘤体细胞变异检测装置。
背景技术
体细胞变异在肿瘤的早期诊断,肿瘤药物靶点和治疗的预后监测中是非常重要的分子标志物。二代测序技术中DNA层面上的全外显子或者特定基因区域的捕获测序在肿瘤的体细胞变异检测应用广泛,相应肿瘤体细胞变异检测方法繁多。目前肿瘤体细胞变异检测一般需要同个体的血液样本和组织样本,对于只有肿瘤组织样本的体细胞变异检测中无法去除生殖变异导致得到体细胞变异假阳性过高,并且检测的步骤多,功能单一,系统性和可移植性差。
发明内容
本发明提供一种基于单样本的二代测序肿瘤体细胞变异检测装置,可以快速正确地对肿瘤体细胞变异进行检测,提高检测肿瘤体细胞变异的准确性。
第一方面,本发明实施例提供了一种肿瘤体细胞变异检测装置包括:
数据获取模块,用于获取测序数据,其中,所述测序数据中包括至少同种肿瘤的两个血液样本和至少一个肿瘤组织样本;
数据比对模块,用于将所述测序数据与预设的参考基因组进行比对,得到比对后的数据;
变异检测模块,用于对所述比对后的数据进行变异检测,确定所述肿瘤组织样本体细胞变异的位点和核苷酸碱基变化。
进一步的,所述装置还包括:
数据过滤模块,用于在将所述测序数据与预设的参考基因组进行比对之前,基于二代测序技术对所述测序数据进行过滤处理得到过滤后的测序数据,以去除所述测序数据的首尾序列及质量小于预设质量阈值的测序序列;
所述数据比对模块,用于将所述过滤后的测序数据与预设的参考基因组进行比对,得到比对后的数据。
进一步的,所述装置还包括:
特征信息获取模块,用于在得到比对后的数据之后,获取所述比对后的数据的特征信息,其中,所述特征信息包括所述测序数据比对到所述参考基因组的比例、所述比对后的数据的深度、平均比对质量及覆盖度;
所述变异检测模块,用于当所述特征信息满足预设条件时,对所述比对后的数据进行变异检测,确定所述肿瘤组织样本变异的位点和核苷酸碱基变化。
进一步的,所述变异检测模块,包括:
去重和标定单元,用于对所述比对后的数据进行排序去重,得到去重后的数据,其中肿瘤样本数据标定为肿瘤数据,血液样本数据标定为正常数据;
矫正单元,用于对所述去重后的数据进行位点矫正,得到矫正后的数据,所述矫正后的数据包括至少一个肿瘤数据和至少两个正常数据;
第一变异检测单元,用于对所述至少两个正常数据进行变异检测,确定所述至少两个正常数据变异的位点和碱基变化,合并得到初始变异背景库,并在所述初始变异背景库中筛选变异频率大于5%且变异位置上的reads总数大于预设的测序深度的变异,得到优化变异背景库;其中,所述变异频率=变异支持的reads数/变异所在位置上的reads总数;
第二变异检测单元,用于基于所述至少一个肿瘤数据进行变异检测,并基于所述优化变异背景库过滤生殖变异,确定肿瘤组织样本体细胞变异集合,并在所述肿瘤组织样本体细胞变异集合中筛选变异频率大于5%且变异所在位置上的reads总数大于预设的测序深度的变异,得到有效的体细胞变异集合。
进一步的,所述装置还包括:
注释模块,用于在确定所述肿瘤组织样本变异的位点和核苷酸碱基变化之后,对所述肿瘤组织样本的变异类型进行注释。
进一步的,所述装置还包括:
有效变异负荷计算模块,用于统计体细胞变异中非同义变异和移码变异总个数,并计算有效肿瘤变异符合;其中,有效肿瘤变异符合=非同义变异和移码变异总个数/测序目标外显子区域长度。
本发明实施例提供的基于单样本的二代测序肿瘤体细胞变异检测装置,包括数据获取模块,用于获取测序数据,其中,所述测序数据中包括至少同种肿瘤的两个血液样本和至少一个肿瘤组织样本;数据比对模块,用于将所述测序数据与预设的参考基因组进行比对,得到比对后的数据;变异检测模块,用于对所述比对后的数据进行变异检测,确定所述肿瘤组织样本体细胞变异。通过上述技术方案,将至少两个血液样本进行变异检测后作为变异背景库,然后检测肿瘤组织样本体细胞变异并过滤变异背景库中的生殖变异,得到肿瘤特有的体细胞变异,可以快速正确地对肿瘤体细胞变异进行检测,提高检测肿瘤体细胞变异的准确性,保证临床检测的时效性及检测肿瘤组织体细胞变异的可移植性,同时在没有配对样本情况下对肿瘤组织样本体细胞变异进行检测,可以降低检测肿瘤体细胞变异的假阳性。
附图说明
图1是本发明实施例提供的一种基于单样本的二代测序肿瘤体细胞变异检测装置的结构框图;
图2是本发明实施例提供的另一种基于单样本的二代测序肿瘤体细胞变异检测装置的结构框图;
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
图1是本发明实施例提供的一种基于单样本的二代测序肿瘤体细胞变异检测装置结构框图,如图1所示,本发明实施例提供的装置包括:数据获取模块110、数据比对模块120及变异检测模块130。
其中,数据获取模块110,用于获取测序数据,其中,所述测序数据中包括至少同种肿瘤的两个血液样本和至少一个肿瘤组织样本;
数据比对模块120,用于将所述测序数据与预设的参考基因组进行比对,得到比对后的数据;
变异检测模块130,用于对所述比对后的数据进行变异检测,确定所述肿瘤组织样本变异的位点和核苷酸碱基变化。
本发明实施例提供的技术方案,数据获取模块,用于获取测序数据,其中,所述测序数据中包括至少同种肿瘤的两个血液样本和至少一个肿瘤组织样本;数据比对模块,用于将所述测序数据与预设的参考基因组进行比对,得到比对后的数据;变异检测模块,用于对所述比对后的数据进行变异检测,确定所述肿瘤组织样本体细胞变异。通过上述技术方案,将至少两个血液样本进行变异检测后作为变异背景库,然后检测肿瘤组织样本变异并应用变异背景库过滤生殖变异,得到肿瘤特有的体细胞变异,可以快速正确地对肿瘤体细胞变异进行检测,提高检测肿瘤体细胞变异的准确性,保证临床检测的时效性及检测肿瘤组织体细胞变异的可移植性。
在本发明实施例中,测序数据可以是来源于健康人的疑似肿瘤患者的血液样本或血浆样本和疑似肿瘤发生部位的组织样本。示例性的,采用特定基因的捕获区域进行测序获取测序数据,相对于使用全外显子测序检测成本更低,同时也具有良好的相关性,能够真实地反应肿瘤体细胞变异的情况。测序数据包含了测序读长(reads)和测序的碱基质量,一般一个样本至少是5个G以上数据量。
示例性的,可以采用任何二代测序技术进行测序,测序仪产生的通常为专用格式数据,需首先将测序数据转换为通用的fastq文件格式,即可以利用fastp软件查看测序数据。可选的,所述装置还包括数据过滤模块,用于在将所述测序数据与预设的参考基因组进行比对之前,基于二代测序技术对所述测序数据进行过滤处理得到过滤后的测序数据,以去除所述测序数据的首尾序列及质量小于预设质量阈值的测序序列;所述数据比对模块,用于将所述过滤后的测序数据与预设的参考基因组进行比对,得到比对后的数据。示例性的,上述测序数据除包含有效的数据外,还包含测序接头序列、低质量序列及N碱基组成的序列,这些序列会干扰后续分析,可以预先去除过滤掉。例如,可以通过fastp软件去除测序数据中的收尾序列及质量小于预设质量阈值的测序序列,使过滤后的数据使用质控软件进行质控,符合规定标准的数据为合格数据。示例性的,fastp软件统计过滤前后测序数据的碱基质量得分值(Q20,Q30),序列长度,N字符的数量,数据量,GC含量和PCR重复率。可选的,可将满足(Q20>=90%,Q30>=80%)条件的测序数据作为过滤后的测序数据。
在本发明实施例中,将测序数据与预设的参考基因组进行比对,得到比对后的数据。可选的,可将过滤后的测序数据与预设的参考基因组进行比对,得到比对后的数据。示例性的,可以基于BWA-MEA算法将所述测序数据与预设的参考基因组进行比对,得到比对后的数据。具体的,可通过bwtsw算法对参考基因组构建比对索引,然后通过BWA-MEM算法将测序数据中的目标序列比对到参考基因组,得到比对后的数据,其中,比对后的数据以bam文件的形式呈现。
可选的,该装置还包括:特征信息获取模块,用于在得到比对后的数据之后,获取所述比对后的数据的特征信息,其中,所述特征信息包括所述测序数据比对到所述参考基因组的比例、所述比对后的数据的深度、平均比对质量及覆盖度;所述变异检测模块,用于当所述特征信息满足预设条件时,对所述比对后的数据进行变异检测,确定所述肿瘤组织样本体细胞变异位点和核苷酸碱基变化。
示例性的,利用samtools软件的flagstat统计测序数据中各个测序序列比对到参考基因组上的比例。利用qulimap软件计算bam文件(也即比对后的数据)的深度,平均比对质量和覆盖度;利用GATK CollectHsmetrics模块统计bam文件在参考基因组的目标区域内数据量比例,平均覆盖深度和1X,20X,50X,100X覆盖度百分比。当上述特征信息满足预设条件时,对比对后的数据进行变异检测,确定变异的体细胞。示例性的,当比对后的数据的深度大于第一预设阈值,平均比对质量大于第二预设阈值且覆盖度大于第三预设阈值时,可选的,可将(至少70X深度有至少90%覆盖度,平均比对质量至少为50)对所述比对后的数据进行变异检测。
可选的,所述变异检测模块,包括:去重和标定单元,用于对所述比对后的数据进行排序去重,得到去重后的数据,其中肿瘤样本数据标定为肿瘤数据,血液样本数据标定为正常数据;矫正单元,用于对所述去重后的数据进行位点矫正,得到矫正后的数据;
第一变异检测单元,用于对所述至少两个正常数据进行变异检测,确定所述至少两个正常数据变异的位点和碱基变化,合并得到初始变异背景库(A);在上述初始变异背景库(A)中筛选变异频率大于5%(变异频率=变异支持的reads数/变异所在位置上的reads总数)且变异位置上的reads总数大于预设的测序深度的变异,得到优化变异背景库(B);其中,B≤A;
第二变异检测单元,用所述至少一个肿瘤数据进行变异检测,基于所述优化变异背景库(B)过滤生殖变异,确定所述肿瘤组织样本体细胞变异集合(C);并在所述体细胞变异集合(C)中筛选变异频率大于5%(变异频率=变异支持的reads数/变异所在位置上的reads总数)且变异位置上的reads总数预设的测序深度的变异,得到有效的体细胞变异集合(D)。
示例性的,可以应用GATK4MarkDuplicates标记bam文件(也即比对后的数据)中PCR重复的序列,并对PCR重复的序列进行去重;可以利用GATK4BaseRecalibrator模块及外部公共位点数据库和GATK4ApplyBQSR模块对去重后的数据进行位点矫正,得到BQSR矫正后数据。利用GATK4的AddOrReplaceReadGroups模块对比对后的数据进行分组,也即增加bam文件的分组信息,既把肿瘤样本数据标定为肿瘤数据,而血液样本数据标定为正常数据。实例中为了提高体细胞变异的准确性,首先应用GATK4mutect2模块对40个正常数据进行snp和indel体细胞变异的检测得到vcf文件,其次应用GATK4CreateSomaticPanelOfNormals把所有正常数据的vcf合并成为初始变异背景库,首先筛选初始变异背景库中的变异频率大于5%,并且变异位置上覆盖reads数大于50的变异位点得到优化变异背景库。采用GATK4mutect2模块对单样本肿瘤组织检测结合优化变异背景库过滤生殖变异,其次利用GATK4FilterMutectCalls模块过滤位点污染和遗传变异得到初始体细胞变异,最后筛选变异频率大于5%且变异位置上reads大于50的体细胞变异。
示例性的,可选的,所述装置还包括注释模块,用于在确定所述肿瘤组织样本体细胞变异的位点和碱基变化之后,对所述肿瘤组织样本的变异的生物学功能类型进行注释。示例性的,利用ANNOVAR软件以及注释库(refGene,ensGene,cytoBand,avsnp138,exac03,1000g2015aug,clinvar_20170905,dbnsfp30a,avsnp147)进行基本的体细胞变异注释,便于后续统计。利用VEP注释库和对应的程序对体细胞变异的结果vcf转换为maf,并注释体细胞变异类型,便于后续变异热图的绘制。
可选的,还可以对每个样本的体细胞变异数统计,体细胞变异最多的10个基因的变异位点和变异导致的氨基酸变化进行统计汇总并输出图表。还可对大样本(10个样本以上)增加绘制体细胞变异的全景图。计算有效变异负荷,统计体细胞变异中非同义变异和移码变异总个数(s),用如下公式(有效变异负荷=总个数(s)/测序目标外显子区域长度(kb))计算有效肿瘤变异负荷。
本发明实施例提供的肿瘤体细胞变异检测方案,引入了fastp软件快速自动查看测序数据的质量,并通过过滤和校正工具,过滤测序数据中的接头序列,而不需要预先知道接头序列。同时fastp软件运行速度快,方便快捷,可以减少多步骤的数据预处理软件的分析过程。另外,引入qulimap软件计算BAM文件QC,可以一次查看多个BAM文件的质量,并自动统计汇总质量信息。另外,本发明实施例中使用同类型肿瘤的血液样本为正常的数据作为变异背景库筛选可靠的变异位点,在单样本模式中结合筛选后的变异背景库过滤了生殖变异得到初始的体细胞变异,最后严格筛选肿瘤相关的体细胞变异并计算有效的变异负荷,降低体细胞变异假阳性和假阴性。同时,本发明实施例采用自动化流程化分析,只需要输入数据路径和数据测序背景情况就可以一步到位得到肿瘤体细胞变异的结果图表。整个检测分析流程所需要的软件少而精,部署容易,可移植性强。本发明在具体实施中做了假阴性的实验验证,利用KRAS的G12R作位点检测通过ddPCR实验验证得到发现假阴性率很低(实验检测了48个阴性样本,46个确定是真阴性,只有2个变异由于样本测得深度不够,在体细胞变异检测中未检测到)
图2是本发明实施例提供的另一种基于单样本的二代测序肿瘤体细胞变异检测装置结构框图,如图2所示,本发明实施例提供的装置包括:数据获取模块210、数据过滤模块220、数据比对模块230、特征信息获取模块240、变异检测模块250、注释模块260及有效变异负荷计算模块270。
数据获取模块210,用于获取测序数据,其中,所述测序数据中包括至少同种肿瘤的两个血液样本和至少一个肿瘤组织样本;
数据过滤模块220,用于在将所述测序数据与预设的参考基因组进行比对之前,基于二代测序技术对所述测序数据进行过滤处理得到过滤后的测序数据,以去除所述测序数据的首尾序列及质量小于预设质量阈值的测序序列;
所述数据比对模块230,用于将所述过滤后的测序数据与预设的参考基因组进行比对,得到比对后的数据;
特征信息获取模块240,用于在得到比对后的数据之后,获取所述比对后的数据的特征信息,其中,所述特征信息包括所述测序数据比对到所述参考基因组的比例、所述比对后的数据的深度、平均比对质量及覆盖度;
所述变异检测模块250,用于当所述特征信息满足预设条件时,对所述比对后的数据进行变异检测,确定所述肿瘤组织样本体细胞变异的位点和核苷酸碱基变化;
注释模块260,用于在确定所述肿瘤组织样本变异的位点和核苷酸碱基变化之后,对所述肿瘤组织样本的变异类型进行注释。
有效变异负荷计算模块270,用于统计体细胞变异中非同义变异和移码变异总个数,并计算有效肿瘤变异符合;其中,有效肿瘤变异符合=非同义变异和移码变异总个数/测序目标外显子区域长度。
其中,所述变异检测模块250包括去重和标定单元251、矫正单元252、第一变异检测单元253及第二变异检测单元254,其中,
去重和标定单元251,用于对所述比对后的数据进行排序去重,得到去重后的数据,其中肿瘤样本数据标定为肿瘤数据,血液样本数据标定为正常数据;
矫正单元252,用于对所述去重后的数据进行位点矫正,得到矫正后的数据,所述矫正后的数据包括至少一个肿瘤数据和至少两个正常数据;
第一变异检测单元,用于对所述至少两个正常数据进行变异检测,确定所述至少两个正常数据变异的位点和碱基变化,合并得到初始变异背景库,并在所述初始变异背景库中筛选变异频率大于5%且变异位置上的reads总数大于预设的测序深度的变异,得到优化变异背景库;其中,所述变异频率=变异支持的reads数/变异所在位置上的reads总数;
第二变异检测单元,用于基于所述至少一个肿瘤数据进行变异检测,并基于所述优化变异背景库过滤生殖变异,确定肿瘤组织样本体细胞变异集合,并在所述肿瘤组织样本体细胞变异集合中筛选变异频率大于5%且变异所在位置上的reads总数大于预设的测序深度的变异,得到有效的体细胞变异集合。
其中,注释模块260,用于在确定所述肿瘤组织体细胞变异,对所述肿瘤组织样本体细胞变异的氨基酸改变进行注释。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。