发明内容
本发明人发现,捕获测序中未被利用的数据并非毫无意义,其反映了染色体上非目标区域的信息,如在测序数据处理过程中将其转化为低深度全基因组测序可利用的形式,则可以基于捕获测序数据实现低深度全基因组检测的功能。
因此,本发明的目的在于提供一种能够基于捕获测序数据实现低深度全基因组检测的功能的染色体变异检测装置。
为了实现上述目的,本发明提供:
1.一种染色体变异检测装置,其包含下述模块:
数据获取模块,用于获取目标区域捕获测序数据;
窗口划分模块:其与所述数据获取模块相连接,用于针对不同的参考基因组,按照用户给定的窗口长度对参考基因组序列划分窗口,生成各个窗口对应的GC含量以及匹配率(mappability);
数据转换模块:其与所述窗口划分模块相连接,用于将目标区域捕获测序数据转换成近似于低深度全基因组测序数据;
数据矫正模块:其与所述非目标区域覆盖深度值计算模块相连接,用于利用划分窗口后计算得到的GC值以及匹配率值,分别进行LOESS矫正;该矫正能够减少因芯片不同区域捕获情况不同造成的差异,从而降低数据的波动性;
染色体变异判定模块:其与所述数据矫正模块相连接,用于判定是否存在染色体变异。染色体变异判定模块例如利用现有的拷贝数变异检测R包(DNAcopy)将矫正后的数据按染色体以及DOC值进行划分,同一个染色体上位置相邻且DOC值相近的区域划分到一起,这个划分过程具体实现算法是循环二元分割算法(Circular binary segmentation,CBS),从而实现将平均DOC值不同的区域区分开,再利用现有的隐马尔科夫算法(HMM)给这些划分后得到的DOC值进行定性判断,从而确定哪些染色体片段是变异的,哪些是正常的。
2.根据项1所述的染色体变异检测装置,其中,所述数据转换模块包括下述子模块:
目标区域识别子模块,其与所述窗口划分模块相连接,用于对目标区域的reads进行标记(例如,可以利用现有的工具MACS 1.4),并去除测试样本和参考基因组中被标记的目标区域(peaks)(可利用例如现有的工具bedtools);
数据转换核心子模块,其与所述目标区域识别子模块相连接,用于计算非补偿深度覆盖度值(uncompensated DOC)及补偿DOC值(compensated DOC),
所述非补偿DOC值是指窗口内去除peaks区域部分的DOC值(例如,可利用Rsamtools工具进行计算),
所述补偿DOC值根据下述公式计算
compensated DOC=uncompensated DOC*binsize/(binsize-x),
该公式中,compensated DOC表示补偿DOC值,uncompensated DOC表示非补偿DOC值,binsize表示窗口的长度,x表示窗口内属于peaks区域的长度。
该数据转换核心模块在去除了peaks区域的reads后,计算非目标区域的深度覆盖值(Depth of Coverage,DOC),首先利用例如Rsamtools计算窗口内去除peaks区域部分的DOC值,记为非补偿深度覆盖度值(uncompensated DOC),再计算窗口内属于peaks区域的长度x,所以整个窗口的DOC值经过公式转换记为
(补偿DOC值),具体转换公式如下:
compensated DOC=uncompensated DOC*binsize/(binsize-x)。
所述数据转换模块实现了下述功能:将窗口内属于peaks区域的reads去除后计算得到的非peaks区域的DOC值等比例扩展到整个窗口,即实现了用非目标区域的测序数据表示整个基因组,且转换后得到的数据能够排除基因突变的影响,真实的反映出整个染色体的情况。
3.根据项1或2所述的染色体变异检测装置,其中,该染色体变异检测装置还包括过滤模块,所述数据获取模块和所述窗口划分模块通过所述过滤模块相连接,所述过滤模块用于将不合格及低质量的测序数据滤除。
4.根据项1~3中任一项所述的染色体变异检测装置,其中,所述窗口划分模块首先检测用户设定的窗口划分长度是否满足1Kb的整数倍,如果是,则根据测试样本要用到的参考基因组比如人群样本用到的hg19参考基因组,将参考基因组按染色体、窗口大小(例如20Kb)进行窗口划分,并给出每个窗口对应的GC值、匹配率。
5.根据项1~4中任一项所述的染色体变异检测装置,其中,所述数据矫正模块利用所述窗口划分模块生成的窗口GC含量和匹配率对所述数据转换模块计算得到的补偿DOC值进行LOESS矫正,得到DOCloess值。这样能够减小数据波动。
6.根据项5中任一项所述的染色体变异检测装置,其中,所述数据矫正模块对所述DOCloess值再按如下公式进行一次中值矫正:
log2DOCloess=log2(DOCloess/median(DOCloess)),
该公式中,log2DOCloess表示最终的DOC值,median(DOCloess)表示所有窗口的DOCloess值的中值。
这样能够更明显地区分正常区域和非正常区域。
7.根据项5或6所述的染色体变异检测装置,其中,染色体变异判定模块包括:
分片子模块:其与所述数据矫正模块相连接,用于将所述log2DOCloess值按照一定的规则进行分片,从而确定CNV断点的位置并将其展现出来;
异常报告子模块:其与所述分片子模块相连接,用于利用分片后的数据进行差异性分析,报告不同片段的异常状态信息。所述异常状态信息的内容包括但不限于加倍(duplication)和缺失(deletion)。
8.根据项1~7中任一项所述的染色体变异检测装置,其中,所述数据转换模块还包括下述子模块:
过滤子模块,其与所述窗口划分模块相连接,用于过滤除去不合格的测序片段;例如可以利用samtools工具计算测试样本的bam文件中各个reads的phred值,并将phred值小于37的reads过滤掉;
测序片段计数子模块,其与所述过滤子模块相连接,用于统计过滤后剩下的测序片段,并将其存放到指定文件(例如新的bam文件)中;
所述目标区域识别子模块与所述测序片段计数子模块相连接。
9.一种染色体变异检测方法,其包括:
数据获取步骤,获取目标区域捕获测序数据;
窗口划分步骤,针对不同的参考基因组,按照用户给定的窗口长度对参考基因组序列划分窗口,生成各个窗口对应的GC含量以及匹配率;
数据转换步骤,将目标区域捕获测序数据转换成近似于低深度全基因组测序数据;
数据矫正步骤,利用划分窗口后计算得到的GC值以及匹配率值,分别进行LOESS矫正;该矫正能够减少因芯片不同区域捕获情况不同造成的差异,从而降低数据的波动性;
染色体变异判定步骤,判定是否存在染色体变异。例如,可以利用现有的拷贝数变异检测R包(DNAcopy)将矫正后的数据按染色体以及DOC值进行划分,同一个染色体上位置相邻且DOC值相近的区域划分到一起,这个划分过程具体实现算法是循环二元分割算法(Circular binary segmentation,CBS),从而实现将平均DOC值不同的区域区分开,再利用现有的隐马尔科夫算法(HMM)给这些划分后得到的DOC值进行定性判断,从而确定哪些染色体片段是变异的,哪些是正常的。
10.根据项9所述的染色体变异检测方法,其中,所述数据转换步骤包括:
过滤子步骤,过滤除去不合格的reads;例如可以利用samtools工具计算测试样本的bam文件中各个reads的phred值,并将phred值小于37的reads过滤掉;
reads计数子步骤,统计过滤后剩下的reads,并将其存放到指定文件(例如新的bam文件)中;
目标区域识别子步骤,对目标区域的reads进行标记(例如,可以利用现有的工具MACS 1.4),并去除测试样本和参考基因组中被标记的目标区域peaks(可利用例如现有的工具bedtools);
数据转换核心子步骤,计算非补偿深度覆盖度值(uncompensated DOC)及补偿DOC值(compensated DOC),
所述非补偿DOC值是指窗口内去除peaks区域部分的DOC值(例如,可利用Rsamtools工具进行计算),
所述补偿DOC值根据下述公式计算,
compensated DOC=uncompensated DOC*binsize/(binsize-x),
该公式中,compensated DOC表示补偿DOC值,uncompensated DOC表示非补偿DOC值,binsize表示窗口的长度,x表示窗口内属于peaks区域的长度。
该子步骤在去除了peaks区域的reads后,计算非目标区域的深度覆盖值(Depthof Coverage,DOC),首先利用例如Rsamtools计算窗口内去除peaks区域部分的DOC值,记为非补偿深度覆盖度值(uncompensated DOC),再计算窗口内属于peaks区域的长度x,所以整个窗口的DOC值经过公式转换记为
(补偿DOC值),具体转换公式如下:
compensated DOC=uncompensated DOC*binsize/(binsize-x)。
数据转换步骤实现了下述功能:将窗口内属于peaks区域的reads去除后计算得到的非peaks区域的DOC值等比例扩展到整个窗口,即实现了用非目标区域的测序数据表示整个基因组,且转换后得到的数据能够排除基因突变的影响,真实的反映出整个染色体的情况。
11.根据项9或10所述的染色体变异检测方法,其中,在所述窗口划分步骤之前还包括过滤步骤,将不合格及低质量的测序数据滤除。
12.根据项9~11中任一项所述的染色体变异检测方法,其中,所述窗口划分步骤中,首先检测用户设定的窗口划分长度是否满足1Kb的整数倍,如果是,则根据测试样本要用到的参考基因组比如人群样本用到的hg19参考基因组,将参考基因组按染色体、窗口大小(例如20Kb)进行窗口划分,并给出每个窗口对应的GC值、匹配率。
13.根据项9~12中任一项所述的染色体变异检测方法,其中,所述数据矫正步骤中利用所述窗口划分步骤生成的窗口GC含量和匹配率对所述数据转换步骤中计算得到的补偿DOC值进行LOESS矫正,得到DOCloess值。这样能够减小数据波动。
14.根据项13所述的染色体变异检测方法,其中,所述数据矫正步骤中对所述DOCloess值再按如下公式进行一次中值矫正:
log2DOCloess=log2(DOCloess/median(DOCloess)),
该公式中,log2DOCloess表示最终的DOC值,median(DOCloess)表示所有窗口的DOCloess值的中值。
这样能够更明显地区分正常区域和非正常区域。
15.根据项14所述的染色体变异检测方法,其中,染色体变异判定步骤包括:
分片子步骤:将所述log2DOCloess值按照一定的规则进行分片,从而确定CNV断点的位置并将其展现出来;
异常报告子步骤:利用分片后的数据进行差异性分析,报告不同片段的异常状态信息。所述异常状态信息的内容包括但不限于加倍和缺失。
根据项9~15中任一项所述的染色体变异检测方法,其中,所述数据转换步骤在进行所述目标区域识别子步骤前还包括:
过滤子步骤,过滤除去不合格的reads;例如可以利用samtools工具计算测试样本的bam文件中各个reads的phred值,并将phred值小于37的reads过滤掉;和
reads计数子步骤,统计过滤后剩下的reads,并将其存放到指定文件(例如新的bam文件)中。
发明的具体实施方式
本说明书中提及的科技术语具有与本领域技术人员通常理解的含义相同的含义,如有冲突以本说明书中的定义为准。
本发明的目的在于提供一种能够基于捕获测序数据实现低深度全基因组检测的功能的染色体变异检测装置。通过本发明的染色体变异检测装置,能够将目标区域捕获测序的数据转换成等价于低深度全基因组测序的数据,并利用这些转换后的数据检测染色体变异信息。下面将参考附图结合实施例来详细说明本发明。
图1是本发明的染色体变异检测装置的优选实施方式的一例的示意图。该优选实施方式的染色体变异检测装置包括:
数据获取模块,用于获取目标区域捕获测序数据。
过滤模块,所述数据获取模块和所述窗口划分模块通过所述过滤模块相连接,所述过滤模块用于将不合格及低质量的测序数据滤除。在一个具体实施方式中,利用比对软件BWA比对到人类参考基因组,并利用samtools工具将比对后的reads存放在bam格式的文件中。比对完成后还要对原始的比对结果进行一个筛选,去除低质量以及重复的reads,得到用于输入给数据转换模块的unique bam文件。
窗口划分模块:其与所述数据获取模块相连接,用于针对不同的参考基因组,按照用户给定的窗口长度对参考基因组序列划分窗口,生成各个窗口对应的GC含量以及匹配率;更具体地,对hg19人类参考基因组按照窗口长度为20Kb的长度划分窗口,计算窗口内的GC含量以及匹配率;
数据转换模块:其与所述窗口划分模块相连接,用于将目标区域捕获测序数据转换成近似于低深度全基因组测序数据。在该实施方式中,所述数据转换模块包括下述子模块:
过滤子模块,其与所述窗口划分模块相连接,用于过滤除去不合格的reads。具体地,用samtools读取unique bam文件中的reads,并计算reads的phred值,保留phred>37的reads。
reads计数子模块,其与所述过滤子模块相连接,用于统计过滤后剩下的reads,并将其存放到指定文件中。具体地,将这些reads按划分好的窗口计数后存入新的bam文件中。
目标区域识别子模块,其与reads计数子模块相连接,用于对目标区域的reads进行标记,并去除测试样本和参考基因组中前一步中标记的目标区域peaks;具体地,利用MACS软件标记目标区域(peaks)中的reads,然后,对于带有peaks标记的reads,用bedtools工具去除这些reads。图2为MACS识别标记目标区域以及剔除这些区域reads后的示意图。
数据转换核心子模块,其与所述目标区域识别子模块相连接,用于计算非补偿深度覆盖度值(uncompensated DOC)及补偿DOC值(compensated DOC),
所述非补偿DOC值是指窗口内去除peaks区域部分的DOC值(例如,可利用Rsamtools工具进行计算),
所述补偿DOC值根据下述公式计算
compensated DOC=uncompensated DOC*binsize/(binsize-x),
该公式中,compensated DOC表示补偿DOC值,uncompensated DOC表示非补偿DOC值,binsize表示窗口的长度,这里为20Kb,x表示窗口内属于peaks区域的长度。
根据之前划分好的窗口,通过Rsamtools工具计算各个窗口非peaks区域的DOC值,用窗口内非peaks区域计算得到的DOC值只能称为未补偿DOC值,不能完全表现整个窗口的DOC信息,所以利用数据转换装置对这一数据进行转换,得到新的称为补偿DOC值的数据。
数据矫正模块:其与所述非目标区域覆盖深度值计算模块相连接,用于利用划分窗口后计算得到的GC值以及匹配率值,分别进行LOESS矫正。所述数据矫正模块利用所述窗口划分模块生成的窗口GC含量和匹配率对所述数据转换模块计算得到的补偿DOC值进行LOESS矫正,得到DOCloess值。然后,所述数据矫正模块对所述DOCloess值再按如下公式进行一次中值矫正:其中,LOESS表示局部(加权)线性回归;
log2DOCloess=log2(DOCloess/median(DOCloess)),
该公式中,log2DOCloess表示最终的DOC值,median(DOCloess)表示所有窗口的DOCloess值的中值。
具体地,通过上述模块得到了样本按窗口划分计算的原始的DOC值,但是这些数据还存在着一些因染色体捕获差异以及特殊片段的结构差异造成的数据波动,为了消除这些数据波动,用窗口划分模块中计算得到的窗口GC含量和匹配率值分别进行LOESS校正,两次LOESS矫正后得到图3,图4所示效果。做完LOESS校正后,再做一次中值校正,这样所有的矫正DOC值都更加接近0附近,便于后续的定性分析。
染色体变异判定模块:其与所述数据矫正模块相连接,用于判定是否存在染色体变异。
所述染色体变异判定模块包括:
分片子模块:其与所述数据矫正模块相连接,用于将所述log2DOCloess值按照一定的规则进行分片,从而确定CNV断点的位置并将其展现出来。具体而言,对于矫正后的DOC值做定性分析,即分成正常,缺失,加倍等类型,是一个明显的分类问题,普通的方法比如t检验,在处理这种位点数较大的数据上准确性不足,因此,先采用现有的R程序DNAcopy对矫正后的DOC数据进行分片,将位置相近且使得这些区域内的方差最小的所有位点归为一类,这样就相当于减少了要计算的位点数量,只需对分成一类的点做整体的差异性比较,就能得到该区域的定性结果,如图5所示。
异常报告子模块:其与所述分片子模块相连接,用于利用分片后的数据进行差异性分析,报告不同片段的异常状态信息。
图5中的结果显示1号染色体和8号染色体存在加倍的异常情况出现,这个结果和该样本通过fisher实验得到的结果(表1)是一致的。
表1
注:+表示加倍,-表示缺失
工业实用性
根据本发明,提供了一种能够基于捕获测序数据实现低深度全基因组检测的功能的染色体变异检测装置。