发明内容
本发明的主要目的在于提供一种检测目标区域CNV的方法及装置,以解决现有技术中难以对来源于目标区域的测序数据中的CNV进行有效检测的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种检测目标区域CNV的方法,该方法包括:获取多个对照样本的目标区域的测序数据记为对照数据,同时获取待测样本的目标区域的测序数据,记为待测数据;从多个对照样本的对照数据中筛选出测序深度的大小关系全部保持一致的两个外显子,记作参照成对外显子,参照成对外显子的测序深度的大小关系记作参照关系,所有参照成对外显子及参照成对外显子的参照关系构成了参照关系谱;按照参照关系谱,检测待测数据中参照成对外显子的测序深度的大小关系,记为待测关系;检测待测关系与参照关系不一致的次数是否存在显著多次,若存在显著多次,则判定待测样本的目标区域发生CNV,反之,不发生。
进一步地,获取多个对照样本的目标区域的测序数据记为对照数据,同时获取待测样本的目标区域的测序数据,记为待测数据包括:获取多个对照样本的目标区域的测序数据,并将测序数据与参考基因组序列进行比对,得到唯一比对序列,记为对照数据;获取待测样本的目标区域的测序数据,并将测序数据与参考基因组序列进行比对,得到唯一比对序列,记为待测数据。
进一步地,在获得对照数据之后,以及从多个对照样本的对照数据中筛选出测序深度的大小关系全部保持一致的两个外显子之前,方法还包括:利用对照数据计算各外显子的测序深度,测序深度为覆盖外显子的碱基数与外显子长度的比值。
进一步地,利用二项分布检测待测关系与参照关系不一致的次数是否存在显著多次;优选地,在判定待测样本的目标区域发生CNV之后,方法还包括:根据待测关系与参照关系的变化方向,确定CNV为扩增还是缺失。
进一步地,在筛选参照成对外显子并保留参照关系时,同时检测参照成对外显子的测序深度的比值的平均值或中位数,记为参照深度比值,在检测待测关系时,同时检测待测数据中参照成对外显子的测序深度的比值的平均值或中位数,记为待测深度比值,在判断待测样本的目标区域发生CNV之后,方法还包括确定拷贝数值,拷贝数值为待测深度比值/参照深度比值*倍体数。
根据本申请的第二个方面,还提供了一种检测目标区域CNV的装置,该装置包括:获取模块,用于获取多个对照样本的目标区域的测序数据记为对照数据,同时获取待测样本的目标区域的测序数据,记为待测数据;参照关系谱构建模块,用于从多个对照样本的对照数据中筛选出测序深度的大小关系全部保持一致的两个外显子,记作参照成对外显子,参照成对外显子的测序深度的大小关系记作参照关系,所有参照成对外显子及参照成对外显子的参照关系构成了参照关系谱;第一检测模块,用于按照参照关系谱,检测待测数据中参照成对外显子的测序深度的大小关系,记为待测关系;第二检测模块,用于检测待测关系与参照关系不一致的次数是否存在显著多次,若存在显著多次,则判定待测样本的目标区域发生CNV,反之,不发生。
进一步地,获取模块包括:第一获取比对模块,用于获取多个对照样本的目标区域的测序数据,并将测序数据与参考基因组序列进行比对,得到唯一比对序列,记为对照数据;第二获取比对模块,用于获取待测样本的目标区域的测序数据,并将测序数据与参考基因组序列进行比对,得到唯一比对序列,记为待测数据。
进一步地,该装置还包括:测序深度计算模块,用于利用对照数据计算各外显子的测序深度,测序深度为覆盖外显子的碱基数与外显子长度的比值。
进一步地,第二检测模块为二项分布检测模块,优选地,该装置还包括:CNV类型确定模块,用于根据待测关系与参照关系的变化方向,确定CNV为拷贝数扩增还是拷贝数缺失。
进一步地,该装置还包括:参照深度比值计算模块,用于在筛选参照成对外显子并保留参照关系时,同时检测参照成对外显子的测序深度的比值的平均值或中位数,记为参照深度比值;待测深度比值计算模块,用于在检测待测关系时,同时检测待测数据中参照成对外显子的测序深度的比值的平均值或中位数,记为待测深度比值;拷贝数值计算模块,用于计算拷贝数值,拷贝数值为待测深度比值/参照深度比值*倍体数。
根据本申请的第三个方面,还提供了一种存储介质,该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任一种检测目标区域CNV的方法。
根据本申请的第四个方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述任一种检测目标区域CNV的方法。
应用本发明的技术方案,通过利用多个对照样本中任意两个外显子的测序深度的大小关系,筛选出测序深度的大小关系在所有对照样本中都保持一致的成对外显子,利用这类外显子的测序深度的大小关系(参照关系)构建参照关系谱,然后利用待测样本中的相应的成对外显子的测序深度的大小关系,即待测关系,最后通过判断待测关系与参照关系不一致的次数是否为显著多次,进而判断待测目标区域是否发生CNV。该方法避免了现有方法中对测序数据进行标准化处理而导致数据敏感性降低以及检测结果稳定性差的问题。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。
术语解释:
CNV:copy number variation:拷贝数变异。
人类参考基因组:由人类基因组计划产生的基因组图谱,由23对染色体组成,其中包括22对体染色体、1条X染色体和1条Y染色体。人类基因组含有约31.6亿个DNA碱基对,碱基对是以氢键相结合的两个含氮碱基,以胸腺嘧啶(T)、腺嘌呤(A)、胞嘧啶(C)和鸟嘌呤(G)四种碱基排列成碱基序列。
reads:高通量测序平台产生的序列被称为reads。
bam:对高通量测序平台产生的短序列进行比对到参考基因组形成的文件,格式是bam。
如背景技术部分提到的,现有技术难以对来源于目标区域的测序数据中的CNV进行有效检测的问题,为了改善这一状况,本申请对现有技术中目标区域的测序数据中的CNV难以有效的原因进行了分析和研究,发现存在以下原因:
现有的检测CNV的方法,大多都是适用于全基因组测序和全外显子测序,对于目标区域测序,通常将多个基因或者多个用药靶点区域合并构成panel(基因组合)进行实验测序。相比全基因组测序,目标区域测序的测序深度受panel捕获效率影响较大,则会出现整个panel区域测序深度起伏较大的情况。另外,不同样本在测序过程中无法保证测序数据量一致,会出现不同样本的测序数据量不在一个数量级而无法进行比较的情况。由于这两方面的原因,因而现有方法中都采用对区域测序深度进行标准化处理解决,标准化的方法包括z值等。然而发明人发现z值标准化会降低测序数据的敏感性,而且更重要的是,z值标准化的方法依赖于参与标准化的群体,如果群体发生变化,z值也会随着改变,从而容易导致产生相反的结果,因此使得现有方法的稳定性较差。
基于上述研究结果,发明人进一步对测序数据中不同样本的不同区域的测序深度的分布进行了比对分析,发现虽然同一个样本的不同区域测序深度波动很大,但是不同样本在相同区域的测序深度的分布一致性较高(见图1),因而本申请提出了全新的能够适用于检测测序深度波动较大的测序区域中的CNV的方法和装置。即利用任意两个外显子之间的测序深度的大小关系来表征不同区域的测序深度的波动情况。
实施例1
在本申请一种优选的实施例中,提供了一种检测目标区域CNV的方法,图2是根据本发明实施例的检测目标区域CNV的方法的流程图。如图2所示,该方法包括:
步骤S101,获取多个对照样本的目标区域的测序数据记为对照数据,同时获取待测样本的目标区域的测序数据,记为待测数据;
步骤S103,从多个对照样本的对照数据中筛选出测序深度的大小关系全部保持一致的两个外显子,记作参照成对外显子,参照成对外显子的测序深度的大小关系记作参照关系,所有参照成对外显子及参照成对外显子的参照关系构成了参照关系谱;
步骤S105,按照参照关系谱,检测待测数据中参照成对外显子的测序深度的大小关系,记为待测关系;
步骤S107,检测待测关系与参照关系不一致的次数是否存在显著多次,若存在显著多次,则判定待测样本的目标区域发生CNV,反之,不发生。
上述检测目标区域CNV的方法,通过利用多个对照样本中任意两个外显子的测序深度的大小关系,筛选出测序深度的大小关系在所有对照样本中都保持一致的成对外显子,利用这类外显子的测序深度的大小关系(参照关系)构建参照关系谱,然后利用待测样本中的相应的成对外显子的测序深度的大小关系,即待测关系,最后通过判断待测关系与参照关系不一致的次数是否为显著多次,进而判断待测目标区域是否发生CNV。该方法避免了现有方法中对测序数据进行标准化处理而导致数据敏感性降低以及检测结果稳定性差的问题。
上述方法中,目标测序区域是指根据研究目的,将多个基因或者多个用药靶点区域合并构成panel(基因组合)进行实验测序,其测序深度受到panel捕获效率的影响,不同的目标区域的测序深度变化幅度较大。如图1所示,同一样本中,不同外显子之间的测序深度相差几倍到几十倍,甚至几百倍。
需要说明的是,上述测序数据均是指与参考基因组序列比对后,剔除重复序列后剩余的能够比对到基因组上唯一位置的测序reads,具体的比对方法及去重方法采用现有软件(如比对软件BWA、去重软件Picard),按常规参数设置进行处理即可。优选地,获取多个对照样本的目标区域的测序数据记为对照数据,同时获取待测样本的目标区域的测序数据,记为待测数据包括:获取多个对照样本的目标区域的测序数据,并将测序数据与参考基因组序列进行比对,得到唯一比对序列,记为对照数据;获取待测样本的目标区域的测序数据,并将测序数据与参考基因组序列进行比对,得到唯一比对序列,记为待测数据。
上在获得对照数据之后,从多个对照样本的对照数据中筛选出测序深度的大小关系全部保持一致的两个外显子之前,上述方法还包括:利用对照数据计算各外显子的测序深度,测序深度为覆盖外显子的碱基数与外显子长度的比值。此处的测序深度指的是各外显子的平均测序深度。
上述检测待测关系与参照关系不一致的次数是否存在显著多次的检测方法,可以利用包括二项分布检测在内的统计学方法来进行检测,也可以采用其他类似的显著性检验方法来进行检测,比如t检验。
为了更准确地检测上述CNV的变异类型,在一种优选的实施例中,在判定待测样本的目标区域发生CNV之后,上述方法还包括:根据待测关系与参照关系的变化方向,确定CNV为拷贝数扩增还是拷贝数缺失。根据待测关系与参照关系的变化方向,比如,参照关系为外显子1的测序深度大于外显子2的测序深度,而待测关系为外显子1的测序深度小于外显子2的测序深度,从而确定该CNV为拷贝数缺失。相反,如果参照关系为外显子1的测序深度小于外显子2的测序深度,而待测关系为外显子1的测序深度大于外显子2的测序深度,则确定该CNV为拷贝数扩增。
除了上述定性检测是否存在CNV以及如果存在时,该CNV是拷贝数扩增还是拷贝数缺失外,在一优选的实施例中,该方法还可以定量检测CNV的具体拷贝数值:在筛选参照成对外显子并保留参照关系时,同时检测参照成对外显子的测序深度的比值的平均值或中位数,记为参照深度比值;在检测待测关系时,同时检测待测数据中参照成对外显子的测序深度的比值的平均值或中位数,记为待测深度比值;在判断待测样本的目标区域发生CNV之后,方法还包括确定拷贝数值,拷贝数值为待测深度比值/参照深度比值*倍体数。倍体数为检测物种的染色体倍数,以人为例,倍体数为2。
实施例2
本实施例中,先从100例健康人的panel测序数据中,筛选任意两个外显子的测序深度大小关系,并保留在所有样本中该测序深度大小关系都一致的成对外显子,记录这类成对外显子各自对应的测序深度的大小关系(记为参照关系),从而构建对照样本的成对外显子的测序深度的大小关系谱(记为参照关系谱)。
在肿瘤组织样本的测序数据中,针对任一外显子,计算参照关系谱中与该外显子相关的成对外显子,计算每一成对外显子对应的测序深度的大小关系(记为待测关系),检测待测关系与参照关系不一致的情况是否存在显著多次,若是存在,则认为该外显子发生了CNV,部分检测结果如下:
表1:
目标外显子 |
比较外显子 |
健康人(参照关系) |
肿瘤样本(待测关系) |
不一致? |
BRCA1-exon1 |
MTOR-Exon2 |
> |
< |
Y |
BRCA1-exon1 |
SPEN-Exon2 |
> |
< |
Y |
BRCA1-exon1 |
CDA-Exon1 |
< |
< |
N |
BRCA1-exon1 |
ID3-Exon2 |
> |
< |
Y |
BRCA1-exon1 |
CDKN2C-Exon1 |
< |
> |
Y |
BRCA1-exon1 |
JAK1-Exon20 |
< |
> |
Y |
BRCA1-exon1 |
PARP1-Exon23 |
< |
> |
Y |
表1中,>号表示目标外显子的测序深度大于比较外显子的测序深度,<号表示目标外显子的测序深度小于比较外显子的测序深度,Y表示不一致,N表示一致。
实施例3
本实施例,利用与实施例2相同的100例正常人群样本的测序数据,构建了成对外显子的参照关系谱,具体如下:
表2:
进一步,针对待测样本中,目标外显子SPEN,NM_015001,Exon1和MET,NM_000245,Exon1进行拷贝数检测,具体信息如下:
表3:
结合表2和表3的数据,对判断缺失或扩增,以及定量计算拷贝数值的步骤的示例性说明:
目标外显子和比较外显子的参照关系分为两种:1)目标外显子>比较外显子;2)目标外显子<比较外显子。后续对于某个外显子的拷贝数的变化分为以下三步:1.该外显子是否发生了拷贝数变异;2.如果发生了拷贝数变异,是发生扩增还是缺失;3.发生扩增或者缺失的拷贝数数值是多少。
第一步和第二步:
在参照关系谱中目标外显子和比较外显子的关系为:目标外显子>比较外显子;如果在待测样本中目标外显子和比较外显子的关系发生在显著多(二项分布检验p<0.0001)的关系对中发生反转,即目标外显子<比较外显子。则认为该目标外显子发生了拷贝数变异,且定性为缺失。
在参照关系谱中目标外显子和比较外显子的关系为:目标外显子<比较外显子;如果在待测样本中目标外显子和比较外显子的关系发生在显著多(二项分布检验p<0.0001)的关系对中发生反转,即目标外显子>比较外显子。则认为该目标外显子发生了拷贝数变异,且定性为扩增。
第三步:
对所有外显子测序深度按照z-score进行标准化,提取目标外显子和比较外显子标准化后的数值,并进行比值分析,即发生拷贝数数值=zscore(目标外显子)/zscore(比较外显子)的均值*2。
如表3所示,SPEN Exon1的97个成对外显子待测关系中有95对和对照关系不一致,二项分布检验p<0.0001,表明SPEN Exon1发生了拷贝数变异(CNV)。而且大小关系是由目标外显子>比较外显子变为目标外显子<比较外显子,所以发生了拷贝数缺失。发生拷贝数的数值=zscore(目标外显子)/zscore(比较外显子)的均值*2,即拷贝数的数值为0.42/0.85*2=0.988。
MET,NM_000245,Exon1,+的97个成对外显子待测关系中有94对和对照关系不一致,二项分布检验p<0.0001,表明MET Exon1发生了拷贝数变异(CNV)。而且大小关系是由目标外显子<比较外显子变为目标外显子>比较外显子,所以发生了拷贝数扩增。发生拷贝数的数值=zscore(目标外显子)/zscore(比较外显子)的均值*2,即拷贝数的数值为1.69/0.85*2=3.976。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
对应于上述方式,本申请还分别提供了一种检测目标区域CNV的装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
下面结合可选的实施例进一步说明。
实施例4
在本实施例中,还提供了一种检测目标区域CNV的装置,如图3所示,该装置包括:获取模块20、参照关系谱构建模块40、第一检测模块60及第二检测模块80,其中,获取模块20用于获取多个对照样本的目标区域的测序数据记为对照数据,同时获取待测样本的目标区域的测序数据,记为待测数据;参照关系谱构建模块40用于从多个对照样本的对照数据中筛选出测序深度的大小关系全部保持一致的两个外显子,记作参照成对外显子,参照成对外显子的测序深度的大小关系记作参照关系,所有参照成对外显子及参照成对外显子的参照关系构成了参照关系谱;第一检测模块60用于按照参照关系谱,检测待测数据中参照成对外显子的测序深度的大小关系,记为待测关系;第二检测模块80用于检测待测关系与参照关系不一致的次数是否存在显著多次,若存在显著多次,则判定待测样本的目标区域发生CNV,反之,不发生。
需要说明的是,上述获取模块所获取的测序数据均是指与参考基因组序列比对后,剔除重复序列后剩余的能够比对到基因组上唯一位置的测序reads。在一种优选的实施例中,上述获取模块包括:第一获取比对模块,用于获取多个对照样本的目标区域的测序数据,并将测序数据与参考基因组序列进行比对,得到唯一比对序列,记为对照数据;第二获取比对模块,用于获取待测样本的目标区域的测序数据,并将测序数据与参考基因组序列进行比对,得到唯一比对序列,记为待测数据。
优选地,该装置还包括:测序深度计算模块,用于利用对照数据计算各外显子的测序深度,序深度为覆盖外显子的碱基数与外显子长度的比值。此处的测序深度指的是各外显子的平均测序深度。
上述第二检测模块中,对于检测待测关系与参照关系不一致的次数是否存在显著多次的检测模块,优选为二项分布检测模块。当然,也可以采用其他类似的显著性检验模块来进行检测,比如t检验模块。
为了更准确地检测上述CNV的变异类型,在一种优选的实施例中,该装置还包括:CNV类型确定模块,用于根据待测关系与参照关系的变化方向,确定CNV为拷贝数扩增还是拷贝数缺失。根据待测关系与参照关系的变化方向,比如,参照关系为外显子1的测序深度大于外显子2的测序深度,而待测关系为外显子1的测序深度小于外显子2的测序深度,则确定该CNV为拷贝数缺失。相反,如果参照关系为外显子1的测序深度小于外显子2的测序深度,而待测关系为外显子1的测序深度大于外显子2的测序深度,则确定该CNV为拷贝数扩增。
除了上述第二检测模块定性检测是否存在CNV以及如果存在时,通过CNV类型确定模块确定该CNV是拷贝数扩增还是拷贝数缺失外,在一优选的实施例中,该装置还包括:参照深度比值计算模块,用于在筛选参照成对外显子并保留参照关系时,同时检测参照成对外显子的测序深度的比值的平均值或中位数,记为参照深度比值;待测深度比值计算模块,用于在检测待测关系时,同时检测待测数据中参照成对外显子的测序深度的比值的平均值或中位数,记为待测深度比值;拷贝数值计算模块,用于计算拷贝数值,拷贝数值为待测深度比值/参照深度比值*倍体数。
通过参照深度比值计算模块计算得到参照深度比值,通过待测深度比值计算模块计算得到待测深度比值,两个比值相除,再乘以物种倍体数即可得到拷贝数值,从而能够定量表征CNV的变异程度。
实施例5
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
实施例6
本发明的实施例还提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行上述任一种检测目标区域CNV的方法。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
从以上的描述中,可以看出,本发明上述的实施例实现了如下技术效果:本申请通过提出测序深度的大小关系来体现目标区域测序深度的分布情况,并以此代替标准化的方法,不仅有效解决了数据波动导致的目标区域CNV难以准确检测的问题,而且避免了数据标准化带来的检测不准确及稳定性差的问题。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。