背景技术
乳腺癌是中国女性发病率最高的恶性肿瘤,约5%~10%的乳腺癌与癌症易感基因的遗传突变相关,其中最主要的乳腺癌易感基因为BRCA1(breast cancer susceptibilitygene 1)与BRCA2(breast cancer susceptibility gene 2)。BRCA1位于17q21,包含22个编码外显子、2个非编码外显子,编码1863个氨基酸。BRCA1蛋白调控细胞周期进程,参与DNA损伤导致的S期和G2/M期细胞周期阻滞的激活。BRCA2位于13q12,具有27个外显子,编码3418个氨基酸。BRCA2蛋白主要调控RAD51丝状体的形成和活性,参与同源重组途径中DNA损伤修复。据乳腺癌信息中心(breast cancer information core, BIC)报道,已检出的BRCA1/2致病性基因突变达1 600多种,这些突变分布于整个编码区,绝大多数为单个或数个碱基改变引起的移码突变、无义突变,这些突变类型会导致截短蛋白形成,影响BRCA1/2蛋白质功能。携带BRCA1/2胚系突变的女性,其乳腺癌终身患病风险显著增高,携带BRCA1胚系突变的女性70岁时患乳腺癌的风险为47%~66%,携带BRCA2胚系突变的女性携带者相应风险为40%~57%。中国家族性乳腺癌中BRCA1/2突变频率为10.5%,高加索人种家族性乳腺癌中BRCA1/2突变频率为15%~20%。然而,有研究发现,在高风险乳腺癌和(或)卵巢癌家族中,普通测序所检测到BRCA1/2突变频率低于连锁分析的预测频率,仅63%的BRCA1连锁家族能够检测出BRCA1致病性基因突变,这一结果表明,Sanger测序等常用的突变筛查方法不足以发现BRCA1所有基因胚系缺陷类型,如大片段重排。大片段重排大致情况如下:
1. BRCA1/2大片段重排机制
1997年,Puget等首次报道了BRCA1的大片段重排——E17缺失,缺失片段长约1 kb碱基。随着检测方法的改进,越来越多的BRCA1/2大片段重排被发现,现已知超过120种BRCA1大片段重排和40种BRCA2大片段重排。大片段重排指数百至数百万个碱基片段的重复或缺失,常累及一个或多个外显子。重排类型大部分为基因片段的缺失,也存在二倍重复、三倍重复或复杂型缺失插入。这些改变往往引起读码框移,导致突变的肽链结构与功能的异常。
人类基因组中约有1百万个散在的含有限制性内切酶位点的Alu重复序列,可介导染色体重排和同源重组,如基因片段的插入、缺失、重复、易位。有研究发现,一种BRCA1 delE5-7突变是由于intron4 AluSx序列与intron7 AluSc序列存在相同的15bp碱基序列,此处发生非等位基因同源重组,导致中间长约5kb碱基片段的缺失。另一项研究发现,BRCA1 delE3-5突变是由于intron2 AluY序列与intron5 AluJb序列存在相同的16 bp碱基序列,发生非等位基因同源重组后,中间长约14.6 kb碱基片段的缺失。
此外,BRCA1假基因ψBRCA1位于BRCA1与相邻NBR2基因的上游,与BRCA1具有较高同源性,可与之发生非等位基因间的同源重组。ψBCRA1引起BRCA1大片段重排最常见的类型为BRCA1基因上游碱基片段及BRCA1 E1、E2的缺失。Preisler等发现一种BRCA1 delE1-2,位于BRCA1 intron2的nt 34118位置,因ψBRCA1 intron2与BRCA1 intron2具有188个相同的碱基序列,两者之间发生同源重组,导致中间长达36.9 kb片段的缺失,包含BRCA1的E1与E2、NBR2全基因、部分ψBRCA1。此外,Puget等鉴定出两种不同的BRCA1 delE1-2断裂位点,分别位于BRCA1 intron2的nt34439与nt34339位置,这也证明了BRCA1基因5’端存在重组热点。
另有研究者认为BRCA1基因大片段缺失可能由短串联重复序列介导的非等位非同源的交叉重组引起,此外,在DNA复制过程中,短串联重复序列可能导致滑脱错配,引起不同长度片段的缺失。
2. BRCA1/2大片段重排频率
2.1 不同地区人群BRCA1/2大片段重排频率
BRCA1/2基因大片段重排在不同地区人群中的发生频率为0.2%~12.2%,占BRCA1/2全部致病性基因突变的0.9%~21.4%。美国一项研究纳入了300个遗传性乳腺癌和(或)卵巢癌家族,这些家族中患乳腺癌或卵巢癌的家族成员> 4人且BRCA1/2普通测序未检出突变,在35个(12%)家族检出了BRCA1/2基因大片段重排。而美国另一项研究纳入了2万余例乳腺癌患病高风险人群和2万余例普通人群,在高风险人群中BRCA1/2大片段重排的检出频率为2.4%,占所有BRCA1/2致病性基因突变的9.9%,普通人群的检出频率为0.5%,占所有BRCA1/2致病性基因突变的5.9%。德国一项研究发现乳腺癌高风险人群中BRCA1大片段重排频率为2.1%(32/1506),BRCA2大片段重排频率为0.2%(1/412)。捷克的172个遗传性乳腺癌和(或)卵巢癌家族中检出10个(5.8%)家族携带BRCA1大片段重排,未检测BRCA2大片段重排。西班牙的207个测序阴性的乳腺癌高风险家族中检出1个(0.5%)家族携带BRCA1大片段重排,另1个(0.5%)家族携带BRCA2大片段重排。南美洲智利的74例测序阴性的乳腺癌高风险患者中发现3例(4.1%)BRCA1大片段重排,未发现BRCA2大片段重排。巴西的210个遗传性乳腺癌和(或)卵巢癌家族共发现2个(1.0%)家族携带BRCA1大片段重排,未发现BRCA2大片段重排。非洲尼日利亚的352例测序阴性的非筛选乳腺癌患者中只发现1例(0.3%)BRCA1大片段重排,未检测BRCA2大片段重排。阿尔及利亚的40例早发性乳腺癌患者中检出1例(2.5%)BRCA1大片段重排及1例(2.5%)BRCA2大片段重排。
另有研究发现,起源于拉丁美洲/加勒比海地区高风险人群BRCA1/2大片段重排频率较高,为6.7%,而存在BRCA1/2始祖点突变的德系犹太人罕见BRCA1/2重排。
在亚洲地区,韩国一项研究对306例BRCA1/2普通测序阴性的乳腺癌患者进行了大片段重排的检测,检出3例(1%)患者携带BRCA1大片段重排,未检出BRCA2大片段重排;韩国另一项研究纳入106例高风险乳腺癌患者,检出2例(1.9%)患者携带BRCA1大片段重排,未检出BRCA2大片段重排。巴基斯坦一项研究在120例早发性乳腺癌及家族性乳腺癌患者中检测出4例(3.3%)患者携带BRCA1大片段重排,未检出BRCA2大片段重排。马来西亚一项纳入524例早发性或家族性乳腺癌患者的研究中检测出7例(1.3%)BRCA1大片段重排和2例(0.4%)BRCA2大片段重排,其中BRCA1 del E1-14与BRCA2 del E22-24携带者为华裔。新加坡94例早发性或家族性乳腺癌患者中有1例(1.1%)华裔携带BRCA1 dup E13。中国香港Kwong等在1236例高风险乳腺癌和(或)卵巢癌患者中共发现5例(0.4%)BRCA1大片段重排(del E1-12、del E17-20、del E1-8、del E5-7、del E20-22)与3例(0.2%)BRCA2大片段重排(del E21、del E15-16、del E25-27),并证实BRCA2 del E15-16为中国人群的始祖突变。
2.2 BRCA1/2大片段重排的始祖效应
遗传自同一祖先的胚系突变称为始祖突变,由于存在始祖效应,始祖突变在特定人群中发生频率较高。现已有多种BRCA1/2大片段重排被证明为始祖突变。1997年Petrij等第一次报道了荷兰人群中存在始祖突变——BRCA1 E22缺失,此种重排突变在荷兰遗传咨询人群中频率高达12.2%。此外,美国有研究者在746例西班牙裔非筛选乳腺癌或卵巢癌患者中检测出BRCA1/2大片段重排21例(2.8%),其中13例(1.7%)为始祖重排BRCA1 delE9-12,占BRCA1重排数目的62%(13/21)。BRCA1 delE9-12始祖重排在早发性三阴性乳腺癌患者中发生频率较高,为9.5%(18/190)。此外,葡萄牙裔存在BRCA2 c.156_157insAlu导致E3缺失始祖突变,此种重排在家族性乳腺癌患者中发生频率为6.7%(14/208)。
3. BRCA1/2大片段重排检测方法
人们探索过多种基因重排的检测方法:早期Southern Blotting技术被用来检测基因片段的拷贝数变化,但由于费力、耗时、消耗DNA量大、可能出现假阳性结果等原因,现已不常用;长片段PCR(long range PCR)被用来鉴定特定类型的大片段的基因突变,包括基因内的缺失、插入、重复与染色体断裂等,适用于已知重排类型的断裂位点鉴定,但不能提供基因总体的重排概况,不能检测到易位或是倒置;实时荧光定量PCR(real-time PCR)可同时扩增和定量目的DNA片段,但通量低,不适用于筛查整个基因;双色荧光原位杂交(dual-color FISH)可以检测染色体内的插入、缺失、扩增、倒置和染色易位,仅适用于检测大片段的染色体异常;短荧光片段多重定量PCR(quantitative multiplex PCR of shortfluorescent fragments, QMPSF)是一种检测基因片段缺失和重复的灵敏方法,已有研究采用这种方法检测BRCA1大片段重排,然而此方法对实验条件要求高,而且需要实验员具有丰富的经验;比较基因组杂交技术(comparative genomic hybridization, CGH)是检测DNA拷贝数的分子细胞遗传学方法,是检测整个基因重排情况的有效方法,但并不能检测出拷贝数正常的染色体突变类型。
多重链接依赖探针扩增技术(multiplex ligation-dependent drobeamplification, MLPA)是应用最广泛的检测基因DNA序列拷贝数异常的方法,是检测BRCA1/2大片段重排最常用的方法。其基本原理是通过DNA变性、探针与样本DNA杂交、杂交探针的连接、连接探针的PCR扩增、PCR产物的毛细管电泳,进行实验样本自身标化及与正常对照样本相比较,根据产物峰值来评价是否存在基因的重复或缺失。MLPA是一种廉价、敏感、可靠、高通量、操作简单、DNA用量少的基因重排检测方法。然而,当探针结合位点的DNA序列发生多态性改变时,探针与目的片段的结合力会受到影响,可能导致假阳性结果的出现。
综上,多项涉及不同人群的研究表明,BRCA1/2大片段重排在遗传性乳腺癌家族中占有重要比例,对于高风险人群,在普通基因突变检测阴性的情况下,建议进行大片段重排的检测。尤其对于具有始祖效应的大片段重排,在特定人群中的检测是必要的。目前,有关我国内陆地区人群BRCA1/2大片段重排的数据尚少,携带该基因突变患者的临床病理特征、对不同治疗方案的敏感度以及是否存在有效的预防措施等方面也有待进一步研究。
伴随着基因检测的普及,人们对于肿瘤遗传的关注程度及咨询需求日益增加。
发明内容
本发明旨在提供一种基于reads深度进行目的基因外显子水平重排检测的方法及装置,以提供一种能够准确检测目的基因外显子水平的缺失或扩增的方法或装置。
为了实现上述目的,根据本发明的一个方面,提供了一种基于reads深度进行目的基因外显子水平重排检测的方法。该方法包括:S1,将参考基因组划分为多个bin,根据目的基因分为target区域的bin和off-target区域的bin,将reads比对到参考基因组上,并分别计算target区域和off-target区域的每个bin内的平均reads深度和深度的log2值;S2,合并target区域和off-target区域reads深度统计,并将其标准化;S3,对S2中标准化的结果进行拷贝数变异查找,对于标准化后得到的log2根据阈值进行定义目的基因的缺失和重复状态。
进一步地,基于reads深度进行目的基因外显子水平重排检测的方法还包括:S4,筛选划分不同bin中的目的基因的区域,进行过滤其他bin,合并目的基因的检测结果,利用标准化后的reads深度分布进行可视化展示。
进一步地,bin为外显子水平的bin。
进一步地,S1具体包括:将参考基因组长度设置为n,平均划分为m个bin,则每一个bin长度为n/m;如果Ci是i个bin中的reads的数量,那么所有reads数据量是:
,并由此计算target区域和off-target区域的每个bin内的平均reads深度和深度的log2值。
进一步地,S2中的标准化包括:利用搭建好的reference数据库进行标准化,校正测序基因组GC含量、重复序列和目标区域的密度从而校正bin 深度,reference数据库是用N个健康人比对软件的输出结果Bam文件构建的,包括健康人的reads深度统计及log2标准化值、基因组的GC、重复序列和目标区域的密度,N≥20。
进一步地,S2中的标准化中,Off-target区域是根据参考基因组fa进行扩展获得的包括端粒在内的全部参考基因组序列和target区域进行筛选得到的Off-target区域;利用如下公式校正bin深度,减去reference数据库的深度的log2值,滑动居中log2比率;
,其中,第i个bin标准化后的reads数量定义为Ai,M是具有正常拷贝数的bin的预期reads计数,αi为GC不同含量评估值,βi为mappability评估值。
进一步地,目的基因为BRCA1/2,S3中对于标准化后得到的log2根据阈值进行定义目的基因的缺失状态包括:Log2值小于-0.4定义为cn=1,为杂合缺失;Log2值小于-1.1定义为cn=0,为纯合缺失,Log2值大于0.7定义为扩增。
根据本发明的另一个方面,提供一种基于reads深度进行目的基因外显子水平重排检测的装置。该装置包括:reads深度计算模块,设置为将参考基因组划分为多个bin,分为target区域的bin和off-target区域的bin,将reads比对到参考基因组上,并分别计算target区域和off-target区域的每个bin内的平均reads深度和深度的log2值;标准化模块,设置为合并target区域和off-target区域reads深度统计,并将其标准化;判断模块,设置为对标准化模块中标准化的结果进行拷贝数变异查找,对于标准化后得到的log2根据阈值进行定义目的基因的缺失和重复状态。
进一步地,装置还包:可视化展示模块,设置为筛选划分不同bin中的目的基因的区域,进行过滤其他bin,合并目的基因的检测结果,利用标准化后的reads深度分布进行可视化展示。
进一步地,bin为外显子水平的bin。
进一步地,所reads深度计算模块设置为:将参考基因组长度设置为n,平均划分为m个bin,则每一个bin长度为n/m;如果Ci是i个bin中的reads的数量,那么所有reads数据量是:
,并由此计算target区域和off-target区域的每个bin内的平均reads深度和深度的log2值。
进一步地,标准化模块中的标准化包括:利用搭建好的reference数据库进行标准化,校正测序基因组GC含量、重复序列和目标区域的密度从而校正bin 深度,reference数据库是用N个健康人比对软件的输出结果Bam文件构建的,包括健康人的reads深度统计及log2标准化值、基因组的GC、重复序列和目标区域的密度,N≥20。
进一步地,标准化模块中,Off-target区域是根据参考基因组fa进行扩展获得的包括端粒在内的全部参考基因组序列和target区域进行筛选得到的Off-target区域;利用如下公式校正bin深度,减去reference数据库的深度的log2值,滑动居中log2比率;
,其中,第i个bin标准化后的reads数量定义为Ai,M是具有正常拷贝数的bin的预期reads计数,αi为GC不同含量评估值,βi为mappability评估值。
进一步地,目的基因为BRCA1/2,判断模块中对于标准化后得到的log2根据阈值进行定义目的基因的缺失状态包括:Log2值小于-0.4定义为cn=1,为杂合缺失;Log2值小于-1.1定义为cn=0,为纯合缺失,Log2值大于0.7定义为扩增。
应用本发明的技术方案,能够对目的基因外显子水平的重排进行检测,还可以精确的检测出目的基因是杂合缺失或者是纯合缺失,并可以进一步将最终结果即目的基因的不同外显子缺失水平进行可视化,使结果更加清晰明了。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
名词解释
BRCA1/2:BRCA1/2是两种具有抑制恶性肿瘤发生作用的基因,其通过编码产生肿瘤抑制蛋白,从而在调节人体细胞的复制、遗传物质DNA损伤修复、细胞的正常生长方面有重要作用。当这两种基因任一发生突变或改变,其蛋白产物不进行或不能正常行使功能,DNA损伤可能得不到适当的修复,从而使细胞可能形成其他遗传信息的改变,导致癌症。
NGS技术:高通量测序(High-Throughput Sequencing)又名下一代测序(NextGeneration Sequencing,NGS),是相对于传统的桑格测序(Sanger Sequencing)而言的,目前高通量测序的主要平台代表有罗氏公司(Roche)的454测序仪(Roch GS FLXsequencer),Illumina公司的Solexa基因组分析仪(Illumina Genome Analyzer)和ABI的SOLiD测序仪(ABI SOLiD sequencer)。
hg19 fasta:人类参考基因组,版本是hg19,本申请中又记为参考基因组fa。
DNA panel:DNA的靶向杂交捕获测序。
target bed(本申请中又叫target区域):一种bed格式文件,是DNA的靶向杂交捕获区域。
off-target bed(本申请中又叫off-target区域):一种bed格式文件,是非DNA的靶向杂交捕获区域。
Bwa:输入fastq输出Bam文件的一款比对软件。
测序深度或者覆盖度(coverage or depth)是指参考序列一个碱基上比对的reads的数目;计算公式为:测序深度= reads长度×比对的reads数目/参考序列长度。
需要说明的是,本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便这里描述的本申请的实施方式例如能够以除了在这里描述的那些以外的顺序实施。
本发明的目的基因外显子水平重排检测是基于测序深度、利用健康人数据搭建reference进行检测目的基因基因的重排,主要包括:在DNA panel 测序中基于测序深度进行的重排检测,为了减少偏差,需要二个bed文件,一个是target bed(目标区域的reads),一个是off-target bed(非特异捕获的非目标区域的reads),因为同时使用目标区域的reads和非特异捕获的非目标区域的reads来推断整个基因组中的缺失或扩增状态(大量的非目标区域DNA保留在文库中,这些DNA被测序并代表了相当大一部分的reads),因此,除了在目标区域获得的高覆盖测序外,非目标区域reads提供了整个基因组的低覆盖测序。虽然单靠非目标区域的reads不能提供足够的覆盖率来证明单核苷酸变异(SNVs)和其他小的变异(small variants,indel,CNV),但它们可以在更大范围内提供关于拷贝数的有用信息。
根据本发明一种典型的实施方式,以BRCA1/2基因为例,参考图1:
首先,将基因组划分为多个bin, 分为target区域的bin和off-target区域的bin,将read比对到参考基因组上,并分别计算使用target区域和off-target区域的每个bin内的平均reads深度和深度的log2值。比如:参考基因组长度n,平均划分为m个bin,每一个bin长度n/m。如果Ci是第i个bin中的read的数量,那么所有read数据量是:
;
其次,合并target区域和off-target区域reads深度统计,并将其标准化。在本发明一典型的实施方式中,标准化主要是利用搭建好的reference数据库进行标准化,来校正基因组GC含量、重复序列、目标区域的密度(density),校正外显子边界深度呈正态分布带来的影响,校正bin深度。又如,在本发明一实施例中,reference数据库是用30个人健康人bwa软件的输出结果Bam文件构建的,包括健康人的reads深度统计及log2标准化值、基因组的GC、重复序列和目标区域的密度(density)。优选的,其中的Off-target bed是根据参考基因组fa进行扩展获得端粒等全部参考基因组序列和target bed进行筛选得到的Off-target bed。利用如下公式校正bin深度,减去reference的深度的log2值,滑动居中log2比率;
,第i个bin标准化后的read数量定义为Ai,M是具有正常拷贝数的bin的预期read计数,例如所有bin的中位数。分母为相同GC含量,相同mappability bin的中值。
最后,对标准化的结果进行call cn(cn即拷贝数,call cn即拷贝数变异查找),对于标准化后得到的log2根据不同阈值进行定义是杂合缺失还是纯合缺失。Log2值小于-0.4定义为cn=1,为杂合缺失。Log2值小于-1.1定义为cn=0,为纯合缺失,Log2值大于0.7定义为扩增。筛选划分好不同bin中的目的基因的区域,进行过滤其他Bin,合并目的基因的结果,并且利用校正后的深度分布进行可视化展示。
该装置能够对目的基因外显子水平的缺失进行检测。不仅如此,它还可以精确的检测出目的基因是杂合缺失或者是纯合缺失,并将最终结果即目的基因基因的不同外显子缺失水平进行可视化,使结果更加清晰明了。
为了更方便上述方法的试试,本发明还提供了一种基于reads深度进行目的基因外显子水平重排检测的装置。
该装置包括:
reads深度计算模块,设置为将参考基因组划分为多个bin,分为target区域的bin和off-target区域的bin,将reads比对到参考基因组上,并分别计算target区域和off-target区域的每个bin内的平均reads深度和深度的log2值;
标准化模块,设置为合并target区域和off-target区域reads深度统计,并将其标准化;
判断模块,设置为对标准化模块中标准化的结果进行call cn(拷贝数变异查找),对于标准化后得到的log2根据阈值进行定义目的基因的缺失和重复状态。
优选的,装置还包:可视化展示模块,设置为筛选划分不同bin中的目的基因的区域,进行过滤其他bin,合并目的基因的检测结果,利用标准化后的reads深度分布进行可视化展示。其中,“目的基因的区域”是要报出缺失的基因,“target区域”是指芯片设计中测序捕获的区域,off-target指芯片设计中测序不捕获的区域,也就是说,“target区域”包含“目的基因的区域”。在本发明一实施例中,可以是先统计target区域和off-target区域,并合并,然后标准化之后再过滤其他Bin,只留下含有目的基因的bin。
在本发明一典型的实施方式中,bin为外显子水平的bin。
在本发明一典型的实施方式中,所reads深度计算模块设置为:将参考基因组长度设置为n,平均划分为m个bin,则每一个bin长度为n/m;如果Ci是i个bin中的reads的数量,那么所有reads数据量是:
,并由此计算target区域和off-target区域的每个bin内的平均reads深度和深度的log2值。
优选的,标准化模块中的标准化包括:利用搭建好的reference数据库进行标准化,校正测序基因组GC含量、重复序列和目标区域的密度从而校正bin 深度,reference数据库是用N个健康人比对软件的输出结果Bam文件构建的,包括健康人的reads深度统计及log2标准化值、基因组的GC、重复序列和目标区域的密度,所述N≥20。也就是,校正测序数据由于GC含量不同、重复序列程度、目标区域密度(外显子边界深度呈正态分布因素导致的reads深度分布不稳定)带来的影响。
优选的,标准化模块中,Off-target区域是根据参考基因组fa进行扩展获得的包括端粒在内的全部参考基因组序列和target区域进行筛选得到的Off-target区域;利用如下公式校正bin深度,减去reference数据库的深度的log2值,滑动居中log2比率;
,其中,第i个bin标准化后的reads数量定义为Ai,M是具有正常拷贝数的bin的预期reads计数,αi为GC不同含量评估值,βi为mappability评估值,M
αiβi代表一个值,是相同GC含量,相同mappability的bins中的GC评估和mappability评估的合并的后取得中值。
在本发明一典型的实施方式中,判断模块中对于标准化后得到的log2根据阈值进行定义目的基因的缺失状态包括:Log2值小于-0.4定义为cn=1,为杂合缺失;Log2值小于-1.1定义为cn=0,为纯合缺失,Log2值大于0.7定义为扩增。
下面将结合实施例进一步说明本发明的有益效果。
实施例1
目标:对实体瘤的患者样本,进行BRCA1/2重排检测
步骤:
1. 对27例肿瘤患者样本,进行BRCA1/2 重排检测。
2. 对使用本申请算法检测生成的中间输出文件作为输入,进行可视化展示。
3. 对这27例患者进行MLPA(多重连接探针依赖性扩增)技术实验验证。
其中,进行BRCA1/2 重排检测主要包括以下步骤:
首先,将基因组划分为多个bin,分为target区域的bin和off-target区域的bin,对于target区域上的目的基因bin设计为这个基因的每一个外显子为一个bin,其他bin按照芯片设计的bed区域,过大会进行拆分。将read比对到参考基因组上,并分别计算使用target区域和off-target区域的每个bin内的平均reads深度和深度的log2值。参考基因组长度n,平均划分为m个bin,每一个bin长度n/m。如果Ci是i个bin中的read的数量,那么所有read数据量是:
;
其次,合并target区域和off-target区域reads深度统计,并将其标准化。标准化主要是利用搭建好的reference数据库进行标准化,来校正基因组GC含量、重复序列、目标区域的密度(density),校正外显子边界深度呈正态分布带来的影响,校正bin深度。在本发明一实施例中,reference数据库是用30个人健康人bwa软件的输出结果Bam文件构建的,包括健康人的reads深度统计及log2标准化值、基因组的GC、重复序列和目标区域的密度(density)。其中的Off-target bed是根据参考基因组fa进行扩展获得端粒等全部参考基因组序列和target bed进行筛选得到的Off-target bed。利用如下公式校正bin深度,减去reference的深度的log2值,滑动居中log2比率;
,第i个bin标准化后的read数量定义为Ai,M是具有正常拷贝数的bin的预期read计数,例如所有bin的中位数。分母为相同GC含量,相同mappability bin的中值。
最后,对标准化的结果进行call cn,对于标准化后得到的log2根据不同阈值进行定义是杂合缺失还是纯合缺失。Log2值小于-0.4定义为cn=1,为杂合缺失。Log2值小于-1.1定义为cn=0,为纯合缺失,Log2值大于0.7定义为扩增。筛选划分好不同bin中的BRCA1/2的区域,进行过滤其他Bin,合并BRCA1/2的结果,并且利用校正后的深度分布进行可视化展示。
结果见表1:
结果文件第一列为样本名称,第二列为本算法检出的BRCA1/2不同外显子重排状态结果,第三列为用MLPA技术实验验证的检测结果。
表1
对每一个样本进行可视化展示,例如图2(图中从上至下第一条虚线和第二条虚线之间的样本表示阴性,第二条虚线之下的样本表示缺失阳性)。
ROC曲线如图3所示,可以得知AUC值为1,表明本申请的检测方法准确性高。
从以上的描述中,可以看出,本发明上述的实施例解决了如下技术问题:1)解决BRCA1/2外显子水平的缺失或扩增检测;2)可以检测出BRCA1/2是杂合缺失或者是纯合缺失;3)可视化展示BRCA1/2基因的不同外显子缺失水平图。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。