发明内容
本发明要解决的技术问题是提供一种基于基因捕获和二代测序技术的脊髓性肌萎缩症相关基因拷贝数检测试剂盒,用于解决现有方法测序深度不均一、错误率较高、稳定性不好、通量较小等问题。为此,本发明还提供该基于基因捕获和二代测序技术的脊髓性肌萎缩症相关基因拷贝数检测方法,用于解决SMN1和SMN2基因高度同源性以及外显子拷贝数变化多样性问题。
为解决上述技术问题,本发明采用如下技术方案:
在本发明的一方面,提供本发明公开了一种基于基因捕获和二代测序技术的脊髓性肌萎缩症相关基因拷贝数检测试剂盒,包括捕获探针,所述捕获探针由以下4个主要探针和相关对照探针组成;4个主要探针为:
用于捕获SMN2基因外显子7的探针一,其序列如SEQ ID NO:1所示;
用于捕获SMN2基因外显子7的探针二,其序列如SEQ ID NO:2所示;
用于捕获SMN1基因外显子7的探针三,其序列如SEQ ID NO:3所示;
用于捕获SMN1基因外显子7的探针四,其序列如SEQ ID NO:4所示;
所述捕获探针对目标区域进行捕获,测序,通过数据分析估算SMN1基因和SMN2基因外显子7的拷贝数。
所述相关对照探针可以为安捷伦ClearSeq探针组(一种捕获试剂)或定制化的探针组等本领域常用对照探针。
作为本发明优选的技术方案,所述数据分析包括将测序读段使用比对软件比对到人参考基因组、去除重复序列、去除比对结果不可信的读段,计算Z-score,根据Z-score值来估算SMN1基因和SMN2基因外显子7的拷贝数。
作为本发明优选的技术方案,所述去除重复序列具体使用Picard去除PCR扩增过程产生的重复序列。
作为本发明优选的技术方案,所述比对结果不可信的读段为不涵盖任何一个如下所述用于区分分配到SMN1和SMN2外显子7的位点的读段:
染色体chr5,坐标69372304,SMN2基因,外显子7上游44bp,核苷酸A;
染色体chr5,坐标69372353,SMN2基因,外显子7,核苷酸T;
染色体chr5,坐标69372501,SMN2基因,外显子7下游100bp,核苷酸G;
染色体chr5,坐标70247724,SMN1基因,外显子7上游44bp,核苷酸G;
染色体chr5,坐标70247773,SMN1基因,外显子7,核苷酸C;
染色体chr5,坐标70247921,SMN1基因,外显子7下游100bp,核苷酸A。
作为本发明优选的技术方案,所述计算Z-score具体包括如下步骤:
步骤1,计算覆盖深度:将目标捕获区域划分为固定长度的区间,并计算每个区间的平均覆盖深度;所述覆盖深度是指分配至所述区间的读段数目与该区间大小的比值;
步骤2,标准化覆盖深度:标准化是相对于同一个样本所有区间(SMN1和SMN2外显子7和其它相关对照探针所捕获的区间)进行计算的,公式如下:
步骤3,GC(鸟嘌呤胞嘧啶)含量矫正:去除由于GC含量差异而造成的测序结果偏差,公式如下:
步骤4,计算Z-score:对于一批样本中的每个样本,按如下公式计算Z-score:
其中,Zi,j表示第j个样本的外显子i的Z-score值,normRD′i,j为第j个样本外显子i经步骤3计算得到的覆盖深度,和SD(normRD′i)分别为该批样本外显子i校正后覆盖深度的平均值和标准差。
作为本发明优选的技术方案,所述根据Z-score值来估算SMN1基因和SMN2基因外显子7的拷贝数具体为:
基于表型已知样本,习得SMN1基因和SMN2基因外显子7拷贝数和计算得到的Z-score之间的关系:
copy number=f(Z)
根据该关系,估算待测样本的SMN1基因和SMN2基因外显子7的拷贝数。
作为本发明优选的技术方案,所述SMN1基因拷贝数判断形式如下:
所述SMN2基因拷贝数判断形式如下:
如上为基于已有数据训练得到的阈值,作为缺省值;随着数据的累积,进行相应的调整,提供检测准确度。
在本发明的另一方面,提供一种使用上述试剂盒检测脊髓性肌萎缩症相关基因拷贝数的方法,该方法不包括疾病的诊断方法,该方法包括如下步骤:
1)从样本中提取DNA和打断;
2)目标区域捕获:采用所述捕获探针对目标区域进行捕获,磁珠分离富集,PCR进行扩增,构建测序文库;
3)测序;
4)通过数据分析估算脊髓性肌萎缩症相关基因的拷贝数。
作为本发明优选的技术方案,步骤1)中,所述样本是血液或唾液;所述打断采用超声波对提取的DNA进行打断,打断后末端补平并磷酸化,两侧加上接头。
作为本发明优选的技术方案,步骤3)中,所述测序具体为:测序文库的DNA片段被杂交到测序仪的流动槽(flow cell)上并以之为模板生长DNA簇,然后用Illumina HiSeq平台进行双端测序。
与现有技术相比,本发明的有益效果在于:
1)本发明充分利用基因捕获(capture-based)的技术克服扩增子测序(AmpliconSequencing)所带来的测序不均一问题。
2)本发明采用了Illumina二代测序平台,使得获得的目标基因序列信息错误率更低、稳定性更好、通量更大。
3)本发明通过捕获测序结合数据分析检测SMN1和SMN2外显子7拷贝数变异(缺失、正常、增加),不受检测区域碱基突变的影响,结果健壮性更好。
4)针对SMN1和SMN2外显子7及其上下游三个差异碱基设计捕获探针,可更可信地将测序读段分配到相应的基因,使得结果特异性更强。
5)基于Z-score的检测SMN1和SMN2外显子7拷贝数的方法,可有效利用历史累积数据,提高检测敏感性。
6)本发明公开的基于二代捕获测序的拷贝数检测方法,可以便捷地和其它基于捕获测序的点突变或插入缺失检测方法进行整合,减少取样量。
实施例2通过数据分析估算脊髓性肌萎缩症相关基因的拷贝数。
本发明的数据分析涉及以下几个步骤:
步骤A,将测序读段(reads)使用比对软件(BWA软件,版本:0.7.12)比对到人参考基因组(hg19)。
步骤B,去除重复序列。使用Picard(一种基本序列处理工具,版本2.8)去除PCR扩增过程产生的重复序列(PCR duplicate reads)。
步骤C,去除比对结果不可信的读段。此处,比对结果不可信是指:由于SMN1和SMN2高度同源,虽然比对软件将一个读段分配到其中一个基因的外显子7,但实际上该读段既可以被分配到SMN1,也可以分配到SMN2。对于被分配到SMN1/2外显子7的读段,本发明剔除那些不涵盖任何一个如表3所述位点的读段。图1展示了这些位点的相对位置。
表3.用于区分分配到SMN1和SMN2外显子7的读段的位点。
染色体 |
坐标 |
基因 |
外显子 |
碱基 |
chr5 |
69372304 |
SMN2 |
外显子7上游44bp |
A |
chr5 |
69372353 |
SMN2 |
外显子7 |
T |
chr5 |
69372501 |
SMN2 |
外显子7下游100bp |
G |
chr5 |
70247724 |
SMN1 |
外显子7上游44bp |
G |
chr5 |
70247773 |
SMN1 |
外显子7 |
C |
chr5 |
70247921 |
SMN1 |
外显子7下游100bp |
A |
步骤D,计算覆盖深度(read depth)。将目标捕获区域划分为固定长度的区间,并利用BEDtools(一种基本序列处理工具,版本:2.26)计算每个区间的平均覆盖深度。此处,覆盖深度是指分配至所述区间的读段数目与该区间大小的比值。SMN1/2外显子7及其上下游每个碱基的覆盖深度如图2所示。
步骤E,标准化覆盖深度。此处,标准化是相对于同一个样本所有区间(SMN1和SMN2外显子7和其它相关对照探针所捕获的区间)进行计算的。公式如下:
步骤F,GC(鸟嘌呤胞嘧啶)含量矫正。本发明进一步去除由于GC含量差异而造成的测序结果偏差。公式如下:
步骤G,计算Z-score(标准分数)。对于一批样本中的每个样本,按如下公式计算Z-score。
其中,Zi,j表示第j个样本的外显子i的Z-score值,normRD′i,j为第j个样本外显子i经步骤F计算得到的覆盖深度,和SD(normRD′i)分别为该批样本外显子i校正后覆盖深度的平均值和标准差。
步骤H,估计SMN1/2外显子7的拷贝数。此处,基于表型已知样本,习得SMN1/2外显子7拷贝数和步骤G计算得到的Z-score之间的关系:
copy number=f(Z)
基于已建立好的SMN1/2外显子7拷贝数和Z-score之间的上述关系,估算待分析样本SMN1/2外显子7的拷贝数。在本实施例中,预测值如图3三角形所示,待测样本SMN1和SMN2外显子7的Z-score值分别为-2.61和-0.93,可判断为SMN1外显子7发生杂合性缺失,SMN2外显子7拷贝数正常。
步骤H中所述关系,参考图3、图4和图5,SMN1拷贝数判断形式如下:
SMN2拷贝数判断形式如下:
如上为基于已有数据训练得到的阈值,可作为缺省值。随着数据的累积,可以进行相应的调整,提供检测准确度。更新参考样本数据库:使用现有实验手段(MLPA、qPCR等)进一步确认待测样本的SMN1/2拷贝数后,将其添加到参考样本数据库中,并更新上述判断阈值,供下次使用。
序列表
<110>明码(上海)生物科技有限公司
<120>一种基于基因捕获和二代测序技术的脊髓性肌萎缩症相关基因拷贝数检测试剂盒及方法
<130>HJ17-12937
<160>37
<170> PatentIn version 3.5
<210> 1
<211>120
<212>DNA
<213> 人工序列
<400> 1
cuccuuaauu uaaggaaugu gagcaccuuc cuucuuuuug auuuugucua aaacccugua 60
aggaaaauaa aggaaguuaa aaaaaauagc uauauagaua uagauagcua uauauagaua 120
<210> 2
<211>120
<212>DNA
<213> 人工序列
<400> 2
uuccacaaac cauaaaguuu uacaaaagua agauucacuu ucauaaugcu ggcagacuua 60
cuccuuaauu uaaggaaugu gagcaccuuc cuucuuuuug auuuugucua aaacccugua 120
<210> 3
<211>120
<212>DNA
<213> 人工序列
<400> 3
cuccuuaauu uaaggaaugu gagcaccuuc cuucuuuuug auuuugucug aaacccugua 60
aggaaaauaa aggaaguuaa aaaaaauagc uauauagaca uagauagcua uauauagaua 120
<210> 4
<211>120
<212>DNA
<213> 人工序列
<400> 4
uuccacaaac cauaaaguuu uacaaaagua agauucacuu ucauaaugcu ggcagacuua 60
cuccuuaauu uaaggaaugu gagcaccuuc cuucuuuuug auuuugucug aaacccugua 120
<210> 5
<211>120
<212>DNA
<213> 人工序列
<400> 5
ccccuggaga uggaaguacc ccaggcaccu auacagcccu ucuauagcuc uccagaacug 60
uggaucagcu cucucccaag uaagugagac uuuaucuuuc uugcucgguc uucugcuucu 120
<210> 6
<211>120
<212>DNA
<213> 人工序列
<400> 6
agugugggca auugcagugu gggcaacugc agcccggagg caguguggcc caaaacugaa 60
ccccuggaga uggaaguacc ccaggcaccu auacagcccu ucuauagcuc uccagaacug 120
<210> 7
<211>120
<212>DNA
<213> 人工序列
<400> 7
ugugguaccc cugucugcuc accauaugcu uuuguuuuag guucucccau ggcgccagcc 60
agugugggca auugcagugu gggcaacugc agcccggagg caguguggcc caaaacugaa 120
<210> 8
<211>120
<212>DNA
<213> 人工序列
<400> 8
cuuccaguca aguggauggc uccagaagcc cuguuugaua gaguauacac ucaucagagu 60
gaugugugag uaacucucuu uucucuggcu uuuuccuggg cuugagcugc aaaaauacug 120
<210> 9
<211>120
<212>DNA
<213> 人工序列
<400> 9
aagauaaauu cuuuuaaaua uauuuaguuu uugcauuuuc cucuacauuu gcaggggcgg 60
cuuccaguca aguggauggc uccagaagcc cuguuugaua gaguauacac ucaucagagu 120
<210> 10
<211>120
<212>DNA
<213> 人工序列
<400> 10
gaaccauuca agagcuggac agauuugcca aucagauucu cagcuaugga gcggaacugg 60
augcugacca cccugugagu ccauggcccg uaggaugaga uuuuuucagu gccucuccuc 120
<210> 11
<211>120
<212>DNA
<213> 人工序列
<400> 11
guucugccaa ucuguacuca ggacguugcc uucucugugu uucagugccc ugguucccaa 60
gaaccauuca agagcuggac agauuugcca aucagauucu cagcuaugga gcggaacugg 120
<210> 12
<211>120
<212>DNA
<213> 人工序列
<400> 12
ggagcugcca cugccaucgg ggacccucca aaugucauua uuguuuccaa ccaagagcug 60
aggaagaugg uacguaccag caugcuaggg uugcuuccag uaaacgcaca ccuccacuua 120
<210> 13
<211>120
<212>DNA
<213> 人工序列
<400> 13
gugcucaacc uugauccaag acaaguccug auugcagaag ugaucuucac aaacauugga 60
ggagcugcca cugccaucgg ggacccucca aaugucauua uuguuuccaa ccaagagcug 120
<210> 14
<211>120
<212>DNA
<213> 人工序列
<400> 14
uucacgaugu guauaguggg acuacuuuca uuuuccucca uuugugacag guugugugag 60
gugcucaacc uugauccaag acaaguccug auugcagaag ugaucuucac aaacauugga 120
<210> 15
<211>120
<212>DNA
<213> 人工序列
<400> 15
cuuuucaauu aagcccaauu ucacuguaaa uuaccucuuu aaaaugauga cuuauuuauu 60
uuuuagauau uaaugacugc cuuggccagu gucagaauga cgccuccugu cggguaugua 120
<210> 16
<211>120
<212>DNA
<213> 人工序列
<400> 16
aguauugggc auuuggggug uacauggaag cuacaucccc accucugaag aaggcguuuu 60
cauagaguug agucagacau ccugugacag aaccauaaaa auuaauuugc gauaauucau 120
<210> 17
<211>120
<212>DNA
<213> 人工序列
<400> 17
aacuugcugg aagaaaacug aauagcaaac accuugggug gaaugugcac cucaucuggc 60
aguauugggc auuuggggug uacauggaag cuacaucccc accucugaag aaggcguuuu 120
<210> 18
<211>120
<212>DNA
<213> 人工序列
<400> 18
aaaaacagcu ucuccaauaa ugaaauacca acuuuuaccu uuucuccaug ucauugauug 60
aacuugcugg aagaaaacug aauagcaaac accuugggug gaaugugcac cucaucuggc 120
<210> 19
<211>120
<212>DNA
<213> 人工序列
<400> 19
uucuggacac acucuucaug guaaaacuuu ccacacaagg guagaaggca ccuuuuaaca 60
ucuuccccac ucugcuuaca uacaaaacag guauggauuc cugagaagcc aaaagaagau 120
<210> 20
<211>120
<212>DNA
<213> 人工序列
<400> 20
guuauacaga uguggaggga gcaccggaag cccuuguucu gcauaacagu ggguggguac 60
uucuggacac acucuucaug guaaaacuuu ccacacaagg guagaaggca ccuuuuaaca 120
<210> 21
<211>120
<212>DNA
<213> 人工序列
<400> 21
ccacauaaga aauccauacc uuuagaugca gaaacauugg cuggauuagc agcaugacag 60
guuauacaga uguggaggga gcaccggaag cccuuguucu gcauaacagu ggguggguac 120
<210> 22
<211>120
<212>DNA
<213> 人工序列
<400> 22
cuuauuaaug aauauccaug uucaugugau gcagauggga cuagcacaca auguaagauc 60
aaaauuaaug uaagucuuau aauuuuauuc aaguuauaug acaaaaauuu aauuuaaaag 120
<210> 23
<211>120
<212>DNA
<213> 人工序列
<400> 23
ugcuuuaaca ucuacuuauu ugaaaaugua auucuaauuc uguguuucag gugcacagaa 60
cuuauuaaug aauauccaug uucaugugau gcagauggga cuagcacaca auguaagauc 120
<210> 24
<211>120
<212>DNA
<213> 人工序列
<400> 24
aguugaaagc caugucucug uuggguaguc ggaaccaacu ggcuagagcu guucugaauc 60
caaacccuau ggacuucugu acaaaagauu uacugacuac aacaucugag agaauuguga 120
<210> 25
<211>120
<212>DNA
<213> 人工序列
<400> 25
ccaauuuaaa cgaacuugug aauuguauug uaaucaguuc ucugguaacu acacaaagga 60
aguugaaagc caugucucug uuggguaguc ggaaccaacu ggcuagagcu guucugaauc 120
<210> 26
<211>120
<212>DNA
<213> 人工序列
<400> 26
uagugcguaa ugggaaaacu gaguguuacc uuuccaucca gacucaagag aacuuuccgg 60
ccaauuuaaa cgaacuugug aauuguauug uaaucaguuc ucugguaacu acacaaagga 120
<210> 27
<211>120
<212>DNA
<213> 人工序列
<400> 27
aucuugaagg ggaccgcaau ggaggagcaa agaagaagaa cuuuuuuaaa cugaacaaua 60
aaagguaacu agcuuguuuc auuuucauag uuuacauagu ugcgagauuu gaguaauuua 120
<210> 28
<211>120
<212>DNA
<213> 人工序列
<400> 28
gcgcgccuga ggcucaugca uuuggcuaau gagcugcggu uucucuucag gucggaaugg 60
aucuugaagg ggaccgcaau ggaggagcaa agaagaagaa cuuuuuuaaa cugaacaaua 120
<210> 29
<211>120
<212>DNA
<213> 人工序列
<400> 29
uacagcaucu aaggcaagcu gaaugcucuc caucaaucau gauauuagag acuguauuuu 60
auauaugacg acuuaagcua aacuccuaag uaccugaaau gaauuaaauu aauaauuuuu 120
<210> 30
<211>120
<212>DNA
<213> 人工序列
<400> 30
uagcguggau cacacucacc aaaaaacaaa aacgccuuaa uguucagcuu uuccugaauu 60
uacagcaucu aaggcaagcu gaaugcucuc caucaaucau gauauuagag acuguauuuu 120
<210> 31
<211>120
<212>DNA
<213> 人工序列
<400> 31
cuggagacuu ggugaguugu ucaaguccuu ugguuuccac gaaggaagac auuucaaaac 60
uuuuauuucu uucugaguua agcaacaaca aaacaaaaaa ggggaaggug agaaauacaa 120
<210> 32
<211>120
<212>DNA
<213> 人工序列
<400> 32
gacuucagcu guguucauuc ugcagucauu cgucaaauca aggauacucu acaaauucca 60
cuggagacuu ggugaguugu ucaaguccuu ugguuuccac gaaggaagac auuucaaaac 120
<210> 33
<211>120
<212>DNA
<213> 人工序列
<400> 33
uagaaaugau gacauaacag auggaaaucc caaauugacu uugggauuaa ucuggacaau 60
aauuuugcac uuucagguaa gcccaaauuu ucuuaauuuc agcaucuaau ugcuaguuuu 120
<210> 34
<211>120
<212>DNA
<213> 人工序列
<400> 34
uugauaaaca guugguuuua ucucuucuuc acauucaaaa caggugaaau uagugaauau 60
uagaaaugau gacauaacag auggaaaucc caaauugacu uugggauuaa ucuggacaau 120
<210> 35
<211>120
<212>DNA
<213> 人工序列
<400> 35
acuguaagaa gaaauacggc guggcuuggg aaaaguacug ucagcgugug cccuaccgua 60
uauuuccaua caucuacuaa ugcucuucug gcuuuucuac aaaauacucc ugcaauucca 120
<210> 36
<211>120
<212>DNA
<213> 人工序列
<400> 36
auuucuacau aauuuauuuc accauguugc uuguccaccg agaagcucgu gacgaguacc 60
acuguaagaa gaaauacggc guggcuuggg aaaaguacug ucagcgugug cccuaccgua 120
<210> 37
<211>120
<212>DNA
<213> 人工序列
<400> 37
auaaaaauau cuaauacugu guacuauuau uauccacagg uuuuaaccac auucugccuu 60
auuucuacau aauuuauuuc accauguugc uuguccaccg agaagcucgu gacgaguacc 120