DNA标签、PCR引物及其应用
技术领域
本发明涉及核酸测序及分型技术领域,具体地,涉及DNA标签、PCR引物及其应用,更具体地,涉及一组DNA标签、一组PCR引物、一组标签PCR引物、构建核酸测序文库的方法、确定DNA样品预定STR基因座基因型的方法、用于构建核酸测序文库的试剂盒以及确定DNA样品预定STR基因座基因型的系统。
背景技术
STR基因座序列又称短串联重复序列(Shorttandemrepeat)是人类基因组中一类广泛分布的遗传标记,通常由2-7个核心碱基构成,其重复单位数目不同导致不同个体同一基因座中存在不同的等位基因。其等位基因类型可用银染、荧光标记和放射自显影等技术进行分型。STR基因座具有如下特点:(1)在人类基因组中分布广泛;(2)片段一般小于400bp,易于扩增;(3)检测的灵敏度比小卫星VNTR基因座高十倍,适用于微量检材的鉴定;(4)同一STR基因座的不同等位基因之间片段长度差别不大,优势扩增不明显;(5)不同STR基因座之间片段长度差别不大,扩增条件相似,可设计在同一反应体系中进行复合扩增,降低成本和器材消耗,提高效率。
目前对STR通用的检测方法是以多重PCR检测约16个STR基因座的基因型,在检测中使用以多色荧光标记的引物对样品进行多重PCR扩增,使所产生具有荧光标记的针对每个基因座的不同大小的扩增片段在毛细管电泳中分离,并与标准物进行比对,从而实现对每个基因座中的等位基因进行分型。但是,这种方法由于技术上的限制,也存在着一定的缺陷,主要有:(1)由于荧光标记物的相互干扰和毛细管长度及成像技术等方面的限制,被分析STR基因座的数目已难以进一步大幅提升;(2)由于分析的对象是各个片段的长度大小,无法进一步检测到组成片段的核酸一级结构的微小差异,因此限制了检测的分辨度;(3)存在无效等位基因,致使不同的试剂盒有可能出现某些基因座测定结果的差异;(4)Stutter峰(片段分析中时而出现于主峰前的小峰)的干扰,尤其是存在混合样品时;(5)Sanger法来进行STR分型,由于通量、成本等原因,特别不利于STR分型数据库的构建。
因而,目前的STR基因座的检测分型方法仍有待改进。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明的一个目的在于提出一种能够快速高效地对DNA样品尤其是多个DNA样品进行预定STR基因座的检测分型的方法。
具体地,本发明通过自主设计的一组STR分型引物以及一组DNA标签,对不同个体基因组进行多重PCR扩增后,再经过高通量测序分析,得到不同个体之间的STR分型,进而达到身份鉴定的目的。该方法可以解决目前STR分型方法中的困扰,提高基因分型的解析度。
因而,根据本发明的一个方面,本发明提供了一组DNA标签。根据本发明实施例的一组DNA标签,其选自SEQIDNO:1-95所示的核苷酸。本发明的一组DNA标签能够用于构建核酸测序文库,以精确地对核酸测序文库进行区分。利用上述DNA标签(在本文中有时也称为“核酸标签”),通过将DNA标签与DNA或其等同物相连,可以精确地表征DNA的样品来源。由此,利用上述DNA标签,可以同时构建多种DNA样品的用于测序的核酸测序文库(在本文中,有时也称为DNA标签文库),从而可以通过将来源于不同样品的核酸测序文库进行混合,同时进行测序,基于DNA标签对获得的测序序列进行分类,获得多种DNA样品的序列信息。从而可以充分利用高通量的测序技术,例如利用Solexa、SOLID、单分子和454测序平台的至少一种,同时对多种DNA样品进行测序,从而提高STR检测的效率和通量。
根据本发明的另一方面,本发明还提供了一组PCR引物。根据本发明实施例的一组PCR引物,其选自SEQIDNO:96-135所示的核苷酸。本发明的一组PCR引物分别与预定STR基因座D8S1179、D21S11、D7S820、CSF1PO、D3S1358、TH01、D13S317、D16S539、D2S1338、D19S433、VWA、TPOX、D18S51、D5S818、FGA、D6S1043、D12S391、PentaD、PentaE和Amelogenin特异相关,利用该组PCR引物将DNA样品进行多重PCR扩增,能够一步多重PCR扩增20个STR基因座,经过测序即可快速获取其DNA序列,STR检测通量高,STR位点分辨能力和灵敏度好。
根据本发明的再一方面,本发明还提供了一组标签PCR引物。根据本发明实施例的一组标签PCR引物,其是通过将前面所述的一组DNA标签中的任意一种连接至前面所述的一组PCR引物的5’末端而获得的。因而,本发明的一组标签PCR引物,可以有95种形式,进而利用本发明的一组标签PCR引物可以一次对95种DNA样品进行上述20个STR基因座的基因型检测。
根据本发明的又一方面,本发明还提供了一种构建核酸测序文库的方法。根据本发明的实施例,该方法包括以下步骤:将DNA样品进行多重PCR扩增,以便获得PCR扩增产物,其中所述多重PCR扩增采用前面所述的一组标签PCR引物进行;以及纯化回收所述PCR扩增产物,所述PCR扩增产物构成所述核酸测序文库。利用该方法,能够有效地将根据本发明实施例的DNA标签引入到针对DNA样品所构建的用于确定DNA样品预定STR基因座基因型的核酸测序文库中,从而可以通过对核酸测序文库进行测序,获得DNA样品预定STR基因座的序列信息以及DNA标签的序列信息,从而能够对多种DNA样品预定STR基因座的序列信息的来源进行区分,进而能够有效确定所述多种DNA样品的每一种的预定STR基因座的序列信息,以及其基因型,提高了STR检测的通量、效率和准确度。
根据本发明的实施例,所述构建核酸测序文库的方法进一步包括:将所述核酸测序文库依次进行末端修复、3’末端添加碱基A、连接测序接头以及纯化回收连接产物的步骤。
根据本发明的再一方面,本发明还提供了一种确定DNA样品预定STR基因座基因型的方法。根据本发明的实施例,该方法包括以下步骤:根据前面所述的构建核酸测序文库的方法,构建所述DNA样品的核酸测序文库;对所述核酸测序文库进行测序,以便确定所述DNA样品预定STR基因座的序列信息;以及基于所述DNA样品预定STR基因座的序列信息,确定所述DNA样品的预定STR基因座基因型。基于该方法,能够有效地获得DNA样品预定STR基因座的序列信息及其基因型。
根据本发明的实施例,利用Solexa、SOLID、单分子和454测序平台的至少一种对所述核酸测序文库进行测序。由此,测序通量高,STR检测结果准确可靠。
根据本发明实施例,所述预定STR基因座为D8S1179、D21S11、D7S820、CSF1PO、D3S1358、TH01、D13S317、D16S539、D2S1338、D19S433、VWA、TPOX、D18S51、D5S818、FGA、D6S1043、D12S391、PentaD、PentaE和Amelogenin的至少一种。
根据本发明实施例,所述DNA样品为多种,所述多种为2-95种,所述方法包括以下步骤:针对所述多种DNA样品的每一种,分别独立地根据前面所述的方法构建所述DNA样品的核酸测序文库,其中,不同的DNA样品采用相互不同的DNA标签;将所述多种DNA样品的核酸测序文库进行混合,以便获得核酸测序文库混合物;对所述核酸测序文库混合物进行测序,以便获得所述DNA样品预定STR基因座的序列信息以及所述DNA标签的序列信息;基于所述DNA标签的序列信息对所述DNA样品预定STR基因座的序列信息进行分类,以便确定所述多种DNA样品的预定STR基因座的序列信息;以及基于所述多种DNA样品的预定STR基因座的序列信息,分别确定所述多种DNA样品的预定STR基因座基因型。由此,能够同时构建多种DNA样品的用于确定预定STR基因座基因型的核酸测序文库,从而可以通过将来源于不同样品的核酸测序文库进行混合,同时进行测序,基于DNA标签对DNA样品预定STR基因座的序列信息进行分类,获得多种DNA样品的预定STR基因座的序列信息。从而可以充分利用高通量的测序技术,例如利用Solexa、SOLID、单分子和454测序平台的至少一种,同时对多种DNA样品进行测序和STR检测,从而提高了STR检测的效率和通量。
根据本发明的另一方面,本发明还提供了一种用于确定DNA样品预定STR基因座基因型的试剂盒。根据本发明实施例的试剂盒,其包括:一组DNA标签,所述DNA标签选自SEQIDNO:1-95所示的核苷酸;以及一组PCR引物,所述PCR引物选自SEQIDNO:96-135所示的核苷酸。由此,利用该试剂盒,能够方便地利用本发明的DNA标签和PCR引物构建标签PCR引物,进而利用标签PCR引物,根据本发明的确定多种DNA样品预定STR基因座基因型的方法,一次性最多能够实现95种DNA样品的STR检测。
根据本发明的再一方面,本发明提供了一种用于确定DNA样品预定STR基因座基因型的试剂盒。根据本发明实施例,所述试剂盒设置有前面所述的一组标签PCR引物。由此,利用该试剂盒,能够方便地利用本发明的标签PCR引物,根据本发明的确定多种DNA样品预定STR基因座基因型的方法,一次性最多能够实现95种DNA样品的STR检测。
根据本发明的一个方面,本发明还提供了一种确定DNA样品预定STR基因座基因型的系统。根据本发明实施例,其包括:文库构建装置,所述文库构建装置用于根据前面所述的方法构建所述DNA样品的核酸测序文库;测序装置,所述测序装置与所述文库构建装置相连,用于对所述核酸测序文库进行测序,以便获得测序结果;以及分析装置,所述分析装置与所述测序装置相连,用于基于所述测序结果,确定所述DNA样品的预定STR基因座基因型,其中,所述测序结果包括所述DNA样品预定STR基因座的序列信息。基于该系统,能够有效地获得DNA样品预定STR基因座的序列信息及其基因型。
根据本发明实施例,所述测序装置选自Solexa、SOLID、单分子和454测序平台的至少一种。由此,测序通量高,STR检测结果准确可靠。
根据本发明实施例,所述预定STR基因座为D8S1179、D21S11、D7S820、CSF1PO、D3S1358、TH01、D13S317、D16S539、D2S1338、D19S433、VWA、TPOX、D18S51、D5S818、FGA、D6S1043、D12S391、PentaD、PentaE和Amelogenin的至少一种。
根据本发明实施例,在该系统中,当所述DNA样品为多种,所述多种为2-95种时,所述文库构建装置用于针对所述多种DNA样品的每一种,分别独立地根据前面所述的方法构建所述DNA样品的核酸测序文库,并将所述多种DNA样品的核酸测序文库进行混合,以便获得核酸测序文库混合物,其中,不同的DNA样品采用相互不同的DNA标签;所述测序装置用于对所述核酸测序文库混合物进行测序,以便获得测序结果,所述测序结果包括DNA样品预定STR基因座的序列信息以及所述DNA标签的序列信息;所述分析装置用于基于所述DNA标签的序列信息对所述DNA样品预定STR基因座的序列信息进行分类,以便确定所述多种DNA样品的预定STR基因座的序列信息,并基于所述多种DNA样品的预定STR基因座的序列信息,分别确定所述多种DNA样品的预定STR基因座基因型。由此,能够同时构建多种DNA样品的用于确定预定STR基因座基因型的核酸测序文库,从而可以通过将来源于不同样品的核酸测序文库进行混合,同时进行测序,基于DNA标签对DNA样品预定STR基因座的序列信息进行分类,获得多种DNA样品的预定STR基因座的序列信息。从而可以充分利用高通量的测序技术,例如利用Solexa、SOLID、单分子和454测序平台的至少一种测序技术,同时对多种DNA样品进行测序和STR检测,从而提高了STR检测的效率和通量。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
图1为根据本发明实施例的用于多种DNA样品STR基因座基因型分型检测方法的流程示意图;
图2为根据本发明实施例的用于多种DNA样品STR基因座基因型分型检测系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例。下面描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
为了更好地理解本发明,下面提供相关术语的定义和解释。
如本文中所使用的,术语“PCR”是指聚合酶链式反应。
如本文中所使用的,术语“Solexa测序法”是指近几年开发的新一代DNA测序法,属于第二代测序法。Solexa测序法与传统测序法(例如,Sanger测序法)的不同之处在于,其采用边合成边测序的原理进行DNA序列分析。Solexa测序法具有下述优点:1)成本低,仅为传统测序成本的1%;2)通量高,可以同时对多个样品进行测序,并且进行一次的Solexa测序法可以产生大约500亿(50G)个碱基的数据;3)准确性高(高于98.4%),有效的解决了多聚重复序列的读取问题。另一方面,高测序通量在进行测序的序列的数目确定的情况下,又反过来提高了序列的测序深度(例如,针对每个序列,可以进行多次测序),从而确保了测序结果的可靠性。如本文所使用的,术语“测序深度”是指一段DNA序列在测序数据中集中出现的次数。测序深度可以通过将测序量除以基因组长度来计算,例如测序深度为10,表示测了10次的整个基因组。
Solexa测序法的应用十分广泛。其可以用于基因组测序,基因分型,基因多态性研究等等。本发明的方法将Solexa测序法用于检测人类STR基因座分型:通过对待分析的样品进行针对STR基因座的测序,然后使用本领域已知的比对程序,例如BLAST和SOAP,将所得的测序结果与STR基因座的参考序列进行比对,从而实现对样品的STR基因座分型。
如本文中可互换使用的,术语“DNA标签”、“标签(index)”或“核酸标签”是指添加在PCR引物5’末端的一小段碱基序列,其通过PCR扩增可以用于标记PCR产物,从而辨别不同模板来源的PCR产物的混合物中各个PCR产物的模板来源。通过在引物的5’末端添加标签,可以对PCR产物进行标记,从而可以将多个不同的PCR产物混合成一个文库,用于进一步的分析和处理。文库中各个不同的PCR产物各自具有独特的标签,从而根据各个PCR产物中独特的标签,可以将各个不同的PCR产物互相区分开来,并将其与PCR模板一一对应。例如,当需要对多个样品进行测序时,可以在用于各个样品的引物的5’末端添加不同的标签,然后用添加了标签的引物分别对各个样品进行PCR反应,从而对各个样品(即,PCR产物)进行标记。PCR反应后,可以将来自各个样品的带有不同标签的PCR产物混合在一起组成一个文库,然后应用高通量的Solexa测序法同时对文库中的各个PCR产物进行测序。最终,在所得的测序数据中,通过独特的标签,可以将测序结果与各个PCR产物(样品模板)一一对应。
可以仅在用于PCR扩增的引物对的一条引物中引入标签,也可以在引物对的两条引物中都引入标签。当在引物对的两条引物中都引入标签时,每个PCR引物对与一对标签组合成一对标签引物,其中正向和反向PCR引物的5’端分别具有正向标签和反向标签,并且正反标签和正反引物序列是对应的,且正向标签和反向标签可以是相同的,或不同的。
设计标签时需要考虑多种因素,包括:1)标签序列中应当避免3个或3个以上的单碱基重复序列;2)所有标签的同一位点中碱基A和碱基C的总含量应在所有碱基含量的30%-70%之间,例如,当设计100条不同的标签序列时,每一条标签序列的第二个碱基(即所谓的同一位点)中A和C占该100条序列第二个碱基总量的30%-70%;3)标签序列本身的GC含量应在40-60%之间;4)标签之间的序列差异应大于4个碱基;5)标签序列中应避免出现与用于测序的引物相似度高的序列;6)当标签序列添加到PCR扩增引物上后,应避免PCR扩增引物形成发卡结构和二聚体等二级结构。
如本文中所使用的,术语“标签PCR引物”是指带有DNA标签的引物,其包含2个部分,标签部分和引物部分,其中标签部分用于在PCR扩增反应中标记PCR产物,而引物部分与模板碱基互补配对,用于扩增模板,并且其中标签部分,连接至引物部分的5’端。
根据本发明的一个方面,本发明提供了一组DNA标签。根据本发明实施例的一组DNA标签,其选自SEQIDNO:1-95所示的核苷酸。具体序列如表1所示:
表1
标签编号 |
标签序列 |
SEQ ID NO: |
PI-1 |
GCTAGCA |
1 |
PI-2 |
GCGTGTA |
2 |
PI-3 |
CAGCGTA |
3 |
PI-4 |
GTAGTGA |
4 |
PI-5 |
GTCTGAC |
5 |
PI-6 |
ACGTGAC |
6 |
PI-7 |
TCGCTAC |
7 |
PI-8 |
TATACAC |
8 |
PI-9 |
GACGCAT |
9 |
PI-10 |
TCATACA |
10 |
PI-11 |
ATACTGT |
11 |
PI-12 |
GATCGCT |
12 |
PI-13 |
ATACGAT |
13 |
PI-14 |
GTCGTCA |
14 |
PI-15 |
ACTACTA |
15 |
PI-16 |
GTAGCTA |
16 |
PI-17 |
AGCACGA |
17 |
PI-18 |
TGCATCT |
18 |
PI-19 |
TGTATGT |
19 |
PI-20 |
GCTACAT |
20 |
PI-21 |
CAGATAT |
21 |
PI-22 |
GTGATAT |
22 |
PI-23 |
CGTACAC |
23 |
PI-24 |
TCTCTAT |
24 |
PI-25 |
AGTCTGA |
25 |
PI-26 |
CATCTCT |
26 |
PI-27 |
CAGATGA |
27 |
PI-28 |
GCGCTCT |
28 |
PI-29 |
ACAGCAT |
29 |
PI-30 |
CTCTGAT |
30 |
PI-31 |
TACGTGC |
31 |
PI-32 |
GTCACAT |
32 |
PI-33 |
TGCTGAC |
33 |
PI-34 |
TCTGTAC |
34 |
PI-35 |
GCTGTCA |
35 |
PI-36 |
TGAGCAT |
36 |
PI-37 |
GTGCGAC |
37 |
PI-38 |
ATCAGAT |
38 |
PI-39 |
AGCTCTC |
39 |
PI-40 |
GCGCTGA |
40 |
PI-41 |
GTGAGTC |
41 |
PI-42 |
GAGAGCA |
42 |
PI-43 |
GTAGATC |
43 |
PI-44 |
GTGTCGA |
44 |
PI-45 |
ACGCGAT |
45 |
PI-46 |
ATGTGAT |
46 |
PI-47 |
GCTCACA |
47 |
PI-48 |
GCTATGA |
48 |
PI-49 |
CATGCGT |
49 |
PI-50 |
CTCGCTA |
50 |
PI-51 |
TGCTCAT |
51 |
PI-52 |
CGATCTA |
52 |
PI-53 |
CGCGTGA |
53 |
PI-54 |
GTGTATC |
54 |
PI-55 |
GTATCAC |
55 |
PI-56 |
TATGTCA |
56 |
PI-57 |
TATCGAT |
57 |
PI-58 |
CAGAGCT |
58 |
PI-59 |
AGTGACA |
59 |
PI-60 |
ATGACAT |
60 |
PI-61 |
CAGTGAT |
61 |
PI-62 |
GTGTACA |
62 |
PI-63 |
CATCTGA |
63 |
PI-64 |
GATGATC |
64 |
PI-65 |
TCGAGAC |
65 |
PI-66 |
TAGTAGA |
66 |
PI-67 |
TAGTATC |
67 |
PI-68 |
GTCTAGA |
68 |
PI-69 |
CTATGAC |
69 |
PI-70 |
CGCTGCT |
70 |
PI-71 |
TGATCAC |
71 |
PI-72 |
GTAGCGT |
72 |
PI-73 |
AGTAGAC |
73 |
PI-74 |
GCATATA |
74 |
PI-75 |
AGTGCTA |
75 |
PI-76 |
GTATGCT |
76 |
PI-77 |
CAGTACT |
77 |
PI-78 |
CTGTATA |
78 |
PI-79 |
ACTACGC |
79 |
PI-80 |
CATACGC |
80 |
PI-81 |
TGCAGCA |
81 |
PI-82 |
CGCGTAT |
82 |
PI-83 |
CATCATC |
83 |
PI-84 |
ACACGCT |
84 |
PI-85 |
TCAGTAT |
85 |
PI-86 |
GACATAT |
86 |
PI-87 |
GCATCAT |
87 |
PI-88 |
GATAGAC |
88 |
PI-89 |
TGATGAT |
89 |
PI-90 |
AGCATAT |
90 |
PI-91 |
CATATGT |
91 |
PI-92 |
GACTATC |
92 |
PI-93 |
TGTACAT |
93 |
PI-94 |
TCGATAT |
94 |
PI-95 |
CATGATA |
95 |
本发明的一组DNA标签能够用于构建核酸测序文库,以精确地对核酸测序文库进行区分。利用上述DNA标签(在本文中有时也称为“核酸标签”),通过将DNA标签与DNA或其等同物相连,可以精确地表征DNA的样品来源。由此,利用上述DNA标签,可以同时构建多种DNA样品的用于测序的核酸测序文库(在本文中,有时也称为DNA标签文库),从而可以通过将来源于不同样品的核酸测序文库进行混合,同时进行测序,基于DNA标签对获得的测序序列进行分类,获得多种DNA样品的序列信息。从而可以充分利用高通量的测序技术,例如利用Solexa、SOLID、单分子和454测序平台的至少一种,同时对多种DNA样品进行测序,从而提高STR检测的效率和通量。
根据本发明的另一方面,本发明还提供了一组PCR引物。根据本发明实施例的一组PCR引物,其选自SEQIDNO:96-135所示的核苷酸。具体序列如表2所示:
表2
需要说明的是,发明人采用琼脂糖凝胶电泳和测序法对上述引物进行实验验证,即对扩增产物进行检测,验证了扩增序列的准确性,证明了本发明的PCR引物的可用性。
本发明的一组分离PCR引物是针对预定STR基因座D8S1179、D21S11、D7S820、CSF1PO、D3S1358、TH01、D13S317、D16S539、D2S1338、D19S433、VWA、TPOX、D18S51、D5S818、FGA、D6S1043、D12S391、PentaD、PentaE和Amelogenin的特异引物,利用该组分离PCR引物将DNA样品进行多重PCR扩增,能够一步多重PCR扩增20个STR基因座,经测序即可快速获取其DNA序列,STR检测通量高,STR位点分辨能力和灵敏度好。
并且,将本发明的一组PCR引物的5’末端连接上前面所述的DNA标签,即可获得标签PCR引物,从而利用该标签PCR引物,能够有效地将DNA标签引入到DNA或其等同物中,并且当针对相同的样品,采用不同的标签引物,构建含有各种DNA标签的核酸测序文库时,所得到的数据结果的稳定性和可重复性非常好。
因而,根据本发明的再一方面,本发明还提供了一组标签PCR引物。根据本发明实施例的一组标签PCR引物,其是通过将前面所述的一组DNA标签中的任意一种连接至前面所述的一组PCR引物的5’末端而获得的。因而,本发明的一组标签PCR引物(在本文中有时也称为“标签引物”),可以有95种形式,进而利用本发明的一组标签PCR引物可以一次对95种DNA样品进行上述20个STR基因座的基因型检测。
本发明的一组标签PCR引物(在本文中有时也称为“标签引物组”),其包含40种标签引物,所述标签引物的序列包含标签序列和PCR引物序列,并且所述标签序列,任选地通过连接序列,连接至所述PCR引物序列的5’端,其中所述标签序列选自SEQIDNO:1-95,且标签引物组中的40种标签引物的每一种的标签序列都相同,所述40种标签引物的PCR引物序列分别如表2的SEQIDNO:96-135所示。
本发明的标签引物组可扩增出20种大小从100-400bp的产物,其对应人类20种STR基因座的具体序列。因此,本发明的标签引物组可用于人类STR基因座分型检测。
在一个优选实施方案中,本发明的标签引物组可用于STR基因座分型,从而其可用于司法以及医疗用途,例如身份鉴定以及亲子鉴定,以及构建人类STR分型数据库等。在另一个优选实施方案中,本发明的标签引物组可用于制备试剂盒,所述试剂盒可用于人类STR基因座分型与身份鉴定。
此外,本发明的一组标签PCR引物还可以表现为标签引物套组的形式,即其包含至少10个,优选至少20个、至少30个、至少40个、至少50个、至少60个、至少70个、至少80个、至少90个或95个上文描述的标签引物组。优选地,标签引物套组中,各个标签引物组所使用的标签序列互不相同。更优选,标签引物套组中所使用的标签序列至少包括SEQIDNO:1-10,或SEQIDNO:11-20,或SEQIDNO:21-30,或SEQIDNO:31-40,或SEQIDNO:41-50,或SEQIDNO:51-60,或SEQIDNO:61-70,或SEQIDNO:71-80,或SEQIDNO:81-90,或SEQIDNO:91-95所示的标签序列,或者它们任何两个或者多个的组合,例如SEQIDNO:1-95所示的标签序列。
根据本发明的另一方面,本发明还提供了一种用于确定多种DNA样品预定STR基因座基因型的试剂盒。根据本发明实施例的试剂盒,其包括:一组DNA标签,所述DNA标签选自SEQIDNO:1-95所示的核苷酸;以及40种PCR引物,所述PCR引物选自SEQIDNO:96-135所示的核苷酸。由此,利用该试剂盒,能够方便地利用本发明的DNA标签和PCR引物构建标签PCR引物,进而利用标签PCR引物,根据本发明的确定多种DNA样品预定STR基因座基因型的方法,一次性最多能够实现对95种DNA样品的STR检测。
根据本发明的另一些实施例,本发明的试剂盒,其包含上文描述的标签引物组或标签引物套组。由此,本发明的试剂盒可用于高通量STR基因座测序、检测。
进而,本发明提供了用于对一个或多个样品进行STR基因座测序、检测的方法。所述方法包括使用上文描述的标签引物组或标签引物套组或试剂盒对各个样品的DNA进行扩增,然后进行测序以获得样品的序列的步骤。具体地:
根据本发明的又一方面,本发明还提供了一种构建核酸测序文库的方法。根据本发明的实施例,该方法包括以下步骤:将DNA样品进行多重PCR扩增,以便获得PCR扩增产物,其中所述多重PCR扩增采用前面所述的一组标签PCR引物进行;以及纯化回收所述PCR扩增产物,所述PCR扩增产物构成所述核酸测序文库。利用该方法,能够有效地将根据本发明实施例的DNA标签引入到针对DNA样品所构建的用于确定DNA样品预定STR基因座基因型的核酸测序文库中,从而可以通过对核酸测序文库进行测序,获得DNA样品预定STR基因座的序列信息以及DNA标签的序列信息,从而能够对多种DNA样品预定STR基因座的序列信息的来源进行区分,进而能够有效确定所述多种DNA样品的每一种的预定STR基因座的序列信息,以及其基因型,提高了STR检测的通量、效率和准确度。
根据本发明的实施例,所述构建核酸测序文库的方法进一步包括:将所述核酸测序文库依次进行末端修复、3’末端添加碱基A、连接测序接头以及纯化回收连接产物的步骤。
根据本发明的再一方面,本发明还提供了一种确定DNA样品预定STR基因座基因型的方法。根据本发明的实施例,该方法包括以下步骤:根据前面所述的构建核酸测序文库的方法,构建所述DNA样品的核酸测序文库;对所述核酸测序文库进行测序,以便确定所述DNA样品预定STR基因座的序列信息;以及基于所述DNA样品预定STR基因座的序列信息,确定所述DNA样品的预定STR基因座基因型。基于该方法,能够有效地获得DNA样品预定STR基因座的序列信息及其基因型。
根据本发明的实施例,利用Solexa、SOLID、单分子和454测序平台的至少一种对所述核酸测序文库进行测序。由此,测序通量高,STR检测结果准确可靠。
根据本发明实施例,所述预定STR基因座为D8S1179、D21S11、D7S820、CSF1PO、D3S1358、TH01、D13S317、D16S539、D2S1338、D19S433、VWA、TPOX、D18S51、D5S818、FGA、D6S1043、D12S391、PentaD、PentaE和Amelogenin至少一种。
根据本发明的实施例,参照图1,当所述DNA样品为多种,所述多种为2-95种时,本发明的确定DNA样品预定STR基因座基因型的方法包括以下步骤:
S100:针对多种DNA样品的每一种分别独立地构建核酸测序文库
针对所述多种DNA样品的每一种,分别独立地根据前面所述的构建核酸测序文库的方法构建所述DNA样品的核酸测序文库,其中,不同的DNA样品采用相互不同的DNA标签。
S200:将多种DNA样品的核酸测序文库进行混合
将所述多种DNA样品的核酸测序文库进行混合,以便获得核酸测序文库混合物。
S300:对核酸测序文库混合物进行测序
对所述核酸测序文库混合物进行测序,以便获得所述DNA样品预定STR基因座的序列信息以及所述DNA标签的序列信息。
S400:对多种DNA样品的核酸测序文库的序列信息进行分类
基于所述DNA标签的序列信息对所述DNA样品预定STR基因座的序列信息进行分类,以便确定所述多种DNA样品的预定STR基因座的序列信息。
S500:确定多种DNA样品的STR基因组基因型
基于所述多种DNA样品的预定STR基因座的序列信息,分别确定所述多种DNA样品的预定STR基因座基因型。根据本发明的实施例,基于所述多种DNA样品的预定STR基因座的序列信息,分别确定所述多种DNA样品的预定STR基因座基因型,进一步包括:将所述多种DNA样品的预定STR基因座的序列信息分别与参考序列例如STR基因座参考数据库进行比对;基于比对结果,分别确定所述多种DNA样品STR基因座基因型。
由此,能够同时构建多种DNA样品的用于确定预定STR基因座基因型的核酸测序文库,从而可以通过将来源于不同样品的核酸测序文库进行混合,同时进行测序,基于DNA标签对DNA样品预定STR基因座的序列信息进行分类,获得多种DNA样品的预定STR基因座的序列信息。从而可以充分利用高通量的测序技术,例如利用Solexa、SOLID、单分子和454测序平台的至少一种,同时对多种DNA样品进行测序和STR检测,从而提高了STR检测的效率和通量。
根据本发明的另一方面,本发明还提供了一种用于STR基因座基因型分型检测的试剂盒。根据本发明实施例的试剂盒,其包括:一组DNA标签,所述DNA标签选自SEQIDNO:1-95所示的核苷酸;以及一组PCR引物,所述PCR引物选自SEQIDNO:96-135所示的核苷酸。由此,利用该试剂盒,能够方便地利用本发明的DNA标签和PCR引物构建标签PCR引物,进而利用标签PCR引物,根据本发明的确定多种DNA样品预定STR基因座基因型的方法,一次性最多能够实现95种DNA样品的STR检测。
根据本发明的再一方面,本发明还提供了一种用于确定DNA样品预定STR基因座基因型的试剂盒。根据本发明实施例,所述试剂盒设置有前面所述的一组标签PCR引物。由此,利用该试剂盒,能够方便地利用本发明的DNA标签和PCR引物构建标签PCR引物,进而利用标签PCR引物,根据本发明的确定多种DNA样品STR基因座基因型的方法,一次性最多能够实现95种DNA样品的STR基因座基因型检测。
根据本发明的又一方面,本发明还提供了一确定DNA样品预定STR基因座基因型分型检测的系统。发明人惊奇地发现,利用该系统,能够有效地获得DNA样品预定STR基因座的序列信息及其基因型。
根据本发明实施例,参照图2,该系统1000包括:文库构建装置100、测序装置200和分析装置300。具体地:
所述文库构建装置100用于根据前面所述的方法构建所述DNA样品的核酸测序文库;所述测序装置200与所述文库构建装置100相连,用于对所述核酸测序文库进行测序,以便获得测序结果;所述分析装置300与所述测序装置200相连,用于基于所述测序结果,确定所述DNA样品的预定STR基因座基因型,其中,所述测序结果包括所述DNA样品预定STR基因座的序列信息。
根据本发明实施例,所述测序装置200选自Solexa、SOLID、单分子和454测序平台的至少一种。由此,测序通量高,STR检测结果准确可靠。
根据本发明实施例,所述预定STR基因座为D8S1179、D21S11、D7S820、CSF1PO、D3S1358、TH01、D13S317、D16S539、D2S1338、D19S433、VWA、TPOX、D18S51、D5S818、FGA、D6S1043、D12S391、PentaD、PentaE和Amelogenin的至少一种。
根据本发明实施例,在该系统中,当所述DNA样品为多种,所述多种为2-95种时:
文库构建装置100用于针对所述多种DNA样品的每一种,分别独立地根据前面所述的方法构建所述DNA样品的核酸测序文库,并将所述多种DNA样品的核酸测序文库进行混合,以便获得核酸测序文库混合物,其中,不同的DNA样品采用相互不同的DNA标签。测序装置200用于对所述核酸测序文库混合物进行测序,以便获得测序结果,所述测序结果包括DNA样品预定STR基因座的序列信息以及所述DNA标签的序列信息。分析装置300用于基于所述DNA标签的序列信息对所述DNA样品预定STR基因座的序列信息进行分类,以便确定所述多种DNA样品的预定STR基因座的序列信息,并基于所述多种DNA样品的预定STR基因座的序列信息,分别确定所述多种DNA样品的预定STR基因座基因型。根据本发明的实施例,所述分析装置300进一步包括比对单元,所述比对单元中设置有参考数据库,用于将所述多种DNA样品的预定STR基因座的序列信息,分别与STR基因座数据库进行比对;以及基于比对结果,分别确定所述多种DNA样品的预定STR基因座基因型。
由此,能够同时构建多种DNA样品的预定STR基因座基因型分型检测的核酸测序文库,从而可以通过将来源于不同样品的核酸测序文库进行混合,同时进行测序,基于DNA标签对DNA样品的核酸测序文库的序列信息进行分类,获得多种DNA样品的核酸测序文库的序列信息。从而可以充分利用高通量的测序技术,例如利用Solexa、SOLID、和454测序技术的至少一种,同时对多种DNA样品预定STR基因座基因型分型检测,从而提高了检测的效率和通量。
此外,需要说明的是,本发明的有益效果如下:
(1)本发明能够一步多重PCR扩增获得20个STR基因座序列。
(2)该方法成功的将高通量测序技术与人类STR基因座分型相结合,使得STR的测定从模糊的片段大小精确到详细的DNA序列。
(3)高通量测序与多重PCR技术相结合,实现多个样品多个位点同时测定。
(4)提供了一种成本低廉,操作方便,能够高精度、高通量确定不同样品STR基因座分型甚至STR序列微小差异的区别的手段。
下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解,下面的实施例仅用于说明本发明,而不应视为限定本发明的范围。实施例中未注明具体技术或条件的,按照本领域内的文献所描述的技术或条件(例如参考J.萨姆布鲁克等著,黄培堂等译的《分子克隆实验指南》,第三版,科学出版社)或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。
实施例1
采用本发明的方法,对190份样品进行STR基因座分型,具体步骤如下:
1、样品提取
用5%的chelex(chelex-100品牌BIO-RAD)从190份干血片中提取DNA。提取结束后,获得3mm直径的干血片提取产物,用作下一步PCR扩增中的模板。
2、PCR扩增
把步骤1中获得的190份DNA依次编号为1-190,并平均分为2组(STR-1组:编号1-95;STR-2组:编号96-190)。根据用于扩增STR基因的引物组(包括20条正向引物和20条反向引物)的各条引物的序列(SEQIDNO:96-135),设计一套标签,共95个(SEQIDNO:1-95)。将设计的每一个标签分别添加至引物组的各条引物的序列的5’末端,从而获得95个标签引物组,其中每个标签引物组包括相应的20条正向标签引物和20条反向标签引物,并且不同的标签引物组使用不同的标签(即,95个标签引物组与95个标签一一对应)。
在96孔板中对所有样品进行PCR反应,共使用2块板(STR-1组和STR-2组各1块板)。使用步骤1中获得的DNA作为模板,并且在STR-1组和STR-2组中,针对每个样品,使用不同的标签引物组进行PCR扩增(即,95个样品与95个标签引物组一一对应)。记录下每一个标签引物组(每一个标签)对应的样品的编号信息,具体如表3所示。
表3:标签与样品的相关信息
并且,每块板中还设置一个不添加模板的阴性对照。两块板中的阴性对照所用的引物分别与样品1、96所用的引物相同。
将步骤1获得的DNA作为模板与引物混合序列进行多重PCR,PCR反应体系见表4:
表4
PCR反应在GeneAmpPCRSystem9700PCR仪上运行。
按照表5的反应程序进行反应:
表5
3、PCR产物的混合和纯化
把STR-1组和STR-2组中剩余的PCR产物各混合在一个3ml的EP管中(同样标记为STR-1组和STR-2组),并震荡混匀。从2管混合物中各取出500μlDNA,并根据厂商的说明书,使用AmpureBeads(BeckmanCoulterGenomics)磁珠进行纯化,得到200μlDNA。使用Nanodrop2000(ThermoFisherScientific公司),测定纯化后的混合物的DNA浓度分别为92ng/μl(STR-1组)和98ng/μl(STR-2组)。
4、Solexa测序文库的构建
4.1末端修复反应
使用Thermomixer(Eppendorf公司),对步骤2中获得的DNA扩增产物进行末端修复反应。修复反应体系为100μL,其组成见表6(所有试剂均购自Enzymatics公司):
表6
试剂 |
体积/反应(μL) |
DNA扩增产物 |
75 |
20×多核苷酸激酶缓冲液 |
10 |
dNTP混合物(各20mM) |
4 |
T4DNA聚合酶 |
5 |
Klenow片段 |
1 |
T4多核苷酸激酶 |
5 |
反应条件为:20℃,30分钟。
根据厂商的说明书,使用QIAquickPCRPurification试剂盒纯化并回收DNA末端修复反应的产物。回收的产物溶于34μlEB(QIAGENElutionBuffer)中。
4.23’端加A反应
使用Thermomixer(Eppendorf公司),对回收的DNA进行3’末端加A反应。反应体系为50μl,其组成见表7(所有试剂均购自Enzymatics公司):
表7
试剂 |
体积/反应(μL) |
上一步所得的DNA |
32 |
dATP(1mM,GE公司) |
10 |
10xBlue缓冲液 |
5 |
Klenow(3′-5′exo-) |
3 |
总体积 |
50 |
4.3添加Solexa接头
使用Thermomixer(Eppendorf公司),对上一步获得的产物添加接头以构建测序文库。记录下接头和文库的对应关系。
添加Solexa接头的反应体系为50μl,其组成见表8(所有试剂均购自illumina公司):
表8
反应条件为:20℃,15分钟。
根据厂商的说明书,使用AmpureBeads(BeckmanCoulterGenomics)纯化反应产物并将产物溶于17μl去离子水。
5、Solexa测序
以AgilentBioanalyzer2100所测浓度为准,上一步所得的2种产物各取10pmolDNA,根据厂商的说明书,使用Solexa测序仪(IlluminaGenomeAnalyzerIIx测序仪),用SolexaPE-75程序进行测序,以便获得测序数据。
6、数据分析以及结果报告
a)数据质量控制、序列确定
对获得的初步数据进行过滤,包括测序的长度和质量,获得所述DNA样品预定STR基因座的序列信息以及所述DNA标签的序列信息。
b)数据结果转换
基于DNA标签的序列信息对DNA样品预定STR基因座的序列信息进行分类,以便确定190种DNA样品的预定STR基因座的序列信息。
然后,基于所述多种DNA样品的预定STR基因座的序列信息,分别确定多种DNA样品的预定STR基因座基因型,具体地:
STR分型结果以STR基因座核心重复序列的重复次数表示,具体操作步骤如下:
根据STR基因座已知的分型结果,制作该基因座的标准“阶梯对比参比序列”;比如CSF多态性表现为5-9次的短序列重复,其核心序列为AGAT重复次数5-9次。可以借助序列比对,从而将序列信息转换为STR的分型结果;
阶梯对比参照序列:
CSF5次重复:
GATATTAACAGTAACTGCCTTCATAGATAGAAGATAGATAGATTAGATAGATAGATAGATAGATAGGAAGTACTTAGAACAGGGTCTGACACAGGAAATGCT
CSF6次重复
GATATTAACAGTAACTGCCTTCATAGATAGAAGATAGATAGATTAGATAGATAGATAGATAGATAGATAGGAAGTACTTAGAACAGGGTCTGACACAGGAAATGCT
CSF7次重复
GATATTAACAGTAACTGCCTTCATAGATAGAAGATAGATAGATTAGATAGATAGATAGATAGATAGATAGATAGGAAGTACTTAGAACAGGGTCTGACACAGGAAATGCT
CSF8次重复
GATATTAACAGTAACTGCCTTCATAGATAGAAGATAGATAGATTAGATAGATAGATAGATAGATAGATAGATAGATAGGAAGTACTTAGAACAGGGTCTGACACAGGAAATGCT
CSF9次重复
GATATTAACAGTAACTGCCTTCATAGATAGAAGATAGATAGATTAGATAGATAGATAGATAGATAGATAGATAGATAGAT
C)除了制作基因座的标准“阶梯比对参照序列”,直接对重复序列计数的方法也可实现STR数据转换。
由此,获得190份DNA干血片样品的预定STR基因座基因型结果。
同时,利用多色荧光法的AmpFSTRIdentifilerPCR扩增试剂盒按照试剂盒说明书的步骤操作,对190份干血片样品进行STR分型检测,获得检测结果。
两种方法的检测结果见表9和10,其中,每个基因型的第二栏数据空白表示此样品的基因型为纯合的,即其分型结果同第一栏。需要说明的是例如D6S1043至Amelogenin中多色荧光法的结果完全为空,则是因为多色荧光法不能鉴定该型别。
表9.样品ID001和ID002的两种方法(多色荧光法和高通量测序法)基因座分型结果列表
St:Stutterallele的简写,表示由于DNA聚合酶滑落产生的噪音。
以随机选取的样品ID001和ID002为例,由上表9可知,高通量测序结果与目前公认的多色荧光法的结果一致(因多色荧光法不能检测的基因型无法比较,故除外),而其他样品的检测结果也一致,在此不再一一列出。并且,本方法可以得到样品的STR基因的具体序列。
具体地,高通量测序法以不同allele读数百分比为观察值,多色荧光法以不同allele峰高百分比为期望值,两份样品中所有位点的P值均大于0.05,说明两种方法的检测结果基本一致,现行的多色荧光法的分型标准(包括背景噪音、纯合型和杂合型的界定标准)对于高通量测序法也是基本可行的。
与多色荧光法相比,高通量测序法可以检测DNA序列的微变异,其可以显示STR位点及其侧翼DNA序列的微小变异,是一种更加精确、有效的检测人类STR基因座的手段。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。