发明内容
Illumina GA测序(Illumina公司的Genome Analyzer测序仪,简称Illumina GA)是利用边合成边测序的原理进行DNA序列分析,可以检测单体型,其最终产出的数据是一系列的碱基序列,可直接用于与HLA数据库中的参考序列直接比对,不存在传统分型软件峰图误判的问题,有利于软件分型的自动化。Illumina GA的测序通量大,目前一个实验流程下来可以产生50G(500亿)碱基的数据,平均每天产生50亿碱基的数据。高的数据通量可以在测序序列数确定的情况下,使得每条序列获得高的测序深度,确保测序结果的可靠性。
目前还未有将Illumina GA应用于HLA分型领域的研究,本发明首次将Illumina GA测序应用于HLA分型领域,结合DNA分子标签技术、DNA不完全打断及PCR-FREE建库的PCR测序技术,实现HLA的低成本,高通量、高准确率、高分辨率的分型。
基于DNA分子标签技术,实现了对多样本PCR产物的分别标记,使Illumina测序文库构建实验环节可把多个样本混合(pooling)成一个文库同时处理,大大简化了实验操作,最终,每个样本的检测结果可以通过其独特的标签(index)序列找回。
DNA不完全打断技术使Illumina GA实际可测通的PCR产物长度超过测序仪的测序最大长度,在当前Illumina GA测序最大长度200bp的情况下,实际可测通的PCR产物长度达到200bp以上。
“接头(adapter)”或“文库接头(library adapter)”标签技术是指通过对多个测序文库添加不同文库接头(不同文库接头的组成序列不同,序列不同的部分称为接头标签(adapter index),构建标签测序文库,从而可实现多个不同标签测序文库混合测序,且最终各个标签测序文库的测序结果可相互区分的一种文库标签技术。
基于DNA分子标签技术和DNA不完全打断策略的PCR测序方法的使用可在减少引物标签数目的情况下,大大提高可唯一标记的样本数目(图1)。
结合文库接头标签技术的PCR-FREE的文库构建方法,是指将文库接头直接连接至测序文库中的DNA片段两端,文库接头的导入过程因为没有PCR的参与,因此称作PCR-Free文库构建。其中接入方法可以采用DNA连接酶进行连接。其整个文库构建过程中无PCR的参与,避免了在高序列相似度的PCR产物混合(pooling)文库的构建过程中,由PCR引入错误而导致最后结果的不准确性。
本发明,采用基于DNA分子标签技术、DNA不完全打断及PCR-FREE建库的PCR测序技术,通过对待分析样本分组,再对每组样本通过双向引物标签标记的引物,对HLA基因目的片段扩增(PCR产物的最大长度取决于测序仪可结合的最大DNA长度,当前Illumina GA适用的最大DNA长度为700bp,此长度为原始DNA长度,没有包括文库接头序列长度),所得PCR产物等量混合,经DNA不完全打断处理,构建PCR-Free标签测序文库。把各样本组得到的不同标签测序文库等摩尔混合,选择性回收片段长度大于测序仪最大测 序长度以上的所有DNA片段,随后用Illumina GA测序仪测序。通过对测序结果中接头标签(adapter index)、引物标签以及PCR引物的序列信息筛选,可获得每个样本的DNA序列信息,所得DNA序列经过组装与IMGT HLA专业数据库中对应数据库的比对,最终可得到样本的HLA基因型别。
在本发明的一个方面中,提供了一组引物标签(primer index),其包括表1所示95对引物标签中的至少10对,或至少20对,或至少30对,或至少40对,或至少50对,至少60对,或至少70对,或至少80对,或至少90对,或95对(或者所述一组引物标签由表1所示95对引物标签中的10-95对(例如10-95对,20-95对,30-95对,40-95对,50-95对,60-95对,70-95对,80-95对,90-95对,或95对)组成),并且
所述一组引物标签优选地至少包括表1所示95对引物标签中的PI-1至PI-10,或PI-11至PI-20,或PI-21至PI-30,或PI-31至PI-40,或PI-41至PI-50,或PI-51至PI-60,或PI-61至PI-70,或PI-71至PI-80,或PI-81至PI-90,或PI-91至PI-95,或者它们任何两个或者多个的组合。
根据本发明另一方面,还提供了所述的引物标签用于PCR测序方法的用途,其中特别是,每一对引物标签与用于扩增待测目的序列的PCR引物对组合成一对标签引物,正反PCR引物的5’端分别具有(或者任选通过连接序列连接)正向引物标签和反向引物标签。
在本发明的一个具体实施方式中,所述PCR引物是用于扩增HLA的特定基因的PCR引物,优选是用于扩增HLA-A/B 2,3,4号外显子和HLA-DRB12号外显子的PCR引物,优选的所述PCR引物如表2所示。
本发明另一方面中,提供了上文所述一组引物标签与用于扩增待测目的序列的PCR引物对组合成的一组标签引物,其中每一对引物标签与PCR引物对组合成一对标签引物,正反PCR引物的5’端分别具有(或者任选通过连接序列连接)正向引物标签和反向引物标签。
在本发明的一个具体实施方式中,上文所述标签引物中的PCR引物是用于扩增HLA的特定基因的PCR引物,优选是用于扩增HLA-A/B 2,3,4号外显子和HLA-DRB12号外显子的PCR引物,优选的所述PCR引物如表2所示。
在本发明的另一个具体实施方式中,所述的标签引物用于PCR测序方法。
本发明另一方面中,提供了一种HLA分型的方法,其包括:
1)提供n个样品,n为大于等于1的整数,所述样品优选地来自哺乳动物,更优选是人,特别是人的血样;
2)将待分析的n个样品分成m个小组,m为整数且n≥m≥1;
3)扩增:对于每一个样品,使用一对标签引物,在存在来自该样品的模板时,在适于扩增目的核酸的条件下进行PCR扩增,其中,每一对标签引物由包含引物标签的正向标签引物和反向标签引物(均可以是简并引物)构成,其中正向标签引物和反向标签引物所包含的引物标签可以相同或者不同;不同样品所用标签引物对中的引物标签彼此不同;
4)混合:将各样品的PCR扩增产物混合在一起,获得PCR产物文库;
5)打断:将所得的PCR产物文库进行不完全打断;
6)建库:结合文库接头标签技术,将打断后的PCR产物文库构建PCR-Free测序文库,回收位于所用测序仪最大读长长度到所用测序仪适用的最长DNA长度范围之间的所有DNA条带,可以对文库添加不同的文库接头(adapter)以区分不同的PCR-Free测序文库;
7)测序:将回收的DNA混合物利用二代测序技术,优选的是Pair-End技术(例如Illumina GA、Illumina Hiseq 2000)进行测序,获得打断后的DNA的序列;
8)拼接:基于各个文库不同的文库接头序列和每个样品独特的引物标签将获得的测序结果与样品一一对应,利用比对程序(例如Blast,BWA程序)把各个测序序列定位到PCR产物的相应DNA参考序列上, 通过序列重叠和连锁关系,从打断后的DNA的序列拼接出完整的目的核酸。
在本发明的一个具体实施方式中,在上文所述的方法中,所述结合文库接头标签技术,将打断后的PCR产物文库构建PCR-Free测序文库是指使用m种文库接头给4)中得到的m个PCR产物文库加上接头,其中每一个PCR产物文库使用一种不同的文库接头,从而构建m个接头标签测序文库;将m个接头标签测序文库等摩尔混合在一起构建混合接头标签测序文库。其中连接文库接头的方法是指不通过PCR程序直接采用DNA连接酶进行连接。
在本发明的一个具体实施方式中,在上文所述的方法中,每一对引物标签与PCR引物对组合成一对标签引物,正反PCR引物的5’端分别具有(或者任选通过连接序列连接)正向引物标签和反向引物标签。
在本发明的一个具体实施方式中,在上文所述的方法中,所述PCR引物是用于扩增HLA的特定基因的PCR引物,优选是用于扩增HLA-A/B 2,3,4号外显子和HLA-DRB12号外显子的PCR引物,优选的所述PCR引物如表2所示。
在本发明的一个具体实施方式中,在上文所述的方法中,所述引物标签针对PCR引物进行设计,优选针对用于扩增HLA的特定基因的PCR引物进行设计,更优选针对用于扩增HLA-A\B 2,3,4号外显子和HLA-DRB12号外显子的PCR引物,特别是如表2所示的PCR引物进行设计,所述引物标签特别是包括表1所示95对引物标签中的至少10对,或至少20对,或至少30对,或至少40对,或至少50对,至少60对,或至少70对,或至少80对,或至少90对,或95对(或者所述一组引物标签由表1所示95对引物标签中的10-95对(例如10-95对,20-95对,30-95对,40-95对,50-95对,60-95对,70-95对,80-95对,90-95对,或95对)组成),并且
所述一组引物标签优选地至少包括表1所示95对引物标签中的PI-1至PI-10,或PI-11至PI-20,或PI-21至PI-30,或PI-31至PI-40, 或PI-41至PI-50,或PI-51至PI-60,或PI-61至PI-70,或PI-71至PI-80,或PI-81至PI-90,或PI-91至PI-95,或者它们任何两个或者多个的组合。
在本发明的一个具体实施方式中,在上文所述的方法中,所述DNA打断包括化学打断方法和物理打断方法,其中所述化学方法包括酶切方法,所述物理打断方法包括超声波打断方法或机械打断方法。所述DNA打断后,纯化回收450-750bp长度的片段。所述纯化回收纯化回收方法包括但不限于电泳割胶回收,也可以是磁珠回收。
在本发明的一个具体实施方式中,在上文所述的方法中,所述DNA打断后,在构建PCR-Free标签文库的过程中,对不同组样品的DNA用不同的文库接头连接,从而在其后的分型步骤中,基于每个样品所用的引物标签和接头标签,将获得的测序结果与样本一一对应。利用比对程序把各个样本测序序列定位到其PCR产物已知相应的DNA参考序列(Reference Sequence)上,通过序列重叠和连锁关系,从打断后的DNA的序列拼接出完整的PCR产物序列。
本发明另一方面中,提供了一种HLA分型方法,包括:使用上文所述的测序方法对来自患者的样品(特别是血样)进行测序和拼接,以及将拼接好的序列与HLA数据库(如IMGT HLA专业数据库)中HLA相关序列数据比对,序列比对结果100%匹配的即为对应样本的HLA-DRB1基因型别。
发明的有益效果
本发明提供了基于illumina GA测序技术的HLA基因高分辨率分型方法,从而实现单体型测序、软件分型自动化,提高HLA基因分型的通量,降低成本。
具体实施方式
下面将结合实施例对本发明的实施方案进行详细描述,但是本领域技术人员将会理解,下列实施例仅用于说明本发明,而不应视为限定本发明的范围。
在本发明的实施例中,采用基于引物标签、DNA不完全打断、文库标签及PCR-FREE建库的PCR测序方法,对950个样本的HLA-A/B2,3,4号外显子以及HLA-DRB12号外显子(PCR产物长度大小处于290bp-500bp之间)的基因分型,证明该发明能够实现低成本、高通量、高准确率和高分辨率的HLA基因分型。
原理:将待分析的样本均分成10组,对每组样本通过PCR反应在HLA-A/B 2,3,4号外显子以及HLA-DRB12号外显子的PCR产物两端引入引物标签,使其特异的标记PCR产物的样本信息。将各组内样品的HLA-A/B/DRB1三个位点的PCR扩增产物等体积混合在一起,获得PCR产物文库;所得PCR产物文库经过超声不完全打断后,构建不同的PCR-Free标签测序文库(其中每一个PCR产物文库使用一种不同的接头,从而构建10个标签测序文库);将10个标签测序文库等摩尔混合在一起构建混合标签测序文库,混合标签测序文库经2%低熔点琼脂糖电泳,割胶纯化回收位于450-750p长度范围之间的所有DNA条带。回收的DNA经Illumina GA PE-100测序。通过文库标签和引物标签序列可以找到所有所测样本的序列信息,再通过已知DNA片段的参考序列信息和DNA片段序列之间的重叠和连锁关系组装出整个PCR产物的序列,再通过与HLA-A/B/DRB1相应外显子的标准数据库的比对结果可组装出原PCR产物的全序列,实现HLA-A/B/DRB1的基因分型。
实施例1
样本提取
使用KingFisher自动提取仪(请提供供货商信息)(美国Thermo公司)从950份已知HLA-SBT分型结果的血样(中国造血干细胞捐献者资料库(以下称“中华骨髓库”))中提取DNA。主要步骤如下:取出6个Kingfisher自动提取仪配套的深孔板及1个浅孔板,根据说明书分别加入一定量配套的试剂并作好标记,将所有已加好试剂的孔板按要求置于相应的位置,选定程序“Bioeasy_200ul BloodDNA_KF.msz”程序,按下“star”执行该程序进行核酸提取。程序结束后收集plate Elution中的100ul左右的洗脱产物即为提取的DNA,准备做下一步PCR中的模板用。
实施例2
PCR扩增
把样本提取步骤中所得的950份DNA依次编号1-950,均分成10组,每组95份DNA,分别标记为HLA-1、HLA-2、HLA-3、HLA-4、HLA-5、HLA-6、HLA-7、HLA-8、HLA-9、HLA-10。对每组样本分别以95套带有双向引物标签(表1)用于扩增HLA-A/B 2,3,4号外显子和HLA-DRB12号外显子的PCR引物(表2)来分别扩增95份DNA样本。PCR反应在96孔板中进行,共7板,编号分别为HLA-X-P-A2、HLA-X-P-A3、HLA-X-P-A4、HLA-X-P-B2、HLA-X-P-B3、HLA-X-P-B4以及HLA-X-P-DRB1-2(“X”表示样本组号信息1/2/3/4/5/6/7/8/9/10,“A2/3/4,B2/3/4,DRB1-2”表示扩增的位点),每板内设置一个不添加模板的阴性对照,阴性对照所用引物为PI-1(表1)标记的引物。实验的同时,记录下每个样本对应的样本组号信息和引物标签信息。
表1,引物标签的相关信息
引物 标签 编号 |
正向引物标签 |
反向引物标签 |
对应 96孔 板位 置 |
对应 模板 (组 1) |
对应模板(组 n+1,其中1≤n <10,n为整数) |
PI-1 |
TCGCAGACATCA |
TGACACGATGCT |
A1 |
1 |
1+95*n |
PI-2 |
TACATCGCACTA |
TACAGATGCTGA |
A2 |
2 |
2+95*n |
PI-3 |
CTCGATGAGTAC |
ACGTCTAGACAC |
A3 |
3 |
3+95*n |
PI-4 |
TCTGTATACTCA |
TGCTGTAGTGAC |
A4 |
4 |
4+95*n |
PI-5 |
TATCTGCTCATA |
AGATATCGAGCT |
A5 |
5 |
5+95*n |
PI-6 |
TACATGCTGAGC |
ACGTGTCTATCA |
A6 |
6 |
6+95*n |
PI-7 |
TCATATCGCGAT |
AGATCGTATAGC |
A7 |
7 |
7+95*n |
PI-8 |
ACAGATGCACGC |
ATCTCGTGACAG |
A8 |
8 |
8+95*n |
PI-9 |
TAGATCGTACAT |
ACTAGTACACGC |
A9 |
9 |
9+95*n |
PI-10 |
ACTACACGTCTC |
ATAGTCACGCGT |
A10 |
10 |
10+95*n |
PI-11 |
AGACTCGCGTAT |
TACTAGCTGACG |
A11 |
11 |
11+95*n |
PI-12 |
ATACTAGTGCTC |
TGTATCGTGCTC |
A12 |
12 |
12+95*n |
PI-13 |
CACGATGACATC |
TAGTGAGCGCAC |
B1 |
13 |
13+95*n |
PI-14 |
TGCTGTCTCGAG |
CATAGCAGTGTC |
B2 |
14 |
14+95*n |
PI-15 |
TGTGCTCGAGTC |
TCTGATCGAGCA |
B3 |
15 |
15+95*n |
PI-16 |
CACTCGTACATC |
AGCGATGCTCAT |
B4 |
16 |
16+95*n |
PI-17 |
CGACGTGCTCGC |
CGCGTACTGCAG |
B5 |
17 |
17+95*n |
PI-18 |
ACGCATCTATAC |
CTAGTATCGCAG |
B6 |
18 |
18+95*n |
PI-19 |
CGAGATGACTCT |
TGTATACACGAT |
B7 |
19 |
19+95*n |
PI-20 |
ACTGTCTCGAGC |
ACGTAGCGCACA |
B8 |
20 |
20+95*n |
PI-21 |
CATCTGCTATAG |
TCTAGCTCATGA |
B9 |
21 |
21+95*n |
PI-22 |
ACGCACTCTAGA |
CTATGCACTGAT |
B10 |
22 |
22+95*n |
PI-23 |
TGAGATACAGTA |
ATCTGCTATGAC |
B11 |
23 |
23+95*n |
PI-24 |
ACTCATCGTGCT |
TAGAGCTGTCAC |
B12 |
24 |
24+95*n |
PI-25 |
TACACTGTCTAT |
CAGCACATAGAT |
C1 |
25 |
25+95*n |
PI-26 |
CACAGTACTCGC |
CTGCTAGTGTAT |
C2 |
26 |
26+95*n |
PI-27 |
TGTACTATCATA |
TGTGATAGACAC |
C3 |
27 |
27+95*n |
PI-28 |
CTAGTACTGACG |
AGCGAGTCTACT |
C4 |
28 |
28+95*n |
PI-29 |
TAGACTGAGCTA |
ACATACTGAGAC |
C5 |
29 |
29+95*n |
PI-30 |
CAGACGCGTGAG |
TACATCTCGTAT |
C6 |
30 |
30+95*n |
PI-31 |
CGCGACATCACG |
TAGCGATGAGAC |
C7 |
31 |
31+95*n |
PI-32 |
ACACTCATAGAT |
CTATCATGACAC |
C8 |
32 |
32+95*n |
PI-33 |
AGCGTATACTAG |
CATACTCACGTA |
C9 |
33 |
33+95*n |
PI-34 |
TGTCGTGCTATC |
ACATGACTCACG |
C10 |
34 |
34+95*n |
PI-35 |
CGCTAGACTGTA |
TACTATAGTCGA |
C11 |
35 |
35+95*n |
PI-36 |
ACAGTGTAGCGC |
TGATATGCTACA |
C12 |
36 |
36+95*n |
PI-37 |
CACTCTATCGAC |
TCACGCGATGAG |
D1 |
37 |
37+95*n |
PI-38 |
ACACTCTAGTCA |
ACGTAGATCTAT |
D2 |
38 |
38+95*n |
PI-39 |
CATATGAGATCG |
AGCAGAGTGCTC |
D3 |
39 |
39+95*n |
PI-40 |
CAGCTATCATAC |
CACTGCAGACGA |
D4 |
40 |
40+95*n |
PI-41 |
TATACTCTAGAT |
TGCATAGAGCGC |
D5 |
41 |
41+95*n |
PI-42 |
TGTATGCTCGTC |
TCGTGACAGATC |
D6 |
42 |
42+95*n |
PI-43 |
TAGTGATGCTCT |
ACGAGCTGATAT |
D7 |
43 |
43+95*n |
PI-44 |
AGACTCTGAGTC |
CTGATAGTATCA |
D8 |
44 |
44+95*n |
PI-45 |
CTCATAGACTAC |
ATCGCGAGTGAC |
D9 |
45 |
45+95*n |
PI-46 |
TCGCTCACTACA |
TGTCTCGACATC |
D10 |
46 |
46+95*n |
PI-47 |
ATAGAGTCTCAT |
CGCATAGCGTAT |
D11 |
47 |
47+95*n |
PI-48 |
CGAGACACTCGC |
TCGTAGTCTACA |
D12 |
48 |
48+95*n |
PI-49 |
CAGCATACTATC |
TCGTGATACAGA |
E1 |
49 |
49+95*n |
PI-50 |
CAGCTATAGTCT |
ATGCAGATATCT |
E2 |
50 |
50+95*n |
PI-51 |
TCTATCGATGCA |
ACACGCAGATCG |
E3 |
51 |
51+95*n |
PI-52 |
CATGAGTATAGC |
CTAGCTGACGTA |
E4 |
52 |
52+95*n |
PI-53 |
TAGCATATCGAG |
TACACGTATGAG |
E5 |
53 |
53+95*n |
PI-54 |
ACGACTCGCTAC |
TCATGACTAGTA |
E6 |
54 |
54+95*n |
PI-55 |
TAGCATACACGC |
TGACGCGTATAC |
E7 |
55 |
55+95*n |
PI-56 |
CGTCATATGCAG |
TATAGCGATGAC |
E8 |
56 |
56+95*n |
PI-57 |
TGCAGCGAGTAC |
TCGACGCTAGCG |
E9 |
57 |
57+95*n |
PI-58 |
CGTGTCGACAGA |
CAGTCGTGAGCA |
E10 |
58 |
58+95*n |
PI-59 |
ACTCGACGTGAG |
ACGCGAGTGATA |
E11 |
59 |
59+95*n |
PI-60 |
ACTCGTCTGACG |
TGCTATCACTGA |
E12 |
60 |
60+95*n |
PI-61 |
CATACTGTATCT |
TACATAGATGTC |
F1 |
61 |
61+95*n |
PI-62 |
TCTACTCGTGAC |
CACGTATAGTGA |
F2 |
62 |
62+95*n |
PI-63 |
CTGCACTAGACA |
ACTCATATCGCA |
F3 |
63 |
63+95*n |
PI-64 |
ACACGAGCTCAT |
CACTCATATCGA |
F4 |
64 |
64+95*n |
PI-65 |
TACAGATAGTCT |
TCGTCTGTGATA |
F5 |
65 |
65+95*n |
PI-66 |
TACACTCGTGCT |
TGACGCTCATCT |
F6 |
66 |
66+95*n |
PI-67 |
TACATGTGACGA |
TCGTACATGCTC |
F7 |
67 |
67+95*n |
PI-68 |
TGTATGATCTCG |
CACTGTGCTCAT |
F8 |
68 |
68+95*n |
PI-69 |
CAGTACACTCTA |
ACTGCATGATCG |
F9 |
69 |
69+95*n |
PI-70 |
CATACTATCACG |
TCGTGTCACTAC |
F10 |
70 |
70+95*n |
PI-71 |
CACTATACAGAT |
CGACACGTACTA |
F11 |
71 |
71+95*n |
PI-72 |
ATATCGTAGCAT |
TCGTGATCACTA |
F12 |
72 |
72+95*n |
PI-73 |
TAGTCTATACAT |
AGACGCTGTCGA |
G1 |
73 |
73+95*n |
PI-74 |
TGTCACAGTGAC |
TCATATGATCGA |
G2 |
74 |
74+95*n |
PI-75 |
ATCGACTATGCT |
CGATCATATGAG |
G3 |
75 |
75+95*n |
PI-76 |
ATACTAGCATCA |
TCATGCTGACGA |
G4 |
76 |
76+95*n |
PI-77 |
CACTGACGCTCA |
CACTACATCGCT |
G5 |
77 |
77+95*n |
PI-78 |
TCGCTCATCTAT |
TAGTACAGAGCT |
G6 |
78 |
78+95*n |
PI-79 |
TGTATCACGAGC |
ATGATCGTATAC |
G7 |
79 |
79+95*n |
PI-80 |
TACTGCTATCTC |
CGCTGCATAGCG |
G8 |
80 |
80+95*n |
PI-81 |
CGCGAGCTCGTC |
ACTCGATGAGCT |
G9 |
81 |
81+95*n |
PI-82 |
TAGAGTCTGTAT |
TGTCTATCACAT |
G10 |
82 |
82+95*n |
PI-83 |
TACTATCGCTCT |
TATGTGACATAC |
G11 |
83 |
83+95*n |
PI-84 |
TAGATGACGCTC |
TACTCGTAGCGC |
G12 |
84 |
84+95*n |
PI-85 |
TCGCGTGACATC |
ATCTACTGACGT |
H1 |
85 |
85+95*n |
PI-86 |
ACACGCTCTACT |
ACAGTAGCGCAC |
H2 |
86 |
86+95*n |
PI-87 |
TACATAGTCTCG |
CTAGTATCATGA |
H3 |
87 |
87+95*n |
PI-88 |
TGAGTAGCACGC |
TCGATCATGCAG |
H4 |
88 |
88+95*n |
PI-89 |
TAGATGCTATAC |
TACATGCACTCA |
H5 |
89 |
89+95*n |
PI-90 |
ATCGATGTCACG |
CAGCTCGACTAC |
H6 |
90 |
90+95*n |
PI-91 |
ATCATATGTAGC |
CTCTACAGTCAC |
H7 |
91 |
91+95*n |
PI-92 |
TAGCATCGATAT |
AGATAGCACATC |
H8 |
92 |
92+95*n |
PI-93 |
TGATCGACGCTC |
CTAGATATCGTC |
H9 |
93 |
93+95*n |
PI-94 |
TGCAGCTCATAG |
TACAGACTGCAC |
H10 |
94 |
94+95*n |
PI-95 |
CGACGTAGAGTC |
CAGTAGCACTAC |
H11 |
95 |
95+95*n |
表2,未添加引物标签前用于扩增HLA-A/B/DRB1相应外显子的PCR引物
D2-F1,D2-F2,D2-F3,D2-F4,D2-F5,D2-F6,D2-F7为扩增HLA-DRB12号外显子的正向引物,D2-R为扩增HLA-DRB12号外显子的反向引物。
HLA-A/B/DRB1的PCR程序如下:
96℃2min
95℃30s→60℃30s→72℃20s(32cycles)
15℃∞
HLA-A/B的PCR反应体系如下
Promega 5×buffer I(Mg2+plus)
|
5.0ul |
dNTP Mixture(各2.5mM) |
2.0ul |
PInf-A/B-F2/3/4(2pmol/ul)
|
1.0ul |
PInr-A/B-R2/3/4(2pmol/ul)
|
1.0ul |
Promega Taq(5U/ul)
|
0.2ul |
DNA(约20ng/ul) |
5.0ul |
ddH2O |
10.8ul |
Total |
25.0ul |
HLA-DRB1的PCR反应体系如下:
Promega 5×buffer I(Mg2+plus)
|
5.0ul |
dNTP Mixture(各2.5mM) |
2.0ul |
PInf-D2-F1(2pmol/ul)
|
1.0ul |
PInf-D2-F2(2pmol/ul)
|
1.0ul |
PInf-D2-F3(2pmol/ul)
|
1.0ul |
PInf-D2-F4(2pmol/ul)
|
1.0ul |
PInf-D2-F5(2pmol/ul)
|
1.0ul |
PInf-D2-F6(2pmol/ul)
|
1.0ul |
PInf-D2-F7(2pmol/ul)
|
1.0ul |
PInr-D2-R(2pmol/ul)
|
1.0ul |
Promega Taq(5U/ul)
|
0.2ul |
DNA(约20ng/ul) |
5.0ul |
ddH2O |
4.8ul |
Total |
25.0ul |
其中PInf-A/B/D2-F1/2/3/4/5/6/7表示引物5’末端带有第n号正向引物标签序列(表1)的HLA-A/B/DRB1的F引物,PInf-A/B/D2-R2/3/4表示引物5’末端带有第n号反向引物标签序列的HLA-A/B/DRB1的R引物(此处n≤95),其它依次类推。且每个样本对应特定的一套PCR引物(PInf-A/B/D2-F1/2/3/4/5/6/7,PInf-A/B/D2-R2/3/4)。
PCR反应在Bio-Rad公司的PTC-200PCR仪上运行。PCR完成后,取2ul PCR产物经1%的琼脂糖凝胶电泳检测。图2显示了1号样本HLA-A/B/DRB1相应外显子PCR产物电泳结果,DNA分子标记为DL2000(Takara公司),胶图上有一系列片段大小为300bp-500bp单一条带,表明1号样本的HLA-A/B/DRB1各外显子(A2、A3、A4、B2、B3、B4、DRB1-2)PCR扩增成功,阴性对照(N)无扩增条带。其它样品的结果与此类似
实施例3
PCR产物混合和纯化
对第“X“组(“X”为1/2/3/4/5/6/7/8/9/10)样本,从96孔板HLA-X-P-A2剩余的PCR产物中(阴性对照除外)各取20ul混合在一个3ml的EP管中,标记为HLA-X-A2-Mix,对第“X”组样本的其它6个96孔板进行同样的操作,分别标记为HLA-X-A3-Mix、HLA-X-A4-Mix、HLA-X-B2-Mix、HLA-X-B3-Mix、HLA-X-B4-Mix和HLA-X-D2-Mix,震荡混匀,从HLA-X-A2-Mix、HLA-X-A3-Mix、HLA-X-A4-Mix、HLA-X-B2-Mix、HLA-X-B3-Mix、HLA-X-B4-Mix和HLA-X-D2-Mix中各取200ul混合在一个3ml的EP管中,标记为HLA-X-Mix。从中各取500ul DNA混合物经Qiagen DNA Purificationkit过柱纯化(具体纯化步骤详见说明书),纯化所得的200ul DNA,经Nanodrop 8000(Thermo Fisher Scientific公司)测定的DNA浓度分别为:
|
HLA-1 -Mix |
HLA-2 -Mix
|
HLA-3 -Mix
|
HLA-4 -Mix
|
HLA-5 -Mix
|
HLA-6 -Mix
|
HLA-7 -Mix
|
HLA-8 -Mix
|
HLA- 9-Mix |
HLA-1 0-Mix
|
浓度值 (ng/ul) |
48.0 |
52.1 |
49.3 |
50.2 |
47.6 |
48.5 |
49.1 |
48.6 |
51.3 |
50.8 |
实施例4
Illumina GA测序文库构建
1.DNA打断
从纯化后的HLA-X-Mix中各取总量5ug的DNA用带AFA纤维扣盖的Covaris微管在Covaris S2(Covaris公司)上打断。打断条件如下:
频率扫描(frequency sweeping)
负载比(Duty Cycle) |
10% |
强度(Intensity) |
5 |
循环/脉冲(Cycles/Burst) |
200 |
时间(秒)(Time seconds) |
300 |
2.打断后纯化
将HLA-X-Mix的所有打断产物用QIAquick PCR Purification Kit(QIAGEN公司)回收纯化,分别溶于37.5ul的EB(QIAGENElution Buffer)中;
3.末端修复反应
对打断后纯化的HLA-X-Mix进行DNA末端修复反应,体系如下(试剂均购自Enzymatics公司):
反应条件为:恒温混匀器(Thermomixer,Eppendorf公司)20℃温浴30min。
反应产物经QIAquick PCR Purification Kit回收纯化,溶于34μl的EB(QIAGEN Elution Buffer)中。
4.3’末端加A反应
上一步回收DNA的3’末端加A反应,体系如下(试剂均购自Enzymatics公司):
反应条件为:恒温混匀器(Thermomixer,Eppendorf公司)37℃温浴30min。
反应产物经MiniElute PCR Purification Kit(QIAGEN公司)回收纯化,溶于13μl的EB溶液(QIAGEN Elution Buffer)中。
5.连接Illumina GA PCR-Free文库接头(adapter)
术语“PCR-Free文库接头(adapter)”是指经设计的一段碱基,其主要作用是辅助固定DNA分子在测序芯片上以及提供通用测序引物的结合位点,PCR-Free文库接头可以通过DNA连接酶将其直接连接至测序文库中的DNA片段两端,接头的导入过程因为没有PCR的参与,因此称作PCR-Free文库接头。
加A后的产物分别连接不同的Illumina GA PCR-Free index文库接头,体系如下(试剂均购自Illumina公司):
反应条件为:恒温混匀器(Thermomixer,Eppendorf公司)20℃温浴15min。
样本组与文库接头的对应关系如下
样本组 编号 |
HLA-1 |
HLA-2 |
HLA-3 |
HLA-4 |
HLA-5 |
HLA-6 |
HLA-7 |
HLA-8 |
HLA-9 |
HLA-10 |
文库接 头编号 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
反应产物经Ampure Beads(Beckman Coulter Genomics)纯化后溶于50ul去离子水,经荧光定量PCR(QPCR)检测到DNA摩尔浓 度结果如下:
|
HLA-1 -Mix
|
HLA-2 -Mix
|
HLA-3 -Mix
|
HLA-4 -Mix
|
HLA-5 -Mix
|
HLA-6 -Mix
|
HLA-7 -Mix
|
HLA-8 -Mix
|
HLA-9 -Mix
|
HLA-10 -Mix
|
摩尔浓度 (nM) |
78.90 |
72.13 |
79.33 |
80.21 |
77.68 |
78.50 |
89.12 |
78.60 |
81.32 |
80.82 |
6.割胶回收
将HLA-1-Mix、HLA-2-Mix、HLA-3-Mix、HLA-4-Mix、HLA-5-Mix、HLA-6-Mix、HLA-7-Mix、HLA-8-Mix、HLA-9-Mix和HLA-10-Mix等摩尔混合(终浓度72.13nM/ul),标记为HLA-Mix-10,取30μL HLA-Mix-10用2%低熔点琼脂糖胶进行回收。电泳条件为100V,100min。DNA marker为NEB公司的50bp DNA marker。割胶回收450-750bp长度范围的DNA片段(附图3)。胶回收产物经QIAquick PCR Purification Kit(QIAGEN公司)回收纯化,纯化后体积为32ul,经荧光定量PCR(QPCR)检测到DNA浓度结果为9.96nM。
实施例5
Illumina GA测序
根据QPCR检测结果,取10pmol DNA用Illumina GA PE-100程序测序,具体操作流程详见Illumina GA操作说明书(Illumina GAII x)。
实施例6
结果分析
Illumina GA产出的测序结果是一系列DNA序列,通过查找测序结果中的接头标签序列、正反引物标签序列和引物序列,建立各个引物标签对应样本HLA-A/B/DRB1各外显子PCR产物测序结果的数据库。通过BWA(Burrows-Wheeler Aligner)把各外显子的测序结果定位在相应外显子的参考序列上(参考序列来源:http://www.ebi.ac.uk/imgt/hla/)同时,构建各个数据库的一致性 (consensus)序列,再对数据库中DNA序列进行筛选和测序错误校正。校正后的DNA序列通过序列重叠(overlap)和连锁(Pair-End连锁)关系可组装成HLA-A/B/DRB1各外显子相应的序列。所得DNA序列利用与IMGT HLA专业数据库中HLA-A/B/DRB1相应各外显子的序列数据库比对,序列比对结果100%匹配的即为对应样本的HLA-A/B/DRB1基因型别。可参考图4示例说明的1号样品的HLA-A位点的2号外显子一致性序列构建程序的截图。所有950个样本,得到的分型结果与原已知分型结果完全相符,其中1-32号样本的具体结果如下:
样本编号 原HLA-A/B/DRB1型别
1 A*02:03 A*11:01 B*38:02 B*48:01 DRB1*14:54 DRB1*15:01
2 A*01:01 A*30:01 B*08:01 B*13:02 DRB1*03:01 DRB1*07:01
3 A*01:01 A*02:01 B*15:11 B*47:01 DRB1*13:02 DRB1*15:01
4 A*24:08 A*26:01 B*40:01 B*51:01 DRB1*04:04 DRB1*09:01
5 A*01:01 A*24:02 B*54:01 B*55:02 DRB1*04:05 DRB1*09:01
6 A*01:01 A*03:02 B*15:11 B*37:01 DRB1*10:01 DRB1*14:54
7 A*11:01 A*30:01 B*13:02 B*15:18 DRB1*04:04 DRB1*07:01
8 A*01:01 A*02:01 B*35:03 B*81:01 DRB1*11:01 DRB1*15:01
9 A*02:06 A*31:01 B*27:07 B*40:02 DRB1*03:01 DRB1*13:02
10 A*01:01 A*66:01 B*37:01 B*49:01 DRB1*10:01 DRB1*13:02
11 A*01:01 A*03:01 B*35:01 B*52:01 DRB1*01:01 DRB1*15:02
12 A*11:01 A*11:01 B*15:01 B*15:05 DRB1*04:06 DRB1*15:01
13 A*01:01 A*11:02 B*07:02 B*15:02 DRB1*09:01 DRB1*15:01
14 A*01:01 A*02:01 B*52:01 B*67:01 DRB1*15:02 DRB1*16:02
15 A*01:01 A*02:05 B*15:17 B*50:01 DRB1*07:01 DRB1*15:01
16 A*01:01 A*11:01 B*37:01 B*40:02 DRB1*10:01 DRB1*12:02
17 A*24:07 A*32:01 B*35:05 B*40:01 DRB1*03:01 DRB1*04:05
18 A*11:01 A*24:02 B*13:01 B*35:01 DRB1*16:02 DRB1*16:02
19 A*11:01 A*11:01 B*40:02 B*55:12 DRB1*04:05 DRB1*15:01
20 A*02:11 A*24:02 B*40:01 B*40:06 DRB1*11:01 DRB1*15:01
21 A*01:01 A*02:06 B*51:01 B*57:01 DRB1*07:01 DRB1*12:01
22 A*01:01 A*29:01 B*07:05 B*15:01 DRB1*04:05 DRB1*07:01
23 A*01:01 A*02:07 B*37:01 B*46:01 DRB1*04:03 DRB1*10:01
24 A*24:85 A*30:01 B*13:02 B*55:02 DRB1*07:01 DRB1*15:01
25 A*11:01 A*31:01 B*07:06 B*51:01 DRB1*12:02 DRB1*14:05
26 A*01:01 A*11:01 B*46:01 B*57:01 DRB1*07:01 DRB1*08:03
27 A*01:01 A*02:01 B*15:18 B*37:01 DRB1*04:01 DRB1*15:01
28 A*01:01 A*24:02 B*37:01 B*46:01 DRB1*09:01 DRB1*10:01
29 A*26:01 A*66:01 B*40:40 B*41:02 DRB1*12:01 DRB1*15:01
30 A*02:01 A*29:02 B*13:02 B*45:01 DRB1*03:01 DRB1*12:02
31 A*01:01 A*11:03 B*15:01 B*57:01 DRB1*07:01 DRB1*15:01
32 A*11:01 A*26:01 B*35:03 B*38:01 DRB1*11:03 DRB1*14:04
样本编号 测得的HLA-A/B/DRB1型别
1 A*02:03 A*11:01 B*38:02 B*48:01 DRB1*14:54 DRB1*15:01
2 A*01:01 A*30:01 B*08:01 B*13:02 DRB1*03:01 DRB1*07:01
3 A*01:01 A*02:01 B*15:11 B*47:01 DRB1*13:02 DRB1*15:01
4 A*24:08 A*26:01 B*40:01 B*51:01 DRB1*04:04 DRB1*09:01
5 A*01:01 A*24:02 B*54:01 B*55:02 DRB1*04:05 DRB1*09:01
6 A*01:01 A*03:02 B*15:11 B*37:01 DRB1*10:01 DRB1*14:54
7 A*11:01 A*30:01 B*13:02 B*15:18 DRB1*04:04 DRB1*07:01
8 A*01:01 A*02:01 B*35:03 B*81:01 DRB1*11:01 DRB1*15:01
9 A*02:06 A*31:01 B*27:07 B*40:02 DRB1*03:01 DRB1*13:02
10 A*01:01 A*66:01 B*37:01 B*49:01 DRB1*10:01 DRB1*13:02
11 A*01:01 A*03:01 B*35:01 B*52:01 DRB1*01:01 DRB1*15:02
12 A*11:01 A*11:01 B*15:01 B*15:05 DRB1*04:06 DRB1*15:01
13 A*01:01 A*11:02 B*07:02 B*15:02 DRB1*09:01 DRB1*15:01
14 A*01:01 A*02:01 B*52:01 B*67:01 DRB1*15:02 DRB1*16:02
15 A*01:01 A*02:05 B*15:17 B*50:01 DRB1*07:01 DRB1*15:01
16 A*01:01 A*11:01 B*37:01 B*40:02 DRB1*10:01 DRB1*12:02
17 A*24:07 A*32:01 B*35:05 B*40:01 DRB1*03:01 DRB1*04:05
18 A*11:01 A*24:02 B*13:01 B*35:01 DRB1*16:02 DRB1*16:02
19 A*11:01 A*11:01 B*40:02 B*55:12 DRB1*04:05 DRB1*15:01
20 A*02:11 A*24:02 B*40:01 B*40:06 DRB1*11:01 DRB1*15:01
21 A*01:01 A*02:06 B*51:01 B*57:01 DRB1*07:01 DRB1*12:01
22 A*01:01 A*29:01 B*07:05 B*15:01 DRB1*04:05 DRB1*07:01
23 A*01:01 A*02:07 B*37:01 B*46:01 DRB1*04:03 DRB1*10:01
24 A*24:85 A*30:01 B*13:02 B*55:02 DRB1*07:01 DRB1*15:01
25 A*11:01 A*31:01 B*07:06 B*51:01 DRB1*12:02 DRB1*14:05
26 A*01:01 A*11:01 B*46:01 B*57:01 DRB1*07:01 DRB1*08:03
27 A*01:01 A*02:01 B*15:18 B*37:01 DRB1*04:01 DRB1*15:01
28 A*01:01 A*24:02 B*37:01 B*46:01 DRB1*09:01 DRB1*10:01
29 A*26:01 A*66:01 B*40:40 B*41:02 DRB1*12:01 DRB1*15:01
30 A*02:01 A*29:02 B*13:02 B*45:01 DRB1*03:01 DRB1*12:02
31 A*01:01 A*11:03 B*15:01 B*57:01 DRB1*07:01 DRB1*15:01
32 A*11:01 A*26:01 B*35:03 B*38:01 DRB1*11:03 DRB1*14:04
注:HLA-DRB1型别中的DRB1*1201不排除DRB1*1206/1210/1217的可能性,DRB1*1454不排除DRB1*1401的可能性,因为上述等位基因在2号外显子的序列完全相同。同理对于HLA-A/B位点中2、3、4号外显子序列完全相同的结果取常见型。
采用本发明的技术路线,对950份已知HLA-SBT分型结果的样本 进行HLA-A/B/DRB1位点的基因分型,结果发现:采用本发明的技术路线所得的分型结果与原结果完全一致。
尽管本发明的具体实施方式已经得到详细的描述,本领域技术人员将会理解。根据已经公开的所有教导,可以对那些细节进行各种修改和替换,这些改变均在本发明的保护范围之内。本发明的全部范围由所附权利要求及其任何等同物给出。
参考文献
[1].http://www.ebi.ac.uk/imgt/hla/stats.html
[2].Tiercy J M.Molecular basis of HLA polymorphism:implications in clinical transplantation.[J].Transpl Immunol,2002,9:173-180.
[3].C.Antoine,S.Müller,A.Cant,et al.Long-term survival and transplantation of haemopoietic stem cells for immunodeficiencies:report of the European experience.1968-99.[J].The Lancet,2003,9357:553-560.
[4].H.A.Erlich,G.Opelz,J.Hansen,et al.HLA DNA Typing and Transplantation.[J].Immunity,2001,14:347-356.
[5].Lillo R,Balas A,Vicario JL,et a1.Two new HLA class allele,DPB1*02014,by sequence-based typing.[J].Tissue Antigens,2002,59:47-48.
[6].A.Dormoy,N.Froelich.Leisenbach,et al.Mono-allelic amplification of exons 2-4using allele group-specific primers for sequence-based typing(SBT)of the HLA-A,-B and -C genes:Preparation and validation of ready-to-use pre-SBT mini-kits.[J].Tissue Antigens,2003,62:201-216.
[7].Elaine R.Mardis.The impact of next-generation sequencing technology on genetics.[J].Trends in Genetics.2008,24:133-141.
[8].Christian Hoffmann1,Nana Minkah1,Jeremy Leipzig.DNA barcoding and pyrosequencing to identify rare HIV drug resistance mutations.[J].Nucleic Acids Research,2007,1-8.
[9].Shannon J.Odelberg,Robert B.Weiss,Akira Hata.Template-switching during DNA synthesis by Thermus aquaticus DNA polymerase I.[J].Nucleic Acids Research.1995,23:2049-2057.
[10].Sayer D,Whidborne R,Brestovac B.HLA-DRB1 DNA sequencing based typing:an approach suitable for high through put typing including unrelated bone marrow registry donors.[J].Tissue Antigens.2001,57(1):46-54。