CN105112518B - 一种基于Pacbio RS II测序平台的HLA分型方法 - Google Patents

一种基于Pacbio RS II测序平台的HLA分型方法 Download PDF

Info

Publication number
CN105112518B
CN105112518B CN201510507667.5A CN201510507667A CN105112518B CN 105112518 B CN105112518 B CN 105112518B CN 201510507667 A CN201510507667 A CN 201510507667A CN 105112518 B CN105112518 B CN 105112518B
Authority
CN
China
Prior art keywords
hla
sequence
primer
reads
gene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510507667.5A
Other languages
English (en)
Other versions
CN105112518A (zh
Inventor
梁德全
汪德鹏
马传艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Grandomics Biotechnology Co Ltd
Original Assignee
Beijing Grandomics Biotechnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Grandomics Biotechnology Co Ltd filed Critical Beijing Grandomics Biotechnology Co Ltd
Priority to CN201510507667.5A priority Critical patent/CN105112518B/zh
Publication of CN105112518A publication Critical patent/CN105112518A/zh
Application granted granted Critical
Publication of CN105112518B publication Critical patent/CN105112518B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于Pacbio RS II测序平台的HLA分型方法,采集样本提取DNA,并进行PCR扩增,将PCR产物混合建10k文库,进行PacBio RS II测序;然后对测序得到的原始数据进行校正,利用软件程序进行HLA分型。相比于现有的HLA分型方法,本发明的HLA分型方法具有超高的分辨率,对临床移植组织配型、群体遗传学、人类学和进化学等应用和基础研究工作具有重要价值。

Description

一种基于Pacbio RS II测序平台的HLA分型方法
技术领域
本发明涉及基因测序技术领域,特别涉及HLA基因测序分型方法,具体涉及一种基于第三代测序仪PacBio RSII的测序产生的HLA-A、HLA-B、HLA-C全长基因进行分型的方法,主要用来超高分辨地对HLA基因进行型别划分。
背景技术
人类白细胞抗原(Human leukocyte antigen,HLA)系统是人类主要组织相容性复合体(Major histocompatibility complex,MHC)的别称,是人体内与免疫最相关的一段基因组区域。它位于人类6号染色体短臂,由一系列紧密连锁的基因座构成。HLA基因在人类基因组中基因多态性最高,个体之间的HLA型别差异度非常大。HLA基因具有识别自体与非体,调节免疫应答等作用。在医学上,匹配上正确而又高精度的HLA型别对骨髓移植、器官移植是否成功起着决定性的作用,并且研究发现许多疾病(例如:强直性脊椎炎(AnkylosingSpondylitis,AS))都与HLA基因的某些型别相关。有研究发现在人类交往中,HLA在异性吸引以及成功繁殖后代也起作用。
目前的HLA分型方法主要有HLA血清型分型、细胞学分型,但是分辨率很低,且实验操作繁琐。后来发展PCR分型方法,主要有单链构象多态性、限制性片段长度多态性、序列特异性引物、序列特异性寡核苷酸探针,虽然分辨率有所提高,但是同样操作麻烦,成本高。最近发展起来的基于第二代测序技术的PCR-SBT精度提高到高分辨率,价格也有所降低。然而第二代测序技术也存在问题,主要是无法把HLA基因全部测通,还是局限在2、3、4号外显子,内含子以及UTR区域的序列无法得到信息。
HLA型别不断增长,已经达到12,242个(IMGT/HLA数据库),而测序手段仍然局限于2、3、4号外显子,精度不高,而且很多情况下等位基因无法分开。因此我们利用新的三代测序技术进行全长测序(1-7号外显子以及内含子,UTR区域),并且用我们开发的程序进行超高分辨率的HLA分型。
发明内容
针对现有HLA测序分型技术存在的不足,本发明的目的在于利用新的三代测序技术进行全长测序,包括1-7号外显子以及内含子、UTR区域,并且开发分型程序进行超高分辨率的HLA分型。
本发明的技术方案如下:
一种基于Pacbio RS II测序平台的HLA分型方法,包括以下步骤:
1)采集样本提取DNA,然后进行PCR扩增,其中PCR扩增所用引物是针对需要分型的HLA基因的5’UTR和3’UTR区域设计的,且每对引物的5’端都加有用于区分样本的Barcode(条形码)序列;
2)将步骤1)得到的PCR产物混合建10k文库,然后进行PacBio RS II测序;
3)对测序得到的原始数据进行校正,得到高质量的CCS reads,并根据barcode序列和引物信息把不同样本的不同HLA基因的reads序列分开;
4)采用软件程序进行HLA分型,包括:
4-1)根据等位基因上的特异性位点将各样本的各HLA基因的reads序列分成两份文件,一份为等位基因1,另一份为等位基因2;
4-2)对各等位基因的文件分别截取20~40条reads进行序列组装;
4-3)校正组装结果;
4-4)将校正后的组装结果与对应基因的基因组(genomics)参考序列进行比对,并根据基因组参考序列的CDS位置信息将组装结果的所有CDS序列抓取出来,按照顺序连成一条CDS序列;
4-5)将步骤4-4)得到的等位基因的CDS序列跟IMGT HLA型别数据库比对,如果100%的序列一样则将该型别号赋予该等位基因。
上述步骤2)进行PacBio RS II测序,从相对于之前的测序方法,可以非常准确的把整个序列测通,为精准分型奠定了基础。如图1所示,(a)是之前的测序方法得到的结果,由于测得的序列信息较短,对于等位基因1我们无法确定序列1和3同属一条序列,还是序列1和4同属一条序列,等位基因2也面临同样的问题;而PacBio RS II测序可以非常准确地把整个序列测通,如图1中(b)所示,可以确定两端序列的位置关系,为实现更为精确的分型奠定了基础。
优选的,上述步骤3)对测序得到的原始数据用Smrt analysisV2.3软件进行校正,得到高质量的CCS reads,然后根据barcode和引物信息分选基因,分选原则是read的头部或者尾部有100%匹配的barcode和引物信息,这样就得到了不同样本的不同HLA基因的reads序列信息。
优选的,上述步骤4-1)具体过程是把CCS reads通过bwa软件与对应基因的参考序列进行比对,产生sam格式的比对结果;之后通过samtools的phase命令,分成两份fastq的结果文件。其中比对根据的特异性位点通常是SNP位点。
优选的,上述步骤4-2)采用Mira组装软件进行组装。
优选的,上述步骤4-3)主要是针对polyC和polyG等特定的motif对组装结果进行校正,因为这些motif非常容易组装成错误的序列。
优选的,上述步骤4-4)通过Lastz软件将组装的结果与对应基因的基因组参考序列进行比对。
上述步骤4-5)由于选取的是CDS序列进行分型,所以优选的,型别号统一只保留六位的型别精确度。
相比于现有的HLA分型方法,本发明的HLA分型方法具有超高的分辨率,对临床移植组织配型、群体遗传学、人类学和进化学等应用和基础研究工作具有重要价值。
附图说明
图1显示了PacBio RS II测序与之前测序方法的差别,其中(a)是之前测序方法得到的结果,(b)是PacBio RS II测序结果,图中连续的点代表测得的序列,其中的大写英文字母代表特异性位点的碱基。
图2是本发明实施例不同类型的CCS reads的分布图。
具体实施方式
以下通过实施例对本发明的方案进行详细说明。本领域的技术人员应该明白,下面的实施例子仅用于解释说明本发明,而不是限定本发明的范围。
实施例1:82个样本的DNA提取、测序以及HLA分型
本实施例针对口腔黏膜细胞样本提取DNA,扩增HLA-A、HLA-B、HLA-C的DNA片段,然后混样,用PacBio RSII测序仪器测序,最后进行HLA分型。
1.样本的采集:通过一次性采样拭子(注册产品编号为YZB/粤A0278-2012,深圳市麦瑞科林科技有限公司)收集保存口腔黏膜细胞,保存液为2mL。
2.DNA的提取:采用Qiagen公司的Blood&Cell Culture DNA Kit试剂盒进行提取,提取后的液体体积为80μL左右,提取一次DNA的产物大概可以做20次左右的PCR。
3.PCR扩增:在HLA-A、HLA-B、HLA-C三个基因的5’UTR和3’UTR区域设计引物,并在引物的5’端加上barcode序列。Barcode序列是为了区分样本,每个样本针对HLA-A、HLA-B、HLA-C基因加的barcode一样,但是引物序列不一样。例如,第3号和第4号样本的barcode和引物序列的信息见表1。其中引物ID中A、B、C分别代表HLA-A、HLA-B、HLA-C基因;ID后面的数字表示样本代号,即barcode编号;F表示5’UTR端的引物,R代表3’UTR端的引物。
表1
引物ID 5'→3'序列 序列表中编号
A-ID3F TACTAGAGTAGCACTCAACTCAGAGCTAAGGAATGATGGCAAAT SEQ ID No:1
A-ID3R GAGTGCTACTCTAGTAATATAACCATCATCGTGTCCCAAGGTTC SEQ ID No:2
B-ID3F TACTAGAGTAGCACTCCCCGGTTGCAATAGACAGTAACAAA SEQ ID No:3
B-ID3R GAGTGCTACTCTAGTAGGGTCCAATTTCACAGACAAATGT SEQ ID No:4
C-ID3F TACTAGAGTAGCACTCTGCTTAGATGTGCATAGTTCACGAA SEQ ID No:5
C-ID3R GAGTGCTACTCTAGTATGGACCCAATTTTACAAACAAATA SEQ ID No:6
A-ID4F TGTGTATCAGTACATGAACTCAGAGCTAAGGAATGATGGCAAAT SEQ ID No:7
A-ID4R CATGTACTGATACACAATATAACCATCATCGTGTCCCAAGGTTC SEQ ID No:8
B-ID4F TGTGTATCAGTACATGCCCGGTTGCAATAGACAGTAACAAA SEQ ID No:9
B-ID4R CATGTACTGATACACAGGGTCCAATTTCACAGACAAATGT SEQ ID No:10
C-ID4F TGTGTATCAGTACATGTGCTTAGATGTGCATAGTTCACGAA SEQ ID No:11
C-ID4R CATGTACTGATACACATGGACCCAATTTTACAAACAAATA SEQ ID No:12
PCR扩增采用的酶为TaKaRa的GXL DNA Polymerase。组分体系:5×Prime STAR GXL Buffer(5mM Mg2+)4μl,2.5mM dNTP 1.6μl,正向引物和反向引物各1μl,基因组DNA 50ng,总体积20μl。温度体系:94℃ 2min,98℃ 10s,65℃ 20s,30个循环后68℃或72℃ 5min。
取HLA-A、B、C三者PCR产物均合格的样本用Qubit定量,共246个产物,每个取50ng等质量混合,然后进行磁珠纯化和浓度测定。
4.建库测序:82个样本的HLA-A、HLA-B、HLA-C的PCR产物混合按照PacBio的标准建库流程构建10k文库,之后用PacBio RS II测序,所用试剂为P6-C4试剂。
测序数据的结果统计如表2所示。
表2
样本 HLA-1
Post-Filter#of Bases 1,172,092,347
Post-Filter#of Reads 78,969
Post-Filter Mean Read Length 14,842
Post-Filter Mean Read Quality 0.836
#of SubReads 318,362
Mean Subread Length 3,646
Longest read 42,391
表2中,Post-Filter#of Bases过滤后的碱基数目;Post-Filter#of Reads过滤后的reads条数;Post-Filter Mean Read Length过滤后read平均长度;Post-Filter MeanRead Quality过滤后平均read的质量;#of SubReads去掉接头后的subreads条数;MeanSubread Length去掉接头后的subreads平均长度;Longest read最长的reads的碱基数。
从表2可以看出,平均长度3.6K,过滤后质量均达到质控指标,说明此次建库以及测序成功。
5.样本分选:测序完后的原始数据先用Smrt analysisV2.3软件进行校正,生成高质量的CCS reads,然后根据barcode和引物信息把不同样本的HLA-A、HLA-B、HLA-C基因的序列分开,分选基因的原则是read的头部或者尾部有100%匹配的barcode和引物信息。这样得到HLA-A、HLA-B、HLA-C基因的reads序列信息reads of insert序列,如表3所示。
表3.reads of insert统计
我们观察到一条reads of insert含有单条barcode(只有一条barcode)、一对以上的barcode(含有一对以上barcode)、No barcode(不含有barcode序列)三种情况,见表4,因此我们在分选之前先把这些异常的reads(不含barcode以及含两条以上的barcode)过滤掉。最终可以用来做后续分选的reads有18,727条,占所有的reads of insert的65.04%。不同类型的CCS reads的分布如图2所示。
表4.分选的reads统计
Type of reads Number of reads Percentage(%)
num_all_ccs 28789 100
num_repeat_ccs 124 0.4
num_0_ccs 7348 25.5
num_1_ccs 11375 39.5
num_2_ccs 9916 34.4
num_3_ccs 16 0.1
num_4_ccs 10 0.0
注释:num_all_ccs:所有ccs reads;
num_repeat_ccs:还有多条重复barcode的ccs reads;
num_0_ccs:不含有barcode的ccs reads;
num_1_ccs:含有单个barcode的ccs reads;
num_2_ccs:含有一对barcode的ccs reads;
num_3_ccs:含有三个barcode的ccs reads;
num_4_ccs:含有四个或者以上barcode的ccs reads。
按照barcode 100%相似度把reads分到不同的样本。总共有16,252个reads可以分到不同的样本中(见表5),而用来做分选的reads有18,727条,分选效率为86.8%。
表5.分选结果统计
样本 A B C
HLA10 18 80 102
HLA100 27 132 106
HLA11 14 35 11
HLA13 18 98 0
HLA14 11 84 85
HLA15 6 114 86
HLA16 3 20 97
HLA17 5 46 58
HLA18 7 123 147
HLA19 2 95 34
HLA20 3 69 56
HLA21 19 93 92
HLA23 33 83 82
HLA26 34 100 86
HLA27 8 131 83
HLA28 13 113 145
HLA29 28 74 128
HLA3 28 95 40
HLA30 44 111 134
HLA32 12 36 108
HLA36 75 99 115
HLA37 13 89 112
HLA39 22 117 108
HLA4 7 57 82
HLA41 16 99 108
HLA43 0 60 43
HLA44 11 87 106
HLA47 37 115 103
HLA49 42 111 84
HLA5 9 77 54
HLA50 8 29 88
HLA52 8 71 90
HLA6 9 83 86
HLA63 63 72 74
HLA64 7 100 79
HLA65 14 91 80
HLA66 25 39 82
HLA68 16 77 133
HLA69 28 114 100
HLA7 6 139 124
HLA70 30 64 66
HLA73 19 72 116
HLA77 34 110 127
HLA79 22 92 89
HLA8 82 97 122
HLA82 58 102 65
HLA83 69 72 104
HLA84 3 64 32
HLA85 21 70 15
HLA86 28 73 97
HLA87 56 97 82
HLA89 24 97 93
HLA9 3 68 35
HLA90 23 108 70
HLA91 22 102 101
HLA92 42 98 96
HLA93 29 103 96
HLA95 16 67 45
HLA96 0 99 96
HLA97 32 102 99
HLA98 28 64 96
HLA99 23 75 58
HLA_KQ1_1 16 92 77
HLA_KQ1_2 12 64 87
HLA_T11_1 42 82 87
HLA_T11_2 30 115 128
HLA_T12_1 7 127 105
HLA_T12_2 43 112 0
HLA_T13_1 18 117 106
HLA_T13_2 66 100 92
HLA_T14 47 116 112
HLA_T15 33 70 85
HLA_T17 5 86 60
HLA_T2_1 52 100 100
HLA_T2_2 22 85 85
HLA_T3 6 81 85
HLA_T4 64 116 100
HLA_T5 7 35 68
HLA_T6 12 95 77
HLA_T7 11 90 47
HLA_T8 61 110 58
HLA_T9 28 101 119
6.HLA分型:HLA分型涉及到一系列的步骤,主要几点是:
i.每个样本每个基因的reads按照等位基因分成两份,一份是等位基因1,一份是等位基因2。具体过程是把CCS reads通过bwa软件与参考序列比对,产生sam格式的比对结果;之后通过samtools的phase命令,分成两份fastq的结果文件。等位分选结果如表6所示。
表6.等位基因分选结果
样本 A1 A2 B1 B2 C1 C2
HLA10 7 8 42 31 90 1
HLA100 23 56 68 28 81 21
HLA11 8 5 60 59 27 12
HLA13 11 5 43 50 187 7
HLA14 13 16 40 33 182 121
HLA15 27 12 23 88 43 43
HLA16 2 5 6 10 21 75
HLA17 3 10 22 16 24 34
HLA18 26 13 56 63 104 26
HLA19 3 4 42 37 19 14
HLA20 4 4 25 33 24 31
HLA21 7 10 50 32 46 43
HLA23 13 16 37 34 31 48
HLA26 7 25 52 32 39 44
HLA27 4 9 48 60 15 65
HLA28 7 9 63 43 81 64
HLA29 12 13 29 33 67 58
HLA3 11 15 41 38 18 20
HLA30 21 16 38 63 117 13
HLA32 6 6 15 19 54 53
HLA36 27 29 35 53 34 78
HLA37 5 8 38 39 47 59
HLA39 40 6 51 53 51 52
HLA4 11 10 2 53 63 6
HLA41 6 7 51 34 56 49
HLA43 0 0 26 30 21 22
HLA44 22 4 8 64 47 56
HLA47 16 18 52 51 49 48
HLA49 13 27 49 57 34 44
HLA5 51 11 7 69 3 46
HLA50 11 12 15 12 41 44
HLA52 5 9 25 44 62 4
HLA6 10 11 31 39 40 43
HLA63 17 40 28 34 14 55
HLA64 12 12 39 45 41 35
HLA65 6 8 36 47 55 24
HLA66 15 8 30 8 34 43
HLA68 23 7 36 39 64 67
HLA69 15 8 42 62 43 50
HLA7 6 3 56 65 24 100
HLA70 14 12 34 24 37 29
HLA73 6 10 29 35 54 53
HLA77 21 3 12 93 76 50
HLA79 7 11 47 39 49 38
HLA8 33 32 38 38 55 63
HLA82 20 29 37 51 25 35
HLA83 32 22 17 54 81 24
HLA84 7 3 31 27 9 23
HLA85 17 4 28 35 10 5
HLA86 11 12 36 36 44 50
HLA87 24 23 33 20 29 49
HLA89 10 7 37 49 40 51
HLA9 4 4 27 36 20 14
HLA90 8 12 44 55 15 44
HLA91 13 7 41 46 54 40
HLA92 28 8 3 75 28 66
HLA93 6 17 46 50 53 37
HLA95 5 9 27 33 24 17
HLA96 0 0 23 30 41 47
HLA97 11 16 38 54 50 45
HLA98 10 10 25 31 34 51
HLA99 8 12 34 29 17 40
HLA_KQ1_1 6 9 52 32 58 12
HLA_KQ1_2 62 9 22 30 44 36
HLA_T11_1 30 10 30 43 41 33
HLA_T11_2 27 3 36 55 60 66
HLA_T12_1 16 19 85 27 70 4
HLA_T12_2 13 16 80 24 203 77
HLA_T13_1 7 8 53 53 21 79
HLA_T13_2 31 28 43 49 18 67
HLA_T14 26 14 46 58 53 54
HLA_T15 10 10 33 29 43 39
HLA_T17 12 5 37 38 31 29
HLA_T2_1 26 23 50 41 72 13
HLA_T2_2 10 7 31 49 68 16
HLA_T3 2 10 38 38 49 33
HLA_T4 29 27 52 46 37 54
HLA_T5 5 8 11 23 53 37
HLA_T6 5 10 5 89 12 65
HLA_T7 17 4 37 42 30 16
HLA_T8 47 12 46 50 27 28
HLA_T9 7 18 55 37 56 58
ii.对等位基因的文件分别截取40条进行组装,采用Mira组装软件。组装之后分别对可能存在错误的地方(例如polyC和polyG等特定的motif)进行校正。结果如表7所示,其中0代表没有组装出来,1代表组装出1条序列,其他数字代表组装出的多条序列。
表7.等位基因组装结果
样本 A1 A2 B1 B2 C1 C2
HLA10 1 1 1 2 1 0
HLA100 1 1 3 1 1 1
HLA11 1 1 1 1 1 1
HLA13 1 1 1 1 2 1
HLA14 1 1 1 1 1 1
HLA15 1 1 1 1 1 1
HLA16 0 1 1 1 1 1
HLA17 0 1 1 1 1 1
HLA18 1 1 1 1 2 1
HLA19 0 0 1 1 1 1
HLA20 0 0 1 1 1 1
HLA21 1 1 1 1 1 1
HLA23 1 1 1 1 1 1
HLA26 1 2 1 1 2 1
HLA27 0 1 2 1 1 1
HLA28 1 1 1 1 1 1
HLA29 1 1 1 1 1 1
HLA3 1 1 2 2 1 1
HLA30 1 1 1 1 3 1
HLA32 1 1 1 1 1 1
HLA36 1 1 1 1 1 1
HLA37 1 1 1 1 1 1
HLA39 2 1 1 1 1 1
HLA4 1 1 0 1 1 1
HLA41 1 1 1 1 1 1
HLA43 0 0 1 1 1 1
HLA44 1 0 1 1 1 1
HLA47 1 1 1 1 1 1
HLA49 1 2 1 1 1 1
HLA5 2 1 1 1 0 1
HLA50 1 1 1 1 1 1
HLA52 0 1 1 1 2 0
HLA6 1 1 1 1 1 1
HLA63 1 1 1 1 1 1
HLA64 1 1 1 1 1 1
HLA65 1 1 1 1 1 1
HLA66 1 1 1 1 1 2
HLA68 1 1 1 1 1 1
HLA69 1 1 1 1 1 1
HLA7 1 0 1 1 1 1
HLA70 1 1 1 1 1 1
HLA73 1 1 1 1 1 2
HLA77 1 0 1 2 2 1
HLA79 1 1 1 1 1 1
HLA8 2 2 1 1 1 1
HLA82 1 1 1 1 1 1
HLA83 1 2 1 1 1 1
HLA84 1 0 1 1 1 1
HLA85 2 0 1 1 1 1
HLA86 1 1 1 1 1 1
HLA87 2 2 1 1 1 1
HLA89 1 1 1 1 1 1
HLA9 0 0 1 1 1 1
HLA90 1 1 1 1 1 1
HLA91 1 1 1 1 1 1
HLA92 1 1 0 2 1 1
HLA93 1 1 1 1 2 1
HLA95 1 1 1 1 1 1
HLA96 0 0 1 1 1 1
HLA97 1 2 1 1 2 1
HLA98 1 1 1 2 1 1
HLA99 1 1 1 1 1 1
HLA_KQ1_1 1 1 1 1 1 2
HLA_KQ1_2 2 2 1 1 1 1
HLA_T11_1 1 1 1 1 1 1
HLA_T11_2 2 0 1 1 1 1
HLA_T12_1 1 1 2 1 1 0
HLA_T12_2 1 1 2 2 1 1
HLA_T13_1 1 1 2 1 1 1
HLA_T13_2 2 2 1 1 2 1
HLA_T14 2 1 1 1 1 1
HLA_T15 1 1 1 1 1 1
HLA_T17 1 1 1 2 1 1
HLA_T2_1 1 2 1 1 2 1
HLA_T2_2 1 1 1 1 2 1
HLA_T3 0 1 1 1 1 1
HLA_T4 2 2 1 1 1 1
HLA_T5 1 1 1 1 1 1
HLA_T6 0 1 1 1 1 1
HLA_T7 2 0 1 1 1 1
HLA_T8 2 1 1 1 1 1
HLA_T9 1 2 2 1 1 1
iii.对组装的结果进行分型。首先通过lastz将组装的结果比对到对应基因的参考序列的genomics序列;之后根据genomics序列的CDS位置信息将组装结果的所有的CDS序列抓取出来,按照顺序连成一条CDS序列;然后下载最新的IMGT HLA型别数据库,将等位基因的CDS序列跟IMGT HLA型别数据库比对,如果100%的序列一样则将该型别号赋予该等位基因,型别号统一只保留六位的型别精确度。
分型结果如表8所示。
表8.样本分型结果
样本 A1 A2 B1 B2 C1 C2
HLA10 B*48:01:01 B*67:01:02 C*07:02:01 C*07:02:01
HLA100 A*11:01:01 A*26:01:01 B*15:02:01 B*46:01:01 C*07:02:01 C*01:02:01
HLA11 A*02:03:01 B*13:01:01 B*07:02:01 C*03:04:01 C*07:02:01
HLA13 A*11:01:01 B*39:01:01 B*40:01:02 C*07:02:01 C*07:02:01
HLA14 A*02:01:01 A*11:01:01 B*15:11:01 B*54:01:01 C*03:03:01 C*01:02:01
HLA15 A*11:01:01 B*15:27:01 B*46:01:01 C*04:01:01 C*01:02:01
HLA16 B*51:01:01 C*03:04:01 C*15:02:01
HLA17 A*02:01:01 B*15:01:01 B*39:01:01 C*03:03:01 C*07:02:01
HLA18 A*24:02:01 B*54:01:01 B*46:01:01 C*01:02:01 C*01:02:01
HLA19 B*51:01:01 B*46:01:01 C*14:02:01 C*01:02:01
HLA20 B*13:01:01 B*40:06:01 C*03:04:01 C*08:01:01
HLA21 A*11:01:01 B*58:01:01 B*15:05:01 C*07:02:01 C*04:01:01
HLA23 A*02:01:01 B*13:02:01 B*40:01:02 C*03:04:01 C*06:02:01
HLA26 A*11:01:01 B*13:01:01 B*46:01:01 C*03:04:01 C*01:02:01
HLA27 A*11:02:01 B*27:04:01 B*51:02:01 C*15:02:01 C*12:02:02
HLA28 A*11:01:01 A*02:07:01 B*15:02:01 B*46:01:01 C*08:01:01 C*01:02:01
HLA29 A*11:02:01 A*24:02:01 B*27:04:01 B*46:01:01 C*01:03 C*12:02:02
HLA3 A*11:01:01 A*02:07:01 B*46:01:01 B*40:01:02 C*07:02:01 C*01:02:01
HLA30 A*11:01:01 A*02:03:01 B*38:02:01 B*40:01:02 C*07:02:01 C*07:02:01
HLA32 A*24:02:01 B*15:01:01 B*40:01:02 C*03:04:01 C*01:02:01
HLA36 A*02:01:01 A*24:02:01 B*51:01:01 B*13:01:01 C*03:04:01 C*15:02:01
HLA37 B*15:02:01 B*51:01:01 C*14:02:01 C*08:01:01
HLA39 A*24:02:01 A*24:02:01 B*27:05:02 B*50:01:01 C*02:02:02 C*12:03:01
HLA4 A*02:07:01 A*11:01:01 B*46:01:01 B*46:01:01 C*01:02:01 C*01:02:01
HLA41 A*26:01:01 B*39:01:01 C*03:04:01 C*07:02:01
HLA43 B*46:01:01 B*48:01:01 C*08:01:01 C*01:02:01
HLA44 A*24:02:01 A*24:02:01 B*40:01:02 B*40:01:02 C*14:02:01 C*07:02:01
HLA47 A*26:01:01 B*55:02:01 B*08:01:01 C*07:02:01 C*01:02:01
HLA49 A*02:06:01 A*02:03:01 B*51:01:01 B*13:01:01 C*03:04:01 C*14:02:01
HLA5 A*02:07:01 A*02:07:01 B*46:01:01 B*46:01:01 C*01:02:01 C*01:02:01
HLA50 A*24:02:01 B*54:01:01 B*40:02:01 C*03:04:01 C*01:02:01
HLA52 A*11:01:01 B*55:02:01 B*46:01:01 C*01:06 C*01:02:01
HLA6 A*02:01:01 B*44:02:01 B*13:01:01 C*03:04:01 C*05:01:01
HLA63 A*02:01:01 A*24:07:01 B*35:01:01 B*40:01:02 C*15:02:01 C*04:01:01
HLA64 A*11:01:01 B*57:01:01 B*48:01:01 C*08:03:01 C*06:02:01
HLA65 A*24:02:01 B*07:05:01 B*46:01:01 C*15:05:02 C*01:02:01
HLA66 A*02:07:01 B*15:01:01 B*46:01:01 C*04:01:01 C*01:02:01
HLA68 A*02:01:01 B*38:02:01 B*46:01:01 C*07:02:01 C*01:02:01
HLA69 A*11:02:01 A*24:02:01 B*54:01:01 B*46:01:01 C*12:02:02 C*01:02:01
HLA7 B*07:05:01 B*13:01:01 C*03:04:01 C*15:05:02
HLA70 A*11:01:01 A*26:01:01 B*58:01:01 B*46:01:01 C*03:02:02 C*01:02:01
HLA73 B*40:01:02 B*40:06:01 C*07:02:01 C*01:02:01
HLA77 A*24:02:01 A*24:02:01 B*15:27:01 B*15:12 C*03:03:01 C*04:01:01
HLA79 A*02:01:01 B*58:01:01 B*38:01:01 C*03:02:02 C*12:03:01
HLA8 A*11:02:01 A*02:07:01 B*38:02:01 B*46:01:01 C*07:02:01 C*01:02:01
HLA82 A*02:07:01 A*24:02:01 B*13:01:01 B*40:01:02 C*03:04:01 C*12:02:02
HLA83 A*02:07:01 A*24:02:01 B*18:02 B*55:04 C*03:03:01
HLA84 B*57:01:01 B*52:01:01 C*12:02:02 C*06:02:01
HLA85 A*02:01:01 A*02:01:01 B*46:01:01 B*40:01:02 C*07:02:01 C*01:02:01
HLA86 A*11:180N A*26:01:01 B*51:01:01 B*54:01:01 C*14:02:01 C*01:02:01
HLA87 A*02:01:01 B*54:01:01 B*56:10 C*01:03 C*12:02:02
HLA89 A*24:02:01 B*52:01:01 B*40:01:02 C*12:02:02 C*04:01:01
HLA9 B*13:01:01 B*46:01:01 C*03:04:01 C*01:02:01
HLA90 B*51:01:01 B*37:01:01 C*14:02:01 C*06:02:01
HLA91 A*02:07:01 A*02:03:01 B*38:02:01 B*46:01:01 C*07:02:01 C*01:02:01
HLA92 A*11:01:01 A*24:02:01 B*40:01:02 B*40:01:02 C*03:03:01 C*15:02:01
HLA93 A*30:01:01 B*44:03:01 B*13:02:01 C*04:01:01 C*06:02:01
HLA95 B*15:25:01 B*40:01:02 C*04:03:01 C*07:02:01
HLA96 B*07:05:01 B*13:01:01 C*07:02:01 C*01:02:01
HLA97 A*02:01:01 A*11:02:01 B*38:02:01 B*40:01:02 C*07:02:01 C*01:02:01
HLA98 A*11:180N A*24:02:01 B*15:11:01 B*54:01:01 C*03:03:01 C*07:02:01
HLA99 B*51:01:01 B*40:02:01 C*03:03:01 C*15:02:01
HLA_KQ1_1 A*02:07:01 B*40:02:01 B*40:01:02 C*07:02:01 C*07:02:01
HLA_KQ1_2 A*02:01:01 A*02:07:01 B*40:02:01 B*40:01:02 C*15:02:01 C*07:02:01
HLA_T11_1 A*02:07:01 B*35:01:01 B*40:01:02 C*07:02:01 C*04:01:01
HLA_T11_2 A*02:01:01 A*02:07:01 B*35:01:01 B*40:01:02 C*07:02:01 C*04:01:01
HLA_T12_1 A*02:01:01 B*35:05:01 B*35:01:01 C*04:01:01 C*04:01:01
HLA_T12_2 A*02:01:01 A*24:07:01 B*35:05:01 B*35:01:01 C*04:01:01
HLA_T13_1 B*35:05:01 B*40:02:01 C*15:02:01 C*04:01:01
HLA_T13_2 A*02:01:01 A*24:07:01 B*35:05:01 B*40:02:01 C*15:02:01 C*04:01:01
HLA_T14 A*24:02:01 B*58:01:01 B*40:02:01 C*03:02:02 C*03:03:01
HLA_T15 A*11:01:01 B*52:01:01 B*46:01:01 C*03:04:01 C*08:01:01
HLA_T17 B*13:02:01 B*46:01:01 C*06:02:01 C*01:02:01
HLA_T2_1 A*11:01:01 A*26:01:01 B*15:01:01 B*40:03 C*03:04:01 C*03:04:01
HLA_T2_2 A*11:01:01 B*15:01:01 B*40:03 C*03:04:01 C*03:04:01
HLA_T3 A*30:01:01 A*30:01:01 B*13:02:01 B*46:01:01 C*06:02:01 C*01:02:01
HLA_T4 A*30:01:01 A*11:01:01 B*13:02:01 B*40:03 C*03:04:01 C*06:02:01
HLA_T5 A*02:01:01 A*11:01:01 B*51:01:01 B*54:01:01 C*14:02:01 C*01:02:01
HLA_T6 A*11:01:01 B*46:01:01 B*46:01:01 C*01:02:01 C*01:02:01
HLA_T7 A*11:01:01 A*11:01:01 B*55:02:01 B*40:06:01 C*08:01:01 C*01:02:01
HLA_T8 A*02:01:01 A*11:02:01 B*56:01:01 B*40:06:01 C*08:22 C*01:02:01
HLA_T9 A*11:02:01 B*56:01:01 B*35:01:01 C*03:03:01 C*01:02:01
通过本发明的HLA分型方法,总体一次分型率达到86.4%。HLA-A基因一次性分型成功率达到61.6%,HLA-B基因一次分型成功率达到99.4%,HLA-C基因一次分型成功率达到98.2%。由于本次实验A基因的扩增出现了一些问题,后续通过改善可以大大提高A基因的一次分型成功率。

Claims (2)

1.一种非诊断目的的基于Pacbio RS II 测序平台的HLA分型方法,包括以下步骤:
1)采集样本提取DNA,然后进行PCR扩增,其中PCR扩增所用引物是针对需要分型的HLA基因的5’UTR和3’UTR区域设计的,且每对引物的5’端都加有用于区分样本的Barcode序列,其中,每个样本针对HLA-A、HLA-B、HLA-C基因加的barcode一样,但是引物序列不一样,表1给出了两个样本的barcode和引物序列的信息;
表1
引物ID 5'→3'序列 A-ID3F TACTAGAGTAGCACTCAACTCAGAGCTAAGGAATGATGGCAAAT A-ID3R GAGTGCTACTCTAGTAATATAACCATCATCGTGTCCCAAGGTTC B-ID3F TACTAGAGTAGCACTCCCCGGTTGCAATAGACAGTAACAAA B-ID3R GAGTGCTACTCTAGTAGGGTCCAATTTCACAGACAAATGT C-ID3F TACTAGAGTAGCACTCTGCTTAGATGTGCATAGTTCACGAA C-ID3R GAGTGCTACTCTAGTATGGACCCAATTTTACAAACAAATA A-ID4F TGTGTATCAGTACATGAACTCAGAGCTAAGGAATGATGGCAAAT A-ID4R CATGTACTGATACACAATATAACCATCATCGTGTCCCAAGGTTC B-ID4F TGTGTATCAGTACATGCCCGGTTGCAATAGACAGTAACAAA B-ID4R CATGTACTGATACACAGGGTCCAATTTCACAGACAAATGT C-ID4F TGTGTATCAGTACATGTGCTTAGATGTGCATAGTTCACGAA C-ID4R CATGTACTGATACACATGGACCCAATTTTACAAACAAATA
其中,引物ID中A、B、C分别代表HLA-A、HLA-B、HLA-C基因;ID后面的数字表示样本代号,即barcode编号;F表示5’UTR端的引物,R代表3’UTR端的引物;
2)将步骤1)得到的PCR产物混合建10k文库,然后进行PacBio RS II 测序;
3)对测序得到的原始数据用Smrt analysisV2.3软件进行校正,得到高质量的CCSreads,并根据barcode序列和引物信息把不同样本的不同HLA基因的reads序列分开,分选原则是reads的头部或者尾部有100%匹配的barcode和引物信息,得到不同样本的不同HLA基因的reads序列信息;
4)采用软件程序进行HLA分型,包括:
4-1)根据等位基因上的特异性位点将各样本的各HLA基因的reads序列分成两份文件,一份为等位基因1,另一份为等位基因2,具体是把CCS reads通过bwa软件与对应基因的参考序列进行比对,产生sam格式的比对结果,之后通过samtools的phase命令,分成两份fastq的结果文件;
4-2)采用Mira组装软件对各等位基因的文件分别截取20~40条reads进行序列组装;
4-3)针对polyC和polyG这些特定的motif对组装结果进行校正;
4-4)通过Lastz软件将校正后的组装结果与对应基因的基因组参考序列进行比对,并根据基因组参考序列的CDS位置信息将组装结果的所有CDS序列抓取出来,按照顺序连成一条CDS序列;
4-5)将步骤4-4)得到的等位基因的CDS序列跟IMGT HLA型别数据库比对,如果100%的序列一样则将该型别号赋予该等位基因。
2.如权利要求1所述的方法,其特征在于,步骤4-5)中型别号统一只保留六位。
CN201510507667.5A 2015-08-18 2015-08-18 一种基于Pacbio RS II测序平台的HLA分型方法 Active CN105112518B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510507667.5A CN105112518B (zh) 2015-08-18 2015-08-18 一种基于Pacbio RS II测序平台的HLA分型方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510507667.5A CN105112518B (zh) 2015-08-18 2015-08-18 一种基于Pacbio RS II测序平台的HLA分型方法

Publications (2)

Publication Number Publication Date
CN105112518A CN105112518A (zh) 2015-12-02
CN105112518B true CN105112518B (zh) 2019-01-25

Family

ID=54660621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510507667.5A Active CN105112518B (zh) 2015-08-18 2015-08-18 一种基于Pacbio RS II测序平台的HLA分型方法

Country Status (1)

Country Link
CN (1) CN105112518B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106754870A (zh) * 2016-11-30 2017-05-31 武汉菲沙基因信息有限公司 一种构建多样品全长转录组混合文库的方法
WO2018232580A1 (zh) * 2017-06-20 2018-12-27 深圳华大基因研究院 基于三代捕获测序对二倍体基因组单倍体分型的方法和装置
CN108460246B (zh) * 2018-03-08 2022-02-22 北京希望组生物科技有限公司 一种基于三代测序平台的hla基因分型方法
CN108460248B (zh) * 2018-03-08 2022-02-22 北京希望组生物科技有限公司 一种基于Bionano平台检测长串联重复序列的方法
CN113817725B (zh) * 2021-10-15 2024-05-14 西安浩瑞基因技术有限公司 Hla基因扩增引物、试剂盒、测序文库构建方法及测序方法
CN116904521B (zh) * 2023-09-13 2024-01-26 四川大学华西医院 一种突变型肺腺癌细胞系、构建方法和应用

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
cost-efficient multiplex pcr for routine genetyping of up to nine classical hla loci in a single analytical run of multiple samples by next generation sequencing;ozaki y等;《bmc genomics》;20150418(第16期);1-12
evaluation of multiplexing strategies for hla genotyping using pacbio sequencing technologies;ranade s等;《human immunology》;20150430;第76卷(第4期);215
HLA typing for the next generation;mayor np等;《plos one》;20150527;第10卷(第5期);1-12

Also Published As

Publication number Publication date
CN105112518A (zh) 2015-12-02

Similar Documents

Publication Publication Date Title
CN105112518B (zh) 一种基于Pacbio RS II测序平台的HLA分型方法
Carpenter et al. Access to RNA-sequencing data from 1,173 plant species: The 1000 Plant transcriptomes initiative (1KP)
Nguyen et al. Single cell RNA sequencing of rare immune cell populations
Alsos et al. The treasure vault can be opened: Large-scale genome skimming works well using herbarium and silica gel dried material
Fan et al. Whole-genome molecular haplotyping of single cells
Korpelainen et al. RNA-seq data analysis: a practical approach
Wang et al. GWAS discovery of candidate genes for yield-related traits in peanut and support from earlier QTL mapping studies
CN104153004A (zh) 一种用于扩增子测序的建库方法
CN108460246A (zh) 一种基于三代测序平台的hla基因分型方法
CN109971846A (zh) 使用双等位基因snp靶向下一代测序的非侵入性产前测定非整倍体的方法
Chen et al. Comparison of the chloroplast genome sequences of 13 oil-tea camellia samples and identification of an undetermined oil-tea camellia species from Hainan province
CN111534602A (zh) 一种基于高通量测序分析人类血型基因型的方法及其应用
CN108060237B (zh) 基于55个y染色体snp遗传标记的法医学复合检测试剂盒
CN108192893B (zh) 基于转录组测序开发艾纳香ssr引物的方法
KR20130142523A (ko) 차세대 염기서열 분석법을 위한 융합 프라이머의 설계방법 그리고 이러한 융합 프라이머 및 차세대 염기서열 분석법을 이용한 표적 유전자의 유전자형 분석방법
CN110785493A (zh) 模块式核酸衔接头
CN108823327B (zh) 樟树全基因组ssr分子标记及其制备方法和应用
Li et al. Genetic structure and characteristics of Tibetan chickens
Patella et al. Genotyping by RAD sequencing analysis assessed the genetic distinctiveness of experimental lines and narrowed down the genomic region responsible for leaf shape in endive (Cichorium endivia L.)
CN114245922A (zh) 单一生物单元的序列信息的新型处理方法
CN114875118B (zh) 确定细胞谱系的方法、试剂盒和装置
CN116515955A (zh) 一种高效低成本的多基因靶向分型方法
Lanner et al. Illumina midi-barcodes: quality proof and applications
WO2012096016A1 (ja) 核酸情報処理装置およびその処理方法
CN107354151A (zh) 基于梅花鹿全基因组开发的str分子标记及其应用

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant