CN103221551A

CN103221551A - Hla基因型别-snp连锁数据库、其构建方法、以及hla分型方法

Info

Publication number: CN103221551A
Application number: CN2010800702697A
Authority: CN
Inventors: 曹红志; 张伟; 王煜
Original assignee: BGI Shenzhen Co Ltd
Current assignee: Liuhe Beijing Huada Gene Technology Co., Ltd.
Priority date: 2010-11-23
Filing date: 2010-11-23
Publication date: 2013-07-24
Anticipated expiration: 2030-11-23
Also published as: CN103221551B; WO2012068701A2

Abstract

本发明属于基因组学和生物信息领域，涉及HLA基因型别-SNP连锁数据库、其构建方法、以及HLA分型方法。具体地，所述构建HLA基因型别-SNP连锁数据库的方法，包括如下步骤：a）选择一个或多个HLA基因座的序列作为参考序列；b）将现有HLA数据库中已知型别的HLA基因与参考序列比对，找出与参考序列的差异位点即SNP位点，得到每个型别相对于参考序列的SNP连锁关系，构建HLA基因型别-SNP连锁数据库。本发明还涉及确定HLA基因的SNP连锁关系的方法，以及HLA分型装置。本发明的分型方法实现了HLA的低成本，高通量、高准确率、高分辨率的分型。

Description

HLA基因型别- SNP连锁数据库、其构建方法、

以及 HLA分型方法技术领域

本发明属于基因组学和生物信息领域。涉及 HLA基因型别 -SNP连锁数据库、其构建方法，确定 HLA基因的 SNP连锁关系的方法， HLA分型方法，以及 HLA分型装置。技术背景人类白细胞抗原，即 HLA (human leukocyte ant igen, HLA) , 是迄今为止发现的多态性最高的基因系统之一，它是调控人体特异性免疫应答和决定疾病易感性个体差异的主要基因系统，与同种异体器官移植的排斥反应密切相关。研究证明，在器官移植时，供体和受体双方的 HLA匹配程度越高，移植的成功率越高 ( U. Shankarkumar. The Human Leukocyte Ant i gen (HLA) Sys tem. Int J Hum Genet, 4 (2) : 91-103 (2004) ) 。

HLA基因位于 6号染色体短臂上，长约 4000Kb。 HLA有几十个基因座位（基因座），每个基因座位又有几十个等位基因，且呈共显性表达。由于 HLA基因位于同一条染色体上，其多基因座位上的基因型组合相对稳定，很少发生同源染色体间交换，这就构成了以单元型（HAPL0TYPE, 即在同一条染色体上紧密连锁的一系列等位基因的特殊组合）为特征的遗传。

HLA基因有多种型别（即等位基因），多种型别表示 HLA每个基因座有多个等位基因。目前收录在 EBI中的 HLA- A型别有 1381种， HLA- B有 1927 种， HLA- C有 960种， HLA-DRB1有 31种， HLA-DQB1有 127种。不同型别序列间的差异 4艮小，一般为几个 SNP ( S ingle Nuc l eot ide Polymorphi sms , 单核苷酸多态性）的差异。

HLA分型即 r测每个基因座的等位基因。 HLA分型并不只是一种应用性的临床检测指标。 HLA分型方法有多种，最早的 HLA血清学分型、细胞学分型方法，再后来出现基于 DNA 的分型方法，包括单链构象多态性 ( PCR-SSCP) , 限制性片段长度多态性（PCR-RFLP ) 、序列特异性寡核甘酸探针（PCR-SS0 (P) )、基因芯片、序列特异性引物 ( PCR-SSP ) 、以及基于序列分型法（sequence-based typing , SBT) (何丽，魏茂提，王世鑫 . H L A 分型方法的研究进展. 免疫学杂志， 2006， 03 (s) -0090-04; 王振雷，何路军张飒等. 人类白细胞抗原分型技术的进展. 中国组织工程研究与临床复， 2007，11 (37) : 7457- 7460 ) 。

PCR-RFLP操作繁瑣，结果解释复杂。 PCR-SSP对引物的设计和 PCR条件要求很严，且容易造成污染，产生假阳性。基因芯片分型是用多态性的寡核苷酸为探针，在芯片上固定多种分型的探针与目标序列杂交而进行判断，这种分型方法价格比较昂贵且稳定性不高（何丽，魏茂提，王世鑫. H L A 分型方法的研究进展. 免疫学杂志， 2006， 03 (s) -0090-04; 王振雷，何路军 _: 张飒等. 人类白细胞抗原分型技术的进展. 中国组织工程研究与临床复， 2007， 11 (37) : 7457-7460 ) 。

HLA-SBT ( Sequence Based Typing, 基于 DNA序列的分型方法）是当前 HLA高分辨率分型的主要方法。一般是通过基因的几个外显子的序列特征去分型，如 HLA-A/B的 2， 3， 4号外显子， DRB1的 2号外显子。首先用 PCR 扩增获得 DNA片段，根据序列的信息进行 HLA分型，具有直观、高分辨且能检测新的等位基因的特点。 HLA-SBT方法主要基于 Sanger测序分型和 454 测序分型方法。基于 Sanger测序法的优点是准确性比较高，缺点是测序通量小，耗时长，价格比较昂贵，并且软件分型时导入的测序峰图质量的好坏对分型软件的峰图识别能力影响很大，当软件识别错误时，要求分型人员能及时发现并改正错误。软件分型没有达到自动化，降低了分型效率，很难应用于大规模 HLA 高分辨分型项目。 454测序分型主要是将测得的样本序列与已有的 HLA型别序列比对，而通过软件预测的结果有一部分不能确定，需人工去分析才能最后确定，精确度还需提高（G. Bent l ey, R. H iguchi, B. Hog lund. H igh-reso lut ion, high-throughput HLA genotyping by ext-genera t ion sequenc ing. Ti s sue Ant igens, 2009， 3 - 403 ) 。发明内容

本发明通过选择参考序列，将目前已知型别的 HLA基因与参考序列进行比对，构建 HLA基因型别 -SNP连锁（关系）数据库。将实验测得的样本序列与参考序列比对，得到相对于参考序列的 SNP连锁关系，通过这个 SNP 连锁关系确定出型别。具体来说，用比对软件（如 BWA、 SOAP, BLAST, MAQ 等）将样本序列与参考序列进行比对，再用 samtool s软件工具对比对的结果文件格式转换，得到一致性序列文件，然后通过一些判断条件确定两个位点的 SNP连锁关系，之后进一步确定出整体的 SNP连锁关系，最后将整体的 SNP连锁关系与构建好的型别 -SNP连锁关系数据库比较，得到 HLA的型别，有时还需对型别结果过滤。由此提供了下述发明：

本发明的一个方面涉及构建 HLA基因型别 -SNP连锁（关系）数据库的方法，包括如下步骤：

a)选择一个或多个 HLA基因座的序列作为参考序列；

b)将现有 HLA数据库中已知型别的 HLA基因与参考序列比对，找出与参考序列的差异位点即 SNP位点，得到每个型别相对于参考序列的 SNP连锁关系，构建 HLA基因型别 -SNP连锁（关系）数据库。

HLA总共有 200个左右的基因座，关于步骤 a)，所述参考序列优选是已发现的、序列比较准确和完善的、长度较长的。具体地，所述参考序列是常见型别，而非罕见型别，并且整个基因序列都已知（因为有的 HLA型别只在几个外显子区有已知序列，其它外显子部分序列没有）。在本发明的一个实施方案中，具体地，将 SEQ ID NO: 1-5作为参考序列，如下面的表 1所示：

表 1: 选择的参考序列

在本发明的一个实施方案中，关于步骤 b)，所述现有 HLA数据库可以是 EBI ( European Bioinformatics Institute ) 的 HLA 数据库 (http://www.ebi.ac.uk/imgt/hla/) 。

下面的表 2示出了型别- SNP连锁关系的部分数据。

表 2: 部分 HLA- A的型别 - SNP连锁关系

型别名称对应的 SNP连锁关系

508: T-574: A-633: G-670: T-686: G-687: G-700: A-701: G-722:

A*02: 01: 01: 01

C-729: T-731:G-771:C

508: T-574: A-633: G-670: T-686: G-687: G-700: A-701: G-722:

A*02: 01: 01: 02L

C-729: T-731:G-771:C

508: T-574: A-633: G-670: T-686: G-687: G-700: A-701: G-722:

A*02: 01: 01: 03

C-729: T-731: G-771:C

6.8lOO/OTOZN3/X3d Ϊ0.890/ΖΪ0Ζ OAV 3: G - 670: T-686: G - 687: G-700: A - 701: G - 722:

A*02: 01: 24 一 574: A - 63

C-729:T-731:G-771:C

508: T-574: A - 633: G - 670: T-686: G-687: G-700: A-701: G - 722:

A*02: 01: 25

C-729:T-731:G-771:C

508: T-574: A- 633: G-652: A— 670: T-686: G-687: G-700: A-701:

A*02: 01: 26

G-722:C-729:T-731:G-771:C

508: T-574: A-633: G-670: T-686: G-687: G-700: A-701: G-722:

A*02: 01: 27

C-729:T-731:G-771:C

508: T-574: A-633: G-670: T-686: G-687: G-700: A-701: G-722:

A*02: 01: 28

C-729:T-731:G-771:C

508: T-547: T-574: A-633: G-670: T-686: G-687: G-700: A-701:

A*02: 01: 29

G-722: C-729:T-731:G-771:C

508: T-574: A-633: G-670: T-686: G-687: G-700: A-701: G-722:

A*02: 01: 30

C-729:T-731:G-771:C

508: T-574: A-633: G-670: T-686: G-687: G-700: G - 701: G-722:

A*02: 01: 31

C-729:T-731:G-771:C

508: T-574: A-633: G-670: T-686: G-687: G-700: A-701: G-722:

A*02: 01: 32

C-729:T-731:G-771:C

508: T-571: T-574: A-633: G-670: T-686: G-687: G-700: A-701:

A*02: 01: 33

G-722: C-729:T-731:G-771:C

508: T-574: A-633: G-670: T-686: G-687: G-700: A-701: G-722:

A*02: 01: 34

C-729: T-731:G-771:C

508: T-574: A-633: G-670: T-686: G-687: G-700: A-701: G-722:

A*02: 01: 35

C-729: T-731:G-771:C

508: T-574: A-633: G-670: T-686: G-687: G-700: A-701: G-722:

A*02: 01: 36

C-729: T-731:G-771:C

508: T-574: A-633: G-670: T-686: G-687: G-700: A-701: G-722:

A*02: 01: 37

C-729: T-731:G-771:C 本发明的还一方面涉及根据上面本发明的构建 HLA基因型别 -SNP 连锁 (关系）数据库的方法构建的 HLA基因型别 -SNP连锁（关系）数据库。本发明的还一方面涉及确定 HLA基因的 SNP连锁关系的方法，包括如下步骤：

1)找出 SNP位点：将样本序列与上述的参考序列进行比对，统计分析，得到样本序列与参考序列的差异位点，即 SNP位点；

其中，样本序列可以通过多种测序方法得到，例如 S0LEXA、 454、 S0LID、单分子测序技术等，优选地，釆用单分子测序技术。术语 "单分子测序技术" 是基于纳米孔（nanopore )的单分子读取技术，有着更快的数据读取速度，如 He l i cos测序仪。

2 )初步确定 SNP连锁关系：先根据经过 SNP位点的 read数目，确定出两个 SNP位点的连锁关系，根据经过 SNP位点的序列支持数，将两两 SNP连锁关系连接起来，不断延伸，直到确定出整条 SNP连锁关系（如 Fi g. 1所示）；如果相邻两 SNP位点没有连接起来，使这两个 SNP位点前后两部分的 SNP连锁关系在此无法连接，则对这两个 SNP位点前后两部分的 SNP连锁关系自由组合连接。由于人是二倍体生物，最多只存在两种等位基因。最多保留两种连锁关系。

这种确定 SNP连锁关系的方法效果 f艮好，能够非常准确的确定出 SNP连锁关系。

优选地，本发明的确定 HLA基因的 SNP连锁关系的方法，还包括如下步驟：

3 )通过聚类进一步确定 SNP的连锁关系：从步骤 2 )中选择两条 SNP连锁关系，然后对 reads聚类，通过聚类，将 reads分为两类，分别属于两条 SNP连锁。本发明还一方面涉及 HLA分型方法，包括上面本发明的确定 HLA基因的 SNP连锁关系的方法，并且还包括如下步骤：

4 )型别确定：将得到的 SNP连锁关系与本发明的型别 -SNP连锁数据库比较，得到与 SNP连锁关系对应的 HLA基因型别。

优选地，本发明的 HLA分型方法还包括下述步骤：

5 )结果过滤：对每个基因判断出来的型别结果进一步进行过滤，去除假阳性；

过滤的方法可以是对预测的型别结果进行逻辑关系分析，以去掉自相矛盾的结果。

优选地，本发明的 HLA分型方法还包括如下步骤：

6 )结果评价：对得到的结果进行评价，根据一定的条件判断结果是正确的还是错误的。具体地，需要综合考虑多个外显子，只有在多个外显子同时满足要求的条件，才认为是正确的。在本发明的一个实施方案中，关于步骤 1 ) ，首先将样本的所有序列与参考序列进行比对，序列比对软件可以用 BWA、 SOAP, BLAST, MAQ等；接着对序列比对的结果进行统计分析并进行处理，构建出一致性序列，显示与参考序列比对的所有位点信息，每个位点最多只有两个碱基；然后从一致性序列中提取出是 SNP的位点信息，包括每个位点的位置、该位点上的比对序列的碱基、序列支持数等。上述过程可以用 samtoo l s或 soapsnp等软件进行操作。

在本发明的一个实施方案中，关于步骤 2 )， SNP连锁关系的确定需两步才能实现。第一步确定出两两 SNP位点的连锁关系。在两个位点中，如果有杂合 SNP位点，两个 SNP连锁会有多种连接情况，但因为一个 SNP位点有两个碱基，则这两个碱基应该同时存在于最终的 SNP连锁关系中，并且是在不同的 SNP连锁关系中，根据这种逻辑关系分析，将两个位点 SNP连锁关系分成两类。再根据经过每个位点的序列支持数和同时通过这两个位点的序列支持数等信息去分析判断，确定出两两 SNP位点的连锁关系，最多只保留两条连锁关系（因为人为二倍体， SNP 连锁最多只有两种，所以每两个位点的连锁关系最多也只有两种情况）。这里尽量多确定出两 SNP位点的连锁关系，理想的情况下能够确定出任意两位点的连锁关系，但由于测序深度或测序错误等原因，可能部分两位点的 SNP连锁关系无法确定。第二步是整合上一步得到的两 SNP位点连锁关系，将相邻两 SNP位点依次连接起来，不断延伸，确定出整个外显子的 SNP连锁关系（如 Fig. 1所示）。这是本发明非常关键的一步，确定的 SNP连锁关系越多，会带来越多的假阳性，本发明用了一个很好的方法确定 SNP的连锁。

在本发明的一个实施方案中，关于步骤 3 ) ，对 reads聚类是为进一步优化 SNP的连锁关系。因为在前面的步骤中确定 SNP时会出现一定的错误：有的是假 SNP位点，有的把纯合 SNP确定为杂合或把杂合 SNP确定为纯合；再者，在上一步 SNP连锁关系确定时，由于所测的序列比较短等原因，个别的 SNP位点在连锁时无法确定或连锁错误。基于以上原因，聚类这一步显得很重要，它能在很大程度上解决以上问题。从上一步中选择两条最有可能的 SNP连锁关系，根据两条连锁关系上的 SNP对 reads聚类，将 reads分成两类，再分别对这些 reads的比对结果构建两条一致性序列，由一致性序列得到新的 SNP连锁关系。经过这一步后，新 SNP连锁关系的准确度已经非常的高了。在该步骤中，如何选择两条最优的 SNP连锁关系去作聚类是很关键的，可以根据上一步得到的初步 SNP关系和每个 SNP位点序列支持数等信息，综合各种条件进行考虑。对于那种经各条件判断后还无法精确选择两条连锁关系的，可以给出多组连锁关系去聚类。

在本发明的一个实施方案中，关于步骤 5 )，因为只考虑外显子的序列，所以还要提取出基因中多个外显子共有的型别，由于多个外显子的型别可以自由组合导致假阳性，序列或其它方面也可能出现一定的假阳性，所以在最后要对结果进一步过滤。过滤的方法是通过逻辑关系分析滤掉假阳性。逻辑关系分析方法指的是根据型别结果由各外显子对应的 SNP连锁关系去判断，如果在一外显子上存在两条 SNP连锁关系，并且都有对应的型别结果，那么在最终的结果中每条 SNP连锁关系只有一种对应的型别，若有多种对应型别，只有一种型别结果是正确的。每个外显子确定出的 SNP连锁关系都对应型别，最初的型别结果是各外显子共有的型别，分析型别对应的外显子 SNP连锁来源，在逻辑上，有些型别是不应存在的，即该型别为假阳性结果。具体分析方法可见具体实施例中。在具体实施例中可以发现，用本发明的分型方法分型得到的初步结果大部分都只有两种正确型别结果，假阳性很少，只有比较少的一部分需要用逻辑关系去除假阳性，通过这种方法来分析，几乎可以去掉所有的假阳性结果。

在本发明的一个实施方案中，关于步骤 6 ) ，对结果的评价是为了确保给出的结果是正确的。对于给定型别的结果，如果这些型别的 SNP信息和经聚类后得到的 SNP完全一样，则认为给定的型别结果是正确的，否则是错误的。这样的评价需要综合考虑多个外显子，只有在多个外显子同时满足要求的条件下，才认为是正确的。 A，B，C位点需要同时考虑 3个外显子的情况， DQB1需要考虑 2个外显子的情况。这样的评价标准效果很好，准确度非常的高。

关于本发明的 HLA分型的方法，具体流程图如 Fi g. 2所示。

本发明的又一方面涉及 HLA分型装置，可以实现本发明的 HLA分型的方法，其包括如下单元：

1 ) SNP连锁关系确定单元；

2 )型别确定单元。

在本发明的一个实施方案中，所述 SNP连锁关系确定单元包括：找出 SNP 位点的单元、初步确定 SNP连锁关系的卑元；优选地，还包括通过聚类进一步确定 SNP的连锁关系的单元。所述型别确定单元包括型别 -SNP连锁数据库单元。

在本发明的一个实施方案中，所述 HLA分型装置，还包括结果过滤单元；并且优选地，还包括结果评价单元。在本发明中，术语 "SNP 连锁（关系） " 是指这样一种关系，在同一条 DNA链上的，可以将 SNP位点按该关系顺序连接起来。

术语 "一致性序列文件"是指一段 DNA相关序列，序列反应了每个位置最可能出现的一个或几个碱基。

术语 " read" 或 "reads" 是指测序的结果，即测得的序列。例如，通过 solexa测得的一条序列可以称为 read。

术语 "序列支持数" 是指经过某个位点的 read的数目。

术语 "聚类" 是指将物理或抽象对象的集合分成由类似的对象组成的多个类的过程，例如将 reads分为两类，分别属于两条 SNP连锁。对本领域技术人员而言，可以通过简单的程序实现聚类。发明的有益效果

1 )本发明用生物信息的方法，找出样本序列与特定参考序列的 SNP位点，进一步确定出基因的 SNP连锁关系，与先准备好的型别 -SNP连锁关系数据库比较，可以快速、精确地对 HLA分型。

由于 HLA基因序列的一个特点是有高度的同源性，不同型别序列之间的差异度小，有些只有几个碱基差异，通过 SNP连锁关系确定型别准确而且简洁。

2 )相比于传统方法，本发明大大的提高了分型的准确性。本发明方法能够准确的将测序得到的短片段序列信息转变成完整的 HLA基因的完整序列信息，如果此基因是杂合子，则能准确的区分出 HLA基因的两个不同单倍体型别。

3 )本发明能同时处理大量的样本，耗时很短，经实验测序后，用该方法可以直接得到 HLA基因的型别，不需要人工分析判断，减少了人为操作造成的错误，并实现了自动化分型。

总之，本发明的分型方法实现了 HLA的低成本，高通量、高准确率、高分辨率的分型。附图说明

Fig.l: 表示由大量两 SNP位点的连锁关系整合出来的一条完整的 SNP 连锁关系。图中圆点表示 SNP位点，通过首先确定两位点的连锁关系，然后将所有位点连接起来，得到最终的 SNP连锁关系，每个样本最多能确定两条 SNP连锁关系。

Fig.2: 基于 SNP连锁关系的 HLA基因高分辨率分型方法的流程图。

Fig.3: 过滤并去除假阳性的流程示意图。具体实施方式

下面将结合实施例对本发明的实施方案进行详细描述。本领域技术人员将会理解，下面的实施例仅用于说明本发明，而不应视为限定本发明的范围。实施例中未注明具体技术或条件者，按照本领域内的文献所描述的技术或条件（例如参考 J.萨姆布鲁克等著，黄培堂等译的《分子克隆实验指南》，第三版，科学出版社）或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品。实施例 1: 94个样本的 HLA分型

1. 实驗目的：

用 S0LEXA测序技术对获自 94人的 94个样本的 HLA-A/B/C的 2， 3， 4 号外显子、 HLA- DRB1的 2号外显子、 HLA-DQB1的 2, 3号外显子分别进行了测序，通过这些外显子的序列信息，对 HLA-A/B/C/DRB1/DQB1进行 HLA 分型。

2. 实脸方法：

( 1 )构建 HLA基因型别 -SNP连锁数据库构

按照本发明的方法构建 HLA基因型别- SNP连锁（关系）数据库构，其中，所用参考序列为 SEQ ID NO: 1-5, 现有数据库为 EBI 数据库（EBI: http://www.ebi.ac.uk/imgt/hla/) 。

( 2)找出 SNP位点

在这里用 BWA比对软件和 samtools软件为例来说明。通过 BWA比对软件( Heng Li and Richard Durbin. Fast and accurate short read alignment with Burrows-Wheeler transform. Vol. 25 no. 14 2009， pages 1754-1760 ) , 将这些序列与特定的参考序列进行序列比对，经过 aln 和 sampe两步，得到比对结果 *. sampe文件。为了加快后续程序的运行速度，优选地，可以用 samtool s软件工具的 view将文件转化为 *. bam格式，分别经过 sor t、 index, pi l eup步骤后，得到含有每个位点比对信息的一致性序列 *. consence文件，该文件包括位点坐标、参考序列的碱基、样本序列的碱基、碱基质量等信息。

在比对后处理的结果中提取 SNP的位点信息，每个 EX0N可以得到一个 SNP位点的文件，如表 3所示。

( 3 ) SNP初步连锁关系确定

这一步是本发明非常关键的步骤。对于上一步统计出的 SNP位点信息，首先确定两个突变位点的连锁关系，每两个位点的连锁关系最多只有两种情况，然后通过序列支持数等信息将各 SNP位点一一连接起来。在确定两个 SNP位点的连锁时，先通过逻辑关系分组，如两个 SNP位点的碱基分别为 A/C和 G/T, 可以得到 A- G、 A-T、 C-G、 C-T四种关系，但因为在前一个 SNP位点有 A和 C出现，那么一定有两种 SNP连锁关系，在该位点上，一种连锁含 A, 另一种含 C，后一个位点的情况类似，所以可以分成 A-G、 C-T 和 A-T、 C-G两类，这两类是不可能同时出现的，只有其中一种情况存在。然后结合 BWA比对出的 *. sam文件信息，根据两个位点分别拥有的序列支持数和同时通过两个位点的支持数，确定出最多两种连锁关系。如表 4为其中一个示例：

表 4: 确定 SNP连锁关系的示例

(4) 聚类

从上一步中确定两条 SNP连锁关系，根据连锁关系对 reads进行聚类， reads 被分成两大部分，根据各部分 reads 的比对结果用 samtools 的 pileup分别构建新的一致性序列，然后挑出 SNP并构成新的 SNP连锁关系。经过这一步聚类， SNP和 SNP的连锁关系都得到了进一步的校正。如表 5 为其中的一个示例：

表 5: 通过聚类确定 SNP连锁关系的示例

( 5)型别最终确定

将上一步得到的 SNP连锁关系与 HLA基因型别- SNP连锁关系库比较，得到对应的型别，然后提取出基因中多个外显子共有的型别。如表 6-1为某样本 B基因的 2、 3、 4号外显子对应的型别结果，从表中可以得出，该样本 B基因的型别为 B*35:43、 B*35: 67、 B*46: 01: 01、 B*46: 13: 01.

表 6-1: 示例性样本 B基因的 2、 3、 4号外显子对应的型别结果

最后对得到的型别结果还需根据逻辑关系进一步过滤。

首先用图表说明逻辑关系分析去假阳性，如表 6-2 为上例中某样本 HLA- B得到的初步结果，有 B*35: 43、 B*35: 67、 B*46: 01: 01、 B*46: 13: 01 四种结果，表中后三列为型别结果在 2, 3,4号外显子分别对应的 SNP连锁情况，可以看出，每个外显子都有两种 SNP连锁关系， 2号外显子有 2种 SNP连锁关系（e21和 e22) ， 3号外显子为 e31和 e32， 4号外显子为 e41 和 e42， 3个外显子的 SNP连锁关系会发生自由组合情况，得到假阳性的结果，具体如 Fig.3所示。因为人为二倍体，若外显子有两种 SNP连锁关系，那么这两种 SNP连锁都应该是最终 HLA型别对应的 SNP连锁组成部分，都应该包括进去，每条连锁关系只能对应一种型别。基于这个原理，从 Fig.3 看出，针对 2号外显子来说，型别 B*35: 67和 B*35: 43是不能同时存在的， B*46: 13: 01和 B*46: 01: 01 也是不能同时存在， 3号、 4号外显子情况类似。通过这样的逻辑分析，同时符合 2、 3、 4号外显子要求的只有 B*35: 67和 B*46: 13: 01,B*35: 43和 B*46: 01: 01是假阳性型别。若外显子只有一条 SNP 连锁关系，那么情况会更简单些，分析方法和上面的类似。

表 6-2: 示例性样本 HLA-B得到的初步结果

如果通过逻辑关系分析后结果多于 2种型别，可以参考 HLA罕见型列表 ( http: //bioinformatics.nmdp. org/HLA/Biarmual

-Rare-Allele.Li st /Vers ion-2-28-0/ index, htm) ，最终给出两种最有可能的型别。

在具体实施例中发现，有流程判断出的型别多于两种的只是少数，逻辑关系分析方法几乎过滤了所有的假阳性。

(6) 结果评价

对给定的结果作一个评价，根据条件判断，如果符合条件，则认为是给定的结果是正确的，用 TRUE 标记，否则认为给定的结果是错误的，用 FALSE标记。如表 7为其中的一个实例：

表 7: 结果评价示例

3. 结果及分析:

在本发明的具体实施例中，通过分析 HLA-A、 HLA-B, HLA- C的 2、 3、 4号外显子， HLA-DRB1的 2号外显子， HLA-DQB1的 2和 3号外显子，对 94 个人样本 HLA-A/B/C/DRB1/DQB1进行 HLA分型，首先确定出基因中各外显子对应的型别，然后整合多个外显子所属的型别类型，提取出各外显子共有的型别（其中 30个样本的具体结果表 9-1至表 9-5所示）。在 94个样本中，有 90%的分型结果与基于 Sanger法测序分型的结果完全相符。其中 94 个样本的基于 Sanger 法测序分型的具体方法可以参考 Adams SD ， Barracchini KC ， Simoni s TB ， et a l . High throughput HLA sequence-based typing ( SBT) ut i l izing the ABI Pri sm 3700 DNA Analyzer. Tumor i, 2001; 87 : S40 - 43, 其中 30个样本的具体结果表 8-1 和 8-2所示。

表 8-1 : 基于 Sanger法测序分型的 HLA-A/B/C型别（部分）

D120 A*ll: 01 A*30: 04 B*14: 01 B*40: 01 O03: 04 C*08: 02

D123 A*24: 02 A*30: 01 B*13: 02 B*40: 06 O06: 02 C*08: 01

D124 A*03: 01 A*ll: 01 B*40: 01 B*58: 01 C*03: 04 O07: 02

D125 A*03: 01 A*24: 02 B*44: 02 B*51: 01 C*05: 01 C*14: 02

D129 A*02: 03 A*31: 01 B*07: 02 B*55: 02 O01: 02 C*07: 02

D130 A*ll: 01 A*30: 01 B*13: 02 B*35: 03 C*04: 01 C*06: 02 8-2: 基于 Sanger法测序分型的 HLA- DRB1/DQR1型别（部样本编号 DRB1型别 DRB1型别 DQB1型别 DQB1型别

D076 DRB1*04: 06 DRB1*11: 01 DQB1*03: 01 DQB1*03: 02

D083 DRB1*09: 01 DRB1*12: 02 DQB1*03: 01 DQB1*03: 03

D085 DRB1*07: 01 DRB1*13: 02 DQB1*02: 02 DQB1*06: 09

D086 DRB1*12: 01 DRB1*13: 02 DQB1*03: 01 DQB1*06: 09

D087 DRB1*07: 01 DRB1*16: 02 DQB1*05: 02 DQB1*02: 02

D089 DRB1*01: 01 DRB1*11: 01 DQB1*05: 01 DQB1*03: 01

D090 DRB1*07: 01 DRB1*15: 01 DQB1*03: 03 DQB1*06: 02

D091 DRB1*11: 01 DRB1*15: 01 DQB1*03: 01 DQB1*06: 02

D092 DRB1*04: 06 DRB1*09: 01 DQB1*03: 02 DQB1*03: 03

D093 DRB1*03: 01 DRB1*10: 01 DQB1*05: 01 DQB1*02: 01

D095 DRB1*03: 01 DRB1*11: 04 DQB1*02: 01 DQB1*03: 01

D099 DRB1*03: 01 DRB1*15: 01 DQB1*02: 01 DQB1*06: 01

D100 DRB1*09: 01 DRB1*11: 01 DQB1*03: 01 DQB1*03: 03

D101 DRB1*08: 03 DRB1*09: 01 DQB1*03: 03 DQB1*06: 01

D103 DRB1*07: 01 DRB1*11: 01 DQB1*03: 01 DQB1*03: 03

D106 DRB1*03: 01 DRB1*11: 01 DQB1*02: 01 DQB1*03: 01

DUO DRB1*12: 02 DRB1*16: 02 DQB1*05: 02 DQB1*03: 01

Dill DRB1*03: 01 DRB1*15: 01 DQB1*02: 01 DQB1*06: 01

D113 DRB1*04: 04 DRB1*09: 01 DQB1*03: 02 DQB1*03: 03

D115 DRB1*04: 03 DRB1*15: 01 DQB1*03: 02 DQB1*06: 02

D116 DRB1*09: 01 DRB1*15: 01 DQB1*03: 03 DQB1*06: 02

D117 DRB1*07: 01 DRB1*09: 01 DQB1*02: 02 DQB1*03: 03

D118 DRB1*11: 04 DRB1*15: 01 DQB1*03: 01 DQB1*06: 02

D119 DRB1*07: 01 DRB1*09: 01 DQB1*02: 02 DQB1*03: 03

D120 DRB1*11: 01 DRB1*15: 02 DQB1*03: 01 DQB1*06: 01

D123 DRB1*07: 01 DRB1*09: 01 DQB1*02: 02 DQB1*03: 03

D124 DRB1*04: 05 DRB1*13: 02 DQB1*04: 01 DQB1*06: 09

D125 DRB1*13: 01 DRB1*14: 05 DQB1*05: 03 DQB1*06: 03

D129 DRB1*01: 01 DRB1*12: 02 DQB1*05: 01 DQB1*03: 01

D130 DRB1*07: 01 DRBl'll: 01 DQB1*02: 02 DQB1*03: 01 表 9-1: 本发明测得的 HLA-A型别

表 9-2: 本发明测得的 HLA-B型别

样本编号 B基因型别 B基因型别准确度罕见型判断标记

D076 B*13: 01 B*15: 01 TRUE

D083 B*15: 02 B*46: 01 TRUE

D085 B*13: 02 B*15: 32 TRUE

D086 B*46: 01 B*58: 01 TRUE

D087 B*13: 02 B*67: 01 TRUE

D089 B*07: 02/B*07: 61 B*15: 58 TRUE 2: R -

D090 B*40: 01 B*57: 01 TRUE

D091 B*35: 01/B*35: 42 B*52: 01 TRUE 2: R -

D092 B*15: 02 B*40: 01 TRUE

D093 B*08: 01 B*37: 01 TRUE

D095 B*35: 02 B*58: 01 TRUE

D099 B*15: 02 B*58: 01 TRUE

D100

D101 B*39: 01 B*46: 01 TRUE

D103 B*35: 01/B*35: 42 B*40: 06 TRUE 2: R -

D106 B*50: 01 B*50: 01 FALSE

DU O B*15: 02 B*27: 04 TRUE

Dill B*15: 02 B*58: 01 TRUE

D113 B*07: 02/B*07: 61 B*46: 01 TRUE 2: R -

D115 B*40: 01 B*40: 02 TRUE

D116 B*35: 01/B*35: 42 B*51: 01 TRUE 2: R -

D117 B*13: 02 B*15: 11 TRUE

D118 B*07: 02/B*07: 61 B*35: 02 TRUE 2: R -

D119 B*13: 02 B*46: 01 TRUE

D120 B*14: 01 B*40: 01 TRUE

D123 B*13: 02 B*40: 06 TRUE

D124 B*40: 01 B*58: 01 TRUE

D125

D129 B*07: 02/B*07: 61 B*55: 02 TRUE 2: R ―

D130 B*13: 02 B*35: 03 TRUE 表 9-3: 本发明测得的 HLA-C型别

准确型罕见型样本编号 C基因型别 C基因型别

判断标记

D076 O03: 04 O04: 01/004: 30 TRUE -2: R

D083 O01: 02 O01: 02 FALSE

D085 O06: 02 C*12: 03 TRUE

D086 C*01: 02 C*03: 02 TRUE D087 C*06: 02 C*07: 02/007: 50 TRUE -2: R

D089 C*01: 02 C*07: 02/007: 50 TRUE -2: R

D090 C*06: 02 C*07: 02/007: 50 TRUE -2: R

D091

D092 C*08: 01/008: 22 C*15: 02 TRUE 2: r -

D093 C*06: 02 C*07: 02/007: 50 TRUE -2: R

D095 C*03: 02 C*04: 01/C*04: 30 TRUE - 2: R

D099 C*03: 02 C*03: 02 FALSE

D100 C*03: 04 C*14: 02 TRUE

D101 C*01: 02 C*07: 02/007: 50 TRUE -2: R

D103 C*03: 03 C*08: 01/008: 22 TRUE -2: r

D106 C*05: 01 C*06: 02 TRUE

DU O C*08: 01/008: 22 C*12: 02 TRUE 2: r -

Dil l C*03: 02 C*08: 01/008: 22 TRUE -2: r

D113 C*01: 02 C*07: 02/007: 50 TRUE -2: R

D115 C*03: 04 C*15: 02 TRUE

D116 C*03: 03 C*15: 02 TRUE

D117 C*03: 03 C*06: 02 TRUE

2: R

D118 C*04: 01/004: 30 C*07: 02/007: 50 TRUE

-2: R

D119 001: 02 C*06: 02 TRUE

D120 C*03: 04 C*08: 02 TRUE

D123 C*06: 02 C*08: 01/008: 22 TRUE -2: r

D124 C*03: 04 C*07: 02/007: 50 TRUE -2: R

D125 C*05: 01 C*14: 02 TRUE

D129 C*01: 02 C*07: 02/007: 50 TRUE -2: R

D130 C*04: 01/004: 30 C*06: 02 TRUE 2: R - 表 9-4: 本发明测得的 HLA- DRBl型别

罕见准确性样本编号 DRBl型别 DRBl型别型标判断

记

DRB1*04: 06/

D076 DRB1*11: 01 TRUE 2: R - DRBl* 04: 49

D083 DRB1*09: 01 DRB1*12: 02 TRUE

D085 DRB1*07: 01 DRB1*13: 02 TRUE

DRB1*12: 01/ 4: R

D086 DRB1*12: 06/ DRB1*13: 02 TRUE 3: r

DRB1*12: 10/ 2: r - DRB1*12: 17

D087 DRB1*07: 01 DRB1*16: 02 TRUE

D089

D090 DRB1*07: 01 DRB1*15: 01 TRUE

D091 DRB1*11: 01 DRB1*15: 01 TRUE

D092 DRB1*04: 06/DRBl*04: 49 DRB1*09: 01 TRUE 2:R -

D093 DRB1*03: 01/DRB1*03: 50 DRB1*10: 01 TRUE 2:R -

D095 DRB1*03: 01/DRB1*03: 50 DRB1*11: 04 TRUE 2:R -

D099 DRB1*03: 01/DRB1*03: 50 DRB1*15: 01 TRUE 2:R -

D100 DRB1*09: 01 DRB1*11: 01 TRUE

D101 DRB1*08: 03 DRB1*09: 01 TRUE

D103 DRB1*07: 01 DRB1*11: 01 TRUE

D106 DRB1*03: 01/DRB1*03: 50 DRB1*11: 01 TRUE 2:R -

DUO DRB1*12: 02 DRB1*16: 02 TRUE

Dill DRB1*03: 01/DRB1*03: 50 DRB1*15: 01 TRUE 2:R -

D113 DRB1*04: 04 DRB1*09: 01 TRUE

D115 DRB1*04: 03 DRB1*15: 01 TRUE

D116 DRB1*09: 01 DRB1*15: 01 TRUE

D117 DRB1*07: 01 DRB1*09: 01 TRUE

D118 DRB1*11: 04 DRB1*15: 01 TRUE

D119 DRB1*07: 01 DRB1*09: 01 - TRUE

DRB1*15: 02/

D120 DRB1*11: 01 TRUE -2:R

DRB1*15: 19

D123 DRB1*07: 01 DRB1*09: 01 TRUE

D124 DRB1*04: 05 DRB1*13: 02 TRUE

D125 DRB1*13: 01 DRB1*14: 05 TRUE

D129 DRB1*01: 01 DRB1*12: 02 TRUE

D130 DRB1*07: 01 DRB1*11: 01 TRUE 表 9-5: 本发明测得的 HLA- DQBl型别样本编号 DQBl型别 DRB1型别准确性判断

D076 DQB1*03: 01 DQBl » 03: 02 TRUE

D083 DQBl* 03: 01 DQBl* 03: 03 TRUE

D085 DQB1*02: 02 DQB1*06: 09 TRUE

D086 DQB1*03: 01 DQB1*06: 09 TRUE

D087 DQBl* 02: 02 DQB1*05: 02 TRUE

D089 DQB1*03: 01 DQBl* 05: 01 TRUE

D090 DQB1*03: 03 DQB1*06: 02 TRUE

D091 DQB1*03: 01 DQB1*06: 02 TRUE D092 DQB1*03: 02 DQB1*03: 03 TRUE

D093 DQB1*02: 01 DQB1*05: 01 TRUE

D095 DQB1*02: 01 DQB1*03: 01 TRUE

D099 DQB1*02: 01 DQB1*06: 01 TRUE

D100 DQB1*03: 01 DQB1*03: 03 TRUE

D101 DQB1*03: 03 DQB1*06: 01 TRUE

D103 DQB1*03: 01 DQB1*03: 03 TRUE

D106 DQB1*02: 01 DQB1*03: 01 TRUE

DU O DQB1*03: 01 DQB1*05: 02 TRUE

Dill DQB1*02: 01 DQB1*06: 01 TRUE

D113 DQB1*03: 02 DQB1*03: 03 TRUE

D115 DQB1*03: 02 DQB1*06: 02 TRUE

D116 DQB1*03: 03 DQB1*06: 02 TRUE

D117 DQB1*02: 02 DQB1*03: 03 TRUE

D118 DQB1*03: 01 DQB1*06: 02 TRUE

D119 - - -

D120 DQB1*03: 01 DQB1*06: 01 TRUE

D123 DQB1*02: 02 DQB1*03: 03 TRUE

D124 DQB1*04: 01 DQB1*06: 09 TRUE

D125 DQB1*05: 03 DQB1*06: 03 TRUE

D129 DQB1*03: 01 DQB1*05: 01 TRUE

D130 DQB1*02: 02 DQB1*03: 01 TRUE

*注释：在所示的结果列表中， "/" 表示前后的型别序列在我们研究的外显子部分是完全一样，所以根据这些外显子序列信息无法将这些分开，如 C* 08: 01 /C* 08: 22 , 表示 O 08: 01和 O 08: 22在 2、 3和 4号外显子上的序列完全一样，无法区分。 TRUE表示对结果的评价是正确的， FALSE是对结果评价是错误的， R和 r表示罕见型。

从上面随机给出的 30个样本的结果看，没有给出结果和判断为 FALSE 的 HLA-A有 3个， HLA-B有 3个， HLA-C有 3个， HLA-DRB1有 1个， HLA-DQB1 有 1个，判断为 TRUE的都是正确的结果，没有出现假阳性。在正确的结果中还有一小部分的 "/" ，即用本方法是无法区分的。从这个结果看，本发明的分型方法的正确率是非常高的。

采用本发明的分型方法，对 94 份已知分型结果的样本进行了 HLA-A/B/C/DRB1 /DQB1位点的基因分型。如果本发明方法判断为 TRUE , 并且真实结果是正确的，则定义为一次性分型成功；如果本发明方法判断为 TRUE , 并且真实结果是错误的，则定义为假阳性；如果本发明方法判断为 FALSE 或未给出结果的，则定义为假阴性。通过结果发现：在各样本的分型中， HLA-A—次分型成功率达到 93. 6%，假阳性为 0，假阴性为 6. 4%; HLA-B —次分型成功率达到 86. 14%，假阳性为 1. 06% , 假阴性为 12. 8%; HLA-C 一次分型成功率达到 85. 14% ,假阳性为 1. 06% ,假阴性为 13. 8%; HLA-DRB1 一次分型成功率达到 95. 7% , 假阳性为 0，假阴性为 4. 3°/。； HLA-DQB1—次分型成功率达到 98. 9%，假阳性为 0，假阴性为 1. 1%; 但在这些正确的结果中包括了 "/" ，即在研究的外显子区域是无法区分的，总体来说，这样的型别结果占 10%左右。从本实施例的分型结果看，说明本发明的分型方法对 HLA分型准确度非常高。

尽管本发明的具体实施方式已经得到详细的描述，本领域技术人员将会理解。根据已经公开的所有教导，可以对那些细节进行各种修改和替换，这些改变均在本发明的保护范围之内。本发明的全部范围由所附权利要求及其任何等同物给出。

Claims

权利要求

1. 一种构建 HLA基因型别 -SNP连锁数据库的方法，包括如下步骤： a )选择一个或多个 HLA基因座的序列作为参考序列；

b )将现有 HLA数据库中已知型别的 HLA基因与参考序列比对，找出与参考序列的差异位点即 SNP位点，得到每个型别相对于参考序列的 SNP连锁关系，构建 HLA基因型别 -SNP连锁数据库。

2. 根据权利要求 1所述的方法，其中，步骤 a ) 中选取 5种非罕见型 HLA基因座的序列，并且每个序列为已知的完整序列；具体地，选取 SEQ ID NO: 1 - 5作为参考序列.。

3. 根据权利要求 1所述的方法，其中，步骤 b ) 中所述现有 HLA数据库为 EBI的 HLA数据库。

4. 一种 HLA基因型别 -SNP连锁数据库，其根据权利要求 1 - 3中任一项所述的方法构建。

5. 一种确定 HLA基因的 SNP连锁关系的方法，包括如下步驟：

1 )找出 SNP位点：将样本序列与权利要求 1 中所述的参考序列进行比对，统计分析，得到样本序列与参考序列的差异位点，即 SNP位点；

2 )初步确定 SNP连锁关系：先才艮据经过 SNP位点的 read数目，确定出两个 SNP位点的连锁关系，根据经过 SNP位点的序列支持数，将两两 SNP连锁关系连接起来，不断延伸，直到确定出整条 SNP连锁关系；如果相邻两 SNP位点没有连接起来，使这两个 SNP位点前后两部分的 SNP 连锁关系在此无法连接，则对这两个 SNP位点前后两部分的 SNP连锁关系自由组合连接；最多保留两种连锁关系。

6. 根据权利要求 5所述的方法，其中，还包括步骤 3 ) ：通过聚类进一步确定 SNP连锁关系：从步骤 2 ) 中选择两条 SNP连锁关系，然后对 reads聚类，通过聚类将 reads分为两类，分别属于两条 SNP连锁。

7. —种 HLA分型方法，包括权利要求 5或 6所述的确定 SNP连锁关系的方法的步骤，并且还包括如下步骤 4 ) :

4 )型别确定：将得到的 SNP连锁关系与权利要求 4所述的型别 -SNP 连锁数据库比较，得到与 SNP连锁关系对应的 HLA基因型别；

优选地，还包括如下步骤 5 ) ：

5 ) 结果过滤：每个基因判断出来的型别结果进一步进行过滤，去除假阳性；具体地，对预测的型别结果进行逻辑关系分析，以去掉自相矛盾的结果；

优选地，还包括如下的步骤 6 ) ：

6 ) 结果评价：对得到的结果进行评价，根据一定的条件判断结果是正确的还是错误的；具体地，需要综合考虑多个外显子的，只有在多个外显子同时满足要求的条件，才认为是正确的。

8. 一种 HLA分型装置，包括如下单元：

1 ) SNP连锁关系确定单元；

2 )型别确定单元。

9. 根据权利要求 8所述的装置，其中，所述 SNP连锁关系确定单元包括：找出 SNP位点的单元、初步确定 SNP连锁关系的单元；优选地，还包括通过聚类进一步确定 SNP的连锁关系的单元。

10. 根据权利要求 8所述的装置，还包括结果过滤单元；并且优选地，还包括结果评价单元。