CN103221551A - Hla基因型别-snp连锁数据库、其构建方法、以及hla分型方法 - Google Patents

Hla基因型别-snp连锁数据库、其构建方法、以及hla分型方法 Download PDF

Info

Publication number
CN103221551A
CN103221551A CN2010800702697A CN201080070269A CN103221551A CN 103221551 A CN103221551 A CN 103221551A CN 2010800702697 A CN2010800702697 A CN 2010800702697A CN 201080070269 A CN201080070269 A CN 201080070269A CN 103221551 A CN103221551 A CN 103221551A
Authority
CN
China
Prior art keywords
snp
hla
drb1
type
dqb1
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010800702697A
Other languages
English (en)
Other versions
CN103221551B (zh
Inventor
曹红志
张伟
王煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liuhe Beijing Huada Gene Technology Co., Ltd.
Original Assignee
BGI Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Shenzhen Co Ltd filed Critical BGI Shenzhen Co Ltd
Publication of CN103221551A publication Critical patent/CN103221551A/zh
Application granted granted Critical
Publication of CN103221551B publication Critical patent/CN103221551B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6881Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for tissue or cell typing, e.g. human leukocyte antigen [HLA] probes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Analytical Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Cell Biology (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明属于基因组学和生物信息领域,涉及HLA基因型别-SNP连锁数据库、其构建方法、以及HLA分型方法。具体地,所述构建HLA基因型别-SNP连锁数据库的方法,包括如下步骤:a)选择一个或多个HLA基因座的序列作为参考序列;b)将现有HLA数据库中已知型别的HLA基因与参考序列比对,找出与参考序列的差异位点即SNP位点,得到每个型别相对于参考序列的SNP连锁关系,构建HLA基因型别-SNP连锁数据库。本发明还涉及确定HLA基因的SNP连锁关系的方法,以及HLA分型装置。本发明的分型方法实现了HLA的低成本,高通量、高准确率、高分辨率的分型。

Description

HLA基因型别- SNP连锁数据库、 其构建方法、
以及 HLA分型方法 技术领域
本发明属于基因组学和生物信息领域。 涉及 HLA基因型别 -SNP连锁数 据库、 其构建方法, 确定 HLA基因的 SNP连锁关系的方法, HLA分型方法, 以及 HLA分型装置。 技术背景 人类白细胞抗原, 即 HLA (human leukocyte ant igen, HLA) , 是迄今 为止发现的多态性最高的基因系统之一, 它是调控人体特异性免疫应答和 决定疾病易感性个体差异的主要基因系统, 与同种异体器官移植的排斥反 应密切相关。 研究证明, 在器官移植时, 供体和受体双方的 HLA匹配程度 越高,移植的成功率越高 ( U. Shankarkumar. The Human Leukocyte Ant i gen (HLA) Sys tem. Int J Hum Genet, 4 (2) : 91-103 (2004) ) 。
HLA基因位于 6号染色体短臂上, 长约 4000Kb。 HLA有几十个基因座 位(基因座) , 每个基因座位又有几十个等位基因, 且呈共显性表达。 由 于 HLA基因位于同一条染色体上,其多基因座位上的基因型组合相对稳定, 很少发生同源染色体间交换, 这就构成了以单元型(HAPL0TYPE, 即在同一 条染色体上紧密连锁的一系列等位基因的特殊组合) 为特征的遗传。
HLA基因有多种型别 (即等位基因) , 多种型别表示 HLA每个基因座 有多个等位基因。目前收录在 EBI中的 HLA- A型别有 1381种, HLA- B有 1927 种, HLA- C有 960种, HLA-DRB1有 31种, HLA-DQB1有 127种。 不同型别 序列间的差异 4艮小, 一般为几个 SNP ( S ingle Nuc l eot ide Polymorphi sms , 单核苷酸多态性) 的差异。
HLA分型即 r测每个基因座的等位基因。 HLA分型并不只是一种应用性 的临床检测指标。 HLA分型方法有多种, 最早的 HLA血清学分型、 细胞学 分型方法, 再后来出现基于 DNA 的分型方法, 包括单链构象多态性 ( PCR-SSCP) , 限制性片段长度多态性(PCR-RFLP ) 、 序列特异性寡核甘酸 探针(PCR-SS0 (P) )、 基因芯片、 序列特异性引物 ( PCR-SSP ) 、 以及基于序 列分型法(sequence-based typing , SBT) (何丽, 魏茂提, 王世鑫 . H L A 分型方法的研究进展. 免疫学杂志, 2006, 03 (s) -0090-04; 王振雷,何路军 张 飒等. 人类白细胞抗原分型技术的进展. 中国组织工程研究与临床 复, 2007,11 (37) : 7457- 7460 ) 。
PCR-RFLP操作繁瑣, 结果解释复杂。 PCR-SSP对引物的设计和 PCR条 件要求很严,且容易造成污染, 产生假阳性。基因芯片分型是用多态性的寡 核苷酸为探针,在芯片上固定多种分型的探针与目标序列杂交而进行判断, 这种分型方法价格比较昂贵且稳定性不高 (何丽, 魏茂提, 王世鑫. H L A 分型方法的研究进展. 免疫学杂志, 2006, 03 (s) -0090-04; 王振雷,何路军 : 张 飒等. 人类白细胞抗原分型技术的进展. 中国组织工程研究与临床 复, 2007, 11 (37) : 7457-7460 ) 。
HLA-SBT ( Sequence Based Typing, 基于 DNA序列的分型方法)是当 前 HLA高分辨率分型的主要方法。 一般是通过基因的几个外显子的序列特 征去分型,如 HLA-A/B的 2, 3, 4号外显子, DRB1的 2号外显子。首先用 PCR 扩增获得 DNA片段, 根据序列的信息进行 HLA分型, 具有直观、 高分辨且 能检测新的等位基因的特点。 HLA-SBT方法主要基于 Sanger测序分型和 454 测序分型方法。基于 Sanger测序法的优点是准确性比较高,缺点是测序通 量小, 耗时长, 价格比较昂贵, 并且软件分型时导入的测序峰图质量的好 坏对分型软件的峰图识别能力影响很大, 当软件识别错误时, 要求分型人 员能及时发现并改正错误。 软件分型没有达到自动化, 降低了分型效率, 很难应用于大规模 HLA 高分辨分型项目。 454测序分型主要是将测得的样 本序列与已有的 HLA型别序列比对, 而通过软件预测的结果有一部分不能 确定, 需人工去分析才能最后确定, 精确度还需提高 (G. Bent l ey, R. H iguchi, B. Hog lund. H igh-reso lut ion, high-throughput HLA genotyping by ext-genera t ion sequenc ing. Ti s sue Ant igens, 2009, 3 - 403 ) 。 发明内容
本发明通过选择参考序列, 将目前已知型别的 HLA基因与参考序列进 行比对, 构建 HLA基因型别 -SNP连锁(关系)数据库。 将实验测得的样本 序列与参考序列比对,得到相对于参考序列的 SNP连锁关系,通过这个 SNP 连锁关系确定出型别。 具体来说, 用比对软件(如 BWA、 SOAP, BLAST, MAQ 等)将样本序列与参考序列进行比对,再用 samtool s软件工具对比对的结 果文件格式转换, 得到一致性序列文件, 然后通过一些判断条件确定两个 位点的 SNP连锁关系,之后进一步确定出整体的 SNP连锁关系,最后将整体 的 SNP连锁关系与构建好的型别 -SNP连锁关系数据库比较, 得到 HLA的型 别, 有时还需对型别结果过滤。 由此提供了下述发明:
本发明的一个方面涉及构建 HLA基因型别 -SNP连锁(关系)数据库的方 法, 包括如下步骤:
a)选择一个或多个 HLA基因座的序列作为参考序列;
b)将现有 HLA数据库中已知型别的 HLA基因与参考序列比对, 找出与 参考序列的差异位点即 SNP位点, 得到每个型别相对于参考序列的 SNP连 锁关系, 构建 HLA基因型别 -SNP连锁 (关系)数据库。
HLA总共有 200个左右的基因座, 关于步骤 a), 所述参考序列优选是 已发现的、 序列比较准确和完善的、 长度较长的。 具体地, 所述参考序列 是常见型别, 而非罕见型别, 并且整个基因序列都已知 (因为有的 HLA型 别只在几个外显子区有已知序列, 其它外显子部分序列没有) 。 在本发明 的一个实施方案中, 具体地, 将 SEQ ID NO: 1-5作为参考序列, 如下面的 表 1所示:
表 1: 选择的参考序列
在本发明的一个实施方案中, 关于步骤 b), 所述现有 HLA数据库可以 是 EBI ( European Bioinformatics Institute ) 的 HLA 数据库 (http://www.ebi.ac.uk/imgt/hla/) 。
下面的表 2示出了型别- SNP连锁关系的部分数据。
表 2: 部分 HLA- A的型别 - SNP连锁关系
型别名称 对应的 SNP连锁关系
508: T-574: A-633: G-670: T-686: G-687: G-700: A-701: G-722:
A*02: 01: 01: 01
C-729: T-731:G-771:C
508: T-574: A-633: G-670: T-686: G-687: G-700: A-701: G-722:
A*02: 01: 01: 02L
C-729: T-731:G-771:C
508: T-574: A-633: G-670: T-686: G-687: G-700: A-701: G-722:
A*02: 01: 01: 03
C-729: T-731: G-771:C
6.8lOO/OTOZN3/X3d Ϊ0.890/ΖΪ0Ζ OAV 3: G - 670: T-686: G - 687: G-700: A - 701: G - 722:
A*02: 01: 24 一 574: A - 63
C-729:T-731:G-771:C
508: T-574: A - 633: G - 670: T-686: G-687: G-700: A-701: G - 722:
A*02: 01: 25
C-729:T-731:G-771:C
508: T-574: A- 633: G-652: A— 670: T-686: G-687: G-700: A-701:
A*02: 01: 26
G-722:C-729:T-731:G-771:C
508: T-574: A-633: G-670: T-686: G-687: G-700: A-701: G-722:
A*02: 01: 27
C-729:T-731:G-771:C
508: T-574: A-633: G-670: T-686: G-687: G-700: A-701: G-722:
A*02: 01: 28
C-729:T-731:G-771:C
508: T-547: T-574: A-633: G-670: T-686: G-687: G-700: A-701:
A*02: 01: 29
G-722: C-729:T-731:G-771:C
508: T-574: A-633: G-670: T-686: G-687: G-700: A-701: G-722:
A*02: 01: 30
C-729:T-731:G-771:C
508: T-574: A-633: G-670: T-686: G-687: G-700: G - 701: G-722:
A*02: 01: 31
C-729:T-731:G-771:C
508: T-574: A-633: G-670: T-686: G-687: G-700: A-701: G-722:
A*02: 01: 32
C-729:T-731:G-771:C
508: T-571: T-574: A-633: G-670: T-686: G-687: G-700: A-701:
A*02: 01: 33
G-722: C-729:T-731:G-771:C
508: T-574: A-633: G-670: T-686: G-687: G-700: A-701: G-722:
A*02: 01: 34
C-729: T-731:G-771:C
508: T-574: A-633: G-670: T-686: G-687: G-700: A-701: G-722:
A*02: 01: 35
C-729: T-731:G-771:C
508: T-574: A-633: G-670: T-686: G-687: G-700: A-701: G-722:
A*02: 01: 36
C-729: T-731:G-771:C
508: T-574: A-633: G-670: T-686: G-687: G-700: A-701: G-722:
A*02: 01: 37
C-729: T-731:G-771:C 本发明的还一方面涉及根据上面本发明的构建 HLA基因型别 -SNP 连锁 (关系)数据库的方法构建的 HLA基因型别 -SNP连锁 (关系)数据库。 本发明的还一方面涉及确定 HLA基因的 SNP连锁关系的方法, 包括如 下步骤:
1)找出 SNP位点: 将样本序列与上述的参考序列进行比对, 统计分析, 得到样本序列与参考序列的差异位点, 即 SNP位点;
其中,样本序列可以通过多种测序方法得到,例如 S0LEXA、 454、 S0LID、 单分子测序技术等, 优选地, 釆用单分子测序技术。 术语 "单分子测序技术" 是基于纳米孔(nanopore )的单分子读取技术, 有着更快的数据读取速度, 如 He l i cos测序仪。
2 )初步确定 SNP连锁关系: 先根据经过 SNP位点的 read数目, 确定出 两个 SNP位点的连锁关系, 根据经过 SNP位点的序列支持数, 将两两 SNP连 锁关系连接起来,不断延伸,直到确定出整条 SNP连锁关系(如 Fi g. 1所示); 如果相邻两 SNP位点没有连接起来, 使这两个 SNP位点前后两部分的 SNP连 锁关系在此无法连接, 则对这两个 SNP位点前后两部分的 SNP连锁关系自由 组合连接。 由于人是二倍体生物, 最多只存在两种等位基因。 最多保留两种 连锁关系。
这种确定 SNP连锁关系的方法效果 f艮好, 能够非常准确的确定出 SNP连 锁关系。
优选地, 本发明的确定 HLA基因的 SNP连锁关系的方法, 还包括如下 步驟:
3 )通过聚类进一步确定 SNP的连锁关系: 从步骤 2 )中选择两条 SNP连 锁关系, 然后对 reads聚类, 通过聚类, 将 reads分为两类, 分别属于两条 SNP连锁。 本发明还一方面涉及 HLA分型方法, 包括上面本发明的确定 HLA基因的 SNP连锁关系的方法, 并且还包括如下步骤:
4 )型别确定: 将得到的 SNP连锁关系与本发明的型别 -SNP连锁数据库 比较, 得到与 SNP连锁关系对应的 HLA基因型别。
优选地, 本发明的 HLA分型方法还包括下述步骤:
5 )结果过滤: 对每个基因判断出来的型别结果进一步进行过滤, 去除假 阳性;
过滤的方法可以是对预测的型别结果进行逻辑关系分析, 以去掉自相矛 盾的结果。
优选地, 本发明的 HLA分型方法还包括如下步骤:
6 )结果评价: 对得到的结果进行评价,根据一定的条件判断结果是正确 的还是错误的。 具体地, 需要综合考虑多个外显子, 只有在多个外显子同时 满足要求的条件, 才认为是正确的。 在本发明的一个实施方案中, 关于步骤 1 ) , 首先将样本的所有序列与 参考序列进行比对, 序列比对软件可以用 BWA、 SOAP, BLAST, MAQ等; 接着 对序列比对的结果进行统计分析并进行处理, 构建出一致性序列, 显示与参 考序列比对的所有位点信息, 每个位点最多只有两个碱基; 然后从一致性序 列中提取出是 SNP的位点信息, 包括每个位点的位置、 该位点上的比对序列 的碱基、 序列支持数等。 上述过程可以用 samtoo l s或 soapsnp等软件进行 操作。
在本发明的一个实施方案中, 关于步骤 2 ), SNP连锁关系的确定需两步 才能实现。 第一步确定出两两 SNP位点的连锁关系。 在两个位点中, 如果有 杂合 SNP位点, 两个 SNP连锁会有多种连接情况, 但因为一个 SNP位点有两 个碱基, 则这两个碱基应该同时存在于最终的 SNP连锁关系中, 并且是在不 同的 SNP连锁关系中, 根据这种逻辑关系分析, 将两个位点 SNP连锁关系分 成两类。 再根据经过每个位点的序列支持数和同时通过这两个位点的序列支 持数等信息去分析判断, 确定出两两 SNP位点的连锁关系, 最多只保留两条 连锁关系 (因为人为二倍体, SNP 连锁最多只有两种, 所以每两个位点的连 锁关系最多也只有两种情况) 。 这里尽量多确定出两 SNP位点的连锁关系, 理想的情况下能够确定出任意两位点的连锁关系, 但由于测序深度或测序错 误等原因, 可能部分两位点的 SNP连锁关系无法确定。 第二步是整合上一步 得到的两 SNP位点连锁关系, 将相邻两 SNP位点依次连接起来, 不断延伸, 确定出整个外显子的 SNP连锁关系 (如 Fig. 1所示) 。 这是本发明非常关键 的一步, 确定的 SNP连锁关系越多, 会带来越多的假阳性, 本发明用了一个 很好的方法确定 SNP的连锁。
在本发明的一个实施方案中, 关于步骤 3 ) , 对 reads聚类是为进一步 优化 SNP的连锁关系。 因为在前面的步骤中确定 SNP时会出现一定的错误: 有的是假 SNP位点, 有的把纯合 SNP确定为杂合或把杂合 SNP确定为纯合; 再者, 在上一步 SNP连锁关系确定时, 由于所测的序列比较短等原因, 个别 的 SNP位点在连锁时无法确定或连锁错误。 基于以上原因, 聚类这一步显得 很重要, 它能在很大程度上解决以上问题。 从上一步中选择两条最有可能的 SNP连锁关系, 根据两条连锁关系上的 SNP对 reads聚类, 将 reads分成两 类, 再分别对这些 reads的比对结果构建两条一致性序列, 由一致性序列得 到新的 SNP连锁关系。 经过这一步后, 新 SNP连锁关系的准确度已经非常的 高了。在该步骤中,如何选择两条最优的 SNP连锁关系去作聚类是很关键的, 可以根据上一步得到的初步 SNP关系和每个 SNP位点序列支持数等信息, 综 合各种条件进行考虑。 对于那种经各条件判断后还无法精确选择两条连锁关 系的, 可以给出多组连锁关系去聚类。
在本发明的一个实施方案中, 关于步骤 5 ), 因为只考虑外显子的序列, 所以还要提取出基因中多个外显子共有的型别, 由于多个外显子的型别可以 自由组合导致假阳性, 序列或其它方面也可能出现一定的假阳性, 所以在最 后要对结果进一步过滤。 过滤的方法是通过逻辑关系分析滤掉假阳性。 逻辑 关系分析方法指的是根据型别结果由各外显子对应的 SNP连锁关系去判断, 如果在一外显子上存在两条 SNP连锁关系, 并且都有对应的型别结果, 那么 在最终的结果中每条 SNP连锁关系只有一种对应的型别,若有多种对应型别, 只有一种型别结果是正确的。每个外显子确定出的 SNP连锁关系都对应型别, 最初的型别结果是各外显子共有的型别, 分析型别对应的外显子 SNP连锁来 源, 在逻辑上, 有些型别是不应存在的, 即该型别为假阳性结果。 具体分析 方法可见具体实施例中。 在具体实施例中可以发现, 用本发明的分型方法分 型得到的初步结果大部分都只有两种正确型别结果, 假阳性很少, 只有比较 少的一部分需要用逻辑关系去除假阳性, 通过这种方法来分析, 几乎可以去 掉所有的假阳性结果。
在本发明的一个实施方案中, 关于步骤 6 ) , 对结果的评价是为了确保 给出的结果是正确的。 对于给定型别的结果, 如果这些型别的 SNP信息和经 聚类后得到的 SNP完全一样, 则认为给定的型别结果是正确的, 否则是错误 的。 这样的评价需要综合考虑多个外显子, 只有在多个外显子同时满足要求 的条件下, 才认为是正确的。 A,B,C位点需要同时考虑 3个外显子的情况, DQB1需要考虑 2个外显子的情况。 这样的评价标准效果很好, 准确度非常的 高。
关于本发明的 HLA分型的方法, 具体流程图如 Fi g. 2所示。
本发明的又一方面涉及 HLA分型装置, 可以实现本发明的 HLA分型的方 法, 其包括如下单元:
1 ) SNP连锁关系确定单元;
2 )型别确定单元。
在本发明的一个实施方案中,所述 SNP连锁关系确定单元包括:找出 SNP 位点的单元、 初步确定 SNP连锁关系的卑元; 优选地, 还包括通过聚类进一 步确定 SNP的连锁关系的单元。所述型别确定单元包括型别 -SNP连锁数据库 单元。
在本发明的一个实施方案中,所述 HLA分型装置,还包括结果过滤单元; 并且优选地, 还包括结果评价单元。 在本发明中, 术语 "SNP 连锁 (关系) " 是指这样一种关系, 在同一条 DNA链上的, 可以将 SNP位点按该关系顺序连接起来。
术语 "一致性序列文件"是指一段 DNA相关序列, 序列反应了每个位置 最可能出现的一个或几个碱基。
术语 " read" 或 "reads" 是指测序的结果, 即测得的序列。 例如, 通 过 solexa测得的一条序列可以称为 read。
术语 "序列支持数" 是指经过某个位点的 read的数目。
术语 "聚类" 是指将物理或抽象对象的集合分成由类似的对象组成的多 个类的过程, 例如将 reads分为两类, 分别属于两条 SNP连锁。 对本领域技 术人员而言, 可以通过简单的程序实现聚类。 发明的有益效果
1 )本发明用生物信息的方法,找出样本序列与特定参考序列的 SNP位点, 进一步确定出基因的 SNP连锁关系,与先准备好的型别 -SNP连锁关系数据库 比较, 可以快速、 精确地对 HLA分型。
由于 HLA基因序列的一个特点是有高度的同源性, 不同型别序列之间的 差异度 小, 有些只有几个碱基差异, 通过 SNP连锁关系确定型别准确而且 简洁。
2 )相比于传统方法, 本发明大大的提高了分型的准确性。本发明方法能 够准确的将测序得到的短片段序列信息转变成完整的 HLA基因的完整序列信 息, 如果此基因是杂合子, 则能准确的区分出 HLA基因的两个不同单倍体型 别。
3 )本发明能同时处理大量的样本, 耗时很短, 经实验测序后, 用该方法 可以直接得到 HLA基因的型别, 不需要人工分析判断, 减少了人为操作造成 的错误, 并实现了自动化分型。
总之, 本发明的分型方法实现了 HLA的低成本, 高通量、 高准确率、 高 分辨率的分型。 附图说明
Fig.l: 表示由大量两 SNP位点的连锁关系整合出来的一条完整的 SNP 连锁关系。 图中圆点表示 SNP位点, 通过首先确定两位点的连锁关系, 然后 将所有位点连接起来, 得到最终的 SNP连锁关系, 每个样本最多能确定两条 SNP连锁关系。
Fig.2: 基于 SNP连锁关系的 HLA基因高分辨率分型方法的流程图。
Fig.3: 过滤并去除假阳性的流程示意图。 具体实施方式
下面将结合实施例对本发明的实施方案进行详细描述。 本领域技术人 员将会理解, 下面的实施例仅用于说明本发明, 而不应视为限定本发明的 范围。 实施例中未注明具体技术或条件者, 按照本领域内的文献所描述的 技术或条件(例如参考 J.萨姆布鲁克等著, 黄培堂等译的 《分子克隆实验 指南》 , 第三版, 科学出版社)或者按照产品说明书进行。 所用试剂或仪 器未注明生产厂商者, 均为可以通过市购获得的常规产品。 实施例 1: 94个样本的 HLA分型
1. 实驗目的:
用 S0LEXA测序技术对获自 94人的 94个样本的 HLA-A/B/C的 2, 3, 4 号外显子、 HLA- DRB1的 2号外显子、 HLA-DQB1的 2, 3号外显子分别进行 了测序, 通过这些外显子的序列信息, 对 HLA-A/B/C/DRB1/DQB1进行 HLA 分型。
2. 实脸方法:
( 1 )构建 HLA基因型别 -SNP连锁数据库构
按照本发明的方法构建 HLA基因型别- SNP连锁(关系)数据库构, 其 中, 所用参考序列为 SEQ ID NO: 1-5, 现有数据库为 EBI 数据库 (EBI: http://www.ebi.ac.uk/imgt/hla/) 。
( 2)找出 SNP位点
在这里用 BWA比对软件和 samtools软件为例来说明。通过 BWA比对软 件( Heng Li and Richard Durbin. Fast and accurate short read alignment with Burrows-Wheeler transform. Vol. 25 no. 14 2009, pages 1754-1760 ) , 将这些序列与特定的参考序列进行序列比对, 经过 aln 和 sampe两步, 得到比对结果 *. sampe文件。 为了加快后续程序的运行速度, 优选地, 可以用 samtool s软件工具的 view将文件转化为 *. bam格式, 分 别经过 sor t、 index, pi l eup步骤后, 得到含有每个位点比对信息的一致 性序列 *. consence文件, 该文件包括位点坐标、 参考序列的碱基、 样本序 列的碱基、 碱基质量等信息。
在比对后处理的结果中提取 SNP的位点信息,每个 EX0N可以得到一个 SNP位点的文件, 如表 3所示。
( 3 ) SNP初步连锁关系确定
这一步是本发明非常关键的步骤。对于上一步统计出的 SNP位点信息, 首先确定两个突变位点的连锁关系, 每两个位点的连锁关系最多只有两种 情况, 然后通过序列支持数等信息将各 SNP位点一一连接起来。 在确定两 个 SNP位点的连锁时, 先通过逻辑关系分组, 如两个 SNP位点的碱基分别 为 A/C和 G/T, 可以得到 A- G、 A-T、 C-G、 C-T四种关系, 但因为在前一个 SNP位点有 A和 C出现, 那么一定有两种 SNP连锁关系, 在该位点上, 一 种连锁含 A, 另一种含 C, 后一个位点的情况类似, 所以可以分成 A-G、 C-T 和 A-T、 C-G两类, 这两类是不可能同时出现的, 只有其中一种情况存在。 然后结合 BWA比对出的 *. sam文件信息, 根据两个位点分别拥有的序列支 持数和同时通过两个位点的支持数, 确定出最多两种连锁关系。 如表 4为 其中一个示例:
表 4: 确定 SNP连锁关系的示例
(4) 聚类
从上一步中确定两条 SNP连锁关系,根据连锁关系对 reads进行聚类, reads 被分成两大部分, 根据各部分 reads 的比对结果用 samtools 的 pileup分别构建新的一致性序列,然后挑出 SNP并构成新的 SNP连锁关系。 经过这一步聚类, SNP和 SNP的连锁关系都得到了进一步的校正。 如表 5 为其中的一个示例:
表 5: 通过聚类确定 SNP连锁关系的示例
( 5)型别最终确定
将上一步得到的 SNP连锁关系与 HLA基因型别- SNP连锁关系库比较, 得到对应的型别, 然后提取出基因中多个外显子共有的型别。 如表 6-1为 某样本 B基因的 2、 3、 4号外显子对应的型别结果, 从表中可以得出, 该 样本 B基因的型别为 B*35:43、 B*35: 67、 B*46: 01: 01、 B*46: 13: 01.
表 6-1: 示例性样本 B基因的 2、 3、 4号外显子对应的型别结果
最后对得到的型别结果还需根据逻辑关系进一步过滤。
首先用图表说明逻辑关系分析去假阳性, 如表 6-2 为上例中某样本 HLA- B得到的初步结果, 有 B*35: 43、 B*35: 67、 B*46: 01: 01、 B*46: 13: 01 四种结果, 表中后三列为型别结果在 2, 3,4号外显子分别对应的 SNP连锁 情况, 可以看出, 每个外显子都有两种 SNP连锁关系, 2号外显子有 2种 SNP连锁关系 (e21和 e22) , 3号外显子为 e31和 e32, 4号外显子为 e41 和 e42, 3个外显子的 SNP连锁关系会发生自由组合情况,得到假阳性的结 果, 具体如 Fig.3所示。 因为人为二倍体, 若外显子有两种 SNP连锁关系, 那么这两种 SNP连锁都应该是最终 HLA型别对应的 SNP连锁组成部分, 都 应该包括进去,每条连锁关系只能对应一种型别。基于这个原理,从 Fig.3 看出,针对 2号外显子来说,型别 B*35: 67和 B*35: 43是不能同时存在的, B*46: 13: 01和 B*46: 01: 01 也是不能同时存在, 3号、 4号外显子情况类似。 通过这样的逻辑分析, 同时符合 2、 3、 4号外显子要求的只有 B*35: 67和 B*46: 13: 01,B*35: 43和 B*46: 01: 01是假阳性型别。若外显子只有一条 SNP 连锁关系, 那么情况会更简单些, 分析方法和上面的类似。
表 6-2: 示例性样本 HLA-B得到的初步结果
如果通过逻辑关系分析后结果多于 2种型别, 可以参考 HLA罕见型列 表 ( http: //bioinformatics.nmdp. org/HLA/Biarmual
-Rare-Allele.Li st /Vers ion-2-28-0/ index, htm) , 最终给出两种最有可 能的型别。
在具体实施例中发现, 有流程判断出的型别多于两种的只是少数, 逻 辑关系分析方法几乎过滤了所有的假阳性。
(6) 结果评价
对给定的结果作一个评价, 根据条件判断, 如果符合条件, 则认为是 给定的结果是正确的, 用 TRUE 标记, 否则认为给定的结果是错误的, 用 FALSE标记。 如表 7为其中的一个实例:
表 7: 结果评价示例
3. 结果及分析:
在本发明的具体实施例中, 通过分析 HLA-A、 HLA-B, HLA- C的 2、 3、 4号外显子, HLA-DRB1的 2号外显子, HLA-DQB1的 2和 3号外显子, 对 94 个人样本 HLA-A/B/C/DRB1/DQB1进行 HLA分型, 首先确定出基因中各外显 子对应的型别, 然后整合多个外显子所属的型别类型, 提取出各外显子共 有的型别 (其中 30个样本的具体结果表 9-1至表 9-5所示) 。 在 94个样 本中, 有 90%的分型结果与基于 Sanger法测序分型的结果完全相符。 其中 94 个样本的基于 Sanger 法测序分型的具体方法可以参考 Adams SD , Barracchini KC , Simoni s TB , et a l . High throughput HLA sequence-based typing ( SBT) ut i l izing the ABI Pri sm 3700 DNA Analyzer. Tumor i, 2001; 87 : S40 - 43, 其中 30个样本的具体结果表 8-1 和 8-2所示。
表 8-1 : 基于 Sanger法测序分型的 HLA-A/B/C型别 (部分)
D120 A*ll: 01 A*30: 04 B*14: 01 B*40: 01 O03: 04 C*08: 02
D123 A*24: 02 A*30: 01 B*13: 02 B*40: 06 O06: 02 C*08: 01
D124 A*03: 01 A*ll: 01 B*40: 01 B*58: 01 C*03: 04 O07: 02
D125 A*03: 01 A*24: 02 B*44: 02 B*51: 01 C*05: 01 C*14: 02
D129 A*02: 03 A*31: 01 B*07: 02 B*55: 02 O01: 02 C*07: 02
D130 A*ll: 01 A*30: 01 B*13: 02 B*35: 03 C*04: 01 C*06: 02 8-2: 基于 Sanger法测序分型的 HLA- DRB1/DQR1型别 (部 样本编号 DRB1型别 DRB1型别 DQB1型别 DQB1型别
D076 DRB1*04: 06 DRB1*11: 01 DQB1*03: 01 DQB1*03: 02
D083 DRB1*09: 01 DRB1*12: 02 DQB1*03: 01 DQB1*03: 03
D085 DRB1*07: 01 DRB1*13: 02 DQB1*02: 02 DQB1*06: 09
D086 DRB1*12: 01 DRB1*13: 02 DQB1*03: 01 DQB1*06: 09
D087 DRB1*07: 01 DRB1*16: 02 DQB1*05: 02 DQB1*02: 02
D089 DRB1*01: 01 DRB1*11: 01 DQB1*05: 01 DQB1*03: 01
D090 DRB1*07: 01 DRB1*15: 01 DQB1*03: 03 DQB1*06: 02
D091 DRB1*11: 01 DRB1*15: 01 DQB1*03: 01 DQB1*06: 02
D092 DRB1*04: 06 DRB1*09: 01 DQB1*03: 02 DQB1*03: 03
D093 DRB1*03: 01 DRB1*10: 01 DQB1*05: 01 DQB1*02: 01
D095 DRB1*03: 01 DRB1*11: 04 DQB1*02: 01 DQB1*03: 01
D099 DRB1*03: 01 DRB1*15: 01 DQB1*02: 01 DQB1*06: 01
D100 DRB1*09: 01 DRB1*11: 01 DQB1*03: 01 DQB1*03: 03
D101 DRB1*08: 03 DRB1*09: 01 DQB1*03: 03 DQB1*06: 01
D103 DRB1*07: 01 DRB1*11: 01 DQB1*03: 01 DQB1*03: 03
D106 DRB1*03: 01 DRB1*11: 01 DQB1*02: 01 DQB1*03: 01
DUO DRB1*12: 02 DRB1*16: 02 DQB1*05: 02 DQB1*03: 01
Dill DRB1*03: 01 DRB1*15: 01 DQB1*02: 01 DQB1*06: 01
D113 DRB1*04: 04 DRB1*09: 01 DQB1*03: 02 DQB1*03: 03
D115 DRB1*04: 03 DRB1*15: 01 DQB1*03: 02 DQB1*06: 02
D116 DRB1*09: 01 DRB1*15: 01 DQB1*03: 03 DQB1*06: 02
D117 DRB1*07: 01 DRB1*09: 01 DQB1*02: 02 DQB1*03: 03
D118 DRB1*11: 04 DRB1*15: 01 DQB1*03: 01 DQB1*06: 02
D119 DRB1*07: 01 DRB1*09: 01 DQB1*02: 02 DQB1*03: 03
D120 DRB1*11: 01 DRB1*15: 02 DQB1*03: 01 DQB1*06: 01
D123 DRB1*07: 01 DRB1*09: 01 DQB1*02: 02 DQB1*03: 03
D124 DRB1*04: 05 DRB1*13: 02 DQB1*04: 01 DQB1*06: 09
D125 DRB1*13: 01 DRB1*14: 05 DQB1*05: 03 DQB1*06: 03
D129 DRB1*01: 01 DRB1*12: 02 DQB1*05: 01 DQB1*03: 01
D130 DRB1*07: 01 DRBl'll: 01 DQB1*02: 02 DQB1*03: 01 表 9-1: 本发明测得的 HLA-A型别
表 9-2: 本发明测得的 HLA-B型别
样本编号 B基因型别 B基因型别 准确度 罕见型 判断 标记
D076 B*13: 01 B*15: 01 TRUE
D083 B*15: 02 B*46: 01 TRUE
D085 B*13: 02 B*15: 32 TRUE
D086 B*46: 01 B*58: 01 TRUE
D087 B*13: 02 B*67: 01 TRUE
D089 B*07: 02/B*07: 61 B*15: 58 TRUE 2: R -
D090 B*40: 01 B*57: 01 TRUE
D091 B*35: 01/B*35: 42 B*52: 01 TRUE 2: R -
D092 B*15: 02 B*40: 01 TRUE
D093 B*08: 01 B*37: 01 TRUE
D095 B*35: 02 B*58: 01 TRUE
D099 B*15: 02 B*58: 01 TRUE
D100
D101 B*39: 01 B*46: 01 TRUE
D103 B*35: 01/B*35: 42 B*40: 06 TRUE 2: R -
D106 B*50: 01 B*50: 01 FALSE
DU O B*15: 02 B*27: 04 TRUE
Dill B*15: 02 B*58: 01 TRUE
D113 B*07: 02/B*07: 61 B*46: 01 TRUE 2: R -
D115 B*40: 01 B*40: 02 TRUE
D116 B*35: 01/B*35: 42 B*51: 01 TRUE 2: R -
D117 B*13: 02 B*15: 11 TRUE
D118 B*07: 02/B*07: 61 B*35: 02 TRUE 2: R -
D119 B*13: 02 B*46: 01 TRUE
D120 B*14: 01 B*40: 01 TRUE
D123 B*13: 02 B*40: 06 TRUE
D124 B*40: 01 B*58: 01 TRUE
D125
D129 B*07: 02/B*07: 61 B*55: 02 TRUE 2: R ―
D130 B*13: 02 B*35: 03 TRUE 表 9-3: 本发明测得的 HLA-C型别
准确型 罕见型 样本编号 C基因型别 C基因型别
判断 标记
D076 O03: 04 O04: 01/004: 30 TRUE -2: R
D083 O01: 02 O01: 02 FALSE
D085 O06: 02 C*12: 03 TRUE
D086 C*01: 02 C*03: 02 TRUE D087 C*06: 02 C*07: 02/007: 50 TRUE -2: R
D089 C*01: 02 C*07: 02/007: 50 TRUE -2: R
D090 C*06: 02 C*07: 02/007: 50 TRUE -2: R
D091
D092 C*08: 01/008: 22 C*15: 02 TRUE 2: r -
D093 C*06: 02 C*07: 02/007: 50 TRUE -2: R
D095 C*03: 02 C*04: 01/C*04: 30 TRUE - 2: R
D099 C*03: 02 C*03: 02 FALSE
D100 C*03: 04 C*14: 02 TRUE
D101 C*01: 02 C*07: 02/007: 50 TRUE -2: R
D103 C*03: 03 C*08: 01/008: 22 TRUE -2: r
D106 C*05: 01 C*06: 02 TRUE
DU O C*08: 01/008: 22 C*12: 02 TRUE 2: r -
Dil l C*03: 02 C*08: 01/008: 22 TRUE -2: r
D113 C*01: 02 C*07: 02/007: 50 TRUE -2: R
D115 C*03: 04 C*15: 02 TRUE
D116 C*03: 03 C*15: 02 TRUE
D117 C*03: 03 C*06: 02 TRUE
2: R
D118 C*04: 01/004: 30 C*07: 02/007: 50 TRUE
-2: R
D119 001: 02 C*06: 02 TRUE
D120 C*03: 04 C*08: 02 TRUE
D123 C*06: 02 C*08: 01/008: 22 TRUE -2: r
D124 C*03: 04 C*07: 02/007: 50 TRUE -2: R
D125 C*05: 01 C*14: 02 TRUE
D129 C*01: 02 C*07: 02/007: 50 TRUE -2: R
D130 C*04: 01/004: 30 C*06: 02 TRUE 2: R - 表 9-4: 本发明测得的 HLA- DRBl型别
罕见 准确性 样本编号 DRBl型别 DRBl型别 型标 判断
DRB1*04: 06/
D076 DRB1*11: 01 TRUE 2: R - DRBl* 04: 49
D083 DRB1*09: 01 DRB1*12: 02 TRUE
D085 DRB1*07: 01 DRB1*13: 02 TRUE
DRB1*12: 01/ 4: R
D086 DRB1*12: 06/ DRB1*13: 02 TRUE 3: r
DRB1*12: 10/ 2: r - DRB1*12: 17
D087 DRB1*07: 01 DRB1*16: 02 TRUE
D089
D090 DRB1*07: 01 DRB1*15: 01 TRUE
D091 DRB1*11: 01 DRB1*15: 01 TRUE
D092 DRB1*04: 06/DRBl*04: 49 DRB1*09: 01 TRUE 2:R -
D093 DRB1*03: 01/DRB1*03: 50 DRB1*10: 01 TRUE 2:R -
D095 DRB1*03: 01/DRB1*03: 50 DRB1*11: 04 TRUE 2:R -
D099 DRB1*03: 01/DRB1*03: 50 DRB1*15: 01 TRUE 2:R -
D100 DRB1*09: 01 DRB1*11: 01 TRUE
D101 DRB1*08: 03 DRB1*09: 01 TRUE
D103 DRB1*07: 01 DRB1*11: 01 TRUE
D106 DRB1*03: 01/DRB1*03: 50 DRB1*11: 01 TRUE 2:R -
DUO DRB1*12: 02 DRB1*16: 02 TRUE
Dill DRB1*03: 01/DRB1*03: 50 DRB1*15: 01 TRUE 2:R -
D113 DRB1*04: 04 DRB1*09: 01 TRUE
D115 DRB1*04: 03 DRB1*15: 01 TRUE
D116 DRB1*09: 01 DRB1*15: 01 TRUE
D117 DRB1*07: 01 DRB1*09: 01 TRUE
D118 DRB1*11: 04 DRB1*15: 01 TRUE
D119 DRB1*07: 01 DRB1*09: 01 - TRUE
DRB1*15: 02/
D120 DRB1*11: 01 TRUE -2:R
DRB1*15: 19
D123 DRB1*07: 01 DRB1*09: 01 TRUE
D124 DRB1*04: 05 DRB1*13: 02 TRUE
D125 DRB1*13: 01 DRB1*14: 05 TRUE
D129 DRB1*01: 01 DRB1*12: 02 TRUE
D130 DRB1*07: 01 DRB1*11: 01 TRUE 表 9-5: 本发明测得的 HLA- DQBl型别 样本编号 DQBl型别 DRB1型别 准确性判断
D076 DQB1*03: 01 DQBl » 03: 02 TRUE
D083 DQBl* 03: 01 DQBl* 03: 03 TRUE
D085 DQB1*02: 02 DQB1*06: 09 TRUE
D086 DQB1*03: 01 DQB1*06: 09 TRUE
D087 DQBl* 02: 02 DQB1*05: 02 TRUE
D089 DQB1*03: 01 DQBl* 05: 01 TRUE
D090 DQB1*03: 03 DQB1*06: 02 TRUE
D091 DQB1*03: 01 DQB1*06: 02 TRUE D092 DQB1*03: 02 DQB1*03: 03 TRUE
D093 DQB1*02: 01 DQB1*05: 01 TRUE
D095 DQB1*02: 01 DQB1*03: 01 TRUE
D099 DQB1*02: 01 DQB1*06: 01 TRUE
D100 DQB1*03: 01 DQB1*03: 03 TRUE
D101 DQB1*03: 03 DQB1*06: 01 TRUE
D103 DQB1*03: 01 DQB1*03: 03 TRUE
D106 DQB1*02: 01 DQB1*03: 01 TRUE
DU O DQB1*03: 01 DQB1*05: 02 TRUE
Dill DQB1*02: 01 DQB1*06: 01 TRUE
D113 DQB1*03: 02 DQB1*03: 03 TRUE
D115 DQB1*03: 02 DQB1*06: 02 TRUE
D116 DQB1*03: 03 DQB1*06: 02 TRUE
D117 DQB1*02: 02 DQB1*03: 03 TRUE
D118 DQB1*03: 01 DQB1*06: 02 TRUE
D119 - - -
D120 DQB1*03: 01 DQB1*06: 01 TRUE
D123 DQB1*02: 02 DQB1*03: 03 TRUE
D124 DQB1*04: 01 DQB1*06: 09 TRUE
D125 DQB1*05: 03 DQB1*06: 03 TRUE
D129 DQB1*03: 01 DQB1*05: 01 TRUE
D130 DQB1*02: 02 DQB1*03: 01 TRUE
*注释: 在所示的结果列表中, "/" 表示前后的型别序列在我们研究 的外显子部分是完全一样,所以根据这些外显子序列信息无法将这些分开, 如 C* 08: 01 /C* 08: 22 , 表示 O 08: 01和 O 08: 22在 2、 3和 4号外显子上的 序列完全一样, 无法区分。 TRUE表示对结果的评价是正确的, FALSE是对 结果评价是错误的, R和 r表示罕见型。
从上面随机给出的 30个样本的结果看, 没有给出结果和判断为 FALSE 的 HLA-A有 3个, HLA-B有 3个, HLA-C有 3个, HLA-DRB1有 1个, HLA-DQB1 有 1个, 判断为 TRUE的都是正确的结果, 没有出现假阳性。 在正确的结果 中还有一小部分的 "/" , 即用本方法是无法区分的。 从这个结果看, 本发 明的分型方法的正确率是非常高的。
采用本发明的分型方法, 对 94 份已知分型结果的样本进行了 HLA-A/B/C/DRB1 /DQB1位点的基因分型。 如果本发明方法判断为 TRUE , 并 且真实结果是正确的, 则定义为一次性分型成功; 如果本发明方法判断为 TRUE , 并且真实结果是错误的, 则定义为假阳性; 如果本发明方法判断为 FALSE 或未给出结果的, 则定义为假阴性。 通过结果发现: 在各样本的分 型中, HLA-A—次分型成功率达到 93. 6%,假阳性为 0,假阴性为 6. 4%; HLA-B —次分型成功率达到 86. 14%, 假阳性为 1. 06% , 假阴性为 12. 8%; HLA-C 一次分型成功率达到 85. 14% ,假阳性为 1. 06% ,假阴性为 13. 8%; HLA-DRB1 一次分型成功率达到 95. 7% , 假阳性为 0, 假阴性为 4. 3°/。; HLA-DQB1—次 分型成功率达到 98. 9%, 假阳性为 0, 假阴性为 1. 1%; 但在这些正确的结 果中包括了 "/" , 即在研究的外显子区域是无法区分的, 总体来说, 这样 的型别结果占 10%左右。 从本实施例的分型结果看, 说明本发明的分型方 法对 HLA分型准确度非常高。
尽管本发明的具体实施方式已经得到详细的描述, 本领域技术人员将 会理解。根据已经公开的所有教导, 可以对那些细节进行各种修改和替换, 这些改变均在本发明的保护范围之内。 本发明的全部范围由所附权利要求 及其任何等同物给出。

Claims (1)

  1. 权利要求
    1. 一种构建 HLA基因型别 -SNP连锁数据库的方法, 包括如下步骤: a )选择一个或多个 HLA基因座的序列作为参考序列;
    b )将现有 HLA数据库中已知型别的 HLA基因与参考序列比对, 找 出与参考序列的差异位点即 SNP位点, 得到每个型别相对于参考序列 的 SNP连锁关系, 构建 HLA基因型别 -SNP连锁数据库。
    2. 根据权利要求 1所述的方法, 其中, 步骤 a ) 中选取 5种非罕见 型 HLA基因座的序列, 并且每个序列为已知的完整序列; 具体地, 选取 SEQ ID NO: 1 - 5作为参考序列.。
    3. 根据权利要求 1所述的方法, 其中, 步骤 b ) 中所述现有 HLA数 据库为 EBI的 HLA数据库。
    4. 一种 HLA基因型别 -SNP连锁数据库, 其根据权利要求 1 - 3中任 一项所述的方法构建。
    5. 一种确定 HLA基因的 SNP连锁关系的方法, 包括如下步驟:
    1 )找出 SNP位点: 将样本序列与权利要求 1 中所述的参考序列进 行比对, 统计分析,得到样本序列与参考序列的差异位点, 即 SNP位点;
    2 )初步确定 SNP连锁关系: 先才艮据经过 SNP位点的 read数目, 确 定出两个 SNP位点的连锁关系, 根据经过 SNP位点的序列支持数, 将两 两 SNP连锁关系连接起来, 不断延伸, 直到确定出整条 SNP连锁关系; 如果相邻两 SNP位点没有连接起来,使这两个 SNP位点前后两部分的 SNP 连锁关系在此无法连接, 则对这两个 SNP位点前后两部分的 SNP连锁关 系自由组合连接; 最多保留两种连锁关系。
    6. 根据权利要求 5所述的方法, 其中, 还包括步骤 3 ) : 通过聚类 进一步确定 SNP连锁关系: 从步骤 2 ) 中选择两条 SNP连锁关系, 然后 对 reads聚类, 通过聚类将 reads分为两类, 分别属于两条 SNP连锁。
    7. —种 HLA分型方法, 包括权利要求 5或 6所述的确定 SNP连锁关 系的方法的步骤, 并且还包括如下步骤 4 ) :
    4 )型别确定:将得到的 SNP连锁关系与权利要求 4所述的型别 -SNP 连锁数据库比较, 得到与 SNP连锁关系对应的 HLA基因型别;
    优选地, 还包括如下步骤 5 ) :
    5 ) 结果过滤: 每个基因判断出来的型别结果进一步进行过滤, 去 除假阳性; 具体地, 对预测的型别结果进行逻辑关系分析, 以去掉自相 矛盾的结果;
    优选地, 还包括如下的步骤 6 ) :
    6 ) 结果评价: 对得到的结果进行评价, 根据一定的条件判断结果 是正确的还是错误的; 具体地, 需要综合考虑多个外显子的, 只有在多 个外显子同时满足要求的条件, 才认为是正确的。
    8. 一种 HLA分型装置, 包括如下单元:
    1 ) SNP连锁关系确定单元;
    2 )型别确定单元。
    9. 根据权利要求 8所述的装置, 其中, 所述 SNP连锁关系确定单元 包括: 找出 SNP位点的单元、 初步确定 SNP连锁关系的单元; 优选地, 还包括通过聚类进一步确定 SNP的连锁关系的单元。
    10. 根据权利要求 8所述的装置, 还包括结果过滤单元; 并且优选 地, 还包括结果评价单元。
CN201080070269.7A 2010-11-23 2010-11-23 Hla基因型别-snp连锁数据库、其构建方法、以及hla分型方法 Active CN103221551B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2010/001879 WO2012068701A2 (zh) 2010-11-23 2010-11-23 Hla基因型别一snp连锁数据库、其构建方法、以及hla分型方法

Publications (2)

Publication Number Publication Date
CN103221551A true CN103221551A (zh) 2013-07-24
CN103221551B CN103221551B (zh) 2015-10-07

Family

ID=46146213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080070269.7A Active CN103221551B (zh) 2010-11-23 2010-11-23 Hla基因型别-snp连锁数据库、其构建方法、以及hla分型方法

Country Status (2)

Country Link
CN (1) CN103221551B (zh)
WO (1) WO2012068701A2 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944224A (zh) * 2017-12-06 2018-04-20 懿奈(上海)生物科技有限公司 构建皮肤相关基因标准型别数据库的方法及应用
CN108350498A (zh) * 2016-02-18 2018-07-31 深圳华大生命科学研究院 分型方法和装置
CN108624671A (zh) * 2017-03-20 2018-10-09 深圳华大基因股份有限公司 用于hla分型的基因型序列
CN110033827A (zh) * 2019-01-18 2019-07-19 臻悦生物科技江苏有限公司 Hla基因分型的方法、装置、存储介质及处理器
CN110853708A (zh) * 2019-11-13 2020-02-28 上海仁东医学检验所有限公司 用于hla分型的核酸捕获探针的设计方法
CN110942806A (zh) * 2018-09-25 2020-03-31 深圳华大法医科技有限公司 一种血型基因分型方法和装置及存储介质
CN111613269A (zh) * 2020-05-19 2020-09-01 苏州大学附属第一医院 一种预测hla相合机率及错配类型的方法
CN111798924A (zh) * 2020-07-07 2020-10-20 博奥生物集团有限公司 一种人类白细胞抗原分型方法及装置
CN112634991A (zh) * 2020-12-18 2021-04-09 长沙都正生物科技股份有限公司 基因分型方法、装置、电子设备及存储介质
CN116064755A (zh) * 2023-01-12 2023-05-05 华中科技大学同济医学院附属同济医院 一种基于连锁基因突变检测mrd标志物的装置

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104769129B (zh) * 2012-11-15 2017-07-07 深圳华大基因科技有限公司 一种主要组织相容性复合体mhc分型方法及其应用
TWI518538B (zh) * 2013-04-17 2016-01-21 中央研究院 使用單核苷酸多型性預測漢人白血球抗原基因型之方法及裝置
CN105512514B (zh) * 2014-09-23 2018-05-01 深圳华大基因股份有限公司 一种mhc补全数据库、其构建方法和应用
CN105420233B (zh) * 2015-12-08 2020-05-15 海南医学院附属医院 Hbb基因突变和hla分型检测试剂盒

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1408882A (zh) * 2001-09-28 2003-04-09 上海雅贝科技有限公司 一种核酸检测微流芯片
CN1840695A (zh) * 2006-02-08 2006-10-04 北京博奥生物芯片有限责任公司 一种序列特异性寡核苷酸探针及其应用
US20060292601A1 (en) * 2001-11-07 2006-12-28 Tam Joseph W O Rapid genotyping analysis and the device thereof
CN101654691A (zh) * 2009-09-23 2010-02-24 深圳华大基因科技有限公司 Hla基因扩增和基因分型方法及其相关引物

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1408882A (zh) * 2001-09-28 2003-04-09 上海雅贝科技有限公司 一种核酸检测微流芯片
US20060292601A1 (en) * 2001-11-07 2006-12-28 Tam Joseph W O Rapid genotyping analysis and the device thereof
CN1840695A (zh) * 2006-02-08 2006-10-04 北京博奥生物芯片有限责任公司 一种序列特异性寡核苷酸探针及其应用
CN101654691A (zh) * 2009-09-23 2010-02-24 深圳华大基因科技有限公司 Hla基因扩增和基因分型方法及其相关引物

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
IRINA EVSEEVA等: "Linkage disequilibrium and age of HLA region SNPs in relation to classic HLA gene alleles within Europe", 《EUROPEAN JOURNAL OF HUMAN GENETICS》 *
KIYOMI IMABAYASHI等: "A New HLA-DRB1 Genotyping Method Using S ingle Nucleotide Polymorphism (SNP) Analysis with Multiplex Primer Extension Reactions and Its Application to Mixed S amples", 《ACTA MED. OKAYAMA》 *
STEPHEN LESLIE等: "A Statistical Method for Predicting Classical HLA Alleles from SNP Data", 《THE AMERICAN JOURNAL OF HUMAN GENETICS》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108350498A (zh) * 2016-02-18 2018-07-31 深圳华大生命科学研究院 分型方法和装置
CN108624671A (zh) * 2017-03-20 2018-10-09 深圳华大基因股份有限公司 用于hla分型的基因型序列
CN108624671B (zh) * 2017-03-20 2022-02-01 深圳华大基因股份有限公司 用于hla分型的基因型序列
CN107944224A (zh) * 2017-12-06 2018-04-20 懿奈(上海)生物科技有限公司 构建皮肤相关基因标准型别数据库的方法及应用
CN107944224B (zh) * 2017-12-06 2021-04-13 懿奈(上海)生物科技有限公司 构建皮肤相关基因标准型别数据库的方法及应用
CN110942806A (zh) * 2018-09-25 2020-03-31 深圳华大法医科技有限公司 一种血型基因分型方法和装置及存储介质
CN110033827A (zh) * 2019-01-18 2019-07-19 臻悦生物科技江苏有限公司 Hla基因分型的方法、装置、存储介质及处理器
CN110853708A (zh) * 2019-11-13 2020-02-28 上海仁东医学检验所有限公司 用于hla分型的核酸捕获探针的设计方法
CN110853708B (zh) * 2019-11-13 2022-03-08 上海仁东医学检验所有限公司 用于hla分型的核酸捕获探针的设计方法
CN111613269A (zh) * 2020-05-19 2020-09-01 苏州大学附属第一医院 一种预测hla相合机率及错配类型的方法
CN111613269B (zh) * 2020-05-19 2024-01-05 苏州大学附属第一医院 一种预测hla相合机率及错配类型的方法
CN111798924A (zh) * 2020-07-07 2020-10-20 博奥生物集团有限公司 一种人类白细胞抗原分型方法及装置
CN111798924B (zh) * 2020-07-07 2024-03-26 博奥生物集团有限公司 一种人类白细胞抗原分型方法及装置
CN112634991A (zh) * 2020-12-18 2021-04-09 长沙都正生物科技股份有限公司 基因分型方法、装置、电子设备及存储介质
CN116064755B (zh) * 2023-01-12 2023-10-20 华中科技大学同济医学院附属同济医院 一种基于连锁基因突变检测mrd标志物的装置
CN116064755A (zh) * 2023-01-12 2023-05-05 华中科技大学同济医学院附属同济医院 一种基于连锁基因突变检测mrd标志物的装置

Also Published As

Publication number Publication date
CN103221551B (zh) 2015-10-07
WO2012068701A2 (zh) 2012-05-31

Similar Documents

Publication Publication Date Title
CN103221551A (zh) Hla基因型别-snp连锁数据库、其构建方法、以及hla分型方法
Corvin et al. Genome-wide association studies: findings at the major histocompatibility complex locus in psychosis
Gragert et al. Six-locus high resolution HLA haplotype frequencies derived from mixed-resolution DNA typing for the entire US donor registry
CN105483123B (zh) 遗传标记组合、个体基因身份证及其用途
Pingel et al. High-resolution HLA haplotype frequencies of stem cell donors in Germany with foreign parentage: how can they be used to improve unrelated donor searches?
KR101542529B1 (ko) 대립유전자의 바이오마커 발굴방법
CN108460246A (zh) 一种基于三代测序平台的hla基因分型方法
CN106480170B (zh) 确定供体和受体差异snp的方法及应用
CN105512514B (zh) 一种mhc补全数据库、其构建方法和应用
Osoegawa et al. HLA alleles and haplotypes observed in 263 US families
KR20140061223A (ko) 차세대 시퀀싱 데이터의 질병변이마커 검출 방법
Hollenbach et al. Analytical methods for disease association studies with immunogenetic data
CN113265476B (zh) 分析绵羊产奶性能的基因芯片、分子探针组合、试剂盒及应用
JP2020512000A (ja) 胎児の染色体異常を検出する方法
KR20150024232A (ko) 질병에 대한 약물 내성 유전체로부터 내성 원인 마커의 발굴 방법
WO2018058114A1 (en) For human leukocyte antigen genotyping method and determining hla haplotype diversity in a sample population
Jung et al. Allele and haplotype frequencies of 11 HLA loci in Koreans by next‐generation sequencing
Lin et al. Further molecular diversity in the HLA‐B15 group
JP2016516449A (ja) Hlaマーカーを使用する母体血液中の胎児dna分率の決定方法
CN113293220B (zh) 分析绵羊耳部大小的基因芯片、分子探针组合、试剂盒及应用
CN114678071A (zh) 一种基于高通量测序数据的hla基因综合分析方法
CN112662754B (zh) 用于预测小耳畸形发生概率的组合物的应用方法
US10540324B2 (en) Human haplotyping system and method
KR20160029948A (ko) 단일 염기 다형성을 이용한 동아시아인의 hla-a, hla-b, hla-c, hla-dpb1 또는 hla-dqb1 유전자형 분석 방법
CN112509638A (zh) 人类hla染色体区域杂合性缺失的分析方法和分析处理装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: SHENZHEN BGI CORPORATION

Free format text: FORMER OWNER: BGI-SHENZHEN CO., LTD.

Effective date: 20150727

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150727

Address after: Yantian District of Shenzhen City, Guangdong province 518083 Hongan street No. 21 China Comprehensive Park 7 Building 7 layer -14 layer

Applicant after: BGI SHENZHEN CO LTD

Address before: North Road No. 146, building 11F-3 Industrial Zone in Yantian District of Shenzhen city of Guangdong Province in 518083

Applicant before: BGI-Shenzhen Co., Ltd.

C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20171211

Address after: 101300 106 room 106, No. 25, Taiping Zhuang Road, north of Beijing City

Patentee after: Liuhe Beijing Huada Gene Technology Co., Ltd.

Address before: Yantian District of Shenzhen City, Guangdong province 518083 Hongan street No. 21 China Comprehensive Park 7 Building 7 layer -14 layer

Patentee before: BGI SHENZHEN CO LTD

TR01 Transfer of patent right