CN111798924B - 一种人类白细胞抗原分型方法及装置 - Google Patents

一种人类白细胞抗原分型方法及装置 Download PDF

Info

Publication number
CN111798924B
CN111798924B CN202010645782.XA CN202010645782A CN111798924B CN 111798924 B CN111798924 B CN 111798924B CN 202010645782 A CN202010645782 A CN 202010645782A CN 111798924 B CN111798924 B CN 111798924B
Authority
CN
China
Prior art keywords
typing
candidate
information
sample
false
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010645782.XA
Other languages
English (en)
Other versions
CN111798924A (zh
Inventor
徐银银
常玉俊
张智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CapitalBio Corp
Original Assignee
CapitalBio Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CapitalBio Corp filed Critical CapitalBio Corp
Priority to CN202010645782.XA priority Critical patent/CN111798924B/zh
Publication of CN111798924A publication Critical patent/CN111798924A/zh
Application granted granted Critical
Publication of CN111798924B publication Critical patent/CN111798924B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/20Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Library & Information Science (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种人类白细胞抗原分型方法及装置,所述方法包括:基于预构建的人类白细胞抗原错误分型数据库,获得候选错误分型样本,所述人类白细胞抗原错误分型数据库包括基因和基因分型结果;对所述候选错误分型样本的比对结果进行覆盖度深度分析,得到候选组合型别列表信息;对所述候选组合型别列表信息进行组合型别分析,得到候选组合型别。本发明通过构建常见错误分型数据库和参考序列外显子特征数据库,针对候选错误分型样本,设计组合型别分析算法,提供候选组合型别,可以大幅提升样本分型准确性,满足实际应用需求。

Description

一种人类白细胞抗原分型方法及装置
技术领域
本发明涉及信息处理技术领域,特别是涉及一种人类白细胞抗原分型方法及装置。
背景技术
人类白细胞抗原,即HLA(human leukocyte antigen),是调控人体特异性免疫应答和决定疾病易感性个体差异的主要基因系统,与同种异体器官移植的排斥反应密切相关。HLA系统在抗原识别、抗原递呈、免疫应答与调控、破坏外来抗原靶细胞等方面发挥重要的作用,是引起免疫排斥反应的主要物质基础。移植物细胞表面I类和II类抗原都是强移植抗原,体液免疫和细胞免疫都参与了对移植物的排斥反应,无论是异基因器官、组织或细胞的移植,供受体间HLA相配是成功的关键。
HLA分型是一个由一系列紧密连锁的基因座位所组成的具有高度多态性的复合体,其表征了人类多态性最丰富的遗传系统。基于NGS测序的HLA分型方法基因分型准确性都很难达到99%。从样本水平来看,由于每个样本包含多个HLA相关基因,只有所有基因分析结果都正确的情况下才能认定该样本分型准确。因此,目前基于NGS的HLA样本分型准确性更低。然而,在实际应用中,临床医生和相关医学检验所更关注样本分型准确性。使得如何提升HLA样本分型准确性成为了目前的研究重点。
发明内容
针对于上述问题,本发明提供一种人类白细胞抗原分型方法及装置,实现了获得候选组合型别,提升样本分型准确性,满足了实际需求的目的。
为了实现上述目的,本发明提供了如下技术方案:
一种人类白细胞抗原分型方法,所述方法包括:
基于预构建的人类白细胞抗原错误分型数据库,获得候选错误分型样本,所述人类白细胞抗原错误分型数据库包括基因和基因分型结果;
对所述候选错误分型样本的比对结果进行覆盖度深度分析,得到候选组合型别列表信息;
对所述候选组合型别列表信息进行组合型别分析,得到候选组合型别。
可选地,所述基于预构建的人类白细胞抗原错误分型数据库,获得候选错误分型样本,包括:
获取样本分型结果;
在所述样本分型结果中筛选出现在所述人类白细胞抗原错误分型数据库的基因分型结果,将筛选结果确定为候选错误分型样本。
可选地,所述对所述候选错误分型样本的比对结果进行覆盖度深度分析,得到候选组合型别列表信息,包括:
对所述候选错误分型样本的比对结果进行覆盖度深度分析,得到初始信息,所述初始信息包括样本在所有可能分型的每个外显子、每个位置上的深度信息、外显子的平均深度信息、外显子的覆盖度信息和位点比例信息;
基于所述初始信息,检测核心外显子的覆盖度和平均深度信息是否达到对应阈值,基于检测结果确定候选分型集;
对所述候选分型集进行过滤,并对过滤后的候选分型集进行组合,得到候选组合型别列表信息。
可选地,所述方法还包括:
对所述候选组合型别进行可信度排序,得到排序结果;
依据所述排序结果,确定目标组合型别。
可选地,所述对所述候选分型集进行过滤,包括:
调用参考序列外显子特征数据库,获得外显子特征;
基于所述外显子特征对所述候选分型集进行过滤,得到过滤后的候选分型集。
一种人类白细胞抗原分型装置,所述装置包括:
获取单元,用于基于预构建的人类白细胞抗原错误分型数据库,获得候选错误分型样本,所述人类白细胞抗原错误分型数据库包括基因和基因分型结果;
第一分析单元,用于对所述候选错误分型样本的比对结果进行覆盖度深度分析,得到候选组合型别列表信息;
第二分析单元,用于对所述候选组合型别列表信息进行组合型别分析,得到候选组合型别。
可选地,所述获取单元包括:
第一获取子单元,用于获取样本分型结果;
第一筛选子单元,用于在所述样本分型结果中筛选出现在所述人类白细胞抗原错误分型数据库的基因分型结果,将筛选结果确定为候选错误分型样本。
可选地,所述第一分析单元包括:
第一分析子单元,用于对所述候选错误分型样本的比对结果进行覆盖度深度分析,得到初始信息,所述初始信息包括样本在所有可能分型的每个外显子、每个位置上的深度信息、外显子的平均深度信息、外显子的覆盖度信息和位点比例信息;
检测子单元,用于基于所述初始信息,检测核心外显子的覆盖度和平均深度信息是否达到对应阈值,基于检测结果确定候选分型集;
过滤子单元,用于对所述候选分型集进行过滤,并对过滤后的候选分型集进行组合,得到候选组合型别列表信息。
可选地,所述装置还包括:
排序单元,用于对所述候选组合型别进行可信度排序,得到排序结果;
确定单元,用于依据所述排序结果,确定目标组合型别。
可选地,所述过滤子单元具体包括:
调用参考序列外显子特征数据库,获得外显子特征;
基于所述外显子特征对所述候选分型集进行过滤,得到过滤后的候选分型集。
相较于现有技术,本发明提供了一种人类白细胞抗原分型方法及装置,所述方法包括:基于预构建的人类白细胞抗原错误分型数据库,获得候选错误分型样本,所述人类白细胞抗原错误分型数据库包括基因和基因分型结果;对所述候选错误分型样本的比对结果进行覆盖度深度分析,得到候选组合型别列表信息;对所述候选组合型别列表信息进行组合型别分析,得到候选组合型别。本发明通过构建常见错误分型数据库和参考序列外显子特征数据库,针对候选错误分型样本,设计组合型别分析算法,提供候选组合型别,可以大幅提升样本分型准确性,满足实际应用需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种人类白细胞抗原分型方法的流程示意图;
图2为本发明实施例提供的一种人类白细胞抗原分型装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
在本发明实施例中提供了一种人类白细胞抗原(HLA)分型方法,其针对基于NGS("Next-generation"sequencing technology,下一代测序技术)测序平台的HLA分型。该方法基于目前分型结果中特有的分型错误,构建常见错误分型数据库和参考序列外显子特征数据库,针对候选错误分型样本,设计组合型别分析算法,提供候选组合型别,可以大幅提升样本分型准确性,满足实际应用需求。参见图1,该方法可以包括以下步骤:
S101、基于预构建的人类白细胞抗原错误分型数据库,获得候选错误分型样本。
所述人类白细胞抗原错误分型数据库包括基因和基因分型结果,具体的基因分型结果由两个分型构成,为对这两个分型做区分,定义为第一个分型和第二个分型。对应的,在本发明实施例中还利用到了参考序列外显子特征数据库,该数据库包括基因、外显子序号、分型、外显子序列、外显子序列长度等信息。HLA基因分型结果通常包含两个等位基因的分型结果,在本发明中利用第一个分型和第二个分型的方法分别代指第一个等位基因的分型结果和第二个等位基因的分型结果。
通过预构建的HLA错误分型数据库,即通过常见错误分型数据库,根据样本分型结果,筛选基因分型结果出现在常见错误分型数据库中的样本,即为候选错误分型样本。
S102、对所述候选错误分型样本的比对结果进行覆盖度深度分析,得到候选组合型别列表信息。
具体的,本发明实施例中的覆盖深度分析包括:
对所述候选错误分型样本的比对结果进行覆盖度深度分析,得到初始信息,所述初始信息包括样本在所有可能分型的每个外显子、每个位置上的深度信息、外显子的平均深度信息、外显子的覆盖度信息和位点比例信息;
基于所述初始信息,检测核心外显子的覆盖度和平均深度信息是否达到对应阈值,基于检测结果确定候选分型集;
对所述候选分型集进行过滤,并对过滤后的候选分型集进行组合,得到候选组合型别列表信息。
即对候选错误分型样本的比对结果进行覆盖深度分析,统计该样本在所有可能分型的每个外显子、每个位置上的深度信息,外显子的平均深度信息,外显子的1X覆盖度、10X覆盖度、100X覆盖度、平均深度10%以上和平均深度20%以上的位点比例,通过检测核心外显子的覆盖度和平均深度信息是否达到阈值,初步确定候选分型集。如果某些候选分型包含的所有外显子是其他分型的子集且外显子序列都一致,则过滤去除这一类候选分型,确定最终候选分型集,并两两组合该集合所有候选分型给出候选组合型别列表信息,该信息包括基因、组合型别和构成该组合的两个分型之间差异的外显子信息,两个分型之间共有的外显子信息和组合分型受其他基因分型结果影响的外显子信息。组合分型受其他基因分型结果影响的外显子,这些外显子提供的信息由于受到其他基因影响并不可信,因此用以过滤差异外显子和共有外显子。
S103、对所述候选组合型别列表信息进行组合型别分析,得到候选组合型别。
对应的,在本发明实施例中还包括:
对所述候选组合型别进行可信度排序,得到排序结果;
依据所述排序结果,确定目标组合型别。
针对当前HLA分型产生的特有分型错误,构建错误分型数据库,结合参考序列外显子特征数据库,对候选错误分型样本进行覆盖度深度分析,得到候选组合型别列表信息。对候选组合型别列表信息进行组合型别分析,综合考虑组合型别之间差异外显子的平衡性和共有外显子的分子数之间的平衡性、组合型别的核心外显子之间的平衡性,组合型别在2、3和4号外显子上的分子数的变异系数以及组合型别在核心外显子上的分子数和组合型别能够解释的测序数据等信息,确定可信的候选组合型别,并对其可信度进行排序。该方法可以大幅提升样本分型准确性。
下面对本发明实施例中各个步骤的可能实现方式进行说明。
本发明的关键是组合型别分析,分为两步:第一是,过滤不可信的组合型别,确定候选组合型别;第二是,对候选组合型别的可信度进行排序。组合型别分析综合考虑组合型别之间差异外显子的平衡性和共有外显子的分子数之间的平衡性、组合型别的核心外显子之间的平衡性,组合型别在2、3和4号外显子上的分子数的变异系数以及组合型别在核心外显子上的分子数和组合型别能够解释的测序数据等信息。在本发明实施例中确定了7个重要参数,包括:Core-mols,Eflag,Erank,cv,Commonratio,Coreratio,total-mols。其中,Eflag,cv,Commonratio和Coreratio是过滤参数;Core-mols,Erank,Commonratio和total-mols是排序参数,即Commonratio既是过滤参数也是排序参数。Core-mols和total-mols主要衡量组合型别的分子数,Core-mols衡量组合型别在核心外显子上的分子数,total-mols衡量组合型别能够解释的分子数。Core-mols计算方法如下:
P=intlog(max(E2total+E3total))-1
Coremol=int(E2total+E3total)/10p
其中,E2total为组合型别在2号外显子上的分子数,E3total为组合型别在3号外显子上的分子数。对于ClassⅡ基因,则只考虑2号外显子。
Eflag和Erank分别表征组合型别之间差异外显子的平衡性与组合型别的可靠性。Eflag是一个定性参数,可以过滤不可信的组合型别。Erank是一个定量参数,它的值越小,组合型别越可信。Eflag和Erank都由Eratio计算而来。Eratio表征组合型别中两个分型在任意差异外显子上分子支持数的比值,计算方法如下:
其中,Etotal指该组合型别在当前这个差异外显子上的分子数,E1-specific指该组合型别中第一个分型在当前这个差异外显子上独特的分子数,E2-specific指该组合型别中第二个分型在当前这个差异外显子上独特的分子数。E1为长度标准化的第一个分型独特的分子数与两个分型之间共有的分子数的一半的和,它表征第一个分型的分子支持数。E2为长度标准化的第二个分型独特的分子数与两个分型之间共有的分子数的一半的和,它表征第二个分型的分子支持数。L1是第一个分型的外显子长度,L2是第二个分型的外显子长度。Eflag计算方法如下:
Eflag的取值是0或1,当取值为0时,该组合型别不可信;Eiratio的阈值可根据实验情况进行调整。Erank由所有差异外显子Eratio的均值uratio得来,uratio计算方法如下:
Erank=int(10*uratio)
cv值表征组合型别在2号外显子、3号外显子和4号外显子上的分子数的变异系数,其计算方法如下:
其中,Eitotal是组合型别在第i号外显子上的分子数,Litotal是两个分型在第i号外显子上的参考序列长度之和。第2、3和4号外显子长度相近,但又有所不同,故需对参考序列长度进行标准化。cv值是一个过滤参数,不同基因可以选取不同阈值以过滤不可信的组合型别。
Commonratio表征构成组合型别的两个分型在共有外显子上分子数的比值,其计算方法如下:
Ei1是第一个分型在第i号外显子上的分子数,Ei2是第二个分型在第i号外显子上的分子数,A1是第一个分型在共有外显子上的分子数,A2是第二个分型在共有外显子上的分子数。Commonratio既是一个过滤参数,也是一个排序参数,根据实际情况,不同基因可选取不同的阈值以过滤不可信的组合型别。
Coreratio表征组合型别中核心外显子之间的平衡性,该参数只针对I类基因,其计算方法如下:
其中,L2total指两个分型的2号外显子的长度之和,L3total指两个分型的3号外显子的长度之和。Coreratio是一个过滤参数,不同基因可以选取不同阈值以过滤不可信的组合型别。
组合型别分析对可信的组合型别,通过依次对Core-mols,Erank,Commonratio和total-mols四个参数进行排序,来确定组合型别的可信度,排名越靠前,可信度越高。
举例说明,应用本发明提供的分型方法测试456个标准样本,标准分型准确性92.98%。通过构建常见错误分型数据库,筛选出32个候选错误分型样本,其中1个样本由于深度太低,无法通过本发明正确分型,其余候选错误分型样本均可通过本发明以组合型别的方式正确分型,提高样本分型准确性到99.34%。正确型别在候选组合型别列表中的排名如表1第二列所示。表1正确组合型别排名
sample rank combined-alleles Core-mols Eflag Erank cv Common-ratio Core-ratio total-mols
Z538 1 A*11:02-A*11:01 21 1 0 0.18 1 0.97 6915
Z626 1 A*24:353-A*24:02 19 1 0 0.2 1 0.92 6319
Z673 1 A*11:02-A*11:01 24 1 0 0.16 0.99 0.99 7471
Z700 1 A*11:01-A*11:02 15 1 0 0.25 1 0.87 5799
Z852 1 A*11:01-A*11:02 22 1 0 0.23 1 0.93 7382
Z868 1 A*11:01-A*11:02 18 1 0 0.15 0.99 0.92 5893
Z882 1 A*11:01-A*11:02 31 1 0 0.16 1 0.87 9917
Z915 1 A*02:06-A*02:07 23 1 0 0.15 1 0.9 7251
Z606 2 A*02:06-A*02:07 17 1 0 0.1 1 0.91 5027
Z614 2 A*31:01-A*33:03 18 1 1 0.11 0.99 0.91 5398
Z827 2 A*02:07-A*02:06 33 1 0 0.16 0.99 0.97 9962
Z650 3 A*02:06-A*02:07 17 1 1 0.22 0.98 1 5639
Z682 3 A*24:02-A*24:353 20 1 0 0.14 1 0.79 5832
Z872 3 A*02:06-A*02:07 36 1 1 0.09 0.98 0.95 9839
Z809 4 A*02:01-A*02:03 30 1 0 0.16 1 0.99 9505
Z720 3 B*46:01-B*15:01 24 1 2 0.17 0.98 0.98 6432
Z779 4 B*51:01-B*58:01 48 1 1 0.15 0.96 0.93 12650
Z493 1 C*02:02-C*03:02 21 1 1 0.2 0.94 0.9 6276
Z686 1 C*14:02-C*03:02 19 1 2 0.31 0.96 0.85 6308
Z698 1 C*01:02-C*03:02 24 1 1 0.31 0.94 0.84 7664
Z614 2 C*01:02-C*03:02 25 1 1 0.19 0.95 0.93 7039
Z891 2 C*01:03-C*03:02 31 1 1 0.25 0.98 0.87 9671
Z692 3 C*08:01-C*03:02 24 1 1 0.33 0.94 0.97 7983
Z775 3 C*01:02-C*03:02 44 1 1 0.22 0.96 0.92 13604
Z806 3 C*03:04-C*03:02 36 1 0 0.26 1 1 11611
Z495 4 C*08:22-C*03:02 17 1 0 0.29 0.96 0.92 6188
Z625 4 C*01:02-C*03:02 32 1 0 0.22 0.98 0.92 9752
Z656 4 C*12:02-C*12:03 37 1 0 0.21 1 0.93 11103
Z699 4 C*08:02-C*12:03 18 1 0 0.37 1 1 6861
Z713 4 C*08:22-C*03:02 16 1 0 0.29 0.99 0.94 5814
Z776 5 C*04:01-C*04:82 32 1 2 0.22 0.99 0.91 10319
Z567 1 DQB1*03:03-DQB1*04:01 14 1 0 0.64 0.99 1 6087
Z743 1 DQB1*05:03-DQB1*05:02 13 1 0 0.56 1 1 3843
Z756 1 DQB1*04:01-DQB1*03:03 12 1 0 0.69 1 1 6215
在一个优选实施例中,所述常见错误分型数据库即预构建的人类白细胞抗原错误分型数据库,首先建立456例样本的标准测试数据集,对这些样本进行HLA分型,通过比较标准分型结果与实际分型结果,确定错误分型样本及型别,并对其进行分类,最终确立常见错误分型数据库。常见错误分型数据库如表2所示。常见错误分型数据库包括基因、第一个分型和第二个分型等信息。
表2常见错误分型数据库
gene allele1 allele2
A A*02:01 A*02:466
A A*02:01 A*02:474
A A*11:01 A*11:110
A A*31:135 A*33:03
B B*15:477 B*46:01
B B*53:01 B*58:08
C C*01:02 C*03:452
C C*01:03 C*03:452
C C*02:02 C*03:452
C C*03:02 C*08:22
C C*03:04 C*03:146
C C*03:452 C*14:02
C C*04:01 C*04:01
C C*08:202 C*12:03
C C*12:03 C*12:304
DQB1 DQB1*03:02 DQB1*03:397
DQB1 DQB1*03:03 DQB1*04:08
DQB1 DQB1*03:03 DQB1*04:17
DQB1 DQB1*05:03 DQB1*05:165
若一个样本的实际分型结果出现在常见错误分型数据库中,那么这个样本就是一个候选错误分型样本,候选错误分型样本如表3所示。
表3候选错误分型样本
sampleID gene goldStandard1 goldStandard1 allele1 allele2
Z538 A A*11:01:01 A*11:02:01 A*11:01 A*11:110
Z606 A A*02:06:01 A*02:07:01 A*02:01 A*02:474
Z614 A A*31:01:02 A*33:03:01 A*31:135 A*33:03
Z650 A A*02:06:01 A*02:07:01 A*02:01 A*02:474
Z673 A A*11:01:01 A*11:02:01 A*11:01 A*11:110
Z700 A A*11:01:01 A*11:02:01 A*11:01 A*11:110
Z809 A A*02:01:01 A*02:03:01 A*02:01 A*02:466
Z827 A A*02:06:01 A*02:07:01 A*02:01 A*02:474
Z852 A A*11:01:01 A*11:02:01 A*11:01 A*11:110
Z868 A A*11:01:01 A*11:02:01 A*11:01 A*11:110
Z872 A A*02:06:01 A*02:07:01 A*02:01 A*02:474
Z882 A A*11:01:01 A*11:02:01 A*11:01 A*11:110
Z915 A A*02:06:01 A*02:07:01 A*02:01 A*02:474
Z720 B B*15:01:01 B*46:01:01 B*15:477 B*46:01
Z779 B B*51:01:01 B*58:01:01 B*53:01 B*58:08
Z493 C C*02:02:02 C*03:02:02 C*02:02 C*03:452
Z495 C C*03:02:02 C*08:22 C*03:02 C*08:22
Z614 C C*01:02:01 C*03:02:02 C*01:02 C*03:452
Z625 C C*01:02:01 C*03:02:02 C*01:02 C*03:452
Z656 C C*12:02:01 C*12:03:01 C*12:03 C*12:304
Z686 C C*03:02:02 C*14:02:01 C*03:452 C*14:02
Z692 C C*03:02:02 C*08:01:01 C*03:02 C*08:22
Z698 C C*01:02:01 C*03:02:02 C*01:02 C*03:452
Z699 C C*08:02:01 C*12:03:01 C*08:202 C*12:03
Z713 C C*03:02:02 C*08:22 C*03:02 C*08:22
Z775 C C*01:02:01 C*03:02:02 C*01:02 C*03:452
Z806 C C*03:02 C*03:04:01 C*03:04 C*03:146
Z891 C C*01:03 C*03:02:02 C*01:03 C*03:452
Z567 DQB1 DQB1*03:03:02 DQB1*04:01:01 DQB1*03:03 DQB1*04:08
Z743 DQB1 DQB1*05:02:01 DQB1*05:03:01 DQB1*05:03 DQB1*05:165
Z748 DQB1 DQB1*03:02:01 DQB1*03:03:02 DQB1*03:02 DQB1*03:397
Z756 DQB1 DQB1*03:03:02 DQB1*04:01:01 DQB1*03:03 DQB1*04:17
在一个优选地实施例中,所述覆盖度深度分析,统计候选错误分型样本在所有可能分型的每个外显子、每个位置上的深度信息,外显子的平均深度信息,外显子的1X覆盖度、10X覆盖度、100X覆盖度、平均深度10%以上和平均深度20%以上的位点的比例,示例如表4所示。通过检测核心外显子的覆盖度和平均深度是否通过阈值,初步确定候选分型。覆盖度和深度的阈值,可根据实际情况进行设定。
表4覆盖度深度统计信息
allele exon length molecules depth cov1 cov10 cov100 cov-p10-depth cov-p20-depth
C*02:02 E1 24 281 385 100 100 100 100 100
C*02:02 E2 89 555 419 100 100 100 100 100
C*02:02 E3 91 671 452 100 100 100 100 100
C*02:02 E4 91 1118 775 100 100 100 100 100
C*02:02 E5 39 1034 1258 100 100 100 100 100
C*02:02 E6 10 767 997 100 100 100 100 100
C*02:02 E7 15 849 1070 100 100 100 100 100
在一个优选地实施例中,所述参考序列外显子特征数据库,即对参考序列中所有分型的外显子序列进行统计分析,得到包括基因-外显子序号、分型(分型太多,以数目替代)、外显子序列、外显子序列长度等统计信息,如表5所示。
表5参考序列外显子特征数据库
gene-exon allele-count sequence length
C-E6,A-E6,B-E6 19,1,1830 GKGGSYSQAA 10
C-E6,B-E6 1744,5 GKGGSCSQAA 10
DRB1-E4,DRB4-E4 1,8 ARSESAQSKMLSGVGGFVLGLLFLGTGLFIYFRNQK 36
DRB1-E4,DRB7-E4 2,1 AWSESAQSKMLSGVGGFVLGLLFLGAGLFIYFRNQK 36
DRB3-E4,DRB1-E4 19,195 ARSESAQSKMLSGVGGFVLGLLFLGAGLFIYFRNQK 36
在一个优选地实施例中,所述覆盖度深度分析调用参考序列外显子特征数据库,过滤外显子是其他分型子集且外显子序列一致的候选分型,最终确定候选分型集,并两两组合所有候选分型给出候选组合型别列表信息,该信息包括基因、组合型别和构成该组合的两个分型之间差异的外显子信息,两个分型之间共有的外显子信息和组合分型受其他基因分型结果影响的外显子信息。组合分型受其他基因分型结果影响的外显子,这些外显子提供的信息由于受到其他基因影响并不可信,因此用以过滤差异外显子和共有外显子。示例如表6所示。
表6组合型别列表信息
gene combined-allele diff-exon common-exon flag
C C*02:178-C*02:26 E2:89/89:0,E6:10/10:1 E1:24/24,E2:89/89,E3:91/91,E4:91/91,E5:39/39,E6:10/10,E7:15/15 E6
C C*02:178-C*02:02 E6:10/10:1 E1:24/24,E2:89/89,E3:91/91,E4:91/91,E5:39/39,E6:10/10,E7:15/15 E6
C C*02:26-C*02:02 E2:89/89:0 E1:24/24,E2:89/89,E3:91/91,E4:91/91,E5:39/39,E6:10/10,E7:15/15 NA
C C*02:178-C*02:27 E2:89/89:0,E6:10/10:1 E1:24/24,E2:89/89,E3:91/91,E4:91/91,E5:39/39,E6:10/10,E7:15/15 E6
C C*02:26-C*02:27 E2:89/89:0 E1:24/24,E2:89/89,E3:91/91,E4:91/91,E5:39/39,E6:10/10,E7:15/15 NA
在一个优选地实施例中,所述组合型别分析是本方法的关键,分为两步:第一,过滤不可信的组合型别,确定候选组合型别;第二,对候选组合型别的可信度进行排序。组合型别分析综合考虑组合型别之间差异外显子的平衡性和共有外显子的分子数之间的平衡性、组合型别的核心外显子之间的平衡性,组合型别在2、3和4号外显子上的分子数的变异系数以及组合型别在核心外显子上的分子数和组合型别能够解释的测序数据等信息,设计7个重要参数:Core-mols,Eflag,Erank,cv,Commonratio,Coreratio,total-mols;其中Eflag,cv,Commonratio和Coreratio是过滤参数;Core-mols,Erank,Commonratio和total-mols是排序参数;Commonratio既是过滤参数也是排序参数。对可信的组合型别,通过依次对Core-mols,Erank,Commonratio和total-mols四个参数进行排序,来确定组合型别的可信度,排名越靠前,可信度越高。以Z538的A基因为例,其候选组合型别见表7,其中正确分型结果排第一位。
表7候选组合型别列表
combined-alleles Core-mols Eflag Erank cv Common-ratio Core-ratio total-mols
A*11:02-A*11:01 21 1 0 0.18 1 0.97 6915
A*11:02-A*11:347N 21 1 0 0.18 1 0.97 6915
A*11:77-A*11:126 21 1 0 0.07 1 0.97 6733
A*11:147-A*11:32 18 1 0 0.14 0.99 0.76 1809
本发明实施例中的组合型别分析既适用于基于氨基酸参考序列的比对,也适用于基于核苷酸参考序列的比对。本发明针对当前HLA分型产生的特有分型错误,构建错误分型数据库,结合参考序列外显子特征数据库,对候选错误分型样本进行覆盖度深度分析,得到候选组合型别列表信息。对候选组合型别列表信息进行组合型别分析,综合考虑组合型别之间差异外显子的平衡性和共有外显子的分子数之间的平衡性、组合型别的核心外显子之间的平衡性,组合型别在2、3和4号外显子上的分子数的变异系数以及组合型别在核心外显子上的分子数和组合型别能够解释的测序数据等信息,确定可信的候选组合型别,并对其可信度进行排序。该方法可以大幅提升样本分型准确性。
参见图2,其示出了本发明实施例提供的一种人类白细胞抗原分型装置,所述装置包括:
获取单元10,用于基于预构建的人类白细胞抗原错误分型数据库,获得候选错误分型样本,所述人类白细胞抗原错误分型数据库包括基因和基因分型结果;
第一分析单元20,用于对所述候选错误分型样本的比对结果进行覆盖度深度分析,得到候选组合型别列表信息;
第二分析单元30,用于对所述候选组合型别列表信息进行组合型别分析,得到候选组合型别。
在上述实施例的基础上,所述获取单元包括:
第一获取子单元,用于获取样本分型结果;
第一筛选子单元,用于在所述样本分型结果中筛选出现在所述人类白细胞抗原错误分型数据库的基因分型结果,将筛选结果确定为候选错误分型样本。
在上述实施例的基础上,所述第一分析单元包括:
第一分析子单元,用于对所述候选错误分型样本的比对结果进行覆盖度深度分析,得到初始信息,所述初始信息包括样本在所有可能分型的每个外显子、每个位置上的深度信息、外显子的平均深度信息、外显子的覆盖度信息和位点比例信息;
检测子单元,用于基于所述初始信息,检测核心外显子的覆盖度和平均深度信息是否达到对应阈值,基于检测结果确定候选分型集;
过滤子单元,用于对所述候选分型集进行过滤,并对过滤后的候选分型集进行组合,得到候选组合型别列表信息。
在上述实施例的基础上,所述装置还包括:
排序单元,用于对所述候选组合型别进行可信度排序,得到排序结果;
确定单元,用于依据所述排序结果,确定目标组合型别。
在上述实施例的基础上,所述过滤子单元具体包括:
调用参考序列外显子特征数据库,获得外显子特征;
基于所述外显子特征对所述候选分型集进行过滤,得到过滤后的候选分型集。
本发明提供了一种人类白细胞抗原分型装置,所述方法包括:基于预构建的人类白细胞抗原错误分型数据库,获得候选错误分型样本,所述人类白细胞抗原错误分型数据库包括基因和基因分型结果;对所述候选错误分型样本的比对结果进行覆盖度深度分析,得到候选组合型别列表信息;对所述候选组合型别列表信息进行组合型别分析,得到候选组合型别。本发明通过构建常见错误分型数据库和参考序列外显子特征数据库,针对候选错误分型样本,设计组合型别分析算法,提供候选组合型别,可以大幅提升样本分型准确性,满足实际应用需求。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种人类白细胞抗原分型方法,其特征在于,所述方法包括:
基于预构建的人类白细胞抗原错误分型数据库,获得候选错误分型样本,所述人类白细胞抗原错误分型数据库包括基因和基因分型结果;
对所述候选错误分型样本的比对结果进行覆盖度深度分析,得到候选组合型别列表信息;其中,所述对所述候选错误分型样本的比对结果进行覆盖度深度分析,得到候选组合型别列表信息,包括:对所述候选错误分型样本的比对结果进行覆盖度深度分析,得到初始信息,所述初始信息包括样本在所有可能分型的每个外显子、每个位置上的深度信息、外显子的平均深度信息、外显子的覆盖度信息和位点比例信息;基于所述初始信息,检测核心外显子的覆盖度和平均深度信息是否达到对应阈值,基于检测结果确定候选分型集;对所述候选分型集进行过滤,并对过滤后的候选分型集进行组合,得到候选组合型别列表信息;
对所述候选组合型别列表信息进行组合型别分析,得到候选组合型别;
对所述候选组合型别进行可信度排序,得到排序结果;
依据所述排序结果,确定目标组合型别。
2.根据权利要求1所述的方法,其特征在于,所述基于预构建的人类白细胞抗原错误分型数据库,获得候选错误分型样本,包括:
获取样本分型结果;
在所述样本分型结果中筛选出现在所述人类白细胞抗原错误分型数据库的基因分型结果,将筛选结果确定为候选错误分型样本。
3.根据权利要求1所述的方法,其特征在于,所述对所述候选分型集进行过滤,包括:
调用参考序列外显子特征数据库,获得外显子特征;
基于所述外显子特征对所述候选分型集进行过滤,得到过滤后的候选分型集。
4.一种人类白细胞抗原分型装置,其特征在于,所述装置包括:
获取单元,用于基于预构建的人类白细胞抗原错误分型数据库,获得候选错误分型样本,所述人类白细胞抗原错误分型数据库包括基因和基因分型结果;
第一分析单元,用于对所述候选错误分型样本的比对结果进行覆盖度深度分析,得到候选组合型别列表信息;其中,所述第一分析单元包括:第一分析子单元,用于对所述候选错误分型样本的比对结果进行覆盖度深度分析,得到初始信息,所述初始信息包括样本在所有可能分型的每个外显子、每个位置上的深度信息、外显子的平均深度信息、外显子的覆盖度信息和位点比例信息;检测子单元,用于基于所述初始信息,检测核心外显子的覆盖度和平均深度信息是否达到对应阈值,基于检测结果确定候选分型集;过滤子单元,用于对所述候选分型集进行过滤,并对过滤后的候选分型集进行组合,得到候选组合型别列表信息;
第二分析单元,用于对所述候选组合型别列表信息进行组合型别分析,得到候选组合型别;
所述装置还包括:
排序单元,用于对所述候选组合型别进行可信度排序,得到排序结果;
确定单元,用于依据所述排序结果,确定目标组合型别。
5.根据权利要求4所述的装置,其特征在于,所述获取单元包括:
第一获取子单元,用于获取样本分型结果;
第一筛选子单元,用于在所述样本分型结果中筛选出现在所述人类白细胞抗原错误分型数据库的基因分型结果,将筛选结果确定为候选错误分型样本。
6.根据权利要求4所述的装置,其特征在于,所述过滤子单元具体包括:
调用参考序列外显子特征数据库,获得外显子特征;
基于所述外显子特征对所述候选分型集进行过滤,得到过滤后的候选分型集。
CN202010645782.XA 2020-07-07 2020-07-07 一种人类白细胞抗原分型方法及装置 Active CN111798924B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010645782.XA CN111798924B (zh) 2020-07-07 2020-07-07 一种人类白细胞抗原分型方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010645782.XA CN111798924B (zh) 2020-07-07 2020-07-07 一种人类白细胞抗原分型方法及装置

Publications (2)

Publication Number Publication Date
CN111798924A CN111798924A (zh) 2020-10-20
CN111798924B true CN111798924B (zh) 2024-03-26

Family

ID=72809602

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010645782.XA Active CN111798924B (zh) 2020-07-07 2020-07-07 一种人类白细胞抗原分型方法及装置

Country Status (1)

Country Link
CN (1) CN111798924B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634991B (zh) * 2020-12-18 2022-07-19 长沙都正生物科技股份有限公司 基因分型方法、装置、电子设备及存储介质
CN113035276B (zh) * 2021-03-11 2021-12-03 深圳荻硕贝肯精准医学有限公司 人类hla染色体区域杂合性缺失的分析方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103221551A (zh) * 2010-11-23 2013-07-24 深圳华大基因科技有限公司 Hla基因型别-snp连锁数据库、其构建方法、以及hla分型方法
CN104102855A (zh) * 2013-04-03 2014-10-15 德必碁生物科技(厦门)有限公司 一种对人类白血球抗原基因位点进行以测序为基础的分型系统及方法
CN105512514A (zh) * 2014-09-23 2016-04-20 深圳华大基因股份有限公司 一种mhc补全数据库、其构建方法和应用
CN108350498A (zh) * 2016-02-18 2018-07-31 深圳华大生命科学研究院 分型方法和装置
CN109913539A (zh) * 2017-12-13 2019-06-21 浙江大学 一种靶向捕获hla基因序列并测序的方法
CN110400602A (zh) * 2018-04-23 2019-11-01 深圳华大生命科学研究院 一种基于测序数据的abo血型系统分型方法及其应用
CN111213210A (zh) * 2017-09-06 2020-05-29 河谷控股Ip有限责任公司 Hla组织匹配及用于其的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014150924A2 (en) * 2013-03-15 2014-09-25 The Broad Institute, Inc. Accurate typing of hla through exome sequencing
US20190233891A1 (en) * 2016-09-26 2019-08-01 Sirona Genomics, Inc. For human leukocyte antigen genotyping method and determining hla haplotype diversity in a sample population

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103221551A (zh) * 2010-11-23 2013-07-24 深圳华大基因科技有限公司 Hla基因型别-snp连锁数据库、其构建方法、以及hla分型方法
CN104102855A (zh) * 2013-04-03 2014-10-15 德必碁生物科技(厦门)有限公司 一种对人类白血球抗原基因位点进行以测序为基础的分型系统及方法
CN105512514A (zh) * 2014-09-23 2016-04-20 深圳华大基因股份有限公司 一种mhc补全数据库、其构建方法和应用
CN108350498A (zh) * 2016-02-18 2018-07-31 深圳华大生命科学研究院 分型方法和装置
CN111213210A (zh) * 2017-09-06 2020-05-29 河谷控股Ip有限责任公司 Hla组织匹配及用于其的方法
CN109913539A (zh) * 2017-12-13 2019-06-21 浙江大学 一种靶向捕获hla基因序列并测序的方法
CN110400602A (zh) * 2018-04-23 2019-11-01 深圳华大生命科学研究院 一种基于测序数据的abo血型系统分型方法及其应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
中华骨髓库HLA分型质控工作中分型结果错误原因的分析及探讨;邹红岩;金士正;周丹;李桢;邓志辉;吴国光;;中华检验医学杂志(第11期);全文 *
人类白细胞抗原分型技术的进展;王振雷;何路军;张飒;刘艳平;乔芳;;中国组织工程研究与临床康复(第37期);全文 *

Also Published As

Publication number Publication date
CN111798924A (zh) 2020-10-20

Similar Documents

Publication Publication Date Title
CN107423578B (zh) 检测体细胞突变的装置
US10496679B2 (en) Computer algorithm for automatic allele determination from fluorometer genotyping device
CN106778073B (zh) 一种评估肿瘤负荷变化的方法和系统
CN111798924B (zh) 一种人类白细胞抗原分型方法及装置
CN111341383B (zh) 一种检测拷贝数变异的方法、装置和存储介质
CN110648721B (zh) 针对外显子捕获技术检测拷贝数变异的方法及装置
CN108647495B (zh) 身份关系鉴定方法、装置、设备及存储介质
CN115083521B (zh) 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及系统
CN116580768B (zh) 一种基于定制化策略的肿瘤微小残留病灶检测方法
CN111534602A (zh) 一种基于高通量测序分析人类血型基因型的方法及其应用
CN109207606A (zh) 用于亲权鉴定的ssr位点的筛选方法和应用
CN108268752B (zh) 一种染色体异常检测装置
CN110444253B (zh) 一种适用于混池基因定位的方法及系统
CN112735594B (zh) 一种筛选疾病表型相关突变位点的方法及其应用
CN112599190B (zh) 一种基于混合分类器来识别耳聋相关基因的方法
Wiehe et al. Identification of selective sweeps using a dynamically adjusted number of linked microsatellites
CN108694304B (zh) 一种身份关系鉴定方法、装置、设备及存储介质
CN107760688A (zh) 一种brca2基因突变体及其应用
CN106021987A (zh) 超低频突变分子标签聚类分群算法
CN115927731A (zh) 一种用于构建荔枝snp指纹图谱的snp位点组合、应用及鉴定方法
CN116994647A (zh) 用于分析变异检测结果的模型的构建方法
CN112233722A (zh) 品种鉴定的方法、其预测模型的构建方法和装置
KR101815529B1 (ko) 휴먼 하플로타이핑 시스템 및 방법
CN115066503A (zh) 使用批量测序数据指导单细胞测序数据的分析
KR101911307B1 (ko) 유전자 단위에서 단상형을 구분하는 태그-snp 선발 및 활용 기술

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant