CN111798924B

CN111798924B - 一种人类白细胞抗原分型方法及装置

Info

Publication number: CN111798924B
Application number: CN202010645782.XA
Authority: CN
Inventors: 徐银银; 常玉俊; 张智
Original assignee: CapitalBio Corp
Current assignee: CapitalBio Corp
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2024-03-26
Anticipated expiration: 2040-07-07
Also published as: CN111798924A

Abstract

本发明公开了一种人类白细胞抗原分型方法及装置，所述方法包括：基于预构建的人类白细胞抗原错误分型数据库，获得候选错误分型样本，所述人类白细胞抗原错误分型数据库包括基因和基因分型结果；对所述候选错误分型样本的比对结果进行覆盖度深度分析，得到候选组合型别列表信息；对所述候选组合型别列表信息进行组合型别分析，得到候选组合型别。本发明通过构建常见错误分型数据库和参考序列外显子特征数据库，针对候选错误分型样本，设计组合型别分析算法，提供候选组合型别，可以大幅提升样本分型准确性，满足实际应用需求。

Description

一种人类白细胞抗原分型方法及装置

技术领域

本发明涉及信息处理技术领域，特别是涉及一种人类白细胞抗原分型方法及装置。

背景技术

人类白细胞抗原，即HLA(human leukocyte antigen)，是调控人体特异性免疫应答和决定疾病易感性个体差异的主要基因系统，与同种异体器官移植的排斥反应密切相关。HLA系统在抗原识别、抗原递呈、免疫应答与调控、破坏外来抗原靶细胞等方面发挥重要的作用，是引起免疫排斥反应的主要物质基础。移植物细胞表面I类和II类抗原都是强移植抗原，体液免疫和细胞免疫都参与了对移植物的排斥反应，无论是异基因器官、组织或细胞的移植，供受体间HLA相配是成功的关键。

HLA分型是一个由一系列紧密连锁的基因座位所组成的具有高度多态性的复合体，其表征了人类多态性最丰富的遗传系统。基于NGS测序的HLA分型方法基因分型准确性都很难达到99％。从样本水平来看，由于每个样本包含多个HLA相关基因，只有所有基因分析结果都正确的情况下才能认定该样本分型准确。因此，目前基于NGS的HLA样本分型准确性更低。然而，在实际应用中，临床医生和相关医学检验所更关注样本分型准确性。使得如何提升HLA样本分型准确性成为了目前的研究重点。

发明内容

针对于上述问题，本发明提供一种人类白细胞抗原分型方法及装置，实现了获得候选组合型别，提升样本分型准确性，满足了实际需求的目的。

为了实现上述目的，本发明提供了如下技术方案：

一种人类白细胞抗原分型方法，所述方法包括：

基于预构建的人类白细胞抗原错误分型数据库，获得候选错误分型样本，所述人类白细胞抗原错误分型数据库包括基因和基因分型结果；

对所述候选错误分型样本的比对结果进行覆盖度深度分析，得到候选组合型别列表信息；

对所述候选组合型别列表信息进行组合型别分析，得到候选组合型别。

可选地，所述基于预构建的人类白细胞抗原错误分型数据库，获得候选错误分型样本，包括：

获取样本分型结果；

在所述样本分型结果中筛选出现在所述人类白细胞抗原错误分型数据库的基因分型结果，将筛选结果确定为候选错误分型样本。

可选地，所述对所述候选错误分型样本的比对结果进行覆盖度深度分析，得到候选组合型别列表信息，包括：

对所述候选错误分型样本的比对结果进行覆盖度深度分析，得到初始信息，所述初始信息包括样本在所有可能分型的每个外显子、每个位置上的深度信息、外显子的平均深度信息、外显子的覆盖度信息和位点比例信息；

基于所述初始信息，检测核心外显子的覆盖度和平均深度信息是否达到对应阈值，基于检测结果确定候选分型集；

对所述候选分型集进行过滤，并对过滤后的候选分型集进行组合，得到候选组合型别列表信息。

可选地，所述方法还包括：

对所述候选组合型别进行可信度排序，得到排序结果；

依据所述排序结果，确定目标组合型别。

可选地，所述对所述候选分型集进行过滤，包括：

调用参考序列外显子特征数据库，获得外显子特征；

基于所述外显子特征对所述候选分型集进行过滤，得到过滤后的候选分型集。

一种人类白细胞抗原分型装置，所述装置包括：

获取单元，用于基于预构建的人类白细胞抗原错误分型数据库，获得候选错误分型样本，所述人类白细胞抗原错误分型数据库包括基因和基因分型结果；

第一分析单元，用于对所述候选错误分型样本的比对结果进行覆盖度深度分析，得到候选组合型别列表信息；

第二分析单元，用于对所述候选组合型别列表信息进行组合型别分析，得到候选组合型别。

可选地，所述获取单元包括：

第一获取子单元，用于获取样本分型结果；

第一筛选子单元，用于在所述样本分型结果中筛选出现在所述人类白细胞抗原错误分型数据库的基因分型结果，将筛选结果确定为候选错误分型样本。

可选地，所述第一分析单元包括：

第一分析子单元，用于对所述候选错误分型样本的比对结果进行覆盖度深度分析，得到初始信息，所述初始信息包括样本在所有可能分型的每个外显子、每个位置上的深度信息、外显子的平均深度信息、外显子的覆盖度信息和位点比例信息；

检测子单元，用于基于所述初始信息，检测核心外显子的覆盖度和平均深度信息是否达到对应阈值，基于检测结果确定候选分型集；

过滤子单元，用于对所述候选分型集进行过滤，并对过滤后的候选分型集进行组合，得到候选组合型别列表信息。

可选地，所述装置还包括：

排序单元，用于对所述候选组合型别进行可信度排序，得到排序结果；

确定单元，用于依据所述排序结果，确定目标组合型别。

可选地，所述过滤子单元具体包括：

调用参考序列外显子特征数据库，获得外显子特征；

相较于现有技术，本发明提供了一种人类白细胞抗原分型方法及装置，所述方法包括：基于预构建的人类白细胞抗原错误分型数据库，获得候选错误分型样本，所述人类白细胞抗原错误分型数据库包括基因和基因分型结果；对所述候选错误分型样本的比对结果进行覆盖度深度分析，得到候选组合型别列表信息；对所述候选组合型别列表信息进行组合型别分析，得到候选组合型别。本发明通过构建常见错误分型数据库和参考序列外显子特征数据库，针对候选错误分型样本，设计组合型别分析算法，提供候选组合型别，可以大幅提升样本分型准确性，满足实际应用需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种人类白细胞抗原分型方法的流程示意图；

图2为本发明实施例提供的一种人类白细胞抗原分型装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

在本发明实施例中提供了一种人类白细胞抗原(HLA)分型方法，其针对基于NGS("Next-generation"sequencing technology，下一代测序技术)测序平台的HLA分型。该方法基于目前分型结果中特有的分型错误，构建常见错误分型数据库和参考序列外显子特征数据库，针对候选错误分型样本，设计组合型别分析算法，提供候选组合型别，可以大幅提升样本分型准确性，满足实际应用需求。参见图1，该方法可以包括以下步骤：

S101、基于预构建的人类白细胞抗原错误分型数据库，获得候选错误分型样本。

所述人类白细胞抗原错误分型数据库包括基因和基因分型结果，具体的基因分型结果由两个分型构成，为对这两个分型做区分，定义为第一个分型和第二个分型。对应的，在本发明实施例中还利用到了参考序列外显子特征数据库，该数据库包括基因、外显子序号、分型、外显子序列、外显子序列长度等信息。HLA基因分型结果通常包含两个等位基因的分型结果，在本发明中利用第一个分型和第二个分型的方法分别代指第一个等位基因的分型结果和第二个等位基因的分型结果。

通过预构建的HLA错误分型数据库，即通过常见错误分型数据库，根据样本分型结果，筛选基因分型结果出现在常见错误分型数据库中的样本，即为候选错误分型样本。

S102、对所述候选错误分型样本的比对结果进行覆盖度深度分析，得到候选组合型别列表信息。

具体的，本发明实施例中的覆盖深度分析包括：

即对候选错误分型样本的比对结果进行覆盖深度分析，统计该样本在所有可能分型的每个外显子、每个位置上的深度信息，外显子的平均深度信息，外显子的1X覆盖度、10X覆盖度、100X覆盖度、平均深度10％以上和平均深度20％以上的位点比例，通过检测核心外显子的覆盖度和平均深度信息是否达到阈值，初步确定候选分型集。如果某些候选分型包含的所有外显子是其他分型的子集且外显子序列都一致，则过滤去除这一类候选分型，确定最终候选分型集，并两两组合该集合所有候选分型给出候选组合型别列表信息，该信息包括基因、组合型别和构成该组合的两个分型之间差异的外显子信息，两个分型之间共有的外显子信息和组合分型受其他基因分型结果影响的外显子信息。组合分型受其他基因分型结果影响的外显子，这些外显子提供的信息由于受到其他基因影响并不可信，因此用以过滤差异外显子和共有外显子。

S103、对所述候选组合型别列表信息进行组合型别分析，得到候选组合型别。

对应的，在本发明实施例中还包括：

对所述候选组合型别进行可信度排序，得到排序结果；

依据所述排序结果，确定目标组合型别。

针对当前HLA分型产生的特有分型错误，构建错误分型数据库，结合参考序列外显子特征数据库，对候选错误分型样本进行覆盖度深度分析，得到候选组合型别列表信息。对候选组合型别列表信息进行组合型别分析，综合考虑组合型别之间差异外显子的平衡性和共有外显子的分子数之间的平衡性、组合型别的核心外显子之间的平衡性，组合型别在2、3和4号外显子上的分子数的变异系数以及组合型别在核心外显子上的分子数和组合型别能够解释的测序数据等信息，确定可信的候选组合型别，并对其可信度进行排序。该方法可以大幅提升样本分型准确性。

下面对本发明实施例中各个步骤的可能实现方式进行说明。

本发明的关键是组合型别分析，分为两步：第一是，过滤不可信的组合型别，确定候选组合型别；第二是，对候选组合型别的可信度进行排序。组合型别分析综合考虑组合型别之间差异外显子的平衡性和共有外显子的分子数之间的平衡性、组合型别的核心外显子之间的平衡性，组合型别在2、3和4号外显子上的分子数的变异系数以及组合型别在核心外显子上的分子数和组合型别能够解释的测序数据等信息。在本发明实施例中确定了7个重要参数，包括：Core-mols，E_flag，E_rank，cv，Common_ratio，Core_ratio，total-mols。其中，E_flag，cv，Common_ratio和Core_ratio是过滤参数；Core-mols，E_rank，Common_ratio和total-mols是排序参数，即Common_ratio既是过滤参数也是排序参数。Core-mols和total-mols主要衡量组合型别的分子数，Core-mols衡量组合型别在核心外显子上的分子数，total-mols衡量组合型别能够解释的分子数。Core-mols计算方法如下：

P＝intlog(max(E2_total+E3_total))-1

Core_mol＝int(E2_total+E3_total)/10^p

其中，E2_total为组合型别在2号外显子上的分子数，E3_total为组合型别在3号外显子上的分子数。对于ClassⅡ基因，则只考虑2号外显子。

E_flag和E_rank分别表征组合型别之间差异外显子的平衡性与组合型别的可靠性。E_flag是一个定性参数，可以过滤不可信的组合型别。E_rank是一个定量参数，它的值越小，组合型别越可信。E_flag和E_rank都由E_ratio计算而来。E_ratio表征组合型别中两个分型在任意差异外显子上分子支持数的比值，计算方法如下：

其中，E_total指该组合型别在当前这个差异外显子上的分子数，E_1-specific指该组合型别中第一个分型在当前这个差异外显子上独特的分子数，E_2-specific指该组合型别中第二个分型在当前这个差异外显子上独特的分子数。E₁为长度标准化的第一个分型独特的分子数与两个分型之间共有的分子数的一半的和，它表征第一个分型的分子支持数。E₂为长度标准化的第二个分型独特的分子数与两个分型之间共有的分子数的一半的和，它表征第二个分型的分子支持数。L₁是第一个分型的外显子长度，L₂是第二个分型的外显子长度。E_flag计算方法如下：

E_flag的取值是0或1，当取值为0时，该组合型别不可信；Ei_ratio的阈值可根据实验情况进行调整。E_rank由所有差异外显子E_ratio的均值u_ratio得来，u_ratio计算方法如下：

E_rank＝int(10*u_ratio)

cv值表征组合型别在2号外显子、3号外显子和4号外显子上的分子数的变异系数，其计算方法如下：

其中，Ei_total是组合型别在第i号外显子上的分子数，Li_total是两个分型在第i号外显子上的参考序列长度之和。第2、3和4号外显子长度相近，但又有所不同，故需对参考序列长度进行标准化。cv值是一个过滤参数，不同基因可以选取不同阈值以过滤不可信的组合型别。

Common_ratio表征构成组合型别的两个分型在共有外显子上分子数的比值，其计算方法如下：

Ei₁是第一个分型在第i号外显子上的分子数，Ei₂是第二个分型在第i号外显子上的分子数，A₁是第一个分型在共有外显子上的分子数，A₂是第二个分型在共有外显子上的分子数。Common_ratio既是一个过滤参数，也是一个排序参数，根据实际情况，不同基因可选取不同的阈值以过滤不可信的组合型别。

Core_ratio表征组合型别中核心外显子之间的平衡性，该参数只针对I类基因，其计算方法如下：

其中，L2_total指两个分型的2号外显子的长度之和，L3_total指两个分型的3号外显子的长度之和。Core_ratio是一个过滤参数，不同基因可以选取不同阈值以过滤不可信的组合型别。

组合型别分析对可信的组合型别，通过依次对Core-mols，E_rank,Common_ratio和total-mols四个参数进行排序，来确定组合型别的可信度，排名越靠前，可信度越高。

举例说明，应用本发明提供的分型方法测试456个标准样本，标准分型准确性92.98％。通过构建常见错误分型数据库，筛选出32个候选错误分型样本，其中1个样本由于深度太低，无法通过本发明正确分型，其余候选错误分型样本均可通过本发明以组合型别的方式正确分型，提高样本分型准确性到99.34％。正确型别在候选组合型别列表中的排名如表1第二列所示。表1正确组合型别排名

sample	rank	combined-alleles	Core-mols	Eflag	Erank	cv	Common-ratio	Core-ratio	total-mols
										Z538	1	A11:02-A11:01	21	1	0	0.18	1	0.97	6915
Z626	1	A24:353-A24:02	19	1	0	0.2	1	0.92	6319
										Z673	1	A11:02-A11:01	24	1	0	0.16	0.99	0.99	7471
Z700	1	A11:01-A11:02	15	1	0	0.25	1	0.87	5799
										Z852	1	A*11:01-A＊11:02	22	1	0	0.23	1	0.93	7382
Z868	1	A11:01-A11:02	18	1	0	0.15	0.99	0.92	5893
										Z882	1	A11:01-A11:02	31	1	0	0.16	1	0.87	9917
Z915	1	A02:06-A02:07	23	1	0	0.15	1	0.9	7251
										Z606	2	A02:06-A02:07	17	1	0	0.1	1	0.91	5027
Z614	2	A31:01-A33:03	18	1	1	0.11	0.99	0.91	5398
										Z827	2	A02:07-A02:06	33	1	0	0.16	0.99	0.97	9962
Z650	3	A02:06-A02:07	17	1	1	0.22	0.98	1	5639
										Z682	3	A24:02-A24:353	20	1	0	0.14	1	0.79	5832
Z872	3	A02:06-A02:07	36	1	1	0.09	0.98	0.95	9839
										Z809	4	A02:01-A02:03	30	1	0	0.16	1	0.99	9505
Z720	3	B46:01-B15:01	24	1	2	0.17	0.98	0.98	6432
										Z779	4	B51:01-B58:01	48	1	1	0.15	0.96	0.93	12650
Z493	1	C02:02-C03:02	21	1	1	0.2	0.94	0.9	6276
										Z686	1	C14:02-C03:02	19	1	2	0.31	0.96	0.85	6308
Z698	1	C*01:02-C＊03:02	24	1	1	0.31	0.94	0.84	7664
										Z614	2	C＊01:02-C＊03:02	25	1	1	0.19	0.95	0.93	7039
Z891	2	C＊01:03-C＊03:02	31	1	1	0.25	0.98	0.87	9671
										Z692	3	C＊08:01-C＊03:02	24	1	1	0.33	0.94	0.97	7983
Z775	3	C＊01:02-C＊03:02	44	1	1	0.22	0.96	0.92	13604
										Z806	3	C＊03:04-C＊03:02	36	1	0	0.26	1	1	11611
Z495	4	C＊08:22-C＊03:02	17	1	0	0.29	0.96	0.92	6188
										Z625	4	C＊01:02-C*03:02	32	1	0	0.22	0.98	0.92	9752
Z656	4	C12:02-C12:03	37	1	0	0.21	1	0.93	11103
										Z699	4	C08:02-C12:03	18	1	0	0.37	1	1	6861
Z713	4	C08:22-C03:02	16	1	0	0.29	0.99	0.94	5814
										Z776	5	C04:01-C04:82	32	1	2	0.22	0.99	0.91	10319
Z567	1	DQB1*03:03-DQB1＊04:01	14	1	0	0.64	0.99	1	6087
										Z743	1	DQB105:03-DQB105:02	13	1	0	0.56	1	1	3843
Z756	1	DQB104:01-DQB103:03	12	1	0	0.69	1	1	6215

在一个优选实施例中，所述常见错误分型数据库即预构建的人类白细胞抗原错误分型数据库，首先建立456例样本的标准测试数据集，对这些样本进行HLA分型，通过比较标准分型结果与实际分型结果，确定错误分型样本及型别，并对其进行分类，最终确立常见错误分型数据库。常见错误分型数据库如表2所示。常见错误分型数据库包括基因、第一个分型和第二个分型等信息。

表2常见错误分型数据库

gene	allele1	allele2
			A	A*02:01	A*02:466
A	A*02:01	A*02:474
			A	A*11:01	A*11:110
A	A*31:135	A*33:03
			B	B*15:477	B*46:01
B	B*53:01	B*58:08
			C	C*01:02	C*03:452
C	C*01:03	C*03:452
			C	C*02:02	C*03:452
C	C*03:02	C*08:22
			C	C*03:04	C*03:146
C	C*03:452	C*14:02
			C	C*04:01	C*04:01
C	C＊08:202	C＊12:03
			C	C*12:03	C＊12:304
DQB1	DQB1*03:02	DQB1*03:397
			DQB1	DQB1*03:03	DQB1*04:08
DQB1	DQB1*03:03	DQB1*04:17
			DQB1	DQB1*05:03	DQB1*05:165

若一个样本的实际分型结果出现在常见错误分型数据库中，那么这个样本就是一个候选错误分型样本，候选错误分型样本如表3所示。

表3候选错误分型样本

sampleID	gene	goldStandard1	goldStandard1	allele1	allele2
						Z538	A	A*11:01:01	A*11:02:01	A*11:01	A*11:110
Z606	A	A*02:06:01	A*02:07:01	A*02:01	A*02:474
						Z614	A	A*31:01:02	A＊33:03:01	A*31:135	A*33:03
Z650	A	A*02:06:01	A*02:07:01	A*02:01	A*02:474
						Z673	A	A*11:01:01	A*11:02:01	A*11:01	A*11:110
Z700	A	A*11:01:01	A*11:02:01	A*11:01	A*11:110
						Z809	A	A*02:01:01	A*02:03:01	A*02:01	A*02:466
Z827	A	A*02:06:01	A*02:07:01	A*02:01	A*02:474
						Z852	A	A*11:01:01	A*11:02:01	A*11:01	A*11:110
Z868	A	A*11:01:01	A*11:02:01	A*11:01	A*11:110
						Z872	A	A*02:06:01	A*02:07:01	A*02:01	A*02:474
Z882	A	A*11:01:01	A*11:02:01	A*11:01	A*11:110
						Z915	A	A*02:06:01	A*02:07:01	A*02:01	A*02:474
Z720	B	B*15:01:01	B*46:01:01	B*15:477	B*46:01
						Z779	B	B*51:01:01	B*58:01:01	B*53:01	B*58:08
Z493	C	C*02:02:02	C*03:02:02	C*02:02	C*03:452
						Z495	C	C*03:02:02	C*08:22	C*03:02	C*08:22
Z614	C	C*01:02:01	C*03:02:02	C*01:02	C*03:452
						Z625	C	C*01:02:01	C＊03:02:02	C＊01:02	C＊03:452
Z656	C	C＊12:02:01	C＊12:03:01	C＊12:03	C＊12:304
						Z686	C	C＊03:02:02	C＊14:02:01	C＊03:452	C＊14:02
Z692	C	C＊03:02:02	C＊08:01:01	C＊03:02	C＊08:22
						Z698	C	C＊01:02:01	C＊03:02:02	C＊01:02	C*03:452
Z699	C	C＊08:02:01	C＊12:03:01	C＊08:202	C＊12:03
						Z713	C	C＊03:02:02	C＊08:22	C＊03:02	C＊08:22
Z775	C	C＊01:02:01	C＊03:02:02	C＊01:02	C＊03:452
						Z806	C	C＊03:02	C＊03:04:01	C＊03:04	C＊03:146
Z891	C	C＊01:03	C＊03:02:02	C*01:03	C＊03:452
						Z567	DQB1	DQB1＊03:03:02	DQB1＊04:01:01	DQB1＊03:03	DQB1＊04:08
Z743	DQB1	DQB1*05:02:01	DQB1*05:03:01	DQB1*05:03	DQB1*05:165
						Z748	DQB1	DQB1*03:02:01	DQB1*03:03:02	DQB1*03:02	DQB1*03:397
Z756	DQB1	DQB1*03:03:02	DQB1*04:01:01	DQB1*03:03	DQB1*04:17

在一个优选地实施例中，所述覆盖度深度分析，统计候选错误分型样本在所有可能分型的每个外显子、每个位置上的深度信息，外显子的平均深度信息，外显子的1X覆盖度、10X覆盖度、100X覆盖度、平均深度10％以上和平均深度20％以上的位点的比例，示例如表4所示。通过检测核心外显子的覆盖度和平均深度是否通过阈值，初步确定候选分型。覆盖度和深度的阈值，可根据实际情况进行设定。

表4覆盖度深度统计信息

allele	exon	length	molecules	depth	cov1	cov10	cov100	cov-p10-depth	cov-p20-depth
										C＊02:02	E1	24	281	385	100	100	100	100	100
C＊02:02	E2	89	555	419	100	100	100	100	100
										C＊02:02	E3	91	671	452	100	100	100	100	100
C＊02:02	E4	91	1118	775	100	100	100	100	100
										C＊02:02	E5	39	1034	1258	100	100	100	100	100
C＊02:02	E6	10	767	997	100	100	100	100	100
										C＊02:02	E7	15	849	1070	100	100	100	100	100

在一个优选地实施例中，所述参考序列外显子特征数据库，即对参考序列中所有分型的外显子序列进行统计分析，得到包括基因-外显子序号、分型(分型太多，以数目替代)、外显子序列、外显子序列长度等统计信息，如表5所示。

表5参考序列外显子特征数据库

gene-exon	allele-count	sequence	length
				C-E6,A-E6,B-E6	19,1,1830	GKGGSYSQAA	10
C-E6,B-E6	1744,5	GKGGSCSQAA	10
				DRB1-E4,DRB4-E4	1,8	ARSESAQSKMLSGVGGFVLGLLFLGTGLFIYFRNQK	36
DRB1-E4,DRB7-E4	2,1	AWSESAQSKMLSGVGGFVLGLLFLGAGLFIYFRNQK	36
				DRB3-E4,DRB1-E4	19,195	ARSESAQSKMLSGVGGFVLGLLFLGAGLFIYFRNQK	36

在一个优选地实施例中，所述覆盖度深度分析调用参考序列外显子特征数据库，过滤外显子是其他分型子集且外显子序列一致的候选分型，最终确定候选分型集，并两两组合所有候选分型给出候选组合型别列表信息，该信息包括基因、组合型别和构成该组合的两个分型之间差异的外显子信息，两个分型之间共有的外显子信息和组合分型受其他基因分型结果影响的外显子信息。组合分型受其他基因分型结果影响的外显子，这些外显子提供的信息由于受到其他基因影响并不可信，因此用以过滤差异外显子和共有外显子。示例如表6所示。

表6组合型别列表信息

gene	combined-allele	diff-exon	common-exon	flag
					C	C＊02:178-C＊02:26	E2:89/89:0,E6:10/10:1	E1:24/24,E2:89/89,E3:91/91,E4:91/91,E5:39/39,E6:10/10,E7:15/15	E6
C	C＊02:178-C＊02:02	E6:10/10:1	E1:24/24,E2:89/89,E3:91/91,E4:91/91,E5:39/39,E6:10/10,E7:15/15	E6
					C	C＊02:26-C*02:02	E2:89/89:0	E1:24/24,E2:89/89,E3:91/91,E4:91/91,E5:39/39,E6:10/10,E7:15/15	NA
C	C＊02:178-C*02:27	E2:89/89:0,E6:10/10:1	E1:24/24,E2:89/89,E3:91/91,E4:91/91,E5:39/39,E6:10/10,E7:15/15	E6
					C	C＊02:26-C＊02:27	E2:89/89:0	E1:24/24,E2:89/89,E3:91/91,E4:91/91,E5:39/39,E6:10/10,E7:15/15	NA

在一个优选地实施例中，所述组合型别分析是本方法的关键，分为两步：第一，过滤不可信的组合型别，确定候选组合型别；第二，对候选组合型别的可信度进行排序。组合型别分析综合考虑组合型别之间差异外显子的平衡性和共有外显子的分子数之间的平衡性、组合型别的核心外显子之间的平衡性，组合型别在2、3和4号外显子上的分子数的变异系数以及组合型别在核心外显子上的分子数和组合型别能够解释的测序数据等信息,设计7个重要参数：Core-mols，E_flag，E_rank，cv，Common_ratio，Core_ratio，total-mols；其中E_flag，cv，Common_ratio和Core_ratio是过滤参数；Core-mols，E_rank，Common_ratio和total-mols是排序参数；Common_ratio既是过滤参数也是排序参数。对可信的组合型别，通过依次对Core-mols,E_rank，Common_ratio和total-mols四个参数进行排序，来确定组合型别的可信度，排名越靠前，可信度越高。以Z538的A基因为例，其候选组合型别见表7，其中正确分型结果排第一位。

表7候选组合型别列表

combined-alleles	Core-mols	Eflag	Erank	cv	Common-ratio	Core-ratio	total-mols
								A＊11:02-A＊11:01	21	1	0	0.18	1	0.97	6915
A＊11:02-A*11:347N	21	1	0	0.18	1	0.97	6915
								A＊11:77-A＊11:126	21	1	0	0.07	1	0.97	6733
A＊11:147-A＊11:32	18	1	0	0.14	0.99	0.76	1809

本发明实施例中的组合型别分析既适用于基于氨基酸参考序列的比对，也适用于基于核苷酸参考序列的比对。本发明针对当前HLA分型产生的特有分型错误，构建错误分型数据库，结合参考序列外显子特征数据库，对候选错误分型样本进行覆盖度深度分析，得到候选组合型别列表信息。对候选组合型别列表信息进行组合型别分析，综合考虑组合型别之间差异外显子的平衡性和共有外显子的分子数之间的平衡性、组合型别的核心外显子之间的平衡性，组合型别在2、3和4号外显子上的分子数的变异系数以及组合型别在核心外显子上的分子数和组合型别能够解释的测序数据等信息，确定可信的候选组合型别，并对其可信度进行排序。该方法可以大幅提升样本分型准确性。

参见图2，其示出了本发明实施例提供的一种人类白细胞抗原分型装置，所述装置包括：

获取单元10，用于基于预构建的人类白细胞抗原错误分型数据库，获得候选错误分型样本，所述人类白细胞抗原错误分型数据库包括基因和基因分型结果；

第一分析单元20，用于对所述候选错误分型样本的比对结果进行覆盖度深度分析，得到候选组合型别列表信息；

第二分析单元30，用于对所述候选组合型别列表信息进行组合型别分析，得到候选组合型别。

在上述实施例的基础上，所述获取单元包括：

第一获取子单元，用于获取样本分型结果；

在上述实施例的基础上，所述第一分析单元包括：

在上述实施例的基础上，所述装置还包括：

确定单元，用于依据所述排序结果，确定目标组合型别。

在上述实施例的基础上，所述过滤子单元具体包括：

调用参考序列外显子特征数据库，获得外显子特征；

本发明提供了一种人类白细胞抗原分型装置，所述方法包括：基于预构建的人类白细胞抗原错误分型数据库，获得候选错误分型样本，所述人类白细胞抗原错误分型数据库包括基因和基因分型结果；对所述候选错误分型样本的比对结果进行覆盖度深度分析，得到候选组合型别列表信息；对所述候选组合型别列表信息进行组合型别分析，得到候选组合型别。本发明通过构建常见错误分型数据库和参考序列外显子特征数据库，针对候选错误分型样本，设计组合型别分析算法，提供候选组合型别，可以大幅提升样本分型准确性，满足实际应用需求。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种人类白细胞抗原分型方法，其特征在于，所述方法包括：

对所述候选错误分型样本的比对结果进行覆盖度深度分析，得到候选组合型别列表信息；其中，所述对所述候选错误分型样本的比对结果进行覆盖度深度分析，得到候选组合型别列表信息，包括：对所述候选错误分型样本的比对结果进行覆盖度深度分析，得到初始信息，所述初始信息包括样本在所有可能分型的每个外显子、每个位置上的深度信息、外显子的平均深度信息、外显子的覆盖度信息和位点比例信息；基于所述初始信息，检测核心外显子的覆盖度和平均深度信息是否达到对应阈值，基于检测结果确定候选分型集；对所述候选分型集进行过滤，并对过滤后的候选分型集进行组合，得到候选组合型别列表信息；

对所述候选组合型别列表信息进行组合型别分析，得到候选组合型别；

对所述候选组合型别进行可信度排序，得到排序结果；

依据所述排序结果，确定目标组合型别。

2.根据权利要求1所述的方法，其特征在于，所述基于预构建的人类白细胞抗原错误分型数据库，获得候选错误分型样本，包括：

获取样本分型结果；

3.根据权利要求1所述的方法，其特征在于，所述对所述候选分型集进行过滤，包括：

调用参考序列外显子特征数据库，获得外显子特征；

4.一种人类白细胞抗原分型装置，其特征在于，所述装置包括：

第一分析单元，用于对所述候选错误分型样本的比对结果进行覆盖度深度分析，得到候选组合型别列表信息；其中，所述第一分析单元包括：第一分析子单元，用于对所述候选错误分型样本的比对结果进行覆盖度深度分析，得到初始信息，所述初始信息包括样本在所有可能分型的每个外显子、每个位置上的深度信息、外显子的平均深度信息、外显子的覆盖度信息和位点比例信息；检测子单元，用于基于所述初始信息，检测核心外显子的覆盖度和平均深度信息是否达到对应阈值，基于检测结果确定候选分型集；过滤子单元，用于对所述候选分型集进行过滤，并对过滤后的候选分型集进行组合，得到候选组合型别列表信息；

第二分析单元，用于对所述候选组合型别列表信息进行组合型别分析，得到候选组合型别；

所述装置还包括：

确定单元，用于依据所述排序结果，确定目标组合型别。

5.根据权利要求4所述的装置，其特征在于，所述获取单元包括：

第一获取子单元，用于获取样本分型结果；

6.根据权利要求4所述的装置，其特征在于，所述过滤子单元具体包括：

调用参考序列外显子特征数据库，获得外显子特征；