CN110033827A - Hla基因分型的方法、装置、存储介质及处理器 - Google Patents

Hla基因分型的方法、装置、存储介质及处理器 Download PDF

Info

Publication number
CN110033827A
CN110033827A CN201910104065.3A CN201910104065A CN110033827A CN 110033827 A CN110033827 A CN 110033827A CN 201910104065 A CN201910104065 A CN 201910104065A CN 110033827 A CN110033827 A CN 110033827A
Authority
CN
China
Prior art keywords
hla
genotype
dna sequence
score value
comparison result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910104065.3A
Other languages
English (en)
Other versions
CN110033827B (zh
Inventor
郭现超
宋小凤
赵义
陈维之
杜波
何骥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yue Yue Biotechnology Jiangsu Co Ltd
Original Assignee
Yue Yue Biotechnology Jiangsu Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yue Yue Biotechnology Jiangsu Co Ltd filed Critical Yue Yue Biotechnology Jiangsu Co Ltd
Priority to CN201910104065.3A priority Critical patent/CN110033827B/zh
Publication of CN110033827A publication Critical patent/CN110033827A/zh
Application granted granted Critical
Publication of CN110033827B publication Critical patent/CN110033827B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种HLA基因分型的方法、装置、存储介质及处理器。其中,HLA基因分型的方法包括:构建HLA基因型数据库,HLA基因型数据库包括与HLA‑A基因相关的假基因的DNA序列;将待测样本的测序数据与HLA基因型数据库进行比对,保留满足预定条件的基因型作为比对结果;选择比对结果中比对分值最高的基因型作为待测样本的HLA基因分型的结果。通过在HLA基因分型的数据库中加入与HLA基因序列非常相近的HLA假基因序列,有助于减少分型的假阳性结果,从而解决了现有技术中HLA基因分型假阳性高的技术问题。

Description

HLA基因分型的方法、装置、存储介质及处理器
技术领域
本申请涉及基因测序数据分析领域,具体而言,涉及一种HLA基因分型的方法、装置、存储介质及处理器。
背景技术
HLA(即人类白细胞抗原)是一个由一系列紧密连锁的基因座位组成的具有高度多态性的复合体,是编码人类主要组织相容性复合体(MHC)的基因簇,HLA定位于第6染色体短臂上。该系统是目前所知人体最复杂的多态系统。
HLA是具有高度多态性的同种异体抗原,其化学本质为一类糖蛋白,由一条α重链(被糖基化的)和一条β轻链非共价结合而成。其肽链的氨基端向外(约占整个分子的3/4),羧基端穿入细胞质,中间疏水部分在胞膜中。HLA按其分布和功能分为Ⅰ类抗原和Ⅱ类抗原。HLA-I类分子为内源性抗原的递呈分子;HLA-Ⅱ类分子为外源性抗原的递呈分子。
HLAⅠ类抗原的特异性取决于α重链,由HLA-A、B、C位点编码;其β轻链是β2-微球蛋白,编码基因在第15染色体。HLAⅡ类抗原受控于HLA-D区(包含5个亚区),由其中的A基因和B基因分别为α重链和β轻链编码,抗原多态性取决于β轻链。以上各基因(名称为WHO命名委员会1975年修订)均系多态性位点(复等位),且共显性。如果把MHC作为一个整体来看待,其多态性则更为突出。保守地估计,至少存在1300个不同的单体型,相应地约有17×10的七次方个基因型。这就是除同卵双生子以外几乎无HLA相同者的遗传基础,从而HLA可视作个体的“身份证”。
HLA基因可以基于PCR的方法或二代测序的方法进行分型。基于PCR方法进行 HLA基因分型会受到较大的限制,因为HLA基因在人群中具有高度多态性,PCR方法包含的探针或引物种类只能检测到有限的HLA基因型。二代测序的方法具有高通量的特性,更有可能检测到所有HLA基因型,并且可以更准确地区分来自于不同单倍体基因组的HLA基因型。
但目前基于二代测序技术的HLA基因分型方法,也存在一定的缺陷。比如HLA 基因分型的假阳性比较高,因此,仍需要对现有的HLA基因分型的方法进行改进。
发明内容
本申请提供一种HLA基因分型的方法、装置、存储介质及处理器,以降低HLA 基因分型的假阳性。
根据本申请的一个方面,提供了一种HLA基因分型的方法,该方法包括:构建 HLA基因型数据库,HLA基因型数据库包括与HLA-A基因相关的假基因的DNA序列;将待测样本的测序数据与HLA基因型数据库进行比对,保留满足预定条件的基因型作为比对结果;选择比对结果中比对分值最高的基因型作为待测样本的HLA基因分型的结果。
进一步地,HLA基因型数据库包括42个HLA基因的18944种基因型的DNA序列,优选DNA序列包括外显子DNA序列和内含子DNA序列。
进一步地,将待测样本的测序数据与HLA基因型数据库进行比对,保留满足预定条件的基因型作为比对结果,预定条件包括以下至少之一:比对到外显子区域且没有错配;比对到内含子区域且至多有2个错配。
进一步地,选择比对结果中比对分值最高的基因型作为待测样本的HLA基因分型的结果包括:计算比对结果中比对到各目标HLA基因型的序列数与比对到总的HLA 基因型的序列数之和的比例,作为与各目标HLA基因型的比对结果的权重;基于与各目标HLA基因型的比对结果的权重及与目标HLA基因型的比对结果与目标HLA基因型在基因组位置上重叠区域的长度,计算各HLA基因型的支持分值;选择支持分值最高的基因型作为待测样本的HLA基因分型的结果。
进一步地,选择支持分值最高的基因型在作为待测样本的HLA基因分型的结果包括:选择支持分值最高的基因型与HLA基因型数据库中的任一基因型进行配对评估;将评估分值最大的两个HLA基因型作为配对结果,配对结果即为待测样本的HLA基因型分型的结果。
进一步地,选择支持分值最高的基因型与HLA基因型数据库中的任一基因型进行配对评估包括:分别计算处于待评估的配对状态的两种HLA基因型的支持分值;获将配对状态的两种HLA基因型的支持分值的总和作为待评估的配对状态的两种HLA基因型的评估分值。
进一步地,待测样本的测序数据包括42个HLA基因的全长DNA序列,全长DNA 序列包括外显子DNA序列和内含子DNA序列,其中,各HLA基因型的支持分值为组成各HLA基因型的各个外显子DNA序列的支持分值之和,每个外显子DNA序列的支持分值通过以下方法计算得到:计算比对结果中比对到目标HLA基因型的DNA 序列的序列数与比对到总的HLA基因型的序列数之和的比例,作为与各外显子DNA 序列的比对结果的权重;各外显子DNA序列的比对结果的权重及与各外显子DNA序列的比对结果与外显子DNA序列在基因组位置上重叠区域的长度的乘积,即为每个外显子DNA序列的支持分值。
根据本申请的第二个方面,提供了一种HLA基因分型的装置,该装置包括:构建模块、比对模块及分型模块,其中,构建模块,用于构建HLA基因型数据库,HLA 基因型数据库包括与HLA-A基因相关的假基因的DNA序列;比对模块,用于将待测样本的测序数据与HLA基因型数据库进行比对,保留满足预定条件的基因型作为比对结果;分型模块,用于选择比对结果中比对分值最高的基因型作为待测样本的HLA基因分型的结果。
进一步地,HLA基因型数据库包括42个HLA基因的18944种基因型的DNA序列,优选DNA序列包括外显子DNA序列和内含子DNA序列。
进一步地,比对模块中的预定条件包括以下至少之一:比对到外显子区域且没有错配;比对到内含子区域且至多有2个错配。
进一步地,分型模块包括:权重计算模块,用于计算比对结果中比对到各目标HLA基因型的序列数与比对到总的HLA基因型的序列数之和的比例,作为与各目标HLA 基因型的比对结果的权重;支持分值计算模块,用于基于与各目标HLA基因型的比对结果的权重及与目标HLA基因型的比对结果与目标HLA基因型在基因组位置上重叠区域的长度,计算各HLA基因型的支持分值;支持分值选择模块,用于选择支持分值最高的基因型作为待测样本的HLA基因分型的结果。
进一步地,支持分值选择模块包括:配对评估模块,用于选择支持分值最高的基因型与HLA基因型数据库中的任一基因型进行配对评估;配对筛选模块,用于将评估分值最大的两个HLA基因型作为配对结果,配对结果即为待测样本的HLA基因型分型的结果。
进一步地,配对评估模块包括:第一计算子模块,用于分别计算处于待评估的配对状态的两种HLA基因型的支持分值;评估子模块,用于将待评估的配对状态的两种 HLA基因型的支持分值的总和作为待评估的配对状态的两种HLA基因型的评估分值。
进一步地,待测样本的测序数据包括42个HLA基因的全长DNA序列,全长DNA 序列包括外显子DNA序列和内含子DNA序列,其中,支持分值计算模块包括:加和计算模块,用于将组成各HLA基因型的各个外显子DNA序列的支持分值之和记为各 HLA基因型的支持分值,其中,每个外显子DNA序列的支持分值通过以下外显子计算模块得到:第二计算子模块,用于计算比对结果中比对到目标HLA基因型的DNA 序列的序列数与比对到总的HLA基因型的序列数之和的比例,作为与各外显子DNA 序列的比对结果的权重;乘积模块,用于将各外显子DNA序列的比对结果的权重及与各外显子DNA序列的比对结果与外显子DNA序列在基因组位置上重叠区域的长度相乘,并记为每个外显子DNA序列的支持分值。
根据本申请的第三个方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述任意一项所述的HLA基因分型的方法。
根据本申请的第四个方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一项所述的HLA基因分型的方法。
通过本申请,采用以下步骤:构建HLA基因型数据库,HLA基因型数据库包括与HLA-A基因相关的假基因的DNA序列;将待测样本的测序数据与HLA基因型数据库进行比对,保留满足预定条件的基因型作为比对结果;选择比对结果中比对分值最高的基因型作为待测样本的HLA基因分型的结果通过在HLA基因分型的数据库中加入与HLA基因序列非常相近的HLA假基因序列,有助于减少分型的假阳性结果,从而解决了现有技术中HLA基因分型假阳性高的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的HLA基因分型的方法的流程图一;
图2是根据本申请实施例提供的HLA基因分型的方法的流程图二;
图3是根据本申请实施例提供的HLA基因分型的装置的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请的发明人对现有的基于二代测序技术的HLA基因分型方法进行了研究和分析,发现现有方法在构建用于HLA基因分型的数据库过程中,仅采用编码HLA基因功能结构域的1-2个外显子的核苷酸序列。这种策略限制了HLA基因分型的灵敏度,因为不同HLA基因型其编码功能结构域的核苷酸序列可能是一致的。为此,发明人对现有方法进行改进,并通过在用于HLA基因分型的数据库中加入与HLA基因序列非常相近的HLA假基因序列,有助于降低假阳性结果。在此基础上,发明人在用于HLA 基因分型的数据库中除了含有编码功能的DNA序列外,还增加了内含子部分的DNA 序列,从而进一步了提高分型的灵敏度。更进一步地,为了提高分型的准确性,在分型过程中,增加了评估HLA基因型配对可能性的定量打分机制,从而使得分型结果更可靠更准确。
本申请的技术方案就是在上述研究结果的基础上提出的。在一种典型的实施例中,提供了一种HLA基因分型的方法。
图1是根据本申请实施例的HLA基因分型的方法的流程图一。如图1所示,该方法包括以下步骤:
步骤S102,构建HLA基因型数据库,HLA基因型数据库包括与HLA-A基因相关的假基因的DNA序列;
步骤S104,将待测样本的测序数据与HLA基因型数据库进行比对,保留满足预定条件的基因型作为比对结果;
步骤S106,选择比对结果中比对分值最高的基因型作为待测样本的HLA基因分型的结果。
本申请的实施例所提供的HLA基因分型的方法,通过构建HLA基因型数据库,该HLA基因型数据库包括与HLA-A基因相关的假基因的DNA序列;然后将待测样本的测序数据与HLA基因型数据库进行比对,保留满足预定条件的基因型作为比对结果;选择比对结果中比对分值最高的基因型作为待测样本的HLA基因分型的结果,解决了现有技术中对HLA基因分型存在灵敏度低的技术问题。
上述HLA基因型数据库是指在现有的HLA基因分型方法中所用到的相关数据库的基础上,增加了HLA-A基因相关的假基因的DNA序列,有助于减少分型的假阳性结果,从而解决了现有技术中HLA基因分型假阳性高的技术问题。
在一种优选的实施例中,HLA基因型数据库包括42个HLA基因(具体见表1所示)的18944种基因型的DNA序列,优选DNA序列包括外显子DNA序列和内含子 DNA序列。
与现有仅采用相关基因的1-2个外显子DNA序列来用于基因分型不同,本申请的HLA基因型数据库不仅包含的相关基因的数量多,而且均是包含了相关基因的全长 DNA序列,包括外显子DNA序列和内含子DNA序列,因而,本申请的HLA基因分型的方法在减少假阳性结果的基础上,又增强了分型的灵敏度,使得分型结果更灵敏,更准确。
表1:
构建上述HLA基因型数据库的具体步骤按照现有的方法,将本申请新增的基因的DNA序列包括在内进行构建即可。具体地,可以将编码上述42个HLA基因的18944 种基因型的全长DNA序列进行数据库构建,并按照外显子区与内含子区将数据库中的序列信息进行拆分,然后,在数据库中加入与HLA-A基因相关的假基因DNA序列 HLA-Y*02:01,可以提高HLA基因分型的准确性。
需要说明的是,上述将待测样本的测序数据与HLA基因型数据库进行比对之前,需要先获取待测样本的测序数据。此处的待测样本的测序数据可以是已有的经过质控处理后的相关测序数据(通常称为Clean reads),也可以是对待测样本进行预处理后提取DNA,然后基于液相芯片探针对HLA基因区域进行捕获,构建捕获测序文库,然后基于二代测序方法进行测序后获得的原始数据(raw data或raw reads,read或reads 可翻译为序列或测序序列),该原始数据还需要进行质控处理(即通常所说的去除低质量reads),具体地,根据原始数据的序列组成以及序列质量,除去原始数据中包含的接头序列(如3’端illumina测序平台建库引物序列)并过滤掉低质量序列。此处的低质量序列是指每5bp碱基平均测序质量值低于25的3’端序列,去掉N含量大于2%的序列,去掉截取低质量及测序引物后序列读长小于75bp的reads。
在一种优选的实施例中,将待测样本的测序数据与HLA基因型数据库进行比对,保留满足预定条件的基因型作为比对结果,预定条件包括以下至少之一:比对到外显子区域且没有错配;比对到内含子区域且至多有2个错配。
上述进行比对的步骤可以采用现有的比对软件,比如,可以采用Bowtie 2将上述过滤后的测序数据比对到构建好的HLA基因型数据库中,为保证比对结果的可靠性,根据比对软件的比对得分,选择满足上述预设条件(测序数据中的外显子区域的序列与HLA基因型数据库中的基因的外显子序列完全匹配,表明该测序序列属于与其完全匹配的外显子序列相应的基因型。而内含子区域保留最多2个错配碱基,也是尽量保证用于区分基因型的内含子序列与数据库中的基因型的内含子序列匹配,进而使得分型结果更准确)的基因型作为比对结果。如前述,由于本申请的HLA基因型数据库中所含的基因型的种类和类别更多,更全面,因而,对比结果中的基因分型结果也更准确。
在一种优选的实施例中,如图2所示,选择比对结果中比对分值最高的基因型作为待测样本的HLA基因分型的结果包括:
步骤S108,计算比对结果中比对到各目标HLA基因型的序列数与比对到总的 HLA基因型的序列数之和的比例,作为与各目标HLA基因型的比对结果的权重;
步骤S110,基于与各目标HLA基因型的比对结果的权重及与目标HLA基因型的比对结果与目标HLA基因型在基因组位置上重叠区域的长度,计算各HLA基因型的支持分值;
步骤S112,选择支持分值最高的基因型作为待测样本的HLA基因分型的结果。
此处举例说明上述优选的实施例中“总的HLA基因型”的涵义,如,测序数据中,read 1比对到等位基因(allele)1上的序列数为2,而比对到其他等位基因上的序列数为8,则总的HLA基因型序列数为10,而对比到等位基因1的基因型的权重为2/10。此处的总的HLA基因型的具体数量根据read的不同而存在差异,是一个可变化的数值,而非指参考基因型数据库中的HLA的所有基因型。
上述优选的实施例通过进一步增加对HLA基因型进行支持分值计算,并选择支持分值最高的基因型作为待测样本的HLA基因分型的结果,相比现有计算中仅根据比对的分值高低确定的分型结果,本申请的方法使得分型结果更准确,假阳性相对更低。
在上述技术方案的基础上,为了进一步提高HLA分型的准确性,在一种优选的实施例中,如图2所示,选择支持分值最高的基因型在作为待测样本的HLA基因分型的结果包括:
步骤S112A,选择支持分值最高的基因型与HLA基因型数据库中的任一基因型进行配对评估;
步骤S112B,将评估分值最大的两个HLA基因型作为配对结果,配对结果即为待测样本的HLA基因型分型的结果。
通过引入评估HLA基因型配对可能性的定量打分机制,进一步提高基因分型结果的准确性。
在一种优选的实施例中,如图2所示,选择支持分值最高的基因型与HLA基因型数据库中的任一基因型进行配对评估包括:
步骤S112A1,分别计算处于待评估的配对状态的两种HLA基因型的支持分值;
步骤S112A2,将待评估的配对状态的两种HLA基因型的支持分值的总和作为待评估的配对状态的两种HLA基因型的评估分值。
上述计算各HLA基因型的支持分值是由组成各HLA基因型的外显子的支持分值计算得到的。在一种优选的实施例中,待测样本的测序数据包括42个HLA基因的全长DNA序列,全长DNA序列包括外显子DNA序列和内含子DNA序列,其中,各 HLA基因型的支持分值为组成各HLA基因型的各个外显子DNA序列的支持分值之和,每个外显子DNA序列的支持分值通过以下方法计算得到:计算比对结果中比对到目标HLA基因型的DNA序列的序列数与比对到总的HLA基因型的序列数之和的比例,作为与各外显子DNA序列的比对结果的权重;各外显子DNA序列的比对结果的权重及与各外显子DNA序列的比对结果与外显子DNA序列在基因组位置上重叠区域 (overlapped region)的长度的乘积,即为每个外显子DNA序列的支持分值。
以下通过一种具体的示例来说明各HLA基因型的支持分值的计算方式,比如read1有5个比对位置,其中1个比对到了HLA-A allele 1的exon1上,4个比对到了其他 HLA-Aallele上,那么read 1支持HLA-A allele 1的权重就是1/5。类似地,read 2有7 个比对位置,其中3个比对到了HLA-A allele 1的exon3上,4个比对到了其他HLA-A allele上,那么read 2支持HLA-A allele 1的权重就是3/7。再比如,read 1的序列与 HLA基因型数据库中的HLA-A allele 1的DNA序列重叠的DNA序列的长度为15bp,而read 2的序列与HLA基因型数据库中的HLA-A allele 1的DNA序列重叠的DNA 序列的长度为14bp。则支持HLA-Aallele 1的支持分值为1/5×15+3/7×14+其他read 的权重×重叠的DNA序列的长度。
综上所述,本申请实施提供的HLA基因分型的方法实现了以下技术效果:
1)灵敏度高。在该方法的第1步构建HLA基因型数据库的过程中,引入除了编码HLA基因功能性区域以外的DNA序列,增强分型的灵敏度。
2)准确度高。在该方法的第1步构建HLA基因型数据库的过程中,引入与HLA-A 基因相关的假基因DNA序列,减少分型的假阳性结果。
3)配对定量评估。在该方法的优选实施例中,引入对HLA基因型配对评估的定量方法,使分型结果更可靠。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种HLA基因分型的装置,需要说明的是,本申请实施例的一种HLA基因分型的装置可以用于执行本申请实施例所提供的用于一种HLA基因分型的方法。以下对该装置进行介绍。
图3是根据本申请实施例的HLA基因分型的装置的示意图。如图3所示,该装置包括:构建模块、比对模块以及分型模块。
其中,构建模块,用于构建HLA基因型数据库,HLA基因型数据库包括与HLA-A 基因相关的假基因的DNA序列;
比对模块,用于将待测样本的测序数据与HLA基因型数据库进行比对,保留满足预定条件的基因型作为比对结果;
分型模块,用于选择比对结果中比对分值最高的基因型作为待测样本的HLA基因分型的结果。
本申请的实施例所提供的HLA基因分型的装置,通过构建模块构建HLA基因型数据库,该HLA基因型数据库包括与HLA-A基因相关的假基因的DNA序列;然后通过比对模块将待测样本的测序数据与HLA基因型数据库进行比对,保留满足预定条件的基因型作为比对结果;最后执行分型模块选择比对结果中比对分值最高的基因型作为待测样本的HLA基因分型的结果,该装置解决了现有技术中对HLA基因分型存在灵敏度低的技术问题。
上述HLA基因型数据库是指在现有的HLA基因分型方法中所用到的相关数据库的基础上,增加了HLA-A基因相关的假基因的DNA序列,从而使得本申请的基因分型装置能够降低分型的假阳性结果。
在一种优选的实施例中,上述装置中,HLA基因型数据库包括42个HLA基因(具体见表1所示)的18944种基因型的DNA序列。优选DNA序列包括外显子DNA序列和内含子DNA序列。
与现有仅采用相关基因的1-2个外显子DNA序列来用于基因分型不同,本申请的HLA基因型数据库不仅包含的相关基因的数量多,而且均是包含了相关基因的全长 DNA序列,包括外显子DNA序列和内含子DNA序列,因而,本申请的HLA基因分型的装置在减少假阳性结果的基础上,又增强了分型的灵敏度,使得分型结果更灵敏,更准确。
上述HLA基因型数据库中,包括42个HLA基因的18944种基因型的全长DNA 序列,并且是按照外显子区与内含子区的序列信息进行拆分的。上述数据库中加入与 HLA-A基因相关的假基因DNA序列HLA-Y*02:01,有利于提高HLA基因分型的准确性。
需要说明的是,上述装置在执行比对模块之前,该装置还包括用于获取待测样本的测序数据的获取模块,获取模块根据所获取的文件的不同,具体所执行的获取步骤也不同。当获取的是已经经过质控处理后的相关测序数据(通常称为Clean reads)则可以直接供后续的比对模块进行比对。当所获取的是待测样本经预处理后依次通过 DNA提取、液相芯片探针对HLA基因区域捕获,构建捕获测序文库以及基于二代测序方法进行测序后获得的原始数据(raw data或raw reads,read或reads可翻译为序列或测序序列),则该获取模块还需要对原始数据进行质控处理(即通常所说的去除低质量reads),具体地,根据原始数据的序列组成以及序列质量,除去原始数据中包含的接头序列(如3’端illumina测序平台建库引物序列)并过滤掉低质量序列。此处的低质量序列是指每5bp碱基平均测序质量值低于25的3’端序列,去掉N含量大于2%的序列,去掉截取低质量及测序引物后序列读长小于75bp的reads。
在一种优选的实施例中,比对模块中的预定条件包括以下至少之一:比对到外显子区域且没有错配;比对到内含子区域且至多有2个错配。
比对模块只要能够实现上述比对的模块均适用于本申请,比如可以采用Bowtie 2模块将测序数据比对到构建好的HLA基因型数据库中,为保证比对结果,根据比对软件的比对得分,选择满足上述预设条件(测序数据中的外显子区域的序列与HLA基因型数据库中的基因的外显子序列完全匹配,表明该测序序列属于与其完全匹配的外显子序列相应的基因型。而内含子区域保留最多2个错配碱基,也是尽量保证用于区分基因型的内含子序列与数据库中的基因型的内含子序列匹配,进而使得分型结果更准确)的基因型作为比对结果。如前述,由于本申请的HLA基因型数据库中所含的基因型的种类和类别更多,更全面,因而,对比结果中的基因分型结果也更准确。
在一种优选的实施例中,分型模块包括:权重计算模块、支持分值计算模块及支持分值选择模块,其中,权重计算模块,用于计算比对结果中比对到各目标HLA基因型的序列数与比对到总的HLA基因型的序列数之和的比例,作为与各目标HLA基因型的比对结果的权重;支持分值计算模块,用于基于与各目标HLA基因型的比对结果的权重及与目标HLA基因型的比对结果与目标HLA基因型在基因组位置上重叠区域的长度,计算各HLA基因型的支持分值;支持分值选择模块,用于选择支持分值最高的基因型作为待测样本的HLA基因分型的结果。
此处举例说明上述优选的实施例中“总的HLA基因型”的涵义,如,测序数据中,read 1比对到等位基因(allele)1上的序列数为2,而比对到其他等位基因上的序列数为8,则总的HLA基因型序列数为10,而对比到等位基因1的基因型的权重为2/10。此处的总的HLA基因型的具体数量根据read的不同而存在差异,是一个可变化的数值,而非指参考基因型数据库中的HLA的所有基因型。
上述优选的实施例通过将分型模块改进为包括增加权重计算模块、支持分值计算模块及支持分值选择模块,增加了对基因分型的支持分值进行计算及排序的过程,进而选择支持分值最高的基因型作为待测样本的HLA基因分型的结果,相比现有分型的装置中仅根据比对模块给出的比对分值高低确定的分型结果,本申请的装置的分型结果更准确,假阳性相对更低。
为了进一步提高HLA基因分型的准确性,在一种优选的实施例中,支持分值选择模块包括:配对评估模块和配对筛选模块,其中,配对评估模块,用于选择支持分值最高的基因型与HLA基因型数据库中的任一基因型进行配对评估;配对筛选模块,用于将评估分值最大的两个HLA基因型作为配对结果,配对结果即为待测样本的HLA 基因型分型的结果。通过配对评估模块和配对筛选模块来引入评估HLA基因型配对可能性的定量打分机制,进一步提高基因分型结果的准确性。
在一种优选的实施例中,配对评估模块包括:第一计算子模块及评估子模块,其中,第一计算子模块,用于分别计算处于待评估的配对状态的两种HLA基因型的支持分值;评估子模块,用于将待评估的配对状态的两种HLA基因型的支持分值的总和作为待评估的配对状态的两种HLA基因型的评估分值。
在一种优选的实施例中,待测样本的测序数据包括42个HLA基因的全长DNA 序列,全长DNA序列包括外显子DNA序列和内含子DNA序列,其中,支持分值计算模块包括:加和计算模块,用于将组成各HLA基因型的各个外显子DNA序列的支持分值之和记为各HLA基因型的支持分值,其中,每个外显子DNA序列的支持分值通过以下外显子计算模块得到,外显子计算模块包括第二计算子模块和乘积模块,第二计算子模块,用于计算比对结果中比对到目标HLA基因型的DNA序列的序列数与比对到总的HLA基因型的序列数之和的比例,作为与各外显子DNA序列的比对结果的权重;乘积模块,用于将各外显子DNA序列的比对结果的权重及与各外显子DNA 序列的比对结果与外显子DNA序列在基因组位置上重叠区域的长度相乘,并记为每个外显子DNA序列的支持分值。
以下通过一种具体的示例来说明各HLA基因型的支持分值计算模块的计算方式,比如read 1有5个比对位置,其中1个比对到了HLA-A allele 1的exon1上,4个比对到了其他HLA-A allele上,那么read 1支持HLA-A allele 1的权重就是1/5。类似地, read 2有7个比对位置,其中3个比对到了HLA-A allele 1的exon3上,4个比对到了其他HLA-A allele上,那么read 2支持HLA-A allele 1的权重就是3/7。再比如,read 1 的序列与HLA基因型数据库中的HLA-A allele 1的DNA序列重叠的DNA序列的长度为15bp,而read 2的序列与HLA基因型数据库中的HLA-A allele 1的DNA序列重叠的DNA序列的长度为14bp。则支持HLA-A allele 1的支持分值为1/5×15+3/7×14+ 其他read的权重×重叠的DNA序列的长度。
上述HLA基因分型的装置包括处理器和存储器,上述构建模块、比对模块、分型模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来对HLA基因进行分型。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现HLA基因分型的方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行HLA基因分型的方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:构建HLA基因型数据库, HLA基因型数据库包括与HLA-A基因相关的假基因的DNA序列;将待测样本的测序数据与HLA基因型数据库进行比对,保留满足预定条件的基因型作为比对结果;选择比对结果中比对分值最高的基因型作为待测样本的HLA基因分型的结果。
可选的,对测序数据与参考基因组进行比对,得到变异数据结果的步骤包括:将测序数据与参考基因组进行比对,得到比对结果文件;对比对结果文件进行去冗余以及对InDel区域进行重新比对,得到变异数据结果。
可选的,HLA基因型数据库包括42个HLA基因(具体见表1所示)的18944种基因型的DNA序列。
可选的,将待测样本的测序数据与HLA基因型数据库进行比对,保留满足预定条件的基因型作为比对结果,预定条件包括以下至少之一:比对到外显子区域且没有错配;比对到内含子区域且至多有2个错配。
可选的,选择比对结果中比对分值最高的基因型作为待测样本的HLA基因分型的结果包括:计算比对结果中比对到各目标HLA基因型的序列数与比对到总的HLA基因型的序列数之和的比例,作为与各目标HLA基因型的比对结果的权重;基于与各目标HLA基因型的比对结果的权重及与目标HLA基因型的比对结果与目标HLA基因型在基因组位置上重叠区域的长度,计算各HLA基因型的支持分值;选择支持分值最高的基因型作为待测样本的HLA基因分型的结果。
可选的,选择支持分值最高的基因型在作为待测样本的HLA基因分型的结果包括:选择支持分值最高的基因型与HLA基因型数据库中的任一基因型进行配对评估;将评估分值最大的两个HLA基因型作为配对结果,配对结果即为待测样本的HLA基因型分型的结果。通过引入评估HLA基因型配对可能性的定量打分机制,进一步基因分型结果的准确性。
可选的,选择支持分值最高的基因型与HLA基因型数据库中的任一基因型进行配对评估包括:分别计算处于待评估的配对状态的两种HLA基因型的支持分值;取各支持分值的总和作为待评估的配对状态的两种HLA基因型的评估分值。
可选的,待测样本的测序数据包括42个HLA基因的全长DNA序列,全长DNA 序列包括外显子DNA序列和内含子DNA序列,其中,各HLA基因型的支持分值为组成各HLA基因型的各个外显子DNA序列的支持分值之和,每个外显子DNA序列的支持分值通过以下方法计算得到:计算比对结果中比对到目标HLA基因型的DNA 序列的序列数与比对到总的HLA基因型的序列数之和的比例,作为与各外显子DNA 序列的比对结果的权重;各外显子DNA序列的比对结果的权重及与各外显子DNA序列的比对结果与外显子DNA序列在基因组位置上重叠区域(overlapped region)的长度的乘积,即为每个外显子DNA序列的支持分值。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:构建HLA基因型数据库,HLA基因型数据库包括与 HLA-A基因相关的假基因的DNA序列;将待测样本的测序数据与HLA基因型数据库进行比对,保留满足预定条件的基因型作为比对结果;选择比对结果中比对分值最高的基因型作为待测样本的HLA基因分型的结果。
可选的,对测序数据与参考基因组进行比对,得到变异数据结果的步骤包括:将测序数据与参考基因组进行比对,得到比对结果文件;对比对结果文件进行去冗余以及对InDel区域进行重新比对,得到变异数据结果。
可选的,HLA基因型数据库包括42个HLA基因(具体见表1所示)的18944种基因型的DNA序列。
可选的,将待测样本的测序数据与HLA基因型数据库进行比对,保留满足预定条件的基因型作为比对结果,预定条件包括以下至少之一:比对到外显子区域且没有错配;比对到内含子区域且至多有2个错配。
可选的,选择比对结果中比对分值最高的基因型作为待测样本的HLA基因分型的结果包括:计算比对结果中比对到各目标HLA基因型的序列数与比对到总的HLA基因型的序列数之和的比例,作为与各目标HLA基因型的比对结果的权重;基于与各目标HLA基因型的比对结果的权重及与目标HLA基因型的比对结果与目标HLA基因型在基因组位置上重叠区域的长度,计算各HLA基因型的支持分值;选择支持分值最高的基因型作为待测样本的HLA基因分型的结果。
可选的,选择支持分值最高的基因型在作为待测样本的HLA基因分型的结果包括:选择支持分值最高的基因型与HLA基因型数据库中的任一基因型进行配对评估;将评估分值最大的两个HLA基因型作为配对结果,配对结果即为待测样本的HLA基因型分型的结果。通过引入评估HLA基因型配对可能性的定量打分机制,进一步基因分型结果的准确性。
可选的,选择支持分值最高的基因型与HLA基因型数据库中的任一基因型进行配对评估包括:分别计算处于待评估的配对状态的两种HLA基因型的支持分值;将待评估的配对状态的两种HLA基因型的支持分值的总和作为待评估的配对状态的两种 HLA基因型的评估分值。
可选的,待测样本的测序数据包括42个HLA基因的全长DNA序列,全长DNA 序列包括外显子DNA序列和内含子DNA序列,其中,各HLA基因型的支持分值为组成各HLA基因型的各个外显子DNA序列的支持分值之和,每个外显子DNA序列的支持分值通过以下方法计算得到:计算比对结果中比对到目标HLA基因型的DNA 序列的序列数与比对到总的HLA基因型的序列数之和的比例,作为与各外显子DNA 序列的比对结果的权重;各外显子DNA序列的比对结果的权重及与各外显子DNA序列的比对结果与外显子DNA序列在基因组位置上重叠区域(overlapped region)的长度的乘积,即为每个外显子DNA序列的支持分值。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等) 上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
下面将结合更具体的实施例来进一步说明本申请的有益效果。
实施例1
对4位患者肿瘤组织的FFPE样本进行DNA提取和HLA基因捕获,基于该方法进行HLA基因分型。具体试验方法如下:
一、测序文库构建
1)基于NGS测序方法,组织样本(FFPE)和血液白细胞样本(BC)的建库步骤如下:
1.1样本打断:
1.1.1将聚四氟乙烯线用紫外灭菌后的医用剪刀,剪至1cm左右的长度,并且保证打断棒的长度均一性良好,置于干净容器中,紫外灭菌3-4小时。灭菌完成后,将1cm 的聚四氟乙烯线,用灭菌后的镊子装进96孔板内。每个孔装入2根打断棒,完成后再将96孔板紫外灭菌3-4小时。
1.1.2按照qubit定量结果取300ng FFPE/bc DNA样本,使用TE稀释到50μl,转移到96孔板中,将锡箔纸膜放在96孔板上,四边对齐,使用热封膜仪180℃5s封膜2次,使用微孔板离心机离心。
1.1.3选择预先设定的程序Peak Power:450,Duty Factor:30,Cycles/Burst:200,Treatment time:40s,3cycles,点击”Start position”。在Run界面点”Run”按钮,运行程序。在该程序运行完成后,取出样品板,使用微孔板离心机离心,再将样品板放到样品架上,选择程序Peak Power:450,Duty Factor:30,Cycles/Burst:200,Treatment time:40s,4cycles。在Run界面点”Run”按钮,运行程序。在该程序运行完成后,取出样品板,使用微孔板离心机离心。打断后取1μl进行质检。
1.2文库制备步骤:
1.2.1末端修复并在3’末端加A尾:
1.2.1.1按照下表2配制ER﹠AT Mix。
表2:
试剂 体积
End Repair&A-Tailing Buffer 7μL
End Repair&A-Tailing Enzyme Mix 3μL
总体积 10μL
1.2.1.2取10μL ER﹠AT Mix加入DNA样本中(冰上操作),震荡混匀,短暂离心。注意ER﹠AT Mix与DNA涡旋混匀立即进行PCR反应。
1.2.1.3反应体系置于PCR仪上,按下表进行PCR反应。注意:PCR仪热盖温度设为85℃。若该操作结束后立即进行下表3所示步骤实验,应将终止温度设为20℃。
表3:
1.2.2连接接头:
1.2.2.1 Adapter准备:IDT UDI adapte2.5μL,加2.5ul水稀释到5μL。
1.2.2.2配制Ligation Mix(冰上操作):
1.2.2.2.1根据文库个数,按照下表4配制Ligation Mix,震荡混匀。
表4:
试剂 体积
超纯水 5μL
Ligation Buffer 30μL
DNA Ligase 10μL
总体积 45μL
1.2.2.2.2上一步PCR结束后,取出样本。短暂离心,转入稀释好的Adapter溶液中。然后加入45μL Ligation Mix,震荡混匀,短暂离心。
1.2.2.2.3置于PCR仪上,20℃孵育30min,20℃保存,热盖温度为50℃。
1.2.3连接后纯化:
1.2.3.1上一步PCR结束后取出样本,短暂离心,加入88μL磁珠。
1.2.3.2震荡混匀,室温孵育15min,使DNA与磁珠充分结合。注意:震荡时按紧管盖。短暂离心,离心管置于磁力架上待液体澄清,弃去上清。注意:不要吸到磁珠。
1.2.3.3加入200μL 80%乙醇孵育30sec后弃去。重复一次200μL 80%乙醇清洗步骤。注意:80%乙醇现用现配。
1.2.3.4用10μL枪头吸尽离心管底部的残留乙醇,室温干燥3-5min至乙醇完全挥发(正面看不在反光,背面看已经干燥)。注意:磁珠过分干燥DNA产量会减少。
1.2.3.5从磁力架取下离心管,加入22μL超纯水,震荡混匀。注意:震荡时按紧管盖。室温孵育5min。
1.2.3.6短暂离心,离心管置于磁力架上待液体澄清。取1μL DNA文库用于浓度检测,剩余的20μL清液转移至新的PCR管进行下一步扩增试验。
1.2.4文库扩增:
1.2.4.1按照下表5配制PCR Mix(冰上操作),震荡混匀。
1.2.4.2短暂离心,将PCR Mix分装至0.2mL PCR管中,置于4℃冰箱保存。
表5:
1.2.4.3将上一步的文库转入已分装的PCR Mix,震荡混匀。
1.2.4.4短暂离心,置于PCR仪上,按下表6进行PCR反应。
表6:
1.2.5 DNA的获得(1x Beads回收)
1.2.5.1 PCR结束后,取出样本。短暂离心,加入50μL Beckman Agencourt AMPureXP磁珠。
1.2.5.2震荡混匀,室温孵育15min,使DNA与磁珠充分结合。注意震荡时按紧管盖。
1.2.5.3短暂离心,离心管置于磁力架上待液体澄清,弃去上清。注意:不要吸到磁珠。
1.2.5.4加入200μL 80%乙醇孵育30sec后弃去。注意:80%乙醇现用现配。重复一次200μL 80%乙醇清洗步骤。
1.2.5.5用10μL枪头吸尽离心管底部的残留乙醇,室温干燥3-5min至乙醇完全挥发(正面看不在反光,背面看已经干燥)。注意:磁珠过分干燥DNA产量会减少。
1.2.5.6从磁力架取下离心管,加入40μL超纯水,振荡混匀。
1.2.5.7室温孵育5min洗脱DNA。
1.2.5.8短暂离心,离心管置于磁力架上待液体澄清,将文库转移至新的离心管中。保存于-20℃。
1.2.6文库质检:
取1μL DNA文库用于浓度检测。
2)基于NGS测序方法,FFPE和BC样本的捕获如下(共42个HLA基因及与 HLA-A基因相关的假基因进行全长DNA捕获,覆盖18944种基因型):
2.1混合文库:
2.1.1取总量1μg的等量文库于1.5mL离心管中,根据每个文库的浓度和capture文库个数计算每个文库加入的体积。文库加入的体积是:(1000ng/capture文库个数/ 文库浓度)μL。
2.1.2加入Universal Blocking Oligos
向上述体系中加入2.5μL Universal Blocking Oligos。
2.1.3加入5μL COT Human DNA,震荡混匀,短暂离心。
2.2用封口膜封住EP管,放入真空离心浓缩仪中蒸干(60℃,约20min-1hr)。注意随时查看是否已蒸干。
2.3DNA变性:
2.3.1样本完全蒸干后,每个capture中加入7.5μL 2×Hybridization Buffer(vial5)和 3μL Hybridization Component A(vial 6),震荡混匀,短暂离心。
2.3.2置于95℃加热模块变性10min。
2.4文库与探针杂交:
2.4.1取出探针短暂离心后置于47℃PCR仪中,迅速将变性的DNA从95℃转移至含有探针的PCR管中,震荡混匀,短暂离心。
2.4.2置于PCR仪中,47℃杂交,杂交时间应不少于16hr。
2.5配制Wash Buffer工作液:
2.5.1一个capture所需缓冲液的配制方法如下表7,根据capture的个数按下表7配制缓冲液。
表7:
2.5.2分装需要孵育的试剂:
分装400μL 1×Stringent Wash Buffer(vial4)至八连排中;
分装100μL1×Wash Buffer I(vial 1)至八连排中;
分装20μL Capture Beads至八连排中。
2.5.3孵育Capture Beads和Wash Buffer(vial 4和vial 1)工作液:
Capture Beads使用前须室温平衡30min。
Wash Buffer(vial 4和vial 1)工作液使用前须47℃孵育2hr。
2.6杂交后纯化:
2.6.1每个capture分装100μL捕获磁珠,将100μL捕获磁珠置于磁力架上至液体澄清,弃去上清。
2.6.2加入200μL 1×Bead Wash Buffer(vial 7),震荡混匀。置于磁力架上至液体澄清,弃去上清。
2.6.3加入200μL 1×Bead Wash Buffer(vial 7),震荡混匀。置于磁力架上至液体澄清,弃去上清。
2.6.4加入100μL 1×Bead Wash Buffer(vial 7),震荡混匀。置于磁力架上至液体澄清,弃去上清。此时磁珠预处理完成,立即进行下一步试验。
2.6.5将捕获过夜的杂交液体转入清洗好的磁珠中,移液器吹打十次。置于PCR 仪中47℃孵育45min(PCR热盖温度设为57℃),每隔15min震荡一次保证磁珠悬浮。
2.7清洗:
2.7.1孵育完成后,每管加入100μL 47℃预热的1×Wash Buffer I(vial 1),震荡混匀。置于磁力架上至液体澄清,弃去上清。
2.7.2加入200μL 47℃预热的1×Stringent Wash Buffer(vial 4),移液器吹打十次混匀。47℃孵育5min,置于磁力架上至液体澄清,弃去上清。注意操作过程尽量避免温度低于47℃。
2.7.3加入200μL 47℃预热的1×Stringent Wash Buffer(vial 4),移液器吹打十次混匀。47℃孵育5min,置于磁力架上至液体澄清,弃去上清。注意操作过程尽量避免温度低于47℃。
2.7.4加入200μL室温放置的1×Wash Buffer I(vial 1),振荡2min,短暂离心,置于磁力架上至液体澄清,弃去上清。
2.7.5加入200μL室温放置的1×Wash Buffer II(vial 2),震荡1min,短暂离心,放置磁力架上至液体澄清,弃去上清。
2.7.6加入200μL室温放置的1×Wash Buffer III(vial 3),震荡30sec,短暂离心,放置磁力架上至液体澄清,弃去上清。
2.7.7向离心管中加入20μL超纯水洗脱,震荡混匀,进行下一步扩增试验。
2.8 Post-LM-PCR:
2.8.1按照下表8配制Post-LM-PCR Mix,震荡混匀。
表8:
试剂 体积
KAPA HiFi HotStart ReadyMix 25μL
Post-LM-PCR Oligos 1&2,5μM 5μL
上一步洗脱的DNA 20μL
Total 50μL
2.8.2上述样本转入PCR反应中,震荡混匀,短暂离心。
2.8.3置于PCR仪上,按下表9进行PCR反应:
表9:
2.9扩增后纯化:
2.9.1取出纯化磁珠(DNA Purification Beads),室温平衡30min备用。
2.9.2取90μL纯化磁珠于1.5mL离心管中,加入50μL扩增后的捕获DNA文库,振荡混匀,室温孵育15min。
2.9.3置于磁力架上至液体澄清,弃去上清。
2.9.4加入200μL 80%乙醇孵育30sec后弃去。注意:80%乙醇现用现配。重复一次200μL 80%乙醇清洗步骤。
2.9.5用10μL枪头弃去离心管底部的残留乙醇,室温干燥至乙醇完全挥发(前面看磁珠不反光,背面看干燥)。注意:磁珠过分干燥DNA产量会减少。
2.9.6从磁力架取下离心管,加入50μL超纯水,振荡混匀。室温孵育2min。
2.9.7短暂离心,置于磁力架上至液体澄清,将capture样本转入新的离心管中。
2.10质检:
取1μL capture样本用于Qubit浓度检测。
3)在illumina二代测序仪上完成测序,测序平台产出碱基序列信息,形成FASTQ格式的原始测序数据。
4)基于下机的FASTQ格式原始测序数据,利用本申请的方法分别进行过滤、与 HLA基因型数据库比对、计算HLA基因型支持分值、定量评估HLA基因型配对,最后输出结果。
5)试验结果:
对4位患者的HLA基因进行分型和配对,与PCR的验证结果进行比较,一致率为91.67%(22/24),达到了较高的灵敏度、准确率以及准确的配对。
实施例2:
对89位患者肿瘤组织的FFPE样本和BC(血液白细胞)样本分别进行DNA提取和HLA基因捕获,基于该方法进行HLA基因分型,最后比较两组样本之间HLA基因分型结果的一致性。具体试验方法同实施例1。
试验结果:
对89位患者的肿瘤组织FFPE样本和BC(血液白细胞)样本的HLA基因分别进行分型和配对,两组结果之间的一致性为100%,达到了较高的灵敏度、准确率以及准确的配对。
从上述实施例的结果可以看出,本申请的HLA基因分型的方法通过构建包含与HLA基因序列非常相近的HLA假基因序列的HLA基因分型数据库,并且加入了除编码区DNA序列外的内含子区域的DNA序列,因而一方面能够降低分型的假阳性结果,另一方面有助于提高分型的灵敏度。在此基础上,进一步增加了评估HLA基因型配对可能性的定量打分机制,从而使得分型的结果更灵敏、更可靠和更准确。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (16)

1.一种HLA基因分型的方法,其特征在于,所述方法包括:
构建HLA基因型数据库,所述HLA基因型数据库包括与HLA-A基因相关的假基因的DNA序列;
将待测样本的测序数据与所述HLA基因型数据库进行比对,保留满足预定条件的基因型作为比对结果;
选择所述比对结果中比对分值最高的基因型作为所述待测样本的HLA基因分型的结果。
2.根据权利要求1所述的方法,其特征在于,所述HLA基因型数据库包括42个HLA基因的18944种基因型的DNA序列,优选所述DNA序列包括外显子DNA序列和内含子DNA序列。
3.根据权利要求1所述的方法,其特征在于,将待测样本的测序数据与所述HLA基因型数据库进行比对,保留满足预定条件的基因型作为比对结果,所述预定条件包括以下至少之一:
比对到外显子区域且没有错配;
比对到内含子区域且至多有2个错配。
4.根据权利要求1至3中任一项所述的方法,其特征在于,选择所述比对结果中比对分值最高的基因型作为所述待测样本的HLA基因分型的结果包括:
计算所述比对结果中比对到各目标HLA基因型的序列数与比对到总的HLA基因型的序列数之和的比例,作为与各所述目标HLA基因型的比对结果的权重;
基于与各所述目标HLA基因型的比对结果的权重及与所述目标HLA基因型的比对结果与所述目标HLA基因型在基因组位置上重叠区域的长度,计算各所述HLA基因型的支持分值;
选择所述支持分值最高的所述基因型作为所述待测样本的HLA基因分型的结果。
5.根据权利要求4所述的方法,其特征在于,选择所述支持分值最高的所述基因型在作为所述待测样本的HLA基因分型的结果包括:
选择所述支持分值最高的所述基因型与所述HLA基因型数据库中的任一基因型进行配对评估;
将评估分值最大的两个HLA基因型作为配对结果,所述配对结果即为所述待测样本的HLA基因型分型的结果。
6.根据权利要求5所述的方法,其特征在于,选择所述支持分值最高的所述基因型与所述HLA基因型数据库中的任一基因型进行配对评估包括:
分别计算处于待评估的配对状态的两种HLA基因型的支持分值;
将所述配对状态的两种HLA基因型的支持分值的总和作为所述待评估的配对状态的两种HLA基因型的评估分值。
7.根据权利要求4所述的方法,其特征在于,所述待测样本的测序数据包括42个HLA基因的全长DNA序列,所述全长DNA序列包括外显子DNA序列和内含子DNA序列,其中,各所述HLA基因型的支持分值为组成各所述HLA基因型的各个外显子DNA序列的支持分值之和,每个所述外显子DNA序列的支持分值通过以下方法计算得到:
计算所述比对结果中比对到所述目标HLA基因型的DNA序列的序列数与比对到总的HLA基因型的序列数之和的比例,作为与各所述外显子DNA序列的比对结果的权重;
各所述外显子DNA序列的比对结果的权重及与各所述外显子DNA序列的比对结果与所述外显子DNA序列在基因组位置上重叠区域的长度的乘积,即为每个所述外显子DNA序列的支持分值。
8.一种HLA基因分型的装置,其特征在于,所述装置包括:
构建模块,用于构建HLA基因型数据库,所述HLA基因型数据库包括与HLA-A基因相关的假基因的DNA序列;
比对模块,用于将待测样本的测序数据与所述HLA基因型数据库进行比对,保留满足预定条件的基因型作为比对结果;
分型模块,用于选择所述比对结果中比对分值最高的基因型作为所述待测样本的HLA基因分型的结果。
9.根据权利要求8所述的装置,其特征在于,所述HLA基因型数据库包括42个HLA基因的18944种基因型的DNA序列,优选所述DNA序列包括外显子DNA序列和内含子DNA序列。
10.根据权利要求8所述的装置,其特征在于,所述比对模块中的所述预定条件包括以下至少之一:
比对到外显子区域且没有错配;
比对到内含子区域且至多有2个错配。
11.根据权利要求8至10中任一项所述的装置,其特征在于,所述分型模块包括:
权重计算模块,用于计算所述比对结果中比对到各目标HLA基因型的序列数与比对到总的HLA基因型的序列数之和的比例,作为与各所述目标HLA基因型的比对结果的权重;
支持分值计算模块,用于基于与各所述目标HLA基因型的比对结果的权重及与所述目标HLA基因型的比对结果与所述目标HLA基因型在基因组位置上重叠区域的长度,计算各所述HLA基因型的支持分值;
支持分值选择模块,用于选择所述支持分值最高的所述基因型作为所述待测样本的HLA基因分型的结果。
12.根据权利要求11所述的装置,其特征在于,所述支持分值选择模块包括:
配对评估模块,用于选择所述支持分值最高的所述基因型与所述HLA基因型数据库中的任一基因型进行配对评估;
配对筛选模块,用于将评估分值最大的两个HLA基因型作为配对结果,所述配对结果即为所述待测样本的HLA基因型分型的结果。
13.根据权利要求12所述的装置,其特征在于,所述配对评估模块包括:
第一计算子模块,用于分别计算处于待评估的配对状态的两种HLA基因型的支持分值;
评估子模块,用于将所述待评估的配对状态的两种HLA基因型的支持分值的总和作为所述待评估的配对状态的两种HLA基因型的评估分值。
14.根据权利要求11所述的装置,其特征在于,所述待测样本的测序数据包括42个HLA基因的全长DNA序列,所述全长DNA序列包括外显子DNA序列和内含子DNA序列,其中,支持分值计算模块包括:加和计算模块,用于将组成各所述HLA基因型的各个外显子DNA序列的支持分值之和记为各所述HLA基因型的支持分值,其中,每个所述外显子DNA序列的支持分值通过以下外显子计算模块得到:
第二计算子模块,用于计算所述比对结果中比对到所述目标HLA基因型的DNA序列的序列数与比对到总的HLA基因型的序列数之和的比例,作为与各所述外显子DNA序列的比对结果的权重;
乘积模块,用于将各所述外显子DNA序列的比对结果的权重及与各所述外显子DNA序列的比对结果与所述外显子DNA序列在基因组位置上重叠区域的长度相乘,并记为每个所述外显子DNA序列的支持分值。
15.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至7中任意一项所述的HLA基因分型的方法。
16.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的HLA基因分型的方法。
CN201910104065.3A 2019-01-18 2019-01-18 Hla基因分型的方法、装置、存储介质及处理器 Active CN110033827B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910104065.3A CN110033827B (zh) 2019-01-18 2019-01-18 Hla基因分型的方法、装置、存储介质及处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910104065.3A CN110033827B (zh) 2019-01-18 2019-01-18 Hla基因分型的方法、装置、存储介质及处理器

Publications (2)

Publication Number Publication Date
CN110033827A true CN110033827A (zh) 2019-07-19
CN110033827B CN110033827B (zh) 2023-06-20

Family

ID=67235622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910104065.3A Active CN110033827B (zh) 2019-01-18 2019-01-18 Hla基因分型的方法、装置、存储介质及处理器

Country Status (1)

Country Link
CN (1) CN110033827B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111312332A (zh) * 2020-02-13 2020-06-19 国家卫生健康委科学技术研究所 基于hla基因的生物信息处理方法、装置及终端
CN113035276A (zh) * 2021-03-11 2021-06-25 深圳荻硕贝肯精准医学有限公司 人类hla染色体区域杂合性缺失的分析方法和系统
CN116230082A (zh) * 2022-12-06 2023-06-06 序科码医学检验实验室(广州)有限公司 基于样品基因型的数据拆分的无标记多样品混合单细胞测序技术
CN116606942A (zh) * 2023-07-19 2023-08-18 浙江大学海南研究院 一种基于液相芯片技术检测畜禽基因组结构变异的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040084790A (ko) * 2003-03-25 2004-10-06 바이오코아 주식회사 Hla 유전자형 분석을 위한 올리고뉴크레오티드 조성물및 그 검사 방법
CN103221551A (zh) * 2010-11-23 2013-07-24 深圳华大基因科技有限公司 Hla基因型别-snp连锁数据库、其构建方法、以及hla分型方法
CN108866173A (zh) * 2017-05-16 2018-11-23 深圳华大基因科技服务有限公司 一种标准序列的验证方法、装置及其应用

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040084790A (ko) * 2003-03-25 2004-10-06 바이오코아 주식회사 Hla 유전자형 분석을 위한 올리고뉴크레오티드 조성물및 그 검사 방법
CN103221551A (zh) * 2010-11-23 2013-07-24 深圳华大基因科技有限公司 Hla基因型别-snp连锁数据库、其构建方法、以及hla分型方法
CN108866173A (zh) * 2017-05-16 2018-11-23 深圳华大基因科技服务有限公司 一种标准序列的验证方法、装置及其应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵一贺等: "用于临床HLA分型的下一代测序技术", 《实用器官移植电子杂志》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111312332A (zh) * 2020-02-13 2020-06-19 国家卫生健康委科学技术研究所 基于hla基因的生物信息处理方法、装置及终端
CN111312332B (zh) * 2020-02-13 2020-10-30 国家卫生健康委科学技术研究所 基于hla基因的生物信息处理方法、装置及终端
CN113035276A (zh) * 2021-03-11 2021-06-25 深圳荻硕贝肯精准医学有限公司 人类hla染色体区域杂合性缺失的分析方法和系统
CN116230082A (zh) * 2022-12-06 2023-06-06 序科码医学检验实验室(广州)有限公司 基于样品基因型的数据拆分的无标记多样品混合单细胞测序技术
CN116230082B (zh) * 2022-12-06 2024-05-14 序科码医学检验实验室(广州)有限公司 基于样品基因型的数据拆分的无标记多样品混合单细胞测序方法
CN116606942A (zh) * 2023-07-19 2023-08-18 浙江大学海南研究院 一种基于液相芯片技术检测畜禽基因组结构变异的方法

Also Published As

Publication number Publication date
CN110033827B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
CN110033827A (zh) Hla基因分型的方法、装置、存储介质及处理器
Carter et al. Single T cell sequencing demonstrates the functional role of αβ TCR pairing in cell lineage and antigen specificity
CN109817279A (zh) 肿瘤突变负荷的检测方法、装置、存储介质及处理器
WO2022048106A1 (zh) 基于捕获测序技术的肿瘤突变负荷检测装置及方法
Afik et al. Targeted reconstruction of T cell receptor sequence from single cell RNA-seq links CDR3 length to T cell differentiation state
Hedrick et al. Heterozygosity at individual amino acid sites: extremely high levels for HLA-A and-B genes.
Wiseman et al. Haplessly hoping: macaque major histocompatibility complex made easy
Li et al. TCRβ repertoire of CD4+ and CD8+ T cells is distinct in richness, distribution, and CDR3 amino acid composition
Buus Description and prediction of peptide-MHC binding: the ‘human MHC project’
Firtina et al. On genomic repeats and reproducibility
JP2018535652A5 (zh)
CN108601820A (zh) 用于病毒癌症新表位的组合物和方法
CN103221551A (zh) Hla基因型别-snp连锁数据库、其构建方法、以及hla分型方法
Alleva et al. Cataloging human PRDM9 allelic variation using long-read sequencing reveals PRDM9 population specificity and two distinct groupings of related alleles
CN110106063B (zh) 基于二代测序的用于神经胶质瘤1p/19q联合缺失检测的系统
Shrock et al. VirScan: high-throughput profiling of antiviral antibody epitopes
RU2744604C2 (ru) Способ неинвазивного пренатального выявления эмбриональной хромосомной анеуплоидии по материнской крови
CN113046835A (zh) 检测慢病毒插入位点的测序文库构建方法和慢病毒插入位点检测方法
Kangueane et al. Towards the MHC-peptide combinatorics
Chandra et al. Inferring bound structure and residue specific contributions to binding energetics in the Intrinsically Disordered Protein, CcdA
CN114854737A (zh) 基于三代测序平台的i类hla基因扩增引物、试剂盒及分型方法
Nyarady et al. Validation of in silico prediction by in vitro immunoserological results of fine epitope mapping on citrate synthase specific autoantibodies
CN113981063A (zh) 免疫球蛋白A肾病RhoGTPase相关诊断标志物
CN115485389A (zh) 皮克量dna的全基因组测序方法
EP3969993A1 (en) Immunorepertoire wellness assessment systems and methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant