CN112669903B

CN112669903B - 基于Sanger测序的HLA分型方法及设备

Info

Publication number: CN112669903B
Application number: CN202011600233.7A
Authority: CN
Inventors: 郭同垒; 何胜; 刘明坤; 叶锋
Original assignee: Beijing Genomeprecision Technology Co ltd
Current assignee: Beijing Genomeprecision Technology Co ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2024-04-02
Anticipated expiration: 2040-12-29
Also published as: CN112669903A

Abstract

本申请涉及一种基于Sanger测序的HLA分型方法及设备，包括：获取待识别基因的测序数据；根据待识别基因的测序数据，基于预先训练的碱基识别模型，得到待识别基因各位点的正确碱基信号；判读所述待识别基因的核酸序列并与参考序列比对获得差异位点，基于预先整理的等位基因型与所述差异位点，采用位运算比较获得HLA分型结果。由于碱基识别模型以非正常碱基的测序数据作为样本数据进行训练，训练得到的碱基识别模型可以对Sanger测序数据中存在的低质量、杂合碱基和污染信号等非正常碱基进行识别，使用位运算快速获得等位基因型分型结果，解决了人工进行识别速度慢、准确性低的问题。

Description

基于Sanger测序的HLA分型方法及设备

技术领域

本申请涉及生物信息技术领域，尤其涉及一种基于Sanger测序的HLA分型方法及设备。

背景技术

HLA(human leukocyte antigen，人类白细胞抗原)是人类的主要组织相容性复合体(MHC)的表达产物，该系统是所知人体最复杂的多态系统，HLA是免疫遗传学、免疫生物学和生物化学等学科的一个重要研究领域。HLA分型在医学免疫学中有重要应该价值。目前HLA分型方法主要包括血清学分型和DNA分型。DNA分型方法中的HLA-SBT算法是目前公认的黄金标准，它通过对HLA相关基因的高多态性外显子(I型A、B、C基因为exon2、3、4，II型DQB1，DRB1基因exon2、3)进行Sanger测序(必要时配合GSSP的Sanger测序)，以达到高度分型的目的。

Sanger测序是根据核苷酸在某一固定的点开始，随机在某一个特定的碱基处终止，并且在每个碱基后面进行荧光标记，产生以A、T、C、G结束的四组不同长度的一系列核苷酸，自动变性后进行毛细管电泳，在四个光谱信号中由激光诱导产生荧光，根据检测到的荧光信号数据识别DNA碱基序列的一种方法。Sanger测序数据为.abi文件，文件记录了A、T、C、G四种碱基的信号值，由峰图展示，此外文件还记录了有Sanger测序仪自动判读得到的一条碱基序列，以及每个碱基的质量值。测序结果数据中，常会有一些重叠峰，造成此现象的原因可能是测序质量不好或者原始模板为杂合等原因。

HLA-SBT分型算法基于HLA基因的碱基多态性进行，因此该算法高度依赖于输入序列的准确性，然而Sanger测序数据中存在低质量、杂合碱基、污染信号。目前针对于Sanger测序结果的不确定碱基结果，主要依赖人工进行判读，现有软件只是根据人工确定的碱基给出样品的等位基因型，并非直接获得结果，而不同工作经验的人进行判读可能结果有差异，且对于大批量测序来说，人工判读会消耗大量时间，对于病人来说准确性和时效性是至关重要的。

发明内容

为至少在一定程度上克服相关技术中存在的问题，本申请提供一种基于Sanger测序的HLA分型方法及设备。

本申请的方案如下：

根据本申请实施例的第一方面，提供一种基于Sanger测序的HLA分型方法，包括：

获取待识别基因的测序数据；

根据所述待识别基因的测序数据，基于预先训练的碱基识别模型，得到所述待识别基因各位点的正确碱基信号；其中，所述碱基识别模型以非正常碱基的测序数据作为样本数据进行训练；

判读所述待识别基因的核酸序列并与参考序列比对获得差异位点，基于预先整理的等位基因型与所述差异位点，采用位运算比较获得HLA分型结果。

优选的，在本申请一种可实现的方式中，还包括：

收集历史HLA分型项目中的非正常碱基位点的序列HLA分型结果和测序峰图，以及根据所述非正常碱基位点的序列HLA分型结果和测序峰图判读的所述非正常碱基位点的最终碱基值；

整理所述非正常碱基位点中A、T、G、C四个碱基各自信号峰值前后的信号值；

获取所述非正常碱基位点对应的人群频率；

将所述非正常碱基位点中A、T、G、C四个碱基各自信号峰值前后的信号值和所述非正常碱基位点对应的人群频率作为训练所述碱基识别模型的特征参量；

根据判读的所述非正常碱基位点的最终碱基值，对包含所述特征参量的所述非正常碱基位点的特征数据进行分类，将分类的所述特征数据作为样本数据训练所述碱基识别模型。

优选的，在本申请一种可实现的方式中，所述采用位运算比较获得HLA分型结果，具体包括：

将A、T、G、C四个碱基进行数字化映射为1、2、4、8，使用位运算快速判定与测序结果一致的HLA分型结果。

优选的，在本申请一种可实现的方式中，所述整理所述非正常碱基位点中A、T、G、C四个碱基各自信号峰值前后的信号值，具体包括：整理所述非正常碱基位点中A、T、G、C四个碱基各自信号峰值前后4bp的信号值。

优选的，在本申请一种可实现的方式中，所述获取所述非正常碱基位点对应的人群频率，具体包括：

根据中华骨髓库CWD表获取所述非正常碱基位点对应的人群频率，进而计算所述非正常碱基位点中A、T、G、C四个碱基各自的频率，获得A、T、G、C四个碱基各自在相应位置的打分矩阵；

根据所述打分矩阵确定所述非正常碱基位点对应的人群频率。

优选的，在本申请一种可实现的方式中，所述根据判读的所述非正常碱基位点的最终碱基值，对包含所述特征参量的所述非正常碱基位点的特征数据进行分类，具体包括：

以所述非正常碱基位点中的A、T、G、C四个碱基为基准，将判读的所述非正常碱基位点的最终碱基值中包括的碱基确定为阳性类，其余碱基确定为阴性类。

优选的，在本申请一种可实现的方式中，还包括：基于交叉验证将分类后的所述特征数据按照预设比例划分为训练数据及和验证数据；

将所述训练数据作为样本数据训练所述碱基识别模型。

优选的，在本申请一种可实现的方式中，还包括：

基于网格搜索确定所述样本数据中的用于训练所述碱基识别模型的最佳参数；

将所述最佳参数作为最终用于训练所述碱基识别模型的数据。

优选的，在本申请一种可实现的方式中，还包括：

将所述碱基识别模型运用于所述验证数据，检测所述碱基识别模型预测的准确率和灵敏度。

根据本申请实施例的第二方面，提供一种基于Sanger测序的HLA分型设备，包括：

处理器和存储器；

所述处理器与存储器通过通信总线相连接：

其中，所述处理器，用于调用并执行所述存储器中存储的程序；

所述存储器，用于存储程序，所述程序至少用于执行以上任一项所述的一种基于Sanger测序的HLA分型方法。

本申请提供的技术方案可以包括以下有益效果：本申请中的基于Sanger测序的HLA分型方法，包括：获取待识别基因的测序数据；根据待识别基因的测序数据，基于预先训练的碱基识别模型，得到待识别基因各位点的正确碱基信号；判读所述待识别基因的核酸序列并与参考序列比对获得差异位点，基于预先整理的等位基因型与所述差异位点，采用位运算比较获得HLA分型结果。由于碱基识别模型以非正常碱基的测序数据作为样本数据进行训练，训练得到的碱基识别模型可以对Sanger测序数据中存在的低质量、杂合碱基和污染信号等非正常碱基进行识别，使用位运算快速获得等位基因型分型结果，解决了人工进行识别速度慢、准确性低的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请一个实施例提供的一种基于Sanger测序的HLA分型方法的流程示意图；

图2是本申请一个实施例提供的一种基于Sanger测序的HLA分型方法中训练碱基识别模型的流程示意图；

图3是本申请一个实施例提供的一种基于Sanger测序的HLA分型设备的结构示意图。

附图标记：处理器-31；存储器-32。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

一种基于Sanger测序的HLA分型方法，参照图1，包括：

S11：获取待识别基因的测序数据；

S12：根据待识别基因的测序数据，基于预先训练的碱基识别模型，得到待识别基因各位点的正确碱基信号；其中，碱基识别模型以非正常碱基的测序数据作为样本数据进行训练；

S13：判读所述待识别基因的核酸序列并与参考序列比对获得差异位点，基于预先整理的等位基因型与所述差异位点，采用位运算比较获得HLA分型结果。

采用位运算比较获得HLA分型结果具体包括：

本申请中的基于Sanger测序的HLA分型方法，包括：获取待识别基因的测序数据；根据待识别基因的测序数据，基于预先训练的碱基识别模型，得到待识别基因各位点的正确碱基信号；判读所述待识别基因的核酸序列并与参考序列比对获得差异位点，基于预先整理的等位基因型与所述差异位点，采用位运算比较获得HLA分型结果。由于碱基识别模型以非正常碱基的测序数据作为样本数据进行训练，训练得到的碱基识别模型可以对Sanger测序数据中存在的低质量、杂合碱基和污染信号等非正常碱基进行识别，使用位运算快速获得等位基因型分型结果，解决了人工进行识别速度慢、准确性低的问题。

一些实施例中的基于Sanger测序的HLA分型方法，参照图2，训练碱基识别模型的流程如下：

S21：收集历史HLA分型项目中的非正常碱基位点的序列HLA分型结果和测序峰图，以及根据非正常碱基位点的序列HLA分型结果和测序峰图判读的非正常碱基位点的最终碱基值；

非正常碱基位点一般包括：测序质量较低的碱基位点，杂合位置碱基位点和污染位置碱基位点等。

本步骤为实验数据准备阶段，高质量的数据集对于碱基预测模型的准确性有一定影响，因此本实施例中使用人工挑选1000个已知等位基因型样品，每个样品包含5个基因位点(A、B、C、DRB1、DQB1)，其中I类基因对exon2、3、4正反向，II类基因对exon2、3进行测序(部分样品用GSSP引物进行测序)。为了消除实验系统误差和已知异常，采用多地多机型数据，并有意识挑选部分酒精、染料污染数据。

S22：整理非正常碱基位点中A、T、G、C四个碱基各自信号峰值前后的信号值；

完成实验数据准备阶段后，进行特征参数选取阶段。

对上述收集的碱基位点，整理该碱基位点A、T、G、C四个碱基，各自信号峰值前后4bp的信号值。

两个碱基位点间约10bp信号，一般来说碱基位点前后5bp属于该位点信号，通过对前后1、2、3、4、5bp进行测试，4bp内准确性最高。

具体的，对挑选的样品进行Sanger测序，测序结果为二进制abi文件。利用python3.7的abifpy模块，对原始数据进行读取，可以获得碱基序列、碱基质量值、碱基信号值等信息。选取质量值小于30(文件前后30bp以外的外显子区域)，杂合碱基以及测序仪判读同真实等位基因型不一致的碱基，作为特征提取位点。把当前碱基与前后碱基中点之间作为一个数据单元。从每个特征提取位点，确定A、T、G、C各自在本数据单元中，最大信号值位置，提取前后4bp共8个数据作为信号特征参量(如果存在多个最大值选择离主峰最近位置提取信号)。

S23：获取非正常碱基位点对应的人群频率；

通过国际免疫遗传学数据库(IMGT)数据库获得人类HLA基因序列信息及其比对结果，根据中华骨髓库CWD表获取非正常碱基位点对应的人群频率，进而计算非正常碱基位点中A、T、G、C四个碱基各自的频率(以IMGT数据库的比对结果的位置为准，不在CWD表的基因型频率默认为0)，获得A、T、G、C四个碱基各自在相应位置的打分矩阵；

IMGT有基因型的比对结果(对齐等长)，根据CWD表获得每个基因型的人群频率，进行统计获得每个碱基位点出现A、T、G、C碱基的人群频率，进而根据打分矩阵确定非正常碱基位点对应的人群频率。

S24：将非正常碱基位点中A、T、G、C四个碱基各自信号峰值前后的信号值和非正常碱基位点对应的人群频率作为训练碱基识别模型的特征参量；

按照特征提取方法，提取信号特征，为防止过拟合对数据进行归一化，所以加上了人群频率参数，每个特征提取点获得4组数据(A、T、G、C各一组)，每组数据含有9个参量(A、T、G、C四个碱基各自信号峰值前后的信号值和非正常碱基位点对应的人群频率)。

S25：根据判读的非正常碱基位点的最终碱基值，对包含特征参量的非正常碱基位点的特征数据进行分类，将分类的特征数据作为样本数据训练碱基识别模型。

具体包括：以非正常碱基位点中的A、T、G、C四个碱基为基准，将判读的非正常碱基位点的最终碱基值中包括的碱基确定为阳性类，其余碱基确定为阴性类。

如：与判读结果一致的碱基定义为阳性类Y＝1，反之Y＝0。

进一步的，

基于交叉验证将分类后的特征数据按照预设比例划分为训练数据及和验证数据；

将训练数据作为样本数据训练碱基识别模型。

本实施例中，从1000份真实样品中选择了约60万个数据，其中80％用于训练，20％用于验证。预设比例为4:1。

机器学习建立和验证模型，常用的方法之一就是交叉验证。在机器学习过程中，往往数据集是有限的，而且可能具有一定的局限性。如何最大化的利用数据集去训练、验证、测试模型，常用的方法就是交叉验证。交叉验证，就是重复的使用数据，对样本数据进行划分为多组不同的训练集和测试集(训练集训练模型，测试集评估模型)。

进一步的，

基于网格搜索确定样本数据中的用于训练碱基识别模型的最佳参数；

将最佳参数作为最终用于训练碱基识别模型的数据。

网格搜索是一种穷举的调参方法。通过循环遍历的方式，把每一种候选的参数组合，全部调试一遍。最后表现效果最好的参数就是最终的结果。

本实施例中，算法机器学习模型实质是区分Sanger测序结果中的正常碱基信号峰图与异常碱基信号峰图(含无信号)。采用支持向量机(SVM)作为构建模型的方法，以python3.7作为编程语言，调用器机器学习工具包scikit-learn进行模型构建和测试，scikit-learn是一款针对python编程语言的机器学习库，其具有各种分类回归和聚类算法，包括支持向量机，随机深林，梯度提升等。

本实施例中使用SVM的RBF核，参数选择区间，"gamma":[0.01,0.1,1,10],"C":[0.01,0.1,1,10]，采用sklearn.model_selection中的GridSearchCV工具进行最佳参数选择，基于训练数据集进行基于5折交叉验证的网格搜索，获取最佳的gamma和C参数作为模型最终参数。本实施例中，将“probability”参数设置为True，以方便后续核酸序列判定时应用置信度。

本实施例中机器学习方法选择支持向量机(SVM)，核函数选择径向基函数(RBF)。将机器学习方法运用于训练数据，采用基于交叉验证的网格搜索确定训练碱基识别模型的最佳参数，并进行保存。

进一步的，

将碱基识别模型运用于验证数据，检测碱基识别模型预测的准确率和灵敏度。

在碱基识别模型预测的准确率和灵敏度达到预设要求时，即可将碱基识别模型投入使用。

进一步的，在核酸序列判定阶段，

最终得到的碱基识别模型可用于碱基序列判读，对于低质量的杂合碱基位点，可利用该模型判读位点真实碱基，碱基识别模型输出当前位置的正确碱基，用模型每个位置进行识别可获得最终的碱基序列。

对于正反双向测序的结果，选取平均置信度高的结果，作为最终碱基，进而获得完整样品核酸序列。

碱基识别模型可以获得一个位点的正确碱基，获得核酸序列需要使用模型进行遍历。

具体的，判定每个位置的碱基，将碱基连接成最终的核酸序列。在实施时，对于单向测序结果，在某一位点上4个碱基如果算法判定存在2个以上阳性结果(Y＝1)时，选择置信度最高两个碱基组成的杂合碱基作为判定结果。如果进行了双向测序，选择阳性结果中平均置信度高的作为最终结果。

进一步的，进行HLA等位基因型即HLA分型结果的判定

等位基因型的判定是根据样品的核酸序列，同数据库中所有基因型两两配对组成的序列，比较一致性。在实施时，选取各个基因中频率最高的基因型，作为参考序列，对所有等位基因型组成的序列提取变异数据，构建一个变异数据库。在识别时，将样品的核酸序列按照相同的方式提取变异，直接比较变异信息的一致性可以大大节省运算时间。在比较一致性时，可以将碱基按照A＝1,T＝2,G＝4,C＝8,M＝9,R＝5,S＝12,V＝13,W＝3,Y＝10,H＝11,K＝6,D＝7,B＝14,N＝15数字化后，采用位运算可进一步提高运算速度，实测(C语言编写核心算法)1s内可以获得分型结果。

进一步的，与人工分型速度与准确性比较。

选取HLA中A、B、C、DRB1、DQB1各100份数据，一方面使用本发明中的算法获得分型结果，另一方面邀请五名接受过培训的工程师，根据测序图矫正测序结果，借助辅助分型软件获得分型结果。运算环境资源为i7-9700内存16G，本发明用时5min20s正确率为99.2％，人工平均分型用时1h30min，平均正确率为92.8％。

一些实施例中的基于Sanger测序的HLA分型方法，还包括：异常提示。

为了确保算法完整，对于以下异常或者特殊情况给出提示：

1、最终判定碱基人群频率为0；

2、出现特殊基因型，例如相对于参考基因型存在插入缺失或可变剪接基因型；

3、出现新基因型，即出现当前数据库中不存在的基因型；

4、测序结果.abi文件平均质量低于40或者存在严重污染；

5、其它算法异常。

一种基于Sanger测序的HLA分型设备，参照图3，包括：

处理器31和存储器32；

处理器31与存储器32通过通信总线相连接：

其中，处理器31，用于调用并执行存储器32中存储的程序；

存储器32，用于存储程序，程序至少用于执行以上任一实施例中的一种基于Sanger测序的HLA分型方法。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于Sanger测序的HLA分型方法，其特征在于，包括：

获取待识别基因的测序数据；

判读所述待识别基因的核酸序列并与参考序列比对获得差异位点，基于预先整理的等位基因型与所述差异位点，采用位运算比较获得HLA分型结果；

训练碱基识别模型，包括：

获取所述非正常碱基位点对应的人群频率；

根据判读的所述非正常碱基位点的最终碱基值，对包含所述特征参量的所述非正常碱基位点的特征数据进行分类，将分类的所述特征数据作为样本数据训练所述碱基识别模型；

采用位运算比较获得HLA分型结果，具体包括：

2.根据权利要求1所述的方法，其特征在于，所述整理所述非正常碱基位点中A、T、G、C四个碱基各自信号峰值前后的信号值，具体包括：整理所述非正常碱基位点中A、T、G、C四个碱基各自信号峰值前后4bp的信号值。

3.根据权利要求1所述的方法，其特征在于，所述获取所述非正常碱基位点对应的人群频率，具体包括：

4.根据权利要求3所述的方法，其特征在于，所述根据判读的所述非正常碱基位点的最终碱基值，对包含所述特征参量的所述非正常碱基位点的特征数据进行分类，具体包括：

5.根据权利要求4所述的方法，其特征在于，还包括：基于交叉验证将分类后的所述特征数据按照预设比例划分为训练数据及和验证数据；

将所述训练数据作为样本数据训练所述碱基识别模型。

6.根据权利要求5所述的方法，其特征在于，还包括：

7.根据权利要求6所述的方法，其特征在于，还包括：

8.一种基于Sanger测序的HLA分型设备，其特征在于，包括：

处理器和存储器；

所述处理器与存储器通过通信总线相连接：

所述存储器，用于存储程序，所述程序至少用于执行权利要求1-7任一项所述的一种基于Sanger测序的HLA分型方法。