CN111583997B

CN111583997B - 杂合变异下校正第三代测序数据中测序错误的混合方法

Info

Publication number: CN111583997B
Application number: CN202010373513.2A
Authority: CN
Inventors: 王嘉寅; 刘佳琦; 赖欣; 萧笑; 张选平; 朱晓燕
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2022-03-01
Anticipated expiration: 2040-05-06
Also published as: CN111583997A

Abstract

本发明公开了一种杂合变异下校正第三代测序数据中测序错误的混合方法，输入数据为第二代测序数据和第三代测序数据，利用已有的比对软件和组装软件对输入数据进行处理，基于贝叶斯分类器原理对基因位点的杂合性进行判断，结合杂合判断的结果对第三代测序数据中的读段进行校正，解决了现有校正算法在处理杂合变异时的低准确度和无效性的问题。本发明在校正测序错误时考虑了杂合变异，设计了一系列概率模型对杂合性进行判断和分类，再针对不同的杂合性分类采用不同的校正策略，解决了已有校正方法遇到杂合变异时出现校正错误的问题。

Description

杂合变异下校正第三代测序数据中测序错误的混合方法

技术领域

本发明属于第三代测序技术领域，具体涉及一种杂合变异下校正第三代测序数据中测序错误的混合方法。

背景技术

基因组测序技术，尤其是单分子长读测序技术，也称为第三代测序(英文名称：Third Generation Sequence，英文缩写：TGS)，彻底改变了基因组学的研究。 TGS技术不仅延续了下一代测序(英文名称：Next Generation Sequence,英文缩写： NGS)技术的高通量等优点，而且产生的读段长度更长，可达到10kbp。因此， TGS技术为许多领域带来了巨大推动力，例如结构变异的检测，甲基化的鉴定以及疾病的诊断。虽然TGS在读段长度和其他许多方面处于领先地位，但由于测序技术的限制，其测序错误率远高于NGS，这也给进一步的研究带来困难。目前来看，虽然TGS的测序错误率随着技术的进步而逐渐降低，但在过去十年中积累的PB级测序数据也不能丢弃，因此，对TGS数据的测序错误校正仍是本领域研究的热点与难点。

目前，国内外的科研人员在第三代测序数据校正算法的研究上已取得了一些成果，尽管这些算法在整体校正准确性上的表现尚可，但是对杂合变异的校正效果较差。现有的方法一般分为两类：自校正(英文名称：self-correction)和混合校正(英文名称：hybrid-correction)。自校正的核心思想是通过在第三代测序长读段(英文名称：LongRead，英文缩写：LR)数据之间建立多重比对并计算局部比对，进而找到LR之间的一致序列。这种方法实际上是基于多重比对和局部比对来估计杂合变异，但其对杂合变异的校正性能通常被LR的覆盖度所限制。当前，由于测序成本的原因，已有的TGS数据集的覆盖度往往很低，极大限制了自校正的应用，也使得对杂合变异的准确校正更难实现。例如，当LR的覆盖度小于2时，从数学期望的角度考虑，几乎不可能将杂合变异与测序错误或纯合变异区分开。

由于自校正存在上述问题，混合校正在实践中更受欢迎。混合校正的基本思想是：给定LR和第二代测序短读段(英文名称：Short Read，英文缩写：SR)，将SR比对到LR上，然后针对该比对结果进行投票，获得最多投票的等位基因就是最终的校正结果。可以看出，混合校正的核心是投票，一些最新研究也是基于投票过程进行改进，而当前的混合校正算法不能解决杂合变异校正的原因也在于算法本身的结构问题。图1展示了错误校正的示例，混合校正算法错误处理杂合变异示意图。L和S分别表示第三代测序和下一代测序数据集，L_i表示L中的第 i个长读段，S_i表示S中的第i个短读段，

表示L_i的第j个碱基，

表示S_i的第j个碱基。可以看出，由于仅通过碱基个数比进行投票校正，本不应该被校正的杂合变异

被错误地从等位基因A校正为等位基因C。此外，即使在SR上考虑杂合变异，由于每个长读段被独立处理，也不能实现杂合变异和噪声的区分。另一方面，算法的目的是校正LR，因此为了控制成本，SR的覆盖率低，这也不利于杂合变异的识别。除此之外，每校正一个长读段都需要将所有SR重新比对一遍，进而导致了校正的低效率。上述这些都使得现有方法校正杂合变异时的表现很差。

然而，在许多情况下，杂合变异比纯合变异更为普遍，并且杂合性在疾病的基因型-表型分析和遗传学研究中起着重要作用。区分杂合变异与测序错误是正确处理杂合变异的关键和难点，现有方法中简单的投票过程无法处理此类复杂状况。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种杂合变异下校正第三代测序数据中测序错误的混合方法，解决由于现有校正算法的单一投票机制等算法结构问题所带来的杂合变异误校正，突破测序数据的读段长度以及覆盖度对校正算法准确度尤其是对杂合变异的校正准确度的负面影响，实现低覆盖度测序数据杂合变异校正的精确度提高。

本发明采用以下技术方案：

杂合变异下校正第三代测序数据中测序错误的混合方法，包括以下步骤：

S1、输入第二代测序短读段数据S和第三代测序长读段数据L，得到重叠群并按顺序首尾相接得到一个基因序列；

S2、把第二代测序短读段数据S和第三代测序长读段数据L与伪参考序列 Ref比对，分别获得第二代测序短读段数据S和第三代测序长读段数据L的比对成功长读段数据集Lm和比对失败长读段数据集Lu，并储存；

S3、分别为第二代测序短读段数据S和第三代测序长读段数据L建立两组概率模型，计算纯合性和杂合性的后验概率，并以后验概率的值高的一方作为判断结果；

S4、根据步骤S3得出的位点R_i杂合判断结果，校正位点R_i下对应的比对成功长读段数据集Lm中的所有位点，遍历伪参考序列Ref上的所有位点，重复以上校正策略，直到比对成功长读段数据集Lm中的所有读段都被校正；

S5、使用步骤S3得出的第二代测序短读段数据S的杂合性判断结果和对比对失败长读段数据集Lu进行校正，将校正后的结果混合，得到L的完整校正结果。

具体的，步骤S2中，比对成功长读段数据集Lm为比对一致比例大于等于 90％的读段，比对失败长读段数据集Lu为剩余的读段。

具体的，具体步骤如下：

S301、统计位点R_i下第二代测序短读段数据S和第三代测序长读段数据L的比对结果中的碱基具体类型和数量和出位点R_i下的长读段深度RD_i和短读段深度 rd_i，其中，第三代测序长读段数据L的比对结果中的碱基类型按出现频次从大到小排序，用X_q表示，对应出现频次用|X_q|表示，第二代测序短读段数据S的比对结果中的碱基类型和数量分别用x_q和|x_q|表示，q＝1,2,3,4,5；

S302、明确第三代测序长读段数据L比对结果中的碱基类型X_q和第二代测序短读段数据S比对结果中碱基类型x_q中各碱基的条件概率，根据基因组学碱基分布模型，碱基分布模型服从二项分布；

S303、根据先验概率和条件概率基于贝叶斯概率模型计算当前比对结果下位点R_i下第二代测序短读段数据S和第三代测序长读段数据L比对结果的杂合与纯合的概率；

S304、根据步骤S303计算出的位点R_i下第二代测序短读段数据S和第三代测序长读段数据L比对结果的杂合与纯合的概率，取概率值大的作为杂合性判断结果。

进一步的，步骤S302中，对于X_q中的各碱基，假设服从概率为P₁的二项分布，即X_q～Bin(D_q,P₁)，则X_q发生|X_q|次的概率为：

其中，P₁是第三代测序技术的测序误差先验概率，D_q为位点R_i下来自长读段的碱基的比对深度；

对于x_q中的各碱基，假设服从概率为P₂的二项分布，即x_q～Bin(d_q,P₂)，则x_q发生|x_q|次的概率为：

其中，P₂是第二代测序技术的测序误差先验概率，d_q为位点R_i下来自短读段的碱基的比对深度。

进一步的，步骤S303中，对应位点R_i下的比对结果碱基种类为：

kind＝1时，第二代测序短读段数据S和第三代测序长读段数据L均判定为纯合；

kind＝2时，对于第三代测序长读段数据L，即|X₁|+|X₂|＝RD_i，对于第二代测序短读段数据S，即|x₁|+|x₂|＝rd_i，根据贝叶斯概率模型分别计算纯合与杂合的后验概率；

kind＝3时，对于第三代测序长读段数据L，即|X₁|+|X₂|+|X₃|＝RD_i，根据贝叶斯概率模型分别计算纯合与杂合的后验概率P(c is homozygosity|{X₁,X₂,X₃})和 P(c isheterozygosity|{X₁,X₂,X₃})；对于第二代测序短读段数据S，即|x₁|+|x₂|+|x₃|＝rd_i，根据贝叶斯概率模型分别计算纯合与杂合的后验概率P(c is homozygosity|{x₁,x₂,x₃}) 和P(c is heterozygosity|{x₁,x₂,x₃})；

kind＝4时，对于第三代测序长读段数据L，即|X₁|+|X₂|+|X₃|+|X₄|＝RD_i，根据贝叶斯概率模型分别计算纯合与杂合的后验概率P(c is homozygosity|{X₁,X₂,X₃,X₄}) 和P(c is heterozygosity|{X₁,X₂,X₃,X₄})；对于第二代测序短读段数据S，即 |x₁|+|x₂|+|x₃|+|x₄|＝rd_i，根据贝叶斯概率模型分别计算纯合与杂合的后验概率 P(c is homozygosity|{x₁,x₂,x₃,x₄})和P(c is heterozygosity|{x₁,x₂,x₃,x₄})；

kind＝5时，对于第三代测序长读段数据L，即|X₁|+|X₂|+|X₃|+|X₄|+|X₅|＝RD_i，根据贝叶斯概率模型分别计算纯合与杂合的后验概率 P(c is homozygosity|{X₁,X₂,X₃,X₄,X₅})和P(c is heterozygosity|{X₁,X₂,X₃,X₄,X₅})；对于第二代测序短读段数据S，即|x₁|+|x₂|+|x₃|+|x₄|+|x₅|＝rd_i，根据贝叶斯概率模型分别计算纯合与杂合的后验概率P(c ishomozygosity|{x₁,x₂,x₃,x₄,x₅})和 P(c is heterozygosity|{x₁,x₂,x₃,x₄,x₅})。

具体的，步骤S4中，当第二代测序短读段数据S和第三代测序长读段数据L 均判断为纯合，则位点R_i的判断结果为纯合，对应待校正位点按照第二代测序短读段数据S的比对结果校正，即，将待校正位点校正为第二代测序短读段数据S 在位点R_i下的比对结果中出现频次最高的碱基；

当第二代测序短读段数据S和第三代测序长读段数据L均判断为杂合，则位点R_i的判断结果为杂合，对应待校正位点按照第二代测序短读段数据S的比对结果校正，即，将待校正位点校正为第二代测序短读段数据S在位点R_i下的比对结果中出现频次前二高的碱基之一

当第二代测序短读段数据S为杂合，第三代测序长读段数据L判断为纯合，则位点R_i的判断结果为纯合，对应待校正位点按照第三代测序长读段数据L的比对结果校正，即，将待校正位点校正为第三代测序长读段数据L在位点R_i下的比对结果中出现频次最高的碱基；

当第二代测序短读段数据S为纯合，第三代测序长读段数据L判断为杂合，则位点R_i的判断结果为纯合，对应待校正位点按照第二代测序短读段数据S的比对结果校正，即，将待校正位点校正为第二代测序短读段数据S在位点R_i下的比对结果中出现频次最高的碱基。

具体的，步骤S5具体为：

S501、任意提取一个对比对失败长读段数据集Lu中的待校正长读段read1，用比对工具把第二代测序短读段数据S比对到read1上；

S502、提取read1的第一个位点r₁以及该位点下第二代测序短读段数据S的比对结果，根据步骤S3的杂合性判断步骤对该位点进行杂合性判断；

S503、根据步骤S502的杂合判断结果对位点r₁进行校正；

S504、按顺序遍历read1上的所有位点，重复步骤S502和S503，直到read1 上的所有位点都被校正；

S505、遍历提取对比对失败长读段数据集Lu中的所有待校正读段，重复步骤S501～S504，直到对比对失败长读段数据集Lu中的所有读段都被校正。

进一步的，步骤S503中，若判断位点r₁为杂合，则将位点r₁校正为S在该位点下的比对结果中出现频次前二高的碱基之一；若判断位点r₁为纯合，则将位点r₁校正为S在该位点下的比对结果中出现频次最高的碱基。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种考虑了杂合变异的基于综合概率模型的混合校正方法，解决了由于现有校正算法的单一投票机制等算法结构问题所带来的杂合变异误校正，客服了测序数据的读段长度以及覆盖度对校正算法准确度尤其是对杂合变异的校正准确度的负面影响，实现低覆盖度测序数据杂合变异的精确校正。

进一步的，对第三代测序长读段数据集L进行组装，并按顺序首尾连接输出的重叠群contigs，得到一个伪参考序列Ref，可以选择该领域中现有的任何基因组组装工具完成；构建Ref的过程可以初步获得L中各个读段的分歧，是后续计算的统计性指标。

进一步的，将第二代测序短读段数据集S和L同时比对到Ref上，针对L的比对结果，根据比对一致比例划分为比对成功长读段数据集Lm和比对失败长读段数据集Lu。用Ref配合读段比对可以避免重复比对，显著改善了现有方法由于多次重复比对导致计算效率低的问题，提高本发明的计算速度；同时，定位比对到同一位点的长读段和短读段，用于后续分析。

进一步的，在同一Ref位点i下，分别针对Lm和S比对结果中的碱基占比建立贝叶斯概率模型，并根据贝叶斯概率的大小进行该位点的杂合性判断。相较于现有校正方法，该在校正操作前加入概率模型进行位点的杂合性判断，基本解决了现有方法在杂合变异校正上的低准确度问题，并且还不损失其他正常位点的校正准确率。

进一步的，针对Ref位点i的杂合判断结果，对比对到该位点下的Lm中所有长读段的对应位点进行校正，校正策略依据杂合判断结果的不同而有区别，这也反映了本发明与现有校正算法的不同之处在于对待杂合变异和纯合位点采取了不同的校正策略。顺序遍历Ref的每一个位点并重复操作直到Lm中的所有长读段完成校正。

进一步的，对于Lu，提取集合中的长读段，将S比对到其上，建立贝叶斯概率模型进行杂合性判断，进一步根据结果进行校正。遍历Lu中每一个长读段并重复操作直到Lu中的所有长读段完成校正。

综上所述，本发明在校正测序错误时考虑了杂合变异，设计了一系列概率模型对杂合性进行判断和分类，再针对不同的杂合性分类采用不同的校正策略，解决了已有校正方法遇到杂合变异时出现校正错误的问题。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为混合校正算法错误处理杂合变异示意图；

图2为本发明流程图；

图3为L_k、S_t、

R_i、Ref的关系与分布展示图。

具体实施方式

本发明提供了一种杂合变异下校正第三代测序数据中测序错误的混合方法 QIHC(QI Heterozygosity Correction)，输入数据为第二代测序数据(以下简称为 S)和第三代测序数据(以下简称为L)，利用已有的比对软件和组装软件对输入数据进行处理，基于贝叶斯分类器原理对基因位点的杂合性进行判断，结合杂合判断的结果对L中的读段进行校正，解决了现有校正算法在处理杂合变异时的低准确度和无效性的问题。

本发明基于以下在学术界具有普遍共识的假设：

1.根据现有测序技术标准，一个位点的测序结果可能有5种，包括碱基：A、 T、C、G和1个未知状态N。

2.根据基因组学的碱基分布模型，碱基分布的概率模型服从二项分布。

请参阅图2，本发明一种杂合变异下校正第三代测序数据中测序错误的混合方法，包括以下步骤：

S1、制备伪参考序列

本发明的输入数据为第二代测序短读段数据(以下简称为S)和第三代测序长读段数据(以下简称为L)，无需提前准备参考序列。首先制备一个伪参考序列 (以下简称为Ref)。具体地，使用任意一种常用的基因组组装软件，例如Canu，将L输入组装软件进行组装，得到重叠群(英文名称：contigs)并按顺序首尾相接，得到一个长度约为10000bp(其中bp是基因组长度单位)的基因序列。

S2、获得读段比对文件

使用任意一种常用的基因组比对软件，例如Blasr，把输入数据S和L比对到伪参考序列Ref上，分别获得S和L的比对结果SAM文件(英文名称： SequenceAlignment/Map，英文缩写：SAM)并储存。对于L的比对结果，根据比对一致比例划分为比对成功长读段数据集(以下简称为Lm)和比对失败长读段数据集(以下简称为Lu)。具体地，比对一致比例大于等于90％的读段划分到 Lm，否则划分到Lu。

S3、建立概率模型判断杂合性

不同于已有方法，本发明在校正步骤前加入杂合性判断，以便于根据被判断位点的杂合性进行校正。基于贝叶斯分类器原理，分别为S和L建立两组概率模型，计算纯合性和杂合性的后验概率，并以概率值较高的一方作为判断结果。

首先，为了方便描述和理解，同时也为了规范数据格式，做出以下定义和说明：

L_k：L中的第k个长读段；

S_t：S中的第t个短读段；

L_k上的第m个碱基；

S_t上的第n个碱基；

R_i：Ref上的第i个位点；

请参阅图3，直观展示了L_k、S_t、

R_i和Ref的关系与分布。

为了便于理解，我们先针对位点R_i进行描述，其余位点同理。具体包含以下步骤：

S301、统计位点R_i的对应比对结果。这一步要统计出位点R_i下的L和S的比对结果中的碱基具体类型和数量。其中，L的比对结果中的碱基类型按出现频次从大到小排序，用X_q表示，对应出现频次用|X_q|表示，q＝1,2,3,4,5；S的比对结果中的碱基类型和数量分别用x_q和|x_q|表示，q＝1,2,3,4,5。另外，还要统计出位点R_i下的长读段深度和短读段深度，分别用RD_i和rd_i表示。

S302、明确碱基分布的概率模型。这一步要明确X_q和x_q中各碱基的条件概率，根据基因组学碱基分布模型，碱基分布模型服从二项分布。

具体地，对于X_q中的各碱基，假设服从概率为P₁的二项分布，即 X_q～Bin(D_q,P₁)，则X_q发生|X_q|次的概率为

其中，P₁是第三代测序技术的测序误差先验概率。

具体地，对于x_q中的各碱基，假设服从概率为P₂的二项分布，即x_q～Bin(d_q,P₂)，则x_q发生|x_q|次的概率为

其中，P₂是第二代测序技术的测序误差先验概率。

S303、计算L和S的后验概率。这一步骤根据之前的先验概率和条件概率基于贝叶斯概率模型计算当前比对结果下位点R_i分别是杂合与纯合的后验概率。原理公式如下：

其中，c表示纯合(英文名称：homozygosity)或杂合(英文名称：heterozygosity)。需要注意的是，并不是每个位点下的比对结果中出现的碱基种类都能多达全部类型，对于没有出现的碱基类型，直接在公式(1)中去掉对应部分即可。

具体地，在实际计算中，将情况分为5种，分别对应位点R_i下的比对结果碱基种类为1、2、3、4和5的情况，为了描述简便，用kind表示比对结果中的碱基种类：

1、kind＝1时，无论L还是S，均判定为纯合。

2、kind＝2时，对于L，即|X₁|+|X₂|＝RD_i，根据公式(1)分别计算纯合与杂合的后验概率，即

其中，

p₁为第三代测序技术的测序误差先验概率，可由具体的测序技术得到，p₃为纯合的先验概率，p₄为杂合的先验概率，p₅＝0.5，表示当前碱基来自父母的概率各是0.5。

对于S，即|x₁|+|x₂|＝rd_i，根据公式(1)分别计算纯合与杂合的后验概率，即

其中，

p₂为第二代测序技术的测序误差先验概率，可由具体的测序技术得到。

3、kind＝3时，对于L，即|X₁|+|X₂|+|X₃|＝RD_i，根据公式(1)分别计算纯合与杂合的后验概率P(c is homozygosity|{X₁,X₂,X₃})和P(c is heterozygosity|{X₁,X₂,X₃})。

对于S，即|x₁|+|x₂|+|x₃|＝rd_i，根据公式(1)分别计算纯合与杂合的后验概率 P(c is homozygosity|{x₁,x₂,x₃})和P(c is heterozygosity|{x₁,x₂,x₃})。

4、kind＝4时，对于L，即|X₁|+|X₂|+|X₃|+|X₄|＝RD_i，根据公式(1)分别计算纯合与杂合的后验概率P(c is homozygosity|{X₁,X₂,X₃,X₄})和 P(c is heterozygosity|{X₁,X₂,X₃,X₄})。

对于S，即|x₁|+|x₂|+|x₃|+|x₄|＝rd_i，根据公式(1)分别计算纯合与杂合的后验概率 P(c is homozygosity|{x₁,x₂,x₃,x₄})和P(c is heterozygosity|{x₁,x₂,x₃,x₄})。

5、kind＝5时，对于L，即|X₁|+|X₂|+|X₃|+|X₄|+|X₅|＝RD_i，根据公式(1)分别计算纯合与杂合的后验概率P(c is homozygosity|{X₁,X₂,X₃,X₄,X₅})和 P(c isheterozygosity|{X₁,X₂,X₃,X₄,X₅})。

对于S，即|x₁|+|x₂|+|x₃|+|x₄|+|x₅|＝rd_i，根据公式(1)分别计算纯合与杂合的后验概率P(c is homozygosity|{x₁,x₂,x₃,x₄,x₅})和P(c is heterozygosity|{x₁,x₂,x₃,x₄,x₅})。

S304、根据S303步骤计算出的位点R_i下的L的比对结果的杂合与纯合的概率，取概率值较大者作为杂合性判断结果，同理，S的结果也做同样处理。

S4、校正Lm

这一步骤校正Lm中的长读段，根据步骤S3得出的位点R_i杂合判断结果，校正位点R_i下对应的Lm中的所有位点。

具体地，在校正过程中，由L和S给出的杂合性判断结果有四种可能组合，本发明针对这四种组合分别给出不同校正策略：

L和S均判断为纯合，则位点R_i的判断结果为纯合，对应待校正位点按照S 的比对结果校正，即，将待校正位点校正为S在位点R_i下的比对结果中出现频次最高的碱基；

L和S均判断为杂合，则位点R_i的判断结果为杂合，对应待校正位点按照S 的比对结果校正，即，将待校正位点校正为S在位点R_i下的比对结果中出现频次前二高的碱基之一；

L判断为纯合，S判断为杂合，则位点R_i的判断结果为纯合，对应待校正位点按照L的比对结果校正，即，将待校正位点校正为L在位点R_i下的比对结果中出现频次最高的碱基；

L判断为杂合，S判断为纯合，则位点R_i的判断结果为纯合，对应待校正位点按照S的比对结果校正，即，将待校正位点校正为S在位点R_i下的比对结果中出现频次最高的碱基。

遍历Ref上的所有位点，重复以上校正策略，直到Lm中的所有读段都被校正。

S5、校正Lu

这一步骤校正Lu中的长读段。Lu中的长读段由于未比对成功，因此认为它们之间没有一致性等关系，本发明只用S的杂合性判断结果和比对结果对Lu进行校正。

S501、任意提取一个Lu中的待校正长读段read1，用比对工具把S比对到read1 上；

S502、提取read1的第一个位点r₁以及该位点下S的比对结果，根据步骤S3 的杂合性判断步骤对该位点进行杂合性判断；

S503、根据S502的杂合判断结果对位点r₁进行校正；

具体地，若判断位点r₁为杂合，则将位点r₁校正为S在该位点下的比对结果中出现频次前二高的碱基之一；若判断位点r₁为纯合，则将位点r₁校正为S在该位点下的比对结果中出现频次最高的碱基；

S504、按顺序遍历read1上的所有位点，重复S502和S503，直到read1上的所有位点都被校正；

S505、遍历提取Lu中的所有待校正读段，重复S501-S504，直到Lu中的所有读段都被校正。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了验证本发明的有效性，我们对本发明与已有校正算法Canu和Jabba在杂合变异处的校正效果进行比较。在模拟实验中，为了有效集中地展示校正算法对杂合变异的校正效果，在此仅展示杂合变异的校正结果。对于每个杂合变异，我们关注校正后的杂合性变化。具体地，判断一个位点是否仍为杂合变异的标准如下：将校正后的长读段比对到参考序列(hg19)上，观察杂合变异下相应的比对碱基的分布，如果该分布满足杂合性分布，则该位置保持杂合性；否则，该位点失去其杂合性。评价指标如下：真阳性(TP)位点是在校正后仍保持杂合性的位点、假阴性(FN)位点是在校正后没有保持杂合性的位点、精确度(accuracy＝1-error rate)。

为了进行对比实验，本发明将第三代测序数据L的覆盖度设置为3×，5×， 10×，12×和15×，读段长度设置为10000bps；第二代测序数据S的覆盖度设置为 5×，10×，15×，20×和50×，读段长度设置为100bps。实验中使用的第三代测序数据集L包含500个杂合变异位点。仿真数据生成工具选用PBSIM，比对工具选用Blasr，参数设置为-header，-m5。针对L的不同覆盖度，分别用QIHC、Canu 和Jabba对其进行校正。结果如表1所示：

表1：QIHC、Canu和Jabba的校正精确度结果比较

可见，三种方法的结果相比较，Jabba的精确度明显低于QIHC和Canu，这也说明早期的校正方法在校正过程中完全没有考虑杂合变异。对于Canu和QIHC 的结果，当L的覆盖度为3×时，QIHC的精确度比Canu高15个百分点。随着覆盖度的升高，QIHC的表现也一直比Canu出色，直到覆盖度达到12×后，Canu 的精确度才略有反超，但差距并不大。这也说明，本发明更适合第三代测序数据的低覆盖度特征。

在校正后的杂合性质量方面，本发明也进行了一系列的实验来验证其有效性。由于上一个实验已经验证Jabba在杂合变异的校正效果远不及QIHC和Canu，因此这里只比较QIHC和Canu的校正结果。将L的覆盖度设置为15×。结果如表2所示：

表2：QIHC和Canu的杂合性质量结果比较

杂合性质量是指校正后的杂合变异在保持了杂合性的同时，其校正碱基是否落在正确的范围之内。例如，由等位基因A和C组成的杂合变异，在校正后，比对到该位点的碱基仍应是A和C占比更大；否则，尽管该位点在校正后仍保持杂合性，但其杂合性质量非常低。为了更清楚地分析杂合性质量，我们对其进行量化。具体来说，对于一个A-C杂合变异，我们将比对到该位点的碱基A和C 的占比与碱基T和G的占比进行比较。如果前者大于后者，即差值为正，则杂合性质量高(表示为positive)，否则杂合性质量低(表示为negative)。更具体地，对具有高杂合性质量的位点进行细分，将其划分为优秀(表示为excellence)和良好(表示为good)，将差值在0与0.3之间定义为良好，在0.3与1之间定义为优秀。

由表2结果可见，相较于Canu，QIHC在杂合性质量方面更占优势，这也是本实验选择15×覆盖度进一步分析杂合性质量的原因，即，当QIHC在15×覆盖度的校正精确度结果不占优势时，它仍然在杂合性质量方面明显领先于Canu。

综上所述，本发明一种杂合变异下校正第三代测序数据中测序错误的混合方法。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.杂合变异下校正第三代测序数据中测序错误的混合方法，其特征在于，包括以下步骤：

S2、把第二代测序短读段数据S和第三代测序长读段数据L与伪参考序列Ref比对，分别获得第二代测序短读段数据S和第三代测序长读段数据L的比对成功长读段数据集Lm和比对失败长读段数据集Lu，并储存；

S3、分别为第二代测序短读段数据S和第三代测序长读段数据L建立两组概率模型，计算纯合性和杂合性的后验概率，并以后验概率的值高的一方作为判断结果，具体步骤如下：

S301、统计位点R_i下第二代测序短读段数据S和第三代测序长读段数据L的比对结果中的碱基具体类型和数量和出位点R_i下的长读段深度RD_i和短读段深度rd_i，其中，第三代测序长读段数据L的比对结果中的碱基类型按出现频次从大到小排序，用X_q表示，对应出现频次用|X_q|表示，第二代测序短读段数据S的比对结果中的碱基类型和数量分别用x_q和|x_q|表示，q＝1,2,3,4,5；

S304、根据步骤S303计算出的位点R_i下第二代测序短读段数据S和第三代测序长读段数据L比对结果的杂合与纯合的概率，取概率值大的作为杂合性判断结果；

2.根据权利要求1所述的杂合变异下校正第三代测序数据中测序错误的混合方法，其特征在于，步骤S2中，比对成功长读段数据集Lm为比对一致比例大于等于90％的读段，比对失败长读段数据集Lu为剩余的读段。

3.根据权利要求1所述的杂合变异下校正第三代测序数据中测序错误的混合方法，其特征在于，步骤S302中，对于X_q中的各碱基，假设服从概率为P₁的二项分布，即X_q～Bin(D_q,P₁)，则X_q发生|X_q|次的概率为：

4.根据权利要求1所述的杂合变异下校正第三代测序数据中测序错误的混合方法，其特征在于，步骤S303中，用kind表示比对结果中的碱基种类，对应位点R_i下的比对结果碱基种类为：

kind＝3时，对于第三代测序长读段数据L，即|X₁|+|X₂|+|X₃|＝RD_i，根据贝叶斯概率模型分别计算纯合与杂合的后验概率P(c is homozygosity|{X₁,X₂,X₃})和P(c isheterozygosity|{X₁,X₂,X₃})；对于第二代测序短读段数据S，即|x₁|+|x₂|+|x₃|＝rd_i，根据贝叶斯概率模型分别计算纯合与杂合的后验概率P(c is homozygosity|{x₁,x₂,x₃})和P(cis heterozygosity|{x₁,x₂,x₃})；

kind＝4时，对于第三代测序长读段数据L，即|X₁|+|X₂|+|X₃|+|X₄|＝RD_i，根据贝叶斯概率模型分别计算纯合与杂合的后验概率P(c is homozygosity|{X₁,X₂,X₃,X₄})和P(c isheterozygosity|{X₁,X₂,X₃,X₄})；对于第二代测序短读段数据S，即|x₁|+|x₂|+|x₃|+|x₄|＝rd_i，根据贝叶斯概率模型分别计算纯合与杂合的后验概率P(c is homozygosity|{x₁,x₂,x₃,x₄})和P(c is heterozygosity|{x₁,x₂,x₃,x₄})；

kind＝5时，对于第三代测序长读段数据L，即|X₁|+|X₂|+|X₃|+|X₄|+|X₅|＝RD_i，根据贝叶斯概率模型分别计算纯合与杂合的后验概率P(c is homozygosity|{X₁,X₂,X₃,X₄,X₅})和P(c is heterozygosity|{X₁,X₂,X₃,X₄,X₅})；对于第二代测序短读段数据S，即|x₁|+|x₂|+|x₃|+|x₄|+|x₅|＝rd_i，根据贝叶斯概率模型分别计算纯合与杂合的后验概率P(c ishomozygosity|{x₁,x₂,x₃,x₄,x₅})和P(c is heterozygosity|{x₁,x₂,x₃,x₄,x₅})。

5.根据权利要求1所述的杂合变异下校正第三代测序数据中测序错误的混合方法，其特征在于，步骤S4中，当第二代测序短读段数据S和第三代测序长读段数据L均判断为纯合，则位点R_i的判断结果为纯合，对应待校正位点按照第二代测序短读段数据S的比对结果校正，即，将待校正位点校正为第二代测序短读段数据S在位点R_i下的比对结果中出现频次最高的碱基；

6.根据权利要求1所述的杂合变异下校正第三代测序数据中测序错误的混合方法，其特征在于，步骤S5具体为：

S503、根据步骤S502的杂合判断结果对位点r₁进行校正；

S504、按顺序遍历read1上的所有位点，重复步骤S502和S503，直到read1上的所有位点都被校正；

7.根据权利要求6所述的杂合变异下校正第三代测序数据中测序错误的混合方法，其特征在于，步骤S503中，若判断位点r₁为杂合，则将位点r₁校正为S在该位点下的比对结果中出现频次前二高的碱基之一；若判断位点r₁为纯合，则将位点r₁校正为S在该位点下的比对结果中出现频次最高的碱基。