CN112599189A

CN112599189A - 一种全基因组测序的数据质量评估方法及其应用

Info

Publication number: CN112599189A
Application number: CN202011593896.0A
Authority: CN
Inventors: 张静波; 李小雨; 王伟伟; 伍启熹; 王建伟; 刘倩; 唐宇
Original assignee: Beijing Usci Medical Laboratory Co ltd
Current assignee: Beijing Usci Medical Laboratory Co ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-02
Anticipated expiration: 2040-12-29
Also published as: CN112599189B

Abstract

本发明涉及一种全基因组测序的数据质量评估方法及其应用，所述数据质量评估方法包括：获得待测样本的全基因组测序结果，将所述全基因组测序结果比对到人类参考基因组，对比对结果数据进行预处理后计算相应的观察值；进行观察值趋势拟合后，通过纵向波动指标和横向波动指标进行质量评估；所述纵向波动指标为基于观察值的变异系数反应观察值在趋势拟合线上下波动幅度的标准；所述横向波动指标为基于小片段信号占目标区域的比例反应观察值碎片化分布情况的标准。本发明通过纵向波动指标和横向波动指标进行质量评估，可以更快速、准确地评价测序结果的数据质量，筛选过滤数据质量偏差的样品，提高检测结果的准确度。

Description

一种全基因组测序的数据质量评估方法及其应用

技术领域

本发明涉及生物信息学技术领域，尤其涉及一种全基因组测序的数据质量评估方法及其应用。

背景技术

长期以来，DNA测序技术一直是分子生物学相关研究中最常用的技术手段之一，极大程度上推进了分子生物学的飞速发展。目前，高通量测序技术(High-throughputsequencing)由于其可以一次对几十万到几百万条DNA分子进行序列测定成为目前主流的测序技术。目前主流的高通量测序平台包括有Roche 454焦磷酸测序和Illumina Solexa合成测序等。

高通量测序技术(High-throughput sequencing)又称为下一代测序(Nextgeneration sequencing，NGS)技术，是一项划时代的测序技术，因为其极高的测序通量极大地扩展了基因组学的广度。目前，NGS技术由于提供了产生大量序列数据的手段。已经扩展到研究应用之外，广泛应用于遗传病的筛查和诊断，可以为医疗决策提供宝贵的信息。

在临床实验室环境中实施NGS技术是复杂的，测序使用的样本，方法等都对于测序结果有一定影响，所以需要临床、科学和信息学专业的重要基础设施和专业知识才能得到更准确的测序结果。目前，基因检测特别是产前诊断实验室缺乏将质量管理的技术方面应用于质量控制的统一指导，这对于保证检测结果的分析有效性和准确性至关重要。所以急需一种高效、快速处理的下一代测序质量评估指标来处理大量的NGS测序数据。

目前现有的质控方法对测序数据质量评估方面不完善，Q30或GC达标的样品，可能数据波动较大，导致分析结果假阳性严重。其次，当前方面对测序质量评估结果无法量化，不能直观比较不同样品数据波动的大小，导致无法通过设置阈值进行样品过滤。

发明内容

为了解决现有技术存在的问题，本发明提供一种全基因组测序的数据质量评估方法及其应用。本发明通过观察值趋势拟合后的纵向波动指标和横向波动指标进行质量评估实现对测序质量快速、准确地评价，显著提高了测序准确性。

第一方面，本发明提供一种全基因组测序的数据质量评估方法，包括：

获得待测样本的全基因组测序结果，将所述全基因组测序结果比对到人类参考基因组，对比对结果数据进行预处理后计算相应的观察值；

进行观察值趋势拟合后，通过纵向波动指标和横向波动指标进行质量评估；

所述纵向波动指标为基于观察值的变异系数反应观察值在趋势拟合线上下波动幅度的标准；

所述横向波动指标为基于小片段信号占目标区域的比例反应观察值碎片化分布情况的标准。

进一步地，所述纵向波动指标具体为：

对于总窗口数为N的全基因组测序结果中任一窗口的残差x，纵向波动指标VI计算方法如下：

和/或，

所述横向波动指标具体为：

对于整体趋势拟合后，异常区域占全部检测区域的比例R_global，细节趋势拟合后，异常区域占全部检测区域的比例R_detail，横向波动指标HI的计算方法如下：

HI＝R_detail-R_global。

进一步地，所述全基因组测序结果为基于二代测序平台的低深度测序结果，或二代测序平台基于深度进行拷贝数变异检测的全基因组测序结果

进一步地，所述全基因组测序结果为NIPT、NIPTPlus、CNVSeq或PGS中的一种或多种。

进一步地，所述预处理包括如下步骤：

将所述比对结果数据划分为多个窗口，对各个窗口中的数据进行数据偏好校正和归一化处理。

进一步地，所述划分为多个窗口为通过等长窗口划分、等数据量窗口划分、单碱基或单独靶向目标区域进行窗口划分；和/或，

所述数据偏好校正为GC校正、Mappability校正或PCA校正中的一种或多种。

进一步地，在所述划分为多个窗口后，还包括：使用重叠窗口进行序列数平滑处理。

进一步地，所述观察值趋势拟合采用隐马尔可夫算法、环状二元分割算法或FusedLasso算法中的一种或多种算法。

本发明提供一种测序方法，所述测序方法使用所述数据质量评估方法进行质量控制。

本发明进一步提供所述数据质量评估方法在排除低质量测序样品中的应用，具体为：设置纵向波动指标和横向波动指标的阈值，通过权利要求1-8任一项所述数据质量评估方法进行待测样品的测序结果质量评估后，将纵向波动指标和横向波动指标高于阈值的样品作为低质量测序样品排除。

本发明通过观察值趋势拟合后的纵向波动指标和横向波动指标进行质量评估，具备如下有益效果：

1、本发明提供的质量评估方法可应用于不同的低深度测序产品或基于深度进行拷贝数变异检测的产品。

2、本发明开创性地使用基于观测值拟合的方法来计算数据波动量化评估指标。

3、本发明使用不同分辨率的拟合方案组合来计算数据波动量化评估指标，以及特异描述样品观察值碎片化分布的情况。

4、本发明基于纵向波动指标和横向波动指标两个评估指标，可设置阈值来过滤数据质量偏差的样品，提高检测结果的准确度。

附图说明

图1为本发明提供的对比对结果数据进行预处理过程中的数据校正结果图；

图2为本发明提供的数据归一化处理结果；

图3为本发明提供的细节趋势拟合的结果示意图；

图4为本发明提供的通过纵向波动指标和横向波动指标对观察值趋势拟合结果进行质控的示意图；

图5为本发明提供的纵向波动指标VI与测序数据量的关系。

具体实施方式

以下实施例用于说明本发明，但不用来限制本发明的范围。

本发明提供一种全基因组测序的数据质量评估方法，包括：

S1获得待测样本的全基因组测序结果，将全基因组测序结果比对到人类参考基因组；

具体地，本发明提供的全基因组测序的数据质量评估方法可以应用于二代测序平台的不同的低深度测序产品或基于深度进行拷贝数变异检测的产品，例如NIPT、NIPTPlus、CNVSeq或PGS等低深度全基因组测序产品，或其他基于深度进行拷贝数变异检测的产品，可以为阳性或阴性产品。

在获得全基因组测序结果后，将测序结果比对到人类参考基因组得到比对结果数据。

S2对比对结果数据进行预处理后计算相应的观察值；

本发明针对比对结果数据，进行如下预处理流程：将比对结果数据划分为多个窗口，对各个窗口中的数据进行数据偏好校正和归一化处理。

其中，将比对结果数据划分为多个窗口可以按照人类参考基因组划分为等长或不等长窗口，例如采用等长窗口划分、等数据量窗口划分、单碱基、单独靶向目标区域等不同方式进行窗口划分。划分后，计算每个窗口中的序列数(Read Count)，后使用重叠窗口进行序列数平滑处理。其中，数据偏好校正包括GC校正、Mappability校正或PCA校正，校正算法可为loess算法或spline算法(如图1所示)。其中，归一化处理为将所有样品校正到统一的数据量(总序列数)，可排除性染色体或阳性区域后进行归一化(如图2所示)。假设测试样品实际数据量为n，每个窗口的数据量为m，统一数据量为N1，则统一后窗口的数据量M为：M＝N1/n×m。

在针对待测样品进行测序、比对和预处理的同时，设置一定量的正常阴性样品作为参考品，进行相同的取样、建库、测序、比对和数据预处理的步骤。最后进行观察值的计算，计算流程如下：

(1)参考值计算：参考品数据完成预处理后，计算所有参考品在每个窗口的序列数均值和标准差等指标。

(2)观察值计算：测试样品完成预处理后，得到每个窗口的序列数，根据参考值可计算每个窗口的差异倍数(fold change)、拷贝数(copy nubmer)和杂合比。假设测试样品预处理后某窗口的序列数为M，参考品中该窗口序列数均值为u，则该窗口对应的差异倍数f为：f＝M/u。

S3进行观察值趋势拟合后，通过纵向波动指标和横向波动指标进行质量评估；纵向波动指标为基于观察值的变异系数反应观察值在趋势拟合线上下波动幅度的标准；横向波动指标为基于小片段信号占目标区域的比例反应观察值碎片化分布情况的标准。

本发明针对全基因组测序结果的观察值进行进一步地观察值趋势拟合，拟合可以采用常用的染色体异常或CNV检测算法，例如隐马尔可夫算法(HMM)、环状二元分割算法(CBS)、Fused Lasso算法等。

其中，包含整体趋势拟合以及细节趋势拟合。整体趋势拟合使用拟合算法拟合整体数据分布特征，分辨率要求检出非整倍体和大片段CNV(10Mb以上)；细节趋势拟合提高拟合算法敏感度，分辨率要求检出小片段CNV(1Mb以上)，如图3所示。

在进行观察值趋势拟合后，进行数据质量评估流程，具体通过纵向波动指标和横向波动指标进行质控，计算方式如下：

(1)纵向波动指标(VI)：拟合数据观察值变异系数，主要用来描述观察值在趋势拟合线上下波动的情况，计算方法：假设某窗口实际观察值为f，拟合值为F，总窗口数为N，则某窗口观察值残差x＝f-F，则有：

(2)横向波动指标(HI)：检测小片段信号异常的占目标区域的比例，主要用来描述观察值碎片化分布的情况，计算方法：假设整体趋势拟合后，异常区域占基因组检测区域比例为R_global，细节趋势结合后，异常区域占基因组检测区域比例为R_detail，则有

HI＝R_detail-R_global。

图4为通过纵向波动指标和横向波动指标对观察值趋势拟合结果进行质控的示意图。

本发明进一步对比了上述质量评估标准纵向波动指标和横向波动指标和常见测序指标的关系，如图5所示，本发明通过对比，发现纵向波动指标VI与测序数据量具有正相关；同时发现测序数据量、GC含量、上机浓度、上机样品量等指标均未观测到和横向波动指标HI的相关性。

由此，本发明实际应用于临床实验室环境中的高通量测序数据质量控制时，可以基于纵向波动指标和横向波动指标设置阈值，去除这两个指标高于阈值的数据质量偏差的样品，提高检测的准确度。

在可用数据量为20M序列数情况下，设定横向波动指标为HI＜0.01(合格)以及纵向波动指标为VI＜0.1(合格)，横向波动指标HI和纵向波动指标均合格，可以认为测序数据质量是合格的。最终得到如下结果：

表1质量评估方法的检测准确率

对比本申请的方法和现有基于数据量大小和Q30等的QC方法，本发明的质控方法更为严格，检出不合格样品的标准更符合生产要求，可以剔除掉更多的检出多重异常的样品，这说明本发明提供的全基因组测序数据的质控方法可以很好地用来进行数据质量的评估。

虽然，上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种全基因组测序的数据质量评估方法，其特征在于，包括：

2.根据权利要求1所述的数据质量评估方法，其特征在于，所述纵向波动指标具体为：

和/或，

所述横向波动指标具体为：

HI＝R_detail-R_global。

3.根据权利要求1所述的数据质量评估方法，其特征在于，所述全基因组测序结果为基于二代测序平台的低深度测序结果，或二代测序平台基于深度进行拷贝数变异检测的全基因组测序结果。

4.根据权利要求3所述的数据质量评估方法，其特征在于，所述全基因组测序结果为NIPT、NIPTPlus、CNVSeq或PGS中的一种或多种。

5.根据权利要求1所述的数据质量评估方法，其特征在于，所述预处理包括如下步骤：

6.根据权利要求5所述的数据质量评估方法，其特征在于，所述划分为多个窗口为通过等长窗口划分、等数据量窗口划分、单碱基或单独靶向目标区域进行窗口划分；和/或，

7.根据权利要求5或6所述的数据质量评估方法，其特征在于，在所述划分为多个窗口后，还包括：使用重叠窗口进行序列数平滑处理。

8.根据权利要求1所述的数据质量评估方法，其特征在于，所述观察值趋势拟合采用隐马尔可夫算法、环状二元分割算法或Fused Lasso算法中的一种或多种算法。

9.一种测序方法，其特征在于，使用权利要求1-7任一项所述方法进行质量控制。

10.权利要求1-8任一项所述数据质量评估方法在排除低质量测序样品中的应用；所述应用优选为：

设置纵向波动指标和横向波动指标的阈值，通过权利要求1-8任一项所述数据质量评估方法进行待测样品的测序结果质量评估后，将纵向波动指标和横向波动指标高于阈值的样品作为低质量测序样品排除。