CN109727638B

CN109727638B - 测序深度的矫正方法及装置

Info

Publication number: CN109727638B
Application number: CN201811614819.1A
Authority: CN
Inventors: 张静波; 柴景超; 伍启熹; 王建伟; 刘倩; 刘珂弟; 唐宇
Original assignee: Beijing Usci Medical Laboratory Co ltd
Current assignee: Beijing Usci Medical Laboratory Co ltd
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2021-08-17
Anticipated expiration: 2038-12-27
Also published as: CN109727638A

Abstract

本发明提供了一种测序深度的矫正方法及装置，其中，上述装置包括：获取模块，用于获取基因组上每个位点的GC含量，以及所述基因组的所有位点的测序深度；划分模块，用于根据每个位点的GC含量将所述所有位点按照指定规则分成N个不同区间，其中，N为正整数；确定模块，用于确定每个区间内位点的区间平均深度的第一泊松分布律，以及N个区间的平均测序深度的第二泊松分布律；还用于根据所述第一泊松分布律和所述第二泊松分布律确定所述每个区间内不同测序深度的权重；处理模块，用于针对所述基因组的每个位点，分别将测序深度与每个测序深度对应的权重相乘，得到矫正后的每个位点的测序深度。

Description

测序深度的矫正方法及装置

技术领域

本发明涉及通信领域，具体而言，涉及一种测序深度的矫正方法及装置。

背景技术

一些研究表明，通过扩增和测序引入的GC偏差对染色体非整倍性的敏感性产生了限制作用。在不同测序条件下，例如试剂成分不同、测序温度不同或者簇密度不同，GC偏差可能在样品制备和测序过程中引入，这会导致GC含量过高或GC含量过低的基因组区域的测序数据出现偏差。

相关技术中开发了消除GC偏差的计算方法。HC Fan和SR Quake开发了一种通过局部多项式回归拟合(LOESS回归)的计算方法消除GC偏差，该方法通过基于局部基因组GC含量对每个GC密度给予权重，以通过乘以相应权重矫正每个区域的Reads数目。但是，该方法在计算时可能造成数据轻微失真，会干扰检测的准确性。

针对相关技术中，通过局部多项式回归拟合的计算方法来消除测序深度的偏差的方法，容易出现数据失真，结果准确性差等问题，尚未提出有效的技术方案。

发明内容

本发明实施例提供了一种测序深度的矫正方法及装置，以至少解决相关技术中通过局部多项式回归拟合的计算方法来消除测序深度的偏差的方法，容易出现数据失真，结果准确性差等问题。

根据本发明的一个实施例，提供了一种测序深度的矫正装置，包括：获取模块，用于获取基因组上每个位点的GC含量，以及所述基因组的所有位点的测序深度；划分模块，用于根据每个位点的GC含量将所述所有位点按照指定规则分成N个不同区间，其中，N为正整数；确定模块，用于确定每个区间内位点的区间平均深度的第一泊松分布律，以及N个区间的平均测序深度的第二泊松分布律；还用于根据所述第一泊松分布律和所述第二泊松分布律确定所述每个区间内不同测序深度的权重；处理模块，用于针对所述基因组的每个位点，分别将测序深度与每个测序深度对应的权重相乘，得到矫正后的每个位点的测序深度。

在本发明实施例中，所述划分模块，用于将GC含量落在第一范围内的位点化分在N个不同区间的两端区间内；以及将GC含量落在第二范围内的位点化分在中间区间内，其中，中间区间为所述N个不同区间中，除所述两端区间的其他区间，所述第一范围内的位点数目小于所述第二范围内的位点数目。

在本发明实施例中，所述确定模块，还用于确定每个区间的区间平均深度；根据所述区间平均深度确认该区间内的所有位点的第一泊松分布律；所述确定模块，还用于确定N个区间的平均深度；根据所述N个区间的平均深度确定所述第二泊松分布律。

在本发明实施例中，所述确定模块，还用于根据以下公式确定所述第一泊松分布律：

其中，λ_i为第i个区间的区间平均深度，n的取值包括：0、1、2、3、4、5。

在本发明实施例中，所述确定模块，还用于根据以下公式确定所述第二泊松分布律：

其中，λ_all为所述n个区间的平均深度。

在本发明实施例中，所述确定模块，还用于根据以下公式确定所述权重：

W＝p(x＝n|_all)/p(x＝n|λ_i)，其中，W为所述权重，n为测序深度。

在本发明实施例中，所述装置，还包括：矫正模块，用于根据矫正后的的每个位点的测序深度和所述每个位点的GC含量矫正所述每个位点的 GC偏好。

根据本发明的另一个实施例，还提供了一种测序深度的矫正方法，包括：获取基因组上每个位点的GC含量，以及所述基因组的所有位点的测序深度；根据每个位点的GC含量将所述所有位点按照指定规则分成N个不同区间，其中，N为正整数；确定每个区间内位点的区间平均深度的第一泊松分布律，以及N个区间的平均测序深度的第二泊松分布律；根据所述第一泊松分布律和所述第二泊松分布律确定所述每个区间内不同测序深度的权重；针对所述基因组的每个位点，分别将测序深度与每个测序深度对应的权重相乘，得到矫正后的每个位点的测序深度。

在本发明实施例中，根据每个位点的GC含量将所述所有位点按照指定规则分成N个不同区间，包括：将GC含量落在第一范围内的位点化分在N个不同区间的两端区间内；将GC含量落在第二范围内的位点化分在中间区间内，其中，中间区间为所述N个不同区间中，除所述两端区间的其他区间，所述第一范围内的位点数目小于所述第二范围内的位点数目。

在本发明实施例中，确定每个区间内位点的区间平均深度的第一泊松分布律，包括：确定每个区间的区间平均深度；根据所述区间平均深度确认该区间内的所有位点的第一泊松分布律；确定N个区间的测序深度的第二泊松分布律，包括：确定N个区间的平均深度；根据所述N个区间的平均深度确定所述第二泊松分布律。

根据本发明的另一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行以上任一项所述的测序深度的矫正方法。

通过本发明，根据所述第一泊松分布律和所述第二泊松分布律确定所述每个区间内不同测序深度的权重；针对所述基因组的每个位点，分别将测序深度与每个测序深度对应的权重相乘，得到矫正后的每个位点的测序深度，其中，第一泊松分布律针对的是每个区间内位点的区间平均深度，第二泊松分布律针对的是N个区间的平均测序深度的，采用上述技术方案，解决了相关技术中通过局部多项式回归拟合的计算方法来消除测序深度的偏差的方法，容易出现数据失真，结果准确性差等问题，进而提高了一种准确性高的方法来消除测序深度的偏差。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为根据本发明实施例的测序深度的矫正方法的流程图；

图2是根据本发明实施例的测序深度的矫正装置的结构框图；

图3是根据本发明实施例的测序深度的矫正装置的另一结构框图；

图4是根据本发明实施例的测序深度的矫正前效果的示意图(一)；

图5是根据本发明实施例的测序深度的矫正后效果的示意图(一)；

图6是根据本发明实施例的测序深度的矫正前效果的示意图(二)；

图7是根据本发明实施例的测序深度的矫正后效果的示意图(二)。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

相关技术中，在对测序深度进行矫正的过程中，当数据量很大时，要对每个待预测数据拟合一次，运行时间较长，计算量大，本发明实施例将泊松分布引入到了测序深度的矫正过程中，避免了欠拟合和过拟合引起的计算过程，具体详见以下实施例以及优选实施例的技术方案。

实施例1

本发明实施例提供了一种测序深度的矫正方法，图1为根据本发明实施例的测序深度的矫正方法的流程图，如图1所示，包括以下步骤：

步骤S102：获取基因组上每个位点的GC含量，以及所述基因组的所有位点的测序深度；

步骤S104：根据每个位点的GC含量将所述所有位点按照指定规则分成N个不同区间，其中，N为正整数；

步骤S106：确定每个区间内位点的区间平均深度的第一泊松分布律，以及N个区间的平均测序深度的第二泊松分布律；

步骤S108：根据所述第一泊松分布律和所述第二泊松分布律确定所述每个区间内不同测序深度的权重；

步骤S110：针对所述基因组的每个位点，分别将测序深度与每个测序深度对应的权重相乘，得到矫正后的每个位点的测序深度。

通过上述步骤，根据所述第一泊松分布律和所述第二泊松分布律确定所述每个区间内不同测序深度的权重；针对所述基因组的每个位点，分别将测序深度与每个测序深度对应的权重相乘，得到矫正后的每个位点的测序深度，其中，第一泊松分布律针对的是每个区间内位点的区间平均深度，第二泊松分布律针对的是N个区间的平均测序深度的，采用上述技术方案，解决了相关技术中通过局部多项式回归拟合的计算方法来消除测序深度的偏差的方法，容易出现数据失真，结果准确性差等问题，进而提高了一种准确性高的方法来消除测序深度的偏差，且采用泊松分布的计算方式，运算速度快。

需要说明的是，上述每个区间的每个位点的权重不一定相同的，同一区间同一测序深度的位点的权重是相同的，所以步骤S110中是将测序深度乘以对应测序深度的权重。

上述步骤S104可以有多种实现方式，在一个可选实施例中，可以通过以下技术方案实现：将GC含量落在第一范围内的位点化分在N个不同区间的两端区间内；将GC含量落在第二范围内的位点化分在中间区间内，其中，中间区间为所述N个不同区间中，除所述两端区间的其他区间，所述第一范围内的位点数目小于所述第二范围内的位点数目，本发明实施例中的第二范围应该指的是在含有位点数目比较多的GC区间，而第一范围应该指的是含有位点数目比较少的GC区间，对于基因组，通常GC含量在20％～60％的位点比较多，也就是说GC在20％～60％的位点为第二范围的位点，其余的位点位第一范围的位点。

在本发明实施例中，确定每个区间内位点的区间平均深度的第一泊松分布律，包括：确定每个区间的区间平均深度，具体可以通过该区间的所有位点总深度除以总位点数来得到；根据所述区间平均深度确认该区间内的所有位点的第一泊松分布律；确定N个区间的测序深度的第二泊松分布律，包括：确定N个区间的平均深度，具体可以基因组的所有位点总深度除以总位点数来得到；根据所述N个区间的平均深度确定所述第二泊松分布律。

具体地，基于上述确定第一泊松分布律和第二泊松分布律的方式，

1)根据以下公式确定所述第一泊松分布律：

其中，λ_i为第i个区间的区间平均深度，n 为测序深度，n的取值包括：0、1、2、3、4、5，i为正整数。

2)根据以下公式确定所述第二泊松分布律：

其中，λ_all为所述n个区间的平均深度。

进一步地，根据所述第一泊松分布律和所述第二泊松分布律确定所述每个测序深度的权重，包括：

根据以下公式确定所述权重：

W＝p(x＝n|λ_all)/p(x＝n|λ_i)，其中，W为所述权重，n为测序深度。

可选地，在步骤S110后，还可以执行以下技术方案：根据矫正后的每个位点的测序深度和所述每个位点的GC含量矫正所述每个位点的GC 偏好，也就是说，在本发明实施例中，步骤S110得到的测序深度可以理解为一种中间状态的信息，其中，测序深度与GC含量的相关性，称为 GC偏好(英文简称GC bias)，GC含量是在DNA4种碱基中，鸟嘌呤和胞嘧啶所占的比率称为GC含量。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如 ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

在本实施例中还提供了一种测序深度的矫正装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图2是根据本发明实施例的测序深度的矫正装置的结构框图，如图2 所示，该装置包括：

获取模块20，用于获取基因组上每个位点的GC含量，以及所述基因组的所有位点的测序深度；

划分模块22，用于根据每个位点的GC含量将所述所有位点按照指定规则分成N个不同区间，其中，N为正整数；

确定模块24，用于确定每个区间内位点的区间平均深度的第一泊松分布律，以及N个区间的平均测序深度的第二泊松分布律；还用于根据所述第一泊松分布律和所述第二泊松分布律确定所述每个区间内不同测序深度的权重；

处理模块26，用于针对所述基因组的每个位点，分别将测序深度与每个测序深度对应的权重相乘，得到矫正后的每个位点的测序深度。

通过本发明，根据所述第一泊松分布律和所述第二泊松分布律确定所述每个区间内不同测序深度的权重；针对所述基因组的每个位点，分别将测序深度与每个测序深度对应的权重相乘，得到矫正后的每个位点的测序深度，其中，第一泊松分布律针对的是每个区间内位点的区间平均深度，第二泊松分布律针对的是N个区间的平均测序深度的，采用上述技术方案，解决了相关技术中通过局部多项式回归拟合的计算方法来消除测序深度的偏差的方法，容易出现数据失真，结果准确性差等问题，进而提高了一种准确性高的方法来消除测序深度的偏差，且采用泊松分布的计算方式，运算速度快。

在本发明实施例中，所述划分模块22，用于将GC含量落在第一范围内的位点化分在N个不同区间的两端区间内；以及将GC含量落在第二范围内的位点化分在中间区间内，其中，中间区间为所述N个不同区间中，除所述两端区间的其他区间，所述第一范围内的位点数目小于所述第二范围内的位点数目。

在本发明实施例中，所述确定模块24，还用于确定每个区间的区间平均深度；根据所述区间平均深度确认该区间内的所有位点的第一泊松分布律；所述确定模块，还用于确定N个区间的平均深度；根据所述N个区间的平均深度确定所述第二泊松分布律。

在本发明实施例中，所述确定模块24，还用于根据以下公式确定所述第一泊松分布律：

其中，λi为所述区间平均深度，n为测序深度，n的取值包括：0、1、2、3、4、5。

其中，λ_all为所述n个区间的平均深度。

图3是根据本发明实施例的测序深度的矫正装置的另一结构框图，如图3所示，在本发明实施例中，所述装置，还包括：矫正模块28，用于根据矫正后的每个位点的测序深度和所述每个位点的GC含量矫正所述每个位点的GC偏好。

需要说明的是，上述实施例1-实施例2的技术方案可以结合使用，也可以单独使用，本发明实施例对此不作限定。

以下结合一优选实施例对上述测序深度的矫正流程进行说明，但不用于限定本发明实施例的技术方案，主要包括以下步骤：

步骤1、通过高通量测序获得样本的全基因组序列。

步骤2、将测序得到的序列与基因组hg19进行比对，比对结果去除比对到重复序列和比对到多个位置上的序列，去除非完全比对的序列。

步骤3、计算基因组hg19上每个位点的GC含量，将所有位点根据其 GC含量分成43个Bin，中间Bin的区间为1％的GC含量，两端Bin的区间为20％的GC含量，其中，将基因组根据GC含量分成43个Bin，每个Bin上所有位点的深度服从泊松分布。

步骤4、利用Samtools软件(也可以是其他可执行软件)对基因组上的所有位点进行深度分析，统计所有位点的测序深度信息。

步骤5、对于每一个GC Bin，所有位点的测序深度近乎服从泊松分布。分别计算每一个Bin的平均深度λ_i(i为1，2...n，代表第1，2...n个Bin)和所有Bin的平均深度λ_all。

步骤6、对于每一个Bin i，计算该Bin所有位点深度的分布律，

(其中，n＝0，1，2，3，4，5)。同时计算λ＝λ_all的泊松分布的分布律

权重Weight＝p(x＝n|λ_all)/p(x＝n|λ_i)。最后，将该Bin所有位点的深度乘以相应权重Weight，即是该Bin矫正后所有位点的深度。

步骤7、以100kb为一个滑动窗口Bin，统计基因组上不同窗口Bin 的平均深度信息。

步骤8、计算每个Bin的GC含量，以GC含量为横轴，平均深度为纵轴，绘制同一样品矫正前后的GC分布图，比较矫正前后的深度信息是否有GC偏好。

基于上述步骤1-步骤8的技术方案，如图4所示，对平均深度随GC 含量偏上的样品进行校正，校正前后的结果如图4-5所示，横轴是每一个 Bin的GC含量，纵轴是每一个Bin的平均深度。

如图6-7所示，对平均深度随GC含量偏下的样品进行校正，校正前后的结果如图6-7所示，横轴是每一个Bin的GC含量，纵轴是每一个Bin 的平均深度。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种测序深度的矫正装置，其特征在于，包括：

获取模块，用于获取基因组上每个位点的GC含量，以及所述基因组的所有位点的测序深度；

划分模块，用于根据每个位点的GC含量将所述所有位点按照指定规则分成N个不同区间，其中，N为正整数；

确定模块，用于确定每个区间内位点的区间平均深度的第一泊松分布律，以及N个区间的平均测序深度的第二泊松分布律；还用于根据所述第一泊松分布律和所述第二泊松分布律确定所述每个区间内不同测序深度的权重；

处理模块，用于针对所述基因组的每个位点，分别将测序深度与每个测序深度对应的权重相乘，得到矫正后的每个位点的测序深度。

2.根据权利要求1所述的装置，其特征在于，所述划分模块，用于将GC含量落在第一范围内的位点化分在N个不同区间的两端区间内；以及将GC含量落在第二范围内的位点化分在中间区间内，其中，中间区间为所述N个不同区间中，除所述两端区间的其他区间，所述第一范围内的位点数目小于所述第二范围内的位点数目。

3.根据权利要求1所述的装置，其特征在于，所述确定模块，还用于确定每个区间的区间平均深度；根据所述区间平均深度确认该区间内的所有位点的第一泊松分布律；所述确定模块，还用于确定N个区间的平均深度；根据所述N个区间的平均深度确定所述第二泊松分布律。

4.根据权利要求3所述的装置，其特征在于，所述确定模块，还用于根据以下公式确定所述第一泊松分布律：

5.根据权利要求4所述的装置，其特征在于，所述确定模块，还用于根据以下公式确定所述第二泊松分布律：

其中，λ_all为所述N个区间的平均深度。

6.根据权利要求5所述的装置，其特征在于，所述确定模块，还用于根据以下公式确定所述权重：

W＝p(x＝n|λ_all)/p(x＝n|λ_i)，其中，W为所述权重。

7.根据权利要求1所述的装置，其特征在于，所述装置还包括：

矫正模块，用于根据矫正后的每个位点的测序深度和所述每个位点的GC含量矫正所述每个位点的GC偏好。

8.一种测序深度的矫正方法，其特征在于，包括：

获取基因组上每个位点的GC含量，以及所述基因组的所有位点的测序深度；

根据每个位点的GC含量将所述所有位点按照指定规则分成N个不同区间，其中，N为正整数；

确定每个区间内位点的区间平均深度的第一泊松分布律，以及N个区间的平均测序深度的第二泊松分布律；

根据所述第一泊松分布律和所述第二泊松分布律确定所述每个区间内不同测序深度的权重；

针对所述基因组的每个位点，分别将测序深度与每个测序深度对应的权重相乘，得到矫正后的每个位点的测序深度。

9.根据权利要求8所述的方法，其特征在于，根据每个位点的GC含量将所述所有位点按照指定规则分成N个不同区间，包括：

将GC含量落在第一范围内的位点化分在N个不同区间的两端区间内；

将GC含量落在第二范围内的位点化分在中间区间内，其中，中间区间为所述N个不同区间中，除所述两端区间的其他区间，所述第一范围内的位点数目小于所述第二范围内的位点数目。

10.根据权利要求8所述的方法，其特征在于，确定每个区间内位点的区间平均深度的第一泊松分布律，包括：

确定每个区间的区间平均深度；

根据所述区间平均深度确认该区间内的所有位点的第一泊松分布律；

确定N个区间的测序深度的第二泊松分布律，包括：

确定N个区间的平均深度；

根据所述N个区间的平均深度确定所述第二泊松分布律。