CN109767813B

CN109767813B - 测序深度的矫正方法及装置

Info

Publication number: CN109767813B
Application number: CN201811616167.5A
Authority: CN
Inventors: 柴景超; 张静波; 伍启熹; 王建伟; 刘倩; 刘珂弟; 唐宇
Original assignee: Beijing Usci Medical Laboratory Co ltd
Current assignee: Beijing Usci Medical Laboratory Co ltd
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2021-06-22
Anticipated expiration: 2038-12-27
Also published as: CN109767813A

Abstract

本发明提供了一种测序深度的矫正方法及装置，其中，上述装置包括：获取模块，用于获取基因组上每个位点的GC含量，以及基因组的所有位点的测序深度；划分模块，用于根据每个位点的GC含量将所有位点按照指定规则分成N个不同区间，其中，N为正整数；第一处理模块，用于针对每个区间内的每个位点的测序深度D_ij进行转换处理，得到第一值；确定N个区间的平均测序深度的泊松分布，并对泊松分布的值进行与测序深度D_ij同样的转换处理，得到第二值；第二处理模块，用于针对每个区间，分别确定第一值的均值m_i1以及第二值的均值m_i2；根据第一值，m_i1和m_i2确定第三值；确定模块，用于对第三值进行转换处理对应的反转换处理，得到矫正后的每个位点的测序深度。

Description

测序深度的矫正方法及装置

技术领域

本发明涉及通信领域，具体而言，涉及一种测序深度的矫正方法及装置。

背景技术

一些研究表明，通过扩增和测序引入的GC偏差对染色体非整倍性的敏感性产生了限制作用。在不同测序条件下，例如试剂成分不同、测序温度不同或者簇密度不同，GC偏差可能在样品制备和测序过程中引入，这会导致GC含量过高或GC含量过低的基因组区域的测序数据出现偏差。

相关技术中开发了消除GC偏差的计算方法。HC Fan和SR Quake开发了一种通过局部多项式回归拟合(LOESS回归)的计算方法消除GC偏差，该方法通过基于局部基因组GC含量对每个GC密度给予权重，以通过乘以相应权重矫正每个区域的Reads数目。但是，该方法在计算时可能造成数据轻微失真，会干扰检测的准确性。

针对相关技术中，通过局部多项式回归拟合的计算方法来消除测序深度的偏差的方法，容易出现数据失真，结果准确性差等问题，尚未提出有效的技术方案。

发明内容

本发明实施例提供了一种测序深度的矫正方法及装置，以至少解决相关技术中通过局部多项式回归拟合的计算方法来消除测序深度的偏差的方法，容易出现数据失真，结果准确性差等问题。

根据本发明的一个实施例，提供了一种测序深度的矫正装置，包括：获取模块，用于获取基因组上每个位点的GC含量，以及所述基因组的所有位点的测序深度；划分模块，用于根据每个位点的GC含量将所述所有位点按照指定规则分成N个不同区间，其中，N为正整数；第一处理模块，用于针对每个区间内的每个位点的测序深度D_ij进行转换处理，得到第一值；确定N个区间的平均测序深度的泊松分布，并对所述泊松分布的值进行与所述测序深度D_ij同样的转换处理，得到第二值，其中，i和j均为正整数，D_ij代表第i个区间中第j个位点的测序深度；第二处理模块，用于针对所述每个区间，分别确定所述第一值的均值m_i1以及所述第二值的均值m_i2；根据所述第一值，所述m_i1和所述m_i2确定第三值；确定模块，用于对所述第三值进行所述转换处理对应的反转换处理，得到矫正后的每个位点的测序深度。

在本发明实施例中，所述划分模块，用于将GC含量落在第一范围内的位点化分在N个不同区间的两端区间内；以及将GC含量落在第二范围内的位点化分在中间区间内，其中，中间区间为所述N个不同区间中，除所述两端区间的其他区间，所述第一范围内的位点数目小于所述第二范围内的位点数目。

在本发明实施例中，所述第一处理模块，还用于针对每个区间内的每个位点的测序深度D_ij进行Anscombe转换处理，得到第一值。

在本发明实施例中，所述第二处理模块，还用于根据以下公式确定均值m_i1：

其中，T_ij为所述第一值，n为第i个区间内的位点总数。

在本发明实施例中，第二处理模块，还用于根据以下公式确定所述第三值：T_ij'＝T_ij+m_i2-m_i1，其中，T_ij为所述第一值。

在本发明实施例中，所述第一处理模块，还用于通过以下方式确定所述N个区间的平均测序深度：将所述基因组内所有位点的总深度除以所述基因组内位点的个数，得到所述N个区间的平均测序深度。

在本发明实施例中，所述装置还包括：矫正模块，用于根据矫正后的每个位点的测序深度和所述每个位点的GC含量矫正所述每个位点的GC偏好。

根据本发明的另一个实施例，还提供了一种测序深度的矫正方法，包括：获取基因组上每个位点的GC含量，以及所述基因组的所有位点的测序深度；根据每个位点的GC含量将所述所有位点按照指定规则分成N个不同区间，其中，N为正整数；针对每个区间内的每个位点的测序深度D_ij进行转换处理，得到第一值；确定N个区间的平均测序深度的泊松分布，并对所述泊松分布的值进行与所述测序深度D_ij同样的转换处理，得到第二值，其中，i和j均为正整数，D_ij代表第i个区间中第j个位点的测序深度；针对所述每个区间，分别确定所述第一值的均值m_i1以及所述第二值的均值m_i2；根据所述第一值，所述m_i1和所述m_i2确定第三值；对所述第三值进行所述转换处理对应的反转换处理，得到矫正后的每个位点的测序深度。

在本发明实施例中，根据每个位点的GC含量将所述所有位点按照指定规则分成N个不同区间，包括：将GC含量落在第一范围内的位点化分在N个不同区间的两端区间内；将GC含量落在第二范围内的位点化分在中间区间内，其中，中间区间为所述N个不同区间中，除所述两端区间的其他区间，所述第一范围内的位点数目小于所述第二范围内的位点数目。

在本发明实施例中，针对每个区间内的每个位点的测序深度D_ij进行转换处理，得到第一值，包括：针对每个区间内的每个位点的测序深度D_ij进行Anscombe转换处理，得到第一值。

根据本发明的另一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行以上任一项所述的测序深度的矫正方法。

通过本发明，获取基因组上每个位点的GC含量，以及所述基因组的所有位点的测序深度；根据每个位点的GC含量将所述所有位点按照指定规则分成N个不同区间，其中，N为正整数；针对每个区间内的每个位点的测序深度D_ij进行转换处理，得到第一值；确定N个区间的平均测序深度的泊松分布，并对所述泊松分布的值进行与所述测序深度D_ij同样的转换处理，得到第二值，其中，i和j均为正整数，D_ij代表第i个区间中第j个位点的测序深度；针对所述每个区间，分别确定所述第一值的均值m_i1以及所述第二值的均值m_i2；根据所述第一值，所述m_i1和所述m_i2确定第三值；对所述第三值进行所述转换处理对应的反转换处理，得到矫正后的每个位点的测序深度，采用上述技术方案，解决了相关技术中通过局部多项式回归拟合的计算方法来消除测序深度的偏差的方法，容易出现数据失真，结果准确性差等问题，进而提高了一种准确性高的方法来消除测序深度的偏差。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为根据本发明实施例的测序深度的矫正方法的流程图；

图2是根据本发明实施例的测序深度的矫正装置的结构框图；

图3是根据本发明实施例的测序深度的矫正装置的另一结构框图；

图4是根据本发明实施例的测序深度的矫正前效果的示意图(一)；

图5是根据本发明实施例的测序深度的矫正后效果的示意图(一)；

图6是根据本发明实施例的测序深度的矫正前效果的示意图(二)；

图7是根据本发明实施例的测序深度的矫正后效果的示意图(二)。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

相关技术中，在对测序深度进行矫正的过程中，当数据量很大时，要对每个待预测数据拟合一次，运行时间较长，计算量大，本发明实施例将泊松分布引入到了测序深度的矫正过程中，避免了欠拟合和过拟合引起的计算过程，具体详见以下实施例以及优选实施例的技术方案。

实施例1

本发明实施例提供了一种测序深度的矫正方法，图1为根据本发明实施例的测序深度的矫正方法的流程图，如图1所示，包括以下步骤：

步骤S102：获取基因组上每个位点的GC含量，以及所述基因组的所有位点的测序深度；

步骤S104：根据每个位点的GC含量将所述所有位点按照指定规则分成N个不同区间，其中，N为正整数；

步骤S106：针对每个区间内的每个位点的测序深度D_ij进行转换处理，得到第一值；确定N个区间的平均测序深度的泊松分布，并对所述泊松分布的值进行与所述测序深度D_ij同样的转换处理，得到第二值，其中，i和j均为正整数，D_ij代表第i个区间中第j个位点的测序深度；

步骤S108：针对所述每个区间，分别确定所述第一值的均值m_i1以及所述第二值的均值m_i2；根据所述第一值，所述m_i1和所述m_i2确定第三值；

步骤S110：对所述第三值进行所述转换处理对应的反转换处理，得到矫正后的每个位点的测序深度。

通过上述步骤，获取基因组上每个位点的GC含量，以及所述基因组的所有位点的测序深度；根据每个位点的GC含量将所述所有位点按照指定规则分成N个不同区间，其中，N为正整数；针对每个区间内的每个位点的测序深度D_ij进行转换处理，得到第一值；确定N个区间的平均测序深度的泊松分布，并对所述泊松分布的值进行与所述测序深度D_ij同样的转换处理，得到第二值，其中，i和j均为正整数，D_ij代表第i个区间中第j个位点的测序深度；针对所述每个区间，分别确定所述第一值的均值m_i1以及所述第二值的均值m_i2；根据所述第一值，所述m_i1和所述m_i2确定第三值；对所述第三值进行所述转换处理对应的反转换处理，得到矫正后的每个位点的测序深度，采用上述技术方案，解决了相关技术中通过局部多项式回归拟合的计算方法来消除测序深度的偏差的方法，容易出现数据失真，结果准确性差等问题，进而提高了一种准确性高的方法来消除测序深度的偏差，且采用泊松分布的计算方式，运算速度快。

上述步骤S104可以有多种实现方式，在一个可选实施例中，可以通过以下技术方案实现：将GC含量落在第一范围内的位点化分在N个不同区间的两端区间内；将GC含量落在第二范围内的位点化分在中间区间内，其中，中间区间为所述N个不同区间中，除所述两端区间的其他区间，所述第一范围内的位点数目小于所述第二范围内的位点数目，本发明实施例中的第二范围应该指的是在含有位点数目比较多的GC区间，而第一范围应该指的是含有位点数目比较少的GC区间，对于基因组，通常GC含量在20％～60％的位点比较多，也就是说GC在20％～60％的位点为第二范围的位点，其余的位点位第一范围的位点。

在本发明实施例中，确定N个区间的平均测序深度，具体可以基因组的所有位点总深度除以总位点数来得到。

在本发明实施例中，针对每个区间内的每个位点的测序深度D_ij进行Anscombe转换处理，得到第一值。

在本发明实施例中，根据以下公式确定均值m_i1：

其中，T_ij为所述第一值，n为第i个区间内的位点总数，m_i2采用同样的处理方式得到。

在本发明实施例中，根据以下公式确定所述第三值：T_ij'＝T_ij+m_i2-m_i1，其中，T_ij为所述第一值。

可选地，在步骤S110后，还可以执行以下技术方案：根据矫正后的每个位点的测序深度和所述每个位点的GC含量矫正所述每个位点的GC偏好，也就是说，在本发明实施例中，步骤S110得到的测序深度可以理解为一种中间状态的信息，其中，测序深度与GC含量的相关性，称为GC偏好(英文简称GC bias)，GC含量是在DNA4种碱基中，鸟嘌呤和胞嘧啶所占的比率称为GC含量。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

在本实施例中还提供了一种测序深度的矫正装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图2是根据本发明实施例的测序深度的矫正装置的结构框图，如图2所示，该装置包括：

获取模块20，用于获取基因组上每个位点的GC含量，以及所述基因组的所有位点的测序深度；

划分模块22，用于根据每个位点的GC含量将所述所有位点按照指定规则分成N个不同区间，其中，N为正整数；

第一处理模块24，用于针对每个区间内的每个位点的测序深度D_ij进行转换处理，得到第一值；确定N个区间的平均测序深度的泊松分布，并对所述泊松分布的值进行与所述测序深度D_ij同样的转换处理，得到第二值，其中，i和j均为正整数，D_ij代表第i个区间中第j个位点的测序深度；

第二处理模块26，用于针对所述每个区间，分别确定所述第一值的均值m_i1以及所述第二值的均值m_i2；根据所述第一值，所述m_i1和所述m_i2确定第三值；

确定模块28，用于对所述第三值进行所述转换处理对应的反转换处理，得到矫正后的每个位点的测序深度。

通过本发明，获取基因组上每个位点的GC含量，以及所述基因组的所有位点的测序深度；根据每个位点的GC含量将所述所有位点按照指定规则分成N个不同区间，其中，N为正整数；针对每个区间内的每个位点的测序深度D_ij进行转换处理，得到第一值；确定N个区间的平均测序深度的泊松分布，并对所述泊松分布的值进行与所述测序深度D_ij同样的转换处理，得到第二值，其中，i和j均为正整数，D_ij代表第i个区间中第j个位点的测序深度；针对所述每个区间，分别确定所述第一值的均值m_i1以及所述第二值的均值m_i2；根据所述第一值，所述m_i1和所述m_i2确定第三值；对所述第三值进行所述转换处理对应的反转换处理，得到矫正后的每个位点的测序深度，解决了相关技术中通过局部多项式回归拟合的计算方法来消除测序深度的偏差的方法，容易出现数据失真，结果准确性差等问题，进而提高了一种准确性高的方法来消除测序深度的偏差，且采用泊松分布的计算方式，运算速度快。

在本发明实施例中，所述划分模块22，用于将GC含量落在第一范围内的位点化分在N个不同区间的两端区间内；以及将GC含量落在第二范围内的位点化分在中间区间内，其中，中间区间为所述N个不同区间中，除所述两端区间的其他区间，所述第一范围内的位点数目小于所述第二范围内的位点数目。

在本发明实施例中，所述第一处理模块24，还用于针对每个区间内的每个位点的测序深度D_ij进行Anscombe转换处理，得到第一值。

在本发明实施例中，所述第二处理模块26，还用于根据以下公式确定均值m_i1：

其中，T_ij为所述第一值，n为第i个区间内的位点总数。

在本发明实施例中，第二处理模块26，还用于根据以下公式确定所述第三值：T_ij'＝T_ij+m_i2-m_i1，其中，T_ij为所述第一值。

在本发明实施例中，所述第一处理模块24，还用于通过以下方式确定所述N个区间的平均测序深度：将所述基因组内所有位点的总深度除以所述基因组内位点的个数，得到所述N个区间的平均测序深度。

图3是根据本发明实施例的测序深度的矫正装置的另一结构框图，如图3所示，在本发明实施例中，所述装置，还包括：矫正模块30，用于根据矫正后的每个位点的测序深度和所述每个位点的GC含量矫正所述每个位点的GC偏好。

需要说明的是，上述实施例1-实施例2的技术方案可以结合使用，也可以单独使用，本发明实施例对此不作限定。

以下结合一优选实施例对上述测序深度的矫正流程进行说明，但不用于限定本发明实施例的技术方案，主要包括以下步骤：

步骤1、通过高通量测序获得样本的全基因组序列。

步骤2、将测序得到的序列与基因组hg19进行比对，比对结果去除比对到重复序列和比对到多个位置上的序列，去除非完全比对的序列。

步骤3、计算基因组hg19上每个位点的GC含量，将所有位点根据其GC含量分成43个Bin，中间Bin的区间为1％的GC含量，两端Bin的区间为20％的GC含量，其中，将基因组根据GC含量分成43个Bin,每个Bin上所有位点的深度服从泊松分布。

步骤4、利用Samtools软件(也可以是其他可执行软件)对基因组上的所有位点进行深度分析，统计所有位点的测序深度信息。

步骤5、对于每一个GC Bin，所有位点的测序深度近乎服从泊松分布。分别计算每一个Bin的平均深度λi(i为1,2...n，代表第1,2...n个Bin)和所有Bin的平均深度λall。

步骤6、对于每一个Bin i，将该Bin内各个位点的测序深度D_ij(第i个Bin内第j个位点)做Anscombe转换，得到

即将测序深度D_ij通过Anscombe转换得到一组符合正太分布的数据，计算T_ij的均值

(n为该Bin内的位点总数)；以λ＝λ_all模拟一个新的泊松分布，同样进行Anscombe转换，计算其均值m_i2，然后计算T_ij'＝T_ij+m_i2-m_i1。最后对T_ij'进行反转换，D_ij'＝(T_ij'/2)²-3/8,D_ij'即为矫正后的测序深度。

需要说明的是，Anscombe转换能够将一组符合泊松分布的数据转化为符合正太分布的数据。

步骤7、以100kb为一个滑动窗口Bin，统计基因组上不同窗口Bin的平均深度信息。

步骤8、计算每个Bin的GC含量，以GC含量为横轴，平均深度为纵轴，绘制同一样品矫正前后的GC分布图，比较矫正前后的深度信息是否有GC偏好。

基于上述步骤1-步骤8的技术方案，如图4所示，对平均深度随GC含量偏上的样品进行校正，校正前后的结果如图4-5所示，横轴是每一个Bin的GC含量，纵轴是每一个Bin的平均深度。

如图6-7所示，对平均深度随GC含量偏下的样品进行校正，校正前后的结果如图6-7所示，横轴是每一个Bin的GC含量，纵轴是每一个Bin的平均深度。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种测序深度的矫正装置，其特征在于，包括：

获取模块，用于获取基因组上每个位点的GC含量，以及所述基因组的所有位点的测序深度；

划分模块，用于根据每个位点的GC含量将所述所有位点按照指定规则分成N个不同区间，其中，N为正整数；

第一处理模块，用于针对每个区间内的每个位点的测序深度D_ij进行转换处理，得到第一值；确定N个区间的平均测序深度的泊松分布，并对所述泊松分布的值进行与所述测序深度D_ij同样的转换处理，得到第二值，其中，i和j均为正整数，D_ij代表第i个区间中第j个位点的测序深度；

第二处理模块，用于针对所述每个区间，分别确定所述第一值的均值m_i1以及所述第二值的均值m_i2；根据所述第一值，所述m_i1和所述m_i2确定第三值；

确定模块，用于对所述第三值进行所述转换处理对应的反转换处理，得到矫正后的每个位点的测序深度。

2.根据权利要求1所述的装置，其特征在于，所述划分模块，用于将GC含量落在第一范围内的位点化分在N个不同区间的两端区间内；以及将GC含量落在第二范围内的位点化分在中间区间内，其中，中间区间为所述N个不同区间中，除所述两端区间的其它区间，所述第一范围内的位点数目小于所述第二范围内的位点数目。

3.根据权利要求1所述的装置，其特征在于，所述第一处理模块，还用于针对每个区间内的每个位点的测序深度D_ij进行Anscombe转换处理，得到第一值。

4.根据权利要求1所述的装置，其特征在于，所述第二处理模块，还用于根据以下公式确定均值m_i1：

其中，T_ij为所述第一值，n为第i个区间内的位点总数。

5.根据权利要求1所述的装置，其特征在于，第二处理模块，还用于根据以下公式确定所述第三值：

T_ij'＝T_ij+m_i2-m_i1，其中，T_ij为所述第一值。

6.根据权利要求1所述的装置，其特征在于，所述第一处理模块，还用于通过以下方式确定所述N个区间的平均测序深度：将所述基因组内所有位点的总深度除以所述基因组内位点的个数，得到所述N个区间的平均测序深度。

7.根据权利要求1所述的装置，其特征在于，所述装置还包括：

矫正模块，用于根据矫正后的每个位点的测序深度和所述每个位点的GC含量矫正所述每个位点的GC偏好。

8.一种测序深度的矫正方法，其特征在于，包括：

获取基因组上每个位点的GC含量，以及所述基因组的所有位点的测序深度；

根据每个位点的GC含量将所述所有位点按照指定规则分成N个不同区间，其中，N为正整数；

针对每个区间内的每个位点的测序深度D_ij进行转换处理，得到第一值；确定N个区间的平均测序深度的泊松分布，并对所述泊松分布的值进行与所述测序深度D_ij同样的转换处理，得到第二值，其中，i和j均为正整数，D_ij代表第i个区间中第j个位点的测序深度；

针对所述每个区间，分别确定所述第一值的均值m_i1以及所述第二值的均值m_i2；根据所述第一值，所述m_i1和所述m_i2确定第三值；

对所述第三值进行所述转换处理对应的反转换处理，得到矫正后的每个位点的测序深度。

9.根据权利要求8所述的方法，其特征在于，根据每个位点的GC含量将所述所有位点按照指定规则分成N个不同区间，包括：

将GC含量落在第一范围内的位点化分在N个不同区间的两端区间内；

将GC含量落在第二范围内的位点化分在中间区间内，其中，中间区间为所述N个不同区间中，除所述两端区间的其它区间，所述第一范围内的位点数目小于所述第二范围内的位点数目。

10.根据权利要求8所述的方法，其特征在于，针对每个区间内的每个位点的测序深度D_ij进行转换处理，得到第一值，包括：针对每个区间内的每个位点的测序深度D_ij进行Anscombe转换处理，得到第一值。