CN115188420A

CN115188420A - 一种扩增子内参归一化的方法和系统

Info

Publication number: CN115188420A
Application number: CN202211001200.XA
Authority: CN
Inventors: 杨冰; 蔡庆乐; 朗秋蕾
Original assignee: Hangzhou Link Care Medical Laboratory Co ltd
Current assignee: Hangzhou Link Care Medical Laboratory Co ltd
Priority date: 2022-08-19
Filing date: 2022-08-19
Publication date: 2022-10-14

Abstract

本发明公开了一种扩增子内参归一化的方法和系统，属于生物信息分析技术领域，所述扩增子归一化的方法包括获得内参归一化基线的步骤和获得内参矫正系数的步骤，进一步根据内参归一化基线和内参矫正系数进行内参归一化。利用本发明的方法进行扩增子内参归一化，可提升检测的灵敏度，具有非常重要的推广应用价值。

Description

一种扩增子内参归一化的方法和系统

技术领域

本发明属于生物信息分析技术领域，具体地，涉及一种扩增子内参归一化的方法。

背景技术

扩增子是一种基于PCR扩增基因组目标区段，进行高深度测序的方法，可以高效分析靶向目标的突变情况。基于扩增子，我们不仅可以做点突变分析，还可以做拷贝数/定量分析。而要做拷贝数/定量分析，我们需要将不同样本最归一化处理，从而保证在一个尺度下分析，像qPCR一样，我们需要引入内参基因做定量分析的参照物基线做样本归一化。

目前现有方法主要有几种，一种是扩增子数量较多，涵盖一定量的内参基因，使用所有扩增子总和作为矫正基线。另一种是选取一定数量合适的内参总和作为矫正基线。而不同扩增子之间效率不同，导致稳定性不同，而且内参的表达丰度也有高低，因此捕获后测序得到的数据量差异可能很大，稳定性也有影响。如果内参数据量(reads数)差异极大，存在过低或过高，而这种过高的内参如果不稳定会对整体内参总和影响极大，而数据过低的内参即使非常稳定，对整体稳定系的贡献也较小。

发明内容

为了解决上述技术问题中的至少一个，本发明采用的技术方案如下：

本发明第一方面提供一种扩增子内参归一化的方法，包括获得内参归一化基线的步骤，具体包括：

S11，获得m个样本的测序数据，其中内参数目为j个，获得内参i在样本n中的reads数目R_ni，并获得内参i在所有m个样本中的reads数目的代表数，记为MR_i，其中i＝1、……j，n＝1、2、……、m；

S12，计算内参i在样本n中的初始归一化值：k_ni＝R_ni/MR_i，接着计算样本n中所有内参的初始归一化值：

再计算内参i在样本n中初始归一化后的reads数目为R'_ni＝R_ni/K1_n；

S13，计算内参i在所有m个样本中初始归一化后的reads数目的变异系数CV_i，若CV_i超出预测阈值，则去除异常样本；

S14，剩余样本重复步骤S11-S13，直至CV_i不超过预设阈值，获得内参i在剩余样本中的reads数目的代表数，记为BR_i，作为内参归一化基线。

在本发明的一些实施方案中，所述所述代表数是指中位数、平均数、众数、1/4分位数或3/4分位数。优选地，所述代表数为中位数。

在本发明的一些实施方案中，所述预设阈值是利用群体数据得到的CV值的代表数。进一步地，所述代表数是指中位数、平均数、众数、1/4分位数或3/4分位数，优选地，所述代表数为3/4分位数。

在本发明的一些实施方案中，步骤S13中，所述去除异常样本是指若去除某个或者某些样本后，CV_i不大于预测阈值，则所述某个样本或某些样本为异常样本。

在本发明的一些实施方案中，进一步包括获得内参矫正系数的步骤，具体包括：

S21，计算内参i在样本n中的初始归一化系数：k'_ni＝R_ni/BR_i，并计算样本n中所有内参的初始矫正系数

S22，内参i的矫正系数选自0.5、0.6、0.7、0.8、0.9和1中的一个，利用穷举法确定内参的最终的矫正系数：

S221，针对不同的内参分别随机选择一个矫正系数，得到内参矫正系数组合，计算样本n中所有内参的归一化值

对样本n中的所有内参reads数目用K2_n归一化，将归一化后的内参reads数目与内参归一化基线BR_i做误差分析，得到均方差；

S222，对所有的内参矫正系数的组合进行同步骤S221一样的操作，得到不同的均方差；

S223，选取均方差最小的一组内参矫正系数作为最优内参矫正系数组合：q′₁、……q′_i，其中，q′_i为内参i的最优矫正系数。

在本发明的一些实施方案中，进一步包括利用所述内参归一化基线和所述最优内参矫正系数组合作为矫正库进行归一化的步骤：

S31，计算内参i在样本中的初始归一化系数：k′_i＝R_i/BR_i，并计算样本中所有内参的初始矫正系数

其中，R_i为内参i在样本中的reads数目，i＝1、……j，j为样本中内参的数目；

S32，利用所述最优内参矫正系数组合，计算样本中所有内参的归一化值

S33，利用K2值进行归一化。

本发明第二方面提供一种扩增子内参归一化的系统，包括以下模块：

数据输入模块，用于接受测序数据输入；

矫正库模块，用于存储内参归一化基线和最优内参矫正系数组合；

归一化模块，分别与所述数据输入模块和所述矫正库模块连接，用于利用所述内参归一化基线和所述最优内参矫正系数组合作为矫正库进行归一化：

(1)计算内参i在样本中的初始归一化系数：k′_i＝R_i/BR_i，并计算样本中所有内参的初始矫正系数

其中，R_i为内参i在样本中的reads数目，BR_i为内参i的归一化基线，i＝1、……j，j为样本中内参的数目，

(2)利用所述最优内参矫正系数组合，计算样本中所有内参的归一化值

其中，q′_i为内参的最优矫正系数；

S33，利用K2值进行归一化；

输出模块，与所述归一化模块连接，用于输出归一化后的数据。

在本发明的一些实施方案中，所述矫正库模块与所述数据输入模块连接，用于利用多个样本的测序数据获得所述内参归一化基线：

(1)获得m个样本的测序数据，其中内参数目为j个，获得内参i在样本n中的reads数目R_ni，并获得内参i在所有m个样本中的reads数目的代表数，记为MR_i，其中i＝1、……j，n＝1、2、……、m；

(2)计算内参i在样本n中的初始归一化值：k_ni＝R_ni/MR_i，接着计算样本n中所有内参的初始归一化值：

(3)计算内参i在所有m个样本中初始归一化后的reads数目的变异系数CV_i，若CV_i超出预测阈值，则去除异常样本；

(4)剩余样本重复步骤S11-S13，直至CV_i不超过预设阈值，获得内参i在剩余样本中的reads数目的代表数，即为所述BR_i。

在本发明的一些实施方案中，所述矫正库模块进一步用于利用多个样本的测序数据获得所述最优内参矫正系数组合：

(1)计算内参i在样本n中的初始归一化系数：k'_ni＝R_ni/BR_i，并计算样本n中所有内参的初始矫正系数

(2)内参i的矫正系数选自0.5、0.6、0.7、0.8、0.9和1中的一个，利用穷举法确定内参的最终的矫正系数组合：

(2-1)针对不同的内参分别随机选择一个矫正系数，得到内参矫正系数组合，计算样本n中所有内参的归一化值

(2-2)对所有的内参矫正系数组合进行同步骤S221一样的操作，得到不同的均方差；

(2-3)选取均方差最小的一组内参矫正系数组合作为最优内参矫正系数组合：q′₁、……q′_i。

本发明第三方面提供一种计算机设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现如本发明第一方面任一所述方法的步骤。

本发明第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如本发明第一方面任一所述方法的步骤。

本发明的有益效果

相对于现有技术，本发明的有效效果包括：

利用本发明的归一化方法，可以在一定程度上降低内参误差，并显著提升扩增子定量准确度，具有非常重要的推广应用价值。

附图说明

图1示出了本发明实施例2的一个扩增子内参归一化的系统的示意图。

图2示出了本发明实施例2的另一个扩增子内参归一化的系统的示意图。

具体实施方式

除非另有说明、从上下文暗示或属于现有技术的惯例，否则本申请中所有的份数和百分比都基于重量，且所用的测试和表征方法都是与本申请的提交日期同步的。在适用的情况下，本申请中涉及的任何专利、专利申请或公开的内容全部结合于此作为参考，且其等价的同族专利也引入作为参考，特别这些文献所披露的关于本领域中的合成技术、产物和加工设计、聚合物、共聚单体、引发剂或催化剂等的定义。如果现有技术中披露的具体术语的定义与本申请中提供的任何定义不一致，则以本申请中提供的术语定义为准。

本申请中的数字范围是近似值，因此除非另有说明，否则其可包括范围以外的数值。数值范围包括以1个单位增加的从下限值到上限值的所有数值，条件是在任意较低值与任意较高值之间存在至少2个单位的间隔。例如，如果记载组分、物理或其它性质(如分子量，熔体指数等)是100至1000，意味着明确列举了所有的单个数值，例如100，101，102等，以及所有的子范围，例如100到166，155到170，198到200等。对于包含小于1的数值或者包含大于1的分数(例如1.1，1.5等)的范围，则适当地将1个单位看作0.0001，0.001，0.01或者0.1。对于包含小于10(例如1到5)的个位数的范围，通常将1个单位看作0.1。这些仅仅是想要表达的内容的具体示例，并且所列举的最低值与最高值之间的数值的所有可能的组合都被认为清楚记载在本申请中。

术语“包含”，“包括”，“具有”以及它们的派生词不排除任何其它的组分、步骤或过程的存在，且与这些其它的组分、步骤或过程是否在本申请中披露无关。为消除任何疑问，除非明确说明，否则本申请中所有使用术语“包含”，“包括”，或“具有”的组合物可以包含任何附加的添加剂、辅料或化合物。相反，出来对操作性能所必要的那些，术语“基本上由……组成”将任何其他组分、步骤或过程排除在任何该术语下文叙述的范围之外。术语“由……组成”不包括未具体描述或列出的任何组分、步骤或过程。除非明确说明，否则术语“或”指列出的单独成员或其任何组合。

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。

实施例

以下例子在此用于示范本发明的优选实施方案。本领域内的技术人员会明白，下述例子中披露的技术代表发明人发现的可以用于实施本发明的技术，因此可以视为实施本发明的优选方案。但是本领域内的技术人员根据本说明书应该明白，这里所公开的特定实施例可以做很多修改，仍然能得到相同的或者类似的结果，而非背离本发明的精神或范围。

除非另有定义，所有在此使用的技术和科学的术语，和本发明所属领域内的技术人员所通常理解的意思相同，在此公开引用及他们引用的材料都将以引用的方式被并入。

那些本领域内的技术人员将意识到或者通过常规试验就能了解许多这里所描述的发明的特定实施方案的许多等同技术。这些等同将被包含在权利要求书中。

下述实施例中的实验方法，如无特殊说明，均为常规方法。下述实施例中所用的仪器设备，如无特殊说明，均为实验室常规仪器设备；下述实施例中所用的试验材料，如无特殊说明，均为自常规生化试剂商店购买得到的。

实施例1矫正库的构建与应用

1.内参归一基线的构建

本实施例首先基于一定量样本构建一个内参的表达模式的中心基线，即归一化基线。

针对一次测序，假设有m个样本，涉及j个内参。

(1)获得内参i(i＝1、……j)在样本n(n＝1、2、……、m)中的reads数目为R_ni，内参i在所有m个样本中的reads数目中位数为MR_i。

从而归一化所有9046样本；再计算内参i在样本n中初始归一化后的reads数目为R'_ni＝R_ni/K1_n；

(3)计算内参i在所有m个样本中初始归一化后的reads数目(R′_1i、R'_2i、……、R'_mi)的变异系数CV_i，若CV_i超出预测阈值，则去除异常样本；

(4)剩余样本重复步骤S11-S13，直至CV_i不超过预设阈值，获得内参i在剩余样本中的reads数目的代表数BR_i，作为内参归一化基线。

2.矫正系数的确定

(1)根据上面计算得到的内参i的归一化基线BR_i，计算内参i在样本n中的初始归一化系数：k'_ni＝R_ni/BR_i，并计算样本n中所有内参的初始矫正系数

(2)内参i的矫正系数q_i∈[0.5,0.6,0.7,0.8,0.9,1]。利用穷举法确定内参的最终的矫正系数组合：首先针对不同的内参分别随机选择一个矫正系数，计算样本n中所有内参的归一化值

对样本n中的所有内参reads数目用K2_n做归一化分析，将归一化后的内参reads数目与基线BR_i做误差分析，得到均方差；选取均方差最小的一组内参矫正系数组合作为最优的不同内参的矫正系数组合。

3.应用

上述得到的内参归一化基线BR_i和最优内参矫正系数组合，作为最终矫正库。

扩增子数据分析时，根据矫正库内的基线BR_i计算归一化系数k'_i及K1'，再结合内参矫正系数q_i计算样本最终归一化值K2，最终对样本数据进行归一化处理。

实施例2扩增子内参归一化的系统

利用实施1得到的矫正库，本实施例构建一种扩增子内参归一化的系统，如图1所示，包括：

数据输入模块，用于接受测序数据输入；

矫正库模块，用于存储实施例1得到的内参归一化基线和最优内参矫正系数：

其中，q′_i为内参的最优矫正系数；

S33，利用K2值进行归一化；

其中矫正库模块还可以与数据输入模块连接，如图2所示。这样，可以针对不同的内参组合建立新的矫正库，或者对矫正库进行更新。

实施例3测序数据分析

(1)内参稳定的情形

假设检测产品内有三个内参a、b、c，以及一个待检测扩增子d，在产品设定最小总数据量A下，内参a、b、c的reads数目分别为1000条、2000条和30000条，扩增子d的reads数目为10000条。

理想情况(内参之间绝对稳定)下，当总数据量为B(1.5倍A)时，内参a、b、c的reads数目理该上应该分别为1500条、3000条和45000条，扩增子d的reads数目理论应该为15000。此时，三个内参从总数据量A到B的振幅(内参的归一化系数)就是a：1500/1000＝1.5，b：3000/2000＝1.5，c：45000/30000＝1.5。

如果使用实施例1的方法，此时样本归一化系数就是：(1.5+1.5+1.5)/3＝1.5(a、b、c的内参矫正系数都是1)。当数据B基于归一化系数1.5进行数据量归一化后(除1.5)，B数据量下所有扩增子的定量就转化为数据量A的尺度a＝1500/1.5＝1000；b＝3000/1.5＝2000；c＝45000/1.5＝30000；同理其他扩增子同样转化后，就可以比较其他扩增子的(reads数据)定量大小，d归一化后为15000/1.5＝10000。如果用内参总数据量做归一化，样本归一化系数为(1500+3000+45000)/(1000+2000+30000)＝1.5，则总数据量归一化和实施例1方法归一化的数据结果一致。

(2)内参不稳定的情形

假设总数据量C(等价于B+c*0.1)下内参c偏高了20％(实验误差)，则a、b、c的reads条数分别为1500、3000、54000，d为15000，理论上归一化后应该为A等价。

如果使用实施例1的方法：

样本归一化系数为((1500/1000)+(3000/2000)+(54000/30000))/3＝1.6，此时归一化系数为1.6，归一化系数误差1.6/1.5＝1.067，d＝15000/1.6＝9375，d的误差为1-(9375/1000)＝0.065。如果d为三倍体(15000*1.5)，则归一化后为14063。

如果用内参总数据量做归一化：

归一化系数为(1500+3000+54000)/(1000+2000+30000)＝1.773，此时归一化系数为1.773，归一化系数误差1.773/1.5＝1.182，d＝15000/1.773＝8460，d的误差为1-(8460/10000)＝0.154。如果d为三倍体(15000*1.5＝22500)，则归一化后为12690。

此时可以看出，d的表达量(reads)本应该为15000，由于内参c产生了系统误差，导致d的内参归一化后的表达量出现了偏差，实施例1方法归一化后为14063，而常用的内参总数据量方法归一化后为12690。对于d而言，发生三倍体的CNV，d应该为15000，而检测CNV的判断值应该在10000到15000之间，而12690已经在中间，很难区分到底是15000偏低还是10000偏高产生的，因此很难判定是否为CNV阳性。而14063则更容易准确判断是15000偏低，而不是10000偏高导致的。

由此可见，两种样本归一化的两种方法误差提升看似不大，但是可提升检测的灵敏度。而对于同一个样本同一个扩增子，重复几次，实际扩增子定量差一倍也是可能的。

进一步地，假设内参a、b、c的矫正系数分别为1、1、0.5，则对于数据量C的矫正，利用实施例1方法样本归一化系数为：

K1＝((1500/1000)+((3000/2000)+(54000/30000))/3＝1.6，

再计算：

K2＝(((1500/1000)+(1.6-(1500/1000))×(1-1))+((3000/2000)+(1.6-(3000/2000))×(1-1))+((54000/30000)+(1.6-(54000/30000))×(1-0.5)))＝1.567。

归一化后a、b、c、d数据为1500/1.567、3000/1.567、54000/1.567、15000/1.567，分别为957.2、1914、34461、9572。如果d为三倍体(15000*1.5＝22500)，则涵盖内参矫正系数进行归一化为14358(误差1-14358/15000＝0.0428)，相比于没有内参矫正系数归一化的14063(误差1-14063/15000＝0.062467)与模拟的15000更接近了，远比内参总数据量方法归一化后为12690(误差1-12690/15000＝0.154)的定量数值更准确。对于内参总数据量方法归一化，对于假设的这种假设CNV的案例甚至无法做到检测区分，而实施例1方法使更灵敏的检测成为可能。

实施例4实际测序数据分析

本实施例提供5个内参的测序数据归一化，归一化前的数据如表1所示：

表1内参归一化前表达量数据

利用实施例2的方法进行归一化，归一化后的数据如表2所示：

表2内参归一化后表达量数据

在本发明提及的所有文献都在本申请中引用作为参考，就如同每一篇文献被单独引用作为参考那样。此外应理解，在阅读了本发明的上述讲授内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。