CN111028890B

CN111028890B - 一种基于run间矫正的CNV检测方法

Info

Publication number: CN111028890B
Application number: CN201911404854.5A
Authority: CN
Inventors: 黄铨飞; 王杨; 朱鹏远
Original assignee: CapitalBio Genomics Co Ltd
Current assignee: CapitalBio Genomics Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-09-11
Anticipated expiration: 2039-12-31
Also published as: CN111028890A

Abstract

本发明提供了一种基于run间矫正的CNV检测方法，所述方法对组内具有相同CNV类型的样本的测序结果进行矫正，并比较run间参考值，再进行CNV检测，将所有样本的结果构建参考数据库，有效避免了假阴性或假阳性结果，提高了方法的准确性。

Description

一种基于run间矫正的CNV检测方法

技术领域

本发明属于高通量测序技术领域，涉及一种基于run间矫正的CNV检测方法。

背景技术

全基因组测序的方法为将DNA打断后进行PCR扩增，对扩增产物直接进行测序，测序结果虽然受到GC含量等因素的影响，使得部分区域的测序深度不一致，但是整体的测序深度较均一，且由于是对整个基因组进行测序，可以依据临近区域的测序深度进行矫正，实现对CNV的检测。

外显子测序通常采用PCR扩增或杂交捕获的方法从DNA上获取目标区域，再对目标区域文库进行PCR扩增测序。在获取目标区域的步骤中，不同外显子的捕获效率不一致，在对目标区域文库进行PCR扩增的步骤中，不同外显子的深度不均一，两方面原因最终导致不同外显子的测序深度不一致、均一性差，并且由于外显子测序不包含内含子区域，无法依据临近区域的测序深度进行矫正，难以基于样本深度实现对CNV的检测。

针对以上问题，研究人员提出了基于run内样本间的测序深度矫正方法，由于相同的测序方法在不同样本各区域上的测序深度基本一致，可以对不同区域的测序深度进行矫正，实现对CNV的检测。

然而，当run内样本间存在亲缘关系、run内样本量较少或罕见地均为同样 CNV致病的样本，基于run内样本间的矫正方法会使得CNV被认为野生型，出现假阴性结果；当run内测序不稳定时，可能导致同一个区域的测序深度变化很大，出现假阳性结果。

因此，有必要研发一种新的CNV检测方法，避免run内样本间的测序深度矫正方法准确性差、可能出现假阴性或假阳性结果等问题。

发明内容

针对现有技术的不足和实际需求，本发明提供了一种基于run间矫正的 CNV检测方法，所述方法对组内具有相同CNV类型的样本的测序结果进行矫正，并比较run间参考值，再进行CNV检测，将所有样本的结果构建参考数据库，有效避免了假阴性或假阳性结果，提高了方法的准确性。

为达此目的，本发明采用以下技术方案：

第一方面，本发明提供了一种基于run间矫正的CNV检测方法，所述方法包括如下步骤：

(1)采集初始样本，对每个初始样本计算外显子标准化深度；计算初始样本中每个外显子的第一四分位数Q1、中位数和第三四分位数Q3，选取可接受范围并利用外显子标准化深度计算可接受范围的平均深度和标准差；结合每个初始样本的测序结果，构建初始深度组间数据库；

(2)采集待测样本，对每个待测样本计算外显子标准化深度；利用组内样本的外显子标准化深度计算组内样本的平均深度和标准差，进行Z-score归一化，计算组内Z-score和组内Ratio；利用初始深度组间数据库对样本进行Z-score 归一化，计算组间Z-score和组间Ratio；

(3)根据外显子标准化深度、组内Z-score、组内Ratio、组间Z-score或组间Ratio中的任意一种或至少两种的组合判断CNV检测结果。

CNV为Copy number variations的缩写，即基因拷贝数变异，run为单次上机测序反应。

优选地，步骤(1)所述初始样本包括阴性样本和/或CNV类型确定的样本。

优选地，步骤(1)所述初始样本的个数为40～200个，例如可以是40、50、 60、70、80、90、100、110、120、130、140、150、160、170、180、190或200。

优选地，步骤(1)所述外显子标准化深度的计算公式为：外显子标准化深度＝外显子深度/样本平均深度。

优选地，步骤(1)所述可接受范围在Q3+1.5IQR与Q1-1.5IQR之间；

其中，IQR＝Q3-Q1。

优选地，步骤(2)所述Z-score的计算公式为：Z-score＝(样本深度-参考值平均深度)/参考值标准差。

优选地，步骤(2)所述Ratio的计算公式为：Ratio＝样本深度/参考值平均深度。

对于组内Z-score，其参考值为组内样本的平均深度和标准差。

对于组间Z-score，其参考值为步骤1计算的组间数据库的平均深度和标准差。

优选地，步骤(3)所述判断的标准包括：

a)当外显子标准化深度<0.1x：

i.外显子有纯合/半合缺失事件的发生；

b)对于外显子标准化深度>0.1x的常染色体外显子：

对于组内样本数大于等于20的样本：

i.组内Z-score介于[-2.58,2.58]范围内，样本拷贝数正常；

ii.组内Z-score小于-2.58时，若组内Ratio小于0.67，样本为杂合缺失；

iii.组内Z-score小于-2且组内Ratio小于0.65时，判断组间Z-score与组间Ratio，若组间Z-score小于-2且组间Ratio小于0.65，样本为杂合缺失；若组间 Z-score小于-2且组间Ratio小于0.65不成立，列为疑似杂合缺失；若组内Z-score 小于-2且组内Ratio小于0.65不成立，样本拷贝数正常；

iv.组内Z-score大于2.58时，若组内Ratio大于1.38，样本为杂合重复；

v.组内Z-score大于2且组内Ratio大于1.35时，判断组间Z-score与组间 Ratio；若组间Z-score大于2且组间Ratio大于1.38，样本为杂合重复；若组间 Z-score大于2且组间Ratio大于1.38不成立，列为疑似杂合重复；若组内Z-score 大于2时且组内Ratio大于1.35不成立，样本拷贝数正常；

对于组内样本数目小于20的样本：

i.组间Z-score介于[-2.58,2.58]范围内，样本拷贝数正常；

ii.组间Z-score小于-2.58时，若组间Ratio小于0.67，样本为杂合缺失；若组间Ratio≥0.67且＜0.78，样本为疑似杂合缺失；

iii.组间Z-score小于-2且组间Ratio小于0.65时，样本为疑似杂合缺失；

iv.组间Z-score大于2.58时，若组间Ratio大于1.32，样本为杂合重复；若组间Ratio＞1.12且≤1.32，则样本为疑似杂合重复；

v.组间Z-score大于2且组间Ratio大于1.32时，样本为疑似杂合重复；

c)对于组内标准化深度>0.1x的X染色体外显子：

对于组内样本数目大于等于20的样本：

i.女性样本：与常染色体判断标准一致；

ii.男性样本：

组内Z-score大于2.58时，若组内Ratio大于1.38，样本为重复；

组内Z-score大于2且组内Ratio大于1.38，判断组间Z-score与组间Ratio；若组间Z-score大于2且组间Ratio大于1.38，样本为重复；若组间Z-score大于2且组间Ratio大于1.38不成立，列为疑似杂合重复；若组内Z-score大于2 且组内Ratio大于1.38不成立，样本拷贝数正常；

对于组内样本数目小于20的样本：

i.女性样本：与常染色体判断标准一致；

ii.男性样本：

组间Z-score大于2.58时，若组间Ratio大于1.38，样本为重复，若组间 Ratio＞1.20且≤1.38时，样本为疑似重复；

组间Z-score大于2且组间Ratio大于1.38，样本为疑似重复。

优选地，所述方法在每次测序时均加入一个女性对照样本与一个男性对照样本，判读CNV检测结果。

优选地，所述方法将每次待测样本的检测结果加入步骤(1)构建的初始深度组间数据库，形成新的初始深度组间数据库。

优选地，所述方法在步骤(1)之前还包括测试run内达到正态分布的样本数。

优选地，所述样本数为20～30个，例如可以是20个、21个、22个、23个、 24个、25个、26个、27个、28个、29个或30个。

根据本发明，常规的CNV分析方法包括基于GC矫正、深度run内矫正等，本发明中，在长期的科研实践中对已检测的数千样本进行回顾性分析，针对CNV检测假阳性和假阴性频繁出现的问题，针对run内和run间矫正的方法进行优化比较，发现run间数据整体测序深度较一致，将run间矫正加入CNV 分析流程后，对真阳性样本检测结果无影响，但对run内矫正的假阳性或假阴样本有矫正的效果，因此确立了run间矫正的方案：所述方法通过先对初始样本外显子进行标准化，再借鉴箱线图思路计算可接受范围，构建组间数据库，然后对待测样品计算Z-score和Ratio，依据判读标准进行CNV检测结果的判读，即对同一个run内相同检测类型的样本进行矫正，并比较run间参考值，再进行 CNV检测，将所有该方法检测的样本构建参考数据库，各步骤各条件相互协调配合，最终有效避免run内矫正的假阳性CNV与假阴性CNV。

作为优选技术方案，本发明提供了一种基于run间矫正的CNV检测方法，包括如下步骤：

(1)测试run内可达到正态分布的样本数；

(2)采集40～200个阴性样本和/或CNV类型确定的样本，对每个初始样本计算外显子标准化深度，外显子标准化深度＝外显子深度/样本平均深度；计算初始样本中每个外显子的第一四分位数Q1、中位数和第三四分位数Q3，选取可接受范围并利用外显子标准化深度计算可接受范围的平均深度和标准差，可接受范围为Q3+1.5IQR与Q1-1.5IQR之间，其中，IQR＝Q3-Q1；结合每个初始样本的测序结果，构建初始深度组间数据库；

(3)采集待测样本，对每个待测样本计算外显子标准化深度；利用组内样本的外显子标准化深度计算组内样本的平均深度和标准差，进行Z-score归一化，计算组内Z-score和组内Ratio；利用初始深度组间数据库对样本进行Z-score 归一化，计算组间Z-score和组间Ratio；

其中，Z-score＝(样本深度-参考值平均深度)/参考值标准差，Ratio＝样本深度/参考值平均深度；

(4)根据外显子标准化深度、组内Z-score、组内Ratio、组间Z-score或组间Ratio中的任意一种或至少两种的组合判断CNV检测结果；

a)当外显子标准化深度<0.1x：

i.外显子有纯合/半合缺失事件的发生；

b)对于外显子标准化深度>0.1x的常染色体外显子：

对于组内样本数大于等于20的样本：

i.组内Z-score介于[-2.58,2.58]范围内，样本拷贝数正常；

对于组内样本数目小于20的样本：

i.组间Z-score介于[-2.58,2.58]范围内，样本拷贝数正常；

c)对于组内标准化深度>0.1x的X染色体外显子：

对于组内样本数目大于等于20的样本：

i.女性样本：与常染色体判断标准一致；

ii.男性样本：

组内Z-score大于2.58时，若组内Ratio大于1.38，样本为重复；

对于组内样本数目小于20的样本：

i.女性样本：与常染色体判断标准一致；

ii.男性样本：

组间Z-score大于2且组间Ratio大于1.38，样本为疑似重复。

(5)所述方法在每次测序时均加入一个女性对照样本与一个男性对照样本，判读CNV检测结果；将每次待测样本的检测结果加入步骤(1)构建的初始深度组间数据库，形成新的初始深度组间数据库。

第二方面，本发明提供了一种组间数据库，所述数据库由第一方面所述的方法构建得到。

与现有技术相比，本发明具有如下有益效果：

本发明提供的基于run间矫正的CNV检测方法结果准确，稳定性高，简洁高效，通过将每次样本的检测结果加入数据库，能够不断更新完善，进一步提高了检测准确度，有效避免了run内矫正的假阳性CNV与假阴性CNV，具有广阔的应用前景和巨大的市场价值，为CNV检测提供了新的思路和视野。

附图说明

图1为10个样本同时建库测序、15个样本同时建库测序、20个样本同时建库测序与30个样本同时建库测序的不同基因不同外显子的均一化深度结果；

图2为本发明的判读标准图。

具体实施方式

为进一步阐述本发明所采取的技术手段及其效果，以下结合实施例和附图对本发明作进一步地说明。可以理解的是，此处所描述的具体实施方式仅仅用于解释本发明，而非对本发明的限定。

实施例中未注明具体技术或条件者，按照本领域内的文献所描述的技术或条件，或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可通过正规渠道商购获得的常规产品。

实施例1

(1)测试run内可达到或者近似达到正态分布的样本数

结果如图1所示，在外显子CNV检测上，20个样本同时建库测序与30个样本同时建库测序，在数据分布上无显著差异；

(2)利用50个阴性样本构建初始深度组间数据库

采集50个初始样本，对每个初始样本独立计算外显子标准化深度(外显子标准化深度＝外显子深度/样本平均深度)，以排除测序定量对样本深度带来的误差；借鉴箱线图的思路计算50个初始样本中每个外显子的第一四分位数Q1、中位数和第三四分位数Q3，选取可接受范围并利用外显子标准化深度计算可接受范围的平均深度和标准差，可接受范围为Q3+1.5IQR与Q1-1.5IQR之间，其中，IQR(四分位差)＝Q3-Q1；结合每个初始样本的测序结果，构建初始深度组间数据库；

(3)当有新的测序数据时，先按照同样的方案对每个测序样本计算外显子标准化深度；再利用组内样本进行Z-score归一化，计算组内样本Ratio，接着利用组间数据库对样本进行Z-score归一化，并计算组间样本深度与参考值平均深度的比例Ratio；

a)当外显子标准化深度<0.1x：

i.外显子有纯合/半合缺失事件的发生；

b)对于外显子标准化深度>0.1x的常染色体外显子：

对于组内样本数大于等于20的样本：

i.组内Z-score介于[-2.58,2.58]范围内，样本拷贝数正常；

iii.组内Z-score小于-2且组内Ratio小于0.65时，判断组间Z-score与组间Ratio，若组间Z-score小于-2且组间Ratio小于0.65，样本为杂合缺失；若组间Z-score小于-2且组间Ratio小于0.65不成立，列为疑似杂合缺失；若组内Z-score 小于-2且组内Ratio小于0.65不成立，样本拷贝数正常；

对于组内样本数目小于20的样本：

i.组间Z-score介于[-2.58,2.58]范围内，样本拷贝数正常；

c)对于组内标准化深度>0.1x的X染色体外显子：

对于组内样本数目大于等于20的样本：

i.女性样本：与常染色体判断标准一致；

ii.男性样本：

组内Z-score大于2.58时，若组内Ratio大于1.38，样本为重复；

对于组内样本数目小于20的样本：

i.女性样本：与常染色体判断标准一致；

ii.男性样本：

组间Z-score大于2且组间Ratio大于1.38，样本为疑似重复。

(5)每次有新的样本测序后，将其加入组间数据库，样本越多，数据模型的结果准确性越高，且可以对单个测序样本独立判断其准确性。

为了检验模型的准确性，在每次测序时均加入一个女性对照样本与一个男性对照样本，判读CNV检测结果。

实施例2

利用2个已知CNV结果的样本，在初始模型构建后进行测序及分析，以及累积100样本后进行测序分析。

结果如表1所示，初始模型下，对确定样本的预测结果相对准确，但存在杂合预测为疑似杂合的案例(Ratio未达到阈值)；累计样本后，Z-score与Ratio 更加显著，达到判读阈值，杂合可预测为杂合，结果更加可信；说明本发明的检测方法能够准确检测CNV，且随着累积样本的增加，检测结果的准确性越来越高。

表1

综上所述，本发明提供了一种基于run间矫正的CNV检测方法，通过先对初始样本外显子进行标准化，再借鉴箱线图思路计算可接受范围，构建组间数据库，然后对待测样品计算Z-score和Ratio，依据判读标准进行CNV检测结果的判读，即对同一个run内相同检测类型的样本进行矫正，并比较run间参考值，再进行CNV检测，将所有该方法检测的样本构建参考数据库，各步骤各条件相互协调配合，最终有效避免run内矫正的假阳性CNV与假阴性CNV。

声明，本发明通过上述实施例来说明本发明的详细方法，但本发明并不局限于上述详细方法，即不意味着本发明必须依赖上述详细方法才能实施。所属技术领域的技术人员应该明了，对本发明的任何改进，对本发明产品各原料的等效替换及辅助成分的添加、具体方式的选择等，均落在本发明的保护范围和公开范围之内。

Claims

1.一种基于组间矫正的CNV检测方法，其特征在于，所述方法包括以下步骤：

（1）采集初始样本，对每个初始样本计算外显子标准化深度；计算初始样本中每个外显子的第一四分位数Q1、中位数和第三四分位数Q3，选取可接受范围并利用外显子标准化深度计算可接受范围的平均深度和标准差；结合每个初始样本的测序结果，构建初始深度组间数据库；

（2）采集待测样本，对每个待测样本计算外显子标准化深度；利用组内样本的外显子标准化深度计算组内样本的平均深度和标准差，进行Z-score归一化，计算组内Z-score和组内Ratio；利用初始深度组间数据库对样本进行Z-score归一化，计算组间Z-score和组间Ratio；

（3）根据待测样本外显子标准化深度、组内Z-score、组内Ratio、组间Z-score或组间Ratio中的任意一种或至少两种的组合判断CNV检测结果。

2.根据权利要求1所述的方法，其特征在于，步骤（1）所述初始样本包括阴性样本和/或CNV类型确定的样本。

3.根据权利要求1所述的方法，其特征在于，步骤（1）所述初始样本的个数为40~200个。

4.根据权利要求1所述的方法，其特征在于，步骤（1）所述外显子标准化深度的计算公式为：外显子标准化深度=外显子深度/样本平均深度。

5.根据权利要求1所述的方法，其特征在于，步骤（1）所述可接受范围在Q3+1.5IQR与Q1-1.5IQR之间；

其中，IQR=Q3-Q1。

6.根据权利要求1所述的方法，其特征在于，步骤（2）所述Z-score的计算公式为：Z-score=（样本深度-参考值平均深度）/参考值标准差。

7.根据权利要求1所述的方法，其特征在于，步骤（2）所述Ratio的计算公式为：Ratio=样本深度/参考值平均深度。

8.根据权利要求1所述的方法，其特征在于，步骤（3）所述判断的标准包括：

a）当外显子标准化深度<0.1x：

i.外显子有纯合/半合缺失事件的发生；

b）对于外显子标准化深度>0.1x的常染色体外显子：

对于组内样本数大于等于20的样本：

i.组内Z-score介于[-2.58,2.58]范围内，样本拷贝数正常；

iii.组内Z-score小于-2且组内Ratio小于0.65时，判断组间Z-score与组间Ratio，若组间Z-score小于-2且组间Ratio小于0.65，样本为杂合缺失；若组间Z-score小于-2且组间Ratio小于0.65不成立，列为疑似杂合缺失；若组内Z-score小于-2且组内Ratio小于0.65不成立，样本拷贝数正常；

v.组内Z-score大于2且组内Ratio大于1.35时，判断组间Z-score与组间Ratio；若组间Z-score大于2且组间Ratio大于1.38，样本为杂合重复；若组间Z-score大于2且组间Ratio大于1.38不成立，列为疑似杂合重复；若组内Z-score大于2时且组内Ratio大于1.35不成立，样本拷贝数正常；

对于组内样本数目小于20的样本：

i.组间Z-score介于[-2.58,2.58]范围内，样本拷贝数正常；

c）对于组内标准化深度>0.1x的X染色体外显子：

对于组内样本数目大于等于20的样本：

i.女性样本：与常染色体判断标准一致；

ii.男性样本：

组内Z-score大于2.58时，若组内Ratio大于1.38，样本为重复；

组内Z-score大于2且组内Ratio大于1.38，判断组间Z-score与组间Ratio；若组间Z-score大于2且组间Ratio大于1.38，样本为重复；若组间Z-score大于2且组间Ratio大于1.38不成立，列为疑似杂合重复；若组内Z-score大于2且组内Ratio大于1.38不成立，样本拷贝数正常；

对于组内样本数目小于20的样本：

i.女性样本：与常染色体判断标准一致；

ii.男性样本：

组间Z-score大于2.58时，若组间Ratio大于1.38，样本为重复，若组间Ratio＞1.20且≤1.38时，样本为疑似重复；

组间Z-score大于2且组间Ratio大于1.38，样本为疑似重复。

9.根据权利要求1所述的方法，其特征在于，所述方法在每次测序时均加入一个女性对照样本与一个男性对照样本，判读CNV检测结果。

10.根据权利要求1所述的方法，其特征在于，所述方法将每次待测样本的检测结果加入步骤（1）构建的初始深度组间数据库，形成新的初始深度组间数据库。

11.根据权利要求1所述的方法，其特征在于，所述方法在步骤（1）之前还包括测试组内达到正态分布的样本数。

12.根据权利要求11所述的方法，其特征在于，所述样本数为20~30个。

13.根据权利要求1所述的方法，其特征在于，包括如下步骤：

（1）测试组内可达到正态分布的样本数；

（2）采集40~200个阴性样本和/或CNV类型确定的样本，对每个初始样本计算外显子标准化深度，外显子标准化深度=外显子深度/样本平均深度；计算初始样本中每个外显子的第一四分位数Q1、中位数和第三四分位数Q3，选取可接受范围并利用外显子标准化深度计算可接受范围的平均深度和标准差，可接受范围为Q3+1.5IQR与Q1-1.5IQR之间，其中，IQR=Q3-Q1；结合每个初始样本的测序结果，构建初始深度组间数据库；

（3）采集待测样本，对每个待测样本计算外显子标准化深度；利用组内样本的外显子标准化深度计算组内样本的平均深度和标准差，进行Z-score归一化，计算组内Z-score和组内Ratio；利用初始深度组间数据库对样本进行Z-score归一化，计算组间Z-score和组间Ratio；

其中，Z-score=（样本深度-参考值平均深度）/参考值标准差，Ratio=样本深度/参考值平均深度；

（4）根据外显子标准化深度、组内Z-score、组内Ratio、组间Z-score或组间Ratio中的任意一种或至少两种的组合判断CNV检测结果；

a）当外显子标准化深度<0.1x：

i.外显子有纯合/半合缺失事件的发生；

b）对于外显子标准化深度>0.1x的常染色体外显子：

对于组内样本数大于等于20的样本：

i.组内Z-score介于[-2.58,2.58]范围内，样本拷贝数正常；

对于组内样本数目小于20的样本：

i.组间Z-score介于[-2.58,2.58]范围内，样本拷贝数正常；

c）对于组内标准化深度>0.1x的X染色体外显子：

对于组内样本数目大于等于20的样本：

i.女性样本：与常染色体判断标准一致；

ii.男性样本：

组内Z-score大于2.58时，若组内Ratio大于1.38，样本为重复；

对于组内样本数目小于20的样本：

i.女性样本：与常染色体判断标准一致；

ii.男性样本：

组间Z-score大于2且组间Ratio大于1.38，样本为疑似重复；

（5）所述方法在每次测序时均加入一个女性对照样本与一个男性对照样本，判读CNV检测结果；将每次待测样本的检测结果加入步骤（1）构建的初始深度组间数据库，形成新的初始深度组间数据库。

14.一种组间数据库，其特征在于，所述数据库由权利要求1-13任一项所述的方法构建得到。