CN114703263B

CN114703263B - 一种群组染色体拷贝数变异检测方法及装置

Info

Publication number: CN114703263B
Application number: CN202111566466.4A
Authority: CN
Inventors: 曲丽; 赵汗青; 李小雨; 伍启熹; 王建伟
Original assignee: Beijing Usci Biotechnology Co ltd
Current assignee: Beijing Usci Biotechnology Co ltd
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2023-09-22
Anticipated expiration: 2041-12-20
Also published as: CN114703263A

Abstract

本发明提供一种群组染色体拷贝数变异检测方法及装置，该方法包括：采集待测种群中各预设个体的DNA；根据各所述预设个体的DNA，在预设的若干个CNV区域中确定各所述预设个体的CNV异常区域；根据各所述预设个体的CNV异常区域的异常类型及位置，对各所述预设个体的CNV异常区域进行合并，并根据合并结果确定群组CNV的边界。本发明能够实现对群组CNV位置的检测，通过对群组CNV位置的检测，能够在采用检测CNV的方法进行种群检测或人类遗传疾病的检测的过程中，提供有效的数据参考，提高种群检测或人类遗传疾病检测的准确性。

Description

一种群组染色体拷贝数变异检测方法及装置

技术领域

本发明涉及生物信息技术领域，尤其涉及一种群组染色体拷贝数变异检测方法及装置。

背景技术

拷贝数变异(Copy Number Variation，CNV)通常指与参考基因组相比，基因组上某段区域的可变拷贝数变化。CNV包含插入和删除，分别对应拷贝数增加和丢失。研究表明，拷贝数变异是人类基因组结构变异的重要来源，对人类遗传和进化有重要的影响，与种群多样性和人类遗传疾病有重要的关联，因此，通常采用检测CNV的方法进行种群检测或人类遗传疾病的检测。

群组CNV存在于一个种群的多个个体样本中，且大部分的群组CNV为一个种群中普遍存在的良性CNV，但并不是每个个体都存在群组CNV，在通过检测CNV的方法进行种群或人类遗传疾病检测的过程中，如无创产前筛查，群组CNV的出现会导致假阳(False Positive，FP)或假阴(False Negative，FN)样本的发生。因此，确定群组CNV的位置能够有效提高种群检测或人类遗传疾病检测的准确性。

近年来，多种检测CNV的方法不断发展出来，从传统的细胞遗传学方法(例如G带核型检测)，到微阵列检测方法(例如基于芯片的比较基因组杂合方法)，再到近些年的下一代测序技术方法(Next-Generation Sequencing，NGS)。然而，这些检测方法仅能检测单个样本中特定染色体区域的CNV，而常见的群组CNV可能同时出现在同一种群中不同个体的相同基因组位置，因此，现有方法并无法进行群组CNV的检测，从而无法保证种群或人类遗传疾病检测结果的准确性。因此，对群组CNV的位置进行检测是目前业界亟待解决的重要课题。

发明内容

本发明提供一种群组染色体拷贝数变异检测方法及装置，用以解决现有技术中仅能对单个样本中的CNV进行检测的缺陷，实现对群组CNV位置的检测。

本发明提供一种群组染色体拷贝数变异检测方法，包括：

采集待测种群中各预设个体的DNA；

根据各所述预设个体的DNA，在预设的若干个CNV区域中确定各所述预设个体的CNV异常区域；

根据各所述预设个体的CNV异常区域的异常类型及位置，对各所述预设个体的CNV异常区域进行合并，并根据合并结果确定群组CNV的边界。

根据本发明提供的一种群组染色体拷贝数变异检测方法，所述根据各所述预设个体的DNA，确定各所述预设个体的CNV异常区域，包括：

对各所述预设个体的DNA进行测序，得到各所述预设个体的若干个短读序列；

根据各所述预设个体在每个所述CNV区域中的所述短读序列的数量，确定各所述预设个体的CNV异常区域。

根据本发明提供的一种群组染色体拷贝数变异检测方法，所述根据各所述预设个体在每个所述CNV区域中的所述短读序列的数量，确定各所述预设个体的CNV异常区域，包括：

将各所述预设个体的各染色体均划分为若干个大小相等的滑窗，并计算各所述滑窗中的所述短读序列的数量，记为第一读段数；

对于各所述预设个体，根据分布在所述CNV区域的各所述滑窗的所述第一读段数的均值，得到各所述预设个体在所述CNV区域的杂合比，并记为第一杂合比；

获取参考集在每个所述CNV区域的杂合比，记为第二杂合比；

根据所述第一杂合比与相应的所述第二杂合比的大小关系，确定各所述预设个体的CNV异常区域。

根据本发明提供的一种群组染色体拷贝数变异检测方法，所述计算各所述滑窗中的所述短读序列的数量，包括：

将各所述短读序列分别与预设参考基因组序列进行比对，得到各所述短读序列在所述染色体上的位置；

根据各所述短读序列在所述染色体上的位置，计算各所述滑窗中的所述短读序列的数量。

根据本发明提供的一种群组染色体拷贝数变异检测方法，所述根据分布在所述CNV区域的各所述滑窗的所述第一读段数的均值，得到各所述预设个体在所述CNV区域的杂合比，包括：

对分布在所述CNV区域的各所述滑窗的所述第一读段数进行标准化处理；

根据所述第一读段数的标准化处理结果，计算各所述预设个体在所述CNV区域的杂合比。

根据本发明提供的一种群组染色体拷贝数变异检测方法，所述对各所述预设个体的所述第一读段数进行标准化处理，包括：

将分布在所述CNV区域的各所述滑窗的所述第一读段数与对应的所述预设个体的标准化因子相乘，以进行所述标准化处理；其中，所述预设个体的标准化因子的计算包括：

计算所述参考集中各样本的所有常染色体的滑窗中短读序列数量的均值，并记为第二读段数；

计算所述预设个体的所有常染色体的滑窗中短读序列数量的均值，并记为第三读段数；

计算所述第二读段数与所述第三读段数的比值，以得到所述预设个体的标准化因子。

根据本发明提供的一种群组染色体拷贝数变异检测方法，所述根据各所述预设个体的CNV异常区域的异常类型及位置，对各所述预设个体的CNV异常区域进行合并，包括：

根据各所述预设个体的CNV异常区域的异常类型及位置，对各所述预设个体中异常类型相同，且间隔距离小于或等于预设间距的所述CNV异常区域进行合并。

根据本发明提供的一种群组染色体拷贝数变异检测方法，所述根据合并结果确定群组CNV的边界，包括：

根据各所述预设个体的CNV异常区域的合并结果，确定所述群组CNV的初始边界；

对所述群组CNV的初始边界进行扩展，得到若干组扩展边界；

分别计算各所述扩展边界所确定的群组CNV的变异度，根据所述变异度确定所述群组CNV的最终边界。

根据本发明提供的一种群组染色体拷贝数变异检测方法，所述根据各所述预设个体的CNV异常区域的合并结果，确定所述群组CNV的初始边界，包括：

根据合并为所述群组CNV的各所述CNV异常区域的最小位置和最大位置，确定所述群组CNV的初始边界。

根据本发明提供的一种群组染色体拷贝数变异检测方法，所述对所述群组CNV的初始边界进行扩展，得到若干组扩展边界，包括：

将所述初始边界的第一端和/或第二端扩展若干个单位长度，得到所述初始边界的第一端的若干个第一扩展边界值，和/或所述初始边界的第二端的若干个第二扩展边界值；

根据若干个所述第一扩展边界值和/或若干个所述第二扩展边界值，得到若干组所述扩展边界。

根据本发明提供的一种群组染色体拷贝数变异检测方法，所述根据所述变异度确定所述群组CNV的最终边界，包括：

对各所述扩展边界所确定的群组CNV的变异度进行排序，根据所述排序结果，将排序位次大于预设值的所述变异度对应的所述扩展边界作为所述群组CNV的最终边界。

本发明还提供一种群组染色体拷贝数变异检测装置，包括：

数据获取模块，用于采集待测种群中各预设个体的DNA；

个体CNV异常区域检测模块，用于根据各所述预设个体的DNA，在预设的若干个CNV区域中确定各所述预设个体的CNV异常区域；

群组CNV边界确定模块，用于根据各所述预设个体的CNV异常区域的异常类型及位置，对各所述预设个体的CNV异常区域进行合并，并根据合并结果确定群组CNV的边界。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述群组染色体拷贝数变异检测方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述群组染色体拷贝数变异检测方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述群组染色体拷贝数变异检测方法的步骤。

本发明提供的群组染色体拷贝数变异检测方法及装置，通过采集待测种群中各预设个体的DNA，并根据DNA在预设的若干个CNV区域中确定各预设个体的CNV异常区域，从而根据CNV异常区域的异常类型和位置对各预设个体的CNV异常区域进行合并，并根据合并结果确定群组CNV的边界，以实现对群组CNV位置的检测，通过对群组CNV位置的检测，能够在采用检测CNV的方法进行种群检测或人类遗传疾病的检测的过程中，提供有效的数据参考，提高种群检测或人类遗传疾病检测的准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的群组染色体拷贝数变异检测方法的流程示意图之一；

图2是本发明提供的群组染色体拷贝数变异检测方法的流程示意图之二；

图3是本发明提供的1号染色体群组CNV可视化展示结果示意图；

图4是本发明提供的2号染色体群组CNV可视化展示结果示意图；

图5是本发明提供的3号染色体群组CNV可视化展示结果示意图；

图6是本发明提供的群组CNV长度分布的箱线图；

图7是本发明提供的群组染色体拷贝数变异检测装置的结构示意图；

图8是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图6描述本发明的群组染色体拷贝数变异检测方法。图1为本发明群组染色体拷贝数变异检测方法的流程示意图，如图1所示，该方法包括：

S100、采集待测种群中各预设个体的DNA。

具体地，待测种群包括但不限于人类种群。在待测种群中选取若干个健康的个体作为预设个体，其中，健康的个体即不存在基因组结构变异的个体。采集待测种群中各预设个体的DNA的方法可以根据实际情况进行设定，例如，对于不同的人种，可以采集各预设个体的外周静脉血，对采集的外周静脉血进行离心分离，在离心分离得到的血浆中提取细胞游离DNA，以得到各预设个体的DNA。

S200、根据各所述预设个体的DNA，在预设的若干个CNV区域中确定各所述预设个体的CNV异常区域。

具体地，根据各预设个体的DNA在预设的若干个CNV区域中确定各预设个体的CNV异常区域，即在给定的若干个CNV区域中，检测各预设个体是否存在CNV异常，并将存在CNV异常的区域确定为CNV异常区域。该处对检测各预设个体是否存在CNV异常的方法不做具体限定，可以根据实际需求进行设定，例如，细胞遗传学方法、微阵列检测方法、NGS检测方法、全基因组测序方法。其中，微阵列检测方法比传统的细胞遗传学分析方法在检测CNV上有更高的分辨率，然而微阵列方法仍然只有有限的分辨率和准确性。在最近几年，基于NGS的检测方法因其较高的灵敏性和准确性，已经成为临床上检测CNV的有效方法。由于信号中高噪音的存在，特别是对于SNP Array(Single Nucleotide Polymorphisms Array，单核苷酸多态性微阵列)数据中的噪音，NGS检测方法检测到的CNV的边界在个体之间会有很大的差异。全基因组测序方法通过低深度、大规模的全基因组测序，能够准确检测到CNV异常。

S300、根据各所述预设个体的CNV异常区域的异常类型及位置，对各所述预设个体的CNV异常区域进行合并，并根据合并结果确定群组CNV的边界。

具体地，在检测出预设个体的CNV异常区域后，即可根据CNV异常区域的检测结果得到异常类型；同时，预设的若干个CNV区域的位置是固定的，因此，在检测出该CNV区域异常后，即可根据该CNV区域的位置确定CNV异常区域的位置。CNV异常类型包括缺失变异和重复变异两种。CNV异常区域的位置即CNV异常区域在染色体上对应的位置。

根据各预设个体的CNV异常区域的异常类型及位置，对各预设个体的CNV异常区域进行合并，即，将所有预设个体中满足条件的CNV异常区域均合并为一个区域，以得到群组CNV；另外，根据各满足条件的CNV异常区域的合并结果，确定群组CNV的边界，以完成群组CNV的检测。

由此可见，本发明实施例通过采集待测种群中各预设个体的DNA，并根据DNA在预设的若干个CNV区域中确定各预设个体的CNV异常区域，从而根据CNV异常区域的异常类型和位置对各预设个体的CNV异常区域进行合并，并根据合并结果确定群组CNV的边界，以实现对群组CNV位置的检测，通过对群组CNV位置的检测，能够在采用检测CNV的方法进行种群检测或人类遗传疾病的检测的过程中，提供有效的数据参考，提高种群检测或人类遗传疾病检测的准确性。例如，在无创产前筛查过程中，通过采集多个孕妇个体的外周血数据，来检测群组CNV，能够有效降低由于群组CNV的存在所造成的胎儿CNV的假阳性或假阴性概率，从而提高无创产前筛查的准确率。

基于上述实施例，所述根据各所述预设个体的DNA，确定各所述预设个体的CNV异常区域，包括：

具体地，通过对预设个体的DNA进行测序，能够生成预设个体全基因组的若干个短读序列，实现对CNV的全面准确检测。该处对DNA测序的具体方法不做具体限定，可以根据实际需求进行设定，例如，可以采用测序平台MGISeq 2000进行DNA测序，为了进一步统计分析，每个预设个体的DNA经过测序生成若干个预设长度的短读序列，该处短读序列的长度可以根据精度需求进行设定，短读序列越短，CNV检测精度越高，反之越低，例如，本发明实施例每个预设个体的DNA经过测序生成了10-20万个50个bp(碱基对)长度的短读序列，即reads。

根据各预设个体在预设的每个CNV区域中短读序列的数量，能够快速准确地检测到该预设个体在预设的各CNV区域是否存在异常，例如，可以将预设个体在该CNV区域中短读序列的数量与参考样本集在该CNV区域中短读序列的数量进行对比，根据对比结果即可得到该CNV区域是否存在异常，相比于参考样本集，在该CNV区域中短读序列的数量增加，即异常类型为重复变异，短读序列的数量减少，即异常类型为缺失变异。同时，根据该CNV区域的位置，即可得到CNV异常区域的位置。

基于上述任一实施例，所述根据各所述预设个体在每个所述CNV区域中的所述短读序列的数量，确定各所述预设个体的CNV异常区域，包括：

获取参考集在每个所述CNV区域的杂合比，记为第二杂合比；

具体地，在将各预设个体的各染色体均划分为若干个大小相等的滑窗的过程中，各滑窗的大小可以根据实际情况进行设定，例如，可以设定为将每条染色体划分为20kb大小的滑窗。同时，在滑窗的划分过程中，相邻两个滑窗重叠预设长度，通过重叠，在进行各CNV区域的杂合比计算的过程中，能够有效避免部分基因的漏检测，保证CNV检测结果的准确性。具体重叠长度可以根据精度需求进行设定，例如，重叠长度可以设置为1/2滑窗长度。

在根据分布在CNV区域的各滑窗的第一读段数的均值，得到各预设个体在该CNV区域的杂合比的过程中，判断各滑窗是否分布在该CNV区域的方法为：该滑窗的第一端和第二端均包括在该CNV区域内；例如，假设滑窗的坐标为(w₁，w₂)，CNV区域的坐标为(C₁，C₂)，需要满足C₁≤w₁≤C₂，且C₁≤w₂≤C₂的条件下，判断该滑窗分布在该CNV区域中。对分布在该CNV区域的各滑窗的第一读段数求均值，即可得到该预设个体在该CNV区域的杂合比。

同时，获取参考集在每个CNV区域的杂合比，根据各预设个体在该CNV区域的杂合比与参考集在该CNV区域的杂合比的大小关系，即可确定各预设个体在该CNV区域是否异常。其中，参考集的具体设置方法可以根据实际情况进行设定，该处不做具体限定，例如，可以由若干个质控合格、无染色体异常或CNV异常的阴性样本组成；另外，男性样本和女性样本的数量尽量保持一致，以保证参考集样本无性别偏好性。根据第一杂合比与相应的第二杂合比的大小关系，确定各预设个体的CNV异常区域的过程中，第一杂合比与相应的第二杂合比的大小关系的判定标准可以根据实际情况进行设定，例如，可以根据第一杂合比和第二杂合比来计算各预设个体在该CNV区域的Z值Zscore，如式(1)所示：

式中，Sample hh为预设个体在该CNV区域的杂合比；Reference hh为参考集中各样本在该CNV区域的杂合比的均值；SD为参考集中各样本在该CNV区域的杂合比的标准差。

根据Z值计算结果，在Z值的绝对值大于3时，判定为该CNV区域异常，且Z值为正时，代表异常类型为重复变异，Z值为负时，代表异常类型为缺失变异。在Z值的绝对值小于或等于3时，判定为该CNV区域无异常。

由此可见，本发明实施例通过比较预设个体和参考集在相应CNV区域的杂合比，能够快速准确地检测到CNV异常区域，以及该CNV异常区域的异常类型；同时，计算过程中仅需要以滑窗为单位进行计算，极大降低了计算量，从而降低了计算开销，提高了计算效率。

基于上述任一实施例，所述计算各所述滑窗中的所述短读序列的数量，包括：

具体地，将各短读序列分别与预设参考基因组序列进行比对的方式可以根据实际情况进行设定，例如，可以采用BWA(Burrows-Wheeler-Alignment)软件将测序得到的各短读序列与人类参考基因组序列hg19进行比对，以得到各短读序列在染色体上的具体位置。另外，在比对过程中，还对测序得到的各短读序列进行质控，通过质控将比对失败或测序质量较差的短读序列剔除，以保证CNV检测的准确性。

在得到各短读序列在染色体上的具体位置后，能够通过统计计数的方式快速准确地得到各滑窗中短读序列的数量。

由此可见，本发明实施例通过将各短读序列与预设参考基因组序列进行比对，得到各短读序列在染色体上的位置，根据各短读序列在染色体上的位置能够快速准确地计算得到各滑窗中短读序列的数量，从而为CNV检测提供了数据基础。

基于上述任一实施例，所述根据分布在所述CNV区域的各所述滑窗的所述第一读段数的均值，得到各所述预设个体在所述CNV区域的杂合比，包括：

具体地，不同个体的读段数深度(即短读序列的总数量)差异较大，从而在根据第一杂合比与第二杂合比的大小关系确定CNV异常区域的过程中，无法保证CNV异常区域检测结果的有效性。因此，本发明实施例在进行第一杂合比计算之前，先对各滑窗的第一读段数进行标准化处理，并根据标准化处理后的第一读段数进行第一杂合比的计算，实现了CNV异常区域检测结果有效性的提高。

同时，在DNA采集、测序等过程中，会由于环境因素、设备因素以及人为因素等引入较多的噪音信号，因此，在对第一读段数进行标准化处理后，还需要对第一读段数进行预处理，以去除噪音，提高CNV异常区域检测结果的准确性。

另外，在DNA测序过程中难免出现错误，以及在滑窗划分过程中，可能出现无读段数信息的滑窗，因此，在计算分布在CNV区域的各滑窗的第一读段数的均值之前，还对分布在CNV区域的滑窗进行过滤处理，通过过滤处理，过滤掉一些明显错误的滑窗(例如，第一读段数深度显著高于参考集样本的滑窗)以及无读段数信息的滑窗(例如，未比对到参考集样本的滑窗，含有连续N值(即单倍体基因组所含全部基因的数目)的滑窗)。通过过滤掉明显错误以及无读段数信息的滑窗，能够进一步提高CNV异常区域检测结果的有效性。

基于上述任一实施例，所述对各所述预设个体的所述第一读段数进行标准化处理，包括：

具体地，由于不同预设个体的读段数深度(即短读序列的总数量)差异较大，因此，针对每一个预设个体，计算一个相应的标准化因子，在对各滑窗的第一读段数进行预处理的过程中，将该滑窗的第一读段数乘以该滑窗对应的预设个体的标准化因子，即可完成对第一读段数的标准化处理；其中，标准化因子的计算，根据参考集中各样本的所有常染色体的滑窗中短读序列数量的均值，与预设个体的所有常染色体的滑窗中短读序列数量的均值的比值得到，具体如式(2)所示：

式中，RC_nor_ks为预设个体s中第k个滑窗的第一读段数的标准化处理结果；RC_ks、RC_is分别为预设个体s中第k个滑窗、第i个滑窗的第一读段数；n_j为参考集中样本的总数量；n_i为22条常染色体中的滑窗总数量；RC_ij为参考集中样本j的第i个滑窗中短读序列数量。

由此可见，本发明实施例针对每个预设个体，获取相应的标准化因子，并根据相应的标准化因子对该预设个体的各滑窗中的第一读段数进行标准化处理，能够以参考集的读段数深度为标准，对各预设个体的各滑窗中的第一读段数进行标准化处理，即所有预设个体的第一读段数均基于相同的读段数深度得到，极大提高了CNV异常区域检测结果的有效性。

基于上述任一实施例，所述根据各所述预设个体的CNV异常区域的异常类型及位置，对各所述预设个体的CNV异常区域进行合并，包括：

具体地，异常类型相同即均为缺失变异或均为重复变异；对各预设个体中异常类型相同，且间隔距离小于或等于预设间距的CNV异常区域进行合并，即，基于所有预设个体中检测出来的全部CNV异常区域，如果相邻两个CNV异常区域中，前一个CNV异常区域的终止位置与后一个CNV异常区域的起始位置之间的间距小于或等于预设间距，且二者异常类型相同，则将该两个相邻的CNV异常区域合并到一个群组CNV。其中，间隔距离小于或等于预设间距的CNV异常区域包括：相邻两个CNV异常区域存在部分重叠(前一个CNV异常区域的终止位置与后一个CNV异常区域的起始位置之间的间距小于0)、相邻两个CNV异常区域首尾连接(前一个CNV异常区域的终止位置与后一个CNV异常区域的起始位置之间的间距等于0)以及相邻两个CNV异常区域中，前一个CNV异常区域的终止位置与后一个CNV异常区域的起始位置之间的间距小于或等于预设间距(前一个CNV异常区域的终止位置与后一个CNV异常区域的起始位置之间的间距大于0且小于或等于预设间距)。其中，预设间距可以根据实际情况进行设定，例如，可以设置为5个滑窗长度。

由此可见，本发明实施例通过将各预设个体中异常类型相同，且间隔距离小于或等于预设间距的CNV异常区域进行合并，使得合并得到的群组CNV能够涵盖不同预设个体在一定区域范围内的CNV波动差异，从而得到的群组CNV更能够代表该种群的CNV特征。

基于上述任一实施例，所述根据合并结果确定群组CNV的边界，包括：

对所述群组CNV的初始边界进行扩展，得到若干组扩展边界；

具体地，通常同一个CNV区域出现在同一种群中不同预设个体的相同基因组位置，但也会出现前后移动的情况，因此，在确定群组CNV的边界的过程中，需要先根据各CNV异常区域的合并结果确定群组CNV的初始边界，再对该边界进行不同程度的扩展，得到多组扩展边界，从而根据不同扩展边界所确定的群组CNV的变异度来确定最终边界，实现对群组CNV边界的优化，从而有效提高群组CNV位置确定结果的准确性。

基于上述任一实施例，所述根据各所述预设个体的CNV异常区域的合并结果，确定所述群组CNV的初始边界，包括：

具体地，在将各预设个体的CNV异常区域进行合并后，得到一个或多个群组CNV，对于每一个群组CNV，根据合并为该群组CNV的各CNV异常区域的最小位置来确定该群组CNV的下边界，根据合并为该群组CNV的各CNV异常区域的最大位置来确定该群组CNV的上边界，从而得到该群组CNV的初始边界。可以理解的是，在初始边界的确定过程中，可以直接将合并为该群组CNV的各CNV异常区域的最小位置作为该群组CNV的下边界，并将合并为该群组CNV的各CNV异常区域的最大位置作为该群组CNV的上边界，也可以对该最小值和最大值在一定范围内进行变化，将变化后的最小值和最大值分别作为该群组CNV的下边界和上边界。

通过初始边界的确定，能够初步得到各群组CNV的主要分布区域，为群组CNV精确边界的确定提供了数据基础。

基于上述任一实施例，所述对所述群组CNV的初始边界进行扩展，得到若干组扩展边界，包括：

具体地，对初始边界进行扩展的过程中，在初始边界的第一端和/或第二端扩展若干个单位长度，根据扩展的每个单位长度确定为一个边界，即，在初始边界的基础上，每增加或减少一个单位长度，得到一个扩展边界值，从而得到多组扩展边界。例如，仅在初始边界的第一端扩展若干个单位长度的情况下，根据第一端扩展的若干个边界和初始边界的第二端得到若干组扩展边界；仅在初始边界的第二端扩展若干个单位长度的情况下，根据第二端扩展的若干个边界和初始边界的第一端得到若干组扩展边界；在第一端和第二端均扩展若干个单位长度的情况下，根据不同的第一扩展边界值和不同的第二扩展边界值得到多组不同的扩展边界。其中，若干个单位长度可以根据实际情况进行设定，例如，假设初始边界为(E1，E2)，对初始边界的第一端和第二端均前后扩展10个滑窗，即，扩展后第一扩展边界值的范围为(E1-10个滑窗，E1+10个滑窗)，第二扩展边界值的范围为(E2-10个滑窗，E2+10个滑窗)，从而得到21*21＝441组扩展边界。

在确定最终边界的过程中，遍历各扩展边界，并计算各扩展边界对应的群组CNV变异度，从而得到每一组扩展边界对应的群组CNV变异度，根据计算的各群组CNV变异度，即可确定群组CNV的最终边界。

由此可见，本发明实施例通过将初始边界的第一端和/或第二端扩展若干个单位长度，来确定若干组扩展边界，从而能够在初始边界附近的一定范围内精细确定群组CNV的最终边界，最大程度上提高群组CNV位置检测结果的准确性。

基于上述任一实施例，根据所述变异度确定所述群组CNV的最终边界，包括：

具体地，在遍历各组扩展边界的过程中，根据每组扩展边界确定的群组CNV变异度的大小顺序，来选取符合要求的扩展边界，并将其确定为最终边界。作为可选方案，可以根据变异度最大时对应的扩展边界来确定最终边界。其中，变异度的计算方式可以根据实际情况进行设定，例如，可以通过计算各扩展边界所确定的群组CNV的Z值，将Z值的绝对值最大时对应的扩展边界确定为最终边界。

因此，通过对各扩展边界所确定的群组CNV的变异度进行排序，根据排序结果，能够快速准确地确定群组CNV的最终边界。

以下通过一种可选的实施方式对本发明群组染色体拷贝数变异检测方法进行详细说明，如图2所示，包括：

S401、获取种群中各预设个体的游离DNA；

S402、对各预设个体的游离DNA进行测序；

S403、将测序结果与预设参考基因组序列进行比对；

S404、将各预设个体的各染色体均划分为若干个大小相等的滑窗，并对各滑窗的第一读段数进行标准化校正以及数据预处理；

S405、计算各预设个体在预设的若干个CNV区域的Z值；

S406、判断各Z值是否大于3，否，则执行步骤S407，是，则执行步骤S408；

S407、确定该预设个体在对应的CNV区域无异常；

S408、确定该预设个体在对应的CNV区域异常；

S409、将各预设个体的CNV异常区域进行合并，并根据合并结果确定群组CNV的边界。

以下通过实验验证本发明群组染色体拷贝数变异检测方法的有效性。

通过采集23830个孕妇外周血数据样本进行了实验验证，共检测出52,926个CNV异常区域，人均CNV异常区域的个数为2.22(52,926/23830)个。选择频数大于238的群组CNV，与DGV数据库中的gssv数据比对结果列表如表1所示；其中，频数为群组CNV出现的样本频次，即包含了该群组CNV的样本的个数；由表1可知，大部分的群组CNV的频数较高，且与DGV数据库(收录健康样本中大于50bp的基因组结构变化信息)的重叠比例较高。从检测出的CNV异常区域解读情况来看，所有CNV异常区域均为无明确致病意义的或有益的，符合群组CNV的特性，由此表明本发明方法检测出的群组CNV是可信的。

表1

/>

在计算得到各群组CNV的边界后，将其输入R包可实现群组CNV的可视化展示。如图3-图5所示，分别为1号-3号染色体的可视化展示结果，图3-图5中，横坐标为群组CNV在染色体上的位置，纵坐标的绝对值为群组CNV的频数，纵坐标的正负代表群组CNV的异常类型，纵坐标为正，代表该群组CNV的异常类型为重复，纵坐标为负，代表该群组CNV的异常类型为缺失。通过群组CNV的可视化，能够直观地显示每个群组CNV的异常类型、频数以及该群组CNV在染色体上的位置。所有群组CNV的长度分布的箱线图如图6所示，图6中纵坐标为CNV的长度分布(单位为Kbp)，由图6可知，群组CNV的长度主要集中在500Kbp以下。

下面对本发明提供的群组染色体拷贝数变异检测装置进行描述，下文描述的群组染色体拷贝数变异检测装置与上文描述的群组染色体拷贝数变异检测方法可相互对应参照。如图7所示，该装置包括：

数据获取模块710，用于采集待测种群中各预设个体的DNA；

个体CNV异常区域检测模块720，用于根据各所述预设个体的DNA，在预设的若干个CNV区域中确定各所述预设个体的CNV异常区域；

群组CNV边界确定模块730，用于根据各所述预设个体的CNV异常区域的异常类型及位置，对各所述预设个体的CNV异常区域进行合并，并根据合并结果确定群组CNV的边界。

基于上述实施例，个体CNV异常区域检测模块720根据各所述预设个体的DNA，确定各所述预设个体的CNV异常区域，包括：

基于上述任一实施例，个体CNV异常区域检测模块720根据各所述预设个体在每个所述CNV区域中的所述短读序列的数量，确定各所述预设个体的CNV异常区域，包括：

获取参考集在每个所述CNV区域的杂合比，记为第二杂合比；

基于上述任一实施例，个体CNV异常区域检测模块720计算各所述滑窗中的所述短读序列的数量，包括：

基于上述任一实施例，个体CNV异常区域检测模块720根据分布在所述CNV区域的各所述滑窗的所述第一读段数的均值，得到各所述预设个体在所述CNV区域的杂合比，包括：

基于上述任一实施例，个体CNV异常区域检测模块720对各所述预设个体的所述第一读段数进行标准化处理，包括：

基于上述任一实施例，群组CNV边界确定模块730根据各所述预设个体的CNV异常区域的异常类型及位置，对各所述预设个体的CNV异常区域进行合并，包括：

基于上述任一实施例，群组CNV边界确定模块730根据合并结果确定群组CNV的边界，包括：

对所述群组CNV的初始边界进行扩展，得到若干组扩展边界；

基于上述任一实施例，群组CNV边界确定模块730根据各所述预设个体的CNV异常区域的合并结果，确定所述群组CNV的初始边界，包括：

基于上述任一实施例，群组CNV边界确定模块730对所述群组CNV的初始边界进行扩展，得到若干组扩展边界，包括：

基于上述任一实施例，群组CNV边界确定模块730根据所述变异度确定所述群组CNV的最终边界，包括：

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行群组染色体拷贝数变异检测方法，该方法包括：采集待测种群中各预设个体的DNA；

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的群组染色体拷贝数变异检测方法，该方法包括：采集待测种群中各预设个体的DNA；

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的群组染色体拷贝数变异检测方法，该方法包括：采集待测种群中各预设个体的DNA；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种群组染色体拷贝数变异检测方法，其特征在于，包括：

采集待测种群中各预设个体的DNA；

根据各所述预设个体的DNA，在预设的若干个CNV区域中确定各所述预设个体的CNV异常区域；所述确定各所述预设个体的CNV异常区域，包括：对各所述预设个体的DNA进行测序，得到各所述预设个体的若干个短读序列；将各所述预设个体的各染色体均划分为若干个大小相等的滑窗，并计算各所述滑窗中的所述短读序列的数量，记为第一读段数；对于各所述预设个体，对分布在所述CNV区域的各所述滑窗的所述第一读段数进行标准化处理，根据所述第一读段数的标准化处理结果，计算分布在所述CNV区域的各所述滑窗的所述第一读段数的均值，得到各所述预设个体在所述CNV区域的杂合比，并记为第一杂合比；获取参考集在每个所述CNV区域的杂合比，记为第二杂合比；根据所述第一杂合比与相应的所述第二杂合比的大小关系，确定各所述预设个体的CNV异常区域；其中，将分布在所述CNV区域的各所述滑窗的所述第一读段数与对应的所述预设个体的标准化因子相乘，以进行所述标准化处理；所述预设个体的标准化因子的计算包括：计算所述参考集中各样本的所有常染色体的滑窗中短读序列数量的均值，并记为第二读段数；计算所述预设个体的所有常染色体的滑窗中短读序列数量的均值，并记为第三读段数；计算所述第二读段数与所述第三读段数的比值，以得到所述预设个体的标准化因子；

2.根据权利要求1所述的一种群组染色体拷贝数变异检测方法，其特征在于，所述计算各所述滑窗中的所述短读序列的数量，包括：

3.根据权利要求1所述的一种群组染色体拷贝数变异检测方法，其特征在于，所述根据各所述预设个体的CNV异常区域的异常类型及位置，对各所述预设个体的CNV异常区域进行合并，包括：

4.根据权利要求1所述的一种群组染色体拷贝数变异检测方法，其特征在于，所述根据合并结果确定群组CNV的边界，包括：

对所述群组CNV的初始边界进行扩展，得到若干组扩展边界；

分别计算各所述扩展边界所确定的群组CNV的变异度，根据所述变异度确定所述群组CNV的最终边界；其中，所述变异度为相应的所述扩展边界所确定的群组CNV的Z值的绝对值；所述Z值的计算为：

；

式中，Sample hh为所述预设个体在所述群组CNV的杂合比；Reference hh为参考集中各样本在所述群组CNV的杂合比的均值；SD为参考集中各样本在所述群组CNV的杂合比的标准差。

5.根据权利要求4所述的一种群组染色体拷贝数变异检测方法，其特征在于，所述根据各所述预设个体的CNV异常区域的合并结果，确定所述群组CNV的初始边界，包括：

6.根据权利要求4所述的一种群组染色体拷贝数变异检测方法，其特征在于，所述对所述群组CNV的初始边界进行扩展，得到若干组扩展边界，包括：

7.根据权利要求4所述的一种群组染色体拷贝数变异检测方法，其特征在于，所述根据所述变异度确定所述群组CNV的最终边界，包括：

8.一种群组染色体拷贝数变异检测装置，其特征在于，包括：

数据获取模块，用于采集待测种群中各预设个体的DNA；

个体CNV异常区域检测模块，用于根据各所述预设个体的DNA，在预设的若干个CNV区域中确定各所述预设个体的CNV异常区域；所述确定各所述预设个体的CNV异常区域，包括：对各所述预设个体的DNA进行测序，得到各所述预设个体的若干个短读序列；将各所述预设个体的各染色体均划分为若干个大小相等的滑窗，并计算各所述滑窗中的所述短读序列的数量，记为第一读段数；对于各所述预设个体，对分布在所述CNV区域的各所述滑窗的所述第一读段数进行标准化处理，根据所述第一读段数的标准化处理结果，计算分布在所述CNV区域的各所述滑窗的所述第一读段数的均值，得到各所述预设个体在所述CNV区域的杂合比，并记为第一杂合比；获取参考集在每个所述CNV区域的杂合比，记为第二杂合比；根据所述第一杂合比与相应的所述第二杂合比的大小关系，确定各所述预设个体的CNV异常区域；其中，将分布在所述CNV区域的各所述滑窗的所述第一读段数与对应的所述预设个体的标准化因子相乘，以进行所述标准化处理；所述预设个体的标准化因子的计算包括：计算所述参考集中各样本的所有常染色体的滑窗中短读序列数量的均值，并记为第二读段数；计算所述预设个体的所有常染色体的滑窗中短读序列数量的均值，并记为第三读段数；计算所述第二读段数与所述第三读段数的比值，以得到所述预设个体的标准化因子；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述群组染色体拷贝数变异检测方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述群组染色体拷贝数变异检测方法的步骤。

11.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述群组染色体拷贝数变异检测方法的步骤。