CN114420208A

CN114420208A - 一种用于鉴定核酸样本中cnv的方法和装置

Info

Publication number: CN114420208A
Application number: CN202210186620.3A
Authority: CN
Inventors: 夏滢颖; 邹央云; 任军
Original assignee: Yikon Genomics Shanghai Co ltd
Current assignee: Yikon Genomics Shanghai Co ltd
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2022-04-29
Anticipated expiration: 2042-02-28
Also published as: CN114420208B

Abstract

本发明涉及基因数据分析技术领域，特别是涉及基于SNP数据，用于鉴定核酸样本中拷贝数变异(CNV)的方法和装置。

Description

一种用于鉴定核酸样本中CNV的方法和装置

技术领域

背景技术

聚类作为一种无监督学习方法，是数据挖掘中的常用技术之一。但由于不同数据类型的数据分布性质不同，每种聚类算法都有其局限性。密度聚类，主要应用于图形识别、空间目标物提取、电子通讯、交通领域的数据，其从样本密度的角度来考察样本之间的可连续性，并基于可连接样本不断扩展聚类簇以获得最终的聚类结果。这种聚类方法具有无需定义类的数量和可以识别局外点和噪声点的优势。但目前尚未有密度聚类算法在基于SNP的基因数据上应用的报道。

临床上，约10～15％的孕妇发生自然流产，其中的50％～60％与胚胎染色体异常有关。对流产物进行遗传学检测可以帮助医生排查该胚胎发生流产的原因，为后续的治疗或干预措施提供科学依据，为下次妊娠提供指导，避免不必要的检测和错误的治疗方案。

流产物样本中经常混有其母亲的DNA，即存在母源污染，而母源污染会干扰对流产物的CNV(Copy Number Variation，拷贝数变异)检测。目前市场上通常采用NGS检测CNV并联合STR(Short Tandem Repeat,短串联重复序列)检测母源污染的方法来进行流产物检测，但这种方案无法检出流产物中的UPD(单亲二倍体)，且需要母亲的样本才能进行母源污染检测，从而增加检测成本。

发明概述

鉴于前述CNV检测的现状，本领域仍需要提供简单、经济且有效的核酸样本纯度和CNV变异鉴定方法和装置，尤其是可以可靠地用于胎儿组织样本(例如流产物样本)的母源污染判断以及CNV检测和嵌合比例确定的方法和装置。为此，本发明人进行了深入研究，并提出了一种基于从SNP(Single Nucleotide Polymorphism，单核苷酸多态)检测数据提取的log2 R ratio(LRR)和B allele frequency(BAF)特征，通过动态阈值密度聚类来检测核酸样本CNV的方法。在此方法中，应用迭代动态阈值密度聚类和bin-seed-block-flanking延伸法检出BAF异常区域，并结合LRR异常区域检出，可以准确判断核酸样本的污染比例、CNV拷贝数异常和嵌合比例。如实施例所显示，在一系列不同真实样本上的应用充分证实了本发明方法的有效性。

因此，在第一方面，本发明提供了一种BAF异常区域分析方法，其包括：

(i)将提取自核酸样本基因组上待分析区域的SNP位点BAF值，基于其对应SNP位点在基因组上的位置进行顺序排列，形成以位置为基础的BAF特征序列数据；

(ii)对BAF特征序列数据，进行窗口区域分割，生成用于初始聚类分析的多数个bin；

(iii)应用动态阈值密度聚类分析,确定BAF异常区域，

其中，所述动态阈值密度聚类包括：

按照待聚类分析的窗口区域中的SNP位点分布特征，动态设置用于密度聚类分析的ε-邻域值(eps)和ε-邻域内样本个数最小值(MinPts)；

将聚类分析确定为具有相同变异模式的相邻窗口区域合并，以及

对合并产生的窗口区域迭代进行动态阈值密度聚类。

优选地，在所述的动态阈值密度聚类中，基于待聚类分析的窗口区域中包含的SNP位点数，采用如下的聚类阈值设定：

其中，n为区域所包含的SNP位点数。

在根据本发明的此方法中，在对bin进行初始密度聚类后，根据检测需要，可以进行2轮或以上的窗口区域合并和迭代动态阈值密度聚类。因此，在此类方法的一些实施方案中，所述方法包括bin-seed-block-flanking延伸，其中所述延伸包括：

(a)对BAF特征序列数据进行窗口区域分割，以生成多数个bin，对每个bin进行初始动态阈值密度聚类；

(b)将连续的分类为相同类型的bin合并成seed，对生成的seed进行第二轮动态阈值聚类；

(c)将分类为相同类型的seed合并成block，对生成的block进行第三轮动态阈值聚类；以及

(d)对分类为异常的block的flanking区域，进行第四轮动态阈值聚类，将与block分类为相同类型的flanking区域合并到异常区域中，以确定BAF异常区域边界。

在一些实施方案中，在每次进行动态阈值密度聚类前，过滤除去已分类为正常的窗口区域，以仅对异常分类的窗口区域进行合并和再次聚类分析。

在一些实施方案中，在步骤(ii)的初始窗口分割中，分割产生包含50-100个SNP位点，例如，大约50、60、70、80、90、或100个SNP位点的bin。

在再一些实施方案中，在步骤(iii)中，在对合并的窗口区域(例如，seed区域)进行后续的动态阈值密度聚类后，在容错条件下，进行具有相同变异模式的相邻窗口区域的合并。本领域技术人员可以容易地根据设定的CNV检测精度，调整容错条件，以适应检测目的。优选地，可以基于相邻窗口区域之间的物理距离、相邻窗口区域之间包含的bin数、以及相邻窗口区域的类型和其间间插存在的bin类型，设定所述容错条件。

在再一些实施方案中，对步骤(i)的BAF值进行校正，以校正后的BAF值进行后续聚类和分析。在一些实施方案中，所述BAF值校正包括：基于在核酸样本的常染色体上提取的样本BAF校正值，进行所分析窗口区域的BAF值校正。

在又一些实施方案中，在对分析窗口区域进行聚类后，优选地，基于聚类形成的cluster分布模式，进行窗口区域的分类，将分析区域归类为正常区域(Normal)、嵌合候选异常区域(MOS)、LOH(杂合性缺失区域)或重复(DPU)。

在一些实施方案中，对(优选地，3轮)迭代动态密度阈值聚类产生的合并异常区域(优选地，block区域)，按如下方法设定步长，进行侧翼区域检测，以实现异常区域的边界延伸，

步长p＝0.0371s+216790

其中，s为所述异常区域的物理大小，

其中，若所述规定步长的侧翼区域与所述异常区域被分类为相同类型，则将所述侧翼并入所述异常区域，以延伸所述异常区域的边界。

在第二方面，本发明提供了一种用于核酸样本的CNV检测的方法，包括如下步骤：

(i)提取核酸样本基因组上待分析区域的SNP位点的BAF和LRR值，形成BAF特征序列数据和LRR特征序列数据；

(ii)根据本发明的BAF异常区域分析方法，对BAF特征序列数据进行分析,确定BAF异常区域；

(iii)对LRR特征序列数据进行分析，确定LRR异常区域；

(iv)通过整合步骤(ii)的BAF异常区域检出结果和步骤(iii)的LRR异常区域检出结果，确定CNV的边界和类型，以及任选地嵌合CNV的嵌合比例；

(v)任选地，将CNV位置及嵌合比例检测结果输出。

在一些实施方案中，所述方法还包括，在步骤(ii)前，根据本发明的BAF异常区域分析方法，对至少一条常染色体(优选地3-7条)，进行染色体水平检测，判断样本污染，和任选地确定样本污染比例。本领域技术人员可以根据判断的样本污染情况，决定是否继续后续的CNV分析。当样本污染超出可能影响CNV结果的准确判断时，优选地，对样本予以淘汰。在一些实施方案中，所述的样本污染判断包括：其中若所测染色体在整条染色体上显示：聚类形成的cluster数>3、在0.5两侧对称分布、且有一个cluster分布在0.5±0.1，则判断该样本存在污染。在鉴定到样本污染后，任选地，通过参比在不同污染比例下BAF特征值cluster的分布理论值，确定样本污染比例。用于样本污染判断时的常染色体选择，可以根据核酸样本确定。在核酸样本为来自人类细胞、组织或个体时，在一些优选实施方案中，检测8、9、10、12和17号常染色体。

在根据本发明的方法对核酸样本进行BAF异常区域检测的同时，可以平行地对提取的LRR特征序列数据，进行分析。用于LRR分析的算法并无限制。在一些优选的实施方案中，采用CBS算法，以检出LRR异常区域。

在步骤(ii)和(iii)后，通过整合检出的BAF和LRR异常区域，确定核酸样本在所分析区域的CNV边界和类型。在一个实施方案中，CNV边界确定包括：

-当BAF异常区域与LRR异常区域不重叠，则将其作为不同的CNV分别报出；

-当BAF异常区域和LRR异常区域重叠时，提取全基因组上在-2～2之间的LRR值计算LRR_SD，若LRR_SD<0.19，则以LRR异常区域作为最终结果的边界值；若LRR_SD≥0.19，则以BAF异常区域作为最终结果的边界值。

在一些实施方案中，根据整合后的异常区域的BAF分类结果和LRR值，确定该区域的CNV类型，包括嵌合(MOS)异常区域(即，嵌合CNV)。

对于步骤(iv)确定的嵌合(MOS)CNV，优选地，根据该区域中BAF特征值聚类得到的BAF cluster分布模式，计算该异常区域的嵌合比例，并根据计算的嵌合比例，校正该嵌合异常区域的拷贝数报出。

在第三方面，本发明提供一种用于确定核酸样本中目标区域的嵌合比例的方法，其包括：

-根据本发明的BAF异常区域分析方法，应用动态阈值密度聚类，确定所述目标区域的BAF cluster分布模式，

-参比在不同嵌合比例下BAF特征值cluster的分布理论值，确定所述目标区域的嵌合比例，且任选地，

-对于小于30％的低比例嵌合，采用所述目标区域在0.5附近的cluster的分布宽度，根据Z值-嵌合比例标准曲线，计算嵌合比例，其中

其中，

目标区域：待分析的目标染色体区域；

正常bin：聚类形成分别分布在0,0.5和1附近的3个BAF cluster的bin，

杂合cluster：分布在0.5附近的cluster。

所述目标区域可以为，根据本发明之前述任一实施方案中的BAF异常区域分析方法或CNV检测方法，确定的嵌合异常区域。

在该方法的一些实施方案中，通过构建参考系，拟合Z值-嵌合比例标准曲线，进而确定嵌合比例计算公式，

其中，b为标准曲线的横截距，k为标准曲线的斜率。

在第四方面，本发明也提供一种用于确定核酸样本污染的方法，其中所述污染优选为同源DNA或亲源DNA污染，所述方法包括：

-根据本发明的BAF异常区域分析方法，应用动态阈值密度聚类，确定至少一条常染色体(例如3-7条)在染色体水平的BAF cluster分布模式，

-若所测染色体在整条染色体上显示：聚类形成的cluster数>3、在0.5两侧对称分布、且有一个cluster分布在0.5附近(优选地，0.5±0.1、0.5±0.2、0.5±0.25、0.5±0.28)，则判断该样本存在污染。

在一些实施方案中，核酸样本为来自子代组织(例如胚胎或胎儿流产组织)的样本，且所述污染为母源污染。

在确定样本存在污染的情况下，可以参比在不同污染比例下BAF特征值cluster的分布理论值，确定样本污染比例。

在根据本发明上述任一方法的实施方案中，优选地，密度聚类采用DBSCAN算法进行。再优选地，使用SNP芯片，提取核酸样本在待分析区域的SNP位点BAF值和/或LRR值，优选地，所述SNP芯片是Infinium Asian Screening Array芯片。

可以用于本发明方法的核酸样本并无特别限制，但优选选自：流产物，绒毛膜、脐带血、外周血和肿瘤组织样本，更优选，流产物和外周血样本。

在第五方面，本发明也提供了可以执行本发明方法的装置、设备或系统，其特征在于，包含：

-任选地，能够执行受试核酸样本的SNP位点BAF值和LRR值检测的模块或部件；

-基于自样本提取的SNP位点BAF值和LRR值信息，能够执行根据本发明的方法，以鉴定受试核酸样本的BAF异常区域、CNV和/或其嵌合比例、和/或样本污染和/或污染比例的模块或部件。

在一些实施方案中，所述的装置为一种用于核酸样本CNV检测的装置，其包含：

(1)SNP信息获取模块：用于获取受试核酸样本在待分析区域的SNP位点BAF值和/或LRR值；

(2)BAF异常区域分析模块：用于在模块(1)获取的BAF值上执行根据本发明的BAF异常区域分析方法，以确定BAF异常区域；

(3)任选地，污染检测模块：用于在模块(1)获取的BAF值上执行样本污染分析，优选地，执行根据本发明的样本污染确定方法；

(3)LRR异常区域检出模块：用于在模块(1)获取的LRR值上执行LRR异常区域分析，以检出LRR异常区域；

(4)CNV确定模块：用于整合由模块(2)检出的BAF异常区域和由模块(3)检出的LRR异常区域，确定CNV的边界和类型，和任选地基于CNV的嵌合比例，对CNV拷贝数进行校正；

(5)任选地，CNV嵌合比例确定模块：用于在模块(4)检出的嵌合CNV异常区域上执行CNV嵌合比例确定，优选地执行根据本发明的CNV嵌合比例确定方法；

(6)任选地，报告输出模块：对模块(1)-(5)得到的数据进行加工处理整合，生成报告。

在另一些实施方案中，本发明也提供了一种包含根据本发明的装置、设备或系统的可用于辅助排查胚胎流产原因或用于提供妊娠指导的产品。任选地，所述产品还包含用于获取流产物的核酸样本的装置。

在第六方面，本发明提供根据本发明的装置、设备或系统的用途。所述用途包括，但不限于，用于鉴定受试样本的BAF异常区域、CNV和/或其嵌合比例、和/或样本污染和/或污染比例的用途、或在制备用于鉴定受试样本的的BAF异常区域、CNV和/或其嵌合比例、和/或样本污染和/或污染比例的产品中的用途。

附图说明

图1显示，根据本发明的CNV分析方法的流程概述。

图2显示，用于低比例嵌合CNV计算的Z值-嵌合比例拟合曲线。

图3显示，母源污染样本BAF分布示例。

图4显示，实验实施例1的细胞系样本，在14号染色体(图4A)和18号染色体(图4B)上，分别应用本发明方法和cnvPartition方法获得的CNV检出结果。图4A中，加框指示的区域为在14号染色体上检出的CNV区域。如图4A所示，本发明方法和cnvPartition方法均检出了已知存在于该染色体上的DEL，arr 4q35.1q35.2(186412914-187917030)x1；此外，cnvPartition方法还给出了三个DUP假阳性报出(以箭头指示)。图4B中，加框指示的区域为在18号染色体上检出的两个毗邻CNV区域，加框的“区域1”指示DUP所在的区域，加框的“区域2”指示DEL所在的区域。如图4B所示，本发明方法和cnvPartition方法在18号染色体上的CNV检出结果，与已知存在于该染色体上的两个CNV突变区域相吻合。

图5显示，实验实施例2的流产物样本，在14号染色体局部的NGS测序结果(图5A)，以及分别应用本发明方法(图5B)和cnvPartition方法(图5C)获得的CNV检出结果。其中，图5A中箭头指示通过NGS测序检出的DUP区域；图5B和5C中框线指示应用不同方法检出的DUP区域。通过目视检查图5A的Copy Number散点图，可见，所检测的样本在14q12(25300001_26900000)区域的点都分布在Copy Number＝3附近，表明该区域存在染色体重复。图5B显示，通过本发明方法报出的DUP区域(框线区)与NGS测序确定的该DUP区域高度吻合；并且通过目视检查该芯片数据图片可见，由本发明方法预测的该区段符合SNP芯片数据染色体重复的模式，LRR都分布在大于0的位置，且其BAF都分布在0、0.33、0.67、1附近。图5C显示，由cnvPartition报出的DUP区域(框线区，“区域1”，chr14:25363401-29216738区段)，与NGS测序确定的DUP区域，边界吻合性较差。通过对该芯片数据图片的目视检查，也可见，在cnvPartition报出的该区段内出现了明显的DUP报出偏差，只有一半区域的BAF分布在0、0.33、0.67、1附近，具有符合SNP芯片数据染色体重复的分布模式，而另有一半区域的BAF分布在0、0.5、1附近，则完全不符合该模式。类似地，通过目视检查cnvPartition的另两个报出区域，chr14：42757781-44553740和chr14:45988741-49726462，也发现这两段区域的BAF分布出现了明显偏离SNP芯片数据染色体重复模式的现象，属于假阳性报出。

图6显示，实验实施例3的嵌合CNV流产物样本，在该CNV区域的NGS测序结果(图6A)，以及分别应用本发明方法(图6B)和cnvPartition方法(图6C)获得的CNV检出结果。从图6A的Copy Number散点图上可见，在所检测的整条染色体3上，copy Number点分布在2～3之间，大约2.4附近，这说明该区段存在染色体嵌合重复,为40％嵌合比例的嵌合三体(即，整条染色体的嵌合重复)。与之相应的，从图6B可见，根据本发明的方法报出了该染色体上绝大部分区域的嵌合重复(箭头指示的加框紫色阴影区域)，并且通过对这些区域的目视检测，这些区域的BAF数据分布特征也符合SNP芯片数据的染色体嵌合重复模式。相比而言，如图6C所示，根据cnvPartition方法，大部分区域并未按嵌合重复检出。在图6C中，暗蓝色区域为报出的嵌合重复区域，如箭头和框线指示。

图7显示，实验实施例4的局部UPD外周血样本，分别应用本发明方法和cnvPartition方法获得的CNV检出结果。图7A：本发明方法的检出结果，其中黄色阴影表示UPD所在的区域；图7B：cnvPartition的检出结果，其中浅绿色阴影表示UPD所在的区域。

图8显示，实验实施例5的全基因组UPD流产物样本，分别应用本发明方法(图8A)和cnvPartition方法(图8B)获得的检出结果。

图9显示，实验实施例6的三倍体流产物样本，分别应用本发明方法(图9A)和cnvPartition方法(图9B)获得的检出结果。从图可见，两种方法在多倍体上的检出具有一致性，均显示样本为69XXX。

图10显示，应用本发明方法对实验实施例7的具有母源污染的流产物样本的污染检出。

发明详述

在详细描述本发明之前，应了解，本发明不受限于本说明书中的特定方法及实验条件，因为所述方法以及条件是可以改变的。另外，本文所用术语仅是供说明特定实施方案之用，而不意欲为限制性的。

定义

除非另有定义，否则本文中使用的所有技术和科学术语均具有与本领域一般技术人员通常所理解的含义相同的含义。为了本发明的目的，下文定义了以下术语。

术语“约”在与数字数值联合使用时意为涵盖具有比指定数字数值小5％的下限和比指定数字数值大5％的上限的范围内的数字数值。

术语“和/或”当用于连接两个或多个可选项时，应理解为意指可选项中的任一项或可选项中的任意两项或多项。

如本文中所用，术语“包含”或“包括”意指包括所述的要素、整数或步骤，但是不排除任意其他要素、整数或步骤。在本文中，当使用术语“包含”或“包括”时，除非另有指明，否则也涵盖由所述及的要素、整数或步骤组成的情形。

术语“SNP(单核苷酸多态性)”是指染色体DNA序列中的某个位点由于单个核苷酸的变化而引起的多态性，在群体中SNP的频率一般为>1％。在人类全基因组上平均300-1000bp有一个SNP。目前可以从多个公开数据库获得SNP数据库，包括例如，http://cgap.ncbi.nih.gov/GAI；http://www.ncbi.nlm.nih.gov/SNP；人类SNP数据库http://hgbas.cgr.ki.sei或http://hgbase.interactiva.de/。

术语“核酸芯片”，例如“SNP芯片”，是一种这样的芯片，即，利用所述芯片杂交后获得的信号(通常为荧光信号)能够判断所检测芯片上的SNP位点的基因型。在实际的研究中，SNP芯片会因芯片厂家、型号等的不同而包含不同的SNP位点。例如Affymetrix公司和Illumina公司生产的人类芯片包含不同的SNP集。可用于本发明的示例性SNP芯片包括，但不限于，Infinium IIumina Human 1Million探针芯片和Affymetrix 6.0platform。再例如，Illumina公司主要基于东亚及东南亚人群数据开发了的高通量芯片ASA芯片。这些芯片允许检测样本在全基因组范围分布的大数量SNP位点的等位基因信号强度，提供各SNP位点的BAF值和LRR值。

术语“基因型”是指个体在一个位点上所拥有的等位基因的类型，称作个体在该位点的基因型。对于人类而言，除了性染色体外，每对同源染色体在同一位点上具有的一对等位基因的类型，称作该位点的基因型。基因分型是指确定个体的基因型的过程。

在本文中，术语“双等位基因”(biallelic sites)是指，在二倍体细胞中，一对同源染色体在特定位点上有两个等位基因。在本文中，以字母A和B来表示这两个等位基因。由此，纯合双等位基因可以是AA或BB；杂合双等位基因是AB。在正常二倍体中，子代的等位基因类型将取决于父亲和母亲的等位基因类型。例如，在一个染色体位点上，若父亲具有AA基因型，母亲具有BB基因型，且相应地子代中的A等位基因为父源等位基因；而B等位基因为母源等位基因；或者若父亲具有BB基因型，母亲具有AA基因型，且相应地子代中的B等位基因为父源等位基因；而A等位基因为母源等位基因。

术语“单亲二倍体”(uniparental disomy,UPD)，指，在二倍体生物中，来自父母一方的染色体区域/片段被另一方的同源部分取代，或子代个体的两条同源染色体都来自同一亲本。因此，UPD可以是完全性UPD和片段性UPD。已经发现，至少三分之一的UPD事件与染色体重排相关。在医学上，UPD具有重要的诊断和甚至预后价值，涉及诸如胎儿流产和肿瘤发生以及人类遗传疾病。

在本文中，术语“CNV”，也称作拷贝数异常(copy number variation)和拷贝数变异，是指基因组核酸序列的拷贝数异常。该异常通常表现为不同长度跨度的基因组核酸区段缺失(DEL)或重复(DUP)。在本发明中，可以根据本发明方法检测的CNV不仅包括显微水平的结构改变，也包括亚显微水平的结构改变。显微水平的基因组结构变异包括在显微镜水平可见的染色体结构变异，例如臂水平的拷贝数异常和整体染色体的拷贝数异常。亚显微水平的基因组结构变异包括，例如片段长度在1kb以上的基因组亚显微结构变异，例如，片段长度大于10kb的CNV、或长度大于1M的CNV。

在本文中，相应地，在述及本发明方法时，CNV检测精度是指，对等于或大于规定长度的拷贝数异常进行检测。例如，CNV检测精度大于10kb在本文中指，对10kb及以上长度的染色体片段的拷贝数异常，例如片段的重复或缺失的检测，乃至对短臂和长臂水平的拷贝数异常，例如缺失或重复的检测、以及对整条染色体的拷贝数异常，例如整条染色体的缺失或重复的检测。本领域技术人员可以根据具体的检测目的和检测样本，确定需要的CNV检测精度。例如，对于流产物的检测，在一些情况下，会更注重对长片段CNV的检测，由此可以设定较低的CNV检测精度，例如将CNV检测精度设定为大于1Mb以上CNV的检测。在一些实施方案中，根据本发明方法检测的CNV精度在不同的实验条件下可以为20Kb～250Mb的任一数值，例如，50Kb、100Kb、200Kb、300Kb，或500Kb、1Mb、4Mb、5Mb、10Mb、50Mb、100Mb、200Mb。

在本文中，与CNV相关的术语“嵌合”是指，对于一个特定的染色体区域(可以是整条染色体、染色体臂、染色体片段)在受检样本上识别到存在整倍体和非整倍体两种核型。“嵌合比例”是指非整倍体核型所占的百分比，其范围可以为0％至100％。当嵌合比例为0％时，表示仅识别到整倍体核型；而当嵌合比例为100％时，表示仅识别到非整倍体核型。应当理解，由于一些样本(例如流产胚胎)本身的嵌合性质，对于这些样本，CNV可能在受检样本中以嵌合形式存在，例如，嵌合比例可以是30％、或大于30％、或大于70％、或100％。但值得注意的是，由于一些样本(例如，具有母源污染的胚胎或胎儿组织样本)具有混杂来源的DNA，在受检样本中检测到的LRR和BAF信号会偏离其真实值，影响最终的结果判断。在此情况下，应当在CNV检测前，对样本污染情况进行确定，对于污染比例超过将可能会影响检测结果的样本，予以淘汰。本领域技术人员可以根据具体的CNV检测目的，容易地确定对后续CNV检测结果的判断将产生影响的污染比例。

在本文中，CNV信息可以采用本发明的常规CNV核型描述方式及相应的符号来表达。例如，p表示染色体短臂，q表示染色体长臂；mos表示嵌合体，其随后的百分数表示嵌合比例；“+”表示拷贝数获得；“-”表示拷贝数丢失；“x”表示拷贝数。人类的正常核型为：女性46,XX，男性46,XY。如果17号染色体短臂重复，导致该短臂的拷贝数由原来的2个拷贝增加为3个拷贝，则该CNV可以表示为+17p(x3)；而17号染色体短臂缺失，导致该短臂的拷贝数由原来的2个拷贝减少为1个拷贝，则该CNV可以表示为-17p(x1)。

以下就本发明的各方面进行详细描述。

本发明的方法

自芯片产生的SNP位点原始数据，可以提取出两个参数：logR比值(LRR,即，标化的SNP强度的log2转化值)和B等位基因频率(BAF，即B等位基因信号强度占总SNP信号强度的比值)。LRR值反映待测样本相对于正常样本在所测SNP位点的拷贝数变化情况。BAF值反映待测样本在所测SNP位点的不同等位基因的出现情况。在正常的二倍体样本中，BAF值分布在0、0.5和1附近，LRR值分布在0附近。而受检样本的异常情况(包括样本污染和拷贝数异常)则会造成总SNP信号强度和/或B等位基因频率的增加或减少，出现偏离上述值的BAF和/或LRR值。例如，当一个染色体区域发生拷贝数丢失时，在该区域中BAF只有0和1(基因型AA和BB)，没有0.5附近的值(基因型AB)，且在该区域的LRR值会降低为小于0的值；而当一个染色体区域发生拷贝数增加时,在该区域中BAF取值将在0,0.33,0.67和1.0左右(基因型AAA、AAB、ABB和BBB)，且该区域的LRR值将升高为大于0的值。基于BAF和LRR值的这种变化，原则上可以估计样本中的异常拷贝数变异。

然而，在应用BAF和LRR值进行CNV预测时，通常存在多种混淆因素，其中两个主要的混淆因素为：(1)样本污染(例如，母源DNA对产前检测的胎儿组织的污染、正常细胞细胞对肿瘤组织样本的污染、实验过程中引入的外源污染)和(2)样本数据的随机背景异常。为此，需要开发基于in silico的算法对目标染色体区域上获得的BAF数据和LRR数据进行统计分析，来解决在DNA拷贝数分析中的这些问题。

目前商业上用于SNP芯片数据以确定CNV位置和拷贝数的CNV报出(calling)算法主要有CNVpartition,PennCNV和QuantiSNP。然而，这些算法在CNV分析性能，包括CNV报出的可靠性和CNV边界预测的精确性上，仍有待提升，尤其是对于质量较差的样本或具有低比例嵌合CNV的样本而言，CNV的准确预测仍是一个挑战。而NGS在一些CNV类型检测上的局限性也限制了其在CNV检测上的应用。

在深入研究中，本发明人提出了将密度聚类应用于SNP位点数据来判断核酸样本的污染比例以及CNV拷贝数异常。该方法具有密度聚类对噪声数据不敏感的优点。同时，在此应用过程中，考虑到SNP位点在基因组上的分布不均匀以及不同类型CNV在基因组上的跨距差异大的特点，本发明人设置了动态阈值组合调整，以最小化这些因素对于密度聚类效果的影响，使得方法有效地适应于SNP数据的分析，在样本污染判断和各种类型CNV预测上均达到了良好的性能。由此，本发明建立了一种性价比高的样本污染比例和CNV检测方法，该方法适用于各种不同样本，并适用于不同类型和长度大小的CNV检出以及嵌合体、UDP和多倍体的检测。

因此，在一个方面，本发明提供了一种基于BAF特征数据，通过动态阈值密度聚类和异常窗口区域合并延伸(优选地bin-seed-block-flanking延伸法)，检出BAF异常区域的方法；在再一方面，提供了一种应用所述的BAF异常区域分析方法，结合(优选地circularbinary segmentation(CBS)算法)LRR异常区域检出，来判断核酸样本的污染比例和/或CNV拷贝数异常和嵌合比例的方法。

图1示意性显示了本发明方法的一个优选方案，其包括如下步骤：

(i)提取基因组上待分析区域的SNP位点的BAF和LRR值，形成BAF特征序列数据和LRR特征序列数据；

(ii)基于动态阈值密度聚类和bin-seed-block-flanking延伸，对BAF特征序列数据进行分析,确定样本污染和BAF异常区域；

(iii)对LRR特征序列数据进行分析，确定LRR异常区域；

(iv)通过整合(ii)BAF异常区域检出结果和(iii)LRR异常区域检出结果，确定CNV的位置和类型和/或嵌合比例；

(v)任选地，将样本污染、CNV位置和类型及嵌合比例检测结果输出。

I.BAF及LRR特征数据提取

在根据本发明方法的实施方案中，提取核酸样本(包括，但不限于，基因组DNA(gDNA)和cDNA)上，待分析区域的SNP位点的BAF和LRR值，并将所提取的BAF和LRR值，基于其对应SNP位点在基因组上的位置进行顺序排列，形成以位置为基础的BAF特征序列数据和LRR特征序列数据。

在本发明中，适用于本发明方法的BAF特征序列数据和LRR特征序列数据，可以以数据集的形式，例如，计算机可读数据集的形式提供。在本发明中，这些数据及其原始SNP基因分型数据的获取途径并无特定限制，例如，可以由本发明方法的使用者直接提供记载了该数据的计算机可读介质或在商业平台上产生的数据包；或优选地，自靶核酸样本通过本领域已知的任何序列信息检测技术获得所述数据。例如，SNP微阵列和NGS均允许获得基因组及其区段上的SNP位点及其相关等位基因频率信息。因此，原则上，两种技术均可以用于本发明方法中提供待分析基因组区域的SNP位点原始数据。但优选地，本发明方法使用自SNP芯片提取的数据。

进行分析的区域可以根据检测目的来确定，包括但不限于，全基因组、或(一条或多条)染色体、或(一个或多个)染色体区域，例如已知的疾病CNV相关区域。在确定待检区域后，为获取样本的相关BAF/LRR特征数据，本领域技术人员可以基于所需的检测覆盖度和检测灵敏度、乃至检测技术的可得性和价格等因素综合考虑，选择合适的SNP检测技术，例如可商业获得的SNP芯片。在一个优选的实施方案中，核酸样本为来自中国人个体(包括胎儿、流产胎儿)的组织样本，使用Infinium Asian Screening Array或等同芯片进行所述样本的SNP检测。

适用于核酸样本包括，但不限于，各种形式的DNA，例如，基因组DNA,cDNA以及线粒体DNA。在一个优选的实施方案中，所述核酸样本为基因组DNA(gDNA)。适用于本发明方法进行分析的gDNA，可以是来自任何适宜生物学样本的gDNA，包括但不限于，流产物，绒毛膜、脐带血、外周血、肿瘤组织等。在一个实施方案中，本发明的gDNA来自流产物、绒毛膜、脐带血、母亲外周血样本。通过此类样本检测获得的CNV信息(例如，流产胎儿或胎儿的染色体异常和CNV嵌合比例)，可以用于指导妊娠、确定病因、发现可能的患病风险等目的。因此，在一个实施方案中，本发明也提供了本发明方法和/或装置用于辅助排查胚胎流产原因的用途，以及用于提供妊娠指导或用于辅助作出治疗或干预性医疗决策的用途。在另一些实施方案中，本发明的gDNA来自肿瘤组织或细胞或活检物，以用于确定所述肿瘤组织、细胞或活检物的来源肿瘤中包含的CNV变异和嵌合比例。相应地，本发明也提供了本发明方法和/或装置用于辅助肿瘤CNV检测的用途，以及用于辅助作出肿瘤治疗或干预性医疗决策的用途。

可以使用本领域已知的任何适宜细胞基因组提取技术，从核酸样本中提取gDNA。也可以采用商业可获得的基因组提取试剂盒进行gDNA提取。在应用于SNP芯片分析之前，可以酌情对提取的gDNA进行定量和必要的片段化处理。

在一个优选实施方案中，基于核酸芯片在提取的样本gDNA上进行待分析区域的SNP位点检测，以获得该位点的BAF值和LRR值。适用于此检测的核酸芯片可以商业获得。例如，基于Affymetrix公司的PMRA(Precision Medicine Research Array)芯片所定制的CBC-PMRA(Capital Biotechnology Precision Medicine Research Array)芯片，其可检测90万个SNP位点。再例如，使用Illumina公司的ASA(Asian Screening Array)芯片，可检测80万个SNP。在SNP位点信号检测过程中，可以加入参照DNA样本(例如，已知具有正常核型的DNA样本)。并且优选地，在进行后续BAF和LRR异常区域检出分析前，自SNP芯片检测原始数据中，过滤掉no call位点、冗余位点、线粒体上的位点。

II.BAF异常区域检出

在获得核酸样本的BAF特征序列数据后，应用迭代动态阈值密度聚类和异常窗口区域合并延伸，以检出BAF异常区域。在具体的实施方案中，根据本发明的BAF异常区域分析方法包括：

(iii)应用动态阈值密度聚类分析,确定BAF异常区域，

其中，所述动态阈值密度聚类包括：

将聚类分析确定为具有相似变异模式的相邻窗口区域合并，以及

对合并产生的窗口区域迭代进行动态阈值密度聚类。

聚类分析窗口的形成

在根据本发明的此方法中，在对bin进行初始密度聚类后，根据检测需要，可以进行至少2轮或以上的窗口区域合并和迭代动态阈值密度聚类。因此，根据本发明的方法，除了初始聚类在分割的bin上进行外，后续的聚类将在合并的窗口上进行。在本文中，在bin上初始聚类，生成的相同类型bin在合并后产生的窗口区域，也称作seed；在Seed上进行聚类，生成的相同类型seed在合并后产生的窗口区域，也称作block，而位于block侧翼的区域，在一些情况下，则称作侧翼(flanking)区域。因此，在一些实施方案中，根据本发明的窗口区域合并延伸，也称作bin-seed-block-flanking延伸法。相应地，在一些实施方案中，根据本发明的方法包括：对基于SNP位点位置的BAF特征序列数据，按bin-seed-block-flanking延伸的方式，逐级扩展进行动态阈值密度聚类，检出BAF异常区域。通过将具有相似变异模式的相邻bin/seed/block逐级合并的此种方式，可以避免具有局部变异的区域被掩盖或作为整体的变异被片段化而影响结果解读。

更具体地，在一些实施方案中，所述bin-seed-block-flanking延伸按如下方式进行：

(i)按照待分析样本(优选地全基因组)沿SNP位点在基因组上的位置来划分bin，以使得每个bin包含一定的SNP位点数，对生成的bin进行初始动态阈值密度聚类；

(ii)将连续的分类为相同类型的bin合并成seed，对生成的seed进行第二轮动态阈值聚类；

(iii)将分类为相同类型的seed合并成block，对生成的block进行第三轮动态阈值聚类；

(iv)对分类为异常的block的flanking区域进行第四轮动态阈值聚类，将与block分类为相同类型的flanking区域合并到异常区域中。在所述的bin-seed-block-flanking延伸方法中，优选地，第二轮和第三轮聚类仅对由非正常bin合并的seed和由非正常seed合并成的block实施。

在初始聚类后，随着bin的合并，窗口区域跨度增加。因此，对于后续聚类生成的同类窗口区域的合并，优选在容错条件下进行。在本发明中，用于窗口区域(例如，seed区域)合并的容错条件，可以由本领域技术人员容易地根据设定的CNV检测精度进行调整，以适应检测目的。优选地，基于相邻窗口区域之间的物理距离、相邻窗口区域之间包含的bin数、以及相邻窗口区域的类型和其间间插存在的bin类型，设定所述容错条件。作为一个示例，用于例如seed区域合并的容错条件，可以包括：

-若相邻窗口区域之间的物理距离小于设定的CNV检测精度；或

-若相邻窗口区域之间包含的bin数小于设定的可容错bin个数；或

-若相邻的属于DUP的窗口区域之间包含属于MOS的bin，则将这样的相邻窗口区域合并。

动态阈值密度聚类

在根据本发明的方法中，用于密度聚类的动态阈值设定包括：按照待聚类分析的窗口区域(例如，bin、seed、block和flanking区域)中的SNP位点分布特征，动态设置用于密度聚类分析的ε-邻域值(eps)和ε-邻域内样本个数最小值(MinPts)。优选地，待聚类分析的bin、seed、block和flanking区域，基于其包含的SNP位点数，采用如下的聚类阈值设定：

其中，n为区域所包含的位点数。n值的大小取决于CNV检测精度以及芯片位点在待分析区域(例如全基因组)上的分布。

有多种密度聚类算法是本领域已知的，包括但不限于DBSCAN、MDCA、OPTICS、DENCLUE等。这些算法均可以结合本发明的前述动态阈值设定，应用于本发明方法中。在一个优选的实施方案中，采用动态阈值设定，应用DBSCAN对根据本发明生成的bin、seed、block和flanking区域进行动态阈值密度聚类。

在一些优选实施方案中，应用密度聚类，产生所分析bin窗口区域的BAF特征值cluster后，优选基于在核酸样本的常染色体上提取的样本BAF校正值，对所分析窗口区域cluster的BAF值进行校正，以用于后续聚类和分析。优选地，所述校正包括：

-提取常染色体(例如，核酸样本的所有常染色体、部分常染色体、分析区域所在的常染色体)上聚类产生的cluster数为3且BAF分布在0、0.5、1附近的所有bin，

-计算所有这些bin中BAF分布在0.5附近的cluster的BAF特征值中位数(BAF_normalHet)，以此算出样本BAF的校正值，D_Het＝BAF_normalHet-0.5；

-应用D_Het，计算所分析bin窗口区域的杂合cluster(即，分布在非0和非1附近的cluster)的校正后BAF值，校正后BAF值＝校正前BAF值-D_Het。

在本文中，与BAF cluster分布相关的表述“附近”是指，所述BAF cluster分布在所述及的具体特征值±0.10,0.15,0.20,或0.25的范围。例如，当提及BAF分布在0.5附近的cluster时，可以理解，该表述是指所述cluster具有0.5±0.10,0.15,0.20,或0.25的BAF值，例如，在一些实施方案中，具有0.5±0.25的BAF值。

在采用动态密度聚类对所分析窗口区域(例如，bin、seed、block或flanking区域)完成聚类后，可以根据聚类结果匹配的变异模式，确定所分析窗口区域的分类类型。在一些实施方案中，在针对生成的窗口区域(例如bin、seed、block或flanking区域)应用聚类分析产生BAF特征值cluster后，按照如下方式进行所述窗口区域(bin、seed、block和flanking区域)的分类：

若在所分析窗口区域内BAF特征值共聚类形成BAF分布在0、0.5、1附近的3个cluster(优选地，3个cluster分别具有0,0.5和1的BAF中位数)，则根据0.5附近的cluster的分布宽度，计算所分析区域的嵌合比例(优选地，根据本发明的Z值-嵌合比例公式计算所述嵌合比例)，并基于该比例判断所分析区域是正常区域或是嵌合异常候选区域(MOS)；优选地，当计算的嵌合比例≤10％时，将该分析区域判为正常(“normal”)，否则将该分析区域判为嵌合异常候选区域(“MOS”)；

若所分析区域(例如，bin、seed、block或flanking)内的位点共聚成2个cluster，且在0、1附近分布，则将该分析区域判为LOH(杂合性缺失区域)；

若所分析区域(例如，bin、seed、block或flanking)内的位点聚成的cluster数>3，且在0.5两侧对称分布，则该分析区域判为DUP(重复)。

示例性Bin/seed/block/flanking窗口区域

为实施初始聚类，在待分析样本(优选地全基因组)上bin的划分，可以基于检测目的和检测样本、以及提取的SNP位点在基因组上的分布密度，进行确定。在划分的bin中将存在实现有效密度聚类所需的核心点数。由于不同的检测目的可能要求在检测样本上达到不同的CNV检测精度，因此bin的划分也会不同。当要求检测精度达到1M以下CNV的水平时，相比于集中于1M或10M以上CNV的检测而言，通常需要提取在基因组上更多且分布更密集的SNP位点的信息，以便在划分的各bin中具有满足统计意义数量的SNP位点。

在一个实施方案中，对于100k及以上的CNV检出，在提取的BAF特征序列数据上划分bin，以使得每个bin包含至少50个SNP位点，例如，50,55,60,65,70,75,80,85,90,95,100,110,120,130,140,150或更多个SNP位点。

在另一个实施方案中，对于1M及以上的CNV检出，在提取的BAF特征序列数据上划分bin，以使得每个bin包含至少200-300个SNP位点，例如，200,210,220,230,240,250,260,270,280,290,300或更多个SNP位点。

在初始聚类后，Seed的生成可以在扫描待测样本(例如全基因组)后通过将物理上连续的相同类型的非正常bin合并成一个seed来进行。

在对合并的seed聚类后，Block的生成可以通过扫描类型相同的seed，并优选地按照规定的容错条件，进行相邻seed的合并来进行。

在优选的实施方案中，在block检测后，进行block边界延伸，以更准确地报出BAF异常区域的边界。Block边界延伸包括，对block侧翼区域进行动态阈值密度聚类，将与block分类为相同类型的侧翼合并入所述block，以实现block的延伸。

在根据本发明的block延伸中，优选地，根据block的大小，按如下方法设定步长，检验每个block的侧翼区域：

步长p＝0.0371s+216790

其中，s为block的物理大小。

若所述规定步长的侧翼区域与block的聚类结果属于相同类型，则将所述侧翼并入所述block，以延伸block的边界。

任选地，根据本发明的方法，在通过bin-seed-block-flanking延伸法确定BAF异常区域后，可以进一步对一些已知致病且人群中相对多发的CNV区域(recurrent CNVregion)进行定点检测，其中，针对这些区域进行再次动态阈值密度聚类和分类，若其分类结果属于异常，且未包含在block和block延伸中已检出的异常区域内，则对其进行报出。

III.LRR异常区域检出

用于LRR异常区域检出的方法并无限制，可以是本领域已知的任何LRR检测方法。

在一个优选的实施方案中，采用CBS算法对LRR进行分段并提取以及合并异常区域。CBS算法的应用可以参见Olshen AB,Venkatraman ES,Lucito R,Wigler M:Circularbinary segmentation for the analysis of array-based copy numberdata.Biostatistics.2004,5:557-572.10.1093/biostatistics/kxh008。或者，可以使用DNAcopy R package中提供的CBS算法。

在一个更优选的实施方案中，LRR异常区域检出包括：

1)采用CBS算法，对提取的LRR特征序列数据进行分段，得到segments；

2)基于预设的LRR分类参考阈值，将segments分类为缺失(del)或重复(dup)，以及

3)根据分类为相同类型的相邻segments之间间隔的物理距离和SNP位点数，进行segments合并。

LRR分类参考阈值可以由本领域技术人员根据实际的CNV检测需要，应用参考系来确定。例如，可以用正常样本构建参考系，确定LRR分布的平均数(mean)和标准差(SD)，用参考系LRR分布的mean-2SD作为染色体缺失的检测阈值，用参考系LRR分布的mean+2SD作为染色体重复的检测阈值，用参考系LRR分布的mean-1SD作为染色体嵌合缺失的检测阈值，用参考系LRR分布的mean+1SD作为染色体嵌合重复的检测阈值。

作为LRR阈值确定的一个例子，可以用大约300-500例正常样本构建参考系，确定LRR分布的平均数(mean)和标准差(SD)。作为LRR阈值确定的另一例子，可以用大约20-50例已知存在单体的样本和大约150-200例已知存在三体的样本确定染色体缺失和染色体重复的阈值。

IV.CNV边界和类型确定

在根据前述步骤检出的BAF和LRR异常区域基础上，确定CNV的边界和类型，以及任选地CNV的嵌合比例。

在一些优选的实施方案中，通过整合BAF和LRR异常区域，以确定拷贝数异常区域边界，包括：

(i)提取核酸样本全基因组(或者，作为替代，核酸样本的所有常染色体、部分常染色体、分析区域所在的常染色体)上在-2～2之间的LRR值，计算LRR的标准差(LRR_SD)；

(ii)当BAF异常区域与LRR异常区域不重叠，则分别报出；当BAF异常区域和LRR异常区域重叠时，若LRR_SD<0.19，则以LRR异常区域作为最终结果的边界值；若LRR_SD≥0.19，则以BAF异常区域作为最终结果的边界值。

在再一些优选实施方案中，对于整合后确定的异常区域，根据该区域的BAF分类类型和LRR值，按照如下规则确定CNV的类型：

当BAF属于LOH且LRR低于染色体缺失的阈值时，则判为DEL(缺失)；

当BAF属于LOH且LRR超过染色体嵌合缺失的阈值时，则判为UPD(单亲二倍体)；

当BAF属于DUP且LRR超过染色体重复的阈值时，则判为DUP(重复)；

当BAF属于DUP且LRR超过染色体嵌合重复的阈值时，则判为MOS_DUP(嵌合重复)；

当BAF属于DUP且LRR低于染色体嵌合缺失的阈值时，则判为MOS_DEL(嵌合缺失)；

当BAF属于DUP且LRR在染色体嵌合缺失的阈值至染色体嵌合重复的阈值之间时，则判为MOS_UNCERTAIN(嵌合不确定类型)。

根据本发明的方法，根据需要，可以组合或不组合已知的CNV拷贝数计算，例如采用最大似然法，对由本发明方法确定的BAF和LRR异常区域进行拷贝数计算。

V.嵌合比例计算

基于掺比模型的嵌合比例计算

在根据本发明的方法中，可以通过将样本BAF和LRR聚类产生的cluster分布模式，与掺比模型比较，快速地确定样本的嵌合比例。

在一些实施方案中，根据如下BAF与嵌合比例关系的理论公式，计算在不同的拷贝数异常类型下对应于不同嵌合比例的理论BAF cluster分布，建立掺比模型。

嵌合比例计算公式：

其中，

BAF为判断为异常拷贝数区域的SNP位点的检出并经校正的BAF值；

CN_normal为正常拷贝数(二倍体生物，该值为2)；

CN_CNV为异常细胞在所述SNP位点的理论拷贝数；

B_normal为正常细胞在所述SNP位点的理论B等位基因数；

B_CNV为异常细胞在所述SNP位点的理论B等位基因数。

在掺比模型建立时，可以根据检测目的和所需检测精度，确定嵌合比例梯度分布。在模型建立时所考虑的CNV异常类型，在许多情况下，可以参考检测样本和CNV异常发生的生物学机制予以确定。在一些实施方案中，核酸样本为例如流产物样本，通过设置CN(拷贝数)＝1,3,4,5以及嵌合比例从0-100％按10％梯度递增，拟合不同CNV异常类型下的BAF分布模式。

在一些实施方案中，通过与掺比模型比对，若样本的异常区域嵌合比例低于20％或高于80％，则将异常区域判断为非嵌合CNV。

基于Z值的嵌合比例计算

对于低比例嵌合的样本，当样本通过芯片/测序数据提取的BAF不能准确聚类时，将导致无法与掺比模型中的理论分布模型进行匹配比较。在此情况下，对于根据前述方法判断为嵌合的异常检出区域，优选，采用所述区域在0.5附近的杂合cluster的分布宽度，基于Z值标准曲线，计算嵌合比例。针对低比例嵌合样本的Z值嵌合比例计算，可以减少假阴性CNV的报出。

可以按照如下方式，进行基于Z值的嵌合比例计算：

1)设定统计量

在受检样本的常染色体(例如常染色体局部区域，或某条常染色体，或多条常染色体，或全基因组常染色体)上，提取BAF聚类结果为3个cluster且分别分布在0,0.5和1附近的所有bin，提取这些bin中位于0.5附近的cluster(杂合cluster)，去掉其离群点后统计其分布宽度，计算z值：

目标区域：待分析嵌合比例的目标染色体区域；

正常bin：聚类结果为分别分布在0,0.5和1附近的3个cluster的bin；

杂合cluster：分布在0.5附近(优选地，0.5±0.1)的cluster。

2)构造标准曲线和嵌合比例计算公式

可以利用具有已知的异常拷贝数区域的核酸样本，与具有已知正常拷贝数的核酸样本，进行两者gDNA的不同比例掺混，构造产生模拟不同嵌合比例的样本；之后，以已知的异常拷贝数区域作为目标区域，进行梯度测试，根据(1)中所述Z值计算公式，得到不同嵌合比例的对应Z值。优选，异常拷贝数核酸样本，相对于正常拷贝数核酸样本，来源于同一个体来源。例如，异常拷贝数核酸样本可以来自具有异常染色体数的流产胎儿(例如21三体流产胎儿)；而正常拷贝数核酸样本可以来自拷贝数正常的胎盘组织。或者，异常拷贝数核酸样本可以来自具有异常拷贝数的肿瘤组织，而正常拷贝数核酸样本可以来自拷贝数正常的癌旁组织。

作为标准曲线构造的一个例子，可以用一例胎儿为21三体、其胎盘为拷贝数正常的流产物样本，将其胎盘gDNA与胎儿gDNA进行不同掺比，构造出多数个(例如大约30或更多个)不同嵌合比例的样本进行梯度测试。

应用梯度测试得到的在不同嵌合比例下的对应Z值，拟合Z值与嵌合比例的标准曲线；并由拟合曲线，建立嵌合比例计算公式。在一些实施方案中，嵌合比例计算公式为：

其中，b为标准曲线的横截距，k为标准曲线的斜率。

由此确立的嵌合比例公式，将尤其适用于计算低比例嵌合(例如小于30％、小于20％或甚至小于10％的嵌合比例)样本的正确嵌合比例报出。

3)核酸样本目标异常区域的嵌合比例计算

应用按照(1)中所述得到的核酸样本目标异常区域的Z值，根据(2)中获得的嵌合比例公式，计算出嵌合比例m。

VI.样本污染及其比例确定

在根据本发明的方法中，优选地，在基于聚类结果判断BAF异常区域前，进行样本污染情况的判断，以有效地避免质量不佳的样本和由此带来的错误报出结果。

因此，在再一方面，本发明提供了样本污染及其比例确定方法。所述方法包括：根据本发明的BAF异常区域分析方法，通过在染色体水平上的动态阈值密度聚类，评估样本是否存在母源污染以及任选地，母源污染比例。

可以选择1～22条常染色体，优选地，3～7条，例如5条常染色体，用于样本污染判断。所述判断包括：在选择的多数条染色体上进行动态阈值密度聚类；当规定的一定比例的染色体上的SNP位点根据聚类结果确定为包含异常区域时，判断样本存在污染。所选的常染色体优选为在临床上经验判断同时发生染色体拷贝数变异的概率极低的一组染色体。

在样本为具有母源污染的胎儿组织样本，例如流产胎儿组织样本时，在一个实施方案中，可以对chr8、chr9、chr10、chr12、chr17上所有位点进行染色体水平的动态阈值密度聚类，若这5条染色体中至少3个以上(更优选所有5个染色体)上的位点都满足：聚成的cluster数>3、在0.5两侧对称分布、且有一个cluster分布在0.5附近(优选地,0.5±0.1)，则判断该样本存在母源污染。

优选地，当样本污染比例≥30％时，因对异常CNV分类结果干扰较大，应淘汰该样本，以避免CNV报出错误。

VII.结果输出

按照ISCN2016标准(https://iscn.karger.com/)，输出最终的检测结果。

本发明的产品

在再一些方面，本发明提供了用于实施本发明前述任一方法的产品。本发明产品的形式包括但不限于，装置、设备和系统。本发明的装置、设备和/或系统可以由实现本发明任一方法的多数个模块或部件组成。在一些实施方案中，“模块”为可以集中在单个计算系统(例如，计算机程序、平板电脑(PAD)、一个或者多个处理器)上执行的软件对象或例程(例如，作为独立的线程)。在另一些实施方案中，实现本发明方法的程序可以存储在计算机可读介质上，构成本发明装置、设备和/或系统的一部分，其中所述计算机可读介质上包含用于实现本发明方法的计算机程序逻辑或代码部分。虽然在一些实施方案中优选地以软件来实现本文中所描述的模块和方法，但是以硬件或者软件和硬件组合的方式来实现也是可以的，并且是本领域技术人员可以设想的。

除了上述模块/部件外，本发明的装置、设备和/或系统还可以包括其他部件，例如，用于获取核酸样本的部件(如基因组DNA提取试剂盒)和用于提取SNP信息的部件(如SNP芯片或测序装置)。

本发明的优点

1.在本发明的方法中，本发明人创造性地将密度聚类应用于SNP检测数据上，并在普通密度聚类算法基础上，根据待检区域的SNP位点特征，动态设置距离阈值和邻域样本数阈值的参数优化组合，实现了在各种样本上高准确度的基于SNP数据的样本污染和CNV变异预测。因此，本发明方法不仅适用于具有符合常规检测方法所要求的纯度的样本，也适用于检测质量不佳(例如高污染)样本和具有低CNV嵌合比例的样本。

2.异常区域合并是CNV和UPD检测中不可或缺的一环，其结果会影响最终的异常区域报出和报出边界的准确性。为解决此问题，本发明人建立了bin-seed-block-flanking延伸法。在异常区域检测过程中，采用了bin、seed、block和flanking的四个不同阶段，在各阶段，根据待检区域的特征，应用动态阈值设置，从而实现异常区域边界的准确报出。

3.本发明方法可以在没有污染源样本(例如母亲样本)的情况下检测待测样本(例如流产物样本)中是否存在污染(例如母源污染)，并预测其污染比例(参见实施例)。相比于目前依赖于污染源(例如母亲样本)的基于STR的样本纯度/污染检测方法，本发明方法是更为成本有效和便利的。

4.本发明方法可以有效地检出各种类型的CNV变异，包括UDP和性染色体相同的多倍体(如69XXX三倍体)(参见实施例)。这克服了目前的NGS方法在此类多倍体染色体变异检测方面的局限性。

5.目前在SNP array平台上的常规商业CNV分析方法无法对嵌合CNV作出判断，而本发明的方法不仅可以判断嵌合CNV的存在并可以准确预测其嵌合比例。

实施例

材料和方法

材料：

获取细胞系、流产物、外周血样本，用于提取样本的gDNA和后续SNP芯片基因分型分析。有关流产物的所有研究在进行前获得机构伦理委员会批准和书面知情同意书。

组织gDNA制备

采用基因组DNA提取试剂盒(天根生化,通用型基因组DNA提取试剂盒,DP304)。按照产品说明书描述，从细胞培养物、流产胎儿组织及外周血样本，提取基因组DNA。

采用Qubit dsDNA HS Assay试剂盒，使用Qubit 3.0，对提取的基因组DNA进行定量(DNA浓度应大于等于30ng/μL)。之后，使用亿康DNA片段化试剂盒(KT100804248)，按照生产商的说明书，进行gDNA片段化。

基因分型检测

使用纯化后的片段化gDNA 200ng，按照厂商提供的标准操作规程(StandardOperation Protocol，SOP)进行Illumina Infinium ASA芯片的样本处理和信号检测。

实施例1：样本分析和检测流程

按照如下实验流程，进行样本的检测和分析。该实验流程应用于后续实验实施例的各样本分析。

1)核酸样本制备：提取样本的gDNA；

2)SNP位点检测：利用Illumina公司的Infinium Asian Screening Array(ASA)芯片进行检测；

3)BAF和LRR特征提取：芯片扫描数据获得后，将整张芯片的原始数据(idat文件)用Illumina公司的Illumina Array Analysis Platform Genotyping Command LineInterface(iaap-cli)转换成gtc文件；用Illumina公司开发的BeadArrayFiles流程中的gtc_final_report.py，将gtc文件转换成*_FinalReport.txt文件，其中增加LRR和BAF的输出；之后，将整张芯片的*_FinalReport.txt文件，按样本拆分成包含LRR和BAF信息的下游输入文件raw.txt；过滤掉raw.txt中的no call位点、冗余位点、线粒体上的位点。由此针对每个样本获得每个染色体的基于SNP位点基因组位置顺序的LRR特征序列数据和BAF特征序列数据。

4)Bin的划分和初始密度聚类：将全基因组按每个bin包含50-100个SNP位点的方式，划分成大小不等的bin；对每个bin内的所有SNP位点，基于其BAF特征值，采用DBSCAN的方法，进行初始密度聚类(ε-邻域eps＝0.1，ε-邻域内样本个数最小值MinPts＝5)；

5)BAF特征值校正：基于初始聚类结果，提取所有常染色体上聚类cluster数为3且分布在0、0.5、1附近的bin，计算这些bin在0.5附近cluster的BAF值的中位数(BAF_normalHet)，以此算出样本BAF的校正值(D_Het＝BAF_normalHet-0.5)；根据样本BAF校正值，计算每个bin的杂合cluster(即，分布在非0和非1附近的cluster)的校正后的BAF中位数(校正后cluster的BAF＝校正前的BAF-D_Het)；

6)Bin分类：根据各bin的校正后BAF值，按照如下规则将bin进行分类：

若该bin内的位点共聚成3个cluster，且在0、0.5、1附近分布，则：

当根据0.5附近的cluster分布宽度按照Z值计算出的嵌合比例≤10％时，将该bin判为正常(“normal”)；当根据0.5附近的cluster分布宽度计算出的嵌合比例>10％时，将该bin判为嵌合异常候选bin(“MOS”)；

若该bin内的位点共聚成2个cluster，且在0、1附近分布，则将该bin判为LOH；

若该bin内的位点聚成的cluster数>3，且在0.5两侧对称分布，则该bin判为DUP；

7)Seed生成和二次聚类分析：扫描全基因组，将连续的相同类型的非正常bin合并成一个seed；对合并后的seed采用DBSCAN进行二次密度聚类，因各seed的大小不同，包含的位点数不同，所以对于包含不同位点数的seed，聚类的阈值设定不同：

其中，n为区域所包含的位点数；

聚类后，采用以bin分类相同的分类规则，依据每个seed的聚类cluster分布，确定每个seed的类型；

8)Block生成和三次聚类分析：扫描类型相同的seed，在容错条件下，将具有相同异常类型的相邻seed合并成block；采用与第7)步相同的方式，对合并后的block进行三次动态阈值密度聚类和分类；

9)Block延伸：根据block的大小，按如下方法设定步长，采用与第7)步相同的方法，通过动态阈值密度聚类，检验每个block的侧翼区域，若侧翼区域与block的聚类结果属于相同类型，则对block的边界进行延伸：

步长p＝0.0371s+216790

其中，s为block的物理大小；

10)污染样本及污染比例判断：对chr8、chr9、chr10、chr12、chr17上所有SNP位点进行染色体水平的动态阈值密度聚类，若这5条染色体上的位点都满足：聚成的cluster数>3、在0.5两侧对称分布、且有一个cluster分布在0.5附近，则判断该样本存在母源污染；当母源污染比例≥30％时，因干扰较大，样本判断为质量不佳，予以淘汰，不再进行该样本的后续CNV分析；

11)任选地，疾病相关CNV定点区域检测：对一些已知致病且人群中相对多发的CNV区域(recurrent CNV region)进行定点检测，即，针对这些区域，进行步骤(4)-(9)的动态阈值密度聚类和分类，若其分类结果属于异常，且未包含在第9)步中已检出的异常区域内，则对其进行报出；

12)LRR异常区域检出：采用CBS算法，基于LRR对样本进行分段，得到segments；将LRR≤-0.3219的segments判为缺失(del)或LRR≥0.2016的segments判为重复(dup)；将-0.3219<LRR≤-0.1150或0.2016<LRR≤0.1243的segments判为灰区；若相邻相同类型的segments之间的物理距离<200K且位点数<50，则将其合并，由此获得LRR异常区域；

13)异常区域边界和异常类型确定；整合BAF和LRR异常区域，当BAF异常区域与LRR异常区域不重叠，则分别报出；当BAF异常区域和LRR异常区域重叠时，提取全基因组上在-2～2之间的LRR值计算LRR_SD，若LRR_SD<0.19，则以LRR异常区域作为最终结果的边界值；若LRR_SD≥0.19，则以BAF异常区域作为最终结果的边界值；并按照如下规则确定异常类型：

当BAF属于LOH且LRR<-0.1150时，则判为DEL；

当BAF属于LOH且LRR≥-0.1150时，则判为UPD；

当BAF属于DUP且LRR>0.1243时，则判为DUP；

当BAF属于DUP且0.05<LRR≤0.1243时，则判为MOS_DUP；

当BAF属于DUP且LRR≤-0.05时，则判为MOS_DEL；

当BAF属于DUP且-0.05≤LRR≤0.05时，则判为MOS_UNCERTAIN；

14)嵌合比例计算：对于步骤(13)确定的MOS异常区域，根据BAF聚类得到的BAFcluster分布模式，计算嵌合比例，并根据计算的嵌合比例，校正异常区域的拷贝数报出；

15)输出文本及图片形式的结果。

实施例2：样本嵌合比例计算

针对分析样本，实施例1步骤14的嵌合比例计算按照如下方式进行。

(i)设置嵌合比例-BAF分布掺比模型：

对于胎儿组织样本，在减少分裂过程中的不同异常机制将导致不同形式的CNV类型，包括：CN＝1(单拷贝)、CN＝3(三个拷贝)、CN＝4(四个拷贝)。其中，对于CN＝3，同源染色体(或染色体区段)在第一次减少分裂时未成功分离，将在子代细胞中出现由三条不同来源的同源染色单体(或区段)共存导致的CN＝3的拷贝数异常，其中两条同源染色单体(区段)可以来自一个亲本(例如母本或父本)未在第一次减少分裂时分离的同源染色单体；另一条同源染色体(区段)则可以是来自另一亲本(例如父本或母本)的同源染色单体。类似地，在第二减数分裂过程中姊妹染色体(区段)未成功分离，也将在子代细胞中导致CN＝3的拷贝数异常，但此时的三条同源染色单体(或区段)中两个同源染色体单体来源相同，即为同一染色体单体的倍增结果。对于此两种类型的CN＝3异常拷贝数类型，前者也称作“不同单体型DUP”，后者称作“相同单体型DUP”。在本实施例的掺比模型中纳入了所有这些CNV异常类型。

基于以下嵌合比例公式，计算不同类型的拷贝数异常在不同的嵌合比例下的对应BAF cluster分布理论值，由此形成嵌合比例-BAF分布掺比模型：

简言之，在CN＝1时，由于染色体丢失，染色体上的AA、BB和AB基因型SNP位点将分别转变为单独的A基因型；单独的B基因型；单独的A或单独的B。相应地，在嵌合比例为m时，在该染色体丢失区域，BAF聚类将产生4个cluster，即,0,1,(1-m)/(2-m)、和1/(2-m)。以此类推，本领域技术人员可以容易地推知，CN＝1、3、4和5时，在任何嵌合比例(m)下，例如m＝0,10％,20％,30％,40％,50％,60％,70％,80％,90％,和100％嵌合比例下，对应的BAF理论分布模式。

在根据嵌合比例公式建立掺比模型后，任选地，可以将该模型存储在任何合适形式的计算机可读载体中，以备后续应用。

(ii)将样本聚类生成的BAF cluster分布模式，与掺比模型进行比较，确定与样本的分布模式对应的嵌合比例。

(iii)对于无法与掺比模型中的理论分布模型进行匹配比较的低比例嵌合样本，由实施例1步骤13确定的MOS异常检出区域，采用0.5附近杂合cluster的分布宽度，基于Z值标准曲线估算的方式，进行补充检测，来减少CNV的假阴性报出。

构造标准曲线

用一例胎儿为21三体、其胎盘为拷贝数正常的流产物样本，将其胎盘gDNA与胎儿gDNA进行不同掺比，构造出33个不同嵌合比例的样本进行梯度测试。在21号染色体上获得梯度测试结果。具体而言，在本实施例中，设置了如下掺混比例(每个比例各2-3个实验重复)：0％、5％、10％、15％、20％、25％、30％、40％、50％、60％、70％、80％和100％。

基于各掺混样本在已知的21体变异区域上的测试结果，使用根据本发明的Z值公式，计算该变异区域(作为目标区域)的Z值。

使用计算的Z值，拟合了Z值-嵌合比例标准曲线，见图2所示。根据拟合的标准曲线，获得低比例嵌合体的嵌合比例计算公式：

核酸样本的目标异常区域的Z值计算：

使用以下公式，计算实施例1步骤14确定的MOS异常检出区域(作为目标区域)的Z值：

目标异常区域的嵌合比例计算

基于上述嵌合比例计算公式，利用前述获得的目标异常区域Z值，计算得出目标异常区域的嵌合比例。

实施例3：样本污染判断

以下显示了在来自胎儿的gDNA样本中母源污染比例的一般计算原理。

基于此一般计算原则，根据胎儿和母亲的基因分型信息，可以分为7种不同的情况。计算原理基于假设：胎儿的母源等位基因计数与父源等位基因计数符合二项式分布。由此，假设样本中母源污染比例为r，则胎儿样本中B基因型频率(BAF)＝(1-r)x(胎儿基因型中B等位基因的比例)+r x(母亲基因型中B等位基因的比例)。例如，如果胎儿和母亲的基因型均是AA，则样本中的BAF＝0；如果胎儿的基因型是AA且母亲的基因型为AB，则样本中的BAF＝0.5r；以此类推。

由此，样本的母源污染比例可以利用如下公式确定：

母源污染比例r＝2×BAF_AA+AB

其中：BAF_AA+AB是AA基因型的子代和AB基因型的亲本混合物的BAF理论值。

在根据实施例1的方法检查核酸样本的LRR和BAF分布模式后，考察基于BAF聚类产生的BAF cluster分布模式，可以确定样本的污染情况。

图3显示了，在胎儿gDNA中加入30％母源gDNA形成的污染物gDNA样本的拷贝数分布模式(上方图)和BAF分布模式(下方图)。如图3所示，聚类得出的BAF分布模式显示出与预期的30％嵌合比例下的理论cluster分布模式基本一致，分成7个cluster：每个cluster的BAF中心值分别为0、0.15、0.35、0.5、0.65、0.85和1。

这说明，通过本聚类分析获得的BAF cluster分布模式，可以判断胎儿流产组织gDNA的母源污染情况和污染比例。

实验实施例

以下实验实施例，在多数个不同类型的样本上，评估了本发明方法在样本污染判断和CNV检测上的性能。因cnvPartition是Illumina提供的用于分析ASA芯片CNV的标准工具，因此，在这些实验实施例中，应用cnvPartition(使用默认参数)对样本进行平行分析，并与本发明方法的分析结果进行比对。

实验实施例中所得结果展示在图4-10中。图中，不同颜色阴影背景表示不同类型的CNV区域；蓝色点为待测样本的LRR或BAF分布，灰色点为对照样本的BAF分布。CNV信息按照ISCN2016标准来描述。

实验实施例1

细胞系样本：采用具有已知CNV信息的GM50180细胞系(Coriell Cat#GM50180,RRID:CVCL_5L35)，提取其基因组DNA(gDNA)，按照实施例1-3描述实施本发明方法进行样本分析，同时采用cnvPartition(使用默认参数)作对照平行分析。

GM50180细胞系的CNV信息如下：

46,XY,del(18)(q21.2).ish del(18)(q21.2)(18qtel11-).

arr 4q35.1q35.2(186412914-187917030)x1,

18q21.2(49388814-49823079)x3,

18q21.2q23(49826080-78015057)x1

其中，18q21.2(49388814-49823079)x3小于500Kb，可以用于测试所用分析方法是否可以有效确定样本中小于500K的CNV。

应用两种方法，样本在4号和18号染色体上获得的BAF和LRR分布图，显示在图4A(上方：本发明方法；下方：cnvPartition)；图4B(上方：本发明方法；下方：cnvPartition)中。从图可见，两种方法在4号和18号染色体上在已知CNV区域的检出结果相符。

两种方法的样本CNV分析结果汇总在下表中，其中chrom表示检测到异常区域的染色体号；Start和end分别表示异常区域在对应染色体上的起始点和终止点；size表示异常区域的大小；copynumber表示异常区域的对应检出拷贝数；Type表示异常区域的分类类型；“分类准确性”指示，与已知CNV信息进行比较得出的判断结果。

应用本发明方法对GM50180细胞系样本gDNA的CNV分析结果

Chrom	Start	End	Size(Mb)	CopyNumber	Type	分类准确性
							4	186404489	187917876	1.51	1	DEL	真阳性
11	134348216	134714664	0.37	3	DUP	假阳性
							18	49402255	49827751	0.43	3	DUP	真阳性
18	49838795	78015057	28.18	1	DEL	真阳性

应用cnvPartition对GM50180细胞系样本gDNA的CNV分析结果

从上表的比较可见，cnvPartition的预测假阳性较多，本发明方法在所述细胞系上的CNV预测准确性，显著地好于cnvPartition。对于11号染色体上的DUP预测结果，考虑到两种方法在此获得了相似结果，推测该DUP可能是细胞系在培养传代中意外发生的真实变异，并有待通过NGS测序进一步确认。

实验实施例2

具有染色体局部CNV的流产物样本：获取流产胎儿组织样本，提取样本的基因组DNA并采用ASA芯片进行SNP位点检测。之后应用本发明方法和cnvPartition对局部染色体进行平行CNV预测。同时，作为参考标准，采用NGS对该部分染色体进行测序。图5A显示了NGS测序结果、图5B和5C分别显示了采用本发明方法和cnvPartition获得的LRR和BAF分布图。

经NGS测序确认的样本gDNA信息如下：46,XN,+14q(q12→q12,～1.6Mb,×3)，其中14号染色体上CNV的具体坐标位置为chr14:25300001-26900000。根据本发明方法在14号染色体(chr14)上的检测结果为14q12(25437571_27087018)×3。

cnvPartition在chr14的检测结果如下：

Chr	Start	End	Size	Value	Comment
						14	25363401	29216738	3853337	3	CNV Confidence:1663.271
14	42757781	44553740	1795959	3	CNV Confidence:188.6404
						14	45988741	49726462	3737721	3	CNV Confidence:180.2336

从上述结果以及对芯片数据的目视检查可见，在检测质量较差(即，LRR波动较大)的流产物样本时，cnvPartition不仅在CNV边界的报出上误差较大(图5C，“区域1”右边界偏差达到了2M以上)，而且假阳性较多(“区域2”和“区域3”)。对于在诸如绒毛组织，羊水，脐静脉穿刺物等样本上实施的胎儿产前检测而言，这种假阳性或不准确的异常区域报出，将造成错误的临床决策，因此是不利的。而与之相比，本发明方法在此类样本上，在CNV及其边界的确定上都显示出了明显的优势。

实验实施例3

具有嵌合CNV的流产物样本：获取流产胎儿组织样本，提取样本的基因组DNA并采用ASA芯片进行SNP位点检测。之后应用本发明方法和cnvPartition对局部染色体进行平行CNV预测。同时，作为参照，采用NGS对该部分染色体进行测序。

NGS测序结果(见图6A)显示46,XX,+3(×3,mos,～40％)，说明样本在3号染色体上存在大于10M且嵌合比例大约40％的CNV。

根据本发明方法在3号染色体(chr3)上的CNV检测结果显示在图6B，检出如下异常区域：

3p26.3p22.2(1_36751075)×2[0.41],

3p22.2p21.31(37092079_47050773)×2[0.20]

3p21.2q29(51228412_197008228)×2[0.42]。

图6C显示应用cnvPartition在3号染色体(chr3)上的CNV检测结果。

由图6可见，cnvPartition在该样本的chr3大部分区域中未检出异常(报出区域仅占chr3的14％)，而本发明方法的结果虽然存在一定碎片化，但异常区域基本全部报出(报出区域占chr3的95％)。

实验实施例4

具有局部UPD的外周血样本：存在复发性流产的成年女性样本，其流产绒毛检测到3号染色体p26.3处存在0.26Mb重复。提取样本的基因组DNA并采用ASA芯片进行SNP位点检测。之后应用本发明方法和cnvPartition对染色体进行平行CNV预测。由于NGS无法检测UPD,因此未对样本进行测序分析。

本发明方法和cnvPartition在样本上的检出结果显示在图7A和7B。两种方法的UPD检出结果一致。

实验实施例5

全基因组UPD的流产物样本：提取样本的基因组DNA并采用ASA芯片进行SNP位点检测。之后应用本发明方法和cnvPartition对染色体进行平行CNV预测。由于NGS无法检测UPD,因此未对样本进行测序分析。

本发明方法和cnvPartition在样本上的检出结果显示在图8A和8B。两种方法的UPD检出结果一致。

实验实施例6

多倍体流产物样本：提取样本的基因组DNA并采用ASA芯片进行SNP位点检测。之后应用本发明方法和cnvPartition对染色体进行平行CNV预测。由于NGS无法检测多倍体,因此未对样本进行测序分析。

本发明方法和cnvPartition在样本上的检出结果显示在图9A和9B。两种方法的检出结果一致，均显示样本为69XXX。

实验实施例7

具有母源污染的流产物样本：存在肉眼可见的少量血样污染的流产组织样本。提取样本的基因组DNA并采用ASA芯片进行SNP位点检测。之后应用本发明方法进行样本污染情况确定。由于NGS和cnvPartition均无法检测母源污染,因此未对样本进行NGS和cnvPartition分析。检测结果显示在图10中，表明样本具有约20％母源污染。

本发明的一些实施方案

1.一种BAF异常区域分析方法，其包括：

(iii)应用动态阈值密度聚类分析,确定BAF异常区域，

其中，所述动态阈值密度聚类包括：

将聚类分析确定为具有相似变异模式的相邻窗口区域合并，

对合并产生的窗口区域迭代进行动态阈值密度聚类。

2.实施方案1的方法，其中，基于待聚类分析的窗口区域中包含的SNP位点数，采用如下的聚类阈值设定：

其中，n为区域所包含的SNP位点数。

3.实施方案1的方法，其中，步骤(ii)和(iii)包括bin-seed-block-flanking延伸，其中所述延伸包括：

4.实施方案1-3的方法，其中，步骤(ii)中，所述分割产生包含50-100个SNP位点，例如，大约50、60、70、80、90、或100个SNP位点的bin。

5.实施方案1-4的方法，其中，步骤(iii)中，在对合并窗口区域进行的后续迭代动态阈值密度聚类中，在聚类分析后，所述相邻窗口区域的合并，在容错条件下进行，

优选地，基于相邻窗口区域之间的物理距离、相邻窗口区域之间包含的bin数、以及相邻窗口区域的类型和其间间插存在的bin类型，设定所述容错条件。

6.实施方案1-5的方法，其中，基于在核酸样本的常染色体上提取的样本BAF校正值，进行所分析窗口区域的BAF值校正，由此获得的校正后BAF值用于步骤(iii)；

优选地，所述BAF校正包括：

-计算所有这些bin中BAF分布在0.5附近的cluster的BAF特征值中位数(BAF_normalHet)，以此算出样本BAF的校正值(D_Het＝BAF_normalHet-0.5)，和

-计算所分析窗口区域的杂合cluster的校正后BAF值(校正后BAF值＝校正前BAF值-D_Het)。

7.根据实施方案1-6的方法，其中所分析窗口区域基于聚类形成的cluster分布模式，进行分类，优选地，

若在所分析窗口区域内BAF特征值共聚类形成BAF分布在0、0.5、1附近的3个cluster，则根据0.5附近的cluster的分布宽度，计算所分析区域的嵌合比例，并基于该比例判断所分析区域是正常区域或是嵌合异常候选区域(MOS)；优选地，基于Z值的嵌合比例公式，计算所述嵌合比例；且优选地，当计算的嵌合比例≤10％时，将该所分析区域判为正常(“normal”)，否则将该分析区域判为嵌合异常候选区域(“MOS”)；

若在所分析区域内BAF特征值共聚类形成2个cluster，且在0、1附近分布，则将该分析区域判为LOH(杂合性缺失区域)；

若在所分析区域内BAF特征值聚类形成的cluster数大于3，且在0.5两侧对称分布，则该分析区域判为DUP(重复)。

8.实施方案1-7的方法，其中，对(优选地，3轮或4轮)迭代动态密度阈值聚类产生的合并异常区域(优选地，block区域)，进行侧翼区域检测，进行异常区域的边界延伸，

优选地，设定步长，通过动态密度聚类，检验每个异常区域的侧翼区域，其中：

步长p＝0.0371s+216790

其中，s为所述异常区域的物理大小，

且其中，若所述规定步长的侧翼区域与所述异常区域被分类为相同类型，则将所述侧翼并入所述异常区域，以延伸所述异常区域的边界。

9.一种用于核酸样本的CNV检测的方法，包括如下步骤：

(ii)根据实施方案1-8任一项的BAF异常区域分析方法，对BAF特征序列数据进行分析,确定BAF异常区域；

(iii)对LRR特征序列数据进行分析，确定LRR异常区域；

(v)任选地，将CNV位置、类型及嵌合比例检测结果输出。

10.实施方案9的方法，其中，在步骤(ii)前，根据实施方案1-8任一项的BAF异常区域分析方法，对至少一条常染色体(优选地3-7条)，进行染色体水平检测，判断样本污染，

优选地，所述污染判断包括如下步骤：

-若所测染色体在整条染色体上显示：聚类形成的cluster数>3、在0.5两侧对称分布、且有一个cluster分布在0.5±0.1，则判断该样本存在污染；以及

-任选地，参比在不同污染比例下BAF特征值cluster的分布理论值，确定样本污染比例，

优选地，在核酸样本为来自人类细胞、组织或个体时，检测8、9、10、12和17号染色体。

11.实施方案10的方法，其中，对LRR特征序列数据，采用CBS算法，检出LRR异常区域。

12.实施方案11的方法，其中LRR异常区域检出包括：

3)根据分类为相同类型的相邻segments之间间隔的物理距离和SNP位点数，进行segments合并，

优选地，应用正常样本构建的参考系，确立所述LRR分类参考阈值，

更优选地，用正常样本构建参考系，确定LRR分布的平均数(mean)和标准差(SD)，其中，参考系LRR分布的mean-2SD作为染色体缺失的检测阈值，参考系LRR分布的mean+2SD作为染色体重复的检测阈值，参考系LRR分布的mean-1SD作为染色体嵌合缺失的检测阈值，参考系LRR分布的mean+1SD作为染色体嵌合重复的检测阈值。

13.实施方案9-12的方法，其中，在步骤(iv)中，整合BAF和LRR异常区域，确定核酸样本在所分析区域的CNV边界，其中，

当BAF异常区域与LRR异常区域不重叠，则将其作为不同的CNV分别报出；

当BAF异常区域和LRR异常区域重叠时，提取全基因组上在-2～2之间的LRR值计算LRR_SD，若LRR_SD<0.19，则以LRR异常区域作为最终结果的边界值；若LRR_SD≥0.19，则以BAF异常区域作为最终结果的边界值。

14.实施方案9-13的方法，其中，按照如下规则确定CNV的类型：

15.实施方案9-14的方法，其中，对于步骤(iv)确定的嵌合(MOS)异常区域，根据该区域中BAF特征值聚类得到的BAF cluster分布模式，计算该异常区域的嵌合比例，并根据计算的嵌合比例，校正该嵌合异常区域的拷贝数报出。

16.一种用于确定核酸样本中目标区域的嵌合比例的方法，其包括：

-根据实施方案1-8任一项的方法，应用动态阈值密度聚类，确定所述目标区域的BAF cluster分布模式，

-对于小于30％的低比例嵌合，采用所述目标区域在0.5附近的cluster的分布宽度的Z值，根据Z值-嵌合比例标准曲线，计算嵌合比例，其中

其中，

目标区域：待分析的目标染色体区域；

杂合cluster：在0.5附近的cluster，

优选地，所述目标区域为根据实施方案1-15任一项的方法确定的嵌合异常区域。

17.实施方案16的方法，其中，构建参考系，拟合Z值-嵌合比例标准曲线，确定嵌合比例计算公式，

其中，b为标准曲线的横截距，k为标准曲线的斜率。

18.一种用于确定核酸样本污染的方法，其中所述污染优选为同源DNA或亲源DNA污染，

-根据实施方案1-8任一项的方法，应用动态阈值密度聚类，确定至少一条常染色体(例如3-7条)在染色体水平的BAF cluster分布模式，

-若所测染色体在整条染色体上显示：聚类形成的cluster数>3、在0.5两侧对称分布、且有一个cluster分布在0.5附近，则判断该样本存在污染，

优选地，核酸样本为来自子代组织(例如胚胎或胎儿组织)的样本，所述污染为母源污染。

19.实施方案18的方法，其中，参比在不同污染比例下BAF特征值cluster的分布理论值，确定样本污染比例。

20.实施方案1-19的方法，其中，密度聚类采用DBSCAN算法进行。

21.实施方案1-20的方法，其中，使用SNP芯片，提取核酸样本在待分析区域的SNP位点BAF值和/或LRR值，优选地，所述SNP芯片是Infinium Asian Screening Array芯片。

22.实施方案1-21的方法，其中，核酸样本选自：流产物，绒毛膜、脐带血、外周血和肿瘤组织样本，优选，流产物和外周血样本。

23.一种装置、设备或系统，其特征在于，其包括：

-任选地，能够执行受试核酸样本的SNP位点BAF值和LRR值检测的模块和/或部件；

-能够基于自样本提取的SNP位点BAF值和LRR值信息，执行根据本发明的任一方法，以鉴定受试核酸样本的BAF异常区域、CNV和/或其嵌合比例、和/或样本污染和/或污染比例的模块和/部件。

24.实施方案23的装置、设备或系统的用途，

-用于鉴定受试样本的BAF异常区域、CNV和/或其嵌合比例、和/或样本污染和/或污染比例的用途、或

-在制备用于鉴定受试样本的的BAF异常区域、CNV和/或其嵌合比例、和/或样本污染和/或污染比例的产品中的用途。

25.一种用于辅助排查胚胎流产原因或用于提供妊娠指导的产品，其包含根据实施方案23的装置、设备或系统，和任选地用于获取流产物的核酸样本的装置。

26.一种用于核酸样本CNV检测的装置，其包含：

(2)BAF异常区域分析模块：用于在模块(1)获取的BAF值上执行根据实施方案1-8任一项的方法，以确定BAF异常区域；

(3)任选地，污染检测模块：用于在模块(1)获取的BAF值上执行样本污染分析，优选地，执行根据实施方案18-19的样本污染确定方法；

(4)CNV确定模块：用于整合由模块(2)检出的BAF异常区域和由模块(3)检出的LRR异常区域，确定CNV的边界和类型，和任选地基于CNV的嵌合比例，校正CNV拷贝数；

(5)任选地，CNV嵌合比例确定模块：用于在模块(4)检出的嵌合CNV异常区域上执行CNV嵌合比例确定，优选地执行根据实施方案17-18的CNV嵌合比例确定方法；

Claims

1.一种BAF异常区域分析方法，其包括：

(iii)应用动态阈值密度聚类分析,确定BAF异常区域，

其中，所述动态阈值密度聚类包括：

将聚类分析确定为具有相似变异模式的相邻窗口区域合并，

对合并产生的窗口区域迭代进行动态阈值密度聚类。

2.权利要求1的方法，其中，基于待聚类分析的窗口区域中包含的SNP位点数，采用如下的聚类阈值设定：

其中，n为区域所包含的SNP位点数。

3.权利要求1的方法，其中，步骤(ii)和(iii)包括bin-seed-block-flanking延伸，其中所述延伸包括：

4.权利要求1-3的方法，其中，步骤(ii)中，所述分割产生包含50-100个SNP位点，例如，大约50、60、70、80、90、或100个SNP位点的bin。

5.一种用于核酸样本的CNV检测的方法，包括如下步骤：

(ii)根据权利要求1-4任一项的BAF异常区域分析方法，对BAF特征序列数据进行分析,确定BAF异常区域；

(iii)对LRR特征序列数据进行分析，确定LRR异常区域；

(v)任选地，将CNV位置、类型及嵌合比例检测结果输出。

6.一种用于确定核酸样本中目标区域的嵌合比例的方法，其包括：

-根据权利要求1-4任一项的方法，应用动态阈值密度聚类，确定所述目标区域的BAFcluster分布模式，

其中，

目标区域：待分析的目标染色体区域；

杂合cluster：在0.5附近的cluster，

优选地，所述目标区域为根据权利要求1-5任一项的方法确定的嵌合异常区域。

7.一种用于确定核酸样本污染的方法，其中所述污染优选为同源DNA或亲源DNA污染，

-根据权利要求1-4任一项的方法，应用动态阈值密度聚类，确定至少一条常染色体(例如3-7条)在染色体水平的BAF cluster分布模式，

8.一种装置、设备或系统，其特征在于，其包括：

9.权利要求8的装置、设备或系统的用途，

10.一种用于核酸样本CNV检测的装置，其包含：

(2)BAF异常区域分析模块：用于在模块(1)获取的BAF值上执行根据权利要求1-4任一项的方法，以确定BAF异常区域；

(3)任选地，污染检测模块：用于在模块(1)获取的BAF值上执行样本污染分析，优选地，执行根据权利要求7的样本污染确定方法；

(5)任选地，CNV嵌合比例确定模块：用于在模块(4)检出的嵌合CNV异常区域上执行CNV嵌合比例确定，优选地执行根据权利要求6的CNV嵌合比例确定方法；