CN116153395A

CN116153395A - 一种单细胞小片段染色体拷贝数变异的检测方法及系统

Info

Publication number: CN116153395A
Application number: CN202310405552.XA
Authority: CN
Inventors: 乔杰; 严智强; 张嘉琪; 闫丽盈; 朱小辉; 马陌尘; 关硕; 阔瀛; 魏瑗
Original assignee: Peking University Third Hospital Peking University Third Clinical Medical College
Current assignee: Peking University Third Hospital Peking University Third Clinical Medical College
Priority date: 2023-04-17
Filing date: 2023-04-17
Publication date: 2023-05-23
Anticipated expiration: 2043-04-17
Also published as: CN116153395B

Abstract

本发明涉及一种单细胞小片段染色体拷贝数变异的检测方法及系统，该系统包括胚胎单细胞的获得单元、胚胎样本全基因组扩增单元、亲本基因组样本获取单元、胚胎单细胞全基因组扩增产物及亲本基因组样本二代测序单元、单细胞测序数据过滤和比对单元、基于读段计数的基因组拷贝数分析单元、候选小片段CNV初筛单元、亲本及子代样本SNP位点等位基因型鉴定及SNP位点过滤单元、候选小片段CNV区域中SNP连锁读段的父源/母源倍率计算单元和真实小片段CNV判断单元。

Description

一种单细胞小片段染色体拷贝数变异的检测方法及系统

技术领域

本发明涉及医学检测技术领域，具体涉及一种单细胞小片段染色体拷贝数变异(CNV)的检测方法及系统。

背景技术

胚胎着床前遗传学检测（PGT），指通过体外受精的方式获得胚胎，并活检少量胚胎细胞用于胚胎中遗传异常检测的一种手段。PGT通过遗传检测挑选不携带遗传异常的胚胎并移植，从而帮助患者生育健康后代。在PGT中，染色体疾病是临床上遇到的一种常见类型。针对染色体疾病，临床上目前发展出多种检测手段，主要包括高分辨率染色体核型分析、荧光原位杂交(FISH)、微阵列-比较基因组杂交(aCGH)、PCR等。高分辨率染色体核型分析，通过获得大量有丝分裂晚前期或早中期的显带核型，从而识别染色体的数量和结构改变。但该技术的分辨率只有约5Mb，不足以检测更小的染色体微缺失或微重复异常，并且无法应用于单细胞；FISH利用核酸同源互补杂交的原理，针对染色体异常位点设计高度特异性探针，核酸探针与靶DNA位点杂交形成杂交复合物，通过检测探针发出的荧光即可对指定区域进行定性、定量和相对定位分析。FISH的分辨率理论上可达100Kb-1Mb，但该技术需要在已知缺失或重复位点的情况下，才能设计探针进行检测，不能够发现新发的染色体异常，且相对耗时和昂贵；aCGH同样利用DNA杂交的原理，将靶探针固定在芯片上形成微阵列，将荧光素标记的待测DNA和参考DNA与芯片杂交，通过比较两者的荧光情况，直观地发现染色体CNV。该方法的分辨率取决于探针在芯片上分布的密度，但由于探针一般不能覆盖基因组的所有位点，且价格昂贵，不利于推广使用；PCR方法在临床上常用于检测染色体异常位点，该方法简单易行，但也只能对已知的染色体异常位点进行检测，且通量有限；近年来，临床上常用二代测序技术(NGS)对胚胎单细胞全基因组进行检测，利用算法推断CNV，CNV结果能够在一定程度上反映染色体缺失、重复等情况。目前PGT中常用10Mb的阈值报出CNV，对染色体异常的胚胎进行检出，然而，对于更小的CNV，在10Mb的CNV报出标准下可能无法识别，有赖于进一步调整提高CNV分辨率。由于实际临床诊断过程中胚胎活检所得的胚胎细胞量极少，需要先进行单细胞基因组扩增，从而获得足够的DNA用于遗传检测。但是，单细胞基因组扩增可能存在扩增不均匀、扩增序列偏倚的情况，目前仍缺少针对单细胞小片段CNV的检测方法。

本发明中的“小片段染色体异常”是指＜5Mb以下的染色体微缺失或微重复。针对小片段染色体异常的识别，目前主要的方法是对基因组测序数据进行测序深度、样本间等多层面的矫正。通过对正常样本数据进行分析，将基因组划分为几个窗口，建立各窗口读段数目概率矩阵，计算待测样本中各窗口的拷贝数状态，从而推断是否具有染色体的微缺失和微重复。这种方法是临床诊断中常用的一种主要的检测手段，但它具有一定的局限性，以连续m个窗口的拷贝数状态为推断染色体微缺失微重复的依据，对于小片段染色体异常的检出不具有优势。另外，由于基因组测序各窗口的读段数分布易受矫正方法和噪音的影响，检出结果容易出现假阳性。

因此，基于现有的染色体异常检测方法，对于小片段CNV的检出，需要进行进一步的鉴定。

既往研究表明，长度<5Mb的小片段染色体异常与部分人类已知的神经发育类疾病、多发先天异常有关。由于小片段CNV引起的微缺失微重复综合征，其对于健康以及发育的影响取决于染色体异常发生的部位以及该部位涉及的基因数量。因此，在辅助生殖领域，部分患者在移植胚胎之前，需要对胚胎进行着床前染色体非整倍体检测（PGT-A），若检出胚胎染色体异常，则需重新考虑是否能对胚胎进行移植。CNV结果能够在一定程度上反映染色体缺失、重复等情况，临床上常用的CNV报出标准为大于10Mb的染色体重复或缺失。然而，对于染色体变异较小的片段，在10Mb的CNV报出标准下可能无法检出，带来了可能的潜在风险。除此之外，由于实际胚胎检测过程中活检所得的胚胎细胞量极少，需要先进行单细胞基因组扩增，然而目前单细胞基因组扩增存在扩增不均匀、扩增序列偏倚的情况，目前缺少针对单细胞小片段CNV的检测方法。

现有技术中，已有专利CN104745718A公开的技术方案是首先在父方和母方的基因组上寻找是否存在染色体微缺失位点，获取缺失位点相应的SNV位点，而后在胚胎上判断是否携带父方或母方相应的染色体缺失。由于基因组上的位点众多，首先对父方和母方在全基因组范围内寻找异常位点，可能会影响分析的效率。另外，该方案只是选择目标位点的SNV位点进行分析，由于SNV位点可能是由于体细胞突变引起，在代际传递中可能不具有稳定性。再者，该方案受限于测序深度，在低深度测序情况下，可能无法得到足够多的SNV用于分析。

本申请中部分缩略语和关键术语的定义如下：

PGT: Pre-implantation Genetic Testing，胚胎植入前遗传学检测。

PGT-A: Pre-implantation Genetic Testing for Aneuploidy，胚胎植入前非整倍体遗传学检测。

CNV: Copy Number Variation，拷贝数变异。

FISH: Fluorescence In Situ Hybridization，荧光原位杂交。

aCGH: array-based Comparative Genomic Hybridization，微阵列比较基因组杂交。

SNP：Single Nucleotide Polymorphism，单核苷酸多态性。

SNP array: Single nucleotide polymorphism array，单核苷酸多态性微阵列芯片。

NGS: Next Generation Sequencing，二代测序。

WGA: Whole Genome Amplification，全基因组扩增。

MALBAC: Multiple Annealing and Looping-based Amplification Cycles，多次退火环状循环扩增技术。

PCR: Polymerase Chain Reaction，聚合酶链式反应。

发明内容

本发明旨在提供一种单细胞小片段CNV的检测方法和系统，所要解决的技术问题至少包括如何针对染色体小片段CNV，进一步提高检出的准确性。

为了实现上述目的，本发明提供一种单细胞小片段CNV的检测系统，包括胚胎单细胞的获得单元、胚胎样本全基因组扩增单元、亲本基因组样本获取单元、胚胎单细胞全基因组扩增产物及亲本基因组样本二代测序单元、单细胞测序数据过滤和比对单元、基于读段的基因组拷贝数分析单元、候选小片段CNV初筛单元、亲本及子代样本SNP位点等位基因型鉴定及SNP位点过滤单元、候选CNV区域中SNP连锁读段的父源/母源倍率计算单元和真实小片段CNV判断单元；所述的胚胎单细胞的获得单元用于通过单精子注射的方式获得受精卵，培养至囊胚期，从每个囊胚期胚胎分离3至10个外滋养层细胞作为样本；所述的胚胎样本全基因组扩增单元优先使用多重退火环状扩增技术(MALBAC)，进行胚胎细胞的全基因组DNA扩增；所述的亲本基因组样本获取单元用于抽取样本父方和/或母方外周血，提取其基因组DNA，进行全基因组DNA扩增，将扩增后的产物在-20℃保存；所述的胚胎单细胞全基因组扩增产物及亲本基因组样本二代测序单元用于将所有样本使用二代测序仪测序；由于要同时获得CNV分析和SNP连锁信息，平均每个样本测序深度最低为基因组的2倍；所述的单细胞测序数据过滤和比对单元用于去除测序数据中的测序接头以及低质量碱基，然后将处理后的数据比对到人类参考基因组，进一步去除低比对质量序列、PCR重复序列，得到去除重复序列以后的唯一比对的读段；所述的基于读段计数的基因组拷贝数分析单元包括参考基因组窗口中比对读段数统计模块和多样本间矫正及单细胞基因组拷贝数可视化模块；所述的参考基因组窗口中比对读段数统计模块用于以200Kb的分辨率，将人类参考基因组分为若干个窗口，使用readCounter软件统计每个窗口的比对读段数；所述的多样本间矫正及单细胞基因组拷贝数可视化模块用于统计每个样本i比对的总碱基数，计算每个样本i的测序深度；得出每个样本i的每个窗口j经测序深度矫正后的读段数和样本间矫正因子以及经测序深度矫正以及多样本间矫正后的读段数，并进一步得到最终用于分析的窗口读段数，根据最终用于分析的窗口读段数的分布情况，绘制每个样本的CNV图；所述的候选小片段CNV初筛单元用于分析CNV图，获取初筛出的候选小片段CNV的染色体位置，作为候选区域，进行下一步的分析；所述的亲本及子代样本SNP位点等位基因型鉴定及SNP位点过滤单元用于对指定候选区域亲本及子代样本的SNP位点进行等位基因型鉴定，除去潜在错误的SNP；所述的候选CNV区域中SNP连锁读段的父源/母源倍率计算单元包括区分型SNP位点筛选模块和候选CNV区域中SNP连锁读段的父源/母源倍率计算模块；所述的区分型SNP位点筛选模块用于在相应候选区域，选取父母本为纯合且为不同碱基的SNP位点，作为能够用来区分父母源的SNP位点，即区分型SNP；区分子代样本相应候选区域的SNP位点等位基因分别是源于父方还是母方；所述的候选CNV区域中SNP连锁读段的父源/母源倍率计算模块用于获取子代单细胞样本在候选区域中分别来自父源和母源的SNP位点的读段数，计算SNP连锁读段父源/母源倍率Parental ratio；

；

所述的真实小片段CNV判断单元用于判定Parental ratio>1.2或Parental ratio<0.8的候选小片段CNV区域为真实小片段CNV，结合所述异常小片段CNV异常筛选单元的分析结果，其中C_i,j>2.3为小片段重复，或C_i,j<1.7为小片段缺失。

优选地，所述的胚胎样本全基因组扩增单元进行胚胎细胞的全基因组DNA扩增的具体步骤包括：根据单细胞全基因组扩增试剂盒说明书，制备细胞裂解混合液，在样本中加入细胞裂解混合液，放入预热的PCR仪中进行裂解和失活蛋白酶；对获得的细胞裂解样本进行全基因组扩增，扩增的步骤包括：在细胞裂解样本中加入预扩增混合液，进行第一轮准线性扩增；线性扩增之后再加入扩增混合液，进行第二轮指数式扩增；将扩增后的产物进行纯化，并检测DNA浓度以判断扩增情况；最后将扩增后的产物在-20℃ 保存。

优选地，所述的胚胎单细胞全基因组扩增产物及亲本基因组样本二代测序单元为了同时获得CNV分析和SNP连锁信息，平均每个样本测序深度最低为基因组的2倍。

优选地，所述的单细胞测序数据过滤和比对单元使用trim_galore软件去除测序数据中的测序接头以及低质量碱基，然后采用比对软件BWA将处理后的数据比对到人类参考基因组hg38，进一步使用samtools软件去除低比对质量序列、PCR重复序列，得到去除重复序列以后的唯一比对的读段。

优选地，所述的单细胞测序数据过滤和比对单元使用trim_galore软件去除测序数据中的测序接头以及低质量碱基，然后采用比对软件bedtools将处理后的数据比对到人类参考基因组hg19，进一步使用samtools软件去除低比对质量序列、PCR重复序列，得到去除重复序列以后的唯一比对的读段。

优选地，本发明使用的测序结果样本是自己测定的基于MALBAC扩增的人类基因组的测序数据，或是他人公开的基于MALBAC扩增的二代测序结果。

优选地，所述的多样本间矫正及单细胞基因组拷贝数可视化模块用于使用samtools软件统计每个样本i比对的总碱基数

，计算每个样本i的测序深度depth_i：

，

其中，L为人类参考基因组碱基数；

每个样本i的每个窗口j经测序深度矫正后的读段数为：

，

其中，

为样本i在基因组上第j个窗口比对上的读段数；

样本间矫正因子Nor_j为：

，

其中，

为样本i的基因组上第j个窗口上经样本测序深度矫正后的读段数，N为样本个数；

在样本i的窗口j上，经测序深度矫正以及多样本间矫正后的读段数Cadj_i,j为：

,

由于正常人类为二倍体，为了便于后续分析，上述矫正得到的读段数乘以2，得到最终用于分析的窗口读段数C_i,j：

，

根据

的分布情况，绘制每个样本的CNV图。

优选地，所述的候选小片段CNV初筛单元用于分析CNV图，初步认为连续5个以上窗口的C_i,j>2.3为候选的小片段重复，或连续5个以上窗口的C_i,j<1.7为候选的小片段缺失，即为初筛出的小片段CNV片段；获取初筛出的候选小片段CNV的染色体位置，作为候选区域，进行下一步的分析。

优选地，所述的亲本及子代样本SNP位点等位基因型鉴定及SNP位点过滤单元使用软件GATK，对指定候选区域亲本及子代样本的SNP位点进行等位基因型鉴定；使用GATK官方推荐方式过滤SNP位点，除去潜在错误的SNP。

优选地，所述的区分型SNP位点筛选模块在筛选区分型SNP位点时，候选区域的区分型SNP最低为5个，否则此胚胎区分型SNP数据将视为数据量不足。

本发明还提供一种单细胞小片段染色体拷贝数变异的检测方法，通过对样本进行多层面的矫正，识别初筛的染色体“异常”小片段，获取“异常”小片段所在的目标区域；通过挑选目标区域的SNP位点，进行变异来源分析，判定“异常”的染色体小片段的父母方来源的情况；最后再比较父源母源SNP位点的读段数的倍率关系，从而判定初筛的染色体“异常”小片段是否为真实的小片段染色体异常；

所述的单细胞小片段染色体拷贝数变异的检测方法包括以下步骤：

S1、获得胚胎单细胞：

通过单精子注射的方式获得受精卵，培养至囊胚期；每个囊胚期胚胎分离3至10个外滋养层细胞作为样本；

S2、胚胎样本全基因组扩增：

优先使用MALBAC，进行胚胎细胞的全基因组DNA扩增；根据单细胞全基因组扩增试剂盒说明书，制备细胞裂解混合液，在样本中加入细胞裂解混合液，放入预热的PCR仪中进行裂解和失活蛋白酶；对获得的细胞裂解样本进行全基因组扩增，扩增的步骤包括：在细胞裂解样本中加入预扩增混合液，进行第一轮准线性扩增；线性扩增之后再加入扩增混合液，进行第二轮指数式扩增；将扩增后的产物进行纯化，并检测DNA浓度以判断扩增情况；最后将扩增后的产物在-20℃ 保存；

S3、获取亲本基因组样本：

抽取样本父方、母方外周血，提取其基因组DNA，用“步骤S2”同样的方法进行全基因组DNA扩增，将扩增后的产物在-20℃保存；

S4、胚胎单细胞全基因组扩增产物及亲本基因组样本二代测序：

将所有样本使用二代测序仪测序，由于要同时获得CNV分析和SNP连锁信息，平均每个样本测序深度最低为基因组的2倍；

S5、单细胞测序数据过滤和比对：

使用trim_galore软件去除测序数据的测序接头以及低质量碱基，然后采用比对软件BWA将处理后的数据比对到人类参考基因组hg38，进一步使用samtools软件去除低比对质量序列和PCR重复序列，得到去除重复序列以后的唯一比对的读段；

S6、基于读段计数的基因组拷贝数分析：

S6.1、统计参考基因组窗口中比对读段数：

以200Kb的分辨率，将人类参考基因组分为若干个窗口，使用readCounter软件统计每个窗口j的比对读段数；

S6.2、多样本间矫正及单细胞基因组拷贝数可视化：

使用samtools软件统计每个样本i比对的总碱基数

，计算每个样本i的测序深度depth_i：

，

其中，L为人类参考基因组碱基数；

每个样本i的每个窗口j经测序深度矫正后的读段数为：

，

其中，

为样本i在基因组上第j个窗口比对上的读段数；

样本间矫正因子Nor_j为：

，

其中，

因此，在样本i的窗口j上，经测序深度矫正以及多样本间矫正后的读段数为：

，

根据

的分布情况，绘制每个样本的CNV图。

S7、筛选异常小片段CNV异常：

分析CNV图，初步认为连续5个以上窗口的

>2.3为候选的小片段重复，或连续5个以上窗口的/>

<1.7为候选的小片段缺失，即为初筛出的小片段CNV片段；获取初筛出的候选小片段CNV的染色体位置，作为候选区域，进行下一步的分析；

S8、亲本及子代样本SNP位点等位基因型鉴定及SNP位点过滤：

使用软件GATK，对指定候选区域亲本及子代样本的SNP位点进行等位基因型鉴定；使用GATK官方推荐方式过滤SNP位点，除去潜在错误的SNP；

S9、计算候选CNV区域中SNP连锁读段的父源/母源倍率：

S9.1、筛选区分型SNP位点：

在相应候选区域，选取父母本为纯合且为不同碱基的SNP位点作为能够用来区分父母源的SNP位点，即区分型SNP，能够区分子代样本相应候选区域的SNP位点等位基因分别是源于父方还是母方；其中，候选区域的区分型SNP最低为5个，否则此胚胎区分型SNP数据将视为数据量不足；

S9.2、计算候选CNV区域中SNP连锁读段的父源/母源倍率：

获取子代单细胞样本在候选区域中分别来自父源和母源的SNP位点的读段数；计算SNP连锁读段父源/母源倍率Parental ratio：

；

S10、判断真实小片段CNV：

判定Parental ratio>1.2或Parental ratio<0.8的候选小片段CNV区域为真实小片段CNV，结合步骤S7的结果，其中

>2.3为小片段重复，或/>

<1.7为小片段缺失。

有益效果

与现有技术相比，本发明所述的单细胞小片段染色体拷贝数变异的检测系统和方法的有益效果是：

（1）与专利申请CN104745718A相比，本发明采用的是单细胞基因组数据，通过单细胞样本的MALBAC扩增测序数据，得到基因组中不同位点拷贝数情况，其信息不易受基因表达稳定性的影响。

（2）既往的染色体异常的检测方法主要针对大片段染色体异常，如果用同样的方法对小片段（<5Mb）染色体异常进行检测，其结果很容易受到读段数波动、噪音的影响，因此很容易得到假阳性结果。本发明通过对初筛的小片段CNV异常候选区域的SNP位点，进行SNP等位基因读段数父母源分类，通过计算父源/母源SNP位点读段数的倍率，识别出真性小片段染色体异常，提高异常检出的准确性。

（3）本发明仅对初筛的CNV小片段异常候选区域，进行亲本和子代样本SNP位点分析，相比全基因组层面直接分析SNP位点，本发明更为省时、高效，且二次分析提高了识别小片段染色体异常的准确性。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的具体实施方式一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1是本发明所述的单细胞小片段CNV的检测方法的流程示意图。

图2a是实施例1中家系第一周期E1胚胎CNV图。

图2b是实施例1中家系第一周期E2胚胎CNV图。

图2c是实施例1中家系第一周期E3胚胎CNV图。

图2d是实施例1中家系第一周期E4胚胎CNV图。

图3是实施例1中家系E2胚胎22号染色体小片段CNV重复图及候选区域示意图。

具体实施方式

在下文中更详细地描述了本发明以有助于对本发明的理解。

本发明提供一种单细胞小片段CNV（<5Mb）的检测系统，通过结合读段计数及后续SNP连锁读段的区分，从而实现胚胎小片段染色体异常的分析诊断,该系统可很好地提高判断小片段染色体异常的准确率。

本发明所述的单细胞小片段染色体拷贝数变异的检测系统包括胚胎单细胞的获得单元、胚胎样本全基因组扩增单元、亲本基因组样本获取单元、胚胎单细胞全基因组扩增产物及亲本基因组样本二代测序单元、单细胞测序数据过滤和比对单元、基于读段的基因组拷贝数分析单元、候选小片段CNV初筛单元、亲本及子代样本SNP位点等位基因型鉴定及SNP位点过滤单元、候选CNV区域中SNP连锁读段的父源/母源倍率计算单元和真实小片段CNV判断单元。

所述的胚胎单细胞的获得单元用于通过单精子注射的方式获得受精卵，培养至囊胚期，从每个囊胚期胚胎分离3至10个外滋养层细胞作为样本。

所述的胚胎样本全基因组扩增单元优先使用多重退火环状扩增技术（MALBAC），进行少量胚胎细胞的全基因组DNA扩增。根据单细胞全基因组扩增试剂盒说明书，制备细胞裂解混合液，在样本中加入细胞裂解混合液，放入预热的PCR仪中进行裂解、失活蛋白酶。对获得的细胞裂解样本进行全基因组扩增，扩增的步骤包括：在细胞裂解样本中加入预扩增混合液，进行第一轮准线性扩增；线性扩增之后再加入扩增混合液，进行第二轮指数式扩增；将扩增后的产物进行纯化，并检测DNA浓度以判断扩增情况；最后将扩增后的产物在-20℃保存。

所述的亲本基因组样本获取单元用于抽取样本父方、母方外周血，提取其基因组DNA，进行全基因组DNA扩增，将扩增后的产物在-20℃保存。

所述的胚胎单细胞全基因组扩增产物及亲本基因组样本二代测序单元用于将所有样本使用二代测序仪测序，由于要同时获得CNV分析和SNP连锁信息，平均每个样本测序深度最低为基因组的2倍。

所述的单细胞测序数据过滤和比对单元用于使用trim_galore软件去除测序数据中的测序接头以及低质量碱基，然后采用比对软件BWA将处理后的数据比对到人类参考基因组hg38，进一步使用samtools软件去除低比对质量序列、PCR重复序列，得到去除重复序列以后的唯一比对的读段。

所述的基于读段计数的基因组拷贝数分析单元包括参考基因组窗口中比对读段数统计模块和多样本间矫正及单细胞基因组拷贝数可视化模块。

所述的参考基因组窗口中比对读段数统计模块用于以200Kb的分辨率，将人类参考基因组分为若干个窗口（bin），使用readCounter软件统计每个窗口j的比对读段数。

所述的多样本间矫正及单细胞基因组拷贝数可视化模块用于使用samtools软件统计每个样本i比对的总碱基数

，计算每个样本i的测序深度/>

。

，

其中，L为人类参考基因组碱基数。

因此，每个样本i的每个窗口j经测序深度矫正后的读段数为：

，

其中，

为样本i在基因组上第j个窗口比对上的读段数。

样本间矫正因子Nor_j：

，

其中，

为样本i的基因组上第j个窗口上经样本测序深度矫正后的读段数，N为样本个数。

因此，在样本i的窗口j上，经测序深度矫正以及多样本间矫正后的读段数Cadj_i,j为：

,

根据

的分布情况，绘制每个样本的CNV图。

所述的异常小片段CNV异常筛选单元用于分析CNV图，初步认为连续5个以上窗口的C_i,j>2.3为候选的小片段重复，或连续5个以上窗口的C_i,j<1.7为候选的小片段缺失，即为初筛出的小片段CNV片段。获取初筛出的候选小片段CNV的染色体位置，作为候选区域，进行下一步的分析。

所述的亲本及子代样本SNP位点等位基因型鉴定及SNP位点过滤单元使用软件GATK，对指定候选区域亲本及子代样本的SNP位点进行等位基因型鉴定。使用GATK官方推荐方式过滤SNP位点，除去潜在错误的SNP。

所述的候选CNV区域中SNP连锁读段的父源/母源倍率计算单元包括区分型SNP位点筛选模块和候选CNV区域中SNP连锁读段的父源/母源倍率计算模块。

所述的区分型SNP位点筛选模块用于在相应候选区域，选取父母本为纯合且为不同碱基的SNP位点，即能够用来区分父母源的SNP位点（区分型SNP）（如，在某SNP位点上，父本基因型为AA，母本基因型为CC，父母本在该位点的碱基均为二倍体纯合，且分别为2种不同的碱基类型）。根据孟德尔遗传原理，可区分子代样本（胚胎的单细胞）相应候选区域的SNP位点等位基因分别是源于父方还是母方。其中，候选区域的区分型SNP最低为5个，否则此胚胎区分型SNP数据将视为数据量不足。

所述的候选CNV区域中SNP连锁读段的父源/母源倍率计算模块用于获取子代单细胞样本在候选区域中分别来自父源和母源的SNP位点的读段数。计算SNP连锁读段父源/母源倍率（Parental ratio）。

；

所述的真实小片段CNV判断单元用于判定Parental ratio>1.2或Parental ratio<0.8的候选小片段CNV区域为真实小片段CNV，结合所述候选小片段CNV初筛单元的分析结果，其中C_i,j>2.3为小片段重复，或C_i,j<1.7为小片段缺失。

本发明还提供一种单细胞小片段CNV的检测方法，图1是该检测方法的流程图。该检测方法通过结合读段计数及后续SNP连锁读段的区分，从而实现胚胎小片段CNV的分析诊断，该方法可很好地提高判断小片段CNV的准确率。

如图1所示，本发明提出了一种检测单细胞小片段CNV的分析方法。通过对样本进行多层面的矫正，识别初筛的染色体“异常”小片段，获取“异常”小片段所在的目标区域。通过挑选目标区域的单核苷酸多态性位点(SNP)，进行变异来源分析，判定“异常”的染色体小片段的父母方来源的情况。最后再比较父源母源SNP位点的读段数的倍率关系，从而判定初筛的染色体“异常”小片段是否为真实的小片段染色体异常。

本发明所述的单细胞小片段染色体拷贝数变异的检测方法包括以下步骤：

S1、获得胚胎单细胞：

通过单精子注射的方式获得受精卵，培养至囊胚期。每个囊胚期胚胎分离3至10个外滋养层细胞作为样本。

S2、胚胎样本全基因组扩增：

优先使用MALBAC，进行少量胚胎细胞的全基因组DNA扩增。根据单细胞全基因组扩增试剂盒说明书，制备细胞裂解混合液，在样本中加入细胞裂解混合液，放入预热的PCR仪中进行裂解、失活蛋白酶。对获得的细胞裂解样本进行全基因组扩增，扩增的步骤包括：在细胞裂解样本中加入预扩增混合液，进行第一轮准线性扩增；线性扩增之后再加入扩增混合液，进行第二轮指数式扩增；将扩增后的产物进行纯化，并检测DNA浓度以判断扩增情况；最后将扩增后的产物在-20℃ 保存。

S3、获取亲本基因组样本：

抽取样本父方、母方外周血，提取其基因组DNA，用“步骤S2”同样的方法进行全基因组DNA扩增，将扩增后的产物在-20℃保存。

将所有样本使用二代测序仪测序，由于要同时获得CNV分析和SNP连锁信息，平均每个样本测序深度最低为基因组的2倍。

S5、单细胞测序数据过滤和比对：

测序数据使用trim_galore软件，去除测序接头以及低质量碱基。然后采用比对软件BWA将处理后的数据比对到人类参考基因组hg38。进一步使用samtools软件去除低比对质量序列、PCR重复序列，得到去除重复序列以后的唯一比对的读段。

S6、基于读段计数的基因组拷贝数分析：

S6.1、统计参考基因组窗口中比对读段数：

以200Kb的分辨率，将人类参考基因组分为若干个窗口（bin），使用readCounter软件统计每个窗口j的比对读段数。

S6.2、多样本间矫正及单细胞基因组拷贝数可视化：

使用samtools软件统计每个样本i比对的总碱基数

，计算每个样本i的测序深度/>

。

，

其中，L为人类参考基因组碱基数。

，

其中，

为样本i在基因组上第j个窗口比对上的读段数。

样本间矫正因子：

，

其中，

由于正常人类为二倍体，为了便于后续分析，上述矫正得到的读段数乘以2，得到最终用于分析的窗口读段数：

，/>

根据

的分布情况，绘制每个样本的CNV图。

S7、筛选候选小片段CNV：

分析CNV图，初步认为连续5个以上窗口的

>2.3为候选的小片段重复，或连续5个以上窗口的/>

<1.7为候选的小片段缺失，即为初筛出的小片段CNV片段。获取初筛出的候选小片段CNV的染色体位置，作为候选区域，进行下一步的分析。

S8、亲本及子代样本SNP位点等位基因型鉴定及SNP位点过滤：

使用软件GATK，对指定候选区域亲本及子代样本的SNP位点进行等位基因型鉴定。使用GATK官方推荐方式过滤SNP位点，除去潜在错误的SNP。

S9、计算候选CNV区域中SNP连锁读段的父源/母源倍率：

S9.1、筛选区分型SNP位点：

在相应候选区域，选取父母本为纯合且为不同碱基的SNP位点，即能够用来区分父母源的SNP位点（区分型SNP）（如，在某SNP位点上，父本基因型为AA，母本基因型为CC，父母本在该位点的碱基均为二倍体纯合，且分别为2种不同的碱基类型）。根据孟德尔遗传原理，可区分子代样本（胚胎的单细胞）相应候选区域的SNP位点等位基因分别是源于父方还是母方。其中，候选区域的区分型SNP最低为5个，否则此胚胎区分型SNP数据将视为数据量不足。

S9.2、计算候选CNV区域中SNP连锁读段的父源/母源倍率：

获取子代单细胞样本在候选区域中分别来自父源和母源的SNP位点的读段数。计算SNP连锁读段父源/母源倍率（Parental ratio）。

；。

S10、判断真实小片段CNV：

>2.3为小片段重复，或/>

<1.7为小片段缺失。

本发明利用单细胞测序样本基因组数据，初步识别小片段（<5Mb）CNV异常的候选区域。本发明首次通过计算胚胎候选区域内分别来自父方和母方的SNP基因读段计数，并计算两者的比值（父母源SNP读段倍率）。通过分析比值来鉴定“真性”小片段染色体异常。现有技术并未通过父母源SNP读段倍率对CNV异常小片段进行进一步的验证，本发明能够极大地提高染色体异常（尤其是小片段）检出的准确率。

本发明所述的测序结果样本可以是自己测定的基于MALBAC扩增的人类基因组的测序数据，也可以是他人公开的基于MALBAC扩增的二代测序结果。测序结果比对所述的参考序列应为人参考基因组，例如hg19、hg38。测序比对及计算测序深度所需软件包括但不限于BWA、bedtools。

本发明针对小片段（<5Mb）染色体异常提出了检测方法，能对微缺失异常、微重复异常进行有效检出。

（1）本发明采取SNP位点进行遗传学连锁分析，SNP位点属于可遗传变异，具有良好的遗传稳定性，在群体中出现频率高于1%；

（2）本发明首先在胚胎的基因组数据上识别小片段CNV的区段，然后再对指定变异区段进行SNP位点父母方来源分析，相比专利CN104745718A对父母方全基因组进行SNV分析，本发明对父母方基因组上的指定区段进行SNP分析，不仅能够提高效率，减少分析时间，而且能够增加SNP位点分析的精确性；

（3）本发明还引入了父源/母源SNP连锁读段倍率的指标，通过设定合适的阈值，对初筛出的染色体微重复、微缺失片段进行进一步的验证。这几方面的改进，提高了整个诊断过程中的成功率和准确性。

本发明的具体实施例1：

本实施例的样本为一批体外培养囊胚活检后消化所得的单细胞。目的是确定这些胚胎单细胞中是否存在小片段（<5Mb）的CNV，从而探究小片段染色体异常的发生情况，为胚胎染色体检测提供科学依据。

1.子代和亲本样本的获得及全基因组扩增

本实施例家系行第一周期的胚胎植入前遗传学诊断，女方取卵时期为2020年12月11日，通过单精子注射获得受精卵，培养至囊胚期。共获得4枚囊胚。每个囊胚期胚胎分离外滋养层单细胞作为样本。抽取样本父方、母方外周血，提取其基因组DNA，进行全基因组DNA扩增，将扩增后的产物进行纯化并检测DNA浓度以判断扩增情况，将扩增后的产物在-20℃保存。

1.1 MALBAC扩增

该实施例1使用多重退火环状扩增技术（MALBAC），进行少量胚胎细胞的全基因组DNA扩增。根据单细胞全基因组扩增试剂盒说明书，制备细胞裂解混合液，在样本中加入细胞裂解混合液，放入预热的PCR仪中进行裂解、失活蛋白酶。对获得的细胞裂解样本进行全基因组扩增，扩增的步骤包括：在细胞裂解样本中加入预扩增混合液，进行第一轮准线性扩增；线性扩增之后再加入扩增混合液，进行第二轮指数式扩增；将扩增后的产物进行纯化，并检测DNA浓度以判断扩增情况；最后将扩增后的产物在-20℃ 保存。

其中，第一轮线性扩增的条件为：

1) 94℃ 反应3min；

2) 20℃ 反应40s；

3) 30℃ 反应40s；

4) 40℃ 反应30s；

5) 50℃ 反应30s；

6) 60℃ 反应30s；

7) 70℃ 反应4min；

8) 95℃ 反应20s；

9) 58℃ 反应10s；

10) 步骤2)到步骤9)共重复8个循环。

第二轮指数扩增的条件为：

1) 94℃ 反应30s；

2) 94℃ 反应20s；

3) 58℃ 反应30s；

4) 72℃ 反应3min；

5) 步骤2)到步骤4)共重复17个循环；将扩增后的产物在4℃ 保存。

1.2 MALBAC扩增结果

单细胞或等量DNA可通过单细胞扩增反应，从每65μL的反应体系中，获得范围在300至2000bp之间的扩增产物2至4μg，在纯化后通过检测产物中双链DNA浓度判断扩增情况。

2.全基因组二代测序及数据过滤、比对

2.1、将所有样本进行二代测序，平均每个样本测序深度2X；取基于MALBAC单细胞全基因组扩增及二代测序的样本数据，使用trim_galore去除扩增及测序接头以及低质量碱基，采用比对软件BWA将处理后的数据比对到人类参考基因组hg38。进一步使用samtools软件去除低比对质量序列、PCR重复序列，得到去除重复序列以后的唯一比对的读段。

3. 染色体CNV分析

3.1 统计参考基因组窗口中比对读段数

以200Kb的分辨率，将人类参考基因组分为若干个窗口（bin），使用readCounter统计每个窗口j的比对读段数。

3.2 多样本间矫正及单细胞染色体拷贝数可视化

经测序深度及样本间矫正后，根据读段数的分布情况，绘制该样本的CNV图。图2a至图2d中为该家系4枚囊胚分别的CNV图，分辨率为200Kb。

4. 筛选候选小片段CNV

分析CNV图，初步认为连续5个及以上窗口读段所对应的拷贝数>2.3（即

>2.3）为候选的小片段重复，或连续5个及以上窗口读段所对应的拷贝数<1.7（/>

<1.7）为候选的小片段缺失，即为初筛出的小片段CNV异常的片段。该家系第一周期的E2胚胎样本中，可识别出22号染色体中可能存在小片段缺失，如图3和表1。获取初筛出该小片段CNV重复的染色体位置，位于22号染色体碱基位置18900001-21100000区间（约2Mb），作为候选区域，进行下一步的分析。

表1：小片段CNV候选区域位置

5. 亲本及子代样本SNP位点等位基因型鉴定及SNP位点过滤

5.1 根据从NCBI下载的1000genome的注释文件，使用软件GATK，对指定候选区域（chr22:18900001-21100000区间，约2Mb）亲本及子代样本的SNP位点进行等位基因型鉴定。使用GATK官方推荐方式过滤SNP位点，除去潜在错误的SNP。

5.2 筛选区分型SNP位点

在候选区域（碱基位置chr22:18900001-21100000区间，约2Mb），选取父母本为纯合且为不同碱基的SNP位点，即能够用来区分父母源的SNP位点（区分型SNP）（如，在某SNP位点上，父本碱基为AA，母本碱基为CC，父母本在该位点的碱基均为二倍体纯合，且分别为2种不同的碱基类型）。根据孟德尔遗传原理，可区分子代样本（包括先证儿、所有胚胎的单细胞）相应候选区域的SNP位点等位基因分别是源于父方还是母方。其中，候选区域的区分型SNP最低为5个，否则此胚胎区分型SNP数据将视为数据量不足，难以进行后续分析。由此共计得到66个区分型SNP位点。列举部分位点如表2所示。

表2：部分区分型SNP位点示例

6. 计算SNP连锁读段父源/母源倍率

获取子代单细胞样本在候选区域中分别来自父源和母源的SNP位点的读段数。得到来源于父方的读段数为23，母方读段数为253，计算SNP连锁读段父源/母源倍率（parental ratio）可得0.09，即<0.8，认定为父源小片段缺失。

以上描述了本发明优选实施方式，然其并非用以限定本发明。本领域技术人员对在此公开的实施方案可进行并不偏离本发明范畴和精神的改进和变化。

Claims

1.一种单细胞小片段染色体拷贝数变异的检测系统，其特征在于，所述的检测系统包括胚胎单细胞的获得单元、胚胎样本全基因组扩增单元、亲本基因组样本获取单元、胚胎单细胞全基因组扩增产物及亲本基因组样本二代测序单元、单细胞测序数据过滤和比对单元、基于读段计数的基因组拷贝数分析单元、候选小片段CNV初筛单元、亲本及子代样本SNP位点等位基因型鉴定及SNP位点过滤单元、候选小片段CNV区域中SNP连锁读段的父源/母源倍率计算单元和真实小片段CNV判断单元。

2.根据权利要求1所述的单细胞小片段染色体拷贝数变异的检测系统，其特征在于，所述的胚胎单细胞的获得单元用于通过单精子注射的方式获得受精卵，培养至囊胚期，从每个囊胚期胚胎分离3至10个外滋养层细胞作为样本；所述的胚胎样本全基因组扩增单元优先使用多重退火环状扩增技术，进行胚胎细胞的全基因组DNA扩增；所述的亲本基因组样本获取单元用于抽取样本父方和/或母方外周血，提取其基因组DNA，进行全基因组DNA扩增，将扩增后的产物在-20℃保存；所述的胚胎单细胞全基因组扩增产物及亲本基因组样本二代测序单元用于将所有样本使用二代测序仪测序；由于要同时获得CNV分析和SNP连锁信息，平均每个样本测序深度最低为基因组的2倍；所述的单细胞测序数据过滤和比对单元用于去除测序数据中的测序接头以及低质量碱基，然后将处理后的数据比对到人类参考基因组，进一步去除低比对质量序列、PCR重复序列，得到去除重复序列以后的唯一比对的读段；所述的基于读段计数的基因组拷贝数分析单元包括参考基因组窗口中比对读段数统计模块和多样本间矫正及单细胞基因组拷贝数可视化模块；所述的参考基因组窗口中比对读段数统计模块用于以200Kb的分辨率，将人类参考基因组分为若干个窗口，使用readCounter软件统计每个窗口的比对读段数；所述的多样本间矫正及单细胞基因组拷贝数可视化模块用于统计每个样本i比对的总碱基数，计算每个样本i的测序深度；得出每个样本i的每个窗口j经测序深度矫正后的读段数和样本间矫正因子以及经测序深度矫正以及多样本间矫正后的读段数，并进一步得到最终用于分析的窗口读段数，根据最终用于分析的窗口读段数的分布情况，绘制每个样本的CNV图；所述的候选小片段CNV初筛单元用于分析CNV图，获取初筛出的候选小片段CNV的染色体位置，作为候选区域，进行下一步的分析；所述的亲本及子代样本SNP位点等位基因型鉴定及SNP位点过滤单元用于对指定候选区域亲本及子代样本的SNP位点进行等位基因型鉴定，除去潜在错误的SNP；所述的候选CNV区域中SNP连锁读段的父源/母源倍率计算单元包括区分型SNP位点筛选模块和候选CNV区域中SNP连锁读段的父源/母源倍率计算模块；所述的区分型SNP位点筛选模块用于在相应候选区域，选取父母本为纯合且为不同碱基的SNP位点，作为能够用来区分父母源的SNP位点，即区分型SNP；区分子代样本相应候选区域的SNP位点等位基因分别是源于父方还是母方；所述的候选CNV区域中SNP连锁读段的父源/母源倍率计算模块用于获取子代单细胞样本在候选区域中分别来自父源和母源的SNP位点的读段数，计算SNP连锁读段父源/母源倍率Parental ratio；

；

所述的真实小片段CNV判断单元用于判定Parental ratio >1.2或Parental ratio <0.8的候选小片段CNV区域为真实小片段CNV，结合所述异常小片段CNV异常筛选单元的分析结果，其中C_i,j >2.3为小片段重复，或C_i,j<1.7为小片段缺失。

3. 根据权利要求1所述的单细胞小片段染色体拷贝数变异的检测系统，其特征在于，所述的胚胎样本全基因组扩增单元进行胚胎细胞的全基因组DNA扩增的具体步骤包括：根据单细胞全基因组扩增试剂盒说明书，制备细胞裂解混合液，在样本中加入细胞裂解混合液，放入预热的PCR仪中进行裂解和失活蛋白酶；对获得的细胞裂解样本进行全基因组扩增，扩增的步骤包括：在细胞裂解样本中加入预扩增混合液，进行第一轮准线性扩增；线性扩增之后再加入扩增混合液，进行第二轮指数式扩增；将扩增后的产物进行纯化，并检测DNA浓度以判断扩增情况；最后将扩增后的产物在-20℃ 保存。

4.根据权利要求1所述的单细胞小片段染色体拷贝数变异的检测系统，其特征在于，所述的胚胎单细胞全基因组扩增产物及亲本基因组样本二代测序单元为了同时获得CNV分析和SNP连锁信息，平均每个样本测序深度最低为基因组的2倍。

5.根据权利要求1所述的单细胞小片段染色体拷贝数变异的检测系统，其特征在于，使用的测序结果样本是自己测定的基于MALBAC扩增的人类基因组的测序数据，或是他人公开的基于MALBAC扩增的二代测序结果。

6.根据权利要求1所述的单细胞小片段染色体拷贝数变异的检测系统，其特征在于，所述的多样本间矫正及单细胞基因组拷贝数可视化模块用于使用samtools软件统计每个样本i比对的总碱基数

，计算每个样本i的测序深度depth_i：

，

其中，L为人类参考基因组碱基数；

每个样本i的每个窗口j经测序深度矫正后的读段数为：

，

其中，

为样本i在基因组上第j个窗口比对上的读段数；

样本间矫正因子Nor_j为：

，

其中，

,

，

根据

的分布情况，绘制每个样本的CNV图。

7. 根据权利要求1所述的单细胞小片段染色体拷贝数变异的检测系统，其特征在于，所述的候选小片段CNV初筛单元用于分析CNV图，初步认为连续5个以上窗口的C_i,j >2.3为候选的小片段重复，或连续5个以上窗口的C_i,j<1.7为候选的小片段缺失，即为初筛出的小片段CNV片段；获取初筛出的候选小片段CNV的染色体位置，作为候选区域，进行下一步的分析。

8.根据权利要求1所述的单细胞小片段染色体拷贝数变异的检测系统，其特征在于，所述的亲本及子代样本SNP位点等位基因型鉴定及SNP位点过滤单元使用软件GATK，对指定候选区域亲本及子代样本的SNP位点进行等位基因型鉴定；使用GATK官方推荐方式过滤SNP位点，除去潜在错误的SNP。

9.根据权利要求1所述的单细胞小片段染色体拷贝数变异的检测系统，其特征在于，所述的区分型SNP位点筛选模块在筛选区分型SNP位点时，候选区域的区分型SNP最低为5个，否则此胚胎区分型SNP数据将视为数据量不足。