CN116597897A

CN116597897A - 一种基于芯片数据的cnv分析方法与装置

Info

Publication number: CN116597897A
Application number: CN202310568929.3A
Authority: CN
Inventors: 徐艳文; 王静; 许言; 吴涵; 陈究成; 李�荣; 郭婧; 潘家富; 卢冰婕; 曾艳红; 周灿权; 菅爱军
Original assignee: Basetra Medical Technology Co ltd; First Affiliated Hospital of Sun Yat Sen University
Current assignee: Basetra Medical Technology Co ltd; First Affiliated Hospital of Sun Yat Sen University
Priority date: 2023-05-18
Filing date: 2023-05-18
Publication date: 2023-08-15

Abstract

本申请的目的是提供一种基于芯片数据的CNV分析方法与装置。与现有技术相比，本申请通过数据获取模块将原始的SNP芯片数据生成包含预设数据特征的目标文本，其中，所述预设数据特征包括GC socre、LRR值，然后，数据矫正模块基于所述GC socre及对应的LRR值通过回归模型进行矫正，确定矫正后的LRR值，并且通过CNV分析模块基于所述矫正后的LRR值确定候选CNV区间及每个候选CNV区间的LRR均值，并基于所述LRR均值确定CNV类型，其中，所述CNV类型包括重复区间、缺失区间、或未知区间中至少任一项，其中，所述未知区间包括正常区间、嵌合区间或LOH区间。通过这种方式能够对CNV分析结果进行更精确的分类。

Description

一种基于芯片数据的CNV分析方法与装置

技术领域

本申请涉及生物信息技术领域，尤其涉及一种基于芯片数据的CNV分析技术。

背景技术

2021年中国出生人口和出生率再创下新低，并且出生率(7.52‰)和死亡率(7.18‰)很接近，而据《中国出生缺陷防治报告(2012)》数据显示，育龄妇女由于各种生育问题的困扰不孕率约为10～15％。同时，我国出生缺陷率高达5.6％，其中染色体畸变约占出生缺陷遗传学病因的80％以上，包括染色体数目异常、大片段缺失/重复及致病性基因组拷贝数变异(pathogenic copy number variations，pCNVs)等。

胚胎植入前遗传学检测(Preimplantation genetic testing，PGT)，该检测目标是对早期胚胎的单个细胞进行染色体拷贝数异常的检测识别，使它们不被移植，留下具有正常数量染色体的未受影响的胚胎被选择用于移植，从而更有可能妊娠健康的婴儿。随着晚婚晚育的增加，人类早期胚胎中来源于卵子的减数分裂错误导致的非整倍体率显著增加，另外，早期胚胎分裂迅速，而控制染色体正常分离的纺锤体组装关卡功能弱，因此容易产生有丝分裂错误。胚胎植入前筛查相关的在嵌合型胚胎中鉴别有丝分裂错误和减数分裂错误将显著提高染色体筛查的准确性，并极大地减低移植嵌合型胚胎导致流产和异常胎儿的风险。

基于高密度SNP(Single Nucleotide Polymorphism,单核苷酸多态性位点)芯片是一种常用的CNV检测方法。目前常规的SNP芯片解析软件还主要是以Windows软件半自动分析为主，需要借助第三方转化软件将芯片下机数据转换为固定格式才可以进行数据分析，操作麻烦。且一般检测出胚胎大致的异常染色体位置、非整倍体胚胎的异常染色体位置，而无法实现对CNV分析结果进行更精确的分类。

发明内容

本申请的目的是提供一种基于芯片数据的CNV分析方法与装置。

根据本申请的一个方面，提供了一种基于芯片数据的CNV分析装置，其中，该装置包括：

数据获取模块，用于将原始的SNP芯片数据生成包含预设数据特征的目标文本，其中，所述预设数据特征包括GC socre、LRR值；

数据矫正模块，用于基于所述GC socre及对应的LRR值通过回归模型进行矫正，确定矫正后的LRR值；

CNV分析模块，连接所述数据矫正模块，用于基于所述矫正后的LRR值确定候选CNV区间及每个候选CNV区间的LRR均值，并基于所述LRR均值确定CNV类型，其中，所述CNV类型包括重复区间、缺失区间、或未知区间中至少任一项，其中，所述未知区间包括正常区间、嵌合区间或LOH区间。

可选地，其中，所述CNV分析模块还用于对LRR值及BAF值进行可视化并对CNV进行基因及区带注释。

可选地，其中，所述预设数据特征还包括BAF值，所述CNV分析模块还用于基于所述BAF值及所述LRR均值确定LOH区间。

进一步地，其中，所述基于所述LRR均值确定CNV类型包括：

当候选CNV区间内的LRR均值大于第一预设均值阈值时，确定CNV类型为重复区间；

当候选CNV区间内的LRR均值小于第二预设均值阈值时，确定CNV类型为缺失区间；

当候选CNV区间内的LRR均值位于所述第一预设均值阈值与第二预设均值阈值之间时，确定CNV类型为未知区间。

可选地，其中，所述装置还包括：

数据质控模块，与所述数据获取模块连接，用于基于所述目标文本确定质控信息和/或基于所述目标文本筛选出不符合预设标准的GC socre、SNP位点，以排除质量差的胚胎。

可选地，其中，所述装置还包括：

嵌合比例分析模块，与所述CNV分析模块连接，用于基于公式法或者线性拟合法确定嵌合区间的嵌合比例。

优选地，其中，所述公式法应用如下公式：

对于二体-三体嵌合对应的公式包括：

BAF＝(1-f)B+fB/(1-f)A+(1-f)B+2fA+fB＝B/(A+B+fA)＝1/(2+f)或

BAF＝(1-f)B+2fB/(1-f)A+(1-f)B+fA+2fB＝(B+fB)/(A+B+fB)＝(1+f)/(2+f)；

对于单体-二体嵌合对应的公式包括：

BAF＝(1-f)B/(fA+(1-f)A+(1-f)B)＝(1-f)/(2-f)或

BAF＝((1-f)B+fB)/(fB+(1-f)A+(1-f)B)＝1/(2-f)，其中，BAF为每个位点对应的BAF值，f为嵌合比例值，A是每个多态位点上频率较高的等位基因，B是频率较低的等位基因。

优选地，其中，所述BAF值是基于对照样本下的BAF基线的偏移程度对整体位点的BAF值进行矫正后确定的。

优选地，其中，所述线性拟合法包括如下步骤：

将对照样本采用均值矫正法对每个位点的BAF值进行矫正，确定矫正后的值作为该位点的基线值；

将所有的样本数据按照染色体为单位随机打乱位点位置与基线值，获取理想状态下的BAF数据作为对照基线值；

将未知嵌合比例区间的位点的杂合BAF值作为未知样本拟合数据输入；

提取对照样本基线未知嵌合比例区间所有对应的位点的BAF，并基于预设比例将位点分为两部分，一部分作为上半部分位点的BAF集合，一部分作为下半部分的位点的BAF集合，并结合设定的嵌合比例值进行拟合，获取每个位点理论和真实值残差之和，直至找到最小的残差之和作为嵌合比例值。

优选地，其中，所述SNP芯片数据包含父亲、母亲、先证者全血或者组织的DNA生成的数据和胚胎单细胞DNA生成的数据的组合，所述装置还包括：

来源及发生时期分析模块，用于基于父亲、母亲、先证者的数据构建父源以及母源的单倍型图谱并结合胚胎的基因型构建胚胎的单倍体型图谱；

基于胚胎的单倍体型图谱根据镜像规则将对应的BAF进行镜像，得到镜像转换后的BAF值；

基于父源以及母源的单倍型图谱、转换后的BAF值及父源和母源对应的致病基因型构建可视化BAF散点图；

基于所述可视化BAF散点图判断致病基因型的来源及发生时期。

优选地，其中，所述父源以及母源的单倍型图谱包括IFF位点以及IFM位点，其中，

针对IFF位点，根据转换后的mirror_baf对胚胎该位点的携带的单体型P1或者P2进行判断，其判断公式如下：

，其中，

其中，mirror_baf为镜像转换后的BAF值，BAF为胚胎细胞位点对应的BAF值，MotherSeq为其对母亲对应的基因型，E1为其携带父源单体型；

针对IFM位点，根据转换后的mirror_baf对胚胎该位点的携带的单体型M1或者M2进行判断，其判断公式如下：

其中，

其中，mirror_baf为镜像转换后的BAF值，BAF为胚胎细胞位点对应的BAF值，为其对应的父亲的基因型，E2为其对应的携带母源单体型。

优选地，其中，所述可视化BAF散点图中BAF值的计算公式如下：

或

根据本申请的另一方面，还提供了一种基于芯片数据的CNV分析方法，其中，所述方法包括：

将原始的SNP芯片数据生成包含预设数据特征的目标文本，其中，所述预设数据特征包括GC socre、LRR值；

基于所述GC socre及对应的LRR值通过回归模型进行矫正，确定矫正后的LRR值；

基于所述矫正后的LRR值确定候选CNV区间及每个候选CNV区间的LRR均值，并基于所述LRR均值确定CNV类型，其中，所述CNV类型包括重复区间、缺失区间、或未知区间中至少任一项，其中，所述未知区间包括正常区间、嵌合区间或LOH区间。

可选地，其中，所述方法还包括：

基于所述目标文本确定质控信息和/或基于所述目标文本筛选出不符合预设标准的GC socre、SNP位点，以排除质量差的胚胎。

根据本申请的再一方面，还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如前述方法的操作。

根据本申请的又一方面，还提供了一种基于芯片数据的CNV分析设备，其中，该设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如前述方法的操作。

与现有技术相比，本申请通过数据获取模块将原始的SNP芯片数据生成包含预设数据特征的目标文本，其中，所述预设数据特征包括GC socre、LRR值，然后，数据矫正模块基于所述GC socre及对应的LRR值通过回归模型进行矫正，确定矫正后的LRR值，并且通过CNV分析模块基于所述矫正后的LRR值确定候选CNV区间及每个候选CNV区间的LRR均值，并基于所述LRR均值确定CNV类型，其中，所述CNV类型包括重复区间、缺失区间、或未知区间中至少任一项，其中，所述未知区间包括正常区间、嵌合区间或LOH区间。通过这种方式能够对CNV分析结果进行更精确的分类。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本申请一个方面的一种用于基于芯片数据的CNV分析装置示意图；

图2示出根据本申请的一种胚胎单倍体型图谱构建及遗传图；

图3示出根据本申请一个优选实施例的一种单倍体型建立的镜像BAF可视化结果图。

图4示出根据本申请一个优选实施例的一种胚胎样本染色体嵌合与对照胚胎样本染色体正常数据可视化对比图；

图5示出根据本申请一个优选实施例的一种拟合法计算胚胎样本染色体嵌合比例值结果图；

图6示出根据本申请一个优选实施例的一种来源及时期分析结果展示图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

为更进一步阐述本申请所采取的技术手段及取得的效果，下面结合附图及较佳实施例，对本申请的技术方案，进行清楚和完整的描述。

图1示出本申请一个方面提供的一种基于芯片数据的CNV分析装置1，所述装置1包括：

数据获取模块11，用于将原始的SNP芯片数据生成包含预设数据特征的目标文本，其中，所述预设数据特征包括GC socre、LRR值；

数据矫正模块12，用于基于所述GC socre及对应的LRR值通过回归模型进行矫正，确定矫正后的LRR值；

CNV分析模块13，连接所述数据矫正模块，用于基于所述矫正后的LRR值确定候选CNV区间及每个候选CNV区间的LRR均值，并基于所述LRR均值确定CNV类型，其中，所述CNV类型包括重复区间、缺失区间、或未知区间中至少任一项，其中，所述未知区间包括正常区间、嵌合区间或LOH区间。

在该实施例中，所述数据获取模块11可实现对illumina所有的芯片类型进行处理，在此，所述芯片类型包括但不限于ASA-24v1-0_A1、cytosnp-850k_b、HumanCytoSNP-12v2-1_H、HumanCytoSNP-12v2-1_L、HumanKaryomap-12v1_A、InfiniumOmniZhongHua-8v1-3_A1、InfiniumOmniZhongHua-8v1-4_A1等。其中，所述预设数据特征可基于实际的分析需求进行设定，例如，所述预设数据特征包括但不限于基因型、GC socre、LRR值、BAF值等。

优选地，其中，所述装置还包括：数据质控模块14，与所述数据获取模块11连接，用于基于所述目标文本确定质控信息和/或基于所述目标文本筛选出不符合预设标准的GCsocre、SNP位点，以排除质量差的胚胎。

在该实施例中，为了后续更高效的进行数据矫正以及提高数据处理效率，在数据输入数据矫正模块12之前可先通过数据质控模块14来进行数据筛查，以排除质量差的胚胎。具体地，所述数据质控模块计算获取Call Rate、LogR Dev等相关质控信息，根据CallRate、LogR Dev相关的阈值排除家系中的质量差的胚胎样本。此外，为排除实验或者样本本身质量引入误差，对样本数据中的GC score(GC score>0.3)、SNP位点等进行筛选，减少误差。数据矫正完成后可再将矫正后的数据输入数据矫正模块，以确定矫正后的LRR值。

数据矫正模块12，在获取到数据获取模块11或者数据质控模块14发送的数据后，会基于所述GC socre及对应的LRR值通过回归模型进行矫正，确定矫正后的LRR值。

在该实施例中，全基因组微阵列通常显示杂交强度的变化，这些可能与基因组的位置相关(主要为GC含量)，称为“基因组波”，可能会妨碍对拷贝数变异(CNV)的准确推断。在数据质控之后，利用回归模型对GC含量对信号强度值(LRR)进行矫正，可减少GC含量对后续分析的影响。

在此，为了探讨GC含量与LRR值关系，使用非重叠窗口方法来测试每个窗口内的中位数信号强度值是否与特定的基因组特征GC百分比相关。人类基因组特征信息gc5Base从UCSC基因组浏览器注释数据库获取。

将基因组分成1Mb的非重叠窗口，对基因组中每个1Mb非重叠窗口计算中位数信号强度值(LRR)，记为Yi(i＝1-3000)。窗口中SNP个数低于10的不计入后续的统计。计算所有窗口中的中位数信号强度值(LRR)与局部GC含量之间的相关性，记作。波因子计算公式为：

S_WF为用于区分不同方向的波，等式右边依赖中位数绝对偏差，但受尾部极值的影响较小。

每个样本的LRR的变化是多种原因造成的，为了量化GC含量引起的信号波动，进一步的对其波因子公式进行优化，获取GC波因子，GCWF分数是由局部GC含量解释的信号波动的汇总度量。其值为波因子值与|R_GC|的乘积：S_GCWF＝S_WF×|R_GC|。

回归模型在矫正时，根据GC波因子计算结果，针对数据质控模块质控后输入的样本的基因分型阵列位点记为M，收集所有位点彼此至少相距1Mb的m个常染色标记位点，对于每个m标记位点，将其LRR值进行收集，记为(j＝1，...，m)和标记周围1Mb窗口中平均的GC含量百分比，然后使用线性拟合方法进行回归：

L_j＝α+×G_j+_j

其中模型参数α和β通过最小二乘法估计。获得这些估计的回归参数后，对于基因分型阵列中的每个M标记，我们然后根据标记周围1Mb窗口中的GC百分比计算预期的信号强度值。然后将调整后的信号强度值计算为观察到的LRR值减去期望值(回归模型中的残差)，从而获取矫正后的LRR值。

CNV分析模块13，连接所述数据矫正模块12，用于基于所述矫正后的LRR值确定候选CNV区间及每个候选CNV区间的LRR均值，并基于所述LRR均值确定CNV类型，其中，所述CNV类型包括重复区间、缺失区间、或未知区间中至少任一项，其中，所述未知区间包括正常区间、嵌合区间或LOH区间。

具体地，所述CNV分析模块13选用pcf算法对GC含量矫正后的LRR进行CNV分析，找到基因组拷贝数相同的区域和不同的区域，获取该区域的LRR均值。其中，每个区域作为候选CNV区间。

优选地，其中，所述基于所述LRR均值确定CNV类型包括：

当候选CNV区间内的LRR均值大于从时，确定CNV类型为重复区间；

在此，所述第一预设均值阈值或第二预设均值阈值可基于不同的芯片类型进行测试后确定。例如，当第一预设均值阈值为0.15，第二预设均值阈值为-0.3，在判断时，当候选的CNV区间内LRR均值>0.15时，CNV类型判断为重复；当候选的CNV区间内LRR均值<-0.3时，CNV类型判断为缺失；当候选的CNV区间内LRR均值位于-0.3至0.15之间时，该候选区间为未知区间，其中，所述未知区间包括正常区间、嵌合区间或LOH区间。

优选地，其中，所述预设数据特征还包括BAF值，所述CNV分析模块还用于基于所述BAF值及所述LRR均值确定LOH区间。

例如，在一个优选的实施例中，当候选的CNV区间内LRR均值位于-0.15至0.1之间时，且该区间包含SNPs个数大于60或者该区间长度大于3M，且BAF值<＝0.15和BAF值>＝0.85的位点数目占该区间所有位点数目的比值大于85％，则判断为LOH区间。

针对整条染色体，计算位点其LRR均值及BAF值<＝0.15和BAF值>＝0.85的位点占该区间所有位点数目的比值，满足LOH判断条件，则将整条染色体判定位LOH。

优选地，其中，所述CNV分析模块13还用于对LRR值及BAF值进行可视化并对CNV进行基因及区带注释。优选地，包含的基因使用hg19版本的refGene进行注释，区带信息使用hg19的cytoBand进行注释，数据来源于UCSC。

优选地，其中，所述装置还包括：嵌合比例分析模块15，与所述CNV分析模块13连接，用于基于公式法或者线性拟合法确定嵌合区间的嵌合比例。

在此，对于嵌合区间的确定可根据LRR值和结合可视化的图形界面进行确认，例如，当未知区间中的LRR值大于0小于0.15的区间，结合可视化画的BAF分布，划定相关的区间，分析可能发生了嵌合重复；当未知区间中的LRR值大于-0.3小于0的区间，结合可视化的BAF分布，划定相关的区间，分析可能发生了嵌合缺失。

在该实施例中，对于嵌合区间的嵌合比例可通过公式法或者线性拟合法来确定。对于公式法，可先建立对照样本，获取对照样本的BAF基线值，BAF的基线可能发生偏离，公式计算的上下限差异会非常明显，最终导致结果会有所偏差。因此在实际使用过程中，首先计算正常样本下BAF基线的偏移程度，用该数值对整体BAF进行校正(也即BAF值是基于对照样本下的BAF基线的偏移程度对整体位点的BAF值进行矫正后确定的)，再代入公式中进行计算。公式计算方法如下表：

表1

上表1为二体/三体嵌合的单个位点上可能的等位基因数及组合方式。在这个表示中，A是每个多态位点上频率较高的等位基因，B是频率较低的等位基因。显示了二体细胞系和衍生的三体细胞系的所有可能组合。三体细胞系只有四种可能的状态，而只有四种可能的状态可以由二体细胞系中产生三体细胞系的三个状态产生。其各种组合状态下对应的嵌合比例f与A和B组合的个等位基因的关系。

表2

上表2为单倍体/二倍体镶嵌混合物中单个位点上可能等位基因数及组合方式。在这个表示中，A是每个多态位点上频率较高的等位基因，B是频率较低的等位基因。单体细胞组合有四种可能的结果。其各种组合状态下对应的嵌合比例f与A和B组合的个等位基因的关系。

对于线性拟合法，是在基于公式法的前提下，采用大量样本进行基线的校正，通过拟合综合概率进行分布分析，该方法使用逆CDF拟合来反卷积准归一化数据中重叠分布的中心趋势，拟合嵌合比例。包括如下步骤：

提取对照样本基线未知嵌合比例区间所有对应的位点的BAF，并基于预设比例将位点分为两部分，一部分作为上半部分位点的BAF集合，一部分作为下半部分的位点的BAF集合，并结合设定的嵌合比例值进行拟合，获取每个位点理论和真实值残差之和，直至找到最小的残差之和作为嵌合比例值。通过这种方式，本发明实现了嵌合比例值的量化。解决了现有技术中无法进行量化的技术问题。

来源及发生时期分析模块，用于基于父亲、母亲、先证者的数据构建父源以及母源的单倍型图谱并结合胚胎的基因型构建胚胎的单倍体型图谱；基于胚胎的单倍体型图谱根据镜像规则将对应的BAF进行镜像，得到镜像转换后的BAF值；基于父源以及母源的单倍型图谱、转换后的BAF值及父源和母源对应的致病基因型构建可视化BAF散点图；基于所述可视化BAF散点图判断致病基因型的来源及发生时期。通过这种方式，能够对致病基因型的来源及发生时期进行分析。

在此，单倍型检测原理为通过父亲、母亲以及先证者染色体上的SNP位点，分别构建父亲和母亲的两条单体型，并且确定携带缺陷基因的独特的DNA指纹(单体型)。通过对胚胎单体型分析，检查候选胚胎是否携带缺陷基因的独特DNA指纹。如果胚胎不含该DNA指纹，说明该胚胎很有可能不会患病；如果胚胎含有该DNA指纹，说明该胚胎患病。

在该实施例中，首先进行Informative SNPs分析，Informative SNPs是指双亲一方为纯合而另一方为杂合的SNPs，可以用于区分染色体来源。主要分为三种SNPs，Key SNP：含有有效的allele，即发生了ADO也不会影响结果的判断，结果可信度高。Non-Key SNP：不含有有效的allele，即不能确定该位点是否发生了ADO。如果发生了ADO会影响结果的判断，结果可信度低。基因型与Informative SNPs检测原理如下表3所示，其中表中的加粗allele为具有有效信息的allele。

表3

进一步地，针对父亲和母亲分别筛选一方纯合另一方杂合的位点结合先证者的基因型进行判断，构建父母的单倍体型，构建思路如下表4所示，

表4

SNP

IF

FatherSeq

MotherSeq

RefSeq

P1

P2

M1

M2

1

IFF

AB

AA

A

B

A

2

IFF

AB

AA

AB

B

A

3

IFF

AB

BB

AB

A

B

4

IFF

AB

BB

B

A

B

5

IFM

AA

AB

AA

A

B

6

IFM

AA

AB

A

B

A

7

IFM

BB

AB

B

A

B

8

IFM

BB

AB

BB

B

A

进一步地，结合父母的单倍体型，通过对胚胎单体型分析，结合临床信息检查候选胚胎是否携带缺陷基因的独特DNA指纹。相关的单倍体型构建及遗传方式如图2所示，具体的构建如下表5所示，在父亲、母亲两条单体型构建基础上结合胚胎细胞的单体型对胚胎细胞是否携带父母致病的单体型进行分析，同时判断其位点是否为Key SNP和是否发生了ADO。Key SNP：含有有效的allele，即发生了ADO也不会影响结果的判断，结果可信度高。Non-Key SNP：不含有有效的allele，即不能确定该位点是否发生了ADO。EBAF为胚胎样本该位点对应的BAF值。

表5

进一步地，将根据镜像规则将对应的BAF按照baf＝0.5进行镜像，得到构建完成的单倍的信息计算Informatic SNP，获取整个胚胎的单倍体型及镜像转换后的BAF值及对应的致病基因型P1、P2或M1、M2。

首先根据胚胎单体型分析部分构建的单倍体型表，分别筛选出父源IFF和母源IFM的位点，针对IFF位点镜像转换的条件如下公式所示，其中mirror_baf为镜像转换后的BAF值，BAF为胚胎细胞位点对应的BAF值，MotherSeq为其对母亲对应的基因型，E1为其携带父源单体型。

在获取胚胎镜像转换后BAF值后，进一步的对其值进行转换，获取最终镜像绘制值draw_baf，其转换条件如下公式所示，

最终针对IFF位点，根据转换后的对胚胎该位点的携带的单体型P1或者P2进行判断，其判断公式如下：

针对IFM位点镜像转换的条件如下公式所示，其中mirror_baf为镜像转换后的BAF值，BAF为胚胎细胞位点对应的BAF值，FatherSeq为其对应的父亲的基因型，E2为其对应的携带母源单体型。

在获取胚胎镜像转换后BAF值后，进一步的对其IFM的值进行转换，获取最终镜像绘制值draw_baf，其转换条件如下公式所示，

最终针对IFM位点，根据转换后的对胚胎该位点的携带的单体型M1或者M2进行判断，其判断公式如下：

进一步地，在镜像转换后，对BAF位点结果进行可视化，其可视化结果示例如图3所示，将胚胎的单倍体型BAF镜像转换后的数据，筛选IFF和IFM的位点分别进行绘制BAF分布图，横坐标为位置，纵坐标为镜像转换后的BAF值，上部分散点图为父源BAF分布图，下半部分为母源BAF分布图。

进一步进行来源判断，其中，来源判断规则为：重复嵌合来源于(P1，P2)或(M1，M2)位于0.5同一侧的亲本；若重复嵌合片段未跨过着丝粒，则发生时期无法判断；缺失嵌合来源于(P1，P2)或(M1，M2)位于0.5两侧的亲本，发生时期无法判断。

重复片段跨过着丝粒发生时期判断：来源于减数分裂时，必然会存在一部分双亲本同源染色体三体(Both Parental Homologs，BPH)区域，在这个区域内，重复发生来源方的单倍型必然有一段区域是杂合的(即BAF没有0，1)，因此，当这段区域经过着丝粒则说明发生时期是减数分裂Ⅰ期；反之，当着丝粒附近有纯合位点，近端粒有BPH区域，则重复发生时期是减数分裂Ⅱ期；当父源，母源都有纯合的位点(即BAF有0，1)则说明发生在有丝分裂时期。缺失无法构建单倍体型，故不对缺失发生时期进行判断。

在本申请的一个优选实施例中，提供了一种基于芯片数据的CNV分析装置，其中，该装置包括：

数据质控模块，与所述数据获取模块连接，用于基于所述目标文本确定质控信息和/或基于所述目标文本筛选出不符合预设标准的GC socre、SNP位点，以排除质量差的胚胎；

CNV分析模块，连接所述数据矫正模块，用于基于所述矫正后的LRR值确定候选CNV区间及每个候选CNV区间的LRR均值，并基于所述LRR均值确定CNV类型，其中，所述CNV类型包括重复区间、缺失区间、或未知区间中至少任一项，其中，所述未知区间包括正常区间、嵌合区间或LOH区间；

嵌合比例分析模块，与所述CNV分析模块连接，用于基于公式法或者线性拟合法确定嵌合区间的嵌合比例；

来源及发生时期分析模块，用于基于父亲、母亲、先证者的数据构建父源以及母源的单倍型图谱并结合胚胎的基因型构建胚胎的单倍体型图谱；基于胚胎的单倍体型图谱根据镜像规则将对应的BAF进行镜像，得到镜像转换后的BAF值；基于父源以及母源的单倍型图谱、转换后的BAF值及父源和母源对应的致病基因型构建可视化BAF散点图；基于所述可视化BAF散点图判断致病基因型的来源及发生时期。

在一个优选的应用实例中，应用上述CNV分析装置，可通过如下步骤实现分析：

1.对照样本集合构建

(1)样本选择

选取30例核型分析无染色体异常的胚胎细胞call rate值大于90的SNP芯片下机数据。

(2)数据预处理(通过数据获取模块和数据质控模块实现)

将30例对照样本SNP芯片下机数据转换为包含基因型的final report文件(对应目标文本)，剔除GCscore值低于0.3的位点，去除ins、del的位点，保留高质量的位点进行后续分析。

2.家系样本CNV分析

(1)数据预处理(通过数据获取模块和数据质控模块实现)

将家系中所有样本的SNP芯片下机数据转换为包含基因型的final report文件，剔除GCscore值低于0.3的位点，去除ins、del的位点，保留高质量的位点进行后续分析。

(2)GC矫正(通过数据矫正模块实现)

将数据预处理后的包含高质量的位点数据，使用数据矫正模块对数据进行矫正，获取矫正后的LRR值。

(3)CNV分析(通过CNV分析模块)

将GC含量矫正后数据采用PCF的方法进行分析CNV，即使用copynumber中的pcf算法进行分析，gama值设定与芯片类型有关，本案例设置为30。获取初步分割后的结果表，如下表6所示，包含样本名称(sampleID)、染色体位置(chrom)、长短臂(arm)、起始位置(start.pos)、终止位置(end.pos)、探针数目(n.probes)、该区间的平均LRR值(mean)，该表展示了部分CNV初步分析结果。

表6

在此基础进一步的判断CNV的类型及对该区间所包含的基因信息进行注释，CNV类型判断如CNV分析模块中CNV、LOH阈值部分所示，包含的基因使用hg19版本的refGene进行注释，区带信息使用hg19的cytoBand进行注释，结果如下表7所示，包含样本名称(sampleID)、染色体位置(chrom)、起始位置(start.pos)、终止位置(end.pos)、探针数目(n.probes)、该区间的平均LRR值(mean)、区间长度(length)、CNV数目(CNV)、CNV类型(cnv_type)、纯合位点比例(loh_rate)、区带(cytoband)、包含基因(gene)、基因个数(gene_num)。

表7

sampleID	chrom	start.pos	end.pos	n.probes	mean	length	CNV	cnv_type	loh_rate	cytoband	gene	gene_num
													X20493659	2	72184	2946046	428	-0.0436	2873862	2	-	0.712617	2p25.3	ACP1,ALKA	17
X20493659	2	2949111	3159514	40	0.2857	210403	3	gain	0.4	2p25.3	LINC01250	1
													X20493659	2	3173024	3340094	22	-04138	167070	1	loss	0545455	2253	EIPR1	1
X20493659	2	3340939	8775493	813	-0.0138	5434554	2	-	0.702337	2p25.3-p2	ADI1,ALLC,	34
													X20493659	2	8781776	8847321	18	-0.5021	65545	1	loss	0.944444	2p25.1	ID2,ID2-A	2
X20493659	2	8852462	88464840	8751	0.0173	79612378	2	-	0.735116	2p22.1-p2	AAK1ABCG	619
													X20493659	2	88470966	88498277	19	-0.5422	27311	1	loss	0.684211	2p11.2	THNSL2	1
X20493659	2	88503315	92050792	243	0.0156	3547477	2	-	0.794239	2p11.1-p1	ANKRD36BP	11
													X20493659	2	95537000	238E+08	13098	00238	143E+08	2	-	0722935	2q232-q3	AAMPABCA	1018
X20493659	2	238374824	2.39E+08	33	-0.362	163773	1	loss	0.787879	2q37.3	LRRFIP1,M	5
													X20493659	2	238546572	239E+08	73	00258	453311	2	-	0849315	2q373	LRRFIP1R	6
X20493659	2	239008203	2.39E+08	15	-0.6323	71339	1	loss	0.666667	2q37.3	ERFE,ESPN	4
													X20493659	2	239082976	241E+08	324	-00466	2266555	2	-	0700617	2q373	ASB1COPS	24
X20493659	2	241359706	2.42E+08	81	-0.3521	620417	1	loss	0.679012	2q37.3	AGXTANKM	17
													X20493659	2	241988392	243E+08	79	-00469	1041181	2	-	064557	2q373	ANO7ATG4	25
X20493659	6	204909	2856192	408	-02033	2651283	1	loss	0764706	6p252-p2	DUSP22EX	20
													X20493659	6	2862053	58741497	6294	-0.0975	55879444	2	-	0.7102	6p24.2-p1	AARS2ABC	788
X20493659	6	61891118	61950084	9	-0.7856	58966	1	loss	0.777778	6q11.1		0
													X20493659	6	61962932	1.64E+08	8704	-0.11	1.02E+08	2	-	0.696232	6q22.33-q	ABRACLAC	543
X20493659	6	163736502	1.64E+08	17	-0.6429	81409	1	loss	0.705882	6q26	DKFZp451B	3
													X20493659	6	163844392	1.69E+08	760	-0.2005	5468432	1	loss	0.689474	6q27-q26	AFDNAFDN	42
X20493659	6	169318610	1.7E+08	46	0.066	194430	2	-	0.5	6q27	LOC101929	3
													X20493659	6	169519052	17E+08	41	-04951	212380	1	loss	0707317	6q27	LINC01615	4
X20493659	6	169739409	1.7E+08	87	-0.0353	613903	2	-	0.563218	6q27	C6orf120	7
													X20493659	6	170358566	171E+08	31	-08538	150845	1	loss	0387097	627	LOC102724	1
X20493659	6	170516123	171E+08	48	-04302	305677	1	loss	0729167	6q27	DLL1FAM1	6
													X20493659	6	170823379	171E+08	11	01395	75170	3	i	1	627	PDCD2PSM	3

本发明在此模块中可实时的对LRR值及BAF进行可视化及放大缩小，方便及时的查阅CNV分割界限。结合计算结果表及动态可视化LRR值及BAF值结果，可以发现胚胎样本X204936590008_R03C02的6号染色体发生缺失嵌合，展示结果如图4所示，示出胚胎样本X204936590008_R03C02的6号染色体嵌合与对照胚胎样本6号染色体正常数据可视化对比图。

3.嵌合比例分析(通过嵌合比例分析模块)

(1)输入数据

根据上一步CNV分析的结果及实时动态可视化结果，选取相关样本的需要分析的区域作为输入，使用公式法和拟合法进行分析。本案例中针对胚胎样本X204936590008_R03C02的6号染色体所在区域进行分析。

(2)公式法计算

根据之前建立的对照样本集合，筛选6号染色体所有的BAF位点，根据中位数法获取对照样本的BAF基线值，将分析样本X204936590008_R03C02的6号染色体所有的位点通过BAF基线值进行矫正，获取该样本所有矫正后的BAF值。

根据实际将BAF位点分类，筛选上半部分杂合位点为BAF>0.5且BAF<0.85，代入公式中进行计算：

BAF＝((1-f)B+fB)/(fB+(1-f)A+(1-f)B)＝1/(2-f)

同时，筛选下半部分位点为BAF>0.15且BAF<0.5，代入公式中进行计算：

BAF＝B/(A+B)＝(1-f)×1/((1-f)×2+f×1)＝(1-f)/(2-f)

即f为嵌合比例值，BAF为每个位点对应的BAF值，代入如上公式求取每个位点的f值，最终求取平均值，分别获取上下部分的f嵌合比例值，最终求取均值，为该区域的嵌合比例值。样本X204936590008_R03C02的6号染色体计算的嵌合比例为上半部分计算的嵌合比例为0.5034，下半部分计算嵌合比例为0.3887，故该6号染色体公式计算法的嵌合比例为0.446。

(3)拟合法计算

根据之前建立的对照样本集合，采用均值矫正法对每个位点的BAF值进行矫正，获取每个位点矫正后数据，随机打乱获取随机位置和BAF组合的倾向于理想状态下的数据，作为对照基线值。

样本X204936590008_R03C02筛选6号染色体所有质控和矫正后的位点的BAF，作为未知样本拟合数据输入。提取对照样本集合基线6号染色体所有对应的位点的BAF，根据一定比例将位点分为两部分，一部分用于上半分布的位点BAF集合，一部分作为下半部分的位点的BAF集合，结合设定的嵌合比例值，进行拟合，获取X204936590008_R03C02筛选6号染色体输入的BAF值每个位点真实值BAF值和理论的残差之和，在未找到最小残差和之前进一步的拟合，计算，直到获取最小的残差之和，从而得到最适合的嵌合比例值。

本发明针对样本X204936590008_R03C02的6号染色体拟合计算的嵌合比例为0.457，对应的最小的残差和为24.6385。相关的结果如图5所示，示出一种拟合法计算胚胎样本X204936590008_R03C02的6号染色体嵌合比例值结果图，包含不同的残差和情况下对应的嵌合比例，同时还展示该区域的BAF-LRR值可视化结果。

4.来源及时期分析(通过来源及发生时期分析模块)

(1)家系信息获取

收集填写家系的信息，主要是父亲、母亲、先证者及胚胎，一个家系必须包含父亲、母亲、先证者及胚胎四个及以上的样本，本发明针对的案例1的家系信息如下表8所示。

表1

(2)单倍体型构建

本发明结合案例1家系信息及质控后的每个的包含基因型的final report，根据父亲、母亲、先证者构建双亲的单倍体型图谱，再结合胚胎样本的基因型构建胚胎的单倍体型，X204936590008_R03C02胚胎的6号染色体部分位点分析结果如下表9(表9为胚胎单倍体型构建位点结果表(部分))所示，其中rs为位点名称，IF为informative SNP类型，FatherSeq为家系中父亲的基因型，P1、P2分别为父亲的单体型，MotherSeq为家系中母亲的基因型，M1、M2分别为母亲的单体型，RefSeq为先证者的基因型，ESeq为胚胎的基因型，E1、E2分别为胚胎的单体型，BAF为胚胎位点的BAF值。

表2

(3)BAF镜像转换

在构建胚胎的单倍体型图谱的基础上，根据BAF镜像转换原则，对其进行处理，分析结果如下表10(胚胎单倍体型BAF镜像转换结果表(部分))所示，同胚胎单体型分析结果，选X204936590008_R03C02胚胎的6号染色体部分位点作为分析结果的展示。

表10

(4)可视化及判断

在构建胚胎的单倍体型图谱且根据BAF镜像转换原则进行处理后，对胚胎X204936590008_R03C02胚胎的6号染色体的IFF和IFM分别绘制BAF分布散点图，结果如图6所示，示出一种胚胎样本X204936590008_R03C02嵌合缺失的6号染色体区间来源及时期分析结果展示图，横坐标为位置，纵坐标为镜像转换后的BAF值，上部分散点图为父源BAF分布图，下半部分为母源BAF分布图。根据来源及时期判断原则及拟合法嵌合比例分析结果，X204936590008_R03C02胚胎的6号染色体发生嵌合缺失，缺失比例为-mos(6)(45.7％)。母源M1，M2位于0.5两侧，因为是缺失，所以缺失来源于母亲，发生时期无法判断。

通过本发明的分析装置，可实现如下有益效果：1.能自动化的对多个平台的SNP芯片下机数据进行转换；2.CNV分析结果可以更精确地进行分类；针对嵌合样本可精确检出，且能量化其嵌合比例值；4.可进一步分析CNV的来源及发生时期。本发明的整体各个模块和功能相互配合，快速产出结果，有效的排除有染色体异常的胚胎，有效的量化异常胚胎嵌合比例，有效的鉴别有丝分裂错误和减数分裂错误，显著提高染色体筛查的准确性，从而排除有遗传缺陷的胚胎，选择正常胚胎进行移植，满足生育正常后代的愿望，降低因移植嵌合型胚胎导致流产和异常胎儿的风险，减少遗传病患儿的妊娠和出生。用户可在没有编程基础条件下使用本发明装置中进行一体化的分析，获取各个模块分析结果统计表及可视化结果，极大降低其分析困难程度从而提高其工作效率。

根据本申请的又一方面，还提供了一种基于芯片数据的CNV分析方法，其中，所述方法包括：

优选地，其中，所述方法还包括：

与现有技术相比，本申请通过将原始的SNP芯片数据生成包含预设数据特征的目标文本，其中，所述预设数据特征包括GC socre、LRR值，然后，基于所述GC socre及对应的LRR值通过回归模型进行矫正，确定矫正后的LRR值，并且基于所述矫正后的LRR值确定候选CNV区间及每个候选CNV区间的LRR均值，并基于所述LRR均值确定CNV类型，其中，所述CNV类型包括重复区间、缺失区间、或未知区间中至少任一项，其中，所述未知区间包括正常区间、嵌合区间或LOH区间。通过这种方式能够对CNV分析结果进行更精确的分类。

根据本申请的又一方面，还提供了一种计算机可读介质，所述计算机可读介质存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现前述方法。

一个或多个处理器；以及

例如，计算机可读指令在被执行时使所述一个或多个处理器：将原始的SNP芯片数据生成包含预设数据特征的目标文本，其中，所述预设数据特征包括GC socre、LRR值；基于所述GC socre及对应的LRR值通过回归模型进行矫正，确定矫正后的LRR值；基于所述矫正后的LRR值确定候选CNV区间及每个候选CNV区间的LRR均值，并基于所述LRR均值确定CNV类型，其中，所述CNV类型包括重复区间、缺失区间、或未知区间中至少任一项，其中，所述未知区间包括正常区间、嵌合区间或LOH区间。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种基于芯片数据的CNV分析装置，其中，该装置包括：

2.根据权利要求1所述的装置，其中，所述CNV分析模块还用于对LRR值及BAF值进行可视化并对CNV进行基因及区带注释。

3.根据权利要求1所述的装置，其中，所述预设数据特征还包括BAF值，所述CNV分析模块还用于基于所述BAF值及所述LRR均值确定LOH区间。

4.根据权利要求1至3中任一项所述的装置，其中，所述基于所述LRR均值确定CNV类型包括：

5.根据权利要求1所述的装置，其中，所述装置还包括：

6.根据权利要求1所述的装置，其中，所述装置还包括：

7.根据权利要求6所述的装置，其中，所述公式法应用如下公式：

对于二体-三体嵌合对应的公式包括：

BAF＝(1-f)B+fB/(1-f)A+(1-f)B+2fA+fB＝B/(A+B+fA)＝1/(2+f)或

BAF＝(1-f)B+2fB/(1-f)A+(1-f)B+fA+2fB＝(B+fB)/(A+B+fB)＝(1+f)/(2+f)；

对于单体-二体嵌合对应的公式包括：

BAF＝(1-f)B/(fA+(1-f)A+(1-f)B)＝(1-f)/(2-f)或

8.根据权利要求7所述的装置，其中，所述BAF值是基于对照样本下的BAF基线的偏移程度对整体位点的BAF值进行矫正后确定的。

9.根据权利要求6所述的装置，其中，所述线性拟合法包括如下步骤：

10.根据权利要求1所述的装置，其中，所述SNP芯片数据包含父亲、母亲、先证者全血或者组织的DNA生成的数据和胚胎单细胞DNA生成的数据的组合，所述装置还包括：

11.根据权利要求10所述的装置，其中，所述父源以及母源的单倍型图谱包括IFF位点以及IFM位点，其中，

，其中，

其中，

12.根据权利要求11所述的装置，其中，所述可视化BAF散点图中BAF值的计算公式如下：

或

13.一种基于芯片数据的CNV分析方法，其中，所述方法包括：

14.根据权利要求13所述的CNV分析方法，其中，所述方法还包括：

基于所述目标文本确定质控信息和/或基于所述目标文本筛选出不符合预设标准的GCsocre、SNP位点，以排除质量差的胚胎。

15.一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如权利要求13或14所述的方法。

16.一种基于芯片数据的CNV分析设备，其中，该设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如权利要13或14所述方法的操作。