CN117594122B

CN117594122B - 一体化检测甲基化、cnv、单亲二体、三倍体和roh的方法及装置

Info

Publication number: CN117594122B
Application number: CN202410077548.XA
Authority: CN
Inventors: 罗敏轩; 卢娜如; 张军; 董方方; 齐丽娜; 孔令印; 梁波
Original assignee: Suzhou Basecare Medical Device Co ltd
Current assignee: Suzhou Basecare Medical Device Co ltd
Priority date: 2024-01-19
Filing date: 2024-01-19
Publication date: 2024-04-09
Anticipated expiration: 2044-01-19
Also published as: CN117594122A

Abstract

本发明提供了一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法及装置，所述方法包括：（1）将样本进行全基因组甲基化测序，获取样本在基因组上CpG的甲基化信息和覆盖深度信息；从WGBS测序数据中获取未校正的SNP基因型信息，并构建校正模型对SNP基因型信息进行校正，获取校正后的SNP基因型信息；（2）构建单亲二体及三倍体分析参考数据库、CNV分析参考数据库和ROH分析参考数据库；进行甲基化水平分析、单亲二体及三倍体分析、CNV分析和ROH分析。本发明基于WGBS的数据，实现一体化检测出甲基化、CNV、单亲二体、三倍体和ROH区域，检测过程简单、成本低，对于遗传检测技术领域具有重要意义。

Description

一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法及装置

技术领域

本发明属于遗传检测技术领域，具体涉及一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法及装置。

背景技术

甲基化水平异常、拷贝数变异（CNV）、单亲二体（UPD）、三倍体和存在连续性纯合片段（runs of homozygosity，ROH）是导致许多常见遗传疾病、妊娠失败、癌症和其他复杂疾病的大型基因组畸变，同时识别这些畸变对于了解疾病至关重要。

拷贝数目变异也称拷贝数目多态，是一种大小介于1 kb至3 Mb的DNA片段的变异，在人类基因组中广泛分布，其覆盖的核苷酸总数大大超过单核苷酸多态性的总数，极大地丰富了基因组遗传变异的多样性。研究表明，孕妇群体中胎儿携带致病性拷贝数变异的比例可达1.6%~1.7%，远高于21、18、13-三体综合征0.2%的发生率。因此，对致病性CNVs的检测应作为产前诊断的重要内容之一。

正常人类细胞中包含两组染色体，一组来自父亲，一组来自母亲，三倍体是胎儿细胞中多了一组额外的染色体组，单亲二体是当一对的两条染色体都来自父亲或母亲一方时即为单亲二体，三倍体和单亲二体均是严重的染色体异常，是妊娠早期流产的重要原因之一。ROH是一种基因组区域中一定范围内连续呈现的杂合性丢失的现象，染色体存在ROH时提示可能存在UPD，UPD出现在特定的染色体上时，会由于遗传印记效应引起相关疾病。此外，ROH区域内发生孟德尔隐性遗传病的风险明显增加。

胚胎发育过程中的甲基化水平异常与妊娠失败具有一定的相关性，目前全基因组亚硫酸氢盐测序（WGBS）为甲基化检测的常规方法。该方法是在传统全基因组测序（WGS）的基础上使用亚硫酸氢盐将未甲基化的C转化为T，从而实现对基因组的甲基化水平进行检测。而WGS可以对拷贝数变异（CNV）、单亲二体（UPD）、三倍体和存在连续性纯合片段（runsof homozygosity，ROH）进行一体化地高效检测，但是无法对甲基化水平进行检测。

综上所述，现有技术中无有效方法进行低成本、高效地一体化检测，因此，开发一种对甲基化水平检测的同时对CNV、单亲二体、三倍体和ROH进行一体化有效检测的方法，对于遗传检查领域具有重要意义。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法及装置。本发明基于全基因组重亚硫酸盐甲基化测序的WGBS的数据，在检测甲基化水平的同时也能够对CNV、单亲二体、三倍体和ROH进行同步检测，实现一体化检测出甲基化、CNV、单亲二体、三倍体和ROH区域，检测过程简单、成本低，对于遗传检测技术领域具有重要意义。

为达到此发明目的，本发明采用以下技术方案：

第一方面，本发明提供一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法，所述方法包括：

（1）将样本进行全基因组甲基化测序，获取样本在基因组上CpG的甲基化信息和覆盖深度信息；从WGBS测序数据中获取未校正的SNP（单核苷酸多态性）基因型信息，并构建校正模型对SNP基因型信息进行校正，获取校正后的SNP基因型信息；

（2）构建单亲二体及三倍体分析参考数据库、CNV分析参考数据库和ROH分析参考数据库；进行甲基化水平分析、单亲二体及三倍体分析、CNV分析和ROH分析。

本发明创造性地设计遗传检测分析流程，提出了一体化检测甲基化水平、CNV、单亲二体、三倍体和ROH的方法，流程图如图1所示，所述方法能够基于全基因组重亚硫酸盐甲基化测序数据，一体化检测出甲基化水平、CNV、单亲二体、三倍体和ROH区域，简化了检测流程，提高了检测效率且降低了检测成本。

本发明中，以获取的WGBS测序数据进行甲基化水平分析，以校正后的SNP基因型信息进行CNV、单亲二体、三倍体和ROH区域分析。所述校正后的SNP基因型信息的获取如图2所示。

优选地，步骤（1）中，所述SNP基因型信息包括SNP位点的基因型和B等位基因频率（BAF）。

优选地，步骤（1）中，所述获取样本在基因组上覆盖深度信息包括：将基因组分成每1 kb~100 kb一个的窗口，统计每个窗口的覆盖深度信息。

本发明中，所述覆盖深度信息包括样本基因组中窗口的覆盖深度，所述窗口的长度为1 kb~100 kb，包括但不限于2 kb、3 kb、4 kb、5 kb、6 kb、7 kb、8 kb、9 kb、10 kb、20kb、30 kb、40 kb、50 kb、60 kb、70 kb、80 kb、90 kb、91 kb、92 kb、93 kb、94 kb、95 kb、96kb、97 kb、98 kb或99 kb等。

优选地，步骤（1）中，所述校正模型包括常规校正模型和特殊校正模型。

优选地，所述常规校正模型的构建方法包括：通过隐马尔可夫模型（HiddenMarkov Model，HMM），对不位于筛选后的人群常见SNP数据库的SNP基因型信息进行常规校正模型训练，从而获得常规校正模型。

优选地，所述特殊校正模型的构建方法包括：对位于筛选后的人群常见SNP数据库的SNP基因型信息进行以SNP数据库为参考的特殊校正模型训练，从而获取特殊校正模型。

优选地，所述对未校正的SNP基因型信息进行校正的步骤包括：对待测样本的读段比对后生成的bam文件进行校正：针对bam文件中不位于筛选后的人群常见SNP数据库的读段，运用构建好的常规校正模型进行校正，从而消除因重亚硫酸盐而错误引入的SNP；针对位于筛选后的人群常见SNP数据库中的读段，运用构建好的特殊校正模型进行校正，从而校正受到重亚硫酸盐影响的SNP的突变频率。

优选地，所述SNP矫正模型的包括以下步骤：

（1’）获取人群常见SNP数据库信息，并剔除其中无法矫正的SNP突变位点，包括C突变为T的位置、T突变为C的位置、G突变为A的位置、A突变为G的位置。

（2’）对读段比对后生成的bam文件进行矫正，针对bam文件中‘XG’信息为‘CT’的读段（表明该读段的甲基化转化类型是C转化为T）进行T->C矫正，针对bam文件中‘XG’信息为‘GA’的读段（表明该读段的甲基化转化类型是G转化为A）进行G->A矫正。针对位于筛选后的人群常见SNP数据库信息中位置的读段进行特殊模型矫正，具体方法是，针对bam文件中‘XG’信息为‘CT’的且SNP数据库信息中ref或alt为C的读段的相关位置进行T->C矫正，针对bam文件中‘XG’信息为‘GA’的且SNP数据库信息中ref或alt为G的读段的相关位置进行A->G矫正。

（3’）使用矫正后的bam文件进行SNP检测，获取矫正后的SNP基因型信息。

优选地，步骤（2）中，所述甲基化水平分析包括：

统计样本中单个CpG位点上覆盖到的测序结果为C的读段数量和测序结果为T的读段的数量，并按式（1）计算样本的甲基化水平mC_level；

式（1）；

其中，C_i为单个CpG位点上覆盖到的测序结果为C的读段数量，T_i为单个CpG位点上覆盖到的测序结果为T的读段数量。

优选地，所述甲基化水平异常的判断标准为：正常胚胎样本的甲基化水平阈值范围17%-37%，正常细胞系、羊水或流产组织样本的甲基化水平阈值范围为50%-70%。

优选地，步骤（2）中，所述单亲二体及三倍体分析包括：

统计样本染色体的B等位基因频率偏移量和杂合SNP比例，并按式（2）计算染色体的Z值，其中，R1_chr为样本染色体的R值，为单亲二体及三倍体分析参考数据库中相应染色体R值的平均值，σ_chr为单亲二体及三倍体分析参考数据库中染色体R值的标准差；

式（2）。

优选地，步骤（2）中，所述单亲二体及三倍体分析参考数据库的构建方法包括以下步骤：

（I）选取样本的SNP基因型信息；

（II）统计样本染色体的杂合SNP的B等位基因频率与二倍体杂合SNP的B等位基因频率理论值的距离，取平均值作为该条染色体的B等位基因频率偏移量offset_chr；

（III）统计杂合SNP比例frac_chr；

（IV）整合染色体的B等位基因频率偏移量和杂合SNP比例，按式（5）计算R值；

式（5）。

优选地，本发明基于校正后的SNP基因型信息，所述单亲二体及三倍体分析参考数据库按性别分为男性、女性两类，所述单亲二体及三倍体分析参考数据库的构建方法包括以下步骤：

（I’）样本选择：选取多个二倍体样本的SNP基因型信息；

（II’）BAF偏移量统计：理论上，若样本只存在一套遗传物质，则其所有SNP均为纯合状态，BAF为0或1；若样本存在两套遗传物质，则SNP存在杂合、纯合两种状态，杂合SNP的BAF为0.5，纯合SNP的BAF为0或1；若样本存在三套遗传物质，则SNP存在杂合、纯合两种状态，杂合SNP的BAF为0.33或0.66，纯合SNP的BAF为0或1；

每个样本分别统计其每条染色体的杂合SNP的BAF与二倍体杂合SNP的BAF理论值（0.5）的距离，取平均值作为该条染色体的BAF偏移量offset_chr，如式（6）所示；

式（6）；

（III’）杂合SNP比例统计：理论上，若样本只存在一套遗传物质，则其所有SNP均为纯合状态，杂合SNP比例为0；若样本存在二套遗传物质，在不考虑自然界遗传因素的情况下，其杂合SNP比例为1/3；若样本存在三套遗传物质，在不考虑自然界遗传因素的情况下，其杂合SNP比例为1/2；每个样本分别统计其每条染色体上杂合SNP占该条染色体总SNP的比例frac_chr，如式（7）所示，其中N_het为杂合SNP的数目，N_hom为纯合SNP的数目；

式（7）；

（IV’）参数整合：整合每条染色体的BAF偏移量和杂合SNP比例，按式（4）计算R值。

优选地，步骤（2）中，所述单亲二体及三倍体分析包括以下步骤：

（i）统计样本染色体的B等位基因频率偏移量和杂合SNP比例，并进行参数整合；

（ii）并按式（2）计算样本染色体的Z值，Z≥3，则该条染色体为三体；Z≤-3，则该条染色体为单体；计算样本所有染色体的Z值的中位数Z_genome，Z_genome≥3，则该样本为三倍体；Z_genome≤-3，则该样本为单亲二体。

优选地，所述单亲二体及三倍体分析包括以下步骤：

（i’）按照上述构建单亲二体及三倍体分析参考数据库的方法统计样本每条染色体的BAF偏移量与杂合SNP比例，并进行参数整合；

（ii’）Z-Score标准化：结合样本与相应性别单亲二体及三倍体分析参考数据库中所有样本，对每条染色体的R值分别进行Z-Score标准化，按式（2）计算出每条染色体的Z值，衡量该条染色体是否异常；

（iii’）异常报告：Z≥3，则该条染色体为三体；Z≤-3，则该条染色体为单体；计算样本所有染色体的Z值的中位数Z_genome，Z_genome≥3，则该样本为三倍体；Z_genome≤-3，则该样本为单亲二体。

优选地，步骤（2）中，所述CNV分析包括：

计算样本与CNV分析参考数据库比对结果Log₂RR的平均值，并利用所述平均值/>按式（3）计算拷贝数CN；

式（3）。

优选地，步骤（2）中，所述CNV分析参考数据库的构建方法包括以下步骤：

（A）选取样本的覆盖深度信息；

（B）采用定基比率法对窗口进行标准化；

（C）过滤掉覆盖深度一直为0或SD大于SD阈值的窗口；

（D）采用LOESS算法，对样本进行GC校正；

（E）将样本按照对应窗口合并，取平均值；

（F）按照步长3~5、滑动1~3的策略将窗口合并。

优选地，本发明基于测序数据的覆盖深度信息，所述CNV分析参考数据库按性别分为男性、女性两类，所述CNV分析参考数据库的构建方法包括以下步骤：

（A’）样本选择：选取多个二倍体样本的覆盖深度信息；

（B’）标准化：为了消除测序数据量的差别，以每个样本的窗口覆盖深度的中位数为基数，采用定基比率法对每个窗口进行标准化；

（C’）确定过滤阈值：计算每个窗口在多个样本中的SD，确定整体窗口的SD阈值；

（D’）窗口过滤：整合所有样本，过滤掉覆盖深度一直为0或在多个样本中SD大于SD阈值的窗口；

（E’）GC校正：整个基因组中，不同区域GC含量不同，而不同的GC含量可能会影响实验过程中片段的扩增效率，为了消除GC含量带来的误差，采用LOESS（局部加权回归）算法，对每个样本分别进行GC校正；

（F’）样本合并：将所有样本按照对应窗口合并，取平均值；

（G’）窗口合并：选择合适的分析策略，按照步长3~5、滑动1~3的策略（例如步长4、滑动1等）将小窗口合并为大窗口，大窗口值等于其包含的小窗口之和。

优选地，步骤（2）中，所述CNV分析包括以下步骤：

（a）采用定基比率法对窗口进行标准化；

（b）过滤掉覆盖深度为0或SD大于SD阈值的窗口；

（c）采用LOESS算法，对样本进行GC校正；

（d）按照步长3~5、滑动1~3的策略（例如步长4、滑动1等）将窗口合并；

（e）按式（8）计算样本与CNV分析参考数据库比对结果Log₂RR；

式（8）；

其中，R1为CNV分析参考数据库窗口值，R2为样本窗口值；

（f）查找染色体的CNV断点；

（g）针对所述CNV断点，采用游程检验算法合并染色体的片段；

（h）计算样本与CNV分析参考数据库比对结果Log₂RR的平均值，并利用所述平均值/>按式（3）计算拷贝数CN。

优选地，步骤（2）中，所述CNV分析包括以下步骤：

（a’）标准化：为了消除测序数据量的差别，以每个样本的窗口覆盖深度的中位数为基数，采用定基比率法对每个窗口进行标准化；

（b’）窗口过滤：过滤掉CNV分析参考数据库中过滤的窗口（覆盖深度一直为0的窗口或SD大于SD阈值的窗口）；

（c’）GC校正：采用LOESS（局部加权回归）算法，对每个样本分别进行GC校正；

（d’）窗口合并：选择合适的分析策略，按照步长3~5、滑动1~3的策略（例如步长4、滑动1等）将小窗口合并为大窗口，大窗口值等于其包含的小窗口之和；

（e’）与CNV分析参考数据库比对：设相应性别的CNV分析参考数据库中某个窗口的值为R1，处理样本该窗口的值为R2，按式（8）计算与CNV分析参考数据库的比对结果Log₂RR；

（f’）断点识别：采用环状二元分割算法（circular binary segmentation，CBS）或隐马尔可夫模型（Hidden Markov Model，HMM）等算法查找每条染色体的CNV断点，将染色体划分为多个片段；

（g’）小片段合并：针对CBS或HMM等算法查找的CNV断点，对相同染色体的相邻片段采用游程检验算法进行合并，若检验的p-value>1e-5，说明相邻区域无显著差异，则将两个区域进行合并，再与下一个片段进行检验，依次类推，最终每个区域的Log₂RR值为该区域包含的大窗口的Log₂RR值的平均值；

（h’）拷贝数计算：正常人类细胞为二倍体，则每条染色体有两个拷贝，按式（3）计算样本区域的拷贝数CN；

（i’）异常区域报告：报告该样本中CN大于重复阈值线的区域与CN小于缺失阈值线的区域。

优选地，步骤（2）中，所述ROH分析包括：

按式（4）计算样本与ROH分析参考数据库的比对结果Log₁₀FF，进行断点识别和片段合并；

式（4）；

其中，F1为ROH分析参考数据库窗口值，F2为样本窗口值。

优选地，步骤（2）中，所述ROH分析参考数据库的构建方法包括以下步骤：

（①）选取样本的SNP基因型信息；

（②）将基因组划分为大小为400~800 kb的等分窗口（例如可以是410 kb、420 kb、450 kb、460 kb、500 kb、600 kb、650 kb、700 kb、750 kb、780 kb或790 kb），统计窗口的杂合SNP比例；

（③）采用定基比率法对窗口进行标准化；

（④）将样本按照对应窗口合并，取平均值。

优选地，本发明基于校正的SNP基因型信息，所述ROH分析参考数据库按性别分为男性、女性两类，所述ROH分析参考数据库的构建方法包括以下步骤：

（①’）样本选择：选取多个二倍体样本的SNP基因型信息；

（②’）杂合SNP比例统计：将基因组划分为600 kb窗口，按式（7）统计每个窗口的杂合SNP比例；

（③’）窗口标准化：以每个样本的窗口覆盖深度的中位数为基数，采用定基比率法对每个窗口进行标准化；

（④’）样本合并：将所有样本按照对应窗口合并，取平均值。

优选地，步骤（2）中，所述ROH分析包括以下步骤：

（1’）按照ROH分析参考数据库的构建方法统计窗口的杂合SNP比例；

（2’）按式（4）计算样本与ROH分析参考数据库的比对结果Log₁₀FF；

（3’）查找染色体的CNV断点；

（4’）针对所述CNV断点，采用游程检验算法合并染色体的片段，报告样本中Log₁₀FF小于阈值线的区域。

优选地，步骤（2）中，所述ROH分析包括以下步骤：

（1’’）按照ROH分析参考数据库的构建方法统计每个窗口的杂合SNP比例；

（2’’）与ROH分析参考数据库比对：设相应性别的ROH分析参考数据库中某个窗口的值为F1，样本该窗口的值为F2，按式（4）计算与ROH分析参考数据库的比对结果Log₁₀FF；

（3’’）断点识别：采用环状二元分割算法（circular binary segmentation，CBS）或隐马尔可夫模型（Hidden Markov Model，HMM）等算法查找每条染色体的CNV断点，将染色体划分为多个片段；

（4’’）小片段合并：针对CBS或HMM等算法查找的CNV断点，对相同染色体的相邻片段采用游程检验算法进行合并，若检验的p-value>1e-5，说明相邻区域无显著差异，则将两个区域进行合并，再与下一个片段进行检验，依次类推，最终每个区域的Log₁₀FF值为该区域包含的大窗口的Log₁₀FF值的平均值；

（5’’）异常区域报告：报告该样本中Log₁₀FF小于阈值线的区域。

本发明可对任意核酸样本进行分析检测，可应用于人体核酸样本分析检测，也可用于非疾病诊断和/或治疗为目的的体外基因组相关科学研究，如三倍体发生机制的研究、女性年龄与流产组织拷贝数变异的相关性研究等。

第二方面，本发明提供一体化检测甲基化、CNV、单亲二体、三倍体和ROH的装置，所述装置包括：

（1）信息采集模块：将样本进行全基因组甲基化测序，获取样本在基因组上CpG的甲基化信息和覆盖深度信息；从WGBS测序数据中获取未校正的SNP基因型信息，并构建校正模型对SNP基因型信息进行校正；

（2）构建参考数据库和分析模块：构建单亲二体及三倍体分析参考数据库、CNV分析参考数据库和ROH分析参考数据库；进行甲基化水平分析、单亲二体及三倍体分析、CNV分析和ROH分析。

优选地，所述信息采集模块中，所述SNP基因型信息包括SNP位点的基因型和B等位基因频率。

优选地，所述信息采集模块中，所述获取样本在基因组上覆盖深度信息包括：将基因组分成每1 kb~100 kb一个的窗口，统计每个窗口的覆盖深度信息。

优选地，所述信息采集模块中，所述校正模型包括常规校正模型和特殊校正模型。

优选地，所述常规校正模型的构建方法包括：通过隐马尔可夫模型，对不位于筛选后的人群常见SNP数据库的SNP基因型信息进行常规校正模型训练，从而获得常规校正模型。

优选地，所述构建参考数据库和分析模块中，所述甲基化水平分析包括：

式（1）；

优选地，所述构建参考数据库和分析模块中，所述单亲二体及三倍体分析包括：

式（2）。

优选地，所述构建参考数据库和分析模块中，所述CNV分析包括：

式（3）。

优选地，所述构建参考数据库和分析模块中，所述ROH分析包括：

式（4）；

其中，F1为ROH分析参考数据库窗口值，F2为样本窗口值。

第三方面，本发明提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序执行第一方面所述的一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法中的步骤。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序执行第一方面所述的一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法中的步骤。

本发明所述一体化检测甲基化水平、CNV、单亲二体、三倍体和ROH检测装置、计算机设备和计算机可读存储介质，通过利用全基因组比对结果对染色体进行检测分析，获取基因组的甲基化水平的同时，利用校正SNP算法消除重亚硫酸盐甲基化测序对于SNP检测的影响，从而达到同时检测CNV、单亲二体、三倍体和ROH的目的，不再使用额外实验手段。可以提高染色体的检测效率、降低检测成本，基于机器学习模型和相应分析算法，可以提高检测的覆盖率和准确性。

本发明所述的数值范围不仅包括上述列举的点值，还包括没有列举出的上述数值范围之间的任意的点值，限于篇幅及出于简明的考虑，本发明不再穷尽列举所述范围包括的具体点值。

相对于现有技术，本发明具有以下有益效果：

（1）本发明的一体化检测甲基化水平、CNV、单亲二体、三倍体和ROH的方法，能够基于全基因组重亚硫酸盐甲基化测序数据，在检测基因组的甲基化水平的同时，利用校正SNP算法消除重亚硫酸盐甲基化测序对于SNP检测的影响，从而达到同时检测CNV、单亲二体、三倍体和ROH区域的目的，简化了检测流程，提高了检测效率且降低了检测成本。

（2）本发明所述一体化检测甲基化水平、CNV、单亲二体、三倍体和ROH检测装置、计算机设备和计算机可读存储介质，通过利用全基因组比对结果对染色体进行检测分析，不使用额外实验手段。可以提高染色体的检测效率、降低检测成本，基于机器学习模型和相应分析算法，可以提高检测的覆盖率和准确性。

附图说明

图1为本发明一体化检测甲基化水平、CNV、单亲二体、三倍体和ROH的方法的分析流程图。

图2为SNP校正逻辑图。

图3为小CNV样本检测结果图。

图4为单亲二体样本检测结果图。

图5为三倍体样本检测结果图。

图6为区域性ROH样本检测结果图。

具体实施方式

下面通过具体实施方式来进一步说明本发明的技术方案。本领域技术人员应该明了，所述实施例仅仅是帮助理解本发明，不应视为对本发明的具体限制。

实施例中未注明具体技术或条件者，按照本领域内的文献所描述的技术或条件，或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可通过正规渠道商购获得的常规产品。

实施例1

本实施例利用本发明一体化检测甲基化水平、CNV、单亲二体、三倍体和ROH的方法对小CNV样本（细胞系样本）进行检测，包括以下步骤：

1、构建全基因组重亚硫酸盐甲基化测序文库；

2、上机测序，获得处理样本1的全基因组重亚硫酸盐甲基化测序数据；

3、获得分析参数：样本基因组上CpG的甲基化信息、覆盖深度信息及矫正后的SNP基因型信息；

4、基于CpG的甲基化信息统计样本整体甲基化水平；

5、基于测序深度信息按照CNV分析流程获得100 kb以上小CNV；

6、基于矫正后的SNP基因型信息按照单亲二体/三倍体分析流程检测单亲二体与多倍体；

7、基于矫正后的SNP基因型信息按照ROH分析流程检测5 M以上ROH。

甲基化水平检测结果为78.4%，不处于50%-70%阈值之间，甲基化水平异常。

如图3所示，CNV检测结果为：

dup(1)(p36.33).seq[GRCh37/hg19](450001-630000)×3

dup(1)(q21.1).seq[GRCh37/hg19](145290001-145390000)×3

dup(15)(q11.2).seq[GRCh37/hg19](25400001-25500000)×3

del(17)(p11.2).seq[GRCh37/hg19](18930001-19150000)×1。

如图3（CNV检测/Copy Number）所示，在1号染色体、15号染色体、17号染色体检出了大于100 kb的CNV；如图3（倍性检测/Z-score）所示，所有染色体的Z-score中位数为1.5505，在（-3，3）之间，则其单亲二体/三倍体检测结果为：二倍体；如图3（ROH检测/LogRR）所示，所有染色体的LogRR值均在0附近，表明处理样本1的F值与ROH分析参考数据库中F值相差较小，未检测出ROH区域。

实施例2

本实施例利用本发明一体化检测甲基化水平、CNV、单亲二体、三倍体和ROH的方法对单亲二体样本（细胞系样本）进行检测，包括以下步骤：

1、构建基因组测序文库；

2、上机测序，获得处理样本2的全基因组重亚硫酸盐甲基化测序数据；

3、获得分析参数：样本基因组上CpG的甲基化信息、覆盖深度信息及校正后的SNP基因型信息；

4、基于CpG的甲基化信息统计样本整体甲基化水平；

5、基于测序深度信息按照CNV分析流程获得100 kb以上小CNV；

6、基于校正后的SNP基因型信息按照单亲二体/三倍体分析流程检测单亲二体与多倍体；

7、基于校正后的SNP基因型信息按照ROH分析流程检测5 M以上ROH。

甲基化水平检测结果为59.7%，处于50%-70%阈值之间，甲基化水平正常。

检测结果如图4所示，CNV检测结果：未检测到100 kb以上CNV；倍性检测结果：单亲二体。从图4可以看出，处理样本2所有染色体Z-score<-3，表明其为单倍体样本；ROH检测结果：整个基因组均为ROH状态。从图4可以看出，处理样本2所有染色体LogRR<-1，表明其为ROH区域，出现这种情况的原因是该样本为单亲二体，整个基因组只有一套遗传物质，所以都表现为纯合状态，与倍性检测结果一致。

实施例3

本实施例利用本发明一体化检测甲基化水平、CNV、单亲二体、三倍体和ROH的方法对三倍体样本（细胞系样本）进行检测，包括以下步骤：

1、构建基因组测序文库；

2、上机测序，获得处理样本3的全基因组重亚硫酸盐甲基化测序数据；

4、基于CpG的甲基化信息统计样本整体甲基化水平；

5、基于测序深度信息按照CNV分析流程获得100 kb以上小CNV；

甲基化水平检测结果为62.6%，处于50%-70%阈值之间，甲基化水平正常。

检测结果如图5所示，CNV检测结果：+(mosaic) (X)；-(mosaic) (Y)；倍性检测结果：三倍体；处理样本3所有染色体Z-score>3，其中位数为5.368，表明该样本为三倍体；ROH检测结果：所有染色体的LogRR值均在0附近，未检测出ROH区域。

综合三个检测结果，可以得到该样本核型为69，XXY，即其他染色体都存在3条，chrX存在2条，chrY存在一条。所以在与正常样本的CNV分析参考数据库对比的时候，出现了CNV检测结果中chrX嵌合重复，chrY嵌合缺失的情况。CNV检测结果与倍性检测结果是一致的，相互验证的。

实施例4

本实施例利用本发明一体化检测甲基化水平、CNV、单亲二体、三倍体和ROH的方法对区域性ROH样本（细胞系样本）进行检测，包括以下步骤：

1、构建基因组测序文库；

2、上机测序，获得处理样本4的全基因组重亚硫酸盐甲基化测序数据；

4、基于CpG的甲基化信息统计样本整体甲基化水平；

5、基于测序深度信息按照CNV分析流程获得100 kb以上小CNV；

甲基化水平检测结果为53.9%，处于50%-70%阈值之间，甲基化水平正常。

检测结果如图6所示，CNV检测结果：

del(5)(q13.2).seq[GRCh37/hg19](69210001-70660000)×1

dup(8)(q11.23).seq[GRCh37/hg19](53350001-53530000)×3

dup(11)(p11.12-q11).seq[GRCh37/hg19](50580001-54900000)×3

del(17)(q21.31).seq[GRCh37/hg19](44360001-44790000)×1

倍性检测结果：二倍体，处理样本4所有染色体的中位数为-0.717，在（-3，3）区间内，表明该样本为二倍体。

ROH检测结果：

AOH(22)(q12.3-q13.32).seq[GRCh37/hg19](36000001-48600000)[12.60M]，从图6可以看出，处理样本4的22号染色体上存在一个区域LogRR<-1，表明其为ROH区域。

综合三个检测结果，我们可以得出该样本22号染色体存在较大的ROH区域，则会导致Z-score下降，结果与样本对应的信息一致，可以相互验证。

综上所述，本发明的一体化检测甲基化水平、CNV、单亲二体、三倍体和ROH的方法，能够基于全基因组重亚硫酸盐甲基化测序数据，一体化检测出甲基化水平、CNV、单亲二体、三倍体和ROH区域，简化了检测流程，提高了检测效率且降低了检测成本。

申请人声明，以上所述仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，所属技术领域的技术人员应该明了，任何属于本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，均落在本发明的保护范围和公开范围之内。

Claims

1.一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法，其特征在于，所述方法包括：

（1）将样本进行全基因组甲基化测序，获取样本在基因组上CpG的甲基化信息和覆盖深度信息；从WGBS测序数据中获取未校正的SNP基因型信息，并构建校正模型对SNP基因型信息进行校正，获取校正后的SNP基因型信息；

（2）构建单亲二体及三倍体分析参考数据库、CNV分析参考数据库和ROH分析参考数据库；进行甲基化水平分析、单亲二体及三倍体分析、CNV分析和ROH分析；

步骤（1）中，所述SNP基因型信息包括SNP位点的基因型和B等位基因频率；

步骤（1）中，所述获取样本在基因组上覆盖深度信息包括：将基因组分成每1 kb~100kb一个的窗口，统计每个窗口的覆盖深度信息；

步骤（1）中，所述校正模型包括常规校正模型和特殊校正模型；

所述常规校正模型的构建方法包括：通过隐马尔可夫模型，对不位于筛选后的人群常见SNP数据库的SNP基因型信息进行常规校正模型训练，从而获得常规校正模型；

所述特殊校正模型的构建方法包括：对位于筛选后的人群常见SNP数据库的SNP基因型信息进行以SNP数据库为参考的特殊校正模型训练，从而获取特殊校正模型；

所述对未校正的SNP基因型信息进行校正的步骤包括：对待测样本的读段比对后生成的bam文件进行校正：针对bam文件中不位于筛选后的人群常见SNP数据库的读段，运用构建好的常规校正模型进行校正，从而消除因重亚硫酸盐而错误引入的SNP；针对位于筛选后的人群常见SNP数据库中的读段，运用构建好的特殊校正模型进行校正，从而校正受到重亚硫酸盐影响的SNP的突变频率；

步骤（2）中，所述甲基化水平分析包括：

统计样本中单个CpG位点上覆盖到的测序结果为C的读段数量和测序结果为T的读段的数量，并按式（1）计算样本的甲基化水平mC_level；

式（1）；

其中，C _i为单个CpG位点上覆盖到的测序结果为C的读段数量，T _i为单个CpG位点上覆盖到的测序结果为T的读段数量；

所述甲基化水平异常的判断标准为：正常胚胎样本的甲基化水平阈值范围17%-37%，正常细胞系、羊水或流产组织样本的甲基化水平阈值范围为50%-70%。

2.根据权利要求1所述的一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法，其特征在于，步骤（2）中，所述单亲二体及三倍体分析包括：

统计样本染色体的B等位基因频率偏移量和杂合SNP比例，并按式（2）计算染色体的Z值，其中，R1 _chr为样本染色体的R值，为单亲二体及三倍体分析参考数据库中相应染色体R值的平均值，σ _chr为单亲二体及三倍体分析参考数据库中染色体R值的标准差；

式（2）；

步骤（2）中，所述单亲二体及三倍体分析参考数据库的构建方法包括以下步骤：

（I）选取样本的SNP基因型信息；

（II）统计样本染色体的杂合SNP的B等位基因频率与二倍体杂合SNP的B等位基因频率理论值的距离，取平均值作为样本染色体的B等位基因频率偏移量offset _chr；

（III）统计杂合SNP比例frac _chr；

式（5）；

步骤（2）中，所述单亲二体及三倍体分析包括以下步骤：

（ii）并按式（2）计算样本染色体的Z值，Z≥3，则样本染色体为三体；Z≤-3，则样本染色体为单体；计算样本所有染色体的Z值的中位数Z_genome，Z_genome≥3，则该样本为三倍体；Z_genome≤-3，则该样本为单亲二体。

3.根据权利要求2所述的一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法，其特征在于，步骤（2）中，所述CNV分析包括：

计算样本与CNV分析参考数据库比对结果Log ₂ RR的平均值，并利用所述平均值按式（3）计算拷贝数CN；

式（3）；

步骤（2）中，所述CNV分析参考数据库的构建方法包括以下步骤：

（A）选取样本的覆盖深度信息；

（B）采用定基比率法对窗口进行标准化；

（C）过滤掉覆盖深度一直为0或SD大于SD阈值的窗口；

（D）采用LOESS算法，对样本进行GC校正；

（E）将样本按照对应窗口合并，取平均值；

（F）按照步长3~5、滑动1~3的策略将窗口合并；

步骤（2）中，所述CNV分析包括以下步骤：

（a）采用定基比率法对窗口进行标准化；

（b）过滤掉覆盖深度为0或SD大于SD阈值的窗口；

（c）采用LOESS算法，对样本进行GC校正；

（d）按照步长3~5、滑动1~3的策略将窗口合并；

（e）按式（8）计算样本与CNV分析参考数据库比对结果Log ₂ RR；

式（8）；

其中，R1为CNV分析参考数据库窗口值，R2为样本窗口值；

（f）查找染色体的CNV断点；

（h）计算样本与CNV分析参考数据库比对结果Log ₂ RR的平均值，并利用所述平均值/>按式（3）计算拷贝数CN。

4.根据权利要求3所述的一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法，其特征在于，步骤（2）中，所述ROH分析包括：

按式（4）计算样本与ROH分析参考数据库的比对结果Log ₁₀ FF，进行断点识别和片段合并；

式（4）；

其中，F1为ROH分析参考数据库窗口值，F2为样本窗口值；

步骤（2）中，所述ROH分析参考数据库的构建方法包括以下步骤：

（①）选取样本的SNP基因型信息；

（②）将基因组划分为大小为400~800 kb的等分窗口，统计窗口的杂合SNP比例；

（③）采用定基比率法对窗口进行标准化；

（④）将样本按照对应窗口合并，取平均值；

步骤（2）中，所述ROH分析包括以下步骤：

（2’）按式（4）计算样本与ROH分析参考数据库的比对结果Log ₁₀ FF；

（3’）查找染色体的CNV断点；

（4’）针对所述CNV断点，采用游程检验算法合并染色体的片段，报告样本中Log ₁₀ FF小于阈值线的区域。

5.一体化检测甲基化、CNV、单亲二体、三倍体和ROH的装置，其特征在于，所述装置包括：

（1）信息采集模块：将样本进行全基因组甲基化测序，获取样本在基因组上CpG的甲基化信息和覆盖深度信息；从WGBS测序数据中获取未校正的SNP基因型信息，并构建校正模型对SNP基因型信息进行校正，获取校正后的SNP基因型信息；

（2）构建参考数据库和分析模块：构建单亲二体及三倍体分析参考数据库、CNV分析参考数据库和ROH分析参考数据库；进行甲基化水平分析、单亲二体及三倍体分析、CNV分析和ROH分析；

所述信息采集模块中，所述SNP基因型信息包括SNP位点的基因型和B等位基因频率；

所述信息采集模块中，所述获取样本在基因组上覆盖深度信息包括：将基因组分成每1kb~100 kb一个的窗口，统计每个窗口的覆盖深度信息；

所述信息采集模块中，所述校正模型包括常规校正模型和特殊校正模型；

所述构建参考数据库和分析模块中，所述甲基化水平分析包括：

式（1）；

6.根据权利要求5所述的一体化检测甲基化、CNV、单亲二体、三倍体和ROH的装置，其特征在于，所述构建参考数据库和分析模块中，所述单亲二体及三倍体分析包括：

式（2）；

所述构建参考数据库和分析模块中，所述CNV分析包括：

式（3）；

所述构建参考数据库和分析模块中，所述ROH分析包括：

式（4）；

其中，F1为ROH分析参考数据库窗口值，F2为样本窗口值。

7.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述计算机程序执行权利要求1-4中任一项所述的一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法中的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序执行权利要求1-4中任一项所述的一体化检测甲基化、CNV、单亲二体、三倍体和ROH的方法中的步骤。