CN113012759A

CN113012759A - 一种基于X染色体的男胎cffDNA含量计算方法

Info

Publication number: CN113012759A
Application number: CN202011431098.8A
Authority: CN
Inventors: 袁梦兮; 马丑贤; 李�根; 黄文静; 蒋艳凰; 王振国; 杨仁武
Original assignee: Genetalks Bio Tech Changsha Co ltd
Current assignee: Genetalks Bio Tech Changsha Co ltd
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-06-22
Anticipated expiration: 2040-12-09
Also published as: CN113012759B

Abstract

本发明公开了一种基于X染色体的男胎cffDNA含量计算方法，其步骤包括：步骤S1：获得原始测序基因序列；步骤S2：对测序基因序列计数；步骤S3：对测序基因序列数目进行标准化；步骤S4：胎儿性别鉴定；步骤S5：女胎X染色体窗口内拷贝基线计算；步骤S6：男胎X染色体预测因子计算及异常点检测；步骤S7：获得男胎cffDNA含量。本发明具有原理简单、操作简便、准确率高、检测效率高等优点。

Description

一种基于X染色体的男胎cffDNA含量计算方法

技术领域

本发明主要涉及到基因测序及生物信息分析技术领域，特指一种基于X染色体的男胎cffDNA含量计算方法。

背景技术

孕妇血浆中游离胚胎DNA分子的发现将产前检测带入了无创时代，循环的游离胚胎DNA(简称cffDNA)逐步被认为是以无创方式检测胎儿异常的重要载体。基于高通量测序的无创产前检测(NIPT)的各种方法被开发出来，现如今已迅速转化为医疗实践。在这些方案中，cffDNA是控制检测结果性能和对检测结果进行恰当临床解读时的至关重要的参数。

现有的基于生物信息方法估计和预测cffDNA含量的方法主要有以下几种：

(1)基于Y染色体的计算方法：这是最早的估测胚胎DNA含量的方法，在早期，位于Y染色体上的父系遗传的基因标记如SRY基因、DYS14基因和ZFY基因，通过PCR芯片来验证cffDNA的存在，进而可以利用Y染色体与某个常染色体的序列含量的比值来估计cffDNA含量；在基于大规模并行测序的无创产前检测时代，来自整个Y染色体的基因测序序列的比例可以换算为胚胎DNA含量，该方法直观准确，适用于检测男胎cffDNA含量。

(2)基于孕妇血浆测序数据和父亲基因分型相结合的方法：简单来讲，在生物学父亲和生物学母亲都是纯和且基因分型不同的单核苷酸多态性(SNP)位点上，胎儿在该位点的基因分型将表现为杂合，继而可以通过遗传自父亲的等位基因对cffDNA含量进行定量。虽然该方法能直接准确评估cffDNA含量，但在实际医学实践中，生物学父亲的基因分型结果通常是无法简单直接获取的，因此该方法在实际应用时受到限制。

(3)为克服上述方法(2)在实际应用中的缺陷，有从业者提出了基于靶向高深度测序的cffDNA含量计算方法，该方法是通过对孕妇外周血DNA进行超高深度靶向测序，采用混合二项分布模型对孕妇和胎儿的四种隐含的基因型组合{AAaa,AAab,ABaa,ABab}对应的等位基因数量进行建模，在模型中采用极大似然估计对cffDNA含量进行计算。该方法产生的结果与上述方法(2)十分接近，该方法的缺点在于：需要对样本进行超高深度测序，测序深度通常需要达到120x以上才能检测出胎儿的等位基因，且靶向测序只能覆盖基因组的一部分，无法实现对胎儿全基因组水平的染色体异常检测，因此在实际应用中也受到限制。

(4)孕妇外周血低深度测序与孕妇基因分型相结合的方法，该方法基于的原理是孕妇自身纯和位点观测到的其他等位基因理论上都是胎儿特有的，这样首先采用基因芯片对孕妇白细胞进行基因分型，然后从孕妇外周血测序数据中鉴定出与母亲纯和位点不同即理论上来自父亲的等位基因；如果假定测序和其他技术原因引入的错误偏差在不同样本中保持恒定的话，则cffDNA含量将与这些胎儿杂合位点的比例线性相关，因此可通过对已知cffDNA的样本进行上述分析来构建线性回归模型，用来估计和预测其他未知样本的cffDNA。通常当测序数据达到1M条序列以上时，通过该方法计算得到的cffDNA与上述方法(2)的相关系数可达到0.995以上。然而，模型中的参数可能因测序平台和分型芯片的不同导致噪声的分布特性不同，训练所得的模型不具有普适性；另一方面，杂合位点的比例在不同种族的群体中是不同的，这些固有因素都会影响cffDNA预测的准确性。

(5)仅基于孕妇外周血低深度测序数据的seqFF方法，该方法试图直接从常规的无创产检数据中估计出cffDNA，其基本方法为：首先对孕妇外周血进行单端随机测序，分析常染色体(除13，18，21号染色体之外)上每个50KB窗口中归一化后的read数目以拟合出一个高维的弹性网络和降秩回归模型。该方法与基于Y的计算方法的皮尔逊相关系数可达到0.93，但该高维模型的训练需要大规模的训练集样本，且当cffDNA含量低于5％时，该方法的准确性也无法保证。

(6)基于胎儿甲基化标记物的方法，该方法是通过胎盘特有的甲基化标志物来估计cffDNA含量。举例来讲，RASSF1A启动子区域的序列在孕妇和胎儿中的甲基化状态不同，通过对该区域用甲基化敏感的酶进行酶切，来自胎儿的高甲基化的序列不受影响，来自孕妇的低甲基化序列则被酶切破坏，以此实现从母体背景序列中分离出胎儿的序列，用以分析cffDNA含量。然而，基于亚硫酸氢盐的甲基化测序方法成本昂贵，且亚硫酸氢盐可能降解DNA片段，在常规的无创产检中难以大规模应用。

(7)基于游离DNA片段分布的方法，该方法基于的原理是孕妇游离DNA中的DNA片段与胎儿的DNA片段的片段大小呈现出不同的分布特征，来自胎儿的DNA片段通常更短，进而通过双端测序，可以基于不同长度片段之间的比例来估计cffDNA含量。通常以[100,150]与[163,169]区间的片段数目的比值作为预测因子，通过拟合线性模型估计cffDNA含量，该方法与Y计算的cffDNA含量的相关性系数为0.83，准确性难以满足无创产检的要求。

(8)基于游离DNA核小体定位方法，已有研究表明，孕妇外周血中游离DNA的片段长度的主峰是166bp,还有一些小的类似刺突的小峰是以10bp为间隔周期的，而胎儿游离DNA分子长度的主峰是143bp；科学家推测166bp包含了核小体主体和一个连接子，相反143bp主峰的DNA分子则缺少了该连接子作为其组成部分，基于这个假设模型，科学家基于核小体定位方法开发出一种预测cffDNA的方法，但该方法准确性不高，难以满足临床要求。

综上所述，基于孕妇外周血游离DNA低深度大规模并行测序的方法仍然是无创产前检测的主流方法，基于Y染色体的计算方法被认为是男胎cffDNA计算的金标准方法，然而该方法需要男性的游离DNA作为对照，才能准确估算特定测序平台和生物信息处理流程计算得到的Y染色体的含量，进而准确推断cffDNA含量；但在常规无创产检中检测男性对照样本将增加测序的成本和流程管理的复杂性，另外，如果胎儿存在Y染色体的非整倍体异常(如缺少Y染色体，或存在多条Y染色体)，则无法准确估测cffDNA含量。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种原理简单、操作简便、准确率高、检测效率高的基于X染色体的男胎cffDNA含量计算方法。

为解决上述技术问题，本发明采用以下技术方案：

一种基于X染色体的男胎cffDNA含量计算方法，其步骤包括：

步骤S1：获得原始测序基因序列；

步骤S2：对测序基因序列计数；

步骤S3：对测序基因序列数目进行标准化；

步骤S4：胎儿性别鉴定；

步骤S5：女胎X染色体窗口内拷贝基线计算；

步骤S6：男胎X染色体预测因子计算及异常点检测；

步骤S7：通过下式获得男胎cffDNA含量：

其中，S_male为男胎样本集合，i表示样本集中序号为i的样本，

为样本i在X染色体上去除异常点后的的预测因子集合，

为预测因子集合大小，pf_i,X,w为样本i在X染色体上去除异常点后标号为w的预测因子。

作为本发明方法的进一步改进：所述步骤S1中，对无创产前检测孕妇外周血样本进行低深度测序，获得原始测序基因序列。

作为本发明方法的进一步改进：所述步骤S1中，对原始测序基因序列进行预处理；所述预处理包括将原始测序基因序列比对到人类参考基因组,并对比对结果去重复。

作为本发明方法的进一步改进：所述步骤S2中包括：

统计每个样本1-22号常染色体和性染色体上的唯一比对基因片段数目UM_i,j,其中1≤i≤n,j∈{1,2,…,22,X,Y}；

统计X染色体上大小为K的窗口内唯一比对的基因片段数目UM_i,X,k，其中1≤i≤n，

||X||为X染色体长度；

性染色体统计不计入假常染色体区域内的唯一比对基因序列片段。

作为本发明方法的进一步改进：所述步骤S3包括以下步骤：

步骤S301：计算1-22常染色体的唯一比对基因片段的总数

1≤i≤n；

步骤S302：计算每个样本X染色体和Y染色体的相对含量：xc_i＝UM_i,X/UM_i,yc_i＝UM_i,Y/UM_i,1≤i≤n；

步骤S303：计算每个样本X染色体上m个大小为K的窗口内唯一比对的基因片段数目标准值：

1≤i≤n，

作为本发明方法的进一步改进：所述步骤S4中，当Y染色体含量yc_i大于给定阈值σ，则判定胎儿性别为男胎，否则判定为女胎。

作为本发明方法的进一步改进：所述阈值σ为0.0005。

作为本发明方法的进一步改进：所述步骤S5中包括以下步骤：

步骤S501：选取上步胎儿性别鉴定结果为女胎的样本集合S_female；

步骤S502：计算所有女胎样本X染色体上m个大小为K的窗口内序列片段标准值的中值MNUM_X,k＝median(NUM_i,X,k),i∈S_female,

作为本发明方法的进一步改进：所述步骤S6包括：

步骤S601：选取性别鉴定结果为男胎的样本集合S_male；

步骤S602：计算S_male集合中每个样本X染色体上m个大小为K的窗口内的预测因子pf_i,x,k＝log₂(NUM_i,X,k/MNUM_X,k),i∈S_male,

步骤S603：去除预测因子中的异常点。

作为本发明方法的进一步改进：所述步骤S603包括：

步骤S6031：对样本i，计算所有预测因子的0.05和0.95分位数α_i,0.05及α_i,0.95；

步骤S6032：将小于α_i,0.05和大于α_i,0.95的预测因子去除，记去除异常后的预测因子集合为

i∈S_male。

与现有技术相比，本发明的优点在于：

1、本发明的一种基于X染色体的男胎cffDNA含量计算方法，通过选取X染色体含量作为男胎cffDNA含量的预测因子，解决了当胎儿Y染色体存在非整倍体异常时，利用Y染色体无法准确估测cffDNA含量的问题。

2、本发明的一种基于X染色体的男胎cffDNA含量计算方法，通过选取X染色体作为男胎cffDNA含量的预测因子，由于X染色体为Y染色体的3倍长，同等统计准确性下，需要的测序数据量是Y染色体方法的1/3，进一步降低了检测成本.

3、本发明的一种基于X染色体的男胎cffDNA含量计算方法，无需检测男性游离DNA作为对照，而是以女胎孕妇外周血游离DNA测序数据作为对照，在常规无创产前检测中数据可直接获取，降低了额外的测序成本及流程管理复杂性。

4、本发明的一种基于X染色体的男胎cffDNA含量计算方法，采用滑动窗口方式对数据进行上采样，提高了统计功效，降低了对测序量的要求，进一步压缩检测成本。

附图说明

图1是本发明在具体应用实例中的流程示意图。

具体实施方式

以下将结合说明书附图和具体实施例对本发明做进一步详细说明。

人类有23对染色体，其中1-22号染色体为常染色体，X和Y为性染色体，男性的性染色体组合为XY，女性的性染色体组合为XX；对于男胎孕妇来讲，其外周血中的游离DNA是孕妇自身DNA与胎儿DNA的混合，孕妇与胎儿的性染色体组合为XXxy。假设cffDNA含量为f，则X染色体含量的期望值为2*(1-f)+f＝2-f,由于X染色体含量与cffDNA含量相关，因此可基于X染色体间接预测得到cffDNA含量；进一步，对于X染色体每个固定长度的子区域，也具有上述性质。

如图1所示，本发明基于以上原理提出一种基于X染色体的男胎cffDNA含量计算方法，其步骤包括：

步骤S1：获得原始测序基因序列；

对n例(n>30)无创产前检测孕妇外周血样本进行低深度测序，获得原始测序基因序列，并对原始测序基因序列进行预处理；

步骤S2：对测序基因序列计数；

步骤S3：对测序基因序列数目进行标准化；

步骤S4：胎儿性别鉴定；

步骤S5：女胎X染色体窗口内拷贝基线计算；

步骤S6：男胎X染色体预测因子计算及异常点检测；

步骤S7：通过下式获得男胎cffDNA含量：

为样本i在X染色体上去除异常点后的的预测因子集合，

在具体应用实例中，上述步骤S1中，进一步对原始测序基因序列进行预处理；所述预处理包括将原始测序基因序列比对到人类参考基因组(如在实施中可以选取基因组版本为hg19),并对比对结果去重复。

在具体应用实例中，上述步骤S2中，包括：

统计X染色体上大小为K(例如具体实施取K＝5000)的窗口内唯一比对的基因片段数目UM_i,X,k，其中1≤i≤n，

||X||为X染色体长度；

性染色体统计不计入假常染色体区域(PAR区域)内的唯一比对基因序列片段。

在具体应用实例中，上述步骤S3可以包括以下步骤：

步骤S301：计算1-22常染色体的唯一比对基因片段的总数

1≤i≤n；

步骤S303：计算每个样本X染色体上m(实施取m＝12)个大小为K的窗口内唯一比对的基因片段数目标准值：

1≤i≤n，

采用“大窗口统计，小窗口滑动”的方式是为了保证低深度测序情况下，每个窗口内有足够多的基因测序序列片段，同时又能保证有足够多的窗口。

在具体应用实例中，上述步骤S4中，当Y染色体含量yc_i大于给定阈值σ，则判定胎儿性别为男胎，否则判定为女胎。根据实际需要，通过专家数据库可以在具体实施中取σ＝0.0005。

在具体应用实例中，上述步骤S5可以包括以下步骤：

在具体应用实例中，上述步骤S6可以包括以下步骤：

步骤S601：选取步骤S4性别鉴定结果为男胎的样本集合S_male；

步骤S603：去除预测因子中的异常点，这是因为孕妇的游离DNA含量显著高于cffDNA含量，如果孕妇在相应的统计窗口内存在拷贝数变异，则估计得到的cffDNA含量将受到孕妇背景序列的影响，导致计算结果失真。

进一步，步骤S603可以包括以下流程：

i∈S_male。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于X染色体的男胎cffDNA含量计算方法，其特征在于，步骤包括：

步骤S1：获得原始测序基因序列；

步骤S2：对测序基因序列计数；

步骤S3：对测序基因序列数目进行标准化；

步骤S4：胎儿性别鉴定；

步骤S5：女胎X染色体窗口内拷贝基线计算；

步骤S6：男胎X染色体预测因子计算及异常点检测；

步骤S7：通过下式获得男胎cffDNA含量：

为样本i在X染色体上去除异常点后的的预测因子集合，

为预测因子集合大小，pf_i，X，w为样本i在X染色体上去除异常点后标号为w的预测因子。

2.根据权利要求1所述的基于X染色体的男胎cffDNA含量计算方法，其特征在于，所述步骤S1中，对无创产前检测孕妇外周血样本进行低深度测序，获得原始测序基因序列。

3.根据权利要求2所述的基于X染色体的男胎cffDNA含量计算方法，其特征在于，所述步骤S1中，对原始测序基因序列进行预处理；所述预处理包括将原始测序基因序列比对到人类参考基因组，并对比对结果去重复。

4.根据权利要求1或2或3所述的基于X染色体的男胎cffDNA含量计算方法，其特征在于，所述步骤S2中包括：

统计每个样本1-22号常染色体和性染色体上的唯一比对基因片段数目UM_i，j，其中1≤i≤n，j∈{1，2，…，22，X，Y}；

统计X染色体上大小为K的窗口内唯一比对的基因片段数目UM_i，X，k，其中1≤i≤n，

||X||为X染色体长度；

5.根据权利要求1或2或3所述的基于X染色体的男胎cffDNA含量计算方法，其特征在于，所述步骤S3包括以下步骤：

步骤S301：计算1-22常染色体的唯一比对基因片段的总数

1≤i≤n；

步骤S302：计算每个样本X染色体和Y染色体的相对含量：xc_i＝UM_i，X/UM_i，yc_i＝UM_i，Y/UM_i，1≤i≤n；

1≤i≤n，

6.根据权利要求1或2或3所述的基于X染色体的男胎cffDNA含量计算方法，其特征在于，所述步骤S4中，当Y染色体含量yc_i大于给定阈值σ，则判定胎儿性别为男胎，否则判定为女胎。

7.根据权利要求6所述的基于X染色体的男胎cffDNA含量计算方法，其特征在于，所述阈值σ为0.0005。

8.根据权利要求1或2或3所述的基于X染色体的男胎cffDNA含量计算方法，其特征在于，所述步骤S5中包括以下步骤：

步骤S502：计算所有女胎样本X染色体上m个大小为K的窗口内序列片段标准值的中值MNUM_X，k＝median(NUM_i，X，k)，i∈S_female，

9.根据权利要求1或2或3所述的基于X染色体的男胎cffDNA含量计算方法，其特征在于，所述步骤S6包括：

步骤S601：选取性别鉴定结果为男胎的样本集合S_male；

步骤S602：计算S_male集合中每个样本X染色体上m个大小为K的窗口内的预测因子pf_i，X，k＝log₂(NUM_i，X，k/MNUM_X，k)，i∈S_male，

步骤S603：去除预测因子中的异常点。

10.根据权利要求9所述的基于X染色体的男胎cffDNA含量计算方法，其特征在于，所述步骤S603包括：

步骤S6031：对样本i，计算所有预测因子的0.05和0.95分位数α_i，0.05及α_i，0.95；

步骤S6032：将小于α_i，0.05和大于α_i，0.95的预测因子去除，记去除异常后的预测因子集合为

i∈S_male。