CN104894268B

CN104894268B - 定量样本中源自细胞凋亡的dna浓度的方法及其应用

Info

Publication number: CN104894268B
Application number: CN201510308841.3A
Authority: CN
Inventors: 曾丰波; 杨功达; 韩继臣
Original assignee: SHANGHAI MAJORBIO PHARM TECHNOLOGY Co Ltd
Current assignee: SHANGHAI MAJORBIO PHARM TECHNOLOGY Co Ltd
Priority date: 2015-06-05
Filing date: 2015-06-05
Publication date: 2018-02-09
Anticipated expiration: 2035-06-05
Also published as: CN104894268A

Abstract

本发明属于分子生物学技术领域，公开了一种定量样本中源自细胞凋亡的DNA浓度的方法，该方法对正常人的血浆游离DNA和机械打断的组织DNA测序后，统计在血浆游离DNA测序序列和组织DNA测序序列中含量存在显著差异的差异序列集合，并通过计算得出来自于细胞凋亡样本的差异序列对应片段百分比总量的估计值、来自于非细胞凋亡样本的差异序列对应片段百分比总量的估计值，最后结合待检样本的差异序列对应片段百分比总量的实际值，计算得到待检样本中源自细胞凋亡的DNA的浓度。此外，本发明计算得到的待检样本中源自细胞凋亡的DNA的浓度值，还可用于对游离DNA样本的质控以及对组织坏死的检测。

Description

定量样本中源自细胞凋亡的DNA浓度的方法及其应用

技术领域

本发明涉及分子生物学技术领域，特别涉及一种用于定量样本中源自细胞凋亡的DNA浓度的方法及其应用。

背景技术

血浆中存在游离DNA(或称循环DNA，也简称cfDNA)，游离DNA来自凋亡细胞，是一种无细胞状态的、片段化的胞外DNA，存在于血液、滑膜液和脑脊液等体液中。cfDNA在正常人的血液中含量甚微，平均值为13ng/ml，而当机体在一些特殊状态时(如患有肿瘤、自身免疫性疾病、感染性疾病、中风、心肌梗死及妊娠等)，其含量明显上升，比如恶性肿瘤患者平均值达到180ng/ml。因此，游离DNA在疾病的早期诊断、预后和监测等方面具有重要潜在价值。

一直以来，由于缺乏高灵敏性和高特异性的实验方法，导致有关游离DNA与疾病相关性的研究在较长时期内进展缓慢。直到有效分离游离DNA技术的出现，使这一领域的研究在最近二十多年得到了较迅速发展。但是，游离DNA含量少，而且高度片段化，提取cfDNA往往成为后续实验成败的关键。

组织内DNA片段(gDNA)为机械或其他理化形式打断，其与游离DNA在序列组成上会有差别，cfDNA在提取过程中可能混入gDNA序列片段，大量混入对后续分析造成影响。

发明内容

本发明的目的在于提供一种定量样本中源自细胞凋亡的DNA浓度的方法，该方法通过DNA片段的碱基组成信息来对样本中源自细胞凋亡的DNA浓度进行定量。

本发明的另一目的在于提供上述定量样本中源自细胞凋亡的DNA浓度的方法的应用。

为解决上述技术问题，本发明的实施方式所提供的定量样本中源自细胞凋亡的DNA浓度的方法，包含下述步骤：

(1)取健康人的血浆游离DNA样本和机械打断的组织DNA样本，分别测序，将测序获得的序列比对到人类参考基因组上，统计差异序列集合，所述差异序列集合中包含若干差异序列；

所述差异序列为：比对到人类参考基因组上的测序序列5’端k个碱基的序列，且游离DNA样本的测序片段中5’端为该种差异序列的序列含量比例，与组织DNA样本的测序序列中5’端为同种差异序列的序列含量比例存在显著差异；其中，k为自然数；

(2)计算游离DNA样本组比对到人类参考基因组上的测序序列中，所有5’端为差异序列的序列百分比总和，作为来自于细胞凋亡样本的差异序列对应片段百分比总量的估计值；

计算组织DNA样本组比对到人类参考基因组上的测序序列中，所有5’端为差异序列的序列百分比总和，作为来自于非细胞凋亡样本的差异序列对应片段百分比总量的估计值；

(3)对待检样本进行测序，将测序获得的序列比对到人类参考基因组上，计算所有5’端为差异序列的序列百分比总和，作为待检样本的差异序列对应片段百分比总量的实际值；

(4)根据上述来自于细胞凋亡样本的差异序列对应片段百分比总量的估计值、来自于非细胞凋亡样本的差异序列对应片段百分比总量的估计值以及待检样本的差异序列对应片段百分比总量的实际值，计算得到待检样本中源自细胞凋亡的DNA的浓度。

cfDNA是来自于骨髓中性粒细胞凋亡的DNA片段，该种DNA片段由细胞内限制性内切酶切割全基因组DNA而来，限制性内切酶对DNA的切割是有一定偏向性的，本发明根据该原理设计了上述定量样本源自细胞凋亡的DNA浓度的方法，在假定血浆游离DNA皆源自细胞凋亡的基础上，以比对到人类参考基因组上的测序序列5’端、可显著区分游离DNA和机械打断的组织DNA的差异序列的含量特征，实现对样本中源自细胞凋亡的DNA浓度的定量。

具体地，本发明的实施方式所提供的定量样本中源自细胞凋亡的DNA浓度的方法中，步骤(4)中的根据来自于细胞凋亡样本的差异序列对应片段百分比总量的估计值、来自于非细胞凋亡样本的差异序列对应片段百分比总量的估计值以及待检样本的差异序列对应片段百分比总量的实际值，计算得到待检样本中源自细胞凋亡的DNA的浓度的计算式为：

其中：

p为要计算的待检样本中源自细胞凋亡的DNA的浓度；

为来自于细胞凋亡样本的差异序列对应片段百分比总量的估计值；

为来自于非细胞凋亡样本的差异序列对应片段百分比总量的估计值；

为待检样本的差异序列对应片段百分比总量的实际值。

优选地，本发明的实施方式所提供的定量样本中源自细胞凋亡的DNA浓度的方法中，获取步骤(1)中的血浆游离DNA样本和机械打断的组织DNA样本的方法为：抽取健康人的血液，进行第一次离心，得到上清液和沉淀，取沉淀，再进行机械打断，即为机械打断的白细胞样本，作为机械打断的组织DNA样本；对第一次离心得到的上清液进行第二次离心，去掉沉淀，取上清液，即为血浆游离DNA样本。

优选地，本发明的实施方式所提供的定量样本中源自细胞凋亡的DNA浓度的方法中，步骤(1)中的统计差异序列集合的方法为：

记比对到人类参考基因组上的测序序列5’端k个碱基的序列为Kmer，k为自然数；记差异序列集合为S；记游离DNA样本组为G_cf组，记组织DNA样本组为G_g组：

(1)根据Kmer的不同分别对G_cf组和G_g组的测序序列进行分组，统计每组序列的比例：

其中：

表示样本j的测序序列中，5’端以Kmer开始的序列在所有测序序列中的比例、

表示样本j的测序序列中，5’端以Kmer开始的序列的条数、

表示样本j的所有测序序列的条数；

(2)统计在G_cf和G_g组中具有显著差异的kmer：

分别计算和

其中：

依次表示在G_cf组和G_g组中5’端为特定Kmer的序列在每个样本的测序序列中的含量比例的平均值、

依次表示在G_cf组和G_g组中5’端为特定Kmer的序列在每个样本的测序序列中的含量比例的总和、

∑_cfj、∑_gj依次表示G_cf组和G_g组中样本的个数；

比较上述和选取的所有Kmer作为集合S，其中，N＞1。

优选地，上述K和N的取值优选为：K为1～10，1＜N≤10。更进一步地，对S集中Kmer的约束为第一个碱基为G或者C；N的取值方法如下：对于特定的K的取值，根据步骤(4)可计算出一系列的差异集合S，对于特定的S，计算G_cf组的每个样本的P_S，P_S表示样本序列5’端的Kmer属于S集的序列占总序列的百分比，计算所有G_cf组中P_S集的标准差sd；计算G_g组样本的P_S；在保证步骤(4)中G_cf组中P_S集和G_g组中P_S集显著差异的约束下，取使得sd极小的N值。

进一步地，本发明的实施方式所提供的定量样本中源自细胞凋亡的DNA浓度的方法中，步骤(2)中计算游离DNA样本组比对到人类参考基因组上的测序序列中，所有5’端为差异序列的序列百分比总和，作为来自于细胞凋亡样本的差异序列对应片段百分比总量的估计值的公式为：

其中：

为要计算的来自于细胞凋亡样本的差异序列对应片段百分比总量的估计值；

表示血浆游离DNA样本组比对到人类参考基因组上的测序序列中，所有5’端为差异序列的序列百分比总和。

进一步地，本发明的实施方式所提供的用于定量样本中源自细胞凋亡的DNA浓度的方法中，步骤(2)中计算组织DNA样本组比对到人类参考基因组上的测序序列中，所有5’端为差异序列的序列百分比总和，作为来自于非细胞凋亡样本的差异序列对应片段百分比总量的估计值的公式为：

其中：

为要计算的来自于非细胞凋亡样本的差异序列对应片段百分比总量的估计值；

表示组织DNA样本组比对到人类参考基因组上的测序序列中，所有5’端为差异序列的序列百分比总和。

更进一步地，本发明的实施方式所提供的用于定量样本中源自细胞凋亡的DNA浓度的方法，其特征在于，步骤(3)中计算待检样本组比对到人类参考基因组上的测序序列中，所有5’端为差异序列的序列百分比总和，作为待检样本的差异序列对应片段百分比总量的实际值的公式为：

其中：

为要计算的待检样本的差异序列对应片段百分比总量的实际值；

表示待检样本组比对到人类参考基因组上的测序序列中，所有5’端为差异序列的序列百分比总和。

此外，本发明还提供上述定量样本中源自细胞凋亡的DNA浓度的方法的应用，根据计算得到的待检样本中源自细胞凋亡的DNA的浓度值，可以用于对游离DNA样本的质控，或用于检测组织坏死。

附图说明

图1是实施例1中来自于血浆游离DNA样本所有比对到人类参考基因组上的序列位置-碱基百分比分布图；

图2是实施例1中来自于机械打断的组织DNA样本所有比对到人类参考基因组上的序列位置-碱基百分比分布图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请各权利要求所要求保护的技术方案。

实施例1

1.样本采集：

对人群随机取样，取得M个健康人的血液，分离得到两种样本，血液中的游离DNA样本，血液中的白细胞样本。采样方法如下：

抽取健康人的血液7ml血液，进行第一次离心，得到上清液和沉淀，取沉淀，再进行机械打断，即为机械打断的白细胞样本，作为机械打断的组织DNA样本；对第一次离心得到的上清液进行第二次离心，去掉沉淀，取上清液，即为血浆游离DNA样本。

将游离DNA样本组记为G_cf，其中第i个样本记为

将白细胞样本组记为G_g，其中第i个样本记为

2.统计差异序列集合S：

将步骤1中获得的样本进行DNA抽提，测序，并将测序获得的序列比对到人类参考基因组上(hg38)，根据比对到hg38上的序列5’端特征可显著分离G_cf、G_cf组样本，G_cf、G_g组样本内部特征值稳定。附图1为采用fastqc获得的来自于血浆游离DNA样本所有比对到人类参考基因组上的序列位置-碱基百分比分布图；附图2为采用fastqc获得的来自于机械打断的DNA样本所有比对到人类参考基因组上的序列位置-碱基百分比分布图。可以看到，在序列中第1～10个碱基长度位置上的碱基百分比分布差异较显著，因此本发明的实施方式中，优选从序列5’端1～10个碱基的序列中筛选差异序列集合，即N优选取值为1～10。

统计差异序列集合S的具体步骤如下：

采得第j个样本，记为G^j，对G^j进行DNA测序，得到DNA序列片段r的集合R^j，根据序列片段r的5’端k个碱基的序列(记为Kmer)的不同将R^j分为4^k组，如：

k＝1，可以将序列分为4^k＝4组，依次记为

k＝2，可以将序列分为4^k＝16组，依次记为

k＝3，可以将序列分为4^k＝64组，依次记为

……

k＝10，可以将序列分为4^k＝4¹⁰组，依次记为

统计每组序列的比例如：

k＝1，其中

表示样本j的测序序列中，5’端以A碱基开始的序列在所有测序序列中的比例；

表示样本j的测序序列中，5’端以A碱基开始的序列的条数；

表示样本j的所有测序序列的条数。

依次可以得到：

类似地，

……

下面统计在G_cf和G_g组中有显著差异的Kmer，计算方法如下：

计算

其中，

表示在G_cf组中5’端为特定Kmer的序列在每个样本的测序序列中的含量比例的平均值；

表示在G_cf组中5’端为特定Kmer的序列在每个样本的测序序列中的含量比例的总和；

∑_cfj表示G_cf组中样本的个数。

类似地，可以计算得到：

比较和选取的的所有Kmer作为特征集合，记为S。

当k＝3，N＝2时，获得的差异序列集合S包括表1所示Kmer：

表1：差异序列集合

GGA

CGA

CGC

GGT

GCA

GGC

GCT

CGT

CCA

GCC

CCT

CCC

3.计算和

计算游离DNA样本组比对到人类参考基因组上的测序序列中，所有5’端为差异序列的序列百分比总和，作为来自于细胞凋亡样本的差异序列对应片段百分比总量的估计值：

计算白细胞样本组比对到人类参考基因组上的测序序列中，所有5’端为差异序列的序列百分比总和，作为来自于非细胞凋亡样本的差异序列对应片段百分比总量的估计值：

当k＝3，N＝2时，和的具体值如下表2所示(表2中，cfDNA1～cfDNA19对应的是值，gDNA1～gDNA3对应的是值。)

表2：和值统计

cfDNA1	0.2969490
		cfDNA2	0.3021332
cfDNA3	0.2977504
		cfDNA4	0.2921124
cfDNA5	0.2920593
		cfDNA6	0.3023916
cfDNA7	0.2944033
		cfDNA8	0.3068457
cfDNA9	0.3066501
		cfDNA10	0.3003675
cfDNA11	0.3056995
		cfDNA12	0.2965661
cfDNA13	0.2893171
		cfDNA14	0.3030564
cfDNA15	0.2970602
		cfDNA16	0.2970602
cfDNA17	0.3051699
		cfDNA18	0.3039453
cfDNA19	0.3075782
		gDNA1	0.1049204
gDNA2	0.1029031
		gDNA3	0.1035066

根据上表结果，本实施例中计算得到：

4.计算

计算待检样本组比对到人类参考基因组上的测序序列中，所有5’端为差异序列的片段的百分比总和，作为待检样本的差异序列对应片段百分比总量的实际值：

本实施例中求得：

5.计算待检测样本中源自细胞凋亡的DNA的浓度p。

根据上式可得：

其中，将前述步骤中求得的和的值代入上式中，求得本实施例中待检样本中源自细胞凋亡的DNA浓度为：96.65511％。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种非诊断性的定量样本中源自细胞凋亡的DNA浓度的方法，其特征在于，包含下述步骤：

所述差异序列为：比对到人类参考基因组上的测序序列5’端k个碱基的序列；且游离DNA样本的测序序列中5’端为该种差异序列的序列含量比例，与组织DNA样本的测序序列中5’端为同种差异序列的序列含量比例存在显著差异；其中，k为自然数；

所述的统计差异序列集合的方法为：

<mrow> <msubsup> <mi>P</mi> <mrow> <mi>K</mi> <mi>m</mi> <mi>e</mi> <mi>r</mi> </mrow> <mi>j</mi> </msubsup> <mo>=</mo> <mfrac> <msubsup> <mi>N</mi> <mrow> <mi>K</mi> <mi>m</mi> <mi>e</mi> <mi>r</mi> </mrow> <mi>j</mi> </msubsup> <mrow> <msubsup> <mi>&Sigma;N</mi> <mrow> <mi>K</mi> <mi>m</mi> <mi>e</mi> <mi>r</mi> </mrow> <mi>j</mi> </msubsup> </mrow> </mfrac> </mrow>

其中：

表示样本j的测序序列中，5’端以Kmer开始的序列的条数、

表示样本j的所有测序序列的条数；

(2)统计在G_cf和G_g组中具有显著差异的Kmer：

分别计算和

<mrow> <msubsup> <mi>P</mi> <mrow> <mi>K</mi> <mi>m</mi> <mi>e</mi> <mi>r</mi> </mrow> <mrow> <mi>c</mi> <mi>f</mi> </mrow> </msubsup> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <mi>c</mi> <mi>f</mi> </mrow> </msub> <msubsup> <mi>P</mi> <mrow> <mi>K</mi> <mi>m</mi> <mi>e</mi> <mi>r</mi> </mrow> <mi>j</mi> </msubsup> </mrow> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <mi>c</mi> <mi>f</mi> </mrow> </msub> <mi>j</mi> </mrow> </mfrac> </mrow>

<mrow> <msubsup> <mi>P</mi> <mrow> <mi>K</mi> <mi>m</mi> <mi>e</mi> <mi>r</mi> </mrow> <mi>g</mi> </msubsup> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&Sigma;</mi> <mi>g</mi> </msub> <msubsup> <mi>P</mi> <mrow> <mi>K</mi> <mi>m</mi> <mi>e</mi> <mi>r</mi> </mrow> <mi>j</mi> </msubsup> </mrow> <mrow> <msub> <mi>&Sigma;</mi> <mi>g</mi> </msub> <mi>j</mi> </mrow> </mfrac> </mrow>

其中：

∑_cfj、∑_gj依次表示G_cf组和G_g组中样本的个数；

比较上述和选取的所有Kmer作为集合S，其中，N＞1；

所述K为1～10之间的自然数；1＜N≤10；

所述的计算游离DNA样本组比对到人类参考基因组上的测序序列中，所有5’端为差异序列的序列百分比总和，作为来自于细胞凋亡样本的差异序列对应片段百分比总量的估计值的公式为：

<mrow> <msubsup> <mi>P</mi> <mi>s</mi> <mrow> <mi>c</mi> <mi>f</mi> </mrow> </msubsup> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>K</mi> <mi>m</mi> <mi>e</mi> <mi>r</mi> <mo>&Element;</mo> <mi>S</mi> </mrow> </munder> <msubsup> <mi>P</mi> <mrow> <mi>K</mi> <mi>m</mi> <mi>e</mi> <mi>r</mi> </mrow> <mrow> <mi>c</mi> <mi>f</mi> </mrow> </msubsup> </mrow>

其中：

表示血浆游离DNA样本组比对到人类参考基因组上的测序序列中，所有5’端为差异序列的序列百分比总和；

所述计算组织DNA样本组比对到人类参考基因组上的测序序列中，所有5’端为差异序列的序列百分比总和，作为来自于非细胞凋亡样本的差异序列对应片段百分比总量的估计值的公式为：

<mrow> <msubsup> <mi>P</mi> <mi>s</mi> <mi>g</mi> </msubsup> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>K</mi> <mi>m</mi> <mi>e</mi> <mi>r</mi> <mo>&Element;</mo> <mi>S</mi> </mrow> </munder> <msubsup> <mi>P</mi> <mrow> <mi>K</mi> <mi>m</mi> <mi>e</mi> <mi>r</mi> </mrow> <mi>g</mi> </msubsup> </mrow>

其中：

表示组织DNA样本组比对到人类参考基因组上的测序序列中，所有5’端为差异序列的序列百分比总和；

所述计算待检样本比对到人类参考基因组上的测序序列中，所有5’端为差异序列的序列百分比总和，作为待检样本的差异序列对应片段百分比总量的实际值的公式为：

<mrow> <msubsup> <mi>P</mi> <mi>s</mi> <mi>t</mi> </msubsup> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>K</mi> <mi>m</mi> <mi>e</mi> <mi>r</mi> <mo>&Element;</mo> <mi>S</mi> </mrow> </munder> <msubsup> <mi>P</mi> <mrow> <mi>K</mi> <mi>m</mi> <mi>e</mi> <mi>r</mi> </mrow> <mi>t</mi> </msubsup> </mrow>

其中：

差异序列集合记为S；表示待检样本组比对到人类参考基因组上的测序序列中，所有5’端为差异序列的序列百分比总和；

(4)根据上述来自于细胞凋亡样本的差异序列对应片段百分比总量的估计值、来自于非细胞凋亡样本的差异序列对应片段百分比总量的估计值以及待检样本的差异序列对应片段百分比总量的实际值，计算得到待检样本中源自细胞凋亡的DNA的浓度；

所述的根据来自于细胞凋亡样本的差异序列对应片段百分比总量的估计值、来自于非细胞凋亡样本的差异序列对应片段百分比总量的估计值以及待检样本的差异序列对应片段百分比总量的实际值，计算得到待检样本中源自细胞凋亡的DNA的浓度的计算式为：

<mrow> <mi>p</mi> <mo>&times;</mo> <msubsup> <mi>P</mi> <mi>S</mi> <mrow> <mi>c</mi> <mi>f</mi> </mrow> </msubsup> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>p</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <msubsup> <mi>P</mi> <mi>S</mi> <mi>g</mi> </msubsup> <mo>=</mo> <msubsup> <mi>P</mi> <mi>S</mi> <mi>t</mi> </msubsup> </mrow>

其中：

p为要计算的待检样本中源自细胞凋亡的DNA的浓度；

为待检样本的差异序列对应片段百分比总量的实际值。

2.根据权利要求1所述的非诊断性的定量样本中源自细胞凋亡的DNA浓度的方法，其特征在于，获取步骤(1)中所述的血浆游离DNA样本和机械打断的组织DNA样本的方法为：抽取健康人的血液，进行第一次离心，得到上清液和沉淀，取沉淀，再进行机械打断，即为机械打断的白细胞样本，作为机械打断的组织DNA样本；对第一次离心得到的上清液进行第二次离心，去掉沉淀，取上清液，即为血浆游离DNA样本。

3.权利要求1至2中的任一项所述的方法的应用，其特征在于，根据计算得到的待检样本中源自细胞凋亡的DNA的浓度值，对游离DNA样本进行质控。