CN118006770A

CN118006770A - 使用游离dna分子的正负链差异检测癌症

Info

Publication number: CN118006770A
Application number: CN202211409380.5A
Authority: CN
Inventors: 马士清; 叶可勇; 刘军; 陈一友
Original assignee: Hangzhou New Horizon Health Technology Co Ltd
Current assignee: Hangzhou New Horizon Health Technology Co Ltd
Priority date: 2022-11-09
Filing date: 2022-11-09
Publication date: 2024-05-10
Also published as: WO2024099301A1

Abstract

本发明提供了一种分析样本中DNA的正链和负链的差异用于检测癌症的方法。所述方法包括对样本DNA进行高通量测序，然后根据测序数据中的正链和负链的差异，计算样本DNA的正链和负链的不平衡性(包括但不限于正负链相对深度，比例，末端序列特征和突变等)，并用于检测癌症。

Description

使用游离DNA分子的正负链差异检测癌症

技术领域

本发明涉及生物技术领域，特别是DNA检测领域。具体地，本发明涉及对血浆DNA进行检测和分析的方法。更具体地，本发明涉及对生物样本中的DNA的正负链数目差异进行计算的方法，以及基于此区分生物样本的来源个体是否具有癌症，以及癌症的类型和肿瘤大小等。

背景技术

循环游离DNA指游离于细胞外的核酸片段。尽管目前关于循环游离DNA的临床研究和应用在迅速的进展，但对于循环游离DNA相关的许多分子特征仍然有待探索，这对于推进循环游离DNA的分析的临床应用有着重要的价值。

研究癌症患者的血浆中的肿瘤来源的DNA分子的特征是一项就有很大挑战性的工作，因为肿瘤来源的DNA分子的含量较少，而且无法轻易的与正常来源的背景DNA分子进行区分。在目前已有的临床研究工作中，最为常用的特征是DNA分子上的特异性碱基突变或核酸修饰，但是由于整个基因组上存在着随机的碱基突变背景，而且癌症特异性突变也相对较少，因此比较难以精准的将肿瘤来源的DNA和正常DNA进行区分。特别是在早期癌症的筛查和诊断的应用场景下。

在之前的循环游离DNA的研究中，通常采用的检测技术是基于双链文库构建的高通量测序的方法，但目前已知在循环游离DNA中，有部分的DNA分子存在着断裂损伤或末端突出等情况，而且还有部分DNA分子本身就是以单链形式存在的。由于通常使用的双链文库构建方法的第一步就需要对DNA分子进行末端修复，而且接头连接过程是双链DNA分子之间的平末端或TA连接，使得前述的特殊DNA分子都无法被成功建库，这部分DNA分子所携带的信息被丢失。

发明内容

本发明的目的之一，在于提供一种分析样本中DNA的正链和负链的差异用于检测癌症的方法。所述方法包括对样本DNA进行高通量测序，然后根据测序数据中的正链和负链的差异，计算样本DNA的正链和负链的不平衡性，并用于检测癌症。举例来说，实施方法计算染色体某一区域内的正负链数目的差异，并将其与已知类型癌症的参考数值进行比较，当足够数目的区域具有匹配的正负链差异时，可鉴别出癌症类型。

在一些实施例中，通过使用单链DNA建库技术对循环游离DNA进行文库构建，可以保留样本中DNA分子的单链信息。在一些实施例中，由于单链DNA的存在导致的染色体区域内的正负链数目的不平衡信号可作为潜在的肿瘤信号。在一些实施例中，循环游离DNA(包括单链DNA)来自于肿瘤细胞，因此也可称为循环肿瘤DNA。在一些实施例中，样本同时含有肿瘤DNA和非肿瘤DNA。

对于不同类型的癌症，对应患者的血浆中可以检测到不同癌症相关的分子特征，包括但不限于拷贝数变异、甲基化水平的改变、单核苷酸突变、病毒序列插入、片段大小变化、末端序列特征、锯齿末端特征和染色体重排等。

在一些实施例中，通过对样本中的DNA片段的正负链差异进行分析，可以用来推测样本来源的癌症分期。比如，如果样本的正负链差异与健康对照者对应区域的数值相差较大的，可指示早期癌症；而与癌症组织样本的数值相差较小的，可指示晚期癌症。

本发明的一方面，提供了一种基于从个体获取的生物样品检测癌症的方法，包含：

a)确定所述生物样品中的单链DNA分子和双链DNA分子中的每一条DNA链的序列以及含量，

b)根据a)的结果，确定所述DNA链在所述个体的基因组中的位置，并鉴别所述DNA链是对应的所述基因组中的DNA正链或DNA负链，

c)确定所述基因组中一个或多个特定区域的所述DNA正链和所述DNA负链的差异信息，

d)根据所述差异信息，判断判断所述个体是否患有所述癌症。

在一些实施例中，在步骤d)中，通过比较每个所述特定区域的所述DNA正负链差异信息与不同类型的癌症样本的对应DNA正负链差异信息参考值，判断所述个体是否患有所述癌症。

在一些实施例中，所述基因组的特定区域的长度为至少50bp，至少200bp，至少500bp，至少1000bp，至少2000bp，至少5000bp，至少10000bp，或至少20000bp。

在一些实施例中，所述基因组的特定区域包含人体7号染色体69,838,000bp至69,848,000bp区域。在一些实施例中，所述基因组的特定区域包含人体7号染色体69,838,000bp至69,848,000bp区域内的长度为至少50bp，至少200bp，至少500bp，至少1000bp，至少2000bp，或至少5000bp的区域。

在一些实施例中，在步骤c)中，选择至少2个，至少3个，至少4个，至少5个，至少6个，至少7个，至少8个，至少9个，或至少10个基因组特定区域。

在一些实施例中，所述差异信息为正负链相对覆盖率，DNA链末端序列，DNA突变，或其任意组合。

在一些实施例中，所述差异信息为DNA正负链的相对覆盖率。在一些实施例中，所述相对覆盖率的计算方法为(i)获得所述特定区域的所述DNA正链的片段数和所述DNA负链的片段数；(ii)将所述DNA正链的所述片段数除以所述DNA负链的所述片段数，以获得所述相对覆盖率。

在一些实施例中，在步骤a)中使用高通量测序技术确定所述每一条DNA链的序列以及含量。在一些实施例中，所述高通量测序技术使用的文库构建方式可以区分DNA分子的正负链。在一些实施例中，使用的文库构建方式是单链DNA建库技术。

在一些实施例中，所述方法进一步包括计算所述癌症的肿瘤的尺寸及其DNA正负链差异信息的校准函数，从而使用所述校准函数判断所述肿瘤的尺寸。在一些实施例中，所述校准函数是利用来自有已知尺寸的肿瘤的生物体的参考样品的数据对确定的。

在一些实施例中，所述癌症为肺癌，胃癌，肝癌，食管癌，乳腺癌，宫颈癌，卵巢癌，子宫颈癌，前列腺癌，睾丸癌，结肠直肠癌，结肠癌，胰腺癌，头颈癌，甲状腺癌，神经胶质瘤，或皮肤癌。在一些实施例中，所述癌症为肝细胞癌，结直肠癌，食管癌，或胃癌。

在一些实施例中，所检测的样本可选自组织、全血、血浆、血清、尿液和粪便。在一些实施例中，所述生物样品为血液，血浆，或血清。

在一些实施例中，所述单链DNA分子和双链DNA分子包含血浆游离DNA。

本发明的一方面，提供了一种计算机系统，其特征在于，能够基于对生物样品中的单链DNA分子和双链DNA分子中的每一条DNA链的序列以及含量的检测结果，确定所述DNA链在所述个体的基因组中的位置，并鉴别所述DNA链是对应的所述基因组中的DNA正链或DNA负链，然后确定所述基因组中一个或多个特定区域的所述DNA正链和所述DNA负链的差异信息，并根据所述差异信息，判断所述个体是否患有所述癌症。

在一些实施例中，为实现上述目的，本发明采用的技术方案如下：

一种分析生物体的生物样品的方法，所述生物样品包括源自正常细胞和可能来自与癌症有关的细胞的DNA分子，其中所述核酸分子中的至少一部分在所述生物样品中是以游离状态存在的。检测方法包括：

1.对生物样品中的DNA分子进行检测，其中所选检测方法可以区分DNA分子的正负链；

2.根据检测结果，鉴别所述DNA分子在所述生物体的参考基因组中的位置；基于所鉴别的位置，将相应样本的核酸分子鉴别为来自所述染色体区域。

3.计算染色体上全部或部分区域的正链和负链数目的差异信息，根据计算值和参考基线值以确定所述染色体区域是否呈现出正负链不平衡性。

利用根据本发明实施例的检测样本中DNA分子正负链差异的方法，可以有效的计算样本的DNA正负链差异信号，并且通过将计算得到的样本信号和已知癌症类型或已知尺寸的肿瘤的参考品的信号进行比较计算，可以指示样本来源所对应的癌症类型或肿瘤尺寸信息。

根据本发明的又一方面，本发明提供了一种确定样本中DNA分子正负链差异信息的系统。根据本发明实施例，该系统其包括：测序文库构建装置，所述测序文库构建装置为权利要求3所述的；测序装置，所述测序装置与所述测序文库构建装置相连，以便于对所述样本的测序文库进行测序，获得所述样本的测序结果；分析装置，对所述样本的测序结果进行分析，以便获得所述DNA分子的正负链差异信息。

采用根据本发明实施例的确定DNA分子的正负链差异信息的系统，能够灵敏、准确、高效地确定微量样本中的DNA分子的的正负链差异信息，并且可用于区分癌症。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1显示了根据本发明一个实施例的对样本中的DNA分子的正负链差异进行检测和分析的流程图；

图2显示了根据本发明的一个实施例检测到的癌症样本的血液游离DNA分子和健康对照样本的血液游离DNA分子在相同染色体区域的正负链信号的差异，其中红色的为癌症样本，黄色的为健康对照样本，横坐标为人的7号染色体区域坐标，纵坐标为正负链片段数偏差值。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出。本领域的技术人员将会理解，下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。实施例中未注明具体技术条件的，按照本领域内的文献所描述的技术或条件或者按照产品说明，都是可以通过商业市场购买获得的常规产品，例如NEB等公司。

根据本发明的一个方面，本发明提供了一种对样本中DNA分子的正负链差异信息进行分析的方法。参考图1，根据本发明的实施例，该方法可以包括以下步骤：

1.对生物样本使用合适的DNA提取试剂盒进行提取。

2.用于建库的DNA样本首先用Qubit 4.0来进行定量，使用1*Qubit dsDNAHSassay kit来进行定量。用于建库的DNA可用0.5-20ng作为起始量。

4.脱磷酸处理和高温变性。

将DNA样本进行去磷酸，反应体系中包括碱性磷酸酶和反应buffer，37℃反应30分钟，然后95℃反应5分钟，将DNA高温变性成单链。

5单链接头和上步单链DNA产物连接，该连接为两个单链DNA分子之间的连接。

5-1单链接头序列为5’-Pho-(N)_nAAGTCGGATCGTAGCCATG-3’ddC(SEQ ID NO:1),该接头序列5’端磷酸化修饰，3’端双脱氧修饰，防止了连接反应中接头的自连和DNA分子间的自连。同时在接头的5’端引物n个碱基的随机序列，用于矫正低起始量建库时可能引起的PCR扩增误差，n为1～15之间的正整数。

5-2该连接反应体系包括：变性后的单链DNA产物，单链接头，PEG8000，连接酶buffer和T4 RNA连接酶。

5-3反应条件为16℃过夜或者30℃反应2小时。

6延伸反应。以单链连接产物为模板，单链接头已知序列设计引物进行延伸，获得双链DNA产物。

6-1引物序列为：CAACTCCTTGGCTCACAGAACGACATGGCTACGATCCGACTT(SEQ ID NO:2)。

6-2反应体系包括：上步单链DNA连接产物，引物，DNA聚合酶buffer和DNA聚合酶。

6-3反应条件：95℃2分钟，45度30秒，72度5分钟。

7.双端接头连接。该步反应是上步反应生产的双链DNA产物和双链DNA接头之间进行的分子间连接。

7-1双链DNA接头序列为：

F序列：5’-Pho-GAAGTCGGAGGCCAAGCGGTCTTAGGAAGACAA-3’(SEQ ID NO:3)。

R序列：5’-CAACTCCTTGGCTCACAGAACGACATGGCTACGATCCGACTTCT-3’(SEQ ID NO:4)。

R序列是F序列的方向互补，特殊的是，R序列的最后有一个突出的碱基T。

7-2连接反应体系包括：上步双链DNA产物，双链DNA接头，T4 DNAligase和T4 DNAligase buffer。

7-3反应条件为20℃反应30分钟。

8.PCR扩增。以上一步获得的连接产物为模板，以5’端和3’端两端接头已知序列为正反向引物，进行PCR扩增。

8-1正向序列：

5’-GCATGGCGACCTTATCAGNNNNNNNNNTTGTCTTCCTAAGACCGCTTGG-3’(SEQ ID NO:5)。

反向序列：

5’-Pho-CTCTCAGTACGTCAGCAGTTNNNNNNNNNNCAACTCCTTGGCTCACAGAAC-3’(SEQ IDNO:6).

其中的10个随机碱基用于在高通量测序中区分不同的样本。

8-2反应体系包括：上步连接产物，正反向PCR引物，高保真DNA聚合酶，DNA聚合酶buffer。

8-3反应条件：98℃变性2min；98℃，15s，60℃，30s，72℃，30s。该过程循环反应8-15个循环。然后72℃反应5min。

9.磁珠法进行PCR产物纯化，得出目的产物，回收得到文库。

10.对文库进行上机测序得到测序数据。

11.测序数据分析。使用FastQC软件对上一步获得的测序数据进行质控，然后把测序序列与标准人类基因组序列通过比对软件BWA进行比对，获得定位于人类基因组相应位置的信息，即生成SAM格式文件，最后根据SAM文件中比对标签，通过SAMtools软件获得正负链片段数偏差值(图2)。

结果显示，癌症样本的血液游离DNA分子(红色线条)和健康对照样本(黄色线条)的血液游离DNA分子在相同染色体区域的正负链信号有显著差异。

以上内容是结合具体的实施方式对本发明所做的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。本领域的技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

FastQC、BWA、SAMtools为软件名称，在国内是没有业界通用中文名称，都是直接用英文或缩写进行描述。

Claims

1.一种基于从个体获取的生物样品检测癌症的方法，包含：

a)确定所述生物样品中的单链DNA分子和双链DNA分子中的每一条DNA链的序列以及含量；

b)根据a)的结果，确定所述DNA链在所述个体的基因组中的位置，并鉴别所述DNA链是对应的所述基因组中的DNA正链或DNA负链；

c)确定所述基因组中一个或多个特定区域的所述DNA正链和所述DNA负链的差异信息；

d)根据所述差异信息，判断所述个体是否患有所述癌症。

2.根据权利要求1所述的方法，其特征在于，在步骤d)中，通过比较每个所述特定区域的所述DNA正负链差异信息与不同类型的癌症样本的对应DNA正负链差异信息参考值，判断所述个体是否患有所述癌症。

3.根据权利要求1或2所述的方法，其特征在于，所述基因组的特定区域的长度为至少50bp，至少200bp，至少500bp，至少1000bp，至少2000bp，至少5000bp，至少10000bp，或至少20000bp。

4.根据权利要求1-3任一项所述的方法，其特征在于，在步骤c)中，选择至少2个，至少3个，至少4个，至少5个，至少6个，至少7个，至少8个，至少9个，或至少10个所述特定区域。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述差异信息为正负链相对覆盖率，DNA链末端序列，DNA突变，或其任意组合。

6.根据权利要求5所述的方法，其特征在于，所述差异信息为DNA正负链的相对覆盖率，所述相对覆盖率的计算方法为(i)获得所述特定区域的所述DNA正链的片段数和所述DNA负链的片段数；(ii)将所述DNA正链的所述片段数除以所述DNA负链的所述片段数，以获得所述相对覆盖率。

7.根据权利要求1-6任一项所述的方法，其特征在于，在步骤a)中使用高通量测序技术确定所述每一条DNA链的序列以及含量；优选地，所述高通量测序技术使用的文库构建方式可以区分DNA分子的正负链。

8.根据权利要求1-7任一项所述的方法，其特征在于，使用的文库构建方式是单链DNA建库技术。

9.根据权利要求1-8任一项所述的方法，其特征在于，所述方法进一步包括计算所述癌症的肿瘤的尺寸及其DNA正负链差异信息的校准函数，从而使用所述校准函数判断所述肿瘤的尺寸。

10.根据权利要求9所述的方法，其中，所述校准函数是利用来自有已知尺寸的肿瘤的生物体的参考样品的数据对确定的。

11.根据权利要求1-10任一项所述的方法，其特征在于，所述癌症为肝细胞癌，结直肠癌，食管癌，或胃癌。

12.根据权利要求1-11任一项所述的方法，其特征在于，所述生物样品为血液，血浆，或血清。

13.根据权利要求1-12任一项所述的方法，其特征在于，所述单链DNA分子和双链DNA分子包含血浆游离DNA。

14.一种计算机系统，其特征在于，能够实现根据权利要求1-13任一项所述的方法中的b)-d)步骤。