CN115803448A

CN115803448A - 来自外周血红细胞的微核dna及其用途

Info

Publication number: CN115803448A
Application number: CN202180049337.XA
Authority: CN
Inventors: 高晓飞; 孙浩博; 姚星云; 李颖
Original assignee: Hangzhou Taiming Biotechnology Co ltd
Current assignee: Hangzhou Taiming Biotechnology Co ltd
Priority date: 2020-05-15
Filing date: 2021-05-14
Publication date: 2023-03-14
Also published as: IL298208A; KR20230105692A; EP4150125A1; WO2021228246A1; JP2023525379A; CA3182506A1; US20230220486A1; AU2021271981A1

Abstract

本公开涉及外周血红细胞微核DNA，提取所述外周血红细胞微核DNA的方法，以及微核DNA在癌症筛查、诊断、分型和/或分期中的用途。

Description

来自外周血红细胞的微核DNA及其用途

技术领域

本公开涉及生物学、医学和生物信息学领域。具体而言，本公开涉及外周血红细胞微核DNA及其在癌症检测中的应用。

背景技术

癌症是威胁人类健康和生命的主要疾病之一。据报道，在2018年，全球新增癌症病例1810万例，癌症死亡960万例。近一半的新癌症病例和超过一半的癌症死亡发生在亚洲(Global Cancer Statistics 2018:GLOBOCAN Estimates of Incidence and MortalityWorldwide for 36Cancers in 185Countries.Bray Freddie等人,CA:ACancer Journalfor Clinicians.2018)。尽管经过数十年的不断探索，在癌症的诊断和治疗方面取得了进展，但对癌症检测，特别是癌症的筛查、诊断、分类和分期仍有巨大的需求。

血液在体内不断循环，正常成年人的血液总量约占男性体重的8％，约占女性体重的7.5％。外周血样本易于收集、储存和运输，并且具有高稳定性(Dagur,P.K.andJ.J.McCoy,Collection,Storage,and Preparation of Human Blood Cells.Curr ProtocCytom,2015.73:p.5.1.1-16)。

通常认为微核是细胞分裂过程中染色体或染色体片段未并入(incorporated)其中一个子核时形成的小核结构，这通常是遗传毒性事件和染色体不稳定的标志。通常是由于不正确的修复或未修复的DNA断裂，或染色体不分离造成的滞后不对称染色体或染色单体片段，在主核外形成的独立于主核的小核结构(Liu,S.,等人,Nuclear envelopeassembly defects link mitotic errors to chromothripsis.Nature,2018.561(7724):p.551-555)。

迄今为止，还没有关于从外周血红细胞中分离或纯化微核DNA的报道，也没有关于利用外周血红细胞微核DNA进行癌症检测的报道。

发明内容

总体而言，本公开涉及从外周血红细胞中分离或纯化的微核DNA、其提取方法及其在疾病筛查、诊断、分型和/或分期中的应用。

本公开的第一方面涉及从外周血红细胞中分离或纯化的微核DNA。

在一些实施方案中，从外周血红细胞中分离或纯化的微核DNA不包含或基本上不包含有核细胞基因组DNA。

在一些实施方案中，所述外周血是人外周血。在一个具体实施方案中，所述外周血是新鲜的人外周血。

在一些实施方案中，所述微核DNA用于癌症检测，例如癌症的早期筛查、诊断、分型和/或分期。在一些特定实施方案中，所述微核DNA用于诊断泛癌(pan-cancer)患者，包括但不限于患有结直肠癌(以下简称“CRC”)、肝细胞癌(以下简称“HCC”)或肺癌(以下简称“LC”)的患者。

在一些实施方案中，所述微核DNA用于宫颈癌的早期筛查、诊断、分型和/或分期。

在一些实施方案中，所述微核DNA用于宫颈癌的早期筛查、诊断、分型和/或分期，并且所述微核DNA包含表2、4或6中所示的基因分类器。

在其他实施方案中，所述微核DNA用于结直肠癌的早期筛查、诊断、分型和/或分期。

在进一步的实施方案中，所述微核DNA用于结直肠癌的早期筛查、诊断、分型和/或分期，并且所述微核DNA包含表8或10中所示的基因分类器。

在一些进一步的实施方案中，所述微核DNA用于肝细胞癌的早期筛查、诊断、分型和/或分期。

在一些更进一步的实施方案中，所述微核DNA用于肺癌的早期筛查、诊断、分型和/或分期。

在一些更进一步的实施方案中，所述微核DNA用于鉴别两个癌症患者组中的每一个：CRC与HCC、LC与HCC、LC与CRC。

在一些更进一步的实施方案中，所述微核DNA用于不同类型癌症的多类别鉴别。在一个具体实施方案中，所述微核DNA用于HD(“健康供体”)、HCC、LC和CRC的多类别鉴别。

本公开的第二方面涉及一种从外周血红细胞中分离或纯化微核DNA的方法，其包括以下步骤：

a)提供外周血样本；

b)从外周血样本中分离单个核细胞和红细胞；

c)收集红细胞；

d)用红细胞裂解缓冲液处理收集的红细胞；以及

e)从裂解的红细胞中提取微核DNA。

在一个具体实施方案中，所述收集的红细胞经过两次或更多次顺序过滤，例如，通过细胞过滤器过滤，例如，通过10μm细胞过滤器过滤。

在一些实施方案中，红细胞裂解缓冲液通过改变细胞悬液的渗透压特异性地裂解红细胞，而不裂解有核细胞。

在一些实施方案中，红细胞裂解缓冲液包含NH₄Cl、NaHCO₃、EDTA或其组合。

在一些实施方案中，通过DNA提取试剂从所述裂解的红细胞中提取微核DNA。在某些实施方案中，所述DNA提取试剂包含蛋白酶，如蛋白酶K。在某些具体实施方案中，所述DNA提取试剂包含蛋白酶K和EDTA。

在一些实施方案中，在步骤b)之前，还包括对所述外周血样本进行稀释的步骤，例如通过磷酸盐缓冲液进行等体积稀释。

在一些实施方案中，在步骤b)中，所述外周血样本经密度梯度离心，如Ficoll密度梯度离心，以获得单个核细胞层和红细胞层。

本公开的第三方面涉及一种通过外周血红细胞微核DNA构建用于癌症检测的基因分类器的方法，其包括：

a)提供一个以上的类别，其中每个类别代表一组具有共同特征的受试者；

b)从每个类别的每名受试者的外周血红细胞中分离或纯化外周血红细胞微核DNA；

c)对所述外周血红细胞微核DNA进行全基因组测序，以获得微核DNA的片段序列信息；

d)比较不同类别受试者的外周血红细胞中微核DNA的片段序列信息；

e)根据不同类别受试者外周血红细胞中微核DNA的片段序列信息分布的差异，训练对于特定癌症的特征DNA片段集，从而获得用于特定癌症检测的基因分类器。

在某些实施方案中，所述不同类别是针对相同癌症的癌症受试者和非癌症受试者。

在某些实施方案中，所述不同类别是患有同一癌症的不同类型的受试者。

在某些实施方案中，所述不同类别是处于同一癌症类型的不同阶段的受试者。

本公开的第四方面涉及用于癌症检测的基因分类器，其由外周血红细胞微核DNA构建而成。

在某些实施方案中，所述基因分类器包含表2、4、6、8或10中所示的基因。

本公开的第五方面涉及一种测试受试者的癌症检测方法，其包括：

a)提取所述测试受试者外周血红细胞中的微核DNA，其中提取物不包含或基本不包含有核细胞基因组DNA；

b)通过全基因组测序对所述微核DNA和匹配样本的基因组DNA进行测序，以获得测试受试者的特定基因组元素或不同bin大小的红细胞中微核DNA的特征(signature)；

c)将步骤b)中来自不同类型样本的红细胞中匹配样本的基因组DNA和微核DNA或微核DNA与全基因组分析进行比较，从而从基因组DNA中对微核DNA进行分类，并且评估来自不同类型样本的微核DNA特征的差异；

d)将步骤b)中获得的来自不同类别的癌症患者或健康供体的微核DNA的特征信息与本公开的用于癌症检测的基因分类器或其他深度神经网络分类器进行比较，以便将测试受试者分类到一个或多个类别中。

本公开的第六方面涉及一种用于测试受试者的癌症检测的系统，其包括比较装置(means)，所述装置用于将测试受试者的外周血红细胞微核DNA与本公开的基因分类器进行比较。

本公开的第七方面涉及用于分析外周血红细胞的微核DNA的试剂在制备用于癌症筛查、诊断、分型和/或分期的检测装置或检测试剂盒中的用途。

在一些具体实施方案中，所述筛查或诊断是早期筛查或诊断。

本公开的第八方面涉及用于癌症检测的外周血红细胞微核DNA。

本公开的第九方面涉及用于分离外周血红细胞的方法。

本公开的第十方面涉及外周血红细胞在癌症检测中的用途。

以上内容是概括性的发明内容，必要时作了简化、概括和省略细节。因此，本领域的技术人员将认识到，这个概括性的发明内容仅仅是说明性的，并不旨在以任何方式进行限定。本文所述的方法、组合物和/或装置和/或其他主题的其他方面、特征和优点在本文的教导下将变得明显。提供发明内容以简化一些选定概念的介绍，这将在以下详细描述中进一步描述。本发明内容不旨在识别要求保护的客体的关键特征或本质特征，也不旨在用作确定要求保护的客体的范围的辅助手段。此外，本申请中引用的所有参考文献、专利和已公布专利申请的内容均通过援引整体并入本文。

有益效果

发明人首次从外周血红细胞中提取微核DNA，并且对提取的微核DNA进行了高通量测序。通过生物信息学分析，红细胞微核DNA已成功应用于癌症的筛查、诊断、风险分级、分型和分期，这对癌症的预防、治疗和预后具有重要的指导意义。

本发明至少在以下方面取得了优越的技术效果。

样本来源丰富

本发明以外周血为样本来源，来源丰富、稳定，并且易于获得、收集、储存和运输。

有效分离红细胞中的微核DNA通过本公开公开的方法，可以有效地从人外周血中分离出红细胞中的微核DNA。本领域未曾报道从人外周血中有效分离红细胞中的微核DNA。

操作简便、快速根据本公开，仅需从受试者收集少量(例如，仅1ml)的外周血，这可以减轻受试者的心理压力。特别是对于宫颈癌的检测，不需要收集受试者的宫颈脱落细胞，操作简便，可以有效减轻受试者的心理压力。

此外，通过高通量测序，可以对微核DNA进行快速测序，以获得遗传信息。

癌症检测的灵敏性和特异性高使用从外周血红细胞中获得的微核DNA，可以通过本公开的方法以极高的灵敏性和特异性检测癌症。

附图说明

结合以下附图，通过本公开所描述的具体实施方案和实施例，本领域的技术人员将会更加清楚本发明。

图1示出通过Ficoll密度梯度离心法分离外周血细胞的示意图。

图2示出Ficoll密度梯度离心后收集单个核细胞和红细胞。

图3示出对外周血单个核细胞基因组DNA和红细胞微核DNA的样本处理和高通量测序的流程图。

图4示出生物信息学分析的算法逻辑。

图5示出健康个体和宫颈癌患者的层级聚类。

图6示出患有不同类型宫颈癌(鳞状细胞癌和腺癌)的患者的层级聚类。

图7示出不同阶段的宫颈癌患者的层级聚类。

图8示出通过本公开的基因分类器对受试者的风险分级和对宫颈癌患者的筛查。

图9示出通过本公开的基因分类器对受试者的风险分级，并且区分宫颈鳞状细胞癌患者和宫颈腺癌患者。

图10示出健康个体和结直肠癌患者的层级聚类。

图11示出患有不同类型结直肠癌(结肠癌和直肠癌)的患者的层级聚类。

图12示出通过本公开的基因分类器对受试者的风险分级以筛查结直肠癌患者。

图13示出通过本公开的基因分类器对受试者的风险分级以区分结肠癌患者和直肠癌患者。

图14示出训练队列(左)、验证队列(中)和测试队列(右)中HD、HCC、LC和CRC样本的多类别鉴别。

图15(图15A-D)示出健康供体和癌症患者的红细胞微核DNA(即rbcDNA特征)的表征概况。

具体实施方式

虽然本发明可以以许多不同的方式来实施，但本文公开了证明本发明原理的具体说明性实施方案。应该强调的是，本发明不限于所示出的具体实施方案。此外，本文使用的任何章节标题仅用于组织目的，不应被解释为限制所描述的客体。

除非本文另有定义，与本发明相关使用的科学和技术术语将具有本领域普通技术人员通常理解的含义。此外，除非上下文另有要求，单数术语应包括复数，并且复数术语应包括单数。更具体地，如在本说明书和所附权利要求中所使用的，除非上下文另有明确说明，否则单数形式“一”、“一个”和“该”包括复数指示物。因此，例如，提及“一种蛋白”可以包括多种蛋白；并且提及“一个细胞”包括细胞的混合物等。在本申请中，除非另有说明，否则表述“或”的使用是指“和/或”。此外，术语“包含”和诸如“包括”和“含有”等其他形式的使用不受限制。此外，本说明书和所附权利要求中提供的范围包括端点和断点之间的所有值。

通常，与本文所述的细胞和组织培养、分子生物学、免疫学、微生物学、遗传学和蛋白以及核酸化学和杂交相关的术语及其技术是本领域公知和常用的。除非另有说明，否则本发明的方法和技术通常根据本领域已知的常规方法进行，如本说明书通篇引用和讨论的各种通常和更具体参考文献中所述。参见，例如，Abbas等人,Cellular and MolecularImmunology,6th ed.,W.B.Saunders Company(2010)；Sambrook J.&Russell D.MolecularCloning:A Laboratory Manual,3rd ed.,Cold Spring Harbor Laboratory Press,ColdSpring Harbor,N.Y.(2000)；Ausubel等人,Short Protocols in Molecular Biology:ACompendium of Methods from Current Protocols in Molecular Biology,Wiley,John&Sons,Inc.(2002)；Harlow and Lane Using Antibodies:A Laboratory Manual,ColdSpring Harbor Laboratory Press,Cold Spring Harbor,N.Y.(1998)；以及Coligan等人,Short Protocols in Protein Science,Wiley,John&Sons,Inc.(2003)。与本文所述的分析化学、合成有机化学、药物和药物化学以及实验室程序和技术相关的术语是本领域公知且常用的术语。此外，本文使用的任何章节标题仅用于组织目的，不应被解释为限制所描述的客体。

定义

为了更好地理解本发明，对相关术语的定义和解释如下。

在本公开的上下文中，术语“DNA”是指脱氧核糖核酸。

在本公开的上下文中，术语“微核”旨在指代在特定细胞中除细胞核之外的含有DNA的小核结构。外周血红细胞没有细胞核，所以仅有微核结构。

在本公开的上下文中，术语“宫颈细胞”包括位于子宫颈任何部分的细胞和从可能患病的子宫颈的任何部分分离的细胞。在一个实施方案中，宫颈细胞是以自然或人工方式从宫颈内壁脱落的组织分离出的细胞，也称为“宫颈脱落细胞”。

在本公开的上下文中，“受试者”是指待测试的受试者。在某些实施方案中，“受试者”是人受试者。

在本公开的上下文中，“患者”是指患有某种疾病，如宫颈癌的受试者。

在本公开的上下文中，“癌症”是恶性肿瘤的总称。“肿瘤”是指局部组织细胞在各种致瘤因素的作用下异常增生。

在本公开的上下文中，“癌症受试者”或“癌症患者”可互换使用，指患有某种癌症，如宫颈癌或结直肠癌的受试者。

在本公开的上下文中，“非癌症受试者”是指未患某种癌症的受试者。例如，“非宫颈癌受试者”是指没有宫颈癌的受试者。在本公开的具体实施方案和实施例中，“非癌症受试者”也称为“健康个体”，同样是指所述个体或受试者没有患上这类癌症。

在本公开的上下文中，术语“癌症检测”是指检测患有癌症的受试者的病况。“检测”包括但不限于筛查、诊断、分型和分期。“筛查”是指初步检测是否患有癌症或有患癌症的风险。“诊断”或“医学诊断”是指从医学角度评估患者的病况。“分型”是指将同一种癌症进一步划分为特定的亚型。例如，可以将宫颈癌分类为宫颈鳞状细胞癌和宫颈腺癌。“分期”是指预测、评估或划分癌症的阶段。例如，宫颈癌(鳞状细胞癌)可划分为三个阶段：低分化、低-中分化和高分化。

在本公开的上下文中，术语“有核细胞”是指其中存在细胞核的细胞。对于外周血，术语“有核细胞”是粒细胞、单核细胞和淋巴细胞的总称。

在本公开的上下文中，术语“基因组”是指细胞中所有遗传信息的总和，特别是细胞中的一组完整的单倍体遗传物质。

在本公开的上下文中，术语“有核细胞基因组DNA”、“有核细胞核基因组”或“有核细胞核基因组DNA”可互换使用，表示核染色体中含有的所有遗传信息。

在本公开的上下文中，术语“基因分类器”或“分类器(classifier)”可以互换使用，是指基因组DNA或微核DNA中的一组DNA片段或一组基因，其对特定疾病具有特异性。

在本公开的上下文中，术语“DNA片段文库”或“DNA文库”可以互换使用，其指通过样本DNA片段的末端补齐，在5'端添加磷酸基团，在3'端加入腺嘌呤核苷酸(A)，以及两端连接接头(adapter)和样本标签(barcode)获得双链DNA。

在本公开的上下文中，术语“来自红细胞的微核DNA”和“红细胞微核DNA”可互换使用，并且旨在指代从红细胞分离的微核DNA。在一个具体实施方案中，红细胞是外周血红细胞。因此，在本公开的上下文中，“外周血红细胞微核DNA”、“外周红细胞微核DNA”和“来自外周血红细胞的微核DNA”可互换使用。在一个具体实施方案中，微核DNA是从外周血红细胞中分离或纯化的。

在本公开的上下文中，术语“高通量测序”(也称为下一代测序(NGS))是指在单次化学反应中同时对数千(甚至数百万)DNA模板进行测序的DNA测序技术。

在本公开的上下文中，术语“读序(reads)”是指通过高通量测序测量的DNA片段文库中样本DNA片段的序列，去除了文库制备阶段连接的序列。

在本公开的上下文中，术语“覆盖深度”是指在特定区域中碱基识别的有效核酸测序片段，也称为读序数目。

在本公开的上下文中，术语“序列比对”是指通过序列相同性原则将读序与参考基因组(例如，人参考基因组)进行比对。

在本公开的上下文中，术语“参考基因组”是与样本DNA相同物种的生物体的全基因组序列，其可以从公共数据库获得。在一个实施方案中，参考基因组是人参考基因组。公共数据库没有特别限制。在一些实施方案中，公共数据库是NCBI的GenBank数据库。

在本公开的上下文中，术语“灵敏性”是指阳性测试的样本在患者总数中的百分比。在医学诊断中，灵敏性可用下式表示，反映正确诊断患者的比率：

灵敏性＝真阳性数/(真阳性数+假阴性数)×100％。

简而言之，如果“真阳性”、“假阳性”、“真阴性”和“假阴性”分别用“a”、“b”、“c”和“d”表示，则灵敏性、特异性、漏诊率、误诊率和准确度之间的关系如下所示。

在通过这个方法筛查结果为阳性的病例中，“真阳性(a)”是指经病理诊断为患病，并且方法的结果也为阳性的病例数；“假阳性(b)”是指经病理诊断为非患病，并且方法的结果为阳性的病例数；“假阴性(c)”是指经病理诊断为患病，并且方法的结果为阴性的病例数；“真阴性(d)”是指经病理诊断为非患病，并且方法的结果为阴性的病例数。

灵敏性(sen)＝a/(a+c)；

特异性(sep)＝d/(b+d)；

漏诊率＝c/(a+c)；

误诊率＝b/(b+d)；

准确度＝(a+d)/(a+b+c+d)

如本领域技术人员已知，灵敏性和特异性的值越高越好；漏诊率和误诊率越低越好。

在本公开的上下文中，术语“特异性”是指健康人中阴性测试的样本在健康人总数中的百分比。在医学诊断中，“特异性”可以用下式表示，它反映了非患者的正确诊断的比率：

特异性＝真阴性数/(真阴性数+假阳性数)×100％。

在本公开的上下文中，术语“漏诊率”，也称为假阴性率，是指在人群中筛查或诊断疾病时实际患病但根据诊断标准被确定为非患者的百分比。在医疗诊断中，漏诊率可用下式表示：

漏诊率＝假阴性数/(真阳性数+假阴性数)×100％。

在本公开的上下文中，术语“误诊率”，也称为假阳性率，是指在人群中筛查或诊断疾病时实际上并未患有疾病但根据诊断标准被确定为患有这类疾病的患者的百分比。在医学诊断中，误诊率可用下式表示：

误诊率＝假阳性数/(真阴性数+假阳性数)×100％。

在本公开的上下文中，表述“约”是指偏差不超过规定值或范围的±10％。

外周血

在本公开中，“外周血”是指由造血器官释放到循环系统中并参与循环的血液。“外周血”不同于诸如骨髓的造血器官中未成熟的血细胞。在本公开中，外周血的收集可参考本领域已知的方法，如静脉采血、指尖采血或耳垂采血。

通常，外周血由血浆和血细胞组成，其中血细胞还包括白细胞(white bloodcell)(也称为“白血球(leukocyte)”)、红细胞和血小板。按体积计算，红细胞占外周血总量的约45％，血浆占外周血总量的约54.3％，白细胞占外周血总量的约0.7％。白细胞是有核细胞，其是粒细胞、单核细胞和淋巴细胞的总称。正常的红细胞没有细胞核，没有基因组DNA，是无核细胞。

在本公开的上下文中，“外周血单个核细胞”(PBMC)是指外周血中具有单个核的细胞，其包括单核细胞和淋巴细胞。

外周血细胞的分离

外周血细胞的分离方法包括自然沉降法、差速沉降法、氯化钠分离法、密度梯度离心法等。

利用外周血不同成分之间的密度差，可以分离外周血的不同成分。例如，可以通过Ficoll密度梯度离心法或Percoll法分离外周血的不同成分。

在本公开的具体实施方案中，通过Ficoll密度梯度离心法分离外周血。具体地，它是通过以下方式进行：

1.外周血收集和样本制备

从受试者获得外周血并适当稀释。例如，可以通过加入磷酸盐缓冲溶液(PBS)来稀释。在某些实施方案中，从受试者获得约1-5ml新鲜外周血并且通过加入等体积的PBS稀释以获得稀释的血样。在一个具体实施方案中，从受试者获得1ml的新鲜外周血，加入1×PBS等体积稀释，以获得稀释后的外周血样本。

2.外周血样本的密度梯度离心

首先，将适量的Ficoll密度梯度离心液(Ficoll density gradient centrifuge)添加至密度梯度离心管中，然后添加上述稀释后的外周血样本。在某些实施方案中，以从受试者收集的外周血的体积与Ficoll密度梯度离心液的体积为约1:3-1:10的比例，将适量的Ficoll密度梯度离心液加入密度梯度离心管中。例如，在一个具体实施方案中，从受试者获得1ml新鲜的外周血，并且将5ml Ficoll密度梯度离心液(Stemcell，Lymphoprep^TM 07801)添加至密度梯度离心管中。

然后将稀释后的外周血样本缓慢添加至在Ficoll密度梯度离心管中的Ficoll密度梯度离心液中以进行密度梯度离心。可在约15-25℃和约1000-1500g·g下进行密度梯度离心约10-15分钟。在一个具体实施方案中，在1200g、18℃下进行密度梯度离心15分钟。

密度梯度离心后分为三层：上层为血浆，中层为PBMC层，以及底层为RBC层。

分别收集PBMC和RBC。例如，用吸取装置(如吸管)吸取密度梯度离心管中的中层和上层液体，并且分离和收集PBMC。用抽取装置(如针管)从密度梯度离心管底部提取底部红细胞，并且分离和收集RBC。在一个具体实施方案中，通过使用针管从密度梯度离心管底部提取底部红细胞至1.5ml离心管，添加1×PBS定容至1ml。室温300g离心10min，并收集管底的红细胞。然后用10μm细胞过滤器对收集的RBC进行两次顺序过滤，以去除有核细胞的潜在污染。

从外周血红细胞中分离微核DNA

据发明人所知，现有技术中没有关于从人外周血红细胞中分离微核DNA的报道。出乎意料的是，发明人发现通过本公开的方法可以简单高效地分离外周血红细胞的微核DNA。在某些实施方案中，首先将收集的红细胞裂解然后离心。此后，离心后从上清液中提取微核DNA。在本公开的某些实施方案中，“外周血红细胞微核DNA”包括存在于外周血红细胞中的所有DNA。在本公开的一个具体实施方案中，分离的“外周血红细胞微核DNA”不包含有核细胞基因组DNA。在本公开的另一个具体实施方案中，分离的“外周血红细胞微核DNA”基本上不包含有核细胞基因组DNA。

发明人还出人意料地发现，从外周血红细胞中分离出的微核DNA可用于检测多种癌症。

红细胞的裂解

在一些实施方案中，通过添加红细胞裂解缓冲液来裂解收集的红细胞。红细胞裂解缓冲液可以裂解红细胞，同时几乎不损伤有核细胞(如PBMC)。它可以通过轻微改变细胞悬液的渗透压而有效地裂解红细胞，并且不影响所有有核细胞。本领域常用的红细胞裂解缓冲液含有NH₄Cl、NaHCO₃、EDTA或其他组合，例如NH₄Cl、NaHCO₃和EDTA。例如，每1000ml红细胞裂解缓存液中含有8.3g NH₄Cl、1.0g NaHCO₃、1.8ml 5％ EDTA和超纯水。

红细胞裂解缓冲液可以是例如红细胞裂解缓冲液(Biosharp，目录号/ID：BL503B)、红细胞裂解缓冲液(Solarbio，目录号/ID：R1010)或BD FACS Lysing Solution红细胞裂解缓冲液(BD，目录号/ID：349202)。在一具体实施方案中，将10ml红细胞裂解缓冲液(Biosharp，目录号/ID：BL503B)添加至收集的红细胞，并且将收集的红细胞室温避光条件下裂解20分钟。

离心

此后，通过离心分离上清液和沉淀物(细胞碎片)。在一个具体实施方案中，在室温下3000g离心10分钟，然后取上清液。

微核DNA的分离

然后，从上清液中提取微核DNA。在某些实施方案中，通过添加EDTA和蛋白酶K预处理上清液中所含的DNA。在用蛋白酶K的消化过程中添加EDTA以抑制Mg²⁺-依赖性核酸酶的影响。在一个具体实施方案中，上清液与10mm EDTA(Solarbio目录号/ID：E1170)、200ug/ul蛋白酶K(ProteinaseK，Ambion，目录号/ID：AM2548)在56℃下孵育8小时。

孵育后，使用商业试剂盒或试剂提取微核DNA。商业试剂盒的实例包括但不限于QIAamp DNA Blood Mini Kit、DNAzol试剂、PureLink^TMPro 96Genomic DNAPurificationKit(Thermo，目录号/ID：K182104A)、血液基因组DNA提取系统(blood genomic DNAextraction system)(0.1-20ml)(TIANGEND，目录号/ID：P349)、HiPure Blood DNA MidiKit III(Magen，目录号/ID：D3114)。在一个具体实施方案中，使用QIAamp DNABlood MiniKit(Qiagen，Cat No./ID：51106)提取红细胞微核DNA。

从外周血单个核细胞中提取基因组DNA

可通过商业试剂盒提取外周血单个核细胞的基因组DNA。在一个具体实施方案中，对于密度梯度离心后获得的外周血单个核细胞样本，使用QIAamp DNABlood Mini Kit(Qiagen，目录号/ID：51106)提取基因组DNA。

全基因组扩增

全基因组扩增(WGA)是全基因组序列的非选择性扩增。它的主要目的是在忠实反映全基因组的基础上最大限度地增加DNA量，并且无序列偏差地扩增微组织和单细胞的全基因组DNA。

全基因组扩增方法主要分为以下类型：一，基于热循环和PCR的扩增技术；二，基于等温反应和不基于PCR的扩增技术；以及三是MALBAC(Multiple Annealing and Looping-based Amplification Cycles)。基于PCR的WGA技术包括简并寡核苷酸引物PCR(DOP-PCR)、接头-适配序列PCR(linker-adapter PCR)(LA-PCR)、散在重复序列PCR(IRS-PCR)、标记随机引物PCR(T-PCR)、引物延伸预扩增PCR(PEP-PCR)等。基于等温反应的WGA包括多重置链换扩增(MDA)、基于引物酶的全基因组扩增(pWGA)等。扩增单细胞全基因组DNA的方法主要包括MDA、MALBAC和DOP-PCR。这些扩增方法可以将细胞中pg级或fg级的DNA扩增至满足测序的μg级。

多重链置换扩增(MDA)

多重链置换扩增(MDA)最早由耶鲁大学Lizardi博士于1998年提出。这个方法是一种基于链置换扩增原理的恒温扩增方法。噬菌体Φ29DNA聚合酶用于多重链置换扩增。噬菌体Φ29DNA聚合酶对DNA模板具有很强的结合能力，其可连续扩增100Kb的DNA模板而不从模板上解离。同时，所述酶具有3'-5'核酸外切酶活性，并且扩增错误率低。

多重链置换扩增具有以下优点：

-样本无需纯化；

-稳定的产量；

-基因组的均匀(uniform)扩增；

-高保真扩增；

-操作简单，不依赖PCR反应。

MDA的商业试剂盒包括REPLI-g系列试剂盒(Qiagen Inc)、GenomiPhi系列试剂盒(GE Healthcare Inc)等。

MALBAC(多次退火环状循环扩增)

MALBAC不同于非线性或指数扩增，而是利用特殊的引物使扩增子的末端相互互补。这个技术利用独特的具有链置换活性的DNA聚合酶进行准线性全基因组预扩增，然后通过PCR技术进行指数扩增，其为下游分析提供充足的实验材料。2012年Science杂志发表了两篇与这个技术相关的文章(C.Zong et al.,Science 2012:1622-1626；S.Lu etal.,Science:1627-1630)。

MALBAC具有以下优点：

-高扩增成功率；

-均一性好；

-覆盖度高。

MALBAC的商业试剂盒包括来自YiKon的

单细胞扩增试剂盒。

简并寡核苷酸引物PCR(DOP-PCR)

DOP-PCR与常规PCR的区别在于它使用单一的半简并引物和低复性温度，没有物种特异性，与DNA的复杂程度无关，可以均匀地扩增全基因组。

DOP-PCR的商用试剂盒包括PicoPlex系列试剂盒(Rubicon Genomics Inc)、GenomePlex系列试剂盒(Sigma Aldrich Inc)、SurePlex系列试剂盒(BlueGnome，已被Illumina收购)等。

在本公开中，可以通过本领域已知的全基因组扩增方法扩增PBMC基因组DNA和RBC微核DNA。在一个具体实施方案中，通过MDA扩增PBMC基因组DNA和RBC微核DNA。具体而言，对于通过QIAamp DNABlood Mini Kit(Qiagen，货号/ID：51106)提取的PBMC基因组DNA和RBC微核DNA，分别使用REPLI-g Single Cell Kit(Qiagen，货号/ID：150345)进行MDA。得到扩增的DNA样本。

REPLI-g Single Cell Kit采用多重链置换扩增(MDA)技术，其可均匀扩增单细胞或纯化的基因组DNA，并且可以覆盖基因组所有基因位点。所有缓冲液和试剂均通过严格控制的工艺流程生产，以避免DNA污染并确保每次实验的结果可靠。

文库构建

文库的构建是将基因组DNA片段化成短的DNA分子，然后将片段化的基因组DNA连接至通用接头，进而产生数百万或甚至更多的单分子多拷贝PCR克隆阵列。

在本公开中，可以采用本领域常规方法将扩增后的DNA片段化并构建DNA片段文库。例如，可使用市售试剂盒将基因组DNA片段化并构建DNA片段文库。

在某些实施方案中，通过利用试剂盒将基因组DNA片段化并构建DNA片段文库的过程可以包括：

(i)对基因组DNA进行片段化；

(ii)对获得的DNA片段进行末端修饰：

●末端修复，

●将磷酸基团添加至上述修复的DNA片段的5'端，以及

●将腺嘌呤核苷酸(A)添加至上述修复的DNA片段的3'端(A尾(A-tailing))；

(iii)在上述修饰的DNA片段的末端连接接头和样本标签；

(iv)片段选择：将上述连接产物实施琼脂糖凝胶电泳，并且使用任何市售试剂盒回收与接头和样本标签正确连接的DNA片段(即DNA片段文库)。

(v)文库扩增：通过聚合酶链式反应(PCR)扩增如上所述与接头和样本标签正确连接的DNA片段。

在本公开的一个具体实施方案中，在MDA之后，使用TruePrep DNALibrary PrepKit V2 for Illumina(Vazyme,TD503)对扩增的DNA样本进行二代测序文库构建(secondary sequencing library construction)。

高通量测序

在本公开中，只要能够实现DNA片段文库的高通量测序，对所采用的测序方法和仪器没有特殊限制。在某些实施方案中，使用市售测序仪对DNA片段文库进行高通量测序。例如，可以使用Illumina的测序仪、Apply Biosystems(ABI)的测序仪、Roche的测序仪、Helicos的测序仪或Complete Genomics的测序仪进行DNA片段文库的高通量测序。

在一个具体实施方案中，通过Novo-seq平台(NovaSeq 6000，北京诺禾致源)对外周血单个核细胞的基因组DNA和红细胞微核DNA进行测序，测序深度为10×，数据量为30G。

在本公开具体实施方案中，红细胞微核DNA和外周血单个核细胞基因组DNA测序的原始测序文件存储在FASTQ文件中。FASTQ是一种标准的基于文本的格式，用于保存生物序列(通常是核酸序列)及其测序质量信息。

生物信息学分析

在高通量测序后，对获得的测序结果的生物信息学分析通常包括质量控制、数据比较、比对后处理等。

在本公开的某些实施方案中，对红细胞微核DNA的原始测序文件进行质量控制，将通过质量控制的测序数据与参考基因组进行比较，然后进行后处理。

在本公开的另一个实施方案中，对外周血单个核细胞的基因组DNA进行质量控制，将通过质量控制的测序数据与参考基因组进行比较。

质量控制

通过数据质量控制软件对测序数据进行质量控制。质量控制过程包括去除接头、过滤低质量读序、去除低质量3'和5'端、去除较多N的读序、数据质量检测等。常用的数据软件有FastQC、Fastx_toolkit、Trimmaic等。

作为最经典的质量控制软件，FastQC可以对高通量测序数据的基因信息进行快速统计，并且给出相应的图表报告。可以在以下网站获得所述软件：http://www.bioinformatics.babraham.ac.uk/projects/fastqc/。

另外，可以在以下网址获得Fastx_toolkit软件：http://hannonlab.cshl.edu/fastx_toolkit/；可以通过以下网站获得Trimmomaic软件：

http://www.usadellab.org/cms/？page＝trimmomatic。

在本公开的一个具体实施方案中，通过cutadapter软件(Kong,Y.,Btrim:a fast,lightweight adapter and quality trimming program for next-generationsequencing technologies.Genomics,2011.98(2):p.152-3)对红细胞微核DNA和外周血单个核细胞基因组DNA的原始测序文件进行接头去除，并且通过FastQC软件进行质量控制。

数据比较

在质量控制后，通过软件将通过质量控制的数据与参考基因组进行比较。这个领域常用的测序数据比较软件包括BWA、Bowtie、Maq、Novoalign等，所述软件可从以下网站获得：

BMA:http://bio-bwa.sourceforge.net

Bowtie:http://bowtie-bio.sourceforge.net

Maq:http://maq.sourceforge.net

Novoalign:http://www.novocraft.com/products/novoalign/

在本公开的某些实施方案中，可以通过本领域的数据比较软件将红细胞微核DNA和外周血单个核细胞基因组DNA的测序数据分别与参考基因组，如人类基因组进行比较。在本公开的一个具体实施方案中，通过BWA软件将红细胞微核DNA和外周血单个核细胞基因组DNA的测序数据与人类基因组(GenBank)进行比较。

数据的比对后处理

比对后处理可以包括以下几种情况，如去除重复读序、Indel局部重比对(Indellocal re-alignment)、碱基质量值重新校准(re-proofreading of base mass values)等。根据实际需要确定是否进行比对后处理。常用的比对后处理包括去除重复读序。由于质量问题、测序错误、比对错误、等位基因等，与参考基因组的相同位置比对的不同读序可能被视为重复。

在本公开的一些实施方案中，通过去除重复读序来进行比对后处理。在本公开的一个具体实施方案中，通过Picard软件(Weisenfeld,N.I.,等人,Direct determinationof diploid genome sequences.Genome Res,2017.27(5):p.757-767)去除不当比对和重复读序。可以从以下网站获得Picard软件：http://broadinstitute.github.io/picard/

数据分析

在数据处理后，分析获得的测序数据。

读序的比较和计数

在本公开的某些实施方案中，比较不同类型受试者的红细胞中DNA片段的片段化程度是否存在显著差异。例如，可以通过读序计数软件(如HTseq-count、featureCounts、BEDTools、Qualimap、Rsubread、GenomicRanges等)计数样本微核DNA中存在的测序片段的读序。应用方差分析(如ANOVA检验)以判断其间是否存在显着差异。

在本公开的某些具体实施方案中，通过HTseq-count软件(Anders,S.,P.T.Pyland W.Huber,HTSeq--a Python framework to work with high-throughput sequencingdata.Bioinformatics,2015.31(2):p.166-9)对红细胞微核DNA中存在的小测序片段的读序进行相对于人类基因组基因区域的计数。

在本公开的一个具体实施方案中，一类是来自宫颈癌患者的外周血红细胞微核DNA，并且另一类是来自健康个体的外周血红细胞微核DNA。

在本公开的另一个具体实施方案中，一类是来自宫颈腺癌患者的外周血红细胞微核DNA，并且另一类是来自宫颈鳞状细胞癌患者的外周血红细胞微核DNA。

在本公开的另一个具体实施方案中，一类是来自中分化宫颈鳞状细胞癌患者的外周血红细胞微核DNA，并且另一类是来自低-中分化或低分化宫颈鳞状细胞癌患者的外周血红细胞微核DNA。

在本公开的另一个实施方案中，一类是来自结直肠癌患者的外周血红细胞微核DNA，并且另一类是来自健康个体的外周血红细胞微核DNA。

在本公开的另一个实施方案中，一类是来自结肠癌患者的外周血红细胞微核DNA，并且另一类是来自直肠癌的外周血红细胞微核DNA。

数据分类和分类器构建

分类是数据挖掘的重要方法。在已有数据的基础上，学习分类函数或构建分类模型，这也称为分类器。分类器可以将数据库中的数据记录映射到给定的类，这可以应用于数据预测。分类方法包括决策树、选择树、逻辑回归、朴素贝叶斯(Naive Bayes)和深度神经网络。

在本公开的某些实施方案中，选择具有显著差异的基因作为特征，并且基于支持向量机(SVM)为已知分类样本构建分类器以预测未知样本的特定疾病分类(Huang,M.W.,etal.,SVM and SVM Ensembles in Breast Cancer Prediction.PLoS One,2017.12(1):p.e0161501)。在本公开的一些具体实施方案中，通过基于层级聚类的支持向量机算法，构建由一组相对于DNA片段的基因组成的分类器。在本公开的一个具体实施方案中，将两类样本按照Pearson相关性随机聚类，以构建由一组基因组成的分类器。

在本公开的某些实施方案中，在构建分类器之前进一步选择红细胞微核DNA的特定区域。

在本公开的某些实施方案中，利用macs2软件搜索主要富集在相对于外周血单个核细胞的基因组DNA测序读序的特定区域的红细胞微核DNA片段，并且去除峰面积，所述峰面积相对于本身作为一个整体的外周血单个核细胞，外周血单个核细胞更富集。与外周血单个核细胞相比，对红细胞特异性片段进行基因组信息注释和通路富集(KEGG，geneontology)(Chen,L.,et al.,Gene Ontology and KEGG Pathway Enrichment Analysisof a Drug Target-Based Classification System.PLoS One,2015.10(5):p.e0126492.)。

分类器的应用

在本公开构建的分类器的基础上，本发明通过以本公开所述方式从受试者中分离外周血微核DNA并进行生物学分析，本发明可广泛应用于生物学研究、医学研究、临床诊断等领域。本发明在科学研究和医学领域具有重要价值。

发明的应用

发明人首次成功地从外周血中分离出红细胞微核DNA，并将其应用于癌症检测，包括癌症的筛查、诊断、分型和分期。

在癌症中，宫颈癌和结直肠癌占新发病例和死亡病例的很大比例。

宫颈癌

宫颈癌是最常见的妇科肿瘤之一，并且发病率逐年上升。据世界卫生组织(WHO)统计，每年平均有530,000例宫颈癌新发病例，约有250,000名妇女死于宫颈癌，其中发展中国家占全球总病例数的80％(Schiffman,M.,et al.,Carcinogenic human papillomavirusinfection.Nat Rev Dis Primers,2016.2:p.16086)。在中国，每年约有140,000例宫颈癌新发病例，约有37,000人死亡。因此，宫颈癌患者的早期筛查和临床分期对宫颈癌的治疗具有重要意义。

宫颈癌的致病因素

宫颈癌的致病因素包括但不限于以下几个方面：

病毒感染

HPV感染是宫颈癌的主要致病因素。HPV有多种亚型，其中约40种与生殖道感染有关。持续感染高危型HPV亚型(亚型16、18、31、33、35、39、45、51、52、56、58、59和69)，尤其是HPV亚型16和18可引起宫颈癌。

性行为和分娩次数

其他生物学因素

沙眼衣原体(Chlamydia trachomatis)、Ⅱ型单纯疱疹病毒、滴虫(trichomoniasis)等病原体在高危型HPV感染引起的宫颈癌发病中具有协同作用。

其他行为学因素

吸烟作为HPV感染的协同因素可增加宫颈癌的风险。此外，营养不良和卫生条件差也会影响疾病的发生。

现有技术中宫颈癌的早期筛查方法

目前，宫颈癌的早期筛查主要通过病毒检测和细胞学检测来进行。其中，病毒检测主要是人乳头瘤病毒(HPV)检测，而细胞学检测主要包括巴氏涂片(Pap smear)和TCT检测。

(1)HPV检测

HPV可引起人皮肤黏膜鳞状上皮增生。根据其致病性，它可分为低危型和高危型。低危感染可引起寻常疣、生殖器疣(genital warts)(尖锐湿疣(condyloma acuminatum))以及其它症状。持续高危型人乳头瘤病毒(HPV)感染是宫颈癌的主要原因。分子流行病学分析表明，一些类型的人乳头瘤病毒(HPV)是引起浸润性宫颈癌(invasive cervicalcancer)和宫颈上皮内瘤样病变(cervical intraepithelial neoplasia)的主要原因。目前已发现80多种HPV，其中约40种可感染生殖道[Schiffman,M.,et al.,Carcinogenichuman papillomavirus infection.Nat Rev Dis Primers,2016.2:p.16086；Munoz,N.,等人,Epidemiologic classification of human papillomavirus types associated withcervical cancer.N Engl J Med,2003.348(6):p.518-27.]。其中，高危型HPV(如HPV 16和HPV 18)常与浸润性宫颈癌相关。高危型HPV的检测方法主要包括形态学观察、免疫组化法、点杂交法(dot-blot hybridization)、吸印原位杂交法(in situ blottinghybridization)、PCR/RFLP、PCR/Southern等。

通过HPV病毒检测筛查宫颈癌可识别95％以上的宫颈癌前病变，但主要针对宫颈上皮内瘤样病变(CIN)2级及以上患者，而对CIN2阴性患者的特异性较低，因为大多数女性在短暂的HPV感染后自发清除，并且几乎不会进展为CIN3和癌症(Cook,D.A.,et al.,Evaluation of a validated methylation triage signature for humanpapillomavirus positive women in the HPV FOCAL cervical cancer screeningtrial.Int J Cancer,2018)。HPV检测仅能确定女性是否感染致癌HPV，不能确定受试者癌症风险，并且仍有很少的HPV阴性的宫颈癌患者。因此，HPV检测可能会出现假阳性。在HPV检测的基础上，通常需要结合其他临床检测适应证进行后续诊断。

(2)巴氏涂片

巴氏涂片，也称为子宫颈抹片检查或巴氏试验，是一种传统且最常用的宫颈癌筛查方法。这个方法通过收集宫颈脱落细胞，染色并在显微镜下观察，检测宫颈是否存在癌前细胞或癌细胞，这一直被认为是宫颈癌检测的“金标准”(Rodriguez,A.C.and J.Salmeron,Cervical cancer prevention in upper middle-income countries.Prev Med,2017.98:p.36-38)。

结合病理观察，巴氏涂片可以清楚地识别宫颈癌的发展，但这种方法只能检测出约50％的宫颈癌前病变。样本收集质量的差异、细胞收集不足、异常细胞较少、血液或炎症细胞对异常细胞的遮蔽等都会影响涂片观察，导致检测灵敏性差(Cook,D.A.,et al.,Evaluation of a validated methylation triage signature for humanpapillomavirus positive women in the HPV FOCAL cervical cancer screeningtrial.Int J Cancer,2018)。同时，由于取样的局限性，很难有定期检测和追踪病例。

(3)TCT检测

TCT检测，也称为液基薄层细胞学检测，通过特殊的取样器收集宫颈细胞样本，但不直接进行涂片观察，而是将收集器放入装有细胞保存液的培养瓶中进行漂洗以获得足够的细胞样本(Massad,L.S.,et al.,2012updated consensus guidelines for themanagement of abnormal cervical cancer screening tests and cancerprecursors.Obstet Gynecol,2013.121(4):p.829-46)。之后，将细胞样本瓶送去实验室检验，细胞样本经自动细胞检测仪分散过滤，减少血液、黏液和炎症组织的干扰，获得薄的宫颈细胞层，用于进一步的显微镜检测和诊断。

TCT检测是近几十年来发展起来的宫颈癌巴氏涂片的优化检测方案。与传统的宫颈癌巴氏涂片相比，TCT检测显着提高了标本满意度和宫颈癌异常细胞的检出率。TCT对宫颈癌细胞的检出率为100％，还可以发现部分癌前病变(Andy,C.,L.F.Turner andJ.O.Neher,Clinical inquiries.Is the ThinPrep better than conventional Papsmear at detecting cervical cancer？J Fam Pract,2004.53(4):p.313-5)。然而，TCT对宫颈癌前病变的检出率仍然较低，对宫颈癌早期筛查和检测的灵敏性较低，并且仍有许多含义不明的非典型鳞状上皮细胞(ASC-US)和非典型腺细胞(AGC)。

上述方法仍存在一定的局限性。首先，对于上述方法，在临床使用中往往需要联合筛查方法(Zigras,T.,et al.,Early Cervical Cancer:Current Dilemmas of Stagingand Surgery.Curr Oncol Rep,2017.19(8):p.51)。其次，目前，通过上述方法用于宫颈癌筛查的样本为宫颈脱落细胞，这种取样方式不可避免地会给患者造成伤害和心理负担，同时对取样要求也有一定的限制，并且样本质量难以控制。此外，宫颈癌筛查往往需要定期检测。根据FDA标准，对于21岁以上的女性，应该每3年进行一次定期检测，以评估风险。取样质量稳定性的较大波动可能导致长期回归检验的丧失。因此，需要更可靠、更稳定的样本来源，以为宫颈癌筛查提供更动态、更准确、更有指导意义的监测方法和系统。

在本公开的上下文中，“宫颈癌”包括任何类型的宫颈癌。

宫颈癌的分类和分期

宫颈癌的发生发展有一个逐渐演变的过程，可持续数年至数十年。一般认为发展可分为几个阶段：轻度上皮内瘤变(CINI)、中度上皮内瘤变(CINII)、重度上皮内瘤变(CINIII)和浸润性癌症。

宫颈癌可根据不同的标准分为不同的类型。

根据癌症是否发生转移，宫颈癌可分为原位癌和浸润性癌症。原位癌更多见于30-35岁的女性，而浸润性癌症多见于45-55岁的女性。淋巴转移可能发生在严重宫颈癌患者中。癌灶局部浸润后，侵入淋巴管形成瘤栓，淋巴液将其引流至局部淋巴结中，并在淋巴管内扩散。

根据病理类型，宫颈癌可分为三种类型：鳞状细胞癌、腺癌和腺鳞癌。

宫颈鳞状细胞癌是宫颈癌的主要类型。根据组织学分化，它可分为三级：Ⅰ级为高分化鳞状细胞癌，Ⅱ级为中分化鳞状细胞癌(非角化性大细胞型)，Ⅲ级为低中分化和低分化鳞状细胞癌(小细胞型)。

宫颈腺癌包括黏液腺癌型和恶性腺瘤型。黏液腺癌起源于宫颈管柱状黏液细胞，显微镜下可见腺体结构。腺上皮细胞增生为多层，异型增生明显，可见有丝分裂。癌细胞呈乳突状突入腺腔。恶性腺瘤是高度分化的宫颈管黏膜腺癌。有许多大小不一、形状各异的癌腺，呈点状伸入宫颈间质深层。腺上皮细胞不典型，并且常有淋巴结转移。

出乎意料的是，发明人发现外周血红细胞微核DNA可用于宫颈癌的筛查和诊断。发明人还意外发现，利用外周血红细胞微核DNA可以区分宫颈癌的类型(宫颈癌可分为鳞状细胞癌和腺癌)。发明人还意外发现，外周血红细胞微核DNA可以对宫颈癌进行分期，例如宫颈鳞状细胞癌可以分为高分化型、中分化型、低中分化型和低分化型。这对宫颈癌的早期诊断、筛查、分型和分期具有重要意义。

结直肠癌

结直肠癌(CRC)是一种产生于结肠或直肠的癌症。它是消化道最常见的恶性肿瘤之一。早期症状不明显。随着癌症的增长而显示的症状和体征可能包括便血、体重减轻和持续疲劳(General Information About Colon Cancer.NCI.May 12,2014.Archived fromthe original on July 4,2014.Retrieved June 29,2014)。

每年大约有140万新发结直肠癌病例。结直肠癌在新诊断的癌症中排名第三，也是癌症死亡的第四大原因。研究表明，到2030年，全球结直肠癌病例数预计将增加60％，每年新增病例超过220万，每年死亡约110万(Global patterns and trends in colorectalcancer incidence and mortality.M,等人Gut.2017；66:683-91)。

在全球范围内，结直肠癌是第三大常见癌症，约占所有癌症病例的10％。它在发达国家尤为常见，其中超过65％的病例被发现为CRC，并且在女性中通常不如在男性中常见(Forman D,Ferlay J(2014)."Chapter 1.1:The global and regional burden ofcancer".In Stewart BW,Wild CP(eds.).World Cancer Report.the InternationalAgency for Research on Cancer,World Health Organization.pp.16–53.ISBN 978-92-832-0443-5)。

随着我国人民生活水平的提高，结直肠癌的发病率呈上升趋势。最新统计数据显示，中国结直肠癌(CRC)的发病率和死亡率一直保持上升趋势。2015年中国癌症统计数据显示，我国结直肠癌的发病率和死亡率在所有恶性肿瘤中居第五位，新发病例376,000例，死亡191,000例。其中，城市地区数量远高于农村地区，结肠癌发病率明显上升。大多数患者发现时已处于中晚期。结直肠癌的早期诊断极其重要，并且早期诊断可以显著增加成功治疗的可能性(5.Standards for Diagnosis and Treatment of Colorectal Cancer inChina(2017Edition)[J].Chinese Journal of Medical Frontiers(ElectronicEdition),2018,10(3):1-21)。

疾病的原因

大多数结直肠癌是由衰老和生活方式等因素引起的，仅有少数病例是由潜在的遗传性疾病引起的。风险因素包括饮食、肥胖、吸烟和缺乏身体活动。另一个危险因素是炎症性肠病，包括克罗恩病(Crohn's disease)和溃疡性结肠炎。一些遗传性疾病会导致结直肠癌，包括家族性腺瘤性息肉病和遗传性非息肉病性结肠癌。CRC通常从良性肿瘤开始，并且表现为息肉，随着时间的推移可能会癌变。

分类

按病因分类

根据病因，结直肠癌可分为三类，其中两类具有遗传因素：

-散发性结直肠癌(50％-60％)；

-家族性结直肠癌(30％-40％)；

-遗传性结直肠癌(4％-6％)。

散发性结直肠癌：散发性结直肠癌是最常见的类型，90％的患者确诊年龄在50岁及以上。它与遗传学或家族史没有直接关系。大约每20个美国人中就有一个患有这种类型的CRC。

家族性结直肠癌：一些家族易患CRC。如果家庭中不止一人患有CRC，尤其是50岁之前，更要引起重视。如果直系亲属(父母、兄弟姐妹或子女)患有结直肠癌，那么这些家庭成员患癌的风险就会增加一倍。

遗传性结直肠癌：目前已发现许多遗传性疾病与CRC有关，包括遗传性非息肉病性结肠癌(HNPCC)，又称林奇综合征(Lynch syndrome)；家族性腺瘤性息肉病(FAP)；衰减型家族性腺瘤性息肉病(AFAP)；APCI 1307K；Potts-Jaggers综合征(Potts-Jaggerssyndrome)；MYH相关性息肉病(MAP)；幼年性息肉病；遗传性息肉病。

按癌灶分类

根据癌症的病灶，结直肠癌可分为结肠癌和直肠癌。

早期筛查的重要性

诸如高脂肪饮食、吸烟和酗酒的生活方式可能会增加患结直肠癌的风险。90％以上的结直肠癌患者年龄在50岁以上。通常，由于忽视了疾病的早期症状，包括便血或排便习惯的改变，而错过了最佳治疗期。早期诊断可以显著增加成功治疗的可能性。

近年来，在美国，CRC的发病率和死亡率逐渐下降。微观模拟模型MISCAN-Colon提示，所观察到的CRC死亡率正在下降，其中约53％可能受益于CRC筛查。在2012年，美国50-75岁成年人中65.1％的接受过CRC筛查，27.7％的人从未接受过筛查。结肠镜检查是最常用的筛查检查(近62％)。从2002年到2010年，筛选率从52.3％提高到65.4％。随着筛查率的提高，对高危受试者的早期治疗和干预显着降低了CRC的发病率和死亡率(Cronin KA,LakeAJ,Scott S,et al.Annual Report to the Nation on the Status of Cancer,part I:National cancer statistics.Cancer 2018；124:2785)。

现有技术中结直肠癌的早期筛查和诊断方法

结直肠癌的早期筛查和诊断主要包括以下几种方式：

(1)结肠镜检查

结肠镜检查是CRC最准确、最普遍的诊断检查，其可定位整个大肠的病灶并且进行活检以发现同时性肿瘤(simultaneous tumor)并切除息肉。在内窥镜下观察，大多数结肠癌和直肠癌是产生于黏膜并突入管腔的管腔内肿块。肿瘤可为外生性或息肉状。脆弱、坏死或溃烂的病灶可见出血(渗血或明显出血)。一些胃肠道肿瘤病变(无症状和有症状的个体)是非息肉状的。一项研究发现，非息肉状结直肠肿瘤比息肉状肿瘤更容易发生癌变。与息肉状病变相比，在结肠镜下可能更难检测到非息肉状腺瘤引起的癌变，但结肠镜检查对这种情况比钡灌肠或CT结肠成像更敏感。当有经验的内窥镜操作者使用结肠镜检查无症状患者时，CRC的漏诊率为2％-6％。

(2)可屈性乙状结肠镜检查

据观察，近50年来，美国及世界范围内右半结肠癌或近端结肠癌的比例逐渐增加，并且产生于盲肠的肿瘤发病率增加最快。鉴于此，并考虑到并发CRC的高发生率，对于疑似患有CRC的患者，可屈性乙状结肠镜检查通常被认为不是一种合适的诊断检查，除非肿瘤在直肠内明显。在这种情况下，仍然需要进行全结肠镜检查以评估其余结肠是否同时存在息肉和癌症。然而，可屈性乙状结肠镜可用于筛查CRC。它是为数不多的经随机对照试验证明可以降低CRC发病率和患病率的方法之一。

(3)CT结肠成像

CT结肠成像，也称为虚拟结肠镜检查或CT结肠影像，它可以为充气的结肠提供计算机模拟的腔内透视。这个技术使用传统的螺旋CT扫描或MRI获取大量连续数据，并使用复杂的后处理软件生成图像，可使操作者(operator)在干净的结肠腔内以任意选定方向行走和通过(walk and pass)。CT结肠成像需要类似钡灌肠的机械性肠道准备，因为粪便在图像上可能与息肉相似，从而造成干扰。CT结肠成像还可以检测结肠外病变，这可以提供有关症状原因和肿瘤分期的信息，但也可能因不必要的检查而导致焦虑和增加成本。并且其对临床重要病变的检出率也可能较低。

与结肠镜检查相比，CT结肠成像是一种对CRC患者敏感性相似并且创伤更小的替代方法。然而，考虑到结肠镜检查可以切除/活检手术中看到的病灶和并发的癌症或息肉，结肠镜检查仍然被认为是CRC症状的金标准。当结肠镜检查的使用受到限制时，CT结肠成像优于钡灌肠(Mulder SA,Kranse R,Damhuis RA,et al.Prevalence and prognosis ofsynchronous colorectal cancer:a Dutch population-based study.Cancer Epidemiol2011；35:442)。

但由于取样和检测方式的特殊性，上述筛查方式不可避免地会给一些筛查者带来心理负担和局部伤害，这也是限制长期大规模筛查的影响因素，需要考虑患者年龄和筛查方法的适应性。

4)粪便潜血试验愈创木脂测试(gFOBT)

这个试验检测患者的粪便样本中是否含有血液。但是血液粪便测试也不是100％准确的，因为不是所有的癌症都会出血，或者它们可能不会一直出血。因此，这个测试可能会给出假阴性结果。血液也可能由于其他疾病或病况(如痔疮)而存在。愈创木脂检测粪便血红蛋白的方法是一种间接检测过氧化物酶活性的方法。各种食品中存在非血红蛋白过氧化物酶催化成分，这可能造成假阳性，从而限制了这个方法的应用。它的优势在于初步检测和筛查的方便快捷，对进一步检测和诊断具有一定的指导意义，但准确率较低。

(5)免疫化学检测(粪便免疫化学检测，FIT)

这个测试使用抗体来检测粪便潜血。FIT利用单克隆或多克隆抗体直接检测人粪便中的血红蛋白，这不受饮食影响。在定性FIT中，当粪便中的血红蛋白含量超过一定阈值后，可见颜色变化。而定量FIT可以测量这个值：当超过一定的正常范围时，将它定义为阳性。与gFOBT相比，免疫化学检测需要的粪便样本更少，并且收集粪便样本前没有饮食限制，每次仅收集一或两个粪便样本(Mettle Kalager,et al.Overdiagnosis in ColorectalCancer Screening:Time to Acknowledge a Blind Spot[J].Gastroenterology,2018August 01)。即使样本中只有潜血，也可以检测潜血。样本中的潜血表明肠道出血。这个方法特异性较高，但敏感性较差，并且也可能因其他疾病的干扰而出现假阳性或假阴性结果，这使其无法做出明确诊断。

(6)粪便DNA检测

结直肠癌一般发生于结直肠上皮组织中，并且首先生长到肠腔内。在其生长过程中，肿瘤细胞不断脱落进入肠腔并随粪便排出。粪便中脱落的肿瘤细胞含有特殊成分(如突变和甲基化的人类基因)，其可作为肿瘤标志物。粪便DNA检测分析流入粪便的结肠癌或癌前息肉细胞的几种DNA标记。可以向患者提供一种试剂盒，其中含有如何在家中收集粪便样本的说明书，然后将其送到实验室进行检测和分析。这个检测对于检测结肠癌比息肉更准确，但它不能检测所有表明肿瘤存在的DNA突变。粪便基因检测的价值在于早期诊断，可以提示结直肠癌的发生，发现癌前腺瘤，并且帮助患者在较早的阶段发现结直肠癌(Imperiale,T.F.,et al.,Multitarget Stool DNATesting for Colorectal-CancerScreening.New England Journal of Medicine,2014.370(14):p.1287-1297)。但是，粪便基因检测只能作为一种辅助诊断手段。如果出现阳性结果，则必须通过结肠镜检查进行确认和干预。然而，由于粪便DNA的复杂性，粪便DNA制备的低特异性和低成功率会导致成本效益不足，极大地阻碍了其实际应用。

上述方法取样相对方便，而且无创。无创检测更容易被患者接受，其可作为CRC筛查的指标。但由于方法的特异性和敏感性，多数只能作为辅助诊断手段，仍需结肠镜检查等其他手段进行诊断和干预。同时，对于粪便取样和处理，一定程度上的心理负担，以及粪便样本的复杂性和污染性，也造成样本检测的稳定性和重复性方面的问题(Brenner,H.,etal.,Prevention,Early Detection,and Overdiagnosis of Colorectal Cancer Within10Years ofScreening Colonoscopy in Germany.Clinical Gastroenterology andHepatology,2015.13(4):p.717-723)。因此，需要更可靠、更稳定的样本源，为CRC筛查提供更动态、更准确、更具指导性的监测系统。

出人意料的是，发明人发现外周血红细胞微核DNA可用于筛查和诊断结直肠癌。发明人进一步出人意料地发现，外周血红细胞微核DNA可用于区分结直肠癌的类型，其可分为结肠癌和直肠癌。对结直肠癌的早期诊断、筛查和风险分级具有重要意义。

肺癌

就发病率和死亡率而言，肺癌是最常见的全球范围内的癌症类型。肺癌的主要原因是吸烟，吸烟是63％的全球肺癌死亡总数的原因，并且在男女盛行吸烟的国家，吸烟是90％以上的肺癌死亡人数的原因。肺癌的原因还包括：二手烟、肺癌家族史、工作场所接触石棉、砷、铬、铍、镍、煤烟或焦油、空气污染(population)等。

按病因分类：

根据病因，肺癌可分为两大类：小细胞肺癌(SCLC)和非小细胞肺癌(NSCLC)。

SCLC(10％-15％):这类肺癌是所有类型中是最具侵略性和快速增长的。SCLC与吸烟密切相关。SCLC会迅速转移到体内的许多部位，并且最常在广泛扩散后被发现。NSCLC(85％):NSCLC具有三种主要类型，由肿瘤中发现的细胞类型指定。它们是：

-腺癌(40％)，而腺癌和其他肺癌一样与吸烟相关，这种类型也见于非吸烟者——尤其是女性——发展成肺癌。原位腺癌(以前称为细支气管肺泡癌)是腺癌的一种亚型，经常在肺部的多个部位发展并沿着原有的肺泡壁扩散。在胸部X光检查中，它也可能看起来像肺炎。它的频率正在增加，并且在女性中更为常见。患有这种类型肺癌的人往往比患有其他类型肺癌的人有更好的预后；

-鳞状细胞癌(25％-30％)，鳞状细胞癌最常发生在支气管的中央胸部区域。这种类型的肺癌最常停留在肺部，扩散到淋巴结，并长得很大，形成空腔；

-大细胞癌(10％-15％)，这种类型的癌症很高的扩散到淋巴结和远端部位的趋势。

其他类型癌症可能出现在肺部；这些类型比NSCLC和SCLC少得多，加起来仅占肺癌的5％-10％。

肺癌的诊断主要集中在影像学检查：

(1)X射线检查：X射线检查可以了解肺癌的位置和大小，并且可以看见局部肺气肿、肺不张，或由于支气管阻塞而引起的浸润性病变或病变附近的肺部炎症。(2)支气管镜检：支气管镜检可直接观察支气管内壁和管腔的病理情况。可取肿瘤组织作病理检查，或排出支气管分泌物作细胞学检查，以确诊和确定组织学类型。(3)细胞学检查：痰细胞学检查是肺癌一般筛查和诊断的一种简单有效的方法。大多数原发性肺癌患者可以在痰液中发现脱落的癌细胞。中央型肺癌痰细胞学检查的阳性率可达70％-90％，而外周型肺癌仅为50％左右。(4)ECT检查：ECT骨成像可以更早地发现骨转移。X射线胶片和骨成像均有阳性发现。如果病变的成骨生成反应是静态的，并且代谢不活跃，则骨成像为阴性并且X射线胶片为阳性。两者相辅相成，可以提高诊断率。(6)纵隔镜检查：纵隔镜检查主要用于纵隔淋巴结转移的患者，其不适用于手术治疗，并且其他方法无法获得病理诊断。

出人意料的是，发明人发现外周血红细胞微核DNA(rbcDNA)可用于筛查和诊断肺癌。发明人进一步出人意料地发现，rbcDNA特征(signature)对于肺癌的早期诊断、筛查和风险分级具有重要意义。

肝细胞癌

肝细胞癌(HCC)是第五大最常见的癌症原因，并且由于乙型肝炎和丙型肝炎病毒感染的传播，全球发病率正在增加，其病因还包括：肝硬化、酗酒、肥胖和糖尿病、滥用合成代谢类固醇、铁贮积病和黄曲霉毒素。如果及早发现，有时可以通过手术或移植治愈。在更严重的情况下，它无法治愈。

肝细胞癌血清生物标志物的检测

(1)血清甲胎蛋白(AFP)测定对这种疾病的诊断具有相对的特异性。免疫测定测量连续血清AFP≥400μg/L，并且可排除妊娠、活动性肝病等，可考虑诊断为肝癌。然而，大约30％的肝癌患者在临床上对AFP呈阴性。(2)血液酶学以及其它肿瘤标志物检查。患有肝癌的患者血清中的γ-谷氨酰转肽酶及其同工酶、异常凝血酶原、碱性磷酸酶和乳酸脱氢酶同工酶水平可能高于正常值，但缺乏特异性。

影像学检查

(1)超声检查可显示肿瘤的大小、形状、位置以及肝静脉或门静脉内是否有肿瘤血栓，诊断符合率可达90％。(2)CT检查具有高分辨率，对肝癌的诊断符合率可达90％以上，并且可以检出直径约1.0cm的小癌灶。(3)MRI诊断价值与CT相似。在鉴别肝内良性和恶性病变方面，尤其是血管瘤方面，它优于CT。(4)选择性腹腔动脉造影或肝动脉造影。对于血管丰富的癌，对肿瘤体积小于2.0cm的小肝癌其分辨率低限，其阳性率可达90％。(5)肝穿刺针吸细胞学检查，在B型超声导引下进行针吸有助于提高癌症诊断的阳性率，但伴有侵入性组织损伤(invasive tissue damage)。

出人意料的是，发明人发现外周血红细胞微核DNA(rbcDNA)可用于肝细胞癌的筛查和诊断。发明人进一步出人意料地发现，rbcDNA特征(signature)对于肝细胞癌的早期诊断、筛查和风险分级具有重要意义。

本发明与其它方法的组合应用

在某些实施方案中，本公开的方法还可以与其它方法相组合用于癌症筛查、诊断或风险分级。本领域技术人员可以根据需要选择现有技术中合适的其它方法。

在某些实施方案中，可以与本公开的方法组合的与宫颈癌相关的方法包括例如高危HPV的检测和宫颈脱落细胞的细胞学检查。在一实施方案中，针对高危型HPV的检测方法包括形态学观察法、免疫组化法、点杂交法、吸印原位杂交法、PCR/RFLP法、PCR/Southern法等。在一实施方案中，宫颈脱落细胞的细胞学检查包括TCT、巴氏涂片等。

在某些实施方案中，可以与本公开的方法组合的与结直肠癌相关的方法包括例如结肠镜检查、可屈性乙状结肠镜、CT结肠成像、粪便潜血试验、免疫化学检测、粪便DNA检测等。

实施例

在下面的部分中，通过实施例进一步阐明本发明。以举例说明的方式提供实施例，但本发明不限于以下实施例。在下面的实施例中，受试者都是人受试者。

实施例1:外周血密度梯度离心

通过以下步骤，对每名受试者的外周血样本进行密度梯度离心。

步骤1.从受试者获得1ml的新鲜外周血，并且加入等体积的1×PBS以制备稀释的血样。

步骤2.添加5ml Ficoll密度梯度离心液(Stemcell,Lymphoprep^TM 07801)至密度梯度离心管中。

步骤3.将步骤1制备的稀释的血样缓慢添加至步骤2的密度梯度离心管中。在1200g，18℃条件下进行密度梯度离心15分钟。

密度梯度离心后，样本分为三层：上层为血浆，中层为外周血单个核细胞(PBMC)，并且底层为红细胞(如图1所示)。

实施例2:血细胞的分离

实施例1的密度梯度离心后，分离外周血单个核细胞和红细胞。

具体地，如图2所示，通过吸管吸取密度梯度离心管中的中上层液体，分离并收集外周血单个核细胞样本。用针管从密度梯度离心管底部提取红细胞，并将其添加至1.5ml离心管中。向离心管中添加1×PBS至1ml液体体积。在室温300g离心10min，并收集管底的红细胞。然后用10μm细胞过滤器对收集的RBC进行两次顺序过滤，以去除有核细胞的潜在污染。

实施例3:DNA提取

在本实施例中，分别提取外周血单个核细胞基因组和红细胞微核DNA。

3.1从外周血单个核细胞中提取基因组DNA

使用QIAamp DNABlood Mini Kit(Qiagen，目录号/ID：51106)从实施例2中获得的外周血单个核细胞样本中提取基因组DNA，如图3所示。

3.2红细胞微核DNA的提取

将实施例2中获得的红细胞用红细胞裂解缓冲液裂解。具体地，向实施例2中收集的红细胞添加10ml红细胞裂解缓冲液(Biosharp，目录号/ID：BL503B)，室温避光裂解20分钟，并且在室温3000g条件下离心10分钟。取上清液并与10mm EDTA(Solarbio目录号/ID：E1170)和200ug/ul蛋白酶K(Ambion，目录号/ID：AM2548)在56℃下孵育8小时。使用QIAampDNABlood Mini Kit(Qiagen，目录号/ID：51106)提取红细胞微核DNA。

实施例4:DNA扩增、文库构建和测序

分别对实施例3中提取的外周血单个核细胞基因组DNA和红细胞微核DNA进行扩增、建库和测序。

4.1DNA扩增

使用REPLI-g Single Cell Kit(Qiagen，目录号/ID：150345)对实施例3中制备的外周血单个核细胞的基因组DNA和红细胞微核DNA进行多重链置换扩增(MDA)，以获得扩增的DNA样本。

4.2文库构建

在MDA之后，使用TruePrep DNALibrary Prep Kit V2 for Illumina(Vazyme,TD503)对扩增的DNA样本进行二代测序文库构建。

4.3高通量测序

通过Novo-seq平台对外周血单个核细胞基因组DNA和红细胞微核DNA进行测序，测序深度10×，数据量30G。

实施例5:红细胞微核DNA和外周血单个核细胞的基因组DNA的生物信息学分析

通过以下步骤对红细胞中的微核DNA信息进行生物信息学分析(生物信息学分析算法逻辑参见图4)：

1.质量控制。通过FastQC软件分别对红细胞微核DNA和外周血单个核细胞基因组DNA双端测序的原始测序文件进行质量控制。

2.去接头处理。通过cutadapter软件去除原始测序文件中的接头(Kong,Y.,Btrim:afast,lightweight adapter and quality trimming program for next-generation sequencing technologies.Genomics,2011.98(2):p.152-3)。根据测序质量，保留长度合适、配对准确的小片段的读序。

3.数据比对。通过bwa软件(http://bio-bwa.sourceforge.net)分析红细胞微核DNA和外周血单个核细胞基因组DNA的测序片段与人类基因组进行的比对，并通过Picard去除不合适和重复的读序(Weisenfeld,N.I.,et al.,Direct determination of diploidgenome sequences.Genome Res,2017.27(5):p.757-767)。

4.读序的比较和计数。使用htseq-count软件(Anders,S.,PT Pyl and W.Huber,HTSeq--a Python framework to work with high-throughput sequencingdata.Bioinformatics,2015.31(2):p.166-9)计数红细胞微核DNA中与人类基因组基因区域对应的测序小片段的读序，以比较健康个体和癌症患者红细胞中DNA片段化的程度是否存在显著差异。

5.检峰(Peak Calling)。通过macs2软件寻找红细胞微核DNA相对于外周血单个核细胞基因组DNA测序读序在特定遗传区域的主要富集片段，并且去除相对于自身整体的PBMC，外周血单个核细胞富集更多的峰区域。

6.红细胞微核DNA特异性断裂片段的基因组信息注释以及通路富集。与外周血单个核细胞相比，对红细胞特异断裂片段进行基因组信息注释和通路富集(KEGG，GeneOntology)(Chen,L.,et al.,Gene Ontology and KEGG Pathway Enrichment Analysisof aDrug Target-Based Classification System.PLoS One,2015.10(5):p.e0126492)，获得了红细胞微核DNA中特异性断裂基因。

7.数据分类和分类器构建。选择差异基因作为特征，以基于支持向量机(SVM)为已知分类样本构建分类器，以预测未知样本(Huang,MW,et al.,SVM and SVM Ensembles inBreast Cancer Prediction.PLoS One,2017.12(1):p.e0161501)。

7.1数据分类

具体地，每次选取“n”个实验样本和“m”个对照样本的基因区域的读序计数，其中“n”和“m”指样本数)。通过ANOVA检验筛选出差异基因(也称为“特征基因”)，以区分两类样本。

7.2分类器构建

分类器参数调整。基于步骤7.1中筛选的特征基因，使用算法SVM/LOOCV(留一交叉验证支持向量机)确定训练组(n＝100)。首先设置所有样本的真实标签(例如，实验组样本记为1，并且对照组样本记为0)。一次抽取一个样本作为测试集，其余所有样本(n-1)用于构建模型并测试“测试集”。测试集遍历所有样本完成n轮交叉验证，并且获得每个样本的测试结果。基于整个测试结果和每个样本的真实标签，计算准确度、灵敏性和特异性，从而调整模型的最佳参数并构建训练模型。在本研究中，SVM的参数设置为C＝100，gamma＝10^-4，其中C为惩罚系数，即对误差的容忍度；gamma是选择RBF函数作为内核(kernel)时的默认参数。

7.3对未知样本的预测

基于上一步得到的训练模型，利用未参与训练的未知样本(即测试集)，通过上一步构建的分类器对测试集样本进行预测，以获得测试集的预测结果和样本的真实标签并且呈现每个预测结果在两个类别中的比例(即风险评估指数)。预测未知样本并显示二分类的结果。

实施例6:利用红细胞微核DNA构建用于聚类健康个体和宫颈癌患者的分类器

在这个例子中，有15名受试者，包括：

实验组：9名通过其他方法诊断为宫颈癌的患者

对照组：6名健康个体(非宫颈疾病个体)。

来自宫颈癌患者的外周血样本以“P”加患者编号的形式表示。例如，“P1”代表来自第一名宫颈癌患者的外周血样本(“患者1”)，“P2”代表来自第二名宫颈癌患者的外周血样本(“患者2”)，以此类推。另外，来自健康个体的外周血样本以“H”加个体编号的形式表示。例如，“H1”代表来自第一名健康个体的外周血样本，“H2”代表来自第二名健康个体的外周血样本，以此类推。

9名宫颈癌患者的基本信息在表1中示出。“宫颈癌类型”是指通过其他方法诊断的宫颈癌类型。

表1

*:患者8为HPV阴性。

如实施例1-4所述获得每名受试者的红细胞微核DNA和外周血单个核细胞基因组DNA，并且如实施例5所述进行生物信息学分析。

具体地，选取9名原发性宫颈癌样本和6名健康女性样本进行读序计数，并且通过ANOVA检验筛选出2,306个差异基因以区分两类样本。然后，根据Pearson相关性，对两类样本进行无监督层级聚类，显示两类样本之间存在显著差异。

如图5所示，将来自宫颈癌患者的外周血样本中的红细胞微核DNA与来自健康个体的外周血样本中的红细胞微核DNA进行聚类，获得2,306个差异基因(形成区分健康个体与宫颈癌患者的分类器)。在图5中，每一行代表一个差异基因，每一列代表一名患者。

2,306个差异基因的列表在表2中示出。每个基因对应于图5中从上到下的每一行。

表2

实施例7:使用红细胞微核DNA构建用于宫颈癌患者分型的分类器

在本实施例中，有8名受试者，其包括2名通过其他方法诊断为宫颈腺癌的患者，5名通过其他方法诊断为宫颈鳞状细胞癌的患者。

来自宫颈癌患者的外周血样本以“P”加患者编号的形式表示。例如，“P1”代表来自第一名宫颈癌患者的外周血样本(“患者1”)，“P2”代表来自第二名宫颈癌患者的外周血样本(“患者2”)，以此类推。

7名宫颈癌患者的基本信息在表3中示出。“宫颈癌类型”是指通过其他方法诊断的宫颈癌类型。

表3

*:患者7是HPV阴性患者。

具体地，选取原发性宫颈癌样本中的2名腺癌样本和6名鳞状细胞癌样本(包括1个HPV阴性样本)进行读序计数，通过ANOVA检验筛选出360个差异基因以区分两类样本。然后，根据Pearson相关性，对两类样本进行无监督层级聚类，显示两类样本之间存在显著差异。

如图6所示，聚类360个差异基因(形成用于区分宫颈腺癌和宫颈鳞状细胞癌患者的分类器)。在图6中，每一行代表一个差异基因，每一列代表一名患者。

360个差异基因的列表在表4中示出。每个基因对应于图6中从上到下的每一行。

表4

实施例8:使用红细胞微核DNA构建用于宫颈癌患者分期的分类器

在本实施例中，有5名受试者，其包括2名通过其他方法诊断为中分化宫颈鳞状细胞癌的患者，3名诊断为低分化和低中分化宫颈鳞状细胞癌的患者。

来自宫颈癌患者的外周血样本以“P”加患者编号的形式表示。例如，“P1”代表来自第一名宫颈癌患者的外周血样本(“患者1”)，“P2”代表来自第二名宫颈癌患者(的外周血样本“患者2”)，以此类推。

5名宫颈癌患者的基本信息在表5中示出。“宫颈癌类型”是指通过其他方法诊断的宫颈癌类型。

表5

*:患者4为HPV阴性。

具体地，选取原发性宫颈鳞状细胞癌样本中的2名中分化宫颈鳞状细胞癌样本和3名低分化和低中分化鳞状细胞癌样本进行读序计数，通过ANOVA检验筛选出466个差异基因，以区分两类样本。然后，根据Pearson相关性，对两类样本进行无监督层级聚类，显示两类样本之间存在显著差异。

如图7所示，聚类466个差异基因(形成用于区分中分化宫颈鳞状细胞癌与宫颈低分化和低中分化鳞状细胞癌患者的分类器)。在图7中，每一行代表一个差异基因，每一列代表一名患者。

466个差异基因的列表在表6中示出。每个基因对应于图7中从上到下的每一行。

表6

实施例9.使用红细胞微核DNA对健康个体和宫颈癌患者分类

使用实施例6中构建的分类器(2,306个基因)对健康个体和宫颈癌患者进行聚类，预测来自8名受试者的8个未知样本。

检测后发现，8名样本中有5名为宫颈癌高风险(风险概率均在85％以上)，3名为宫颈癌低风险(风险概率均低于5％)。追溯预测为高风险的受试者和预测为低风险的受试者的样本来源，发现5名宫颈癌高风险样本获得自通过其他诊断方法诊断为宫颈癌的患者。三名宫颈癌低风险的样本获得自通过其他诊断方法检测到的健康个体。

结果如图8所示。在图8中，P1、P2、P3、P4和P5为5名宫颈癌患者，P3、P4和P5为训练集中9名宫颈癌样本中的3名，并且P1、P2为不在模型训练集中的宫颈癌样本；H1、H2和H3均为非宫颈癌健康个体样本。

因此，本公开的方法和基因分类器可以有效区分宫颈癌患者和健康个体。

实施例10:使用红细胞微核DNA对宫颈癌患者分型

使用实施例7中构建的分类器(360个基因)对宫颈鳞状细胞癌和宫颈腺癌患者进行聚类，预测三名未知的宫颈癌样本的分类。

检测后发现，三名样本中有两名为高风险(风险概率均在85％以上)，一名为低风险(风险概率小于5％)。追溯宫颈鳞状细胞癌高风险受试者和宫颈鳞状细胞癌低风险受试者的样本来源，发现两名宫颈鳞状细胞癌高风险样本获得自通过其他诊断方法检测到的宫颈鳞状细胞癌患者，并且一名宫颈鳞状细胞癌低风险样本获得自通过其他诊断方法检测到的健康个体。

结果如图9所示。在图9中，P1为宫颈腺癌患者，并且P2和P3为宫颈鳞状细胞癌患者。

因此，本公开的方法和基因分类器可以有效地对宫颈癌患者进行分类并区分宫颈鳞状细胞癌和宫颈腺癌。

实施例11:使用红细胞微核DNA构建用于健康个体和结直肠癌患者分类的分类器在这个实施例中，有17名受试者，包括：

实验组：4名通过其他方法诊断为结直肠癌的患者

对照组：13名健康个体(非结直肠癌个体)。

来自结直肠癌患者的外周血样本以“P”加患者编号的形式表示。例如，“P1”代表来自第一名结直肠癌患者的外周血样本(“患者1”)，“P2”代表来自第二名结直肠癌患者的外周血样本(“患者2”)，以此类推。另外，来自健康个体的外周血样本以“H”加个体编号的形式表示。例如，“H1”代表来自第一名健康个体的外周血样本，“H2”代表来自第二名健康个体的外周血样本，以此类推。

4名结直肠癌患者的基本情况在表7中示出。结直肠癌类型，例如“腺癌”，是指通过其他方法诊断的结直肠癌类型。

表7

具体地，选取4名原发性结直肠癌样本和13名健康女性样本的基因区域的读序计数，通过ANOVA检验筛选出903个差异基因，以区分两类样本。然后，根据Pearson相关性对两类样本进行无监督层级聚类，显示两类样本之间存在显著差异。

如图10所示，将来自结直肠癌患者外周血样本的红细胞微核DNA与来自健康人外周血样本的红细胞微核DNA聚类，获得903个差异基因(形成区分健康个体和结直肠癌患者的分类器)。在图10中，每一行代表一个差异基因，每一列代表一名患者。

903个差异基因的列表在表8中示出。每个基因对应于图10中从上到下的每一行。

表8

实施例12:使用红细胞微核DNA构建用于结直肠癌患者分型的分类器

在本实施例中，有10名结直肠癌癌患者，包括5名通过其他方法诊断为结肠癌的患者以及5名通过其他方法诊断为直肠癌的患者。

上述患者的外周血样本以“P”加患者编号的形式表示。例如，“P1”代表来自第一名结直肠癌患者的外周血样本(“患者1”)，“P2”代表来自第二名结直肠癌患者(“患者2”)的外周血样本，以此类推。

10名结直肠癌患者的基本信息在表9中示出。结直肠癌类型，例如“腺癌”，是指通过其他方法诊断的结直肠癌类型。

表9

具体地，从5名结肠癌样本和5名直肠癌样本的基因区域的读序计数中，通过ANOVA检验筛选出97个不同的基因，然后根据Pearson相关性对两类样本进行无监督层级聚类，显示两类样本之间存在显著差异。

如图11所示，聚类来自结肠癌和直肠癌样本的总共97个基因。每一行代表一个差异基因，每一列代表一名患者。

97个差异基因的列表在表10中示出。每个基因对应于图12中从上到下的每一行。

表10

实施例13.使用红细胞微核DNA对健康个体和结直肠癌患者分类

使用实施例11中构建的用于对健康个体和结直肠癌患者进行聚类的分类器(903个基因)，预测来自四名受试者的四个未知样本。

检测后发现，4名样本中有2名为结直肠癌高风险(风险概率均在90％以上)，2名为结直肠癌低风险(风险概率均低于5％)。追溯预测为高风险的受试者和预测为低风险的受试者的样本来源，发现两个结直肠癌高风险样本获得自通过其他诊断方法诊断为结直肠癌的患者，并且两个结直肠癌低风险的样本获得自通过其他诊断方法检测到的健康个体。

结果如图12所示。在图12中，P1和P2为两名结直肠癌患者，H1和H2为非结直肠癌健康个体样本。

因此，本公开的方法和基因分类器可以有效区分结直肠癌患者和健康个体。

实施例14.使用红细胞微核DNA对结直肠癌患者分型

使用实施例12中构建的用于聚类结肠癌和直肠癌患者的分类器(97个基因)，预测四名分类未知的结直肠癌样本。

检测后发现，4名样本中有2名为结肠癌高风险(风险概率均在85％以上)，2名为结肠癌低风险(风险概率均低于5％)。追溯结肠癌高风险的受试者和结肠癌低风险的受试者的样本来源，发现两个结肠癌高风险样本来自通过其他诊断方法检测到的结肠癌患者，两个结肠癌低风险的样本来自通过其他诊断方法诊断为直肠癌的受试者。结果如图13所示。在图13中，P1和P2为结肠癌患者，并且P2和P3为直肠癌患者。

因此，本公开的方法和基因分类器可以有效地对结直肠癌患者进行分类并区分结肠癌和直肠癌。

实施例15.rbcDNA特征在癌症患者中的判别性能(discriminative performance)

我们将HD和癌症样本随机分配到用于模型开发的训练集(70％，n＝236)，用于超参数选择的验证集(10％，n＝34)和用于模型验证的测试集(20％，n＝68)。我们的结果显示，91％(95％置信区间84-100％)的癌症患者(包括85％ LC、100％ CRC和90％ HCC)以99％的特异性被检测到。这包括86％的I期患者、92％的II期患者和100％的III期癌症患者(表14)。这个数据表明存在可以区分健康供体和癌症患者的特定rbcDNA特征。我们接下来测试了rbcDNA在区分特定癌症类型方面的效力。rbcDNA特征在健康组和癌症组的成对比较中表现出高判别性能，我们的结果显示，90％(95％置信区间68-100％)的HCC患者、100％(95％置信区间100-100％)的CRC患者和85％(95％置信区间70-100％)的LC患者的检测特异性均为95％(表15)。此外，成对和多分类测试显示出检测特定癌症的总体准确度很高，表明rbcDNA谱具有显著的判别力(图14)。

结果在表14中示出，差异rbcDNA特征的列表在表16中示出。

结果在表15中示出，HD与LC、HD与CRC、HD与HCC的差异rbcDNA特征的列表在表17、表18、表19中示出。

结果在图15中示出，差异rbcDNA特征的列表在表20中示出。

表14

表15

表14显示测试集中针对每种癌症类型的泛癌深度神经网络分类的准确率，包括相应的灵敏性和99％的特异性(CI，置信区间)。

表15显示测试集中每种癌症类型深度神经网络分类的准确率，包括相应的灵敏性和95％的特异性(CI，置信区间)。

表16

表17

表18

表19

表20

实施例16.健康供体和癌症患者中rbcDNA特征的表征

全基因组测序谱显示rbcDNA信号分布在常染色体上，具有不同于相应基因组DNA(gDNA)的特定模式(图15A)。相比癌症患者，健康供体的rbcDNA平均基因组覆盖度更高，而在不同癌症类型的患者中未观察到覆盖度的显著差异(图15B和15C)。然而，全基因组分析显示，与健康供体相比，癌症患者的rbcDNA中基因间区、内含子和外显子区域的信号明显富集。与其他癌症类型的患者相比，在CRC患者的基因间区和内含子区域检测到rbcDNA信号的适度差异富集(图15D)。

从以上实施例可以清楚地看出，发明人成功分离出外周血红细胞微核DNA，并通过利用外周血红细胞微核DNA构建了癌症检测分类器，因此实现了癌症的有效检测，这对癌症的临床筛查、诊断、分类和分期具有重要意义。

尽管已经详细描述了本发明的具体实施方案，但是本领域的技术人员应当理解，根据所公开的所有教导，可以对细节进行各种修改和变化，并且这些变化在本发明的保护范围内。本发明的全部范围由所附权利要求及其任何等同物提供。

Claims

1.微核DNA，其从外周血红细胞中分离或纯化。

2.权利要求1所述的微核DNA，其中所述外周血红细胞为人外周血红细胞。

3.权利要求1或2所述的微核DNA，其中所述微核DNA用于癌症检测，例如癌症的筛查、诊断、分型和/或分期。

4.权利要求3所述的微核DNA，其中所述癌症为宫颈癌、结直肠癌、肺癌或肝细胞癌。

5.权利要求4所述的微核DNA，其中所述癌症为宫颈癌。

6.权利要求5所述的微核DNA，其中所述微核DNA包含表2、4或6中所示的基因分类器。

7.权利要求4所述的微核DNA，，其中所述癌症为结直肠癌。

8.权利要求7所述的微核DNA，其中所述微核DNA包含表8或10中所示的基因分类器。

9.一种用于从外周血红细胞中分离或纯化微核DNA的方法，其包括以下步骤：

a)提供外周血样本；

b)从外周血样本中分离单个核细胞和红细胞；

c)收集红细胞；

d)用红细胞裂解缓冲液处理收集的红细胞；以及

e)从裂解的红细胞中提取微核DNA。

10.权利要求9所述的方法，其中所述红细胞裂解缓冲液通过改变细胞悬液的渗透压特异性地裂解红细胞，而不裂解有核细胞。

11.权利要求9所述的方法，其中所述红细胞裂解缓冲液包含NH₄Cl、NaHCO₃、EDTA或其组合。

12.权利要求11所述的方法，其中所述微核DNA通过步骤e)中的DNA提取试剂提取，所述DNA提取试剂包含蛋白酶，如蛋白酶K。

13.权利要求9-12中任一项所述的方法，其中在步骤b)之前，对外周血样本稀释进行稀释，优选地，通过磷酸盐缓冲溶液进行稀释，更优选地，通过磷酸盐缓冲溶液进行等体积稀释。

14.权利要求9所述的方法，其中在步骤b)中，所述外周血样本经密度梯度离心，如Ficoll密度梯度离心，以获得单个核细胞层和红细胞层。

15.权利要求14所述的方法，其中从红细胞层的底部收集红细胞。

16.权利要求9-12中任一项所述的方法，其中将裂解的红细胞进行离心，取上清液，从上清液中提取红细胞微核DNA。

17.权利要求9-12中任一项所述的方法，其中将裂解的红细胞进行离心，取上清液，从上清液中提取红细胞微核DNA。

18.权利要求9-12中任一项所述的方法，其中所述收集的红细胞经过两次或更多次顺序过滤，例如，通过细胞过滤器过滤，例如，通过10μm细胞过滤器过滤。

19.微核DNA，其通过权利要求9-18中任一项所述的方法从外周血红细胞中获得。

20.一种通过外周血红细胞微核DNA构建用于癌症检测的基因分类器的方法，其包括以下步骤：

a)提供一个以上的不同类别，其中每个类别代表一组具有共同特征的受试者；

21.权利要求20所述的方法，其中所述不同类别包括：

-癌症受试者和非癌症受试者；

-患有同一癌症的不同类型的受试者；或者

-处于同一癌症类型的不同阶段的受试者。

22.权利要求20或21所述的方法，其中所述癌症为宫颈癌、结直肠癌、肺癌或肝细胞癌。

23.权利要求21所述的方法，其中所述不同类别包括：

-宫颈癌受试者和非宫颈癌受试者；

-宫颈鳞状细胞癌受试者和宫颈腺癌受试者；或者

-处于宫颈鳞状细胞癌低分化、低中分化、中分化或高分化阶段的受试者。

24.权利要求21所述的方法，其中所述不同类别包括：

-结直肠癌受试者和非结直肠癌受试者；或者

-结肠癌受试者和直肠癌受试者。

25.权利要求20-24中任一项所述的方法，其中，在步骤e)中，通过层级聚类分析训练针对特定癌症的特征DNA片段集。

26.权利要求20-24中任一项所述的方法，其中所述方法还包括对每个类别的每名受试者的外周血单个核细胞的基因组DNA进行全基因组测序的步骤。

27.权利要求26所述的方法，其中所述方法还包括：

在步骤d)之前，获得受试者外周血红细胞微核DNA相对于外周血单个核细胞基因组DNA的测序读序在特定染色体区间内的富集片段，从而获得受试者外周血红细胞的特异断裂片段，其用于步骤d)中的比较。

28.一种基因分类器，其通过权利要求20-27中任一项所述的方法构建。

29.权利要求28所述的基因分类器，其包含表2、4、6、8或10中示出的基因或者由表2、4、6、8或10中示出的基因组成。

30.一种用于测试受试者的癌症检测系统，其包括比较装置，所述装置用于将测试受试者的外周血红细胞微核DNA与权利要求28的基因分类器进行比较。

31.权利要求30所述的系统，其还包括

-分离装置，其用于从测试受试者中分离外周血红细胞微核DNA；

-测序装置，其用于对测试受试者的外周血红细胞微核DNA进行测序。

32.权利要求31所述的系统，其中所述测序为高通量测序。

33.权利要求30所述的系统，其中所述系统通过包括以下步骤的方法进行癌症检测：

a)分离或纯化测试受试者外周血红细胞中的微核DNA；

b)对所述微核DNA进行全基因组测序，以获得测试受试者外周血红细胞中微核DNA的片段序列信息；

c)将步骤b)中获得的微核DNA的片段序列信息与权利要求28的基因分类器进行比较，从而将测试受试者分类为一个或多个类别。

34.权利要求33所述的系统，其中所述方法还包括对测试受试者的外周血单个核细胞的基因组DNA进行全基因组测序的步骤。

35.权利要求34所述的系统，其中所述方法还包括，在步骤c)之前，获得受试者外周血红细胞微核DNA相对于外周血单个核细胞基因组DNA的测序读序在特定染色体区间内的富集片段，从而获得受试者外周血红细胞的特异断裂片段，其用于步骤c)中的比较。

36.权利要求30所述的系统，其中所述癌症检测包括癌症的筛查、诊断、分型和/或分期。

37.权利要求36所述的系统，其中所述癌症为宫颈癌或结直肠癌。

38.用于分析外周血红细胞微核DNA的试剂在制备用于癌症筛查、诊断、分型和/或分期的检测装置或检测试剂盒中的用途。