CN112094907A

CN112094907A - 外周血红细胞微核dna及其应用

Info

Publication number: CN112094907A
Application number: CN201910527826.6A
Authority: CN
Inventors: 高晓飞; 马丽佳; 孙浩博; 陆志科; 姚星云; 李旖旎; 周洋帆; 李颖; 李咏宇
Original assignee: Westlake University
Current assignee: Hangzhou Taiming Biotechnology Co ltd
Priority date: 2019-06-18
Filing date: 2019-06-18
Publication date: 2020-12-18
Anticipated expiration: 2039-06-18
Also published as: CN112094907B

Abstract

本公开涉及外周血红细胞微核DNA，其提取方法，以及其在癌症的筛查、诊断、分型和/或分期中的应用。

Description

外周血红细胞微核DNA及其应用

技术领域

本公开涉及生物学、医学和生物信息学领域。具体而言，本公开涉及外周血红细胞微核DNA及其在癌症检测中的应用。

背景技术

癌症是威胁人类健康和生命的最主要疾病之一。据报道，2018年，全球有1810万癌症新发病例和960万癌症死亡病例，而接近一半的癌症新发病例和超过一半的癌症死亡病例发生在亚洲地区(Global Cancer Statistics 2018:GLOBOCAN Estimates ofIncidence and Mortality Worldwide for 36 Cancers in 185 Countries.BrayFreddie et al.,CA:A Cancer Journal for Clinicians.2018)。尽管通过数十年的不断探索，癌症的诊断和治疗取得了一定进展，而对于癌症检测，特别是癌症的筛查、诊断、分型和分期等，仍然存在巨大的需求。

血液在机体内不断循环，正常成人的血液总量，男子约占体重的8％，女子约占体重的7.5％。外周血样品易于收集、保存与运输，稳定性高(Dagur,P.K.and J.J.McCoy,Collection,Storage,and Preparation of Human Blood Cells.Curr Protoc Cytom,2015.73:p.5.1.1-16)。

微核通常被认为是在细胞分裂过程中染色体或染色体片段未并入其中一个子核时形成的小核结构，它通常是遗传毒性事件和染色体不稳定的标志。通常是由于不正确的修复或未修复的DNA断裂，或染色体的不分离引起的滞后的不对称染色体或染色单体片段，在主核外形成的独立于主核的小核结构(Liu,S.,et al.,Nuclear envelope assemblydefects link mitotic errors to chromothripsis.Nature,2018.561(7724):p.551-555)。

迄今为止，尚没有报道从外周血红细胞分离或纯化的微核DNA，也没有报道利用外周血红细胞微核DNA进行癌症检测。

发明内容

广义而言，本公开涉及从外周血红细胞分离或纯化的微核DNA，其提取方法，以及其在疾病的筛查、诊断、分型和/或分期中的应用。

本公开的第一个方面涉及从外周血红细胞分离或纯化的微核DNA。

在一些实施方案中，所述从外周血红细胞分离或纯化的微核DNA不包含或基本上不包含有核细胞基因组DNA。

在一些实施方案中，所述外周血是人外周血。在一个具体实施方案中，所述外周血为新鲜的人外周血。

在一些实施方案中，所述微核DNA用于癌症检测，例如癌症的早期筛查、诊断、分型和/或分期。

在一些实施方案中，所述微核DNA用于宫颈癌的早期筛查、诊断、分型和/或分期。

在一些实施方案中，所述微核DNA用于宫颈癌的早期筛查、诊断、分型和/或分期，并且所述微核DNA包含表2、4或6所示的基因分类器。

在另一些实施方案中，所述微核DNA用于结直肠癌的早期筛查、诊断、分型和/或分期。

在进一步的实施方案中，所述微核DNA用于结直肠癌的早期筛查、诊断、分型和/或分期，并且所述微核DNA包含表8或10所示的基因分类器。

本公开的第二个方面涉及从外周血红细胞分离或纯化微核DNA的方法，其包括以下步骤：

a)提供外周血样品；

b)分离外周血样品中的单个核细胞和红细胞；

c)收集红细胞；

d)用红细胞裂解液处理收集的红细胞；和

e)从所述裂解的红细胞提取微核DNA。

在一些实施方案中，所述红细胞裂解液通过改变细胞悬液的渗透压以特异性裂解红细胞，而不裂解有核细胞。

在一些实施方案中，所述红细胞裂解液包含NH₄Cl、NaHCO₃、EDTA或其组合。

在一些实施方案中，通过DNA提取试剂，从所述裂解的红细胞提取微核DNA。在某些的实施方案中，DNA提取试剂包含蛋白酶，例如蛋白酶K。在某些具体的实施方案中，DNA提取试剂包含蛋白酶K和EDTA。

在一些实施方案中，在步骤b)之前，进一步包括对外周血样品进行稀释的步骤，例如，通过磷酸盐缓冲液等体积稀释。

在一些实施方案中，在步骤b)使外周血样品经受密度梯度离心，例如Ficoll密度梯度离心，以获得单个核细胞层和红细胞层。

本公开的第三个方面涉及一种通过外周血红细胞微核DNA构建用于癌症检测的基因分类器的方法，其包括：

a)提供多于一个的不同的类别，其中每个类别代表具有共有特性的一组受试者；

b)从每个不同的类别的每一个受试者的外周血红细胞获得微核DNA，所述提取物不包含或基本上不包含有核细胞基因组DNA；

c)对所述微核DNA进行全基因组测序，以获得微核DNA的片段序列信息；

d)对比不同类别的受试者的外周血红细胞中的微核DNA的片段序列信息；

e)根据不同类别的受试者的外周血红细胞中的微核DNA的片段序列信息的差异分布，训练对于特定癌症的特征DNA片段集，从而获得用于特定癌症检测的基因分类器。

在某些实施方案中，所述不同的类别为：对于同一癌症的癌症受试者和非癌症受试者。

在某些实施方案中，所述不同的类别为：患有同一癌症的不同类型的受试者。

在某些实施方案中，所述不同的类别为：处于同一癌症类型的不同阶段的受试者。

本公开的第四个方面涉及用于癌症检测的基因分类器，其通过外周血红细胞微核DNA进行构建。

在某些实施方案中，所述基因分类器包含表2、4、6、8或10中所示的基因。

本公开的第五个方面涉及对测试受试者进行癌症检测的方法，其包括：

a)获得所述测试受试者的外周血红细胞中的微核DNA，所述提取物不包含或基本上不包含有核细胞基因组DNA；

b)对所述微核DNA进行全基因组测序，以获得所述测试受试者的外周血红细胞中的微核DNA的片段序列信息；

c)将步骤b)中获得的微核DNA的片段序列信息与本公开的基因分类器用于癌症检测的基因分类器进行对比，从而将所述测试受试者分类为所述多于一个的不同类别中的一个或多个。

本公开的第六个方面涉及用于对测试受试者进行癌症检测的系统，其包括比较装置，所示装置用于将来自测试受试者的外周血红细胞微核DNA与本公开的基因分类器进行比较。

本公开的第七个方面涉及用于分析外周血红细胞微核DNA的试剂在制备用于对癌症进行筛查、诊断、分型和/或分期的检测装置或检测试剂盒中的应用。

在某些具体实施方案中，所述筛查或诊断为早期筛查或诊断。

本公开的第八个方面涉及用于癌症检测的外周血红细胞微核DNA。

本公开的第九个方面涉及用于分离外周血红细胞的方法。

本公开的第十个方面涉及外周血红细胞在癌症检测中的应用。

以上内容是概述性的，因此必要时包含细节的简化、概括和省略；因此，本领域技术人员将认识到，该概述仅是举例说明性的，并不意图以任何方式进行限制。本文所述的方法、组合物和/或装置和/或其他主题的其它方面、特征和优势将在本文所示的教导中变得明显。提供概述以简化地介绍一些选择的概念，这些概念将在下面的详细描述中进一步描述。本概述不旨在确定所要求保护的主题的关键特征或基本特征，也不旨在用作确定所要求保护的主题的范围的辅助手段。此外，贯穿本申请引用的所有参考文献、专利和公开的专利申请的内容通过引用整体并入本文。

本发明的技术效果

本发明人首次从外周血红细胞中提取了微核DNA，并对所提取的微核DNA进行了高通量测序。通过生物信息学分析，将红细胞微核DNA成功用于癌症的筛查、诊断、风险分级、分型和分期等，对癌症的预防、治疗和预后均具有重要的指导意义。

本发明至少在以下方面取得了优异的技术效果。

样品来源丰富

本公开采用外周血作为样品来源，材料来源丰富并且容易获得，易于收集、保存与运输，稳定性高。

有效分离红细胞中的微核DNA

通过本公开的方法，能够从人外周血中有效地分离红细胞中的微核DNA。在本领域中，尚没有报道从人外周血中有效地分离红细胞中的微核DNA。

操作简便、快速

本公开仅需要从受试者采集少量(如，仅1ml)外周血，减轻受试者的心理压力。特别地，对于宫颈癌的检测而言，不需要采集受试者的宫颈脱落细胞，操作简便并且有效减轻受试者的心理压力。

此外，通过高通量测序，能够快速地对微核DNA进行测序，获得遗传学信息。

癌症检测的灵敏性和特异性高

基于从外周血红细胞获取的微核DNA，通过本公开的方法，能够以极高的灵敏性和特异性对癌症进行检测。

附图说明

通过本公开中描述的具体实施方式和实施例，并结合以下附图，本领域技术人员将对本发明更加明了。

图1显示通过Ficoll密度梯度离心分离外周血血细胞的示意图。

图2显示Ficoll密度梯度离心后，收集单个核细胞和红细胞。

图3显示对外周血单个核细胞基因组DNA和红细胞微核DNA进行样品处理和高通量测序的流程图。

图4显示生物信息学分析算法逻辑。

图5显示对健康个体和宫颈癌患者的层级聚类。

图6显示对不同类型的宫颈癌(鳞癌和腺癌)患者的层级聚类。

图7显示对处于不同分期的宫颈癌患者的层级聚类。

图8显示通过本公开的基因分类器，对受试者进行风险分级，筛查宫颈癌患者。

图9显示通过本公开的基因分类器，对受试者进行风险分级，区分宫颈癌鳞癌患者和宫颈癌腺癌患者。

图10显示对健康个体和结直肠癌患者的层级聚类。

图11显示对不同类型的结直肠癌(结肠癌和直肠癌)患者的层级聚类。

图12显示通过本公开的基因分类器，对受试者进行风险分级，筛查结直肠癌患者。

图13显示通过本公开的基因分类器，对受试者进行风险分级，区分结肠癌患者和直肠癌患者。

发明详述

虽然本发明可以以许多不同的形式来实施，但在此公开的是验证本发明原理的其具体的举例说明性实施方案。应该强调的是，本发明不限于所举例说明的具体实施方案。此外，本文使用的任何章节标题仅用于组织目的，并不被解释为限制所描述的主题。

除非在此另外定义，否则与本发明结合使用的科学和技术术语将具有本领域普通技术人员通常理解的含义。此外，除非上下文另有要求，单数形式的术语应包括复数形式，复数形式的术语应包括单数形式。更具体地，如在本说明书和所附权利要求中所使用的，除非上下文另外明确指出，否则单数形式“一”，“一个”和“该”包括复数指示物。因此，例如，提及“一种蛋白质”包括多种蛋白质；提及“一个细胞”包括细胞的混合物等。在本申请中，除非另有说明，否则使用“或”意指“和/或”。此外，术语“包含”以及其他形式(诸如“包括”和“含有”)的使用不是限制性的。此外，说明书和所附权利要求中提供的范围包括端点和断点之间的所有值。

通常，与本文描述的细胞和组织培养、分子生物学、免疫学、微生物学、遗传学和蛋白质以及核酸化学和杂交有关的术语以及其技术是本领域众所周知和常用的术语。除非另有说明，否则本发明的方法和技术通常根据本领域公知的常规方法进行，并如在本说明书全文中引用和讨论的各种通用和更具体的参考文献中所述进行。参见例如Abbas等人,Cellular and Molecular Immunology,6th ed.,W.B.Saunders Company(2010)；SambrookJ.&Russell D.Molecular Cloning:A Laboratory Manual,3rd ed.,Cold Spring HarborLaboratory Press,Cold Spring Harbor,N.Y.(2000)；Ausubel等人,Short Protocols inMolecular Biology:A Compendium of Methods from Current Protocols in MolecularBiology,Wiley,John&Sons,Inc.(2002)；Harlow and Lane Using Antibodies:ALaboratory Manual,Cold Spring Harbor Laboratory Press,Cold Spring Harbor,N.Y.(1998)；和Coligan等人,Short Protocols in Protein Science,Wiley,John&Sons,Inc.(2003)。与本文描述的分析化学，合成有机化学和药物和药物化学有关的术语以及实验室程序和技术是本领域中众所周知和常用的术语。此外，本文使用的任何章节标题仅用于组织目的，并且不被解释为限制所描述的主题。

定义

为了更好地理解本发明，相关术语的定义和解释提供如下。

在本公开的情境中，“DNA”即脱氧核糖核酸(Deoxyribonucleic acid)。

在本公开的情境中，“微核”意指特定细胞中除细胞核之外的、包含DNA的小核结构。在外周血红细胞中，不存在细胞核，因此仅有微核结构。在本公开的情境中，“宫颈细胞”包括位于宫颈的任何部位的细胞及从宫颈可以病变的任何部位脱落的细胞。在一个实施方式中，宫颈细胞是通过自然或人工方式从自宫颈内壁脱落组织分离的细胞，也称为“宫颈脱落细胞”。

在本公开的情境中，“受试者”意指接受检测的对象。在某些具体实施方案中，“受试者”为人类受试者。

在本公开的情境中，“患者”意指患有某种疾病(如宫颈癌)的受试者。

在本公开的情境中，“癌症”为恶性肿瘤的总称。肿瘤是指机体在各种致瘤因素作用下，局部组织的细胞异常增生而形成的病变。

在本公开的情境中，“癌症受试者”或者“癌症患者”可互换地使用，意指患有某种癌症(如宫颈癌或结直肠癌)的受试者。

在本公开的情境中，“非癌症受试者”意指未患有某种癌症的受试者。例如，“非宫颈癌受试者”意指未患有宫颈癌的受试者。在本公开的具体实施方案和实施例中，“非癌症受试者”也称为“健康个体”，同样地，意指该个体或受试者未患有该种癌症。

在本公开的情境中，“癌症检测”意指对受试者罹患癌症的状况进行检测。“检测”包括但不限于筛查、诊断、分型、分期等。其中，“筛查”意指初步检测是否患有癌症或存在罹患癌症的风险。“诊断”或“医学诊断”意指从医学角度对受试者的病况作出判断。“分型”意指将同一种类的癌症进一步划分为具体的亚型。例如，宫颈癌可分型为宫颈癌鳞癌和宫颈癌腺癌。“分期”意指对某种癌症所处的阶段进行预测、判断或划分。例如，宫颈癌(鳞癌)可划分为低分化、中低分化、中分化、高分化等阶段。

在本公开的情境中，“有核细胞”意指存在细胞核的细胞。对于外周血而言，“有核细胞”为粒细胞、单核细胞和淋巴细胞的总称。

在本公开的情境中，“基因组”意指以细胞内所有遗传信息，尤其指细胞中一套完整的单倍体的遗传物质的总和。

在本公开的情境中，“有核细胞基因组DNA”、“有核细胞核基因组”、或“有核细胞核基因组DNA”可互换地使用，意指有核细胞核染色体所包含的全部遗传信息。在本公开的情境中，“基因分类器”或“分类器”可互换地使用，意指基因组DNA或微核DNA中对于特定疾病具有特异性的一组DNA片段或一组基因。

在本公开的情境中，“DNA片段文库”或“DNA文库”可互换地使用，意指样品DNA片段经末端补齐、在5’端加一个磷酸集团、在3’端加一个腺嘌呤核苷酸(A)，再在两端连接接头(Adapter)和样本标签(barcode)而得到的双链DNA。

在本公开的情境中，“高通量测序(High-throughput sequencing)”(又被称为下一代测序(Next-generation sequencing，NGS))是指在单次化学反应中同时对几千(甚至几百万)DNA模板进行测序的DNA测序技术。

在本公开的情境中，“读序(reads)”是指通过高通量测序测得的DNA片段文库中样品DNA片段(减去文库制备阶段连接上去的序列后的片段)的序列。

在本公开的情境中，“覆盖深度”是指用于特定区域碱基识别的有效核酸测序片段，又称reads数目或读序数目。

在本公开的情境中，“序列比对”是指使读序(reads)通过序列一致性原则对齐到参考基因组(例如人参考基因组)上。

在本公开的情境中，“参考基因组”是可从公共数据库获得的与样品DNA同种生物的全基因组序列。在一个实施方式中，所述参考基因组是人类的参考基因组。所述公共数据库无特别限定。在某些实施方式中，所述公共数据库是NCBI的GenBank。

在本公开的情境中，“灵敏性”是指患者中得出阳性检测的样本占患者总数的百分比。在医学诊断中，灵敏性可通过如下公式表示，反映正确判断患者的比率：

灵敏性＝真阳性人数/(真阳性人数+假阴性人数)×100％。

简而言之，如果真阳性、假阳性、真阴性和假阴性分别以a、b、c、d来表示，则灵敏性、特异性、漏诊率、误诊率和准确度的关系可以如下所示。

采用本方法筛查结果为阳性的病例数中，真阳性(a)表示病理诊断为患病，同时本方法结果也为阳性的病例数；假阳性(b)表示病理诊断为无病，同时本方法结果也为阳性的病例数；假阴性(c)表示病理诊断为患病，本方法结果也为阴性的病例数；真阴性(d)表示病理诊断为无病，同时本方法结果也为阴性的病例数。

灵敏性sen＝a/(a+c)；

特异性sep＝d/(b+d)；

漏诊率＝c/(a+c)；

误诊率＝b/(b+d)；

准确度＝(a+d)/(a+b+c+d)

如本领域技术人员所知晓，灵敏性和特异性的值越高越好；漏诊率和误诊率值越低越好。

在本公开的情境中，“特异性”是指健康人中得出阴性检测的样本占健康人总数的百分比。在医学诊断中，特异性可通过如下公式表示，反映正确判断非患者的比率：

特异性＝真阴性人数/(真阴性人数+假阳性人数)×100％。

在本公开的情境中，“漏诊率”又称假阴性率，是指在一个群体中进行某疾病的筛检或诊断时，实际有病的受试者，按诊断标准被定为非患者的百分率。在医学诊断中，漏诊率可通过如下公式表示：

漏诊率＝假阴性人数/(真阳性人数+假阴性人数)×100％。

在本公开的情境中，“误诊率”又称假阳性率，是指在一个群体中进行某疾病的筛检或诊断时，实际没有罹患该疾病的受试者，按诊断标准被定为患者的百分率。在医学诊断中，误诊率可通过如下公式表示：

误诊率＝假阳性人数/(真阴性人数+假阳性人数)×100％。

在本公开的情境中，“约”表示偏差不超过所述特定数值或范围的正负10％。

外周血

在本公开中，“外周血”意指由造血器官释放到循环系统中、参与循环的血液。“外周血”不同于造血器官(如骨髓)中的未成熟血细胞。在本公开中，可通过静脉、指尖或耳垂采血等本领域公知的方式，采集外周血。

通常，外周血由血浆和血细胞组成，其中，血细胞进一步包括白细胞、红细胞和血小板。按体积计，红细胞约占外周血全血的45％，血浆约占外周血全血的54.3％，白细胞约占外周血全血的0.7％。白细胞为有核细胞，是粒细胞、单核细胞和淋巴细胞的总称；而正常红细胞没有细胞核，也没有基因组DNA，为无核细胞。

在本公开的上下文中，“外周血单个核细胞”(Peripheral blood mononuclearcell,PBMC)意指外周血中具有单个核的细胞，包括单核细胞和淋巴细胞。

外周血血细胞的分离

对于外周血血细胞的分离方法，包括自然沉降法、差异沉降法、氯化钠分离法、密度梯度离心法等。

可以利用外周血不同组分之间密度的差异，对外周血的不同组分进行分离。例如，可以通过Ficoll密度梯度离心法或Percoll分层液法对外周血不同组分进行分离。

在本公开的一个具体实施方案中，通过Ficoll密度梯度离心法来分离外周血。具体而言，通过以下方式进行：

1.外周血的采集与样品制备

自受试者获取一定体积的外周血，并进行适当稀释。例如，可以通过加入磷酸盐缓冲液(PBS)进行稀释。在某些实施方式中，自受试者获取约1-5ml的新鲜外周血，加入等体积的PBS稀释，获得经稀释的血液样品。在一个具体实施方案中，自受试者获取1ml新鲜外周血，加入1×PBS等体积稀释，获得经稀释的外周血样品。

2.外周血样品的密度梯度离心

首先，在密度梯度离心管中加入适量的Ficoll密度梯度离心液，再加入如上所述经稀释的外周血样品。在某些实施方式中，按照自受试者采集的外周血体积与Ficoll密度梯度离心液的体积比为约1:3至1:10的比例，在密度梯度离心管中加入适量的Ficoll密度梯度离心液。例如，在一个具体实施方案中，自受试者获取1ml新鲜外周血，在密度梯度离心管中加入5ml Ficoll密度梯度离心液(Stemcell,Lymphoprep^TM07801)。

然后，在密度梯度离心管中加入的Ficoll密度梯度离心液上方，缓慢加入经稀释的外周血样品，进行密度梯度离心。密度梯度离心可在约15-25℃、转速约1000-1500g进行约10-15分钟。在一个具体实施方案中，通过1200g 18℃离心15分钟，进行密度梯度离心。

密度梯度离心后，分为三层液体：上层为血浆，中层为外周血单个核细胞(PBMC)层，底层红细胞(RBC)层。

分别收集PBMC和RBC。例如，通过吸取装置(如吸管)吸取密度梯度离心管中的中上层液体，分离并收集PBMC；使用抽取装置(如针管)从密度梯度离心管管底抽取出底层红细胞，分离并收集RBC。在一个具体实施方案中，使用针管从密度梯度离心管管底抽取出底层红细胞至1.5ml离心管中，补加1×PBS至1ml，300g室温离心10min，收集管底红细胞。

外周血红细胞微核DNA的分离

根据本发明人的了解，在现有技术中尚没有从人外周血红细胞中分离微核DNA的报道。本发明人出人意料地发现，可以通过本公开的方法简便高效地分离外周血红细胞的微核DNA。在某些实施方式中，首先对收集的红细胞进行裂解，然后进行离心，其后从离心后的上清液提取微核DNA。在本公开的某些实施方案中，“外周血红细胞微核DNA”包括外周血红细胞中存在的全部DNA。在本公开的一个具体实施方案中，分离的“外周血红细胞微核DNA”不包含有核细胞基因组DNA。在本公开的另一个具体实施方案中，分离的“外周血红细胞微核DNA”基本上不包含有核细胞基因组DNA。

本发明人还出人意料地发现，从外周血红细胞中分离的微核DNA可用于各种癌症检测。

红细胞的裂解

在一些实施方式中，向收集的红细胞加入红细胞裂解液，进行裂解。红细胞裂解液可以是在裂解红细胞的同时几乎不损伤有核细胞(如PBMC)的裂解液，其通过轻微改变细胞悬液渗透压可以有效裂解红细胞而对所有有核细胞没有影响。本领域中常用的红细胞裂解液包含NH₄Cl、NaHCO₃、EDTA或其它组合，例如，包含NH₄Cl、NaHCO₃和EDTA。例如，每1000ml红细胞裂解液包含8.3g NH4Cl 1.0g NaHCO₃ 1.8ml of 5％EDTA和超纯水。

例如，红细胞裂解液可以是红细胞裂解液(Biosharp,Cat No./ID:BL503B)、红细胞裂解液(Solarbio,Cat No./ID:R1010)或BD FACS Lysing Solution红细胞裂解液(BD,Cat No./ID:349202)。在一个具体实施方案中，向收集的红细胞加入10ml红细胞裂解液(Biosharp,Cat No./ID:BL503B)，室温避光裂解20分钟。

离心

其后，通过离心来分离上清液(含上清液)和沉淀(细胞碎片)。在一个具体实施方案中，3000g室温离心10分钟，取上清液。

微核DNA的提取

然后，从上清液通过提取微核DNA。在某些实施方案中，通过加入EDTA和蛋白酶K对上清液中含有的DNA进行预处理。蛋白酶K消化过程中加入EDTA，以抑制依赖于Mg²⁺的核酸酶的作用。在一个具体实施方案中，将上清液使用10mM EDTA(Solarbio Cat No./ID:E1170),200ug/ul蛋白酶K(ProteinaseK,Ambion,Cat No./ID:AM2548)56℃孵育8小时。

孵育后，使用商用试剂盒或试剂来提取微核DNA。商用试剂盒的实例包括但不限于QIAamp DNA Blood Mini Kit、DNAzol试剂、PureLink^TMPro 96 Genomic DNA PurificationKit(Thermo,Cat No./ID:K182104A)、血液基因组DNA提取系统(0.1-20ml)(TIANGEND,CatNo./ID:P349)、HiPure Blood DNA Midi Kit III(Magen,Cat No./ID:D3114)。在一个具体实施方案中，使用QIAamp DNA Blood Mini Kit(Qiagen,Cat No./ID:51106)提取红细胞微核DNA。

外周血单个核细胞的基因组DNA的提取

可以使用商用试剂盒提取外周血单个核细胞的基因组DNA。在一个具体实施方案中，对于密度梯度离心后获得的外周血单个核细胞样品，使用QIAamp DNA Blood Mini Kit(Qiagen,Cat No./ID:51106)提取基因组DNA。

全基因组扩增

全基因组扩增(whole-genome amplification，WGA)技术是一种对全部基因组序列进行非选择性扩增的技术，主要目的在于，在如实反映基因组全貌的基础上最大限度地增加DNA的量，在没有序列倾向性的前提条件下对微量组织、单个细胞的整个基因组DNA进行扩增。

全基因组扩增的方法主要分为以下类型：一是基于热循环、以PCR为基础的扩增技术；二是基于等温反应、不以PCR为基础的扩增技术；三是多次退火环状循环扩增(multipleannealing and looping-based amplification cycles，MALBAC)。以PCR为基础的WGA技术包括：简并寡核苷酸引物PCR(DOP-PCR)、接头-适配序列PCR(linker-adapter PCR,LA-PCR)、散在重复序列PCR(interspersed repeat sequence PCR,IRS-PCR)、标记随机引物PCR(tagged random primer PCR，T-PCR)、和引物延伸预扩增PCR(primer extensionpreamplification PCR,PEP-PCR)等。基于等温反应的WGA包括：多重链置换扩增(multipledisplacement amplification,MDA)、基于引物酶的全基因组扩增(pWGA)等。

对于单个细胞的整个基因组DNA进行扩增的方法主要包括MDA、MALBAC以及DOP-PCR。这些扩增方法可以将细胞中pg级甚至fg级的DNA扩增至可满足测序的μg级样品量。

多重链置换扩增(MDA)

多重链置换扩增是1998年由耶鲁大学Lizardi博士首次提出的扩增方法。这种方法是一种基于链置换扩增原理的恒温扩增方法。在多重置换扩增中利用噬菌体Φ29 DNA聚合酶。噬菌体Φ29 DNA聚合酶对于DNA模板由很强的结合能力，能够联系扩增100Kb的DNA模板而不从模板上解离。同时，该酶具有3’-5’外切酶活性，扩增错误率低。

多重置换扩增具有以下优点：

-样品无需纯化；

-产量稳定；

-对基因组均匀扩增；

-扩增高保真度；

-操作简单，不依赖PCR反应。

用于MDA的商用试剂盒包括：REPLI-g系列试剂盒(Qiagen Inc.)、GenomiPhi系列试剂盒(GE Healthcare Inc.)等。

多次退火环状循环扩增(MALBAC)

多次退火环状循环扩增不同于非线性或指数扩增方法，而是利用特殊引物，使得扩增子的末端互补成环。该技术利用独特的既有链置换活性的DNA聚合酶进行准线性的全基因组预扩增，再通过PCR技术进行指数扩增，为下游分析提供充足的实验材料。2012年，《Science》发表了与该技术相关的两篇文章(C.Zong et al.,Science 2012:1622-1626；S.Lu et al.,Science:1627-1630)。

多次退火环状循环扩增具有以下优点：

-扩增成功率高；

-均一性好；

-覆盖度高。

用于MALBAC的商用试剂盒包括：亿康基因科技公司(YiKon)的

单细胞扩增试剂盒等。

简并寡核苷酸引物PCR(DOP-PCR)

DOP-PCR与常规PCR的区别在于，其使用单一的半简并引物和低复性温度，没有种属特异性，也与DNA的复杂性无关，能够均匀地扩增全基因组。

用于DOP-PCR的商用试剂盒包括：PicoPlex系列试剂盒(Rubicon GenomicsInc.)、GenomePlex系列试剂盒(Sigma Aldrich Inc.)、SurePlex系列试剂盒(BlueGnome，该公司已被Illumina收购)等。

在本公开中，可以通过本领域已知的全基因组扩增方法，对PBMC基因组DNA和RBC微核DNA进行扩增。在一个具体实施方案中，通过MDA对PBMC基因组DNA和RBC微核DNA进行扩增。具体而言，对于使用QIAamp DNA Blood Mini Kit(Qiagen,Cat No./ID:51106)提取的PBMC基因组DNA和RBC微核DNA，分别使用REPLI-g Single Cell Kit(Qiagen,Cat No./ID:150345)进行多重链置换扩增(MDA)，得到扩增后的DNA样品。

REPLI-g Single Cell Kit采用多重链置换扩增(MDA)技术，可均一地扩增单个细胞或纯化的基因组DNA，能够覆盖基因组所有位点。所有缓冲液和试剂生产都经过严格控制的流程，避免污染DNA，确保每次实验获得可靠的结果。

文库构建

文库构建是通过将基因组DNA先片段化形成短DNA分子，再将片段化的基因组DNA连接上通用接头，随后产生上百万甚至更多的单分子多拷贝PCR克隆阵列。

在本公开中，可采用任何本领域常规方法对扩增后的DNA进行片段化及构建DNA片段文库。例如，可以采用可商购的试剂盒对基因组DNA进行片段化及构建DNA片段文库。

在某些实施方式中，利用试剂盒对基因组DNA进行片段化及构建DNA片段文库的过程可以包括：

(i)对基因组DNA实施片段化(Fragmentation)；

(ii)对得到的DNA片段实施末端修饰：

·将粘末端修复成平末端(End Repair)，

·在经如上修复的DNA片段的5’端加一个磷酸集团，及

·在经如上修复的DNA片段的3’端加一个腺嘌呤核苷酸(A)(A-tailing)；

(iii)在经如上修饰的DNA片段的末端连接接头(Adapter)和样本标签(barcode)；

(iv)片段选择(Fragment Selection)：对如上连接产物实施琼脂糖凝胶电泳，利用任何可商购的试剂盒回收正确连接接头和样本标签的DNA片段(即DNA片段文库)。

(v)文库扩增(Library Amplification)：通过聚合酶链式反应(PCR)对如上正确连接接头和样本标签的DNA片段进行扩增。

在本公开的一个具体实施方案中，在MDA之后，扩增后的DNA样品使用TruePrepDNA Library Prep Kit V2 for Illumina(Vazyme,TD503)进行二代测序文库构建。

高通量测序

在本公开中，只要能实现对DNA片段文库的高通量测序，对所采用的测序方法及仪器无特别限制。在某些实施方式中，采用可商购的测序仪对DNA片段文库进行高通量测序。例如，可采用Illumina公司的测序仪、Apply Biosystems(ABI)公司的测序仪、Roche公司的测序仪、Helicos公司的测序仪、或Complete Genomics公司的测序仪对DNA片段文库进行高通量测序。

在一个具体实施方案中，通过Novo-seq平台(型号NovaSeq 6000，来自Novogene，北京)进行对外周血单个核细胞的基因组DNA以及红细胞微核DNA分别进行测序，10×测序深度，30G数据量。

在本公开的具体实施方案中，对红细胞微核DNA和外周血单个核细胞的基因组DNA的测序原始测序文件存贮于FASTQ文件中。FASTQ是基于文本，保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。

生物信息学分析

在高通量测序之后，对所获得的测序进行生物信息学分析，一般包括质量控制、数据比对、比对后处理等。

在本公开的某些实施方案中，对红细胞微核DNA的原始测序文件进行质量控制，将通过质控的测序数据与参考基因组进行比对，其后进行比对后处理。

在本公开的进一步的实施方案中，对外周血单个核细胞的基因组DNA进行质量控制，将通过质控的测序数据与参考基因组进行比对。

质量控制

通过数据质控软件对测序数据进行质量控制。质量控制的过程包括去接头(Adapter)、过滤低质量reads、去除低质量的3’端和5’端、去除N较多的reads、查看数据质量等。比较常用的数据软件包括FastQC、Fastx_toolkit、Trimmomaic等。

FastQC作为最经典的质控软件，可对高通量测序数据进行快速的基因信息统计，并给出相应的图表报告。该软件可以通过以下网址获得http://www.bioinformatics.bab raham.ac.uk/projects/fastqc/。

此外，Fastx_toolkit软件可以通过以下网址获得http://hannonlab.cshl.edu/ fastx_toolkit/；而Trimmomaic软件可以通过以下网址获得http://www.usadellab.org/ cms/？page＝trimmomatic。

在本公开的一个具体实施方案中，对于红细胞微核DNA和外周血单个核细胞的基因组DNA的原始测序文件，通过cutadapter软件进行去接头处理(Kong,Y.,Btrim:a fast,lightweight adapter and quality trimming program for next-generationsequencing technologies.Genomics,2011.98(2):p.152-3)，并分别通过FastQC软件进行质控。

数据比对

在质控之后，将通过质控的数据，通过软件比对到参考基因组。本领域中常用的测序数据比对软件包括BWA、Bowtie、Maq、Novoalign等，其可以通过以下网址获得：

BMA:http://bio-bwa.sourceforge.net

Bowtie:http://bowtie-bio.sourceforge.net

Maq:http://maq.sourceforge.net

Novoalign:http://www.novocraft.com/products/novoalign/

在本公开的某些实施方案中，可以通过本领域中的数据比对软件，将红细胞微核DNA和外周血单个核细胞的基因组DNA测序数据分别比对到参考基因组，例如，人类基因组。在本公开的具体实施方式中，采用BWA软件将红细胞微核DNA和外周血单个核细胞的基因组DNA测序数据分别通过BWA软件比对到人类基因组(GenBank)。

数据比对后处理

比对后处理可以包括以下情形，如去除重复的读序、Indel局部重比对、碱基质量值重新校对等。是否进行比对后处理，根据实际需要进行。比较常用的比对后处理包括去除重复的读序。比对到参考基因组上同一位置不同的读序，由于质量问题、测序错误、比对错误、等位基因等，可能被认为是重复。

在本公开的某些实施方式中，通过去除重复的读序进行比对后处理。在本公开的具体实施方案中，通过Picard软件去除比对不合适及重复的读序(Weisenfeld,N.I.,etal.,Direct determination of diploid genome sequences.Genome Res,2017.27(5):p.757-767)。Picard软件可以通过以下网址获得：http://broadinstitute.github.io/ picard/

数据分析

在数据处理之后，对所获得的测序数据进行分析。

读序的比较和计数

在本公开的某些实施方式中，对比不同类别的受试者中的红细胞中的DNA片段的断裂程度是否存在显著差异。例如，可以通过用于读序计数的软件(如HTseq-count、featureCounts、BEDTools、Qualimap、Rsubread、GenomicRanges等)，来计数样品微核DNA中存在的测序小片段读序。通过方差分析(如ANOVA检验)，来判断两者之间是否存在显著差异。

在本公开的某些具体实施方案中，通过HTseq-count软件将红细胞微核DNA中存在的测序小片段读序对应人类基因组基因区进行计数统计(Anders,S.,P.T.Pyl andW.Huber,HTSeq--a Python framework to work with high-throughput sequencingdata.Bioinformatics,2015.31(2):p.166-9)。

在本公开的一个具体实施方案中，一个类别为来自宫颈癌患者的外周血红细胞微核DNA，而另一个类别为来自健康个体的外周血红细胞微核DNA。

在本公开的另一个具体实施方案中，一个类别为来自宫颈癌腺癌患者的外周血红细胞微核DNA，而另一个类别为来自宫颈癌鳞癌的外周血红细胞微核DNA。

在本公开的另一个具体实施方案中，一个类别为来自宫颈癌鳞癌中分化患者的外周血红细胞微核DNA，而另一个类别为来自宫颈癌鳞癌中低分化或低分化患者的外周血红细胞微核DNA。

在本公开的进一步的具体实施方案中，一个类别为来自结直肠癌患者的外周血红细胞微核DNA，而另一个类别为来自健康个体的外周血红细胞微核DNA。

在本公开的更进一步的具体实施方案中，一个类别为来自结肠癌患者的外周血红细胞微核DNA，而另一个类别为来自直肠癌的外周血红细胞微核DNA。

数据分类和分类器的构建

分类是数据挖掘的一种重要方法，在已有数据的基础上习得一个分类函数或者构造一个分类模型，该函数或模型也成为分类器(Classifier)。分类器能够将数据库中的数据记录映射到给定类别中的某一个，从而应用于数据预测。分类方法包括决策树、选择树、逻辑回归、朴素贝叶斯。

在本公开的某些实施方案中，选择存在显著差异的基因作为特征，基于支持向量机(SVM)对已知分类样品构建分类器，预测未知样品的特定疾病分类(Huang,M.W.,et al.,SVM and SVM Ensembles in Breast Cancer Prediction.PLoS One,2017.12(1):p.e0161501)。在本公开的某些具体实施方案中，通过基于层级聚类的支持向量机算法，来构建由DNA断裂片段对应的一组基因组成的分类器。在本公开的一个具体实施方案中，根据皮尔逊相关性，对两类样品进行无规则聚类，来构建由一组基因组成的分类器。

在本公开的某些实施方式中，在构建分类器之前，进一步选取红细胞微核DNA的特定区间。

在本公开的某些实施方案中，通过macs2软件寻找红细胞微核DNA相对于外周血单个核细胞的基因组DNA测序读序在特定区间内主要富集的片段，去除外周血单个核细胞相对于自身整体富集较多的峰区。相比外周血单个核细胞，对红细胞特异断裂的片段进行基因组信息注释及通路富集(KEGG,Gene Ontology)(Chen,L.,et al.,Gene Ontology andKEGG Pathway Enrichment Analysis of a Drug Target-Based ClassificationSystem.PLoS One,2015.10(5):p.e0126492.)。

分类器的应用

通过从受试者中以本公开中描述的方式分离外周血微核DNA并进行生物学分析，在本公开中构建的分类器的基础上，可将本发明广泛地用于生物学研究、医学研究、临床诊断等领域。本发明在科学研究领域和医学领域具有重要的应用价值。

本发明的应用

本发明人成功地从外周血中分离出红细胞微核DNA，并首次将其应用于癌症检测，包括癌症的筛查、诊断、分型和分期。

在癌症中，宫颈癌和结直肠癌在新发病例和致死病例中均占据很大的比例。

宫颈癌

宫颈癌是最常见的妇科肿瘤之一，其发病率呈逐年升高的趋势。宫颈癌作为女性恶性肿瘤发病率第二位的肿瘤，根据世界卫生组织(WHO)的统计显示，平均每年新增宫颈癌病例53万例，约25万女性因宫颈癌死亡，其中发展中国家占全球的80％(Schiffman,M.,etal.,Carcinogenic human papillomavirus infection.Nat Rev Dis Primers,2016.2:p.16086)。在中国，每年新增宫颈癌病例约14万，死亡约3.7万。因此，宫颈癌患者的早期筛查与临床分期对宫颈癌的治疗具有重大意义。

宫颈癌的致病因素

宫颈癌的致病因素包括但不限于以下方面：

病毒感染

HPV持续感染是宫颈癌的主要致病因素。HPV有多种亚型，约40种涉及生殖道感染，其中高危型HPV(16、18、31、33、35、39、45、51、52、56、58，59和69)持续感染，尤其是HPV16、18型可以引发宫颈癌。

性行为及分娩次数

其他生物学因素

沙眼衣原体、单纯疱疹病毒II型、滴虫等病原体的感染在高危HPV感染导致宫颈癌的发病过程中有协同作用。

其他行为因素

吸烟作为HPV感染的协同因素可以增加子宫颈癌的患病风险。另外，营养不良、卫生条件差也可影响疾病的发生。

现有技术中对宫颈癌的早期筛查方法

目前，宫颈癌的早期筛查主要通过病毒检测和细胞学检测的方式进行。其中，病毒检测主要为人乳头瘤病毒(HPV)检测，而细胞学检测主要包括巴氏涂片和TCT检测。

(1)HPV检测

HPV是一种属于乳多空病毒科的乳头瘤空泡病毒A属，双链球形DNA病毒，能引起人体皮肤黏膜的鳞状上皮增殖。按其致病性可分为低危型和高危型。低危型感染可引起寻常疣、生殖器疣(尖锐湿疣)等症状；持续存在的高风险人乳头瘤病毒(HPV)感染是宫颈癌的主要原因。分子流行病学分析表明：某些类型的人乳头瘤病毒(HPV)是浸润性宫颈癌和宫颈上皮内瘤变的主要原因，目前以发现超过80种类型HPV，约40种可感染生殖道[Schiffman,M.,et al.,Carcinogenic human papillomavirus infection.Nat Rev Dis Primers,2016.2:p.16086；Munoz,N.,et al.,Epidemiologic classification of humanpapillomavirus types associated with cervical cancer.N Engl J Med,2003.348(6):p.518-27.]。其中高风险类型HPV(如HPV16型、HPV18型)常与浸润性宫颈癌相关。对高风险类型HPV的检测方法主要有：形态学观察法、免疫组化法、点杂交法、吸印原位杂交法、PCR/RFLP法、PCR/Southern法等。

通过对HPV病毒检测的方式对宫颈癌筛查，可以识别>95％的癌前宫颈病变，但其主要针对宫颈上皮内瘤变(CIN)2级或更严重患者，而针对CIN2阴性患者特异性相对较低，因为多数女性均存在短暂HPV感染后会自发清除而几乎不会进展到CIN3和癌症(Cook,D.A.,et al.,Evaluation of a validated methylation triage signature for humanpapillomavirus positive women in the HPV FOCAL cervical cancer screeningtrial.Int J Cancer,2018)。HPV检测只能确定女性是否感染致癌性HPV，但并不能确定个体癌变风险，并且还存在极少部分HPV阴性宫颈癌患者。因此，HPV检测可能存在假阳性的问题；在HPV检测的基础上，通常需要结合其它临床检测指征，进行后续诊断。

(2)巴氏涂片

巴氏涂片(Pap Smear)，又称子宫颈抹片检查或巴氏试验，是一种传统的也是最常用的宫颈癌筛查方法。该方法通过收集宫颈脱落细胞，进行染色显微观察细胞形态，测试子宫颈上是否存在癌前细胞或癌细胞，其一直被认为是宫颈癌检测的“金标准”(Rodriguez,A.C.and J.Salmeron,Cervical cancer prevention in upper middle-incomecountries.Prev Med,2017.98:p.36-38)。

结合病理学观察，巴氏涂片可对宫颈癌病变发展有明确鉴定，但这种方法仅能检测出约50％的宫颈癌前病变。由于样品采集质量差异，细胞收集不足，异常细胞较少，血液或炎症细胞遮蔽异常细胞均会影响涂片观察，导致检测灵敏性较差(Cook,D.A.,et al.,Evaluation of a validated methylation triage signature for humanpapillomavirus positive women in the HPV FOCAL cervical cancer screeningtrial.Int J Cancer,2018)。同时，由于采样限制，定期检测病例追溯较难以进行。

(3)TCT检测

TCT检测，液基薄层细胞学检测的简称，其通过特殊采样器采集子宫颈细胞样本，但并不直接进行涂片观察，而是将采集器置入装有细胞保存液的培养瓶中进行漂洗，以此获得足够多的细胞样本(Massad,L.S.,et al.,2012 updated consensus guidelines forthe management of abnormal cervical cancer screening tests and cancerprecursors.Obstet Gynecol,2013.121(4):p.829-46)。之后对细胞样本瓶进行实验室送检，使用全自动细胞检测仪对细胞样本进行分散并过滤，以减少血液、粘液及炎症组织的干扰，获得薄层宫颈细胞层，以进行进一步的显微检测和诊断。

TCT检测是近几十年来发展起来对宫颈癌巴氏涂片的优化检测方案。与传统的宫颈癌巴氏涂片相比，TCT检测明显提高了标本的满意度及宫颈癌异常细胞检出率。TCT检测宫颈癌细胞的检出率为100％，同时还可以发现部分癌前病变(Andy,C.,L.F.Turner andJ.O.Neher,Clinical inquiries.Is the ThinPrep better than conventional Papsmear at detecting cervical cancer？J Fam Pract,2004.53(4):p.313-5)。然而，TCT检测对宫颈癌前病变的检出率依旧较低，对宫颈癌的早期筛查与检测敏感度较低，主观性大，诊断出的不明意义的非典型鳞状上皮细胞(ASC-US)和非典型腺细胞(AGC)仍较多。

上述方法仍存在一定的局限性。首先，对于上述方法而言，通常只有在细胞涂片或HPV筛查阳性患者，再进行阴道镜或病理诊断才能准确判断病情，往往在临床使用时需通过联合使用的方式进行筛查(Zigras,T.,et al.,Early Cervical Cancer:CurrentDilemmas of Staging and Surgery.Curr Oncol Rep,2017.19(8):p.51)。其次，上述方法对于宫颈癌筛查所使用样品目前均为子宫颈脱落细胞，无论是进行细胞涂片观察或进行HPV检测，取样方式对患者难免造成损伤与心理负担，同时对取样要求有一定限制，样品质量难以控制。另外，对宫颈癌筛查，往往需要定期检测。根据FDA标准，对>21岁女性，需每3年进行定期检测，评估风险，采样质量稳定性波动较大可能导致长期回归检测流失较大。因此，需要更为可靠稳定的样品来源，对宫颈癌筛查提供更为动态、准确和具有指导意义的监测方法和系统。

在本公开的情境中，“宫颈癌”包括任何类型的宫颈癌。

宫颈癌的分型与分期

宫颈癌的发生和发展有一个渐进的演变过程，时间可以从数年到数十年，一般认为演变分几个阶段：轻度(CINI)、中度(CINII)和重度上皮内瘤样病变(CINIII)、浸润癌。

可以按照不同的标准，将宫颈癌划分为不同的类型。

按照癌症是否转移，可以将宫颈癌划分为原位性和浸润癌。原位癌多发于30-35岁的女性，而浸润癌则多发于45-55岁的女性。对于严重的宫颈癌患者，可能发生淋巴转移。癌灶局部浸润后侵入淋巴管形成瘤栓，随淋巴液引流进入局部淋巴结，在淋巴管内扩散。

根据病理类型，可以将宫颈癌划分为：鳞癌型、腺癌型和腺鳞癌型三种类型。

鳞癌型宫颈癌(在本文中也成为“宫颈癌鳞癌”)是宫颈癌的主要类型。按照组织学分化分为III级：I级为高分化鳞癌型，II级为中分化鳞癌型(非角化性大细胞型)，III级为中低分化及低分化鳞癌型(小细胞型))。

腺癌型宫颈癌(在本文中也成为“宫颈癌腺癌”)包括粘液腺癌型和恶性腺瘤型(又称微偏腺癌型)。粘液腺癌来源于宫颈管柱状黏液细胞，镜下见腺体结构，腺上皮细胞增生呈多层，异型性增生明显，见核分裂象，癌细胞呈乳突状突入腺腔。恶性腺瘤属高分化宫颈管黏膜腺癌。癌性腺体多，大小不一，形态多变，呈点状突起伸入人宫颈间质深层，腺上皮细胞无异型性，常有淋巴结转移。

腺鳞癌型宫颈癌的癌组织中含有腺癌型和鳞癌型两种类型。

本发明人出人意料地发现，外周血红细胞微核DNA能够用于对宫颈癌进行筛查和诊断。本发明人进一步出人意料地发现，外周血红细胞微核DNA能够用于对宫颈癌的类型进行区分，将宫颈癌区分为鳞癌和腺癌。本发明人再进一步出人意料地发现，外周血红细胞微核DNA能够将宫颈癌进行分期，例如，将宫颈癌鳞癌区分为高分化型、中分化型、以及中低分化和低分化型。对于宫颈癌的早期诊断、筛查、分型和分期具有重要意义。

结直肠癌

结直肠癌(CRC)是从结肠或直肠产生的癌症，是胃肠道中最常见的恶性肿瘤之一，早期症状不明显，随着癌肿的增大而表现出的症状和体征可包括粪便中的血液、排便的变化、体重减轻以及一直感到疲倦(General Information About Colon Cancer.NCI.May12,2014.Archived from the original on July 4,2014.Retrieved June 29,2014)。

每年结直肠癌新发患者约为140万例。结直肠癌在新诊断癌症中排在第三位，也是第四位癌症致死原因。有研究表明，预计到2030年，全球结直肠癌病例数预计将增加60％，每年将超过220万新发病例且导致每年约110万患者死亡(Global patterns and trendsin colorectal cancer incidence and mortality.Arnold M,et al.Gut.2017；66:683-91)。

在全球范围内，结肠直肠癌是第三种最常见的癌症，约占所有癌症病例的10％。尤其在发达国家更为常见，其中超过65％的病例被发现为CRC，且通常女性比男性少见(Forman D,Ferlay J(2014)."Chapter 1.1:The global and regional burden ofcancer".In Stewart BW,Wild CP(eds.).World Cancer Report.the InternationalAgency for Research on Cancer,World Health Organization.pp.16–53.ISBN 978-92-832-0443-5)。

随着我国人民生活水平的提高，结直肠癌发病率呈上升趋势。最新统计数据显示,我国结直肠癌(CRC)的发病率和死亡率均保持上升趋势。2015中国癌症统计数据显示：我国结直肠癌发病率、死亡率在全部恶性肿瘤中均位居第5位，其中新发病例37.6万，死亡病例19.1万。其中，城市地区远高于农村，且结肠癌的发病率上升显著。多数患者发现时已属于中晚期。结直肠癌的早期诊断极为重要，早期诊断能显著增加治疗成功的可能性(5.中国结直肠癌诊疗规范(2017年版)[J].中国医学前沿杂志(电子版),2018,10(3):1-21)。

起因

大多数结肠直肠癌是由于年老和生活方式因素造成的，只有少数病例由于潜在的遗传性疾病。风险因素包括饮食、肥胖、吸烟和缺乏身体活动。另一个危险因素是炎症性肠病，包括克罗恩病和溃疡性结肠炎。一些遗传性疾病导致结直肠癌的原因包括家族性腺瘤性息肉病和遗传性非息肉病性结肠癌。CRC通常以良性肿瘤开始、以息肉的形式出现，随着时间的推移会发生癌变。

分类

按照起因，可将结直肠癌分为三大类，其中两类具有遗传因素：

-散发性结直肠癌(50％到60％)；

-家族性结直肠癌(30％到40％)；

-遗传性结直肠癌：4％到6％。

散发性结直肠癌：散发性结直肠癌是最常见的类型，90％的患者在50岁及以上时诊断出该疾病。它与遗传学或家族史无直接关系。大约每20个美国人中便有1人患有此类型的CRC。

家族性结直肠癌：某些家族易患CRC。如果家族中不止一个人患有CRC，尤其是在50岁前发病，则务必引起重视。如果直系亲属(父母、兄弟姐妹或子女)患有结直肠癌，则此类家庭成员的患病风险将会加倍。

遗传性结直肠癌：目前，已发现很多遗传性疾病与CRC相关，这些综合征包括：遗传性非息肉病性结肠癌(HNPCC)，又称Lynch综合征；家族性腺瘤性息肉病(FAP)；衰减型家族性腺瘤性息肉病(AFAP)；APCI 1307K；珀茨-杰格斯综合征；MYH相关性息肉病(MAP)；幼年性息肉病；遗传性息肉病。

按照部位进行分类

按照癌症所处的部位，可以将结直肠癌划分为结肠癌和直肠癌。

早期筛查的重要性

高脂饮食、吸烟和酗酒等生活方式都可能会增加患结直肠癌的风险。九成以上的结直肠癌患者年龄超过50岁。通常往往由于忽视病变的早期症状，包括粪便带血或排便习惯的变化而错失最佳治疗时期。早期诊断能显着增加治疗成功的可能性。

近年来，在美国，CRC的发病频率和死亡率在逐渐下降，微观模拟模型MISCAN-Colon提示，所观察到的CRC死亡率下降，可能约有53％得益于CRC筛查。2012年，美国有65.1％的50-75岁成人一直接受CRC筛查，有27.7％的人从未接受过筛查。结肠镜是最常使用的筛查检查(接近62％)。2002-2010年间，筛查率从52.3％升到了65.4％，随筛查率的提高，针对风险个体进行早期治疗与干预，明显降低了CRC的发病频率与死亡率(Cronin KA,Lake AJ,Scott S,et al.Annual Report to the Nation on the Status of Cancer,part I:National cancer statistics.Cancer 2018；124:2785)。

现有技术中结直肠癌的早期筛查与诊断方法

结直肠癌的早期筛查与诊断主要包括以下方式：

(1)结肠镜检查

结肠镜检查是CRC最准确、最通用的诊断性检查，可以在整个大肠中定位病灶并进行活检，发现同时性肿瘤并切除息肉。在内镜下观察，绝大多数结肠癌和直肠癌是起源于黏膜且突入管腔的腔内肿块。肿块可呈外生型或息肉状。质脆、坏死或溃疡的病变部位可能观察到出血(渗血或者明显出血)。肠壁环周或近环周受累与放射影像学检查观察到的所谓“苹果核”征一致。少数胃肠道肿瘤病灶(无症状和有症状个体中均可存在)呈非息肉状，且相对平坦或凹陷。一项研究发现，非息肉状结直肠肿瘤比息肉状肿瘤更倾向于为癌变(carcinoma)。相比于息肉状病变，非息肉状(平坦)腺瘤引起的癌症在结肠镜下可能更难发现，但结肠镜检查对这种情况的敏感性优于钡灌肠或CT结肠成像，经验丰富的内镜操作者使用结肠镜检查无症状患者时，CRC的漏诊率为2％-6％。

(2)可屈性乙状结肠镜检查

据观察，在过去50年间，美国和全球范围内右半结肠癌或近端结肠癌所占比例都在逐渐升高，原发于盲肠的肿瘤发病率增加最快。鉴于此点，并且考虑到同时性CRC的高发病率，对于疑似CRC的患者，除非在直肠可触及肿块，否则通常认为可屈性乙状结肠镜检查并不是恰当的诊断性检查。在这种情况下，仍需要全结肠镜检查来评估其余结肠有无同时性息肉和癌症然而，采用可屈性乙状结肠镜检查来筛查CRC，是为数不多的几种已通过随机对照试验证实可降低CRC死亡率和发病率的方法之一。

(3)CT结肠成像

CT结肠成像，也称虚拟结肠镜检查或CT结肠影像，可对充气扩张的结肠提供一种计算机模拟的腔内视角。这项技术应用传统螺旋CT扫描或MRI获得大量连续数据，采用复杂的后处理软件来产生图像，可使操作者在洁净结肠腔内任意选定方向穿行和通过。CT结肠成像需要与钡灌肠所需相似的机械性肠道准备，因为粪便在影像上可类似于息肉，造成干扰。CT结肠成像还能够检测结肠外病变，这可以提供症状的成因和关于肿瘤分期的信息，但也可能因不必要的检查而导致焦虑并增加成本，并且其对临床重要病变的检出率可能也较低。

对于有症状提示CRC的患者，与结肠镜检查相比，CT结肠成像是一种敏感性相近而创伤性更小的替代选择。但是，考虑到结肠镜检查可以对操作过程中看到的病灶和所有同时性癌症或息肉进行切除/活检，结肠镜仍被认为是检查提示CRC症状的金标准。当结肠镜检查使用受限时，优选CT结肠成像而不是钡灌肠(Mulder SA,Kranse R,Damhuis RA,etal.Prevalence and prognosis of synchronous colorectal cancer:a Dutchpopulation-based study.Cancer Epidemiol 2011；35:442)。

但对以上筛查方案，由于取样和检测方法的特殊性，难免导致部分筛查者心理负担以及局部性损伤，也是限制筛查长期和大规模进行的影响因素，且需要考虑患者年龄与筛查方案的适应性。

(4)粪便潜血试验(血便试验)愈创木脂测试(Guaiac-based Faecal OccultBlood Test,gFOBT)

该测试检查患者粪便(粪便)样本中是否存在血液。但血液粪便测试不是百分之百准确，因为并非所有癌症都会导致血液流失，或者它们可能不会一直流血。因此，该测试可以给出假阴性结果。由于其他疾病或病症，例如痔疮，也可能存在血液。有些食物可能会提示结肠内的血液，实际上并不存在。愈创木脂检测粪便血红蛋白的方法是利用对过氧化物酶活性进行检测的一种间接方法，在多种食物中存在非血红蛋白过氧化物酶催化成分，会引起假阳性，因此限制了该种方法的应用价值。其优势在于方便快捷进行初期的检测筛查，对进一步检测诊断有一定指导意义，但准确性相对较低。

(5)免疫化学测试(Faecal Immunochemical Test,FIT)

这项测试是使用抗体来检测大便隐血。FIT是利用单克隆或多克隆抗体直接检测人粪便中的血红蛋白，不受进食食物的影响。定性FIT是在粪便中血红蛋白含量超过一定阈值后会产生可视性的颜色变化，定量FIT则可测量数值，当超过一定的正常值范围后被定义为阳性。相对愈创木脂测试，免疫化学测试所需要的大便样本较少，在采集大便样本前亦没有任何饮食限制，而每次只需收集1至2个大便样本(Mettle Kalager,etal.Overdiagnosis in Colorectal Cancer Screening:Time to Acknowledge a BlindSpot[J].Gastroenterology,2018 August 01)。即使样本只隐藏微量的血，隐血测试也可检测出来，样本有隐血即表示肠道有出血现象。该方法特异性相对较高但敏感性较差，同样会存在由于其它疾病干扰，出现假阳性或阴性的结果，不能进行明确的诊断。

(6)粪便DNA测试

结直肠癌一般发生于结直肠上皮组织中，先向肠腔内生长，在其生长过程中，不断地有肿瘤细胞脱落到肠腔内并随着粪便排出，粪便中脱落的肿瘤细胞中含有特殊的成分(如发生了突变和甲基化的人类基因)可以作为肿瘤标志物。该试验分析了结肠癌或癌前息肉细胞流入粪便的几种DNA标记。可以向患者提供试剂盒，其中包含如何在家中收集粪便样品的说明。然后将其送到实验室进行检测分析。该检测对于检测结肠癌比检测息肉更准确，但它无法检测到表明肿瘤存在的所有DNA突变。粪便基因检测的价值在于早诊，它能够提示结直肠癌发生的可能，还能发现癌前腺瘤，帮助患者将结直肠癌抑杀在更早期的阶段(Imperiale,T.F.,et al.,Multitarget Stool DNA Testing for Colorectal-CancerScreening.New England Journal of Medicine,2014.370(14):p.1287-1297)。但是，粪便基因检测只能作为一种辅助诊断的方法，如果出现阳性结果仍必须要通过肠镜进行确诊和干预。但其由于粪便DNA的复杂性导致较低的特异性和粪便DNA制备的低成功率会导致成本效益不足，极大地阻碍了其实际应用。

以上的筛查方案相对取样便捷，非侵入性无创检测更易于被患者接受，可能作为CRC筛查的优良指标，但由于其方案的特异性敏感度的限制，多数只能作为诊断的辅助手段，仍需要通过其它手段如结肠镜检测进行确诊和干预，同时对于粪便采样与处理，一定程度上存在的心理负担，以及粪便样品的复杂性和污染也造成了样品检测稳定性和重复性的问题(Brenner,H.,et al.,Prevention,Early Detection,and Overdiagnosis ofColorectal Cancer Within 10 Years of Screening Colonoscopy inGermany.Clinical Gastroenterology and Hepatology,2015.13(4):p.717-723)。因此需要更为可靠稳定的样品来源对CRC 筛查提供更为动态、准确和指导意义的监测系统。

本发明人出人意料地发现，外周血红细胞微核DNA能够用于对结直肠癌进行筛查和诊断。本发明人进一步出人意料地发现，外周血红细胞微核DNA能够用于对结直肠癌的类型进行区分，将结直肠癌区分为结肠癌和直肠癌。对于结直肠癌的早期诊断、筛查和风险分级具有重要意义。

本发明与其他方法的联合应用

在某些实施方式中，也可将本公开的方法与对癌症进行筛查、诊断或风险分级的其他方法组合。本领域技术人员可以根据需要选择适宜的现有技术中的其他方法。

在某些实施方式中，可与本公开的方法相组合的与宫颈癌相关的方法包括，例如，高危型HPV检测和宫颈脱落细胞的细胞学检查。在一个实施方式中，所述对高危型HPV的检测方法包括：形态学观察法、免疫组化法、点杂交法、吸印原位杂交法、PCR/RFLP法、PCR/Southern法等。在一个实施方式中，所述对宫颈脱落细胞的细胞学检查包括TCT、巴氏涂片等。

在某些实施方式中，可与本公开的方法相组合的与结直肠癌相关的方法包括，例如，结肠镜检查、可屈性乙状结肠镜检查、CT结肠成像、粪便潜血试验、免疫化学测试、粪便DNA测试等。

实施例

在以下部分中，通过实施例进一步说明本发明。实施例是以举例说明的方式提供的，但本发明不限于以下实施例。在以下实施例中，受试者均为人类受试者。

实施例1：外周血的密度梯度离心

通过以下步骤，对各受试者的外周血样品进行密度梯度离心。

1.自受试者获取1ml新鲜外周血，加入1×PBS等体积稀释，获得经稀释的血液样品。

2.在密度梯度离心管中加入5ml Ficoll密度梯度离心液(Stemcell,Lymphoprep^TM07801)。

3.向步骤2中的密度梯度离心管，缓慢加入步骤1中制备的经稀释的血液样品，1200g 18℃离心15分钟，进行密度梯度离心。

密度梯度离心后，分为三层液体：上层为血浆，中层为外周血单个核细胞(PBMC)，底层为红细胞(如图1所示)。

实施例2：血细胞的分离

在实施例1的密度离心后，分离外周血单个核细胞和红细胞。

具体而言，如图2所示，通过吸管吸取密度梯度离心管中的中上层液体，分离并收集外周血单个核细胞样品；使用针管从密度梯度离心管管底抽取出底层红细胞至1.5ml离心管中，补加1×PBS至1ml，300g室温离心10min，收集管底红细胞。

实施例3：DNA的提取

在本实施例中，对外周血单个核细胞的基因组和红细胞微核DNA分别进行提取。

3.1外周血单个核细胞的基因组DNA的提取

对实施例2中获得的外周血单个核细胞样品，使用QIAamp DNA Blood Mini Kit(Qiagen,Cat No./ID:51106)提取基因组DNA(如图3所示)。

3.2红细胞微核DNA的提取

对实施例2中获得的红细胞，通过红细胞裂解液进行裂解。具体而言，向实施例2收集的红细胞加入10ml红细胞裂解液(Biosharp,Cat No./ID:BL503B)，室温避光裂解20分钟。其后，3000g室温离心10分钟，取上清液，使用10mM EDTA(Solarbio Cat No./ID:E1170),200ug/ul proteinasek(Ambion,Cat No./ID:AM2548)56℃孵育8小时。孵育后，使用QIAamp DNA Blood Mini Kit(Qiagen,Cat No./ID:51106)提取红细胞微核DNA。

实施例4：DNA扩增、文库构建和测序

对实施例3中提取的外周血单个核细胞的基因组DNA以及红细胞微核DNA分别进行扩增、文库构建和测序。

4.1 DNA扩增

对实施例3中制备的外周血单个核细胞的基因组DNA以及红细胞微核DNA，分别使用REPLI-g Single Cell Kit(Qiagen,Cat No./ID:150345)进行多重置换扩增(MDA)，得到扩增后的DNA样品。

4.2文库构建

MDA之后，扩增后的DNA样品使用TruePrep DNA Library Prep Kit V2 forIllumina(Vazyme,TD503)进行二代测序文库构建。

4.3高通量测序

通过Novo-seq平台进行对外周血单个核细胞的基因组DNA以及红细胞微核DNA分别进行测序，10×测序深度，30G数据量。

实施例5：红细胞微核DNA和外周血单个核细胞的基因组DNA的生物信息学分析

通过以下步骤对红细胞中微核DNA信息进行生物信息学分析(生物信息学分析算法逻辑见图4)：

1.质量控制：对红细胞微核DNA和外周血单个核细胞的基因组DNA的双端测序原始测序文件分别进行质控(通过FastQC软件进行)。

2.去接头处理：通过cutadapter软件对原始测序文件去接头处理(Kong,Y.,Btrim:a fast,lightweight adapter and quality trimming program for next-generation sequencing technologies.Genomics,2011.98(2):p.152-3)，根据测序质量保留合适长度、配对准确的小片段读序。

3.数据比对：将红细胞微核DNA和外周血单个核细胞的基因组DNA的测序片段通过bwa软件(http://bio-bwa.sourceforge.net)比对至人类基因组，通过Picard去除比对不合适及重复的读序(Weisenfeld,N.I.,et al.,Direct determination of diploidgenome sequences.Genome Res,2017.27(5):p.757-767)。

4.读序的比较和计数：通过htseq-count将红细胞微核DNA中存在的测序小片段读序对应人类基因组基因区进行计数统计(Anders,S.,P.T.Pyl and W.Huber,HTSeq--aPython framework to work with high-throughput sequencing data.Bioinformatics,2015.31(2):p.166-9)，对比健康个体和癌症患者的红细胞中的DNA片段的断裂程度是否存在显著差异。

5.寻找峰区(Peak Calling)：通过macs2寻找红细胞微核DNA相对于外周血单个核细胞的基因组DNA测序读序在特定区间(也称为“基因区间”)内主要富集的片段，去除外周血单个核细胞相对于自身整体富集较多的峰区。

6.红细胞微核DNA中特异性断裂片段的基因组信息注释及通路富集：相比外周血单个核细胞，对红细胞特异断裂的片段进行基因组信息注释及通路富集(KEGG,GeneOntology)(Chen,L.,et al.,Gene Ontology and KEGG Pathway Enrichment Analysisof a Drug Target-Based Classification System.PLoS One,2015.10(5):p.e0126492)，得到红细胞微核DNA中特异性断裂的基因。

7.数据分类和分类器的构建：选择差异基因作为特征，基于支持向量机(SVM)对已知分类样品构建分类器，对未知样品进行预测(Huang,M.W.,et al.,SVM and SVMEnsembles in Breast Cancer Prediction.PLoS One,2017.12(1):p.e0161501)。

7.1数据分类

具体而言，每次选取n个实验组样品和m个对照组样品基因区间的reads计数，通过ANOVA检验筛选出差异基因(也称为“特征基因”)进行两类样品的区分。

7.2分类器的构建

分类器参数调整：基于上步筛选的特征基因，使用留一法交叉验证支持向量机算法(SVM/LOOCV)确定训练组(n＝100)。首先设定所有样品的真实标签(例如：实验组样品记为1、对照组样品记为0)，每次挑出一个样品作为测试集，使用其他所有样品(n-1)构建模型并对测试集进行测试，测试集遍历所有样本完成n次交叉验证，得到对于每一个样品的测试结果。基于整体的测试结果和每个样本的真实标签计算准确度、敏感性、特异性，从而调整模型的最佳参数，构建训练模型。在本研究中，设置SVM的参数C＝100、gamma＝10^-4。其中C是惩罚系数，即对误差的宽容度；gamma是选择RBF函数作为kernel后，该函数自带的一个参数。

7.3未知样品预测

基于上步得到的训练模型，我们使用未参与训练的未知样品(即测试集)，通过上步构建的分类器对测试集样品进行预测，得到测试集的预测结果和样本的真实标签，呈现每个预测结果在两类中的占比情况(即风险评估指数)。对未知样品进行预测，展示二分类结果。

实施例6：利用红细胞微核DNA，构建用于对健康个体和宫颈癌患者进行分群的分类器

在本研究中，共有受试者15名，其中包括：

实验组：通过其他方式被诊断为宫颈癌的患者9名

对照组：健康个体(非宫颈疾病个体)6名。

其中，来自宫颈癌患者的外周血样品分别以“P+患者编号”的方式进行表示。例如，“P1”表示来自第1位宫颈癌患者(“患者1”)的外周血样品，“P2”表示来自第2位宫颈癌患者(“患者2”)的外周血样品，以此类推。此外，来自健康个体的外周血样品分别以“H+个体编号”的方式进行表示。例如，“H1”表示来自第1位健康个体的外周血样品，“H2”表示来自第2位健康个体的外周血样品，以此类推。

9位宫颈癌患者的基本信息如表1所示。其中，“宫颈癌类型”表示通过其他方式所确诊的宫颈癌类型。

表1

*:患者8为HPV阴性患者

按照实施例1-4的方式获取各受试者的红细胞微核DNA和外周血单个核细胞的基因组DNA，并按照实施例5的方式进行生物信息学分析。

具体而言，选取9个初发宫颈癌样品和6个女性正常样品基因区间的reads计数，通过ANOVA检验筛选出2306个差异基因进行两类样品的区分，之后根据皮尔逊相关性对两类样品进行无监督层级聚类，可看到两类样品间存在显著差异。

如图5所示，对来自宫颈癌患者的外周血样品的红细胞微核DNA和来自健康个体的外周血样品的红细胞微核DNA进行聚类，得到2306个差异基因(形成用于区分健康个体和宫颈癌患者的分类器)。在图5中，每一行代表一个差异基因，每一列代表一位患者。

2306个差异基因列表如表2所示。每一个基因分别对应于图5中从上至下的每一行。

表2

实施例7：利用红细胞微核DNA，构建对宫颈癌患者进行分型的分类器

在本研究中，共有受试者8名，其中包括：通过其他方式被诊断为宫颈癌腺癌的患者2名和被诊断为宫颈癌鳞癌的患者5名。

其中，来自宫颈癌患者的外周血样品分别以“P+患者编号”的方式进行表示。例如，“P1”表示来自第1位宫颈癌患者(“患者1”)的外周血样品，“P2”表示来自第2位宫颈癌患者(“患者2”)的外周血样品，以此类推。

7位宫颈癌患者的基本信息如表3所示。其中，“宫颈癌类型”表示通过其他方式所确诊的宫颈癌类型。

表3

*:患者7为HPV阴性患者

具体而言，选取初发宫颈癌中2个腺癌样品和6个鳞癌样品(其中包含一个HPV阴性)的基因区间的reads计数，通过ANOVA检验筛选出360个差异基因进行两类样品的区分，之后根据皮尔逊相关性对两类样品进行无监督层级聚类，可看到两类样品间存在显著差异。

如图6所示，对宫颈癌腺癌和宫颈癌鳞癌样本共360个基因进行聚类。

每一行代表一个差异基因，每一列代表一位患者。

360个差异基因列表如表4所示。每一个基因分别对应于图6中从上至下的每一行。

表4

实施例8.利用红细胞微核DNA，构建对宫颈癌患者进行分期的分类器

在本研究中，共有受试者5名，其中包括：通过其他方式被诊断为宫颈癌中分化鳞癌的患者2名和被诊断为宫颈癌低分化及中低分化鳞癌的患者3名。

其中，来自宫颈癌患者的外周血样品分别以“P+患者编号”的方式进行表示。例如，“P1”表示来自第1’位宫颈癌患者(“患者1”)的外周血样品，“P2”表示来自第2位宫颈癌患者(“患者2”)的外周血样品，以此类推。

5位宫颈癌患者的基本信息如表5所示。其中，“宫颈癌类型”表示通过其他方式所确诊的宫颈癌类型。

表5

*:患者4为HPV阴性患者

具体而言，选取初发宫颈鳞状细胞癌中2个中分化样品和3个低分化及中低分化样品的基因区间的reads计数，通过ANOVA检验筛选出466个差异基因进行两类样品的区分，之后根据皮尔逊相关性对两类样品进行无监督层级聚类，可看到两类样品间存在显著差异。

如图7所示，对宫颈癌中分化鳞癌和宫颈癌中低分化和低分化鳞癌样本的466个基因进行聚类。

466个差异基因列表如表6所示。每一个基因分别对应于图7中从上至下的每一行。

表6

实施例9.利用红细胞微核DNA，对健康个体和宫颈癌患者进行分群利用实施例6中构建的用于对健康个体和宫颈癌患者进行分群的分类器(2306个基因)，对来自8位受试者的8个未知样品进行预测。

经检测，发现8个样品中的5个为宫颈癌高风险(风险概率均大于85％)，3个为宫颈癌低风险(风险概率极低均小于5％)。追溯预测为高风险的受试者和预测为低风险的受试者的样品来源，发现5个宫颈癌高风险的样品来自其他诊断方法检测为宫颈癌的患者，3个宫颈癌低风险的样品来自其他诊断方法检测为健康个体的受试者。

结果如图8所示。其中：

P1、P2、P3、P4、P5为5个宫颈癌患者，P3、P4、P5为训练集中9个宫颈癌样品的3个，P1、P2为未在模型训练集中宫颈癌样品；

H1、H2、H3均为非宫颈癌健康个体样品。

由此可见，本公开的方法和基因分类器可以有效区分宫颈癌患者与健康个体。

实施例10.利用红细胞微核DNA，对宫颈癌患者进行分型

利用实施例7中构建的用于对宫颈癌鳞癌和宫颈癌腺癌患者进行分群的分类器(360个基因)，对3个未知分型的宫颈癌样品进行预测。

经检测，发现3个样品中的2个为宫颈癌鳞癌高风险(风险概率均大于85％)，1个为宫颈癌鳞癌低风险(风险概率极低均小于5％)。追溯预测为宫颈癌鳞癌高风险的受试者和预测为宫颈癌鳞癌低风险的受试者的样品来源，发现2个宫颈癌鳞癌高风险的样品来自其他诊断方法检测为宫颈癌鳞癌的患者，1个宫颈癌鳞癌低风险的样品来自其他诊断方法检测为健康个体的受试者。

结果如图9所示。其中：

P1为宫颈癌腺癌患者，P2和P3为宫颈癌鳞癌患者。

由此可见，本公开的方法和基因分类器可以有效地对宫颈癌患者进行分型，区分宫颈癌鳞癌和宫颈癌腺癌。

实施例11：利用红细胞微核DNA，构建用于对健康个体和结直肠癌患者进行分群的分类器

在本研究中，共有受试者17名，其中包括：

实验组：通过其他方式被诊断为结直肠癌的患者4名

对照组：健康个体(非结直肠癌个体)13名。

4位结直肠癌患者的基本信息如表7所示。

表7

具体而言，选取4个初发结直肠癌样品和13个女性正常样品基因区间的reads计数，通过ANOVA检验筛选出903个差异基因进行两类样品的区分，之后根据皮尔逊相关性对两类样品进行无监督层级聚类，可看到两类样品间存在显著差异。

如图10所示，对来自宫颈癌患者的外周血样品的红细胞微核DNA和来自健康个体的外周血样品的红细胞微核DNA进行聚类，得到903个差异基因(形成用于区分健康个体和结直肠癌患者的分类器)。在图10中，每一行代表一个差异基因，每一列代表一位患者。

903个差异基因列表如表8所示。每一个基因分别对应于图10中从上至下的每一行。

表8

实施例12：利用红细胞微核DNA，构建对结直肠癌患者进行分型的分类器

在本研究中，共有结直肠癌患者10名，其中包括：通过其他方式被诊断为结肠癌的患者5名和被诊断为直肠癌的患者5名。

其中，来自上述患者的外周血样品分别以“P+患者编号”的方式进行表示。例如，“P1”表示来自第1位结直肠癌患者(“患者1”)的外周血样品，“P2”表示来自第2位结直肠癌患者(“患者2”)的外周血样品，以此类推。

10位结直肠癌患者的基本信息如表9所示。其中，“结直肠癌类型”表示通过其他方式所确诊的结直肠癌类型。

表9

具体而言，5个结肠癌样品和5个直肠癌样品基因区间的reads计数，通过ANOVA检验筛选出97个差异基因进行两类样品的区分，之后根据皮尔逊相关性对两类样品进行无监督层级聚类，可看到两类样品间存在显著差异。

如图11所示，对结肠癌和直肠癌样本共97个基因进行聚类。

每一行代表一个差异基因，每一列代表一位患者。

97个差异基因列表如表10所示。每一个基因分别对应于图12中从上至下的每一行。

表10

实施例13.利用红细胞微核DNA，对健康个体和结直肠癌患者进行分群

利用实施例11中构建的用于对健康个体和结直肠癌患者进行分群的分类器(903个基因)，对来自4位受试者的4个未知样品进行预测。

经检测，发现4个样品中的2个为结直肠癌高风险(风险概率均大于90％)，2个为结直肠癌低风险(风险概率极低均小于5％)。追溯预测为高风险的受试者和预测为低风险的受试者的样品来源，发现2个结直肠癌高风险的样品来自其他诊断方法检测为结直肠癌的患者，2个结直肠癌低风险的样品来自其他诊断方法检测为健康个体的受试者。

结果如图12所示。其中：

P1、P2为2个结直肠癌患者；

H1、H2为非结直肠癌健康个体样品。

由此可见，本公开的方法和基因分类器可以有效区分结直肠癌患者与健康个体。

实施例14.利用红细胞微核DNA，对结直肠癌患者进行分型

利用实施例12中构建的用于对结肠癌和直肠癌患者进行分群的分类器(97个基因)，对4个未知分型的结直肠癌样品进行预测。

经检测，发现4个样品中的2个为结肠癌高风险(风险概率均大于85％)，2个为结肠癌低风险(风险概率极低均小于5％)。追溯预测为结肠癌高风险的受试者和预测为结肠癌低风险的受试者的样品来源，发现2个结肠癌高风险的样品来自其他诊断方法检测为结肠癌的患者，2个结肠癌低风险的样品来自其他诊断方法检测为直肠癌的受试者。

结果如图13所示。其中：

P1、P2为结肠癌患者，P2和P3为直肠癌患者。

由此可见，本公开的方法和基因分类器可以有效地对结直肠癌患者进行分型，区分结肠癌和直肠癌。

通过以上实施例可以清楚地看到，本发明人成功地分离了外周血红细胞微核DNA，并利用外周血红细胞微核DNA构建了对于癌症进行检测的分类器，实现了对癌症的有效检测，对癌症的临床筛查、诊断、分型和分期等具有重要意义。

尽管本发明的具体实施方式已经得到详细的描述，但本领域技术人员将理解：根据已经公开的所有教导，可以对细节进行各种修改和变动，并且这些改变均在本发明的保护范围之内。本发明的全部范围由所附权利要求及其任何等同物给出。

Claims

1.从外周血红细胞分离或纯化的微核DNA。

2.根据权利要求1所述的微核DNA，其中所述外周血是人外周血。

3.根据权利要求1或2所述的微核DNA，其中所述微核DNA用于癌症检测，例如，癌症的筛查、诊断、分型和/或分期。

4.根据权利要求3所述的微核DNA，其中所述癌症为宫颈癌。

5.根据权利要求4所述的微核DNA，其中所述微核DNA包含表2、4或6所示的基因分类器。

6.根据权利要求3所述的微核DNA，其中所述癌症为结直肠癌。

7.根据权利要求6所述的微核DNA，其中所述微核DNA包含表8或10所示的基因分类器。

8.从外周血红细胞分离或纯化微核DNA的方法，其包括以下步骤：

a)提供外周血样品；

b)分离外周血样品中的单个核细胞和红细胞；

c)收集红细胞；

d)用红细胞裂解液处理收集的红细胞；和

e)从所述裂解的红细胞提取微核DNA。

9.根据权利要求8所述的方法，其中所述红细胞裂解液通过改变细胞悬液的渗透压以特异性裂解红细胞，而不裂解有核细胞。

10.根据权利要求8所述的方法，其中所述红细胞裂解液包含NH₄Cl、NaHCO₃、EDTA或其组合。

11.根据权利要求10所述的方法，其中在步骤e)中通过DNA提取试剂来提取微核DNA，所述DNA提取试剂包含蛋白酶，例如蛋白酶K。

12.根据权利要求8-11任一项所述的方法，其中在步骤b)之前，对外周血样品进行稀释，例如，通过磷酸盐缓冲液进行稀释，例如，通过磷酸盐缓冲液进行等体积稀释。

13.根据权利要求8-11任一项所述的方法，其中在步骤b)中使外周血样品经受密度梯度离心，例如Ficoll密度梯度离心，以获得单个核细胞层和红细胞层。

14.根据权利要求13所述的方法，其中从红细胞层的底部收集红细胞。

15.权利要求8-11中任一项所述的方法，其中将裂解的红细胞进行离心，取上清液，从上清液中提取红细胞微核DNA。

16.通过权利要求8-15中任一项所述的方法获得的外周血红细胞微核DNA。

17.一种通过外周血红细胞微核DNA构建用于癌症检测的基因分类器的方法，其包括：

b)从每个类别的每一个受试者的外周血红细胞分离或纯化外周血红细胞微核DNA；

c)对所述外周血红细胞微核DNA进行全基因组测序，以获得微核DNA的片段序列信息；

18.根据权利要求17所述的方法，其中所述不同的类别包括：

-对于同一癌症的癌症受试者和非癌症受试者；

-患有同一癌症的不同类型的受试者；或者

-处于同一癌症类型的不同阶段的受试者。

19.根据权利要求17所述的方法，其中所述癌症为宫颈癌或结直肠癌。

20.根据权利要求19所述的方法，其中所述不同的类别包括：

-宫颈癌受试者和非宫颈癌受试者；

-宫颈癌鳞癌受试者和宫颈癌腺癌受试者；或者

-处于宫颈癌鳞癌的低分化和中低分化、中分化或高分化阶段的受试者。

21.根据权利要求19所述的方法，其中所述不同的类别包括：

-结直肠癌受试者和非结直肠癌受试者；或者

-结肠癌受试者和直肠癌受试者。

22.根据权利要求17-21任一项所述的方法，其中在步骤e)中，通过层级聚类分析，训练所述对于特定癌症的特征DNA片段集。

23.根据权利要求17-21任一项所述的方法，其中所述方法进一步包括对每个不同的类别的每一个受试者的外周血单个核细胞基因组DNA进行全基因组测序的步骤。

24.根据权利要求23所述的方法，其中所述方法进一步包括：

在步骤d)之前，获得所述受试者的外周血红细胞微核DNA相对于所述外周血单个核细胞基因组DNA的测序读序在特定染色体区间内的富集片段，从而获得所述受试者的外周血红细胞的特异断裂片段，所述特异断裂片段被用于步骤d)的对比。

25.通过权利要求17-24任一项所述的方法构建的基因分类器。

26.根据权利要求25所述的基因分类器，其包含表2、4、6、8或10中所示的基因。

27.一种用于对测试受试者进行癌症检测的系统，其包括比较装置，所示装置用于将来自测试受试者的外周血红细胞微核DNA与权利要求25所述的基因分类器进行比较。

28.根据权利要求27所述的系统，其进一步包括

-分离装置，其用于从所述测试受试者分离外周血红细胞微核DNA；

-测序装置，其用于对来自测试受试者的外周血红细胞微核DNA进行测序。

29.根据权利要求28所述的系统，其中所述测序为高通量测序。

30.根据权利要求27-29任一项所述的系统，其中所述系统通过以下方法进行癌症检测，所述方法包括：

a)分离或纯化所述测试受试者的外周血红细胞中的微核DNA；

c)将步骤b)中获得的微核DNA的片段序列信息与根据权利要求25所述的基因分类器进行比较，从而将所述测试受试者分类为所述多于一个的不同类别中的一个或多个。

31.根据权利要求30所述的系统，其中所述方法进一步包括对所述测试受试者的外周血单个核细胞基因组DNA进行全基因组测序的步骤。

32.根据权利要求31所述的系统，其中所述方法进一步包括在步骤c)之前，获得所述测试受试者的外周血红细胞微核DNA相对于所述外周血单个核细胞基因组DNA的测序读序在特定染色体区间内的富集片段，从而获得所述测试受试者的外周血红细胞的特异断裂片段，所述特异断裂片段被用于步骤c)的对比。

33.根据权利要求27所述的系统，其中所述癌症检测包括癌症的筛查、诊断、分型和/或分期。

34.根据权利要求33所述的系统，其中所述癌症是宫颈癌或结直肠癌。

35.用于分析外周血红细胞微核DNA的试剂在制备用于对癌症进行筛查、诊断、分型和/或分期的检测装置或检测试剂盒中的应用。