CN113423843A

CN113423843A - 用于宫颈癌早期检测的dna甲基化生物标志物

Info

Publication number: CN113423843A
Application number: CN202080006755.6A
Authority: CN
Inventors: 莫西·希夫; 戴维·车世瑞; 爱德华多·弗朗科; 玛丽亚姆·埃林
Original assignee: Hong Kong Precision Medicine Technology Ltd
Current assignee: Hong Kong Precision Medicine Technology Ltd
Priority date: 2018-12-04
Filing date: 2020-02-04
Publication date: 2021-09-21
Also published as: CA3121886A1; AU2020203961A1; EP3891296A4; BR112021010640A2; JP7489979B2; SG11202104288PA; WO2020115728A2; WO2020115728A3; IL283616A; EP3891296A2; JP2022531637A; US20220073994A1; KR20210117262A; JP2024056878A

Abstract

本发明公开了一种用于获得DNA甲基化生物标志物作为人基因组中的精确DNA甲基化位置(即CGID)的体外方法，所述体外方法是通过检查从CIN1发展到CIN3的癌前病变(宫颈上皮内赘瘤形成(CIN))三个阶段中“分类”DNA甲基化改变的发展来预测宫颈癌，尤其在目前尚未达到的早期阶段如此。本发明公开了CGID的组合，其用于通过测量它们的DNA甲基化状态并得出“甲基化得分”来检测高特异性和高敏感性宫颈癌，所述“甲基化得分”可用作宫颈癌生物标志物。还公开了使用多元下一代测序甲基化测定、焦磷酸测序测定和甲基化特异性PCR使用所述CGID预测宫颈癌的试剂盒。本发明中描述的DNA甲基化标志物(CGID)可用于由所属领域的任何技术人员进行的用于检测宫颈癌的宫颈筛查和宫颈癌的早期检测。

Description

用于宫颈癌早期检测的DNA甲基化生物标志物

相关申请的交叉引用

本申请根据第119(e)条要求2018年12月4日提交的标题为“用于宫颈癌早期检测的DNA甲基化标志物(DNA METHYLATION MARKERS FOR EARLY DETECTION OF CERVICALCANCER)”的美国临时申请序列第62/774,994号的优先权，该临时申请的内容通过引用并入本文。

序列列表

本申请含序列表，其以ASCII格式以电子方式提交的，并且通过引用整体并入本文。2020年1月12日创建的所述ASCII副本被命名为TPC53811 Seq List_ST25.txt，大小为36,864字节。

技术领域

本发明大体涉及人DNA中的DNA甲基化签名，特别是在分子诊断领域中。更具体地，本发明是用于宫颈癌的早期检测以及筛查的一组、个体以及多基因DNA甲基化生物标志物的组合形式的DNA甲基化生物标志物，以及它们作为用于宫颈癌的早期和准确检测的诊断试剂盒的用途。

背景技术

癌症已经成为人类的主要杀手。癌症的早期检测可以显着提高治愈率，并降低患者、其家人和保健系统可怕的个人和经济成本。同时，筛查健康个体以评估癌前阶段生物标志物表达及其改变在全群体筛查方法中是有用的，并且有助于确定风险较大、易患癌症的健康个体。宫颈癌也不例外。筛查可以在癌症可引发症状之前的早期阶段确定癌症。如果宫颈癌在其最早阶段被发现，则存活的机会为约93％，而其在最晚阶段降至15％https:// www.cancer.org/cancer/cervical-cancer/detection-diagnosis-staging/ survival.html。目前的筛查方法包括巴氏涂片、液基细胞学、HPV测试和目视检查，然而缺乏稳健、高度准确和灵敏的宫颈癌早期检测方法。

生物标志物构成癌症诊断的最重要领域之一。癌症生物标志物对于疾病的早期检测或诊断尤其有用。生物标志物可用于筛查患者、对癌症的不同阶段或级别进行分类以及预测预后和对疗法的抗性。

人类乳头瘤病毒(HPV)作为宫颈赘瘤形成病原体的明确发现，从二级(HPV分子测试)角度彻底改变了这种妇科疾病的预防和管理模式(1)。了解HPV基因型确实有助于临床预测，这是因为HPV 16和/或18型与其他致癌类型相比，与更大的病变发展风险相关联。然而，致癌HPV基因型的持续性感染是宫颈癌变的必要前体和驱动力。后者表示从癌前阶段(宫颈上皮内瘤病变，CIN)到浸润性宫颈癌的逐步发展。低级别CIN病(CIN1)明显可逆，而2级和3级高级别CIN(即，分别为CIN2和CIN3)发展为侵袭即宫颈癌的风险不可忽略。对于CIN3尤其如此。

在诊所中管理患有CIN病的女性仍然是妇科医生面临的重大难题，因为当女性患者决定怀孕时，积极的消融或切除治疗可能会立即导致并发症，或增加日后流产或早产的风险。最近的证据表明，特定基因的表观遗传变化可能介导或预测致癌发展。由于显着变化(包括表观遗传学水平的生化变化)，癌症早期检测生物标志物可以在分类上区分无症状阶段和癌前阶段有病变的罕见细胞。作为生物标志物的这些表观遗传变化经常在癌组织中异常大量地产生，并且经常妨碍疾病本身的表现。要在疾病开始和发展之前早早地确定分子变化背景，分子生物标志物的开发是极其重要的。其中一种表观遗传生物标志物，病毒和宿主基因中某些CpG位点的DNA甲基化水平，显示随着潜在宫颈病变的严重程度而增加(2-7)。

在具有与宫颈癌和其前体相关的表观遗传变化的研究最多和靶向最多的宿主基因中的是细胞粘附分子1(CADM1)；死亡相关蛋白激酶1(DAPK1)；髓鞘和淋巴细胞，T细胞分化蛋白(MAL)；配对盒1(PAX1)；端粒酶逆转录酶(TERT)；红细胞膜蛋白带4.1样3(EPB41L3)，Ras关联结构域家族成员1(RASSF1)；SRY-盒1(SOX1)；钙粘蛋白1(CDH1)；LIM同源盒转录因子1α(LMX)；细胞周期蛋白A1(CCNA1)；序列相似性家族19成员A4，C-C基序趋化因子样(FAM19A4)；以及视黄酸受体β(RARβ)8。除了包括两个(即CADM1和MAL(3，4，10)；MAL和miR124-2(11-14)，三个(即CADM1、MAL和miR124-2)(13，15)、四个(即JAM3、EPB41L3、TERT和C130RF18)(16，17)和五个(即PAX1、DAPK1、RARβ、WIF1和SLIT2)(14)标志物组以及涉及SOX1、PAX1、LMX1A和NKX6-1标志物的各种组合的组的那些外，还研究了单个(9)甲基化标志物，以获得足够高的晚期病变敏感性(18)。

然而，仅一项使用全基因组甲基化途径的前期研究确定了具有最高联合诊断准确性的三个甲基化组(JAM3/ANKRD18CP、C13ORF18/JAM3/ANKRD18CP和JAM3/GFRA1/ANKRD18CP)，用于检测宫颈样品中的CIN2+；并且敏感性分别被报告为72％、74％和73％，且相应特异性分别为79％、76％和77％(2)。因此，需要确定DNA甲基化生物标志物、与宫颈癌的早期检测和风险预测相关的DNA甲基化生物标志物组以及基于这种生物标志物的试剂盒的改进方法，用于针对宫颈癌的早期检测和易感性全群体筛查明显健康的女性且用于具有癌前病变的女性的风险评估。

本发明通过使用DNA甲基化生物标志物作为基于单一的、组合的以及组的生物标志物，提供与缺乏宫颈癌的早期检测标志物相关的问题的解决方案，因为目前缺乏对早期阶段宫颈癌的风险预测具有适当诊断性能的单一的或组合的甲基化标志物。本发明公开了一种用于获得癌前病变发展为宫颈癌的早期生物标志物的方法，所述方法可用于在无症状以及表现出CIN1至CIN3病理的女性中进行一般筛查。

发明目的

本发明的主要目的涉及用于人宫颈癌的早期检测和诊断的生物标志物。

本发明的进一步目的涉及本文公开的称为“进行性DNA甲基化改变分析(APDMA)”的体外方法，所述方法涉及以下步骤：相较于来自女性的健康对照标本，检查来自具有不同CIN级病理(CIN1至CIN3)的女性的标本的DNA甲基化的全基因组谱，以获得CGID作为DNA甲基化生物标志物，所述生物标志物当组合时使用本文公开的线性回归模型，预测在公开可得的宫颈癌甲基化谱中具有>95％敏感性和特异性的宫颈癌。

本发明的另一个目的涉及分子生物标志物，作为女性全群体筛查的指示符，用于宫颈癌的早期检测以及具有CIN1至CIN3病理的女性的风险评估。

本发明的再一个目的涉及一种用于宫颈癌的早期检测和诊断的芯片/阵列。

本发明的又一个目的是提供一种可由所属领域的任何技术人员使用的更便宜、准确、稳健、高度灵敏和特异的高通量诊断试剂盒用于准确早期诊断人宫颈癌。

发明内容

因此，本发明提供了可用于检查DNA甲基化改变的方法和材料，并且涉及用于人宫颈癌早期检测和诊断的DNA甲基化CGID生物标志物，其中癌前宫颈病变(宫颈上皮内赘瘤形成，CIN级1至3)的发展与人基因组中CG位置处的DNA甲基化的频率增加相关，其为Illumina探针ID或DNA甲基化数或使用本文公开的当前公开的“进行性DNA甲基化改变分析”(APDMA)的体外方法获得的CG标识符(CGID)的形式。如下文详细讨论的，通常，这些生物标志物基于变量，这些变量自身有助于预测具有CIN1至CIN3病理的女性的风险以及对发展成宫颈癌的全群体筛查，并且又可用作早期检测和诊断生物标志物。本公开提供了所述CGID生物标志物位置在宫颈癌中几乎一致地甲基化，而在正常宫颈标本中几乎一致地未甲基化。因此，本发明公开了所述一组“分类”不同的DNA甲基化谱，其以这些CGID位点处的DNA甲基化的形式在宫颈癌和非恶性组织之间产生二元区分，由此这些位点仅在宫颈癌中甲基化，而在非恶性组织中完全未甲基化。此外，如本文所公开，这些生物标志物位点显示DNA甲基化的频率随着癌前宫颈病变从CIN1发展到CIN3而增加。因此，本发明提供了一种体外早期检测和诊断方法，其使用所述CGID生物标志物的靶向扩增和深度下一代亚硫酸氢盐测序检测宫颈癌细胞的甚至几个分子，或者甚至是在大部分正常宫颈细胞图谱的背景上从癌前病变到变成宫颈癌的轨迹上的细胞。因此，本发明可用于非恶性组织的高背景上宫颈癌细胞的迄今无法实现的早期检测，特别是使用宫颈标本诸如巴氏涂片作为可由所属领域的任何技术人员使用的简单且用户友好的早期检测方法。

本发明的实施例涉及一种用于甚至在无症状和癌前阶段早期检测获得用于宫颈癌的高预测性位点的体外方法，称为“进行性DNA甲基化改变分析(APDMA)方法”，所述方法使用以DNA甲基化CGID生物标志物签名形式获得的、通过下一代测序(包括MeDIP阵列、MeDIP测序等)得出的不同来源的全基因组DNA甲基化数据。本发明提供了用于检测宫颈癌的“分类”CGID生物标志物的组合，所述组合在来自从CIN1进行至CIN3的进行性癌前病变的标本的全基因组数据的发现集中。

在本发明之前，使用经典“案例对照”设计和逻辑回归的先前分析已经揭示了检测敏感性和特异性较低的癌症的DNA甲基化CGID生物标志物。因此，本发明的另一个实施例涉及用以获得用于宫颈癌诊断的早期检测的候选DNA甲基化生物标志物的计算机实施方法，称为APDMA方法，所述方法揭示了癌症的最早甲基化谱，所述最早甲基化谱是原发性的并且对于癌症状态是必需的，因此存在于本文公开内容中测试的所有宫颈癌标本中。

本发明的实施例公开了一种体外方法，所述方法通过以下准确检测宫颈癌：同时测量数百人中CGID生物标志物的多基因集中的DNA甲基化，用靶特异性引物进行顺序扩增，随后在单个下一代Miseq测序反应中条形编码引物和多元测序，进行甲基化的数据提取和量化。

本发明的实施例公开了一种使用焦磷酸测序测定或甲基化特异性PCR测量所述DNA甲基化CGID生物标志物的甲基化的体外方法。本发明公开了预测宫颈癌的多基因加权甲基化得分的计算。

本发明的实施例公开了一组DNA甲基化生物标志物，用于在从女性(包括没有来自宫颈标本的宫颈癌的其他临床证据的女性)的标本分离的DNA样品中筛查、诊断、早期检测和预测宫颈癌。

本发明的实施例公开了一组呈芯片形式的DNA甲基化生物标志物，用于在从女性(包括没有来自宫颈标本的宫颈癌的其他临床证据的女性)的标本分离的DNA样品中筛查、诊断、早期检测和预测宫颈癌。

本发明的实施例公开了体外非侵入性方法，所述方法使用所述一组DNA甲基化生物标志物在从女性(包括没有来自宫颈标本的宫颈癌的其他临床证据的女性)的标本分离的DNA样品中筛查、诊断、早期检测和预测宫颈癌。

本发明的实施例公开本文公开了一种如本文所公开的DNA甲基化生物标志物的用途，用于在从女性(包括没有来自宫颈标本的宫颈癌的其他临床证据的女性)的标本分离的DNA样品中筛查、诊断、早期检测和预测宫颈癌。

本发明提供了使用人基因组中的CGID位置确定的稳健的DNA甲基化生物标志物，其提供高度准确、特异性和敏感的风险评估，从而可以指导女性中的、甚至在无症状和癌前阶段的宫颈癌的早期干预和治疗。本发明提供了一种所属领域的技术人员可以使用的检测宫颈癌的简单而高效的方法。本发明涉及本文所述的所公开的DNA甲基化CGID生物标志物的用途，用于健康女性宫颈癌的全群体筛查以及用于监测和评估患有HPV感染和CIN癌前病变的女性的癌症风险。本发明证明，所公开的DNA甲基化生物标志物在使用基于本文公开的DNA甲基化测量方法的多基因得分检测CIN样品中的宫颈癌中的效用。本发明还公开了用于获得宫颈癌的“多基因”分类DNA甲基化CGID生物标志物的所公开方法的实用性，所述方法使用所属领域的技术人员可获得的用于全基因组亚硫酸氢盐测序的任何方法，诸如下一代亚硫酸氢盐测序、MeDip测序、离子torrent测序、Illumina 450K阵列和Epic微阵列等，随后是本文公开的当前公开的APDMA方法，用于发现可用于宫颈癌的早期和极早期检测的特异性和敏感标志物，这是因为当CIN1的标本发展到CIN3癌前阶段时随着频率的增加，它们在健康对照和宫颈癌标本之间的DNA甲基化谱中具有分类差异。

从下面的具体实施方式中，本发明的其他目的、特征和优点对于所属领域的技术人员来说将变得显而易见。然而，应当理解，具体实施方式和具体示例虽然指示本发明的一些实施例，但以说明而非限制的方式给出。在不脱离本发明的精神的情况下，可以在本发明的范围内进行许多改变和修改，并且本发明包括所有这样的修改。

附图说明

图1：用于获得早期检测DNA甲基化生物标志物的进行性DNA甲基化改变分析(APDMA)方法的开发路线图。所述路线图描绘了使用Illumina测定探针确定(CGID)基于DNA甲基化谱开发APDMA方法的分析程序，其在分类上区分宫颈标本的正常谱与宫颈癌标本的DNA甲基化谱，以获得用于宫颈癌早期检测、诊断和筛查的“分类”DNA甲基化CGID生物标志物。在步骤1中，相较于健康对照标本，从癌前病变阶段CIN1至CIN3的宫颈标本获得DNA甲基化测量结果，所述DNA甲基化测量结果通过以下获得：对从标本中提取的DNA进行IlluminaBeadchip 450K或850K测定或通过对从样品中提取的DNA进行DNA焦磷酸测序或通过基于质谱分析的甲基化测定(Epityper^TM)，或者通过基于PCR的甲基化测定和从亚硫酸氢盐转化的DNA中对跨越本文公开的靶CGID的区域进行靶向扩增，随后在Illumina下一代测序仪上进行第二组扩增中的条形编码和索引多元测序。在步骤2中，对步骤1的DNA甲基化测量结果执行统计分析，其中统计分析包括接收器操作特性(ROC)测定、层次聚类分析测定或神经网络ck分析。在步骤3中，进行当前开发和公开的“进行性DNA甲基化改变分析”(APDMA)方法，以确定甲基化水平是宫颈癌的早期预测因子或生物标志物的CGID位置。在步骤4中，本公开进一步将多基因DNA甲基化CGID组合缩小为16个CGID的生物标志物集并加入最后挑选集。所述方法允许获得正常细胞和宫颈癌细胞之间甲基化谱的“分类”而不是量化差异，继而又允许进行早期检测，这是因为在选择CGID处DNA甲基化谱的特征性转换，所述CGID提供用于宫颈癌的早期检测、诊断和筛查的DNA甲基化生物标志物。这些用作一组候选CGID生物标志物，用于女性尤其是无症状或有癌前病变的女性的宫颈癌的早期检测。

图2：获得甲基化频率在癌前CIN阶段中逐渐增加的位点的方法。由来自CIN1、CIN2和CIN3组织学个体的标本的宫颈标本制备DNA；且未转型的健康对照在Illumina EpicArrays上进行全基因组DNA甲基化分析。7715个CGID的甲基化水平与从CIN1到CIN3的癌前CIN阶段的发展显着相关(q>0.05)。A.整个基因组中来自对照宫颈标本的这些位点的甲基化的差异的IGV浏览器视图。顶部轨道显示染色体的位置。第二轨道显示Refseq基因在整个基因组中的位置。以下轨道(ΔCIN1-对照、ΔCIN2-对照、ΔCIN3-对照)显示每个CIN阶段与对照组之间的平均甲基化差异。观察到在整个阶段的进行性超甲基化。

图3：通过APDMA方法得出的正常宫颈标本和宫颈癌的位点分类不同。A.热图显示使用270个患者的DNA甲基化数据，甲基化频率在宫颈癌前阶段发展过程中增加的79个顶部CGID检测出宫颈癌(GSE68339)。癌症和正常宫颈的CGID表现出分类不同的甲基化谱。它们在正常组织中完全未甲基化，而在癌组织中高度甲基化。B.正常、癌前阶段和宫颈癌(CIN1至CIN3)组中每一组的平均甲基化(蓝色表示0％甲基化，暗红色表示100％甲基化)。

图4：在独立组群中，使用APDMA方法检测宫颈癌DNA发现的双基因DNA甲基化得分的特异性和特异性。A.效应大小计算、惩罚回归和多变量线性回归简短列出了两个CGID的子集，并且计算了用于宫颈癌预测的线性回归方程。B.通过ROC计算癌症检测阈值。C.使用此阈值时，标志物的此组合集的敏感性和特异性为1，并且AUC为1。

图5：对照、CIN1至CIN3和宫颈癌患者的个体标本中的癌症甲基化得分。A.使用图4A所示方程针对对照、CIN1至CIN3和宫颈癌的每一个体标本计算的甲基化得分(宫颈癌预测)，显示了晚期癌前病变中甲基化得分增加。B.散点图，显示了对照组、癌前病变组和癌症组的平均甲基化得分。

图6：双基因甲基化得分与从对照经癌前阶段发展为宫颈癌之间的相关性。宫颈癌样品来自GSE68339 CIN1至CIN3，来自本申请中描述的麦吉尔(McGill)组群(分配的斯皮尔曼等级：对照：0，CIN1至CIN3：1-3，宫颈癌：4)。

图7：使用来自TCGA(n＝312)的DNA甲基化数据验证宫颈癌的甲基化标志物。由于在TCGA中仅一种CGID(cg13944175)的宫颈数据是可用的，因此我们使用线性回归方程与仅用于CGID cg13944175的DNA甲基化数据计算了宫颈癌的甲基化得分。计算癌症发展阶段与甲基化得分之间的皮尔逊相关性(参见A中的统计数据和B中的相关图)。CIN1至CIN3来自本申请中描述的麦吉尔组群。指定量表：对照：0，CIN1至CIN 3：1-3，宫颈癌：4。

图8：本发明的实用性：预测CIN1至CIN3标本中的宫颈癌。并非所有CIN-1-3患者都发展成患宫颈癌，但CIN3患者的比例高于CIN1患者。本发明测试了图3中开发的甲基化得分是否用于确定表现出宫颈癌甲基化得分的个体患者，作为本发明实用性的证明。A.X轴排列个体患者，组由X轴下的线表示。Y轴指示癌症预测(1)和无癌症判定(0)。B.每组中进行癌症预测的个体数。预测癌症如预期从CIN1增加至CIN3。

具体实施方式

在实施例的描述中，可以参考附图，这些附图形成描述的一部分，并且其中通过说明的方式示出可以实施本发明的具体实施例。应理解，在不背离本发明的范围的条件下可利用其他实施例且可进行结构变化。本文描述或引用的许多技术和程序是所属领域的技术人员所熟知和普遍采用的。除非另有定义，否则本文使用的所有技术术语、符号和其他科学术语或用词都旨在具有本发明所属领域的技术人员通常理解的含义。在一些情况下，为了清楚和/或便于参考，本文定义具有通常理解的含义的术语，并且本文包括这样的定义应当不一定被解释为表示与所属领域中通常理解的内容的实质性差异。

附图的所有说明都是为了描述本发明的选定版本，而不是旨在限制本发明的范围。

本文提及的所有出版物都通过引用并入本文，以结合引用的出版物公开和描述方面、方法和/或材料。

DNA甲基化是指对DNA分子的化学修饰。已发现Illumina Infinium微阵列或基于DNA测序的方法等技术平台对人的DNA甲基化水平进行高度稳健和可再现的测量。人基因组中有超过2800万个CpG基因座。因此，某些基因座被赋予了唯一的标识符，诸如IlluminaCpG基因座数据库中的那些(参见，例如《技术说明：表观遗传学(Technical Note:Epigenetics)》，CpG基因座确定ILLUMINA公司，2010)。本文中使用这些CG基因座命名标识符。

定义：

如本文所用，可互换使用的术语“CG”或“CpG”是指含胞嘧啶和鸟苷碱基的DNA中的二核苷酸序列。这些二核苷酸序列可能在人和其他动物的DNA中甲基化。CGID揭示了其在人基因组中的位置，如Illumina 450K清单或Illumina EPIC清单所定义(本文列出的CG注释可在https://bioconductor.org/packages/release/data/annotation/html/ IlluminaHumanMethylati on450k.db.html或https://bioconductor.org/packages/ release/data/annotation/html/IlluminaHumanMethylationEPICmanifest.html公开获得，并且安装作为R包IlluminaHumanMethylation450k.db(R包版本2.0.9)或IlluminaHumanMethylationEPICmanifest(R包版本0.3.0)。

如本文所用，术语“β值”是指通过使用甲基化和未甲基化探针之间的强度比和下式对Illumina 450K或EPIC阵列进行归一化和量化而得出的CGID位置处的甲基化水平的计算：β值＝0和1之间的甲基化C强度/(甲基化C强度+未甲基化C强度)，其中0是完全未甲基化的，1是完全甲基化的。

如本文所用，术语“惩罚回归”是指旨在从更大的生物标志物列表中确定预测结果所需的最小数量的预测因子的统计方法，如例如在Cox比例风险模型中的戈曼J.J.L1惩罚估计中所述的“受惩罚”的R统计包中所实施的。《Biometrical Journal(生物统计学杂志)》52(1),70-84。

如本文所使用的，术语“群聚”指的是以这样的方式将一组对象分组，使得同一组(称为群聚)中的对象彼此之间比其他组(群聚)中的对象更相似(在某种意义上)。

如本文所使用的，术语“层次聚类”指的是基于群聚彼此有多相似(接近)或不相似(疏远)来构建“群聚”的层级的统计方法，如例如在Kaufman,L.；Rousseeuw,P.J.(1990)《在数据中查找组：群聚分析导论(Finding Groups in Data:An Introduction to ClusterAnalysis)》(第1版)New York:John Wiley.ISBN0-471-87876-6.中所述的。

如本文所用，术语“接收器操作特性(ROC)测定”是指一种创建说明预测因子性能的图形图的统计方法。在预测因子的各种阈值设置(即甲基化的不同百分比)下绘制预测的真阳性率与假阳性率，如例如在Hanley,James A.；McNeil,Barbara J.(1982).“接收器操作特性(ROC)曲线下面积的含义和用途(The Meaning and Use of the Area under aReceiver Operating Characteristic(ROC)Curve)”.《放射学(Radiology)》143(1):29-36中所述的。

如本文所用，术语“多变量或多基因线性回归”是指一种估计多个“自变量”或“预测因子”(诸如多个CGID中甲基化的百分比)与“因变量”(诸如癌症)之间的关系的统计方法。当模型中包括诸如CGID等若干“自变量”时，这种方法确定每个CGID在预测“结果”(因变量，诸如癌症)时的“权重”或系数。

如本文所用，术语“表观遗传学”是指与DNA分子的化学修饰有关、存在于DNA分子中或涉及DNA分子的化学修饰。表观遗传因素包括甲基的添加或移除，这会导致DNA甲基化水平的变化。观察基因组DNA中甲基化模式的宫颈癌的早期检测或诊断或预测的新分子生物标志物，诸如此处公开为基于CGID的生物标志物的那些，允许人们甚至在极早期阶段(其中女性是无症状的或在从CIN1发展到CIN3的癌前阶段)预测宫颈癌风险和易感性，并且将在临床中对流行病学家、医学专业人员是有用的，并且本公开使得其可被所属领域的任何技术人员访问和使用。仅临床生物标志物(诸如巴氏涂片、组织学确定)在宫颈癌诊断方面有着悠久而成功的历史，然而，它们由于很大程度的可变性而大打折扣，且无法用于宫颈癌的早期检测。相比之下，分子生物标志物(诸如DNA甲基化生物标志物形式的表观遗传标志物)迄今很少使用。

如本文所用，术语“DNA甲基化生物标志物”是指潜在甲基化的CpG位置。甲基化通常发生在含核酸的CpG中。含核酸的CpG可以存在于例如基因的CpG岛、CpG倍体、启动子、内含子或外显子中。例如，在本文提供的遗传区域中，潜在的甲基化位点涵盖指示基因的启动子/增强子区域。因此，这些区域可以从基因启动子的上游开始，并且向下游延伸到转录区域。

目前公开的方法假定显示宫颈癌DNA甲基化谱的细胞的频率随着从CIN1到CIN3病理的发展而增加，并且这些甲基化谱是最早宫颈癌的特征。其次，由于转化为癌症的细胞在早期初癌中是罕见的，因此DNA甲基化谱应在分类上不同于宫颈细胞的正常谱，以便在最早期阶段在大多数非恶性细胞的背景上进行检测。再次，如果这些DNA甲基化谱是宫颈癌的原发性和关键特征，则它们应存在于所有完全发展成宫颈癌的标本中。考虑到上述三个先决条件，目前公开的称为“进行性DNA甲基化改变分析(APDMA)”的体外方法涉及以下步骤：使用Infinium甲基化EPIC阵列，在特征明确的HPV基因型分型后，相较于健康、未转型、健康对照宫颈标本，检查从具有不同CIN级病理(CIN1至CIN3)的女性中分离和获得的标本的DNA甲基化的全基因组谱。本发明公开了一种用于获得Illumina探针ID或DNA甲基化数或CG标识符(CGID)作为DNA甲基化生物标志物的体外方法，所述DNA甲基化生物标志物当组合时使用本文公开的线性回归模型，在公开可得的宫颈癌甲基化谱中预测具有>95％的敏感性和特异性的宫颈癌。本发明还提供了一组用于宫颈癌筛查和早期检测的DNA甲基化生物标志物，其中所述组包括具有以下序列的CGID，所述序列选自由以下组成的群组：表1中所列的SEQID NO:1至SEQ ID NO:79及其组合，诸如分别为表1的最后挑选子集、如表2中所列的序列和如表3中所列的CGID的较短子集，如下文所公开。因此，本发明提供了两种CGID，其最低限度地足以在公开可得的DNA甲基化数据中以接近1的敏感性和特异性检测宫颈癌。本发明还公开了用于体外测量DNA甲基化生物标志物的试剂盒，所述DNA甲基化生物标志物作为所公开的CGID在从宫颈标本分离的DNA中的DNA甲基化水平，以用于女性宫颈癌的早期检测的全群体筛查以及具有CIN1至CIN3病理的女性的风险评估。

本文公开的发明具有多个实施例。在一个实施例中，本发明提供了用于宫颈癌早期检测的宫颈涂片中宫颈癌的多基因DNA甲基化CGID生物标志物，所述多基因DNA甲基化生物标志物组通过在映射方法(诸如Illumina 450K或850K阵列、使用多元下一代测序平台的全基因组亚硫酸氢盐测序、甲基化DNA免疫沉淀(MeDIP)测序或与寡核苷酸阵列的杂交)得出的全基因组DNA甲基化上使用本发明中公开的“进行性DNA甲基化改变分析(APDMA)方法”获得。

在一个实施例中，本发明提供了用于获得用于检测宫颈癌的DNA甲基化生物标志物的方法，包括以下步骤：对从癌前病变CIN1至CIN3的宫颈标本获得的DNA甲基化测量结果执行统计分析和本发明中公开的“进行性DNA甲基化改变分析(APDMA)”方法。

在一个实施例中，当前公开的方法包括以下步骤：对从宫颈标本获得的DNA甲基化测量结果执行统计分析和“进行性DNA甲基化改变分析(APDMA)”方法，所述DNA甲基化测量结果通过对从标本中提取的DNA进行Illumina Beadchip 450K或850K测定获得。在另一个实施例中，所述DNA甲基化测量结果通过以下获得：对从样品中提取的DNA进行DNA焦磷酸测序或通过基于质谱分析的甲基化测定(Epityper^TM)，或者通过基于PCR的甲基化测定和从亚硫酸氢盐转化的DNA中对跨越本文公开的靶CGID的区域进行靶向扩增，随后在Illumina下一代测序仪上进行第二组扩增中的条形编码和索引多元测序。在一个进一步的实施例中，所述统计分析包括接收器操作特性(ROC)测定。在又一个实施例中，所述统计分析包括层次聚类分析测定。在一个附加的实施例中，所述统计分析包括神经网络分析。

在本发明的一个实施例中，其公开一种用于获得宫颈癌的早期预测因子的体外方法，所述方法包括以下步骤：(a)测量来自宫颈标本样品的DNA甲基化，(b)对步骤a中获得的所述DNA甲基化测量结果执行统计分析，(c)通过对步骤b中获得的全基因组DNA甲基化谱执行进行性DNA甲基化改变分析(APDMA)来确定称为CG标识符(CGID)的多个独立基因组CG位置的DNA甲基化状态，(d)基于CGID的与宫颈癌癌前阶段发展相关的DNA甲基化频率对CGID进行分类，以及(e)从步骤d中的分类中获得候选CGID以获得呈DNA甲基化生物标志物形式的宫颈癌的早期预测因子。

在本发明的另一个实施例中，其公开了一种用于获得宫颈癌的早期预测因子的体外方法，所述方法包括以下步骤：(a)测量来自宫颈标本样品的DNA甲基化，(b)对步骤a中获得的所述DNA甲基化测量结果执行统计分析，(c)通过对步骤b中获得的全基因组DNA甲基化谱执行进行性DNA甲基化改变分析(APDMA)来确定称为CG标识符(CGID)的多个独立基因组CG位置的DNA甲基化状态，(d)基于CGID的与宫颈癌癌前阶段发展相关的DNA甲基化频率对CGID进行分类，以及(e)从步骤d中的分类中获得候选CGID以获得呈DNA甲基化生物标志物形式的宫颈癌的早期预测因子，其中所述测量DNA甲基化是使用包含以下的方法进行：Illumina 27K、450K或850K阵列、在包括HiSeq、MiniSeq、MiSeq或NextSeq测序仪的平台上进行的全基因组亚硫酸氢盐测序、torrent测序、甲基化DNA免疫沉淀(MeDIP)测序、与寡核苷酸阵列的杂交、DNA焦磷酸测序、基于质谱分析的甲基化测定(Epityper^TM)或基于PCR的甲基化测定的方法来进行。

在本发明的又一个实施例中，其公开了一种用于获得宫颈癌的早期预测因子的体外方法，所述方法包括以下步骤：(a)测量来自宫颈标本样品的DNA甲基化，(b)对步骤a中获得的所述DNA甲基化测量结果执行统计分析，(c)通过对步骤b中获得的全基因组DNA甲基化谱执行进行性DNA甲基化改变分析(APDMA)来确定称为CG标识符(CGID)的多个独立基因组CG位置的DNA甲基化状态，(d)基于CGID的与宫颈癌癌前阶段发展相关的DNA甲基化频率对CGID进行分类，以及(e)从步骤d中的分类中获得候选CGID以获得呈DNA甲基化生物标志物形式的宫颈癌的早期预测因子，其中所述对DNA甲基化测量结果进行的统计分析包括皮尔逊相关性、接收器操作特性(ROC)测定和层次聚类分析。

在本发明的一个进一步的实施例中，其公开了一种用于获得宫颈癌的早期预测因子的体外方法，所述方法包括以下步骤：(a)测量来自宫颈标本样品的DNA甲基化，(b)对步骤a中获得的所述DNA甲基化测量结果执行统计分析，(c)通过对步骤b中获得的全基因组DNA甲基化谱执行进行性DNA甲基化改变分析(APDMA)来确定称为CG标识符(CGID)的多个独立基因组CG位置的DNA甲基化状态，(d)基于CGID的与宫颈癌癌前阶段发展相关的DNA甲基化频率对CGID进行分类，以及(e)从步骤d中的分类中获得候选CGID以获得呈DNA甲基化生物标志物形式的宫颈癌的早期预测因子，其中所述宫颈癌癌前阶段发展包含在阶段CIN1、CIN2和CIN3的宫颈上皮内赘瘤形成病变。

在本发明的一个另选实施例中，其公开了一种用于获得宫颈癌的早期预测因子的体外方法，所述方法包括以下步骤：(a)测量来自宫颈标本样品的DNA甲基化，(b)对步骤a中获得的所述DNA甲基化测量结果执行统计分析，(c)通过对步骤b中获得的全基因组DNA甲基化谱执行进行性DNA甲基化改变分析(APDMA)来确定称为CG标识符(CGID)的多个独立基因组CG位置的DNA甲基化状态，(d)基于CGID的与宫颈癌癌前阶段发展相关的DNA甲基化频率对CGID进行分类，以及(e)从步骤d中的分类中获得候选CGID以获得呈DNA甲基化生物标志物形式的宫颈癌的早期预测因子，其中基于其与宫颈癌癌前阶段发展相关的DNA甲基化频率的所述CGID选自以下群组：SEQ ID NO:1至SEQ ID NO:79及其组合中所阐述的CGID。在本发明的一个补充实施例中，79个CGID位点可单独或组合用作宫颈癌的早期预测因子，被描绘为用于宫颈癌早期检测的DNA甲基化生物标志物。

表1：可用于本发明的实施例中的选定的79种具有CG甲基化位点(CGID)的多核苷酸。

本文各种实施例中使用的选定的79个CGID的Illumina探针ID序列见于本申请包括的表1中，并且包括cg08272731

如SEQ ID NO:1中所阐述，cg19598567

如SEQ ID NO:2中所阐述，cg13944175

如SEQ ID NO:3中所阐述，cg19717586

如SEQ ID NO:4中所阐述，cg22721334

如SEQ ID NO:5中所阐述，cg13985485

如SEQ ID NO:6中所阐述，cg11358689

如SEQ ID NO:7中所阐述，cg01944624

如SEQ ID NO:8中所阐述，cg04864807

如SEQ ID NO:9中所阐述，cg13849378

如SEQ ID NO:10中所阐述，cg19274890

如SEQ ID NO:11中所阐述，cg06783737

如SEQ ID NO:12中所阐述，cg19429281

如SEQ ID NO:13中所阐述，cg00064733

如SEQ ID NO:14中所阐述，cg25258740

如SEQ ID NO:15中所阐述，cg08087594

如SEQ ID NO:16中所阐述，cg17233763

如SEQ ID NO:17中所阐述，cg11372636

如SEQ ID NO:18中所阐述，cg01650149

如SEQ ID NO:19中所阐述，cg17445666

如SEQ ID NO:20中所阐述，cg24415208

如SEQ ID NO:21中所阐述，cg24221648

如SEQ ID NO:22中所阐述，cg09017434

如SEQ ID NO:23中所阐述，cg15814717

如SEQ ID NO:24中所阐述，cg23619365

如SEQ ID NO:25中所阐述，cg20457275

如SEQ ID NO:26中所阐述，cg22305167

如SEQ ID NO:27中所阐述，cg16664405

如SEQ ID NO:28中所阐述，cg16585333

如SEQ ID NO:29中所阐述，cg05057720

如SEQ ID NO:30中所阐述，cg03419058

如SEQ ID NO:31中所阐述，cg02473540

如SEQ ID NO:32中所阐述，cg01758512

如SEQ ID NO:33中所阐述，cg18897632

如SEQ ID NO:34中所阐述，cg09568464

如SEQ ID NO:35中所阐述，cg15811515

如SEQ ID NO:36中所阐述，cg00884040

如SEQ ID NO:37中所阐述，cg21632158

如SEQ ID NO:38中所阐述，cg18343957

如SEQ ID NO:39中所阐述，cg23883696

如SEQ ID NO:40中所阐述，cg24403845

如SEQ ID NO:41中所阐述，cg20405017

如SEQ ID NO:42中所阐述，cg21678377

如SEQ ID NO:43中所阐述，cg03753331

如SEQ ID NO:44中所阐述，cg16587616

如SEQ ID NO:45中所阐述，cg25730685

如SEQ ID NO:46中所阐述，cg20019985

如SEQ ID NO:47中所阐述，cg03730428

如SEQ ID NO:48中所阐述，cg18384778

如SEQ ID NO:49中所阐述，cg22010052

如SEQ ID NO:50中所阐述，cg19688250

如SEQ ID NO:51中所阐述，cg04701034

如SEQ ID NO:52中所阐述，cg20505704

如SEQ ID NO:53中所阐述，cg15124215

如SEQ ID NO:54中所阐述，cg07143083

如SEQ ID NO:55中所阐述，cg00688962

如SEQ ID NO:56中所阐述，cg00027083

如SEQ ID NO:57中所阐述，cg08305436

如SEQ ID NO:58中所阐述，cg1463883

如SEQ ID NO:59中所阐述，cg09907509

如SEQ ID NO:60中所阐述，cg20707222

如SEQ ID NO:61中所阐述，cg17056618

如SEQ ID NO:62中所阐述，cg18058689

如SEQ ID NO:63中所阐述，cg22620221

如SEQ ID NO:64中所阐述，cg02547394

如SEQ ID NO:65中所阐述，cg09469566

如SEQ ID NO:66中所阐述，cg26609631

如SEQ ID NO:67中所阐述，cg10132208

如SEQ ID NO:68中所阐述，cg06000994

如SEQ ID NO:69中所阐述，cg10182317

如SEQ ID NO:70中所阐述，cg14222229

如SEQ ID NO:71中所阐述，cg04596005

如SEQ ID NO:72中所阐述，cg11592503

如SEQ ID NO:73中所阐述，cg05008595

如SEQ ID NO:74中所阐述，cg04999026

如SEQ ID NO:75中所阐述，cg04546413

如SEQ ID NO:76中所阐述，cg27254667

如SEQ ID NO:77中所阐述，cgl8902440

如SEQ ID NO:78中所阐述，及cg01315092

如SEQ ID NO:79中所阐述。使用本文公开的APDMA方法的假设，所述生物标志物最后挑选作为进行性甲基化CGID，在从阶段CIN1至CIN3的转变期间，甲基化平均增加10％或减少多于10％，并且在正常细胞中具有背景甲基化(小于10％)。Illumina方法利用CG基因座侧翼的序列，以与dbSNP中的NCBI的ref SNP ID(rs#)类似的策略生成唯一的CG基因座群聚ID。

在本发明的一个实施例中，其公开了一组用于宫颈癌筛查和早期检测的DNA甲基化生物标志物，其中所述组包括通过APDMA方法获得的CGID，所述CGID具有选自由以下组成的群组中的序列：SEQ ID NO:1至SEQ ID NO:79及其组合，并且任选地，所述组与其他生物标志物组合用作宫颈癌的早期预测因子。

在本发明的一个实施例中，多基因DNA甲基化生物标志物是以下表2的列表中的CGID的组合或此列表的短子集，诸如以下表3中所列的实例，用于在具有CIN1至CIN3癌前病变的女性中早期检测宫颈癌和宫颈癌风险。

因此，在本发明的一个附加的实施例中，其公开了一种用于获得宫颈癌的早期预测因子的体外方法，所述方法包括以下步骤：(a)测量来自宫颈标本样品的DNA甲基化，(b)对步骤a中获得的DNA甲基化测量结果执行统计分析，(c)通过对在步骤b)中获得的全基因组DNA甲基化谱执行进行性DNA甲基化改变分析(APDMA)来确定称为CG标识符(CGID)的多个独立基因组CG位置的DNA甲基化状态，(d)基于CGID与宫颈癌癌前阶段发展相关的DNA甲基化的频率对CGID进行分类，以及(e)从步骤d中的分类中获得候选CGID以获得呈DNA甲基化生物标志物形式的宫颈癌的早期预测因子，其中所述候选CGID作为呈DNA甲基化生物标志物形式的所述宫颈癌的早期预测因子，其中所述CGID选自以下所述的群组：SEQ ID NO:3

表2：可用于本发明的实施例中的来自表1的具有CpG甲基化位点的多核苷酸的选定子集。

本文讨论的16个CGID生物标志物见于本申请包括的表2中。这16个最后挑选的DNA甲基化生物标志物是CIN3和CIN1与对照之间的超甲基化，CIN3和对照之间的效应最高(Cohen D>1.3)，并且与CIN阶段发展的斯皮尔曼相关性最高r>0.4。

在本发明的一个实施例中，其公开了一种用于宫颈癌筛查和早期检测的DNA甲基化生物标志物的组合，所述组合包括使用APDMA方法得出的CGID，所述APDMA方法是用于通过测量源自宫颈标本的DNA中所述CGID的DNA甲基化水平并使用线性回归方程和接收器操作特性(ROC)测定得出“宫颈癌甲基化预测因子”来检测宫颈癌，其中所述CGID选自以下群组：SEQ ID NO:3、SEQ NO:4、SEQ ID NO:7、SEQ ID NO:17、SEQ ID NO:19、SEQ ID NO:31、SEQ ID NO:34、SEQ ID NO:39、SEQ ID NO:42、SEQ ID NO:43、SEQ ID NO:49、SEQ ID NO:56、SEQ ID NO:57、SEQ ID NO:58、SEQ ID NO:65、SEQ ID NO:70及其组合中所阐述的CGID。

表3：可用于发明的实施例中的来自表2的具有CpG甲基化位点的多核苷酸的选定子集。

本文讨论的2个CGID生物标志物，即SEQ ID NO:3中所阐述的cgl3944175

和SEQ ID NO:31中所阐述的cg03419058

见于本申请包括的表3中。表3中的子集表示将CIN3癌前病变与对照区分开的CGID生物标志物的最小数量，所述数量通过以下确定：使用将CGID的数量减少至5的惩罚回归法，然后使用这5个CGID作为自变量并使用CIN3状态作为因变量进行多变量线性回归。由这两个位点的加权甲基化水平构成的线性回归方程对于预测CIN3具有高度显着性(p<5xl0^-15)。

在本发明的一个实施例中，其公开了一种用于宫颈癌筛查和早期检测的DNA甲基化生物标志物的组合，所述组合包括使用APDMA方法得出的CGID，所述APDMA方法是用于通过测量源自宫颈标本的DNA中所述CGID的DNA甲基化水平并使用线性回归方程和接收器操作特性(ROC)测定得出“宫颈癌甲基化预测因子”来检测宫颈癌，其中所述CGID如SEQ IDNO:3和SEQ ID NO:31中所阐述。

在一个实施例中，本发明提供了一种用于检测宫颈癌的试剂盒和工艺，其包含用于检测宫颈癌的一组多基因DNA甲基化生物标志物的DNA甲基化测量的构件和试剂。

在一个实施例中，本发明提供了一种用于检测宫颈癌的试剂盒，其包括用于表1的CGID生物标志物及其组合的DNA甲基化测量的构件和试剂。

在一个实施例中，本发明提供了一种用于检测宫颈癌的试剂盒，其包含用于测量CGID的DNA甲基化并得出宫颈癌的DNA甲基化预测因子的构件和试剂以及使用说明书，其中CGID如SEQ ID NO:1至SEQ ID NO:79及其组合中所阐述。

在一个实施例中，本发明提供了一种包含用于检测宫颈癌的一组呈芯片形式的CGID的试剂盒，其中所述一组CGID如SEQ ID NO:1至SEQ ID NO:79及其组合中所阐述。

在一个实施例中，本发明提供了一种使用本发明公开的CGID生物标志物的试剂盒。

在一个实施例中，本发明提供了一种使用DNA焦磷酸甲基化测定的试剂盒，用于通过测量CGID的DNA甲基化来预测宫颈癌，其中所述CGID如SEQ ID NO:1至SEQ ID NO:79及其组合中所阐述。

在一个实施例中，本发明提供了一种使用DNA焦磷酸测序甲基化测定的试剂盒，用于使用上面列出的CGID生物标志物，例如使用下面公开的引物和制造商(Pyromark，Qiagen)推荐的焦磷酸测序反应的标准条件预测宫颈癌：

对于cg03419058：

如SEQ ID NO:80中所阐述的正向(生物素化)引物，具有多核苷酸序列

如SEQ ID NO:81中所阐述的反向引物，具有多核苷酸序列

如SEQ ID NO:82中所阐述的焦磷酸测序引物，具有多核苷酸序列

对于cgl3944175：

如SEQ ID NO:83中所阐述的正向引物，具有多核苷酸序列

如SEQ ID NO:84中所阐述的反向(生物素化)引物，具有多核苷酸序列

如SEQ ID NO:85中所阐述的焦磷酸测序引物，具有多核苷酸序列

在一个实施例中，本发明提供了一种使用DNA焦磷酸测序甲基化测定的试剂盒，用于通过测量CGID组合的DNA甲基化来预测宫颈癌，其中正向生物素化引物如SEQ ID NO:80中所阐述，反向引物如SEQ ID NO:81中所阐述，并且焦磷酸测序引物如SEQ ID NO:82中所阐述。

在一个实施例中，本发明提供了一种使用DNA焦磷酸测序甲基化测定的试剂盒，用于通过测量CGID组合的DNA甲基化来预测宫颈癌，其中正向生物素化引物如SEQ ID NO:83中所阐述，反向引物如SEQ ID NO:84中所阐述，并且焦磷酸测序引物如SEQ ID NO:85中所阐述。

在一个实施例中，本发明提供了一种使用多基因多元扩增子亚硫酸氢盐测序DNA甲基化测定的试剂盒，用于通过使用上面列出的CGID生物标志物预测宫颈标本DNA中的宫颈癌。例如，使用以下公开的引物和标准条件，所述标准条件涉及亚硫酸氢盐转化，用靶特异性引物(PCR 1)顺序扩增，然后在单个下一代Miseq测序仪(Illumina)中进行条形编码引物(PCR2)和多元测序，使用Illumina软件进行解复用，使用甲基化分析的标准方法诸如Methylkit进行甲基化的数据提取和量化，然后计算加权DNA甲基化得分和预测癌症。

第一PCR如下进行：

对于CGID cg03419058：

如SEQ ID NO:80中所阐述的正向引物，具有多核苷酸序列

如SEQ ID NO:81中所阐述的反向引物，具有多核苷酸序列

对于CGID cg13944175：

如SEQ ID NO:83中所阐述的正向引物，具有多核苷酸序列

如SEQ ID NO:84中所阐述的反向引物，具有多核苷酸序列

为了对样品进行条形编码(索引)，本发明使用了具有以下引物的第二PCR反应：

如SEQ ID NO:86中所阐述的正向引物，具有多核苷酸序列

如SEQ ID NO:87中所阐述的条形编码(反向)引物，具有多核苷酸序列

(其中红色碱基是索引；并且使用1200个此索引的变型)

在一个实施例中，本发明提供了一种在下一代测序仪上使用多元靶向扩增亚硫酸氢盐测序甲基化测定的试剂盒，用于通过测量CGID组合的DNA甲基化水平来检测宫颈癌，其中CGID如SEQ ID NO:1至SEQ ID NO:79及其组合中所阐述。

在另一个实施例中，本发明提供了一种在下一代测序仪上使用多元靶向扩增亚硫酸氢盐测序甲基化测定的试剂盒，用于通过测量CGID组合的DNA甲基化水平来检测宫颈癌，其中如SEQ ID NO:3中所阐述的CGID具有如对于正向引物来说具有多核苷酸序列

的SEQ ID NO:88中所阐述的引物和对于反向引物具有多核苷酸序列

的SEQ ID NO:89中所阐述的引物。

在另一个实施例中，本发明提供了一种在下一代测序仪上使用多元靶向扩增亚硫酸氢盐测序甲基化测定的试剂盒，用于通过测量CGID组合的DNA甲基化水平来检测宫颈癌，其中如SEQ ID NO:31中所阐述的CGID具有如对于正向引物来说具有多核苷酸序列

的SEQ ID NO:90中所阐述的引物和对于反向引物具有多核苷酸序列

的SEQ ID NO:91中所阐述的引物。

在一个实施例中，本发明提供了一种接收器操作特性(ROC)测定的用途，用于通过使用表1中的CGID生物标志物及其组合或诸如表2中的这些CGID的子集及其组合的加权DNA甲基化测量结果定义宫颈癌和正常宫颈之间的阈值作为示例，从而检测癌症。高于所述阈值的样品将被归类为癌症。

在一个实施例中，本发明提供了一种层次聚类分析测定用于预测癌症的用途，与通过使用表1中列出的CGID生物标志物及其组合的甲基化的测量结果获得癌症阳性早期检测的用途。

在一个实施例中，本发明提供了一种使用对从样品中提取的DNA进行的基于质谱分析的甲基化测定(Epityper^TM)或基于PCR的甲基化测定的试剂盒，其用于通过测量用于宫颈癌筛查和早期检测的一组DNA甲基化生物标志物中所述的CGID组合的DNA甲基化水平来检测癌症，其中所述组包括通过APDMA方法获得的CGID，所述CGID具有选自由以下组成的群组中的序列：SEQ ID NO:1至SEQ ID NO:79及其组合，并且任选地，所述组与其他生物标志物组合用作宫颈癌的早期预测因子。

在一个实施例中，本发明提供了一种多变量线性回归方程或神经网络分析的用途，用于通过使用用于宫颈癌筛查和早期检测的一组DNA甲基化生物标志物中所述的DNA甲基化CGID组合的测量结果计算预测宫颈癌的甲基化得分，其中所述组包括通过APDMA方法得出的CGID，所述CGID具有选自由以下组成的群组中的序列：SEQ ID NO:1至SEQ ID NO:79及其组合，并且任选地，所述组与其他生物标志物组合用作宫颈癌的早期预测因子。

在一个实施例中，本发明提供了一种多变量线性回归方程或神经网络分析的用途，用于通过使用用于宫颈癌筛查和早期检测的DNA甲基化生物标志物的组合中所述的DNA甲基化CGID组合的测量结果计算预测宫颈癌的甲基化得分，所述组合包括使用APDMA方法得出的CGID，所述APDMA方法是用于通过测量源自宫颈标本的DNA中所述CGID的DNA甲基化水平并使用线性回归方程和接收器操作特性(ROC)测定得出“宫颈癌甲基化预测因子”来检测宫颈癌，其中所述CGID选自以下群组：SEQ ID NO:3、SEQ NO:4、SEQ ID NO:7、SEQ ID NO:17、SEQ ID NO:19、SEQ ID NO:31、SEQ ID NO:34、SEQ ID NO:39、SEQ ID NO:42、SEQ IDNO:43、SEQ ID NO:49、SEQ ID NO:56、SEQ ID NO:57、SEQ ID NO:58、SEQ ID NO:65、SEQ IDNO:70及其组合中所阐述的CGID。

在一个另选实施例中，本发明提供了一种多变量线性回归方程或神经网络分析的用途，用于通过使用DNA甲基化生物标志物组合中所述的DNA甲基化CGID组合的测量结果计算预测宫颈癌的甲基化得分，其中所述CGID如SEQ ID NO:3和SEQ ID NO:31中所阐述。

在一个实施例中，本发明提供了一种接收器操作特性(ROC)测定的用途，用于通过使用用于宫颈癌筛查和早期检测的一组DNA甲基化生物标志物中所述的DNA甲基化组合的测量结果来界定区分宫颈癌与非癌宫颈组织的“甲基化得分”阈值，其中所述组包括通过APDMA方法得出的CGID，所述CGID具有选自由以下组成的群组中的序列：SEQ ID NO:1至SEQID NO:79及其组合，并且任选地，所述组与其他生物标志物组合用作宫颈癌的早期预测因子。

在一个实施例中，本发明提供了一种接收器操作特性(ROC)测定的用途，用于通过使用用于宫颈癌筛查和早期检测的DNA甲基化生物标志物的组合中所述的DNA甲基化CGID组合的测量结果来定义区分宫颈癌与非癌宫颈组织的“甲基化得分”阈值，所述组合包括使用APDMA方法得出的CGID，所述APDMA方法是用于通过测量源自宫颈标本的DNA中所述CGID的DNA甲基化水平并使用线性回归方程和接收器操作特性(ROC)测定得出“宫颈癌甲基化预测因子”来检测宫颈癌，其中所述CGID选自以下群组：SEQ ID NO:3、SEQ NO:4、SEQ ID NO:7、SEQ ID NO:17、SEQ ID NO:19、SEQ ID NO:31、SEQ ID NO:34、SEQ ID NO:39、SEQ ID NO:42、SEQ ID NO:43、SEQ ID NO:49、SEQ ID NO:56、SEQ ID NO:57、SEQ ID NO:58、SEQ IDNO:65、SEQ ID NO:70及其组合中所阐述的CGID。

在一个另选实施例中，本发明提供了一种接收器操作特性(ROC)测定的用途，用于通过使用如DNA甲基化生物标志物的组合中所述的DNA甲基化组合的测量结果来界定区分宫颈癌与非癌宫颈组织的“甲基化得分”阈值，其中所述CGID如SEQ ID NOG和SEQ ID NO:31中所阐述。

在一个实施例中，本发明提供了一种用以获得用于宫颈癌诊断的早期检测的候选DNA甲基化生物标志物的计算机实施方法，所述方法包括：提供人基因组的多个独立基因组CG位置，即CGID的全基因组DNA甲基化数据；通过归一化处理所述全基因组DNA甲基化数据并得出归一化的DNA甲基化β值；计算癌前和未转型宫颈细胞的发展阶段之间与所述归一化的DNA甲基化β值的斯皮尔曼相关性；通过进行性DNA甲基化改变分析(APDMA)获得候选CGID，以获得用于宫颈癌诊断的早期检测的候选DNA甲基化生物标志物。

实例

以下实例是为了说明本发明而给出的，且因此不应理解为限制本发明的范围。

实例1：用于确定和获得CG位置(CGID)的进行性DNA甲基化改变分析(APDMA)方法，CG位置的甲基化水平是宫颈癌的早期预测因子。

本发明解决了宫颈癌筛查中的一个重大挑战，即寻找稳健的生物标志物，以提供可指导早期干预和治疗的高度准确和敏感的风险评估。一般途径是对全基因组DNA甲基化数据使用案例对照逻辑回归，以确定癌细胞中甲基化程度高于或低于对照组的位点。然而，众所周知，通过这些方法检测到的癌症中许多具有统计上显着的DNA甲基化改变是异质性的，并且许多在癌症发展的晚期发生，因此在早期检测中的价值非常有限，这是因为当标本中癌细胞的频率较低时它们被稀释。此外，在正常细胞和癌细胞的混合物中，甲基化谱的量化差异可以被消除，而不是分类差异。众所周知，DNA甲基化是二元性质，这意味着给定的细胞要么被甲基化，要么不在基因组的特定CG位置。

在本实例中，本发明涉及选定甲基化CGID作为宫颈癌的基本特征，所述CGID在宫颈癌标本中几乎均匀地甲基化，但在正常组织中从未甲基化，并且尽管被分类为宫颈癌，但它们在正常细胞环境中的癌前阶段非常早地出现，并且频率从阶段CIN1至CIN3逐渐增加，向宫颈癌发展。已发现，即使通过对亚硫酸氢盐转化的DNA(其提供单个DNA分子分辨率)进行深度测序在标本中低频发现癌细胞时，也会检测到正常组织和癌症组织的甲基化CGID分类不同。具有甲基化CGID的分子的频率表示样品中癌细胞的比例。通过其他方法对此类CGID进行甲基化测量也将确定标本中癌细胞的发生率，并且可用作样品中宫颈癌风险和预测的DNA甲基化生物标志物。

临床上已知，部分CIN癌前病变会发展为宫颈癌，因此它们为检测癌症中的早期DNA甲基化改变提供了特别独特的窗口。早期预测谁将发展成宫颈癌具有极其重要的临床意义。本发明提供了一种获得此类早期检测DNA甲基化生物标志物的方法，其特征在于以下技术特征：首先，在正常宫颈组织中一致地未甲基化作为早期癌细胞的分类特征的甲基化CGID；第二，这些CGID在早期癌前标本中很少甲基化；第三，这些原发性甲基化CGID的频率应随着从CIN1到CIN3的癌前阶段的发展而增加，如具有CIN3病变的女性中宫颈癌风险增加所预测的；以及第四，由于这些CGID的甲基化是宫颈癌的主要特征，因此这些CGID在宫颈癌标本中的丰富度应该一致。在本实例中，发现特定CGID(其甲基化随着从CIN1到CIN3的CIN阶段的发展而增加)在宫颈癌标本中普遍甲基化，而在本文所述的正常组织中一致未甲基化。因此，本发明目前公开的方法提供了一组候选CGID生物标志物，用于早期检测女性，特别是具有癌前病变的那些女性的宫颈癌。

进行了进行性DNA甲基化改变(APDMA)方法的以下步骤，以描绘甲基化状态检测早期宫颈癌的CGID生物标志物，如图1所概述。

宫颈标本

本发明使用了从因异常宫颈癌筛查结果而转诊到麦吉尔大学(McGillUniversity)附属医院进行阴道镜检查或宫颈病变初步治疗的女性采集的宫颈标本(19)。简言之，2015年6月至2016年4月期间，有643个16-70岁的女性被纳入研究。使用Roche

4800HPV测试(分别检测HPV1和HPV18)和12种其他高风险类型(HPV 31、33、35、39、45、51、52、56、58、59、66和68)作为汇总结果，测试标本中是否存在致癌类型的HPV DNA。细胞学根据贝塞斯达分类被分类为NILM：上皮内病变或恶性肿瘤阴性；ASC-US：非典型鳞状细胞-意义不明；ASC-H非典型鳞状细胞-不能排除HSIL；LSIL：低度鳞状上皮内病变；HSIL：高鳞状上皮内病变；AGC：非典型腺细胞；以及癌症(20)。对宫颈异常进行活检，并且由麦吉尔资深病理学家将组织学结果分级为正常、CIN1、CIN2、CIN3或浸润性癌。研究获得了麦吉尔大学和犹太综合医院机构审查委员会的伦理批准。研究参与者提供了书面知情同意书。

样品集包括186个随机选定的、医生收集的女性标本。在这些标本中，与具有正常活检结果的54份标本进行比较，50份为CIN1、40份为CIN2、42份为CIN3。

DNA提取和全基因组甲基化分析

从原始脱落宫颈细胞标本中提取DNA，将其悬浮于液基细胞学PreservCyt溶液(PreservCyt，豪洛捷公司(Hologic Inc.)，密西沙加)中。使用Qiagen DNA提取试剂盒提取的DNA经过亚硫酸氢盐处理，并在蒙特利尔基因组魁北克创新中心使用制造商描述的标准程序与Illumina Epic阵列杂交。Epic阵列提供人启动子和增强子库的极好覆盖，表示调节转录的所有已知区域(21)。

归一化和得出所有样品的归一化的DNA甲基化值(β)

根据Illumina Infinium HD技术用户指南，按照麦吉尔基因组魁北克创新中心的建议，就载玻片和阵列上的位置对样品进行了随机分配，同时对所有样品进行了杂交和扫描，以减轻批次效应。Illumina阵列杂交和扫描由麦吉尔基因组魁北克创新中心根据制造商指南进行。Illumina阵列使用Morris等人，2014(25)在R中提供的ChAMP Bioconductor包进行分析。IDAT文件用作使用minfi质量控制和归一化选项的champ.load函数的输入。针对至少一份样品中检测值为P>0.01的探针过滤原始数据。本方法滤出X或Y染色体上的探针以减轻性别效应，并滤出了具有Marzouka等人2015(24)中确定的SNP的探针以及与Marzouka等人2015(24)中确定的多个位置对齐的探针。使用函数champ,svd分析非归一化的数据的批次效应。前6个主要成分中有5个与组和批次(载波片)相关。使用β-混合分位数归一化(BMIQ)和函数champ.norm(norm＝"BMIQ")进行阵列内归一化，以针对由Infinium 2型探针设计引入的偏差调整数据(25)。然后，在BMIQ归一化后，使用champ.runcombat函数校正批次效应。

发现甲基化频率与CIN发展相关的CGID

然后，本方法使用了批次校正的归一化的数据的β值，使用R中的斯皮尔曼相关系数函数并使用Benjamini Hochberg的方法“fdr”校正多元测试(经调整的P值(Q)<0.05)，以计算CIN阶段之间的斯皮尔曼相关性(未转型的健康对照宫颈细胞的阶段代码为0，从CIN1到CIN3的CIN阶段代码为1-3)。7715个CGID的甲基化水平与从1到3的癌前CIN阶段的发展显着相关(q>0.05)(参见图2)。随着癌前病变从正常发展至CIN1至CIN3阶段，大部分位点超甲基化，而小部分位点被低甲基化(参见图2)。

候选CGID的最后挑选

为了确定符合APDMA方法假设的CGID位点，最后挑选出了79个进行性甲基化的CGID，在从CIN1向CIN3转化期间甲基化平均增加10％或减少多于10％，且在正常细胞中进行背景甲基化(低于10％)(参见上文表1)。然后，本方法测试了这些CGID是否在来自270份宫颈癌标本的公开可得的Illumina 450K全基因组DNA甲基化数据中一致地确定宫颈癌(参见GSE68339)。基于所测试的CGID DNA甲基化，本方法随后生成了具有这79个CGID的热图，所述CGID的甲基化频率在通过本公开的APDMA方法获得的宫颈癌前阶段的发展期间增加。所述热图揭示了宫颈癌和正常宫颈的这79个CGID表现出分类不同的DNA甲基化谱。明显大多数位点在正常组织中完全未甲基化，而在癌组织中高度甲基化，而少数位点在正常组织中甲基化，而在宫颈癌中未甲基化(参见图3)。因此，本方法将这些超甲基化CGID作为优选的生物标志物，这是因为在完全未甲基化的分子的背景下，甚至低频率的甲基化也是明显可检测的。

实例2：发现用于宫颈癌早期检测的多基因DNA甲基化生物标志物集。

本公开进一步从第一实例和表1中获得和公开的列表中最后挑选出了16个CGID，其中所述16个CGID在CIN3和CIN1与对照之间被超甲基化，在CIN3和对照之间效应最高(Cohen D>1.3)，并且与CIN阶段发展具有最高斯皮尔曼相关性r>0.4。(参见上文表2)。

接下来，为了获得区分CIN3癌前病变与对照病变所需的最小CGID数，本方法进行了惩罚回归，将CGID数减少至5。然后，本方法以这5个CGID为自变量且以CIN3状态为因变量进行多变量线性回归。两个CGID仍然显着(参见上文表3)。由这两个位点的加权甲基化水平构成的线性回归方程对于预测CIN3具有高度显着性(p<5x10^-15)。

实例3：双基因DNA甲基化标志物用于检测宫颈癌的实用性。

接下来，本公开首先验证了在公开可得的宫颈癌450K DNA甲基化数据库上的双基因DNA甲基化标志物(cg03419058；cg13944175)(参见GSE68339)。观察到，以宫颈癌为因变量且以两个CGID的甲基化水平(cg03419058；cg13944175)为自变量的双变量线性回归模型是高度显着的(p<2.2x10^-16，F＝8703，R＝0.9873)。通过计算它们的曲线下面积(AUC)比较针对甲基化得分(使用图4A中公开的线性回归方程计算的)的ROC(参见图4B)。观察到，用于区分宫颈癌和正常宫颈组织的双基因甲基化得分的敏感性和特异性为1(参见图4C)。

因此，上述公开的DNA甲基化生物标志物和计算的甲基化得分可用于使用在常规妇科检查巴氏涂片处收集的宫颈标本在有风险的女性以及一般健康女性群体中筛查和早期检测宫颈癌。

实例4：双基因DNA甲基化生物标志物用于测量来自健康对照、CIN1至CIN3和宫颈癌患者的个体标本中的宫颈癌甲基化得分的实用性。

对于来自对照、CIN1至CIN3(来自上文在实例1中所述的麦吉尔组群)和宫颈癌(参见GSE68339)的每一个体标本，使用图4A中所示的方程计算甲基化得分(宫颈癌预测)(参见图5A)(关于不同组的平均值，参见图5B)。结果说明，晚期癌前病变中甲基化得分增加，正如从宫颈癌风险随CIN阶段发展而增加的临床观察所预期的。甲基化得分可用于筛查CIN病变女性的宫颈癌风险。

实例5：甲基化得分与癌前宫颈癌至宫颈癌发展的斯皮尔曼相关性。

在来自健康、癌前阶段CIN1至CIN3和宫颈癌的宫颈标本的甲基化得分之间进行了斯皮尔曼相关性分析(对照组，n＝54；CIN1，n＝50；CIN2，n＝40；CIN3，n＝42；宫颈癌，n＝270)。结果说明，双基因标志物的甲基化得分与从癌前病变发展为恶性病变之间存在高度显着的相关性(p<2.2x10^-16，r＝0.88)(参见图6)。

实例6：用于检测宫颈癌的甲基化生物标志物(cg13944175)的验证。

由于在TCGA宫颈癌数据中仅一个CGID生物标志物的数据是可得的，因此本公开使用具有仅所述CGID，cg13944175，的DNA甲基化数据的线性回归方程来计算宫颈癌的甲基化得分。计算癌症发展阶段与甲基化得分之间的斯皮尔曼相关性(参见图7A中的统计数据和图7B中的相关图)。在本公开中，CIN1至CIN3来自麦吉尔组群，如本申请中实例1中已经描述的，得分的分配基于分配量表：对照组：0，CIN1-3：1-3，宫颈癌：4。

实例7：双基因甲基化生物标志物用于检测癌前宫颈标本中的宫颈癌的实用性。

双基因甲基化生物标志物用于预测CIN1至CIN3样品中的哪一个将发展为宫颈癌。基于从epic Arrays数据中获得的两个CG位点的甲基化值，计算每个标本的甲基化得分。使用从宫颈癌和健康宫颈标本的比较中计算出的癌症阈值(参见图3)，对每个样品进行了预测(参见图8A)。如预期，预测会癌变的标本比例从CIN1标本中的少数增加到CIN3标本中的60％(参见图8B)。

尽管本发明已经结合其优选实施例进行了解释，但是应当理解，在不脱离本发明的精神和范围的情况下，可以进行许多其他可能的修改和变化。

优点

这些新型DNA甲基化生物标志物可开发为早期、准确诊断人宫颈癌的诊断试剂盒。它们是宫颈癌发生和发展过程中细胞变化的直接指示符，并呈现出宫颈癌的基本特征，在宫颈癌标本中几乎一致甲基化，但在正常组织中从未甲基化，且频率从CIN1至CIN3癌前阶段逐渐增加。这些生物标志物补充了用于准确早期检测CIN病变中的宫颈癌的病理学，并作为无症状女性的早期检测和风险预测生物标志物。这些生物标志物为已经存在的表观遗传、DNA甲基化标志物提供了实用性，在基因调节中起主要作用，可以CGID的形式用作诊断工具。这些生物标志物可提供一种快速、更便宜、准确、稳健和高通量的诊断试剂盒，用于准确、早期和迄今为止不可行地诊断尚未达到的癌前阶段的人宫颈癌。

参考文献

1.El-Zein M,Richardson L,Franco EL.“HPV疫苗接种群体的宫颈癌筛查：细胞学、分子测试，两者皆有或无(Cervical cancer screening of HPV vaccinatedpopulations:Cytology,molecular testing,both or none)”.《临床病毒学杂志(J.Clin.Viro.l)》2015；76:S62-S68.doi:10.1016/j.jcv.2015.11.020。

2.Boers A,Wang R,van Leeuwen RW,等人“发现新的甲基化标志物以改进2/3级宫颈上皮内赘瘤形成的筛查(Discovery of new methylation markers to improvescreening for cervical intraepithelial neoplasia grade 2/3)”.《临床表观遗传学(Clin.Epigenetics)》2016；8(29).doi:10.1186/sl3148-016-0196-3。

3.van Baars R,van der Marel J,Snijders PJF,等人“宫颈刮片中的CADM1和MAL甲基化状态表示多次宫颈活检的女性中最严重的潜在病变(CADM1 and MALmethylation status in cervical scrapes is representative of the most severeunderlying lesion in women with multiple cervical biopsies)”.《国际癌症杂志(Int.J.Cancer)》2016；138:463-471.doi:10.1002/ijc.29706。

4.Verhoef VMJ,Van Kemenade FJ,Rozendaal L,等人“通过组合的细胞学检查和对宫颈刮片的双标志物CADM1/MAL甲基化分析对高危HPV阳性女性进行随访(Follow-up ofhigh-risk HPV positive women by combined cytology and bi-marker CADM1/MALmethylation analysis on cervical scrapes)”.《妇科肿瘤学(Gynecol.Oncol.)》2015；137(1):55-59.doi:10.1016/j.ygyno.2015.01.550。

5.Louvanto K,Franco EL,Ramanakumar AV,等人“与人乳头瘤病毒16型相关的病毒和宿主基因甲基化与宫颈病变严重程度(Methylation of viral and host genes andseverity of cervical lesions associated with human papillomavirus type 16)”.《国际癌症杂志》2014；00(6):1-8.doi:10.1002/ijc.29196。

6.Simanaviciene V,Popendikyte V,Gudleviciene Z,Zvirbliene A.“与宫颈肿瘤形成相比，无症状HPV感染中HPV16、HPV18和HPV51基因组的DNA甲基化模式不同(Different DNA methylation pattern of HPV16,HPV18 and HPV51 genomes inasymptomatic HPV infection as compared to cervical neoplasia)”.《病毒学(Virology)》2015；484:227-233.doi:10.1016/j.virol.2015.06.008。

7.De Strooper LMA,Meijer CJLM,Berkhof J,等人“宫颈刮片中FAM19A4基因的甲基化分析高效地检测宫颈癌和晚期CIN2/3病变(Methylation analysis of theFAM19A4 gene in cervical scrapes is highly efficient in detecting cervicalcarcinomas and advanced CIN2/3lesions)”.《癌症预防研究(Cancer Prev.Res.)》2014；7(6):1251-1257.doi:10.1158/1940-6207.CAPR-14-0237。

8.Mersakova S,Nachajova M,Szepe P,Kasajova PS,Halasova E.“使用分子方法的DNA甲基化与宫颈癌及癌前病变的检测(DNA methylation and detection ofcervical cancer and precancerous lesions using molecular methods)”.《肿瘤生物学(Tumor Biol.)》2015.doi:10.1007/sl3277-015-4197-l。

9.Nikolaidis C,Nena E,Panagopoulou M,等人“作为宫颈癌筛查的辅助生物标志物的PAX1甲基化：荟萃分析(PAX1 methylation as an auxiliary biomarker forcervical cancer screening:ameta-analysis)”.《肿瘤流行病学(Cancer Epidemiol.)》2015；39(5):682-686.doi:10.1016/j.canep.2015.07.008。

10.De Strooper LMA,Hesselink AT,Berkhof J,等人“用于高危HPV阳性女性的阴道镜检分类的CADM1/MAL甲基化和细胞学联合测试(Combined CADM1/MAL methylationand cytology testing for colposcopy triage of high-risk HPV-positive women)”.《癌症流行病学生物标志物与预防(Cancer Epidemiol.Biomarkers Prev.)》2014；23(9):1933-1937.doi:10.1158/1055-9965.EPI-14-0347。

11.De Strooper LMA,Verhoef VMJ,Berkhof J,等人“验证对基于灌洗和刷的自身样品进行FAM19 A4/mir 124-2DNA甲基化测试，以检测HPV阳性女性的宫颈癌(前期)(Validation of the FAM19 A4/mir 124-2DNA methylation test for both lavage-andbrush-based self-samples to detect cervical(pre)cancer in HPV-positivewomen)”.《妇科肿瘤学》2016.doi:10.1016/j.ygyno.2016.02.012。

12.Louvanto K,Franco EL,Ramanakumar A V,等人“与人乳头瘤病毒16型相关的病毒和宿主基因甲基化与宫颈病变严重程度(Methylation of viral and host genesand severity of cervical lesions associated with human papillomavirus type16)”.《国际癌症杂志》2015；136(6):E638-45.doi:10.1002/ijc.29196。

13.De Strooper LM a,van Zummeren M,Steenbergen RDM,等人“对宫颈刮片进行CADM1、MAL和miR 124-2甲基化分析，以检测宫颈癌和子宫内膜癌(CADM1,MAL and miR124-2methylation analysis in cervical scrapes to detect cervical andendometrial cancer.)”.《临床病理学杂志(J.Clin.Pathol.)》2014；67:1067-1071.doi:10.1136/jclinpath-2014-202616。

14.Feng C,Dong J,Chang W,Cui M,Xu T.“宫颈癌基因表达甲基化调节的研究进展(The Progress of Methylation Regulation in Gene Expression of CervicalCancer)”.《国际基因组学杂志(Int.J.Genomics)》2018；2018。

15.Del Mistro A,Frayle H,Rizzi M,等人“从对筛查邀请无反应的女性的自收集宫颈样品进行甲基化分析和HPV基因型分型，并进行文献回顾(Methylation analysisand HPV genotyping of self-collected cervical samples from women notresponding to screening invitation and review of the literature)”.《公共科学图书馆·综合(PLoS One)》2017；12(3):1-13.doi:10.1371/journal.pone.0172226。

16.Eijsink JJH,Lendvai A,Deregowski V,等人“在高危人乳头瘤病毒阳性患者中作为分流测试的四基因甲基化标志物组(Afour-gene methylation marker panel astriage test in high-risk human papillomavirus positive patients)”.《国际癌症杂志》2012；130(8):1861-1869.doi:10.1002/ijc.26326。

17.Verlaat W,Snoek BC,Heideman DAM,等人“用于自身样品的基于HPV的宫颈筛查的3基因甲基化分类器的确定和验证(Identification and validation of a 3-genemethylation classifier for HPV-based cervical screening on self-samples)”.《临床癌症研究(Clin.Cancer Res.)》2018:clincanres.3615.2017.doi:10.1158/1078-0432.CCR-17-3615。

18.Cuzick J,Bergeron C,von Knebel Doeberitz M,等人“宫颈癌筛查的新技术和新程序(New technologies and procedures for cervical cancer screening)”.《疫苗(Vaccine)》2012；30(SUPPL.5):F107-F116.doi:10.1016/疫苗杂志.2012.05.088。

19.El-Zein M,Bouten S,Louvanto K,等人“一种用于宫颈癌筛查的新型HPV自采样装置的验证：宫颈和自采样筛查(CASSIS)研究(Validation of a new HPV self-sampling device for cervical cancer screening:The Cervical and Self-Sample InScreening(CASSIS)study)”.《妇科肿瘤学》2018.doi:https://doi.org/10.1016/j.ygyno.2018.04.004。

20.Smith JHF.Bethesda 2001.《细胞病理学(Cytopathology)》2002；13(1):4-10。

21.Moran S,Arribas C,Esteller M.“针对富含增强子序列的人基因组850,000个CpG位点的DNA甲基化微阵列验证(Validation of a DNA methylation microarray for850,000 CpG sites of the human genome enriched in enhancer sequences)”.《表观基因组学(Epigenomics)》2016；8(3):389“399.doi:10.2217/epi.15.114。

22.Morris TJ,Butcher LM,Feber A,等人“ChAMP：450k芯片分析甲基化管道(ChAMP:450k Chip Analysis Methylation Pipeline)”.《生物信息学(Bioinformatics)》2014；30(3):428-430.doi:10.1093/bioinformatics/btt684。

23.Luttmer R,De Strooper LMA,Berkhof J,等人“比较FAM19A4甲基化分析、细胞学和HPV16/18基因分型在检测妇科门诊群体的高危HPV阳性女性中的宫颈癌(早期)的性能(COMETH研究)(Comparing the performance of FAM19A4 methylation analysis,cytology and HPV16/18genotyping for the detection of cervical(pre)cancer inhigh-risk HPV-positive women of a gynecologic outpatient population(COMETHstudy))”.《国际癌症杂志》2015；138(2015年5月):992-1002.doi:10.1002/ijc.29824。

24.Wentzensen N,Schiffman M,Palmer T,Arbyn M.“宫颈癌筛查中HPV阳性女性的分流(Triage of HPV positive women in cervical cancer screening)”.《临床病毒学杂志》2016；76:S49-S55.doi:10.1016/j.jcv.2015.11.015。

25.Marzouka,N.A.,Nordlund,J.,Backlin,C.L.,Lonnerholm,G.,Syvanen,A.C.,&Carlsson Almlof,J.(2015).“拷贝数450k癌症：从450k甲基化阵列中调用精确拷贝数的基线校正(CopyNumber450kCancer:baseline correction for accurate copynumber calling from the 450k methylation array)”.《生物信息学》doi:10.1093/bioinformatics/btv652。

26.Morris,T.J.,Butcher,L.M.,Feber,A.,Teschendorff,A.E.,Chakravarthy,A.R.,WojdaczT.K.,&Beck,S.(2014).“ChAMP：450k芯片分析甲基化管道”.《生物信息学》30(3),428-430.doi:10.1093/bioinformatics/btt684。

序列表

<110> 香港精准医学技术有限公司

<120> 用于宫颈癌早期检测的DNA甲基化生物标志物

<130> TPC53811

<150> US 62/774,994

<151> 2018-12-04

<160> 91

<170> PatentIn版本3.5

<210> 1

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 1

gaaggaggct gcgcgccagc ccgcccgcgg cgcccgggct caggcgccgt gacggctgca 60

cgcgctgccc cgcactctga gggccttcat tagctcgctc cccgcgccga ggctggggcg 120

gg 122

<210> 2

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 2

cctcccgcag ctcattgcag ccccgaggaa atcaccgggg gagggctcgg gagtgcggcg 60

cggcagcccc ataatttcca gggcccttct cctacactga cacgtaattg tcagattgtt 120

tt 122

<210> 3

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 3

ccgccgcggg ttcccagggc tggtggtagt tgccgtccca cacgtacgtg gcggggtcct 60

cgtcagcgaa gacctcgcgg aacatgtcga ccatgtagag gtcctcggcg cggttgccat 120

cc 122

<210> 4

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 4

ggggaggaat attagactcg gaggagtctg cgcgcttttc tcctccccgc gcctcccggt 60

cgccgcgggt tcaccgctca gtccccgcgc tcgctccgca ccccacccac ttcctgtgct 120

cg 122

<210> 5

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 5

caggccggtc ccagccgccc ggagccccag tgcgcgatgg cggccggcaa actgcgcctg 60

cgcactgggc ctcaccgcgg actacgactc ccacaatgcc gcgaggctgt gccgcgcacc 120

gg 122

<210> 6

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 6

gtgacgcgcg gccgcagctg cccgcgggcg gagcgctctc agaccccgga gcgcacaccg 60

cggggccatc ggtgccatcg cggatctcca ggctcctcat cagtccgccg gggccgcagc 120

ag 122

<210> 7

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 7

gaggaatatt agactcggag gagtctgcgc gcttttctcc tccccgcgcc tcccggtcgc 60

cgcgggttca ccgctcagtc cccgcgctcg ctccgcaccc cacccacttc ctgtgctcgc 120

cc 122

<210> 8

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 8

atctaccgtc tccaatctcc atctccgaag ttatgcccac ttcctcgaag tttggagcca 60

cgcgaactac actgcccaga aggcgccgcg ccgtgagccg cgatgcttgg ccaatgaaaa 120

ga 122

<210> 9

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 9

gggagggctc gtgagagcca atgagagcgc ggaaggcggc gagcgagcca atggacgcgg 60

cggtggggca gggggcgggg cctgggcgag gccgggggcg gaatgggctg agtgccctgt 120

ct 122

<210> 10

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 10

cggcaagcgg agcagcgagg cagggtagct tcatcacact cgcggcggat gcggattccg 60

cgccgccccg gctctagctg ctcaggcgac cgccaccctc gcctcgccgc cgcccgtgca 120

ca 122

<210> 11

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 11

gcggacggcg gctccatccg cggcaatcac cgtagtgctt gtttgtggaa gccgagcgtg 60

cgtgcgccgc gcgcgcaccc agtccagcgc ggagtgggcg tctacccgag gaggggtgtc 120

tg 122

<210> 12

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 12

tggggaatta gctcaggcgg tggagcgctc gcttagctat gcgagaggta gcgagatcga 60

cgcccgcatt ctccagtttc ttgtctggtt tatgtctctt agtttgtatt ccccgttgtt 120

tc 122

<210> 13

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 13

gaagtcccag ggacctgcgg agcgcagaca taacacaaca cagagcaaaa ctcaccgctg 60

cggtgacttt cactccacgc gatccgcttc ccggtttacg ctaaactggg cgctcgggac 120

ag 122

<210> 14

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 14

ggctgcggac ggcggctcca tccgcggcaa tcaccgtagt gcttgtttgt ggaagccgag 60

cgtgcgtgcg ccgcgcgcgc acccagtcca gcgcggagtg ggcgtctacc cgaggagggg 120

tg 122

<210> 15

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 15

cccccgccgg ccgccggccg cgctccccgc cttcattctg tgatctgcgg atttgccagt 60

cgccaacctc cgcgcccaga gtcaccatcg cgcagggttg ggcaaaccat ggagctcggg 120

gc 122

<210> 16

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 16

aactcctgca caaatcattt caaacgcggt cggcttctaa tcgggaagta atctcagtga 60

cgctggcggt gcagagaacc gagtctggac gcacacacac aaacacaccg cgggcctccg 120

ca 122

<210> 17

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 17

gtgtgctcag cctcagcgtg aggggcacct gctcgtctgg gctcacagcg aaggcagcct 60

cgccgcgagc tgccgctgcc gctgctgccg ccactggtgt tgccgctctc aggcgccagg 120

ct 122

<210> 18

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 18

gccgggagcc tgacgtcacc acgccctgcc tgtcaatctg cagcgcgcgc cgctcgcagc 60

cgccttttct gccaccaact gtatctctca ctcgcggagc cggcacagcg acaggcgccc 120

cg 122

<210> 19

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 19

gcggcggcgg gcggggagcc aggcccgagc tgcgttctgc gcagccattg gtgggcgccg 60

cgctctgcac tgagcatgtt cgcgccccgc cggcccctag ccgcagccgc agccgcagcg 120

ac 122

<210> 20

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 20

caaccggttc cgccgcgttt gtgggctggt agcccggaat acatttccca gaggccttcg 60

cggccgacgt gcttcgcgca ggaacgcagc cgcctcccga ctggaggacg cggtagcgga 120

gc 122

<210> 21

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 21

gctgcccgtg gtcaaactgg agtcgctgaa gcgctggaac gaagagcggg gcctctggtg 60

cgagaagggg gtgcaggtgc tgctgacgac ggtgggcgcc ttcgccgcct tcggcctcat 120

ga 122

<210> 22

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 22

cttcccggct ccccgcggtg cgcacccgct ggccactctg cgcacgcgcg ccgggtgccc 60

cggcctaagg ccgttgacct cgggttctcc ccggcacagt cgaatccacg ccagggccct 120

ca 122

<210> 23

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 23

gcgggggagg ttgcggggga ggctcggcgt ccccgctctc cgccccgcga caccgactgc 60

cgccgtggcc gccctcaaag ctcatggttg tgccgccgcc gccctcctgc cggcccggct 120

gg 122

<210> 24

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 24

tgtactactt cctctgccac ctggccttgg tagacgcggg cttcactact agcgtggtgc 60

cgccgctgct ggccaacctg cgcggaccag cgctctggct gccgcgcagc cactgcacgg 120

cc 122

<210> 25

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 25

aaaaaaaaaa aaaagcaatg agccgcaagc cttggactcg cagagctgcc ggtgcccgtc 60

cgagagcccc accagcgcgg ctcacgcctc agtctcgccg ccccaaggtg ggatccgacg 120

cc 122

<210> 26

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 26

cgagagggcc cggtccagca gcctctgggg cccagtgcgc agggcactgc gggccgattg 60

cgccccgggg ccaggaggcg ccgagaaagc aaaagcaaaa gccggcggcg ggtggaggtc 120

aa 122

<210> 27

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 27

cggccgcagt gtgccgcccg ctgcgctatg cggggctcgt ctccccgcgc ctatgtcgca 60

cgctggccag cgcctcctgg ctaagcggcc tcaccaactc ggttgcgcaa accgcgctcc 120

tg 122

<210> 28

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 28

cctggcgcga ccgccagcag cacccagcgc ggggccggga gctgctgggg gcccaggctc 60

cgctctcccc accgctctgc accgctgccg gctgcggaca gacccgatgc gccaccacca 120

cc 122

<210> 29

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 29

ccggagcgcg ctgctgccct ctaccggtca tccgtgcggc cggacaccgt gtcaggcccg 60

cgaggagggc tctgccgcag tcccggggaa cagcacccag cagcgccact gggagaggaa 120

ac 122

<210> 30

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 30

agtccagagc ggcgctgtgc agctggaagg gcgcgcgata gctcaagtta gaggcggccc 60

cggggcgcgg cgcaggacac aagacctcaa actggtactt gcacaggtag ccgttggcgc 120

gc 122

<210> 31

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 31

ggcggtgcga gctccccgcc tgcgggacgc acggagaccg cggtcagcgc gccgcctggc 60

cggcccagcg cgcccagccc gcgcccagcc ccgtccactc ccgtccagcc ccgccgcccg 120

gc 122

<210> 32

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 32

cggtagagtt tccaacacga aagcccgtgt ggtcgcgccg ggagctcacg gcgttccaag 60

cggcacttat cccgcgttga tgcccaggca ccccgcgcgc cctgtttcac caggcccagt 120

ca 122

<210> 33

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 33

ccagcggcag tagctgtagc agcttcagcg aagccggaga tgggcagaga gcgcgcgcgg 60

cgcagcagct ccagattcac tgctctcccc tgcagctccc cgcgcccccg ccgctgtcgc 120

tg 122

<210> 34

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 34

gtgttctctg cggcgggccg cgtccccgct gagcctcgcg gtgacagccg cctttggcag 60

cgagcgctcg gggcacttct atccccgcct ctcaaagggt ggggacagcc gtttccagat 120

tt 122

<210> 35

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 35

cggccgcgcc cccggcagcc cagggcgcgc ttccaccacg gtaccggtgg attcgccgtg 60

cgcagccgga agatggcgca gacgcacaaa gcacaccgat gctgcgccat gatagggccg 120

gc 122

<210> 36

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 36

tctcgcggcg caggcggcgg cggcagaggt ggggtcgcgc agcggaggca gctcgagctt 60

cgggatgcgc gctcgcttct tgggctcctc gctcgatctt actgccccct tttttctctc 120

cc 122

<210> 37

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 37

tcctccagcc agagtcggtg ggactggctg cgctgccctg aagtggttct ccaagcagcg 60

cggagggtgg cggacggcgg acggagccca ggggccgcgt cgggtgggga aacccgaact 120

cg 122

<210> 38

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 38

tgcgcatcgc tggctctggg ttccgccgaa tgcgtcctcc tggcggtgat ggctctggac 60

cgcgcggccg cagtgtgccg cccgctgcgc tatgcggggc tcgtctcccc gcgcctatgt 120

cg 122

<210> 39

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 39

aggggagctg cgaggcgaag tgttcttcag ggaagcgggc tcgagtctcc gcagctgcgg 60

cggcggcggc ggcgcgctgg gccggcggcg ggcgcgggca gggggccggg ggtgccgcgc 120

gg 122

<210> 40

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 40

cctccacccc cggggggttc ctgcgcactg aaagaccgtt ctccggcagg ttttgggatc 60

cggcgacggc tgaccgcgcg ccgcccccac gcccggttcc acgatgctgc aatacagaaa 120

gt 122

<210> 41

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 41

agagaggggt cccagaacga aggtggcggc acgagctctg cgctggcggc tgtggggggc 60

cggcgctcag gaccccaact ccatccaagt tgcgccgcgg tgggggcggg cggaggcggc 120

gc 122

<210> 42

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 42

aatctcccct cgggctcgac ggatgtgcgc cccagatgtg ctgacacatg tccgatgcct 60

cgctgccttg gaggtctccc cgctcgcgtg tctcttctct tcgcaccagc ggcggaaacc 120

gc 122

<210> 43

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 43

gctccgcttc tccgggtttt agcggaagcc tgcggggggc ggggtaaccg cggaagccgg 60

cggccgtggg cgcgcgggtt gggggctctc gcgccgctcc gggctctccc cccccccggc 120

tg 122

<210> 44

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 44

cgcgctccgc ttctccgggt tttagcggaa gcctgcgggg ggcggggtaa ccgcggaagc 60

cggcggccgt gggcgcgcgg gttgggggct ctcgcgccgc tccgggctct cccccccccc 120

gg 122

<210> 45

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 45

gcgagggatc tctgtgcgtc ctcactggcc catgcaccca gcacctgcga ctcccgccgt 60

cgggctgcgt ggccccgcgc ccacacctgc ccgtcccttc cgtcgtccct cgctcgcgca 120

ga 122

<210> 46

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 46

ggggaggtgt ggggagcgga aggccgcagg agcatctttg cggagaaagt actttggctg 60

cggcgggcgc agggcgggcc ggctagcccc gcgccccacc tgttctgtgc gtcgcgctcg 120

cc 122

<210> 47

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 47

tagggctgga aacccgccgc cacagcgggc tagaggtcgt ccccgcccgc aacatatgcg 60

cgaaggaaag tgctacgaac gtcaaatggc cgccccccgc cgacgccatc tgctctgcga 120

ag 122

<210> 48

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 48

cgcccgcaac atatgcgcga aggaaagtgc tacgaacgtc aaatggccgc cccccgccga 60

cgccatctgc tctgcgaagc agaaacggcg gcagctgcgc gcccagtccc tccgcccgcg 120

cc 122

<210> 49

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 49

ccccctgttc aaggtctgtc accgtagggg gcgggggggc gcgtggagcc gctgggggtt 60

cggcccaccc cgcgaaccga gctcccggcc ctgtgcgccc tcagctctgc cgcgggcgtt 120

gg 122

<210> 50

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 50

gctgtggccg cagctgaggc ccgacgagct tccggccggg tctttgccct tcactggccg 60

cgtgaacatc acggtgcgct gcacggtggc cacctctcga ctgctgctgc atagcctctt 120

cc 122

<210> 51

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 51

gtgtgcgtgt gcgtgtgctc agcctcagcg tgaggggcac ctgctcgtct gggctcacag 60

cgaaggcagc ctcgccgcga gctgccgctg ccgctgctgc cgccactggt gttgccgctc 120

tc 122

<210> 52

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 52

tggggcagcg gcgttgcagg agatgagctc agcgcaaagg gaaccccgca gcggcgagtg 60

cggctgctgg cctgcgcgct gtggccccaa caggctggca gggcgcgggc gggtggcggg 120

gt 122

<210> 53

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 53

agagtcggtg ggactggctg cgctgccctg aagtggttct ccaagcagcg cggagggtgg 60

cggacggcgg acggagccca ggggccgcgt cgggtgggga aacccgaact cgcggagggg 120

aa 122

<210> 54

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 54

aaagccctgg caggtaaaga gaggacccgc gcaggctggg agctcccact cctcctccag 60

cgtcacgctc gccctccgcc gctgcctcgc gtccgggtct gtttatatag cgtctggagg 120

cc 122

<210> 55

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 55

ctggccaagt gccggcccat cgcggtgcgc agcggagacg ccttccacga gatccggccg 60

cgcgccgagg tggccaacct cagcgcgcac agcgccagcc ccatccagga tgcggtcctg 120

aa 122

<210> 56

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 56

ggcgccggca gcttcgcgcc ggcggctgga agcgggcggg ctgcacgggc ggctcgagtg 60

cggggacccc agcccctcgc cctcgtgagc gccgcccctg ccacctgctg ccaagtcacc 120

gg 122

<210> 57

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 57

ccccggccgc gccgggcgcg gggctcggga ttcgggagac cgcgcggcgc cgaagccacg 60

cgtcagcccc actgtcccgc gcgcctcgcc ccaggcctcg ggctcttcct ccgcacctcg 120

ta 122

<210> 58

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 58

acgcggggac tggaaagggc gcctgggtgg gaagaggcgc tggcgggtga tcgtccccac 60

cgggccagtc cccgggatct gctgccgccc ctctccgaaa ttcacagcca gagcgggcgc 120

ac 122

<210> 59

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 59

tctgagaagt gtcctcctcg ctctcttata aaaacaggac ttgttgccga ggtcagcgcg 60

cgcatcgagt gtgccaggcg tgtgcgtggt ttctgctgtg tcattgcttt cacggaaggt 120

gg 122

<210> 60

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 60

gcgcccagac tgcgcgccgc gccgctgcgc ccaacattcc cgaggacggc ttcgcgggcg 60

cgtatcgtcc agaccggagc accgccccac cgctagcgca ggagacctgc cggggaagtc 120

gc 122

<210> 61

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 61

aaaggccgta ctctgccccc cgcgggaccc aggtccccgc ctgctgcaga gcgcactctg 60

cgcacgtcga gccgcgaaag gttcacagaa gaaaacaaga gaaagaagta gcaggcactg 120

ag 122

<210> 62

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 62

ggaatccatt cttttaagcc agggtttaaa actcttcaag caagtcatct gcaaaggtac 60

cgcttctacc attttaaaga taggattatg ttccctagga caactggatg agccctagga 120

ac 122

<210> 63

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 63

gaggagcgcg ccgctgcctc tggcgggctt tcggcttgag gggcaaggtg aagagcgcac 60

cggccgtggg gtttaccgag ctggatttgt atgttgcacc atgccttctt ggatcggggc 120

tg 122

<210> 64

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 64

ccctgtgcgt gccgccgcgc tgttgctcgc agtgtgctgg cgccgagctc ggtggacacg 60

cgcgcagtca gagctgcctc tcgccctcgc tagctgggct cgcagcctct tcctccctcc 120

ct 122

<210> 65

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 65

ctctttggca agtggtttgt gcatcaggag aaactttcca cctgcgagcc gaaccggcgc 60

cgagtgcgtg tgtttctgcc tttttttgtt gtcgttgcct ccacccctcc ccattcttct 120

ct 122

<210> 66

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 66

tggctgccag agcgagtgag gggcgcagag gcggcagaga gcggagagcc ccggtgtctc 60

cgcgagggcg gcggcggcca gcagacggcg atcgaggcgc gcgccacggc acggccagcg 120

ca 122

<210> 67

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 67

aagcgcgtgg agagccgaaa ggtgcggtgg gcgcagaggg cgggctggct gcggggcgac 60

cgcgcgccgg ggccatgccg cgctccttcc tggtggactc gctagtgctg cgcgaggcgg 120

gc 122

<210> 68

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 68

ggggtcgcca tgaccgagtg gcccaggccc gagcgaagcc cgcgcgcggt gagtccgccg 60

cggcccatcc gtccctccgc ccgccagagc gtccatcggg acgcccaccc gggagggtct 120

cg 122

<210> 69

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 69

ccgagcgctg cccccgccgg cccgcggctg ccagccggcc ctgcccgcgc ccgggccccg 60

cgagcggccg cacttcacct tacggagggg agataatgag atcaattaga ggcgccgtca 120

cc 122

<210> 70

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 70

ggcaaccctg actcggaccg ctcgggagag ccccaggaga ggccagcgcc gcgcagcagc 60

cgccccgctg cgcccacctc cccggctgct cccggagggc tcacaaaggc ggtggccgcc 120

cg 122

<210> 71

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 71

gcgggcggca gccgcaagcg aggaatccag cgcagggaaa gtagccccag tggggcccgg 60

cgcgtcagcc ccactcgcgt ggcaaaactt gcgggggccc ccgcgtgccg cgcctcagcc 120

ca 122

<210> 72

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 72

tcctcgccgt cggggtcctc ctcctctgcc gacgagttgt cactgggcga ggcgtagctg 60

cgctctacgc cgcggagggg cggcctcttg gaggcgggga ccgggtactc ccgctgcagc 120

cc 122

<210> 73

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 73

gctgctcgcg ctccgccgcc cgggagatgc ttcctcgcgc ggcgcagcgc tgaggccgtg 60

cgtgcgcccc ggctgcgctg cgcgctcccc acatacacaa gctctccatg tgagctgaca 120

gg 122

<210> 74

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 74

cttctcttga aaaggaggag aatcaacact gggctcacaa ctcatcagag ctgagtcata 60

cgtacatcag caggacctac gtgggaacca aatagcaaac tcaaattggg aaatttgagg 120

aa 122

<210> 75

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 75

ccgagagccc cgcctgcagg cggtgtagat acatgtagat actgtagata ctgtagatac 60

cgccccggcg ccgacttgat aaacggtttc gcctcttttg gaagccgcct gcgtgtccat 120

tt 122

<210> 76

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 76

tgaggagtga ggaggcagaa aggaccgaga acaaggggac ccggttccat ttctggaccc 60

cgtccgcagg ctgctcgccc gacttggggt cgctctgccc cggacgatca ggacagctgc 120

gt 122

<210> 77

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 77

caaatctata tgaaggatcg aattgcattg aactagcaaa cacacacaca cacacgcaca 60

cgcaaaaact gatgaaagct gaacaaggtc tgtagtctag tcaacagtac tgcactatgt 120

ga 122

<210> 78

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 78

acagtctctc gcctcaaaga tctccgccat tagtggtagc catttaagaa aacagaatta 60

cgatgaataa tgatttgaag ccaaaaagtc aaaatatctt atttcgcaac tgtaattgct 120

gg 122

<210> 79

<211> 122

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 79

ccacacaggc ctctccctcg gtgcggtagc gagggttgcg ggcccaaacg cccgcgccca 60

cggaggcgcc tgcgacgact agaagcttcc acagccatat gggggcaaag acggcccagt 120

ag 122

<210> 80

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 80

ggtttttggg taggaaggat agtag 25

<210> 81

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 81

aaacaaatct aacccctaaa aaaac 25

<210> 82

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 82

caaactaaac acactaaacc 20

<210> 83

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 83

gggtttttag ggttggtggt a 21

<210> 84

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 84

tcctcataat aataaataac aacc 24

<210> 85

<211> 18

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 85

tatgtatgtg gtggggtt 18

<210> 86

<211> 45

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 86

aatgatacgg cgaccaccga gatctacact ctttccctac acgac 45

<210> 87

<211> 52

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<220>

<221> AGTCATCG

<222> (25)..(32)

<400> 87

caagcagaag acggcatacg agatagtcat cggtgactgg agttcagacg tg 52

<210> 88

<211> 59

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<220>

<221> misc_特征

<222> (34)..(38)

<223> n是a、c、g或t

<400> 88

acactctttc cctacacgac gctcttccga tctnnnnngg gtttttaggg ttggtggta 59

<210> 89

<211> 58

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 89

gtgactggag ttcagacgtg tgctcttccg atcttcctca taataataaa taacaacc 58

<210> 90

<211> 67

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<220>

<221> misc_特征

<222> (34)..(38)

<223> n是a、c、g或t

<400> 90

acactctttc cctacacgac gctcttccga tctnnnnngg taggtttttg ggtaggaagg 60

atagtag 67

<210> 91

<211> 59

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述：合成多核苷酸

<400> 91

gtgactggag ttcagacgtg tgctcttccg atctaaacaa atctaacccc taaaaaaac 59

Claims

1.一种用于获得宫颈癌的早期预测因子的体外方法，所述方法包含以下步骤：(a)测量宫颈标本样品的DNA甲基化，(b)对步骤a中获得的所述DNA甲基化测量结果执行统计分析，(c)通过对步骤b中获得的全基因组DNA甲基化谱执行进行性DNA甲基化改变分析(APDMA)来确定称为CG标识符(CGID)的多个独立基因组CG位置的DNA甲基化状态，(d)基于与宫颈癌癌前阶段发展相关的CGID的DNA甲基化频率对CGID进行分类，以及(e)从步骤d中的分类中获得候选CGID以获得呈DNA甲基化生物标志物形式的宫颈癌的早期预测因子。

2.根据权利要求1所述的方法，所述测量DNA甲基化是使用包含以下的方法执行：Illumina 27K、450K或850K阵列、在包括HiSeq、MiniSeq、MiSeq或NextSeq测序仪的平台上进行的全基因组亚硫酸氢盐测序、torrent测序、甲基化DNA免疫沉淀(MeDIP)测序、与寡核苷酸阵列的杂交、DNA焦磷酸测序、基于质谱分析的甲基化测定(Epityper^TM)或基于PCR的甲基化测定。

3.根据权利要求1所述的方法，对所述DNA甲基化测量结果进行的所述统计分析包括皮尔逊相关性、接收器操作特性(ROC)测定和层次聚类分析。

4.根据权利要求1所述的方法，所述宫颈癌癌前阶段发展包含在CIN1、CIN2和CIN3阶段的宫颈上皮内赘瘤形成病变。

5.根据权利要求1所述的方法，基于与宫颈癌癌前阶段发展相关的所述CGID的DNA甲基化频率的所述CGID选自以下群组：SEQ ID NO:1至SEQ ID NO:79及其组合中所阐述的CGID。

6.根据权利要求1所述的方法，所述候选CGID作为呈DNA甲基化生物标志物形式的所述宫颈癌的早期预测因子，其中所述CGID选自以下群组：SEQ ID NO:3、SEQ NO:4、SEQ ID NO:7、SEQ ID NO:17、SEQ ID NO:19、SEQ ID NO:31、SEQ ID NO:34、SEQ ID NO:39、SEQ ID NO:42、SEQ ID NO:43、SEQ ID NO:49、SEQ ID NO:56、SEQ ID NO:57、SEQ ID NO:58、SEQ IDNO:65、SEQ ID NO:70及其组合中所阐述的CGID。

7.一组用于宫颈癌筛查和早期检测的DNA甲基化生物标志物，其中所述组包含通过APDMA方法得出的CGID，所述CGID具有选自由以下组成的群组的序列：SEQ ID NO:1至SEQID NO:79及其组合，并且任选地，所述组与其他生物标志物组合用作宫颈癌的早期预测因子。

8.一种用于宫颈癌筛查和早期检测的DNA甲基化生物标志物的组合，所述组合包含使用APDMA方法得出的CGID，所述APDMA方法是用于通过测量源自宫颈标本的DNA中的所述CGID的DNA甲基化水平并使用线性回归方程和接收器操作特性(ROC)测定得出“宫颈癌甲基化预测因子”来检测宫颈癌，其中所述CGID选自以下群组：SEQ ID NO:3、SEQ NO:4、SEQ IDNO:7、SEQ ID NO:17、SEQ ID NO:19、SEQ ID NO:31、SEQ ID NO:34、SEQ ID NO:39、SEQ IDNO:42、SEQ ID NO:43、SEQ ID NO:49、SEQ ID NO:56、SEQ ID NO:57、SEQ ID NO:58、SEQ IDNO:65、SEQ ID NO:70及其组合中所阐述的CGID。

9.根据权利要求9所述的DNA甲基化生物标志物的组合，其中所述CGID如SEQ ID NO:3和SEQ ID NO:31中所阐述。

10.一种用于检测宫颈癌的试剂盒，其包含用于测量CGID的DNA甲基化并得出宫颈癌的DNA甲基化预测因子的构件和试剂以及使用说明书，其中所述CGID如SEQ ID NO:1至SEQ IDNO:79及其组合中所阐述。

11.一种试剂盒，其包含用于检测宫颈癌的一组呈芯片形式的CGID，其中所述组CGID如SEQ ID NO:1至SEQ ID NO:79及其组合中所阐述。

12.一种使用DNA焦磷酸测序甲基化方法的试剂盒，其用于通过测量CGID的DNA甲基化来预测宫颈癌，其中所述CGID如SEQ ID NO:1至SEQ ID NO:79及其组合中所阐述。

13.一种使用DNA焦磷酸测序甲基化测定的试剂盒，其用于通过测量CGID组合的DNA甲基化来预测宫颈癌，其中正向生物素化引物如SEQ ID NO:80中所阐述，反向引物如SEQ IDNO:81中所阐述，并且焦磷酸测序引物如SEQ ID NO:82中所阐述。

14.一种使用DNA焦磷酸测序甲基化测定的试剂盒，其用于通过测量CGID组合的DNA甲基化来预测宫颈癌，其中正向生物素化引物如SEQ ID NO:83中所阐述，反向引物如SEQ IDNO:84中所阐述，并且焦磷酸测序引物如SEQ ID NO:85中所阐述。

15.一种在下一代测序仪上使用多元靶向扩增亚硫酸氢盐测序甲基化测定的试剂盒，其用于通过测量CGID组合的DNA甲基化水平来检测宫颈癌，其中所述CGID如SEQ ID NO:1至SEQ ID NO:79中所阐述。

16.根据权利要求16所述的使用多元靶向扩增亚硫酸氢盐测序甲基化测定的试剂盒，其中SEQ ID NO:3中所阐述的CGID具有对于正向引物来说如SEQ ID NO:88中所阐述的引物和对于反向引物来说如SEQ ID NO:89中所阐述的引物。

17.根据权利要求16所述的使用多元靶向扩增亚硫酸氢盐测序甲基化测定的试剂盒，其中SEQ ID NO:31中所阐述的CGID具有对于正向引物来说如SEQ ID NO:90中所阐述的引物和对于反向引物来说如SEQ ID NO:91中所阐述的引物。

18.一种使用对从样品中提取的DNA进行的基于质谱分析的甲基化测定(Epityper^TM)或基于PCR的甲基化测定的试剂盒，其用于通过测量如权利要求7所述的CGID组合的DNA甲基化水平来检测癌症。

19.一种多变量线性回归方程或神经网络分析的用途，其用于通过使用如权利要求7至9中任一项所述的DNA甲基化CGID组合的测量结果来计算预测宫颈癌的甲基化得分。

20.一种接收器操作特性(ROC)测定的用途，其通过使用如权利要求7至9中任一项所述的DNA甲基化组合的测量结果来界定区分宫颈癌与非癌宫颈组织的“甲基化得分”阈值。

21.一种用以获得用于宫颈癌诊断的早期检测的候选DNA甲基化生物标志物的计算机实施方法，所述方法包含：提供人基因组的多个独立基因组CG位置，即CGID的全基因组DNA甲基化数据；通过归一化处理所述全基因组DNA甲基化数据并得出归一化的DNA甲基化β值；计算癌前和未转型宫颈细胞的发展阶段之间与所述归一化的DNA甲基化β值的斯皮尔曼相关性；用进行性DNA甲基化改变分析(APDMA)获得候选CGID以获得用于宫颈癌诊断的早期检测的候选DNA甲基化生物标志物。