CN117355616A

CN117355616A - 用于肝细胞癌的dna甲基化生物标志物

Info

Publication number: CN117355616A
Application number: CN202280036799.2A
Authority: CN
Inventors: 荷西·佩雷拉·利尔; 乔安娜·卡多索·瓦兹; 伊曼纽尔·荷西·维埃拉·冈萨雷斯; 玛丽亚·安娜·冈萨雷斯·里斯
Original assignee: Ofer Ormix Biotechnology Research & Development Ag
Current assignee: Ofer Ormix Biotechnology Research & Development Ag
Priority date: 2021-05-21
Filing date: 2022-05-23
Publication date: 2024-01-05
Also published as: JP2024519082A; EP4341441A1; WO2022243566A1

Abstract

本发明提供了一种检测从获自患者的探查性组织活检或血浆样本中提取的DNA中的癌症的可靠方法，其包含测量包含多个CpG位点的基因组的多个确定的差异甲基化区域的DNA甲基化水平。

Description

用于肝细胞癌的DNA甲基化生物标志物

技术领域

本发明涉及一种用于通过测定多个遗传基因座处的DNA甲基化标记来检测患者样本中低浓度癌症衍生DNA的有利方法。

本发明要求于2021年5月21日提交的欧洲专利申请EP21175425的优先权，其通过引用整体并入本文。

背景技术

目前的HCC诊断指南需要使用侵入性手术，诸如组织活检，然后进行组织学和/或对比增强成像。这些耗时的手术导致HCC往往在晚期才被发现，其中40％的病例是多结节的或转移性的，并且72％的病例没有任何治疗选择(略韦特(Llovet)等人2021《自然综述：疾病导论(Nat.Rev.Dis.Primers)》7：6)。因此，筛查和监测方案对于早期检测和诊断HCC是至关重要的，并且为患者提供更大的治疗选择时间窗口，这可以延长预期寿命。

来自体液(例如血浆和尿液)的液体活检(LB)含有HCC的循环分子生物标志物，其具有作为用于早期诊断测定的非侵入性且廉价的替代物的潜力。在此类样本中高水平的甲胎蛋白(AFP)可以以几乎完美的特异性鉴定HCC，但是灵敏度(召回率)通常较低，低于45％，而较低的AFP阈值(20ng/ml)在特异性和灵敏度之间达到平衡，两者均在79％左右。值得注意的是，在患有慢性肝病，特别是HCV相关的肝硬化的患者体内，AFP作为生物标志物的精确性显著降低，并且不足以进行可靠的诊断(比亚莱基(Bialecki)等人2005《国际肝胰胆协会杂志(HPB)》7：26)。LB还含有来源于全身细胞的无细胞DNA(cfDNA)材料，包括循环肿瘤DNA(ctDNA )。 ctDNA中遗传标志物(诸如突变和甲基化)的测量可用作诊断和治疗工具。

几项研究已经鉴定了HCC的DNA甲基化生物标志物(刘(Liu)等人2020《肿瘤学年鉴(Ann.Oncol.)》31，745；邦德(Bonder)等人2014《BMC基因组学(BMC Genomics)》15，860；王(Wang)等人2019《肝脏病学(Hepatology)》70，51；张(Chang)等人2018《基因组医学(GenomeMed.)》10，42；水(Shui)等人2020《基因学前沿(Front.Genet.)》11，906)，但仅限于组织样本，集中于鉴定单CpG位点的小集合，和/或与健康肝组织样本进行比较，因此无法区分HCC与慢性肝病(例如肝硬化)，以及易受探针故障或患者样本中突变存在的影响，从而无法得出诊断结果。

基于上述现有技术，本发明的目的是提供准确检测患者样本中低浓度肿瘤衍生DNA的手段和方法，特别是检测诸如血浆等无细胞样本中HCC衍生DNA的存在。

该目的通过本说明书的独立权利要求的主题来实现，在本说明书的从属权利要求、实例、附图和一般描述中描述了进一步的有利实施例。

发明内容

本发明涉及一种检测患者样本中对癌细胞特异性的DNA甲基化信号的方法，甚至当癌细胞DNA以非常低的浓度存在时，例如，从疑似患有某一器官癌症的患者，特别是疑似患有肝细胞癌的患者获得的血浆样本中存在的无细胞肿瘤DNA。

该方法包含测量基因组的多个差异甲基化区域(DMR)处的甲基化水平，以获得每个DMR的值，该值反映一个或多个共享不同癌症特异性甲基化标记的冗余CpG位点的甲基化状态。该方法进一步包含评估多个DMR甲基化值的统计学显著性，以分配患者患癌症的高概率或低概率。

根据本发明的方法有利地结合了来自多个冗余甲基化测量的预测信息，使得在该方法的一个或几个单独组分失效的情况下，例如，由于患者DNA中单核苷酸多态性的存在而未能获得单个CpG测量，或者一个或多个测定探针出现技术故障，仍然可以基于成功确定的其他测量，准确地分配患者患癌症的概率。

以这样一种方式界定DMR，使得DMR内的单个CpG位点的DNA甲基化提供与DMR内的平均2个或更多个或所有CpG位点等同的癌症预测值。通过将表1中指定的DMR的2至38，特别是8至38，更特别是10至20的预测值灵活组合到预测风险评分中，引入增强该诊断方法的灵敏度的第二层冗余，以创建一种基于离体样本的DNA甲基化标记准确地分配患者患癌症的概率的方法。

本发明的具体实施例涉及将DMR甲基化水平输入到癌症预测分类算法中以获得风险评分，然后为患者分配患者患癌症的概率，并任选地将风险评分与阈值进行比较。

本发明的具体实施例涉及使用上述根据本发明的方法来分析血浆样本或肝活检样本，以确定患者是否患有肝细胞癌。

术语和定义

出于解释本说明书的目的，将应用以下定义，并且在适当情况下，以单数使用的术语也将包括复数，反之亦然。在以下阐述的任何定义与通过引用并入本文的任何文献冲突的情况下，应以阐述的定义为准。

如本文所用，术语″包含(comprising)″、″具有(having)″、″含有(containing)″和″包括(including)″及其其他类似形式和语法等效形式旨在具有等同的含义并且是开放式的，因为在这些词语中的任一个之后的一个或多个项不旨在是此类一个或多个项的详尽列举，也不旨在仅限于所列举的一个或多个项。例如，″包含″组分A、B和C的制品可以由组分A、B和C组成(即，仅含有组分A、B和C)，或者可以不仅含有组分A、B和C，而且还含有一种或多种其他组分。因此，意图和理解的是，″包含″及其类似形式及其语法等效形式包括″基本上由......组成″或″由......组成″的实施例的公开内容。

在提供数值范围的情况下，应当理解，除非上下文另有明确规定，否则在该范围的上限与下限之间的每个中间值至下限单位的十分之一以及在该所述范围内的任何其他所述值或中间值都涵盖在本公开内，但受所述范围内任何明确排除的限值的限制。在所述范围包括一个或两个限值的情况下，排除那些包括的限值中的任一个或两个的范围也包括在本公开中。

本文中提到″约″值或参数包括(并描述)针对该值或参数本身的变化。例如，提及″约x″的描述包括″x″的描述。

如本文所用，包括在所附权利要求书中，单数形式″一个″、″或″和″该″包括复数指示物，除非上下文另有明确说明。

除非另有定义，本文使用的所有技术和科学术语具有与本领域(例如，在细胞培养、分子遗传学、核酸化学、杂交技术和生物化学中)普通技术人员通常理解的相同含义。标准技术用于分子、遗传和生物化学方法(通常参见萨姆布鲁克(Sambrook)等人，《分子克隆：实验指南(Molecular Cloning：A Laboratory Manual)》，第4版(2012)纽约冷泉港的冷泉港实验室出版社(Cold Spring Harbor Laboratory Press，Cold Spring Harbor，N.Y.)和奥苏贝尔(Ausubel)等人，《分子生物学的简短方案(Short Protocols in MolecularBiology)》(2002)第5版，约翰威立出版公司(John Wiley&Sons，Inc.))和化学方法。

序列

与本文公开的序列相似或同源(例如，至少约70％序列同一性)的序列也是本发明的一部分。在一些实施例中，氨基酸水平的序列同一性可以是约80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高。在核酸水平上，序列同一性可以是约70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高。替代地，当核酸片段将在选择性杂交条件(例如，非常高严格性杂交条件)下与链的互补物杂交时，存在实质同一性。核酸可以存在于整个细胞、细胞裂解液中，或以部分纯化或基本纯的形式存在。

在本说明书的上下文中，术语序列同一性和序列同一性百分比是指表示通过逐位置比较两个比对序列而确定的序列比较结果的单个定量参数。用于比较的序列比对方法是本领域公知的。用于比较的序列比对可以通过史密斯(Smith)和沃特曼(Waterman)的《应用数学进展(Adv.Appl.Math.)》2：482(1981)中的局部同源性算法、通过内德勒曼(Needleman)和温什(wunsch)的《分子生物学杂志(J.Mol.Biol.)》48：443(1970)中的全局比对算法、通过皮尔森(Pearson)和李普曼(Lipman)的《美国国家科学院院刊(Proc.Nat.Acad.Sci.)》85：2444(1988)中的相似性搜索方法或通过这些算法的计算机化实现(包括但不限于：CLUSTAL、GAP、BESTFIT、BLAST、FASTA和TFASTA)来进行。用于进行BLAST分析的软件是公众可获得的，例如，通过国家生物技术信息中心(National Centerfor Biotechnology-Information)(http：//blast.ncbi.nlm.nih.gov/)。

用于比较核酸序列的一个这样的实例是使用默认设置的BLASTN算法：预期阈值：10；字大小：28；查询范围内的最大匹配数：0；匹配/不匹配评分：1.-2；差距成本：线性。除非另有说明，本文提供的序列同一性值是指使用BLAST程序套件(阿特舒尔(Altschul)等人，《分子生物学杂志)》215：403-410(1990))分别使用上述鉴定的蛋白质和核酸比较的默认参数得出的值。提及相同的序列而没有指定百分比值意味着100％相同的序列(即相同的序列)。

在本说明书的上下文中，术语核苷酸涉及核酸或核酸类似物结构单元，其寡聚体能够基于碱基配对与RNA或DNA寡聚体形成选择性杂交体。本文中的术语核苷酸包，括经典的核糖核苷酸结构单元腺苷、鸟苷、尿苷(和核糖基胸腺嘧啶)、胞苷、经典的脱氧核糖核苷酸脱氧腺苷、脱氧鸟苷、胸苷、脱氧尿苷和脱氧胞苷。它还包括核酸的类似物，诸如硫代磷酸酯、2′O-甲基硫代磷酸酯、肽核酸(PNA；通过肽键连接的N-(2-氨乙基)-甘氨酸单元，其中核碱基连接到甘氨酸的α-碳)或锁定核酸(LNA；2′O，4′C亚甲基桥接的RNA结构单元)。当本文提及杂交序列时，这种杂交序列可由任何上述核苷酸或其混合物组成。

在本说明书的上下文中，术语蔗针涉及分子探针，特别是能够与包含单个靶CpG二核苷酸的特定区域选择性杂交的核酸探针。这种杂交核酸序列可以与靶序列连续反向互补，或者可以包含缺口、错配或额外的非匹配核苷酸。能够形成杂交体的序列的最小长度取决于其组成，其中C或G核苷酸比A或T/U核苷酸对结合能的贡献更大，并且取决于主链化学。

在本说明书的上下文中，术语杂交序列涵盖包含或基本上由RNA(核糖核苷酸)、DNA(脱氧核糖核苷酸)、硫代磷酸酯脱氧核糖核苷酸，2′-O-甲基修饰的硫代磷酸酯核糖核苷酸、LNA和/或PNA核苷酸类似物组成的多核苷酸序列。在某些实施例中，根据本发明的杂交序列包含8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸。在某些实施例中，杂交序列与表1中列出的CpG位点周围的反向互补序列至少80％相同，更优选地85％、90％、92％、94％、95％、96％、97％、98％或99％相同。在某些实施例中，杂交序列包含脱氧核苷酸、硫代磷酸酯脱氧核苷酸、LNA和/或PNA核苷酸或其混合物。

在本说明书的上下文中，术语CPG位点CpG基因座或CpG残基(在CpG位点命名法中有时缩写为cg)涉及如上所述的可以甲基化或未甲基化的CpG DNA二核苷酸。CpG二核苷酸是基因组中胞嘧啶核苷酸通过磷酸二酯键与鸟嘌呤核苷酸连接的位置(在5′至3′方向上)。在人体内，DNA甲基化发生在胞嘧啶残基的嘧啶环的5′位置。本文表1中指定的CpG位点是指与来自健康对照的样本或来自非癌症疾病患者的样本相比，在患有癌症的患者(特别是肝细胞癌患者)的液体、无细胞样本(诸如血浆)或肝组织样本中可准确检测到差异甲基化的那些CpG位点。

在本说明书的上下文中，术语DNA甲基化水平、DNA甲基化或甲基化水平是指在特定遗传基因座处存在或不存在甲基化CpG二核苷酸基序，无论在一个CpG位点还是在差异甲基化区域内的一个或多个CpG位点(见下文)。就实例中提供的数据而言，CpG位点的DNA甲基化使用β甲基化值来表示，该值是通过甲基化微阵列中基因组中某个靶CpG位点上与亚硫酸氢盐修饰的未甲基化或甲基化等位基因结合的探针所生成的荧光信号强度进行归一化测量得到的。本文所用的β甲基化标准化了与甲基化和未甲基化基序的存在相关的原始测量，其范围有限，从0指示特定靶CpG二核苷酸位点的低甲基化到1指示该位点的高甲基化，相对于样本中存在的包含靶CpG的DNA总量表示，并且偏移特定于测量模式并且由制造商推荐的固定值。

术语差异甲基化区域或DMR是指其中在两组中存在差异甲基化状态的基因组区域，有时在本文中称为CpG簇。在本说明书的上下文中，表1列出了本发明特别关注的38个DMR，因为它们在癌症和非癌症样本中的甲基化标记不同，同时还列出了它们在人参考基因组38中的位置。DMR 1至38含有至少3个CpG位点，并且没有两个连续的CpG位点相距超过500个碱基对。DMR的甲基化是指在一个所述CpG位点测量的甲基化水平，或多于一个所述CpG位点的甲基化水平的平均值或中位数。

在本说明书的上下文中，术语癌症是指其中肿瘤细胞不受控制地增殖的恶性赘生性疾病，并且涵盖原发性肿瘤和转移性疾病两者。重要的是，与健康对照或其他炎性疾病相比，肿瘤细胞通常以异常的DNA甲基化为特征。通过足够灵敏的诊断测定，可以在含有大量肿瘤DNA的肿瘤活检样本中，以及在含有极低浓度的无细胞DNA的样本(诸如尿、血浆、血清或血液)中检测癌症特异性的差异DNA甲基化。根据本发明的术语癌症涵盖实体瘤，诸如肺癌、肝癌或结肠癌，以及血细胞衍生的癌症，诸如淋巴瘤或白血病。根据本发明的术语癌症涵盖原发性癌症和癌症疾病的复发。

在本说明书的上下文中，术语患者涵盖疑似患有癌症的受试者，或先前诊断为患有癌症并正在接受疾病复发监测的患者。

根据本发明的术语肝癌是指源自肝细胞的癌症，诸如衍生自肝细胞的肝细胞癌(HCC)和肝内胆管癌。HCC患者涵盖同时患有诸如丙型肝炎感染或肝硬化等影响肝脏的合并症的患者。

在本具体发明的上下文中，术语慢性肝病是指以肝脏炎症为特征的非癌症疾病，包括但不限于诸如甲型肝炎或丙型肝炎等病毒感染、α-1抗胰蛋白酶缺乏症患者、与肥胖相关的炎症和肝硬化。根据实例，用于与癌症样本比较以鉴定预测性DMR的对照样本利用此类慢性肝病样本以鉴定甲基化标记，其将包含癌细胞的样本与特征在于影响肝功能的非癌症炎症的样本区分开。根据本发明，从诊断患有慢性肝病的患者获得的样本用于训练根据本发明的预测算法。

术语肝硬化是指以肝细胞死亡、炎症和纤维化为特征的慢性肝病。肝硬化通常是HCC的前兆。肝硬化可能是由于遗传突变、病毒感染、接触毒素或饮酒引起的。

具体实施方式

本发明的第一方面是一种确定患者是否患有癌症的方法，其包含以下步骤：

测量步骤，其中针对从患者获得的离体样本中的多个差异甲基化区域(DMR)测定DNA甲基化水平的水平。根据本发明的多个DMR包含表1中指定的任意两个或更多个DMR，或基本上由表1中指定的任意两个或更多个DMR组成，每个DMR包含3个或更多个CpG位点，其特征在于癌症和非癌症样本中的差异甲基化。

在一些实施例中，根据本发明的如上所述的任何DMR的DNA甲基化水平可以是根据表1对该DMR内列出的单个CpG位点测定的DNA甲基化水平。例如，DMR1的甲基化水平可以是在cg144855744、cg20547777或cg16009311中的一个处测量的甲基化水平。

其他实施例涉及使用包含在任何DMR内的2个或更多个CpG位点的平均甲基化水平来提供DMR的甲基化水平。例如，DMR1的甲基化水平可以是在以下处测定的DNA甲基化个体水平的平均值：

-cg144855744和cg20547777，

-cg144855744和cg16009311，

-cg20547777和cg16009311，或

-cg144855744、cg20547777和cg16009311。

在每个DMR内测量DNA甲基化水平的CpG位点的数量不特别限于本发明，因为每个提供等同的癌症预测信息，如实例的图7所示。

该方法的下一步是评估步骤，其中评估在测量步骤中测定的多个DMR甲基化水平的组合统计学显著性。评估多个DMR甲基化水平的统计学显著性可以包括，例如，将甲基化值与先前确定含有或不含有来源于癌细胞的DNA的对照样本进行比较，或与代表所述对照样本的甲基化水平的阈值进行比较，通过评估每个DMR与所述对照或阈值相比是否以低甲基化或高甲基化为特征，或通过将针对每个DMR获得的多个DNA甲基化值组合到提供反映样本的全局DMR甲基化标记的单一数值的算法中。

接着，在分配步骤中，基于评估步骤中获得的多个DMR甲基化水平的组合统计学显著性，将患者分配为患癌症的高概率或患癌症的低概率。

在任选的进一步步骤中，可以用适当的抗肿瘤疗法或特定的癌症特异性治疗方案，诸如用一种或多种化疗剂或检查点抑制剂，对被分配患癌症的高概率的患者进行治疗，如本文所述。替代地，在最初的低概率分配后2、4、6、8、10、12个月或更长时间内，被分配患癌症的低概率的患者将不需要治疗，也不需要额外的癌症检测。

获得甲基化水平的DMR的数量可以根据本发明的各种实施例，并根据获得甲基化水平的方法，或诊断测定中所需的准确度或灵敏度而变化。

一些实施例涉及一种方法，其中测定表1中指定的DMR的2至38之间的DMR甲基化水平，因为即使将2个DMR的DNA甲基化水平结合在风险评分中也被证明实现对患有和不患有癌症的患者样本进行分类的超过80％的灵敏度和超过90％的精确度(表7)。

其他实施例涉及一种方法，其中测定表1中指定的DMR的8至38之间的DMR甲基化水平，因为在风险评分中使用8个DMR的DNA甲基化水平，根据患者中HCC的存在以超过90％的灵敏度对患者样本进行分类。

具体的实施例涉及一种方法，其中测定表1中列出的约20个DMR的DMR甲基化水平，在实例的表2中证明，当用于预测加性线性算法以获得根据患者样本中HCC衍生的DNA的存在与否对患者进行分类的风险评分时，实现超过95％的灵敏度。

根据本发明的方法可用于检测患者样本中癌细胞的存在。一些实施例涉及使用根据本发明的诊断方法鉴定指示肺癌、结肠癌、乳腺癌或肝癌的DNA甲基化标记。

本发明的具体实施例涉及使用上述方法检测从患者样本提取的DNA中的DNA甲基化标记，以确定患者是否患有肝细胞癌。

由于根据本发明的方法既灵敏又稳健，因此该方法有望广泛适用于许多不同类型的离体患者样本。

具体的实施例涉及从疑似存在癌症的组织的探查性活检中提取的DNA的用途。

其他实施例涉及从液体组织样本(诸如血液)或甚至无细胞样本(诸如血浆或血清)中提取的DNA的用途。

具体的实施例涉及从疑似患有源自实体器官的癌症(例如HCC)的患者的血浆中提取的DNA的用途。

本发明的一些实施例涉及如果对DMR2、DMR4、DMR5、DMR9、DMR10、DMR14、DMR15、DMR16、DMR18、DMR23、DMR24、DMR28、DMR29、DMR35和/或DMR37测定的甲基化水平指示该区域高甲基化，和/或如果对DMR1、DMR3、DMR6、DMR7、DMR8、DMR11、DMR12、DMR13、DMR17、DMR19、DMR20、DMR21、DMR22、DMR25、DMR26、DMR27、DMR30、DMR31、DMR32、DMR33、DMR34、DMR36和/或DMR38测定的甲基化水平指示该区域低甲基化，则分配患者患癌症的高概率。

根据本发明的该实施例的高甲基化或低甲基化可以在评估步骤中参考如在先前确定为不含癌细胞的多个对照样本中测定的所述DMR的平均或中值甲基化水平来测定，特别是在与所述平均值相差2个或更特别是1个标准差的范围内。

在评估步骤的其他实施例中，将多个DNA甲基化水平进行预测性分类算法，该算法根据样本合有来源于癌细胞的DNA的概率对样本进行分类，以获得风险评分。

具体的实施例涉及根据本发明的使用加性线性评分作为分类算法。

具体的实施例涉及通过以下方式将在测量步骤中获得的多个DNA甲基化水平进行加性线性评分：

-将多个DMR甲基化水平中的每一个乘以根据对任一个DMR观察到的相对预测能力计算的个体加权值，以获得多个加权DMR甲基化值，以及

-计算多个加权DMR甲基化值的总和以获得风险评分。

任何一个DMR的相对预测能力是在实例中使用的多个HCC和非HCC患者样本测试和验证队列之间观察到的DNA甲基化的量和可变性的函数。HCC的前38、20、10、8、5、3和2个预测DMR在实例的表1至7中列出。

测量步骤的一些实施例涉及测定包含前1个预测区域DMR1的多个DMR的甲基化水平。

测量步骤的其他实施例涉及测定包含前2个预测区域DMR1和DMR4或由前2个预测区域DMR1和DMR4组成的多个DMR的甲基化水平。

测量步骤的其他实施例涉及测定包含前3个预测区域DMR1、DMR4和DMR28或由前3个预测区域DMR1、DMR4和DMR28组成的多个DMR的甲基化水平。

测量步骤的其他实施例涉及测定包含前5个预测区域DMR1、DMR4、DMR28、DMR35和DMR36或由前5个预测区域DMR1、DMR4、DMR28、DMR35和DMR36组成的多个DMR的甲基化水平。

测量步骤的具体实施例用于测定包含前8个预测区域DMR1、DMR4、DMR6、DMR7、DMR31、DMR35、DMR28和DMR23或由前8个预测区域DMR1、DMR4、DMR6、DMR7、DMR31、DMR35、DMR28和DMR23组成的多个DMR的甲基化水平。

测量步骤的具体实施例涉及测定包含前10个预测区域DMR1、DMR4、DM27、DMR6、DMR2、DMR16、DMR31、DMR35、DMR28和DMR23或由前10个预测区域DMR1、DMR4、DM27、DMR6、DMR2、DMR16、DMR35、DMR28和DMR23组成的多个DMR的甲基化水平。

实例中呈现的多队列荟萃分析证明，在含有或不含有癌症衍生细胞的两组样本中，结合从2至38DMR之间的高或低DNA甲基化的大小和可变性获得的信息，得出了预测风险评分。当与取决于所结合的DMR值的数量的阈值比较时，所述预测风险评分可有力地鉴定患者样本中是否存在癌细胞，特别是HCC细胞衍生的DNA甲基化标记，无论该患者样本是肝组织样本还是血清样本。

上述指定的分配步骤的一些实施例涉及将上述指定的风险评分与准确地区分癌症和非癌症样本的阈值进行比较的过程。在一些实施例中，通过将多个DMR甲基化值输入到如上所述的预测算法中获得的风险评分等于或高于(≥)阈值，指示患者具有患癌症的高概率。相反，低于(<)阈值的风险评分指示患者具有患癌症的低概率。

本发明的具体实施例涉及在评估步骤中使用通过训练分类模型获得的预测算法。分类模型使用训练值的输入来开发可以对新值进行分类的算法。根据本发明的合适的分类模型包括但不限于逻辑分类模型或弹性网分类模型，特别是岭回归分类模型。在实例中研究的队列中的数据表明，使用正则化参数为1的岭回归分类模型，获得合适的系数或个体加权值以作为加性线性评分的一部分应用于DMR甲基化值。

在涉及使用从先前确定患有或不患有癌症的患者获得的多个样本来训练分类模型的某些实施例中，根据本发明的该实施例的训练样本的队列包含大致相等比例的以下各项：

-无细胞样本，诸如先前确定合有癌症衍生DNA的血浆样本，

-先前确定含有癌症衍生DNA的组织活检，

-无细胞样本，诸如来自健康受试者和/或患有诸如慢性肝病或脓毒症等其他疾病的患者的血浆样本，以及

-来自健康受试者和/或患有诸如慢性肝病或脓毒症等其他疾病的患者的组织活检对照样本。

上面列出的四个子集中的每一个都可以用于整体训练分类模型，如果以大致平衡的数量存在的话，或者可以对大量的平衡数据集进行迭代、随机欠采样，以便获得在根据本发明的预测算法中使用的系数和阈值的统计上可靠的值。

具体的实施例涉及使用逻辑回归，特别是岭回归分析来获得模型算法，该模型算法基于每个选择的DMR乘以个体加权值(系数)的总和来生成风险评分。根据本发明的个体加权值反映了每个DMR区分合癌样本和健康对照的能力。可以将风险评分与准确分离包含癌症衍生DNA的样本的阈值进行比较。根据本发明，个体加权值的值没有特别限制，并且取决于为在预测算法中使用而选择的DMR测量、用于开发预测算法的分类模型的类型，以及所需的准确度水平。此类加权值的实例在表1至7中给出。

根据本发明的阈值可以通过找到以最高准确度将癌症衍生的样本与非癌症衍生的样本区分开的风险分值来鉴定，例如通过找到具有最高F评分(索伦森-戴斯系数(Sorensen-Dice coefficient)或戴斯相似性系数(Dice similarity coefficient))的值或风险评分。换言之，应用于对具有已知癌症状态的患者队列获得的风险评分的阈值实现了最高的精确度和召回值，其中完美的精确度和召回由值1表示。本发明的具体实施例涉及一种阈值，其中对HCC患者的分类达到至少90％，特别地大于93％，更特别地大于95％的召回率和至少95％的精确度。在表1至7中示出了适用于利用来源于或应用于根据本发明的DMR的特定子集的甲基化值的加性预测性评分的这种阈值。

在涉及在加性线性风险评分计算中使用对20至38DMR测定的甲基化水平的根据本发明的测量步骤的具体实施例中，在分配步骤中使用的阈值的绝对值在0.70至1.70之间，特别地在1.00至1.50之间，更特别地其中阈值的绝对值为约1.23。

根据本发明的分配步骤的具体实施例涉及患癌症的低概率，其被定义为患癌症的概率约为6％，和/或患癌症的高概率，其被定义为患癌症的概率特别是约为94％。

本发明的具体实施例涉及患者样本的用途，该患者样本选自疑似存在癌症的组织的探查性活检和/或取自患者的血液、血浆或血清样本，其中首先从样本中提取DNA，随后用脱氨剂处理以生成脱氨基DNA。

某些实施例涉及使用化学试剂选择性修饰从患者样本提取的DNA中存在的甲基化或未甲基化形式的二核苷酸CpG位点。所得的修饰CpG可以直接检测，或者可以暴露于区分修饰位点的其他试剂。CpG位点的选择性修饰可以通过例如使用肼或亚硫酸氢盐离子处理来实现。肼处理的DNA可以被哌啶靶向切割，以鉴定CpG甲基化。

具体的实施例涉及亚硫酸氢盐处理的DNA在甲基化测定中的用途，特别是用亚硫酸氢钠处理来自患者样本的DNA。这一过程将胞嘧啶残基转化为尿嘧啶，而5-甲基胞嘧啶则不会被修饰。经处理的DNA可以进一步与核酸探针接触，该核酸探针被设计成与存在于某一位点的胞嘧啶或尿嘧啶杂交，以分别区分甲基化或非甲基化的基因座。探针结合可以通过定量方法评估，诸如测序、定量聚合酶链式反应或甲基化芯片阵列，如依诺米那公司(Illumina)制造的用于测量在实例中分析的患者样本队列中DNA甲基化水平的那些。在涉及使用DNA测序方法获得CpG位点处的DNA甲基化水平的实施例中，甲基化的胞嘧啶由胞嘧啶的存在来指示，而未甲基化的残基被解读为胸腺嘧啶残基。

CpG位点的甲基化可以通过本领域已知的对CpG二核苷酸的甲基化状态敏感的方法来测量，包括但不限于下一代测序、定量聚合酶链式反应或甲基化阵列。

具体的实施例涉及使用甲基化阵列获得的β甲基化值的用途。

在一些实施例中，测量步骤包含使从患者样本制备的脱氨基DNA与某个CpG位点特异性的核酸探针接触。

具体的实施例涉及使从患者样本制备的脱氨基DNA与带有荧光标记的核酸探针接触。实例包括但不限于TaqMan探针或甲基化阵列的核酸探针。

在一些实施例中，在测序反应中使用对特定CpG位点之一特异性的核酸探针以测定CpG处的DNA甲基化水平。在具体的实施例中，使用两种探针与甲基化和未甲基化序列特异性杂交，从而检测和定量甲基化和未甲基化序列。在这样的实施例中，可以使用对由转化反应生成的序列具有特异性的一种探针，转化反应例如由能够将未甲基化的胞嘧啶转化为尿嘧啶的酶，或类似地将C转化为U的亚硫酸氢盐转化实现。使用另一种探针与甲基化位点特异性杂交，甲基化位点不受转化的影响。这两种探针可以用不同的荧光染料标记，这些荧光染料能够在不同的荧光通道上在相同的反应混合物中检测。

对于纳米孔检测，使用特异性引物分别扩增转化或未转化的序列，然后直接进行测序。

根据本发明的前述实施例或方面中的任一个的方法的具体实施例涉及一种方法，其包含测量从患者样本提取的DNA中表1中指定的DMR中8至20的DNA甲基化水平，其中DMR之一是DMR 1，以确定患者样本中是否存在肝细胞癌(HCC)DNA甲基化标记。

本发明进一步涵盖一种或多种核酸探针在制备用于检测人组织样本或无细胞样本(包括血浆和血清)中的状况肝细胞癌DNA的试剂盒中的用途，该核酸探针以甲基化依赖性方式结合至如上指定的DMR1至DMR38中的≥3，特别是≥8至10，更特别是≥20个的每一个中的一个或多个指定CpG位点。

在具体的实施例中，提供试剂盒用于对从诊断为肝硬化的患者获得的液体血液样本进行定期筛查(特别是以每年一次，更特别是以每半年一次的间隔)，以能够早期检测肝癌。

在具体的实施例中，将根据本发明的方法应用于从先前已被诊断为肝硬化的患者获得的样本。在一些具体的实施例中，样本获自诊断为丙型肝炎的患者。

在具体的实施例中，将根据本发明的方法应用于从先前诊断为肝硬化的患者获得的样本，以确定患者将继续发展或已经进展为肝癌类型，特别是HCC的可能性。在更具体的实施例中，该方法作为常规筛查策略应用于诊断为肝硬化的患者，例如以6个月的间隔，以确定患者是否已进展为肝癌，特别是HCC。在某些实施例中，推荐被分配患癌症的高概率的患者接受更具侵入性或更昂贵的筛查方案，诸如MRI或肝活检手术。

本发明的另一方面涉及一种药物组合物，其用于治疗通过上述方法被分配患癌症的高概率的患者，包括先前诊断为肝硬化的患者，该组合物包含抗肿瘤治疗剂。如果上述诊断方法鉴定了其中癌症相对晚期的患者，例如但不限于肝硬化患者，特别是其中在分配患癌症的高概率之后进行成像和/或肿瘤组织病理学分析，发现转移(如转移到肝脏以外的器官)、门静脉侵入，或分配表现状态分类为1或2，则提供化疗剂。在某些实施例中，化疗剂选自乐伐替尼(lenvatinib)、瑞格拉非尼(regorafenib)、卡博替尼(cabozantinib)、雷莫芦单抗(ramucirumab)或索拉非尼(sorafenib)。在具体的实施例中，化疗剂是索拉非尼。在替代的实施例中，药物是检查点抑制剂，其选自对检查点调节分子有反应的抗体组，这些检查点调节分子包含以下组：CTLA-4(Uniprot P16410)、PD-1(Uniprot Q15116)、PD-L1(Uniprot Q9NZQ7)、B7H3(CD276；Uniprot Q5ZPR3)、VISTA(Uniprot Q9H7M9)、TIGIT(UniprotQ495A1)、TIM-3(HAVCR2，Uniprot Q8TDQ0)、CD158(杀伤细胞免疫球蛋白样受体家族)、TGF-β(P0137)。在具体的实施例中，药物选自由以下包含的组：伊匹单抗(ipilimumab)(百时美施贵宝公司(Bristol-Myers Squibb)；CAS编号477202-00-9)、纳武单抗(nivolumab)(百时美施贵宝公司；CAS编号946414-94-4)、派姆单抗(pembrolizumab)(默克公司(Merck Inc)；CAS编号1374853-91-4)、匹地利珠单抗(pidilizumab)(CAS编号1036730-42-3)、阿替利珠单抗(atezolizumab)(罗氏控股集团(Roche AG)；CAS编号1380723-44-3)、阿维单抗(Avelumab)(默克集团(Merck KGaA)；CAS编号1537032-82-8)、德瓦鲁单抗(Durva1umab)(阿斯利康(Astra Zenaca)，CAS编号1428935-60-7)和西米普利单抗(Cemiplimab)(赛诺菲-安万特(Sanofi Aventis)；CAS编号1801342-60-8)。

本发明的另一方面涉及一种治疗肝硬化患者的方法，根据本文概述的方法，结合成像和/或组织病理学肿瘤分析的结果，根据巴塞罗那临床肝癌分期系统(Barcelona-Clinic Liver Cancer staging system)(科尔桑迪(Khorsandi S.E.)，《HBP手术(HBPSurgery)》2012，2012：154056，其内容通过引用整体并入本文)提供的推荐临床应用，该肝硬化患者被分配具有患癌症的高概率。

本发明涵盖一种治疗先前已被诊断为肝硬化的患者的方法，其中根据如上述任一方面和实施例中所述的方法，该患者被分类为具有患癌症的高可能性。如果患者被分类为可能患癌症，而不是病毒或酒精相关的肝硬化相，则患者将根据本领域已知的治疗肝癌的最佳临床实践进行治疗，即按照从早期干预到逐渐晚期干预的顺序进行治疗：

-切除手术，

-肝移植手术，

-射频或微波消融，

-经动脉化疗栓塞，

-选自乐伐替尼、瑞格拉非尼、卡博替尼、雷莫芦单抗、纳武单抗或派姆单抗或索拉非尼，特别是索拉非尼的化疗剂，和/或

-通过本文公开的检查点抑制剂，特别是选自包含伊匹单抗(百时美施贵宝公司；CAS编号477202-00-9)、纳武单抗(百时美施贵宝公司；CAS编号946414-94-4)、派姆单抗(默克公司；CAS编号1374853-91-4)、匹地利珠单抗(CAS编号1036730-42-3)、阿替利珠单抗(罗氏控股集团；CAS编号1380723-44-3)、阿维单抗(默克集团；CAS编号1537032-82-8)、德瓦鲁单抗(阿斯利康，CAS编号1428935-60-7)和西米普利单抗(赛诺菲-安万特；CAS编号1801342-60-8)的组的检查点抑制剂进行的免疫疗法。

所描述的方法提供了仅对最可能从肝硬化进展为肝癌(诸如HCC或胆管癌)的那些患者提供抗肿瘤治疗的能力，通过首先确定患者是否具有患癌症的高概率(如本文所讨论的)，然后仅对如此分类的那些患者进行治疗。

治疗先前已被诊断患有肝硬化的患者的方法包含：

在离体患者样本，特别是肝活检和/或血液、血浆或血清样本中测定2至38个，特别是8至38个，更特别是8至20个差异甲基化区域(DMR)的甲基化水平，这些DMR选自包含或由以下组成的列表：

-DMR1，其包含CpG位点(cg)144855744、cg20547777和/或cg16009311；

-DMR2，其包含cg25366404、cg08864240、cg03422350、cg09655253和/或cg10791278；

-DMR3，其包含cg07003643、cg10904867、cg16996281、cg19560971和/或cg09186818；

-DMR4，其包含cg17571559、cg09666573、cg11702866、cg17660833和/或cg05551003；

-DMR5，其包含cg14021523、cg07040024和/或cg27088038；

-DMR6，其包含cg06753985、cg02457346和/或cg27146824；

-DMR7，其包含cg16987638、cg22399984、cg09113474和/或cg04206219；

-DMR8，其包含cg24932457、cg14430141、cg21577836和/或cg09473826；

-DMR9，其包含cg26550936、cg25140531、cg11882607、cg23482898和/或cg08851782；

-DMR10，其包含cg27528748、cg27108629和/或cg02475600；

-DMR11，其包含cg20511797、cg13847987和/或cg13803765；

-DMR12，其包含cg09754845、cg25029797、cg22646311和/或cg06635328；

-DMR13，其包含cg24224304、cg00512726、cg25936177、cg16179969、cg07726953、cg24569447和/或cg10151685；

-DMR14，其包含cg10759972、cg02860599和/或cg08625822；

-DMR15，其包含cg24202448、cg03920764和/或cg09845293；

-DMR16，其包含cg09816096、cg22151985和/或cg08901057；

-DMR17，其包含cg23551720、cg24095592和/或cg03260240；

-DMR18，其包含cg05469574、cg12432526、cg04172640和/或cg06862949；

-DMR19，其包含vcg26134665、cg02043600、cg03793804、cg25033993、cg07537206、cg03144232和/或cg05787209；

-DMR20，其包含cg09343092、cg03368099、cg25390165、cg20817131、cg01323381、cg03744763、cg14013695、cg05774699、cg03207666、cg12015737、cg14058329、cg19643053、cg07049592、cg02106682、cg27151303、cg21641458、cg14882265、cg05579037、cg13694927、cg17432857、cg23454797、cg08070327、cg25506432、cg00969405、cg01748892、cg26023912和/或cg16997642；

-DMR21，其包含cg21591742、cg03918304、cg25371634、cg18115040、cg13217260、cg20649017和/或cg17489939；

-DMR22，其包含cg26465391、cg08668790、cg01268824、cg21790626、cg05661282、cg12506930、cg03142586、cg11294513、cg27049766和/或cg03234186；

-DMR23，其包含cg05105207、cg04024865和/或cg01887388；

-DMR24，其包含cg07003643、cg10904867、cg16996281、cg19560971和/或cg09186818；

-DMR25，其包含cg08992305、cg00393585、cg12861945、cg06481168、cg11630554、cg25904183和/或cg20697094；

-DMR26，其包含cg05670004、cg06999856、cg26768075、cg16692735和/或cg02613809；

-DMR27，其包含cg15699085、cg04071270和cg06883126；

-DMR28，其包含cg18512232、cg27110938、cg13806267、cg25877512、cg15909725、cg05033439、cg03134809、cg18431486和/或cg01998856；

-DMR29，其包含cg26882224、cg04886934和/或cg17057098；

-DMR30，其包含cg07481320、cg14931854和/或cg24520538；

-DMR31，其包含cg19885761、cg17847520、cg23495748、cg07295964、cg10312572、cg22776578、cg14648916、cg05958740、cg18909295、cg18328894和/或cg15630459；

-DMR32，其包含cg10237990、cg16800851、cg18411550、cg08358392、cg18798995、cg08106148、cg07826275、cg24516147和/或cg09710740；

-DMR33，其包含cg11044099、cg12120367、cg00583001、cg26831001、cg04600055和/或cg17398515；

-DMR34，其包含cg00603340、cg26600753、cg17279652和/或cg12717963；

-DMR35，其包含cg02532030、cg22136013、cg08313040、cg02375585、cg11715943、cg17664233、cg01309395、cg18927185、

cg05547391、cg12208000和/或cg15737123；

-DMR36，其包含cg15712310、cg01635555、cg01744822、cg06984903和/或cg01394847；

-DMR37，其包含cg19846168、cg00779565、cg15203905和/或cg23640231；

-DMR38，其包含cg24428372、cg24737408、cg23900228m、cg01144768和/或cg22405774，

其中DMR的甲基化水平是DMR内包含的一个或2个或更多个CpG位点的平均甲基化水平，以提供多个DMR甲基化水平；

并且其中对DMR2、DMR4、DMR5、DMR9、DMR10、DMR14、DMR15、DMR16、DMR18、DMR23、DMR24、DMR28、DMR29、DMR35和/或DMR37测定的甲基化水平指示DMR的高甲基化，和/或

对DMR1、DMR3、DMR6、DMR7、DMR8、DMR11、DMR12、DMR13、DMR17、DMR19、DMR20、DMR21、DMR22、DMR25、DMR26、DMR27、DMR30、DMR31、DMR32、DMR33、DMR34、DMR36和/或DMR38测定的甲基化水平指示DMR的低甲基化；

这表明患者患有肝细胞癌(HCC)，然后向患者施用选自以下列表的治疗：

-手术切除或肝移植手术；

-射频消融或微波消融；

-有效剂量的化疗剂，特别是选自乐伐替尼、瑞格拉非尼、卡博替尼、雷莫芦单抗、纳武单抗或派姆单抗或索拉非尼，更特别是索拉非尼的化疗剂。

除了定量PCR和/或测序设备之外，本发明进一步涵盖使用引物和适当的寡核苷酸探针，用于制备用于检测HCC的试剂盒。

该方法可以通过计算机实现的方法来实现，特别是其中评估和分配步骤由计算机执行。

此外，该方法可以通过包含计算机程序代码的计算机程序来实现，该计算机程序代码在计算机上执行时使得计算机至少执行评估和/或分配步骤。特别地，测量步骤的结果可以通过用户输入和/或通过提供包含关于在测量步骤期间获得的甲基化水平的信息的计算机可读文件提供给计算机和/或计算机程序。来自测量步骤的结果可以被存储在计算机的存储器上、非瞬态存储介质上以供进一步处理。

另一方面，本发明提供了一种用于确定受试者患癌症的风险或可能性的系统。在具体的实施例中，癌症是肺癌、结肠癌、乳腺癌或肝癌。在更具体的实施例中，该系统确定肝病患者是否已经发展成HCC或处于HCC复发的高风险中。在一个实施例中，该系统包含多个探针，其被设计和配置(能够揭示)为检测(探测或揭示)如本文所鉴定的差异甲基化区域(DMR)处的甲基化水平，即高甲基化或低甲基化。在一个具体的实施例中，多个探针包含用于每个DMR的一组两个探针，一个能够与甲基化序列特异性杂交，另一个能够与通过转化从未甲基化序列生成的序列特异性杂交。该系统包括被设计和配置用于读出每个探针的信号电平的装置，以及计算机(电子计算装置)和计算机程序，其中该计算机程序包含计算机程序代码，该计算机程序代码在计算机上执行时使得计算机执行根据上面概述的本发明的任一方面的方法步骤。例如，计算DMR内冗余CpG探针的平均甲基化值，或将加权值应用于多个DMR的甲基化水平并将它们结合到专利分类算法。

在另一实施例中，该系统包含甲基化阵列，其能够检测如本文所鉴定的差异甲基化区域(DMR)处的高甲基化或其缺失。

在本文中将单个可分离特征的替代方案，例如DMR的不同子集或每个DMR内CpG位点的不同选择，或癌症类型，布置为″实施例″的情况下，应理解，此类替代方案可以自由组合以形成本文所公开的本发明的离散实施例。因此，DMR的任何替代实施例可以与癌症类型的任何替代实施例组合，并且这些组合可以与本文提及的任何诊断方法组合。

通过以下实例和附图进一步说明本发明，从中可以得出进一步的实施例和优点。这些实例旨在说明本发明而非限制其范围。

附图说明

图1示出了所收集的DNA甲基化数据集的概览。a)不同类型的样本数量，即HCC肿瘤、健康肝脏和肝硬化以及其他肝脏疾病样本。b)构成训练和测试数据集的每项研究的样本数量。c)类似于b)，构成验证数据集的每项研究的样本数量。

图2示出了前DNA甲基化HCC生物标志物数量的优化。贪婪顺序DMR选择为LinearSVC模型的顺序添加选择最佳DMR。对于每个DMR数量，生成30个平衡训练集，并进行基准测试。用平衡训练集训练模型，并用于预测训练、测试和验证数据集。要选择的特征的数量在1至38的范围内，其中后者表示LinearSVC模型中特征的中位数。误差容限表示第95个置信区间。

图3示出了HCC生物标志物DMR基准分析。比较a)组织样本和b)cfDNA样本的多个HCC生物标志物集获得的留一法召回率和精确率。c)使用训练和测试样本并在独立验证集上预测训练的多个HCC生物标志物特征集的精确度和召回率。d)热图示出了训练和测试样本子集中HCC和非HCC(健康、肝硬化和慢性肝病)样本的平均β甲基化值。

图4示出了HCC DNA甲基化风险评分特征的排序。a)平衡数据集的1，000个排列之间的DMR系数。b)左图：通过在训练和测试数据集上进行训练并使用验证数据集进行测试，测试了前1至38个DMR的精确度和召回率。右图：前38和前20个DMR标记的岭分类器DMR系数。黑色实线表示线性回归和95％的置信区间。虚线表示对角线。c)使用从1，000次排列分析中获得的平均系数估计的线性风险评分计算的验证样本的精确度-召回率曲线。

图5示出了DMR标记风险评分a)精确度-召回率曲线，仅对训练和测试数据集中未用于鉴定和估计HCC生物标志物和权重的样本进行排序。在给定的召回率和精确度下，沿曲线的最大F1评分用″x″以及DMR标记风险评分阈值表示。随机精确度用水平虚线表示。b)未用于HCC生物标志物发现的DMR标记风险评分训练和测试样本对照代表性的表现最佳的DMR作图。垂直线表示a)中最大F1评分时发现的DMR标记风险评分阈值，并报告相关召回率和精确度。c)训练和测试数据集的所有cfDNA样本的精密度-召回率曲线，包括来自患有其他类型癌症(标记为″癌症″)的患者的样本。d)类似于b)，DMR标记风险评分阈值(垂直虚线)是由c)中沿着精确度-召回率曲线的最大F1评分估算的，并报告召回率和精确度。e)针对两个高度预测性HCC DMR及其甲基化谱绘制的验证集样本估计的DMR标记风险评分。使用训练和测试数据集定义DMR标记风险评分阈值。报告的精确度和召回率是在验证数据集中估计的。

图6示出了基准测试和表现指标DMR标记风险评分。a)计算未用于鉴定DMR标记风险评分生物标志物DMR值及其权重的训练和测试数据集中所有样本的DMR标记风险评分。DMR标记风险评分对照三种最具预测性的HCC DNA甲基化生物标志物作图。HCC分类阈值由垂直虚线表示，并报告精确度和召回率。b)如在a)中，仅使用cfDNA样本，并且来自患有其他癌症(标记为蓝色并且标记为″癌症″)的患者的cfDNA样本也被认为是阳性事件。来自健康对照的cfDNA样本标记为绿色(″健康″)-报告召回率和精确度。

图7示出了DMR标记风险评分模型的平均误差和标准误差a)召回率和b)精确度如何通过每个DMR内仅1、2或3个CpG位点的随机欠采样而改变，并且仅使用前8、10、20或38个DMR的这些CpG位点来估计它们的平均甲基化。

表1示出了38个预测性差异甲基化区域(DMR)，平均值是使用迭代岭回归分析鉴定的加权值(系数)，DMR标记风险评分阈值以及使用来自所有38个DMR的数据计算的表现召回率和精确度，以对测试和训练数据集中的样本进行分类。还示出了用于生物信息学DMR鉴定的簇注释，人参考基因组38(hg38)上DMR的基因组位置，通过在每个DMR内评估的微阵列探针测量的CpG位点，以及HCC样本中每个DMR的相对平均甲基化，与训练和测试数据集中的非HCC样本相比。

表2示出了使用表1中的线性回归分类器岭回归分析为20个DMR选择鉴定的平均加权值(系数)、标准差(StD)和DMR标记风险评分阈值以及针对召回率和精确度计算的表现。

实例

实例1：

用于发现HCC生物标志物的DNA甲基化数据集

为了定义一套全面的DNA甲基化生物标志物，用于从组织和血浆cfDNA样本中检测HCC，使用基于依诺米那的高通量Infinium 450K和EPIC测定，鉴定表征全基因组DNA甲基化变化的HCC相关研究。从6项不同的研究中收集了符合上述标准的859个样本的训练和测试集，涵盖：来自HCC患者的HCC组织和cfDNA样本；来自多种病因的肝硬化组织和来自肝硬化患者的cfDNA；健康的肝组织；和其他非HCC疾病组织(例如肝脏肥胖和α1抗胰蛋白酶缺乏症)，以及来自非HCC患者(例如脓毒症和其他癌症类型)的cfDNA。

测量了总共452,567个甲基化位点(CpG位点)的DNA甲基化水平，甲基化水平用β甲基化值表示，范围在0(低甲基化)和1(高甲基化)之间。将所有数据集合并为单个矩阵，该矩阵含有从原始IDAT文件导入的信号强度，并使用函数归一化流水线进行处理(福汀(Fortin，J.P)等人2014《基因组生物学(Genome Biol.)》15：503)。计算甲基化和未甲基化通道之间的比率，并导出为β甲基化值(β)[EQ1]，偏移量为100(依诺米那甲基化阵列的推荐标准偏移量)，并四舍五入至小数点后5位：

对于下游分析，采取几个过滤步骤：(i)从下游分析中排除在CpG位点或在次等位基因频率(MAF)低于0.01的单核苷酸延伸中含有单核苷酸多态性(SNP)的探针；(ii)使用maxprobes R软件包(v002)去除依诺米那甲基化阵列的交叉反应性探针；(iii)丢弃具有缺失值的CpG位点；(iv)未考虑映射到hg38参考构建版本的更新探针注释和无可用比对的探针；以及(v)为了重点研究与性别无关的生物标志物，从下游分析中去除映射到性染色体x和Y的CpG位点。最终过滤的DNA甲基化矩阵涵盖了所有样本中的总共390,445个CpG位点，没有任何缺失值。

另外，从7个独立数据集中收集了含有692个组织样本的验证数据集，这些数据集无法获得原始数据或出版物，但有经处理的β甲基化值。该验证数据集包含多项研究，具有不同的实验和分析流水线，作为本研究中使用的方法的独立验证。总之，收集的>1，500全基因组DNA甲基化阵列表示发现和验证HCC临床相关疾病背景(诸如肝硬化)的DNA甲基化生物标志物的异质性综合资源。

高质量和信息性DNA甲基化区域的无监督选择

HCC患者样本显示具有低甲基化和高甲基化谱的多重和成簇CpG位点的不同模式。使用Bump Hunter R软件包(v1.30.0)中的clusterMaker函数，CpG簇被定义为跨越至少3个CpG位点，使得两个连续的位点相距至多500个碱基对(bp)。CpG簇与如上定义的过滤的CpG位点重叠，并且仅考虑具有至少3个具有测量的CpG位点的CpG簇。通过取每个簇区域内所有过滤的CpG位点的平均值来定义最终的CpG簇矩阵，从而生成跨越39,868个CpG簇的DNA甲基化矩阵，以减少潜在混杂效应的影响，并专注于基因组区域而不是单个CpG位点，从而揭示稳健且可推广的HCC生物标志物。

预测HCC的甲基化区域的发现

为了将HCC与组织和cfDNA中肝硬化样本的背景区分开，使用留一法(leave-one-out)交叉验证策略，训练线性支持向量机分类器(LinearSVC)以寻找预测HCC的甲基化区域，其中一次留一个样本用于测试预测，而其他858个样本被用作训练集。

通过在两步法中使用平衡数据集鉴定差异甲基化区域和预测区域。首先，通过去除潜在的共因子效应，即性别、年龄、整体甲基化和肿瘤纯度，来鉴定差异甲基化区域(DMR)。然后进行HCC(HCC-T和HCC-CF)和肝硬化(C-T和C-CF)样本之间的差异甲基化分析，将先前的变量作为协变量并入线性模型中以说明它们的潜在影响。仅选择显著差异甲基化的CpG簇(似然比检验FDR<1％)用于模型训练。

DMR被定义为比率检验和ANOVA FDR低于1％的那些CpG簇。因此，在留一法程序中的DMR中位数为1，355。总共88个样本用于模型训练，合有相等比例的HCC和肝硬化，以及相等比例的cfDNA和组织样本。为了最大限度地保留与较小的cfDNA样本集相关的信息，在分析cfDNA样本时，该样本不用于训练，因此每个类别中的样本总数减少到21，因此总共使用84个均匀分布的样本来代替。

HCC甲基化标记的评估、比较和收集

为了找到预测性甲基化标记的DMR的最佳数量，在评估LinearSVC模型的精确度和召回率的同时，对在特征集中添加DMR的情况进行顺序测试。通过使用L1正则化训练线性支持向量机(LinearSVC)来评估HCC样本中鉴定的DMR预测HCC的能力，其中惩罚参数(C)设置为15，以减少模型中考虑的DMR的数量。然后，将训练模型中具有非零权重的DMR定义为对HCC样本进行分类的最具预测性的DMR。在留一法程序的859次迭代中，每个模型鉴定的HCC预测DMR的中位数为38个，其中在所有训练模型中至少有5％(n＝43)发现150个不同的DMR。召回率和精确度急剧增加，最高可达10个DMR，之后测试和验证数据集显示出小幅但持续的性能增长。再加上最优模型中每个DMR的频率与其绝对平均效应大小呈正相关的事实，留一法交叉验证程序中出现频率最高的前38个DMR(图2)。

将得到的DNA甲基化标记与从文献中收集的其他类似方法进行比较，包含来自4个出版物(维兰纽瓦(Villanueva A.)等人2015，《肝脏病学》61：1945；格拉季(Hlady R.A.)等人2019，《治疗诊断学(Theranostics)》9：7239；郑(Cheng J.)等人2018，《基因组医学》10：42；阿兰(Aran D.)等人2015，《自然通讯(Nat.Commun.)》6：8971)和7项专利(KR102103885B1；US2019300965A1；US20180216195A1；US2020263256A1；JP2018508228A1；JP2018508228A2；US20200299776A1)的13组CpG位点。为了避免潜在的方法偏差，与先前使用的支持向量机模型相反，使用了使用逻辑和线性分类模型的集成模型。这种方法迭代地预测在留一法交叉验证中被遗漏用于测试的样本的HCC状态。所有模型的性能使用多个标准性能指标来估计，即召回率、精确度、准确度、马修斯相关系数(MCC)和平衡准确度。组织样本的总体精确度和召回率评分大于08(图3a)，并且当预测cfDNA样本的子集时，所有模型的性能较差，而精确度受影响较小(图3a和3b)。然后将验证组织样本数据集用作独立基准，观察到总体特征集的平均精确度为96％，召回率为86％(图3c)。本研究的标记获得了最高召回率(95％)，同时保持了精确度(98％)(图3c)。

该方法证实了高甲基化和低甲基化区域的标记可以成功地将HCC样本与肝硬化、健康和其他非HCC样本区分开，并以其他DNA甲基化标记为阳性基准，特别是在组织和cfDNA样本中都显示低假阴性率，即高召回率。

肝细胞癌的甲基化诊断指标

然后使用涵盖总共214个CpG位点的前38个DMR，其中118和74个显示HCC中显著的高甲基化和低甲基化(图3d，表1)，以定义单一指标，其可涵盖来自整个DNA甲基化标记的信息，以用作HCC早期检测的诊断指标。

通过随机生成如上所述的1,000个平衡训练数据集，并训练线性回归分类器(图4a)，估计标记中每个DMR的重要性和可变性。其次，制定加性线性评分(DMR标记风险评分)，其由甲基化标记的各38个DMR的总和组成，通过由每个模型学习的它们的带符号平均系数加权。换言之，在所有训练模型中具有高绝对平均系数的DMR在评分中具有较高的优势。简言之，线性风险评分是在留一法交叉验证中用平衡样本集训练的线性支持向量机(LinearSVC)中循环存在非零权重的前38个DMR的综合评分。使用用于训练α参数设置为1的岭分类器的平衡数据集的1,000个排列来估计每个DMR的优势(权重)，确保模型的特征系数(个体加权值)的正则化，同时将它们保持为非零。然后计算所有1,000次迭代中每个DMR的平均值和标准差。然后将平均系数用于加权加性评分，其中具有较大绝对评分的特征在线性DMR标记风险评分中具有较大优势。基于该特征集和权重，计算每个样本的评分。使用风险评分和样本的HCC状态生成召回率和精确度曲线。基于沿着曲线可能的最佳F1指标来估计最佳阈值以及精确度和召回率。

前38个DMR按重要性降序排列(绝对平均系数，表1)，并通过在训练和测试数据集上进行训练和使用验证数据集进行测试，检验前1至38个DMR的精确度和召回率。此处，精度也保持相对稳定，而召回率在8至10个DMR时急剧增加，从10至22，测试和验证数据集显示出小幅但持续的性能增长，并且从22至38，可以从评估指标的逐渐稳定推断出边际改进(图4b)。通过拟合正则化参数a设置为1的岭分类器，根据DMR的所选子集估计系数。这对每个前2、3、5、8、10、20和38个标记独立地进行，从而得到HCC分类的调整系数和阈值(表1和2，图4b)。正如召回率和精确度值所证明的，DMR的选定子集可以将HCC患者与健康或肝硬化对照准确分类。使用组织活检HCC和肝硬化样本以及相同数量的HCC和肝硬化液体活检样本的随机欠采样来训练模型，以确保每个类别的相似代表性。对每个前20和前38个标记进行1,000次随机欠采样。

计算测试和训练以及验证数据集中所有样本的DMR标记风险评分，并根据HCC的可能分配对样本进行排序。估计了其他CpG位点标记的线性风险评分，并观察到在独立验证数据集中，基于DMR标记的评分表现更优并提供了非常准确的HCC预测(图4c)。此外，在训练DMR标记和评分后得到的训练和测试数据集样本中，DMR标记风险评分明确将HCC与非HCC样本分开，召回率(灵敏度)为86％，精确度为83％(图5a和b)。

CfDNA样本在甲基化信号方面具有更大的背景噪声，这是由于与肿瘤活检样本相比来自肿瘤的DNA的比例较低，但由于与组织活检相比易于采集液体样本(诸如血浆或血液)，因此cfDNA样本与早期诊断方法相关。除了HCC和肝硬化cfDNA样本之外，还评估了来自健康对照、脓毒症和患有来自其他组织(包括肺、乳腺和结肠)的癌症的患者的cfDNA样本。此次，HCC指标也明确地将cfDNA HCC和肝硬化样本分开用于标记和评分的训练。

与脓毒症或健康对照相比，主要使用HCC癌症样本训练的DMR标记风险评分也可以完美地鉴定来自患有其他癌症的患者的cfDNA样本(召回率＝88％，精确度＝78％)(图5c和d)。这表明HCC生物标志物检测跨多种癌症的分化甲基化。总之，来自前38个DMR的风险评分成功对HCC样本进行分类，并从其他恶性肿瘤(包括乳腺癌、肺癌和结直肠癌)中鉴定出7个cfDNA样本(共11个)。

线性风险评分是诊断HCC的一个有价值的指标，在具有异质背景的许多不同数据集(图5e)中具有强大的预测能力，最重要的是在组织和液体活检中(图6)。通过对1、2或3个CpG位点进行随机欠采样以有助于前8、10、20或38个DMR的甲基化水平，证实了在每个DMR中鉴定的多个CpG位点的冗余性。观察到召回率随着使用的前DMR数量的增加而增加，与每个DMR考虑的CpG位点数量无关(图7)。

所提供的DMR标记风险评分结合了来自差异甲基化区域(DMR)的信息，这些差异甲基化区域涵盖具有相似甲基化谱的多个连续CpG位点，提供了用于液体活检的可靠生物标志物，并且与来自出版物和专利的HCC的多个DNA甲基化标记相比具有优势。

表1

表1(续)

/>

Claims

1.一种确定患者是否患有癌症，特别是肺癌、结肠癌、乳腺癌或肝癌，更特别是肝细胞癌的方法，所述方法包含：

a.在测量步骤中，测定离体患者样本和/或取自所述患者的血液、血浆或血清样本中2至38个，特别是8至38个，更特别是8至20个差异甲基化区域(DMR)的甲基化水平，所述离体患者样本特别是疑似存在癌症的组织的探查性活检，

其中所述DMR选自包含以下或由以下组成的列表：

-DMR1，其包含CpG位点(cg)144855744、cg20547777和/或cg16009311；

-DMR2，其包含cg25366404、cg08864240、cg03422350、

cg09655253和/或cg10791278；

-DMR3，其包含cg07003643、cg10904867、cg16996281、

cg19560971和/或cg09186818；

-DMR4，其包含cg17571559、cg09666573、cg11702866、

cg17660833和/或cg05551003；

-DMR5，其包含cg14021523、cg07040024和/或

cg27088038；

-DMR6，其包含cg06753985、cg02457346和/或

cg27146824；

-DMR7，其包含cg16987638、cg22399984、cg09113474和/或cg04206219；

DMR8，其包含cg24932457、cg14430141、cg21577836和/或cg09473826；

-DMR9，其包含cg26550936、cg25140531、cg11882607、

cg23482898和/或cg08851782；

-DMR10，其包含cg27528748、cg27108629和/或

cg02475600；

-DMR11，其包含cg20511797、cg13847987和/或cg13803765；

-DMR12，其包含cg09754845、cg25029797、cg22646311和/或cg06635328；

-DMR14，其包含cg10759972、cg02860599和/或cg08625822；

-DMR15，其包含cg24202448、cg03920764和/或cg09845293；

-DMR16，其包含cg09816096、cg22151985和/或cg08901057；

-DMR17，其包含cg23551720、cg24095592和/或cg03260240；

-DMR18，其包含cg05469574、cg12432526、cg04172640和/或cg06862949；

-DMR23，其包含cg05105207、cg04024865和/或cg01887388；

-DMR27，其包含cg15699085、cg04071270和cg06883126；

-DMR29，其包含cg26882224、cg04886934和/或cg17057098；

-DMR30，其包含cg07481320、cg14931854和/或cg24520538；

-DMR34，其包含cg00603340、cg26600753、cg17279652和/或cg12717963；

-DMR35，其包含cg02532030、cg22136013、cg08313040、cg02375585、cg11715943、cg17664233、cg01309395、cg18927185、cg05547391、cg12208000和/或cg15737123；

-DMR37，其包含cg19846168、cg00779565、cg15203905和/或cg23640231；

并且其中所述DMR的所述甲基化水平是所述DMR内包含的一个或2个或更多个CpG位点的平均甲基化水平，以提供多个DMR甲基化水平；

b.在评估步骤中，建立在所述测量步骤a.中测定的所述多个DMR甲基化水平的组合统计学显著性，

c.在分配步骤中，基于所述多个DMR甲基化水平的所述组合统计学显著性分配所述患者患癌症的高概率或患癌症的低概率。

2.根据权利要求1的方法，其中所述患者被分配患癌症的高概率，

-其中对DMR2、DMR4、DMR5、DMR9、DMR10、DMR14、DMR15、DMR16、DMR18、DMR23、DMR24、DMR28、DMR29、DMR35和/或DMR37测定的所述甲基化水平指示所述DMR的高甲基化；

和/或

-其中对DMR1、DMR3、DMR6、DMR7、DMR8、DMR11、DMR12、DMR13、DMR17、DMR19、DMR20、DMR21、DMR22、DMR25、DMR26、DMR27、DMR30、DMR31、DMR32、DMR33、DMR34、DMR36和/或DMR38测定的所述甲基化水平指示所述DMR的低甲基化；

-并且其中高甲基化表征为在先前确定为不含癌细胞的多个对照样本中测定的高于所述DMR的平均甲基化水平的甲基化水平，并且其中低甲基化表征为低于所述DMR的所述平均甲基化水平的甲基化水平。

3.根据权利要求1或2所述的方法，其中在所述评估步骤中，将所述多个DNA甲基化水平进行预测算法，所述预测算法根据所述样本含有来源于癌细胞的DNA的概率对所述样本进行分类，以获得风险评分，特别地，其中所述算法是加性线性评分，

更特别地，其中通过以下方式将所述多个DNA甲基化水平进行加性线性评分：

-将所述多个DMR甲基化水平中的每一个乘以根据每个DMR的相对预测能力的个体加权值，以获得多个加权DMR甲基化值，以及

-计算所述多个加权DMR甲基化值的总和以获得风险评分。

4.根据权利要求3所述的方法，其中在所述分配步骤中，将所述风险评分与阈值进行比较，

-其中等于或高于(≥)阈值的风险评分指示所述患者具有患癌症的高概率，

-并且其中低于(<)所述阈值的风险评分指示所述患者具有患癌症的低概率，

-特别地，其中在所述测量步骤中，测定20至38个DMR的所述甲基化水平，并且其中在所述分配步骤中，所述阈值的绝对值在0.70至1.70之间，特别地在1.00至1.50之间，更特别地，其中阈值的所述绝对值为约1.23。

5.根据前述权利要求1至4中任一项所述的方法，其中在所述测量步骤中，对其测定DMR甲基化水平的所述多个DMR包含DMR1，

-特别是DMR1和DMR4，

-更特别是DMR1、DMR4和DMR28，

-甚至更特别是DMR1、DMR4、DMR28、DMR35和DMR36，

-还更特别是DMR1、DMR4、DMR6、DMR7、DMR31、DMR35、DMR28和DMR23，

-还更特别是DMR1、DMR4、DM27、DMR6、DMR2、DMR16、DMR31、DMR35、DMR28和DMR23。

6.根据权利要求4或5所述的方法，其中所述预测算法通过训练分类模型，特别是逻辑分类模型或弹性网分类模型，更特别是岭回归分类模型来获得，并且其中使用从具有已知癌症状态的多个患者样本获得的多个甲基化值对所述分类模型进行训练，所述患者样本包含相等数量的

i.多个癌症患者组织样本，特别是HCC患者样本，以及

ii.多个对照样本，特别是慢性肝病患者样本和健康对照样本的组合，

iii.其中所述多个癌症患者组织样本和所述多个对照样本各自分别包含相等数量的组织活检样本和无细胞液体活检样本。

7.根据前述权利要求1至6中任一项所述的方法，其中在所述分配步骤中，

－患癌症的低概率被定义为患癌症的概率约为6％，和/或

－患癌症的高概率被定义为患癌症的概率特别是约为94％。

8.根据前述权利要求1至7中任一项所述的方法，其包含获得选自疑似存在癌症的组织的探查性活检，和/或取自所述患者的血液、血浆或血清样本的患者样本，以及

-从所述样本中提取DNA，以及

-用脱氨剂处理提取的DNA以生成脱氨基DNA。

9.根据前述权利要求1至8中任一项所述的方法，其中使用选自下一代测序、定量聚合酶链式反应或甲基化阵列的方法测定给定CpG位点的所述甲基化值，特别地其中所述甲基化值是使用甲基化阵列获得的β甲基化值。

10.根据前述权利要求1至9中任一项所述的方法，其中所述患者样本是血浆样本。

11.根据权利要求1至9中任一项所述的方法，其中所述患者样本是疑似患有癌症的组织的探查性活检样本。

12.根据前述权利要求1至11中任一项所述的方法，其中所述癌症是肝细胞癌(HCC)。

13.一种用于治疗先前诊断为肝硬化的患者的药物组合物，所述组合物包含：

-抗肿瘤药物，其选自乐伐替尼(lenvatinib)、瑞格拉非尼(regorafenib)、卡博替尼(cabozantinib)、雷莫芦单抗(ramucirumab)或索拉非尼(sorafenib)，特别是索拉非尼；和/或

-检查点抑制剂，特别是选自包含伊匹单抗(ipilimumab)、纳武单抗(nivolumab)、派姆单抗(pembrolizumab)、匹地利珠单抗(pidilizumab)、阿替利珠单抗(atezolizumab)、阿维单抗(avelumab)、德瓦鲁单抗(durvalumab)和西米普利单抗(cemiplimab)，更特别是纳武单抗或派姆单抗的组的检查点抑制剂；

其中通过根据权利要求1至12中任一项所述的方法将所述患者分配为患癌症的高概率。

14.一种用于确定患者是否患有癌症，特别是肺癌、结肠癌、乳腺癌或肝癌，更特别是肝细胞癌的系统，所述系统包含：

-一组探针，其被设计和配置为显示根据权利要求1或5中任一项所述的DMR的甲基化水平；

-装置，其被设计和配置为读取探针的信号；以及

-计算机和计算机程序，其中所述计算机程序包含计算机程序代码，所述计算机程序代码在所述计算机上执行时使得所述计算机执行根据权利要求1至12中任一项所述的方法步骤。