CN111863250A

CN111863250A - 一种早期乳腺癌的联合诊断模型及系统

Info

Publication number: CN111863250A
Application number: CN202010816986.5A
Authority: CN
Inventors: 苏建忠; 刘嘉琦; 赵恒强; 许守平; 吴南; 黄宇宽
Original assignee: HEILONGJIANG PROV TUMOUR HOSPI; Wenzhou Research Institute Of Chinese Academy Of Sciences Wenzhou Institute Of Biomaterials And Engineering; Peking Union Medical College Hospital Chinese Academy of Medical Sciences; Cancer Hospital and Institute of CAMS and PUMC
Current assignee: HEILONGJIANG PROV TUMOUR HOSPI; Wenzhou Research Institute Of Chinese Academy Of Sciences Wenzhou Institute Of Biomaterials And Engineering; Peking Union Medical College Hospital Chinese Academy of Medical Sciences; Cancer Hospital and Institute of CAMS and PUMC
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2020-10-30
Anticipated expiration: 2040-08-14
Also published as: CN111863250B

Abstract

本发明公开了一种早期乳腺癌的联合诊断模型及系统，所述联合诊断模型包括参数cfDNA差异甲基化区域标志物、超声检查和钼靶X线检查，该联合诊断模型采用LASSO法构建，能够有效的判断乳腺癌患者。

Description

一种早期乳腺癌的联合诊断模型及系统

技术领域

本发明属于生物医药领域，涉及一种早期乳腺癌的联合诊断模型及系统。

背景技术

乳腺癌是我国最主要的恶性肿瘤之一，也是女性最常见的恶性肿瘤，其在女性恶性肿瘤死亡原因的排位中于东、中、西部地区分别位于第4位、第4位及第5位(孙可欣，郑荣寿，张思维等.2015年中国分地区恶性肿瘤发病和死亡分析[J].中国肿瘤，2019,28(01):1-11.)。早期治疗有利于提高患者的生存率，因此，及早的发现和诊断乳腺癌具有重要的意义。由于乳腺癌的早期临床症状和体征通常无明显的特殊性，一般不易被临床所发现，因此影像学检查成为发现及诊断乳腺癌的重要方式。超声检查为诊断乳腺肿块的主要方法之一，其具有实时、方便、无辐射、诊断准确性高、易于随访且适用于各个年龄层的优点。目前我国主要采用美国放射学会修订的最新版乳腺影像报告和数据系统(breast imagingreporting and data system，BI-RADS；对乳腺疾病进行评估，共分为0-6类，其中4类为可疑恶性，其恶性率为3％～94％(American College of Radiology.Breast ImagingReporting and Data System(BI-RADS),atlas[M].5th ed.Reston,VA:American Collegeof Radiology,2013)，恶性率跨度范围较大。常规超声提供的有助于乳腺BI～RADS4类肿块良恶性鉴别诊断的声像图信息有限，仍存在一定的局限性，而临床上对这类恶性跨度范围较大的肿块采取的处理方式往往是直接手术或行穿刺活检明确诊断，这大大增加了许多不必要的治疗以及有创性检查，加重了患者的身心负担。常规超声在鉴别诊断乳腺BI-RADS 4类肿块的良恶性方面存在一定程度的局限性，某些乳腺良性肿块与恶性肿块在常规超声声像图上的表现存在一定的交叉重叠，进行穿刺活检的处理方式虽然有利于明确乳腺BI-RADS 4类肿块的良恶性，然而对恶性肿块进行穿刺活检也同时存在着发生针道种植转移的潜在风险，但如果消极地不进行活检则有可能会延误一些恶性肿块的最佳治疗时期。另外，以往有研究在对一组乳腺BI-RADS 3-5类肿块进行追踪的过程中发现，乳腺BI-RADS 4类肿块的阳性预测值仅为15.5％-20.0％(Raza S，Chikarmane SA,Neilsen SS,et al.BI-RADS3,4,and 5lesions:value of US in management--follow-up and outcome.Radiology,2008,248(3):773-781.)。因此，采用何种创伤性较小的检查方法来进一步鉴别乳腺BI～RADS 4类肿块的良恶性具有重要的实用价值和意义。

在精准诊断、个体化治疗的背景下，寻求具有高度特异性、敏感性且无创的检查手段用于肺癌的早期诊断是非常有意义的。有研究表明，以患者血液、体液为中心的液体活检极具发展前景，尤其是外周血中的循环肿瘤DNA(ctDNA)被认为可用于动态监测肿瘤变化、监测药物等治疗疗效、判断患者预后等(He,J.,W.Tan,and J.Ma,Circulating tumorcells and DNA for real-time EGFR detection and monitoring of non-small-celllung cancer.Future Oncology,2017.13(9):p.787.)。ctDNA全部来源于肿瘤细胞，不受肿瘤异质性的影响使其完整保存了肿瘤组织的全部遗传信息，通过对ctDNA进行定量检测及其基因突变进行检测，能够发现其中所有突变、重排、融合等，这能够实现疾病更加精准的诊断，以便制定更加合理、有效的治疗方案。与传统组织活检相比，液体活检的优势在于标本获得容易，能够实时重复活检，同时它还是一项无创操作，所以有很大的应用空间。而乳腺癌患者特别是早期乳腺癌患者外周血中ctDNA的丰度较低，检测技术不够完善，ctDNA的检测应用于临床还需要更加深入的研究。本研究基于高通量测序，探究cfDNA甲基化以及影像学检查对乳腺癌诊断的可靠性和准确性，以期为早期乳腺癌的诊断提供有效的手段。

发明内容

为了弥补现有技术的不足，本发明的目的在于提供基于差异性cfDNA甲基化模式分析以及影像学分析辅助诊断乳腺癌和/或检测乳腺癌进展的新方法。

为了实现上述目的，本发明采用如下技术方案：

本发明提供了cfDNA差异甲基化区域标志物联合影像学检查在构建早期乳腺癌诊断模型中的应用。

进一步，所述差异甲基化区域标志物选自：chr1：237343683-237344683、chr2：3723342-3724342、chr2：3978342-3979342、chr2：22327459-22328459、chr4：164543184-164544184、chr6：84666439-84667439、chr8：79343444-79344444、chr15：26569301-26570301、chr15：33374552-33375552、chr15：97703143-97704143。

进一步，所述影像学检查包括钼靶X线检查和/或超声检查。

进一步，所述诊断模型使用使用选自以下中的一种或更多种算法来确定：主成分分析、逻辑回归分析、LASSO回归分析、最近邻分析、支持向量机、神经网络模型、随机森林。

进一步，使用LASSO回归分析算法进行构建。

进一步，LASSO回归分析的λ＝0.02317884。

本发明提供了一种早期乳腺癌的联合诊断模型，所述模联合诊断模型采用公式X＝X＝1/(1+e^{-(C1*cfMeth评分+C2*超声检查评分+C3*钼靶X线检查评分})，其中，C1、C2、C3分别代表联合诊断模型中各参数的系数，cfMeth评分为标志物甲基化评分。

进一步，标志物甲基化评分是基于cfDNA差异甲基化区域的甲基化状态采用随机森林算法进行的评分。

进一步，超声检查评分是基于BI-RADS分类进行的评分，在本发明的具体实施方式中，评分标准为：BI-RADS4a、BI-RADS4b、BI-RADS4c分别计为0分、0.5分、1分。

进一步，钼靶X线检查评分是基于BI-RADS分类进行的评分，在本发明的具体实施方式中，评分标准为：BI-RADS4a、BI-RADS4b、BI-RADS4c分别计为0分、0.5分、1分。

进一步，C1、C2、C3分别为5.028952、1.628452、1.106189。

进一步，所述标志物选自：chr1：237343683-237344683、chr2：3723342-3724342、chr2：3978342-3979342、chr2：22327459-22328459、chr4：164543184-164544184、chr6：84666439-84667439、chr8：79343444-79344444、chr15：26569301-26570301、chr15：33374552-33375552、chr15：97703143-97704143。

进一步，联合诊断模型的截断值为0.5，若X>0.5，指示受试者患有乳腺癌。

本发明提供了一种用于诊断早期乳腺癌的系统，包括以下单元：

1)检测单元：包括标志物检测模块，钼靶X线检查模块、超声检查模块；

2)分析单元：将检测单元检测得到的标志物的甲基状态、钼靶X线检查的结果、超声检查的结果作为输入变量，输入预测乳腺癌风险的联合诊断模型进行分析；

3)评估单元：输出样本对应的个体患乳腺癌的风险值。

进一步，1)中所述的标志物选自chr1：237343683-237344683、chr2：3723342-3724342、chr2：3978342-3979342、chr2：22327459-22328459、chr4：164543184-164544184、chr6：84666439-84667439、chr8：79343444-79344444、chr15：26569301-26570301、chr15：33374552-33375552、chr15：97703143-97704143。

进一步，2)中预测乳腺癌风险的联合诊断模型为LASSO模型。

进一步，所述所述模型采用公式X＝1/(1+e^{-(C1*cfMeth评分+C2*超声检查评分+C3*钼靶X线检查评分})进行评分，若X>0.5，则判断受试者存在患乳腺癌的风险。

在本发明中，cfMeth评分是基于cfDNA差异甲基化区域的甲基化状态采用常规算法进行的评分。

进一步，cfMeth评分是基于cfDNA差异甲基化区域的甲基化状态采用随机森林算法进行的评分。

进一步，C1、C2、C3分别为5.028952、1.628452、1.106189。

本发明的优点和有益效果：

本发明通过分析cfDNA低差异甲基化区域(hypo-DMR)的甲基化状态与影像学检查对乳腺癌诊断的影响，构建了一个联合诊断模型，该联合诊断模型应用于乳腺癌的诊断具有较高的特异性、敏感性和准确性，且对身体无创，具有较好的临床应用前景。

附图说明

图1是cfDNA在乳腺癌患者和乳腺良性损伤患者中的情况图；其中，图A是平均cfDNA浓度图；图B是乳腺良性损伤患者中的cfDNA的片段大小分布图；图C是乳腺癌患者中的cfDNA的片段大小分布图。

图2是cfDNA甲基化图谱；其中，图A是cfDNA片段的平均覆盖深度图，TSS，转录起始位点，TES，转录终止位点；图B是不同基因组区域的cfDNA片段的平均覆盖深度图；图C是不同差异甲基化区域的CpG密度图；图D是不同数目的cfDNA片段的DMR占比图。

图3是cfDNA甲基化应用于乳腺癌诊断的效能图；其中，图A是最佳的10个cfDNA低甲基化区域maker的恶性比图，ns:not significant；*p≤0.05；**p≤0.01；***p≤0.001；****p≤0.0001；B代表良性，M代表恶性；图B是cfDNA甲基化模型在训练集中的ROC曲线图；图C是cfDNA甲基化模型在训练集中的ROC曲线图；图D是cfDNA联合影像学检查的联合诊断模型在训练集中的ROC曲线图；图E是cfDNA联合影像学检查的联合诊断模型在验证集中的ROC曲线图。

图4是常规诊断的ROC曲线图，其中图A钼靶X线检查诊断，图B是超声检查诊断，图C是CEA诊断，图D是CA15-3诊断，灰色区域代表95％的置信区间；ns:not significant；*p≤0.05；**p≤0.01；***p≤0.001；****p≤0.0001。

图5是cfMeth评分在不同临床分类中的分布图；其中，图A是cfMeth评分在影像学BI-RADS各分类中的分布情况图；图B是cfMeth评分在不同临床特征中的分布情况图。

图6是cfMeth评分与Ki67、肿瘤大小、雌激素受体(ER)、孕激素受体(PR)的相关性图；其中，图A是cfMeth评分与Ki67的相关性图；图B是cfMeth评分与肿瘤大小的相关性图；图C是cfMeth评分与ER的相关性图；图D是cfMeth评分与PR的相关性图。

具体实施方式

本发明的发明人建立了统一、标准的与疾病检测特定区域的甲基化状态的变化情况来辅助诊断早期乳腺癌的方法，并筛选到与乳腺癌患病和早期相关的特异甲基化区域，以及进一步分析了所述甲基化区域联合影像学检查的诊断效能，由此完成了本发明。

在本发明中，“诊断”、“患病风险评估”具有本领域公知的含义，例如，“诊断”是对是否罹患该疾病进行判断，“患病风险评估”是对患病风险的大小以及治疗后复发风险的大小进行评估。

在本发明中，甲基化状态的分析，通过确定被甲基化单体型覆盖的甲基化位点的甲基化状态，来分析单一核酸分子中的多个甲基化位点上的甲基化单体型或后天修饰(胞嘧啶甲基化)。如本文所用，“甲基化状态”指胞嘧啶残基的甲基化或非甲基化，例如在CpG二核苷酸中，或在其它环境中如CHG、CHH等。甲基化胞嘧啶可以有不同的形式，例如，5-甲基胞嘧啶(5mC)、5-羟甲基胞嘧啶(5hmC)、5-甲酰胞嘧啶(5fC)和5-羧基胞嘧啶(5caC)等。许多方案可用于甲基化状态的分析，有或无靶标的富集。例如，简化代表性亚硫酸氢盐测序法(RRBS)、甲基化限制性酶测序法(MRE-seq)、甲基化DNA免疫沉淀测序法、甲基-CpG-结合结构域蛋白测序法(MBD-seq)、甲基化DNA捕获测序法(甲基Cap-seq)等。在一些实施方案中，可以通过诸如Illumina’s HiSeq/MiSeq或LifeTech’s Ion Proton的标准短读测序平台获得甲基化状态，将其作为甲基化分析的一部分，无额外的付出和成本。在一些实施方案中，可以利用靶甲基化测序技术分析甲基化状态。在一些实施方案中，在甲基化状态分析之前可以富集靶核酸。例如，可以使用微滴PCR或选择器探针。

在优选的实施方案中，本公开的甲基化状态的分析方法采取亚硫酸氢盐测序读取(单一末端或双末端)作为输入。

还提供了对核酸进行甲基化单体型分析的方法，其包括：确定核酸上的多个甲基化位点的甲基化状态，其中所述多个甲基化位点位于标记区上。使用来自甲基化状态分析的结果，得到来自原始测序读取的甲基化单体型及它们的丰度。对于允许鉴定源自相同模板DNA分子的多个克隆测序读取的样本制备方法(如umi-RRBS，或基于杂交的靶标捕获)，共有的甲基化单体型可以源自克隆读取，以改善准确性并避免甲基化单体型计数的过度扩散。

正如熟练技术人员会领会的，有多种方式使用两种或更多种标志物或参数的测量来改进调查中的诊断问题。

生化标志物可以个别测定，或者在本发明的一个实施方案中，它们可以同时测定，例如使用芯片或基于珠的阵列技术。然后独立解读标志物的甲基化状态，例如使用每种标志物的个别截留，或者它们组合进行解读。

正如熟练技术人员会领会的，可以以不同方式实施和实现将各诊断参数与某种可能性或风险关联起来的步骤。优选地，在数学上组合影像学检查和一种或多种其它生物标志物的测定浓度，并将组合值与根本的诊断问题关联起来。可以通过任何适宜的现有技术数学方法将各参数值的测定组合。

优选地，在标志物组合中应用的数学算法是一种对数函数。优选地，应用此类数学算法或此类对数函数的结果是单一值。根据根本的诊断问题，能容易地将此类值与例如个体关于乳腺癌的风险或与有助于评估乳腺癌患者的其它有意诊断用途关联起来。以一种优选的方式，此类对数函数是如下获得的：a)将个体分类入组，例如正常人、有乳腺癌风险的个体、具有乳腺癌的患者等等，b)通过单变量分析来鉴定在这些组之间差异显著的标志物，c)对数回归分析以评估各参数的可用于评估这些不同组的独立差别值，并d)构建对数函数来组合独立差别值。在这种类型的分析中，各参数不再是独立的，而是代表一个标志物组合。

用于将各参数组合与疾病关联起来的对数函数优选采用通过应用统计方法开发和获得的算法。例如，适宜的统计方法是判别分析(DA)(即线性、二次、规则DA)、Kernel方法(即SVM)、非参数方法(即k-最近邻居分类器)、PLS(部分最小二乘)、基于树的方法(即逻辑回归、CART、随机森林方法、助推/装袋方法)、广义线性模型(即对数回归)、基于主分量的方法(即SIMCA)、广义叠加模型、基于模糊逻辑的方法、基于神经网络和遗传算法的方法。熟练技术人员在选择适宜的统计方法来评估本发明的各参数的组合并由此获得适宜的数学算法方面不会有问题。在一个实施方案中，用于获得评估乳腺癌中使用的数学算法的统计方法选自DA(即线性、二次、规则判别分析)、Kernel方法(即SVM)、非参数方法(即k-最近邻居分类器)、PLS(部分最小二乘)、基于树的方法(即逻辑回归、CART、随机森林方法、助推方法)、LASSO回归、或广义线性模型(即对数回归)。

接受者操作曲线下面积(＝AUC)是诊断规程的性能或精确性的一项指标。诊断方法的精确性由它的接受者操作特征(ROC)描述得最好。ROC图是源自在观察的整个数据范围上连续改变决策阈的所有灵敏度/特异性对的线图。

实验室测试的临床性能取决于它的诊断精确性，或将受试者正确分类入临床有关亚组的能力。诊断精确性测量测试正确辨别所调查的受试者的两种不同状况的能力。此类状况是例如健康和疾病或者疾病进展对无疾病进展。

在每种情况中，ROC线图通过对于决策阈的整个范围将灵敏度对1-特异性绘图来描绘两种分布之间的交叠。y轴上是灵敏度，或真阳性分数[定义为(真阳性测试结果的数目)/(真阳性的数目+假阴性测试结果的数目)]。这也称作疾病或状况的存在的阳性。它仅仅自受影响亚组来计算。x轴上是假阳性分数，或1-特异性[定义为(假阳性结果的数目)/(真阴性的数目+假阳性结果的数目)]。它是特异性的一项指标，而且完全自不受影响的亚组来计算。因为真和假阳性分数通过使用来自两个不同亚组的测试结果完全分开计算，所以ROC线图不依赖于样品中疾病的流行程度。ROC线图上的每个点代表一个对应于特定决策阈的灵敏度/1-特异性对。一项具有完美区分(两种结果分布没有交叠)的测试具有通过左上角的ROC线图，那里真阳性分数为1.0，或100％(完美灵敏度)，且假阳性分数为0(完美特异性)。一项不区分(两个组的结果分布相同)的测试的理论线图是从左下角到右上角的45°对角线。大多数线图落在这两种极端之间。(如果ROC线图完全落在45°对角线以下，那么这容易通过将“阳性”的标准从“大于”颠倒成“小于”或反之来矫正。)定性地，线图越接近左上角，测试的整体精确性越高。

量化实验室测试的诊断精确性的一项便利目标是通过单一数值来表述它的性能。最常见的全局度量是ROC曲线下面积(AUC)。常规地，此面积总是≥0.5(如果不是这样，那么可以颠倒决策规则来使之这样)。数值范围介于1.0(完美分开两个组的测试值)和0.5(两个组的测试值之间没有明显分布差异)之间。面积不仅取决于线图的特定部分诸如最接近对角线的点或90％特异性处的灵敏度，而且还取决于整个线图。这是ROC线图如何接近完美者(面积＝1.0)的一种定量、描述性表述。

整体测定法灵敏度会取决于实施本文公开的方法要求的特异性。在某些优选设置中，特异性75％可能是充分的，而且统计方法和所得算法可以基于此特异性要求。在一个优选实施方案中，用于评估有乳腺癌风险的个体的方法基于特异性80％、85％、或还优选90％或95％。

下面结合附图和实施例对本发明作进一步详细的说明。以下实施例仅用于说明本发明而不用于限制本发明的范围。实施例中未注明具体条件的实验方法，通常按照常规条件，或按照制造厂商所建议的条件。

实施例

1、研究对象

选取2019年4月1日到2019年8月31日于中国医学科学院肿瘤医院和北京协和医院(CHCAMS，n＝160，训练集)和哈尔滨医科大学附属肿瘤医院(HMUCH，n＝50，验证集)常规超声检查发现的210例BI-RADS4类病变，患者均为女性，所有患者均行钼靶X线检查和超声检查，所有患者均经手术或穿刺活检病理检查确诊。本研究中，对训练集和验证集的患者的年龄，影像学表现，病理特征，分子亚型，分期和血清肿瘤标志物如癌胚抗原(CEA)和癌抗原15-3(CA15-3)进行表型分析。每个中心有两名经验丰富的放射线医师对图像进行解读并根据BI-RADS分类标准的第五版进行分类。每个医院都进行了CEA和CA15-3分析。CEA和CA15-3的阈值水平分别设置为5.0ng/mL和25.0U/mL，每位患者的诊断均基于切除标本的病理结果。HR阳性(HR，包括雌激素受体和孕激素受体)是指超过1％的肿瘤细胞对雌激素受体或孕激素受体蛋白染色呈阳性。ERBB2/HER2阳性是指肿瘤细胞中的ERBB2蛋白染色呈阳性(3+)或ERBB2基因在肿瘤细胞中扩增。三阴性是指雌激素受体、孕激素受体及人表皮生长因子受体2均为阴性。参考St.Gallen 2017标准，根据激素受体和HER2的状态定义分子亚型的临床分组。参考美国癌症联合委员会(AJCC)乳腺癌分期系统第八版，根据原发肿瘤(T)，淋巴结(N)和转移(M)的状态定义癌症分期。患者的临床信息如表1所示。

表1 患者的临床信息

2、样本收集

2.1肿瘤样本收集和基因组DNA的提取

收集在中国医学科学院肿瘤医院进行手术的20例患者的肿瘤活检组织，其中包括10例恶性肿瘤和10例乳腺良性肿瘤。通过苏木精和曙红染色的病理结果确定每例患者的肿瘤的组织学类型。使用QIAamp DNA Mini Kit(德国QIAGEN)从新鲜冷冻的肿瘤组织中提取基因组DNA。

2.2血液样本收集以及cfDNA的提取

收集所有患者在手术前的血液样本，并存储在10ml无细胞

血液采集管中(美国Streck)，室温下放置，1800g离心10min获得血浆，使用QIAmp CirculatingNucleic Acid Kit(Qiagen,USA)提取血浆中的cfDNA，具体步骤详见说明书。使用dsDNA HSAssay Kit(Life Technologies，USA)的Qubit3.0进行cfDNA的定量，将DNA保存在-80℃。

3、基因组DNA甲基化文库制备。

使用Covaris S220仪器(Covaris，美国)将基因组DNA和未甲基化的λDNA(美国Promega)超声处理成约350bp片段，将基因组DNA(200ng)和0.5％未甲基化的λDNA混合，使用EZ DNA Methylation-Lightning Kit(Zymo Research,USA)(Zymo Research，USA)进行DNA修饰，使用Accel-NGS Methyl-Seq DNA Library Kit和Methyl-Seq Dual IndexingKit(Swift Biosciences，USA)构建DNA甲基化文库，具体操作详见说明书。

4、cfDNA甲基化文库的构建

使用Covaris S220仪器(Covaris，美国)将cfDNA和未甲基化的λDNA(美国Promega)超声处理成约350bp片段，将cfDNA(200ng)和0.5％未甲基化的λDNA混合，使用EZDNA Methylation-Lightning Kit(Zymo Research,USA)(Zymo Research，USA)进行DNA修饰，使用Accel-NGS Methyl-Seq DNA Library Kit和Methyl-Seq Dual Indexing Kit(Swift Biosciences，USA)构建DNA甲基化文库，具体操作详见说明书。

5、文库定量和全基因组亚硫酸氢盐测序(WGBS)

使用Qubit dsDNA HS Assay Kit(Life Technologies，USA)和KAPA LibraryQuantification Kit(KAPA Bisystems，USA)对文库进行定量，并使用Agilent 2100Bioanalyzer(Agilent，USA)评估文库质量。使用Illumina HiSeq测序平台进行2*150bp测序，基因组DNA的测序深度为30X，cfDNA的测序深度为10X。

6、质量控制，数据处理和分析

使用FastQC(版本0.11.8，www.bioinformatics.babraham.ac.uk/projects/fastqc/)进行质量控制(QC)分析以评估WGBS的读取质量。使用trim_galore(版本0.6.0，www.bioinformatics.babraham.ac.uk/projects/trim_galore/)对原始测序读数进行处理，除去衔接子污染并过滤出质量较差的读数。使用Bismark(0.22.1版)对测序读数进行定位。)使用PUMP进行变异调用和注释，删除所有突变的CpG位点。使用Bismark识别CpG中的C位点。对于组织样本，使用Bismark的“methylation extractor”命令计算CpG位点的甲基化水平。对于血浆样，保留每次读取中单个CpG的甲基化状态以便进一步分析。使用Samtools包(1.9版)进行序列比对，使用bedtools(2.29.0版)进行基因组特征的比较、相关操作及进行注释，基因组特征以Browser Extensible Data(BED)文件表示。

7、cfDNA甲基化标记的识别算法和机器学习

设计了一个全面的流程来确定最佳的cfDNA甲基化标记，以区分基于血液的WGBS数据的良性和恶性样品。它包括几个步骤，考虑了乳腺肿瘤组织的起源，cfDNA片段富集，片段大小选择，cfDNA恶性比以及最佳标记物选择。

7.1原发性肿瘤组织差异甲基化区域的鉴定

使用SMART2从10个良性和9个恶性乳腺原发组织样本的WGBS数据中鉴定出差异甲基化区域(DMR)。DMR的筛选条件：DMR至少包括5个CpG位点，t检验的p值<0.001，长度大于500bp，绝对DNA甲基化差异水平>0.2。

7.2 cfDNA富集分析

使用UCSC table browser中的Refseq基因注释对cfDNA进行富集分析。将每个基因归一化为20kb，将10kb侧翼区域分为40个带100bp窗口的bin。通过DMR中的片段平均数计算cfDNA富集得分。对于每个样本，总读取数均标准化为2.5亿。为了进行DNA序列特征分析，将人类基因组分为大小为1kb的约300万个bin，计算每个bin中的CPG密度、G+C含量和cfDNA富集得分。使用线性回归分析每个bin的平均覆盖深度和CpG密度(G+C含量)之间的相关性。

7.3选择片段大小来增强ctDNA的检测

在所有患者的血浆样本中，WGBS的cfDNA片段长度的峰值约为167bp。有研究表明ctDNA的片段大小要比非肿瘤cfDNA短。为了减少血浆中大量非肿瘤cfDNA的影响，筛选cfDNA片段长度(<160bp)来增加ctDNA的比例

7.4 cfDNA恶性比的统计推断

从理论上讲，即使是较短的cfDNA，ctDNA的含量仍然较低。使用平均甲基化水平差异的传统方法来检测DMR会被血浆中高比例的非肿瘤cfDNA所掩盖。基于DMR组织中DNA甲基化模式的分布，设计了一种基于片段的策略来统计推断每个片段的起源(是否为恶性)。在本研究里，采用群体对角线二次判别分析(DQDA)方法，以单碱基分辨率鉴定感兴趣区域中每个片段的恶性肿瘤起源。DQDA源自贝叶斯规则，即

P(y^*＝k|x^*)∝f_k(x^*)π_k. (1)

其中y^*表示每个片段的类别标签(k＝0，良性；k＝1，恶性)，x^*代表一个cfDNA片段中所有CpG甲基化状态的向量，f_k代表类别k中的x^*概率密度函数，并且π_k是来自类别k中的片段的先验概率。决策规则是在不同集的不同协方差矩阵的假设下，将x^*分配给带有标签

的类别，其中

作为判别分数定义为

需要注意的是，上面提供的分数中的总体参数是未知的，仍需要从样本数据中进行估算。在此，将

设为样本协方差矩阵的对角矩阵，使用

和D_k替换μ_k和∑_k，形成DQDA，

其中，

是具有p CpG位点的片段，k＝0，1分别代表良性样本和恶性样本，

和

是第k组第i个CpG位点的样本平均值，n_k是每组中的样本数。考虑到只有少量cfDNA片段应来自恶性组织，因此在训练集数据中评估先验概率π_k为0.1。用上述公式评估给定片段与良性/恶性参考之间的DQDA得分后，使用

用来推断片段的来源，每个样品中给定区域的cfDNA恶性比计算如下：

其中，y_i ^*代表给定区域中第i片段的类别标签，N代表给定区域中测试的cfDNA片段总数。

7.5特征选择及模型构建

为了确定区分恶性样品和良性样品的最佳cfDNA甲基化标志物，使用1-kb的滑动窗口计算低甲基化区域的每个样品的恶性比。首先使用t检验，找到在良性恶性两组样本中差异最显著的1000个区域作为候选的marker。然后使用随机森林算法，基于recursivefeature elimination(RFE)strategy，进行特征数目逐步消减的特征选择过程，按照giniindex对特征重要性进行评估，每次去掉最不重要的25％的特征，逐步消减，为了平衡模型的复杂度以及模型的性能，最终选择了10个区域作为marker。最后，使用10个marker，基于训练集，构建随机森林模型(1000棵树，每棵树使用45个良性样本，45个恶性样本进行构建)。训练集中，基于out-of-bag(OOB)data，得到每一个样本进行的模型打分，测试集中，直接应用随机森林模型，得到每一个样本的模型打分，再进行后续疾病的预测。

7.6联合诊断模型的构建

已知病人的cfMeth的打分，钼靶X线检查的打分和超声检查的打分，共三个特征，其中，钼靶X线检查打分和超声检查打分标准：BI-RADS4a、BI-RADS4b、BI-RADS4c分别计为0分、0.5分、1分。

首先，使用10倍交叉验证的LASSO-补偿逻辑回归，以平均绝对误差为评估指标，选择得到最优的λ参数，然后，使用最优的λ参数，基于训练集进行LASSO模型的构建，最终得到联合诊断模型。

8、统计学分析

使用Student’t检验分析受试者的年龄，cfDNA浓度以及cfDNA甲基化标志物的差异。皮尔逊卡方检验用于检验cfDNA中高甲基化区域(hyper-DMR)和低甲基化区域(hypo-DMR)富集的差异。使用ROC计算cfDNA甲基化标志物以及甲基化标志物联合钼靶X线检查和超声检查计算敏感性、特异性、准确性以及AUC。使用R统计软件3.5.1版进行统计分析。

9、结果

对乳腺癌患者和乳腺良性损伤患者的cfDNA进行比较，发现两者之间cfDNA的浓度、片段大小的分布并不存在显著的差异(图1)。

所有患者的cfDNA图谱如图2所示，cfDNA片段长度的峰值约为167bp(图2A)，不同基因的cfDNA的含量与CpG密度呈负相关(图2B)；hyper-DMRs的CpG密度显著高于hypo-DMRs(图2C)；所有样本的hypo-DMRs的cfDNA片段的平均含量显著高于hyper-DMRs(图2D)，为了确保高质量的cfDNA的定量，选择低甲基化区域作为候选DNA甲基化标志物。

通过生物信息学分析，筛选出具有较高诊断效能的标志物(marker)，具体信息如表2所示。

表2 甲基化标志物

^a重要性评分通过随机森林中的Gini指数评估得到

根据筛选出的10个marker通过随机森林构建诊断模型，通过LASSO构建联合诊断模型，在联合诊断模型的构建中，使用最优的λ参数(λ＝0.02317884)，基于训练集进行LASSO模型的构建，最终得到联合诊断模型的系数分别为C1(coef_cfMeth)、C2(Coef_超声检查)、C3(Coef_{钼靶X线检查})分别为5.028952、1.628452、1.106189，cfDNA甲基化模型和联合诊断模型的诊断效能如表3和图3所示，10个marker在乳腺癌患者中的cfDNA恶性比都高于乳腺良性损伤患者。cfDNA甲基化模型应用于乳腺癌的诊断具有较高敏感性、特异性和准确性，显著高于钼靶X线检查、超声检查、CEA、CA15-3的诊断效能(图4)，而联合诊断模型则具有更高的敏感性和特异性。

表3 诊断模型预测乳腺癌的诊断效能

cfDNA甲基化模型(cfDNA甲基化评分，cfMeth score)在影像学BI-RADS各分类以及cfDNA甲基化模型与联合诊断模型在各临床特征中对良恶性肿瘤的区分度如表4-5和图5所示，游离DNA甲基化评分对良恶性肿瘤具有较好的区分度(图5A)，在乳腺癌不同临床亚组中cfMeth score均显著高于良性组。相对于BI-RADS分类，cfDNA甲基化评分在各临床亚组中表现稳定，用于乳腺癌的判断更为准确、方便。

表4 cfDNA甲基化评分在BI-RADS各分类中的诊断准确性

表5 cfDNA甲基化模型和联合诊断模型在各临床特征中的乳腺癌检测效率

上述实施例的说明只是用于理解本发明的方法及其核心思想。应当指出，对于本领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也将落入本发明权利要求的保护范围内。

Claims

1.cfDNA差异甲基化区域标志物联合影像学检查在构建早期乳腺癌诊断模型中的应用。

2.根据权利要求1所述的应用，其特征在于，所述差异甲基化区域标志物选自：chr1：237343683-237344683、chr2：3723342-3724342、chr2：3978342-3979342、chr2：22327459-22328459、chr4：164543184-164544184、chr6：84666439-84667439、chr8：79343444-79344444、chr15：26569301-26570301、chr15：33374552-33375552、chr15：97703143-97704143。

3.根据权利要求1所述的应用，其特征在于，所述影像学检查包括钼靶X线检查和/或超声检查。

4.根据权利要求1-3任一项所述的应用，其特征在于，所述诊断模型使用使用选自以下中的一种或更多种算法来确定：主成分分析、逻辑回归分析、LASSO回归分析、最近邻分析、支持向量机、神经网络模型、随机森林，优选的，使用LASSO回归分析算法进行构建。

5.根据权利要求4所述的应用，LASSO回归分析的λ＝0.02317884。

6.一种早期乳腺癌的联合诊断模型，其特征在于，所述联合诊断模型采用公式X＝1/(1+e^{-(C1*cfMeth评分+C2*超声检查评分+c3*钼靶X线检查评分})，其中，C1、C2、C3分别代表联合诊断模型中各参数的系数，cfMeth评分为标志物甲基化评分；优选的，标志物甲基化评分是基于cfDNA差异甲基化区域的甲基化状态采用随机森林算法进行的评分，优选的，C1、C2、C3分别为5.028952、1.628452、1.106189。

7.根据权利要求6所述的联合诊断模型，其特征在于，所述标志物选自：chr1：237343683-237344683、chr2：3723342-3724342、chr2：3978342-3979342、chr2：22327459-22328459、chr4：164543184-164544184、chr6：84666439-84667439、chr8：79343444-79344444、chr15：26569301-26570301、chr15：33374552-33375552、chr15：97703143-97704143。

8.根据权利要求7所述的联合诊断模型，其特征在于，联合诊断模型的截断值为0.5。

9.一种用于诊断早期乳腺癌的系统，其特征在于，包括以下单元：

3)评估单元：输出样本对应的个体患乳腺癌的风险值。

10.根据权利要求9所述的系统，其特征在于，1)中所述的标志物选自chr1：237343683-237344683、chr2：3723342-3724342、chr2：3978342-3979342、chr2：22327459-22328459、chr4：164543184-164544184、chr6：84666439-84667439、chr8：79343444-79344444、chr15：26569301-26570301、chr15：33374552-33375552、chr15：97703143-97704143；优选的，2)中预测乳腺癌风险的联合诊断模型为LASSO模型；优选的，所述所述模型采用公式X＝1/(1+e^{-(C1*cfMeth评分+C2*超声检查评分+C3*钼靶X线检查评分})进行评分，若X>0.5，则判断受试者存在患乳腺癌的风险，其中，C1、C2、C3分别代表联合诊断模型中各参数的系数，cfMeth评分为标志物甲基化评分；优选的，标志物甲基化评分是基于cfDNA差异甲基化区域的甲基化状态采用随机森林算法进行的评分，优选的，C1、C2、C3分别为5.028952、1.628452、1.106189。