CN116106535B

CN116106535B - 生物标志物组合在制备乳腺癌预测产品中的应用

Info

Publication number: CN116106535B
Application number: CN202310376613.4A
Authority: CN
Inventors: 张磊; 李美娟; 李腾腾; 成晓亮; 张伟; 周岳
Original assignee: Nanjing Pinsheng Medical Technology Co ltd; Shanghai Ammonia Biotechnology Co ltd; Nanjing Pinsheng Medical Laboratory Co ltd
Current assignee: Nanjing Pinsheng Medical Technology Co ltd; Shanghai Ammonia Biotechnology Co ltd; Nanjing Pinsheng Medical Laboratory Co ltd
Priority date: 2023-04-11
Filing date: 2023-04-11
Publication date: 2023-08-11
Anticipated expiration: 2043-04-11
Also published as: CN116106535A

Abstract

本发明提供了生物标志物组合在制备乳腺癌预测产品中的应用。所述生物标志物组合包括：蝶呤、单蝶呤、6‑羧基蝶呤、2,4‑二氧四氢喋啶、7‑羟基‑2,4‑二氧四氢喋啶、新蝶呤、生物蝶呤、墨蝶呤、N‑(4‑氨基苯甲酰)‑L‑谷氨酸、次黄嘌呤核苷、腺苷、8‑羟基‑2‑脱氧鸟苷、5‑甲基尿甙、黄(嘌呤核)苷、胞嘧啶核苷、鸟嘌呤核苷或假尿(嘧啶核)苷。采用所述生物标志物的组合能够预测受试者罹患乳腺相关疾病的情况。本发明还提供了一种乳腺癌分类预测模型，所述分类预测模型在临床检测中具有较高的敏感性和特异性，在乳腺癌早筛查早诊断，做好疾病管理，进而改善患者预后，提高患者生存率中具有重要的应用价值。

Description

生物标志物组合在制备乳腺癌预测产品中的应用

技术领域

本发明属于生物检测技术领域，具体涉及一种生物标志物组合在制备乳腺癌预测产品中的应用。

背景技术

癌症是全球死亡的主要原因之一，尽管疾病预防、筛查、诊断和治疗在进步，但是人口增长和既定风险因素（包括吸烟，肥胖和久坐不动的生活方式）使得患病率增加，导致癌症发病率上升。“早筛早诊早治”是公认的提高癌症治愈率的途径。降低癌症负担的关键挑战在于开发出用于早期检测和诊断的可靠的筛查方法。

目前有几种筛查癌症的方法，例如组织活检、医学成像、乳腺X线检查等。然而，由于筛查效能和实施的局限性，这些筛查方法对降低癌症死亡率有相对较小的影响。此外，当筛查方法不能区分恶性疾病时，会发生过度检测，从而使患者遭受不必要的治疗程序和可能降低患者生活质量的重大风险。

在全球范围内，乳腺癌既是最常见的癌症，也是导致妇女癌症死亡的最常见原因。生存率取决于癌症分期和分子亚型，早期癌症检测是改善预后的重要策略。国内外的主流专业组织都建议进行乳腺X线检查和/或乳腺超声检查，并对筛查异常的群体进行随访。筛查可降低15%-40%的死亡率，但也存在过度诊断、过度治疗以及假阴性（6%-46%）等问题。因此，开发一种高灵敏度、快速的早期乳腺癌检测方法迫在眉睫。

近年来，利用生物标志物进行早期癌症检测受到了广泛的关注。目前，这项工作的大部分集中在对血液的分析检测上。但是通过使用血清或血浆进行的血液分析具有一些固有的局限性，阻碍了临床生物标志物检测的发展。这些局限性中最重要的是血液中蛋白质库的相对高水平和复杂性质。血液基质的成分，包括凝血及其他血清学因子、载体蛋白、免疫调节蛋白及活性酶等在内的物质都可能对生物标志物检测造成干扰。血液检测的侵入性也限制了重复测量的可行性，并增加了患者和医疗专业人员的感染风险。利用生物标志物进行早期癌症检测，还包括对尿液的分析检测，尿液代谢组学由于其无创采样的特性和良好的结果重现性，成为一种潜在的癌症生物标志物检测方法。

尿液修饰核苷是另一类公认的癌症生物标志物，其由游离核苷和DNA和RNA结合核苷的化学修饰和损伤引起。因此，尿液修饰核苷已被普遍作为癌症标志物，包括上皮细胞癌。Hsu等（Hsu, W.Y., et al., Analysis of urinary nucleosides as potentialtumor markers in human breast cancer by high performance liquidchromatography/electrospray ionization tandem mass spectrometry. Clin ChimActa, 2011. 412(19-20): p. 1861-6.）测量了36例女性乳腺癌患者尿核苷水平，发现在乳腺癌患者尿液中3种核苷、胞苷、3-甲基胞苷和肌苷水平显著升高。

受益于质谱技术的发展进步，尿液中广泛的代谢图谱揭示了大量代谢路径改变，因此，筛选出潜在的生物标志物，开发一种基于代谢物的多生物标志物组合的检测乳腺癌的方法具有重要的应用价值。

发明内容

针对现有技术存在的不足，本发明的目的在于提供生物标志物组合在制备乳腺癌预测产品中的应用，所述生物标志物为蝶啶类和修饰核苷类代谢物，本发明还提供了所述生物标志物组合在乳腺癌的检测和治疗中的应用方法，所述应用方法能提高临床检测的敏感性和特异性，从而做到乳腺癌早筛查早诊断，做好疾病管理，进而改善患者预后，提高患者生存率。

为达到此发明目的，本发明采用以下技术方案：

第一方面，本发明提供生物标志物组合在制备乳腺癌预测产品中的应用，所述乳腺癌预测产品用于预测受试者的如下三种结果：

（1）预测受试者为乳腺癌或正常；

（2）预测受试者为乳腺良性肿瘤或正常；

（3）预测受试者为乳腺良性肿瘤或乳腺癌；

所述生物标志物来源于受试者尿液；

所述生物标志物组合包括：蝶呤、单蝶呤、6-羧基蝶呤、2,4-二氧四氢喋啶、7-羟基-2,4-二氧四氢喋啶、新蝶呤、生物蝶呤、墨蝶呤、N-(4-氨基苯甲酰)-L-谷氨酸、次黄嘌呤核苷、腺苷、8-羟基-2-脱氧鸟苷、5-甲基尿甙、黄(嘌呤核)苷、胞嘧啶核苷、鸟嘌呤核苷或假尿(嘧啶核)苷中任意一种或至少两种的组合。

优选地，所述生物标志物组合包括：蝶呤、单蝶呤、6-羧基蝶呤、2,4-二氧四氢喋啶、7-羟基-2,4-二氧四氢喋啶、新蝶呤、生物蝶呤、墨蝶呤、N-(4-氨基苯甲酰)-L-谷氨酸、次黄嘌呤核苷、腺苷、8-羟基-2-脱氧鸟苷、5-甲基尿甙、黄(嘌呤核)苷、胞嘧啶核苷、鸟嘌呤核苷或假尿(嘧啶核)苷中至少5种的组合。

优选地，预测受试者为乳腺癌或正常的生物标志物组合包括：

蝶呤、单蝶呤、6-羧基蝶呤、2,4-二氧四氢喋啶、7-羟基-2,4-二氧四氢喋啶、新蝶呤、生物蝶呤、墨蝶呤、N-(4-氨基苯甲酰)-L-谷氨酸、次黄嘌呤核苷、腺苷、8-羟基-2-脱氧鸟苷、5-甲基尿甙、黄(嘌呤核)苷、胞嘧啶核苷、鸟嘌呤核苷或假尿(嘧啶核)苷中至少9种的组合。

优选地，预测受试者为乳腺良性肿瘤或正常的生物标志物组合包括：

优选地，预测受试者为乳腺良性肿瘤或乳腺癌的生物标志物组合包括：

蝶呤、单蝶呤、6-羧基蝶呤、2,4-二氧四氢喋啶、7-羟基-2,4-二氧四氢喋啶、新蝶呤、生物蝶呤、墨蝶呤、N-(4-氨基苯甲酰)-L-谷氨酸、次黄嘌呤核苷、腺苷、8-羟基-2-脱氧鸟苷、5-甲基尿甙、黄(嘌呤核)苷、胞嘧啶核苷、鸟嘌呤核苷或假尿(嘧啶核)苷中至少5种的组合。

6-羧基蝶呤、生物蝶呤、腺苷、假尿(嘧啶核)苷、7-羟基-2,4-二氧四氢喋啶、新蝶呤、墨蝶呤；

或，6-羧基蝶呤、生物蝶呤、腺苷、假尿(嘧啶核)苷、7-羟基-2,4-二氧四氢喋啶、单蝶呤、墨蝶呤；

或，6-羧基蝶呤、生物蝶呤、2,4-二氧四氢喋啶、N-(4-氨基苯甲酰)-L-谷氨酸、7-羟基-2,4-二氧四氢喋啶、单蝶呤、墨蝶呤；

或，6-羧基蝶呤、生物蝶呤、2,4-二氧四氢喋啶、N-(4-氨基苯甲酰)-L-谷氨酸、7-羟基-2,4-二氧四氢喋啶、新蝶呤、墨蝶呤；

或，6-羧基蝶呤、腺苷、2,4-二氧四氢喋啶、7-羟基-2,4-二氧四氢喋啶、黄(嘌呤核)苷、单蝶呤、蝶呤。

2,4-二氧四氢喋啶、墨蝶呤、胞嘧啶核苷、生物蝶呤、鸟嘌呤核苷、5-甲基尿甙、蝶呤、8-羟基-2-脱氧鸟苷、假尿(嘧啶核)苷；

或，2,4-二氧四氢喋啶、墨蝶呤、胞嘧啶核苷、6-羧基蝶呤、鸟嘌呤核苷、5-甲基尿甙、蝶呤、8-羟基-2-脱氧鸟苷、假尿(嘧啶核)苷；

或，2,4-二氧四氢喋啶、墨蝶呤、胞嘧啶核苷、生物蝶呤、6-羧基蝶呤、鸟嘌呤核苷、5-甲基尿甙、蝶呤、8-羟基-2-脱氧鸟苷；

或，2,4-二氧四氢喋啶、墨蝶呤、胞嘧啶核苷、生物蝶呤、鸟嘌呤核苷、5-甲基尿甙、蝶呤、8-羟基-2-脱氧鸟苷、腺苷；

或，2,4-二氧四氢喋啶、胞嘧啶核苷、6-羧基蝶呤、鸟嘌呤核苷、5-甲基尿甙、蝶呤、单蝶呤、8-羟基-2-脱氧鸟苷、假尿(嘧啶核)苷。

8-羟基-2-脱氧鸟苷、6-羧基蝶呤、黄(嘌呤核)苷、鸟嘌呤核苷、新蝶呤、7-羟基-2,4-二氧四氢喋啶；

或，8-羟基-2-脱氧鸟苷、6-羧基蝶呤、黄(嘌呤核)苷、鸟嘌呤核苷、新蝶呤；

或，8-羟基-2-脱氧鸟苷、6-羧基蝶呤、黄(嘌呤核)苷、鸟嘌呤核苷、单蝶呤；

或，8-羟基-2-脱氧鸟苷、6-羧基蝶呤、黄(嘌呤核)苷、鸟嘌呤核苷、单蝶呤、7-羟基-2,4-二氧四氢喋啶；

或，8-羟基-2-脱氧鸟苷、6-羧基蝶呤、黄(嘌呤核)苷、5-甲基尿甙、鸟嘌呤核苷、单蝶呤。

第二方面，本发明提供一种乳腺癌分类预测模型，所述乳腺癌分类预测模型包括：

（1）数据获取模块：用于获取对照组、乳腺良性肿瘤组和乳腺癌组的尿液样本样品中生物标志物组合的质谱数据；

（2）数据分析模块：用于对3个对比组做统计显著性分析，对比组包括对照组和乳腺良性肿瘤组、对照组和乳腺癌组、乳腺良性肿瘤组和乳腺癌组；

（3）分类预测模型构建模块：用于构建对照组和乳腺癌组的分类预测模型、对照组和乳腺良性肿瘤组的分类预测模型、乳腺良性肿瘤组和乳腺癌组的分类预测模型；分别将3个对比组中的质谱数据为训练集和测试集，使用逻辑回归分别对3个对比组做分类预测模型；

（4）分类预测结果输出模块：用于将受试者尿液样本中的分子标志物的数值代入分类预测模型的模型公式，基于模型公式的输出值计算受试者的分类概率值和输出分类结果。

优选地，分类预测模型构建模块中，采用10 repeat * 5 fold交叉验证方法计算模型性能；在python3.9编程环境下，调用scikit-learn软件包执行逻辑回归建模；使用的逻辑回归加入的惩罚参数类型为弹性网络，其他参数使用网格搜索法确定最佳参数组合。

优选地，分类预测结果输出模块中，概率值计算公式如下所示：

；

式中，y表示模型的预测值，所述预测值为根据模型公式计算得到的Y值，e表示自然对数值，P表示受试者的分类概率值。

优选地，分类预测模型构建模块中，对照组和乳腺癌组的分类预测模型包括模型1-5中任一项，模型公式如下所示：

模型1：Y=-1.451+(-1.466*6-羧基蝶呤)+(-1.604*生物蝶呤)+(0.702*腺苷)+(-0.722*假尿(嘧啶核)苷)+(0.858*7-羟基-2,4-二氧四氢喋啶)+(0.502*新蝶呤)+(0.960*墨蝶呤)；

模型2：Y=-1.461+(-1.427*6-羧基蝶呤)+(-1.699*生物蝶呤)+(0.774*腺苷)+(-0.676*假尿(嘧啶核)苷)+(0.859*7-羟基-2,4-二氧四氢喋啶)+(0.413*单蝶呤)+(1.004*墨蝶呤)；

模型3：Y=-1.377+(-1.861*6-羧基蝶呤)+(-0.939*生物蝶呤)+(-0.506*2,4-二氧四氢喋啶)+(-0.316*N-(4-氨基苯甲酰)-L-谷氨酸)+(1.136*7-羟基-2,4-二氧四氢喋啶)+(0.549*单蝶呤)+(0.869*墨蝶呤)；

模型4：Y=-1.371+(-1.860*6-羧基蝶呤)+(-0.952*生物蝶呤)+(-0.484*2,4-二氧四氢喋啶)+(-0.277*N-(4-氨基苯甲酰)-L-谷氨酸)+(1.085*7-羟基-2,4-二氧四氢喋啶)+(0.573*新蝶呤)+(0.845*墨蝶呤)；

模型5：Y=-1.327+(-1.892*6-羧基蝶呤)+(0.561*腺苷)+(-1.043*2,4-二氧四氢喋啶)+(1.226*7-羟基-2,4-二氧四氢喋啶)+(-0.420*黄(嘌呤核)苷)+(0.493*单蝶呤)+(0.451*蝶呤)。

优选地，分类预测结果输出模块中，设定cutoff值，cutoff值的设定范围为0.4-0.6，若P大于设定的cutoff，那么受试者类型预测为乳腺癌，否则为正常。

优选地，分类预测模型构建模块中，对照组和乳腺良性肿瘤组的分类预测模型包括模型1-5中任一项，模型公式如下所示：

模型1：Y=-0.591+(-0.812*2,4-二氧四氢喋啶)+(1.193*墨蝶呤)+(-0.860*胞嘧啶核苷)+(-1.178*生物蝶呤)+(2.187*鸟嘌呤核苷)+(0.693*5-甲基尿甙)+(0.577*蝶呤)+(-0.489*8-羟基-2-脱氧鸟苷)+(0.332*假尿(嘧啶核)苷)；

模型2：Y=-0.566+(-1.121*2,4-二氧四氢喋啶)+(0.316*墨蝶呤)+(-0.813*胞嘧啶核苷)+(-0.595*6-羧基蝶呤)+(2.106*鸟嘌呤核苷)+(0.672*5-甲基尿甙)+(0.906*蝶呤)+(-0.445*8-羟基-2-脱氧鸟苷)+(0.574*假尿(嘧啶核)苷)；

模型3：Y=-0.569+(-0.576*2,4-二氧四氢喋啶)+(0.956*墨蝶呤)+(-0.715*胞嘧啶核苷)+(-0.842*生物蝶呤)+(-0.261*6-羧基蝶呤)+(1.696*鸟嘌呤核苷)+(0.655*5-甲基尿甙)+(0.577*蝶呤)+(-0.264*8-羟基-2-脱氧鸟苷)；

模型4：Y=-0.605+(-0.703*2,4-二氧四氢喋啶)+(1.242*墨蝶呤)+(-0.914*胞嘧啶核苷)+(-1.173*生物蝶呤)+(1.988*鸟嘌呤核苷)+(0.688*5-甲基尿甙)+(0.535*蝶呤)+(-0.410*8-羟基-2-脱氧鸟苷)+(0.253*腺苷)；

模型5：Y=-0.592+(-0.990*2,4-二氧四氢喋啶)+(-0.890*胞嘧啶核苷)+(-0.784*6-羧基蝶呤)+(2.081*鸟嘌呤核苷)+(0.743*5-甲基尿甙)+(0.955*蝶呤)+(0.533*单蝶呤)+(-0.503*8-羟基-2-脱氧鸟苷)+(0.404*假尿(嘧啶核)苷)。

优选地，分类预测结果输出模块中，设定cutoff值，cutoff值的设定范围为0.4-0.6，若P大于设定的cutoff，那么受试者类型预测为乳腺良性肿瘤，否则为正常。

优选地，分类预测模型构建模块中，乳腺良性肿瘤组和乳腺癌组的分类预测模型包括模型1-5中任一项，模型公式如下所示：

模型1：Y=-0.515+(0.728*8-羟基-2-脱氧鸟苷)+(-0.857*6-羧基蝶呤)+(-0.798*黄(嘌呤核)苷)+(-0.808*鸟嘌呤核苷)+(0.448*新蝶呤)+(0.343*7-羟基-2,4-二氧四氢喋啶)；

模型2：Y=-0.529+(0.747*8-羟基-2-脱氧鸟苷)+(-0.750*6-羧基蝶呤)+(-0.712*黄(嘌呤核)苷)+(-0.763*鸟嘌呤核苷)+(0.435*新蝶呤)；

模型3：Y=-0.518+(0.744*8-羟基-2-脱氧鸟苷)+(-0.692*6-羧基蝶呤)+(-0.653*黄(嘌呤核)苷)+(-0.789*鸟嘌呤核苷)+(0.341*单蝶呤)；

模型4：Y=-0.502+(0.711*8-羟基-2-脱氧鸟苷)+(-0.780*6-羧基蝶呤)+(-0.717*黄(嘌呤核)苷)+(-0.803*鸟嘌呤核苷)+(0.334*单蝶呤)+(0.319*7-羟基-2,4-二氧四氢喋啶)；

模型5：Y=-0.519+(0.776*8-羟基-2-脱氧鸟苷)+(-0.664*6-羧基蝶呤)+(-0.573*黄(嘌呤核)苷)+(-0.244*5-甲基尿甙)+(-0.748*鸟嘌呤核苷)+(0.297*单蝶呤)。

优选地，分类预测结果输出模块中，设定cutoff值，cutoff值的设定范围为0.4-0.6，若P大于设定的cutoff，那么受试者类型预测为乳腺癌，否则为乳腺良性肿瘤。

相对于现有技术，本发明具有以下有益效果：

（1）基于质谱技术可以快速高效检测出分子浓度值，灵敏度和特异度高。

（2）基于17个分子的标志物模型可以预测受试者的乳腺癌疾病类型，包括健康对照，乳腺癌良性肿瘤和乳腺癌。这些模型可以作为现有临床检测乳腺的辅助诊断，提高临床检测的敏感性和特异性，从而做到乳腺癌早筛查早诊断，做好疾病管理，进而改善患者预后，提高患者生存率。

附图说明

图1是17个分子标志物在乳腺癌组和对照组分布的箱线图展示。

图2是17个分子标志物在乳腺癌组和对照组分布的PCA主成分分析展示。

图3是对照组和乳腺癌的模型1 [6-羧基蝶呤，生物蝶呤，腺苷，假尿(嘧啶核)苷，7-羟基-2,4-二氧四氢喋啶，新蝶呤，墨蝶呤] 预测的ROC曲线结果示例；图中Mean AUCROC表示ROC曲线面积的平均值，std dev表示标准偏差。

图4是对照组和乳腺良性肿瘤模型1 [2,4-二氧四氢喋啶，墨蝶呤，胞嘧啶核苷，生物蝶呤，鸟嘌呤核苷，5-甲基尿甙，蝶呤，8-羟基-2-脱氧鸟苷，假尿(嘧啶核)苷] 的ROC曲线示意图；图中Mean AUCROC表示ROC曲线面积的平均值，std dev表示标准偏差。

图5是乳腺良性肿瘤和乳腺癌组模型1 [8-羟基-2-脱氧鸟苷，6-羧基蝶呤，黄(嘌呤核)苷，鸟嘌呤核苷，新蝶呤，7-羟基-2,4-二氧四氢喋啶] 的ROC曲线示意图；图中MeanAUCROC表示ROC曲线面积的平均值，std dev表示标准偏差。

具体实施方式

下面通过具体实施方式来进一步说明本发明的技术方案。本领域技术人员应该明了，所述实施例仅仅是帮助理解本发明，不应视为对本发明的具体限制。

实施例中未注明具体技术或条件者，按照本领域内的文献所描述的技术或条件，或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可通过正规渠道商购获得的常规产品。

实施例1

（1）样本的收集：

收集330例年龄匹配且刚确诊为乳腺癌的绝经后女性和健康对照组（N=165）。取中段晨尿，样本储存于-20℃冰箱内，三天内送至南京品生医疗实验室，实验前放入-80℃冰箱保存待测。

（2）质谱前样本的处理：

尿液样本经0.22 μm滤膜过滤后，取待测标本20 μL于标记好的1.5 mL EP管中，加入180 μL 50%甲醇-0.01%甲酸水，涡旋混匀后转移上清液80 μL待进样。

（3）质谱检测流程方法：

色谱条件：

A. 色谱柱：BEH C18（2.1×50 mm，1.7 µm）；

B. 流动相：流动相A：纯水（含有0.1%甲酸）；流动相B：甲醇；

C. 色谱梯度如表1所示：

表1

D. 离子源参数如表2所示：

表2

E. 质谱参数如表3所示：

表3

F. 仪器参数：Qlife Lab 9000plus三重四极杆质谱仪（品生医学）；Qlife Lab9000高效液相色谱系统（配G7167A自动进样器，品生医学）；系统工作软件为MSquantitative analysis 10.0（MS定量分析10.0）。

（4）质谱的数据处理（数据质控、PCA、OPLS-DA、ROC分析等）

健康对照样本145个，乳腺良性肿瘤样本87个，乳腺癌样本59个。

1. 对照样本有145个女性尿液样本，健康人（对照样本）临床信息统计结果见表4。对照组年龄中位数为62，25%分位数为55，75%分位数为65。

表4

表4的表注说明：62（55-65）格式表示四分位数中的中位数（25%分位数-75%分位数），“-”表示否，missing：145表示在某个特征有145个样本数据缺失。

2. 87个乳腺良性肿瘤样本，乳腺良性肿瘤临床信息统计表见表5。年龄中位数为44，25%分位数为32，75%分位数为48。

表5

表5的表注说明：44（32-48）格式表示四分位数中的中位数（25%分位数-75%分位数），“-”表示否，missing：1表示在某个特征有1个样本数据缺失。

3. 59个乳腺癌患者尿液样本，年龄中位数为49，25%分位数为44，75%分位数为60。乳腺癌样本临床信息和分子标志物统计结果见表6。

表6

表6的表注说明：49（44-60）格式表示四分位数中的中位数（25%分位数-75%分位数），“-”表示否，missing：1表示在某个特征有1个样本数据缺失。

4. 分别计算每个分子在对照组的中位数，乳腺良性肿瘤的中位数，乳腺癌的中位数，17个分子标志物在3组（对照组、乳腺良性肿瘤，乳腺癌组）的中位数（25%分位数-75%分位数）统计见表7。

表7

表中分子标志物中英文对照：

蝶呤：Pterin；单蝶呤：Monapterin；6-羧基蝶呤：6-Carboxypterin；2,4-二氧四氢喋啶：Lumazine；7-羟基-2,4-二氧四氢喋啶：7-Hydroxylumazine；新蝶呤：Neopterin；生物蝶呤：Biopterin；墨蝶呤：Sepiapterin；N-(4-氨基苯甲酰)-L-谷氨酸：N-(4-aminobenzoyl) L-glutamic acid；次黄嘌呤核苷：Inosine；腺苷：Adenosine free base；8-羟基-2-脱氧鸟苷：8-Oxo-2-deoxyguanosine；5-甲基尿甙：5-Methyluridine；黄（嘌呤核）苷：Xanthosine；胞嘧啶核苷：Cytidine；鸟嘌呤核苷：Guanosine；假尿（嘧啶核）苷：β-Pseudouridine；

对3个对比组中17个分子的检测浓度值做统计显著性分析，分别是对照组和乳腺良性肿瘤，对照组和乳腺癌，乳腺良性肿瘤和乳腺癌进行分析。17个分子在3个对比组的显著统计检验方法使用非参数统计方法曼-惠特尼U检验（Mann-Whitney U test），P值小于0.05说明分子具有统计显著性。

对照组和乳腺良性肿瘤：蝶呤、7-羟基-2,4-二氧四氢喋啶、次黄嘌呤核苷、腺苷、5-甲基尿甙、黄(嘌呤核)苷和鸟嘌呤核苷统计显著。

对照组和乳腺癌：6-羧基蝶呤、生物蝶呤和胞嘧啶核苷统计显著。

乳腺良性肿瘤和乳腺癌：6-羧基蝶呤、次黄嘌呤核苷、5-甲基尿甙、黄(嘌呤核)苷、鸟嘌呤核苷和假尿(嘧啶核)苷统计显著。

表8为17个分子标志物在3个对比组的显著性结果。

表8

图1为17个分子标志物在乳腺癌组和对照组分布的箱线图展示，这里使用Z-score方法标准化数据。图2为17个分子标志物在乳腺癌组和对照组分布的PCA主成分分析展示，第一主成分可解释度37.4%，第二主成分为可解释度11.4%，2个主成分可结解释度总计为48.8%。

（5）质谱结果

1. 逻辑回归算法介绍

逻辑回归是临床医学最常用的分类算法之一，属于广义线性回归。普通二分类逻辑回归基于逻辑函数将二分类分类曲线模式转换为线性形式，即/>，/>表示截距，/>表示第i个特征的系数值，/>表示第i个特征值。惩罚逻辑回归属于普通逻辑回归的拓展，即在寻找最佳线性拟合时在损失函数的基础上加入正则化项，使得模型预测新样本具有更好的泛化性能，确定最佳线性拟合即可确定各特征值对应的系数值。

具体的，将转换为，其中/>，首先定义损失参数为/>，常用的正则化项采用范数，即L1范数，L2范数，elastic net，其中，elastic net可表示为L1范数+L2范数。/>。若加入的为elasticnet，那么/>的最小化为最佳线性拟合，m表示样本个数，n表示特征个数或者分子标志物个数。

使用逻辑回归（Logistic regression）分别对3个对比组做分类预测模型。3个对比组分别是对照组和乳腺良性肿瘤，对照组和乳腺癌，乳腺良性肿瘤和乳腺癌。分子标志物为17个分子，采用10 repeat * 5 fold交叉验证方法（5折交叉验证重复10次）计算模型性能。在python3.9编程环境下，调用scikit-learn（version=1.1.3）软件包执行逻辑回归建模。使用的逻辑回归加入的惩罚参数类型为弹性网络（Elastic net），其他参数使用网格搜索法确定最佳参数组合。这里，不局限逻辑回归，还可以使用支持向量机，随机森林等等算法，均可以得到模型结果。

2. 模型性能评估指标计算公式

True positive为真阳样本数目，True negative为真阴样本数目，Totalpopulation为所有样本数目，Predicted positive为预测的阳性样本数目，Predictednegative为预测的阴性样本数目。

3. 对照组和乳腺癌组

基于17个分子筛选出的标志物组合，最高模型预测AUCROC为0.787（95%置信区间范围为0.647-0.928），能达到该预测值的模型很多。表9列出17个分子标志物组合的相关模型性能结果示例，标志物组合不限于表格中的5个模型。5个模型对应的公式请见表10，基于模型公式可以预测未知受试者的尿液样本是否为乳腺癌组，具体和相关新样本预测过程请见下文文字描述。

表9为基于17个分子标志物计算的模型性能展示示例。95%CI表示95%置信区间。

表9

图3为对照组和乳腺癌的模型1 [6-羧基蝶呤，生物蝶呤，腺苷，假尿(嘧啶核)苷，7-羟基-2,4-二氧四氢喋啶，新蝶呤，墨蝶呤] 预测的ROC曲线结果示例。

从ROC曲线可知，对照组和乳腺良性肿瘤的训练集在交叉验证实验中平均曲线面积为0.827，标准偏差为0.017，验证集在交叉验证实验中的平均曲线面积为0.787，标准偏差为0.072，模型无过拟合和欠拟合问题，并且验证集模型曲线面积超过0.7，说明模型性能较好。

表10为基于17个分子标志物计算的对照组和乳腺癌的模型公式表示示例。

表10

对于未知类型的新样本，基于17个分子标志物的数值和某个模型公式，可以计算公式中的y值，基于y值和公式计算P，这里的e表示自然对数值，P为受试者属于乳腺癌的概率值。可以设定0.5或者0.6，或者0.4等其它数值为cutoff值（阈值），cutoff阈值范围在0到1之间的任意数值，若P大于设定的cutoff，那么受试者类型预测为乳腺癌，否则为正常。

4. 对照组和乳腺良性肿瘤

基于17个分子筛选出的标志物组合，最高模型预测AUCROC为0.772（95%置信区间范围为0.641-0.902），能达到该预测值的模型很多。表11列出17个分子标志物组合的相关模型性能结果示例，标志物组合不限于表格中5个模型。5个模型对应的公式请见表12，基于模型公式可以预测未知受试者的尿液样本是否为乳腺良性肿瘤组，具体和相关新样本预测过程请见后文描述。

表11基于17个分子标志物计算的模型性能展示示例。95%CI表示95%置信区间。

表11

图4是对照组和乳腺良性肿瘤模型1 [2,4-二氧四氢喋啶，墨蝶呤，胞嘧啶核苷，生物蝶呤，鸟嘌呤核苷，5-甲基尿甙，蝶呤，8-羟基-2-脱氧鸟苷，假尿(嘧啶核)苷] 的ROC曲线示意图。

从ROC曲线可知，对照组和乳腺良性肿瘤的训练集在交叉验证实验中平均曲线面积为0.815，标准偏差为0.017，验证集在交叉验证实验中的平均曲线面积为0.772，标准偏差为0.067，模型无过拟合和欠拟合问题，并且验证集模型曲线面积超过0.7，说明模型性能较好。

表12为对照组和乳腺良性肿瘤基于17个分子标志物计算的模型公式表示示例。

表12

对于未知类型的新样本，基于17个分子标志物的数值和某个模型公式，可以计算公式中的y值，基于y值和公式计算P，这里的e表示自然对数值，P为受试者属于乳腺良性肿瘤的概率值。可以设定0.5或者0.6，或者0.4等其它数值为cutoff值，cutoff阈值范围在0到1之间的任意数值，若P大于设定的cutoff，那么受试者类型预测为乳腺良性肿瘤，否则为正常。

5. 乳腺良性肿瘤和乳腺癌组

基于17个分子筛选出的标志物组合，最高模型预测AUCROC为0.712（95%置信区间范围为0.526-0.897），能达到该预测值的模型很多。表13列出17个分子标志物组合的相关模型性能结果示例，标志物组合不限于表格中的5个模型。基于模型预测公式可以预测未知受试者的尿液样本是否为乳腺癌组，具体请见表14和相关新样本预测过程文字描述。

表13为乳腺良性肿瘤和乳腺癌组基于17个分子标志物计算的模型性能展示示例，95%CI表示95%置信区间。

表13

表14为乳腺良性肿瘤和乳腺癌组基于17个分子标志物计算的模型公式表示示例。

表14

图5为乳腺良性肿瘤和乳腺癌组模型1 [8-羟基-2-脱氧鸟苷，6-羧基蝶呤，黄(嘌呤核)苷，鸟嘌呤核苷，新蝶呤，7-羟基-2,4-二氧四氢喋啶] 的ROC曲线示意图。

从ROC曲线可知，对照组和乳腺良性肿瘤的训练集在交叉验证实验中平均曲线面积为0.758，标准偏差为0.022，验证集在交叉验证实验中的平均曲线面积为0.712，标准偏差为0.095，模型无过拟合和欠拟合问题，并且验证集模型曲线面积超过0.7，说明模型性能较好。

对于未知类型的新样本，基于17个分子标志物的数值和某个模型公式，可以计算公式中的y值，基于y值和公式计算P，这里的e表示自然对数值，P为受试者属于乳腺癌的概率值。可以设定0.5或者0.6，或者0.4等为cutoff值，cutoff阈值范围在0到1之间的任意数值，若P大于设定的cutoff，那么受试者类型预测为乳腺癌，否则为乳腺良性肿瘤。

申请人声明，以上所述仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，所属技术领域的技术人员应该明了，任何属于本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，均落在本发明的保护范围和公开范围之内。

Claims

1.生物标志物组合在制备乳腺癌预测产品中的应用，其特征在于，所述乳腺癌预测产品用于预测受试者为乳腺癌或正常；

预测受试者为乳腺癌或正常的生物标志物组合包括：

6-羧基蝶呤、生物蝶呤、腺苷、假尿嘧啶核苷、7-羟基-2,4-二氧四氢喋啶、新蝶呤和墨蝶呤；

或，6-羧基蝶呤、生物蝶呤、腺苷、假尿嘧啶核苷、7-羟基-2,4-二氧四氢喋啶、单蝶呤和墨蝶呤；

或，6-羧基蝶呤、生物蝶呤、2,4-二氧四氢喋啶、N-(4-氨基苯甲酰)-L-谷氨酸、7-羟基-2,4-二氧四氢喋啶、单蝶呤和墨蝶呤；

或，6-羧基蝶呤、生物蝶呤、2,4-二氧四氢喋啶、N-(4-氨基苯甲酰)-L-谷氨酸、7-羟基-2,4-二氧四氢喋啶、新蝶呤和墨蝶呤；

或，6-羧基蝶呤、腺苷、2,4-二氧四氢喋啶、7-羟基-2,4-二氧四氢喋啶、黄嘌呤核苷、单蝶呤和蝶呤。

2.生物标志物组合在制备乳腺癌预测产品中的应用，其特征在于，所述乳腺癌预测产品用于预测受试者为乳腺良性肿瘤或正常；

预测受试者为乳腺良性肿瘤或正常的生物标志物组合包括：

2,4-二氧四氢喋啶、墨蝶呤、胞嘧啶核苷、生物蝶呤、鸟嘌呤核苷、5-甲基尿甙、蝶呤、8-羟基-2-脱氧鸟苷和假尿嘧啶核苷；

或，2,4-二氧四氢喋啶、墨蝶呤、胞嘧啶核苷、6-羧基蝶呤、鸟嘌呤核苷、5-甲基尿甙、蝶呤、8-羟基-2-脱氧鸟苷和假尿嘧啶核苷；

或，2,4-二氧四氢喋啶、墨蝶呤、胞嘧啶核苷、生物蝶呤、6-羧基蝶呤、鸟嘌呤核苷、5-甲基尿甙、蝶呤和8-羟基-2-脱氧鸟苷；

或，2,4-二氧四氢喋啶、墨蝶呤、胞嘧啶核苷、生物蝶呤、鸟嘌呤核苷、5-甲基尿甙、蝶呤、8-羟基-2-脱氧鸟苷和腺苷；

或，2,4-二氧四氢喋啶、胞嘧啶核苷、6-羧基蝶呤、鸟嘌呤核苷、5-甲基尿甙、蝶呤、单蝶呤、8-羟基-2-脱氧鸟苷和假尿嘧啶核苷。

3.生物标志物组合在制备乳腺癌预测产品中的应用，其特征在于，所述乳腺癌预测产品用于预测受试者为乳腺良性肿瘤或乳腺癌；

预测受试者为乳腺良性肿瘤或乳腺癌的生物标志物组合包括：

8-羟基-2-脱氧鸟苷、6-羧基蝶呤、黄嘌呤核苷、鸟嘌呤核苷、新蝶呤和7-羟基-2,4-二氧四氢喋啶；

或，8-羟基-2-脱氧鸟苷、6-羧基蝶呤、黄嘌呤核苷、鸟嘌呤核苷和新蝶呤；

或，8-羟基-2-脱氧鸟苷、6-羧基蝶呤、黄嘌呤核苷、鸟嘌呤核苷和单蝶呤；

或，8-羟基-2-脱氧鸟苷、6-羧基蝶呤、黄嘌呤核苷、鸟嘌呤核苷、单蝶呤和7-羟基-2,4-二氧四氢喋啶；

或，8-羟基-2-脱氧鸟苷、6-羧基蝶呤、黄嘌呤核苷、5-甲基尿甙、鸟嘌呤核苷和单蝶呤。

4.一种乳腺癌分类预测模型，其特征在于，所述乳腺癌分类预测模型包括：

（1）数据获取模块：用于获取对照组、乳腺良性肿瘤组和乳腺癌组的尿液样本样品中权利要求1-3中任一项所述的生物标志物组合的质谱数据；

（3）分类预测模型构建模块：用于构建对照组和乳腺癌组的分类预测模型、对照组和乳腺良性肿瘤组的分类预测模型、乳腺良性肿瘤组和乳腺癌组的分类预测模型；分别将3个对比组中的质谱数据分为训练集和测试集，使用逻辑回归分别对3个对比组做分类预测模型；

5.根据权利要求4所述的乳腺癌分类预测模型，其特征在于，分类预测模型构建模块中，采用10 repeat * 5 fold交叉验证方法计算模型性能；在python3.9编程环境下，调用scikit-learn软件包执行逻辑回归建模；使用的逻辑回归加入的惩罚参数类型为弹性网络，其他参数使用网格搜索法确定最佳参数组合；

分类预测结果输出模块中，概率值计算公式如下所示：

；

6.根据权利要求5所述的乳腺癌分类预测模型，其特征在于，分类预测模型构建模块中，对照组和乳腺癌组的分类预测模型包括模型1-5中任一项，模型公式如下所示：

模型1：Y=-1.451+(-1.466*6-羧基蝶呤)+(-1.604*生物蝶呤)+(0.702*腺苷)+(-0.722*假尿嘧啶核苷)+(0.858*7-羟基-2,4-二氧四氢喋啶)+(0.502*新蝶呤)+(0.960*墨蝶呤)；

模型2：Y=-1.461+(-1.427*6-羧基蝶呤)+(-1.699*生物蝶呤)+(0.774*腺苷)+(-0.676*假尿嘧啶核苷)+(0.859*7-羟基-2,4-二氧四氢喋啶)+(0.413*单蝶呤)+(1.004*墨蝶呤)；

模型5：Y=-1.327+(-1.892*6-羧基蝶呤)+(0.561*腺苷)+(-1.043*2,4-二氧四氢喋啶)+(1.226*7-羟基-2,4-二氧四氢喋啶)+(-0.420*黄嘌呤核苷)+(0.493*单蝶呤)+(0.451*蝶呤)；

分类预测结果输出模块中，设定cutoff值，cutoff值的设定范围为0.4-0.6，若P大于设定的cutoff，那么受试者类型预测为乳腺癌，否则为正常。

7.根据权利要求5所述的乳腺癌分类预测模型，其特征在于，分类预测模型构建模块中，对照组和乳腺良性肿瘤组的分类预测模型包括模型1-5中任一项，模型公式如下所示：

模型1：Y=-0.591+(-0.812*2,4-二氧四氢喋啶)+(1.193*墨蝶呤)+(-0.860*胞嘧啶核苷)+(-1.178*生物蝶呤)+(2.187*鸟嘌呤核苷)+(0.693*5-甲基尿甙)+(0.577*蝶呤)+(-0.489*8-羟基-2-脱氧鸟苷)+(0.332*假尿嘧啶核苷)；

模型2：Y=-0.566+(-1.121*2,4-二氧四氢喋啶)+(0.316*墨蝶呤)+(-0.813*胞嘧啶核苷)+(-0.595*6-羧基蝶呤)+(2.106*鸟嘌呤核苷)+(0.672*5-甲基尿甙)+(0.906*蝶呤)+(-0.445*8-羟基-2-脱氧鸟苷)+(0.574*假尿嘧啶核苷)；

模型5：Y=-0.592+(-0.990*2,4-二氧四氢喋啶)+(-0.890*胞嘧啶核苷)+(-0.784*6-羧基蝶呤)+(2.081*鸟嘌呤核苷)+(0.743*5-甲基尿甙)+(0.955*蝶呤)+(0.533*单蝶呤)+(-0.503*8-羟基-2-脱氧鸟苷)+(0.404*假尿嘧啶核苷)；

分类预测结果输出模块中，设定cutoff值，cutoff值的设定范围为0.4-0.6，若P大于设定的cutoff，那么受试者类型预测为乳腺良性肿瘤，否则为正常。

8.根据权利要求5所述的乳腺癌分类预测模型，其特征在于，分类预测模型构建模块中，乳腺良性肿瘤组和乳腺癌组的分类预测模型包括模型1-5中任一项，模型公式如下所示：

模型1：Y=-0.515+(0.728*8-羟基-2-脱氧鸟苷)+(-0.857*6-羧基蝶呤)+(-0.798*黄嘌呤核苷)+(-0.808*鸟嘌呤核苷)+(0.448*新蝶呤)+(0.343*7-羟基-2,4-二氧四氢喋啶)；

模型2：Y=-0.529+(0.747*8-羟基-2-脱氧鸟苷)+(-0.750*6-羧基蝶呤)+(-0.712*黄嘌呤核苷)+(-0.763*鸟嘌呤核苷)+(0.435*新蝶呤)；

模型3：Y=-0.518+(0.744*8-羟基-2-脱氧鸟苷)+(-0.692*6-羧基蝶呤)+(-0.653*黄嘌呤核苷)+(-0.789*鸟嘌呤核苷)+(0.341*单蝶呤)；

模型4：Y=-0.502+(0.711*8-羟基-2-脱氧鸟苷)+(-0.780*6-羧基蝶呤)+(-0.717*黄嘌呤核苷)+(-0.803*鸟嘌呤核苷)+(0.334*单蝶呤)+(0.319*7-羟基-2,4-二氧四氢喋啶)；

模型5：Y=-0.519+(0.776*8-羟基-2-脱氧鸟苷)+(-0.664*6-羧基蝶呤)+(-0.573*黄嘌呤核苷)+(-0.244*5-甲基尿甙)+(-0.748*鸟嘌呤核苷)+(0.297*单蝶呤)；

分类预测结果输出模块中，设定cutoff值，cutoff值的设定范围为0.4-0.6，若P大于设定的cutoff，那么受试者类型预测为乳腺癌，否则为乳腺良性肿瘤。