CN117746983A

CN117746983A - 一种老年乳腺癌衰老评分模型的构建方法及其应用

Info

Publication number: CN117746983A
Application number: CN202311747795.8A
Authority: CN
Inventors: 赵丽敏; 吴霞; 柯浩; 陈梦馨; 吴宜鑫; 刘康; 林亮; 冯芸; 林俊强; 林飞龙; 赵咏琪
Original assignee: Nanchang University
Current assignee: Nanchang University
Priority date: 2023-12-19
Filing date: 2023-12-19
Publication date: 2024-03-22
Anticipated expiration: 2043-12-19
Also published as: CN117746983B

Abstract

本发明保护一种老年乳腺癌衰老评分模型的构建方法及其应用，属于生物信息学技术领域。本发明使用生物信息学方法筛选出影响老年乳腺癌患者的衰老基因，从癌症基因组图谱TCGA数据库下载美国国家癌症中心收集的老年乳腺癌患者的mRNA转录组测序数据及临床资料，通过无监督聚类分析将老年乳腺癌患者分为两种不同的衰老模式，将mRNA转录组在两种衰老模式下作差异分析，得到差异基因，对差异基因使用随机森林的特征选择筛选出特征基因，通过机器学习算法利用多个特征基因构建老年乳腺癌衰老评分模型，发现衰老评分越高的患者预后越差，该模型为预测老年乳腺癌患者预后以用临床治疗提供用药指导，具有重要的临床应用价值。

Description

一种老年乳腺癌衰老评分模型的构建方法及其应用

技术领域

本发明属于生物信息学技术领域，涉及一种老年乳腺癌衰老评分模型的构建方法及其应用。

背景技术

根据世界卫生组织统计，截至2020年，60岁以上人口数量已超过5岁以下儿童人数，预估在2015年至2050年期间世界60岁以上人口比例将翻一番，从12％增至22％^[1]。癌症通常被认为是一种老年病，在年龄增长的影响下，其发病率呈急剧上升的趋势，例如，60岁以上患者发生浸润性癌症的概率是年轻患者的两倍以上^[2]。老龄化人口患癌症的主要原因是随着年龄的增长导致DNA损伤的逐渐积累并细胞衰老相关事件。此外，全身的组织环境会发生不同程度的改变，从而导致肿瘤的生长和进展^[3]。细胞衰老仍然是导致各种癌症的重要因素，其发病率与年龄增长呈正相关^[4]。然而，老年癌症患者通常面临临床因素并发症增加、延迟诊断以及社会保障等非临床因素限制。因此，与年轻患者相比，老年癌症患者在治疗过程中获得的临床效益较低^[4,5]。

现有研究表明：衰老在肿瘤的发生发展过程中具有多种影响，细胞衰老一直被视为防止肿瘤形成的保护机制，通过诱导癌细胞衰老，从而达到治疗肿瘤的目的^[8]。然而，越来越多的研究证明在某种情况下衰老细胞刺激肿瘤发展和恶性进程^[9]。既往的研究中衰老的细胞分泌IL-6、IL-8和CCL招募免疫细胞，ECM组分释放生长因子，SASP中的VEGF促进血管生成，进一步促进血管上皮到间质转化(EMT)^[10]。

乳腺癌是女性中发病率最高的恶性肿瘤之一。根据2020年的最新癌症发病率和死亡率情况，女性乳腺癌已超过肺癌成为最常见的癌症^[6]。与大多数癌症一样，老年乳腺癌患者恶性程度高，并伴有严重的并发症^[7]。随着年龄的增长，乳腺癌中的衰老积累也同样存在。现有技术中也有基于衰老相关基因构建预测乳腺癌预后的模型，如李晓平^[11]等2022年通过生物信息学筛选影响乳腺癌患者预后的衰老基因，并构建预测乳腺癌预后模型。但是这种模型针对所有乳腺癌患者生存构建风险模型，对老年的乳腺癌患者临床用药的指导性不强。

针对老年乳腺癌患者，治疗方案推荐尚不明确，且由于生理的老化可能会导致药物代谢的差异，老年乳腺癌的药物治疗也需要谨慎选择。因此，了解衰老在老年乳腺癌中引发微环境和遗传途径的改变十分关键，同时，如何为老年乳腺癌患者精准选药，也将成为生物医药领域亟待解决的重大问题。本发明拟找到一种评分模型可以特异性针对老年乳腺癌患者的预后评估和临床用药给予指导，提高老年乳腺癌患者的存活率和治疗效益。

参考文献

1.World Health,O.,World health statistics 2020:monitoring health forthe SDGs,sustainabledevelopmentgoals.2020,Geneva:World Health Organization.

2.Siegel,R.L.,K.D.Miller,and A.Jemal,Cancer statistics,2018.CA:aCancer Journal For Clinicians,2018.68(1).

3.Fane,M.and A.T.Weeraratna,How the ageing microenvironmentinfluences tumour progression.Nature Reviews.Cancer,2020.20(2).

4.López-Otín,C.,et al.,Meta-hallmarks of aging and cancer.CellMetabolism,2023.35(1):p.12-35.

5.Talarico,L.,G.Chen,and R.Pazdur,Enrollment ofelderlypatients inclinical trialsfor cancer drug registration:a 7-year experience by the USFoodandDrugAdministration.Journal of Clinical Oncology:Official Journal of theAmerican Society of Clinical Oncology,2004.22(22):p.4626-4631.

6.Sung,H.,et al.,Global Cancer Statistics 2020:GLOBOCANEstimatesofIncidence and Mortality Worldwidefor 36Cancers in 185Countries.CA:a CancerJournal For Clinicians,2021.71(3):p.209-249.

7.Biganzoli,L.,et al.,Management of elderly patients with breastcancer:updated recommendations of the International Society of GeriatricOncology(SIOG)and European Society of Breast Cancer Specialists(EUSOMA).TheLancet.Oncology,2012.13(4):p.e148-e160.

8.Calcinotto,A.,et al.,Cellular Senescence:Aging,Cancer,andInjury.Physiological Reviews,2019.99(2):p.1047-1078.

9.Nacarelli,T.,et al.,NAD+metabolism governs the proinflammatorysenescence-associatedsecretome.Nature Cell Biology,2019.21(3):p.397-407.

10.Wang,L.,L.Lankhorst,and R.Bernards,Exploiting senescencefor thetreatment of cancer.Nature Reviews.Cancer,2022.22(6):p.340-355.

11.李晓平,et al.,基于衰老相关基因构建预测乳腺癌预后的模型.临床普外科电子杂志,2022.10(02):p.6-12.

发明内容

针对以上技术问题，本发明拟提供一种老年乳腺癌衰老评分模型的构建方法及其应用，其技术方案如下：

一种老年乳腺癌衰老评分模型的构建方法，包括以下步骤：

S1两种不同的衰老模式从五个基因集数据库MSigDB,HAGR,GeneCards,PathCards,和Biocarta中下载了与衰老相关的基因，选择了在不同基因集中反复出现的25个关键衰老基因，包括TP53，CDKN1A，CDKN2A，SIRT1，RB1，TERT，CDK4，CDKN2B，MAPK1，MAPK14，MTOR，TERF2，UBC，CDK6，HMGA2，E2F1，CCNA2，MDM2，CXCL8，HSPA8，LMNB1，MAPK3，MAPKAPK5，ATM和CDKN1B；从癌症基因组图谱TCGA数据库下载美国国家癌症中心收集的513位老年乳腺癌患者的mRNA测序数据及临床资料，分析mRNA测序数据，从基因表达的维度上探究老年乳腺癌患者之间存在的模式差异，将老年乳腺癌患者的转录组信息依据25个衰老基因的表达量进行无监督聚类分析，进而把老年乳腺癌患者分为两种不同的衰老模式；

S2将老年乳腺癌患者的转录组表达信息根据S1中得到两种不同的衰老模式做差异分析，得到差异基因；

S3对S2步骤得到的差异基因通过随机森林的特征选择筛选能够区分S1中两个衰老模式的特征基因；

S4通过机器学习算法中的单类逻辑回归(OCLR)得到区分S1中两个衰老模式的特征基因的权重的模型计算患者特征基因表达与特征基因权重的相关系数；

S5衰老评分计算：整合待测患者数据与TCGA数据，去除数据的批次效应，得到以S3所述的特征基因为行，老年乳腺癌患者的编号为列的表达矩阵，将该表达矩阵中每个患者的特征基因表达信息与S4中的基因权重计算相关性，从而得到患者衰老评分。

进一步地，S2中所述的差异分析方法如下：选择的差异分析方法是“DESeq2”，分析得到两种衰老模式下的差异基因；并对差异基因进行过滤，选择的过滤参数为|log2FC|>1且FDR<0.05，得到老年乳腺癌两种不同衰老模式的差异基因。

进一步地，所述的S3步骤具体为：随机森林采用的CART决策树，是基于基尼系数选择特征，CART树的GINI系数为：

Gini(p)＝2p(1-p)

p为样本点属于两种不同衰老模式中第一种的概率；

遍历每个特征基因的每个分割点，特征基因A的取值a将老年乳腺癌患者D分为两个簇，D1是两种衰老簇的第一种，D2就是另一种，即D1不满足则为D2，则特征基因A的可能取值a的基尼系数为：

通过随机森林寻找Gini系数最小的a值为特征基因A的分割点，将数据集分成两个不同的衰老模式，直至满足停止条件为止；对于每个决策树，均会选择相应的袋外数据(outof bag,OOB)计算袋外数据的误差，记为errOOB1，随机袋外数据OOB所有样本的特征A加入样本噪声干扰，再次计算误差，记为errOOB2；假设现在有N颗树，特征A的重要性＝∑(errOOB2-errOOB1)/N，特征重要性越大，对于区分两类患者的重要程度越高，设置的特征选择阈值为importance>1，选择大于1的为区分两种衰老模式的特征基因。

进一步地，所述的S4步骤为：通过R包gelnet中的gelnet函数构建单类逻辑回归模型，得到函数R(w)，即为两个衰老模式的特征基因的权重的模型，所述的函数为：

其中：

R(w)是正则化项；

λ1和λ2分别是套索和岭范数惩罚的系数；

d_j是特征j的权重；

w_j是w中第j个元素(即权重向量的第j维)；

m是平移系数向量；

P是特征关联惩罚矩阵；

T表示转置操作；

通过S4得到的每个特征基因的权重；再使用R包“stats”中的“cor”函数计算每位患者与基因权重的相关性；最后将得到的相关性数值做归一化，使数值范围介于0-1。

本发明还保护利用所述的模型进行老年乳腺癌预后评估的方法，包括以下步骤：

S1提取待测老年乳腺癌病人转录组信息；

S2将待测老年乳腺癌病人转录组信息数据录入到权利要求1中S1所述的TCGA老年乳腺癌数据库中，去除批次效应；得到以特征基因为行，老年乳腺癌患者编号为列的表达矩阵，利用权利要求1中S4中的模型得到所有老年乳腺癌者的衰老评分。

本发明还保护所述的衰老评分在老年乳腺癌预后指示以及临床治疗和用药推荐中的应用。

本发明的有益效果在于：本发明使用生物信息学方法筛选出影响老年乳腺癌患者的衰老基因，从癌症基因组图谱TCGA数据库下载美国国家癌症中心收集的老年乳腺癌患者的mRNA转录组测序数据及临床资料，通过无监督聚类分析将老年乳腺癌患者分为两种不同的衰老模式，将mRNA转录组在两种衰老模式下作差异分析，得到差异基因，对差异基因使用随机森林的特征选择筛选得到特征基因，通过机器学习算法利用两种衰老模式下多个特征基因构建老年乳腺癌衰老评分模型，可得到待测老年乳腺癌患者的衰老评分，通过衰老评分来指导老年乳腺癌患者的预后评估以及临床用药。本发明证明：衰老评分越高，患者预后越差；衰老评分在肿瘤免疫微环境的应用，评分与肿瘤突变负荷呈现正相关，评分与有免疫抑制功能的免疫细胞存在正相关，这指示着高评分患者更可能在免疫治疗中获益。最后，本发明还发现衰老评分模型在老年乳腺癌患者用药方面的指示，评分可以为患者用药提供指示，从而改善老年乳腺癌临床获益低的现状，具有重要的临床应用价值。

附图说明

图1为25个衰老相关基因的功能分析图；其中图1A为25个衰老基因在老年乳腺癌中的相互作用网络图；根据基因的表达，可将25个基因分为四个聚类(hcluster)，红线表示正相关，蓝线表示负相关；图1B为25个基因在肿瘤和正常样本中的表达水平差异箱线图；图1C为445例老年癌症患者25个衰老基因的单核苷酸变异(SNP)分析图；图1D为445例老年癌症患者25个衰老基因的共突变分析图；图1E为25个衰老基因表达的单因素Cox分析。

图2为两个不同的衰老簇的提出及其临床差异分析图；其中图2A为513例老年癌症患者根据25个衰老基因的表达模型进行PCA降维后得到的两个不同的衰老簇：红色表示簇1，蓝色表示簇2；图2B热图主体展示两个衰老簇的25个基因表达水平的差异，顶部为两种衰老簇相对应的临床信息；图2C为两个衰老簇的Kaplan-Meier生存曲线，虚线表示置信区间；图2D为患者样本信息的单因素Cox分析(性别、分期、ER、PR、HER-2和簇)；图2E为患者样本信息的多因素Cox分析(性别、分期、ER、PR、HER-2和簇)。

图3为两个不同衰老簇的基因差异分析及免疫水平差异分析图；其中图3A为簇1和簇2中标志性途径的GSVA(基因集变异分析)分析图，x轴表示t值，蓝色表示在簇1中富集的途径，绿色表示在簇2中富集的途径；图3B为簇1和簇2之间的差异基因进行GSEA分析(基因集富集分析)(NES＜0，p＜0.05)；图3C为免疫抑制因子、干扰素和受体、趋化因子和受体以及其他细胞因子的代表基因在两个衰老簇中的表达水平热图，“*”用于标注在两个簇之间呈现显著差异的基因(*p<0.01，**p<0.001，***p<0.0001，***p<0.0001)；图3D为使用各种免疫浸润算法分析的多种免疫细胞比例热图，右侧“*”显示在两个衰老簇之间呈现显著差异的免疫细胞类型(*p<0.01，**p<0.001，***p<0.0001，***p<0.0001)；图3E为两个不同衰老簇代表性患者的病理切片进行苏木精和伊红染色的结果图，图片由左至右对应于以下患者TCGA编号：TCGA-E2-A14O、TCGA-AN-A0FW、TCGA-AR-A1AX、TCGA-E-2-A14P；图3F为两个不同衰老簇的肿瘤浸润淋巴细胞(TILs)的比例差异。

图4为两个不同衰老簇的差异基因分析图，其中图4A图、图4B、图4C展示了簇1和簇2之间的差异基因进行的GSEA分析(基因集富集分析)结果；图4D显示MHCI、MHCII和其他MHC相关抗原在两个衰老簇中的表达水平差异；图4E使用ssGSEA分析(单样本基因集富集分析)，描述两个衰老簇之间免疫、错配修复和基质评分相关基因集的富集评分的结果(*p<0.01，**p<0.001，***p<0.0001，***p<0.0001，***p<0.0001)。

图5为衰老评分模型的构建及其优越性展现图；其中图5A为模型构建的流程图；图5B为利用AUC值评估不同机器学习方法构建的模型性能的比较结果图；图5C为利用模型评价指标Matthews相关系数(MCC)评估不同机器学习方法构建的模型性能的比较图；图5D为利用AUC、MCC、F1 score、Recall和PPV等评估模型的指标对不同机器学习方法建立的模型性能进行全面评估图；图5E为展示衰老评分与其他生存影响的特征得分、风险评分以及其他衰老通路富集评分进行风险比较的结果图：左侧是在TCGA数据中进行险比比较的结果，右侧是在METABRIC数据中进行险比比较的结果(*p<0.05)。

图6为衰老评分高低两组患者的临床差异比较图；其中图6A为两个衰老簇的患者之间衰老评分的差异箱线图；图6B为TCGA数据库中患者衰老评分高低组之间的生存曲线差异；图6C为METBRIC数据库中患者衰老评分高低组之间的生存曲线差异；图6D为显示衰老评分高低与患者的临床信息相联系的热图，顶部柱状图是衰老评分从左到右的递增，底部热图反映各种临床信息随衰老评分的上升临床信息产生的变化，包括年龄、分期、IHC分型、PAM50分型、三阴性乳腺癌症是与否、所属的衰老簇；图6E为根据中位得分将TCGA患者分为高评分组和低评分组的临床信息差异饼状图。

图7为衰老评分与突变的相关性分析图；其中图7A为在TCGA数据中衰老评分高评分组和低评分组患者中突变数量最高的前20个基因瀑布图；图7B为TCGA数据中衰老评分高评分组和低评分组利用箱线展示肿瘤突变负荷(TMB)得分的差异；图7C为在METBRIC数据中衰老评分高评分组和低评分组患者中突变数量最高的前20个基因瀑布图；图7D为METBRIC数据中高评分组和低评分组利用箱线展示肿瘤突变负荷(TMB)得分的差异；图7E为观察衰老评分与TMB得分的相关性；图7F为在TCGA数据中，展示衰老评分高评分组和低评分组的拷贝数变异(CNV)差异。

图8为衰老评分与免疫的相关性分析图；其中图8A棒棒糖图显示了在TCGA数据集中衰老评分与各种类型的免疫细胞之间的相关性；图8B为在TCGA数据集中衰老评分与免疫相关基因集、错配修复和基质评分相关评分之间的相关性，连线线条的粗细反映了相关的显著性；图8C棒棒糖图显示了METABRIC数据集中衰老评分与各种类型的免疫细胞之间的相关性；图8D为METABRIC数据集中衰老评分与免疫相关基因集、错配修复和基质评分相关评分之间的相关性，连线线条的粗细反映了相关的显著性；图8E为高分组和低分组代表性患者(TCGA-AC-A3QP、TCGA-D8-A1JG)相对应的苏木精和伊红染色结果图，图8F为衰老评分与肿瘤浸润淋巴细胞比例(TILs)的相关性分析图。

图9收集老年乳腺癌样本，临床水平验证衰老评分的临床指导价值；其中图9A为对收集的老年癌症患者的组织样本进行处理的模式图：一部分提取RNA进行mRNA转录组测序，另一部分进行苏木精和伊红染色；图9B为老年癌症患者苏木精和伊红染色结果图；图9C为专家根据提供苏木精和伊红染色结果图对免疫浸润程度进行评估(符号“+”表示较差的免疫浸润，符号“++++”表示较好的免疫浸润)；图9D为衰老评分与肿瘤免疫浸润程度的相关性。

图10为收集、整合乳腺癌患者单细胞转录组数据并分群的结果图；其中图10A为展示收集的78个公开的单细胞转录组数据整合结果；图10B为整合癌症患者的单细胞转录组数据后进行UMAP降维以获得的细胞聚类结果，根据标记基因分为6种细胞类型。图10C为反映各细胞亚型的代表标记基因表达量的小提琴图，图10D为使用FindAllMarkers函数从单细胞转录组数据中找到的6种细胞类型中的特征基因表达量差异的热图。

图11为所收集老年乳腺癌患者单细胞转录组数据分群结果进行与衰老评分相关性分析图；其中图11A为提取78个乳腺癌患者中的30位老年乳腺癌患者，根据衰老评分将患者分为高评分和低评分两组，映射到UMAP结果图；图10B为高评分组和低分组中每个患者6种细胞类型的比例的差异展示；图11C为高评分组和低分组中6种细胞类型的比例的差异展示；图11D为UMAP降维结果用于对6种细胞类型中的T细胞亚型的进一步分群，分为12个簇；图11E为细胞亚型的注释，热图显示每种细胞类型的标记基因表达情况；图11F为UMAP散点图，显示T细胞的各亚型在12个簇的分布；图11G条形图显示了高评分组和低分组患者中不同T细胞亚类的比例。

图12为利用药物数据库寻找与靶向25个衰老基因的药物敏感性分析图；其中图12A为在GDSC数据库中分析了25个衰老基因与药物IC50之间的相关性；图12B为在CTRP数据库中分析25个衰老基因与药物IC50之间的相关性，图中红色表示基因表达量与药物的IC50呈正相关关系，蓝色反之。

图13为通过公开临床数据验证对高、低衰老评分组药物敏感性分析的结果图；其中图13A为TCGA数据集中高衰老评分组和低衰老评分组对各类型药物IC50值的差异；图13B为TCGA老年癌症患者高衰老评分组和低衰老评分组药物靶向途径的富集分析结果；图13C为METABRIC数据集中高衰老评分组和低衰老评分组对各类型药物IC50值的差异；图13D为METBRIC老年癌症患者高衰老评分组和低衰老评分组药物靶向途径的富集分析结果；图13E为利用公开的临床试验GEO数据集GSE33658，该数据集具有完整的患者药物反应记录，并可通过患者的mRNA转录组测序数据计算其衰老评分。

图14为衰老评分与药物IC50值的相关性分析图；其中图14A为在TCGA数据集中衰老评分与三类药物IC50值的相关性散点图，图14B为在METABRIC数据集中衰老评分与三类药物IC50值的相关性散点图。

具体实施方式

下面将结合本发明实例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。所提供的实施例也仅是对本发明方法的说明，而不以任何形式、任何方式限制本发明揭示的其余内容。

实施例1：老年乳腺癌患者两种不同衰老模式的发现和分析

1.1两种不同衰老模式的发现

发明人试图识别老年乳腺癌与衰老相关的关键基因，并分析衰老基因在老年乳腺癌患者中的作用。从5个基因集数据库(MSigDB,HAGR,GeneCards,PathCards,andBiocarta)中下载了与衰老相关的基因列表。通过对这些数据库的分析，最终选择了在不同数据库中反复出现的25个关键衰老相关基因。这25个衰老基因包括TP53，CDKN1A，CDKN2A，SIRT1，RB1，TERT，CDK4，CDKN2B，MAPK1，MAPK14，MTOR，TERF2，UBC，CDK6，HMGA2，E2F1,CCNA2，MDM2,CXCL8，HSPA8，LMNB1，MAPK3，MAPKAPK5，ATM和CDKN1B。发明人从癌症基因组图谱TCGA数据库下载美国国家癌症中心收集的513位老年乳腺癌患者的临床资料及mRNA转录组测序数据、基因表达矩阵，建立老年乳腺癌数据库。通过相互作用网络分析发现这25个基因在老年乳腺癌中之间的相互作用。令人惊讶的是，HSPA8和UBC两个基因聚集在一起，而其余的基因分布在其他三个簇中(图1A)。此外，本发明还对这25个基因在老年患者中的表达模式进行了详细的研究，结果显示：CDKN2A、TERT、CDK4、CDK2、HMGA2、E2F1、CCNA2、MDM2、HSPA8、LMNB1、MAKP2、MAPKAPK5等基因在肿瘤中的表达明显高于其在正常组织中的表达。相反，CDKN1A、SIKN1、RB1、CDKN2B、MAPK1、MAPK14、MTOR、TERF2、UBC、CDK6、ATM等基因在正常组织中的表达水平显著高于其在肿瘤中的表达水平(图1B)；还研究了老年乳腺癌患者中这25个基因的单核苷酸多态性(SNP)状态，发现TP53基因的突变频率达到了29％(图1C)。在TCGA数据库中，MDM2和MAPKAPK5以及HMGA2和CCNA2之间都存在显著的共突变(图1D)；为了进一步研究这25个基因的表达对生存的影响，进行了单因素Cox分析，发现HSPA8和E2F2与患者生存率呈负相关，风险比大于1，且具有统计学意义(图1E)。综上所述，说明25个衰老基因在老年乳腺癌中的表达、突变和预后影响情况。

1.2建立老年乳腺癌患者数据库，根据上述两种不同的衰老模式将老年乳腺癌患者分为两类

为了更加精准地判断患者属于哪一类衰老模式，了解衰老基因在老年乳腺癌患者中的作用机制以及衰老基因的分子特征，本发明基于衰老基因构建了衰老评分模型。发明人利用老年乳腺癌数据将患者依据25个衰老基因表达进行无监督聚类分析，最终确定了最佳截断值K为2，将老年乳腺癌患者分成两个衰老模式。具体来说，簇1(衰老模式1)中有313例患者，簇2(衰老模式2)中有200例患者。对样本进行主成分分析(PCA)，结果表明，基于这25个衰老相关基因的表达，可以将老年乳腺癌患者区分为两个的衰老簇(图2A)。通过两个衰老簇中25个衰老相关基因表达水平的热图显示，与簇2的患者相比，簇1中患者的衰老相关基因表达水平较低(图2B)。两种模式中20个基因的表达水平存在显著性差异。此外，在远处转移方面，簇2中患者发生远处转移的比例高于簇1的患者(图2B)。随后，使用老年乳腺癌患者的TCGA数据检测了两个衰老组之间的生存差异，发现簇2患者的生存预后较差(图2C)。通过单因素和多因素Cox分析进一步证实了这一发现，发现簇2组患者的风险(HR)明显大于簇1，差异具有统计学意义(图2D、2E)。在老年癌症患者中，基于ER、PR和HER2受体的阳性和阴性状态的生存率无显著性差异(图2C)。结果证明：在老年乳腺癌患者中发现了两种不同的衰老模式，并证实了这两个组之间的生存预后存在显著差异。

1.3两个衰老簇进行差异分析

为了研究两种衰老模式的老年乳腺癌患者差异，本发明分析两个不同的衰老模式中的富集通路，使用MSigDB数据库中的Hallmark基因集和KEGG通路上的基因集做富集分析(GSEA)和基因集变异分析(GSVA)。结果显示，簇2在细胞周期相关通路(HALLMARK G2MCHECKPOINT、HALLMARK E2F TARGETS)、炎症通路如INFLAMMATORY RESPONSE和NF-KAPPA BSIGNALING_PATHWAY等通路中富集(图3A和图4A)。此外，还发现簇2在免疫相关通路，如TGF_BETA_SIGNALING(图3A和图4B)，以及干扰素相关通路包括INTERFERON_GAMMA_RESPONSE和JAK-STAT SIGNALING PATHWAY中富集(图3A和图4C)。簇2还在细胞衰老途径中富集(图3B)，这与之前观察到的簇2中衰老相关基因的高表达结果相一致。有趣的是，GSVA结果显示，簇2在免疫抑制的EPITHELIAL MESENCHYMAL TRANSITION(EMT)通路中富集(图3A)。同样，GSEA富集分析显示，簇2在T细胞受体信号通路以及PD-L1和PD-1免疫检查点通路中富集(图3B)。此外，本发明还研究了这两个衰老簇和免疫检查位点基因之间的相关性。热图结果显示，与簇1相比，簇2中趋化因子和受体(CXCL10、CXCL11、CXCL9等)以及白细胞介素和受体(IL21R、IL9R、IL10等)的表达水平较高(图3C)。本发明还分析了肿瘤抗原的呈递能力，发现簇2中MHCI、MHCII和Other MHC相关抗原提呈分子的表达水平更高(图4D)。为了探讨这一现象，本发明对两组患者之间的免疫景观进行了分析，结果显示，簇2在与免疫衰竭或抑制相关的浸润性免疫细胞如M2样巨噬细胞、调节性T细胞、耗竭性NK细胞和耗竭性T细胞中富集。相比之下，簇1在活化的免疫浸润细胞如活化的NK细胞细胞、未成熟的B细胞细胞和未成熟的CD4+T细胞(图3D)中富集。进一步比较了两个衰老簇之间的免疫相关基因集评分、错配修复和基质评分的差异。发明人发现，与之前的研究结果一致，簇2显示了更高的TME评分、EMT和免疫检查位点特征(图4E)。本发明下载了来自TCGA的苏木精和伊红(HE)染色结果数据，从图像中可以明显看出，簇2有更多的浸润淋巴细胞(图3E)。为了量化这一现象，本发明还检测了肿瘤免疫浸润淋巴细胞(TIL)，发现簇2免疫浸润淋巴细胞密度显著高于簇1(图3F)。综上所述，簇2这种衰老模式的老年乳腺癌患者中属于免疫抑制且恶性程度更高的亚群。

实施例2老年乳腺癌衰老评分模型的构建

2.1模型的构建

为了有效衡量两种不同的衰老模式，本发明结合生物信息学和机器学习的方法开发了一种基于两种衰老模式的老年乳腺癌衰老评分模型，以定量评估老年乳腺癌患者的衰老状态，从而为老年乳腺癌患者的预后评估和临床用药提供建议和指导。

首先，两种不同衰老模式的差异分析，将老年乳腺癌患者的转录组信息根据两种不同的衰老模式做差异分析，选择的差异分析方法是“DESeq2”，分析得到两种衰老模式的差异基因。对差异基因进行过滤，选择的过滤参数为|log2FC|>1且FDR<0.05，得到了两种不同衰老模式的差异基因，这些基因在两种不同衰老模式的区分中起到关键作用。

然后，为了精确得到区分两种不同衰老模式的衰老基因，通过随机森林的特征选择得到区分衰老模式的关键特征。随机森林采用的CART决策树就是基于基尼系数选择特征，由于是二叉决策树，CART树的GINI系数为：

Gini(p)＝2p(1-p)

p为样本点属于两种不同衰老模式中第一种的概率；

遍历每个特征基因的每个分割点，特征基因A的取值a将老年乳腺癌患者D分为两个衰老模式，D1是两种衰老模式的第一种，D2就是另一种，即D1不满足则为D2，则特征基因A的可能取值a的基尼系数为：

通过随机森林寻找Gini系数最小的a值为特征基因A的分割点，将数据集分成两个不同的衰老模式，直至满足停止条件为止，将数据集分成两个不同的衰老模式，直至满足停止条件为止；对于每个决策树，均会选择相应的袋外数据(out ofbag,OOB)计算袋外数据的误差，记为errOOB1，随机袋外数据OOB所有样本的特征A加入样本噪声干扰，再次计算误差，记为errOOB2；假设现在有N颗树，特征X的重要性＝∑(errOOB2-errOOB1)/N，特征重要性越大，对于区分两类患者的重要程度越高，设置的特征选择阈值为importance>1，选择大于1的为区分两种衰老模式的特征基因。本实施例得到120个特征基因(表1)。

通过机器学习算法中的单类逻辑回归(OCLR)，即通过R包gelnet中的gelnet函数构建单类逻辑回归模型，得到函数R(w)，即为两个衰老模式的特征基因的权重的模型，所述的函数为：

其中：

R(w)是正则化项；

λ1和λ2分别是套索和岭范数惩罚的系数；

d_j是特征j的权重；

w_j是w中第j个元素(即权重向量的第j维)；

m是平移系数向量；

P是特征关联惩罚矩阵；

T表示转置操作；

R(w)的具体值将取决于模型在训练过程中学到的权重w的值，以及输入的权重d和m的值。这个正则化项在优化问题中的作用是对模型的权重进行约束，防止过拟合。通过评分函数得到每个特征基因的权重(表1)，得到患者单个特征基因权重；再使用R包“stats”中的“cor”函数计算每位患者与各个特征基因权重的相关性；最后将得到的相关性数值做归一化，使数值范围介于0-1。

表1筛选到的衰老基因及其与乳腺癌患者预后的权重表

将待测老年乳腺癌病人转录组信息数据录入到建立的TCGA老年乳腺癌数据库中，去除数据的批次效应，进行数据整合。提取120个特征基因数据，得到以120个特征基因为行，老年乳腺癌患者编号为列的表达矩阵，利用R(w)函数得到所有老年乳腺癌者的衰老评分。

2.2模型的评估

本发明使用各种回归模型，包括梯度提升回归(Gradient Boosting Regressor)，随机森林回归(RandomForestRegressor)，单类逻辑回归(One Class Detection)，线性回归(Linear Regressor)，K近邻回归(KNeighbors Regressor)和支持向量回归(SupportVactorRegression)，来量化老年乳腺癌患者的衰老水平。TCGA数据集以6：4的比例被分为训练集和测试集。用以下几个标准来比较不同模型的准确性：包括AUC(图5B)、MCC(图5C)、F1 score、Recall和PPV(图5D)。用于评估模型在测试集中的准确性，最终确定了最优的评分模型(图5A)。基于此评价模型标准，认为单类逻辑回归(One Class Detection)衰老评分模型更准确。

为了验证单类逻辑回归衰老评分模型的优越性，进行了单变量Cox分析，比较了单类逻辑回归衰老评分模型与已发表的影响乳腺癌生存率的风险评分和其他途径富集评分的基因的影响。结果显示，老年乳腺癌患者中衰老评分的HR值高于其他风险评分(图5E左)。为了验证这一观点，使用MATEBRIC数据集中1105名老年乳腺癌患者的芯片数据，验证本发明衰老评分模型的普适性。本发明下载了患者的基因表达信息，将患者的基因表达矩阵输入衰老评分模型，得到患者的衰老评分。结果发现：当应用于METABRIC数据集验证时，衰老评分模型的风险比大于1，p值为0.068(图5E右)。说明本发明已经成功地建立了一个回归模型来评估老年乳腺癌患者的衰老水平。本发明模型在老年乳腺癌患者中表现出显著性，并突出了其在老年乳腺癌患者这一特定人群中的强大适用性。

实例3：衰老评分模型在老年乳腺癌患者临床预后上的应用

本发明深入研究了该衰老评分模型在老年乳腺癌患者中的临床意义及其与疾病特征间的关系。本发明对衰老评分模型与生存之间的关系进行了全面的分析。首先检测了衰老评分模型在TCGA数据集中的应用。结果发现，与之前的研究一致，簇2的衰老评分高于簇1，且呈现显著差异(图6A)。使用R包“survminer”来评估高评分和低评分组之间的生存差异。通过计算最佳截断值，将患者分为高评分和低评分的衰老模型组。结果显示，高评分患者的生存期明显低于低评分患者(p<0.001，HR＝2.1，CI＝0.2-3.59，图5B)。

为了确认衰老评分对生存预后的影响，收集了在METABRIC数据集对老年癌症患者进行了衰老评分的计算，结果与TCGA数据一致，显示衰老评分模型评分较高的患者预后较差(图6C)。根据衰老评分模型的中位数区分患者，发现高评分组的患者表现出较高的恶性。此外，评分较高的患者的肿瘤亚型更为复杂(图6D)。高评分组的三阴性乳腺癌(TNBC)患者的比例较高，而且晚期T期和M期患者的比例较高。与低评分组相比，具有显著性差异(图6E)。综上所述，本研究结果表明，将老年乳腺癌患者的临床信息纳入模型中具有重要的临床意义。

当分析肿瘤中的单核苷酸SNP位点突变时，观察到得分较高的患者表现出更多的突变多样性(图7A)。利用“maftools”检测老年乳腺癌患者的单核苷酸突变状态(图7A)，观察到高和低评分组之间的肿瘤突变负荷(TMB)存在显著差异(图7B)，与METABRIC数据集中得到的结果一致(图7C、图7D)。

对评分高、低组之间的肿瘤突变负荷进行进一步分析，发现评分与肿瘤突变负荷呈显著正相关(图7E)。此外，利用GISTIC2分析了肿瘤中的拷贝数变异(CNVs)，发现高低衰老评分模型评分的患者在G score和Frequency方面存在显著差异(图7F)。具体来说，得分高的患者比得分低的患者表现出更高的CNV突变频率。这些结果表明，衰老评分模型可以为老年乳腺癌患者是否适合免疫治疗提供指导。

利用xCell反卷积算法，从TCGA数据集中确定了老年乳腺癌患者中的免疫细胞的比例。通过Pearson相关分析，发现衰老评分模型与大部分免疫浸润呈正相关。然而，在这种正相关关系中，也观察到了调节性T细胞的存在(图8A)，这些细胞产生了促进肿瘤细胞增殖的免疫抑制因子，从而产生了一个免疫抑制的肿瘤微环境。为了验证这一观察结果，使用ssGSEA计算了患者中不同途径的富集评分。通过Pearson相关性，我们一致发现衰老评分模型与TME score呈正相关。此外，发现它与免疫检查点基因的富集评分呈正相关(图8B)。这些结果在METABRIC数据集中得到了验证(8C、图8D)。此外，使用TCGA的苏木精和伊红(HE)结果检测了患者的免疫浸润状态。结果显示，高衰老评分的患者比低评分的患者有更多的肿瘤浸润淋巴细胞(图8E)。此外，评分与免疫浸润淋巴细胞(TILs)密度呈显著正相关(图8F)。

为了提高模型和评分数据的说服力，招募了8名老年乳腺癌患者。将老年患者的乳腺癌样本进行RNA的提取并测序，对数据进行质控比对得到患者的表达矩阵。将患者的表达矩阵输入到衰老评分模型模型来确定每个患者的衰老评分。同样的对另一部分组织进行苏木精-伊红染色，以观察患者免疫浸润的分布。结果显示，高衰老评分的患者比低衰老评分的患者有更好的免疫浸润能力(图9)。

综上所述，本发明模型评分不仅可以预测患者的生存预后和恶性程度，而且还与肿瘤突变负荷和肿瘤免疫微环境密切相关，因此，该评分系统为全面了解老年乳腺癌患者的疾病特征提供了重要的线索。

从之前的研究中下载了78个单细胞转录组样本，总共有352,450个细胞和41,534个基因。使用“harmony”软件包整合数据(图10A)，并使用“Seurat”软件包进行细胞注释，从肿瘤单细胞测序数据中识别出6种细胞类型(图10B、图10C和图10D)。在这些样本中，选择了年龄在60岁以上的乳腺癌患者(共30例患者)，并根据患者的基因表达确定了患者的衰老评分高低。在UMAP降维的结果中，清楚地观察到了来自不同评分类型的患者的细胞数据的分布(图11A)。此外，还进一步统计了每个患者的细胞亚型的分布(图11B)通过对高评分组和低评分组的细胞数量分布的检测，发现高评分组的免疫细胞数量高于低评分组(图11C)，这与之前的研究结果一致。在以往的研究中，已经证实了高评分组与免疫细胞以及调节性T细胞比例的增加呈正相关。因此，将T细胞进一步细分为不同的亚组。通过UMAP降维将数据划分为12个簇(图11D)，根据细胞亚类的特征基因将这12个簇定义为9种不同的细胞类型(图11E)。接下来，检测了患者中不同T细胞亚型的分布情况(图11F)。结果显示，高评分组患者中耗竭性T细胞和调节性T细胞的比例高于低评分组(图11G)。总的来说，衰老评分与免疫浸润细胞呈正相关，同时与免疫抑制的T细胞也呈正相关。这表明评分较高的患者更适合接受免疫治疗。

实例4衰老评分模型在老年乳腺癌患者对药物敏感性中的应用

老年乳腺癌患者在治疗中常存在治疗方案不明确，药物代谢与年轻患者不同的情况，因此本发明希望衰老评分模型在老年乳腺癌患者用药上提供一些指示。

为了进一步分析两种衰老模式与药物敏感性的关系，本发明使用药物敏感性基因组数据库(GDSC)和癌症治疗反应门户(CTRP)数据库来研究基因表达和药物敏感性之间的相关性。

为了探讨衰老评分模型在患者药物治疗中的指导作用，GDSC结果表明，25个衰老相关基因高表达对细胞周期抑制剂和激酶抑制剂更敏感性(图12A)。CTRP结果显示，25个衰老相关基因高表达对拓扑异构酶抑制剂更敏感性(图12B)。这些结果表明，25个衰老相关的基因的表达与细胞周期抑制剂的药物敏感性呈正相关。

分析衰老评分模型对老年乳腺癌患者用药的指导。将患者分为高评分组和低评分组，通过使用R包“nocoPredict”整合GDSC药物数据库细胞系药物敏感信息，预测老年乳腺癌患者对药物的敏感性，通过富集分析得到患者敏感的靶向药物。在TCGA数据中得到药物敏感性结果后，与患者衰老评分高低组做差异分析。通过R包“limma”计算在高低衰老评分组的差异药物，过滤参数为|delta in IC50|>1&p-value<0.05。得到差异的药物后，对比GDSC中药物靶向通路富集分析，得到高低衰老评分患者敏感的药物靶向通路。结果显示，高衰老评分模型组对细胞周期和EGFR抑制剂敏感，而低评分组对有丝分裂和ERK MAPK抑制剂敏感(图13A、图13B)。同样，也分析了METABRIC数据库中的药物敏感性(图13C)。高评分组对细胞周期和EGFR通路靶向药物具有敏感性(图13D)；得分较低的患者对ERK MAPK抑制剂的治疗更敏感(图13D)。

为了进一步探索药物敏感性与衰老评分模型之间的关系，观察了IC50值与衰老评分模型之间的相关性。结果显示，衰老评分模型与对细胞周期和EGFR抑制剂的敏感性呈显著的负相关。这意味着评分越高，药物敏感性就越高。相反，与ERK MAPK抑制剂存在显著的正相关(图14A)，该结果在METABRIC数据集中得到了验证(图14B).

由于所有药物敏感数据用来预测患者的药物敏感性，因而用外部数据集GSE33658中老年乳腺癌患者的药物(Gefitinib EGFR抑制剂)响应情况验证衰老评分模型在用药方面的指示。为了验证药物治疗的临床疗效，收集了8例年龄在60岁以上、接受吉非替尼治疗的乳腺癌患者的数据。数据来自GEO数据库GSE33658，通过衰老评分模型预测患者的衰老评分，并观察患者对该药物的反应。数据显示，高评分组患者均有部分缓解(PR)，而低评分组患者有完全缓解(CR)和进展性疾病(PD)。高评分组和低评分组之间有显著性差异，说明高评分组的患者对吉非替尼更为敏感(图13E)。综上所述，衰老评分模型在指导老年乳腺癌患者的药物指导方面具有重要意义。

Claims

1.一种老年乳腺癌衰老评分模型的构建方法，包括以下步骤：

S5衰老评分计算：整合待测患者数据与TCGA数据，去除数据的批次效应，得到以S3所述的特征基因为行，老年乳腺癌患者的编号为列的表达矩阵，将该表达矩阵中每个患者的特征基因表达信息与S4中的特征基因权重计算相关性，从而得到患者衰老评分。

2.根据权利要求1所述的老年乳腺癌衰老评分模型的构建方法，其特征在于：S2中所述的差异分析方法如下：选择的差异分析方法是“DESeq2”，分析得到两种衰老模式下的差异基因；并对差异基因进行过滤，选择的过滤参数为|log2FC|>1且FDR<0.05，得到老年乳腺癌两种不同衰老模式的差异基因。

3.根据权利要求1所述的老年乳腺癌衰老评分模型的构建方法，其特征在于：所述的S3步骤具体为：所述的随机森林采用的CART决策树，是基于基尼系数选择特征，CART决策树的GINI系数为：

Gini(p)＝2p(1-p)

p为样本点属于两种不同衰老模式中第一种的概率；

遍历每个特征基因的分割点，特征基因A的取值a将老年乳腺癌患者D分为两个衰老簇，D1是两种衰老模式的第一种，D2就是另一种，即D1不满足则为D2，则特征基因A的可能取值a的基尼系数为：

通过随机森林寻找Gini系数最小的a值为特征基因A的分割点，将数据集分成两个不同的衰老簇，直至满足停止条件为止；对于每个决策树，均会选择相应的袋外数据(outofbag,OOB)计算袋外数据的误差，记为errOOB1，随机袋外数据OOB所有样本的特征A加入样本噪声干扰，再次计算误差，记为errOOB2；假设现在有N颗树，特征A的重要性＝∑(errOOB2-errOOB1)/N，特征重要性越大，对于区分两类患者的重要程度越高，设置的特征选择阈值为importance>1，选择大于1的为区分两种衰老模式的特征基因。

4.根据权利要求1所述的老年乳腺癌衰老评分模型的构建方法，其特征在于：所述的S4步骤为：所述的单类逻辑回归模型是通过R包gelnet中的gelnet函数构建的，得到函数R(w)，即为两个衰老模式的特征基因权重的模型，所述的函数为：

其中：

R(w)是正则化项；

λ1和λ2分别是套索和岭范数惩罚的系数；

d_j是特征j的权重；

w_j是w中第j个元素(即权重向量的第j维)；

m是平移系数向量；

P是特征关联惩罚矩阵；

T表示转置操作；

5.利用权利要求1所述的衰老评分模型进行老年乳腺癌预后评估的方法，包括以下步骤：

S1提取待测老年乳腺癌病人转录组信息；

6.根据权利要求5所述的衰老评分在老年乳腺癌预后指示以及临床治疗和用药推荐中的应用。