CN113355419B

CN113355419B - 一种乳腺癌预后风险预测标志组合物及应用

Info

Publication number: CN113355419B
Application number: CN202110718803.0A
Authority: CN
Inventors: 王志宇; 王玄; 王能
Original assignee: Guangzhou University of Traditional Chinese Medicine
Current assignee: Guangzhou University of Traditional Chinese Medicine
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2022-02-18
Anticipated expiration: 2041-06-28
Also published as: CN113355419A

Abstract

本发明公开了一种乳腺癌预后风险预测标志组合物及应用。本发明筛选出了10个与乳腺癌生存率密切相关的差异表达基因MT3、SORBS1、IGFALS、AMH、IL12B、TP53AIP1、PXDNL、MC5R、FOXD1、LHX1，可作为在肿瘤中检测且具有较高预测准确度的乳腺癌预后的分子标记物。本发明基于这10个基因还构建了乳腺癌患者预后死亡风险预测模型，可以预测乳腺癌患者的预后死亡风险，还可以计算出乳腺癌患者的一年、三年、五年生存率，为乳腺癌癌患者预后预测提供以一种有效的预测工具，为指导临床工作者制定个体化治疗方案提供新的思路。

Description

一种乳腺癌预后风险预测标志组合物及应用

技术领域

本发明涉及基因技术和医学领域，特别涉及一种乳腺癌预后风险预测标志组合物及应用。

背景技术

乳腺癌是女性中最高发的癌症，也是女性癌症死亡的主要原因。由于早期筛查和治疗方法的进步，乳腺癌的治疗取得了一定成效，但由于疾病的异质性，预后评估仍然面临挑战。尤其是随着乳腺癌的发病率和死亡率不断增加，且具有年轻化的趋势，现阶段乳腺癌患者的疗效及预后情况仍不乐观。因此，及时监测患者的预后尤为重要。影响乳腺癌预后的因素众多，目前尚缺乏治疗敏感和预后判断的特异性的分子生物标志物。因此，建立准确预测乳腺癌患者后的工具对于指导临床诊断治疗十分关键。

抑郁与乳腺癌的发生发展密切相关，但临床极易被忽视和低估。乳腺癌患者在诊治的过程中，长期处于慢性应激状态，其情绪可能由最初的对癌症的恐惧、怀疑，转变为焦虑、紧张、急躁、悲观、抑郁等心理障碍，甚至产生自杀行为，促使病情进一步恶化。抑郁可通过影响神经、内分泌系统，降低免疫功能，增加肿瘤的复发和转移和死亡风险。动物实验结果也证实慢性心理应激可以促进小鼠乳腺肿瘤的生长以及肺转移。

近年来，多项研究证实了基因在肿瘤预后中的预测作用，进行从分子层面对癌症进行研究更有利于个体化的治疗和预后的评估。目前乳腺癌预后预测工具在不断开发出来，例如21基因检测、乳腺癌指数等。美国国家癌症网络(NCCN)指南推荐乳腺癌21基因检测适用于：Ⅰ期或Ⅱ期、ER阳性、淋巴结阴性的新确诊乳腺癌；淋巴结阳性(1～3个)、ER阳性的绝经后浸润性乳腺癌患者。可以看出目前现有的乳腺癌预后标志物仅适用于特定的乳腺癌，具有一定的局限性。因此，发现新的预后标志、构建新的预测模型仍有助于乳腺癌患者的预后判断和治疗方法的选择。

发明内容

本发明的首要目的在于克服现有技术的缺点与不足，提供一种乳腺癌预后风险预测标志组合物。

本发明的另一目的在于提供所述乳腺癌预后风险预测标志组合物的应用。

本发明的目的通过下述技术方案实现：

一种乳腺癌预后风险预测标志组合物，所述的标志组合物包括MT3、SORBS1、IGFALS、AMH、IL12B、TP53AIP1、PXDNL、MC5R、FOXD1和LHX1基因。

所述的MT3、SORBS1、IGFALS、AMH、IL12B、TP53AIP1、PXDNL、MC5R、FOXD1和LHX1基因的NCBI登录号如下：MT3：NM_005954；SORBS1：NG_034041；IGFALS：NG_011778；AMH：NG_012190；IL12B：NG_009618；TP53AIP1：NG_030401；PXDNL：NM_144651；MC5R：NM_005913；FOXD1：NM_004472；LHX1：NM_005568。

所述的乳腺癌预后风险预测标志组合物在制备乳腺癌预后风险预测和/或诊断产品(工具)中的应用。

所述的产品包括试剂、试剂盒等。

所述的乳腺癌预后风险预测标志组合物中的各个基因的表达水平可以通过本领域常规方法进行测定，如采用实时荧光定量法测定每个基因的mRNA表达数据。

用于检测所述的乳腺癌预后风险预测标志组合物的表达水平的试剂在制备乳腺癌预后风险预测和/或诊断产品中的应用。

所述的乳腺癌预后风险预测标志组合物在构建乳腺癌患者预后死亡风险预测模型中的应用。

一种乳腺癌患者预后死亡风险预测模型的构建方法，包括如下步骤：

(1)获得基因表达水平

选择n个乳腺癌患者作为参照样本，从第1个参照样本开始，依次获得第1个乳腺癌患者肿瘤患者的MT3、SORBS1、IGFALS、AMH、IL12B、TP53AIP1、PXDNL、MC5R、FOXD1和LHX1基因的表达水平，即获得每个基因的表达值；然后将每个基因的表达值经z-score标准化后，得到每个基因的标准化表达值，依次记为Xi_1-1、Xi_2-1……Xi_10-1；以此类推，分别获得第2个至第n个参照样本的基因表达水平，记为Xi_1-2、Xi_2-2……Xi_10-2，Xi_1-3、Xi_2-3……Xi_10-3，Xi_1-n、Xi_2-n……Xi_10-n；其中，n≥200(为正整数)；

(2)建立预测模型

根据如下公式计算得到第1个乳腺癌患者的风险分数：风险分数R₁＝(-0.160)*Xi_1-1+(-0.129)*Xi_2-1+(-0.084)*Xi_3-1+0.089*Xi_4-1+(-0.137)*Xi_5-1+(0.164)*Xi_6-1+0.137*Xi_7-1+0.120*Xi_8-1+0.073*Xi_9-1+0.055*Xi_10-1；以此类推，分别计算得到第2个至第n个乳腺癌患者的风险分数R₂，R₃……R_n；

(3)确定截断值

以步骤(1)中的n个乳腺癌患者5年内死亡与否为标准，以1代表死亡，0代表存活，并根据步骤(2)中计算得到的风险分数R₁，R₂……R_n分别绘制ROC曲线(n个乳腺癌患者，相应绘制n条ROC曲线)，再根据绘制的ROC曲线获得截断值；

(4)预后死亡风险判断

参考步骤(1)中的方法，先分别测定待预测乳腺癌患者(作为待测样本)的MT3、SORBS1、IGFALS、AMH、IL12B、TP53AIP1、PXDNL、MC5R、FOXD1和LHX1基因的表达水平，获得待预测乳腺癌患者的每个基因的表达值；将每个基因的表达值经z-score标准化后，得到每个基因的标准化表达值；然后根据步骤(2)中的公式计算得到待预测乳腺癌患者的风险分数，再根据待预测乳腺癌患者的风险分数以及步骤(3)确定的截断值大小预测乳腺癌患者的预后死亡风险：风险分数高于或等于截断值的预测为高风险人群，风险分数低于截断值的预测为低风险人群。

步骤(1)中所述的参照样本(即n个乳腺癌患者)可通过本领域常规的方式获取，如从医院等获取足够数量(n个)的乳腺癌患者作为参照样本，或可以从现有的数据库中获取足够数量的乳腺癌患者的数据作为参照样本；优选为从TCGA数据库中获取的乳腺癌患者的数据作为参照样本。

步骤(1)中所述的Z-score标准化(零-均值规范化)(经过处理的数据的均值为0，标准

差为1)的转化公式为：标准化表达值

；其中，x为实际测量值，

为原始数据的均

值，σ为原始数据的标准差。

步骤(1)中所述的n的取值范围优选为：n≥500；更优选为：n≥1000；参照样本数量越多，越有利获得更精确的截断值，也就是对待预测乳腺癌患者的预后死亡风险的预测会更准确。

步骤(3)中所述的绘制ROC曲线优选为采用Medcalc软件进行绘制。

步骤(3)中的截断值为最佳截断值，根据约登指数最大原则，取约登指数最大时对应风险分数的数值为截断值。

步骤(4)中所述的基因(乳腺癌患者肿瘤样本的MT3、SORBS1、IGFALS、AMH、IL12B、TP53AIP1、PXDNL、MC5R、FOXD1和LHX1基因)表达水平可以通过本领域常规方法进行测定，如采用实时荧光定量法测定每个基因的mRNA表达数据。

所述的乳腺癌患者预后死亡风险预测模型的构建方法，在步骤(4)之后还包括如下步骤：

(5)生存率判断

使用R语言中的rms包根据步骤(1)中的n个乳腺癌患者的年龄、病理学分期、分子分型和风险分数绘制生存率预测列线图(多因素Cox回归分析构建列线图)，并以此计算出待预测乳腺癌患者的一年、三年、五年生存率。

本发明相对于现有技术具有如下的优点及效果：

(1)本发明基于与抑郁相关的基因，筛选出了10个与乳腺癌生存率密切相关的差异表达基因MT3、SORBS1、IGFALS、AMH、IL12B、TP53AIP1、PXDNL、MC5R、FOXD1、LHX1，可作为在肿瘤中检测且具有较高预测准确度的乳腺癌预后的分子标记物。

(2)本发明基于这10个与乳腺癌生存率密切相关的差异表达基因建立了预测乳腺癌预后的风险评估模型，这10基因风险模型在预测乳腺癌患者总生存率表现出良好的性能；同时，通过验证风险模型对不同分子亚型的乳腺癌患者的预测准确性，发现此模型对于Basal型和LumA型的患者具有更好的预测效用，为乳腺癌癌患者预后预测提供以一种有效的预测工具。

(3)本发明中的ROC曲线评估预测的效用结果表明，相较于常见的TNM分期和病理学分期，本发明中构建的预测模型具有更好的预测效用，并且是乳腺癌患者生存预测的独立预后指标，有利于筛选高危群体，为指导临床工作者制定个体化治疗方案提供新的思路。

(4)本发明通过将风险评分与其他临床指标相结合，构建了预测乳腺癌生存率的列线图。本发明通过基因表达的数据结合临床资料分析，可提高风险预测的性能。并且通过提供简单、直观和定量的预后判断，有助于临床医生预测乳腺癌患者总体生存率，指导临床医师进行治疗决策。

附图说明

图1是与乳腺癌预后相关的差异抑郁基因的筛选结果图；其中，A为乳腺癌差异表达基因火山图；B为乳腺癌差异表达基因热图；C为MCODE模块分析蛋白互作网络中的关键基因；D为单因素Cox回归筛选与生存率相关的基因；E为Lasso回归分析(表示通过LASSO模型十折交叉验证的最低标准选择最佳参数(λ)；横坐标为log(Lambda)，纵坐标为部分似然偏差)。

图2是乳腺癌患者高、低风险组的Kaplan-Meier生存曲线以及1年、3年和5年生存率的时间依赖性ROC曲线图；其中，A为测试集TCGA以及验证集GSE96058中乳腺癌患者高、低风险组的Kaplan-Meier生存曲线(横坐标为年数，纵坐标为生存概率，红色代表高风险，蓝色代表低风险)；B为测试集TCGA以及验证集GSE96058中1年、3年和5年生存率的时间依赖性ROC曲线(横坐标为1-特异性，也称为假阳性率，纵坐标为敏感度，也称为真阳性率)。

图3是测试集TCGA以及验证集GSE96058风险预测模型在不同亚型乳腺癌患者的ROC曲线图(横坐标为1-特异性，也称为假阳性率；纵坐标为敏感度，也称为真阳性率)；其中，A为Basal型；B为LumA型；C为LumB型；D为Her-2型。

图4是多因素Cox回归分析评估风险预测模型在乳腺癌患者的独立预后价值图(分别对年龄、TNM分期、病理学分期、风险分数进行多因素cox回归分析；年龄：HR＝1.030,95％CI：1.014-1.045，P<0.001；病理学分期：HR＝1.618,95％CI：0.954-2.742，P＝0.074；TNM分期(T:HR＝0.961,95％CI：0.700-1.319，P＝0.805；N:HR＝1.270,95％CI：0.941-1.716，P＝0.119；M:HR＝0.956,95％CI：0.409-2.235，P＝0.0.918)和风险模型：HR＝2.671，95％CI：2.073-3.411，P<0.001)。

图5是ROC曲线分析比较风险预测模型、TNM分期、病理分期和年龄在乳腺癌患者的预测效能图。

图6是包含年龄、病理学分期、分子分型和风险评分的列线图。

具体实施方式

下面结合实施例对本发明作进一步详细的描述，但本发明的实施方式不限于此。应当指出，对于本技术领域的普通技术人员，在不脱离本发明方法的前提下，还可以做出若干改进和补充，这些改进和补充也应视为本发明的保护范围。

实施例1基于抑郁相关基因的乳腺癌预后风险预测模型建立及在预测乳腺癌患者预后方面的应用

(1)从癌症基因组图谱(TCGA)数据库中收集乳腺癌患者的mRNA表达数据矩阵及临床信息，该矩阵包括1096个肿瘤样本和113个正常样本，作为测试数据集(测试集)；从GEO数据库的GSE96058数据集中收集2969名乳腺癌患者的mRNA谱和临床特征，作为验证数据集(验证集)。

(2)筛选差异表达基因：在Genecard数据库中以“depression”or“depressive”为关键词进行检索，得到抑郁相关基因集(8479个基因)。采用Wilcox秩和检验筛选乳腺癌样本和正常样本中的与抑郁相关的差异表达基因，设置阈值|logfoldChange|＝2，padj＝0.01，见图1A和1B。

(3)采用STRING数据库获取差异基因的蛋白相互作用信息，导入Cytoscape构建蛋白互作网络，并利用MCODE进行模块分析(图1C)，获得网络的关键基因。

(4)预后标志物的筛选：下载患者样本的临床信息，并整理患者的生存时间和生存状态。纳入随访时间大于或等于1个月的1027名患者(1027位患者为上述TCGA数据集1096个样本中的随访数据，且为随访时间大于或等于1个月的患者的数据)，对于筛选出的关键差异表达的mRNA，采用单因素Cox回归模型分析与患者总生存率相关的关键基因，筛选条件为P＜0.05，获得34个基因，见图1D。

(5)构建风险预测模型：为避免多元回归模型中的多重共线性和过度拟合，根据单因素Cox回归分析结果，使用“glmnet”包进行LASSO回归分析，根据参数Lambda值筛选出15个mRNA进行后续分析。对15个基因进行多因素Cox回归分析，利用台阶法进行逐步回归(图1E)。建立了基于10个差异表达基因的Cox多因素回归模型，见表1(10个基因的NCBI登录号如下：MT3：NM_005954；SORBS1：NG_034041；IGFALS：NG_011778；AMH：NG_012190；IL12B：NG_009618；TP53AIP1：NG_030401；PXDNL：NM_144651；MC5R：NM_005913；FOXD1：NM_004472；LHX1：NM_005568)。

表1基于10个差异表达基因的Cox多因素回归模型

基因名称(ID)	coef	HR值	HR.95L	HR.95H	pvalue
						MT3	-0.160	0.852	0.773	0.940	0.0014
SORBS1	-0.129	0.879	0.761	1.016	0.0802
						IGFALS	-0.084	0.919	0.854	0.990	0.0267
AMH	0.089	1.093	1.004	1.189	0.0392
						IL12B	-0.137	0.872	0.795	0.957	0.0039
TP53AIP1	-0.164	0.849	0.764	0.943	0.0022
						PXDNL	0.137	1.146	1.065	1.234	0.0003
MC5R	0.120	1.127	1.028	1.236	0.0109
						FOXD1	0.073	1.076	1.004	1.152	0.0384
LHX1	0.055	1.056	0.993	1.124	0.0836

注：HR.95L表示HR值95％CI的下限，HR.95H表示HR值95％CI的上限。

(6)建立基于差异表达基因的预测模型：

其中，βi代表每个基因的系数，Exp(Xi)代表每个基因的标准化表达值；

即：风险分数＝(-0.160)*MT3+(-0.129)*SORBS1+(-0.084)*IGFALS+0.089*AMH+(-0.137)*IL12B+(0.164)*TP53AIP1+0.137*PXDNL+0.120*MC5R+0.073*FOXD1+0.055*LHX。

(7)基于上述获得的差异表达基因的乳腺癌预后风险模型，计算各个患者的风险分数，使用Medcalc绘制ROC曲线，并找到截断值(-1.281)；然后根据ROC工作曲线截断值将患者分为高风险组和低风险组。使用R语言的“survival包”根据分组结果绘制五年生存率，通过绘制Kaplan-Meier(K-M)曲线将两者进行比较，利用双侧对数秩检验确定高风险和低风险患者组之间的生存差异。通过比较，发现在基于差异表达水平基因的风险模型组中，测试集TCGA(n＝1027)以及验证集GSE96058(n＝2969)的乳腺癌患者高风险组和低风险组患者的五年生存率差异具有显著性意义(P<0.001)，如图2A所示，低风险组的生存时间明显长于高风险组。表明该模型能够有效预测患者的预后。

(8)模型的预测准确性分析：用R包“survivalROC”绘制受试者(测试集TCGA(n＝1027)以及验证集GSE96058(n＝2969))工作特征ROC曲线，比较受试者工作特性曲线(ROC)的曲线下面积(AUC)，验证模型的预测准确性；发现基于抑郁差异表达基因的10-基因标记风险评分模型(即上述步骤(6)建立的基于差异表达基因的预测模型)对预测患者的1、3、5年生存预后均较为稳定(1年、3年、5年生存率的ROC曲线下面积为0.789、0.766、0.734)，见图2B。表明该模型具有良好的特异性和稳定性。

(9)模型的效用分析：对不同分子亚型的乳腺癌患者(不同分子亚型的乳腺癌患者数据分别来源于TCGA数据集和GSE96058数据集中提供的乳腺癌分子分型的患者的数据，具体为：以TCGA数据库收集226例Basal型(Basal-like型)、352例LumA型(Luminal A型)、158例LumB型(Luminal B型)及52例Her-2型乳腺癌患者作为测试集，以GSE96058数据集中收集的507例Basal型、1501例LumA型、666例LumB型及295例Her-2型乳腺癌患者作为验证集)使用R包“survivalROC”绘制ROC曲线，验证风险模型对不同分子亚型的乳腺癌患者的预测准确性。发现此模型对于Basal型和LumA型的患者具有更好的预测效用，见图3。

(10)多变量分析揭示预后预测价值：利用GSE96058数据集对预测模型进行验证，KM曲线说明高风险组较低风险组生存率低(P<0.001)，1年、3年、5年生存率的ROC曲线下面积分别为0.725、0.651、0.618，见图4。多变量分析显示，本研究的风险预测模型是乳腺癌患者生存率的独立危险因素(HR＝2.671，95％CI：2.073-3.411，P<0.001)，优于TNM分期(T:HR＝0.961,95％CI：0.700-1.319，P＝0.805；N:HR＝1.270,95％CI：0.941-1.716，P＝0.119；M:HR＝0.956,95％CI：0.409-2.235，P＝0.0.918)和病理学分期(HR＝1.618,95％CI：0.954-2.742，P＝0.074)。与其他临床病理特征比较，风险预测模型的ROC曲线的AUC值(0.781)明显高于TNM分期(T:AUC＝0.743,N:AUC＝0.661,M:AUC＝0.549)和病理学分期(AUC＝0.728)，见图5。

(11)建立一个列线图：结合风险评分模型的风险评分、病理分期和年龄、分子分型4个指标，利用多因素Cox回归分析构建生存率预测列线图模型。已建立的预测生存期的列线图适用于预测乳腺癌患者的1年、3年和5年生存率，如图6所示。列线图模型可根据年龄、病理学分期、分子分型和风险分数这4个自变量的回归系数设定评分标准，包括单项得分，即图中的Point，表示每个变量在特定取值下所对应的单项分数，以及总得分，即TotalPoint，表示所有变量取值后对应的单项分数加起来合计的总得分，最后通过总评分与生存率之间的函数转换关系，从而计算出每个患者的一年、三年、五年生存率。列线图模型的使用方法包括：先将乳腺癌患者的风险分数、年龄、病理学分期和分子分型对应(垂直对应)的分值求和以得到其总分值，再根据总分值确定对应(垂直对应)的一年、三年、五年生存率。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种乳腺癌预后风险预测标志组合物，其特征在于：所述的标志组合物由MT3、SORBS1、IGFALS、AMH、IL12B、TP53AIP1、PXDNL、MC5R、FOXD1和LHX1基因组成。

2.用于检测权利要求1所述的乳腺癌预后风险预测标志组合物的表达水平的试剂在制备乳腺癌预后风险预测和/或诊断产品中的应用。

3.根据权利要求2所述的应用，其特征在于，所述的乳腺癌预后风险预测通过如下步骤实现：

（1）获得基因表达水平

选择n个乳腺癌患者作为参照样本，从第1个参照样本开始，依次获得第1个乳腺癌患者肿瘤患者的MT3、SORBS1、IGFALS、AMH、IL12B、TP53AIP1、PXDNL、MC5R、FOXD1和LHX1基因的表达水平，即获得每个基因的表达值；然后将每个基因的表达值经z-score标准化后，得到每个基因的标准化表达值，依次记为Xi_1-1、Xi_2-1……Xi_10-1；以此类推，分别获得第2个至第n个参照样本的基因表达水平，记为Xi_1-2、Xi_2-2……Xi_10-2， Xi_1-3、Xi_2-3……Xi_10-3，Xi_1-n、Xi_2-n……Xi_10-n；其中，n≥200；

（2）建立预测模型

根据如下公式计算得到第1个乳腺癌患者的风险分数：风险分数R₁=(-0.160)*Xi_1-1+(-0.129)*Xi_2-1+(-0.084)*Xi_3-1+0.089*Xi_4-1+(-0.137)*Xi_5-1+(0.164)*Xi_6-1+0.137*Xi_7-1+0.120*Xi_8-1+0.073* Xi_9-1+0.055* Xi_10-1；以此类推，分别计算得到第2个至第n个乳腺癌患者的风险分数R₂，R₃……R_n；

（3）确定截断值

以步骤（1）中的n个乳腺癌患者5年内死亡与否为标准，以1代表死亡，0代表存活，并根据步骤（2）中计算得到的风险分数R₁，R₂……R_n分别绘制ROC曲线，再根据绘制的ROC曲线获得截断值；

（4）预后死亡风险判断

参考步骤（1）中的方法，先分别测定待预测乳腺癌患者的MT3、SORBS1、IGFALS、AMH、IL12B、TP53AIP1、PXDNL、MC5R、FOXD1和LHX1基因的表达水平，获得待预测乳腺癌患者的每个基因的表达值；将每个基因的表达值经z-score标准化后，得到每个基因的标准化表达值；然后根据步骤（2）中的公式计算得到待预测乳腺癌患者的风险分数，再根据待预测乳腺癌患者的风险分数以及步骤（3）确定的截断值大小预测乳腺癌患者的预后死亡风险：风险分数高于或等于截断值的预测为高风险人群，风险分数低于截断值的预测为低风险人群。

4.根据权利要求3所述的应用，其特征在于：

步骤（1）中所述的n的取值范围为：n≥500；

步骤（3）中的截断值为最佳截断值，根据约登指数最大原则，取约登指数最大时对应风险分数的数值为截断值。

5.根据权利要求4所述的应用，其特征在于：

步骤（1）中所述的n的取值范围为：n≥1000。

6.根据权利要求3所述的应用，其特征在于，在步骤（4）之后还包括如下步骤：

（5）生存率判断

使用R语言中的rms包根据步骤（1）中的n个乳腺癌患者的年龄、病理学分期、分子分型和风险分数绘制生存率预测列线图，并以此计算出待预测乳腺癌患者的一年、三年、五年生存率。

7.根据权利要求3所述的应用，其特征在于：

步骤（3）中所述的绘制ROC曲线为采用Medcalc软件进行绘制。

8.根据权利要求3所述的应用，其特征在于：

步骤（4）中所述的基因表达水平为采用实时荧光定量法进行测定。