CN115216543A

CN115216543A - 核酸探针或引子在制备用于评估乳癌复发与转移风险方法的试剂盒的应用

Info

Publication number: CN115216543A
Application number: CN202110421564.2A
Authority: CN
Inventors: 陈定壕; 施冠卉
Original assignee: On Chi Biomedical Pte Ltd
Current assignee: On Chi Biomedical Pte Ltd
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2022-10-21

Abstract

本发明核酸探针或引子在制备用于评估乳癌复发与转移风险方法的试剂盒的应用，评估方法包含：取得该乳癌患者的样本、测量该样本中至少一第一基因的表现量。第一基因系选自于第一基因群组，第一基因群组系由CLCA2、SF3B5、PHACTR2、ESR1、ERBB2、MKI67、PGR、CKAP5和YWHAB所组成。根据第一基因的该表现量，演算得出一分数，该分数显示该乳癌患者局部复发或远端转移的可能性。

Description

核酸探针或引子在制备用于评估乳癌复发与转移风险方法的试剂盒的应用

技术领域

本发明系关于一种核酸探针或引子在制备利用基因表现量预测乳癌风险的试剂盒中的应用，利用该试剂盒测量乳癌相关的基因的表现程度，能预测有关在进行乳癌手术后的亚洲女性病人局部区域复发以及远端转移风险。

背景技术

乳腺癌为全球最常见的女性癌症，占女性癌症比例的1/3，占所有癌症比例的1/10，其同时也是45～55岁女性最常见死因之一，每年每38名女性中，就有1例乳腺癌死亡案例(6.8％)。乳腺癌是一种多基因疾病，遗传因素的复杂相互作用决定乳腺癌成因。这导致乳腺癌成为高度异质性的疾病，有非常多变的特征、型态、病程、治疗反应和预后。许多研究指称乳腺癌并非单一种癌细胞组成，在同一个人身上也可能会由多种亚型肿瘤组成，导致治疗难以完全根治。

虽然早期发现乳腺癌可有效提高存活率达90％，然而，仍有约略五成的病患在手术之后的5～10年内产生乳腺癌复发。乳癌复发可分为局部复发和远端转移两类，局部复发是癌细胞进入乳房淋巴；远端转移则是癌细胞由血管扩散至内脏，如肺脏、肝脏或脑部。降低乳癌局部区域复发的对策是为患者进行术后放射性治疗，而减少远端转移的对策则是为患者进行全身性的辅助性化学治疗(systemic adjuvant chemotherapy)以及荷尔蒙治疗(hormonal therapy)。

大约60％的早期乳腺癌患者选择接受辅助化疗，其中只有很小的一部分(2-15％)的患者确实受到化疗的助益，但所有患者都处于化疗中毒风险的副作用下。

局部复发和远端转移的检测和处理方式不尽相同，但在现阶段都仅能依据定期追踪来评估，而经常发生过度治疗(overtreatment)或不足治疗(undertreatment)。给予每个病人相同强度的治疗，导致有些人承受了不必要的治疗副作用，或未得到应有的治疗效果。造成社会、家庭负担及医疗资源浪费。对术后患者来说，复发的不确定性更是一种折磨与煎熬。

就目前而言，大多的乳腺癌复发、生存率、肿瘤亚型的研究对象为高加索人(Caucasians)。近年来，利用基因体分析，已在不同地区族群中观察到乳癌的肿瘤型态、癌症亚型明显产生差异。例如，高加索人地区重视的高通透性乳腺癌易感基因(如BRCA1和BRCA2)，由于其在亚洲族群的低突变率，仅能解释了小部分亚洲族群中乳腺癌罹患或复发成因。大多数已被识别的遗传基因，也已被认为只会微小到中度地增加亚洲族群乳腺癌风险。考虑族群之间的基本流行病学和遗传风险因子，种族基因差异可能是导致族群乳癌风险不同的潜在原因。藉由建构出种族差异的影响，可以更深入了解患者预后，从而制订更适当的治疗决策。因此，针对亚洲女性进行乳腺癌研究及建立评估复发机率极具有意义。

发明内容

有鉴于此，本发明公开了一种基因表现量预测乳癌风险的方法。其主要目的是预测亚洲女性术后乳癌复发风险，并证明可有效运用在临床评估。本发明利用亚洲女性的基因组概况分析，预测初诊或乳房切除术后10年内复发的风险程度。本发明提供了20个指标基因及其运算方式，其中数个指标基因未曾被报导过。

乳癌复发与转移风险预估方法用于在乳房切除手术或乳房保留手术后，为乳癌患者预估局部复发或远端转移的可能性。乳癌复发与转移风险预估方法(以下简称预估方法)包含有下列步骤：取得该乳癌患者的样本。测量该样本中至少一第一基因的表现量。第一基因系选自于第一基因群组，第一基因群组系由CLCA2、SF3B5、PHACTR2、ESR1、ERBB2、MKI67、PGR、CKAP5和YWHAB所组成。第一基因群组的任一基因可被其同源基因、其变异基因或其衍生基因取代。根据第一基因的该表现量，演算得出一分数，该分数显示该乳癌患者局部复发或远端转移的可能性。

其中，根据第一基因的表现量演算得出分数的步骤，系应用一预测性分类模型来进行，该预测性分类模型包括至少一得分算式。并且，计算分数的得分算式，是将第一基因的表现量换算成一标准化表现量，再将标准化表现量乘上对应的一加权参数而获得该分数。

进一步地，预估方法包含有一步骤：再测量样本中至少一第二基因的表现量。第二基因系选自于一第二基因群组，第二基因群组系由BLM、BUB1B、CCR1、DDX39、DTX2、OBSL1、P1M1、PTI1、RCHY1、STIL和TPX2所组成。第二基因群组的任一基因可被其同源基因、其变异基因或其衍生基因取代。此外，根据该第一基因表现量演算得出该分数的步骤进一步系为：根据第一基因的表现量以及第二基因的表现量，演算得出该分数，该分数显示乳癌患者局部复发或远端转移的可能性。

根据第一基因的表现量以及第二基因的表现量演算得出一分数的步骤，尤其系应用一预测性分类模型来进行。该预测性分类模型包括至少一得分算式，该得分算式是将第一基因以及第二基因的表现量分别换算成复数个标准化表现量，标准化表现量再分别乘上对应的加权参数，加总而获得该分数。

该至少一得分算式的一第一得分算式为：分数＝0.08*CLCA2+0.14*SF3B5–0.73*PHACTR2+0.01*ESR1+0.32*ERBB2+1.18*MKI67–0.17*PGR–0.39*CKAP5+0.23*YWHAB–0.12*BLM+0.16*BUB1B–0.01*CCR1–0.38*DDX39–0.19*DTX2+0.35*OBSL1+0.31*P1M1–1.14*PTI1+0.24*RCHY1–0.03*STIL–1.10*TPX2。

预估方法进一步包含下列步骤：接着，在演算得出的分数低于一第一阈值时，将该乳癌患者归类于局部复发以及/或远端转移的一低风险群。此外，在演算得出的分数高于一第二阈值时，将该乳癌患者归类于局部复发以及/或远端转移的一高风险群。

预估方法中测量该样本中第一基因的表现量的步骤进一步系为：测量样本中第一基因转录的一讯息核糖核酸(mRNA)的表现量，或测量将该讯息核糖核酸反转录所得的一互补去氧核醣核酸(cDNA)的表现量。尤其，系利用即时聚合酶链锁反应(qPCR)或称逆转录聚合酶连锁反应(RT-PCR)测量互补去氧核醣核酸的表现量。

其中，该乳癌患者的该样本系指该乳癌患者的一肿瘤组织样本。

其中，该乳癌患者系选自于亚洲女性。

预估方法进一步系用于在该乳癌患者进行乳房切除手术或乳房保留手术后，为乳癌患者预估5年期内局部复发或远端转移的可能性。

预估方法进一步系用于在该乳癌患者进行乳房切除手术或乳房保留手术后，为乳癌患者预估10年期内局部复发或远端转移的可能性。

本发明的另一范畴提供了一种乳癌复发与转移风险预估套组(或称试剂盒)，用于在乳房切除手术或乳房保留手术后，为乳癌患者预估局部复发或远端转移的可能性。此套组包含有一试剂组和一预测性分类模型。试剂组可与一乳癌患者样本中的至少一第一基因结合，用于定量第一基因的表现量。第一基因系选自于一第一基因群组，第一基因群组系由CLCA2、SF3B5、PHACTR2、ESR1、ERBB2、MKI67、PGR、CKAP5和YWHAB所组成。第一基因群组的任一基因可被其同源基因、其变异基因或其衍生基因取代。预测性分类模型进一步包含有至少一得分算式，用以根据表现量演算获得一分数，该分数显示乳癌患者局部复发或远端转移的可能性。

本发明的另一范畴提供了一种用于评估乳癌患者的局部复发或远端转移可能性的预后标志物的核酸探针或引子，预后标志物为一第一基因群组中的一基因，第一基因群组包含有：CLCA2、SF3B5、PHACTR2、ESR1、ERBB2、MKI67、PGR、CKAP5和YWHAB。

本发明的另一范畴提供了一种用于测量基因表现量的核酸探针或引子在制备用于评估乳癌患者局部复发或远端转移可能性的方法的试剂盒的应用，评估乳癌患者局部复发或远端转移可能性的方法包含有：取得一乳癌患者的一样本；测量样本中至少一第一基因的表现量，至少一第一基因系选自于一第一基因群组，第一基因群组系由CLCA2、SF3B5、PHACTR2、ESR1、ERBB2、MKI67、PGR、CKAP5和YWHAB所组成，第一基因群组的任一基因可被其同源基因、其变异基因或其衍生基因取代；以及根据至少一第一基因的该表现量，演算得出一分数，分数显示乳癌患者局部复发或远端转移的可能性。

综上所述，本发明可于乳房切除手术以及/或乳房保留手术后，精准评估复发的风险指数给相关医疗人员，帮助医疗人员决定乳癌患者所需的治疗类型，减少医疗费用、健保给付或保险资源的负担与浪费。本发明尤其适合正在考虑进行术后辅助化学治疗或放射治疗的亚洲女性，避免过度的治疗，并且可以同时预估局部复发与远程转移风险。

附图说明

图1：绘示乳癌复发与转移风险预估方法的一具体实施例的步骤流程图；

图2：绘示乳癌复发与转移风险预估方法的一另具体实施例的步骤流程图；

图3：绘示乳癌复发与转移风险预估方法的又一具体实施例的步骤流程图；

图4：绘示乳癌复发与转移风险预估方法的又一具体实施例的步骤流程图；

图5：是基于有无复发的患者的每个基因的基因表现量谱的箱型图；

图6：绘示实施例1中病人筛选与外在效度(external vlidation)的一流程图；

图7A：绘示实施例1中从发病日期起至5年为止，高复发风险与低复发风险患者的生存曲线图；

图7B：绘示实施例1中从发病日期起至10年为止，高复发风险与低复发风险患者的生存曲线图；

图8：绘示实施例3中病人筛选与外在效度的一流程图

图9A：绘示实施例3中从发病日期起5年期中，高复发风险与低复发风险患者的生存曲线图；

图9B：绘示实施例3中从发病日期起10年期中，高复发风险与低复发风险患者的生存曲线图。

图10A：绘示实施例4中乳癌局部复发的预测性分类模型。

图10B：绘示实施例4中乳癌远端转移的预测性分类模型。

具体实施方式

为了让本发明的优点，精神与特征可以更容易且明确地了解，后续将以具体实施例并参照所附图式进行详述与讨论。需注意的是，这些具体实施例仅为本发明代表性的具体实施例，其中所举例的特定方法、装置、条件、材质等并非用以限定本发明或对应的具体实施例。又，本发明的步骤编号仅为区隔不同步骤，并非代表其步骤顺序，合先叙明。

除非另行定义，否则此处所用的技术与科学用语，意义与本技术领域的一般技艺人士普遍所理解的相同。此外，除非另行定义，否则单数用语也包含复数意义。大体而言，在此说明书中使用的学术用语，和分子生物学、蛋白质、寡核苷酸或多核苷酸化学与杂交技术相关等学术用语，皆为本领域习知与普遍应用的术语。此处所使用的科学术语仅用来做具体描述，而不是要限制本发明的范围或领域。

本说明书中所述的「复发」一词，意义上涵盖了「局部复发」和「远端转移」，除非特别标明是「区域复发」或「局部复发」或「局部区域复发」；而「区域复发」、「局部复发」、「局部区域复发」三者的意义相同。「区域复发」、「局部复发」、「局部区域复发」三者皆是指称患者于乳房切除手术以及/或乳房保留手术治疗后，该疾病在患者乳房的局部以及/或区域复发，这些乳房的局部以及/或区域包括乳房、胸壁、腋窝、锁骨、锁骨上或胸骨旁淋巴结区域。

本说明书中的乳癌患者的样本系指乳癌患者的一肿瘤组织样本，采集的方式并无限制，但本说明书中的样本如下：手术切除后乳癌肿瘤福马林固定石蜡包埋组织块(FFPEtissue)。使用FFPE RNA萃取试剂(Rneasy FFPE Kit)萃取RNA，萃取完毕后进行反转录反应(Reverse transcription)合成cDNA，并于ABI 7500Fast PCR system进行聚合酶连锁反应并即时侦测SYBR Green I萤光亮度。

本说明书使用的「远端转移」一词，系指称在乳房切除手术以及/或乳房保留手术后，已经从原发性肿瘤扩散到身体的一或多个部位、器官、或远端淋巴结(未被包括在前段所述的「局部区域复发」一词中的淋巴结)的乳癌，或经由切片检查证实或临床诊断为复发的侵袭性乳癌。「侵袭性乳癌」一词，系指称一种从乳小叶膜或乳腺管膜(membrane of thelobule or duct)扩散到乳房组织中的癌症，之后癌细胞可能继续扩散进入到腋下或其他部位的淋巴结。当身体其他部位发现乳癌细胞时，称为「转移性乳癌」。

「多变量统计学」一词系指称一种统计学类型，包含同时观察及分析一个以上的结果变项(outcome variable)。多变量统计学的应用称为「多变量分析」。本说明书使用的「复数基因」一词，系指称两个或两个以上的基因。

本说明书使用的「比例风险模型」一词，系指称统计学中的一种存活模型，其中当存活资料进一步包括共变数(covariates)与风险因子时，这些资料可用来推估这些共变数对存活时间的影响，也可用来预测在一段特定时间内的存活机会。Cox比例风险模型由考克斯(David Cox)爵士于1972年提出，是存活分析中最常用的一种回归分析模型。此方法常被称为Cox模型或是比例风险模型。

本说明书使用的「HER2」缩写字，系指称人类表皮生长因子受体第二型(humanepidermal growth factor receptor type 2)。本说明书使用的「LVI」缩写字，系指称淋巴血管侵犯。

本说明书中提到的亚洲女性，意指亚洲区域中原生的亚裔女性，或具有亚洲血统的女性，但不限于其居住地。亚洲女性尤其包括了东北亚、东亚、东南亚等区域。

请参阅图1。图1系绘示乳癌复发与转移风险预估方法的一具体实施例的步骤流程图。本发明提供的乳癌复发与转移风险预估方法用于在乳房切除手术或乳房保留手术后，为乳癌患者预估局部复发或远端转移的可能性。如图1所示，预估方法包含有下列步骤：步骤S1，取得该乳癌患者的样本；步骤S2，测量该样本中至少一第一基因的表现量。第一基因系选自于第一基因群组，第一基因群组系由CLCA2、SF3B5、PHACTR2、ESR1、ERBB2、MKI67、PGR、CKAP5和YWHAB所组成。第一基因群组的任一基因可被其同源基因、其变异基因或其衍生基因取代；以及，步骤S3，根据第一基因的该表现量，演算得出一分数，该分数显示该乳癌患者局部复发或远端转移的可能性。

本具体实施例的乳癌复发与转移风险预估方法的优点是，在乳房切除手术以及/或乳房保留手术后，可应用任何数量的上述所提的9个基因，来为乳癌患者预估局部区域复发以及/或远端转移可能性。即便单一基因亦有预测能力。若为9个基因中任何组合方式的复数个基因，都有更佳的预测能力。更佳实施例中，则是选用全数9个基因，来进行运算及预测，有更高的预测准确度。还有另一个优点则是，可在乳房切除手术或乳房保留手术后，基于运算所得的预估局部区域复发或远端转移可能性，让医疗人员及乳癌患者预估或决定辅助性治疗的类型。

于本具体实施例中，根据第一基因的表现量演算得出分数的步骤S3，系应用一预测性分类模型来进行，该预测性分类模型包括至少一得分算式。并且，计算分数的得分算式，是将第一基因的表现量换算成一标准化表现量，再将标准化表现量乘上对应的一加权参数而获得该分数。

请进一步地参阅图2。图2系绘示乳癌复发与转移风险预估方法的另一具体实施例的步骤流程图。如图2所示，本具体实施例与前一具体实施例不同处，在于本具体实施例的方法再包含有一步骤S4：再测量样本中至少一第二基因的表现量。第二基因系选自于一第二基因群组，第二基因群组系由BLM、BUB1B、CCR1、DDX39、DTX2、OBSL1、P1M1、PTI1、RCHY1、STIL和TPX2所组成。第二基因群组的任一基因可被其同源基因、其变异基因或其衍生基因取代。

此外，本具体实施例的方法进一步包含步骤S31：根据第一基因的表现量以及第二基因的表现量，演算得出该分数，该分数显示乳癌患者局部复发或远端转移的可能性。同样地，上述所提的9个第一基因及11个第二基因中，可各自选用至少一的任意数量的基因来为乳癌患者预估局部区域复发以及/或远端转移可能性。在更佳实施例中，选用第一基因群组全数9个基因和第二基因群组全数11个基因，共20基因来进行运算及预测，有更高的预测准确度，可称为20基因预测性分类模型或称为一20基因分类器(20-gene classifier)。在最佳实施例中，使用20基因分类器加上临床因子，包括诊断年龄、手术年龄、T阶段(肿瘤本身阶段)、N阶段(肿瘤转移到淋巴结的阶段)、术后(预后)状态…等，有最高的预测准确度。

为了将基因表现量规格化，可以再额外选用一到数个管家基因(housekeepinggene)作为内源的参照基因，例如ACTB、RPLP0和TFRC。藉由管家基因，可以将原始基因表现量计算成标准化基因表现量。除了第一基因群组、第二基因群组内的基因和管家基因，测量其余的基因表现量并用于后续演算，大多不能增加预测准确度，甚至会降低准确度。例如额外测量C16ORF7、CCNB1、ENSA、MMP15、NFATC2IP、TCF3、TRPV6基因的表现量进行演算预测并不会增加亚裔女性乳癌复发风险的准确度。

本具体实施例的步骤S31，可应用一预测性分类模型来进行。该预测性分类模型包括至少一得分算式，该得分算式是将第一基因以及第二基因的表现量分别各自换算成标准化表现量，标准化表现量再分别乘上对应的加权参数，加总而获得该分数。预测性分类模型是由已知的样本基因表现量和病患实际复发情况，基于机器学习进行训练而得。

一具体实施例中，获得分数越高，复发风险越高。基于选择不同的模型，(例如远端转移预测模型、局部复发预测模型、综合复发预测模型、五年期预测模型、或10年期预测模型)，可选择不同的得分算式进行运算。

实务中，上述至少一得分算式的一第一得分算式为：分数＝0.08*CLCA2+0.14*SF3B5–0.73*PHACTR2+0.01*ESR1+0.32*ERBB2+1.18*MKI67–0.17*PGR–0.39*CKAP5+0.23*YWHAB–0.12*BLM+0.16*BUB1B–0.01*CCR1–0.38*DDX39–0.19*DTX2+0.35*OBSL1+0.31*P1M1–1.14*PTI1+0.24*RCHY1–0.03*STIL–1.10*TPX2。

基于族群的整体基因变化，持续调校预测模型，因此可将加权参数视为一适当范围。上述得分算式的一第二得分算式为：分数＝(0.02～0.20)*CLCA2+(0.04～0.24)*SF3B5–(0.6～0.9)*PHACTR2+(0.005～0.04)*ESR1+(0.2～0.45)*ERBB2+(1.0～1.5)*MKI67–(0.10～0.30)*PGR–(0.25～0.50)*CKAP5+(0.10～0.40)*YWHAB–(0.05～0.30)*BLM+(0.05～0.30)*BUB1B–(0.005～0.04)*CCR1–(0.25～0.50)*DDX39–(0.10～0.30)*DTX2+(0.25～0.50)*OBSL1+(0.2～0.45)*P1M1–(1.0～1.4)*PTI1+(0.10～0.40)*RCHY1–(0.2～0.45)*STIL–(0.9～1.3)*TPX2。

上述至少一得分算式的一第三得分算式为：分数＝a0*CLCA2+b0*SF3B5+c0*PHACTR2+d0*ESR1+e0*ERBB2+f0*MKI67+g0*PGR+h0*CKAP5+i0*YWHAB+j0*BLM+k0*BUB1B+l0*CCR1+m0*DDX39+n0*DTX2+o0*OBSL1+p0*P1M1+q0*PTI1+r0*RCHY1+s0*STIL+t0*TPX2。其中a0～t0为不同或相同的加权参数。a0～t0为不等于0的正有理数或负有理数。

上述至少一得分算式的一第四得分算式为：分数＝CLCA2+SF3B5–PHACTR2+ESR1+ERBB2+MKI67–PGR–CKAP5+YWHAB–BLM+BUB1B–CCR1–DDX39–DTX2+OBSL1+P1M1–PTI1+RCHY1–STIL–TPX2。

上述至少一得分算式的一第五得分算式为：分数＝a1*CLCA2+b1*SF3B5+c1*PHACTR2+d1*ESR1+e1*ERBB2+f1*MKI67+g1*PGR+h1*CKAP5+i1*YWHAB+j1*BLM+k1*BUB1B+l1*CCR1+m1*DDX39+n1*DTX2+o1*OBSL1+p1*P1M1+q1*PTI1+r1*RCHY1+s1*STIL+t1*TPX2。其中a1～t1为不同或相同的加权参数。a1～t1为正有理数、负有理数或0。

上述至少一得分算式的一第六得分算式为：分数＝a2*CLCA2+b2*SF3B5+c2*PHACTR2+d2*ESR1+e2*ERBB2+f2*MKI67+g2*PGR+h2*CKAP5+i2*YWHAB+j2*BLM+k2*BUB1B+l2*CCR1+m2*DDX39+n2*DTX2+o2*OBSL1+p2*P1M1+q2*PTI1+r2*RCHY1+s2*STIL+t2*TPX2。其中a2～t2为不同或相同的加权参数。a2～t2为正有理数、负有理数或0。

在不同的情况下，选择其中一组得分算式，可以获得对应的得分，进而区别乳癌复发的高风险或是低风险。

本预估方法中预测性分类模型接受了逻辑回归模型的训练。预测性分类模型对有无复发的患者可进行了正确的风险分层(P<0.05)。

请进一步地参阅图3。图3系绘示乳癌复发与转移风险预估方法的又一具体实施例的步骤流程图。如图3所示，本具体实施例与前述具体实施例不同处在于本具体实施例的方法进一步包含步骤S5和步骤S6。步骤S5是在演算得出的分数低于一第一阈值时，将该乳癌患者归类于局部复发或远端转移的一低风险群。步骤S6是在演算得出的分数高于一第二阈值时，将该乳癌患者归类于局部复发或远端转移的一高风险群。第一阈值和第二阈值可以是相同值。第二阈值大于等于第一阈值。藉此，本具体实施例的方法可将一乳癌患者归类于局部复发或远端转移的低高风险群或高风险群。

于一具体实施例中，当一患者样本使用前述预估方法进行预测，样本原始表现量为ct值(数字越大量越小)，利用管家基因标准化后会变成数字越大量越大的标准化表现量，套用上述第一得分算式后，获得的分数会落在0～1之间。因此，可以设定第一阈值为0.4，第二阈值为0.6。若演算分数低于0.4时，患者被视为局部复发或远端转移的一低风险群；若演算分数高于0.6时，患者被视为局部复发或远端转移的一高风险群；若演算分数介于0.4～0.6之间时，患者被视为局部复发或远端转移的一中风险群。

于另一具体实施例中，当一患者样本使用前述预估方法进行预测并套用上述第一得分算式，可以设定第一阈值和第二阈值皆为0.5。若演算分数低于0.5时，患者被视为局部复发或远端转移的一低风险群；若演算分数高于0.5时，患者被视为局部复发或远端转移的一高风险群。

在其余具体实施例中，基于样本原始表现量和标准化表现量的计算方式不同，也可能使标准化表现量以数字越大量越小的方式呈现。此时，设定阈值后可以是高于第一阈值为局部复发或远端转移的一低风险群，低于第二阈值为局部复发或远端转移的一高风险群，亦即分数越高风险越低。

请进一步地参阅图4。图4系绘示乳癌复发与转移风险预估方法的又一具体实施例的步骤流程图。该方法中测量该样本中第一基因的表现量的步骤S2进一步系为步骤S21：测量样本中第一基因转录的一讯息核糖核酸(mRNA)的表现量，或测量将该讯息核糖核酸反转录所得的一互补去氧核醣核酸(cDNA)的表现量。于步骤S21中，系利用即时聚合酶链锁反应测量讯息核糖核酸或互补去氧核醣核酸的表现量。

本发明还提供了一种乳癌复发与转移风险预估套组，用于在乳房切除手术或乳房保留手术后，为乳癌患者预估局部复发或远端转移的可能性。此套组包含有一试剂组和一预测性分类模型。试剂组可与一乳癌患者样本中的至少一第一基因结合，用于定量第一基因的表现量。第一基因系选自于一第一基因群组，第一基因群组系由CLCA2、SF3B5、PHACTR2、ESR1、ERBB2、MKI67、PGR、CKAP5和YWHAB所组成。第一基因群组的任一基因可被其同源基因、其变异基因或其衍生基因取代。预测性分类模型进一步包含有至少一得分算式，用以根据表现量演算获得一分数，该分数显示乳癌患者局部复发或远端转移的可能性。

第一基因群组和第二基因群组是经由Cox比例风险模型的单变量分析后所得。这些基因与局部区域复发或是远端转移率达到显着相关。其中，该些基因个别与下列细胞生理途径相关，请见表1。

表1，各基因的相关细胞生理途径

请参阅图5。图5是基于有无复发的患者的每个基因的基因表现量谱箱型图。基因表现量谱显示了有无复发患者的所有基因均具有高值或中值基因表现量(log2expression>7)。尤其ACTB,PTI1,and RPLPO在所有患者身上都有高表现量。另一方面，ERBB2和ESR1基因的表现量则是均匀分布。纵轴是每个基因的表现量，横轴列出了23个基因，包含了第一基因群组的第一基因第二基因群组的第二基因和。横轴上每个基因又分两个族群，左为无复发的样本群，右为有复发的样本群。图中每个日字方格的中线为均标线，上线为上四分位数，下线为下四分位数，单点为离群值或极端值。

并且，下表2说明每一个基因的胜算比。胜算比代表某基因每增加一单位基因表现，该基因增加对应的复发风险。例如BLM在单基因模型中每增加一单位基因表现，则复发的风险就成长为原本的133％。于多基因模型中控制其他基因影响下每增加一单位BLM基因表现，则复发风险增加31％，以此类推至23基因上的解释。是以，藉由每一基因，各自可以推算乳癌复发的风险。

表2，各基因的单基因预测和多基因预测的胜算比

以下进一步藉由实施例说明本发明的实现手段、过程、方法与结果。

下述实施例都是基于20个基因(包含本发明所述的9个基因)表现量作为预测因子，再利用逻辑回归来预测乳腺癌的复发。最佳拟合逻辑回归模型的选择是通过模型训练来完成的，并导致获得控制模型的预测参数的最佳值。本研究使用基器学习中的监督学习方法(supervised learning method)对模型进行训练。例如使用总样本的50％作为训练样本运行模型的预测y(复发或无复发)，然后将预测(y)值(预测高风险或预测低风险)与各自观察到的状态(高风险或低风险)进行比较使用x的输入向量(20个基因的基因表现量)作为预测变量，从而确定每个患者的高或低风险。根据比较结果和使用的特定学习算法，调整模型的参数。

本发明还提供了用于评估乳癌患者的局部复发或远端转移可能性的预后标志物的核酸探针或引子。预后标志物为一第一基因群组中的一基因，第一基因群组包含有：CLCA2、SF3B5、PHACTR2、ESR1、ERBB2、MKI67、PGR、CKAP5和YWHAB。

本发明还提供了一种用于测量基因表现量的核酸探针或引子在制备用于评估乳癌患者局部复发或远端转移可能性的方法的试剂盒的应用。评估乳癌患者局部复发或远端转移可能性的方法包含有：取得一乳癌患者的一样本；测量样本中至少一第一基因的表现量，至少一第一基因系选自于一第一基因群组，第一基因群组系由CLCA2、SF3B5、PHACTR2、ESR1、ERBB2、MKI67、PGR、CKAP5和YWHAB所组成，第一基因群组的任一基因可被其同源基因、其变异基因或其衍生基因取代；以及根据至少一第一基因的该表现量，演算得出一分数，分数显示乳癌患者局部复发或远端转移的可能性。

本发明还提供了一种乳癌复发与转移风险预估套组(或称试剂盒)，用于在乳房切除手术或乳房保留手术后，为乳癌患者预估局部复发或远端转移的可能性，其包含有可与乳癌患者样本中的至少一第一基因结合的试剂组和预测性分类模型。试剂组用于定量至少一第一基因的表现量，至少一第一基因系选自于第一基因群组，第一基因群组系由CLCA2、SF3B5、PHACTR2、ESR1、ERBB2、MKI67、PGR、CKAP5和YWHAB所组成，第一基因群组的任一基因可被其同源基因、其变异基因或其衍生基因取代。预测性分类模型，进一步包含有至少一得分算式，用以根据表现量演算获得分数，分数显示乳癌患者局部复发或远端转移的可能性。

下述实施例中测量基因表现量的方法，是利用上述试剂盒、核酸探针或核酸引子对样本中的基因进行定量。

下述实施例中病人检体经前述实验流程测得各基因表现量后，若有基因表现量较低，导致RT-PCR平台无法测得该基因表现，则以该平台最低侦测极限值40带入该基因表现量；使用ACTB,RPLP0及TFRC作为管家基因(Housekeeping genes)标准化目标基因，标准化方法为：

标准化表现量＝25-各目标基因表现量+平均管家基因表现量

将标准化表现量代入演算得到一分数，依据前述测试集样本分数由小至大排列，将其分数转换(rescale)为0至100的分数尺度，以便结果解读与后续风险估算。

实施例1

请参阅图6。图6系绘示一具体实施例中病人筛选与外在效度(externalvlidation)的一流程图。于本具体实施例中，总共有422名患者的数据来自基因表现量综合(GEO)数据集。第一个数据集GSE2068519包含从1991年至2004年在和信医院癌症中心(KFSYSCC)进行治疗的亚裔患者中随机抽选312位被诊断患有乳腺癌的患者的基因表现量谱，以及另外15份小叶乳腺癌样本数据。第二个数据集GSE4525520由1,954个乳腺肿瘤数据组成，并具有相应的临床病理数据，从中随机选取95个亚裔样本。(1)乳腺浸润性癌，(2)临床阶段T1-T4，(3)淋巴结状态L0–L3，(4)首次乳房切除术/乳房保留术治疗。

后续追踪数据：在总共422位患者中，有197位进入了后续追踪。检查了197例患者的数据，以确定在5年和10年追踪期内的复发和生存分析模式。

训练完模型后，将对模型进行测试，以确定预测模型在实务上的执行精度。总样本中剩余的50％(另外211例)样本用作测试数据集，以对适合于训练数据集的最终模型进行无偏评估(unbiased evaluation)。

临床表现会透过敏感性(sensitivity)、特异性(specificity)、阳性预测值(positive predictive value,PPV)和阴性预测值(negative Predictive value,NPV)等指标来判断此模型的临床准确度。敏感性是指复发或转移患者被正确预测为高风险的比例：真阳性/(真阳性+假阴性)。特异性是指没有复发或转移的患者被正确预测为低风险的比例：真阴性/(真阴性+假阳性)。阳性预测值是具有预测的高风险受试者确实复发或转移的比例；阴性预测值是具有低风险的预测受试者确实无复发或转移的比例。

模型验证和测试：一旦在上一步中评估了模型参数，便将最佳拟合模型用于研究中的所有样本，并进行交叉验证(LOOCV)程序以检查准确性。LOOCV提供了对泛化性能几乎无偏差的估计，包括对n-1个子样本进行模型训练，并对其余1个样本进行模型选择标准评估。然后对n-1个子样本的所有n个组合重复此过程，然后计算准确性以判断模型性能。

存活率分析：使用Cox比例风险回归模型评估年龄、T阶段、N阶级在诊断时的预后意义。估计总生存期，并使用对数等级确定指示组之间生存期的任何统计学显着差异。使用卡方检验和T检验在各组之间进行比较分析。统计显着性为p<0.05。对5年追踪和10年追踪数据，单变量和多变量Cox比例风险分析包含诊断年龄、T阶段、N阶段和基因表现量，获得有95％信赖区间和P值的HRs风险比(hazard ratios)。

最后，分别使用Cox比例风险测试对T1-T2期和N期N0-N1期肿瘤进行了亚组分析，以评估模型在预测患者从手术或诊断后10年内的存活率方面是否具有显着效果。

本实施例中乳癌治疗手术后的患者依据生物特征分群，例如诊断年龄、T阶段(肿瘤本身阶段)、N阶段(肿瘤转移到淋巴结的阶段)、复发情形，汇整于下表3。

表3，被诊断患有乳腺癌的总体样本的统计资料

为了进一步确定患者的复发率和存活率，对422例中的197例患者进行了进一步的5年和10年追踪研究。表4显示了追踪患者样本的人口统计学细节，包括诊断，肿瘤分期，N期和复发状态的年龄。

表4，5年和10年追踪数据的预测模型分类的人口统计表

本实施例中，19例被预测为高复发风险，平均年龄为49岁，其中5例(29.4％)在5年内复发，7例(36.8％)在10年内复发；178例被预测为低复发风险，平均年龄约50岁，其中24例(14％)在5年内复发，31例(17.4％)在10年内复发。以淋巴结状态(N stage：N0–N3)和肿瘤阶段(T stage：T1–T4)分类的患者风险预测性能p值分别为0.979和0.567。

请参阅图7A和图7B。图7A和图7B分别显示从发病日期起至5年和10年为止，高复发风险患者与低复发风险患者的生存曲线。生存分析预测高风险患者的生存率为73％(5年)和52％(10年)。高风险患者的生存率分别为89％(5年)和80％(最高10年)。5年生存率中，两组存活时间的差异p值为0.056；10年生存率中，两组存活时间的差异p值为0.019，有更显着的差异。这表明高风险评分患者之后的实际生存率比低风险评分患者低，并且高风险组和低风险组之间的实际生存率存在显着差异。

本发明的预测能力是通过准确性，敏感性，特异性，PPV和NPV度量标准建立的，用于拟合高风险和低风险患者的逻辑回归模型。表3a和3b总结了从训练和测试数据中预测和观察到的患者复发风险(高/低)的混淆矩阵(confusion matrix)。该模型的训练精度为78.7％(表5a)，而测试精度为73.9％(表5b)。

表5，按预测模型分类的统计表

该模型对高风险患者进行正确分类的比例为23.1％(训练敏感性)和15.7％(测试敏感性)，对低风险患者进行正确分类(特异性)的比例为96.9％(训练)和92.5％(测试)。此外，预估方法中的PPV和NPV对于训练数据分别达到了70.6％和79.4％，而对于测试数据，可以达到77.5％的NPV。

实施例2

于本具体实施例中，委托医院进行的评估实验，其患者皆为亚裔女性，但族群的部分生物特征与实施例一不同。经本发明方法预测后，再和实际复发情形作比较。比较后其局部复发与远端复发的性能特征为如表6。

表6，按预测模型分类的统计表

其阴性预测值都达到9成5以上，也就是将没有复发的人判断为低风险族群的准确度，如此可以较准确的避免低复发风险的乳癌患者进行过度治疗。

实施例3

于本实施例中的样本数据来自中国台湾的八个医疗单位。其中剔除T4或N3阶段的病患、术前化学疗法或放射疗法的病患、初次就诊即远端转移的病患、FFPE肿瘤样本不足的病患。

请参阅图8。图8系绘示本具体实施例中病人筛选与外在效度的一流程图。使用q-PCR来筛选473例管腔型(luminal type)患者(ER阳性或PR阳性，HER2阴性)，最后再次剔除基因数据不足病患。分析流程分为基因模型和基因加临床模型。最终有346名患者用于基因预测模型的建构，其中173例用于训练，另外173例用于测试；有323名患者用于基因加临床预测模型的建构，其中162例用于训练，另外161例用于测试。此外，为了确定患者的复发率和存活率，对基因模型的173例患者和基因加临床模型的158例患者进行了5年和10年的追踪研究。

本实施例是手术或乳房切除术切除的肿瘤样品中测量基因表现量。以q-PCR测量基因表现量，用以测量表现量的基因为本发明所提到的第一群组基因、第二群组基因和3个管家基因。

本实施例对基因模型和基因加临床模型进行了模型构建，培训和测试三步骤。

模型构建步骤中，遗传模型的预测因子是20基因表现量；基因加临床模型的预测因子是20基因表现量、诊断年龄、肿瘤分级、肿瘤分期和LVI状态。最佳拟合模型是通过使用R中的glm.fit函数来实现的，并使用了LOOCV来内部验证模型。LOOCV使用随机选择的n-1个样本来训练模型，而剩余1个样本用于测试。重复此过程n次以计算精度。

在确认预估方法对乳腺癌复发的有效性后，将全部样本的50％用于训练最佳拟合逻辑回归模型。这让预测参数的最佳值可透过监督学习方法而获得。然后将预测的y(复发或无复发)与每个患者各自的观察状态(观察到的高或观察到的低风险)进行比较。根据比较结果和使用的特定学习算法，调整模型的参数。

模型训练完成后，将使用总数据的其余50％测试拟合模型的性能。进行模型训练和测试，并藉由以下方面评估模型性能和临床性能：准确性(正确分类的样本的百分比)，敏感性、特异性、阳性预测值(PPV)、和阴性预测值(NPV)。

下表7总结了本发明中基因模型的评估指标。基因模型的准确性为0.792(正确预测的比例)。表7a中基因模型以32.3％的敏感度正确识别了容易患高风险的患者。另一方面，根据遗传模型被预测为高风险的人实际上复发的比例阳性预测值为40％。基因模型以89.4％的特异性正确识别了低风险的患者；而检测低风险的人是否真的是低风险，即在识别真阴性的同时避免假阴性，阴性预测值为85.8％。而表7b中基因加临床模型准确度达到81.9％，特异性达到94.7％，阴性预测值为85.1％。因此本发明的选择基因可正确识别高低风险患者的遗传模型，增加临床因子后也可提升准确度。

表7，按预测模型分类的统计表

下表8总结了该基因模型的5年和10年追踪数据的人口统计学细节。总共173个案例用作5年和10年复发研究的追踪样本。预测25位患者为高复发风险者，平均年龄为54.52岁，其中10位(40％)在5年和10年内复发。预计148例为低复发风险者，平均年龄为53.31岁，其中5年复发13例(8.8％)，10年复发21例(14.2％)。高复发风险者的复发比例显着地高于低复发风险者，然而，高复发风险者和低复发风险者之间的诊断年龄、肿瘤分级、肿瘤分期和LVI状态的差异均没有显着地影响复发风险。也就是说，从诊断年龄、肿瘤分级、肿瘤分期和LVI状态无法找出高复发风险者和低复发风险者之间的差异，但是利用本发明中提出的基因预测方法，可以有效、显着地分辨出高复发风险者和低复发风险者。

表8，基因模型的5年和10年追踪数据的人口统计学。

请参阅图9A和图9B。图9A和图9B显示在乳房切除术后5年和10年的追踪期内，高复发风险与低复发风险患者的生存曲线。在手术后5年的追踪期间内(图9A)，生存曲线表明，高风险评分患者的生存率比低风险评分患者低，P值为0.00045。在手术后10年的追踪期间内(图9B)，生存曲线表明，高风险评分患者的生存率比低风险评分患者低，P值为0.033。因此，通过本发明可以成功预测患者的高复发风险与低复发风险。

为了更深入地探究每种因素(20基因表现量，诊断年龄，肿瘤分期，肿瘤等级和LVI状态)如何影响生存率，对这两个模型的5年/10年追踪均进行了单因素和多因素Cox比例风险分析。下表9总结了基因模型的5年随访患者的Cox比例风险分析结果。

表9，5年/10年追踪之Cox比例回归

由下表可知复发风险的差异并非归因于诊断时的年龄，肿瘤分期，肿瘤等级或LVI状态，但是，本发明中提出的20个基因的遗传评分对复发分层有重要影响。

本实施例中，本发明中提出的检测方法对5年内复发分层有显着影响，基因遗传模型(genetic model)中单变量p值＝0.001、多变量p值＝0.001；基因遗传加临床模型(genetic&clinical model)中单变量p值＝0.027、多变量p值＝0.006。同样，在为期10年的追踪研究中，也发现基因分类器对风险有显着影响，基因遗传模型(genetic model)中单变量p值＝0.027、多变量p值＝0.006；基因遗传加临床模型(genetic&clinical model)中单变量p值＝0.005、多变量p值<0.001。在所有情况下，本发明中提出的方法的风险比(HRs)均大于3。因此，证明基因遗传模型对高复发风险者和低复发风险者的生存率有极准确的预测结果。

实施例4

请参阅图10A和图10B。图10A系绘示实施例4中乳癌区域复发的预测性分类模型。图10B系绘示实施例4中乳癌远端转移的预测性分类模型。使用本发明预估方法可制作一预测性分类模型，横轴为演算所得分数、纵轴为5年复发风险。实线为预测值，短虚线为95％信赖区间下界，长虚线为95％信赖区间上界。当亚洲女性病患样本进行测量而获得基因表现量后，可套用第五得分算式运算得分，再比对图10A的预测性分类模型来预估区域复发风险；也可套用第六得分算式运算得分，再比对图10B的预测性分类模型来预估远端转移风险。

在图10A的区域复发预测性分类模型中，设定第一阈值和第二阈值皆为0.32，当运算得分小于0.32时，将该病患评估为低区域复发风险族群；得分高于0.32时，将该病患评估为高区域复发风险族群。在五年期间内，低风险病患发生区域复发的机率小于8％，低风险病患发生区域复发的机率达到40％。得分越高，区域复发机率越高。

在图10B的远端转移预测性分类模型中，设定第一阈值和第二阈值皆为0.29，当运算得分小于0.29时，将该病患评估为低远端转移风险族群；得分高于0.32时，将该病患评估为高远端转移风险族群。在五年期间内，低风险病患发生远端转移的机率小于8％，低风险病患发生远端转移的机率达到40％。得分越高，远端转移机率越高。

根据多个基因组表现量和对应的得分算式，单一患者可能同时是高区域复发风险族群和为高远端转移风险族群，亦有可能仅为高区域复发风险族群，或仅为高远端转移风险族群。

综上所述，使用本发明的样本基因预测复发转移风险，不需要临床数据即可达到高精准度的预测。本发明可于乳房切除手术以及/或乳房保留手术后，精准评估复发的风险指数给相关医疗人员，帮助医疗人员决定乳癌患者所需的治疗类型，减少医疗费用、健保给付或保险资源的负担与浪费。由于本发明是利用大量亚洲乳癌患者的样本进行建构与证实，本发明尤其适合正在考虑进行术后辅助化学治疗或放射治疗的亚洲女性，避免过度的治疗，并且可以同时或分别预估区域复发与远程转移风险。相较习知技术，本发明公开了先前未被确认或揭露的数个基因，达到更高的精准度。

藉由以上较佳具体实施例的详述，系希望能更加清楚描述本发明的特征与精神，而并非以上述所揭露的较佳具体实施例来对本发明的范畴加以限制。相反地，其目的是希望能涵盖各种改变及具相等性的安排于本发明所欲申请的专利范围的范畴内。因此，本发明所申请的专利范围的范畴应该根据上述的说明作最宽广的解释，以致使其涵盖所有可能的改变以及具相等性的安排。

Claims

1.一种用于测量基因表现量的核酸探针或引子在制备用于评估乳癌患者局部复发或远端转移可能性的方法的试剂盒的应用，所述核酸探针或引子为作为预后标志物的第一基因群组中的一基因，该评估乳癌患者局部复发或远端转移可能性的方法包含有：

取得一乳癌患者的一样本；

测量该样本中至少一第一基因的表现量，该至少一第一基因系选自于一第一基因群组，该第一基因群组系由CLCA2、SF3B5、PHACTR2、ESR1、ERBB2、MKI67、PGR、CKAP5和YWHAB所组成，该第一基因群组的任一基因可被其同源基因、其变异基因或其衍生基因取代；以及

根据该至少一第一基因的该表现量，演算得出一分数，该分数显示该乳癌患者局部复发或远端转移的可能性。

2.如权利要求1所述的应用，其中根据该至少一第一基因的表现量演算得出一分数的步骤，系应用一预测性分类模型来进行，该预测性分类模型包括至少一得分算式。

3.如权利要求2所述的应用，其中计算该分数的该得分算式，是将该至少一第一基因的表现量换算成至少一标准化表现量，再将该至少一标准化表现量乘上对应的一加权参数而获得该分数。

4.如权利要求1所述的应用，进一步包含有一步骤：

再测量该样本中至少一第二基因的表现量，该至少一第二基因系选自于一第二基因群组，该第二基因群组系由BLM、BUB1B、CCR1、DDX39、DTX2、OBSL1、P1M1、PTI1、RCHY1、STIL和TPX2所组成，该第二基因群组的任一基因可被其同源基因、其变异基因或其衍生基因取代；以及

于根据该第一基因表现量演算得出该分数的步骤中，进一步系为：

根据该至少一第一基因的表现量以及该至少一第二基因的表现量，演算得出该分数，该分数显示该乳癌患者局部复发或远端转移的可能性。

5.如权利要求4所述的应用，其中根据该至少一第一基因的表现量以及该至少一第二基因的表现量演算得出一分数的步骤，系应用一预测性分类模型来进行，该预测性分类模型包括至少一得分算式，该得分算式是将该至少一第一基因以及该至少一第二基因的表现量分别换算成复数个标准化表现量，该等标准化表现量再分别乘上对应的加权参数，加总而获得该分数。

6.如权利要求5所述的应用，其中该至少一得分算式的一第一得分算式为：

分数＝0.08*CLCA2+0.14*SF3B5–0.73*PHACTR2+0.01*ESR1+0.32*ERBB2+1.18*MKI67–0.17*PGR–0.39*CKAP5+0.23*YWHAB–0.12*BLM+0.16*BUB1B–0.01*CCR1–0.38*DDX39–0.19*DTX2+0.35*OBSL1+0.31*P1M1–1.14*PTI1+0.24*RCHY1–0.03*STIL–1.10*TPX2。

7.如权利要求5所述的应用，其中该至少一得分算式的一第二得分算式为：

分数＝(0.02～0.20)*CLCA2+(0.04～0.24)*SF3B5–(0.6～0.9)*PHACTR2+(0.005～0.04)*ESR1+(0.2～0.45)*ERBB2+(1.0～1.5)*MKI67–(0.10～0.30)*PGR–(0.25～0.50)*CKAP5+(0.10～0.40)*YWHAB–(0.05～0.30)*BLM+(0.05～0.30)*BUB1B–(0.005～0.04)*CCR1–(0.25～0.50)*DDX39–(0.10～0.30)*DTX2+(0.25～0.50)*OBSL1+(0.2～0.45)*P1M1–(1.0～1.4)*PTI1+(0.10～0.40)*RCHY1–(0.2～0.45)*STIL–(0.9～1.3)*TPX2。

8.如权利要求1所述的应用，进一步包含下列步骤：

在演算得出的分数低于一第一阈值时，将该乳癌患者归类于局部复发以及/或远端转移的一低风险群。

9.如权利要求8所述的应用，进一步包含下列步骤：

在演算得出的分数高于一第二阈值时，将该乳癌患者归类于局部复发以及/或远端转移的一高风险群。

10.如权利要求1所述的应用，进一步包含下列步骤：

11.如权利要求1所述的应用，其中测量该样本中该至少一第一基因的该表现量的步骤，进一步系为：

测量该样本中该至少一第一基因转录的一讯息核糖核酸(mRNA)的表现量，或测量将该讯息核糖核酸反转录所得的一互补去氧核醣核酸(cDNA)的表现量。

12.如权利要求11所述的应用，其中测量该互补去氧核醣核酸的表现量的步骤进一步系为：

利用一即时聚合酶链锁反应测量该互补去氧核醣核酸的表现量。

13.如权利要求1所述的应用，其中该乳癌患者系选自于亚洲女性。

14.如权利要求1所述的应用，进一步系用于在该乳癌患者进行乳房切除手术或乳房保留手术后，为乳癌患者预估5年期内局部复发或远端转移的可能性及10年期内局部复发或远端转移的可能性。

15.一种乳癌复发与转移风险预估套组，用于在乳房切除手术或乳房保留手术后，为乳癌患者预估局部复发或远端转移的可能性，其包含有：

可与一乳癌患者样本中的至少一第一基因结合的一试剂组，用于定量该至少一第一基因的一表现量，该至少一第一基因系选自于一第一基因群组，该第一基因群组系由CLCA2、SF3B5、PHACTR2、ESR1、ERBB2、MKI67、PGR、CKAP5和YWHAB所组成，该第一基因群组的任一基因可被其同源基因、其变异基因或其衍生基因取代；以及

一预测性分类模型，进一步包含有至少一得分算式，用以根据该表现量演算获得一分数，该分数显示该乳癌患者局部复发或远端转移的可能性。

16.一种用于评估乳癌患者的局部复发或远端转移可能性的预后标志物的核酸探针或引子，该预后标志物为一第一基因群组中的一基因，该第一基因群组包含有：CLCA2、SF3B5、PHACTR2、ESR1、ERBB2、MKI67、PGR、CKAP5和YWHAB。

17.一种乳癌复发与转移风险预估方法，用于在乳房切除手术或乳房保留手术后，为乳癌患者预估局部复发或远端转移的可能性，其包含下列步骤：

取得一乳癌患者的一样本；