CN118661103A

CN118661103A - 雌激素受体(er)阳性样和雌激素受体(er)阴性样乳腺癌的蛋白质标志物

Info

Publication number: CN118661103A
Application number: CN202280040438.5A
Authority: CN
Inventors: G·王; J·A·胡克; J·L·坎贝尔; M·L·库特勒; C·D·舍维尔; M·A·凯比施; A·J·科瓦蒂希; P·沙; N·R·纳莱恩; R·萨兰加拉詹; 胡海
Original assignee: Wende Research Institute; Bu Pu Ge Biopharmaceutical Co; Henry M Jackson Foundation for Advancedment of Military Medicine Inc
Current assignee: Wende Research Institute; Bu Pu Ge Biopharmaceutical Co; Henry M Jackson Foundation for Advancedment of Military Medicine Inc
Priority date: 2021-04-06
Filing date: 2022-04-06
Publication date: 2024-09-17
Also published as: IL307531A; US20230059578A1; WO2022216846A1; EP4320441A1; CA3214821A1

Abstract

本发明涉及ER阳性样乳腺癌和ER阴性样乳腺癌的蛋白质标志物。提供了用于区别患有乳腺癌的受试者中的ER阳性样乳腺癌和ER阴性样乳腺癌的方法，此类方法包括检测ER阳性样乳腺癌和ER阴性样乳腺癌的多种生物标志物的水平。还提供了呈试剂盒和试剂测试板形式的组合物，其用于检测本发明的生物标志物。

Description

雌激素受体(ER)阳性样和雌激素受体(ER)阴性样乳腺癌的蛋白质标志物

政府支持

本发明是在由健康科学统一服务大学(Uniformed Services University of theHealth Sciences)颁发的HU0001-20-2-0053下借助政府支持进行的。政府对本发明具有一定权利。

相关申请

本申请要求于2021年4月6日提交的美国临时申请第63/171,547号的优先权权益，该临时申请的全部内容通过引用方式并入本文。

背景技术

A.技术领域

本发明大体上涉及新型生物标志物及其组合，该新型生物标志物及其组合可以用于确定乳腺癌(例如，雌激素受体(ER)阳性样乳腺癌和/或ER阴性样乳腺癌)的分子亚型，或用于诊断、预后、监测和治疗受试者中的ER阳性样和ER阴性样乳腺癌。本发明大体上还涉及用于诊断、预后、监测和治疗ER阳性样和ER阴性样乳腺癌的方法，该方法涉及本发明的生物标志物的检测。

B.发明背景

乳腺癌是全球女性中最常诊断出的癌症并且是癌症死亡的最常见原因。在许多国家，乳腺癌的发病率一直在上升，因为妇女生殖健康和实践的许多变化(包括较低的生育年龄、较晚的首次怀孕年龄、较少的妊娠和较短的母乳喂养时长)都与较高的乳腺癌风险相关。其他风险因素诸如遗传、肥胖、饮酒、不活动和激素替代疗法也导致乳腺癌发病率增加(Howell等人(2014)Breast Cancer Res.16(5)：446)。在美国，2017年约有360万女性患有乳腺癌，并且所有女性中大约12.9％的女性会在一生中的某个时刻被诊断出乳腺癌(美国国家癌症研究所，Cancer Stat Facts：Female Breast Cancer，2020年7月)。

乳腺癌可能始于乳导管(导管癌)或乳腺(小管癌)中的肿瘤生长。浸润性乳腺癌可以扩散到周围的正常组织并转移到远端部位。如果乳腺癌在早期被诊断出来，乳腺癌患者的生存率会高得多。约70-80％的早期非转移性疾病患者是可以治愈的，而具有远端器官转移的晚期乳腺癌则被认为用目前可用的疗法无法治愈。

乳腺癌基于雌激素受体或孕激素受体(分别为ER和PR)和人表皮生长因子2(ERBB2，以前称为HER2)的分子标志物的存在或不存在被分为3个主要亚型。每种分子亚型被证实具有不同的临床结局。例如，占乳腺恶性肿瘤中大多数的雌激素受体(ER)阳性乳腺癌与ER阴性乳腺癌相比具有更好的无病生存期和总生存期预后(Pagani等人(2009)BreastCancer Res Treat.117(2)：319-324)。

除了外科手术切除和放射选择之外，乳腺癌的亚型还决定患者接受哪种全身疗法(内分泌疗法、化疗、抗体疗法、小分子疗法或组合)(Waks和Winer(2019)JAMA.321(3)：288-300)。一般地，激素疗法药物可用于降低雌激素水平或阻止雌激素作用于乳腺癌细胞。这种治疗对ER阳性乳腺癌有帮助，但对ER阴性肿瘤无效。然而，某些根据免疫组织化学染色被认为患有ER阳性乳腺癌的患者对医生开具的疗法处方反应不佳。

因此，本领域需要识别这样的改进的乳腺癌分子签名，其可以用于更好地对乳腺癌亚型进行识别或分层，并最终可以用于实现更好的乳腺癌预后、诊断或治疗选择以及可以用于更好地预测治疗结局。

发明内容

本发明至少部分基于以下发现，即表1和表2中的标志物在ER阳性样和ER阴性样乳腺癌受试者中受到差异地调控。具体地说，本发明基于令人惊讶的发现，即表1中的标志物在ER阳性样乳腺癌患者的组织样本中被上调，并且在ER阴性样乳腺癌患者的组织样本中被下调，而表2中的标志物在ER阴性样乳腺癌患者的组织样本中被上调，并且在ER阳性样乳腺癌患者的组织样本中被下调。

因此，在一方面，本发明提供了用于确定受试者中的乳腺癌的分子亚型的方法。该方法包括(a)检测来自受试者的生物样本中乳腺癌标志物的水平，其中该乳腺癌标志物包括选自表1和表2的一种或多种标志物；以及(b)将生物样本中乳腺癌标志物的水平与预定阈值比较；其中乳腺癌的分子亚型是基于乳腺癌标志物的水平高于或低于预定阈值来确定的。

在一些实施方案中，乳腺癌是雌激素受体(ER)阳性乳腺癌。在一些实施方案中，雌激素受体(ER)阳性乳腺癌包括管腔A型(LA)乳腺癌、管腔B1型(LB1)乳腺癌或LA和LB1型乳腺癌。

在一些实施方案中，雌激素受体(ER)阳性乳腺癌不包括ER低乳腺癌。

在一些实施方案中，乳腺癌是雌激素受体(ER)阴性乳腺癌。在一些实施方案中，雌激素受体(ER)阴性乳腺癌是三阴性乳腺癌。

在一些实施方案中，生物样本包括乳腺组织样本或乳腺肿瘤组织样本。在一些实施方案中，生物样本包括骨髓和/或外泌体中的循环肿瘤细胞或播散性肿瘤细胞。在一些实施方案中，生物样本包括乳腺导管流体外渗物，例如从乳导管收集的流体。

在一些实施方案中，当与受试者中的预定阈值相比时，生物样本中乳腺癌标志物的水平被调节，例如增加或减少。

在一些实施方案中，乳腺癌标志物包括至少两种或更多种标志物，其中该两种或更多种标志物中的每一种选自表1和表2中列出的蛋白质。

在一些实施方案中，乳腺癌标志物包括表1中列出的一种或多种标志物。在一些实施方案中，当与受试者中的预定阈值水平相比时，表1中列出的一种或多种标志物以经调节的水平，例如降低的水平或增加的水平存在。在一些实施方案中，表1中的一种或标志物的水平在与预定阈值相比时降低指示乳腺癌的分子亚型是ER阴性样。在一些实施方案中，表1中的一种或标志物的水平在与预定阈值相比时增加指示乳腺癌的分子亚型是ER阳性样。

在一些实施方案中，乳腺癌标志物包括表2中列出的一种或多种标志物。在一些实施方案中，当与受试者中的预定阈值水平相比时，表2中列出的一种或多种标志物以经调节的水平，例如增加的水平或降低的水平存在。在一些实施方案中，表2中的一种或标志物的水平在与预定阈值相比时增加指示乳腺癌的分子亚型是ER阴性样。在一些实施方案中，表2中的一种或标志物的水平在与预定阈值相比时降低指示乳腺癌的分子亚型是ER阳性样。

在一些实施方案中，乳腺癌标志物包括表1中列出的一种或多种标志物和表2中列出的一种或多种标志物。在一些实施方案中，当与受试者中的预定阈值相比时，表1中列出的一种或多种标志物以降低的水平存在，并且表2中列出的一种或多种标志物以增加的水平存在。在一些实施方案中，表1中的一种或标志物的水平在与预定阈值相比时降低以及表2中一种或多种标志物的水平在与预定阈值相比时增加指示乳腺癌的分子亚型是ER阴性样。

在一些实施方案中，当与受试者中的预定阈值相比时，表1中列出的一种或多种标志物以增加的水平存在，并且表2中列出的一种或多种标志物以降低的水平存在。在一些实施方案中，表1中的一种或标志物的水平在与预定阈值相比时增加以及表2中的一种或多种标志物的水平在与预定阈值相比时降低指示乳腺癌的分子亚型是ER阳性样。

在一些实施方案中，乳腺癌的ER阴性样分子亚型预测较差的生存期和/或短的无进展间隔。在一些实施方案中，乳腺癌的ER阳性样分子亚型预测良好的生存期和/或长的无进展间隔。

在一些实施方案中，乳腺癌标志物的水平是通过HPLC/UV-Vis光谱法、酶分析、质谱法、NMR、免疫测定法、ELISA、色谱法或它们的任何组合中的一种或多种，或者通过确定乳腺癌标志物在生物样本中的对应mRNA的水平来检测。

在一些实施方案中，该方法进一步包括基于受试者的乳腺癌类型选择治疗方案。在一些实施方案中，治疗方案选自放射、激素疗法、化疗或它们的任何组合。

在另一方面，本发明提供了用于诊断受试者中的ER阳性乳腺癌的ER阴性样分子亚型的方法。该方法包括(a)检测来自受试者的生物样本中乳腺癌标志物的水平，其中该乳腺癌标志物包括选自表1和表2的一种或多种标志物；以及(b)将生物样本中乳腺癌标志物的水平与预定阈值比较；其中该乳腺癌标志物的水平高于或低于预定阈值指示该受试者患有ER阳性乳腺癌的ER阴性样分子亚型的诊断。

在一些实施方案中，雌激素受体(ER)阳性乳腺癌包括管腔A型(LA)乳腺癌、管腔B1型(LB1)乳腺癌或LA和LB1型乳腺癌。在一些实施方案中，雌激素受体(ER)阳性乳腺癌不包括ER低乳腺癌。

在一些实施方案中，乳腺癌标志物包括表1中列出的一种或多种标志物。在一些实施方案中，当与受试者中的预定阈值相比时，表1中列出的一种或多种标志物以降低的水平存在。在一些实施方案中，表1中的一种或标志物的水平在与预定阈值相比时降低指示受试者患有ER阳性乳腺癌的ER阴性样分子亚型的诊断。

在一些实施方案中，乳腺癌标志物包括表2中列出的一种或多种标志物。在一些实施方案中，当与受试者中的预定阈值相比时，表2中列出的一种或多种标志物以增加的水平存在。在一些实施方案中，表2中的一种或标志物的水平在与预定阈值相比时增加指示受试者患有ER阳性乳腺癌的ER阴性样分子亚型的诊断。

在一些实施方案中，乳腺癌标志物包括表1中列出的一种或多种标志物和表2中列出的一种或多种标志物。在一些实施方案中，当与受试者中的预定阈值相比时，表1中列出的一种或多种标志物以降低的水平存在，并且表2中列出的一种或多种标志物以增加的水平存在。在一些实施方案中，表1中的一种或标志物的水平在与预定阈值相比时降低以及表2中一种或多种标志物的水平在与预定阈值相比时增加指示受试者患有ER阳性乳腺癌的ER阴性样分子亚型的诊断。

在一方面，本发明提供了用于诊断受试者中的ER阴性乳腺癌的雌激素受体(ER)阳性样分子亚型的方法。该方法包括(a)检测来自受试者的生物样本中乳腺癌标志物的水平，其中该乳腺癌标志物包括选自表1和表2的一种或多种标志物；以及(b)将生物样本中乳腺癌标志物的水平与预定阈值比较；其中该乳腺癌标志物的水平高于或低于预定阈值指示该受试者患有ER阴性乳腺癌的ER阳性样分子亚型的诊断。

在一些实施方案中，乳腺癌标志物包括表1中列出的一种或多种标志物。在一些实施方案中，当与受试者中的预定阈值相比时，表1中列出的一种或多种标志物以增加的水平存在。在一些实施方案中，表1中的一种或标志物的水平在与预定阈值相比时增加指示受试者患有ER阴性乳腺癌的ER阳性样分子亚型的诊断。

在一些实施方案中，乳腺癌标志物包括表2中列出的一种或多种标志物。在一些实施方案中，当与受试者中的预定阈值相比时，表2中列出的一种或多种标志物以降低的水平存在。在一些实施方案中，表2中的一种或标志物的水平在与预定阈值相比时降低指示受试者患有ER阴性乳腺癌的ER阳性样分子亚型的诊断。

在一些实施方案中，乳腺癌标志物包括表1中列出的一种或多种标志物和表2中列出的一种或多种标志物。在一些实施方案中，当与受试者中的预定阈值相比时，表1中列出的一种或多种标志物以增加的水平存在，并且表2中列出的一种或多种标志物以降低的水平存在。在一些实施方案中，表1中的一种或标志物的水平在与预定阈值相比时增加以及表2中一种或多种标志物的水平在与预定阈值相比时降低指示受试者患有ER阴性乳腺癌的ER阳性样分子亚型的诊断。

在一方面，本发明提供了用于监测受试者中的雌激素受体(ER)阳性样乳腺癌的方法。该方法包括(a)检测在第一时间从患有ER阳性样乳腺癌的受试者获得的第一生物样本中乳腺癌标志物的水平，其中该乳腺癌标志物包括选自表1和表2的一种或多种标志物；以及(b)检测在第二时间从受试者获得的第二生物样本中乳腺癌标志物的水平，其中该第二时间晚于第一时间；以及(c)将第二样本中乳腺癌标志物的水平与第一样本中乳腺癌标志物的水平比较；其中乳腺癌标志物水平的变化指示受试者中的ER阳性样乳腺癌的进展。

在一些实施方案中，第一和/或第二生物样本包括乳腺组织样本或乳腺肿瘤组织样本。在一些实施方案中，第一和/或第二生物样本包括骨髓和/或外泌体中的循环肿瘤细胞或播散性肿瘤细胞。在一些实施方案中，第一和/或第二生物样本包括乳腺导管流体外渗物，例如从乳导管收集的流体。

在一些实施方案中，乳腺癌标志物包括表1中列出的一种或多种标志物。在一些实施方案中，表1中列出的该一种或多种标志物在与第一样本中该一种或多种标志物的水平相比时以增加的水平存在于第二样本中。在一些实施方案中，第二样本中的表1中该一种或多种标志物的水平在与第一样本中该一种或多种标志物的水平相比时增加指示受试者中的ER阳性样乳腺癌进展。

在一些实施方案中，乳腺癌标志物包括表2中列出的一种或多种标志物。在一些实施方案中，表2中列出的该一种或多种标志物在与第一样本中该一种或多种标志物的水平相比时以降低的水平存在于第二样本中。在一些实施方案中，第二样本中的表2中该一种或标志物的水平在与第一样本中该一种或多种标志物的水平相比时降低指示受试者中的ER阳性样乳腺癌进展。

在一些实施方案中，乳腺癌标志物包括表1中列出的一种或多种标志物和表2中列出的一种或多种标志物。在一些实施方案中，表1中列出的该一种或多种标志物在与第一样本中该一种或多种标志物的水平相比时以增加的水平存在于第二样本中，并且表2中列出的该一种或多种标志物在与第一样本中该一种或多种标志物的水平相比时以降低的水平存在于第二样本中。

在一些实施方案中，第二样本中的表1中该一种或标志物的水平在与第一样本中该一种或多种标志物的水平相比时增加以及第二样本中的表2中该一种或多种标志物的水平在与第一样本中该一种或多种标志物的水平相比时降低指示受试者中的ER阳性样乳腺癌进展。

在另一方面，本发明提供了用于监测受试者中的雌激素受体(ER)阴性样乳腺癌的方法。该方法包括(a)检测在第一时间从患有ER阴性样乳腺癌的受试者获得的第一生物样本中乳腺癌标志物的水平，其中该乳腺癌标志物包括选自表1和表2的一种或多种标志物；以及(b)检测在第二时间从受试者获得的第二生物样本中乳腺癌标志物的水平，其中该第二时间晚于第一时间；以及(c)将第二样本中乳腺癌标志物的水平与第一样本中乳腺癌的水平比较；其中乳腺癌标志物水平的变化指示受试者中的ER阴性样乳腺癌的进展。

在一些实施方案中，乳腺癌标志物包括表1中列出的一种或多种标志物。在一些实施方案中，表1中列出的该一种或多种标志物在与第一样本中该一种或多种标志物的水平相比时以降低的水平存在于第二样本中。在一些实施方案中，第二样本中的表1中该一种或多种标志物的水平在与第一样本中该一种或多种标志物的水平相比时降低指示受试者中的ER阴性样乳腺癌进展。

在一些实施方案中，乳腺癌标志物包括表2中列出的一种或多种标志物。在一些实施方案中，表2中列出的该一种或多种标志物在与第一样本中该一种或多种标志物的水平相比时以增加的水平存在于第二样本中。在一些实施方案中，第二样本中的表2中该一种或标志物的水平在与第一样本中该一种或多种标志物的水平相比时增加指示受试者中的ER阴性样乳腺癌进展。

在一些实施方案中，乳腺癌标志物包括表1中列出的一种或多种标志物和表2中列出的一种或多种标志物。在一些实施方案中，表1中列出的该一种或多种标志物在与第一样本中该一种或多种标志物的水平相比时以降低的水平存在于第二样本中，并且表2中列出的该一种或多种标志物在与第一样本中该一种或多种标志物的水平相比时以增加的水平存在于第二样本中。

在一些实施方案中，第二样本中的表1中该一种或标志物的水平在与第一样本中该一种或多种标志物的水平相比时降低以及第二样本中的表2中该一种或多种标志物的水平在与第一样本中该一种或多种标志物的水平相比时增加指示受试者中的ER阴性样乳腺癌进展。

在一方面，本发明提供了用于识别调节雌激素受体(ER)阳性样乳腺癌的剂的方法。该方法包括(a)使细胞与测试化合物接触，(b)测定细胞中乳腺癌标志物的表达和/或活性，其中该乳腺癌标志物包括选自表1和表2的一种或多种标志物，以及(c)将调节细胞中乳腺癌标志物的表达和/或活性的测试化合物识别为调节ER阳性样乳腺癌的剂。

在另一方面，本发明提供了用于识别调节雌激素受体(ER)阴性样乳腺癌的剂的方法。该方法包括(a)使细胞与测试化合物接触，(b)测定细胞中乳腺癌标志物的表达和/或活性，其中该乳腺癌标志物包括选自表1和表2的一种或多种标志物，以及(c)将调节细胞中乳腺癌标志物的表达和/或活性的测试化合物识别为调节ER阴性样乳腺癌的剂。

在一些实施方案中，细胞包括乳腺癌细胞。

在一些实施方案中，测试化合物是小分子、抗体或核酸抑制剂。

在一方面，本发明进一步提供了通过本发明的方法识别的化合物。

在另一方面，本发明提供了治疗受试者中的雌激素受体(ER)阳性样乳腺癌的方法，其包括向受试者施用乳腺癌标志物的调节剂，其中该乳腺癌标志物包括选自表1和表2的一种或多种标志物。

在一些实施方案中，调节剂增加表2中列出的一种或多种标志物的水平或活性。在一些实施方案中，调节剂降低表1中列出的一种或多种标志物的水平或活性。

在一方面，本发明提供了治疗受试者中的雌激素受体(ER)阴性样乳腺癌的方法，其包括向受试者施用乳腺癌标志物的调节剂，其中该乳腺癌标志物包括选自表1和表2的一种或多种标志物。

在一些实施方案中，调节剂增加表1中列出的一种或多种标志物的水平或活性。在一些实施方案中，调节剂降低表2中列出的一种或多种标志物的水平或活性。

在一方面，本发明提供了用于检测来自患有乳腺癌的受试者的生物样本中雌激素受体(ER)阳性样乳腺癌的分子亚型的试剂盒，其包括一种或多种用于测量来自受试者的生物样本中乳腺癌标志物的水平的试剂，其中该乳腺癌标志物包括选自表1和表2的一种或多种标志物；以及用于测量乳腺癌标志物的水平的一套说明书。

在一些实施方案中，乳腺癌标志物包括表1中列出的一种或多种标志物，该一种或多种标志物具有与受试者中的预定阈值相比时增加的水平。在一些实施方案中，乳腺癌标志物包括表2中列出的一种或多种标志物，该一种或多种标志物具有与受试者中的预定阈值相比时降低的水平。

在一些实施方案中，乳腺癌标志物包括具有与受试者中的预定阈值相比时增加的水平的表1中列出的一种或多种标志物和具有与受试者中的预定阈值相比时降低的水平的表2中列出的一种或多种标志物。

在一些实施方案中，该试剂是与标志物结合的抗体或与乳腺癌标志物的对应mRNA互补的寡核苷酸。

在另一方面，本发明提供了用于检测来自患有乳腺癌的受试者的生物样本中雌激素受体(ER)阴性样乳腺癌的分子亚型的试剂盒，其包括一种或多种用于测量来自受试者的生物样本中乳腺癌标志物的水平的试剂，其中该乳腺癌标志物包括选自表1和表2的一种或多种标志物；以及用于测量乳腺癌标志物的水平的一套说明书。

在一些实施方案中，乳腺癌标志物包括表1中列出的一种或多种标志物，该一种或多种标志物具有与受试者中的预定阈值相比时降低的水平。在一些实施方案中，乳腺癌标志物包括表2中列出的一种或多种标志物，该一种或多种标志物具有与受试者中的预定阈值相比时增加的水平。

在一些实施方案中，乳腺癌标志物包括具有与受试者中的预定阈值相比时降低的水平的表1中列出的一种或多种标志物和具有与受试者中的预定阈值相比时增加的水平的表2中列出的一种或多种标志物。

在一方面，本发明提供了用于在用于确定受试者中的乳腺癌分子亚型的方法中使用的测试板(panel)，该测试板包含一种或多种检测试剂，其中每种检测试剂对于乳腺癌标志物的检测具有特异性，其中该乳腺癌标志物包括选自表1和表2的一种或多种标志物。

在一些实施方案中，乳腺癌标志物包括至少两种或更多种标志物，其中该两种或更多种标志物中的每一种均选自表1和表2中列出的蛋白质的一种或任何组合。

在另一方面，本发明提供了试剂盒，其包括本发明的测试板和用于基于乳腺癌标志物的水平确定乳腺癌分子亚型的一套说明书。

附图说明

图1描绘了高级数据加工和分析工作流程。

图2A至图2C描绘了来自训练数据集的ER阳性和ER阴性乳腺癌中差异表达的蛋白质。图2A是示出在LA型、LB1型和TN型乳腺癌中表达的蛋白质数目的维恩图。图2B是描绘了显著差异蛋白质的归一化表达水平的热图，其示出了ER阳性和ER阴性乳腺癌的分开的簇。聚类方法是使用Euclidean距离量度和Ward聚类算法的分层聚类。图2C是示出LA型、LB1型和TN型乳腺癌的分开的簇的示意图。

图3A描绘了单变量总生存期分析，并且图3B描绘了单变量无进展间隔分析，其显示34种显著的基因与ER阳性和ER阴性乳腺癌中上调/下调方向一致地表达。

图4描绘了34种显著差异蛋白质的主成分分析(PCA)。

图5描绘了来自使用分子亚型分类器评估总生存期(5年)的训练数据集的质心模型(34种蛋白质评估)。

图6描绘了来自使用分子亚型分类器评估总生存期(10年)的训练数据集的质心模型(34种蛋白质评估)。

图7描绘了使用34个分子亚型分类器进行的总生存期(2.5年、5年和10年)的评估。

图8描绘了使用34个分子亚型分类器进行的治疗结局的评估。

图9A至图9E描述了LT34蛋白质组学生物标志物组识别。图9A至图9B是火山图，这两个火山图单独地示出来自训练数据集的基于THC的TN和LA亚型之间的比较(图9A)以及TN和LB1亚型之间的比较(图9B)的一致差异分析结果。跨101次差异分析以FDR＜0.05和(FC＞1.5或FC＜0.667)一致地报告了以红色显示的显著改变的蛋白质。图9C是示出从TN对比管型(LA，LB1)检测到的164种一致地显著改变的蛋白质的维恩图。图9D是工作流程图，其示出从TCGA转录组学数据中将对应于164种显著改变的蛋白质的164种蛋白质编码基因过滤到34种蛋白质编码基因的步骤。图3E是森林图，其示出来自训练数据集的差异分析的log2(倍数变化)以及来自使用TCGA HER2队列和RNA测序数据的Cox比例风险模型的34种蛋白质编码基因的危害比(hazard ratio)。

图10A至图10B描绘了使用34种蛋白质/基因的跨队列的分层聚类热图。图10A描绘了使用34种蛋白质的内部训练队列(70个病例)、内部测试队列(39个病例)和CPTAC HER2病例(53个病例)的分层聚类热图。图10B描绘了使用34种编码基因的TCGA HER2队列(RNA测序数据中的799个病例)、METABRIC HER2队列(微阵列数据中的1645个病例)和GSE96058 HER2队列(RNA测序数据中的2435个病例)的分层聚类热图。该热图表明，两个不同的簇是使用34种蛋白质/基因由蛋白质组学和转录组学平台得到的。

图11描绘了使用34种蛋白质进行的训练队列的共识聚类分析。通过使用来自训练队列的34种蛋白质进行共识聚类分析明确地识别出两种新型蛋白质组学亚型(LT34)。基于Fisher精确检验，一个簇被定义为TN样亚型，另一个簇被定义为管腔样亚型。

图12A至图12C描绘了THC-LT34亚型的总生存期(OO)差异。图12A描绘了分别为TCGA、METABRIC、GSE96058和合并队列的IHC-LT34亚型与生活状况之间的列联表，其显示与每个队列中L/L亚型的百分比相比，L/T亚型患者的百分比下降更多。图12B描绘了在没有低ER+病例的管腔TN队列中L/L、L/T和T/T亚型之间的总生存期K-M图，其显示T/T肿瘤具有最差的结局，而L/L肿瘤具有最良好的结局，并且L/T肿瘤与L/L肿瘤相比具有统计学显著的更差结局(p值＜0.05)，然而，除合并队列中之外，T/T和L/T肿瘤之间的生存期差异并无统计学显著性。图12B描绘了对应于每个K-M图的危害比森林图，并且该危害比是使用Cox比例回归模型计算的。

图13A至图13B描绘了每种治疗内的THC-LT34亚型的K-M图。GSE96058队列(图13A)和METABRIC队列(图13B)中每种治疗下的IHC-LT34亚型的K-M图。仅示出了符合数据成熟度标准的生存期曲线。这些数据表明，L/T亚型患者与L/L亚型患者相比在每种治疗下仍与较差的生存期相关，并且意味着L/T亚型患者与L/L亚型患者相比对所提供的治疗具有抗性。与L/L亚型相比，L/T亚型具有与T/T亚型相似的总生存期。

图14A至图14D描绘了每个临床群组内LT34亚型的K-M图。每个临床群组内LT34亚型的K-M图：分别为合并队列(TCGA+METABRIC+GSE96058)中的基于IHC的亚型(图14A)、分级(图14B)、分期(图14C)和PAM50或Claudin低亚型(图14D)。仅示出了符合数据成熟度标准的生存期曲线。这些数据全部表明，TN样亚型患者与管腔样亚型患者之间存在显著的总生存期差异，并且与管腔样亚型患者相比，TN样亚型患者与较差的总生存期相关。

图15描绘了与生存期显著相关的每种TCGA癌症内LT34亚型的K-M图。9种TCGA癌症内LT34亚型的K-M图。仅示出了对数秩p值＜0.05的K-M图和符合数据成熟度标准的生存期曲线。这些数据表明，9种癌症中每一种癌症的TN样亚型患者与管腔样亚型患者之间存在显著的OS差异，并且与管腔样亚型患者相比，TN样亚型患者与较差的总生存期相关。

图16A至图16B描绘了对于34个基因中的大多数而言，L/T亚型的拷贝数变异(CNV)模式与T/T亚型相似而不是与L/L亚型相似。CNV数据是在TCGA-BRCA队列中的794个管腔-TN样本中测量的。条形图示出了对于管腔中上调的基因(图16A)和TN中上调的基因(图16B)而言每种THC亚型下的损失/增益百分比。它们显示，34个基因中大多数基因在L/T亚型中具有与T/T亚型更相似，而不是与L/L亚型更相似的CNV损失/增益模式。

图17是示出每个基因的按IHC亚型分开的CNV损失/增益分布的comut图。图17显示34个基因的L/T亚型中的CNV损失/增益模式与T/T亚型更相似，而不是与L/L亚型更相似。

图18描绘了116个病例的无监督分层聚类热图。利用CPTAC-BRCA亚型分型(subtyping)分析中使用的1521种蛋白质编码基因共有的901种蛋白质进行116个病例的无监督聚类分析。热图显示，大多数低ER+(10％＞ER≥1％)乳腺癌与ER(ER＜1％)乳腺癌一起被聚类而不是与ER+(ER％≥10％)乳腺癌一起被聚类。

图19A至图19C描绘了IHC-LT34亚型的PFI/PFS/RFS差异。TCGA队列中IHC-LT34亚型的PFI(图19A)和PFS(图19B)差异。列联表、K-M图和危害比森林图显示L/T亚型对比L/L亚型以及T/T亚型对比L/T亚型的PFI和PFS差异无统计学显著性(对数秩p＞0.05)。图19C.METABRIC队列中IHC-LT34亚型的RFS差异。IHC-LT34亚型和RFS状态之间的列联表显示与L/L亚型的百分比相比，L/T亚型患者复发的百分比更高(Fisher精确检验p＝2.677e-06)。K-M图和危害比森林图显示，L/T亚型对比L/L亚型的RFS差异具有统计学显著性(对数秩p＜0.05)，然而T/T亚型和L/T亚型之间不存在显著差异。

图20描绘了训练L/L队列的共识聚类分析。队列中74个L/L病例的共识聚类分析采用了CPTAC-BRCA亚型分型分析中使用的1521种蛋白质编码基因共有的901种蛋白质。采用Pearson相关性生成距离矩阵和ward。用D2方法作为分层聚类算法中的连接方法。通过共识矩阵分析和轮廓分析识别出两个不同的簇。

具体实施方式

A.概述

乳腺癌的治疗决策通常基于患者患有的乳腺癌的亚型，该亚型是从来自患者乳腺组织的活检或肿瘤样本确定的。每种亚型均具有导致对各种治疗方式的反应模式和临床结局存在差异的独特生物学特征。与雌激素受体(ER)阴性乳腺癌相比，ER阳性乳腺癌患者通常趋于具有良好的结局。此外，乳腺癌的不同亚型可以采用不同的治疗方法。例如，ER阳性乳腺癌通常采用激素疗法治疗，而ER阴性乳腺癌患者则不能从此种疗法受益。然而，某些通过免疫组织化学染色被识别为患有ER阳性乳腺癌的患者被证明对医生开具的疗法处方反应不佳。因此，为了提供最有效的治疗，需要识别改进的分子签名，以便更好地区分患者乳腺癌的不同亚型。

本发明通过提供生物标志物，即，选自表1和表2的一种或多种标志物，或它们中的两种、三种、四种或更多种的任何组合解决了这一需求，这些生物标志物可以用于准确且可靠地识别患有乳腺癌的特定亚型，例如，ER阳性样乳腺癌和ER阴性样乳腺癌的受试者。

如本文所述，本发明至少部分基于以下发现，即选自表1和表2的一种或多种标志物或其任何组合在乳腺癌的某些亚型(例如，ER阳性样乳腺癌和ER阴性样乳腺癌)中受到差异性调控，并且因此可以作为ER阳性样乳腺癌和ER阴性样乳腺癌的有用生物标志物。具体地说，本发明基于令人惊讶的发现，即表1中的标志物在ER阳性样乳腺癌患者的组织样本中被上调，并且在ER阴性样乳腺癌患者的组织样本中被下调，而表2中的标志物在ER阴性样乳腺癌患者的组织样本中被上调，并且在ER阳性样乳腺癌患者的组织样本中被下调。因此，这些差异表达标志物可用于区别乳腺癌的分子亚型。

此外，这些差异表达标志物已知参与到与数种特征相关的各种生物途径中，该特征诸如代谢失调、免疫反应失调、上皮间质转化(EMT)、染色体不稳定、血管炎症、细胞凋亡逃避、对生长刺激物不敏感、生长信号传导自主性和/或药理学继发效应(secondaryeffect)。具体地说，一些标志物与代谢途径，诸如半胱氨酸和甲硫氨酸途径相关，而其他标志物被称为DNA甲基化蛋白、DNA聚合酶或RNA加工蛋白。此外，在这些差异表达标志物中还识别出参与炎症和免疫反应的嗜中性粒细胞蛋白，以及在与癌症中上皮间质转化相关的结构环境中发挥作用的结构蛋白(例如肌联蛋白、膜联蛋白和角蛋白)。这些标志物的身份揭示了乳腺癌的分子亚型，例如ER阳性样乳腺癌和ER阴性样乳腺癌，进一步与肿瘤细胞和肿瘤微环境内的一种或多种特征(诸如代谢失调、染色体不稳定性、炎症、免疫反应失调和/或上皮间质转化)相关。

因此，本发明提供了用于确定患有乳腺癌的受试者中的乳腺癌的分子亚型以及/或者对患有乳腺癌的受试者中的乳腺癌进行分层的方法。

在一个实施方案中，选自表1和表2的这些一种或多种标志物或其任何组合单独或与一种或多种病理或临床特征(例如，肿瘤分期、激素受体和/或HER2状态)的组合可以用作用于确定受试者中的乳腺癌的特定亚型(例如ER阳性样乳腺癌或ER阴性样乳腺癌)的有用的预后生物标志物。

因此，本发明提供了使用选自表1和表2的一种或多种标志物或其任何组合单独或与一种或多种病理或临床特征(例如肿瘤分期、激素受体和/或HER2状态)的组合执行以下的方法：对乳腺癌的特定亚型(例如ER阳性样乳腺癌或ER阴性样乳腺癌)作出预后或诊断、监测ER阳性样乳腺癌或ER阴性样乳腺癌，以及评估旨在治疗ER阳性样乳腺癌或ER阴性样乳腺癌的疗法(例如选自表1和表2的一种或多种标志物或其任何组合作为治疗诊断或预测标志物)。

下面是本发明的具体实施方式，提供该具体实施方式是为了帮助本领域技术人员实践本发明。本领域的普通技术人员可以在不背离本发明的精神或范围的情况下对本文所述实施方案作出修改和变动。除非另有限定，否则本文使用的所有技术和科学术语具有与本发明所属领域内的普通技术人员通常理解的含义相同的含义。本文的本发明说明书中所使用的术语仅用于描述特定实施方案且并非意在限制本发明。本文提及的所有出版物、专利申请、专利、附图和其他参考文献均通过引用方式以其整体明确并入本文。

虽然还可在本发明的实践或测试中使用类似于或等同于本文所述的那些方法和材料的任何方法和材料，但现在描述优选的方法和材料。本文所提到的所有出版物以引用的方式并入本文以公开和描述与出版物所引用的相关的方法和/或材料。

B.定义

除非另外定义，否则本文所使用的所有技术性和科学性术语具有本发明所属领域中的普通技术人员通常所理解的含义。以下参考文献(其全部公开内容通过引用方式并入本文)向技术人员提供了本发明中使用的术语中的许多术语的一般定义(除非本文另外定义)：Singleton等人，Dictionary of Microbiology and Molecular Biology(第2版，1994)；The Cambridge Dictionary of Science and Technology(Walker编著，1988)；TheGlossary of Genetics，第5版，R.Rieger等人(编著)，Springer Verlag(1991)；以及Hale&Marham，the Harper Collins Dictionary of Biology(1991)。一般地，本文描述或固有的分子生物学方法的程序等是本领域中使用的常用方法。此类标准技术可以在参考手册诸如Sambrook等人，(2000，Molecular Cloning--A Laboratory Manual，第三版，Cold SpringHarbor Laboratories)；以及Ausubel等人，(1994，Current Protocols in MolecularBiology，John Wiley&Sons，New-York)中找到。

除非另外指明，否则以下术语具有以下赋予它们的含义。然而，应当理解，本领域普通技术人员已知或了解的其他含义也是可能的，并且在本发明的范围内。本文提及的所有出版物、专利申请、专利和其他参考文献均通过引用方式以其整体并入本文。如有冲突，以本说明书(包括定义)为准。此外，材料、方法和实例仅是说明性的而不是旨在限制。

如本文所用，单数形式“一种/个(a)”、“一种/个(an)”和“该/所述(the)”包括复数个指示物，除非上下文中另外明确指示。本文使用的所有技术和科学术语具有相同的含义。

除非具体说明或从上下文显而易见，否则如本文所用，术语“约”应理解为在本领域的正常公差范围内，例如在平均值的2个标准偏差内。“约”可以理解为在陈述值的10％、9％、8％、7％、6％、5％、4％、3％、2％、1％、0.5％、0.1％、0.05％或0.01％以内。除非根据上下文另外清楚，否则本文提供的所有数值都可以用术语“约”修饰。

如本文所用，术语“扩增”是指用于获得靶核酸序列或其互补序列或其片段的多个拷贝(“扩增子”)的任何已知体外程序。体外扩增是指产生可能含有少于完整靶区域序列或其互补序列的经扩增核酸。已知的体外扩增方法包括例如转录介导的扩增、复制酶介导的扩增、聚合酶链式反应(PCR)扩增、连接酶链式反应(LCR)扩增和链置换扩增(SDA，包括多重链置换扩增方法(MSDA))。复制酶介导的扩增使用自我复制RNA分子和复制酶诸如Q-β-复制酶(例如，Kramer等人，美国专利第4，786，600号)。PCR扩增是众所周知的并且使用DNA聚合酶、引物和热循环来合成DNA或cDNA的两条互补链的多个拷贝(例如，Mullis等人，美国专利第4，683，195号、第4，683，202号和第4，800，159号)。LCR扩增使用至少四种单独的寡核苷酸来通过使用多个循环的杂交、连接和变性扩增靶标及其互补链(例如，EP专利申请公开第0320308号)。SDA是这样的方法，其中引物含有限制性核酸内切酶的识别位点，其允许核酸内切酶在包含靶序列的经半修饰DNA双链体的一条链上切口，然后在一系列引物延伸和链置换步骤中进行扩增(例如，Walker等人，美国专利第5，422，252号)。两种其他已知的链置换扩增方法不需要核酸内切酶切口(Dattagupta等人，美国专利第6，087，133号和美国专利第6，124，120号(MSDA))。本领域技术人员将理解，本发明的寡核苷酸引物序列可以容易地用于基于聚合酶的引物延伸的任何体外扩增方法中。(一般参见Kwoh等人，1990，Am.Biotechnol.Lab.8：14-25和(Kwoh等人，1989，Proc.Natl.Acad.Sci.USA 86，1173-1177；Lizardi等人，1988，BioTechnology 6：1197-1202；Malek等人，1994，MethodsMol.Biol.，28：253-260；以及Sambrook等人，2000，Molecular Cloning--A LaboratoryManual，第三版，CSH Laboratories)。如本领域通常已知的，寡核苷酸被设计为在选定的条件下与互补序列结合。

如本文所用，术语“抗原”是指在受试者中引发抗体反应或被抗体识别和结合的分子，例如肽、多肽、蛋白质、片段或其他生物部分。

如本文所用，“乳腺癌”是指任何恶性或恶变前形式的乳腺癌。该术语包括乳腺导管原位癌、浸润性导管癌、炎性乳腺癌、转移性癌和恶变前疾患。该术语还涵盖乳腺中的癌症的任何分期或分级。在乳腺癌是“转移性的”的情况下，癌症已经扩散或转移到乳腺组织之外到达远端部位，诸如肺或骨骼。

如本文所用，术语“互补”是指两条核酸链的区域之间或同一核酸链的两个区域之间序列互补性的广义概念。已知第一核酸区域的腺嘌呤残基能够与反向平行于第一区域的第二核酸区域的残基(如果该残基是胸腺嘧啶或尿嘧啶的话)形成特异性氢键(“碱基配对”)。类似地，已知第一核酸链的胞嘧啶残基能够与反向平行于第一链的第二核酸链的残基(如果该残基是鸟嘌呤的话)碱基配对。如果当核酸的第一区域和相同或不同的核酸的第二区域以反向平行方式布置时，第一区域的至少一个核苷酸残基能够与第二区域的残基碱基配对，那么该第一区域与该第二区域互补。优选地，第一区域包括第一部分，并且第二区域包括第二部分，由此，当第一部分和第二部分以反平行方式布置时，第一部分的核苷酸残基中至少约50％，并且优选地至少约75％、至少约90％或至少约95％的核苷酸残基能够与第二部分中的核苷酸残基碱基配对。更优选地，第一部分的所有核苷酸残基能够与第二部分中的核苷酸残基碱基配对。

如本文所用的术语“对照样本”或“对照”是指任何临床上相关的比较样本，包括例如来自未患有肿瘤学疾病(例如，乳腺癌，例如ER阳性或ER阴性乳腺癌)的正常、健康受试者的样本，或来自从未被诊断患有肿瘤学疾病(例如，乳腺癌，例如ER阳性或ER阴性乳腺癌)的受试者的样本，或来自受试者的较早时间点(例如，治疗之前、较早的肿瘤评估时间点、治疗的较早期或乳腺癌(例如，ER阳性或ER阴性乳腺癌)发作之前)的样本。在一些实施方案中，对照样本是来自患有肿瘤学疾病(例如乳腺癌，例如ER阳性乳腺癌或ER阴性乳腺癌)的受试者的样本。在一些实施方案中，对照样本是来自患有乳腺癌的分子亚型(例如，ER阳性样乳腺癌或ER阴性样乳腺癌)的受试者的样本。对照样本可以是随试剂盒提供的经纯化样本、蛋白质和/或核酸。可以将此类对照样本例如以稀释系列稀释，以允许定量测量测试样本中的分析物(例如，标志物)的水平。对照样本可以包括源自一名或多名受试者的样本。对照样本还可以是在较早时间点从待评估的受试者制备的样本。例如，对照样本可以是在乳腺癌发作之前或在疾病的较早阶段从待评估受试者取出的样本。对照样本还可以是来自动物模型的样本，或者来自源自肿瘤学病症(例如乳腺癌，例如ER阳性或ER阴性乳腺癌)或乳腺癌的分子亚型(例如，ER阳性样乳腺癌或ER阴性样乳腺癌)的动物模型的组织或细胞系的样本。对照样本中一种或多种标志物(例如，1、2、3、4、5、6、7、8、9、10、11、12、13、14、15种或更多种标志物)的活性或表达水平由可以例如基于任何适当的统计测量(诸如，例如包括平均值、中位数或众数值在内的中心趋势的量度)来确定的测量值群组组成。在一个实施方案中，“不同于对照”优选地与对照在统计学上显著不同。

如本文所用，“如与对照样本或受试者相比变化、改变、上调、下调、增加或减少”应理解为待检测的分析物或诊断、预后或治疗指示物(例如，标志物)的水平处于如与来自正常、健康、未治疗或异常状态(例如，ER阳性、ER阴性、ER阳性样乳腺癌或ER阴性样乳腺癌)对照受试者的样本相比统计学上不同(例如，增加或减少)的水平下。换句话说，受试者中的标志物水平与对应对照或参考中的标志物水平之间的差异具有统计显著性。如与对照相比的变化还可以包括在随时间推移获得的一系列至少两个受试者样本中获得的一种或多种标志物的水平变化率的差异。统计显著性的确定在本领域技术人员的能力范围内，并且可以包括用于确定和/或测量统计显著性的任何可接受的手段，诸如，例如与构成阳性或阴性结果的平均值的标准偏差的数目、样本(例如，来自ER阳性样乳腺癌或ER阴性样乳腺癌的样本)中生物标志物的检测到的水平与对照样本相比的增加(其中该增加高于某种阈值)，或者样本(例如，来自ER阳性样乳腺癌或ER阴性样乳腺癌的样本)中生物标志物的检测到的水平与对照或样本相比的降低(其中该降低低于某种阈值)。该阈值可以通过任何合适的手段通过测量已知具有不良预后的多个组织或样本中的生物标志物水平，并将这些水平与对照样本进行比较，并计算统计学上显著的阈值来确定。

术语“对照水平”是指受试者样本中标志物的被接受的或预定的水平。对照水平可以是值的范围。在对于测定合适的情况下，可以将标志物水平与单一对照值、与对照值的范围、与正常上限水平，或与正常下限水平进行比较。

在一个实施方案中，对照是标准化对照，诸如，例如使用来自从未患有乳腺癌的正常、健康受试者群体的一种或多种标志物的表达水平的平均值预先确定的对照。在某些实施方案中，对照可以来自具有异常乳腺状态的受试者或受试者群体。例如，对照可以来自患有乳腺癌例如ER阳性乳腺癌、ER阴性乳腺癌、ER阳性样乳腺癌或ER阴性样乳腺癌的受试者。应当理解，对于所列出的异常乳腺状态中的每种异常乳腺状态，并非所有标志物都会具有不同的水平。应当理解，标志物水平的组合对于区分ER阳性样乳腺癌或ER阴性样乳腺癌受试者可能最有用，可能与其他预后方法组合。进一步地，可以将生物样本中的标志物水平与多于一种对照样本(例如，正常、异常、来自同一受试者、来自群体对照)进行比较。标志物水平可以与异常乳腺状态的其他体征或症状组合使用以提供受试者的预后。

对照还可以是在较早时间点来自受试者的样本，例如，在疾病诊断之前、在观察等待期间的较早评估时间点时、在使用特定剂(例如，化疗、激素疗法)或干预(例如，放射、外科手术)治疗之前的基线水平。在某些实施方案中，受试者中标志物水平的变化可以比标志物的绝对水平更显著，例如，如与对照相比。

如本文所用，“检测(detecting)”、“检测(detection)”、“确定(determining)”等应理解为是指为了识别选自表1和表2的一种或多种标志物而进行的测定。样本中检测到的标志物表达或活性的量可以是无或低于测定或方法的检测水平。

如本文所用，术语“DNA”或“RNA”分子或序列(有时也称为术语“寡核苷酸”)是指通常分别由脱氧核糖核苷酸或核糖核苷酸组成的分子，它们具有以下碱基：腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)，以及DNA中的胸腺嘧啶(T)或RNA中的尿嘧啶(U)，即T被尿嘧啶(U)替代。

术语“病症”、“疾病”和“异常状态”被包含性地使用并且是指与身体的任何部位、器官或系统(或其任何组合)的正常结构或功能的任何偏差。特定疾病表现为特征性的症状和体征，包括生物、化学和物理变化，并且通常与多种其他因素(包括但不限于人口、环境、就业、遗传和医疗史因素)相关。早期疾病状态包括其中一种或多种身体症状尚未检测到的状态。某些特征性体征、症状和相关因素可以通过多种方法进行定量，以产生重要的诊断信息。如本文所用，病症、疾病或异常状态是异常乳腺状态，包括ER阳性样乳腺癌或ER阴性样乳腺癌。

如本文所用，在“较早时间点”获得的样本是在过去足够的时间获得的样本，使得如与较晚的时间点相比可以在来自较早时间点的样本中获得临床相关信息。在某些实施方案中，较早的时间点是早至少四个星期。在某些实施方案中，较早的时间点是早至少六个星期。在某些实施方案中，较早的时间点是早至少两个月。在某些实施方案中，较早的时间点是早至少三个月。在某些实施方案中，较早的时间点是早至少六个月。在某些实施方案中，较早的时间点是早至少九个月。在某些实施方案中，较早的时间点是早至少一年。可以随着时间的推移以规律或不规律的间隔获得多个受试者样本(例如，3、4、5、6、7个或更多个)并且针对标志物水平变化的趋势对这些样本进行分析。对特定受试者进行测试的适当间隔可以由本领域技术人员基于一般考虑来确定。

如本文所用，术语“雌激素受体阳性乳腺癌”或“ER阳性乳腺癌”或“激素受体阳性乳腺癌”是指在雌激素存在的情况下癌细胞表达雌激素受体(ER)并生长的一类乳腺癌。乳腺癌中雌激素受体和孕激素受体的存在是通过激素受体测试来确定的，该激素受体测试通常通过对取自乳腺癌受试者的乳腺肿瘤或组织活检物进行免疫组织化学染色进行的。肿瘤或活检样本雌激素受体(ER)染色呈阳性表明乳腺癌受试者患有ER阳性乳腺癌。ER阳性乳腺癌另外可能对孕激素受体(PR)呈阳性。患有ER阳性乳腺癌的受试者经常使用降低雌激素水平或阻断雌激素受体的激素疗法药物进行治疗。ER阳性乳腺癌可进一步分类为管腔A、B1和B2亚型。在一些实施方案中，ER阳性乳腺癌不包括ER低乳腺癌。

如本文所用，术语“雌激素受体低乳腺癌”是指表达雌激素受体并且具有10％或更少的依据免疫组织化学染色的雌激素受体表达，例如介于1-10％之间的雌激素受体染色的一类乳腺癌。

如本文所用，术语“管腔A型乳腺癌”或“LA型乳腺癌”是指一类ER阳性乳腺癌。管腔A型乳腺癌包括如通过免疫组织化学所确定呈ER阳性和PR阳性但对HER2呈阴性的肿瘤。在一些实施方案中，管腔A型的特征还在于低水平的Ki-67。管腔A型乳腺癌可能从激素疗法获益，并且也可能从化疗获益。

如本文所用，术语“管腔B1型乳腺癌”或“LB1型乳腺癌”是指一类ER阳性乳腺癌。管腔B1型乳腺癌包括如通过免疫组织化学所确定呈ER阳性、PR阴性和HER2阳性的肿瘤。在一些实施方案中，管腔B1型的特征在于高水平的Ki-67。管腔B1型乳腺癌可能从化疗获益，并且可能从激素疗法和靶向HER2的治疗获益。

如本文所用，术语“雌激素受体阴性乳腺癌”或“ER阴性乳腺癌”或“激素受体阴性乳腺癌”是指在雌激素存在的情况下癌细胞不表达雌激素受体(ER)并且不生长的一类乳腺癌。乳腺癌中雌激素受体和孕激素受体的存在是通过激素受体测试来确定的，该激素受体测试通常通过对取自乳腺癌受试者的乳腺肿瘤或组织活检物进行免疫组织化学染色进行的。肿瘤或活检样本雌激素受体(ER)染色呈阴性表明乳腺癌受试者患有ER阴性乳腺癌。与患有ER阳性乳腺癌的患者不同，患有ER阴性乳腺癌的患者不会对降低雌激素水平或阻断雌激素受体的激素疗法药物产生反应。在一些实施方案中，ER阴性乳腺癌对孕激素受体(PR)呈阴性。在一些实施方案中，ER阴性乳腺癌是HER2阳性。在其他实施方案中，ER阴性乳腺癌是HER2阴性。在一些实施方案中，ER阴性乳腺癌是三阴性乳腺癌。

如本文所用，术语“三阴性乳腺癌”是指一类ER阴性乳腺癌。三阴性乳腺癌包括如通过免疫化学所确定不具有雌激素受体或孕激素受体并且也不具有HER2蛋白质的肿瘤。三阴性(TN)乳腺癌的生长和扩散比大多数其他类型的乳腺癌更快，并且在治疗后比其他类型的乳腺癌更容易复发。三阴性乳腺癌的治疗选择比其他类型的乳腺癌更少，因为癌细胞没有激素受体或足够的HER2蛋白质让激素疗法或靶向药物发挥作用。化疗可仍然有用。

如本文所用，术语“雌激素受体阳性样乳腺癌”或“ER阳性样乳腺癌”或“乳腺癌的ER阳性样分子亚型”是指基于如本发明中所述的分子签名识别的一类乳腺癌，该分子签名为例如表1中列出的标志物中的一种或多种标志物(例如AGR3、ADIRF、REEP6、STARD10、MLPH、ABAT、THSD4、ACADSB、NME3、CIRBP，SSH3、PHPT1、GMPR2、PREX1、FIS1、HAGH、HSD17B8、AHCYL1、NT5C、MDP1或其任何组合)的水平的增加；和/或表2中列出的标志物中的一种或多种标志物(例如ANKS1A、GART、SRPK1、NCBP1、TJP2、PNP、TIA1、MTHFD2、PLOD1、KPNA2、ASNS、MTHFD1L、FSCN1、SLC2A1或它们的任何组合)的水平的降低。

ER阳性样乳腺癌的类别包括与ER阳性乳腺癌表现相似(例如表现出相似的生存期结局、相似的无进展间隔和/或相似的对疗法的反应)的肿瘤(即，如通过免疫化学染色所识别)。在一些实施方案中，ER阳性样乳腺癌是ER阳性乳腺癌，例如管腔A型和/或管腔B1型乳腺癌(即，如通过免疫组织化学染色所识别)。在一些实施方案中，ER阳性样乳腺癌是ER阴性乳腺癌，例如三阴性乳腺癌(即，如通过免疫组织化学染色所识别)。在一些实施方案中，ER阳性样乳腺癌可预测良好的生存期和/或长的无进展间隔。在一些实施方案中，ER阳性样乳腺癌是ER阴性(即，如通过免疫组织化学染色所识别)并且ER阳性样分子亚型可预测相对于不是ER阳性样分子亚型的ER阴性乳腺癌的增加的生存期和/或更长的无进展间隔。

在一些实施方案中，当与受试者中的预定阈值相比时，ER阳性样乳腺癌具有被调节例如增加或减少的标志物，其中该标志物与一种或多种特征相关，该特征诸如代谢失调、免疫反应失调、上皮间质转化(EMT)、染色体不稳定性、血管炎症、细胞凋亡逃避、对生长刺激物不敏感、生长信号传导自主性(growth signaling autonomy)以及/或者肿瘤细胞和/或肿瘤微环境内的药理学继发效应。

在一些实施方案中，在肿瘤细胞和肿瘤微环境内参与代谢、染色体不稳定性、复制、炎症、免疫反应和/或上皮-间质转化的至少一种、两种、三种、四种、五种、六种、七种、八种、九种或更多种分子在ER阳性样乳腺癌中被上调。在其他实施方案中，在肿瘤细胞和肿瘤微环境内参与代谢、染色体不稳定性、复制、炎症、免疫反应和/或上皮-间质转化的至少一种、两种、三种、四种、五种、六种、七种、八种、九种或更多种分子在ER阳性样乳腺癌中被下调。在一些实施方案中，参与代谢、染色体不稳定性、复制、炎症、免疫反应和/或上皮-间质转化的一种或多种途径在ER阳性样乳腺癌中被上调。在其他实施方案中，参与代谢、染色体不稳定性、复制、炎症、免疫反应和/或上皮-间质转化的一种或多种途径在ER阳性样乳腺癌中被下调。

如本文所用，术语“雌激素受体阴性样乳腺癌”、“ER阴性样乳腺癌”或“乳腺癌的ER阴性样分子亚型”是指基于本发明的分子签名识别的一类乳腺癌，该分子签名为例如表1中列出的标志物中的一种或多种标志物(例如AGR3、ADIRF、REEP6、STARD10、MLPH、ABAT、THSD4、ACADSB、NME3、CIRBP，SSH3、PHPT1、GMPR2、PREX1、FIS1、HAGH、HSD17B8、AHCYL1、NT5C、MDP1或其任何组合)的水平的降低和/或表2中列出的一种或多种标志物(例如ANKS1A、GART、SRPK1、NCBP1、TJP2、PNP、TIA1、MTHFD2、PLOD1、KPNA2、ASNS、MTHFD1L、FSCN1、SLC2A1或它们的任何组合)的水平的增加。

ER阴性样乳腺癌的类别包括与ER阴性乳腺癌表现相似(例如展现出相似的生存期结局、相似的无进展间隔和/或相似的对疗法的反应)的肿瘤(即，如通过免疫化学染色所识别)。在一些实施方案中，ER阴性样乳腺癌是ER阴性乳腺癌，例如三阴性乳腺癌(即，如通过免疫组织化学染色所识别)。在一些实施方案中，ER阴性样乳腺癌是ER阳性乳腺癌，例如管腔A型和/或管腔B1型乳腺癌(即，如通过免疫组织化学染色所识别)。在一些实施方案中，ER阴性样乳腺癌预测较差的生存期和/或短的无进展间隔。在一些实施方案中，ER阴性样乳腺癌是ER阳性(即，如通过免疫组织化学染色所识别)并且ER阴性样分子亚型预测相对于不是ER阴性样分子亚型的ER阳性乳腺癌的更差的生存期和/或更短的无进展间隔。

在一些实施方案中，当与受试者中的预定阈值相比时，ER阴性样乳腺癌具有被调节例如增加或减少的标志物，其中该标志物与一种或多种特征相关，该特征诸如代谢失调、免疫反应失调、上皮间质转化(EMT)、染色体不稳定性、血管炎症、细胞凋亡逃避、对生长刺激物不敏感、生长信号传导自主性以及/或者肿瘤细胞和/或肿瘤微环境内的药理学继发效应。

在一些实施方案中，在肿瘤细胞和肿瘤微环境内参与代谢、染色体不稳定性、复制、炎症、免疫反应和/或上皮-间质转化的至少一种、两种、三种、四种、五种、六种、七种、八种、九种或更多种分子在ER阴性样乳腺癌中被上调。在其他实施方案中，在肿瘤细胞和肿瘤微环境内参与代谢、染色体不稳定性、复制、炎症、免疫反应和/或上皮-间质转化的至少一种、两种、三种、四种、五种、六种、七种、八种、九种或更多种分子在ER阳性样乳腺癌中被下调。

在一些实施方案中，参与代谢、染色体不稳定性、复制、炎症、免疫反应和/或上皮-间质转化的一种或多种途径在ER阴性样乳腺癌中被上调。在其他实施方案中，参与代谢、染色体不稳定性、复制、炎症、免疫反应和/或上皮-间质转化的一种或多种途径在ER阴性样乳腺癌中被下调。

因此，如本公开中描述的分子签名允许将患有乳腺癌的患者分类为ER阳性样乳腺癌或ER阴性样乳腺癌，以获得对疗法治疗的更好反应。例如，如通过免疫组织化学染色所确定患有ER阳性乳腺癌的一些患者将基于本文所述的分子签名被进一步分类为ER阴性样乳腺癌患者。进一步地，如通过免疫组织化学染色所确定患有ER阴性乳腺癌的患者可基于本文所述的分子签名被进一步分类为ER阳性样乳腺癌患者。监测和/或治疗决策可以由医生基于乳腺癌被进一步分类为具有ER阳性样或ER阴性样分子亚型来作出。

如本文所用的与ER阳性样分子亚型相关的术语“良好的生存期”旨在指如与适当的对照相比，例如如与患有ER阴性乳腺癌(例如，并非ER阳性样分子亚型的ER阴性乳腺癌)或ER阴性样乳腺癌的受试者的生存期或受试者群体的最小或平均预测生存期相比增加的生存期。在一些实施方案中，良好的生存期是良好的总生存期。

如本文所定义的与ER阴性样分子亚型相关的术语“较差的生存期”旨在指如与适当的对照相比，例如如与患有ER阳性乳腺癌(例如，并非ER阴性样分子亚型的ER阳性乳腺癌)或ER阳性样乳腺癌的受试者的生存期或受试者群体的最小、平均或最大预测生存期相比减少的生存期。在一些实施方案中，较差的生存期是较差的总生存期。

术语“表达”在本文中用于意指从DNA产生多肽的过程。该过程涉及将基因转录为mRNA以及将此mRNA翻译为多肽。根据使用时所处的背景，“表达”可能指RNA或蛋白质或两者的产生。

如本文所用，“倍数变化比率”或“FC比率”是指标志物(例如，选自表1和表2的一种或多种标志物)的表达或水平的变化，例如增加或降低。在一些实施方案中，FC比率大于1，其表明标志物的表达或水平上调或增加。在其他实施方案中，FC比率小于1，表明标志物的表达或水平下调或降低。FC比率也可以计算并表示为对数单位。当FC比率表示为Log FC或log2(FC)值时，Log FC或log2(FC)值大于0相当于FC比率大于1，表明标志物的表达或水平上调或增加。可替代地，小于0的Log FC或log2(FC)值相当于FC比率小于1，表明标志物的表达或水平下调或降低。

如本文所用，“更大的预测值”应理解为具有显著更高的灵敏度和特异性，优选地比与其比较的测试更高的灵敏度和/或特异性的测定。测试的预测值可以使用ROC分析来确定。在ROC分析中，提供正常状态和疾病状态之间的完美鉴别或准确度的测试将具有曲线下面积(AUC)＝1，而无法提供比随机机会更好的鉴别的非常差的测试将具有AUC＝0.5。如本文所用，如与另一种测定相比，具有更大预测值的试验将具有统计学上改善的AUC。该测定在适当的受试者群体中进行。

标志物的“更高的表达水平”、“更高水平”、“增加的水平”等是指测试样本中的高于用于评估表达的测定的标准误差的表达水平，并且优选比对照样本中标志物表达水平以及优选数个对照样本中一种或多种标志物的平均表达水平高至少25％、高至少50％、高至少75％、高至少二倍、至少三倍、至少四倍、至少五倍、至少六倍、至少七倍、至少八倍、至少九倍或至少十倍。

如本文所用，如“核酸杂交”中的术语“杂交”一般是指具有互补碱基序列的两个单链核酸分子的杂交，该杂交在适当的条件下将形成热力学上有利的双链结构。杂交条件的实例可以在上面提及的两本实验室手册中找到(Sambrook等人，2000，同上和Ausubel等人，1994，同上，或进一步在Higgins和Hames(编著)″Nucleic acid hybridization，apractical approach″IRL Press Oxford，Washington D.C.，(1985))并且是本领域公知的。在与硝酸纤维素过滤器(或类似尼龙的其他此类支持物)杂交的情况下，如例如在众所周知的Southern印迹程序中，可以将硝酸纤维素过滤器在代表所需严格性条件的温度下(对于高严格性为60-65℃，对于中等严格性为50-60℃，对于低严格性条件为40-45℃)与经标记探针一起在含有高盐(6×SSC或5×SSPE)、5倍Denhardt溶液、0.5％SDS和100μg/ml变性载体DNA(例如，鲑鱼精子DNA)的溶液中温育过夜。然后，可以通过在以下鉴于所需严格性选择的温度下在0.2×SSC/0.1％SDS中洗涤若干次来从过滤器上洗掉非特异性结合的探针：室温(低严格性)、42℃(中等严格性)或65℃(高严格性)。还可以调整洗涤溶液的盐和SDS浓度以适应所需的严格性。所选择的温度和盐浓度是基于DNA杂合体的解链温度(Tm)。当然，也可以形成并检测RNA-DNA杂合体。在此类情况下，杂交和洗涤的条件可以由普通技术人员根据众所周知的方法来调适。优选使用严格条件(Sambrook等人，2000，同上)。如本领域所众所周知，也可以使用采用不同退火和洗涤溶液的其他方案或可商购获得的杂交试剂盒(例如，来自BD Biosciences Clonetech的Expres)。如众所周知的，探针的长度和待确定的核酸组成构成了杂交条件的进一步参数。注意，以上条件的变化可以通过纳入和/或替代用于压制杂交实验中的背景的替代封闭试剂来实现。典型的封闭试剂包括Denhardt试剂、BLOTTO、肝素、变性鲑鱼精子DNA和可商购获得的专有配制剂。由于相容性问题，特定封闭试剂的纳入可能需要修改上述杂交条件。杂交核酸分子还包含上述分子的片段。此外，与任何前面提到的核酸分子杂交的核酸分子还包括这些分子的互补片段、衍生物和等位基因变体。另外，杂交复合物是指两个核酸序列之间的借助互补G和C碱基之间以及互补A和T碱基之间的氢键形成的复合物；这些氢键可进一步通过碱基堆积相互作用来稳定。两个互补核酸序列以反平行构型氢键键合。杂交复合物可以在溶液中形成(例如，Cot或Rot分析)，或者在溶液中存在的一个核酸序列与固定在固相支持物(例如，已将例如细胞固定在其上的膜、过滤器、芯片、针或载玻片)上的另一个核酸序列之间形成。

如本文所用，在两个或更多个核酸或氨基酸序列的上下文中的术语“同一的”或“同一性百分比”是指两个或更多个序列或子序列在比较窗口或指定区域上为了最大对应性进行比较和比对时相同或具有指定百分比的相同氨基酸残基或核苷酸(例如，60％或65％同一性，优选70-95％同一性，更优选至少95％同一性)，如使用如本领域已知的序列比较算法或通过手工比对和目视检查所测量的。具有例如60％至95％或更高序列同一性的序列被认为是基本上同一的。此类的定义也适用于测试序列的补充序列。优选地，所描述的同一性存在于长度为至少约15至25个氨基酸或核苷酸的区域上，更优选地，存在于长度为约50至100个氨基酸或核苷酸的区域上。本领域技术人员将知道如何使用例如算法诸如基于CLUSTALW计算机程序(Thompson Nucl.Acids Res.2(1994)，4673-4680)或FASTDB(BrutlagComp.App.Biosci.6(1990)，237-245)的算法确定序列间/序列中的同一性百分比，如本领域已知的。尽管FASTDB算法在其计算中通常不考虑序列中的内部不匹配缺失或添加，即空位，但这可以被手动校正以避免对同一性百分比的高估。然而，CLUSTALW在其同一性计算中确实考虑了序列空位。本领域技术人员还可使用BLAST和BLAST 2.0算法(AltschulNucl.Acids Res.25(1977)，3389-3402)。用于核酸序列的BLASTN程序使用字长(W)11、期望值(E)10、M＝5、N＝4以及对两条链的比较作为缺省值。对于氨基酸序列，BLASTP程序使用字长(W)3和期望值(E)10作为缺省值。BLOSUM62评分矩阵(Henikoff Proc.Natl.Acad.Sci.，USA，89，(1989)，10915)使用比对(B)50、期望值(E)10、M＝5、N＝4以及对两条链的比较。此外，本发明还涉及其序列与上述杂交分子的序列相比是简并的核酸分子。当根据本发明使用时，术语“作为遗传密码的结果是简并的”意指由于编码相同氨基酸的遗传密码不同的核苷酸序列的冗余引起的。本发明还涉及包含一种或多种突变或缺失的核酸分子，以及与本文所述的核酸分子之一杂交的显示出(a)一处或多处突变或(a)一处或多处缺失的核酸分子。

术语“包括”在本文中用于意指短语“包括但不限于”，并且与短语“包括但不限于”可互换使用。

如本文所用，术语“体外”是指人工环境以及人工环境内发生的过程或反应。体外环境可以由测试管和细胞培养物组成但不限于此。术语“体内”是指天然环境(例如动物或细胞)以及天然环境中发生的过程或反应。

如本文所用，“标记”是指可被检测或可产生可检测信号的分子部分或化合物。标记直接或间接联接至分子，诸如待检测的抗体、核酸探针或蛋白质/抗原或核酸(例如，经扩增的序列)。直接标记可通过将标记连接至核酸的键或相互作用(例如，共价键或非共价相互作用)来进行，而间接标记可通过使用“接头”或桥接部分(诸如一个或多个寡核苷酸或小分子碳链)来进行，该“接头”或桥接部分被直接或间接标记。桥接部分可以放大可检测信号。标记可包括任何可检测部分(例如，放射性核素、配体(诸如生物素或抗生物素蛋白)、酶或酶底物、反应性基团、发色团(诸如染料或有色颗粒)、发光化合物(包括生物发光、发磷光或化学发光化合物)和荧光化合物)。优选地，经标记探针上的标记在同质测定系统中(即在混合物中)是可检测的，结合的标记与未结合的标记相比表现出可检测的变化。

术语“基因的表达水平”、“基因表达水平”、“标志物的水平”等是指由细胞中的基因编码的mRNA以及一种或多种前mRNA新生转录物、转录物加工中间体、一种或多种成熟mRNA和降解产物的水平或蛋白质的水平。一种或多种生物标志物的“水平”意指样本中生物标志物的绝对或相对量或浓度。

标志物的“较低表达水平“或“较低水平”或“降低的水平”是指测试样本中的表达水平低于对照样本中标志物的表达水平以及优选若干个对照样本中标志物的平均表达水平的90％、85％、80％、75％、70％、65％、60％、55％、50％、45％、40％、35％、30％、25％、20％、15％或10％。

如本文所用，术语“标志物”在一个实施方案中是生物分子或生物分子组(pane1)，例如表1和表2中的蛋白质标志物中的任何一种蛋白质标志物或其任何组合，其在组织或细胞中的水平如与其在对照组织或细胞中的水平相比发生改变，该对照组织或细胞为例如来自正常、健康受试者的组织或细胞，或来自与疾病状态(例如ER阳性样乳腺癌或ER阴性样乳腺癌)相关的受试者的组织或细胞。生物标志物的实例包括例如多肽、肽、多肽片段、蛋白质、抗体、激素、多核苷酸、RNA或RNA片段、微RNA(miRNA)、脂质、代谢物或多糖。在优选的实施方案中，在乳腺组织样本例如从乳房切除的肿瘤、乳腺组织活检物或从腋窝淋巴结切除的肿瘤中检测标志物。在一个实施方案中，在从乳房切除的肿瘤中检测标志物。在一个实施例方案中，在乳腺组织样本中检测标志物。在一个实施方案中，在从腋窝淋巴结切除的乳腺癌肿瘤中检测标志物。在某些实施方案中，可以进一步加工肿瘤或乳腺组织样本以在分析之前去除丰富的蛋白质或不是标志物蛋白质的蛋白质。

如本文使用的术语“标志物”还包括任何一种或多种病理或临床特征或参数。例如，如本文所述，标志物包括临床参数诸如例如癌症分期(例如，0期、I期、II期、III期、IV期)、肿瘤大小、年龄、体能状态、雌激素受体和孕激素受体状态、HER2状态或任何临床和/或患者相关的健康数据，例如从电子医学记录获得的数据(例如，关于个体患者或群体的与各种类型的数据诸如人口统计资料、医疗史、实验室测试结果、放射学图像、生命体征、个人统计数据如体重和账单信息有关的电子健康信息的集合体)。

如本文所用，术语“ER阳性样乳腺癌标志物”或“ER阳性样乳腺癌的标志物”是如上列出的“标志物”，其与ER阳性样乳腺癌受试者相关。如本文所用，在一个实施方案中，ER阳性样乳腺癌标志物包括表1和表2中列出的标志物中的一种或多种。在一个实施方案中，ER阳性样乳腺癌标志物包括单独或与一种或多种病理或临床特征(例如，肿瘤分期、激素受体和/或HER2状态)组合的表1和表2中列出的标志物中的一种或多种或其任何组合。

在一个实施方案中，ER阳性样乳腺癌标志物包括增加的水平的表1中列出的标志物中的一种或多种标志物例如AGR3、ADIRF、REEP6、STARD10、MLPH、ABAT、THSD4、ACADSB、NME3、CIRBP、SSH3、PHPT1、GMPR2、PREX1、FIS1、HAGH、HSD17B8、AHCYL1、NT5C、MDP1或其任何组合。

在另一个实施方案中，ER阳性样乳腺癌包括降低的水平的表2中列出的一种或多种标志物例如ANKS1A、GART、SRPK1、NCBP1、TJP2、PNP、TIA1、MTHFD2、PLOD1、KPNA2、ASNS、MTHFD1L、FSCN1、SLC2A1或其任何组合。

在另一个实施方案中，ER阳性样乳腺癌标志物包括增加的水平的表1中列出的标志物中的一种或多种标志物例如AGR3、ADIRF、REEP6、STARD10、MLPH、ABAT、THSD4、ACADSB、NME3、CIRBP，SSH3、PHPT1、GMPR2、PREX1、FIS1、HAGH、HSD17B8、AHCYL1、NT5C、MDP1或其任何组合；以及降低的水平的表2中列出的一种或多种标志物例如ANKS1A、GART、SRPK1、NCBP1、TJP2、PNP、TIA1、MTHFD2、PLOD1、KPNA2、ASNS、MTHFD1L、FSCN1、SLC2A1或它们的任何组合。

如本文所用，术语“ER阴性样乳腺癌标志物”或“ER阴性样乳腺癌的标志物”是与ER阴性样乳腺癌受试者相关的如上列出的“标志物”。如本文所用，在一个实施方案中，ER阴性样乳腺癌标志物包括表1和表2中列出的标志物中的一种或多种。在一个实施方案中，ER阴性样乳腺癌标志物包括单独或与一种或多种病理或临床特征(例如，肿瘤分期、激素受体和/或HER2状态)组合的表1和表2中列出的标志物中的一种或多种或其任何组合。

在一个实施方案中，ER阴性样乳腺癌标志物包括降低的水平的表1中列出的标志物中的一种或多种标志物例如AGR3、ADIRF、REEP6、STARD10、MLPH、ABAT、THSD4、ACADSB、NME3、CTRBP、SSH3、PHPT1、GMPR2、PREX1、FIS1、HAGH、HSD17B8、AHCYL1、NT5C、MDP1或其任何组合。

在另一个实施方案中，ER阴性样包括增加的水平的表2中列出的一种或多种标志物例如ANKS1A、GART、SRPK1、NCBP1、TJP2、PNP、TIA1、MTHFD2、PLOD1、KPNA2、ASNS、MTHFD1L、FSCN1、SLC2A1或其任何组合。

在另一个实施方案中，ER阴性样乳腺癌标志物包括降低的水平的表1中列出的标志物中的一种或多种标志物例如AGR3、ADIRF、REEP6、STARD10、MLPH、ABAT、THSD4、ACADSB、NME3、CIRBP，SSH3、PHPT1、GMPR2、PREX1、FIS1、HAGH、HSD17B8、AHCYL1、NT5C、MDP1或其任何组合；以及增加的水平的表2中列出的一种或多种标志物例如ANKS1A、GART、SRPK1、NCBP1、TJP2、PNP、TIA1、MTHFD2、PLOD1、KPNA2、ASNS、MTHFD1L、FSCN1、SLC2A1或它们的任何组合。

优选地，如与来自具有第二表型(例如，具有疾病状态，例如具有ER阳性样或阴性样乳腺癌)的受试者或受试者群组的生物样本相比，本发明的标志物在来自具有第一表型(例如，具有疾病状态，例如ER阳性样乳腺癌或ER阴性样乳腺癌)的受试者或受试者群组的生物样本中被调节(例如，增加或降低的水平)。

生物标志物可以以任何水平差异地存在。在一些实施方案中，生物标志物在来自患有ER阳性样乳腺癌的生物样本中以如与来自患有ER阴性样乳腺癌的受试者的生物样本中的水平相比增加达至少5％、达至少10％、达至少15％、达至少20％、达至少25％、达至少30％、达至少35％、达至少40％、达至少45％、达至少50％、达至少55％、达至少60％、达至少65％、达至少70％、达至少75％、达至少80％、达至少85％、达至少90％、达至少95％、达至少100％、达至少110％、达至少120％、达至少130％、达至少140％、达至少150％或者更多的水平存在。在其他实施方案中，生物标志物在来自患有ER阳性样乳腺癌的生物样本中以如与来自患有ER阴性样乳腺癌的受试者的生物样本中的水平相比降低达至少5％、达至少10％、达至少15％、达至少20％、达至少25％、达至少30％、达至少35％、达至少40％、达至少45％、达至少50％、达至少55％、达至少60％、达至少65％、达至少70％、达至少75％、达至少80％、达至少85％、达至少90％、达至少95％或达100％(即，不存在)的水平存在。生物标志物优选以统计显著的水平差异地存在(例如，如使用Welch′s T检验或Wilcoxon′s秩和检验所确定，p值小于0.05且/或q值小于0.10)。因此，本发明的生物标志物的水平与对应对照或参考值之间的差异可以是统计学显著的正值或负值。

术语“调节”是指反应(例如，标志物水平)的上调(即，激活或刺激)、下调(即，抑制或压制)，或呈组合的形式的或分开的两者。“调节剂”是调节的化合物或分子，并且可以是例如激动剂、拮抗剂、激活剂、刺激剂、压制剂或抑制剂。

如本文所用，“核酸分子”或“多核苷酸”是指核苷酸的聚合物。其非限制性实例包括DNA(例如，基因组DNA、cDNA)、RNA分子(例如，mRNA)及其嵌合体。该核酸分子可以通过克隆技术来获得或者可被合成。该DNA可以是双链的或单链的(编码链或非编码链[反义])。常规的核糖核酸(RNA)和脱氧核糖核酸(DNA)包括在术语“核酸”和多核苷酸中，因为是它们的类似物。核酸主链可包含本领域已知的多种键联，包括糖-磷酸二酯键联、肽-核酸键(称为“肽核酸”(PNA)；Hydig-Hielsen等人，PCT国际公开号WO 95/32305)、硫代磷酸酯键联、甲基膦酸酯键联或它们的组合中的一种或多种。核酸的糖部分可以是核糖或脱氧核糖，或具有已知取代例如2′甲氧基取代(含有2′-O-甲基呋喃核糖基部分；参见PCT第WO 98/02582号)和/或2′卤根取代的类似化合物。含氮碱基可以是常规碱基(A、G、C、T、U)、其已知类似物(例如肌苷或其他；参见The Biochemistry of the Nucleic Acids 5-36，Adams等人，编著，第11版，1992)或嘌呤或嘧啶碱基的已知衍生物(参见，Cook，PCT国际公开号WO 93/13121)或其中一个或多个残基的主链不包括含氮碱基的“无碱基”残基(Arnold等人，美国专利第5,585,481号)。核酸可仅包含常规糖、碱基和键联，如在RNA和DNA中发现的，或可包括常规组分和取代两者(例如，通过甲氧基主链连接的常规碱基，或包含常规碱基和一个或多个碱基类似物的核酸)。如本文一般理解和使用的，“经分离的核酸分子”是指核苷酸聚合物，并且包括但不应限于DNA和RNA。“经分离的”核酸分子是从其天然体内状态纯化的，通过克隆获得的或化学合成的。

如本文所用，术语“获得”在本文中应理解为制造、购买或以其他方式拥有。

如本文所用，“寡核苷酸”或“寡核苷酸(oligos)”定义具有两个或更多个核苷酸(核糖核苷酸或脱氧核糖核苷酸)的分子。寡核苷酸的大小将由具体情况以及最终其具体用途决定，并且由普通技术人员相应地调适。寡核苷酸可以是化学合成的或根据众所周知的方法通过克隆衍生而得。虽然它们通常是单链形式，但它们可以是双链形式，并且甚至包含“调控区”。它们可以含有天然稀有的核苷酸或合成的核苷酸。它们可以被设计为增强选定的标准，像例如稳定性。脱氧核糖核苷酸和核糖核苷酸的嵌合体也可在本发明的范围内。

如本文所用，术语“一个(种)或多个(种)”或“至少一个(种)”应理解为每个值1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19和20以及大于20的任何值。

除非上下文另有明确说明，否则术语“或”在本文中被包含性地用于意指术语“和/或”，并且与术语“和/或”可互换地使用。

如本文所用，“患者”或“受试者”可以意指人类或非人类动物，优选哺乳动物。“受试者”意指任何动物，包括马、狗、猫、猪、山羊、兔、仓鼠、猴、豚鼠、大鼠、小鼠、蜥蜴、蛇、绵羊、牛、鱼和鸟。人类受试者可以被称为患者。应当注意，本文描述的临床观察是对人类受试者进行的，并且在至少一些实施方案中，受试者是人类。

如本文所用，“预防(preventing)”或“预防(prevention)”是指降低罹患疾病或病症的风险(即，导致可能暴露于或易患疾病但尚未经历或显示该疾病的症状的患者中不出现该疾病的至少一种临床症状)。预防并不要求受试者中从未发生该疾病或病症。预防包括延迟疾病或疾患的发作或严重程度。

如本文所用，生物标志物的“预定阈值”或“阈值”是指从例如未患有肿瘤学疾病(例如，乳腺癌)的一名(或多名)正常健康受试者、从未被诊断患有肿瘤学疾病(例如，乳腺癌)的一名(或多名)受试者，或来自较早时间点(例如，治疗之前、较早的肿瘤评估时间点、治疗的较早阶段或乳腺癌发作之前)的一名(或多名)受试者，或患有特定类别(例如，ER阳性或ER阴性)或特定分子亚型(例如，ER阳性样或ER阴性样)乳腺癌的一名(或多名)受试者获得的对应对照样本或对照样本群组中标志物的水平(例如，生物样本中的表达水平或数量(例如，ng/ml))。预定阈值可以在测量生物样本中的标志物水平之前或同期(concurrently)确定。对照样本可以来自先前时间的同一受试者或来自不同受试者。

如本文所用，“探针”意在包括在促进杂交的条件下与核酸中的靶序列或其互补序列特异性杂交，从而允许检测靶序列或其经扩增的核酸的核酸寡聚物或寡核苷酸。检测可以是直接的(即，从直接与靶标或经扩增序列杂交的探针获得)或间接的(即，从与中间分子结构杂交的探针获得，该中间分子结构将该探针连接至靶标或经扩增序列)。探针的“靶标”通常是指通过标准氢键键合或“碱基配对”与探针序列的至少一部分特异性杂交的经扩增核酸序列内的序列(即，经扩增序列的子集)。“充分互补”的序列允许探针序列与靶序列稳定杂交，即使这两个序列不是完全互补。探针可以是经标记的或未经标记的。探针可以通过特定DNA序列的分子克隆产生，也可以合成生产。本发明所属领域的普通技术人员可以容易地确定可以在本发明的背景下设计和使用的许多种引物和探针。

如本文所用，术语“预后”、“分期”和“侵袭性的确定”在本文中被定义为对乳腺癌严重程度及其演变的预测以及如从正常病程预期的恢复前景。根据本发明，一旦确定了乳腺癌的侵袭性，就可以选择适当的治疗方法。

如本文所用，“预防性”或“治疗性”治疗是指向受试者施用一种或多种剂或干预以提供期望的临床效果。如果在不希望的疾患(例如，宿主动物的疾病或其他不希望的状态)的临床表现之前施用，则该治疗是预防性的，即，它保护宿主免于发生不希望的疾患的至少一种体征或症状，而如果在不希望的疾患表现之后施用，则治疗是治疗性的(即，它旨在减少、改善或维持现有的不希望的疾患的至少一种体征或症状或其副作用)。

如本文所用，生物标志物的“参考水平”意指指示特定疾病状态，表型或其缺乏以及疾病状态、表型或其缺乏的组合的生物标志物的水平。生物标志物的“阳性”参考水平意指指示特定预后、疾病状态或表型的水平。生物标志物的“阴性”参考水平意指指示缺乏特定预后、疾病状态或表型的水平。生物标志物的“参考水平”可以是生物标志物的绝对或相对量或浓度、生物标志物的存在或不存在、生物标志物的量或浓度的范围、生物标志物的最小量和/或最大量或浓度、生物标志物的平均量或浓度，和/或生物标志物的中值量或浓度；并且此外，生物标志物组合的“参考水平”还可以是两种或更多种生物标志物彼此之间的绝对量或相对量或浓度的比率。针对特定疾病状态、表型或它们的缺乏的生物标志物的适当的阳性和阴性参考水平可通过测量一名或多名适当受试者中所需生物标志物的水平来确定，并且此类参考水平可针对特定受试者群体来进行调整(例如，参考水平可以是与分期相匹配的，使得可以在来自某个特定癌症分期的受试者的样本中的生物标志物水平与针对某个癌症分期中的特定疾病状态、表型或它们的缺乏的参考水平之间进行比较)。此类参考水平还可以针对用于测量生物样本中生物标志物的水平的特定技术(例如，LC-MS、GC-MS等)进行调整，其中生物标志物的水平可以基于使用的特定技术而不同。

如本文所用，“样本”或“生物样本”包括从任何来源获得的样本或培养物。生物样本可以从血液(包括任何血液制品，诸如全血、血浆、血清或特定类型的血液细胞)、尿液、唾液、精液等获得。生物样本还包括组织样本，诸如预先冷冻或固定(例如，福尔马林速冻、细胞学加工等)的活检组织或病理组织(例如，肿瘤组织)。在一个实施方案中，生物样本是来自乳腺的活检组织。在一个实施方案中，生物样本是从乳房切除的肿瘤。在另一个实施方案中，生物样本是从腋窝淋巴结切除的肿瘤。在一些实施方案中，生物样本是骨髓和/或外泌体中的循环肿瘤细胞或播散性肿瘤细胞。在一些实施方案中，生物样本包括乳腺导管流体外渗物，例如从乳导管收集的流体。

如本文所用，短语“特异性结合”或“特异性地结合”在提及抗体与蛋白质或肽的相互作用时被使用时意指该相互作用取决于蛋白质上特定结构(即，抗原决定簇或表位)的存在；换句话说，抗体正在识别并结合至特定的蛋白质结构而不是一般的蛋白质。例如，如果抗体对表位“A”具有特异性，则在含有经标记“A”和抗体的反应中含有表位A(或游离的、未经标记的A)的蛋白质的存在将减少与抗体结合的经标记A的量。

短语“特异性识别”被理解为以足够低的测定背景和所用试剂的交叉反应性检测感兴趣的标志物，以使得检测方法在诊断和/或预后上有用。在某些实施方案中，用于特异性识别标志物的试剂仅与该标志物的一种同工型结合。在某些实施方案中，用于特异性识别标志物的试剂与该标志物的超过一种同工型结合。在某些实施方案中，用于特异性识别标志物的试剂与该标志物的所有已知同工型结合。

术语“诸如”在本文中用于意指短语“诸如但不限于”，并且与短语“诸如但不限于”可互换使用。

如本文所用，术语“癌症分期”或“肿瘤分期”或“T分期”是指癌症或肿瘤进展水平的定性或定量评估。用于确定癌症或肿瘤分期的标准包括但不限于解剖学分期(例如，肿瘤大小、肿瘤是否已扩散到身体的其他部位以及癌症已扩散的位置)、分级(肿瘤分化)、肿瘤分化程度和受体(HER2、雌激素受体和孕激素受体)的状态。最广泛使用的乳腺癌分期系统是美国癌症联合委员会(American Joint Committee on Cancer，AJCC)TNM系统，该系统对解剖学分期进行分类。当生物标志物分析可用时，将使用其他癌症特征对癌症进行分期(请参见AJCC指南，https：//cancerstaging.org/references-tools/deskreferences/Pages/Breast-Cancer-Staging.aspx，最后更新于2018年3月)。

解剖学分期，也称为T、N、M分期，描述原发肿瘤的程度(T分期)、是否存在向附近淋巴结扩散(N分期)以及是否存在远端扩散或转移(M分期)。T(大小)类别描述了原始(原发)肿瘤：TX表示肿瘤无法评估；T0表示没有任何原发肿瘤的证据；Tis表示癌症是“原位”的(肿瘤尚未开始生长到健康的乳腺组织中)；并且T1、T2、T3、T4：这些数字是基于肿瘤的大小及肿瘤生长到邻近乳腺组织的程度。T数字越高，肿瘤就越大和/或它生长到乳腺组织中的程度就越大。

N(淋巴结受累)类别描述癌症是否已到达附近的淋巴结：NX表示无法评估附近的淋巴结，例如，如果它们之前已被切除。N0表示附近淋巴结不含癌症。N1、N2、N3是基于受累淋巴结的数目以及在淋巴结中发现多少癌症。N数字越高，淋巴结受累的程度越大。

M(转移)类别告知是否有证据表明癌症已转移到身体的其他部位：MX表示无法评估转移。M0表示无远端转移。M1表示存在远端转移。

在一些实施方案中，如本文所用的解剖学分期/TNM分期被分类为T0、T1、T2、T3、T4、N0、N1、N2、N3，其中一些分期进一步分为子类别，诸如例如T1a、T1b、T4a、T4b，或进一步用分期方法(临床检测或病理评估)，例如cN1、cN2a、pN1、pN2表示。这些子类别中的每一个的特征是本领域众所周知的并且可以在AJCC乳腺癌分期指南中找到。

在一些实施方案中，解剖学分期被分成分期群组。例如，T0-N1-M0和T2-N0-M0受试者属于IIA分期群组。

在可用时，除了解剖学分期之外，还应使用来自生物标志物分析和其他分析的数据来为受试者分配癌症分期。确定任何患者的临床预后分期。病理预后分期是针对在接受任何全身治疗或放射疗法之前的以外科手术切除作为初始治疗的患者确定的。两种预后分期系统均使用T、N、M、肿瘤组织学分级、人表皮生长因子受体2(HER2)、雌激素受体(ER)和孕激素受体(PR)状态将乳腺癌受试者分为5个群组：0期、I期、II期、III期和IV期，其中一些分期进一步划分为子类别，诸如例如Ia期、IB期。有关如何结合患者信息来为乳腺癌受试者分配分期的详细信息可在AJCC乳腺癌分期指南中找到。

在一些实施方案中，单独或与一种或多种另外的临床特征或参数组合的癌症分期与一种或多种本文所述的分子标志物组合被用作预后标志物以确定乳腺癌(例如，ER阳性样乳腺癌或ER阴性样乳腺癌)受试者进展的可能性。

如本文所用，术语“分期”是指用于对癌症例如乳腺癌进行分期/分级的常用系统。根据关于受试者的不同乳腺癌特征的信息的可用性，要使用的分期系统可以是解剖学分期、临床预后分期或病理预后分期。有关乳腺癌不同类型的分期的详细信息，请参阅AJCC乳腺癌分期指南。

术语“测试化合物”和“候选化合物”是指作为用于治疗或预防身体功能的疾病、病患、病痛或病症(例如，癌症)的候选物的任何化学实体、药物、药品等)。测试化合物包括已知的和潜在的治疗性化合物。通过使用本发明的筛查方法进行筛查，可以确定测试化合物是治疗性的。在本发明的一些实施方案中，测试化合物包括基于核酸的分子，例如但不限于反义或RNAi化合物。

术语“治疗效果”是指由药理活性物质在动物、特别是哺乳动物并且更具体地是在人类中引起的局部或全身效果。因此，该术语意指任何旨在用于诊断、治愈、缓解、治疗或预防疾病，或用于增强动物或人类的期望的身体或精神发育和状况的物质。治疗效果可以理解为肿瘤生长的减少、肿瘤生长速率的降低、肿瘤负荷的稳定或减少、肿瘤大小的稳定或减小、肿瘤恶性程度的稳定或降低、肿瘤细胞凋亡的增加，和/或肿瘤血管生成减少。

如本文所用的“治疗有效量”意指当向患者施用以治疗疾病时足以实现对疾病的此种治疗的化合物的量，例如，此种物质的这样的量，该量以适用于任何治疗的合理获益/风险比产生一些期望的局部治疗或全身效应，例如足以改善疾病的至少一种体征或症状，例如预防疾病或疾患的发展，例如预防肿瘤生长、减小肿瘤大小、诱导肿瘤细胞凋亡、减少肿瘤血管生成、防止转移。当施用用于预防疾病时，该量足以避免或延迟疾病的发作。“治疗有效量”将根据化合物、其治疗指标、溶解度，疾病及其严重程度和待治疗的患者的年龄、体重等而变化。例如，通过本发明的方法发现的某些化合物可以以足以产生适用于此种治疗的合理获益/风险比的量施用。施用治疗有效量的化合物可能需要施用多于一次剂量的化合物。

“经转录的多核苷酸”或“核苷酸转录物”是这样的多核苷酸(例如，mRNA、hnRNA、cDNA或者此种RNA或cDNA的类似物)，该多核苷酸与通过本发明的标志物的转录和RNA转录物的正常转录后加工(例如，剪接)(如果存在)和RNA转录物的逆转录形成的成熟mRNA的全部或部分互补或且与其具有高同一性百分比(例如，至少80％同一性)。

如本文所用，“治疗”，特别是“主动治疗”，是指进行干预以治疗受试者中的乳腺癌。根据乳腺癌的分期和类型，治疗选择包括但不限于用于以下的疗法：例如降低生长速率或肿瘤负荷中的至少一者，减小或维持肿瘤大小或肿瘤的恶性(例如转移的可能性)的疗法，通过施用治疗剂(例如化疗)、激素疗法中的一种或多种增加肿瘤中的细胞凋亡，刺激免疫系统消除癌细胞(例如免疫疗法)；基于肿瘤的分级和分期以及其他常规考虑施用适合于治疗受试者的放射疗法(例如，丸粒(pellet)植入、短距离疗法)或肿瘤的外科手术切除或它们的任何组合。主动治疗有别于“观察等待”(即不主动治疗)，后者对受试者进行监测，但不进行干预。观察等待可以包括施用改变由复发引起的效应的剂，而不施用用于改变复发本身的生长或病理的剂。

本文中变量的任何定义中的一个或多个化学基团列表的列举包括该变量作为任何单一基团或所列基团的组合的定义。本文中变量或方面的实施方案的列举包括作为任何单一实施方案或与任何其他实施方案或其部分组合的此实施方案。

本文提供的任何组合物或方法可以与本文提供的任何其他组合物和方法中的一种或多种组合。

本文提供的范围应理解为该范围内所有值的简写。例如，1至50的范围被理解为包括由以下组成的群组的任何数字、数字的组合或子范围：1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49和50。

现在将详细提及本发明的示例性实施方案。尽管将结合示例性实施方案来描述本发明，但应理解，并非旨在将本发明限制于那些实施方案。相反，本发明意在覆盖如可包括在由随附权利要求所限定的本发明的精神和范围内的替换物、修改和等效物。

本发明的示例性组合物和方法在以下章节中被更详细地描述：(C)本发明的生物标志物；(D)组织样本；(E)生物标志物的检测和/或测量；(F)经分离的生物标志物；(G)生物标志物应用；(H)治疗/疗法；(I)药物筛查；和(J)试剂盒/测试板。

C.本发明的生物标志物

本发明至少部分基于以下发现，即表1和表2中的一者或多种标志物(以下称为“生物标志物”、“标志物”或“本发明的标志物”)或其任何组合在ER阳性样乳腺癌和ER阴性样乳腺癌受试者中被差异地调控。具体地说，本发明基于令人惊讶的发现，即表1中的标志物在ER阳性样乳腺癌患者的组织样本中被上调，并且在ER阴性样乳腺癌患者的组织样本中被下调，而表2中的标志物在ER阴性样乳腺癌患者的组织样本中被上调，并且在ER阳性样乳腺癌患者的组织样本中被下调。因此，这些差异表达标志物可用于区别乳腺癌的分子亚型。

因此，本发明提供了用于确定乳腺癌的分子亚型和/或对乳腺癌进行分层的方法，和/或用于区别患有乳腺癌的受试者中的ER阳性样乳腺癌和ER阴性样乳腺癌的方法。

本发明还提供了用于对受试者中的ER阳性样乳腺癌或ER阴性样乳腺癌进行预后、诊断和/或监测(例如，监测疾病进展或治疗)的方法。

本发明进一步提供了基于以下对患有乳腺癌(例如，ER阳性样乳腺癌或ER阴性样乳腺癌)的受试者的肿瘤或乳腺组织进行治疗或调整治疗方案的方法：单独或与一种或多种病理或临床特征(例如，癌症分期)组合的与表1和表2中的标志物中的一种或多种标志物或其任何组合的水平相关的预后信息。本发明进一步提供了用于实施本发明方法的测试板和试剂盒。

本发明提供了用于对乳腺癌进行分类或分层的新标志物和标志物组合，并且具体地说是用于识别乳腺癌的特定亚型(例如ER阳性样乳腺癌或ER阴性样乳腺癌)的标志物。这些标志物可进一步在用于识别用于治疗ER阳性样乳腺癌或ER阴性样乳腺癌的组合物、评估化合物用于治疗ER阳性样乳腺癌或ER阴性样乳腺癌的功效、监测ER阳性样乳腺癌或ER阴性样乳腺癌的进展、对ER阳性样乳腺癌或ER阴性样乳腺癌的肿瘤发展作出预后、对ER阳性样乳腺癌或ER阴性样乳腺癌的复发作出预后，以及对患有ER阳性样乳腺癌或ER阴性样乳腺癌的受试者的生存期作出预后的方法中使用。

本发明的标志物包括但不限于单独或与一种或多种病理或临床特征(例如，肿瘤分期、激素受体和/或HER2状态)组合的选自表1和表2的一种或多种ER阳性样乳腺癌或ER阴性样乳腺癌标志物或其任何组合。

在本发明的一些实施方案中，其他生物标志物可以与本发明的方法结合使用。如本文所用，术语“一种或多种生物标志物”或“至少一种”旨在意指单独或与一种或多种病理或临床特征(例如，肿瘤分期、激素受体和/或HER2状态)组合的选自表1和表2的一种或多种(例如，1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多种)标志物或其任何组合被测定，任选地与另一种乳腺癌标志物组合被测定，并且在各种实施方案中，可以测定多于一种的其他生物标志物。

本文提供的方法、试剂盒和测试板包括单独或与一种或多种病理或临床特征(例如肿瘤阶段、激素受体和/或HER2状态)组合的例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多种选自表1和表2的标志物或其任何组合的任何组合。单独或与一种或多种病理或临床特征(例如，肿瘤分期、激素受体和/或HER2状态)组合的选自表1和表2的任何一种标志物或其任何组合可以与另一种乳腺癌标志物组合使用。

本发明的标志物旨在涵盖以定量或定性方式反映生物体的生理状态(例如，生物体是否患有ER阳性样乳腺癌或ER阴性样乳腺癌)的任何可测量的特征。换句话说，本发明的标志物包括可作为正常过程、致病过程或对治疗干预的药理学反应(具体地包括ER阳性样乳腺癌或ER阴性样乳腺癌的发展或存在)的指标被客观地测量和评价的特征。标志物的实例包括，例如，多肽、肽、多肽片段、蛋白质、抗体、激素、多核苷酸、RNA或RNA片段、微RNA(miRNA)、脂质(例如结构脂质或信号传导脂质)、多糖和其他指示和/或预测肿瘤学疾病(例如ER阳性样乳腺癌或ER阴性样乳腺癌)发展的身体代谢物(包括表1和表2的标志物中的一种或多种标志物)。

单独或与一种或多种病理或临床特征(例如，肿瘤分期、激素受体和/或HER2状态)组合的本发明的标志物，例如选自表1和表2的一种或多种标志物或其任何组合指示受试者中的ER阳性样乳腺癌或ER阴性样乳腺癌的发展。在一个方面，本发明涉及对用于确定受试者中的乳腺癌(例如，ER阳性样乳腺癌或ER阴性样乳腺癌)的分子亚型的单独或与一种或多种病理或临床特征(例如，肿瘤分期、激素受体和/或HER2状态)组合的表1和表2中的标志物中的一种或多种标志物或其任何组合的使用、测量、检测等。

在另一方面，本发明涉及对单独或与ER阳性样乳腺癌或ER阴性样乳腺癌的一种或多种另外的标志物在一起的表1和表2中标志物的一种或多种标志物的使用、测量、检测等。可与表1和表2中的一种或多种标志物组合使用的其他标志物包括以定量或定性方式反映生物体的生理状态(例如，生物体是否患有ER阳性样乳腺癌或ER阴性样乳腺癌)的本文所述的任何可测量的特征。生物体的生理状态包括任何疾病或非疾病状态，例如患有ER阳性样乳腺癌的受试者、患有ER阴性样乳腺癌的受试者或在其他方面健康的受试者。可与表1和表2中的标志物组合使用的本发明的标志物包括可作为正常过程、致病过程或对治疗干预的药理学反应(具体地包括ER阳性样乳腺癌或ER阴性样乳腺癌的发展或存在)的指标被客观地测量和评价的特征。此类组合标志物可以是临床特征或参数(例如肿瘤分期、激素受体状态、体能状态)、实验室量度(例如，分子标志物，诸如激素受体)、基于成像的量度，或遗传或其他分子决定因素。用于与表1和表2中的标志物组合使用的标志物的实例包括，例如，多肽、肽、多肽片段、蛋白质、抗体、激素、多核苷酸、RNA或RNA片段、微RNA(miRNA)、脂质、多糖和其他指示ER阳性样乳腺癌或ER阴性样乳腺癌发展的身体代谢物。

在其他实施方案中，本发明还涉及对任何临床和/或患者相关健康数据，例如从电子医学记录获得的数据(例如，关于个体患者或群体的与各种类型的数据诸如人口统计资料、医疗史、药物和过敏、免疫状态、实验室测试结果、放射学图像、生命体征、个人统计数据如年龄和体重以及账单信息有关的电子健康信息的集合体)的分析和考虑。

本发明还考虑了对单独或与一种或多种病理或临床特征(例如肿瘤分期、激素受体和/或HER2状态)组合的表1和表2的标志物的特定组合的使用。在一个实施方案中，本发明考虑了单独或与一种或多种病理或临床特征(例如肿瘤分期、激素受体和/或HER2状态)组合的具有至少两(2)个成员(其可以包括表1和表2中标志物中的任何两种)的标志物集合。在另一个实施方案中，本发明考虑了单独或与一种或多种病理或临床特征(例如肿瘤分期、激素受体和/或HER2状态)组合的具有至少三(3)个成员(其可以包括表1和表2中标志物中的任何三种)的标志物集合。在另一个实施方案中，本发明考虑了单独或与一种或多种病理或临床特征(例如肿瘤分期、激素受体和/或HER2状态)组合的具有至少四(4)个成员(其可以包括表1和表2中标志物中的任何四种)的标志物集合。

在另一个实施方案中，本发明考虑了具有至少五(5)个成员(其可以包括表1和表2中标志物中的任何五种)的标志物集合。在另一个实施方案中，本发明考虑了具有至少六(6)个成员(其可以包括表1和表2中标志物中的任何六种)的标志物集合。在另一个实施方案中，本发明考虑了具有至少七(7)个成员(其可以包括表1和表2中标志物中的任何七种)的标志物集合。在另一个实施方案中，本发明考虑了具有至少八(8)个成员(其可以包括表1和表2中标志物中的任何八种)的标志物集合。在另一个实施方案中，本发明考虑了具有至少九(9)个成员(其可以包括表1和表2中标志物中的任何九种)的标志物集合。在另一个实施方案中，本发明考虑了具有至少十(10)个成员(其可以包括表1和表2中标志物中的任何十种)的标志物集合。在其他实施方案中，本发明考虑了包括表1和表2中列出的标志物中的至少11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33或34或更多种的标志物集合。在一个实施方案中，该标志物是单独使用或与一种或多种病理或临床特征(例如，肿瘤分期、激素受体和/或HER2状态)组合使用。

在某些实施方案中，单独或与一种或多种病理或临床特征(例如肿瘤分期、激素受体和/或HER2状态)组合的表1和表2中的标志物或其任何组合可以与至少一种其他标志物，或更优选地与至少两种其他标志物，或又更优选地与至少三种其他标志物，或甚至更优选地与至少四种其他标志物组合使用。又进一步地，在某些实施方案中，表1和表2中的标志物可以与至少五种其他标志物，或至少六种其他标志物，或至少七种其他标志物，或至少八种其他标志物，或至少九种其他标志物，或至少十个其他标志物，或至少十一种其他标志物，或至少十二种其他标志物，或至少十三种其他标志物，或至少十四种其他标志物，或至少十五种其他标志物，或至少十六种其他标志物，或至少十七种其他标志物，或至少十八种其他标志物，或至少十九种其他标志物，或至少二十种其他标志物组合使用。进一步地，表1和表2中的标志物可以与多种其他标志物组合使用，包括例如与约20-50种的其他标志物，或50-100种，或100-500种，或500-1000种，或1000-10,000种标志物或更多种标志物组合使用。

在某些实施方案中，该至少一种其他标志物是本领域先前已知的任何乳腺癌标志物或乳腺癌预后标志物。在某些其他实施方案中，该至少一种其他标志物可包括在文献中已被描述为在乳腺中特异性表达的基因。这些基因可以包括例如雌激素受体(Sommer和Fuqua(2001)Semin Cancer Biol，11(5)：339-352)、孕激素受体(Daniel等人.(2011)Expert Rev Endocrinol Metab，6(3)：359-369)、HER-2(Ménard等人.(2001)Oncology，61Suppl 2：67-72)、乳腺癌基因1和2(BRCA1和BRCA2)(Yang和Lippman.(1999)BreastCancer Res Treat，54(1)：1-10)、CA 27-29(Beveridge(1999)Int J Biol Markers，14(1)：36-39.)、CA 15-3(Mart ín等人.(2006)Anticancer Res 26(5B)：3965-3971)、癌胚抗原(Beard和Haskell.(1986)Am J Med.80(2)：241-245)、组织多肽特异性抗原(TPS)(O′Hanlon等人.(1996)Eur J Surg Oncol.22(1)：38-41)、p53(Gasco等人.(2002)BreastCancer Res.4(2)：70-76)、组织蛋白酶D(Foekens等人.(1999)Br J Cancer，79(2)：300-307)、细胞周期蛋白E(Keyomarsi等人.N Engl J Med.2002；347(20)：1566-1575)、巢蛋白(Liu等人.(2010)Cancer Sci，101(3)：815-819)、ki67(Yerushalmi等人.(2010)LancetOncol，11(2)：174-183)和乳房珠蛋白(Fanger等人.(2002)Tumour Biol，23(4)：212-221)。

如本文所用，雌激素受体(ER)，也称为ESR、ESR1、Era、ESRA、ESTRR和NR31，是指呈经加工的和未经加工形式的基因和蛋白质，除非上下文另外明确指出。ER的NCBI基因ID是2099，并且详细信息可以在NCBI网站上找到(以在本申请要求优先权的申请的提交日期可获得的版本通过引用方式并入本文)。智人ER位于6号染色体6q25.1-q25.2，序列NC-000006.12(151654148..152129619)。人ER转录本变体1的登录号为NM_000125.4。人ER转录物变体2的登录号为NM_001122740.2(每个GenBank编号均以在本申请要求优先权的申请提交日期可获得的版本通过引用方式并入本文)。

如本文所用，孕激素受体(PR)，也称为PGR和NR3C3，是指呈经加工的和未经加工形式的基因和蛋白质，除非上下文另外明确指出。PR的NCBI基因ID是5241，并且详细信息可以在NCBI网站上找到(以在本申请要求优先权的申请提交日期可获得的版本通过引用方式并入本文)。智人PR位于11号染色体11q22.1，序列NC_000011.10(101029624..101130681，补体)。人PR转录本变体1的登录号为NM_001202474.3。人PR转录物变体2的登录号为NM_000926.4(每个GenBank编号均以在本申请要求优先权的申请提交日期可获得的版本通过引用方式并入本文)。

如本文所用，人表皮生长因子2(HER2)，也称为ERBB2、NEU、NGL、TKR1、CD340、MLN19和HER-2/neu，是指呈经加工的和未经加工形式的基因和蛋白质，除非上下文另外明确指出。HER2的NCBI基因ID是2064，并且详细信息可以在NCBI网站上找到(以在本申请要求优先权的申请提交日期可获得的版本通过引用方式并入本文)。HER2位于17号染色体17q12，序列NC_000017.11(39688094..39728660)。人HER2转录本变体1的登录号为NM_004448.4。HER2转录物变体2的登录号为NM_001005862.3(每个GenBank编号均以在本申请要求优先权的申请提交日期可获得的版本通过引用方式并入本文)。

如前所提到的，乳腺癌的ER、PR和HER2受体的状态对患者的治疗决策和结局预测具有临床意义。这些标志物在疗法适应症中的用途及其预后价值进一步描述于Bardou等人.(2003)J Clin Oncol，21(10)：1973-1979和Prat等人.(2015)Breast，24Suppl 2：S26-S35，其全部内容均通过引用方式并入本文。

本文识别为乳腺癌基因1和2(BRCA1和BRCA2)的特异性标志物进一步描述于Narod和Foulkes(2004)Nat Rev Cancer，4(9)：665-676)，其全部内容均通过引用方式并入本文。

本文中识别为CA 27-29的特异性标志物进一步描述于Rack等人.(2010)Anticancer Research，30(5)：1837-1841，其全部内容均通过引用方式并入本文。

本文中识别为CA 15-3的特异性标志物进一步描述于Duffy等人.Clin ChimActa.2010；411(23-24)：1869-1874，其全部内容均通过引用方式并入本文。

本文中识别为癌胚抗原的特异性标志物进一步描述于Uehara等人.(2008)Int JClin Oncol，13(5)：447-51，其全部内容均通过引用方式并入本文。

本文中识别为组织多肽特异性抗原的特异性标志物进一步描述于Ahn等人.(2013)Int J Cancer，132(4)：875-881，其全部内容均通过引用方式并入本文。

本文中识别为p53的特异性标志物进一步描述于Duffy等人.(2018)BreastCancer Res Treat，170(2)：213-219)，其全部内容均通过引用方式并入本文。

本文中识别为组织蛋白酶D的特异性标志物进一步描述于Zhang等人.(2018)Cancer Lett，438：105-115，其全部内容均通过引用方式并入本文。

本文中识别为细胞周期蛋白E的特异性标志物进一步描述于Hunt等人.(2017)Clin Cancer Res，23(12)：2991-3002，其全部内容均通过引用方式并入本文。

本文中识别为巢蛋白的特异性标志物进一步描述于Nowak和Dziegiel(2018)IntJ Oncol，53(2)：477-487)，其全部内容均通过引用方式并入本文。

本文中识别为ki67的特异性标志物进一步描述于Penault-Llorca和Radosevic-Robin(2017)Pathology，49(2)：166-171，其全部内容均通过引用方式并入本文。

本文中识别为乳房珠蛋白的特异性标志物进一步描述于Wang等人.(2009)Int JClin Exp Pathol，2(4)：384-389，其全部内容均通过引用方式并入本文。

在一些实施方案中，标志物例如ER阳性样乳腺癌或ER阴性样乳腺癌的标志物包含表1和表2中列出的蛋白质或由其组成。在一些实施方案中，本发明还涉及标志物，例如，ER阳性样乳腺癌或ER阴性样乳腺癌的标志物，该标志物包含表1和表2中列出的蛋白质中的一种或多种(例如2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33或34种)蛋白质。表1和表2中列出的蛋白质标志物的示例性Genbank登录号如下在表3中列出：

表3.

每个GenBank编号均以在本申请要求优先权的申请提交日期可获得的版本通过引用方式并入本文。蛋白质标志物不限于GenBank登录号或序列表中列出的蛋白质序列。

在一些实施方案中，标志物例如ER阳性样乳腺癌或ER阴性样乳腺癌的标志物包括至少两种或更多种标志物，其中该两种或更多种标志物中的每一种选自表1和表2中列出的蛋白质。

在一些实施方案中，标志物例如ER阳性样乳腺癌或ER阴性样乳腺癌的标志物包括表1和表2中列出的蛋白质标志物中的一种或多种，其与受试者中的预定阈值相比时是增加的。在其他实施方案中，标志物例如ER阳性样乳腺癌或ER阴性样乳腺癌的标志物包括表1和表2中列出的蛋白质标志物中的一种或多种，其与受试者中的预定阈值相比时是降低的。

在一些实施方案中，ER阳性样乳腺癌或ER阴性样乳腺癌的标志物包括选自表1和表2的一种或多种标志物，其中该一种或多种标志物具有大于1的FC比率或大于0的logFC(或log2(FC))值。在其他实施方案中，ER阳性样乳腺癌或ER阴性样乳腺癌的标志物包括选自表1和表2的一种或多种标志物，其中该一种或多种标志物具有小于1的FC比率或小于0的logFC(或log2(FC))值。

在一些实施方案中，标志物例如ER阳性样乳腺癌标志物包括增加的水平的表1中列出的蛋白质标志物中的一种或多种蛋白质标志物例如AGR3、ADIRF、REEP6、STARD10、MLPH、ABAT、THSD4、ACADSB、NME3、CIRBP、SSH3、PHPT1、GMPR2、PREX1、FIS1、HAGH、HSD17B8、AHCYL1、NT5C、MDP1或其任何组合。

在一个实施方案中，ER阴性样乳腺癌标志物包括降低的水平的表1中列出的标志物中的一种或多种标志物例如AGR3、ADIRF、REEP6、STARD10、MLPH、ABAT、THSD4、ACADSB、NME3、CIRBP、SSH3、PHPT1、GMPR2、PREX1、FIS1、HAGH、HSD17B8、AHCYL1、NT5C、MDP1或其任何组合。

在另一个实施方案中，ER阴性样乳腺癌包括增加的水平的表2中列出的一种或多种标志物例如ANKS1A、GART、SRPK1、NCBP1、TJP2、PNP、TIA1、MTHFD2、PLOD1、KPNA2、ASNS、MTHFD1L、FSCN1、SLC2A1或其任何组合。

在某些实施方案中，标志物例如ER阳性样乳腺癌或ER阴性样乳腺癌的标志物的水平与受试者中的预定阈值相比时是增加的。在其他实施方案中，标志物例如ER阳性样乳腺癌或ER阴性样乳腺癌的标志物的水平与受试者中的预定阈值相比时是降低的。

在另一方面，本发明提供了基于生物样本中(包括患病组织中的或直接来自血清或血液的)本发明标志物的水平识别“预后签名”，该预后签名与ER阳性样乳腺癌或ER阴性样乳腺癌的存在相关连。“标志物的水平”可以指生物样本例如组织、血浆或血清中标志物蛋白质的水平。“标志物的水平”还可以指与蛋白质相对应的基因的表达水平，例如通过测量对应标志物mRNA的表达水平。标志物水平的集合体或总体提供了与ER阳性样乳腺癌或ER阴性样乳腺癌的存在相关连的预后签名。用于获得本发明的预后签名的方法旨在涵盖以定量或定性方式反映生物体的生理状态(例如，生物体是否患有ER阳性样乳腺癌或ER阴性样乳腺癌)的任何可测量的特征。生物体的生理状态包括任何疾病或非疾病状态，例如患有ER阳性样乳腺癌或ER阴性样乳腺癌的受试者或在其他方面健康的受试者。换句话说，用于识别本发明的预后签名的方法包括确定可作为正常过程、致病过程或对治疗干预的药理学反应(具体地包括ER阳性样乳腺癌或ER阴性样乳腺癌的发展或存在)的指标被客观地测量和评价的特征。这些特征可以是临床参数(例如年龄、体能状态)、实验室量度(例如，分子标志物，诸如蛋白质、脂质或代谢物)、基于成像的量度或者遗传或其他分子决定因素。标志物的实例包括，例如，多肽、肽、多肽片段、蛋白质、抗体、激素、多核苷酸、RNA或RNA片段、微RNA(miRNA)、脂质、多糖和其他指示和/或预测ER阳性样乳腺癌或ER阴性样乳腺癌的代谢物。

在特定的实施方案中，ER阳性样乳腺癌或ER阴性样乳腺癌预后签名是基于单独或与一种或多种另外的乳腺癌标志物在一起的表1和表2中的标志物的组合确定的。可与表1和表2中的标志物组合使用的其他标志物包括以定量或定性方式反映生物体的生理状态(例如，生物体是否患有ER阳性样乳腺癌或ER阴性样乳腺癌)的任何可测量的特征。生物体的生理状态包括任何疾病或非疾病状态，例如患有ER阳性样乳腺癌或ER阴性样乳腺癌的受试者或在其他方面健康的受试者。换句话说，可与表1和表2中的标志物组合使用的本发明的标志物包括可作为正常过程、致病过程或对治疗干预的药理学反应(具体地包括ER阳性样乳腺癌或ER阴性样乳腺癌的发展或存在)的指标客观地被测量和评价的特征。此类组合标志物可以是临床参数(例如肿瘤分期、年龄、体能状态)、实验室量度(例如，分子标志物)、基于成像的量度或者遗传或其他分子决定因素。用于与表1和表2中的标志物组合使用的标志物的实例包括，例如，多肽、肽、多肽片段、蛋白质、抗体、激素、多核苷酸、RNA或RNA片段、微RNA(miRNA)、脂质、多糖和其他可预后和/或指示和/或预测乳腺癌的代谢物。在其他实施方案中，本发明还涉及对任何临床和/或患者相关健康数据，例如从电子医学记录获得的数据(例如，关于个体患者或群体的与各种类型的数据诸如人口统计资料、医疗史、药物和过敏、免疫状态、实验室测试结果、放射学图像、生命体征、个人统计数据如年龄和体重、账单信息和/或此数据到表格的任何汇编有关的电子健康信息的集合体)的分析和考虑。

在某些实施方案中，通过以下方式获得预后签名：(1)检测生物样本中的表1和表2中的标志物中的至少一种标志物的水平，(2)将表1和表2中的该至少一种标志物的水平与来自对照样本的相同标志物的水平比较，以及(3)确定表1和表2中的该至少一种标志物是否高于或低于某一阈值水平。如果表1和表2中的该至少一种标志物高于或低于阈值水平，则预后签名指示受试者的ER阳性样乳腺癌或ER阴性样乳腺癌。在某些实施方案中，预后签名可以基于算法或计算机程序来确定，该算法或计算机程序基于表1和表2中的该至少一种标志物的水平预测生物样本是否来自患有ER阳性样乳腺癌或ER阴性样乳腺癌的受试者。

在某些其他实施方案中，通过以下方式获得预后签名：(1)检测生物样本中的表1和表2中的至少两种标志物的水平，(2)将表1和表2中的该至少两种标志物的水平与来自对照样本的相同标志物的水平比较，以及(3)确定生物样本中检测到的表1和表2中的该至少两种标志物是否高于或低于某一阈值水平。如果表1和表2中的该至少两种标志物高于或低于阈值水平，则预后签名预测或指示受试者的ER阳性样乳腺癌或ER阴性样乳腺癌。在某些实施方案中，预后签名可以基于算法或计算机程序来确定，该算法或计算机程序基于表1和表2中的该至少两种标志物的水平预测生物样本是否来自患有ER阳性样乳腺癌或ER阴性样乳腺癌的受试者。

在某些其他实施方案中，通过以下方式获得预后签名：(1)检测生物样本中的表1和表2中的至少三种标志物的水平，(2)将表1和表2中的该至少三种标志物的水平与来自对照样本的相同标志物的水平比较，以及(3)确定生物样本中检测到的表1和表2中的该至少三种标志物是否高于或低于某一阈值水平。如果表1和表2中的该至少三种标志物高于或低于阈值水平，则预后签名预测或指示受试者的ER阳性样乳腺癌或ER阴性样乳腺癌。在某些实施方案中，预后签名可以基于算法或计算机程序来确定，该算法或计算机程序基于表1和表2中的该至少三种标志物的水平预测生物样本是否来自患有ER阳性样乳腺癌或ER阴性样乳腺癌的受试者。

在某些其他实施方案中，通过以下方式获得预后签名：(1)检测表1和表2中的至少四种标志物的水平，(2)将表1和表2中的该至少四种标志物的水平与来自对照样本的相同标志物的水平比较，以及(3)确定生物样本中检测到的表1和表2中的该至少四种标志物是否高于或低于某一阈值水平。如果表1和表2中的该至少四种标志物高于或低于阈值水平，则预后签名预测或指示受试者的ER阳性样乳腺癌或ER阴性样乳腺癌。在某些实施方案中，预后签名可以基于算法或计算机程序来确定，该算法或计算机程序基于表1和表2中的该至少四种标志物的水平预测生物样本是否来自患有ER阳性样乳腺癌或ER阴性样乳腺癌的受试者。

在某些其他实施方案中，通过以下方式获得预后签名：(1)检测生物样本中的表1和表2中的至少五种标志物的水平，(2)将表1和表2中的该至少五种标志物的水平与来自对照样本的相同标志物的水平比较，以及(3)确定生物样本中检测到的表1和表2中的该至少五种标志物是否高于或低于某一阈值水平。如果表1和表2中的该至少五种标志物高于或低于阈值水平，则预后签名预测或指示受试者的ER阳性样乳腺癌或ER阴性样乳腺癌。在某些实施方案中，预后签名可以基于算法或计算机程序来确定，该算法或计算机程序基于表1和表2中的该至少五种标志物的水平预测生物样本是否来自患有ER阳性样乳腺癌或ER阴性样乳腺癌的受试者。

在某些其他实施方案中，通过以下方式获得预后签名：(1)检测生物样本中的表1和表2中的至少六种标志物的水平，(2)将表1和表2中的该至少六种标志物的水平与来自对照样本的相同标志物的水平比较，以及(3)确定生物样本中检测到的表1和表2中的该至少六种标志物是否高于或低于某一阈值水平。如果表1和表2中的该至少六种标志物高于或低于阈值水平，则预后签名预测或指示受试者的ER阳性样乳腺癌或ER阴性样乳腺癌。在某些实施方案中，预后签名可以基于算法或计算机程序来确定，该算法或计算机程序基于表1和表2中的该至少六种标志物的水平预测生物样本是否来自患有ER阳性样乳腺癌或ER阴性样乳腺癌的受试者。

在某些其他实施方案中，通过以下方式获得预后签名：(1)检测生物样本中的表1和表2中的至少七种标志物的水平，(2)将表1和表2中的该至少七种标志物的水平与来自对照样本的相同标志物的水平比较，以及(3)确定生物样本中检测到的表1和表2中的该至少七种标志物是否高于或低于某一阈值水平。如果表1和表2中的该至少七种标志物高于或低于阈值水平，则预后签名预测或指示受试者的ER阳性样乳腺癌或ER阴性样乳腺癌。在某些实施方案中，预后签名可以基于算法或计算机程序来确定，该算法或计算机程序基于表1和表2中的该至少七种标志物的水平预测生物样本是否来自患有ER阳性样乳腺癌或ER阴性样乳腺癌的受试者。

在某些其他实施方案中，通过以下方式获得预后签名：(1)检测生物样本中的表1和表2中的至少八种标志物的水平，(2)将表1和表2中的该至少八种标志物的水平与来自对照样本的相同标志物的水平比较，以及(3)确定生物样本中检测到的表1和表2中的该至少八种标志物是否高于或低于某一阈值水平。如果表1和表2中的该至少八种标志物高于或低于阈值水平，则预后签名预测或指示受试者的ER阳性样乳腺癌或ER阴性样乳腺癌。在某些实施方案中，预后签名可以基于算法或计算机程序来确定，该算法或计算机程序基于表1和表2中的该至少八种标志物的水平预测生物样本是否来自患有ER阳性样乳腺癌或ER阴性样乳腺癌的受试者。

在某些其他实施方案中，通过以下方式获得预后签名：(1)检测生物样本中的表1和表2中的至少九种标志物的水平，(2)将表1和表2中的该至少九种标志物的水平与来自对照样本的相同标志物的水平比较，以及(3)确定生物样本中检测到的表1和表2中的该至少九种标志物是否高于或低于某一阈值水平。如果表1和表2中的该至少九种标志物高于或低于阈值水平，则预后签名预测或指示受试者的ER阳性样乳腺癌或ER阴性样乳腺癌。在某些实施方案中，预后签名可以基于算法或计算机程序来确定，该算法或计算机程序基于表1和表2中的该至少九种标志物的水平预测生物样本是否来自患有ER阳性样乳腺癌或ER阴性样乳腺癌的受试者。

在某些其他实施方案中，通过以下方式获得预后签名：(1)检测生物样本中的表1和表2中的至少十种标志物的水平，(2)将表1和表2中的该至少十种标志物的水平与来自对照样本的相同标志物的水平比较，以及(3)确定生物样本中检测到的表1和表2中的该至少十种标志物是否高于或低于某一阈值水平。如果表1和表2中的该至少十种标志物高于或低于阈值水平，则预后签名预测或指示受试者的ER阳性样乳腺癌或ER阴性样乳腺癌。在某些实施方案中，预后签名可以基于算法或计算机程序来确定，该算法或计算机程序基于表1和表2中的该至少十种标志物的水平预测生物样本是否来自患有ER阳性样乳腺癌或ER阴性样乳腺癌的受试者。

在某些实施方案中，标志物例如ER阳性样乳腺癌或ER阴性样乳腺癌的标志物是蛋白质，例如表1和表2中列出的蛋白质。在一些实施方案中，本发明还涉及包含表1和表2中列出的蛋白质中的一种或多种蛋白质的标志物。

在一些实施方案中，标志物例如ER阳性样乳腺癌的标志物包括增加的水平的表1中列出的蛋白质标志物中的一种或多种蛋白质标志物。在其他实施方案中，标志物例如ER阳性样乳腺癌的标志物包括降低的水平的表2中列出的蛋白质标志物中的一种或多种蛋白质标志物。在一些实施方案中，标志物例如ER阳性样乳腺癌的标志物包括增加的水平的表1中列出的蛋白质标志物中的一种或多种蛋白质标志物和降低的水平的表2中列出的蛋白质标志物中的一种或多种蛋白质标志物。

在一些实施方案中，标志物例如ER阴性样乳腺癌的标志物包括降低的水平的表1中列出的蛋白质标志物中的一种或多种蛋白质标志物。在其他实施方案中，标志物例如ER阴性样乳腺癌的标志物包括增加的水平的表2中列出的蛋白质标志物中的一种或多种蛋白质标志物。在一些实施方案中，标志物例如ER阴性样乳腺癌的标志物包括降低的水平的表1中列出的蛋白质标志物中的一种或多种蛋白质标志物和增加的水平的表2中列出的蛋白质标志物中的一种或多种蛋白质标志物。

根据各种实施方案，可以采用算法来预测乳腺癌的分子亚型，例如ER阳性样乳腺癌或ER阴性样乳腺癌，以及/或者对患有乳腺癌的受试者的结局作出预后，例如预后为处于与ER阳性样乳腺癌或ER阴性样乳腺癌相似的结局的风险中或可能具有与ER阳性样乳腺癌或ER阴性样乳腺癌相似的结局。技术人员将理解，算法可以是任何计算、公式、统计调查、列线图、查找表、决策树方法，或通过许多定义明确的连续步骤加工输入变量集合(例如，以超过某种阈值水平的水平检测到的标志物的数目(n)，或以低于某种阈值水平检测到的标志物的数目(n))以最终产生得分或“输出”(例如乳腺癌的诊断)的计算机程序。本文考虑了任何合适的算法——无论是基于计算机的还是基于手动的(例如，查找表)。

在某些实施方案中，本发明的算法用于通过基于样本中检测到的表1和表2中的至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、30种或更多种标志物的水平产生得分来预测生物样本是否来自已发展ER阳性样乳腺癌或ER阴性样乳腺癌的受试者，其中如果得分高于或低于某个阈值得分，则生物样本来自处于ER阳性样乳腺癌或ER阴性样乳腺癌风险中或患有ER阳性样乳腺癌或ER阴性样乳腺癌的受试者。

此外，ER阳性样乳腺癌或ER阴性样乳腺癌预后谱或签名可以通过检测表1和表2中标志物中的至少一种标志物与至少一种其他标志物的组合，或更优选地，与至少两种其他标志物的组合，或者又更优选地，与至少三种其他标志物的组合，或者甚至更优选地，与至少四种其他标志物的组合来获得。又进一步地，在某些实施方案中，表1和表2中的标志物可以与至少五种其他标志物，或至少六种其他标志物，或至少七种其他标志物，或至少八种其他标志物，或至少九种其他标志物，或至少十个其他标志物，或至少十一种其他标志物，或至少十二种其他标志物，或至少十三种其他标志物，或至少十四种其他标志物，或至少十五种其他标志物，或至少十六种其他标志物，或至少十七种其他标志物，或至少十八种其他标志物，或至少十九种其他标志物，或至少二十种其他标志物组合使用。又进一步地，表1和表2中的标志物可以与多种其他标志物组合使用，包括例如与约20-50种的其他标志物，或50-100种，或100-500种，或500-1000种，或1000-10,000种标志物或更多种标志物组合使用。

在某些实施方案中，本发明的标志物可以包括变体序列。更具体地，用于检测本发明的标志物中的某些标志物的某些结合剂/试剂可以结合和/或识别本发明的这些某些标志物的变体。如本文所用，术语“变体”涵盖与具体识别的序列不同的核苷酸或氨基酸序列，其中一种或多种核苷酸或氨基酸残基被删除、取代或添加。变体可以是天然存在的等位基因变体或非天然存在的变体。变体序列(多核苷酸或多肽)优选地表现出与本文公开的序列具有至少80％、85％、90％、95％、96％、97％、98％或99％同一性。同一性百分比是通过比对如下所述的两个待比较的序列、确定所比对的部分中同一残基的数目、将该数量除以本发明的(查询的)序列中的残基总数并将结果乘以100来确定。

除了表现出所列举的序列同一性水平之外，所公开的蛋白质标志物的变体可以优选地在患有ER阳性样乳腺癌的受试者中以高于ER阴性样乳腺癌或正常、健康个体中的表达水平的水平表达。同样，所公开的蛋白质标志物的变体可以优选地在患有ER阴性样乳腺癌的受试者中以高于ER阳性样乳腺癌或正常、健康个体中的表达水平的水平表达。

变体序列通常仅在保守取代、缺失或修饰方面与特异性地识别的序列不同。如本文所用，“保守取代”是其中氨基酸被具有相似性质的另一种氨基酸取代的取代，使得肽化学领域的技术人员预期多肽的次级结构和亲水性质基本没有变化。一般来说，以下氨基酸群组代表保守变化：(1)ala、pro、gly、glu、asp、gln、asn、ser、thr；(2)cys、ser、tyr、thr；(3)val、ile、leu、met、ala、phe；(4)lys、arg、his；(5)phe、tyr、trp、his。变体还可以或可替代地含有其他修饰，包括对多肽的抗原特性、次级结构和亲水性质影响最小的氨基酸的缺失或添加。例如，可以使多肽与蛋白质N末端处的信号(或前导)序列缀合，该信号(或前导)序列共翻译地或后翻译地指导该蛋白质的转移。还可以使多肽与接头或其他序列缀合，以便于多肽的合成、纯化或识别(例如，聚组氨酸(poly-His))，或以增强多肽与固体支持物的结合。例如，可以使多肽与免疫球蛋白Fc区缀合。

可以比对多肽和多核苷酸序列，并且可以使用公开可用的计算机算法针对另一多肽或多核苷酸序列确定指定区域中同一氨基酸或核苷酸的百分比。多核苷酸或多肽序列的同一性百分比是通过以下来确定：使用适当的算法(诸如分别设置为默认参数的BLASTN或BLASTP)比对多核苷酸和多肽序列；识别所比对的部分上同一核酸或氨基酸的数目；将同一核酸或氨基酸的数目除以本发明的多核苷酸或多肽的核酸或氨基酸的总数；以及然后乘以100以确定同一性百分比。

用于比对和识别多核苷酸序列同一性的两种示例性算法是BLASTN和FASTA算法。可以使用BLASTP算法检查多肽序列的比对和同一性。BLASTX和FASTX算法将所有阅读框中翻译的核苷酸查询序列与多肽序列进行比较。FASTA和FASTX算法描述于Pearson和Lipman，Proc.Natl.Acad.Sci.USA 85：2444-2448，1988和Pearson，Methods in Enzymol.183：63-98，1990中。FASTA软件包可从弗吉尼亚大学(Charlottesville，Va.22906-9025)获得。FASTA算法(设置为文档中描述的默认参数并随算法一起分发)可用于确定多核苷酸变体。与该算法一起分发的FASTA和FASTX版本2.0x的自述文件描述了该算法的使用并描述了默认参数。

BLASTN软件可在NCBI匿名FTP服务器上获取，并且可从美国国家医学图书馆国家生物技术信息中心(National Center for Biotechnology Information，NCBI)、国家医学图书馆(National Library of Medicine)(马里兰州贝塞斯达38A号楼8N805室，邮编：20894(Building 38A，Room 8N805，Bethesda，Md.20894))获取。设置为文档中该默认参数并与算法一起分发的BLASTN算法版本2.0.6[1998年9月10日]和版本2.0.11[2000年1月20日]优选用于确定根据本发明的变体。BLAST系列算法(包括BLASTN)的使用在NCBI网站和Altschul等人的出版物″Gapped BLAST and PSI-BLAST：a new generation of proteindatabase search programs，″Nucleic Acids Res.25：3389-3402，1997中。

在替代实施方案中，变体多肽是由在严格条件下与所公开的多核苷酸杂交的多核苷酸序列编码的。用于确定互补性的严格杂交条件包括小于约1M、更通常小于约500mM并且优选地小于约200mM的盐条件。杂交温度可低至5℃，但通常大于约22℃，更优选大于约30℃，并且最优选大于约37℃。更长的DNA片段可能需要更高的杂交温度才能进行特异性杂交。由于杂交的严格性可能受到其他因素诸如探针组成、有机溶剂的存在和碱基错配程度的影响，因此参数的组合比单独任何一项的绝对量度更重要。“严格条件”的实例是在6XSSC、0.2％SDS的溶液中预洗；在65℃下在6XSSC、0.2％SDS中杂交过夜；随后在65℃下在1XSSC、0.1％SDS中洗涤两次，每次30分钟，并在65℃下在0.2XSSC、0.1％SDS中洗涤两次，每次30分钟。

本发明提供了标志物的各种组合和子组合的用途。应当理解，除非另有明确说明，否则本文提供的任何单一标志物或标志物组合都可以在本发明中使用。

D.组织样本

本发明可用任何可能含有、表达、包含可检测的疾病生物标志物(例如多肽生物标志物)或核酸生物标志物(诸如mRNA生物标志物)的合适生物样本来实践。例如，生物样本可获自包括全血、血清、尿液、患病和/或健康器官组织(例如乳房活检物)和精液的来源。在某些实施方案中，生物样本是乳腺组织样本或乳腺肿瘤样本。优选地，生物样本是从肿瘤活检或从乳腺肿瘤切除获得的乳腺癌肿瘤样本。在一些其他实施方案中，生物样本是例如骨髓和/或外泌体中的循环肿瘤细胞或播散性肿瘤细胞。在一些实施方案中，生物样本包括乳腺导管流体外渗物，例如从乳导管收集的流体。

本发明的方法可以应用于任何乳腺组织样本(即乳腺组织或流体的样本以及从此种组织或流体分离的细胞(或其后代))的研究。在另一个实施方案中，本发明可以用新鲜分离的或者在从受试者采集后已经冷冻或储存的任何合适的乳腺组织样本，或者例如具有已知的诊断、治疗和结局历史的存档组织样本来实践。乳腺组织可以通过任何非侵入性方式(诸如，例如细针抽吸和针活检)或者替代地通过侵入性方法(包括例如外科手术活检)收集。

本发明的方法可以在单细胞水平上进行(例如，分离和测试来自乳腺组织样本的癌细胞)。然而，本发明的方法也可以使用包含许多细胞的样本来进行，其中该测定是对样本中存在的细胞和组织的整个集合体上的表达进行“平均”。优选地，有足够的乳腺组织样本来准确且可靠地确定感兴趣的表达水平。在某些实施方案中，可以从同一乳房组织取出多个样本以获得该组织的代表性采样。此外，可以获得足够的生物材料以进行重复、三重或进一步轮次的测试。

考虑了用于分离和/或获得乳腺组织和/或血液或其他生物产品，和/或用于在进行检测反应之前加工所述材料的任何商业装置或系统。

在某些实施方案中，本发明涉及检测生物标志物核酸分子(例如，编码表1和表2的蛋白质标志物的mRNA)。在此类实施方案中，可以在分析之前从生物样本例如乳腺组织样本中提取RNA。RNA提取方法是本领域众所周知的(参见，例如，J.Sambrook等人，″MolecularCloning：A Laboratory Manual″，1989，第2版，Cold Spring Harbour Laboratory Press：New York)。大多数从体液或组织中分离RNA的方法都是基于在蛋白质变性剂存在的情况下破坏组织以快速有效地灭活RNase。一般地，RNA分离试剂除其他组分外还包含硫氰酸胍和/或β-巯基乙醇，已知它们可充当RNase抑制剂。然后从蛋白质污染物中进一步纯化出经分离的总RNA，并通过选择性乙醇沉淀、苯酚/氯仿提取并随后进行异丙醇沉淀(参见，例如，P.Chomczynski和N.Sacchi，Anal.Biochem.，1987，162：156-159)或氯化铯、氯化锂或三氟乙酸铯梯度离心来对该经分离的总RNA进行浓缩。

许多不同且通用的试剂盒可用于从体液或组织(例如，乳腺组织样本)中提取RNA(即，总RNA或mRNA)并且可从例如Ambion，Inc.(Austin，Tex.)、Amersham Biosciences(Piscataway，N.J.)、BD Biosciences Clontech(Palo Alto，Calif.)、BioRadLaboratories(Hercules，Calif.)、GIBCO BRL(Gaithersburg，Md.)和Giagen，Inc.(Valencia，Calif.)商购获得。所有这些试剂盒中通常都包括详细描述要遵循的方案的用户指南。不同试剂盒的灵敏度、加工时间和成本可能有所不同。本领域普通技术人员可以容易地选择一种或多种最适合特定情况的试剂盒。

在某些实施方案中，提取后，对mRNA进行扩增并且将其转录成cDNA，然后该cDNA可以充当用于通过适当的RNA聚合酶进行多轮转录的模板。扩增方法是本领域众所周知的(参见，例如，A.R.Kimmel和S.L.Berger，Methods Enzymol.1987，152：307-316；J.Sambrook等人，″Molecular Cloning：A Laboratory Manual″，1989，第2版，Cold Spring HarbourLaboratory Press：New York；″Short Protocols in Molecular Biology″，F.M.Ausubel(编著)，2002，第5增补版，John Wiley&Sons；美国专利第4，683，195号、第4，683，202号和第4，800，159号)。逆转录反应可以使用非特异性引物(诸如锚定的寡聚-dT引物)或随机序列引物进行，或使用与被监测的每个基因探针的RNA互补的靶标特异性引物进行，或使用热稳定性DNA聚合酶(诸如禽成髓细胞瘤病毒逆转录酶或莫洛尼鼠白血病病毒逆转录酶)进行。

在某些实施方案中，用可检测的剂标记从乳腺组织样本中分离的RNA(例如，在扩增和/或转化为cDNA或cRNA之后)，之后对该RNA进行分析。可检测的剂的作用是促进RNA的检测或允许经杂交的核酸片段(例如，在基于阵列的测定中与遗传探针杂交的核酸片段)的可视化。优选地，可检测的剂被选择成使得其产生这样的信号，该信号可被测量并且该信号的强度与所分析的样本中存在的经标记核酸的量有关。在基于阵列的分析方法中，可检测的剂还优选被选择成使得其产生局部化信号，从而允许对来自阵列上每个斑点的信号的空间分辨。

用于标记核酸分子的方法是本领域众所周知的。对于标记方案、标记检测技术和该领域最新发展的综述，请参见例如L.J.Kricka，Ann.Clin.Biochem.2002，39：114-129；R.P.van Gijlswijk等人，Expert Rev.Mol.Diagn.2001，1：81-91；和S.Joos，J.Biotechnol.1994，35：135-153.。标准核酸标记方法包括：放射性剂的掺入、荧光染料的直接附接(参见，例如L.M.Smith等人，Nucl.Acids Res.1985，13：2399-2412)或酶的直接附接(参见，例如，B.A.Connoly和P.Rider，Nucl.Acids.Res.1985，13：4485-4502)；核酸片段的化学修饰，该化学修饰使得该核酸片段可通过免疫化学或其他亲和反应检测(参见，例如T.R.Broker等人，Nucl.Acids Res.1978，5：363-384；E.A.Bayer等人，Methods ofBiochem.Analysis，1980，26：1-45；R.Langer等人，Proc.Natl.Acad.Sci.USA，1981，78：6633-6637；R.W.Richardson等人，Nucl.Acids Res.1983，11：6167-6184；D.J.Brigati等人，Virol.1983，126：32-50；P.Tchen等人，Proc.Natl Acad.Sci.USA，1984，81：3466-3470；J.E.Landegent等人，Exp.Cell Res.1984，15：61-72；和A.H.Hopman等人，Exp.CellRes.1987，169：357-368)；以及酶介导的标记方法，诸如随机引物法、切口平移法、PCR和末端转移酶加尾(对于酶标记的综述，请参见例如J.Temsamani和S.Agrawal，Mol.Biotechnol.1996，5：223-232)。

多种多样的可检测的剂中的任何一种都可以用于本发明的实践中。合适的可检测的剂包括但不限于：各种配体、放射性核素、荧光染料、化学发光剂、微粒(诸如，例如量子点、纳米晶体、磷光体等)、酶(诸如，例如ELISA中使用的那些酶，即辣根过氧化物酶、β-半乳糖苷酶、荧光素酶、碱性磷酸酶)、比色标记、磁性标记及生物素、地高辛(dioxigenin)或其他半抗原以及对其可获得抗血清或单克隆抗体的蛋白质。

然而，在一些实施方案中，通过检测基因产物(例如蛋白质)的表达来确定表达水平，从而消除从乳腺组织样本获得遗传样本(例如RNA)的需要。

在又其他实施方案中，本发明涉及通过基于测量已知对照样本中本发明的生物标志物制备ER阳性样乳腺癌或ER阴性样乳腺癌的模型来制备ER阳性样乳腺癌或ER阴性样乳腺癌的预测模型。更具体地，本发明在一些实施方案中涉及通过评价本发明的生物标志物即表1和表2的标志物来制备预测模型。

技术人员将理解，含有乳腺细胞或乳腺癌细胞的患者组织样本可以用于包括但不限于旨在预测复发概率的方法的本发明的方法中。在这些实施方案中，签名基因的表达水平可以通过评估样本(例如，从患者获得的粪便和/或血液)中签名基因产物(例如，由签名基因编码的蛋白质和RNA转录物或该蛋白质和RNA转录物的片段)的量(例如，绝对量或浓度)来评估。当然，在评估样本中签名基因产物的量之前，可以使样本经受各种众所周知的采集后制备和储存技术(例如固定、储存、冷冻、裂解、均质化、DNA或RNA提取、超滤、浓缩、蒸发、离心等)。

本发明进一步涉及通过评价ER阳性样乳腺癌或ER阴性样乳腺癌的已知样本中本发明的生物标志物制备ER阳性样乳腺癌或ER阴性样乳腺癌的模型。更具体地，本发明涉及使用本发明的生物标志物(即表1和表2的标志物)对ER阳性样乳腺癌或ER阴性样乳腺癌作出预后和/或进行监测的模型。

在旨在制备用于预测ER阳性样乳腺癌或ER阴性样乳腺癌的模型的本发明方法中，应当理解，与对该模型有贡献的每个样本相关的特定临床结局优选应当是已知的。因此，可以使用存档的组织样本建立模型。在旨在制备用于预测ER阳性样乳腺癌或ER阴性样乳腺癌的模型的本发明方法中，可以容易地从感兴趣的源材料(一般为存档的组织，诸如福尔马林固定石蜡包埋的组织)提取总RNA，并且随后对该总RNA进行纯化。用于从存档组织(包括福尔马林固定石蜡包埋(FFPE)组织)获得稳健且可重现的基因表达模式的方法在美国公开第2004/0259105中有教导，其通过引用方式以其整体并入本文。用于从FFPE组织中提取RNA的商业试剂盒和方案是可获得的，包括例如ROCHE High Pure RNA Paraffin试剂盒(Roche)MasterPure^TM完整DNA和RNA纯化试剂盒(Madison，Wis.)；Paraffin BlockRNA分离试剂盒(Ambion，Inc.)和RNeasy^TMMini试剂盒(Qiagen，Chatsworth，Calif.)。

先前已经描述了使用FFPE组织作为用于RT-PCR的RNA来源(Stanta等人，Biotechniques 11：304-308(1991)；Stanta等人，Methods Mol.Biol.86：23-26(1998)；Jackson等人，Lancet 1：1391(1989)；Jackson等人，J.Clin.Pathol.43：499-504(1999)；Finke等人，Biotechniques 14：448-453(1993)；Goldsworthy等人，Mol.Carcinog.25：86-91(1999)；Stanta和Bonin，Biotechniques 24：271-276(1998)；Godfrey等人，J.Mol.Diagnostics 2：84(2000)；Specht等人，J.Mol.Med.78：B27(2000)；Specht等人，Am.J.Pathol.158：419-429(2001))。为了快速分析RNA质量，可以利用一对靶向高表达基因中的短片段的引物进行RT-PCR，该高表达基因为例如肌动蛋白、泛素、gapdh或其他已充分描述的常用持家基因。如果从RNA样本合成的cDNA可以使用这对引物进行扩增，则该样本适合于通过任何方法(优选为例如DASL测定)进行RNA靶序列的定量测量，该方法仅需要用于退火查询寡核苷酸的短cDNA片段。

存在许多组织库和集合体，包括来自多种多样的疾病状态的所有阶段的详尽样本，最值得注意的是癌症，并且特别是乳腺癌。对这些样本进行基因分型和/或基因表达分析(包括定性和定量分析)的能力使得能够将此方法应用于本发明的方法。具体地说，通过探测临床结局已知的组织样本的遗传状态建立基因表达与疾病程度和/或结局的已知预测因子之间相关性的能力允许建立特定分子签名和已知预测因子(诸如雌激素受体或孕激素受体状态)之间的相关性，以导出允许比基于单独已知预测因子的预后更敏感的预后的得分。技术人员将理解，通过建立来自具有已知结局的组织样本的分子签名的数据库，可以建立许多此类相关性，从而允许任何疾患的诊断和预后。因此，此类方法可用于使本发明的生物标志物即表1和表2的标志物的表达水平相关连。

可用于制备用于乳腺癌预测的ER阳性样乳腺癌或ER阴性样乳腺癌模型的组织样本包括例如石蜡和聚合物包埋样本、乙醇包埋样本和/或福尔马林和甲醛包埋组织，但可以使用任何合适的样本。一般来说，从存档样本中分离的核酸可能会被高度降解，并且核酸制备物的质量可能取决于几个因素，包括样本保质期、固定技术和分离方法。然而，使用美国公布第2004/0259105号中教导的方法(该方法的显著优势是短的或降解的靶标可以被用于分析，只要序列足够长以致能够与寡核苷酸探针杂交即可)，可以获得密切模拟在新鲜样本中发现的结果的高度可重现结果。

可用于本发明的所有方法的存档组织样本通常已从来源获得并被保存。优选的保存方法包括但不限于如本领域已知的石蜡包埋、乙醇固定和福尔马林(包括甲醛和其他衍生物)固定。组织样本可以是在时间上“旧的”(例如数月或数年)，或者是最近固定的。例如，外科术后程序通常包括对经切除的组织的固定以进行组织学分析的步骤。在优选的实施方案中，组织样本是患病组织样本，特别是乳腺癌组织，包括原发性和继发性肿瘤组织以及淋巴结组织和转移性组织。

因此，存档样本可以是异质的并且涵盖超过一种细胞或组织类型，例如肿瘤和非肿瘤组织。类似地，根据疾患，合适的组织样本包括但不限于体液(包括但不限于几乎任何生物体，优选哺乳动物样本，并且特别优选人类样本的血液、尿液、血清、淋巴液、唾液、肛门和阴道分泌物、汗液和精液)。在涉及建立用于预测ER阳性样乳腺癌或ER阴性样乳腺癌的模型的方法的实施方案中，组织样本是患者病史和结局已知的组织样本。一般地，本发明的方法可以用包含在存档样本中的签名基因序列来实践，或者可以用在执行本发明的方法之前已经从样本中物理分离的签名基因序列来实践。

E.生物标志物的检测和/或测量

本发明考虑了用于检测和/或测量本发明的生物标志物的任何合适的手段、技术和/或程序。技术人员将理解，用于测量本发明的生物标志物的方法将至少取决于被检测或测量的生物标志物的类型(例如，脂质或多肽生物标志物)和生物样本的来源(例如，全血对比乳腺活检组织)。在测量本发明的生物标志物之前，某些生物样本可能还需要某些专门的处理。

1.蛋白质标志物的检测

本发明考虑了用于检测本发明的多肽生物标志物(即表1和表2的蛋白质)的任何合适的方法。在某些实施方案中，检测方法是涉及与表1和表2中蛋白质中的一种或多种蛋白质特异性地结合的抗体的免疫检测方法。各种有用的免疫检测方法的步骤已在科学文献，诸如，例如Nakamura等人(1987)中有描述，该文献通过引用方式并入本文。

一般而言，免疫结合方法包括获得被怀疑含有生物标志物蛋白质、肽或抗体的样本，以及使该样本与根据本发明的抗体或蛋白质或肽(视情况而定)在可有效地允许免疫复合物形成的条件下接触。

免疫结合方法包括用于检测或定量样本中反应性组分的量的方法，该方法需要检测或定量在结合过程期间形成的任何免疫复合物。此处，人们将获得被怀疑含有乳腺特异性蛋白质、肽或对应抗体的样本，并使该样本与抗体或经编码的蛋白质或肽(视情况而定)接触，以及然后检测或定量在特定条件下形成的免疫复合物的量。

就生物标志物检测而言，所分析的生物样本可以是被怀疑含有表1和表2的一种或多种蛋白质的任何样本。该生物样本可以是例如乳腺或淋巴结组织切片或标本、经匀浆的组织提取物、经分离的细胞、细胞膜制备物、任何上述含蛋白质的组合物的经分离或经纯化的形式，或者甚至与乳腺组织接触的任何生物流体(包括血液或淋巴液)。

使所选生物样本与蛋白质在对于允许形成免疫复合物(初级免疫复合物)有效的条件下接触，持续足以允许形成免疫复合物(初级免疫复合物)的时间段。一般地，复合物形成是将组合物简单地添加到生物样本中并将混合物温育足够长的时间以使抗体与存在的任何抗原形成免疫复合物，即与存在的任何抗原结合。此后，通常将对样本-抗体组合物诸如组织切片、ELISA板、斑点印迹或蛋白质印迹进行洗涤，以去除任何非特异性结合的抗体物质，从而仅允许那些在初级免疫复合物内特异性结合的抗体被检测到。

一般而言，免疫复合物形成的检测是本领域众所周知的并且可以通过应用多种方法来实现。这些方法通常基于对标记或标志物，诸如本领域中标准用途的任何放射性、荧光、生物或酶标签或标记的检测。涉及此类标记的使用的美国专利包括美国专利第3，817，837号、第3，850，752号、第3，939，350号、第3，996，345号、第4，277，437号、第4，275，149号和第4，366，241号，每一者均通过引用方式并入本文。当然，如本领域所已知的，可以通过使用次级结合配体诸如第二抗体或生物素/抗生物素蛋白配体结合布置来发现另外的优点。

检测中采用的蛋白质本身可以与可检测的标记连接，在此情况下人们然后将简单地检测此标记，从而允许确定组合物中初级免疫复合物的量。

替代地，在初级免疫复合物内结合的第一添加组分可借助于对经编码的蛋白质、肽或对应抗体具有结合亲和力的第二结合配体来检测。在这些情况下，第二结合配体可以连接至可检测的标记。第二结合配体本身通常是抗体，因此可以将其称为“次级”抗体。使初级免疫复合物与经标记的次级结合配体或抗体在对于允许形成次级免疫复合物有效的条件下接触，持续足以允许形成次级免疫复合物的时间段。然后通常洗涤次级免疫复合物以除去任何非特异性结合的经标记的次级抗体或配体，然后检测次级免疫复合物中剩余的标记。

进一步的方法包括通过两步方法检测初级免疫复合物。使用对所编码的蛋白质、肽或对应抗体具有结合亲和力的第二结合配体(诸如抗体)形成次级免疫复合物，如上所述。洗涤后，使次级免疫复合物与对第二抗体具有结合亲和力的第三结合配体或抗体再在对于允许形成免疫复合物(三级免疫复合物)有效的条件下接触，持续足以允许形成免疫复合物(三级免疫复合物)的时间段。第三配体或抗体与可检测的标记连接，从而允许检测由此形成的三级免疫复合物。如果需要的话，此系统可以提供信号放大。

本发明的免疫检测方法在识别诸如ER阳性样乳腺癌或ER阴性样乳腺癌的疾患中具有明显的效用。这里，使用被怀疑含有所编码的蛋白质或肽或对应抗体的生物或临床样本。然而，这些实施方案也可应用于非临床样本，诸如抗原或抗体样本的滴定、杂交瘤的选择等。

本发明特别考虑了使用ELISA作为一种类型的免疫检测测定。考虑了本发明的生物标志物蛋白质或肽将具有在ER阳性样乳腺癌或ER阴性样乳腺癌的预后和监测中作为ELISA测定中的免疫原的效用。从最简单和直接的含义上来说，免疫测定是结合测定。某些优选的免疫测定是本领域已知的各种类型的酶联免疫吸附测定(ELISA)和放射免疫测定(RIA)。使用组织切片免疫组织化学检测也特别有用。然而，容易理解的是，检测不限于此类技术，并且也可以使用蛋白质印迹、斑点印迹、FACS分析等。

在一种示例性ELISA中，将与本发明的生物标志物结合的抗体固定到表现出蛋白质亲和力的选定表面，诸如聚苯乙烯微量滴定板中的孔上。然后，将被怀疑含有标志物抗原的测试组合物，诸如临床样本添加到该孔中。在结合并洗涤以除去非特异性结合的免疫复合物后，可以检测结合的抗原。检测通常通过添加对靶蛋白质具有特异性的第二抗体来实现，该第二抗体与可检测的标记连接。这种类型的ELISA是简单的“夹心ELISA”。检测还可以通过添加第二抗体、随后添加对第二抗体具有结合亲和力的第三抗体来实现，其中第三抗体与可检测的标记连接。

在另一种示例性ELISA中，将被怀疑含有ER阳性样乳腺癌或ER阴性样乳腺癌抗原标志物的样本固定到孔表面上，然后与本发明的抗生物标志物抗体接触。在结合并洗涤以除去非特异性结合的免疫复合物后，检测结合的抗原。当初始抗体与可检测的标记连接时，可以直接检测免疫复合物。同样，可以使用对第一抗体具有结合亲和力的第二抗体来检测免疫复合物，其中第二抗体与可检测的标记连接。

无论采用何种形式，ELISA都具有某些共同特征，诸如包被、温育或结合、洗涤以去除非特异性结合的物质，以及检测结合的免疫复合物。这些描述如下。

在用抗原或抗体包被板时，通常将会将板的孔与抗原或抗体的溶液一起温育过夜或指定小时的时段。然后清洗板的孔以除去不完全吸附的物质。然后用对于测试抗血清呈抗原中性的非特异性蛋白质“包被”孔的任何剩余可用表面。这些蛋白质包括牛血清白蛋白(BSA)、酪蛋白和奶粉溶液。该包被可以封闭固定表面上的非特异性吸附位点，从而减少由抗血清非特异性结合到表面上引起的背景。

在ELISA中，可能更习惯使用次级或三级检测手段而不是直接程序。因此，在蛋白质或抗体与孔结合、用非反应性材料包被以降低背景并洗涤以去除未结合的材料之后，使固定表面与对照人乳腺癌和/或待测试的临床或生物样本在对于允许免疫复合物(抗原/抗体)形成有效的条件下接触。免疫复合物的检测然后需要经标记的次级结合配体或抗体，或者次级结合配体或抗体与经标记的三级抗体或三级结合配体的配合(conjunction)。

短语“在对于允许免疫复合物(抗原/抗体)形成有效的条件下”意指该条件优选包括用诸如BSA、牛丙种球蛋白(BGG)和磷酸盐缓冲盐水(PBS)/吐温的溶液稀释抗原和抗体。这些添加的剂也往往有助于减少非特异性背景。

“合适的”条件还意味着温育是在足以允许有效结合的温度下进行，持续足以允许有效结合的时间段。温育步骤通常是在优选25℃至27℃左右的温度下约1至2至4小时，或者可以在约4℃左右的温度下过夜。

在ELISA中的所有温育步骤之后，清洗经接触的表面以去除非复合材料。优选的洗涤程序包括用诸如PBS/吐温或硼酸盐缓冲液的溶液洗涤。在测试样本和最初结合的材料之间形成特异性免疫复合物以及随后的洗涤之后，可以确定甚至微量免疫复合物的出现。

为了提供检测手段，第二或第三抗体将具有相关标记以允许检测。优选地，这将是在与适当的发色底物一起温育后将产生显色的酶。因此，例如，人们希望将第一或第二免疫复合物与脲酶、葡萄糖氧化酶、碱性磷酸酶或过氧化氢酶缀合的抗体在有利于进一步的免疫复合物形成发生的时间段和条件下接触和温育(例如，在含有PBS的溶液(例如PBS-Tween)中室温温育2小时)。

在与经标记的抗体温育并且随后洗涤以除去未结合的材料后，例如通过与发色底物诸如尿素和溴甲酚紫一起温育来定量标记的量。然后通过例如使用可见光谱分光光度计测量显色程度来实现定量。

还可以使用蛋白质质谱方法和仪器来测量、定量、检测和以其他方式分析本发明的蛋白质生物标志物。蛋白质质谱分析是指将质谱技术应用于蛋白质研究。尽管不旨在进行限制，但通常使用两种方法来使用质谱法来表征蛋白质。首先，将完整的蛋白质电离，然后引入到质量分析器中。这种方法被称为蛋白质分析的“自上而下”策略。用于全蛋白质电离的两种主要方法是电喷雾电离(ESI)和基质辅助激光解吸/电离(MALDI)。在第二种方法中，使用蛋白酶诸如胰蛋白酶将蛋白质酶促消化成较小的肽。随后将这些肽引入到质谱仪中并通过肽质量指纹分析或串联质谱进行识别。因此，后一种方法(也称为“自下而上”蛋白质组学)使用肽水平下的识别来推断蛋白质的存在。

本发明的生物标志物的全蛋白质质量分析可以使用飞行时间(TOF)MS或傅里叶变换离子回旋共振(FT-ICR)进行。这两种类型的仪器因其宽质量范围以及其在FT-ICR情况下的高质量精度而非常有用。最广泛使用的肽质量分析仪器是MALDI飞行时间仪器，因为它们允许在快节奏下(在大约10秒钟可以分析1PMF)采集肽质量指纹(PMF)。多级四极杆飞行时间和四极杆离子阱也可用于此应用。

本发明的蛋白质生物标志物还可以在共存于生物介质或样本中的蛋白质和分子的复杂混合物中进行测量，然而，可能需要并且本文中考虑了样本的分级分离。应当理解，蛋白质的复杂混合物的电离可能导致这样的情况，即更丰富的蛋白质具有“淹没”或压制来自同一样本中不太丰富的蛋白质信号的倾向。此外，由于混合物组分的数目巨大，因此复杂混合物的质谱可能难以解释。在质谱分析之前，可以首先使用分级分离来分离蛋白质的任何复杂混合物。有两种方法被广泛用于蛋白质或其来自酶促消化的肽产物的分级分离。第一种方法将全蛋白质分级分离，称为二维凝胶电泳。第二种方法高效液相色谱法(LC或HPLC)被用于在酶促消化后对肽进行分级分离。在一些情况下，可能需要组合这两种技术。本文还考虑了用于对蛋白质混合物进行分级分离的本领域已知的任何其他合适的方法。

2D凝胶上识别的凝胶斑点通常可归因于一种蛋白质。如果需要识别蛋白质的身份，通常采用凝胶内消化的方法，其中切除感兴趣的蛋白质斑点并对其进行蛋白水解消化。消化产生的肽质量可以通过使用肽质量指纹分析的质谱法来确定。如果此信息无法明确识别蛋白质，则可以对其肽进行串联质谱分析以进行从头测序。

使用HPLC/MS表征蛋白质混合物在本领域中也可称为“鸟枪蛋白质组学”和MuDPIT(多维蛋白质识别技术)。通过一个或两个液相色谱法(LC)的步骤对蛋白质混合物消化产生的肽混合物进行分级分离。来自色谱阶段的洗脱液可以通过电喷雾电离直接引入质谱仪中，或滴成一系列的小斑点用于之后使用MALDI的质量分析。

本发明的蛋白质生物标志物可以使用多种技术使用MS来识别，本文中考虑了所有这些。肽质量指纹分析使用蛋白水解肽的质量作为搜索预测质量数据库的输入，这些预测质量是由一系列已知蛋白质的消化产生的。如果参考列表中的蛋白质序列产生大量与实验值匹配的预测质量，则有一些表明原始样本中存在此蛋白质的证据。应当进一步理解的是，与微毛细管液相色谱(LC)和数据库搜索配合的用于自动化、数据依赖的电喷雾电离(ESI)串联质谱(MS/MS)的方法和仪器的开发已经显著地增加了凝胶分离的蛋白质的识别的灵敏度和速度。微毛细管LC-MS/MS已成功用于直接从混合物中大规模识别单个蛋白质而无需凝胶电泳分离(Link等人，1999；Opitek等人，1997)。

几种最新方法允许通过质谱法定量蛋白质。例如，可以将碳(¹³C)或氮(¹⁵N)的稳定(例如非放射性)较重同位素掺入到一个样本中，而另一个样本可以用对应轻同位素(例如¹²C和¹⁴N)进行标记。分析前将该两个样本混合。源自不同样本的肽可以由于其质量差异而被区分。它们的峰强度的比率对应于肽(和蛋白质)的相对丰度比。最流行的同位素标记方法是SILAC(细胞培养基中由氨基酸进行的稳定性同位素标记)、胰蛋白酶催化的¹⁸O标记、ICAT(同位素编码的亲和标记)、iTRAQ(用于相对和绝对定量的等重标签)。可以在不标记样本的情况下进行“半定量”质谱分析。通常，这是通过MALDI分析(线性模式)进行的。这里单个分子(通常是蛋白质)的峰强度或峰面积与样本中蛋白质的量相关连。然而，单个信号取决于蛋白质的一级结构、样本的复杂性以及仪器的设置。其他类型的“无标记”定量质谱法使用经消化蛋白质的光谱计数(或肽计数)作为用于确定相对蛋白质量的手段。

在一个实施方案中，可以根据以下示例性方法使用质谱法从复杂生物样本中识别和定量本发明的蛋白质标志物中的任何一种或多种蛋白质标志物，该示例性方法并非旨在限制本发明或其他基于质谱的方法的使用。

在此该实施方案的第一步中，(A)将生物样本例如来自患有乳腺癌的受试者的生物样本(其包含蛋白质的复杂混合物(包括至少一种感兴趣的生物标志物))片段化并用稳定的同位素X进行标记。(B)接下来，将已知量的内标添加到生物样本中，其中该内标是通过将与该至少一种感兴趣的靶生物标志物同一的标准蛋白质片段化并用稳定同位素Y标记来制备。(C)然后将获得的这个样本引入到LC-MS/MS装置中，并使用针对内标选择的MRM离子对(transition)进行多重反应监测(MRM)分析以获得MRM色谱图。(D)然后查看MRM色谱图，以识别源自生物样本的显示出与源自内标的肽(内标肽)相同的保留时间的靶肽生物标志物，并通过将内标肽的峰面积与靶肽生物标志物的峰面积比较来定量测试样本中的靶蛋白质生物标志物。

任何合适的生物样本可以用作用于LC-MS/MS/MRM分析的起点，包括源自血液、尿液、唾液、毛发、细胞、细胞组织、活检材料及其经处理产物的生物样本；以及通过基因重组技术制备的含蛋白质的样本。

下面进一步描述以上步骤(A)至(D)中的每一个步骤。

步骤(A)(片段化和标记)。在步骤(A)中，将靶蛋白质生物标志物片段化为肽的集合体，随后将该肽的集合体用稳定的同位素X标记。为了将靶蛋白质片段化，例如，可以使用利用蛋白水解酶(蛋白酶)诸如胰蛋白酶消化靶蛋白质的方法和化学切割方法(诸如使用溴化氰的方法)。优选通过蛋白酶消化。已知如果允许蛋白水解消化进行完全，则给定摩尔量的蛋白质产生相同摩尔量的每种胰蛋白酶肽切割产物。因此，确定给定蛋白质的胰蛋白酶肽摩尔量允许确定样本中原始蛋白质的摩尔量。靶蛋白质的绝对定量可以通过确定蛋白酶消化(肽的集合体)中包含的靶蛋白质衍生肽的绝对量来完成。因此，为了允许蛋白水解消化进行完全，优选在用胰蛋白酶进行蛋白酶消化之前进行还原和烷基化处理，以将靶蛋白质中所含的二硫键还原并烷基化。

随后，用稳定的同位素X对获得的消化物(肽的集合体，其包含生物样本中靶生物标志物的肽)进行标记。稳定的同位素X的实例包括氢原子的¹H和²H、碳原子的¹²C和¹³C，以及氮原子的¹⁴N和¹⁵N。可以从中适当地选择任何同位素。稳定的同位素X的标记可以通过将消化物(肽的集合体)与含有稳定同位素的试剂反应来进行。可商购获得的此类试剂的优选实例包括mTRAQ(注册商标)(Applied Biosystems生产)，它是胺特异性的稳定同位素试剂盒。mTRAQ由2种或3种类型的试剂(mTRAQ-轻和mTRAQ-重；或mTRAQ-D0、mTRAQ-D4和mTRAQ-D8)组成，这些试剂之间因同位素标记而具有恒定的质量差异，并且这些试剂与肽的N末端或赖氨酸残基的伯胺结合。

步骤(B)(添加内标)。在步骤(B)中，向步骤(A)中获得的样本中添加已知量的内标。本文中使用的内标是通过将由与待测量的靶蛋白质(靶生物标志物)相同的氨基酸序列组成的蛋白质(标准蛋白质)片段化并用稳定的同位素Y标记所获得的消化物(肽的集合体)而获得的消化物(肽的集合体)。片段化处理可以按照与上述靶蛋白质相同的方式进行。用稳定的同位素Y标记也可以按照与上述靶蛋白质相同的方式进行。然而，本文使用的稳定同位素Y必须是质量与用于标记靶蛋白质消化物的稳定同位素X的质量不同的同位素。例如，在使用前面提到的mTRAQ(注册商标)(Applied Biosystems公司生产)的情况下，当使用mTRAQ-轻来标记靶蛋白质消化物时，应当使用mTRAQ-重来标记标准蛋白消化物。

步骤(C)(LC-MS/MS和MRM分析)。在步骤(C)中，首先将步骤(B)中获得的样本置于LC-MS/MS装置中，然后使用针对内标选择的MRM离子对进行多重反应监测(MRM)分析。通过使用LC-MS/MS装置的LC(液相色谱法)，首先通过一维或多维高效液相色谱法分离步骤(B)中获得的样本(用稳定同位素标记的肽的集合体)。此类液相色谱法的具体实例包括阳离子交换色谱法，其中利用肽之间的电荷差异进行分离；以及反相色谱法，其中利用肽之间的疏水性差异进行分离。这两种方法可以组合使用。

随后，使用包含两台串联连接的质谱仪的串联质谱仪(MS/MS质谱仪)对经分离的肽中的每一种进行串联质谱分析。使用此种质谱仪使得能够检测几fmol水平的靶蛋白质。此外，MS/MS分析使得能够分析有关肽的内部序列信息，从而实现无假阳性的识别。也可以使用其他类型的MS分析仪，包括扇形磁场质谱仪(Sector MS)、四极杆质谱仪(QMS)、飞行时间质谱仪(TOFMS)和傅里叶变换离子回旋共振质谱仪(FT-ICRMS)以及这些分析仪的组合。

随后，将获得的数据通过搜索引擎输入以进行光谱分配并列出针对每种蛋白质的通过实验检测到的肽。优选将所检测到的肽针对每种蛋白质分组，并且以谱上信号强度递减的顺序，从每个MS/MS谱中优选选择至少三个具有大于前体离子的m/z值的片段和至少三个具有优选500或更高的m/z值的片段。从这些片段中，以强度递减顺序选择两个或更多个片段，并且将强度的平均值定义为MRR离子对的预期灵敏度。当从一种蛋白质检测到多种肽时，以预期灵敏度作为指标，选择至少两种具有最高灵敏度的肽作为标准肽。

步骤(D)(测试样本中靶蛋白质的定量)。步骤(D)包括识别在步骤(C)中检测到的MRM色谱图中源自靶蛋白质(感兴趣的靶生物标志物)的显示出与源自内标的肽(内标肽)相同的保留时间的肽，以及通过将内标肽的峰面积与靶肽的峰面积比较来定量测试样本中的靶蛋白质。可以通过利用事先制作的标准蛋白质的校准曲线来定量靶蛋白质。

校准曲线可以通过以下方法制作。首先，如上所述，用蛋白酶诸如胰蛋白酶消化由与靶生物标志物蛋白质的氨基酸序列同一的氨基酸序列组成的重组蛋白质。随后，用两种不同类型的稳定同位素单独标记已知浓度的前体-片段过渡选择标准品(PFTS)(即，一种用用于标记内标肽的稳定异构体标记(用IS标记)，而另一种用用于标记靶肽的稳定异构体标记(用T标记))。通过将一定量的IS标记的PTFS与各种浓度的T标记的PTFS混合来产生多个样本。将这些样本放入前面提到的LC-MS/MS装置中进行MRM分析。将所得MRM色谱图上的T标记的PTFS与IS标记的PTFS的面积比(T标记的PTFS/IS标记的PTFS)相对于T标记的PTFS的量作图以绘制校准曲线。测试样本中所含靶蛋白质的绝对量可以通过参考校准曲线来计算。

2.对应于蛋白质标志物的核酸的检测

在某些实施方案中，本发明涉及核酸生物标志物，例如本发明的蛋白质标志物的对应基因或mRNA的检测。

在各种实施方案中，本发明的预后方法通常涉及确定生物样本中的基因集合的表达水平。在本发明方法的实践中基因表达水平的确定可以通过任何合适的方法进行。例如，基因表达水平的测定可以通过检测由感兴趣的基因表达的mRNA的表达和/或通过检测由该基因编码的多肽的表达来进行。

为了检测编码本发明的生物标志物的核酸，可以使用任何合适的方法，包括但不限于Southern印迹分析、Northern印迹分析、聚合酶链式反应(PCR)(参见，例如，美国专利第4，683，195号、第4,683,202号和第6,040,166号；″PCR Protocols：A Guide to Methodsand Applications″，Innis等人.(编著)，1990，Academic Press：New York)、逆转录酶PCR(RT-PCT)、锚定PCR、竞争PCR(参见，例如，美国专利第5,747,251号)、eDNA末端快速扩增(RACE)(参见，例如，″Gene Cloning and Analysis：Current Innovations，1997，第99-115页)；连接酶链式反应(LCR)(参见，例如，EP 01 320 308)、单侧PCR(Ohara等人，Proc.Natl.Acad.Sci.，1989，86：5673-5677)、原位杂交、基于Taqman的测定(Holland等人，Proc.Natl.Acad.Sci.，1991，88：7276-7280)、差异显示(参见，例如，Liang等人，Nucl.Acid.Res.，1993，21：3269-3275)和其他RNA指纹分析技术、基于核酸序列的扩增(NASBA)和其他基于转录的扩增系统(参见，例如，美国专利第5,409,818号和第5,554,527号)、Qβ复制酶、链置换扩增(SDA)、修复链式反应(RCR)、核酸酶保护测定、基于扣减的方法、Rapid-等。

在其他实施方案中，感兴趣的生物标志物的基因表达水平可以通过扩增由mRNA产生的互补DNA(cDNA)或互补RNA(cRNA)并使用微阵列对该互补DNA(cDNA)或互补RNA(cRNA)进行分析来确定。许多不同的阵列配置及其生产方法是本领域技术人员已知的(参见，例如，美国专利第5,445,934号、第5,532,128号、第5,556,752号、第5,242,974号、第5,384,261号、第5,405,783号、第5,412,087号、第5,424,186号、第5,429,807号、第5,436,327号、第5,472,672号、第5,527,681号、第5,529,756号、第5,545,531号、第5,554,501号、第5,561,071号、第5,571,639号、第5,593,839号、第5,599,695号、第5,624,711号、第5,658,734号以及第5,700,637号)。微阵列技术可以同时允许测量大量基因的稳态mRNA水平。目前广泛使用的微阵列包括cDNA阵列和寡核苷酸阵列。使用微阵列的分析通常基于从经标记探针接收到的信号强度的测量值，该经标记探针用于检测与固定在微阵列上已知位置处的核酸探针杂交的来自样本的cDNA序列(参见，例如，美国专利第6,004,755号、第6,218,114号、第6,218,122号和第6,271,002号)。基于阵列的基因表达方法是本领域已知的并且已经描述于许多科学出版物以及专利(参见，例如，M.Schena等人，Science，1995，270：467-470；M.Schena等人，Proc.Natl.Acad.Sci.USA 1996，93：10614-10619；J.J.Chen等人，Genomics，1998，51：313-324；美国专利第5,143,854号、第5,445,934号、第5,807,522号、第5,837,832号、第6,040,138号、第6,045,996号、第6,284,460号和第6,607,885号)中。

根据标准方法，可以从生物样本中所含的细胞中分离用作扩增模板的核酸(Sambrook等人，1989)。该核酸可以是基因组DNA或经分级分离的RNA或全细胞RNA。在使用RNA的情况下，可能需要将RNA转化为互补的cDNA。在一个实施方案中，该RNA是全细胞RNA并且直接用作扩增的模板。

使与对应于本文识别的任何生物标志物核苷酸序列的核酸选择性杂交的引物对与经分离的核酸在允许选择性杂交的条件下接触。一旦杂交，使核酸：引物复合物与一种或多种促进模板依赖性核酸合成的酶接触。进行多轮扩增(也称为“循环”)，直到产生足量的扩增产物。接下来，检测扩增产物。在某些应用中，可以通过视觉手段进行检测。替代地，检测可能涉及通过化学发光、掺入的放射性标记或荧光标记的放射性闪烁照相，或甚至通过使用电或热脉冲信号的系统(Affymax technology；Bellus，1994)来间接识别产物。检测后，可以将给定患者中所见结果与统计学显著的正常患者和癌症患者参考群组进行比较。通过这种方式，可能将检测到的核酸量与各种临床状态相相关连。

如本文所定义的术语“引物”意在涵盖任何能够在模板依赖性过程中引发新生核酸的合成的核酸。通常，引物是长度为从十至二十个碱基对的寡核苷酸，但可以采用更长的序列。引物可以以双链或单链形式提供，但优选单链形式。

许多模板依赖性过程可用于扩增给定模板样本中存在的核酸序列。最著名的扩增方法之一是聚合酶链式反应(称为PCR)，其详细描述于美国专利第4,683,195号、第4,683,202号和第4,800,159号以及Innis等人(1990)中，其各自都通过引用方式以其整体并入本文。

在PCR中，制备了两种与靶核酸序列的相对互补链上的区域互补的引物序列。将过量的脱氧核苷三磷酸与DNA聚合酶例如Taq聚合酶一起添加到反应混合物中。如果样本中存在靶核酸序列，则引物将与靶核酸结合，并且聚合酶将通过添加核苷酸使引物沿着靶核酸序列延伸。通过升高和降低反应混合物的温度，经延伸的引物将与靶核酸解离从而形成反应产物，过量的引物将与靶核酸和反应产物结合，并且重复该过程。

可以执行逆转录酶PCR扩增程序以对扩增的mRNA的量进行定量。将RNA逆转录成cDNA的方法是众所周知的并且描述于Sambrook等人(1989)中。用于逆转录的替代方法利用热稳定性DNA聚合酶。这些方法描述于1990年12月21日提交的WO 90/07641中。聚合酶链式反应方法是本领域众所周知的。

用于扩增的另一种方法是公开于欧洲申请第320308号中的连接酶链式反应(“LCR”)，该欧洲申请通过引用方式以其并入本文。在LCR中，制备两个互补探针对，并且在靶序列的存在下，每个探针对将与靶标的相反互补链结合以使得它们邻接。在连接酶的存在下，该两个探针对将连接从而形成单一单元。通过温度循环(如在PCR中)，结合的连接单元从靶标上解离并且然后用作用于连接过量探针对的“靶序列”。美国专利第4,883,750号描述了用于使探针对与靶序列结合的类似于LCR的方法。

描述于PCT申请第PCT/US87/00880号中Qβ复制酶也可以用作本发明中的又另一种扩增方法。在此方法中，在RNA聚合酶的存在下将具有与靶标的区域互补的区域的RNA复制序列添加到样本中。该聚合酶将拷贝该复制序列，然后该复制序列可以被检测到。

等温扩增方法(其中使用限制性核酸内切酶和连接酶实现在限制性位点的一条链中含有核苷酸5′-[α-硫代]-三磷酸的靶分子的扩增)也可用于本发明中核酸的扩增。Walker等人.(1992)，其通过引用方式以其整体并入本文。

链置换扩增(SDA)是进行核酸等温扩增的另一种方法，其涉及多轮链置换和合成，即切口平移。一种称为修复链式反应(RCR)的类似方法涉及在整个靶扩增区域中对多个探针进行退火，然后进行修复反应，其中四个碱基中仅存在两个。其他两个碱基可以被添加作为生物素化衍生物以便于检测。在SDA中使用类似的方法。还可以使用循环探针反应(CPR)来检测靶标特异性序列。在CPR中，将具有非特异性DNA的3′和5′序列以及特异性RNA的中间序列的探针与样本中存在的DNA杂交。杂交后，用RNase H处理反应物，并且将探针产物识别为消化后释放的独特产物。将原始模板退火至另一个循环探针并重复反应。

根据本发明，可以使用描述于英国申请第2202328号和PCT申请第PCT/US89/01025号中的又其他扩增方法，其中的每一者均通过引用方式以其整体并入本文。在前一申请中，“经修饰的”引物被用于类似PCR、模板和酶依赖性合成中。引物可以通过用捕获部分(例如，生物素)和/或检测部分(例如，酶)标记来修饰。在后一应用中，将过量的经标记的探针添加到样本中。在靶序列的存在下，探针结合并被催化切割。切割后，靶序列被完整地释放从而被过量的探针结合。经标记的探针的切割预示着靶序列的存在。

其他考虑的核酸扩增程序包括基于转录的扩增系统(TAS)，包括基于核酸序列的扩增(NASBA)和3SR。Kwoh等人.(1989)；Gingeras等人，PCT申请WO 88/10315，其通过引用方式以其整体并入本文。在NASBA中，可以通过标准苯酚/氯仿提取、临床样本的热变性、用裂解缓冲液和小离心柱处理以分离DNA和RNA，或RNA的氯化胍提取来制备核酸用于扩增。这些扩增技术涉及对具有靶标特异性序列的引物进行退火。聚合后，用RNase H消化DNA/RNA杂合体，同时再对双链DNA分子进行热变性。在任一情况下，通过添加第二靶标特异性引物并随后聚合来将单链DNA制成完全双链。然后，通过聚合酶诸如T7或SP6对双链DNA分子进行多重转录。在等温循环反应中，将RNA逆转录成双链DNA，并再用诸如T7或SP6的聚合酶转录一次。所得产物，无论是截短的还是完整的，都指示靶标特异性序列。

Davey等人，欧洲申请第329822号(其通过引用方式以其整体并入本文)公开了涉及循环合成单链RNA(“ssRNA”)、ssDNA和双链DNA(dsDNA)的核酸扩增方法，该方法可根据本发明使用。ssRNA是第一引物寡核苷酸的第一模板，其被逆转录酶(RNA依赖性DNA聚合酶)延伸。然后通过核糖核酸酶H(RNase H，对具有DNA或RNA的双链体中的RNA具有特异性的RNase)的作用从生成的DNA：RNA双链体中去除RNA。所得的ssDNA是第二引物的第二模板，其还包括位于与模板同源的RNA聚合酶启动子(以T7 RNA聚合酶为例)5′的序列。然后，通过DNA聚合酶(以大肠杆菌DNA聚合酶1的大“Klenow”片段为例)延伸该引物，从而产生双链DNA(“dsDNA”)分子，该分子具有与位于引物之间的原始RNA的序列同一的序列并且在一端另外具有启动子序列。此启动子序列可以被适当的RNA聚合酶用于产生DNA的许多RNA拷贝。然后这些拷贝可能会重新进入循环，从而导致非常迅速的扩增。通过正确选择酶，这种扩增可以等温完成，而无需在每个循环中添加酶。由于此过程的循环性质，起始序列可以被选择为呈DNA或RNA的形式。

Miller等人，PCT申请WO 89/06700(通过引用方式以其整体并入本文)公开了基于将启动子/引物序列与靶标单链DNA(“ssDNA”)杂交并随后转录该序列的许多RNA拷贝的核酸序列扩增方案。此方案不是循环的，即不会从所得RNA转录物产生新模板。其他扩增方法包括“RACE”和“单侧PCR”。Frohman(1990)和0hara等人.(1989)，每一者都通过引用方式以其整体并入本文。

基于在具有所得“二-寡核苷酸”序列的核酸存在下连接两种(或更多种)寡核苷酸从而扩增二-寡核苷酸的方法也可用于本发明的扩增步骤中。Wu等人.(1989)，其通过引用方式以其整体并入本文。

本发明的寡核苷酸探针或引物可以具有任何合适的长度，取决于特定的测定格式和特定的需要以及所使用的靶向序列。在优选的实施方案中，寡核苷酸探针或引物的长度为至少10个核苷酸(优选地，10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32个......)并且它们可以被调适成特别适合于所选择的核酸扩增系统和/或所使用的杂交系统。如本领域众所周知的，更长的探针和引物也在本发明的范围内。本发明还涵盖长度超过30个、超过40个、超过50个核苷酸的引物和长度超过100个、超过200个、超过300个、超过500个、超过800个和超过1000个核苷酸的探针。当然，较长的引物具有更昂贵的缺点，因此本领域通常设计和使用长度为介于12至30个核苷酸之间的引物。如本领域众所周知的，长度范围为从10个至超过2000个核苷酸的探针可以用于本发明的方法中。至于上述同一性的百分比，未具体描述的探针和引物大小(例如，16、17、31、24、39、350、450、550、900、1240个核苷酸、......)也在本发明的范围内。在一个实施方案中，本发明的寡核苷酸探针或引物与标志物RNA(或其互补序列)或标志物mRNA特异性地杂交。更优选地，标志物引物和探针将被选择来检测与ER阳性样乳腺癌或ER阴性样乳腺癌风险相关的标志物RNA。

在其他实施方案中，检测手段可以利用杂交技术，例如，在此技术中，特异性引物或探针被选择来退火至感兴趣的靶生物标志物并且此后进行选择性杂交的检测。如本领域通常已知的，寡核苷酸探针和引物可以通过考虑其与其靶向序列杂交的解链点来设计(参见下文和Sambrook等人，1989，Molecular Cloning--A Laboratory Manual，第2版，CSHLaboratories；Ausubel等人，1994，in Current Protocols in Molecular Biology，JohnWiley&S0ns Inc.，N.Y.)。

为了使得杂交能够在本发明的测定条件下发生，寡核苷酸引物和探针应当包含与细丝蛋白A的一部分和本发明的另一种生物标志物的多核苷酸具有至少70％(至少71％、72％、73％、74％)，优选至少75％(75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％)，并且更优选至少90％(90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、100％)同一性的寡核苷酸序列。本发明的探针和引物是在严格杂交条件下杂交的探针和引物以及在至少中等严格条件下与本发明的生物标志同系物杂交的探针和引物。在某些实施方案中，本发明的探针和引物与本发明的生物标志物(例如钙结合蛋白质2、基因序列(例如cDNA或mRNA)具有完全的序列同一性。应当理解，基于本文公开的本发明的生物标志物，通过使用本领域已知的计算机比对和序列分析方法(参见Molecular Cloning：A Laboratory Manual，第三版，编著Cold Spring HarborLaboratory，2000)，可以容易地设计和在本发明中使用其他探针和引物。

3.抗体和标签

在一些实施方案中，本发明提供了包括用于本发明的标志物的高灵敏检测和定量的标记的方法和组合物。本领域技术人员将认识到，可以使用多种策略来标记靶分子以使得能够在颗粒混合物中检测或鉴别它们。标记可以通过任何已知的方式(包括利用标记和靶标的非特异性或特异性相互作用的方法)附接。标记可以提供可检测的信号或影响颗粒在电场中的迁移率。此外，标记可以直接完成或通过结合伴侣完成。

在一些实施方案中，标记包含与感兴趣的生物标志物结合的结合伴侣，其中该结合伴侣与荧光部分附接。本发明的组合物和方法可以利用高荧光部分，例如这样的部分，该部分在通过以该部分的激发波长发射光的激光模拟时能够发射至少约200个光子，其中该激光聚焦在含有该部分的直径不小于约5微米的斑点上，并且其中由激光引导至该斑点的总能量不超过约3微焦耳。下面更详细地描述适合于本发明的组合物和方法的部分。

在一些实施方案中，本发明提供了用于检测生物分子的标记，该标记包含附接至荧光部分的生物分子结合伴侣，其中该荧光部分在通过以该部分的激发波长发射光的激光模拟时能够发射至少约200个光子，其中该激光聚焦在含有该部分的直径不小于约5微米的斑点上，并且其中由激光引导至该斑点的总能量不超过约3微焦耳。在一些实施方案中，该部分包含多个荧光实体，例如约2至4个、2至5个、2至6个、2至7个、2至8个、2至9个、2至10个或约3至5个、3至6个、3至7个、3至8个、3至9个或3至10个荧光实体。在一些实施方案中，该部分包含约2至4个荧光实体。在一些实施方案中，生物分子是蛋白质或小分子。在一些实施方案中，生物分子是蛋白质。荧光实体可以是荧光染料分子。在一些实施方案中，该荧光染料分子包含至少一种经取代的吲哚鎓环体系，其中该吲哚鎓环的3-碳上的取代基含有化学反应性基团或缀合的物质。在一些实施方案中，染料分子是选自由以下组成的群组的AlexaFluor分子：Alexa Fluor 488、Alexa Fluor 532、Alexa Fluor 647、Alexa Fluor 680或Alexa Fluor 700。在一些实施方案中，染料分子是选自由以下组成的群组的Alexa Fluor分子：Alexa Fluor 488、Alexa Fluor 532、Alexa Fluor 680或Alexa Fluor 700。在一些实施方案中，染料分子是Alexa Fluor 647染料分子。在一些实施方案中，染料分子包括第一类型和第二类型的染料分子，例如两种不同的Alexa Fluor分子，例如，其中该第一类型和第二类型的染料分子具有不同的发射光谱。第一类型染料分子与第二类型染料分子的数目比可以是例如4∶1、3∶1、2∶1、1∶1、1∶2、1∶3或1∶4。结合伴侣可以是例如抗体。

在一些实施方案中，本发明提供了用于检测本发明的生物标志物的标记，其中该标记包含标志物的结合伴侣和荧光部分，其中该荧光部分在通过以该部分的激发波长发射光的激光模拟时能够发射至少约200个光子，其中该激光聚焦在含有该部分的直径不小于约5微米的斑点上，并且其中由激光引导至该斑点的总能量不超过约3微焦耳。在一些实施方案中，荧光部分包括荧光分子。在一些实施方案中，荧光部分包含多个荧光分子，例如约2至10个、2至8个、2至6个、2至4个、3至10个、3至8个或3至6个荧光分子。在一些实施方案中，标记包含约2至4个荧光分子。在一些实施方案中，该荧光染料分子包含至少一种经取代的吲哚鎓环体系，其中该吲哚鎓环的3-碳上的取代基含有化学反应性基团或缀合的物质。在一些实施方案中，荧光分子选自由以下组成的群组：Alexa Fluor 488、Alexa Fluor 532、Alexa Fluor 647、Alexa Fluor 680或Alexa Fluor 700。在一些实施方案中，荧光分子选自由以下组成的群组：Alexa Fluor 488、Alexa Fluor 532、Alexa Fluor 680或AlexaFluor 700。在一些实施方案中，荧光分子是Alexa Fluor 647染料分子。在一些实施方案中，结合伴侣包括抗体。在一些实施方案中，抗体是单克隆抗体。在其他实施方案中，抗体是多克隆抗体。

如本文所用的术语“抗体”是广义术语并且以其普通含义使用，包括但不限于指天然存在的抗体以及非天然存在的抗体，包括例如单链抗体、嵌合、双功能和人源化抗体，以及它们的抗原结合片段。抗体的“抗原结合片段”是指抗体的参与抗原结合的部分。抗原结合位点由重链(“H”)和轻链(“L”)的N末端可变(“V”)区的氨基酸残基形成。应当理解，对针对其产生抗体的分子的表位或区域的选择将决定其特异性，例如，对该分子的各种形式(如果存在的话)的选择，或对总体(例如，该分子的全部或基本上全部)的选择。

用于生产抗体的方法已经很成熟。本领域技术人员将认识到，许多程序可用于生产抗体，例如，如Antibodies，A Laboratory Manual，Ed Harlow and David Lane，ColdSpring Harbor Laboratory(1988)，Cold Spring Harbor，N.Y.中所述。本领域技术人员还应当理解，模拟抗体的结合片段或Fab片段也可以通过各种程序从遗传信息制备(AntibodyEngineering：A Practical Approach(Borrebaeck，C.，编者)，1995，Oxford UniversityPress，Oxford；J.Immunol.149，3914-3920(1992))。针对分子例如蛋白质和标志物的单克隆和多克隆抗体也可商购获得(R and D Systems，Minneapolis，Minn.；HyTest，HyTestLtd.，Turku Finland；Abcam Inc.，Cambridge，Mass.，USA，Life Diagnostics，Inc.，WestChester，Pa.，USA；Fitzgerald Industries International，Inc.，Concord，Mass.01742-3049USA；BiosPacific，Emeryville，Calif.)。

在一些实施方案中，抗体是多克隆抗体。在其他实施方案中，抗体是单克隆抗体。

抗体可以通过本领域普通技术人员已知的多种技术中的任一种来制备(参见，例如，Harlow和Lane，Antibodies：A Laboratory Manual，Cold Spring Harbor Laboratory，1988)。一般而言，抗体可以通过细胞培养技术来生产，包括如本文所述的单克隆抗体的产生，或通过将抗体基因转染到合适的细菌或哺乳动物细胞宿主中，以允许生产重组抗体。

单克隆抗体可以使用杂交瘤方法，诸如Kohler和Milstein的技术(Eur.J.Immunol.6：511-519，1976)及其改进来制备。这些方法涉及制备能够产生具有所需特异性的抗体的永生细胞系。单克隆抗体也可以通过重组DNA方法，诸如美国专利第4,816,567号中描述的那些方法来制备。所公开的方法中采用的编码抗体的DNA可以使用常规程序分离和测序。重组抗体、抗体片段和/或其融合体可以在体外或在原核细胞(例如细菌)或真核细胞(例如酵母、昆虫或哺乳动物细胞)中表达，并且根据需要使用众所周知的方法进一步纯化。

更具体地说，单克隆抗体(MAb)可以通过使用众所周知的技术，诸如美国专利第4,196,265号(通过引用方式并入本文)中例举的那些技术容易地制备。通常，此技术涉及用选定的免疫原组合物例如经纯化的或经部分纯化的表达的蛋白质、多肽或肽来免疫合适的动物。免疫组合物是以有效刺激抗体产生细胞的方式施用的。用于产生单克隆抗体(MAb)的方法通常沿着与用于制备多克隆抗体的方法相同的路线开始。诸如小鼠和大鼠的啮齿类动物是优选的动物，然而，使用兔、绵羊或青蛙细胞也是可能的。使用大鼠可能会提供某些优势(Goding,1986,第60-61页)，但优选小鼠，其中最优选BALB/c小鼠，因为这是最常规使用的并且通常产生更高百分比的稳定融合体。

如上所述给动物注射抗原。如果需要，可以使该抗原与载体分子诸如匙孔血蓝蛋白偶联。通常将抗原与佐剂，诸如弗氏完全佐剂或不完全佐剂混合。将以大约两周的间隔进行使用相同抗原的加强注射。免疫后，选择具有用于产生抗体的潜力的体细胞，特别是B淋巴细胞(B细胞)，用于MAb生成方案。这些细胞可以从经活检的脾脏、扁桃体或淋巴结或从外周血样本中获得。脾细胞和外周血细胞是优选的，前者是因为它们是处于分裂浆母细胞阶段的产生抗体的细胞的丰富来源，而后者是因为外周血很容易获得。通常，将对动物组进行免疫，并将取出具有最高抗体滴度的动物的脾脏，并通过用注射器匀浆脾脏来获得脾淋巴细胞。

然后，将来自经免疫的动物的产生抗体的B淋巴细胞与永生化骨髓瘤细胞的细胞融合，该永生骨髓瘤细胞通常与被免疫的动物属于同一物种。适合用于产生杂交瘤的融合程序的骨髓瘤细胞系优选地不产生抗体，具有高融合效率，并且具有酶缺陷，该酶缺陷导致它们不能在仅支持所需融合细胞(杂交瘤)生长的某些选择性培养基中生长。

然后，将选定的杂交瘤连续稀释并克隆到单个产生抗体的细胞系中，然后可以使该克隆无限繁殖以提供MAb。可以以两种基本方式将细胞系用于MAb生产。可将杂交瘤样本注射到用于提供用于初始融合的体细胞和骨髓瘤细胞的类型的组织相容性动物中(常常注射到腹膜腔中)。被注射的动物会长出分泌由经融合细胞杂合体产生的特异性单克隆抗体的肿瘤。然后可以抽取动物的体液，诸如血清或腹水，以提供高浓度的MAb。单个细胞系也可以在体外培养，其中该MAb自然分泌到培养基中，从培养基中可以容易地获得高浓度的MAb。如果需要，可以使用过滤、离心和各种色谱方法诸如HPLC或亲和色谱法来进一步纯化通过任一方法产生的MAb。

也可以通过体内繁殖杂交瘤细胞来获得大量的本发明的单克隆抗体。将细胞克隆注射到与亲代细胞组织相容的哺乳动物(例如同基因小鼠)中，以引起产生抗体的肿瘤的生长。任选地，在注射之前用碳氢化合物，特别是油，诸如降植烷(四甲基十五烷)激发(prime)动物。

根据本发明，可以通过包括用酶诸如胃蛋白酶或木瓜蛋白酶消化和/或通过化学还原切割二硫键的方法从如上所述产生的单克隆抗体获得本发明的单克隆抗体的片段。替代地，本发明涵盖的单克隆抗体片段可以使用自动化肽合成仪来合成。

抗体还可以源自重组抗体文库，该重组抗体文库基于已经在电脑中(in silico)设计的氨基酸序列并且由合成产生的多核苷酸编码。用于设计和获得在电脑中创建的序列的方法是本领域已知的(Knappik等人，J.Mol.Biol.296：254：57-86，2000；Krebs等人，J.Immunol.Methods 254：67-84，2001；美国专利第6,300,064号)。

可以使用本领域众所周知的技术来消化抗体以产生其抗原结合片段。例如，蛋白水解酶木瓜蛋白酶优先切割IgG分子以产生几个片段，其中两个片段(“F(ab)”片段)各自包含共价异二聚体，该共价异二聚体包含完整抗原结合位点。胃蛋白酶能够切割IgG分子以提供数个片段，包括包含两个抗原结合位点的“F(ab′)2”片段。“Fv”片段可以通过IgM、IgG或IgA免疫球蛋白分子的优先蛋白水解切割来产生，但更通常使用本领域已知的重组技术衍生。Fv片段包括包含抗原结合位点的非共价VH：：VL异二聚体，其保留了天然抗体分子的大部分抗原识别和结合能力(Inbar等人，Proc.Natl.Acad.Sci.USA 69：2659-2662(1972)；Hochman等人，Biochem.15：2706-2710(1976)；以及Ehrlich等人，Biochem.19：4091-4096(1980))。

还可以使用已知技术诸如美国专利第5,885,793号中描述的技术从scFv文库中分离与本文公开的蛋白质生物标志物特异性结合的抗体片段。

本领域中有多种多样的表达系统可用于产生抗体片段，包括Fab片段、scFv、VL和VH。例如，原核和真核起源的表达系统可用于抗体片段的大规模生产。特别有利的是允许将大量抗体片段分泌到培养基中的表达系统。已经描述了用于大规模生产抗体片段和抗体融合蛋白的真核表达系统，其基于哺乳动物细胞、昆虫细胞、植物、转基因动物和低等真核生物。例如，可以在酵母发酵系统中实现经济高效的抗体片段大规模生产。这些生物体的大规模发酵是本领域众所周知的并且目前用于大量生产几种重组蛋白质。

在一些情况下，与本发明方法中采用的蛋白质生物标志物结合的抗体是可商购获得的或者无需过度实验即可获得。

在又其他实施方案中，特别是当使用寡核苷酸作为结合伴侣来检测mRNA生物标志物或其他基于核酸的生物标志物并且与该mRNA生物标志物或其他基于核酸的生物标志物杂交时，结合伴侣(例如寡核苷酸)可以包含标记，例如荧光部分或染料。此外，本发明的任何结合伴侣，例如抗体，也可以用荧光部分标记。该部分的荧光将足以允许在单分子检测器(诸如本文描述的单分子检测器)中进行检测。如本文使用的术语“荧光部分”包括一种或多种荧光实体，其总荧光使得该部分可以在本文描述的单分子检测器中被检测到。因此，荧光部分可以包含单一实体(例如，量子点或荧光分子)或多个实体(例如，多个荧光分子)。应当理解，当如本文使用的术语“部分”是指荧光实体群组(例如，多个荧光染料分子)时，每个单个实体均可以分开地附接至结合伴侣，或者实体可以被附接在一起，只要实体作为一个群组提供足够的待检测荧光即可。

通常，该部分的荧光涉及量子效率和缺乏光褪色的组合，足以使得该部分可以在单分子检测器中以高于背景水平被检测到，具有期望的检测极限所需要的一致性、准确性和测定的精确性。例如，在一些实施方案中，荧光部分的荧光使得其允许在本文所述的仪器中以小于约10、5、4、3、2、1、0.1、0.01、0.001、0.00001或0.000001pg/ml的检测限和小于约20％、15％、14％、13％、12％、11％、10％、9％、8％、7％、6％、5％、4％、3％、2％、1％或更少(例如约10％或更少)的变异系数进行分子(例如，标志物)的检测和/或定量。例如，在一些实施方案中，荧光部分的荧光使得其允许在本文所述的仪器中以小于约5、1、0.5、0.1、0.05、0.01、0.005、0.001pg/ml的检测限和小于约10％的变异系数进行分子(例如，标志物)的检测和/或定量。如本文所使用的这些术语“检测限”或LoD包括可以识别样本含有感兴趣物质的分子的最低浓度，例如，第一非零值。它可以通过零点的变异性和标准曲线的斜率来定义。例如，测定的检测限可以通过运行标准曲线、确定标准曲线零值并向该值添加2倍标准偏差来确定。产生等于此值的信号的感兴趣物质的浓度是“检测下限”浓度。

此外，该部分具有与其在所选测定中的用途一致的特性。在一些实施方案中，该测定是免疫测定，其中荧光部分附接至抗体；该部分必须具有使其不会与其他抗体或蛋白质聚集，或者不会经历超过与该测定的所需准确度和精密度一致的聚集的特性。在一些实施方案中，优选的荧光部分是具有以下项的组合的荧光部分(例如，染料分子)：1)高吸收系数；2)高量子产率；3)高光稳定性(低光漂白)；和4)与对感兴趣的分子(例如，蛋白质)进行标记的相容性，使得该感兴趣的分子可以使用本发明的分析仪和系统进行分析(例如，不会引起感兴趣的蛋白质的沉淀，或者不导致已与该部分附接的蛋白质的沉淀)。

可以使用任何合适的荧光部分。实例包括但不限于Alexa Fluor染料(MolecularProbes，Eugene，Oreg.)。Alexa Fluor染料公开于美国专利第6,977,305号、第6,974,874号、第6,130,101号和第6,974,305号，它们都通过引用方式以其整体并入本文。本发明的一些实施方案利用选自由以下组成的群组的染料：Alexa Fluor 647、Alexa Fluor 488、Alexa Fluor 532、Alexa Fluor 555、Alexa Fluor 610、Alexa Fluor 680、Alexa Fluor700和Alexa Fluor 750。本发明的一些实施方案利用选自由以下组成的群组的染料：AlexaFluor 488、Alexa Fluor 532、Alexa Fluor 647、Alexa Fluor 700和Alexa Fluor 750。本发明的一些实施方案利用选自由以下组成的群组的染料：Alexa Fluor 488、Alexa Fluor532、Alexa Fluor 555、Alexa Fluor 610、Alexa Fluor 680、Alexa Fluor 700和AlexaFluor 750。本发明的一些实施方案利用Alexa Fluor 647分子，其具有介于约650和660nm之间的最大吸收和介于约660和670nm之间的最大发射。Alexa Fluor 647染料单独或与其他Alexa Fluor染料组合使用。

在一些实施方案中，被用于使用本发明的分析仪系统检测样本中生物标志物的荧光标记部分是量子点。量子点(QD)(也称为半导体纳米晶体或人造原子)是含有100至1，000个之间的任意数目的电子并范围为2-10nm的半导体晶体。一些QD的直径可以在10-20nm之间。QD具有高量子产率，这使得它们在光学应用中特别有用。QD是通过形成激子发出荧光的荧光团，激子与传统荧光团的激发态相似，但具有长得多的长达200纳秒的寿命。此特性使QD具有低光漂白性。QD的能级可以通过改变QD的尺寸和形状以及QD电势的深度来控制。小型激子QD的光学特征之一是着色，其是由点的大小决定的。点越大，荧光越红，或者越朝向荧光谱的红端。点越小，越蓝或者越朝向蓝端。决定发出荧光的光的能量以及因此颜色的带隙能量与QD尺寸的平方成反比。较大的QD具有更多的能级，这些能级间隔更紧密，从而允许QD吸收包含较少能量的光子，即那些更接近光谱红端的光子。由于点的发射频率取决于带隙，因此可以极其精确地控制点的输出波长。在一些实施方案中，用QD标记用单分子分析仪系统检测到的蛋白质。在一些实施方案中，单分子分析仪被用于检测用一个QD标记的蛋白质并使用滤光器来允许在不同波长下检测不同蛋白质。

F.经分离的生物标志物

1.经分离的多肽生物标志物

本发明的一个方面涉及经分离的标志物蛋白质及其生物活性部分，以及适合用作免疫原以产生针对标志物蛋白质或其片段的抗体的多肽片段。在一个实施方案中，可以使用标准蛋白质纯化技术通过适当的纯化方案来分离天然标志物蛋白质。在另一个实施方案中，包含标志物蛋白质的全部或区段的蛋白质或肽是通过重组DNA技术产生。作为重组表达的替代方案，此类蛋白质或肽可以使用标准肽合成技术来化学合成。

“经分离的”或“经纯化的”蛋白质或其生物活性部分基本上不含来自该蛋白质所来源自的细胞或组织来源的细胞材料或其他污染蛋白质，或者当化学合成时基本上不含化学前体或其他化学物。表述“基本上不含细胞材料”包括其中蛋白质与蛋白质从其分离或重组产生的细胞的细胞组分分离的蛋白质制备物。因此，基本上不含细胞材料的蛋白质包括具有少于约30％、20％、10％或5％(以干重计)的异源蛋白质(本文也称为“污染蛋白质”)的蛋白质制备物。当重组生产该蛋白质或其生物活性部分时，其还优选基本上不含培养基，即培养基占蛋白质制备物的体积的小于约20％、10％或5％。当通过化学合成生产该蛋白质时，该蛋白质优选基本上不含化学前体或其他化学物，即，该蛋白质与参与该蛋白质的合成的化学前体或其他化学物分离。因此，该蛋白质的此类制备物除感兴趣的多肽之外还具有小于约30％、20％、10％、5％(以干重计)的化学前体或化合物。

标志物蛋白质的生物活性部分包括包含与标志物蛋白质的氨基酸序列充分同一或源自标志物蛋白质的氨基酸序列的氨基酸序列的多肽，其包含比全长蛋白质更少的氨基酸，并且表现出对应全长蛋白质的至少一种活性。通常，生物活性部分包含具有对应全长蛋白质的至少一种活性的结构域或基序。本发明的标志物蛋白质的生物活性部分可以是长度为例如10、25、50、100个或更多个氨基酸的多肽。此外，可以通过重组技术制备其中删除了标志物蛋白质的其他区域的其他生物活性部分，并且可以针对该标志物蛋白质的天然形式的一种或多种功能活性对该生物活性部分进行评价。

优选的标志物蛋白质由序列表中提供的核苷酸序列编码。其他有用的蛋白质与这些序列之一基本上同一(例如，至少约40％，优选50％、60％、70％、80％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％同一)，并保留对应天然存在的标志物蛋白质的功能活性，但由于天然等位基因变异或诱变而而在氨基酸序列上有所不同。

为了确定两个氨基酸序列或两个核酸的同一性百分比，将序列进行比对以实现最佳比较目的(例如，可以在第一氨基酸或核酸序列的序列中引入空位以与第二氨基酸序列或核酸序列进行最佳比对)。然后比较对应氨基酸位置或核苷酸位置处的氨基酸残基或核苷酸。当第一序列中的位置被与第二序列中的对应位置相同的氨基酸残基或核苷酸占据时，则分子在该位置处是同一的。优选地，使用全局比对计算两个序列之间的同一性百分比。替代地，使用局部比对计算两个序列之间的同一性百分比。两个序列之间的同一性百分比是该序列所共享的同一位置的数目的函数(即，％同一性＝同一位置的数目/位置(例如，重叠位置)的总数目×100)。在一个实施方案中，两个序列是相同长度。在另一个实施方案中，两个序列并非相同长度。

两个序列之间同一性百分比的确定可以使用数学算法来实现。用于比较两个序列的数学算法的优选的非限制性实例是Karlin和Altschul(1990)Proc.Natl.Acad.Sci.USA87：2264-2268(如在Karlin和Altschul(1993)Proc.Natl.Acad.Sci.USA 90：5873-5877中所改良)的算法。此类算法被并入Altschul等人(1990)J.Mol.Biol.215：403-410的BLASTN和BLASTX程序中。BLAST核苷酸搜索可以用BLASTN程序、得分＝100、字长＝12进行，以获得与本发明的核酸分子同源的核苷酸序列。BLAST蛋白质搜索可以用BLASTP程序、得分＝50、字长＝3执行，以获得与本发明的蛋白质分子同源的氨基酸酸序列。为了获得用于比较目的的带空位比对，可以使用称为带空位BLAST的更新版本的BLAST算法，如Altschul等人(1997)Nucleic Acids Res.25：3389-3402中所述，其能够执行用于程序BLASTN、BLASTP和BLASTX的带空位局部比对。替代地，可使用PSI-Blast执行迭代搜索，其检测分子之间的远缘关系。当利用BLAST、带空位BLAST和PSI-Blast程序时，可以使用相应程序的默认参数(例如BLASTX和BLASTN)。请参见NCBI网站。用于序列比较的数学算法的另一个优选的非限制性实例是Myers和Miller，(1988)CABIOS4：11-17的算法。此种算法被并入ALIGN程序(2.0版)中，该程序是GCG序列比对软件包的一部分。当利用ALIGN程序比较氨基酸序列时，可以使用PAM120权重残差表(weight residue table)、空位长度罚分12和空位罚分4。用于识别局部序列相似性和比对的区域的再另一种有用算法是FASTA算法，如Pearson和Lipman(1988)Proc.Natl.Acad.Sci.USA 85：2444-2448中所述。当使用FASTA算法比较核苷酸或氨基酸序列时，可以例如使用PAM120权重残差表和k元组值(tuple value)2。

可以使用与上述技术类似的技术在允许或不允许空位的情况下确定两个序列之间的同一性百分比。在计算同一性百分比时，仅计算完全匹配。

本发明的另一个方面涉及针对本发明的蛋白质的抗体。在优选的实施方案中，抗体特异性地结合标志物蛋白质或其片段。如本文可互换使用的术语“抗体”和“多种抗体”是指免疫球蛋白分子及其包含免疫球蛋白分子的免疫活性部分(即，此种部分含有特异性地结合抗原的抗原结合位点，诸如标志物蛋白质，例如标志物蛋白质的表位)的片段和衍生物。特异性地结合至本发明的蛋白质的抗体是结合该蛋白质但基本上不结合天然地含有该蛋白质的样本(例如生物样本)中其他分子的抗体。免疫球蛋白分子的免疫活性部分的实例包括但不限于单链抗体(scAb)、F(ab)和F(ab′)₂片段。

本发明的经分离的蛋白质或其片段可以用作免疫原以产生抗体。可以使用全长蛋白质，或者替代地，本发明提供了用作免疫原的抗原肽片段。本发明的蛋白质的抗原肽包含本发明的蛋白质之一的氨基酸序列的至少8个(优选10、15、20或30个或更多个)氨基酸残基，并且涵盖该蛋白质的至少一个表位，从而使得针对该肽产生的抗体与该蛋白质形成特异性免疫复合物。抗原肽涵盖的优选表位是位于蛋白质表面的区域，例如亲水区域。疏水性序列分析、亲水性序列分析或类似分析可用于识别亲水区域。在优选的实施方案中，经分离的标志物蛋白质或其片段用作免疫原。

本发明提供了多克隆和单克隆抗体。如本文所用的术语“单克隆抗体”或“单克隆抗体组合物”是指仅含有一类能够与特定表位发生免疫反应的抗原结合位点的抗体分子群体。优选的多克隆和单克隆抗体组合物是已被选择用于针对本发明蛋白质的抗体的组合物。特别优选的多克隆和单克隆抗体制备物是仅含有针对标志物蛋白质或其片段的抗体的制备物。制备多克隆、单克隆和重组抗体和抗体片段的方法是本领域众所周知的。

2.经分离的核酸生物标志物

本发明的一个方面涉及经分离的核酸分子，其编码标志物蛋白质或其部分。本发明的经分离的核酸还包括足以用作杂交探针以鉴别标志物核酸分子及标志物核酸分子的片段(例如，适合用作用于扩增标志物核酸分子的特定产物或突变的PCR引物的那些)的核酸分子。如本文所用，术语“核酸分子”旨在包括DNA分子(例如，cDNA或基因组DNA)和RNA分子(例如，mRNA)以及使用核苷酸类似物产生的DNA或RNA的类似物。核酸分子可以是单链或双链的，但优选为双链DNA。

“经分离的”核酸分子是与存在于核酸分子的天然来源中的其他核酸分子分离的核酸分子。在一个实施方案中，“经分离的”核酸分子(优选蛋白质编码序列)不含该核酸所来源自的生物体的基因组DNA中天然侧接该核酸的序列(即，位于该核酸的5’和3’末端的序列)。例如，在各种实施方案中，经分离的核酸分子可含有少于约5kb、4kb、3kb、2kb、1kb、0.5kb或0.1kb的该核酸所来源自的细胞的基因组DNA中天然侧邻该核酸的核苷酸序列。在另一个实施方案中，“经分离的”核酸分子，诸如cDNA分子可以基本上不含其它细胞材料或者在通过重组技术产生时不含培养基，或者在化学合成时基本上不含化学前体或其它化学物。基本上不含细胞材料的核酸分子包括具有少于约30％、20％、10％或5％(以干重计)的异源核酸(本文也称为“污染核酸”)的制备物。

本发明的核酸分子可以使用标准分子生物学技术和本文所述的数据库记录中的序列信息来分离。使用此类核酸序列的全部或部分，本发明的核酸分子可以使用标准杂交和克隆技术(例如，如Sambrook等人，编者，Molecular Cloning：A Laboratory Manual，第2版，Cold Spring Harbor Laboratory Press，Cold Spring Harbor，NY，1989)分离。

本发明的核酸分子可以根据标准PCR扩增技术使用cDNA、mRNA或基因组DNA作为模板和适当的寡核苷酸引物来扩增。如此扩增的核酸可以克隆到合适的载体中并通过DNA序列分析来表征。此外，对应于本发明核酸分子的全部或部分的核苷酸可以通过标准合成技术，例如使用自动化DNA合成仪来制备。

在另一个优选的实施方案中，本发明的经分离的核酸分子包含具有与标志物核酸的核苷酸序列或编码标志物蛋白质的核酸的核苷酸序列互补的核苷酸序列的核酸分子。与给定核苷酸序列互补的核酸分子是与给定核苷酸序列充分互补以致其可以与给定核苷酸序列杂交从而形成稳定双链体的核酸分子。

此外，本发明的核酸分子可以仅包含核酸序列的一部分，其中全长核酸序列包含标志物核酸或者该全长核酸序列编码标志物蛋白质。此类核酸可以用作例如探针或引物。探针/引物通常用作一种或多种基本上纯化的寡核苷酸。寡核苷酸通常包含在严格条件下与本发明核酸的至少约15个，更优选至少约25、50、75、100、125、150、175、200、250、300、350或400个或更多个连续核苷酸杂交的核苷酸序列的区域。

基于本发明核酸分子序列的探针可用于检测对应于本发明的一种或多种标志物的转录物或基因组序列。在某些实施方案中，探针与穿过剪接接合点的核酸序列杂交。探针包含与其附接的标记基团，例如放射性同位素、荧光化合物、酶或酶辅因子。此类探针可用作诊断或预后测试试剂盒或测试板的一部分，该诊断或预后测试试剂盒或测试板是用于诸如通过测量来自受试者的细胞样本中编码蛋白质的核酸分子的水平，例如，检测mRNA水平或确定编码蛋白质的基因或其翻译控制序列是否已突变或缺失来识别表达或错误表达蛋白质的细胞或组织。

本发明进一步涵盖由于遗传密码的简并性而与编码标志物蛋白质(例如，具有序列表中提供的序列的蛋白质)的核酸的核苷酸序列不同并且因而编码相同蛋白质的核酸分子。

本领域技术人员应当理解，导致氨基酸序列改变的DNA序列多态性可以存在于群体(例如，人类群体)内。由于自然等位基因变异和已知在癌症中发生的变化，此类遗传多态性可以存在于群体内的个体之间。等位基因是在给定遗传基因座处交替出现的基因群组中的一个基因。此外，应当理解，影响RNA表达水平的DNA多态性也可能存在，其可能影响该基因的总体表达水平(例如，通过影响调控或降解)。

如本文所用，短语“等位基因变体”是指在给定基因座处出现的核苷酸序列或由该核苷酸序列编码的多肽。

如本文所用，术语“基因”和“重组基因”是指包含编码对应于本发明标志物的多肽的开放阅读框的核酸分子。此类天然等位基因变异通常可导致给定基因的核苷酸序列中的1-5％的变异性。替代的等位基因可以通过对许多不同个体中的感兴趣基因进行测序来识别。这可以很容易地通过使用杂交探针来识别多名个体中的相同遗传基因座来实现。意图任何和所有此类核苷酸变异及作为天然等位基因变异的结果并且不改变功能活性的所得的氨基酸多态性或变异在本发明的范围内。

在另一个实施方案中，本发明的经分离的核酸分子是长度为至少15、20、25、30、40、60、80、100、150、200、250、300、350、400、450、550、650、700、800、900、1000、1200、1400、1600、1800、2000、2200、2400、2600、2800、3000、3500、4000、4500个或更多个核苷酸并且在严格条件下与标志物核酸或编码标志物蛋白质的核酸杂交。如本文所用，术语“在严格条件下杂交”意在描述杂交和洗涤的条件，在该条件下彼此至少60％(65％、70％，优选75％)同一的核苷酸序列通常保持彼此杂交。此类严格条件是本领域技术人员所已知，并且可在Current Protocols in Molecular Biology，John Wiley&Sons，N.Y.(1989)的6.3.1-6.3.6节中查找。严格杂交条件的优选的非限制性实例是在约45℃下在6X氯化钠/柠檬酸钠(SSC)中杂交并随后在50-65℃下在0.2X SSC、0.1％SDS中进行一次或多次洗涤。

G.生物标志物应用

本发明提供了用于基于分子亚型对乳腺癌进行分类，例如将受试者中的乳腺癌识别为ER阳性样乳腺癌或ER阴性样乳腺癌的方法。本发明进一步提供了用于在主动治疗或观察等待期间监测ER阳性样乳腺癌或ER阴性样乳腺癌的进展或者监测ER阳性样乳腺癌或ER阴性样乳腺癌对治疗性治疗的反应的方法。

在一方面，本发明构成了可通过本发明的方法结合分析、检测和/或测量本发明的ER阳性样乳腺癌或ER阴性样乳腺癌生物标志物(即，表1和表2的生物标志物)获得的预后信息的应用，其远远超出了所发现的ER阳性样乳腺癌或ER阴性样乳腺癌与本发明的生物标志物之间的相关性。

例如，当执行如本文所述的用于检测和/或测量本发明的蛋白质生物标志物的本发明方法时，可以将生物样本与检测试剂(例如单克隆抗体)接触，该检测试剂选择性地结合至感兴趣的生物标志物从而形成蛋白质-蛋白质复合物，然后进一步直接(如果该抗体包含标记)或间接(如果使用次级检测试剂，例如次级抗体，其进而被标记)检测该蛋白质-蛋白质复合物。因此，本发明的方法将本发明的多肽标志物转化为蛋白质-蛋白质复合物，其包含可检测的初级抗体，或初级的和进一步的次级的抗体。需要形成此类蛋白质-蛋白质复合物以便识别感兴趣的生物标志物存在，并且作为执行本发明的方法的结果，形成此类蛋白质-蛋白质复合物必然会改变感兴趣的生物标志物的物理特征和特性。

当执行本发明的方法来检测与本发明的蛋白质生物标志物相对应的核酸时，同样的原理也适用。具体地说，当使用扩增方法时，该过程导致形成新的扩增子群体，即新合成的且在原始生物样本中不存在的分子，从而物理地转化生物样本。类似地，当使用杂交探针来检测靶标生物标志物时，通过探针(任选地包含标记)与靶标生物标志物mRNA(或其他核酸)的杂交实际上创建了新的物理分子种类，然后对其进行检测。由于进行本发明的方法，有效地新创建或形成了此类多核苷酸产物。

本发明在一些实施方案中提供了用于识别、检测和诊断ER阳性样乳腺癌和ER阴性样乳腺癌的方法。本公开在一些实施方案中进一步提供了用于基于乳腺癌具有ER阳性样或ER阴性样分子亚型的确定对受试者中的乳腺癌进行预后的方法。本发明的方法可以与被技术人员用来预后肿瘤学病症的进展或复发和/或接受肿瘤学病症治疗的受试者的生存期的任何其他方法配合实践。本文提供的方法可用于确定是否应对受试者进行另外的和/或更侵入性的测试或监测。据了解，像乳腺癌这样复杂的疾病很少使用单一测试进行监测。因此，应当理解，本文提供的诊断、预后和监测方法通常与本领域已知的其他方法配合使用。例如，本发明的方法可以与从受试者获得的样本的形态学或细胞学分析、成像分析和/或体格检查配合进行。细胞学方法将包括独自的、与其他标志物配合的任何其他分子标志物的免疫组织化学或免疫荧光检测(以及定量，如果合适的话)。其他方法包括通过原位PCR，或通过提取组织并用实时PCR定量其他标志物来检测其他标志物。PCR被定义为聚合酶链式反应。

还提供了用于评估乳腺癌的进展或者治疗方案例如化疗、放射疗法、免疫疗法、外科手术、激素疗法或可用于治疗受试者中的乳腺癌的任何其他治疗方法的功效的方法。在这些方法中，评估了一对样本(在较早的时间点或在治疗方案之前从受试者获得的第一样本和在较晚的时间点例如在受试者已经经受治疗方案的至少一部分时的较晚时间点从受试者获得的第二样本)中的标志物的量。应当理解，本发明的方法包括以规则或不规则的间隔获得和分析多于两个样本(例如，3、4、5、6、7、8、9个或更多个样本)以评估标志物水平。可以在连续或非连续的受试者样本之间进行成对比较。可以分析任何两个或更多个连续或不连续的受试者样本的标志物水平的趋势和标志物水平的变化率。

使用本文所述的方法，可以筛查多种分子以便识别调节例如增加或减少本发明标志物的表达和/或活性的分子。可以将如此识别的化合物提供给受试者以便治疗受试者中的肿瘤学病症、抑制受试者中的肿瘤学病症的侵袭性、预防受试者中的肿瘤学病症的复发，或预防受试者中的癌症的进展，例如乳腺癌。

本发明涉及预测医学的领域，其中诊断测定、预后测定、药物基因组学和监测临床试验被用于预后(预测)目的以从而预防性地治疗个体。因此，本发明的一方面涉及用于确定一种或多种标志物蛋白质或核酸的表达水平的预后测定，以便确定个体是否处于发生不良事件并进展至更晚期疾病(诸如但不限于乳腺癌的转移)的风险中。此类测定可用于预后或预测目的以从而在不良事件发作之前预防性地治疗个体。

本发明的又另一个方面涉及在临床试验中监测这些剂(例如，药物或其他治疗性化合物)对本发明的生物标志物的表达或活性的影响。这些和其他应用将在以下章节中进一步详细描述。

1.预后测定

用于检测生物样本中标志物蛋白质或对应核酸的存在或不存在或表达水平变化的示例性方法涉及从测试受试者获得生物样本(例如，肿瘤病症相关的体液)以及使该生物样本与能够检测多肽或核酸(例如，mRNA、基因组DNA或cDNA)的化合物或剂接触。因此，本发明的检测方法可用于体外以及体内检测例如生物样本中的mRNA、蛋白质、cDNA或基因组DNA。

本文提供的用于检测生物样本中标志物蛋白质或对应核酸的存在、不存在、表达水平变化的方法包括从受试者获得可能含有或可能不含待检测的标志物蛋白质或核酸的生物样本，将该样本与能够与待检测的标志物蛋白质或核酸形成复合物的标志物特异性结合剂(即，一种或多种标志物特异性结合剂)接触，以及将该样本与用于检测标志物-标志物特异性结合剂复合物(如果形成)的检测试剂接触。应当理解，本文提供的用于检测生物样本中标志物的表达水平的方法包括进行测定的步骤。在检测方法的某些实施方案中，样本中标志物蛋白质或核酸的水平为零或低于检测阈值。

该方法包括在标志物和标志物特异性结合剂之间形成瞬时或稳定的复合物。该方法要求复合物(如果形成)形成持续足以允许检测试剂结合复合物并产生可检测信号(例如，荧光信号、来自酶促反应产物的信号，例如，过氧化物酶反应、磷酸酶反应、β-半乳糖苷酶反应或聚合酶反应)的时间。

在某些实施方案中，使用相同的方法检测所有标志物。在某些实施方案中，使用相同的生物样本(例如，相同的体液或组织)检测所有标志物。在某些实施方案中，使用各种方法检测不同的标志物。在某些实施方案中，在不同的生物样本中检测标志物。

2.蛋白质检测

在本发明的某些实施方案中，待检测的标志物是蛋白质。使用许多测定检测蛋白质，其中待检测的标志物蛋白质和标志物特异性结合剂之间的复合物不会自然地产生，例如，因为其中一种组分不是天然存在的化合物或者用于检测的标志物和标志物特异性结合剂不是来自同一生物体(例如，使用来自小鼠、大鼠或山羊的标志物特异性结合抗体检测的人标志物蛋白质)。在本发明的优选实施方案中，用于检测的标志物蛋白质是人标志物蛋白质。在某些检测测定中，用于检测的人标志物被标志物特异性的非人抗体结合，因此在自然界中不会形成复合物。可以例如通过使用直接与标志物结合的经标记标志物特异性抗体，或通过使进一步的组分与标志物-标志物特异性抗体复合物结合来直接检测标志物蛋白质的复合物。在某些实施方案中，该进一步的组分是能够与第一标志物特异性抗体同时结合标志物的第二标志物特异性抗体。在某些实施方案中，该进一步的组分是与标志物特异性抗体结合的次级抗体，其中该次级抗体优选连接至可检测的标记(例如，荧光标记、酶标记、生物素)。当该次级抗体与酶促可检测的标记(例如过氧化物酶、磷酸酶、β-半乳糖苷酶)连接时，通过使酶促可检测的标记与适当的底物接触以产生比色、荧光或其他可检测的(优选可定量检测的)产物来检测该次级抗体。用于在本发明的方法中使用的抗体可以是多克隆抗体，然而，在优选的实施方案中，使用单克隆抗体。完整抗体或其片段或衍生物(例如Fab或F(ab′)₂)可用于本发明的方法中。此类标志物蛋白质检测策略被用于例如ELISA、RTA、蛋白质印迹和免疫荧光测定方法中。

在某些检测测定中，用于检测的生物样本中存在的标志物是酶并且检测试剂是酶底物。例如，该酶可以是蛋白酶并且该底物可以是包括合适的蛋白酶切割位点的任何蛋白质。替代地，该酶可以是激酶并且该底物可以是激酶的任何底物。在优选的实施方案中，与待检测的标志物酶形成复合物的底物不是人类受试者中该酶的底物。

在某些实施方案中，使标志物-标志物特异性结合剂复合物附接至固体支持物以检测标志物。该复合物可以在基底上形成或者在被捕获在基底上之前形成。例如，在ELISA、RIA、免疫沉淀测定、蛋白质印迹、免疫荧光测定、凝胶内酶测定(in gel enzymatic assay)中，用于检测的标志物直接或间接附接至固体支持物。在ELISA、RIA或免疫荧光测定中，标志物通常通过抗体或结合蛋白质间接附接至固体支持物。在蛋白质印迹或免疫荧光测定中，标志物通常直接附接至固体支持物。对于凝胶内酶测定，标志物在整合了酶的底物的凝胶(通常是丙烯酰胺凝胶)中被分离(resolved)。

3.核酸检测

在本发明的某些实施方案中，标志物是对应于标志物蛋白质的核酸。使用许多测定检测核酸，其中待检测的标志物核酸和标志物特异性探针之间的复合物不会自然地产生，例如，因为其中一种组分不是天然存在的化合物。在某些实施方案中，分析物包含核酸并且探针包含一种或多种合成单链核酸分子，例如DNA分子，DNA-RNA杂合体，PNA，或含有一种或多种人工碱基、糖或主链部分的经修饰的核酸分子。在某些实施方案中，合成核酸是包含荧光标记的单链DNA分子。在某些实施方案中，合成核酸是长度为约12个至约50个核苷酸的单链寡核苷酸分子。在某些实施方案中，待检测的核酸是mRNA，并且形成的复合物是与互补于mRNA的单链DNA分子杂交的mRNA。在某些实施方案中，通过首先使用与作为引物(例如，通用poly-T引物)的RNA杂交的单链DNA从RNA模板产生DNA分子(即，cDNA分子)以转录poly-A RNA来检测RNA。然后，可以使用cDNA作为使用标志物特异性探针的扩增反应(例如PCR、引物延伸测定)的模板。在某些实施方案中，可以使经标记的单链DNA与样本中存在的RNA杂交，以通过荧光原位杂交(FISH)检测RNA或通过northern印迹检测RNA。

例如，用于检测mRNA的体外技术包括northern杂交、原位杂交和rtPCR。用于检测基因组DNA的体外技术包括Southern杂交。例如，用于检测mRNA的技术包括PCR、northern杂交和原位杂交。方法包括定性方法和定量方法。

此类诊断、预后和监测测定的一般原理涉及在适当的条件下制备可能含有标志物和探针的样本或反应混合物并持续足够的时间以允许标志物和探针相互作用和结合，从而形成可以在反应混合物中被去除和/或被检测到的复合物。这些测定可以以本领域已知的多种方式，例如ELISA测定、PCR、FISH进行。

4.表达水平的检测

标志物水平可以基于绝对表达水平或归一化或相对表达水平来检测。当监测受试者的治疗或确定受试者的乳腺癌状态是否存在变化时，检测绝对标志物水平可能是优选的。例如，可以例如以规则的间隔(例如每月的间隔)在经受ER阳性样乳腺癌或ER阴性样乳腺癌治疗的受试者中监测一种或多种标志物的表达水平。可以随时间推移监测一种或多种标志物水平的调节，以观察标志物水平变化的趋势。受试者中本发明的生物标志物的表达水平可能高于正常样本中那些标志物的表达水平，但可能低于之前的表达水平，因此表明治疗方案对于受试者的益处。类似地，标志物水平的变化率对于未经受ER阳性样乳腺癌或ER阴性样乳腺癌主动治疗(例如，观察等待)的受试者可能很重要。标志物水平的变化或不变化与群体中存在的标志物水平相比可能与受试者的治疗决策更相关。在其他方面似乎具有正常、无癌乳腺的受试者中标志物水平的快速变化可能指示乳腺状态异常，即使标志物在群体的正常范围内。

作为基于标志物的绝对表达水平进行确定的替代方案，确定可以是基于标志物的归一化表达水平。通过将标志物的表达与非标志物的基因(例如组成型表达的持家基因)的表达进行比较来校正标志物的绝对表达水平，从而将表达水平归一化。用于归一化的合适基因包括持家基因，诸如肌动蛋白基因，或表皮细胞特异性基因。这种归一化允许将一个样本(例如患者样本)中的表达水平与另一个样本(例如非癌症样本)进行比较，或者在来自不同来源的样本之间进行比较。

替代地，该表达水平可以作为如与适当对照(例如，群体对照、相邻的正常组织对照、较早的时间点对照等)相比的相对表达水平来提供。优选地，基线确定中使用的样本将来自非癌细胞。细胞来源的选择取决于相对表达水平的使用。使用正常细胞中发现的表达作为平均表达得分有助于验证所测定的标志物是否具有癌症特异性(相对于正常细胞)。此外，随着更多数据的积累，可以修正平均表达值，从而基于积累的数据提供改进的相对表达值。癌细胞的表达数据提供了用于对癌症状态的严重程度进行分级的手段。

5.诊断、预后、监测和治疗方法

本发明提供了用于确定受试者中的乳腺癌的分子亚型的方法。该方法包括(a)检测来自受试者的生物样本中乳腺癌标志物的水平，其中该乳腺癌标志物包括选自表1和表2的一种或多种标志物；以及(b)将生物样本中乳腺癌标志物的水平与预定阈值比较；其中乳腺癌的分子亚型是基于乳腺癌标志物的水平高于或低于预定阈值来确定的。

在一些实施方案中，乳腺癌是雌激素受体(ER)阳性乳腺癌，例如，管腔A型(LA)乳腺癌、管腔B1型(LB1)乳腺癌，或LA和LB1型乳腺癌。在一些实施方案中，雌激素受体(ER)阳性乳腺癌不包括ER低乳腺癌。

在其他实施方案中，乳腺癌是雌激素受体(ER)阴性乳腺癌，例如，三阴性乳腺癌。

在一些实施方案中，生物样本包括乳腺组织样本或乳腺肿瘤组织样本。在其他实施方案中，生物样本包括骨髓和/或外泌体中的循环肿瘤细胞或播散性肿瘤细胞。在一些实施方案中，生物样本包括乳腺导管流体外渗物，例如从乳导管收集的流体。

在一些实施方案中，乳腺癌标志物包括表1中列出的一种或多种标志物，例如AGR3、ADIRF、REEP6、STARD10、MLPH、ABAT、THSD4、ACADSB、NME3、CIRBP、SSH3、PHPT1、GMPR2、PREX1、FIS1、HAGH、HSD17B8、AHCYL1、NT5C、MDP1或它们的任何组合。在一些实施方案中，当与受试者中的预定阈值相比时，表1中列出的一种或多种标志物以降低的水平或增加的水平存在。在一个实施方案中，表1中的一种或标志物的水平在与预定阈值相比时降低指示乳腺癌的分子亚型是ER阴性样。在另一个实施方案中，表1中的一种或标志物的水平在与预定阈值相比时增加指示乳腺癌的分子亚型是ER阳性样。

在其他实施方案中，乳腺癌标志物包括表2中列出的一种或多种标志物，例如ANKS1A、GART、SRPK1、NCBP1、TJP2、PNP、TIA1、MTHFD2、PLOD1、KPNA2、ASNS、MTHFD1L、FSCN1、SLC2A1或它们的任何组合。在一些实施方案中，当与受试者中的预定阈值相比时，表2中列出的一种或多种标志物以增加的水平或降低的水平存在。在一个实施方案中，表2中的一种或标志物的水平在与预定阈值相比时增加指示乳腺癌的分子亚型是ER阴性样。在另一个实施方案中，表2中的一种或标志物的水平在与预定阈值相比时降低指示乳腺癌的分子亚型是ER阳性样。

在一些实施方案中，乳腺癌标志物包含表1中列出的一种或多种标志物和表2中列出的一种或多种标志物。

在一些实施方案中，当与受试者中的预定阈值相比时，表1中列出的一种或多种标志物以降低的水平存在，并且表2中列出的一种或多种标志物以增加的水平存在。表1中的一种或标志物的水平在与预定阈值相比时降低以及表2中一种或多种标志物的水平在与预定阈值相比时增加指示乳腺癌的分子亚型是ER阴性样。

在其他实施方案中，当与受试者中的预定阈值相比时，表1中列出的一种或多种标志物以增加的水平存在，并且表2中列出的一种或多种标志物以降低的水平存在。表1中的一种或标志物的水平在与预定阈值相比时增加以及表2中的一种或多种标志物的水平在与预定阈值相比时降低指示乳腺癌的分子亚型是ER阳性样。

乳腺癌的ER阴性样分子亚型预测较差的生存期和/或短的无进展间隔。乳腺癌的ER阳性样分子亚型预测良好的生存期和/或长的无进展间隔。

本发明还提供了用于诊断受试者中的ER阴性乳腺癌的ER阳性样分子亚型的方法。该方法包括(a)检测来自受试者的生物样本中乳腺癌标志物的水平，其中该乳腺癌标志物包括选自表1和表2的一种或多种标志物；以及(b)将生物样本中乳腺癌标志物的水平与预定阈值比较；其中该乳腺癌标志物的水平高于或低于预定阈值指示该受试者患有ER阴性乳腺癌的ER阳性样分子亚型的诊断。

在一些实施方案中，乳腺癌标志物包括表1中列出的一种或多种标志物，例如AGR3、ADIRF、REEP6、STARD10、MLPH、ABAT、THSD4、ACADSB、NME3、CIRBP、SSH3、PHPT1、GMPR2、PREX1、FIS1、HAGH、HSD17B8、AHCYL1、NT5C、MDP1或它们的任何组合。在一些实施方案中，当与受试者中的预定阈值相比时，表1中列出的一种或多种标志物以增加的水平存在。表1中的一种或标志物的水平在与预定阈值相比时增加指示受试者患有ER阴性乳腺癌的ER阳性样分子亚型的诊断。

在其他实施方案中，乳腺癌标志物包括表2中列出的一种或多种标志物，例如ANKS1A、GART、SRPK1、NCBP1、TJP2、PNP、TIA1、MTHFD2、PLOD1、KPNA2、ASNS、MTHFD1L、FSCN1、SLC2A1或它们的任何组合。在一些实施方案中，当与受试者中的预定阈值相比时，表2中列出的一种或多种标志物以降低的水平存在。表2中的一种或标志物的水平在与预定阈值相比时降低指示受试者患有ER阴性乳腺癌的ER阳性样分子亚型的诊断。

在另一个实施方案中，乳腺癌标志物包括表1中列出的一种或多种标志物和表2中列出的一种或多种标志物。在一些实施方案中，当与受试者中的预定阈值相比时，表1中列出的一种或多种标志物以增加的水平存在，并且表2中列出的一种或多种标志物以降低的水平存在。表1中的一种或标志物的水平在与预定阈值相比时增加以及表2中一种或多种标志物的水平在与预定阈值相比时降低指示受试者患有ER阴性乳腺癌的ER阳性样分子亚型的诊断。

本发明进一步提供了用于诊断受试者中的ER阳性乳腺癌的ER阴性样分子亚型的方法。该方法包括(a)检测来自受试者的生物样本中乳腺癌标志物的水平，其中该乳腺癌标志物包括选自表1和表2的一种或多种标志物；以及(b)将生物样本中乳腺癌标志物的水平与预定阈值比较；其中该乳腺癌标志物的水平高于或低于预定阈值指示该受试者患有ER阳性乳腺癌的ER阴性样分子亚型的诊断。

在一些实施方案中，乳腺癌标志物包括表1中列出的一种或多种标志物，例如AGR3、ADIRF、REEP6、STARD10、MLPH、ABAT、THSD4、ACADSB、NME3、CIRBP、SSH3、PHPT1、GMPR2、PREX1、FIS1、HAGH、HSD17B8、AHCYL1、NT5C、MDP1或它们的任何组合。在一些实施方案中，当与受试者中的预定阈值相比时，表1中列出的一种或多种标志物以降低的水平存在。表1中的一种或标志物的水平在与预定阈值相比时降低指示受试者患有ER阳性乳腺癌的ER阴性样分子亚型的诊断。

在其他实施方案中，乳腺癌标志物包括表2中列出的一种或多种标志物，例如ANKS1A、GART、SRPK1、NCBP1、TJP2、PNP、TIA1、MTHFD2、PLOD1、KPNA2、ASNS、MTHFD1L、FSCN1、SLC2A1或它们的任何组合。在一些实施方案中，当与受试者中的预定阈值相比时，表2中列出的一种或多种标志物以增加的水平存在。表2中的一种或标志物的水平在与预定阈值相比时增加指示受试者患有ER阳性乳腺癌的ER阴性样分子亚型的诊断。

在另一个实施方案中，乳腺癌标志物包括表1中列出的一种或多种标志物和表2中列出的一种或多种标志物。在一些实施方案中，当与受试者中的预定阈值相比时，表1中列出的一种或多种标志物以降低的水平存在，并且表2中列出的一种或多种标志物以增加的水平存在。表1中的一种或标志物的水平在与预定阈值相比时降低以及表2中的一种或多种标志物的水平在与预定阈值相比时增加指示受试者患有ER阳性乳腺癌的ER阴性样分子亚型的诊断。

本发明还提供了用于监测受试者中的ER阳性样乳腺癌的方法。该方法包括(a)检测在第一时间从患有ER阳性样乳腺癌的受试者获得的第一生物样本中乳腺癌标志物的水平，其中该乳腺癌标志物包括选自表1和表2的一种或多种标志物；(b)检测在第二时间从受试者获得的第二生物样本中乳腺癌标志物的水平，其中该第二时间晚于第一时间；以及(c)将第二样本中乳腺癌标志物的水平与第一样本中乳腺癌标志物的水平比较；其中乳腺癌标志物水平的变化指示受试者中的ER阳性样乳腺癌的进展。

在一些实施方案中，第一和/或第二生物样本包括乳腺组织样本或乳腺肿瘤组织样本。在其他实施方案中，第一和/或第二生物样本包括骨髓和/或外泌体中的循环肿瘤细胞或播散性肿瘤细胞。在一些实施方案中，生物样本包括乳腺导管流体外渗物，例如从乳导管收集的流体。

在一些实施方案中，乳腺癌标志物包括表1中列出的一种或多种标志物，例如AGR3、ADIRF、REEP6、STARD10、MLPH、ABAT、THSD4、ACADSB、NME3、CIRBP、SSH3、PHPT1、GMPR2、PREX1、FIS1、HAGH、HSD17B8、AHCYL1、NT5C、MDP1或它们的任何组合。在一些实施方案中，表1中列出的该一种或多种标志物在与第一样本中该一种或多种标志物的水平相比时以增加的水平存在于第二样本中。第二样本中的表1中该一种或标志物的水平在与第一样本中该一种或多种标志物的水平相比时增加指示受试者中的ER阳性样乳腺癌进展。

在其他实施方案中，乳腺癌标志物包括表2中列出的一种或多种标志物，例如ANKS1A、GART、SRPK1、NCBP1、TJP2、PNP、TIA1、MTHFD2、PLOD1、KPNA2、ASNS、MTHFD1L、FSCN1、SLC2A1或它们的任何组合。在一些实施方案中，表2中列出的该一种或多种标志物在与第一样本中该一种或多种标志物的水平相比时以降低的水平存在于第二样本中。第二样本中的表2中该一种或标志物的水平在与第一样本中该一种或多种标志物的水平相比时降低指示受试者中的ER阳性样乳腺癌进展。

在另一个实施方案中，乳腺癌标志物包括表1中列出的一种或多种标志物和表2中列出的一种或多种标志物。在一些实施方案中，表1中列出的该一种或多种标志物在与第一样本中该一种或多种标志物的水平相比时以增加的水平存在于第二样本中，并且表2中列出的该一种或多种标志物在与第一样本中该一种或多种标志物的水平相比时以降低的水平存在于第二样本中。第二样本中的表1中该一种或标志物的水平在与第一样本中该一种或多种标志物的水平相比时增加以及第二样本中的表2中该一种或多种标志物的水平在与第一样本中该一种或多种标志物的水平相比时降低指示受试者中的ER阳性样乳腺癌进展。

本发明还提供了用于监测受试者中的雌激素受体(ER)阴性样乳腺癌的方法。该方法包括(a)检测在第一时间从患有ER阴性样乳腺癌的受试者获得的第一生物样本中乳腺癌标志物的水平，其中该乳腺癌标志物包括选自表1和表2的一种或多种标志物；以及(b)检测在第二时间从受试者获得的第二生物样本中乳腺癌标志物的水平，其中该第二时间晚于第一时间；以及(c)将第二样本中乳腺癌标志物的水平与第一样本中乳腺癌的水平比较；其中乳腺癌标志物水平的变化指示受试者中的ER阴性样乳腺癌的进展。

在一些实施方案中，乳腺癌标志物包括表1中列出的一种或多种标志物，例如AGR3、ADIRF、REEP6、STARD10、MLPH、ABAT、THSD4、ACADSB、NME3、CIRBP、SSH3、PHPT1、GMPR2、PREX1、FIS1、HAGH、HSD17B8、AHCYL1、NT5C、MDP1或它们的任何组合。在一些实施方案中，表1中列出的该一种或多种标志物在与第一样本中该一种或多种标志物的水平相比时以降低的水平存在于第二样本中。第二样本中的表1中该一种或标志物的水平在与第一样本中该一种或多种标志物的水平相比时降低指示受试者中的ER阴性样乳腺癌进展。

在其他实施方案中，乳腺癌标志物包括表2中列出的一种或多种标志物，例如ANKS1A、GART、SRPK1、NCBP1、TJP2、PNP、TIA1、MTHFD2、PLOD1、KPNA2、ASNS、MTHFD1L、FSCN1、SLC2A1或它们的任何组合。在一些实施方案中，表2中列出的该一种或多种标志物在与第一样本中该一种或多种标志物的水平相比时以增加的水平存在于第二样本中。第二样本中的表2中该一种或标志物的水平在与第一样本中该一种或多种标志物的水平相比时增加指示ER阴性样乳腺癌进展。

在另一个实施方案中，乳腺癌标志物包括表1中列出的一种或多种标志物和表2中列出的一种或多种标志物。在一些实施方案中，表1中列出的该一种或多种标志物在与第一样本中该一种或多种标志物的水平相比时以降低的水平存在于第二样本中，并且表2中列出的该一种或多种标志物在与第一样本中该一种或多种标志物的水平相比时以增加的水平存在于第二样本中。第二样本中的表1中该一种或标志物的水平在与第一样本中该一种或多种标志物的水平相比时降低以及第二样本中的表2中该一种或多种标志物的水平在与第一样本中该一种或多种标志物的水平相比时增加指示受试者中的ER阴性样乳腺癌进展。在某些实施方案中，本文提供的诊断、预后和监测方法进一步包括将生物样本中的一种或多种ER阳性样乳腺癌或ER阴性样乳腺癌标志物的检测水平与一种或多种对照样本比较，其中该对照样本是以下中的一者或多者：来自同一受试者的比生物样本更早时间点的样本、来自患有非癌性乳腺肿块的受试者的样本、来自患有非转移性乳腺癌的受试者的样本、来自患有转移性乳腺癌的受试者的样本、来自患有ER阳性乳腺癌的受试者的样本、来自患有ER阴性乳腺癌的受试者的样本、来自患有侵袭性乳腺癌的受试者的样本、从患有非侵袭性乳腺癌的受试者获得的样本、来自患有未经治疗的乳腺癌的受试者的样本以及来自接受乳腺癌治疗的受试者的样本。将生物样本中的标志物水平与来自具有各种正常和异常乳腺状态的受试者的对照样本比较可以促进各种乳腺状态的存在之间的区别，该各种乳腺状态包括例如ER阳性乳腺癌(例如管腔A型和/或管腔B型乳腺癌)和ER阴性乳腺癌(例如，三阴性乳腺癌)或本领域已知的乳腺癌的其他子类。

在某些实施方案中，本文提供的诊断、预后和监测方法进一步包括选择受试者，其中该受试者被怀疑患有乳腺癌，该受试者先前已被诊断患有乳腺癌并且被怀疑患有ER阳性或ER阴性乳腺，该受试者先前已被诊断患有ER阳性或ER阴性乳腺癌，该受试者同期被诊断患有ER阳性或ER阴性乳腺癌(即，在进行本文提供的方法时)，该受试者先前已接受过ER阳性或ER阴性乳腺癌的治疗，或者该受试者尚未接受过ER阳性或ER阴性乳腺癌的治疗。

在某些实施方案中，本文提供的诊断、预后和监测方法进一步包括从受试者获得生物样本，其中该受试者被怀疑患有乳腺癌，该受试者先前已被诊断患有乳腺癌并且被怀疑患有ER阳性或ER阴性乳腺，该受试者先前已被诊断患有ER阳性或ER阴性乳腺癌，该受试者同期被诊断患有ER阳性或ER阴性乳腺癌(即，在进行本文提供的方法时)，该受试者先前已接受过ER阳性或ER阴性乳腺癌的治疗，或者该受试者尚未接受过ER阳性或ER阴性乳腺癌的治疗。

在某些实施方案中，本文提供的诊断、预后和监测方法进一步包括基于选自表1和表2的一种或多种ER阳性样乳腺癌或ER阴性样乳腺癌标志物的水平为受试者选择治疗方案。

在某些实施方案中，本文提供的诊断、预后和监测方法进一步包括用包括一种或多种选自由以下组成的群组的治疗的方案治疗受试者：外科手术(例如，乳腺肿瘤的外科手术切除或乳房切除术)、放射、激素疗法、抗体疗法、利用生长因子的疗法、细胞因子和化疗。

在某些实施方案中，本文提供的诊断、预后和监测方法进一步包括基于本文提供的诊断、预后和监测方法的结果为受试者选择一种或多种具体治疗方案。在一个实施方案中，为受试者选择已知有效对抗具有在受试者/样本中检测到的生物标志物签名的乳腺癌的治疗方案。在某些实施方案中，基于本发明的诊断、预后或监测方法的结果，例如，当确定受试者的乳腺癌的分子亚型为ER阳性样乳腺癌或ER阴性样乳腺癌时，当确定受试者对治疗方案有反应时，或者当确定受试者对治疗方案没有反应时，或当确定受试者对治疗方案的反应不充分时，开始、改变、修正或维持治疗方法。在某些实施方案中，基于来自本文提供的诊断、预后或监测方法的结果来改变该治疗方法。

在某些其他实施方案中，本文提供的诊断、预后和监测方法进一步包括基于本文提供的诊断、预后和监测方法的结果为受试者施用或引入一种或多种具体治疗方案。在一个实施方案中，为受试者选择和/或施用已知有效对抗具有在受试者/样本中检测到的生物标志物签名的乳腺癌的治疗方案。在某些实施方案中，基于本发明的诊断、预后或监测方法的结果，例如，当确定受试者的乳腺癌的分子亚型为ER阳性样乳腺癌或ER阴性样乳腺癌时，当确定受试者对治疗方案有反应时，或者当确定受试者对治疗方案没有反应时，或当确定受试者对治疗方案的反应不充分时，开始、改变、修正或维持治疗方法。在某些实施方案中，基于来自诊断、预后或监测方法的结果改变该治疗方法。

在某些实施方案中，当乳腺癌亚型被确定为ER阴性样(例如，ER阳性和亚型ER阴性样)时，治疗方案包括一种或多种选自由以下组成的群组的治疗：化疗、放射和外科手术(例如，乳腺肿瘤外科手术切除或乳房切除术)。在一些实施方案中，进一步针对利用CDK4/6抑制剂的治疗对受试者进行评价。在一些实施方案中，治疗方案进一步包括CDK4/6抑制剂(例如，阿贝西利、哌柏西利和瑞波西利)。

在某些实施方案中，当乳腺癌亚型被确定为ER阳性样(例如，ER阴性和亚型ER阳性样)时，治疗方案包括一种或多种选自由以下组成的群组的治疗：激素疗法、新辅助疗法、放射、化疗和外科手术(例如，乳腺肿瘤外科手术切除或乳房切除术)。在一些实施方案中，进一步针对利用CDK4/6抑制剂的治疗对受试者进行评价。在一些实施方案中，治疗方案进一步包括CDK4/6抑制剂(例如，阿贝西利、哌柏西利和瑞波西利)。

在又其他实施方案中，本文提供的诊断、预后和监测方法进一步包括基于本文提供的诊断、预后和监测方法的结果施用治疗有效量的抗乳腺癌疗法的步骤。在一个实施方案中，为受试者选择已知有效对抗乳腺癌的治疗方案。在某些实施方案中，基于本发明的诊断、预后或监测方法的结果，例如，当确定受试者中的乳腺癌的分子亚型是ER阳性样乳腺癌或ER阴性样乳腺癌时，当确定受试者表达的本发明的一种或多种生物标志物(即，选自表1和表2的一种或多种ER阳性样乳腺癌或ER阴性样乳腺癌标志物)高于或低于指示ER阳性样乳腺癌或ER阴性样乳腺癌的某种阈值水平时，施用治疗方法。

在某些实施方案中，治疗方案的改变包括改变基于激素的疗法治疗。在某些实施方案中，用于乳腺癌的治疗包括对于在进行本文提供的后续诊断、预后或监测方法之前的一段间隔基于本发明的方法的结果的外科手术(例如，乳腺肿瘤外科手术切除或乳房切除术)、放射、激素疗法、抗体疗法、利用生长因子的疗法、细胞因子疗法和化疗中的一者或多者。

在本文提供的诊断、预后和监测方法的某些实施方案中，该方法进一步包括分离生物样本的组分。

在本文提供的诊断、预后和监测方法的某些实施方案中，该方法进一步包括标记生物样本的组分。

在本文提供的诊断、预后和监测方法的某些实施方案中，该方法进一步包括扩增生物样本的组分。

在本文提供的诊断、预后和监测方法的某些实施方案中，该方法包括与探针和生物样本的组分形成复合物。在某些实施方案中，与探针形成复合物包括与至少一种非天然存在的试剂形成复合物。在本文提供的预后和监测方法的某些实施方案中，该方法包括加工生物样本。在本文提供的诊断、预后和监测方法的某些实施方案中，检测至少两种标志物的水平的方法包括标志物组。在本文提供的诊断、预后和监测方法的某些实施方案中，检测水平的方法包含将待检测的标志物附接至固体表面。

本发明提供了为受试者中的乳腺癌选择施用某种治疗或反对施用某种治疗，包括：(1)检测在第一时间从患有ER阳性样乳腺癌或ER阴性样乳腺癌的受试者获得的第一样本中ER阳性样乳腺癌或ER阴性样乳腺癌的标志物的水平，其中该受试者未接受过乳腺癌治疗，其中ER阳性样乳腺癌或ER阴性样乳腺癌的标志物包括选自表1和表2的一种或多种标志物；(2)检测在第二时间从受试者获得的第二样本中ER阳性样乳腺癌或ER阴性样乳腺癌的标志物的水平，例如，其中该受试者正接受乳腺癌治疗；(3)将第一样本中ER阳性样乳腺癌或ER阴性样乳腺癌的标志物的水平与第二样本中ER阳性样乳腺癌或ER阴性样乳腺癌的标志物的水平比较；其中第二次之后选择施用某种治疗或反对施用某种治疗是基于第一样本和第二样本之间ER阳性样乳腺癌或ER阴性样乳腺癌的标志物水平的变化的存在或不存在。

在某些实施方案中，该方法进一步包括获得在第三时间从受试者获得的第三样本(例如，其中该受试者正在接受乳腺癌治疗)，检测第三样本中ER阳性样乳腺癌或ER阴性样乳腺癌的标志物的水平，其中ER阳性样乳腺癌或ER阴性样乳腺癌的标志物包括选自表1和表2的一种或多种标志物；以及将第三样本中ER阳性样乳腺癌或ER阴性样乳腺癌的标志物的水平与第一样本中ER阳性样乳腺癌或ER阴性样乳腺癌的标志物和/或第二样本中该一种或多种标志物的水平比较。

在某些实施方案中，第二样本中ER阳性样乳腺癌或ER阴性样乳腺癌的标志物的水平如与第一样本中ER阳性样乳腺癌或ER阴性样乳腺癌的标志物的水平相比增加或降低是该疗法在减缓或预防乳腺癌进展方面无效的指示，其中ER阳性样乳腺癌或ER阴性样乳腺癌的标志物包括选自表1和表2的一种或多种标志物。在某些实施方案中，第二样本中ER阳性样乳腺癌或ER阴性样乳腺癌的标志物的水平如与第一样本中ER阳性样乳腺癌或ER阴性样乳腺癌的标志物相比增加或降低是为当前治疗选择另一个剂量或选择不同治疗的指示，其中ER阳性样乳腺癌或ER阴性样乳腺癌的标志物包括选自表1和表2的一种或多种标志物。

在某些实施方案中，该方法进一步包括检测第一样本和第二样本中乳腺癌的已知预后标志物的水平，并且然后优选进一步包括将第一样本中乳腺癌的已知预后标志物的水平与第二样本中乳腺癌的已知预后标志物的水平比较。在某些实施方案中，第二样本中ER阳性样乳腺癌或ER阴性样乳腺癌的标志物的水平如与第一样本中ER阳性样乳腺癌或ER阴性样乳腺癌的标志物的水平相比增加或降低与第二样本中乳腺癌的已知预后标志物的水平如与第一样本中乳腺癌的已知预后标志物的水平相比增加或降低的组合在预测该疗法在减缓或预防受试者的乳腺癌进展中的有效性方面具有比单独分析单一标志物更高的预测值。

在某些实施方案中，第二样本中ER阳性样乳腺癌或ER阴性样乳腺癌的标志物的水平如与第一样本中ER阳性样乳腺癌或ER阴性样乳腺癌的标志物的水平相比增加或降低与第二样本中乳腺癌的已知预后标志物的水平如与第一样本中乳腺癌的已知预后标志物的水平相比增加或降低的组合在为受试者选择不同方案方面具有比单独分析单一标志物更高的预测值。

6.监测临床试验

监测剂(例如，药物化合物)对本发明的标志物水平的影响不仅可以应用于基础药物筛查或监测单一受试者的治疗，而且可以应用于临床试验。例如，可以在接受乳腺癌治疗的受试者的临床试验中监测影响标志物表达的剂的有效性。在优选的实施方案中，本发明提供了用于监测用剂(例如，激动剂、拮抗剂、拟肽、蛋白质、肽、核酸、小分子或其他候选药物)治疗受试者的有效性的方法，其包括以下步骤：(i)在施用该剂之前从受试者获得施用前样本；(ii)检测施用前样本中本发明的一种或多种选定标志物的水平；(iii)从受试者获得一个或多个施用后样本；(iv)检测施用后样本中该一种或多种标志物的水平；(v)将施用前样本中该一种或多种标志物的水平与该一个或多个施用后样本中该一种或多种标志物的水平比较；以及(vi)相应地改变对受试者的剂的施用。例如，在治疗过程期间该蛋白质标志物的表达增加可能指示剂量无效并且需要增加剂量。相反，该蛋白质标志物表达降低可能指示治疗有效且无需改变剂量。

H.治疗/治疗剂

本发明提供了使用一种或多种(例如，1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20种或更多种)选自表1和表2的标志物或其任何组合治疗受试者(例如，人)中的疾病状态(例如，ER阳性样乳腺癌或ER阴性样乳腺癌)的方法。

本发明还提供了使用治疗剂(例如，调节剂)治疗ER阳性样乳腺癌或ER阴性样乳腺癌的方法，该调节剂调节(例如，降低或增加)一种或多种(例如，1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20种或更多个种)选自表1和表2的标志物或其任何组合的表达水平或活性。

在某些实施方案中，调节剂降低标志物例如ER阳性样乳腺癌或ER阴性样乳腺癌的标志物的水平，该标志物的表达水平在患有ER阳性样乳腺癌或阴性样乳腺癌的受试者中增加。

在其他实施方案中，调节剂增加标志物例如ER阳性样乳腺癌或ER阴性样乳腺癌的标志物的水平，该标志物的表达水平在患有ER阳性样乳腺癌或阴性样乳腺癌的受试者中降低。

在一些实施方案中，当乳腺癌亚型是ER阳性样时，降低表1中的标志物中的一种或多种标志物的水平和/或增加表2中的标志物中的一种或多种标志物的水平的调节剂可以用于治疗ER阳性样乳腺癌。

在一些实施方案中，当乳腺癌亚型是ER阴性样时，增加表1中的标志物中的一种或多种标志物的水平和/或降低表2中的标志物中的一种或多种标志物的水平的调节剂可以用于治疗ER阴性样乳腺癌。

本发明还提供了用于已知治疗剂(特别是基于激素的疗法对比基于非激素的疗法以及积极或主动治疗对比“观察等待”)的选择和/或施用的方法，该选择和/或施用取决于检测到的一种或多种(例如，1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20种或更多种)选自表1和表2的标志物的水平如与对照相比的变化。治疗方案的选择可以进一步包括检测乳腺癌的已知预后标志物以帮助选择治疗方法。治疗方法的选择还可以包括其他诊断考虑和患者特征，包括来自成像研究的结果、肿瘤大小或生长速率、较差的结局的风险、日常活动的中断，及年龄、TNM分类、癌症分期、临床和/或患者相关健康数据(例如，关于个体患者或群体的与各种类型的数据诸如人口统计资料、医疗史、药物和过敏、免疫状态、实验室测试结果、放射学图像、生命体征、个人统计数据如年龄和体重以及账单信息有关的电子健康信息的集合体)。

1.核酸治疗剂

核酸治疗剂是本领域众所周知的。核酸治疗剂包括与细胞中的靶序列互补的单链和双链核酸(即，具有长度至少15个核苷酸的互补区域的核酸治疗剂，其可以是一条或两条核酸链)。可以将核酸治疗剂递送至培养中的细胞，例如通过将核酸单独或与促进核酸到细胞中的摄取的剂一起添加至培养基中。核酸治疗剂可以通过任何施用途径递送至受试者中(即体内)的细胞。具体配制剂将取决于施用途径。

如本文所用，并且除非另有说明，术语“互补的”当用于相对于第二核苷酸序列描述第一核苷酸序列时是指包含第一核苷酸序列的寡核苷酸或多核苷酸在某些条件下与包含第二核苷酸序列的寡核苷酸或多核苷酸杂交并形成双链体结构的能力，如本领域技术人员理解的。此类条件可以是例如严格条件，其中严格条件可以包括：400mM NaCl、40mMPIPES pH 6.4、1mM EDTA，50℃或70℃，持续12-16小时，随后洗涤。可以应用其他条件，诸如在生物体内部可能遇到的生理相关条件。技术人员将能够根据经杂交的核苷酸的最终应用确定最适合于两个序列的互补性测试的条件集合。

当第一核苷酸序列的核苷酸与第二核苷酸序列的核苷酸在第一和第二核苷酸序列的整个长度上碱基配对时，序列可以彼此“完全互补”。然而，在本文中第一序列被称为相对于第二序列“基本上互补”的情况下，这两个序列可以是完全互补的，或者它们可以在杂交时形成一个或多个但通常不超过4、3或2个错配碱基对，同时保留在与其最终应用最相关的条件下杂交的能力。然而，在两个寡核苷酸被设计为在杂交时形成一个或多个如在双链核酸治疗剂中常见的单链突出端的情况下，此类突出端在确定互补性方面不应被视为错配。例如，包含一个长度为21个核苷酸的寡核苷酸和另一个长度为23个核苷酸的寡核苷酸的dsRNA(其中较长的寡核苷酸包含与较短的寡核苷酸完全互补的21个核苷酸的序列)就本文所述目的而言也可以被称为“完全互补”。

如本文所用的“互补的”序列还可以包括非Watson-Crick碱基对和/或由非天然的和经修饰的核苷酸形成的碱基对或者整体由该碱基对形成，条件是满足以上有关它们杂交的能力的要求。此类非Watson-Crick碱基对包括但不限于G:U Wobble或Hoogstein碱基配对。

本文中的术语“互补的”、“完全互补的”和“基本上互补的”可以针对dsRNA的有义链和反义链之间或者dsRNA的反义核酸或反义链与靶序列之间的碱基匹配使用，如从它们的使用的上下文所理解的。

如本文所用，与信使RNA(mRNA)“的至少一部分基本上互补”的多核苷酸是指与感兴趣的mRNA的连续部分(包括5'UTR、开放阅读框(ORF)或3'UTR)基本上互补的多核苷酸。例如，多核苷酸与对应于表1或表2的蛋白质标志物的mRNA的至少一部分互补。

核酸治疗剂通常包括化学修饰，以提高其稳定性并调节其药代动力学和药效学特性。例如，核苷酸上的修饰可以包括但不限于LNA、HNA、CeNA、2'-羟基以及它们的组合。

核酸治疗剂进一步可进一步包含至少一个硫代磷酸酯或甲基膦酸酯核苷酸间键联。硫代磷酸酯或甲基膦酸酯核苷酸间键联修饰可发生在有义链或反义链或两者(在包括有义链的核酸治疗剂中)的任何核苷酸上在该链的任何位置中。例如，核苷酸间键联修饰可以发生在有义链或反义链上的每个核苷酸上；每个核苷酸间键联修饰可以以交替模式发生在有义链或反义链上；或者有义链或反义链可以以交替模式含有这两种核苷酸间键联修饰。有义链上的核苷酸间键联修饰的交替模式可以与反义链相同或不同，并且有义链上的核苷酸间键联修饰的交替模式可以相对于反义链上的核苷酸间键联修饰的交替模式具有偏移。

A.单链治疗剂

反义核酸治疗剂单链核酸治疗剂通常长度为约16至30个核苷酸，并且与培养物或生物体中的靶细胞中的靶核酸序列互补。

涉及反义核酸、化学修饰和治疗用途的专利提供在例如涉及经化学修饰的含RNA治疗性化合物的美国专利第5,898,031号和涉及使用这些化合物作为治疗剂的方法的美国专利第6,107,094号中。美国专利第7,432,250号涉及通过施用单链的经化学修饰的RNA样化合物来治疗患者的方法；以及美国专利第7,432,249号涉及含有单链的经化学修饰的RNA样化合物的药物组合物。美国专利第7,629,321号涉及使用具有多个RNA核苷和至少一种化学修饰的单链寡核苷酸切割靶mRNA的方法。段落中列出的每项专利均通过引用方式并入本文。

B.双链治疗剂

在许多实施方案中，双链体区域长度为15-30个核苷酸对。在一些实施方案中，双链体区域长度为17-23个核苷酸对、长度为17-25个核苷酸对、长度为23-27个核苷酸对、长度为19-21个核苷酸对，或长度为21-23个核苷酸对。

在某些实施方案中，每条链具有15-30个核苷酸。

本发明方法中使用的RNAi剂包括具有如例如出版物WO 2009/073809和WO/2012/037254中公开的化学修饰的剂，其各自的全部内容通过引用方式并入本文。

用于在本发明的方法中使用的核酸治疗剂还包括双链核酸治疗剂。如本文可互换使用的“RNAi剂”、“双链RNAi剂”、双链RNA(dsRNA)分子(也称为“dsRNA剂”、“dsRNA”、“siRNA”、“iRNA剂”)是指核糖核酸分子的复合物，其具有包含两条反向平行且基本上互补(如下文所定义)核酸链的双链体结构。如本文所用，RNAi剂还可以包括dsiRNA(参见，例如，美国专利公布20070104688，其通过引用方式并入本文)。一般而言，每条链的大部分核苷酸是核糖核苷酸，但如本文所述，每条链或两条链还可以包含一种或多种非核糖核苷酸，例如脱氧核糖核苷酸和/或经修饰的核苷酸。另外，如本说明书中所使用的，“RNAi剂”可以包括具有化学修饰的核糖核苷酸；RNAi剂可以包括位于多个核苷酸处的实质性修饰。此类修饰可以包括本文公开的或本领域已知的所有类型的修饰。如在siRNA型分子中使用的任何此类修饰出于本说明书和权利要求的目的涵盖在“RNAi剂”内。本发明方法中使用的RNAi剂包括具有如以下中所公开的化学修饰的剂：例如2011年11月18日提交的美国临时申请第61/561，710号、2010年9月15日提交的国际申请第PCT/US2011/051597号和PCT公布WO 2009/073809，每一篇的整个内容均通过引用方式并入本文。形成双链体结构的两条链可以是一个较大RNA分子的不同部分，或者它们可以是单独的RNA分子。在该两条链是一个较大分子的一部分并且因此通过形成双链体结构的一条链的3′-末端和相应另一条链的5′-末端之间的未中断核苷酸链连接的情况下，连接RNA链被称为“发夹环”。在该两条链通过除形成双链体结构的一条链的3’末端与相应的另一链的5’末端之间的未中断核苷酸链以外的方式共价连接的情况下，连接结构被称为“接头”。RNA链可以具有相同或不同数目的核苷酸。碱基对的最大数目是dsRNA最短链中的核苷酸数目减去双链体中存在的任何突出端。除了双链体结构之外，RNAi剂还可包含一个或多个核苷酸突出端。术语“siRNA”在本文中也用于指如上所述的RNAi剂。

在另一个方面，该剂是单链反义RNA分子。反义RNA分子与靶mRNA内的序列互补。反义RNA可以通过与mRNA碱基配对并物理地阻碍翻译机制来以化学计量方式抑制翻译，参见Dias，N.等人，(2002)Mol Cancer Ther 1：347-355。反义RNA分子可具有与靶mRNA互补的约15-30个核苷酸。例如，反义RNA分子可以具有与对应于表1和表2的蛋白质标志物的mRNA序列互补的至少15、16、17、18、19、20或更多个连续核苷酸的序列。

术语“反义链”是指双链RNAi剂的链，其包括与靶序列(例如，人TTR mRNA)基本上互补的区域。如本文所用，术语“与编码运甲状腺素蛋白的mRNA的部分互补的区域”是指反义链上与TTR mRNA序列的部分基本上互补的区域。在具有互补性的区域与靶序列不完全互补的情况下，错配在末端区域中最容易被容忍，并且如果存在的话，通常位于一个或多个末端区域中，例如位于5′和/或3′末端的6、5、4、3或2个核苷酸内。

如本文所用的术语“有义链”是指dsRNA的链，其包括与反义链的区域基本互补的区域。

本发明还包括分子信标核酸，该分子信标核酸具有至少一个与本发明的核酸互补的区域，使得该分子信标可用于定量样本中本发明的核酸的存在。“分子信标”核酸是包含一对互补区域并且具有与其缔合的荧光团和荧光猝灭剂的核酸。荧光团和猝灭剂以使得当互补区域彼此退火时，荧光团的荧光被猝灭剂猝灭的取向与核酸的不同部分缔合。当核酸的互补区域彼此不退火时，荧光团的荧光被猝灭到较小程度。分子信标核酸描述于例如美国专利5，876，930中。

I.药物筛查

如上所指出，表达水平与ER阳性样乳腺癌或ER阴性样乳腺癌相相关连的标志物集合是用于通过筛查检测抑制或增强这些生物标志物基因和/或其产物的表达的化合物或实体来识别新治疗剂的有吸引力的靶标。因此，本发明提供了用于识别潜在地可用于调节ER阳性样乳腺癌或ER阴性样乳腺癌的化合物的方法。具体地说，本发明提供了用于识别潜在地可用于调节ER阳性样乳腺癌或ER阴性样乳腺癌的剂或化合物的方法，其中该剂或化合物调节(例如，增加或减少)选自表1和表2的标志物中的一种或多种标志物或其任何组合的表达和/或活性。

此类测定通常包括本发明的标志物与一种或多种测定组分之间的反应。其他组分可以是测试化合物本身，或者是测试化合物和本发明标志物的天然结合伴侣的组合。通过测定诸如本文描述的那些测定识别的化合物可用于例如调节例如抑制、改善、治疗或预防疾病。优选进一步测试被识别用于调节选自表1和表2的标志物中的一种或多种标志物的表达水平的化合物的可用于治疗和/或预防乳腺癌(特别是ER阳性样乳腺癌或ER阴性样乳腺癌)的活性。

本发明的筛查测定中使用的测试化合物可以从任何可用来源(包括天然和/或合成化合物的系统文库)获得。测试化合物也可以通过本领域已知的组合文库方法中的许多方法中的任一种方法获得，该组合文库方法包括：生物文库；类肽文库(具有肽的功能但具有新的非肽主链的分子文库，其可耐受酶促降解但仍然保持生物活性；参见例如Zuckermann等人，1994，J.Med.Chem.37：2678-85)；空间可寻址的平行固相或溶液相文库；需要解卷积的合成文库方法；“一珠粒一化合物”文库方法；以及使用亲和层析选择的合成文库方法。生物文库和类肽文库方法仅限于肽文库，而其他四种方法可适用于肽、非肽寡聚物或化合物的小分子文库(Lam，1997，Anticancer Drug Des.12：145)。

用于合成分子文库的方法的实例可以在本领域中，例如在以下中找到：DeWitt等人(1993)Proc.Natl.Acad.Sci.U.S.A.90：6909；Erb等人(1994)Proc.Natl.Acad.Sci.USA91：11422；Zuckermann等人(1994).J.Med.Chem.37：2678；Cho等人(1993)Science 261：1303；Carrell等人(1994)Angew.Chem.Int.Ed.Engl.33：2059；Carell等人(1994)Ange；Chem.Int.Ed.Engl.33：2061；和Gallop等人(1994)J.Med.Chem.37：1233。

化合物文库可以存在于溶液(例如，Houghten，1992，Biotechniques 13：412-421)中，或者存在于珠粒(Lam，1991，Nature 354：82-84)、芯片(Fodor，1993，Nature 364：555-556)、细菌和/或孢子(Ladner，USP 5,223,409)、质粒(Cull等人，1992，Proc Natl AcadSci USA 89：1865-1869)上，或者存在于噬菌体(Scott和Smith，1990，Science 249：386-390；Devlin，1990，Science 249：404-406；Cwirla等人，1990，Proc.Natl.Acad.Sci.87：6378-6382；Felici，1991，J.Mol.Biol.222：301-310；Ladner，同上.)上。

本发明的筛查方法包括使细胞(例如患病细胞，尤其是乳腺癌细胞，诸如ER阳性样乳腺癌或ER阴性样乳腺癌细胞)与测试化合物接触，以及确定测试化合物调节细胞中选自表1和表2的标志物中的一种或多种标志物的表达和/或活性的能力。本发明的筛查方法还包括使细胞(例如患病细胞，尤其是乳腺癌细胞，诸如ER阳性样乳腺癌或ER阴性样乳腺癌细胞)与测试化合物接触，以及确定测试化合物调节细胞中选自表1和表2的标志物中的一种或多种标志物或其任何组合的表达和/或活性的能力。选自表1和表2的标志物中的一种或多种标志物的表达和/或活性可以使用本领域已知的任何方法(诸如本文描述的那些方法)确定。

在另一个实施方案中，本发明提供了用于筛查作为本发明标志物或其生物活性部分的底物的候选或测试化合物的测定。在又另一实施方案中，本发明提供了用于筛查与本发明标志物或其生物活性部分结合的候选或测试化合物的测定。确定测试化合物直接结合至标志物的能力可以例如通过本领域已知的任何方法来完成。

本发明进一步涉及通过上述筛查测定识别的新型剂。因此，在适当的动物模型中进一步使用如本文所述识别的剂也在本发明的范围内。例如，能够调节如本文所述识别的本发明标志物的表达和/或活性的剂可以在动物模型中被用于确定利用此类剂的治疗(例如ER阳性样乳腺癌或ER阴性样乳腺癌的治疗)的功效、毒性或副作用。替代地，如本文所述识别的剂可以在动物模型中被用于确定此类剂的作用机制。此外，本发明涉及通过上述筛查测定识别的新型剂用于如上所述的治疗的用途。

在某些实施方案中，筛查方法是使用多孔测定板的多个孔中含有的细胞进行的。此类测定板可例如从Stratagene Corp.(La Jolla，Calif.)和Corning Inc.(Acton，Mass.)商购获得，并且包括例如48孔板、96孔板、384孔板和1536孔板。

结果的重现性可以通过使用相同浓度的相同候选化合物进行多次分析来测试(例如，通过在测定板的多于一个孔中温育细胞)。另外，由于候选化合物可能在变化的浓度下有效，这取决于该化合物的性质及该该化合物的一种或多种作用机制的性质，因此可以测试候选化合物的变化的浓度。一般地，使用1fM至约10mM的候选化合物浓度进行筛查。优选的筛查浓度通常在约10pM至约100μM之间。

本发明的筛查方法将提供“命中物”或“先导物”，即具有所需但未优化的生物活性的化合物。为满足临床有用性所需的所有物理化学、药代动力学和毒理学因素而对这些化合物进行的先导优化可以提供改善的候选药物。本发明还涵盖这些改善的候选药物及其作为用于调节乳腺癌的治疗剂的用途。

J.试剂盒/测试板

本发明还提供了用于诊断、预后或监测疾病或病症、病症的进展或复发，或接受病症(例如ER阳性样乳腺癌或ER阴性样乳腺癌)治疗的受试者的生存期的组合物和试剂盒。这些试剂盒可以包括以下的一种或多种：特异性结合至本发明标志物的试剂，以及用于测量该标志物的水平的一套说明书。

本发明还涵盖用于检测生物样本中标志物蛋白质或核酸的存在的试剂盒。此类试剂盒可用于确定受试者是否患有ER阳性样乳腺癌或ER阴性样乳腺癌。例如，该试剂盒可以包括能够检测生物样本中的标志物蛋白质或核酸的经标记的化合物或剂，以及用于确定样本中的该蛋白质或mRNA的量的工具(例如，结合该蛋白质的抗体或其片段，或结合至编码该蛋白质的DNA或mRNA的寡核苷酸探针)。试剂盒还可以包括对于使用试剂盒实践本文提供的方法中的任何方法或解释基于本文提供的教导使用试剂盒获得的结果的说明书。试剂盒还可以包括用于检测样本中与乳腺癌无关的对照蛋白质(例如组织样本的肌动蛋白、血液或血液衍生样本中的白蛋白)的试剂以用于使样本中存在的标志物的量归一化。试剂盒还可以包括用作对照或用于对用试剂盒进行的测定进行定量的供检测用的经纯化的标志物。

试剂盒包括用于在用于检测指示受试者中的ER阳性样乳腺癌或ER阴性样乳腺癌的分子亚型(或识别患有ER阳性样乳腺癌或ER阴性样乳腺癌等的受试者)的方法中使用的试剂测试板，该测试板包含至少两种检测试剂，其中每种检测试剂均对一种ER阳性样乳腺癌或ER阴性样乳腺癌特异性蛋白具有特异性，其中所述ER阳性样乳腺癌或ER阴性样乳腺癌特异性蛋白质选自本文提供的标志物集合。

对于基于抗体的试剂盒，该试剂盒可以包括，例如：(1)第一抗体(例如，附接于固体支持物)，其与第一标志物蛋白质结合；和任选地，(2)不同的第二抗体，其与第一标志物蛋白质或第一抗体结合并缀合至可检测的标记。在某些实施方案中，试剂盒包括(1)第二抗体(例如，附接于固体支持物)，其与第二标志物蛋白质结合；和任选地，(2)不同的第二抗体，其与第二标志物蛋白质或第二抗体结合并缀合至可检测的标记。第一和第二标志物蛋白质是不同的。在一个实施方案中，第一和第二标志物是本发明的标志物，例如选自表1和表2的标志物中的一种或多种标志物。在某些实施方案中，第一标志物和第二标志物都不是乳腺癌的已知预后标志物。在某些实施方案中，试剂盒包括第三抗体，其与不同于第一和第二标志物蛋白质的第三标志物蛋白质结合；以及不同的第二抗体，其与第三标志物蛋白质或结合第三标志物蛋白质的抗体结合，其中第三标志物蛋白质不同于第一和第二标志物蛋白质。

对于基于寡核苷酸的试剂盒，该试剂盒可以包括，例如：(1)寡核苷酸，例如，经可检测地标记的寡核苷酸，其与编码标志物蛋白质的核酸序列杂交；或(2)一对可用于扩增标志物核酸分子的引物。在某些实施方案中，试剂盒可以进一步包括，例如：(1)寡核苷酸，例如，第二经可检测地标记的寡核苷酸，其与编码第二标志物蛋白质的核酸序列杂交；或(2)一对可用于扩增第二标志物核酸分子的引物。第一和第二标志物是不同的。在一个实施方案中，第一和第二标志物是本发明的标志物，例如选自表1和表2的标志物中的一种或多种标志物。在某些实施方案中，试剂盒可以进一步包括，例如：(1)寡核苷酸，例如，第三经可检测地标记的寡核苷酸，其与编码第三标志物蛋白质的核酸序列杂交；或(2)一对可用于扩增第三标志物核酸分子的引物，其中该第三标志物不同于第一和第二标志物。在某些实施方案中，试剂盒包括对每种核酸标志物具有特异性的第三引物，以允许使用定量PCR方法进行检测。

对于色谱方法，试剂盒可以包括标志物，包括经标记的标志物，以允许通过色谱法检测和识别本发明的一种或多种标志物(例如选自表1和表2的标志物中的一种或多种标志物)以及任选的乳腺癌的已知预后标志物。在某些实施方案中，用于色谱方法的试剂盒包括用于衍生化本发明的一种或多种标志物的化合物。在某些实施方案中，用于色谱方法的试剂盒包括用于分离该方法的标志物的柱。

对检测本发明的标志物(例如选自表1和表2的标志物中的一种或多种标志物)具有特异性的试剂允许对复杂混合物(例如血清、组织样本)中的标志物进行检测和定量。在某些实施方案中，该试剂是物种特异性的。在某些实施方案中，该试剂不是物种特异性的。在某些实施方案中，该试剂是同工型特异性的。在某些实施方案中，该试剂不是同工型特异性的。

在某些实施方案中，用于ER阳性样乳腺癌或ER阴性样乳腺癌的诊断、预后、监测或表征的试剂盒包括至少一种对检测选自表1和表2的一种或多种标志物的水平具有特异性的试剂。在某些实施方案中，试剂盒进一步包括对于基于选自表1和表2的至少一种标志物的水平诊断、预后、监测或表征ER阳性样乳腺癌或ER阴性样乳腺癌的说明书。在某些实施方案中，试剂盒进一步包括对于检测样本中乳腺癌的已知预后标志物的水平的说明书，其中检测选自表1和表2的至少一种标志物。在某些实施方案中，试剂盒进一步包括至少一种用于特异性地检测乳腺癌的已知预后标志物的试剂。

本发明提供了试剂盒，其包括至少一种对检测选自表1和表2的至少一种标志物的水平具有特异性的试剂和至少一种对检测乳腺癌的已知预后标志物的水平具有特异性的试剂。

在某些实施方案中，试剂盒还可以包括例如缓冲剂、防腐剂、蛋白质稳定剂、反应缓冲液。试剂盒进一步可以进一步包括检测可检测的标记所必需的组分(例如，酶或底物)。试剂盒还可以含有对照样本或一系列对照样本，该对照样本可以被测定并与测试样本进行比较。对照可以是对照血清样本或视情况而定具有已知水平的靶标志物的经纯化蛋白质或核酸的对照样本。试剂盒的每个组分可以封装在单个容器内，并且所有各种容器可以与用于解释使用该试剂盒进行的测定的结果的说明书一起置于单一包装内。

本发明的试剂盒可以任选地包括可用于执行本发明的方法的另外的组分。

本发明进一步提供了具有用于检测受试者样本中的一种或多种ER阳性样乳腺癌或ER阴性样乳腺癌相关标志物的试剂和至少一种对照试剂的测试板。在某些实施方案中，ER阳性样乳腺癌或ER阴性样乳腺癌的标志物包括至少两种或更多种标志物，其中该两种或更多种标志物中的每一种选自表1和表2中列出的蛋白质标志物。

在某些实施方案中，对照试剂是用于检测针对生物样本中的检测的标志物(其中测试板提供有含有用作阳性对照的标志物的对照样本)，并且任选地用于定量生物样本中存在的标志物的量。在某些实施方案中，测试板包括针对不与ER阳性样乳腺癌或ER阴性样乳腺癌相关的标志物的检测试剂，已知该标志物存在于或不存在于生物样本中以分别提供阳性或阴性对照。测试板可以提供有用于检测样本中不与ER阳性样乳腺癌或ER阴性样乳腺癌相关的对照蛋白(例如，组织样本的肌动蛋白、血液或血液衍生样本中的白蛋白)以用于对该样本中存在的标志物的量进行归一化的试剂。测试板可以提供有供检测用的经纯化的标志物，以用作对照或用于对用该测试板执行的测定进行定量。

在某些实施方案中，测试板中ER阳性样乳腺癌或ER阴性样乳腺癌的标志物的水平在与对照或预定阈值相比时增加。在某些实施方案中，测试板中ER阳性样乳腺癌或ER阴性样乳腺癌的标志物的水平在与对照或预定阈值相比时降低。

在一些实施方案中，测试板包括具有与对照或预定阈值相比时增加的水平的一种或多种ER阳性样乳腺癌或ER阴性样乳腺癌标志物，和/或与对照或预定阈值相比时降低的水平的一种或多种ER阳性样乳腺癌或ER阴性样乳腺癌标志物。

在优选的实施方案中，测试板包括用于检测本发明的两种或更多种标志物(例如2、3、4、5、6、7、8、9种)的试剂，其优选与对照试剂配合。在该测试板中，每种标志物均通过对该标志物具有特异性的试剂来检测。在某些实施方案中，测试板进一步包括用于检测乳腺癌的已知预后标志物的试剂。在某些实施方案中，测试板包括重复的孔、斑点或部分以允许分析生物样本和对照样本的各种稀释液(例如，系列稀释液)。在优选的实施方案中，测试板允许定量检测本发明的一种或多种标志物。

在某些实施方案中，测试板是用于检测一种或多种标志物的蛋白质芯片。在某些实施方案中，测试板是用于检测一种或多种标志物的ELISA板。在某些实施方案中，测试板是用于检测一种或多种标志物的定量PCR的板。

在某些实施方案中，检测试剂的测试板提供在单一装置上，其包括针对本发明的一种或多种标志物的检测试剂和至少一种对照样本。在某些实施方案中，检测试剂的测试板提供在单一装置上，其包括针对本发明的两种或更多种标志物的检测试剂和至少一种对照样本。在某些实施方案中，用于检测本发明的不同标志物的多个测试板提供有至少一种均匀的对照样本以促进测试板之间结果的比较。

本文引用或参考的所有文献以及本文引用的文献中引用或参考的所有文献的内容，以及本文或本文通过引用方式并入的任何文献，GenBank登录号和基因编号以及公布的专利和专利申请中提及的任何产品的任何制造商说明、描述、产品规范和产品表，都特此通过引用方式并入，并且可以在本发明的实践中采用。本领域技术人员将认识到，本发明可以通过所公开的结构、材料、组合物和方法的变化来实践，并且此类变化被认为在本发明的范围内。

本发明通过以下实施例进一步说明，该实施例不应理解为限制。

实施例

实施例1：蛋白质组学分析-作为ER阳性样乳腺癌和ER阴性样乳腺癌的标志物的蛋白质的识别

本实施例描述了用于确定在ER阳性样乳腺癌和ER阴性样乳腺癌之间差异表达的生物标志物的分析。

对诊断为患有ER阳性(例如，管腔A型(LA)乳腺癌和管腔B1型(LB1))乳腺癌和ER阴性(例如，三阴性(TN))乳腺癌的患者进行乳腺组织蛋白质组学评估。训练数据集的聚类分析产生ER阳性(LA/LB1)和ER阴性(TN)乳腺癌的簇(图1A至图1C)。

使用7M尿素、2M硫脲、1％Halt蛋白酶和磷酸酶抑制剂混合液以及0.1％SDS裂解组织，随后进行超声处理。裂解后，将样本离心，并且上清液用于蛋白质组学分析。使用Coomassie Bradford蛋白质测定试剂盒测定蛋白质浓度。

将蛋白质在10mM三(2-羧乙基)膦(TCEP)中以55℃还原30分钟，然后在18.75mM碘乙酰胺中室温避光烷基化30分钟。使用丙酮沉淀蛋白质过夜。将蛋白质沉淀在200mM四乙基碳酸氢铵(TEAB)中重建，并用胰蛋白酶以1：40(胰蛋白酶：蛋白质)在37℃下消化过夜。然后使用制造商的方案用串联质量标签(Tandem Mass Tag，TMT)10-plex等重标记试剂套件(Thermo Pierce)标记肽。用5％羟胺淬灭标记反应物，持续15分钟，然后将其组合到每个相应的多重体(MP)中。将汇集的样本在真空离心机中干燥，随后使用C-18旋转柱(ThermoPierce)脱盐。将C-18的洗脱液在真空离心机中干燥并储存在-20℃直至进行LC-MS/MS分析。

使用与Thermo Q Exactive Plus MS联用的Waters nanoAcquity 2D LC系统进行LC-MS/MS分析。将经TMT标记的样本在线分级分离为12个基本反相级分。每个级分均经受90分钟的反相分离。MS分析使用数据依赖性Top-15采集方法。Q-Exactive plus使用的参数是完全MS调查扫描，分辨率35，000，扫描范围为400-1800汤普森(Th；Th＝Da/z)。MS/MS扫描是以35，000的分辨率和1.2Th的分离窗口收集的。通过30秒的动态排除，仅电荷为+2、+3和+4的肽被片段化。

然后使用Proteome Discoverer v1.4(Thermo)，通过使用MASCOT和Sequest搜索算法的以下参数搜索Swissport Mouse数据库(Swissprot，2016年7月20日，16794个实体)来加工LC-MS/MS原始数据：胰蛋白酶肽具有至少六个氨基酸长度和至多两个缺失切割位点，前体质量容差为10ppm，片段质量容差为0.02Da；静态修饰：半胱氨酸脲甲基化、N末端TMT10-plex；以及动态修饰：天冬酰胺和谷氨酰胺脱氨、蛋氨酸氧化和赖氨酸TMT10-plex。

图2示出总体数据加工和分析的工作流程。164种蛋白质被识别为在ER阴性(TN)和ER阳性(LB1)乳腺癌之间以及ER阴性(TN)和ER阳性(LA)乳腺癌之间差异表达的标志物。然后对这些标志物进行单变量生存期分析和过滤。在164种蛋白质中，进一步选择34种蛋白质作为ER阳性(LA/LB1)乳腺癌和ER阴性(TN)乳腺癌中具有显著差异的表达的标志物。使用该34种蛋白质作为分子亚型分类器进行质心模型分析以评估总生存期。

表1和表2是ER阳性(LA/LB1)和ER阴性(TN)乳腺癌之间差异表达的前34个检测到的蛋白质组学标志物的汇总表。表1提供了在ER阳性(LA/LB1)乳腺癌中上调的蛋白质标志物列表。表2提供了在ER阴性(TN)乳腺癌中上调的蛋白质标志物列表。

表1：在ER阳性(LA/LB1)乳腺癌中上调的蛋白质标志物

表2：在ER阴性(TN)乳腺癌中上调的蛋白质标志物

对164种差异蛋白质的单变量分析显示出34种显著蛋白质，其中20种蛋白质在ER阳性(LA/LB1)乳腺癌中上调，并且14种蛋白质在ER阴性(TN)乳腺癌中上调(图3A和图3B)。

表1和表2中列出的34种显著差异蛋白质的主成分分析(PCA)显示出ER阳性和ER阴性乳腺癌之间的明显分离(图4)。

使用该34种差异蛋白质作为分子亚型分类器，从训练数据集进行质心模型分析以评估总生存期。如图5和图6所示，使用选定的分子分层器，可以对患有ER阳性乳腺癌和ER阴性乳腺癌的患者进行重新分类，从而识别影响5年和10年总生存期的签名。图7展示了基于34种差异标志物的评估识别的从分子上定义的群组之间2.5年、5年和10年总生存期的差异。此外，跨越治疗模式，使用34个分子分层器的评估识别出了无治疗、放射、激素/放射、激素/化疗和激素/放射/化疗之间的差异(图8)。

这些数据表明表1和表2中识别的蛋白质标志物中的一种或多种蛋白质标志物可以用作用于区分ER阳性样乳腺癌和ER阴性样乳腺癌的生物标志物。

实施例2.蛋白质组学代谢依赖性签名识别出乳腺癌和其他癌症的更差的结局

使用来自芯活检(core biopsy)的可用临床IHC结果从闪冻外科手术样本中选择患者肿瘤队列。选择这116个通过免疫组织化学(THC)表征为HER2的单灶原发性肿瘤(包括管腔(LA、LB1)和TNBC肿瘤)进行蛋白质组学分析。对这些肿瘤进行基于液相色谱-串联质谱(LC-MS/MS)的定量蛋白质组学分析和串联质量标签(TMT)标记，以生成全局蛋白质组学数据。首先识别了三阴性乳腺癌(TNBC)和管腔亚型之间共识改变的蛋白质，随后分析来自癌症基因组图谱乳腺侵袭性癌(Cancer Genome Atlas Breast Invasive Carcinoma)(TCGA-BRCA)和临床蛋白质组肿瘤分析联合会(Clinical Proteomic Tumor AnalysisConsortium，CPTAC)蛋白质基因组学数据的mRNA表达、基因-蛋白质相关性、途径富集和蛋白质基因组学特征，以识别蛋白质基因组学代谢依赖性预测和预后签名。此签名展示出了增强基于临床IHC亚型分型的HER2患者诊断的潜力，能够将患者分层为不同的风险群组。此外，这项研究展示出了将所有乳腺癌的临床亚群组分层为不同风险群组以及将与较差生存期相关的患者和与良好生存期相关的患者分开的潜力。此外，该签名可能适用于多种癌症类型，并将癌症患者分层为与由TCGA数据集展示出的结局显著相关的不同群组。

结果

研究队列的人口统计和临床病理特征

患者的人口统计和临床病理特征示于表4。队列中有32例(27.6％)LA、69例(59.5％)LB1和15例(12.9％)TN。ER+/HER2-被设计为包括LA和LB1作为管腔型，并且具有两种亚型(管腔和TN)的队列在本实施例中被指定为管腔-TN队列。在这116个病例中，94例为ER+(ER＞10％)，15例为ER-(ER＜1％)，7例为低ER+(ER介于1％和10％之间)。为了统一研究结果，使用基于基于IHC的亚型的分层随机取样方法将队列分割为训练队列和测试队列。为了避免低ER+病例引起的任何分析偏倚，将这些低ER+病例从训练和测试队列中删除(参见结果章节：低ER+BC肿瘤比ER+BC肿瘤更接近ER-BC肿瘤)。分析了训练队列中的70例(61例ER+和9例ER-)以及测试队列中的39例(33例ER+和6例ER-)。在表4所示的每个特征中，训练队列和测试队列之间没有统计学显著差异。

表4：研究队列的人口统计和临床病理特征

ER：雌激素受体；PR：孕激素受体；HER2：人表皮生长因子受体2；

LA：ER+/HER2-/Ki-67-；LB1：ER+/HER2-/Ki-67+；TN：三阴性

研究队列的基于MS的蛋白质组学定量

如本文所述进行TMT标记的基于LC-MS/MS的蛋白质组学定量。在样本队列中以1％假发现率(FDR)检测到总共7990种蛋白质，其中4422种蛋白质跨所有样本表达。为了避免因估计未检测到的蛋白质的丰度而导致任何数据分析偏倚，进一步的分析集中于这4422种蛋白质。

低ER+BrCA肿瘤比ER+BrCA肿瘤更接近ER-BrCA肿瘤

1,521种最可变地表达的蛋白质被用于CPTAC-BRCA亚型分型分析¹⁰。901种蛋白质在来自该队列的常见检测到的4,422种蛋白质中。为了探究基于IHC的管腔-TN亚型与蛋白质组簇之间的关联，将这901种蛋白质用于116个病例的无监督聚类分析。无监督凝聚分层聚类分析表明，大多数低ER+BrCA与ER-BrCA一起而不是与ER+BrCA一起被聚类(图18)，这与来自基因表达实验的先前报告一致^14-16。

综合和共识数据分析识别出代谢依赖性34基因组

为了避免亚型偏倚并识别TN和ER+/HER2-病例之间显著差异表达的蛋白，单独地对TN对比LA和TN对比LB1进行比较分析。为了从训练队列中获得稳健且稳定的显著改变的蛋白质，进行了共识差异分析。对于每次比较，以经Benjamini-Hochberg(BH)调整的p值<0.05和(倍数变化(FC)＞1.5或FC<0.67)报告显著性。共识差异分析从训练数据集中识别出512种显著改变的蛋白质用于TN对比LA BrCA的比较(图9A)，其中242种蛋白质在TNBC中上调，270种蛋白质下调。类似地，TN和LB1 BrCA之间的比较产生了226种显著差异表达的蛋白质，其中108种蛋白质在TNBC中上调，118种蛋白质下调(图9B)。维恩图显示，从两次比较中检测到164种显著差异表达的蛋白质，其中与管腔型BrCA(LA/LB)相比75种蛋白质在TNBC中上调，89种蛋白质下调(图9C)。在这164种蛋白质中，有153种蛋白质或其编码基因在所有以下四个独立公共数据集中均被显著检测到：临床蛋白质组学肿瘤分析联盟(ClinicalProteomic Tumor Analysis Consortium,CPTAC)、TCGA、国际乳腺癌分子分类学联盟(Molecular Taxonomy of Breast Cancer International Consortium,METABRIC)和GSE96058。

进行进一步过滤(图9D)。从TCGA队列中识别出总共811个HER2-原发性女性BrCA样本(至少30天随访并通过RNA测序进行测量)(642个管腔型和169个TN型)，以进行总生存期(OS)和无进展间期(PFI)分析。生存期分析揭示了22个较高表达与良好结局显著相关的基因(OS和PFI，对数秩p值<0.05)。与差异分析的结局相比，该22个基因中有20个的相对表达水平与两种亚型(管腔和TN)的相对结局一致。然而，该22个基因中有2个实际上在管腔型中表达较高，但它们的较高表达与较差的结局相关，与该两种亚型的结局相矛盾。因此，这2个基因在后续研究中被去除。同样，在18个较高表达与不良结局显著相关的基因中，3个基因因差异分析和生存期分析的结局相互矛盾而在后续研究中而被去除。进一步探究了来自训练数据集的所选蛋白质的相关性，因为高度相关连的蛋白质通常在功能上相关，并且线性模型可以从降低预测因子之间的相关性水平中受益。通过Pearson相关性＞0.717确定了高相关性。相关性分析显示两个基因(PLOD1、COLGALT1)在训练数据集中高度相关连(Pearson相关性＝0.78)；根据差异分析具有较高p值的COLGALT1从列表中被去除，而PLOD1则被保留。因此，34个基因的集合构成本研究的感兴趣的基因和蛋白质。共有20个基因(表1)在TN乳腺肿瘤中下调，并与良好的OS和PFI相关，而14个基因(表2)在TN乳腺肿瘤中上调，并与较差的OS和PFI相关(图9E)。对基因-蛋白质表达相关性的进一步探究表明，34种蛋白质中有31种具有中度或高度基因-蛋白质表达相关性(Pearson相关性＞0.39)。文献中探究了具有低基因-蛋白质表达相关性的3种生物标志物(SLC2A1、NCBP1和PHPT1)。这3种生物标志物是用于癌症疗法的或与癌症发展相关的潜在生物标志物，并保留在蛋白质组列表中^18-22。所识别的生物标志物集合中的中度或高度基因-蛋白质表达相关性表明，34种生物标志物可能不仅是蛋白质签名，而且是用于亚型预测的基因签名。

提取了参与任何34个基因的KEGG途径。在参与KEGG途径的34个基因中的24个中，有14个基因涉及代谢途径。KEGG途径过展现(over-representation)分析还表明，一些代谢途径显著，p＜0.05。这些显著的代谢途径参与氨基酸代谢(丙氨酸、天冬氨酸、谷氨酸、缬氨酸、亮氨酸、异亮氨酸)、一碳代谢、嘌呤代谢、嘧啶代谢、烟酸盐和烟酰胺代谢、辅因子的核细胞质转运生物合成和脂肪酸代谢。

34个基因的蛋白质基因组学表征揭示了CNV对mRNA和蛋白质的高分数的正顺式效应

利用Mertins等人的CPTAC蛋白质基因组学数据分析结果探究了34个基因的蛋白质基因组学特征¹⁰。虽然检测到34种蛋白质中的18种蛋白质涉及24种单氨基酸变体(SAAV)和6种新型剪接同工型，但肽处的变体数目较低。RNA和蛋白质上的拷贝数改变(CNV)的结果分析显示，31个基因中有27个(87％)对它们的mRNA表达具有显著的正顺式效应，并且30个基因中有17个(57％)对它们的蛋白质丰度具有显著的正顺式效应。对34个基因中的mRNA和蛋白质的显著正顺式效应的分数与对mRNA(64％)和蛋白质(31％)的全部显著正顺式效应的分数相比是显著的(单侧Fisher检验p值＝0.0037(mRNA)和0.0035(蛋白质))。这些观察结果与BrCA和结肠癌分析一致，即代谢功能在CNV对mRNA具有正顺式效应的基因中富集^10，23。

如图16所示，对于34个基因中的大部分基因，L/T亚型的CNV模式与T/T亚型相似而不是与L/L亚型相似。CNV数据是在TCGA-BRCA队列中的794个管腔-TN样本中测量的。条形图示出了在管腔型中上调的基因(图16A)和在TN型中上调的基因(图16B)在每种IHC亚型下的损失/增益百分比。图17是示出每个基因的按IHC亚型分开的CNV损失/增益分布的comut图。这些数据显示，34个基因中大多数基因在L/T亚型中具有与T/T亚型更相似，而不是与L/L亚型更相似的CNV损失/增益模式。

34种生物标志物签名区分两种不同的肿瘤亚型

具有34种蛋白质的训练队列的无监督分层聚类热图(图10A)展示了存在两个不同的簇，一个簇主要由基于IHC的管腔型肿瘤组成，而另一个簇主要是TN型肿瘤。具有34种蛋白质的测试队列和CPTAC HER2-队列(去除已知的低ER+肿瘤后53种肿瘤)的无监督聚类热图也展示了来自独立蛋白质组学数据集的相同模式：存在两个不同的簇，一个簇与基于IHC的管腔亚型和PAM50管腔亚型(管腔A型和管腔B型)映射良好，而另一个簇与基于IHC的TN亚型和PAM50基底样亚型映射良好。使用34个蛋白质编码基因作为特征去除已知的低ER+肿瘤后TCGA HER2-队列(799个肿瘤)、METABRIC HER2-队列(1645个肿瘤)和GSE96058 HER2-队列(2535个肿瘤)的无监督聚类热图也展示了来自基因表达水平下的独立数据集的相似的模式(图10B)。这些发现表明，该34种蛋白质或蛋白质编码基因是用于根据蛋白质丰度和基因表达谱将HER2-患者分层为管腔样患者和TN样患者的强有力的预测蛋白质或基因签名。

为了定义实体新型蛋白质组学亚型，对使用34种蛋白质的训练队列进行共识聚类分析，以探究来自训练队列的最佳簇数目和对应的簇。簇结果表明识别出两个明显不同的群组(图11)。根据Fisher显著性精确检验，一个聚类被定义为管腔样亚型，并且另一个聚类被定义为TN样亚型。管腔样和TN样亚型被指定为LT34亚型。

使用质心模型预测L734亚型

每个LT34亚型的质心是通过计算来自训练数据集的34种蛋白质中每一种蛋白质的亚型内样本的归一化蛋白质丰度值的中位数确定的，并且被定义为LT34质心。所有队列中每个样本的LT34亚型均通过最近质心法通过比较样本的34蛋白谱和LT34亚型质心谱之间的Spearman秩相关性来确定。为每个样本进一步定义了以下四种基于THC和LT34亚型二者的增强亚型(此处称为IHC-LT34)：L/L(由THC确定为管腔型并由LT34确定为管腔样)、L/T(由IHC确定为管腔型并由LT34确定为TN样)、T/L(由IHC确定为TN型并由LT34确定为管腔样)和T/T(由IHC确定为TN型并由LT34确定为TN样)。为了与现有的公开临床数据保持一致，使用TCGA和GSE96058中可用的PAM50亚型，并保存从cBioPortal下载的METABRIC队列中的PAM50+Claudin低亚型。

L/T亚型与L/L亚型相比与较差的预后相关

为了具有稳健的生存期估计，生成适当的生存期结果并减少由少量在审查时间点时处于风险中的患者和不完整的随访数据导致的生存期估计的不确定性，对每条生存期曲线进行数据成熟度分析以调查5年审查是否适合每个生存期分析。每个队列和合并队列中THC-LT34亚型的OS分析的数据成熟度结果表明，所有OS分析都具有符合标准的稳健生存期估计。因此，IHC-LT34亚型中的OS分析是稳健的并且示于图12A至图12C中。与TCGA、METABRIC、GSE96058和合并队列中的每一者中的L/L亚型的百分比相比，更高百分比的L/T亚型患者死亡，如图12A中的列联表中所示(TCGA中Fisher检验p值＝0.03，METABRIC中p值＝8.08E07，GSE96058中p值＝8.55E-07，合并队列中p值＝1.24E-12)。在每个独立队列中，L/T亚型患者与T/T亚型患者的生存状态分布相等(TCGA中Fisher检验p值＝0.58，METABRIC中p值＝0.28，GSE96058中p值＝0.09)。对于TCGA、METABRIC、GSE96058和合并队列中的者，管腔-TN队列的L/L、L/T和T/T亚型中的OSKaplan-Meier(KM)图示于图12B。IHC-LT34亚型之间配对比较的危害比示于图12C。生存期曲线和危害比表明，T/T肿瘤具有最差的结局，而L/L肿瘤具有最良好的结局。L/T肿瘤与L/L肿瘤相比具有统计学显著更差的结局(p值＜0.05)，但是，除合并队列中以外，T/T和L/T肿瘤之间的生存期差异并不具有统计学显著性。这些发现表明，基于IHC的管腔亚型含有两种与不同的生存期相关的不同亚型，并且本研究中的签名可以区分它们。一种亚型具有侵袭性，与T/T亚型的生存期类似。在图19中所示IHC-LT34亚型中TCGA队列中的PFI和无进展生存期(PFS)以及METABRIC队列中的无复发生存期(RFS)差异表明，与L/L亚型患者相比，L/T亚型患者与更差的PFI/PFS相关，但它们之间没有显著差异，在METABRIC队列中发现L/T和L/L亚型之间的RFS存在显著差异，但T/T和L/T亚型之间没有显著的PFI/PFS/RFS差异。

基于IHC的ER+/HER2-亚型含有至少3个不同的亚型

在该队列的116个病例中，所有7例低ER+病例(2例LA和5例LB1)和所有15例TN病例均被识别为TN样。在剩余的94例管腔型病例中，30例LA病例中有25例(83.3％)被预测为管腔样(L/L)，而其中5例(16.7％)被识别为TN样(L/T)，64例LB1病例中有49例(76.6％)被识别为管腔样(L/L)，其中15例(23.4％)被识别为TN样(L/T)。L/L(或L/T)亚型患者在LA和LB1亚型患者中同样丰富(Fisher精确p值＝0.59)。这一发现表明，如通过Ki-67百分比和生长测量的细胞增殖可能无法将L/T亚型患者与L/L亚型患者区分开。值得注意的是，L/L亚型患者的共识聚类分析表明，在L/L亚型患者中识别出两个不同的群组(图20)。这些簇也与LA/LB1亚型分布一致(Fisher精确p值＝0.0003)。因此，ER+/HER2-病例中有至少三种亚型，L/L管腔样中有两种亚型，并且L/T TN样中有一种亚型。

无论是否接受治疗，L/T亚型的生存期结局都与T/T亚型相似，而不是与L/L亚型相似

疗法的选择受到许多因素的影响。在GSE96058队列中，患者可用的治疗是内分泌或激素疗法(ET或盯，也称为HormT或盯)、化疗(ChemoT或CT)，或CT+HT的组合治疗。在METABRIC队列中，患者可用的治疗是HT，放疗治疗(RT)，CT，CT+HT、HT+RT、CT+RT和CT+HT+RT的组合治疗。有关治疗反应的结果和结论基于来自这两个数据集中的可用治疗信息。

METABRIC和GSE96058队列中每种治疗内的IHC-LT34亚型之间5年OS的生存期差异示于图13，其中每条生存期曲线均具有足够数目的样本和满足数据成熟度标准的随访。结果表明，在以下每种治疗下，L/T和L/L亚型患者之间存在统计学显著的OS差异：盯(GSE96058中p＝1.1E-8，METABRIC中p＝0.04)、RT(METABRIC中p＝0.039)、CT+HT(GSE96058中p＝0.00014)、HT+RT(METABRIC中p＝0.0066)和CT+HT+RT(METABRIC中p＝0.0022)。这些结果表明，与每种治疗的L/L亚型患者相比，L/T亚型患者仍与较差的生存期相关。这表明与L/L亚型患者相比，L/T亚型患者对所提供的治疗有抗性。

在每种可比治疗下，L/T亚型和T/T亚型患者之间不存在统计学显著的OS差异：CT(GSE96058中p＝0.72)、HT+RT(METABRIC中p＝0.71)和CT+HT+RT(p＝0.28)。这一发现表明，无论是否接受治疗，与L/L亚型相比，L/T亚型都更接近T/T亚型。L/T亚型患者的分子谱和生存期结局与T/T亚型患者更相似。

每个临床群组内两种LT34亚型之间生存期显著不同

在从合并队列(TCGA+METABRIC+GSE96058)中的5780个样本中去除低ER+病例之后，还有5716个样本，包括4370个基于IHC的管腔型、609个TN型、508个ER+/HER2+和229个ER-/HER2+。在4370个基于IHC的管腔型肿瘤中，83.6％(3653)的肿瘤为L/L，16.4％(717)的肿瘤为L/T。在609个基于IHC的TN型肿瘤中，96.1％(585)为T/T，3.9％(24)为T/L。在508个基于IHC的ER+/HER2+肿瘤中，51.2％(260)被预测为管腔样，48.8％(248)被预测为TN样。在229个基于IHC的ER-/HER2+肿瘤中，94.3％(216)为TN样，5.7％(13)为管腔样。总之，16.4％的基于IHC的管腔型肿瘤和48.8％的ER+/HER2+肿瘤被预测为侵袭性肿瘤，与管腔型肿瘤相比，与基于IHC的TN型肿瘤更相似。3.9％的基于IHC的TN型肿瘤和5.7％的ER-/HER2+肿瘤被预测为良好的肿瘤，与TN型肿瘤相比，与基于IHC的管腔型肿瘤更相似。

考虑到肿瘤分级，合并队列中有640个G1、2175个G2和1847个G3。在G1肿瘤中，分别有93.1％(596)和6.9％(44)被预测为管腔样和TN样。在G2肿瘤中，85.5％(1859)和14.5％(316)被预测为管腔样和TN样。在G3肿瘤中，43.7％(807)和56.3％(1040)被预测为管腔样和TN样。

接下来，考虑肿瘤分期，合并队列中有2148例I期、2072例II期、346例III期和52例IV期(或以上)。在1期肿瘤中，分别有75.6％(1624)和24.4％(524)被预测为管腔样和TN样。在2期肿瘤中，64.8％(1343)和35.2％(729)被预测为管腔样和TN样。在3期肿瘤中，60.7％(210)和39.3％(136)被预测为管腔样和TN样。在4期肿瘤中，63.5％(33)和36.5％(19)被预测为管腔样和TN样。

接下来，比较基于PAM50和CLAUDIN基因表达的亚型，组合队列中有2769个管腔A型、1346个管腔B型、366个正常样、522个HER2富集、522个基底样和191个Claudin低。93.1％(2579)和6.9％(190)的管腔A型肿瘤分别被预测为管腔样和TN样；71.8％(966)和28.2％(380)的管腔B型肿瘤被预测为管腔样和TN样；17.8％(93)和82.2％(429)的HER2富集肿瘤被预测为管腔和TN样肿瘤；1.3％(7)和98.7％(515)的基底样肿瘤被预测为管腔样和TN样；26.7％(51)和73.3％(140)的Claudin低肿瘤被预测为管腔样和TN样。总之，6.9％的管腔A型肿瘤和28.2％的管腔B型肿瘤被预测为TN样，而1.3％的基底样肿瘤和17.8％的HER2富集肿瘤被预测为管腔样。

每个临床群组内管腔样和TN样的OS差异如图14所示，其中每个生存曲线满足数据成熟度标准。K-M图和危害比表都表明，每个临床群组内管腔样和TN样亚型之间存在显著的生存期差异，而不仅仅是从基于IHC的角度来看。

其他癌症的两种LT34亚型之间生存期存在显著差异

跨33种不同TCGA癌症的随访至少30天的9530个原发性肿瘤被用于泛癌生存期分析。在这15种癌症中，有9种癌症的管腔样亚型和TN样亚型之间存在显著的生存期差异。这需要进一步评价。这9种癌症的OS K-M图和危害比示于图15。

讨论

利用LC-MS/MS蛋白质组学数据分析作为基础，随后从mRNA表达、基因-蛋白质相关性、共线性、途径、蛋白质基因组学特征进行分析，识别出34个代谢富集的蛋白质/基因新型生物标志物组，并定义了容易应用的分类器以将HER2-BrCA患者区分为管腔样和TN样BrCA患者。通过使用跨不同平台的大型外部队列、患者治疗反应和生存期结局，成功验证了生物标志物组和分类器。这种方法表明34种生物标志物组及其质心谱不依赖于技术，并且可以针对多个分子平台被调适以充当可靠的预测和预后签名。该签名提供了额外的稳健风险信息，通过并入可用的基于THC的生物标志物状态和临床特征提高了患者生存期分层的准确性。通过验证不同增强亚型的治疗反应，此签名为个性化医疗应用提供了潜力。

临床上有意义的是在基于IHC的管腔亚型中识别出两种亚型(L/L和L/T)。然后证明了，当与L/L亚型患者相比时，L/T亚型患者与更差的总生存期和更大的治疗抗性显著相关。还观察到L/L(或L/T)亚型患者在LA和LB1亚型患者中同样丰富，这揭示了Ki-67生物标志物不能将L/T亚型与L/L亚型区分开。这些观察结果与之前的报告一致，即无论管腔A和管腔B亚型状态如何，都从管腔BrCA样本中检测到茎样亚型^5,24。这表明L/T亚型患者可能治疗不足，并且可能会考虑对他们进行更积极的治疗。进一步地，在L/L亚型中鉴定出了两个不同的簇。这些簇与基于Ki-67生物标志物的LA和LB1亚型的分布一致。这些发现表明，ER+/HER2-(管腔)病例中有至少三种亚型：两种L/L管腔样和一种L/T(TN样)。针对开发L/L亚型乳腺癌的该两种亚型的生物标志物签名的进一步探究对于未来的患者分层也很重要。

此外，在TNBC中识别出两种亚型：T/L和T/T亚型。T/L亚型目前因病例数目少而无法进行探究。研究人员报告称，在TNBC⁶亚型中检测到了具有良好预后的管腔免疫阳性亚型。人们怀疑T/L亚型可能是与T/T亚型相比与更好的结局相关的独立亚型。这意味着此亚型将来可能能够避免过度治疗或能够接受更有针对性的方法。

在15种经过适当分析的TCGA泛癌中的9种中，管腔样亚型和TN样亚型之间存在显著的生存期差异，表明LT34签名可应用于其他几种TCGA癌症。为该研究选择的两种不同的基于IHC的亚型(ER+/HER2-和TN亚型)参与两种不同的肿瘤细胞类型：管腔细胞和基底细胞。先前的发现表明，肿瘤细胞起源影响肿瘤的潜在发展，在癌症中起主导作用，并决定器官内不同的癌症亚型^25-28。未来将探究LT34亚型的细胞起源机制，以了解其在泛癌中的应用。此外，代谢中富集了已识别的34个基因。癌症代谢已被广泛探究，先前的发现表明癌基因和肿瘤压制基因的活性与代谢重编相关^29-32。先前的研究强烈支持关于ER阳性BrCA33中ABAT和丙氨酸代谢的发现。未来对参与代谢途径的代谢物和蛋白质丰度的综合分析可能会让我们深入了解乳腺癌和其他癌症的机制。

方法

乳腺癌样本选择

新鲜冷冻HER2-乳腺癌组织样本获自临床乳腺护理项目(CBCP)。使用福尔马林固定石蜡包埋(FFPE)芯活检的临床免疫组织化学(IHC)亚型分型来选择116名HER2-乳腺癌患者的闪冻外科手术样本队列。肿瘤均为原发性单灶性乳腺癌肿瘤，并且所有外科手术样本均是在外科手术后立即收集的。ER/PR/HER2的阳性/阴性状态是使用更新的ASC02020指南定义的³⁴。样本的ER状态通过ER免疫组织化学染色阳性的肿瘤细胞核的百分比来确定。如果少于1％的细胞染色为ER阳性，则该样本被视为ER-，而ER+样本则具有≥10％的细胞染色为阳性，肿瘤细胞ER阳性染色介于1％和10％之间的样本被视为低ER+。如果HER2-值为3+，则样本被视为HER2+；如果HER2值为0、1+，则样本被视为HER2-。当HER2值为2+时，按照ASC02020指南使用FISH进一步确定其状态。Ki-67状态是根据2011年圣加仑(St.Gallen)国际专家共识建议³⁵确定的，其中14％的截止值用于表示Ki67+或Ki67-。

本研究的样本和数据是在Walter Reed国家军事医疗中心(Walter ReedNational Military Medical Center，WRNMMC)或在Anne Arundel医疗中心(Anne ArundelMedical Center，AAMC)从同意试验方案“乳腺疾病分子、生化和组织学研究的组织和血液文库建立(Tissue and Blood Library Establishment for the Molecular，Biochemicaland Histologic Study of Breast Disease)”并且同意将样本和数据用于未来癌症研究的研究参与者中收集的。

LC-MS/MS蛋白质组学分析

组织裂解

使用含有7M尿素、2M硫脲、0.1％SDS、1％蛋白酶和磷酸酶抑制剂混合液以及Optima LC/MS水的200uL裂解缓冲液裂解组织样本。使用Omni bead rupter对样本进行均质化。将经均质化样本以17,000xg离心10分钟，然后在Bradford测定中使用上清液确定蛋白质浓度。

胰蛋白酶消化

按照Sturtz等人之前描述的方法制备样本³⁶。简而言之，分别用10mM三(2-羧乙基)膦(TCEP)和18.75mM碘乙酰胺对蛋白质进行还原和烷基化。然后使用冷丙酮将蛋白质在-20℃下沉淀过夜，并在200mM三乙基碳酸氢铵(TEAB)中重构沉淀，然后在37℃下用胰蛋白酶消化过夜。

肽的TMT标记

将来自样本的20μg肽等分并使用制造商的方案用10-plex TMT(串联质量标签)试剂(Thermo Fisher Scientific)进行标记。此外，汇集来自所有样本的等量的肽以在TMT通道126中创建参考样本。将样本在室温下温育1小时，然后用5％羟胺淬灭30分钟。将经TMT标记的肽混合并在speedvac(Thermo Fisher Scientific)中干燥。将经干燥的样本在C18旋转柱上脱盐，并再次干燥以在-20℃下储存直至进行LC-MS/MS分析。

质谱法

使用Waters nanoAcquity在线二维反相LC系统和Thermo Q Exactive Plus质谱仪通过LC-MS/MS分析经TMT标记的肽。使用20mM甲酸铵作为缓冲液A和100％乙腈作为缓冲液B并使用16％、20％、24％、26％、28％、30％、32％、36％和50％缓冲液B连续洗脱在第一维中从5μg经TMT标记的肽的单次进样创建9个级分。使用含0.1％甲酸的水作为缓冲液A和含0.1％甲酸的乙腈作为缓冲液B并且使用从缓冲液A向缓冲液B的20-23％的逐渐变化在170分钟梯度内在第二维中进一步分离各级分。MS调查扫描以70,000的分辨率用400-1800汤普森(Thomsons)(Th；Th＝Da/z)扫描范围执行，以选择肽进行片段化。以35,000分辨率(由1.2Th的分离窗口构成)进行MS/MS片段扫描。最终仅选择+2至+4电荷的离子进行片段化。

蛋白质定量

使用Proteome Discoverer v1.4(Thermo Scientific)加工生成的数据。使用数据库搜索算法SEQUEST针对RefSeq蛋白质数据库和报告离子节点搜索光谱，以提供针对所有匹配光谱的相对定量。仅使用独特的肽来报告蛋白质定量，识别蛋白质至少需要两种独特的肽。具体搜索参数包括≥6个氨基酸的肽，并且每个肽的缺失切割不超过2个。该搜索利用了10ppm前体质量容差、0.02Da片段质量容差、静态N末端TMT-10Plex和半胱氨酸脲甲基化修饰，以及动态赖氨酸TMT-10Plex、天冬酰胺/谷氨酰胺脱酰胺和蛋氨酸氧化修饰。

统计方法

样本质量控制探究和归一化

采用经Log2转换的蛋白质群组水平的原始TMT比率进行数据分析。密度图和倾角(dip)统计显示每个样本的蛋白质表达谱遵循预期的单峰高斯分布。将CPTAC-BRCA中使用的基于2分量高斯混合模型的归一化算法应用于数据进行归一化^10，37，38。简而言之，计算每个样本的z得分，其中中心是蛋白质表达值的中值，并且标准偏差是根据样本中未变化蛋白质的表达丰度与参考池样本相比计算的。未改变的蛋白质通过基于2分量高斯混合模型的方法确定。z得分方法以log2转换的TMT比率为零的分布为中心，并利用非调控蛋白质与参考池样本相比的标准偏差来抵消不同蛋白质负载和系统MS变异的影响。

使用ER+和ER-BrCA进行低ER+BrCA簇探究

CPTAC-BRCA亚型分型分析¹⁰中使用的1500多个蛋白质编码基因共有的901种蛋白质被用于116个病例的无监督聚类分析，并且Complex Heatmap bioconductor软件包(版本2.8.0)被用于热图可视化³⁹。在无监督分层聚类算法中，使用Spearman秩相关距离作为距离矩阵，并使用Ward准则作为链接准则。

独立的公共BrCA数据集

提取独立的公共乳腺癌队列作为评价数据集，以评价已识别的蛋白质签名。通过cgdsr Bio-conductor软件包(版本1.3.0)，从Bio Cancer Genomics Portal提取相对于所有样本的z得分水平的TCGA归一化RNA-Seq表达数据和CPTAC归一化蛋白质丰度数据。CPTAC队列和TCGA队列中病例的ER/HER2状态使用与TCGA-BRCA Nature 2012论文和Huo等人^40，41中报告的方法相同的方法获得，而OS、PFI和PFS生存期信息是从泛癌临床数据资源中提取的⁴²。TCGA治疗信息在内部进行加工。用METABRIC研究中具有至少30天生存期随访^43，44的原发性肿瘤被用作一个独立的评价数据集。METABRIC队列的临床数据和z得分水平的归一化表达数据是从cgdsr Bioconductor软件包中提取的。另一个独立的大型RNA-Seq验证队列是瑞典癌症组分析网络-乳腺倡议研究(Sweden Cancerome Analysis Network-BreastInitiative study，SCAN-B)：GSE9605845。具有至少30天生存期随访的原发性肿瘤样本及其归一化表达数据是从GEO数据仓库(参考链接：https：//www.ncbi.nlm.nih.gov/geo/query/acc.cgi？acc＝GSE96058)提取的。

生物标志物组选择

TN亚型和管腔亚型之间的共识差异分析

首先单独地使用微阵列数据线性模型(Linear Models for Microarray Data，LIMMA)46，47 Bioconductor软件包(版本3.38.3)对训练数据集中的TN对比LA以及TN对比LB1进行比较分析。对于每次比较，以经Benjamini-Hochberg(BH)调整的p值＜0.05和(倍数变化(FC)＞1.5或FC＜0.67)报告显著性。进一步采用比例分层随机二次取样技术100次，其中每个子样本队列是训练队列的80％并且按基于THC的肿瘤亚型被分层。单独地对每个子样本队列进行差异分析，以比较TN对比LA病例和TN对比LB1病例。如果一种蛋白质在训练数据集中及其每次比较的所有子样本队列中均显著，则报告该蛋白质的共识显著性。TN对比LA+LB1的最终初始生物标志物候选池由两次比较中常见的显著差异表达蛋白质共识构成。

生物标志物组简化(reduction)

TNBC更具侵袭性，且与较差的OS和PFI相关。为了探究已识别的显著改变的蛋白质的每个编码基因是否与生存期结局显著相关，选择TCGA队列及它们的表达的RNA-Seq数据进行生存期分析。DAVID 6.848中的映射系统被用于映射基因-蛋白质名称，以避免任何不匹配的生物标志物名称。对于每个编码基因，其跨队列的表达值首先被分为低表达群组和高表达群组，其中最佳截止值是使用survMisc R软件包中执行的方法确定的^49，50。接下来，对队列进行具有对应最佳截止值的单变量PFI分析和OS分析，并通过对数秩p值＜0.05报告每个基因与生存期结局的关联的显著性。使用生存期和survminer R软件包生成K-M图以可视化生存期关联^51，52。基于一致的经改变方向进一步选择与生存期分析显著相关的生物标志物，使得在TN中上调的所选生物标志物与较差的生存期相关，或者在管腔中上调的所选生物标志物与良好的生存期相关。

进一步探究了来自训练数据集的所选蛋白质的相关性，因为高度相关连的蛋白质通常在功能上相关，并且线性模型可以从降低预测因子之间的相关性水平中受益。通过Pearson相关性＞0.7确定高相关性。在识别出的高度相关的蛋白质中，从训练数据集中的比较分析中选择具有最大显著性的一个蛋白质作为代表性蛋白质。

利用Mertin等人生成的CPTAC-BRCA数据分析利用基因-蛋白质相关性、KEGG途径分析(参见KEGG途径富集分析)和蛋白质基因组学特征进一步探究选定的生物标志物。

34种生物标志物签名的簇探究

采用用已识别的34种蛋白质在ConsensusClusterPlus R软件包^53，54中实施的共识分层聚类分析来探究来自训练队列的簇的最佳数目以及对应的簇，其中使用Spearman相关性来生成距离矩阵并使用ward.D作为链接方法。

为了评价34种蛋白质/编码基因组是否是用于将队列分成两个经区分的簇的可靠多基因分类器，以及它们是否可以鉴别TN乳腺肿瘤与管腔乳腺肿瘤，将无监督分层聚类分析单独地应用于具有这些生物标志物的所有队列的表达数据，并使用ComplexHea tmapbioconductor软件包进行热图可视化。

LT34亚型预测

通过比较样本的34种蛋白质谱和LT34亚型质心谱之间的Spearman秩相关性，由最近的质心定义每个样本的LT34亚型。简而言之，计算一个样本的34种蛋白质/编码基因谱和两个LT34亚型的质心谱之间的Spearman秩相关性，然后将相关性较高的亚型分配给该样本。

数据成熟度分析和生存期分析

使用Gebski等人⁵⁵提出的准则1和准则2对每条生存期曲线进行数据成熟度分析，以探究5年审查是否适合每个生存期分析。简而言之，如果在感兴趣的时间点发生一个额外事件，所使用的估计的生存百分比的可接受的下降阈值对于单个队列为5％(或对于合并队列为2.5％)(准则1)，并且在单侧95％CI内(准则2)。

每个单变量生存期分析的K-M图是使用survminer R软件包生成的。K-M图中仅显示满足所有三个数据成熟度标准的生存期曲线。使用survival R软件包中实施的Cox比例危害模型来计算危害比。随访时间被审查为5年，以探究早期乳腺癌的生存结局。以对数秩P值＜0.05报告生存期差异的显著性。

TCGA泛癌数据

跨33种癌症的TCGA泛癌临床数据是从Liu等人生成的TCGA泛癌临床数据资源(TCGA-CDR，表S1)检索的⁴²。对于33种类型的癌症中的每一种，通过cgdsr Bioconductor软件包(版本1.3.0)从cBioPortal提取的以中位数为中心并且相对于所有样本的z-得分水平的归一化RNA-seq V2基因表达数据。三种癌症(COAD、READ和UCEC)的比较Broad GDACfirehose中存储的RNA-seq V2数据的样本较少。因此，从Broad GDAC firehose下载这三种癌症的归一化RNA-seq V2RESM数据，并以中位数为中心并且相对于所有样本通过z得分方法对该数据进行加工。过滤了具有至少30天随访的已表达的初级样本用于进一步的数据分析。将使用34个基因的最近质心方法(以与简单质心的Spearman秩相关性作为距离)应用于每个样本，并用于预测样本的LT34亚型。

KEGG途径富集分析

使用2022年2月1日的ClusterProfiler Bioconductor软件包(版本3.18.1)⁵⁶下载带有基因的KEGG途径。提取了34个基因中任何基因所涉及到的KEGG途径。使用在相同软件包中实施的方法进行基因集合过展现(over-representation)富集分析，以识别重要的基因集合。

数据可用性

116个病例的TMT蛋白质组学数据是在内部实验室生成的。TCGA临床数据下载自Liu J.等人发表的Cell论文的补充信息表S1。相对于所有样本的z得分水平的CPTAC归一化蛋白质表达数据、相对于所有样本的z得分水平的TCGA归一化的RNA-seq V2基因表达数据以及相对于所有样本的z得分水平的METABRIC临床和归一化微阵列数据是通过CGDSRBioconductor软件包从Bio Cancer Genomics门户下载的。GSE96058临床和归一化RNA-Seq基因表达数据是通过Gene Expression Omnibus(GEO)下载的。加工了跨内部队列、TCGA、METABRIC和GSE96058的总共5,963个样本，并生成了每个样本的IHC/PAM50/Claudin/LT34/IHC-LT34亚型、OS/PFI/PFS生存期信息以及归一化的34种生物标志物表达值。相对于跨33种癌症的所有样本的z得分水平的TCGA归一化RNA-seq V2基因表达数据是通过CGDSRBioconductor软件包从Bio Cancer Genomics门户下载的。加工了跨33种TCGA癌症的总共9,530个样本，并且每个样本的LT34亚型、临床信息以及34个基因的归一化基因表达值均是可获取的。使用R/Bioconductor软件包进行数据加工、分析和可视化。

参考文献

1.Foley，N.M.et al.Re-Appraisal of Estrogen Receptor Negative/Progesterone Receptor Positive(ER-/PR+)Breast Cancer Phenotype：True Subtypeor Technical Artefact？.Pathol Oncol Res.24，881-884(2018).

2.American Cancer Society.Breast Cancer Facts&Figures 2019-2020.Atlanta：American Cancer Society，Inc.(2019).

3.Parker，J.S.et al.Supervised risk predictor of breast cancer basedon intrinsic subtypes.J Clin Oncol.27，1160-1167(2009).

4.Kim，H.K.et al.Discordance of the PAM50 Intrinsic Subtypes Comparedwith Immunohistochemistry-Based Surrogate in Breast Cancer Patients：PotentialImplication of Genomic Alterations of Discordance.Cancer Res Treat.51，737-747(2019).

5.Poudel，P.et al.Heterocellular gene signatures reveal luminal-Abreast cancer heterogeneity and differential therapeutic responses.NPJ breastcancer 5，21(2019).

6.Prado-Vázquez，G.et al.A novel approach to triple-negative breastcancer molecular classification reveals a luminal immune-positive subgroupwith good prognoses.Sci Rep.9，1538(2019).

7.Krijgsman，O.et al.A diagnostic gene profile for molecular subtypingof breast cancer associated with treatment response.Breast CancerRes.Treat.133，37-47(2012).

8.Van’t Veer，L.et al.Gene expression profiling predicts clinicaloutcome of breast cancer.Nature 415，530-536(2002).

9.Paik，S.et al.A multigene assay to predict recurrence of tamoxifen-treated，node-negative breast cancer.N Engl J Med.351，2817-1826(2004).

10.Mertins，P.et al.Proteogenomics connects sornatic mutations tosignalling in breast cancer.Nature 534，55-62(2016).

11.Tang，W.et al.Integrated proteotranscriptomics of breast cancerreveals globally increased protein-mRNA concordance associated with subtypesand survival.Genome Med.10，94(2018).

12.Yanovich，G.et al.Clinical Proteomics of Breast Cancer Reveals aNovel Layer of Breast Cancer Classification.Cancer Res.78，6001-6010(2018).

13.Gámcz-Pozo，A.et al.Functional proteomics outlines the complexityof breast cancer molecular subtypes.Sci 7，10100(2017).

14.Iwamoto，T.et al.Estrogen receptor(ER)mRNA and ER-related geneexpression in breast cancers that are 1％to 10％ ER-positive byimmunohistochemistry.J Clin Oncol.30，729-734(2012).

15.Deyarmin，B.et al.Effect of ASCO/CAP guidelines for determining ERstatus on molecular subtype.Ann Surg Oncol.20，87-93(2013).

16.Prabhu，J.S.et al.A Majority of Low(1-10％)ER Positive BreastCancers Be-have Like Hormone Receptor Negative Tumors.J Cancer 5，156-165(2014).

17.Dormann，C.F.et al.Collinearity：a review of methods to deal with itand a simu-lation study evaluating their performance.Ecography 35，1-20(2012).

18.Wu，Q.et al.GLUT1 inhibition blocks growth of RB 1-positive triplenegative breast cancer.Nat Comnun.11，4205(2020).

19.Wang，L.et al.Novel RNA-Affinity Proteogenomics Dissects TumorHeteroge-neity for Revealing Personalized Markers in Precision Prognosis ofCancer.Cell Chem Biol.25，619-633(2018).

20.Zhang，H.et al.NCBP1 promotes the development of lungadenocarcinoma through up-regulation of CUL4B.J Cell Mol Med.23，6965-6977(2019).

21.Shen，H.et al.Nuclear expression and clinical significance ofphosphohistidine phosphatase 1 in clear-cell renal cell carcinoma.J Int MedRes.43，747-757(2015).

22.Snezhkina，A.V.et al.Differential expression of alternativelyspliced transcripts related to energy metabolism in colorectal cancer.BMCGenomics 17，1011(2016).

23.Zhang，B.et al.Proteogenomic characterization of human colon andrectal can-cer.Nature 513，382-387(2014).

24.T.et al.Gene expression patterns of breast carcinomasdistinguish tumor subclasses with clinical implications.Proc Natl Acad SciUSA.98，10869-10874(2001).

25.Rycaj，K.&Tang，D.G.Cell-of-Origin of Cancer versus Cancer StemCells：As-says and Interpretations.Cancer Res.75，4003-4011(2015).

26.Hoadley，K.A.et al.Cell-of-Origin Patterns Dominate the MolecularClassifica-tion of 10,000 Tumors from 33 Types of Cancer.Cell 173，291304(2018).

27.Visvader J.E.Cells of origin in cancer.Nature 469，314-322(2011).

28.Bhat-Nakshatri，P.et al.A single-cell atlas of the healthy breasttissues reveals clinically relcvant clusters of breast epithelial cells.CellRep Med.2，100219(2021).

29.Frezza，C.Metabolism and cancer：the future is now.Br J Cancer 122，133-135(2020).

30.Ghaffari，P.，Mardinoglu，A.and Nielsen，J.Cancer Metabolism：AModeling Perspective.Front Physiol.6，382(2015).

31.Martíncz-Reycs，I.，Chandel，N.S.Cancer metabolism：lookingforward.Nat Rev Cancer 21，669-680(2021).

32.Lcvine，A.J.，and Puzio-Kuter A.M.The control of the metabolicswitch in can-cers by oncogenes and tumor suppressor genes.Science 330，6009(2010).

33.Budczies，J.et al.Comparative metabolomics of estrogen receptorpositive and estrogen receptor negative breast cancer：alterations inglutamine and beta-alanine metabolism.J.Proteomics 94，279-288(2013).

34.Allison，K.H.et al.Estrogen and Progesterone Receptor Testing inBreast Can-cer：ASCO/CAP Guideline Update.J Clin Oncol.38，1346-1366(2020).

35.Goldhirsch，A.et al.Strategies for subtypes--dealing with thediversity of breast cancer：highlights of the St.Gallen International ExpertConsensus on the Pri-mary Therapy of Early Breast Cancer 2011.Ann Oncol.22，1736-1747(2011).

36.Sturtz，L.A.et al.Comparative analysis of differentially abundantproteins quan-tified by LC-MS/MS between flash frozen and lasermicrodissected OCT-embedded breast tumor samples.Clin Proteomics 17，40(2020).

37.Scrucca，L.et al.mclust 5：Clustering，Classification and DensityEstimation Us-ing Gaussian Finite Mixture Models.R J.8，289-317(2016).

38.Benaglia，T.et al.mixtools：An R package for analyzing finitemixture models.J Stat Softw.32，1-29(2009).

39.Gu，Z.et al.Complex heatmaps reveal patterns and correlations inmultidimen-sional genomic data.Bioinformatics 32，2847-2849(2016).

40.Cancer Genome Atlas Network.Comprehensive molecular portraits ofhuman breast tumouts.Nature 490，61-70(2012).

41.Huo，D.et al.Comparison of Breast Cancer Molecular Features andSurvival by African and European Ancestry in The Cancer Genome Atlas.JAMAOncol.3，1654-1662(2017).

42.Liu，J.et al.An Integrated TCGA Pan-Cancer Clinical Data Resourceto Drive High-Quality Survival Outcome Analytics.Cell 173，400-416(2018).

43.Curtis，C.et al.The genomic and transcriptomic architecture of 2,000 breast tu-mours reveals novel subgroups.Nature 486，346-352(2012).

44.Pereira，B.et al.The somatic mutation profiles of 2,433 breastcancers refines their gcnomic and transcriptomic landscapes.Nat Commun.7，11479(2016).

45.Brueffer，C.et al.Clinical Value of RNA Sequencing-BasedClassifiers for Pre-diction of the Five Conventional Breast CancerBiomarkers：A Report From the Population-Based Multicenter Sweden CanceromeAnalysis Network-Breast Ini-tiative.JCO Precis Oncol 2，PO.17.00135(2018).

46.Ritchie，M.E.et al.limma powers differential expression analysesfor RNA-sequencing and microarray studies.Nucleic Acids Res.43，e47(2015).

47.Smyth，G.K.et al.limma：Linear Models for Microarray and RNA-SeqDataUser’s Guide.R package version 3.38.3(2019).

48.Huang，D.，Sherman，B.T.，and Lempicki，R.A.Systematic and integrativeanal-ysis of large gene lists using DAVID bioinformatics resources.Nat Protoc4，44-57(2009).

49.Clark，T.G.et al.Survival analysis part IV：further concepts andmethods in sur-vival analysis.British journal of cancer 89，781-786(2003).

50.Mandrekar，J.N.et al.Cutpoint Determination Methods in SurvivalAnalysis us-ing SAS.Proceedings of the 28th SAS Users Group InternationalConference(SUGI)261-28(2003).

51.Therneau，T.A Package for Survival Analysis in R.R package version3.2-11(2021).

52.Kassambara，A.et al.survminer：Survival Analysis and Visualization.Rpack-age version 0.4.9(2021).

53.Monti，S.et al.Consensus Clustering：A Resampling-Based Method forClass Discovery and Visualization of GeneExpression Microarray Data.MachineLearning，52，91-118(2003).

54.Wilkerson，D.M.and Hayes，N.D.ConsensusClusterPlus：a class discoverytool with confidence assessments and item tracking.Bioinformatics 26，1572-1573(2010).

55.Gebski，V.et al.Data maturity and follow-up in time-to-eventanalyses.Int.J.Ep-idemiol 47，850-859(2018).

56.Yu，G.et al.clusterProfilcr：an R package for comparing biologicalthemes among gene clusters.OMICS16，284-287(2012).

等效方案

本领域技术人员将会认识到或者仅仅使用常规试验就能够确定本文所描述的具体实施方案和方法的许多等效方案。此类等效方案意图由所附权利要求书的范围涵盖。

应当理解，本文描述的详细实施例和实施方案仅以示例的方式给出，仅用于说明性目的，并且决不认为是对本发明的限制。根据本发明的各种修改或变化将能被本领域技术人员想到，并且包括在本申请的精神和权限内并且被视为在所附权利要求书的范围之内。例如，可以改变成分的相对量以优化期望的效果，可以添加另外的成分，以及/或者可以用类似的成分取代所描述的成分中的一种或多种成分。与本发明的系统、方法和过程相关的另外的有利特征和功能从所附权利要求来看将是明显的。本领域技术人员将会认识到或者仅仅使用常规试验就能够确定本文所描述的本发明的具体实施方案的许多等效方案。此类等效方案意图由所附权利要求书涵盖。

Claims

1.一种用于确定受试者中的乳腺癌的分子亚型的方法，其包括，

(a)检测来自所述受试者的生物样本中乳腺癌标志物的水平，其中所述乳腺癌标志物包括选自表1和表2的一种或多种标志物；以及

(b)将所述生物样本中所述乳腺癌标志物的所述水平与预定阈值进行比较；

其中所述乳腺癌的所述分子亚型是基于所述乳腺癌标志物的所述水平高于或低于所述预定阈值确定的。

2.如权利要求1所述的方法，其中所述乳腺癌是雌激素受体(ER)阳性乳腺癌。

3.如权利要求2所述的方法，其中所述雌激素受体(ER)阳性乳腺癌包括管腔A型(LA)乳腺癌、管腔B1型(LB1)乳腺癌或LA和LB1型乳腺癌。

4.如权利要求2或3所述的方法，其中所述雌激素受体(ER)阳性乳腺癌不包括ER低乳腺癌。

5.如权利要求1所述的方法，其中所述乳腺癌是雌激素受体(ER)阴性乳腺癌。

6.如权利要求5所述的方法，其中所述雌激素受体(ER)阴性乳腺癌是三阴性乳腺癌。

7.如权利要求1-6中任一项所述的方法，其中所述生物样本包括乳腺组织样本或乳腺肿瘤组织样本。

8.如权利要求1-6中任一项所述的方法，其中所述生物样本包括骨髓、外泌体和/或乳腺导管流体外渗物中的循环肿瘤细胞或播散性肿瘤细胞。

9.如前述权利要求中任一项所述的方法，其中所述乳腺癌标志物包括至少两种或更多种标志物，其中所述两种或更多种标志物中的每一种选自表1和表2中列出的蛋白质。

10.如权利要求1所述的方法，其中所述乳腺癌标志物包括表1中列出的一种或多种标志物。

11.如权利要求10所述的方法，其中当与所述受试者中的所述预定阈值相比时，表1中列出的所述一种或多种标志物是以降低的水平或增加的水平存在。

12.如权利要求11所述的方法，其中表1中的所述一种或标志物的水平在与所述预定阈值相比时降低指示所述乳腺癌的所述分子亚型是ER阴性样。

13.如权利要求11所述的方法，其中表1中的所述一种或标志物的水平在与所述预定阈值相比时增加指示所述乳腺癌的所述分子亚型是ER阳性样。

14.如权利要求1所述的方法，其中所述乳腺癌标志物包括表2中列出的一种或多种标志物。

15.如权利要求1所述的方法，其中当与所述受试者中的所述预定阈值相比时，表2中列出的所述一种或多种标志物是以增加的水平或降低的水平存在。

16.如权利要求15所述的方法，其中表2中的所述一种或标志物的水平在与所述预定阈值相比时增加指示所述乳腺癌的所述分子亚型是ER阴性样。

17.如权利要求15所述的方法，其中表2中的所述一种或标志物的水平在与所述预定阈值相比时降低指示所述乳腺癌的所述分子亚型是ER阳性样。

18.如权利要求1所述的方法，其中所述乳腺癌标志物包括表1中列出的一种或多种标志物和表2中列出的一种或多种标志物。

19.如权利要求18所述的方法，其中当与所述受试者中的所述预定阈值相比时，表1中列出的所述一种或多种标志物以降低的水平存在，并且表2中列出的所述一种或多种标志物以增加的水平存在。

20.如权利要求19所述的方法，其中表1中的所述一种或标志物的水平在与所述预定阈值相比时降低以及表2中的所述一种或多种标志物的水平在与所述预定阈值相比时增加指示所述乳腺癌的所述分子亚型是ER阴性样。

21.如权利要求18所述的方法，其中当与所述受试者中的所述预定阈值相比时，表1中列出的所述一种或多种标志物以增加的水平存在，并且表2中列出的所述一种或多种标志物以降低的水平存在。

22.如权利要求21所述的方法，其中表1中的所述一种或标志物的水平在与所述预定阈值相比时增加以及表2中的所述一种或多种标志物的水平在与所述预定阈值相比时降低指示所述乳腺癌的所述分子亚型是ER阳性样。

23.如权利要求12、16和20中任一项所述的方法，其中所述乳腺癌的ER阴性样分子亚型预测较差的生存期和/或短的无进展间隔。

24.如权利要求13、17和22中任一项所述的方法，其中所述乳腺癌的ER阳性样分子亚型预测良好的生存期和/或长的无进展间隔。

25.如前述权利要求中任一项所述的方法，其中所述乳腺癌标志物的所述水平是通过HPLC/UV-Vis光谱法、酶分析、质谱法、NMR、免疫测定法、ELISA、色谱法或它们的任何组合中的一种或多种，或者通过确定所述乳腺癌标志物在生物样本中的对应mRNA的水平来检测。

26.如前述权利要求中任一项所述的方法，其进一步包括基于所述受试者的乳腺癌类型选择治疗方案。

27.如权利要求26所述的方法，其中所述治疗方案选自放射、激素疗法、化疗或它们的任何组合。

28.一种用于诊断受试者中的ER阳性乳腺癌的ER阴性样分子亚型的方法，其包括，

其中所述乳腺癌标志物的所述水平高于或低于所述预定阈值指示所述受试者患有ER阳性乳腺癌的ER阴性样分子亚型的诊断。

29.如权利要求28所述的方法，其中所述雌激素受体(ER)阳性乳腺癌包括管腔A型(LA)乳腺癌、管腔B1型(LB1)乳腺癌或LA和LB1型乳腺癌。

30.如权利要求28或29所述的方法，其中所述雌激素受体(ER)阳性乳腺癌不包括ER低乳腺癌。

31.如权利要求28-30中任一项所述的方法，其中所述生物样本包括乳腺组织样本或乳腺肿瘤组织样本。

32.如权利要求28-31中任一项所述的方法，其中所述生物样本包括骨髓、外泌体和/或乳腺导管流体外渗物中的循环肿瘤细胞或播散性肿瘤细胞。

33.如权利要求28-32中任一项所述的方法，其中所述乳腺癌标志物包括至少两种或更多种标志物，其中所述两种或更多种标志物中的每一种选自表1和表2中列出的蛋白质。

34.如权利要求28所述的方法，其中所述乳腺癌标志物包括表1中列出的一种或多种标志物。

35.如权利要求34所述的方法，其中当与所述受试者中的所述预定阈值相比时，表1中列出的所述一种或多种标志物是以降低的水平存在。

36.如权利要求35所述的方法，其中表1中的所述一种或标志物的水平在与所述预定阈值相比时降低指示所述受试者患有ER阳性乳腺癌的ER阴性样分子亚型的诊断。

37.如权利要求28的权利要求所述的方法，其中所述乳腺癌标志物包括表2中列出的一种或多种标志物。

38.如权利要求37所述的方法，其中当与所述受试者中的所述预定阈值相比时，表2中列出的所述一种或多种标志物是以增加的水平存在。

39.如权利要求38所述的方法，其中表2中的所述一种或标志物的水平在与所述预定阈值相比时增加指示所述受试者患有ER阳性乳腺癌的ER阴性样分子亚型的诊断。

40.如权利要求28所述的方法，其中所述乳腺癌标志物包括表1中列出的一种或多种标志物和表2中列出的一种或多种标志物。

41.如权利要求40所述的方法，其中当与所述受试者中的所述预定阈值相比时，表1中列出的所述一种或多种标志物以降低的水平存在，并且表2中列出的所述一种或多种标志物以增加的水平存在。

42.如权利要求41所述的方法，其中表1中的所述一种或标志物的水平在与所述预定阈值相比时降低以及表2中的所述一种或多种标志物的水平在与所述预定阈值相比时增加指示所述受试者患有ER阳性乳腺癌的ER阴性样分子亚型的诊断。

43.如权利要求28-42中任一项所述的方法，其中所述乳腺癌标志物的所述水平是通过HPLC/UV-Vis光谱法、酶分析、质谱法、NMR、免疫测定法、ELISA、色谱法或它们的任何组合中的一种或多种，或者通过确定所述乳腺癌标志物在生物样本中的对应mRNA的水平来检测。

44.一种用于诊断受试者中的ER阴性乳腺癌的雌激素受体(ER)阳性样分子亚型的方法，其包括，

其中所述乳腺癌标志物的所述水平高于或低于所述预定阈值指示所述受试者患有ER阴性乳腺癌的ER阳性样分子亚型的诊断。

45.如权利要求44所述的方法，其中所述生物样本包括乳腺组织样本或乳腺肿瘤组织样本。

46.如权利要求44或45所述的方法，其中所述生物样本包括骨髓、外泌体和/或乳腺导管流体外渗物中的循环肿瘤细胞或播散性肿瘤细胞。

47.如权利要求44-46中任一项所述的方法，其中所述乳腺癌标志物包括至少两种或更多种标志物，其中所述两种或更多种标志物中的每一种选自表1和表2中列出的蛋白质。

48.如权利要求44所述的方法，其中所述乳腺癌标志物包括表1中列出的一种或多种标志物。

49.如权利要求48所述的方法，其中当与所述受试者中的所述预定阈值相比时，表1中列出的所述一种或多种标志物是以增加的水平存在。

50.如权利要求49所述的方法，其中表1中的所述一种或标志物的水平在与所述预定阈值相比时增加指示所述受试者患有ER阴性乳腺癌的ER阳性样分子亚型的诊断。

51.如权利要求44的权利要求所述的方法，其中所述乳腺癌标志物包括表2中列出的一种或多种标志物。

52.如权利要求51所述的方法，其中当与所述受试者中的所述预定阈值相比时，表2中列出的所述一种或多种标志物是以降低的水平存在。

53.如权利要求52所述的方法，其中表2中的所述一种或标志物的水平在与所述预定阈值相比时降低指示所述受试者患有ER阴性乳腺癌的ER阳性样分子亚型的诊断。

54.如权利要求44所述的方法，其中所述乳腺癌标志物包括表1中列出的一种或多种标志物和表2中列出的一种或多种标志物。

55.如权利要求54所述的方法，其中当与所述受试者中的所述预定阈值相比时，表1中列出的所述一种或多种标志物以增加的水平存在，并且表2中列出的所述一种或多种标志物以降低的水平存在。

56.如权利要求55所述的方法，其中表1中的所述一种或标志物的水平在与所述预定阈值相比时增加以及表2中的所述一种或多种标志物的水平在与所述预定阈值相比时降低指示所述受试者患有ER阴性乳腺癌的ER阳性样分子亚型的诊断。

57.如权利要求44-56中任一项所述的方法，其中所述乳腺癌标志物的所述水平是通过HPLC/UV-Vis光谱法、酶分析、质谱法、NMR、免疫测定法、ELISA、色谱法或它们的任何组合中的一种或多种，或者通过确定所述乳腺癌标志物在生物样本中的对应mRNA的水平来检测。

58.一种用于监测受试者中的雌激素受体(ER)阳性样乳腺癌的方法，其包括，

(a)检测在第一时间从患有ER阳性样乳腺癌的所述受试者获得的第一生物样本中乳腺癌标志物的水平，其中所述乳腺癌标志物包括选自表1和表2的一种或多种标志物；以及

(b)检测在第二时间从所述受试者获得的第二生物样本中所述乳腺癌标志物的水平，其中所述第二时间晚于所述第一次；以及

(c)将所述第二样本中的所述乳腺癌标志物的所述水平与所述第一样本中所述乳腺癌标志物的所述水平进行比较；

其中所述乳腺癌标志物的所述水平的变化指示所述受试者中的ER阳性样乳腺癌的进展。

59.如权利要求58所述的方法，其中所述第一和/或所述第二生物样本包括乳腺组织样本或乳腺肿瘤组织样本。

60.如权利要求58或59所述的方法，其中所述第一和/或所述第二生物样本包括骨髓、外泌体和/或乳腺导管流体外渗物中的循环肿瘤细胞或播散性肿瘤细胞。

61.如权利要求58-60中任一项所述的方法，其中所述乳腺癌标志物包括至少两种或更多种标志物，其中所述两种或更多种标志物中的每一种选自表1和表2中列出的蛋白质。

62.如权利要求58所述的方法，其中所述乳腺癌标志物包括表1中列出的一种或多种标志物。

63.如权利要求62所述的方法，其中表1中列出的所述一种或多种标志物在与所述第一样本中所述一种或多种标志物的所述水平相比时以增加的水平存在于所述第二样本中。

64.如权利要求63所述的方法，其中所述第二样本中的表1中所述一种或多种标志物的水平在与所述第一样本中所述一种或多种标志物的所述水平相比时增加指示所述受试者中的ER阳性样乳腺癌进展。

65.如权利要求58所述的方法，其中所述乳腺癌标志物包括表2中列出的一种或多种标志物。

66.如权利要求65所述的方法，其中表2中列出的所述一种或多种标志物在与所述第一样本中所述一种或多种标志物的所述水平相比时以降低的水平存在于所述第二样本中。

67.如权利要求66所述的方法，其中所述第二样本中的表2中所述一种或标志物的水平在与所述第一样本中所述一种或多种标志物的所述水平相比时降低指示所述受试者中的ER阳性样乳腺癌进展。

68.如权利要求58所述的方法，其中所述乳腺癌标志物包括表1中列出的一种或多种标志物和表2中列出的一种或多种标志物。

69.如权利要求68所述的方法，其中表1中列出的所述一种或多种标志物在与所述第一样本中所述一种或多种标志物的所述水平相比时以增加的水平存在于所述第二样本中，并且表2中列出的所述一种或多种标志物在与所述第一样本中所述一种或多种标志物的所述水平相比时以降低的水平存在于所述第二样本中。

70.如权利要求69所述的方法，其中所述第二样本中的表1中所述一种或标志物的水平在与所述第一样本中所述一种或多种标志物的所述水平相比时增加以及所述第二样本中的表2中所述一种或多种标志物的水平在与所述第一样本中所述一种或多种标志物的所述水平相比时降低指示所述受试者中的ER阳性样乳腺癌进展。

71.如权利要求58-70中任一项所述的方法，其中所述乳腺癌标志物的所述水平是通过HPLC/UV-Vis光谱法、酶分析、质谱法、NMR、免疫测定法、ELISA、色谱法或它们的任何组合中的一种或多种，或者通过确定所述乳腺癌标志物在生物样本中的对应mRNA的水平来检测。

72.一种用于监测受试者中的雌激素受体(ER)阴性样乳腺癌的方法，其包括，

(a)检测在第一时间从患有ER阴性样乳腺癌的所述受试者获得的第一生物样本中乳腺癌标志物的水平，其中所述乳腺癌标志物包括选自表1和表2的一种或多种标志物；以及

(c)将所述第二样本中的所述乳腺癌标志物的所述水平与所述第一样本中所述乳腺癌的所述水平进行比较；

其中所述乳腺癌标志物的所述水平的变化指示所述受试者中的ER阴性样乳腺癌的进展。

73.如权利要求72所述的方法，其中所述第一和/或所述第二生物样本包括乳腺组织样本或乳腺肿瘤组织样本。

74.如权利要求72或73所述的方法，其中所述第一和/或所述第二生物样本包括骨髓、外泌体和/或乳腺导管流体外渗物中的循环肿瘤细胞或播散性肿瘤细胞。

75.如权利要求72-74中任一项所述的方法，其中所述乳腺癌标志物包括至少两种或更多种标志物，其中所述两种或更多种标志物中的每一种选自表1和表2中列出的蛋白质。

76.如权利要求72所述的方法，其中所述乳腺癌标志物包括表1中列出的一种或多种标志物。

77.如权利要求76所述的方法，其中表1中列出的所述一种或多种标志物在与所述第一样本中所述一种或多种标志物的所述水平相比时以降低的水平存在于所述第二样本中。

78.如权利要求77所述的方法，其中所述第二样本中的表1中所述一种或多种标志物的水平在与所述第一样本中所述一种或多种标志物的水平相比时降低指示所述受试者中的ER阴性样乳腺癌进展。

79.如权利要求72的权利要求所述的方法，其中所述乳腺癌标志物包括表2中列出的一种或多种标志物。

80.如权利要求79所述的方法，其中表2中列出的所述一种或多种标志物在与所述第一样本中所述一种或多种标志物的所述水平相比时以增加的水平存在于所述第二样本中。

81.如权利要求80所述的方法，其中所述第二样本中的表2中所述一种或标志物的水平在与所述第一样本中所述一种或多种标志物的所述水平相比时增加指示所述受试者中的ER阴性样乳腺癌进展。

82.如权利要求72所述的方法，其中所述乳腺癌标志物包括表1中列出的一种或多种标志物和表2中列出的一种或多种标志物。

83.如权利要求82所述的方法，其中表1中列出的所述一种或多种标志物在与所述第一样本中所述一种或多种标志物的所述水平相比时以降低的水平存在于所述第二样本中，并且表2中列出的所述一种或多种标志物在与所述第一样本中所述一种或多种标志物的所述水平相比时以增加的水平存在于所述第二样本中。

84.如权利要求83所述的方法，其中所述第二样本中的表1中所述一种或标志物的水平在与所述第一样本中所述一种或多种标志物的所述水平相比时降低以及所述第二样本中的表2中所述一种或多种标志物的水平在与所述第一样本中所述一种或多种标志物的所述水平相比时增加指示所述受试者的ER阴性样乳腺癌的进展。

85.如权利要求72-84中任一项所述的方法，其中所述乳腺癌标志物的所述水平是通过HPLC/UV-Vis光谱法、酶分析、质谱法、NMR、免疫测定法、ELISA、色谱法或它们的任何组合中的一种或多种，或者通过确定所述乳腺癌标志物在生物样本中的对应mRNA的水平来检测。

86.一种用于识别调节雌激素受体(ER)阳性样乳腺癌的剂的方法，其包括，

(a)使细胞与测试化合物接触，

(b)确定所述细胞中乳腺癌标志物的表达和/或活性，其中所述乳腺癌标志物包括选自表1和表2的一种或多种标志物，以及

(c)将调节所述细胞中所述乳腺癌标志物的所述表达和/或活性的测试化合物识别为调节ER阳性样乳腺癌的剂。

87.一种用于识别调节雌激素受体(ER)阴性样乳腺癌的剂的方法，其包括：

(a)使细胞与测试化合物接触，

(c)将调节所述细胞中所述乳腺癌标志物的所述表达和/或活性的测试化合物识别为调节ER阴性样乳腺癌的剂。

88.如权利要求86或87所述的方法，其中所述细胞包括乳腺癌细胞。

89.如权利要求86或87所述的方法，其中所述测试化合物是小分子、抗体或核酸抑制剂。

90.一种通过权利要求86或87的方法识别的化合物。

91.一种用于治疗受试者中的雌激素受体(ER)阳性样乳腺癌的方法，其包括向所述受试者施用乳腺癌标志物的调节剂，其中所述乳腺癌标志物包括选自表1和表2的一种或多种标志物。

92.如权利要求91所述的方法，其中所述调节剂增加表2中列出的所述一种或多种标志物的水平或活性。

93.如权利要求91所述的方法，其中所述调节剂降低表1中列出的所述一种或多种标志物的水平或活性。

94.一种用于治疗受试者中的雌激素受体(ER)阴性样乳腺癌的方法，其包括向所述受试者施用乳腺癌标志物的调节剂，其中所述乳腺癌标志物包括选自表1和表2的一种或多种标志物。

95.如权利要求94所述的方法，其中所述调节剂增加表1中列出的所述一种或多种标志物的水平或活性。

96.如权利要求94所述的方法，其中所述调节剂降低表2中列出的所述一种或多种标志物的水平或活性。

97.一种用于检测来自患有乳腺癌的受试者的生物样本中雌激素受体(ER)阳性样乳腺癌的分子亚型的试剂盒，其包括一种或多种用于测量来自所述受试者的所述生物样本中乳腺癌标志物的水平的试剂，其中所述乳腺癌标志物包括选自表1和表2的一种或多种标志物；以及用于测量所述乳腺癌标志物的所述水平的一套说明书。

98.如权利要求97所述的试剂盒，其中所述乳腺癌标志物包括具有与所述受试者中的预定阈值相比时增加的水平的表1中列出的一种或多种标志物。

99.如权利要求97所述的试剂盒，其中所述乳腺癌标志物包括具有与所述受试者中的预定阈值相比时降低的水平的表2中列出的一种或多种标志物。

100.如权利要求97所述的试剂盒，其中所述乳腺癌标志物包括具有与所述受试者中的预定阈值相比时增加的水平的表1中列出的一种或多种标志物和具有与所述受试者中的预定阈值相比时降低的水平的表2中列出的一种或多种标志物。

101.如权利要求97所述的试剂盒，其中所述试剂是与所述标志物结合的抗体或与所述乳腺癌标志物的对应mRNA互补的寡核苷酸。

102.一种用于检测来自患有乳腺癌的受试者的生物样本中雌激素受体(ER)阴性样乳腺癌的分子亚型的试剂盒，其包括一种或多种用于测量来自所述受试者的所述生物样本中乳腺癌标志物的水平的试剂，其中所述乳腺癌标志物包括选自表1和表2的一种或多种标志物；以及用于测量所述乳腺癌标志物的所述水平的一套说明书。

103.如权利要求102所述的试剂盒，其中所述乳腺癌标志物包括具有与所述受试者中的预定阈值相比时降低的水平的表1中列出的一种或多种标志物。

104.如权利要求102所述的试剂盒，其中所述乳腺癌标志物包括具有与所述受试者中的预定阈值相比时增加的水平的表2中列出的一种或多种标志物。

105.如权利要求102所述的试剂盒，其中所述乳腺癌标志物包括具有与所述受试者中的预定阈值相比时降低的水平的表1中列出的一种或多种标志物和具有与所述受试者中的预定阈值相比时增加的水平的表2中列出的一种或多种标志物。

106.如权利要求102所述的试剂盒，其中所述试剂是与所述标志物结合的抗体或与所述乳腺癌标志物的对应mRNA互补的寡核苷酸。

107.一种用于在用于确定受试者中的乳腺癌分子亚型的方法中使用的测试板，所述测试板包含一种或多种检测试剂，其中每种检测试剂对于乳腺癌标志物的检测具有特异性，其中所述乳腺癌标志物包括选自表1和表2的一种或多种标志物。

108.如权利要求107所述的测试板，其中所述乳腺癌标志物包括至少两种或更多种标志物，其中所述两种或更多种标志物中的每一种均选自表1和表2中列出的所述蛋白质的一种或任何组合。

109.一种试剂盒，其包括权利要求107所述的测试板和用于基于乳腺癌标志物的水平确定乳腺癌的分子亚型的一套说明书。