CN110423816A

CN110423816A - 乳腺癌预后量化评估系统及应用

Info

Publication number: CN110423816A
Application number: CN201910658961.4A
Authority: CN
Inventors: 冯玉梅; 贺锐
Original assignee: Tianjin Medical University Cancer Institute and Hospital
Current assignee: Tianjin Medical University Cancer Institute and Hospital
Priority date: 2018-10-12
Filing date: 2019-07-19
Publication date: 2019-11-08
Anticipated expiration: 2039-07-19
Also published as: CN110423816B

Abstract

本发明涉及系统性筛选、优化并验证乳腺癌3年内早发转移及Luminal和Basal‑like亚型乳腺癌预后预测基因群及预后预测量化评估系统。

Description

乳腺癌预后量化评估系统及应用

技术领域

本发明涉及分子诊断领域。具体而言，本发明涉及系统性筛选、优化和验证乳腺癌3年内早发转移及Luminal和Basal-like亚型乳腺癌预后预测基因群，并基于该基因群建立的乳腺癌患者预后预测量化评估系统。

背景技术

乳腺癌是女性最常见的恶性肿瘤之一，每年全世界约新增120万女性乳腺癌患者。在欧美发达国家，乳腺癌发病率占女性恶性肿瘤首位。与发达国家相比，我国虽属乳腺癌的低发区，但其发病率也呈逐年上升趋势。在上海、北京等发达城市，乳腺癌的发病率已占女性新发恶性肿瘤的首位。术后复发和转移是导致乳腺癌患者癌症相关死亡的主要原因，早期预测复发和转移从而实施精准个体化治疗可显著降低乳腺癌患者的死亡率和提高患者的生存质量。

传统的乳腺癌临床治疗方案的选择主要依据肿瘤大小、组织学分级和淋巴结转移状态等临床病理因素以及雌激素受体(estrogen receptor，ER)、孕激素受体(progesterone receptor，PR)和人表皮生长因子受体2(human epidermal growth factorreceptor 2，HER2)等分子表达，其中ER和PR表达状态与内分泌治疗疗效相关，HER2表达状态是曲妥珠单抗的治疗靶点。基于联合肿瘤大小、组织学分级和淋巴结转移状态等临床病理因素建立预后量化模型的应用有Adjuvant！Online[1]和Nottingham预后指数等。这些乳腺癌预后预测指标已被纳入National Comprehensive Cancer Network(NCCN)[2]、the USNational Cancer Institute(NCI)和St Gallen’s consensustatements[3，4]等多家权威机构发布的治疗指南。但是，这些基于临床病理因素的预后量化模型指导的临床治疗使约60％的早期乳腺癌患者接受辅助化疗，而其中仅有2～15％能从中受益，余者却遭受不必要的化疗毒副作用和经济负担。

近年来，基于乳腺癌组织基因表达谱或ER/PR/HER2表达状态将异质性乳腺癌分类为不同的分子亚型，主要包括：normal-like、luminal A、luminal B、HER2-enriched和basal-like亚型[5，6]。不同亚型乳腺癌患者的预后不同，对化疗、内分泌治疗和分子靶向治疗的反应也不同。目前，基于基因表达谱芯片技术和分子分型方法开发出的一系列预后量化评估模型仅适用于luminal亚型乳腺癌患者，如基于21个基因mRNA表达水平的复发评分(recurrence score，RS)数学模型Oncotype DX已被美国FDA批准临床应用于预测ER+且淋巴结转移阴性乳腺癌患者十年内发生远处转移的风险，但需要在特定的实验室实施。尽管basal-like亚型乳腺癌具有间质细胞特性和ER-/PR-/HER2-特征，且大部分呈低分化状态和早期播散性转移，但仍有部分basal-like亚型乳腺癌患者由于肿瘤分化良好而术后长期生存。迄今，尚缺乏适用于三阴性/basal-like亚型乳腺癌的预后量化评估系统，且无预测早发转移风险的预测模型和量化评估系统。此外，多基因预后预测系统基于基因芯片检测基因表达的技术难度高、结果稳定性差和检测成本高等问题限制了其在临床的推广应用。

发明内容

本发明旨在建立预测乳腺癌患者3年早发转移以及luminal和basal-like亚型乳腺癌患者复发转移风险的预后量化评估系统，以指导临床实施个体化精准治疗，从而有效提高患者生存质量和生存期。本发明基于在线公开的多中心大样本乳腺癌组织基因表达谱数据，利用一系列统计学方法对样本和数据进行系统性筛选和优化，通过训练队列分析和验证队列独立验证，分别建立了luminal和basal-like亚型乳腺癌患者预后预测量化评估系统以及乳腺癌患者早发转移风险预测量化评估系统。最终所得预后量化评估系统兼具稳定性和经济性优势，即利用尽可能少的预后指标达到最优预测效果，从而具有更广泛的临床应用价值。

本发明中使用的术语的中英文表达如下表所示：

本发明基于在线公开的多中心大样本乳腺癌组织基因表达谱数据，利用一系列统计学方法对样本和数据进行系统性筛选和优化，通过训练队列分析和验证队列独立验证，分别建立了由8个基因组成的“luminal亚型乳腺癌预后预测基因群及量化评估系统”，6个基因组成的“basal-like亚型乳腺癌预后预测基因群及量化评估系统”和4个基因组成的“3年早发转移乳腺癌预后预测基因群及量化评估系统”。其中，“luminal亚型乳腺癌预后预测基因群及量化评估系统”可预测luminal亚型乳腺癌患者5年复发转移预后；“basal-like亚型乳腺癌预后预测基因群及量化评估系统”可判断basal-like亚型乳腺癌患者5年复发转移预后；而基于“3年早发转移乳腺癌预后预测基因群及量化评估系统”可筛选3年早发转移的高危乳腺癌患者。以上三组基因群均可基于qPCR平台检测乳腺癌患者原发癌组织样本中各基因群的mRNA水平，基于基因群中各基因的表达水平，通过量化评分公式判断复发转移风险。

第一方面，本发明提供了一种用于量化评估luminal亚型乳腺癌预后的预测基因群，其由表1.1中所示的8个基因组成，以及相应的评分公式。

第二方面，本发明提供了一种用于量化评估basal-like亚型乳腺癌预后的预测基因群，其由表1.2中所示的6个基因组成，以及相应的评分公式。

第三方面，本发明提供了用于量化评估luminal或basal-like亚型乳腺癌预后的检测工具，其包括表1.1中所示的8个基因或表1.2中所示的6个基因。

第四方面，本发明提供了一种用于量化评估3年早发转移乳腺癌预后的预测基因群，其由表2.1中所示的4个基因组成，以及相应的评分公式；或由表2.5中所示的24个基因组成。

第五方面，本发明提供了用于量化评估3年早发转移乳腺癌预后的检测工具，其包括表2.5中所示的24个基因或表2.1中所示的4个基因。

第六方面，本发明提供了第一方面、第二方面、第四方面的基因群或第三方面、第五方面的检测工具用于制备评估乳腺癌预后的试剂的用途。

第七方面，本发明提供了一种筛选luminal或basal-like亚型乳腺癌预后预测基因群的方法，包括以下步骤：

(1)收集公共数据库中基于Affymatrix芯片平台(不限于Affymatrix芯片平台)检测的乳腺原发癌组织基因表达谱数据，选取样本数量大(如80例以上)、无临床病理因素偏倚、随访资料完备、且检测样本为冰冻组织标本的人群作为候选训练队列；

(2)按照以下质控指标，逐一对各个训练队列完成芯片制备质量控制，剔除制备质量未达标准的样本，并删除制备质量不合格样本比例＞50％的候选队列：单个数据集内，各表达谱芯片的探针信号分布箱线图和探针信号密度分布可比，若存在单一芯片与其他芯片的分布趋势明显相背离，则剔除该芯片数据；单个数据集内，各表达谱芯片的GAPDH 3’端探针/GAPDH 5’端探针比值应介于1～1.25，同时ACTB 3’端探针/ACTB 5’端探针比值应介于1～3之间，剔除高于此二值的芯片数据；单个数据集中，单张芯片的上样过程应保持空间上的上样均一性，剔除COI(Centers of Intensity)值高于0.5或低于-0.5的芯片数据；

(3)采用双峰分布分子分型法对终选训练队列进行分子亚型分组，优选地，基于ESR1(205225_at)、PGR(208305_at)和ERBB2(216836_s_at)基因探针信号分布拟合结果，以拟合模型中双峰间的交点为阈值，判断各样本ER、PR和HER2阴/阳性状态，从而将终选训练队列病例分子分型为luminal(ER+/PR+/HER2-)和basal-like(ER-/PR-/HER2-)亚型；

(4)分别对各训练队列中luminal亚型和basal-like亚型乳腺癌各基因探针进行单因素Cox回归风险比例计算；

(5)通过基于ComBat合并数据集的单因素Cox风险比例回归优化、基于多因素Cox风险系数逐步回归的独立性优化、基于穷尽枚举的组合优化方法，优化luminal和basal-like亚型乳腺癌预后预测基因群。

第八方面，本发明提供了一种筛选3年早发转移乳腺癌预后的预测基因群的方法，所述方法包括以下步骤：

(1)收集汇总公共数据库中Affymatrix芯片平台乳腺癌原发癌组织基因表达谱数据，选取样本数量大(如80例以上)、无临床病理因素偏倚、随访资料完备，且送检样本为冰冻组织标本的人群作为候选训练队列；

(2)按照以下质控指标，逐一对各个训练队列完成Affymatrix芯片制备质量控制，剔除制备质量未达标准的样本，并删除制备质量不合格样本比例＞50％的候选队列：单个数据集内，各表达谱芯片的探针信号分布箱线图和探针信号密度分布可比，剔除存在单一芯片与其他芯片的分布趋势明显相背离的芯片数据；单个数据集内，各表达谱芯片的GAPDH3’端探针/GAPDH 5’端探针比值应介于1～1.25，同时ACTB 3’端探针/ACTB 5’端探针比值应介于1～3之间，剔除高于此二值的芯片数据；单个数据集中，单张芯片的上样过程应保持空间上的上样均一性，即单张芯片边缘高值信号强度相近，同时，芯片边缘低值信号的强度也亦相近，剔除COI值高于0.5或低于-0.5的芯片数据；然后，剔除质控合格样本中随访资料不足3年或3年后复发转移的样本，删除样本后3年内复发转移样本不足20个的小样本数据集也从候选训练队列剔除；

(3)利用t检验筛选各队列3年复发转移与无病生存病例原发癌组织标本间差异表达基因；

(4)比较从不同训练数据集中筛选得到的差异表达的基因，统计在所有训练队列中上调和下调的基因，作为乳腺癌3年早发复发转移预后预测基因。

优选地，所述方法还包括(5)消除不同训练队列批间差影响，合并各个队列作为训练队列，采用多因素Cox风险比例回归模型，将非独立协变量(基因)剔除，得到具有独立预后预测价值的基因。

表1.1 luminal亚型乳腺癌8-基因预后预测基因群

风险评分(X)＝0.87×SLC37A1+0.52×KLHDC10+0.30×PDE4DIP-1.43×CHRNB1-1.27×ANKMY1-0.34×FMO5-1.2×HPS1-0.45×FUCA1

复发风险(Y)＝0.93×X²+9.04×X+22.02

表1.2 Basal-like亚型乳腺癌6-基因预后预测基因群

风险评分(X)＝0.45×STMN2+0.50×MED16+0.43×TCHH-0.38×ITM2A-1.36×ZBTB32-0.51×CYP27A1

复发风险(Y)＝2.92×X²+15.33×X+21.47

表2.1乳腺癌3年早发转移4-基因预后预测基因群

风险评分(X)＝0.546×CCNB2+0.225×CDKN3+0.242×CCNB1-0.173×CX3CR1

复发风险(Y)＝2.37×X²+10.33×X+13.77

本发明还包括预后预测基因群中单个基因或2个及2个以上基因的组合，基因群或基因检测，适用于多种mRNA检测平台，包括但不局限于Affymetrix、Agilent、Illmuina、PCR阵列、RT-qPCR和Northen印迹法等基因mRNA表达水平检测方法和平台。本发明适用于多种检测样本，包括但不局限于乳腺原发癌冰冻组织标本、福尔马林固定石蜡包埋组织标本和活检穿刺标本。

附图说明

图1.1表示训练队列质控筛选。A)表达谱芯片的探针信号分布箱线图，框内为删除样本；B)探针信号密度分布图，箭头指示删除样本；C)检测样本质控图，框内为RNA降解严重删除样本；D)芯片下缘探针信号分布箱式图框内为删除样本。

图1.2表示双峰分布法探针分布拟合曲线图。A)ESR1(205225_at)、B)PGR(208305_at)和C)ERBB2(208305_at)探针分布拟合曲线图。

图1.3表示训练队列Meta分析。A)1053_at和36129_at探针训练队列Meta分析斗图；B)1053_at和36129_at探针训练队列Meta分析森林图。

图1.4表示luminal和basal-like亚型以及总体病例5年复发转移预测基因群维恩图分析。

图1.5表示luminal和basal-like亚型合并训练队列中8-基因评分和6-基因评分频数分布和风险拟合分析。A-C)8-基因评分在luminal亚型合并训练队列中频数分布(A)、5年复发转移风险拟合曲线(B)和10年复发转移风险拟合曲线(C)；D-F)6-基因评分在basal-like亚型合并训练队列中频数分布(D)、5年复发转移风险拟合曲线(E)和10年复发转移风险拟合曲线(F)。

图1.6表示训练队列GSE20685中8-基因和6-基因预后预测价值检验。A)热图显示训练队列luminal亚组8-基因评分分组与5年/10年远处转移发生的分布关系；B)8-基因评分分组在训练队列luminal亚组中Kaplan-Meier无病生存分析；C)热图显示训练队列basal-like亚组6-基因评分分组与5年复发发生的分布关系；D)6-基因评分分组在训练队列basal-like亚组中Kaplan-Meier无病生存分析。

图1.7表示ER+验证队列GSE6532_KIU中8-基因和混合验证队列GSE6532_OXFU中ER-病例6-基因预后预测价值检验。A)热图ER+验证队列GSE6532_KIU中8-基因表达水平与5年/10年远处转移发生的分布关系；B)ER+验证队列GSE6532_KIU中8-基因评分高低表达组别Kaplan-Meier无病生存分析；C)混合验证队列GSE6532_OXFU中ER-病例6-基因表达水平与5年复发发生的分布关系；D)混合验证队列GSE6532_OXFU中ER-病例6-基因高低表达组别Kaplan-Meier无病生存分析。

图1.8表示8-基因预后量化评分预测中国人群luminal亚型乳腺癌患者10年无远处转移生存率的Kaplan-Meier生存分析(A)和卡方检验(B)。

图2.1表示训练队列共有3年早发复发转移24-基因预后预测基因群功能分析。

图2.2表示24-基因3年早发复发转移预后预测基因群训练队列Kaplan-Meier生存分析。

图2.3表示24-基因3年早发复发转移预后预测基因群在验证队列中的无监督聚类热图和Kaplan-Meier生存分析。A-C)ER+队列；D)ER-队列。

图2.4表示4-基因预后量化评分在合并训练队列中的频数分布(A)和风险拟合曲线(B)。

图2.5表示4-基因预后量化评分预测验证队列3年早发复发转移的Kaplan-Meier生存分析。

图2.6表示4-基因预后量化评分预后预测基因群天津人群验证队列早发复发转移的Kaplan-Meier生存分析(A)和卡方检验(B)。

具体实施方式

一方面，本发明提供了本发明的基因群或检测工具用于制备评估乳腺癌患者预后的试剂的用途。

在一个具体实施方案中，提供了由表1.1中所示的8个基因组成的基因群用于制备评估luminal亚型乳腺癌预后的试剂的用途。

在另一个实施方案中，提供了由表1.2中所示的6个基因组成的基因群用于制备评估basal-like亚型乳腺癌患者预后的试剂的用途。

在另一个实施方案中，提供了由表2.5中所示的24个基因组成的基因群或表2.1中所示的4个基因组成的基因群用于制备评估3年早发转移乳腺癌预后的试剂的用途。

通过以下实施例详细说明本发明，但不以任何形式限制本发明。

实施例1、luminal和basal-like亚型乳腺癌预后量化评估系统建立

1.1材料方法

1.1.1标本收集

在公共数据库平台(GEO：https：//www.ncbi.nlm.nih.gov/geoProfiles/，AE：https：//www.ebi.ac.uk/arrayexPress/)收集公开发表的基于Affymatrix表达谱基因芯片平台检测的乳腺原发癌组织基因表达谱原始数据(.cel)，选取样本量达80例以上、无临床病理因素偏倚、随访资料(5年远处转移或复发)完备，且送检样本为冰冻组织标本的人群作为候选训练队列。选取具有分子亚型特异性(ER+或ER-)，随访资料(5年远处转移或复发)完备，且送检标本为非活检样本的数据为候选验证队列。

中国人群验证抽样代表样本为乳腺原发癌组织样本，均取自于天津医科大学附属肿瘤医院收治的乳腺癌患者的原发癌组织标本。所有病例均经两位病理学医生双盲诊断为浸润性导管癌(WHO分类)，所有病人术前均未行新辅助放、化疗，术后进行辅助放疗、化疗和5年内分泌治疗(ER阳性患者)，中位随访时间为5.4年。分子分型判定依据如下：ER、PR和HER2表达情况根据免疫组化结果判定，10％肿瘤细胞核染色阳性定义为ER或PR阳性，10％肿瘤细胞膜染色阳性定义为HER2阳性，将激素受体阳性(ER+或PR+)定义为luminal亚型。所有组织样本取材过程所用器械均经无RNA酶处理，经液氮速冻后保存于-80℃冰箱。所有样本采集和使用均征得申请伦理委员会豁免后由天津医科大学肿瘤医院伦理委员会同意使用。最终得到所用的21例luminal亚型乳腺癌组织学分级II级19例，III级2例；ER阳性18例、阴性3例；PR阳性15例、阴性6例。

1.1.2 cDNA基因芯片制备及数据预处理

人类表达谱cDNA基因芯片采用人Oligo芯片(北京博奥晶典生物芯片有限公司)，以Qiagen公司的人类基因70mer Oligo数据库为参照，共包含23232个基因(探针)，其中21329个为人源功能探针，此外还分别含有12个阳性对照(人源管家基因)和12个阴性对照(人工合成的非人源的70mer Oligo数据库DNA)，以及拟南芥的3个基因作为外标。将待检测样品点样在经过氨基修饰的75×25mm载玻片上，整个矩阵由48个22行×22列大小的亚阵组成。每个点的直径约140μm，间距185μm。

1.1.2.1基因芯片cDNA检测样本制备

1.1.2.1.1组织细胞RNA提取及纯化

1.RNA提取：乳腺癌患者新鲜原发癌组织样本加液氮磨碎后，加3-5ml Trizol试剂，室温反应30分钟后将悬液分装于1.5ml EP管中，每管1ml。每个EP管中加氯仿200μl，震荡混匀，12,000×g 4℃离心20分钟。吸取上层水相，并移至另一干净的EP管中，各加等体积异丙醇混匀。-20℃沉淀2小时，12,000×g 4℃离心20分钟。75％乙醇洗涤RNA沉淀。将RNA溶于DEPC水中，60℃助溶5～10min。使用微量核酸定量分析仪测量RNA浓度和纯度，较纯的RNAOD₂₆₀/OD₂₈₀的值在1.8-2.0之间。取1μg RNA进行琼脂糖凝胶电泳检测RNA质量。完整的RNA电泳应见28S、18S和5S三条带，且28S与18S的光密度比值为2∶1。

2.RNA纯化：使用RNeasy midi试剂盒纯化RNA。取100μg RNA加DEPC水至100μl，加入350μl β-巯基乙醇-RLT缓冲剂中，混匀后加入250μl无水乙醇，混匀，室温作用15分钟。将混合液体移至RNA纯化柱中静置2分钟，室温12,000rpm离心15秒。弃去收集管中液体，向柱中加入500μl RPE缓冲剂，室温12,000rpm离心15秒。再向柱中加入500μl RPE缓冲剂，室温12,000rpm离心2分钟。12,000rpm离心空甩1分钟。将纯化柱置于另一干净EP管中，加入30μl60℃预热的DEPC水，静置3分钟，12,000rpm离心1分钟。再用30μl 60℃预热的DEPC水重复洗脱一次。RNA纯化后，测量浓度，用琼脂糖凝胶电泳检测RNA质量，-80℃保存或直接反转录。

1.1.2.1.2双链cDNA(ds cDNA)合成

1.反转录引物：Heel-Oligo(dT)17的序列为CTCTCAAGGATCTTACCGCTTTTTTTTTTTTTTTTTV，由上海生工生物工程有限公司合成。

2.第一链合成：采用cDNA合成试剂盒(M-MLV version)，20μl反应体系中含2μg总RNA、2μg Heel-Oligo(dT)17、20mmol dNTP mix，65℃变性5分钟，冰浴后加入第一链缓冲剂、20U RNA酶抑制剂和逆转录酶(M-MLV)200U，42℃反应1小时。

3.第二链合成：采用cDNA合成试剂盒(M-MLV version)合成双链cDNA，其原理为使用RNA酶H使DNA-RNA杂合体中的RNA链形成单链切口，在E.coli DNA聚合酶合连接酶的作用下RNA链被DNA链置换，合成cDNA的第二条链，然后在T4 DNA聚合酶的作用下使双链cDNA片段末端平滑。具体操作如下：向第一链反应液中加入30U Ecoli DNA聚合酶和1.5μl RNA酶H与连接酶的混合物，补DEPC水至80μl。12℃反应1小时，22℃反应1小时，70℃ 10分钟终止反应后恢复至室温。向反应体系中加入3.5U T4 DNA聚合酶，37℃反应10分钟补齐cDNA链末端后70℃10分钟终止反应。

4.双链cDNA纯化：双链cDNA产物用QIAquick PCR纯化试剂盒纯化。向第二链合成的反应体系中加入5倍体积的PB，混匀并移至PCR产物纯化柱中，静置2分钟后12,000rpm离心1分钟。弃去收集液，加入500μl PE，12,000rpm离心1.5分钟。重复用PE清洗柱子一次。离心空甩2分钟。将纯化柱放入一个新的EP管中，加65℃预热的EB 30μl，静置3分钟后12,000rpm离心1.5分钟。用30μl EB重复洗脱一次，最后洗脱体积约56μl。使用微量核酸定量分析仪测定纯化后dscDNA的浓度，纯化后的双链cDNA产量应为800ng左右。取5μl纯化后的dsDNA进行1％琼脂糖凝胶电泳，可见smear背景。纯化的dscDNA用于单链引物扩增反应。

1.1.2.1.3单链引物扩增(single primer amplification，SPA)

1.单链引物扩增的引物：Heel引物的序列为CTCTCAAGGATCTTACCGC。引物由上海生工生物有限公司合成。

2.单链引物PCR扩增：100μl反应体系中，含200ng ds cDNA(起始于0.5μg总RNA)，2μmol/L Heel引物，0.2mmol/L dNTP，12.5U Taq酶。反应条件为：94℃，1min；56℃，1min；72℃，2min；40个循环。

3.PCR产物纯化：双链cDNA产物用QIAquick PCR纯化试剂盒纯化。纯化步骤同双链cDNA的纯化过程。最终洗脱体积约56μl。使用微量核酸定量分析仪测定纯化的SPA产物浓度，纯化后的双链cDNA产量应为7μg左右。取2μl纯化SPA产物进行1％琼脂糖凝胶电泳可见smear背景和三条亮带。纯化后的SPA产物取4μg PCR产物在离心浓缩仪上抽干后重新溶于12μl去离子水中进行随机引物标记反应。

1.1.2.1.4随机引物标记反应

1.荧光标记：使用随机引物标记试剂盒，50μl反应体系中，含8μg 9mer随机引物，4μg SPA产物(起始于0.25μg总RNA)，0.12mmol/L dATP、dGTP、dTTP，0.06mmol/L dCTP，0.06mmol/L Cy3-dCTP或Cy5-dCTP，8U Klenow Fragment，37℃反应1.5小时。Cy3标记乳腺原发癌，Cy5标记转移癌。

2.标记产物纯化：标记产物用QIAquick PCR纯化试剂盒纯化。纯化步骤同双链cDNA的纯化过程。

3.计算荧光掺入量：分别测量Cy3标记产物的OD₂₆₀、OD₂₈₀、OD₅₅₀和Cy5标记产物的OD₂₆₀、OD₂₈₀、OD₆₅₀，并跟据下面公式计算荧光掺入量。

Cy3的消光系数(ex550)＝150,000M

Cy5的消光系数(ex650)＝250,000M

4.将标记产物离心浓缩抽干并溶于16.8μl去离子水中，准备用于芯片杂交。

1.1.2.1.5基因芯片杂交

1.芯片准备：基因芯片经60℃水合10秒，2次；风干后250mJ紫外交联；42℃的0.5％SDS洗10分钟；无水乙醇清洗；1,500rpm离心1分钟甩干后用于杂交。

2.芯片杂交：杂交体系中含16.8μl标记产物，2.0％SDS，1×Denhart，25％去离子甲酰胺，3×SSC。95℃变性3min，冰浴冷却，短暂离心后点在基因芯片上，盖玻片覆盖，置于杂交盒中，42℃水浴杂交过夜。将杂交后的基因芯片依次在50℃的含0.2％SDS的2×SSC、0.2×SSC和纯水中洗片。1,500rmp/min离心1min甩干后进行荧光强度扫描。

1.1.2.2芯片扫描及数据分析

1.芯片扫描及数据初步提取：杂交后的基因芯片用基因TAC LS-IV生物芯片分析仪扫描，经基因Pix Pro 4.0分析软件图像处理并提取数据。

2.标准化(normalization)：基因芯片技术可以同时检测上万个基因的表达水平，然而从样本准备到数据处理的过程中每一步都可能导致误差和偏移，标准化可以调整标记效率的差异和不同芯片上荧光强度的差别。标准化思想是建立在与同一张芯片杂交的两个样本的大多数基因表达没有差异的假设基础之上的。

(1)线性标准化(linerar normalization)：设R为Cy5的荧光强度值，G为Cy3的荧光强度值，A＝1/2Log₂(RG)。理论上所有点都应该满足下面方程：M＝b0+b1A，根据最小二乘法的原理计算出直线方程，并对每个点进行校正。

(2)不同芯片的整体标准化(global normalization)：假设Cy3或Cy5的荧光强度为P，M＝Log₂(P)，α为M的中位数。理论上所有芯片上的Cy3或Cy5的α都应该是相等的，取所有α值的中位数来对所有的Cy3和Cy5的荧光强度值进行标准化。

1.1.3 Affymatrix基因表达谱芯片数据预处理

1.1.3.1 Affymatrix基因表达谱芯片制备质量控制

训练队列样本质控筛选(QC)：因训练队列来源于不同随访时间，不同国家地区，资料由不同团队整理，为加强训练队列的同质性，增强计算结果的可比性，我们联合使用R语言中的AffyQCRePort和AffyPLM工具，综合考虑质控严格性和样本体量规模，避免过匹配，选择统一且最优质控指标和参数，逐一对各个训练队列完成原始Affymatrix芯片制备质量控制，剔除制备质量未达标准的样本，并删除制备质量不合格样本比例过高(＞50％)的候选队列，初始筛选标准及步骤如下：

1.单个数据集内，各表达谱芯片的探针信号分布箱线图(图1.1A)和探针信号密度分布(图1.1B)可比，若存在单一芯片与其他芯片的分布趋势明显相背离，则剔除该芯片数据。

2.单个数据集内，各表达谱芯片的GAPDH 3’端探针/GAPDH 5’端探针比值应介于1～1.25，同时ACTB3/ACTB5比值应介于1～3之间。如果存在芯片高于此二值，则说明该张芯片对应样本的RNA降解现象严重，剔除该芯片数据(图1.1C)。

3.单个数据集中，单张芯片的上样过程应保持空间上的上样均一性，即单张芯片边缘高值信号强度相近，同时，芯片边缘低值信号的强度也亦相近。使用COI值分别检测芯片上下缘和左右侧缘信号均值差异水平，若COI值高于0.5或低于-0.5时，则说明芯片上样均一性存在问题，剔除该芯片数据(图1.1D)。

4.单个数据集内，各芯片RLE(relative log expression)中值水平相近且位于0附近，若单样本的RLE中值大于所属数据集RLE中值分布上四分位点1.5倍或小于其下四分位点2/3倍时，予以去除。

5.单个数据集内，各芯片NUSE(normalized unscaled standard errors)中值水平相近且位于1附近，若单样本的NUSE中值大于所属数据集NUSE中值分布上四分位点1.5倍或小于其下四分位点2/3倍时，予以去除。

1.1.3.2 Affymatrix基因表达谱芯片数据标准化

基于AFFY工具包和Affymatrix芯片对应平台的探针注释文件，以质控合格的芯片样本为输入数据，完成各数据集基因表达谱芯片数据RMA(robust multi-array analysis)标准化处理。处理过程包括RMA背景校正(background correction)、分位数标准化(quantile normalization)和探针集综合(probe summarization)三个步骤，最终获得各个数据集的探针集信号表达矩阵。

1.1.4双峰分布分子分型法

1.将独立队列的mRNA表达矩阵合并，删除非共有探针，并利用R语言SVA(surrogate variable analysis)包中的ComBat函数消除批间差效应。最终得到一个拥有22277个探针(行)的合并矩阵。

2.以经ComBat工具处理并合并的基因探针信号表达矩阵文件为输入数据，逐一提取该表达矩阵中所有乳腺癌组织样本的ESR1(205225_at)、PGR(208305_at)和ERBB2(216836_s_at)基因对应的探针检测信号，分别构建这三个特定探针的信号分布，观察分布特征是否呈现为双峰分布。

3.基于观察结果，构造各个探针的双峰分布似然函数模型，并使用nlminb函数结合实际分布估计模型相关参数，生成拟合曲线，模型似然函数公式如下：

F(p1，mu1，sd1，mu2，sd2)＝p1*Norm(mu1，sd1)+(1-p1)*Norm(mu2，sd2)

其中，P1、和1-P1代表两个正态分布函数各自所占权重，mu1和mu2代表两个

正态分布函数各自的均值，sd1和sd2代表两个正态分布函数的标准差。

4.对于单个探针的信号分布拟合结果，以拟合模型中双峰之间的交点作为阈值，作为判断各样本ER、PR以及HER2阳/阴性的划分依据。

1.1.5 Meta分析

以单个探针在各数据集中的HR计算结果为基础，数据分析的具体步骤如下：

1.以基因探针为单位，结合Egger’s检验，逐一完成不同数据集间基因探针HR值的数据发表偏倚检验并生成相应漏斗图。

2.以基因探针为单位，结合I2检验，逐一完成不同数据集间各基因HR值的异质性检验。

3.完成HR效应量的合并、HR显著性P值的合并。

4.单独筛选异质性检验结果不显著(I2 P＞0.05)且无数据发表偏倚(Egger P＞0.05)的基因，并提取相应的合并HR和合并HR显著性P值。

基于上述步骤的结果，进一步提取合并P值显著(组合P＜0.01)且合并HR值对应的95％CI不包含1的基因探针作为Meta分析的最终输出结果。

1.1.6维恩分析

维恩分析基于Venn在线工具：http：//bioinfogp.cnb.csic.es/tools/venny/index.html。

1.1.7多因素Cox风险比例逐步回归基因标志优化法

1.按特定规则对探针标志进行初始排序。

2.根据初始基因探针排序，从排序队列中随机选入一个探针，进行Cox回归，计算探针对应HR以及显著性P值。若P＜0.01，则保留该探针，并将保留的探针集记为G0，并进入步骤3)；若P值不显著，则剔除该探针，并从剩余探针中选入一个，循环步骤2)。

3.从剩余探针集中选取排序最高的单个探针，与G0探针标志并，进行多因素Cox回归，计算各个探针的HR和P值。若结果中存在部分探针P值不显著，则剔除P值最不显著的一个探针，保留其余探针集，记为G1；若G1所含探针数不为零，则循环步骤3)。若G1探针数目为零，则返回步骤2)。

4.当所有探针均通过上述步骤进行取舍后，逐步回归终止，并输出最终保留的优化探针标志和相应的HR。

1.1.8 10倍交叉验证法

1.将数据集随机平均分成10份，轮流将其中9份做训练1份做验证。

2.基于训练队列，构建预后量化评分模型。

3.使用验证队列，对量化评分模型预后价值进行检验。

4.步骤a)，b)和c)重复10次以验证指标平均值作为最终验证参数。

1.1.9统计学分析

Kplan Meier生存曲线与单因素Cox比例风险回归用于评估原发癌基因探针表达水平与乳腺癌无病生存预后关系，以ROC(receiver operating characteristic)曲线约登指数最大值作为Kplan Meier生存分析的预后评分高低表达分组cut-off值。P＜0.05为有统计学差异。统计学分析采用R语言和Graphpad 7.0软件进行处理。

1.2结果判断

1.2.1分子亚型特异预后基因群候选训练队列筛选

穷尽汇总公共数据库GEO和AE中Affymatrix芯片平台乳腺癌原发癌基因表达谱芯片，共获得77个数据集共13664个样本表达数据，其中21个数据集共5450个样本公开了临床病理资料及随访资料。21个数据集中19个队列共4838个送检样本为冰冻标本，删除样本量小(＜80)，人群抽样偏倚(ER+或ER-)数据集，最终得到12个队列共2658个候选训练样本。队列在GEO和AE登记号分别为GSE20685[8]、GSE19615[9]、GSE7390[10]、GSE20711[11]、GSE11121[12]、GSE3494[13]、GSE2603[14]、GSE1456[15]、E-MTAB-365[16]、GSE21653[17，18]、E-TMAB-158和GSE2034[19]。

1.2.2候选训练队列芯片表达谱质量控制

通过比较，执行1.1.3.1中质控条件1～3，合格候选训练样本数为2119，占总样本数的79.72％，合格候选训练队列为10/12个；而同时执行1.1.4.4中质控条件1～5，合格候选训练样本数为1586，占总样本数的59.66％，合格候选训练队列为8/12个(图1.1)。因同时执行质控条件1～5，造成样本合格率过低，候选训练队列淘汰率过高，综合考虑质控的严格性和样本体量规模，以质控条件1～3作为最终统一质控筛选标准，通过样本质控筛选，最终得到10个训练队列(GSE20685、GSEl9615、GSE7390、GSE20711、GSE11121、GSE3494，GSE2603、GSE1456、E-MTAB-365和GSE21653)共2060个训练样本(表1.3)，中位随访日期82个月，其中候选队列GSE2034和E-TMAB-158因合格率低(分别为12.24％和18.46％)，从终选训练队列中剔除。

表1.3训练候选队列质控筛选

注：a标记为质控剔除队列

1.2.3终选训练队列双峰分布法分子亚型分组

本发明旨在寻找具有luminal和basal-like分子亚型特异性的乳腺癌预后预测基因标志，但10个训练队列来源不同，分子分型标准不统一(表1.4)，其中4个训练队列采用PAM50分组方法，5个队列采用Hu_306分子分型标准，1个队列依据免疫组化资料分类，还有三个队列分子分型资料缺失。有研究表明，不同亚型分类方法定义的luminal亚型乳腺癌约有40％左右的差异^[64]。这为后续的统一计算和分析造成了困难。为使更多的优质同质样本进入训练队列，同时为贴近临床应用，本研究基于ESR1(205225_at)、PGR(208305_at)和ERBB2(216836_s_at)基因探针表达水平呈双峰分布的现象，可用于判定乳腺癌患者ER、PR和HER2表达状态，进而定义分子分型的双峰分布法，该分子分型方法类似于临床实践中以免疫组织化学ER、PR和HER2状态作为判断标准的分子分型方法。最终获得ESR1(205225_at)、PGR(208305_at)和ERBB2(216836_s_at)高低表达分组的cut-off值分别为9.42、4.51和11.64(表1.5，图1.2)。将双峰分布ESR1(205225_at)、PGR(208305_at)和ERBB2(216836_s_at)单基因探针分组结果与训练队列ER、PR和HER2病理免疫组化分组结果比较发现，三种探针分组敏感性为86.1％、90.9％和97％，特异性为90.8％、67.8％和62.8％，真阳性率分别为94％、91.8％和82.4％，与临床免疫组化分组结果高度一致。为得到更准确的luminal分组，我们分别将ESR1+/PGR+/ERBB2-、ESR1+/ERBB2-或PGR+/ERBB2-和ESR1+/ERBB2-定义的luminal亚型分组结果与Hu_306定义的luminal亚型(luminal A和luminal B)进行比较，敏感性为81.7％、61.6％、60.6％，特异性为63.3％、96.5％、99.5％，真阳性率分别为82.4％、76.4％和70.2％，为保证训练结果的可靠性，我们需争取尽可能多的入组样本具备经典luminal分子表达谱特征，所以我们将真阳性率最大的ESR1+/PGR+/ERBB2-组定义为luminal亚型乳腺癌。同时，临床中有近80％的三阴型乳腺癌为basal-like亚型，所以将ESR1-/PGR-/ERBB2-组定义为basal-like亚型乳腺癌(敏感性68％、特异性95.4％、真阳性率84％)(表1.6)。10组训练队列共得到luminal亚型乳腺癌样本827例，占总样本的40.18％；basal-like亚型乳腺癌样本426例，占总样本的20.70％。luminal亚型在各训练队列占比平均为30％-40％，而basal-like亚型在个队列占比波动较大，GSE2603占比最高为38.9％，GSE3494占比最低为13％(表1.7)。

为进一步验证所得luminal和basal-like训练队列是否具备对应分子亚型乳腺癌的本质特征，是否存在选择偏倚，同时明确所得预后量化评估系统的适用人群，我们分别统计了827例luminal亚型乳腺癌和426例basal-like亚型乳腺癌的临床病理特征(表1.6)。结果显示：1)luminal亚型乳腺癌年轻患者(≤35岁)38例占总人数的(4.59％)basal-like亚型乳腺癌年轻患者32例，占总人数的(7.51％)，高于luminal亚型(P＝0.065)，这与basal-like亚型和发病年龄早均为预后差影响因素结论相一致。2)luminal亚型乳腺癌中179例发生复发转移(21.64％)，其中有123例(14.87％)在5年内发生(68.72％)，43例(5.20％)在5至10年发生(24.02％)，13例(1.57％)在10年后发生占总人数的1.57％，总复发人数的(7.26％)；basal-like亚型乳腺癌中128例(30.05％)发生复发转移，其中有115例(27.00％)在5年内发生，占总人数的27.00％，总复发人数的(89.84％)，11例(2.58％)在5至10年发生占总人数的2.58％，总复发人数的(8.59％)，2例(0.47％)在10年后发生(1.56％)，其早发转移比例显著高于luminal亚型患者(P＝0.000)，符合basal-like亚型患者预后差的临床特征。3)免疫组化结果显示luminal亚型患者中，只有23例(2.78％)ER阴性，29例(3.51％)PR阴性，20例(2.42％)HER2阳性，符合luminal亚型乳腺癌分子特征。而basal-like亚型训练人群也基本符合对应亚型分子特征(ER阳性46例(10.80％)，PR阳性27例(6.34％)，HER2阳性22例(5.16％))。4)luminal亚型和basal-like亚型训练队列淋巴结侵袭状态无明显差异(阳性：36.03％Vs.35.68％)，选择无偏倚。5)luminal亚型乳腺癌144例(17.41％)高分化，368例(44.5％中分化)，130例(15.72％)低分化；basal-like亚型训练人群中，11例(2.58％)高分化，67例(15.73％)中分化，253例(59.39％)低分化，其低分化人群比例显著高于luminal亚型训练队列。

综上所述，827例luminal亚型乳腺癌和426例basal-like亚型乳腺癌训练队列符合对应亚型的临床病理特征，无选择偏倚(表1.8)。

表1.4训练队列分子分型资料

表1.5双峰分布拟合曲线参数

注：P1、和1-P1代表两个正态分布函数各自所占权重，mu1和mu2代表两个正态分布函数各自的均值，sd1和sd2代表两个正态分布函数的标准差。

表1.6双峰分布分型结果与其免疫组化分型比较

注：TP：真阳性；FP：假阳性；FN：假阴性；TN：真阴性；SEN：敏感性；SPE：特异性；PPV：真阳性率。

表1.7训练队列双峰分布分型

表1.8 luminal和basal-like亚型训练队列临床病理特征

注：P值为卡方检验计算结果

1.2.4 luminal和basal-like亚型乳腺癌5年复发转移预后基因群初筛

基于上述质控训练队列和统一双峰分布法分组结果，分别对各训练队列中luminal和basal-like亚型乳腺癌各基因探针进行单因素Cox回归风险比例计算。具体分析过程中，首先使用Z值法对单个组别中的各个基因表达信号进行Rescaling处理。其次，使用单因素Cox回归方法计算各基因风险系数HR，并给出HR对应的方差值以及显著性P值(P＜0.01)，以作为后续Meta分析的输入信息。以单个探针在各个训练队列中的HR计算结果为基础，分别对luminal和basal-like组以及所有训练队列样本，进行Meta分析(图1.3)。最终，筛选得到可预测luminal亚组、basal-like亚组和整体人群5年复发转移的预后基因群，分别含518、246和1753个基因探针。维恩图分析显示luminal和basal-like亚型乳腺癌预后预测基因群的基因少有重合，只有ARHGDIB、HLA-DRB1、P2RY13、IL8和FAM21A共5个基因(6个探针)为二者共有，但Overall组预后基因群与luminal亚组预后基因群有238探针一致，分别占后者比重的45.9％，而和basal-like亚组只有32个预后探针一致，占后者比重的13％，有三个探针代表的3个基因HLA-DRB1、P2RY13、IL8对所有亚组都具有预测效果。以上结果提示，乳腺癌是一种高度异质性疾病，luminal和basal-like亚型乳腺癌生物学功能特性有很大区别，所以影响其预后的因素非常不同。同时，乳腺癌患者中通常luminal亚型乳腺癌所占比例较高(80％)而basal-like亚型乳腺癌所占比例较低(10～15％)，所以以整体人群作为训练队列所得预后基因群与luminal亚组结果重叠较多而与basal-like亚组结果重叠较少(图1.4)，这也间接佐证了为什么以非分子亚型特异的混合人群作为训练队列筛选所得的21-基因预后群对ER+乳腺癌的预后预测能力较好而对ER-患者预后能力较弱，并充分说明了将不同亚型乳腺癌患者分组作为训练队列的必要性。但是，三组之间存在的共有预后基因群又提示，不同亚组之间存在共有的预后机制。

1.2.6 luminal和basal-like亚型乳腺癌预后预测基因群优化

虽然多基因检测和单基因检测相比能有效提高预后预测价值的稳定性和准确性，但过多的检测指标大大增加了检测成本，不利于大规模临床试验的开展和临床应用。为优化基因标志群基因数目，达到最少的检测指标且具有最好预测预后效能的目的，我们利用三种统计方法优化luminal和basal-like亚型乳腺癌预后预测基因群。

1.2.6.1基于ComBat合并数据集的单因素Cox风险比例回归优化

首先利用ComBat方法消除10组训练队列间的批次效应，消除批间差，合并数据集；其次，利用单因素Cox风险比例回归评估训练队列表达矩阵中每个基因探针表达水平与luminal和basal-like亚组乳腺癌患者复发转移发生的关系，Wald P＜0.01且探针HR对应的95％CI中不能包含1作为显著相关的筛选标准，最后将所得结果与1.2.4中Meta分析结果取进行比较，若探针同时两次分析中均与对应亚组患者的复发转移同向显著相关，则保留该探针，并纳入后续探针优化的输入数据集。基于ComBat数据矩阵的单因素Cox与Meta分析所得的交集结果，luminal亚组最终入选504个基因探针，14个探针因不能在合并训练队列中显著预测预后被剔除；basal-like亚组最终入选243个基因探针3个探针因相同原因被优化舍去。

1.2.6.2基于多因素Cox风险系数逐步回归的独立性优化

在luminal亚组和basal-like亚组优化入选的504个和243个基因探针中，很多基因表达模式相似，代表的生物学功能相近，其同时纳入量化模型虽然能增强评分系统的稳定性，但降低了经济效益和潜在的临床应用前景。所以将训练队列ComBat合并矩阵的行和列分别进行Z-评分标准化后，利用多因素Cox风险系数逐步回归法完成各亚组预后基因标志的独立性优化。最终，从luminal亚组的504个预后基因探针标志中优化筛选获得10个基因探针，分别为CHRNB1、SLC37A1、KLHDC10、RFC3、ANKMY1、FMO5、SGK3、HPS1、PDE4DIP和FUCA1；从basal-like亚组243个基因探针中优化筛选获得7个基因探针，分别为ITM2A、STMN2、SERPINB4、ZBTB32、MED16、CYP27A1和TCHH。

1.2.6.3基于穷尽枚举的组合优化

luminal亚组的10个预后基因集优化探针和basal-like亚组7个预后基因集优化探针虽然功能独立，且均对亚组内乳腺癌患者具有预测预后价值，但是这种组合方式在所有已知的组合中是否最优还有待检验。将上述结果作为初步独立优化探针集，设最终优化探针标志数为N。穷尽n＝1、2、3......N时的探针组合，并以各个探针组合为单位，完成10倍交叉验证过程，具体步骤如下：

1.将ComBat数据集随机平均分成10份，轮流将其中9份作为训练1份作为验证。

2.基于训练队列，结合选定的探针排列，完成各个探针在多因素Cox回归中的HR计算。并以表达式评分＝β1X1+β2X2+......+βNXN(βN为lnHRN，XN为基因表达量)作为量化评分指标。

3.使用验证队列，结合ROC方法和AUC计算，完成该探针排列评分的二分类预测效能。单个探针组合计算获得的所有AUC结果，取均值作为该探针标志的预测效能指标。

基于交叉验证结果，luminal亚型中具有最高二分类效能的探针组合为206703_at，218928_s_at，209254_at，210486_at，205776_at，203308_x_at，210305_at，202838_at，其AUC均值为0.79，量化评分公式：评分＝0.87×SLC37A1+0.52×KLHDC10+0.30×PDE4DIP-1.43×CHRNB1-1.27×ANKMY1-0.34×FMO5-1.2×HPS1-0.45×FUCA1(表1.1)；basal-like亚型中具有最高二分类效能的探针组合为202746_at，203000_at，220118_at，43544_at，203979_at，213780_at，其AUC均值为0.76，量化评分公式为：评分＝0.45×STMN2+0.50×MED16+0.43×TCHH-0.38×ITM2A-1.36×ZBTB32-0.51×CYP27A1(表1.2)。

1.2.7 8-基因和6-基因标志预后价值检验及与传统21-基因预后效能比较

优化所得最终量化评分模型在ComBat合并训练队列各亚组中具有良好的预测表现，8-基因和6-基因标志对luminal和basal-like亚组AUC分别为0.79和0.76，但其预后价值还需在各训练队列和多验证队列中检验，并和以21-基因预后基因群为代表的传统基因标志进行比较。基于8-基因和6-基因预后评估量化评分公式，以及传统21-基因(5个管家基因；16个预后基因)评分公式，在4个训练队列和11个验证队列(7个ER+验证队列，2个混合队列，2个ER-验证队列)ER+和ER-患者中分别检验8-基因和6-基因标志预后预测价值，并和传统21-基因预后标志的预测效能进行比较。

1.2.7.1 8-基因和6-基因标志在合并训练队列中的频数分布和风险拟合分析

为初步探索8-基因和6-基因预后基因群与无病生存的关系及潜在的临床应用价值和对个体化治疗的指导意义，我们分别在luminal和basal-like亚型合并训练队列中对8-基因和6-基因预后标志进行频数分布和风险拟合分析。首先将开放性的8-基因和6-基因评分通过Z-评分标准化，使二者范围分别局限于[-4，4]和[-3，3]，均值为0，标准差为1。频数分布分析结果显示，luminal和basal-like亚型合并训练队列中患者的8-基因和6-基因评分呈近似正态分布(图1.5A，D)；其次，以0.5分为间隔，分别计算训练队列各区间8-基因和6-基因评分对应的复发风险，以公式Y＝a×＊X^2+b＊×X+c计算最佳风险拟合曲线。分别得到8-基因评分预测luminal亚型患者5年复发转移风险公式为Y＝1.43×X²+9.54×X+14.01，10年复发转移风险公式为Y＝0.93×X²+9.04×X+22.02(图1.5B，C)；6-基因评分预测basal-like亚型患者5年复发转移风险公式为Y＝2.92×X²+15.33×X+21.47，10年复发转移风险公式为Y＝2.46×X²+15.32×X+24.63(图1.5E，F)。若以复发风险＜10％作为临床不进行系统性辅助化疗的指导标准则，则luminal亚型合并训练队列中349例(46.23％)和basal-like亚型合并训练队列中88例(21.62％)患者无法从系统性辅助化疗中受益却会受其毒副作用影响。结果提示8-基因和6-基因预后评分对luminal亚型和basal-like亚型患者具有潜在的临床应用价值。

1.2.7.1 8-基因和6-基因标志训练队列预后价值检验

抽选样本最多的4个训练队列(GSE21653、GSE20685、GSE3494、E-MTAB-365)，通过热图观察8-基因评分与luminal亚型患者5年/10年复发转移分布关系，6-基因评分与basal-like亚型5年复发转移分布关系，初步判定预后基因群评分与复发转移的相关性，随后利用Kaplan-Meier生存分析检验8-基因评分和6-基因评分对luminal和basal-like亚型患者5年无病生存的预后价值，最后利用ROC曲线下面积(AUC)对各基因群预后价值进行量化评估。验证结果显示8-基因和6-基因标志在全部4个训练队列中能有效预测ER+和ER-人群5年和10年转移复发，高表达组复发率明显高于低表达组，预测效能指标AUC分别为8-基因评分：GSE21653：0.831、GSE20685：0：824、GSE3494：0.678、E-MTAB-365：0.682；6-基因评分：GSE21653：0.849、GSE20685：0：934、GSE3494：0.559、E-MTAB-365：0.641(图1.6，表1.9)。

1.2.7.2 8-基因和6-基因标志验证队列预后价值检验

检验方法同1.2.7.1，在9个验证队列(7个ER+队列，2个混合队列)ER+人群中，利用8-基因标志在7个验证队列中能有效预测乳腺癌患者5年和10年复发转移预后，AUC分别为GSE6532_GUYT1：0.7867、GSE6532_KIU：0.8333、GSE6532_OXFU：0.7771、GSE6532_OXFT：0.7033、GSE9195：0.698、GSE12903：0.5895和NKI295：0.6，8-基因评分高表达组别预后差；在验证队列GSE6532_KIT和GSE26338中，不能有效预测ER+患者预后，AUC均低于0.5。在4个ER-验证队列(3个ER-队列，1个混合队列)中，6-基因标志在3个验证队列中能有效预测乳腺癌患者5年复发转移，AUC分别为GSE5327：0.6828、GSE16446：0.5517和GSE6532_OXFU：0.8947，6-基因评分高表达组别预后差，而在混合验证队列GSE26338中，不能有效预测ER-患者预后，AUC低于0.5(图1.7，表1.9)。

1.2.7.3 8-基因和6-基因标志与传统21-基因预后效能比较

利用ROC曲线下面积(AUC)对各基因群预后价值进行量化评估，验证结果显示8-基因和21-基因在4个训练队列中均能有效预测luminal亚组5年无病生存，21-基因AUC分别为GSE21653：0.712、GSE20685：0.730、GSE3494：0.730。其中，8-基因标志在3个训练队列ER+人群中预后表现优于21-基因，而在全部9个验证队列中8-基因标志在7个验证队列，21-基因在8个验证队列ER+患者中能有效预测乳腺癌患者5年复发转移预后，而在其中3个验证队列中8-基因标志表现更好；在4个验证队列(2个ER队列，2个混合队列)ER-人群中6-基因标志能在3个验证队列中有效检测ER-患者5年复发转移(ER-患者多早发转移)，AUC分别为0.683、0.552、0.895，全部优于21-基因评分(表1.9)。综上所述，8-基因和21-基因在ER+乳腺癌患者中都具有良好的预后预测价值，但8-基因具有检测指标少、更经济、效果稳定的特点而具有潜在的应有前景；在ER-乳腺癌人群中6-基因评分比现有预后基因标志具有更加良好的预后效能，能稳定有效预测ER-患者复发转移，为临床治疗方案的选择提供依据。

表1.9 8-基因、6-基因和21-基因标志预后价值验证

注：a为8-基因无效验证队列，b为21-基因预测效能优于8-基因验证队列。

1.2.8 8-基因预后基因群预测中国人群luminal亚型乳腺癌患者预后的验证病例分析

以上所用训练和验证队列均来自欧关人群，8-基因预后基因群对于中国人群的预测价值如何仍有待验证。选取天津医科大学肿瘤医院临床病理资料完整且随访资料完备的基于ER/PR/HER2状态定义的luminal亚型乳腺癌患者21例作为中国人群抽样验证队列，基于原发癌组织基因表达谱芯片中8-基因表达水平(实际为6个基因探针，不含KLHDC10和CHRNB1基因探针)，以ROC曲线计算所得Youden’s index最大值为高低表达分组的临界(cut-off)值，Kaplan-Meier生存分析结果显示，4个复发转移样本全部分在8-基因评分高组，趋势明显，但因样本量小，无统计学意义(P＝0.1)。卡方检验显示8-基因评分高组luminal亚型乳腺癌患者10年复发率(50％)显著高于8-基因评分低组(图1.8)。

1.3技术优势

本发明基于在线公开的多中心大样本乳腺癌组织基因表达谱数据，利用一系列统计学方法对样本和数据进行系统性筛选和优化，通过训练队列分析和验证队列独立验证，分别建立了由8个基因组成的“luminal亚型乳腺癌预后预测量化评估系统”和6个基因组成的“basal-like亚型乳腺癌预后预测量化评估系统”可以分别有效预测luminal和basal-like亚型乳腺癌患者的预后；其中8-基因“luminal亚型乳腺癌预后预测量化评估系统”和21-基因Oncotype DX在ER+乳腺癌患者验证队列中都具有良好的预后预测价值，而在ER-乳腺癌人群验证队列中6-基因“basal-like亚型乳腺癌预后预测量化评估系统”比21-基因Oncotype DX具有更加良好的预后效能，能稳定有效预测ER-患者复发转移，可为临床治疗方案的选择提供依据。“luminal亚型乳腺癌预后预测量化评估系统”和“basal-like亚型乳腺癌预后预测量化评估系统”改善了第一代预后基因群适用人群的局限性，同时兼具预测效果稳定和性价比高的特点，具有潜在的临床应用前景，可为临床患者的转移预后预测和实施个体化治疗提供客观依据。

实施例2、乳腺癌早发转移预后量化评估系统建立

2.1材料和方法

2.1.1标本收集

在公共数据库平台(GEO：https：//www.ncbi.nlm.nih.gov/geoProfiles/，AE：https：//www.ebi.ac.uk/arrayexPress/)收集公开发表的，基于Affymatrix表达谱基因芯片平台，乳腺原发癌基因表达谱原始数据(.cel)，选取样本数量达大(80例以上)、无临床病理因素偏倚、随访资料(7年远处转移或复发转移)完备、且送检样本为冰冻组织标本的混合人群作为候选训练队列，选取具有分子亚型特异性(ER+或ER-)、随访资料(5年远处转移或复发转移)完备、且送检标本为非活检样本的数据为候选验证队列。

中国人群验证样本28例乳腺原发癌组织标本均取自于天津医科大学肿瘤医院收治的乳腺癌患者。所有病例均病理学诊断为浸润性导管癌(WHO分类)；患者术前均未行化疗和放疗，术后进行辅助化疗、放疗和5年内分泌治疗(ER+患者)；中位随访时间为5.6年。所有组织样本取材所用器械均经无RNA酶处理，标本经液氮速冻后保存于-80℃冰箱。所有样本采集和使用均征得天津医科大学伦理委员会同意。

2.1.2 cDNA基因芯片数据

cDNA基因芯片制备和数据预处理方法同1.2.1。

2.1.3 Affymatrix表达谱基因芯片数据预处理

2.1.3.1 Affymatrix表达谱基因芯片制备质量控制

训练队列样本质控筛选(QC)：因训练队列来源于不同随访时间，不同国家地区，资料由不同团队整理，为加强训练队列的同质性，增强计算结果的可比性，我们联合使用R语言中的AffyQCRePort和affyPLM工具，综合考虑质控严格性和样本体量规模，避免过匹配，选择统一且最优质控指标和参数逐一对各个训练队列完成原始Affymatrix芯片制备质量控制，剔除制备质量未达标准的样本，并删除制备质量不合格样本比例过高(＞50％)的候选队列，初始筛选标准及步骤如下：

1.单个数据集内，各表达谱芯片的探针信号分布箱线图(图1.1A)和探针信号密度分布(图1.1B)可比，若存在单一芯片与其它芯片的分布趋势明显相背离，则剔除该芯片数据。

2.单个数据集内，各表达谱芯片的gaPdh3/gaPdh5比值应介于1-1.25，同时actin3/actin5比值应介于1-3之间。如果存在芯片高于此二值，则说明该张芯片对应样本的RNA降解现象严重，剔除该芯片数据(图1.1C)。

3.单个数据集中，单张芯片的上样过程应保持空间上的上样均一性，即单张芯片边缘高值信号强度相近，同时，芯片边缘低值信号的强度也亦相近(图1.1D)。这里使用COI值(Centers of Intensity)分别检测芯片上下缘和左右侧缘信号均值差异水平，若COI值高于0.5或低于-0.5时，则说明芯片上样均一性存在问题，剔除该芯片数据。

2.1.3.2 Affymatrix基因表达谱芯片数据标准化

基于AFFY工具包和Affymatrix芯片对应平台的探针注释文件，以质控合格的芯片样本为输入数据，完成各数据集基因表达谱芯片数据RMA标准化处理。处理过程包括RMA背景校正(Background Correction)、分位数标准化(Quantile Normalization)和探针集综合(Probe Summarization)三个步骤，最终获得各个数据集的探针集信号表达矩阵。

2.1.4无监督聚类分析

无监督聚类分析被用来进行乳腺癌3年早发复发转移预后基因标志在训练和验证数据集中预测效能检验。以欧几里得距离作为数据集样本间相关性评估指标，以完全相关作为聚类参数。

2.1.6统计学分析

Kplan Meier生存曲线用于评估原发癌基因探针表达水平与乳腺癌3年早发转移预后关系，以ROC曲线约登指数最大值作为Kplan Meier生存分析基因探针和预后评分高低表达分组临界值。组间差异基因筛选用Student’s t检验进行分析，以P＜0.05，Fold＞1.3设为有统计学差异。统计学分析采用MeV 3.6(Student’s t检验)和Graphpad 6.0(KplanMeier生存分析)软件进行处理。

2.2结果判断

2.2.1乳腺癌3年早发转移预后基因群训练样本筛选

基于上述训练队列筛选条件，最终得到12个数据集，2678个候选训练样本。依照质控条件，质控后剩余10个数据集，2058个合格训练样本。随后，为保证分组的严谨性，将质控合格样本中随访资料不足3年的截尾数据去除。同时为避免混杂因素影响，剔除3年后复发转移的样本。删除样本后3年内复发转移样本不足20个的小样本数据集也从候选训练队列剔除。最终确定E-MTAB-365：322个病例、GSE1456：111个病例、GSE3494：167个病例、GSE7390：146个病例、GSE11121：158个病例、GSE20685：291个病例和GSE21653：164个病例共7个训练数据集1319个训练样本(表2.2)。

2.2.2乳腺癌3年早发转移预后预测基因群筛选

利用t检验筛选各队列3年复发转移与无病生存病例原发癌组织标本间差异表达基因(P＜0.05，排列1000次，Fold＞1.3)。7个训练队列计算结果统计如下：E-MTAB-365：984(336个上调，648个下调)个差异基因，GSEl456：975个(431个上调，544个下调)差异基因，GSE3494：273个(141个上调，129个下调)差异基因，GSE7390：338个(156个上调，182个下调)差异基因，GSE11121：782个(319个上调，463个下调)差异基因，GSE20685：779个(379个上调，400个下调)差异基因，GSE21653：1126个(329上调，797下调)差异基因探针(表2.2)，共得到差异基因探针3361个，其中包括1249个在早发转移病例中上调的基因探针和2112个在早发转移病例中下调的基因探针。

表2.2训练队列3年随访DMS/RS预后差异基因

2.2.3乳腺癌早发转移预后预测基因群GO功能和KEGG通路富集分析

将乳腺癌早发转移预后预测基因群进行GO功能和KEGG通路富集分析，探索其所代表的生物学功能和信号通路调节。结果显示在早发转移病例中1249个上调的基因主要与细胞周期、DNA修复、胶原形成和细胞外基质重塑功能相关，同时E2F和PLK1信号通路表达上调，提示乳腺癌早发转移主要影响因素为肿瘤细胞增殖能力和原位灶微环境影响；在早发转移病例中下调的2112个基因与细胞增殖负向调控、细胞间粘附、炎性反应、免疫应答和细胞外基质重塑相关，另外还包括骨分化、骨骼肌发育、上皮性增殖等功能。

2.2.4各训练数据集乳腺癌早发转移预后基因标志共性统计

比较从不同训练数据集中筛选得到的差异表达乳腺癌3年早发复发转移预后预测基因，在半数以上(＞3)训练队列3年早发复发转移病例中发现共表达上调的基因102个和下调的基因103个；其中在所有7个训练队列中上调的基因22个(表2.3)和下调的基因2个(表2.4)。在24个共有差异表达基因中，包括16个基因与增殖表型相关、2个基因与磷酸化相关、1个与ECM重塑相关、1个与DNA双链修复相关。2个下调基因分别与免疫应答和EGF通路竞争性抑制相关(图2.1，表2.5)。

表2.3各训练队列3年复发转移病例中上调的基因一致性统计

注：a为乳腺癌3年早发复发转移预后量化评估模型候选基因

表2.4各训练队列3年复发转病例中下调的基因一致性统计

注：a为乳腺癌3年早发复发转移预后量化评估模型候选基因

表2.5训练队列中共同差异表达基因

注：a为在早发复发转移病例中上调的基因，b为下调基因

2.2.1.5乳腺癌3年早发转移24-基因预后预测基因群非监督聚类分析验证

以24-基因3年早发转移预后预测基因群表达水平为基础，以欧几里得距离为数据集样本间相关性评估指标，分别对7个训练队列、3个ER+验证队列(GSE9195，GSE2990-KJ125和GSE2990-KJX64)和1个ER-验证队列(GSE5325)进行无监督聚类分析。以24-基因聚类结果作为各数据集Kaplan-Meier生存分析24-基因表达水平分组依据。结果显示24-基因表达水平在全部7个训练队列和1个ER+验证队列(GSE2990-KJX64)和1个ER-验证队列(GSE5325)中被分为了高、中、低三组，而在2个ER+验证(GSE9195和GSE2990-KJ125)中被分为了高低两组。Kaplan-Meier生存分析各组件3年早发转移差异，结果显示24-基因预后基因群所有训练队列(图2.2)和验证队列(图2.3)中均能有效预测乳腺癌患者的3年早发复发转移。

2.2.6乳腺癌3年早发转移24-基因预后预测基因群优化

基于24-基因早发复发转移预后预测基因群，以R语言ComBat函数消除不同训练队列批间差影响，合并7个队列作为训练队列，采用多因素Cox风险比例回归模型，将非独立协变量(基因)剔除(P＞0.1)，得到4个具有独立预后预测价值的基因，分别为CCNB1、CCNB2、CDKN3、CX3CR1(表2.6)。

表2.6基于训练队列筛选的独立预后预测基因

2.2.7乳腺癌3年早发复发转移预后预测4-基因基因群量化评分系统建立

基于上述4-基因早发复发转移预后预测基因群，采用多因素COX比例风险回归模型建立早发复发转移风险量化评分公式：评分＝β1X1+β2X2+......+βnXn(βn为lnHRn，Xn为基因表达量)，基于该公式计算早发复发转移风险量化评分：评分＝0.546×CCNB2+0.225×CDKN3+0.242×CCNB1-0.173×CX3CR1。

2.2.8 4-基因基因群在合并训练队列中的频数分布和风险拟合分析

为初步探索4-基因预后基因群与早发(≤3年)转移的关系及潜在的临床应用价值和对个体化治疗的指导意义，我们在合并训练队列中对4-基因预后评分进行频数分布和风险拟合分析。首先将开放性的8-基因和6-基因评分通过Z-评分标准化，使其范围分别局限于[-3，3]，均值为0，标准差为1，频数分布分析结果显示，luminal和basal-like亚型合并训练队列中患者的8-基因和6-基因评分呈近似正态分布(图2.4A)；其次，以0.5分为间隔，分别计算训练队列各区间8-基因和6-基因评分对应的复发风险，以公式Y＝a×X²+b×X+c计算最佳风险拟合曲线。得到4-基因评分预测乳腺癌患者早发(≤3年)转移风险公式为Y＝2.37×X²+10.33×X+13.77(图2.4B)。早发转移风险高提示肿瘤恶性程度高，肿瘤细胞播散可能发生于疾病早期，患者可能不能从手术治疗中获益。

2.2.9乳腺癌3年早发复发转移4-基因预后预测基因群量化评分系统验证队列检验

以4-基因3年早发转移预后量化评分表达水平为基础，以ROC曲线约登指数最大值作为4-基因量化评分高低表达分组依据，利用Kaplan-Meier生存分析评估各组间3年无病生存差异。结果显示4-基因量化评分在全部3个ER+验证队列(GSE9195，GSE2990-KJ125和GSE2990-KJX64)和1个ER-验证队列(GSE5325)中均具有良好的3年早发复发转移预测价值(图2.5)；与24-基因非监督聚类分析的非量化分组模型相比，量化评分模型预测更好，24-基因和4-基因P值在各队列人群中分别为GSE9195：0.0063和0.0002；GSE2990-KJ125：0.0008和0.0003；GSE2990-KJX64：0.0375和0.0049；GSE5325：0.0077和0.0003。

2.2.10乳腺癌3年早发复发转移4-基因预后预测基因群量化评分系统的中国人群队列验证

因训练和验证队均来自欧美人群，为检验4-基因量化评分模型是否适用于我国人群，基于上述量化评分公式，选取天津医科大学肿瘤医院临床病理资料完整且随访资料完备的28例乳腺癌患者作为中国人群4-基因验证队列，从所有病例原发癌组织的基因表达谱数据中提取4-基因表达量，以ROC曲线计算所得约登指数最大值为4-基因评分高低表达分组的临界值。Kaplan-Meier生存分析显示，3个早发复发转移样本全部在4-基因评分高组，但因样本量小，无统计学意义(P＝0.095；图2.6)。

2.2.11预后基因群检测

本发明适用于多种mRNA检测平台，包括但不局限于Affymetrix、Agilent、Illmuina、PCR阵列、RT-qPCR和Northen印迹法等基因mRNA表达水平检测方法和平台。本发明适用于多种检测样本，包括但不局限于乳腺原发癌冰冻组织标本，福尔马林固定石蜡包埋组织标本和活检穿刺组织标本。

总之，本发明基于在线公开的多中心大样本乳腺癌组织基因表达谱数据，与现有商业化的多基因检测芯片相比，训练队列人群数据量大，所得预后基因更具代表性；本发明所选训练队列样本与现有商业化的多基因检测芯片相比，质控条件更严格，同质化程度高使所得结果更有临床价值；本发明充分考虑乳腺癌人群的异质性，分别选取luminal和basal-like亚型人群作为训练队列，使最终所得预后量化评估系统适用人群明确，弥补了现有多基因检测芯片的不足；本发明采用多种统计学方法，对筛选所得预后基因群进行系统性优化，所得最优预后基因群兼具了预测价值高和性价比高的特点，具有潜在的临床应用前景。

本发明基于在线公开的多中心大样本乳腺癌组织基因表达谱数据(Affymetrix平台)，利用一系列统计学方法对样本和数据进行系统性筛选和优化，通过训练队列分析和验证队列独立验证，分别建立8-基因Lumianl和6-基因Basal-like亚型乳腺癌患者预后预测量化评估系统以及4-基因乳腺癌患者早发转移风险预测量化评估系统，并在博奥自制芯片平台(天津队列)和Agilent芯片平台(验证队列NKI295)中验证了分别由3个基因群组成的预后量化评估系统的预测效能。所以本发明的预后量化评估系统理论上适用于多种基因检验平台。3类预后量化评估系统经大样本临床病例验证后，有望利用冰冻样本、福尔马林固定石蜡包埋组织样本或活检穿刺组织标本等多类型标本，分别对Lumianl和Basal-like亚型乳腺癌患者进行预后预测以及对乳腺癌患者早发转移风险进行量化评估。

参考文献

[1]Ravdin P M,Siminoff L A,Davis G J,et al.Computer program to assistin making decisions about adjuvant therapy for women with early breastcancer.J Clin Oncol.2001,19(4):980-991.

[2]Carlson R W,Anderson B O,Burstein H J,et al.Invasive breastcancer.J Natl Compr Canc Netw.2007,5(3):246-312.

[3]Goldhirsch A,Ingle J N,Gelber R D,et al.Thresholds for therapies:highlights of the St Gallen International Expert Consensus on the primarytherapy of early breast cancer 2009[J].Ann Oncol,2009,20(8):1319-1329.

[4]Goldhirsch A,Wood W C,Coates A S,et al.Strategies for subtypes--dealing with the diversity of breast cancer:highlights of the St.GallenInternational Expert Consensus on the Primary Therapy of Early Breast Cancer2011[J].Ann Oncol,2011,22(8):1736-1747.

[5]Perou CM,Sorlie T,Eisen MB,et al.Molecular portraits of humanbreast tumours.Nature 2000；406:747–52.

[6]Parker J S,Mullins M,Cheang M C,et al.Supervised risk predictor ofbreast cancer based on intrinsic subtypes[J].J Clin Oncol,2009,27(8):1160-1167.

[7]Paik S,Shak S,Tang G,et al.A multigene assay to predict recurrenceof tamoxifen-treated,node-negative breast cancer.N Engl J Med.2004,351(27):2817-2826.

[8]Kao K J,Chang K M,Hsu H C,et al.Correlation of microarray-basedbreast cancer molecular subtypes and clinical outcomes:implications fortreatment optimization.BMC Cancer.2011,11:143.

[9]Li Y,Zou L,Li Q,Haibe-Kains B et al.Amplification of LAPTM4B andYWHAZ contributes to chemotherapy resistance and recurrence of breastcancer.Nat Med 2010 Feb；16(2):214-8.

[10]Patil P,Bachant-Winner P O,Haibe-Kains B,et al.Test set biasaffects reproducibility of gene signatures.Bioinformatics.2015,31(14):2318-2323.

[11]Desmedt C,Piette F,Loi S,et al.Strong time dependence of the 76-gene prognostic signature for node-negative breast cancer patients in theTRANSBIG multicenter independent validation series.Clin Cancer Res.2007,13(11):3207-3214.

[12]Schmidt M,Bohm D,von Torne C,et al.The humoral immune system hasa key prognostic impact in node-negative breast cancer.Cancer Res.2008,68(13):5405-5413.

[13]Miller L D,Smeds J,George J,et al.An expression signature for p53status in human breast cancer predicts mutation status,transcriptionaleffects,and patient survival.Proc Natl Acad Sci U S A.2005,102(38):13550-13555.

[14]Minn A J,Gupta G P,Siegel P M,et al.Genes that mediate breastcancer metastasis to lung.Nature.2005,436(7050):518-524.

[15]Pawitan Y,Bjohle J,Amler L,et al.Gene expression profiling sparesearly breast cancer patients from adjuvant therapy:derived and validated intwo population-based cohorts.Breast Cancer Res.2005,7(6):R953-R964.

[16]Reme T,Hose D,Theillet C,et al.Modeling risk stratification inhuman cancer.Bioinformatics.2013,29(9):1149-1157.

[17]Sabatier R,Finetti P,Adelaide J,et al.Down-regulation of ECRG4,acandidate tumor suppressor gene,in human breast cancer.PLoS One.2011,6(11):e27656.

[18]Sabatier R,Finetti P,Cervera N,et al.A gene expression signatureidentifies two prognostic subgroups of basal breast cancer.Breast Cancer ResTreat.2011,126(2):407-420.

[19]Wang Y,Klijn J G,Zhang Y,et al.Gene-expression profiles topredict distant metastasis of lymph-node-negative primary breastcancer.Lancet.2005,365(9460):671-679.

Claims

1.一种用于量化评估luminal或basal-like亚型乳腺癌预后的预测基因群，其由表1.1中所示的8个基因或表1.2中所示的6个基因组成。

2.一种用于量化评估luminal或basal-like亚型乳腺癌预后的检测工具，其包括表1.1中所示的8个基因或表1.2中所示的6个基因。

3.一种用于量化评估3年早发转移乳腺癌预后的预测基因群，其由表2.5中所示的24个基因或表2.1中所示的4个基因组成。

4.一种用于量化评估3年早发转移乳腺癌预后的检测工具，其包括表2.5中所示的24个基因或表2.1中所示的4个基因。

5.权利要求1或3的基因群或权利要求2或4的检测工具用于制备评估乳腺癌预后的试剂的用途。

6.权利要求5的用途，其中由表1.1中所示的8个基因组成的基因群用于制备评估luminal亚型乳腺癌预后的试剂，由表1.2中所示的6个基因组成的基因群用于制备评估basal-like亚型乳腺癌预后的试剂。

7.权利要求5的用途，其中由表2.5中所示的24个基因组成的基因群或表2.1中所示的4个基因组成的基因群用于制备评估3年早发转移乳腺癌预后的试剂。

8.一种筛选luminal或basal-like亚型乳腺癌预后预测基因群的方法，包括以下步骤：

(1)收集公共数据库中基于Affymatrix芯片平台检测的乳腺原发癌组织基因表达谱数据，选取样本数量大(如80例以上)、无临床病理因素偏倚、随访资料完备、且检测样本为冰冻组织标本的人群作为候选训练队列；

(2)按照以下质控指标，逐一对各个训练队列完成Affymatrix芯片制备质量控制，剔除制备质量未达标准的样本，并删除制备质量不合格样本比例＞50％的候选队列：单个数据集内，各表达谱芯片的探针信号分布箱线图和探针信号密度分布可比，若存在单一芯片与其他芯片的分布趋势明显相背离，则剔除该芯片数据；单个数据集内，各表达谱芯片的GAPDH 3’端探针/GAPDH 5’端探针比值应介于1～1.25，同时ACTB 3’端探针/ACTB 5’端探针比值应介于1～3之间，剔除高于此二值的芯片数据；单个数据集中，单张芯片的上样过程应保持空间上的上样均一性，剔除COI值高于0.5或低于-0.5的芯片数据；

(3)采用双峰分布分子分型法基于ESR1(205225_at)、PGR(208305_at)和ERBB2(216836_s_at)基因探针信号分布拟合结果，以拟合模型中双峰间的交点为阈值，判断各样本ER、PR和HER2阴/阳性状态，从而将终选训练队列病例分子分型为luminal(ER+/PR+/HER2-)和basal-like(ER-/PR-/HER2-)亚型；

9.一种筛选3年早发转移乳腺癌预后的预测基因群的方法，所述方法包括以下步骤：

(1)收集汇总公共数据库中基于Affymatrix芯片平台检测的乳腺原发癌组织基因表达谱数据，选取样本数量大(如80例以上)、无临床病理因素偏倚、随访资料完备、且检测样本为冰冻组织标本的人群作为候选训练队列；

(2)按照以下质控指标，逐一对各个训练队列完成Affymatrix芯片制备质量控制，剔除制备质量未达标准的样本，并删除制备质量不合格样本比例＞50％的候选队列：单个数据集内，各表达谱芯片的探针信号分布箱线图和探针信号密度分布可比，剔除存在单一芯片与其他芯片的分布趋势明显相背离的芯片数据；单个数据集内，各表达谱芯片的GAPDH 3’端探针/GAPDH 5’端探针比值应介于1～1.25，同时ACTB 3’端探针/ACTB 5’端探针比值应介于1～3之间，剔除高于此二值的芯片数据；单个数据集中，单张芯片的上样过程应保持空间上的上样均一性，即单张芯片边缘高值信号强度相近，同时，芯片边缘低值信号的强度也亦相近，剔除COI值高于0.5或低于-0.5的芯片数据；然后，剔除质控合格样本中随访资料不足3年或3年后复发转移的样本，删除样本后3年内复发转移样本不足20个的小样本数据集也从候选训练队列剔除；

10.权利要求9的方法，所述方法还包括以下步骤：

(5)消除不同训练队列批间差影响，合并各个队列作为训练队列，采用多因素Cox风险比例回归模型，将非独立协变量(基因)剔除，得到具有独立预后预测价值的基因。