CN116312785A

CN116312785A - 乳腺癌诊断标志基因及其筛查方法

Info

Publication number: CN116312785A
Application number: CN202310058165.3A
Authority: CN
Inventors: 赵双涛; 刘志东; 王慧娜; 于江泳; 徐蔚然
Original assignee: Beijing Chest Hospital; Beijing Tuberculosis and Thoracic Tumor Research Institute
Current assignee: Beijing Chest Hospital; Beijing Tuberculosis and Thoracic Tumor Research Institute
Priority date: 2023-01-19
Filing date: 2023-01-19
Publication date: 2023-06-23

Abstract

本发明涉及本发明属于基因组学核生物医学技术领域，公开了乳腺癌诊断标志基因及其筛查方法，通过采用差异分析、Lasso回归分析、随机森林以及Cox分析等技术确定与Luminal B型乳腺癌亚型诊断相关的标志基因。基于这些标志基因，将Luminal B型乳腺癌划分成了两个新的亚型并在两个验证集上对两个新亚型进行了验证。被验证的Luminal B型乳腺癌亚型标志基因可用于临床上Luminal B型乳腺癌亚型筛查和诊断，同时可以联合其他临床检查结果完成临床诊治决策，实现不同亚型Luminal B型乳腺癌的早发现、早诊断和早治疗，从而大大改善Luminal B型乳腺癌患者的预后。

Description

乳腺癌诊断标志基因及其筛查方法

技术领域

本发明属于基因组学和生物医学技术领域，尤其是涉及一种乳腺癌特征基因的标志基因及其筛选方法。

背景技术

乳腺癌作为高度分子异质性疾病，沿用的解剖学分期和组织学分类已不能满足其目前的临床诊治需求，尤其缺少能够标志肿瘤生物学行为并对临床治疗提供指导作用的乳腺癌组织学分类方法。因此，探求乳腺癌的致病机制，开发精准的乳腺癌筛查和治疗方法，仍然是保护女性健康的重要课题。

近年来，高通量的癌症基因组学证实，乳腺癌并非单一疾病，而是由多种亚型组成的疾病，目前通过基因表达谱对乳腺癌几个亚型(PAM50，专利号WO2009158143 A1)：即管腔上皮(表达正常乳腺管腔上皮激素受体、细胞角蛋白和相关基因)A型(Luminal A)、管腔上皮B型(Luminal B，较A型激素受体水平低，组织学级别高)、HER-2过表达型和基底样型(basal-like，表达乳腺上皮基底样或干细胞相关基因)，以及类正常细胞型。这几种类型在之后大量的临床研究中，证实了它们在预后和治疗反应等方面具有特异性。比如，管腔A型，侵袭性与转移性比较弱，术后复发转移风险相对低，对内分泌治疗比较敏感；管腔B型预后中等，需要内分泌治疗联合化疗；HER2阳性型和基底细胞型则预后很差；HER2阳性型，一般用抗HER2靶向治疗(曲妥珠单抗)联合化疗和(或)内分泌治疗；基底细胞型预后最差，需要化疗治疗。另外一种技术(Oncotype Dx)是对专门针对雌激素受体阳性及淋巴结阴性的乳腺癌病人，用21个基因表达量来计算复发分数，复发分数低的病人只需要内分泌治疗，复发分数高的病人则需要化疗。然而，以上两种基因分型技术均存在一些问题。PAM50分子分型不够精准，比如是否存在类正常细胞型还存在争论，各亚型之间的比例也不确定；另外，PAM50无法精确地证实哪种亚型需要用具体的化疗药物；Oncotype Dx只是针对雌激素受体阳性的乳腺癌病人，而不适用于雌激素受体阴性的病人。在专利108949983A中提供一组乳腺癌分型基因群，可将乳腺癌分为间质型、增殖型和代谢型三种亚型，不同亚型的乳腺癌具有不同的基因表达谱。不同亚型的乳腺癌病人对内分泌治疗药物和化疗药物有不同的反应，据此采用合适的药物将极大的提高乳腺癌病人的生存率。

虽然乳腺癌的发病率在上升，但乳腺癌的死亡率却在下降。这不仅仅因为靶向药物治疗的研究不断深入，乳腺癌预后得以改善，复发率降低，也是基于多种乳腺癌分子标志物的不但深入研究在早期乳腺癌诊断及预后中的应用。在专利CN104805197A中公开一种乳腺癌分子标志物S100A8/A9用于乳腺癌诊断和预后评估的方法，明确了分子标志物S100A8/A9在不同分子病理亚型的乳腺癌患者中表达存在差异，其中在基底细胞型(basal-like)和Her-2过表达型(Her-2amplified)中高表达，而在管腔上皮A型(Luminal A)和管腔上皮B型(Luminal B)亚型中表达量较低，有显著统计学差异。在专利CN111424090A中涉及SGCE基因作为三阴性乳腺的标志物的应用，结果证实SGCE在三阴性乳腺癌组织或细胞中高表达，且生存分析表明SGCE基因的表达与三阴性乳腺癌的预后密切相关，说明SGCE基因可作为三阴性乳腺癌诊断或预后评估的标志物。

近年来，研究发现在乳腺癌的所有分型中，Luminal B型所占比例较高，约占40％，该类型乳腺癌临床病理特征复杂，具有肿块较大、淋巴结转移率高、组织学分化低、内分泌治疗不敏感等特点，其预后较Luminal A型差。由于Luminal B型乳腺癌本身的异质性，导致患者预后存在较大差异，部分患者的预后甚至与HER-2阳性以及三阴型相似，因此LuminalB型乳腺癌在诊断和治疗方面更复杂。2011年第12届St.Gallen专家共识强调：对于LuminalB型中Ki-67高表达的患者可以考虑内分泌治疗联合化疗，是否联合化疗及化疗方案选择取决于激素受体表达水平、高危因素及患者一般状况。对于Luminal B型中HER-2阳性患者强烈推荐全身化疗、内分泌治疗及曲妥珠单抗的靶向治疗。Luminal B型乳腺癌HER-2高表达、Ki-67高表达、内分泌治疗不敏感等均是造成其生存率及预后较Luminal A型乳腺癌偏低的原因。Blows等的协作组分析了12个研究共10159名乳腺癌患者在诊断前5年里Luminal B型预后较差。综上所述，Luminal B型乳腺癌临床特征复杂，治疗效果不佳，迫切需要使用生物标志物来细化Luminal B型乳腺癌的分子分型进而找到新的治疗方案，实现该类型乳腺癌的精准治疗，从而改善其预后及提高疗效预测。

有创的肿瘤基因表达谱(Gene Expression Profiling,GEP)检测从生物信息学角度提供了一种寻找肿瘤相关基因及其表达特征的手段。GEP数据中记录了组织细胞中所有可测基因的表达水平，但实际上只有少数基因才真正同样本类别相关，它们包含了样本分类的信息。因此筛选出关键基因是肿瘤GEP分析的核心内容。而如何在高维的GEP数据中有效筛选出关键的基因，一直是肿瘤GEP分析中的难点所在。因此本发明基于乳腺癌GEP数据，利用多种数据分析方法提出了一种Luminal B型乳腺癌的诊断标志基因筛查方法和Luminal B型乳腺癌诊断标志基因。

发明内容

为填补临床上缺少Luminal B型乳腺癌亚型筛查和诊断方法的空白，同时提高不同Luminal B型亚型乳腺癌的预后评估，本发明提供了一种Luminal B型乳腺癌亚型诊断标志基因筛查方法和乳腺癌诊断标志基因。

第一方面，本发明提供一种Luminal B型乳腺癌亚型诊断标志基因筛查方法，所述方法操作步骤如下：

S01从TCGA数据库等获得乳腺癌mRNA、miRNA和lncRNA的HTSeq数据；

S02将样本在乳腺癌基因上的表达数据预处理；其中利用sva包检验并移除测序数据中的批次效应的影响和对基因表达数据进行缺失值和异常值检测和处理。

S02识别乳腺癌癌症样本和正常基因的差异：采用DESeq2包对乳腺癌样本和正常样本的基因表达矩阵进行差异分析，得到差异基因；

S03对得到的差异基因进行PCA分析，产生两个亚型ClusterA和ClusterB；

S04通过样本的表达数据确定了这两个亚型之间的差异基因，依据Luminal B型乳腺癌样本两个亚型之间基因表达的差异条件筛选出Luminal B型乳腺癌样本。

S05利用机器学习算法对Luminal B型乳腺癌进行分型。利用主成分分析(principal components analysis，PCA)获得Luminal B型乳腺癌的最佳聚类簇数；再利用ConsensusClusterPlus函数Luminal B型乳腺癌样本的基因表达矩阵进行了聚类分析，根据聚类k＝2,3,4,5时的矩阵热图、一致性累积分布函数图以及Delta Area Plot图进一步确定聚类簇数。

S06筛选出Luminal B型乳腺癌新亚型的标志基因：利用DESeq2对Luminal B型乳腺癌各个新亚型的基因表达矩阵进行差异分析筛选新亚型之间的具有显著差异的基因；

S07通过Lasso回归分析、随机森林以及Cox分析算法进一步筛选出Luminal B型乳腺癌新亚型之间的差异基因，所述特征基因包括以下基因及2种或2种以上的组合：FCGR3A、MMP1、SERPING1、EGFL6、SLC2A12、CORIN、EMX2、ACKR4、COL3A1、COL5A2、FN1、FNDC1、VGLL3、CFH、NT5E、RASGRF2、LRP1、CACNA2D2、CCDC24、RAB3A。

进一步的，所述乳腺癌癌症样本和正常基因的差异，其差异基因的筛选条件为padj<0.05，|log2FoldChange|>1。

进一步的，所述Luminal B型乳腺癌样本两个亚型之间基因筛选的差异条件包括：ER阳性，PR阴性或低表达、HER2阴性，ki-67不低于14％的患者和ER阳性，HER2阳性，PR和ki-67指标不限的患者。

进一步的，所述Luminal B型乳腺癌新亚型的标志基因差异基因的筛选条件是padj<0.05，|log2FoldChange|>1。

第二方面，本发明提供用于Luminal B型乳腺癌诊断的标志基因，所述标志基因选自FCGR3A、MMP1、SERPING1、EGFL6、SLC2A12、CORIN、EMX2、ACKR4、COL3A1、COL5A2、FN1、FNDC1、VGLL3、CFH、NT5E、RASGRF2、LRP1、CACNA2D2、CCDC24、RAB3A中的一种或2种以上的基因组合。

第三方面，本发明提供一种制备诊断Luminal B型乳腺癌试剂中的用途。

进一步的，所述用途包括评估患Luminal B型乳腺癌的风险和对Luminal B型乳腺癌患者的预后评估。

进一步的，所述预后评估为乳腺癌患者经过内分泌治疗和/或化疗治疗后的效果评估。

进一步的，所述用途优选检测Luminal B型乳腺癌标志基因、mRNA、cDNA或蛋白的试剂在诊断Luminal B型乳腺癌试剂盒中的应用。

进一步的，所述Luminal B型乳腺癌标志基因选自FCGR3A、MMP1、SERPING1、EGFL6、SLC2A12、CORIN、EMX2、ACKR4、COL3A1、COL5A2、FN1、FNDC1、VGLL3、CFH、NT5E、RASGRF2、LRP1、CACNA2D2、CCDC24、RAB3A中的1种或2种以上的基因组合。

进一步的，所述mRNA、cDNA或蛋白来自Luminal B型乳腺癌标志基因，如FCGR3A、MMP1、SERPING1、EGFL6、SLC2A12、CORIN、EMX2、ACKR4、COL3A1、COL5A2、FN1、FNDC1、VGLL3、CFH、NT5E、RASGRF2、LRP1、CACNA2D2、CCDC24、RAB3A中的1种或2种以上的基因组合。

进一步的，所述试剂盒进一步包括检测Luminal B型乳腺癌标志基因的mRNA、cDNA或蛋白的试剂、说明书等。

第四方面，本发明提供一种诊断Luminal B型乳腺癌的试剂盒，所述试剂盒包括具有检测Luminal B型乳腺癌标志性基因的mRNA、cDNA或蛋白的试剂、说明书等。

进一步的，当试剂盒中检测到样本含有Luminal B型乳腺癌标志性基因的mRNA、cDNA或蛋白时，说明患Luminal B型乳腺癌的风险较高或者Luminal B型乳腺癌患者的预后较差。

进一步的，所述Luminal B型乳腺癌患者的预后差是指乳腺癌患者经过内分泌治疗和/或化疗治疗后，癌细胞生长没有得到控制。

附图说明

图1.Luminal B的蛋白质组学可视化。

(A)研究概况显示了本队列中入选的Luminal B患者的临床特征(n＝187)以及具有全基因组测序、DNA甲基化数据、包括lncRNAs、miRNAs和mRNAs的RNA-seq和反相蛋白阵列(RPPA)数据的样本数量。所有数据的丰度都经过批次效应的校正，并在下游分析前对缺失值进行了估算。(B)以对数中值强度衡量的mRNA定量分布，按其检测到的样品数量进行计算。上面的柱状图显示了在不同数量的样品中量化的mRNAs的总计数，并将癌症相关的或生物学上重要的基因的名字被标记出来。(C)使用前1000个基因对187个样本(k＝2)进行无监督层次聚类并将每个病人的临床协变量显示在热图中。此外热图中包括在Cluster A和Cluster B之间具有差异的mRNA(n＝537)、miRNA(n＝9)或lncRNA(n＝153)，蛋白质表达值(n＝19)和DNA甲基化值(n＝26284)并将癌症相关基因的名称在右边标注。根据*<0.05,**<0.01,***<0.001对Fisher's精确检验的结果进行标注.(D)Cluster A和Cluster B之间ER、PR和HER2表达状态的不同亚型，卡方检验P＝0.121。(E)Cluster A和Cluster B之间Ki-67mRNA表达的四个量级，卡方检验P＝0.123。(F)通过小提琴图显示A组和B组之间Ki-67mRNA的表达情况，t test p-value＝0.510。(G)两种Luminal B亚型之间患者总生存期的差异(log rank p-value)。

图2.两个亚型中确定了差异基因。

(A)PCA(主成分分析)图显示了1,170个样本中所有mRNAs的表达的37个批次。(B)从19,665个基因中发现了4248个在normal(n＝98)和tumor(n＝1,072)样本之间具有差异的基因。(C)散点图显示了基于log表达的平均值和标准差的前1000个基因。(D)PCA图显示了187名Luminal B患者在前1000个基因上的两个聚类。(E)Volcano图显示了Cluster A(n＝100)和Cluster B(n＝87)之间的537个差异基因，显著上调的基因在Cluster A(红色)有320个，在Cluster B(蓝色)有217个。(F)火山图显示了Cluster A(n＝98)和Cluster B(n＝83)之间在155个miRNAs上的9个差异miRNAs，显著上调的基因在Cluster A(红色)中有6个，在Cluster B(蓝色)中有3个。(G)Volcano图显示了Cluster A(n＝100)和Cluster B(n＝87)之间1,521个lncRNAs的153个差异lncRNAs，显著上调的基因在Cluster A(红色)有46个，在Cluster B(蓝色)有107个。

图3.与分类相关的基因的鉴定。

(A)随着LASSO算法中lambda的改变，在Luminal B中观察到每个预后相关候选基因的系数轨迹，并将37个中心基因被标在右边。(B)通过随机森林(RF)识别出前19个重要基因，并使用平均下降精度和基尼指数计算每个变量的重要性得分。(C)对RNA-seq分析的20个不同表达的基因在Cluster A和Cluster B之间进行无监督层次聚类，通过基因|foldchange|≥2和(FDR)q≤0.05来筛选差异基因。

图4.在另外两个独立的Luminal B数据集中验证了两亚型的分类方法。

(A)研究概况显示了另外两个独立队列中Luminal B患者的临床特征。METABRIC/Nature 2012(n＝263)和GSE96058(n＝656)。(B)基于RNA-seq数据，对METABRIC/Nature2012和GSE96058的相同特征(20个差异基因)进行无监督层次聚类。(C)顶部散点图显示了METABRIC/Nature 2012数据集中Cluster A和Cluster B之间每个样本的Ki-67mRNA表达。饼状图表示两个亚型之间Ki67表达值的数量分布，并通过fisher test计算P值，底部条形图显示了GSE96058中Luminal B患者Ki-67的免疫组化状态，并通过fisher test计算Ki67高组和低组之间的P值。(D)两个测试组中两个亚型的Kaplan-Meier生存分析。

图5.两个亚型患者的体细胞突变和染色体情况。

(A)两个亚型患者的体细胞基因组改变。底部面板显示按患者(列)和按基因(行)分列的体细胞突变和基因水平拷贝数的改变，中间的轨道显示了两个聚类，上面的直方图显示了每个样本中36个列出的基因上累积的改变数量，右边的柱状图表示两个亚型之间的改变率。Pvalue通过Fisher精确检验计算，并根据*<0.05，**<0.01，***<0.001进行标记。(B)TP53、PIK3CA、GATA3和ERBB2的体细胞突变在两个亚型之间的位置。(C)Luminal B两个亚型的拷贝数图谱，红色为增益，蓝色为损失。Cluster A和Cluster B之间拷贝数改变频率不同的区域用浅橙色矩形阴影显示，其中标有癌症生物学内重要基因的名称。(D)ClusterA和B之间的拷贝数增加(红色)和损失(蓝色)。小提琴中的方框图(黑色)代表四分位数范围(IQR)和肿瘤负担中值，琴形图中的点描述的是每个亚型的样本。

图6.Cluster A和Cluster B之间的DNA甲基化分析。

箱形图显示了Cluster A(n＝65)和Cluster B(n＝64)在26284个甲基化位点上的不同甲基化值，琴形图中的点描述了每个亚型的样本。(B)对128个两个亚型样本在85个关键基因上的数据进行无监督聚类并将与癌症相关的差异基因标在右边。(C)模型描述了COL1A1、FN1、YAP1、EGFR、SOX11、GATA3、CCND1、CCDC24和ESR1基因在两个亚型的染色质上的甲基化位点变化。(D)小提琴图显示了Cluster A(红色)和Cluster B(蓝色)之间9个基因的不同甲基化值。琴形图中的方框图(黑色)代表四分位数范围(IQR)和甲基化中值。琴形图中的点描述的是每个亚型的样本。

图7.富集的癌症相关通路、免疫图谱和Luminal B患者中两个集群之间的通路的特异性分子。(A)路径富集分析确定了由MSigDB数据库中的癌症标志和KEGG富集在ClusterA和B中的前10条生物通路。选定的通路按其生物学功能进行着色，其中q-value的阈值设置为0.05。(B)由MCP-counter推断出的两个亚型之间的成纤维细胞、内皮细胞、细胞毒性淋巴细胞和骨髓树突细胞的绝对丰度。(C)通过CIBERSORT方法推断出的两个亚型之间的巨噬细胞M1的相对比例。(D)在两个集群之间显示了39个具有已知功能的表达基因的热图，并在顶部轨道上标出了肿瘤特异性标志物(如YAP1、FN1、EGFR、GATA3、ERBB2和ESR1)用于样本分类，子组分类和基因名称在左边被注释，相应的轨道颜色按功能类别编码，右侧直方图显示每个列出的基因在检测到基因表达的样本(n＝187)的比例(Y轴在顶部)，红点表示每个基因在187个样本中的平均表达量(Y轴在底部，经Log2转换)。(E)在两个集群之间显示了19个具有已知功能的蛋白质的热图，并在在顶部轨道上标注出了肿瘤特异性标志物(如YAP1、FN1、MAPK1/3、MAP2K1/2和ESR1)用于样本分类，子组分类和蛋白质名称在左边被注释，相应的轨道按功能类别用颜色编码，右侧直方图显示每个列出的蛋白质，检测到蛋白质表达的样本(n＝160)的比例(Y轴在顶部)。红点表示160个样本中每个蛋白质的平均表达量(y轴在底部，经Log2转换)。(F)蛋白质和mRNA表达之间的相关性分析。利用spearman'scorrelation进行分析并标注了相关系数(r)和p值。(G)具有一致的mRNA和蛋白表达的基因特征。并根据mRNA和蛋白表达的整体分布，分别将其分为4个亚组(Q1-4)。冲积图显示了每组基因的蛋白质和mRNA表达的相关性，此外，将两个平台上表达量一致的基因(n＝20)或低的基因(n＝14)突出显示出来(黄色条)，并将与癌症相关的基因标记出来，用于后续分析。(H)对mRNA和蛋白表达不一致的基因进行定性。这些基因根据其mRNA和蛋白表达的整体分布，分别被分为4个亚组(Q1-4)。冲积图显示了每组基因的蛋白质和mRNA表达的相关性，高表达不一致的基因被突出显示(黄色条)，与癌症相关的基因被标记为后续分析。

图8.A群和B群之间富集的癌症相关通路与重要基因。(A-B)通路富集分析确定了由MSigDB数据库中的癌症标志和KEGG集于Cluster A和B的生物通路，并对选定的通路按其生物功能进行了着色，其中q值阈值为0.05(5％ FDR)。(C)维恩图显示了来自人类蛋白质图谱(HPA)的正常乳腺组织中的蛋白质作为对照来选择肿瘤特异性蛋白质。(D)维恩图显示两个集群之间的差异基因和差异蛋白。

图9.与TP53、PIK3CA、ERBB2和GATA3的异常表达相关的不同表达特征和信号通路。

(A)热图显示TP53、PIK3CA、ERBB2和GATA3在高组和低组之间表达不同的mRNAs，并将重要的与癌症相关基因被列在左边。这四个基因的中位表达值(187个样本)被用来定义high(>中位)和low(≤中位)。其他轨道包括由WES鉴定的每个基因的体细胞突变，基于mRNA的亚组分类与上述相同。上图中的弧线表示所有样本中每个特定基因的mRNA和蛋白表达水平。(B)TP53、PIK3CA、ERBB2和GATA3在高组和低组之间表达的信号通路。

图10.与Luminal B患者亚型相关的竞争性内源性RNA(ceRNAs)。

(A-C)基于平均表达值的(A)lncRNAs和miRNAs之间的相关性，(B)lncRNAs和mRNAs之间的相关性，(C)miRNAs和mRNAs之间的相关性。节点大小与基因间相关系数的意义有关。(D)在每个亚型中选择富集明显较高的通路。富集的通路用颜色表示。(E)ceRNAs网络显示了Cluster A和Cluster B之间不同的激活通路特征，共有12个lncRNAs，8个miRNAs和574个mRNAs(42/574个基因在蛋白质表达的两个亚型之间有意义)被纳入网络，边缘代表了基因之间的相互关联性，节点的大小和颜色反映了不同的RNA类型(浅紫色：lncRNA；浅粉色：miRNA；浅黄色：靶向mRNA；浅绿色：Cluster A和B之间的显著mRNA；浅灰色：mRNA)。显示了不同激活的ceRNAs的最大的相互连接的调控子网络，网络中心显示了与癌症有关的或生物功能的途径，富集的途径用不同的颜色标示(浅蓝色。细胞周期和细胞凋亡；黑色：致癌信号；粉红色：癌症免疫途径)。

具体实施方式

实施例1基于mRNA数据的样本分类和验证

1.1从TCGA数据库内获得1170例样本在19641个基因上的表达数据，为避免批次效应导致的生物学差异，利用sva包检验并移除测序数据中的批次效应的影响；为避免缺失值和异常值对实验结果造成影响，对基因表达数据进行缺失值和异常值检测和处理，得到1170例样本在16875个基因上的表达数据。

1.2利用DESeq2包在normal(n＝98)和tumor(n＝1072)之间进行差异分析，并从4248个差异基因中选出前1000个基因。以评估样本的分布情况，利用主成分分析方法对以上1000个基因表达数据进行了评估分析，并利用层次聚类算法探索得到了最佳的两个集群(ClusterA和ClusterB)。

实施例2识别差异基因和富集的信号通路

2.1从TCGA数据集下载了mRNA、miRNA和lncRNA的HTSeq原始数据；

2.2利用DESeq2方法对以上数据进行处理，以确定A组和B组之间的差异基因；为得到更多的差异基因，将差异基因的筛选条件定义为padj<0.05，|log2FoldChange|>2，并根据所有基因的DESeq2分析结果中的FDR q-value得到一个基因排序列表；

2.3利用基因集富集分析方法(GSEA)对来自MSigDB数据库的基因集进行处理，并根据FDR q-value≤0.05筛选出明显富集的信号通路。

实施例3突变特征分析

3.1为分析样本的突变特征，从cBioPortal for Cancer Genomics(https://www.cbioportal.org/)数据库内下载了样本的体细胞突变数据。然后利用Oncoprint图显示了突变特征的概况，并在ClusterA和ClusterB之间进行比较。

3.2使用了DNA突变分析所用的瀑布图和棒棒糖图，将突变的氨基酸确定为各种癌症类型的肿瘤样本的复发性热点。

实施例4DNA拷贝数分析

为对ClusterA和ClusterB样本之间的DNA拷贝数进行分析，从TCGA(https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga)内下载了DNA拷贝数文件，然后将其加载到IGV内进行可视化。并利“CNTools”(v1.24.0)R软件包来识别基因水平的拷贝数增加(log2 copy ratios>0.3)或损失(log2 copy ratios<-0.3)，其中每个样本的拷贝数增加或损失的基因总数由拷贝数增加或损失的负担来定义，基因组变化的部分被确定为有拷贝数增加或损失的基因组与有拷贝数分析的基因组的总长度的比例。

实施例5DNA甲基化分析

为对ClusterA和ClusterB样本之间的DNA甲基化数据进行分析，从TCGA(https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga)数据库内下载129名Luminal B患者的DNA甲基化原始数据。然后利用“ChAMP(The ChipAnalysis Methylation Pipeline)”R软件包对ClusterA(n＝65)和ClusterB(n＝64)样本在485577个DNA甲基化位点上的数据进行分析，发现了26284个具有明显差异的甲基化位点。其中，根据以上分析得到的突变特征，选择了与癌症相关的基因。为了显示染色体上的甲基化位点和这些位点附近的CpG岛，利用R软件包“methyAnalysis”来确定ClusterA和ClusterB之间的重要生物学基因。

实施例6Luminal B样本的细胞组成

采用两种方法来评估Luminal B样本的免疫浸润情况，其中，MCP-counter被应用于生成8种主要免疫细胞类型(中性粒细胞、骨髓树突状细胞、单核细胞系细胞、B淋巴细胞、NK细胞、CD3+T细胞、CD8+T细胞和细胞毒性淋巴细胞)、成纤维细胞和内皮细胞的绝对丰度分数；CIBERSORT算法是为了评估22种免疫细胞类型的相对细胞部分。Luminal B样本的log2-transformed HTSeq矩阵被用作两种算法的输入数据，其中CIBERSORT使用LM22基因签名。此外利用分层聚类方法对两个聚类之间以及HER2和HER2+组之间进行比较。

实施例7反相蛋白阵列(RPPA)数据分析

从The Cancer Proteome Atlas(TCPA，https://www.tcpaportal.org/tcpa/)下载了包括244种蛋白质的RPPA数据(level 4)。正常乳腺组织中的蛋白质表达数据从人类蛋白质图谱(HPA，https://www.proteinatlas.org/)中下载，为选择癌症特定的蛋白质将具有median(n＝9677)或high(n＝2888)的蛋白质被定义为对照组。通过缺失值和异常值处理得到Luminal B样本在175个蛋白质上的数据，在该数据的基础上利用R软件包“limma”得到在ClusterA(n＝84)和ClusterB(n＝76)之间的具有表达差异(fold change≥2且FDR q-value<0.05)的19个蛋白。

实施例8lncRNA-miRNA-mRNA竞争性内源性RNA(ceRNA)网络

为构建ceRNA网络，应用差异分析选择了ClusterA和ClusterB之间的候选基因(12个lncRNAs，8个miRNAs，574个mRNAs)。并选择starBase,LncRNA2Traget v2.0,LncTarD andlncRNADisease_v2.0数据库来预测lncRNAs和mRNAs之间的相互作用。利用LncBase_Predicted_v2数据库来探索lncRNAs和miRNAs之间的相互作用。此外，miRbase数据库被用来验证miRNA和mRNA之间的相互作用(score≥80)。最后，通过计算属于每个ceRNA网络的Spearman相关系数来评估ceRNA网络，通过Cytoscape软件3.7.2对包括lncRNAs、靶向miRNAs和靶向mRNAs的最终ceRNA网络进行可视化。

实施例9实验结果分析

9.1Luminal B的多组学分类

为了解Luminal B的生物信息工作流程，从TCGA的1027个乳腺癌样本中收集了187个临床同质性的Luminal B队列，包括正常对照(图1A)。表1-3总结了参加这项研究的样本的临床和病理学特征，其中共有182名患者接受了手术治疗，中位随访生存期为23.92(95％CI：20.24-32.03)月(表1)。对初步诊断和治疗的Luminal B患者进行基于阵列的拷贝数畸变(CNA)分析和全基因组测序以检测基因组改变，RNA测序(RNA-seq)以检测lncRNAs、miRNAs和mRNAs的表达，DNA甲基化以评估表观基因组，反相蛋白阵列(RPPA)以量化蛋白质表达。

表1TCGA和其他2个测试集的临床治疗分析Table 1The clinical treatment ofTCGA and the other 2testing sets

表2TCGA与其他2个测试集之间的相似临床特征

Table 2The similar clinical characteristics between TCGA and theother 2testing sets

Factors	TCGA	Nature2012	GSE96058	p_value
					Age				1.14E-10
<＝60	106	70	217
					>60	81	193	439
ER status				0.0001408
					Negative	2	7
Positive	173	254	655
					Na	12	2	1

表3 1型和2型之间的临床因素分析

/>

/>

表4METABRIC/Nature2012中1型和2型的临床因素分析

/>

表5GSE96058中1型和2型之间的临床因素分析

/>

在所有样本(n＝1170)中，检测到mRNA中的16875个基因，为避免批次效应导致的生物学差异，利用sva包检验并移除测序数据中的批次效应的影响(图2A)。然后利用差异分析得到了在normal和tumor之间具有差异的4248个基因(图2B)。在187个样本中共检测并量化了2762个基因(图1B，顶部)，包括那些对应于经典的与乳腺癌相关基因，如细胞周期基因CCND1、靶向治疗基因ERBB2、家族遗传基因BRCA1/2和腔细胞转录程序指定基因GATA3。根据丰度的中位数将4248个基因组分为十级(图1B，底部)。正如预期的那样，高丰度的mRNAs在较大一部分病人中被观察到，大多数乳腺癌衍生基因在超过70％的Luminal B样本中被检测到，包括APOB、KRT31/75和ROS1等等。

为了定义Luminal B的分子亚群，首先对Luminal B数据进行了无监督聚类，并整合了这些结果，产生了两组患者(ClusterA和ClusterB，图1C)。对标记的前1000个基因进行PCA分析，产生了两个亚型(ClusterA和ClusterB，图2C-D)。根据每个样本的表达数据确定了这两个亚型之间的差异基因，并整合了层次聚类分析的结果(图1C和图2E-G)。通过进一步检查基于多组学的分类指示肿瘤异质性的临床特征发现CNA≤0.2525的患者在ClusterA中明显多于ClusterB(70％vs.30％，Fisher test p＝0.021)，但HER2+的患者在ClusterB中明显多于ClusterA(77％vs.23％，Fisher test p<0.001，图1C和表3)。三基因亚型在ClusterA和ClusterB之间没有显著差异(Chi-square test p＝0.121，图1D)。为了获得Ki-67的mRNA表达，将数据分为了四个量级(即Q1、Q2、Q3和Q4)，根据Ki-67表达的总体分布情况，两个亚组之间没有达到统计学意义(Chi-square test p＝0.123，图1E)，因此Ki-67的表达在两个亚组之间没有明显差异(t检验p＝0.510，图1F)；还发现B组患者的生存期有明显缩短的趋势(HR＝2.132，95％CI：1.014-4.484；Renyi检验p＝0.013，图1G)。B组的5年OS率为57％(95％CI：41％-78％)，明显低于A组的90％(95％CI：80％-100％)。所有以上结果表明，对187例Luminal B所确定的两种分型具有不同的多组学和临床特征。

9.2 20个基因可将Luminal B患者分为两个亚组

新的Luminal B分类，对ClusterA和ClusterB之间的537个重要的差异基因进行了Lasso Cox回归分析，发现有37个基因没有多变量的关联性(图3A)，其中，根据随机森林算法的平均下降准确率和平均下降Gini得分，得到了20个重要基因(图3B)。在TCGA数据中，这20个基因可以将Luminal B患者分成两个亚组(ClusterA和ClusterB)，并具有明显的预后(图4C)。在以上20个基因中，包括CACNA2D2、CCDC24和RAB3A在内的三个基因在Cluster A中明显上调，而其他17个签名基因在Cluster B中明显上调(p<0.05)。

为了证实这个新的分类，选择了另外两个包括Luminal B的独立数据集(METABRIC/Nature2012，n＝263和GSE96058，n＝656)来完成这个验证。患者的详细临床和病理特征显示在图4A和表2-5中，与TCGA的数据一致。同时，将Luminal B患者分为两个相似的亚组(Cluster A和B)，在每个独立的队列中都有明显的预后差异，且这20个基因在两个验证集群中的分布与TCGA数据集一致(图4B)。对于Ki-67蛋白的表达，Cluster A和B在表达的平均值(U test p＝0.130)和四分位数范围(Fisher exact test p＝0.946)上没有明显差异，Ki-67基因表达也是如此(Fisher exact test p＝0.130，图4C)。根据TCGA的生存分析，METABRIC/Nature2012数据中的Luminal B患者(n＝130)的风险(HR＝1.551，95％CI：1.014-2.035，Renyi test p＝0.001)明显高于Cluster A(n＝133)，而Cluster B的5年总生存(OS)率49％(95％CI：41％-58％)低于Cluster A的64％(95％CI：56％-73％)(图S3D上方)。GSE96058中基于20个基因签名的花药群分类也产生了类似的结果(图4D下)。该队列的HR(Cluster B与Cluster A)为1.703(95％CI：1.100-2.637)。此外，在GSE96058中，ClusterB的5年OS率为79％(95％CI：73％-86％)，与Cluster A的88％(95％CI：84％-92％)相比明显较差(Renyi test p＝0.017)。综合来看，20个基因特征可以将Luminal B患者分为两组，并有明显的预后差异。

9.3两个Luminal B集群之间的体细胞突变分析

为了探索体细胞突变情况，进行了WES分析，在187个Luminal B样本中确定了体细胞DNA改变，包括截断、错义、融合、扩增、低拷贝增益、深度缺失和浅度缺失。观察到TP53是Cluster A和Cluster B之间最常改变的基因(25％vs.54％)，其次是PIK3CA(22％vs.41％)、NSD3(30％vs.20％)、CDK12(10％vs.18％)、ERBB2(7％vs.18％)和GATA3(27％vs.14％)(图5A和表6)。与Cluster A相比，Cluster B患者在TP53(p＝7.845e-05)和PIK3CA(p＝0.007)中的错义或截断突变以及ERBB2的扩增(p＝0.025)明显增多，但GATA3的截断突变较少(Fisher test p＝0.031)，这与Cluster B患者的预后明显不佳有潜在关系。还观察到以前报道的乳腺癌中几个基因的复发性突变，包括其他已知的致癌基因、染色质修饰和DNA损伤修复基因的突变，如KMT2C(9％vs.13％)、RB1(4％vs.11％)、APOB(2％vs.8％)、PTEN(6％vs.8％)、BRCA2(9％vs.6％)、ARID1A(7％vs.5％)、CDH1(6％vs.5％)等，尽管在Cluster A和B之间没有达到统计学意义。然后，检查了拷贝数的变化，发现ARID1A和PTEN的缺失主要在Cluster A的患者中观察到，但TP53和MAP2K4在Cluster B中观察到(图5C)。在Cluster B中观察到PIK3CA的低拷贝数增益，但在Cluster A中观察到BRCA1。Cluster A的患者拷贝数增加的负担急剧增加(Wilcoxon test p＝0.048，图5D)，但两个亚组之间的损失没有明显的改变(Wilcoxon test p＝0.420)。而拷贝数变化的负担增加不太可能是由于两个亚组样本之间的肿瘤细胞的差异造成的。总的来说，这些结果表明Cluster A和B之间Luminal B患者的瘤内异质性。

表6聚类A和B之间的突变映射图的突变数据Table 6Mutation data formutation mapper plot between cluster A and B

/>

/>

/>

/>

9.4Luminal B的Cluster A和Cluster B之间的DNA甲基化情况

为了解129名患者在Cluster A(n＝65)和B(n＝64)之间甲基化的差异，使用ChAMP进行了差异甲基化区域的分布分析，发现Cluster A的患者比Cluster B的患者有明显的高甲基化(Wilcoxon test p＝7.60e-04)。在Cluster A中，一些致癌基因(COL1A1、SOX11、FN1和YAP1)有更广泛的DNA低甲基化区域，但在Cluster B中，一些致癌基因(GATA3、CCDC24、CCND1和ESR1)(图6B)有更广泛的DNA高甲基化区域，虽然DNA甲基化在整个CpG位点都比较弱(图6C)，但这些结果表明这些基因在某个染色体位置含有明显最高数量的差异。与这些结果一致，Cluster A的患者对这四个致癌基因的表达量明显较低，但对GATA3、CCDC24、CCND1和ESR1基因的表达量较高(Wilcoxon test p<0.0001，图6D)。一般来说，对DNA甲基化和mRNA表达数据的综合分析显示，这8个基因被DNA甲基化沉默了，这与乳腺癌的发展有关，以前也有报道说在其他癌症中被改变。

9.5Luminal B两个亚群之间失调的信号通路和潜在的可药用基因

为了解两个集群之间的生物功能差异，进行了通路富集分析，以确定基因组学数据中失调的分子过程。Cluster A主要由细胞周期和代谢途径组成(图7A和图8B)，如E2F目标、G2M检查点、细胞周期和糖酵解途径。通过类似的方法，发现Cluster B主要是致癌和癌症免疫反应信号(图7A和图8A)，包括上皮间质转化(EMT)，通过NFKB的TNFA信号，细胞因子和细胞因子受体相互作用，和IL6-JAK-STAT3信号。然后，应用MCP-counter来产生8种主要免疫细胞、内皮细胞和成纤维细胞的绝对丰度分数，以及CIBERSORT来评估22种免疫细胞类型的相对细胞分数。在MCP-counter的10种细胞类型中，Cluster B的成纤维细胞、内皮细胞、细胞毒性淋巴细胞和骨髓树突状细胞的丰度分数明显高于Cluster A(Wilcoxon testp<0.007，图7B)，以及CIBERSORT产生的巨噬细胞M1的相对细胞分数(Wilcoxon test p<3.831e-04，图7C)。结果表明，肿瘤细胞可能重新规划了TME中的免疫相关反应，以促进Cluster B患者的进展。

通过逐步筛选选择了39个肿瘤特异性、高丰度和显著富集的基因，这些基因被注释为在癌症发展中具有重要功能(图7D)，包括PLAC1、BRDT、CABYR、CTNNA2和TEX101、FN1、CDH2、CDH11、PDGFRA。COL3A1和LAMA3，三个检查点分子TNFRSF18、TNFSF4和IDO1，CCND1与细胞周期相关，COX6C和MRPS30出现在氧化磷酸化(OXPHOS)，DCN、COL5A1、VCAN、NT5E、TFF3、LCT和CACNA1H用于糖酵解代谢，以及SERPINF1和EPGN用于血管生成。基于肿瘤特异性差异的典型标志物(YAP1、FN1和ESR1)的分析也支持两种分类且预后明显不同。

为了探索两个集群之间的不同表达蛋白，进行了蛋白组的差异分析，在160名Luminal B患者中发现了19个重要的差异蛋白。它们包括参与肿瘤生长的代谢酶(MYOSINIIA、FIBRONECTIN、DJ1和RAB11)，对抗雌激素治疗有良好反应的配体依赖性核受体ERALPHA，通过促进肿瘤细胞生长与乳腺癌预后不良相关的转录调节因子YAP_pS127，一些调节癌症特征的激酶(MAPK_pT202Y204、MEK1_pS217S221、AKT_pS473、SRC_pY416、ARAF_pS299、BAP1C4和P27)，如肿瘤的生长、生存和肿瘤细胞的侵袭性。与上述结果一致，肿瘤特异性DEP(YAP1、FN1和ESR1)在两个集群之间具有类似的差异表达。

为了评估mRNA和蛋白质数据之间的互补价值，在219个mRNA和蛋白质数据中进行了相关分析，发现有适度的相关性(Spearman r＝0.039，p＝0.002；图7F)。然后根据这些mRNA和蛋白质数据的总体分布情况，将其分为四个量级(即Q1、Q2、Q3和Q4)。在Q4的持续高表达基因中(n＝20)，发现FN1和RAB11是参与EMT途径的酶，CCND1与细胞周期途径相关，ESR1是促进各种癌症生长的雌激素受体。然而，在Q1中持续低表达的基因中(n＝14)，发现CCNE1以细胞周期相关过程为主(图7G)。RNA和蛋白表达不一致的基因包括潜在的有趣的治疗目标，特别是免疫相关蛋白PDL1，肿瘤基因包括AKT1、CDH1、YAP1和PIK3CA(图7H)。综合结果提供了补充信息，使人们对Luminal B的Cluster A和Cluster B之间失调的分子过程有了更好的了解。

9.6与TP53、PIK3CA、ERBB2和GATA3的体细胞突变相关的基因组分析

为了研究TP53、PIK3CA、ERBB2和GATA3经常发生体细胞突变的患者的基因组特征，对基因组数据进行了关联和通路富集的分析，以筛选TP53、PIK3CA、ERBB2和GATA3体细胞改变的样本中，按这四个典型标志物的中位值分为两组，其中三个是可药用的(图9A)。有趣的是，高分组和低分组之间具有生物学意义的二基因包括临床试验中的六个可药用基因MUC1、SOX2、ROS1、TTK、ERBB2和EGFR，两个癌症睾丸抗原PLAC1和CTNNA2，以及其他癌症相关基因如CCND1、YAP1、CDK1、CCDC24、FN1和BCL6。路径富集分析发现TP53、ERBB2和GATA3高的亚组中细胞周期和代谢信号通路上调，但ERBB2和GATA3低的亚组中EMT和免疫反应通路上调，TP53低的亚组中主要是代谢重编程(图9B)。与这些结果相反，致癌途径在PIK3CA高组中占主导地位，但在PIK3CA低组中则是细胞周期和DNA修复信号。这些结果表明，潜在的可药用目标与不同的突变谱有关。

9.7识别与Luminal B分类相关的新型lncRNA-miRNA-mRNA竞争性内源性RNA网络

为了探索差异表达的lncRNAs，对17948个lncRNAs进行了差异分析，在乳腺癌和正常对照之间确定了1521个具有差异的lncRNAs。然后根据上述结果，在Cluster A和ClusterB之间筛选出12个重要的差异lncRNAs。同样，得到了9个miRNAs和20个mRNAs(Spearman|r|≥0.3，q value<0.01；图10A-B)。而在9个重要的miRNA中，有6个被miRbase预测为ClusterA和Cluster B之间的16个重要mRNA的靶标(Spearman|r|≥0.3，q value<0.01；图10C)。进一步进行了路径富集分析，以探索由114个与两个亚群之间的显著差异lncRNAs强相关的mRNAs的失调分子过程。与上述结果一致，Cluster A主要由细胞周期和DNA修复信号组成，但Cluster B则是EMT和免疫反应途径(图10D)。最终，根据差异分析的结果构建了lncRNA-miRNA-mRNA竞争性内源RNA(ceRNA)网络，包括12个lncRNAs、8个miRNA和594个mRNA(图10E)。此外，预测共有532个表达量明显不同的mRNAs被这8个miRNAs靶向，而这12个lncRNAs的44个靶向mRNAs在两个亚组之间具有差异。通过将共表达网络解析为不同的基于枢纽的子网络，观察到8个以lncRNA/miRNA为中心的子网络具有信号通路的富集性，这也揭示了由细胞周期、EMT和免疫反应组成的主要通路。总的来说，结果表明，ceRNA网络中的每个成分都在LBBC患者的两个集群的预后有明显的关系。

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种Luminal B型乳腺癌亚型诊断标志基因筛查方法，所述方法操作步骤如下：S01从TCGA数据库等获得乳腺癌mRNA、miRNA和lncRNA的HTSeq数据；

S05利用机器学习算法对Luminal B型乳腺癌进行分型。利用主成分分析(principalcomponents analysis，PCA)获得Luminal B型乳腺癌的最佳聚类簇数；再利用ConsensusClusterPlus函数Luminal B型乳腺癌样本的基因表达矩阵进行了聚类分析，根据聚类k＝2,3,4,5时的矩阵热图、一致性累积分布函数图以及Delta Area Plot图进一步确定聚类簇数。

2.如权利要求1所述一种Luminal B型乳腺癌亚型诊断标志基因筛查方法，其特征在于，所述乳腺癌癌症样本和正常基因的差异，其差异基因的筛选条件为padj<0.05，|log2FoldChange|>1。

3.如权利要求1所述一种Luminal B型乳腺癌亚型诊断标志基因筛查方法，其特征在，所述Luminal B型乳腺癌样本两个亚型之间基因筛选的差异条件包括：ER阳性，PR阴性或低表达、HER2阴性，ki-67不低于14％的患者和ER阳性，HER2阳性，PR和ki-67指标不限的患者。

4.Luminal B型乳腺癌诊断标志基因，所述标志基因选自FCGR3A、MMP1、SERPING1、EGFL6、SLC2A12、CORIN、EMX2、ACKR4、COL3A1、COL5A2、FN1、FNDC1、VGLL3、CFH、NT5E、RASGRF2、LRP1、CACNA2D2、CCDC24、RAB3A中的1种或2种以上的基因组合。

5.权利要求4所述标志性基因在制备诊断Luminal B型乳腺癌试剂中的用途。

6.如权利要求5所述的用途，其特征在于所述用途包括检测患Luminal B型乳腺癌的风险和Luminal B型乳腺癌患者的预后评估。

7.如权利要求5所述的用途，其特征在于，所述用途是检测Luminal B型乳腺癌标志基因、mRNA、cDNA或蛋白的试剂在诊断Luminal B型乳腺癌试剂盒中的应用。

8.如权利要求5所述的用途，其特征在于，所述Luminal B型乳腺癌标志基因选自FCGR3A、MMP1、SERPING1、EGFL6、SLC2A12、CORIN、EMX2、ACKR4、COL3A1、COL5A2、FN1、FNDC1、VGLL3、CFH、NT5E、RASGRF2、LRP1、CACNA2D2、CCDC24、RAB3A中的1种或2种以上的基因组合。

9.如权利要求5所述的用途，其特征在于，所述mRNA、cDNA或蛋白来自Luminal B型乳腺癌标志基因如FCGR3A、MMP1、SERPING1、EGFL6、SLC2A12、CORIN、EMX2、ACKR4、COL3A1、COL5A2、FN1、FNDC1、VGLL3、CFH、NT5E、RASGRF2、LRP1、CACNA2D2、CCDC24、RAB3A中的1种或2种以上的基因组合。

10.一种诊断Luminal B型乳腺癌的试剂盒，所述试剂盒包括具有检测Luminal B型乳腺癌标志性基因、mRNA、cDNA或蛋白的试剂、说明书等，所述Luminal B型乳腺癌标志基因选自FCGR3A、MMP1、SERPING1、EGFL6、SLC2A12、CORIN、EMX2、ACKR4、COL3A1、COL5A2、FN1、FNDC1、VGLL3、CFH、NT5E、RASGRF2、LRP1、CACNA2D2、CCDC24、RAB3A中的1种或2种以上的基因组合。