CN114277148B - 用于乳腺癌分型的生物标志物及其应用 - Google Patents

用于乳腺癌分型的生物标志物及其应用 Download PDF

Info

Publication number
CN114277148B
CN114277148B CN202111651251.2A CN202111651251A CN114277148B CN 114277148 B CN114277148 B CN 114277148B CN 202111651251 A CN202111651251 A CN 202111651251A CN 114277148 B CN114277148 B CN 114277148B
Authority
CN
China
Prior art keywords
breast cancer
biomarker
biological sample
biomarker combination
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111651251.2A
Other languages
English (en)
Other versions
CN114277148A (zh
Inventor
刘鑫
贾富建
刘康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kanghua Juntai Kunshan Biotechnology Co ltd
Original Assignee
Shenzhen Kanghua Juntai Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Kanghua Juntai Biotechnology Co ltd filed Critical Shenzhen Kanghua Juntai Biotechnology Co ltd
Priority to CN202111651251.2A priority Critical patent/CN114277148B/zh
Publication of CN114277148A publication Critical patent/CN114277148A/zh
Application granted granted Critical
Publication of CN114277148B publication Critical patent/CN114277148B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种用于乳腺癌分型的生物标志物,涉及医学检测技术领域。当用于乳腺润性导管癌或乳腺浸润性小叶癌分型诊断时,该生物标志物包括CDH1,TP53,GATA3,CBFA2T3和MYC等至少5种以上基因,诊断力AUC可达0.8696;当用于乳腺癌Luminal A型、乳腺癌Luminal B型、乳腺癌HER‑2过表达型或基底样乳腺癌分型诊断时,该生物标志物包括TP53,ERBB2,PWWP2A,SPOP和RARA等至少5种以上基因,诊断力AUC可达0.8001,具有优异的诊断力,提供一个基于分子水平、用于不同病理及分子亚型的判别方法,并且为病理诊断结果提供相互验证,确保病例诊断结果无误,方便后续精准治疗。

Description

用于乳腺癌分型的生物标志物及其应用
技术领域
本发明涉及医学检测技术领域,特别是涉及一种用于乳腺癌分型的生物标志物及其应用。
背景技术
乳腺癌为当前世界各地最常见的高发恶性肿瘤之一,也是在近半世纪全球发病率和死亡率升高最快的恶性肿瘤。在我国女性人口中,乳腺癌的年发病率及死亡率已位居恶性肿瘤第一位。
乳腺癌是一种异质性疾病,现有乳腺癌的治疗方式选择主要依据是病理分型及分期诊断。病理分型一般是通过组织学来确定其亚型:乳腺癌一般会区分非浸润性vs浸润性,其中浸润性乳腺癌偏晚期,肿瘤发展快预后差,在浸润性乳腺癌中,主要又有浸润性导管癌vs浸润性小叶癌两种主要类型,不同类型的预后与治疗策略,都有差别。乳腺癌中,分子的病理分型检测也是治疗决策的必要环节,目前公认的PAM50分型方式,主要通过免疫组化的方法对乳腺癌的肿瘤受体情况(ER、PR、HER2)辅进行检测及分子分型:主要分为Luminal A型(ER和(或)PR阳性),Luminal B型(ER和(或)PR阳性),HER2阳性(ER、PR均阴性,HER2阳性)及基底样乳腺癌(Basal)亚型间。每一种分子亚型极其对应的病理亚型,治疗的药物组合及策略均不相同。相应分子检测及治疗方案已进入相关乳腺癌的治疗指南。
除了常规的放化疗手段,乳腺癌治疗目前已经全面迈入精准医疗的时代:除去金标准例如HER2靶向药物等,晚期突破治疗进展的患者,通常需要做基因变异检测并根据个体的状况,使用相对应的靶向药物,例如CDK4/6抑制剂,BRCA抑制剂,EGFR抑制剂等等。
然而,有限的组织样品以及对日益增多的治疗靶向标志物的评估的需要大大提高了当前的诊断需求,组织学诊断再现性的研究已经显示了病理学家内和病理学家间的判定差异性:病理判定错误的结果、分化不良的肿瘤及矛盾的免疫组织化学结果等等,对当前乳腺癌的精准医疗准确性提出了挑战。
发明内容
针对上述问题,本发明提供一种用于乳腺癌分型的生物标志物,通过变异基因在浸润性导管癌vs小叶癌不同表达图谱,以及Luminal A型,Luminal B型,HER-2过表达型及基底样乳腺癌(Basal)不同表达图谱,得到可对上述乳腺癌亚型进行分型诊断的生物标志物,提供基于分子水平,用于不同病理及分子亚型的一个判别方法,并且为病理诊断结果提供相互验证,确保病例诊断结果无误,方便后续精准治疗。
为了达到上述目的,本发明提供一种用于乳腺癌分型的生物标志物,包括以下基因中的至少5种:CDH1,TP53,GATA3,PIK3CA,TBX3,FOXA1,ERBB2,MAP3K1,SMAD4,RB1,CBFB,RHOA,PTPN11,FBXW7,NF2,BRIP1,PRKAR1A,RECQL4,MYC,PPM1D,STAT5B,RAD21,GNAS,RNF43,SMAD3,CDK12,AXIN2,CD79B,GPHN,CNBD1,NBN,CTNND2,RFWD3,DDX5,EXT1,CBFB,COX6C,MAX,MLLT1,HERPUD1,COL1A1,NFIB,AKT2,CCNE1,CIC,CD79A,MUC16,NIN,CDH1,SMARCA4,NPM1,POLG,GNA11,FAM135B,KRAS,DNM2,RHOA,HIF1A,TCEA1,LYL1,NFATC2,CYLD,NCKIPSD,HEY1,CEBPA,BUB1B,RSPO2,SALL4,CDH17,CD209,SRSF2,UBR5,FES,ROBO2,STK11,NSD1,PREX2,MAP2K2,CSMD3,NCOA2,FSTL3,MAF,PABPC1,ZFHX3,MYO5A,MAP2K1,SS18L1,RUNX1T1,PSIP1,EIF3E,GOLGA5,FGFR4,CDH11,TSHR,BCL11B,NTRK3,KEAP1,CEP89,SH3GL1,CTCF,CLTC,CBFA2T3,RARA,FGFR1,WWTR1,SMARCD1,SPOP,ERBB2,PPP6C,ERCC4,SOCS1,AKAP9,ERBB3,N4BP2,FAT3,PIK3R1,KMT2D,CREBBP,BRCA2,RET,PTEN,MGMT,NUP98,CCND1,FAT3,KMT2A,ERBB3,ERCC5,KNSTRN,FANCA,SMAD2,ERCC2,NOTCH2,CAMTA1,SDHC,CRNKL1,PTK6,RUNX1,BCR,BIRC6,LRP1B,ERBB4,SETD2,SOX2,TP63,FGFR3,FAT1,TERT,PWWP2A,FANCE,MYB,EGFR,MET,BRAF,KAT6A,CD274,NOTCH1。
本发明人通过TCGA数据库进行分析,发现在浸润性导管癌(Invasive DuctalCarcinoma,IDC)中与浸润性小叶癌(Invasive lobular carcinoma,ILC)中基因突变发生频率显著差异的基因图谱源自以下基因:CDH1,TP53,GATA3,PIK3CA,TBX3,FOXA1,ERBB2,MAP3K1,SMAD4,RB1,CBFB,RHOA,PTPN11,FBXW7,NF2;在浸润性导管癌与浸润性小叶癌中拷贝数变异发生频率显著差异的基因图谱源自以下基因:BRIP1,PRKAR1A,RECQL4,MYC,PPM1D,STAT5B,RAD21,GNAS,RNF43,SMAD3,CDK12,AXIN2,CD79B,GPHN,CNBD1,NBN,CTNND2,RFWD3,DDX5,EXT1,CBFB,COX6C,MAX,MLLT1,HERPUD1,COL1A1,NFIB,AKT2,CCNE1,CIC,CD79A,MUC16,NIN,CDH1,SMARCA4,NPM1,POLG,GNA11,FAM135B,KRAS,DNM2,RHOA,HIF1A,TCEA1,LYL1,NFATC2,CYLD,NCKIPSD,HEY1,CEBPA,BUB1B,RSPO2,SALL4,CDH17,CD209,SRSF2,UBR5,FES,ROBO2,STK11,NSD1,PREX2,MAP2K2,CSMD3,NCOA2,FSTL3,MAF,PABPC1,ZFHX3,MYO5A,MAP2K1,SS18L1,RUNX1T1,PSIP1,EIF3E,GOLGA5,FGFR4,CDH11,TSHR,BCL11B,NTRK3,KEAP1,CEP89,SH3GL1,CTCF,CLTC,CBFA2T3,RARA,FGFR1,WWTR1,SMARCD1,SPOP,ERBB2,PPP6C,ERCC4,SOCS1;在Luminal A型、Luminal B型、HER-2过表达型或基底样乳腺癌(Basal)亚型间基因突变发生频率显著差异的基因图谱源自以下基因:TP53,PIK3CA,GATA3,CBFB,MAP3K1,CDH1,RB1,MUC16,AKAP9,ERBB3,N4BP2,FAT3,PIK3R1,KMT2D,CREBBP,BRCA2;拷贝数变异发生频率显著差异的基因图谱源自以下基因:GATA3,RET,PTEN,MGMT,NUP98,CCND1,FAT3,KMT2A,KRAS,ERBB3,TBX3,RB1,ERCC5,FOXA1,KNSTRN,FANCA,TP53,ERBB2,RARA,SPOP,SMAD2,KEAP1,STK11,ERCC2,NOTCH2,CAMTA1,SDHC,CRNKL1,PTK6,RUNX1,BCR,BIRC6,LRP1B,ERBB4,SETD2,PIK3CA,SOX2,TP63,FGFR3,FAT1,TERT,PWWP2A,FANCE,MYB,EGFR,MET,BRAF,KAT6A,MYC,CD274,NOTCH1。
在其中一个实施例中,以基因突变发生频率为分型依据的生物标志物包括以下基因中的至少5种:CDH1、TP53、GATA3、PIK3CA、TBX3、FOXA1、ERBB2、MAP3K1、SMAD4、RB1、CBFB、RHOA、PTPN11、FBXW7、NF2、MUC16、AKAP9、ERBB3、N4BP2、FAT3、PIK3R1、KMT2D、CREBBP、BRCA2;以拷贝数变异发生频率为分型依据的生物标志物包括以下基因中的至少5种:BRIP1、PRKAR1A、RECQL4、MYC、PPM1D、STAT5B、RAD21、GNAS、SMAD3、CDK12、AXIN2、CD79B、GPHN、CNBD1、NBN、CTNND2、CBFB、MLLT1、HERPUD1、COL1A1、NFIB、AKT2、CCNE1、CIC、CD79A、MUC16、NIN、CDH1、SMARCA4、NPM1、POLG、GNA11、FAM135B、KRAS、DNM2、RHOA、HIF1A、TCEA1、LYL1、NFATC2、CYLD、NCKIPSD、CEBPA、BUB1B、RSPO2、SALL4、CDH17、CD209、SRSF2、UBR5、FES、ROBO2、STK11、NSD1、PREX2、MAP2K2、CSMD3、NCOA2、FSTL3、MAF、PABPC1、ZFHX3、MYO5A、MAP2K1、SS18L1、RUNX1T1、PSIP1、EIF3E、GOLGA5、FGFR4、CDH11、TSHR、BCL11B、NTRK3、KEAP1、CEP89、SH3GL1、CTCF、CLTC、CBFA2T3、RARA、FGFR1、WWTR1、SMARCD1、SPOP、ERBB2、PPP6C、ERCC4、SOCS1、GATA3、RET、PTEN、MGMT、NUP98、CCND1、FAT3、KMT2A、ERBB3、TBX3、RB1、ERCC5、FOXA1、KNSTRN、FANCA、TP53、SMAD2、ERCC2、NOTCH2、CAMTA1、SDHC、CRNKL1、PTK6、RUNX1、BCR、BIRC6、LRP1B、ERBB4、SETD2、PIK3CA、SOX2、TP63、FGFR3、FAT1、TERT、PWWP2A、FANCE、MYB、EGFR、MET、BRAF、KAT6A、CD274、NOTCH1。
在其中一个实施例中,所述生物标志物包括以下基因中的至少5种:CDH1,TP53,GATA3,PIK3CA,TBX3,FOXA1,ERBB2,MAP3K1,SMAD4,RB1,CBFB,RHOA,PTPN11,FBXW7,NF2,BRIP1,PRKAR1A,RECQL4,MYC,PPM1D,STAT5B,RAD21,GNAS,RNF43,SMAD3,CDK12,AXIN2,CD79B,GPHN,CNBD1,NBN,CTNND2,RFWD3,DDX5,EXT1,CBFB,COX6C,MAX,MLLT1,HERPUD1,COL1A1,NFIB,AKT2,CCNE1,CIC,CD79A,MUC16,NIN,CDH1,SMARCA4,NPM1,POLG,GNA11,FAM135B,KRAS,DNM2,RHOA,HIF1A,TCEA1,LYL1,NFATC2,CYLD,NCKIPSD,HEY1,CEBPA,BUB1B,RSPO2,SALL4,CDH17,CD209,SRSF2,UBR5,FES,ROBO2,STK11,NSD1,PREX2,MAP2K2,CSMD3,NCOA2,FSTL3,MAF,PABPC1,ZFHX3,MYO5A,MAP2K1,SS18L1,RUNX1T1,PSIP1,EIF3E,GOLGA5,FGFR4,CDH11,TSHR,BCL11B,NTRK3,KEAP1,CEP89,SH3GL1,CTCF,CLTC,CBFA2T3,RARA,FGFR1,WWTR1,SMARCD1,SPOP,ERBB2,PPP6C,ERCC4,SOCS1;所述乳腺癌为浸润性导管癌或浸润性小叶癌。
将上述基因作为生物标志物分型诊断乳腺浸润性导管癌、乳腺浸润性小叶癌,诊断力AUC可达0.8685。
在其中一个实施例中,所述生物标志物包括以下基因中的至少5种:TP53,PIK3CA,GATA3,CBFB,MAP3K1,CDH1,RB1,MUC16,AKAP9,ERBB3,N4BP2,FAT3,PIK3R1,KMT2D,CREBBP,BRCA2,GATA3,RET,PTEN,MGMT,NUP98,CCND1,FAT3,KMT2A,KRAS,ERBB3,TBX3,RB1,ERCC5,FOXA1,KNSTRN,FANCA,TP53,ERBB2,RARA,SPOP,SMAD2,KEAP1,STK11,ERCC2,NOTCH2,CAMTA1,SDHC,CRNKL1,PTK6,RUNX1,BCR,BIRC6,LRP1B,ERBB4,SETD2,PIK3CA,SOX2,TP63,FGFR3,FAT1,TERT,PWWP2A,FANCE,MYB,EGFR,MET,BRAF,KAT6A,MYC,CD274,NOTCH1;所述乳腺癌为Luminal A型、Luminal B型、HER-2过表达型或基底样乳腺癌。
将上述基因作为生物标志物分型诊断乳腺癌Luminal A型、乳腺癌Luminal B型、乳腺癌HER-2过表达型或基底样乳腺癌,诊断力AUC可达0.8912。
在其中一个实施例中,所述生物标志物包括以下基因:CDH1,TP53,GATA3,CBFA2T3和MYC;所述乳腺癌为浸润性导管癌或浸润性小叶癌。
采用上述5个基因作为乳腺癌的浸润性导管癌和浸润性小叶癌分型的生物标志物,诊断力AUC可达0.8696。
在其中一个实施例中,所述生物标志物包括以下基因:CDH1,TP53,GATA3,PIK3CA,TBX3,CDH1,MYC,MAF,CBFA2T3和RFWD3;所述乳腺癌为浸润性导管癌或浸润性小叶癌。
采用上述10个基因作为乳腺癌的浸润性导管癌和浸润性小叶癌分型的生物标志物,诊断力AUC可达0.8794。
在其中一个实施例中,所述生物标志物包括以下基因:CDH1,TP53,GATA3,PIK3CA,TBX3,ERBB2,CDH1,MYC,GNAS,RECQL4,CDK12,ERBB2,MAF,ZFHX3,CBFA2T3,CYLD,RFWD3,CTCF,CBCF和CDH11;所述乳腺癌为浸润性导管癌或浸润性小叶癌。
采用上述20个基因作为乳腺癌的浸润性导管癌和浸润性小叶癌分型的生物标志物,诊断力AUC可达0.8759。
在其中一个实施例中,所述生物标志物包括以下基因:TP53,ERBB2,PWWP2A,SPOP和RARA;所述乳腺癌为Luminal A型、Luminal B型、HER-2过表达型或基底样乳腺癌。
采用上述5个基因作为乳腺癌Luminal A型、乳腺癌Luminal B型、乳腺癌HER-2过表达型或基底样乳腺癌分型的生物标志物,诊断力AUC可达0.8001。
在其中一个实施例中,所述生物标志物包括以下基因:TP53,ERBB2,PWWP2A,SPOP,RARA,BIRC6,CD274,ERBB3,KAT6A,MYC;所述乳腺癌为Luminal A型、Luminal B型、HER-2过表达型或基底样乳腺癌。
采用上述10个基因作为乳腺癌Luminal A型、乳腺癌Luminal B型、乳腺癌HER-2过表达型或基底样乳腺癌分型的生物标志物,诊断力AUC可达0.8574。
在其中一个实施例中,所述生物标志物包括以下基因:TP53,PIK3CA,ERBB2,PWWP2A,SPOP,RARA,BIRC6,CD274,ERBB3,KAT6A,MYC,FANCA,FOXA1,KNSTRN,FAT3,GATA3,CAMTA1,FANCE,SMAD2,NOTCH1;所述乳腺癌为Luminal A型、Luminal B型、HER-2过表达型或基底样乳腺癌。
采用上述20个基因作为乳腺癌Luminal A型、乳腺癌Luminal B型、乳腺癌HER-2过表达型或基底样乳腺癌分型的生物标志物,诊断力AUC可达0.8828。
本发明还提供了所述生物标志物在开发和/或制备用于乳腺癌分型诊断产品中的应用;所述生物标志物作为生物样本检测中的生物标志物,所述生物样本取自:血液或组织中的至少一种。
在其中一个实施例中,所述应用为所述生物标志物在开发和/或制备用于乳腺浸润性导管癌或浸润性小叶癌分型诊断产品中的应用。
在其中一个实施例中,所述应用为所述生物标志物在开发和/或制备用于乳腺癌Luminal A型、乳腺癌Luminal B型、乳腺癌HER-2过表达型或基底样乳腺癌分型诊断产品中的应用。
在其中一个实施例中,所述生物样本检测采用的检测方法选自:测序技术、微阵列杂交技术或PCR技术。
在其中一个实施例中,所述测序技术选自:Sanger测序技术、高通量测序技术、焦磷酸测序技术、合成测序技术、单分子测序技术、纳米孔测序技术、半导体测序技术、连接测序技术、杂交测序技术、数字基因表达技术、二代测序技术,单分子合成测序技术、大规模平行测序技术、克隆单分子阵列技术、鸟枪测序技术、Maxim Gilbert测序技术、引物步移技术,或基于PacBio、SOLiD、离子Torrent或纳米孔平台的测序技术。
在其中一个实施例中,所述微阵列杂交技术为SNP微阵列技术。
在其中一个实施例中,所述PCR技术选自:KASP分型法、连接酶检测反应分型方法或Taqman探针方法。
本发明还提供了一种用于乳腺癌分型的试剂盒,该试剂盒包括检测生物样本中所述生物标志物的试剂。
本发明还提供了一种乳腺癌分型诊断的系统,该系统包括:
分析装置:用于获取待诊断对象生物样本中所述生物标志物的基因变异情况,输入评估模型进行分型评估;
输出装置:用于输出上述评估结果。
在其中一个实施例中,所述评估模型通过以下方法建立:获取若干乳腺癌的生物样本,测序得到所述生物标志物的基因突变情况,以随机森林模型建立分型模型,即得。
与现有技术相比,本发明具有以下有益效果:
本发明的用于乳腺癌分型的生物标志物及其应用,该生物标志物通过变异基因在浸润性导管癌vs小叶癌不同表达图谱,以及Luminal A型,Luminal B型,HER-2过表达型及基底样乳腺癌(Basal)不同表达图谱,得到可对上述乳腺癌亚型进行分型诊断的生物标志物,提供基于分子水平,用于不同病理及分子亚型的一个判别方法,并且为病理诊断结果提供相互验证,确保病例诊断结果无误,方便后续精准治疗。
附图说明
图1为实施例2中乳腺癌建模流程图;
图2为实施例2中采用111个标志物的乳腺癌二分类模型AUC展示图;
图3为实施例2中采用20个标志物的乳腺癌二分类模型AUC展示图;
图4为实施例2中采用10个标志物的乳腺癌二分类模型AUC展示图;
图5为实施例2中采用5个标志物的乳腺癌二分类模型AUC展示图;
图6为实施例3的乳腺癌二分类模型AUC展示图;
图7为实施例5中采用67个标志物的乳腺癌PAM50多分类模型AUC展示图;
图8为实施例5中采用20个标志物的乳腺癌PAM50多分类模型AUC展示图;
图9为实施例5中采用10个标志物的乳腺癌PAM50多分类模型AUC展示图;
图10为实施例5中采用5个标志物的乳腺癌PAM50多分类模型AUC展示图;
图11为实施例6的乳腺癌二分类模型AUC展示图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
TCGA:指全称为The Cancer Genome Atlas的数据库,包括了30+种肿瘤的数据,源自美国国家癌症研究所(National Cancer Institute,NCI)和国家人类基因组研究所(National HumanGenome Research Institute,NHGRI)发起的癌症基因组图谱(TheCancer Genome Atlas,TCGA)计划,网址为https://www.cbioportal.org/。
浸润性导管癌患者:指病理检测结果得到2位及以上病理专家共同认定的乳腺癌浸润性导管癌患者。
浸润性小叶癌患者:指病理检测结果得到2位及以上病理专家共同认定的乳腺癌浸润性小叶癌、导管癌与小叶癌混合的患者。
来源:
本实施例所用试剂、材料、设备如无特殊说明,均为市售来源;实验方法如无特殊说明,均为本领域的常规实验方法。
实施例1
基于TCGA公共数据库对乳腺癌癌病理亚型分型的变异基因标记物进行初筛。
筛选方法如下所示。
1、从TCGA数据库获取乳腺癌癌患者的肿瘤组织全外显子组测序数据。
本实施例中共下载了705例乳腺癌患者(其中浸润性导管癌490例,浸润性小叶癌215例)全外显子测序数据,采用七种不同软件:Samtools,SomaticSniper,Strelka和VarScan分别检测点突变;采用VarScan,Pindel和GATK和Strelka分别检测InDels。
2、根据浸润性导管癌组别和小叶癌组别进行差异分析。
采用卡方检验统计分析,选取p≤0.05的变异基因和文献调研基因作为潜在标志物。
3、根据COMIC的CGC(Cancer Gene Census,v94)基因注释,选择癌症相关基因作为模型标志物。
4、从cBioPortal公开数据库(https://www.cbioportal.org/study/summary?id=breast_msk_
2018)下载数据集,获得1473例浸润性导管癌和388例浸润性小叶癌数据,按照实施例1的步骤2、3选择差异基因,作为模型标志物。
5、从cBioPortal公开数据库(https://www.cbioportal.org/study/summary?id=breast_ink4_msk
_2021)下载数据集,获得660例浸润性导管癌和237例浸润性小叶癌数据,按照实施例1的步骤2、3选择差异基因,作为模型标志物。
6、从cBioPortal公开数据库(https://www.cbioportal.org/study/summary?id=brca_mbcproject
_wagle_2017)下载数据集,获得148例浸润性导管癌和50例浸润性小叶癌数据,按照实施例1的步骤2、3选择差异基因,作为模型标志物。最终结合4个数据集潜在特征基因,最终确定15个基因突变,96个拷贝数变异基因,共计111个基因作为模型标志物,该111个标志物为:CDH1,TP53,GATA3,PIK3CA,TBX3,FOXA1,ERBB2,MAP3K1,SMAD4,RB1,CBFB,RHOA,PTPN11,FBXW7,NF2,BRIP1,PRKAR1A,RECQL4,MYC,PPM1D,STAT5B,RAD21,GNAS,RNF43,SMAD3,CDK12,AXIN2,CD79B,GPHN,CNBD1,NBN,CTNND2,RFWD3,DDX5,EXT1,CBFB,COX6C,MAX,MLLT1,HERPUD1,COL1A1,NFIB,AKT2,CCNE1,CIC,CD79A,MUC16,NIN,CDH1,SMARCA4,NPM1,POLG,GNA11,FAM135B,KRAS,DNM2,RHOA,HIF1A,TCEA1,LYL1,NFATC2,CYLD,NCKIPSD,HEY1,CEBPA,BUB1B,RSPO2,SALL4,CDH17,CD209,SRSF2,UBR5,FES,ROBO2,STK11,NSD1,PREX2,MAP2K2,CSMD3,NCOA2,FSTL3,MAF,PABPC1,ZFHX3,MYO5A,MAP2K1,SS18L1,RUNX1T1,PSIP1,EIF3E,GOLGA5,FGFR4,CDH11,TSHR,BCL11B,NTRK3,KEAP1,CEP89,SH3GL1,CTCF,CLTC,CBFA2T3,RARA,FGFR1,WWTR1,SMARCD1,SPOP,ERBB2,PPP6C,ERCC4,SOCS1。
乳腺癌Pathology亚型分类基因的潜在标志物SNV和CNV统计结果如下表所示。
表1 潜在标志物表格SNV(p<0.05)&CNV(p<0.001)
实施例2
采用实施例1得到的潜在标志物训练模型。
1、采用实施例1得到的所有靶点标志物的信息,TCGA和breast_msk_2018数据集合并训练模型,去除1例缺少CNV数据的样本,即 1962例导管癌和603例小叶癌病人组织样本进行检测判断,利用随机森林模型进行建模分析,建模流程如图1所示,按照7:3的切分,进行20次重复,得到模型AUC高达0.8685,如图2所示。
2、对111个标志物进行优选:通过利用随机森林模型进行建模分析,1962例导管癌和603例小叶癌病人组织样本进行检测判断,按照7:3的切分,进行20次重复,根据步骤1模型的特征重要性,选择其中前20个MARKER的最优组合,即CDH1、TP53、GATA3、PIK3CA、TBX3、ERBB2、CDH1、MYC、GNAS、RECQL4、CDK12、ERBB2、MAF、ZFHX3、CBFA2T3、CYLD、RFWD3、CTCF、CBCF和CDH11,使用上述20个MARKER得到模型AUC高达0.8759,如图3所示。
3、对20个标志物进行优选:通过利用随机森林模型进行建模分析,1962例导管癌和603例小叶癌病人组织样本进行检测判断,按照7:3的切分,进行20次重复,根据步骤1模型的特征重要性,选择其中前10个MARKER的最优组合,即CDH1、TP53、GATA3、PIK3CA、TBX3、CDH1、MYC、MAF、CBFA2T3和RFWD3,使用上述10个MARKER得到模型AUC高达0.8794,如图4所示。
4、对10个标志物进行优选:通过利用随机森林模型进行建模分析,模型参数为:n_estimators=300, max_features = "log2", criterion = "entropy", min_samples_leaf = 3,class_weight="balanced"。1962例导管癌和603例小叶癌病人组织样本进行检测判断,按照7:3的切分,进行20次重复,根据步骤1模型的特征重要性,选择其中前5个MARKER的最优组合,即CDH1、TP53、GATA3、CBFA2T3和MYC,使用上述5个MARKER得到模型AUC高达0.8696,如图5所示。
实施例3
对实施例1的生物标志物、实施例2的模型进行验证。
验证过程如下所示。
1、获取组织样本:从暨南大学收集897例病理经相关专家鉴定为乳腺癌(660例浸润性导管癌,237例浸润性小叶癌)的相关FFPE切片样本。
2、样本测序分析:
FFPE组织样品由第三方(明码生物技术公司)进行全基因组测序分析。
3、使用上述111个标志物信息,对独立的验证集,即病人组织样本进行检测判断,根据实施例2得到的20个标志物模型预测检验,实施例3中AUC可达到0.9048,如图6所示。
实施例4
基于TCGA公共数据库对乳腺癌PAM50亚型分型的变异基因标记物进行初筛。
筛选方法如下所示。
1、从TCGA数据库获取乳腺癌患者的肿瘤组织全外显子组测序数据。
本实施例中共下载了817例乳腺癌患者(其中Luminal A型患者440例,Luminal B型患者176例,HER-2过表达型患者65例和基底样乳腺癌Basal型患者136例)全外显子测序数据,用七种不同软件:Samtools,SomaticSniper,Strelka和VarScan 分别检测点突变;采用VarScan,Pindel和GATK和Strelka分别检测InDels。
2、根据各个亚型中的突变频率进行差异分析。
采用卡方检验统计分析,选取p≤0.05的变异基因和文献调研基因作为潜在标志物。
3、根据COMIC的CGC(Cancer Gene Census,v94)基因注释,选择癌症相关基因作为模型标志物。
4、从cBioPortal公开数据库(https://www.cbioportal.org/study/summary?id=brca_metabric)下载数据集,获得848例Luminal A型患者、474例Luminal B型患者、224例Her-2过表达型患者和209例Basal型患者数据,按照实施例5的步骤2、3选择差异基因,作为模型标志物。最终结合2个数据集潜在特征基因,最终确定16个基因突变,51个拷贝数变异基因,共计67个基因作为模型标志物,该67个标志物为:TP53,PIK3CA,GATA3,CBFB,MAP3K1,CDH1,RB1,MUC16,AKAP9,ERBB3,N4BP2,FAT3,PIK3R1,KMT2D,CREBBP,BRCA2,GATA3,RET,PTEN,MGMT,NUP98,CCND1,FAT3,KMT2A,KRAS,ERBB3,TBX3,RB1,ERCC5,FOXA1,KNSTRN,FANCA,TP53,ERBB2,RARA,SPOP,SMAD2,KEAP1,STK11,ERCC2,NOTCH2,CAMTA1,SDHC,CRNKL1,PTK6,RUNX1,BCR,BIRC6,LRP1B,ERBB4,SETD2,PIK3CA,SOX2,TP63,FGFR3,FAT1,TERT,PWWP2A,FANCE,MYB,EGFR,MET,BRAF,KAT6A,MYC,CD274,NOTCH1。
乳腺癌PAM50亚型基因的潜在标志物SNV统计结果如下表所示。
表2 乳腺癌PAM50亚型基因的潜在标志物TOP 200 SNV
表3乳腺癌PAM50亚型基因的潜在标志物TOP 200CNV
实施例5
采用实施例4得到的潜在标志物训练模型。
1、采用实施例5得到的所有靶点标志物的信息,TCGA数据集用来训练模型,即440例Luminal A型患者,176例Luminal B型患者,65例HER-2过表达型患者和136例基底样乳腺癌Basal型患者组织样本进行检测判断,利用随机森林模型进行建模分析,模型参数为:n_estimators=300, max_features = "log2", criterion = "entropy", min_samples_leaf = 3,class_weight="balanced"。按照7:3的切分,进行20次重复,得到模型AUC高达0.8912,如图7所示。
2、对67个标志物进行优选:通过利用随机森林模型进行建模分析,对TCGA数据集病人组织样本进行训练建模,按照7:3的切分,进行20次重复,根据步骤1模型的特征重要性,选择其中前20个MARKER的最优组合,即TP53,PIK3CA,ERBB2,PWWP2A,SPOP,RARA,BIRC6,CD274,ERBB3,KAT6A,MYC,FANCA,FOXA1,KNSTRN,FAT3,GATA3,CAMTA1,FANCE,SMAD2,NOTCH1,使用上述20个MARKER得到模型AUC高达0.8828,如图8所示。
3、对20个标志物进行优选:通过利用随机森林模型进行建模分析,对TCGA数据集病人组织样本进行训练建模,按照7:3的切分,进行20次重复,根据步骤1模型的特征重要性,选择其中前10个MARKER的最优组合,即TP53,ERBB2,PWWP2A,SPOP,RARA,BIRC6,CD274,ERBB3,KAT6A,MYC,使用上述10个MARKER得到模型AUC高达0.8574,如图9所示。
4、对10个标志物进行优选:通过利用随机森林模型进行建模分析,对TCGA数据集病人组织样本进行训练建模,按照7:3的切分,进行20次重复,根据步骤1模型的重要性,选择其中前5个MARKER的最优组合,即TP53,ERBB2,PWWP2A,SPOP和RARA,使用上述5个MARKER得到模型AUC高达0.8001,如图10所示。
实施例6
对实施例5的生物标志物、实施例6的模型进行验证。
验证过程如下所示。
1、获取组织样本:从暨南大学收集1755例病理经相关专家鉴定为乳腺癌(848例Luminal A型患者、474例Luminal B型患者、224例Her-2过表达型患者和209例Basal型患数据集)的相关FFPE切片样本。
2、样本测序分析:
FFPE组织样品由第三方(明码生物技术公司)进行全基因组测序分析
3、使用上述67个标志物信息,对独立的验证集,即病人组织样本进行检测判断,根据实施例5得到的20个标志物模型预测检验,实施7中AUC可以达到0.8271,如图11所示。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (2)

1.检测生物样本中生物标志物组合一基因突变的试剂和检测生物样本中生物标志物组合二拷贝数变异的试剂在制备用于浸润性导管癌和浸润性小叶癌分型诊断产品中的应用;
所述检测为检测生物样本中生物标志物组合一基因突变,和检测生物样本中生物标志物组合二拷贝数变异;
所述生物标志物组合一由以下生物标志物组成:CDH1、TP53、GATA3、PIK3CA、TBX3、ERBB2;所述生物标志物组合二由以下生物标志物组成:CDH1、MYC、GNAS、RECQL4、CDK12、ERBB2、MAF、ZFHX3、CBFA2T3、CYLD、RFWD3、CTCF、CBCF和CDH11;
所述生物样本为乳腺癌患者的肿瘤组织。
2.检测生物样本中生物标志物组合三基因突变的试剂和检测生物样本中生物标志物组合四拷贝数变异的试剂在制备用于Luminal A型、Luminal B型、HER-2过表达型和基底样乳腺癌分型诊断产品中的应用;
所述检测为检测生物样本中生物标志物组合三基因突变,和检测生物样本中生物标志物组合四拷贝数变异;
所述生物标志物组合三由以下生物标志物组成:TP53,PIK3CA;所述生物标志物组合四由以下生物标志物组成:ERBB2,PWWP2A,SPOP,RARA,BIRC6,CD274,ERBB3,KAT6A,MYC,FANCA,FOXA1,KNSTRN,FAT3,GATA3,CAMTA1,FANCE,SMAD2,NOTCH1;
所述生物样本为乳腺癌患者的肿瘤组织。
CN202111651251.2A 2021-12-30 2021-12-30 用于乳腺癌分型的生物标志物及其应用 Active CN114277148B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111651251.2A CN114277148B (zh) 2021-12-30 2021-12-30 用于乳腺癌分型的生物标志物及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111651251.2A CN114277148B (zh) 2021-12-30 2021-12-30 用于乳腺癌分型的生物标志物及其应用

Publications (2)

Publication Number Publication Date
CN114277148A CN114277148A (zh) 2022-04-05
CN114277148B true CN114277148B (zh) 2024-03-08

Family

ID=80878612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111651251.2A Active CN114277148B (zh) 2021-12-30 2021-12-30 用于乳腺癌分型的生物标志物及其应用

Country Status (1)

Country Link
CN (1) CN114277148B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114832110B (zh) * 2022-06-21 2023-04-28 中山大学孙逸仙纪念医院 长链非编码rna crcal-3抑制剂在制备治疗放疗抵抗乳腺癌的产品中的用途
CN115453123B (zh) * 2022-09-27 2024-06-14 浙江大学医学院附属第一医院 生物标志物在制备肿瘤诊断产品中的应用
CN116312785A (zh) * 2023-01-19 2023-06-23 首都医科大学附属北京胸科医院 乳腺癌诊断标志基因及其筛查方法
CN116863995B (zh) * 2023-08-29 2024-05-14 北京大学第一医院 Alpk2,itga11,esyt1,cdh17在预测药物出血中的应用

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012085554A (ja) * 2010-10-18 2012-05-10 Shinya Watanabe 乳がんのサブタイプの判別方法
CN110004228A (zh) * 2019-04-03 2019-07-12 清华大学深圳研究生院 一种与乳腺癌分子分型相关的诊断标志物及其用途

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012085554A (ja) * 2010-10-18 2012-05-10 Shinya Watanabe 乳がんのサブタイプの判別方法
CN110004228A (zh) * 2019-04-03 2019-07-12 清华大学深圳研究生院 一种与乳腺癌分子分型相关的诊断标志物及其用途

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CBLC在各分型分期乳腺癌中的表达差异及预后分析;李纬玮;肖斌;陆景润;邓淳;李林海;罗昭逊;;安徽医科大学学报;第55卷(第03期);第415-421页 *

Also Published As

Publication number Publication date
CN114277148A (zh) 2022-04-05

Similar Documents

Publication Publication Date Title
CN114277148B (zh) 用于乳腺癌分型的生物标志物及其应用
US20220098671A1 (en) Methods and systems for adjusting tumor mutational burden by tumor fraction and coverage
Andreatta et al. Interpretation of T cell states from single-cell transcriptomics data using reference atlases
CN109880910B (zh) 一种肿瘤突变负荷的检测位点组合、检测方法、检测试剂盒及系统
US20200203014A1 (en) Methods and systems for sequencing-based variant detection
Jovelet et al. Circulating cell-free tumor DNA analysis of 50 genes by next-generation sequencing in the prospective MOSCATO trial
CN108753967A (zh) 一种用于肝癌检测的基因集及其panel检测设计方法
US20220154284A1 (en) Determination of cytotoxic gene signature and associated systems and methods for response prediction and treatment
Sidhom et al. Deep learning reveals predictive sequence concepts within immune repertoires to immunotherapy
CN112143810B (zh) 一组用于预测癌症免疫治疗效果的基因标志物及其应用
US20200273537A1 (en) High Throughput Patient Genomic Sequencing and Clinical Reporting Systems
GB2577548A (en) A noise measure for copy number analysis on targeted panel sequencing data
CN115862737A (zh) 基因标志物在非小细胞肺癌患者复发/转移风险预测中的应用、预测装置和计算机可读介质
CN115820860A (zh) 基于增强子甲基化差异的非小细胞肺癌标志物筛选方法及其标志物和应用
Tang et al. Tumor mutation burden derived from small next generation sequencing targeted gene panel as an initial screening method
Bendall et al. Specific human endogenous retroviruses predict metastatic potential in uveal melanoma
CN114512184A (zh) 一种用于预测癌症疗效和预后的方法及其装置和应用
CN114214409B (zh) 用于食管癌分型的生物标志物及其应用
TW202214870A (zh) 用以區分體細胞系基因組序列與生殖細胞系基因組序列之方法和系統
Li et al. Novel immune-related prognostic model and nomogram for breast cancer based on ssGSEA
Zhu et al. Comprehension of rectosigmoid junction cancer molecular features by comparison to the rectum or sigmoid colon cancer
CN114908163A (zh) 预测肺癌免疫检查点抑制剂疗效的标志物及其应用
Liu et al. Identification of aneuploidy-related gene signature to predict survival in head and neck squamous cell carcinomas
Lan et al. High concordance of mutation patterns in 10 common mutated genes between tumor tissue and cell-free DNA in metastatic colorectal cancer
CN116312814B (zh) 一种肺腺癌分子分型模型的构建方法、设备、装置以及试剂盒

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20241021

Address after: 215334 Station 33, Room 605, Science and Technology Plaza, Qianjin East Road, Kunshan Development Zone, Suzhou City, Jiangsu Province

Patentee after: Kanghua Juntai (Kunshan) Biotechnology Co.,Ltd.

Country or region after: China

Address before: 518064 B215, building 7, Shenzhen Bay science and technology ecological park, 1819 Shahe West Road, high tech Zone community, Yuehai street, Nanshan District, Shenzhen, Guangdong

Patentee before: Shenzhen Kanghua Juntai Biotechnology Co.,Ltd.

Country or region before: China