CN109797221A - 一种用于对肌层浸润性膀胱癌进行分子分型和/或预后预测的生物标记物组合及其应用 - Google Patents
一种用于对肌层浸润性膀胱癌进行分子分型和/或预后预测的生物标记物组合及其应用 Download PDFInfo
- Publication number
- CN109797221A CN109797221A CN201910190625.1A CN201910190625A CN109797221A CN 109797221 A CN109797221 A CN 109797221A CN 201910190625 A CN201910190625 A CN 201910190625A CN 109797221 A CN109797221 A CN 109797221A
- Authority
- CN
- China
- Prior art keywords
- gene
- group
- biomarker combination
- patient
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000000090 biomarker Substances 0.000 title claims abstract description 44
- 206010005003 Bladder cancer Diseases 0.000 title claims abstract description 31
- 208000007097 Urinary Bladder Neoplasms Diseases 0.000 title claims abstract description 31
- 201000005112 urinary bladder cancer Diseases 0.000 title claims abstract description 29
- 230000002632 myometrial effect Effects 0.000 title claims abstract description 27
- 238000004393 prognosis Methods 0.000 title claims abstract description 17
- 230000014509 gene expression Effects 0.000 claims abstract description 67
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 37
- 230000004083 survival effect Effects 0.000 claims abstract description 36
- 239000011159 matrix material Substances 0.000 claims abstract description 30
- 238000004458 analytical method Methods 0.000 claims abstract description 23
- 238000012216 screening Methods 0.000 claims abstract description 17
- 102100028412 Fibroblast growth factor 10 Human genes 0.000 claims abstract description 16
- 102100031487 Growth arrest-specific protein 6 Human genes 0.000 claims abstract description 16
- 102100037852 Insulin-like growth factor I Human genes 0.000 claims abstract description 16
- 102100038895 Myc proto-oncogene protein Human genes 0.000 claims abstract description 16
- 102100034743 Parafibromin Human genes 0.000 claims abstract description 16
- 102100038825 Peroxisome proliferator-activated receptor gamma Human genes 0.000 claims abstract description 16
- 102100040681 Platelet-derived growth factor C Human genes 0.000 claims abstract description 16
- 102100030485 Platelet-derived growth factor receptor alpha Human genes 0.000 claims abstract description 16
- 102100029969 Ski oncogene Human genes 0.000 claims abstract description 16
- 102000052116 epidermal growth factor receptor activity proteins Human genes 0.000 claims abstract description 16
- YOHYSYJDKVYCJI-UHFFFAOYSA-N n-[3-[[6-[3-(trifluoromethyl)anilino]pyrimidin-4-yl]amino]phenyl]cyclopropanecarboxamide Chemical compound FC(F)(F)C1=CC=CC(NC=2N=CN=C(NC=3C=C(NC(=O)C4CC4)C=CC=3)C=2)=C1 YOHYSYJDKVYCJI-UHFFFAOYSA-N 0.000 claims abstract description 16
- 102100037362 Fibronectin Human genes 0.000 claims abstract description 12
- 102100027224 Tumor protein p53-inducible nuclear protein 1 Human genes 0.000 claims abstract description 12
- 101000917237 Homo sapiens Fibroblast growth factor 10 Proteins 0.000 claims abstract description 11
- 101001030211 Homo sapiens Myc proto-oncogene protein Proteins 0.000 claims abstract description 11
- 101000945735 Homo sapiens Parafibromin Proteins 0.000 claims abstract description 11
- 101000836174 Homo sapiens Tumor protein p53-inducible nuclear protein 1 Proteins 0.000 claims abstract description 11
- 101000809594 Escherichia coli (strain K12) Shikimate kinase 1 Proteins 0.000 claims abstract description 10
- 101000599951 Homo sapiens Insulin-like growth factor I Proteins 0.000 claims abstract description 10
- 101000863692 Homo sapiens Ski oncogene Proteins 0.000 claims abstract description 10
- -1 DDR2 Proteins 0.000 claims abstract description 9
- 102100032340 G2/mitotic-specific cyclin-B1 Human genes 0.000 claims abstract description 9
- 101001027128 Homo sapiens Fibronectin Proteins 0.000 claims abstract description 9
- 101000868643 Homo sapiens G2/mitotic-specific cyclin-B1 Proteins 0.000 claims abstract description 9
- 101000923005 Homo sapiens Growth arrest-specific protein 6 Proteins 0.000 claims abstract description 9
- 101000741790 Homo sapiens Peroxisome proliferator-activated receptor gamma Proteins 0.000 claims abstract description 9
- 101000611888 Homo sapiens Platelet-derived growth factor C Proteins 0.000 claims abstract description 9
- 101001126417 Homo sapiens Platelet-derived growth factor receptor alpha Proteins 0.000 claims abstract description 9
- 102100026918 Phospholipase A2 Human genes 0.000 claims abstract description 9
- 102100040682 Platelet-derived growth factor D Human genes 0.000 claims abstract description 9
- 102100027569 Protein farnesyltransferase subunit beta Human genes 0.000 claims abstract description 9
- 108700015053 epidermal growth factor receptor activity proteins Proteins 0.000 claims abstract description 9
- 101000983077 Homo sapiens Phospholipase A2 Proteins 0.000 claims abstract description 7
- 101000611892 Homo sapiens Platelet-derived growth factor D Proteins 0.000 claims abstract description 6
- 101000861587 Homo sapiens Protein farnesyltransferase subunit beta Proteins 0.000 claims abstract description 6
- 206010028980 Neoplasm Diseases 0.000 claims description 12
- 101150023417 PPARG gene Proteins 0.000 claims description 8
- 101150071041 Ccnb1 gene Proteins 0.000 claims description 7
- 101150039808 Egfr gene Proteins 0.000 claims description 7
- 101150099704 Fn1 gene Proteins 0.000 claims description 7
- 101150022345 GAS6 gene Proteins 0.000 claims description 7
- 101150038994 PDGFRA gene Proteins 0.000 claims description 7
- 101150055706 Pdgfc gene Proteins 0.000 claims description 7
- 238000003559 RNA-seq method Methods 0.000 claims description 7
- 238000010201 enrichment analysis Methods 0.000 claims description 7
- 108700021358 erbB-1 Genes Proteins 0.000 claims description 7
- 101150088952 IGF1 gene Proteins 0.000 claims description 6
- 101150099662 ski gene Proteins 0.000 claims description 6
- 101150062301 Ddr2 gene Proteins 0.000 claims description 5
- 101150099234 FGF10 gene Proteins 0.000 claims description 5
- 101150039798 MYC gene Proteins 0.000 claims description 5
- 101150088969 TP53INP1 gene Proteins 0.000 claims description 5
- 101150065501 cdc-73 gene Proteins 0.000 claims description 5
- 239000003550 marker Substances 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000008676 import Effects 0.000 claims description 4
- 238000010837 poor prognosis Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 2
- 238000013518 transcription Methods 0.000 abstract description 12
- 230000035897 transcription Effects 0.000 abstract description 12
- 238000001228 spectrum Methods 0.000 abstract description 7
- 230000002068 genetic effect Effects 0.000 abstract description 6
- 238000007405 data analysis Methods 0.000 abstract description 4
- 210000001519 tissue Anatomy 0.000 description 6
- 201000011510 cancer Diseases 0.000 description 5
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 101150005998 FNTB gene Proteins 0.000 description 3
- WSFSSNUMVMOOMR-UHFFFAOYSA-N Formaldehyde Chemical compound O=C WSFSSNUMVMOOMR-UHFFFAOYSA-N 0.000 description 3
- 101150109086 PDGFD gene Proteins 0.000 description 3
- 230000001575 pathological effect Effects 0.000 description 3
- 206010064571 Gene mutation Diseases 0.000 description 2
- 238000010824 Kaplan-Meier survival analysis Methods 0.000 description 2
- 101150048837 PLA2G1B gene Proteins 0.000 description 2
- 230000031018 biological processes and functions Effects 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 210000002751 lymph Anatomy 0.000 description 2
- 210000003205 muscle Anatomy 0.000 description 2
- 230000007170 pathology Effects 0.000 description 2
- WVYWICLMDOOCFB-UHFFFAOYSA-N 4-methyl-2-pentanol Chemical compound CC(C)CC(C)O WVYWICLMDOOCFB-UHFFFAOYSA-N 0.000 description 1
- 230000007067 DNA methylation Effects 0.000 description 1
- 230000009946 DNA mutation Effects 0.000 description 1
- 101150025764 FGFR3 gene Proteins 0.000 description 1
- 102100027842 Fibroblast growth factor receptor 3 Human genes 0.000 description 1
- 108020005198 Long Noncoding RNA Proteins 0.000 description 1
- 208000007433 Lymphatic Metastasis Diseases 0.000 description 1
- 102000001708 Protein Isoforms Human genes 0.000 description 1
- 108010029485 Protein Isoforms Proteins 0.000 description 1
- 101150002130 Rb1 gene Proteins 0.000 description 1
- 102100038042 Retinoblastoma-associated protein Human genes 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000004791 biological behavior Effects 0.000 description 1
- 208000035269 cancer or benign tumor Diseases 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002386 leaching Methods 0.000 description 1
- 239000000314 lubricant Substances 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 108091070501 miRNA Proteins 0.000 description 1
- 239000002679 microRNA Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 239000012188 paraffin wax Substances 0.000 description 1
- 238000010827 pathological analysis Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 230000030243 regulation of fibroblast proliferation Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000011222 transcriptome analysis Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000000107 tumor biomarker Substances 0.000 description 1
- 230000002485 urinary effect Effects 0.000 description 1
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及一种用于对肌层浸润性膀胱癌进行分子分型和/或预后预测的生物标记物组合及其筛选方法和应用,所述生物标记物组合包括以下基因:FGF10、TP53INP1、DDR2、MYC、CDC73、IGF1、PLA2G1B、SKI、FN1、EGFR、PPARG、PDGFRA、PDGFD、GAS6、PDGFC、FNTB和CCNB1。基于该生物标记物组合的转录数据的非负矩阵分解方法聚类分析,可将肌层浸润性膀胱癌分成类,分别对应不同的表达特征谱。该分类分别对应显著不同的总体生存状况,因此可用于生存预后评估。本发明所采用的转录数据分析方法选用生物标记物集合个数少,分析步骤简单,同时满足大样本分析需求,对计算能力要求低,适用于标准化后的转录数据,该转录数据可为转录组学数据亚集、亦可为单独检测的基因转录数据的集合。
Description
技术领域
本发明属于及生物医药技术领域,尤其涉及一种用于对肌层浸润性膀胱癌进行分子分型和/或预后预测的生物标记物组合及其筛选方法和应用。
背景技术
膀胱癌是泌尿系统最常见的恶性肿瘤。按照肿瘤的是否侵入肌层,膀胱癌分为非肌层浸润性(Non-muscle-invasive bladder cancer,NMIBC)和肌层浸润性膀胱癌(Muscle-invasivebladder cancer,MIBC)。肌层浸润性膀胱癌在初发膀胱肿瘤中约占25%。此外,10%-20%的非肌层浸润性膀胱癌会进展为肌层浸润性膀胱癌。肌层浸润性膀胱癌恶性程度高,预后差,5年总体生存率(overall survival)不及50%,若发生淋巴结转移或远端转移,则预后更差。目前缺少简单有效的预后预测生物标志物和相关方法。
膀胱癌是一种异质性疾病,转录组学的应用极大促进了对该疾病的分子特征及其与临床表现相关性的理解。基于转录组学的分子分型为解释该疾病生物学行为提供了基础,并有望改善现有的病理诊断方法及治疗方式。全转录组或多组学整合分析发现肌层浸润性膀胱癌可分为管腔型和基底型,亦可细分为luminal-papillary型、luminal-infiltrated型、luminal型、basal-squamous型和neuronal型,分别对应不同临床病理表型。这些分子分型方法有助于对疾病机制的理解,但由于过于复杂,临床实施难度大,目前仍亟需简单有效的分子分型标记物及组学分析方法。
发明内容
为了于克服现有技术中的缺陷,本发明提供一种用于对肌层浸润性膀胱癌进行分子分型和/或预后预测的生物标记物组合及其筛选方法(转录数据分析方法),基于该生物标记物组合的转录数据可对大样本肌层浸润性膀胱癌进行分子分型,进而评估生存预后。该转录数据分析方法选用基因个数少,步骤简单,同时满足大样本分析需求,对计算能力要求低,适用于标准化后的转录数据。该转录数据可为转录组学数据亚集、亦可为单独检测的基因转录数据的集合。
为实现上述目的,本发明采用如下技术方案:
本发明的第一方面是提供一种用于对肌层浸润性膀胱癌进行分子分型和/或预后预测的生物标记物组合,所述生物标记物组合包括FGF10、TP53INP1、DDR2、MYC、CDC73、IGF1、PLA2G1B、SKI、FN1、EGFR、PPARG、PDGFRA、PDGFD、GAS6、PDGFC、FNTB和CCNB1基因中的至少一种。
进一步地,所述生物标记物组合包括第1组:FGF10、IGF1、SKI、GAS6、PDGFC、DDR2、PDGFRA和FN1,或者包括第2组:EGFR、MYC、CDC73和CCNB1,或者包括第3组:PPARG和TP53INP1,或者包括第1组、第2组和第3组的任意组合。
进一步地,所述生物标记物组合包括FGF10、TP53INP1、DDR2、MYC、CDC73、IGF1、PLA2G1B、SKI、FN1、EGFR、PPARG、PDGFRA、PDGFD、GAS6、PDGFC、FNTB和CCNB1基因。GeneOntology功能富集分析表明所选基因富集于regulation of fibroblast proliferation生物过程(biological process)。
进一步地,所述生物标记物组合分为3组,第1组包括FGF10、IGF1、SKI、GAS6、PDGFC、DDR2、PDGFRA和FN1,第2组包括,EGFR、MYC、CDC73和CCNB1,第3组包括PPARG和TP53INP1。
本发明的第二方面是提供一种筛选生物标记物组合的方法,所述生物标记物组合用于对肌层浸润性膀胱癌进行分子分型和/或预后预测,所述方法包括如下步骤:
步骤一、从数据库下载肌层浸润性膀胱癌病例的临床数据和对应的肿瘤组织RNA-Seq转录组数据;
步骤二、在RNA-Seq数据中,针对每个基因,按大于或小于表达中位值,将病人对应地分为高表达组和低表达组,分析基因高表达组和低表达组之间的与总体生存是否存在差异;
步骤三、选取具有显著统计学差异的基因,进行富集分析,获得5个富集倍数大于2的生物过程;
步骤四、分别选取富集到5个生物过程中的基因集合,提取基因的标准化转录数据,建立表达矩阵,采用非负矩阵分解方法进行聚类;
步骤五、分析不同生物过程的非负矩阵分解分组是否与病人总体生存相关,选取相关性最高的生物过程的基因亚集,所述基因亚集为所述生物标记物组合,其包括FGF10、TP53INP1、DDR2、MYC、CDC73、IGF1、PLA2G1B、SKI、FN1、EGFR、PPARG、PDGFRA、PDGFD、GAS6、PDGFC、FNTB和CCNB1。
为了进一步优化上述筛选生物标记物组合的方法,本发明采取的技术措施还包括:
进一步地,在所述步骤一中,采用的数据库为TCGA数据库;选择下载的转录组数据类型为经Upper Quartile法标准化后的FPKM值。
进一步地,在所述步骤二中,在RNA-Seq数据中剔除表达值中位数为0的基因;将病人对应地分为高表达组和低表达组后,绘制Kaplan-Meier生存曲线,通过log-rank检验分析基因高表达组和低表达组之间的总体生存是否存在差异,所述分析通过R语言中的survival包完成。
进一步地,在所述步骤三中,所述富集分析具体为:具有显著统计学差异的基因将导入PANTHER在线服务工具以默认参数进行Gene ontology富集分析。
进一步地,在所述步骤四中,所述聚类使用Matlab中的非负矩阵分解软件完成;在步骤五中,非负矩阵分解可基于一组基因表达值的模式对病人进行分类,基于非负矩阵分解的病人分组,再次通过log-rank检验分析分析不同生物过程的非负矩阵分解分组是否与病人总体生存相关。
进一步地,当设置预分组参数k=3时,病人为可被分为3组,三组之间病人的总体生存存在最为显著的统计学差异。
本发明的第三方面是提供一种上述生物标记物组合作为肌层浸润性膀胱癌分子分型和/或预后预测标志物的应用。
进一步地,所述生物标记物组合对应为3组存在总体生存差异的病人,各分组中标记物的表达对应三种特征:第1组:FGF10、IGF1、SKI、GAS6、PDGFC、DDR2、PDGFRA和FN1基因高表达组;第2组:EGFR、MYC、CDC73和CCNB1基因高表达组;第3组:PPARG和TP53INP1基因高表达组;其中,第1组以及第2组总体生存较差、不良预后风险高,第3组总体生存较好、不良预后风险低。
与现有技术相比,本发明采用上述技术方案具有以下有益效果:
现行转录组分析基于全部基因或大规模基因集,运算量大,计算能力需求高。本发明定义了一个小的生物标记物集合,选用基因个数少,步骤简单,同时满足大样本分析需求,对计算能力要求低,适用于标准化后的转录数据。该转录数据可为转录组学数据亚集、亦可为单独检测的基因转录数据的集合。本发明提出结合基因集合和NMF聚类,可根据聚类结果对病人分群,不同分群结果提示不同预后状况,可有效评估肌层浸润性膀胱癌的不良预后风险。
附图说明
图1为本发明一实施例中生物标记物组合的筛选步骤示意图;
图2为本发明一实施例中基于生物标记物组合基因集的非负矩阵分解聚类结果图;
图3为本发明一实施例中基于非负矩阵分解聚类结果的生存分析图;
图4为本发明一实施例中生物标记物组合基因集中不同基因在不同组病人的肿瘤组织中表达情况;其中,Row Z-score越高表示表达越高。
图5为本发明一实施例中以人类表达谱芯片数据为例基于生物标记物组合基因集的非负矩阵分解聚类结果图;
图6为本发明一实施例中以人类表达谱芯片数据为例基于非负矩阵分解聚类结果的生存分析图;
图7为本发明一实施例中以人类表达谱芯片数据为例生物标记物组合基因集中不同基因在不同组病人的肿瘤组织中表达情况;其中,Row Z-score越高表示表达越高。
具体实施方式
本发明涉及一种用于对肌层浸润性膀胱癌进行分子分型和/或预后预测的生物标记物组合,其包括以下基因:FGF10、TP53INP1、DDR2、MYC、CDC73、IGF1、PLA2G1B、SKI、FN1、EGFR、PPARG、PDGFRA、PDGFD、GAS6、PDGFC、FNTB和CCNB1,采用的数据为表达定量数据,数据分析方法为非负矩阵分解,可将病人聚类分组,不同分组对应不同预后及所述基因的不同表达特征。本发明还涉及一种上述生物标记物组合的筛选方法和应用。本发明适用的数据包括转录组数据、单独检测的基因转录数据的集合;适用标本包括甲醛固定石蜡包埋标本及新鲜组织标本。
下面结合附图和实施例,对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例1
本实施例为一种用于对肌层浸润性膀胱癌进行分子分型和/或预后预测的生物标记物组合的筛选方法,如图1所示,该生物标记物组合基因集的筛选过程如下:
从TCGA(The Cancer Genome Atlas)数据库(https://portal.gdc.cancer.gov)下载肌层浸润性膀胱癌病例(405例)的临床数据和对应的肿瘤组织RNA-Seq转录组数据,选择下载的数据类型为经Upper Quartile法标准化后的FPKM(fragments per kilobase oftranscript per million fragments mapped)值。
在RNA-Seq数据中,剔除表达值中位数为0的基因,然后分析每个基因与总体生存(overall survival,OS)的相关性。针对每个基因,按大于或小于表达中位值,将病人对应地分为高表达组和低表达组,绘制Kaplan-Meier生存曲线,通过log-rank检验分析该基因高表达组和低表达组之间的OS是否存在差异。该分析通过R语言中的survival包完成。
选取p值小于0.01的基因,共2044个,导入PANTHER在线服务工具以默认参数进行Gene ontology富集分析,获得5个富集倍数(enrichment folds)大于2的生物过程(biological process,BP)。
分别选取富集到5个BP中的基因集合,提取这些基因的标准化转录数据,建立表达矩阵,采用非负矩阵分解(non-negative matrix factorization,NMF)方法进行聚类,使用Matlab中的NMF软件完成。
NMF可基于一组基因表达值的模式对病人进行分类。基于NMF的病人分组,再次通过log-rank检验分析不同BP的NMF分组是否与病人OS相关。最终,选取相关性最高,即p值最小的BP的基因亚集,即为筛选的基因集合,其包括FGF10、TP53INP1、DDR2、MYC、CDC73、IGF1、PLA2G1B、SKI、FN1、EGFR、PPARG、PDGFRA、PDGFD、GAS6、PDGFC、FNTB和CCNB1。
在此筛选过程中,本实施例具体还涉及下述研究:
从数据库中提取上述筛选的基因集合中每一基因的转录数据,建立表达矩阵。将表达矩阵导入Matlab中的NMF软件,预设定分组参数为3(k=3),运行分析程序,病人可被稳定的分为三组(所得的cophenetic相关系数>0.98),其结果如图2所示,当设置预分组参数k=3时,基于该基因集合转录数据的NMF聚类可将病人分为三组,三组之间的OS存在最为显著的统计学差异(p<0.001)
对三组病人的总体生存进行生存分析(Kaplan-Meier分析,log-rank检验),其结果如图3所示,其中一组(第1组)病人的总体生存显著优于其他两组(第2、3组)(p=0.0006)。
分析所选取基因的表达情况(使用R语言中的heatmap2包),其结果如图4所示,发现第一组为PPARG和TP53INP1基因高表达组,第二组为FGF10、IGF1、SKI、GAS6、PDGFC、DDR2、PDGFRA和FN1基因高表达组,第三组为EGFR、MYC、CDC73和CCNB1基因高表达组。
此外,还发现该分组状况与mRNA、lncRNA、miRNA、DNA甲基化和蛋白组学分子亚型,与性别、乳头状病理特征、鳞状分化、淋巴血管侵袭状况、淋巴结转移状况、肿瘤分期等病理特征,与RB1、FGFR3和PPARG基因突变状况有显著相关性,见表1。
表1基于聚类结果的分组与不同分子亚型、临床病理特征及DNA突变状况的相关性
实施例2
本实施例为以71例肌层浸润性膀胱癌的人类表达谱芯片数据为例,采用本发明所述数据集和非负矩阵分解分析方法预测膀胱癌生存预后,其具体如下:
肿瘤标本的转录组数据和病人总体生存数据下载自GEO数据库(登录号GSE48277),数据类型为人类表达谱芯片数据,标本类型为新鲜冻存组织。
从转录组数据中,提取FGF10、TP53INP1、DDR2、MYC、CDC73、IGF1、PLA2G1B、SKI、FN1、EGFR、PPARG、PDGFRA、PDGFD、GAS6、PDGFC、FNTB和CCNB1基因的表达值,建立表达矩阵。
将表达矩阵导入Matlab中的NMF软件,预设定分组参数范围从1到7(k=1至k=7),运行分析程序;如图5所示病人可被稳定的分为两组(所得的cophenetic相关系数>0.99)。
对两组病人的总体生存进行生存分析(Kaplan-Meier分析,log-rank检验),其结果如图6所示,其中一组(第1组)病人的总体生存显著优于另一组(第2组)(p=0.038)。
分析所选取基因的表达情况(使用R语言中的heatmap2包),其结果如图7所示,发现第一组为PPARG和TP53INP1基因高表达组,第二组EGFR、MYC、CDC73和CCNB1基因高表达组。
需要注意的是,由于样本数有限,本示例所采用样本中并未发现FGF10、IGF1、SKI、GAS6、PDGFC、DDR2、PDGFRA和FN1基因高表达组,故仅能将病人分为两组。这并不与本发明内容及实施例1中分成三组的情况相矛盾,而恰恰是本发明应用过程中的客观合理情况。因此本发明应用过程中,需结合实际情况判断病人分组。
由上述实施例可知,本发明选用的生物标记物组合包括以下基因:FGF10、TP53INP1、DDR2、MYC、CDC73、IGF1、PLA2G1B、SKI、FN1、EGFR、PPARG、PDGFRA、PDGFD、GAS6、PDGFC、FNTB和CCNB1。基于该生物标记物组合的转录数据的非负矩阵分解方法聚类分析,可将肌层浸润性膀胱癌分类,分别对应不同的表达特征谱。该分类分别对应显著不同的总体生存状况,因此可用于生存预后评估。此外,分组状况还与多组学分子分型、部分关键临床病理特征及特定基因突变状况有显著相关性。该方法选用生物标记物集合个数少,分析步骤简单,同时满足大样本分析需求,对计算能力要求低,适用于标准化后的转录数据。该转录数据可为转录组学数据亚集、亦可为单独检测的基因转录数据的集合。
以上对本发明的具体实施例进行了详细描述,但其只作为范例,本发明并不限制于以上描述的具体实施例。对于本领域技术人员而言,任何对本发明进行的等同修改和替代也都在本发明的范畴之中。因此,在不脱离本发明的精神和范围下所作的均等变换和修改,都应涵盖在本发明的范围内。
Claims (10)
1.一种用于对肌层浸润性膀胱癌进行分子分型和/或预后预测的生物标记物组合,其特征在于,所述生物标记物组合包括以下基因:FGF10、TP53INP1、DDR2、MYC、CDC73、IGF1、PLA2G1B、SKI、FN1、EGFR、PPARG、PDGFRA、PDGFD、GAS6、PDGFC、FNTB和CCNB1。
2.根据权利要求1所述的生物标记物组合,其特征在于,所述生物标记物组合分为3组,第1组包括FGF10、IGF1、SKI、GAS6、PDGFC、DDR2、PDGFRA和FN1,第2组包括EGFR、MYC、CDC73和CCNB1,第3组包括PPARG和TP53INP1。
3.一种筛选如权利要求1~2所述的生物标记物组合的方法,所述生物标记物组合用于对肌层浸润性膀胱癌进行分子分型和/或预后预测,其特征在于,所述方法包括如下步骤:
步骤一、从数据库下载肌层浸润性膀胱癌病例的临床数据和对应的肿瘤组织RNA-Seq转录组数据;
步骤二、在RNA-Seq数据中,针对每个基因,按大于或小于表达中位值,将病人对应地分为高表达组和低表达组,分析基因高表达组和低表达组之间的与总体生存是否存在差异;
步骤三、选取具有显著统计学差异的基因,进行富集分析,获得5个富集倍数大于2的生物过程;
步骤四、分别选取富集到5个生物过程中的基因集合,提取基因的标准化转录数据,建立表达矩阵,采用非负矩阵分解方法进行聚类;
步骤五、分析不同生物过程的非负矩阵分解分组是否与病人总体生存相关,选取相关性最高的生物过程的基因亚集,所述基因亚集为所述生物标记物组合。
4.根据权利要求3所述的一种筛选生物标记物组合的方法,其特征在于,在所述步骤一中,采用的数据库为TCGA数据库;选择下载的转录组数据类型为经Upper Quartile法标准化后的FPKM值。
5.根据权利要求3所述的一种筛选生物标记物组合的方法,其特征在于,在所述步骤二中,在RNA-Seq数据中剔除表达值中位数为0的基因;将病人对应地分为高表达组和低表达组后,绘制Kaplan-Meier生存曲线,通过log-rank检验分析基因高表达组和低表达组之间的总体生存是否存在差异,所述分析通过R语言中的survival包完成。
6.根据权利要求3所述的一种筛选生物标记物组合的方法,其特征在于,在所述步骤三中,所述富集分析具体为:具有显著统计学差异的基因将导入PANTHER在线服务工具以默认参数进行Gene ontology富集分析。
7.根据权利要求3所述的一种筛选生物标记物组合的方法,其特征在于,在所述步骤四中,所述聚类使用Matlab中的非负矩阵分解软件完成;在步骤五中,非负矩阵分解可基于一组基因表达值的模式对病人进行分类,基于非负矩阵分解的病人分组,再次通过log-rank检验分析分析不同生物过程的非负矩阵分解分组是否与病人总体生存相关。
8.根据权利要求3所述的一种筛选生物标记物组合的方法,其特征在于,当设置预分组参数k=3时,非负矩阵分解结果可将病人为3组,三组之间病人的总体生存存在最为显著的统计学差异。
9.一种如权利要求1或2所述的生物标记物组合作为肌层浸润性膀胱癌分子分型和/或预后预测标志物的应用。
10.根据权利要求9所述的应用,其特征在于,所述生物标记物组合对应为3组存在总体生存差异的病人,各分组中标记物的表达对应三种特征:第1组:FGF10、IGF1、SKI、GAS6、PDGFC、DDR2、PDGFRA和FN1基因高表达组;第2组:EGFR、MYC、CDC73和CCNB1基因高表达组;第3组:PPARG和TP53INP1基因高表达组;其中,第1组以及第2组总体生存较差、不良预后风险高,第3组总体生存较好、不良预后风险低。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910190625.1A CN109797221A (zh) | 2019-03-13 | 2019-03-13 | 一种用于对肌层浸润性膀胱癌进行分子分型和/或预后预测的生物标记物组合及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910190625.1A CN109797221A (zh) | 2019-03-13 | 2019-03-13 | 一种用于对肌层浸润性膀胱癌进行分子分型和/或预后预测的生物标记物组合及其应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109797221A true CN109797221A (zh) | 2019-05-24 |
Family
ID=66563466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910190625.1A Pending CN109797221A (zh) | 2019-03-13 | 2019-03-13 | 一种用于对肌层浸润性膀胱癌进行分子分型和/或预后预测的生物标记物组合及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109797221A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110993113A (zh) * | 2019-11-21 | 2020-04-10 | 广西大学 | 基于MF-SDAE的lncRNA-疾病关系预测方法及系统 |
CN111653314A (zh) * | 2020-02-08 | 2020-09-11 | 广州医科大学附属肿瘤医院 | 一种分析识别淋巴管浸润的方法 |
WO2021112593A1 (ko) * | 2019-12-03 | 2021-06-10 | 서울대학교병원 | 비음수행렬분해 기반의 메타유전자 생성 방법 및 이의 적용 |
WO2021253544A1 (zh) * | 2020-06-17 | 2021-12-23 | 浙江大学 | 以87个基因作为生物标志物预测细胞增殖活性的模型 |
CN114107513A (zh) * | 2022-01-27 | 2022-03-01 | 北京优乐复生科技有限责任公司 | 一种用于膀胱尿路上皮癌诊断的检测方法和试剂盒 |
CN114203256A (zh) * | 2022-02-18 | 2022-03-18 | 上海仁东医学检验所有限公司 | 基于微生物丰度的mibc分型及预后预测模型构建方法 |
CN114807377A (zh) * | 2022-06-29 | 2022-07-29 | 南京世和基因生物技术股份有限公司 | 膀胱癌预后生存期标志物的应用、评估装置以及计算机可读取介质 |
CN116798632A (zh) * | 2023-07-13 | 2023-09-22 | 山东第一医科大学附属省立医院(山东省立医院) | 一种基于代谢基因的胃癌分子分型及预后预测模型构建方法及应用 |
CN116798646A (zh) * | 2023-08-17 | 2023-09-22 | 四川互慧软件有限公司 | 基于聚类算法的蛇伤预后预测方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101730848A (zh) * | 2007-03-20 | 2010-06-09 | 因达斯生物有限公司 | 膀胱癌诊断和/或预后方法 |
WO2014027831A1 (ko) * | 2012-08-14 | 2014-02-20 | 충북대학교 산학협력단 | 방광암 예후 진단 마커 |
CN107889509A (zh) * | 2015-02-17 | 2018-04-06 | 百欧恩泰诊断有限责任公司 | 用于膀胱癌分子亚型分型的方法和试剂盒 |
WO2018104147A1 (en) * | 2016-12-09 | 2018-06-14 | Institut Paoli Calmettes | Biomarker panel for prognosis of bladder cancer |
-
2019
- 2019-03-13 CN CN201910190625.1A patent/CN109797221A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101730848A (zh) * | 2007-03-20 | 2010-06-09 | 因达斯生物有限公司 | 膀胱癌诊断和/或预后方法 |
WO2014027831A1 (ko) * | 2012-08-14 | 2014-02-20 | 충북대학교 산학협력단 | 방광암 예후 진단 마커 |
CN107889509A (zh) * | 2015-02-17 | 2018-04-06 | 百欧恩泰诊断有限责任公司 | 用于膀胱癌分子亚型分型的方法和试剂盒 |
WO2018104147A1 (en) * | 2016-12-09 | 2018-06-14 | Institut Paoli Calmettes | Biomarker panel for prognosis of bladder cancer |
Non-Patent Citations (1)
Title |
---|
YUNG-HAO WONG: "Evolution of Network Biomarkers from Early to Late Stage Bladder Cancer Samples", 《BIOMED RESEARCH INTERNATIONAL》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110993113B (zh) * | 2019-11-21 | 2023-04-07 | 广西大学 | 基于MF-SDAE的lncRNA-疾病关系预测方法及系统 |
CN110993113A (zh) * | 2019-11-21 | 2020-04-10 | 广西大学 | 基于MF-SDAE的lncRNA-疾病关系预测方法及系统 |
WO2021112593A1 (ko) * | 2019-12-03 | 2021-06-10 | 서울대학교병원 | 비음수행렬분해 기반의 메타유전자 생성 방법 및 이의 적용 |
CN111653314A (zh) * | 2020-02-08 | 2020-09-11 | 广州医科大学附属肿瘤医院 | 一种分析识别淋巴管浸润的方法 |
CN111653314B (zh) * | 2020-02-08 | 2023-04-21 | 广州医科大学附属肿瘤医院 | 一种分析识别淋巴管浸润的方法 |
WO2021253544A1 (zh) * | 2020-06-17 | 2021-12-23 | 浙江大学 | 以87个基因作为生物标志物预测细胞增殖活性的模型 |
CN114107513B (zh) * | 2022-01-27 | 2022-05-03 | 北京优乐复生科技有限责任公司 | 一种用于膀胱尿路上皮癌诊断的检测方法和试剂盒 |
CN114107513A (zh) * | 2022-01-27 | 2022-03-01 | 北京优乐复生科技有限责任公司 | 一种用于膀胱尿路上皮癌诊断的检测方法和试剂盒 |
WO2023142630A1 (zh) * | 2022-01-27 | 2023-08-03 | 北京优乐复生科技有限责任公司 | 一种用于膀胱尿路上皮癌诊断的检测方法和试剂盒 |
CN114203256A (zh) * | 2022-02-18 | 2022-03-18 | 上海仁东医学检验所有限公司 | 基于微生物丰度的mibc分型及预后预测模型构建方法 |
CN114807377A (zh) * | 2022-06-29 | 2022-07-29 | 南京世和基因生物技术股份有限公司 | 膀胱癌预后生存期标志物的应用、评估装置以及计算机可读取介质 |
CN116798632A (zh) * | 2023-07-13 | 2023-09-22 | 山东第一医科大学附属省立医院(山东省立医院) | 一种基于代谢基因的胃癌分子分型及预后预测模型构建方法及应用 |
CN116798632B (zh) * | 2023-07-13 | 2024-04-30 | 山东第一医科大学附属省立医院(山东省立医院) | 一种基于代谢基因的胃癌分子分型及预后预测模型构建方法及应用 |
CN116798646A (zh) * | 2023-08-17 | 2023-09-22 | 四川互慧软件有限公司 | 基于聚类算法的蛇伤预后预测方法、装置及电子设备 |
CN116798646B (zh) * | 2023-08-17 | 2023-11-24 | 四川互慧软件有限公司 | 基于聚类算法的蛇伤预后预测方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109797221A (zh) | 一种用于对肌层浸润性膀胱癌进行分子分型和/或预后预测的生物标记物组合及其应用 | |
Yao et al. | Whole slide images based cancer survival prediction using attention guided deep multiple instance learning networks | |
Xu et al. | Circulating tumour DNA methylation markers for diagnosis and prognosis of hepatocellular carcinoma | |
CN107574243B (zh) | 分子标志物、内参基因及其应用、检测试剂盒以及检测模型的构建方法 | |
CN110706749B (zh) | 一种基于组织器官分化层次关系的癌症类型预测系统和方法 | |
US20220390451A1 (en) | Single cell genomic profiling of circulating tumor cells (ctcs) in metastatic disease to characterize disease heterogeneity | |
Woodward et al. | Genomic and expression analysis of microdissected inflammatory breast cancer | |
Phan et al. | Multiscale integration of-omic, imaging, and clinical data in biomedical informatics | |
CN105154542B (zh) | 一组用于肺癌分子分型的基因及其应用 | |
CN108588230B (zh) | 一种用于乳腺癌诊断的标记物及其筛选方法 | |
Cho et al. | Feasibility of fully automated classification of whole slide images based on deep learning | |
CN106156541B (zh) | 分析个体两类状态的免疫差异的方法和装置 | |
CN114203256B (zh) | 基于微生物丰度的mibc分型及预后预测模型构建方法 | |
Tian et al. | A five-gene-based prognostic signature for hepatocellular carcinoma | |
Men et al. | A prognostic 11 genes expression model for ovarian cancer | |
CN107760688A (zh) | 一种brca2基因突变体及其应用 | |
Jørgensen et al. | Untangling the intracellular signalling network in cancer—A strategy for data integration in acute myeloid leukaemia | |
CN115424728A (zh) | 一种肿瘤恶性细胞基因预后风险模型构建方法 | |
WO2015117210A1 (en) | Process, apparatus or system and kit for classification of tumor samples of unknown and/or uncertain origin and use of genes of the group of biomarkers | |
Wang et al. | Systematic benchmarking of imaging spatial transcriptomics platforms in FFPE tissues | |
CN105624276B (zh) | 子宫内膜样腺癌预后相关基因和蛋白及其应用 | |
CN112382341A (zh) | 一种用于鉴定食管鳞癌预后相关的生物标志物的方法 | |
CN111172285A (zh) | 用于胰腺癌早期诊断和/或预后监测的miRNA组及其应用 | |
CN115472294B (zh) | 预测小细胞转化肺腺癌患者转化速度的模型及其构建方法 | |
Xue et al. | Preoperative Prediction of BRAF Mutation Status in Colorectal Cancer Using a Clinical-radiomics Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190524 |