CN115588507A - 一种肺腺癌emt相关基因的预后模型及构建方法和应用 - Google Patents
一种肺腺癌emt相关基因的预后模型及构建方法和应用 Download PDFInfo
- Publication number
- CN115588507A CN115588507A CN202211075009.XA CN202211075009A CN115588507A CN 115588507 A CN115588507 A CN 115588507A CN 202211075009 A CN202211075009 A CN 202211075009A CN 115588507 A CN115588507 A CN 115588507A
- Authority
- CN
- China
- Prior art keywords
- gene
- lung adenocarcinoma
- nucleic acid
- expression level
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 76
- 208000010507 Adenocarcinoma of Lung Diseases 0.000 title claims abstract description 55
- 201000005249 lung adenocarcinoma Diseases 0.000 title claims abstract description 55
- 238000004393 prognosis Methods 0.000 title claims abstract description 23
- 238000010276 construction Methods 0.000 title abstract description 9
- 230000014509 gene expression Effects 0.000 claims abstract description 43
- 230000007705 epithelial mesenchymal transition Effects 0.000 claims abstract description 31
- 230000004083 survival effect Effects 0.000 claims abstract description 21
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 13
- 150000007523 nucleic acids Chemical class 0.000 claims description 24
- 108020004707 nucleic acids Proteins 0.000 claims description 14
- 102000039446 nucleic acids Human genes 0.000 claims description 14
- 238000012216 screening Methods 0.000 claims description 12
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 10
- 102100035784 Decorin Human genes 0.000 claims description 9
- 101001000206 Homo sapiens Decorin Proteins 0.000 claims description 9
- 101001043352 Homo sapiens Lysyl oxidase homolog 2 Proteins 0.000 claims description 9
- 101001011906 Homo sapiens Matrix metalloproteinase-14 Proteins 0.000 claims description 9
- 101000595907 Homo sapiens Procollagen-lysine,2-oxoglutarate 5-dioxygenase 2 Proteins 0.000 claims description 9
- 101000620365 Homo sapiens Protein TMEPAI Proteins 0.000 claims description 9
- 101000800055 Homo sapiens Testican-1 Proteins 0.000 claims description 9
- 102100021948 Lysyl oxidase homolog 2 Human genes 0.000 claims description 9
- 102100030216 Matrix metalloproteinase-14 Human genes 0.000 claims description 9
- 102100035198 Procollagen-lysine,2-oxoglutarate 5-dioxygenase 2 Human genes 0.000 claims description 9
- 102100022429 Protein TMEPAI Human genes 0.000 claims description 9
- 102100033390 Testican-1 Human genes 0.000 claims description 9
- 201000011510 cancer Diseases 0.000 claims description 9
- 238000000611 regression analysis Methods 0.000 claims description 9
- 238000000034 method Methods 0.000 claims description 6
- 101150030537 DCN gene Proteins 0.000 claims description 5
- 101150043981 LOXL2 gene Proteins 0.000 claims description 5
- 101100190831 Xenopus laevis pmepa1 gene Proteins 0.000 claims description 5
- 101150077559 pmepa1 gene Proteins 0.000 claims description 5
- 238000003559 RNA-seq method Methods 0.000 claims description 4
- 238000010200 validation analysis Methods 0.000 claims description 4
- 238000003745 diagnosis Methods 0.000 claims description 3
- 238000010195 expression analysis Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims 1
- 238000012360 testing method Methods 0.000 abstract description 5
- 238000013211 curve analysis Methods 0.000 abstract description 4
- 230000002596 correlated effect Effects 0.000 abstract description 3
- 238000001514 detection method Methods 0.000 abstract description 2
- 108700026220 vif Genes Proteins 0.000 abstract description 2
- 238000011337 individualized treatment Methods 0.000 abstract 1
- 210000001519 tissue Anatomy 0.000 description 12
- 210000004027 cell Anatomy 0.000 description 8
- 238000013103 analytical ultracentrifugation Methods 0.000 description 7
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 4
- 238000011088 calibration curve Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 201000005202 lung cancer Diseases 0.000 description 4
- 208000020816 lung neoplasm Diseases 0.000 description 4
- 206010027476 Metastases Diseases 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011529 RT qPCR Methods 0.000 description 2
- 238000001574 biopsy Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000556 factor analysis Methods 0.000 description 2
- 230000009401 metastasis Effects 0.000 description 2
- 238000003762 quantitative reverse transcription PCR Methods 0.000 description 2
- 230000036962 time dependent Effects 0.000 description 2
- 206010003445 Ascites Diseases 0.000 description 1
- 102000000905 Cadherin Human genes 0.000 description 1
- 108050007957 Cadherin Proteins 0.000 description 1
- 206010036790 Productive cough Diseases 0.000 description 1
- 210000001744 T-lymphocyte Anatomy 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 210000003719 b-lymphocyte Anatomy 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000001772 blood platelet Anatomy 0.000 description 1
- 210000001124 body fluid Anatomy 0.000 description 1
- 210000001185 bone marrow Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 210000001175 cerebrospinal fluid Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000002889 endothelial cell Anatomy 0.000 description 1
- 210000002919 epithelial cell Anatomy 0.000 description 1
- 210000003743 erythrocyte Anatomy 0.000 description 1
- 210000003722 extracellular fluid Anatomy 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 230000004547 gene signature Effects 0.000 description 1
- 210000003958 hematopoietic stem cell Anatomy 0.000 description 1
- 210000000265 leukocyte Anatomy 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 210000002751 lymph Anatomy 0.000 description 1
- 210000004698 lymphocyte Anatomy 0.000 description 1
- 210000002540 macrophage Anatomy 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001394 metastastic effect Effects 0.000 description 1
- 206010061289 metastatic neoplasm Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000004899 motility Effects 0.000 description 1
- 210000003097 mucus Anatomy 0.000 description 1
- 238000000491 multivariate analysis Methods 0.000 description 1
- 210000000440 neutrophil Anatomy 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 210000002381 plasma Anatomy 0.000 description 1
- 210000004910 pleural fluid Anatomy 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000241 respiratory effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 210000003296 saliva Anatomy 0.000 description 1
- 238000007790 scraping Methods 0.000 description 1
- 210000000582 semen Anatomy 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 210000003802 sputum Anatomy 0.000 description 1
- 208000024794 sputum Diseases 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 210000004243 sweat Anatomy 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
- 210000001179 synovial fluid Anatomy 0.000 description 1
- 239000003104 tissue culture media Substances 0.000 description 1
- 210000004881 tumor cell Anatomy 0.000 description 1
- 238000007473 univariate analysis Methods 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/118—Prognosis of disease development
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/158—Expression markers
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Public Health (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Pathology (AREA)
- Analytical Chemistry (AREA)
- Organic Chemistry (AREA)
- Molecular Biology (AREA)
- Biotechnology (AREA)
- Genetics & Genomics (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Epidemiology (AREA)
- Immunology (AREA)
- Theoretical Computer Science (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Biochemistry (AREA)
- Primary Health Care (AREA)
- Evolutionary Biology (AREA)
- Microbiology (AREA)
- Library & Information Science (AREA)
- General Engineering & Computer Science (AREA)
- Oncology (AREA)
- Hospice & Palliative Care (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种肺腺癌EMT相关基因的预后模型及构建方法和应用,属于肿瘤标志物和生物医学检测技术领域。针对上皮间充质转化相关基因在肺腺癌中的表达和预后进行分析存在空白的问题,基于6个上皮间充质转化相关基因可预测肺腺癌患者的总体生存率的预后模型。本发明建立了具有6个基因的预后模型,并将患者分为高、低风险组。在训练队列中患者的风险评分与OS显著相关(P<0.001)。ROC曲线分析显示,在1年,3年和5年随访中,AUC分别为0.685,0.705和0.620。预测性能已在测试集中得到验证。本发明的模型在肺腺癌的个体化治疗中具有潜在临床价值。
Description
技术领域
本发明属于肿瘤标志物和生物医学检测技术领域,具体涉及一种肺腺癌 EMT相关基因的预后模型及构建方法和应用。
背景技术
肺癌是全球癌症死亡的主要原因,肺腺癌(LUAD)是肺癌的主要亚型,约占所有肺癌病例的40%,具有高侵袭性、快速转移扩散的特点,其5年生存率仅为16%。
由于转移而导致的癌细胞扩散是原发性肺癌患者死亡的主要原因。在癌症进程中,肿瘤细胞会经过一系列动态和可逆的细胞表型变化,上皮-间充质转化 (EMT)是上皮细胞通过特定程序转变为间充质细胞的形态学过程,从而获得间充质细胞的特征如运动性和侵袭性,是驱动肿瘤转移过程的重要机制。E-钙粘蛋白的缺失是EMT的重要标志。已有相关研究表明,EMT与包括LUAD在内的多种恶性肿瘤侵袭-转移级联过程中发挥着重要的作用。因此有必要对EMT相关基因在肺腺癌中的表达和预后进行分析,基于EMT相关基因的预后模型开发可能有助于预测LUAD患者的OS。
发明内容
针对上皮间充质转化相关基因在肺腺癌中的表达和预后进行分析存在空白的问题,本发明提供了一种肺腺癌EMT相关基因的预后模型及构建方法和应用。
为了达到上述目的,本发明采用了下列技术方案:
一种肺腺癌EMT相关基因的预后模型,所述模型中风险评分基因包括: DCN、LOXL2、MMP14、PLOD2、PMEPA1、SPOCK1;
其中,n为预后基因数,expi为基因i的表达值,βi为基因i的回归系数;
风险评分=(-0.282*DCN基因表达水平)+(0.105*LOXL2基因表达水平) +(0.041*MMP14基因表达水平)+(0.071*PLOD2基因表达水平)+ (0.149*PMEPA1基因表达水平)+(0.03*SPOCK1基因表达水平)。
进一步,所述“DCN”,指编码所有或部分DCN蛋白或与所有或部分的核酸序列或其类似物近似相同的核酸,其Gene ID为1634;
所述“LOXL2”,指编码所有或部分LOXL2蛋白或与所有或部分的核酸序列或其类似物近似相同的核酸,其Gene ID为4017;
所述“MMP14”,指编码所有或部分MMP14蛋白或与所有或部分的核酸序列或其类似物近似相同的核酸,其Gene ID为4323;
所述“PLOD2”,指编码所有或部分PLOD2蛋白或与所有或部分的核酸序列或其类似物近似相同的核酸,其Gene ID为5352;
所述“PMEPA1”,指编码所有或部分PMEPA1蛋白或与所有或部分的核酸序列或其类似物近似相同的核酸,其Gene ID为56937;
所述“SPOCK1”,指编码所有或部分SPOCK1蛋白或与所有或部分的核酸序列或其类似物近似相同的核酸,其Gene ID为6695。
一种肺腺癌EMT相关基因的预后模型的构建方法,包括以下步骤:
步骤1,从癌症基因组图谱数据库TCGA中下载标准化的RNA-seq数据集和临床数据,筛选生存时间>90天同时有生存状态和临床信息的肺腺癌样本,作为训练集;从GEO数据库GSE72094队列下载肺腺癌样本标准化的RNA-seq数据集和临床数据,作为验证集;
步骤2,从分子特征数据库(MSigDBv.7.4)获取上皮间充质转化相关基因,使用R软件中的“limma”包进行差异表达分析,分析出训练集中差异表达的上皮间充质转化相关基因(ERGs),差异基因的筛选标准为adj.Pvalue<0.5, |log2FC|>0.32;使用Cox回归分析对差异基因对进行预后分析,P<0.05作为筛选预后相关基因的截止值;
步骤3,使用初始候选预后相关的上皮间充质转化相关基因(ERGs),在训练集中进行最小绝对收缩和选择算子(LASSO)回归分析,
风险评分表示为:
其中,n为预后基因数,expi为基因i的表达值,βi为基因i的回归系数;
筛选出构建风险评分模型的基因,包括:DCN、LOXL2、MMP14、PLOD2、PMEPA1、SPOCK1;
构建出风险评分模型;
风险评分=(-0.282*DCN基因表达水平)+(0.105*LOXL2基因表达水平) +(0.041*MMP14基因表达水平)+(0.071*PLOD2基因表达水平)+ (0.149*PMEPA1基因表达水平)+(0.03*SPOCK1基因表达水平)。
步骤4,使用每个基因的系数计算个体化的风险评分,并通过中位风险评分将肺腺癌患者分为高风险组与低风险组;使用ROC计算在多个时间点曲线下面积AUC,以评估预后模型辨别能力;然后在验证集中使用相同风险评分公式和临界值验证模型的准确性。
一种肺腺癌EMT相关基因的预后模型在肺腺癌总体生存率诊断或辅助诊断的产品中的应用。
所述“样本”可以包括但不限于,单个细胞或多个细胞、细胞层、组织活检物、切除的组织、组织提取物、组织、组织培养提取物、组织培养介质、呼出的气体、全血、血小板、血清、血浆、红细胞、白细胞、淋巴细胞、中性粒细胞、巨噬细胞、B细胞或者其子集、T细胞或者其子集、造血细胞的子集、内皮细胞、滑液、淋巴液、腹水液、组织间液、骨髓、脑脊液、胸腔积液、肿瘤浸润物、唾液、黏液、痰、精液、汗水、尿、或任何其他体液。样本可以通过下列手段从对象获得,所述手段包括,但不限于,静脉穿刺、排泄、活组织检查、针刺抽吸、灌洗、刮擦、手术切除、或本领域中已知的其他手段。
本发明使用EMT相关的基因(EMT related gene,ERG)开发一种实用性强的预后模型,以估计肺腺癌的总体生存期(overall survival,OS)。本发明分析了来自癌症基因组图谱(TCGA)中肺腺癌患者的基因表达谱共283例,作为训练集。从分子特征数据库(MSigDBv.7.4)下载200个ERG。基于TCGA数据集鉴定差异表达的ERG(DE-ERG),对差异的基因使用单变量Cox回归分析和LASSO 回归分析确定和生存相关的基因并构建风险评分模型,建立了具有6个ERG的预后模型。基于6个ERG的表达水平及相关系数,计算每个肺腺癌患者的风险评分,根据风险评分中位数的大小将肺腺癌患者分为高、低风险组。在训练队列中肺腺癌患者的风险评分与OS显著相关(P<0.001)。ROC曲线分析显示,在1年,3年和5年随访中,AUC分别为0.685,0.705和0.620。从GEO数据库 GSE72094队列中下载的310例肺腺癌样本作为测试集,根据训练集中得到的分组截止值将患者同样分为高、低风险组,风险评分与OS显著相关(P<0.001), ROC曲线分析显示1年、3年、5年的AUC值分别为0.621,0.670和0.878,预测性能在测试集中得到了验证。多因素分析表明,风险评分是肺腺癌患者的独立预后因素。最后,通过结合临床特征和风险评分构建诺模图,以预测肺腺癌癌患者的生存可能性。校准曲线评估列线图预测与实际观测之间的一致性,验证了诺模图预测与实际观测之间具有良好的一致性。基于6个ERG的风险评分可以很好地将肺腺癌患者分为高危、低危人群,有助于临床治疗方案的选择。
与现有技术相比本发明具有以下优点:
本发明建立了具有6个ERG的预后模型,并将肺腺癌患者分为高、低风险组。在训练队列中肺腺癌患者的风险评分与OS显著相关(P<0.001)。ROC曲线分析显示,在1年,3年和5年随访中,AUC分别为0.685、0.705和0.620。预测性能已在测试集中得到验证。
本发明还提供了前面所述的风险评分模型在制备预测肺腺癌预后的产品中的应用。
根据前面所述的构建方法获得的肺腺癌预后模型在制备预测肺腺癌预后的产品中的应用。
附图说明
图1为差异表达的EMT相关基因示意图;
图2表示在训练集中基于ERG开发预后模型示意图(图2中(A)单因素 COX回归分析预后相关的DE-ERG;(B-C)通过LASSO分析确定了6个ERG; (D)基于预后模型的肺腺癌风险评分分布和生存状况;(E)高低风险组的生存曲线图;(F)6个ERG构建预后模型的时间依赖性ROC曲线);
图3表示在验证集中验证基于ERG开发的预后模型示意图(图3中(A) 高低风险组的生存曲线图;(B)6个ERG构建预后模型的时间依赖性ROC曲 线);
图4为预后因素的单变量和多变量分析;
图5为构建生存预测的诺模图;
图6为显示诺模图精确度的校准曲线;
图7为肺腺癌组织与癌旁组织预后模型构建基因的RT-qPCR结果示意图。
具体实施方式
以下通过具体的实施例进一步说明本发明的技术方案,具体实施例不代表对本发明保护范围的限制。其他人根据本发明理念所做出的一些非本质的修改和调整仍属于本发明的保护范围。
实施例1筛选肺腺癌预后相关基因
1、数据下载和预处理
在癌症基因组图谱数据库(TCGA)下载肺腺癌患者和正常肺组织样本的基因表达数据。从UCSC Xena数据门户网站(https://xenabrowser.net/datapages/)获取截至2021年11月10日的283例TCGA-LUAD肿瘤标本和58个正常组织的相关临床信息。GEO数据库GSE72094
队列中包括310例患者数据和相应的临床信息。将基因表达(FPKM)谱转换成log2(TPM+1)进行标准化。上皮间充质转化相关基因(ERGs)来自分子特征数据库(MsigDBv.7.4)。TCGA队列作为训练集,GSE72094队列作为测试集。
2、筛选预后相关的上皮间充转化基因
使用R软件中的“limma”包进行差异表达分析,分析在283个肿瘤组织和58个正常组织中差异表达的ERGs,差异基因的筛选标准为adj.Pvalue<0.5, |log2FC|>0.32。鉴定出149个ERGs。
3、单因素Cox分析
对鉴定出的显著表达的149个差异表达基因进行单因素Cox分析,P<0.05 的基因被认为是对肺腺癌患者的生存有影响。鉴定出6个基因。
4、LASSO Cox分析
基因鉴定出的6个基因,进行LASSO Cox回归分析,确定了6个基因组成预后genesignature用于构建风险评分模型。根据公式计算每个样本的风险评分,根据风险评分的中位数,将所有样本分为高风险组与低风险组。
注:风险评分的计算公式,n为预后基因数,expi为基因i的表达值,βi为基因i的回归系数。
最终筛选确定的用于构建风险评分模型的基因包括以下六个基因:DCN、 LOXL2、MMP14、PLOD2、PMEPA1、SPOCK1。
风险评分=(-0.282*DCN基因表达水平)+(0.105*LOXL2基因表达水平) +(0.041*MMP14基因表达水平)+(0.071*PLOD2基因表达水平)+ (0.149*PMEPA1基因表达水平)+(0.03*SPOCK1基因表达水平)。
生存分析结果表明,高风险组患者的生存时间明显短于低风险组(图2E)。为了评估由6个基因组成的预后模型在预测肺腺癌预后的准确性,进行了1年、 3年和5年受试者工作特征(ROC)曲线分析,比较各自的AUC值。结果表明, 1年、3年和5年的AUC分别是0.685,0.705和0.620(图2F)。AUC值表明,由6个基因组成的预后模型对肺腺癌细胞癌患者的预后具有较好的区分性能。
5、风险评分作为肺腺癌患者的独立预后因素
为了进一步探讨风险评分是否可以作为独立的临床预后因子,将单变量和多变量Cox比例风险回归分析应用于TCGA队列。由(图4)可知,在TCGA 队列中,单因素分析发现风险评分、T、N和分期是肺腺癌患者总生存率的风险因子,多因素分析发现风险评分仍然是肺腺癌患者总生存率的独立预后因素(HR =2.465[1.435-4.233],p<0.05)(图3)。因此,风险评分作为肺腺癌患者的独立预后因素。
6、诺模图预测肺腺癌样本的预后
基于上述得出的两个独立预后因素,构建了包括N病理分期和风险评分在内的诺模图(图5),并绘制了诺模图的校准曲线(图6)。通过校准曲线可以看出,该诺模图,即两个因素的组合模型,预测生存率的效果比较可观。
收集就诊于山西省肿瘤医院行肺腺癌外科手术切除的组织标本及癌旁组织样本,进行RT-qPCR验证上述六个模型构建基因的表达水平,结果如图7所示。
本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (4)
2.根据权利要求1所述的肺腺癌EMT相关基因的预后模型,其特征在于:所述“DCN”,指编码所有或部分DCN蛋白或与所有或部分的核酸序列或其类似物近似相同的核酸,其GeneID为1634;所述“LOXL2”,指编码所有或部分LOXL2蛋白或与所有或部分的核酸序列或其类似物近似相同的核酸,其Gene ID为4017;所述“MMP14”,指编码所有或部分MMP14蛋白或与所有或部分的核酸序列或其类似物近似相同的核酸,其Gene ID为4323;所述“PLOD2”,指编码所有或部分PLOD2蛋白或与所有或部分的核酸序列或其类似物近似相同的核酸,其GeneID为5352;所述“PMEPA1”,指编码所有或部分PMEPA1蛋白或与所有或部分的核酸序列或其类似物近似相同的核酸,其Gene ID为56937;所述“SPOCK1”,指编码所有或部分SPOCK1蛋白或与所有或部分的核酸序列或其类似物近似相同的核酸,其Gene ID为6695。
3.根据权利要求1所述的一种肺腺癌EMT相关基因的预后模型的构建方法,其特征在于:包括以下步骤:
步骤1,从癌症基因组图谱数据库TCGA中下载标准化的RNA-seq数据集和临床数据,筛选生存时间>90天同时有生存状态和临床信息的肺腺癌样本,作为训练集;从GEO数据库GSE72094队列下载肺腺癌样本标准化的RNA-seq数据集和临床数据,作为验证集;
步骤2,从分子特征数据库获取上皮间充质转化相关基因,使用R软件中的“limma”包进行差异表达分析,分析出训练集中差异表达的上皮间充质转化相关基因,差异基因的筛选标准为adj.Pvalue<0.5,|log2FC|>0.32;使用Cox回归分析对差异基因对进行预后分析,P<0.05作为筛选预后相关基因的截止值;
步骤3,使用初始候选预后相关的上皮间充质转化相关基因,在训练集中进行最小绝对收缩和选择算子回归分析,
风险评分表示为:
其中,n为预后基因数,expi为基因i的表达值,βi为基因i的回归系数;
筛选出构建风险评分模型的基因,包括:DCN、LOXL2、MMP14、PLOD2、PMEPA1、SPOCK1;
构建出风险评分模型;
风险评分=(-0.282*DCN基因表达水平)+(0.105*LOXL2基因表达水平)+(0.041*MMP14基因表达水平)+(0.071*PLOD2基因表达水平)+(0.149*PMEPA1基因表达水平)+(0.03*SPOCK1基因表达水平)。
步骤4,使用每个基因的系数计算个体化的风险评分,并通过中位风险评分将肺腺癌患者分为高风险组与低风险组;使用ROC计算在多个时间点曲线下面积AUC,以评估预后模型辨别能力;然后在验证集中使用相同风险评分公式和临界值验证模型的准确性。
4.一种如权利要求1或2所述的肺腺癌EMT相关基因的预后模型在肺腺癌总体生存率诊断或辅助诊断的产品中的应用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211075009.XA CN115588507A (zh) | 2022-09-02 | 2022-09-02 | 一种肺腺癌emt相关基因的预后模型及构建方法和应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211075009.XA CN115588507A (zh) | 2022-09-02 | 2022-09-02 | 一种肺腺癌emt相关基因的预后模型及构建方法和应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115588507A true CN115588507A (zh) | 2023-01-10 |
Family
ID=84771241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211075009.XA Withdrawn CN115588507A (zh) | 2022-09-02 | 2022-09-02 | 一种肺腺癌emt相关基因的预后模型及构建方法和应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115588507A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116313062A (zh) * | 2023-05-18 | 2023-06-23 | 四川省肿瘤医院 | 一种肺腺癌预后模型 |
CN116844685A (zh) * | 2023-07-03 | 2023-10-03 | 广州默锐医药科技有限公司 | 一种免疫治疗效果评估方法、装置、电子设备及存储介质 |
CN116895333A (zh) * | 2023-07-06 | 2023-10-17 | 南通大学 | 一种肝细胞癌溶酶体相关基因预后模型及其构建方法和应用 |
CN116959554A (zh) * | 2023-07-10 | 2023-10-27 | 中山大学孙逸仙纪念医院 | 一种基于CAFs相关基因的前列腺癌生化复发预测模型及其应用 |
CN117637027A (zh) * | 2024-01-26 | 2024-03-01 | 南通大学附属医院 | 外泌体circRNAs诊断早期肺腺癌的效率评估方法 |
CN118398088A (zh) * | 2024-05-29 | 2024-07-26 | 电子科技大学 | 一种用于胶质瘤上皮间充质转化相关的生存预测方法 |
-
2022
- 2022-09-02 CN CN202211075009.XA patent/CN115588507A/zh not_active Withdrawn
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116313062A (zh) * | 2023-05-18 | 2023-06-23 | 四川省肿瘤医院 | 一种肺腺癌预后模型 |
CN116313062B (zh) * | 2023-05-18 | 2023-07-21 | 四川省肿瘤医院 | 一种肺腺癌预后模型 |
CN116844685A (zh) * | 2023-07-03 | 2023-10-03 | 广州默锐医药科技有限公司 | 一种免疫治疗效果评估方法、装置、电子设备及存储介质 |
CN116844685B (zh) * | 2023-07-03 | 2024-04-12 | 广州默锐医药科技有限公司 | 一种免疫治疗效果评估方法、装置、电子设备及存储介质 |
CN116895333A (zh) * | 2023-07-06 | 2023-10-17 | 南通大学 | 一种肝细胞癌溶酶体相关基因预后模型及其构建方法和应用 |
CN116959554A (zh) * | 2023-07-10 | 2023-10-27 | 中山大学孙逸仙纪念医院 | 一种基于CAFs相关基因的前列腺癌生化复发预测模型及其应用 |
CN117637027A (zh) * | 2024-01-26 | 2024-03-01 | 南通大学附属医院 | 外泌体circRNAs诊断早期肺腺癌的效率评估方法 |
CN117637027B (zh) * | 2024-01-26 | 2024-03-29 | 南通大学附属医院 | 外泌体circRNAs诊断早期肺腺癌的效率评估方法 |
CN118398088A (zh) * | 2024-05-29 | 2024-07-26 | 电子科技大学 | 一种用于胶质瘤上皮间充质转化相关的生存预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115588507A (zh) | 一种肺腺癌emt相关基因的预后模型及构建方法和应用 | |
CN109897899B (zh) | 一种用于局部晚期食管鳞癌预后判断的标志物及其应用 | |
CN109830264B (zh) | 肿瘤患者基于甲基化位点进行分类的方法 | |
CN115482880A (zh) | 一种头颈鳞癌糖酵解相关基因预后模型及构建方法和应用 | |
CN114203256B (zh) | 基于微生物丰度的mibc分型及预后预测模型构建方法 | |
CN113517073B (zh) | 肺癌手术后生存率预测模型构建方法和预测模型系统 | |
CN113066585A (zh) | 一种基于免疫基因表达特征谱对ⅱ期结直肠癌患者预后进行高效快捷评估的方法 | |
CN110760585B (zh) | 前列腺癌生物标志物及其应用 | |
CN115094142B (zh) | 用于诊断肺肠型腺癌的甲基化标志物 | |
CN115497552A (zh) | 一种基于内质网应激特征基因的胃癌预后风险模型和应用 | |
US20210215700A1 (en) | Personalized treatment of pancreatic cancer | |
CN115472217A (zh) | 用于预测胰腺癌患者预后系统 | |
CN110570951A (zh) | 构建乳腺癌新辅助化疗疗效分类模型的方法 | |
CN112037863B (zh) | 一种早期nsclc预后预测系统 | |
CN113584175A (zh) | 一组评估肾乳头状细胞癌进展风险的分子标记及其筛选方法和应用 | |
CN113345589A (zh) | 肝癌预后模型的构建方法及应用方法、电子设备 | |
CN113436673A (zh) | 一种用于肝癌预后预测的分子标志物及其应用 | |
CN113470813A (zh) | 肝癌患者生存率预后模型 | |
CN113811621A (zh) | 确定rcc亚型的方法 | |
CN116189904A (zh) | 一种分化型甲状腺癌的基因甲基化诊断模型及其构建方法 | |
CN116092674A (zh) | 外泌体介导的胃癌总体生存率预后模型及构建方法和应用 | |
US20240194294A1 (en) | Artificial-intelligence-based method for detecting tumor-derived mutation of cell-free dna, and method for early diagnosis of cancer, using same | |
CN110408706A (zh) | 一种评估鼻咽癌复发的生物标志物及其应用 | |
CN115505644A (zh) | 一种预测头颈部鳞癌化疗药效的试剂盒及其应用 | |
CN113470754A (zh) | 一种用于肿瘤预后评估的基因标志物、评估产品及应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20230110 |
|
WW01 | Invention patent application withdrawn after publication |