CN114875149A - 检测生物标志物的试剂在制备预测胃癌预后产品中的应用 - Google Patents

检测生物标志物的试剂在制备预测胃癌预后产品中的应用 Download PDF

Info

Publication number
CN114875149A
CN114875149A CN202210626439.XA CN202210626439A CN114875149A CN 114875149 A CN114875149 A CN 114875149A CN 202210626439 A CN202210626439 A CN 202210626439A CN 114875149 A CN114875149 A CN 114875149A
Authority
CN
China
Prior art keywords
cancer
prognosis
gene
risk model
biomarker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210626439.XA
Other languages
English (en)
Inventor
张红梅
王祥旭
武李红
邓世洲
纪洪辰
白引苗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Air Force Medical University of PLA
Original Assignee
Air Force Medical University of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Air Force Medical University of PLA filed Critical Air Force Medical University of PLA
Priority to CN202210626439.XA priority Critical patent/CN114875149A/zh
Publication of CN114875149A publication Critical patent/CN114875149A/zh
Priority to CN202310630945.0A priority patent/CN116644317A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Genetics & Genomics (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了检测生物标志物试剂在制备预测胃癌预后产品中的应用,具体的涉及与铜死亡相关的胃癌预后生物标志物ANKRD22、RAB3IL1、C7、PDZRN4、ITGBL1、LRRC32、COL6A3、CDH11、FSTL1、CH25H、TCF4、PRICKLE1、PLOD2、RHOBTB3和/或PROS1,同时基于所述生物标志物构建的预测癌症预后风险模型CuPS和/或Cg‑score,可用于预测胃癌患者的生存期/预后。

Description

检测生物标志物的试剂在制备预测胃癌预后产品中的应用
技术领域
本发明属于生物医药领域,涉及检测生物标志物的试剂在制备预测胃癌预后产品中的应用。
背景技术
胃癌是全世界常见的恶性肿瘤,其发病率位居恶性肿瘤的第5位,且每年全球新增的胃癌病例中超过40%来自中国。胃癌在早期通常无任何症状,部分患者确诊时已处于晚期,其生存率仅为24%(唐永曜,宋晶,缪诗琪,蔡璟,宋方洲.综合生物信息学分析鉴定与胃癌预后相关关键基因[J].陆军军医大学学报,2022,44(06):522-532.)。治疗的基石是手术切除,在适当的情况下使用辅助化疗或放化疗可提高生存率,但晚期或转移性胃癌的治疗进展甚微,中位总生存期(OS)仍小于1年(Carcas L P.Gastric cancer review[J].Journal of carcinogenesis,2014,13.)。近年来开发出针对中晚期胃癌的一些靶向药物并批准用于临床,包括曲妥珠单抗(HER2阳性患者第一线)、雷莫西单抗(抗血管生成第二线)和nivolumab或pembrolizumab(抗PD-1第三线)药物。然而,胃癌患者总体预后仍然较差。因此,开发有效的生物标志物用于胃癌预后预测及作为靶向治疗的靶标具有重要的临床意义。
铜离子是生物体(细菌、动物及人类)必须的金属元素,其可作为必需酶的辅因子,在生命活动过程中发挥重要作用。正常生理状态下,铜离子在生物体内维持着较低浓度且保持动态平衡,当铜离子异常蓄积则可引起铜毒性,进而诱发细胞死亡。已有研究表明人类基因突变可导致体内铜稳态失衡而诱发多种疾病,铜稳态失衡可导致遗传性铜代谢障碍疾病,其在肿瘤发生和增殖中也起着重要作用。2022年3月,Peter Tsvetkov等提出了一种新型程序性细胞死亡即铜死亡。作者发现线粒体呼吸过程中TCA相关代谢物可参与调控铜死亡,经全基因组CRISPR-Cas9功能缺失筛选、验证及癌症依赖图谱分析等,发现铜离子可促使TCA中硫辛酰化蛋白异常寡聚化并可减少Fe-S簇蛋白含量,进而通过诱发蛋白质毒性应激反应导致铜死亡。铜死亡这一理念的提出,加深了人们对肿瘤中铜代谢调控的认识,但铜死亡在胃癌中的作用尚未清楚,因此探索铜死亡核心基因在胃癌预后中的应用为实现胃癌治疗和预后提供了新的手段和方向。
发明内容
为了弥补现有技术的不足,本发明通过研究铜死亡相关基因在胃癌中的应用,提供了可预测胃癌预后的生物标志物,通过生物标志物构建风险模型,用于预测胃癌预后。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一方面提供了检测样本中生物标志物的试剂在制备预测胃癌预后产品中的应用,所述生物志物包括AHCYL2、ANKRD6中的一种或两种。
进一步,所述生物标志物还包括PDGFRB。
进一步,所述生物标志物还包括ANKRD22、RAB3IL1、C7、PDZRN4、ITGBL1、LRRC32、COL6A3、CDH11、FSTL1、CH25H、TCF4、PRICKLE1、PLOD2、RHOBTB3、PROS1中的一种或多种。
进一步,所述试剂包括通过蛋白免疫技术、染料技术、核酸测序技术、核酸杂交技术、色谱技术、质谱技术检测样本中生物标志物表达水平的试剂。
进一步,所述样本包括外周血样本、血清样本、血浆样本、尿样本、唾液样本或组织样本。
本发明的第二方面提供了一种用于预测胃癌预后的产品,所述产品包括检测生物标志物的试剂;所述生物标志物包括AHCYL2、ANKRD6、PDGFRB、ANKRD22、RAB3IL1、C7、PDZRN4、ITGBL1、LRRC32、COL6A3、CDH11、FSTL1、CH25H、TCF4、PRICKLE1、PLOD2、RHOBTB3和/或PROS1。
进一步,所述生物标志物包括AHCYL2、ANKRD6中的一种或两种。
进一步,所述生物标志物还包括PDGFRB。
进一步,所述生物标志物还包括ANKRD22、RAB3IL1、C7、PDZRN4、ITGBL1、LRRC32、COL6A3、CDH11、FSTL1、CH25H、TCF4、PRICKLE1、PLOD2、RHOBTB3、PROS1中的一种或多种。
进一步,所述试剂包括识别所述生物标志物基因的探针;或扩增所述生物标志物基因的引物;或结合所述生物标志物蛋白的结合剂。
进一步,所述产品包括核酸膜条、芯片或试剂盒。
进一步,所述芯片包括基因芯片、蛋白芯片,所述基因芯片包括用于检测所述生物标志物基因转录水平的针对所述生物标志物基因的寡核苷酸探针,所述蛋白芯片包括所述生物标志物蛋白的特异性结合剂;所述试剂盒包括基因检测试剂盒、蛋白检测试剂盒,所述基因检测试剂盒包括用于检测所述生物标志物基因转录水平的试剂或芯片,所述蛋白检测试剂盒包括用于检测所述生物标志物蛋白表达水平的试剂或芯片。
进一步,所述试剂盒包括qPCR试剂盒、免疫印迹检测试剂盒、免疫层析检测试剂盒、流式细胞分析试剂盒、免疫组化检测试剂盒、ELISA试剂盒和电化学发光检测试剂盒。
本发明的第三方面提供了基于生物标志物的癌症预后风险模型的构建方法,所述方法包括:
获取铜死亡调控的关键基因;
获取癌症患者的生存和基因表达的数据;
基于铜死亡调控的关键基因的表达进行聚类分析,鉴定铜死亡调控模式,筛选得到铜死亡亚型;
筛选铜死亡亚型中差异表达基因;
筛选与预后显著相关的铜死亡亚型差异基因,构建癌症预后风险模型。
进一步,构建癌症预后风险模型的方法如下:
对筛选的与预后显著相关的铜死亡亚型差异基因进行Lasso Cox回归分析,得到与预后显著相关的铜死亡亚型差异表达基因;
多因素Cox风险回归分析得到与预后相关的铜死亡亚型差异表达核心基因;
根据核心基因,构建癌症预后风险模型。
进一步,构建癌症预后风险模型的方法如下:
基于得到的与预后显著相关的铜死亡亚型差异基因,通过PCA算法计算Cg-score,构建癌症预后风险模型。
进一步,所述风险模型的公式为Cg-score=∑(PC1i+PC2i);其中,Cg-score为癌症预后风险评分,i表示基因;当风险评分较高时,患者预后不良;当风险评分较低时,患者预后良好。
进一步,所述铜死亡调控的关键基因包括FDX1、LIPT1、LIAS、DLD、DLAT、PDHA1、PDHB、MTF1、GLS和/或CDKN2A。
进一步,癌症患者的生存和基因表达的数据来自TCGA和/或GEO数据库。
进一步,将癌症患者的生存和基因表达的数据分为训练集和测试集。
进一步,将癌症患者的生存和基因表达的数据分为训练集、测试集和独立验证集。
进一步,聚类分析选自无监督聚类分析。
进一步,无监督聚类分析使用“NMF”算法。
进一步,所述癌症为胃癌。
本发明第四方面提供了一种癌症预后风险模型CuPS,所述模型采用本发明第三方面所述的方法构建而成,以AHCYL2、ANKRD6和/或PDGFRB的表达水平作为输入变量。
进一步,所述预后风险模型的公式为
Figure BDA0003677805850000041
其中,CuPS为癌症预后风险评分,n为用于预测预后的基因数,expi为每个基因的mRNAi表达水平,Ci为每个基因的回归系数;当风险评分较高时,患者预后不良;当风险评分较低时,患者预后良好。
进一步,CuPS=-0.205*exp(AHCYL2)+0.231*exp(ANKRD6)+0.237*exp(PDGFRB)。
进一步,所述癌症为胃癌。
本发明第五方面提供了一种癌症预后风险模型Cg-score,所述癌症预后风险模型采用本发明第三方面所述的方法构建而成。
进一步,所述癌症为胃癌。
进一步,与预后显著相关的铜死亡亚型差异基因包括AHCYL2、ANKRD6、PDGFRB、ANKRD22、RAB3IL1、C7、PDZRN4、ITGBL1、LRRC32、COL6A3、CDH11、FSTL1、CH25H、TCF4、PRICKLE1、PLOD2、RHOBTB3和/或PROS1。
进一步,所述癌症为胃癌。
本发明第六方面提供了一种癌症预后风险模型,所述癌症预后风险模型由本发明第四方面所述的癌症预后风险模型CuPS联合本发明第五方面所述的癌症预后风险模型Cg-score构建而成。
本发明第七方面提供了如下任一项所述的产品:
1)一种用于预测胃癌预后的系统,所述系统包括:
数据获取模块,用于获取待测癌症患者的上述生物标志物基因AHCYL2、ANKRD6、PDGFRB、ANKRD22、RAB3IL1、C7、PDZRN4、ITGBL1、LRRC32、COL6A3、CDH11、FSTL1、CH25H、TCF4、PRICKLE1、PLOD2、RHOBTB3和/或PROS1的表达谱数据;
预测模块,用于将所述生物标志物基因表达谱数据作为输入提供给训练好的预测风险模型,所述预测风险模型被训练基于癌症患者的基因表达谱数据而对所述癌症患者的生存期进行预测;
预测结果获取模块,用于获取所述预测风险模型的输出,得到待测癌症患者的生存期预测结果。
进一步,所述预测风险模型为本发明第四至六方面任一方面所述的预后风险模型。
2)一种计算机设备,包括存储器和处理器,所述存储器存储有程序,所述处理器执行所述程序时实现如下方法:
获取待测癌症患者的上述生物标志物基因AHCYL2、ANKRD6、PDGFRB、ANKRD22、RAB3IL1、C7、PDZRN4、ITGBL1、LRRC32、COL6A3、CDH11、FSTL1、CH25H、TCF4、PRICKLE1、PLOD2、RHOBTB3和/或PROS1的表达谱数据;
将所述生物标志物基因表达谱数据作为输入提供给训练好的预测风险模型;
输出待测癌症患者的生存期预测结果。
进一步,所述预测风险模型为本发明第四至六方面任一方面所述的预后风险模型。
3)一种计算机可读存储介质,其上存储有程序,所述程序被执行时实现如下方法:
获取待测癌症患者上述生物标志物基因AHCYL2、ANKRD6、PDGFRB、ANKRD22、RAB3IL1、C7、PDZRN4、ITGBL1、LRRC32、COL6A3、CDH11、FSTL1、CH25H、TCF4、PRICKLE1、PLOD2、RHOBTB3和/或PROS1的表达谱数据;
将所述基因表达谱数据作为输入提供给训练好的预测风险模型;
输出待测癌症患者的生存期预测结果。
进一步,所述预测风险模型为本发明第四至六方面任一方面所述的预后风险模型。
进一步,1)、2)、3)任一项所述的癌症为胃癌。
本发明的优点和有益效果:
本发明通过铜死亡关键基因的表达,筛选与胃癌预后相关的特征基因作为生物标志物构建胃癌预后风险模型,该风险模型可以有效预测胃癌患者的预后情况,进而实现早干预早治疗。
附图说明
图1是铜死亡亚型差异基因韦恩图;
图2是GEO-meta、GSE84437和TCGA-STAD三个胃癌数据集中与预后显著相关的铜死亡亚型基因韦恩图;
图3是Lasso Cox回归分析图,其中图3A是λ下的置信区间图;图3B是每个自变量的变化轨迹图;
图4是与Lasso回归筛选的预后显著相关的铜死亡亚型差异表达基因的单因素Cox图;
图5是随CuPS增加的胃癌患者生存时间和生存状态分布图;其中,图5A是GEO-meta训练集中随CuPS增加的胃癌患者生存时间和生存状态分布图;图5B是GEO-meta测试集中随CuPS增加的胃癌患者生存时间和生存状态分布图;图5C是GSE84437独立验证集中随CuPS增加的胃癌患者生存时间和生存状态分布图;图5D是TCGA-STAD独立验证集中随CuPS增加的胃癌患者生存时间和生存状态分布图;
图6是CuPS预测胃癌患者预后生存曲线图;其中,图6A是GEO-meta训练集中CuPS预测胃癌预后生存曲线图;图6B是GEO-meta测试集中CuPS预测胃癌预后生存曲线图;图6C是GSE84437独立验证集中CuPS预测胃癌预后生存曲线图;图6D是TCGA-STAD独立验证集中CuPS预测胃癌预后生存曲线图;
图7是Cg亚型PCA聚类效果散点图;
图8是Cg-score预后风险模型预测胃癌患者预后生存曲线图;
图9是CuPS联合Cg-score预后风险模型预测胃癌患者预后生存曲线图。
具体实施方式
本发明通过广泛而深入的研究,基于铜死亡相关的关键基因,综合分析了1401例胃癌患者生存和基因表达数据,筛选出与胃癌预后相关的铜死亡关键基因作为胃癌预后的生物标志物,并基于生物标志物构建了胃癌预后风险模型CuPS、Cg-score,进一步验证了CuPS和/或Cg-score风险模型可用于胃癌预后预测。
在本发明中使用的“和/或”应被视对在具有或不具有另一者的情况下两种指定特征或组分中的每一种的具体公开。例如,“A和/或B”将被视为(i)A、(ii)B、以及(iii)A和B中的每一种的具体公开,就像每一种在本发明中单独列出一样。
生物标志物
本发明中使用的“生物标志物”是指以可用于预测个体的癌症状态的不同浓度存在于个体中的生物分子。生物标志物可包括但不限于核酸、蛋白质及其变体和片段。生物标志物可以是包含编码该生物标志物的全部或部分核酸序列或这类序列的互补体的DNA。可用于本发明的生物标志物核酸被认为包括包含任何目的核酸序列的全部或部分序列的DNA和RNA。
进一步,生物标志物以具有统计显著性(即p值小于0.05和/或q值小于0.10,如使用韦尔奇氏T检验(Welch's T-test)或Wilcoxon秩和检验(Wilcoxon's rank-sum Test)所确定)的水平差异地存在。
在本发明的具体实施方式中,所述生物标志物包括AHCYL2、ANKRD6、PDGFRB、ANKRD22、RAB3IL1、C7、PDZRN4、ITGBL1、LRRC32、COL6A3、CDH11、FSTL1、CH25H、TCF4、PRICKLE1、PLOD2、RHOBTB3和/或PROS1。
如本发明所用,术语“生物标志物”、“基因标志物”、“分子标志物”、“标志物基因”、“基因特征”和“特征基因”是可互换的,并且是指与取自对照受试者,例如患有不良预后的胃癌的受试者的可比较样本相比,在取自预后良好的胃癌的受试者的样本中差异存在的分子。因此,本发明的生物标志物提供有关胃癌的可能病程的信息,并与胃癌的预后相关联。
在一些实施方式中,基因特征能对个体的预后进行分类。如本发明所使用的,预后是指对医疗转归的预测,并且可以基于诸如1-3年总体存活率(1-3years Overallsurvival rate,OS)、无进展生存期(progression-free survival,PFS)、1-3年无进展生存期(1-5years PFS)、疾病进展时间(time to progress,TTP)、无病生存期(Disease-freesurvival,DFS)的度量,进而用于确定治疗或诊断工作时间表。
在一些实施方式中,如本领域技术人员所理解的,当胃癌预后基因特征由上述基因组成时,用于执行分析的方法可包括测量其它基因的表达(例如,用于归一化),但仅使用基因特征来分类个体。在本发明的一些实施方式中,所述基因选自包括但不限于灵长目动物(例如,人、猿、猴、黑猩猩)、啮齿动物(例如,小鼠、大鼠、豚鼠)、兔形目动物(例如,家兔、野兔)、牛科动物(例如,牛)、绵羊类动物(例如,绵羊)、山羊类动物(例如,山羊)、猪类动物(例如,猪)、马科动物(例如,马)、犬科动物(例如,狗)、猫科动物(例如,猫)、鸟类动物(例如,鸡;鸭;鹅;陪伴鸟类,诸如金丝雀、虎皮鹦鹉等)、海洋哺乳动物(例如,海豚、鲸鱼)、爬行动物(例如,蛇、青蛙、蜥蜴等)和鱼。优选的受试者是灵长目动物(例如,人、猿、猴、黑猩猩)。如本发明所优选的基因选自人。
AHCYL2基因:adenosylhomocysteinase like 2,以gene ID:23382在NCBI数据库中可以找到典型的智人mRNA和蛋白序列。
ANKRD6基因:ankyrin repeat domain 6,以gene ID:22881在NCBI数据库中可以找到典型的智人mRNA和蛋白序列。
PDGFRB基因:platelet derived growth factor receptor beta,以gene ID:5159在NCBI数据库中可以找到典型的智人mRNA和蛋白序列。
ANKRD22基因:ankyrin repeat domain 22,以gene ID:118932在NCBI数据库中可以找到典型的智人mRNA和蛋白序列。
RAB3IL1基因:RAB3Ainteracting protein like 1,以gene ID:5866在NCBI数据库中可以找到典型的智人mRNA和蛋白序列。
C7基因:complement C7,以gene ID:730在NCBI数据库中可以找到典型的智人mRNA和蛋白序列。
PDZRN4基因:PDZ domain containing ring finger 4,以gene ID:29951在NCBI数据库中可以找到典型的智人mRNA和蛋白序列。
ITGBL1基因:integrin subunit beta like 1,以gene ID:9358在NCBI数据库中可以找到典型的智人mRNA和蛋白序列。
LRRC32基因:leucine rich repeat containing 32,以gene ID:2615在NCBI数据库中可以找到典型的智人mRNA和蛋白序列。
COL6A3基因:collagen type VI alpha 3chain,以gene ID:1293在NCBI数据库中可以找到典型的智人mRNA和蛋白序列。
CDH11基因:cadherin 11,以gene ID:1009在NCBI数据库中可以找到典型的智人mRNA和蛋白序列。
FSTL1基因:follistatin like 1,以gene ID:11167在NCBI数据库中可以找到典型的智人mRNA和蛋白序列。
CH25H基因:cholesterol 25-hydroxylase,以gene ID:9023在NCBI数据库中可以找到典型的智人mRNA和蛋白序列。
TCF4基因:transcription factor 4,以gene ID:6925在NCBI数据库中可以找到典型的智人mRNA和蛋白序列。
PRICKLE1基因:prickle planar cell polarity protein 1,以gene ID:144165在NCBI数据库中可以找到典型的智人mRNA和蛋白序列。
PLOD2基因:procollagen-lysine,2-oxoglutarate 5-dioxygenase 2,以geneID:5352在NCBI数据库中可以找到典型的智人mRNA和蛋白序列。
RHOBTB3基因:Rho related BTB domain containing 3,以gene ID:22836在NCBI数据库中可以找到典型的智人mRNA和蛋白序列。
PROS1基因:protein S,以gene ID:5627在NCBI数据库中可以找到典型的智人mRNA和蛋白序列。
样本
本发明中使用的“样本”可以是指生物学样本,通常是临床样本,并且包括例如血液和其他体液,包括但不限于外周血、血清、血浆、尿液和唾液;以及实体组织样本,例如活检标本,尤其是那些包含癌细胞的样本。在某些实施方案中,血液样本如血清或血浆样本是要用于本发明中的优选的样本类型。通常,从受试者获得要分析的样本不是本发明预后方法的一部分。在本发明实施方案中的样本为组织样本。
术语“样本”还包括在购买后以任何适当方式已经操作或处理过的样本,包括但不限于离心、过滤、沉淀、透析、色谱、用试剂处理、洗涤或富集样本的某种组分,例如细胞群。
术语“表达水平”,同“生物标志物的表达水平”、“分子标志物的表达水平”、“标志物的表达水平”、“基因标志物的表达水平”、“标志分子的表达水平”,是指样本中本发明所述的生物标志物的mRNA表达水平、和/或样本中本发明所述的生物标志物编码的多肽和/或蛋白表达水平。
本发明可以使用本领域普通技术人员已知的多种核酸以及蛋白技术进行检测,这些技术包括但不限于:蛋白免疫技术、染料技术、核酸测序技术、核酸杂交技术、色谱技术、质谱技术。在此列举几种。
本发明的蛋白免疫方法包括夹心免疫测定,例如夹心ELISA,其中使用识别生物标志物上不同表位的两种抗体进行该生物标志物的检测;放射免疫测定(RIA)、直接、间接或对比酶联免疫吸附测定(ELISA)、酶免疫测定(EIA)、荧光免疫测定(FIA)、蛋白质印迹法、免疫沉淀法和基于任何颗粒的免疫测定(如使用金颗粒、银颗粒或乳胶颗粒、磁性颗粒或量子点)。例如可在微量滴定板或条的形式中实施免疫法。
本发明的核酸测序方法的示例性非限制性实例包括但不限于链终止子(Sanger)测序和染料终止子测序。本领域的普通技术人员将认识到,由于RNA在细胞中不太稳定并且在实验中更易受到核酸酶攻击,因此在测序前通常将RNA逆转录成DNA。
本发明的核酸测序方法的另一示例性非限制性实例包括下一代测序(深度测序/高通量测序),高通量测序技术是一种基于单分子簇的边合成边测序技术,基于专有的可逆终止化学反应原理。测序时将基因组的DNA的随机片段附着到光学透明的玻璃表面,这些DNA片段经过延伸和桥式扩增后,在玻璃表面形成数以亿计的簇,每个簇是具有数千份相同模板的单分子簇,然后利用带荧光基团的四种特殊脱氧核糖核苷酸,通过可逆性的边合成边测序技术对待测的模板DNA进行测序。
本发明中的核酸杂交方法包括但不限于原位杂交(ISH)、微阵列和Southern或Northern印迹。原位杂交(ISH)是一种使用标记的互补DNA或RNA链作为探针以定位组织一部分或切片(原位)或者如果组织足够小则为整个组织(全组织包埋ISH)中的特异性DNA或RNA序列的杂交。DNA ISH可用于确定染色体的结构。RNA ISH用于测量和定位组织切片或全组织包埋内的mRNA和其他转录本(例如,ncRNA)。通常对样本细胞和组织进行处理以原位固定靶转录本,并增加探针的进入。探针在高温下与靶序列杂交,然后将多余的探针洗掉。分别使用放射自显影、荧光显微术或免疫组织化学,对组织中用放射、荧光或抗原标记的碱基标记的探针进行定位和定量。ISH也可使用两种或更多种通过放射性或其他非放射性标记物标记的探针,以同时检测两种或更多种转录本。
将Southern和Northern印迹分别用于检测特异性DNA或RNA序列。使从样本中提取的DNA或RNA断裂,在基质凝胶上通过电泳分离,然后转移到膜滤器上。使滤器结合的DNA或RNA与和所关注的序列互补的标记探针杂交。检测结合到滤器的杂交探针。该程序的一种变化形式是反向Northern印迹,其中固定到膜的底物核酸为分离的DNA片段的集合,而探针是从组织提取并进行了标记的RNA。
本发明提供了一种预测胃癌预后的产品,所述产品包括检测样本中本发明所述的生物标志物表达水平的试剂。所述产品包括但不限于核酸膜条、芯片、试剂盒。
在本发明中,核酸膜条包括基底和固定于所述基底上的寡核苷酸探针;所述基底可以是任何适于固定寡核苷酸探针的基底,例如尼龙膜、硝酸纤维素膜、聚丙烯膜、玻璃片、硅胶晶片、微缩磁珠等。
在本发明中,“芯片”也称为“阵列”,指包含连接的核酸或肽探针的固体支持物。阵列通常包含按照不同的已知位置连接至基底表面的多种不同的核酸或肽探针。这些阵列,也称为“微阵列”,通常可以利用机械合成方法或光引导合成方法来产生这些阵列,所述光引导合成方法合并了光刻方法和固相合成方法的组合。阵列可以包含平坦的表面,或者可以是珠子、凝胶、聚合物表面、诸如光纤的纤维、玻璃或任何其它合适的基底上的核酸或肽。可以以一定的方式来包装阵列,从而允许进行全功能装置的诊断或其它方式的操纵。
“微阵列”是杂交阵列原件有序排列在基质上,所述杂交阵列原件诸如聚核苷酸探针(例如寡核苷酸)或结合剂(例如抗体)。所述基质可以是固体基质,例如,玻璃或二氧化硅玻片、珠、纤维光学粘结剂或半固态基质,例如硝酸纤维素膜。核苷酸序列可以是DNA、RNA或其中的任何排列。
术语“试剂盒”,是指包含用于特异性检测本发明的生物标志基因或蛋白质的探针的制成品(例如,包装或容器)。
当在实验室环境中处理样本时,可能获得最可靠的结果。例如,可在医生办公室中从受试者获取样本,然后将其发送到医院或商业医学实验室进行进一步测试。然而,在许多情况下,可能希望在临床医生的办公室提供即时结果或允许受试者在家中进行测试。在一些情况下,对于便携式、预包装、一次性的、可由受试者在无协助或指导等的情况下即可使用等等的测试的需求比高度准确度更为重要。在许多情况下,尤其是在有医师随访的情况下,进行初步测试,甚至灵敏度和/或特异度降低的测试也可能就足够了。因此,以产品形式提供的测定可涉及检测和测量相对少量的生物标志物,以降低测定的复杂性和成本。
可使用本发明所述的能够检测样本生物标志物的任何形式的样本测定。通常,所述测定将定量样本中生物标志物至一定的程度,例如它们的浓度或量是高于还是低于预定阈值。此类试剂盒可采取测试条、浸杆、盒、药筒、基于芯片或基于珠粒的阵列、多孔板或一系列容器等的形式。提供一种或多种试剂以检测所选样本生物标志物的存在和/或浓度和/或量。可将受试者的样本直接分配到测定中,或从存储的或先前获得的样品中间接分配到测定中。高于或低于预定阈值的生物标志物的存在或不存在可以例如通过发色、发荧光、电化学发光或其他输出(例如在酶免疫测定(EIA),诸如酶联免疫测定(ELISA)中)来显示。
在本发明中检测基因标志物的试剂包括检测基因转录水平的试剂、检测基因蛋白水平的试剂。检测基因转录水平的试剂包括但不限于引物、探针,检测基因蛋白水平的试剂包括蛋白的结合剂。
“引物”是指寡核苷酸,它与靶核酸中的序列(“引物结合位点”)杂交并且能够用作在适用于合成的条件下沿着核酸的互补链启动该合成的点。
“探针”指能与另一分子的特定序列或亚序列或其它部分结合的分子。除非另有指出,术语“探针”通常指能通过互补碱基配对与另一多核苷酸(往往称为“靶多核苷酸”)结合的多核苷酸探针。根据杂交条件的严格性,探针能和与该探针缺乏完全序列互补性的靶多核苷酸结合。探针可作直接或间接的标记。杂交方式,包括,但不限于溶液相、固相、混合相或原位杂交测定法。
蛋白的结合剂是例如蛋白质的受体、结合蛋白质的凝集素、针对蛋白质的抗体、针对蛋白质的肽抗体(peptidebody)、双特异性双重结合剂或双特异性抗体形式。
预后
如本发明所用,术语“预后”是指疾病的可能病程或临床结果,而表述“预期”、“进行预后”、“确定预后”等是指对胃癌的未来进展的预测。
如本发明所用,术语“良好预后”、“预后良好”和“正向预后”是指与疾病的中位结果或与具有不良预后的受试者的生存相比,可能在统计学上显著延长的生存,例如延长的总体生存,延长的无疾病生存,延长的无复发生存或延长的无进展生存。
如本发明所用,术语“不良预后”或“预后不良”是指与具有良好预后的受试者相比,可能在统计学上显著降低的生存,例如降低的总生存,无疾病生存,无复发生存或无进展生存。
根据本发明,在从胃癌预后的受试者获得的生物样本中,基于与胃癌预后相关联的生物标志物的检测水平来进行预后。这还意味着包括其中未最终确定预后而是需要进一步测试的情况。在这样的实施方案中,该方法本身并不决定受试者胃癌的预后,而是可以指示需要进一步的测试或将是有益的。因此,本方法可以与一种或多种其他方法组合以最终确定预后。这类其他方法是本领域技术人员众所周知的,包括但不限于活组织检查、肿瘤的分子表征,计算机断层扫描、磁共振成像和正电子发射断层扫描,以及监测癌胚抗原(CEA)的水平。可与本发明组合使用的其他预测标志物包括但不限于肿瘤的分子谱分析、检查肿瘤的染色体稳定性(微卫星稳定(MSS)和微卫星不稳定(MSI))。
在一些实施方式中,本发明在患有胃癌的受试者中预后胃癌的方法可以进一步包括治疗干预。一旦鉴定受试者具有疾病的给定的可能结果,就可以对他/她进行适当的治疗干预,例如化学疗法。在这样的实施方式中,本发明还可被构造为在有此需要的受试者中治疗胃癌的方法,其中方法包括如上所述预后胃癌,并向所述受试者施用一种或多种合适的化学治疗剂。
预后风险模型
本发明提供了一种癌症预后风险模型的构建方法,所述方法包括:
获取铜死亡调控的关键基因;
获取癌症患者的生存和基因表达的数据;
基于铜死亡调控的关键基因的表达进行聚类分析,鉴定铜死亡调控模式,筛选得到铜死亡亚型;
筛选铜死亡亚型中差异表达基因;
筛选与预后显著相关的铜死亡亚型差异基因;
对筛选的与预后显著相关的铜死亡亚型差异基因进行Lasso Cox回归分析,得到与预后显著相关的铜死亡亚型差异表达基因;
多因素Cox风险回归分析得到与预后相关的铜死亡亚型差异表达核心基因;
根据核心基因,构建癌症预后风险模型。
在本发明的具体实施方案中,铜死亡调控的关键基因包括FDX1、LIPT1、LIAS、DLD、DLAT、PDHA1、PDHB、MTF1、GLS和CDKN2A。
在本发明的一些实施方案中,聚类分析采用的是无监督聚类分析。
在本发明的具体实施方案中,所述无监督聚类分析采用的是“NMF”算法。
在本发明的具体实施方案中,所述癌症为胃癌。
本发明提供了一种基于前述方法构建的胃癌预后风险模型,所述预后风险模型为:
CuPS=-0.205*exp(AHCYL2)+0.231*exp(ANKRD6)+0.237*exp(PDGFRB)。
本发明还提供了一种癌症预后风险模型的构建方法,所述方法包括:
获取铜死亡调控的关键基因;
获取癌症患者的生存和基因表达的数据;
基于铜死亡调控的关键基因的表达进行聚类分析,鉴定铜死亡调控模式,筛选得到铜死亡亚型;
筛选铜死亡亚型中差异表达基因;
筛选与预后显著相关的铜死亡亚型差异基因;
通过PCA算法计算Cg-score,构建癌症预后风险模型。
在本发明的具体实施方案中,铜死亡调控的关键基因包括FDX1、LIPT1、LIAS、DLD、DLAT、PDHA1、PDHB、MTF1、GLS和CDKN2A。
优选地,与预后显著相关的铜死亡亚型差异基因包括AHCYL2、ANKRD6、PDGFRB、ANKRD22、RAB3IL1、C7、PDZRN4、ITGBL1、LRRC32、COL6A3、CDH11、FSTL1、CH25H、TCF4、PRICKLE1、PLOD2、RHOBTB3和PROS1。
本发明还提供了一种基于前述方法构建的胃癌预后风险模型,所述预后风险模型为:
Cg-score=∑(PC1i+PC2i);其中,Cg-score为癌症预后风险评分,i表示与预后显著相关的铜死亡亚型差异基因。
术语“聚类”是指根据测序数据之间的相似性,将数据归类为相应的类别。同类别之间有高度相似性,不同类别之间的差异程度最大。
本发明所用的术语“聚类分析”是指将样本中转录组RNA测序数据的集合分组为由相似基因表达谱构成的多个类别的过程。本发明中可采用常规的聚类分析方法系统聚类、K-均值聚类、二阶聚类等,本发明优选的聚类分析为“NMF”无监督聚类分析法。其中,术语“NMF”是指非负矩阵分解。
本发明所用的术语“差异表达基因(DEGs)”是指其表达在细胞亚群之间有显著差异的基因。
术语“PCA”指将许多相关的变量转化为被称为主要成分的许多不相关的(独立的)变量的数学方法。第一主要成分占据了该数据中尽可能多的变化,后续成分占据尽可能多的剩余变化。本发明所用的“PCA”还包括主要成分分析的变体,如核心PCA等。
癌症
本发明所用的术语“癌症”包括但不限于:胆道癌;膀胱癌;脑癌,包括胶质母细胞瘤和髓母细胞瘤;乳腺癌;宫颈癌;绒毛膜癌;结肠癌;子宫内膜癌;食道癌;胃癌;血液肿瘤,包括急性淋巴细胞性和骨髓性白血病;多发性骨髓瘤;艾滋病相关白血病和成人T细胞白血病淋巴瘤;上皮内肿瘤,包括鲍恩病(Bowen’s disease)和佩吉特氏病(Paget’s disease);肝癌;肺癌;淋巴瘤,包括霍奇金病(Hodgkin’s disease)和淋巴细胞性淋巴瘤;神经母细胞瘤;口腔癌,包括鳞状细胞癌;卵巢癌,包括源自上皮细胞、基质细胞、生殖细胞和间质细胞的卵巢癌;胰腺癌;前列腺癌;直肠癌;肉瘤,包括平滑肌肉瘤、横纹肌肉瘤、脂肪肉瘤、纤维肉瘤和骨肉瘤;皮肤癌,包括黑色素瘤、卡波西肉瘤(Kaposi’s sarcoma)、基底细胞癌和鳞状细胞癌;睾丸癌,包括生殖肿瘤,如精原细胞瘤、非精原细胞瘤(畸胎瘤、绒毛膜癌)、间质瘤和生殖细胞瘤;甲状腺癌,包括甲状腺腺癌和髓样癌;以及包括腺癌和肾母细胞瘤在内的肾癌、乳腺癌、前列腺癌、肺癌、卵巢癌、结直肠癌和脑癌。本发明优选的癌症是胃癌。
患者
术语“患者”、“生物受试者”、“受试者”、“个体”在本发明中可互换使用来指动物受试者,特别是脊椎动物受试者,更特别是哺乳动物受试者。落在本发明的范围内的合适的脊椎动物包括但不限于脊索动物亚门的任何成员,包括灵长目动物、啮齿动物(例如,小鼠、大鼠、豚鼠)、兔形目动物(例如,家兔、野兔)、牛科动物(例如,牛)、绵羊类动物(例如,绵羊)、山羊类动物(例如,山羊)、猪类动物(例如,猪)、马科动物(例如,马)、犬科动物(例如,狗)、猫科动物(例如,猫)、鸟类动物(例如,鸡;鸭;鹅;陪伴鸟类,诸如金丝雀、虎皮鹦鹉等)、海洋哺乳动物(例如,海豚、鲸鱼)、爬行动物(例如,蛇、青蛙、蜥蜴等)和鱼。优选的受试者是灵长目动物(例如,人、猿、猴、黑猩猩)。如本发明所优选的,所述“患者”是人。
系统
本发明提供了被编程为实现本发明的方法的系统。所述系统被编程或以其他方式配置为分析序列数据、构建基因的表达量矩阵。所述系统可以调控本发明的序列分析的各个方面,诸如,例如将数据针对已知序列进行匹配。所述系统可以是用户的电子装置或相对于该电子装置远程定位的计算机系统。电子装置可以是移动电子装置。
所述系统包括处理器,其可以是单核或多核处理器或用于并行处理的多于一个处理器。所述系统还包括存储器(例如,随机存取存储器、只读存储器、闪速存储器)、电子存储单元(例如,硬盘)、用于与一个或更多个其他系统进行通信的通信界面(例如,网络适配器)和外围装置,诸如高速缓冲存储器、其他存储器、数据存储和/或电子显示适配器。存储器、电子储存单元、通信界面和外围装置与处理器通过通信总线(实线),诸如主板通信。存储单元可以是用于存储数据的数据存储单元(或数据储存库)。所述系统可以借助于通信界面被可操作地耦合至计算机网络。网络可以是互联网、内联网和/或外联网、或与互联网通信的内联网和/或外联网。在一些情况下,网络为通信和/或数据网络。网络可以包括一个或更多个计算机服务器,这可以支持分布式计算,诸如云计算。在一些情况下,借助于系统,网络可以实现对等网络,其可以使耦合至系统的装置能够作为客户端或服务器运行。
所述处理器可以执行一系列的机器可读指令,该机器可读指令可以以程序或软件来体现。指令可以被存储于存储器位置,诸如存储器中。指令可以被导向处理器,该指令可以随后编程或以其他方式配置处理器以实现本发明的方法。由处理器进行的操作的实例可以包括读取、解码、执行和写回。
处理器可以是电路诸如集成电路的一部分,系统的一个或更多个其他组件可以被包含在电路中,在一些情况下,电路为专用集成电路。
电子存储单元可以存储文件,诸如驱动程序、库和保存的程序。电子存储单元可以存储用户数据,例如,用户偏好和用户程序。在一些情况下,系统可以包括一个或更多个另外的数据存储单元,该数据存储单元在计算机系统的外部,诸如位于通过内联网或互联网而与系统通信的远程服务器上。
系统可以与一个或更多个远程计算机系统通过网络进行通信。例如,系统可以与用户(例如,医师)的远程计算机系统进行通信。远程计算机系统的实例包括个人计算、板型或平板PC、电话、智能电话或个人数字助理。用户可经由网络访问系统。
如本发明描述的方法可以通过机器(例如,计算机处理器)可执行代码的方式实现,该机器可执行代码被存储在系统的电子存储位置,例如存储器或电子存储单元上。机器可执行代码或机器可读代码可以以软件的形式提供。在使用期间,代码可以由处理器执行。在一些情况下,代码可以从电子存储单元检索并存储在存储器上,以用于由处理器即时访问。在一些情况下,可以排除电子存储单元,而将机器可执行指令存储于存储器中。
代码可以被预编译并配置为用于与具有适于执行该代码的处理器的机器一起使用,或者可以在运行时间期间被编译。代码可以以编程语言的形式提供,该编程语言可以被选择使得代码能够以预编译的或按编译原样的方式被执行。
下面结合附图和实施例对本发明作进一步详细的说明。以下实施例仅用于说明本发明而不用于限制本发明的范围。实施例中未注明具体条件的实验方法,通常按照常规条件,或按照制造厂商所建议的条件。
实施例1构建基于铜死亡特征基因的预后风险模型CuPS,并测试预后效果
1、通过文献获取10个铜死亡调控的关键基因。其中铜死亡正性调控基因7个,分别是:FDX1、LIPT1、LIAS、DLD、DLAT、PDHA1和PDHB;负性调控基因3个,分别是:MTF1、GLS和CDKN2A。
2、通过TCGA数据集和GEO数据集获取包含生存和基因表达的胃癌患者数据,本研究共纳入1401例胃癌患者,包括来自TCGA-STAD数据集(n=350)、GSE84437数据集(n=433)、GSE34942数据集(n=56)、GSE57303数据集(n=70)、GSE15459数据集(n=192)、GSE62254数据集(n=300)。同时通过TCGA数据集获取胃癌的基因表达的RNA转录组数据(FPKM格式),将RNA转录组数据转换为百万/千碱基(TPM)的转录组格式。使用SVA包去除各数据集之间的批次效应(batch effect)。
将四个GEO数据集(GSE34942、GSE57303、GSE15459和GSE62254)组合成GEO-meta数据集,并按1:1比例分为训练集和测试集,GSE84437数据集和TCGA-STAD数据集作为独立验证集。
3、基于上述10个铜死亡调控的关键基因的表达,利用“NMF”进行无监督聚类分析,鉴定出3种铜死亡调控模式。
4、利用“limma”包筛选3种铜死亡调控模式下的3个铜死亡亚型(Cu1、Cu2和Cu3),取三者间的显著差异基因(|logFC|>0.1,校正P<0.01),共得到470个铜死亡亚型相关的差异表达基因(DEGs)(图1)。进一步通过单因素Cox分析,在GEO-meta、GSE84337和TCGA-STAD三个数据集中筛选预后相关的基因(P<0.05),得到18个与预后显著相关的铜死亡亚型差异基因(图2)。
5、在GEO-meta训练集中,将筛选到的18个与预后显著相关的铜死亡亚型差异基因进行Lasso Cox回归分析,18个基因λ下的置信区间图及其变化轨迹如图3所示。Lasso Cox回归分析后筛选到8个与预后显著相关的铜死亡亚型差异表达基因,并对8个与预后显著相关的铜死亡亚型差异表达基因进行了单因素Cox分析,如图4所示。并进一步通过多因素Cox风险回归得到3个与预后显著相关的铜死亡亚型差异表达核心基因,分别是AHCYL2、ANKRD6、PDGFRB。
6、基于以上筛选到的3个与预后显著相关的铜死亡亚型差异表达核心基因,构建癌症预后风险模型。该模型的具体计算公式是CuPS=-0.205*exp(AHCYL2)+0.231*exp(ANKRD6)+0.237*exp(PDGFRB),exp(AHCYL2/ANKRD6/PDGFRB)为AHCYL2/ANKRD6/PDGFRB基因的mRNAi表达水平。
7、通过“survival”包中的“surv_cutpoint”函数,确定CuPS的最佳截断值为1.1,根据最佳截断值将各数据集中的患者分为CuPS高风险组和低风险组,并在训练集、测试集和独立验证集四个数据集中探究随CuPS增加的胃癌患者生存时间和生存状态分布情况(图5)。
8、通过Kaplan-Meier生存分析,比较两组在生存时间上的差异,发现高风险组患者的总体生存率显著低于低风险组。训练集、测试集与独立验证集的结果一致,高风险组患者的总体生存率显著低于低风险组(图6);即当CuPS风险评分较高时,患者预后不良;当CuPS风险评分较低时,患者预后良好。
综上所述,基于本发明构建的CuPS模型能够预测胃癌患者的生存期/预后。
实施例2构建基于铜死亡特征基因的预后风险模型Cg-score,并测试预后效果
1、与实施例1中1-4的执行步骤相同,筛选得到18个与预后显著相关的铜死亡亚型差异基因。基于该18个基因,进行“NMF”进行无监督聚类分析,得到Cg1、Cg2、Cg3三种亚型PCA聚类效果散点图(图7),并通过PCA算法计算得到预后风险模型Cg-score,具体公式为Cg-score=∑(PC1i+PC2i)。
2、通过“survival”包中的“surv_cutpoint”函数,确定Cg-score的最佳截断值为2.00,将TCGA和GEO总数据集中的患者分为Cg-score高风险组和低风险组。
3、通过Kaplan-Meier生存分析,比较两组在生存时间上的差异,发现高风险组患者的总体生存率显著低于低风险组。训练集、测试集与独立验证集的结果一致,高风险组患者的总体生存率显著低于低风险组(图8),即当Cg-score风险评分较高时,患者预后不良;当Cg-score风险评分较低时,患者预后良好。
综上所述,基于本发明构建的Cg-score模型能够预测胃癌患者的生存期/预后。
实施例3构建基于铜死亡特征基因的预后风险模型CuPS和Cg-score,并联用测试预后效果
1、与实施例1、2执行方法相同,构建基于铜死亡特征基因的预后风险模型CuPS和Cg-score。
2、根据CuPS和Cg-score各自的最佳截断值,将胃癌患者分成H-Cg-score(Cg-score评分高)、L-Cg-score(Cg-score评分低)、H-CuPS(CuPS评分高)、L-CuPS(CuPS评分低)组,相互组合可分成四组,进行Kaplan-Meier生存分析。
3、通过Kaplan-Meier生存分析,比较两组在生存时间上的差异,发现L-Cg-score+L-CuPS组生存率显著高于L-Cg-score+H-CuPS组、H-Cg-score+L-CuPS组和H-Cg-score+H-CuPS组;H-Cg-score+H-CuPS组的生存率最低(图9);即CuPS和Cg-score风险评分均较高时,患者预后不良,生存期短;CuPS和Cg-score风险评分均较低时,患者预后良好,生存期显著延长。
综上所述,基于本发明构建的癌症预后风险模型CuPS和Cg-score联用能够较好地预测胃癌的生存期/预后。
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。

Claims (10)

1.检测样本中生物标志物的试剂在制备预测胃癌预后产品中的应用,其特征在于,所述生物标志物包括AHCYL2、ANKRD6中的一种或两种。
2.根据权利要求1所述的应用,其特征在于,所述生物标志物还包括PDGFRB;
优选地,所述生物标志物还包括ANKRD22、RAB3IL1、C7、PDZRN4、ITGBL1、LRRC32、COL6A3、CDH11、FSTL1、CH25H、TCF4、PRICKLE1、PLOD2、RHOBTB3、PROS1中的一种或多种。
3.根据权利要求1或2所述的应用,其特征在于,所述试剂包括通过蛋白免疫技术、染料技术、核酸测序技术、核酸杂交技术、色谱技术、质谱技术检测样本中生物标志物表达水平的试剂;
优选地,所述样本包括外周血样本、血清样本、血浆样本、尿样本、唾液样本或组织样本。
4.一种用于预测胃癌预后的产品,其特征在于,所述产品包括检测生物标志物的试剂;所述生物标志物包括AHCYL2、ANKRD6、PDGFRB、ANKRD22、RAB3IL1、C7、PDZRN4、ITGBL1、LRRC32、COL6A3、CDH11、FSTL1、CH25H、TCF4、PRICKLE1、PLOD2、RHOBTB3和/或PROS1;
优选地,所述生物标志物包括AHCYL2、ANKRD6中的一种或两种;
优选地,所述生物标志物还包括PDGFRB;
优选地,所述生物标志物还包括ANKRD22、RAB3IL1、C7、PDZRN4、ITGBL1、LRRC32、COL6A3、CDH11、FSTL1、CH25H、TCF4、PRICKLE1、PLOD2、RHOBTB3、PROS1中的一种或多种;
优选地,所述试剂包括识别所述生物标志物基因的探针;或扩增所述生物标志物基因的引物;或结合所述生物标志物蛋白的结合剂。
5.根据权利要求4所述的产品,其特征在于,所述产品包括核酸膜条、芯片或试剂盒;
优选地,所述芯片包括基因芯片、蛋白芯片,所述基因芯片包括用于检测所述生物标志物基因转录水平的针对所述生物标志物基因的寡核苷酸探针,所述蛋白芯片包括所述生物标志物蛋白的特异性结合剂;所述试剂盒包括基因检测试剂盒、蛋白检测试剂盒,所述基因检测试剂盒包括用于检测所述生物标志物基因转录水平的试剂或芯片,所述蛋白检测试剂盒包括用于检测所述生物标志物蛋白表达水平的试剂或芯片;
优选地,所述试剂盒包括qPCR试剂盒、免疫印迹检测试剂盒、免疫层析检测试剂盒、流式细胞分析试剂盒、免疫组化检测试剂盒、ELISA试剂盒和电化学发光检测试剂盒。
6.基于生物标志物的癌症预后风险模型的构建方法,其特征在于,包括:
获取铜死亡调控的关键基因;
获取癌症患者的生存和基因表达的数据;
基于铜死亡调控的关键基因的表达进行聚类分析,鉴定铜死亡调控模式,筛选得到铜死亡亚型;
筛选铜死亡亚型中差异表达基因;
筛选与预后显著相关的铜死亡亚型差异基因,构建癌症预后风险模型;
优选地,构建癌症预后风险模型的方法如下:
对筛选的与预后显著相关的铜死亡亚型差异基因进行Lasso Cox回归分析,得到与预后显著相关的铜死亡亚型差异表达基因;
多因素Cox风险回归分析得到与预后相关的铜死亡亚型差异表达核心基因;
根据核心基因,构建癌症预后风险模型;
优选地,构建癌症预后风险模型的方法如下:基于得到的与预后显著相关的铜死亡亚型差异基因,通过PCA算法计算Cg-score,构建癌症预后风险模型;
优选地,所述风险模型的公式为Cg-score=∑(PC1i+PC2i);其中,Cg-score为癌症预后风险评分,i表示基因;当风险评分较高时,患者预后不良;当风险评分较低时,患者预后良好;
优选地,所述铜死亡调控的关键基因包括FDX1、LIPT1、LIAS、DLD、DLAT、PDHA1、PDHB、MTF1、GLS和/或CDKN2A;
优选地,癌症患者的生存和基因表达的数据来自TCGA和/或GEO数据库;
优选地,将癌症患者的生存和基因表达的数据分为训练集和测试集;
优选地,将癌症患者的生存和基因表达的数据分为训练集、测试集和独立验证集;
优选地,聚类分析选自无监督聚类分析;
优选地,无监督聚类分析使用“NMF”算法;
优选地,所述癌症为胃癌。
7.一种癌症预后风险模型,其特征在于,所述模型采用权利要求6所述的方法构建而成,以AHCYL2、ANKRD6和/或PDGFRB的表达水平作为输入变量;
优选地,所述预后风险模型的公式为
Figure FDA0003677805840000031
其中,CuPS为癌症预后风险评分,n为用于预测预后的基因数,Expi为每个基因的mRNAi表达水平,Ci为每个基因的回归系数;当风险评分较高时,患者预后不良;当风险评分较低时,患者预后良好;
优选地,CuPS=-0.205*exp(AHCYL2)+0.231*exp(ANKRD6)+0.237*exp(PDGFRB);
优选地,所述癌症为胃癌。
8.一种癌症预后风险模型,其特征在于,所述癌症预后风险模型采用权利要求6所述的方法构建而成;
优选地,所述癌症为胃癌;
优选地,与预后显著相关的铜死亡亚型差异基因包括AHCYL2、ANKRD6、PDGFRB、ANKRD22、RAB3IL1、C7、PDZRN4、ITGBL1、LRRC32、COL6A3、CDH11、FSTL1、CH25H、TCF4、PRICKLE1、PLOD2、RHOBTB3和/或PROS1。
9.一种癌症预后风险模型,其特征在于,所述癌症预后风险模型由权利要求7所述的癌症预后风险模型联合权利要求8所述的癌症预后风险模型构建而成;
优选地,所述癌症为胃癌。
10.如下任一项所述的产品,其特征在于,包括:
1)一种用于预测胃癌预后的系统,包括:
数据获取模块,用于获取待测癌症患者的权利要求1或2中所述的生物标志物基因表达谱数据;
预测模块,用于将所述生物标志物基因表达谱数据作为输入提供给训练好的预测风险模型,所述预测风险模型被训练基于癌症患者的基因表达谱数据而对所述癌症患者的生存期进行预测;
预测结果获取模块,用于获取所述预测风险模型的输出,得到待测癌症患者的生存期预测结果;
优选地,所述预测风险模型为权利要求7-9任一项所述的预后风险模型;
2)一种计算机设备,包括存储器和处理器,所述存储器存储有程序,所述处理器执行所述程序时实现如下方法:
获取待测癌症患者的权利要求1或2中所述的生物标志物基因表达谱数据;
将所述生物标志物基因表达谱数据作为输入提供给训练好的预测风险模型;
输出待测癌症患者的生存期预测结果;
优选地,所述预测风险模型为权利要求7-9任一项所述的预后风险模型;
3)一种计算机可读存储介质,其上存储有程序,所述程序被执行时实现如下方法:
获取待测癌症患者的权利要求1或2中所述的生物标志物基因表达谱数据;
将所述生物标志物基因表达谱数据作为输入提供给训练好的预测风险模型;
输出待测癌症患者的生存期预测结果;
优选地,所述预测风险模型为权利要求7-9任一项所述的预后风险模型;
优选地,1)、2)、3)任一项所述的癌症为胃癌。
CN202210626439.XA 2022-06-02 2022-06-02 检测生物标志物的试剂在制备预测胃癌预后产品中的应用 Pending CN114875149A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210626439.XA CN114875149A (zh) 2022-06-02 2022-06-02 检测生物标志物的试剂在制备预测胃癌预后产品中的应用
CN202310630945.0A CN116644317A (zh) 2022-06-02 2023-05-31 癌症预后预测模型的构建方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210626439.XA CN114875149A (zh) 2022-06-02 2022-06-02 检测生物标志物的试剂在制备预测胃癌预后产品中的应用

Publications (1)

Publication Number Publication Date
CN114875149A true CN114875149A (zh) 2022-08-09

Family

ID=82679278

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202210626439.XA Pending CN114875149A (zh) 2022-06-02 2022-06-02 检测生物标志物的试剂在制备预测胃癌预后产品中的应用
CN202310630945.0A Pending CN116644317A (zh) 2022-06-02 2023-05-31 癌症预后预测模型的构建方法及其应用

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202310630945.0A Pending CN116644317A (zh) 2022-06-02 2023-05-31 癌症预后预测模型的构建方法及其应用

Country Status (1)

Country Link
CN (2) CN114875149A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115497562A (zh) * 2022-10-27 2022-12-20 中国医学科学院北京协和医院 一种基于铜死亡相关基因的胰腺癌预后预测模型构建方法
CN116656829A (zh) * 2023-08-01 2023-08-29 昂凯生命科技(苏州)有限公司 一种预测胃癌不良预后的基因标志物组合、试剂盒及系统
CN116798632A (zh) * 2023-07-13 2023-09-22 山东第一医科大学附属省立医院(山东省立医院) 一种基于代谢基因的胃癌分子分型及预后预测模型构建方法及应用

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116978554B (zh) * 2023-09-25 2024-01-30 中国医学科学院基础医学研究所 一种多发性骨髓瘤预后数据处理方法、系统及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113444798A (zh) * 2021-06-30 2021-09-28 北京泱深生物信息技术有限公司 肾癌生存风险生物标志物群及诊断产品和应用
CN113450873A (zh) * 2021-05-14 2021-09-28 山东大学 一种预测胃癌预后和免疫治疗适用性的标志物及其应用
US20220112564A1 (en) * 2019-02-14 2022-04-14 Merck Sharp & Dohme Corp. Gene expression based biomarker of tumor response to pd-1 antagonists

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220112564A1 (en) * 2019-02-14 2022-04-14 Merck Sharp & Dohme Corp. Gene expression based biomarker of tumor response to pd-1 antagonists
CN113450873A (zh) * 2021-05-14 2021-09-28 山东大学 一种预测胃癌预后和免疫治疗适用性的标志物及其应用
CN113444798A (zh) * 2021-06-30 2021-09-28 北京泱深生物信息技术有限公司 肾癌生存风险生物标志物群及诊断产品和应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨倩等: "综合生物信息学分析预测胃癌预后关键基因的研究", 《胃肠病学和肝病学杂志》 *
邱洁萍等: "基于GEO数据库的胃癌差异表达基因的生物信息学分析", 《中国免疫学杂志》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115497562A (zh) * 2022-10-27 2022-12-20 中国医学科学院北京协和医院 一种基于铜死亡相关基因的胰腺癌预后预测模型构建方法
CN116798632A (zh) * 2023-07-13 2023-09-22 山东第一医科大学附属省立医院(山东省立医院) 一种基于代谢基因的胃癌分子分型及预后预测模型构建方法及应用
CN116798632B (zh) * 2023-07-13 2024-04-30 山东第一医科大学附属省立医院(山东省立医院) 一种基于代谢基因的胃癌分子分型及预后预测模型构建方法及应用
CN116656829A (zh) * 2023-08-01 2023-08-29 昂凯生命科技(苏州)有限公司 一种预测胃癌不良预后的基因标志物组合、试剂盒及系统
CN116656829B (zh) * 2023-08-01 2024-04-12 昂凯生命科技(苏州)有限公司 一种预测胃癌不良预后的基因标志物组合、试剂盒及系统

Also Published As

Publication number Publication date
CN116644317A (zh) 2023-08-25

Similar Documents

Publication Publication Date Title
CN114875149A (zh) 检测生物标志物的试剂在制备预测胃癌预后产品中的应用
US20170073763A1 (en) Methods and Compositions for Assessing Patients with Non-small Cell Lung Cancer
AU2019250606A1 (en) Improved classification and prognosis of prostate cancer
US20120178100A1 (en) Serum Markers Predicting Clinical Response to Anti-TNF Alpha Antibodies in Patients with Psoriatic Arthritis
CN112522412A (zh) 检测生物标志物的试剂、产品及其在疾病中的应用
CN112522413A (zh) 一种用于评估胃癌风险的生物标志物及其应用
CN113444798A (zh) 肾癌生存风险生物标志物群及诊断产品和应用
CN114990215A (zh) microRNA生物标志物在肺癌诊断或预测预后中的应用
CN112921083A (zh) 肠道息肉和结直肠癌评价中的基因标志物
CN112538531A (zh) 用于检测胃癌的产品
CN112795648A (zh) 胃癌诊断用产品
CN112746107A (zh) 胃癌相关生物标志物及其在诊断中的应用
CN113444796B (zh) 与肺癌相关的生物标志物及其在诊断癌症中的应用
US20180356419A1 (en) Biomarkers for detection of tuberculosis risk
CN113151465A (zh) 基于基因标志物的鉴定息肉和癌症的产品和相关应用
CN113444801A (zh) 肾癌预后检测标志物及其相关诊断产品
CN113444799A (zh) 用于鉴定肾癌不良预后的免疫相关基因
CN113430270A (zh) 免疫相关基因在肾癌预后预测中的应用
CN113388684A (zh) 生物标志物用于预测肾癌预后的用途
EP3736345A1 (en) Genomic predictors of aggressive micropapillary bladder cancer
CN112575089A (zh) 基因在胃癌诊断中的应用
CN112725443A (zh) 一种生物标志物组合及其应用
CN112680521A (zh) 一种以基因作为诊断标志物的产品及其应用
CN113265462A (zh) 与胃癌相关的基因及其应用
US20150011411A1 (en) Biomarkers of cancer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20220809