CN114360721A - 代谢相关子宫内膜癌的预后模型及构建方法 - Google Patents

代谢相关子宫内膜癌的预后模型及构建方法 Download PDF

Info

Publication number
CN114360721A
CN114360721A CN202111600432.2A CN202111600432A CN114360721A CN 114360721 A CN114360721 A CN 114360721A CN 202111600432 A CN202111600432 A CN 202111600432A CN 114360721 A CN114360721 A CN 114360721A
Authority
CN
China
Prior art keywords
genes
endometrial cancer
prognosis
ucec
patients
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111600432.2A
Other languages
English (en)
Inventor
王珂
于敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Medical University Cancer Institute and Hospital
Original Assignee
Tianjin Medical University Cancer Institute and Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Medical University Cancer Institute and Hospital filed Critical Tianjin Medical University Cancer Institute and Hospital
Priority to CN202111600432.2A priority Critical patent/CN114360721A/zh
Publication of CN114360721A publication Critical patent/CN114360721A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种代谢相关子宫内膜癌(UCEC)预后模型的构建方法。本发明构建方法利用公共数据库TCGA中UCEC的转录组数据,层层筛选出差异基因构建了代谢相关UCEC的预后模型,并验证了其对子宫内膜癌患者具有良好预测能力。本发明的预后模型可用于指导临床子宫内膜癌分子分型,个体化治疗策略,并可根据预后模型中的核心基因进一步开发子宫内膜癌诊治和预后相关的产品。

Description

代谢相关子宫内膜癌的预后模型及构建方法
技术领域
本发明涉及生物医学技术领域,特别涉及代谢相关子宫内膜癌的预后模型及构建方法。
背景技术
子宫内膜癌(UCEC)是原发于子宫内膜的上皮性恶性肿瘤,为常见的妇科恶性肿瘤之一,随着居民生存条件和饮食结构的变化,其发病率逐年上升,在女性癌症疾病中居第3位,近次于乳腺癌和肺癌。早期诊断和早期治疗是子宫内膜癌患者预后的重要干预手段,但晚期及复发性子宫内膜癌患者对常规的放化疗及激素治疗效果不佳,5年生存率较早期子宫内膜癌严重下降,影响其生存率。所以探讨新的治疗模式和策略,开辟新方向从而提高子宫内膜癌的生存率,让更多患者受益,成为临床的关注点。
目前临床上UCEC用传统的临床病理分期和DNA多聚酶E(polymerase E,POLE)超突变型、微卫星不稳定型(microsatelliteinstability,MSI)、低拷贝数型/微卫星稳定型和高拷贝数型四种分子分型作为预后指标,但该系统预测能力也有一定的局限,难以准确预测UCEC患者的生存风险,因此临床上迫切需要能够准确预测UCEC预后的模型及新型标志物。
发明内容
本发明的一个方面,是针对现有技术中子宫内膜癌预后指标预测能力差,结果不准确的缺点,提供了一种代谢相关子宫内膜癌的预后模型及构建方法。
本发明提供的技术方案为:
一种代谢相关子宫内膜癌预后模型的构建方法,包括以下步骤:
步骤1)在公共数据库中分别获取子宫内膜癌UCEC患者的肿瘤样本和正常样本组织的转录组的基因数据;
步骤2)在数据库中获取与代谢病或糖代谢相关基因数据集,将其与步骤1)中获得的UCEC样本转录组的基因数据取交集,进而筛选出UCEC样本与代谢相关的共同基因的差异基因;
步骤3)利用步骤2)得到的差异基因合并UCEC生存时间数据,得到预后相关的显著差异基因,将上述显著差异基因利用LASSO算法回归进行交叉验证,得到所构建模型的核心基因和公式。
在本发明中,上述步骤1)所述的数据库为癌症基因组图谱(TCGA)数据库(https://portal.gdc.cancer.gov/),所获取的基因数据包括基因的表达情况及表达量信息。同时也获取相关的临床信息,包括患者的年龄、临床病理分级、生存时间。样本纳入的标准为:I-IV期子宫内膜癌(包括腺瘤、囊性腺癌、粘液性肿瘤、浆液性肿瘤和上皮肿瘤),有随访时间且临床数据完整。
在本发明中,上述步骤2)所述的数据库为人类基因集数据库GSEA(http://www.gsea-msigdb.org/gsea/index.jsp)。在本发明的一个实施方式中,获取以“metabolism”为关键词,选择standardname为“REACTOME_METABOLISM_OF_CARBOHYDRATES”systematicname为“M16864”的糖代谢相关基因数据集,从而获得293个糖代谢相关基因。在本发明的另一个实施方式中,获取以“metabolism”为关键词,选择standardname为“REACTOME_DISEASES_OF_METABOLISM”systematicname为“M27554”的代谢病相关基因数据集,从而获得246个代谢病相关基因。
作为优选,在本发明的实施方式中,上述步骤2)中所述的筛选的方法为:将所获得的共同基因靶点研究组与正常样本组织对照组的转录组数据进行log2标准化后,采用R语言软件的LIMMA包,对所述研究组与所述对照组的代谢相关基因的转录组数据进行威尔科克森符号秩检验,筛选得到所述代谢相关肿瘤样本与正常样本之间的差异基因;
所述筛选的标准为Pvalue<0.05。
在本发明的一个实施方式中,在筛选出差异基因后,可以使用pheatmap包绘制研究组患者的差异基因热图。
为了增加本发明预后模型的效果,作为优选,在本发明的实施方式中,上述步骤3)之前还包括对步骤2)所获得的差异基因进行聚类分型的过程。
作为优选,在本发明的实施方式中,上述聚类分型的方法为:根据步骤2)中获得的差异基因的表达量对其对应的患者进行聚类分型,将患者分为两组,对两组数据进行威尔科克森符号秩检验,筛选得到差异基因;
所述筛选的标准为:对第一组与第二组患者倍性变化值FC取对数,若|logFC|>1,错误发现率FDR<0.05的基因,则筛选为差异基因;
其中,倍性变化值FC表示第一组子宫内膜癌患者差异基因的表达量与第二组子宫内膜癌患者差异基因的表达量的比值;错误发现率FDR表示所有发现的差异基因中,实际并非差异基因所占的比例。
作为优选,在本发明的一个实施方式中,上述步骤3)中所述的表达公式为:风险得分=N1×coef1+N2×coef2+……Nn×coefn
其中,Nn代表相关差异基因的表达量,coefn代表相关差异基因所对应的回归系数。
作为优选,在本发明的实施方式中,上述构建方法还包括:步骤4)对步骤3)中筛选出的预后模型的相关差异基因,使用R语言软件的survival包进行LASSO回归后,进一步进行单因素Cox比例风险回归分析构建的代谢相关子宫内膜癌预后模型。
本发明的另一个方面,是提供了一种标志物的组合物,所述标志物的组合物包括由上述构建方法筛选得到的所述相关差异基因。
作为优选,在本发明的一个实施方式中,上述相关差异基因包括B4GALNT3、TMEM63C、TRBJ2-3、FOXO6、NTS、SNAP25、BX322234.1、STX18、LINC02308、DLGAP3、AC007422.1、MBOAT2、MGAT4A和DDC。
上述相关差异基因对应的预后模型为:风险评分=(-0.0259×B4GALNT3的表达量)+(0.0020×TMEM63C的表达量)+(-0.0503×TRBJ2-3的表达量)+(0.0030×FOXO6的表达量)+(0.0399×NTS的表达量)+(0.0137×SNAP25的表达量)+(0.2155×BX322234.1的表达量)+(-0.0681×STX18的表达量)+(0.0691×LINC02308的表达量)+(0.0714×DLGAP3的表达量)+(0.0387×AC007422.1的表达量)+(0.01558×MBOAT2的表达量)+(0.1789×MGAT4A的表达量)+(0.0161×DDC的表达量)。
作为优选,在本发明的另一个实施方式中,上述相关差异基因包括GFRA4、B4GALNT3、BX322234.1、STX18、LINC02308、AC007422.1、MBOAT2和MGAT4A。
上述相关差异基因对应的预后模型为:风险评分=(0.0282×GFRA4的表达量)+(-0.0159×B4GALNT3的表达量)+(0.1914×BX322234.1的表达量)+(-0.0318×STX18的表达量)+(0.0271×LINC02308的表达量)+(0.0107×MGAT4A的表达量)+(0.0754×MBOAT2的表达量)+(0.1297×STX18的表达量)。
本发明的另一个方面,是提供了一种检测上述标志物的组合物的试剂。
上述试剂可以通过数字成像技术、蛋白免疫技术、染料技术、核酸测序技术、核酸杂交技术、色谱技术、质谱技术来检测样本中所述标志物的组合物的表达水平。
上述试剂可以包括与所述标志物基因特异性结合的引物或探针。
上述试剂可以以任意合适的形式存在和使用,作为优选,上述试剂以液体或者固定在载体上的方式使用,例如,基因芯片。
本发明的另一个方面,是提供了一种用于评估子宫内膜癌预后风险的试剂盒,上述试剂盒包含上述试剂。
本发明的另一个方面,是提供了一种用于评估子宫内膜癌预后风险的装置,所述装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;
所述计算机程序被所述处理器执行时,运行上述的构建方法所构建的代谢相关子宫内膜癌预后模型,通过输入受试者的所述相关差异基因的表达量,得出风险得分,根据预设的风险阈值,判断受试者子宫内膜癌预后风险。
本发明的另一个方面,是提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有上述构建方法所构建的代谢相关子宫内膜癌预后模型程序,所述程序被处理器执行时,实现上述装置的功能。
本发明的另一个方面,是提供了上述标志物的组合物或上述试剂在制备评估子宫内膜癌预后风险的产品中的用途。
本发明的有益效果为:
本发明利用公共数据库TCGA中UCEC的转录组数据,层层筛选出差异基因构建了代谢相关UCEC的预后模型,并验证了其对子宫内膜癌患者具有良好预测能力。本发明的预后模型可用于指导临床子宫内膜癌分子分型,个体化治疗策略,并可根据预后模型中的核心基因进一步开发子宫内膜癌诊治和预后相关的产品。
附图说明
图1为本发明实施例中的构建方法流程图,其中,A为实施例1中的构建方法流程图,B为实施例2中的构建方法流程图;
图2为本发明实施例中得到的UCEC中代谢相关差异基因热图,A为实施例1中的糖代谢相关差异基因热图,B为实施例2中的代谢病相关差异基因热图;
图3为本发明实施例1中糖代谢分型UCEC生存分析图;
图4为本发明实施例2中代谢病分型UCEC生存分析图;
图5为本发明实施例1中UCEC糖代谢相关基因预后分析结果图,其中,A为高风险组与低风险组UCEC患者OS曲线分析;B和C为UCEC糖代谢相关DEGs的LASSO回归模型;
图6本发明实施例2中UCEC代谢病相关基因预后分析结果图,其中,A为高风险组与低风险组UCEC患者OS曲线分析;B和C为UCEC糖代谢相关DEGs的LASSO回归模型;
图7为本发明实施例1中UCEC患者预后模型预测准确性分析结果图,其中,A为ROC曲线分析,B和C为风险曲线分析,D为PCA分析,E为SNE分析;
图8为本发明实施例2中UCEC患者预后模型预测准确性分析结果图,其中,A为ROC曲线分析,B和C为风险曲线分析,D为PCA分析,E为SNE分析。
具体实施方式
本发明公开了一种代谢相关子宫内膜癌的预后模型及构建方法,本领域技术人员可以借鉴本文内容,适当改进工艺参数实现。需要特别指出的是,所有类似的替换和改动对本领域技术人员来说是显而易见的,它们都被视为包括在本发明,并且相关人员明显能在不脱离本发明内容、精神和范围的基础上对本文所述内容进行改动或适当变更与组合,来实现和应用本发明技术。
在本发明中,除非另有说明,否则本文中使用的科学和技术名词具有本领域技术人员所通常理解的含义。除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。术语“如”、“例如”等旨在指示例性实施方案,而不意图限制本公开的范围。
以下就本发明中出现的部分术语作以解释。
术语“代谢病”是指在体内生物化学过程发生障碍时,某些代谢物质如糖、脂肪、蛋白质、嘌呤、钙铜等堆积或缺乏而引起的疾病。其相关基因的表达与正常生理状态下有所不同。
术语“糖代谢”,carbohydrate metabolism,指葡萄糖(glucose,Glc)、糖原(glycogen,Gn)等在体内的一系列复杂的化学反应。
为了使本领域的技术人员更好地理解本发明的技术方案,下面结合具体实施例对本发明作进一步的详细说明。
实施例1:
构建方法流程图如图1的A所示。
1.纳入人群和数据下载
癌症基因组图谱(TCGA)数据库(https://portal.gdc.cancer.gov/)中,检索子宫内膜癌(UCEC)患者的肿瘤样本和正常样本组织转录组的表达数据及其相关临床信息。本研究检索时间设定为TCGA数据库建库至2021年12月10日。纳入标准I-IV期子宫内膜癌(包括腺瘤、囊性腺癌、粘液性肿瘤、浆液性肿瘤和上皮肿瘤)有随访时间且临床数据完整,选择最终符合本研究纳入标准的575例UCEC患者样本为研究对象,其中肿瘤样本为552例,正常样本为23例。
2.代谢相关靶点的收集
在人类基因集数据库GSEA(http://www.gsea-msigdb.org/gsea/index.jsp)中以“metabolism”为关键词,选择standardname为“REACTOME_METABOLISM_OF_CARBOHYDRATES”systematicname为“M16864”糖代谢相关基因集,与UCEC中基因取交集筛选出代谢相关的共同靶点。然后对TCGA数据库研究组与对照组的转录组数据进行log2标准化后,采用R语言(R4.1.1)的LIMMA包,对TCGA数据库研究组与对照组的代谢相关基因的转录组数据进行威尔科克森(Wilcoxon)符号秩检验,筛选糖代谢相关UCEC肿瘤组和对照组的差异基因,筛选标准为pvalue<0.05。并使用pheatmap包绘制研究组患者的差异基因热图。
研究组UCEC患者中共筛选出糖代谢相关的DEGs有208个,其中上调基因为134个,下调基因为74个。研究组患者糖代谢相关的显著差异基因可视化热图结果见图2的A。
3.聚类分型差异基因(DEGs)筛选
根据UCEC中糖代谢相关基因的表达量对患者聚类分析,聚类分型成两组,Cluster1(C1组)和Cluster2(C2组),对两组数据进行威尔科克森(Wilcoxon)符号秩检验,筛选不同聚类分型的差异基因。筛选标准:对C1组与C2组患者倍性变化(fold change,FC)取对数,若|logFC|>1,错误发现率(false discovery rate,FDR)<0.05的基因,则筛选为差异基因。其中,FC表示C1组子宫内膜癌患者差异基因表达量与C2组子宫内膜癌患者差异基因表达量的比值。FDR表示所有发现的差异基因中,实际并非差异基因所占比例。
根据糖代谢基因在子宫内膜癌中的表达量对样本进行聚类,然后根据聚类对样品分为两类:分型一(C1)和分型二(C2)。对糖代谢聚类分型样本进行生存分析结果如图3所示表明不同分型之间的UCEC病人的生存是有差异的,P<0.001,差异有显著统计学意义。
4.预后模型构建
对于UCEC中糖代谢相关聚类分型差异基因和生存时间数据取交集,得到共有基因表示既是糖代谢相关的靶基因,又是与UCEC相关的显著差异表达基因,还是预后相关的基因。对上述DEGs利用LASSO算法回归进行交叉验证,得到构建模型的核心基因和公式。首先根据构建模型的核心基因得到模型基因的表达量,然后根据模型公式得到TGGA中每个病人的风险得分,根据风险得分的中位值,划分为高风险亚组和低风险亚组,对2个亚组患者的生存时间进行比较。模型公式为:N1×coef1+N2×coef2+……Nn×coefn。
为了减少假阳性,对上述不同分型之间的显著差异表达基因与UCEC生存分析合并,得到共有预后基因,此时,共有基因表示既是糖代谢相关靶基因,又是与子宫内膜癌相关的差异表达基因,还是预后相关基因,最终选择14个DEGs用于构建UCEC患者预后预测模型,参与构建预后模型基因为B4GALNT3、TMEM63C、TRBJ2-3、FOXO6、NTS、SNAP25、BX322234.1、STX18、LINC02308、DLGAP3、AC007422.1、MBOAT2、MGAT4A、DDC。对研究组每个患者生存风险进行评分,分为高风险组和低风险组。风险评分=(-0.0259×B4GALNT3的表达量)+(0.0020×TMEM63C的表达量)+(-0.0503×TRBJ2-3的表达量)+(0.0030×FOXO6的表达量)+(0.0399×NTS的表达量)+(0.0137×SNAP25的表达量)+(0.2155×BX322234.1的表达量)+(-0.0681×STX18的表达量)+(0.0691×LINC02308的表达量)+(0.0714×DLGAP3的表达量)+(0.0387×AC007422.1的表达量)+(0.01558×MBOAT2的表达量)+(0.1789×MGAT4A的表达量)+(0.0161×DDC的表达量)。使用R语言的survival ROC软件包检测该模型对研究患者预后预测准确性的分析结果如图5所示,低风险组患者的OS期显著长于高风险组,并且差异有显著统计学意义(P<0.001)。
5.预后风险分析
对UCEC筛选的糖代谢相关预后差异基因,使用R语言的survival包进行LASSO回归后,进一步进行单因素Cox比例风险回归分析构建UCEC患者预后预测模型。利用survival受试者工作特征(ROC)曲线、风险曲线、PCA分析和t-SNE分析,检测该预测模型的准确性,以便临床更便捷、客观预测患者预后情况。
该预后模型预测UCEC患者OS期的ROC曲线的曲线下面积(area under curve,AUC)结果如图7的A所示,1年生存率为0.763,3年生存率为0.770,5年生存率为0.785(P<0.001),将其与患者病理类型结合,可及时识别高危患者,对UCEC患者OS期具有良好预测能力。风险曲线分析结果如图7的B和C所示,我们所构建预后模型中的高风险与低风险UCEC患者分布,蓝色点代表存活的患者,红色点代表死亡的患者,可以看到随着风险得分越高,高危UCEC患者增多了,死亡的人数多了。从PCA分析(图7的D)和SNE分析(图7的E)结果可以看出,高危和低危患者明显分为两群,说明参与模型构建的基因可以区分高低风险组的病人。综上分析得出我们所构建糖代谢相关UCEC预后模型对子宫内膜癌患者具有良好预测能力。
6.风险评分作为UCEC的独立预后因素
为了进一步探讨所构建预后模型风险评分是否可以作为独立的临床预后因子,将单变量和多变量Cox比例风险回归分析应用于TCGA队列,分析结果总结见表1。单因素分析发现风险评分(riskscore)、临床分级、年龄是UCEC患者总生存率的风险因子,进一步对单因素分析中p<0.05的因素进行多因素分析发现riskscore仍然是UCEC患者总生存率的独立预后因素(HR=7.394[3.938-13.886],p<0.001)。因此,所构建预后模型风险评分可以作为UCEC患者的独立预后因素。
表1 TCGA数据集中UCEC患者OS单因素和多因素分析
Figure BDA0003431515370000081
实施例2:
构建方法流程图如图1的B所示。
1.纳入人群和数据下载
癌症基因组图谱(TCGA)数据库(https://portal.gdc.cancer.gov/)中,检索子宫内膜癌(UCEC)患者的肿瘤样本和正常样本组织转录组的表达数据及其相关临床信息。本研究检索时间设定为TCGA数据库建库至2021年12月10日。纳入标准I-IV期子宫内膜癌(包括腺瘤、囊性腺癌、粘液性肿瘤、浆液性肿瘤和上皮肿瘤)有随访时间且临床数据完整,选择最终符合本研究纳入标准的575例UCEC患者样本为研究对象,其中肿瘤样本为552例,正常样本为23例。
2.代谢相关靶点的收集
在人类基因集数据库GSEA(http://www.gsea-msigdb.org/gsea/index.jsp)中以“metabolism”为关键词,选择standardname为“REACTOME_DISEASES_OF_METABOLISM”systematicname为“M27554”代谢病相关基因集,与UCEC中基因取交集筛选出代谢相关的共同靶点。然后对TCGA数据库研究组与对照组的转录组数据进行log2标准化后,采用R语言(R4.1.1)的LIMMA包,对TCGA数据库研究组与对照组的代谢相关基因的转录组数据进行威尔科克森(Wilcoxon)符号秩检验,筛选代谢病相关UCEC肿瘤组和对照组的差异基因,筛选标准为pvalue<0.05。并使用pheatmap包绘制研究组患者的差异基因热图。
研究组UCEC患者中共筛选出代谢病相关的DEGs有172个,其中上调基因为104个,下调基因为68个。研究组患者代谢病相关的差异基因可视化热图结果见图2的B。
3.聚类分型差异基因(DEGs)筛选
根据UCEC中代谢病相关基因的表达量对患者聚类分析,聚类成两组,Cluster1(C1组)和Cluster2(C2组),对两组数据进行威尔科克森(Wilcoxon)符号秩检验,筛选不同聚类分组的差异基因。筛选标准:对C1组与C2组患者倍性变化(fold change,FC)取对数,若|log2FC|>1,错误发现率(false discovery rate,FDR)<0.05的基因,则筛选为差异基因。其中,FC表示C1组子宫内膜癌患者差异基因表达量与C2组子宫内膜癌患者差异基因表达量的比值。FDR表示所有发现的差异基因中,实际并非差异基因所占比例。
根据代谢病基因在子宫内膜癌中的表达量对样本进行聚类,然后根据聚类对样品分为两类:分型一(C1)和分型二(C2),分型结果如图4的A所示。对代谢病聚类分型样本进行生存分析结果如图4的B所示,结果表明不同分型之间的UCEC病人的生存是有差异的,P<0.001,差异有显著统计学意义。
4.预后模型构建
对于UCEC中代谢病相关聚类分组差异基因和生存时间数据取交集,得到共有基因表示既是代谢病相关的靶基因,又是与UCEC相关的显著差异表达基因,还是预后相关的基因。对上述DEGs利用LASSO算法回归进行交叉验证,得到构建模型的核心基因和公式。首先根据构建模型的核心基因得到模型基因的表达量,然后根据模型公式得到TGGA中每个病人的风险得分,根据风险得分的中位值,划分为高风险亚组和低风险亚组,对2个亚组患者的生存时间进行比较。模型公式为:N1×coef1+N2×coef2+……Nn×coefn。
为了减少假阳性,我们对上述不同分型之间的显著差异表达基因与UCEC生存分析合并,得到共有预后基因,此时,共有基因表示既是代谢病相关靶基因,又是与子宫内膜癌相关的差异表达基因,还是预后相关基因,最终选择8个DEGs用于构建UCEC患者预后预测模型,参与构建预后模型基因为GFRA4、B4GALNT3、BX322234.1、STX18、LINC02308、AC007422.1、MBOAT2、MGAT4A。对研究组每个患者生存风险进行评分,分为高风险组和低风险组。风险评分=(0.0282×GFRA4的表达量)+(-0.0159×B4GALNT3的表达量)+(0.1914×BX322234.1的表达量)+(-0.0318×STX18的表达量)+(0.0271×LINC02308的表达量)+(0.0107×MGAT4A的表达量)+(0.0754×MBOAT2的表达量)+(0.1297×STX18的表达量)。使用R语言的survival ROC软件包检测该模型对研究患者预后预测准确性的分析结果如图6显示,低风险组患者的OS期显著长于高风险组,并且差异有显著统计学意义(P<0.001)。
5.预后风险分析
对UCEC筛选的代谢病相关预后差异基因,使用R语言的survival包进行LASSO回归后,进一步进行单因素Cox比例风险回归分析构建UCEC患者预后预测模型。利用survival受试者工作特征(ROC)曲线、风险曲线、PCA分析和t-SNE分析,检测该预测模型的准确性,以便临床更便捷、客观预测患者预后情况。
该预后模型预测UCEC患者OS期的ROC曲线的曲线下面积(area under curve,AUC)结果如图8的A所示,1年生存率为0.736,3年生存率为0.750,5年生存率为0.761(P<0.001),将其与患者病理类型结合,可及时识别高危患者,对UCEC患者OS期具有良好预测能力。风险曲线分析结果如图8的B和C所示,我们所构建预后模型中的高危与低危UCEC患者分布,蓝色点代表存活的患者,红色点代表死亡的患者,可以看到随着风险得分越高,高危UCEC患者增多了,死亡的人数多了。从PCA分析(图8的D)和SNE分析(图8的E)结果可以看出,高危和低危患者明显分为两群,说明参与模型构建的基因可以区分高低风险组的病人。综上分析得出我们所构建代谢病相关UCEC预后模型对子宫内膜癌患者具有良好预测能力。
6.风险评分作为UCEC的独立预后因素
为了进一步探讨所构建预后模型风险评分是否可以作为独立的临床预后因子,将单变量和多变量Cox比例风险回归分析应用于TCGA队列,分析结果总结见表2。由表2可知,单因素分析发现风险评分(riskscore)、临床分级、年龄是UCEC患者总生存率的风险因子,进一步对单因素分析中p<0.05的因素进行多因素分析发现riskscore仍然是UCEC患者总生存率的独立预后因素(HR=12.292[4.705-32.110],p<0.001)。因此,所构建预后模型风险评分可以作为UCEC患者的独立预后因素。
表2 TCGA数据集中UCEC患者OS单因素和多因素分析
Figure BDA0003431515370000111
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (14)

1.一种代谢相关子宫内膜癌预后模型的构建方法,其特征在于,包括以下步骤:
步骤1)在公共数据库中分别获取子宫内膜癌UCEC患者的肿瘤样本和正常样本组织的转录组的基因数据;
步骤2)在数据库中获取与代谢病或糖代谢相关基因数据集,将其与步骤1)中获得的UCEC样本转录组的基因数据取交集,进而筛选出UCEC样本与代谢相关的共同基因的差异基因;
步骤3)利用步骤2)得到的差异基因合并UCEC生存时间数据,得到预后相关的显著差异基因,将上述显著差异基因利用LASSO算法回归进行交叉验证,得到所构建模型的核心基因和公式。
2.根据权利要求1所述的构建方法,其特征在于,步骤2)中所述的筛选的方法为:将所获得的共同基因靶点研究组与正常样本组织对照组的转录组数据进行log2标准化后,采用R语言软件的LIMMA包,对所述研究组与所述对照组的代谢相关基因的转录组数据进行威尔科克森符号秩检验,筛选得到所述代谢相关肿瘤样本与正常样本之间的差异基因;
所述筛选的标准为Pvalue<0.05。
3.根据权利要求1或2所述的构建方法,其特征在于,步骤3)之前还包括对步骤2)所获得的差异基因进行聚类分型的过程。
4.根据权利要求3所述的构建方法,其特征在于,所述聚类分型的方法为:根据步骤2)中获得的差异基因的表达量的相关性对其对应的患者进行聚类分型,将患者分为两组,对两组数据进行威尔科克森符号秩检验,筛选得到差异基因;
所述筛选的标准为:对第一组与第二组患者倍性变化值FC取对数,若|logFC|>1,错误发现率FDR<0.05的基因,则筛选为差异基因;
其中,倍性变化值FC表示第一组子宫内膜癌患者差异基因的表达量与第二组子宫内膜癌患者差异基因的表达量的比值;错误发现率FDR表示所有发现的差异基因中,实际并非差异基因所占的比例。
5.根据权利要求4所述的构建方法,其特征在于,步骤3)中所述的表达公式为:风险得分=N1×coef1+N2×coef2+……Nn×coefn
其中,Nn代表相关差异基因的表达量,coefn代表相关差异基因所对应的回归系数。
6.根据权利要求1所述的构建方法,其特征在于,所述构建方法还包括:
步骤4)对步骤3)中筛选出的预后模型的相关差异基因,使用R语言软件的survival包进行LASSO回归后,进一步进行单因素Cox比例风险回归分析构建的代谢相关子宫内膜癌预后模型。
7.一种标志物的组合物,其特征在于,所述标志物的组合物包括由如权利要求1~6任意一项中所述的构建方法筛选得到的所述相关差异基因。
8.根据权利要求7所述的标志物的组合物,其特征在于,所述相关差异基因包括B4GALNT3、TMEM63C、TRBJ2-3、FOXO6、NTS、SNAP25、BX322234.1、STX18、LINC02308、DLGAP3、AC007422.1、MBOAT2、MGAT4A和DDC。
9.根据权利要求7所述的标志物的组合物,其特征在于,所述相关差异基因包括GFRA4、B4GALNT3、BX322234.1、STX18、LINC02308、AC007422.1、MBOAT2和MGAT4A。
10.一种检测如权利要求7~9任意一项中所述的标志物的组合物的试剂;
优选地,所述试剂以液体或者固定在载体上的方式使用。
11.一种用于评估子宫内膜癌预后风险的试剂盒,其特征在于,所述试剂盒包含如权利要求10所述的试剂。
12.一种用于评估子宫内膜癌预后风险的装置,其特征在于,所述装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;
所述计算机程序被所述处理器执行时,运行如权利要求1~6任意一项中所述的构建方法所构建的代谢相关子宫内膜癌预后模型,通过输入受试者的所述相关差异基因的表达量,得出风险得分,根据预设的风险阈值,判断受试者子宫内膜癌预后风险。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有如权利要求1~6任意一项中所述的构建方法所构建的代谢相关子宫内膜癌预后模型程序,所述程序被处理器执行时,实现如权利要求12所述的装置的功能。
14.如权利要求7~9任意一项中所述的标志物的组合物或如权利要求10所述的试剂在制备评估子宫内膜癌预后风险的产品中的用途。
CN202111600432.2A 2021-12-24 2021-12-24 代谢相关子宫内膜癌的预后模型及构建方法 Pending CN114360721A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111600432.2A CN114360721A (zh) 2021-12-24 2021-12-24 代谢相关子宫内膜癌的预后模型及构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111600432.2A CN114360721A (zh) 2021-12-24 2021-12-24 代谢相关子宫内膜癌的预后模型及构建方法

Publications (1)

Publication Number Publication Date
CN114360721A true CN114360721A (zh) 2022-04-15

Family

ID=81101300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111600432.2A Pending CN114360721A (zh) 2021-12-24 2021-12-24 代谢相关子宫内膜癌的预后模型及构建方法

Country Status (1)

Country Link
CN (1) CN114360721A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115656392A (zh) * 2022-12-14 2023-01-31 山东大学齐鲁医院 尿液代谢物在制备鉴别子宫内膜癌保留生育功能治疗孕激素耐药患者的产品中的应用
CN116798632A (zh) * 2023-07-13 2023-09-22 山东第一医科大学附属省立医院(山东省立医院) 一种基于代谢基因的胃癌分子分型及预后预测模型构建方法及应用

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115656392A (zh) * 2022-12-14 2023-01-31 山东大学齐鲁医院 尿液代谢物在制备鉴别子宫内膜癌保留生育功能治疗孕激素耐药患者的产品中的应用
CN115656392B (zh) * 2022-12-14 2023-04-07 山东大学齐鲁医院 尿液代谢物在制备鉴别子宫内膜癌保留生育功能治疗孕激素耐药患者的产品中的应用
CN116798632A (zh) * 2023-07-13 2023-09-22 山东第一医科大学附属省立医院(山东省立医院) 一种基于代谢基因的胃癌分子分型及预后预测模型构建方法及应用
CN116798632B (zh) * 2023-07-13 2024-04-30 山东第一医科大学附属省立医院(山东省立医院) 一种基于代谢基因的胃癌分子分型及预后预测模型构建方法及应用

Similar Documents

Publication Publication Date Title
JP2021521536A (ja) 生体試料の多検体アッセイのための機械学習実装
Carr et al. Genomic and proteomic approaches for studying human cancer: prospects for true patient-tailored therapy
Milanez-Almeida et al. Cancer prognosis with shallow tumor RNA sequencing
US20120115138A1 (en) Method for in vitro diagnosing a complex disease
EP3942556A1 (en) Systems and methods for deriving and optimizing classifiers from multiple datasets
US8030060B2 (en) Gene signature for diagnosis and prognosis of breast cancer and ovarian cancer
US20140040264A1 (en) Method for estimation of information flow in biological networks
US20140154681A1 (en) Methods to Predict Breast Cancer Outcome
WO2016164815A1 (en) Protein biomarker panels for detecting colorectal cancer and advanced adenoma
CN114360721A (zh) 代谢相关子宫内膜癌的预后模型及构建方法
US20190018930A1 (en) Method for building a database
US20180100858A1 (en) Protein biomarker panels for detecting colorectal cancer and advanced adenoma
WO2011161186A1 (en) Method for in vitro diagnosing sepsis utilizing biomarker composed of more than two different types of endogenous biomolecules
CN112626218A (zh) 一种用于预测胰腺癌转移风险的基因表达分类器、体外诊断试剂盒
JP2023524016A (ja) 結腸細胞増殖性障害を特定するためのrnaマーカと方法
CN114317532B (zh) 用于预测白血病预后的评估基因集、试剂盒、系统及应用
Li et al. Whole transcriptome analysis reveals non-coding RNA's competing endogenous gene pairs as novel form of motifs in serous ovarian cancer
Shimizu et al. Pan-cancer methylome analysis for cancer diagnosis and classification of cancer cell of origin
CN113345592B (zh) 一种急性髓细胞样白血病预后风险模型的构建及诊断设备
CN113470813A (zh) 肝癌患者生存率预后模型
CN113345589A (zh) 肝癌预后模型的构建方法及应用方法、电子设备
CN114496062A (zh) 脂代谢相关子宫内膜癌的预后模型及构建方法
Jørgensen et al. Untangling the intracellular signalling network in cancer—A strategy for data integration in acute myeloid leukaemia
Bergamaschi et al. Pilot study demonstrating changes in DNA hydroxymethylation enable detection of multiple cancers in plasma cell-free DNA
Xia et al. Identifying TME signatures for cervical cancer prognosis based on GEO and TCGA databases

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication