CN116758986A - 一种基于铜死亡相关基因的肺腺癌预后模型的构建方法 - Google Patents

一种基于铜死亡相关基因的肺腺癌预后模型的构建方法 Download PDF

Info

Publication number
CN116758986A
CN116758986A CN202310725068.5A CN202310725068A CN116758986A CN 116758986 A CN116758986 A CN 116758986A CN 202310725068 A CN202310725068 A CN 202310725068A CN 116758986 A CN116758986 A CN 116758986A
Authority
CN
China
Prior art keywords
lung adenocarcinoma
copper
death
survival
genes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310725068.5A
Other languages
English (en)
Inventor
郑泽茂
胡亚惠
葛静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southern Hospital Southern Medical University
Original Assignee
Southern Hospital Southern Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southern Hospital Southern Medical University filed Critical Southern Hospital Southern Medical University
Priority to CN202310725068.5A priority Critical patent/CN116758986A/zh
Priority to LU103183A priority patent/LU103183B1/en
Publication of CN116758986A publication Critical patent/CN116758986A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Pathology (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请提供一种基于铜死亡相关基因的肺腺癌预后模型的构建方法,所述方法包括:获取来自基因表达综合数据库的肺腺癌单细胞数据;根据单细胞分析对所述肺腺癌单细胞数据进行分析以获取铜死亡通路活性最高的细胞亚群;筛选所述铜死亡通路活性最高的细胞亚群与其他细胞亚群之间的差异化表达基因;筛选所述差异化表达基因以获取肺腺癌生存预测基因;根据所述肺腺癌生存预测基因建立肺腺癌预后模型,其中,所述肺腺癌生存预测基因包括ANKRD29、RHOV、TLE1及NPAS2,所述方法能够更准确地评估患者的预后风险,并为个体化治疗决策提供参考,这样的预后模型根据患者的基因表达特征和生存信息制定更有效的治疗方案,提高患者的生存率和生活质量。

Description

一种基于铜死亡相关基因的肺腺癌预后模型的构建方法
技术领域
本申请涉及健康管理技术领域,尤其涉及一种基于铜死亡相关基因的肺腺癌预后模型的构建方法。
背景技术
肺腺癌(Lung Adenocarcinoma,LUAD)是肺癌的一种亚型,在全球范围内的发病率和死亡率均较高,对人类健康构成了严重威胁。目前,肺腺癌往往难以识别,大多数患者在诊断时已处于晚期,癌细胞的远距离扩散会导致严重的健康后果。化疗、放疗和手术是肺癌的常规治疗方法,但不同患者的治疗效果有所不同,有些患者预后效果较差,需要及时介入。因此,迫切需要识别预后特征,以预测LUAD患者的长期生存率,从而为提供个体化治疗方案、改善预后提供依据。
细胞死亡是生命中常见的现象,也是生命科学研究中的热点之一。细胞可以通过不同的方式进行死亡,包括凋亡、坏死和铁死亡等多种类型。金属离子在细胞功能中起着重要作用,其中铜是人体必需的微量元素。然而,当细胞暴露在过多或过少的铜离子环境中时,可能导致细胞死亡。在哺乳动物细胞中,铜的含量通常较低,超过细胞所需的稳态阈值会引发细胞毒性反应。近期的研究发现了一种新型的依赖于铜离子调控的细胞死亡模式,被称为铜诱导的细胞死亡或铜死亡。然而,铜死亡相关基因在肺腺癌中的作用尚不清楚。
发明内容
有鉴于此,有必要提供一种基于铜死亡相关基因的肺腺癌预后模型的构建方法,能够至少克服以上缺陷之一。
第一方面,本申请实施例提供一种基于铜死亡相关基因的肺腺癌预后模型的构建方法,所述方法包括:获取来自基因表达综合数据库的肺腺癌单细胞数据;根据单细胞分析对所述肺腺癌单细胞数据进行分析以获取铜死亡通路活性最高的细胞亚群;筛选所述铜死亡通路活性最高的细胞亚群与其他细胞亚群之间的差异化表达基因;筛选所述差异化表达基因以获取肺腺癌生存预测基因;根据所述肺腺癌生存预测基因建立肺腺癌预后模型,其中,所述肺腺癌生存预测基因包括ANKRD29、RHOV、TLE1及NPAS2。
根据本申请的一个实施例,所述铜死亡通路活性最高的细胞亚群为上皮细胞亚群。
根据本申请的一个实施例,所述筛选所述差异化表达基因以获取肺腺癌生存预测基因,包括:应用单因素COX生存分析算法分析所述差异化表达基因以获取预后相关基因;应用随机森林生存算法筛选所述预后相关基因以获取所述肺腺癌生存预测基因。
根据本申请的一个实施例,所述方法还包括:根据FindMarkers算法筛选所述上皮细胞亚群与其他细胞亚群的所述差异化表达基因。
根据本申请的一个实施例,所述根据所述肺腺癌生存预测基因建立肺腺癌预后模型,包括:根据癌症基因组图谱获取肺腺癌患者的转录图谱及临床信息;根据所述肺腺癌生存预测基因、所述转录图谱及所述临床信息或建立所述肺腺癌预后模型。
根据本申请的一个实施例,所述获取来自基因表达综合数据库的肺腺癌单细胞数据还包括:排除患者生存时间小于三十天的所述临床信息。
根据本申请的一个实施例,所述肺腺癌预后模型为:风险系数=0.0595*NPAS2+0.1717*TLE1+0.1217*RHOV+(-0.073)*ANKRD29。
根据本申请的一个实施例,所述肺腺癌预后模型用于预测肺腺癌患者的1年、3年及5年生存率。
根据本申请的一个实施例,所述方法还包括:根据所述转录图谱及所述临床信息建立训练组以及验证组;根据所述训练组训练所述肺腺癌预后模型;根据所述验证组验证所述肺腺癌预后模型的预测结果。
根据本申请的一个实施例,所述方法还包括:将所述训练组的数据输入所述肺腺癌预后模型,以获取所述风险系数的中位数;根据所述中位数将所述肺腺癌患者分为高危组及低危组。
本申请实施方式提供的基于铜死亡相关基因的肺腺癌预后模型的构建方法,能够更准确地评估患者的预后风险,并为个体化治疗决策提供参考。这样的预后模型根据患者的基因表达特征和生存信息制定更有效的治疗方案,提高患者的生存率和生活质量。
附图说明
图1为本申请一实施例提供的基于铜死亡相关基因的肺腺癌预后模型的构建方法流程示意图。
图2为本申请一实施例提供的铜死亡通路的活性示意图。
图3为本申请一实施例提供的细胞亚群中铜死亡通路的活性示意图。
图4为本申请一实施例提供的基因预测能力示意图。
图5a为本申请一实施例提供的K-M生存分析示意图。
图5b为本申请一实施例提供的K-M生存分析示意图。
图6为本申请一实施例提供的肺腺癌患者生存率示意图。
具体实施方式
下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本申请一部分实施方式,而不是全部的实施方式。
需要说明的是,本申请实施例中“至少一个”是指一个或者多个,多个是指两个或两个以上。除非另有定义,本文所使用的所有的技术和科学术语与属于本申请中的技术领域的技术人员通常理解的含义相同。本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
需要说明的是,本申请实施例中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请实施例的描述中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
基于本申请中的实施方式,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施方式,都是属于本申请保护的范围。
肺腺癌(Lung Adenocarcinoma,LUAD)是肺癌的一种亚型,在全球范围内的发病率和死亡率均较高,对人类健康构成了严重威胁。目前,肺腺癌往往难以识别,大多数患者在诊断时已处于晚期,癌细胞的远距离扩散会导致严重的健康后果。化疗、放疗和手术是肺癌的常规治疗方法,但不同患者的治疗效果有所不同,有些患者预后效果较差,需要及时介入。因此,迫切需要识别预后特征,以预测LUAD患者的长期生存率,从而为提供个体化治疗方案、改善预后提供依据。
细胞死亡是生命中常见的现象,也是生命科学研究中的热点之一。细胞可以通过不同的方式进行死亡,包括凋亡、坏死和铁死亡等多种类型。金属离子在细胞功能中起着重要作用,其中铜是人体必需的微量元素。然而,当细胞暴露在过多或过少的铜离子环境中时,可能导致细胞死亡。在哺乳动物细胞中,铜的含量通常较低,超过细胞所需的稳态阈值会引发细胞毒性反应。近期的研究发现了一种新型的依赖于铜离子调控的细胞死亡模式,被称为铜诱导的细胞死亡或铜死亡。然而,铜死亡相关基因在肺腺癌中的作用尚不清楚。
因此,本申请实施例提供一种基于铜死亡相关基因的肺腺癌预后模型的构建方法,能够更准确地评估患者的预后风险,并为个体化治疗决策提供参考。这样的预后模型根据患者的基因表达特征和生存信息制定更有效的治疗方案,提高患者的生存率和生活质量。
下面结合附图,对申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
图1是本申请一实施例提供的基于铜死亡相关基因的肺腺癌预后模型的构建方法流程示意图。如图1所示的基于铜死亡相关基因的肺腺癌预后模型的构建方法,至少包括以下步骤:S100:获取来自基因表达综合数据库的肺腺癌单细胞数据;S200:根据单细胞分析对肺腺癌单细胞数据进行分析以获取铜死亡通路活性最高的细胞亚群;S300:筛选铜死亡通路活性最高的细胞亚群与其他细胞亚群之间的差异化表达基因;S400:筛选差异化表达基因以获取肺腺癌生存预测基因;S500:根据肺腺癌生存预测基因建立肺腺癌预后模型。
S100:获取来自基因表达综合数据库的肺腺癌单细胞数据。
可以理解的是,在进行基于基因表达的模型构建时,数据的收集是非常重要的一步。在基于铜死亡相关基因的肺腺癌预后模型的构建方法中,首先从两个主要的数据库中收集数据,分别是基因表达综合数据库(Gene Expression Omnibus,GEO)数据库的GES131907和癌症基因组图谱(The Cancer Genome Atlas,TCGA)-LUAD数据库。可以理解的是,GEO数据库是一个公共数据资源,其中包含了广泛的基因表达数据和相关的实验信息,TCGA项目是一个旨在系统性研究多种癌症类型的基因组学特征的项目,提供了大规模的癌症患者样本和临床数据。
具体地,在步骤S100中,首先从GEO数据库的GES131907中获取了11个肺腺癌单细胞数据集,并将其下载以供后续分析使用。这些单细胞数据集提供了对个体细胞的高分辨率基因表达信息,可以用于分析肺腺癌的细胞异质性和分子特征。
具体地,在步骤S100中,随后从TCGA-LUAD数据库中提取了肺腺癌患者的转录图谱和相应的临床信息。可以理解的是,转录图谱反映了肺腺癌组织中基因的表达水平。可以理解的是,临床信息包括年龄、性别、疾病分期、生存期等。这些临床信息可以用于进一步分析肺腺癌患者的预后特征和生存率。
可以理解的是,在本申请提供的基于铜死亡相关基因的肺腺癌预后模型的构建方法中,通过收集这些数据集,可以利用这些丰富的资源来进行肺腺癌的分子分析和预后模型的构建。这将有助于深入了解肺腺癌的发病机制,寻找与预后相关的基因表达特征,并为个体化的治疗和预后评估提供有益的信息。
S200:根据单细胞分析对肺腺癌单细胞数据进行分析以获取铜死亡通路活性最高的细胞亚群。
可以理解的是,在步骤S200中,根据单细胞分析对肺腺癌单细胞数据进行分析以获取铜死亡通路活性最高的细胞亚群。具体地,可以利用聚类算法(如t-SNE、PCA、k-means等)将单细胞数据分为不同的亚群,每个亚群代表具有相似转录组特征的细胞群体。随后,根据铜死亡通路的相关基因或基因集,计算每个细胞亚群中铜死亡通路的活性水平。最后,通过比较不同细胞亚群中铜死亡通路的活性水平,可以确定哪个亚群具有最高的活性。
可以理解的是,在本申请实施例中,铜死亡通路活性最高的细胞亚群为上皮细胞亚群。
可以理解的是,在本申请实施例中,根据单细胞分析对肺腺癌单细胞数据进行分析以获取铜死亡通路活性最高的细胞亚群还包括应用单因素COX生存分析算法分析差异化表达基因以获取预后相关基因,以及应用随机森林生存算法筛选预后相关基因以获取肺腺癌生存预测基因。
可以理解的是,在本申请提供的基于铜死亡相关基因的肺腺癌预后模型的构建方法中,获得铜死亡通路活性最高的细胞亚群,有助于了解肺腺癌中铜死亡通路的重要性以及相关的细胞类型和功能。
S300:筛选铜死亡通路活性最高的细胞亚群与其他细胞亚群之间的差异化表达基因。
可以理解的是,在步骤S300中,筛选铜死亡通路活性最高的细胞亚群与其他细胞亚群之间的差异化表达基因。具体地,使用统计方法,对铜死亡通路活性最高的细胞亚群和其他细胞亚群之间的基因表达数据进行差异分析,以找到上调基因。随后,对差异化表达基因进行功能注释和富集分析,以了解这些基因在细胞亚群之间的生物学功能差异。最后,根据功能注释的结果,解释铜死亡通路活性最高的细胞亚群与其他细胞亚群之间的差异。
可以理解的是,在本申请实施例中,筛选铜死亡通路活性最高的细胞亚群与其他细胞亚群之间的差异化表达基因可以根据FindMarkers算法筛选上皮细胞亚群与其他细胞亚群的差异化表达基因。
S400:筛选差异化表达基因以获取肺腺癌生存预测基因。
可以理解的是,在步骤S400中,筛选差异化表达基因以获取肺腺癌生存预测基因。具体地,将筛选得到的差异表达基因与临床数据中的生存时间和事件信息进行关联分析。例如,使用Kaplan-Meier生存分析和Cox比例风险回归分析来统计生存预测基因的显著性。根据统计得出的显著性,确定与肺腺癌患者生存相关的基因。
S500:根据肺腺癌生存预测基因建立肺腺癌预后模型。
可以理解的是,在步骤S500中,根据肺腺癌生存预测基因建立肺腺癌预后模型。具体地,将数据集分为训练集和测试集,利用训练集构建生存预测模型,并使用测试集评估模型的性能和预测能力。
可以理解的是,在本申请实施例中,可以根据癌症基因组图谱获取肺腺癌患者的转录图谱及临床信息;根据肺腺癌生存预测基因、转录图谱及临床信息或建立肺腺癌预后模型。具体地,在获取患者临床信息时,还包括排除患者生存时间小于三十天的临床信息。
可以理解的是,在本申请实施例中,风险系数=0.0595*NPAS2+0.1717*TLE1+0.1217*RHOV+(-0.073)*ANKRD29。具体地,可以肺腺癌预后模型用于预测肺腺癌患者的1年、3年及5年生存率。
可以理解的是,在本申请实施例中,基于铜死亡相关基因的肺腺癌预后模型的构建方法根据转录图谱及临床信息建立训练组以及验证组。随后,根据训练组训练肺腺癌预后模型。最后,根据验证组验证肺腺癌预后模型的预测结果。具体地,将训练组的数据输入肺腺癌预后模型,以获取风险系数的中位数;根据中位数将肺腺癌患者分为高危组及低危组。
可以理解的是,本申请实施例提供的基于铜死亡相关基因的肺腺癌预后模型的构建方法可以预测肺腺癌患者生存期、识别潜在的靶向治疗靶点以及实现肺腺癌患者个体化治疗决策。
下面以一个示例性实施例描述本申请提供的基于铜死亡相关基因的肺腺癌预后模型的构建方法。
首先,从基因表达综合数据库的GES131907中获取11个肺腺癌单细胞数据集,并从癌症基因组图谱(The Cancer Genome Atlas,TCGA)-LUAD数据库中提取了肺腺癌患者的转录图谱和相应的临床信息。通过排除生存时间低于30天的肺腺癌患者筛选得出503例肺腺癌患者信息,以进行肺腺癌预后模型构建。
随后,对肺腺癌单细胞数据集以及肺腺癌患者的转录图谱和相应的临床信息进行数据标准化处理。具体的,可以使用limma 3.52.2进行数据标准化处理。
接下来,通过标记物对不同类别的细胞进行分组。例如,可以通过标记物CD79A对应B淋巴细胞;RAMP2、VWF和ACKR1对内皮细胞;LUM、COL3A1和DCN对成纤维细胞;TPSAB1和CPA3对应肥大细胞;CD8A,CD8B和CD3D对应T淋巴细胞;LYZ和C1QB对髓细胞;S100A2和SFN对应上皮细胞;NKG7对应NK细胞。
接下来,使用AUCell R包,针对每个细胞亚群中的细胞样本,计算铜死亡通路的活性。AUCell可以基于已知的基因集,评估细胞样本中基因集的富集程度,从而确定铜死亡通路的活性。确定相关性最高的细胞亚群:根据铜死亡通路的活性结果,确定与铜死亡通路相关性最高的细胞亚群。可以选择具有最高活性值或显著富集程度的细胞亚群作为与铜死亡通路最相关的亚群。
具体的,已知的基因集可以包括常见的上调基因,例如CDKN2A,FDX1,DLD,DLAT,LIAS,GLS,LIPT1,MTF1,PDHA1,and PDHB。
图2是本申请一实施例提供的铜死亡通路的活性示意图。
可以理解的是,AUC值越大,表明铜化通路活性越强。如图2所示,AUC值>0.034的细胞有32011个。通过对AUC值>0.034的细胞进行分析,可以获取铜死亡通路活跃的细胞亚群。
图3是本申请一实施例提供的细胞亚群中铜死亡通路的活性示意图。
可以理解的是,通过t-分布随机近邻嵌入(t-Distributed Stochastic NeighborEmbedding,t-SNE)对不同细胞亚群的铜死亡通路的活性进行分析。可以理解的是,t-SNE是一种用于可视化高维数据的降维技术。它可以将高维数据映射到二维或三维空间中,以便于观察和分析。具体地,t-SNE通过考虑数据点之间的相似性来构建降维表示。它基于随机梯度下降算法,在高维空间中优化数据点之间的相对距离和低维空间中的相对距离之间的差异。在降维过程中,t-SNE尤其关注于保留数据点之间的局部结构,即相似的数据点在降维后仍然保持接近。
如图3所示,可以明显判断得出上皮细胞中的铜死亡通路比其他细胞亚群更加活跃。随后,通过FindMarkers算法在上皮细胞亚群和其他亚群中寻找差异表达基因DEGs。
可以理解的是,FindMarkers算法是一种常用的差异表达基因筛选方法,用于识别在不同细胞亚群之间表达差异显著的基因。FindMarkers算法基于统计学方法,通过比较各个细胞亚群的基因表达水平,找出在不同细胞亚群之间具有显著差异表达的基因。
可以理解的是,在上皮细胞亚群和其他亚群之间筛选出的差异表达基因可以通过使用clusterProfiler等功能注释工具进行进一步的功能注释和分析。具体地,使用clusterProfiler对这些DEGs进行功能注释时,可以运用不同的数据库和注释资源,如基因本体论(Gene Ontology,GO)和生物通路数据库(如KEGG)。在本申请实施例中,通过KEGG通路富集分析,发现这些基因主要与局灶黏附、紧密连接和Hippo信号通路等多个通路相关。
此外,在本申请实施例中,还进行了基因本体论分析。通过基因本体论分析可以发现,DEGs主要与基因本体论术语GO:0005911和GO:0015629相关。其中,GO:0005911涉及到细胞-细胞粘附的过程,而GO:0015629则涉及到基因表达调控的过程。
在本申请实施例中,通过进一步进行单因素COX生存分析时,可以使用tinyarray包来评估DEGs与预后相关性。根据设定的阈值,当P值小于0.01时,可以认为基因与预后相关。在本申请实施例中,通过筛选P值小于0.01的基因,共筛选出了112个与预后相关的基因。
随后,通过随机森林分析算法从P值小于0.01的112个与预后相关的基因中筛选出对于肺腺癌患者预后预测肺腺癌生存期限相关度最高的预测基因。
图4是本申请一实施例提供的基因预测能力示意图。
具体的,如图4所示,通过随机森林分析算法筛选得出的四个预测能力最强的基因分别是ANKRD29、RHOV、TLE1及NPAS2。
可以理解的是,这些预后相关基因可能在肺腺癌患者的生存期和预后中发挥重要的作用。它们可能与肿瘤的发展、进展以及治疗反应等方面有关,为进一步的临床研究和个体化治疗提供了有价值的信息。
随后,通过ANKRD29、RHOV、TLE1及NPAS2这四个基因可以构建肺腺癌预后模型,并可以用于计算预后风险系数。
具体的,风险系数=0.0595*NPAS2+0.1717*TLE1+0.1217*RHOV+(-0.073)*ANKRD29。
图5a是本申请一实施例提供的K-M生存分析示意图。图5b是本申请一实施例提供的K-M生存分析示意图。
可以理解的是,通过风险系数的中位数将肺腺癌患者划分为高危组和低危组,并通过K-M生存曲线(Kaplan-Meier survival curve)进行分析。如图5a及图5b所示,低危组的肺腺癌患者生存期更长,明显优于高危组的肺腺癌患者。
可以理解的是,K-M生存曲线通常以时间为横轴,生存率(或生存概率)为纵轴。曲线表示在不同时间点上生存的概率,可以显示不同组别或亚组之间的生存差异。生存曲线随着时间的推移可能逐渐下降,反映出事件(如死亡)发生的风险增加。K-M生存曲线在临床研究和生物医学研究中广泛应用,特别是在评估治疗效果、预测患者生存期、研究预后因素等方面。通过比较不同组别或亚组的生存曲线,可以得出是否存在生存差异以及差异的显著性。
具体地,在K-M生存曲线中,低危组的生存曲线可能表现出更高的生存率,并且随着时间的推移,其生存率下降的速度可能较低。相比之下,高危组的生存曲线可能呈现出较低的生存率,并且其生存率下降的速度可能较快。可以理解的是,这种结果对于预测肺腺癌患者的预后和指导治疗决策非常重要。低危组肺腺癌患者可能更有利于接受较轻微的治疗或监测,而高危组肺腺癌患者可能需要更加积极和个体化的治疗策略。因此,根据肺腺癌患者的预后风险分层,可以为肺腺癌患者提供更精确的个体化治疗,以改善其生存期和预后结果。
图6是本申请一实施例提供的肺腺癌患者生存率示意图。
在本申请实施例中,图6示出了肺腺癌预后模型预测得出的肺腺癌患者1年、3年及5年的生存率。具体的,肺腺癌患者1年生存率的ROC曲线下面积(AUC)为0.67,肺腺癌患者3年生存率的AUC为0.69,肺腺癌患者5年生存率的AUC为0.64。
可以理解的是,使用本申请请实施例提供的基于铜死亡相关基因的肺腺癌预后模型的构建方法构建得出的肺腺癌预后模型能够准确预测患者的生存期,可以帮助医生及早识别高风险患者,并采取相应的干预措施。
本申请实施例提供的基于铜死亡相关基因的肺腺癌预后模型的构建方法,能够更准确地评估患者的预后风险,并为个体化治疗决策提供参考。这样的预后模型根据患者的基因表达特征和生存信息制定更有效的治疗方案,提高患者的生存率和生活质量。
本技术领域的普通技术人员应当认识到,以上的实施方式仅是用来说明本申请,而并非用作为对本申请的限定,只要在本申请的实质精神范围之内,对以上实施例所作的适当改变和变化都落在本申请要求保护的范围之内。

Claims (10)

1.一种基于铜死亡相关基因的肺腺癌预后模型的构建方法,其特征在于,所述方法包括:
获取来自基因表达综合数据库的肺腺癌单细胞数据;
根据单细胞分析对所述肺腺癌单细胞数据进行分析以获取铜死亡通路活性最高的细胞亚群;
筛选所述铜死亡通路活性最高的细胞亚群与其他细胞亚群之间的差异化表达基因;
筛选所述差异化表达基因以获取肺腺癌生存预测基因;
根据所述肺腺癌生存预测基因建立肺腺癌预后模型,其中,所述肺腺癌生存预测基因包括ANKRD29、RHOV、TLE1及NPAS2。
2.如权利要求1所述的基于铜死亡相关基因的肺腺癌预后模型的构建方法,其特征在于:
所述铜死亡通路活性最高的细胞亚群为上皮细胞亚群。
3.如权利要求2所述的基于铜死亡相关基因的肺腺癌预后模型的构建方法,其特征在于,所述筛选所述差异化表达基因以获取肺腺癌生存预测基因,包括:
应用单因素COX生存分析算法分析所述差异化表达基因以获取预后相关基因;
应用随机森林生存算法筛选所述预后相关基因以获取所述肺腺癌生存预测基因。
4.如权利要求2所述的基于铜死亡相关基因的肺腺癌预后模型的构建方法,其特征在于,所述方法还包括:
根据FindMarkers算法筛选所述上皮细胞亚群与其他细胞亚群的所述差异化表达基因。
5.如权利要求1所述的基于铜死亡相关基因的肺腺癌预后模型的构建方法,其特征在于,所述根据所述肺腺癌生存预测基因建立肺腺癌预后模型,包括:
根据癌症基因组图谱获取肺腺癌患者的转录图谱及临床信息;
根据所述肺腺癌生存预测基因、所述转录图谱及所述临床信息或建立所述肺腺癌预后模型。
6.如权利要求5所述的基于铜死亡相关基因的肺腺癌预后模型的构建方法,其特征在于,所述获取来自基因表达综合数据库的肺腺癌单细胞数据还包括:
排除患者生存时间小于三十天的所述临床信息。
7.如权利要求6所述的基于铜死亡相关基因的肺腺癌预后模型的构建方法,其特征在于,所述肺腺癌预后模型为:
风险系数=0.0595*NPAS2+0.1717*TLE1+0.1217*RHOV+
(-0.073)*ANKRD29。
8.如权利要求7所述的基于铜死亡相关基因的肺腺癌预后模型的构建方法,其特征在于,所述肺腺癌预后模型用于预测肺腺癌患者的1年、3年及5年生存率。
9.如权利要求7所述的基于铜死亡相关基因的肺腺癌预后模型的构建方法,其特征在于,所述方法还包括:
根据所述转录图谱及所述临床信息建立训练组以及验证组;
根据所述训练组训练所述肺腺癌预后模型;
根据所述验证组验证所述肺腺癌预后模型的预测结果。
10.如权利要求9所述的基于铜死亡相关基因的肺腺癌预后模型的构建方法,其特征在于,所述方法还包括:
将所述训练组的数据输入所述肺腺癌预后模型,以获取所述风险系数的中位数;
根据所述中位数将所述肺腺癌患者分为高危组及低危组。
CN202310725068.5A 2023-06-16 2023-06-16 一种基于铜死亡相关基因的肺腺癌预后模型的构建方法 Pending CN116758986A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202310725068.5A CN116758986A (zh) 2023-06-16 2023-06-16 一种基于铜死亡相关基因的肺腺癌预后模型的构建方法
LU103183A LU103183B1 (en) 2023-06-16 2023-07-31 Method for building prognosis model of lung adenocarcinoma based on cuproptosis-related genes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310725068.5A CN116758986A (zh) 2023-06-16 2023-06-16 一种基于铜死亡相关基因的肺腺癌预后模型的构建方法

Publications (1)

Publication Number Publication Date
CN116758986A true CN116758986A (zh) 2023-09-15

Family

ID=87947411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310725068.5A Pending CN116758986A (zh) 2023-06-16 2023-06-16 一种基于铜死亡相关基因的肺腺癌预后模型的构建方法

Country Status (2)

Country Link
CN (1) CN116758986A (zh)
LU (1) LU103183B1 (zh)

Also Published As

Publication number Publication date
LU103183B1 (en) 2024-01-31

Similar Documents

Publication Publication Date Title
CN112048559B (zh) 基于m6A相关的IncRNA网络胃癌预后的模型构建及临床应用
CN111128299B (zh) 一种结直肠癌预后显著相关ceRNA调控网络的构建方法
CN108198621B (zh) 一种基于神经网络的数据库数据综合诊疗决策方法
CN110577998A (zh) 预测肝癌术后早期复发风险分子模型的构建及其应用评估
Ubels et al. Predicting treatment benefit in multiple myeloma through simulation of alternative treatment effects
CN108335756B (zh) 鼻咽癌数据库及基于所述数据库的综合诊疗决策方法
CN108206056B (zh) 一种鼻咽癌人工智能辅助诊疗决策终端
WO2020210487A1 (en) Systems and methods for nutrigenomics and nutrigenetic analysis
CN114203256B (zh) 基于微生物丰度的mibc分型及预后预测模型构建方法
CN111128385A (zh) 一种用于食管鳞癌的预后预警系统及其应用
CN111312334A (zh) 一种影响细胞间通讯的受体-配体系统分析方法
CN115762792A (zh) 一种基于lncRNA的优化模型预测膀胱癌患者生存预后的方法
CN115881232A (zh) 一种基于图神经网络和特征融合的scRNA-seq细胞类型注释方法
Li et al. FUNMarker: Fusion network-based method to identify prognostic and heterogeneous breast cancer biomarkers
CN108320797B (zh) 一种鼻咽癌数据库及基于所述数据库的综合诊疗决策方法
CN113584175A (zh) 一组评估肾乳头状细胞癌进展风险的分子标记及其筛选方法和应用
CN111763738A (zh) 一种特征mRNA表达谱组合及肝癌早期预测方法
CN110942808A (zh) 一种基于基因大数据的预后预测方法及预测系统
CN116758986A (zh) 一种基于铜死亡相关基因的肺腺癌预后模型的构建方法
Kong et al. A non-parametric meta-analysis approach for combining independent microarray datasets: application using two microarray datasets pertaining to chronic allograft nephropathy
Irigoien et al. Identification of differentially expressed genes by means of outlier detection
CN113707223A (zh) 一种预测肿瘤炎性小体活性状态及治疗敏感性的基因集系统及方法
Tsai et al. Significance analysis of ROC indices for comparing diagnostic markers: applications to gene microarray data
CN117766024B (zh) 一种卵巢癌cd8+ t细胞相关预后评估方法、系统及其应用
Suhiman et al. Classification of Breast Cancer Subtypes using Microarray RNA Expression Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination