CN115424728A - 一种肿瘤恶性细胞基因预后风险模型构建方法 - Google Patents

一种肿瘤恶性细胞基因预后风险模型构建方法 Download PDF

Info

Publication number
CN115424728A
CN115424728A CN202211359084.9A CN202211359084A CN115424728A CN 115424728 A CN115424728 A CN 115424728A CN 202211359084 A CN202211359084 A CN 202211359084A CN 115424728 A CN115424728 A CN 115424728A
Authority
CN
China
Prior art keywords
cell
malignant
tumor
cells
gene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211359084.9A
Other languages
English (en)
Inventor
吴嘉瑞
段小霞
黄志鸿
刘鑫馗
伍超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zeqiao Medical Technology Co ltd
Original Assignee
Beijing Zeqiao Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zeqiao Medical Technology Co ltd filed Critical Beijing Zeqiao Medical Technology Co ltd
Priority to CN202211359084.9A priority Critical patent/CN115424728A/zh
Publication of CN115424728A publication Critical patent/CN115424728A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Pathology (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Zoology (AREA)
  • Public Health (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Immunology (AREA)
  • Wood Science & Technology (AREA)
  • Hospice & Palliative Care (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Oncology (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Biochemistry (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种肿瘤恶性细胞基因预后风险模型构建方法,应用生物信息学,选择肿瘤患者群体作为研究对象,通过整合单细胞转录组测序数据集和全转录组测序数据集识别肿瘤致病相关的恶性细胞预后基因,并构建预后风险模型,有利于不同肿瘤诊断生物标志物的应用手册制定与靶向药物的设计,为肿瘤的临床诊断与治疗提供新的思路。

Description

一种肿瘤恶性细胞基因预后风险模型构建方法
技术领域
本发明涉及生物技术领域,具体涉及一种肿瘤恶性细胞基因预后风险模型构建方法。
背景技术
恶性肿瘤是严重危及人类健康的一类疾病,根据恶性肿瘤的起源不同可分为不同类型,包括来源于上皮细胞的恶性克隆性增生、间叶源性的恶性肿瘤以及淋巴造血系统的恶性疾病,来源于上皮细胞的恶性克隆性增生称为癌症,如肺癌、胃癌、乳腺癌、食管癌等,来源于间叶源性的恶性肿瘤可以称为肉瘤,如脂肪肉瘤、纤维肉瘤、骨肉瘤、间皮瘤等,淋巴造血系统的恶性疾病起源于淋巴系统的恶性肿瘤以及部分血液系统疾病,如白血病、多发性骨髓瘤等。不同的恶性肿瘤存在着特异的分子亚型与临床表现,虽然肿瘤的早期治愈率很高,但由于大部分肿瘤早期症状不明显,患者就诊时往往已处于中晚期,生存预后情况也不容乐观,临床上常用的肿瘤生物标志物特异性并不高,在不同肿瘤、年龄、性别的患者间均有较大的差异,不利于诊断与治疗,寻找与某类肿瘤起源相关的某种特定类型细胞基因,有利于不同肿瘤诊断生物标志物的应用手册制定与靶向药物的设计,具有较大的现实意义和学术意义。
随着高通量测序技术的发展与应用,恶性肿瘤的发病机制探索拥有了新的手段与方法,大大加快了人类肿瘤分子特征研究的步伐。传统的全转录组测序虽然可以提供海量的基因表达谱数据,但无法区分不同细胞谱系与细胞相互作用之间的关系,单细胞转录组测序的出现弥补了全转录组测序的不足,它提供了一种可以表征单个细胞转录状态的方法,可以根据恶性肿瘤的起源或具体特征选择合适的细胞类型进行深入研究。
发明内容
为此,本发明提供一种肿瘤恶性细胞基因预后风险模型构建方法,以联合单细胞转录组测序和全转录组测序数据寻找肿瘤恶性细胞基因并构建预后风险模型,为肿瘤的临床诊断与治疗提供新的思路。
为了实现上述目的,本发明提供如下技术方案:一种肿瘤恶性细胞基因预后风险模型构建方法,所述方法包括:
步骤一:从多个数据库中获取肿瘤患者的肿瘤组织、癌旁组织与正常组织的单细胞转录组测序数据集和全转录组测序数据集;
步骤二:对单细胞转录组测序数据集进行预处理,筛选符合设定标准的细胞并获取其测序数据;
步骤三:对预处理得到的单细胞转录组测序数据进行标准化和归一化,通过锚点整合并进行降维和聚类得到不同细胞群;
步骤四:获取不同细胞类型的标志基因,根据标志基因在不同细胞群中的分布情况对不同细胞群进行细胞类型注释;
步骤五:将其中一种注释为设定细胞类型的细胞群提取出来,并区分为恶性与非恶性细胞,并对恶性与非恶性细胞进行差异表达基因分析,获得恶性与非恶性细胞的差异表达基因;
步骤六:对全转录组测序数据集进行肿瘤组织与癌旁组织、正常组织的差异表达基因分析,然后进行取交集处理,获得肿瘤致病相关的恶性基因;
步骤七:将得到的恶性与非恶性细胞的差异表达基因与获得的肿瘤致病相关的恶性基因取交集处理,获得肿瘤致病相关的恶性细胞基因;
步骤八:对得到的肿瘤致病相关的恶性细胞基因进行单因素Cox回归分析、Lasso回归分析和多因素Cox回归分析,筛选出与预后相关的恶性细胞基因,并构建预后风险模型。
进一步地,所述步骤一,具体包括:
从GEO数据库获得单细胞转录组测序数据集,从TCGA、GEO、GTEx数据库获得全转录组测序数据集;
纳入的数据集需满足以下条件:使用人类肿瘤组织样本,包括:人类正常组织样本、肿瘤组织样本和癌旁组织样本;每个数据集至少包含预设个数的样本。
进一步地,所述步骤一中,单细胞转录组测序数据集样本为具有配对原发性肿瘤和癌旁组织的患者样本;全转录组测序数据集包括:TCGA-STAD数据集,含有多个胃癌组织样本和多个癌旁组织样本;GTEx-stomach数据集,含有多个正常胃组织样本;GSE15459数据集,含有多个胃癌组织样本;GSE29272数据集,含有多个胃癌组织样本和多个癌旁组织样本;GSE57303数据集,含有多个胃癌组织样本;GSE62254数据集,含有多个胃癌组织样本;GSE66229数据集,含有多个胃癌组织样本和多个癌旁组织样本。
进一步地,所述步骤二中,筛选标准包括:每个基因有三个或三个以上的细胞表达;每个细胞表达500-6000个基因;线粒体RNA含量小于20%。
进一步地,所述步骤三具体还包括:
对不同细胞群进行差异表达基因分析,获得不同细胞群的差异表达基因,其中差异表达基因是采用R软件中的“Seurat”包来识别的。
进一步地,所述步骤四中具体包括:
使用R软件中的“SingleR”包或通过文献检索获得不同细胞类型的标志基因,并将细胞群中表达最高的标志基因所对应的细胞类型注释为细胞群的细胞类型。
进一步地,所述步骤四中,不同细胞类型的标志基因具体包括,上皮细胞:CDH1;内皮细胞:PLVAP;成纤维细胞:FN1;T细胞:CD8A;B细胞:TNFRSF17;巨噬细胞:CD163;NK细胞:KLRD1;肥大细胞:KIT。
进一步地,所述步骤五中,采用R软件中的“InferCNV”包来区分恶性与非恶性细胞,以癌旁组织细胞作为参照,对肿瘤组织细胞的基因拷贝数变异情况进行分析,采用kmeans算法聚类并计算基因拷贝数变异得分值,将高于平均得分值的类群定义为恶性细胞,不高于平均得分值的类群定义为非恶性细胞。
进一步地,所述步骤六和步骤七中,采用R软件中的“Venn”包进行取交集处理。
进一步地,所述步骤八中,以TCGA-STAD数据集作为训练集,GSE62254数据集作为验证集,所构建的预后风险模型在训练集与验证集的预测能力评价标准ROC大于设定值,证明模型性能良好。
本发明具有如下优点:
本发明提出的一种肿瘤恶性细胞基因预后风险模型构建方法,应用生物信息学,选择肿瘤患者群体作为研究对象,通过整合单细胞转录组测序数据集和全转录组测序数据集识别肿瘤致病相关的恶性细胞预后基因,并构建预后风险模型,有利于不同肿瘤诊断生物标志物的应用手册制定与靶向药物的设计,为肿瘤的临床诊断与治疗提供新的思路。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本发明实施例提供的一种肿瘤恶性细胞基因预后风险模型构建方法的流程示意图;
图2为本发明实施例提供的一种肿瘤恶性细胞基因预后风险模型构建方法中得到的胃癌致病相关的恶性基因示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种基于单细胞和全转录组测序数据的胃癌恶性上皮细胞基因预后风险模型构建方法,该方法具体包括:
从肿瘤基因组图谱(TCGA, https://portal.gdc.cancer.gov/)基因表达综合数据库(GEO, https://www.ncbi.nlm.nih.gov/GEO/)和基因型组织表达数据库(GTEx,https://gtexportal.org/home/)中获得肿瘤患者的肿瘤组织、癌旁组织与正常组织的单细胞和全转录组测序数据集,包括TCGA-STAD、GTEx-stomach、GSE15459、GSE29272、GSE57303、GSE62254、GSE66229和GSE183904。
单细胞转录组测序数据集选择9名具有配对原发性肿瘤和癌旁组织的患者共18个样本进行深入研究,全转录组测序数据集TCGA-STAD含有375个胃癌组织样本和32个癌旁组织样本,GTEx-stomach含有217个正常胃组织样本,GSE15459含有192个胃癌组织样本,GSE29272含有134个胃癌组织样本和134个癌旁组织样本,GSE57303含有70个胃癌组织样本,GSE62254含有300个胃癌组织样本,GSE66229含有300个胃癌组织样本和100个癌旁组织样本。
对单细胞转录组测序数据集进行质量控制,选择符合标准的细胞用于后续研究,质量控制标准如下:1)每个基因有三个或三个以上的细胞表达;2)每个细胞表达500-6000个基因;3)线粒体RNA含量小于20%,用于后续研究的细胞共49994个。
使用R软件中的“Seurat”包对预处理后的单细胞数据进行标准化和归一化,通过锚点整合并进行降维聚类,降维时所采用的PC数为10,聚类时所采用的分辨率为1.0,共降维聚类得到33个细胞群(cluster)。对不同细胞群进行差异表达基因分析,获得不同细胞群的差异表达基因,差异表达基因的|log2FC| > 0.25且adj.P < 0.05。
通过文献检索获得不同细胞类型的标志(marker)基因,根据标志基因在不同细胞群中的分布情况对不同细胞群进行细胞类型注释,不同细胞cluster类型注释时的marker基因需在该cluster中表达最高才可注释为该marker基因所对应的细胞类型。
不同细胞类型的标志基因具体如下:1)上皮细胞:CDH1;2)内皮细胞:PLVAP;3)成纤维细胞:FN1;4)T细胞:CD8A;5)B细胞:TNFRSF17;6)巨噬细胞:CD163;7)NK细胞:KLRD1;8)肥大细胞:KIT,共注释得到8种类型的细胞。
将其中注释为上皮细胞的细胞群提取出来,使用R软件中的“InferCNV”包区分恶性与非恶性上皮细胞,以癌旁组织细胞作为参照,对肿瘤组织细胞的基因拷贝数变异情况进行分析,采用kmeans算法聚类并计算基因拷贝数变异得分值,将高于平均得分值0.00124的类群定义为恶性上皮细胞,然后使用R软件中的“Seurat”包对恶性与非恶性上皮细胞进行差异表达基因分析,获得恶性与非恶性上皮细胞的差异表达基因,差异表达基因的|log2FC| > 0.25且adj.P < 0.05,排行前五的恶性与非恶性上皮细胞差异表达基因如下:1)恶性上皮细胞:CAPN8、CLDN4、CYP3A5、PHGR1和PLEC;2)非恶性上皮细胞:IGFBP2、LIPF、PGA3、PGA4和PGA5。
对TCGA-STAD和GTEx-stomach数据集以及GSE15459、GSE57303和GSE66229数据集进行去批次效应整合,得到基因表达矩阵,对多个全转录组测序数据集使用R软件中的“limma”包进行肿瘤组织与癌旁组织、正常胃组织的差异表达基因分析,差异表达基因的|log2FC| > 1.0且adj.P < 0.05,然后使用R软件中的“Venn”包进行取交集处理,获得胃癌致病相关的恶性基因,共获得92个上调基因和75个下调基因,如图2所示。
使用R软件中的“Venn”包将单细胞转录组测序数据获得的恶性上皮细胞基因与胃癌致病相关的恶性基因进行取交集处理,获得胃癌致病相关的恶性上皮细胞基因共146个。
以TCGA-STAD数据集作为训练集,GSE62254数据集作为验证集,使用R软件中的“survival”包、“survminer”包、“rms”包和“timeROC”包对胃癌致病相关的恶性上皮细胞基因进行单因素Cox回归分析、Lasso回归分析和多因素Cox回归分析,筛选出与预后相关的恶性上皮细胞基因,构建预后风险模型,最终构建出一个包括10个胃癌致病相关的恶性上皮细胞基因预后风险模型,基因具体如下:AKR1B1、CFDP1、IMPACT、PRR15L、PTTG1IP、SLC17A9、STX10、TRIM25、UPP1和VCAN,所构建的预后风险模型在训练集与验证集的预测能力评价标准ROC均大于0.5,模型性能良好。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (10)

1.一种肿瘤恶性细胞基因预后风险模型构建方法,其特征在于,所述方法包括:
步骤一:从多个数据库中获取肿瘤患者的肿瘤组织、癌旁组织与正常组织的单细胞转录组测序数据集和全转录组测序数据集;
步骤二:对单细胞转录组测序数据集进行预处理,筛选符合设定标准的细胞并获取其测序数据;
步骤三:对预处理得到的单细胞转录组测序数据进行标准化和归一化,通过锚点整合并进行降维和聚类得到不同细胞群;
步骤四:获取不同细胞类型的标志基因,根据标志基因在不同细胞群中的分布情况对不同细胞群进行细胞类型注释;
步骤五:将其中一种注释为设定细胞类型的细胞群提取出来,并区分为恶性与非恶性细胞,并对恶性与非恶性细胞进行差异表达基因分析,获得恶性与非恶性细胞的差异表达基因;
步骤六:对全转录组测序数据集进行肿瘤组织与癌旁组织、正常组织的差异表达基因分析,然后进行取交集处理,获得肿瘤致病相关的恶性基因;
步骤七:将得到的恶性与非恶性细胞的差异表达基因与获得的肿瘤致病相关的恶性基因取交集处理,获得肿瘤致病相关的恶性细胞基因;
步骤八:对得到的肿瘤致病相关的恶性细胞基因进行单因素Cox回归分析、Lasso回归分析和多因素Cox回归分析,筛选出与预后相关的恶性细胞基因,并构建预后风险模型。
2.根据权利要求1所述的一种肿瘤恶性细胞基因预后风险模型构建方法,其特征在于,所述步骤一,具体包括:
从GEO数据库获得单细胞转录组测序数据集,从TCGA、GEO、GTEx数据库获得全转录组测序数据集;
纳入的数据集需满足以下条件:使用人类肿瘤组织样本,包括:人类正常组织样本、肿瘤组织样本和癌旁组织样本;每个数据集至少包含预设个数的样本。
3.根据权利要求1所述的一种肿瘤恶性细胞基因预后风险模型构建方法,其特征在于,所述步骤一中,单细胞转录组测序数据集样本为具有配对原发性肿瘤和癌旁组织的患者样本;全转录组测序数据集包括:TCGA-STAD数据集,含有多个胃癌组织样本和多个癌旁组织样本;GTEx-stomach数据集,含有多个正常胃组织样本;GSE15459数据集,含有多个胃癌组织样本;GSE29272数据集,含有多个胃癌组织样本和多个癌旁组织样本;GSE57303数据集,含有多个胃癌组织样本;GSE62254数据集,含有多个胃癌组织样本;GSE66229数据集,含有多个胃癌组织样本和多个癌旁组织样本。
4.根据权利要求1所述的一种肿瘤恶性细胞基因预后风险模型构建方法,其特征在于,所述步骤二中,筛选标准包括:每个基因有三个或三个以上的细胞表达;每个细胞表达500-6000个基因;线粒体RNA含量小于20%。
5.根据权利要求1所述的一种肿瘤恶性细胞基因预后风险模型构建方法,其特征在于,所述步骤三具体还包括:
对不同细胞群进行差异表达基因分析,获得不同细胞群的差异表达基因,其中差异表达基因是采用R软件中的“Seurat”包来识别的。
6.根据权利要求1所述的一种肿瘤恶性细胞基因预后风险模型构建方法,其特征在于,所述步骤四中具体包括:
使用R软件中的“SingleR”包或通过文献检索获得不同细胞类型的标志基因,并将细胞群中表达最高的标志基因所对应的细胞类型注释为细胞群的细胞类型。
7.根据权利要求1所述的一种肿瘤恶性细胞基因预后风险模型构建方法,其特征在于,所述步骤四中,不同细胞类型的标志基因具体包括,上皮细胞:CDH1;内皮细胞:PLVAP;成纤维细胞:FN1;T细胞:CD8A;B细胞:TNFRSF17;巨噬细胞:CD163;NK细胞:KLRD1;肥大细胞:KIT。
8.根据权利要求1所述的一种肿瘤恶性细胞基因预后风险模型构建方法,其特征在于,所述步骤五中,采用R软件中的“InferCNV”包来区分恶性与非恶性细胞,以癌旁组织细胞作为参照,对肿瘤组织细胞的基因拷贝数变异情况进行分析,采用kmeans算法聚类并计算基因拷贝数变异得分值,将高于平均得分值的类群定义为恶性细胞,不高于平均得分值的类群定义为非恶性细胞。
9.根据权利要求1所述的一种肿瘤恶性细胞基因预后风险模型构建方法,其特征在于,所述步骤六和步骤七中,采用R软件中的“Venn”包进行取交集处理。
10.根据权利要求3所述的一种肿瘤恶性细胞基因预后风险模型构建方法,其特征在于,所述步骤八中,以TCGA-STAD数据集作为训练集,GSE62254数据集作为验证集,所构建的预后风险模型在训练集与验证集的预测能力评价标准ROC大于设定值,证明模型性能良好。
CN202211359084.9A 2022-11-02 2022-11-02 一种肿瘤恶性细胞基因预后风险模型构建方法 Pending CN115424728A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211359084.9A CN115424728A (zh) 2022-11-02 2022-11-02 一种肿瘤恶性细胞基因预后风险模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211359084.9A CN115424728A (zh) 2022-11-02 2022-11-02 一种肿瘤恶性细胞基因预后风险模型构建方法

Publications (1)

Publication Number Publication Date
CN115424728A true CN115424728A (zh) 2022-12-02

Family

ID=84207744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211359084.9A Pending CN115424728A (zh) 2022-11-02 2022-11-02 一种肿瘤恶性细胞基因预后风险模型构建方法

Country Status (1)

Country Link
CN (1) CN115424728A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115798723A (zh) * 2023-01-18 2023-03-14 北京泽桥医疗科技股份有限公司 一种癌症复发风险预测模型构建方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020094569A1 (en) * 2018-11-06 2020-05-14 Stichting Het Nederlands Kanker Instituut-Antoni van Leeuwenhoek Ziekenhuis Method for determining cellular composition of a tumor
CN112481378A (zh) * 2020-11-30 2021-03-12 中国医科大学附属盛京医院 基于乳腺癌单细胞转录组测序分析的乳腺癌患者复发风险20基因预测模型
WO2021078799A1 (en) * 2019-10-21 2021-04-29 The University Court Of The University Of Glasgow Diagnostic and prognostic biomarkers of disease remission in rheumatoid arthritis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020094569A1 (en) * 2018-11-06 2020-05-14 Stichting Het Nederlands Kanker Instituut-Antoni van Leeuwenhoek Ziekenhuis Method for determining cellular composition of a tumor
WO2021078799A1 (en) * 2019-10-21 2021-04-29 The University Court Of The University Of Glasgow Diagnostic and prognostic biomarkers of disease remission in rheumatoid arthritis
CN112481378A (zh) * 2020-11-30 2021-03-12 中国医科大学附属盛京医院 基于乳腺癌单细胞转录组测序分析的乳腺癌患者复发风险20基因预测模型

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHIHONG HUANG等: ""Single-Cell and Bulk RNA Sequencing Reveal Malignant Epithelial Cell Heterogeneity and Prognosis Signatures in Gastric Carcinoma"", 《CELLS》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115798723A (zh) * 2023-01-18 2023-03-14 北京泽桥医疗科技股份有限公司 一种癌症复发风险预测模型构建方法
CN115798723B (zh) * 2023-01-18 2023-09-15 北京泽桥医疗科技股份有限公司 一种癌症复发风险预测模型构建方法

Similar Documents

Publication Publication Date Title
CN112048559B (zh) 基于m6A相关的IncRNA网络胃癌预后的模型构建及临床应用
EP4073805B1 (en) Systems and methods for predicting homologous recombination deficiency status of a specimen
CN111128299B (zh) 一种结直肠癌预后显著相关ceRNA调控网络的构建方法
CN113450873B (zh) 一种预测胃癌预后和免疫治疗适用性的标志物及其应用
JP2022521492A (ja) 相同組換え欠損を推定するための統合された機械学習フレームワーク
Zhao et al. Twenty-gene-based prognostic model predicts lung adenocarcinoma survival
CN112133365A (zh) 评估肿瘤微环境的基因集、评分模型及其应用
CN107022605B (zh) 一种活动性肺结核的生物标志物
WO2020224504A1 (zh) 一种cfDNA分类方法、装置和用途
Titus et al. Unsupervised deep learning with variational autoencoders applied to breast tumor genome-wide DNA methylation data with biologic feature extraction
CN106250717B (zh) 急性髓性白血病的miRNA与转录因子的系统及其构建方法和应用
CN112002372A (zh) 人胶质母细胞瘤的预后靶点基因的筛选方法及应用
CN115424728A (zh) 一种肿瘤恶性细胞基因预后风险模型构建方法
Natri et al. Genetic architecture of gene regulation in Indonesian populations identifies QTLs associated with global and local ancestries
Wu et al. Identification and characterization of extrachromosomal circular DNA in plasma of lung adenocarcinoma patients
Han et al. Characterization of m6A regulator‐mediated methylation modification patterns and tumor microenvironment infiltration in acute myeloid leukemia
CN115482935B (zh) 预测小细胞转化的肺腺癌患者预后模型及其建立方法
Guo et al. Using naive Bayes algorithm to estimate the response to drug in lung cancer patients
CN110408706A (zh) 一种评估鼻咽癌复发的生物标志物及其应用
US20240153588A1 (en) Systems and methods for identifying microbial biosynthetic genetic clusters
US20240068041A1 (en) Free dna-based disease prediction model and construction method therefor and application thereof
Devall et al. Controlling for cellular heterogeneity using single-cell deconvolution of gene expression reveals novel markers of colorectal tumors exhibiting microsatellite instability
Yun et al. Identification of a Four‐lncRNA Prognostic Signature for Colon Cancer Based on Genome Instability
CN112746108A (zh) 用于肿瘤预后分层评估的基因标志物、评估方法及应用
Jiao et al. Bioinformatics analysis and identification of hub genes associated with female acute myocardial infarction patients by using weighted gene co-expression networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20221202

RJ01 Rejection of invention patent application after publication