CN116259360A - 肺腺癌中高增殖肿瘤亚群的鉴别及特征基因集与应用 - Google Patents

肺腺癌中高增殖肿瘤亚群的鉴别及特征基因集与应用 Download PDF

Info

Publication number
CN116259360A
CN116259360A CN202310257051.1A CN202310257051A CN116259360A CN 116259360 A CN116259360 A CN 116259360A CN 202310257051 A CN202310257051 A CN 202310257051A CN 116259360 A CN116259360 A CN 116259360A
Authority
CN
China
Prior art keywords
lung adenocarcinoma
cell
tumor
genes
hpcs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310257051.1A
Other languages
English (en)
Other versions
CN116259360B (zh
Inventor
熊延路
张晏宁
梁嘉赫
文苗苗
孙盈
王雪娇
田娅慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Air Force Medical University of PLA
Original Assignee
Air Force Medical University of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Air Force Medical University of PLA filed Critical Air Force Medical University of PLA
Priority to CN202410183526.1A priority Critical patent/CN117954097A/zh
Priority to CN202310257051.1A priority patent/CN116259360B/zh
Publication of CN116259360A publication Critical patent/CN116259360A/zh
Application granted granted Critical
Publication of CN116259360B publication Critical patent/CN116259360B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Public Health (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了肺腺癌中高增殖肿瘤亚群的鉴别及特征基因集与应用。本发明经过一系列质控、细胞过滤、反复降维、聚类、细胞鉴定、生物富集分析、拷贝数变异分析等,发现了肺腺癌组织中具有高度分裂增殖能力的“干性”肿瘤细胞亚群,即高增殖肿瘤亚群(HPCs)。本发明通过单样本基因集富集分析的生物信息算法,以HPCs“特征”基因集为背景基因集,量化了组织转录组测序或基因芯片数据中HPCs的相对含量。本发明还通过Cox生存分析在9个大型的肺腺癌转录数据集中,评估了HPCs含量对肺腺癌预后的评估效果,以及对IA期肺腺癌高低危亚型的鉴别效果。本发明还通过内置数据集、Logistic回归、Nomogram图建立了单个肺腺癌病人生存率预测及单个IA期病人高低危亚型鉴别的临床应用体系。

Description

肺腺癌中高增殖肿瘤亚群的鉴别及特征基因集与应用
技术领域
本发明涉及医学技术领域,特别地涉及肺腺癌中高增殖肿瘤亚群的鉴别及特征基因集与应用。
背景技术
世界范围内,肺癌的死亡率居恶性肿瘤的首位,肺腺癌约占肺癌的40%,其有效防治意义重大。准确预后评估及危险分层是肺腺癌有效防治的前提。以肿瘤大小、淋巴结侵犯及远处转移情况为主要特征的TNM分期显著划分了不同危险特征的肺腺癌,是现有肺腺癌个体化治疗的基石。然而,肺腺癌具有强大的异质性,现有TNM分期依然无法完全精准预测肺腺癌预后。以HE染色、免疫组化为主的病理检测对肺腺癌的病理类型进行了划分,同样也对肺腺癌预后评估及治疗有指导意义。然而,病理检测、判断及划分衡量的复杂性依然制约了其临床的有效应用。以单一分子或数个分子组化的模型在肺腺癌预后评估中也发挥了一定作用,然而其敏感性、特异性、稳定性以及临床应用的可行性依然饱受争议。以小结节为代表的早期肺腺癌(临床分期为IA期)在人群中的发病率越来越高,然而其经典治疗方式(肺叶切除+系统淋巴结清扫)依然存在争议,核心原因是预后风险划分不够充分,使得低危(预后较好)人群过分治疗,而高危(预后较差)人群治疗不足。现有TNM分期划分的IA亚型(IA1/2/3),以及依据影像学(磨玻璃-实性成分比例等)、病理学(原位、微浸润、贴壁成分等)为主的风险分层,在高危IA亚型的划分中相对不足,鉴别不够充分和精准,且低危亚型鉴别应用中不够十分简便。可以说,肺腺癌的预后评估尤其是IA期肺腺癌依然存在较大空白,新的评估指标的发现、衡量、验证及有效临床应用方式,依然是迫在眉睫的科学问题。
发明内容
有鉴于此,本发明的主要目的是提供肺腺癌中高增殖肿瘤亚群的鉴别及特征基因集与应用,有助于寻找肺腺癌尤其是IA期肺腺癌有效预后评估及IA期肺腺癌高低危亚型判别的指标,以及该指标的鉴别、衡量、预后评估效能检测及临床有效便捷应用方式。
本发明的技术方案如下:
本发明提供了肺腺癌中高增殖肿瘤亚群的鉴别方法。
本发明所提供的肺腺癌中高增殖肿瘤亚群的鉴别方法,包括如下步骤:
(1)单细胞转录组测序数据的质控和细胞过滤:根据基因数、线粒体比例、红细胞比例过滤掉不符合要求的细胞,进行质控;基因数控制在200~5000个,线粒体比例控制在15%以下,红细胞比例控制在3%以下;
(2)单细胞转录组测序数据的降维、聚类及细胞亚群的大类鉴定:进行单细胞数据的标准化,再筛选高变基因,将高变基因作为后一步降维聚类的依赖数据;通过主成分分析将高变基因的维度降低为若干个主成分,再根据主成分进行细胞聚类;分析各个细胞亚群相对于其他细胞的差异基因,根据差异基因结合经典细胞标志分子定义各个细胞亚群;通过降维的方式在二维平面图上展示不同细胞的分布情况;
(3)上皮性细胞的再次降维,聚类及拷贝数变异分析,鉴别不同肿瘤细胞亚群:提取上皮性细胞,进行上皮性细胞的再度聚类,计算各个上皮性亚类细胞的拷贝数,根据拷贝数变异程度确定肿瘤性上皮细胞和正常性上皮;
(4)不同肿瘤细胞亚群的生物富集分析,鉴别高增殖肿瘤亚群:根据所述步骤(2)的差异基因的选择方式,分析不同肿瘤细胞亚群的差异基因,计算各个细胞亚群生物富集情况,从而确定具有高度增殖特征的高增殖肿瘤亚群。
优选地,所述步骤(2)中所述单细胞数据的标准化是通过Seruat包中LogNormalize方法进行单细胞数据的标准化;所述筛选高变基因是通过vst方法筛选高变基因,前2000个高变基因作为后一步降维聚类的依赖数据;所述根据主成分进行细胞聚类是根据20个主成分进行细胞聚类,方法选择Seruat包中的FindNeighbors和FindClusters,控制分辨率在0.1;所述分析各个细胞亚群相对于其他细胞的差异基因是通过FindAllMarkers中的wilcox方法分析各个细胞亚群相对于其他细胞的差异基因;所述通过降维的方式在二维平面图上展示不同细胞的分布情况是通过umap和tsne降维的方式在二维平面图上展示不同细胞的分布情况。
优选地,所述步骤(3)中所述计算各个上皮性亚类细胞的拷贝数是根据infercnv包计算各个上皮性亚类细胞的拷贝数。
优选地,所述步骤(4)中所述计算各个细胞亚群生物富集情况前还包括:依据Foldchange,确定前200个差异基因的步骤;所述计算各个细胞亚群生物富集情况是通过enrichGO和enrichKEGG包计算各个细胞亚群生物富集情况。
本发明还提供了建立肺腺癌中高增殖肿瘤亚群基因的特征基因集的方法。
本发明所提供的建立肺腺癌中高增殖肿瘤亚群基因的特征基因集的方法,包括如下步骤:根据单细胞数据集中提取的高增殖肿瘤亚群,获得各自的差异基因,然后求差异基因的交集,即为高增殖肿瘤亚群基因的特征基因集。
优选地,所述获得各自的差异基因是通过FindAllMarkers中的wilcox方法分析获得各自的差异基因。
本发明还提供了肺腺癌中高增殖肿瘤亚群基因的特征基因集。
本发明所提供的肺腺癌中高增殖肿瘤亚群基因的特征基因集,为表1中所示的高增殖肿瘤亚群的特征基因集。
表1高增殖肿瘤亚群的特征基因集
Figure BDA0004130072280000031
Figure BDA0004130072280000041
Figure BDA0004130072280000051
Figure BDA0004130072280000061
本发明还提供了用于肺腺癌预后评估和/或IA期肺腺癌高低危亚型鉴别的试剂盒,所述试剂盒含有所述的肺腺癌中高增殖肿瘤亚群基因的特征基因集。
所述肺腺癌中高增殖肿瘤亚群基因的特征基因集在制备肺腺癌预后评估的产品中的应用也属于本发明的保护范围。
所述肺腺癌中高增殖肿瘤亚群基因的特征基因集在制备IA期肺腺癌的高低危亚型鉴别的产品中的应用也属于发明的保护范围。
具体地,本发明的技术方案体现在以下几个方面:
(1)肺腺癌中高增殖肿瘤亚群的发现及鉴定
肿瘤恶性机理是其有效防治的基石,同样也是预后指标探索的重要源泉。肿瘤干性学说是致癌机理探索的重要方向。简而言之,肿瘤组织存在强大的细胞组成和功能特征的异质性,其中一类具有自我更新、多向分化潜能、高致瘤性、高抵抗特征的肿瘤亚群,是肿瘤发生、发展及治疗抵抗、复发转移的根本原因,被称为肿瘤起始细胞或肿瘤干细胞。肿瘤干细胞具有高度的时空特异性和可塑演变性,现有的以单一(数个)的干性标志物(如CD44、CD133、CD166等)的鉴别方法无法覆盖肿瘤干细胞复杂多变的特点,即对肿瘤干细胞(包括肺腺癌)的鉴别效能较低。实际上,肿瘤起始细胞(或肿瘤干细胞)是功能性概念,对其功能的有效捕捉是鉴别的根本依据,而独特且强大的分裂增殖能力是其区别与其他肿瘤细胞的根本功能特征。新兴的单细胞转录组测序技术为划分不同功能特征的细胞提供强大的工具。发明人在四个单细胞转录组测序(single-cell RNA sequencing,scRNA-seq)的肺腺癌组织样本(E-MTAB-6149:Patients 1and 2,GSE171145:Patients 3and 4)中,通过数据质控与细胞过滤、高变基因选择、反复降维及聚类、拷贝数变异分析等生物信息处理方法划分出不同基因表达特征(基因表达特征是生物学特征的基石)的肿瘤细胞,并通过GO、KEGG等生物学富集分析方法鉴别出了具有高度增殖能力的“干性”肿瘤亚群-高增殖肿瘤亚群(highly proliferating cancer cells,HPCs)(图1)。
(2)肺腺癌中高增殖肿瘤亚群的衡量
单细胞转录组测序价格昂贵、操作繁琐、分析复杂,无法大批量用于临床肺腺癌中HPCs的鉴别,如何便宜且准确鉴别HPCs,并衡量其含量是临床应用的关键。组织转录组测序(包括基因芯片)价格便宜、操作简单,从组织转录组样本中捕捉HPCs并衡量其相对含量是探索HPCs预后评估效能及临床应用的重要突破口。发明人通过差异基因分析提取了上述四个肺腺癌组织中HPCs的基因表达特征,并通过交集分析得到共同的基因特征,发明人以此作为肺腺癌中HPCs的“基因表达特征”。随后,发明人通过单样本基因集富集分析(single-sample gene set enrichment analysis,ssGSEA)生物信息算法,以HPCs的“基因表达特征”作为HPCs参考基因集,量化了HPCs在组织转录组样本的肺腺癌数据集中的相对含量(图2)。
(3)肺腺癌中高增殖亚群对预后的有效评估及临床应用
HPCs含量,尤其是在组织转录组样本下衡量的相对含量,在肺腺癌预后评估中的效能是检验其临床意义的关键。发明人在9个独立的、大型肺腺癌数据集(总计2209例样本)中衡量了HPCs的含量,并通过Kaplan-Meier生存曲线(log-rank检验)及Cox分析衡量了HPCs对预后(总生存期)的评估作用,发明人发现在9个肺腺癌数据集中,HPCs的相对含量均可以有效预测肺腺癌预后,同时在四个具有完备临床信息的肺腺癌数据集中,发明人也证明了HPCs的相对含量是独立于年龄、性别、吸烟史、临床分期的肺腺癌独立预后危险因素。发明人进一步分析了HPCs对I期肺腺癌尤其是IA期肺腺癌的风险划分效果。发明人首先通过SEER数据库(18620例样本)证明了现有IA分期的局限性,即高危人群划分不够充分(即IA中预后最差的IA3人群依然优于临近恶性分期等级IB期预后,提示无法作为辅助治疗的根据)。然而HPCs可以有效预测I期肺腺癌及IA期肺腺癌的预后。同时HPCs划分下IA期高危亚型(以中位数为截断值)的预后和IB期类似,提示HPCs对IA期肺腺癌的高危亚群划分优于现有分期系统。最后,发明人以TCGA-LUAD(515例组织转录组测序样本)为内置参考数据集,开发了HPCs在肺腺癌预后评估尤其是IA期肺腺癌预后风险划分的临床应用系统,即从手术切除标本-转录组测序-HPCs衡量-内置数据集纳入及评估-生存率评估及IA高低危亚型定义(治疗方式选择)(图3和图4)。
本发明具有如下有益效果:
(1)技术上更加精准
肿瘤干性是肿瘤发生、发展以及治疗抵抗、复发转移的关键,肿瘤起始细胞或肿瘤干细胞的鉴别及有效衡量是理解肿瘤干性,进而防治肿瘤的关键。肿瘤干细胞(包括肺腺癌)具有高度时空特异性和可塑演变性,因此传统的肺腺癌干细胞鉴别技术依据单一或数个标志物(如依据流式细胞仪检测的CD133、CD44和CD166检测,以及依据ALDH底物反应进而流式筛选的检测),无法较全面、精准、有效的鉴别出肺腺癌干细胞。实质上,肿瘤干细胞是功能性概念,即独特的分裂更新、高度增殖能力是肺腺癌干细胞区别于其他肿瘤细胞的根本特征。不同于传统的组织转录组测序或芯片(包含多种细胞的组织混合物的基因表达分析),新兴的单细胞转录组测序技术可以从基因表达组成(基因表达组成决定生物功能)区分单个细胞或相同同质性细胞群体。发明人通过分析四个肺腺癌组织的单细胞转录组测序数据,经过一系列质控、细胞过滤、反复降维、聚类、细胞鉴定、生物富集分析、拷贝数变异分析等,发现了肺腺癌组织中的具有高度分裂增殖能力的“干性”肿瘤细胞亚群,命名为-高增殖肿瘤亚群(highly proliferating cancer cells,HPCs),用以代表肺腺癌可能的起始细胞或干性细胞。故,功能性依据的HPCs较精准“捕捉”了肺腺癌干细胞。
(2)经济上更加节省
HPCs的发现依据了单细胞转录测序,但该项技术价格昂贵、操作繁琐,制约了其大批量应用。发明人设计了依据较便宜、便捷组织转录组分析(测序或基因芯片)的HPCs相对衡量方法。发明人首先通过四个单细胞转录组测序“捕捉”的HPCs的基因表达谱的交集分析,拟定为HPCs的共有基因表达特征,并以此作为HPCs的“特征”基因集。发明人通过单样本基因集富集分析(single-sample gene set enrichment analysis,ssGSEA)的生物信息算法,以HPCs“特征”基因集为背景基因集,量化了组织转录组测序或基因芯片数据中HPCs的相对含量。从而,发明人将价格昂贵的单细胞转录组测序得到的HPCs“映射”到价格便宜的组织转录组测序中,为大批量鉴别及衡量HPCs及评估其临床意义提供大幅度经济节省。
(3)社会应用上更加有益
HPCs的鉴别,尤其是组织转录组分析数据中的相对衡量为肺腺癌的预后评估、尤其是IA期肺腺癌的危险分层带来较强帮助。肺腺癌具有较强异质性,对于预后特征和生物学特征的精准分期分型是其有效防治的前提。现有TNM分期、病理分型及分子分型依然存在一定缺陷,尤其体现在以小结节为主的IA期肺腺癌的危险分层上。IA期肺腺癌的经典治疗方式(根治性肺叶切除+系统淋巴结清扫)会导致低危亚型的过度医疗,以及高危亚型的治疗不足,而现有的TNM分期(IA1/2/3)以及病理、影像学特征对IA高低危亚型的划分不足,尤其是高危亚型的筛选不够充分。发明人在9个独立的、多样本的肺腺癌数据集(具有组织转录组测序和临床信息)中,发现HPCs是肺腺癌的独立预后危险因素,尤其是可以较彻底划分IA期肺腺癌的预后风险(高危IA预后特征和临近恶性分期等级IB期类似)。发明人纳入内置数据集,并反复校验阈值等,建立了依据简单转录组测序的HPCs预测单个肺腺癌病人生存率,及鉴别IA期肺腺癌病人高低危亚型的临床应用系统,从而为肺腺癌的有效防治,尤其是IA期肺腺癌的精准治疗提供较强启示和帮助(低危亚型在手术时间、手术范围上的适当缩减,进而避免过度医疗;高危亚型积极根治性手术以及积极辅助治疗,进而避免治疗不足)。因此,发明人鉴别、量化的HPCs以及依据其建立的肺腺癌生存概率及IA期肺腺癌危险分层系统具有有益的社会用途。
附图说明
为了说明而非限制的目的,现在将根据本发明的优选实施例、特别是参考附图来描述本发明,其中:
图1为肺腺癌中功能性高增殖肿瘤亚群(HPCs)的鉴别;其中,
图1中A为四个病人的肺腺癌样本单细胞转录组测序的微环境细胞组成(t-SNE降维);
图1中B为四个病人的肺腺癌样本单细胞转录组测序的肿瘤微环境细胞的鉴别Marker基因(T/NK cells:CD3D/GNLY,myeloid cells:AIF1/LYZ,B cells:CD79A/MS4A1,endothelial cells:PLVAP/VWF,fibroblasts:COL1A1/DCN,epithelial cells:EPCAM/KRT7;
图1中C为四个病人的肺腺癌样本单细胞转录组测序中多种上皮性细胞的组成(t-SNE降维);
图1中D为四个病人的肺腺癌样本单细胞转录组测序中上皮性细胞亚群的拷贝数变异分析;
图1中E为四个病人的肺腺癌样本单细胞转录组测序中肿瘤细胞的功能学分析,鉴别高增殖肿瘤亚群(HPCs)。
图2为组织转录组分析的肺腺癌样本中HPCs的衡量;其中,
图2中A为四个病人的肺腺癌样本单细胞转录组测序中HPCs基因表达特征的交集分析,得出HPCs的“特征”基因集:背景基因集(Gene set);
图1中B为通过ssGSEA算法,以Gene set(HPCs)为背景基因集,计算单个组织转录组测序或基因芯片分析的样本中Gene set(HPCs)的富集分数(ES),作为HPCs的相对含量。
图3为肺腺癌样本中HPCs含量临床意义评估;其中,
图3中A为9个独立肺腺癌数据集中,HPCs含量和预后(总生存期)的关系;
图3中B为4个独立、大样本肺腺癌数据集中,HPCs含量对预后(总生存期)的独立预测效果;
图3中C为9个独立肺腺癌数据集中,HPCs含量和I期肺腺癌预后(总生存期)的关系;
图3中D为9个独立肺腺癌数据集中,HPCs含量和IA期肺腺癌预后(总生存期)的关系;
图3中E为9个独立肺腺癌数据集中,以中位数为截断值,HPCs含量高低组划分后IA期后(IA-L/IA-H),分别和IB期肺腺癌的预后比较。
图4为HPCs含量预测单样本肺腺癌病人预后及IA期肺腺癌高低危亚型判别的系统;其中,
图4中A为单个肺腺癌病人组织转录组测序,通过图2方法计算,HPCs含量后,并入内置数据集,标化后,计算生存率(survival rate)或IA期高低亚型判定;
图4中B为基于HPCs含量的肺腺癌生存率(survival rate)计算图示(1年、3年、5年总生存率)。
具体实施方式
实施例1、肺腺癌中高增殖肿瘤亚群的鉴别方法
(1)肺腺癌中高增殖亚群的鉴别及有效量化
a、单细胞转录组测序数据的质控和细胞过滤。
首先,根据基因数、线粒体比例、红细胞比例过滤掉不符合要求的肺癌组织细胞(双细胞、死细胞、破裂细胞、未充分裂解的红细胞等),进行质控。这些细胞的信息来源于两个单细胞数据集(E-MTAB-6149和GSE171145),这两个单细胞数据集分别从ArrayExpress数据库(https://www.ebi.ac.uk/biostudies/arrayexpress)和GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)下载)。基因数控制在200~5000个,至少在3个细胞中表达(过多基因数可能是双细胞,过少基因数可能细胞状态不好),线粒体比例(每个细胞的线粒体基因表达量占总体基因的比例)控制在15%以下(线粒体比例过高,细胞状态差),红细胞比例(每个细胞红细胞基因表达量占总体基因的比例)控制在3%以下(过滤掉红细胞)。
b、单细胞转录组测序数据的降维,聚类及细胞亚群的大类鉴定。
通过Seruat包中,LogNormalize方法进行单细胞数据的标准化(每个基因的表达值除以整个细胞中所有基因的表达值,乘以10000,并对数转换),再通过vst方法筛选高变基因,前2000个高变基因作为后一步降维聚类的依赖数据。首先通过主成分分析将2000个基因的维度降低为20个主成分,再根据20个主成分进行细胞聚类,方法选择Seruat包中的FindNeighbors和FindClusters,控制分辨率在0.1(resolution=0.1)。通过FindAllMarkers中的wilcox方法分析各个细胞亚群相对于其他细胞的差异基因。根据差异基因结合经典细胞标志分子定义各个细胞亚群(T细胞/自然杀伤细胞(T/NK cells):CD3D/GNLY,髓系来源细胞(myeloid cells):AIF1/LYZ,B细胞(B cells):CD79A/MS4A1,内皮细胞(endothelial cells):PLVAP/VWF,成纤维细胞(fibroblasts):COL1A1/DCN,上皮细胞(epithelial):EPCAM/KRT7)。
最后通过umap和tsne降维的方式在二维平面图上展示不同细胞的分布情况,结果如图1中A和B所示。
c、上皮性细胞的再次降维,聚类及拷贝数变异分析,鉴别不同肿瘤细胞亚群。
肺腺癌细胞起源于肺泡上皮,故发明人从上皮性细胞中搜寻肿瘤细胞。提取上皮性细胞,通过Seruat包再次通过vst方法筛选高变基因,前2000个高变基因作为后一步降维聚类的依赖数据。首先通过主成分分析将2000个基因的维度降低为20个主成分,再根据20个主成分进行细胞聚类,方法选择Seruat包中的FindNeighbors和FindClusters,控制分辨率在0.5(resolution=0.5)。通过FindAllMarkers中的wilcox方法分析各个细胞亚群相对于其他细胞的差异基因,进行上皮性细胞的再度聚类,根据infercnv包计算各个上皮性亚类细胞的拷贝数,根据拷贝数变异程度确定肿瘤性上皮细胞和正常性上皮(以内皮细胞拷贝数为参考标准,肿瘤细胞通常拷贝数发生剧烈紊乱)。结果如图1中C和D所示。
d、不同肿瘤细胞亚群的生物富集分析(GO/KEGG),鉴别“干性”肿瘤细胞亚群-高增殖肿瘤亚群(highly proliferating cancer cells,HPCs)。
根据上述(b)差异基因选择方式,分析不同肿瘤细胞亚群的差异基因(wilcox方法),依据Foldchange,确定前200个差异基因,通过enrichGO和enrichKEGG包计算各个细胞亚群生物富集情况,从而确定具有高度增殖特征的干性”肿瘤细胞亚群,即高增殖肿瘤亚群(highly proliferating cancer cells,HPCs)。结果如图1中E所示。
e、HPCs基因表达特征提取,以及HPCs“特征”基因集的建立。
根据上述四个单细胞数据集中提取的HPCs,获得各自的差异基因(方法同d,wilcox方法,adj.p<0.05),求四个HPCs差异基因的交集,共获得103个基因,作为HPCs基因的特征基因集(表1、HPCs细胞的特征基因集)。见图2中A和B。
表1HPCs细胞的特征基因集
Figure BDA0004130072280000131
Figure BDA0004130072280000141
Figure BDA0004130072280000151
Figure BDA0004130072280000161
f、组织转录组分析(测序、基因芯片)的肺腺癌样本的质控及数据标准化。
去除NA值,通过Z分数进行组织转录组数据(bulk-RNA-seq和基因芯片)的数据标准化(一个数与平均数的差再除以标准差)。
g、依据HPCs“特征”基因集,通过ssGSEA方式量化HPCs在组织转录组分析肺腺癌样本中的相对含量。
通过GSVA包,根据ssGSEA算法(单样本基因集富集分析,single sample gene setenrichment analysis,ssGSEA,是GSEA方法的衍生和拓展,计算每个组织样本和参考基因集配对程度的富集分数。ssGSEA富集分数代表样本中参考基因集上调或下调的程度),以HPCs特征基因集为参考基因集,评估组织转录组数据中HPCs特征基因集的富集程度,用于量化HPCs细胞的相对含量。
(2)基于高增殖亚群的肺腺癌预后评估及IA期预后风险划分的临床应用系统建立
a、9个独立、大型肺腺癌数据集(组织转录组测序、临床信息)中HPCs的量化以及对肺腺癌总生存期的预后评估作用。
分别在9个独立、大型的肺腺癌数据集(具体数据集名称见图3)量化HPCs细胞在各个样本中的相对含量,并通过Z分数进一步标准化。然后根据Cox单因素分析评估HPCs细胞对肺腺癌总生存期的预测效果,根据相对危险度(HR),p值及可信区间(CI)评估风险情况。HR>1,且p<0.05,考虑为HPCs可以作为总生存期的危险因素。见图3中A。
b、4个独立、大型肺腺癌数据集(组织转录组测序、临床信息)中HPCs相对于年龄、性别、吸烟史、分期的独立预后评估作用。
分别在4个独立、大型,具有相对完整临床信息的肺腺癌数据集(具体数据集名称见图3)量化HPCs细胞在各个样本中的相对含量,并通过Z分数进一步标准化。然后根据Cox多因素分析,纳入年龄、性别、吸烟史、临床分期,来评估HPCs细胞对肺腺癌总生存期的独立预测效果,根据相对危险度(HR),p值及可信区间(CI)评估风险情况。HR>1,且p<0.05,考虑为HPCs可以作为总生存期的独立危险因素。见图3中B。
c、9个独立、大型肺腺癌数据集(组织转录组测序、临床信息)中HPCs对IA期肺腺癌的预后预测。
分别在9个独立、大型的肺腺癌数据集(具体数据集名称见图3)量化HPCs细胞在各个样本中的相对含量,并通过Z分数进一步标准化。然后根据Cox单因素分析评估HPCs细胞对IA期肺腺癌(较为早期的肺腺癌)总生存期的预测效果,根据相对危险度(HR),p值及可信区间(CI)评估风险情况。HR>1,且p<0.05,考虑为HPCs可以作为总生存期的危险因素。见图3中C和D。
d、9个独立、大型肺腺癌数据集(组织转录组测序、临床信息)中HPCs对IA期肺腺癌的预后风险划分及高低危亚型的鉴别和衡量。
分别在9个独立、大型的肺腺癌数据集(具体数据集名称见图3)量化HPCs细胞在各个样本中的相对含量,并通过Z分数进一步标准化。然后依据HPCs中位数划分各个数据集中IA期肺腺癌的高低危亚型(IA-H高危亚型>中位数;IA-L低危亚型<中位数)。根据Cox分析比较IA-H/L和IB期(现有分期稍高于IA期的肺腺癌阶段)肺腺癌的生存差异。根据相对危险度(HR),p值及可信区间(CI)评估风险情况。HR<1,且p<0.05,考虑该组具有生存优势;p>0.05,考虑两组无生存差异。即评估HPCs对IA期划分的效果。(HPCs能够有效划分IA中高危亚型,及根据HPCs划分的IA-H和IB期生存类似)。见图3中E。
e、纳入TCGA-LUAD内置数据集,对单个组织转录组测序肺腺癌病人的总生存期预测及IA期单个组织转录组测序肺腺癌病人的高低危亚型判别。
设计评估单个肺腺癌病人总生存概率及IA期高低危亚型判别的临床应用系统。首先以TCGA-LUAD数据集后,发明人以TCGA-LUAD(515例组织转录组测序样本)为内置参考数据集,开发了HPCs在肺腺癌预后评估尤其是IA期肺腺癌预后风险划分的临床应用系统,首先通过内置参考数据集量化HPCs的相对含量((1)-g),根据中位数确定IA期高低危亚型(IA-H/L)的判别依据,并根据Logistic回归建立HPCs和肺腺癌1、3、5年生存率的关系(Nomogram图)。对于计算单个样本肺腺癌生存概率预测以及IA期肺腺癌高低危亚型的划分:即从手术切除标本中进行RNA-seq,获得单个样本的基因表达数据,通过ssGSEA((1)-g)量化该样本中HPCs的相对含量,再通过内置参考数据集,以Z分数的方法,标准化该单个样本的HPCs的相对含量,并通过内置数据集中关于高低危亚型判别依据和生存概率计算公式图(Nomogram图),定义该样本的高低危类型(IA期)和生存概率。图4中A和B。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.肺腺癌中高增殖肿瘤亚群的鉴别方法,包括如下步骤:
(1)单细胞转录组测序数据的质控和细胞过滤:根据基因数、线粒体比例、红细胞比例过滤掉不符合要求的细胞,进行质控;基因数控制在200~5000个,线粒体比例控制在15%以下,红细胞比例控制在3%以下;
(2)单细胞转录组测序数据的降维、聚类及细胞亚群的大类鉴定:进行单细胞数据的标准化,再筛选高变基因,将高变基因作为后一步降维聚类的依赖数据;通过主成分分析将高变基因的维度降低为若干个主成分,再根据主成分进行细胞聚类;分析各个细胞亚群相对于其他细胞的差异基因,根据差异基因结合经典细胞标志分子定义各个细胞亚群;通过降维的方式在二维平面图上展示不同细胞的分布情况;
(3)上皮性细胞的再次降维,聚类及拷贝数变异分析,鉴别不同肿瘤细胞亚群:提取上皮性细胞,进行上皮性细胞的再度聚类,计算各个上皮性亚类细胞的拷贝数,根据拷贝数变异程度确定肿瘤性上皮细胞和正常性上皮;
(4)不同肿瘤细胞亚群的生物富集分析,鉴别高增殖肿瘤亚群:根据所述步骤(2)的差异基因的选择方式,分析不同肿瘤细胞亚群的差异基因,计算各个细胞亚群生物富集情况,从而确定具有高度增殖特征的高增殖肿瘤亚群。
2.根据权利要求1所述的肺腺癌中高增殖肿瘤亚群的鉴别方法,其特征在于:所述步骤(2)中所述单细胞数据的标准化是通过Seruat包中LogNormalize方法进行单细胞数据的标准化;所述筛选高变基因是通过vst方法筛选高变基因,前2000个高变基因作为后一步降维聚类的依赖数据;所述根据主成分进行细胞聚类是根据20个主成分进行细胞聚类,方法选择Seruat包中的FindNeighbors和FindClusters,控制分辨率在0.1;所述分析各个细胞亚群相对于其他细胞的差异基因是通过FindAllMarkers中的wilcox方法分析各个细胞亚群相对于其他细胞的差异基因;所述通过降维的方式在二维平面图上展示不同细胞的分布情况是通过umap和tsne降维的方式在二维平面图上展示不同细胞的分布情况。
3.根据权利要求1所述的肺腺癌中高增殖肿瘤亚群的鉴别方法,其特征在于:所述步骤(3)中所述计算各个上皮性亚类细胞的拷贝数是根据infercnv包计算各个上皮性亚类细胞的拷贝数。
4.根据权利要求1所述的肺腺癌中高增殖肿瘤亚群的鉴别方法,其特征在于:所述步骤(4)中所述计算各个细胞亚群生物富集情况前还包括:依据Foldchange,确定前200个差异基因的步骤;所述计算各个细胞亚群生物富集情况是通过enrichGO和enrichKEGG包计算各个细胞亚群生物富集情况。
5.建立肺腺癌中高增殖肿瘤亚群基因的特征基因集的方法,包括如下步骤:根据单细胞数据集中提取的高增殖肿瘤亚群,获得各自的差异基因,然后求差异基因的交集,即为高增殖肿瘤亚群基因的特征基因集。
6.根据权利要求5所述的建立肺腺癌中高增殖肿瘤亚群基因的特征基因集的方法,其特征在于:所述获得各自的差异基因是通过FindAllMarkers中的wilcox方法分析获得各自的差异基因。
7.肺腺癌中高增殖肿瘤亚群基因的特征基因集,为表1中所示的高增殖肿瘤亚群的特征基因集。
表1高增殖肿瘤亚群的特征基因集
Figure FDA0004130072260000021
Figure FDA0004130072260000031
Figure FDA0004130072260000041
Figure FDA0004130072260000051
8.用于肺腺癌预后评估和/或IA期肺腺癌高低危亚型鉴别的试剂盒,其特征在于:所述试剂盒含有权利要求7所述的肺腺癌中高增殖肿瘤亚群基因的特征基因集。
9.权利要求7所述的肺腺癌中高增殖肿瘤亚群基因的特征基因集在制备肺腺癌预后评估的产品中的应用。
10.权利要求7所述的肺腺癌中高增殖肿瘤亚群基因的特征基因集在制备IA期肺腺癌的高低危亚型鉴别的产品中的应用。
CN202310257051.1A 2023-03-16 2023-03-16 肺腺癌中高增殖肿瘤亚群的鉴别及特征基因集与应用 Active CN116259360B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202410183526.1A CN117954097A (zh) 2023-03-16 2023-03-16 一种肺腺癌预后评估系统和设备
CN202310257051.1A CN116259360B (zh) 2023-03-16 2023-03-16 肺腺癌中高增殖肿瘤亚群的鉴别及特征基因集与应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310257051.1A CN116259360B (zh) 2023-03-16 2023-03-16 肺腺癌中高增殖肿瘤亚群的鉴别及特征基因集与应用

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202410183526.1A Division CN117954097A (zh) 2023-03-16 2023-03-16 一种肺腺癌预后评估系统和设备

Publications (2)

Publication Number Publication Date
CN116259360A true CN116259360A (zh) 2023-06-13
CN116259360B CN116259360B (zh) 2024-02-09

Family

ID=86682481

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202310257051.1A Active CN116259360B (zh) 2023-03-16 2023-03-16 肺腺癌中高增殖肿瘤亚群的鉴别及特征基因集与应用
CN202410183526.1A Pending CN117954097A (zh) 2023-03-16 2023-03-16 一种肺腺癌预后评估系统和设备

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202410183526.1A Pending CN117954097A (zh) 2023-03-16 2023-03-16 一种肺腺癌预后评估系统和设备

Country Status (1)

Country Link
CN (2) CN116259360B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116825206A (zh) * 2023-08-30 2023-09-29 四川大学华西医院 探究fh-缺陷型肾癌关键细胞亚群的方法、装置和设备

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107967410A (zh) * 2017-11-27 2018-04-27 电子科技大学 一种面向基因表达与甲基化数据的融合方法
CN108893535A (zh) * 2018-07-13 2018-11-27 上海交通大学医学院附属瑞金医院 基于血液循环外泌体rna检测骨肉瘤肺转移相关基因突变及其应用
WO2019008415A1 (en) * 2017-07-05 2019-01-10 Datar Rajan EXOSOMED AND PBMC GENE EXPRESSION ANALYSIS FOR CANCER CARE
WO2019241273A1 (en) * 2018-06-11 2019-12-19 The Broad Institute, Inc. Lineage tracing using mitochondrial genome mutations and single cell genomics
CN111739586A (zh) * 2020-06-17 2020-10-02 浙江大学 以87个基因作为生物标志物预测细胞增殖活性的模型
WO2020206285A1 (en) * 2019-04-05 2020-10-08 Board Of Regents, The University Of Texas System Methods and applications for cell barcoding
CN112442535A (zh) * 2019-08-27 2021-03-05 上海善准生物科技有限公司 原发性肺腺癌分子分型及生存风险基因群及诊断产品和应用
CN112996928A (zh) * 2018-09-11 2021-06-18 总医院公司 用于检测肝脏疾病的方法
US20210293820A1 (en) * 2018-11-29 2021-09-23 Yeda Research And Development Co. Ltd. Methods of activating dysfunctional immune cells and treatment of cancer
CN113502329A (zh) * 2021-07-12 2021-10-15 隋雨桐 检测腺苷受体a2b表达量的试剂在制备肺腺癌的诊断和/或预后试剂盒中的应用
WO2021223029A1 (en) * 2020-05-06 2021-11-11 University Health Network Method of determining cancer cell stemness
CN115083526A (zh) * 2022-05-26 2022-09-20 江苏大学 复方斑蝥胶囊作用于crc的核心基因的筛选方法
US20230035298A1 (en) * 2019-11-19 2023-02-02 The Regents Of The University Of California Cultures of and methods of manufacturing squamous cell carcinoma cells
CN115798723A (zh) * 2023-01-18 2023-03-14 北京泽桥医疗科技股份有限公司 一种癌症复发风险预测模型构建方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019008415A1 (en) * 2017-07-05 2019-01-10 Datar Rajan EXOSOMED AND PBMC GENE EXPRESSION ANALYSIS FOR CANCER CARE
CN107967410A (zh) * 2017-11-27 2018-04-27 电子科技大学 一种面向基因表达与甲基化数据的融合方法
WO2019241273A1 (en) * 2018-06-11 2019-12-19 The Broad Institute, Inc. Lineage tracing using mitochondrial genome mutations and single cell genomics
CN108893535A (zh) * 2018-07-13 2018-11-27 上海交通大学医学院附属瑞金医院 基于血液循环外泌体rna检测骨肉瘤肺转移相关基因突变及其应用
CN112996928A (zh) * 2018-09-11 2021-06-18 总医院公司 用于检测肝脏疾病的方法
US20210293820A1 (en) * 2018-11-29 2021-09-23 Yeda Research And Development Co. Ltd. Methods of activating dysfunctional immune cells and treatment of cancer
WO2020206285A1 (en) * 2019-04-05 2020-10-08 Board Of Regents, The University Of Texas System Methods and applications for cell barcoding
CN112442535A (zh) * 2019-08-27 2021-03-05 上海善准生物科技有限公司 原发性肺腺癌分子分型及生存风险基因群及诊断产品和应用
US20230035298A1 (en) * 2019-11-19 2023-02-02 The Regents Of The University Of California Cultures of and methods of manufacturing squamous cell carcinoma cells
WO2021223029A1 (en) * 2020-05-06 2021-11-11 University Health Network Method of determining cancer cell stemness
CN111739586A (zh) * 2020-06-17 2020-10-02 浙江大学 以87个基因作为生物标志物预测细胞增殖活性的模型
WO2021253544A1 (zh) * 2020-06-17 2021-12-23 浙江大学 以87个基因作为生物标志物预测细胞增殖活性的模型
CN113502329A (zh) * 2021-07-12 2021-10-15 隋雨桐 检测腺苷受体a2b表达量的试剂在制备肺腺癌的诊断和/或预后试剂盒中的应用
CN115083526A (zh) * 2022-05-26 2022-09-20 江苏大学 复方斑蝥胶囊作用于crc的核心基因的筛选方法
CN115798723A (zh) * 2023-01-18 2023-03-14 北京泽桥医疗科技股份有限公司 一种癌症复发风险预测模型构建方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
TAUNO METSALU 等: "ClustVis: a web tool for visualizing clustering of multivariate data using Principal Component Analysis and heatmap", 《NUCLEIC ACIDS RES》, pages 566 - 570 *
YANLU XIONG等: "A gene-based survival score for lung adenocarcinoma by multiple transcriptional datasets analysis", 《BMC CANCER》, pages 1 - 10 *
林间: "肝细胞癌合并门静脉癌栓肿瘤微环境的单细胞转录组学分析", 《中国博士学位论文全文数据库_医药卫生科技辑》, pages 072 - 336 *
陈澔: "单细胞测序技术在胰腺肿瘤研究中的应用", 《中国博士学位论文全文数据库_医药卫生科技辑》, pages 072 - 444 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116825206A (zh) * 2023-08-30 2023-09-29 四川大学华西医院 探究fh-缺陷型肾癌关键细胞亚群的方法、装置和设备
CN116825206B (zh) * 2023-08-30 2023-11-03 四川大学华西医院 探究fh-缺陷型肾癌关键细胞亚群的方法、装置和设备

Also Published As

Publication number Publication date
CN117954097A (zh) 2024-04-30
CN116259360B (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
Shi et al. Tumor classification by tissue microarray profiling: random forest clustering applied to renal cell carcinoma
CN111128385B (zh) 一种用于食管鳞癌的预后预警系统及其应用
CN103733065B (zh) 用于癌症的分子诊断试验
Yan et al. A novel seven‐lncRNA signature for prognosis prediction in hepatocellular carcinoma
CN111394456B (zh) 早期肺腺癌患者预后评估系统及其应用
US20100099093A1 (en) Biomarkers for the Identification Monitoring and Treatment of Head and Neck Cancer
Singhal et al. Gene expression profiling of non-small cell lung cancer
CN111575376A (zh) 一组用于评估肾透明细胞癌预后的联合基因组及其应用
CN101194166A (zh) 有关乳癌分类的材料和方法
CN111653314B (zh) 一种分析识别淋巴管浸润的方法
CN116259360B (zh) 肺腺癌中高增殖肿瘤亚群的鉴别及特征基因集与应用
JP2022524484A (ja) がん患者の生存率を予測する方法
CN113234829A (zh) 结肠癌预后评估基因集及其构建方法
CN115807089A (zh) 肝细胞肝癌预后生物标志物及应用
Herrgott et al. Detection of diagnostic and prognostic methylation-based signatures in liquid biopsy specimens from patients with meningiomas
Wang et al. Assessment of immune status of laryngeal squamous cell carcinoma can predict prognosis and guide treatment
Zhao et al. Single-cell morphological and topological atlas reveals the ecosystem diversity of human breast cancer
CN114898874A (zh) 一种肾透明细胞癌患者预后预测方法及系统
Wang et al. Development of an Autophagy‐Related Gene Prognostic Model and Nomogram for Estimating Renal Clear Cell Carcinoma Survival
US20210215700A1 (en) Personalized treatment of pancreatic cancer
Moore et al. Prognostic tissue markers in melanoma
CN116153387A (zh) 一种肺鳞癌患者总体生存率预后模型及应用
CN117373534B (zh) 一种三阴型乳腺癌预后风险评估系统
CN117766024B (zh) 一种卵巢癌cd8+ t细胞相关预后评估方法、系统及其应用
WO2023246808A1 (zh) 利用癌症中剪接异常的短外显子辅助癌症诊断和预后

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant