CN116259360A

CN116259360A - 肺腺癌中高增殖肿瘤亚群的鉴别及特征基因集与应用

Info

Publication number: CN116259360A
Application number: CN202310257051.1A
Authority: CN
Inventors: 熊延路; 张晏宁; 梁嘉赫; 文苗苗; 孙盈; 王雪娇; 田娅慧
Original assignee: Air Force Medical University of PLA
Current assignee: Air Force Medical University of PLA
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2023-06-13
Anticipated expiration: 2043-03-16
Also published as: CN117954097A; CN116259360B

Abstract

本发明公开了肺腺癌中高增殖肿瘤亚群的鉴别及特征基因集与应用。本发明经过一系列质控、细胞过滤、反复降维、聚类、细胞鉴定、生物富集分析、拷贝数变异分析等，发现了肺腺癌组织中具有高度分裂增殖能力的“干性”肿瘤细胞亚群，即高增殖肿瘤亚群(HPCs)。本发明通过单样本基因集富集分析的生物信息算法，以HPCs“特征”基因集为背景基因集，量化了组织转录组测序或基因芯片数据中HPCs的相对含量。本发明还通过Cox生存分析在9个大型的肺腺癌转录数据集中，评估了HPCs含量对肺腺癌预后的评估效果，以及对IA期肺腺癌高低危亚型的鉴别效果。本发明还通过内置数据集、Logistic回归、Nomogram图建立了单个肺腺癌病人生存率预测及单个IA期病人高低危亚型鉴别的临床应用体系。

Description

肺腺癌中高增殖肿瘤亚群的鉴别及特征基因集与应用

技术领域

本发明涉及医学技术领域，特别地涉及肺腺癌中高增殖肿瘤亚群的鉴别及特征基因集与应用。

背景技术

世界范围内，肺癌的死亡率居恶性肿瘤的首位，肺腺癌约占肺癌的40％，其有效防治意义重大。准确预后评估及危险分层是肺腺癌有效防治的前提。以肿瘤大小、淋巴结侵犯及远处转移情况为主要特征的TNM分期显著划分了不同危险特征的肺腺癌，是现有肺腺癌个体化治疗的基石。然而，肺腺癌具有强大的异质性，现有TNM分期依然无法完全精准预测肺腺癌预后。以HE染色、免疫组化为主的病理检测对肺腺癌的病理类型进行了划分，同样也对肺腺癌预后评估及治疗有指导意义。然而，病理检测、判断及划分衡量的复杂性依然制约了其临床的有效应用。以单一分子或数个分子组化的模型在肺腺癌预后评估中也发挥了一定作用，然而其敏感性、特异性、稳定性以及临床应用的可行性依然饱受争议。以小结节为代表的早期肺腺癌(临床分期为IA期)在人群中的发病率越来越高，然而其经典治疗方式(肺叶切除+系统淋巴结清扫)依然存在争议，核心原因是预后风险划分不够充分，使得低危(预后较好)人群过分治疗，而高危(预后较差)人群治疗不足。现有TNM分期划分的IA亚型(IA1/2/3)，以及依据影像学(磨玻璃-实性成分比例等)、病理学(原位、微浸润、贴壁成分等)为主的风险分层，在高危IA亚型的划分中相对不足，鉴别不够充分和精准，且低危亚型鉴别应用中不够十分简便。可以说，肺腺癌的预后评估尤其是IA期肺腺癌依然存在较大空白，新的评估指标的发现、衡量、验证及有效临床应用方式，依然是迫在眉睫的科学问题。

发明内容

有鉴于此，本发明的主要目的是提供肺腺癌中高增殖肿瘤亚群的鉴别及特征基因集与应用，有助于寻找肺腺癌尤其是IA期肺腺癌有效预后评估及IA期肺腺癌高低危亚型判别的指标，以及该指标的鉴别、衡量、预后评估效能检测及临床有效便捷应用方式。

本发明的技术方案如下：

本发明提供了肺腺癌中高增殖肿瘤亚群的鉴别方法。

本发明所提供的肺腺癌中高增殖肿瘤亚群的鉴别方法，包括如下步骤：

(1)单细胞转录组测序数据的质控和细胞过滤：根据基因数、线粒体比例、红细胞比例过滤掉不符合要求的细胞，进行质控；基因数控制在200～5000个，线粒体比例控制在15％以下，红细胞比例控制在3％以下；

(2)单细胞转录组测序数据的降维、聚类及细胞亚群的大类鉴定：进行单细胞数据的标准化，再筛选高变基因，将高变基因作为后一步降维聚类的依赖数据；通过主成分分析将高变基因的维度降低为若干个主成分，再根据主成分进行细胞聚类；分析各个细胞亚群相对于其他细胞的差异基因，根据差异基因结合经典细胞标志分子定义各个细胞亚群；通过降维的方式在二维平面图上展示不同细胞的分布情况；

(3)上皮性细胞的再次降维，聚类及拷贝数变异分析，鉴别不同肿瘤细胞亚群：提取上皮性细胞，进行上皮性细胞的再度聚类，计算各个上皮性亚类细胞的拷贝数，根据拷贝数变异程度确定肿瘤性上皮细胞和正常性上皮；

(4)不同肿瘤细胞亚群的生物富集分析，鉴别高增殖肿瘤亚群：根据所述步骤(2)的差异基因的选择方式，分析不同肿瘤细胞亚群的差异基因，计算各个细胞亚群生物富集情况，从而确定具有高度增殖特征的高增殖肿瘤亚群。

优选地，所述步骤(2)中所述单细胞数据的标准化是通过Seruat包中LogNormalize方法进行单细胞数据的标准化；所述筛选高变基因是通过vst方法筛选高变基因，前2000个高变基因作为后一步降维聚类的依赖数据；所述根据主成分进行细胞聚类是根据20个主成分进行细胞聚类，方法选择Seruat包中的FindNeighbors和FindClusters，控制分辨率在0.1；所述分析各个细胞亚群相对于其他细胞的差异基因是通过FindAllMarkers中的wilcox方法分析各个细胞亚群相对于其他细胞的差异基因；所述通过降维的方式在二维平面图上展示不同细胞的分布情况是通过umap和tsne降维的方式在二维平面图上展示不同细胞的分布情况。

优选地，所述步骤(3)中所述计算各个上皮性亚类细胞的拷贝数是根据infercnv包计算各个上皮性亚类细胞的拷贝数。

优选地，所述步骤(4)中所述计算各个细胞亚群生物富集情况前还包括：依据Foldchange，确定前200个差异基因的步骤；所述计算各个细胞亚群生物富集情况是通过enrichGO和enrichKEGG包计算各个细胞亚群生物富集情况。

本发明还提供了建立肺腺癌中高增殖肿瘤亚群基因的特征基因集的方法。

本发明所提供的建立肺腺癌中高增殖肿瘤亚群基因的特征基因集的方法，包括如下步骤：根据单细胞数据集中提取的高增殖肿瘤亚群，获得各自的差异基因，然后求差异基因的交集，即为高增殖肿瘤亚群基因的特征基因集。

优选地，所述获得各自的差异基因是通过FindAllMarkers中的wilcox方法分析获得各自的差异基因。

本发明还提供了肺腺癌中高增殖肿瘤亚群基因的特征基因集。

本发明所提供的肺腺癌中高增殖肿瘤亚群基因的特征基因集，为表1中所示的高增殖肿瘤亚群的特征基因集。

表1高增殖肿瘤亚群的特征基因集

本发明还提供了用于肺腺癌预后评估和/或IA期肺腺癌高低危亚型鉴别的试剂盒，所述试剂盒含有所述的肺腺癌中高增殖肿瘤亚群基因的特征基因集。

所述肺腺癌中高增殖肿瘤亚群基因的特征基因集在制备肺腺癌预后评估的产品中的应用也属于本发明的保护范围。

所述肺腺癌中高增殖肿瘤亚群基因的特征基因集在制备IA期肺腺癌的高低危亚型鉴别的产品中的应用也属于发明的保护范围。

具体地，本发明的技术方案体现在以下几个方面：

(1)肺腺癌中高增殖肿瘤亚群的发现及鉴定

肿瘤恶性机理是其有效防治的基石，同样也是预后指标探索的重要源泉。肿瘤干性学说是致癌机理探索的重要方向。简而言之，肿瘤组织存在强大的细胞组成和功能特征的异质性，其中一类具有自我更新、多向分化潜能、高致瘤性、高抵抗特征的肿瘤亚群，是肿瘤发生、发展及治疗抵抗、复发转移的根本原因，被称为肿瘤起始细胞或肿瘤干细胞。肿瘤干细胞具有高度的时空特异性和可塑演变性，现有的以单一(数个)的干性标志物(如CD44、CD133、CD166等)的鉴别方法无法覆盖肿瘤干细胞复杂多变的特点，即对肿瘤干细胞(包括肺腺癌)的鉴别效能较低。实际上，肿瘤起始细胞(或肿瘤干细胞)是功能性概念，对其功能的有效捕捉是鉴别的根本依据，而独特且强大的分裂增殖能力是其区别与其他肿瘤细胞的根本功能特征。新兴的单细胞转录组测序技术为划分不同功能特征的细胞提供强大的工具。发明人在四个单细胞转录组测序(single-cell RNA sequencing，scRNA-seq)的肺腺癌组织样本(E-MTAB-6149:Patients 1and 2,GSE171145:Patients 3and 4)中，通过数据质控与细胞过滤、高变基因选择、反复降维及聚类、拷贝数变异分析等生物信息处理方法划分出不同基因表达特征(基因表达特征是生物学特征的基石)的肿瘤细胞，并通过GO、KEGG等生物学富集分析方法鉴别出了具有高度增殖能力的“干性”肿瘤亚群-高增殖肿瘤亚群(highly proliferating cancer cells，HPCs)(图1)。

(2)肺腺癌中高增殖肿瘤亚群的衡量

单细胞转录组测序价格昂贵、操作繁琐、分析复杂，无法大批量用于临床肺腺癌中HPCs的鉴别，如何便宜且准确鉴别HPCs，并衡量其含量是临床应用的关键。组织转录组测序(包括基因芯片)价格便宜、操作简单，从组织转录组样本中捕捉HPCs并衡量其相对含量是探索HPCs预后评估效能及临床应用的重要突破口。发明人通过差异基因分析提取了上述四个肺腺癌组织中HPCs的基因表达特征，并通过交集分析得到共同的基因特征，发明人以此作为肺腺癌中HPCs的“基因表达特征”。随后，发明人通过单样本基因集富集分析(single-sample gene set enrichment analysis，ssGSEA)生物信息算法，以HPCs的“基因表达特征”作为HPCs参考基因集，量化了HPCs在组织转录组样本的肺腺癌数据集中的相对含量(图2)。

(3)肺腺癌中高增殖亚群对预后的有效评估及临床应用

HPCs含量，尤其是在组织转录组样本下衡量的相对含量，在肺腺癌预后评估中的效能是检验其临床意义的关键。发明人在9个独立的、大型肺腺癌数据集(总计2209例样本)中衡量了HPCs的含量，并通过Kaplan-Meier生存曲线(log-rank检验)及Cox分析衡量了HPCs对预后(总生存期)的评估作用，发明人发现在9个肺腺癌数据集中，HPCs的相对含量均可以有效预测肺腺癌预后，同时在四个具有完备临床信息的肺腺癌数据集中，发明人也证明了HPCs的相对含量是独立于年龄、性别、吸烟史、临床分期的肺腺癌独立预后危险因素。发明人进一步分析了HPCs对I期肺腺癌尤其是IA期肺腺癌的风险划分效果。发明人首先通过SEER数据库(18620例样本)证明了现有IA分期的局限性，即高危人群划分不够充分(即IA中预后最差的IA3人群依然优于临近恶性分期等级IB期预后，提示无法作为辅助治疗的根据)。然而HPCs可以有效预测I期肺腺癌及IA期肺腺癌的预后。同时HPCs划分下IA期高危亚型(以中位数为截断值)的预后和IB期类似，提示HPCs对IA期肺腺癌的高危亚群划分优于现有分期系统。最后，发明人以TCGA-LUAD(515例组织转录组测序样本)为内置参考数据集，开发了HPCs在肺腺癌预后评估尤其是IA期肺腺癌预后风险划分的临床应用系统，即从手术切除标本-转录组测序-HPCs衡量-内置数据集纳入及评估-生存率评估及IA高低危亚型定义(治疗方式选择)(图3和图4)。

本发明具有如下有益效果：

(1)技术上更加精准

肿瘤干性是肿瘤发生、发展以及治疗抵抗、复发转移的关键，肿瘤起始细胞或肿瘤干细胞的鉴别及有效衡量是理解肿瘤干性，进而防治肿瘤的关键。肿瘤干细胞(包括肺腺癌)具有高度时空特异性和可塑演变性，因此传统的肺腺癌干细胞鉴别技术依据单一或数个标志物(如依据流式细胞仪检测的CD133、CD44和CD166检测，以及依据ALDH底物反应进而流式筛选的检测)，无法较全面、精准、有效的鉴别出肺腺癌干细胞。实质上，肿瘤干细胞是功能性概念，即独特的分裂更新、高度增殖能力是肺腺癌干细胞区别于其他肿瘤细胞的根本特征。不同于传统的组织转录组测序或芯片(包含多种细胞的组织混合物的基因表达分析)，新兴的单细胞转录组测序技术可以从基因表达组成(基因表达组成决定生物功能)区分单个细胞或相同同质性细胞群体。发明人通过分析四个肺腺癌组织的单细胞转录组测序数据，经过一系列质控、细胞过滤、反复降维、聚类、细胞鉴定、生物富集分析、拷贝数变异分析等，发现了肺腺癌组织中的具有高度分裂增殖能力的“干性”肿瘤细胞亚群，命名为-高增殖肿瘤亚群(highly proliferating cancer cells，HPCs)，用以代表肺腺癌可能的起始细胞或干性细胞。故，功能性依据的HPCs较精准“捕捉”了肺腺癌干细胞。

(2)经济上更加节省

HPCs的发现依据了单细胞转录测序，但该项技术价格昂贵、操作繁琐，制约了其大批量应用。发明人设计了依据较便宜、便捷组织转录组分析(测序或基因芯片)的HPCs相对衡量方法。发明人首先通过四个单细胞转录组测序“捕捉”的HPCs的基因表达谱的交集分析，拟定为HPCs的共有基因表达特征，并以此作为HPCs的“特征”基因集。发明人通过单样本基因集富集分析(single-sample gene set enrichment analysis，ssGSEA)的生物信息算法，以HPCs“特征”基因集为背景基因集，量化了组织转录组测序或基因芯片数据中HPCs的相对含量。从而，发明人将价格昂贵的单细胞转录组测序得到的HPCs“映射”到价格便宜的组织转录组测序中，为大批量鉴别及衡量HPCs及评估其临床意义提供大幅度经济节省。

(3)社会应用上更加有益

HPCs的鉴别，尤其是组织转录组分析数据中的相对衡量为肺腺癌的预后评估、尤其是IA期肺腺癌的危险分层带来较强帮助。肺腺癌具有较强异质性，对于预后特征和生物学特征的精准分期分型是其有效防治的前提。现有TNM分期、病理分型及分子分型依然存在一定缺陷，尤其体现在以小结节为主的IA期肺腺癌的危险分层上。IA期肺腺癌的经典治疗方式(根治性肺叶切除+系统淋巴结清扫)会导致低危亚型的过度医疗，以及高危亚型的治疗不足，而现有的TNM分期(IA1/2/3)以及病理、影像学特征对IA高低危亚型的划分不足，尤其是高危亚型的筛选不够充分。发明人在9个独立的、多样本的肺腺癌数据集(具有组织转录组测序和临床信息)中，发现HPCs是肺腺癌的独立预后危险因素，尤其是可以较彻底划分IA期肺腺癌的预后风险(高危IA预后特征和临近恶性分期等级IB期类似)。发明人纳入内置数据集，并反复校验阈值等，建立了依据简单转录组测序的HPCs预测单个肺腺癌病人生存率，及鉴别IA期肺腺癌病人高低危亚型的临床应用系统，从而为肺腺癌的有效防治，尤其是IA期肺腺癌的精准治疗提供较强启示和帮助(低危亚型在手术时间、手术范围上的适当缩减，进而避免过度医疗；高危亚型积极根治性手术以及积极辅助治疗，进而避免治疗不足)。因此，发明人鉴别、量化的HPCs以及依据其建立的肺腺癌生存概率及IA期肺腺癌危险分层系统具有有益的社会用途。

附图说明

为了说明而非限制的目的，现在将根据本发明的优选实施例、特别是参考附图来描述本发明，其中：

图1为肺腺癌中功能性高增殖肿瘤亚群(HPCs)的鉴别；其中，

图1中A为四个病人的肺腺癌样本单细胞转录组测序的微环境细胞组成(t-SNE降维)；

图1中B为四个病人的肺腺癌样本单细胞转录组测序的肿瘤微环境细胞的鉴别Marker基因(T/NK cells:CD3D/GNLY,myeloid cells:AIF1/LYZ,B cells:CD79A/MS4A1，endothelial cells:PLVAP/VWF,fibroblasts:COL1A1/DCN，epithelial cells：EPCAM/KRT7；

图1中C为四个病人的肺腺癌样本单细胞转录组测序中多种上皮性细胞的组成(t-SNE降维)；

图1中D为四个病人的肺腺癌样本单细胞转录组测序中上皮性细胞亚群的拷贝数变异分析；

图1中E为四个病人的肺腺癌样本单细胞转录组测序中肿瘤细胞的功能学分析，鉴别高增殖肿瘤亚群(HPCs)。

图2为组织转录组分析的肺腺癌样本中HPCs的衡量；其中，

图2中A为四个病人的肺腺癌样本单细胞转录组测序中HPCs基因表达特征的交集分析，得出HPCs的“特征”基因集：背景基因集(Gene set)；

图1中B为通过ssGSEA算法，以Gene set(HPCs)为背景基因集，计算单个组织转录组测序或基因芯片分析的样本中Gene set(HPCs)的富集分数(ES)，作为HPCs的相对含量。

图3为肺腺癌样本中HPCs含量临床意义评估；其中，

图3中A为9个独立肺腺癌数据集中，HPCs含量和预后(总生存期)的关系；

图3中B为4个独立、大样本肺腺癌数据集中，HPCs含量对预后(总生存期)的独立预测效果；

图3中C为9个独立肺腺癌数据集中，HPCs含量和I期肺腺癌预后(总生存期)的关系；

图3中D为9个独立肺腺癌数据集中，HPCs含量和IA期肺腺癌预后(总生存期)的关系；

图3中E为9个独立肺腺癌数据集中，以中位数为截断值，HPCs含量高低组划分后IA期后(IA-L/IA-H)，分别和IB期肺腺癌的预后比较。

图4为HPCs含量预测单样本肺腺癌病人预后及IA期肺腺癌高低危亚型判别的系统；其中，

图4中A为单个肺腺癌病人组织转录组测序，通过图2方法计算，HPCs含量后，并入内置数据集，标化后，计算生存率(survival rate)或IA期高低亚型判定；

图4中B为基于HPCs含量的肺腺癌生存率(survival rate)计算图示(1年、3年、5年总生存率)。

具体实施方式

实施例1、肺腺癌中高增殖肿瘤亚群的鉴别方法

(1)肺腺癌中高增殖亚群的鉴别及有效量化

a、单细胞转录组测序数据的质控和细胞过滤。

首先，根据基因数、线粒体比例、红细胞比例过滤掉不符合要求的肺癌组织细胞(双细胞、死细胞、破裂细胞、未充分裂解的红细胞等)，进行质控。这些细胞的信息来源于两个单细胞数据集(E-MTAB-6149和GSE171145)，这两个单细胞数据集分别从ArrayExpress数据库(https://www.ebi.ac.uk/biostudies/arrayexpress)和GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)下载)。基因数控制在200～5000个，至少在3个细胞中表达(过多基因数可能是双细胞，过少基因数可能细胞状态不好)，线粒体比例(每个细胞的线粒体基因表达量占总体基因的比例)控制在15％以下(线粒体比例过高，细胞状态差)，红细胞比例(每个细胞红细胞基因表达量占总体基因的比例)控制在3％以下(过滤掉红细胞)。

b、单细胞转录组测序数据的降维，聚类及细胞亚群的大类鉴定。

通过Seruat包中，LogNormalize方法进行单细胞数据的标准化(每个基因的表达值除以整个细胞中所有基因的表达值，乘以10000，并对数转换)，再通过vst方法筛选高变基因，前2000个高变基因作为后一步降维聚类的依赖数据。首先通过主成分分析将2000个基因的维度降低为20个主成分，再根据20个主成分进行细胞聚类，方法选择Seruat包中的FindNeighbors和FindClusters，控制分辨率在0.1(resolution＝0.1)。通过FindAllMarkers中的wilcox方法分析各个细胞亚群相对于其他细胞的差异基因。根据差异基因结合经典细胞标志分子定义各个细胞亚群(T细胞/自然杀伤细胞(T/NK cells):CD3D/GNLY,髓系来源细胞(myeloid cells):AIF1/LYZ，B细胞(B cells):CD79A/MS4A1，内皮细胞(endothelial cells):PLVAP/VWF,成纤维细胞(fibroblasts):COL1A1/DCN，上皮细胞(epithelial)：EPCAM/KRT7)。

最后通过umap和tsne降维的方式在二维平面图上展示不同细胞的分布情况，结果如图1中A和B所示。

c、上皮性细胞的再次降维，聚类及拷贝数变异分析，鉴别不同肿瘤细胞亚群。

肺腺癌细胞起源于肺泡上皮，故发明人从上皮性细胞中搜寻肿瘤细胞。提取上皮性细胞，通过Seruat包再次通过vst方法筛选高变基因，前2000个高变基因作为后一步降维聚类的依赖数据。首先通过主成分分析将2000个基因的维度降低为20个主成分，再根据20个主成分进行细胞聚类，方法选择Seruat包中的FindNeighbors和FindClusters，控制分辨率在0.5(resolution＝0.5)。通过FindAllMarkers中的wilcox方法分析各个细胞亚群相对于其他细胞的差异基因，进行上皮性细胞的再度聚类，根据infercnv包计算各个上皮性亚类细胞的拷贝数，根据拷贝数变异程度确定肿瘤性上皮细胞和正常性上皮(以内皮细胞拷贝数为参考标准，肿瘤细胞通常拷贝数发生剧烈紊乱)。结果如图1中C和D所示。

d、不同肿瘤细胞亚群的生物富集分析(GO/KEGG)，鉴别“干性”肿瘤细胞亚群-高增殖肿瘤亚群(highly proliferating cancer cells，HPCs)。

根据上述(b)差异基因选择方式，分析不同肿瘤细胞亚群的差异基因(wilcox方法)，依据Foldchange，确定前200个差异基因，通过enrichGO和enrichKEGG包计算各个细胞亚群生物富集情况，从而确定具有高度增殖特征的干性”肿瘤细胞亚群，即高增殖肿瘤亚群(highly proliferating cancer cells，HPCs)。结果如图1中E所示。

e、HPCs基因表达特征提取，以及HPCs“特征”基因集的建立。

根据上述四个单细胞数据集中提取的HPCs，获得各自的差异基因(方法同d,wilcox方法,adj.p<0.05)，求四个HPCs差异基因的交集，共获得103个基因，作为HPCs基因的特征基因集(表1、HPCs细胞的特征基因集)。见图2中A和B。

表1HPCs细胞的特征基因集

f、组织转录组分析(测序、基因芯片)的肺腺癌样本的质控及数据标准化。

去除NA值，通过Z分数进行组织转录组数据(bulk-RNA-seq和基因芯片)的数据标准化(一个数与平均数的差再除以标准差)。

g、依据HPCs“特征”基因集，通过ssGSEA方式量化HPCs在组织转录组分析肺腺癌样本中的相对含量。

通过GSVA包，根据ssGSEA算法(单样本基因集富集分析，single sample gene setenrichment analysis,ssGSEA，是GSEA方法的衍生和拓展，计算每个组织样本和参考基因集配对程度的富集分数。ssGSEA富集分数代表样本中参考基因集上调或下调的程度)，以HPCs特征基因集为参考基因集，评估组织转录组数据中HPCs特征基因集的富集程度，用于量化HPCs细胞的相对含量。

(2)基于高增殖亚群的肺腺癌预后评估及IA期预后风险划分的临床应用系统建立

a、9个独立、大型肺腺癌数据集(组织转录组测序、临床信息)中HPCs的量化以及对肺腺癌总生存期的预后评估作用。

分别在9个独立、大型的肺腺癌数据集(具体数据集名称见图3)量化HPCs细胞在各个样本中的相对含量，并通过Z分数进一步标准化。然后根据Cox单因素分析评估HPCs细胞对肺腺癌总生存期的预测效果，根据相对危险度(HR)，p值及可信区间(CI)评估风险情况。HR>1，且p<0.05，考虑为HPCs可以作为总生存期的危险因素。见图3中A。

b、4个独立、大型肺腺癌数据集(组织转录组测序、临床信息)中HPCs相对于年龄、性别、吸烟史、分期的独立预后评估作用。

分别在4个独立、大型，具有相对完整临床信息的肺腺癌数据集(具体数据集名称见图3)量化HPCs细胞在各个样本中的相对含量，并通过Z分数进一步标准化。然后根据Cox多因素分析，纳入年龄、性别、吸烟史、临床分期，来评估HPCs细胞对肺腺癌总生存期的独立预测效果，根据相对危险度(HR)，p值及可信区间(CI)评估风险情况。HR>1，且p<0.05，考虑为HPCs可以作为总生存期的独立危险因素。见图3中B。

c、9个独立、大型肺腺癌数据集(组织转录组测序、临床信息)中HPCs对IA期肺腺癌的预后预测。

分别在9个独立、大型的肺腺癌数据集(具体数据集名称见图3)量化HPCs细胞在各个样本中的相对含量，并通过Z分数进一步标准化。然后根据Cox单因素分析评估HPCs细胞对IA期肺腺癌(较为早期的肺腺癌)总生存期的预测效果，根据相对危险度(HR)，p值及可信区间(CI)评估风险情况。HR>1，且p<0.05，考虑为HPCs可以作为总生存期的危险因素。见图3中C和D。

d、9个独立、大型肺腺癌数据集(组织转录组测序、临床信息)中HPCs对IA期肺腺癌的预后风险划分及高低危亚型的鉴别和衡量。

分别在9个独立、大型的肺腺癌数据集(具体数据集名称见图3)量化HPCs细胞在各个样本中的相对含量，并通过Z分数进一步标准化。然后依据HPCs中位数划分各个数据集中IA期肺腺癌的高低危亚型(IA-H高危亚型>中位数；IA-L低危亚型<中位数)。根据Cox分析比较IA-H/L和IB期(现有分期稍高于IA期的肺腺癌阶段)肺腺癌的生存差异。根据相对危险度(HR)，p值及可信区间(CI)评估风险情况。HR<1，且p<0.05，考虑该组具有生存优势；p>0.05，考虑两组无生存差异。即评估HPCs对IA期划分的效果。(HPCs能够有效划分IA中高危亚型，及根据HPCs划分的IA-H和IB期生存类似)。见图3中E。

e、纳入TCGA-LUAD内置数据集，对单个组织转录组测序肺腺癌病人的总生存期预测及IA期单个组织转录组测序肺腺癌病人的高低危亚型判别。

设计评估单个肺腺癌病人总生存概率及IA期高低危亚型判别的临床应用系统。首先以TCGA-LUAD数据集后，发明人以TCGA-LUAD(515例组织转录组测序样本)为内置参考数据集，开发了HPCs在肺腺癌预后评估尤其是IA期肺腺癌预后风险划分的临床应用系统，首先通过内置参考数据集量化HPCs的相对含量((1)-g)，根据中位数确定IA期高低危亚型(IA-H/L)的判别依据，并根据Logistic回归建立HPCs和肺腺癌1、3、5年生存率的关系(Nomogram图)。对于计算单个样本肺腺癌生存概率预测以及IA期肺腺癌高低危亚型的划分：即从手术切除标本中进行RNA-seq，获得单个样本的基因表达数据，通过ssGSEA((1)-g)量化该样本中HPCs的相对含量，再通过内置参考数据集，以Z分数的方法，标准化该单个样本的HPCs的相对含量，并通过内置数据集中关于高低危亚型判别依据和生存概率计算公式图(Nomogram图)，定义该样本的高低危类型(IA期)和生存概率。图4中A和B。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.肺腺癌中高增殖肿瘤亚群的鉴别方法，包括如下步骤：

2.根据权利要求1所述的肺腺癌中高增殖肿瘤亚群的鉴别方法，其特征在于：所述步骤(2)中所述单细胞数据的标准化是通过Seruat包中LogNormalize方法进行单细胞数据的标准化；所述筛选高变基因是通过vst方法筛选高变基因，前2000个高变基因作为后一步降维聚类的依赖数据；所述根据主成分进行细胞聚类是根据20个主成分进行细胞聚类，方法选择Seruat包中的FindNeighbors和FindClusters，控制分辨率在0.1；所述分析各个细胞亚群相对于其他细胞的差异基因是通过FindAllMarkers中的wilcox方法分析各个细胞亚群相对于其他细胞的差异基因；所述通过降维的方式在二维平面图上展示不同细胞的分布情况是通过umap和tsne降维的方式在二维平面图上展示不同细胞的分布情况。

3.根据权利要求1所述的肺腺癌中高增殖肿瘤亚群的鉴别方法，其特征在于：所述步骤(3)中所述计算各个上皮性亚类细胞的拷贝数是根据infercnv包计算各个上皮性亚类细胞的拷贝数。

4.根据权利要求1所述的肺腺癌中高增殖肿瘤亚群的鉴别方法，其特征在于：所述步骤(4)中所述计算各个细胞亚群生物富集情况前还包括：依据Foldchange，确定前200个差异基因的步骤；所述计算各个细胞亚群生物富集情况是通过enrichGO和enrichKEGG包计算各个细胞亚群生物富集情况。

5.建立肺腺癌中高增殖肿瘤亚群基因的特征基因集的方法，包括如下步骤：根据单细胞数据集中提取的高增殖肿瘤亚群，获得各自的差异基因，然后求差异基因的交集，即为高增殖肿瘤亚群基因的特征基因集。

6.根据权利要求5所述的建立肺腺癌中高增殖肿瘤亚群基因的特征基因集的方法，其特征在于：所述获得各自的差异基因是通过FindAllMarkers中的wilcox方法分析获得各自的差异基因。

7.肺腺癌中高增殖肿瘤亚群基因的特征基因集，为表1中所示的高增殖肿瘤亚群的特征基因集。

表1高增殖肿瘤亚群的特征基因集

8.用于肺腺癌预后评估和/或IA期肺腺癌高低危亚型鉴别的试剂盒，其特征在于：所述试剂盒含有权利要求7所述的肺腺癌中高增殖肿瘤亚群基因的特征基因集。

9.权利要求7所述的肺腺癌中高增殖肿瘤亚群基因的特征基因集在制备肺腺癌预后评估的产品中的应用。

10.权利要求7所述的肺腺癌中高增殖肿瘤亚群基因的特征基因集在制备IA期肺腺癌的高低危亚型鉴别的产品中的应用。