CN113593640B - 一种鳞癌组织功能状态与细胞组分评估方法及系统 - Google Patents

一种鳞癌组织功能状态与细胞组分评估方法及系统 Download PDF

Info

Publication number
CN113593640B
CN113593640B CN202110884396.0A CN202110884396A CN113593640B CN 113593640 B CN113593640 B CN 113593640B CN 202110884396 A CN202110884396 A CN 202110884396A CN 113593640 B CN113593640 B CN 113593640B
Authority
CN
China
Prior art keywords
cell
tissue
types
sample
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110884396.0A
Other languages
English (en)
Other versions
CN113593640A (zh
Inventor
区乐淳
赵二杰
梁继生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Mijie Biotechnology Co ltd
Original Assignee
Harbin Mijie Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Mijie Biotechnology Co ltd filed Critical Harbin Mijie Biotechnology Co ltd
Priority to CN202110884396.0A priority Critical patent/CN113593640B/zh
Publication of CN113593640A publication Critical patent/CN113593640A/zh
Application granted granted Critical
Publication of CN113593640B publication Critical patent/CN113593640B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

一种鳞癌组织功能状态与细胞组分评估方法及系统,涉及生命科学测序数据分析技术领域,用以解决现有的细胞组分评估方法或系统评估细胞类型太少且不能评估更精细的细胞亚群类型的问题。本发明的技术要点包括:本发明基于约20万细胞的鳞癌单细胞测序数据,识别并筛选了包括免疫细胞与组织细胞等多种细胞类型的特征表达基因,作为对应细胞类型的代表性特征标志物,进而分析估算更精细的细胞类型,并额外整合了评估单细胞组织功能状态步骤,以进一步在估测样本间细胞组分差异的同时,探究细胞组分差异与组织状态间的关系。本发明适用于对鳞癌组织功能状态与细胞组分的精细估算。

Description

一种鳞癌组织功能状态与细胞组分评估方法及系统
技术领域
本发明涉及生命科学测序数据分析技术领域,具体涉及一种鳞癌组织功能状态与细胞组分评估方法及系统。
背景技术
生物组织中细胞类型比例的变化与其组织内复杂多样的生理状态具有密切的相关性,准确识别细胞类型的组分含量对了解细胞间的相互作用关系及其生物学功能具有重要意义。在肿瘤组织中,多种类型的细胞共同组成了复杂的肿瘤微环境生态系统,其中,肿瘤浸润的免疫细胞和肿瘤相关的组织细胞等在肿瘤的控制与治疗中起核心作用。因此,对多种类型的肿瘤浸润细胞进行全面准确的定量分析,有助于阐明抑癌免疫反应的潜在机制、评估抗癌疗法的预后与疗效,并能指导设计更加合理的临床联合治疗方案。
随着高通量测序技术的发展成熟及其成本的快速下降,混合组织转录组测序已得到广泛应用,从而使得通过转录组测序数据估算并比较组织样本间多种细胞类型的含量成为可能。因此基于测序数据,研究出计算类型全面输出结果准确且用户体验优良的细胞组分估算方法对未来海量临床样本的细胞层面检测分析与预测具有重要意义。随着单细胞测序技术的成熟应用,提取不同细胞类型的特异性表达基因及其基因表达谱能够在大范围细胞类型中进行,使得细胞类型特征表达基因的特异性更高代表性更强。
目前在治疗癌症方面,使用免疫检查点抑制剂疗法仅对小部分患者有效,故定量治疗前和治疗中肿瘤组织内的免疫浸润有望为监测和预测疗效确定新的生物标志物。同时,准确量化肿瘤免疫浸润的细胞组成对阐明肿瘤细胞免疫逃逸反应的机制具有积极意义。诸如流式细胞术或免疫组织化学染色之类的方法已用作评估样品中的细胞组分含量的金标准。但是每种方法都有其技术局限性,无法普遍应用。例如,FCM需要大量的实验材料,因此限制了其在肿瘤活检中的临床应用;而IHC虽提供了单个肿瘤切片的估计值,但无法代表肿瘤的整体免疫异质情况,而且这些方法仅能使用小数量的细胞类型特征标志物。目前单细胞测序用于识别全面且精细的细胞类型和状态,但对于常规临床使用而言仍然过于昂贵和复杂。故目前研究者们开发的细胞组分估算方法多从混合组织RNA-seq的测序数据中分析组织中的细胞组分含量。目前优化与更新此类方法的创新之处在于使用单细胞测序数据分析出的细胞类型特征基因标志,作为内置参考数据,从而在估算RNA-seq数据的细胞组分时更全面、更具有生物学意义。目前普遍应用的软件MCP-counter[1]仅能评估10种细胞类型,且仅能进行样本间的细胞类型含量评估,导致其应用面不完善;MuSiC算法[2]中仅针对胰腺细胞的细胞组分评估,其评估细胞类型较为单一,同样应用面狭窄。
发明内容
鉴于以上问题,本发明提出一种鳞癌组织功能状态与细胞组分评估方法及系统,用以解决现有的细胞组分评估方法或系统评估细胞类型太少且不能评估更精细的细胞亚群类型的问题。
根据本发明一方面,提出一种鳞癌组织功能状态与细胞组分评估方法,该方法包括下述步骤:
步骤一、获取鳞状细胞癌组织单细胞测序数据;
步骤二、对所述单细胞测序数据进行无监督聚类分析,识别获得包含以下细胞类型的单细胞样本数据:B/Plasma细胞、T/NK细胞、内皮细胞、上皮细胞、成纤维细胞、Langerin树突细胞、肥大细胞、成熟树突细胞、黑色素细胞、浆细胞样树突细胞和单核细胞;
步骤三、通过对各个细胞类型的单细胞样本数据进行无监督聚类分析,识别获得各个细胞类型内的细胞亚群样本数据;
步骤四、获取14种单细胞组织功能状态相关基因集,根据所述基因集对待评估鳞癌组织进行组织功能状态的评估;
步骤五、根据所述单细胞样本数据或各个细胞类型内的细胞亚群样本数据对待评估鳞癌组织的各个细胞类型或各个细胞亚群类型进行细胞组分的评估。
进一步地,步骤四的具体步骤包括:
从CancerSEA数据库中提取与组织功能状态相关的14种单细胞组织功能状态基因集并以其在CancerSEA数据库中对应的编号数据集的数目作为权重;
在待评估鳞癌组织的测序数据中提取14种功能状态基因;
以所述权重对每个功能状态基因进行加权,并计算各个功能状态基因的均值,从而获得组织功能状态的得分。
进一步地,所述组织功能状态包括血管生成、细胞凋亡、细胞周期、细胞分化、DNA损伤、DNA修复、细胞上皮间质化、细胞缺氧、炎症发生、癌细胞侵袭、癌细胞转移、癌细胞增殖、细胞静息、干细胞性。
进一步地,步骤五的具体步骤包括:
通过基因差异表达分析,筛选获得单细胞样本数据或细胞亚群样本数据中的样本细胞特征表达基因;
根据所述样本细胞特征表达基因计算待评估鳞癌组织中各个细胞类型或细胞亚群类型的细胞特征表达基因的均值,输出不同细胞类型或细胞亚群类型的浸润含量评分。
进一步地,步骤五的具体步骤包括:
通过基因差异表达分析,筛选获得单细胞样本数据或细胞亚群样本数据中的细胞特征表达基因,并生成样本特征表达矩阵;
通过非负线性最小二乘回归方法计算待评估鳞癌组织中各个细胞类型或细胞亚群类型的细胞特征表达矩阵与样本特征表达矩阵的拟合回归系数,通过不断迭代获得最终拟合回归系数,并通过以下公式处理使所得回归系数总和为1,从而获得待评估鳞癌组织中各个细胞类型或细胞亚群类型的细胞组分含量百分比;
其中,P表示细胞组分含量百分比,Lm表示拟合回归系数,i表示待评估鳞癌组织中的细胞类型或细胞亚群类型,j表示待评估鳞癌组织中的所有细胞类型或所有细胞亚群类型。
进一步地,在计算拟合回归系数之前,根据特征表达基因在各个细胞类型或细胞亚群类型内的基因表达量方差与该细胞类型或细胞亚群类型的平均文库对特征表达基因施加权重,获得样本特征表达矩阵的附加特征数据,并将上述附加特征数据和样本特征表达矩阵结合作为最终的样本特征表达矩阵;其中,权重计算公式为:
其中,W为基因的权重得分,R为拟合残差,Lm为拟合回归系数,Lib为细胞类型或细胞亚群类型平均文库,V为细胞类型或细胞亚群类型内的基因表达量方差,nu为常数1e-04。
进一步地,在计算拟合回归系数之前,通过以下公式将待评估鳞癌组织中各个细胞类型或细胞亚群类型的细胞特征表达矩阵与样本特征表达矩阵进行均值方差归一化以消除矩阵间的量纲:
其中,x表示待评估鳞癌组织中各个细胞类型或细胞亚群类型的细胞特征表达矩阵;表示样本特征表达矩阵的均值,σ表示样本特征表达矩阵的标准差。
根据本发明另一方面,提出一种鳞癌组织功能状态与细胞组分评估系统,该系统包括:
数据获取模块,包括测序数据获取子模块和基因功能状态获取子模块,所述测序数据获取子模块用于获取鳞状细胞癌组织单细胞测序数据,所述基因功能状态获取子模块用于获取14种单细胞组织功能状态相关基因集;
聚类分析模块,用于对所述单细胞测序数据进行无监督聚类分析,识别获得包含以下细胞类型的单细胞样本数据:B/Plasma细胞、T/NK细胞、内皮细胞、上皮细胞、成纤维细胞、Langerin树突细胞、肥大细胞、成熟树突细胞、黑色素细胞、浆细胞样树突细胞和单核细胞;对各个细胞类型的单细胞样本数据进行无监督聚类分析,识别获得各个细胞类型内的细胞亚群样本数据;
组织功能状态评估模块,用于根据14种单细胞组织功能状态相关基因集,对待评估鳞癌组织进行组织功能状态的评估;所述组织功能状态包括血管生成、细胞凋亡、细胞周期、细胞分化、DNA损伤、DNA修复、细胞上皮间质化、细胞缺氧、炎症发生、癌细胞侵袭、癌细胞转移、癌细胞增殖、细胞静息、干细胞性;具体步骤包括:从CancerSEA数据库中提取与组织功能状态相关的14种单细胞组织功能状态基因集并以其在CancerSEA数据库中对应的编号数据集的数目作为权重;在待评估鳞癌组织的测序数据中提取14种功能状态基因;以所述权重对每个功能状态基因进行加权,并计算各个功能状态基因的均值,从而获得组织功能状态的得分;
细胞组分评估模块,用于根据所述单细胞样本数据或各个细胞类型内的细胞亚群样本数据对待评估鳞癌组织的各个细胞类型或各个细胞亚群类型进行细胞组分的评估。
进一步地,所述细胞组分评估模块中通过基因差异表达分析,筛选获得单细胞样本数据或细胞亚群样本数据中的样本细胞特征表达基因;根据所述样本细胞特征表达基因计算待评估鳞癌组织中各个细胞类型或细胞亚群类型的细胞特征表达基因的均值,输出不同细胞类型或细胞亚群类型的浸润含量评分。
进一步地,所述细胞组分评估模块中首先,通过基因差异表达分析,筛选获得单细胞样本数据或细胞亚群样本数据中的细胞特征表达基因,并生成样本特征表达矩阵;然后,根据特征表达基因在各个细胞类型或细胞亚群类型内的基因表达量方差与该细胞类型或细胞亚群类型的平均文库对特征表达基因施加权重,获得样本特征表达矩阵的附加特征数据,并将上述附加特征数据和样本特征表达矩阵结合作为最终的样本特征表达矩阵;权重计算公式为:
其中,W为基因的权重得分,R为拟合残差,Lm为拟合回归系数,Lib为细胞类型或细胞亚群类型平均文库,V为细胞类型或细胞亚群类型内的基因表达量方差,nu为常数1e-04;
然后,通过非负线性最小二乘回归方法计算待评估鳞癌组织中各个细胞类型或细胞亚群类型的细胞特征表达矩阵与样本特征表达矩阵的拟合回归系数,通过不断迭代获得最终拟合回归系数,并通过以下公式处理使所得回归系数总和为1,从而获得待评估鳞癌组织中各个细胞类型或细胞亚群类型的细胞组分含量百分比;
其中,P表示细胞组分含量百分比,Lm表示拟合回归系数,i表示待评估鳞癌组织中的细胞类型或细胞亚群类型,j表示待评估鳞癌组织中的所有细胞类型或所有细胞亚群类型。
本发明的有益技术效果是:
本发明基于约20万细胞的鳞癌单细胞测序数据,识别并筛选了包括免疫细胞与组织细胞等多种细胞类型的特征表达基因,作为对应细胞类型的代表性特征标志物,进而提出一种估算细胞类型更多、估算结果更具生物学意义的组织功能状态与细胞组分评估方法—MKCell,本发明方法可以分析估算更精细的细胞类型,如B/Plasma细胞类型中的生发中心B细胞、成纤维细胞类型中的肌成纤维细胞和肿瘤相关成纤维细胞以及树突细胞类型中的浆细胞样树突细胞和朗格汉斯树突细胞等,并且本发明方法额外整合了评估样本组织功能状态的步骤,可在估测样本间细胞组分差异的同时,探究细胞组分差异与组织状态间的关系。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。
图1是本发明一种鳞癌组织功能状态与细胞组分评估方法的流程示意图;
图2是本发明中单细胞测序数据细胞类型的可视化示例图;
图3是本发明方法在分析平台中的应用界面示意图;
图4是本发明一种鳞癌组织功能状态与细胞组分评估系统的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,在下文中将结合附图对本发明的示范性实施方式或实施例进行描述。显然,所描述的实施方式或实施例仅仅是本发明一部分的实施方式或实施例,而不是全部的。基于本发明中的实施方式或实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式或实施例,都应当属于本发明保护的范围。
本发明旨在通过分析海量单细胞测序数据,提取各细胞类型的特征表达基因及其基因表达谱,进而提供一种计算细胞类型更全面、结果更具生物学意义的组织功能状态与细胞组分评估方法及系统。
如图1所示,一种鳞癌组织功能状态与细胞组分评估方法,具体包括以下步骤:
S1、从NCBI GEO公共数据库(https://www.ncbi.nlm.nih.gov/gds)中检索下载鳞状细胞癌组织单细胞测序数据,包括HPV感染与EBV感染与否的患者病例,共获得单细胞测序数据集5个(细胞总数166,788个),单细胞测序数据相关来源与病毒感染状态等信息如表1所示。NCBI本身是一个巨大的生物信息库,除了涵盖有物种从基因到蛋白质的基础信息外,还包含有各种上传的测序结果,包括高通量测序,microarry,RNA-seq等数据库,其中GEO就是最常用的测序(芯片)数据库之一。
表1
S2、将鳞癌单细胞测序数据进行整合分析,筛选符合质控范围的细胞,共得到199,479个细胞并纳入后续单细胞聚类识别分析。通过对细胞进行无监督聚类分析,稳定识别得到以下主要细胞类型:B/Plasma细胞、T/NK细胞、内皮细胞、上皮细胞、成纤维细胞、Langerin树突细胞、肥大细胞、成熟树突细胞、黑色素细胞、浆细胞样树突细胞和单核细胞,如图2所示。
然后,在精细识别细胞亚群类型方面,通过对B/Plasma细胞、T/NK细胞、单核细胞和成纤维细胞等主要细胞类型进行数据提取,聚类分析得到各主要细胞类型内的精细细胞亚群。
1)通过提取B/Plasma细胞进行无监督聚类分析,根据各细胞亚群特征差异表达基因的表达分布精细识别以下B/Plasma细胞亚群:浆细胞、B细胞和生发中心B细胞。
2)通过提取T/NK细胞进行无监督聚类分析,根据各细胞亚群特征差异表达基因的表达分布精细识别以下T/NK细胞亚群:幼稚型T细胞、调节型T细胞、辅助型T细胞、Th17细胞、细胞毒性T细胞与细胞毒性NK细胞。
3)通过提取单核细胞进行无监督聚类分析,根据各细胞亚群特征差异表达基因的表达分布精细识别以下单核细胞亚群:分泌型巨噬细胞(M1型)、炎症型巨噬细胞(M2型)、趋化型巨噬细胞、成熟树突细胞、Langerin树突细胞和髓系(Ⅰ型,Ⅱ型和Ⅲ型)树突细胞。
4)通过提取成纤维细胞进行无监督聚类分析,根据各细胞亚群特征差异表达基因的表达分布精细识别以下成纤维细胞亚群:肌成纤维细胞、CAF细胞、CFD+成纤维细胞和TP63+成纤维细胞。
S3、通过基因差异表达分析,筛选得到各主要细胞类型的特征表达基因,如表2所示。
表2
1)通过基因差异表达分析,筛选得到各个B/Plasma细胞亚群的特征表达基因,如表3所示。
表3
2)通过基因差异表达分析,筛选得到各个T/NK细胞亚群的特征表达基因,如表4所示。其中,细胞毒性T细胞与NK细胞间无显著差异表达基因,统一注释为杀伤性淋巴细胞类型纳入评估细胞类型中。由于分析幼稚T细胞无显著特征表达基因故未纳入评估细胞类型中。
表4
3)通过基因差异表达分析,筛选得到各个单核细胞亚群的特征表达基因,如表5所示。其中,由于成熟树突细胞和Langerin树突细胞在主要细胞类型分群中显著特异,故作为稳定分析的第一步纳入主要细胞类型中。由于分析髓系树突细胞Ⅲ型未得到显著特征表达基因故未纳入评估细胞类型中。
表5
4)通过基因差异表达分析,筛选得到各成纤维细胞亚群的特征表达基因,如表6所示。其中,TP63+成纤维细胞的高表达基因TP63在上皮细胞类型中同样高表达,不能有效反映TP63+成纤维细胞的浸润含量,故未纳入评估细胞类型中。
表6
通过识别并注释单细胞表达矩阵中的细胞类型,提取各个细胞类型的表达谱。去除以细胞状态聚类的细胞群,如高增殖型细胞(高表达MKI67、UBE2C和CENPF等细胞增殖相关基因)和高应激型细胞(高表达HSPA1A、HSPA1B和HSPA6等细胞应激相关基因),并筛除低于50%细胞数目表达的基因。通过计算每个基因在各细胞类型表达谱中的均值,制作细胞特征矩阵,完成该步骤细胞类型特征表达基因及表达谱的提取。
S4、基于CancerSEA数据库(数据库网址http://biocc.hrbmu.edu.cn/CancerSEA/)提取14种组织功能状态相关基因集,其中包括血管生成、细胞凋亡、细胞周期、细胞分化、DNA损伤、DNA修复、细胞上皮间质化、细胞缺氧、炎症发生、癌细胞侵袭、癌细胞转移、癌细胞增殖、细胞静息、干细胞性等临床癌症组织表型与组织细胞状态,并以各基因在CancerSEA中满足与临床表型显著相关的数据集数目作为权重,分别对所在基因集中的各基因进行加权,制作样本的组织功能状态程度得分。
CancerSEA数据库是一个旨在单细胞水平上全面探索癌细胞的不同功能状态的多功能数据库,涉及14个细胞功能状态,是25种癌症类型的900个癌症单细胞。该数据库提供癌症单细胞功能状态图集,涉及来自25种癌症类型的41,900个癌症单细胞的14个功能状态,且提供在单细胞分辨率下与功能状态高度相关的PCG/lncRNA谱库。
S5、基于单细胞测序细胞类型特征表达基因构建RNA-seq细胞组分评估的算法主要包含两方面,即样本间细胞组分的评估功能和样本内细胞组分的评估功能。1)样本间细胞组分的评估功能:筛选单细胞测序数据中各细胞亚群特异性表达的基因,制备各细胞种类的特征表达基因列表。通过计算待测样本数据中每个样本匹配到特征表达基因列表的基因的均值,输出不同细胞类型的浸润含量评分。2)样本内细胞组分的评估功能:计算基因在细胞类型内的表达量方差以及各细胞类型文库(总基因表达读数)的均值,制作细胞特征矩阵的附加信息集。通过以下公式将待测数据矩阵与细胞特征矩阵进行均值方差归一化以消除矩阵间的量纲:
其中,为基因表达矩阵的均值,σ为基因表达矩阵的标准差。
基于nnls R软件包,通过非负线性最小二乘回归方法计算待测矩阵与细胞特征矩阵的拟合回归系数,采用以下基因加权公式(2),根据基因在各细胞类型内的方差与该细胞类型的平均文库对基因施加权重。
其中,W为基因的权重得分,R为拟合残差,Lm为拟合回归系数,Lib为细胞类型平均文库,V为细胞类型内的基因表达量方差,nu为常数1e-04。
通过不断迭代(小于1000次或迭代前后所得拟合系数总偏差小于1%),获得最终拟合回归系数,并通过以下公式(3)处理使所得回归系数总和为1,输出待测样本内细胞组分含量百分比:
其中,P为细胞组分含量百分比,Lm为满足迭代要求的拟合回归系数。
MKCell在线分析平台的搭建,通过上述细胞组分估算方法整合构建MKCell细胞组分估算软件。如图3所示,软件采用R语言软件包与在线网站分析平台两种形式。网站前端的网页设计采用HTML、CSS和JavaScript三种语言组合构建,并确保手机端与PC客户端的显示得到响应式兼容。网站后端的服务器功能设计基于Tomcat软件(9.0版本),登陆注册方面通过邮箱验证注册,用户信息数据的存储采用MySQL数据库。网页前端的用户ID显示通过JQuery插件提取。响应式前端页面采用bootstrap插件建立。网站搭建的后端所应用的Java软件包:activation.jar,mail.jar,mysql-connector-java-8.0.17.jar,RserveEngine.jar和struts2-core-2.3.24.jar。后端数据分析方面通过Rserve Java建立前端HTTP请求与R语言数据分析处理的链接。MKCell在线分析网站平台的网址为:http:// hpvgroup.imwork.net/MKCell/
相较于目前广泛使用的MCP-counter软件,基于本发明评估方法所开发的MKCell在线分析平台能够评估超过MCP-counter两倍以上的细胞类型数量,可评估共计26种细胞类型,包括10种主要细胞类型、16种细胞亚群类型和14种组织功能状态。在参考基因的选取方面,MKCell相比MCP-counter也更精确,例如,对于B/Plasma细胞类型,MKCell中特征基因CD79A、CD79B和MS4A1的表达相比于MCP-counter中特征基因CR2、FCRL2和IGKC的表达,在细胞数目与表达量方面更高,更能全面反映B/Plasma细胞类型的浸润程度;对于T/NK细胞类型,MKCell中特征基因CD2、CD7和IL32的表达相比于MCP-counter中特征基因CR2、FCRL2和IGKC的表达,在细胞数目与表达量方面更高,更能全面反映T/NK细胞类型的浸润程度。进一步地,MKCell在样本间细胞类型评估的基础上增加了样本内细胞类型评估,使得基于本发明方法进行细胞组分在线分析的应用更为广泛和全面。
本发明另一实施例提供一种鳞癌组织功能状态与细胞组分评估系统,如图4所示,该系统包括:
数据获取模块10,包括测序数据获取子模块110和基因功能状态获取子模块120,测序数据获取子模块110用于获取鳞状细胞癌组织单细胞测序数据,基因功能状态获取子模块120用于获取14种单细胞组织功能状态相关基因集;
聚类分析模块20,用于对单细胞测序数据进行无监督聚类分析,识别获得包含以下细胞类型的单细胞样本数据:B/Plasma细胞、T/NK细胞、内皮细胞、上皮细胞、成纤维细胞、Langerin树突细胞、肥大细胞、成熟树突细胞、黑色素细胞、浆细胞样树突细胞和单核细胞;对各个细胞类型的单细胞样本数据进行无监督聚类分析,识别获得各个细胞类型内的细胞亚群样本数据;
组织功能状态评估模块30,用于根据14种单细胞组织功能状态相关基因集,对待评估鳞癌组织进行组织功能状态的评估;组织功能状态包括血管生成、细胞凋亡、细胞周期、细胞分化、DNA损伤、DNA修复、细胞上皮间质化、细胞缺氧、炎症发生、癌细胞侵袭、癌细胞转移、癌细胞增殖、细胞静息、干细胞性;具体步骤包括:从CancerSEA数据库中提取与组织功能状态相关的14种单细胞组织功能状态基因集并以其在CancerSEA数据库中对应的编号数据集的数目作为权重;在待评估鳞癌组织的测序数据中提取14种功能状态基因;以权重对每个功能状态基因进行加权,并计算各个功能状态基因的均值,从而获得组织功能状态的得分;
细胞组分评估模块40,用于根据单细胞样本数据或各个细胞类型内的细胞亚群样本数据对待评估鳞癌组织的各个细胞类型或各个细胞亚群类型进行细胞组分的评估。
其中,细胞组分评估模块中按照以下步骤进行细胞组分的评估:通过基因差异表达分析,筛选获得单细胞样本数据或细胞亚群样本数据中的样本细胞特征表达基因;根据样本细胞特征表达基因计算待评估鳞癌组织中各个细胞类型或细胞亚群类型的细胞特征表达基因的均值,输出不同细胞类型或细胞亚群类型的浸润含量评分。
或者,按照以下步骤进行细胞组分的评估:首先,通过基因差异表达分析,筛选获得单细胞样本数据或细胞亚群样本数据中的特征表达基因,并生成样本特征表达矩阵;然后,根据特征表达基因在各个细胞类型或细胞亚群类型内的方差与该细胞类型或细胞亚群类型的平均文库对特征表达基因施加权重,获得样本特征表达矩阵的附加特征数据,并将上述附加特征数据和样本特征表达矩阵结合作为最终的样本特征表达矩阵;权重计算公式为:
其中,W为基因的权重得分,R为拟合残差,Lm为拟合回归系数,Lib为细胞类型或细胞亚群类型平均文库,V为细胞类型或细胞亚群类型内的基因表达量方差,nu为常数1e-04;
然后,通过非负线性最小二乘回归方法计算待评估鳞癌组织中各个细胞类型或细胞亚群类型的细胞特征表达矩阵与样本特征表达矩阵的拟合回归系数,通过不断迭代获得最终拟合回归系数,并通过以下公式处理使所得回归系数总和为1,从而获得待评估鳞癌组织中各个细胞类型或细胞亚群类型的细胞组分含量百分比;
其中,P表示细胞组分含量百分比,Lm表示拟合回归系数,i表示待评估鳞癌组织中的细胞类型或细胞亚群类型,j表示待评估鳞癌组织中的所有细胞类型或所有细胞亚群类型。
本实施例所述一种鳞癌组织功能状态与细胞组分评估系统的功能可以由前述一种鳞癌组织功能状态与细胞组分评估方法说明,因此本实施例未详述部分,可参见以上方法实施例,在此不再赘述。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
本发明所援引的文献如下:
[1]Estimating the population abundance of tissue-infiltrating immuneand stromal cell populations using gene expression.Genome Biol,2016,17(1):218.
[2]Bulk tissue cell type deconvolution with multi-subject single-cellexpression reference.Nat Commun,2019,10(1):380.

Claims (3)

1.一种鳞癌组织功能状态与细胞组分评估方法,其特征在于,包括下述步骤:
步骤一、获取鳞状细胞癌组织单细胞测序数据;
步骤二、对所述单细胞测序数据进行无监督聚类分析,识别获得包含以下细胞类型的单细胞样本数据:B/Plasma细胞、T/NK细胞、内皮细胞、上皮细胞、成纤维细胞、Langerin树突细胞、肥大细胞、成熟树突细胞、黑色素细胞、浆细胞样树突细胞和单核细胞;
步骤三、通过对各个细胞类型的单细胞样本数据进行无监督聚类分析,识别获得各个细胞类型内的细胞亚群样本数据;
步骤四、获取14种单细胞组织功能状态相关基因集,根据所述基因集对待评估鳞癌组织进行组织功能状态的评估;具体步骤包括:
从CancerSEA数据库中提取与组织功能状态相关的14种单细胞组织功能状态基因集并以其在CancerSEA数据库中对应的编号数据集的数目作为权重;
在待评估鳞癌组织的测序数据中提取14种功能状态基因;
以所述权重对每个功能状态基因进行加权,并计算各个功能状态基因的均值,从而获得组织功能状态的得分;
所述组织功能状态包括血管生成、细胞凋亡、细胞周期、细胞分化、DNA损伤、DNA修复、细胞上皮间质化、细胞缺氧、炎症发生、癌细胞侵袭、癌细胞转移、癌细胞增殖、细胞静息、干细胞性;
步骤五、根据所述单细胞样本数据或各个细胞类型内的细胞亚群样本数据对待评估鳞癌组织的各个细胞类型或各个细胞亚群类型进行细胞组分的评估;具体步骤包括:
样本间细胞组分的评估功能:通过基因差异表达分析,筛选获得单细胞样本数据或细胞亚群样本数据中的样本细胞特征表达基因;根据所述样本细胞特征表达基因计算待评估鳞癌组织中各个细胞类型或细胞亚群类型的细胞特征表达基因的均值,输出不同细胞类型或细胞亚群类型的浸润含量评分;
样本内细胞组分的评估功能:通过基因差异表达分析,筛选获得单细胞样本数据或细胞亚群样本数据中的细胞特征表达基因,并生成样本特征表达矩阵;通过非负线性最小二乘回归方法计算待评估鳞癌组织中各个细胞类型或细胞亚群类型的细胞特征表达矩阵与样本特征表达矩阵的拟合回归系数,通过不断迭代获得最终拟合回归系数,并通过以下公式处理使所得回归系数总和为1,从而获得待评估鳞癌组织中各个细胞类型或细胞亚群类型的细胞组分含量百分比;
其中,P表示细胞组分含量百分比,Lm表示拟合回归系数,i表示待评估鳞癌组织中的细胞类型或细胞亚群类型,j表示待评估鳞癌组织中的所有细胞类型或所有细胞亚群类型;
在计算拟合回归系数之前,根据特征表达基因在各个细胞类型或细胞亚群类型内的基因表达量方差与该细胞类型或细胞亚群类型的平均文库对特征表达基因施加权重,获得样本特征表达矩阵的附加特征数据,并将上述附加特征数据和样本特征表达矩阵结合作为最终的样本特征表达矩阵;其中,权重计算公式为:
其中,W为基因的权重得分,R为拟合残差,Lm为拟合回归系数,Lib为细胞类型或细胞亚群类型平均文库,V为细胞类型或细胞亚群类型内的基因表达量方差,nu为常数1e-04。
2.根据权利要求1所述的一种鳞癌组织功能状态与细胞组分评估方法,其特征在于,在计算拟合回归系数之前,通过以下公式将待评估鳞癌组织中各个细胞类型或细胞亚群类型的细胞特征表达矩阵与样本特征表达矩阵进行均值方差归一化以消除矩阵间的量纲:
其中,x表示待评估鳞癌组织中各个细胞类型或细胞亚群类型的细胞特征表达矩阵;表示样本特征表达矩阵的均值,σ表示样本特征表达矩阵的标准差。
3.一种鳞癌组织功能状态与细胞组分评估系统,其特征在于,包括:
数据获取模块,包括测序数据获取子模块和基因功能状态获取子模块,所述测序数据获取子模块用于获取鳞状细胞癌组织单细胞测序数据,所述基因功能状态获取子模块用于获取14种单细胞组织功能状态相关基因集;
聚类分析模块,用于对所述单细胞测序数据进行无监督聚类分析,识别获得包含以下细胞类型的单细胞样本数据:B/Plasma细胞、T/NK细胞、内皮细胞、上皮细胞、成纤维细胞、Langerin树突细胞、肥大细胞、成熟树突细胞、黑色素细胞、浆细胞样树突细胞和单核细胞;对各个细胞类型的单细胞样本数据进行无监督聚类分析,识别获得各个细胞类型内的细胞亚群样本数据;
组织功能状态评估模块,用于根据14种单细胞组织功能状态相关基因集,对待评估鳞癌组织进行组织功能状态的评估;所述组织功能状态包括血管生成、细胞凋亡、细胞周期、细胞分化、DNA损伤、DNA修复、细胞上皮间质化、细胞缺氧、炎症发生、癌细胞侵袭、癌细胞转移、癌细胞增殖、细胞静息、干细胞性;具体步骤包括:从CancerSEA数据库中提取与组织功能状态相关的14种单细胞组织功能状态基因集并以其在CancerSEA数据库中对应的编号数据集的数目作为权重;在待评估鳞癌组织的测序数据中提取14种功能状态基因;以所述权重对每个功能状态基因进行加权,并计算各个功能状态基因的均值,从而获得组织功能状态的得分;
细胞组分评估模块,用于根据所述单细胞样本数据或各个细胞类型内的细胞亚群样本数据对待评估鳞癌组织的各个细胞类型或各个细胞亚群类型进行细胞组分的评估;具体包括:通过基因差异表达分析,筛选获得单细胞样本数据或细胞亚群样本数据中的样本细胞特征表达基因;根据所述样本细胞特征表达基因计算待评估鳞癌组织中各个细胞类型或细胞亚群类型的细胞特征表达基因的均值,输出不同细胞类型或细胞亚群类型的浸润含量评分;或者,
通过基因差异表达分析,筛选获得单细胞样本数据或细胞亚群样本数据中的细胞特征表达基因,并生成样本特征表达矩阵;根据特征表达基因在各个细胞类型或细胞亚群类型内的基因表达量方差与该细胞类型或细胞亚群类型的平均文库对特征表达基因施加权重,获得样本特征表达矩阵的附加特征数据,并将上述附加特征数据和样本特征表达矩阵结合作为最终的样本特征表达矩阵;权重计算公式为:
其中,W为基因的权重得分,R为拟合残差,Lm为拟合回归系数,Lib为细胞类型或细胞亚群类型平均文库,V为细胞类型或细胞亚群类型内的基因表达量方差,nu为常数1e-04;
通过非负线性最小二乘回归方法计算待评估鳞癌组织中各个细胞类型或细胞亚群类型的细胞特征表达矩阵与样本特征表达矩阵的拟合回归系数,通过不断迭代获得最终拟合回归系数,并通过以下公式处理使所得回归系数总和为1,从而获得待评估鳞癌组织中各个细胞类型或细胞亚群类型的细胞组分含量百分比;
其中,P表示细胞组分含量百分比,Lm表示拟合回归系数,i表示待评估鳞癌组织中的细胞类型或细胞亚群类型,j表示待评估鳞癌组织中的所有细胞类型或所有细胞亚群类型。
CN202110884396.0A 2021-08-03 2021-08-03 一种鳞癌组织功能状态与细胞组分评估方法及系统 Active CN113593640B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110884396.0A CN113593640B (zh) 2021-08-03 2021-08-03 一种鳞癌组织功能状态与细胞组分评估方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110884396.0A CN113593640B (zh) 2021-08-03 2021-08-03 一种鳞癌组织功能状态与细胞组分评估方法及系统

Publications (2)

Publication Number Publication Date
CN113593640A CN113593640A (zh) 2021-11-02
CN113593640B true CN113593640B (zh) 2023-07-28

Family

ID=78254400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110884396.0A Active CN113593640B (zh) 2021-08-03 2021-08-03 一种鳞癌组织功能状态与细胞组分评估方法及系统

Country Status (1)

Country Link
CN (1) CN113593640B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116486909A (zh) * 2022-01-14 2023-07-25 天士力干细胞产业平台有限公司 一种干细胞质量评价系统
CN116453593B (zh) * 2023-06-12 2023-10-03 普瑞基准生物医药(苏州)有限公司 一种细胞状态特征分值的获取方法、装置和电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107209934A (zh) * 2014-12-03 2017-09-26 文塔纳医疗系统公司 用于定量分析异质生物标志物分布的方法、系统和装置
CN107430588A (zh) * 2015-01-22 2017-12-01 斯坦福大学托管董事会 用于确定不同细胞亚群的比例的方法和系统
WO2019018684A1 (en) * 2017-07-21 2019-01-24 The Board Of Trustees Of The Leland Stanford Junior University SYSTEMS AND METHODS FOR ANALYZING MIXED CELL POPULATIONS
CN109979538A (zh) * 2019-03-28 2019-07-05 广州基迪奥生物科技有限公司 一种基于10x单细胞转录组测序数据的分析方法
CN110869518A (zh) * 2017-05-16 2020-03-06 香港中文大学 整合式单细胞和游离血浆rna分析
WO2020184782A1 (ko) * 2019-03-13 2020-09-17 울산대학교 산학협력단 공통 유전자 추출에 의한 다중 암 분류 방법
WO2020191413A1 (en) * 2019-03-21 2020-09-24 The University Of North Carolina At Chapel Hill De novo compartment deconvolution and weight estimation of tumor tissue samples using decoder
WO2021092236A1 (en) * 2019-11-05 2021-05-14 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for deconvoluting tumor ecosystems for personalized cancer therapy

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2971092B1 (en) * 2013-03-15 2020-04-22 Life Technologies Corporation Prognostic assay for squamous cell lung carcinoma
JP2016521979A (ja) * 2013-05-30 2016-07-28 ジェノミック ヘルス, インコーポレイテッド 腎臓がんを有する患者に対する再発スコアを計算するための遺伝子発現プロファイルアルゴリズム
EP3262417B1 (en) * 2015-02-23 2021-11-03 Cellanyx Diagnostics, LLC Cell imaging and analysis to differentiate clinically relevant sub-populations of cells
US11225689B2 (en) * 2016-08-17 2022-01-18 The Broad Institute, Inc. Method for determination and identification of cell signatures and cell markers
US20180106806A1 (en) * 2016-10-13 2018-04-19 Regents Of The University Of Minnesota Tumor Analytical Methods
WO2020047453A1 (en) * 2018-08-31 2020-03-05 Ampel Biosolutions, Llc Systems and methods for single-cell rna-seq data analysis
US20200370112A1 (en) * 2019-05-23 2020-11-26 The Board Of Trustees Of The Leland Stanford Junior University Methods utilizing single cell genetic data for cell population analysis and applications thereof

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107209934A (zh) * 2014-12-03 2017-09-26 文塔纳医疗系统公司 用于定量分析异质生物标志物分布的方法、系统和装置
CN107430588A (zh) * 2015-01-22 2017-12-01 斯坦福大学托管董事会 用于确定不同细胞亚群的比例的方法和系统
CN110869518A (zh) * 2017-05-16 2020-03-06 香港中文大学 整合式单细胞和游离血浆rna分析
WO2019018684A1 (en) * 2017-07-21 2019-01-24 The Board Of Trustees Of The Leland Stanford Junior University SYSTEMS AND METHODS FOR ANALYZING MIXED CELL POPULATIONS
WO2020184782A1 (ko) * 2019-03-13 2020-09-17 울산대학교 산학협력단 공통 유전자 추출에 의한 다중 암 분류 방법
WO2020191413A1 (en) * 2019-03-21 2020-09-24 The University Of North Carolina At Chapel Hill De novo compartment deconvolution and weight estimation of tumor tissue samples using decoder
CN109979538A (zh) * 2019-03-28 2019-07-05 广州基迪奥生物科技有限公司 一种基于10x单细胞转录组测序数据的分析方法
WO2021092236A1 (en) * 2019-11-05 2021-05-14 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for deconvoluting tumor ecosystems for personalized cancer therapy

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
scRNA-seq assessment of the human lung,spleen,and esophagus tissue stability after cold preservation;E. Madissoon et al;《Genome Biology》;1-16 *
基于单细胞测序的急性髓系白血病免疫细胞异质性研究;李天欣;《中国硕士学位论文全文数据库医药卫生科技辑》(第2021年01期期);1-47 *

Also Published As

Publication number Publication date
CN113593640A (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
Lyons et al. Immune cell profiling in cancer: molecular approaches to cell-specific identification
Xu et al. Human transcriptome array for high-throughput clinical studies
Harvey et al. QuASAR: quantitative allele-specific analysis of reads
Fermin et al. Abacus: a computational tool for extracting and pre‐processing spectral count data for label‐free quantitative proteomic analysis
Dudley et al. Disease signatures are robust across tissues and experiments
CN113593640B (zh) 一种鳞癌组织功能状态与细胞组分评估方法及系统
Wang et al. DEGseq: an R package for identifying differentially expressed genes from RNA-seq data
Pawitan et al. False discovery rate, sensitivity and sample size for microarray studies
Pham et al. On the beta-binomial model for analysis of spectral count data in label-free tandem mass spectrometry-based proteomics
Zhou et al. RNA-QC-chain: comprehensive and fast quality control for RNA-Seq data
Kotz et al. Clinical microfluidics for neutrophil genomics and proteomics
Zhang et al. Network‐based proteomic analysis for postmenopausal osteoporosis in Caucasian females
US20200098448A1 (en) Methods of normalizing and correcting rna expression data
Pedersen et al. cyCombine allows for robust integration of single-cell cytometry datasets within and across technologies
Ge et al. Clipper: p-value-free FDR control on high-throughput data from two conditions
Thurman et al. Differential gene expression analysis for multi-subject single-cell RNA-sequencing studies with aggregateBioVar
Yang et al. AdRoit is an accurate and robust method to infer complex transcriptome composition
Li et al. scDEA: differential expression analysis in single-cell RNA-sequencing data via ensemble learning
RU2744604C2 (ru) Способ неинвазивного пренатального выявления эмбриональной хромосомной анеуплоидии по материнской крови
Orsburn Time-of-flight fragmentation spectra generated by the proteomic analysis of single human cells do not exhibit atypical fragmentation patterns
Cho et al. OutlierD: an R package for outlier detection using quantile regression on mass spectrometry data
Xu et al. Robustified MANOVA with applications in detecting differentially expressed genes from oligonucleotide arrays
Xie et al. Accuracy of matrix-assisted LASER desorption ionization–time of flight mass spectrometry for identification of Candida
Fukutani et al. Meta-analysis of HTLV-1-infected patients identifies CD40LG and GBP2 as markers of ATLL and HAM/TSP clinical status: two genes beat as one
Frishberg et al. CoD: inferring immune-cell quantities related to disease states

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant