CN116959562A

CN116959562A - 一种识别疾病表型相关的细胞亚群的方法

Info

Publication number: CN116959562A
Application number: CN202310852512.XA
Authority: CN
Inventors: 汪国华; 刘崇辉
Original assignee: Northeast Forestry University
Current assignee: Northeast Forestry University
Priority date: 2023-07-12
Filing date: 2023-07-12
Publication date: 2023-10-27

Abstract

一种识别疾病表型相关的细胞亚群的方法，属于生物医学领域。为识别疾病表型相关的细胞亚群，本发明收集疾病的单细胞RNA测序数据得到单细胞表达矩阵，收集疾病的bulk表达矩阵和对应的表型标签，下载人类蛋白质相互作用数据构建蛋白质相互作用网络；提取细胞和样本的基因特征签名映射到蛋白质相互作用网络中形成相应的细胞模块、样本模块；计算每个细胞模块和每个样本模块之间的距离，确定多个样本模块的集合作为疾病表型的样本模块集合；计算细胞模块与疾病表型的样本模块集合之间的距离；创建背景距离分布评估细胞模块与疾病表型的样本模块集合间距离的统计显著性，并确定与疾病表型的样本模块集合距离显著小于背景距离分布的细胞。

Description

一种识别疾病表型相关的细胞亚群的方法

技术领域

本发明属于生物医学领域，具体涉及一种识别疾病表型相关的细胞亚群的方法。

背景技术

单细胞测序技术的出现使得生物学研究领域发生了革命性的变化。在过去十年中，随着单细胞测序技术的快速发展和单细胞数据的爆发式增长，单细胞分析在生命科学和精准医学方面得到了越来越多的关注。如今，我们已经能够获得单个细胞的基因组、转录组、表观基因组学等数据并在全基因组的水平上对细胞的DNA、RNA、组蛋白修饰、染色体可及性、DNA甲基化等方面进行进一步的研究。其中，单细胞RNA测序更是处在这些方法的前沿，其在吞吐量方面从最初的不足100个细胞，到如今一次实验的数万甚至数十万个细胞。单细胞RNA测序在处理微量RNA的技术上也有了长足的进出，提高了单细胞RNA测序在小样本上的稳定性。

单细胞数据分析的一般思路是通过标准化，特征选择，降维，聚类等方法在异质性组织中识别不同细胞亚群的细胞类型和推导细胞分化轨迹。单细胞测序能在单个细胞的水平上深入分析组织的异质性和识别影响疾病表型的重要细胞群，有利于阐明疾病致病和结果相关的机制，加深对疾病发展过程的理解。虽然现有的很多的方法能将细胞簇与表型进行关联研究，却不能将单个细胞与特定表型联系起来且目前大多数单细胞实验涉及不足20个患者样本，这缺乏统计能力来识别表型相关的细胞亚群。有研究证实，驱动疾病表型改变的往往只是一小部分关键细胞的变化，因此识别表型相关的这部分细胞亚群对于疾病的机制研究和靶向治疗具有重要意义。

发明内容

本发明要解决的问题是识别表型相关的细胞亚群，提出一种识别疾病表型相关的细胞亚群的方法。

本发明通过以下技术方案实现：

一种识别疾病表型相关的细胞亚群的方法，包括如下步骤：

S1、基于Gene Expression Omnibus数据库收集疾病的单细胞RNA测序数据得到单细胞表达矩阵，基于The Cancer Genome Atlas数据库收集疾病的bulk表达矩阵和对应的表型标签，基于MINT数据库下载人类蛋白质相互作用数据构建蛋白质相互作用网络；

S2、从步骤S1得到的单细胞表达矩阵和疾病的bulk表达矩阵提取细胞和样本的基因特征签名，并将细胞和样本的基因特征签名映射到蛋白质相互作用网络中形成相应的细胞模块、样本模块；

S3、基于蛋白质相互作用网络中的最短路径长度，计算步骤S2映射到蛋白质相互作用网络中的每个细胞模块和每个样本模块之间的距离，基于表型标签确定多个样本模块的集合作为疾病表型的样本模块集合；

S4、基于步骤S3得到的疾病表型的样本模块集合，计算细胞模块与疾病表型的样本模块集合之间的距离；

S5、创建背景距离分布评估细胞模块与疾病表型的样本模块集合间距离的统计显著性，并确定与疾病表型的样本模块集合距离显著小于背景距离分布的细胞。

进一步的，步骤S1中所述单细胞表达矩阵和疾病的bulk表达矩阵经过TPM/FPKM归一化处理，并且基因作为矩阵的行，细胞或样本作为矩阵的列。

进一步的，步骤S2中所述细胞和样本的基因特征签名由具有最高相对丰度的前150个基因组成。

进一步的，步骤S3中所述每个细胞模块与每个样本模块之间的距离的计算表达式为：

其中，S为样本模块的蛋白质集合，C为细胞模块的蛋白质集合，d(S,C)为细胞模块和样本模块之间的路径长度，d(s,c)为网络中节点s和节点c之间的最短路径，s为样本模块中的网络节点，c为细胞模块中的网络节点；

所述最短路径长度通过在网络中计算节点之间的最短路径来确定。

进一步的，步骤S4中所述细胞模块与疾病表型的样本模块集合之间的距离的计算公式为：

其中，P为疾病表型相关的样本模块集合，d(P,C)为细胞模块与疾病表型模块集合之间的距离。

进一步的，步骤S5中背景距离分布是通过在网络中随机选择与原始细胞模块大小相匹配的蛋白质集进行创建。

进一步的，步骤S5中统计显著性是通过计算背景距离分布中低于实际距离的随机距离数量，除以总随机细胞模块数量，来确定实际距离的经验P值。

进一步的，样本的疾病表型标签应与疾病的bulk表达矩阵的二进制分组相匹配。

本发明的有益效果：

本发明所述的一种识别疾病表型相关的细胞亚群的方法，基于网络邻近度的识别方法，能够显著的识别驱动疾病表型改变的细胞亚群，有利于疾病致病机制的研究和靶向特异细胞群的细胞治疗。本发明整合了生物学分子遗传信息和生物学网络拓扑信息，具有更加综合无偏的预测能力。本研究无需对单细胞数据进行无监督聚类，避免了因为人为设定聚类簇数目造成的结果不准确问题。

附图说明

图1为本发明所述的一种识别疾病表型相关的细胞亚群的方法的流程图；

图2为本发明所述的一种识别疾病表型相关的细胞亚群的方法的头颈鳞状细胞癌单细胞RNA测序数据的无监督聚类图；

图3为本发明所述的一种识别疾病表型相关的细胞亚群的方法识别出的与头颈鳞状细胞癌相关的细胞亚群；

图4为本发明所述的一种识别疾病表型相关的细胞亚群的方法识别出的细胞亚群的细胞类型占比；

图5为本发明所述的一种识别疾病表型相关的细胞亚群的方法预测结果的ROC曲线。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施方式，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅用以解释本发明，并不用于限定本发明，即所描述的具体实施方式仅仅是本发明一部分实施方式，而不是全部的具体实施方式。通常在此处附图中描述和展示的本发明具体实施方式的组件可以以各种不同的配置来布置和设计，本发明还可以具有其他实施方式。

因此，以下对在附图中提供的本发明的具体实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定具体实施方式。基于本发明的具体实施方式，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他具体实施方式，都属于本发明保护的范围。

为能进一步了解本发明的发明内容、特点及功效，兹例举以下具体实施方式，并配合附图1-附图5详细说明如下：

具体实施方式一：

一种识别疾病表型相关的细胞亚群的方法，包括如下步骤：

进一步的，步骤S1中所述单细胞表达矩阵和疾病的bulk表达矩阵经过TPM/FPKM归一化处理，并且基因作为矩阵的行，细胞或样本作为矩阵的列；

进一步的，步骤S2中所述细胞和样本的基因特征签名由具有最高相对丰度的前150个基因组成；

所述最短路径长度通过在网络中计算节点之间的最短路径来确定；

其中，P为疾病表型相关的样本模块集合，d(P,C)为细胞模块与疾病表型模块集合之间的距离；

S5、创建背景距离分布评估细胞模块与疾病表型的样本模块集合间距离的统计显著性，并确定与疾病表型的样本模块集合距离显著小于背景距离分布的细胞；

进一步的，从Gene Expression Omnibus(GEO:accession number:GSE103322)数据库下载的头颈鳞状细胞癌单细胞RNA测序数据集。该单细胞RNA测序数据是来自18例口腔肿瘤患者,去除掉淋巴结来源的和细胞类型无法识别的细胞，剩余4244个细胞，如图2所示。使用GDCRNATools R包下载TCGA-HNSC的bulk表达数据和与bulk数据集相匹配的二进制表型标签。每个基因的reads计数进一步转化为转录本/百万量化(TPM)。从MINT数据库下载了69,567个经过实验证实的人类蛋白质相互作用数据作为真实案例数据；

进一步的，本实施方式方法识别出了46个与头颈鳞状细胞癌表型相关的细胞，如图3所示，其中97.8％是恶性细胞，其余的是成纤维细胞，如图4所示。ROC分析显示，该方法获得的AUC值为0.86，表明其在识别头颈鳞状细胞癌相关细胞方面具有较高的敏感性和特异性，如图5所示。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然在上文中已经参考具体实施方式对本申请进行了描述，然而在不脱离本申请的范围的情况下，可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是，只要不存在结构冲突，本申请所披露的具体实施方式中的各项特征均可通过任意方式相互结合起来使用，在本说明书中未对这些组合的情况进行穷举性的描述仅仅是出于省略篇幅和节约资源的考虑。因此，本申请并不局限于文中公开的特定具体实施方式，而是包括落入权利要求的范围内的所有技术方案。

Claims

1.一种识别疾病表型相关的细胞亚群的方法，其特征在于，包括如下步骤：

S1、基于GeneExpressionOmnibus数据库收集疾病的单细胞RNA测序数据得到单细胞表达矩阵，基于TheCancerGenomeAtlas数据库收集疾病的bulk表达矩阵和对应的表型标签，基于MINT数据库下载人类蛋白质相互作用数据构建蛋白质相互作用网络；

2.根据权利要求1所述的一种识别疾病表型相关的细胞亚群的方法，其特征在于，步骤S1中所述单细胞表达矩阵和疾病的bulk表达矩阵经过TPM/FPKM归一化处理，并且基因作为矩阵的行，细胞或样本作为矩阵的列。

3.根据权利要求2所述的一种识别疾病表型相关的细胞亚群的方法，其特征在于，步骤S2中所述细胞和样本的基因特征签名由具有最高相对丰度的前150个基因组成。

4.根据权利要求3所述的一种识别疾病表型相关的细胞亚群的方法，其特征在于，步骤S3中所述每个细胞模块与每个样本模块之间的距离的计算表达式为：

5.根据权利要求4所述的一种识别疾病表型相关的细胞亚群的方法，其特征在于，步骤S4中所述细胞模块与疾病表型的样本模块集合之间的距离的计算公式为：

6.根据权利要求5所述的一种识别疾病表型相关的细胞亚群的方法，其特征在于，步骤S5中背景距离分布是通过在网络中随机选择与原始细胞模块大小相匹配的蛋白质集进行创建。

7.根据权利要求6所述的一种识别疾病表型相关的细胞亚群的方法，其特征在于，步骤S5中统计显著性是通过计算背景距离分布中低于实际距离的随机距离数量，除以总随机细胞模块数量，来确定实际距离的经验P值。

8.根据权利要求7所述的一种识别疾病表型相关的细胞亚群的方法，其特征在于，样本的疾病表型标签应与疾病的bulk表达矩阵的二进制分组相匹配。