CN115631793A

CN115631793A - 一种单细胞转录组Pseudo-Cell分析方法、模型及存储介质和设备

Info

Publication number: CN115631793A
Application number: CN202211523697.1A
Authority: CN
Inventors: 胡超; 胡龙飞
Original assignee: Singleron Nanjing Biotechnologies Ltd
Current assignee: Singleron Nanjing Biotechnologies Ltd
Priority date: 2022-12-01
Filing date: 2022-12-01
Publication date: 2023-01-20
Anticipated expiration: 2042-12-01
Also published as: CN115631793B

Abstract

本发明公开了一种单细胞转录组Pseudo‑Cell分析方法、模型及存储介质和设备。所述方法包括以下步骤：（1）基于单细胞表达矩阵构建细胞与细胞之间基于表达谱高维空间距离的关系矩阵，通过关系矩阵分析细胞之间的相似性；（2）通过社区发现算法基于所述细胞之间的相似性划分为不同的子细胞群；（3）基于步骤（2）得到的细胞分群信息，整合每个子细胞群内部的表达谱，得到新整合的表达谱矩阵。本发明通过在划分细胞分群关系的社区发现算法中引入社区规模限制参数以及高分辨率下迭代分群的思路，将表达相似性最高的细胞分群整合为Pseudo‑Cell，解决了在单细胞数据中广泛存在的以dropout为主的数据噪音问题。

Description

一种单细胞转录组Pseudo-Cell分析方法、模型及存储介质和设备

技术领域

本发明属于分子生物学技术领域，涉及一种单细胞转录组Pseudo-Cell分析方法、模型及存储介质和设备。

背景技术

单细胞RNA测序技术作为一种可以在单个细胞的分辨率水平研究复杂生物系统的技术平台，已经在前沿生物医学领域得到广泛的应用。其中当前最具代表性的基于微孔或基于液滴的单细胞测序平台都能够以较小的成本获取大量细胞的高通量测序数据，为生命科学研究提供海量的细胞RNA表达数据信息。但是目前的单细胞测序技术也存在两方面的挑战：一个是受限于技术瓶颈的数据噪音问题，另一个是海量数据造成的计算资源消耗问题。由于技术和生物学噪音，海量单细胞测序数据不可避免的引入了一定程度的数据噪音和异常值。例如在单细胞数据中广泛存在的dropout现象，由于单个细胞内的RNA转录组的起始数量较少以及基因表达和片段捕获的随机性，扩增的偏好性，在单细胞数据中有很高的概率将非零值判断为零。当生物系统中的关键基因发生明显的dropout会对基于marker基因进行细胞类型的注释以及下游分析中的数据处理和模型拟合产生不良影响，增加了下游分析的复杂度，同时也影响了数据分析结果的可靠性。

同时由于目前单细胞测序技术的发展，细胞捕获通量也越来越高，这也导致下游分析过程中需要的计算资源也急剧增高。将单细胞数据的表达矩阵处理为pseudo-cell矩阵很大程度上减少了这两个问题对单细胞数据分析的影响。pseudo-cell的基本思路是将单细胞测序数据的原始count矩阵或标准化后的矩阵作为输入，基于相应的细胞分群方式，将表达特征最相近的多个细胞的表达计算平均值整合为一个虚拟细胞的表达数据，构建新的矩阵进行下游的分析。此方法既平均了单细胞矩阵内数据噪音的影响也减低了矩阵的维度减少计算资源消耗。类似的方法，如metacell软件通过迭代重采样构建细胞间的KNN关系将细胞划分为不同的元细胞，每个元细胞对应不同数量的单个细胞，并用元细胞内部细胞的表达均值表征元细胞的表达特征；此外，也有报道通过随机下采样再计算均值的方式构建新表达矩阵用于下游分析。

目前已有的方法虽然都能减少下游分析的计算资源消耗，但是对于数据本身中不同细胞群之间以及内部的特征不能做到同时很好的保留，如metacell软件由于不同元细胞内部细胞数量差异较大，单个元细胞内包含的细胞过多时一定程度上会忽略细胞类型内部的本应存在的差异而且会丢失单细胞数据中比较重要的各细胞类型比例的信息；而基于下采样方法的则丢失了很多数据信息。

综上所述，如何提供一种单细胞RNA测序分析方法，既减少噪音的干扰和计算资源消耗，又尽可能同时保持单细胞数据完整性，是单细胞RNA测序领域亟需解决问题之一。

发明内容

针对现有技术的不足和实际需求，本发明提供一种单细胞转录组Pseudo-Cell分析方法、模型及存储介质和设备，设计了一种新的单细胞pseudo-cell分析方案，既减少单细胞数据中噪音的干扰和下游分析的计算资源消耗，又尽可能同时保留单细胞数据的整体特征和细胞类型内部的特征。

为达上述目的，本发明采用以下技术方案：

第一方面，本发明提供一种单细胞转录组Pseudo-Cell分析方法，所述方法包括以下步骤：

（1）基于单细胞表达矩阵构建细胞与细胞之间基于表达谱高维空间距离的关系矩阵，通过关系矩阵分析细胞之间的相似性；

（2）通过社区发现算法基于所述细胞之间的相似性划分为不同的子细胞群；

（3）基于步骤（2）得到的细胞分群信息，整合每个子细胞群内部的表达谱，得到新整合的表达谱矩阵。

本发明中，提出了一种新的单细胞pseudo-cell分析方案，基于单细胞表达矩阵构建细胞与细胞之间的关系矩阵，通过关系矩阵量化细胞之间的近似程度。单细胞RNA测序同时测到了海量细胞的表达信息，这些细胞根据其表达的特征能够对应了细胞的不同细胞类型和状态，相同细胞类型和状态的细胞表达特征具有很高相似性，而不同细胞类型和状态的细胞相似性较低，通过细胞表达矩阵能够构建细胞间距离矩阵，表达越相似的细胞在高维数据空间的距离越近，反之则越远；通过将单细胞分为一定数量的子细胞群，每个子细胞群中的这部分细胞代表了单细胞数据的一部分局部表达特征，将这些子细胞群的表达特征综合起来能够反应单细胞数据的总体特征；基于得到的细胞分群信息整合每个子群内部的表达谱得到新的表达谱矩阵。

优选地，步骤（1）具体包括：

对单细胞表达矩阵进行数据标准化和归一化处理，对处理后的数据进行PCA降维，基于PCA降维矩阵计算细胞与细胞的Euclidean距离矩阵，并通过UMAP算法构建连通性矩阵。

本发明中，通过设置较小的邻近点数以保留更多的局部流形结构，即数据的局部信息，计算得到的细胞间关系以矩阵的形式存储并应用于下一步的分析。

优选地，步骤（2）所述社区发现算法包括louvain社区发现算法或leiden社区发现算法。

优选地，所述louvain社区发现算法包括：

使用初始分辨率对细胞进行初分群，若存在子群社区规模即细胞数大于规模上限则按梯度放大分辨率重新分群；若有子群小于规模下限则按比例缩小分辨率再分群；迭代分群，直到每个子群的规模满足最大和最小数量限制或者结果达到无法进一步迭代分群的程度。

优选地，所述规模上限为50，并可根据数据大小和实际分析需要进行调整。

优选地，所述规模下限为5，并可根据数据大小和实际分析需要进行调整。

优选地，所述leiden社区发现算法包括：

通过设置固定的社区规模参数直接限制每个社区的规模上限，同时删除不满足规模下限条件的子群。

优选地，所述社区规模参数为上限为50，下限为5，并可根据数据大小和实际分析需要进行调整。

优选地，步骤（3）具体包括：

根据步骤（2）得到的细胞分群信息将原单细胞矩阵拆分为与子群数量相等的子矩阵，每个子矩阵包含了当前子群中所有细胞的表达谱，分别对每个基因在子群所属细胞中的表达值进行指数转换并计算均值，将每个子群对应的基因x细胞二维矩阵(M × N)转换为一维矩阵(M × 1)，合并经过转换的矩阵得到Pseudo-Cell矩阵。

第二方面，本发明提供一种单细胞转录组Pseudo-Cell分析模型，所述模型用于执行第一方面所述的单细胞转录组Pseudo-Cell分析方法中步骤。

所述模型包括构建距离矩阵单元、细胞分群单元和构建Pseudo-Cell矩阵单元。

所述构建距离矩阵单元用于执行包括：

基于单细胞表达矩阵构建细胞与细胞之间基于表达谱高维空间距离的关系矩阵，通过关系矩阵分析细胞之间的相似性。

所述细胞分群单元用于执行包括：

通过社区发现算法基于所述细胞之间的相似性划分为不同的子细胞群。

所述构建Pseudo-Cell矩阵单元用于执行包括：

基于细胞分群单元得到的细胞分群信息，整合每个子细胞群内部的表达谱，得到新整合的表达谱矩阵。

优选地，所述构建距离矩阵单元用于执行包括：

对单细胞表达矩阵进行数据标准化和归一化处理，对处理后的数据进行PCA降维，基于PCA降维矩阵计算细胞与细胞的Euclidean距离矩阵，并通过UMAP算法构建连通性矩阵；

优选地，所述细胞分群单元用于执行包括：

通过louvain社区发现算法或leiden社区发现算法基于细胞之间的相似性划分为不同的子细胞群。

优选地，所述构建Pseudo-Cell矩阵单元用于执行包括：

根据所述细胞分群单元得到的细胞分群信息将原单细胞矩阵拆分为与子群数量相等的子矩阵，每个子矩阵包含了当前子群中所有细胞的表达谱，分别对每个基因的在子群所属细胞中的表达值进行指数转换并计算均值，将每个子群对应的基因x细胞二维矩阵(M × N)转换为一维矩阵(M × 1)，得到Pseudo-Cell矩阵。

第三方面，本发明提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序执行第一方面所述的单细胞转录组Pseudo-Cell分析方法或实现第二方面所述的单细胞转录组Pseudo-Cell分析模型的功能。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序执行第一方面所述的单细胞转录组Pseudo-Cell分析方法或实现第二方面所述的单细胞转录组Pseudo-Cell分析模型的功能。

与现有技术相比，本发明具有以下有益效果：

本发明提出了一种新的单细胞Pseudo-Cell分分析方案，分析流程中通过在划分细胞分群关系的社区发现算法中引入社区规模限制参数以及高分辨率下迭代分群的思路，并将表达相似性极高的细胞划分整合为Pseudo-Cell，既减少单细胞数据中噪音的干扰和下游分析的计算资源消耗，又尽可能同时保留单细胞数据的整体特征和细胞类型内部的特征，解决了在单细胞数据中广泛存在的以dropout为主的数据噪音问题。

附图说明

图1为本发明Pseudo-Cell分析流程示意图；

图2为实施例1中marker基因和管家基因在处理前、后表达分布图；

图3为实施例2中原矩阵降维结果图；

图4为实施例2中Pseudo-Cell矩阵降维结果降维结果图。

具体实施方式

为进一步阐述本发明所采取的技术手段及其效果，以下结合实施例和附图对本发明作进一步地说明。可以理解的是，此处所描述的具体实施方式仅仅用于解释本发明，而非对本发明的限定。

实施例中未注明具体技术或条件者，按照本领域内的文献所描述的技术或条件，或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可通过正规渠道商购获得的常规产品。

本发明解决在单细胞数据中广泛存在的以dropout为主的数据噪音问题。分析流程示意图如图1所示，分析流程中通过在划分细胞分群关系的社区发现算法中引入社区规模限制参数以及高分辨率下迭代分群的思路，并将表达相似性极高的细胞划分整合为pseudo-cell。对细胞分群的规模进行了限制，生成的每个Pseudo-Cell分中包含的细胞数量的分布相对均匀，且每个Pseudo-Cell分内部的细胞都有极大的相似性，既突出了数据的局部特征，也保留了数据的总体特征，流程中去掉了不能与其他细胞聚类或者仅与少量细胞聚类的细胞，这些细胞可能是污染或者doublet的低质量细胞，去除这些细胞有助于下游分析得到更理想的结果，通过计算均值的方式，极大的减少了在单个细胞普遍存在的dropout现象。

为了评估本发明的实际效果，将本发明具体实施例中应用真实单细胞数据进行了测试。

实施例1

本实施例应用真实单细胞数据进行测试。

测试过程包括：

测试数据选取由16个样本组成的包含超过13万个细胞的单细胞RNA表达count矩阵，对测试数据按照发明所述的方法进行数据处理，聚类分群以及整合之后，得到了包含2955个Pseudo-Cell的表达谱矩阵。

随后测试了本发明对单细胞数据中dropout现象的处理能力，通过展示部分常见的marker基因和管家基因在处理前和处理后的表达分布，如图2所示，可以看到，在处理前占比极高的dropout在处理后得到很大的改善，图中表现为数据处理后表达为0的数据相比处理前比例明显减少。

实施例2

本实施例再对处理后得到的矩阵按照常规单细胞分析流程进行数据处理和降维聚类，由于通过pseudo-cell的思路减小了表达矩阵的维度，因此数据分析对资源的消耗得到了很好的控制，资源实际消耗情况与最终得到的分析矩阵大小相关。本实施例的测试数据中，原始矩阵分析消耗计算内存约20G，Pseudo-Cell消耗计算内存不到10G，如果应用于更大型的数据，计算资源的控制效果将更明显。

随后展示了部分特异性的细胞类型marker基因。结果如图3和图4所示，图3为原矩阵降维结果，图4为Pseudo-Cell分矩阵降维结果。表明Pseudo-Cell分的降维结果与原矩阵具有高度的一致性，高度重复了原始数据的cluster空间分布和细胞类型的占比情况，且marker基因表达分布同样具有高度一致性，包括对部分占比很小细胞类型也能很好的区分开，对细胞类型注释不造成影响。

以上测试结果表明，将本发明应用于单细胞RNA数据的分析，在极大保留数据整体和局部特征的同时，又有效的消除了单细胞dropout的影响且减少了下游分析的计算资源消耗。

综上所述，本发明提出了一种新的单细胞Pseudo-Cell分分析方案，分析流程中通过在划分细胞分群关系的社区发现算法中引入社区规模限制参数以及高分辨率下迭代分群的思路，并将表达相似性极高的细胞划分整合为Pseudo-Cell，既减少单细胞数据中噪音的干扰和下游分析的计算资源消耗，又尽可能同时保留单细胞数据的整体特征和细胞类型内部的特征，解决了在单细胞数据中广泛存在的以dropout为主的数据噪音问题。

申请人声明，本发明通过上述实施例来说明本发明的详细方法，但本发明并不局限于上述详细方法，即不意味着本发明必须依赖上述详细方法才能实施。所属技术领域的技术人员应该明了，对本发明的任何改进，对本发明产品各原料的等效替换及辅助成分的添加、具体方式的选择等，均落在本发明的保护范围和公开范围之内。

Claims

1.一种单细胞转录组Pseudo-Cell分析方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的单细胞转录组Pseudo-Cell分析方法，其特征在于，步骤（1）具体包括：

3.根据权利要求1所述的单细胞转录组Pseudo-Cell分析方法，其特征在于，步骤（2）所述社区发现算法包括louvain社区发现算法或leiden社区发现算法。

4.根据权利要求3所述的单细胞转录组Pseudo-Cell分析方法，其特征在于，所述louvain社区发现算法包括：

使用初始分辨率对细胞进行初分群，若存在子群社区规模即细胞数大于规模上限则按梯度放大分辨率重新分群；若有子群小于规模下限则按比例缩小分辨率再分群；迭代分群，直到每个子群的规模满足最大和最小数量限制或者结果达到无法进一步迭代分群的程度；

所述规模上限为50；

所述规模下限为5；

所述leiden社区发现算法包括：

通过设置固定的社区规模参数直接限制每个社区的规模上限，同时删除不满足规模下限条件的子群；

所述社区规模参数为上限为50，下限为5。

5.根据权利要求1所述的单细胞转录组Pseudo-Cell分析方法，其特征在于，步骤（3）具体包括：

6.一种单细胞转录组Pseudo-Cell分析模型，其特征在于，所述模型用于执行权利要求1-5任一项所述的单细胞转录组Pseudo-Cell分析方法中步骤；

所述模型包括构建距离矩阵单元、细胞分群单元和构建Pseudo-Cell矩阵单元；

所述构建距离矩阵单元用于执行包括：

基于单细胞表达矩阵构建细胞与细胞之间基于表达谱高维空间距离的关系矩阵，通过关系矩阵分析细胞之间的相似性；

所述细胞分群单元用于执行包括：

通过社区发现算法基于所述细胞之间的相似性划分为不同的子细胞群；

所述构建Pseudo-Cell矩阵单元用于执行包括：

7.根据权利要求6所述的单细胞转录组Pseudo-Cell分析模型，其特征在于，所述构建距离矩阵单元用于执行包括：

所述细胞分群单元用于执行包括：

8.根据权利要求6所述的单细胞转录组Pseudo-Cell分析模型，其特征在于，所述构建Pseudo-Cell矩阵单元用于执行包括：

根据所述细胞分群单元得到的细胞分群信息将原单细胞矩阵拆分为与子群数量相等的子矩阵，每个子矩阵包含了当前子群中所有细胞的表达谱，分别对每个基因的在子群所属细胞中的表达值进行指数转换并计算均值，将每个子群对应的基因x细胞二维矩阵(M ×N)转换为一维矩阵(M × 1)，得到Pseudo-Cell矩阵。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述计算机程序执行权利要求1-5任一项所述的单细胞转录组Pseudo-Cell分析方法或实现权利要求6-8任一项所述的单细胞转录组Pseudo-Cell分析模型的功能。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序执行权利要求1-5任一项所述的单细胞转录组Pseudo-Cell分析方法或实现权利要求6-8任一项所述的单细胞转录组Pseudo-Cell分析模型的功能。