CN113674800B

CN113674800B - 基于单细胞转录组测序数据的细胞聚类方法

Info

Publication number: CN113674800B
Application number: CN202110983443.7A
Authority: CN
Inventors: 王晓武; 林润茂; 武剑; 梁建丽; 郭新磊
Original assignee: Institute of Vegetables and Flowers Chinese Academy of Agricultural Sciences
Current assignee: Institute of Vegetables and Flowers Chinese Academy of Agricultural Sciences
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2022-02-08
Anticipated expiration: 2041-08-25
Also published as: CN113674800A

Abstract

本发明公开基于单细胞转录组测序数据的细胞聚类方法，其包括以下步骤：获取由单细胞转录组测序得到的成千上万个细胞的原始数据集，处理原始数据集排除对应于分类可疑的细胞的测序数据，将剩余测序数据挑选为分析数据集；对分析数据集进行降维分析，得到聚类结果。本发明的方法能够解决单细胞转录组分析过程中无法很好地区分细胞亚类的问题，通过识别影响分类的细胞，进而对数据进行过滤和优化，从而分析得到细胞的亚类、细胞类型的标记基因及注释等相关信息。本发明的方法可以明确细胞的聚类，同时有利于确定细胞的类型，对研究组织内细胞的基因调控和功能具有重要意义。

Description

基于单细胞转录组测序数据的细胞聚类方法

技术领域

本发明涉及生物信息学中的数据挖掘领域，具体涉及基于单细胞转录组测序数据的细胞聚类的优化方法。

背景技术

细胞是生命活动的基本单元，其经过分化形成组织。细胞内基因的表达非常复杂，研究基因的表达特征有助于认识和理解基因和细胞的功能。常规转录组bulk RNA-seq测序技术可以得到基因表达量的数值，但是这个数值反映的是该基因在大量细胞中表达得到的平均值。这种平均值掩盖了细胞的异质性，不能识别出基因在不同细胞类型中的表达特征。单细胞转录组scRNA-seq技术有助于解析生物体组织内不同细胞之间的基因表达特征。

对生物体的组织或器官，经过细胞解离后，可以使用10x Genomics Chromium的微流控技术构建得到单细胞的cDNA文库，且基于Illumina测序平台可以获取到相关的测序数据。对这些数据进行分析，就可以得到成千上万个细胞的基因表达信息。通常分析的过程包括：首先使用CellRanger软件分析得到各个细胞的基因表达信息，然后使用已知分析方法对数据进行质量控制的分析、差异表达基因的筛选、细胞的聚类、标记基因的识别，以及使用降维方法去显示细胞聚类的结果。

单细胞聚类的分析结果通常是把细胞聚集为不同的簇。根据标记基因在原位杂交等实验的结果，可以识别标记基因特异表达的细胞类型。在单细胞转录组的分析过程中，基于标记基因在细胞簇的表达可以判断细胞簇的细胞类型。但是对某些组织器官，使用已有分析方法得到的聚类结果可能无法明确区分不同的细胞簇。而且，对边界不清晰的聚类结果，使用统计方法，比如purity、ARI(adjusted rand index)和NMI(normalized mutualinformation)评估得到的分值通常较低(比如计算拟南芥叶片单细胞转录组的Seurat聚类结果的purity值为0.4618)，这些低的分值也表明不少细胞的聚类结果不准确，这会影响确定细胞的类型。

细胞聚类的分析是单细胞转录组分析的重要环节，它是判断细胞的类型和研究特定细胞类型的基因表达和功能的关键基础。因此，单细胞转录组测序数据的聚类分析具有挑战性，开发有效方法以明确细胞的聚类具有重要的意义。

背景技术中的信息仅仅在于说明本发明的总体背景，不应视为承认或以任何形式暗示这些信息构成本领域一般技术人员所公知的现有技术。

发明内容

为解决现有技术中的至少部分技术问题，本发明提供一种基于单细胞转录组测序数据的细胞聚类的优化方法，本文有时简称为FOACC。应用本发明的FOACC进行分析后，得到的细胞聚类结果准确性显著提高，有助于分析和研究细胞的类型和功能。具体地，本发明包括以下内容。

一种基于单细胞转录组测序数据的细胞聚类方法，其包括以下步骤：

(1)获取由单细胞转录组测序得到的成千上万个细胞的原始数据集，处理所述原始测序数据集排除对应于分类可疑的细胞的单细胞转录组测序数据，将剩余单细胞转录组测序数据挑选为分析数据集；

(2)对所述分析数据库进行降维分析，得到聚类结果。

根据本发明所述的基于单细胞转录组测序数据的细胞聚类方法，优选地，步骤(1)包括利用下式挑选细胞，将挑选得到的多个细胞所对应的单细胞转录组测序数据作为分析数据集：

T1＝{(x₁，M1₁)，(x₂，M1₂),…,(x_N,M1_N)}

T2＝{(x₁,M2₁),(x₂,M2₂),…,(x_N,M2_N)}

…

Tg＝{(x₁,Mg₁),(x₂,Mg₂),…,(x_N,Mg_N)}

其中，N为细胞总数，x_i为第i个细胞，Tg为第g种分析方法得到N个细胞的分类信息，Mg_i＝{c₁,c₂,…,c_k}为k个细胞簇，N个细胞的分类状态{(M1₁,M2₁,…,Mg₁),…,(M1_N,M2_N,…,Mg_N)}可以生成一个函数f(x)。然后挑选满足

的细胞x，i∈{1,2,…,N}，j∈{1,2,…,k}，t为1-g的任意值，I为指示函数。对I(Mt_i＝c_j)，I＝1(如果Mt_i＝c_j)或I＝0(如果Mt_i！＝c_j)；对I(f(x_p)＝f(x_i))，I＝1(如果f(x_p)＝f(x_i))或I＝0(如果f(x_p)！＝f(x_i))。

根据本发明所述的基于单细胞转录组测序数据的细胞聚类方法，优选地，步骤(2)中采用由PCA+tSNE或PCA+UMAP组成的方法进行降维分析，得到聚类结果。

根据本发明所述的基于单细胞转录组测序数据的细胞聚类方法，优选地，进一步包括(3)细胞聚类结果评估步骤，其包括计算纯度(purity)、ARI和NMI。

根据本发明所述的基于单细胞转录组测序数据的细胞聚类方法，优选地，通过以下公式计算纯度：

其中，N指细胞的总数，U＝{U1,…,Ui}指参考的细胞类别，V＝{V1,…,Vj}指待查询的细胞类别。

根据本发明所述的基于单细胞转录组测序数据的细胞聚类方法，优选地，通过以下公式计算ARI：

其中，n＝∑_in_i.＝∑_jn_.j，i和j分别为参考的和待查询的细胞类别的数目。

根据本发明所述的基于单细胞转录组测序数据的细胞聚类方法，优选地，通过以下公式计算NMI：

其中，I(U,V)指互信息，H(U)和H(V)指熵。

根据本发明所述的基于单细胞转录组测序数据的细胞聚类方法，优选地，所述纯度、ARI和NMI分别为0.5以上。

根据本发明所述的基于单细胞转录组测序数据的细胞聚类方法，优选地，进一步包括(4)对聚类结果进行注释分析的步骤。

根据本发明所述的基于单细胞转录组测序数据的细胞聚类方法，优选地，所述细胞为动物细胞或植物细胞。

本发明的方法能够解决单细胞转录组分析过程中无法很好地区分细胞亚类的问题，通过识别影响分类的细胞，进而对数据进行过滤和优化，从而分析得到细胞的亚类、细胞类型的标记基因及注释等相关信息。本发明的方法可以明确细胞的聚类，同时有利于确定细胞的类型，对研究组织内细胞的基因调控和功能具有重要意义。

附图说明

图1显示现有不同方法对拟南芥根部组织中柱细胞的聚类结果存在明显差异。

图2为Seurat和本发明FOACC方法对拟南芥根部组织单细胞的聚类结果的比较。

图3为根据已发表的中柱细胞特异表达的标记基因(AT4G36710、AT1G07640和AT1G68810)确定中柱细胞。

图4为Seurat和本发明FOACC方法对拟南芥叶片组织单细胞的聚类结果的比较。

图5为Seurat和本发明FOACC方法对水稻根部组织单细胞的聚类结果的比较。

图6为Seurat和本发明FOACC方法对人体外周血单核细胞的聚类结果的比较。

图7为根据已发表的标记基因(MS4A1、GNLY和CD3E)确定图6的细胞。

具体实施方式

现详细说明本发明的多种示例性实施方式，该详细说明不应认为是对本发明的限制，而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。

应理解本发明中所述的术语仅仅是为描述特别的实施方式，并非用于限制本发明。另外，对于本发明中的数值范围，应理解为具体公开了该范围的上限和下限以及它们之间的每个中间值。在任何陈述值或陈述范围内的中间值以及任何其他陈述值或在所述范围内的中间值之间的每个较小的范围也包括在本发明内。这些较小范围的上限和下限可独立地包括或排除在范围内。

除非另有说明，否则本文使用的所有技术和科学术语具有本发明所述领域的常规技术人员通常理解的相同含义。虽然本发明仅描述了优选的方法和材料，但是在本发明的实施或测试中也可以使用与本文所述相似或等同的任何方法和材料。本说明书中提到的所有文献通过引用并入，用以公开和描述与所述文献相关的方法和/或材料。在与任何并入的文献冲突时，以本说明书的内容为准。

用于数据分析以获得细胞聚类结果的常规聚类方法包括但不限于Seurat和SC3等。不同常规方法得到的聚类结果有所不同，通常不少细胞被不同方法聚集到不同的细胞簇中。例如，在Seurat方法中，确定用于tSNE聚类的PC数目非常关键，而PC数目通常根据HCHeatmap、JackStrawPlot和PCElbowPlot这3个函数的分析结果去确定，并且这3个函数建议的PC数目有可能不一致。再例如，在SC3方法中，选择的k值过低会导致模型复杂度增加，从而容易产生过拟合，而k值过高会导致模型变简单，导致预测出错。根据经验，如果HCHeatmap、JackStrawPlot和PCElbowPlot的结果不一致，那么根据JackStrawPlot的P-value值确定PC数目用于开展Seurat的tSNE聚类分析，根据Seurat的聚类结果确定k值用于开展SC3方法的聚类分析。

例如，在Seurat方法中，拟南芥叶片中的1164个细胞被Seurat聚集为1个细胞簇。在另外两种方法(SC3和DIMMSC)的结果显示1164个细胞被聚集为多个细胞簇，仅有251个细胞被3种方法均判断为同一个细胞簇(如图1所示)。这表明了在很多细胞中，大量基因的表达特征很复杂，它们在不同方法中可能被聚集到不同的细胞簇中。

本发明提供一种基于单细胞转录组测序数据的细胞聚类的优化方法，即FOACC，其能够解决上述技术问题。具体地，该方法至少包括步骤(1)-(2)，具体如下。

步骤(1)

在本发明的步骤1中，获取由单细胞转录组测序得到的成千上万个细胞(例如，1000个细胞以上、优选2000个细胞以上、更优选3000个细胞以上、更进一步优选10000个细胞以上、还优选100000个细胞以上等)的原始数据集，处理所述原始测序数据集排除对应于分类可疑的细胞的单细胞转录组测序数据，将剩余单细胞转录组测序数据挑选为分析数据集。单细胞转录组测序数据来源不特别限定，可通过任何已知方式获得测序数据集。进行单细胞转录组测序的样本可以是任何生物样本，包括但不限于包含来源于真核生物细胞的样本。优选地，细胞为动物细胞或植物细胞。

在本发明的步骤(1)中，筛选用于后续分析的细胞是重要的，本发明基于g种方法利用特定公式挑选细胞，将挑选得到的多个细胞所对应的单细胞转录组测序数据作为分析数据集。其中，g种方法包括但不限于Seurat、SC3、DIMM-SC、Monocle和Giniclust3。本领域技术人员可以理解的是，为了达到筛选的目的，还可以使用另外的方法，并且，随着g的增加，细胞分类结果更准确。因此，优选g为2-10之间的整数，还优选为2-6，进一步优选为2-5。

步骤(2)

在本发明的步骤(2)中，对上一步骤得到的分析数据库进行降维分析，得到聚类结果。优选地，通过PCA、tSNE、UMAP或其组合进行降维分析，以获得细胞的聚类结果。

其他步骤

本领域技术人员应理解，只要能够实现本发明的目的，在本发明步骤(1)-(2)前后，或步骤之间还可包含其他步骤或操作，例如进一步优化和/或改善本发明所述的方法。在某些具体实施方案中，在步骤(2)后，进一步包括(3)对细胞聚类结果评估的步骤。例如可使用统计方法(purity、ARI和NMI)进行评估。

可以理解的是，当评估结果低于阈值时，可以重复进行本发明方法的步骤(1)-(3)，直至得到所期望的细胞聚类结果评估值，例如纯度、ARI和NMI分别为0.5以上，优选0.8以上，更优选0.9以上。

下面示例性说明本发明的重复循环情形。例如如果g＝2时，经本发明的步骤(1)-(3)得到的评估值低于预期阈值，则可将g设为3，重复进行步骤(1)-(3)。

本发明的方法可选地还可包括(4)对细胞簇进行功能注释的步骤。本发明可使用Seurat的FindAllMarkers函数识别每个细胞簇的标记基因。可使用Pfam数据库对标记基因进行功能注释。最后结合已报道标记基因和已注释的标记基因确定细胞的类别。

实施例1

本实施例示例性的示出了拟南芥根部组织细胞的聚类，具体步骤如下。

1.细胞聚类的常规分析

基于单细胞转录组的数据(即数据文件：matrix.mtx.gz，barcodes.tsv.gz和features.tsv.gz)，使用3种分析方法(包括Seurat、SC3和DIMM-SC)进行单细胞转录组数据的分析，获得4311个细胞的聚类结果。其中，Seurat得到14个细胞簇(图2左图)。根据标记基因判断这些细胞簇主要源自于7种细胞类型，即中柱细胞stele(图3)、内皮层细胞endodermis、根毛细胞root hair、无毛细胞non hair、皮层细胞cortex、木质部xylem和根冠细胞root cap；其中有4个细胞簇的细胞属于中柱细胞。

2.识别并挑选用于聚类分析的细胞

经过比较分析，并使用FOACC的方法(g＝3)挑选2747个细胞用于后续分析。

3.优化后的细胞聚类及注释分析

对2747个细胞进行分析，得到13个细胞簇(图2右图)。基于已报道的标记基因发现这些细胞簇主要源自7种细胞类型，即中柱细胞stele(图3)、内皮层细胞endodermis、根毛细胞root hair、无毛细胞non hair、皮层细胞cortex、木质部xylem和根冠细胞root cap。

4.细胞聚类结果的评估

对4311和2747个细胞的聚类结果进行评估，发现purity、ARI和NMI的分值分别由0.8494、0.6911和0.7940提升为0.9694、0.8323和0.9782。

实施例2

本实施例示例性的示出了拟南芥叶片组织细胞的聚类，具体步骤如下。

1.细胞聚类的常规分析

基于单细胞转录组的数据(即数据文件：matrix.mtx.gz，barcodes.tsv.gz和features.tsv.gz)，使用3种分析方法(包括Seurat、SC3和DIMM-SC)进行单细胞转录组数据的分析，获得6176个细胞的聚类结果。其中，Seurat得到13个细胞簇(图4)。基于已报道的标记基因发现这些细胞簇主要源自7种细胞类型，包括海绵细胞spongy cell、栅栏组织细胞palisade cells、维管束鞘bundle sheath、表皮epidermis、韧皮部phloem、保卫细胞guardcell和未定义的细胞undefined(图4)。

2.识别并挑选用于聚类分析的细胞

经过比较分析，并使用FOACC的方法(g＝3)挑选1483个细胞用于后续分析。

3.优化后的细胞聚类及注释分析

对1483个细胞进行分析，得到11个细胞簇(图4)。基于已报道的标记基因发现这些细胞簇主要源自7种细胞类型，包括海绵细胞spongy cell、栅栏组织细胞palisade cells、维管束鞘bundle sheath、表皮epidermis、韧皮部phloem、保卫细胞guard cell和未定义的细胞undefined(图4)。

4.细胞聚类结果的评估

对6176和1483个细胞的聚类结果进行评估，发现purity、ARI和NMI的分值分别由0.4944、0.3315和0.3924提升为0.8685、0.6972和0.8897。

实施例3

本实施例示例性的示出了水稻根部组织细胞的聚类，具体步骤如下。

1.细胞聚类的常规分析

基于单细胞转录组的数据(即数据文件：matrix.mtx.gz，barcodes.tsv.gz和features.tsv.gz)，使用3种分析方法(包括Seurat、SC3和DIMM-SC)进行单细胞转录组数据的分析，获得12515个细胞的聚类结果。其中，Seurat得到14个细胞簇(图5)。基于已报道的标记基因发现这些细胞簇主要源自6种细胞类型，包括表皮epidermis、皮层细胞cortex、中柱细胞stele、根毛root hair、根冠root cap和未定义细胞undefined(图5)。

2.识别并挑选用于聚类分析的细胞

经过比较分析，并使用FOACC的方法(g＝3)挑选3079个细胞用于后续分析。

3.优化后的细胞聚类及注释分析

对3079个细胞进行分析，得到12个细胞簇(图5)。基于已报道的标记基因发现这些细胞簇主要源自6种细胞类型，包括表皮epidermis、皮层细胞cortex、中柱细胞stele、根毛roothair、根冠root cap和未定义细胞undefined(图5)。

4.细胞聚类结果的评估

对12515和3079个细胞的聚类结果进行评估，发现purity、ARI和NMI的分值分别由0.8050、0.5369和0.6534提升为0.9743、0.8173和0.9094。

实施例4

本实施例示例性的示出了人体外周血单核细胞(human peripheral bloodmononuclear cells)的聚类分析，具体步骤如下。

1.细胞聚类的常规分析。

基于单细胞转录组的数据(即数据文件：matrix.mtx.gz，barcodes.tsv.gz和features.tsv.gz)，使用3种分析方法(包括Seurat、SC3和DIMM-SC)进行单细胞转录组数据的分析，获得2639个细胞的聚类结果。其中，Seurat得到9个细胞簇(图6)。基于已报道的标记基因发现这些细胞簇主要源自8种细胞类型，包括CD4T、CD14+Mono、B、CD8T、FCGR3A+Mono、NK、Platelet和DC(图6)。

2.识别并挑选用于聚类分析的细胞

经过比较分析，并使用FOACC的方法挑选2219(g＝2)、1792(g＝3)、1449(g＝4)、1401(g＝5)个细胞用于后续分析。

3.优化后的细胞聚类及注释分析

对挑选的细胞进行分析，得到9个细胞簇(图6)。基于已报道的标记基因发现这些细胞簇主要源自8种细胞类型，包括CD4T、CD14+Mono、B、CD8T、FCGR3A+Mono、NK、Platelet和DC(图6)。

4.细胞聚类结果的评估

对2639和1792个细胞的聚类结果进行评估，发现purity、ARI和NMI的分值分别由0.8495、0.6235和0.7116提升为0.9799、0.8742和0.8981。

尽管本发明已经参考示例性实施方案进行了描述，但应理解本发明不限于公开的示例性实施方案。在不背离本发明的范围或精神的情况下，可对本发明说明书的示例性实施方案做多种调整或变化。权利要求的范围应基于最宽的解释以涵盖所有修改和等同结构与功能。

Claims

1.一种基于单细胞转录组测序数据的细胞聚类方法，其特征在于，包括以下步骤：

(1)获取由单细胞转录组测序得到的多个细胞的原始数据集，处理原始测序数据集排除对应于分类可疑的细胞的测序数据，将剩余测序数据挑选为分析数据集；

(2)对所述分析数据集进行降维分析，得到聚类结果；

其中，步骤(1)包括利用下式挑选细胞，将挑选得到的多个细胞所对应的单细胞转录组测序数据作为分析数据集：

T1＝{(x₁,M1₁),(x₂,M1₂),…,(x_N,M1_N)}

T2＝{(x₁,M2₁),(x₂,M2₂),…,(x_N,M2_N)}

Tg＝{(x₁,Mg₁),(x₂,Mg₂),…,(x_N,Mg_N)}

其中，N为细胞总数，x_i为第i个细胞，Tg为第g种分析方法得到N个细胞的分类信息，Mg_i＝{c₁,c₂,…,c_k}为k个细胞簇，由N个细胞的分类状态{(M1₁,M2₁,…,Mg₁),…,(M1_N,M2_N,…,Mg_N)}生成函数f(x)，然后挑选满足

的细胞x，i∈{1,2,…,N}，j∈{1,2,…,k}，t为1-g的任意值，I为指示函数。

2.根据权利要求1所述的基于单细胞转录组测序数据的细胞聚类方法，其特征在于，步骤(2)采用由PCA+tSNE或PCA+UMAP组成的方法进行降维分析，得到聚类结果。

3.根据权利要求1所述的基于单细胞转录组测序数据的细胞聚类方法，其特征在于，进一步包括(3)细胞聚类结果评估步骤，其包括计算纯度、ARI和NMI。

4.根据权利要求3所述的基于单细胞转录组测序数据的细胞聚类方法，其特征在于，通过下式计算纯度：

其中，N指细胞的总数，U＝{U₁,…,U_i}指参考的细胞类别，V＝{V₁,…,V_j}指待查询的细胞类别。

5.根据权利要求3所述的基于单细胞转录组测序数据的细胞聚类方法，其特征在于，通过下式计算ARI：

6.根据权利要求3所述的基于单细胞转录组测序数据的细胞聚类方法，其特征在于，通过下式计算NMI：

其中，I(U,V)指互信息，H(U)和H(V)指熵。

7.根据权利要求3所述的基于单细胞转录组测序数据的细胞聚类方法，其特征在于，所述纯度、ARI和NMI各自分别为0.5以上。

8.根据权利要求1所述的基于单细胞转录组测序数据的细胞聚类方法，其特征在于，进一步包括(4)对聚类结果进行注释分析的步骤。

9.根据权利要求1所述的基于单细胞转录组测序数据的细胞聚类方法，其特征在于，所述细胞为动物细胞或植物细胞。