CN112700820A

CN112700820A - 一种基于单细胞转录组测序的细胞亚群注释方法

Info

Publication number: CN112700820A
Application number: CN202110016630.8A
Authority: CN
Inventors: 范文涛; 王勇斯; 张盼玉; 温韵洁; 何丹
Original assignee: Guangzhou Huayin Health Care Group Co ltd
Current assignee: Guangzhou Huayinkang Medical Group Co ltd; Guangzhou Huayin Medical Laboratory Center Co Ltd
Priority date: 2021-01-07
Filing date: 2021-01-07
Publication date: 2021-04-23
Anticipated expiration: 2041-01-07
Also published as: CN112700820B

Abstract

本发明提供一种基于单细胞转录组测序的细胞亚群注释方法，包括如下步骤：1)10x barcode UMI识别，2)比对基因组，3)基因表达谱，4)低质量细胞过滤和数据均一化，5)细胞群体聚类，6)Marker基因提取，7)细胞亚群注释。本发明属于生物信息分析技术领域，本发明提供的基于单细胞转录组测序的细胞亚群注释方法，解决了单细胞亚群注释的问题，使得单细胞测序数据在常规分析后，可以支持依据基因表达谱和/或细胞Marker基因进行细胞注释，实现了不同注释方法的有机结合，得到细胞类型的分布情况和相关信息。

Description

一种基于单细胞转录组测序的细胞亚群注释方法

技术领域

本发明属于生物信息分析技术领域，尤其涉及一种基于单细胞转录组测序的细胞亚群注释方法。

背景技术

随着测序技术尤其是高通量测序技术的迅速发展，人们对基因组变异/基因表达差异与表型之间关系的认识越来越深刻。然而传统的Bulk RNA测序手段是针对细胞集合进行测序，而单个细胞特异性的信息往往被掩盖，导致错失很多重要信息。

单细胞转录组测序技术应用于单个细胞全基因组范围内的基因调节网络，特别是高度异质性的细胞群，如干细胞、胚胎发育早期细胞、肿瘤细胞。此技术在临床上的应用可以在生理或病理情况下持续追踪基因表达的动力学变化，监测疾病进展，单细胞转录组测序可用于细胞亚群的分群，可以对不同的细胞类群及基因表达调控进行研究，分析稀有的细胞，特别是特定时空环境下的细胞，临床上，对体外受精胚胎进行植入前的筛查，基于循环肿瘤细胞(circulating tumor cells)进行癌症诊断。

10xGenomics平台首先利用微流控技术分选单个细胞，然后将带有barcode和引物的凝胶珠以及单个细胞包裹在油滴中；在油滴中凝胶珠溶解释放反转录引物poly dT，细胞裂解释放带有polyA的RNA被反转录为带有10X Barcode和UMI信息的cDNA一链，再以SMART方式完成二链合成；液体油层破坏后，cDNA进行后续文库构建，使用Illumina测序平台检测，即可一次性获得大量单细胞的基因表达数据，10min内自动完成多至80,000个细胞的捕获，细胞捕获率最高65％。可实现大量大细胞的快速高效标记、测序和分析，获得单细胞水平的基因表达谱和差异情况，并通过对复杂细胞群体进行深入细致分析，绘制大规模单细胞表达图谱。

目前，关于单细胞转录组的分析，可以使用软件Seurat进行，完成数据质控、基因表达定量和细胞亚群的划分，但是还不支持细胞亚群的注释，无法满足科研和临床应用的需求。目前细胞亚群的注释主要有通过R软件SingleR和CellMarker网站记录的细胞标志基因，第一种方法SingleR是依据大量的已知细胞及其相应的表达谱进行细胞注释的，第二种方法则是根据搜索到的细胞标志基因通过人工的方式跟Seurat得到的Marker基因进行比对，然后进行细胞注释。第一种方法依赖于有大量已知细胞的表达谱，对于没有相应细胞表达谱的细胞则注释不理想，第二种方法比较耗费人力。

现有的单细胞转录组测序的分析法通常不能将区分的细胞亚群进行注释，细胞基因表达谱比较有限，或存在依据细胞标志基因进行人工鉴别、费时费力且存在较多的主观性的问题，因此，提供一种基于单细胞转录组测序的细胞亚群注释方法具有重要意义。

发明内容

为解决现有技术中存在的问题，本发明提供一种基于单细胞转录组测序的细胞亚群注释方法，主要用于10x Genomics平台数据的标准单细胞转录组细胞亚群的注释，解决了单细胞亚群注释的问题，使得单细胞测序数据在常规分析后，可以支持依据基因表达谱和/或细胞Marker基因进行细胞注释，实现了不同注释方法的有机结合，得到细胞类型的分布情况和相关信息。

本发明的目的将通过下面的详细描述来进一步说明。

本发明提供一种基于单细胞转录组测序的细胞亚群注释方法，包括如下步骤：

S1. 10x barcode UMI识别：10x genomics平台建库的测序下机数据，为fastq序列，同一ID号的fastq序列包括3部份：barcode+UMI+mRNA序列，使用软件cellrangercount，通过barcode序列区别序列的来源细胞，通过UMI序列对基因进行表达定量，通过3’端mRNA序列用于基因的鉴定；

S2.比对基因组：采用STAR算法，将测序得到的fastq序列比对参考基因组上，将测得的序列定位到相应的基因上；

S3.基因表达谱构建；

S4.低质量细胞过滤和数据均一化：基于细胞表达的基因数量及单个细胞中线粒体基因数目进行细胞过滤，过滤使用软件R语言的Seurat包，去除低质量细胞后，使用Seurat软件的“Normalization”函数的LogNormalize方法，进行表达量均一化；

S5.细胞群体聚类：1)通过主成分降维分析，减少变量然后利用均一化后的表达量值进行PCA(Principal component analysis)分析，从PCA分析结果中选取前10个主成分用于后续的聚类和分群分析；2)聚类和分群分析：Seurat软件使用基于图论的聚类算法对细胞进行聚类和分群；

S6.Marker基因提取：Seurat通过bimod似然比统计检验对不同细胞群体差异表达基因进行分析，筛选不同细胞群体中表达上调的基因，表达量显著较其它亚群都高的基因作为该细胞亚群的Marker基因；

S7.细胞注释：整合SingeR的表达量数据集、CellMarker细胞Marker基因以及文献收集的细胞Marker基因，用程序GeneMarker_Annot.umap.pl或GeneMarker_Annot.tsne.pl进行细胞亚群的注释。

STAR算法属于行业内的常用算法，参考基因组数据库可从https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest？下载。

优选地，10x单细胞项目捕获到的细胞中，部分细胞活性低甚至为死细胞，将检测到基因数目超过2500或低于200的细胞及单个细胞中线粒体基因数目占比超过>5％的细胞过滤，可有效去除低质量细胞。

所述步骤S3中的基因表达谱构建包括如下步骤：1)数据的整合和数据量均一化：涉及多个文库的样本时，在进一步的分析前需进行多样本数据的整合和数据量均一化，使所有细胞所有基因拥有统一的基因UMI丰度信息；2)测序数据均一化：以测序深度较低的样本为基准，从测序深度较高的样本中随机抽取reads，直到所有样本中细胞的平均测序量相同或基本相同；3)基因表达量定量：样本整合并经过测序数据均一化后，不做细胞过滤，基于每个细胞中每个基因mapping到的UMI条数进行基因表达量定量；

优选地，所述步骤S5中，聚类和分群分析包括如下步骤：

a)构建细胞间的聚类关系：利用显著的主成分构建基于欧式距离的KNN聚类关系；

b)优化细胞间聚类关系距离的权重值：利用Jaccard相似性优化细胞间距离的权重值；

c)聚类和分群：通过基于共享最近邻居(shared nearest neighbor，SNN)模块优化的聚类算法识别细胞聚类，即首先计算k-最近邻并构造SNN关系，然后优化模块化功能以确定集群。

KNN和SNN都是现有分类算法，在运算中形成关系图谱。本发明通过相关分类算法与分析步骤的有机结合，实现了细胞群体的聚类和分群分析。

优选地，所述步骤S7中的GeneMarker_Annot.umap.pl、GeneMarker_Annot.tsne.pl，是本发明用于细胞注释的执行软件程序，两者的区别仅在于采用的分群方法不同；GeneMarker_Annot.umap.pl采用的是一致的流形近似和投影(Uniform ManifoldApproximation and Projection for Dimension Reduction，UMAP)方法，GeneMarker_Annot.tsne.pl采用的是T分布和随机近邻嵌入(Stochastic neighbour Embedding，t-SNE)方法。

优选地，基于SingeR的表达量数据集整合方法包括：经过步骤S1-S5，得到细胞亚群的分群结果作为输入，用R语言进行读取，使用R语言的SingleR包，使用SingleR提供的基因表达数据(HumanPrimaryCellAtlasData.rds)，根据基因表达的模式对细胞亚群进行鉴定，然后使用Seurat的RenameIdents方法进行注释，并最终输出细胞注释的结果图。

优选地，基于CellMarker细胞Marker基因以及文献收集的细胞Marker基因整合方法包括：经过步骤S1-S6，得到细胞亚群的分群结果，及各细胞亚群的分群的Marker基因，并将从CellMarker数据库或文献收录的细胞Marker基因整理的参考表格作为输入，判断每个细胞亚群的Marker基因在参考细胞的Marker基因的覆盖情况。若覆盖度超过80％，则鉴定为该参考细胞，若鉴定到多个参考细胞，以覆盖度高的为准。

与现有技术相比，本发明的有益效果包括：本发明将SingleR提供的基因表达数据集下载到本地，将cellMarker网站收录的细胞Marker基因下载下来，将相关文献中细胞注释的Marker基因收录下来，整理成自主的细胞Marker基因数据库，基于这两类数据完成单细胞亚群的注释，与单纯的根据细胞Marker基因，通过人工的方式鉴定，省时省力还可以避免人为的主观意识，与单纯使用SingleR相比，能适用于鉴定更多新的细胞亚群，鉴定的细胞亚群也更为全面。本发明解决了单细胞亚群注释的问题，使得单细胞测序数据在常规分析后，可以支持依据基因表达谱和/或细胞Marker基因进行细胞注释，实现了不同注释方法的有机结合，得到细胞类型的分布情况，对于临床检测和信息分析具有重要意义。

附图说明

图1正常绒毛膜细胞的细胞分群结果图。

图2正常绒毛膜细胞基于细胞基因表达谱来注释的效果图。

图3正常绒毛膜细胞基于Marker基因来注释的效果图。

图4疾病绒毛膜细胞的细胞分群结果图。

图5疾病绒毛膜细胞基于细胞基因表达谱来注释的效果图。

图6疾病绒毛膜细胞基于Marker基因来注释的效果图。

图1和图4中标注的阿拉伯数字，为细胞分群后鉴定的细胞亚群的顺序编号，例如，0代表0号细胞亚群，1代表1号细胞亚群。

具体实施方式

下面结合附图和实施例对本发明做进一步详细说明。

实施例1正常绒毛膜细胞的细胞分群及注释

基于单细胞转录组测序的细胞亚群注释方法，包括如下步骤：

S3.基因表达谱构建：包括如下步骤：1)数据的整合和数据量均一化：涉及多个文库的样本时，在进一步的分析前需进行多样本数据的整合和数据量均一化，使所有细胞所有基因拥有统一的基因UMI丰度信息；2)测序数据均一化：以测序深度较低的样本为基准，从测序深度较高的样本中随机抽取reads，直到所有样本中细胞的平均测序量相同或基本相同；3)基因表达量定量：样本整合并经过测序数据均一化后，不做细胞过滤，基于每个细胞中每个基因mapping到的UMI条数进行基因表达量定量；

S5.细胞群体聚类：1)通过主成分降维分析，减少变量然后利用均一化后的表达量值进行PCA(Principal component analysis)分析，从PCA分析结果中选取前10个主成分用于后续的聚类和分群分析；2)聚类和分群分析：Seurat软件使用基于图论的聚类算法对细胞进行聚类和分群；聚类和分群分析包括如下步骤：

c)聚类和分群：通过基于共享最近邻居模块优化的聚类算法识别细胞聚类，即首先计算k-最近邻并构造SNN关系，然后优化模块化功能以确定集群；

S7.细胞注释：整合SingeR的表达量数据集、CellMarker细胞Marker基因以及文献收集的细胞Marker基因，应用程序GeneMarker_Annot.tsne.pl进行细胞亚群的注释。

基于SingeR的表达量数据集整合方法包括：经过步骤S1-S5，得到细胞亚群的分群结果作为输入，用R语言进行读取，使用R语言的SingleR包，使用SingleR提供的基因表达数据(HumanPrimaryCellAtlasData.rds)，根据基因表达的模式对细胞亚群进行鉴定，然后使用Seurat的RenameIdents方法进行注释，并最终输出细胞注释的结果图。

基于CellMarker细胞Marker基因以及文献收集的细胞Marker基因整合方法包括：经过步骤S1-S6，得到细胞亚群的分群结果，及各细胞亚群的分群的Marker基因，并将从CellMarker数据库或文献收录的细胞Marker基因整理的参考表格作为输入，判断每个细胞亚群的Marker基因在参考细胞的Marker基因的覆盖情况。若覆盖度超过80％，则鉴定为该参考细胞，若鉴定到多个参考细胞，以覆盖度高的为准。

执行步骤S1-S5，得到正常绒毛膜细胞的细胞分群结果图，如图1所示，没有进行细胞亚群的注释，看不出具体的细胞类型。执行步骤S1-S5和S7，其中S7选取的是基于SingeR的表达量数据集基因表达的模式，可得到基于细胞基因表达谱来注释的效果图，如图2所示，能注释一定的细胞类型。执行步骤S1-S7，其中S7选取的是基于Marker基因的模式，图3结合CellMarker细胞Marker基因以及文献收集的细胞Marker基因整合方法，得到细胞注释的效果图，如图3所示，较图1和图2都表现出较好的结果，注释的信息更丰富。

实施例2疾病绒毛膜细胞的细胞分群及注释

执行步骤S1-S5，得到疾病绒毛膜细胞的细胞分群结果图，如图4所示，没有进行细胞亚群的注释，看不出具体的细胞类型。执行步骤S1-S5和S7，其中S7选取的是基于SingeR的表达量数据集基因表达的模式，可得到基于细胞基因表达谱来注释的效果图，如图5所示，能注释一定的细胞类型。执行步骤S1-S7，其中S7选取的是基于Marker基因的模式，结合基于CellMarker细胞Marker基因以及文献收集的细胞Marker基因整合方法，得到细胞注释的效果图，如图6所示，较图4和图5都表现出较好的结果，注释的信息更丰富。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于单细胞转录组测序的细胞亚群注释方法，其特征在于：包括如下步骤：

S1. 10x barcode UMI识别：10x genomics平台建库的测序下机数据，为fastq序列，同一ID号的fastq序列包括3部份：barcode+UMI+mRNA序列，使用软件cellranger count，通过barcode序列区别序列的来源细胞，通过UMI序列对基因进行表达定量，通过3’端mRNA序列用于基因的鉴定；

S3.基因表达谱构建；

S5.细胞群体聚类：1)通过主成分降维分析，减少变量然后利用均一化后的表达量值进行PCA分析，从PCA分析结果中选取前10个主成分用于后续的聚类和分群分析；2)聚类和分群分析：Seurat软件使用基于图论的聚类算法对细胞进行聚类和分群；

2.根据权利要求1所述的基于单细胞转录组测序的细胞亚群注释方法，其特征在于：所述步骤S3中的基因表达谱构建包括如下步骤：1)数据的整合和数据量均一化：涉及多个文库的样本时，在进一步的分析前需进行多样本数据的整合和数据量均一化，使所有细胞所有基因拥有统一的基因UMI丰度信息；2)测序数据均一化：以测序深度较低的样本为基准，从测序深度较高的样本中随机抽取reads，直到所有样本中细胞的平均测序量相同或基本相同；3)基因表达量定量：样本整合并经过测序数据均一化后，不做细胞过滤，基于每个细胞中每个基因mapping到的UMI条数进行基因表达量定量。

3.根据权利要求1所述的基于单细胞转录组测序的细胞亚群注释方法，其特征在于：所述步骤S4中，低质量细胞包括基因数目超过2500或低于200的细胞、单个细胞中线粒体基因数目占比超过>5％的细胞。

4.根据权利要求1至3中任一项所述的基于单细胞转录组测序的细胞亚群注释方法，其特征在于：所述步骤S5中，聚类和分群分析包括如下步骤：

c)聚类和分群：通过基于共享最近邻居模块优化的聚类算法识别细胞聚类，即首先计算k-最近邻并构造SNN关系，然后优化模块化功能以确定集群。

5.根据权利要求1至4中任一项所述的基于单细胞转录组测序的细胞亚群注释方法，其特征在于：所述SingeR的表达量数据集整合方法包括：经过步骤S1-S5，得到细胞亚群的分群结果作为输入，用R语言进行读取，使用R语言的SingleR包，使用SingleR提供的基因表达数据(HumanPrimaryCellAtlasData.rds)，根据基因表达的模式对细胞亚群进行鉴定，然后使用Seurat的RenameIdents方法进行注释，并最终输出细胞注释的结果图。

6.根据权利要求1至4中任一项所述的基于单细胞转录组测序的细胞亚群注释方法，其特征在于：所述CellMarker细胞Marker基因以及文献收集的细胞Marker基因整合方法包括：经过步骤S1-S6，得到细胞亚群的分群结果，及各细胞亚群的分群的Marker基因，并将从CellMarker数据库或文献收录的细胞Marker基因整理的参考表格作为输入，判断每个细胞亚群的Marker基因在参考细胞的Marker基因的覆盖情况。