CN112700820A - 一种基于单细胞转录组测序的细胞亚群注释方法 - Google Patents

一种基于单细胞转录组测序的细胞亚群注释方法 Download PDF

Info

Publication number
CN112700820A
CN112700820A CN202110016630.8A CN202110016630A CN112700820A CN 112700820 A CN112700820 A CN 112700820A CN 202110016630 A CN202110016630 A CN 202110016630A CN 112700820 A CN112700820 A CN 112700820A
Authority
CN
China
Prior art keywords
cell
cells
gene
annotation
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110016630.8A
Other languages
English (en)
Other versions
CN112700820B (zh
Inventor
范文涛
王勇斯
张盼玉
温韵洁
何丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huayinkang Medical Group Co ltd
Guangzhou Huayin Medical Laboratory Center Co Ltd
Original Assignee
Guangzhou Huayin Health Care Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huayin Health Care Group Co ltd filed Critical Guangzhou Huayin Health Care Group Co ltd
Priority to CN202110016630.8A priority Critical patent/CN112700820B/zh
Publication of CN112700820A publication Critical patent/CN112700820A/zh
Application granted granted Critical
Publication of CN112700820B publication Critical patent/CN112700820B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种基于单细胞转录组测序的细胞亚群注释方法,包括如下步骤:1)10x barcode UMI识别,2)比对基因组,3)基因表达谱,4)低质量细胞过滤和数据均一化,5)细胞群体聚类,6)Marker基因提取,7)细胞亚群注释。本发明属于生物信息分析技术领域,本发明提供的基于单细胞转录组测序的细胞亚群注释方法,解决了单细胞亚群注释的问题,使得单细胞测序数据在常规分析后,可以支持依据基因表达谱和/或细胞Marker基因进行细胞注释,实现了不同注释方法的有机结合,得到细胞类型的分布情况和相关信息。

Description

一种基于单细胞转录组测序的细胞亚群注释方法
技术领域
本发明属于生物信息分析技术领域,尤其涉及一种基于单细胞转录组测序的细胞亚群注释方法。
背景技术
随着测序技术尤其是高通量测序技术的迅速发展,人们对基因组变异/基因表达差异与表型之间关系的认识越来越深刻。然而传统的Bulk RNA测序手段是针对细胞集合进行测序,而单个细胞特异性的信息往往被掩盖,导致错失很多重要信息。
单细胞转录组测序技术应用于单个细胞全基因组范围内的基因调节网络,特别是高度异质性的细胞群,如干细胞、胚胎发育早期细胞、肿瘤细胞。此技术在临床上的应用可以在生理或病理情况下持续追踪基因表达的动力学变化,监测疾病进展,单细胞转录组测序可用于细胞亚群的分群,可以对不同的细胞类群及基因表达调控进行研究,分析稀有的细胞,特别是特定时空环境下的细胞,临床上,对体外受精胚胎进行植入前的筛查,基于循环肿瘤细胞(circulating tumor cells)进行癌症诊断。
10xGenomics平台首先利用微流控技术分选单个细胞,然后将带有barcode和引物的凝胶珠以及单个细胞包裹在油滴中;在油滴中凝胶珠溶解释放反转录引物poly dT,细胞裂解释放带有polyA的RNA被反转录为带有10X Barcode和UMI信息的cDNA一链,再以SMART方式完成二链合成;液体油层破坏后,cDNA进行后续文库构建,使用Illumina测序平台检测,即可一次性获得大量单细胞的基因表达数据,10min内自动完成多至80,000个细胞的捕获,细胞捕获率最高65%。可实现大量大细胞的快速高效标记、测序和分析,获得单细胞水平的基因表达谱和差异情况,并通过对复杂细胞群体进行深入细致分析,绘制大规模单细胞表达图谱。
目前,关于单细胞转录组的分析,可以使用软件Seurat进行,完成数据质控、基因表达定量和细胞亚群的划分,但是还不支持细胞亚群的注释,无法满足科研和临床应用的需求。目前细胞亚群的注释主要有通过R软件SingleR和CellMarker网站记录的细胞标志基因,第一种方法SingleR是依据大量的已知细胞及其相应的表达谱进行细胞注释的,第二种方法则是根据搜索到的细胞标志基因通过人工的方式跟Seurat得到的Marker基因进行比对,然后进行细胞注释。第一种方法依赖于有大量已知细胞的表达谱,对于没有相应细胞表达谱的细胞则注释不理想,第二种方法比较耗费人力。
现有的单细胞转录组测序的分析法通常不能将区分的细胞亚群进行注释,细胞基因表达谱比较有限,或存在依据细胞标志基因进行人工鉴别、费时费力且存在较多的主观性的问题,因此,提供一种基于单细胞转录组测序的细胞亚群注释方法具有重要意义。
发明内容
为解决现有技术中存在的问题,本发明提供一种基于单细胞转录组测序的细胞亚群注释方法,主要用于10x Genomics平台数据的标准单细胞转录组细胞亚群的注释,解决了单细胞亚群注释的问题,使得单细胞测序数据在常规分析后,可以支持依据基因表达谱和/或细胞Marker基因进行细胞注释,实现了不同注释方法的有机结合,得到细胞类型的分布情况和相关信息。
本发明的目的将通过下面的详细描述来进一步说明。
本发明提供一种基于单细胞转录组测序的细胞亚群注释方法,包括如下步骤:
S1. 10x barcode UMI识别:10x genomics平台建库的测序下机数据,为fastq序列,同一ID号的fastq序列包括3部份:barcode+UMI+mRNA序列,使用软件cellrangercount,通过barcode序列区别序列的来源细胞,通过UMI序列对基因进行表达定量,通过3’端mRNA序列用于基因的鉴定;
S2.比对基因组:采用STAR算法,将测序得到的fastq序列比对参考基因组上,将测得的序列定位到相应的基因上;
S3.基因表达谱构建;
S4.低质量细胞过滤和数据均一化:基于细胞表达的基因数量及单个细胞中线粒体基因数目进行细胞过滤,过滤使用软件R语言的Seurat包,去除低质量细胞后,使用Seurat软件的“Normalization”函数的LogNormalize方法,进行表达量均一化;
S5.细胞群体聚类:1)通过主成分降维分析,减少变量然后利用均一化后的表达量值进行PCA(Principal component analysis)分析,从PCA分析结果中选取前10个主成分用于后续的聚类和分群分析;2)聚类和分群分析:Seurat软件使用基于图论的聚类算法对细胞进行聚类和分群;
S6.Marker基因提取:Seurat通过bimod似然比统计检验对不同细胞群体差异表达基因进行分析,筛选不同细胞群体中表达上调的基因,表达量显著较其它亚群都高的基因作为该细胞亚群的Marker基因;
S7.细胞注释:整合SingeR的表达量数据集、CellMarker细胞Marker基因以及文献收集的细胞Marker基因,用程序GeneMarker_Annot.umap.pl或GeneMarker_Annot.tsne.pl进行细胞亚群的注释。
STAR算法属于行业内的常用算法,参考基因组数据库可从https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest?下载。
优选地,10x单细胞项目捕获到的细胞中,部分细胞活性低甚至为死细胞,将检测到基因数目超过2500或低于200的细胞及单个细胞中线粒体基因数目占比超过>5%的细胞过滤,可有效去除低质量细胞。
所述步骤S3中的基因表达谱构建包括如下步骤:1)数据的整合和数据量均一化:涉及多个文库的样本时,在进一步的分析前需进行多样本数据的整合和数据量均一化,使所有细胞所有基因拥有统一的基因UMI丰度信息;2)测序数据均一化:以测序深度较低的样本为基准,从测序深度较高的样本中随机抽取reads,直到所有样本中细胞的平均测序量相同或基本相同;3)基因表达量定量:样本整合并经过测序数据均一化后,不做细胞过滤,基于每个细胞中每个基因mapping到的UMI条数进行基因表达量定量;
优选地,所述步骤S5中,聚类和分群分析包括如下步骤:
a)构建细胞间的聚类关系:利用显著的主成分构建基于欧式距离的KNN聚类关系;
b)优化细胞间聚类关系距离的权重值:利用Jaccard相似性优化细胞间距离的权重值;
c)聚类和分群:通过基于共享最近邻居(shared nearest neighbor,SNN)模块优化的聚类算法识别细胞聚类,即首先计算k-最近邻并构造SNN关系,然后优化模块化功能以确定集群。
KNN和SNN都是现有分类算法,在运算中形成关系图谱。本发明通过相关分类算法与分析步骤的有机结合,实现了细胞群体的聚类和分群分析。
优选地,所述步骤S7中的GeneMarker_Annot.umap.pl、GeneMarker_Annot.tsne.pl,是本发明用于细胞注释的执行软件程序,两者的区别仅在于采用的分群方法不同;GeneMarker_Annot.umap.pl采用的是一致的流形近似和投影(Uniform ManifoldApproximation and Projection for Dimension Reduction,UMAP)方法,GeneMarker_Annot.tsne.pl采用的是T分布和随机近邻嵌入(Stochastic neighbour Embedding,t-SNE)方法。
优选地,基于SingeR的表达量数据集整合方法包括:经过步骤S1-S5,得到细胞亚群的分群结果作为输入,用R语言进行读取,使用R语言的SingleR包,使用SingleR提供的基因表达数据(HumanPrimaryCellAtlasData.rds),根据基因表达的模式对细胞亚群进行鉴定,然后使用Seurat的RenameIdents方法进行注释,并最终输出细胞注释的结果图。
优选地,基于CellMarker细胞Marker基因以及文献收集的细胞Marker基因整合方法包括:经过步骤S1-S6,得到细胞亚群的分群结果,及各细胞亚群的分群的Marker基因,并将从CellMarker数据库或文献收录的细胞Marker基因整理的参考表格作为输入,判断每个细胞亚群的Marker基因在参考细胞的Marker基因的覆盖情况。若覆盖度超过80%,则鉴定为该参考细胞,若鉴定到多个参考细胞,以覆盖度高的为准。
与现有技术相比,本发明的有益效果包括:本发明将SingleR提供的基因表达数据集下载到本地,将cellMarker网站收录的细胞Marker基因下载下来,将相关文献中细胞注释的Marker基因收录下来,整理成自主的细胞Marker基因数据库,基于这两类数据完成单细胞亚群的注释,与单纯的根据细胞Marker基因,通过人工的方式鉴定,省时省力还可以避免人为的主观意识,与单纯使用SingleR相比,能适用于鉴定更多新的细胞亚群,鉴定的细胞亚群也更为全面。本发明解决了单细胞亚群注释的问题,使得单细胞测序数据在常规分析后,可以支持依据基因表达谱和/或细胞Marker基因进行细胞注释,实现了不同注释方法的有机结合,得到细胞类型的分布情况,对于临床检测和信息分析具有重要意义。
附图说明
图1正常绒毛膜细胞的细胞分群结果图。
图2正常绒毛膜细胞基于细胞基因表达谱来注释的效果图。
图3正常绒毛膜细胞基于Marker基因来注释的效果图。
图4疾病绒毛膜细胞的细胞分群结果图。
图5疾病绒毛膜细胞基于细胞基因表达谱来注释的效果图。
图6疾病绒毛膜细胞基于Marker基因来注释的效果图。
图1和图4中标注的阿拉伯数字,为细胞分群后鉴定的细胞亚群的顺序编号,例如,0代表0号细胞亚群,1代表1号细胞亚群。
具体实施方式
下面结合附图和实施例对本发明做进一步详细说明。
实施例1正常绒毛膜细胞的细胞分群及注释
基于单细胞转录组测序的细胞亚群注释方法,包括如下步骤:
S1. 10x barcode UMI识别:10x genomics平台建库的测序下机数据,为fastq序列,同一ID号的fastq序列包括3部份:barcode+UMI+mRNA序列,使用软件cellrangercount,通过barcode序列区别序列的来源细胞,通过UMI序列对基因进行表达定量,通过3’端mRNA序列用于基因的鉴定;
S2.比对基因组:采用STAR算法,将测序得到的fastq序列比对参考基因组上,将测得的序列定位到相应的基因上;
S3.基因表达谱构建:包括如下步骤:1)数据的整合和数据量均一化:涉及多个文库的样本时,在进一步的分析前需进行多样本数据的整合和数据量均一化,使所有细胞所有基因拥有统一的基因UMI丰度信息;2)测序数据均一化:以测序深度较低的样本为基准,从测序深度较高的样本中随机抽取reads,直到所有样本中细胞的平均测序量相同或基本相同;3)基因表达量定量:样本整合并经过测序数据均一化后,不做细胞过滤,基于每个细胞中每个基因mapping到的UMI条数进行基因表达量定量;
S4.低质量细胞过滤和数据均一化:基于细胞表达的基因数量及单个细胞中线粒体基因数目进行细胞过滤,过滤使用软件R语言的Seurat包,去除低质量细胞后,使用Seurat软件的“Normalization”函数的LogNormalize方法,进行表达量均一化;
S5.细胞群体聚类:1)通过主成分降维分析,减少变量然后利用均一化后的表达量值进行PCA(Principal component analysis)分析,从PCA分析结果中选取前10个主成分用于后续的聚类和分群分析;2)聚类和分群分析:Seurat软件使用基于图论的聚类算法对细胞进行聚类和分群;聚类和分群分析包括如下步骤:
a)构建细胞间的聚类关系:利用显著的主成分构建基于欧式距离的KNN聚类关系;
b)优化细胞间聚类关系距离的权重值:利用Jaccard相似性优化细胞间距离的权重值;
c)聚类和分群:通过基于共享最近邻居模块优化的聚类算法识别细胞聚类,即首先计算k-最近邻并构造SNN关系,然后优化模块化功能以确定集群;
S6.Marker基因提取:Seurat通过bimod似然比统计检验对不同细胞群体差异表达基因进行分析,筛选不同细胞群体中表达上调的基因,表达量显著较其它亚群都高的基因作为该细胞亚群的Marker基因;
S7.细胞注释:整合SingeR的表达量数据集、CellMarker细胞Marker基因以及文献收集的细胞Marker基因,应用程序GeneMarker_Annot.tsne.pl进行细胞亚群的注释。
基于SingeR的表达量数据集整合方法包括:经过步骤S1-S5,得到细胞亚群的分群结果作为输入,用R语言进行读取,使用R语言的SingleR包,使用SingleR提供的基因表达数据(HumanPrimaryCellAtlasData.rds),根据基因表达的模式对细胞亚群进行鉴定,然后使用Seurat的RenameIdents方法进行注释,并最终输出细胞注释的结果图。
基于CellMarker细胞Marker基因以及文献收集的细胞Marker基因整合方法包括:经过步骤S1-S6,得到细胞亚群的分群结果,及各细胞亚群的分群的Marker基因,并将从CellMarker数据库或文献收录的细胞Marker基因整理的参考表格作为输入,判断每个细胞亚群的Marker基因在参考细胞的Marker基因的覆盖情况。若覆盖度超过80%,则鉴定为该参考细胞,若鉴定到多个参考细胞,以覆盖度高的为准。
执行步骤S1-S5,得到正常绒毛膜细胞的细胞分群结果图,如图1所示,没有进行细胞亚群的注释,看不出具体的细胞类型。执行步骤S1-S5和S7,其中S7选取的是基于SingeR的表达量数据集基因表达的模式,可得到基于细胞基因表达谱来注释的效果图,如图2所示,能注释一定的细胞类型。执行步骤S1-S7,其中S7选取的是基于Marker基因的模式,图3结合CellMarker细胞Marker基因以及文献收集的细胞Marker基因整合方法,得到细胞注释的效果图,如图3所示,较图1和图2都表现出较好的结果,注释的信息更丰富。
实施例2疾病绒毛膜细胞的细胞分群及注释
基于单细胞转录组测序的细胞亚群注释方法,包括如下步骤:
S1. 10x barcode UMI识别:10x genomics平台建库的测序下机数据,为fastq序列,同一ID号的fastq序列包括3部份:barcode+UMI+mRNA序列,使用软件cellrangercount,通过barcode序列区别序列的来源细胞,通过UMI序列对基因进行表达定量,通过3’端mRNA序列用于基因的鉴定;
S2.比对基因组:采用STAR算法,将测序得到的fastq序列比对参考基因组上,将测得的序列定位到相应的基因上;
S3.基因表达谱构建:包括如下步骤:1)数据的整合和数据量均一化:涉及多个文库的样本时,在进一步的分析前需进行多样本数据的整合和数据量均一化,使所有细胞所有基因拥有统一的基因UMI丰度信息;2)测序数据均一化:以测序深度较低的样本为基准,从测序深度较高的样本中随机抽取reads,直到所有样本中细胞的平均测序量相同或基本相同;3)基因表达量定量:样本整合并经过测序数据均一化后,不做细胞过滤,基于每个细胞中每个基因mapping到的UMI条数进行基因表达量定量;
S4.低质量细胞过滤和数据均一化:基于细胞表达的基因数量及单个细胞中线粒体基因数目进行细胞过滤,过滤使用软件R语言的Seurat包,去除低质量细胞后,使用Seurat软件的“Normalization”函数的LogNormalize方法,进行表达量均一化;
S5.细胞群体聚类:1)通过主成分降维分析,减少变量然后利用均一化后的表达量值进行PCA(Principal component analysis)分析,从PCA分析结果中选取前10个主成分用于后续的聚类和分群分析;2)聚类和分群分析:Seurat软件使用基于图论的聚类算法对细胞进行聚类和分群;聚类和分群分析包括如下步骤:
a)构建细胞间的聚类关系:利用显著的主成分构建基于欧式距离的KNN聚类关系;
b)优化细胞间聚类关系距离的权重值:利用Jaccard相似性优化细胞间距离的权重值;
c)聚类和分群:通过基于共享最近邻居模块优化的聚类算法识别细胞聚类,即首先计算k-最近邻并构造SNN关系,然后优化模块化功能以确定集群;
S6.Marker基因提取:Seurat通过bimod似然比统计检验对不同细胞群体差异表达基因进行分析,筛选不同细胞群体中表达上调的基因,表达量显著较其它亚群都高的基因作为该细胞亚群的Marker基因;
S7.细胞注释:整合SingeR的表达量数据集、CellMarker细胞Marker基因以及文献收集的细胞Marker基因,应用程序GeneMarker_Annot.tsne.pl进行细胞亚群的注释。
基于SingeR的表达量数据集整合方法包括:经过步骤S1-S5,得到细胞亚群的分群结果作为输入,用R语言进行读取,使用R语言的SingleR包,使用SingleR提供的基因表达数据(HumanPrimaryCellAtlasData.rds),根据基因表达的模式对细胞亚群进行鉴定,然后使用Seurat的RenameIdents方法进行注释,并最终输出细胞注释的结果图。
基于CellMarker细胞Marker基因以及文献收集的细胞Marker基因整合方法包括:经过步骤S1-S6,得到细胞亚群的分群结果,及各细胞亚群的分群的Marker基因,并将从CellMarker数据库或文献收录的细胞Marker基因整理的参考表格作为输入,判断每个细胞亚群的Marker基因在参考细胞的Marker基因的覆盖情况。若覆盖度超过80%,则鉴定为该参考细胞,若鉴定到多个参考细胞,以覆盖度高的为准。
执行步骤S1-S5,得到疾病绒毛膜细胞的细胞分群结果图,如图4所示,没有进行细胞亚群的注释,看不出具体的细胞类型。执行步骤S1-S5和S7,其中S7选取的是基于SingeR的表达量数据集基因表达的模式,可得到基于细胞基因表达谱来注释的效果图,如图5所示,能注释一定的细胞类型。执行步骤S1-S7,其中S7选取的是基于Marker基因的模式,结合基于CellMarker细胞Marker基因以及文献收集的细胞Marker基因整合方法,得到细胞注释的效果图,如图6所示,较图4和图5都表现出较好的结果,注释的信息更丰富。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (6)

1.一种基于单细胞转录组测序的细胞亚群注释方法,其特征在于:包括如下步骤:
S1. 10x barcode UMI识别:10x genomics平台建库的测序下机数据,为fastq序列,同一ID号的fastq序列包括3部份:barcode+UMI+mRNA序列,使用软件cellranger count,通过barcode序列区别序列的来源细胞,通过UMI序列对基因进行表达定量,通过3’端mRNA序列用于基因的鉴定;
S2.比对基因组:采用STAR算法,将测序得到的fastq序列比对参考基因组上,将测得的序列定位到相应的基因上;
S3.基因表达谱构建;
S4.低质量细胞过滤和数据均一化:基于细胞表达的基因数量及单个细胞中线粒体基因数目进行细胞过滤,过滤使用软件R语言的Seurat包,去除低质量细胞后,使用Seurat软件的“Normalization”函数的LogNormalize方法,进行表达量均一化;
S5.细胞群体聚类:1)通过主成分降维分析,减少变量然后利用均一化后的表达量值进行PCA分析,从PCA分析结果中选取前10个主成分用于后续的聚类和分群分析;2)聚类和分群分析:Seurat软件使用基于图论的聚类算法对细胞进行聚类和分群;
S6.Marker基因提取:Seurat通过bimod似然比统计检验对不同细胞群体差异表达基因进行分析,筛选不同细胞群体中表达上调的基因,表达量显著较其它亚群都高的基因作为该细胞亚群的Marker基因;
S7.细胞注释:整合SingeR的表达量数据集、CellMarker细胞Marker基因以及文献收集的细胞Marker基因,用程序GeneMarker_Annot.umap.pl或GeneMarker_Annot.tsne.pl进行细胞亚群的注释。
2.根据权利要求1所述的基于单细胞转录组测序的细胞亚群注释方法,其特征在于:所述步骤S3中的基因表达谱构建包括如下步骤:1)数据的整合和数据量均一化:涉及多个文库的样本时,在进一步的分析前需进行多样本数据的整合和数据量均一化,使所有细胞所有基因拥有统一的基因UMI丰度信息;2)测序数据均一化:以测序深度较低的样本为基准,从测序深度较高的样本中随机抽取reads,直到所有样本中细胞的平均测序量相同或基本相同;3)基因表达量定量:样本整合并经过测序数据均一化后,不做细胞过滤,基于每个细胞中每个基因mapping到的UMI条数进行基因表达量定量。
3.根据权利要求1所述的基于单细胞转录组测序的细胞亚群注释方法,其特征在于:所述步骤S4中,低质量细胞包括基因数目超过2500或低于200的细胞、单个细胞中线粒体基因数目占比超过>5%的细胞。
4.根据权利要求1至3中任一项所述的基于单细胞转录组测序的细胞亚群注释方法,其特征在于:所述步骤S5中,聚类和分群分析包括如下步骤:
a)构建细胞间的聚类关系:利用显著的主成分构建基于欧式距离的KNN聚类关系;
b)优化细胞间聚类关系距离的权重值:利用Jaccard相似性优化细胞间距离的权重值;
c)聚类和分群:通过基于共享最近邻居模块优化的聚类算法识别细胞聚类,即首先计算k-最近邻并构造SNN关系,然后优化模块化功能以确定集群。
5.根据权利要求1至4中任一项所述的基于单细胞转录组测序的细胞亚群注释方法,其特征在于:所述SingeR的表达量数据集整合方法包括:经过步骤S1-S5,得到细胞亚群的分群结果作为输入,用R语言进行读取,使用R语言的SingleR包,使用SingleR提供的基因表达数据(HumanPrimaryCellAtlasData.rds),根据基因表达的模式对细胞亚群进行鉴定,然后使用Seurat的RenameIdents方法进行注释,并最终输出细胞注释的结果图。
6.根据权利要求1至4中任一项所述的基于单细胞转录组测序的细胞亚群注释方法,其特征在于:所述CellMarker细胞Marker基因以及文献收集的细胞Marker基因整合方法包括:经过步骤S1-S6,得到细胞亚群的分群结果,及各细胞亚群的分群的Marker基因,并将从CellMarker数据库或文献收录的细胞Marker基因整理的参考表格作为输入,判断每个细胞亚群的Marker基因在参考细胞的Marker基因的覆盖情况。
CN202110016630.8A 2021-01-07 2021-01-07 一种基于单细胞转录组测序的细胞亚群注释方法 Active CN112700820B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110016630.8A CN112700820B (zh) 2021-01-07 2021-01-07 一种基于单细胞转录组测序的细胞亚群注释方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110016630.8A CN112700820B (zh) 2021-01-07 2021-01-07 一种基于单细胞转录组测序的细胞亚群注释方法

Publications (2)

Publication Number Publication Date
CN112700820A true CN112700820A (zh) 2021-04-23
CN112700820B CN112700820B (zh) 2021-11-19

Family

ID=75514984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110016630.8A Active CN112700820B (zh) 2021-01-07 2021-01-07 一种基于单细胞转录组测序的细胞亚群注释方法

Country Status (1)

Country Link
CN (1) CN112700820B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113178233A (zh) * 2021-04-27 2021-07-27 西安电子科技大学 大规模单细胞转录组数据高效聚类方法
CN113674800A (zh) * 2021-08-25 2021-11-19 中国农业科学院蔬菜花卉研究所 基于单细胞转录组测序数据的细胞聚类方法
CN115440303A (zh) * 2022-11-03 2022-12-06 杭州联川生物技术股份有限公司 一种单细胞转录组低质量细胞过滤方法、介质和设备
CN116153401A (zh) * 2023-01-07 2023-05-23 杭州链康医学检验实验室有限公司 基于pdx的单细胞转录组数据分析方法、系统、设备和介质
CN116189770A (zh) * 2022-11-02 2023-05-30 杭州链康医学检验实验室有限公司 一种单细胞转录组rna污染去除方法、介质和设备
CN116486913A (zh) * 2023-05-23 2023-07-25 浙江大学 基于单细胞测序从头预测调控突变的系统、设备和介质
CN116525004A (zh) * 2023-03-02 2023-08-01 杭州联川生物技术股份有限公司 一种基于两组比较的单细胞表达模式差异评估方法、介质和设备
CN117116364A (zh) * 2023-10-25 2023-11-24 智泽童康(广州)生物科技有限公司 单细胞数据库及其关联细胞亚群自动推荐方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109979538A (zh) * 2019-03-28 2019-07-05 广州基迪奥生物科技有限公司 一种基于10x单细胞转录组测序数据的分析方法
US20190214106A1 (en) * 2017-12-27 2019-07-11 The Jackson Laboratory Methods for multiplex chromatin interaction analysis by droplet sequencing with single molecule precision
CN110060729A (zh) * 2019-03-28 2019-07-26 广州序科码生物技术有限责任公司 一种基于单细胞转录组聚类结果注释细胞身份的方法
CN110544509A (zh) * 2019-08-20 2019-12-06 广州基迪奥生物科技有限公司 一种单细胞ATAC-seq数据分析方法
CN110675914A (zh) * 2019-09-17 2020-01-10 佛山市第一人民医院(中山大学附属佛山医院) 一种筛选肿瘤特异性t细胞及tcr的方法
CN110819706A (zh) * 2019-11-20 2020-02-21 苏州新格元生物科技有限公司 单细胞测序在免疫细胞分析中的应用
CN111312334A (zh) * 2020-03-09 2020-06-19 上海源兹生物科技有限公司 一种影响细胞间通讯的受体-配体系统分析方法
TW202039580A (zh) * 2018-12-05 2020-11-01 美商建南德克公司 用於癌症免疫療法之診斷方法及組合物
US20200347449A1 (en) * 2019-05-01 2020-11-05 The Broad Institute, Inc. Methods for determining spatial and temporal gene expression dynamics during adult neurogenesis in single cells

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190214106A1 (en) * 2017-12-27 2019-07-11 The Jackson Laboratory Methods for multiplex chromatin interaction analysis by droplet sequencing with single molecule precision
TW202039580A (zh) * 2018-12-05 2020-11-01 美商建南德克公司 用於癌症免疫療法之診斷方法及組合物
CN109979538A (zh) * 2019-03-28 2019-07-05 广州基迪奥生物科技有限公司 一种基于10x单细胞转录组测序数据的分析方法
CN110060729A (zh) * 2019-03-28 2019-07-26 广州序科码生物技术有限责任公司 一种基于单细胞转录组聚类结果注释细胞身份的方法
US20200347449A1 (en) * 2019-05-01 2020-11-05 The Broad Institute, Inc. Methods for determining spatial and temporal gene expression dynamics during adult neurogenesis in single cells
CN110544509A (zh) * 2019-08-20 2019-12-06 广州基迪奥生物科技有限公司 一种单细胞ATAC-seq数据分析方法
CN110675914A (zh) * 2019-09-17 2020-01-10 佛山市第一人民医院(中山大学附属佛山医院) 一种筛选肿瘤特异性t细胞及tcr的方法
CN110819706A (zh) * 2019-11-20 2020-02-21 苏州新格元生物科技有限公司 单细胞测序在免疫细胞分析中的应用
CN111312334A (zh) * 2020-03-09 2020-06-19 上海源兹生物科技有限公司 一种影响细胞间通讯的受体-配体系统分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李益等: "植物单细胞转录组测序研究进展", 《生物技术通报》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113178233B (zh) * 2021-04-27 2023-04-28 西安电子科技大学 大规模单细胞转录组数据高效聚类方法
CN113178233A (zh) * 2021-04-27 2021-07-27 西安电子科技大学 大规模单细胞转录组数据高效聚类方法
CN113674800A (zh) * 2021-08-25 2021-11-19 中国农业科学院蔬菜花卉研究所 基于单细胞转录组测序数据的细胞聚类方法
CN116189770B (zh) * 2022-11-02 2023-08-18 杭州链康医学检验实验室有限公司 一种单细胞转录组rna污染去除方法、介质和设备
CN116189770A (zh) * 2022-11-02 2023-05-30 杭州链康医学检验实验室有限公司 一种单细胞转录组rna污染去除方法、介质和设备
CN116486916A (zh) * 2022-11-03 2023-07-25 杭州联川生物技术股份有限公司 一种单细胞转录组濒死细胞和多细胞过滤方法、介质和设备
CN115440303A (zh) * 2022-11-03 2022-12-06 杭州联川生物技术股份有限公司 一种单细胞转录组低质量细胞过滤方法、介质和设备
CN116153401A (zh) * 2023-01-07 2023-05-23 杭州链康医学检验实验室有限公司 基于pdx的单细胞转录组数据分析方法、系统、设备和介质
CN116153401B (zh) * 2023-01-07 2024-01-05 杭州链康医学检验实验室有限公司 基于pdx的单细胞转录组数据分析方法、系统、设备和介质
CN116525004A (zh) * 2023-03-02 2023-08-01 杭州联川生物技术股份有限公司 一种基于两组比较的单细胞表达模式差异评估方法、介质和设备
CN116525004B (zh) * 2023-03-02 2024-02-23 杭州联川生物技术股份有限公司 一种基于两组比较的单细胞表达模式差异评估方法、介质和设备
CN116486913A (zh) * 2023-05-23 2023-07-25 浙江大学 基于单细胞测序从头预测调控突变的系统、设备和介质
CN116486913B (zh) * 2023-05-23 2023-10-03 浙江大学 基于单细胞测序从头预测调控突变的系统、设备和介质
CN117116364A (zh) * 2023-10-25 2023-11-24 智泽童康(广州)生物科技有限公司 单细胞数据库及其关联细胞亚群自动推荐方法
CN117116364B (zh) * 2023-10-25 2024-02-20 智泽童康(广州)生物科技有限公司 单细胞数据库及其关联细胞亚群自动推荐方法

Also Published As

Publication number Publication date
CN112700820B (zh) 2021-11-19

Similar Documents

Publication Publication Date Title
CN112700820B (zh) 一种基于单细胞转录组测序的细胞亚群注释方法
AU2021257920A1 (en) Variant classifier based on deep neural networks
US20190318806A1 (en) Variant Classifier Based on Deep Neural Networks
US20040234995A1 (en) System and method for storage and analysis of gene expression data
EP4035163A1 (en) Single cell rna-seq data processing
CN111180013A (zh) 检测血液病融合基因的装置
Tan et al. Microarray data mining: a novel optimization-based approach to uncover biologically coherent structures
KR20210110241A (ko) 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템 및 방법
Saei et al. A glance at DNA microarray technology and applications
CN113862351B (zh) 体液样本中鉴定胞外rna生物标志物的试剂盒及方法
Forsberg et al. CLC Bio Integrated Platform for Handling and Analysis of Tag Sequencing Data
Gentleman et al. Visualization and annotation of genomic experiments
CN114974432A (zh) 一种生物标志物的筛选方法及其相关应用
Kotlarz et al. The application of deep learning for the classification of correct and incorrect SNP genotypes from whole-genome DNA sequencing pipelines
CN116864001B (zh) 基于ai的动物模型rna表达量化分析系统及方法
Babichev et al. Filtration of DNA nucleotide gene expression profiles in the systems of biological objects clustering
Mendez et al. Unsupervised analysis of multi-experiment transcriptomic patterns with SegRNA identifies unannotated transcripts
Liu et al. Gene coexpression and evolutionary conservation analysis of the human preimplantation embryos
Wang et al. Clustering-based approaches to SAGE data mining
Li et al. Information recognition of pathogenic modules in gene statistics of big data
Lin et al. Making sense of human lung carcinomas gene expression data: integration and analysis of two Affymetrix platform experiments
Melita et al. A genetic algorithm approach to DNA microarrays analysis of pancreatic cancer
Yao et al. Systematic comparison of experimental assays and analytical pipelines for identification of active enhancers genome-wide
Lakkis Assessment of Cell type Annotation Tools of Single Cell RNA Sequencing Data
Kalinin et al. A versatile information retrieval framework for evaluating profile strength and similarity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Fan Wentao

Inventor after: Wang Yongsi

Inventor after: Zhang Panyu

Inventor after: Wen Yunjie

Inventor after: He Dan

Inventor after: Qiu Yurong

Inventor before: Fan Wentao

Inventor before: Wang Yongsi

Inventor before: Zhang Panyu

Inventor before: Wen Yunjie

Inventor before: He Dan

CB03 Change of inventor or designer information
CP01 Change in the name or title of a patent holder

Address after: 510663 room 525, building g, 31 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Guangzhou huayinkang Medical Group Co.,Ltd.

Address before: 510663 room 525, building g, 31 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee before: Guangzhou Huayin health care group Co.,Ltd.

CP01 Change in the name or title of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20211223

Address after: 510663 units 304-306 and 307-319, 3rd floor, zone a, Guangzhou Science and technology innovation base, No. 80, lanyue Road, Science City, high tech Industrial Development Zone, Guangzhou, Guangdong

Patentee after: GUANGZHOU HUAYIN MEDICAL LABORATORY CENTER CO.,LTD.

Patentee after: Guangzhou huayinkang Medical Group Co.,Ltd.

Address before: 510663 room 525, building g, 31 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee before: Guangzhou huayinkang Medical Group Co.,Ltd.

TR01 Transfer of patent right