CN111951892A - 一种基于单细胞测序数据分析细胞轨迹的方法及电子设备 - Google Patents
一种基于单细胞测序数据分析细胞轨迹的方法及电子设备 Download PDFInfo
- Publication number
- CN111951892A CN111951892A CN202010772219.9A CN202010772219A CN111951892A CN 111951892 A CN111951892 A CN 111951892A CN 202010772219 A CN202010772219 A CN 202010772219A CN 111951892 A CN111951892 A CN 111951892A
- Authority
- CN
- China
- Prior art keywords
- cell
- gene
- genes
- cells
- sequencing data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 36
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 128
- 230000014509 gene expression Effects 0.000 claims abstract description 67
- 238000012216 screening Methods 0.000 claims abstract description 29
- 239000011159 matrix material Substances 0.000 claims abstract description 27
- 230000009467 reduction Effects 0.000 claims abstract description 20
- 230000001105 regulatory effect Effects 0.000 claims abstract description 14
- 230000000717 retained effect Effects 0.000 claims abstract description 7
- 230000014759 maintenance of location Effects 0.000 claims abstract description 6
- 230000002438 mitochondrial effect Effects 0.000 claims abstract description 6
- 230000009466 transformation Effects 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 21
- 238000012800 visualization Methods 0.000 claims description 13
- 108020005196 Mitochondrial DNA Proteins 0.000 claims description 8
- 230000031018 biological processes and functions Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 230000006641 stabilisation Effects 0.000 claims description 5
- 238000011105 stabilization Methods 0.000 claims description 5
- 230000003827 upregulation Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 3
- 101150044508 key gene Proteins 0.000 abstract description 3
- 210000004027 cell Anatomy 0.000 description 199
- 238000004891 communication Methods 0.000 description 10
- 238000010606 normalization Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 4
- 230000004069 differentiation Effects 0.000 description 3
- 239000006185 dispersion Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 210000003470 mitochondria Anatomy 0.000 description 2
- 230000035755 proliferation Effects 0.000 description 2
- 230000000087 stabilizing effect Effects 0.000 description 2
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 1
- DIWRORZWFLOCLC-UHFFFAOYSA-N Lorazepam Chemical compound C12=CC(Cl)=CC=C2NC(=O)C(O)N=C1C1=CC=CC=C1Cl DIWRORZWFLOCLC-UHFFFAOYSA-N 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000711 cancerogenic effect Effects 0.000 description 1
- 231100000315 carcinogenic Toxicity 0.000 description 1
- 230000024245 cell differentiation Effects 0.000 description 1
- 230000033077 cellular process Effects 0.000 description 1
- 229910052804 chromium Inorganic materials 0.000 description 1
- 239000011651 chromium Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000002950 fibroblast Anatomy 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 101150090192 how gene Proteins 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000006548 oncogenic transformation Effects 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000008844 regulatory mechanism Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000025366 tissue development Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Engineering & Computer Science (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供一种基于单细胞测序数据分析细胞轨迹的方法,对单细胞测序数据进行初始分析,得到各个细胞的细胞‑基因表达矩阵;统计各个细胞的表达基因数分布、UMI条数分布和线粒体含量分布;筛选高质量细胞;对高质量细胞进行保留高可变特征基因、降维分析以及细胞分群,得到细胞亚群;筛选细胞亚群上调的差异表达基因;保留具有细胞亚群上调的差异表达基因的高质量细胞,构建细胞轨迹,分析细胞轨迹,得到在不同状态之间差异表达的基因。能够对单细胞测序数据进行过滤,凸显关键基因在细胞轨迹中的作用,降低分析的噪音和干扰,降低了计算资源的消耗,使得对硬件的需求降低,易于推广应用。
Description
技术领域
本发明涉及单细胞生信技术领域,尤其涉及一种基于单细胞测序数据分析细胞轨迹的方法及电子设备。
背景技术
在生物系统中,细胞都会展现出一系列的不同状态(如基因表达的动态变化等),这些状态之间会按照一定的时间顺序转换。最典型的比如细胞的分化过程,从不成熟的细胞逐渐分化为成熟细胞。此外,细胞在受到外界刺激或扰动时,细胞内基因的表达也可能发生一系列的变化,其中一些基因被沉默,而另一些则被新激活,从而呈现出一系列状态的转换。这些瞬态通常难以表征,因为从更稳定的端点状态之间纯化细胞几乎是不可能的,单细胞转录组则无需纯化即可查看这些状态。
基于单细胞测序数据具体研究不同细胞状态间的转换过程,就称作细胞轨迹(cell trajectory)的构建或拟时间序列(pseudotime)的构建,是根据细胞中基因的表达情况,将不同的细胞按照拟时间序列从开始状态、中间状态、终点状态来排列,沿着发育轨迹组织单个细胞已成为了解基因调控如何控制细胞命运决定的有力工具。从原理上讲,细胞轨迹分析可用于多种细胞过程(包括分化,增殖和致癌转化)的单细胞基因表达动力学。
单细胞测序数据让分析细胞轨迹成为可能,但同时也带来了巨大的计算量,对计算设备需求也更高,分析具有两个或更多个分支的复杂单细胞轨迹的结构仍然是一个具有挑战性的计算问题。同时,降低细胞轨迹分析的噪音,凸显关键基因在细胞轨迹中的作用也是亟待解决的问题。
发明内容
有鉴于此,本发明的目的在于提出一种基于单细胞测序数据分析细胞轨迹的方法及电子设备,以解决单细胞测序数据分析细胞轨迹存在的计算量巨大,分析不够准确的问题。
基于上述目的,本发明提供了一种基于单细胞测序数据分析细胞轨迹的方法,包括:
对待分析细胞轨迹的单细胞测序数据进行初始分析,基于各个基因在各个细胞中的UMI条数,得到各个细胞的细胞-基因表达矩阵;
统计各个细胞的表达基因数分布、UMI条数分布和线粒体含量分布;筛选单细胞中鉴定到的基因数量和单细胞中UMI的线粒体基因表达量比例符合预设条件的高质量细胞的细胞-基因表达矩阵;
对高质量细胞的细胞-基因表达矩阵依次进行保留高可变特征基因、降维分析以及细胞分群,得到细胞亚群;
筛选细胞亚群上调的差异表达基因,并将结果可视化;
保留具有细胞亚群上调的差异表达基因的高质量细胞,构建细胞轨迹,并进行细胞轨迹可视化;
分析细胞轨迹,得到在不同状态之间差异表达的基因,并进行差异基因可视化。
在其中一个实施例中,所述保留高可变特征基因具体包括:
利用方差稳定化转换对高质量细胞的细胞-基因表达矩阵进行标准化;
对于每个基因,计算所有细胞之间标准值的方差,并根据方差对所有特征进行排序筛选,得到高可变特征基因。
在其中一个实施例中,所述利用方差稳定化转换对高质量细胞的细胞-基因表达矩阵进行标准化具体包括:
使用高质量细胞的细胞-基因表达矩阵计算每个基因的均值和方差,并分别进行对数转换;
对对数转换所得数据分别进行局部拟合和全局拟合,以预测每个基因均值-方差关系,得到给定某一特征均值对应的方差估计值;
在其中一个实施例中,所述根据方差对所有基因进行排序筛选,得到高可变特征基因具体包括:
筛选排序所得序列中的前2000个基因,得到高可变特征基因。
在其中一个实施例中,所述降维分析具体包括:
使用ScaleData函数对保留的高可变特征基因进行线性变换;
使用RunPCA函数对线性变换所得结果进行PCA降维分析,选取分析结果中的前16个最显著的主成分进行细胞分群。
在其中一个实施例中,所述细胞分群具体包括:
利用前16个最显著的主成分构建基于欧式距离的KNN聚类关系图;
基于KNN聚类关系图中的局部领域的共享重叠,细化前16个最显著的主成分中任意两个细胞之间的边缘权重;
使用FindClusters函数进行细胞分群,并将细胞分群结果使用UMAP和tSNE的降维数据可视化。
在其中一个实施例中,所述筛选细胞亚群上调的差异表达基因包括:
选取符合筛选条件的前5个基因作为细胞亚群上调的差异表达基因;
所述筛选条件包括:每个细胞亚群的差异表达基因需与所有其它细胞亚群均有差异;筛选的基因在目标亚群和剩余细胞中,均在25%以上的样本中有表达;P值≤0.01和基因上调的倍数≥2~0.25。
在其中一个实施例中,所述分析细胞轨迹,得到在不同状态之间差异表达的基因,并进行差异基因可视化具体包括:
使用differentialGeneTest函数按照~sm.ns特征鉴定在生物学过程以及其他细胞命运方面在不同状态之间差异表达的基因,筛选差异最显著的50个基因进行差异基因可视化。
在其中一个实施例中,所述预设条件具体包括:单细胞中鉴定到的gene数量为500~7000;单细胞中UMI的线粒体基因表达量比例小于20%。
本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的方法。
从上面所述可以看出,本发明提供的方法和装置,通过对待分析细胞轨迹的单细胞测序数据进行初始分析,基于各个基因在各个细胞中的UMI条数,得到各个细胞的细胞-基因表达矩阵;统计各个细胞的表达基因数分布、UMI条数分布和线粒体含量分布;筛选单细胞中鉴定到的基因数量和单细胞中UMI的线粒体基因表达量比例符合预设条件的高质量细胞的细胞-基因表达矩阵;对高质量细胞的细胞-基因表达矩阵依次进行表达数据归一化、保留高可变特征基因、降维分析以及细胞分群,得到细胞亚群;筛选细胞亚群上调的差异表达基因,并将结果可视化;保留具有细胞亚群上调的差异表达基因的高质量细胞,构建细胞轨迹,并进行细胞轨迹可视化;分析细胞轨迹,得到在不同状态之间差异表达的基因,并进行差异基因可视化。能够对单细胞测序数据进行过滤,凸显关键基因在细胞轨迹中的作用,降低分析的噪音和干扰,降低了计算资源的消耗,使得对硬件的需求降低,易于推广应用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的基于单细胞测序数据分析细胞轨迹的方法的流程示意图;
图2为本发明实施例的细胞质量控制指标可视化图;
图3为本发明实施例的保留高可变特征基因的流程图;
图4为本发明实施例的细胞分群流程图;
图5为本发明实施例的细胞分群可视化图;
图6为本发明实施例的细胞分群top5上调差异表达基因热图;
图7为本发明实施例的细胞轨迹(按拟时序和状态)图;
图8为本发明实施例的随细胞轨迹变化基因热图;
图9为本发明实施例的电子设备硬件结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,除非另外定义,本发明实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。
请参阅图1,为本发明实施例提供的一种基于单细胞测序数据分析细胞轨迹的方法,所述方法包括:
S100,对待分析细胞轨迹的单细胞测序数据进行初始分析,基于各个基因在各个细胞中的UMI条数,得到各个细胞的细胞-基因表达矩阵;
S200,统计各个细胞的表达基因数分布、UMI条数分布和线粒体含量分布;筛选单细胞中鉴定到的基因数量和单细胞中UMI的线粒体基因表达量比例符合预设条件的高质量细胞的细胞-基因表达矩阵;
S300,对高质量细胞的细胞-基因表达矩阵依次进行保留高可变特征基因、降维分析以及细胞分群,得到细胞亚群;
S400,筛选细胞亚群上调的差异表达基因,并将结果可视化;
S500,保留具有细胞亚群上调的差异表达基因的高质量细胞,构建细胞轨迹,并进行细胞轨迹可视化;
S600,分析细胞轨迹,得到在不同状态之间差异表达的基因,并进行差异基因可视化。
单细胞测序数据可以为10X单细胞转录组测序数据。10X单细胞转录组测序是基于10x Genomics公司推出的ChromiumTM系统,利用油包水的微反应体系,通过序列标签区别群体中的不同细胞,获得单细胞水平的数字化基因表达谱。每次实验可分析1000至10000个细胞,很大程度上解决了常规单细胞测序方法在通量或扩展性方面存在的不足,同时增加了检测稀有细胞的灵敏度和准确度,有助于发现新的稀有细胞类型,并深入了解生物学过程中的表达调控机制。
步骤S100中,单细胞测序数据可以取自国家基因组科学数据中心,例如取自小鼠胚胎成纤维细胞(MEFs)化学重排过程中第二阶段第8天的中间细胞,样品编号为SAMC036611,获得的数据格式为bam文件,通过10x genomic工具bamtofastq将bam转换为标准的fastq格式。
初始分析可以使用cellranger软件进行。具体分析可以包括:输入上述的fastq格式的单细胞测序数据;采用cellranger的count参数对fastq格式的测序数据进行分析,其他参数默认;基于各个基因在各个细胞中的UMI条数,输出数据,得到各个细胞的细胞-基因表达矩阵。
步骤S200中,统计各个细胞的表达基因数分布、UMI条数分布和线粒体含量分布具体包括:
对原始表达数据(即cellranger输出的各个细胞的细胞-基因表达矩阵)进行细胞数据的质量统计和基本统计,并将各细胞表达基因数分布,各细胞UMI数分布及各细胞线粒体含量分布统计可视化。具体可以使用Seurat3软件进行。
如图2所示,筛选符合预设条件的高质量细胞的细胞-基因表达矩可以包括:按照单细胞中鉴定到的gene数量为500~7000;单细胞中UMI的线粒体基因表达量比例小于20%的预设条件,过滤低质量细胞,保留高质量细胞。
通过使用基因数量和线粒体基因表达量的指标进行低质量细胞过滤,能够有效剔除几乎没有基因的低质量细胞/空液滴,线粒体污染的低质量/濒死细胞;同时还能筛除双峰或多重峰的显示异常高的基因数的非正常细胞,得到高质量细胞,降低后续分析的数据量。
步骤S300中,所述保留高可变特征基因具体包括:
利用方差稳定化转换对高质量细胞的细胞-基因表达矩阵进行标准化;
对于每个基因,计算所有细胞之间标准值的方差,并根据方差对所有特征进行排序筛选,得到高可变特征基因。
如图3,所述利用方差稳定化转换对高质量细胞的细胞-基因表达矩阵进行标准化具体包括:
S311,使用高质量细胞的细胞-基因表达矩阵计算每个基因的均值和方差,并进行对数转换;
S312,对对数转换所得数据进行分别局部拟合和全局拟合,以预测每个基因均值-方差关系,得到给定某一特征均值对应的方差估计值;
S313,利用期望标准差对高质量细胞的细胞-基因表达矩阵进行标准化。
通过计算方差,能够得到控制均值表达后单细胞弥散的量度,即能够得到调整均值表达后单细胞的离散度,直接根据它来对特征进行排序筛选,得到高可变特征基因。筛选具体可以通过筛选排序所得序列中的前2000个基因,得到高可变特征基因。
通过未经归一化处理的高质量细胞的细胞-基因表达矩阵数据,计算每个基因的均值和方差,并应用log10转换。配合局部拟合和全局拟合,得到预期标准差。并对高质量细胞的数据进行标准化,并计算标准化数据的方差,选取前2000个高可变特征基因。能够利用单细胞转录组固有的均值-方差关系,通过方差稳定化变换校准特征数据,得到高变异性特征的数据,且不会删除高于预期变化的数据。从原来的近28000的基因直接过滤到只有2000个基因作为高度可变的特征基因用于后续分析,能够突出单细胞数据集中的生物信号,大幅度降低数据维度,降低分析过程中技术噪音,同时也降低后续运算分析计算资源需求。
所述降维分析具体可以包括:
使用ScaleData函数对保留的高可变特征基因进行线性变换;
使用RunPCA函数对线性变换所得结果进行PCA降维分析,选取分析结果中的前16个最显著的主成分进行细胞分群。
通过高可变特征基因进行线性变换,配合PCA降维分析,能够得到便于后续聚类和分群分析的最显著的钱16个主成分,提高后续分析的效率。
如图4,所述细胞分群具体可以包括:
S341,利用前16个最显著的主成分构建基于欧式距离的KNN聚类关系图;
S342,基于KNN聚类关系图中的局部领域的共享重叠,细化前16个最显著的主成分中任意两个细胞之间的边缘权重;
S343,使用FindClusters函数进行细胞分群,并将细胞分群结果使用UMAP和tSNE的降维数据可视化。
其中,步骤S341和步骤S342,可以通过“FindNeighbors”函数执行,例如使用Seurat3软件的“FindNeighbors”函数。在使用时,该函数的输入为降维分析得到的数据集维度,也即PCA降维分析结果中的前16个最显著的主成分。
步骤S343中,可以使用Seurat3软件的“FindClusters”函数对步骤S342所得结果再次进行细胞分群,其聚类精度参数resolution可以设置为0.4。
通过步骤S341、S342和S343,能够克服单细胞转录组数据的任何单个特征中的广泛技术噪声,将细胞迭代地分组在一起,得到细胞亚群,并将降维数据可视化如图5。
步骤S400中,所述筛选细胞亚群上调的差异表达基因的筛选条件包括:
每个细胞亚群的差异表达基因需与所有其它细胞亚群均有差异,也即每个细胞亚群的差异基因是通过与所有其他细胞相比获得的。
筛选的基因在目标亚群和剩余细胞中,均在25%以上的样本中有表达。
P值≤0.01。
基因上调的倍数≥2^0.25(约等于1.189)。也即,基因表达倍数logFC≥0.25。
最后选取符合筛选条件的前5个基因作为细胞亚群上调的差异表达基因,并将各个基因的表达情况用热图展示出来(如图6),将结果可视化。
步骤S500中,保留具有细胞亚群上调的差异表达基因的高质量细胞,构建细胞轨迹具体可以理解为:选取用于表达数据归一化、保留高可变特征基因、降维分析以及细胞分群的所有细胞,也即未经过归一化处理的高质量细胞,仅保留上调的差异表达基因的集合用于构建细胞轨迹。通过在用于细胞分群的所有细胞基础上进行轨迹构建,但仅选择上调的差异表达基因进行轨迹构建。能够使用于细胞轨迹分析的基因满足作为代表整个细胞亚群的标志性(marker)基因,从而使用于细胞轨迹分析的基因得到进一步筛选,在降低计算资源消耗的同时,降低噪音,突出关键基因在细胞轨迹中的重要作用。
该步骤中细胞轨迹建立具体为所述保留具有细胞亚群上调的差异表达基因的高质量细胞,构建细胞轨迹具体包括:使用reduceDimension函数的DDRTree降维方法构建细胞轨迹。
具体可以为根据细胞中基因的表达情况,将不同的细胞按照拟时间序列从开始状态、中间状态、终点状态来排列。具体可以通过Monocle2软件中的reduceDimension函数,采用DDRTree的降维方法对数据降维得到。细胞轨迹可视化结果如图7所示。
步骤S600中,具体包括:使用differentialGeneTest函数按照~sm.ns特征鉴定在生物学过程以及其他细胞命运方面在不同状态之间差异表达的基因,筛选差异最显著的50个基因进行差异基因可视化。
在实施时,可以使用Monocle2软件中的“differentialGeneTest”函数按照~sm.ns(Pseudotime)特征来执行,并展示差异最显著的50个基因的拟时间热图,结果可以参见图8。
得到的差异最显著的基因,可以结合文章及数据库阐释生物学过程,用于多种细胞过程(包括分化,增殖和致癌转化)的单细胞基因表达动力学,为肿瘤医学,细胞分化,组织发育等基础科研工作提供重要的方法支持和帮助。
本发明实施例的方法通过未经归一化处理的高质量细胞的细胞-基因表达矩阵数据,计算每个基因的均值和方差,并应用log10转换。配合局部拟合和全局拟合,得到预测均值和特征均值的方差估计值。并对归一化的高质量细胞的数据进行校准,并计算校准后数据的方差,选取前2000个高可变特征基因。能够突出单细胞数据集中的生物信号,大幅度降低数据维度,降低分析过程中技术噪音,同时也降低后续运算分析计算资源需求。配合选取未经过归一化处理的高质量细胞,仅保留上调的差异表达基因的集合用于构建细胞轨迹,分析细胞轨迹,实现突出了相关的生物学信号,有利于复杂的生物学过程的阐释,同时降低数据维度,降低计算资源消耗,易于推广应用。
本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的基于单细胞测序数据分析细胞轨迹的方法。
图9示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于单细胞测序数据分析细胞轨迹的方法,其特征在于,包括:
对待分析细胞轨迹的单细胞测序数据进行初始分析,基于各个基因在各个细胞中的UMI条数,得到各个细胞的细胞-基因表达矩阵;
统计各个细胞的表达基因数分布、UMI条数分布和线粒体含量分布;筛选单细胞中鉴定到的基因数量和单细胞中UMI的线粒体基因表达量比例符合预设条件的高质量细胞的细胞-基因表达矩阵;
对高质量细胞的细胞-基因表达矩阵依次进行保留高可变特征基因、降维分析以及细胞分群,得到细胞亚群;
筛选细胞亚群上调的差异表达基因,并将结果可视化;
保留具有细胞亚群上调的差异表达基因的高质量细胞,构建细胞轨迹,并进行细胞轨迹可视化;
分析细胞轨迹,得到在不同状态之间差异表达的基因,并进行差异基因可视化。
2.根据权利要求1所述的基于单细胞测序数据分析细胞轨迹的方法,其特征在于,所述保留高可变特征基因具体包括:
利用方差稳定化转换对高质量细胞的细胞-基因表达矩阵进行标准化;
对于每个基因,计算所有细胞之间标准化值的方差,并根据方差对所有特征进行排序筛选,得到高可变特征基因。
4.根据权利要求2所述的基于单细胞测序数据分析细胞轨迹的方法,其特征在于,所述根据方差对所有基因进行排序筛选,得到高可变特征基因具体包括:
筛选排序所得序列中的前2000个基因,得到高可变特征基因。
5.根据权利要求1所述的基于单细胞测序数据分析细胞轨迹的方法,其特征在于,所述降维分析具体包括:
使用ScaleData函数对保留的高可变特征基因进行线性变换;
使用RunPCA函数对线性变换所得结果进行PCA降维分析,选取分析结果中的前16个最显著的主成分进行细胞分群。
6.根据权利要求5所述的基于单细胞测序数据分析细胞轨迹的方法,其特征在于,所述细胞分群具体包括:
利用前16个最显著的主成分构建基于欧式距离的KNN聚类关系图;
基于KNN聚类关系图中的局部领域的共享重叠,细化前16个最显著的主成分中任意两个细胞之间的边缘权重;
使用FindClusters函数进行细胞分群,并将细胞分群结果使用UMAP和tSNE的降维数据可视化。
7.根据权利要求1所述的基于单细胞测序数据分析细胞轨迹的方法,其特征在于,所述筛选细胞亚群上调的差异表达基因包括:
选取符合筛选条件的前5个基因作为细胞亚群上调的差异表达基因;
所述筛选条件包括:每个细胞亚群的差异表达基因需与所有其它细胞亚群均有差异;筛选的基因在目标亚群和剩余细胞中,均在25%以上的样本中有表达;P值≤0.01和基因上调的倍数≥2~0.25。
8.根据权利要求1所述的基于单细胞测序数据分析细胞轨迹的方法,其特征在于,所述分析细胞轨迹,得到在不同状态之间差异表达的基因,并进行差异基因可视化具体包括:
使用differentialGeneTest函数按照~sm.ns特征鉴定在生物学过程以及其他细胞命运方面在不同状态之间差异表达的基因,筛选差异最显著的50个基因进行差异基因可视化。
9.根据权利要求1所述的基于单细胞测序数据分析细胞轨迹的方法,其特征在于,所述预设条件具体包括:单细胞中鉴定到的gene数量为500~7000;单细胞中UMI的线粒体基因表达量比例小于20%。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至9任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010772219.9A CN111951892B (zh) | 2020-08-04 | 2020-08-04 | 一种基于单细胞测序数据分析细胞轨迹的方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010772219.9A CN111951892B (zh) | 2020-08-04 | 2020-08-04 | 一种基于单细胞测序数据分析细胞轨迹的方法及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111951892A true CN111951892A (zh) | 2020-11-17 |
CN111951892B CN111951892B (zh) | 2024-06-18 |
Family
ID=73339355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010772219.9A Active CN111951892B (zh) | 2020-08-04 | 2020-08-04 | 一种基于单细胞测序数据分析细胞轨迹的方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111951892B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112735523A (zh) * | 2020-12-01 | 2021-04-30 | 河南大学 | 一种鉴定拟南芥子叶细胞类型的系统和检测方法 |
CN112820353A (zh) * | 2021-01-22 | 2021-05-18 | 中山大学 | 一种分析细胞命运转换关键转录因子的方法及系统 |
CN112837754A (zh) * | 2020-12-25 | 2021-05-25 | 北京百奥智汇科技有限公司 | 一种基于特征基因的单细胞自动分类方法和装置 |
CN113808670A (zh) * | 2021-08-19 | 2021-12-17 | 蓝天 | 一种单细胞转录组数据进行细胞分化预测方法 |
CN113963747A (zh) * | 2021-10-20 | 2022-01-21 | 江西烈冰生物科技有限公司 | 一种模块化的单细胞快速分析系统构建方法 |
CN114708919A (zh) * | 2022-03-08 | 2022-07-05 | 广州基迪奥科技服务有限公司 | 一种快速低损的群体单细胞大数据精简方法 |
CN114864003A (zh) * | 2022-03-17 | 2022-08-05 | 中国科学院深圳先进技术研究院 | 基于混合实验组和对照组单细胞样本的差异分析方法及系统 |
CN115440303A (zh) * | 2022-11-03 | 2022-12-06 | 杭州联川生物技术股份有限公司 | 一种单细胞转录组低质量细胞过滤方法、介质和设备 |
CN115691681A (zh) * | 2022-10-26 | 2023-02-03 | 广州基迪奥生物科技有限公司 | 单细胞t-SNE图前端可视化方法、装置、设备及介质 |
CN116504314A (zh) * | 2023-06-27 | 2023-07-28 | 华东交通大学 | 基于细胞动态分化的基因调控网络构建方法 |
WO2024037540A1 (zh) * | 2022-08-16 | 2024-02-22 | 浙江霍德生物工程有限公司 | 生物样本细胞组成检测方法、装置、设备及存储介质 |
WO2024077533A1 (zh) * | 2022-10-12 | 2024-04-18 | 深圳华大基因科技服务有限公司 | 构建动态基因调控网络的方法和系统以及计算机设备 |
CN118380055A (zh) * | 2024-06-24 | 2024-07-23 | 杭州联川生物技术股份有限公司 | 一种多来源单细胞转录组数据细胞轨迹分析方法、介质和设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016172643A2 (en) * | 2015-04-24 | 2016-10-27 | University Of Utah Research Foundation | Methods and systems for multiple taxonomic classification |
CN109979538B (zh) * | 2019-03-28 | 2021-10-01 | 广州基迪奥生物科技有限公司 | 一种基于10x单细胞转录组测序数据的分析方法 |
-
2020
- 2020-08-04 CN CN202010772219.9A patent/CN111951892B/zh active Active
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112735523A (zh) * | 2020-12-01 | 2021-04-30 | 河南大学 | 一种鉴定拟南芥子叶细胞类型的系统和检测方法 |
CN112837754B (zh) * | 2020-12-25 | 2022-10-28 | 北京百奥智汇科技有限公司 | 一种基于特征基因的单细胞自动分类方法和装置 |
CN112837754A (zh) * | 2020-12-25 | 2021-05-25 | 北京百奥智汇科技有限公司 | 一种基于特征基因的单细胞自动分类方法和装置 |
CN112820353A (zh) * | 2021-01-22 | 2021-05-18 | 中山大学 | 一种分析细胞命运转换关键转录因子的方法及系统 |
CN112820353B (zh) * | 2021-01-22 | 2023-10-03 | 中山大学 | 一种分析细胞命运转换关键转录因子的方法及系统 |
CN113808670A (zh) * | 2021-08-19 | 2021-12-17 | 蓝天 | 一种单细胞转录组数据进行细胞分化预测方法 |
CN113808670B (zh) * | 2021-08-19 | 2024-08-23 | 蓝天 | 一种单细胞转录组数据进行细胞分化预测方法 |
CN113963747A (zh) * | 2021-10-20 | 2022-01-21 | 江西烈冰生物科技有限公司 | 一种模块化的单细胞快速分析系统构建方法 |
CN114708919A (zh) * | 2022-03-08 | 2022-07-05 | 广州基迪奥科技服务有限公司 | 一种快速低损的群体单细胞大数据精简方法 |
CN114864003A (zh) * | 2022-03-17 | 2022-08-05 | 中国科学院深圳先进技术研究院 | 基于混合实验组和对照组单细胞样本的差异分析方法及系统 |
WO2024037540A1 (zh) * | 2022-08-16 | 2024-02-22 | 浙江霍德生物工程有限公司 | 生物样本细胞组成检测方法、装置、设备及存储介质 |
WO2024077533A1 (zh) * | 2022-10-12 | 2024-04-18 | 深圳华大基因科技服务有限公司 | 构建动态基因调控网络的方法和系统以及计算机设备 |
CN115691681A (zh) * | 2022-10-26 | 2023-02-03 | 广州基迪奥生物科技有限公司 | 单细胞t-SNE图前端可视化方法、装置、设备及介质 |
CN115440303A (zh) * | 2022-11-03 | 2022-12-06 | 杭州联川生物技术股份有限公司 | 一种单细胞转录组低质量细胞过滤方法、介质和设备 |
CN116504314A (zh) * | 2023-06-27 | 2023-07-28 | 华东交通大学 | 基于细胞动态分化的基因调控网络构建方法 |
CN116504314B (zh) * | 2023-06-27 | 2023-08-29 | 华东交通大学 | 基于细胞动态分化的基因调控网络构建方法 |
CN118380055A (zh) * | 2024-06-24 | 2024-07-23 | 杭州联川生物技术股份有限公司 | 一种多来源单细胞转录组数据细胞轨迹分析方法、介质和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111951892B (zh) | 2024-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111951892A (zh) | 一种基于单细胞测序数据分析细胞轨迹的方法及电子设备 | |
Stuart et al. | Single-cell chromatin state analysis with Signac | |
Gough et al. | Biologically relevant heterogeneity: metrics and practical insights | |
Pirinen et al. | Assessing allele-specific expression across multiple tissues from RNA-seq read data | |
Haghverdi et al. | Diffusion maps for high-dimensional single-cell analysis of differentiation data | |
Lopes et al. | A more powerful two-sample test in high dimensions using random projection | |
Piccolo et al. | Multiplatform single-sample estimates of transcriptional activation | |
Kriebel et al. | UINMF performs mosaic integration of single-cell multi-omic datasets using nonnegative matrix factorization | |
Storey et al. | The optimal discovery procedure for large-scale significance testing, with applications to comparative microarray experiments | |
Pawitan et al. | False discovery rate, sensitivity and sample size for microarray studies | |
Chodera et al. | Probability distributions of molecular observables computed from Markov models. II. Uncertainties in observables and their time-evolution | |
BinTayyash et al. | Non-parametric modelling of temporal and spatial counts data from RNA-seq experiments | |
Zhou et al. | Genome-wide prediction of DNase I hypersensitivity using gene expression | |
Hou et al. | A new correlation clustering method for cancer mutation analysis | |
Fan et al. | Predictive quantile regressions under persistence and conditional heteroskedasticity | |
Zhu et al. | Single-cell clustering based on shared nearest neighbor and graph partitioning | |
Morganella et al. | Finding recurrent copy number alterations preserving within-sample homogeneity | |
Azad et al. | flowVS: channel-specific variance stabilization in flow cytometry | |
Sîrbu et al. | Cross-platform microarray data normalisation for regulatory network inference | |
Furlotte et al. | Mixed-model coexpression: calculating gene coexpression while accounting for expression heterogeneity | |
Deshwar et al. | PLIDA: cross-platform gene expression normalization using perturbed topic models | |
Maden et al. | Challenges and opportunities to computationally deconvolve heterogeneous tissue with varying cell sizes using single-cell RNA-sequencing datasets | |
Loewe et al. | Microarray bioinformatics | |
Pounds et al. | A procedure to statistically evaluate agreement of differential expression for cross-species genomics | |
Morrison et al. | FSTruct: An FST‐based tool for measuring ancestry variation in inference of population structure |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |