CN113674800B - 基于单细胞转录组测序数据的细胞聚类方法 - Google Patents

基于单细胞转录组测序数据的细胞聚类方法 Download PDF

Info

Publication number
CN113674800B
CN113674800B CN202110983443.7A CN202110983443A CN113674800B CN 113674800 B CN113674800 B CN 113674800B CN 202110983443 A CN202110983443 A CN 202110983443A CN 113674800 B CN113674800 B CN 113674800B
Authority
CN
China
Prior art keywords
cell
cells
analysis
sequencing data
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110983443.7A
Other languages
English (en)
Other versions
CN113674800A (zh
Inventor
王晓武
林润茂
武剑
梁建丽
郭新磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Vegetables and Flowers Chinese Academy of Agricultural Sciences
Original Assignee
Institute of Vegetables and Flowers Chinese Academy of Agricultural Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Vegetables and Flowers Chinese Academy of Agricultural Sciences filed Critical Institute of Vegetables and Flowers Chinese Academy of Agricultural Sciences
Priority to CN202110983443.7A priority Critical patent/CN113674800B/zh
Publication of CN113674800A publication Critical patent/CN113674800A/zh
Application granted granted Critical
Publication of CN113674800B publication Critical patent/CN113674800B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开基于单细胞转录组测序数据的细胞聚类方法,其包括以下步骤:获取由单细胞转录组测序得到的成千上万个细胞的原始数据集,处理原始数据集排除对应于分类可疑的细胞的测序数据,将剩余测序数据挑选为分析数据集;对分析数据集进行降维分析,得到聚类结果。本发明的方法能够解决单细胞转录组分析过程中无法很好地区分细胞亚类的问题,通过识别影响分类的细胞,进而对数据进行过滤和优化,从而分析得到细胞的亚类、细胞类型的标记基因及注释等相关信息。本发明的方法可以明确细胞的聚类,同时有利于确定细胞的类型,对研究组织内细胞的基因调控和功能具有重要意义。

Description

基于单细胞转录组测序数据的细胞聚类方法
技术领域
本发明涉及生物信息学中的数据挖掘领域,具体涉及基于单细胞转录组测序数据的细胞聚类的优化方法。
背景技术
细胞是生命活动的基本单元,其经过分化形成组织。细胞内基因的表达非常复杂,研究基因的表达特征有助于认识和理解基因和细胞的功能。常规转录组bulk RNA-seq测序技术可以得到基因表达量的数值,但是这个数值反映的是该基因在大量细胞中表达得到的平均值。这种平均值掩盖了细胞的异质性,不能识别出基因在不同细胞类型中的表达特征。单细胞转录组scRNA-seq技术有助于解析生物体组织内不同细胞之间的基因表达特征。
对生物体的组织或器官,经过细胞解离后,可以使用10x Genomics Chromium的微流控技术构建得到单细胞的cDNA文库,且基于Illumina测序平台可以获取到相关的测序数据。对这些数据进行分析,就可以得到成千上万个细胞的基因表达信息。通常分析的过程包括:首先使用CellRanger软件分析得到各个细胞的基因表达信息,然后使用已知分析方法对数据进行质量控制的分析、差异表达基因的筛选、细胞的聚类、标记基因的识别,以及使用降维方法去显示细胞聚类的结果。
单细胞聚类的分析结果通常是把细胞聚集为不同的簇。根据标记基因在原位杂交等实验的结果,可以识别标记基因特异表达的细胞类型。在单细胞转录组的分析过程中,基于标记基因在细胞簇的表达可以判断细胞簇的细胞类型。但是对某些组织器官,使用已有分析方法得到的聚类结果可能无法明确区分不同的细胞簇。而且,对边界不清晰的聚类结果,使用统计方法,比如purity、ARI(adjusted rand index)和NMI(normalized mutualinformation)评估得到的分值通常较低(比如计算拟南芥叶片单细胞转录组的Seurat聚类结果的purity值为0.4618),这些低的分值也表明不少细胞的聚类结果不准确,这会影响确定细胞的类型。
细胞聚类的分析是单细胞转录组分析的重要环节,它是判断细胞的类型和研究特定细胞类型的基因表达和功能的关键基础。因此,单细胞转录组测序数据的聚类分析具有挑战性,开发有效方法以明确细胞的聚类具有重要的意义。
背景技术中的信息仅仅在于说明本发明的总体背景,不应视为承认或以任何形式暗示这些信息构成本领域一般技术人员所公知的现有技术。
发明内容
为解决现有技术中的至少部分技术问题,本发明提供一种基于单细胞转录组测序数据的细胞聚类的优化方法,本文有时简称为FOACC。应用本发明的FOACC进行分析后,得到的细胞聚类结果准确性显著提高,有助于分析和研究细胞的类型和功能。具体地,本发明包括以下内容。
一种基于单细胞转录组测序数据的细胞聚类方法,其包括以下步骤:
(1)获取由单细胞转录组测序得到的成千上万个细胞的原始数据集,处理所述原始测序数据集排除对应于分类可疑的细胞的单细胞转录组测序数据,将剩余单细胞转录组测序数据挑选为分析数据集;
(2)对所述分析数据库进行降维分析,得到聚类结果。
根据本发明所述的基于单细胞转录组测序数据的细胞聚类方法,优选地,步骤(1)包括利用下式挑选细胞,将挑选得到的多个细胞所对应的单细胞转录组测序数据作为分析数据集:
T1={(x1,M11),(x2,M12),…,(xN,M1N)}
T2={(x1,M21),(x2,M22),…,(xN,M2N)}
Tg={(x1,Mg1),(x2,Mg2),…,(xN,MgN)}
其中,N为细胞总数,xi为第i个细胞,Tg为第g种分析方法得到N个细胞的分类信息,Mgi={c1,c2,…,ck}为k个细胞簇,N个细胞的分类状态{(M11,M21,…,Mg1),…,(M1N,M2N,…,MgN)}可以生成一个函数f(x)。然后挑选满足
Figure BDA0003229758770000031
的细胞x,i∈{1,2,…,N},j∈{1,2,…,k},t为1-g的任意值,I为指示函数。对I(Mti=cj),I=1(如果Mti=cj)或I=0(如果Mti!=cj);对I(f(xp)=f(xi)),I=1(如果f(xp)=f(xi))或I=0(如果f(xp)!=f(xi))。
根据本发明所述的基于单细胞转录组测序数据的细胞聚类方法,优选地,步骤(2)中采用由PCA+tSNE或PCA+UMAP组成的方法进行降维分析,得到聚类结果。
根据本发明所述的基于单细胞转录组测序数据的细胞聚类方法,优选地,进一步包括(3)细胞聚类结果评估步骤,其包括计算纯度(purity)、ARI和NMI。
根据本发明所述的基于单细胞转录组测序数据的细胞聚类方法,优选地,通过以下公式计算纯度:
Figure BDA0003229758770000041
其中,N指细胞的总数,U={U1,…,Ui}指参考的细胞类别,V={V1,…,Vj}指待查询的细胞类别。
根据本发明所述的基于单细胞转录组测序数据的细胞聚类方法,优选地,通过以下公式计算ARI:
Figure BDA0003229758770000042
其中,n=∑ini.=∑jn.j,i和j分别为参考的和待查询的细胞类别的数目。
根据本发明所述的基于单细胞转录组测序数据的细胞聚类方法,优选地,通过以下公式计算NMI:
Figure BDA0003229758770000043
其中,I(U,V)指互信息,H(U)和H(V)指熵。
根据本发明所述的基于单细胞转录组测序数据的细胞聚类方法,优选地,所述纯度、ARI和NMI分别为0.5以上。
根据本发明所述的基于单细胞转录组测序数据的细胞聚类方法,优选地,进一步包括(4)对聚类结果进行注释分析的步骤。
根据本发明所述的基于单细胞转录组测序数据的细胞聚类方法,优选地,所述细胞为动物细胞或植物细胞。
本发明的方法能够解决单细胞转录组分析过程中无法很好地区分细胞亚类的问题,通过识别影响分类的细胞,进而对数据进行过滤和优化,从而分析得到细胞的亚类、细胞类型的标记基因及注释等相关信息。本发明的方法可以明确细胞的聚类,同时有利于确定细胞的类型,对研究组织内细胞的基因调控和功能具有重要意义。
附图说明
图1显示现有不同方法对拟南芥根部组织中柱细胞的聚类结果存在明显差异。
图2为Seurat和本发明FOACC方法对拟南芥根部组织单细胞的聚类结果的比较。
图3为根据已发表的中柱细胞特异表达的标记基因(AT4G36710、AT1G07640和AT1G68810)确定中柱细胞。
图4为Seurat和本发明FOACC方法对拟南芥叶片组织单细胞的聚类结果的比较。
图5为Seurat和本发明FOACC方法对水稻根部组织单细胞的聚类结果的比较。
图6为Seurat和本发明FOACC方法对人体外周血单核细胞的聚类结果的比较。
图7为根据已发表的标记基因(MS4A1、GNLY和CD3E)确定图6的细胞。
具体实施方式
现详细说明本发明的多种示例性实施方式,该详细说明不应认为是对本发明的限制,而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。
应理解本发明中所述的术语仅仅是为描述特别的实施方式,并非用于限制本发明。另外,对于本发明中的数值范围,应理解为具体公开了该范围的上限和下限以及它们之间的每个中间值。在任何陈述值或陈述范围内的中间值以及任何其他陈述值或在所述范围内的中间值之间的每个较小的范围也包括在本发明内。这些较小范围的上限和下限可独立地包括或排除在范围内。
除非另有说明,否则本文使用的所有技术和科学术语具有本发明所述领域的常规技术人员通常理解的相同含义。虽然本发明仅描述了优选的方法和材料,但是在本发明的实施或测试中也可以使用与本文所述相似或等同的任何方法和材料。本说明书中提到的所有文献通过引用并入,用以公开和描述与所述文献相关的方法和/或材料。在与任何并入的文献冲突时,以本说明书的内容为准。
用于数据分析以获得细胞聚类结果的常规聚类方法包括但不限于Seurat和SC3等。不同常规方法得到的聚类结果有所不同,通常不少细胞被不同方法聚集到不同的细胞簇中。例如,在Seurat方法中,确定用于tSNE聚类的PC数目非常关键,而PC数目通常根据HCHeatmap、JackStrawPlot和PCElbowPlot这3个函数的分析结果去确定,并且这3个函数建议的PC数目有可能不一致。再例如,在SC3方法中,选择的k值过低会导致模型复杂度增加,从而容易产生过拟合,而k值过高会导致模型变简单,导致预测出错。根据经验,如果HCHeatmap、JackStrawPlot和PCElbowPlot的结果不一致,那么根据JackStrawPlot的P-value值确定PC数目用于开展Seurat的tSNE聚类分析,根据Seurat的聚类结果确定k值用于开展SC3方法的聚类分析。
例如,在Seurat方法中,拟南芥叶片中的1164个细胞被Seurat聚集为1个细胞簇。在另外两种方法(SC3和DIMMSC)的结果显示1164个细胞被聚集为多个细胞簇,仅有251个细胞被3种方法均判断为同一个细胞簇(如图1所示)。这表明了在很多细胞中,大量基因的表达特征很复杂,它们在不同方法中可能被聚集到不同的细胞簇中。
本发明提供一种基于单细胞转录组测序数据的细胞聚类的优化方法,即FOACC,其能够解决上述技术问题。具体地,该方法至少包括步骤(1)-(2),具体如下。
步骤(1)
在本发明的步骤1中,获取由单细胞转录组测序得到的成千上万个细胞(例如,1000个细胞以上、优选2000个细胞以上、更优选3000个细胞以上、更进一步优选10000个细胞以上、还优选100000个细胞以上等)的原始数据集,处理所述原始测序数据集排除对应于分类可疑的细胞的单细胞转录组测序数据,将剩余单细胞转录组测序数据挑选为分析数据集。单细胞转录组测序数据来源不特别限定,可通过任何已知方式获得测序数据集。进行单细胞转录组测序的样本可以是任何生物样本,包括但不限于包含来源于真核生物细胞的样本。优选地,细胞为动物细胞或植物细胞。
在本发明的步骤(1)中,筛选用于后续分析的细胞是重要的,本发明基于g种方法利用特定公式挑选细胞,将挑选得到的多个细胞所对应的单细胞转录组测序数据作为分析数据集。其中,g种方法包括但不限于Seurat、SC3、DIMM-SC、Monocle和Giniclust3。本领域技术人员可以理解的是,为了达到筛选的目的,还可以使用另外的方法,并且,随着g的增加,细胞分类结果更准确。因此,优选g为2-10之间的整数,还优选为2-6,进一步优选为2-5。
步骤(2)
在本发明的步骤(2)中,对上一步骤得到的分析数据库进行降维分析,得到聚类结果。优选地,通过PCA、tSNE、UMAP或其组合进行降维分析,以获得细胞的聚类结果。
其他步骤
本领域技术人员应理解,只要能够实现本发明的目的,在本发明步骤(1)-(2)前后,或步骤之间还可包含其他步骤或操作,例如进一步优化和/或改善本发明所述的方法。在某些具体实施方案中,在步骤(2)后,进一步包括(3)对细胞聚类结果评估的步骤。例如可使用统计方法(purity、ARI和NMI)进行评估。
可以理解的是,当评估结果低于阈值时,可以重复进行本发明方法的步骤(1)-(3),直至得到所期望的细胞聚类结果评估值,例如纯度、ARI和NMI分别为0.5以上,优选0.8以上,更优选0.9以上。
下面示例性说明本发明的重复循环情形。例如如果g=2时,经本发明的步骤(1)-(3)得到的评估值低于预期阈值,则可将g设为3,重复进行步骤(1)-(3)。
本发明的方法可选地还可包括(4)对细胞簇进行功能注释的步骤。本发明可使用Seurat的FindAllMarkers函数识别每个细胞簇的标记基因。可使用Pfam数据库对标记基因进行功能注释。最后结合已报道标记基因和已注释的标记基因确定细胞的类别。
实施例1
本实施例示例性的示出了拟南芥根部组织细胞的聚类,具体步骤如下。
1.细胞聚类的常规分析
基于单细胞转录组的数据(即数据文件:matrix.mtx.gz,barcodes.tsv.gz和features.tsv.gz),使用3种分析方法(包括Seurat、SC3和DIMM-SC)进行单细胞转录组数据的分析,获得4311个细胞的聚类结果。其中,Seurat得到14个细胞簇(图2左图)。根据标记基因判断这些细胞簇主要源自于7种细胞类型,即中柱细胞stele(图3)、内皮层细胞endodermis、根毛细胞root hair、无毛细胞non hair、皮层细胞cortex、木质部xylem和根冠细胞root cap;其中有4个细胞簇的细胞属于中柱细胞。
2.识别并挑选用于聚类分析的细胞
经过比较分析,并使用FOACC的方法(g=3)挑选2747个细胞用于后续分析。
3.优化后的细胞聚类及注释分析
对2747个细胞进行分析,得到13个细胞簇(图2右图)。基于已报道的标记基因发现这些细胞簇主要源自7种细胞类型,即中柱细胞stele(图3)、内皮层细胞endodermis、根毛细胞root hair、无毛细胞non hair、皮层细胞cortex、木质部xylem和根冠细胞root cap。
4.细胞聚类结果的评估
对4311和2747个细胞的聚类结果进行评估,发现purity、ARI和NMI的分值分别由0.8494、0.6911和0.7940提升为0.9694、0.8323和0.9782。
实施例2
本实施例示例性的示出了拟南芥叶片组织细胞的聚类,具体步骤如下。
1.细胞聚类的常规分析
基于单细胞转录组的数据(即数据文件:matrix.mtx.gz,barcodes.tsv.gz和features.tsv.gz),使用3种分析方法(包括Seurat、SC3和DIMM-SC)进行单细胞转录组数据的分析,获得6176个细胞的聚类结果。其中,Seurat得到13个细胞簇(图4)。基于已报道的标记基因发现这些细胞簇主要源自7种细胞类型,包括海绵细胞spongy cell、栅栏组织细胞palisade cells、维管束鞘bundle sheath、表皮epidermis、韧皮部phloem、保卫细胞guardcell和未定义的细胞undefined(图4)。
2.识别并挑选用于聚类分析的细胞
经过比较分析,并使用FOACC的方法(g=3)挑选1483个细胞用于后续分析。
3.优化后的细胞聚类及注释分析
对1483个细胞进行分析,得到11个细胞簇(图4)。基于已报道的标记基因发现这些细胞簇主要源自7种细胞类型,包括海绵细胞spongy cell、栅栏组织细胞palisade cells、维管束鞘bundle sheath、表皮epidermis、韧皮部phloem、保卫细胞guard cell和未定义的细胞undefined(图4)。
4.细胞聚类结果的评估
对6176和1483个细胞的聚类结果进行评估,发现purity、ARI和NMI的分值分别由0.4944、0.3315和0.3924提升为0.8685、0.6972和0.8897。
实施例3
本实施例示例性的示出了水稻根部组织细胞的聚类,具体步骤如下。
1.细胞聚类的常规分析
基于单细胞转录组的数据(即数据文件:matrix.mtx.gz,barcodes.tsv.gz和features.tsv.gz),使用3种分析方法(包括Seurat、SC3和DIMM-SC)进行单细胞转录组数据的分析,获得12515个细胞的聚类结果。其中,Seurat得到14个细胞簇(图5)。基于已报道的标记基因发现这些细胞簇主要源自6种细胞类型,包括表皮epidermis、皮层细胞cortex、中柱细胞stele、根毛root hair、根冠root cap和未定义细胞undefined(图5)。
2.识别并挑选用于聚类分析的细胞
经过比较分析,并使用FOACC的方法(g=3)挑选3079个细胞用于后续分析。
3.优化后的细胞聚类及注释分析
对3079个细胞进行分析,得到12个细胞簇(图5)。基于已报道的标记基因发现这些细胞簇主要源自6种细胞类型,包括表皮epidermis、皮层细胞cortex、中柱细胞stele、根毛roothair、根冠root cap和未定义细胞undefined(图5)。
4.细胞聚类结果的评估
对12515和3079个细胞的聚类结果进行评估,发现purity、ARI和NMI的分值分别由0.8050、0.5369和0.6534提升为0.9743、0.8173和0.9094。
实施例4
本实施例示例性的示出了人体外周血单核细胞(human peripheral bloodmononuclear cells)的聚类分析,具体步骤如下。
1.细胞聚类的常规分析。
基于单细胞转录组的数据(即数据文件:matrix.mtx.gz,barcodes.tsv.gz和features.tsv.gz),使用3种分析方法(包括Seurat、SC3和DIMM-SC)进行单细胞转录组数据的分析,获得2639个细胞的聚类结果。其中,Seurat得到9个细胞簇(图6)。基于已报道的标记基因发现这些细胞簇主要源自8种细胞类型,包括CD4T、CD14+Mono、B、CD8T、FCGR3A+Mono、NK、Platelet和DC(图6)。
2.识别并挑选用于聚类分析的细胞
经过比较分析,并使用FOACC的方法挑选2219(g=2)、1792(g=3)、1449(g=4)、1401(g=5)个细胞用于后续分析。
3.优化后的细胞聚类及注释分析
对挑选的细胞进行分析,得到9个细胞簇(图6)。基于已报道的标记基因发现这些细胞簇主要源自8种细胞类型,包括CD4T、CD14+Mono、B、CD8T、FCGR3A+Mono、NK、Platelet和DC(图6)。
4.细胞聚类结果的评估
对2639和1792个细胞的聚类结果进行评估,发现purity、ARI和NMI的分值分别由0.8495、0.6235和0.7116提升为0.9799、0.8742和0.8981。
尽管本发明已经参考示例性实施方案进行了描述,但应理解本发明不限于公开的示例性实施方案。在不背离本发明的范围或精神的情况下,可对本发明说明书的示例性实施方案做多种调整或变化。权利要求的范围应基于最宽的解释以涵盖所有修改和等同结构与功能。

Claims (9)

1.一种基于单细胞转录组测序数据的细胞聚类方法,其特征在于,包括以下步骤:
(1)获取由单细胞转录组测序得到的多个细胞的原始数据集,处理原始测序数据集排除对应于分类可疑的细胞的测序数据,将剩余测序数据挑选为分析数据集;
(2)对所述分析数据集进行降维分析,得到聚类结果;
其中,步骤(1)包括利用下式挑选细胞,将挑选得到的多个细胞所对应的单细胞转录组测序数据作为分析数据集:
T1={(x1,M11),(x2,M12),…,(xN,M1N)}
T2={(x1,M21),(x2,M22),…,(xN,M2N)}
Figure FDA0003435048860000011
Tg={(x1,Mg1),(x2,Mg2),…,(xN,MgN)}
其中,N为细胞总数,xi为第i个细胞,Tg为第g种分析方法得到N个细胞的分类信息,Mgi={c1,c2,…,ck}为k个细胞簇,由N个细胞的分类状态{(M11,M21,…,Mg1),…,(M1N,M2N,…,MgN)}生成函数f(x),然后挑选满足
Figure FDA0003435048860000012
的细胞x,i∈{1,2,…,N},j∈{1,2,…,k},t为1-g的任意值,I为指示函数。
2.根据权利要求1所述的基于单细胞转录组测序数据的细胞聚类方法,其特征在于,步骤(2)采用由PCA+tSNE或PCA+UMAP组成的方法进行降维分析,得到聚类结果。
3.根据权利要求1所述的基于单细胞转录组测序数据的细胞聚类方法,其特征在于,进一步包括(3)细胞聚类结果评估步骤,其包括计算纯度、ARI和NMI。
4.根据权利要求3所述的基于单细胞转录组测序数据的细胞聚类方法,其特征在于,通过下式计算纯度:
Figure FDA0003435048860000021
其中,N指细胞的总数,U={U1,…,Ui}指参考的细胞类别,V={V1,…,Vj}指待查询的细胞类别。
5.根据权利要求3所述的基于单细胞转录组测序数据的细胞聚类方法,其特征在于,通过下式计算ARI:
Figure FDA0003435048860000022
其中,n=∑ini.=∑jn.j,i和j分别为参考的和待查询的细胞类别的数目。
6.根据权利要求3所述的基于单细胞转录组测序数据的细胞聚类方法,其特征在于,通过下式计算NMI:
Figure FDA0003435048860000023
其中,I(U,V)指互信息,H(U)和H(V)指熵。
7.根据权利要求3所述的基于单细胞转录组测序数据的细胞聚类方法,其特征在于,所述纯度、ARI和NMI各自分别为0.5以上。
8.根据权利要求1所述的基于单细胞转录组测序数据的细胞聚类方法,其特征在于,进一步包括(4)对聚类结果进行注释分析的步骤。
9.根据权利要求1所述的基于单细胞转录组测序数据的细胞聚类方法,其特征在于,所述细胞为动物细胞或植物细胞。
CN202110983443.7A 2021-08-25 2021-08-25 基于单细胞转录组测序数据的细胞聚类方法 Active CN113674800B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110983443.7A CN113674800B (zh) 2021-08-25 2021-08-25 基于单细胞转录组测序数据的细胞聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110983443.7A CN113674800B (zh) 2021-08-25 2021-08-25 基于单细胞转录组测序数据的细胞聚类方法

Publications (2)

Publication Number Publication Date
CN113674800A CN113674800A (zh) 2021-11-19
CN113674800B true CN113674800B (zh) 2022-02-08

Family

ID=78546298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110983443.7A Active CN113674800B (zh) 2021-08-25 2021-08-25 基于单细胞转录组测序数据的细胞聚类方法

Country Status (1)

Country Link
CN (1) CN113674800B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023191503A1 (ko) * 2022-03-29 2023-10-05 주식회사 포트래이 단일 세포 전사체 분석을 통한 암 미세 환경 내 세포 클러스터의 표적 후보 추천 방법, 그 장치 및 프로그램

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115083522B (zh) * 2022-08-18 2022-10-28 天津诺禾致源生物信息科技有限公司 细胞类型的预测方法、装置及服务器
CN116805511A (zh) * 2022-11-03 2023-09-26 杭州联川生物技术股份有限公司 一种单细胞转录组细胞碎片和多细胞过滤方法、介质和设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113155510A (zh) * 2021-04-16 2021-07-23 伊达生物有限公司 组织细胞分割采样系统和方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102952854B (zh) * 2011-08-25 2015-01-14 深圳华大基因科技有限公司 单细胞分类和筛选方法及其装置
CN110060729B (zh) * 2019-03-28 2020-02-28 广州序科码生物技术有限责任公司 一种基于单细胞转录组聚类结果注释细胞身份的方法
CN110827921B (zh) * 2019-11-12 2022-06-14 玉林师范学院 一种单细胞聚类方法、装置、电子设备及存储介质
CN112735536A (zh) * 2020-12-23 2021-04-30 湖南大学 一种基于子空间随机化单细胞集成聚类方法
CN112599199A (zh) * 2020-12-29 2021-04-02 上海派森诺生物科技股份有限公司 一种适用于10x单细胞转录组测序数据的分析方法
CN112700820B (zh) * 2021-01-07 2021-11-19 广州华银健康医疗集团股份有限公司 一种基于单细胞转录组测序的细胞亚群注释方法
CN113239983A (zh) * 2021-04-25 2021-08-10 浙江师范大学 基于高阶关联保持的缺失多视图子空间聚类方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113155510A (zh) * 2021-04-16 2021-07-23 伊达生物有限公司 组织细胞分割采样系统和方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023191503A1 (ko) * 2022-03-29 2023-10-05 주식회사 포트래이 단일 세포 전사체 분석을 통한 암 미세 환경 내 세포 클러스터의 표적 후보 추천 방법, 그 장치 및 프로그램

Also Published As

Publication number Publication date
CN113674800A (zh) 2021-11-19

Similar Documents

Publication Publication Date Title
CN113674800B (zh) 基于单细胞转录组测序数据的细胞聚类方法
Amaratunga et al. Exploration and analysis of DNA microarray and protein array data
Witten Classification and clustering of sequencing data using a Poisson model
US7653491B2 (en) Computer systems and methods for subdividing a complex disease into component diseases
CA2877430C (en) Systems and methods for generating biomarker signatures with integrated dual ensemble and generalized simulated annealing techniques
KR101542529B1 (ko) 대립유전자의 바이오마커 발굴방법
US20210381056A1 (en) Systems and methods for joint interactive visualization of gene expression and dna chromatin accessibility
US20060111849A1 (en) Computer systems and methods that use clinical and expression quantitative trait loci to associate genes with traits
WO2004109447A2 (en) Computer systems and methods for identifying surrogate markers
EP2864918B1 (en) Systems and methods for generating biomarker signatures
CN112599199A (zh) 一种适用于10x单细胞转录组测序数据的分析方法
Schachtner et al. Knowledge-based gene expression classification via matrix factorization
Lawrence et al. Assignment of position-specific error probability to primary DNA sequence data
KR20150024232A (ko) 질병에 대한 약물 내성 유전체로부터 내성 원인 마커의 발굴 방법
CN113823356B (zh) 一种甲基化位点识别方法及装置
CN112735594B (zh) 一种筛选疾病表型相关突变位点的方法及其应用
Foulkes et al. Characterizing the relationship between HIV‐1 genotype and phenotype: prediction‐based classification
DeTomaso et al. Identifying informative gene modules across modalities of single cell genomics
WO2020201443A1 (en) Cytometry data analysis
CN113838519B (zh) 基于自适应基因交互正则化弹性网络模型的基因选择方法及系统
Fleury et al. Gene discovery using Pareto depth sampling distributions
Phongwattana et al. Clustering-based multi-class classification of complex disease
Abid et al. Discriminant analysis for the eigenvalues of variance covariance matrix of FFT scaling of DNA sequences: an empirical study of some organisms
AU2002352985A1 (en) Methods and apparatus for genetic classification
Anaissi et al. A benchmark of pre-processing effect on single cell RNA sequencing integration methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant