CN113178233A - 大规模单细胞转录组数据高效聚类方法 - Google Patents

大规模单细胞转录组数据高效聚类方法 Download PDF

Info

Publication number
CN113178233A
CN113178233A CN202110459530.2A CN202110459530A CN113178233A CN 113178233 A CN113178233 A CN 113178233A CN 202110459530 A CN202110459530 A CN 202110459530A CN 113178233 A CN113178233 A CN 113178233A
Authority
CN
China
Prior art keywords
cell
cells
nearest neighbor
group
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110459530.2A
Other languages
English (en)
Other versions
CN113178233B (zh
Inventor
高琳
史凯玥
胡宇轩
叶育森
张晨星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202110459530.2A priority Critical patent/CN113178233B/zh
Publication of CN113178233A publication Critical patent/CN113178233A/zh
Application granted granted Critical
Publication of CN113178233B publication Critical patent/CN113178233B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种大规模单细胞转录组数据高效聚类方法,主要解决现有大规模聚类方法运行时间长,效率低,甚至不能正常运行的问题。其方案为:对大规模单细胞转录组数据的基因特征进行筛选,筛选出高表达的基因,初步降低细胞维度;对细胞进行密度抽样,使抽样出的一组新样本尽可能的包含更完整的细胞类型;对抽样出的新样本进行共享最近邻SNN构图图并使用Louvain算法对共享最近邻SNN图进行聚类,获得新样本中细胞的细胞类型;对于剩下的未参与聚类的细胞,分别在已知标签的细胞中查找近似k近邻,k近邻中最多的那一类细胞的类型,即为未参与聚类的细胞类型。本发明运行时间短,效率高,可用于大规模细胞类型识别,细胞轨迹推理。

Description

大规模单细胞转录组数据高效聚类方法
技术领域
本发明属于数据挖掘技术领域,具体涉及一种单细胞转录组聚类方法,可用于大规模细胞类型识别,细胞轨迹推理,基因差异表达。
背景技术
随着单细胞测序技术的发展和测序成本的下降,越来越多的大规模单细胞数据被产生。而对这些大规模高维的单细胞数据进行处理和分析是一个非常具有挑战性的工作。聚类分析是单细胞分析中最基础的一个步骤,聚类的准确率和效率对后续分析有很大的影响。
以往的单细胞聚类算法,由于当时数据量的限制,在设计算法时,并没有考虑到应用于大规模的数据,其主要是应用于小规模的单细胞数据集。当数据量提升时,其运行时间会大幅增加,效率是十分低的,甚至有的算法不能正常运行。
目前已经开发了一些专门的聚类算法来从单细胞RNA数据集中识别细胞的类型。
2015年Chen Xu等人在Bioinformatics上提出的单细胞聚类方法SNN-Cliq,是利用共享最近邻SNN的概念定义相似性并进行构图,之后使用一种基于准clique的聚类算法进行聚类。这个方法在高维度的单细胞基因表达数据集上,比传统方法更有优势,此外,它需要很少的输入参数,且能够自动确定聚类的个数。
2016年Justina Zurauskiene等人在BMC上提出了一个名为pcaReduce的聚类算法,它整合了主成分分析PCA和层次聚类方法,建立了主成分分析给出的降维后的表示和细胞聚类的数量之间的关系。
2017年Peijie Lin等人在Genome Biology上提出了一个名为CIDR的聚类算法,该算法通过插补以减少单细胞数据中dropout的影响,并且改进了PCA和层次聚类算法,在当时聚类精度方面优于当时最先进的算法,t-SNE,ZIFA和RaceID,CIDR通常在几秒钟内可以完成处理数百个细胞的数据集,几分钟内完成处理数千个细胞的数据集,这在当时可以说是最快的算法。
2017年Bo Wang等人在Nature Methods上提出的名为SIMLR的分析框架和软件,它主要的贡献是从单细胞RNA-seq数据中学习出一个合适的度量细胞间相似性的标准,有了这种相似性度量标准后,就可以进行后续的降维、聚类和可视化。
2017年Vladimir Yu.Kiselev等人在Nature Methods上提出了一个单细胞RNA测序数据的无监督聚类算法SC3。它是利用多个度量标准计算细胞之间的距离,构建距离矩阵后通过k-means聚类,再将多个距离度量标准得到的聚类结果通过CSPA进行一致聚类得到最终的聚类结果。通过一致聚类的方法将多个聚类结果组合到一起,从而得到高精度和鲁棒的聚类结果。但这个算法需要研究人员自己定义聚类个数,但在大多数情况下,研究人员并不能确切的知道需要聚几类。
2018年Debajyoti Sinha等人在Nucleic Acids Research上提出的名为dropClust的聚类算法。这个算法是利用局域敏感哈希技术,开发的一种适用于大规模单细胞RNA数据的聚类算法,其在运行时间和效率上显著优于其他聚类算法。
2018年Andrew Butler等人在Nature Biotechnology发表的Seurat工具,是现在单细胞分析中使用最广泛的工具之一,其中的聚类分析使用的是SNN-Cliq图聚类的改进版。
以上算法都是偏向于对小于40000个小规模细胞进行聚类,但是在现实中,细胞数量是远远大于40000,而这些算法在大于40000个大规模细胞的数据中均存在运行时间慢,效率低,甚至不能正常工作,即计算机不能正常运行的不足。
发明内容
本发明的目的在于克服上述现有技术的不足,提出一种大规模单细胞转录组数据高效聚类方法,以提高在大规模数据中运行时间和效率,并保证在对大规模数据进行聚类时,计算机能正常运行。
本发明的技术方案是:首先对单细胞转录组数据中的基因进行特征筛选,之后对单细胞转录组数据进行随机分组和密度抽样,接着对抽样出的新样本进行共享最近邻SNN构图,然后使用Louvain算法对图进行聚类,最后将聚类后的结果传播到未参与聚类的细胞。
其实现步骤包括如下:
(1)使用单细胞转录组测序技术对样本中的每一个细胞测量其基因表达值,产生单细胞转录组数据;
(2)对单细胞转录组数据中的基因进行特征选择,即从数据的基因中筛选出方差最大的前1000个基因作为高表达基因;
(3)按如下规则对单细胞转录组数据中的细胞进行随机分组:
当细胞数小于2000时,将所有细胞分为1组;
当细胞数大于2000而小于20000时,将2000个细胞分成一组,并在所有组内进行抽样,总共抽取2000个细胞;
当细胞数大于20000时,将2000个细胞分成一组,并在所有组内进行抽样,总共抽取1/10细胞数量的细胞;
(4)对分组后的细胞进行密度抽样:
(4a)对于每一组样本通过近似最近邻搜索算法HNSW查找近似k近邻,得到组内每个细胞的近似k近邻,并计算组内每个细胞到其近似k近邻距离之和SUMD(Ci),Ci为原始样本中的细胞;
(4b)以组内每个细胞的近似k近邻距离和SUMD(Ci)作为抽样的概率,对每一组细胞进行概率抽样;
(4c)将每组样本中抽样出的细胞合并为一个新样本;
(5)按如下规则对抽出的新样本进行共享最近邻SNN构图:
(5a)通过近似最近邻查找,找出新样本中每个细胞的近似k近邻;
(5b)对新样本中的每个细胞C′i′查找与其拥有相同近邻的细胞C′j′,并在该细胞C′i′与细胞C′j′之间连接一条边E(C′i′,C′j′),构成共享最近邻SNN图;
(6)使用Louvain算法对共享最近邻SNN图进行聚类,得到抽样出细胞的细胞类型;
(7)对于剩下的未参与聚类的细胞,分别在已知标签的细胞中查找近似k近邻,k近邻中最多的那一类细胞的类型,即为未参与聚类的细胞类型。
本发明与现有技术相比,具有如下优点:
1)本发明由于在聚类的时候进行了密度抽样,不用对所有数据进行处理,只对抽样出的细胞进行聚类,因而相比现有直接对所有细胞进行聚类的方法,不仅减少了运行的时间,而且对日后产生的更大的数据集也能高效的运行;
2)本发明由于使用了密度抽样,因而相比于随机抽样,选出来的细胞更加全面,即使某一类型的细胞数量很少,也有更大的概率被选中;
3)本发明由于在进行共享最近邻SNN图构建时使用近似最近邻搜索算法HNSW查找近似k近邻,因而相比传统的搜索k近邻的算法拥有更短的时间,更高的效率。
4)本发明由于在获取全部细胞类型时,是通过将已知的细胞类型传播到未参与聚类的细胞类型中去,因而相比直接对全部细胞进行聚类的方法更高效。
附图说明
图1为本发明的实现流程图。
具体实施方式
以下结合附图和具体实施例,对本发明作进一步详细说明。
本实施例以10000个细胞的单细胞转录组模拟数据为例。数据规模为10000细胞,30000个基因。
参照图1、本实例大规模单细胞转录组数据高效聚类方法,实现步骤如下:
步骤1,对单细胞转录组模拟数据的30000个基因进行特征筛选。
1.1)使用splatter软件包,生成10000个细胞,30000个基因的单细胞转录组模拟数据;
1.2)对单细胞转录组模拟数据中的30000个基因,通过如下公式计算每个基因的方差Si
Figure BDA0003041874630000041
其中,
Figure BDA0003041874630000042
为第i个基因在数据中的平均值,
Figure BDA0003041874630000043
为第j个细胞的第i个基因的表达值,i,j∈[1,10000],n为细胞数量10000;
1.3)将方差最大的1000个基因作为筛选出的高表达基因。
步骤2,对单细胞转录组模拟数据的细胞进行随机分组。
将10000个细胞随机分为5组,即每2000个细胞为一组;
步骤3,对分组后的细胞进行密度抽样。
3.1)对每一组的2000个细胞,通过近似最近邻搜索算法HNSW查找近似10近邻,得到每个组内细胞的近似10近邻细胞,并通过下式计算组内每个细胞到其近似10近邻距离之和SUMD(Ci):
Figure BDA0003041874630000044
其中Ci为组内的细胞,
Figure BDA0003041874630000045
为组内细胞Ci的第p近邻的细胞,
Figure BDA0003041874630000046
为第i个细胞Ci与其第p近邻细胞
Figure BDA0003041874630000047
的欧式距离;
3.2)以每个细胞的近似10近邻之和SUMD(Ci)作为抽样的概率,对每一组细胞进行抽样,每组抽样出400个细胞,总共抽样出2000个细胞,作为新样本。
步骤4,对抽样出的2000个新样本进行共享近邻SNN构图。
对抽样出的2000个细胞通过近似最近邻查找,找出每个细胞的10近邻,并对新样本中的每个细胞C′i′查找与其拥有相同近邻的细胞C′j′,并在细胞C′i′与细胞C′j′之间连接一条边E(C′i′,C′j′),构成共享最近邻SNN图,该边通过下式计算:
Figure BDA0003041874630000055
其中,
Figure BDA0003041874630000056
表示C′i′是C′j′的第几近邻,C′i′、C′j′分别为新样本中的第i个细胞和第j个细胞,i′,j′∈[1,2000]。
步骤5,使用Louvain算法对共享最近邻SNN图进行聚类,得到新样本中2000个细胞的类型。
5.1)将共享最近邻SNN图中的每个细胞设为一类,此时图中有2000类;
5.2)通过下式计算共享最近邻SNN图的模块度Q:
Figure BDA0003041874630000051
其中,m为图中边的总数量,wi′表示所有指向新样本中第i个细胞的连边权重之和,δ(C′i′,C′j′)为判别函数,并通过下式计算:
Figure BDA0003041874630000052
5.3)令第i个细胞不再属于自己的类型,变为与其细胞类型不同的细胞j的类型,计算细胞类型改变后的共享最近邻图SNN新的模块度Q′,
Figure BDA0003041874630000053
其中,C″i′是改变细胞类型后的第i个细胞,δ(C″i′,C′j′)为新判别函数,并通过下式计算:
Figure BDA0003041874630000054
5.4)通过下式计算模块度增量ΔQ:
ΔQ=Q′-Q;
5.5)将细胞i的细胞类型划分到细胞类型改变后共享最近邻图SNN模块度增量ΔQ最大,且最大的ΔQ大于0的那个细胞类型中去,如果最大的ΔQ小于0,则细胞类型不改变;
5.6)将同一类型的细胞聚合为一个细胞,返回5.1)进行迭代,直到共享最近邻SNN图中所有细胞的类型不再发生变化。
步骤6,获得未参与聚类的8000个细胞的类型。
对于剩下的8000个未参与聚类的细胞,分别在已知标签的2000个细胞中查找近似10近邻,10近邻中最多的那一类细胞,即为该细胞的细胞类型。
本实例中,通过聚类获得10000个细胞的细胞类型。
以下结合模拟实验,对本发明的技术效果进行描述。
一.仿真条件:
仿真实验的计算机硬件CPU为Intel Core(TM)i7、计算机硬件内存为16G;
计算机软件:WINDOWS 10系统上Rstudio集成开发软件。
二.仿真内容:
仿真1:用本发明与现有的3种方法Seurat,CIDR,SC3在5种不同细胞数量的单细胞转录组模拟数据中进行运行时间快慢的对比,结果如表1:
表1 4种方法在5种不同细胞数量的单细胞转录组模拟数据的运行时间表
Figure BDA0003041874630000061
从表1可以看出,本发明的运行时间都是最快的,并且随着数据量的增加,优势越明显,在10000个细胞数量时,已经为Seurat方法运行时间的一半,而SC3方法在5000,10000个细胞的时候,已经不能正常在计算机上运行了,CIDR方法在10000个细胞时也不能正常运行。
仿真2:用本发明与现有的3种方法Seurat,CIDR,SC3在4种单细胞转录组真实数据中进行准确性高低的对比,结果如表2:
表2 4种方法在4种单细胞转录组真实数据集中的准确性表
Figure BDA0003041874630000071
从表2可以看出,本发明在运行的准确性方面是仅次于SC3的方法,但从表1可知SC3方法的运行时间远远高过本发明,并且SC3方法需要人工给出聚类个数作为参数。

Claims (5)

1.大规模单细胞转录组数据高效聚类方法,其特征在于,包括如下:
(1)使用单细胞转录组测序技术对样本中的每一个细胞测量其基因表达值,产生单细胞转录组数据;
(2)对单细胞转录组数据中的基因进行特征选择,即从数据的基因中筛选出方差Si最大的前1000个基因作为高表达基因;
(3)按如下规则对单细胞转录组数据中的细胞进行随机分组:
当细胞数小于2000时,将所有细胞分为1组;
当细胞数大于2000而小于20000时,将2000个细胞分成一组,并在所有组内进行抽样,总共抽取2000个细胞;
当细胞数大于20000时,将2000个细胞分成一组,并在所有组内进行抽样,总共抽取1/10细胞数量的细胞;
(4)对分组后的细胞进行密度抽样:
(4a)对于每一组样本通过近似最近邻搜索算法HNSW查找近似k近邻,得到组内每个细胞的近似k近邻,并计算组内每个细胞到其近似k近邻距离之和SUMD(Ci),Ci为组内的细胞;
(4b)以组内每个细胞的近似k近邻距离和SUMD(Ci)作为抽样的概率,对每一组细胞进行概率抽样;
(4c)将每组样本中抽样出的细胞合并为一个新样本;
(5)按如下规则对抽出的新样本进行共享最近邻SNN构图:
(5a)通过近似最近邻查找,找出新样本中每个细胞的近似k近邻;
(5b)对新样本中的每个细胞C′i′查找与其拥有相同近邻的细胞C′j′,并在该细胞C′i′与细胞C′j′之间连接一条边E(C′i′,C′j′),构成共享最近邻SNN图;
(6)使用Louvain算法对共享最近邻SNN图进行聚类,得到抽样出细胞的细胞类型;
(7)对于剩下的未参与聚类的细胞,分别在已知标签的细胞中查找近似k近邻,k近邻中最多的那一类细胞的类型,即为未参与聚类的细胞类型。
2.根据权利要求1所述的方法,其特征在于,(2)中转录组数据中每个基因的方差Si,通过下式计算:
Figure FDA0003041874620000021
其中,
Figure FDA0003041874620000022
为第i个基因在数据中的平均值,
Figure FDA0003041874620000023
为第j个细胞的第i个基因的表达值,i,j∈[1,n],n为细胞数量。
3.根据权利要求1所述的方法,其特征在于,(4a)中计算组内每个细胞到其近似k近邻距离之和SUMD(Ci),通过下式计算:
Figure FDA0003041874620000024
其中Ci为组内的细胞,
Figure FDA0003041874620000025
为组内细胞Ci的第p近邻的细胞,
Figure FDA0003041874620000026
为第i个细胞Ci与其第p近邻细胞
Figure FDA0003041874620000027
的欧式距离。
4.根据权利要求1所述的方法,其特征在于,(5b)中在新样本中的第i个细胞C′i′与新样本中第j个细胞C′j′之间连接的一条边E(C′i′,C′j′),通过下式计算:
Figure FDA0003041874620000028
其中,
Figure FDA0003041874620000029
表示C′i′是C′j′的第几近邻,C′i′、C′j′分别为新样本中的第i个细胞和第j个细胞,i′,j′∈[1,n′],n′为新样本的细胞数量。
5.根据权利要求1所述的方法,其特征在于,(6)中使用Louvain算法对共享最近邻SNN图进行聚类,实现如下:
(6a)将共享最近邻SNN图中的每个细胞设为一类,此时图中有几个细胞即有几类;
(6b)通过下式计算共享最近邻SNN图的模块度Q:
Figure FDA0003041874620000031
其中m为图中边的总数量,wi′表示所有指向新样本中第i个细胞的连边权重之和,δ(C′i′,C′j′)为判别函数,并通过下式计算:
Figure FDA0003041874620000032
(6c)令第i个细胞不再属于自己的类型,变为与其细胞类型不同的细胞j的类型,计算细胞类型改变后的共享最近邻图SNN新的模块度Q′,并通过下式计算模块度增量ΔQ:
ΔQ=Q′-Q;
(6d)将细胞i的细胞类型划分到细胞类型改变后共享最近邻图SNN模块度增量ΔQ最大且大于0的那个细胞类型中去;
(6e)将同一类型的细胞聚合为一个细胞,返回(6a)进行迭代,直到共享最近邻SNN图中所有细胞的类型不再发生变化。
CN202110459530.2A 2021-04-27 2021-04-27 大规模单细胞转录组数据高效聚类方法 Active CN113178233B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110459530.2A CN113178233B (zh) 2021-04-27 2021-04-27 大规模单细胞转录组数据高效聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110459530.2A CN113178233B (zh) 2021-04-27 2021-04-27 大规模单细胞转录组数据高效聚类方法

Publications (2)

Publication Number Publication Date
CN113178233A true CN113178233A (zh) 2021-07-27
CN113178233B CN113178233B (zh) 2023-04-28

Family

ID=76926463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110459530.2A Active CN113178233B (zh) 2021-04-27 2021-04-27 大规模单细胞转录组数据高效聚类方法

Country Status (1)

Country Link
CN (1) CN113178233B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160253453A1 (en) * 2015-01-16 2016-09-01 University Of Virginia Patent Foundation Parameterizing Cell-to-Cell Regulatory Heterogeneities via Stochastic Transcriptional Profiles
CN110222745A (zh) * 2019-05-24 2019-09-10 中南大学 一种基于相似性学习及其增强的细胞类型鉴定方法
US20200005902A1 (en) * 2018-06-28 2020-01-02 10X Genomics, Inc. Systems and methods for visualization of single-cell resolution characteristics
CN110797089A (zh) * 2019-10-30 2020-02-14 华东交通大学 一种基于单细胞rna测序数据识别细胞类型的方法
CN110819706A (zh) * 2019-11-20 2020-02-21 苏州新格元生物科技有限公司 单细胞测序在免疫细胞分析中的应用
CN111243675A (zh) * 2020-01-07 2020-06-05 广州基迪奥生物科技有限公司 一种交互式细胞异质性分析可视化平台及其实现方法
CN111613268A (zh) * 2020-05-27 2020-09-01 中山大学 基于单细胞转录组数据的基因表达调控机制的确定方法
CN111755071A (zh) * 2019-03-29 2020-10-09 中国科学技术大学 基于峰聚类的单细胞染色质可及性测序数据分析方法和系统
CN111785329A (zh) * 2020-07-24 2020-10-16 中国人民解放军国防科技大学 基于对抗自动编码器的单细胞rna测序聚类方法
CN112133370A (zh) * 2020-08-20 2020-12-25 中南大学湘雅医院 细胞分类方法、装置、计算机设备和存储介质
CN112700820A (zh) * 2021-01-07 2021-04-23 广州华银健康医疗集团股份有限公司 一种基于单细胞转录组测序的细胞亚群注释方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160253453A1 (en) * 2015-01-16 2016-09-01 University Of Virginia Patent Foundation Parameterizing Cell-to-Cell Regulatory Heterogeneities via Stochastic Transcriptional Profiles
US20200005902A1 (en) * 2018-06-28 2020-01-02 10X Genomics, Inc. Systems and methods for visualization of single-cell resolution characteristics
CN111755071A (zh) * 2019-03-29 2020-10-09 中国科学技术大学 基于峰聚类的单细胞染色质可及性测序数据分析方法和系统
CN110222745A (zh) * 2019-05-24 2019-09-10 中南大学 一种基于相似性学习及其增强的细胞类型鉴定方法
CN110797089A (zh) * 2019-10-30 2020-02-14 华东交通大学 一种基于单细胞rna测序数据识别细胞类型的方法
CN110819706A (zh) * 2019-11-20 2020-02-21 苏州新格元生物科技有限公司 单细胞测序在免疫细胞分析中的应用
CN111243675A (zh) * 2020-01-07 2020-06-05 广州基迪奥生物科技有限公司 一种交互式细胞异质性分析可视化平台及其实现方法
CN111613268A (zh) * 2020-05-27 2020-09-01 中山大学 基于单细胞转录组数据的基因表达调控机制的确定方法
CN111785329A (zh) * 2020-07-24 2020-10-16 中国人民解放军国防科技大学 基于对抗自动编码器的单细胞rna测序聚类方法
CN112133370A (zh) * 2020-08-20 2020-12-25 中南大学湘雅医院 细胞分类方法、装置、计算机设备和存储介质
CN112700820A (zh) * 2021-01-07 2021-04-23 广州华银健康医疗集团股份有限公司 一种基于单细胞转录组测序的细胞亚群注释方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DEBAJYOTI SINHA ET AL: "dropClust: efficient clustering of ultra-large scRNA-seq data", 《NUCLEIC ACIDS RESEARCH》 *
QIANQIAN YUAN ET AL: "Cluster correlation based method for lncRNA-disease association prediction", 《BMC BIOINFORMATICS》 *
XIAOSHU ZHU ET AL: "Single‑Cell Clustering Based on Shared Nearest Neighbor and Graph Partitioning", 《INTERDISCIPLINARY SCIENCES: COMPUTATIONAL LIFE SCIENCES》 *
何睿 等: "基于单细胞RNA测序数据的细胞类型聚类算法", 《智能计算机与应用》 *
杨其跃: "面向单细胞RNA-seq数据的聚类方法研究", 《中国优秀硕士学位论文全文数据库基础科学辑》 *

Also Published As

Publication number Publication date
CN113178233B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
Witten Classification and clustering of sequencing data using a Poisson model
CN112232413B (zh) 基于图神经网络与谱聚类的高维数据特征选择方法
Sarmah et al. An effective technique for clustering incremental gene expression data
CN114091603A (zh) 一种空间转录组细胞聚类、分析方法
CN114496092A (zh) 基于图卷积网络的miRNA和疾病关联关系预测方法
CN114864003A (zh) 基于混合实验组和对照组单细胞样本的差异分析方法及系统
US20230352119A1 (en) Method and system for subsampling of cells from single-cell genomics dataset
Park et al. Evolutionary fuzzy clustering algorithm with knowledge-based evaluation and applications for gene expression profiling
Kundaje et al. Combining sequence and time series expression data to learn transcriptional modules
Chowdhury et al. UICPC: centrality-based clustering for scRNA-seq data analysis without user input
Zhou et al. A new method for classification in DNA sequence
To et al. A parallel genetic algorithm for single class pattern classification and its application for gene expression profiling in Streptomyces coelicolor
CN113178233B (zh) 大规模单细胞转录组数据高效聚类方法
CN115249538B (zh) 一种基于异构图生成对抗网络的lncRNA-疾病关联预测模型的构建方法
Lan et al. scIAC: clustering scATAC-seq data based on Student’s t-distribution similarity imputation and denoising autoencoder
Chiu et al. Ap-based consensus clustering for gene expression time series
CN115394348A (zh) 基于图卷积网络的lncRNA亚细胞定位预测方法、设备及介质
CN114694746A (zh) 基于改进的MRMD算法和DF模型的植物pri-miRNA编码肽预测方法
Wibowo et al. XGB5hmC: Identifier based on XGB model for RNA 5-hydroxymethylcytosine detection
Einipoura et al. FSPAM: a feature construction method to identifying cell populations in ScRNA-seq data
Newton Analysis of microarray gene expression data using machine learning techniques
CN113257365B (zh) 面向非标准化单细胞转录组测序数据的聚类方法及系统
AlRefaai et al. Classification of gene expression dataset for type 1 diabetes using machine learning methods
Costa et al. A symbolic approach to gene expression time series analysis
Chen et al. Gene ontology-based analysis of time series gene expression data using support vector machines

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant