CN113178233A - 大规模单细胞转录组数据高效聚类方法 - Google Patents
大规模单细胞转录组数据高效聚类方法 Download PDFInfo
- Publication number
- CN113178233A CN113178233A CN202110459530.2A CN202110459530A CN113178233A CN 113178233 A CN113178233 A CN 113178233A CN 202110459530 A CN202110459530 A CN 202110459530A CN 113178233 A CN113178233 A CN 113178233A
- Authority
- CN
- China
- Prior art keywords
- cell
- cells
- nearest neighbor
- group
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 24
- 238000005070 sampling Methods 0.000 claims abstract description 17
- 238000012216 screening Methods 0.000 claims abstract description 6
- CIWBSHSKHKDKBQ-JLAZNSOCSA-N Ascorbic acid Chemical compound OC[C@H](O)[C@H]1OC(=O)C(O)=C1O CIWBSHSKHKDKBQ-JLAZNSOCSA-N 0.000 claims description 12
- 230000014509 gene expression Effects 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000010845 search algorithm Methods 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 238000004088 simulation Methods 0.000 description 13
- RJKFOVLPORLFTN-LEKSSAKUSA-N Progesterone Chemical compound C1CC2=CC(=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H](C(=O)C)[C@@]1(C)CC2 RJKFOVLPORLFTN-LEKSSAKUSA-N 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 5
- 238000000513 principal component analysis Methods 0.000 description 4
- 238000007621 cluster analysis Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000003559 RNA-seq method Methods 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012174 single-cell RNA sequencing Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- General Physics & Mathematics (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种大规模单细胞转录组数据高效聚类方法,主要解决现有大规模聚类方法运行时间长,效率低,甚至不能正常运行的问题。其方案为:对大规模单细胞转录组数据的基因特征进行筛选,筛选出高表达的基因,初步降低细胞维度;对细胞进行密度抽样,使抽样出的一组新样本尽可能的包含更完整的细胞类型;对抽样出的新样本进行共享最近邻SNN构图图并使用Louvain算法对共享最近邻SNN图进行聚类,获得新样本中细胞的细胞类型;对于剩下的未参与聚类的细胞,分别在已知标签的细胞中查找近似k近邻,k近邻中最多的那一类细胞的类型,即为未参与聚类的细胞类型。本发明运行时间短,效率高,可用于大规模细胞类型识别,细胞轨迹推理。
Description
技术领域
本发明属于数据挖掘技术领域,具体涉及一种单细胞转录组聚类方法,可用于大规模细胞类型识别,细胞轨迹推理,基因差异表达。
背景技术
随着单细胞测序技术的发展和测序成本的下降,越来越多的大规模单细胞数据被产生。而对这些大规模高维的单细胞数据进行处理和分析是一个非常具有挑战性的工作。聚类分析是单细胞分析中最基础的一个步骤,聚类的准确率和效率对后续分析有很大的影响。
以往的单细胞聚类算法,由于当时数据量的限制,在设计算法时,并没有考虑到应用于大规模的数据,其主要是应用于小规模的单细胞数据集。当数据量提升时,其运行时间会大幅增加,效率是十分低的,甚至有的算法不能正常运行。
目前已经开发了一些专门的聚类算法来从单细胞RNA数据集中识别细胞的类型。
2015年Chen Xu等人在Bioinformatics上提出的单细胞聚类方法SNN-Cliq,是利用共享最近邻SNN的概念定义相似性并进行构图,之后使用一种基于准clique的聚类算法进行聚类。这个方法在高维度的单细胞基因表达数据集上,比传统方法更有优势,此外,它需要很少的输入参数,且能够自动确定聚类的个数。
2016年Justina Zurauskiene等人在BMC上提出了一个名为pcaReduce的聚类算法,它整合了主成分分析PCA和层次聚类方法,建立了主成分分析给出的降维后的表示和细胞聚类的数量之间的关系。
2017年Peijie Lin等人在Genome Biology上提出了一个名为CIDR的聚类算法,该算法通过插补以减少单细胞数据中dropout的影响,并且改进了PCA和层次聚类算法,在当时聚类精度方面优于当时最先进的算法,t-SNE,ZIFA和RaceID,CIDR通常在几秒钟内可以完成处理数百个细胞的数据集,几分钟内完成处理数千个细胞的数据集,这在当时可以说是最快的算法。
2017年Bo Wang等人在Nature Methods上提出的名为SIMLR的分析框架和软件,它主要的贡献是从单细胞RNA-seq数据中学习出一个合适的度量细胞间相似性的标准,有了这种相似性度量标准后,就可以进行后续的降维、聚类和可视化。
2017年Vladimir Yu.Kiselev等人在Nature Methods上提出了一个单细胞RNA测序数据的无监督聚类算法SC3。它是利用多个度量标准计算细胞之间的距离,构建距离矩阵后通过k-means聚类,再将多个距离度量标准得到的聚类结果通过CSPA进行一致聚类得到最终的聚类结果。通过一致聚类的方法将多个聚类结果组合到一起,从而得到高精度和鲁棒的聚类结果。但这个算法需要研究人员自己定义聚类个数,但在大多数情况下,研究人员并不能确切的知道需要聚几类。
2018年Debajyoti Sinha等人在Nucleic Acids Research上提出的名为dropClust的聚类算法。这个算法是利用局域敏感哈希技术,开发的一种适用于大规模单细胞RNA数据的聚类算法,其在运行时间和效率上显著优于其他聚类算法。
2018年Andrew Butler等人在Nature Biotechnology发表的Seurat工具,是现在单细胞分析中使用最广泛的工具之一,其中的聚类分析使用的是SNN-Cliq图聚类的改进版。
以上算法都是偏向于对小于40000个小规模细胞进行聚类,但是在现实中,细胞数量是远远大于40000,而这些算法在大于40000个大规模细胞的数据中均存在运行时间慢,效率低,甚至不能正常工作,即计算机不能正常运行的不足。
发明内容
本发明的目的在于克服上述现有技术的不足,提出一种大规模单细胞转录组数据高效聚类方法,以提高在大规模数据中运行时间和效率,并保证在对大规模数据进行聚类时,计算机能正常运行。
本发明的技术方案是:首先对单细胞转录组数据中的基因进行特征筛选,之后对单细胞转录组数据进行随机分组和密度抽样,接着对抽样出的新样本进行共享最近邻SNN构图,然后使用Louvain算法对图进行聚类,最后将聚类后的结果传播到未参与聚类的细胞。
其实现步骤包括如下:
(1)使用单细胞转录组测序技术对样本中的每一个细胞测量其基因表达值,产生单细胞转录组数据;
(2)对单细胞转录组数据中的基因进行特征选择,即从数据的基因中筛选出方差最大的前1000个基因作为高表达基因;
(3)按如下规则对单细胞转录组数据中的细胞进行随机分组:
当细胞数小于2000时,将所有细胞分为1组;
当细胞数大于2000而小于20000时,将2000个细胞分成一组,并在所有组内进行抽样,总共抽取2000个细胞;
当细胞数大于20000时,将2000个细胞分成一组,并在所有组内进行抽样,总共抽取1/10细胞数量的细胞;
(4)对分组后的细胞进行密度抽样:
(4a)对于每一组样本通过近似最近邻搜索算法HNSW查找近似k近邻,得到组内每个细胞的近似k近邻,并计算组内每个细胞到其近似k近邻距离之和SUMD(Ci),Ci为原始样本中的细胞;
(4b)以组内每个细胞的近似k近邻距离和SUMD(Ci)作为抽样的概率,对每一组细胞进行概率抽样;
(4c)将每组样本中抽样出的细胞合并为一个新样本;
(5)按如下规则对抽出的新样本进行共享最近邻SNN构图:
(5a)通过近似最近邻查找,找出新样本中每个细胞的近似k近邻;
(5b)对新样本中的每个细胞C′i′查找与其拥有相同近邻的细胞C′j′,并在该细胞C′i′与细胞C′j′之间连接一条边E(C′i′,C′j′),构成共享最近邻SNN图;
(6)使用Louvain算法对共享最近邻SNN图进行聚类,得到抽样出细胞的细胞类型;
(7)对于剩下的未参与聚类的细胞,分别在已知标签的细胞中查找近似k近邻,k近邻中最多的那一类细胞的类型,即为未参与聚类的细胞类型。
本发明与现有技术相比,具有如下优点:
1)本发明由于在聚类的时候进行了密度抽样,不用对所有数据进行处理,只对抽样出的细胞进行聚类,因而相比现有直接对所有细胞进行聚类的方法,不仅减少了运行的时间,而且对日后产生的更大的数据集也能高效的运行;
2)本发明由于使用了密度抽样,因而相比于随机抽样,选出来的细胞更加全面,即使某一类型的细胞数量很少,也有更大的概率被选中;
3)本发明由于在进行共享最近邻SNN图构建时使用近似最近邻搜索算法HNSW查找近似k近邻,因而相比传统的搜索k近邻的算法拥有更短的时间,更高的效率。
4)本发明由于在获取全部细胞类型时,是通过将已知的细胞类型传播到未参与聚类的细胞类型中去,因而相比直接对全部细胞进行聚类的方法更高效。
附图说明
图1为本发明的实现流程图。
具体实施方式
以下结合附图和具体实施例,对本发明作进一步详细说明。
本实施例以10000个细胞的单细胞转录组模拟数据为例。数据规模为10000细胞,30000个基因。
参照图1、本实例大规模单细胞转录组数据高效聚类方法,实现步骤如下:
步骤1,对单细胞转录组模拟数据的30000个基因进行特征筛选。
1.1)使用splatter软件包,生成10000个细胞,30000个基因的单细胞转录组模拟数据;
1.2)对单细胞转录组模拟数据中的30000个基因,通过如下公式计算每个基因的方差Si,
1.3)将方差最大的1000个基因作为筛选出的高表达基因。
步骤2,对单细胞转录组模拟数据的细胞进行随机分组。
将10000个细胞随机分为5组,即每2000个细胞为一组;
步骤3,对分组后的细胞进行密度抽样。
3.1)对每一组的2000个细胞,通过近似最近邻搜索算法HNSW查找近似10近邻,得到每个组内细胞的近似10近邻细胞,并通过下式计算组内每个细胞到其近似10近邻距离之和SUMD(Ci):
3.2)以每个细胞的近似10近邻之和SUMD(Ci)作为抽样的概率,对每一组细胞进行抽样,每组抽样出400个细胞,总共抽样出2000个细胞,作为新样本。
步骤4,对抽样出的2000个新样本进行共享近邻SNN构图。
对抽样出的2000个细胞通过近似最近邻查找,找出每个细胞的10近邻,并对新样本中的每个细胞C′i′查找与其拥有相同近邻的细胞C′j′,并在细胞C′i′与细胞C′j′之间连接一条边E(C′i′,C′j′),构成共享最近邻SNN图,该边通过下式计算:
步骤5,使用Louvain算法对共享最近邻SNN图进行聚类,得到新样本中2000个细胞的类型。
5.1)将共享最近邻SNN图中的每个细胞设为一类,此时图中有2000类;
5.2)通过下式计算共享最近邻SNN图的模块度Q:
其中,m为图中边的总数量,wi′表示所有指向新样本中第i个细胞的连边权重之和,δ(C′i′,C′j′)为判别函数,并通过下式计算:
5.3)令第i个细胞不再属于自己的类型,变为与其细胞类型不同的细胞j的类型,计算细胞类型改变后的共享最近邻图SNN新的模块度Q′,
其中,C″i′是改变细胞类型后的第i个细胞,δ(C″i′,C′j′)为新判别函数,并通过下式计算:
5.4)通过下式计算模块度增量ΔQ:
ΔQ=Q′-Q;
5.5)将细胞i的细胞类型划分到细胞类型改变后共享最近邻图SNN模块度增量ΔQ最大,且最大的ΔQ大于0的那个细胞类型中去,如果最大的ΔQ小于0,则细胞类型不改变;
5.6)将同一类型的细胞聚合为一个细胞,返回5.1)进行迭代,直到共享最近邻SNN图中所有细胞的类型不再发生变化。
步骤6,获得未参与聚类的8000个细胞的类型。
对于剩下的8000个未参与聚类的细胞,分别在已知标签的2000个细胞中查找近似10近邻,10近邻中最多的那一类细胞,即为该细胞的细胞类型。
本实例中,通过聚类获得10000个细胞的细胞类型。
以下结合模拟实验,对本发明的技术效果进行描述。
一.仿真条件:
仿真实验的计算机硬件CPU为Intel Core(TM)i7、计算机硬件内存为16G;
计算机软件:WINDOWS 10系统上Rstudio集成开发软件。
二.仿真内容:
仿真1:用本发明与现有的3种方法Seurat,CIDR,SC3在5种不同细胞数量的单细胞转录组模拟数据中进行运行时间快慢的对比,结果如表1:
表1 4种方法在5种不同细胞数量的单细胞转录组模拟数据的运行时间表
从表1可以看出,本发明的运行时间都是最快的,并且随着数据量的增加,优势越明显,在10000个细胞数量时,已经为Seurat方法运行时间的一半,而SC3方法在5000,10000个细胞的时候,已经不能正常在计算机上运行了,CIDR方法在10000个细胞时也不能正常运行。
仿真2:用本发明与现有的3种方法Seurat,CIDR,SC3在4种单细胞转录组真实数据中进行准确性高低的对比,结果如表2:
表2 4种方法在4种单细胞转录组真实数据集中的准确性表
从表2可以看出,本发明在运行的准确性方面是仅次于SC3的方法,但从表1可知SC3方法的运行时间远远高过本发明,并且SC3方法需要人工给出聚类个数作为参数。
Claims (5)
1.大规模单细胞转录组数据高效聚类方法,其特征在于,包括如下:
(1)使用单细胞转录组测序技术对样本中的每一个细胞测量其基因表达值,产生单细胞转录组数据;
(2)对单细胞转录组数据中的基因进行特征选择,即从数据的基因中筛选出方差Si最大的前1000个基因作为高表达基因;
(3)按如下规则对单细胞转录组数据中的细胞进行随机分组:
当细胞数小于2000时,将所有细胞分为1组;
当细胞数大于2000而小于20000时,将2000个细胞分成一组,并在所有组内进行抽样,总共抽取2000个细胞;
当细胞数大于20000时,将2000个细胞分成一组,并在所有组内进行抽样,总共抽取1/10细胞数量的细胞;
(4)对分组后的细胞进行密度抽样:
(4a)对于每一组样本通过近似最近邻搜索算法HNSW查找近似k近邻,得到组内每个细胞的近似k近邻,并计算组内每个细胞到其近似k近邻距离之和SUMD(Ci),Ci为组内的细胞;
(4b)以组内每个细胞的近似k近邻距离和SUMD(Ci)作为抽样的概率,对每一组细胞进行概率抽样;
(4c)将每组样本中抽样出的细胞合并为一个新样本;
(5)按如下规则对抽出的新样本进行共享最近邻SNN构图:
(5a)通过近似最近邻查找,找出新样本中每个细胞的近似k近邻;
(5b)对新样本中的每个细胞C′i′查找与其拥有相同近邻的细胞C′j′,并在该细胞C′i′与细胞C′j′之间连接一条边E(C′i′,C′j′),构成共享最近邻SNN图;
(6)使用Louvain算法对共享最近邻SNN图进行聚类,得到抽样出细胞的细胞类型;
(7)对于剩下的未参与聚类的细胞,分别在已知标签的细胞中查找近似k近邻,k近邻中最多的那一类细胞的类型,即为未参与聚类的细胞类型。
5.根据权利要求1所述的方法,其特征在于,(6)中使用Louvain算法对共享最近邻SNN图进行聚类,实现如下:
(6a)将共享最近邻SNN图中的每个细胞设为一类,此时图中有几个细胞即有几类;
(6b)通过下式计算共享最近邻SNN图的模块度Q:
其中m为图中边的总数量,wi′表示所有指向新样本中第i个细胞的连边权重之和,δ(C′i′,C′j′)为判别函数,并通过下式计算:
(6c)令第i个细胞不再属于自己的类型,变为与其细胞类型不同的细胞j的类型,计算细胞类型改变后的共享最近邻图SNN新的模块度Q′,并通过下式计算模块度增量ΔQ:
ΔQ=Q′-Q;
(6d)将细胞i的细胞类型划分到细胞类型改变后共享最近邻图SNN模块度增量ΔQ最大且大于0的那个细胞类型中去;
(6e)将同一类型的细胞聚合为一个细胞,返回(6a)进行迭代,直到共享最近邻SNN图中所有细胞的类型不再发生变化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110459530.2A CN113178233B (zh) | 2021-04-27 | 2021-04-27 | 大规模单细胞转录组数据高效聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110459530.2A CN113178233B (zh) | 2021-04-27 | 2021-04-27 | 大规模单细胞转录组数据高效聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113178233A true CN113178233A (zh) | 2021-07-27 |
CN113178233B CN113178233B (zh) | 2023-04-28 |
Family
ID=76926463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110459530.2A Active CN113178233B (zh) | 2021-04-27 | 2021-04-27 | 大规模单细胞转录组数据高效聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113178233B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160253453A1 (en) * | 2015-01-16 | 2016-09-01 | University Of Virginia Patent Foundation | Parameterizing Cell-to-Cell Regulatory Heterogeneities via Stochastic Transcriptional Profiles |
CN110222745A (zh) * | 2019-05-24 | 2019-09-10 | 中南大学 | 一种基于相似性学习及其增强的细胞类型鉴定方法 |
US20200005902A1 (en) * | 2018-06-28 | 2020-01-02 | 10X Genomics, Inc. | Systems and methods for visualization of single-cell resolution characteristics |
CN110797089A (zh) * | 2019-10-30 | 2020-02-14 | 华东交通大学 | 一种基于单细胞rna测序数据识别细胞类型的方法 |
CN110819706A (zh) * | 2019-11-20 | 2020-02-21 | 苏州新格元生物科技有限公司 | 单细胞测序在免疫细胞分析中的应用 |
CN111243675A (zh) * | 2020-01-07 | 2020-06-05 | 广州基迪奥生物科技有限公司 | 一种交互式细胞异质性分析可视化平台及其实现方法 |
CN111613268A (zh) * | 2020-05-27 | 2020-09-01 | 中山大学 | 基于单细胞转录组数据的基因表达调控机制的确定方法 |
CN111755071A (zh) * | 2019-03-29 | 2020-10-09 | 中国科学技术大学 | 基于峰聚类的单细胞染色质可及性测序数据分析方法和系统 |
CN111785329A (zh) * | 2020-07-24 | 2020-10-16 | 中国人民解放军国防科技大学 | 基于对抗自动编码器的单细胞rna测序聚类方法 |
CN112133370A (zh) * | 2020-08-20 | 2020-12-25 | 中南大学湘雅医院 | 细胞分类方法、装置、计算机设备和存储介质 |
CN112700820A (zh) * | 2021-01-07 | 2021-04-23 | 广州华银健康医疗集团股份有限公司 | 一种基于单细胞转录组测序的细胞亚群注释方法 |
-
2021
- 2021-04-27 CN CN202110459530.2A patent/CN113178233B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160253453A1 (en) * | 2015-01-16 | 2016-09-01 | University Of Virginia Patent Foundation | Parameterizing Cell-to-Cell Regulatory Heterogeneities via Stochastic Transcriptional Profiles |
US20200005902A1 (en) * | 2018-06-28 | 2020-01-02 | 10X Genomics, Inc. | Systems and methods for visualization of single-cell resolution characteristics |
CN111755071A (zh) * | 2019-03-29 | 2020-10-09 | 中国科学技术大学 | 基于峰聚类的单细胞染色质可及性测序数据分析方法和系统 |
CN110222745A (zh) * | 2019-05-24 | 2019-09-10 | 中南大学 | 一种基于相似性学习及其增强的细胞类型鉴定方法 |
CN110797089A (zh) * | 2019-10-30 | 2020-02-14 | 华东交通大学 | 一种基于单细胞rna测序数据识别细胞类型的方法 |
CN110819706A (zh) * | 2019-11-20 | 2020-02-21 | 苏州新格元生物科技有限公司 | 单细胞测序在免疫细胞分析中的应用 |
CN111243675A (zh) * | 2020-01-07 | 2020-06-05 | 广州基迪奥生物科技有限公司 | 一种交互式细胞异质性分析可视化平台及其实现方法 |
CN111613268A (zh) * | 2020-05-27 | 2020-09-01 | 中山大学 | 基于单细胞转录组数据的基因表达调控机制的确定方法 |
CN111785329A (zh) * | 2020-07-24 | 2020-10-16 | 中国人民解放军国防科技大学 | 基于对抗自动编码器的单细胞rna测序聚类方法 |
CN112133370A (zh) * | 2020-08-20 | 2020-12-25 | 中南大学湘雅医院 | 细胞分类方法、装置、计算机设备和存储介质 |
CN112700820A (zh) * | 2021-01-07 | 2021-04-23 | 广州华银健康医疗集团股份有限公司 | 一种基于单细胞转录组测序的细胞亚群注释方法 |
Non-Patent Citations (5)
Title |
---|
DEBAJYOTI SINHA ET AL: "dropClust: efficient clustering of ultra-large scRNA-seq data", 《NUCLEIC ACIDS RESEARCH》 * |
QIANQIAN YUAN ET AL: "Cluster correlation based method for lncRNA-disease association prediction", 《BMC BIOINFORMATICS》 * |
XIAOSHU ZHU ET AL: "Single‑Cell Clustering Based on Shared Nearest Neighbor and Graph Partitioning", 《INTERDISCIPLINARY SCIENCES: COMPUTATIONAL LIFE SCIENCES》 * |
何睿 等: "基于单细胞RNA测序数据的细胞类型聚类算法", 《智能计算机与应用》 * |
杨其跃: "面向单细胞RNA-seq数据的聚类方法研究", 《中国优秀硕士学位论文全文数据库基础科学辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113178233B (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Witten | Classification and clustering of sequencing data using a Poisson model | |
CN112232413B (zh) | 基于图神经网络与谱聚类的高维数据特征选择方法 | |
Sarmah et al. | An effective technique for clustering incremental gene expression data | |
CN114091603A (zh) | 一种空间转录组细胞聚类、分析方法 | |
CN114496092A (zh) | 基于图卷积网络的miRNA和疾病关联关系预测方法 | |
CN114864003A (zh) | 基于混合实验组和对照组单细胞样本的差异分析方法及系统 | |
US20230352119A1 (en) | Method and system for subsampling of cells from single-cell genomics dataset | |
Park et al. | Evolutionary fuzzy clustering algorithm with knowledge-based evaluation and applications for gene expression profiling | |
Kundaje et al. | Combining sequence and time series expression data to learn transcriptional modules | |
Chowdhury et al. | UICPC: centrality-based clustering for scRNA-seq data analysis without user input | |
Zhou et al. | A new method for classification in DNA sequence | |
To et al. | A parallel genetic algorithm for single class pattern classification and its application for gene expression profiling in Streptomyces coelicolor | |
CN113178233B (zh) | 大规模单细胞转录组数据高效聚类方法 | |
CN115249538B (zh) | 一种基于异构图生成对抗网络的lncRNA-疾病关联预测模型的构建方法 | |
Lan et al. | scIAC: clustering scATAC-seq data based on Student’s t-distribution similarity imputation and denoising autoencoder | |
Chiu et al. | Ap-based consensus clustering for gene expression time series | |
CN115394348A (zh) | 基于图卷积网络的lncRNA亚细胞定位预测方法、设备及介质 | |
CN114694746A (zh) | 基于改进的MRMD算法和DF模型的植物pri-miRNA编码肽预测方法 | |
Wibowo et al. | XGB5hmC: Identifier based on XGB model for RNA 5-hydroxymethylcytosine detection | |
Einipoura et al. | FSPAM: a feature construction method to identifying cell populations in ScRNA-seq data | |
Newton | Analysis of microarray gene expression data using machine learning techniques | |
CN113257365B (zh) | 面向非标准化单细胞转录组测序数据的聚类方法及系统 | |
AlRefaai et al. | Classification of gene expression dataset for type 1 diabetes using machine learning methods | |
Costa et al. | A symbolic approach to gene expression time series analysis | |
Chen et al. | Gene ontology-based analysis of time series gene expression data using support vector machines |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |