CN113257365B - 面向非标准化单细胞转录组测序数据的聚类方法及系统 - Google Patents

面向非标准化单细胞转录组测序数据的聚类方法及系统 Download PDF

Info

Publication number
CN113257365B
CN113257365B CN202110579883.6A CN202110579883A CN113257365B CN 113257365 B CN113257365 B CN 113257365B CN 202110579883 A CN202110579883 A CN 202110579883A CN 113257365 B CN113257365 B CN 113257365B
Authority
CN
China
Prior art keywords
clustering
sequencing data
cell transcriptome
spearman
transcriptome sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110579883.6A
Other languages
English (en)
Other versions
CN113257365A (zh
Inventor
刘健
潘逸辰
陈娇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Original Assignee
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University filed Critical Nankai University
Priority to CN202110579883.6A priority Critical patent/CN113257365B/zh
Publication of CN113257365A publication Critical patent/CN113257365A/zh
Application granted granted Critical
Publication of CN113257365B publication Critical patent/CN113257365B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本公开提供了一种面向非标准化单细胞转录组测序数据的聚类方法及系统,获取单细胞转录组测序数据;对获取的测序数据进行预处理;对预处理后的测序数据进行降维和聚类处理,得到聚类结果;将聚类结果根据Spearman相关性由小到大或由大到小排列,从Spearman相关性变化最大的间隙处删除Spearman相关性小的聚类结果;取删除处理后的各个聚类结果的等价关系矩阵平均值进行层次聚类得到最终的聚类结果;本公开在聚类融合阶段前,使得参与聚类融合的聚类结果中和其它聚类结果差距较大的异常聚类结果被剔除,从而提升了聚类融合的性能。

Description

面向非标准化单细胞转录组测序数据的聚类方法及系统
技术领域
本公开涉及生物细胞处理技术领域,特别涉及一种面向非标准化单细胞转录组测序数据的聚类方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术,并不必然构成现有技术。
单细胞测序技术被广泛地用于发现细胞间的分化关系和不同类别细胞基因表达差异等实际研究中,这些单细胞测序技术的下游分析往往将对细胞的无监督聚类作为基础。
发明人发现,传统的基于聚类融合的单细胞转录组测序数据聚类方法在生成参与聚类融合的聚类结果集时引入较多不佳的聚类结果,使得最终的聚类结果不准确。
发明内容
为了解决现有技术的不足,本公开提供了一种面向非标准化单细胞转录组测序数据的聚类方法及系统,在聚类融合阶段前,使得参与聚类融合的聚类结果中和其它聚类结果差距较大的异常聚类结果被剔除,从而提升了聚类融合的性能。
为了实现上述目的,本公开采用如下技术方案:
本公开第一方面提供了一种面向非标准化单细胞转录组测序数据的聚类方法。
一种面向非标准化单细胞转录组测序数据的聚类方法,包括以下过程:
获取单细胞转录组测序数据;
对获取的测序数据进行预处理;
对预处理后的测序数据进行降维和聚类处理,得到聚类结果;
将聚类结果根据Spearman相关性由小到大或由大到小排列,从Spearman相关性变化最大的间隙处删除Spearman相关性小的聚类结果;
取删除处理后的各个聚类结果的等价关系矩阵平均值进行层次聚类得到最终的聚类结果。
进一步的,对预设范围内的每个目标维度数,得到对应的降维结果,对每一个降维结果,使用K-Means算法得到一个聚类结果。
进一步的,根据得到的聚类结果构建拉普拉斯矩阵,提取拉普拉斯矩阵的特征值,每一个特征值作为一个聚类结果的一个坐标,计算某一聚类结果的对应坐标与所有特征值序列号的Spearman相关性。
进一步的,层次聚类包括:每次找出距离最小的两个元素分到一类,此后将这两个元素看作一个元素,与其余元素计算距离时计算距离的平均值,使得元素不断聚合,直到剩余预设类。
进一步的,对获取的测序数据进行预处理,包括:
测序数据以矩阵的方式存储,选择变异系数大于预设值的基因数据。
进一步的,利用UMAP预处理后的测序数据进行降维。
进一步的,Spearman相关性包括:将两个欲计算Spearman相关性的序列转化为序数的排列,使得数列对应位置为数值的序数。
本公开第二方面提供了一种面向非标准化单细胞转录组测序数据的聚类系统。
一种面向非标准化单细胞转录组测序数据的聚类系统,包括:
数据获取模块,被配置为:获取单细胞转录组测序数据;
预处理模块,被配置为:对获取的测序数据进行预处理;
初步聚类模块,被配置为:对预处理后的测序数据进行降维和聚类处理,得到聚类结果;
聚类剔除模块,被配置为:将聚类结果根据Spearman相关性由小到大或由大到小排列,从Spearman相关性变化最大的间隙处删除Spearman相关性小的聚类结果;
层次聚类模块,被配置为:取删除处理后的各个聚类结果的等价关系矩阵平均值进行层次聚类得到最终的聚类结果。
本公开第三方面提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本公开第一方面所述的面向非标准化单细胞转录组测序数据的聚类方法中的步骤。
本公开第四方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开第一方面所述的面向非标准化单细胞转录组测序数据的聚类方法中的步骤。
与现有技术相比,本公开的有益效果是:
1、本公开所述的方法、系统、介质或电子设备,在聚类融合阶段前,使得参与聚类融合的聚类结果中和其它聚类结果差距较大的异常聚类结果被剔除,从而提升了聚类融合的性能。
2、本公开所述的方法、系统、介质或电子设备,将等价关系矩阵的平均值进行层次聚类得到最后结果,层次聚类为每次找出距离最小的两个元素分到一类,此后将这两个元素看作一个元素,与其余元素计算距离时计算距离的平均值,如此使得元素不断聚合,直到剩余预设类,进一步的提高了聚类的准确性。
本公开附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开实施例1提供的面向非标准化单细胞转录组测序数据的聚类方法的流程示意图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
实施例1:
如图1所示,本公开实施例1提供了一种面向非标准化单细胞转录组测序数据的聚类方法,包括以下过程:
S1:单细胞RNA测序数据以一个矩阵的方式存储,矩阵的两个维度分别代表细胞和基因,矩阵值代表一个基因在一个细胞中的表达量。
在获得输入矩阵后,首先挑选在细胞间差异表达的基因进行后续分析,具体来说选择变异系数(均值除方差)较高的部分基因。
S1:利用UMAP对S1中处理后的矩阵进行降维分析。
在高维部分,采用如下公式建模细胞间的相似度:
Figure BDA0003085665050000051
其中,ρi是和i最近的数据点的距离,d可以是任何满足对称性,非负性,自反性,三角不等式的广义上的距离。
在低维部分使用曲线族来建模低维部分的相似度:
qij=(1+a(yi-yj)2b)-1
其中,a,b的推荐值是1.93与0.79。
高维部分概率对称化为:
pij=pi|j+pj|i-pi|jpj|i
先根据用户输入的邻居节点数来用二分法拟合σi,使得
Figure BDA0003085665050000052
和节点数尽可能接近;此后,根据带指数衰减的动量项的梯度下降法来优化概率分布p和q之间的KL散度。
降维的目标维度数是细胞数的4%到7%之间,对这一范围的每一个目标维度数,使用UMAP获得一个降维结果。
S3:对于上述的每一个降维结果,使用k-means算法得到一个聚类结果,这里k值需要由使用者给出。所谓k-means算法,即首先随机选出k个样本,作为聚类中心,将剩余样本按距离远近分配给这k个聚类中心,得到k个聚类,由这些聚类重新更新聚类中心,重复上述过程,直到收敛。
S4:对上述k-means算法得到的一组聚类结果首先根据如下公式得到拉普拉斯矩阵L:
ci=第i个聚类结果
aij=ARI(ci,cj)
Figure BDA0003085665050000061
Si=A第i行的和
D=diag(s1,s2,s3,…)
Figure BDA0003085665050000062
此后,对L计算特征值,如此每一个特征值都是分配给一个聚类结果的一个坐标(x1,x2,…,xn)。
计算这个坐标和1,2,..,n的Spearman的相关性,称为VI(Validity Index),Spearman相关性,是指将两个欲计算Spearman相关性的序列转化为序数的排列,使得数列对应位置不再是数值而是数值的序数,设a,b转化后数列为a’与b’,数列长度为n,则:
Figure BDA0003085665050000063
将聚类结果根据VI由小到大排列,从VI变化最大的间隙处删去VI小的聚类结果。
S5:此后,每个聚类结果对应一个诱导出的等价关系矩阵,取这些矩阵的平均值进行层次聚类得到最后结果。层次聚类即每次找出距离最小的两个元素分到一类,此后将这两个元素看作一个元素,与其余元素计算距离时计算距离的平均值,如此使得元素不断聚合,直到剩余预设类。
实施例2:
本公开实施例2提供了一种面向非标准化单细胞转录组测序数据的聚类系统,包括:
数据获取模块,被配置为:获取单细胞转录组测序数据;
预处理模块,被配置为:对获取的测序数据进行预处理;
初步聚类模块,被配置为:对预处理后的测序数据进行降维和聚类处理,得到聚类结果;
聚类剔除模块,被配置为:将聚类结果根据Spearman相关性由小到大或由大到小排列,从Spearman相关性变化最大的间隙处删除Spearman相关性小的聚类结果;
层次聚类模块,被配置为:取删除处理后的各个聚类结果的等价关系矩阵平均值进行层次聚类得到最终的聚类结果。
所述系统的工作方法与实施例1提供的面向非标准化单细胞转录组测序数据的聚类方法相同,这里不再赘述。
实施例3:
本公开实施例3提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本公开实施例1所述的面向非标准化单细胞转录组测序数据的聚类方法中的步骤。
实施例4:
本公开实施例4提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开实施例1所述的面向非标准化单细胞转录组测序数据的聚类方法中的步骤。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种面向非标准化单细胞转录组测序数据的聚类方法,其特征在于:包括以下过程:
获取单细胞转录组测序数据;
对获取的测序数据进行预处理;
对预处理后的测序数据进行降维和聚类处理,得到聚类结果;
将聚类结果根据Spearman相关性由小到大或由大到小排列,从Spearman相关性变化最大的间隙处删除Spearman相关性小的聚类结果;
取删除处理后的各个聚类结果的等价关系矩阵平均值进行层次聚类得到最终的聚类结果。
2.如权利要求1所述的面向非标准化单细胞转录组测序数据的聚类方法,其特征在于:
对预设范围内的每个目标维度数,得到对应的降维结果,对每一个降维结果,使用K-Means算法得到一个聚类结果。
3.如权利要求1所述的面向非标准化单细胞转录组测序数据的聚类方法,其特征在于:
根据得到的聚类结果构建拉普拉斯矩阵,提取拉普拉斯矩阵的特征值,每一个特征值作为一个聚类结果的一个坐标,计算某一聚类结果的对应坐标与所有特征值序列号的Spearman相关性。
4.如权利要求1所述的面向非标准化单细胞转录组测序数据的聚类方法,其特征在于:
层次聚类包括:每次找出距离最小的两个元素分到一类,此后将这两个元素看作一个元素,与其余元素计算距离时计算距离的平均值,使得元素不断聚合,直到剩余预设类。
5.如权利要求1所述的面向非标准化单细胞转录组测序数据的聚类方法,其特征在于:
对获取的测序数据进行预处理,包括:
测序数据以矩阵的方式存储,选择变异系数大于预设值的基因数据。
6.如权利要求1所述的面向非标准化单细胞转录组测序数据的聚类方法,其特征在于:
利用UMAP预处理后的测序数据进行降维。
7.如权利要求1所述的面向非标准化单细胞转录组测序数据的聚类方法,其特征在于:
Spearman相关性包括:将两个欲计算Spearman相关性的序列转化为序数的排列,使得数列对应位置为数值的序数。
8.一种面向非标准化单细胞转录组测序数据的聚类系统,其特征在于:包括:
数据获取模块,被配置为:获取单细胞转录组测序数据;
预处理模块,被配置为:对获取的测序数据进行预处理;
初步聚类模块,被配置为:对预处理后的测序数据进行降维和聚类处理,得到聚类结果;
聚类剔除模块,被配置为:将聚类结果根据Spearman相关性由小到大或由大到小排列,从Spearman相关性变化最大的间隙处删除Spearman相关性小的聚类结果;
层次聚类模块,被配置为:取删除处理后的各个聚类结果的等价关系矩阵平均值进行层次聚类得到最终的聚类结果。
9.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的面向非标准化单细胞转录组测序数据的聚类方法中的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的面向非标准化单细胞转录组测序数据的聚类方法中的步骤。
CN202110579883.6A 2021-05-26 2021-05-26 面向非标准化单细胞转录组测序数据的聚类方法及系统 Active CN113257365B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110579883.6A CN113257365B (zh) 2021-05-26 2021-05-26 面向非标准化单细胞转录组测序数据的聚类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110579883.6A CN113257365B (zh) 2021-05-26 2021-05-26 面向非标准化单细胞转录组测序数据的聚类方法及系统

Publications (2)

Publication Number Publication Date
CN113257365A CN113257365A (zh) 2021-08-13
CN113257365B true CN113257365B (zh) 2022-07-12

Family

ID=77184694

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110579883.6A Active CN113257365B (zh) 2021-05-26 2021-05-26 面向非标准化单细胞转录组测序数据的聚类方法及系统

Country Status (1)

Country Link
CN (1) CN113257365B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110827921A (zh) * 2019-11-12 2020-02-21 玉林师范学院 一种单细胞聚类方法、装置、电子设备及存储介质
CN112270953A (zh) * 2020-10-29 2021-01-26 哈尔滨因极科技有限公司 基于bd单细胞转录组测序数据的分析方法、装置及设备
CN112831552A (zh) * 2019-11-25 2021-05-25 清华大学 单细胞转录组与翻译组联合测序的多组学方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109115908B (zh) * 2018-08-30 2021-07-20 北京工商大学 基于层次聚类提取特征的切达奶酪身份的判别标识方法
CN111292807B (zh) * 2018-12-06 2021-10-08 新格元(南京)生物科技有限公司 一种单细胞转录组数据中分析双细胞的方法
US20200370112A1 (en) * 2019-05-23 2020-11-26 The Board Of Trustees Of The Leland Stanford Junior University Methods utilizing single cell genetic data for cell population analysis and applications thereof
CN110390358A (zh) * 2019-07-23 2019-10-29 杨勇 一种基于特征聚类的深度学习方法
CN110647943B (zh) * 2019-09-26 2023-06-30 西北工业大学 基于演化数据聚类分析的切削刀具磨损监测方法
CN112098772A (zh) * 2020-08-17 2020-12-18 国网安徽省电力有限公司铜陵供电公司 一种配电网线变关系异常识别判定方法
CN112750502B (zh) * 2021-01-18 2022-04-15 中南大学 二维分布结构判定的单细胞转录组测序数据聚类推荐方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110827921A (zh) * 2019-11-12 2020-02-21 玉林师范学院 一种单细胞聚类方法、装置、电子设备及存储介质
CN112831552A (zh) * 2019-11-25 2021-05-25 清华大学 单细胞转录组与翻译组联合测序的多组学方法
CN112270953A (zh) * 2020-10-29 2021-01-26 哈尔滨因极科技有限公司 基于bd单细胞转录组测序数据的分析方法、装置及设备

Also Published As

Publication number Publication date
CN113257365A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
Jabeen et al. Machine learning-based state-of-the-art methods for the classification of rna-seq data
CN113257364B (zh) 基于多目标进化的单细胞转录组测序数据聚类方法及系统
CN114496092B (zh) 基于图卷积网络的miRNA和疾病关联关系预测方法
CN114091603A (zh) 一种空间转录组细胞聚类、分析方法
CN112735536A (zh) 一种基于子空间随机化单细胞集成聚类方法
CN116523320A (zh) 基于互联网大数据的知识产权风险智能分析方法
Blumberg et al. MREC: a fast and versatile framework for aligning and matching point clouds with applications to single cell molecular data
CN116401555A (zh) 双胞识别模型的构建方法、系统及存储介质
CN116386729A (zh) 一种基于图神经网络的scRNA-seq数据降维方法
CN113257365B (zh) 面向非标准化单细胞转录组测序数据的聚类方法及系统
CN112738724B (zh) 一种区域目标人群的精准识别方法、装置、设备和介质
Chowdhury et al. UICPC: centrality-based clustering for scRNA-seq data analysis without user input
CN112967755A (zh) 一种面向单细胞rna测序数据的细胞类型识别方法
Bagyamani et al. Biological significance of gene expression data using similarity based biclustering algorithm
Sun et al. Deep generative autoencoder for low-dimensional embeding extraction from single-cell RNAseq data
JP2023546645A (ja) シングルセルゲノミクスデータセットからの細胞のサブサンプリング方法及びシステム
Saha et al. Unsupervised and supervised learning approaches together for microarray analysis
CN113780334A (zh) 基于两阶段混合特征选择的高维数据分类方法
Einipoura et al. FSPAM: a feature construction method to identifying cell populations in ScRNA-seq data
Bustamam et al. Implementation of spectral clustering on microarray data of carcinoma using self organizing map (SOM)
CN110472690B (zh) 基于自适应模糊聚类的热电工业数据异常检测方法及系统
CN110766087A (zh) 一种基于离差最大化法改进k-means的提高数据聚类质量的方法
CN114140635B (zh) 自表示学习监督的非负矩阵分解方法
Min et al. Structured sparse non-negative matrix factorization with L20-norm for scRNA-seq data analysis
CN116844649B (zh) 一种可解释的基于基因选择的细胞数据分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant