CN115577273A - 基于对比学习的单细胞数据聚类方法、装置、设备及介质 - Google Patents

基于对比学习的单细胞数据聚类方法、装置、设备及介质 Download PDF

Info

Publication number
CN115577273A
CN115577273A CN202210970095.4A CN202210970095A CN115577273A CN 115577273 A CN115577273 A CN 115577273A CN 202210970095 A CN202210970095 A CN 202210970095A CN 115577273 A CN115577273 A CN 115577273A
Authority
CN
China
Prior art keywords
single cell
cell data
clustered
cluster
contrast
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210970095.4A
Other languages
English (en)
Other versions
CN115577273B (zh
Inventor
李君一
杜林林
韩睿
王轩
刘洋
漆舒汉
吴宇琳
姚霖
刘博�
王亚东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202210970095.4A priority Critical patent/CN115577273B/zh
Publication of CN115577273A publication Critical patent/CN115577273A/zh
Application granted granted Critical
Publication of CN115577273B publication Critical patent/CN115577273B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种基于对比学习的单细胞数据聚类方法、装置、设备及存储介质,该方法包括:通过预先构建的特征提取模块确定待聚类单细胞数据的正视图对并提取所述正视图对的特征;通过预先构建的对比学习模型将所述特征进行对比学习,获得所述待聚类单细胞数据的高阶表示,并对所述高阶表示进行聚类分析以获得所述待聚类单细胞数据的聚类分析结果。如此,通过特征提取、对比学习获得了待聚类单细胞数据的高阶表示,解决了当前单细胞测序数据高维稀疏、种群间不平衡以及测序过程经常发生drop‑out事件的问题。

Description

基于对比学习的单细胞数据聚类方法、装置、设备及介质
技术领域
本申请涉及机器学习技术领域,尤其涉及一种基于对比学习的单细胞数据聚类方法、装置、设备及存储介质。
背景技术
单细胞核糖核酸测序(single cell ribonucleic acid sequencing,scRNA-seq)技术在过去几年中迅速发展,为识别和表征细胞类型、状态和功能做出了重要贡献。单细胞RNA测序技术可以在一次实验中同时检测数千到上万个细胞的转录状态,因此对生物学研究具有重要意义。单细胞RNA测序技术能够识别罕见的细胞类型、新的细胞状态以及细胞间通讯网络,这一技术的应用领域已经从胚胎发育不断扩展向细胞谱系重构、稀有细胞类群的鉴定、神经系统、免疫系统以及肿瘤等多个方面。聚类是分析单细胞RNA测序数据的一种非常强大的方法,单细胞RNA测序实验通常能够生成包含数千甚至数万个细胞的全基因组表达测量。单细胞RNA测序数据的一个重要特征是一种被称为“drop-out”的现象,即在同一细胞类型的细胞中,可能在该细胞的某些细胞中检测到一个基因处于低或中等表达水平,但在这种细胞的剩余细胞中没有检测到。这种drop-out事件通常是由于mRNA表达具有随机性以及单个细胞中mRNA含量低、mRNA捕获效率低导致的。受drop-out事件的影响,单细胞RNA测序数据通常是高维稀疏的。由于单细胞RNA测序数据通常具有高维稀疏性、稀有种群和丰富种群之间的大小不平衡,以及测序过程中频繁发生的drop-out事件引入的大量技术噪声,因此单细胞转录组数据的聚类分析仍然非常具有挑战性。
当前学者们从不同的角度提出了细胞数据聚类分析方法,许多方法会通过假设单细胞数据服从特定的分布进而对单细胞数据进行去噪或基因插补,这可能会消除掉一些有意义的生物学变异并且导致聚类性能下降。随着scRNA-seq技术的发展,细胞数量也随之快速增长,因此要求算法在取得较好的泛化能力的同时尽可能的节省时空开销以应用于大型数据集上。
发明内容
本申请提供一种基于对比学习的单细胞数据聚类方法、装置、设备及存储介质,旨在解决当前单细胞测序数据高维稀疏、种群间不平衡以及测序过程经常发生drop-out事件的问题。
为实现上述目的,本申请提供一种基于对比学习的单细胞数据聚类方法,所述方法应用于对比学习的单细胞数据聚类设备,所述方法包括:
通过预先构建的特征提取模块确定待聚类单细胞数据的正视图对并提取所述正视图对的特征;
通过预先构建的对比学习模型将所述特征进行对比学习,获得所述待聚类单细胞数据的高阶表示,并对所述高阶表示进行聚类分析以获得所述待聚类单细胞数据的聚类分析结果。
可选地,所述特征提取模块包括数据增强单元和动量编码器,所述通过预先构建的特征提取模块确定待聚类单细胞数据的正视图对并提取所述正视图对的特征包括:
通过数据增强单元对所述待聚类单细胞数据进行两次随机数据增强,生成正视图对;
通过所述动量编码器提取所述正视图对的特征。
可选地,所述动量编码器包括第一编码器和第二编码器,所述第一编码器与所述第二编码器结构相同,参数不同;
所述通过所述动量编码器提取所述正视图对的特征包括:
通过所述第一编码器提取所述正视图对的第一特征;
通过所述第二编码器提取所述正视图对的第二特征。
可选地,在所述通过预先构建的对比学习模型将所述特征进行对比学习,获得所述待聚类单细胞数据的高阶表示之前,还包括:
构建学习行空间特征的实例级对比学习模型;和
构建学习列空间特征的集群级对比学习模型。
可选地,所述构建学习行空间特征的实例级对比学习模型包括:
通过多层感知机将行空间的单细胞样本数据的特征映射到潜在空间中;
计算所述单细胞样本数据的特征的余弦相似度;
基于所述余弦相似度确定所述特征的对比损失,并确定实例级对比学习模型的实例级损失函数,基于所述实例级损失函数确定所述实例级对比学习模型收敛。
可选地,所述构建学习列空间特征的集群级对比学习模型包括:
通过多层感知机将列空间的单细胞样本的数据特征映射到M维空间中;
通过余弦相似度衡量两个单细胞样本数据间的相似度;
遍历所有集群确定集群级对比学习模型的集群级损失函数,基于所述集群级损失函数确定所述集群级对比学习模型收敛。
可选地,所述构建学习列空间特征的集群级对比学习模型,还包括:
在所述集群级损失函数中添加集群分配概率交叉熵。
本申请还提出一种基于对比学习的单细胞数据聚类装置,所述装置包括:
特征提取模块,用于通过预先构建的特征提取模块确定待聚类单细胞数据的正视图对并提取所述正视图对的特征;
对比学习模块,用于通过预先构建的对比学习模型将所述特征进行对比学习,获得所述待聚类单细胞数据的高阶表示,并对所述高阶表示进行聚类分析以获得所述待聚类单细胞数据的聚类分析结果。
本申请还提出一种电子设备,包括存储器、处理器以及存储在所述存储器上的对比学习的单细胞数据聚类程序,所述对比学习的单细胞数据聚类程序被所述处理器运行时实现如上所述的方法的步骤。
本申请还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有对比学习的单细胞数据聚类程序,所述对比学习的单细胞数据聚类程序被处理器运行时实现如上所述的方法的步骤。
相比现有技术,本申请提出的一种基于对比学习的单细胞数据聚类方法、装置、设备及存储介质,该方法包括:通过预先构建的特征提取模块确定待聚类单细胞数据的正视图对并提取所述正视图对的特征;通过预先构建的对比学习模型将所述特征进行对比学习,获得所述待聚类单细胞数据的高阶表示,并对所述高阶表示进行聚类分析以获得所述待聚类单细胞数据的聚类分析结果。如此,通过特征提取、对比学习获得了待聚类单细胞数据的高阶表示,解决了当前单细胞测序数据高维稀疏、种群间不平衡以及测序过程经常发生drop-out事件的问题。
附图说明
图1是本申请本申请各实施例涉及的设备的硬件结构示意图
图2是本申请对比学习的单细胞数据聚类方法第一实施例的流程示意图;
图3是本申请对比学习的单细胞数据聚类方法一实施例涉及的模型结构示意图;
图4是本申请对比学习的单细胞数据聚类方法第二实施例的流程示意图;
图5是本申请基于对比学习的单细胞数据聚类装置第一实施例的功能模块示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例主要涉及的电子设备是指能够实现网络连接的网络连接设备,所述电子设备可以是服务器、云平台等。
参照图1,图1是本申请各实施例涉及的电子设备的硬件结构示意图。本申请实施例中,电子设备可以包括处理器1001(例如中央处理器Central Processing Unit、CPU),通信总线1002,输入端口1003,输出端口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信;输入端口1003用于数据输入;输出端口1004用于数据输出,存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器,存储器1005可选的还可以是独立于前述处理器1001的存储装置。本领域技术人员可以理解,图1中示出的硬件结构并不构成对本申请的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
继续参照图1,图1中作为一种可读存储介质的存储器1005可以包括操作系统、网络通信模块、应用程序模块以及电子程序。在图1中,网络通信模块主要用于连接服务器,与服务器进行数据通信;而处理器1001用于调用存储器1005中存储的对比学习的单细胞数据聚类程序程序,并执行如下操作:
通过预先构建的特征提取模块确定待聚类单细胞数据的正视图对并提取所述正视图对的特征;
通过预先构建的对比学习模型将所述特征进行对比学习,获得所述待聚类单细胞数据的高阶表示,并对所述高阶表示进行聚类分析以获得所述待聚类单细胞数据的聚类分析结果。
基于上述电子设备提出本申请对比学习的单细胞数据聚类方法第一实施例。请参照图2,图2是本申请电子方法第一实施例的流程示意图。
如图2所示,本申请第一实施例提出一种基于对比学习的单细胞数据聚类方法,所述方法包括:
步骤S101,通过预先构建的特征提取模块确定待聚类单细胞数据的正视图对并提取所述正视图对的特征;
特征提取模块包括数据增强单元和动量编码器,特征的提取过程包括:
通过数据增强单元对所述待聚类单细胞数据进行两次随机数据增强,生成正视图对;
通过所述动量编码器提取所述正视图对的特征。
值得说明的是,本实施例中可以将待聚类单细胞数据一次性或分批次进行特征提取,并对比学习,使之在面对大型数据集时也可以高效运转,从而适用于各种场景。
对比学习通常伴随着数据增强。然而,由于单细胞数据的特殊性,其他领域的一些数据增强方法无法直接应用于单细胞数据,因此目前能够应用于单细胞数据的数据增强方法相对简单。本实施例选用的数据增强方法是以概率对每个单细胞进行随机的掩盖(即随机地将单细胞的部分基因的表达值设置为0)后添加一定的高斯噪声,其中对基因表达值进行掩盖是通过drop-out神经网络层实现的。
对比学习的目的是通过最大化正视图对之间的相似性,同时最小化负视图对之间的相似性来使相似的样本之间的距离更小,而不相似的样本之间的距离更大。实际上,正负视图对可以有不同的定义方式,例如,可以将同一类中的样本定义为正,将不属于同一类的样本定义为负。由于本实施例将同一个单细胞数据经过两次随机的数据增强生成的两个视图视为正视图对,而其余单细胞数据构成负视图对。
具体地说,对于每一个待聚类单细胞数据进行两次随机的数据增强得到
Figure BDA0003796221900000051
Figure BDA0003796221900000052
这两个视图将被视为正视图对,剩余的视图对则被视为负视图对。
所述动量编码器包括第一编码器fq和第二编码器fk,所述第一编码器fq与所述第二编码器fk结构相同,参数不同;
所述通过所述动量编码器提取所述正视图对的特征包括:
通过所述第一编码器fq提取所述正视图对的第一特征;
通过所述第二编码器fk提取所述正视图对的第二特征。
训练时只有第一编码器fq的参数θq通过反向传播更新,通过动量更新,第二编码器fk参数θk的更新比θq更加平滑,可以有效防止表征学习的崩溃问题。
其中,第二编码器fk参数θk的更新公式如下:
θk=mθk+(1-m)θq
其中,m∈[0,1),m是用于控制θk更新快慢的动量系数。
其中是用于控制更新快慢的动量系数。
值得注意的是,本实施例提出的特征提取模块并不依赖于特定的网络结构,例如可以选择使用三个全连接层构造动量编码器,相应的特征提取公式为:
Figure BDA0003796221900000061
Figure BDA0003796221900000062
其中,
Figure BDA0003796221900000063
为第一编码器fq提取的正视图对的第一特征,
Figure BDA0003796221900000064
为第二编码器fk提取的正视图对的第二特征。
参照图3,图3是本申请对比学习的单细胞数据聚类方法一实施例涉及的模型结构示意图;如图3所示,特征提取模块(Feature extraction Module)包括数据增强单元,将单细胞样本数据(Original data M)经过数据增强(Data augmentation)获得正视图对,并通过动量编码器对正视图对进行动量更新(Momentum update)以获得正视图对的特征。
步骤S102,通过预先构建的对比学习模型将所述特征进行对比学习,获得所述待聚类单细胞数据的高阶表示,并对所述高阶表示进行聚类分析以获得所述待聚类单细胞数据的聚类分析结果。
本实施例中的对比学习模型包括实例级对比学习模型和集群级对比学习模型。进一步参照图3,如图3所示,实例级对比学习模型(Instance Level Contrastive Module)将特征提取模块的特征通过多层感知机gI(·)映射到潜在空间中,并对行空间特征进行学习,获得对比损失(Contrastive Loss),并由实例级对比学习模型输出待聚类单细胞数据的高阶表示。继续参照图3,集群级对比学习模型(Cluster Level Contrastive Module)将特征提取模块的特征通过多层感知机gc(·)映射到M维空间中,并对列空间特征进行学习,获得对比损失(Contrastive Loss),并由集群级对比学习模型输出待聚类单细胞数据的高阶表示。
当获得待聚类单细胞数据的高阶表示后,可以采用任意的聚类分析方法对待聚类单细胞数据进行聚类分析,获得聚类分析结果。
基于本实施例提供的模型:深度学习的特征提取和自监督的对比学习,可以通过如下算法伪代码实现基于自监督对比学习的单细胞数据聚类算法:
Figure BDA0003796221900000071
本实施例通过上述方案,通过预先构建的特征提取模块确定待聚类单细胞数据的正视图对并提取所述正视图对的特征;通过预先构建的对比学习模型将所述特征进行对比学习,获得所述待聚类单细胞数据的高阶表示,并对所述高阶表示进行聚类分析以获得所述待聚类单细胞数据的聚类分析结果。如此,通过特征提取、对比学习获得了待聚类单细胞数据的高阶表示,解决了当前单细胞测序数据高维稀疏、种群间不平衡以及测序过程经常发生drop-out事件的问题。
如图4所示,本申请第二实施例提出一种基于对比学习的单细胞数据聚类方法,基于上述图2所示的第一实施例,所述步骤S102之前还包括:
步骤S1021,构建学习行空间特征的实例级对比学习模型;
具体地,通过多层感知机将行空间的单细胞样本数据的特征映射到潜在空间中;
计算所述单细胞样本数据的特征的余弦相似度;
基于所述余弦相似度确定所述特征的对比损失,并确定实例级对比学习模型的实例级损失函数,基于所述实例级损失函数确定所述实例级对比学习模型收敛。
本实施例中,通过多层感知机gI(·)将特征映射到潜在空间中的过程可以表示为:
Figure BDA0003796221900000081
Figure BDA0003796221900000082
其中,Zq、Zk为特征在潜在空间中的表示。
为了计算实例级对比学习模型的对比损失,本实施例通过余弦相似度计算特征之间的相似度s:
Figure BDA0003796221900000083
对于每个输入
Figure BDA0003796221900000084
相应的对比损失为:
Figure BDA0003796221900000085
其中,
Figure BDA0003796221900000086
Figure BDA0003796221900000087
分别表示待聚类单细胞数据i在第一次数据增强下的表示和第二次数据增强下的表示,也即
Figure BDA0003796221900000088
为正视图对,剩余的2N-2个视图对看作负视图对,实例级对比学习模型最终的损失函数为:
Figure BDA0003796221900000091
基于实例级损失函数
Figure BDA0003796221900000092
确定所述实例级对比学习模型收敛。
步骤S1022,构建学习列空间特征的集群级对比学习模型。
具体地,通过多层感知机将列空间的单细胞样本的数据特征映射到M维空间中;
通过余弦相似度衡量两个单细胞样本数据间的相似度;
遍历所有集群确定集群级对比学习模型的集群级损失函数,基于所述集群级损失函数确定所述集群级对比学习模型收敛。
将一个数据样本投影到一个维度等于集群数的空间时,其特征的第i个元素可以解释为该样本属于第i个集群的概率,并且特征向量相应地表示其软标签。具体地说,
Figure BDA0003796221900000093
表示一个mini-batch在第一次数据增强后通过模块后的输出(Yq表示第二次数据增强后通过模块后的输出),N代表小批量(mini-batch)的大小,M代表集群真实数量,
Figure BDA0003796221900000094
代表第n个样本属于第m个集群的概率。事实上,每个样本只能属于一个集群,因此Yq的每一行都应该是one-hot类型的向量,从这个角度出发,Yq的第i列可以看作是集群i的表示,每个集群的表示应该互不相同。
本实施例通过通过多层感知机gc(·)将单细胞样本数据的特征映射到M空间,并分为记为Yq,Yk,其中行代表待聚类单细胞数据的软标签,列代表集群的表示。特别地,
Figure BDA0003796221900000095
Figure BDA0003796221900000096
分别表示集群i在第一次数据增强下的表示和第二次数据增强下的表示。如此,将
Figure BDA0003796221900000097
视为正视图对,剩余的2M-2个视图对看作负视图对。
使用余弦相似度衡量两个样本间的相似度,
Figure BDA0003796221900000098
的损失可以表示为:
Figure BDA0003796221900000099
通过遍历有所集群,集群级对比学习模型的最终损失函数为:
Figure BDA00037962219000000910
此外,为了避免大多数实例被分配到同一个集群,还需要在所述集群级损失函数中添加集群分配概率交叉熵H(Y):
Figure BDA0003796221900000101
Figure BDA0003796221900000102
基于所述集群级损失函数确定所述集群级对比学习模型收敛。
本实施例通过上述方案,构建了学习行空间特征的实例级对比学习模型,以及学习列空间特征的集群级对比学习模型,以通过双重对比学习获得所述单细胞数据的高阶表示。
进一步地,为实现上述目的,本申请还提供一种基于对比学习的单细胞数据聚类装置,具体地,参见5,图5是本申请对比学习的单细胞数据聚类装置第一实施例的功能模块示意图,所述装置包括:
特征提取模块,用于通过预先构建的特征提取模块确定待聚类单细胞数据的正视图对并提取所述正视图对的特征;
对比学习模块,用于通过预先构建的对比学习模型将所述特征进行对比学习,获得所述待聚类单细胞数据的高阶表示,并对所述高阶表示进行聚类分析以获得所述待聚类单细胞数据的聚类分析结果。
进一步地,所述特征提取模块包括:
数据增强单元,用于通过数据增强单元对所述待聚类单细胞数据进行两次随机数据增强,生成正视图对;
提取单元,用于通过所述动量编码器提取所述正视图对的特征。
进一步地,所述提取单元包括:
第一提取单元,用于通过所述第一编码器提取所述正视图对的第一特征;
第二提取单元,用于通过所述第二编码器提取所述正视图对的第二特征。
进一步地,所述对比学习模块包括:
第一构建模块,用于构建学习行空间特征的实例级对比学习模型;和
第二构建模块,用于构建学习列空间特征的集群级对比学习模型。
进一步地,所述第一构建模块包括:
第一映射单元,用于通过多层感知机将行空间的单细胞样本数据的特征映射到潜在空间中;
第一计算单元,用于计算所述单细胞样本数据的特征的余弦相似度;
第一确定单元,用于基于所述余弦相似度确定所述特征的对比损失,并确定实例级对比学习模型的实例级损失函数,基于所述实例级损失函数确定所述实例级对比学习模型收敛。
进一步地,所述第二构建模块包括:
第二映射单元,用于通过多层感知机将列空间的单细胞样本的数据特征映射到M维空间中;
第二计算单元通过余弦相似度衡量两个单细胞样本数据间的相似度;
第二确定单元,用于遍历所有集群确定集群级对比学习模型的集群级损失函数,基于所述集群级损失函数确定所述集群级对比学习模型收敛。
进一步地,所述第二构建模块还包括:
添加单元,用于在所述集群级损失函数中添加集群分配概率交叉熵。
此外,本申请还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有对比学习的单细胞数据聚类程序,所述对比学习的单细胞数据聚类程序被处理器运行时实现如上所述的对比学习的单细胞数据聚类方法的步骤,在此不再赘述。
相比现有技术,本申请通过预先构建的特征提取模块确定待聚类单细胞数据的正视图对并提取所述正视图对的特征;通过预先构建的对比学习模型将所述特征进行对比学习,获得所述待聚类单细胞数据的高阶表示,并对所述高阶表示进行聚类分析以获得所述待聚类单细胞数据的聚类分析结果。如此,通过特征提取、对比学习获得了待聚类单细胞数据的高阶表示,解决了当前单细胞测序数据高维稀疏、种群间不平衡以及测序过程经常发生drop-out事件的问题。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种基于对比学习的单细胞数据聚类方法,其特征在于,所述方法包括:
通过预先构建的特征提取模块确定待聚类单细胞数据的正视图对并提取所述正视图对的特征;
通过预先构建的对比学习模型将所述特征进行对比学习,获得所述待聚类单细胞数据的高阶表示,并对所述高阶表示进行聚类分析以获得所述待聚类单细胞数据的聚类分析结果。
2.根据权利要求1所述的方法,其特征在于,所述特征提取模块包括数据增强单元和动量编码器,所述通过预先构建的特征提取模块确定待聚类单细胞数据的正视图对并提取所述正视图对的特征包括:
通过数据增强单元对所述待聚类单细胞数据进行两次随机数据增强,生成正视图对;
通过所述动量编码器提取所述正视图对的特征。
3.根据权利要求2所述的方法,其特征在于,所述动量编码器包括第一编码器和第二编码器,所述第一编码器与所述第二编码器结构相同,参数不同;
所述通过所述动量编码器提取所述正视图对的特征包括:
通过所述第一编码器提取所述正视图对的第一特征;
通过所述第二编码器提取所述正视图对的第二特征。
4.根据权利要求1所述的方法,其特征在于,在所述通过预先构建的对比学习模型将所述特征进行对比学习,获得所述待聚类单细胞数据的高阶表示之前,还包括:
构建学习行空间特征的实例级对比学习模型;和
构建学习列空间特征的集群级对比学习模型。
5.根据权利要求4所述的方法,其特征在于,所述构建学习行空间特征的实例级对比学习模型包括:
通过多层感知机将行空间的单细胞样本数据的特征映射到潜在空间中;
计算所述单细胞样本数据的特征的余弦相似度;
基于所述余弦相似度确定所述特征的对比损失,并确定实例级对比学习模型的实例级损失函数,基于所述实例级损失函数确定所述实例级对比学习模型收敛。
6.根据权利要求4所述的方法,其特征在于,所述构建学习列空间特征的集群级对比学习模型包括:
通过多层感知机将列空间的单细胞样本的数据特征映射到M维空间中;
通过余弦相似度衡量两个单细胞样本数据间的相似度;
遍历所有集群确定集群级对比学习模型的集群级损失函数,基于所述集群级损失函数确定所述集群级对比学习模型收敛。
7.根据权利要求6所述的方法,其特征在于,所述构建学习列空间特征的集群级对比学习模型,还包括:
在所述集群级损失函数中添加集群分配概率交叉熵。
8.一种基于对比学习的单细胞数据聚类装置,其特征在于,所述装置包括:
特征提取模块,用于通过预先构建的特征提取模块确定待聚类单细胞数据的正视图对并提取所述正视图对的特征;
对比学习模块,用于通过预先构建的对比学习模型将所述特征进行对比学习,获得所述待聚类单细胞数据的高阶表示,并对所述高阶表示进行聚类分析以获得所述待聚类单细胞数据的聚类分析结果。
9.一种电子设备,其特征在于,包括存储器、处理器以及存储在所述存储器上的对比学习的单细胞数据聚类程序,所述对比学习的单细胞数据聚类程序被所述处理器运行时实现如权利要求1-7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有对比学习的单细胞数据聚类程序,所述对比学习的单细胞数据聚类程序被处理器运行时实现如权利要求1-7中任一项所述的方法的步骤。
CN202210970095.4A 2022-08-12 2022-08-12 基于对比学习的单细胞数据聚类方法、装置、设备及介质 Active CN115577273B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210970095.4A CN115577273B (zh) 2022-08-12 2022-08-12 基于对比学习的单细胞数据聚类方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210970095.4A CN115577273B (zh) 2022-08-12 2022-08-12 基于对比学习的单细胞数据聚类方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN115577273A true CN115577273A (zh) 2023-01-06
CN115577273B CN115577273B (zh) 2024-04-26

Family

ID=84579583

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210970095.4A Active CN115577273B (zh) 2022-08-12 2022-08-12 基于对比学习的单细胞数据聚类方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN115577273B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516181A (zh) * 2021-07-01 2021-10-19 北京航空航天大学 一种数字病理图像的表征学习方法
CN114494718A (zh) * 2021-12-31 2022-05-13 特斯联科技集团有限公司 一种图像分类方法、装置、存储介质及终端
US20220156591A1 (en) * 2020-11-13 2022-05-19 Salesforce.Com, Inc. Systems and methods for semi-supervised learning with contrastive graph regularization
CN114565808A (zh) * 2022-04-27 2022-05-31 南京邮电大学 一种面向无监督视觉表示的双动量对比学习方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220156591A1 (en) * 2020-11-13 2022-05-19 Salesforce.Com, Inc. Systems and methods for semi-supervised learning with contrastive graph regularization
CN113516181A (zh) * 2021-07-01 2021-10-19 北京航空航天大学 一种数字病理图像的表征学习方法
CN114494718A (zh) * 2021-12-31 2022-05-13 特斯联科技集团有限公司 一种图像分类方法、装置、存储介质及终端
CN114565808A (zh) * 2022-04-27 2022-05-31 南京邮电大学 一种面向无监督视觉表示的双动量对比学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HONGRU SHEN 等: "Miscell: An efficient self-supervised learning approach for dissecting single-cell transcriptome", ISCIENCE, vol. 24, no. 11, pages 1 - 17 *

Also Published As

Publication number Publication date
CN115577273B (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
Song et al. Auto-encoder based data clustering
Wu et al. Towards good practices for action video encoding
CN111932386B (zh) 用户账号确定方法及装置、信息推送方法及装置、电子设备
Zeng et al. A GA-based feature selection and parameter optimization for support tucker machine
CN106599900A (zh) 一种识别图像中的字符串的方法和装置
CN107341510B (zh) 基于稀疏正交的双图非负矩阵分解的图像聚类方法
CN111898703B (zh) 多标签视频分类方法、模型训练方法、装置及介质
CN110442721B (zh) 神经网络语言模型、训练方法、装置及存储介质
CN111091247A (zh) 基于深度神经网络模型融合的电力负荷预测方法、装置
US20230005572A1 (en) Molecular structure acquisition method and apparatus, electronic device and storage medium
CN107480636A (zh) 基于核非负矩阵分解的人脸识别方法、系统及存储介质
CN114091603A (zh) 一种空间转录组细胞聚类、分析方法
Shen et al. Supervised and unsupervised learning of directed percolation
CN117153260B (zh) 基于对比学习的空间转录组数据聚类方法、装置及介质
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN111401413A (zh) 一种基于优化理论的带规模约束的并行聚类方法
CN114783526A (zh) 基于高斯混合图变分自编码器的深度无监督单细胞聚类方法
Han et al. An efficient genetic algorithm for optimization problems with time-consuming fitness evaluation
CN111783688B (zh) 一种基于卷积神经网络的遥感图像场景分类方法
CN111563535A (zh) 一种基于秩为r的离散非负矩阵分解聚类方法
CN115577273A (zh) 基于对比学习的单细胞数据聚类方法、装置、设备及介质
CN116541792A (zh) 一种基于图神经网络节点分类进行团伙识别的方法
CN116050119A (zh) 一种基于二元表示的正负图分割多视图聚类方法
CN112784967B (zh) 信息处理方法、装置以及电子设备
CN114187966A (zh) 一种基于生成对抗网络的单细胞rna序列缺失值填补方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant