CN115577273B

CN115577273B - 基于对比学习的单细胞数据聚类方法、装置、设备及介质

Info

Publication number: CN115577273B
Application number: CN202210970095.4A
Authority: CN
Inventors: 李君一; 杜林林; 韩睿; 王轩; 刘洋; 漆舒汉; 吴宇琳; 姚霖; 刘博�; 王亚东
Original assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Current assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Priority date: 2022-08-12
Filing date: 2022-08-12
Publication date: 2024-04-26
Anticipated expiration: 2042-08-12
Also published as: CN115577273A

Abstract

本申请公开了一种基于对比学习的单细胞数据聚类方法、装置、设备及存储介质，该方法包括：通过预先构建的特征提取模块确定待聚类单细胞数据的正视图对并提取所述正视图对的特征；通过预先构建的对比学习模型将所述特征进行对比学习，获得所述待聚类单细胞数据的高阶表示，并对所述高阶表示进行聚类分析以获得所述待聚类单细胞数据的聚类分析结果。如此，通过特征提取、对比学习获得了待聚类单细胞数据的高阶表示，解决了当前单细胞测序数据高维稀疏、种群间不平衡以及测序过程经常发生drop‑out事件的问题。

Description

基于对比学习的单细胞数据聚类方法、装置、设备及介质

技术领域

本申请涉及机器学习技术领域，尤其涉及一种基于对比学习的单细胞数据聚类方法、装置、设备及存储介质。

背景技术

单细胞核糖核酸测序(single cell ribonucleic acid sequencing,scRNA-seq)技术在过去几年中迅速发展，为识别和表征细胞类型、状态和功能做出了重要贡献。单细胞RNA测序技术可以在一次实验中同时检测数千到上万个细胞的转录状态，因此对生物学研究具有重要意义。单细胞RNA测序技术能够识别罕见的细胞类型、新的细胞状态以及细胞间通讯网络，这一技术的应用领域已经从胚胎发育不断扩展向细胞谱系重构、稀有细胞类群的鉴定、神经系统、免疫系统以及肿瘤等多个方面。聚类是分析单细胞RNA测序数据的一种非常强大的方法，单细胞RNA测序实验通常能够生成包含数千甚至数万个细胞的全基因组表达测量。单细胞RNA测序数据的一个重要特征是一种被称为“drop-out”的现象，即在同一细胞类型的细胞中，可能在该细胞的某些细胞中检测到一个基因处于低或中等表达水平，但在这种细胞的剩余细胞中没有检测到。这种drop-out事件通常是由于mRNA表达具有随机性以及单个细胞中mRNA含量低、mRNA捕获效率低导致的。受drop-out事件的影响，单细胞RNA测序数据通常是高维稀疏的。由于单细胞RNA测序数据通常具有高维稀疏性、稀有种群和丰富种群之间的大小不平衡，以及测序过程中频繁发生的drop-out事件引入的大量技术噪声，因此单细胞转录组数据的聚类分析仍然非常具有挑战性。

当前学者们从不同的角度提出了细胞数据聚类分析方法，许多方法会通过假设单细胞数据服从特定的分布进而对单细胞数据进行去噪或基因插补，这可能会消除掉一些有意义的生物学变异并且导致聚类性能下降。随着scRNA-seq技术的发展，细胞数量也随之快速增长，因此要求算法在取得较好的泛化能力的同时尽可能的节省时空开销以应用于大型数据集上。

发明内容

本申请提供一种基于对比学习的单细胞数据聚类方法、装置、设备及存储介质，旨在解决当前单细胞测序数据高维稀疏、种群间不平衡以及测序过程经常发生drop-out事件的问题。

为实现上述目的，本申请提供一种基于对比学习的单细胞数据聚类方法，所述方法应用于对比学习的单细胞数据聚类设备，所述方法包括：

通过预先构建的特征提取模块确定待聚类单细胞数据的正视图对并提取所述正视图对的特征；

通过预先构建的对比学习模型将所述特征进行对比学习，获得所述待聚类单细胞数据的高阶表示，并对所述高阶表示进行聚类分析以获得所述待聚类单细胞数据的聚类分析结果。

可选地，所述特征提取模块包括数据增强单元和动量编码器，所述通过预先构建的特征提取模块确定待聚类单细胞数据的正视图对并提取所述正视图对的特征包括：

通过数据增强单元对所述待聚类单细胞数据进行两次随机数据增强，生成正视图对；

通过所述动量编码器提取所述正视图对的特征。

可选地，所述动量编码器包括第一编码器和第二编码器，所述第一编码器与所述第二编码器结构相同，参数不同；

所述通过所述动量编码器提取所述正视图对的特征包括：

通过所述第一编码器提取所述正视图对的第一特征；

通过所述第二编码器提取所述正视图对的第二特征。

可选地，在所述通过预先构建的对比学习模型将所述特征进行对比学习，获得所述待聚类单细胞数据的高阶表示之前，还包括：

构建学习行空间特征的实例级对比学习模型；和

构建学习列空间特征的集群级对比学习模型。

可选地，所述构建学习行空间特征的实例级对比学习模型包括：

通过多层感知机将行空间的单细胞样本数据的特征映射到潜在空间中；

计算所述单细胞样本数据的特征的余弦相似度；

基于所述余弦相似度确定所述特征的对比损失，并确定实例级对比学习模型的实例级损失函数，基于所述实例级损失函数确定所述实例级对比学习模型收敛。

可选地，所述构建学习列空间特征的集群级对比学习模型包括：

通过多层感知机将列空间的单细胞样本的数据特征映射到M维空间中；

通过余弦相似度衡量两个单细胞样本数据间的相似度；

遍历所有集群确定集群级对比学习模型的集群级损失函数，基于所述集群级损失函数确定所述集群级对比学习模型收敛。

可选地，所述构建学习列空间特征的集群级对比学习模型，还包括：

在所述集群级损失函数中添加集群分配概率交叉熵。

本申请还提出一种基于对比学习的单细胞数据聚类装置，所述装置包括：

特征提取模块，用于通过预先构建的特征提取模块确定待聚类单细胞数据的正视图对并提取所述正视图对的特征；

对比学习模块，用于通过预先构建的对比学习模型将所述特征进行对比学习，获得所述待聚类单细胞数据的高阶表示，并对所述高阶表示进行聚类分析以获得所述待聚类单细胞数据的聚类分析结果。

本申请还提出一种电子设备，包括存储器、处理器以及存储在所述存储器上的对比学习的单细胞数据聚类程序，所述对比学习的单细胞数据聚类程序被所述处理器运行时实现如上所述的方法的步骤。

本申请还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有对比学习的单细胞数据聚类程序，所述对比学习的单细胞数据聚类程序被处理器运行时实现如上所述的方法的步骤。

相比现有技术，本申请提出的一种基于对比学习的单细胞数据聚类方法、装置、设备及存储介质，该方法包括：通过预先构建的特征提取模块确定待聚类单细胞数据的正视图对并提取所述正视图对的特征；通过预先构建的对比学习模型将所述特征进行对比学习，获得所述待聚类单细胞数据的高阶表示，并对所述高阶表示进行聚类分析以获得所述待聚类单细胞数据的聚类分析结果。如此，通过特征提取、对比学习获得了待聚类单细胞数据的高阶表示，解决了当前单细胞测序数据高维稀疏、种群间不平衡以及测序过程经常发生drop-out事件的问题。

附图说明

图1是本申请本申请各实施例涉及的设备的硬件结构示意图

图2是本申请对比学习的单细胞数据聚类方法第一实施例的流程示意图；

图3是本申请对比学习的单细胞数据聚类方法一实施例涉及的模型结构示意图；

图4是本申请对比学习的单细胞数据聚类方法第二实施例的流程示意图；

图5是本申请基于对比学习的单细胞数据聚类装置第一实施例的功能模块示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例主要涉及的电子设备是指能够实现网络连接的网络连接设备，所述电子设备可以是服务器、云平台等。

参照图1，图1是本申请各实施例涉及的电子设备的硬件结构示意图。本申请实施例中，电子设备可以包括处理器1001(例如中央处理器Central Processing Unit、CPU)，通信总线1002，输入端口1003，输出端口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信；输入端口1003用于数据输入；输出端口1004用于数据输出，存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器，存储器1005可选的还可以是独立于前述处理器1001的存储装置。本领域技术人员可以理解，图1中示出的硬件结构并不构成对本申请的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

继续参照图1，图1中作为一种可读存储介质的存储器1005可以包括操作系统、网络通信模块、应用程序模块以及电子程序。在图1中，网络通信模块主要用于连接服务器，与服务器进行数据通信；而处理器1001用于调用存储器1005中存储的对比学习的单细胞数据聚类程序程序，并执行如下操作：

基于上述电子设备提出本申请对比学习的单细胞数据聚类方法第一实施例。请参照图2，图2是本申请电子方法第一实施例的流程示意图。

如图2所示，本申请第一实施例提出一种基于对比学习的单细胞数据聚类方法，所述方法包括：

步骤S101，通过预先构建的特征提取模块确定待聚类单细胞数据的正视图对并提取所述正视图对的特征；

特征提取模块包括数据增强单元和动量编码器，特征的提取过程包括：

通过所述动量编码器提取所述正视图对的特征。

值得说明的是，本实施例中可以将待聚类单细胞数据一次性或分批次进行特征提取，并对比学习，使之在面对大型数据集时也可以高效运转，从而适用于各种场景。

对比学习通常伴随着数据增强。然而，由于单细胞数据的特殊性，其他领域的一些数据增强方法无法直接应用于单细胞数据，因此目前能够应用于单细胞数据的数据增强方法相对简单。本实施例选用的数据增强方法是以概率对每个单细胞进行随机的掩盖(即随机地将单细胞的部分基因的表达值设置为0)后添加一定的高斯噪声，其中对基因表达值进行掩盖是通过drop-out神经网络层实现的。

对比学习的目的是通过最大化正视图对之间的相似性，同时最小化负视图对之间的相似性来使相似的样本之间的距离更小，而不相似的样本之间的距离更大。实际上，正负视图对可以有不同的定义方式，例如，可以将同一类中的样本定义为正，将不属于同一类的样本定义为负。由于本实施例将同一个单细胞数据经过两次随机的数据增强生成的两个视图视为正视图对，而其余单细胞数据构成负视图对。

具体地说，对于每一个待聚类单细胞数据进行两次随机的数据增强得到和/>这两个视图将被视为正视图对，剩余的视图对则被视为负视图对。

所述动量编码器包括第一编码器f_q和第二编码器f_k，所述第一编码器f_q与所述第二编码器f_k结构相同，参数不同；

所述通过所述动量编码器提取所述正视图对的特征包括：

通过所述第一编码器f_q提取所述正视图对的第一特征；

通过所述第二编码器f_k提取所述正视图对的第二特征。

训练时只有第一编码器f_q的参数θ_q通过反向传播更新，通过动量更新，第二编码器f_k参数θ_k的更新比θ_q更加平滑，可以有效防止表征学习的崩溃问题。

其中，第二编码器f_k参数θ_k的更新公式如下：

θ_k＝mθ_k+(1-m)θ_q；

其中，m∈[0,1)，m是用于控制θ_k更新快慢的动量系数。

其中是用于控制更新快慢的动量系数。

值得注意的是，本实施例提出的特征提取模块并不依赖于特定的网络结构，例如可以选择使用三个全连接层构造动量编码器，相应的特征提取公式为：

其中，为第一编码器f_q提取的正视图对的第一特征，/>为第二编码器f_k提取的正视图对的第二特征。

参照图3，图3是本申请对比学习的单细胞数据聚类方法一实施例涉及的模型结构示意图；如图3所示，特征提取模块(Feature extraction Module)包括数据增强单元，将单细胞样本数据(Original data M)经过数据增强(Data augmentation)获得正视图对，并通过动量编码器对正视图对进行动量更新(Momentum update)以获得正视图对的特征。

步骤S102，通过预先构建的对比学习模型将所述特征进行对比学习，获得所述待聚类单细胞数据的高阶表示，并对所述高阶表示进行聚类分析以获得所述待聚类单细胞数据的聚类分析结果。

本实施例中的对比学习模型包括实例级对比学习模型和集群级对比学习模型。进一步参照图3，如图3所示，实例级对比学习模型(Instance Level Contrastive Module)将特征提取模块的特征通过多层感知机g_I(·)映射到潜在空间中，并对行空间特征进行学习，获得对比损失(Contrastive Loss)，并由实例级对比学习模型输出待聚类单细胞数据的高阶表示。继续参照图3，集群级对比学习模型(Cluster Level Contrastive Module)将特征提取模块的特征通过多层感知机g_c(·)映射到M维空间中，并对列空间特征进行学习，获得对比损失(Contrastive Loss)，并由集群级对比学习模型输出待聚类单细胞数据的高阶表示。

当获得待聚类单细胞数据的高阶表示后，可以采用任意的聚类分析方法对待聚类单细胞数据进行聚类分析，获得聚类分析结果。

基于本实施例提供的模型：深度学习的特征提取和自监督的对比学习，可以通过如下算法伪代码实现基于自监督对比学习的单细胞数据聚类算法：

本实施例通过上述方案，通过预先构建的特征提取模块确定待聚类单细胞数据的正视图对并提取所述正视图对的特征；通过预先构建的对比学习模型将所述特征进行对比学习，获得所述待聚类单细胞数据的高阶表示，并对所述高阶表示进行聚类分析以获得所述待聚类单细胞数据的聚类分析结果。如此，通过特征提取、对比学习获得了待聚类单细胞数据的高阶表示，解决了当前单细胞测序数据高维稀疏、种群间不平衡以及测序过程经常发生drop-out事件的问题。

如图4所示，本申请第二实施例提出一种基于对比学习的单细胞数据聚类方法，基于上述图2所示的第一实施例，所述步骤S102之前还包括：

步骤S1021，构建学习行空间特征的实例级对比学习模型；

具体地，通过多层感知机将行空间的单细胞样本数据的特征映射到潜在空间中；

计算所述单细胞样本数据的特征的余弦相似度；

本实施例中，通过多层感知机g_I(·)将特征映射到潜在空间中的过程可以表示为：

其中，Z^q、Z^k为特征在潜在空间中的表示。

为了计算实例级对比学习模型的对比损失，本实施例通过余弦相似度计算特征之间的相似度s：

对于每个输入相应的对比损失为：

其中，和/>分别表示待聚类单细胞数据i在第一次数据增强下的表示和第二次数据增强下的表示，也即/>为正视图对，剩余的2N-2个视图对看作负视图对，实例级对比学习模型最终的损失函数为：

基于实例级损失函数确定所述实例级对比学习模型收敛。

步骤S1022，构建学习列空间特征的集群级对比学习模型。

具体地，通过多层感知机将列空间的单细胞样本的数据特征映射到M维空间中；

通过余弦相似度衡量两个单细胞样本数据间的相似度；

将一个数据样本投影到一个维度等于集群数的空间时，其特征的第i个元素可以解释为该样本属于第i个集群的概率，并且特征向量相应地表示其软标签。具体地说，表示一个mini-batch在第一次数据增强后通过模块后的输出(Y^q表示第二次数据增强后通过模块后的输出)，N代表小批量(mini-batch)的大小，M代表集群真实数量，代表第n个样本属于第m个集群的概率。事实上，每个样本只能属于一个集群，因此Y^q的每一行都应该是one-hot类型的向量，从这个角度出发，Y^q的第i列可以看作是集群i的表示，每个集群的表示应该互不相同。

本实施例通过通过多层感知机g_c(·)将单细胞样本数据的特征映射到M空间,并分为记为Y^q,Y^k，其中行代表待聚类单细胞数据的软标签，列代表集群的表示。特别地，和分别表示集群i在第一次数据增强下的表示和第二次数据增强下的表示。如此，将视为正视图对，剩余的2M-2个视图对看作负视图对。

使用余弦相似度衡量两个样本间的相似度，的损失可以表示为：

通过遍历有所集群，集群级对比学习模型的最终损失函数为：

此外，为了避免大多数实例被分配到同一个集群，还需要在所述集群级损失函数中添加集群分配概率交叉熵H(Y)：

基于所述集群级损失函数确定所述集群级对比学习模型收敛。

本实施例通过上述方案，构建了学习行空间特征的实例级对比学习模型，以及学习列空间特征的集群级对比学习模型，以通过双重对比学习获得所述单细胞数据的高阶表示。

进一步地，为实现上述目的，本申请还提供一种基于对比学习的单细胞数据聚类装置，具体地，参见5，图5是本申请对比学习的单细胞数据聚类装置第一实施例的功能模块示意图，所述装置包括：

进一步地，所述特征提取模块包括：

数据增强单元，用于通过数据增强单元对所述待聚类单细胞数据进行两次随机数据增强，生成正视图对；

提取单元，用于通过所述动量编码器提取所述正视图对的特征。

进一步地，所述提取单元包括：

第一提取单元，用于通过所述第一编码器提取所述正视图对的第一特征；

第二提取单元，用于通过所述第二编码器提取所述正视图对的第二特征。

进一步地，所述对比学习模块包括：

第一构建模块，用于构建学习行空间特征的实例级对比学习模型；和

第二构建模块，用于构建学习列空间特征的集群级对比学习模型。

进一步地，所述第一构建模块包括：

第一映射单元，用于通过多层感知机将行空间的单细胞样本数据的特征映射到潜在空间中；

第一计算单元，用于计算所述单细胞样本数据的特征的余弦相似度；

第一确定单元，用于基于所述余弦相似度确定所述特征的对比损失，并确定实例级对比学习模型的实例级损失函数，基于所述实例级损失函数确定所述实例级对比学习模型收敛。

进一步地，所述第二构建模块包括：

第二映射单元，用于通过多层感知机将列空间的单细胞样本的数据特征映射到M维空间中；

第二计算单元通过余弦相似度衡量两个单细胞样本数据间的相似度；

第二确定单元，用于遍历所有集群确定集群级对比学习模型的集群级损失函数，基于所述集群级损失函数确定所述集群级对比学习模型收敛。

进一步地，所述第二构建模块还包括：

添加单元，用于在所述集群级损失函数中添加集群分配概率交叉熵。

此外，本申请还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有对比学习的单细胞数据聚类程序，所述对比学习的单细胞数据聚类程序被处理器运行时实现如上所述的对比学习的单细胞数据聚类方法的步骤，在此不再赘述。

相比现有技术，本申请通过预先构建的特征提取模块确定待聚类单细胞数据的正视图对并提取所述正视图对的特征；通过预先构建的对比学习模型将所述特征进行对比学习，获得所述待聚类单细胞数据的高阶表示，并对所述高阶表示进行聚类分析以获得所述待聚类单细胞数据的聚类分析结果。如此，通过特征提取、对比学习获得了待聚类单细胞数据的高阶表示，解决了当前单细胞测序数据高维稀疏、种群间不平衡以及测序过程经常发生drop-out事件的问题。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于对比学习的单细胞数据聚类方法，其特征在于，所述方法包括：

构建学习行空间特征的实例级对比学习模型；和

构建学习列空间特征的集群级对比学习模型；

通过多层感知机将行空间的单细胞样本数据的特征映射到潜在空间中；计算所述单细胞样本数据的特征的余弦相似度；基于所述余弦相似度确定所述特征的对比损失，并确定实例级对比学习模型的实例级损失函数，基于所述实例级损失函数确定所述实例级对比学习模型收敛；

所述构建学习列空间特征的集群级对比学习模型包括：通过多层感知机将列空间的单细胞样本的数据特征映射到M维空间中；通过余弦相似度衡量两个单细胞样本数据间的相似度；遍历所有集群确定集群级对比学习模型的集群级损失函数，基于所述集群级损失函数确定所述集群级对比学习模型收敛；

通过预先构建的对比学习模型将所述特征进行对比学习，获得所述待聚类单细胞数据的高阶表示，并对所述高阶表示进行聚类分析以获得所述待聚类单细胞数据的聚类分析结果；

通过多层感知机将特征映射到潜在空间中的过程可以表示为：

；

其中，、/>为特征在潜在空间中的表示，其中，/>为第一编码器/>提取的正视图对的第一特征，/>为第二编码器/>提取的正视图对的第二特征；

通过多层感知机将单细胞样本数据的特征映射到M空间，并分为记为/>，其中行代表待聚类单细胞数据的软标签，列代表集群的表示；/>和/>分别表示集群/>在第一次数据增强下的表示和第二次数据增强下的表示。

2.根据权利要求1所述的方法，其特征在于，所述特征提取模块包括数据增强单元和动量编码器，所述通过预先构建的特征提取模块确定待聚类单细胞数据的正视图对并提取所述正视图对的特征包括：

通过所述动量编码器提取所述正视图对的特征。

3.根据权利要求2所述的方法，其特征在于，所述动量编码器包括第一编码器和第二编码器，所述第一编码器与所述第二编码器结构相同，参数不同；

所述通过所述动量编码器提取所述正视图对的特征包括：

通过所述第一编码器提取所述正视图对的第一特征；

通过所述第二编码器提取所述正视图对的第二特征。

4.根据权利要求1所述的方法，其特征在于，所述构建学习列空间特征的集群级对比学习模型，还包括：

在所述集群级损失函数中添加集群分配概率交叉熵。

5.一种基于对比学习的单细胞数据聚类装置，其特征在于，所述装置包括：

对比学习模块，用于通过预先构建的对比学习模型将所述特征进行对比学习，获得所述待聚类单细胞数据的高阶表示，并对所述高阶表示进行聚类分析以获得所述待聚类单细胞数据的聚类分析结果；

所述对比学习模块包括：

第二构建模块，用于构建学习列空间特征的集群级对比学习模型；

所述第一构建模块包括：第一映射单元，用于通过多层感知机将行空间的单细胞样本数据的特征映射到潜在空间中；第一计算单元，用于计算所述单细胞样本数据的特征的余弦相似度；第一确定单元，用于基于所述余弦相似度确定所述特征的对比损失，并确定实例级对比学习模型的实例级损失函数，基于所述实例级损失函数确定所述实例级对比学习模型收敛；

所述第二构建模块包括：第二映射单元，用于通过多层感知机将列空间的单细胞样本的数据特征映射到M维空间中；第二计算单元通过余弦相似度衡量两个单细胞样本数据间的相似度；第二确定单元，用于遍历所有集群确定集群级对比学习模型的集群级损失函数，基于所述集群级损失函数确定所述集群级对比学习模型收敛；

；

6.一种电子设备，其特征在于，包括存储器、处理器以及存储在所述存储器上的对比学习的单细胞数据聚类程序，所述对比学习的单细胞数据聚类程序被所述处理器运行时实现如权利要求1-4中任一项所述的方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有对比学习的单细胞数据聚类程序，所述对比学习的单细胞数据聚类程序被处理器运行时实现如权利要求1-4中任一项所述的方法的步骤。