CN114334013A

CN114334013A - 一种单细胞聚类方法、装置、设备及可读存储介质

Info

Publication number: CN114334013A
Application number: CN202111671817.8A
Authority: CN
Inventors: 杜博; 廖明辉; 罗甫林; 张乐飞
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-12

Abstract

本发明提供一种单细胞聚类方法、装置、设备及可读存储介质。该方法包括：基于单细胞样本点和簇中心的相似度构造分布Q和目标分布P；基于分布Q与目标分布P构造第一损失函数；对样本特征矩阵进行降维，得到降维后的样本特征矩阵；将降维后的样本特征矩阵和连接矩阵传入低通滤波图卷积模块，得到概率矩阵；基于目标分布P和概率矩阵构造第二损失函数；根据第一损失函数和第二损失函数得到新的概率矩阵；从新的概率矩阵中获取单细胞样本点的聚类结果。通过本发明，降维后的样本特征矩阵在低通滤波图卷积模块传输的过程中同一簇类的特征表示变得更光滑，使得从新的概率矩阵中获取单细胞样本点的聚类结果更好。

Description

一种单细胞聚类方法、装置、设备及可读存储介质

技术领域

本发明涉及数据聚类技术领域，尤其涉及一种单细胞聚类方法、装置、设备及可读存储介质。

背景技术

单细胞RNA测序(scRNA-seq)技术是对每一个细胞的RNA进行测序，得到所有基因在该细胞的表达量。在scRNA-seq数据中，细胞的每一个基因的表达量都可视为该细胞的一个特征，而从scRNA-seq数据中挖掘生物信息的关键步骤是将生命状态、生物功能功能相似的细胞聚类成一个集群。

随着深度学习的发展，一些基于深度学习的聚类方法被提出来，但是目前的聚类方法缺少对细胞之间结构信息的挖掘，且面对大量、高维和/或携带大量噪声的scRNA-seq数据，聚类效果不佳。

发明内容

本发明的主要目的在于提供一种单细胞聚类方法、装置、设备及可读存储介质，旨在优化聚类方法，以得到更佳的聚类效果。

第一方面，本发明提供一种单细胞聚类方法，所述单细胞聚类方法包括：

基于单细胞样本点和簇中心的相似度构造分布Q和目标分布P；

基于分布Q与目标分布P构造第一损失函数；

对样本特征矩阵进行降维，得到降维后的样本特征矩阵；

将降维后的样本特征矩阵和连接矩阵传入低通滤波图卷积模块，得到概率矩阵；

基于目标分布P和概率矩阵构造第二损失函数；

根据第一损失函数和第二损失函数得到新的概率矩阵；

从新的概率矩阵中获取单细胞样本点的聚类结果。

可选的，在所述基于单细胞样本点和簇中心的相似度构造分布Q和目标分布P的步骤之前，还包括：

获取样本特征矩阵；

运用K最近邻分类算法对样本特征矩阵进行构图，得到连接矩阵；

将样本矩阵和连接矩阵传入初始图自编码器模块，得到重构的样本特征矩阵以及重构的连接矩阵；

根据样本特征矩阵、连接矩阵、重构的样本特征矩阵以及重构的连接矩阵对初始图自编码器模块进行训练，得到图自编码器模块；

将样本矩阵和连接矩阵传入图自编码器模块，通过K均值聚类得到簇中心；

计算单细胞样本点和簇中心的相似度。

可选的，所述根据样本特征矩阵、连接矩阵、重构的样本特征矩阵以及重构的连接矩阵对初始图自编码器模块进行训练，得到图自编码器模块的步骤，包括：

基于样本特征矩阵和重构的样本特征矩阵得到第三损失函数；

基于连接矩阵和重构的连接矩阵得到第四损失函数；

根据第三损失函数和第四损失函数对初始图自编码器模块进行训练，得到图自编码器模块。

可选的，所述基于单细胞样本点和簇中心的相似度构造分布Q和目标分布P的步骤，包括：

基于单细胞样本点和簇中心的相似度得到分布Q，其中，Q＝[q_ie]，q_ie是单细胞样本点h_i和簇中心u_e的相似度；

基于分布Q得到目标分布P，其中，P＝[p_ie]，

f_e＝∑_iq_ie，f_e是簇别e的频率，p_ie是单细胞样本点h_i和簇中心u_e的目标相似度。

可选的，所述基于分布Q与目标分布P构造第一损失函数的步骤，包括：

构造第一损失函数L_clu为分布Q与目标分布P的KL散度，其中，

q_ie是单细胞样本点h_i和簇中心u_e的相似度，p_ie是单细胞样本点h_i和簇中心u_e的目标相似度。

可选的，所述对样本特征矩阵进行降维，得到降维后的样本特征矩阵的步骤，包括：

使用全连接神经网络将n*d维的样本特征矩阵降维成n*m维的样本特征矩阵，其中，Z⁽⁰⁾＝ReLU(WX+b)，ReLU为非线性激活函数，W为权重矩阵，b为偏置项，X为样本矩阵，Z⁽⁰⁾为降维后的样本特征矩阵。

可选的，所述将降维后的样本特征矩阵和连接矩阵传入低通滤波图卷积模块，得到概率矩阵的步骤，包括：

将降维后的样本特征矩阵和连接矩阵传入低通滤波图卷积模块进行传播，传播公式如下：

其中，Z^(k)是第k层的样本特征矩阵，α_k、β_k以及ω_k是第k层超参数，Z⁽⁰⁾是降维后的样本特征矩阵，A是连接矩阵，

是对样本特征矩阵进行构图后的度矩阵加上一个N阶单位矩阵，I_N是N阶单位矩阵，W₁ ^(k)和W₂ ^(k)是第k层的可学习参数矩阵；

将传播中的最后一层输入全连接层，再经过softmax层得到概率矩阵Z，其中，Z＝softmax(W^(K+1)Z^(K+1)+b^(K+1))，Z^(K+1)为传播中的最后一层，b^(K+1)为传播中的最后一层的偏置项，W^(K+1)为传播中的最后一层的可学习参数矩阵。

第二方面，本发明还提供一种单细胞聚类装置，所述单细胞聚类装置包括：

第一构造模块，用于基于单细胞样本点和簇中心的相似度构造分布Q和目标分布P；

第二构造模块，用于基于分布Q与目标分布P构造第一损失函数；

降维模块，用于对样本特征矩阵进行降维，得到降维后的样本特征矩阵；

传输模块，用于将降维后的样本特征矩阵和连接矩阵传入低通滤波图卷积模块，得到概率矩阵；

第三构造模块，用于基于目标分布P和概率矩阵构造第二损失函数；

训练模块，用于根据第一损失函数和第二损失函数得到新的概率矩阵；

获取模块，用于从新的概率矩阵中获取单细胞样本点的聚类结果。

第三方面，本发明还提供一种单细胞聚类设备，所述单细胞聚类设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的单细胞聚类程序，其中所述单细胞聚类程序被所述处理器执行时，实现如上所述的单细胞聚类方法的步骤。

第四方面，本发明还提供一种可读存储介质，所述可读存储介质上存储有单细胞聚类程序，其中所述单细胞聚类程序被处理器执行时，实现如上所述的单细胞聚类方法的步骤。

本发明中，基于单细胞样本点和簇中心的相似度构造分布Q和目标分布P；基于分布Q与目标分布P构造第一损失函数；对样本特征矩阵进行降维，得到降维后的样本特征矩阵；将降维后的样本特征矩阵和连接矩阵传入低通滤波图卷积模块，得到概率矩阵；基于目标分布P和概率矩阵构造第二损失函数；根据第一损失函数和第二损失函数得到新的概率矩阵；从新的概率矩阵中获取单细胞样本点的聚类结果。通过本发明，基于分布Q与目标分布P构造第一损失函数，再将降维后的样本特征矩阵和连接矩阵传入低通滤波图卷积模块，得到概率矩阵，基于目标分布P和概率矩阵构造第二损失函数，根据第一损失函数和第二损失函数得到新的概率矩阵，低通滤波图卷积模块利用邻近单细胞的信息，使得在庞大、复杂、高维的数据上展开聚类任务时，数据可以保持数据的结构信息，且降维后的样本特征矩阵在低通滤波图卷积模块传输的过程中同一簇类的特征表示变得更光滑，使得从新的概率矩阵中获取单细胞样本点的聚类结果更好。

附图说明

图1为本发明实施例方案中涉及的单细胞聚类设备的硬件结构示意图；

图2为本发明单细胞聚类方法一实施例的流程示意图；

图3为本发明单细胞聚类方法一实施例的系统构架图；

图4为本发明单细胞聚类装置一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

第一方面，本发明实施例提供一种单细胞聚类设备，该单细胞聚类设备可以是个人计算机(personal computer，PC)、笔记本电脑、服务器等具有数据处理功能的设备。

参照图1，图1为本发明实施例方案中涉及的单细胞聚类设备的硬件结构示意图。本发明实施例中，单细胞聚类设备可以包括处理器1001(例如中央处理器CentralProcessing Unit，CPU)，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信；用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)；网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真WIreless-FIdelity，WI-FI接口)；存储器1005可以是高速随机存取存储器(random access memory，RAM)，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器，存储器1005可选的还可以是独立于前述处理器1001的存储装置。本领域技术人员可以理解，图1中示出的硬件结构并不构成对本发明的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

继续参照图1，图1中作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及单细胞聚类程序。其中，处理器1001可以调用存储器1005中存储的单细胞聚类程序，并执行本发明实施例提供的单细胞聚类方法。

第二方面，本发明实施例提供了一种单细胞聚类方法。

一实施例中，参照图2，图2为本发明单细胞聚类方法一实施例的流程示意图。如图2所示，单细胞聚类方法，包括：

步骤S10，基于单细胞样本点和簇中心的相似度构造分布Q和目标分布P；

本实施例中，参照图3，图3为本发明单细胞聚类方法一实施例的系统构架图。如图3所示，在自监督模块，使用条件概率表示每一个单细胞样本点和簇中心的相似度q，由此构造分布Q。基于分布Q，即可计算得到目标分布P。其中，Q＝[q_ie]，P＝[p_ie]。

进一步地，一实施例中，步骤S10包括：

基于分布Q得到目标分布P，其中，P＝[p_ie]，

本实施例中，使用t分布作为核函数计算单细胞样本点h_i和簇中心u_e的相似度q_ie，

其中，v是t分布的自由度。基于分布Q计算得到目标分布P，其中，P＝[p_ie]，

步骤S20，基于分布Q与目标分布P构造第一损失函数；

本实施例中，基于分布Q与目标分布P构造第一损失函数为分布Q与目标分布P的KL散度，使用KL散度来衡量分布Q与目标分布P之间的差异。

进一步地，一实施例中，步骤S20包括：

构造第一损失函数L_clu为分布Q与目标分布P的KL散度，其中，

本实施例中，KL散度(Kullback–Leibler divergence)，又称相对熵(relativeentropy)，是描述两个概率分布P和Q差异的一种方法。构造第一损失函数L_clu为分布Q与目标分布P的KL散度，即

步骤S30，对样本特征矩阵进行降维，得到降维后的样本特征矩阵；

本实施例中，使用全连接神经网络对样本特征矩阵进行降维，即可得到降维后的样本特征矩阵。

进一步地，一实施例中，步骤S30包括：

本实施例中，全连接神经网络(DNN)包括输入层、隐藏层和输出层，一个DNN结构只有一个输入层和一个输出层，输入层和输出层之间的都是隐藏层。每一层神经网络有若干神经元，层与层之间神经元相互连接，层内神经元互不连接，而且下一层神经元连接上一层所有的神经元。DNN中的神经元由输入、权重、偏置项、激活函数、输出五部分组成。使用全连接神经网络将n*2000维的样本特征矩阵降维成n*512维的样本特征矩阵，其中Z⁽⁰⁾＝ReLU(WX+b)，ReLU为非线性激活函数，W为权重矩阵，b为偏置项，X为样本矩阵，Z⁽⁰⁾为降维后的样本特征矩阵。容易想到的是，本实施例中的参数仅供参考，在此不做限制。

步骤S40，将降维后的样本特征矩阵和连接矩阵传入低通滤波图卷积模块，得到概率矩阵；

本实施例中，继续参照图3，将降维后的样本特征矩阵Z⁽⁰⁾和连接矩阵A传入低通滤波图卷积模块进行传播，最后一层经过softmax层后得到n*c的概率矩阵Z。

进一步地，一实施例中，步骤S40包括：

本实施例中，低通滤波图卷积模块是基于ChebNet模型改造的，将谱域的频率响应函数：

替换成低通滤波的

然后使用了恒等映射和初始残差连接构成。将降维后的样本特征矩阵Z⁽⁰⁾和连接矩阵A传入低通滤波图卷积模块进行传播，传播公式如下：

其中，Z^(k)是第k层的样本特征矩阵，α_k、β_k以及ω_k是第k层超参数，在本实施例中，α_k＝0.3，

Z⁽⁰⁾是降维后的样本特征矩阵，A是连接矩阵，D～是对样本特征矩阵进行构图后的度矩阵加上一个N阶单位矩阵，I_N是N阶单位矩阵，W₁ ^(k)和W₂ ^(k)是第k层的可学习参数矩阵。

将传播中的最后一层输入全连接层，再经过softmax层即可得到概率矩阵Z，其中，Z＝softmax(W^(K+1)Z^(K+1)+b^(K+1))，Z^(K+1)为传播中的最后一层，b^(K+1)为传播中的最后一层的偏置项，W^(K+1)为传播中的最后一层的可学习参数矩阵。

步骤S50，基于目标分布P和概率矩阵构造第二损失函数；

本实施例中，构造第二损失函数L_gcn为目标分布P和概率矩阵Z的KL散度，使用目标分布P监督概率矩阵Z的更新，以整合细胞之间的整合结构信息，其中，

z_ij为概率矩阵Z中的元素。

步骤S60，根据第一损失函数和第二损失函数得到新的概率矩阵；

本实施例中，根据第一损失函数和第二损失函数使用梯度下降法最小化损失函数L＝0.1×L_clu+0.01×L_gcn，最小化损失函数的过程中，不断循环训练自监督模块和低通滤波图卷积模块，例如，取循环次数为500次，最小化损失函数完成后，得到新的概率矩阵。

步骤S70，从新的概率矩阵中获取单细胞样本点的聚类结果。

本实施例中，从新的概率矩阵中单细胞样本点的聚类结果，即对于单细胞样本点i，取最大概率对应的簇类别作为单细胞样本点i的聚类结果，其中，单细胞样本点的聚类结果的标签为

z_ij∈Z，表示单细胞样本点i在簇别e的概率。

本实施例中，基于单细胞样本点和簇中心的相似度构造分布Q和目标分布P；基于分布Q与目标分布P构造第一损失函数；对样本特征矩阵进行降维，得到降维后的样本特征矩阵；将降维后的样本特征矩阵和连接矩阵传入低通滤波图卷积模块，得到概率矩阵；基于目标分布P和概率矩阵构造第二损失函数；根据第一损失函数和第二损失函数得到新的概率矩阵；从新的概率矩阵中获取单细胞样本点的聚类结果。通过本实施例，基于分布Q与目标分布P构造第一损失函数，再将降维后的样本特征矩阵和连接矩阵传入低通滤波图卷积模块，得到概率矩阵，基于目标分布P和概率矩阵构造第二损失函数，根据第一损失函数和第二损失函数得到新的概率矩阵，低通滤波图卷积模块利用到邻近单细胞的信息，使得在庞大、复杂、高维的数据上展开聚类任务时，数据可以保持数据的结构信息，且降维后的样本特征矩阵在低通滤波图卷积模块传输的过程中同一簇类的特征表示变得更光滑，使得从新的概率矩阵中获取单细胞样本点的聚类结果更好。

进一步地，一实施例中，在步骤S10之前，还包括：

获取样本特征矩阵；

计算单细胞样本点和簇中心的相似度。

本实施例中，从单细胞RNA测序数据集中选择N个单细胞测序数据，得到样本特征矩阵X，其中，X＝[x₁，x₂，...，x_N]^T，T为转置。对于单细胞细胞样本点i和单细胞样本点j，它们的相似性可表示为

式中，|x_i|为特征向量x_i的模，|x_j|为特征向量x_j的模。对于N个细胞的数据集，其相似性矩阵S∈R^N×N。

对于单细胞样本点i，运用KNN(K最近邻分类算法)选取距离单细胞样本点i最近即相似性最高的前k个单细胞样本点作为单细胞样本点i的近邻点来构图，即构建图的连接矩阵A，其中，A∈R^N×N，单细胞样本点i和单细胞样本点j若为近邻，则a_ij设置为1，单细胞样本点i和单细胞样本点j若不为近邻，则a_ij设置为0，k为0.01×N和20中的最大值，即，若0.01×N大于20，则k为0.01×N，若0.01×N不大于20，则k为20。容易想到的是，本实施例中的参数仅供参考，在此不做限制。

继续参照图3，将样本矩阵和连接矩阵传入初始图自编码器模块，在初始图自编码器模块的解码部分，传播公式为

式中，

I_N为N阶单位矩阵，

X^(h)为h层的样本矩阵，W^(h)为h层的可学习参数矩阵。在初始图自编码器模块的解码器最后一层得到的样本特征矩阵即为重构的样本特征矩阵

基于重构的样本特征矩阵

进行内积运算，得到重构的连接矩阵

其中，

根据样本特征矩阵和重构的样本特征矩阵得到第三损失函数，根据连接矩阵和重构的连接矩阵得到第四损失函数，根据第三损失函数和第四损失函数对初始图自编码器模块进行训练，得到图自编码器模块。

将样本矩阵和连接矩阵传入图自编码器模块，在图自编码器模块的编码部分，传播公式为

其中，

为构图后的度矩阵加上一个N阶单位矩阵，

为连接矩阵加上一个N阶单位矩阵，X^(h-1)为h-1层的样本矩阵，W^(h-1)为h-1层的可学习参数矩阵。在图自编码器模块的编码器部分，选用的维数是d-512-256-64-10，其中，d为样本特征数2000，故第h层的隐变量X^(h)为N×10的矩阵。通过K均值聚类得到簇中心，簇中心构成集合U，U＝[u₁，u₂，u₃，...，u_c，]^T，其中，集合U是一个c×10的矩阵，c是预设的簇类数量。

运用t分布作为核函数计算得到单细胞样本点i和簇中心e的相似度q_ie，其中，

h_i表示单细胞样本点i，u_e表示e类的簇中心，v是t分布的自由度。

进一步地，一实施例中，所述根据样本特征矩阵、连接矩阵、重构的样本特征矩阵以及重构的连接矩阵对初始图自编码器模块进行训练，得到图自编码器模块的步骤，包括：

基于连接矩阵和重构的连接矩阵得到第四损失函数；

本实施例中，基于样本特征矩阵和重构的样本特征矩阵得到第三损失函数L_res-c其中，

x_ij为样本特征矩阵X中的元素，

为重构的样本特征矩阵中的元素。

基于连接矩阵和重构的连接矩阵得到第四损失函数L_res-g，其中，

a_ij为连接矩阵中的元素，

为重构的连接矩阵中的元素。

使用梯度下降法最小化损失函数L_res＝L_res-c+0.0001×L_res-g，最小化损失函数的过程中，不断循环训练初始图自编码器模块，例如，取循环次数为500次，最小化损失函数完成后，得到图自编码器模块。

第三方面，本发明实施例还提供一种单细胞聚类装置。

进一步地，一实施例中，参照图4，图4为本发明单细胞聚类装置一实施例的功能模块示意图。如图4所示，单细胞聚类装置，包括：

第一构造模块10，用于基于单细胞样本点和簇中心的相似度构造分布Q和目标分布P；

第二构造模块20，用于基于分布Q与目标分布P构造第一损失函数；

降维模块30，用于对样本特征矩阵进行降维，得到降维后的样本特征矩阵；

传输模块40，用于将降维后的样本特征矩阵和连接矩阵传入低通滤波图卷积模块，得到概率矩阵；

第三构造模块50，用于基于目标分布P和概率矩阵构造第二损失函数；

训练模块60，用于根据第一损失函数和第二损失函数得到新的概率矩阵；

获取模块70，用于从新的概率矩阵中获取单细胞样本点的聚类结果。

进一步地，一实施例中，所述单细胞聚类装置还包括计算模块，用于：

获取样本特征矩阵；

计算单细胞样本点和簇中心的相似度。

进一步地，一实施例中，计算模块还用于：

基于连接矩阵和重构的连接矩阵得到第四损失函数；

进一步地，一实施例中，第一构造模块10，用于：

基于分布Q得到目标分布P，其中，P＝[p_ie]，

进一步地，一实施例中，第二构造模块20，用于：

构造第一损失函数L_clu为分布Q与目标分布P的KL散度，其中，

进一步地，一实施例中，降维模块30，用于：

进一步地，一实施例中，传输模块40，用于：

其中，上述单细胞聚类装置中各个模块的功能实现与上述单细胞聚类方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

第四方面，本发明实施例还提供一种可读存储介质。

本发明可读存储介质上存储有单细胞聚类程序，其中所述单细胞聚类程序被处理器执行时，实现如上述的单细胞聚类方法的步骤。

其中，单细胞聚类程序被执行时所实现的方法可参照本发明单细胞聚类方法的各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。