CN115661498A

CN115661498A - 一种自优化单细胞聚类方法

Info

Publication number: CN115661498A
Application number: CN202211396184.9A
Authority: CN
Inventors: 吴昊; 孔凤玲; 董庆庆; 夏信; 梁金辉; 罗启明
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2022-11-09
Filing date: 2022-11-09
Publication date: 2023-01-31

Abstract

本发明涉及一种自优化单细胞聚类方法，属于生物信息学中的单细胞RNA测序数据分析技术领域。联合ZINB模型与图注意力自编码器对单细胞RNA测序数据进行去噪，降低了数据噪声对聚类结果的影响，更好的拟合数据特征分布，提高了自编码器的去噪性能，并对数据进行细胞间潜在特征的学习，得到一个初始聚类结果。同时，使用自优化模型对初始聚类结果进行迭代优化，获得最终的聚类结果，提高了细胞聚类结果的准确性。

Description

一种自优化单细胞聚类方法

技术领域

本发明涉及生物信息学中的单细胞RNA测序数据分析技术领域，特别是涉及一种自优化单细胞聚类方法。

背景技术

随着测序技术的快速发展，研究人员获得了大量的单细胞RNA-seq(RNAsequencing，单细胞RNA测序)数据。无监督聚类技术对单细胞RNA-seq数据的分析有着重要的作用，针对单细胞RNA-seq数据的聚类方法不仅可以识别未知的细胞类型，还能够揭示跨组织、发育阶段和生物体等细胞亚群之间的异质性和多样复杂性。通过对单细胞RNA-seq数据的聚类方法研究，研究人员可以更加准确的鉴定细胞状态、了解细胞类型、搭建细胞间的网络结构、深入的理解重大疾病细胞等的分化过程。目前，层次聚类、谱聚类等聚类方法和基于深度神经网络的聚类方法以及基于GNN(Graph Neural Network，图神经网络)的聚类方法已经被广泛使用。但是，这些方法都是针对细胞和基因表达间的关系进行建模，忽略了对细胞间潜在特征关系的充分挖掘以及对噪声的去除，这使得现提出的聚类方法无法充分利用数据间的特征对数据进行有效聚类。

发明内容

本发明的目的是提供一种自优化单细胞聚类方法，能够有效去除单细胞RNA测序数据的噪声，并准确学习单细胞RN测序数据的细胞间潜在特征信息，提高聚类结果的准确性。

为实现上述目的，本发明提供了如下方案：

一种自优化单细胞聚类方法，包括：

获取待分类单细胞序列的单细胞RNA测序数据集；

将单细胞RNA测序数据集输入基于零膨胀负二项分布的降噪自编码器进行重构和去噪，获得去噪后的单细胞RNA测序数据集；

采用主成分分析的方法对所述去噪后的单细胞RNA测序数据集进行降维，获得待分类单细胞序列的特征矩阵；

根据所述特征矩阵，使用K邻近算法获得图邻接矩阵；

将所述特征矩阵和所述图邻接矩阵一起输入图注意力自编码器，获得待分类单细胞序列的初始聚类结果；

利用自优化模型对所述初始聚类结果进行迭代优化，确定待分类单细胞序列最终的聚类结果。

可选的，所述基于零膨胀负二项分布的降噪自编码器、所述图注意力自编码器和所述自优化模型的训练过程为：

获取多个单细胞RNA测序数据集样本；

对每个单细胞RNA测序数据集样本进行数据预处理；

构造所述基于零膨胀负二项分布的降噪自编码器的损失函数，以及所述图注意力自编码器和所述自优化模型的总损失函数；

根据多个预处理后的单细胞RNA测序数据集样本，利用所述损失函数和所述总损失函数对所述基于零膨胀负二项分布的降噪自编码器、所述图注意力自编码器和所述自优化模型一起进行训练。

可选的，所述对每个单细胞RNA测序数据集样本进行数据预处理，具体包括：

使用层次贝叶斯模型调整单细胞RNA测序数据集样本中单细胞RNA测序数据的批次效应，将所有单细胞RNA测序数据整合到同一空间中；

将同一空间中不同来源且相同类型的细胞进行空间对齐；

从空间对齐后的所有单细胞RNA测序数据中筛选有效数据后进行标准化处理；

对标准化处理后的有效数据进行对数转换和Z分数归一化处理，获得预处理后的单细胞RNA测序数据集样本。

可选的，构造所述基于零膨胀负二项分布的降噪自编码器的损失函数，以及所述图注意力自编码器和所述自优化模型的总损失函数，具体包括：

构造基于零膨胀负二项分布的降噪自编码器的损失函数为NLL_ZINB＝-log(ZINB(X|μ，θ))；式中，NLL_ZINB为损失函数，ZINB为零膨胀负二项，X为通过对数转换和Z分数归一化得到的表达式矩阵，μ为平均值，θ为离散度；

构造图注意力自编码器的重构损失函数为

式中，L_r为图注意力自编码器的重构损失函数，

为特征矩阵中第i行、第j列的特征，

为图邻接矩阵中第i行、第j列的特征，m'为特征矩阵的行数，n'为特征矩阵的列数；特征矩阵和图邻接矩阵的行数、列数均相同；

构造自优化模型的聚类损失函数为

式中，L_c为聚类损失函数，P_ij为优化后隶属度矩阵中第i行、第j列的特征，q_ij为优化前隶属度矩阵中第i行、第j列的特征，c为隶属度矩阵的行数，n为隶属度矩阵的列数；

根据所述重构损失函数和所述聚类损失函数，建立总损失函数为L＝L_r+γL_c；式中，L为总损失函数，γ为平衡两个损失函数的超参数。

可选的，所述根据多个预处理后的单细胞RNA测序数据集样本，利用所述损失函数和所述总损失函数对所述基于零膨胀负二项分布的降噪自编码器、所述图注意力自编码器和所述自优化模型一起进行训练，具体包括：

将一个预处理后的单细胞RNA测序数据集样本输入基于零膨胀负二项分布的降噪自编码器进行重构和去噪，获得去噪后的单细胞RNA测序数据集样本；

采用主成分分析的方法对所述去噪后的单细胞RNA测序数据集样本进行降维，获得单细胞序列样本的特征矩阵；

根据单细胞序列样本的特征矩阵，使用K邻近算法获得单细胞序列样本的图邻接矩阵；

将单细胞序列样本的特征矩阵和图邻接矩阵一起输入图注意力自编码器，获得单细胞序列样本的初始聚类结果；

利用自优化模型对单细胞序列样本的初始聚类结果进行迭代优化，确定本次训练最终的聚类结果；

利用每个预处理后的单细胞RNA测序数据集样本依次重复以上训练过程，获得训练后的基于零膨胀负二项分布的降噪自编码器、图注意力自编码器和自优化模型；

从多个单细胞RNA测序数据集中构建具有共同细胞类型的测试数据集；

根据所述测试数据集，利用标准化互信息和调整兰德指数对训练后的基于零膨胀负二项分布的降噪自编码器、图注意力自编码器和自优化模型进行评价。

可选的，在降噪自编码器最后一个隐藏层的后面添加三个独立的全连接层，并设置三个全连接层输出分别表示零膨胀负二项分布的脉冲函数调节因子、负二项分布的均值和稀疏程度，得到所述基于零膨胀负二项分布的降噪自编码器。

可选的，在所述图注意力自编码器中将相似性信息整合到注意力系数中，并使注意力系数通过高斯核变换两个细胞之间的距离进行计算，公式化表示为

式中，e_gl为细胞g和细胞l之间的注意力系数，W为一个可学习的转换矩阵，h_g为细胞g的新特征，h_l为细胞l的输入特征。

可选的，所述图注意力自编码器模型获得待分类单细胞序列的初始聚类结果的聚类过程为：

采用k-means++算法选择多个初始聚类中心；

根据多个初始聚类中心，利用标准的k-means算法进行聚类，获得待分类单细胞序列的初始聚类结果。

可选的，所述利用自优化模型对所述初始聚类结果进行迭代优化，确定待分类单细胞序列最终的聚类结果，具体包括：

采用学生t-分布测量细胞和聚类簇中心之间的相似性；

根据所述相似性，利用公式

计算隶属度矩阵Q；式中，Z_g为细胞g的嵌入，U_s为聚类簇中心s的嵌入，U_k为聚类簇中心k的嵌入，c'为细胞类型的数量；

对隶属度矩阵Q进行优化，利用公式

获得隶属度矩阵P；式中，P_gs为被用来作为Q的目标用来去优化和重新分配细胞之间的关系拓扑图，n'为细胞数量；

根据隶属度矩阵Q和隶属度矩阵P更新嵌入的聚类中心和细胞嵌入，并在每次更新时，利用公式s_f＝(b_f-a_f)/max(b_f-a_f)计算轮廓系数，直到轮廓系数收敛，获得最终的聚类结果；式中，s_f为细胞f的轮廓系数，a_f为细胞f到所在聚类中心的距离，b_f为细胞f到其他聚类中心的距离。

可选的，利用自优化模型对所述初始聚类结果进行迭代优化，确定待分类单细胞序列最终的聚类结果，之后还包括：

使用T分布随机近邻嵌入方法对最终的聚类结果进行可视化，使得最终的聚类结果显示到二维坐标上。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开一种自优化单细胞聚类方法，联合ZINB模型与图注意力自编码器对单细胞RNA测序数据进行去噪，降低了数据噪声对聚类结果的影响，更好的拟合数据特征分布，提高了自编码器的去噪性能，并对数据进行细胞间潜在特征的学习，得到一个初始聚类结果。同时，使用自优化模型对初始聚类结果进行迭代优化，获得最终的聚类结果，提高了细胞聚类结果的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的自优化单细胞聚类方法的流程图；

图2为本发明实施例提供的模型训练的流程图；

图3为本发明实施例提供的模型训练总体网络图；

图4为本发明实施例提供的本发明聚类方法与现有聚类方法的最终聚类可视化图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明提供了一种自优化单细胞聚类方法，将ZINB自编码器和图注意力自编码器等方法结合起来以实现对单细胞RNA测序(single-cell RNA sequencing，以下简称单细胞RNA-seq)数据聚类过程中细胞和基因表达间及细胞间特征的学习、去噪等目的，最后使用自优化对初始的聚类结果进行改进，使原本独立的聚类模块与特征学习模块相互收益，使最终的聚类结果更优。

一种自优化单细胞聚类方法，如图1所示，具体包括以下步骤：

步骤S1，获取待分类单细胞序列的单细胞RNA测序数据集。

步骤S2，将单细胞RNA测序数据集输入基于零膨胀负二项分布的降噪自编码器进行重构和去噪，获得去噪后的单细胞RNA测序数据集。

步骤S3，采用主成分分析的方法对所述去噪后的单细胞RNA测序数据集进行降维，获得待分类单细胞序列的特征矩阵。

步骤S4，根据所述特征矩阵，使用K邻近算法获得图邻接矩阵。

步骤S5，将所述特征矩阵和所述图邻接矩阵一起输入图注意力自编码器，获得待分类单细胞序列的初始聚类结果。

步骤S6，利用自优化模型对所述初始聚类结果进行迭代优化，确定待分类单细胞序列最终的聚类结果。

在基于零膨胀负二项分布的降噪自编码器、图注意力自编码器和自优化模型进行应用前，先对三者进行训练，参照图2，训练过程如下：

1)调整批次效应与数据预处理：

选用从ArrayExpress和GEO数据库中下载的6个公开的真实单细胞RNA-seq数据集来对单细胞进行聚类，这6个公开数据集中的基因表达值取自于各种组织细胞，包括GSE130114、GSE60361、GSE182211、GSE65525、GSE72859和GSE86469，读取原始的单细胞RNA-seq数据并对其进行批次效应调整和数据预处理，避免因为样本数据在不同批次处理和测量时引入的生物状态不关的系统性技术偏差。单细胞RNA-seq数据集对应图3中的D_M×N。

对单细胞RNA-seq数据调整批次效应和数据预处理的步骤包括：首先使用层次贝叶斯模型来调整单细胞数据的批次效应，同时解决测量灵敏度带来的不准确性问题。接着将不同来源的相同类型的细胞在所述单细胞空间对齐，包括：通过构建具有共同的细胞类型的测试数据集，对部分重叠的数据集中的主要细胞类型进行下采样，以组合部分重叠的数据集。然后对单细胞数据进行质量控制、过滤线粒体、低质量细胞和高变基因的选择，对筛选后的数据进行标准化处理。最后再对数据进行对数转换和Z分数归一化处理。

层次贝叶斯模型整合不同批次的数据集，扩大单细胞数据集的数量。本发明使用一个基于Python的单细胞基因表达分析包SCANPY对原始的单细胞RNA-seq数据进行有效筛选和过滤，去除测序质量差的数据，随后将处理的数据作对数转换和Z分数归一化处理，以方便后续的网络学习，更好的拟合数据间的特征分布。数据预处理后的结果为图3中的X_m×n。

2)数据重构与去噪：

将经过对数转换和Z分数归一化预处理后的单细胞RNA-seq数据输入到细胞特征去噪模块ZINB深度计数自编码器中，即自编码器结合DCA(deep count autoencoder)可扩展去噪算法对处理的单细胞RNA-seq数据进行去噪，使用零膨胀负二项分布(ZINB分布)来重构数据，重构的数据能更好地保存生物的原始特征，便于后续更好的聚类。

所使用的细胞特征去噪模块ZINB深度计数自编码器(基于零膨胀负二项分布的降噪自编码器)中通过使用零膨胀负二项分布结合DCA去噪算法对数据去噪并重构单细胞RNA-seq数据，DCA充分考虑了单细胞数据分布过散性和稀疏性，为了更好地捕获单细胞数据，本发明在解码器最后一个隐藏层的后面添加三个独立的全连接层，三个输出分别学习零膨胀负二项分布的脉冲函数调节因子(数据丢失率)、负二项分布的均值和稀疏程度(离散度)。最终用输出层预测的负二项分量的均值替换原始计数值生成的去噪矩阵，ZINB分布的似然函数表示为该模型的损失函数。

待分析单细胞RNA-seq数据使用X来表示，自编码器的解码阶段和编码阶段相对应，将编码后的数据进行重构，自编码器的输入维度和用于训练的单细胞RNA-seq数据的维度一致，编码器和解码器各四层网络架构。近年来针对单细胞数据的科研进展表明，单细胞数据最接近负二项分布(NB)，公式表示为：

因为单细胞数据的离散度通常是高度扭曲的，方差会大于均值，因此不适合采用泊松分布来近似，而单细胞数据的方差会随着均值的改变而改变。除此之外，单细胞数据中还有很多的零值。由于基因表达数据中的零值即可能来自生物过程中不表达的基因，也可能来自测序过程中由于操作技术原因导致的数据丢失。为了更好的捕获细胞与细胞间及细胞与基因间的结构信息，在负二项分布(NB)模型的基础上加入一个零膨胀因子，也可以说是在零点处增加了一个脉冲函数，即使用ZINB分布来建模训练单细胞RNA-seq数据，公式表示为ZINB(x；π,μ,θ)＝πδ(x)+(1-π)NB(x；μ,θ)。本发明使用这些参数的矩阵形式进行损失函数的计算，并将π、μ、θ的矩阵计算形式定义为如下公式Ε＝RELU(XW_E)、B＝RELU(EW_B)、D＝RELU(BW_D)、Π＝sigmoid(DW_π)、

Θ＝exp(DW_θ)，Π、M和Θ分别表示π、μ和θ的矩阵形式。用输出层预测的负二项分量M的均值替换原始计数值生成去噪矩阵X，即该方法的最终输出。基于ZINB模型的自编码器将三个独立的全连接层与解码器的最后一层连接起来，以评估ZINB的三个参数数据丢失的概率、平均值和离散度，并结合DCA可扩展去噪算法对数据去噪，本发明将ZINB去噪模块的损失函数表示为ZINB的负似然分布：NLL_ZINB＝-log(ZINB(X|μ，θ))，

基于ZINB模型的自动编码器可看作是对scRNA-seq数据的低通滤波，在这个过程中相比于其他低通滤波的方式，ZINB能够更好的保持计数矩阵数据中的非零值数据信息受损率更低和进行细胞间特征拟合时更准确，获得的聚类结果更好，因为ZINB分布在对数据处理时把数据分为零值和非零值，使得计数矩阵中大量的零值不会影响到非零值的拟合过程。DCA去噪方法具有很高的鲁棒性并能快速去噪，以及消除数据中的技术差异和捕获真实数据集中细胞群体结构，改善下游分析、更好的促进聚类结果。

数据重构与去噪后的结果对应图3中的去噪数据X_m×n。

3)数据降维与图注意力自编码器聚类：

降噪自编码器重构出的数据维数与原始数据相同，依然是高维的，高维的数据给细胞类型的鉴定带来了非常大的困难，使用主成分分析(PCA)的方法降低样本数据的维度，得到低维去噪的单细胞数据后，使用图注意力自编码器对细胞间的潜在特征也进行学习，得到简单的聚类结果以此来确定细胞类型。

所述步骤3)中使用主成分分析(PCA)方法对重构数据进行初始降维，得到一个新的特征矩阵(对应图3中的

)，并对处降维的数据使用K邻近算法获得图邻接矩阵(对应图3中的A_n×n)；然后将降维后的特征矩阵和邻接矩阵一同映射到图注意力自编码器的低维潜在特征空间中，也将拓扑信息嵌入到细胞的潜在特征空间中，以至于学习到的特征可以更好的进行聚类。

首先，重构后的单细胞RNA-seq数据服从模型

其中D代表解码器，W代表编码器和解码器的权重矩阵，μ表示均值。由于重构后的数据维数与预处理后的数据维度相同，则采用主成分分析(PCA)对重构数据进行初始化降维；然后接着将初始降维的矩阵和邻接矩阵A一同映射到图注意力自编码器中的低维潜在特征空间中，通过注意力系数来测量细胞互相间的重要性。给定一个细胞拓扑结构图，图注意层通过聚合其具有不同权重的相邻细胞的特征来学习细胞间的特征。由于权重是根据细胞及其相邻的特征自动分配的，因此可以自然的捕获细胞间潜在的特征关系，以至于学习到的特征可以更好的进行聚类。具体的来说，图注意层的功能可以描述为

另外，为了测量一个细胞对另一个细胞的重要性，本发明将相似性信息整合到注意力系数中，注意力系数则通过高斯核变换两个细胞之间的距离来进行计算，这样即考虑了细胞间的重要性和对特征进行充分学习，也考虑到数据与聚类间的关系和训练数据的分布对聚类的影响，公式表示为

注意力系数通过softmax函数进行归一化，以便在其他不同的细胞之间进行比较时具有可比性，公式可以表示为：

并且采用多头注意力来稳定特征学习过程，使用G个独立的注意模块共同学习特征，对自动编码器的前三层和最后一层分别使用拼接和平均函数进行聚合操作，可以被表述为：

在整个过程中为了更好的约束学习过程，将图注意力自编码器重构的特征矩阵X^1′(对应图3中的

)与输入的特征矩阵X¹之间使用MAE来计算重构损失：

对应图3中的MAEloss；最后，通过图注意力自编码器网络的训练可以自然的捕获细胞间潜在的特征关系，以至于学习到的特征可以进行较好聚类且确定细胞类型。

所述的使用图注意力自编码器模型进行聚类初始化过程中，采用k-means++来解决质心初始化的问题，其方法是先在数据点之间随机选择一个中心U₁；其次是对于尚未选择的每个数据点X，计算

即X与已经选择的最接近中心之间的距离；然后使用加权概率分布随机选择一个新的数据点作为新中心，其中选择的点X的概率与

成正比，重复上述步骤，直到选择了k个聚类中心(即j＝k)。已经选择了K个初始中心后，使用标准的k-means算法聚类。

4)自优化改进聚类与数据可视化：

经过图注意力自编码器预训练后，使用一种不断迭代自优化的聚类方法，使聚类模块与特征学习模块两个独立的模块能够相互受益，以此来改进最终的聚类结果并更加准确的确定细胞类型，得到的细胞类型即为发现的潜在细胞亚型，采用T分布随机相近邻嵌入方法可视化最终的聚类结果，并结合现有的细胞及相关细胞数据库上的数据对聚类结果进行分析，使研究人员更能够发现新的细胞类型，研究细胞分化和发育轨迹，并提高对人类疾病的理解。

使用自优化模型改进初始的聚类结果，以获得更好的聚类并更准确的确定细胞类型，具体步骤包括：首先采用学生t-分布来测量细胞和聚类簇中心(由k-means初始化)之间的相似性，细胞间的隶属度矩阵Q可以计算为：

然后，基于Q矩阵构造了一个更优化的隶属度矩阵P定义为：

隶属矩阵P_ij被用来作为Q的目标用来去优化和重新分配细胞之间的关系拓扑图，在重新分配之后，平方项会使细胞间的隶属度分布更加明确。根据Q和P来更新嵌入的聚类中心和细胞嵌入，以此获得更好的聚类结果。一方面，为了更好的描述聚类，聚类中心的嵌入是通过每个簇内所有细胞特征的加权平均值进行更新，Q作为权重，公式化表示为：

对应图3中U_d×c，l_i是迭代聚类过程中细胞i的聚类标签。另一方面，为了监督细胞间潜在特征的学习增强底层的聚类结构，将Q(对应图3中Q_c×n)和P(对应图3中P_c×n)之间的KL散度计算为聚类损失，公式计算如下：

对应图3中的KL loss；最后在训练过程中，本发明基于潜在的特征学习来计算轮廓系数以此监测聚类的性能，细胞i的轮廓系数s_i为：s_i＝(b_i-a_i)/max(b_i-a_i)，细胞和集群中心的潜在特征将进行迭代的微调，直到轮廓系数收敛，获得最终的聚类结果及细胞类型的确定，总的损失函数表示为：L＝L_r+γL_c。最后使用T分布随机近邻嵌入方法对最终的聚类结果进行可视化，是聚类结果显示到二维坐标上。

本发明使用的聚类性能评价指标主要包括Normalized Mutual Information(标准化互信息)，Adjusted Rand Index(调整兰德指数)，这两个评价指标的数值越高，表明方法的聚类性能越好。

经过以上训练过程，获得训练好的基于零膨胀负二项分布的降噪自编码器、图注意力自编码器和自优化模型。下面利用训练好的模型对待分类单细胞序列进行聚类，即步骤S1至步骤S6。

其中，步骤S5中图注意力自编码器模型获得待分类单细胞序列的初始聚类结果的聚类过程为：采用k-means++算法选择多个初始聚类中心；根据多个初始聚类中心，利用标准的k-means算法进行聚类，获得待分类单细胞序列的初始聚类结果。

步骤S6中利用自优化模型对所述初始聚类结果进行迭代优化，确定待分类单细胞序列最终的聚类结果，具体包括：采用学生t-分布测量细胞和聚类簇中心之间的相似性；根据所述相似性，利用公式

计算隶属度矩阵Q；式中，Z_g为细胞g的嵌入，U_s为聚类簇中心s的嵌入，U_k为聚类簇中心k的嵌入，c'为细胞类型的数量；对隶属度矩阵Q进行优化，利用公式

获得隶属度矩阵P；式中，P_gs为被用来作为Q的目标用来去优化和重新分配细胞之间的关系拓扑图，n'为细胞数量；根据隶属度矩阵Q和隶属度矩阵P更新嵌入的聚类中心和细胞嵌入，并在每次更新时，利用公式s_f＝(b_f-a_f)/max(b_f-a_f)计算轮廓系数，直到轮廓系数收敛，获得最终的聚类结果；式中，s_f为细胞f的轮廓系数，a_f为细胞f到所在聚类中心的距离，b_f为细胞f到其他聚类中心的距离。

在步骤S6确定待分类单细胞序列最终的聚类结果之后还包括：使用T分布随机近邻嵌入方法对最终的聚类结果进行可视化，使得最终的聚类结果显示到二维坐标上。

图4为本发明的自优化单细胞聚类方法(scZDGAC)与现有聚类方法(scGAE、SCV1、Seurat、SC3、scZiDesk、scDRHA、DESC、scGNN、scDeepCluster和scGAC)的聚类结果比较图，可见，本发明的自优化单细胞聚类方法聚类结果更优。

ZINB自编码器模型是一种无监督的深度学习方法，该方法不仅可以对输入的数据进行有效的降维，还能够更好的保持单细胞RNA-seq数据中的非零值数据信息受损率更低和进行细胞间特征拟合时更准确。DCA去噪方法具有很高的鲁棒性并能快速去噪，以及消除数据中的技术差异和捕获真实数据集中细胞群体结构，改善下游分析、更好的促进聚类结果。

单细胞RNA-seq数据不仅具有高维性，还含有大量的噪声以及具有批次效应，这些噪声通常表现为单细胞数据比较稀疏，大量的零值一方面来源于某些确实没有表达的基因，另一方面则来源于因为测序等技术的缺陷导致没有测出有表达的基因数值，还由于不同平台的数据、同一平台的不同时期的数据、同一样品不同试剂的数据、以及同一样品不同时间的数据等等都会产生一种批次效应。

在对单细胞RNA-seq上数据进行深度聚类的过程中，本发明设计了一种联合ZINB模型与图注意力自编码器的自优化单细胞聚类方法，将自编码器、主成分分析、图注意力自编码器、自优化改进聚类、T分布随机近邻嵌入等方法结合起来解决单细胞RNA数据聚类过程中遇到的特征学习、批次效应、降维、数据整合、聚类和数据可视化等难题，并通过引入零膨胀负二项分布以及结合DCA可拓展去噪方法快速去噪，以及消除数据中的技术差异和捕获真实数据集中细胞群体结构，可应用于数百万细胞的数据集，提高生物发现。

本发明联合ZINB模型与图注意力自编码器对单细胞RNA-seq数据进行去噪，降低了数据噪声对聚类结果的影响，更好的拟合数据特征分布，提高了自编码器的去噪性能，并对数据进行潜在特征的学习执行k-means聚类算法，可以得到一个简单的聚类结果，同时，使用自优化模型对初始的简单的聚类结果进行一个迭代优化，获得更优的聚类结果，最终使用T分布随机近邻嵌入方法可视化聚类结果，不仅可以鉴定细胞亚型，整合不同批次的数据集，扩大单细胞数据集的数量，促进研究人员对细胞类型有更多发现，研究更复杂的细胞分化和发育轨迹。

本发明具有以下优点：

1.降低单细胞数据RNA-seq数据批次效应对最终聚类结果的影响；

2.降低单细胞RNA-seq数据高纬度、高稀疏性、噪声大对聚类结果的影响；

3.对单细胞RNA-seq数据聚类过程中，能够有效学习细胞与基因表达间以及细胞间的特征关系，具备强大的数据表征学习能力；

4.对输入多个不同来源的具有批次效应的单细胞数据，能够很好的进行整合，模型训练后对数据能够很好的拟合数据间的特征分布；

5.聚类结束后具有良好的数据可视化能力。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。