CN111785329B - 基于对抗自动编码器的单细胞rna测序聚类方法 - Google Patents

基于对抗自动编码器的单细胞rna测序聚类方法 Download PDF

Info

Publication number
CN111785329B
CN111785329B CN202010723087.0A CN202010723087A CN111785329B CN 111785329 B CN111785329 B CN 111785329B CN 202010723087 A CN202010723087 A CN 202010723087A CN 111785329 B CN111785329 B CN 111785329B
Authority
CN
China
Prior art keywords
clustering
data
encoder
loss
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010723087.0A
Other languages
English (en)
Other versions
CN111785329A (zh
Inventor
郭延明
武与伦
肖延东
老松杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202010723087.0A priority Critical patent/CN111785329B/zh
Publication of CN111785329A publication Critical patent/CN111785329A/zh
Application granted granted Critical
Publication of CN111785329B publication Critical patent/CN111785329B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本说明书一个或多个实施例提供基于对抗自动编码器的单细胞RNA测序聚类方法,综合了特定生物噪声建模,变异推断和深度聚类建模的优势。我们的模型约束了数据结构,并通过AAE模块进行聚类分析。在三个真实的scRNA‑seq数据集上进行的实验表明,与最新技术在聚类准确度,标准化互信息和调整兰德系数上相比,本方法的聚类性能都要好得多。

Description

基于对抗自动编码器的单细胞RNA测序聚类方法
技术领域
本说明书一个或多个实施例涉及RNA测序技术领域,尤其涉及一种基于对抗自动编码器的单细胞RNA测序聚类方法。
背景技术
单细胞RNA测序(scRNA-seq)技术的进步使其能通过提供比常用批量RNA测序更高的分辨率的转录组个体细胞差异解决方案,彻底改变了转录组学研究。该技术使研究人员能够系统地研究细胞异质性,细胞发育轨迹以及跨大量细胞的肿瘤亚群的分类,而无监督聚类是分析scRNA-seq以实现上述任务的重要步骤。只有在聚类后,才能识别细胞类型,之后研究人员才能进一步描绘细胞功能状态并推断潜在的细胞动力学。
尽管聚类是传统的机器学习研究的领域之一,并且已经有一些代表性的方法,例如k均值和谱聚类等,但是由于scRNA-seq原始数据中的基因表达值的缺失,对这种数据的聚类分析仍然是一个挑战。这种数据缺失指的是存在一些错误的零计数,这可能是由于低测序深度和其他技术中的噪音或技术水平限制从而导致基因计数矩阵中没有记录的数据。如图1所示,不同的热力图颜色表示不同的基因表达水平(基因计数矩阵中的值)。显然,细胞中的大多数基因表达水平非常低,只有少数基因表达超过0。因此,这种缺失使scRNA-seq数据非常稀疏,让传统的聚类方法无法很好地处理该数据。为了缓解这个问题,当前已经提出了几种针对scRNA-seq数据的特定聚类算法,包括SNN-Clip,SIMLR和MPSSC。但是,它们在大型数据集上的计算成本很高,并且聚类性能仍然较差。
发明内容
有鉴于此,本说明书一个或多个实施例的目的在于提出一种基于对抗自动编码器的单细胞RNA测序聚类方法,以解决聚类性能较差的问题。
基于上述目的,本说明书一个或多个实施例提供了一种基于对抗自动编码器的单细胞RNA测序聚类方法,包括以下步骤:
利用基于深度技术自动编码器方法的零膨胀负二项分布特定损失函数对输入的数据进行数据重建,得到无噪音数据,并构建一个由编码器,中间隐藏层和解码器三部分构成的自动编码器框架,利用自动编码器的中间隐藏层中学习到隐藏层特征向量;
利用对抗自编码器对隐藏层特征向量的先验分布进行约束,将隐藏层特征向量的聚合后验与先验分布进行匹配;
使用负二项分布特定损失函数作为重建损失函数,并使用改进深度嵌入聚类进行聚类,计算聚类损失;
联合优化约束特征的重建损失和聚类损失,迭代地更新聚类标签分配。
优选地,利用基于深度技术自动编码器方法的零膨胀负二项式分布损失函数对输入的数据进行数据重建,得到无噪音数据包括,
通过负二项式分布的均值和离散度以及代表数据缺失概率的附加系数估算零膨胀负二项式分布损失函数:
ZINB(X|π,μ,θ)=πδ0(X)+(1-π)NB(X|μ,θ)
其中μ表示负二项式分布的均值,θ表示离散度,π表示数据缺失概率的附加系数,ZINB表示零膨胀负二项式分布损失函数;
将零膨胀负二项式分布损失函数作为重建损失函数对输入的数据进行数据重建,得到无噪音数据。
优选地,利用对抗自编码器对隐藏层特征向量的先验分布进行约束包括:
在自动编码器的中间隐藏层顶部添加一个判别器,将自动编码器修改为对抗自编码器;
将编码器函数和解码器函数分别定义为和/>其中Z表示隐藏层的特征,权重WE和WD分别是编码器和解码器中的待学习参数;
将自动编码器中间隐藏层的潜在特征和来自先验分布的一组相同维度大小的真实样本输入判别器,利用二进制交叉熵损失来训练和更新参数,其中Ld代表判别器的损失函数:
将自动编码器作为生成器进行训练,以混淆判别器,并让判别器判断编码器生成的输入样本为真实样本;
其中Lg代表判别器的损失函数,zi表示真实样本,D表示判别器,Si表示自动编码器中间隐藏层的潜在特征;
优选地,在利用二进制交叉熵损失来训练和更新参数之前,方法还包括:
将零均值高斯随机噪声添加到编码器的每一层,使模型更健壮。
优选地,使用负二项分布特定损失函数作为重建损失函数,并使用IDEC进行聚类,计算聚类损失包括:
将解码器的最后一层替换为三个独立的全连接层,且三个独立的全连接层的维度与输入数据相同,解码器的架构为:
De=GWD(H)
Φ=sigmoid(WπDe)
其中,H表示瓶颈层的输出,WM,Wπ和Wθ分别代表最后三个全连接层中的待学习参数。尺度因子sf是一个独立的生物学变量,由原始数据的库大小和细胞中位数计算得出;
ZINB分布的重建损失函数是ZINB分布的负对数变换
Lr=-log(ZINB(X|π,μ,θ))
在辅助目标分布P和样本特征中软聚类标签的分布Q之间的KL散度计算得到聚类损失,
优选地,本方法还包括:
联合优化约束特征的重建损失和聚类损失,迭代地更新聚类标签分配,模型的目标函数定义为
L1=Lr+Lg
相对于聚类中心μj和隐藏层特征样本zi的Lc的梯度计算如下
在聚类过程中,聚类中心μj通过以下方式更新
从上面所述可以看出,本说明书一个或多个实施例提供的基于对抗自动编码器的单细胞RNA测序聚类方法,综合了特定生物噪声建模,变异推断和深度聚类建模的优势。我们的模型约束了数据结构,并通过AAE模块进行聚类分析。在三个真实的scRNA-seq数据集上进行的实验表明,与最新技术在聚类准确度,标准化互信息和调整兰德系数三个指标上相比,本方法的聚类性能都要好得多。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为背景技术中的scRNA-seq聚类任务示意图;
图2为本说明书一个或多个实施例的基于对抗自动编码器的单细胞RNA测序聚类方法流程示意图;
图3为本说明书一个或多个实施例的AAE-SC模型结构示意图;
图4为本说明书一个或多个实施例的AAE-SC模型聚类效果图;
图5为本说明书一个或多个实施例的scdeepCluster模型聚类效果图;
图6为本说明书一个或多个实施例的DCA模型聚类效果图;
图7为本说明书一个或多个实施例的network-128超参数选择实验结果图;
图8为本说明书一个或多个实施例的network-256超参数选择实验结果图;
图9为本说明书一个或多个实施例的network-64超参数选择实验结果图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,对本公开进一步详细说明。
需要说明的是,除非另外定义,本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
本说明书一个或多个实施例公开了一种基于对抗自动编码器的单细胞RNA测序聚类方法,并提出一种AAE-SC(基于对抗自动编码器的scRNA-seq聚类框架)。
早期的研究人员应用传统的聚类算法来分析scRNA-seq数据。SNN-Clip通过基于图社区发现算法来识别紧密连接的细胞群。它利用共享最近邻的概念来计算细胞相似度从而来发现潜在的社区。在这之后,研究人员提出了几种基于k均值的算法。RaceID利用k均值来揭示稀有肠道细胞类型的异质性。SAIC运用迭代k均值(k-means)来识别将单个细胞分为不同簇的特征基因的最佳子集。但是,由于k-means是一种贪婪算法,因此这些方法可能无法找到其全局最优值。此外,k均值对异常值非常敏感,因为它倾向于识别球形簇,导致检测稀有细胞类型可能会发生失败。为了克服上述缺点,RaceID2用k-medoids聚类替换了k均值算法,后来改进的版本RaceID3添加了随机森林算法以改善聚类的准确性。一些学者还试图通过谱聚类法确定细胞群的多样性。SIMLR使用高斯核和辅助谱聚类来学习更好的距离度量,以对scRNA-seq的特殊稀疏结构进行建模。此外,SIMLR可以处理噪声较大的大规模数据集。MPSSC创新地使用了L1惩罚来通过多核谱聚类来表征数据的稀疏性。
SinNLRR在细胞的相似矩阵上施加非负和低秩结构,然后利用谱聚类来检测细胞类型。
尽管这些方法提高了在scRNA-seq数据上的聚类性能,但是它们通常扩展性不强,在处理大规模数据集时需要巨大的计算资源和空间。一些使用Louvain算法检测社区的可扩展工具(如Seurat和SCANPY)在大规模数据集上的时间复杂度较低,但它们可能找不到较小的细胞集群簇,因此降低了聚类的准确性。
最近,深度学习在生物信息学的许多领域都取得了重大突破。在所有深度学习技术中,自动编码器是迄今为止最受欢迎的无监督算法之一。当前已经有许多自动编码器方法旨在更有效和准确地处理scRNA-seq数据。Lin等人尝试通过具有先验生物学知识的神经网络来减少scRNA-seq数据的大小。scScope使用堆叠式自动编码器来构建递归模型,并进行批量效应去除,数据缺失归因和细胞亚群鉴定。Talwar等人受到自动编码器在稀疏矩阵插补在推荐系统的协同过滤中的最新成功的启发而提出了AutoImpute,该方法也基于自动编码器,通过关注输入稀疏矩阵中的非零信息,利用自动编码器来重新生成估算表达式矩阵。随后,诸如VASC和scvis之类的一些算法都利用变分自动编码器(VAE)来表征scRNA-seq的数据结构。VASC对数据缺失问题进行了建模,并试图找到原始数据的非线性分层特征表示,而scvis推断了低维潜在变量的近似后验分布,并因此学习了从高维空间到低维嵌入的参数映射。
推断模型DCA(深度技术自动编码器)将传统自动编码器的重建损失调整为基于ZINB模型的特殊损失函数,该算法在输出层构造了一个带有三个神经元节点的去噪自动编码器,分别代表去噪数据的平均值和ZINB分布的两个参数。它对scRNA-seq数据特殊的稀疏结构进行建模并推断了scRNA-seq数据的数据缺失事件。scDeepCluster(sc深度聚类)在DCA的基础上,添加了一个额外的深度聚类层,该层来自改进深度嵌入聚类算法(IDEC),并且在预训练DCA之后可以迭代地更新聚类簇分配。scDeepCluster在聚类任务方面的性能优于DCA,并成为scRNA-seq聚类任务中的最先进方法。
在本说明书中,首先对本方法的基准模型scDeepCluster进行介绍。
scDeepCluster具有特定ZINB损失函数的DAE(去噪自动编码器)和IDEC层组成。为了使自动编码器更鲁棒,DAE将额外的高斯噪声添加到输入样本中,并尝试从带噪音的数据中重建原始的输入数据。在DAE中,编码器和解码器均由全连接层组成,这些层的宽度与原始数据维度相比是低维的。通过重建无噪音的数据,DAE中间的隐藏层就可以学习有效的低维数据特征表示。尽管学界通常的做法是利用均方误差(MSE)损失来完成传统AE(自动编码器)和DAE中的数据重建过程,但scRNA-seq数据太稀疏,以致MSE损失无法很好地重建原始数据。因此,scDeepCluster利用基于DCA方法的ZINB分布特定损失函数来进行数据重建。这种分布已经显示了其对高度稀疏和过度分散的数据进行建模的有效性。ZINB可以通过负二项式分布的均值μ和离散度θ以及代表数据缺失概率的附加系数π来估算:
其中X代表原始输入数据。scDeepCluster在解码器的末端使用三个独立的全连接层来估计上述参数。
ZINB(X|π,μ,θ)=πδ0(X)+(1-π)NB(X|μ,θ)
为了更好地进行聚类,scDeepCluster还采用了IDEC的深度聚类方法,而不是直接使用传统的聚类算法(例如k-means)。从DAE的隐藏层获取低维的数据特征后,scDeepCluster使用与IDEC相同的聚类方法。该方法首先计算样本特征中软聚类标签的分布Q,然后基于Q定义辅助目标分布P。最后,聚类损失定义为P和Q之间的Kullback-Leibler(KL)散度,如下所示:
其中qij是样本zi的软标签。此变量用于通过学生t分布来衡量样本zi和聚类中心μj的相似性。之后,scDeepCluster迭代地使用自训练策略来计算具有先前qij的辅助目标分布pij
除了在scDeepCluster的基础上使用特殊的先验ZINB分布对解码器输出的重建数据进行建模外,我们还约束DAE中间隐藏层特征的先验分布,以保留潜在的数据结构并生成更适合后续聚类的特征。近期的研究通常使用像AAE(对抗自动编码器)这样的变分推理来将自动编码器潜在特征的聚合后验与任意先验分布进行匹配,并且已被证明在许多领域都是有效的。因此,我们通过在中间隐藏层顶部添加一个判别器D从而将scDeepCluster中的DAE修改为AAE,并使用原始的编码器作为生成器。
基于scDeepCluster中DAE的实现,输入数据被一个零均值高斯随机噪声所扰乱,我们将编码器和解码器函数定义为和/>其中Z表示隐藏层的特征。权重WE和WD分别是编码器和解码器中的待学习参数。除了在原始数据上添加噪声进行扰动外,我们还将零均值高斯随机噪声添加到编码器的每一层,并使模型更健壮。
类似于生成对抗网络(GAN),AAE在自动编码器上使用对抗训练自动编码器和判别器,以将隐藏层特征向量的聚合后验与先验分布进行匹配,目的是学习更好的映射功能和隐藏层中间特征。AAE的附加判别器也由全连接层组成,其最后一层的输出维度设置为1,以确定输入样本的真实性。判别器的输入是DAE中间隐藏层的潜在特征,以及来自先验分布的一组相同维度大小的随机采样数据。从先验分布生成的数据是真实数据,其标签设置为1,而潜在特征的标签设置为0,并被视为伪数据。判别器网络利用二进制交叉熵损失来训练和更新参数:
与具有独立生成器的GAN结构不同,对抗自动编码器将原来自动编码器的编码器部分作为生成器进行训练,以混淆判别器D,并让D判断编码器生成的输入样本为真实样本:
经过上述的对抗训练过程,隐藏层特征就可以与规定的先验分布对齐,整个AAE框架很好地学习了输入数据到低维特征空间的映射,并适用于之后的聚类分析。
除了通过AAE进行数据分布的推断外,我们的方法还使用ZINB损失作为重建损失函数,并使用IDEC层进行之后的聚类。为了估计上面的ZINB分布的三个参数,我们将解码器的最后一层替换为三个独立的全连接层,并且它们的维度与输入数据相同。因此,解码器的架构如下所示(H表示AAE-SC中瓶颈层的输出):
De=GWD(H)
Φ=sigmoid(WπDe)
其中WM,Wπ和Wθ分别代表最后三个全连接层中的待学习参数。尺度因子sf是一个独立的生物学变量,由原始数据的库大小和细胞中位数计算得出。ZINB分布的重建损失函数是ZINB分布的负对数变换:
Lr=-log(ZINB(X|π,μ,θ))
AAE-SC在AAE的隐藏层之上还具有一个IDEC层用来聚类。我们按照文献上的描述进行设置,其聚类损失是通过在P和Q之间的KL散度计算得出的,如下所示:
本方法的模型有两个训练阶段:1)对抗训练和重建阶段的结合,旨在在重建在噪音的原始数据的同时约束隐藏层编码的先验分布。2)联合优化上述约束特征的重建损失和聚类损失,并迭代地更新聚类标签分配。模型的目标函数定义如下:
L1=Lr+Lg
其中α是一个聚类系数,用于调整聚类损失以避免聚类空间失真。对应于L1和L2的预训练阶段的损失表示聚类过程中的目标函数。
L2=Lr+αLc
上述损失函数均可以通过随机梯度下降(SGD)和反向传播来优化和更新所有三个部分的参数。
具体来说,如IJCAI,2017,pp.1753–1759中的文献《Improved deep embeddedclustering with local structure preservation》和International conference onmachine learning,2016,pp.478–487中的文献《Unsupervised deep embedding forclustering analysis》中预训练阶段的损失表示聚类过程中的目标函数所述,相对于聚类中心μj和隐藏层特征样本zi的Lc的梯度可以计算如下:
在聚类过程中,聚类中心μj通过以下方式更新:
在本部分中,我们将AAE-SC与其他最新的scRNA-seq聚类方法分为两大类进行定量比较:传统聚类模型和深度学习模型。
(一)数据集概述
我们在来自不同测序平台的三个真实scRNA-seq数据集上评估了所提出的AAE-SC模型。本文使用的所有数据集都是公开可用的数据集的统计信息汇总在表1中。详细信息如下表1所示:
表1
10X PBMC:此数据集是从10X scRNA-seq平台下载的。它测量从健康供体收集的外周血单个核细胞的转录组。数据集中有4000多个具有16,000个基因的细胞。该数据集具有8个不同的细胞集群。
小鼠膀胱细胞(Mouse Bladder Cells):此数据集来自期刊Cell,vol.172,no.5,pp.1091–1107,2018的文献《Mapping the mouse cell atlas by microwell-seq》中的Mouse Cell Atlas项目。我们从总共40万个单细胞数据中选择小鼠的膀胱组织细胞数据,它们可以分为16个不同的细胞集群。
蠕虫神经元细胞(Worm Neuron Cells):它是由sci-RNA测序平台分析的蠕虫细胞数据集。先前的研究人员已经在L2幼虫阶段测量了约50,000个来自线虫的细胞,并确定了相应的细胞类型。按照期刊Science,vol.357,no.6352,pp.661–667,2017题为《Comprehensive single-cell transcriptional profiling of a multicellularorganism》的文献中的方法,我们选择这些神经细胞的子集并删除未标记的个体。因此,我们使用的数据集由4186个细胞和超过10,000个基因组成。该数据集共有10个不同的细胞集群。
(二)对比算法概述
为了评估我们提出的AAE-SC的性能,我们将其与以下八种算法进行比较,它们都是传统聚类方法和基于深度学习的方法中的代表性工作。这些方法的说明如下:
PCA+k-均值:此方法首先利用PCA(主成分分析)来减少原始高维数据的维度,然后使用k均值将类标签分配给每个数据点。
SIMLR:该算法采用多核学习来获取合适的距离度量,该距离度量可以对scRNA-seq数据的稀疏性进行建模。
MPSSC:MPSSC尝试通过使用L1惩罚约束稀疏性并利用多核学习来进行分析。
DEC:DEC是一种使用深度学习方法解决聚类任务的开创性方法。
IDEC:IDEC通过共同优化重建损失和聚类损失来对DEC进行改进。
Scvis:scvis利用深度生成模型VAE来学习scRNA-seq的潜在数据特征
DCA:DCA扩展了具有特定ZINB损失函数的传统DAE,作为新的重建损失来表征scRNA-seq中的数据缺失问题。
scDeepCluster:该算法通过在DCA的基础上添加一个额外的IDEC层来改进聚类任务的表现。该方法也是我们的AAE-SC的基准模型。
(三)评价指标
在我们的实验中,使用三个指标聚类准确度(ACC),标准化互信息(NMI)和调整兰德系数(ARI)来评估AAE-SC模型,这三个指标被广泛用于无监督学习场景的模型性能评价中。
ACC(聚类准确度):ACC用于测量分配给样本的聚类标签及其真实标签的匹配程度。给定样本i,分配标签pi及其基本标签ti,ACC的计算公式为:
其中n是样本点的数量,map(·)表示分配的标签和真实标签之间的最佳映射。这个指标的计算可以通过带有多项式时间的匈牙利算法来解决。
NMI(标准化互信息):NMI从信息论的角度衡量两个聚类簇的相似性。它定义为:
其中I(T,P)表示真实标签T和模型预测的分配标签P之间的互信息。H(·)表示标签的熵。n是批处理样本的大小。
ARI(调整兰德指数):ARI通过计算从原始RI(兰德指数)改善的配对关系来评估两个聚类结果之间的相似性。给定真实标签T和预测的聚类标签分配P,我们首先计算四个数学量:
a:在T和P中被分为相同簇的样本对的数量。
b:在T和P中被分成不同簇的样本对的数量。
c:在P中被划分为相同簇但在T中被划分为不同簇的样本对的数量。
d:在P中分为不同簇但在T中相同的样本对的数量。
然后ARI定义为:
ACC和NMI的取值范围均为[0,1],而ARI的取值范围为[-1,1]。对于所有三个指标,都是得分越高表明聚类结果越准确。
(四)参数设置
在实验中,我们使用与基准模型scDeepCluster相同数量的层来构建AAE-SC网络架构。我们将编码器网络尺寸设置为input-128-64-32,其中input代表输入数据的尺寸,解码器与编码器具有对称结构。此外,我们构建了尺寸为32-128-64-32-1的判别器网络。鉴别器的最后一层的激活函数为sigmoid,而其他全连接层的输出均由ReLU激活。在预训练阶段,我们对所有数据集使用优化器Adam,其学习率为0.001,在之后的聚类阶段,我们应用优化器Adadelta并将学习率设置为1.0。
在本文中,我们使用标准正态分布N(0,1)作为先验分布来对齐隐藏层的数据特征。AAE-SC模型的全连接层中的所有权重均使用Glorot均匀方法进行初始化。我们首先通过300次迭代对整个模型进行预训练,然后开始聚类阶段。在下一节中,我们将进行额外的实验来确定参数α的更合适的值。其余的超参数设置与scDeepCluster相同。
(一)定量分析
表2中总结了各算法在三个真实scRNA-seq数据集的聚类表现。
表2
我们首先将模型与三种传统方法进行比较:PCA+k均值,SIMLR和MPSSC。PCA+k均值算法被认为是聚类领域中一种经典的传统方法,与这种方法相比,AAE-SC具有巨大的优势,在所有三个数据集上总体提高了17%-32%。由于PCA方法仅专注于减小数据的维数,而未提取有效的聚类特征,因此导致最终聚类效果不佳。通过采用谱聚类的方法,SIMLR和MPSSC相对于PCA+k均值方法取得了显著的性能提高。尽管频谱聚类比普通的PCA+k均值方法更好,但是SIMLR无法有效地建模scRNA-seq数据中存在的大量噪声和数据缺失事件。MPSSC在谱聚类的基础上增加了一个额外的L1惩罚损失,因此其性能优于SIMLR。但是,这种人为设计的约束不能完全模拟scRNA-seq数据的基本特征。结果,它们的性能也不如我们提出的AAE-SC。
DEC和IDEC是使用自动编码器进行聚类的早期深度学习方法。在IDEC中,保留了解码器结构以用于DEC的后续聚类,所以可以很明显的观察到,IDEC在所有三个数据集上的性能均优于DEC。但是,由于scRNA-seq数据与传统图像数据有很大不同,并且这两种算法不是专门针对scRNA-seq数据聚类的任务而设计的,因此它们在此类数据上的实验结果甚至比传统的MPSSC方法还要差。另一方面,尽管DCA和scvis分别通过特定的ZINB损失和方差推断模型VAE来建模scRNA-seq数据,但它们都忽略了利用深度聚类的优势去进行聚类分析。因此,它们只能达到与传统谱聚类算法相似的性能,而不能反映出深度学习处理大数据的能力。
我们的基准模型scDeepCluster遵循DEC和IDEC的方法来添加了一个额外的深度聚类层,该层连接了DCA模型的隐藏层。这样,scDeepCluster不仅可以通过ZINB损失有效地建模和描述scRNA-seq数据,而且可以通过深度聚类层增强后续聚类任务的效果,因此它优于上述的所有方法,成为之前的最先进算法。与scDeepCluster相比,我们改进的模型约束了隐藏层的数据特征,以防止在特征学习和聚类过程中造成数据结构失真,并且可以在10XPBMC和小鼠膀胱细胞上显示出明显的聚类性能改进。特别是在10X PBMC的实验中,我们的模型在ACC和ARI指标上都比原始scDeepCluster高出约5%。这表明在隐藏层中保持数据结构的重要性,而AAE确实可以提高聚类的表现。
如上所述,通过在DCA上添加额外的深度聚类层来改进scDeepCluster,然后我们的AAE-SC使用AAE来约束scDeepCluster的隐藏层特征。为了更直观地评估AAE-SC的聚类效果和有效性并与这两种基准方法相比,我们使用TSNE方法可视化AAE-SC,scDeepCluster和DCA在10X PBMC数据集上的隐藏层数据特征表示。
在图4-图6中可以明显地看到,DCA中同一细胞集群中的样本不能很好地聚集,而利用额外的群集层,scDeepCluster的聚类效果明显优于DCA。尽管scDeepCluster使相似的细胞紧凑分布并变得密集,但是它无法很好地分隔一些不同的细胞集群(例如群集1&7和群集2&3)。我们的AAE-SC克服了以上问题,并将细胞样本很好地分为不同的集群,这将对后续的生物学分析非常有益。
我们要进一步研究聚类系数α对聚类效果的影响。我们的目标是找到一个合适的α值,以便改良最终的聚类效果。此外,我们希望我们的最终模型不会对系数α的变化过于敏感。也就是说,模型的性能不应随α的变化而波动太大。因此,我们还研究了不同网络宽度对模型性能的影响,特别的,我们更改了对抗自动编码器网络第一层的宽度,以观察参数变化所带来的振荡和影响。
我们对数据集10X PBMC进行了额外的实验,以研究系数α和网络宽度对聚类效果的影响。如图7-图9所示,α的值是从[1.0,1.1,1.2,1.3,1.4,1.5]中采样的,三个网络的对抗自动编码器的第一和对称的最后一层设置为64,128和256。值得一提的是,256与我们的基准模型scDeepCluster的设置相同。从图4可以直观地看到,network-128(在第一层和最后一层有128个节点)比其他两个网络具有更好的性能,并且当α达到1.5时,network-128在实验中的所有三个指标均达到最佳性能。我们还可以观察到,该网络对α的变化不是很敏感,并且三个指标的波动性也不是很大。至于中间子图的network-256,NMI指标的值对α的变化非常敏感,显示出很大的波动性。我们还尝试进一步减小网络的宽度,即第一层的宽度变为64(这与网络中第二层的宽度相同),但结果表明它无法达到良好的性能与原始network-256和我们选择的network-128相同。此外,这三个指标在实验过程中均显示出巨大的波动。因此,我们建议选择α到1.5,并采用轻量级网络,在AAE-SC模型中将第一层和最后一层的宽度减小到128。
可见,本方法提出的AAE-SC,这是一种面向单细胞RNA-seq数据的聚类模型,该模型综合了特定生物噪声建模,变异推断和深度聚类建模的优势。我们的模型约束了数据结构,并通过AAE模块进行聚类分析。在三个真实的scRNA-seq数据集上进行的实验表明,与最新技术在三个评价指标(聚类准确度,标准化互信息和调整兰德系数)上相比,AAE-SC的聚类性能都要好得多。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本说明书一个或多个实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本说明书一个或多个实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此,这些描述应被认为是说明性的而不是限制性的。
本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (1)

1.一种基于对抗自动编码器的单细胞RNA测序聚类方法,其特征在于,包括:
利用基于深度技术自动编码器方法的零膨胀负二项分布损失函数对输入的单细胞RNA测序数据进行数据重建,得到无噪音数据,并构建一个由编码器,中间隐藏层和解码器三部分构成的自动编码器框架,利用自动编码器的中间隐藏层学习到隐藏层特征向量;
利用对抗自编码器对隐藏层特征向量的先验分布进行约束,将隐藏层特征向量的聚合后验与先验分布进行匹配;
使用负二项分布损失函数作为重建损失函数,并使用改进深度嵌入聚类进行聚类,计算聚类损失;
联合优化约束特征的重建损失和聚类损失,迭代地更新单细胞RNA测序数据聚类标签分配;
所述利用基于深度技术自动编码器方法的零膨胀负二项式分布损失函数对输入的数据进行数据重建,得到无噪音数据包括,
通过负二项式分布的均值和离散度以及代表数据缺失概率的附加系数估算零膨胀负二项式分布损失函数:
ZINB(X|π,μ,q)=pd0(X)+(1-p)NB(X|μ,q)
其中μ表示负二项式分布的均值,q表示离散度,π表示数据缺失概率的附加系数,ZINB表示零膨胀负二项式分布损失函数;
将零膨胀负二项式分布损失函数作为重建损失函数对输入的数据进行数据重建,得到无噪音数据;
其特征在于,所述利用对抗自编码器对隐藏层特征向量的先验分布进行约束包括:
在自动编码器的中间隐藏层顶部添加一个判别器,将自动编码器修改为对抗自编码器;
将编码器函数和解码器函数分别定义为和/>其中Z表示隐藏层的特征,权重WE和WD分别是编码器和解码器中的待学习参数;
将自动编码器中间隐藏层的潜在特征和来自先验分布的一组相同维度大小的真实样本输入判别器,利用二进制交叉熵损失来训练和更新参数,其中Ld代表判别器的损失函数:
将自动编码器作为生成器进行训练,以混淆判别器,并让判别器判断编码器生成的输入样本为真实样本;
其中Lg代表判别器的损失函数,zi表示真实样本,D表示判别器,Si表示自动编码器中间隐藏层的潜在特征;
在利用二进制交叉熵损失来训练和更新参数之前,所述方法还包括:
将零均值高斯随机噪声添加到编码器的每一层,使模型更健壮;
所述使用负二项分布损失函数作为重建损失函数,并使用IDEC即改进深度嵌入聚类算法进行聚类,计算聚类损失包括:
将解码器的最后一层替换为三个独立的全连接层,且三个独立的全连接层的维度与输入数据相同,解码器的架构为:
De=GWD(H)
F=sigmoid(WpDe)
Q=exp(WqDe)
其中,H表示瓶颈层的输出,WM,Wp和Wq分别代表最后三个全连接层中的待学习参数,尺度因子sf是一个独立的生物学变量,由原始数据的库大小和细胞中位数计算得出;
ZINB分布的重建损失函数是ZINB分布的负对数变换
Lr=-log(ZINB(X|π,μ,q))
在辅助目标分布P和样本特征中软聚类标签的分布Q之间的KL散度计算得到聚类损失,
所述方法还包括:
联合优化约束特征的重建损失和聚类损失,迭代地更新聚类标签分配,
模型的目标函数定义为
L1=Lr+Lg
相对于聚类中心mj和隐藏层特征样本zi的Lc的梯度计算如下
在聚类过程中,聚类中心mj通过以下方式更新
CN202010723087.0A 2020-07-24 2020-07-24 基于对抗自动编码器的单细胞rna测序聚类方法 Active CN111785329B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010723087.0A CN111785329B (zh) 2020-07-24 2020-07-24 基于对抗自动编码器的单细胞rna测序聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010723087.0A CN111785329B (zh) 2020-07-24 2020-07-24 基于对抗自动编码器的单细胞rna测序聚类方法

Publications (2)

Publication Number Publication Date
CN111785329A CN111785329A (zh) 2020-10-16
CN111785329B true CN111785329B (zh) 2024-05-03

Family

ID=72764082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010723087.0A Active CN111785329B (zh) 2020-07-24 2020-07-24 基于对抗自动编码器的单细胞rna测序聚类方法

Country Status (1)

Country Link
CN (1) CN111785329B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113178233B (zh) * 2021-04-27 2023-04-28 西安电子科技大学 大规模单细胞转录组数据高效聚类方法
CN113222147B (zh) * 2021-05-11 2024-02-13 北华航天工业学院 一种条件双对抗学习推理模型的构建方法
CN113205856B (zh) * 2021-06-22 2022-07-12 南开大学 一种微生物宏基因组分箱方法及系统
CN113611368B (zh) * 2021-07-26 2022-04-01 哈尔滨工业大学(深圳) 基于2d嵌入的半监督单细胞聚类方法、装置、计算机设备
CN114022693B (zh) * 2021-09-29 2024-02-27 西安热工研究院有限公司 一种基于双重自监督的单细胞RNA-seq数据聚类方法
CN113889192B (zh) * 2021-09-29 2024-02-27 西安热工研究院有限公司 一种基于深层降噪自编码器的单细胞RNA-seq数据聚类方法
CN114462548B (zh) * 2022-02-23 2023-07-18 曲阜师范大学 一种提高单细胞深度聚类算法精度的方法
EP4280218A1 (en) * 2022-05-17 2023-11-22 Pierre Fabre Medicament Method of transcriptomic analysis of a biological sample
CN114944194A (zh) * 2022-05-20 2022-08-26 南开大学 一种推断空间转录组内细胞亚群表达模式的方法及系统
CN115394358B (zh) * 2022-08-31 2023-05-12 西安理工大学 基于深度学习的单细胞测序基因表达数据插补方法和系统
CN116312745B (zh) * 2023-05-19 2023-08-08 山西智能大数据研究院有限公司 一种肠道菌群超级供体画像信息检测生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110797089A (zh) * 2019-10-30 2020-02-14 华东交通大学 一种基于单细胞rna测序数据识别细胞类型的方法
CN110870019A (zh) * 2017-10-16 2020-03-06 因美纳有限公司 用于训练深层卷积神经网络集合的半监督学习
CN111259979A (zh) * 2020-02-10 2020-06-09 大连理工大学 一种基于标签自适应策略的深度半监督图像聚类方法
CN111316366A (zh) * 2017-11-08 2020-06-19 皇家飞利浦有限公司 用于同时多变量特征选择、特征生成和样本聚类的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110870019A (zh) * 2017-10-16 2020-03-06 因美纳有限公司 用于训练深层卷积神经网络集合的半监督学习
CN111316366A (zh) * 2017-11-08 2020-06-19 皇家飞利浦有限公司 用于同时多变量特征选择、特征生成和样本聚类的方法
CN110797089A (zh) * 2019-10-30 2020-02-14 华东交通大学 一种基于单细胞rna测序数据识别细胞类型的方法
CN111259979A (zh) * 2020-02-10 2020-06-09 大连理工大学 一种基于标签自适应策略的深度半监督图像聚类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于loess回归加权的单细胞RNA-seq数据预处理算法;高美加;;智能计算机与应用;20200501(第05期);93-97 *

Also Published As

Publication number Publication date
CN111785329A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN111785329B (zh) 基于对抗自动编码器的单细胞rna测序聚类方法
Lin et al. Data-driven missing data imputation in cluster monitoring system based on deep neural network
Khan et al. Multi-objective feature subset selection using non-dominated sorting genetic algorithm
Rahman et al. Feature selection from colon cancer dataset for cancer classification using artificial neural network
Özbılge et al. Tomato disease recognition using a compact convolutional neural network
Araújo et al. Self-organizing subspace clustering for high-dimensional and multi-view data
Gabbay et al. Isolation forests and landmarking-based representations for clustering algorithm recommendation using meta-learning
CN116580848A (zh) 一种基于多头注意力机制的分析癌症多组学数据方法
CN112541530B (zh) 针对聚类模型的数据预处理方法及装置
Yang et al. An artificial bee colony algorithm with a cumulative covariance matrix mechanism and its application in parameter optimization for hearing loss detection models
CN110941542B (zh) 基于弹性网络的序列集成高维数据异常检测系统及方法
Jeyalakshmi et al. Accurate liver disease prediction system using convolutional neural network
Panday et al. A metaheuristic autoencoder deep learning model for intrusion detector system
Zhu et al. Permutation-Invariant Tabular Data Synthesis
KÜÇÜKAŞCI et al. A linear programming approach to multiple instance learning
Tarle et al. Improved artificial neural network for dimension reduction in medical data classification
Adaïmé et al. Deep learning approaches to the phylogenetic placement of extinct pollen morphotypes
Chen et al. Experiments with rough set approach to face recognition
Mousavi A New Clustering Method Using Evolutionary Algorithms for Determining Initial States, and Diverse Pairwise Distances for Clustering
Amalia et al. The Application of Modified K-Nearest Neighbor Algorithm for Classification of Groundwater Quality Based on Image Processing and pH, TDS, and Temperature Sensors
Huang et al. Dynamic boosting in deep learning using reconstruction error
Dennis et al. Random regrouping and factorization in cooperative particle swarm optimization based large-scale neural network training
CN113688229B (zh) 一种文本推荐方法、系统、存储介质和设备
CN110766071B (zh) 一种基于森林自编码器的脑网络数据增强方法
Eluri Feature Extraction In Gene Expression Dataset Using Multilayer Perceptron

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant