CN117788369A

CN117788369A - 用于基于深度学习无监督识别单细胞形态图谱分析的方法

Info

Publication number: CN117788369A
Application number: CN202311233083.4A
Authority: CN
Inventors: 拉什米·斯里拉马钱德拉·穆尔蒂; 谢坚文
Original assignee: University of Hong Kong HKU
Current assignee: University of Hong Kong HKU
Priority date: 2022-09-27
Filing date: 2023-09-22
Publication date: 2024-03-29
Also published as: US20240112026A1

Abstract

本发明涉及用于自动化可解译和可通用化的生物形态图谱分析的系统和方法。用于基于深度学习识别单细胞形态图谱分析的方法包含：收集并预处理至少一个单细胞图像数据；通过限定潜在空间的任意维度大小来训练变分自编码器(VAE)；将习得潜在空间从所述VAE提炼到生成对抗网络(GAN)并训练所述GAN内的生成器‑鉴别器组合；生成与所述习得潜在空间对齐的真实图像；以及通过并入统计方差分析和层次聚类来解译数据。

Description

用于基于深度学习无监督识别单细胞形态图谱分析的方法

相关申请的交叉参考

本申请要求对2022年9月27日提交的美国临时专利申请案63/410,289享有优先权，并且其公开内容以全文引用的方式并入本文中。

技术领域

本发明总体来说为用于自动化可解译和可通用化的生物形态图谱分析的系统和方法。

背景技术

先进的显微法促进了细胞生物学的模式上的转变，从而将其提升成数据驱动的科学学科。这种变换使研究者能够探索细胞形态的复杂结构和功能属性，从而为细胞健康、疾病机制和细胞对化学和基因扰动的反应提供深刻见解。近来年，已见证了可开放存取的图像数据存储库^1-5的显著激增，以及用于破解细胞形态图谱(在本文中被称为指纹)的稳固机器学习技术的出现。

越来越多的证据表明，这些形态图谱具有关于细胞功能和行为的重要信息，所述重要信息通常隐藏在分子测定内。值得注意的是，研究已揭露了基因和化学扰动中的细胞形态和基因表达图谱分析的互补性质^6,7。

传统的形态图谱分析方法长期依赖于手动特征提取，这是一种劳动密集型过程，需要领域专业知识，并且通常缺乏跨各种成像模态的可扩展性和可应用性。这些常规技术需要基于包含形状、大小、纹理和像素强度的细胞属性创建特征，以便将唯一标识分派到每个细胞。深入且精确地理解复杂生物过程，例如细胞异质性、有丝分裂、疾病机制和药物反应，需要能够以单细胞精确度提取大量细胞信息的方法。在这些方法中，细胞成像以其进行以下操作的独特能力脱颖而出：以高分辨率捕获多方面形态细节，产生全面形态图谱，通常被称为指纹。这些图谱可经历一系列用于下游分析的计算方法。

基于图像的单细胞形态图谱分析的过程对跨多个学科(包含成像、生物学和计算机科学)的专业知识提出了相当大的要求。其涉及大量特征的缜密定义和提取，通常会产生高维特征空间。此外，从单个图像提取数百个到数千个形态特征使得能够以显著鉴别能力研究复杂的细胞特性，例如对药物治疗的反应^8,9。然而，手动特征提取易受“维数诅咒”影响，由于所选择特征可能无法完全表示基础数据，因此可能会引入偏差。

采用监督或弱监督学习的深度学习技术已展示出改进图像分类准确度的希望¹⁰。然而，这些方法需要专家对训练数据集进行大量标记或注释，这可为耗时的且易受人类偏差影响¹¹。此外，深度学习通常遭受缺乏可解译性的问题。理想的细胞形态图谱分析策略应在不依赖于人类知识的情况下生成特征，仅从图像自身得出推断，而不具有任何先入为主的假设。采用此类方法将促进对细胞形态的更客观和公正的分析，由此克服与手动注释和专家知识相关联的限制。同时，深度习得形态图谱应为可高效解译(和可解释)的，以增强深度学习模型的透明度和信誉度，尤其在生物医学诊断的上下文中^12,13。

US20200340909A1提供了一种用于支持疾病分析的方法，所述方法包含：基于从自个体收集的试样中所含的多个分析目标细胞获得的图像对每个分析目标细胞的形态进行分类，并且基于分类的结果获得对应于试样的细胞形态分类信息；以及基于细胞形态分类信息借助于计算机算法分析个体的疾病。然而，其并不包括综合形态分类方法。

US11488401B2用经训练深度学习网络对前列腺组织图像中的细胞核进行分类，并且使用所述细胞核分类来根据其恶性程度对区(例如腺体区)进行分类。根据本发明的方法还训练深度学习网络以识别前列腺组织图像数据中的每个细胞核的类别，所述类别表示细胞核周围的组织的恶性程度。所述方法自动地分割腺体，并且识别前列腺组织数据集中的细胞核。所述经分段腺体由至少一个领域专家分派类别，并且所述类别接着用于自动地将类别分派到对应于所述细胞核的周围组织的类别的每个细胞核。存在许多窗口，每个所述窗口围绕一个细胞核，包括用于深度学习网络的训练数据。此现有技术聚焦于对每个图像执行二进制分类，例如疾病组织与正常组织，并且所述现有技术不可通用于多种类分类和轨迹推断任务。此外，所述现有技术依赖于预处理，所述预处理涉及将图像分离成多个较小图像补丁；以及分开地分析多个较小图像补丁中的每一个。此现有技术也未教示经解缠结潜在表示学习和基于GAN的图像重构/翻译。

因此，提供用于自动化、可解译和可通用化的生物形态图谱分析的系统和方法仍然是一个具有挑战性的问题。本发明解决了此需要。

发明内容

下文呈现对本发明的简化概述，以提供对本发明的一些方面的基本理解。此概述并非本发明的详尽综述。其既不意图识别本发明的关键或决定性要素，也不划定本发明的范围。实际上，此概述的唯一目的是以简化形式呈现本发明的一些概念来作为下文中呈现的更详细描述的序言。

尽管现在可采用深度学习来解决问题，但其固有的“黑匣子”操作使得难以容易地提供对深度习得特征的逻辑解译，并且因此难以提供对下游分析(例如，分类、相关性或预测)的结果的合理解释。

重要的是，用于预测和分析的深度神经网络模型具有可解译性，以主要理解自习得生物学相关因素，并且同时避免误导性结果，例如在图像数据集中存在与生物上下文无关的伪影的情况下的错误预测。另一方面，细胞图像分析因不同的显微法模态而变得更加复杂，所述显微法模态现在可揭露广泛范围的不同图像对比度(超出通常感知的灰度或彩色图像)，所述图像对比度中的每一个含有细胞的多方面信息，从生物化学、生物物理学到机械特征标志。因此，这增加了新的复杂性水平，使得难以针对不同的成像模态和应用通用化这些深度学习模型。

因此，在第一方面中，本发明提供一种用于基于深度学习识别单细胞形态图谱分析的方法。设计概念包含：将基于深度学习的无监督经解缠结学习和高保真度图像重构用于单细胞形态图谱分析，对经解缠结表示中的可解译信息进行编码，以及跨越未见过的成像模态探索通用性。特别地，所述方法包含：收集并预处理至少一个单细胞图像数据；通过限定潜在空间的任意维度大小来训练变分自编码器(VAE)；将习得潜在空间从VAE提炼到生成对抗网络(GAN)并训练GAN内的生成器-鉴别器组合；生成与习得潜在空间对齐的真实图像；以及通过并入统计方差分析和层次聚类来解译数据。

框架利用混合架构，其利用VAE和GAN的变体的优势来实现可解译的、高质量细胞图像生成¹⁸。

在一个实施例中，收集并预处理至少一个单细胞图像数据的步骤包含将单细胞图像数据内的细胞中心对齐并遮蔽细胞以消除背景噪声。

在另一实施例中，所述方法进一步包含在训练VAE之后执行下游任务，所述下游任务包括可视化和轨迹推断。

在一个实施例中，训练VAE的步骤包含以无监督方式将至少一个高维图像映射到潜在空间中，至少一个高维图像经由编码器被缩减到潜在空间，并且经缩减图像经由解码器重构。如果VAE学习了潜在空间每个维度的独立变化因素，则潜在空间被认为是解缠结的。

在一个实施例中，具有形态上类似的细胞的至少一个高维图像映射到潜在空间中的紧密间隔的聚集体中。

在一个实施例中，GAN的鉴别器被训练以检测从GAN的生成器生成的图像是真实的还是虚假的。

在另一实施例中，所述方法进一步包含通用化以分析从不同的成像模态或对比度获取的新的、未见过的数据集。

在一个实施例中，VAE被配置成学习解缠表示或生成因子，并学习如何从这些因子重建图像，并且训练VAE的步骤包括基于编码器预测的潜在空间表示来重构来自解码器的至少一个目标图像。

在一个实施例中，训练VAE的步骤包含定义任意数量的潜在维度，其中所述方法进一步包含使用GAN内的生成器-鉴别器组合来基于潜在维度生成图像，以便通过遍历潜在空间来生成一系列相关图像，由此在潜在空间内移动以探索不同的图像特征。

在一个实施例中，N*1个细胞图像是通过遍历一个维度生成的，d表示潜在维度的数量，并且N*d个细胞图像是通过遍历d个潜在维度生成的。此方法进一步包含：从潜在遍历中的每个细胞图像中提取F个手动定义的细胞特征，使得使用生成的N*1个细胞图像创建N*F个特征矩阵。所述方法进一步包含：计算沿着包括所述N个细胞图像的所述潜在遍历的F个特征的统计方差，以便生成用于所述单个遍历的方差向量1*F；对沿d个维度的F个特征进行统计方差计算，得到d*F方差值；以及获得表示d*F方差值的方差矩阵。此外，该方法还包括准备单细胞库作为数据集；从所述数据集中采样K个图像，以获得K个方差矩阵；以及计算得到的K个方差矩阵的统计均值，生成d行F列的均值-方差矩阵，其中，基于均值-方差矩阵执行层次聚类，以获得以聚类图的形式可视化的分组。

在第二方面中，本发明提供一种用于基于深度学习识别单细胞形态图谱分析的可编程计算机，其包含处理单元，所述处理单元被配置成：经由用户输入收集至少一个单细胞图像数据并预处理单细胞图像数据；通过定义潜在空间的任意维度大小来训练变分自编码器(VAE)；将习得潜在空间从VAE提炼到生成对抗网络(GAN)并训练GAN内的生成器-鉴别器组合；生成与习得潜在空间对齐的真实图像；以及通过结合统计方差分析和层次聚类来解译数据。

在一个实施例中，收集并预处理至少一个单细胞图像数据的步骤包含将单细胞图像数据内的细胞中心对齐并遮蔽细胞以消除背景噪声，并且所述可编程计算机进一步包括存储器，所述存储器被配置成存储单细胞图像数据。

在一个实施例中，所述方法进一步包含在训练VAE之后执行下游任务，所述下游任务包括可视化和轨迹推断，其中所述可编程计算机进一步包括输出接口，所述输出接口被配置成显示可视化结果。

在一个实施例中，训练VAE的步骤包含定义任意数量的潜在维度，其中处理单元还被配置为使用GAN内的生成器-鉴别器组合来基于潜在维度生成图像，以便通过遍历潜在空间来生成一系列相关图像，由此在潜在空间内移动以探索不同的图像特征，其中所述可编程计算机进一步包括存储器，所述存储器被配置成存储一系列相关图像。

在一个实施例中，N*1个细胞图像是通过遍历一个维度并在潜在空间的每个维度中变化、以及通过遍历d个维度生成的，d表示潜在维度的数量，并且N*d个细胞图像是通过遍历d个潜在维度生成的。此方法进一步包含：从潜在遍历中的每个细胞图像中提取F个手动定义的细胞特征，使得使用生成的N*1个细胞图像创建N*F个特征矩阵。

在一个实施例中，处理单元进一步被配置成：计算沿着包括所述N个细胞图像的所述潜在遍历的F个特征的统计方差，以便生成用于所述单个遍历的方差向量1*F；对沿d个维度的F个特征进行统计方差计算，得到d*F方差值；以及获得表示d*F方差值的方差矩阵并将方差矩阵发送到存储器。

在一个实施例中，处理单元进一步被配置成：准备单细胞库作为数据集；从所述数据集中采样K个图像，以获得K个方差矩阵；以及计算得到的K个方差矩阵的统计均值，生成d行F列的均值-方差矩阵，其中，基于均值-方差矩阵执行层次聚类，以获得以聚类图的形式可视化的分组。所述可编程计算机还包括输出接口，所述输出接口被配置为显示所述可视化分组。

本发明将单细胞成像变换成数据驱动的科学，从而促进细胞健康、疾病机制和对扰动的反应的分析。传统的方法需要缜密的特征选择和统计分析。在本发明中，综合无监督深度学习框架解决与手动特征提取和高维分析相关的挑战。

附图说明

下文中参考图式更详细地描述本发明的实施例，在所述附图中：

图1A描绘了本发明的方法的流程图。图1B描绘本发明的框架的综述；

图2描绘整个方法的示例性管线，其包含预处理，训练与生成对抗网络(GAN)集成的编码器-解码器网络(例如VAE网络)，之后是用于可解译性和通用性的步骤；

图3描绘用于学习可解译的潜在表示并生成细胞图像而不丢失细微形态或纹理信息的示例性神经网络架构；

图4描绘用于训练VAE网络的编码器和解码器的定量相位成像(QPI)捕获细胞周期过程的示例性数据集；

图5描绘习得潜在表示的下游可视化。通过QPI捕获的示例数据集展示从G1到S到G2的细胞周期阶段；

图6描绘来自QPI模态的示例性数据集，所述数据集被测试以与来自自编码器的有损重构(X-Dec)相比生成真实重构(X-Gen)；

图7描绘示出用于可解译性的框架的流程图(步骤1)；

图8描绘示出用于可解译性的框架的流程图(步骤2)；

图9描绘示出用于可解译性的框架的流程图(步骤3)；

图10描绘针对大小设置为5的潜在空间维度的示例潜在空间遍历以及使用GAN的对应真实重构；

图11描绘示出习得的独立因素的映射的示例均值解释热图，所述独立因素对应于跨越潜在空间维度手动定义的相关特征的集合；

图12描绘对由另一QPI模态捕获的示例数据集(不同于训练数据集)的下游可视化的归纳，展示了包含未受感染细胞群体和不同水平的SARS-CoV感染的数据集中的异质性。模拟为未受感染细胞群体。1MOI_6hr和5MOI_24hr对应于在6小时和24小时在不同的感染复数(MOI)下的受感染群体；

图13描绘对由荧光成像捕获的示例数据集的下游可视化的归纳，展示了细胞状态经由中间暂时性状态“I”从上皮细胞‘E’向间叶细胞‘M’的转变；

图14描绘通用性测试的图形综述。实例展示由经训练模型进行以揭露从一系列生物成像模态(QPI、荧光、相位对比、明视场)捕获的生物过程的通用化；

图15示出可结合本文中所描述的一个或多个方面实施的示例电子计算环境的框图；

图16描绘可结合本文中所描述的各种方面可操作的示例数据通信网络的框图；

图17A-17C展示来自ID-GAN的高保真度重构展现出真实性质，高效地捕获复杂细节。图17D描绘解译管线如何应用于肺癌数据集，跨越不同的潜在维度高效地分离整体、全局和局部特征；

图18描绘针对五种目前先进技术自编码器使用UMAP创建的潜在空间的二维表示；

图19描绘在一个数据集上训练并随后在其它数据集上测试以预测生物细胞状态和进程的定性2D可视化，以及基于用于通用性测试的F1评分的定量分类；

图20描绘气泡图，其中维度0、3和7分别对应于局部、全局和整体特征的最大变化；

图21描绘解译管线如何应用于细胞全景绘制数据集；

图22A-22B展示针对荧光图像中所捕获的上皮细胞向间叶细胞转变的嵌入可视化和潜在空间分析。图22C展示了基于VIA的轨迹推断揭露3个轨迹，并且三端子状态(图22D)潜在图揭露经解缠结潜在空间的不同维度中所捕获的形态方面的变化；

图23A描绘基于经解缠结形态图谱捕获细胞周期进程G1-S-G2中的细胞状态的连续进程的VIA-MDS嵌入。图23B展示基于VIA的轨迹推断，用于识别定量相位图像数据集中所捕获的周期进程中的轨迹和动态。

具体实施方式

在以下描述中，阐述用于生物系统的形态图谱分析的自动化计算机实施框架作为优选实例。所属领域的技术人员应明白，在不脱离本发明的范围和精神的情况下可作出修改，包含添加和/或取代。可省略特定细节以免使本发明模糊不清；然而，编写本公开是为了使所属领域的技术人员能够在不进行不当实验的情况下实践本文中的教示。

无监督深度生成网络，尤其是变分自编码器或VAE¹⁴，已在学习用于下游分析的可解译的潜在表示以及提供对神经网络模型学习的见解方面取得了广泛的成功。自编码器学习将输入数据压缩成较低维表示(编码)并接着从此较低维表示重构输入图像数据(解码)。尽管自编码器具有潜力，但其通常在有损图像重构方面面临限制。虽然先前工作已采用VAE变体以对细胞图像数据集进行无监督和自监督学习以揭露细胞动态并已试图解译习得潜在空间^15-17，但它们尚未在习得潜在空间与可解译的形态特征之间建立直接和系统的映射。这突出显示了需要进一步研究来克服这些限制并增强细胞的形态图谱分析。

因此，本发明提供一种新的深度学习框架和一种用于无监督、可解译的单细胞形态图谱分析和分析的方法。提出了一种计算机实施方法来自动地识别从深度学习模型(例如，卷积神经网络)习得的多个图像特征以用于单细胞形态图谱分析。此方法涉及开发统计计算管线(涉及统计方差分析和层次聚类)，其提供从深度学习模型习得的形态图谱的全面解译。所述方法可为可通用化的并适用于基于不同的成像模态的图像分析。

本发明尤其具有以下新颖要素：

(1)基于任何可用的显微法/成像模态的用于生物系统(例如，细胞)的形态图谱分析的自动化计算机实施框架。

(2)提供深度习得特征的自动化可解译性的计算管线。

(3)所述方法的通用性，所述方法扩展到从不同的成像模态和对比度(包含但不限于定量相位、荧光、相位对比和明视场对比度)获取的新的、未见过的数据集。

在第一方面中，本发明提供一种用于基于深度学习识别单细胞形态图谱分析的可编程计算机，其包含处理单元，所述处理单元被配置成：经由用户输入收集至少一个单细胞图像数据并预处理单细胞图像数据；通过限定潜在空间的任意维度大小来训练变分自编码器(VAE)；将习得潜在空间从VAE提炼到生成对抗网络(GAN)并训练GAN内的生成器-鉴别器组合；生成与习得潜在空间对齐的真实图像；以及通过并入统计方差分析和层次聚类来解译数据。

图1A为本发明的综述，突出显示了来自本发明的新颖要素，其中深度生成模型被并入用于学习潜在空间作为经解缠结表示。并且，使用表示以生成较低维度中的视像。框架由混合架构组成，所述混合架构组合变分自编码器(VAE)和生成对抗网络(GAN)的强度以学习经解缠结表示，同时获取重构高保真度图像的能力。其被设计成学习来自细胞图像的经解缠结表示并随后产生高质量重构。

VAE模块学习紧凑且可解译的潜在表示。经解缠结潜在表示涉及对促成例如图像²¹的所观察数据的创建的基本因素进行编码。在经解缠结生成模型，插入此处被称为“潜在遍历”的潜在因素引起其中仅一个特定因素改变的图像的生成。此紧凑表示提供可解译性和可转印性益处。

先前已提议各种策略来鼓励更解缠结的潜在表示，通常涉及并入正则化技术，例如β-VAE或因子分解法^19,20。虽然解缠结增强了可解译性，但其可能导致原始数据的较不准确的重构，这当基于经重构潜在遍历解译潜在空间时造成调整。相比之下，生成对抗网络(GAN)已证实其生成真实重构的能力，特别是在如BF-荧光的情形中。然而，通过GAN获得的潜在表示通常展现出缠结，这可能对直接可解译性造成挑战。为了解决此问题，已选择由信息提炼GAN(ID-GAN)¹⁸的架构启发的无监督神经网络模型用于生成真实重构。

图1B示出通过集成经解缠结表示学习和高保真度图像重构而成为可能的任务的顺序流程。这些任务涵盖形态图谱分析和下游分析，以及特定于训练数据集的解译热图的生成。另外，所述图突出显示了预训练模型的利用，这有助于针对形态图谱分析的交叉模态通用性和框架内的可解译性。

在另一方面中，本发明提供一种用于基于深度学习识别单细胞形态图谱分析的方法。设计概念包含：将基于深度学习的无监督经解缠结学习和高保真度图像重构用于单细胞形态图谱分析，对经解缠结表示中的可解译信息进行编码，以及跨越未见过的成像模态探索通用性。特别地，所述方法包含：收集并预处理至少一个单细胞图像数据；通过限定潜在空间的任意维度大小来训练变分自编码器(VAE)；将习得潜在空间从VAE提炼到生成对抗网络(GAN)并训练GAN内的生成器-鉴别器组合；生成与习得潜在空间对齐的真实图像；以及通过并入统计方差分析和层次聚类来解译数据。

本发明使用以上框架来无监督地识别单细胞形态图谱分析。所述方法的主要特征在于以下概念：

高保真度图像重构

本发明直接使用整个细胞图像作为模型输入，以用于图像重构/翻译、形态图谱分析，以及以阶层方式进行的解译。单细胞图像数据可来自任何成像装置，并且可具有不同的对比度水平。

图2为描述本发明中的过程的整个流程的示例性流程图。图像数据集被预处理以消除模型可能错误地学习为真实变化因素的任何伪影或噪声。这通过将细胞中心对齐并遮蔽所述细胞以移除背景噪声来实现。经预处理图像接着用于训练VAE。

图3示出两个生成神经网络的组合的示例实施方案：VAE的编码器-解码器网络和GAN的生成器-鉴别器网络。

ID-GAN中的训练过程通过两步法展开：

在第一步骤中，VAE以概率方式制定以通过利用编码器来学习来自真实图像空间的潜在表示，并且因此，将高维图像缩减成较低维空间，被称为潜在空间。习得潜在空间维度对应于存在于图像数据集中的各种变化因素。通过解码器实现从潜在表示进行的图像重构。特别地，编码器将图像缩减成潜在空间，并且解码器从潜在空间重构图像。然而，经重构图像为有损的，并且细胞的较精细纹理细节丢失。由于其紧凑的潜在表示的受限性质，这展现出信息流的限制。因此，生成真实重构所需的必要信息可能在此过程中丢失。

下游任务，例如可视化、轨迹推断，可在训练VAE的第一步骤之后执行，以获得对通过用于训练的数据集捕获的生物过程的更深理解。下游分析是基于最好的经解缠节模型执行的，所述最好的经解缠节模型通过测量跨越各种模型的解缠结和一系列超参数的新颖方法进行评定。获得生物学上有意义的2D可视化和分类用于离散型数据集，而有意义的轨迹推断揭露了展示轨迹的数据集的异质性和进程。

在实施例中的一个中，将高维图像映射到被称为潜在空间的较低维可解译表示中是以无监督方式进行的。

为了最小化重构与真实图像之间的视差，同时学习生成因素。鉴于此，GAN正进行对抗训练。GAN学习生成真实图像，而不丢失关键的生物学相关信息，例如总体细胞形态和胞内组织。

在第二步骤中，将来自第一步骤的习得潜在空间提炼到GAN，并且训练生成器-鉴别器组合。通过提炼VAE经预测潜在空间，而非使用随机初始化潜在空间，训练生成器。生成器生成虚假图像，同时训练鉴别器以区分虚假图像和真实图像。此训练步骤旨在使真实图像和所生成图像的潜在表示之间的信息的对齐最大化。

在图18中比较5种目前先进技术自编码器的潜在空间的2D可视化。可视化指示跨越下游分类任务中的所有数据集，因子VAE始终优于其它经解缠结VAE模型。考虑到重构和下游分析的质量，因子VAE似乎是一个优良选择，这归功于其具有经解缠结表示的额外优点，而VQ-VAE和AAE不具备这一点。对于一系列γ值(用于训练因子VAE的超参数)集成和不集成ID-GAN的因子VAE的重构性能的进一步比较指示与在不具有ID-GAN的情况下获得的结果相比，具有ID-GAN集成的重构性能的显著改进。

参考图4，VAE训练包含使用描述细胞周期进程的生物过程的示例数据集训练编码器-解码器组合；其中细胞的状态从G1改变到S到G2。图5为使潜在空间可视化到准确展示细胞周期进程的2维图上的下游分析。形态上类似的细胞将映射到潜在空间中的紧密间隔的聚集体中，且反之亦然。

此外，可在二维图中可视化经聚集潜在空间以理解数据集中所捕获的基础复杂生物过程。一般来说，潜在空间驱动的下游分析可进一步扩展以进行轨迹推断，以理解发展成分叉或多分叉轨迹的细胞命运。

图6展示两个生成模型(因子VAE和GAN)的组合且用定量相位图像训练以生成高质量重构的实施方案。与不同的潜在维度对齐的高质量重构通过讲潜在特征与手动提取的特征进行映射来实现可解译性。

阶层特征可解译性

除能够生成真实图像之外，本发明方法还包含新颖管线以讲逻辑解释提供到VAE的习得表示。用于习得潜在空间的可解译性的框架包含：

·通过一次改变潜在空间中的每个因素来使用VAE-GAN配置生成图像。

·从自GAN生成的真实图像提取手动定义的特征。

·阶层形态映射，即经组合统计方差分析和层次聚类，以提供习得潜在空间的可解译性。

先前研究已采用VAE对单细胞图像执行无监督学习，其目的在于预测演进细胞状态¹⁵和后续预测性任务。相比之下，Dynamorph利用VQVAE²²来预测小神经胶质细胞的形态动态状态。Dynamorph中所获取的表示为离散潜在表示，并且潜在空间内的遍历既不连续也未解缠结。此外，所述工作论述解译潜在空间，采用间接方法，并且不直接将潜在空间已习得的形态特征映射到改变的细胞状态。

与先前研究^{15,16,19-21,22}相比，提议一种新颖技术来通过从由潜在遍历产生的经重构图像提取手工制作的特征来解译习得表示，从而有助于发现生物学上有意义的推断，尤其是细胞类型和谱系的异质性。从通过潜在维度遍历获得的重构提取在整体和全局纹理到局部纹理的范围内的基于阶层特征提取的不同单细胞特征集合，以生成特定于每个训练会话的“解译热图”。

图7为使用用于训练如图3和图4中所示出的VAE的示例性定量相位成像数据集的用于可解译性的所公开方法的框架。在步骤1中，在训练完成后，潜在空间就捕独立的变化因素，例如获图像数据集的大小、形状、定向、密度、纹理和亮度。

如果VAE可学习潜在空间的每个维度中的独立的变化因素，则潜在空间被视为解缠结。如果潜在空间完全解缠结，则一次改变一个维度会引起所生成图像中的仅一个因素的变化。在较高程度的解缠结的情况下，来自GAN的所生成图像展现出随着个别地遍历每个维度而变化的一个因素。

由此，通过遍历一个维度(潜在空间的每个维度都有变化)来生成N个图像，并且通过遍历d个维度来生成N x d个图像。参考图8，在步骤2中，所生成潜在遍历图像集合可进一步用于提取人类定义的特征，具体地对于定量图像数据集。

大约40个特征由具有成像模态的先验知识的专家定义。在此实例中，特征与形态、干质量密度和局部纹理相关。

针对对应于每个维度中的遍历生成的每个图像集合的每个特征计算统计方差。

对应于每个维度中的遍历所提取的特征被堆叠成特征表矩阵。其中特征沿着行，并且潜在空间维度沿着列。

参考图9，在步骤3中，对于稳固分析，以上步骤可对许多随机样本执行，并且计算统计均值以生成均值-方差矩阵。

均值-方差矩阵的层次聚类产生可以集群图形式可视化的分组，以理解从对应于VAE的潜在因素的定量图像数据集习得的生物物理学特征。

图10为通过遍历潜在空间生成的N x d＝7x5个示例图像。所生成的图像可保持局部纹理信息。

图11为通过均值-方差热图的层次聚类获得的示例热图。热图展示沿着潜在维度分组的较高方差值。每个维度中的特征的分组通常是高度相关的。

通用性

经解缠结模型的最重要应用之一为从独立生成因素^21,25,26的无数组合生成观察结果。本发明利用经解缠结潜在空间来评定单细胞数据集中的通用性。本发明的方法不仅限于分类任务，而且还限于轨迹推断任务。

在实施例中的一个中，其可分析来自各种成像模态和实验条件的未见过的数据集，从而促进交叉研究比较和可重复使用的形态图谱分析结果。基于以类似于人类智力的方式习得的潜在因素，此通用化是可能的。当学习有助于一个情形中的决策制定过程的因素时，人脑尝试使用所述因素来在新情形中制定决策。例如，当大脑知道水果的腐味可将水果分类为腐烂的时，它在碰到不同的腐烂水果或食品时的新情形中也可如此分类。此处的变化因素为‘气味’。当大脑学习多个此类因素时，决策制定变得更好且准确。

在一个实施例中，在肺癌数据集上训练的模型已用于预测用于下游可视化的其余数据集的潜在表示。

图19展示框架的通用性性能评定。预训练模型可从以解缠结表示形式习得的见解进行归纳，以在新情形中进行预测。此外，对于四个不同数据集中的每一个，存在沿着行显示的对应模型。值得注意的是，五个不同的模型(每个模型用不同数据集进行训练)当通用化时展现出相当的可视化效果，在UMAP和Phate^27,28可视化中具备类似的全局和局部结构。

图12为模型能够通用于从同一图像对比度但跨越不同模态获得的不同数据集的能力的实例。例如，其可使用用来自显微镜1的QPI数据集训练的模型来通用于在来自显微镜2的QPI图像数据集中捕获的新生物过程。另外，其可通用于具有不同的图像对比度和各种成像模态的数据集，例如用QPI成像数据训练并用荧光显微镜数据测试其通用性，如图13中的通用化下游可视化的实例中所展示。这类似于人脑基于先前见过的情形在新的未见过的情形中进行以制定决策的归纳的种类。

图14提供通用性测试的一般实例。来自经训练模型尚未暴露于的各种对比度的各种生物过程可用于准确地解译和有意义地重现下游分析结果。

本发明具有解释对测试数据集的预测而不需要模型重新训练的能力。

实例

实例1-材料

计算环境

如所提及，有利地，本文中所描述的技术可应用于其中执行数据分析的任何装置和/或网络。下文在图15中所描述的通用远程计算机只是一个实例，并且所公开主题可以具有网络/总线互操作性和交互的任何客户端予以实施。因此，所公开主题可在其中涉及极少或最少客户端资源的联网托管服务的环境中实施，例如在其中客户端装置仅充当到网络/总线的接口(例如放置在电器中的对象)的联网环境中实施。

虽然不是必需的，但所公开主题的一些方面可部分地经由操作系统实施，以供装置或对象的服务的开发者使用，和/或包含在结合所公开主题的组件操作的应用程序软件内。可在由例如投影显示装置、检视装置或其它装置的一个或多个计算机执行的例如程序模块或组件的计算机可执行指令的一般上下文中描述软件。所属领域的技术人员应了解，所公开主题可用其它计算机系统配置和协议实践。

因此，图15示出其中可实施所公开主题的一些方面的合适的计算系统环境1100的实例，但如上文所明确地描述，计算系统环境1100只是装置的合适的计算环境的一个实例且并不意图暗示关于所公开主题的用途或功能性的范围的任何限制。不应将计算环境1100解译为关于示例性操作环境1100中所示出的组件中的任一个或任何组合具有任何依赖性或要求。

参考图15，用于实施所公开主题的示例性装置包含呈计算机1110形式的通用计算装置。计算机1110的组件包含但不限于处理单元1120、系统存储器1130和系统总线1121，所述系统总线将包含系统存储器的各个系统组件耦合到处理单元1120。系统总线1121可为使用多种总线架构中的任一个的若干类型的总线结构中的任一个，包含存储器总线或存储器控制器、外围总线和本地总线。

计算机1110通常包含多种计算机可读媒体。计算机可读媒体可为可由计算机1110存取的任何可用媒体。借助于实例而非限制，计算机可读媒体可包括计算机存储媒体和通信媒体。计算机存储媒体包含任何方法或技术中实施用于存储例如计算机可读指令、数据结构、程序模块或其它数据的信息的易失性和非易失性、可移除和不可移除媒体。计算机存储媒体包含但不限于RAM、ROM、EEPROM、快闪存储器或其它存储器技术；CD-ROM、数字多功能盘(DVD)或其它光盘存储装置；盒式磁带、磁带、磁盘存储装置或其它磁性存储装置；或可用于存储所要信息并可由计算机1110存取的任何其它媒体。通信媒体通常体现例如载波或其它传送机制等经调制数据信号中的计算机可读指令、数据结构、程序模块或其它数据,并且包含任何信息递送媒体。

系统存储器1130可包含呈例如只读存储器(ROM)和/或随机存取存储器(RAM)的易失性和/或非易失性存储器形式的计算机存储媒体。含有有助于例如在启动期间在计算机1110内的元件之间传送信息的基本例程的基本输入/输出系统(BIOS)存储在存储器1130中。存储器1130通常还含有可立即由处理单元1120存取和/或当前由所述处理单元上操作的数据和/或程序模块。借助于实例而非限制，存储器1130也可包含操作系统、应用程序、其它程序模块和程序数据。

计算机1110还包含其它可移除/不可移除、易失性/非易失性计算机存储媒体。例如，计算机1110可包含：硬盘驱动器，其从不可移除、非易失性磁性媒体读取或写入到不可移除、非易失性磁性媒体；磁盘驱动器，其从可移除、非易失性磁盘读取或写入到可移除、非易失性磁盘；和/或光盘驱动器，其从可移除、非易失性光盘读取或写入到可移除、非易失性光盘，所述光盘为例如CD-ROM或其它光学媒体。可在示例性操作环境中使用的其它可移除/不可移除、易失性/非易失性计算机存储媒体包含不限于盒式磁带、快闪存储卡、数字多功能盘、数字录像带、固态RAM、固态ROM等。硬盘驱动器通常通过例如接口的不可移除存储器接口连接到系统总线1121，并且磁盘驱动器或光盘驱动器通常通过例如接口的可移除存储器接口连接到系统总线1121。

用户可通过输入装置，例如键盘和指向装置(通常被称为鼠标)、轨迹球或触控板，将命令和信息输入到计算机1110中。其它输入装置可包含麦克风、操纵杆、游戏控制板、圆盘式卫星电视天线、扫描仪、无线装置小键盘、语音命令等。这些和其它输入装置通常通过用户输入1140和耦合到系统总线1121的相关联接口连接到处理单元1120，但可通过例如并行端口、游戏端口或通用串行总线(USB)的其它接口和总线结构连接。图形子系统可连接到系统总线1121。投影显示装置中的投影单元或检视装置中的HUD或另一类型的显示装置也可经由例如输出接口1150的接口连接到系统总线1121，所述接口又可与视频存储器通信。除监测器之外，计算机也可包含其它外围输出装置，例如扬声器，所述其它外围输出装置可通过输出接口1150连接。

计算机1110可使用到一个或多个其它远程计算机(例如远程计算机1170)的逻辑连接在联网或分布式环境中操作，所述一个或多个其它远程计算机又可具有不同于装置1110的媒体能力。远程计算机1170可为个人计算机、服务器、路由器、网络PC、对等装置、个人数字助理(PDA)、蜂窝电话、手持式计算装置、投影显示装置、检视装置，或另一常见的网络节点，或任何其它远程媒体消耗或传输装置，并且可包含上文关于计算机1110所描述的元件中的任一个或全部。图15中所描绘的逻辑连接包含网络1171，例如局域网(LAN)或广域网(WAN)，但也可包含有线或无线的其它网络/总线。此类联网环境在家、办公室、全企业计算机网络，内联网和互联网中是常见的。

当用于LAN联网环境中时，计算机1110可通过网络接口或适配器连接到LAN 1171。当用于WAN联网环境中时，计算机1110通常包含通信组件，例如调制解调器，或用于通过例如互联网等WAN建立通信的其它装置。通信组件，例如无线通信组件、调制解调器等，可为内部或外部的，可经由输入1140的用户输入接口或另一适当的机构连接到系统总线1121。在联网环境中，关于计算机1110描绘的程序模块或其部分可存储在远程存储器存储装置中。应了解，所展示和描述的网络连接为示例性的，并且可使用在计算机之间建立通信链路的其它装置。

联网环境

图16提供示例性联网或分布式计算环境1200的示意图。分布式计算环境包括计算对象1210、1212等以及计算对象或装置1220、1222、1224、1226、1228等，它们可包含程序、方法、数据存储区、可编程逻辑等，如由应用程序1230、1232、1234、1236、1238和数据存储区1240所表示。应了解，计算对象1210、1212等以及计算对象或装置1220、1222、1224、1226、1228等可包括不同的装置，包含图示内所描绘的多媒体显示装置或类似装置，或其它装置，例如手机、个人数字助理(PDA)、音频/视频装置、MP3播放器、个人计算机、手提式计算机等。应进一步了解，数据存储区1240可包含一个或多个高速缓存存储器、一个或多个寄存器或其它类似的数据存储区。

每个计算对象1210、1212等以及计算对象或装置1220、1222、1224、1226、1228等可借助于通信网络1242与一个或多个其它计算对象1210、1212等以及计算对象或装置1220、1222、1224、1226、1228等直接或间接通信。尽管其被示出为图16中的单个元件，但通信网络1242可包括将服务提供到图16的系统的其它计算对象和计算装置，和/或可表示未展示的多个互连网络。每个计算对象1210、1212等或计算对象或装置1220、1222、1224、1226、1228等可含有应用程序，例如应用程序1230、1232、1234、1236、1238，所述应用程序可利用API或适合于与本文中所描述的技术和公开内容通信或实施本文中所描述的技术和公开内容的其它对象、软件、固件和/或硬件。

存在支持分布式计算环境的多种系统、组件和网络配置。例如，计算系统可通过有线或无线系统通过本地网络或广泛分布式网络连接在一起。当前，许多网络耦合到互联网，实施互联网提供用于广泛分布式计算的基础设施并涵盖许多不同的网络，但任何网络基础设施可用于入射到系统的自动诊断数据集合的示例性通信，如本文中的各种实施例中所描述。

因此，可利用大量网络拓扑和网络基础设施，例如客户端/服务器、对等或混合架构。‘客户端’为使用与其无关的另一种类或群组的服务的一种类或群组的成员。客户端可为请求由另一程序或过程提供的服务的过程，即大致指令集或任务集。客户端过程利用所请求服务，在一些情况下，不必‘知道’关于其它程序或服务自身的任何工作细节。

在客户端/服务器架构中，特别是在联网系统中，客户端通常为存取由另一计算机(例如，服务器)提供的共享网络资源的计算机。在图16的图示中，作为非限制性实例，计算对象或装置1220、1222、1224、1226、1228等可被认作客户端，并且计算对象1210、1212等可被认作服务器，其中充当服务器的计算对象1210、1212等提供数据服务，例如从客户端计算对象或装置1220、1222、1224、1226、1228等接收数据，存储数据，处理数据，将数据传输到客户端计算对象或装置1220、1222、1224、1226、1228等，但取决于情形，任何计算机可被视为客户端、服务器或这两者。

服务器通常为可通过例如互联网或无线网络基础设施的远程或局域网存取的远程计算机系统。客户端过程可在第一计算机系统中为活动的，并且服务器过程可在第二计算机系统中为活动的，通过通信媒体彼此通信，因此提供分布式功能性并允许多个客户端利用服务器的信息收集能力。依据本文中所描述的技术利用的任何软件对象可独立提供或跨越多个计算装置或对象分布。

在其中通信网络1242或总线为互联网的网络环境中，例如，计算对象1210、1212等可为网页服务器，其它计算对象或装置1220、1222、1224、1226、1228等经由多个已知协议中的任一个(例如超文本传送协议(HTTP))与所述网页服务器通信。充当服务器的计算对象1210、1212等也可充当客户端，例如计算对象或装置1220、1222、1224、1226、1228等，如可具有分布式计算环境的特性。

实例2-经解缠结表示学习

变分自编码器(VAE)

编码器将输入数据映射到潜在空间中为高斯分布的分布。编码器学习近似d个维度潜在分布的参数，这根据贝叶斯规则表示为后验近似。

z～P_e(x_i)＝N(z_i,μ_i,σ²) (1)

解码器对来自z～P_e(x_i)的变量z进行取样以生成所观察数据点x，其由下式给出：

x～P_d(z) (2)

数据集由N个离散或连续变量x组成：

X＝{xⁱ} i＝1..N (3)

假设数据X是由连续隐藏表示z生成的，通过制定生成模型：

Xe→Zd→X′ (4)

值z由先前分布P(z)定义，并且x是从条件分布P(x|z)生成。生成模型d将近似x，其类似于来自z的真实数据，针对此，生成模型的参数‘d’以及潜在z将被识别。边际似然由点x的个体似然的总和构成，由下式给出：

以上两个近似值通过单个目标函数联合地优化：

上述LHS项经优化且经微分以估计变分参数‘e’和生成参数‘d’。然而，估计参数e实际上是不可行的，因为其是不可微分的，这通过重新参数化策略克服。

标准VAE可以额外超参数β扩展。β-VAE被设计成通过控制β来实现经解缠结潜在表示。当β＝1时，其表示标准VAE，并且改变β>1会以数据重构为代价来改进解缠结。

然而，较高的值β允许通过改变维度⁵⁴来解译潜在空间。

因子VAE

重构与解缠结折衷的缺点通过分离(3)中的KL散度项使KL术语分解成交互信息I(z,x)并且在此处罚独立于x的信息的KL项来解决的，尽管解缠结的压力较高，但保持了良好的重构。现在因子VAE的目标函数由下式给出，总体展现为复杂难解的：

L(d,e；x⁽ⁱ⁾,γ)＝-D_KL(q_e(x)||P_d(z))-D_KL(q(z)||q(z)) (8)

为了克服此，因子VAE通过训练分类器或鉴别器以近似KL项的密度比来使用密度比策略。MLP鉴别器与VAE联合地训练。因此，因子VAE在较高解缠结程度下实现较好的重构。

/>

ID-GAN

ID-GAN方法高效地将解缠结和高保真度生成目标分离成不同的训练步骤，最终产生经改进图像生成质量，同时保持有意义的经解缠结表示。联合目标函数的优化的公式由下式给出：

R_,D-GAN(D,G)＝L_/AN(D,G)-λR_Distill(G) (10)

将GAN的重构与经解缠结表示对齐是通过使经解缠结潜在表示与对应于潜在表示的生成器输出之间的信息最大化来实现的。L_GAN(D,G)以对抗方式进行优化，所述对抗方式为鉴别器对真实图像与虚假图像进行分类且生成器改进来自随机噪声的图像生成，并且R_Distill(G)项联合地使潜在变量c之间的交互信息最大化。

实例3-解译热图

潜在维度高效地对关于其经解缠结维度内的细胞特征的信息进行编码。通过遍历潜在空间和重构图像，可观察到潜在维度内所编码的特征的变化。定量地评定跨越广泛类别的各种特征并理解对不同细胞信息进行编码的维度变得可行。

来自潜在遍历图像的总共35个特征被提取，涵盖整体、全局和局部特性。所选择潜在空间维度是10，并且对于每次潜在遍历，在10个点处执行重构。计算遍历中跨越这10个重构的每个特征的统计方差，得到1x35个向量。每个向量对应于单个潜在维度的35个特征的方差值。对于所有潜在维度重复此过程，从而生成10个此类1x35个向量。这些向量接着被堆叠以创建10x35个矩阵，所述矩阵经历层次聚类。经集群热图被称为“解译热图”。

在两个情形中使用热图：(1)当评定经训练模型对训练数据集所作出的预测时；以及(2)当同一经训练模型应用于新数据集以进行通用化时。

特定于训练数据集的解译热图提供了对经编码特征和其在经解缠结潜在空间内的变化的宝贵见解，有助于理解模型预测和通用化能力。展现出较高方差值的特征突出了与经编码潜在维度相关的变化因素。此类方法有助于理解对潜在空间内的变化产生显著贡献的特定属性。

实例4-性能度量

解缠结度量评分

关于解缠结度量评分，用于测量解缠结的各种方法已在先前研究^19,20,33中被提议。βVAE和因子VAE度量两者都遵循监督方法，其中预定义数据集中的变化因素的注释。然而，在其中注释未知的实际现实世界数据集中，无监督解缠结度量变为必要的。在大量数据集、解缠结模型和度量上执行并测试了监督解缠结度量集合。另一项研究解释了当使用不同的解缠结度量时相同数据集上的评分如何不相关^26,34。本发明提供一种测量特定于单细胞图像数据集的解缠结的新方法。假设用于单细胞数据集的生成因素广泛地属于整体、全局和局部的阶层属性。所述方法涉及创建并入所有整体、局部和全局特征的方差值以计算解缠结评分的解译热图。在完全解缠结模型的情况下，其中所有三个生成因素被分离成不同的潜在维度，评分将为1。相反地，经缠结模型将产生更接近0的评分。关于三个生成因素(整体、全局或局部)，分开地计算所有特征的潜在维度中的平均方差值指示了所述维度内的每个生成因素的范围。如果具有最大均值的两个因素对应于同一潜在维度，则识别经缠结模型，产生较低评分。在方法章节中解释了用于计算度量评分的步骤。通过解译热图可进一步改进度量评分以进行经解缠结潜在空间的更深入解译。然而，值得注意的是，不考虑局部生成因素的类别内的不同方面。

基于解译热图生成汇总解译气泡图。框架中的可解释性方面在图20中得以证明。经预测潜在因素的特征评级解释了重要的潜在因素，并且从训练数据集生成的可解译热图提供了关于模型制定其决策所基于的关键因素的答案。潜在维度0在大多数通用化预测中始终评级较高，这意味着整体特征有助于模型通用于未见过的数据集，例如细胞周期、细胞全景绘制测定、活细胞和EMT。根据汇总解译图，维度0、3和7分别对应于局部、全局和整体特征的最大变化。经预测潜在因素的特征评级解释了重要的潜在因素，并且从训练数据集生成的可解译热图提供了关于模型制定其决策所基于的关键因素的答案。潜在维度0在大多数通用化预测中始终评级较高，这意味着整体特征在模型通用于例如细胞周期、细胞全景绘制测定、活细胞和EMT等未见过的数据集的能力方法发挥显著作用。

均方误差(MSE)为实际值与预测值之间的差的平方。在图像的情况下，y和为真实图像和所生成图像的值。N为图像中的像素的总数。使用以下公式计算MSE：

Fréchet起始距离(FID)为用于定量由生成对抗网络(GAN)生成的图像的真实程度的度量。距离度量指示所生成分布与真实分布的接近度。在两个分布之间测量的FID值越小，模型的图像生成性能越好。

分类准确度

计算F1评分以基于来自通过基于决策树训练基于树的决策分类器而生成的混淆矩阵的真阳性(TP)、假阳性(FP)和假阴性值来测量模型的分类准确度：

SSIM

代表结构类似性是用于在亮度、对比度和结构方面测量两个图像之间的类似性的度量。最大值是1且最小值是0。在此论文中，SSIM用于比较平均500次重构的成对真实重构以测量深度学习模型的重构效率。

特征评级

经解缠结潜在表示的重要性通过基于决策树的分类器测量。这基本上通过计算每个特征减少多少杂质且因此确定根据给定标记对样本进行分类时每个特征的重要性来工作。杂质在此是指在另一类别的标记下的一个类别的样本的存在。

训练

VAE的潜在空间维度为10。编码器用256x 256x 3的大小的图像进行训练。因子VAE的编码器和解码器以及鉴别器使用adam优化器进行优化，衰减参数为β₁＝0.9，β₂＝0.999，学习率为0.0001。因子VAE的鉴别器进行优化，衰减参数为β₁＝0.5，β₂＝0.9，学习率为0.0001，并且批量大小为32。构成重新发送块的ID-GAN的生成器用潜在向量(维度10)和被称为维度256的干扰向量的随机噪声向量进行训练。其总计为266⁵⁷。生成器和鉴别器使用RMS prop优化器进行训练，学习率为0.0001，批量大小为32。

降维

在我的论文中已采用代表统一流形逼近与投影的UMAP以可视化和解译10维数据的潜在空间。对于我的研究中使用的与离散细胞类型(具体地，肺癌和活细胞)相关的数据集，UMAP用于降维以在二维空间中可视化它们。此方法允许对存在于数据³³中的复杂子集群和细胞类型之间的关系的较好理解。用于可视化展示生物进程或路径的数据集，尤其用于通用化2d。

VIA-MDSVIA多维缩放为在用于轨迹推断的VIA中使用的嵌入技术。VIA MDS已用于在2个维度中展现10维潜在空间的嵌入，以推断上皮细胞向间叶细胞转变的进程和细胞周期进程。

用于进程数据集的轨迹推断

VIA为一种无监督轨迹推断技术，其通过保留嵌入轨迹³⁵的细粒度分辨率而实施概率方法以在集群图中执行随机游走。此工作采用VIA来展现2维嵌入的下游可视化和数据集的轨迹推断，所述数据集的轨迹推断展示连续过程，例如细胞周期进程和EMT等。

实例5-适用数据集

选择开源数据集和内部成像数据集以展现本发明方法对多个方面中不同的数据集的适用性，如表1中所展示。

表1-用于训练和分析的数据集的多样性

主要地，选择涵盖多个成像模态和对比度，包含荧光、相位对比和定量相位图像。其次，选择包含数据集，所述数据集具有展现出多种生物条件，例如对药物治疗(CPA)的响应、离散细胞类型(捕获的肺癌活细胞)的细胞群体，以及已展现连续生物过程(如细胞周期进程和上皮细胞向间叶细胞转变)的那些细胞群体。此外，所述包含涵盖各种成像条件，包含粘着细胞(活细胞、EMT、CPA)和悬浮液中的细胞(细胞周期和LC)，并且最后，包含广泛范围的形状形态(球形、纺锤形)。

在细胞图像数据集的上下文中，VAE在重构例如形状、大小和像素强度等总体属性中起作用。图17A-17C展示来自ID-GAN的高保真度重构展现出真实性质，高效地捕获复杂细节。VAE的重构中的丢失纹理信息通过以下操作得以有效恢复：利用ID-GAN，之后进行10维经解缠结潜在表示的二维可视化和对以下的分类分析：相位对比图像(比例尺＝20μm)的活细胞数据集，所述图像突出显示四个不同的细胞类型—A172、BV2、MCF7和SkBr3(图17A)；三个肺癌细胞类型(H1975、H2170、H526)的定量相位图像(比例尺＝15μm)(图17B)；以及细胞全景绘制测定，用生物活性化合物处理的多重荧光图像数据集(比例尺＝65μm)(图17C)。然而，其在细胞结构内重现复杂的局部纹理变化的能力受到限制。通过信息提炼GAN(ID-GAN)促进的重构来有效地克服此限制。保留这些纹理特性对于识别异质性和理解细胞过程¹⁰至关重要。

i.CPA数据集

CPA数据集为作为公开可用的荧光图像数据集的BBBC022的子集。图像由用1600个生物活性化合物中的一个处理的U2O2细胞组成。在此数据集中，图像由5个通道组成，用6种染料标记，表征7个细胞器(细胞核、高尔基复合体、线粒体、核仁、细胞质、肌动蛋白、内质网)，放大倍数为20倍。数据集具备对应于化合物的板位置和作用机制¹¹的注释。

为了以无监督方式测试由生物活性化合物处理产生的扰动，ID-GAN以两种不同方式进行训练。

首先，通过将多个通道(3个或5个通道)叠加于尺寸256x 256x N的图像上，其中N可大于1且可扩展到数据集中可用的荧光通道的最大数目。3个通道的下游可视化展示堆叠通道的组合效应，揭露了由生物活性化合物处理诱发的扰动。

其次，用单独通道训练网络以识别特定细胞器的改变。在工作中进行训练时使用一种注释为糖皮质激素受体促效剂的处理。图21展示使用显示用化合物处理的细胞群体中的漂移的图的ID-GAN和2D可视化的重构性能，所述化合物的作用机制被注释为糖皮质激素受体促效剂。与用个别细胞器图像训练的模型相比，已用组合的3通道单细胞图像(肌动蛋白、核仁和细胞核)训练的模型展现模拟与经处理群体之间的改进的鉴别。在图21中的混淆矩阵中所展示的分类准确度中反映此改进。

ii.肺癌数据集

肺癌数据集获自称为Multi-ATOM²³的高通量QPI系统，其检索透射通过细胞的光的复杂场信息且在亚细胞分辨率下产生两个图像对比度：明视场(BF：复杂场的幅度)。这基本上显示细胞内的光衰减(或光密度)和定量相位的分布。此工作展现了使用无标记方法的生物物理学表型分析可在七个细胞系中划定肺癌的三种主要组织学分化亚型，即，三个腺癌(H1975、H358、HCC827)、两个鳞状细胞癌细胞系(H520和H2170)以及两个小细胞肺癌细胞系(H526和H69)。

选择来自三个不同的肺癌亚型中的每一个的一个细胞系用于分析。图17B展示基于UMAP在2D中可视化的三个亚型的集群。因子VAE展现分类效率，如图17B中的混淆矩阵中所展示。具有对应于不同维度的潜在值的经色彩译码的UMAP揭露了异质性，并且展现了用于在集群中正确地鉴别细胞类型的预测能力。

进一步论述的解译步骤揭示了决定此异质性的单细胞形态属性。DimA、DimB和DimC对应于维度7、3和0的整体、全局和局部特征，如在图17D中的汇总气泡图中所见，其示出肺癌数据集中的经解缠结潜在图谱在形态和异质性方面展现出变化。识别不同图谱群组并且使其与特定细胞类型相关联。解译热图通过揭露对应于每个潜在维度的所表达特征来进一步验证这些观察结果。具体地，维度0表示全局变化，维度1捕获纹理变化，并且维度7和8表示整体变化。此外，按整体、全局和局部类别的特征名称分别以红色、紫色和绿色进行色彩译码。

iii.活细胞数据集

活细胞为一个大型数据集，由5,239个手动注释、专家验证的Incucyte HD相位对比显微图像组成，其中总共有1,686,352个来自八个不同细胞类型的个别细胞注释。数据集由具有不同形状形态和大小的细胞类型组成，包含圆形和神经样结构³⁰。结果是基于具有不同形态和大小的四种所选细胞类型(A172、BV2、MCF7、SkBr3)。A172为平坦且不规则的，BV2为圆形，SkBr3和MCF7为圆形。

UMAP图(图17A)用对应于不同因素的潜在值进行颜色译码，揭露了群体内的异质性。总的来说，因子VAE中的经解缠结表示允许在2D可视化中提取更深的生物含义。

iv.EMT数据集

EMT是针对与组织生成、疾病等相关的各种生物研究的基础。EMT涵盖引起迁移率和侵入的功能更改的细胞组织的动态改变，。在对A549细胞系中的TGF-β诱发的EMT过程的应用中展现了从活细胞数据提取动态信息的重要性²⁹。单细胞动态展示显著的轨迹间异质性，并且某些动态特征为特定过程的特性，否则无法使用快照数据来辨别。在此实例中，通过提取纹理特征(Haralick特征)来定量波形蛋白中的动态。在所报告的工作中，TGF-β处理展示了几乎所有Haralick相关特征(纹理特征)的分布偏移，并且波形蛋白空间中的动态显示在EMT过程期间的两个轨迹。其并不提供对例如上皮细胞和间叶细胞等细胞态的注释。因此，执行基本形态操作以通过测量纵横比来门控和注释上皮细胞和间叶细胞。将细长的间叶细胞群体与上皮细胞分离，所述上皮细胞通常为圆形且较小，而其余细胞被分类为中间状态。

在此实例中，采用数据集以展现本发明的框架在揭露活细胞图像中的多个路径时的能力。观察到轨迹的无监督可视化，揭露了上皮细胞向间叶细胞转变时的多个路径。

由多个细胞轨迹组成且包括约19,000个细胞图像的大FoV图像用于训练ID-GAN。使用VIA-MDS在2个维度上可视化潜在空间(图22A-22D)。基于VIA，在轨迹分析伪时间图中，将三个路径清楚地可视化为三个分支。为了确认此，检验来自三个不同的路径的间叶细胞群体的图像，并且其在形态上不同。沿着伪时间的潜在维度的线图指示针对三个路径的不同地表达的潜在特征。

在对A549细胞系中的TGF-β诱发的EMT过程的应用中展现了从活细胞数据提取动态信息的重要性。TGF-β处理展示了几乎所有与Haralick相关特征的分布偏移，并且波形蛋白空间中的动态显示在EMT过程期间的两个轨迹。在EMT数据集中，解译热图还分别突出显示维度5、2和3中的整体、全局和局部特征的存在。其展现了存在某些特征跨越这些类别展现出组合和重叠的例子，指示所述特征不完全彼此独立。尽管存在这种相互依赖性，但所述方法有效地提供对数据集中所存在的形态变化的宝贵见解。

v.细胞周期数据集

细胞周期数据集使用被称为自由空间角线性调频增强延迟(FACED)³¹的另一新颖内部QPI技术成像。这是一种超快激光扫描技术，其成像速度比当时的技术高出几个数量级。在此实例中，多模态成像系统与微流体流式细胞仪平台集成，实现同步和协同对齐的单细胞QPI和荧光成像，其成像通量为每秒77,000个细胞，具有亚细胞分辨率³²。在此上下文中，已针对MCF7和MB231细胞类型的细胞周期数据集展现了一种系统性图像分析，其使细胞的生物物理信息和生物化学信息相关，揭露了对许多生物过程中的生物物理异质性的新见解。此数据集的注释是通过用Vybrant染料橘色染色剂(英杰公司)对细胞进行荧光染色来定量地跟踪DNA而提供。在此实例中，MB231数据集用于训练和分析。

在此实例中，细胞周期的成像数据集用于用因子VAE训练ID-GAN。执行无监督下游可视化以揭露细胞群体中的异质性和改变状态以及潜在空间解译。图23A展示使用VIA-MDS的2D可视化和基于VIA²⁴的轨迹推断，显示了G1-S-G2进程的伪时间(图23B)。相对于伪时间绘制的独立潜在维度的线图指示了不同的潜在特征。这些变化可进一步通过参考对应于从汇总图中了解的整体、局部和全局特征的解译热图来解译，展示了气泡的大小和透明度作为特征在不同类别和潜在维度中的表达程度。

定义

“ID-GAN”由混合架构组成，所述混合架构组合被称作因子VAE的变分自编码器(VAE)的变体和生成对抗网络(GAN)以实现可解译的高质量细胞图像生成。然而，ID-GAN架构还可用能够获取经解缠结表示且执行高保真度图像重构或翻译任务的模型的任何组合来取代。当学习来自明视场图像的经解缠结表示且接着将其翻译成定量相位图像(即，图像翻译)时，可观察到令人关注的应用。这增强了处理不同的成像模态的多功能性，例如多模态图像形态图谱分析和交叉模态图像翻译任务。

“解译热图”充当用于显示在遍历期间相对于经解缠结潜在维度强烈表达的特征的工具。此热图揭示了在潜在空间中捕获的细胞特征的重要方面，从而增强框架内的表示的可解译性。在本发明中，通过建立阶层单细胞特征变化性与习得潜在空间之间的连接来执行图谱解译。特定于训练数据集的解译热图揭露了由潜在维度捕获的相关特征的群组。接着扩展此见解以解译对测试数据集的预测。为了识别具有辨识异质性的强可鉴别潜力的潜在特征，进行潜在特征的评级。热图确认促成对测试数据的准确预测的特征的有效性和相关性。

在整个本说明书中对“一个实施例(one embodiment)”、“一实施例(anembodiment)”、“一示例(an example)”、“一实施方案(an implementation)”、“一所公开方面(a disclosed aspect)”或“一方面(an aspect)”的引用意味着结合实施例、实施方案或方面描述的特定的特征、结构或特性包含在本公开的至少一个实施例、实施方案或方面中。因此，在整个本说明书中的各个地方出现的短语“在一个实施例中(in one embodiment”、“在一个示例中(in one example)”、“在一个方面(in one aspect)”、“在一实施方案中(inan implementation)”或“在一实施例中(in an embodiment)”不一定全部是指同一实施例。此外，可在各种所公开实施例中以任何合适方式组合特定的特征、结构或特性。

如本文中所利用，术语“组件”、“系统”、“架构”、“引擎”等意欲指计算机或电子相关实体，即硬件、硬件和软件的组合、软件(例如，执行中)或固件。例如，组件可为一个或多个晶体管、存储器单元、晶体管或存储器单元的布置、栅极阵列、可编程栅极阵列、专用集成电路、控制器、处理器、在处理器上运行的过程、对象、可执行程序或存取半导体存储器、计算机等或与半导体存储器、计算机等介接的应用程序，或其合适的组合。组件可包含可擦除编程(例如，至少部分地存储在可擦除存储器中的过程指令)或硬编程(例如，在制造时刻录到不可擦除存储器中的过程指令)。

借助于示出，从存储器和处理器执行的过程两者可为组件。作为另一实例，架构可包含电子硬件(例如，并联或串联晶体管)、处理指令和处理器的布置，所述布置以适合于电子硬件的布置的方式实施处理指令。另外，架构可包含单个组件(例如，晶体管、栅极阵列、……)或组件的布置(例如，晶体管的串联或并联布置、与程序电路系统连接的栅极阵列、电力引脚、电接地、输入信号线和输出信号线等)。系统可包含一个或多个组件以及一个或多个架构。一个示例系统可包含开关块架构，所述开关块架构包括交叉输入/输出线和传递栅极晶体管，以及电源、信号生成器、通信总线、控制器、I/O接口、地址寄存器等。应了解，预期定义中的一些重叠，并且架构或系统可为独立组件，或另一架构、系统等的组件。

除前述内容之外，所公开主题可实施为使用典型制造、编程或工程技术来产生控制电子装置实施所公开主题的硬件、固件、软件或其任何合适的组合的方法、设备或制品。本文中所使用的术语“设备”和“制造制品”意图涵盖可从任何计算机可读装置、载体或媒体接入的电子装置、半导体装置、计算机或计算机程序。计算机可读媒体可包含硬件媒体或软件媒体。另外，媒体可包含非暂时性媒体或传送媒体。在一个实例中，非暂时性媒体可包含计算机可读硬件媒体。计算机可读硬件媒体的具体实例可包含但不限于磁存储装置(例如，硬盘、软盘、磁条……)、光盘(例如，光盘(compact disk，CD)、数字通用光盘(DVD)……)、智能卡和快闪存储器装置(例如，卡、棒、键驱动器……)。计算机可读运送媒体可包含载波等。当然，所属领域的技术人员将认识到，可在不脱离所公开主题的范围或精神的情况下对此配置进行许多修改。

除非在实例中以及说明书和权利要求中的其它地方另外指示，否则所有份数和百分比均按重量计，所有温度以摄氏度为单位，并且压力处于或接近大气压。除了在操作实例中，或在另外指示的情况下，参考说明书和权利要求书中所使用的成分、反应条件等的量的所有数字、值和/或表达式应理解为在所有情况下由术语“约”修饰。

关于给定特性的任何数字或数值范围，来自一个范围的数字或参数可与来自同一特性的不同范围的另一数字或参数组合以生成数值范围。

虽然针对某些实施例对本发明进行了解释，但应理解，对所属领域的技术人员而言，在阅读说明书后，其各种修改将变得显而易见。因此，应理解，本文中所公开的发明意欲覆盖落入所附权利要求的范围内的此类修改。

已出于示出和描述的目的而提供对本发明的前述描述。本发明并不意欲为穷尽性的或将本发明限制于所公开的精确形式。许多修改和变化对于所属领域的技术人员来说将是显而易见的。

选择和描述实施例是为了最好地解释本发明的原理和其实际应用，由此使得所属领域的其他技术人员能够理解本发明的各种实施例以及适合于所预期的特定用途的各种修改。

工业适用性：

预期本发明广泛地影响用于细胞/组织的形态图谱分析的技术和策略，它们在药物发现的许多应用中越来越有前途(尤其是存在采用基于图像的测定(例如Recursion、Insitro)、对临床诊断的基础生物学研究的一些新兴的生物技术公司)。

参考文献：以下参考文献的公开内容以引用方式并入

[1]V.约瑟(V.Ljosa)、K.L.索科尔尼基(K.L.Sokolnicki)和A.E.卡朋特(A.E.Carpenter)，“用于验证的经注释高通量显微图像集(Annotated high-throughputmicroscopy image sets for validation)”，《自然方法(Nature methods)》，第9卷，第7期，第637-637页，2012年，doi：10.1038/nmeth.2083。

[2]E.威廉姆斯(E.Williams)等人，“图像数据资源：生物图像数据集成和公布平台(Image Data Resource:a bioimage data integration and publicationplatform)”，《自然方法》，第14卷，第8期，第775-781页，2017年，doi：10.1038/NMETH.4326。

[3]P.J.图尔(P.J.Thul)等人，“人类蛋白质组的亚细胞图(Asubcellular map ofthe human proteome)”，《科学(美国科学促进会)(Science(American Association forthe Advancement of Science))》，第356卷，第6340期，第820-820页，2017年，doi：10.1126/science.aal3321。

[4]N.H.卓(N.H.Cho)等人，“OpenCell：用于人类细胞组织的地图绘制的内源性标记(OpenCell:Endogenous tagging for the cartography of human cellularorganization)”，《科学(美国科学促进会)》，第375卷，第6585期，第eabi6983-eabi6983页，2022年，doi：10.1126/science.abi6983。

[5]M.P.比亚纳(M.P.Viana)等人，“经集成胞内组织和其在人类iPS细胞中的变化(Integrated intracellular organization and its variations in human iPScells)”，《自然(伦敦)(Nature(London))》，第613卷，第7943期，第345-354页，2023年，doi：10.1038/s41586-022-05563-7。

[6]G.P.韦(G.P.Way)等人，“形态和基因表达图谱分析提供用于映射细胞状态的互补信息(Morphology and gene expression profiling provide complementaryinformation for mapping cell state)”，编辑：冷泉港：冷泉港实验室出版社(ed.ColdSpring Harbor:Cold Spring Harbor Laboratory Press)，2021年。

[7]“转录物组学之外的细胞状态：集成hiPSC衍生心肌细胞的结构组织和基因表达(Cell states beyond transcriptomics:integrating structural organization andgene expression in hiPSC-derived cardiomyocytes)”，《肥胖、健身和健康周(Obesity,fitness,&wellness week)》，第851页，2020年。

[8]A.E.卡朋特等人，“CellProfiler：用于识别和定量细胞表型的图像分析软件(CellProfiler:image analysis software for identifying and quantifying cellphenotypes)”，《基因组生物学(Genome biology)》，第7卷，第10期，第R100-R100页，2006年，doi：10.1186/gb-2006-7-10-r100。

[9]K.C.M.李(K.C.M.Lee)、J.古克(J.Guck)、K.古达(K.Goda)和K.K.齐亚(K.K.Tsia)，“迈向深层生物物理细胞术：前景与挑战(Toward Deep BiophysicalCytometry:Prospects and Challenges)”，《生物技术趋势(Trends in biotechnology)》(常规版)，第39卷，第12期，第1249-1262页，2021年，doi：10.1016/j.tibtech.2021.03.006。

[10]D.M.D.萧(D.M.D.Siu)等人，“高通量深度学习辅助生物物理学成像细胞测量术描绘了细胞群体异质性(Deep-learning-assisted biophysical imaging cytometryat massive throughput delineates cell population heterogeneity)”，《芯片实验室(Lab on a chip)》，第2卷，第2期，第3696-378页，2020年，doi：10.1039/d0lc00542h。

[11]M.-A.布雷(M.-A.Bray)等人，“细胞全景绘制，一种用于使用多重荧光染料进行形态图谱分析的基于高内涵图像的测定(Cell Painting,a high-content image-basedassay for morphological profiling using multiplexed fluorescent dyes)”，《自然实验手册(Nature protocols)》，第11卷，第9期，第1757-1774页，2016年，doi：10.1038/nprot.2016.105。

[12]W.萨梅克(W.Samek)、G.g.蒙塔马(G.g.Montavon)、A.韦达尔迪(A.Vedaldi)、L.K.汉森(L.K.Hansen)和K.-R.穆勒(K.-R.Müller)，“可解释AI：解译、解释和可视化深度学习(Explainable AI:interpreting,explaining and visualizing deep learning)”，《可解释人工智能(Explainable artificial intelligence)》，2019年，doi：10.1007/978-3-030-28954-6。

[13]E.乔阿(E.Tjoa)和C.古安(C.Guan)，“对可解释人工智能(XAI)的调查：迈向医学XAI(ASurvey on Explainable Artificial Intelligence(XAI):Towards MedicalXAI)”，arXiv.org，2020年，doi：10.1109/TNNLS.2020.3027314。

[14]D.P.金马(D.P.Kingma)和M.魏玲(M.Welling)，“自编码变分贝叶斯(Auto-Encoding Variational Bayes)”，编辑：伊夕卡：康奈尔大学图书馆(ed.Ithaca:CornellUniversity Library)，arXiv.org，2022年。

[15]Z.吴(Z.Wu)等人，“DynaMorph：活细胞的形态动力学状态的自监督学习(DynaMorph:self-supervised learning of morphodynamic states of live cells)”，《细胞的分子生物学(Molecular biology of the cell)》，第33卷，第6期，第ar59-ar59页，2022年，doi：10.1091/mbc.E21-11-0561。

[16]A.扎里茨基(A.Zaritsky)等人，“无标记活细胞图像的可解译深度学习揭开了高度转移性黑色素瘤的功能特点(Interpretabledeep learning of label-free livecell images uncovers functional hallmarks of highly-metastatic melanoma)”，编辑：冷泉港：冷泉港实验室出版社，2020年。

[17]H.小林(H.Kobayashi)、K.C.切弗罗尔斯(K.C.Cheveralls)、M.D.莱奥内蒂(M.D.Leonetti)和L.A.罗耶(L.A.Royer)，“自监督深度学习对蛋白质亚细胞定位的高分辨率特征进行编码(Self-supervised deep learning encodes high-resolution featuresof protein subcellular localization)”，《自然方法》，第19卷，第8期，第995-1003页，2022年，

doi：10.1038/s41592-022-01541-z。

[18]A.韦达尔迪、H.比绍夫(H.Bischof)、T.布罗克斯(T.Brox)和J.-M.弗拉姆(J.-M.Frahm)，“具有经解缠结表示的高保真度合成(High-Fidelity Synthesis withDisentangled Representation)”，第12371卷，计算机科学讲义.瑞士：施普林格国际出版公司(Lecture Notes in Computer Science.Switzerland:Springer InternationalPublishing AG)，2020年，第157-174页。

[19]H.金(H.Kim)和A.姆尼赫(A.Mnih)，“通过因式分解进行的解缠结(Disentangling by Factorising)”，2018年，doi：10.48550/arxiv.1802.05983。

[20]C.P.柏杰士(C.P.Burgess)等人，“理解$\beta$-VAE中的解缠结(Understanding disentangling in$\beta$-VAE)”，2018年，doi：10.48550/arxiv.1804.03599。

[21]I.希金斯(I.Higgins)等人，，“扫描：学习阶层组成视觉概念(SCAN:LearningHierarchical Compositional Visual Concepts)”，2017年，doi：10.48550/arxiv.1707.03389。

[22]A.v.d.奥尔德(A.v.d.Oord)、O.温亚尔斯(O.Vinyals)和K.卡武克措奥卢(K.Kavukcuoglu)，“神经离散表示学习(Neural Discrete Representation Learning)”，2017年，doi：10.48550/arxiv.1711.00937。

[23]K.C.M.李等人，“Multi-ATOM：具有亚细胞分辨率的超高通量单细胞定量相位成像(Multi-ATOM:Ultrahigh-throughput single-cell quantitative phase imagingwith subcellular resolution)”，《生物光子学杂志(Journal of biophotonics)》，第12卷，第7期，第e201800479-n/a页，2019年，doi：10.1002/jbio.201800479。

[24]S.V.斯塔森(S.V.Stassen)、G.G.K.叶(G.G.K.Yip)、K.K.Y.王(K.K.Y.Wong)、J.W.K.胡(J.W.K.Ho)和K.K.齐亚，“用VIA对单细胞组学数据进行的通用化和可扩展的轨迹推断(Generalized and scalable trajectory inference in single-cell omics datawith VIA)”，《自然通信(Nature communications)》，第12卷，第1期，第5528-5528页，2021年，doi：10.1038/s41467-021-25773-3。

[25]M.L.蒙特罗(M.L.Montero)、J.S.鲍尔斯(J.S.Bowers)、R.P.科斯塔(R.P.Costa),C.J.H.路德维格(C.J.H.Ludwig)和G.马尔霍特拉(G.Malhotra)，“迷失在潜在空间中：经解缠结模型以及组合通用化的挑战(Lost in Latent Space:DisentangledModels and the Challenge of Combinatorial Generalisation)”，2022年，doi：10.48550/arxiv.2204.02283。

[26]A.库马尔(A.Kumar)、P.萨蒂杰里(P.Sattigeri)和A.巴拉克里希南(A.Balakrishnan)，“来自未经标记观察结果的经解缠结潜在概念的变分推断(Variational Inference of Disentangled Latent Concepts from UnlabeledObservations)”，2017年，doi：10.48550/arxiv.1711.00848。

[27]E.贝希特(E.Becht)等人，“用于使用UMAP使单细胞数据可视化的降维(Dimensionality reduction for visualizing single-cell data using UMAP)”，《自然·生物技术(Nature biotechnology)》，第37卷，第1期，第38-44页，2019年，doi：10.1038/nbt.4314。

[28]K.R.穆恩(K.R.Moon)等人，“可视化结构和高维生物学数据中的转变(Visualizing structure and transitions in high-dimensional biological data)”，《自然·生物技术》，第37卷，第12期，第1482-1492页，2019年，doi：10.1038/s41587-019-0336-3。

[29]W.王(W.Wang)等人，“活细胞成像和分析揭露了快照数据中固有缺失的细胞表型转变动态(Live-cell imaging and analysis reveal cell phenotypic transitiondynamics inherently missing in snapshot data)”，《科学进展(Science advances)》，第6卷，第36期，2020年，doi：10.1126/sciadv.aba9319。

[30]C.埃德隆德(C.Edlund)等人，“LIVECell—用于无标记活细胞分割的大规模数据集(LIVECell-A large-scaledataset for label-free live cell segmentation)”，《自然方法》，第18卷，第9期，第1038-1045页，2021年，doi：10.1038/s41592-021-01249-6。

[31]Q.T.K.赖(Q.T.K.Lai)等人，“使用FACED的高速激光扫描生物显微镜(High-speed laser-scanning biological microscopy using FACED)”，《自然实验手册》，第16卷，第9期，第4227-4264页，2021年，doi：10.1038/s41596-021-00576-4。

[32]G.G.K.叶等人，“用于大规模单细胞形态图谱分析的多模态FACED成像(Multimodal FACED imaging for large-scale single-cell morphologicalprofiling)”，《APL光子学(APLphotonics)》，第6卷，第7期，第70801-070801-10页，2021年，doi：10.1063/5.0054714。

[33]R.T.Q.陈(R.T.Q.Chen)、X.李(X.Li)、R.格罗斯(R.Grosse)和D.迪韦诺(D.Duvenaud)，“变分自编码器中的解缠结的隔离源(Isolating Sources ofDisentanglement in Variational Autoencoders)”，2018年，doi：10.48550/arxiv.1802.04942。

[34]M.-A.卡博诺(M.-A.Carbonneau)、J.扎伊迪(J.Zaidi)、J.布瓦拉德(J.Boilard)和G.加农(G.Gagnon)，“测量解缠结：度量的综述(MeasuringDisentanglement:A Reviewof Metrics)”，《IEEE神经网络和学习系统交易(IEEEtransaction on neural networks and learning systems)》，第卷，第页，第1-15页，2022年，doi：10.1109/TNNLS.2022.3218982。

Claims

1.一种用于基于深度学习无监督识别单细胞形态图谱分析的方法，其特征在于，所述方法包括以下步骤：

收集并预处理至少一个单细胞图像数据；

通过限定潜在空间的任意维度大小来训练变分自编码器(VAE)；

将习得潜在空间从所述VAE提炼到生成对抗网络(GAN)并训练所述GAN内的生成器-鉴别器组合；

生成与所述习得潜在空间对齐的真实图像；以及

通过并入统计方差分析和层次聚类来解译数据。

2.根据权利要求1所述的方法，其特征在于，收集并预处理所述至少一个单细胞图像数据的步骤包括将所述单细胞图像数据内的细胞中心对齐并遮蔽细胞以消除背景噪声。

3.根据权利要求1所述的方法，其特征在于，进一步包括在训练所述VAE之后执行下游任务，所述下游任务包括可视化和轨迹推断。

4.根据权利要求1所述的方法，其特征在于，训练所述VAE的步骤包括以无监督方式将至少一个高维图像映射到所述潜在空间中，所述至少一个高维图像经由编码器被缩减到所述潜在空间，并且经缩减图像经由解码器重构，且其中如果VAE学习了潜在空间每个维度的独立变化因素，则认为潜在空间是解缠结的。

5.根据权利要求4所述的方法，其特征在于，具有形态上类似的细胞的所述至少一个高维图像映射到所述潜在空间中的紧密间隔的聚集体中。

6.根据权利要求1所述的方法，其特征在于，所述鉴别器被训练以检测从所述生成器生成的所述图像是真实的还是虚假的。

7.根据权利要求1所述的方法，其特征在于，所述方法进一步包括通用化以分析从不同的成像模态或对比度获取的新的、未见过的数据集。

8.根据权利要求1所述的方法，其特征在于，所述VAE被配置成学习解缠表示或生成因子，并学习如何从所述因子重建图像，并且所述训练VAE的步骤包括基于所述编码器预测的潜在空间表示来重构来自所述解码器的至少一个目标图像。

9.根据权利要求8所述的方法，其特征在于，训练所述VAE的所述步骤包括定义任意数量的潜在维度，其中所述方法进一步包含使用所述GAN内的所述生成器-鉴别器组合来基于所述潜在维度生成图像，以便通过遍历所述潜在空间来生成一系列相关图像，由此在所述潜在空间内移动以探索不同的图像特征。

10.根据权利要求9所述的方法，其特征在于，N*1个细胞图像是通过遍历一个维度来生成的，d表示潜在维度的数量，并且N*d个图像是通过遍历d个维度来生成的，其中所述的方法进一步包括：从潜在遍历中的每个细胞图像中提取F个手动定义的细胞特征，使得使用生成的所述N*1个细胞图像创建N*F个特征矩阵。

11.根据权利要求10所述的方法，其特征在于，进一步包括：

计算沿着包括所述N个细胞图像的所述潜在遍历的F个特征的统计方差，以便生成用于所述单个遍历的方差向量1*F

对沿d个维度的F个特征进行统计方差计算，得到d*F方差值；以及

获得表示所述d*F方差值的方差矩阵。

12.根据权利要求11所述的方法，其特征在于，进一步包括：

准备单细胞库作为数据集；

从所述数据集中采样K个图像，以获得K个方差矩阵；以及

计算得到的所述K个方差矩阵的统计均值，生成d行F列的均值-方差矩阵，其中基于所述均值-方差矩阵执行层次聚类，以获得以聚类图的形式可视化的分组。

13.一种用于基于深度学习识别单细胞形态图谱分析的可编程计算机，其特征在于，包括：

处理单元，其被配置成：

经由用户输入收集至少一个单细胞图像数据并预处理所述单细胞图像数据；

生成与所述习得潜在空间对齐的真实图像；以及

通过并入统计方差分析和层次聚类来解译数据。

14.根据权利要求13所述的可编程计算机，其特征在于，收集并预处理所述至少一个单细胞图像数据的步骤包括将所述单细胞图像数据内的细胞中心对齐并遮蔽细胞以消除背景噪声，并且所述可编程计算机进一步包括存储器，所述存储器被配置成存储所述单细胞图像数据。

15.根据权利要求13所述的可编程计算机，其特征在于，进一步包括在训练所述VAE之后执行下游任务，所述下游任务包括可视化和轨迹推断，其中所述可编程计算机进一步包括输出接口，所述输出接口被配置成显示可视化结果。

16.根据权利要求13所述的可编程计算机，其特征在于，所述VAE被配置成学习解缠表示或生成因子，并学习如何从所述因子重建图像，并且所述训练VAE的步骤包括基于所述编码器预测的潜在空间表示来重构来自所述解码器的至少一个目标图像。

17.根据权利要求16所述的可编程计算机，其特征在于，训练所述VAE的所述步骤包括定义任意数量的潜在维度，且所述处理单元还被配置为使用所述GAN内的所述生成器-鉴别器组合来基于所述潜在维度生成图像，以便通过遍历所述潜在空间来生成一系列相关图像，由此在所述潜在空间内移动以探索不同的图像特征，其中所述可编程计算机进一步包括存储器，所述存储器被配置成存储所述一系列所述相关图像。

18.根据权利要求17所述的可编程计算机，其特征在于，N*1个细胞图像是通过遍历一个维度来生成的，d表示潜在维度的数量，并且N*d个图像是通过遍历d个维度来生成的，其中所述的方法进一步包括：从潜在遍历中的每个细胞图像中提取F个手动定义的细胞特征，使得使用生成的所述N*1个细胞图像创建N*F个特征矩阵。

19.根据权利要求18所述的可编程计算机，其特征在于，所述处理单元进一步被配置成：

计算沿着包括所述N个细胞图像的所述潜在遍历的F个特征的统计方差，以便生成用于所述单个遍历的方差向量1*F；

对沿d个维度的所述F个特征进行统计方差计算，得到d*F方差值；以及

获得表示所述d*F方差值的方差矩阵并将所述方差矩阵发送到所述存储器。

20.根据权利要求19所述的可编程计算机，其特征在于，所述处理单元进一步被配置成：

准备单细胞库作为数据集；

从所述数据集中采样K个图像，以获得K个方差矩阵；以及

计算得到的所述K个方差矩阵的统计均值，生成d行F列的均值-方差矩阵，其中基于所述均值-方差矩阵执行层次聚类，以获得以聚类图的形式可视化的分组，其中所述可编程计算机进一步包括输出接口，所述输出接口被配置成显示可视化分组。