CN113826169A

CN113826169A - 用于根据多参数细胞和亚细胞成像数据表征细胞表型多样性的系统和方法

Info

Publication number: CN113826169A
Application number: CN202080035631.0A
Authority: CN
Inventors: S·C·彻努博特拉; F·普亚拉; S·A·弗曼
Original assignee: University of Pittsburgh
Current assignee: University of Pittsburgh
Priority date: 2019-05-14
Filing date: 2020-05-13
Publication date: 2021-12-21
Also published as: US11972858B2; EP3969978A1; JP2022532615A; US20220215935A1; WO2020232094A1; CA3139879A1; EP3969978A4

Abstract

一种表征细胞表型的方法，包括接收来自多个患者或多个多细胞体外模型的多个组织样品的多参数细胞和亚细胞成像数据，对所述多参数细胞和亚细胞成像数据进行细胞分割以产生经分割的多参数细胞和亚细胞成像数据，以及对经分割的多参数细胞和亚细胞成像数据进行递归分解以识别多个计算表型。递归分解包括多个分解水平，每个分解水平包括软/概率聚类和空间正则化，并且经分割的多参数细胞和亚细胞成像数据中的每个细胞被概率地分配给多个计算表型中的一个或多个。

Description

用于根据多参数细胞和亚细胞成像数据表征细胞表型多样性的系统和方法

政府合同

本发明是在由国家卫生研究院(National Institutes of Health，NIH)给予的补助金#CA204826下，在政府支持下完成的。政府对本发明享有一定权利。

背景技术

技术领域

本发明涉及数字病理学，并且具体地涉及用于根据从各种成像模态获得的多参数细胞和亚细胞成像数据(例如，多重复合到超复合成像数据)来表征和分类各种细胞类型及其活化(细胞表型)的无监督分级学习系统和方法。

现有技术的描述

数字病理学是指组织学染色的组织样品的获取、存储和显示，并且最初在诸如第二意见远程病理学、免疫染色解释学和术中远程病理学的生态位(niche)应用中具有吸引力。通常，在数字病理学中，由多个载玻片组成的大量患者数据从活检样品生成，并且由病理学家通过在高清晰度监视器上查看载玻片来评估。由于涉及人工劳动，当前的工作流做法是耗时的、容易出错的和主观的。

组织是具有在空间上彼此连通的多种不同细胞类型的异型细胞系统。数字病理学的一个挑战是如何准确且有效地根据多参数细胞和亚细胞成像数据表征各种细胞类型以及它们的活化，所述多参数细胞和亚细胞成像数据是从各种多重复合到超复合成像模态获得的。

发明内容

在一个实施例中，提供了一种根据多参数细胞和亚细胞成像数据表征来自多个患者或多个多细胞体外模型的多个组织样品的细胞表型的方法。所述方法包括接收经分割的多参数细胞和亚细胞成像数据，其中所述经分割的多参数细胞和亚细胞成像数据是通过对所述多参数细胞和亚细胞成像数据执行细胞分割，以及对所述经分割的多参数细胞和亚细胞成像数据执行递归分解以识别多个计算表型而生成的。递归分解包括多个分解水平，每个分解水平包括软/概率聚类和空间正则化，并且经分割的多参数细胞和亚细胞成像数据中的每个细胞被概率地分配给多个计算表型中的一个或多个计算表型/由多个计算表型中的一个或多个计算表型拥有。更具体地，例如，这种概率分配/所有权意味着细胞可具有X％的属于表型A的概率和Y％的属于表型B的概率等等。在一个特定实施例中，可将细胞确定性地分配给多个计算表型中的仅一者以易于可视化和解释。

在另一个实施例中，提供了一种计算机化系统，用于根据来自多个患者的多个组织样品或多个多细胞体外模型的多参数细胞和亚细胞成像数据来表征细胞表型。该系统包括处理装置，该处理装置包括细胞表型表征组件，该细胞表型表征组件被配置用于接收经分割的多参数细胞和亚细胞成像数据，其中所述经分割的多参数细胞和亚细胞成像数据是通过对所述多参数细胞和亚细胞成像数据执行细胞分割，以及对所述经分割的多参数细胞和亚细胞成像数据执行递归分解以识别多个计算表型而生成的。递归分解包括多个分解水平，每个分解水平包括软/概率聚类和空间正则化。经分割的多参数细胞和亚细胞成像数据中的每个细胞被概率地分配给多个计算表型中的一个或多个计算表型/由多个计算表型中的一个或多个计算表型拥有。

附图说明

图1是根据本公开的概念的示例性实施例的表征多重复合到超复合成像数据中的细胞表型多样性的方法的流程图；

图2是根据图1的方法生成的两个示例性子群组的示例性细胞表型树的示意性表示；

图3是可以根据本公开的概念的方面生成的示例性热图的示意性表示；

图4是可以根据本公开的概念的方面生成的示例性图像，其中基于本公开的概念的子群组结果对细胞边界进行颜色编码；以及

图5是根据本公开的概念的示例性实施例的用于根据多参数细胞和亚细胞成像数据来表征和分类细胞类型及其活化(细胞表型)的示例性数字病理学系统的示意图。

具体实施方式

如本文所用，单数形式的“一”、“一个”和“该”包括复数指代，除非上下文另外清楚地指明。

如这里所使用的，两个或多个部件或组件“耦合”的陈述应当意味着，只要发生连接，这些部件就直接或间接地(即，通过一个或多个中间部件或组件)接合或一起操作。

如本文所用，术语“若干”应指一个或大于一的整数(即，多个)。

如在此所使用的，术语“组件”和“系统”旨在表示计算机相关的实体，或者是硬件、硬件和软件的组合、软件、或者是执行中的软件。例如，组件可以是(但不限于)在处理器上运行的进程、处理器、对象、可执行文件、执行线程、程序和/或计算机。作为说明，在服务器上运行的应用程序和服务器都可以是组件。一个或多个组件可以驻留在进程和/或执行线程内，并且组件可以位于一个计算机上和/或分布在两个或更多计算机之间。尽管关于某些附图或作为屏幕截图的图形示出并描述了向用户显示信息的某些方式，但是相关领域的技术人员将认识到，可以采用各种其它替换方式。

如本文所用，术语“多重复合成像”应指采用多达7种生物标志物的成像技术，并且“多重复合图像”应指使用多重复合成像产生的图像。

如本文所使用的，术语“超复合成像”应当指采用多于7种生物标志物的成像技术，并且“超复合图像”应当指使用超复合成像创建的图像。

如在此所使用的，术语“多重复合到超复合成像”应当包括多重复合成像和/或超复合成像，并且“多重复合到超复合图像”应当包括多重复合图像和/或超复合图像。

本文所使用的方向短语，例如但不限于顶部、底部、左、右、上、下、前、后及其派生词，涉及附图中所示的元件的曲线，并且不限制权利要求，除非其中明确指出。

为了解释的目的，现在将结合许多具体细节来描述本公开的概念，以便提供对本发明的透彻理解。然而，将显而易见的是，在不背离本发明创造的精神和范围的情况下，可以在没有这些具体细节的情况下实践本公开的概念。

本公开的概念提供了一种新颖的无监督分级学习技术，以表征根据各种成像模态获得的多重复合到超复合成像数据中的细胞表型多样性。在示例性实施例中，本文结合根据具有超复合免疫荧光生物标志物数据形式的多参数细胞和亚细胞成像数据表征和分类各种细胞类型及其活化(细胞表型)描述了本公开的概念。然而，应当理解，这仅是示例性的，并且本公开的概念可以结合任何空间多参数细胞和亚细胞成像数据来使用，包括但不限于使用以下成像模态中的任何一种获得的成像数据：透射光、H&E和IHC的组合(1种至多种生物标志物)；荧光；免疫荧光(包括但不限于抗体、纳米抗体)；活细胞生物标志物多重复合、超复合；质谱(包括但不限于CyTOF)；空间转录组学(包括但不限于FISH)；以及电子显微镜。靶包括但不限于组织样品(人和动物)以及组织和器官(人和动物)的体外模型。

如本文更详细地描述的，本公开的概念的主要思想之一是它采用数据驱动的表型而不是用户定义的表型。更具体地，在疾病生物学文献中，用户非常普遍的是沿着以下路线定义表型(用户定义的表型)：生物标志物A为阳性，生物标志物B为阳性，生物标志物C为阴性；这意味着表型X。这种类型的用户定义的表型意味着没有被自动发现的数据驱动表型。如本文详细讨论的，本公开的概念允许被自动发现的数据驱动表型，并且因此与当前领域中接受的那些非常不同。相反，本公开的概念的方法是无监督的，并且可能自动地识别用户定义的表型。此外，本公开的概念的方法是假设生成的，因为它可以识别和表征由于疾病进展而在数据中出现的新表型(数据驱动的表型)。

因此，如本文详细描述的，本公开的概念的计算表型方法包括两个步骤，即(i)软/概率聚类和(ii)空间正则化，其被递归地应用于(即，递归分解)成像数据。在示例性实施例中，递归分解的结果被用于产生计算表型树，其中树的末端节点(叶子)表示在输入数据集中发现的不同计算表型。不同的计算表型形成了由递归分解确定的最终多因素分析(MFA)模型的组分。

为了说明表型多样性(例如上皮肠细胞、骨髓巨噬细胞、淋巴T细胞、间充质成纤维细胞)，本公开的概念将每个簇定义为参数低维子空间的分级混合物。为了说明表型活化连续性(例如，上皮至间质转化)，每个细胞可能被树中的每一个簇拥有。此外，对簇分配进行空间正则化以实现尊重组织架构的空间一致性。此外，在示例性实施例中，递归分解是二进制的，即，混合模型在树的每层具有两个组分。在示例性实施例中，递归的停止标准是应用于混合模型的子空间之间的角度的阈值，以确保所得表型是不同的并且避免过度拟合。在示例性实施例中，本公开的概念还应用Kullback-Leiber(KL)散度度量，其使用MFA模型参数来进一步量化任何两种计算表型之间的差异，并且通过将每个细胞分配到具有最高所有权概率的表型来将组织样品内表型的空间分布可视化。

如上所述，本公开的概念的无监督机器学习算法递归地应用具有参数混合模型的概率聚类以及所得到的簇分配的空间正则化。在示例性实施例中，概率聚类算法包括但不限于因素分析器(FA)和概率主组分分析(PPCA)。此外，概率混合模型包括但不限于因素分析器的混合、高斯混合模型和PPCA的混合(MPPCA)。在一个特定实施方式中，本公开的概念使用因素分析器的混合，并通过期望最大化算法来学习模型的参数。

此外，在另一特定实施例中，所揭示的概念采用新颖的代价函数来进行空间正则化。具体地，目标代价函数由两项组成。第一项促进了簇分配中的稀疏性，这意味着每个细胞尝试完全属于一个簇。第二项促进了空间一致性，这意味着如果细胞的簇分配是不确定的，则它在更新其簇分配时寻求来自其邻近的其它细胞的帮助。此外，在目标函数中存在附加约束，因为每个细胞的簇分配应当相加和为1。同样，为了促进空间一致性，每个细胞连接到在截止距离内的邻居。本公开的概念还可以使用乘法器方式的交替方向(ADMM)的方法。

在示例性实施例中，由于细胞到簇的概率分配，分级结构的所有级别在构建和评估对应混合模型时使用所有细胞数据，除了现在对细胞适当加权之外。这些权重也影响空间正则化步骤。为了找到计算机得出的表型的最有区别的生物标记，本公开概念可以基于因素分析器混合模型中的组分的平均向量和子空间方向的差异对生物标记执行排序操作。最后，当混合模型的组分子空间之间的角度低于截止值时，分层构造终止。

图1是根据本发明公开概念的示例性实施例的表征多重复合到超复合成像数据中的细胞表型多样性的方法的流程图。参考图1，该方法开始于步骤5，其中根据来自群组的多个组织样品产生多参数细胞和亚细胞成像数据(在非限制性示例性实施例中，其为超复合免疫荧光生物标志物数据的形式)，所述群组在非限制性示例性实施例中为癌症患者群组。然而，应当理解，这仅是说明性的，并且数据可以来自任何患者群组(即，任何疾病)。更具体地，在非限制性示例性实施例中，从甲醛固定石蜡包埋(FFPE)组织微阵列(TMA)生成多个HxIF图像堆栈，所述组织微阵列来自从患者群组获得的切除组织样品。如将理解的，对于每个堆栈，HxIF图像堆栈的生成涉及使用多重复合(在该实施例中具体是超复合)成像处理从每个组织切片生成多个高分辨率的多重复合图像，该成像处理包括用多个荧光标签重复标记每个组织切片以对多个生物标志物成像。

在这里为了说明的目的描述的非限制性示例性实施例中，可以使用通用电气医疗(GE Healthcare)的Cell DIVE^TM(先前命名为MultiOmyx)HxIF成像和图像处理工作处理仪器来生成在图1的步骤5中获取的多参数细胞和亚细胞成像数据。这仅是示例性的，并且应当理解，可以使用其他已知的或以后开发的技术来生成多参数细胞和亚细胞成像数据。

示例性实施例的Cell DIVE^TM系统可通过标签-图像-染料-灭活的迭代循环，经由2至3种生物标志物加上DAPI(4'，6-二脒基-2-苯基吲哚)核复染的连续多重复合成像，进行大于50种生物标志物的超复合成像。这种方法的广泛验证已经证明，大多数测试的表位(epitopes)对染料灭活过程是极其稳健的。已经发现，样品的生物完整性被保持至少50个重复循环。

更具体地说，在示例性实施例中，使用Cell DIVE^TM产生数据涉及用两种或三种由不同荧光探针标记的抗体进行的非破坏性循环免疫荧光标记、成像以及随后的荧光猝灭。重复该过程以拍摄所有需要的抗体(生物标志物)。在示例性实施例中，数据由在每个感兴趣区域处拍摄的图像堆栈组成，并且整个图像堆栈由针对若干成像轮中的每个的若干图像组成。每轮包括核(DAPI)图像，其用作配准来自所有轮的所有图像的基准。每轮中的图像的定量包括每个测量的生物标志物的荧光强度。为了除去自发荧光，在猝灭循环后也获得图像。Cell DIVE^TM图像的处理还包括对视野中不均匀照明的校正、自发荧光的去除、配准和对若干种类缺陷的自动质量控制(QC)检测，缺陷包括配准失败、模糊或饱和的图像和其它成像问题。图像和数据经历一系列组织和细胞质量检查、log2变换和归一化步骤。为了整合来自分批处理的数据，将每种生物标志物归一化为对照中值。在示例性实施例中，以TIFF格式获取图像，而在具有简单结构的文件中捕获图像元数据，该文件捕获从其获得图像的来源和获取的特性。所选择的生物标记物是指示细胞活化状态的用于特定细胞谱系的蛋白质标记物、癌基因、肿瘤抑制剂和转译后蛋白质修饰。数据还包括相应的临床信息，包括组织学肿瘤等级、癌症阶段、性别、年龄和10年的随访监测。

在本文所述的公开概念的一个特定非限制性示例性实施例中，为了说明性目的，在步骤5中使用56种特定生物标记物来产生多参数细胞和亚细胞成像数据。然而，应当理解，这仅是为了说明性目的，并且在公开概念的范围内也可以使用更多或更少和/或不同的生物标记物。

在步骤5之后，方法进行到步骤10。在步骤10，对获取的多参数细胞和亚细胞成像数据执行细胞分割，以分割每个组织样品中的每个细胞。在示例性实施例中，使用结构生物标志物的集合进行细胞分割：NaKATPase(细胞膜、边界)、S6(细胞质)和DAPI(核)。蛋白质表达和标准偏差通过每个细胞掩模内的中值生物标记强度值来定量，并被转化成log2标度。使用为每个细胞产生的单独QC分数(不包括低于0.7-0.8的分数，该分数表明不准确的配准、未对齐或组织损失)并基于每个经分割的亚细胞区室的像素数来过滤细胞。

接下来，在步骤15，对经分割的多参数细胞和亚细胞成像数据执行递归分解，包括在每个分解水平的软/概率聚类和空间正则化。递归分解导致产生细胞表型树，其中每个细胞都被概率地分配到多个计算表型中的一个或多个(即，每个细胞都按概率属于一个或多个计算表型)。在一个特定实施方式中，每个簇/计算表型被定义为参数低维子空间的分层混合，并且每个细胞被每个簇/计算表型概率地拥有。

本公开的概念的方法可以对任何大小群组的输入来执行。在本文出于说明目的描述的一个具体示例性实施例中，基于5年内的疾病复发，对癌症患者的原始完整群组的子群组(NED，REC)执行本公开的概念。根据图1的步骤15产生的子群组的示例性细胞表型树20A和20B在图2中示意性地示出。在细胞表型树20A和20B中，每个节点22(为了易于说明，仅某些示例性节点被标记为22)表示计算表型，并且其大小对应于具有该簇/表型的大多数所有权的细胞的分数(基于图2中示出的大小图例24)。基于停止标准的终端节点22用黑色轮廓来指示。当可能时，基于区别性生物标志物的集合写出所推断的生物标志物。在每种表型内，细胞被认为是特化的(所有权概率＞0.95)或非特化的(所有权概率＜0.95)。相对于整个数据集显示了每种表型内的特化和非特化细胞的百分比(所有权的总和等于100％)。注意，存在遍布所有表型的非特化细胞的非常小的亚群(7％)。尽管在该实施例中每个子群组的大小是显著不同的(NED＝154，REC＝59)，但是REC子群组导致表型的较大异质性，这支持了肿瘤的公知的过度增殖特性。此外，这些结果证明了STEM细胞经历的过度增殖和分化，因为REC子群组识别出三个STEM类表型，而NED子群组仅识别出一个。

根据本公开的概念的另一方面，使用Kullback-Leiber(KL)散度度量来量化每对计算表型之间的差异。特别地，每个计算表型可以被认为是由均值向量和协方差矩阵描述的分布。KL散度是相对相似性排序度量。结果在图3中示意性示出的热图26中显现，其中分离线指示每个子群组的边界以及每棵树的上皮和间质分支。沿着该面板的水平和对角线方向的节点是相同的，并且与相应的树颜色协调。为了方便和讨论，沿着对角线的节点包括基于等级排序(rank-ordered)的判别生物标志物的人工推断的生物学特性(在可能的情况下)。基于上皮-上皮和基质-基质表型之间的KL散度度量的相似性证明了本公开概念的方法的稳定性和一致性(例如，在生物学上，上皮计算表型应当比上皮-基质计算表型更相似)。此外，该度量描述了具有相似的推断的生物学特性的表型之间的差异，因为计算表型是高维度的(例如，STEM-STEM计算表型基于KL散度是不相同的)。此外，可以在图4所示的图像28中显现具有基于所公开的概念的子群组结果而颜色编码的细胞边界的组织样品，以便从每个基于结果的群组(NED、REC)中选择代表性阶段I、II和III的患者(每个细胞可以基于如本文所讨论的最高所有权概率而被分配到一个表型)。

此外，在本文出于说明性目的而描述的一个特定示范性实施例中，以下文描述的方式执行步骤15。然而，应当理解，这仅是为了说明的目的，并且在本公开的概念的范围内可以想到用于执行步骤15的替代方式。

首先，在该特定的示例性实施例中，在高维空间中描述超复合数据集，其中通过适当定量的生物标志表达的p维度向量来描述每个细胞

此外，假设超复合数据集具有固有的低维表示。由低维因素负荷(Λ(p×k))、潜在变量

平均向量(μ(p×1))和噪声项

描述的因素分析器的混合：

其中p是生物标记的数量，并且k是低维潜在空间。潜在因素

由零均值单位方差正态分布N(0,I)产生，且噪声项

是从N(0,Ψ)中取样的。I是单位方差，并且Ψ被假定为对角矩阵。利用这种结构，

以零均值和协方差ΛΛ^T+Ψ来分布[8]。

软聚类

通常，在每个细胞属于一个且仅一个簇(硬聚类)的假设下构建细胞表型分型方法，由于已有的表型连续性，没有空间来识别可能属于多于一种表型的特定细胞。利用因素分析器的混合(MFA)，在该特定示例性实施例中公开的概念将细胞建模为具有参数

的M个组分(簇)，其中π_j为组分权重：

为MFA模型中的每个组分选择二维潜在空间，因为已经观察到这足以捕获输入方差。期望最小化(EM)算法被用于估计模型参数。EM算法用随机参数集来初始化，并且EM算法不保证收敛到全局最优解。为了解决这个问题并确保稳定性，在该特定示例性实施例中的公开概念执行一百个不同的EM优化，每个EM优化被随机初始化。每个优化产生具有一组模型参数的MFA模型。计算每组模型参数的生物标记等级(参见区别性生物标记物部分)，并且汇总所有生物标记等级以计算它们的平均等级。选择具有最接近平均等级(欧几里得距离)的生物标志等级的模型作为一致性模型，并认为其提供最佳的子空间表示。MFA模型产生软聚类概率-每个细胞x_c保持属于每个簇j的唯一概率，表示为Ω_cj。

空间正则化

刚刚描述的软聚类对于TME的空间复杂性是不可知的，TME的空间复杂性是驱动肿瘤内异质性(ITH)的关键组分。基于肿瘤的空间ITH的性质和空间组织结构，预期细胞的邻域是空间上一致的(例如，上皮/肿瘤细胞被其它上皮/肿瘤细胞包围或在空间上接近其它上皮/肿瘤细胞，但允许存在例如肿瘤浸润淋巴细胞和其它基质细胞)。为了促进细胞中的特化，添加空间正则化组件以优化非特化细胞的所有权概率。空间正则化步骤优化由所有权置信度和空间一致性这两项组成的目标函数，由下式给出:

第一项最小化所有权概率的熵，促进细胞的特化。第二项促进空间一致性，其中w_jk是细胞i和细胞j之间的权重，并且被计算为两个细胞之间的距离的倒数：

距离阈值(在0.5μm/像素处为100个像素)用于消除相距太远而不能通信的细胞之间的影响。

使用交替方向乘子方法(ADMM)来优化目标函数。假设概率所有权置信度(项1)和空间一致性(项2)应当保持相等的权重，并且因此计算调谐参数λ，以将项2缩放到项1的范围：

其中N_opt是被优化的细胞的数量，而maxEntropy是熵函数的最大值(＝1)。放宽空间一致性和所有权置信度应当在目标函数中保持相等权重的假设将导致更大的参数空间。空间一致性的较高权重导致同质邻域和较大的一组非特化细胞。相反，所有权置信度的更大权重导致所有非特化细胞的取消。当调谐参数表示相等的权重时，得到稳定和一致的结果。细胞只能在相同的组织样品内具有邻居，因此，为了提高计算速度和效率，对每个组织样品独立地执行空间正则化。

递归分解

为了在该具体的示例性实施例中的本公开的概念中使表型发现的过程自动化，使用递归概率方法，其中每个步骤剖析具有M＝2组分的最主要的簇。在每个递归步骤，软聚类步骤利用低维潜在空间MFA。随后，空间正则化优化了所得到的每细胞的所有权概率，以通过提升所有权置信度和空间一致性来过滤假阳性的非特化细胞。将每个簇j的所得到的参数(所有权概率Ω_j、平均向量

因素负荷Λ_j)传递到下一个递归步骤，以将每个簇分解成进一步的子簇。继续该过程，直到尝试的簇分裂使以下停止标准中的任何一个无效：1)所得到的簇取得<1％的细胞的所有权，2)树已经超过给定的深度阈值，或者3)平均向量和因素负荷空间之间的角度都低于给定的阈值。

区别性生物标志物

在这个特定的示例性实施例中，每个递归聚类或分裂产生具有高维均值向量

的两个簇。为了确定生物标记的区别排序，该方法计算和排序每种生物标记j的比例差异：

平均向量的绝对差可能使具有高生物标记值范围的生物标记的选择有偏差，因此，该方法选择成比例的差以将生物标记置于平均水平上用于比较。

计算表型比较

如本文别处所述，树的末端节点(即，叶)表示在输入数据集中发现的不同计算表型，并且形成由递归分解确定的最终MFA模型的组分。从MFA模型，每个计算表型j保存每个细胞的所有权概率c(Ω_cj)。利用这些所有权概率，该示例性实施例中的方法计算加权平均值

和加权协方差(∑_j(p×p))以描述计算表型。此外，如本文别处所述，Kullback-Leiber散度度量是比较任何两个分布的相对相似性排序度量。因此，任何两对计算表型之间的差异在该实施例中被使用KL散度度量来分类。两个高斯多变量分布

和

的KL散度是:

KL散度是不对称的，并且平均KL散度量度被计算为：

共同细胞比较

此外，在该特定实施例中，可基于最高所有权概率(细胞标记)将每个细胞分配至一种表型。当输入群组具有共同的组织样品(例如，ALL-DATA和阶段I)时，可以比较来自两组衍生的计算表型的细胞标签。可以计算混淆矩阵以比较所得的细胞表型标记。具体地，对于细胞表型i和细胞表型j，混淆矩阵概率如下：

用于可视化的代表性患者的系统选择

如上所述，在该实施例中，可以基于最高所有权概率值(细胞标记)将细胞分配到计算表型。对于C表型，该方法计算在每个患者i中发现的每个表型的分数，形成向量

当计算该分数时，该方法仅考虑特化细胞(所有权概率＞0.95)以避免转化和稀有细胞使结果偏离。对于每个基于结果阶段的组(例如，NED阶段I、NED阶段II、NED阶段III)，该方法还计算平均表型分数向量

并选择最接近平均值(欧几里德距离)的患者。

图5是根据如本文所述的公开概念的示例性实施例的用于根据多参数细胞和亚细胞成像数据来表征和分类细胞类型及其活化(细胞表型)的示例性数字病理系统30的示意图。如图5所示，系统30是计算装置，其被构造和配置成产生/接收如本文所述的多参数细胞和亚细胞成像数据，并如本文所述处理该数据以表征和分类细胞。系统30可以是(例如但不限于)PC、膝上型计算机、平板计算机或被构造为执行本文所述的功能的任何其它合适的设备。系统30包括输入装置32(例如键盘)、显示器34(例如LCD)和处理装置36。用户能够使用输入装置32向处理装置36提供输入，并且处理装置36向显示器34提供输出信号，以使显示器34能够向用户显示信息，如本文详细描述的(例如，本文描述的树、热图和图像)。处理装置36包括处理器和存储器。处理器可为(例如但不限于)微处理器(μP)、微控制器或与存储器接口的一些其它合适的处理装置。存储器可以是各种类型的内部和/或外部存储介质中的任何一个或多个，诸如但不限于RAM、ROM、EPROM、EEPROM、FLASH等，它们提供存储寄存器(即，机器可读介质)以用于诸如以计算机的内部存储区域的形式的数据存储，并且可以是易失性存储器或非易失性存储器。存储器中存储有多个可由处理器执行的例程，包括用于实现如本文所述的本公开的概念的例程。特别地，处理装置36包括细胞表型表征组件38，其被配置用于根据从如本文在各种实施例中描述的各种成像模式获得的多参数细胞和亚细胞成像数据(例如，多重复合到超复合成像数据)对各种细胞类型及其活化(细胞表型)进行分类。

此外，本公开的概念的前述描述基于并利用原位多参数细胞和亚细胞成像数据。然而，应当理解，这并不意味着限制。相反，应当理解，本公开的概念也可与用于基础研究和临床转化的体外微生理模型结合使用。多细胞体外模型允许研究时空细胞异质性和异型细胞通讯，其概括了可应用于体外研究疾病进展机制的人组织，以测试药物并表征这些模型的结构组织和内容，用于移植中的潜在用途。

最后，虽然已经结合从肿瘤切片获得的成像数据描述了本公开的概念，但是将理解，本公开的概念还可以应用于使用可以穿透到固体的未切片样品中的成像模态从其他类型的组织切片和/或从未切片的组织样品获得的成像数据。

在权利要求中，放在括号中的任何附图标记不应被解释为限制权利要求。词语“包括”或“包含”不排除权利要求中列出的元件或步骤之外的元件或步骤的存在。在列举了若干装置的设备权利要求中，这些装置中的若干装置可以由同一个硬件和硬件中的同一个项目来实现。元素之前的词语“一”或“一个”不排除多个这种元素的存在。在列举了若干装置的任何设备权利要求中，这些装置中的若干装置可以由同一个硬件和硬件中的同一个项目来实现。在相互不同的从属权利要求中引用某些元素的事实并不表示这些元素不能组合使用。

尽管为了说明的目的，基于当前认为是最实际和优选的实施例详细描述了本发明，但是应当理解，这样的细节仅仅是为了该目的，并且本发明不限于本公开的实施例，而是相反，本发明意图覆盖在所附权利要求的精神和范围内的修改例和等同布置。例如，应当理解，本发明预期到在可能的程度下任何实施例的一个或多个特征可以与任何其它实施例的一个或多个特征组合。

Claims

1.一种根据多参数细胞和亚细胞成像数据表征来自多个患者或多个多细胞体外模型的多个组织样品的细胞表型的方法，包括：

接收经分割的多参数细胞和亚细胞成像数据，其中，所述经分割的多参数细胞和亚细胞成像数据是通过对所述多参数细胞和亚细胞成像数据执行细胞分割而生成的；以及

对所述经分割的多参数细胞和亚细胞成像数据执行递归分解以识别多个计算表型，其中所述递归分解包括多个分解水平，其中每个分解水平包括软/概率聚类和空间正则化，并且其中所述经分割的多参数细胞和亚细胞成像数据中的每个细胞被概率地分配至所述多个计算表型中的一个或多个。

2.根据权利要求1所述的方法，还包括生成视觉表示，在所述视觉表示中，所述经分割的多参数细胞和亚细胞成像数据中的每个细胞基于每个细胞的相应最高所有权概率与所述多个计算表型中的仅一个计算表型概率地相关联。

3.根据权利要求1所述的方法，还包括生成细胞表型树，在所述细胞表型树中，所述经分割的多参数细胞和亚细胞成像数据中的每个细胞被概率地分配到所述多个计算表型中的一个或多个，其中，所述细胞表型树包括多个终端节点，其中，所述终端节点中的每个终端节点表示所述多个计算表型中的相应的一个计算表型。

4.根据权利要求3所述的方法，其中，每个终端节点的大小对应于被分配给所述终端节点的计算表型的所述细胞的一部分。

5.根据权利要求1所述的方法，其中，所述多参数细胞和亚细胞成像数据包括多重复合到超复合的免疫荧光生物标记数据或多重复合至超复合的基于质谱的生物标记数据。

6.根据权利要求1所述的方法，还包括使用所述多个计算表型来形成多因素分析MFA模型的参数。

7.根据权利要求6所述的方法，还包括使用所述MFA模型的参数应用Kullback-LeiberKL散度度量来定量所述计算表型中的任何两者之间的差异。

8.根据权利要求7所述的方法，还包括基于应用KL散度度量的结果生成热图。

9.根据权利要求1所述的方法，其中，所述软/概率聚类包括多个簇，其中，每个簇对应于所述多个计算表型中的相应一个计算表型，其中，每个簇被定义为参数低维子空间的分层混合，并且其中，所述经分割的多参数细胞和亚细胞成像数据中的每个细胞被每个簇概率地拥有。

10.根据权利要求1所述的方法，其中，所述递归分解采用递归的停止标准，所述递归的停止标准包括应用于所述分层混合的子空间之间的角度的阈值，以确保所述计算表型是不同的。

11.根据权利要求9所述的方法，其中，所述空间正则化采用包括第一项和第二项的函数，第一项促进簇分配中的稀疏性并且意味着每个细胞试图完全属于簇中的一个，第二项促进空间一致性。

12.根据权利要求11所述的方法，其中，使用交替方向乘子方法ADMM来优化所述函数。

13.根据权利要求3所述的方法，其中，所述递归分解采用停止标准，所述停止标准在以下情况下停止递归：(i)所得到的簇取得<1％的细胞的所有权，(ii)确定细胞表型树已经超过给定的深度阈值，或(iii)平均向量和因素负荷空间之间的角度都低于给定的阈值。

14.一种存储包括指令的一个或多个程序的非暂态计算机可读介质，所述指令在由计算机执行时使得所述计算机执行根据权利要求1所述的方法。

15.一种用于表征细胞表型的计算机化系统，包括：

处理装置，其中所述处理装置包括细胞表型表征组件，其被配置用于：

16.根据权利要求15所述的系统，其中，所述细胞表型表征组件还被配置用于生成视觉表示，在所述视觉表示中，所述经分割的多参数细胞和亚细胞成像数据中的每个细胞基于每个细胞的相应最高所有权概率与所述多个计算表型中的仅一个计算表型概率地相关联。

17.根据权利要求15所述的系统，其中，所述细胞表型表征组件还被配置用于生成细胞表型树，在所述细胞表型树中，所述经分割的多参数细胞和亚细胞成像数据中的每个细胞被概率地分配到所述多个计算表型中的一个或多个，其中，所述细胞表型树包括多个终端节点，其中，所述终端节点中的每个终端节点表示所述多个计算表型中的相应的一个计算表型。

18.根据权利要求17所述的系统，其中，每个终端节点的大小对应于被分配给所述终端节点的计算表型的所述细胞的一部分。

19.根据权利要求15所述的系统，其中，所述多参数细胞和亚细胞成像数据包括多重复合到超复合的免疫荧光生物标记数据或多重复合至超复合的基于质谱的生物标记数据。

20.根据权利要求15所述的系统，其中，所述细胞表型表征组件还被配置用于使用所述多个计算表型来形成多因素分析MFA模型的参数。

21.根据权利要求20所述的系统，其中，所述细胞表型表征组件还被配置用于使用所述MFA模型的参数应用Kullback-Leiber KL散度度量来定量所述计算表型中的任何两者之间的差异。

22.根据权利要求21所述的系统，其中，所述细胞表型表征组件还被配置用于基于应用KL散度度量的结果生成热图。

23.根据权利要求15所述的系统，其中，所述软/概率聚类包括多个簇，其中，每个簇对应于所述多个计算表型中的相应一个计算表型，其中，每个簇被定义为参数低维子空间的分层混合，并且其中，所述经分割的多参数细胞和亚细胞成像数据中的每个细胞被每个簇概率地拥有。

24.根据权利要求15所述的系统，其中，所述递归分解采用递归的停止标准，所述递归的停止标准包括应用于所述分层混合的子空间之间的角度的阈值，以确保所述计算表型是不同的。

25.根据权利要求23的系统，其中，所述空间正则化采用包括第一项和第二项的函数，第一项促进簇分配中的稀疏性并且意味着每个细胞试图完全属于簇中的一个，第二项促进空间一致性。

26.根据权利要求25所述的系统，其中，使用交替方向乘子方法ADMM来优化所述函数。

27.根据权利要求17所述的系统，其中，所述递归分解采用停止标准，所述停止标准在以下情况下停止递归：(i)所得到的簇取得<1％的细胞的所有权，(ii)确定细胞表型树已经超过给定的深度阈值，或(iii)平均向量和因素负荷空间之间的角度都低于给定的阈值。