CN111448584A

CN111448584A - 计算肿瘤空间和标记间异质性的方法

Info

Publication number: CN111448584A
Application number: CN201880079110.8A
Authority: CN
Inventors: M·巴恩斯; S·楚卡; A·萨卡尔
Original assignee: Ventana Medical Systems Inc
Current assignee: Ventana Medical Systems Inc
Priority date: 2017-12-05
Filing date: 2018-12-04
Publication date: 2020-07-24
Anticipated expiration: 2038-12-04
Also published as: WO2019110567A1; EP3721406B1; CN111448584B; US11526984B2; JP7231631B2; US20200302603A1; JP2021506013A; EP3721406A1

Abstract

本公开文本主要涉及用于确定全玻片图像中所识别的不同细胞簇之间的一系列生物标记的导出的表达得分之间的差异性的自动化系统和方法。在一些实施方案中，导出的表达得分之间的差异性可以是导出的标记间异质性度量。

Description

计算肿瘤空间和标记间异质性的方法

背景技术

数字病理学涉及将整个组织病理学或细胞病理学玻片扫描成可在计算机屏幕上解释的数字图像。这些图像随后将由成像算法处理或由病理学家解释。为了检查组织切片(实际上是透明的)，使用选择性结合细胞成分的有色组织化学染色剂制备组织切片。临床医生或计算机辅助诊断(CAD)算法使用颜色增强或染色的细胞结构来识别疾病的形态学标记，并相应地进行治疗。观察该测定可以实现多种过程，包括疾病诊断、对治疗反应的评估、以及研发抗击疾病的新药物。

免疫组织化学(IHC)玻片染色可以用于识别组织切片的细胞中的蛋白质，并且因此广泛地用于对诸如生物组织中的癌性细胞和免疫细胞等不同类型的细胞的研究中。因此，可以在研究中使用IHC染色以理解癌组织中免疫细胞(诸如，T细胞或B细胞)的差异表达的生物标记的分布和位置以用于免疫应答研究。例如，肿瘤经常包含免疫细胞的浸润液，该浸润液可以防止肿瘤的发展或有利于肿瘤的向外生长。

原位杂交(ISH)可用于寻找遗传异常或病状的存在，例如在显微镜下观察时在形态学上表现为恶性的细胞中特异性地致癌基因扩增。原位杂交(ISH)使用与靶基因序列或转录物反义的标记的DNA或RNA探针分子来检测或定位细胞或组织样品中的靶核酸靶基因。通过将固定在玻片上的细胞或组织样品暴露于标记的核酸探针来进行ISH，所述核酸探针能够与细胞或组织样品中的给定靶基因特异性杂交。通过将细胞或组织样品暴露于已经用多个不同核酸标签标记的多个核酸探针，可以同时分析几个靶基因。通过利用具有不同发射波长的标记，可以在单个步骤中对单个靶细胞或组织样品进行同时多色分析。

发明内容

肿瘤在可观察的特征方面表现出大量的异质性，包括组织形态学、生理学和组织学、基因表达、基因型、迁移、血管生成和增殖潜能。异质性的一些指标包括大小、形态和蛋白质表达等特征，以及细胞更新、细胞间相互作用、侵袭和迁移能力以及对药物干预的敏感性等行为。细胞异质性可能与临床结果有关。例如，异质性的增加可能与某些类型癌症的病程有关。

考虑到这一点，申请人已经开发了用于识别同质细胞簇并从不同细胞簇(例如肿瘤细胞簇)导出生物样品的空间异质性和标记间异质性度量的系统和方法。如在本文中进一步公开的，申请人已经开发了用于将一幅图像(例如，在IHC或ISH测定中染色的生物标记图像或H&E图像)中识别的肿瘤或细胞簇映射到至少一幅不同染色的图像(或一系列不同染色的图像)的系统和方法，然后导出每个识别的肿瘤或细胞簇的表达得分。在一些实施方案中，每个肿瘤或细胞簇的导出表达得分可用于生成异质性度量或异质性得分，其用作描述簇间表达得分差异性的替代。在一些实施方案中，本文公开的技术可以应用于多路图像数据，以产生生物样品的样品异质性的一个或多个度量。此外，本技术评估异质性以评估细胞相对于其邻近细胞，即一个簇中的邻近细胞与其在另一个簇中的空间组织相比是如何组织的。

在本公开文本的一个方面，是一种用于比较细胞簇之间的异质性的系统，所述系统包括：一个或多个处理器和联接到所述一个或多个处理器的存储器，所述存储器存储计算机可执行指令，当所述指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行操作，所述操作包括：(i)对在具有第一染色剂的生物样品(例如，用H&E染色的样品或用单一生物标记染色的样品)的第一图像内的细胞(例如肿瘤细胞、淋巴细胞、基质等)进行分类；(ii)识别所述第一图像内的一个或多个细胞簇，所述细胞簇使用图论法来识别；(iii)将所述第一图像和至少一个附加图像配准到公共坐标系，使得所述第一图像中的所识别的一个或多个簇被映射到所述至少一个附加图像以提供映射簇，其中所述至少一个附加图像包括不同的染色剂；以及(iv)对所述至少一个附加图像中的细胞进行检测和分类；以及(v)导出每个所述映射簇中每种染色剂的表达得分。在一些实施方案中，所述系统还包括用于基于所导出的表达得分计算一个或多个标记间异质性得分的指令。在一些实施方案中，所述系统还包括用于基于所导出的表达得分计算一个或多个空间异质性得分的指令。在一些实施方案中，所述系统还包括用于计算度量以量化来自不同簇的表达得分的差异性的指令。在一些实施方案中，量化来自不同簇的表达得分的差异性的度量考虑了不同簇的表达得分的平均值或加权平均值。在一些实施方案中，第一图像被配准到多个附加图像，使得第一图像中所识别的一个或多个簇被映射到所述多个附加图像中的每一个，以提供映射簇，其中所述多个附加图像中的每一个包括不同的染色剂(或解混通道)。

在一些实施方案中，用于识别细胞簇的图论法包括：(i)构建细胞的空间邻接矩阵；以及(ii)通过检测图中的“社团网络”来识别相干的细胞簇。在一些实施方案中，构建细胞的空间邻接矩阵包括：(i)将每个细胞定义为图中的节点/顶点，(ii)将彼此间隔在大约30微米至大约70微米内的细胞节点识别为连接节点；以及(iii)将两个连接节点之间的链路定义为边；以及(iv)为所有细胞/顶点以及其连接边信息构建邻接矩阵。在一些实施方案中，相干细胞簇的识别包括：(i)计算细胞网络中所有现有边的“介数”(如本文所定义的)；(ii)去除具有最高介数的边；(iii)重新计算受所述移除影响的所有边的介数；以及(iv)重复步骤(ii)和(iii)，直到没有边残留。在一些实施方案中，所述细胞被分类为肿瘤细胞、基质细胞或淋巴细胞中的至少一种。

在一些实施方案中，第一图像是H&E图像，并且其中所述至少一个附加图像是生物标记图像(例如，针对特定生物标记染色的图像，例如在IHC测定或ISH测定中)。当然，上述系统可以利用一个或多个多路图像来代替单路图像，并且在那些实施方案中，多路图像在进一步处理之前被解混。在所有输入数据都是多路图像的情况下，不需要配准步骤。在一些实施方案中，所述系统还包括用于在识别所述一个或多个细胞簇之前在图像中电子地注释肿瘤和肿瘤周围区域的指令。

在本公开文本的另一方面，是一种用于导出与簇间细胞异质性相关联的一个或多个度量的非暂时性计算机可读介质，包括：(i)从具有第一染色剂的第一图像中提取特征，所提取的特征用于对所述第一图像内的细胞进行分类；(ii)基于所述细胞分类识别所述第一图像内的一个或多个细胞簇，所述细胞簇通过(a)构建邻接矩阵、以及(b)使用社团网络算法识别相干的细胞簇来识别；(Iii)将所述第一图像和至少一个附加图像配准到公共坐标系，使得所述第一图像中的所识别的一个或多个簇被映射到所述至少一个附加图像以提供映射簇，其中所述至少一个附加图像包括不同的染色剂；(iv)对所述至少一个附加图像中的细胞进行检测和分类；以及(v)导出每个所述映射簇中每种染色剂的表达得分。

在一些实施方案中，非暂时性计算机可读介质包括用于基于导出的表达得分的差异性(即表达得分向量)计算标记间异质性得分的指令。在一些实施方案中，非暂时性计算机可读介质包括用于计算空间异质性以反映每个染色图像中的表达得分的差异性的指令，并且将每个映射簇的表达得分向量视为来自映射簇的多个染色剂的表达得分，基于导出的表达得分向量的差异性来计算标记间异质性得分。

在一些实施方案中，所述非暂时性计算机可读介质还包括用于构建邻接矩阵的指令，所述指令包括：(a)确定细胞节点；以及(b)在节点对之间建立边。在一些实施方案中，所述非暂时性计算机可读介质还包括用于识别相干细胞簇的指令，包括：(i)计算细胞网络中所有现有边的“介数”；(ii)去除具有最高介数的边；(iii)重新计算受所述移除影响的所有边的介数；以及(iv)重复步骤(ii)和(iii)，直到没有边残留。在一些实施方案中，所述非暂时性计算机可读介质还包括用于识别位于彼此大约50微米内的细胞节点的指令。

在一些实施方案中，所述非暂时性计算机可读介质还包括用于计算至少一个附加图像到第一图像的坐标系的变换的指令。在一些实施方案中，所述非暂时性计算机可读介质还包括用于计算一个或多个标记间异质性得分的指令，包括从来自生物样品的所有染色玻片的生物标记得分计算多个导出表达得分之间的标准偏差。在一些实施方案中，所述系统还包括用于第一图像被H&E染色的指令。在一些实施方案中，针对生物标记的存在对所述至少一个附加图像进行染色。在一些实施方案中，所述系统还包括所述生物标记选自由雌激素受体(ER)、孕酮受体(PR)、Ki-67和人表皮生长因子受体2(HER2)组成的组的指令。在一些实施方案中，所述系统还包括从由PD-L1、CD3和CD8组成的组中选择生物标记的指令。

在本公开的另一方面，是一种计算标记间异质性得分的方法，包括：(a)对具有第一染色剂的第一图像内的细胞进行分类；(b)基于细胞分类结果识别第一图像中的空间同质细胞簇；(c)将所识别的空间同质簇从第一图像映射到至少一个附加图像，以在每个图像中提供映射簇，其中所述至少一个附加图像具有不同的染色剂；(d)对每个附加染色图像中的细胞进行检测和分类；以及(e)导出所述第一图像中的每个簇中以及所述至少一个附加图像中的每个映射簇中每种染色剂的表达得分；以及(f)计算一个或多个标记间异质性度量。如本文所述，除了单路图像之外或代替单路图像，所述方法可适用于使用多路图像。

在一些实施方案中，识别第一图像中的空间同质细胞簇包括：(i)构建空间邻接矩阵；以及(ii)使用社团网络算法识别相干的细胞簇。在一些实施方案中，检测到的细胞的空间邻接矩阵的构造包括：(i)将检测到的细胞表示为节点；以及(ii)识别每个节点/细胞/顶点的连接节点和相关联的边；以及(iii)构建邻接矩阵。在一些实施方案中，用于识别簇的社团网络算法迭代地移除边缘，并在每次移除之后重新计算“介数”度量值。在一些实施方案中，社团网络算法利用谱聚类技术。在一些实施方案中，将所识别的空间同质簇从第一图像映射到所述至少一个附加图像包括计算所述至少一个图像到第一图像的坐标系的变换。

在一些实施方案中，所述第一图像用H&E染色。在一些实施方案中，针对生物标记的存在对所述至少一个附加图像进行染色。在一些实施方案中，所述生物标记选自由雌激素受体(ER)、孕酮受体(PR)、Ki-67和人表皮生长因子受体2(HER2)组成的组。在一些实施方案中，所述生物标记选自由PD-L1、CD3和CD8组成的组。在一些实施方案中，所述表达得分选自由阳性百分比和H得分组成的组。在一些实施方案中，一个或多个标记间异质性得分的计算包括计算所识别的不同的簇上的多个生物标记的多个导出表达得分之间的标准偏差。在一些实施方案中，异质性度量是在一个或多个簇中获得的标准化的H得分。在一些实施方案中，所述细胞至少被分类为肿瘤细胞，并且其中至少一些所识别的空间同质细胞簇是肿瘤细胞簇。

在一些实施方案中，所述至少一个附加图像是单路图像。在一些实施方案中，提供了多个附加图像，每个图像都是单路图像。在一些实施方案中，所述至少一个附加图像是从多路图像导出的解混图像通道图像。在一些实施方案中，所述方法还包括注释输入图像的一部分以供进一步分析。

附图说明

为了全面理解本公开的特征，参考了附图。在附图中，相同的附图标记始终用于标识相同的元件。

根据一些实施方案，图1示出了包括图像获取装置和计算机系统的代表性数字病理学系统。

图2阐述了根据一些实施方案的可以在数字病理学系统中或者在数字病理学工作流程中使用的各种模块。

图3A提供了根据一些实施方案的从一个或多个单路图像导出空间异质性度量的步骤的概述。

图3B提供了根据一些实施方案的从多路多路图像导出空间异质性度量的步骤的概述。

图4A提供了说明根据一些实施方案的区域选择步骤的流程图。

图4B阐述了根据一些实施方案的在全玻片图像中对组织进行掩码的方法。

图5提供了根据一些实施方案的用于识别细胞簇的步骤的概述。

图6示出了根据一些实施方案的将多个图像配准到公共坐标系的步骤。

图7A示出了全玻片图像内的已识别肿瘤。

图7B示出了各种识别的细胞簇。

图8A示出了全玻片图像内的已识别肿瘤。

图8B示出了各种识别的细胞簇。

图9A示出了全玻片图像内的已识别肿瘤。

图9B示出了各种识别的细胞簇。

图10A示出了全玻片图像内的已识别肿瘤。

图10B示出了各种识别的细胞簇。

具体实施方式

还应该理解，除非明确指出相反的情况，否则在这里要求保护的包括多于一个步骤或动作的任何方法中，该方法的步骤或动作的顺序不一定限于该方法的步骤或动作被叙述的顺序。

如本文所使用的，单数术语“一个”、“一种”以及“该”包括复数个指示物，除非上下文中另外明确指示。类似地，词语“或”旨在包括“和”，除非上下文中另外明确指示。术语“包括”被定义为包含性的，使得“包括A或B”是指包括A、B或A和B。

如本说明书和权利要求书中所用的，“或”应被理解为与如上所定义的“和/或”具有相同含义。例如，在将所列项目分开时，“或”或“和/或”应解释为包容性的，即包括所列元素中的多个元素或至少一个元素，但也包括一个以上元素，以及(可选地)其他未列出的项目。只有明确指示相互矛盾，否则诸如“只有一个”或“恰好一个”或者在权利要求中使用时“由……组成”将指代恰好包括许多元件或元件列表中的一个元件。一般而言，如本文中所使用的术语“或”之后有诸如“两者之一”、“中的一个”、“中的仅一个”或“中的恰好一个”之类的排他性术语时仅应被解释为指示排他性备选方案(即，“一个或另一个但不是两个”)。“基本上由……组成”在权利要求中使用时它的普通意义如同在专利法领域中使用的那样。

术语“包括”、“包含”、“具有”等可互换地使用并且具有相同的含义。类似地，术语“包括”、“包含”、“具有”等可互换地使用并且具有相同的意思。具体而言，每个术语的定义与美国专利法中“包括”的一般定义一致，因此被解释为一个开放式术语，意思是“至少以下”，并且也被解释为不排除附加的特征、限制、方面等。因此，例如，“具有部件a、b和c的装置”意味着该装置至少包括部件a、b和c。类似地，短语“涉及步骤a、b和c的方法”意味着所述方法至少包括步骤a、b和c。此外，虽然步骤和过程可以在本文中以特定的顺序概述，但是本领域技术人员将认识到顺序步骤和过程可以变化。

如本说明书和权利要求书中所使用的，关于一个或多个元件的列表，短语“至少一个”应被理解为表示选自元件列表中的任何一个或多个元件的至少一个元件，但不一定包括元件列表中具体列出的每个元件中的至少一个元件，并且不排除元件列表中元件的任何组合。该定义还允许可选地存在除在短语“至少一个”所指代的元件列表内具体表示的元件之外的元件，而无论是与具体表示的那些元件相关还是不相关。因此，作为非限制性示例，“A和B中的至少一者”(或等同地，“A或B中的至少一者”，或等效地“A和/或B中的至少一者”)在一个实施方案中可以指代至少一个A，可选地包括一个以上A，而不存在B(并且可选地包括除B之外的元件)；在另一个实施方案中，指代至少一个B，可选地包括一个以上B，而不存在A(并且可选地包括除A之外的元件)；在又一个实施方案中，指代至少一个A，可选地包括一个以上A和至少一个B，可选地包括一个以上B(和可选地包括其他元件)；等等。

如这里所使用的，术语“介数”指的是图中顶点的中心性度量值。介数中心性量化了一个节点作为另两个节点之间最短路径上的桥梁的次数。因此，介数的概念本质上是一个衡量给定网络中任何节点的中心性的度量。它可以粗略地描述为一个节点需要一个给定节点到达另一个节点的次数。在实践中，它通常被计算为通过感兴趣节点的节点对之间的最短路径的比例。

如本文所用，术语“生物样品”或“组织样品”指从包括病毒在内的任何生物体获取的包括生物分子(如蛋白质、肽、核酸、脂质、碳水化合物或其组合)的任何样品。生物的其他示例包括哺乳动物(诸如人类；兽类，诸如猫、狗、马、牛和猪；以及实验动物，诸如小鼠、大鼠和灵长类动物)、昆虫、环节动物、蛛形纲动物、有袋动物、爬行动物、两栖动物、细菌和真菌。生物样品包括组织样品(例如组织切片和组织的针活检)，细胞样品(例如细胞学涂片，例如巴氏涂片或血液涂片或通过显微切割获取的细胞样品)，或细胞组分、片段或细胞器(例如通过裂解细胞并通过离心或其他方式分离它们的组分获取的)。生物样品的其他示例包括血液、血清、尿液、精液、粪便、脑脊液、间质液、粘液、泪液、汗液、脓、活检组织(例如，通过外科活组织检查或针活组织检查获取的)、乳头抽吸物、耳垢、乳汁、阴道液、唾液、拭子(例如口腔拭子)，或任何包含来自第一生物样品的生物分子的材料。在某些实施方案中，本文使用的术语“生物样品”指从肿瘤制备的样品(例如均质或液化样品)或从受试者获取的肿瘤的一部分。

如本文所用，术语“生物标记”或“标记”是指某些生物状态或病状的可测量的指标。具体地，生物标记可以是可以被特定地染色并且指示细胞的生物特征(例如，细胞类型或细胞的生理状态)的蛋白质或肽(诸如，表面蛋白质)。免疫细胞标记是选择性地指示与哺乳动物的免疫应答相关的特征的生物标记。生物标记可用于确定身体对疾病或病症的治疗反应如何，或者受试者是否易患疾病或病症。在癌症的情况下，生物标记是指指示体内癌症存在的生物物质。生物标记可以是肿瘤分泌的分子或机体对癌症存在的特定反应。遗传、表观遗传学、蛋白质组学、糖组学和成像生物标记可用于癌症诊断、预后和流行病学。这种生物标记可以在非侵入性收集的生物流体如血液或血清中进行测定。几种基于基因和蛋白质的生物标记已经用于患者护理，包括但不限于AFP(肝癌)、BCR-ABL(慢性髓性白血病)、BRCA1/BRCA2(乳腺癌/卵巢癌)、BRAF V600E(黑色素瘤/结肠直肠癌)、CA-125(卵巢癌)、CA19.9(胰腺癌)、CEA(结肠直肠癌)、EGFR(非小细胞肺癌)、HER-2(乳腺癌)、KIT(胃肠间质瘤)、PSA(前列腺特异性抗原)、S100(黑色素瘤)和许多其他生物标记。生物标记可用作诊断(标识早期癌症)和/或预测(预测癌症的侵袭性和/或预测受试者对特定治疗的反应和/或癌症复发的可能性)。

如此处所使用的，术语“社团”可以被定义为图中节点之间的连接比与网络的其余部分的连接更密集的节点(例如，细胞或细胞节点)的子集。网络中社团结构的检测通常旨在作为将网络映射到树的过程。在这棵树中(在社会科学中称为树形图)，叶子是节点，而树枝连接节点或(在更高的层次上)节点组，从而识别出彼此嵌套的社团的层次结构。可以使用算法来执行这种映射。传统的方法是所谓的层次聚类(见Wasserman,S.&Faust,K.(1994)Social Network Analysis(Cambridge Univ.Press,Cambridge,U.K.)。对于网络中的每一对i,j节点，计算一个权重Wi,j，该权重用于测量顶点的紧密连接程度。从所有节点和没有边的集合开始，在节点对之间按权重递减的顺序迭代地添加链路。通过这种方式，节点被分成越来越大的社团，树被构建到根，代表整个网络。这种算法被称为凝聚算法。对于另一类算法，称为分裂算法，树的构造顺序是相反的：从整个图开始，迭代地切割边，从而将网络逐步划分成越来越小的互不相连的子网络，称为社团。分裂算法中的关键点是选择要切割的边，这些边必须是连接社团的边，而不是社团内的边。最近，Girvan和Newman(GN)引入了一种分裂算法，在该算法中，要切割的边的选择是基于它们的“边介数”的值(参见Girvan,M.&Newman,M.E.J.(2002)Proc.Natl.Acad.Sci.USA 99,7821–7826)，由Anthonisse(参见Anthonisse,J.M.(1971)Technical Report BN 971(Stichting Mathematisch Centrum,Amsterdam).)和Freeman(参见Freeman,L.(1977)Sociometry 40,35–41)引入的中心性介数的一般化。考虑网络中所有节点对之间的最短路径。边的介数是这些穿过它的路径的数量。很明显，当一个图由紧密绑定的簇组成，松散地相互连接时，不同簇中节点之间的所有最短路径都必须通过少数簇间连接，因此它们具有很大的介数值。GN检测算法的单一步骤在于计算图中所有边的边介数，并去除得分最高的边。这个过程的迭代导致网络分裂成不连续的子图，这些子图依次经历相同的过程，直到整个图被分成一组孤立的节点。这样，树图就从根到叶建立起来了。

如本文所用，短语“雌激素受体”或缩写“ER”是指细胞内受体的核激素家族成员被17-β-雌二醇激活。雌激素受体在大约70％的乳腺癌病例中过度表达，称为“ER阳性”(ER+)。

如本文所使用的，术语“视场(FOV)”是指具有预定尺寸和/或形状的图像部分。在一些实施方案中，FOV是数字图像中用于进一步手动或自动检查和分析的区域。通过分析数字图像的一些特征，例如通过评估数字图像的像素的强度值，可以自动或手动选择FOV。

如本文所用，术语“异质性得分”是指样品中生物标记的蛋白质表达异质性的量的指示，例如乳腺癌样品中的ER、HER2、Ki-67或PR染色。异质性得分为同一标记提供了一种衡量一组细胞与另一组细胞之间差异的方法。

如本文所用，术语“H得分”是指蛋白质表达的指标，其对强染色细胞的权重大于弱染色细胞。例如，H得分可以指示弱染色(例如，1+)的细胞的百分比加上中等染色(例如，2+)的细胞的百分比的两倍加上强染色(例如，3+)的细胞的百分比的三倍(例如，参见Cuzick等人,J.Clin.Oneal.29:4273-8,2011，通过引用并入本文)。

如本文所使用的，术语“图像数据”涵盖从生物组织样品获取(诸如借助于光学传感器或传感器阵列)的原始图像数据或经过预处理的图像数据。具体地，图像数据可以包括像素矩阵。如本文所使用的，术语“免疫组织化学”是指一种通过检测抗原与特定结合药剂(诸如，抗体)的相互作用来确定样品中抗原的存在或分布的方法。在允许抗体-抗原结合的条件下，样品与抗体接触。抗体-抗原结合可以通过与抗体结合的可检测标记(直接检测)或通过与特异性结合第一抗体的第二抗体结合的可检测标记(间接检测)来检测。

如本文所用，“Ki-67”指与细胞增殖和RNA转录相关的核蛋白。抗原Ki-67的失活导致RNA合成的抑制。例如，Ki-67被用作增殖的标志。

如这里所使用的，术语“掩码”是数字图像的派生物，其中掩码中的每个像素被表示为二进制值，例如“1”或“0”(或“真”或“假”)。通过使用所述掩码来覆盖数字图像，在对数字图像施加的进一步处理步骤中隐藏、移除或以他方式忽略或过滤掉映射到二进制值中的特定一个值的掩码像素的数字图像的所有像素。例如，可以通过将具有高于阈值的强度值的原始图像的所有像素指定为真并且在其他情况下指定为假来从原始数字图像中生成掩码，从而创建可以过滤掉将被“假”掩码像素覆盖的所有像素的掩码。

如本文所用，术语“多通道图像”或“多路图像”包括从生物组织样品获取的数字图像，其中不同的生物结构，例如细胞核和组织结构，同时用特定的荧光染料、量子点、发色剂等染色，其每一个都发出荧光或者在不同的光谱带中可检测到，从而构成多通道图像的通道之一。

如本文所用，术语“孕酮受体”或“PR”是指特异性结合孕酮的细胞内类固醇受体。孕酮受体在一些乳腺癌病例中过度表达，称为“PR阳性”(PR+)。

这里使用的术语“解混图像”包括为多通道图像的一个通道获得的灰度值或标量图像。通过将多通道图像解混，可以获得每个通道一个解混图像。

概览

本公开文本涉及用于确定全玻片图像中所识别的不同细胞簇之间的一系列生物标记的导出的表达得分之间的差异性的自动化系统和方法。在一些实施方案中，导出的表达得分之间的差异性可以是导出的标记间异质性度量。

本公开的至少一些实施方案涉及计算机系统和用于分析从生物样品中捕获的数字图像的方法，该生物样品包括用一个或多个原色(例如苏木精和曙红(H&E))以及一个或多个检测探针(例如，包含促进对样品内的目标进行标记的特定结合实体的探针)染色的组织样品。虽然本文具体示例可以指特定组织和/或用于检测某些标记(并且因此检测疾病)的特定染色或检测探针的应用，但本领域的技术人员将理解的是可以应用不同的组织和不同的染色/检测探针来检测不同的标记和不同的疾病。例如，某些公开内容涉及乳腺癌和乳腺癌标记(例如，ER、PR、Ki-67)，并且这些公开内容代表非限制性实施方案。

图1和图2中展示了用于对样本进行成像和分析的数字病理学系统200。数字病理学系统200可以包括成像设备12(例如，具有用于扫描承载样本的显微镜玻片的装置的设备)和计算机14(或204)，由此成像设备12和计算机可以通信地耦合在一起(例如，直接地或间接地通过网络20)。计算机系统14可以包括台式计算机、膝上型计算机、平板计算机等、数字电子电路系统、固件、硬件、存储器201、计算机存储介质、计算机程序或指令集(例如，其中，所述程序存储在存储器或存储介质中)、处理器(包括经过编程的处理器)和/或类似物。图1中展示的计算系统14可以具有显示装置16和外壳18的计算机。计算机系统可以以二进制形式存储数字图像(本地地诸如存储在存储器、服务器或另一个网络连接装置中)。还可以将数字图像分成像素矩阵。像素可以包括由位深定义的具有一个或多个位的数字值。技术人员将了解到，可以利用其他计算机装置或系统，并且本文所描述的计算机系统可以通信地耦合到另外的部件，例如样本分析仪、显微镜、其他成像系统、自动玻片制备装备等。本文将进一步描述这些附加部件中的一些以及可以使用的各种计算机、网络等。

通常，成像设备12(或包括存储在存储器中的预扫描图像的其他图像源)可以包括但不限于一个或多个图像捕获装置。图像捕获装置可以包括但不限于相机(例如，模拟相机、数字相机等)、光学器件(例如，一个或多个透镜、传感器聚焦透镜组，显微镜物镜等)、成像传感器(例如，电荷耦合装置(CCD)、互补金属氧化物半导体(CMOS)图像传感器等)、胶片等。在数字实施方案中，图像捕获装置可以包括协作以证明即时聚焦的多个透镜。图像传感器(例如，CCD传感器)可以捕获样本的数字图像。在一些实施方案中，成像设备12是明场成像系统、多光谱成像(MSI)系统或荧光显微镜系统。数字化的组织数据可以例如由图像扫描系统生成，诸如亚利桑那州图森市的VENTANA MEDICAL SYSTEMS公司的VENTANA iSCAN HT或VENTANA DP 200、或其他适合的成像装备。本文还描述了另外的成像装置和系统。技术人员将了解到，由成像设备12获取的数字彩色图像通常由基本颜色像素构成。每个彩色像素在三个数字分量上编码，每个数字分量包括相同数量的位，每个分量对应于原色，通常是红色、绿色或蓝色，也由术语“RGB”分量表示。

图2提供了当前公开的数字病理学系统中使用的各种模块的概述。在一些实施方案中，数字病理学系统采用具有一个或多个处理器203和至少一个存储器201的计算机装置200或计算机实施的方法，所述至少一个存储器201存储非暂态计算机可读指令以由所述一个或多个处理器执行从而使所述一个或多个处理器执行一个或多个模块(例如，模块202和205至211)中的指令(或存储的数据)。

参考图2、图3A和图3B，本公开提供了一种评估获取图像(或单个多图像)中的标记间肿瘤异质性的计算机实现的方法。在一些实施方案中，该方法可以包括：(a)运行图像获取模块202以生成或接收单路图像数据(即各自具有单种染色剂的图像)或多路图像数据(即具有多种染色剂的图像)(步骤300)；(b)运行可选的图像注释模块206以电子地注释图像的一部分，例如用于进一步分析的部分，例如表示肿瘤区域或肿瘤周围区域中的免疫边界的部分；(c)如果输入图像是多路图像，运行可选的解混合模块205以生成对应于多路图像中存在的一个或多个染色通道的图像通道图像；(d)运行图像分析模块207，以基于第一输入图像(即，在H&E图像、生物标记图像或解混图像通道图像中)内的特征来对细胞或细胞核(例如，肿瘤细胞、基质细胞、淋巴细胞等)进行检测和/或分类；(e)运行细胞簇识别模块208以识别第一图像中的肿瘤细胞的簇或其他感兴趣细胞的簇(步骤310)；(f)如果输入图像是单路图像，则运行可选的配准模块209以将来自第一图像的所识别的肿瘤细胞的簇或所识别的其他感兴趣细胞(例如免疫细胞)的簇映射到至少一个附加图像或多个附加图像(步骤320)；(g)运行评分模块210以导出每个所识别的细胞簇中每个生物标记的表达得分(步骤330)；以及(h)运行标记间异质性度量生成模块，以导出描述不同簇中导出的表达得分之间的差异性的度量(步骤340)。

在一些实施方案中，图像分析模块207还用于对至少一个附加图像(或一系列附加图像)中的细胞进行检测和/或分类，并且该步骤可以结合(即，同时或随后)对第一图像中的细胞进行检测和/或分类来执行，或者在工作流期间的任何其他时间执行。在一些实施方案中，上述操作可以为每个簇提供来自不同染色剂的标记表达得分的向量。本领域技术人员还将理解，额外的模块可以被结合到工作流程中。如本文将更详细描述的，在一些实施方案中，可以运行图像处理或预处理模块，以将某些滤波器应用于所获取的图像，或者识别组织样品内的某些组织和/或形态结构或特征。同样，感兴趣区域选择模块可用于选择图像的特定部分进行分析。

图像获取模块

在一些实施方案中，作为初始步骤，并参考图2，数字病理学系统200运行图像获取模块202来捕获具有一种或多种染色剂的生物样品的图像或图像数据(即，图像可以是单路图像或多路图像)。在一些实施方案中，接收或获取的图像是RGB图像或多光谱图像。在一些实施方案中，捕获的图像被存储在存储器201中。

图像或图像数据(在本文中可互换使用)可以使用成像设备12获取(诸如实时地)。在一些实施方案中，图像是从显微镜或能够捕获承载样本的显微镜玻片的图像数据的其他仪器获取的，如本文所指出的。在一些实施方案中，使用2D扫描仪(诸如能够扫描图像分块的扫描仪)获取图像。可替代地，图像可以是先前已经获取(例如，扫描)并且存储在存储器201中(或者就此而言，经由网络20从服务器中检索到)的图像。

在一些实施方案中，系统接收至少两个图像作为输入。在一些实施方案中，作为输入接收的图像(同样，单路图像或多路图像)来自连续的组织切片，即来自相同异种移植组织块的连续切片。一般而言，作为输入接收的该至少两个图像各自包括与染色(包括，显色、荧光团、量子点等)相对应的信号。在一些实施方案中，已经用至少一个原色(苏木精和曙红)染色了图像之一，同时已经在用于标识特定生物标记的IHC测定或ISH测定中的至少一者中染色了图像中的另一个(在本文称为“生物标记”图像)。在一些实施方案中，已经用苏木精和曙红两者染色了图像之一(在本文称为“H&E图像”)，同时已经在用于标识特定生物标记的IHC测定或ISH测定中的至少一者中染色了图像中的另一个。在一些实施方案中，输入图像可以是多路图像，即，根据本领域技术人员已知的方法针对多重测定中的多个不同标记进行染色的图像。

典型的生物样品在向样品施加染色剂的自动染色/测定平台上进行加工。市场上有各种适合用作染色/测定平台的商业产品，其中一个示例是Ventana Medical Systems,Inc.(Tucson,AZ)的Discovery^TM。相机平台还可以包括明视场显微镜，例如VentanaMedical Systems,Inc.的VENTANA iScan HT或VENTANA DP 200扫描仪，或者具有一个或多个物镜和数字成像器的任何显微镜。可以使用用于捕获不同波长的图像的其他技术。适用于对染色生物样本成像的其他相机平台在本领域是已知的，并且可从诸如Zeiss、Canon、Applied Spectral Imaging等公司购得，并且这种平台易于适用于本主题公开的系统、方法和设备。

如本领域技术人员将理解的，可以针对不同类型的细胞核和/或细胞膜生物标记来对生物样品进行染色。例如在“Sambrook等人,Molecular Cloning:A LaboratoryManual,Cold Spring Harbor Laboratory Press(1989)”和“Ausubel等人,CurrentProtocols in Molecular Biology,Greene Publishing Associates and Wiley-Intersciences(1987)”中讨论了用于染色组织结构的方法和选择适于各种目的的染色的指南，其披露内容通过引用并入本文。

作为一个非限制性的示例，并且在检测乳腺癌的情况下，在一些实施方案中，在IHC测定中将组织样品染色以存在一个或多个生物标记，该一个或多个生物标记包括雌激素受体标记、孕酮受体标记、Ki-67标记或HER2标记。这样，在一些实施方案中，用作输入的生物标记图像是IHC图像，其包括对应于雌激素受体(ER)标记、孕酮受体(PR)标记、Ki-67标记或HER2标记中的至少一个的存在的信号(对应于例如显色或荧光的染色剂的信号)。在一些实施方案中，可以分析样品以检测或测量样品中ER、HER2、Ki-67和PR蛋白的存在，例如定性或定量测量。在一些实施方案中，ER、HER2、Ki-67和PR蛋白的表达模式也可用于确定蛋白表达的异质性，如本文进一步描述的不同肿瘤或细胞簇之间的差异。在一些实例中，针对ER、PR、HER2和Ki-67的抗体是从Ventana Medical Systems,Inc.(Tucson,AZ)获得的。然而，本领域技术人员将会理解，可用于本文提供的方法和试剂盒的其它抗体可从其他来源购得，例如：Novus Biologicals(Littleton,CO)、Santa Cruz biotechnology,Inc.(SantaCruz,CA)、Abeam(Cambridge,MA)和Invitrogen(Carlsbad,CA)。

作为另一个非限制性的示例，并且在检测非小细胞肺癌的情况下，在一些实施方案中，在IHC测定中将组织样品针对一个或多个生物标记(包括PD-L1生物标记)的存在进行染色。由此，在一些实施方案中，用作输入的生物标记图像是包括与PD-L1标记、CD3标记和CD8标记的存在相对应的信号的IHC图像。

在一些实施方案中，输入图像可选地被如本文所述的组织掩码模块掩码(见图4B)。在一些实施方案中，输入图像被掩码成使得仅组织区域存在于图像中。在一些实施方案中，生成组织区域掩码以由组织区域来掩码非组织区域。在一些实施方案中，可以通过识别组织区域并排除背景区域(例如，对应于没有样品的玻璃的全玻片图像的区域，例如仅存在来自成像源的白光的区域)来创建组织区域掩码。如本领域技术人员将理解的，除了由组织区域来掩码非组织区域之外，组织掩码模块还可以根据需要掩码其他兴趣区域，诸如，被识别为属于某一组织类型或属于疑似肿瘤区的组织的一部分。在一些实施方案中，使用分割技术通过在输入图像中由非组织区掩码组织区来生成组织区掩码图像。适当的分割技术是如本领域已知的这种技术(参见《数字图像处理》,第三版,Rafael C.Gonzalez,RichardE.Woods,第10章,第689页和医学成像手册,处理与分析,Isaac N.Bankman AcademicPress,2000,第2章)。在一些实施方案中，利用图像分割技术在图像中的数字化组织数据与玻片之间进行区分，该组织与前景相对应并且该玻片与背景相对应。在一些实施方案中，所述部件计算全玻片图像中的兴趣区(AoI)，以便检测在AoI中的所有组织区域同时限制分析的背景非组织区的数量。可以使用各种图像分割技术(例如，基于HSV彩色的图像分割、实验室图像分割、均值平移颜色图像分割、区域生长、水平设置方法、快速行进方法等)来确定例如组织数据和非组织或背景数据的边界。至少部分地基于分割，所述部件还可以生成可以用于识别与组织数据相对应的数字玻片数据的这些部分的组织前景掩码。替代性地，所述部件可以生成用于识别与组织数据不对应的数字化玻片数据的这些部分的背景掩码。

这种识别可以通过诸如边缘检测等图像分析操作来实现。组织区域掩码可用于去除图像中的非组织背景噪声，例如非组织区域。在一些实施方案中，组织区域掩码的生成包括以下操作中的一个或多个(但不限于以下操作)：计算低分辨率输入图像的亮度，产生亮度图像，对亮度图像应用标准偏差滤波器，产生滤波后的亮度图像，以及对滤波后的照度图像应用阈值，使得照度高于给定阈值的像素被设置为1，而低于阈值的像素被设置为0，产生组织区域掩码。在标题为“An Image Processing Method and System for Analyzing aMulti-Channel Image Obtained from a Biological Tissue Sample Being Stained byMultiple Stains(用于分析从由多个染色剂染色的生物组织样品中获得多通道图像的图像处理方法和系统)”的PCT/EP/2015/062015中披露了与生成组织区域掩码相关的附加信息和示例，其披露内容通过引用整体并入本文中。

在一些实施方案中，感兴趣区域识别模块可以用于选择生物样品的一部分，应当获取所述部分的图像或所述部分的图像数据。图4A提供了展示区域选择步骤的流程图。在步骤420中，区域选择模块接收识别的感兴趣区域或视场。在一些实施方案中，感兴趣区域由本公开文本的系统或通信地耦合到本公开文本的系统的另一个系统的用户识别。可替代地并且在其他实施方案中，区域选择模块从存储设备/存储器中检索感兴趣区域的位置或标识。在一些实施方案中，如步骤430所示，区域选择模块例如经由PCT/EP2015/062015中描述的方法自动生成视场(FOV)或感兴趣区域(ROI)，所述文献的披露内容通过引用整体并入本文中。在一些实施方案中，感兴趣区域由系统基于图像中或图像的某些预定标准或特性自动地确定(例如，对于被多于两种染色剂染色的生物样品，识别图像的仅包括两种染色剂的区域)。在步骤440中，区域选择模块输出ROI。

图像注释

在一些实施方案中，输入图像可选地由用户(例如，诸如病理学家的医学专业人员)使用图像注释模块206注释到图像分析。在一些实施方案中，用户识别适于进一步分析的H&E图像或生物标记图像(例如，IHC整体图像)的部分(例如，子区域)。被注释以产生玻片得分的肿瘤或免疫区域可以是整个肿瘤区域或数字玻片上的一组指定区域。例如，在一些实施方案中，经识别的部分特定标记(例如，特定IHC标记)的代表性过表达肿瘤区域。在其他实施方案中，用户、医学专业人员或病理学家可以在H&E图像上注释整个肿瘤区域。

在一些实施方案中，可以由病理学家来选择带注释的代表性字段以反映病理学家将用于整体玻片解释的生物标记表达。可以使用在查看器应用(例如，VENTANA VIRTUOSO软件)中提供的注释工具来绘制注释并且可以以任何放大率或分辨率来绘制注释。替代性地或另外，可以使用图像分析操作来自动地检测肿瘤区或使用自动图像分析操作(诸如，分割、阈值化、边缘检测等)来检测其他区域，并且基于所检测到的区域来自动地生成FOV。

解混模块

在一些实施方案中，作为输入接收的图像可以是多路图像，即，接收的图像是用一种以上的染色剂染色的生物样品(例如，对ER和PR都染色的图像)。在这些实施方案中，并且在进一步处理之前，多个图像首先被解混合到其组成通道中，例如利用解混合模块205，其中每个解混合通道对应于特定的染色剂或信号。在一些实施方案中，解混的图像(通常称为“通道图像”或“图像通道图像”)可以用作这里描述的每个模块的输入。例如，标记间异质性可以用第一H&E图像、对多个分化标记簇(CD3、CD8等)染色的第二多路图像以及对每个特定生物标记(例如ER、PR、Ki67等)染色的多个单路图像来确定。在该示例中，首先将多路图像解混合成其组成通道图像，并且这些通道图像可以与H&E图像和多个单路图像一起使用，以确定标记间异质性。

在一些实施方案中，在包含一种或多种染色剂和苏木精的样品中，可以为一种或多种染色剂和苏木精的每个通道产生单独的图像。不希望受任何特定理论的束缚的情况下，认为这些通道突显组织图像中的不同组织结构，因此，这些组织结构可被称为结构图像通道。在一些实施方案中，解混至少提供了苏木精图像通道图像。在一些实施方案中，获取的图像被解混到表示图像中局部苏木精量和高亮细胞核区域的单独通道中。本领域技术人员将理解，从这些通道提取的特征可用于描述组织的任何图像中存在的不同生物结构。

成像系统202提供的多光谱图像是与各个生物标记和噪声成分相关联的基础光谱信号的加权混合物。在任何特定像素，混合权重与组织中特定位置的基础共定位生物标记的生物标记表达和该位置的背景噪声成比例。因此，混合权重因像素而异。本文公开的光谱解混方法将每个像素处的多通道像素值向量分解成组成生物标记端元或组分的集合，并估计每个生物标记的各个组成染色的比例。

解混是将混合像素的测量光谱分解成一组组成光谱或端元以及一组相应的分数或丰度的过程，这些分数或丰度表示像素中存在的每个端元的比例。具体而言，解混过程可以提取染色剂特异性通道，以使用标准类型的组织和染色剂组合所熟知的参考光谱来确定单个染色剂的局部浓度。解混可以使用从对照图像检索的或者从观察图像估计的参考光谱。解混每个输入像素的分量信号使得能够检索和分析染色特异性通道，例如H&E图像中的苏木精通道和曙红通道，或者IHC图像中的二氨基联苯胺(DAB)通道和复染色(例如苏木精)通道。术语“解混”和“颜色反卷积”(或“反卷积”)等(例如，“反卷积”、“解混”)在本领域中可以互换使用。

在一些实施方案中，使用线性解混，用解混模块205解混多路图像。线性解混描述于例如‘Zimmermann“Spectral Imaging and Linear Unmixing in Light Microscopy”Adv Biochem Engin/Biotechnol(2005)95:245-265'以及C.L.Lawson和R.J.Hanson,“Solving least squares Problems”,PrenticeHall,1974,第23章,第161页'，所述文献的披露内容通过引用整体并入本文。在线性染色剂解混中，任何像素处的测量光谱(S(λ))被认为是染色剂光谱成分的线性混合，并且等于在像素处表示的每个单独染色剂的颜色参考(R(λ))的比例或权重(A)的总和

S(λ)＝A₁·R₁(λ)+A₂·R₂(λ)+A₃·R₃(λ).......A_i·R_i(λ)

这可以更一般地表示为矩阵形式

S(λ)＝ΣA_i·R_i(λ)或S＝R·A

如果获取了M个信道图像并且存在N种单独的染色剂，则M x N矩阵R的列是如本文导出的最佳颜色系统、N x 1向量A是单独染色剂的未知比例并且M x 1向量S是像素处测量的多通道光谱向量。在这些方程中，每个像素中的信号(S)在获取多路图像和参考光谱期间进行测量，即最佳颜色系统如本文所描述的那样导出。各种染色剂的贡献(A_i)可以通过计算它们对测量的光谱中的每个点的贡献来确定。在一些实施方案中，使用最小二乘逆拟合方法来获取解决方案，所述方法通过求解以下方程组来最小化测量光谱和计算光谱之间的平方差，

在这个等式中，j代表检测通道的数量，i等于染色剂的数量。线性方程解通常包括允许受约束的解混来强制权重(A)求和为1。

在其他实施方案中，使用在2014年5月28日提交的题为“Image AdaptivePhysiologically Plausible Color Separation(图像自适应生理上似然颜色分离)”的WO2014/195193中描述的方法来完成解混，其披露内容通过引用整体并入本文中。一般而言，WO2014/195193描述了一种通过使用迭代优化的参考向量分离输入图像的分量信号来进行解混的方法。在一些实施方案中，来自测定的图像数据与特定于测定特征的预期或理想结果相关，以确定质量度量。在低质量图像或与理想结果相关性差的情况下，调整矩阵R中的一个或多个参考列向量，并且使用调整后的参考向量迭代地重复解混，直到相关性显示出匹配生理和解剖要求的良好质量图像。解剖、生理和测定信息可用于定义应用于测量图像数据的规则，以确定质量度量。这些信息包括组织是如何染色的，组织内的哪些结构是打算染色的或不打算染色的，以及结构、染色剂和特定于正在处理的测定的标记之间的关系。迭代过程产生特定于染色的向量，该向量可以生成精确标识感兴趣结构和生物学相关信息的图像，没有任何噪声或不想要的光谱，因此适于分析。参考向量被调整到搜索空间内。搜索空间定义了参考向量可以用来表示染色剂的值的范围。搜索空间可以通过扫描包括已知或常见问题在内的各种代表性训练测定，并确定训练测定的高质量参考向量集来确定。

在其他实施方案中，使用在215年2月23日提交的题为“Group Sparsity Modelfor Image Unmixing(用于图像解混的群稀疏模型)”的WO2015/124772中描述的方法来完成解混，其披露内容通过引用整体并入本文中。总的来说，WO2015/124772描述了使用组稀疏性框架来解混，其中在“相同的组”内对来自多个共存标记的染色贡献的分数进行建模，并且在不同的组中对来自多个非共存标记的染色贡献的分数进行建模，向建模的组稀疏性框架提供多个共存标记的共同定位信息，使用组套索求解建模的框架以在每个组内产生最小二乘解，其中最小二乘解对应于共存标记的解混，并且在对应于非共存标记的解混的组中产生稀疏解。此外，WO 2015124772描述了一种通过输入从生物组织样品获取的图像数据、从电子存储器读取参考数据、从电子存储器读取共存数据来解混的方法，所述参考数据描述多种染色剂中每一种染色剂的染色剂颜色，所述共存数据描述染色剂的组，每个组包括可以在生物组织样品中并置的染色剂，并且每个组形成用于组套索标准的组，至少一个组具有二或更大的大小，并且使用参考数据作为参考矩阵来计算用于获得未混合图像的组套索标准的解。在一些实施方案中，用于解混图像的方法可以包括生成组稀疏模型，其中来自共定位标记的一部分染色贡献被分配在单个组内，来自非共定位标记的一部分染色贡献被分配在单独的组内，并且使用解混算法求解组稀疏模型以在每个组内产生最小二乘解。

图像分析模块

在图像获取和/或解混之后，在图像分析模块207中使用输入图像或解混图像通道图像来对细胞和/或细胞核进行识别和分类(步骤300)。本文所述的程序和算法可适于基于输入图像内的特征来对各种类型的细胞或细胞核进行识别和分类，包括对肿瘤细胞、非肿瘤细胞、基质细胞、淋巴细胞、非靶染色等进行识别和分类。

本领域技术人员将会理解，细胞核、细胞质和细胞膜具有不同的特征，并且不同染色的组织样品可以揭示不同的生物学特征。实际上，本领域技术人员将理解，某些细胞表面受体可以具有定位于细胞膜或定位于细胞质的染色模式。因此，“细胞膜”染色模式在分析上不同于“细胞质”染色模式。同样，“细胞质”染色模式和“细胞核”染色模式在分析上是不同的。这些不同的染色模式中的每一个都可以用作识别细胞和/或细胞核的特征。例如，基质细胞可能被FAP染色强烈，而肿瘤上皮细胞可能被EpCAM染色强烈，而细胞角蛋白可能被panCK染色。因此，通过利用不同的染色剂，不同的细胞类型可以在图像分析期间被区分和分辩，以提供分类解决方案。

美国专利号7,760,927(“927专利”)中描述了在具有一种或多种染色剂的生物样品的图像中识别、分类和/或刻划细胞核、细胞膜和细胞质的方法，该专利的披露内容通过引用整体并入本文中。例如，‘927专利描述了一种用于同时识别用生物标记染色的生物组织的输入图像中的多个像素的自动化方法，包括考虑输入图像的前景中的多个像素的第一颜色平面，用于同时识别细胞质和细胞膜像素，其中输入图像已经被处理以去除输入图像的背景部分并去除输入图像的复染色成分；确定数字图像前景中细胞质和细胞膜像素之间的阈值水平；以及使用所确定的阈值水平，与所选择的像素及其前景的八个相邻像素同时确定所选择的像素是数字图像中的细胞质像素、细胞膜像素还是过渡像素。

在一些实施方案中，通过首先识别候选细胞核，然后自动区分肿瘤细胞核和非肿瘤细胞核，来自动识别肿瘤细胞核。本领域中已知许多识别组织图像中候选细胞核的方法。例如，自动候选细胞核检测可以通过应用基于径向对称的方法、Parvin的基于径向对称方法来执行，例如在苏木精图像通道或在解混后的生物标记图像通道上(参见Parvin,Bahram等人“Iterative voting for inference of structural saliency andcharacterization of subcellular events.”Image Processing,IEEE Transactions on16.3(2007):615-623，其披露内容通过引用整体并入本文中)。

更具体地，在一些实施方案中，处理作为输入接收的图像处以诸如检测核中心(种子)和/或分割核。例如，可以提供指令来使用Parvin的技术(如上所述)基于径向对称投票来检测核中心。在一些实施方案中，使用径向对称性检测细胞核以检测细胞核的中心，然后基于细胞中心周围的染色强度对细胞核进行分类。在一些实施方案中，如共同转让和共同未决的专利申请WO 2014140085A1中所述，使用基于径向对称的核检测操作，其全部内容通过引用整体并入本文。例如，可以在图像内计算图像大小，并且通过将所选区域内的大小相加来累积每个像素处的一个或多个投票。可以使用均值平移聚类来找出区域中的局部中心，其中，局部中心表示实际核位置。基于径向对称投票的细胞核检测是在彩色图像强度数据上执行的，并且明确地利用了细胞核是具有不同大小和偏心率的椭圆形斑点的先验域知识。为了实现这一点，与输入图像中的颜色强度一起，图像梯度信息也用于径向对称投票并且与自适应分割过程组合以精确地检测和定位细胞核。如本文使用的“梯度”是例如通过考虑围绕所述特定像素的一组像素的强度值梯度来针对特定像素计算的像素的强度梯度。每个梯度可以具有相对于由数字图像的两个正交边缘定义x和y轴的坐标系的特定“取向”。例如，细胞核种子检测涉及将种子定义为假定位于细胞核内的点，并且用作定位细胞核的起始点。第一步骤是使用基于径向对称的高度稳健的方法检测与每个核相关联的种子点，以检测椭圆形斑点、类似于细胞核的结构。径向对称方法使用基于内核的投票过程来对梯度图像进行操作。通过处理通过投票内核积累投票的每个像素来创建投票应答矩阵。内核基于在特定像素处计算的梯度方向以及预期的最小和最大核大小以及投票内核角的范围(通常在[π/4，π/8]范围内)。在所得投票空间中，可以求解出具有高于预定阈值的投票值的局部极大值位置作为种子点。稍后可以在后续分割或分类过程期间丢弃外来种子。美国专利公开号2017/0140246中讨论了其他方法，其披露内容通过引用并入本文中。

在候选细胞核被识别后，它们被进一步分析以将肿瘤细胞核与其他候选细胞核区分开来。其他候选核可以进一步分类(例如，通过识别淋巴细胞核和基质细胞核)。在一些实施方案中，学习的监督分类器被应用于识别肿瘤细胞核，如本文进一步描述的。例如，学习的监督分类器在核特征上被训练以识别肿瘤核，然后被用于将测试图像中的候选核分类为肿瘤核或非肿瘤核。可选地，学习的监督分类器可以被进一步训练以区分不同类别的非肿瘤细胞核，例如淋巴细胞核和基质细胞核。在一些实施方案中，用于识别肿瘤细胞核的学习监督分类器是随机森林分类器。例如，可以通过以下方式训练随机森林分类器：(i)创建肿瘤和非肿瘤细胞核的训练集；(ii)提取每个细胞核的特征，以及(iii)训练随机森林分类器，以基于提取的特征区分肿瘤细胞核和非肿瘤细胞核。然后，训练后的随机森林分类器可用于将测试图像中的细胞核分类为肿瘤细胞核和非肿瘤细胞核。可选地，随机森林分类器可以被进一步训练以区分不同类别的非肿瘤细胞核，例如淋巴细胞核和基质细胞核。

可以使用本领域普通技术人员已知的其他技术来识别核。例如，可以根据H&E或IHC图像之一的特定图像通道来计算图像大小，并且在指定大小周围的每个像素可以被分配有基于像素周围区域内的大小总和的多个投票。替代性地，可以执行均值偏移聚类操作以找出投票图像内的表示核的实际位置的局部中心。在其他实施方案中，可以使用核分割来基于现在已知的核中心经由形态操作和局部阈值化来分割整个核。在又其他实施方案中，可以利用基于模型的分割来检测核(即，从训练数据集中学习核的形状模型，并将其作为先验知识来分割测试图像中的核)。

在一些实施方案中，然后随后使用针对每个核单独计算的阈值来分割核。例如，Otsu方法可以用于在经识别核周围区域中进行分割，由于认为核区域中的像素强度是变化的。如本领域普通技术人员将理解的，Otsu方法用于通过使类内方差最小化来确定最优阈值并且对于本领域技术人员而言是已知的。更具体地，Otsu方法用于自动地执行基于聚类的图像阈值或将灰度图像减小为二进制图像。算法假定图像包含遵循双模态直方图的两类像素(前背景像素和后背景像素)。然后，计算使两个类分类的最佳阈值，使得它们的组合扩展(类内方差)最小或等效(因为成对平方距离的总和是恒定的)，因此它们的类间方差是最大的。

在一些实施方案中，所述系统和方法还包括自动分析图像中所识别的细胞核的光谱和/或形状特征，用于识别非肿瘤细胞的细胞核。例如，可以在第一步骤中在第一数字图像中识别斑点。这里使用的“斑点”可以是例如数字图像的区域，其中一些属性，例如强度或灰度值，是恒定的或者在规定的值范围内变化。在某种意义上，斑点中的所有像素可以被认为是彼此相似的。例如，可以使用基于数字图像上位置函数的导数的微分方法和基于局部极值的方法来识别斑点。核斑点是这样一种斑点，其像素和/或轮廓形状表明该斑点可能是由第一染色剂染色的核产生的。例如，可以评估斑点的径向对称性，以确定该斑点是否应该被识别为核斑点或任何其他结构，例如染色伪像。例如，在斑点具有长的形状并且不是径向对称的情况下，所述斑点可以不被识别为核斑点，而是被识别为染色伪像。取决于实施方案，被识别为“核斑点”的斑点可以代表被识别为候选核的一组像素，并且可以进一步分析这些像素以确定所述核斑点是否代表细胞核。在一些实施方案中，任何种类的核斑点被直接用作“识别的细胞核”。在一些实施方案中，对所识别的核或核斑点应用过滤操作，用于识别不属于生物标记阳性肿瘤细胞的核，并用于从已经识别的核的列表中移除所述识别的非肿瘤核，或者从开始就不将所述核添加到所识别的核的列表中。例如，可以分析所识别的核斑点的附加光谱和/或形状特征，以确定该核或核斑点是否是肿瘤细胞的核。例如，淋巴细胞的细胞核大于其他组织细胞的细胞核，例如肺细胞的细胞核。在肿瘤细胞来源于肺组织的情况下，通过识别所有最小尺寸或直径明显大于正常肺细胞核平均尺寸或直径的核斑点来鉴定淋巴细胞的细胞核。可以从一组已经识别的细胞核中去除(即，“过滤掉”)与淋巴细胞的细胞核相关的已识别的核斑点。通过过滤掉非肿瘤细胞的细胞核，可以提高该方法的准确性。取决于生物标记，非肿瘤细胞也可以在一定程度上表达生物标记，并且因此可以在第一数字图像中产生不源自肿瘤细胞的强度信号。通过从所有已经鉴定的细胞核中鉴定和过滤出不属于肿瘤细胞的细胞核，可以提高鉴定生物标记阳性肿瘤细胞的准确性。美国专利公开2017/0103521中描述了这些和其他方法，其披露内容通过引用整体并入本文中。在一些实施方案中，一旦检测到种子，可以使用局部自适应阈值方法并且创建检测到的中心周围的斑点。在一些实施方案中，还可以结合其他方法，诸如，还可以使用基于标记的流域算法来识别检测到的核中心周围的核斑点。在被公开为WO2016/120442的共同未决的申请PCT/EP2016/051906中描述的这些或其他方法，其披露内容通过引用整体并入本文中。

在检测到核之后，从输入图像中导出特征(或度量)。从核特征导出度量是本领域中所熟知的，并且已知的任何核特征可以用于本公开的上下文中。可以计算度量的非限制性示例包括：

(A)从形态特征导出的度量

如本文中使用的“形态特征”是例如指示核的形状或尺寸的特征。在不希望受任何特定理论的束缚的情况下，认为形态特征提供关于细胞或其核的大小和形状的一些重要信息。例如，可以通过对包含在核斑点或种子中或周围的像素应用各种图像分析算术来计算形态特征。在一些实施方案中，形态特征包括面积、短轴和长轴长度、周长、半径、固态性等。在细胞水平上，这些特征被用于将细胞核分类为属于健康或患病细胞。在组织水平上，组织上这些特征的统计被用于将组织分类为患病或非患病。

(B)从表观特征导出度量

例如，如本文使用的“表观特征”是针对特定核通过对包含在用于识别核的核斑点或种子中或其周围的像素的像素强度值进行比较来计算的特征，由此所比较的像素密度是从不同图像通道中导出的(例如，背景通道、用于对生物标记进行染色的通道等)。在一些实施方案中，可以根据像素强度的百分数值(例如，第10位、第50位和第95位百分数值)以及根据不同图像通道计算的梯度大小的百分数值来计算从表观特征导出的度量。例如，首先，识别表示兴趣核的核斑点内的多个图像通道IC(例如，三个通道：HTX、DAB、亮度)中的每一个的像素值的多个(P个)X百分位值(X＝10、50、95)。计算外观特征度量可能是有利的，因为导出的度量可以描述核区域的属性以及描述核周围的膜区域。

(C)从背景特征导出的度量

例如，“背景特征”是指示细胞质中的表观和/或染色存在的特征，以及包括从图像中提取背景特征的核的细胞的细胞膜特征。可以例如通过以下各种操作来计算数字图像中描绘的核和相应细胞的背景特征和相应度量：识别表示核的核斑点或种子；分析与所计算的经识别细胞组直接相邻的像素面积(例如，在核边界周围的20个像素(大约9微米)厚的带状结构)，因此，在具有这种核的细胞的细胞质和膜以及与该细胞直接相邻的面积中捕获表观和染色存在。这些度量类似于核表观特征，但是在每个核边界周围大约20像素(大约9微米)厚的带状结构中计算，因此捕获具有经识别核的细胞的细胞质和细胞膜以及直接与该细胞相邻的面积中捕获表观和染色存在。在不希望受任何特定理论的束缚的情况下，选择带状结构大小，因为认为其捕获在核周围的可以用于提供用于核区分的有用信息的足够量的背景组织区。这些特征与由“J.Kong等人,“Acomprehensive framework forclassification of nuclei in digital microscopy imaging:An application todiffuse gliomas,”ISBI,2011,第2128-2131页”披露的特征类似，其披露内容通过引用整体并入本文中。认为可以使用这些特征来判定周围组织是基质还是上皮细胞(诸如，在H&E染色组织样品中)。在不希望受任何特定理论的束缚的情况下，认为这些背景特征还捕获膜染色模式，该膜染色模式在使用适当的膜染色剂染色组织样品时是有用的。

(D)从颜色导出的度量。

在一些实施方案中，从颜色导出的度量包括颜色比率(R/(R+G+B))或颜色主要成分。在其他实施方案中，从颜色导出的度量包括对颜色中每种颜色的局部统计(均值/中值/方差/标准偏差)和/或局部图像窗口中的颜色强度相关性。

(E)从强度特征导出的度量

将具有某些特定属性值的该组相邻细胞设置在以组织病理学玻片图像表示的灰色细胞的黑色阴影与白色阴影之间。颜色特征的相关性定义了大小类的实例，因此这种颜色细胞的强度从其周围的暗细胞簇中确定受影响的细胞。

(F)从纹理特征导出的度量

纹理特征及其导出方法的实例描述于PCT公开号WO2016/075095和WO2016/075096中，其披露内容通过引用整体并入本文中。

(G)从空间特征导出的度量

在一些实施方案中，空间特征包括：细胞的局部密度；两个相邻检测细胞之间的平均距离；和/或从细胞到分割区域的距离。

(H)从核特征导出的度量

技术人员还将理解的是，度量也可以从核特征中导出。Xing等人，“RobustNucleus/Cell Detection and Segmentation in Digital Pathology and MicroscopyImages:A Comprehensive Review,”IEEE Rev Biomed Eng 9,234-263,2016年1月，描述了这种核特征的计算，其披露内容通过引用整体并入本文中。

当然，可以考虑本领域普通技术人员已知的其他特征并将其用作特征计算的基础。

作为另一个示例，细胞可以被分类为淋巴细胞，如在PCT公开号WO/2016/075096中所描述的，其披露内容通过引用整体并入本文中。具体而言，PCT公开号WO/2016/075096描述了一种对组织样品图像内的细胞进行分类的计算机实现的方法，所述组织样品图像在IHC测定中被染色以确定PD-L1生物标记的存在，所述方法包括从组织样品图像内的细胞核特征计算核特征度量；基于具有组织样品图像的感兴趣细胞核计算上下文信息度量；以及使用核特征度量和上下文信息度量的组合(作为分类器的输入)对组织样品图像内的细胞进行分类，其中细胞被分类为阳性免疫细胞、阳性肿瘤细胞、阴性免疫细胞和阴性肿瘤细胞或其他细胞中的至少一种。在一些实施方案中，所述方法还包括创建前景分割掩码以识别细胞内的各自的细胞核的步骤。该出版物进一步描述了，在PD-L1染色组织的情况下，淋巴细胞不表达PD-L1生物标记(“阴性淋巴细胞”)的区域由小蓝色斑点表征；淋巴细胞表达PD-L1生物标记(“阳性淋巴细胞”)的区域由小蓝色斑点和棕色斑点表征；细胞主要表达PD-L1生物标记物(“阳性肿瘤细胞”)的肿瘤区域由大的蓝色斑点和棕色环表征；并且细胞不表达PD-L1生物标记的肿瘤区域(“阴性肿瘤细胞”)仅由大的蓝色斑点表征。

在一些实施方案中，图像分析模块207运行不止一次。例如，图像分析模块207第一次运行以提取特征并对第一图像中的细胞和/或细胞核进行分类；然后运行第二次以提取特征并对附加图像(例如，一个附加图像、多个附加图像或一系列附加图像)中的细胞和/或核酸进行分类，其中附加图像可以是其他单路图像或解混图像通道图像或其任意组合。

在导出特征之后，该特征可以单独使用或者与训练数据结合使用(例如，在训练期间，根据本领域普通技术人员已知的程序，示例细胞与专家观察者提供的基本事实识别一起被呈现)来对细胞核或细胞分类。在一些实施方案中，所述系统可以包括分类器，该分类器至少部分地基于每个生物标记的一组训练或参考玻片而被训练。本领域技术人员将理解，不同组的玻片可用于训练每种生物标记的分类器。因此，对于单个生物标记，在训练后获得单个分类器。本领域技术人员还将意识到，由于从不同生物标记获得的图像数据之间存在差异性，可以为每个不同的生物标记训练不同的分类器，以确保对未知测试数据的更好性能，其中测试数据的生物标记类型将是已知的。可以至少部分地基于如何最好地处理训练数据差异性来选择训练的分类器，例如，在组织类型、染色方案和其他感兴趣的特征方面，用于玻片解释。

在一些实施方案中，分类模块是支持向量机(“SVM”)。一般而言，SVM是一种分类技术，其基于非线性输入数据集经由用于非线性情况的内核被转换为高维线性特征空间的统计学习理论。不希望受任何特定理论的约束，认为支持向量机通过核函数K将表示两个不同类的一组训练数据E投影到高维空间中。在这个变换的数据空间中，非线性数据被变换，使得可以生成一条平坦的线(鉴别超平面)来分离类，以便最大化类分离。然后经由K将测试数据投射到高维空间中，并且在该测试数据相对于超平面下降位置的基础上对测试数据进行分类。内核函数K定义了将数据投影到高维空间的方法。

在其他实施方案中，使用AdaBoost算法执行分类。AdaBoost是一种结合多个弱分类器来生成强分类器自适应算法。由病理学家在训练阶段识别的图像像素(例如具有特定染色或属于特定组织类型的图像像素)用于为每个单独的纹理特征Φj生成概率密度函数，对于j∈{1,...,K}被认为是弱分类器。贝叶斯定理然后用于为构成弱学习者的每个Φj生成可能场景Lj＝(Cj,l j∈{1,....,K})。这些由AdaBoost算法组合成强分类器Πj＝∑Ti＝1αjilji，其中对于每个像素cj∈Cj,Πj(cj)是像素cj属于类ωT的组合可能性，其中αji是在特征Φi的训练期间确定的权重，并且T是迭代次数。

细胞簇识别模块

接下来，运行细胞簇识别模块208，以识别输入(单路)图像之一或从多路图像导出的解混图像通道图像之一内的空间簇。该模块将第一图像中检测到的簇与其他图像(例如其他生物标记图像)中的簇相关联。参考图3A、图3B和图5，在对输入图像之一中的所有肿瘤细胞或其他感兴趣的细胞进行检测和/或分类之后(步骤300)，识别模块208用于识别输入图像(即，单路图像或解混图像通道图像)中的检测到的肿瘤细胞的簇或其他检测到的感兴趣的细胞的簇。该第一图像中所识别的簇随后可以被映射到另一个输入图像，如这里进一步描述的。

在一些实施方案中，簇识别模块208可以被用来识别在H&E图像中的细胞簇，例如肿瘤簇和/或淋巴细胞聚集簇，然后配准模块207可以被用来将那些细胞簇映射到一个或多个生物标记图像(例如，包括单个染色剂的其他获取的单路图像)。因此，在一些实施方案中，簇识别模块208用于识别肿瘤簇或H&E图像中其他感兴趣细胞的簇。或者，在其他实施方案中，簇识别模块208用于识别用第一生物标记染色的生物标记图像(例如，IHC图像或ISH图像)中的肿瘤簇或其他感兴趣细胞的簇，并且同样地，那些被识别的肿瘤簇或其他细胞的簇可以被映射到另一生物标记图像(例如，IHC图像或具有第二染色的ISH图像)。

参考图5，在使用图像分析模块207进行细胞检测和分类之后，使用细胞分类数据构建细胞图、空间邻接图或空间邻接矩阵(步骤510)。给定输入图像上的细胞级分类结果和细胞的空间分布，可以构建空间邻接矩阵。接下来，使用算法来检测空间邻接矩阵中的“社团网络”(步骤510)。本文将进一步详细描述这些步骤中的每一个步骤。

细胞图法通过允许一对节点(这里是细胞)之间的任意边函数，基于它们成对关系的生物学假设，来推广基于图的方法。在细胞图法中，样品组织的细胞或细胞簇是顶点。基于具有生物学基础的假定(或假设)，在一对细胞或细胞簇之间定义边。细胞图的节点是单个细胞。因此，细胞图的链路旨在捕捉底层组织中的生物相互作用。在一些实施方案中，细胞图的创建包括(i)识别节点；以及(ii)在细胞图中建立边。在一些实施方案中，在确定顶点集合V之后，可以通过利用“特征距离”的生物学见解和知识来定义一对节点u和v之间的边(u,v)，所述“特征距离”可以是细胞中心之间的简单空间欧几里德距离或在两个细胞的特征值上定义的欧几里德距离，如本文所述。利用特征距离，我们将每两个节点之间的成对空间关系转化为细胞图中可能存在的链路。特征距离构成两个细胞之间的边的“权重”。或者，边(u,v)可以概率地或确定地或通过这两种方法的组合来建立。例如，在概率细胞图中，在任意两个节点之间创建链路的概率可以随着它们之间的欧几里德距离而指数衰减，其中使用概率函数P(u,v)＝e^d(u,v)/(L)，其中d(u,v)是欧几里德距离，并且L是网格的两个节点之间的最大欧几里德距离。如果距离d(u,v)小于阈值(例如，两个细胞彼此物理接触)，则可以确定地建立边(u,v)。不希望受任何特定理论的约束，认为节点之间的链路的存在并不指定节点(细胞)之间存在何种关系；它仅仅表明某种关系被假设存在，并且它依赖于细胞之间的距离。Bülent Yener“Cell-Graphs:Image-Driven Modeling of Structure-FunctionRelationship,”Communications of the ACM,Vol.60 No.1,pp.74-84，描述了创建细胞图的其他方法，其披露内容通过引用整体并入本文中。

在一些实施方案中，空间邻接图或邻接矩阵是用于表示有限图的方阵。矩阵的元素表示图中顶点对是否相邻。邻接矩阵总是一个正方形矩阵，N行长，N列宽，其中N是感兴趣的细胞/节点/顶点的数量，产生N^2个条目。在一些实施方案中，为输入图像中的所有细胞导出空间邻接矩阵，由此空间邻接矩阵是行数和列数相等的正方形矩阵，并且其中每行和列对应于输入图像中的一个细胞。在一些实施方案中，邻接矩阵内的节点(例如，细胞节点)是通过分析彼此相距约30微米至约70微米的细胞来创建的。要寻找的细胞周围的空间半径在生物学上特定于特定的组织类型和潜在的生物学假设。在其他实施方案中，邻接矩阵内的节点(例如，细胞节点)是通过分析彼此相距约40微米至约60微米的细胞来创建的。在其他实施方案中，邻接矩阵内的节点是通过分析彼此相距约50微米内的细胞来创建的。

邻接矩阵的概念可以被扩展以导出用一种或多种染色剂染色的生物样品的输入图像中的细胞之间的关系。在一些实施方案中，邻接矩阵是未加权的，其中细胞或者相关(或者连接)或者不相关，即邻接矩阵内的所有边都是二进制的并且重要性相等。在其他实施方案中，邻接矩阵被加权，即，分配反映细胞之间的关系(或连接)的特定属性的权重。在一些实施方案中，一行中非零的列权重对应于细胞及其相邻细胞之间的“特征距离”。在一些实施方案中，特征距离是两个细胞之间的欧几里德距离、物理距离、细胞大小、密度因子或可以定义的细胞的任何其他相似性特征或相似性属性。在其他实施方案中，特征距离是细胞级属性，例如凸性、大小、物理接触、形状等。在一对细胞之间没有任何其他相似性度量的情况下，可以将简单的欧几里德距离度量作为特征距离。可以有其他距离度量，例如“相关性”、“交叉熵”、“汉明距离”等；并且该距离可以是简单的空间距离或根据细胞特征的值定义的距离度量值。在信息论中，如果使用针对“非自然”概率分布q而非“真实”分布p优化的编码方案，则同一底层事件集合上的两个概率分布p和q之间的交叉熵测量识别从集合中提取的事件所需的平均比特数。

在生成空间邻接矩阵之后(步骤500)，使用社团网络优化方法来识别簇(步骤510)。不希望被任何特定的理论所束缚，认为每个社团构成一个空间相干的细胞(节点)簇。该系统阐述允许生长和检测不规则形状但相干的空间细胞簇，反映腺或局部组织形态。在信息论中，两个等长字符串之间的汉明距离是对应符号不同的位置数。换句话说，它衡量将一个字符串转换成另一个字符串所需的最小替换数，或者将一个字符串转换成另一个字符串所需的最小错误数。在更一般的上下文中，汉明距离是用于测量两个序列之间的编辑距离的几个字符串度量之一。

一些社团检测方法背后的基本思想是将网络(细胞图像)的节点(细胞)划分成模块或肿瘤簇。与标准的图划分算法相反，社团的检测是在没有预先指定模块的数量或大小的情况下进行的，目的是以自动化的方式揭示网络的中尺度组织。一种检测社团的方法(步骤510)即，将顶点聚集成组，使得组内的边密度高于组间的边密度，是通过谱聚类方法。不希望受任何特定理论的约束，认为谱聚类技术利用数据的相似性矩阵的谱(特征值)来在较少维度的聚类之前执行维度缩减。相似性矩阵作为输入被提供，并且包括对数据集中每对点的相对相似性的定量评估。给定一组枚举的数据点，相似性矩阵可以被定义为对称矩阵A，其中A_ij≥0A表示对具有索引i和j的数据点之间的相似性的衡量。谱聚类的一般方法是使用标准聚类方法(例如，k-均值聚类，其中k-均值聚类旨在将n个观测值划分为k个簇，其中每个观测值属于具有最近均值的簇，作为簇的原型)对A的拉普拉斯矩阵的相关特征向量进行聚类(基础矩阵A可以因不同的特征距离度量而不同)。有许多不同的方法来定义特征距离和聚类标准，因此聚类也将有不同的解释。相关的特征向量是对应于拉普拉斯的最小几个特征值的向量，除了值为0的最小特征值。为了计算效率，这些特征向量通常被计算为对应于拉普拉斯函数的最大几个特征值的特征向量。关于这种技术的附加信息在M.Fiedler,“Algebraic connectivity of graphs,”Czech.Math.J.23,298{305(1973)and A.Pothen,H.Simon,and K.-P.Liou,“Partitioning sparse matrices with eigenvectors ofgraphs,”SIAM J.Matrix Anal.Appl.11,430{452(1990)中有所描述，其披露内容通过引用整体并入本文中。

在其他实施方案中，采用包括两个步骤的社团网络算法。首先，这种算法包括从“网络”(即细胞图像)中迭代去除边缘，以将其分割成社团，所去除的边缘使用多种可能的“介数”度量值中的任何一种来识别；其次，重要的是，这些度量值在每次移除后都要重新计算，(参见Aaron Clauset et al.,“Finding community structure in very largenetworks,”Phys.Rev.E 70,066111(2004)，其披露内容通过引用整体并入本文中)。

在一些实施方案中，社团检测包括根据中心性度量值(边“介数”)来检测边，中心性度量值表示边在信号沿着最小长度的路径在图中传输的过程中的作用的重要性(见M.E.J.Newman和M.Girvan,“Finding and evaluating community structure innetworks,”Phys.Rev.E 69,026113，2004年2月，其披露内容通过引用整体并入本文中)。Girvan–Newman算法通过逐步去除原始网络的边缘来检测社团。其余网络的连通分量是社团。Girvan–Newman算法关注的是最有可能是“介于”社团之间的边，而不是试图构建一个能告诉我们哪些边缘对社团最重要的度量值。顶点介数是网络中高度集中节点的指标。对于任何节点i，顶点介数被定义为穿过它的节点对之间的最短路径数。它与网络在已知起点和终点之间调节货物转移的模型相关，假定这种转移寻求最短的可用路线。

Girvan–Newman算法将这一定义扩展到了边的情况，将边的“边介数”定义为沿其延伸的节点对之间的最短路径数。如果一对节点之间有一条以上的最短路径，则每条路径被分配相等的权重，使得所有路径的总权重等于1。如果一个网络包含的社团或组只是通过几条组间边松散连接，那么不同社团之间的所有最短路径必须沿着这几条边中的一条。因此，连接社团的边将具有高边介数(至少其中一个)。通过移除这些边，这些组被彼此分开，从而揭示了网络的底层社团结构。

Girvan–Newman算法采用以下步骤：(i)计算细胞网络中所有现有边的介数；(ii)去除具有最高介数的边；(iii)重新计算受所述移除影响的所有边的介数；以及(iv)重复步骤(ii)和(iii)，直到没有边残留。Girvan–Newman算法的最终结果是一个树形图。

在其他实施方案中，社团检测“问题”中的节点i的强度被定义为等式(1)，其中A是邻接矩阵，并且根据定义，A是对称的，并且A_ij是i和j之间的链路的权重。网络中的总权重可以由等式(2)给出。节点i和j之间的距离用d_ij表示。距离是指在嵌入空间上测量时节点之间的欧几里德距离，即沿着从一个顶点到另一个顶点的最短路径穿过的边数。如上所述，空间的性质及其相关距离可以通过选择“特征距离”作为邻接矩阵的权重来抽象给出。

k_i＝∑_jA_ij (1)

m＝∑_i，jA_ij/2 (2)

大多数社团检测方法的背后是衡量分区质量的数学定义。广泛使用的分区模块化衡量社团内的链路是否比基于机会的预期更丰富，即：

Q＝(社团内链路的比例)–(此类链路的预期比例)

同样，模块化可以由等式(3)给出：

其中i,j∈C是属于同一个P的社团C的节点对i和j的总和，因此计算同一个社团内节点之间的链路。

矩阵P_ij体现了机会的含义(即零假设)。P_ij是节点i和j之间的链路在具有特定约束的随机网络集合上的预期权重。这些约束对应于关于网络组织的已知信息(即，其链路和节点的总数)，在评估观察到的拓扑特征的相关性时，必须考虑这些信息。一般来说，如果A_ij是对称的，P_ij也被选择为对称的，并且还要求总权重是守恒的(见等式(4))。除了这些基本考虑之外，还可以根据所考虑的网络构建不同的零模型。最受欢迎的选择，由Newman和Girvan(NG)提出，如等式(5)所示(见上文M.E.J.Newman和M.Girvan)。

∑_ijA_ij＝∑_ijP_ij＝2m (4)

则Q＝Q_NG (5),

其中随机网络保持每个节点的强度。限制节点强度的观点认为网络是混合良好的，即任何节点都可以连接到任何节点，只有连接才是最重要的。在这种情况下，节点强度被认为是链路到达某个节点的概率的一个很好的代理。可以开发不同类型的试探法，以便近似对应的Newman和Girvan模块化的最优值。

作为Newman和Girvan提出的零模型的替代，在距离强烈影响两个节点被连接的概率的网络中，零模型的自然选择由等式(6)给出。

其中，N_i衡量位置的重要性、节点i的重要性和威慑功能的概念(等式7)：

是距离为d的链路存在的概率A_ij/(N_iN_j)的加权平均值。因此，它直接从数据中测量，而不是由确定的函数相关性拟合。通过构造，网络的总权重得以保存。

检测社团网络的其他方法由Paul Expert等人描述，“Uncovering space-independent communities in spatial networks,”vol.108 no.19,pp.7663–7668,doi:10.1073/pnas.1018962108，其披露内容通过引用整体并入本文中。

图7至图10示出了使用上述概念识别的簇。

配准模块

在识别第一图像中的空间同质的肿瘤或细胞簇之后(当然，假定单路图像被用作输入图像)，然后使用配准模块209(见图2和图3A)将那些识别的肿瘤或细胞簇映射到一个或多个附加图像(步骤320)。这样，所有图像都可以映射到一个公共坐标系。如果给定了组织块的一组单路图像，从中产生多个单路组织切片，则可以在第一输入图像中检测细胞和/或区域，并且可以将那些检测到的细胞和/或区域映射到相邻的连续切片组织玻片。

在一些实施方案中，在第一图像中识别细胞簇，所述第一图像是H&E图像，并且使用本文所述的配准算法将那些识别的细胞簇映射到生物标记图像(单路图像或来自多路图像的解混图像通道图像)。例如，在H&E图像中识别的簇可以被映射到具有单一染色的多个单路图像中的一个或多个；或者映射到从多路图像导出的多个解混图像通道图像中的一个或多个。

在其他实施方案中，在第一生物标记图像中识别细胞簇，并且使用本文所述的配准算法将那些识别的细胞簇映射到附加的生物标记图像(单路或多路)或H&E图像。

当然，如果所有要映射的图像都来自单个多路图像，则不需要配准，因为所有图像都来自同一组织样品切片。例如，如果所获取的图像是用H&E和一种或多种生物标记染色的多路图像，则在多路图像的解混和空间同质肿瘤或细胞簇的识别之后，不需要配准步骤。

将所识别的簇从第一图像映射到一个或多个附加图像，允许为每个图像中的每个簇中的每个生物标记(或染色剂)导出表达得分(在本文中描述)。举例来说，如果所识别的簇被从H&E图像映射到一个或多个生物标记图像(其中每个生物标记针对ER、PR或Ki-67中的一个被染色)，则在配准之后，在H&E图像中所识别的簇可以被映射到ER、PR和Ki-67生物标记图像中的相同区域，使得可以在每个图像中的每个簇中获得ER、PR和Ki-67的表达得分。

一般而言，配准包括选择一个输入图像或其一部分(例如，细胞簇)来用作参考图像，并且计算每个其他输入图像到参考图像的坐标系的变换。因此，可以使用图像配准将所有输入图像对准至同一坐标系(例如，在连续组织切片或玻片具有特定标记的情况下，参考坐标可以是在组织块的中间的玻片切片)。因此，可以将每个图像从其旧坐标系对准至新坐标系。

配准是将不同的数据集(在此为图像或图像内的细胞簇)变换为一个坐标系的过程。更具体地，配准是对准两个或多个图像的过程，并且一般而言涉及将一个图像指定为参考物(也称为参考图像或固定图像)并且对其他图像应用几何变换使得其与参考物对准。几何变换将一个图像中的位置映射到另一图像中的新位置。确定正确的几何变换参数的步骤是图像配准过程的关键。用于计算每个图像到参考图像的变换的方法对本领域技术人员而言是熟知的。例如，在例如第11届生物医学成像国际研讨会(ISBI),2014IEEE,2014年4月29日至2014年5月2日)中描述了图像配准算法，其披露内容通过引用整体并入本文中。以下概述了图像配准的详细方法。

配准过程在本领域中是熟知的，并且可以对本公开应用已知方法中任一方法。在一些实施方案中，使用在2014年9月30日提交的标题为“Line-Based Image Registrationand Cross-Image Annotation Devices,Systems and Methods(基于行的图像配准和截面图像注释装置、系统和方法)”的WO/2015/049233中描述的方法来执行图像配准，其披露内容通过引用整体并入本文中。WO/2015/049233描述了包括单独使用或与精细配准过程结合使用的粗糙配准过程的配准过程。在一些实施方案中，粗糙配准过程可以涉及选择用于对准的数字图像、从所需数字图像中的每一个数字图像生成前景图像掩码、并且在所得前景图像之间匹配组织结构。在进一步的实施方案中，生成前景图像掩码涉及由染色组织切片的全玻片图像生成软件加权前景图像，并且对软件加权前景图像应用OTSU阈值以产生二进制软件加权图像掩码。在其他进一步的实施方案中，生成前景图像掩码涉及由染色组织切片的全玻片图像生成二进制软件加权图像掩码、分别由相同的全玻片图像来生成梯度大小图像掩码、对梯度图像掩码应用OTSU阈值以产生二进制梯度大小图像掩码、并且使用二进制或运算将二进制软件加权图像与二进制梯度大小图像掩码组合以生成前景图像掩码。如本文使用的“梯度”是例如通过考虑围绕所述特定像素的一组像素的强度值梯度来针对特定像素计算的像素的强度梯度。每个梯度可以具有相对于由数字图像的两个正交边缘定义x和y轴的坐标系的特定“取向”。“梯度取向特征”可以是指示所述坐标系内的梯度的取向的数据值。在一些实施方案中，匹配组织结构涉及根据所得前景图像掩码中的每一个的边界计算基于行的特征、计算第一前景图像掩码上的第一组行特征与第二前景图像掩码上的第二组行特征之间的全局变换参数、并且基于该变换参数全局地将第一图像与第二图像对准。在又进一步的实施方案中，粗糙配准过程包括基于全局变换参数将所选数字图像映射到网格可以包含所选数字图像的公共网格。在一些实施方案中，精细配准过程可以涉及在该组对准数字图像中识别第一数字图像的第一子区域；在该组对数字图像中识别第二数字图像上的第二子区域，其中，该第二子区域大于该第一子区域并且该第一子区域基本上位于公共网格上的第二子区域内；并且计算第二子区域中的第一子区域的优化位置。

本文图6中展示了这些方法，其中，方法600在开始框602处开始。在框604处，(例如，从数据库扫描或选择)获取一组图像数据或数字图像，以供操纵。每组图像数据包括与例如来自单个患者的一组相邻组织切片的组织切片相对应的图像数据。在框606处，如果仅选择了单个对象对，则过程直接行进至框610。如果选择了多于单个图像对，则在进行至框610之前在框608处将该组所选图像分组成对。在一些实施方案中，图像对被选择为相邻对。因此，例如，如果所选图像集包括10个平行的相邻切片(L1....L10)，则L1和L2被分组为一对，L3和L4被分组为一对，等等。另一方面，如果没有获得关于哪些图像对最类似于彼此的信息，则在一些实施方案中，根据其相距(例如，与各个图像的边缘映射之间的倒角距离相对应的边缘间或图像间距离)来分组图像，从而将最靠近彼此的图像配对在一起。在本公开的示例性实施方案中，利用边缘间/图像间距离来配对图像。在一些实施方案中，可以利用基于边缘的倒角距离来计算图像间/边缘间距离。如果这些图像对先前已经经历粗糙配准过程使得图像已经被粗糙地对准并且结果已经被保存，则过程前进至框614。否则，在框612处，对所选图像对执行粗糙配准过程。以下进一步详细地描述了该粗糙配准过程。

传递至框614，所选并且现在已配准(对准)图像显示在单个监视器上或跨若干监视器扩展的公共网格上，其中，这些图像在单个图像中被覆盖、作为独立图像显示或两者。在框616处，客户端用户可以从图像对中选择图像之一作为源图像。如果已经按照期望注释了源图像，则过程行进至框622。否则，客户端用户根据框620处的期望来注释源图像。在可能(或者可能不)与框620基本上同时发生的框622处，注释可以被映射至对中的另一图像(目标图像)并且在目标图像上以图形方式重现。在其中注释发生在粗糙配准之前的实施方案中，可以在与配准(对准)图像对基本上相同的时间将注释从源图像映射至目标图像。在框624处，用户可以选择是否进行精细配准过程。如果用户选择直接显示结果而不执行精细配准，则过程行进至框626。

否则，在框624处，对所选图像对执行精细配准过程例如以优化映射注释的位置和/或图像的对准。以下进一步详细地描述了该精细配准过程。在框626处，带注释图像对显示有精细配准过程的结果(或者，如果未使用精细配准，则带注释图像对可以仅显示有粗糙配准过程的结果)。然后，该方法在最终框628处结束。

评分模块

在使用图像配准模块209识别空间上同质的肿瘤或细胞簇和/或映射所有图像中的肿瘤或其他细胞簇(步骤320)之后，使用评分模块210为每个图像(来自多路图像的单路图像或解混图像通道图像)内的每个细胞簇内的每个染色或生物标记计算各种标记表达得分(步骤330)。

在一些实施方案中，评分模块利用在步骤300检测和分类细胞期间获得的数据。例如，图像分析模块207可以包括一系列图像分析算法，并且可以用于确定所识别的细胞簇内的细胞核、细胞壁、肿瘤细胞或其他结构中的一个或多个的存在，如本文所述。在一些实施方案中，每个视场的特定细胞核的导出染色强度值和计数可用于确定各种标记表达得分，例如阳性百分比或H得分。在2013年12月19日提交的共同转让和共同未决的申请WO/2014/102130A1“Image analysis for breast cancer prognosis”和2014年3月12日提交的申请WO/2014/140085A1“Tissue object-based machine learning system for automatedscoring of digital whole slides”中进一步详细描述了评分方法，每一个的内容通过引用整体并入本文中。

举例来说，图像分析模块207中的自动图像分析算法可用于解释该系列中的每一个IHC玻片，以检测对特定生物标记(例如Ki67、ER、PR、HER2等)呈阳性和阴性染色的肿瘤细胞核。基于检测到的阳性和阴性肿瘤细胞核，各种玻片级得分，例如标记物阳性百分比、H得分等可以使用一种或多种方法来计算。

在一些实施方案中，表达得分是H得分。在一些实施方案中，“H”得分用于评估细胞膜染色分级为“弱”、“中”或“强”的肿瘤细胞的百分比。这些得分加在一起，总的最高分为300分，分界点为100分，以区分“阳性”和“阴性”。例如，为固定视场中的每个细胞(或此处，肿瘤或细胞簇中的每个细胞)确定膜染色强度(0、1+、2+或3+)。H得分可以简单地基于主要的染色强度，或者更复杂地，可以包括每个可见强度水平的单独H得分的总和。通过一种方法，计算每个染色强度水平的细胞的百分比，最后，使用以下公式分配H得分：[1×(％细胞1+)+2×(％细胞2+)+3×(％细胞3+)]。最终得分范围从0到300，给予给定肿瘤样品中较高强度膜染色更大的相对权重。然后，可以根据特定的鉴别阈值将样品视为阳性或阴性。在美国专利公开2015/0347702中描述了计算H得分的另外的方法，其披露内容通过引用整体并入本文中。

在一些实施方案中，表达式得分是Allred得分。Allred得分是一种观察激素受体测试为阳性的细胞的百分比以及受体在染色后的显示情况(这称为“强度”)的评分系统。然后将这些信息结合起来，在0到8的范围内对样品进行评分。得分越高，发现的受体越多，越容易在样品中看到。

在其他实施方案中，表达得分是阳性百分比。再次，在对针对PR和Ki-67生物标记物染色的乳腺癌样品进行评分的情况下，对于PR和Ki-67玻片，计算阳性百分比(例如，玻片的数字图像的每个视场中染色阳性的细胞核(例如，恶性细胞)的总数被相加并除以来自数字图像的每个视场的阳性和阴性染色细胞核的总数)，如下所示：阳性百分比＝阳性染色细胞数/(阳性染色细胞数+阴性染色细胞数)。

在其他实施方案中，表达得分是免疫组织化学组合得分，其是基于多个IHC标记的预后得分，其中标记的数量大于1。IHC4是基于乳腺癌样品中的四种测量的IHC标记，即ER、HER2、Ki-67和PR的一种得分(例如参见Cuzick等人，J.Clin.Oncol.29:4273-8,2011，和Barton等人,Br.J.Cancer 1-6，2012年4月24日，两者均通过引用整体并入本文中)。在一个实例中，在检测乳腺癌表达得分的情况下，使用例如以下公式计算IHC4得分：

IHC4＝94.7×{-0.100ER10-0.079PR10+0.586HER2+0.240ln(1+10×Ki67)}.

例如，假定图像包括三个已识别的肿瘤簇，并且进一步假定获取了三个生物标记图像，分别对应于ER、PR和Ki-67。此外，假定所有识别的簇已经被映射到每个生物标记图像，以提供如本文所述的映射簇。对于每幅图像中第一个被识别的簇，我们将能够得到ER、PR和Ki-67表达得分。同样，对于第二个和第三个簇中的每一个，我们都能够得到独特的ER、PR和Ki-67得分。换句话说，在该示例中，我们将具有每个被识别和映射的簇的表达得分的向量，例如，对于[ER(1),PR(1),Ki-67(1)]、[ER(2),PR(2),Ki-67(2)]、[ER(3),PR(3),Ki-67(3)]，其中ER(1)、ER(2)和ER(3)代表第一、第二和第三簇中ER的表达得分；PR(1)、PR(2)和PR(3)代表PR在第一、第二和第三簇中的表达得分；Ki-67(1)、Ki-67(2)和Ki-67(3)代表Ki-67在第一、第二和第三簇中的表达得分。

标记间异质性度量生成模块

在确定每个识别的簇或映射簇中的每个标记的表达得分(步骤330)之后，使用标记间异质性度量生成模块211在各个识别的簇之间导出空间异质性度量(即单个染色剂或标记之间的差异)和/或标记间空间异质性度量(即多个染色剂或标记之间的差异)(步骤340)。

如本领域技术人员将理解的，评分可用作预测性测量或指导治疗。例如，在乳腺癌以及ER和PR生物标记的情况下，检测呈阳性的样品可以指导在治疗过程中提供激素治疗的决定。本领域技术人员还将理解，并非生物样品中的所有簇对于任何特定标记都具有相同的得分。通过能够确定描述聚类之间差异性的异质性得分或度量，可以提供额外的指导以做出明智的治疗决策。此外，异质性可以是肿瘤攻击性和/或生长模式的空间变化的指标，其可以与聚集的临床表型(例如，可能复发的肿瘤)相关联。

在一些实施方案中，确定异质性以衡量簇相互比较的不同程度。如本文所述，异质性可以通过描述例如各种已识别和映射的簇之间的蛋白质表达水平相互比较的差别程度的差异性度量来测量。在一些实施方案中，在所识别的所有簇之间测量异质性。在其他实施方案中，仅在所识别的簇的子集(例如，满足某些预定标准的簇)之间测量异质性。

在一些实施方案中，空间异质性的定量测量(例如，单个染色剂或标记的已识别和映射的簇之间的异质性)可以基于不同的已识别和映射的簇中的蛋白质表达测量的偏差(例如，标准偏差或其他分布矩)来计算，所述簇包括一系列生物标记(例如，ER、PR、Ki-67等)。这种测量可以量化蛋白质表达测量有多远(例如分布的扩散)。例如，对一组簇的示例性空间异质性计算，该组簇对于映射的簇中的给定生物标记具有各自的蛋白质表达测量值PE(CL1)、PE(CL2),…PE(CL_N)：

异质性(H)＝σ(PE(CL1),PE(CL2),…PE(CL_N))

作为另一个示例，在一些实施方案中，可以使用识别的肿瘤簇来测量或检测ER和PR蛋白的空间异质性。例如，测量蛋白质的异质性可以包括确定ER和PR中每一种的差异性指标(VM)，其中VVM＝STD(PP(CL1),PP(CL2),…PP(CL_N))。PP(CL)是每个识别的肿瘤簇的阳性百分比，CL(例如，已经与对ER探针特异的试剂、对PR特异的试剂等接触的组织样品的一个或多个图像中的映射簇)。基于差异性度量，可以确定或计算ER和PR中每一者的异质性得分。例如，ER和PR中每一个的异质性得分可以使用以下公式计算，其中α＝[0,1](例如，范围从0到1的数字)是归一化因子，并且S是如等式(8)所述的平均阳性百分比玻片得分：

除标准偏差σ之外的差异性指标可用于测量蛋白质的异质性。例如，可以使用蛋白质表达测量值的差异或已识别和映射的簇之间的最大差异。在一些实施方案中，对于给定生物标记物的视场CL1、CL2、CL3具有各自的蛋白质表达(PE)测量的已识别和映射的簇的异质性计算可以使用绝对值(ABS)函数计算如下：

VM＝MAX(ABS(PE(CL1)-PE(CL2)),ABS(PE(CL1)-PE(CL3)),ABS(PE(CL2)-PE(CL3)))

跨簇的H得分的归一化也可以用作度量。例如，归一化可以通过将观察到的簇之间的偏差除以特定生物标记的平均玻片得分来实现。对于已识别和映射的簇中的每个生物标记，这可以重复进行。

在美国专利公开号2015/0347702中描述了计算其他空间异质性度量的方法，其披露内容通过引用整体并入本文中。

在一些实施方案中，使用每个簇的不同标记的表达得分来确定标记间异质性。例如，在具有4个标记的图像中，一个簇(或一个映射簇)中的得分可以是(30，20，40，80)。类似地，不同簇的得分可以是(70，20，60，10)。如果总共有N个簇，我们将有N个这样的表达得分向量。我们正在计算的是一个量化向量中得分差异性的数值度量。这种度量的一个示例是在所有聚类上平均的平均表达式得分。使用上面的两个向量，平均得分将提供以下得分向量：(50，20，50，45)。然后可以计算每个簇的差异得分：对于上面的第一个簇，它将是：(-20，0，-10，35)，对于第二个簇，它将是(20，0，10，-35)。

在一些实施方案中，标记间异质性度量可以是向量之间的差的均方根。在统计学及其应用中，均方根被定义为均方的平方根(一组数的平方的算术平均值)。

在一些实施方案中，得分之间的变化可以基于加权平均。

在其他实施方案中，可以计算分类得分。例如，分箱得分可用于将每个标记表达式二值化为：

对于标记1：>10＝>阳性，否则为阴性。

对于标记2：>1＝>阳性，否则为阴性。

对于标记3：>50＝>阳性，否则为阴性。

对于标记4：>15＝>阳性，否则为阴性。

使用上述数据：

四个标记的平均值为(+,+,+,+)。

对于簇1–(+,+,-,+)

对于簇2–(+,+,+,-)

然后，可以基于二进制化得分(例如，如上所述的汉明距离)或者具有不同于平均簇得分的得分组合的簇数目来计算距离度量。

在一些实施方案中，标记间异质性度量包括不同簇中表达得分向量的差异。

标记间异质性的另一种形式可以是：计算每个标记的空间异质性(跨不同的簇)，标记间异质性可以是单个标记异质性得分的总和/差异/平方和。标记间空间异质性的另一个度量值可以是来自所有标记的表达得分向量的相关矩阵。例如，如果有N个簇，因此有N个表达得分向量，并且有M个标记——相关矩阵将是一个M x M矩阵，该矩阵将由值的Spearman相关矩阵给出。Spearman秩相关是一种非参数测试，用于测量两个变量之间的关联程度。Spearman秩相关检验不假定任何关于数据分布的假定，并且当变量在至少有序的尺度上测量时，是适当的相关分析。

用于实践本公开文本的实施方案的其他部件

本公开文本的计算机系统200可以绑定到可以对组织样本执行一个或多个制备过程的样本处理设备。制备过程可以包括但不限于对样本进行脱蜡、对样本进行调节(例如，细胞调节)、对样本进行染色、执行抗原修复、执行免疫组织化学染色(包括标记)或其他反应和/或执行原位杂交(例如，SISH、FISH等)染色(包括标记)或其他反应、以及用于制备用于显微术、微量分析、质谱法或其他分析方法的样本的其他过程。

处理设备可以将固定剂应用于样本。固定剂可以包括交联剂(诸如醛类(例如甲醛、多聚甲醛和戊二醛)以及非醛类交联剂)、氧化剂(例如，金属离子和复合物，如四氧化锇和铬酸)、蛋白质变性剂(例如，乙酸、甲醇和乙醇)、未知机制的固定剂(例如，氯化汞、丙酮和苦味酸)、组合试剂(例如，卡诺氏固定剂(Carnoy's fixative)、methacarn、波恩氏流体(Bouin's fluid)、B5固定剂、罗斯曼氏流体(Rossman's fluid)、詹德莱氏流体(Gendre'sfluid))、微波和混杂固定剂(例如，排出体积固定和蒸气固定)。

如果样本是嵌入石蜡中的样品，则可以使用(多种)适当的去石蜡流体对样品进行脱石蜡。除去石蜡后，任何数量的物质都可以连续施加到样本上。物质可以用于预处理(例如，用于反转蛋白质交联、暴露核酸等)、变性、杂交、洗涤(例如，严格洗涤)、检测(例如，将视觉或标记分子与探针链接)、扩增(例如，扩增蛋白质、基因等)、复染、盖玻等。

样本处理设备可以向样本施加各种物质。物质包括但不限于染色剂、探针、试剂、冲洗剂和/或调节剂。物质可以是流体(例如，气体、液体或气体/液体混合物)等。流体可以是溶剂(例如，极性溶剂、非极性溶剂等)、溶液(例如，水溶液或其他类型的溶液)等。试剂可以包括但不限于染色剂、润湿剂、抗体(例如，单克隆抗体、多克隆抗体等)、抗原回收流体(例如，基于水性或非水性的抗原修复溶液、抗原回收缓冲液等)等。探针可以是与可检测的标记或报告分子附接的分离的核酸或分离的合成寡核苷酸。标记可以包括放射性同位素、酶底物、辅因子、配体、化学发光或荧光剂、半抗原和酶。

样本处理设备可以是自动化设备，例如Ventana Medical Systems,Inc.出售的BENCHMARK XT仪器和SYMPHONY仪器。Ventana Medical Systems,Inc.是许多美国专利的受让人，这些专利公开了用于执行自动分析的系统和方法，包括美国专利第5,650,327号、第5,654,200号、第6,296,809号、第6,352,861号、第6,827,901号和第6,943,029号以及美国公开专利申请第20030211630号和第20040052685号，这些专利申请的全部内容通过引用结合于此。可替代地，可以手动处理样本。

在处理样本之后，用户可以将带有样本的玻片运送到成像设备。在一些实施方案中，成像设备是明场成像器玻片扫描仪。一种明场成像器是由Ventana Medical Systems，Inc.出售的iScan Coreo明场扫描仪。在自动化实施方案中，成像设备是数字病理学装置，如题为IMAGING SYSTEM AND TECHNIQUES(成像系统和技术)的国际专利申请号PCT/US2010/002772(专利公开号为WO/2011/049608)所公开的或于2011年9月9日提交的题为IMAGING SYSTEMS,CASSETTES,AND METHODS OF USING THE SAME(成像系统、暗盒和其使用方法)的美国专利申请号61/533,114所公开的。国际专利申请号PCT/US2010/002772和美国专利申请号61/533,114通过引用整体并入本文中。

成像系统或设备可以是多光谱成像(MSI)系统或荧光显微镜系统。这里使用的成像系统是MSI。MSI通常通过提供对像素级图像的光谱分布的访问用基于计算机化显微镜的成像系统来配备病理样本的分析。虽然存在各种多光谱成像系统，但是所有这些系统共有的操作方面是形成多光谱图像的能力。多光谱图像是捕获特定波长或跨电磁波谱的特定光谱带宽的图像数据的图像。可以通过光学滤波器或通过使用能够选择预定光谱分量的其他仪器来挑选这些波长，所述预定光谱分量包括在可见光范围之外的波长处的电磁辐射，如例如红外(IR)。

MSI系统可以包括光学成像系统，该光学成像系统的一部分包含光谱选择性系统，该光谱选择性系统可调谐以定义预定数量的N个离散光学带。光学系统可以适于对组织样品进行成像、用宽带光源在透射中照射到光学检测器上。在一个实施方案中可以包括放大系统(如例如显微镜)的光学成像系统具有通常在空间上与光学系统的单个光学输出对准的单个光轴。当调整或调谐光谱选择系统(例如用计算机处理器)时，系统形成组织的一系列图像，如以确保在不同的离散光谱带中获取图像。设备可以另外包含显示器，所述显示器中出现来自所获取的图像的序列中的至少一个视觉上可感知的组织图像。光谱选择系统可以包括光学色散元件(如衍射光栅)、光学滤波器(如薄膜干涉滤光器)的集合、或适于响应于用户输入或预编程处理器的命令从光源通过样品朝向检测器透射的光谱中选择特定通带的任何其他系统。

在替代性实施方式中，光谱选择系统定义了对应于N个离散光谱带的若干个光学输出。这种类型的系统从光学系统摄入透射光输出，并且沿着N个空间上不同的光路在空间上重定向这个光输出的至少一部分，其方式为将识别的光谱带中的样品沿着对应于这个识别的光谱带的光路成像到检测器系统上。

在本说明书中描述的主题和操作的实施方案可以在数字电子电路中或在计算机软件、固件、或硬件(包括在本说明书中公开的结构及其结构等同物)、或它们中的一个或多个的组合中实施。可以将本说明书中描述的主题的实施方案实施为一个或多个计算机程序，即在计算机存储介质上编码以用于由数据处理设备来执行或者用于控制数据处理设备的操作的计算机程序指令的一个或多个模块。本文所描述的任何模块可以包括由一个或多个处理器执行的逻辑。如本文所使用的，“逻辑”是指具有可以应用于影响处理器操作的指令信号和/或数据形式的任何信息。软件是逻辑的示例。

计算机存储介质可以是机器可读存储装置、机器可读储存基板、随机或串行存取存储器阵列或装置、或其中的一项或多项的组合。此外，虽然计算机存储介质不是传播信号，但是计算机存储介质可以是以人工生成的传播信号编码的计算机程序指令的来源或目的地。计算机存储介质还可以是或者可以包括在一个或多个单独的物理部件或介质(例如，多个CD、磁盘或其他存储装置)中。可以将本说明书中描述的操作实施为由数据处理设备对存储在一个或多个计算机可读存储装置上或从其他来源接收的数据执行的操作。

术语“编程处理器”包括用于处理数据的所有种类的设备、装置和机器，包括例如可编程微处理器、计算机、芯片上系统或多个芯片上系统、或前述项的组合。设备可以包括专用逻辑电路系统，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，设备还可包括为所讨论的计算机程序创造执行环境的代码，例如，组成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时环境、虚拟机、或其中的一个或多个的组合的代码。设备和执行环境可以实现各种不同的计算模型基础结构，诸如web服务、分布式计算和网格计算基础结构。

计算机程序(也称为程序、软件、软件应用、脚本或代码)可以以任何形式的编程语言书写，包括编译或解释语言、说明性或者过程性语言，并且计算机程序可以以任何形式部署，包括作为独立程序或者作为模块、部件、子例程、对象或适用于计算环境的其他单元。计算机程序可以但不需要对应于文件系统中的文件。可以将程序存储在保持其他程序或数据的文件的一部分(例如，存储在标记语言文档中的一个或多个脚本)中、专用于所讨论的程序的单个文件中、或者多个协调文件(例如，存储一个或多个模块、子程序、或代码的各部分的文件)中。计算机程序可以被部署成在一个计算机上或者在位于一个站点或跨多个站点分布并且通过通信网络互连的多个计算机上执行。

本说明书中描述的过程和逻辑流程可以由一个或多个可编程处理器实行，所述一个或多个可编程处理器执行一个或多个计算机程序以便通过对输入数据进行操作并且生成输出来执行动作。过程和逻辑流程还可以由设备执行，并且设备还可以被实施为专用逻辑电路系统，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

举例来说，适合于执行计算机程序的处理器包括通用和专用微处理器、以及任何类型的数字计算机的任何一个或多个处理器。通常来说，处理器将从只读存储器或随机存取存储器或二者中接收指令和数据。计算机的必不可少的元件是用于根据指令执行动作的处理器和用于存储指令和数据的一个或多个存储器装置。通常，计算机还将包括用于存储数据的一个或多个大容量存储装置(例如，磁盘、磁光盘或光盘)，或者被操作性地耦合以从大容量存储装置接收数据或向大容量存储装置传递数据或两者。然而，计算机不需要有这种装置。此外，计算机可以嵌入另一个装置中，仅举几例，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储装置(例如，通用串行总线(USB)闪存驱动器)。适用于存储计算机程序指令和数据的装置包括所有形式的非易失性存储器、介质和存储器装置，举例来讲，包括半导体存储器装置(例如，EPROM、EEPROM、以及闪存存储器装置)、磁盘(例如，内置硬盘或可移除盘)、磁光盘、以及CDROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或结合在其中。

为了提供与用户的交互，本说明书中描述的主题的实施方案可以实施在具有用于向用户显示信息的显示装置(例如，LCD(液晶显示器)、LED(发光二极管)显示器或OLED(有机发光二极管)显示器)以及通过其用户可以向计算机提供输入的键盘和定点装置(例如鼠标或轨迹球)的计算机上。在一些实施方案中，触摸屏可以用于显示信息并接收来自用户的输入。还可以使用其他种类的装置来提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感官反馈，例如，视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声音、语音或触觉输入。另外，计算机可以通过向用户使用的装置发送文档和从用户使用的装置接收文档(例如，通过响应于从用户的客户端装置上的web浏览器接收的请求将网页发送到web浏览器)来与用户交互。

本说明书中描述的主题的实施方案可以实施在包括以下的计算系统中：后端部件(例如，作为数据服务器)、或中间件部件(例如，应用服务器)、或前端部件(例如，具有图形用户界面或Web浏览器的客户端计算机，用户可以通过所述图形用户界面或所述Web浏览器与本说明书中描述的主题的实施方式交互)、或者一个或多个这种后端、中间件或前端部件的任何组合。系统的部件可以通过数字数据通信的任何形式或介质(例如，通信网络)进行互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)、互联网络(例如，互联网)以及对等网络(例如，自组织对等网络)。例如，图1的网络20可以包括一个或多个局域网。

计算系统可以包括任何数量的客户端和服务器。客户端和服务器通常远离彼此并且通常通过通信网络进行交互。客户端与服务器的关系借助于在相应计算机上运行并且彼此具有客户端-服务器关系的计算机程序产生。在一些实施方案中，服务器将数据(例如，HTML页面)传输到客户端装置(例如，目的是向与客户端装置交互的用户显示数据和从与客户端装置交互的用户接收用户输入)。可以从服务器处的客户端装置接收在客户端装置处生成的数据(例如，用户交互的结果)。

附加实施方案

在本公开文本的另一方面，是一种用于比较细胞簇之间的异质性的系统，所述系统包括：(i)一个或多个处理器，和(ii)联接到所述一个或多个处理器的存储器，所述存储器用于存储计算机可执行指令，当所述指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行操作，所述操作包括：(i)对具有第一染色剂的生物样品的第一图像内的细胞以及一系列附加图像内的细胞进行检测和分类，其中所述一系列附加图像中的每个图像包括不同的染色剂(即，针对不同生物标记的存在而被染色)；(ii)识别所述第一图像内的一个或多个细胞簇，所述细胞簇使用图论法来识别；(iii)将所述第一图像和所述一系列附加图像配准到公共坐标系，使得所述第一图像中的所识别的一个或多个簇被映射到所述一系列附加图像以提供映射簇；以及(iv)导出每个所述映射簇中每种染色剂的表达得分；以及(vi)计算度量以量化来自不同簇的表达得分的差异性。在一些实施方案中，所述系统还包括用于基于所导出的表达得分计算一个或多个标记间异质性得分的指令。

在一些实施方案中，用于识别细胞簇的图论法包括：(i)构建细胞的空间邻接矩阵；以及(ii)使用图论算法，即检测图中“社团网络”的算法，来识别相干的细胞簇。在一些实施方案中，构建细胞的空间邻接矩阵包括：(i)将每个细胞定义为图中的节点/顶点；(ii)将彼此间隔在大约30微米至大约70微米内的细胞节点识别为连接节点；以及(iii)将两个连接节点之间的链路定义为边；以及(iv)为所有细胞/顶点以及其连接边信息构建邻接矩阵。在一些实施方案中，识别相干细胞簇的过程包括：(i)计算细胞网络中所有现有边的“介数”；(ii)去除具有最高“介数”的边；(iii)重新计算受所述移除影响的所有边的“介数”；以及(iv)重复步骤(ii)和(iii)，直到没有边残留。在一些实施方案中，所述细胞被分类为肿瘤细胞、基质细胞或淋巴细胞中的至少一种。在一些实施方案中，第一图像是H&E图像，并且其中所述一系列附加图像是生物标记图像，例如在特定生物标记的IHC测定中染色的图像。在一些实施方案中，所述系统还包括用于在识别所述一个或多个细胞簇之前在图像中电子地注释肿瘤和肿瘤周围区域的指令。

在本公开文本的另一方面，是一种用于比较细胞簇之间的异质性的系统，所述系统包括：(i)一个或多个处理器，和(iii)联接到所述一个或多个处理器的存储器，所述存储器用于存储计算机可执行指令，当所述指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行操作，所述操作包括：(i)对具有第一染色剂的生物样品的第一图像内的细胞进行分类；(ii)识别所述第一图像内的一个或多个细胞簇，所述细胞簇使用图论法来识别；(iii)将所述第一图像和一系列附加图像配准到公共坐标系，使得所述第一图像中的所识别的一个或多个簇被映射到所述一系列附加图像以提供映射簇，其中所述一系列附加图像中的每一个包括不同的染色剂；以及(iv)导出每个所述映射簇中每种染色剂的表达得分。

在本公开文本的另一方面，是一种用于导出与簇间细胞异质性相关联的一个或多个度量的非暂时性计算机可读介质，包括：(i)从具有第一染色剂的第一图像中提取特征，所提取的特征用于对所述第一图像内的细胞进行分类；(ii)基于所述细胞分类识别所述第一图像内的一个或多个细胞簇，所述细胞簇通过(a)构建邻接矩阵、以及(b)使用社团网络算法识别相干的细胞簇来识别；(iii)将所述第一图像和一系列附加图像配准到公共坐标系，使得所述第一图像中的所识别的一个或多个簇被映射到所述一系列附加图像以提供映射簇，其中所述一系列附加图像中的每一个包括不同的染色剂；(iv)导出每个所述映射簇中每种染色剂的表达得分；以及(v)基于所导出的表达得分计算一个或多个标记间异质性得分。在一些实施方案中，所述邻接矩阵的所述构造包括(a)确定细胞节点；以及(b)在节点对之间建立边。在一些实施方案中，细胞节点位于彼此大约50微米内。

在本公开的另一方面，是一种计算标记间异质性得分的方法，包括：(a)对具有第一染色剂的第一图像内的细胞(例如肿瘤细胞、淋巴细胞、基质等)进行分类；(b)基于细胞分类结果识别第一图像中的空间同质细胞簇；(c)将所识别的空间同质簇从第一图像映射到一系列附加图像中的每一个，以在每个图像中提供映射簇，其中该系列附加图像中的每一个具有不同的染色剂；(d)导出第一图像中的每个簇中以及所述一系列附加图像中的每个映射簇中的每种染色剂的表达得分；以及(e)计算一个或多个标记间异质性度量。

一种用于分析肿瘤内差异性的系统，所述系统包括：一个或多个处理器和联接到所述一个或多个处理器的存储器，所述存储器存储计算机可执行指令，当所述指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行操作，所述操作包括：将多路图像解混合成一系列解混的图像通道图像；对第一解混图像通道图像内的细胞进行分类；识别所述第一解混图像通道图像内的一个或多个细胞簇，所述细胞簇使用图论法来识别；以及导出每个剩余解混图像通道图像中每种染色剂的表达得分。在一些实施方案中，所述系统还包括用于基于所导出的表达得分计算一个或多个标记间异质性得分的指令。

一种计算具有多种染色剂的生物样品的标记间异质性得分的方法，包括：将多路图像解混合成一系列解混的图像通道图像；对第一解混图像通道图像内的细胞进行检测和分类；使用细胞分类结果来识别第一解混图像通道图像中的空间同质细胞簇；导出第一解混图像通道图像和每个剩余解混图像通道图像中每个簇中每种染色剂的表达得分；以及计算所识别的簇之间的一个或多个标记间异质性得分。在一些实施方案中，该方法还包括对每个剩余的解混图像通道图像中的细胞进行检测和分类。

一种用于分析肿瘤内差异性的系统，所述系统包括：(i)一个或多个处理器、和(ii)联接到所述一个或多个处理器的存储器，所述存储器存储计算机可执行指令，当所述指令被所述一个或多个处理器执行时，使得所述系统执行操作，所述操作包括：(i)对具有第一染色剂的生物样品的第一图像内的细胞进行分类；(ii)识别所述第一图像内的一个或多个细胞簇，所述细胞簇使用图论法来识别；(iii)将所述第一图像和一系列附加图像配准到公共坐标系，使得所述第一图像中的所识别的一个或多个簇被映射到所述一系列附加图像以提供映射簇，其中所述一系列附加图像中的每一个包括不同的染色剂；(iv)对所述一系列附加图像中每个图像的细胞进行检测和分类；(v)导出对应于第一图像中的每个簇中以及所述一系列附加图像中的每个映射簇中的每种染色剂的表达得分；以及(vi)基于所导出的表达得分计算一个或多个标记间异质性得分。

一种用于分析肿瘤内差异性的系统，所述系统包括：(i)一个或多个处理器，和(ii)联接到所述一个或多个处理器的存储器，所述存储器用于存储计算机可执行指令，当所述指令被所述一个或多个处理器执行时，使得所述系统执行操作，所述操作包括：(i)对具有第一染色剂的生物样品的第一图像内的细胞进行分类；(ii)识别所述第一图像内的一个或多个细胞簇，所述细胞簇使用图论法来识别；(iii)将所述第一图像和多个附加图像配准到公共坐标系，使得所述第一图像中的所识别的一个或多个簇被映射到所述多个附加图像以提供映射簇，其中所述多个附加图像中的每一个包括不同的染色剂；(iv)对所述多个附加图像中每个图像的细胞进行检测和分类；(v)导出对应于第一图像中的每个簇中以及所述多个附加图像中的每个映射簇中的每种染色剂的表达得分；以及(vi)基于所导出的表达得分计算一个或多个标记间异质性得分。

本说明书中提到的和/或在申请数据表中列出的所有美国专利、美国专利申请出版物、美国专利申请、外国专利、外国专利申请和非专利出版物通过引用整体并入本文。如果需要，可以修改实施方案的方面，以采用各种专利、申请和出版物的概念来提供进一步的实施方案。

尽管已经参考多个说明性实施方案描述了本公开，但是应当理解，本领域技术人员可以设计出在本公开的原理的精神和范围内的许多其他修改和实施方案。更具体地，在不脱离本公开的精神的情况下，在前述公开、附图和所附权利要求的范围内，主题组合布置的组成部分和/或布置中的合理变化和修改是可能的。除了部件和/或布置的变化和修改之外，替代用途对于本领域技术人员也是显而易见的。

在另一个实施方案中，所述操作还包括在识别一个或多个细胞簇之前对图像进行电子注释的步骤。

Claims

1.一种计算具有多种染色剂的生物样品的标记间异质性得分的方法，所述方法包括：

(i)从具有第一染色剂的第一图像中提取特征，所提取的特征用于对所述第一图像内的细胞进行分类；

(ii)基于所述细胞分类识别所述第一图像内的一个或多个细胞簇，所述细胞簇通过使用图论法来识别；

(iii)将所述第一图像和至少一个附加图像配准到公共坐标系，使得所述第一图像中的所识别的一个或多个簇被映射到所述至少一个附加图像以提供映射簇，其中所述至少一个附加图像包括不同的染色剂；

(iv)对所述至少一个附加图像中的细胞进行检测和分类；

(v)导出所述第一图像中的每个簇中以及所述至少一个附加图像中的每个映射簇中每种染色剂的表达得分；以及

(vi)基于所导出的表达得分计算一个或多个标记间异质性得分。

2.根据权利要求1所述的方法，其中所述图论法包括：(i)构造空间邻接矩阵；以及(ii)使用社团网络算法识别相干的细胞簇。

3.根据权利要求1或2中的一项所述的方法，其中所述空间邻接矩阵的所述构造包括：(i)将每个细胞定义为图中的节点/顶点；(ii)识别彼此间隔开预定距离的细胞节点；(iii)将两个连接节点之间的链路定义为边；以及(iv)使用连接边信息为所有节点/顶点构建所述邻接矩阵。

4.根据权利要求3所述的方法，其中所述预定距离约50微米。

5.根据权利要求1至4中的一项所述的方法，其中相干的细胞簇的所述识别包括(i)计算细胞网络中所有现有边的介数；(ii)去除具有最高介数的边；(iii)重新计算受所述移除影响的所有边的介数；以及(iv)重复步骤(ii)和(iii)，直到没有边残留。

6.根据权利要求1至5中任一项所述的方法，其中所述配准包括计算所述至少一个附加图像到所述第一图像的坐标系的变换。

7.根据权利要求1至6中任一项所述的方法，其中所述一个或多个标记间异质性得分的所述计算包括计算每种染色剂的多个导出表达得分之间的标准偏差。

8.根据权利要求1至7中任一项所述的方法，其中所述第一图像用H&E染色。

9.根据权利要求1至8中任一项所述的方法，其中针对生物标记的存在对所述至少一个附加图像进行染色，和/或其中所述至少一个附加图像是生物标记图像。

10.根据权利要求9所述的方法，其中所述生物标记选自由雌激素受体(ER)、孕酮受体(PR)、Ki-67、和人表皮生长因子受体2(HER2)组成的组，或者选自由PD-L1、CD3和CD8组成的组。

11.根据权利要求1至10中任一项所述的方法，其进一步包括计算一个或多个空间异质性度量。

12.根据权利要求1至11中任一项所述的方法，其中所述细胞被分类为肿瘤细胞、基质细胞或淋巴细胞中的至少一种。

13.根据权利要求1至12中任一项所述的方法，其中所述表达得分选自由阳性百分比和H得分组成的组。

14.一种用于分析肿瘤内差异性的系统(200)，所述系统包括：(i)一个或多个处理器，和(ii)联接到所述一个或多个处理器的存储器，所述存储器用于存储计算机可执行指令，所述计算机可执行指令在被所述一个或多个处理器执行时使所述系统执行根据权利要求1至13中任一项所述的方法。

15.一种存储指令的非暂时性计算机可读介质，所述指令在由一个或多个处理器执行时执行根据权利要求1至13中任一项所述的方法。