本申请依据35U.S.C.§119(e)要求于2015年6月11日提交的标题为“A CommonFramework for Finding Regions of Interest in Hematoxylin and Eosin(H&E)Stained Tissue Images and Quantifying Intratumor Cellular SpatialHeterogeneity in Multiplexed/Hyperplexed Fluorescence Tissue Images”的美国临时专利申请No.62/174,187的优先权,该申请的内容通过引入并入本文。
背景技术
数字病理学是指组织学染色的组织样本的获取、存储和显示,并且最初在诸如第二意见远程病理学、免疫解释和术中远程病理学等小生境(niche)应用中获得吸引力。通常,从活检样本生成大量患者数据,由3-50张载玻片组成,并由病理学家在显微镜下进行视觉评估,但是通过在高清晰度监视器上观看利用数字技术进行评估。由于涉及手工劳动,因此目前的工作流程实践是耗时、易出错且主观的。
癌症是一种异质性疾病。在苏木精和曙红(H&E)染色的组织图像中,异质性的特征在于存在各种组织学结构,诸如原位癌、浸润癌、脂肪组织、血管和正常导管。针对肿瘤内和肿瘤间的异质性的一种精确医学做法是对活检组织进行测序并识别一组与疾病有关的基因组签名,具体而言是针对每个患者和单个患者的肿瘤的不同区域。但是,基因组/表观基因组分析(profiling)需要或者使组织破碎或者从肿瘤中取出多个核心样本,从而产生了对异质性的耗时和低分辨率的理解。各种组织学结构之间的空间相互作用可以预测疾病。例如,长入(侵入)血管的肿瘤巢指示增加的转移(metastasis)风险。因此组织学结构的准确分割可以帮助建立空间相互作用图,以促进组合蛋白质、DNA和RNA生物标志物进行深度分子分析的精确的药物研究。这种空间相互作用图还可以用作病理学家的探索工具或用作进一步分子分析的微观解剖指南。
组织学结构分割是一项非常具有挑战性的任务,因为诸如正常的导管和原位癌之类的结构具有明确的界限,但许多其它结构(诸如浸润癌和基质)则没有。结构形态也依赖于组织来源(例如,乳房相对于肺)以及组织制备和染色实践而显著变化。历史上,生物医学图像分析文献集中于分割细胞核,因为细胞核是所有更高层组织结构的基石。利用基于细胞核-内腔关联、区域生长、基于区域的主动轮廓结合马尔可夫随机场和深度学习的做法,最近的方法已经扩展到分割其它组织学结构,诸如前列腺和乳房组织图像中的腺体。其它一些做法涉及工程疾病和器官特异性提取器,以促进分析公开可用的数据集,诸如MITOS(有丝分裂图)和GlaS(腺体)。例如,典型的腺体分割策略可以涉及首先识别内腔,然后搜索细胞周围的上皮层。但是,在原位乳腺癌的情况下,这种策略是不可行的,其中导管内腔可以被肿瘤细胞完全填充。已经为H&E图像的监督分割开发了基本的数学基础,但那个基础还没有对多于两个示例进行测试。
而且,对于许多恶性肿瘤,分子和细胞异质性是不同患者的肿瘤之间、单个患者的肿瘤的不同部位之间以及单个肿瘤内的显著特征。肿瘤内异质性涉及表型独特的癌细胞克隆亚群及包括肿瘤微环境 (TME)的其它细胞类型。这些癌细胞克隆亚群和其它细胞类型包括局部和骨髓衍生的基质干细胞和祖细胞、促进肿瘤或杀死肿瘤的免疫炎性细胞的亚类、与癌相关的成纤维细胞、内皮细胞和周细胞。 TME可以被看作是不断发展的生态系统,其中癌细胞与这些其它细胞类型进行异型相互作用,并使用可用的资源来繁殖和生存。与此观点一致,TME内细胞类型之间的空间关系(即,空间异质性)似乎是疾病进展和治疗抵抗的主要驱动因素之一。因此,定义TME内的空间异质性以正确诊断具体疾病的亚型并识别针对个体患者的最佳疗程势在必行。
迄今为止,已经用三种主要做法探讨了肿瘤内异质性。第一种做法是从具体的肿瘤区域取核心样本来测量总体平均值。通过使用多种技术分析肿瘤内的多个核心来测量样本中的异质性,所述技术包括整个外显子组测序、表观遗传学、蛋白质组学和代谢组学。第二种做法涉及使用上述方法的“单细胞分析”、RNASeq、从组织中分离细胞后的成像或流式细胞术。第三种做法使用光显微镜成像的空间分辨率来维持空间上下文,并且与特定于分子的标签结合,以测量细胞中的生物标志物。
使用光显微镜成像的空间分析促进在细胞和亚细胞水平分析大面积的组织切片和/或多个肿瘤微阵列切片。例如,亚细胞分辨率允许识别具体生物标志物的活化状态(例如,转录因子到细胞核中的转移)。此外,质谱成像中的最新发展允许在组织切片上测量许多细胞成分,但是比光显微镜的分辨率低。
已经开发了若干光显微镜成像平台来表征肿瘤内的细胞生物标志物表达水平,包括透射光和荧光。已经从基于DNA、RNA和蛋白质生物标志物的大面积组织切片和组织微阵列(TMA)的图像获取了基于荧光的多变量信息,通常在同一个样本中有1至7个荧光标记的生物标志物(称为多路复用荧光)。现在可以使用多个商业平台来对组织样本中生物标志物信号水平进行获取、处理、分割和执行某种基本分析。最近,已经证明平台允许在标记、成像和猝灭荧光的迭代循环中获得多达60个荧光标记的抗体和少量DNA或RNA杂交探针。现在也有可能“映射”具体细胞类型的位置、细胞活化状态、细胞生物标志物表达水平和定位,以及组织切片和TMA中的细胞外成分。
一个主要的挑战是开发可以量化TME内的关键空间关系(相互作用,及其缺乏)的算法,这些算法基于生物标志物组。测量组织切片中的异质性的最初努力应用来自生态学研究的多样性指标,诸如 Shannon熵和Rao二次熵。但是,这些方法还不适于多路复用(多达7种生物标志物)或超复合(>7种生物标志物)免疫荧光(IF) 数据。其它解释高维度数据的方法可能没有复杂的细胞表型分型方法,从而使得每个生物标志物只能“开”或“关”。此外,这些方法中很少有结合其异质性评分中生物标志物模式(pattern)之间的空间关系。实际上,TME的空间组织已被假设为除了来自癌症和非癌细胞的被选生物标志物的表达水平之外的重要诊断生物标志物。
其它异质性表征方法包括:(i)通过感兴趣区域采样结合空间信息,而不使用基于网络的做法或利用多路复用;(ii)多路复用/超复合IF数据中的生物标志物之间的经分析的线性关系,而不考虑非线性关联或空间信息,和(iii)表征多路复用细胞表型关联,而没有关于肿瘤内底层空间组织的任何特征。此外,大多数其它方法作为单个得分报告肿瘤内异质性,因此有可能错误地将两个TME的空间不同的组织映射到相同的得分。
因此,在分割H&E图像和量化多重/超复合荧光组织图像中的肿瘤细胞空间异质性方面存在改进的空间。
具体实施方式
如本文所使用的,除非上下文另有明确规定,否则单数形式的“一”和“该”包括复数形式。
如本文所使用的,两个或更多个部分或元件“耦合”的表述应当意味着部分或者直接或者间接(即,通过一个或多个中间部分或元件) 连接或一起操作,只要链接发生即可。
如本文所使用的,术语“数字”是指一或大于一的整数(即,多个)。
如本文所使用的,术语“部件”和“系统”旨在指计算机相关的实体,或者硬件、硬件和软件的组合、软件或者执行中的软件。例如,部件可以是但不限于是在处理器上运行的进程、处理器、对象、可执行文件、执行的线程、程序和/或计算机。举例来说,在服务器上运行的应用和服务器都可以是部件。一个或多个部件可以驻留在进程和 /或执行线程内,并且部件可以位于一台计算机上和/或分布在两台或更多台计算机之间。虽然本文关于某些附图或图将显示信息的某些方式显示和描述为屏幕或屏幕截图,但是相关领域的技术人员将认识到的是,可以采用各种其它替代方案。屏幕或屏幕截图作为显示描述、作为图形用户界面或者通过在屏幕(例如,个人计算机、PDA、移动电话或其它合适的设备)上描绘信息的其它方法来存储和/或发送,其中要在页面上显示的布局和信息或内容被存储在存储器、数据库或另一种存储设施中。屏幕或屏幕截图也可以根据期望进行打印。
如本文所使用的,术语“超像素”将意味着具有相似图像统计信息的像素的相干片或组。
本文使用的定向短语(诸如但不限于顶部、底部、左、右、上、下、前、后及其派生物)涉及附图中示出的元件的朝向,并且对权利要求没有限制,除非在其中明确陈述。
A.分割H&E染色的组织图像
所公开的概念的第一方面集中于改进数字病理学系统的功能和操作(例如,具有改进的处理能力),并且特别集中于分割H&E染色的组织(诸如乳房组织)图像中的组织学结构,例如在浸润癌、原位癌、非典型和正常导管、脂肪组织和/或淋巴细胞中。本发明人假设空间图像统计信息呈现出用于分割一大类组织学结构的区分指纹。本文更详细地描述的所公开的概念的这一方面提供了两种图论分割方法,每种方法依赖表征局部空间统计。
在第一种方法中,图中的每个节点与图像中的像素对应,并且边与其中两个节点属于同一组的强度对应。边强度通过测量在对立的颜色空间中成对的像素统计信息(以双变量von Mises混合分布的形式) 来确定,对立的颜色空间构建为增强H&E图像中粉红色与紫色染色之间的分离。光谱方法被用于对图进行分区。预计这第一种方法在分割具有明确界限的结构(例如,脂肪组织和血管)中更成功。
方便地设计第二种方法来提取具有无定形空间范围的组织学结构 (例如,肿瘤巢)。在这个构想(formulation)中,推定的细胞核中心变成图的节点,图被形成为捕获H&E图像中细胞核的空间分布。通过对细胞核间空间距离应用数据驱动的阈值,网络被分区成均匀的图像片。
本文描述的两种分割方法具有两个共同的元素,即,对立颜色表示和外观规格化,下面将详细描述每一个元素。分割方法在它们如何捕获图像统计信息和将其嵌入图分区策略方面有所不同。方法的这些方面将在本文分开描述。
当已知的标准对立颜色(红-绿、黄-蓝作为对立颜色轴)色调-饱和度-亮度(HSV)变换应用于来自H&E的红-绿-蓝(RGB)图像时,粉红色和紫色范围限于色轮的蓝-红象限。所公开的概念的这一方面的目标是增强粉红色与紫色之间的分离,使得下游空间分析管线更加健壮。为此,颜色空间的构造被优化,以对立地放置粉红色和紫色。具体而言,在示例性实现中,允许专家选择一包粉红色和紫色像素。然后,对这个数据集合执行奇异值分解,以获得尺寸为3×3的正交投影矩阵。所公开的概念的这一方面提供了对于所投影的坐标的具体解释,类似于对立空间HSV。特别地,到第一奇异向量的投影(强制为具有非负值)产生H&E亮度值b。剩余的两个投影的坐标c2和 c3构成复合平面,其中H&E饱和度
并且H&E色调θ=tan
-1(c
2+ic
3)。从这种结构,紫色和粉红色像素的色调值预计将在复色平面中最大限度地分离。为了说明,应当指出的是,图1(其是样本H&E染色的图像)中的粉红色和紫色像素的平均色调值的角度差异,是1:7弧度,如图2中所示,图2是变换到H&E色调空间的图 1的H&E图像,示为热图(左)和角度直方图(右)。这个扩展比从标准HSV对立颜色空间获得的≈0:4弧度的值更大。当饱和度低时,色调值不稳定。对于映射到复平面的原点的像素(c2;c
3≈0) 也是如此。在标准HSV表示中,所有白色像素将具有低饱和度值,因此具有不稳定的色调角度。要注意的是,由于脂肪组织、内腔、组织撕裂和收缩,白色像素可以形成H&E图像的重要部分。在所公开的概念的这一方面的对立颜色表示中,通过从专家选择的粉红色/紫色像素包学习旋转矩阵,可以给白色像素提供更高的饱和度值和更稳定的色调角度。但是,将会有具有低饱和度值的像素的群体(比如, <0:005)映射到复平面的原点。对于使用的尺寸2K×2K的H&E图像,经验估计这个群体为大约0:3%。
此外,切片、染色和成像中的任何不一致都会导致H&E图像的颜色外观的变化。因此,在示例性实施例中,数据被规格化。先前的规格化方法已经使用染色向量估计方法(诸如非负矩阵分解)。发现这些方法对于所公开的概念的这一方面是无效的,因为一些图像的颜色分布非常偏向大部分紫色或大部分粉红色。本发明人假设,如果两个图像的颜色统计信息匹配,那么两个图像的颜色外观是相似的。但是,匹配源图像与目标图像的整个像素群体的统计信息会导致意想不到的伪像。例如,如果源图像主要具有粉红色像素(基质),而目标图像主要具有紫色像素(浸润癌),那么将源图像统计信息与目标图像统计信息匹配会使源图像中的许多粉红色像素变成紫色并错误地将那些像素的细胞成分的身份从基质改变成细胞核。为了解决这个问题,首先识别以下三类像素:粉红色(曙红)、紫色(苏木精)和白色 (例如,脂肪、收缩),并且统计信息针对这些类别中的每一类分开进行匹配。为了识别这三个类别,H&E图像被转换成H&E-色调、 H&E-饱和度和H&E-亮度通道,如所讨论的。H&E-色调空间是有角度的,并且在这个空间中给出了粉红色、紫色与白色像素云之间的分离,色调值用单变量von Mises分布的混合来建模。用于角度统计信息的单变量von Mises分布是用于线性统计信息的单变量正态分布的等价对等物。von Mises分布由两个参数表征,一个是均值
一个是浓度参数κ>0,并且由下式给出:f(x)={2κI
0(κ)}
-1 exp κ cos(x -μ),其中I
0(κ)是阶数为0的第一类的经修正的贝塞尔函数。由
给出了K个单变量von Mises分布的混合,其中m
k是先验概率,并且μ
k、κ
k是均值和浓度参数。为了明确地考虑具有低饱和度值和不稳定色调角度的像素,将均匀的角度噪声作为附加的混合分量添加,其先验概率为大约0.3%。单变量von Mises混合的参数可以使用期望-最大化(EM)算法找到。分布的统计信息可以用矩 (moment)的无限集合来表征。但是,为了便于分析,在示例性实施例中,仅计算至多到第四阶(均值、标准偏差、偏度、峰度)的矩。在每个通道中,来自源图像的每个像素类的矩与目标图像匹配。例如,源图像中的紫色像素的矩在所有三个通道中与目标图像中的紫色像素的矩匹配。在H&E对立颜色空间中对统计信息进行规格化之后,使用上述旋转矩阵的逆来将结果所得的像素值转换到RGB空间(以创建规格化的RGB数据)。
已经描述了两种分割方法的两个共同元素,即,对立颜色表示和外观规格化,现在将详细描述每种分割方法的其余部分。在每种分割方法中,规格化的图像数据用作输入。特别地,在第一种方法中使用规格化的H&E色调数据作为输入,而在第二种方法中使用规格化的 RGB数据作为输入。
关于第一种方法,正常的乳房组织在小面积的导管周围具有大面积的染成粉红色的结缔组织(CT),其中每个都是细胞的集合体 (assembly)。这些细胞的细胞核将被染成深紫色,而围绕细胞核的细胞质呈现粉红色和紫色的混合,因为来自细胞核的紫色染色可以溢出到细胞质中。从统计上来讲,如果有人站在这些细胞核中的任何一个上,可以预期他被表示细胞核的紫色像素和表示细胞质的粉红色- 紫色像素包围。如果这些细胞组装成导管结构,那么在每个细胞的给定邻域中,应当找到表现出相似特性的其它细胞。另一方面,如果有人站在发现通常分散在结缔组织中的成纤维细胞细胞核上,那么他将发现其附近大部分是粉红色的像素。假设结构(诸如导管)内的统计关联高于跨越其边界的统计关联,那么导管应当能够被分割,同时忽略结缔组织中分散的成纤维细胞。
使用混合单变量von Mises分布,图像像素扫描可以被分离成粉红色、紫色和白色类,但是这不足以描绘组织学结构(诸如腺体/导管),因为这种结构包含来自所有这三类的像素。在所公开的概念的这一方面,为了分割这些结构,假设诸如导管之类的结构内的统计关联高于跨越其边界的统计关联,并且根据所公开的概念的这一方面使用双变量vonMises分布的混合对这种统计关联进行建模。由于 H&E-色调是角度变量,因此来自两个相邻像素的色调值的联合分布 P(A,B)位于环面上。这个联合密度被建模为双变量von Mises分布的混合。令H&E-色调空间中像素A和B的值分别为
和ψ。两个角度变量的双变量分布
和-π<ψ≤π为:
其中μ、υ是均值,并且κ
1、κ
2>0分别是
ψ的浓度,κ
3是相关系数,并且C
c是规格化常数。完全双变量von Mises模型具有8个参数,但是在示例性实施例中使用具有正相互作用的简化的5参数余弦模型。边际密度是:f
c(ψ)=C
c2πI
0(κ
13)(ψ)exp{κ
2cos(ψ-v)}。κ
3的值决定了分布是单峰还是双峰。特别地,当κ
1>κ
3>0且κ
2>κ
3>0时,如果κ
3<κ
1κ
2/(κ
1+κ
2),那么联合密度是单峰的,如果κ
3>κ
1κ
2/(κ
1+κ
2),那么是双峰的。
当考虑H&E-色调空间中H&E图像的相邻像素的值时,环面上的块最多有六种可能性:紫色-紫色、粉红色-粉红色、白色以及三种不同的成对相互作用。为了建模这种联合分布,使用六个单峰双变量 von Mises分布的混合。K个双变量von Mises分布的混合模型可以通过以下参数化:
对于图像中的所有像素,由单变量von Mises的混合生成初始值。对于f
i,浓度参数κ
1i,和κ
2i及相关参数κ
3i满足单峰条件。κ
3i被约束为具有-1和1之间的值,以避免失真成椭圆模式(在采样数据中观察到的)。与上述约束一起,通过EM算法估计混合的参数。由于如上推理的那样,在混合模型中最多有六个分量,因此不对混合模型进行明确的模型选择步骤。如果H&E图像缺少三种基本颜色(紫色、粉红色和白色)中的任何一种,那么与那种颜色相关的簇的先验概率或混合比例将接近于 0。
考虑对H&E对立颜色空间中相邻像素的色调角度之间的统计依赖性进行建模。如果联合概率被用作统计关联的测量,那么可以发现结缔组织中的粉红色-粉红色像素对比导管内的紫色-紫色像素对或跨 CT导管边界的粉红色-紫色像素对具有更高的概率。但是,由于在一些H&E图像中粉红色过多,因此跨CT导管边界的粉红色-紫色像素对的组合可以具有与导管内紫色-紫色像素对相当或甚至更高的概率。粉红色-粉红色对可以具有最高的联合概率,而紫色-紫色对可以与紫色-粉红色对具有相似的联合概率。换句话说,联合概率可能不足以检测正确的边界。这可以通过使用互信息(MI)校正相对丰度来改进。为了计算MI,从图像的所有位置随机地选择具有特征
和
(例如,H&E-色调角度)并具有小于阈值的距离的多个像素对(A,B)。 A和B在距离d处的特征的联合概率表示为p(A,B;d)。整体联合概率被定义为:
d的值依赖于参数σ,特别是 d=2+2|r|,其中
在10倍放大率下,细胞核的直径≈15像素。由于分割算法针对细胞核的组装,因此采样的像素对之间的距离应当至少覆盖细胞核的直径。因此,σ被设置为3。逐点互信息 (PMI)是从由二元von Mises分布的混合建模的联合概率P(A,B)以及由单变量vonMises分布的混合建模的边际概率P(A)和P(B)计算的。特别地,
在该示例性实施例中,ρ=2,以对
的上限进行规格化。
此外,从PMI定义亲和度函数,以指示将两个像素分组到相同组织学结构中的可能性。具有元素w
i,j的亲和度矩阵W表示像素i和j之间的相似度:
亲和度函数被用作标准光谱图分割方法的输入,诸如在Arbelaez,P.等人的“Contour Detection andHierarchical Image Segmentation”,IEEE TPAMI,33(5),898- 916(20122)中所描述的,这一直是分割自然图像的最新技术。从亲和度矩阵W中,找到广义系统的特征对
显性特征向量图(小特征值)指示潜在组织学结构的边界位置。众所周知,没有单个特征向量能够捕获复杂图像中所有可能的边界。因此,通常的实践是从大量显性特征向量的定向空间导数计算边缘强度图。后处理步骤用于消除虚假的边界像素。
图3是总结刚刚详细描述的第一分割方法的流程图。该方法从步骤5开始,其中接收用于被检体载玻片的规格化H&E-色调数据。接下来,在步骤10,估计H&E-色调数据中的多个相邻像素之间的规格化H&E-色调值的联合分布。然后,在步骤15,基于估计的联合分布来计算规格化的H&E-色调数据的PMI。在步骤20,从计算出的PMI定义亲和度函数。最后,在步骤25,使用亲和度函数和谱图分割方法(也称为谱聚类)来分割被检体载玻片中的组织。
关于第二种分割方法,局部空间统计信息在乳房组织中的各种组织学结构之间变化。例如,原位导管癌中的细胞团倾向于彼此紧密聚集,因为原位肿瘤正在生长,但被局限于导管内。另一方面,浸润癌中的上皮细胞在空间上相隔很远。它们也在生长,但可以自由地渗透入并通过乳房基质,不再局限于导管。正常导管的局部统计信息更有序,特别是正常上皮(内)和肌上皮细胞(外)形成围绕腔体(内腔) 的两层。
对于脂肪组织来说,细胞核小并且在细胞的一侧。大部分脂肪组织由脂肪滴组成。本发明人假设不同的组织学结构具有不同的细胞核间距离分布(局部统计信息)。如下所述,所公开的概念的这一方面的第二种分割方法基于这个假设。
在组织病理学和细胞病理学图像中的细胞核分割是一个广泛研究的问题。但是,上皮细胞的紧密接近以及乳腺癌中有丝分裂像(分裂细胞)的发生使得难以准确检测细胞核边界,这对于人眼来说更加困难。为了避免这个问题,在第二种分割方法中,以超像素的形式识别推定的细胞核的位置,其将近似地表示细胞核,并且构建连接超像素的图,以获得用于每个超像素对的邻域和距离信息。更具体而言,在示例性实施例中,为了从H&E图像生成超像素,首先,如上所述对像素颜色进行规格化。然后,执行在Tosun,A.B.和Gunduz-Demir, C.的“Graph Run-length Matrices for Histopathological ImageSegmentation”IEEE TMI,30(3),721–732(2011)中提出的算法,以拟合圆形超像素。简单地说,这个算法首先使用k均值算法基于强度将像素聚类为三个类别,其中使用主成分分析在随机选择的训练图像上确定聚类中心。这三个类别表示分别与细胞核、基质和内腔/白色区域对应的紫色、粉红色和白色区域。然后,这个算法将圆形超像素拟合到用于细胞核、基质和内腔/白色分量的聚类像素中。在超像素分解之后,基于超像素的中心坐标形成Delaunay三角剖分,以确定每个超像素的邻域。具有了每个超像素对的距离信息,组织学结构的最终分割是通过以贪婪的方式对这个图进行分区并对特定类型的段应用合并规则来实现的,这将在以下部分中详细描述。虽然所提出的方法是由细胞核间距离分布驱动的,但是来自紫色和白色像素类的超像素对都被认为是解释复杂的组织学结构(诸如导管、血管和脂肪组织)。例如,正常的导管具有紫色细胞核,形成围绕白色内腔区域的两个细胞层。另一方面,基质(粉红色)类被认为是背景并且不包括在图分区步骤中。
更具体而言,每个超像素被认为是图中的节点,并且图的连通性由距离阈值确定。对于每个类别,计算超像素中心与其最近的15个邻元素(由Delaunay三角剖分识别)之间的按对距离。距离阈值τ被设置为与距离分布的中值(δ)成比例。比例常数被设置为最大化用于整个数据库的算法的性能。在构建超像素图之后,使用贪婪的连通分量分析算法将超像素聚类为标记的段。在示例性实施例中,选择组织面积方面最大的15个段。由于示例性实施例中的组织图像的尺寸为2K×2K,因此在任何给定的图像中预期只有少量的导管、肿瘤巢、脂肪滴。此时,已经从紫色和白色超像素获得了两组标记的段。
为了将紫色段和白色段合并到最终的组织学结构中,遵循一些简单的规则,以确保由细胞核簇形成的重要结构不被遗漏。如果白色段被紫色段完全覆盖,那么整个紫色区域就会取紫色段的标签。如果白色段与紫色段重叠,那么不管重叠区域如何,重叠部分都取紫色段的标签并且非重叠部分取白色段的标签。如果紫色段被白色段完全覆盖,那么紫色区域取紫色段的标签,并且剩余的白色区域保留白色段的标签。这是为了确保不会错过驻留在容器内的细胞核团。在合并紫色和白色段之后,剩余的未标记的区域被视为背景或基质。
图4是总结如刚才详细描述的第二种分割方法的流程图。该方法从步骤30开始,其中接收用于被检体载玻片的规格化RGB数据。接下来,在步骤35,从RGB数据中以超像素的形式识别推定的细胞核位置。然后,在步骤40,基于每个超像素与多个它的最近的邻元素之间的按对距离来构建超像素图。接下来,在步骤45,使用超像素图,将超像素聚类或分组到标记的段中。最后,在步骤50,将标记的段合并成最终的组织学结构。然后使用确定的最终组织学结构来分割被检体载玻片(即,创建其中被检体载玻片被分割的图像)。
B.量化肿瘤内空间异质性
如本文更详细描述的,所公开的概念的另一方面提供了数字病理学系统的功能和操作的改进(例如,改进的处理)。特别地,这方面提供了用于量化肿瘤内空间异质性的方法,其可以与单一生物标志物、多路复用或超复合免疫荧光(IF)数据一起使用。该方法在其做法中是整体性的,使用TMA中整个肿瘤组织切片和/或斑点的表达和空间信息来表征空间关联。在本文详细描述的示例性实施例中,该方法生成二维异质图,以明确阐明主要和次要亚群的空间关联。相信肿瘤内空间异质性的表征将是癌症进展、增殖和对治疗的响应的重要诊断生物标志物,因此所公开的概念的这一方面的方法和系统将是有价值的诊断和治疗工具。
根据所公开的概念的这一方面,采用特定生物标志物的预定集合来量化多路复用/超复合荧光组织图像中的空间异质性。为了说明的目的,所公开的概念的这一方面在本文中以非限制性的示例性实施例被证明,其中使用三种乳腺癌生物标志物(雌激素受体(ER)、人表皮生长因子2(HER2)和孕酮受体(PR))与用于分割的生物标志物(包括细胞核、质膜、细胞质和上皮细胞)结合来量化空间异质性。但是,将理解的是,所公开的概念的这一方面可以与不同的和/ 或附加的生物标志物一起使用。此外,还将理解的是,使用逐点互信息(PMI)来量化空间肿瘤内异质性的所公开概念的这一方面的影响可以延伸超出本文描述的特定示例性实施例。例如但不作为限制,所公开的概念的这一方面可以扩展到用增加数量的癌症和基质生物标志物标记的全载玻片IF图像的分析。
此外,所公开的概念的这一方面采用显性生物标志物强度模式的预定集合(基于所使用的特定生物标志物的预定集合)(在本文中也被称为表型)来测量和量化细胞空间异质性。因此,作为开始,将首先参考图5来描述建立显性生物标志物强度模式的非限制性示例性方法。之后描述采用显性生物标志物强度模式来量化空间异质性的方式。
参考图5,首先,在步骤105,获得数字对照载玻片的集合,其中每个对照载玻片包括已经细胞分割的数字生物标志物图像(即,在其上执行了细胞分割方法)。在本文为了说明性目的而描述的示例性实施例中,在生成对照载玻片的生物标志物图像时至少使用上述三种生物标志物(ER、PR和HER2)。接下来,在步骤110,为该对照载玻片集合生成免疫荧光(IF)数据。特别地,通过对于每个生物标志物图像获得生物标志物图像中每个分割的细胞的每个预定生物标志物的强度水平,在步骤110中生成IF数据。因此,如将认识到的, IF数据将包括对照载玻片的每个生物标志物图像的每个分割细胞的生物标志物强度水平数据。
接下来,在步骤115,假设信号强度指示真实的生物标志物表达,基于每个生物标志物的信号强度的分布,来自IF数据的细胞被分成两个分区(使用如下所述的阈值)。图6示出了用于每种示例性生物标志物(ER、PR、HER2)的生物标志物强度分布图。图6中所示的每个对数-发生分布可以通过两个或更多个线性方程来建模。这两个不同模型将会相遇的缺口被设置为用于那个特定生物标志物通道的阈值,并且被绘制为图6的生物标志物强度分布图中的垂直线。对于任何给定的细胞,如果其生物标志物强度中的一个或多个高于阈值,那么那个细胞被分类为1级(L1)。如果任何给定细胞的所有生物标志物强度都低于其对应生物标志物通道中的阈值,那么那个细胞被分类为2级(L2)。这两个分区可以用它们的信噪比来解释,相比之下,L1具有更高的信噪比,而L2具有更低的信噪比。细胞的每个分区被用于学习其自己的生物标志物强度模式集合。这种做法看起来特别明智,假定L1和L2数据的模式系数分布一般而言具有不同的高斯性。如图6中所示,所研究的生物标志物强度具有长尾分布,因此选择对数-强度表示来导出数值稳定的模式识别算法。
接下来,在图5的步骤120,如下从分区的IF数据中学习显性生物标志物强度模式(在本文中也称为表型)的集合。首先,对于 IF数据的每个分区L1和L2,导出稀疏信号表示,如图7中所示。更具体而言,参考图7,给定的数据矩阵X(其中列表示IF数据中的每个细胞,并且行表示每个细胞的对数生物标志物强度(从顶部到底部分别是ER、HER2、PR))可以由度量D和W之积来近似。D 表示从数据集X中细胞的集合学习的潜在生物标志物强度模式的库,其中每列表示从数据学习的模式之一,并且每行表示每个模式的相应生物标志物强度。W是稀疏矩阵,它将X中的每个细胞表型为具有特定缩放系数的D中的具体模式。因此,每个细胞(W中的列)仅由一个细胞表型表示,其与稀疏编码所在的生物标志物模式(D中的列)对应。每个矩阵的色谱从一种颜色(例如蓝色(低强度))向另一种颜色(例如黄色(高强度))变化。显示矩阵DW,以描绘实际数据矩阵与其重构之间的相似性。通过查看矩阵X和DW(它们是由与它们最为一致的库元素排序的列),可以观察到每个生物标志物强度模式存在于数据中。这种数据重构的好处是能够用少量可解释的生物标志物强度模式来表示大量的细胞级数据,从而描述了数据集固有的高度聚类的云,如图8中所示。3D对数生物标志物强度空间中的每个细胞通过其表型进行颜色编码。给定数据集X的线性表示到库D和库系数矩阵W的重构误差高度依赖于D的维度,即,将被用于描述数据集X的模式的数量。
为了选择D的理想维度,执行如图9所示的数据重构的十倍交叉验证。如在这些分析中典型的,要注意到的是,随着维度增加,重构误差和误差的方差减小,直到误差方差开始随着维数增加的某个点。在示例性实施例中,已经发现,对于两个数据分区L1和L2,11个模式的库尺寸优化了重构误差和误差方差二者。已经学习了数据L1 和L2的每个非重叠分区的一组11个模式,这两个库可以合并成可以描述整个数据集的生物标志物强度模式的单个大型库。但是,由于这些模式是从相同的数据集中导出的分区学习的,并且是在相同的实验条件下捕获的,因此要注意的是,在从L1数据中学习的库与从 L2数据中学习的库之间存在一些冗余。因此,在该示例性实施例中,使用k均值聚类来将大的22模式库(来自每个分区的11个模式)合并成仅包含从本文描述的做法发现的独特模式的较小的最终库。图 10示出了从L1学习的11个模式和从L2学习的11个模式。每个生物标志物模式分别被表示为其ER、HER2和PR强度的干图(stem plot)。为了方便起见,干图中的强度模式将被描述为高、中和低。例如,L1库中的模式8(在左侧示出)可以被描述为ER高、HER2 中和PR低。
k-均值聚类的结果(在图10右侧示出)导致8个生物标志物强度模式的最终库维度。在示例性实施例中,基于用于聚类评估的轮廓标准的结果来选择最终维度。要注意的是,一个模式对于最终模式集的分区L2(模式7)是独特的,具有低ER表达、中等HER2表达和高PR表达。这证明了将数据划分为两个组L1和L2的价值,其中在一个分区占主导地位、但在另一个分区中不占主导地位的模式可以被阐明。
已经描述了用于学习显性生物标志物强度模式集合的示例性方法,现在讨论将转向使用显性生物标志物强度模式集合来量化空间异质性的方式。特别地,图11是示出根据示例性实施例的、用于量化多路复用/高复杂荧光组织图像的空间异质性的方法的步骤的流程图。
参考图11,该方法从步骤125开始,其中获得待分析的数字多路复用荧光载玻片。在步骤125中获得的载玻片的数量可以是单个载玻片、来自单个患者的多个载玻片或者用于整个患者队列的多个载玻片。如将认识到的,在步骤125中获得的(一个或多个)载玻片将各自包括感兴趣的肿瘤的一部分,并且将各自是那个部分的生物标志物图像。如本文其它地方所指出的,在示例性实施例中使用的生物标志物是ER、PR和HER2。接下来,在步骤130,对(一个或多个)被检体载玻片的数字载玻片数据执行细胞分割。在步骤130可以采用多种已知或以后开发的合适的细胞分割算法中的任何一种。然后,在步骤135,获得一个或多个被检体载玻片中的每个细胞的空间位置和生物标志物强度数据。接下来,在步骤140,基于细胞的生物标志物强度组成,将(一个或多个)被检体载玻片的每个细胞指派给预定的显性生物标志物强度模式之一(即,一种表型)。图12示出了标记为 1-8的每个预定的显性生物标志物强度模式的示意图160。在该示例性实施例中,每个示意性表示160以独特的一种或多种颜色提供,以使得示意性表示能够容易地彼此区分。接下来,在步骤145,图12 中所示的细胞指派和示意图被用于生成细胞空间依赖性图像,其在视觉上展示了(一个或多个)被检体组织样本的异质性。图13示出了根据所公开的概念的一个特定示例性实施例的细胞空间依赖性图像 165。如图13中所看到的,细胞空间依赖性图像165使用示意性表示 160示出了(一个或多个)被检体载玻片的细胞之间的空间依赖性。在示例性实施例中,细胞空间依赖性图像165记录以下情况的概率: (i)是否免疫细胞出现在癌细胞附近;(ii)是否免疫细胞和癌细胞彼此互抑制,以及(iii)是否免疫细胞和癌细胞彼此不可知。细胞空间依赖性图像165并不意味着示出任何特定的组织结构。
接下来,在步骤150,构造空间网络,以描述(一个或多个)被检体载玻片中显性生物标志物强度模式的构造。然后,在步骤155,通过如本文所述为(一个或多个)载玻片生成PMI图来量化(一个或多个)被检体载玻片的异质性。在该示例性实施例中,如下所述执行步骤150和155。
为了表示(一个或多个)被检体载玻片的生物标志物图像(即,组织/肿瘤样本)中的生物标志物模式的空间构造,针对(一个或多个)被检体载玻片构建网络。用于肿瘤样本的空间网络的构建本质上将细胞生物标志物强度数据(在网络的节点中)耦合到空间数据(在网络的边缘)。网络构建中的假设是,细胞能够与附近的细胞通信达到一定的限制,例如高达250μm,并且细胞在那个限制内通信的能力依赖于细胞距离。因此,示例性实施例中的概率分布是针对被检体载玻片中的细胞与它的十个最近的邻元素之间的距离来计算的。基于这个分布的中值乘以1.5选择硬限制(以估计标准偏差),其中网络中的细胞只在这个限制内连接。然后,网络中的细胞之间的边缘通过相邻细胞之间的距离来加权。
接下来,使用逐点互信息(PMI)来测量库中的每对生物标志物模式之间的关联,并因此测量(一个或多个)被检体载玻片的不同细胞表型。这个度量捕获一般的统计关联,既有线性又有非线性,而之前的研究使用线性度量,诸如Spearman的ρ系数。一旦为每对生物标志物模式计算出了PMI,就可以在PMI图中显示被检体载玻片的数据中所有关联的测量。示例性PMI图170在图14中示出。
PMI图170描述了(一个或多个)被检体载玻片的微环境内不同细胞表型之间的关系。特别地,PMI图170中的条目172指示,当与通过所有表型上的随机(或背景)分布预测的相互作用相比,在数据集中两个表型(由行和列号引用)之间的特定空间相互作用多频繁地发生。第一种颜色(诸如红色)的条目表示表型之间强烈的空间关联,而第二种颜色(诸如黑色)的条目表示缺少任何共同定位(表型之间的弱空间关联)。其它颜色可以用来表示其它关联。例如,以第三种颜色(诸如绿色)着色的PMI条目172表示不好于细胞表型在整个数据集上随机分布的关联。此外,PMI图170可以描绘与以第四种颜色(诸如蓝色)表示的条目172的反关联(例如,如果表型 1很少在空间上在表型3附近出现)。
因此,具有强对角条目和弱非对角条目的PMI图170描述了全局异质但局部均质的肿瘤。这种PMI图170A的示例在图15中示出。在这个示例中,用于表型2、4和8的对角线条目中的关联强。这意味着这些表型与相同表型的细胞在空间上相关,如图15中所示的肿瘤样本图像中各个微区的组成所示。相反,具有强非对角条目的 PMI图170B可以描述局部异质的肿瘤。这种PMI图170B的示例在图16中示出。在这个示例中,细胞表型1和6、细胞表型2和4以及细胞表型3和8之间的关联在空间上是局部的。此外,PMI图 170B仅示出表型7细胞与其自身的一种关联。示于图17中的示例性 PMI图170C示出了肿瘤图像中所有表型之间的关联,因此PMI图 170C颜色彻底混杂。PMI图170优于现有措施的好处在于图唤起了表型之间的空间关系。它们不仅提供细胞组成的总结,而且提供肿瘤拓扑的近似。为了简洁起见,没有包括更复杂的PMI映射示例,但是将理解的是,所有PMI图170都是由这些简单的相互作用构建的。
在示例性实施例中,用于(一个或多个)被检体载玻片的PMI 如下计算。给定IF数据集X(其中X的每列是细胞xk)线性解构成过度完整的库D(其中D的每列是不同的模式di)和将每个细胞指派给仅单个生物标志强度模式的稀疏编码矩阵W,每个细胞如本文所述的那样(步骤140)被指派为具有表型fi,其中i是W的列wk中的非零索引。算法的潜在缺陷是可能将高和低信号强度的细胞指派给相同的细胞表型。对于给定的网络或网络集合s,一对生物标志物表型(fi,fj)之间的PMI定义为:
其中
是表型f
i出现在网络集合s中的概率,并且
是从完整的网络集合导出的表型f
i的背景概率分布。要注意的是,背景分布基于整个数据集,以便将个体网络与作为整体的组织载玻片的分布进行比较。这种构建类似于用于DNA或蛋白质序列的特定于位置的评分矩阵(PSSM),其中背景分布表示对于任何给定位置在序列的数据集上发现任何特定核苷酸或氨基酸的概率。PMI图由用于给定网络集合s的词汇表中每个可能模式对的PMI得分组成。虽然我们主张对二维PMI图进行解释以全面了解异质性,但是我们也从PMI图中推导出一维异质性得分值,以方便有兴趣与文献中的其它一维得分进行比较的读者。信息缺乏的一维异质性得分定义为:
其中得分越高表示与背景分布的差异越大。一维得分可以错误地将 TME的两个空间不同的组织(如由其PMI图所看到的)映射到相同的标尺。
在为(一个或多个)被检体载玻片计算出PMI图170并识别出显著的相互作用或相互作用基序(motif)之后,有必要询问对这种显著关联有贡献的细胞。当PMI值接近+1时,将考虑显著的相互作用。PMI值接近1表示生物标志物模式的这种特定空间相互作用比在背景分布中观察到的更频繁。PMI值接近-1表示,当在网络中观察到一个模式时,发现另一个模式比从背景分布预期的频率低得多。 PMI值接近于零表示可以充分由背景分布描述的相互作用。
C.系统实现
图18是其中可以实现本文描述的H&E染色的组织图像分割方法的示例性系统数字病理学200的示意图。如图18中所看到的,系统200是构造为接收表示H&E染色的组织图像的数字图像数据并处理这些图像的计算设备。系统200可以是,例如但不限于,PC、膝上型计算机、平板计算机、智能手机或者被构造为执行本文描述的功能的任何其它合适的设备。系统200包括输入装置202(诸如键盘)、显示器204(诸如LCD)和处理装置206。用户能够使用输入装置 202向处理装置206提供输入,并且处理装置206向显示器204提供输出信号,以使得显示器204能够向用户显示信息(诸如分割的组织图像),如本文详细描述的。处理装置206包括处理器和存储器。处理器可以是,例如但不限于,与存储器接口的微处理器(μP)、微控制器或某种其它合适的处理设备。存储器可以是各种类型的内部和 /或外部存储介质(诸如但不限于RAM、ROM、(一种或多种) EPROM、(一种或多种)EEPROM、FLASH等)中的任何一种或多种,其提供存储寄存器(即,机器可读介质)用于数据存储,诸如以计算机的内部存储区域的形式,并且可以是易失性存储器或非易失性存储器。存储器中存储有可由处理器执行的多个例程,包括用于实现如本文描述的所公开的概念的例程。特别地,处理装置206包括量化部件208,被配置为用于基于表示接收到的H&E染色的组织图像的图像数据来量化如本文描述的H&E染色的组织图像的局部空间统计信息;识别部件210,被配置为用于基于如本文描述的局部空间统计信息来识别H&E染色的组织图像中的组织学结构;以及分割组织图像生成部件212,被配置为用于使用接收到的图像数据和识别出的组织学结构来生成分割的H&E染色的组织图像,然后该图像可以被提供给显示器204。量化部件208可以包括被配置为通过确定指示 H&E图像数据中相邻像素之间的统计关联的互信息数据来量化局部空间统计信息的一个或多个部件,并且识别部件210可以包括被配置为通过使用互信息数据和如本文描述的基于图的谱分割算法来识别组织学结构的一个或多个部件。可替代地,量化部件208可以包括用于从超像素形式的RGB数据中识别推定的细胞核位置、基于每个超像素与多个它的最近的邻元素之间的逐点距离构建超像素图形并且将超像素聚类为标记的段的一个或多个部件,并且识别部件210可以包括被配置为通过将标记的段合并成如本文描述的组织学结构来进行识别的一个或多个部件。
图19是其中可以实现本文描述的用于量化空间肿瘤异质性的方法的示例性数字病理学系统300的示意图。如图19中所看到的,系统300是被构造为如本文描述的那样接收表示荧光组织图像的数字图像数据并处理那些图像的计算设备。系统300可以是,例如但不限于, PC、膝上型计算机、平板计算机、智能手机或者被构造为执行本文描述的功能的任何其它合适的设备。系统300包括输入装置302(诸如键盘)、显示器304(诸如LCD)和处理装置306。用户能够使用输入装置302向处理装置106提供输入,并且处理装置306向显示器 304提供输出信号,以使得显示器304能够向用户显示信息(诸如空间依赖性图像和PMI图),如本文详细描述的。处理装置306包括处理器和存储器。处理器可以是,例如但不限于,与存储器接口的微处理器(μP)、微控制器或某种其它合适的处理设备。存储器可以是各种类型的内部和/或外部存储介质(诸如但不限于RAM、ROM、 (一种或多种)EPROM、(一种或多种)EEPROM、FLASH等) 中的任何一种或多种,其提供存储寄存器(即,机器可读介质)用于数据存储,诸如以计算机的内部存储区域的形式,并且可以是易失性存储器或非易失性存储器。存储器中存储有可由处理器执行的多个例程,包括用于实现如本文描述的所公开的概念的例程。特别地,处理装置306包括:细胞分割部件308,被配置为对表示多个荧光组织图像的图像数据执行细胞分割,以识别多个荧光组织图像的多个细胞;指派部件310,被配置为将细胞中的每一个指派给多个预定生物标志物强度模式中的一个;量化部件312,用于基于指派的预定生物标志物强度模式对针对该多个荧光组织图像的空间统计信息进行量化;以及视觉表示生成部件314,用于生成量化的空间统计信息的视觉表示,诸如细胞空间依赖性图像165或PMI图170。量化部件312可以包括一个或多个部件,被配置为通过构建空间网络来量化空间统计量以描述这多个荧光组织图像中的预定生物标志物强度的构造,并且通过针对每对预定生物标物强度模式计算逐点互信息来量化这多个荧光组织图像的异质性。
在权利要求中,放在括号之间的任何标号都不应当被解释为限制权利要求。词语“包括”或“包含”不排除权利要求中列出的元素或步骤以外的元素或步骤的存在。在列举若干装置的设备权利要求中,这些装置中的几个可以由一个且相同的硬件项来体现。元素之前的词语“一”或“一个”不排除多个这种元素的存在。在列举若干装置的任何设备权利要求中,这些装置中的几个可以由一个且相同的硬件项来体现。在相互不同的从属权利要求中陈述某些元素的事实并不指示这些元素不能组合使用。
虽然已经为了说明的目的基于目前被认为是最实用和优选的实施例对本发明进行了详细描述,但是应当理解的是,这种细节仅仅是为了那个目的,并且本发明不限于所公开的实施例,相反,本发明旨在覆盖在所附权利要求的精神和范围内的修改和等同布置。例如,应当理解的是,本发明预期,在可能的范围内,任何实施例的一个或多个特征可以与任何其它实施例的一个或多个特征组合。