CN110023994A

CN110023994A - 组织病理学图像分析

Info

Publication number: CN110023994A
Application number: CN201880004649.7A
Authority: CN
Inventors: 约翰·罗伯特·麦迪森; 赫华德·丹尼尔森
Original assignee: Luwan Group Co ltd; Mei Ao Technology Guangzhou Co ltd
Current assignee: Luwan Group Co ltd; Mei Ao Technology Guangzhou Co ltd
Priority date: 2017-10-02
Filing date: 2018-09-07
Publication date: 2019-07-16
Anticipated expiration: 2038-09-07
Also published as: EP3692497A1; CN110023994B; US20200226462A1; WO2019068415A1; US11232354B2; GB201716060D0; GB2567155A; EP3692497B1; GB2567155B

Abstract

公开了一种用于训练机器学习算法以执行组织病理学分析的装置和计算机实现方法。该方法包括：获得(210)已用第一标记物染色的第一组织学样本的多个第一显微图像；获得(212)已用不同的第二标记物染色的第二组织学样本的相应的多个第二显微图像。该方法还包括获得(220)为第二显微图像生成的相应的多个掩模图像，每个掩模图像识别由第二标记物在相应的第二显微图像中突出显示的感兴趣的组织学特征。该方法包括训练(240)机器学习算法以从第一显微图像中预测将由第二标记物在相同样本中突出显示的感兴趣的组织学特征。还公开了一种使用训练的机器学习算法进行组织病理学分析的装置和计算机实现方法。

Description

组织病理学图像分析

技术领域

本发明涉及组织学图像分析，尤其涉及使用机器学习算法来执行这种分析并且还涉及训练该机器学习算法以执行该分析。

背景技术

如本文所用，“组织学图像”是指显示有机组织的微观结构的图像。“感兴趣的组织学特征”是指该微观结构的特征。例如，该特征可能是为了诊断或治疗目的或为了科学研究而感兴趣的。感兴趣的组织学特征的一个例子是基质——组织的连接和支撑框架。对活检样本中基质的鉴定可用于诊断癌症和确定预后。感兴趣的组织学特征的另一个例子是染色质。通常，能够表征细胞核的方法具有药物发现、临床和其他医学应用。传统上，感兴趣的组织学特征是由组织病理学家——在解释这些图像方面受过训练的专业医学专家鉴定的。

在显微尺度下，细胞的许多令人感兴趣的特征不是自然可见的，因为它们是透明无色的。为了揭示这些特征，在显微镜下成像之前，通常用标记物染色样本。标记物包括一种或多种着色剂(染料或颜料)，其被设计成特异性结合细胞结构的特定组分，从而揭示感兴趣的组织学特征。

标记物是根据要考查的特征来选择的。因此，为了考查不同的特征，可能需要不同的标记物。最常用的染色系统被称为H&E(Haemotoxylin和Eosin)。H&E含有两种染料苏木素和伊红。伊红是一种酸性染料——带负电荷。它将碱性(或嗜酸性)结构染成红色或粉红色。苏木素可以被认为是碱性染料。它用于将酸性(或嗜碱性)结构染成紫蓝色。

细胞核中的DNA(异染色质和核仁)、核糖体和粗面内质网中的RNA都是酸性的，因此苏木素与它们结合并将它们染成紫色。一些细胞外物质(即软骨中的碳水化合物)也是嗜碱性的。细胞质中的大多数蛋白质都是碱性的，因此伊红与这些蛋白质结合并将它们染成粉红色。这包括肌细胞、细胞内膜和细胞外纤维中的细胞质丝。

不幸的是，许多感兴趣的特征对于组织病理学家来说仍然难以或不可能通过H&E染色来观察或准确量化。出于这个原因，已经开发了其他标记物系统。

一类特别重要的标记物涉及免疫组织化学(IHC)领域。IHC提供了通过特异性结合生物组织中感兴趣的抗原的抗体来选择性地使组织切片细胞中的抗原(例如，蛋白质)成像。然而，IHC并非没有缺点。IHC技术可能是昂贵的、耗时的和/或难以实施的。

发明内容

本发明由权利要求限定。根据本发明的第一方面，本文提供了一种训练机器学习算法以执行组织病理学图像分析的计算机实现方法，该方法包括：

由计算机获得已用第一标记物染色的第一组织样本的多个第一显微图像；

由计算机获得已用不同于第一标记物的第二标记物染色的第二组织学样本的相应的多个第二显微图像，第二组织学样本中的每一个对应于第一组织学样本中相应的一个；

由计算机获得为第二显微图像生成的相应的多个掩模图像，每个掩模图像识别由第二标记物在相应的第二显微图像中突出显示的感兴趣的组织学特征；

对于每个第一显微图像和相应的第二显微图像和掩模图像：

由计算机获得第一显微图像和第二显微图像之间映射的变换，和

由计算机使用变换对准第一显微图像和掩模图像；以及

由计算机用多个已对准的第一显微图像和掩模图像训练机器学习算法，

从而训练机器学习算法以从用第一标记物染色的另一组织学样本的另一第一显微图像预测用第二标记物在所述另一组织学样本中将会突出显示的感兴趣的组织学特征。

令人惊讶的是，本发明人发现，通过仅使用第一标记物就可以获得通常需要第二标记物才能获得的结果。尽管感兴趣的组织学特征可能仅在样本被第二标记物染色时对人类用户才可见，但是可以训练机器学习算法以在用第一标记物染色的样本的图像中识别与相同的感兴趣的组织学特征相对应的特质。基本上，识别特征所需的视觉信息可能存在于用第一标记物染色的样本的图像中。但是人类的视觉系统可能不太适合或不够灵敏，无法检测到它。即使人类用户可能在用第一标记物染色的样本中看到感兴趣的特征，但是人类用户可能发现在实践中难以或不可能在大量此类图像中详尽无遗地识别该特征的所有实例。手动注释许多非常大的图像来突出显示感兴趣的特征会非常耗时和费力。此外，通过手动注释是很难实现一致性(在由同一用户注释的不同图像之间或在用户之间)的。因此，当依赖于人工审查这些样本时，很难获得任何可重复的客观测量值。

因此，经过训练的机器学习算法在这项任务中可以出人意料地比人类专家表现得更好。本发明的实施例可以允许在用单个标记物染色的单个样本上模拟不同类型的分析。过去，这会需要用到不同标记物染色的不同样本。此外，实施例可以允许使用比第二标记物更快、更容易或更便宜的第一标记物来进行分析，并且还能获得与实际使用第二标记物获得的结果相当的模拟结果。

本方法可以训练机器学习算法以从用第一标记物染色的另一组织学样本的另一第一显微图像预测为第二显微图像而生成的掩模图像，该第二图像是假设该组织学样本被第二标记物染色后的显微图像。

第一显微图像可以提供用于训练神经网络的训练输入。掩模图像可以提供与那些训练输入相关联的期望输出。

每个显微图像优选地是由一个、两个或三个颜色通道组成的灰度或彩色图像。最优选地，它是由三个颜色通道组成的彩色图像。因此，这里为每个像素提供了三个取样。该取样是三维颜色空间中的坐标。适用的三维颜色空间包括但不限于RGB、HSV、YCbCr和YUV。

第二组织学样本可以以各种方式“对应”第一组织学样本。在一些实施方案中，第一样本和第二样本可以是去掉染色然后用不同标记物重新染色的相同样本。在其他实施方案中，第一样本和第二样本可以是生物组织的相邻部分(切片)。使用相邻部分可以避免去污色和再染色(在某些情况下可能是困难的或不可能的)的必要。然而，使用相同的部分可能意味着第一图像和第二图像之间的变换不太复杂、更准确和/或更容易确定。

每个掩模图像可以包括二值图像或多级图像。例如，多级图像可以提供感兴趣的组织学特征的标量指示——从而提供突出显示感兴趣的组织学特征出现的强度或概率高的区域的热图。

在第一显微图像和第二显微图像之间映射的变换优选为几何变换，例如仿射变换。

该方法可以进一步包括由计算机获得每个第一显微图像中的感兴趣区域，该方法包括用感兴趣区域训练机器学习算法并且从训练中排除感兴趣区域之外的任何区域。

在一些实施例中，感兴趣区域可以由计算机生成——例如，使用图像分割算法。在一些实施例中，感兴趣区域可以由用户输入，例如组织病理学家。在一些实施例中，感兴趣区域可以半自动地生成，由用户输入与计算机图像分割相结合。

该方法可以进一步包括由计算机将每个已对准的第一显微图像和掩模图像分别划分为第一区块和掩模区块，该方法包括用第一区块和掩模区块训练机器学习算法。

将训练图像(和掩模图像)划分为区块既增加了可用的训练数据量，又可以通过控制要分析的输入信息量来控制机器学习算法的大小和/或复杂性。基本上，该机器学习算法正在被训练为：根据该像素和区块中的其它像素的内容，将区块中的每个像素分类为显示感兴趣的组织学特征，或不显示感兴趣的组织学特征。

获得相应的多个掩模图像可选地包括由计算机从相应的第二显微图像生成每个掩模图像。

例如，计算机可以通过将第二显微图像自动分割成具有感兴趣的组织学特征的像素和不具有感兴趣的组织学特征的像素来生成掩模图像。

这种自动分割可以包括将一个或多个阈值应用于图像的一个或多个颜色通道。可选地或另外地，它可以包括诸如形态学处理之类的操作，和/或消除小于预设的尺寸阈值的区域。

在一些实施例中，可以手动或半自动地生成掩模图像。

优选地，首先以粗尺度或分辨率，随后以精细尺度或分辨率，执行以下步骤中的一个或两个：(a)获得变换；(b)对准第一显微图像和掩模图像。

获得变换可以包括获得适用于整个图像的第一大尺度变换。它还可以包括获得应用于图像的各单独区块的一个或多个第二小尺度变换。这种多尺度或多分辨率的方法可以提供更好和/或更有效的对准。

获得变换可选地包括从第一显微图像和第二显微图像提取感兴趣的特征并在感兴趣的特征之间建立映射。

特别合适这种变换的技术是尺度不变特征变换(SIFT)。

第一标记物可包括苏木素和伊红。

苏木素和伊红(H&E)染料相对便宜并且在本领域中广泛用于染色组织学样本。能够使用H&E染色样本的图像来进行组织病理学分析是特别有优势的，以前只能使用其他更昂贵或更耗时的标记技术来进行组织病理学分析。可以根据本发明的实施例来进行这种分析。

第二标记物可包括免疫组织化学标记物。

免疫组织化学标记物可包括抗体标记物。一些特别感兴趣的免疫组织化学标记物是下面详细描述中列出的那些，包括：波形蛋白、PD-L1和Ki67。

在一些实施例中，第一标记物可包括第一免疫组织化学标记物，第二标记物可包括第二免疫组织化学标记物。以这种方式，通常由某一种IHC标记物表达较好的特征，可以使用不同的IHC标记物来识别了。同样地，该方法还能使原先需要用多个IHC标记物进行的分析能够使用单个IHC标记物实现。

第二标记物可包括荧光标记物。

机器学习算法优选地包括神经网络。

特别适用于本发明方法的一种神经网络结构是U-net卷积网络。

该方法可以进一步包括训练机器学习算法以从用第一标记物染色的组织学样本的第一显微图像中预测用不同于第一和第二标记物的第三标记物在该组织学样本中将会突出显示的又一感兴趣的组织学特征。

这可以允许机器学习算法从用第一标记物染色的样本的第一显微图像中提取更多有用信息。例如，可以训练机器学习算法以识别感兴趣的第一组织学特征和感兴趣的第二组织学特征。例如，这将会提供两个感兴趣特征之间的重叠区域的自动分析。

训练可以包括重复相同的用于训练算法的步骤顺序，以识别感兴趣的第一组织学特征。训练数据将包括分别用第三标记物染色的组织学样本的第三显微图像和用于那些第三图像的又一些掩模图像。

根据本发明的第二方面，本文提供了一种用于组织病理学图像分析的计算机实现方法，其使用根据如上概述的方法训练的机器学习算法，该分析方法包括：

由计算机获得已用第一标记物染色的组织学样本的第一显微图像；

由计算机提供经过训练的机器学习算法；

利用机器学习算法，由计算机处理第一显微图像，以分析第一显微图像并生成掩模图像，

由此，掩模图像识别可使用第二标记物检测的感兴趣的组织学特征。

由机器学习算法生成的掩模图像可以是二值掩模，其以纯二进制方式指示感兴趣的组织学特征的存在和不存在，或者它可以是多级掩模，其以标量或概率方式指示感兴趣的组织学特征的存在和不存在。二值掩模图像可以通过阈值处理从多级掩模图像中生成。

机器学习算法可选地已被训练为从第一显微图像预测可使用第三标记物检测的又一感兴趣的组织学特征，其中，在处理第一显微图像时，计算机生成识别又一感兴趣的组织学特征的又一掩模图像。

机器学习算法可以被训练为用以预测用一个IHC标记物可检测的一个感兴趣的组织学特征，并预测用另一个IHC标记物可检测的另一个感兴趣的组织学特征。然后可以组合这些结果。

例如，可以使用CK8标记物精确地选择上皮区域，然后使用Ki67标记物突出显示上皮区域内的增殖细胞。根据本发明的一个实施方案，该分析可以使用单个样品的H&E染色进行。

该方法还可以包括由计算机进行掩模图像和/或又一掩模图像的自动分析。

以这种方式，掩模(和/或又一掩模)可以用于后续分析。例如，可以计算基于对象的度量，诸如纹理、强度、面积和其他形态特征。可选地或另外地，可以计算基于场的度量，诸如覆盖的总面积或者从作为整体的样本结构中导出的其他度量。

掩模和又一掩模可以单独使用或组合使用——例如，自动分析可以包括计算掩模和又一掩模之间的重叠区域(交叉部分)。

因此，本发明的实施例可以随后允许根据现有的针对对象和图像框的IHC分析或基于载玻片的分析来量化结果。

还公开了一种计算机程序产品，包括非暂时性计算机可读介质，其上包含计算机程序，该计算机程序包括计算机程序代码，该计算机程序代码被配置为当计算机程序在计算机上运行时，控制计算机执行如上概述的方法的所有步骤。

还公开了一种组织病理学图像分析装置，包括：

计算机可读存储介质；

存储器；

一个或多个接口；和

处理器，被配置为执行如上概述的方法。

附图说明

现在将参考附图以示例的方式描述本发明，其中：

图1是示意性地示出可以在其上运行本发明实施例的示例性计算机系统的框图；

图2是根据本发明第一方面的实施例来训练机器学习算法的方法的流程图；

图3是根据本发明第二方面的实施例进行的组织病理学图像分析方法的流程图；

图4是显示用H&E染色剂染色的生物组织样本的示例性第一显微图像；

图5是对应于第一显微图像的示例性第二显微图像，示出了用IHC染色剂波形蛋白染色的生物组织样本；

图6示出了对感兴趣区域手工注释的图4的第一显微图像；

图7示出了图4的第一显微图像的一部分的放大细节；

图8示出了图5的第二显微图像的相应部分的放大细节；

图9示出了确定在图7的第一显微图像和图8的第二显微图像之间映射的几何变换的一种方式；

图10示出了将几何变换应用于图8的第二显微图像的结果；

图11示出了为图10的对准的第二显微图像而获得的掩模图像；

图12示出了使用训练图像作为输入图像，使用根据本发明第二方面的实施例的图像分析方法获得的结果；

图13示出了使用未看见过的图像作为输入图像得到的结果；和

图14示出了使用根据本发明第二方面的另一实施例的图像分析方法获得的结果的散点图。

具体实施方式

附图中的图1示意性地示出了可以在其上运行本发明实施例的示例性计算机系统100。该示例性计算机系统100包括计算机可读存储介质102、存储器104、处理器106和一个或多个接口108，它们都通过一个或多个通信总线110联接在一起。该示例性计算机系统100可采取传统计算机系统的形式，例如，台式计算机、个人计算机、笔记本电脑、平板电脑、智能电话、智能手表、虚拟现实耳机、服务器，大型计算机等等。在一些实施方式中，它可以嵌入显微镜设备中，例如能够进行整个载玻片成像的虚拟载玻片显微镜。

计算机可读存储介质102和/或存储器104可以存储一个或多个计算机程序(或软件或代码)和/或数据。存储在计算机可读存储介质102中的计算机程序可以包括用于供处理器106执行以使计算机系统100运行的操作系统。存储在计算机可读存储介质102和/或存储器104中的计算机程序可以包括如本发明实施例所述的计算机程序或当由处理器106执行计算机程序时，能使处理器106执行如本发明实施例所述方法的计算机程序。

处理器106可以是适合于执行一个或多个计算机可读程序指令的任何数据处理单元，所述指令诸如属于存储在计算机可读存储介质102和/或存储器104中的计算机程序的指令。作为执行一个或多个计算机可读程序指令的一部分，处理器106可以将数据存储到计算机可读存储介质102和/或存储器104中，和/或从计算机可读存储介质102和/或存储器104中读取数据。处理器106可以包括单个数据处理单元或多个数据处理单元，它们以并行或合作的方式运行。在一个特别优选的实施例中，处理器106可以包括一个或多个图形处理单元(GPU)。GPU非常适合用于包含训练和使用诸如本文所公开的那些机器学习算法的各种计算。作为一个或多个计算机可读程序指令的执行中的一部分，处理器106可以将数据存储到计算机可读存储介质102和/或存储器104中，和/或从计算机可读存储介质102和/或存储器104中读取数据。

一个或多个接口108可以包括网络接口，该网络接口使计算机系统100能够通过网络与其他计算机系统通信。所述网络可以是适合于将数据从一个计算机系统传输或通信到另一个计算机系统的任何类型的网络。例如，所述网络可以包括局域网、广域网、城域网、互联网、无线通信网络等中的一个或多个。计算机系统100可以通过任何合适的通信机制/协议通过网络与其他计算机系统通信。处理器106可以经由一个或多个通信总线110与网络接口通信，以使网络接口通过网络向另一个计算机系统发送数据和/或命令。类似地，一个或多个通信总线110使处理器106能够对由计算机系统100从网络上的其他计算机系统经由网络接口接收的数据和/或命令进行操作。

接口108可以可选地或另外地包括用户输入接口和/或用户输出接口。所述用户输入接口可以被设置为从系统100的用户或操作者接收输入。所述用户可以经由一个或多个用户输入设备(未示出)提供该输入，诸如鼠标(或其他指示设备、轨迹球或键盘。所述用户输出接口可以被设置为在显示器(或监视器或屏幕)(未示出)上向系统100的用户或操作者提供图形/视觉输出。处理器106可以指示用户输出接口以形成图像/视频信号，该信号使显示器显示所需的图形输出。所述显示器可以是触敏的，使用户能够通过触摸或按压显示器来提供输入。

根据本发明的实施例，接口108可以可选地或另外地包括与数字显微镜或其他显微镜系统相接的接口。例如，接口108可以包括能够进行整体载玻片成像(WSI)的虚拟显微设备的接口。在WSI中，所述虚拟载玻片是通过载玻片扫描仪高分辨率扫描玻璃载玻片而生成的。所述扫描通常是分段进行的，得到的图像被拼接在一起，并以该扫描仪所能达到的最高放大倍率形成一幅非常大的图像。这些图像的尺寸可能为100,000×200,000像素——换句话说，它们可能包含数十亿个像素。根据一些实施例，计算机系统100可以通过接口108控制显微镜设备以扫描包含样本的载玻片。因此，计算机系统100可以从显微镜装置获得通过接口108接收的组织学样本的显微图像。

应当理解，图1中示出并在上文中描述的计算机系统100的架构仅仅是示例性的，并且可以用通过使用可选组件或使用更多组件(或更少)而具有不同架构的系统来替代。

图2是示出根据本发明第一方面的实施例来训练机器学习算法以执行组织病理学图像分析的方法的流程图。该方法使用一组训练图像来训练算法以检测感兴趣的组织学特征。特别地，它将算法训练成用以在用一个标记物染色的图像中检测通常在用另一个不同标记物染色的图像中检测到(并且通常更容易被人类专家检测)的组织学特征。

在步骤210中，计算机100获得已用第一标记染物色的第一组织样本的多个第一彩色显微图像。为此，计算机控制虚拟显微镜(VM)扫描包含样本的载玻片。一组合适的虚拟显微镜是由日本的Hamamatsu Photonics公司以产品名“NanoZoomer”销售的。所述虚拟显微镜包括显微镜光学元件、用于安装待检查样本的平台、电荷耦合器件(CCD)阵列或用于接收样本图像的其他电子成像装置、用于处理图像的计算机和用于显示图像和其他数据的视觉显示器单位(VDU)。通过虚拟显微镜扫描包含生物组织切片的制备好的载玻片，从而产生相应的第一彩色显微图像。对于图像上的每个点(像素)，所述CCD阵列包括红色、绿色和蓝色波长检测器，分别提供红色、绿色和蓝色信号。因此，该虚拟显微镜产生由三个颜色通道组成的彩色图像。在本实施例中，当在标准明视场显微镜上使用时，该虚拟显微镜提供的最大放大倍率对应于大约40倍物镜光学显微镜镜头。

在本实施例中，所述第一标记物包括H&E染色剂。图4是第一彩色显微图像的示例。该图像显示已经用H&E染色剂染色的第一生物组织样本。该染色剂突出显示了生物样本中细胞物质的结构。

在步骤212中，计算机100获得已用第二种不同标记物染色的第二组织样本的多个第二彩色显微图像。每一个第二组织学样本对应于其相应的一个第一组织学样本。因此，每一个第二彩色显微图像对应于与其相应的一个第一彩色显微图像。

可以以各种方式实现样本之间的对应。在本实施例中，每个第一样本和相应的第二样本是来自同一块组织的相邻切片(连续切片)。因此，尽管可能存在细微差别，但两个图像中显示的结构之间存在强相关性。作为替代方案，相同的样本可以同时被用作第一样本和第二样本。然而，这通常需要对样本进行去染色并用另一种标记物重新染色。在某些情况下和/或对于第一和第二标记物的某些组合，这可能是困难的或不可能的。

在本实施例中，所述第二标记物包括波形蛋白，一种IHC染色剂。这种染色剂把基质染成深棕色。图5显示了已用波形蛋白染色的第二生物组织样本的第二彩色显微图像的实施例。如上所述，第二组织样本对应于图4中的第一组织样本，因为它是相邻的微观切片。可以看出，两个切片的整体结构非常相似；然而，使用不同的标记突出显示了这种结构的不同方面。

可选地，在步骤250中，通过确定感兴趣区域(ROI)，可以将分析限制在图像的特定部分。通常，可以手动、自动或半自动地选择ROI。在本实施例中，计算机100通过请求用户输入定义来确定感兴趣区域。用户可以通过用诸如边界框的闭合轮廓注释第一彩色图像来完成此操作。然而优选地，用户可以徒手绘制闭合轮廓来选择ROI。其实施例在图6中示出，其中病理学家已经在图4的第一彩色图像上手动识别出了感兴趣区域。在该特定情况下，该ROI对应于已由病理学家识别出的肿瘤。由病理学家选择并输入到计算机的闭合轮廓显示为黑线。

图7示出了图4的第一彩色显微图像中ROI的一部分的放大细节。同时，图8示出了来自图5的第二彩色显微图像的相应放大细节。

该方法的目的是训练机器学习算法以模拟如何从第二彩色显微图像提取感兴趣的组织学特征。为了做到这一点，需要训练输出——换句话说，所述机器学习算法需要第二彩色显微图像的期望分析结果的例子。这些期望的分析结果是突出显示相应的第二颜色显微图像中感兴趣的组织学特征的掩模图像。

用于训练的掩模图像可以以各种不同的方式获得。在一些情况下，手动生成的“基础事实”可能是可用的——例如，如果第二彩色图像已经由病理学家手动注释以识别感兴趣的特征。然而，在许多情况下，手动注释足够数量的图像用于训练机器学习算法太耗时了。为了解决这个困难，计算机100可以通过从第二彩色显微图像中自动生成掩模图像来获得。

在本实施例中，计算机100在步骤220中自动生成掩模图像。每个第二颜色显微图像(显示波形蛋白染色的样本)被转换为色调饱和度值(HSV)颜色空间，并且通过在这个空间中应用阈值来提取掩模。特别地，如果像素具有0.8至0.0和0.0至0.2(即，在0.0左右±0.2的范围内)范围内的Hue(H)值和小于0.9的Value(V)值，则掩模中包括这些像素。这种方法将选择深棕色像素，其中波形蛋白染色剂突出显示了基质。然后消除掩模中的小区域和孔。特别是，如果其面积小于200像素，则该区域将被移除，或该孔将被填充。

需要注意的是，本实施例假设掩模图像是表示基质存在或不存在的二值图像。然而，在其他实施例中，掩模图像可以是多级掩模。对于该掩模的每个像素，这样的多级掩模可以指示像素表示基质的概率或置信度。

为了准备用于训练机器学习算法的图像，它们应该被对准。当样本放在载玻片上时，总会出现几何位置差异。并且使用不同的标记物将突出或强调组织结构的不同方面。另外，在本实施例中，样本中存在物理差异，因为它们是相邻的连续部分而不是相同的样本。由于所有这些原因，有必要在每个第一彩色显微图像中的相应结构与其各自的第二彩色显微图像之间建立映射。

为此，计算机100在步骤230中获得在第一彩色显微图像和第二彩色显微图像之间进行映射的几何变换。在本实施例中，这是使用尺度不变特征变换(SIFT)来完成的。已经发现该技术工作良好，但是本领域技术人员将理解，用于图像配准和对准的其他技术也是可以适用的。这些技术可以包括其他尺度不变变换，以及其他对准方法，例如GB 2434651中描述的那些。

需要注意的是，SIFT是完全自动化的方法，但是在一些实施例中，可以半自动地和/或基于用户输入来确定几何变换。例如，病理学家可以手动选择两个图像中的多个相应的结构特征，并且计算机100可以从这些手动选择的特征中计算出几何变换。

在步骤232中，计算机100应用在步骤230中确定的几何变换来对准图像。在本实施例中，所述几何变换是仿射变换。然而，如本领域技术人员将理解的，可以使用其他类型的几何变换来代替仿射变换。

最终，目标是将每个第一颜色显微图像与其相应的掩模图像对准，因为这些配对的图像将用于训练机器学习算法。然而，通过将几何变换应用于一个或多个不同的图像，该目标可以以多种不同的方式实现。通常，可以将变换应用于第一彩色显微图像以使其与掩模图像对准，或者可以将其应用于掩模图像以使其与第一彩色显微图像对准。另一种可选方案是在从对准的第二彩色显微图像中提取掩模图像之前，将变换应用于第二彩色显微图像以使其与第一彩色显微图像对准。根据使用场景，不同的方法可能有不同的好处。

图9示出了SIFT算法在图7和8的详细的第一和第二彩色显微图像中的应用。每个白框表示已由SIFT过程识别并与另一图像中的对应特征点匹配的特征点。

图10示出了将确定的几何变换应用于图8的第二彩色显微图像的结果。

图11是从图10的对准的第二彩色显微图像中提取的示例性掩模图像。白色像素示出了在第二彩色显微图像中检测到基质的位置(用IHC标记物，波形蛋白染成了棕色)。使用上文讨论的启发式阈值处理方法自动提取掩模。

由于虚拟显微镜图像的极高分辨率，并且由于第一和第二彩色显微图像之间的映射的局部变化，使用多尺度或多分辨率方法确定几何变换并对准图像可能是有利的。

在图2所示的实施例中采用这种方法。在步骤230中，以低分辨率和大尺度确定几何变换。在步骤232中，在全局基础上应用该几何变换。在对准之后，将各个图像划分为更小的区块来训练机器学习算法。在步骤262中，计算机100将第一彩色显微图像划分为区块；在步骤264中，计算机100将第二彩色显微图像划分为区块；并且在步骤268中，计算机100将掩模图像划分为区块。对于每个区块都重复进行几何变换的确定和图像的对准。在步骤270中，计算机100针对每个区块以高分辨率和小尺度确定几何变换。在本实施例中，这再次使用SIFT来完成。在步骤272中，计算机100对每个区块应用在步骤270中确定的相应的几何变换。与步骤232类似，在本实施例中，所述几何变换是仿射变换。

已经发现上述对准策略可以改善区块的对准并且可以允许几何变换中的局部变化。

在步骤240中，对准的区块用于训练机器学习算法。在本实施例中，各个区块的尺寸为512×512像素。优选的机器学习算法是神经网络。特别地，在本实施例中，使用U-Net卷积网络。Ronneberger等人(O.Ronneberger，P.Fischer.和T.Brox，“U-Net：ConvolutionalNetworks for Biomedical Image Segmentation”Medical Image Computing andComputer-Assisted Intervention(MICCAI)，LNCS，第9351卷，第234-241页，Springer，2015)更详细地描述了这种网络的设计和训练，其中二元交叉熵用于损失函数，(例如，均方误差将更适合于掩模的标量值)。通过阅读前面的描述，本领域技术人员将理解，其他神经网络拓扑也可能是合适的。

为了增加训练数据量，应用了训练图像的随机水平和垂直翻转。增强也被应于HSV通道。特别地，通过将实际图像的HSV通道乘以随机缩放因子来生成额外的训练图像。通过防止它专注于(真实)训练图像中的确切颜色，这有助于提高机器学习算法的泛化能力。换句话说，将这种额外的变化引入训练数据集可以帮助提高机器学习算法的鲁棒性。

训练产生了神经网络的一组权重245。所述权重通过具体化输入和输出之间的关系来定义神经网络的操作。权重245存储在计算机可读存储介质102中，以便稍后用于分析组织学图像。尽管神经网络由其权重定义，但其他机器学习算法可以由其他参数定义。在那种情况下，那些其他学习参数将被存储在计算机可读存储介质中以代替神经网络权重。

经过训练的机器学习算法现在可用于分析组织学图像。图3示出了根据本发明第二方面的实施例进行的用于组织病理学图像分析的方法。

在步骤210a中，计算机100获得已用第一标记物染色的组织学样本的第一彩色显微图像。该步骤基本上类似于图2的步骤210，其中它包括计算机控制虚拟显微镜来扫描用H&E染色的样本的图像。

在步骤250a中，计算机100获得第一彩色显微图像中的感兴趣区域。该步骤基本上类似于图2的方法中的步骤250，其中感兴趣的区域由专业人类用户手动选择。

在步骤242中，计算机使用机器学习算法处理第一彩色显微图像，从而分析图像并生成掩模图像。在本实施例中，这包括从计算机可读存储介质102中检索已训练的神经网络权重245并将第一彩色显微图像应用于具有那些权重的神经网络。作为响应，神经网络输出识别感兴趣的组织学特征(此处为基质)的掩模图像244。

需要注意的是，在如本发明第二方面所述的方法中，没有用波形蛋白染色的相应样本的第二彩色显微图像。机器学习算法能够从第一彩色显微图像估计或预测图像的哪些部分对应于感兴趣的组织学特征(此处为基质)。它已经学会通过用识别训练图像中感兴趣的组织学特征的掩模图像训练来推断这一点。

图12显示了由图3的方法产生的结果的第一个例子。左侧是原始的第一个彩色显微图像，显示了用H&E染色的样本。换句话说，左侧显示输入图像。在中间，输入图像被从相应的IHC图像(用波形蛋白染色的相应样本的第二彩色显微图像)获得的掩模图像所覆盖。换句话说，中间图像显示了期望的结果。黑线表示基质区域和非基质区域之间的界线。右侧显示使用已训练的神经网络处理的实际结果。同样，这被呈现为覆盖在输入图像上的掩模图像。再次，黑线表示基质和非基质之间的界线。中间图像与右侧图像之间的相似性证明了该方法的有效性。

在图12的示例中，训练图像中的一幅被用作为输入图像。尽管这证实了神经网络已经被正确训练，但它并不一定证明该神经网络能够推广到其他未见过的例子。

图13显示了一个这种未见到过的例子的结果。同样，输入图像在左侧，期望的掩模图像在中间，算法的实际输出在右侧。在这个案例中，输入图像不是训练数据集的一部分，因此神经网络不知道中间的掩模图像。然而，可以看出，显示在右侧图像上的神经网络的输出与期望的掩模非常匹配。这证实了该方法的推广能力。

图14A和14B以散点图示出了本发明另一个实施例获得的结果。在该实施例中，IHC标记物是Ki67。绘制在图表上的每个数据点代表一名患者。横轴上绘制的变量是通过本发明的方法检测的掩模中的像素数。纵轴是用Ki67染色的常规方法得到的像素数。该图示出了根据本发明检测的像素数与使用标准方法检测的像素数之间的强相关性。一个完美的结果将会包括所有的数据点呈直线排列。需要注意的是，线的斜率并不重要，并且受到用于生成每个二值掩模的阈值的影响。掩模中标记的绝对像素数将取决于此阈值。但重要的是相对相关性，与所选的精确阈值无关。图14A显示了在训练数据集上获得的结果；图14B显示了在测试数据集上获得的结果。

通常，第一标记物、第二标记物或两者都可包含至少一种IHC标记物。本文中的相关IHC标记物的(非详尽的)列表如下：Plk3、AR*、Klk4、PSA、Flotillin1、Flotillin2、PSMA、b-catenin、PCA3、PTEN*、Stamp1、Stamp2、sxBP1、B7H3、Adrb2、Vh1、Nkx1、PTEN*、MxI1、Foxo1A、Cdh1/E-cad、p53、Atbf1、Mcm7、EZH2、TcEB1、Eif353、c-myc、AR*、ERG、TMPRSS2、Mad1、Mad2、Bub1、Bubr1、Bub3、Cenp-E、细胞周期蛋白B、Securin、APC、AuroraB、Clasp1、Eb1、Eb1(MAPRE2)、FoxM1、Kif2FC(MCAK)、Prpf4b、RANBP1、Rb1、SGOL1、SGOL2、AuroraA、CENPH、Axin 2、KIF11、ID1、MDM2、Plk1、Ki67、Gata2、Foxa1、CK5/14、CK8、CK18、CD44、p63、Bcl2、Cnx43、PKM2、ER、PR、HER2、PD-L1。它们中的每一个作为标记物各自的益处和用途对于本领域技术人员来说是熟悉的，这里不需要详细讨论。

虽然已经在附图和前面的描述中详细图示和描述了本发明，但是这样的图示和描述应被认为是说明性或示例性的而非限制性的；本发明不限于所公开的实施例。

在一些实施例中，训练机器学习算法的方法可以以迭代方式实现。计算机100可以一次获得单个第一彩色显微图像和单个对应的第二彩色显微图像。计算机可以处理这对图像，然后可以检查是否已经获得足够数量的图像来训练机器学习算法。如果不是，则计算机可以重复该过程以获得另一对图像。重复该过程直到机器学习算法被完全训练，此时迭代停止。

此外，在每对图像内，可以以迭代方式处理各个区块。也就是说，计算机可以从第一彩色显微图像获得单个区块，并从第二彩色显微图像获得相应的单个区块。计算机可以处理这对区块，然后可以检查是否已经处理了足够数量的区块(或者是否已经处理了当前图像对的所有区块)。如果没有，计算机可以对下一对区块重复该过程。重复这一过程，直到已经处理了足够数量的区块或者处理了当前图像对的所有区块。

像这样的迭代执行可能适合于所述训练方法的流水线型执行。例如，虚拟显微镜可以开始扫描下一个显微图像，同时计算机正在处理先前的显微图像。

当然，本领域技术人员将理解，控制虚拟显微镜来扫描载玻片不是计算机100获得彩色显微图像的唯一方式。已经可以从其他来源获得合适图像的库。然而，应注意，根据本发明实施例的训练方法要求存在两组相应的载玻片图像——一组用第一标记物染色样本，第二组用第二标记物染色样本。

本文已经通过使用H&E作为第一标记物和波形蛋白作为第二标记物的实施例描述了本发明，并且实际上这是一个特别有益的应用例。然而，其他IHC标记物可用作第二标记物。实例包括但不限于PD-L1，其可用于检测T细胞浸润；和Ki67，其可用于检测细胞增殖。

在所述实施例中，标记物包括在光学显微镜下可见的着色剂。然而，相同的原理同样适用于其他标记物，例如荧光染料。

相应地，在上述实施例中，第一和第二显微图像是由三个颜色通道组成的彩色显微图像。在其他实施例中，例如那些使用荧光染料的实施例中，显微图像中的任意一个或全部两个可具有少于三个颜色通道。特别地，显微图像可以是由单通道或双通道组成的灰度图像。

尽管上面参考图2以特定顺序描述了训练方法的步骤，但是通常不需要按此顺序执行步骤。例如，确定几何变换和对准图像的步骤可以在获得掩模的步骤之前或之后执行。在一些实施例中，在最终从第二显微图像的已对准区块生成掩模图像之前，可以以大尺度(步骤232)和小尺度(步骤272)对准第一和第二显微图像。

在上述实施例中，第一显微图像和第二显微图像之间的变换映射是几何变换。但是，这不是必然的。在一些实施例中，可以使用一个或多个非几何变换代替几何变换或者除了几何变换之外还使用一个或多个非几何变换。这种非几何变换可用于线性地或非线性地变形或扭曲一个显微图像以使其与另一个显微图像对准。

通过研究附图、公开内容和所附权利要求，本领域技术人员在实践本文所要求保护的发明时可以理解和实现所公开实施例的其他变型。在权利要求中，词语“包括”不排除其他元件或步骤，并且不定冠词“一”或“一个”不排除多个。在相互不同的从属权利要求中陈述某些措施的仅有事实并不表示这些措施的组合不能用于获益。权利要求中的任何附图标记不应被解释为限制范围。

Claims

1.一种训练机器学习算法以执行组织病理学图像分析的计算机实现方法，所述方法包括：

由计算机获得(210)已用第一标记物染色的第一组织样本的多个第一显微图像；

由计算机获得(212)已用不同于所述第一标记物的第二标记物染色的第二组织学样本的相应的多个第二显微图像，所述第二组织学样本中的每一个对应于所述第一组织学样本中相应的一个；

由计算机获得(220)为所述第二显微图像生成的相应的多个掩模图像，每个所述掩模图像识别由所述第二标记物在相应的所述第二显微图像中突出显示的感兴趣的组织学特征；

对于每个所述第一显微图像和相应的所述第二显微图像和掩模图像：

由计算机获得(230,270)所述第一显微图像和所述第二显微图像之间映射的变换，和

由计算机使用所述变换对准(232,272)所述第一显微图像和所述掩模图像；以及

由计算机用多个已对准的所述第一显微图像和所述掩模图像训练(240)所述机器学习算法，

从而训练所述机器学习算法以从用所述第一标记物染色的另一组织学样本的另一第一显微图像预测用所述第二标记物在所述另一组织学样本中将会突出显示的感兴趣的组织学特征。

2.如权利要求1所述的方法，还包括由计算机获得(250)每个所述第一显微图像中的感兴趣区域，

所述方法包括用所述感兴趣区域训练所述机器学习算法并且从训练中排除所述感兴趣区域之外的任何区域。

3.如权利要求1或2所述的方法，还包括由计算机将每个所述已对准的所述第一显微图像和所述掩模图像分别划分(262,268)为第一区块和掩模区块，

所述方法包括用所述第一区块和所述掩模区块训练(240)所述机器学习算法(245)。

4.如前述权利要求中任一项所述的方法，其中，获得所述相应的多个掩模图像包括由计算机从所述相应的第二显微图像生成(220)每个掩模图像。

5.如前述权利要求中任一项所述的方法，其中，首先以粗尺度或分辨率，随后以精细尺度或分辨率，执行以下步骤中的一个或两个：

(a)获得(230,270)所述变换；

(b)对准(232,272)所述第一显微图像和所述掩模图像。

6.如前述权利要求中任一项所述的方法，其中，获得(230,270)所述变换包括从所述第一显微图像和所述第二显微图像提取感兴趣的特征并在所述感兴趣的特征之间建立映射。

7.如前述权利要求中任一项所述的方法，其中，所述第一标记物包括苏木素和伊红。

8.如前述权利要求中任一项所述的方法，其中，所述第二标记物包括免疫组织化学标记物。

9.如权利要求1至6中任一项所述的方法，其中，所述第一标记物包括第一免疫组织化学标记物，所述第二标记物包括第二免疫组织化学标记物。

10.如前述权利要求中任一项所述的方法，其中，所述第二标记物包括荧光标记物。

11.如前述权利要求中任一项所述的方法，其中，所述机器学习算法包括神经网络。

12.如前述权利要求中任一项所述的方法，还包括训练所述机器学习算法以从用所述第一标记物染色的组织学样本的第一显微图像中预测用不同于所述第一和第二标记物的第三标记物在所述组织学样本中将会突出显示的又一感兴趣的组织学特征。

13.一种用于组织病理学图像分析的计算机实现方法，其使用根据权利要求1至9中任一项所述的方法训练的机器学习算法，所述方法包括：

由计算机获得(210a)已用所述第一标记物染色的组织学样本的第一显微图像；

由计算机提供经过训练的机器学习算法(245)；

利用所述机器学习算法，由计算机处理(242)所述第一显微图像，以分析所述第一显微图像并生成掩模图像(244)，

由此，所述掩模图像识别可使用所述第二标记物检测的感兴趣的组织学特征。

14.如权利要求13所述的方法，其中所述机器学习算法已被训练为从所述第一显微图像预测可使用第三标记物检测的又一感兴趣的组织学特征，

其中，在处理所述第一显微图像时，计算机生成识别所述又一感兴趣的组织学特征的又一掩模图像。

15.如权利要求13或14所述的方法，还包括由计算机进行所述掩模图像和/或所述又一掩模图像的自动分析。

16.一种计算机程序产品，包括非暂时性计算机可读介质，所述可读介质上包含计算机程序，所述计算机程序包括计算机程序代码，所述计算机程序代码被配置为当所述计算机程序在计算机上运行时，控制计算机执行如前述权利要求中任一项所述的方法的所有步骤。

17.一种组织病理学图像分析装置(100)，包括：

计算机可读存储介质(102)；

存储器(104)；

一个或多个接口(108)；和

处理器(106)，被配置为执行如权利要求1至10中任一项所述的方法。