CN117015796A

CN117015796A - 处理组织图像的方法和用于处理组织图像的系统

Info

Publication number: CN117015796A
Application number: CN202180079154.2A
Authority: CN
Inventors: M·P·拉哈尔加; S·S·阿尔斯兰; S·G·M·G·德莫佩欧迪埃布勒吉斯; B·L·达扬
Original assignee: Panakia Technology Co ltd
Current assignee: Panakia Technology Co ltd
Priority date: 2020-09-25
Filing date: 2021-09-24
Publication date: 2023-11-07
Also published as: EP3975110A1; KR20230125169A; JP2023543044A; WO2022064222A1; US20230377155A1; IL301650A

Abstract

公开了一种计算机实现的处理组织图像的方法，包括：从组织的输入图像获得图像部分的第一集合；从图像部分的第一集合选择一个或多个图像部分的第二集合，该选择包括将来自第一集合的图像部分的图像数据输入到包括第一卷积神经网络的第一训练模型中，第一训练模型生成图像部分是否与生物标志物相关联的指示；以及确定输入图像是否与来自一个或多个图像部分的第二集合的生物标志物相关联的指示。

Description

处理组织图像的方法和用于处理组织图像的系统

相关申请的交叉引用

本申请基于并要求于2020年9月25日提交的现有欧洲申请第EP20198551号的优先权权益，该欧洲申请的全部内容以引用的方式并入本文。

技术领域

本发明涉及计算机实现的处理组织图像的方法和用于处理组织图像的系统。

背景技术

生物标志物是天然存在的分子、基因或特性，通过其可以识别特定的病理或生理过程、疾病、诊断、治疗或预后。例如，现代癌症诊断和治疗可依赖于对癌症和患者的特异性分子谱的一般理解。分子谱包括一种或多种分子生物标志物。分子谱可以用于告知各种过程，包括激素治疗、免疫治疗和靶向药物治疗。

各种医学相关生物标志物-例如诊断、治疗和/或预后标志物，例如：突变状态、受体状态、拷贝数变异和其它-通过遗传、转录组和免疫测定的手段测试，以便确定患者对某些治疗的反应程度。这种测试在称为活体组织切片的人类样本上进行，其可以是液体或固体形式。根据测试和样本的类型，这种测试可能花费1至30天之间的任何时间，并且易于出现过程错误。然后由专家分析这些过程的结果，专家为组织活检的病理学家、液体活检的血液学家、细胞样本的细胞病理学家、遗传/转录组测定的遗传学家等。这同样可能是时间密集的并且非常容易受到人为错误的影响。持续需要改进这种生物标志物的检测的可靠性、经济性和速度。

附图说明

现在将参考附图描述根据非限制性实施例的系统和方法，附图中：

图1示出了根据实施例的系统的示意图；

图2(a)是根据实施例的处理组织图像的方法的示意图；

图2(b)是用苏木精和伊红染色的组织切片的图像的示例；

图3(a)示出了输入图像和输出的示意图，输入图像是用苏木精和伊红染色的组织切片的图像，输出是图像部分的第一集合；

图3(b)示出了在根据实施例的方法中使用的图像预处理步骤的示意图；

图3(c)示出了基于在图像预处理步骤中使用的CNN的示例分割模型的示意图；

图3(d)示出了执行扩张卷积的滤波器的示意图；

图3(e)是训练细胞分割模型的示例方法的示意图；

图4示出了根据实施例的处理组织图像的方法的示意图，其中使用池化算子；

图5(a)示出了根据实施例的处理组织图像的方法的示意图；

图5(b)示出了可以在关于图5(a)描述的方法中使用的基于长短期记忆结构的示例循环神经网络的示意图；

图5(c)示出了可以在关于图5(a)描述的方法中使用的示例第一卷积神经网络的示意图；

图6(a)示出了根据替代实施例的方法的示意图；

图6(b)示出了可以在图6(a)的方法中使用的示例注意力模块结构的示意图；

图7示出了根据替代实施例的方法的示意图；

图8示出了示例癌症诊断流水线的示意图；

图9示出了利用根据实施例的方法使用一个或多个生物标志物的自动概况分析的示例诊断流水线；

图10示出了根据替代实施例的方法的示意图；以及

图11示出了根据实施例的训练方法的示意图。

具体实施方式

根据实施例，提供了一种计算机实现的处理组织图像的方法，包括：

从组织的输入图像获得图像部分的第一集合；

从图像部分的第一集合选择一个或多个图像部分的第二集合，该选择包括将来自第一集合的图像部分的图像数据输入到包括第一卷积神经网络的第一训练模型中，第一训练模型生成图像部分是否与生物标志物相关联的指示；以及

确定输入图像是否与来自一个或多个图像部分的第二集合的生物标志物相关联的指示。

在一个实施例中，第二集合包括两个或更多个图像部分，并且其中，确定包括将对应于一个或多个图像部分的第二集合的第一数据输入到第二训练模型中。第二训练模型可以包括神经网络。第二训练模型可以包括循环神经网络。第二训练模型可另外地或替代性地包括注意力机制。

在一个实施例中，第二训练模型可以包括循环神经网络和注意力机制，并且其中，确定输入图像是否与来自图像部分的第二集合的生物标志物相关联的指示包括：将用于第二集合中的各个图像部分的第一数据输入到注意力机制中，其中，注意力机制被配置为输出各个图像部分的重要性的指示；

基于各个图像部分的重要性的指示来选择图像部分的第三集合；以及对于第三集合中的各个图像部分，将第一数据输入到循环神经网络中，循环神经网络生成输入图像是否与生物标志物相关联的指示。

在一个实施例中，图像部分是否与生物标志物相关联的指示是图像部分与生物标志物相关联的概率，其中，选择第二集合包括选择具有最高概率的k个图像部分，其中，k是大于1的预定义整数。

在一个实施例中，第一卷积神经网络包括：第一部分，其包括至少一个卷积层；和第二部分，其中，第二部分将一维向量作为输入；其中，确定输入图像是否与来自图像部分的第二集合的生物标志物相关联的指示还包括：生成用于图像部分的第二集合中的各个图像部分的第一数据，生成用于图像部分的第一数据包括将图像部分的图像数据输入到第一卷积神经网络的第一部分中。

在一个实施例中，从图像部分的第一集合选择一个或多个图像部分的第四集合，该选择包括将来自第一集合的图像部分的图像数据输入到包括第二卷积神经网络的第三训练模型中；第三训练模型生成图像部分是否与生物标志物不相关联的指示；并且其中，从一个或多个图像部分的第四集合和一个或多个图像部分的第二集合确定输入图像是否与生物标志物相关联的指示。

在一个实施例中，生物标志物是癌症生物标志物，并且其中，从组织的输入图像获得图像部分的第一集合包括：

将组织的输入图像拆分为图像部分；

将图像部分的图像数据输入到第五训练模型中，第五训练模型生成图像部分是否与癌组织相关联的指示；以及

基于图像部分是否与癌组织相关联的指示来选择图像部分的第一集合。

在一个实施例中，生物标志物是分子生物标志物。

根据第二方面，提供了一种用于处理组织图像的系统，包括：

输入，其被配置为接收组织的输入图像；

输出，其被配置为输出输入图像是否与生物标志物相关联的指示；

一个或多个处理器，其被配置为：

从通过输入接收的组织的输入图像获得图像部分的第一集合；

从图像部分的第一集合选择一个或多个图像部分的第二集合，该选择包括将来自第一集合的图像部分的图像数据输入到包括第一卷积神经网络的第一训练模型中，第一训练模型生成图像部分是否与生物标志物相关联的指示；

确定输入图像是否与来自一个或多个图像部分的第二集合的生物标志物相关联的指示；以及

通过输出来输出指示。

根据第三方面，提供了一种计算机实现的训练方法，包括：

从组织的输入图像获得图像部分的第一集合；

将来自第一集合的图像部分的图像数据输入到包括第一卷积神经网络的第一模型中，第一模型生成图像部分是否与生物标志物相关联的指示；

基于与组织的输入图像相关联的指示输入图像是否与生物标志物相关联的标签来适配第一模型。

在一个实施例中，方法还包括：

基于图像部分是否与生物标志物相关联的指示从图像部分的第一集合中选择一个或多个图像部分的第二集合；

通过将对应于图像部分的第二集合的第一数据输入到第二模型中来确定输入图像是否与来自一个或多个图像部分的第二集合的生物标志物相关联的指示，并且其中，方法还包括：基于与组织的输入图像相关联的指示输入图像是否与生物标志物相关联的标签来适配第二模型。

在一个实施例中，方法还包括：再次基于与组织的输入图像相关联的指示输入图像是否与生物标志物相关联的标签来适配第一模型。

在一个实施例中，方法包括：

从与指示输入图像与生物标志物相关联的标签相关联的组织的第一输入图像获得图像部分的第一集合；

从与指示输入图像不与生物标志物相关联的标签相关联的组织的第二输入图像获得图像部分的另外集合；

基于图像部分是否与生物标志物相关联的指示从图像部分的另外集合中选择一个或多个图像部分的第四集合；

生成用于图像部分的第二集合的第一数据，生成用于图像部分的第一数据包括将图像部分的图像数据输入到第一卷积神经网络的第一部分中；

生成用于图像部分的第四集合的第一数据，生成用于图像部分的第一数据包括将图像部分的图像数据输入到第一卷积神经网络的第一部分中；

确定用于图像部分的第二集合的第一数据与用于图像部分的第四集合的第一数据之间的距离度量；

基于不同度量来适配第一模型。

根据第四方面，提供了一种包括根据上述方法训练的第一模型和第二模型的系统。

根据第五方面，提供了一种包括计算机可读代码的载体介质，计算机可读代码被配置为使计算机执行上述方法。方法是计算机实现的方法。由于根据实施例的一些方法可以通过软件来实现，因此一些实施例涵盖在任何合适的载体介质上提供给通用计算机的计算机代码。载体介质可以包括任何存储介质(例如软盘、CD ROM、磁设备或可编程存储设备)或者任何瞬态介质(例如任何信号，例如电、光或微波信号)。载体介质可以包括非瞬态计算机可读存储介质。

图1示出了根据实施例的系统1的示意图。系统1包括输入11、处理器3、工作存储器9、输出13和储存器7。系统1取得输入图像数据并生成输出。输出可以包括诊断信息。特别地，输出可以是输入图像是否与生物标志物相关联的指示。

系统1可以是计算系统，例如终端用户系统或服务器。在一个实施例中，该系统包括图形处理单元(GPU)和通用中央处理单元(CPU)。GPU实现关于以下方法描述的各种操作，而CPU实现其它操作。例如，GPU可执行矩阵运算。

处理器3耦合到储存器7并且访问工作存储器9。处理器3可以包括响应并处理存储在工作存储器9中的代码形式的指令的逻辑电路。

计算机程序5存储在非易失性存储器中。非易失性存储器9由处理器3访问，并且存储的代码5由处理器3检索和执行。特别地，当被执行时，具体实施以下描述的方法的计算机程序代码5被表示为存储在工作存储器9中的软件产品。由处理器3执行代码5将使得实现如本文所述的实施例。

处理器3还访问输入模块11和输出模块13。输入和输出模块或接口11、13可以是单个组件，或者可以被分成单独的输入接口11和单独的输出接口13。

输入模块11连接到用于接收图像数据的输入15。输入15可以是用于从外部存储介质或通过通信网络接收数据的接收器。替代性地，输入15可以包括例如图像捕捉装置的硬件。替代性地，输入15可以从存储的图像文件中读取数据，该图像文件可以存储在系统上或存储在单独的存储介质上，例如软盘、CD ROM、磁设备或可编程存储设备。

输出17连接到输出模块13。输出17可以包括硬件，例如视觉显示器。替代性地，输出可以是用于将数据发送到外部存储介质或通过通信网络发送数据的发送器。替代性地，输出17可以将数据写入存储的图像文件中，该图像文件可以存储在系统上或存储在单独的存储介质上，例如软盘、CD ROM、磁设备或可编程存储设备。

储存器7与处理器3通信地耦合。储存器7可以包含代码5在被处理器3执行时使用的数据。如图例示，储存器7是包含在设备中的本地存储器。然而，替代性地，储存器7可以全部或部分地远程定位，例如，使用可以经由通信网络(例如因特网)远程访问的基于云的存储器。代码5也存储在储存器7中。代码5在执行时被置于工作存储器9中。

系统1可以位于具有用于输入和输出数据的硬件的公共系统中。替代性地，系统1可以是远程系统1，其接收从单独的单元(例如图像捕捉设备)发送的图像数据，并且将输出数据发送到另一个单独的单元(例如包括屏幕的用户计算机)。例如，系统可以在接收和发送数据的云计算系统上实现。尽管在所述的系统中使用了位于设备中的单个处理器3，但是该系统可以包括两个或更多个处理器，这些处理器可以位于相同的系统中或者远程定位，被配置为执行处理的不同部分并且在它们之间传输数据。

应用用于将软件加载到存储器中以及将数据存储在存储单元7中的通常过程。代码5可以嵌入在原始设备中，或者可以在制造之后作为整体或部分提供。例如，代码可以作为整体作为计算机程序产品引入，其可以是下载的形式，或者可以经由例如光盘的计算机程序存储介质引入。替代性地，可以通过更新或插件对现有对话管理器软件进行修改，以提供所述的实施例的特征。

虽然将理解，所述的实施例适用于任何计算系统，但是图1所例示的示例计算系统提供了能够实现如本文所述的实施例的手段。

在使用中，系统1通过数据输入11接收图像数据。在处理器3上执行的程序5以将参考以下附图描述的方式通过输出13输出数据。处理器3可以包括响应并处理程序指令的逻辑电路。

在系统1集成在医院或健康护理系统中的情况下，系统1还可以访问存储在医院或健康护理系统上的信息，例如患者信息或患者治疗历史。在系统1被实现为网络服务(即，其未被集成在医院/健康护理系统中)的情况下，图像被上传和分析。例如患者信息的其他数据可以与图像一起上传。分析输出可以存储在数据库中和/或传输回用户系统。可以实现混合方法，其中，组织病理学家上传图像集合，并且在医院或健康护理集成系统内分析这些图像。

在一个实现方式中，输入图像数据通过用户界面输入。表述性状态转移(REST)网络服务在系统上操作。REST服务操作为根据从用户接收的发送数据重建像素数据，并且还管理例如去往和来自分析记录的数据的传送。这些操作在CPU上执行。用户界面和REST服务还可以操作为接收选择用于实现系统的选项的用户输入，例如使用哪些模型、输出哪些信息。输出数据和数据输入存储在基于云的储存器中，称为分析记录。系统在云计算系统上实现，该云计算系统接收图像数据并将输出数据提供给云储存器。

图2(a)是根据实施例的处理组织图像的方法的示意图。该方法可以在例如关于图1描述的系统上实现。

方法将包括多个像素的图像数据I作为输入。输入图像数据I包括像素数据。在以下描述中，像素数据是(尺寸高度×宽度×3的)红-绿-蓝，然而，像素数据可以替代性地是例如(尺寸高度×宽度×1的)灰度。输入图像数据包括第一数量的像素，其中，第一数量等于高度×宽度。图像数据最初可以使用捕捉组织(也称为组织切片)的图像的显微镜安装的数字相机来获取。

在本文所述的特定示例中，输入I包括用苏木精和伊红染色剂染色的组织切片的图像。图2(b)中示出了用苏木精和伊红染色剂染色的组织切片的图像的示例。在该图中，网格覆盖在图像上。全载玻片图像(WSI)扫描仪可以扫描整个组织切片，产生用苏木精和伊红染色剂染色的组织切片的图像，该图像包括例如大约60000像素高乘60000像素宽。

然而，使用各种方法获得的各种类型的组织图像可以使用所述的方法来处理。例如，替代性地，可以将已经历免疫组织化学(IHC)染色的组织切片的图像作为输入。IHC染色涉及选择性地识别组织切片的细胞中的抗原。抗体特异性结合到生物组织中的抗原。染色允许抗体-抗原相互作用的可视化。例如，使用显色免疫组织化学(CIH)，将抗体与可催化生色反应的酶缀合。

方法确定输入图像是否与特异性生物标志物相关联的指示。生物标志物是天然存在的分子、基因或特性，通过其可以识别特定的病理或生理过程、疾病、诊断、治疗或预后。在本文所述的特定示例中，生物标志物是癌症生物标志物，即天然存在的分子、基因或特性，通过其可以识别特定类型的癌症或特别有效的癌症治疗。此外，在本文所述的示例中，生物标志物是分子生物标志物。生物标志物可以是分子或与一种或多种分子中的一者相关联的特性，例如特定分子的量。在一些情况下，生物标志物是与特异性癌症治疗相关联的分子。生物标志物可以是临床可行的遗传变异。从图像数据确定生物标志物的存在比例如从预期正常细胞与癌细胞之间的形态差异的图像数据进行肿瘤检测更具挑战性。

通过一般地理解癌症和/或患者的特异性分子谱，可以了解针对癌症进行的各种过程，包括激素治疗、免疫治疗或靶向药物治疗等。可以识别各种医学相关生物标志物，包括诊断、治疗或预后标志物中的任一者，包括突变状态、受体状态或拷贝数变异等，以确定患者对某些治疗的反应程度。突变状态、受体状态或拷贝数变异是分子生物标志物的示例。例如，在一些情况下，分子生物标志物可以是蛋白质表达水平。

例如，特异性生物标志物可以是雌激素受体(ER)、孕酮受体(PR)或人表皮生长因子受体(HER2)。这些柱生物标志物对乳腺癌是特异性的。其是乳腺癌预后的最重要的生物标志物，并且基于靶向治疗。ER和HER2最常见分别与癌症治疗他莫昔芬和赫赛汀相关联。可以测试患者的这两种生物标志物以确定对这些治疗的适合性。本文所述的方法可用于确定输入图像是否与ER生物标志物相关联的指示。该指示可以是例如概率。本文所述的方法可替代性地用于确定输入图像是否与HER2生物标志物相关联的指示。本文所述的方法可替代性地用于确定输入图像是否与PR生物标志物相关联的指示。替代性地，特异性生物标志物可以是EGFR，其与肺腺癌相关联。替代性地，特异性生物标志物可以是MSI，其与结肠腺癌相关联。

各种分子生物标志物物可用于将某些癌症分类成类别，例如乳腺癌或结肠直肠癌。例如，乳腺癌具有五种不同的分子“亚型”，各种分子亚型基于ER、PR和HER2的状态确定。例如，如果ER、PR和HER2都是阴性的，则分子亚型是“基底样的”。因此，通过确定多种分子生物标志物的存在或不存在，可以预测分子亚型。“分子亚型”是基于一种或一组生物标志物的存在或不存在或在一些情况下基于其水平将特定类型的癌症分类的方式。

该方法可用于检测各种其它生物标志物。例如，抗原Ki-67作为指示癌症侵袭性的细胞增殖的标志物也越来越多地被测试。因此，特异性生物标志物替代性地可以是Ki-67。基于Ki67核抗原的IHC染色的标记指数可与其它IHC标志物一起使用，作为例如在评价HER2-和ER+乳腺癌的肿瘤增殖时的分级方案中的有丝分裂计数的替代。其可以提供用于治疗决策的额外信息，例如任何辅助化学治疗的需要。在各种研究中，其被证明是有力的存活预测因子。例如，PREDICT是一种在线工具，其示出了对早期的浸润性乳腺癌的不同治疗可以如何提高手术后的存活率。在作为预后标志物的Ki67的参与下，改善了PREDICT模型的性能。解释IHC染色的Ki67载玻片的人工评分方法包括在随机选择的感兴趣区域中(例如在肿瘤的外围)计数侵袭细胞，并确定Ki67染色相对于所有侵袭肿瘤细胞的百分比。与上述常规分子概况分析技术类似，该过程是劳动密集型的，易于出现人为错误，并且对观察者间/内开放。例如，通过从H&E图像预测Ki67指数，可使这种过程更短，并潜在地提高准确度。

本文所述的示例方法提供了对于癌症的诊断、治疗和/或预后相关的特异性生物标志物的自动概况分析。除了其他示例之外，特异性生物标志物可以是突变状态、受体状态或拷贝数变异。在该示例中，从全载玻片H&E图像执行该概况分析，但是可以使用其他图像。示例方法包括应用一系列神经网络以识别癌症图像与生物标志物之间的相关性。在本文所述的示例中，生物标志物是分子生物标志物。

方法包括图像预处理步骤S201。图像预处理步骤S201包括从组织的输入图像获得图像部分的第一集合。

在示例场景中，全载玻片图像(WSI)扫描仪扫描整个组织切片。然后，在初始处理步骤S201中，将包括大约60000个像素高乘60000个像素宽的全载玻片图像拆分成连续部分或图块。图像部分具有固定的输入高度和宽度。这些部分在图像内可以是连续的或重叠的。例如，图像部分大小可以是512×512像素。首先将输入图像拆分成该尺寸的部分。当然可以使用其它部分大小。例如，可以使用对应于2的幂的部分大小，例如：128×128、256×256、512×512或1024×1024像素。各个输入图像可以具有不同的大小，因此可以根据输入图像的大小从输入图像中提取不同数量的部分。

这些图像部分可以形成第一集合。替代性地，可在图像预处理阶段S201中执行另外的步骤以消除图块，使得剩余图块仅形成第一集合，如下文将关于图3(a)进一步描述的。例如，可以处理图像部分以消除不包含任何癌细胞的任何图像部分。因此，并非来自原始图像的所有图像部分都必须包括在第一集合中。

在S202中，执行从在S201中获得的图像部分的第一集合中选择一个或多个图像部分的第二集合的步骤。在该阶段中，将第一集合中的各个图像部分的图像数据输入到包括第一卷积神经网络的第一训练模型中。第一训练模型生成图像部分是否与生物标志物相关联的指示。下面将关于图5更详细地描述该阶段。在S202中获得一个或多个图像部分的缩减集合，即具有比第一集合少的图像部分的第二集合。第二集合包括从第一训练模型的输出确定的一个或多个代表性图像部分。

在S203中，从一个或多个图像部分的第二集合确定输入图像是否与生物标志物相关联的指示。在一些实施例中，指示使用不可训练函数(例如关于图4描述的最大池化算子)来生成。在其他实施例中，将对应于多个图像部分的第二集合的第一数据输入到第二训练模型中。第二训练模型的各种示例在下面关于图5至图7描述。

如上所述，现代癌症诊断和治疗可依赖于对癌症和患者的特异性分子谱的一般理解。为此，可以通过遗传、转录组和免疫测定的手段测试各种医学相关生物标志物，以便确定患者对某些治疗的反应程度。这些测试在人类活检样本上进行。根据测试和样本的类型，测试花费1至30天之间的任何时间，并且易于出现过程错误。然后由专家分析结果，这也是时间密集的并且非常容易受到人为错误的影响。图8示出了这种癌症诊断流水线的示意图.

从癌组织的图像自动确定特异性生物标志物的指示可以缩短这种过程的时间。此外，可以通过去除人为错误来提高可靠性。例如，这种自动化系统可以帮助病理学家和其他人做出决策并提高该过程的灵敏度。

为了做出这样的确定，可以使用训练数据集来训练机器学习模型。例如，训练数据集可以包括许多全载玻片图像，各个图像关于患者中是否存在特异性生物标志物进行标记。

可以在部分(图块)中处理输入图像。例如，通过在预处理步骤中消除不对应于癌组织的图块，减少要处理的数据量，并且可以提高可靠性。这还改善了结果的可解释性，因为可以识别对应于生物标志物的图像的特定区域。然而，训练模型以确定组织的输入图像的一部分是否与特异性生物标志物相关联的指示可能是具有挑战性的。这种问题是多实例学习(MIL)问题的示例，其中，标签与全载波片图像(WSI)而不是各个单独实例(图块)相关联。这不同于分类问题，在分类问题中，假设在实例与类之间保持一对一映射。在MIL设置中，数据被弱标记，即，对于许多实例仅提供一个类标签，使得问题固有地更具挑战性。为了使图像被标记为正，其必须包含至少一个正类的图块，而负载玻片中的所有图块必须被分类为负。这种提法允许在训练期间存在各个实例的标签。然而，它们的真实值仍然未知。因此，使用聚合图块以便获得图像级概率的手段。

可以使用不可训练的函数来执行聚合。池化算子(例如最大算子)可以用于实例级分类设置中，其涉及分类器在每个图块的基础上返回概率并且通过最大算子聚合各个分数。图4中示出了这种方法的示例。在该方法中，使用分类器从图像部分的第一集合中选择一个图像部分的第二集合，并且从该图像部分确定输入图像是否与来自第二集合的生物标志物相关联的指示。

然而，由于在训练期间图块的各个标签是未知的，因此这样的聚合方法在一些情况下可能提供不可靠的图像级预测。此外，仅依赖于单个图块可能不能在所有情况下充分地表示图像。特别地，WSI可以包含具有类似特性的数百个图块。在一些实施例中，分类器的输出用于选择多个图像部分的第二集合，其然后用于表示图像。这使得该方法适用于任何大小的图像，因为无论图像中的图块数量如何，仅第二集合(例如前k个图块)被用于确定输入图像是否与生物标志物相关联的指示。基于“最大池化”的图块选择可用于获取图块的代表性集合。然后通过将来自图块的代表性集合的数据输入到执行聚合的第二训练模型中来确定输入图像是否与生物标志物相关联的指示。聚合算子包括神经网络。完全可训练的聚合算子而不是预定义的和不可训练的聚合运算(例如最大池化)允许改进的可靠性。聚合的参数化提高了可靠性。该方法使用可学习聚合函数和集成到模型的图块选择过程。

此外，包括聚合步骤的全模型可以以端到端的方式训练，从而进一步提高了可靠性。

从图像数据确定生物标志物的存在比例如肿瘤检测更具挑战性。然而，通过使用图像部分选择和聚合的组合，可以获得可靠的分类。

将关于图4至图7描述各种示例方法，其中，使用不同的聚合算子。图4示出了其中使用未训练函数作为聚合运算的示例方法，而图5至图7示出了其中聚合算子包括训练模型的示例。在图4至图7所示的方法中，在S202中基于第一CNN 40分类器的输出来选择一个或多个图块的第二集合。然后在S203中处理该图块的第二集合以生成图像级指示。然而，首先将关于图3(b)更详细地描述图像预处理步骤S201。

图3(b)示出了在根据实施例的方法中使用的图像预处理步骤S201的示意图。图3(a)示出了输入图像I和输出的示意图，输入图像是用苏木精和伊红染色剂染色的组织切片的图像，输出是图像部分的第一集合。

在S301中，将输入图像(例如WSI)细分为固定大小的部分或图块。在该示例中，各个部分具有1:1的纵横比，即各个部分是正方形图像。虽然可以以不同的放大级别并且在相邻图块之间具有变化的重叠量的情况下执行图块生成，但是简单的图块生成策略可以包括从第一载玻片级别获取512×512像素的块，而在图块之间没有重叠。

然后执行背景检测步骤，以消除主要是背景的任何图块。背景区域是如图中看到的“白色”区域。在预处理步骤S201中还可以利用各种图像预处理技术，包括高斯滤波、直方图均衡化、颜色归一化和图像去噪，从而允许在图像遭受伪影或差对比度时更好地检测前景对象。

在S302中，应用背景检测算法。对图像的“缩略图”(即整个图像的较低分辨率副本)执行背景检测。缩略图是图像的较低分辨率快照，例如WSI。例如，原始图像可以是60000×60000像素，而缩略图是例如1024×1024像素。该步骤用于从背景中分割出组织，并且以下面描述的方式调整对应的输出掩模的大小以匹配原始图像的分辨率。

在该步骤中，首先将图像转换为灰度。

背景分割(或组织提取)开始于对输入图像应用边缘检测卷积核，以便定位具有高空间频率的像素。执行边缘检测核与图像之间的卷积。核是预定义值的小矩阵，例如：

在该步骤中可以应用多个边缘检测核，例如可以使用形式为[+1，0；0，-1]和[0，+1；-1，0]的一对2×2核。

该步骤突出显示存在过渡的区域。边缘检测步骤输出图像的梯度。高梯度对应于边缘或过渡。组织区域通常比背景区域包含更多的过渡。因此，在该步骤中将突出显示组织区域。

梯度进一步用高斯核来平滑。执行高斯模糊核与图像之间的卷积。该步骤的目的是模糊像素，因此在随后的步骤中执行的二值化将具有较少的伪影。这基本上使突出显示的区域平滑。平滑的梯度突出显示前景像素。

利用基于直方图的阈值化方法对模糊图像进行二值化。如果像素值大于某个阈值T，则该步骤用值1替换各个像素值，如果像素值小于该阈值，则用值0替换各个像素值。使用基于直方图的方法(例如大津(Otsu)法)为各个图块确定阈值，在该方法中，通过最小化类内强度方差或等同地通过最大化类间方差(类为“背景”和“前景”)来确定阈值。为了减少该步骤所需的计算同时维持性能，可以基于熵的度量来选择分辨率(即直方图直条的数量)，其中，以较高分辨率处理具有较高熵的图像。可以使用例如三角形阈值化的替代的基于直方图的方法。

在二元掩模上卷积中值滤波器以去除非显著分量。

最后，填充前景中的孔以最小化在组织内获得假阴性的可能性。在该步骤中，可以使用各种已知的算法，包括A*和连通分量分析算法。

部分在背景上的图块(例如80％的像素)被指示为背景(像素值为0)，然后从进一步分析中去除。

在S303中，使用标准偏差操作来消除可能已经在先前步骤中留存的任何“全白”图块。将标准偏差操作应用于从先前步骤输出的各个图像部分(图块)。在该步骤中，取从先前步骤输出的像素值的标准偏差。返回单个值，其是图块内的所有像素值的标准偏差。如果大多数像素是“白色”，则该值将是低的。在该步骤中消除输出低于阈值的值的图块。可以确定提供良好性能的阈值。

在S303之后，保留主要是前景(即，组织)的图块，并且在以下步骤中对其进行处理。

在S304中，执行癌细胞分割的步骤。细胞分割步骤的结果用于消除不包含任何癌细胞的图块，使得只有对于手头任务相关的图像部分被输入到随后的步骤。丢弃仅包含非癌组织的图块。

可以使用训练模型来执行细胞分割。该模型被配置为将像素转换成类标签，例如癌细胞和背景。使用被训练为在细胞水平上识别癌组织的分割模型M来消除不包含任何癌细胞的图块。下面描述示例模型M。然而，可以使用分割图块图像的各种方法。将原始的图块图像输入到模型M(排除在S302和S303中已经被消除的图像)。

模型M生成对应于多个像素中的每一者的值，其表示该像素是否对应于癌细胞。对输入图像部分的各个像素执行分类，以将图像分割成两类：癌组织区域和不含癌组织的区域。模型M执行语义图像分割，这意味着输入图像中的各个像素被分类。在这种情况下，分类被分成两个类别-模型的输出包括指示像素对应于癌组织还是非癌组织的两个值。输出具有与输入部分相同的高度和宽度。例如，在输入数据具有512个像素的高度和512个像素的宽度的情况下，输出是具有高度512和宽度512的值的阵列。这些值指示类别。

现在将关于图3(c)描述示例模型M，图3(c)示出了基于CNN的示例分割模型M的示意图。在输出中，输出图像的不同阴影区域对应于癌组织的区域和不是癌组织的区域。

实际上，可能包括更多的层，然而该图用于说明空间尺寸贯穿层可以如何变化。例如，模型M可以包括超过100层。通常，不同类型的层和不同数量和组合的层是可能的，以便实现用于各种用例的模型M。

模型M包括卷积神经网络(CNN)。CNN是包括至少一个卷积层的神经网络。模型M包括多个卷积层，具有各种滤波器和各种数量的滤波器，生成各种大小的输出容积。滤波器权重是可训练的参数，其在训练阶段期间更新，以下关于图3(e)描述。

像素数据可以直接输入到CNN中。CNN中的第一层是卷积层。第一层中的各个滤波器具有与输入数据的深度相匹配的深度。例如，在输入数据是RGB的情况下，第一层中的滤波器深度是3。

第一层的输出容积由多个因素确定。层的输出容积的深度对应于滤波器的数量。在一个实施例中，在第一层中有32个滤波器，因此第一层的输出具有32的深度。因此，随后层中的滤波器将具有深度32。输出容积的高度和宽度由输入的高度和宽度、滤波器的感受野大小(高度和宽度两者)以及滤波器步幅确定。当步幅为1时，则滤波器一次滑动一个像素。当步幅为2时，则滤波器一次滑动2个像素，产生更小的输出容积。在边界处使用的任何零填充也将影响输出大小。

各个滤波器沿着输入的宽度和高度移动，在各个位置取点积。一个滤波器的输出值形成2D阵列。来自该层中所有滤波器的输出阵列沿着深度尺寸堆叠，并且所得容积输入到下一层中。

模型M包括多个层，对于这些层，输出具有比输入更小的尺寸。例如，高度和/或宽度可以小于输入。这样，输出的高度和宽度可以穿过多个层减小，同时深度增加。例如，可以存在第一层，对于该第一层，输出具有比输入更小的高度和/或宽度，之后是一个或多个层，对于该一个或多个层，输出具有与输入相同的尺寸，之后是另外的层，对于该另外的层，输出具有比输入更小的高度和/或宽度。例如，第一层可以将图像数据(513×513×3)作为输入并且输出容积(257×257×32)。该层使用32个滤波器来应用卷积，各个滤波器输出容积257×257的阵列。高度和宽度减小，而深度增加。例如，可以通过调整滤波器超参数(例如步幅)来减小高度和宽度。由于模型M的输出具有与输入相同的高度和宽度，所以模型M还包括至少一个层，对于该层，输出具有比输入更大的尺寸。模型M可以具有“编码器/解码器”结构，由此层首先减小高度和宽度，同时增加深度(例如经由例如步幅大小的滤波器超参数)，然后增加高度和宽度，同时减小深度(例如经由池化层和/或双线性上采样层)。

模型还包括一个或多个激活层。例如，模型可以包括一个或多个RELU(修正线性单元)层，其应用元素级的激活函数。可以在各个卷积层之后实现批归一化层。激活层可以在批归一化层之后实现。模型可以包括一个或多个单元，其包括卷积层、批归一化层和激活层，或者包括第一卷积层、第一批归一化层、第二卷积层、第二批归一化层和激活层。

除了一个或多个标准卷积层之外，卷积神经网络还包括隐层，其包括扩张卷积。该层可以被称为空洞(Atrous)卷积层。空洞卷积也可以被称为扩张卷积。图3(d)中示出了执行扩张卷积的滤波器的示意图。图3(d)所示的扩张卷积具有扩张因子2，并且滤波器具有3×3的感受野大小。在输入I与扩张因子为l的滤波器f之间在一般的无界情况下的扩张卷积运算(表示为*l)为：

/>

在卷积神经网络层中使用的扩张卷积由输入大小界定。在扩张因子为1的情况下，该运算是如上所述的标准卷积运算。在如图3(d)例示扩张因子为2的情况下，在各个位置处，取滤波器值与间隔一的输入值的点积。以与前面相同的方式根据步幅沿着输入的宽度和高度移动滤波器。然而，来自输入的条目被由扩张因子确定的距离隔开。因此，增大扩张因子加宽了滤波器的有效感受野，而不增大滤波器大小，即不增加参数的数量。具有大于1的扩张因子意味着可以学习非局部特征，而不增加参数的数量。包括扩张卷积运算提供了更宽的视场，而没有增加参数的数量，因此没有增加计算成本。可以有效地扩展感受野而不损失分辨率。空洞卷积也可被定义为有隙采样的卷积。通过包括具有不同扩张因子的卷积，可以学习局部和非局部特征。

在所示的示例中，存在包括扩张卷积的单层n。包括扩张卷积的层位于池化层和上采样层之前。包括扩张卷积的层的位置可以根据用例选择在网络的各个阶段。例如，通过将包括扩张卷积的层定位成进一步穿过网络，可以在该层中学习更高级别特征。

在模型M的第n层中，对作为该层的输入的数据并行执行多个单独的卷积运算。各个卷积运算作为单独的滤波器执行。卷积运算中的至少一者是扩张卷积。一个或多个滤波器可以具有不同的扩张因子。在所示的层n中，所示的卷积运算中的两者是具有不同扩张因子的扩张卷积。第一卷积是具有等于1的第一扩张因子的标准卷积，第二卷积是具有等于2的第二扩张因子的扩张卷积，并且第三卷积是具有等于3的第三扩张因子的扩张卷积。然而，可以实现各种组合，并且可以包括各种数量的滤波器。

各个滤波器采用相同的输入(即，是来自先前n-1层的输出数据)。因此，各个滤波器具有与来自n-1层的输出相同的深度。各个滤波器具有不同的扩张因子。该层可以包括具有各种扩张因子的空洞卷积的组合。滤波器以与标准卷积层中的滤波器相同的方式并行执行它们的操作。各个滤波器输出值的阵列。阵列可以具有不同的大小。来自输出阵列的值串接成向量，该向量然后被重新整形以形成2D阵列。该阵列被当做n+1层的输入。因此，滤波器的输出被组合并输入到随后的层中。

在单个层中实现具有不同扩张因子的不同卷积运算。通过这样做，层能够同时学习局部和非局部信息的相关性，因此允许学习更高阶的空间上下文。通过网络传播关于局部和非局部特征的信息。这有助于例如学习组织形态。

层n可以包括四个滤波器，其具有扩张因子1、4、8和12。然而，滤波器的各种组合是可能的。尽管在图中，各个滤波器的输出被示出为具有相同的尺寸，但是实际上各个滤波器可以具有不同的输出尺寸。扩张滤波器可以具有1的步幅。扩张滤波器可以具有相同的感受野大小。感受野大小可以与先前层相同。

模型还包括跳跃连接。实际上，模型可以包括多个跳跃连接，然而为了简单起见，示出了少量的层和单个跳跃连接。第一层m生成输出，其被称为输出m，尺寸小于先前层的输出。在这种情况下，输出m小于输出l，并且也小于输出k。因此，输出m小于紧接的先前层l的输出，并且也小于先前层k的输出。

第二层q在第一层m之后。第二层q的输入从第一层m的输入(也称为输出l)以及紧接在第二层q之前的层的输出(即，层p的输出)生成。将来自较早层的输出直接输入到较晚层可以被称为“跳跃连接”。第一层m的输入通过像素级加法与层p的输出组合。结果然后输入到第二层q。跳跃连接可以通过包括组合输入的像素级加法层来实现。如果跳跃连接是通过像素级加法来实现的，则输入必须具有相同的尺寸。在这种情况下，在具有相同尺寸的层之间实现跳接连接。例如，选择第一层和第二层，使得第一层m的输入与层p(紧接在第二层之前)的输出具有相同的尺寸。

使用一个或多个跳跃连接，将来自下游的信息直接馈送到上游。这贯穿网络维持了高级别的全局和区域视觉特征。这些对于大块分割是有用的。包括跳跃连接可以被称为“阶梯”方法。在一个或多个层中，输出小于输入。跳过一个或多个中间层将来自较早层的特征直接输入到较晚层中提供了上下文。

除了卷积层之外，模型还包括一个或多个池化层。例如，可以包括池化层以改变空间大小。例如，池化层可以用于增加输出的宽度和/或高度并且减小输出的深度。池化层可以是“平均池化”层。平均池化层包括具有空间范围和步幅的滤波器，其跨输入移动，在各个位置处取平均值。然而，可以使用除平均以外的函数，例如，最大池化。可以另外地或替代性地包括上采样层，例如一个或多个双线性上采样层，以便增加输出层的高度和/或宽度。

模型还可以包括一个或多个像素级加法层和/或级联层。这些层用于组合来自两个或多个先前层的输出。

在卷积层之后可以包括一个或多个全连接层。也可包括正则化层以减轻过度拟合。

对于各个像素的各个类别具有单个输出。在输出处以像素级方式应用另外的激活函数，例如二元softmax函数。激活函数将像素的值作为输入，并输出概率值。因此，最终激活函数对于单个像素输出各个类别的1至0之间的概率值。最终层生成具有与输入相同的高度和宽度的输出。输出的深度等于类别的数量，在这种情况下为2(无论像素是对应于癌组织还是非癌组织)。输出深度可以由具有与期望的输出深度(即，期望的类别数量)相对应的数量的滤波器的卷积层来设置。该卷积层可以位于最终层之前，其中，最终层是例如具有相同输出深度的上采样层(例如使用转置卷积)。输出阵列中的值指示像素是否对应于该类别，在这种情况下为像素是否对应于一个类别的癌细胞和像素是否对应于另一类别的背景。

然后，将癌组织类别的大于或等于0.5的值四舍五入为1(指示癌组织)。该阈值可以作为超参数而变化。例如通过组合类别产生对于各个像素具有值1(癌组织)或0(非癌组织)的值的单个矩阵作为最终输出。图中示出的输出指示对于像素是否存在癌组织。

然后，消除对应于不包含任何癌细胞的输出的(例如对于癌组织类别大于80％的输出像素值为0的)图像部分(图块)。可以选择75％至80％之间的阈值。阈值可以作为超参数而变化，并且确定提供良好性能的值。对应于剩余图块的原始图块形成图像部分的第一集合，并且在随后的步骤S202和S203中使用。由于各个图像具有不同大小并且包含不同量的癌组织，因此各个输入图像可以导致第一集合中的不同数量的输出图块，范围从每个输入图像几十到几千。

可选地，在将图像数据输入到随后的步骤S202和S203之前，向图块图像应用颜色归一化处理。自动组织病理成像系统的挑战是跨全载玻片图像相对于其颜色分布的变化。这种变化可归因于染色和载玻片制备过程以及扫描仪类型和其它硬件有关参数的差异。颜色多样性尤其是对于泛癌症研究来说是一个障碍，其可能覆盖在各个部位获取的多个数据集。另外，其可能对计算模型到其他数据集的可推广性具有严重影响，这些数据集可能与用于首先构建模型的数据集非常不同。通常，当模型集中于颜色特征并且将其与手头任务相关联时，其可能在从不同色谱中的数据集获取的看不见的图像上失败。处理颜色变化的一个选项是将RGB图像转换为灰度。然而，这可能导致信息的丢失，该信息否则将从颜色通道获得。

灰度转换的替代方案基于在Ruifrok AC和Johnston DA：“Quantification ofhistochemical staining by color deconvolution”.Analytical and quantitativecytology and histology 23:第291-299页，2001年9月中描述的方法。在该方法中，执行对源图块进行颜色归一化的处理，以具有与目标图像相同的“颜色分布”。在本文所述的一个示例中，组织图像用苏木精和伊红(H&E)染色剂染色。这两种化学品通常：将细胞核染为深紫色(苏木精)，将细胞质染为淡粉红色(伊红)。因此，理想化组织图像中的所有像素主要由两种颜色组成。这些染色剂颜色随图像而变化，并且可以概括在染色剂矩阵中。确定源全载玻片图像和目标全载玻片图像的染色剂矩阵M。染色剂矩阵M可以使用在以下文献中描述的方法来估计：“A method for normalizing histology slides for quantitativeanalysis”,Macenko等人,2009IEEE International Symposium on Biomedical Imaging:From Nano to Macro,10.1109/ISBI.2009.5193250。染色剂矩阵是由两个单位向量组成的矩阵：M＝(h∣e)，其中，h和e是h染色剂和e染色剂的3D颜色向量：

在估计了目标和源的染色剂矩阵之后，然后可以确定源的颜色归一化RGB像素值。给定的像素染色剂密度向量具有/>的像素RGB光密度。等同地，c＝M^- ¹x。

在估计了源图像的染色剂矩阵M₁和目标图像的M₂以将源图像中的像素x₁颜色归一化到目标图像颜色分布之后，首先确定c₁＝M₁ ^-1x₁。使用到其列空间上的投影来确定逆矩阵M¹，使得c₁被等同地确定为c₁＝(M₁ ^TM₁)^-1M₁ ^Tx₁。然后，将颜色归一化的像素计算为

通过取得源图像中各个像素的密度(各个像素的c向量)并移位或重新缩放这些值以与目标图像中像素上的各个染色剂密度的第99百分位上限相匹配，可以应用亮度归一化。然后使用重新缩放的像素染色剂密度向量c来确定

图5(a)示出了根据实施例的处理组织图像的方法的示意图。

该方法包括从组织的输入图像获得图像部分的第一集合的步骤S201，如上面已经关于图3描述的。在S201中识别的各个图像部分被依次当作S202的输入。图像部分的原始图像数据可以当作输入，即原始像素值。替代性地，如上所述，可以对原始像素值执行一些预处理，例如颜色归一化。

在S202中，将来自第一集合的图像部分的图像数据输入到第一卷积神经网络(CNN)40。该步骤在图中被标记为“步骤1：图块选择”。第一卷积神经网络40包括：第一部分46，其包括至少一个卷积层；和第二部分47，其是分类部分，将一维向量当作输入。第二部分47可以包括例如至少一个全连接层。第一CNN 40是神经网络的多层架构，包括第一部分46，其包括应用于深度和视场的各层处的图像的卷积滤波器，随后是第二部分47，其包括用于数据减少的全连接密集层和/或池化层。滤波器权重是在训练阶段期间学习的可训练参数。虽然较低级别的滤波器检测粗糙结构(例如边缘和斑点)，但是较深级别捕捉更复杂的特性，如形状和纹理，并且最后顶层学习关于生物标志物的识别在感兴趣的对象上进行概括。

第一CNN 40使用二元分类。换言之，CNN用于确定图块是否与特异性分子生物标志物(即单一类别)相关联。在期望确定图像是否与许多可能的生物标志物中的一者相关联的情况下，可以针对各个生物标志物使用单独的模型。

将图块提交给第一CNN 40。每像素数据可以直接输入到第一CNN 40中。对于各个图块，CNN输出该图块被分配到正类(即，该图块与分子生物标志物相关联)的概率。

CNN可以基于残差网络架构。残差神经网络包括一个或多个跳跃连接。然而，替代架构具有足以从输入图像捕捉显著形态特征并将其与目标生物标志物相关的容量。容量可以由网络大小和其他架构因素(如层数、卷积类型等)来确定。现在将关于图5(c)描述基于残差网络架构的示例CNN架构，图5(c)示出了示例第一CNN 40的示意图。为了简单起见，该图示出了少量的层，然而，第一CNN 40可以包括例如超过100层。

CNN中的第一层是卷积层，在图中标记为“卷积层1”。第一层中的各个滤波器具有与输入数据的深度相匹配的深度。例如，在输入数据是RGB的情况下，第一层中的滤波器深度是3。为了简单起见，图4(c)所示的CNN具有输入数据深度1(即，灰度输入数据)。

第一层的输出容积由多个因素确定。第一层的输出容积的深度对应于滤波器的数量。例如，在第一层中可以有32个滤波器，因此第一层的输出具有32的深度。因此，随后层中的滤波器将具有深度32。输出容积的高度和宽度由输入的高度和宽度、滤波器的感受野大小(高度和宽度两者)以及滤波器步幅确定。当步幅为1时，则滤波器一次滑动一个像素。当步幅为2时，则滤波器一次滑动2个像素，产生更小的输出容积。在边界处使用的任何零填充也将影响输出大小。各个滤波器沿着输入的宽度和高度移动，在各个位置取点积。一个滤波器的输出值形成2D阵列。来自该层中所有滤波器的输出阵列沿着深度尺寸堆叠，并且所得容积输入到下一层中。

各个卷积层之后可以是激活层。激活层应用元素级激活函数，而不改变大小。为了简单起见，在图中没有示出激活层。例如，模型可以包括一个或多个ReLU(修正线性单元)层，其应用元素级的激活函数。可以在各个卷积层之后实现批归一化层。激活层可以在批归一化层之后实现。模型可以包括单元，其包括卷积层、批归一化层和激活层，或者包括第一卷积层、第一批归一化层、第二卷积层、第二批归一化层和激活层。

第一CNN 40包括多个层，对于这些层，输出具有比输入更小的尺寸。例如，高度和/或宽度可以小于层的输入。这样，高度和宽度可以穿过多个层减小，同时深度增加。第一CNN40可以具有“编码器/解码器”结构，由此层首先减小高度和宽度，同时增加深度(例如经由例如步幅大小的滤波器超参数)，然后增加高度和宽度，同时减小深度(例如经由池化层和/或双线性上采样层)。这在图5(c)中例示，图5(c)例示了层的输出大小。

模型还可以包括一个或多个池化层。例如，可以包括池化层以改变空间大小。例如，池化层可以用于增加输出的宽度和/或高度并且减小输出的深度。池化层可以是“平均池化”层。平均池化层包括具有空间范围和步幅的滤波器，其跨输入移动，在各个位置处取平均值。然而，可以使用除平均以外的函数，例如，最大池化。可以另外地或替代性地包括上采样层，例如一个或多个双线性上采样层，以便增加高度和/或宽度。

模型还包括至少一个跳跃连接。实际上，模型可以包括多个跳跃连接，然而为了简单起见，图5(c)中示出了少量的层和单个跳跃连接。第二层“卷积层2”生成输出，其被称为输出m。第四层“卷积层4”生成输出o，其具有与输出m相同的尺寸。“卷积层5”的输入从第一层m的输出以及第四层o的输出生成。将来自较早层的输出直接输入到较晚层是“跳跃连接”。输出在该示例中通过像素级加法来组合。替代性地，可以使用级联，其中，例如输出具有不同的大小。使用一个或多个跳跃连接，将来自下游的信息直接馈送到上游。这贯穿网络维持了高级别的全局和区域视觉特征。跳过一个或多个中间层将来自较早层的特征直接输入到较晚层中提供了上下文。

在最终卷积层之后包括扁平化层。扁平化层将来自最终卷积层的输出数据转换成1维向量x以便输入到下一层中。在该示例中，扁平化层之前的层形成CNN 46的第一部分。

在扁平化层之后包括一个或多个全连接层。最终的全连接层输出与正类相对应的一个值。在输出处应用激活函数，例如sigmoid，以给出概率值。激活函数将从最终的全连接层输出的值当作输入，并归一化为概率。因此，激活函数输出1至0之间的值。一个或多个全连接层和激活函数形成第一CNN 40的第二部分47。

对于各个图块，CNN输出该图块被分配到正类(即，该图块与分子生物标志物相关联)的概率。然后根据图块被分配给正类的概率来对图块进行排序。然后选择两个或更多个图像部分(图块)的第二集合。这可以包括选择与例如前k个概率相对应的图块，其中，k是大于或等于2的整数。图块的第二集合对应于前k个图块，即具有最高概率的k个图块。在剩余的步骤中选择这些图块以表示图像。在一个示例中，k＝100。然而，k可以被确定为超参数。例如，该值可以更低或更高。

在S203中，从图像部分的第二集合确定输入图像是否与生物标志物相关联的指示。S203包括两个阶段。第一阶段是“步骤2：特征提取”。在该步骤中，生成对应于第二集合中的各个图块的第一数据。第二阶段是“步骤3：图块聚合”。在该步骤中，将对应于图像部分的第二集合的第一数据输入到聚合模块中。在该示例中，聚合模块包括训练的循环神经网络(RNN)50。

使用第一卷积神经网络40提取第一数据，从而省略分类器层，即省略第二部分47。处理第二集合中的图块以便提取对应于各个图像部分(图块)的特征集合。特别地，生成与前k个图块(图块的第二集合)中的每一者相对应的d维特征向量x。例如，如图5(c)所示，d维特征向量x可以是扁平化层的输出。通过再次将第二集合的各个图像部分(图块)的图像数据输入到第一CNN 40中来生成特征向量x，从而省略第一CNN 40的最终分类器层。CNN可以用作特征提取器，因为其可以贯穿应用于各种深度层处的图像的卷积滤波器集合捕捉图块内的组织特性，从而有效地将高级视觉特征编码成低维嵌入。一旦线性分类器层被去除，预训练的第一CNN 40就被用于将代表性图块变换成d维特征向量的嵌入，其中，d取决于CNN的架构。这些向量可以被看作代表性图块的“指纹”。

在S202中选择前k个块，并在S203中对其进行处理。在剩余的步骤中，选择前k个块(即具有最高概率的k个块)来表示图像。在S203中，首先处理前k个图块图像以便提取对应于各个图像部分(图块)的特征集合。特别地，生成与前k个图块(图块的第二集合)中的每一者相对应的d维特征向量x。d的值取决于扁平化层的输出大小，因此取决于架构而改变。例如，d可以是512。S203的输入因此包括k个图像部分(图块)的集合，其基于第一CNN 40的输出来选择。然后，将k个图像部分再次馈送通过第一CNN 40，从而省略分类层，以生成对应于k个图块中的每一者的d维特征向量x。这产生k个d维特征向量的序列。各个d维特征向量对应于图像部分(图块)。k个特征向量对应于在图块选择步骤S202中从CNN 40输出的k个图块。将特征向量的序列关于在步骤S202中从第一CNN 40输出的概率排序。

然后，将该特征向量序列提交给循环神经网络(RNN)50，以实现关于图像是否与生物标志物相关联的最终图像水平确定。在该步骤中，通过使用RNN 50组合或聚合对应于一个或多个图像部分的第二集合的数据(在这种情况下是特征向量)，来确定输入图像是否与生物标志物相关联的指示。循环神经网络50是基于神经网络的完全可训练的聚合算子。

使用RNN允许通过借助隐层集合对跨图块的顺序依赖性建模来将表示级的信息集成到载玻片级类概率中。此外，有可能修复在RNN模块50之前的步骤中的图块选择期间所产生的错误，在最大池化的情况下，这种错误可能被并入最终模型输出中并且可能影响性能。例如，对于与特异性生物标志物不相关联的图像，一个图块可能导致错误的高概率。如果整个图像的结果仅取自该图块，则将返回错误的结果。然而，RNN将考虑其它k-1个图块。

可以使用不同的循环神经网络，例如具有ReLU和tanh激活函数的循环神经网络以及包括门控循环单元(GRU)和长短期记忆(LSTM)的更复杂的模块。在将图块的数量k设置得相对较高(例如k是50到100的量级)的情况下，可以看到LSTM执行得更好。使用ReLU或tanh的网络可以使用较少的图块来更好地执行。

这里将描述基于LSTM结构的示例RNN 50。LSTM结构提供了对“忘记”序列中早期实例的抗性。图5(b)示出了基于LSTM结构的示例RNN 50，其可以在关于图5(a)描述的方法中使用。如下所述，LSTM包括多个神经网络层。

在特征提取步骤中从第一CNN 40输出的d维特征向量在该图中标记为x_t。如上所述，存在k个特征向量，使得t从1到k。因此，对应于最不可能的图块的特征向量是x_t，对应于k个图块中最可能的图块的特征向量是x₁。以概率的降序提交图块-输入到RNN的第一图块是具有最高概率的图块。各个长度为d的特征向量被顺序输入到LSTM 50，其中x₁第一个输入，x_k最后一个输入。在序列中的各个步骤，LSTM 50输出与各个输入向量x_t对应的向量h_t。h_t的大小是超参数，并且例如可以是128或256。序列中最后步骤的输出h_k用于生成输入图像是否与生物标志物相关联的指示。步数等于所选择的图块的数量k。

方框中的σ和tanh分别表示具有所指示的相应非线性激活函数(sigmoid和tanh)的学习神经网络层。层的尺寸是超参数-例如可以使用128或256。圆圈中的tanh、加法和其它运算表示逐点运算。输入特征向量x_t的输出h_t被传递到下一个时间步，并且在由h_t-1指示的点处输入。此外，输出细胞状态c_t被传递到下一个时间步并且在由c_t-1指示的点处输入。

串接输入特征向量x_t和来自先前时间步h_t-1的输出，以形成单个组合向量，这里称为第一组合向量。LSTM于是包括四个神经网络层51、52、53和54，三个具有sigmoid激活函数，一个具有tanh激活函数。

第一sigmoid层51将第一组合向量作为输入，并输出包括0至1之间的值的第二向量。第二向量具有与细胞状态C相同的长度，使得各个值对应于细胞状态中的条目。来自先前步骤C_t-1的细胞状态以逐点乘法(阿达玛乘积)与第二向量相乘以给出第三向量，该第三向量也具有与细胞状态相同的长度。第二向量基本上确定从先前细胞状态C_t-1保留什么信息。细胞状态C是长度隐藏的大小H(例如128或256)的向量。所有变量(例如细胞状态C和h_t)是长度为H的向量。

第二sigmoid层52再次将第一组合向量作为输入，并输出包括0至1之间的值的第四向量。第四向量再次具有与细胞状态C相同的长度，使得各个值对应于细胞状态中的条目。

tanh层53再次将第一组合向量作为输入，并输出包括-1至1之间的值的第五向量。第五向量再次具有与细胞状态C相同的长度，使得各个值对应于细胞状态中的条目。

第四向量以逐点乘法(阿达玛乘积)与第五向量相乘以给出第六向量，该第六向量也具有与细胞状态相同的长度。然后，第三向量和第六向量以逐点向量加法相加，以给出当前时间步C_t的细胞状态。

第三sigmoid层54再次将第一组合向量作为输入，并输出包括0至1之间的值的第七向量。第七向量再次具有与细胞状态C相同的长度。细胞状态值分别输入到tanh函数，使得值被设置在-1至1之间。然后，该函数的输出以逐点乘法与第七向量相乘，以给出输出。

各个步骤的输出作为输入馈送到下一步骤。在训练阶段期间，在运算之前学习四个神经网络层51、52、53和54中的每一者的权重和偏置，这将在下面描述。这些是LSTM的可训练参数。序列中最后步骤的输出h_k用于生成输入图像是否与生物标志物相关联的指示。序列中最后步骤的输出h_k被输入到最后的全连接层，其产生两个输出值。然后应用softmax函数。该最后步骤执行分类。密集层的输入为隐藏大小H，输出大小为2。该最终层向输入数据应用线性变换。然后应用二元softmax。针对正类输出的值对应于输入图像与生物标志物相关联的概率。

可选地，特征向量或嵌入是通过LSTM分批处理的，例如一次10个。在这种情况下，组合批次中的特征向量以形成矩阵，并且在各个时间步输入矩阵。神经网络层是矩阵神经网络层，细胞状态C可以是矩阵。当批次大小B＞1时，细胞状态是大小为B×H的矩阵，并且输出h_t变成B×H的矩阵。在这种情况下，最终分类层也将是矩阵神经网络层。

图6(a)示出了根据替代实施例的方法的示意图。在该方法中，如前所述执行S201和S202。第一CCN 40“步骤1：图块选择”输出各个图块的图块与特异性生物标志物相关联的概率。选择具有最高概率的k个图块并将其输入到S203中。然后，在“步骤2：特征提取”中再次将这些图块输入到第一CNN 40中，其中省略分类器层。将所得到的d维特征向量x或嵌入组合成k×d矩阵，将k×d矩阵输入到注意力模块60。

注意力模块60是采用k×d矩阵作为输入的全连接前馈矩阵神经网络。注意力模块60神经网络的输出是k维向量。注意力模块60因此返回权重向量，其中各个权重值对应于图块对最终模型概率的贡献。权重向量突出了用于预测分子生物标志物的最重要的图块。注意力模块60结构的一个示例在图6(b)中示出。第一层包括权重矩阵。将输入k×d矩阵馈送通过第一层，并且应用激活函数(tanh或ReLU)。输出是k×g矩阵，其中，尺寸g是第一层的输出尺寸。g的值是超参数-例如其可以是128或256。将k×g矩阵送入第二层，其也是全连接层。应用激活函数。输出是长度为k的向量，其中，各个值对应于权重。尽管这里描述了一个示例，但是可以替代性地使用各种其他注意力机制。例如，可以包括额外的神经网络层。例如，可以使用门控注意力模块。

注意力模块60输出k维权重向量。

将在特征提取步骤中从第一CNN 40输出的各个d维特征向量乘以对应的注意力权重，即，将特征向量中的各个值乘以权重。然后，将加权的特征向量组合成矩阵，并将其传递到分类器层。这是另外的全连接前馈矩阵神经网络层。应用sigmoid激活函数。分类器层的输出是0至1之间的单个概率值。这是输入图像是否与生物标志物相关联的指示。注意力机制60是基于神经网络的完全可训练的聚合算子。注意力机制提供了一种循环神经网络的替代聚合方法。注意力机制60允许确定最重要的图块。

通过关于特征向量的重要性对特征向量进行加权，并非所有图块都被同等地考虑以用于聚合。此外，注意力机制在可解释性方面提供了益处，因为触发分类的关键图块是已知的。

图7示出了在根据替代实施例的方法中使用的确定输入图像是否与生物标志物相关联的指示的方法的示意图。该方法使用注意力机制60以及RNN 50作为聚合算子的一部分。

在该方法中，步骤S201和S202以与图5(a)的方法相同的方式执行。在S202中选择前k个块，并在S203中对其进行处理。在剩余的步骤中，选择前k个块(即具有最高概率的k个块)来表示图像。在S203中，首先处理前k个图块图像以便提取对应于各个图像部分(图块)的特征集合。这以与上面关于图5(a)描述的相同方式来完成。这产生k个d维特征向量x的序列。各个d维特征向量x对应于图像部分(图块)。k个特征向量对应于在图块选择步骤S202中从CNN 40输出的k个图块。将k个特征向量组合成k×d矩阵，其以与上面关于图6描述的相同的方式输入到注意力模块60。注意力模块60已经在上面关于图6进行了描述。

如上所述，通过关于特征向量的重要性对特征向量进行加权，并非所有图块都被同等地考虑以用于聚合。此外，注意力机制在可解释性方面提供了益处，因为触发分类的关键图块是已知的。

注意力模块60输出长度为k的向量，如上所述。该向量可以以各种方式与RNN 50的输入组合。

在第一示例中，将在特征提取步骤中从第一CNN 40输出的各个d维特征向量乘以对应的注意力权重，即，将特征向量中的各个值乘以权重。然后，将加权特征向量的序列关于从第一CNN 40输出的概率排序。因此提供可训练的加权平均。在该步骤中，将在第二传递中从第一CNN 40输出的各个特征向量乘以其对应的权重值。将这些加权特征向量关于在第一传递中从第一CNN 40输出的概率排序。然后，以与上述相同的方式，将该加权特征向量序列提交给循环神经网络(RNN)50，其中向量对应于首先输入的最可能的图块。

在第二示例中，另外地或替代性地，将d维特征向量关于从注意力模块60输出的权重值排序。然后，以与上述相同的方式，将d维特征向量输入到循环神经网络(RNN)50，其中向量对应于首先输入的最重要的图块。

在第三示例中，另外地或替代性地，并且如图6所示，可以执行进一步从分析中消除图块的步骤。注意力模块60可用于通过按照注意力权重对特征向量排序并且仅将前n个图块传递给最终RNN模块50来进一步减少图块的数量。在这种情况下，步骤S203包括如上所述的“步骤2：特征提取”。然后，如前所述，将d维特征向量x输入到注意力模块60。然后执行另外的步骤“步骤4：基于注意力的图块选择”。将特征向量关于权重排序。然后选择对应于前n个特征向量的图像部分的第三集合，其中，n是大于1的整数。然后，将与图像部分的第三集合相对应的特征向量提交给循环神经网络(RNN)50。注意力机制用于对最具代表性的图块进行排序，而RNN用于聚合它们以实现图像级预测。通过基于注意力模型60的输出消除图块，可以使计算密集的RNN步骤更高效，因为在维持可靠性的同时处理较少的图块。

在第一示例和第三示例中，特征向量可以按照重要性或概率的顺序输入到RNN50。在第二示例和第三示例中，可以将原始特征向量或加权特征向量提交给RNN 50。

所述的三种方法都使用基于注意力的聚合模块，其用于将图块级信息组合到图像级预测中。注意力模块60提供用于多实例学习的聚合的排列不变手段。在S202中使用基于最大池化的图块选择步骤来获取用于注意力模块的代表性图块集合。因此，该方法可应用于任何大小的图像。注意力模块60和循环神经网络50在该示例中被组合在聚合模块中。在该示例中，注意力模块60具有单个注意力分支。

在以上附图中，描述了包括RNN、注意力模块或两者的组合的聚合模块。然而，其它可训练的聚合算子可以另外地或替代性地被包括在聚合模块中。

替代性地，可使用不可训练聚合模块。图4示出了根据实施例的处理组织图像的替代方法的示意图，其中使用池化算子。该方法包括从组织的输入图像获得图像部分的第一集合的步骤S201，如上所述。然后，以先前描述的方式，将在S201中获得的各个图像部分当作输入，一次一个地输入到第一卷积神经网络40。卷积神经网络40生成图像部分是否与生物标志物相关联的指示。因此，第一CNN 40例如用于分类图块是否与特异性分子生物标志物相关联，如前所述。对于各个图块，CNN 40输出该图块被分配到正类(即，该图块与分子生物标志物相关联)的概率。然后根据图块被分配给正类的概率来对图块进行排序。

在该方法中，使用图像的排名最高的图块来确定是否存在分子生物标志物。因此，通过将各个图像部分的图像数据输入到第一CNN 40中，从S201输出的图像部分的第一集合中选择一个图像部分的第二集合。例如，可确定排名最高的图块的概率是否大于阈值。例如，阈值可以是0.5。该阈值可以是被优化以提高性能的超参数。这等同于最大池化。使用池化算子，例如在这种情况下为最大算子。第一CNN分类器40在每个图块的基础上返回概率，并且这些单独的分数通过最大算子来聚合。池化算子(例如最大算子)可以适于实例级分类设置中，其可涉及分类器在每个图块的基础上返回概率并且通过最大算子聚合各个分数。可以使用其它不可训练的聚合函数，例如求平均。

图10示出了根据替代实施例的方法的示意图。在该方法中，如先前已经描述的那样执行步骤S201。然后在S202中处理图像部分(图块)，并且在S203中提取特征向量，如先前已经描述的。这被称为正分支110。

与S202和S203并行执行的第二系列步骤也在S201的输出上执行。这些步骤被称为负分支120。在S402中，执行从在S201中获得的图像部分的第一集合中选择一个或多个图像部分的第四集合的步骤。在该阶段中，将第一集合中的各个图像部分的图像数据输入到第二卷积神经网络100中。第二CNN 100可具有与第一CNN 40相同的结构。第二CNN 100生成图像部分是否与生物标志物不相关联的指示。换言之，第二CNN 100生成图像部分不与特异性生物标志物相关联的概率。在S402中，基于第二CNN 100的输出获得一个或多个图像部分的缩减集合，即具有比第一集合少的图像部分的第四集合。

然后，将k个图像部分的第四集合重新提交给第二CNN 100，从而省略第二部分，即分类层，以便提取对应于各个图像部分的d维特征向量。

将特征向量输入到聚合模块，该聚合模块例如可以包括训练的聚合算子(例如RNN)、注意力模块或两者的组合，如以上关于图5至图7描述的。聚合模块输出图像对应于特异性生物标志物的概率，再次如上所述。

关于图5到图7描述的方法在推断期间仅考虑正类概率，并且假设模型将学习固有地区分负类。这可以增加模型预测正类比预测负类更频繁的倾向。为了将来自负类的信息直接并入网络的预测容量中，可以使用双分支架构，如关于图10描述的。各个分支负责特定的类，即，正分支110考虑正类概率，而负分支120关注负类。各个分支可以用前面部分中描述的一个神经网络模型来实现。

在上述方法中，使用了各种训练模型。现在将描述训练各种模型的示例方法。

首先将描述训练第一卷积神经网络40的各种方法，并且其中相关地描述如上所述的聚合模块(例如包括RNN 50和/或注意力模块60)。使用包括多个图像的训练数据集。图像可以对应于模型的输入图像的预期类型。在上述示例中，输入图像是用苏木精和伊红染色剂染色的组织切片的图像。因此，用苏木精和伊红染色剂染色的组织切片的图像的训练数据集可用于训练模型。

各个图像根据其是否对应于模型要检测的特异性生物标志物而被标记。如上所述，特异性生物标志物可以是例如ER生物标志物、HER2生物标志物、PR生物标志物、EGFR生物标志物或MSI生物标志物。该方法可用于检测各种其它生物标志物。例如，如果模型要用于确定输入图像是否与ER生物标志物关联的指示，如果训练数据集中的各个图像对应于ER生物标志物，则用1标记该图像，如果其不对应于ER生物标志物，则用0标记该图像。为了生成标记，例如可以使用来自IHC染色过程的信息。对于一些数据集，专家可以审查IHC染色的图像，并且如果目标图像尚未作为元数据可用，则确定目标图像的ER/PR状态。然后，将这些状态用作H&E图像的真值(ground true)标签以训练模型。可以使用通过遗传、转录组和/或免疫测定的手段对来自患者的人类样本进行的各种测试。这些测试在液体和/或固体形式的称为活体组织切片的人类样本上进行，然后进行过程以告知样本的分子状态。然后由专家-组织活检的病理学家、液体活检的血液学家、细胞样本的细胞病理学家、遗传/转录组测定的遗传学家等-分析结果，以生成标签1或0。受过训练的病理学家可以执行注释。

现在将使用训练数据集来描述包括两个阶段的训练过程。

在第一阶段，在训练过程期间，对于训练数据集中的各个图像，执行与关于图3(a)描述的相同的图像预处理步骤S201。因此，对于各个图像，以与上面关于推断描述的相同的方式获得多个图像部分。如上所述，细胞分割可以用于从训练数据集中丢弃仅包含非癌组织的图块。在这种情况下，用于训练模型的数据集的质量直接依赖于分割方法的准确度。预训练的模型可以用于细胞分割。

然后，将图块与其对应载玻片的标签配对，并且用于训练第一CNN 40。将图块提交给第一CNN 40，其以与推断期间相同的方式生成被分配给正类的概率。

第一CNN 40具有相关联的参数向量θ1。参数包括用于第一CNN 40的第一部分中的所有卷积层的滤波器权重以及用于第一CNN 40的第二部分的权重。训练过程的目标是找到参数向量θ1’，使得最小化注释与输出之间的差异。

通过分配随机值作为θ1且然后通过以下方式顺序地更新θ1来计算最优参数：计算损失的梯度并使用所计算的梯度更新θ1。D1表示损失函数，在该步骤中其为“每图块”损失。可以使用二元交叉熵损失。通过反向传播确定损失关于模型的各个可训练参数的梯度。然后使用优化器函数使用梯度来确定更新的参数。这个更新方法族被称为梯度下降(GD)，其通常迭代地定义为：

其中，μ1是定义参数更新有多快的学习率。可以基于批平均来执行更新。例如使用8图块或16图块的批大小。

可以使用Adam优化算法。然而，所选择的优化策略可以取决于各个策略在用例下的性能。例如，可以选择以下优化方法中的一者：

●随机梯度下降(SGD)

●AdaDelta

●Adam

●AdaMax

●Nesterov Adam优化器

●RMSProp

在聚合运算是未训练的函数(例如，如关于图4所述的最大池化步骤)的情况下，不执行进一步的训练。然而，在聚合运算是可训练的模型的情况下，执行第二训练阶段。

在第二训练阶段，然后将剩余的图块输入到第一CNN 40的第一部分，并且以与推断期间相同的方式为各个图块提取特征向量。将特征向量输入至聚合模块，其例如包括RNN和/或注意力机制，并输出对应于整个图像的最终输出值。

第一CNN 40的第一部分连同聚合模块(包括RNN和/或注意力机制)具有相关联的参数向量θ2。参数包括例如第一CNN 40的第一部分中的所有卷积层的滤波器权重以及RNN和/或注意力机制网络的权重。训练过程然后找到参数向量θ2’，使得标签与输出之间的差被最小化。这里，使用对应于整个载玻片的标签。

通过分配随机值作为θ2且然后通过以下方式顺序地更新θ2来计算最优参数：计算损失的梯度并使用所计算的梯度更新θ2。D2表示损失函数，在该步骤中其为“每图像”损失。可以使用二元交叉熵损失。通过反向传播确定损失关于模型的各个可训练参数的梯度。然后使用优化器函数使用梯度来确定更新的参数。这个更新方法族被称为梯度下降(GD)，其通常迭代地定义为：

其中，μ2是定义参数更新有多快的学习率。可以基于批平均来执行更新。例如使用8图像或16图像的批大小。

再次，可以使用Adam优化算法。然而，所选择的优化策略可以取决于各个策略在用例下的性能。例如，可以选择以下优化方法中的一者：

●随机梯度下降(SGD)

●AdaDelta

●Adam

●AdaMax

●Nesterov Adam优化器

●RMSProp

可以使用训练数据集中的所有图像来执行第一训练阶段，然后执行第二训练阶段。替代性地，可以在第一训练阶段中使用一批图像，然后执行第二训练阶段。然后，可以对第二批输入图像重复第一训练阶段，以此类推。

这样，在弱监督设置中训练模型。训练使用多实例学习(MIL)。MIL是一种监督学习。在MIL中，不是包括被单独标记的实例(在这种情况下是图像部分)的训练数据，而是训练数据包括标记的包(在这种情况下是图像)的集合，各个包包含许多实例。如果图像不对应于特异性生物标志物，即其被标记为0，则图像中没有图像部分对应于特异性生物标志物。然而，如果一个图像部分对应于特异性生物标志物，则该图像将对应于生物标志物。因此，标记为正的图像具有至少一个正的图像部分。然而，其也可以包括许多负图像部分。

各个图块与指示特异性分子生物标志物是否存在的正(1)或负(0)标签相关联。然而，标签是从父图像继承的。因此，当父图像与特异性分子生物标志物相关联时，可以将图块标记为正，但是图块本身不是(例如，因为图块内的组织区域不包含分子生物标志物)。

因此使用多示例实例(MIL)方法。与全载玻片图像(例如)相关联的标签被分配给多个实例的集合，即形成WSI的图块的集合。这不同于分类问题，在分类问题中，假设在输入实例与类之间保持一对一映射。由于在MIL设置中，数据被弱标记，因此对于相同类别的许多实例仅提供一个类标签。这使得训练模型以识别各个实例(图块)是否对应于类本质上更具挑战性。为了使图像被标记为正，其必须包含至少一个正类的图块，而负载玻片中的所有图块必须被分类为负。这种提法确保了在训练期间存在各个实例的标签。然而，它们的真实值仍然未知。

在S203中包括聚合图块的手段，以便获得图像级输出，例如概率。可以使用包括两个阶段的训练过程，其中，在第一阶段中执行每图块训练，并且在第二阶段中执行每图像端到端训练方法。该方法可以以端到端的方式训练，因为一旦在第一阶段选择了图块，就再次利用所选择的图块执行正向传递。然后，将损失反向传播到整个网络，包括第一CNN 40和聚合算子。

在上述训练方法中，图像对应于模型的预期输入图像(例如，用苏木精和伊红染色剂染色的组织切片)，并且各个图像根据其是否对应于模型要检测的特异性生物标志物而被标记。。然而，训练方法可以被修改以包括从有关域的迁移学习。在不可能获取大的注释数据集的情况下，可以在任务A(源)上预训练模型，然后在任务B(目标)上进一步训练模型，任务B仅具有由其支配的有限的注释数据。这样的训练方法在例如计算病理学的领域中可能特别有用，其中，注释可能涉及大量的时间和金钱，并且可能仍然易于出现与主观性和经验相关的错误。此外，组织病理数据集特别可以包含至多几千个图像。因此，在可能包含几百万个图像的其他计算机视觉数据集(例如，来自非医学领域)上预训练模型可以提供改进的性能。

不同的迁移学习策略可以用于使预训练模型适应于另一数据集，或者通过利用来自不同源的信息约束训练来实现更高的通用性。

可以微调该模型，即，使用目标图像来更新预训练的权重。代替从随机权重开始训练，使用从不同域(例如计算机视觉)或从不同癌症数据集获取的一些预训练权重。然后冻结一些层，不再更新权重。然后基于用特异性生物标志物标记的图像进一步更新其他层。虽然可以微调整个模型，但是在该示例中不更新浅层，因为它们倾向于学习低级特征，如在所有图像中共同的边缘和拐角，无论它们是包含CAR还是癌细胞。另一方面，更深的层对应于任务特定的特征，如细胞形态，并且因此更可能使用目标数据集来更新。

还可以使用借助于不同但有关的数据集作为源(例如不同类型的癌症)的迁移学习。例如，乳腺癌和结肠直肠癌都是腺癌，并且在细胞水平上具有类似的视觉特性，使得彼此成为用于迁移学习设置的完美候选。

假设源和目标数据集具有不同但有关的分布，也可以在域适应的上下文中考虑迁移学习。域适应可以处理预训练模型以没有标签的新数据集为目标的场景，在这种情况下，被标记的源数据集应当被用于解决目标域中的新任务。这种设置可以用于处理多个数据集(例如具有从不同生物样本库获得的乳腺癌图像)的任务。前提是避免模型仅从单个源学习，并提高其对可能潜在地不具有任何标记数据的其他数据集的通用性。

例如，一个场景将是训练模型以便预测数据集A中的分子标志物，然后将其应用于来自数据集B的图像。即使两个数据集代表相同类型的癌症，例如乳腺癌，也可能的是，该模型也将不对数据集B表现良好，因为WSI中的组织组成固有地不同，并且由于在收集图像时使用不同的扫描仪和载玻片制备过程，可能存在数据的差异。域适应旨在通过将在一个域中学习的表示迁移到另一个域中来匹配共享空间内的目标和源数据集的分布。

在一个示例中，基于散度的域适应技术用于最小化源数据分布与目标数据分布之间的散度准则，以便学习域不变特征空间。例如，可以联合地训练双流架构(一个用于源，一个用于目标)，同时通过使用正则化来避免权重从各自发散。一种替代的域适应技术利用具有生成器/鉴别器模型的对抗训练。在一个示例中，通过引入域混淆损失来完全去除生成器，以便示教模型如何鉴别来自不同数据集的图像，并因此学习数据集不变特征以获得更好的通用性。

域适应问题还可以被描写为重建任务，以创建各个域的共享编码表示，同时学习对标记的源数据进行分类，并且重建未标记的目标数据。替代性地，域适应可以通过同时训练在两个相应域中生成图像的两个生成对抗网络来实现。其也可以用于离线设置，以通过从源数据集到目标数据集的风格迁移来增加用于训练的图像的数量。这自然使组织图像的染色颜色和风格归一化，同时保持形态。

为了提高性能，数据增强可以另外地或替代性地应用于训练数据集。这增加了模型的通用化能力。这在例如数字病理学的数据可能稀疏的域中可能特别有用。

可以将大范围的空间和颜色变换应用于训练数据集中的图像，以创建新的训练示例图像，从而增加数据的变化而不需要收集新图像。示例增强方法可以被分组成两个子类别：线性变换，例如旋转或翻转；以及包括亮度和对比度调整的色谱增强。

由于组织病理图像是旋转不变的，所以90度旋转和水平/垂直翻转用于填充数据集而不引入任何不利影响。另一方面，基于颜色的增强使得模型在图像的亮度和对比度的原始光谱之外进行学习，从而它可以在不同照明下拍摄的图像上更好地通用化。也可使用非线性变换，例如弹性网，但可改变组织的形态组成。不同的增强方法可以组合并顺序地应用于图像。

如果积极地应用于相对小的数据集，则增强的使用可能具有一些副作用，因为模型被迫不仅学习图像特征而且学习由增强引入的那些特征。为了减轻这一点，可以在进行对1)增强参数的值和2)不同参数技术的组合的超参数优化并且找到相对于不使用增强的情况改善模型性能的参数和方法的子集的同时应用增强。可以应用一些概率约束以确保模型在训练期间既看到原始图像又看到增强图像。

在图5和图6所述的示例中，使用了循环神经网络(RNN)，其可通过对跨图块的顺序依赖性建模来将来自图块级的信息集成到载玻片级类概率中。通过同时训练CNN和RNN模块，可以另外提供端到端学习。

在图6和图7所述的示例中，使用加权平均公式，其中,权重由基于注意力的神经网络60提供。使用注意力机制60还固有地洞察各个图块对最终图像预测的贡献，并且可以潜在地用于突出可能对于计算病理学应用关键的感兴趣区域，而不需要图像中的区域的先验注释。该方法是基于深度学习的弱监督方法，其使用基于注意力的学习来识别具有高诊断值的区域，以便对全载玻片图像进行准确分类。再次，注意力模块60可与CNN以及RNN模块(在存在的情况下)同时训练。

两种情况都提供了完全可微分和排列不变的聚合手段。排列不变意味着对于图块不假设排序或依赖性。关于图6描述的示例组合了RNN和注意力机制的优点。在这种情况下，使用级联模型来实现图像级预测，在级联模型中，注意力模型用于对最具代表性的图块进行排序，RNN用于对其进行聚合。

上述图10描述了一种方法，其使用双分支架构将来自负类的信息直接并入网络的预测容量中，在双分支架构中，各个分支负责特定的类，即，正分支110考虑正类概率，而负分支120关注负类。可以以不同的方式训练该模型。在一个示例中，以上述方式分别训练正分支110和负分支120。对于负分支120，如果图像不对应于生物标志物，则图像标签将是1，并且如果图像对应于生物标志物，则图像标签将是0。结果可以借助于线性或非线性函数来组合。替代性地，可以通过将类级损失反向传播到两个分支来同时训练整个网络。

图11示出了根据替代实施例的训练方法的示意图。该方法也旨在减轻关于图10描述的类偏置问题。该方法使用连体(Siamese)神经网络结构。连体网络表示具有共享的架构和权重的同一模型的多个实例。

为了训练模型，使用对比损失函数，使得模型学习正图像与负图像之间的距离以及如何鉴别它们。这通过示出不仅包含图块和标签而且包含具有相同类标签的图块对和不同类的对的模型来实现。然后，每当对于相同类的图像计算大的距离且对于来自不同类的图像计算小的距离时，损失函数惩罚模型。图块对被馈送到第一CNN 40模型的第一部分，各个图块在单独的传递中输入。第一CNN 50经由两个连续正向传递输出各个图块的d维特征向量(也称为嵌入)。然后计算输出向量(嵌入)之间的距离，其形成损失函数的基础。在训练期间，每当针对相同类的图块计算大的距离时或者当模型认为相反类的图块类似时，它惩罚模型。对于图像部分对T_i、T_j和标签y，其中y指示两个图像来自相同类(y＝1)或来自不同类(y＝0)，损失是：

L(T_i,T_j,y)＝(1-y)L_s(D_w)+yL_d(D_w)

其中，L_s项是为类似图像计算的损失，而L_d项是当图像不相似时计算的损失。D_w是两个向量之间的距离，并且可以是任何距离(或相似性)函数，例如欧几里德距离或余弦相似性。当项被扩展时，最终损失可以由下式给出：

其中，m是余量。

替代性地，可以向由剖析器模型使用的交叉熵损失添加对比损失，作为另一正则化项。这样，模型不仅学习如何识别正图像，而且还被迫学习域的类相关特性，这使得区分正类和负类成为可能。在这种情况下，使用其中距离被并入作为另一项的正则化交叉熵损失。在这种情况下，计算两个交叉熵(CE)损失(通过两个正向传递)，一个用于T_i，一个用于T_j。然后使用上述距离函数计算跨其特征向量的距离以算出其距离(或相似性)。于是总损失为：

L_total＝L_CE(T_i,y_i)+L_CE(T_j,y_j)+wD_W(T_i,T_j)

其中，w是可选的加权参数，LCE是上述交叉熵损失。

如上所述，整个流水线包括预处理模块S201，其采用例如WSI的图像作为输入，将其细分成图块集合，并且通过一系列神经网络使这些图块流线化，神经网络包括：1)深度卷积神经网络，其最初用于选择代表载玻片的图块并且稍后用于特征提取，2)基于注意力的神经网络，其用于识别用于预测分子生物标志物的重要图块，和/或3)循环神经网络(RNN)，其用于将所选择的图块聚合成最终图像级概率。

在上述示例中，输入图像是用苏木精和伊红染色剂染色的组织切片的图像，且特异性生物标志物是癌症生物标志物，其是分子生物标志物，例如ER生物标志物、HER2生物标志物、PR生物标志物、EGFR生物标志物或MSI生物标志物。然而，如前所述，抗原Ki-67作为指示癌症侵袭性的细胞增殖的标志物也越来越多地被测试。因此，替代性地，特异性生物标志物物可以是Ki-67。

Ki-67的报告是固有地离散的，而不是二元分类的(即，在组织中是否存在突变/富集/表达)。Ki67阳性可定义为例如超过10％的肿瘤细胞染色阳性，但最佳的截止阈值仍然是有争议的。KI67指数的识别固有地是与预测HR、ER或HER2谱不同的问题，因为结果是连续值(即百分比)而不是离散的类别。因此，由于正或负包的定义是无效的，所以该问题不能直接被描写为MIL问题。然而，使用预定义的截止点来标记训练数据(例如，对应于大于10％的载玻片被标记为1，小于10％的载玻片被标记为0)，问题可以被描写为二元分类，并且可以使用例如以上关于图4至图7描述的模型，并且以上述方式来训练这些模型。如上所述，模型的输入可以是H&E染色的载玻片。另外地或替代性地，IHC图像数据可用作输入。

可以设计一种方法，其用于利用Ki-67染色来检测IHC图像中的细胞核，使得可以执行细胞计数作为获得金标准Ki-67分数的先决条件。这是一个手动步骤，其被执行为生成H&E载玻片的标签。在上述实施例中，使用用苏木精和伊红染色剂染色的组织切片的图像训练模型，各个图像关于是否存在Ki-67生物标志物来标记。例如，标签从对应的IHC载玻片确定。

如上文关于图3(c)所述，训练模型M可以在图像处理步骤S201中使用以执行细胞分割。使用金标准注释来训练这种模型M。专家注释者(例如乳腺癌领域的病理学家)可以描绘细胞的子集，其进而可以用于训练模型M以将细胞与背景隔离以及将它们彼此分离。模型M可以通过使用基于深度学习的编码器-解码器网络以端到端的方式训练，在这些网络中，图像首先被编码到低维特征空间中，然后被重建以匹配其注释，在此期间，模型学习如何将像素转换为类标签，例如细胞和背景。取决于手头任务，可以通过添加/丢弃一些网络层以及通过合并剩余连接/方框来进一步修改模型M。

在一些示例中，注释者在训练期间直接干涉模型输出，并且校正欠分割和/或过分割。专家修改的输出又借助于外部反馈提交回模型以提高其性能。

图3(e)是训练模型M的示例方法的示意图。该方法训练模型以取得包括多个像素的输入图像数据，并生成对应于多个像素中的每一者的值，这些值表示该像素是否对应于癌组织。该模型在单独的训练过程中训练。

在该图中，输入图像被标记为I，来自模型M的输出被标记为O，由人类专家提供的注释被标记为A，并且差异度量或损失被表示为D。模型M具有相关联的参数向量θ。参数包括所有卷积层的滤波器权重。模型M取得输入图像以创建对应于M(I,θ)的推断注释O。训练过程的目标是找到参数向量θ’，使得注释与推断的注释之间的差异被最小化，即，

θ^′＝argmin_θD(A,M(I,θ))

M是网络的架构，而θ包括网络的权重。D表示损失函数。可以使用像素级交叉熵损失。可以使用分类交叉熵损失。像素级损失被计算为对数损失，在所有可能的类别上求和。在这种情况下，存在两个类别：癌组织和非癌组织。这在所有像素上重复并求平均以给出损失。对于坐标(x，y)处的各个像素，像素级损失被定义为：

其中，t_i是从类别的注释A中取得的像素的正确注释，f_i(s)是第i个类别(在总共C个类别中)的softmax函数。对于各个像素，值t对于正确的类别等于1，对于其它类别等于0。可以从注释图像自动生成各个像素的t_i值的向量。对于第i个类别，t_i指示像素是否被注释为第i个类别，其中，如果像素被注释为该类别，则t_i＝1，如果不是，则t_i＝0。Softmax函数f_i(s)由下式给出：

其中，S_j是由最终模型层针对像素的各个类别输出的分数。然后，将在图像中的每个坐标上对损失求和。

通过分配随机值作为θ且然后通过以下方式顺序地更新θ来计算最优参数：计算差异的梯度并利用所计算的梯度更新θ。通过反向传播确定损失关于模型的各个可训练参数的梯度。然后使用优化器函数使用梯度来确定更新的参数。这个更新方法族被称为梯度下降(GGD)，其通常迭代地定义为：

其中，μ是定义参数更新有多快的学习率。可以基于批平均来执行更新。例如使用8图块或16图块的批大小。

●随机梯度下降(SGD)

●AdaDelta

●Adam

●AdaMax

●Nesterov Adam优化器

●RMSProp

该模型对像素级注释敏感。换言之，如果仅通过一个像素修改训练数据，则整个模型的参数可以被不同地更新。在模型的单层中包括不同大小的空洞卷积滤波器意味着输出中的每个像素从输入图像周围传播。这意味着一个像素的差异会影响神经网络的大部分。这允许即使仅具有一个像素的差异也能更新模型。在不使用空洞卷积的情况下，大多数改变可以仅局部地传播。

使用从人类专家注释的图像提取的数据来训练模型。也可以使用各种其他训练方法，例如使用替代损失函数。一旦被训练，该模型就被用于处理在训练中看不到的图像。

上述用于ER、PR、HER2和Ki-67的方法可应用于各种癌症类型和器官，包括预测由常用癌症药物调节的生物标志物和对于癌症患者护理相关的生物标志物。

对各种生物标志物的性能示于下表1中。所使用的模型是在包括一百二十万个图像的数据集上针对包括1000个不同类别的分类任务预训练的。然后可以使用癌症图像的数据集(例如几千个癌症图像)来进一步训练模型，并且然后使用用特异性生物标志物标记的数据集(例如几百个图像)来进一步训练模型。如图所示，方法示出临床级性能，即85％或更高。表1示出了在接收者操作特性(ROC)曲线的曲线下面积(AUC)中的对生物标志物的预测的性能度量。当使用归一化单位时，ROC曲线的曲线下面积等于分类器将随机选择的阳性实例排序高于随机选择的阴性实例的概率-在这种情况下为模型将针对与生物标志物相关联的随机选择的图像输出比不与生物标志物相关联的随机选择的图像更高的概率的概率。

生物标志物	性能(AUC，％)
		ER	93％
PR	94％
		HER2	89％
MSI	97％
		EGFR	85％

当与RNN聚合算子一起使用时，对于默认数据集和仅癌数据集，包括关于图3描述的癌细胞分割阶段提供了对于各种受体约3-7％的更好AUC。与关于图3示出的方法相比，包括注意力机制、特别是关于图6示出的方法提供了大约7％的HER2改进。使用默认数据集，与关于图3示出的方法相比，包括基于RNN的聚合算子、特别是关于图5示出的方法提供了对于各种受体约5-9％的AUC改进。

本文所述的方法可以提供对组织病理组织样本的临床级无仪器多癌症多标志物概况预测。可以使用一系列神经网络识别癌症图像与生物标志物之间的相关性来从全载玻片H&E图像提供对于癌症的诊断、治疗和/或预后相关的生物标志物的自动概况分析，包括突变状态、受体状态、拷贝数变异等。该方法能够在医疗级水平性能下预测生物标志物测试的结果。因此，该方法可以代替对多个测试的需要。这可以显著地使诊断流水线流线化，例如如图9所示。

图9示出了具有生物标志物的自动概况分析的示例诊断流水线。在步骤901中，执行活检，并且在902中制备样本。样本可以是组织样本，用H&E染色。然后在903中由病理学家分析样本的图像。图像还由基于机器学习的系统(例如上文在904中描述的示例)来分析。在905中，组合903和904的输出以给出完整的诊断信息，然后在906中，将该信息提供给癌症委员会或多学科团队。然后确定治疗。通过使用本文所述的方法，可以降低与生物标志物的测试相关联的操作和资金成本。诊断时间线也可以缩短高达97％-例如从高达30天到小于一天。该方法还可以通过去除重新访问测试后病例、试运行测试、分析测试结果等的需要来简化病理学家的工作流程。最后，该方法可以减少诊断过度和诊断不足以及提高再现性。

第一模型和第二模型通过基于端到端MIL的分类直接学习鉴别阳性和阴性生物标志物状态。已经描述了不同的聚合方法。该方法可以提供基于深度学习的框架以预测例如乳腺癌的临床亚型。该方法可以使用利用可学习聚合函数的端到端训练以及集成到模型的图块选择过程。

下表2中示出了示例生物标志物的列表：

/>

表2：示例分子生物标志物的列表

虽然已经描述了某些实施例，但是这些实施例仅以示例的方式呈现，并且不旨在限制本发明的范围。实际上，本文所述的新颖方法和装置可以以各种其它形式来具体实施；此外，可以对本文所述的方法和装置的形式进行各种省略、替换和改变。

Claims

1.一种计算机实现的处理组织图像的方法，包括：

从组织的输入图像获得图像部分的第一集合；

从所述图像部分的第一集合选择一个或多个图像部分的第二集合，所述选择包括将来自所述第一集合的图像部分的图像数据输入到包括第一卷积神经网络的第一训练模型中，所述第一训练模型生成所述图像部分是否与生物标志物相关联的指示；以及

确定所述输入图像是否与来自所述一个或多个图像部分的第二集合的所述生物标志物相关联的指示。

2.根据权利要求1所述的方法，其中，所述第二集合包括两个或更多个图像部分，并且其中，所述确定包括将对应于所述一个或多个图像部分的第二集合的第一数据输入到第二训练模型中。

3.根据权利要求2所述的方法，其中，所述第二训练模型包括循环神经网络。

4.根据权利要求2或3所述的方法，其中，所述第二训练模型包括注意力机制。

5.根据权利要求3所述的方法，其中，所述第二训练模型还包括注意力机制，并且其中，确定所述输入图像是否与来自所述图像部分的第二集合的所述生物标志物相关联的指示包括：

将用于所述第二集合中的各个图像部分的所述第一数据输入到所述注意力机制中，其中，所述注意力机制被配置为输出各个图像部分的重要性的指示；

基于各个图像部分的所述重要性的所述指示来选择图像部分的第三集合；以及

对于所述第三集合中的各个图像部分，将所述第一数据输入到所述循环神经网络中，所述循环神经网络生成所述输入图像是否与所述生物标志物相关联的所述指示。

6.根据权利要求2至5中任一项所述的方法，其中，所述图像部分是否与所述生物标志物相关联的所述指示是所述图像部分与所述生物标志物相关联的概率，其中，选择所述第二集合包括选择具有最高概率的k个图像部分，其中，k是大于1的预定义整数。

7.根据权利要求2至5中任一项所述的方法，其中，所述第一卷积神经网络包括：第一部分，所述第一部分包括至少一个卷积层；和第二部分，其中，所述第二部分将一维向量作为输入；

其中，确定所述输入图像是否与来自所述图像部分的第二集合的所述生物标志物相关联的所述指示还包括：

生成用于所述图像部分的第二集合的各个图像部分的所述第一数据，生成用于图像部分的所述第一数据包括将所述图像部分的所述图像数据输入到所述第一卷积神经网络的所述第一部分中。

8.根据前述权利要求中任一项所述的方法，其中，还包括：

从所述图像部分的第一集合选择一个或多个图像部分的第四集合，所述选择包括将来自所述第一集合的图像部分的图像数据输入到包括第二卷积神经网络的第三训练模型中；

其中，从所述一个或多个图像部分的第四集合和所述一个或多个图像部分的第二集合确定所述输入图像是否与所述生物标志物相关联的所述指示。

9.根据前述权利要求中任一项所述的方法，其中，所述生物标志物是癌症生物标志物，并且其中，从组织的输入图像获得所述图像部分的第一集合包括：

将所述组织的输入图像拆分为图像部分；

将图像部分的图像数据输入到第五训练模型中，所述第五训练模型生成所述图像部分是否与癌组织相关联的指示；以及

基于所述图像部分是否与癌组织相关联的所述指示来选择所述图像部分的第一集合。

10.根据前述权利要求中任一项所述的方法，其中，所述生物标志物是分子生物标志物。

11.一种用于处理组织图像的系统，包括：

输入，其被配置为接收组织的输入图像；

输出，其被配置为输出所述输入图像是否与生物标志物相关联的指示；

一个或多个处理器，其被配置为：

从通过所述输入接收的所述组织的输入图像获得图像部分的第一集合；

从所述图像部分的第一集合选择一个或多个图像部分的第二集合，所述选择包括将来自所述第一集合的图像部分的图像数据输入到包括第一卷积神经网络的第一训练模型中，所述第一训练模型生成所述图像部分是否与生物标志物相关联的指示；

确定所述输入图像是否与来自所述一个或多个图像部分的第二集合的所述生物标志物相关联的指示；以及

通过所述输出来输出所述指示。

12.一种计算机实现的训练方法，包括：

从组织的输入图像获得图像部分的第一集合；

将来自所述第一集合的图像部分的图像数据输入到包括第一卷积神经网络的第一模型中，所述第一模型生成所述图像部分是否与生物标志物相关联的指示；

基于与所述组织的输入图像相关联的指示所述输入图像是否与所述生物标志物相关联的标签来适配所述第一模型。

13.根据权利要求12所述的方法，其中，还包括：

基于所述图像部分是否与生物标志物相关联的所述指示从所述图像部分的第一集合中选择一个或多个图像部分的第二集合；

通过将对应于所述图像部分的第二集合的第一数据输入到第二模型中来确定所述输入图像是否与来自所述一个或多个图像部分的第二集合的所述生物标志物相关联的指示，并且其中，所述方法还包括：基于与所述组织的输入图像相关联的指示所述输入图像是否与所述生物标志物相关联的所述标签来适配所述第二模型。

14.一种系统，包括根据权利要求12或13所述的方法训练的第一模型和第二模型。

15.一种包括计算机可读代码的载体介质，所述计算机可读代码被配置为使计算机执行根据权利要求1至10或12至13中任一项所述的方法。