CN115088022A - 用于训练机器学习算法和维护患者隐私的联邦学习系统 - Google Patents

用于训练机器学习算法和维护患者隐私的联邦学习系统 Download PDF

Info

Publication number
CN115088022A
CN115088022A CN202180013185.8A CN202180013185A CN115088022A CN 115088022 A CN115088022 A CN 115088022A CN 202180013185 A CN202180013185 A CN 202180013185A CN 115088022 A CN115088022 A CN 115088022A
Authority
CN
China
Prior art keywords
model
image
updated
global model
global
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180013185.8A
Other languages
English (en)
Inventor
F·阿盖伊
N·穆拉里
J·F·马丁
J·施密德
F·谢赫扎德
A·索姆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ventana Medical Systems Inc
Original Assignee
Ventana Medical Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ventana Medical Systems Inc filed Critical Ventana Medical Systems Inc
Publication of CN115088022A publication Critical patent/CN115088022A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/95Hardware or software architectures specially adapted for image or video understanding structured as a network, e.g. client-server architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30024Cell structures in vitro; Tissue sections in vitro

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Primary Health Care (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Epidemiology (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本公开提供一种用于在数字病理学中使用联邦学习分类器的方法,所述方法包括通过集中式服务器将全局模型分发给多个客户端装置。所述客户端装置使用样本的多个图像和对应注释来进一步训练所述全局模型,以生成至少一个进一步训练的模型。所述客户端装置向所述集中式服务器提供进一步训练的模型,所述集中式服务器将所述进一步训练的模型与所述全局模型聚合以生成更新的全局模型。然后将所述更新的全局模型分发给所述多个客户端装置。

Description

用于训练机器学习算法和维护患者隐私的联邦学习系统
技术领域
本公开涉及数字病理学,且更具体地涉及用于联邦学习的机器学习技术。
背景技术
数字病理学涉及将具有组织和/或细胞的病理学载玻片(例如,组织病理学或细胞病理学玻璃载玻片)扫描成数字图像以用于评估。出于包括疾病诊断、对疗法的应答的评估以及药物制剂的开发以对抗疾病的多种原因,数字图像内的组织和/或细胞可以随后使用数字病理学图像分析进行检查和/或由病理学家进行解释。为了检查数字图像(其几乎是透明的)内的组织和/或细胞,可以使用选择性结合到组织和/或细胞组分的彩色染色剂(例如免疫染色剂)来制备病理学载玻片。免疫组织化学(IHC)是免疫染色的一种常见应用,并且其通过利用抗体和其他化合物(或化学物质)与生物组织中的抗原特异性结合的原理,选择性地标识组织切片的细胞中的抗原(蛋白质)的过程。在一些测定中,样本中染色的靶抗原可称为生物标记物。此后,可以在染色组织和/或细胞的数字图像上进行数字病理学图像分析,以识别和量化生物组织中针对抗原(例如指示肿瘤细胞的生物标记物)的染色。
机器学习技术在数字病理学图像分析中(诸如在肿瘤区域识别、转移检测和患者预后中)已显示出巨大的前景。许多配备有机器学习技术的计算系统,包括卷积神经网络(CNN),已被提议用于图像分类和数字病理学图像分析(诸如肿瘤区域和转移检测)。例如,CNN可以具有一系列卷积层作为隐藏层,并且这种网络结构能够提取用于对象/图像分类和数字病理学图像分析的代表性特征。除了对象/图像分类之外,用于图像分割的机器学习技术也已实现。图像分割是将数字图像分割成多个片段(像素集,也称为图像对象)的过程。分割的典型目标是简化和/或将图像的表示更改为更有意义且更易于分析的内容。例如,图像分割通常用于定位图像中的对象,如肿瘤(或其他组织类型)和边界(线、曲线等)。为了对大数据(例如整个载玻片病理学图像)执行图像分割,首先将图像分为许多小块。训练配备有机器学习技术的计算系统以对这些块进行分类,并将同一类别中的所有块组合成一个分割区域。此后,基于与分割区域相关联的代表性特征,机器学习技术可以被进一步实现以对分割区域(例如阴性肿瘤细胞或没有染色表达的肿瘤细胞)进行预测或分类。
各种机器学习技术需要训练数据,以建立执行分类的基准真值。在医疗领域,由于隐私问题和法律要求,患者数据通常难以获取。因此,正确地训练分类器可能会带来挑战。联邦学习是一种分散的机器学习技术,涉及向一个或多个客户端装置提供基本分类器。然后,装置中的每一个可使用基本分类器进行操作。由于在装置中的每一个上使用分类器,因此用户提供有关由分类器提供的输出的输入。用户可基于输出向其各自的分类器提供输入,并且可根据用户输入来更新各自的分类器中的每一个。接着,可提供更新的分类器来更新基本分类器。之后可将更新的分类器分发给客户端装置。因此,联邦学习系统能够在不需要在实体之间传递数据的情况下进行更新。
发明内容
在各种实施例中,提供了一种计算机实现方法。
在一些实施例中,提供了一种系统,其包括:一个或多个数据处理器;以及包含指令的非暂时性计算机可读存储介质,所述指令在所述一个或多个数据处理器上被执行时使所述一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部。
在一些实施例中,提供了一种计算机程序产品,其有形地体现在非暂时性机器可读存储介质中,并且其包括指令,所述指令被配置为使一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部。
本公开的一些实施例包括一种包括一个或多个数据处理器的系统。在一些实施例中,该系统包括包含指令的非暂时性计算机可读存储介质,所述指令在所述一个或多个数据处理器上被执行时使所述一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部和/或本文公开的一种或多种过程的部分或全部。本公开的一些实施例包括一种有形地体现在非暂时性机器可读存储介质中的计算机程序产品,其包括指令,所述指令被配置为使一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部和/或本文公开的一种或多种过程的部分或全部。
本公开的一些实施例包括一种用于使用联邦学习分类器的计算机实现方法。所述方法包括:通过集中式服务器将配置成对病理学图像进行分类的全局模型分发给多个客户端装置;通过集中式服务器从多个客户端装置中的至少一个接收更新的模型,其中已经使用多个载玻片图像和多个对应注释在多个客户端装置中的至少一个处进一步训练更新的模型;通过集中式服务器将更新的模型与全局模型聚合以生成更新的全局模型;以及将更新的全局模型分发给多个客户端装置中的至少一个。
本公开的一些实施例包括一种计算机实现方法,其中将更新的模型与全局模型聚合以生成更新的全局模型包含执行对全局模型的至少一个权重与更新的模型的至少一个权重的平均。
本公开的一些实施例包括一种计算机实现方法,其中执行平均包括根据用于进一步训练更新的模型的多个载玻片图像的数量和用于训练全局模型的图像的总数量,根据更新的模型的至少一个权重与全局模型的至少一个权重执行加权平均。
本公开的一些实施例包括一种计算机实现方法,其中注释由观察载玻片图像上的全局模型的输出的用户提供,并且注释包括对由全局模型产生的输出的修改。
本公开的一些实施例包括一种计算机实现方法,所述计算机实现方法进一步包括通过集中式服务器接收与多个载玻片图像相关联的元数据,其中聚合进一步包含根据所述元数据对进一步训练的模型进行归一化。
本公开的一些实施例包括一种计算机实现方法,所述计算机实现方法进一步包括通过集中式服务器使用验证数据集来验证更新的全局模型相对于全局模型的性能改进。
本公开的一些实施例包括一种用于通过客户端装置使用联邦学习分类器的计算机实现方法。所述方法包括:从集中式服务器接收配置成对病理学图像进行分类的全局模型;接收染色组织图像,其中染色组织图像被分成图像块;使用全局模型对图像块执行图像分析;使用图像块和至少一个对应用户注释来训练全局模型以生成更新的模型,其中至少一个对应用户注释包括对由全局模型产生的分类的校正;将更新的模型发送到集中式服务器;接收更新的全局模型;使用客户端特定的验证数据集来验证更新的全局的性能改进。
本公开的一些实施例包括一种计算机实现方法,其中对由全局模型产生的分类的校正为对细胞类型、组织类型或组织边界中的至少一者的重新分类。
本公开的一些实施例包括一种计算机实现方法,其中更新的模型不含有个体患者信息。
本公开的一些实施例包括一种计算机实现方法,所述计算机实现方法进一步包括生成与多个图像相关的元数据;以及将元数据提供给集中式服务器。
本公开的一些实施例包括一种计算机实现方法,其中元数据包括以下中的至少一者:图像对应的载玻片或组织的区域、所执行的染色的类型、染色的浓度以及用于染色或扫描的设备。
本公开的一些实施例包括一种计算机实现方法,其中发送更新的模型是在阈值多次迭代、时间长度之后或在模型已经被修改超过阈值量之后执行的。
本公开的一些实施例包括一种用于在数字病理学中使用联邦学习分类器的计算机实现方法。所述方法包括:通过集中式服务器将全局模型分发给多个客户端装置;通过来自多个客户端装置的客户端装置使用样本的多个图像来训练全局模型,以生成至少一个进一步训练的模型,其中多个图像中的一个或多个图像包括至少一个注释;通过客户端装置向集中式服务器提供进一步训练的模型;通过集中式服务器将进一步训练的模型与全局模型聚合,以生成更新的全局模型;以及将更新的全局模型分发给多个客户端装置。
本公开的一些实施例包括一种计算机实现方法,所述计算机实现方法进一步执行:通过客户端装置生成与多个图像相关的元数据;以及通过客户端装置向集中式服务器提供元数据,其中通过集中式服务器将进一步训练的模型与全局模型聚合以生成更新的全局模型进一步包含根据元数据对进一步训练的模型进行归一化。
本公开的一些实施例包括一种计算机实现方法,其中元数据包括以下中的至少一者:图像对应的载玻片或组织的区域、所执行的染色的类型、染色的浓度以及用于染色或扫描的设备。
本公开的一些实施例包括一种计算机实现方法,所述计算机实现方法进一步配置成通过集中式服务器,使用验证数据集来验证更新的全局模型相对于全局模型的性能。
本公开的一些实施例包括一种计算机实现方法,所述计算机实现方法进一步配置成当更新的全局模型的性能逊于全局模型时,将回滚对全局模型的更新。
本公开的一些实施例包括一种计算机实现方法,其中将更新的模型与全局模型聚合以生成更新的全局模型包括执行对全局模型的至少一个权重与更新的模型的至少一个权重的平均。
本公开的一些实施例包括一种计算机实现方法,其中执行平均包括根据用于进一步训练更新的模型的多个载玻片图像的数量和用于训练全局模型的图像的总数量,根据更新的模型的至少一个权重与全局模型的至少一个权重执行加权平均。
本公开的一些实施例包括一种计算机实现方法,其中发送更新的模型是在阈值多次迭代、时间长度之后或在模型已经被修改超过阈值量之后执行的。
已使用的术语和表述被用作描述性而非限制性的术语,并且在使用此类术语和表述时无意排除示出和描述的特征或其部分的任何等效物,但应认识到在要求保护的本发明的范围内可以进行各种修改。因此,应当理解,尽管所要求保护的本发明已通过实施例和任选特征具体地公开了,但是本文所公开的概念的修改和变化可被本领域内的技术人员采用,并且这样的修改和变化被认为是在由所附权利要求限定的本发明的范围内
附图说明
结合以下附图描述本公开:
图1示出了根据各种实施例的联邦学习数字病理学系统的实例;
图2示出了根据各种实施例的用于使用深度卷积神经网络进行非肿瘤分割和图像分析的计算环境的框图;
图3示出了根据各种实施例的代表用于非靶标区域分割的模型架构的示例性示意图300;
图4描绘了根据各种实施例的跨不同H&E载玻片图像的染色变化的实例;
图5示出了根据各种实施例的用于训练预测模型的过程;
图6示出了根据各种实施例的用于预测模型的一轮FL训练的过程;
图7示出了根据各种实施例的预测模型的多轮FL训练之后产生的结果;
图8示出了根据各种实施例的用于预测模型的一轮FL训练的过程;
图9示出了根据各种实施例的用于从客户端接收更新的模型的过程;
在附图中,相似部位和/或特征可具有相同的参考标记。此外,可通过在参考标号后面加上破折号和区分相似部位的第二标号来区分相同类型的各种部位。如果说明书中仅使用第一参考标号,则该描述适用于任何一个具有相同的第一参考标号的相似部位,而与第二参考标号无关。
具体实施方式
本公开描述用于数字病理学(DP)联邦学习(FL)系统的技术。FL是一种分布式机器学习方法,其中协同使用多个客户端装置来训练深度学习模型(全局模型)以在不共享训练数据执行图像分析。服务器配置成将全局模型分发给一个或多个客户端。服务器配置为作为迭代过程的一部分来维护、更新和重新分发全局模型。在每次迭代(或轮次)中,每个客户端都可以接收全局模型以对局部数据(例如,包括病理学切片的患者数据)执行DP图像分析。客户端可以利用其局部可用的数据(例如,患者数据和用户输入)来进一步训练全局模型。更新的模型可以定期从一个或多个客户端发送到服务器。可以将更新的模型并入到全局模型中以产生更新的全局模型。之后可以将更新的分类器分发给客户端装置。迭代无限期地继续,或者例如直到训练收敛。在一些实例中,接收到的更新的模型可能不会整合到全局模型中。
免疫组化(IHC)载片染色可以用来识别组织切片细胞中的蛋白质,因此被广泛用于研究不同类型的细胞,如生物组织中的癌细胞和免疫细胞。可以在高倍率显微镜下对组织切片的IHC染色细胞进行评估和/或使用数字病理学算法自动分析生物样本的数字图像。通常,在整个载玻片分析中,染色生物样本的评估需要对染色生物样本的区域进行分割,包括识别靶标区域(例如阳性和阴性肿瘤细胞)和排除非靶标区域(例如正常组织或空白载玻片区域)。在一些情况下,要排除的非靶标区域包括生物材料或结构,这些生物材料或结构很难与靶标区域的其他生物材料或结构区分开来,因此被从生物样本的评估排除。因此,在这种情况下,病理学家通常会提供人工肿瘤注释,同时排除非靶标区域。然而,由于在高放大倍率下整个载玻片图像的尺寸大和要处理的数据量大,所以人工肿瘤注释容易出错、病理医师偏倚、且费力。
由于多种原因,肿瘤和肿瘤细胞的自动分割和分类可能很困难。例如,肿瘤和肿瘤细胞在大小、形状和位置方面因患者而可能大为不同。这阻碍了在许多其他应用(诸如面部识别或导航)中使用通常用于稳健图像分析的形状和定位的强先验。因此,传统的图像分析算法通常提供这些困难区域的不期望的检测结果(例如,过度检测或错误分类)。
为了解决这些限制和问题,需要多种和大量的训练数据。鉴于与医疗数据有关的隐私问题,已证实很难获得大量训练数据。用于本实施例的FL DP系统的技术包含使用机器学习架构,该架构允许在客户端位置使用数据进行训练,而不需要将数据发送到集中位置。因此,患者的私人信息不会离开其原始位置,并且减少了隐私问题。本公开的一个说明性实施例涉及一种用于对病理载玻片自动执行图像分析的计算机实现方法,包含执行预处理、图像分析和后处理。例如,FL DP系统可以包含一个或多个深度学习架构,这些架构利用FL来提高性能,同时不在实体之间传输底层训练数据。例如,FL DP系统可以包括深度学习预处理系统(例如,用于执行图像分割以去除或掩膜某些区域)、用于图像处理的深度学习系统(例如,识别具有期望的特征的图像区域),和/或用于执行后处理的深度学习系统(例如,利用图像的已识别区域执行进一步分析)。因此,FL DP系统可以在每个客户端装置处包含多个模型,并且每个模型可以利用FL。
在一些实施例中,计算机实现的方法可以包括使用一个或多个模型。模型可以具有卷积神经网络(CNN)架构或模型,例如,利用二维分割模型(例如,修改的U-Net或其他合适的架构)在执行标准图像分析算法之前自动检测和排除生物结构或非肿瘤细胞,以学习和识别靶标区域。接着,可以执行后分析以提供或帮助提供诊断或进一步的行动过程。卷积神经网络架构或模型可以使用预先标记的图像进行训练。因此,可以使用模型(例如,训练后的卷积神经网络架构或模型)来分割非靶标区域,然后可以在将图像输入到图像分析算法之前、期间或之后,从整个载玻片分析对非靶标区域进行掩膜。图像分析模型(例如,CNN)执行分类任务以及输出靶标区域的肿瘤读数。后处理模型根据肿瘤读数执行进一步的分类。有利地,这种提出的架构和技术可以通过改进在图像分析的每个阶段使用的模型来提高肿瘤细胞分类的准确性。
如本文所用,当动作“基于”某物时,这意味着该动作至少部分地基于某物的至少一部分。
如本文所用,术语“基本上”、“大约”和“约”被定义为在很大程度上但不必完全是所规定的(并且包括完全是所规定的),如本领域普通技术人员所理解的。在任何公开的实施例中,术语“基本上”、“大约”或“约”可以用对于所指定的“在[某个百分比]内”替代,其中百分比包括0.1%、1%、5%和10%。
如本文所用,术语“样品”、“生物样品”或“组织样品”是指从包括病毒在内的任何生物体获得的包括生物分子(诸如蛋白质、肽、核酸、脂质、碳水化合物或它们的组合)在内的任何样品。其他生物体的实例包括哺乳动物(诸如人类;兽类动物,如猫、狗、马、牛和猪;以及实验室动物,如小鼠、大鼠和灵长类动物)、昆虫、环节动物、蛛形纲动物、有袋类动物、爬行类动物、两栖类动物、细菌和真菌。生物样品包括组织样品(例如组织切片和组织的穿刺活检)、细胞样品(例如细胞学涂片,如子宫颈涂片或血液涂片或通过显微解剖获得的细胞样品),或细胞级分、碎片或细胞器(例如通过裂解细胞并通过离心或其他方式分离其组分获得)。生物样品的其他实例包括血液、血清、尿液、精液、粪便、脑脊液、间质液、粘液、眼泪、汗液、脓液、活检组织(例如,通过手术活检或穿刺活检获得)、乳头抽吸物、耵聍、乳汁、阴道分泌物、唾液、拭子(例如口腔拭子)、或任何含有从第一生物样品导出的生物分子的材料。在某些实施例中,本文使用的术语“生物样品”是指从受试者获得的肿瘤或其一部分制备的样品(例如经均质或液化处理的样品)。
如本文所用,术语“生物材料或结构”是指天然材料或结构,其包含整个或部分的活体结构(例如细胞核、细胞膜、细胞质、染色体、DNA、细胞、细胞簇等)。
如本文所用,术语“非靶标区域”是指具有图像数据的图像的区域,其图像数据不打算在图像分析处理中评估。非靶标区域可以包括对应于基底(如没有样品的玻璃)的图像的非组织区域,例如其中只存在来自成像源的白光。非靶标区域可以附加地或替代地包含图像的组织区域,该图像的组织区域对应于不打算在图像分析过程中分析或难以与靶标区域内的生物材料或结构(例如,淋巴聚集体)区分开来的生物材料或结构。
如本文所用,术语“靶标区域”是指包含图像数据的图像的区域,其图像数据打算在图像分析处理中评估。靶标区域包含如图像的组织区域的打算在图像分析过程中分析的任何区域。
如本文所用,术语“瓦片”或“瓦片图像”是指对应于整个图像或整个载玻片的一部分的单个图像。在一些实施例中,“瓦片”或“瓦片图像”是指整个载玻片扫描的区域或具有(x、y)像素维度(例如1000像素x1000像素)的目标区域。例如,考虑将整个图像分成M列的瓦片和N行的瓦片,其中M x N拼接中的每个瓦片包含整个图像的一部分,即在位置MI,NI处的瓦片包含图像的第一部分,而在位置M3,N4处的瓦片包含图像的第二部分,第一部分和第二部分是不同的。在一些实施例中,瓦片可以各自具有相同的维度(像素尺寸x像素尺寸)。
如本文所用,术语“块”或“图像块”是指对应于瓦片图像、整个图像或整个载玻片的一部分的像素容器。在一些实施例中,“块”或“图像块”是指瓦片图像的区域或具有(x、y)像素维度(例如256像素x256像素)的目标区域。例如,一个1000像素x1000像素的瓦片图像被分成100像素x100像素的块,该瓦片图像将包含100个块(每个块包含1000个像素)。在其他实例中,块可以重叠。
在一些实施例中,用于数字病理学(DP)的联邦学习(FL)系统可以用于生成和分发全局模型(例如,聚合的全局模型),而不在客户端和/或集中式系统(例如,服务器)之间交换敏感或识别数据(例如,患者数据)。服务器配置成在从客户端接收更新的模型时,在迭代过程中维护和分发全局模型。图1描绘了实例FL DP系统100,该系统包含配置成维护和分发一个或多个全局模型112、114的一个或多个服务器110。服务器110与一个或多个客户端系统120、130、140通信,这些客户端系统可以各自包含各种DP设备,如工作站122、132、142、显微镜124、134、144、数字载玻片扫描仪126、136、146以及本领域技术人员所理解的任何其他必要设备。客户端系统中的每一个可以利用基于全局模型112、114的一个或多个局部模型128、138、148、150。客户端系统120、130、140可以用于进一步训练局部模型128、138、148、150。例如,客户端系统120、130、140可以接收患者数据,使用局部模型128、138、148、150对患者数据进行分类,接收关于所分类的患者数据的用户输入(例如,来自病理学家或利用显示所分类的数据的图形用户界面的其他医学专业人员),并且基于用户输入更新局部模型128、138、148,150(例如,每个客户端通过使用局部训练数据集重新训练全局模型)。在各种实施例中,客户端装置配置成周期性地将它们的局部模型128、138、148、150提供给集中式服务器110。集中式服务器110然后可以利用局部模型128、138、148、150来更新全局模型112、114(例如,通过更新全局模型中的权重)并将更新的全局模型112、114分发到客户端系统120、130、140。
在一些实施例中,在每次迭代之后,可以使用验证数据集来确定更新的局部模型128、138、148、150中的每一个的性能。当已经确定局部模型128、138、148、150在验证数据集上提供改进的性能时,局部模型可并入到全局模型112、114中。更新的全局模型112、114的性能也可以用验证数据集来验证。如果全局模型112、114已经得到改进,则更新的全局模型112、114可以分发给客户端装置120、130、140中的全部或一些。在一些实施例中,客户端可以选择不共享其更新的局部模型128、138、148、150,但仍接收更新的全局模型112、114。在其他实施例中,客户端可以选择共享其局部模型128、138、148、150,但不接收任何更新的全局模型112、114。在其他实施例中,客户端可以选择不共享其更新的局部模型128、138、148、150,并且不接收更新的全局模型112、114。因此,在客户端站点处生成的模型不受集中式服务器110的控制,而是基于客户端的判断与集中式服务器110共享。每个客户端可以具有独立的验证数据集,并且可以使用验证数据集以根据其质量标准来检查模型的性能。基于此验证,客户端可以确定是否部署全局模型112、114。
在一些实施例中,在每次迭代之后,可以使用验证数据集来确定更新的局部模型128、138、148、150中的每一个的性能。当已经确定局部模型128、138、148、150在验证数据集上提供改进的性能时,局部模型可并入到全局模型112、114中。更新的全局模型112、114的性能也可以用验证数据集来验证。如果全局模型112、114已经得到改进,则更新的全局模型112、114可以分发给客户端装置120、130、140中的全部或一些。在一些实施例中,客户端可以选择不共享其更新的局部模型128、138、148、150,但仍接收更新的全局模型112、114。在其他实施例中,客户端可以选择共享其局部模型128、138、148、150,但不接收任何更新的全局模型112、114。在其他实施例中,客户端可以选择不共享其更新的局部模型128、138、148、150,并且不接收更新的全局模型112、114。因此,在客户端站点处生成的模型不受集中式服务器110的控制,而是基于客户端的判断与集中式服务器110共享。每个客户端可以具有独立的验证数据集,并且可以使用验证数据集以根据其质量标准来检查模型的性能。基于此验证,客户端可以确定是否部署更新的全局模型112、114。
图2示出了根据各种实施例的用于使用深度卷积神经网络进行非肿瘤分割和图像分析的计算环境200的框图。计算环境200可以包括分析系统205以训练和执行预测模型,例如二维CNN模型。更具体地,分析系统205可以包括训练子系统210a-n(‘a’和‘n’代表任何自然数),这些训练子系统构建和训练它们各自的预测模型215a-n(在本文中可以单独称为预测模型215或统称为预测模型215)以供计算环境200的其他组件使用。预测模型215可以是机器学习(“ML”)或深度学习(“DL”)模型,如深度卷积神经网络(CNN),例如U-Net神经网络、起始神经网络、剩余神经网络(“Resnet”)或递归神经网络,例如,长短期记忆(“LSTM”)模型或门控递归单元(“GRUs”)模型。预测模型215也可以是任何其他合适的ML模型,训练来分割非靶标区域(例如,淋巴聚集区域)、分割靶标区域或提供靶标区域的图像分析,诸如二维CNN(“2DCNN”)、动态时间规整(“DTW”)技术、隐马尔可夫模型(“HMM”)等,或此类技术中一种或多种技术的组合——例如,CNN-HMM或MCNN(多尺度卷积神经网络)。计算环境200可以采用相同类型的预测模型或不同类型的预测模型,训练来分割非靶标区域、分割靶标区域或提供靶标区域的图像分析。例如,计算环境200可以包含用于分割非靶标区域(例如,淋巴聚集区域、坏死区域或任何其他合适的区域)的第一预测模型(例如,U-Net)。计算环境200还可以包括用于分割靶标区域(例如肿瘤细胞区域)的第二预测模型(例如2DCNN)。计算环境200还可以包括用于靶标区域的图像分析的第三模型(例如CNN)。计算环境200还可以包括第四模型(例如HMM),用于对疾病诊断的治疗、或对受试者(如患者)的预后。在根据本公开的其他示例中,还有其他类型的预测模型可以实现。此外,可以使用多种模型对不同的细胞类型和区域进行分类。
在各种实施例中,对应于分类器子系统210a-n的每个预测模型215a-n可以基于由服务器110提供的全局模型112、114。在各种实施例中,基于一组或多组输入图像元素220a-n,分别另外训练对应于分类器子系统210a-n的每一个预测模型215a-n。在一些实施例中,输入图像元素220a-n中的每一者都包含来自一个或多个扫描的载玻片的图像数据。输入图像元素220a-n中的每一者可以对应于来自单个样本的图像数据和/或在对应于该图像的底层图像数据被收集的当天的图像数据。图像数据可以包括图像,以及与生成图像的成像平台相关的任何信息。例如,组织切片可能需要通过应用染色测定进行染色,该染色测定包含一种或多种与显色染色剂或荧光团相关的不同生物标记物,用于明场成像或荧光成像。染色测定可以使用显色染色剂用于明场成像,使用有机荧光团、量子点或有机荧光团与量子点一起用于荧光成像,或使用染色剂、生物标记物以及观察或成像装置的任何其他组合。此外,典型的组织切片是在自动化染色/平台中进行处理的,该平台将染色测定应用于组织切片,从而产生染色样品。市场上有多种适合用作染色/测定平台的商业产品,一个例子是受让方Ventana Medical Systems,Inc.的产品VENTANA SYMPHONY。染色的组织切片可以提供给成像系统,例如显微镜或具有显微镜和/或成像组件的全载玻片扫描仪上,一个例子是受让方Ventana Medical Systems,Inc.的产品VENTANA iScan Coreo。多路复用组织载玻片可在等效的多路复用载玻片扫描仪系统上进行扫描。由成像系统提供的附加信息可以包括与染色平台相关的任何信息,包括用于染色的化学物质的浓度、在染色中应用到组织的化学物质的反应时间和/或组织的预分析条件,诸如组织年龄、固定方法、持续时间、切片如何嵌入、切割等。
输入图像元素220a-n可包括一个或多个训练输入图像元素220a-d、验证输入图像元素220e-g和未标记的输入图像元素220h-n。应当理解,不需要同时访问对应于训练、验证和未标记组的输入图像元素220a-n。例如,可以首先访问训练和验证输入图像元素220a-n的集并将其用于进一步训练预测模型215,并且后续可以访问或接收未标记的输入图像元素(例如,在单个或多个后续的时间)并由进一步训练的预测模型215用来提供期望的输出(例如,非靶标区域的分割)。在一些情况下,预测模型215a-n使用监督训练进行训练,并且训练输入图像元素220a-d和任选的验证输入图像元素220e-g中的每一者都与一个或多个标签225相关联,这些标签225识别训练输入图像元素220a-d和验证输入图像元素220e-g中非靶标区域、靶标区域以及各种生物材料和结构的识别的“正确”解释。关于与正常或异常的生物结构(例如肿瘤细胞)相关的染色的存在和/或解释,标签可替代地或附加地用于分类相对应的训练输入图像元素220a-d和验证输入图像元素220e-g或其中的像素。在某些情况下,标签可替代地或附加地用于分类相对应的训练输入图像元素220a-d和验证输入图像元素220e-g,其时间点与拍摄底层图像的时间点或后续的时间点(例如,这是在拍摄图像的时间之后的预定义的持续时间)相对应。
在一些实施例中,分类器子系统210a-n包括特征提取器230、参数数据存储器235、分类器240和训练器245,它们共同用于基于训练数据(例如训练输入图像元素220a-d)来训练预测模型215并在监督或无监督训练期间优化预测模型215的参数。在一些情况下,训练过程包括迭代操作,以找到预测模型215的参数组,该参数组使预测模型215的损失函数最小化。每次迭代都可以涉及找到预测模型215的参数组,使得使用该参数组的损失函数的值小于在先前迭代中使用另一参数组的损失函数的值。可以构造损失函数以测量使用预测模型215预测的输出与使用包含在训练数据中的标签225预测的输出之间的差异。一旦识别出该参数组,预测模型215就已经被训练且可以按照设计用于分割和/或预测。
在一些实施例中,分类器子系统210a-n在输入层访问来自训练输入图像元素220a-d的训练数据。特征提取器230可以预处理训练数据以提取在训练输入图像元素220a-d的特定部分检测到的相关特征(例如,边缘、颜色、纹理或任何其他合适的相关特征)。分类器240可以接收提取到的特征并且根据与一个或多个预测模型215中的一组隐藏层相关联的权重将特征转换成一个或多个输出度量,该输出度量分割非靶或靶标区域、提供图像分析、提供针对受试者(如患者)的用于治疗的疾病诊断和预后、或它们的组合。训练器245可以使用对应于训练输入图像元素220a-d的训练数据,通过促进一个或多个参数的学习来训练特征提取器230和/或分类器240。例如,训练器245可以使用反向传播技术来促进与分类器240所使用的预测模型215的一组隐藏层相关联的权重的学习。反向传播可使用例如随机梯度下降(SGD)算法来累积更新隐藏层的参数。学习到的参数可以包括例如权重、偏差和/或其他隐藏层相关参数,这些参数可以存储在参数数据存储区235中。
可以部署单独训练的预测模型或训练的预测模型的集合来处理未标记的输入图像元素220h-n以分割非靶或靶标区域、提供图像分析、提供针对受试者(如患者)的用于治疗的疾病诊断和预后、或它们的组合。更具体地,经训练版本的特征提取器230可以生成未标记的输入图像元素的特征表示,然后可以由经训练版本的分类器240来处理该特征表示。在一些实施例中,可以基于使分类器子系统210a-n中的预测模型215的膨胀最优化的一个或多个卷积块、卷积层、残差块或锥体层,从未标记的输入图像元素220h-n提取图像特征。这些特征可以被组织在特征表示(如图像的特征向量)中。可以训练预测模型215以学习基于分类和隐藏层(包括预测模型215的全连接层)中参数的后续调整来学习特征类型。
在一些实施例中,通过卷积块、卷积层、残差块或锥体层提取的图像特征包括特征图,这些特征图是表示样本载玻片的一个或多个部分的值的矩阵,在这些部分上已经执行了一个或多个图像处理操作(例如边缘检测、锐化图像分辨率)。这些特征图可被展平以供预测模型215的全连接层处理,该全连接层输出非靶标区域掩膜、靶标区域掩膜或对应于与样本载玻片有关的当前或未来的预测的一个或多个度量。例如,可以将输入图像元素馈送到预测模型215的输入层。输入层可以包括与特定像素对应的节点。第一隐藏层可以包括隐藏节点的集,该隐藏节点的集中的每个隐藏节点都连接到多个输入层节点。后续隐藏层中的节点可以类似地被配置为接收对应于多个像素的信息。因此,隐藏层可以被配置为进行学习以检测跨越多个像素的特征。一个或多个隐藏层中的每个隐藏层可以包括卷积块、卷积层、残差块或锥体层。预测模型215可以进一步包括一个或多个全连接层(例如softmax层)。
训练输入图像元素220a-d、验证输入图像元素220e-g和/或未标记的输入图像元素220h-n中的至少一部分元素可以包括从来源直接或间接获得的数据或可能已经从该数据得出,该来源可能但不一定是分析系统205的元素。在一些实施例中,计算环境200包括成像装置250,该成像装置250对样品进行成像以获得图像数据,例如具有多个(举例而言,如十到十个之间)通道的多通道图像(例如多通道荧光或明场图像)。成像装置250可以包括但不限于照相机(例如模拟相机、数字相机等)、光学器件(例如一个或多个透镜、传感器聚焦透镜组、显微镜物镜等)、成像传感器(例如电荷耦合器件(CCD)、互补金属氧化物半导体(CMOS)图像传感器等)、感光胶片等。在数字实施例中,图像捕捉装置可以包括多个镜头,这些镜头可协作证明具备即时对焦功能。图像传感器,例如,CCD传感器可以捕获样本的数字图像。在一些实施例中,成像装置250是明场成像系统、多光谱成像(MSI)系统或荧光显微镜系统。成像装置250可以利用不可见的电磁辐射(例如UV光)或其他成像技术来捕捉图像。例如,成像装置250可以包括显微镜和被布置成捕捉由显微镜放大的图像的相机。由图像分析系统205接收的图像数据可以与由成像装置250捕获的原始图像数据相同以及/或可以从该原始图像数据得出。
在一些情况下,与训练输入图像元素220a-d和/或验证输入图像元素220e-g相关联的标签225可能已经被接收或可从接受自一个或多个提供者系统255的数据得出,其中每一个供应商系统都可关联于(例如)与特定受试者相关联的医生、护士、医院、药剂师等。接收到的数据可以包括(例如)与特定受试者对应的一个或多个医疗记录。医疗记录可指示(例如)专业人士的诊断或表征,关于收集与受试者相关联的一个或多个输入图像元素的时间所对应的时间段或后续定义的时间段,该诊断或表征指示受试者是否患有肿瘤和/或受试者的肿瘤的进展阶段(例如,沿着标准尺度和/或通过识别度量,如总代谢性肿瘤体积(TMTV))。接收到的数据可以进一步包括位于与受试者相关联的一个或多个输入图像元素内的肿瘤或肿瘤细胞的像素。因此,医疗记录可包括或可用于识别关于每一个训练/验证输入图像元素220a-g的一个或多个标签。医疗记录可以进一步指示受试者已经接受的一种或多种治疗(例如,药物治疗)中的每种治疗以及受试者接受治疗的时间段。在一些情况下,从提供者系统255接收被输入到一个或多个分类器子系统的图像或扫描。例如,供应商系统255可以从成像装置250接收图像,并且然后可以将图像或扫描(例如,连同受试者标识符以及一个或多个标签一起)传输到分析系统205。
在一些实施例中,在成像装置250中的一个或多个成像装置处接收或收集的数据可以与在供应商系统255中的一个或多个供应商系统处接收或收集的数据聚合。例如,分析系统205可识别受试者和/或时间段的对应或相同的标识符,以便将从成像装置250接收的图像数据与从供应商系统255接收的标签数据相关联。分析系统205可以进一步使用元数据或自动化图像分析来处理数据,以确定将特定数据分量馈送到哪个分类器子系统。例如,从成像装置250接收的图像数据可对应于整个载玻片或载玻片或组织的多个区域。元数据、自动化比对和/或图像处理可以指示每个图像对应于载玻片或组织的哪个区域、所执行的染色的类型、使用的染色的浓度、执行染色的实验室、时间戳、使用的扫描仪类型或本领域技术人员可以理解的任何其他合适的数据。自动化比对和/或图像处理可包括检测图像是否具有对应于载玻片基底或与特定细胞(如白细胞)相关联的生物结构和/或形状的图像属性。从供应商系统255接收的标签相关数据可以是特定于载玻片的、特定于区域的或特定于受试者的。当标签相关数据特定于载玻片或特定于区域时,元数据或自动化分析(例如,使用自然语言处理或文本分析)可用于识别特定的标签相关数据对应于哪个区域。当标签相关数据特定于受试者时,相同的标签数据(针对给定的受试者)可在训练期间被馈送到每个分类器子系统210a-n。
在一些实施例中,计算环境200可以进一步包括使用者装置260,该使用者装置可与请求和/或协调分析系统205的一次或多次迭代的执行(例如,其中每次迭代对应于模型的一次运行和/或模型的输出的一次产生)的使用者相关联。用户可以对应于医师、调查者(例如,与临床试验相关联)、受试者、医疗专业人员等。因此,应当理解,在一些情况下,供应商系统255可以包括和/或充当用户设备260。每次迭代可与特定的受试者(例如,人)相关联,该特定的受试者可以(但是不必)不是使用者。对迭代的请求可以包括和/或伴随有关于特定受试者的信息(例如,受试者的姓名或其他标识符,诸如去识别的患者标识符)。对迭代的请求可以包括一个或多个其他系统的标识符,从这些系统收集数据,例如与受试者对应的输入图像数据。在一些情况下,来自使用者设备260的通信包括特定受试者的集中的每个受试者的标识符,该标识符与对该集中所表示的每个受试者执行迭代的请求相对应。
在接收到请求后,分析系统205可以向一个或多个对应的成像系统250和/或供应商系统255发送针对未标记的输入图像元素的请求(例如包括受试者的标识符的请求)。然后训练的预测模型215可以处理未标记的输入图像元素以分割非靶或靶标区域、提供图像分析、提供针对受试者(如患者)的用于治疗的疾病诊断和预后、或它们的组合。每个识别的受试者的结果可包括或可基于分割和/或来自由分类器子系统110a-n部署的训练的预测模型215的一个或多个输出度量。例如,分割和/或一个或多个输出度量可包括或可基于由一个或多个CNN的全连接层生成的输出。在一些情况下,可使用(例如)softmax函数进一步处理此类输出。此外,然后可以使用聚合技术(例如,随机森林聚合)来聚合输出和/或进一步处理的输出,以生成一个或多个受试者特定的度量。一个或多个结果(例如,其包括特定于平面的输出和/或一个或多个特定于受试者的输出和/或其处理后的版本)可被传输到使用者设备260和/或可被该使用者设备利用。在一些情况下,分析系统205和使用者装置260之间的一些或全部通信经由网站发生。应当理解,CNN系统205可基于授权分析来选通对结果、数据和/或处理资源的访问。
虽然未明确示出,但是应当理解,计算环境200可以还包括与开发者相关联的开发者装置。来自开发者装置的通信可以指示分析系统205中的每个预测模型215要使用什么类型的输入图像元素、要使用的神经网络的数量、每个神经网络的配置(包括隐藏层的数量和超参数的数量)、以及如何格式化数据请求和/或使用哪些训练数据(例如,以及如何访问训练数据)。
图3示出了根据各种实施例的代表用于非靶标区域分割的模型架构(例如,关于图2所述分析系统205的一部分)的示例性示意图300。模型架构可以包括预处理阶段305,该预处理阶段305包含图像采集模块310以生成或获得输入图像,该输入图像包括单路图像数据(例如,其中每个单路图像数据具有单一染色的图像)和/或多路复用图像数据(例如,具有多种染色的图像)、任选的图像注释模块315以对输入图像的一部分(如用于进一步分析的部分)进行电子注释,例如,表示肿瘤区域或免疫细胞区域的部分,以及任选的解混模块320以生成对应于存在于多种图像中的一个或多个染色通道的图像通道图像。模型架构可以进一步包括处理阶段325,该处理阶段325包含图像分析模块330,以基于输入图像内(例如,在苏木精和伊红染色图像、生物标剂物图像或解混图像通道图像内)的特征来检测和/或分类包括细胞或细胞核(诸如肿瘤细胞、基质细胞、淋巴细胞等)的生物材料或结构。
模型架构可以进一步包括后处理阶段335,该后处理阶段335包含任选的评分模块340以得出针对识别的区域或生物结构中每一个识别的区域或生物结构中的每一个生物标记物的表达预测和/或评分,以及包含任选的度量生成模块345以得出描述的度量,并任选地提供针对受试者(如患者)的用于治疗的疾病诊断和预后。该度量描述不同区域或生物结构中得出的表达预测和/或评分之间的可变性。模型架构可以进一步包含分割和掩膜模块350,以将输入图像中的区域或生物结构(诸如淋巴细胞聚集体或肿瘤细胞簇)分割,并生成基于分割的区域或生物结构的掩膜,以及包含任选的配准模块355,以将识别的区域或生物结构(例如肿瘤细胞或免疫细胞)从输入图像内的第一图像或第一组图像映射到至少一个附加图像或多个附加图像。分割和掩膜模块350和任选的配准模块355可以在预处理阶段305、处理阶段325、后处理阶段335或它们的任何组合中实现。
在一些实施例中,图像采集模块310生成或获得具有一种或多种染色的生物样品的图像或图像数据(例如,图像可以是单路图像或多路复用图像)。在某些实施例中,所生成或获得的图像为RGB图像或多光谱图像。在一些实施例中,所生成或获得的图像存储在存储器装置中。图像或图像数据(在本文中可互换使用)可以使用成像装置(例如关于图2所述的成像装置250)(例如实时)生成或获得。在一些实施例中,如本文所述,图像是从能够捕获承载样本的显微镜载玻片的图像数据的显微镜或其他仪器中生成或获得。在一些实施例中,图像是使用2D扫描仪(如能够扫描图像瓦片的扫描仪)生成或获得的。替代地,图像可以是先前已经生成(例如扫描)并存储在存储器装置中(或者就此而言,经由通信网络从服务器检索)的图像。
在一些实施例中,图像采集模块310用于选择生物样品的一部分,其中一个或多个图像或图像数据应被采集。例如,图像采集模块310可以接收识别的目标区域或视野(FOV)。在一些实施例中,目标区域由本公开的系统的使用者或通信地联接到本公开的系统的另一系统的使用者识别。替代地,并且在其他实施例中,图像采集模块305从存储/存储器装置检索目标区域的位置或识别。在一些实施例中,例如图像采集模块310经由PCT/EP2015/062015(其内容出于所有目的通过引用整体并入本文)中所述的方法自动生成视野或目标区域(ROI)。在一些实施例中,ROI由图像采集模块305基于图像中或图像的一些预定标准或特征自动确定(例如,对于用多于两种染色剂染色的生物样品,识别图像的仅包含两个污渍的区域)。在一些情况下,图像采集模块310输出ROI。
在一些实施例中,图像采集模块310生成或获得至少两个图像作为输入。在一些实施例中,作为输入而生成或获得的图像从连续组织切片得出,例如从相同组织样品的连续切片得出。通常,作为输入而接收的至少两个图像各自包含对应于染色剂(包括色原体、荧光团、量子点等)的信号。在一些实施例中,图像中的一个图像已经用至少一种初染剂(苏木精或伊红(H&E))染色,而图像中的另一个图像已经在用于识别特定的生物标记物的IHC测定或原位杂交(ISH)测定中的至少一种测定中染色。在一些实施例中,图像中的一个图像已经用苏木精和伊红两者染色,而图像中的另一个图像已经在用来识别特定的生物标记物的IHC测定或ISH测定中的至少一种测定中染色。在一些实施例中,输入图像为多路复用图像,例如根据本领域内的普通技术人员已知的方法在多路复用测定中针对多个不同的标记物进行染色。
在一些实施例中,生成或获得的图像由使用者(例如,如病理学家的医疗专业人员)使用图像注释模块315任选地注释到图像分析。在一些实施例中,使用者识别图像的适合用于进一步分析的部分(例如子区域)。被注释以生成载玻片评分的靶标区域或非靶标区域(例如肿瘤区域或免疫区域)可以是整个组织区域也可以是数字载玻片上的一组特定区域。例如,在一些实施例中,识别的部分代表特定的生物标记物(例如特定IHC标记物)的过度表达肿瘤区域。在其他实施例中,使用者、医疗专业人员或病理学家可以注释数字载玻片内的淋巴聚集区域。在一些实施例中,注释的代表性字段可以由病理学家选择以反映生物标记物表达,病理学家将该生物标记物表达用于整体载玻片解释。可以使用查看器应用程序中提供的注释工具(例如,VENTANA VIRTUOSO软件)绘制注释,并且可以以任何放大倍率或分辨率绘制注释。替代地,或此外,自动化图像分析操作可用来自动检测靶标区域和非靶标区域或使用自动化图像分析操作(诸如分割、阈值化、边缘检测等)的其他区域,以及基于检测区域自动生成的视野(FOV-具有预定的尺寸和/或形状的图像部分)。在一些实施例中,用户注释可以用于进一步训练一个或多个模型。
在一些实施例中,生成或获得的图像可为多路复用图像,即接收的图像属于用一种以上的染色剂染色的生物样品。在这些实施例中,在进一步处理之前,首先将多路复用图像解混到其组成通道中(例如用解混模块320),其中每个解混通道对应于特定的染色剂或信号。在某些实施例中,解混图像(通常称为“通道图像”或“图像通道图像”)并且可用作本文所述的每个模块的输入。例如,模型架构可以被实现以用于评估标记物之间的异质性(样品中生物标记物蛋白质表达异质性的量的指示),该异质性由用针对多个分化标记物(CD3、CD8等)的簇而被染色的第一H&E图像、第二多路复用图像以及针对特定生物标记物(例如ER、PR、Ki67等)而各自被染色的多个单路图像确定。在此实例中,首先将多路复用图像解混到其组成的通道图像中,并且可以将那些通道图像与H&E图像及多个单路图像一起使用,以确定标记物之间的异质性。
在图像采集和/或解混之后,用由图像分析模块330提供的图像分析算法处理输入图像或解混图像通道图像,以识别和分类细胞和/或细胞核。本文所述的程序和算法可适应于基于输入图像内的特征识别和分类各种类型的细胞或细胞核,包括识别和分类肿瘤细胞、非肿瘤细胞、基质细胞、淋巴细胞、非靶染色剂等。本领域内的普通技术人员应该理解,细胞核、细胞质和细胞膜具有不同的特征,并且染色不同的组织样品可显示不同的生物学特征。事实上,本领域内的普通技术人员应当认识到,某些细胞表面受体可具有定位到细胞膜或定位到细胞质的染色模式。因此,“细胞膜”染色模式与“细胞质”染色模式在分析上是不同的。同样,“细胞质”染色模式与“细胞核”染色模式在分析上是不同的。这些不同的染色模式中的每一者都可以用作识别细胞和/或细胞核的特征。例如,基质细胞可由FAP强染色,但肿瘤上皮细胞可由EpCAM强染色,而细胞角蛋白可由panCK染色。因此,在图像分析期间,可以通过利用不同的染色剂区分不同的细胞类型以提供分类解决方案。
美国专利第7,760,927号(“‘927专利”)中描述了在具有一种或多种染色剂的生物样品的图像中对细胞核、细胞膜和细胞质进行识别、分类和/或评分的方法,该专利的内容出于所有目的整体并入本文。例如,‘927专利描述了一种用于在用生物标记物染色的生物组织的输入图像中同时识别多个像素的自动化方法,该方法包括考虑输入图像的前景中的多个像素的第一彩色平面,用于同时识别细胞质和细胞膜像素,其中输入图像经过处理以去除该输入图像的背景部分和复染成分;确定数字图像前景中的细胞质和细胞膜像素之间的阈值水平;以及使用确定的阈值水平用从该前景选定的像素及其八个相邻像素,来同时确定所选像素是数字图像中的细胞质像素、细胞膜像素还是过渡像素。在一些实施例中,首先通过识别候选细胞核,然后自动区分肿瘤细胞核与非肿瘤细胞核来自动识别肿瘤细胞核。现有技术中已知有多种识别组织图像中候选细胞核的方法。例如,通过应用基于径向对称的方法来执行自动的候选核检测,Parvin的基于径向对称的方法例如在解混后的苏木精图像通道或生物标记物图像通道上进行检测(参见Parvin,Bahram,et al.,“Iterativevoting for inference of structural saliency and characterization ofsubcellular events.”Image Processing,IEEE Transactions on 16.3(2007):615-623,其出于所有目的整体并入本文)。
例如,在一些实施例中,对获得的作为输入的图像进行处理,例如检测细胞核中心(种子)和/或分割细胞核。例如,可提供以及执行指令以使用Parvin(如上所述)的技术基于径向对称表决来检测细胞核中心。在一些实施例中,使用径向对称性检测细胞核以检测细胞核的中心,然后基于细胞中心周围的染色强度对细胞核进行分类。在一些实施例中,如共同受让和共同在审的专利申请WO2014140085A1中所述,使用基于径向对称的核检测操作,该专利申请通过引用整体并入本文。例如,可以在图像内计算图像大小,并通过将选定区域内的大小之和相加累积每个像素处的一个或多个表决。均值漂移聚类可用于寻找该区域的局部中心,该局部中心代表实际的细胞核位置。基于径向对称表决的核检测在彩色图像强度数据上执行,以及明确使用了细胞核是具有不同大小和偏心性的椭圆状斑点的先验域知识。为了完成上述操作,除了输入图像中的颜色强度,图像梯度信息还被用于径向对称性表决,并与适应性分割过程相结合,以精确检测和定位细胞核。例如,本文使用的“梯度”是指在考虑该特定像素周围一组像素的强度值梯度情况下计算出的特定像素的强度梯度。每个梯度相对于坐标系可以有一个特定的“方向”,该坐标系的x轴和y轴由数字图像的两个正交边缘定义。例如,核种子的检测包括将种子定义为被假定为位于细胞核内的点,并且作为定位细胞核的起点。第一步是使用一种基于径向对称的非常稳定的方法检测与每个细胞核相关联的种子点,进而检测类似于细胞核的椭圆状斑点结构。径向对称方法使用基于内核的表决程序对所述梯度图像进行操作。处理每个通过表决内核来累积表决数的像素,由此创建一个表决响应矩阵。该内核基于在该特定像素处计算出的梯度方向、最小和最大细胞核大小的预期范围,以及表决内核角度(通常在[p/4,p/8]范围内)。在由此产生的表决空间中,将具有表决值高于预定阈值的局部极大值位置保存为种子点。在随后的分割或分类过程中,将无关联的种子丢弃。美国专利公开第2017/0140246号讨论了其他方法,其公开内容通过引用整体并入本文。
在识别候选细胞核之后,可以进一步分析该候选细胞核以将肿瘤细胞核从其他候选细胞核区分开来。其他候选细胞核可以进一步分类(例如,通过识别淋巴细胞核和基质核)。在一些实施例中,如本文进一步所述,应用学习的监督分类器来识别肿瘤细胞核。例如,学习的监督分类器在细胞核特征上进行训练以识别肿瘤细胞核,并且随后应用于将测试图像中的候选细胞核分类为肿瘤细胞核或非肿瘤细胞核。任选地,可以进一步训练学习的监督分类器以在非肿瘤细胞核的不同类别(诸如淋巴细胞核和基质核)之间进行区分。在一些实施例中,用于识别肿瘤细胞核的学习的监督分类器为随机森林分类器。例如,可以通过以下方式训练随机森林分类器:(i)创建肿瘤和非肿瘤细胞核的训练集,(ii)提取每个细胞核的特征,以及(iii)训练随机森林分类器以基于提取的特征在肿瘤细胞核和非肿瘤细胞核之间进行区分。然后可以将训练的随机森林分类器应用于将测试图像中的细胞核分类为肿瘤细胞核和非肿瘤细胞核。任选地,可以进一步训练随机森林分类器以在非肿瘤细胞核的不同类别(诸如淋巴细胞核和基质核)之间进行区分。
细胞核可以使用本领域普通技术人员已知的其他技术识别。例如,可以从FI&E或IHC图像中的一种图像的特定图像通道来计算出图像大小,并且可以为特定大小周围的每个像素分配多个基于像素周围区域内的大小之和的表决。替代地,还可以进行均值漂移聚类操作,以定位代表细胞核实际位置的表决图像内的局部中心。在其他实施例中,细胞核分割可用于基于目前已知的细胞核的中心,通过形态操作和局部阈值来分割整个细胞核。在其他实施例中,可利用基于模型的分割来检测细胞核(即,从训练数据组学习细胞核的形状模型,并将其用作先验知识以分割测试图像中的细胞核)。
在一些实施例中,随后使用为每个细胞核单独计算的阈值,对该细胞核进行分割。例如,由于据信细胞核区域中的像素强度可变化,因此Otsu的方法可用于在识别的细胞核周围的区域中进行分割。正如本领域普通技术人员将认识到的,Otsu的方法用于通过最小化类内方差来确定最佳阈值,并且该方法对本领域技术人员而言是已知的。更具体地,Otsu的方法用于自动执行基于聚类的图像阈值化,或者将灰度级图像还原为二值图像。该算法假设图像包含两类遵循双模态直方图的像素(前景像素和背景像素)。然后,计算出分隔两类像素的最佳阈值,这样可实现最小或相等的组合式扩散(类内方差)(因为成对平方距离之和是常数),进而使它们的类间方差最大。
在一些实施例中,系统和方法还包括自动分析图像中识别的细胞核的光谱和/或形状特征,从而识别非肿瘤细胞的细胞核。例如,可在第一步骤的第一数字图像中识别斑点。本文所用的“斑点”可以是例如数字图像的区域,其中一些属性(如强度或灰度值)保持恒定或在规定的数值范围内变化。在某种意义上,一个斑点中的所有像素可认为彼此相似。例如,可以使用基于数字图像上位置函数的导数的微分方法和基于局部极值的方法来识别斑点。核斑点是一个像素和/或轮廓形状表明其可能由一个以第一染色剂进行染色的细胞核产生的斑点。例如,可以评估一个斑点的径向对称性,以确定是否应该将斑点识别为核斑点或任何其他结构,如染色假象。例如,在斑点为长条形状并且不具有径向对称性的情况下,该斑点可能不会被识别为核斑点,而是会被识别为染色假象。根据实施例,识别为“核斑点”的斑点可以代表一组被识别为候选细胞核并且可以进一步分析以确定该核斑点是否代表细胞核的像素。在一些实施例中,任何种类的核斑点均被直接用作“识别的细胞核”。在一些实施例中,对已识别的细胞核或核斑点进行过滤操作,以识别不属于生物标记物阳性的肿瘤细胞的细胞核,并从已识别的细胞核的列表中去除该已识别的非肿瘤细胞核,或者从开始就不将该细胞核添加到已识别的细胞核列表中。例如,可以分析识别的核斑点的附加光谱和/或形状特征,以确定该细胞核或细胞核斑点是否为肿瘤细胞的细胞核。例如,淋巴细胞的细胞核比其他组织细胞(如肺细胞)的细胞核大。在肿瘤细胞是从肺组织导出的情况下,通过识别所有最小尺寸或直径显著大于正常肺细胞的细胞核平均尺寸或直径的核斑点来识别淋巴细胞的细胞核。与淋巴细胞核有关的已识别的核斑点可以从已识别的细胞核的集合中去除(即“过滤”)。通过过滤非肿瘤细胞的细胞核,可以提高该方法的准确性。取决于生物标记物,非肿瘤细胞也可以在一定程度上表达生物标记物,以及因此可以在第一数字图像中产生强度信号,该强度信号并非源于肿瘤细胞的。通过从已识别的核总数中识别和过滤不属于肿瘤细胞的细胞核,可以提高识别生物标记物阳性肿瘤细胞的准确性。这些方法和其他方法在美国专利公开2017/0103521中有述,该专利的内容出于所有目的整体并入本文。在一些实施例中,一旦检测到种子,可以使用局部适应性阈值化方法,并在检测的中心周围来创建斑点。在一些实施例中,还可以引入其他方法,例如也可以使用基于标记物的分水岭算法来识别检测的细胞核中心周围的细胞核斑点。这些方法和其他方法在PCT/EP2016/051906中有述,公开为WO2016/120442,其内容出于所有目的整体并入本文。
在一些实施例中,使用评分模块340来计算针对每个图像(单路图像或来自多路复用图像的解混图像通道图像)内的每个细胞簇内的每个染色或生物标记物的各种标记物表达评分。在一些实施例中,评分模块340利用由图像分析模块330在细胞的检测和分类期间采集的数据。例如,如本文所述,细胞分析模块330可包括一系列图像分析算法,以及可用于确定在识别的细胞簇内是否存在细胞核、细胞壁、肿瘤细胞或其他结构中的一者或多者。在一些实施例中,评分模块340可以使用针对每个视野得出的染色强度值和特定核的计数以确定各种标记物表达评分,诸如阳性百分比或H-Score评分。评分方法在2013年12月19日提交的共同转让和共同待决的申请WO/2014/102130A1“Image analysis for breast cancerprognosis”和2014年3月12日提交的WO/2014/140085A1“Tissue object-based machinelearning system for automated scoring of digital whole slides,”中有进一步详细描述,每一份的内容据此通过引用整体并入本文。例如,图像分析模块330中的自动化图像分析算法可用于解释系列中的IFIC载玻片中的每一者,以检测针对特定生物标记物(诸如Ki67、ER、PR、FIER2等)染色呈阳性和呈阴性的肿瘤细胞核。基于检测到的阳性和阴性肿瘤细胞核,可以使用评分模块340计算各种载玻片级别评分,如标记物阳性百分比、H-Score评分等。
在一些实施例中,表达评分为H-score评分,其用于评定细胞膜染色等级为“弱”、“中等”或“强”的肿瘤细胞的百分比。将各等级相加,得出的总评分最高为300分,并且区分“阳性”和“阴性”的分界点为100分。例如,确定固定视野中的每个细胞(或此处为肿瘤或细胞簇中的每个细胞)的膜染色强度(0、1+、2+或3+)。H-score评分可以简单地以一个主要的染色强度为准,或者更复杂地,可以包括每个看到的强度水平的单独H-score评分的总和。在一些实施例中,表达评分为Allred评分。Allred分是一个评分系统,用于显示激素受体测试呈阳性的细胞的百分比,以及受体在染色后的呈现程度(称之为“强度”)。在其他实施例中,表达评分是阳性百分比。在为针对PR和Ki-67生物标记物染色的乳腺癌样品评分的背景下,对于PR和Ki-67载玻片,在单一载玻片中计算阳性百分比(例如,将染色后在载玻片的数字图像内的每个视野中呈阳性的细胞(例如恶性细胞)的细胞核的总数相加并除以从数字图像的每个视野染色呈阳性和呈阴性的细胞核的总数),如下所示:阳性百分比=染色呈阳性的细胞的数量/(染色呈阳性的细胞的数量+染色呈阴性的细胞的数量)。在其他实施例中,表达评分为IHC组合评分,该组合评分是基于若干IHC标记物的预后评分,其中标记物的数量大于1。IHC4是基于乳腺癌样品中四种测量的IHC标记物(即ER、HER2、Ki-67和PR)的一种此类评分(例如参见Cuzick et al.,J.Clin.Oncol.29:4273-8,2011,and Barton etal.,Br.J.Cancer 1-6,Apr.24,2012,二者均以引用方式并入本文)。
在图像分析和确定每个识别的簇或映射的簇中的每个标记物的表达评分之后,可以使用度量生成模块345从各种识别的簇和生物结构得出度量。再一些情况下,可以通过将各种图像分析算法应用于包含在核斑点或种子内或其周围的像素之上来计算形态度量。在一些实施例中,形态度量包括面积、短轴和长轴长度、周长、半径、体积等。在细胞水平上,这样的度量用于将细胞核分类为属于健康细胞或病变细胞。在组织水平上,在组织上充分利用这些统计的特征,从而将组织分类为病变组织或非病变组织。在一些情况下,可以通过比较包含在用于识别细胞核的核斑点或种子内或其周围的像素的像素强度值来计算特定细胞核的外观度量,其中比较的像素强度从不同的图像通道(例如背景通道、用于生物标记物的染色的通道等)得出。在一些实施例中,从外观特征得出的度量是从像素强度以及从不同图像通道计算的梯度幅值的百分位值(例如第10、第50和第95个百分位值)计算的。例如,首先在一个代表目标细胞核的核斑点内确定多个图像通道IC(例如三个通道:HTX、DAB、亮度)中的每一个IC的像素值的一个X-百分位值(X=10、50、95)的数字P。计算外观特征度量可能是有利的,因为得出的度量可以描述细胞核区域的属性也可以描述细胞核周围的膜区域。
在一些情况下,可以计算背景度量,该背景度量指示细胞的细胞质和细胞膜特征中存在的外观和/或染色,该细胞包括从图像提取背景特征的细胞核。例如通过识别代表细胞核的核斑点或种子,可以计算出针对数字图像中描绘的细胞核和相应的细胞的背景特征和相应的度量;分析与识别的细胞组直接相邻的像素区域(例如核斑点边界周围20像素、约9微米厚度的带),从而捕捉到存在于细胞的细胞质和细胞膜中的外观和染色以及与这个细胞核一起直接邻近于细胞的区域。在一些情况下,颜色度量可以从包括颜色比率、R/(R+G+B)或颜色主成分的颜色中得出。在其他实施例中,从颜色得出的颜色度量包含局部图像窗口中各颜色中的颜色的中的每一者的局部统计(平均值/中间值/方差/标准偏差)和/或颜色强度相关性。在一些情况下,强度度量可以从具有某些特定属性值的相邻细胞的组得出,该特定属性值设置在图像中表示的灰色细胞的黑色和白色阴影之间。由于颜色特征的相关性可以定义尺寸分级的示例,因此通过这种方式,这些彩色细胞的强度从其周围的暗细胞簇确定受影响的细胞。
在一些情况下,可以考虑以及使用其他特征作为用于计算度量的基础,诸如纹理特征或空间特征。再例如,表达评分可以被利用作为预测措施或指导治疗。例如,在乳腺癌和ER和PR生物标记物的背景下,检测呈阳性的样品可以指导治疗过程中提供激素疗法的决定。本领域技术人员还将理解,并非生物样品中的所有簇针对任何特定标记物都可以具有相同的评分。通过能够确定描述簇之间可变性的异质性评分或度量,可以提供额外的指导以做出明智的治疗决策。在一些实施例中,异质性被确定以测量不同簇如何相互比较。异质性可以通过可变性度量来测量,如WO2019110567A1中所述(其内容出于所有目的整体并入本文),该可变性度量描述了例如,各种识别和映射的簇之间的蛋白质表达水平相较于彼此有何不同。在一些实施例中,测量所有识别的簇之间的异质性。在其他实施例中,异质性仅在识别的簇的子集(例如满足某些预定标准的簇)之间测量。
在一些实施例中,作为输入接收的图像可以由分割和掩膜模块350进行分割和掩膜。例如,训练的卷积神经网络架构或模型可用于分割非靶标区域和/或靶标区域,然后可以在将图像输入到图像分析算法之前、期间或之后对该非靶标区域和/或靶标区域进行掩膜以用于分析。在一些实施例中,对输入图像进行掩蔽,使得该图像中只存在组织区域。在一些实施例中,生成组织区域掩膜以从组织区域中掩蔽非组织区域。在一些实施例中,可以通过识别组织区域以及排除背景区域(例如对应于无样品的玻璃的整个载玻片图像的区域,如仅存在来自成像源的白光的区域)来创建组织区域掩膜。
在一些实施例中,使用分割技术通过从输入图像中的非组织区域对组织区域进行掩膜来生成组织区域掩膜图像。在一些实施例中,利用图像分割技术对所述图像中的数字化组织数据和载片进行区分,组织对应于前景并且载片对应于背景。在一些实施例中分割和掩膜模块350计算整个载玻片图像中的目标区域(AOI),以检测AOI中的所有组织区域,同时限制所分析的背景非组织区域的量。多种不同的图像分割技术(例如,基于HSV颜色的图像分割、实验室图像分割、均值偏移彩色图像分割、区域生长、水平集方法、快速推进法等)可用于确定例如组织数据和非组织或背景数据的边界。基于至少部分分割技术,分割和掩膜模块350还可以生成可用于识别数字化载玻片数据的那些对应于组织数据的部分的组织前景掩膜。替代地,该组件可生成用于识别那些数字化载片数据中与组织数据不对应的部分的背景掩膜。
这种识别可以通过图像分析操作(例如边缘检测等)实现。组织区域掩膜可用于去除图像(例如非组织区域)中的非组织背景噪声。在一些实施例中,组织区域掩膜的生成包括以下操作中的一个或多个操作(但不限于以下操作):计算低分辨率输入图像的亮度、生成亮度图像、将标准偏差滤波器应用到亮度图像、生成滤波后的亮度图像,并将阈值应用到滤波后的亮度图像,从而将亮度高于给定阈值的像素设置为1,并将低于阈值的像素设置为0、生成组织区域掩膜。与组织区域掩膜的生成相关的附加信息和实例在题为“An ImageProcessing Method and System for Analyzing a Multi-Channel Image Obtainedfrom a Biological Tissue Sample Being Stained by Multiple Stains”的PCT/EP/2015/062015中公开,其内容出于所有目的整体并入本文。
除了从组织区域掩膜非组织区域之外,分割和掩膜模块350还可以根据需要对其他目标区域进行掩膜,诸如被识别为属于非靶标区域或某些组织类型(例如,淋巴聚集区域的组织的一部分)的组织的一部分或者被识别为属于靶标区域或某些组织类型(例如疑似肿瘤区域)的组织的一部分。在各种实施例中,非靶标区域分割(如淋巴细胞聚集区域分割)由CNN模型(例如,与关于图2所示的分类器子系统210a相关联的CNN模型)执行。在一些实施例中,CNN模型为二维分割模型。例如,CNN模型可为具有残差块、膨胀和深度卷积的U-Net。预处理或处理后的图像数据(例如二维区域或整个载玻片图像)可用作进入U-Net的输入。U-Net包括收缩路径以及扩展路径,其中用上采样运算子替换扩展路径中连续层的池化操作。因此,这些连续的层增加了输出的分辨率。基于至少部分分割技术,U-Net可以生成可用于识别数字化载玻片数据的那些对应于非靶标区域数据的部分的非靶标区域前景掩膜。替代地,该组件可生成用于识别数字化载玻片数据的那些与非靶标区域数据不对应的部分的背景掩膜。U-Net的输出可以是前景非靶标区域掩膜,表示底层图像中存在的非靶标区域的位置,或者是表示数字化载玻片数据的那些不对应于非靶标区域数据(例如靶标区域)的部分的背景非靶标区域掩膜。
在一些实施例中,使用配准模块355和配准过程将一个或多个图像中识别的诸如肿瘤细胞或细胞簇的生物材料或结构,映射到一个或多个附加图像。配准是将不同的数据集(这里指图像或图像内的细胞簇)转换为一个坐标系的过程。更具体地,配准是将两个或多个图像对齐的过程,一般来说,包括指定一个图像作为参考(也称为参考图像或固定图像),并对其他图像进行几何变换,以使这些图像与参考对齐。几何变换将一个图像中的位置映射到另一个图像中的新位置。确定正确的几何变换参数的步骤是图像配准过程的关键所在。在一些实施例中,使用2014年9月30日提交的题为“Line-Based Image Registrationand Cross-Image Annotation Devices,Systems and Methods”的WO/2015/049233(其内容出于所有目的整体并入本文)中所述的方法执行图像配准。WO/2015/049233描述了一个配准过程,其包括单独使用或与精密配准过程结合的粗配准过程。在一些实施例中,所述粗配准过程可包含选择数字图像用于比对,从选定的数字图像的每一者中生成前景图像掩模,以及在因此生成的前景图像之间匹配组织结构。在进一步的实施例中,生成前景图像掩膜涉及从染色的组织切片的整个载玻片图像生成软加权前景图像,并将OTSU阈值化应用于该软加权前景图像以产生二值软加权图像掩膜。在其他进一步的实施例中,生成前景图像掩膜涉及从染色的组织切片的整个载玻片图像生成二值软加权图像掩膜,从同一整个载玻片图像单独生成梯度幅值图像掩膜,将OTSU阈值化应用于该梯度图像掩膜以产生二值梯度幅值图像掩膜,以及使用二进制OR操作将二值软加权图像和二值梯度幅值图像掩膜合并以生成前景图像掩膜。例如,本文使用的“梯度”是指在考虑该特定像素周围一组像素的强度值梯度情况下计算出的特定像素的强度梯度。每个梯度相对于坐标系可以有一个特定的“方向”,该坐标系的x轴和y轴由数字图像的两个正交边缘定义。“梯度方向特征”可以是指示该坐标系内梯度方向的数据值。
在一些实施例中,匹配组织结构包含从每个因此生成的前景图像掩模的边界计算基于线的特征,计算第一前景图像掩模上的第一组线特征和第二前景图像掩模上的第二组线特征之间的全局变换参数,以及基于该变换参数对所述第一图像和第二图像进行全局对齐。在又一个实施例中,粗配准过程包括基于全局变换参数将选定的数字图像映射到公共网格,该网格可以涵盖所述选定的数字图像。在一些实施例中,精密配准过程可以涉及识别对齐数字图像组中的第一数字图像的第一子区域;识别对齐数字图像组中的第二数字图像上的第二子区域,其中第二子区域大于第一子区域,并且第一子区域基本位于公共网格上的第二子区域内;以及计算第一子区域在第二子区域中的优化位置。
图4描绘了跨不同H&E载玻片图像410、420、430、440的染色变化的实例。在各种情况下,H&E载玻片的颜色和亮度可能不同。例如,不同的病理学实验室和/或病理学家可以基于个人偏好、不同的染色过程和/或不同的染色/扫描设备来选择对组织样品进行染色。此外,H&E载玻片图像可以是不同类型的组织(例如,肿瘤、基质和坏死)和/或来自不同器官(例如,肝脏、前列腺、乳房等)。因此,应该适当地训练全局模型112、114,使得模型足够通用,从而即使在颜色、组织和器官变化或可能使用多种模型的情况下,仍能准确地操作。
图5示出了根据各种实施例的用于训练预测模型的过程。
用于训练的过程开始于框500处,在该处访问样本的多个磁贴图像。多个磁贴图像中的一个或多个磁贴图像包含一个或多个磁贴图像的注释(例如,用于识别具有肿瘤细胞的区域,用于分割非靶标区域和靶标区域,或任何其他合适的注释)。在框510处,可以将一个或多个磁贴图像分成(例如,256像素×256像素尺寸的)图像块。在框520处,使用一个或多个磁贴图像或图像块训练预测模型(如二维分割模型)。在一些情况下,二维分割模型是修改的U-Net模型,包括收缩路径和扩展路径,收缩路径和扩展路径中的每一者具有最多256个通道,并且收缩路径的一个或多个层实现空间随机失活。训练可以包括执行迭代操作以找到预测模型的参数组,该参数组使预测模型的损失函数最小化。每次迭代都可以涉及找到预测模型的参数组,使得使用该参数组的损失函数的值小于在先前迭代中使用另一参数组的损失函数的值。损失函数被构造以测量使用预测模型预测的输出与包含在一个或多个瓦片图像或图像块中的注释之间的差异。在一些情况下,训练进一步包括通过根据预定义的时间表降低修改的U-Net的学习率来调整学习率。预定义的时间表可以是步进衰减时间表,该步进衰减每隔预定数量的时期将学习率降低预定的因数以优化损失函数。在某些情况下,损失函数为二元交叉熵损失函数。在框530处,可以在多次迭代、时间长度之后或在模型已经被修改超过阈值量之后将进一步训练的预测模型提供给中央服务器。例如,如关于图2和图3所述,进一步训练的预测模型可以被部署用于在FL图像分析环境中执行。
图6示出了根据各种实施例的用于预测模型的一轮FL训练的过程。
用于一轮训练的FL过程开始于框600处,在该处为客户端装置中的每一个提供一个或多个全局模型以用于分类。客户端装置中的每一个可以访问局部数据,这些数据可用于所提供的全局模型的进一步训练。来自局部数据的一个或多个磁贴图像包含一个或多个磁贴图像的注释(例如,用于识别具有肿瘤细胞的区域,用于分割非靶标区域和靶标区域,或任何其他合适的注释)。如上文所描述,可以将一个或多个磁贴图像分成图像块。在框610处,在一个或多个磁贴图像或图像块上进一步训练预测模型(例如,全局模型)。在框620处,在局部训练数据已经用尽之后,进一步训练的预测模型被提供给中央服务器。在框630处,服务器可以接收一个或多个进一步训练的模型并将来自那些模型的权重聚合到全局模型中。可以通过执行平均、加权平均或如本领域技术人员将理解的用于组合权重的其他适当方法来聚合权重。例如,在一些实施例中,可以基于加权平均将权重并入到全局模型中,该加权平均基于所执行的训练轮次的数量(例如,分析的载玻片)。
图7示出了根据各种实施例的预测模型的多轮FL训练之后产生的结果。
可以将由多个训练轮次提供的改进的准确性可视化。例如,H&E图像700可用于验证FL系统的训练。可以提供基准真值710以与模型的输出进行比较。在此实例中,图像为蓝色以指示肿瘤,紫色表示所有其他组织。还提供了通过使用集中数据所训练的模型的实例结果720。在此实例中,执行了六轮分类和训练,并且描述了每轮产生的结果分类730。在每一轮FL之后,在一个或多个客户端系统处进一步训练全局模型,结果收敛于基准真值710。
图8示出了根据各种实施例的用于预测模型的一轮FL训练的过程。
在各种实施例中,用于一轮训练的FL过程开始于框800处,在该处为客户端装置中的每一个提供一个或多个全局模型以用于分类。如上文所描述,客户端装置中的每一个可以访问局部数据,这些数据可用于所提供的全局模型的进一步训练,并且来自局部数据的一个或多个磁贴图像包含注释(例如,用于识别具有肿瘤细胞的区域,用于分割非标靶区域和标靶区域,或任何其他合适的注释)。此外,局部数据还可以包含进一步描述局部数据的元数据。例如,元数据可能包含关于如何制备样品的信息(例如,应用的染色、染色浓度和/或与样品制备相关的任何其他相关信息)、使用的设备(例如,染色设备、扫描设备等)和进一步的患者信息。在框810处,可以提升元数据以确定是否需要管理任何数据补偿或归一化。例如,某些扫描装置可能会引入需要补偿的伪影。在另一个实例中,一些染色浓度可能会产生可以被补偿的过亮或过暗的着色。因此,在框820处,系统可以使用元数据或其他信息来补偿数据不平衡。在框830处,在一个或多个磁贴图像或图像块上进一步训练模型,将更新的模型提供给集中式服务器,并且更新全局模型。在框840处,使用验证数据集来测试更新的全局模型以确认模型的改进。当全局模型得到改进时,可以保存更改。在框850处,服务器可以将更新的模型分发给客户端装置中的每一个。
图9示出了根据各种实施例的用于从客户端接收更新的模型的过程。
在各种实施例中,集中式服务器从客户端装置接收更新的模型和元数据。如上文所描述,在框910处,系统可以在与局部训练数据相关联的元数据中进行评估。在各种实施例中,系统可以配置成具有根据各种元数据选择的多个全局分类器。例如,单独的分类器可以用于利用某些设备或染色技术的位置。因此,在框920处,系统可以配置成确定是否应该使用更新的分类器来更新多个全局模型中的一个或者是否应该添加新的全局模型。在框930处,接收到的更新的模型被归一化并用于更新全局模型中的一个。在框940处,使用验证数据集来验证新更新的模型。在框950处,已经确定应该添加新的全局模型。因此,接收到的更新的模型得到验证。在框960处,接着将经验证的模型添加到多个全局模型。在框970处,将更新的模型分发给适当的客户端装置。
本公开的一些实施例包括一种包括一个或多个数据处理器的系统。在一些实施例中,该系统包括包含指令的非暂时性计算机可读存储介质,所述指令在所述一个或多个数据处理器上被执行时使所述一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部和/或本文公开的一种或多种过程的部分或全部。本公开的一些实施例包括一种有形地体现在非暂时性机器可读存储介质中的计算机程序产品,其包括指令,所述指令被配置为使一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部和/或本文公开的一种或多种过程的部分或全部。
已使用的术语和表述被用作描述性而非限制性的术语,并且在使用此类术语和表述时无意排除示出和描述的特征或其部分的任何等效物,但应认识到在要求保护的本发明的范围内可以进行各种修改。因此,应当理解,虽然通过实施例和任选特征具体公开了要求保护的本发明,但是本领域技术人员可以对本文公开的概念进行修改和变化,并且此类修改和变化被认为是在所附权利要求书所限定的本发明范围内。
随后的描述仅提供优选的示例性实施例,并不旨在限制本公开的范围、适用性或配置。相反,优选示例性实施例的随后描述将为本领域技术人员提供用于实现各种实施例的可行描述。应当理解,在不脱离所附权利要求中阐述的精神和范围的情况下,可以对元件的功能和布置进行各种改变。
在以下描述中给出具体细节以便透彻理解实施例。然而,应当理解,可以在没有这些具体细节的情况下实践实施例。例如,电路、系统、网络、过程和其他组件可以展示为框图形式中的组件,以免在不必要的细节中混淆实施例。在其他情况下,为了避免使实施例晦涩难懂,可以在没有不必要的细节的情况下示出公知的电路、过程、算法、结构和技术。

Claims (20)

1.一种用于使用联邦学习分类器的计算机实现方法,其包括:
通过集中式服务器将配置成对病理学图像进行分类的全局模型分发给多个客户端装置;
通过所述集中式服务器从所述多个客户端装置中的至少一个接收更新的模型,其中已经使用多个载玻片图像和多个对应注释在所述多个客户端装置中的所述至少一个处进一步训练所述更新的模型;
通过所述集中式服务器将所述更新的模型与所述全局模型聚合以生成更新的全局模型;以及
将所述更新的全局模型分发给所述多个客户端装置中的至少一个。
2.根据权利要求1所述的计算机实现方法,其中将所述更新的模型与所述全局模型聚合以生成更新的全局模型包括执行对所述全局模型的至少一个权重与所述更新的模型的至少一个权重的平均。
3.根据权利要求2所述的计算机实现方法,其中执行所述平均包括根据用于进一步训练所述更新的模型的所述多个载玻片图像的数量和用于训练所述全局模型的图像的总数量,根据所述更新的模型的所述至少一个权重与所述全局模型的所述至少一个权重执行加权平均。
4.根据权利要求1所述的计算机实现方法,其中所述注释由观察载玻片图像上的所述全局模型的输出的用户提供,并且所述注释包括对由所述全局模型产生的所述输出的修改。
5.根据权利要求1所述的计算机实现方法,其进一步包括通过所述集中式服务器接收与所述多个载玻片图像相关联的元数据,其中聚合进一步包括根据所述元数据对进一步训练的模型进行归一化。
6.根据权利要求1所述的计算机实现方法,其进一步包括通过所述集中式服务器,使用验证数据集来验证所述更新的全局模型相对于所述全局模型的性能改进。
7.一种用于通过客户端装置使用联邦学习分类器的计算机实现方法,其包括:
从集中式服务器接收配置成对病理学图像进行分类的全局模型;
接收染色组织图像,其中所述染色组织图像被分成图像块;
使用所述全局模型对所述图像块执行图像分析;
使用图像块和至少一个对应用户注释来训练所述全局模型以生成更新的模型,其中所述至少一个对应用户注释包括对由所述全局模型产生的分类的校正;
将所述更新的模型发送到所述集中式服务器;
接收更新的全局模型;
使用客户端特定的验证数据集来验证所述更新的全局的性能改进。
8.根据权利要求7所述的计算机实现方法,其中对由所述全局模型产生的所述分类的所述校正包括对细胞类型、组织类型或组织边界中的至少一者的重新分类。
9.根据权利要求7所述的计算机实现方法,其中所述更新的模型不含有个体患者信息。
10.根据权利要求7所述的计算机实现方法,其进一步包括:
生成与所述多个图像相关的元数据;以及
将所述元数据提供给所述集中式服务器。
11.根据权利要求10所述的计算机实现方法,其中所述元数据包括以下中的至少一者:所述图像对应的载玻片或组织的区域、所执行的染色的类型、染料的浓度以及在染色或扫描中使用的设备。
12.根据权利要求7所述的计算机实现方法,其中发送所述更新的模型是在阈值数量的迭代、长度的时间之后或在所述模型已经被修改超过阈值量之后执行的。
13.一种用于在数字病理学中使用联邦学习分类器的计算机实现方法,其包括:
通过集中式服务器将全局模型分发给多个客户端装置;
通过来自所述多个客户端装置的客户端装置使用样本的多个图像来训练所述全局模型,以生成至少一个进一步训练的模型,其中所述多个图像中的一个或多个图像包括至少一个注释;
通过所述客户端装置向所述集中式服务器提供所述进一步训练的模型;
通过所述集中式服务器将所述进一步训练的模型与所述全局模型聚合,以生成更新的全局模型;以及
将所述更新的全局模型分发给所述多个客户端装置。
14.根据权利要求13所述的计算机实现方法,其进一步包括:
通过所述客户端装置生成与所述多个图像相关的元数据;以及
通过所述客户端装置向所述集中式服务器提供所述元数据,其中通过所述集中式服务器将所述进一步训练的模型与所述全局模型聚合以生成更新的全局模型进一步包括根据所述元数据对所述进一步训练的模型进行归一化。
15.根据权利要求14所述的计算机实现方法,其中所述元数据包括以下中的至少一者:所述图像对应的载玻片或组织的区域、所执行的染色的类型、染料的浓度以及用于染色或扫描的设备。
16.根据权利要求13所述的计算机实现方法,其进一步包括通过所述集中式服务器,使用验证数据集来验证所述更新的全局模型相对于所述全局模型的性能。
17.根据权利要求16所述的计算机实现方法,其进一步包括当所述更新的全局模型的所述性能逊于所述全局模型时,回滚对所述全局模型的更新。
18.根据权利要求13所述的计算机实现方法,其中将所述更新的模型与所述全局模型聚合以生成更新的全局模型包括执行对所述全局模型的至少一个权重与所述更新的模型的至少一个权重的平均。
19.根据权利要求18所述的计算机实现方法,其中执行所述平均包括根据用于进一步训练所述更新的模型的所述多个载玻片图像的数量和用于训练所述全局模型的图像的总数量,根据所述更新的模型的所述至少一个权重与所述全局模型的所述至少一个权重执行加权平均。
20.根据权利要求14所述的计算机实现方法,其中发送所述更新的模型是在阈值数量的迭代、长度的时间之后或在所述模型已经被修改超过阈值量之后执行的。
CN202180013185.8A 2020-02-11 2021-02-10 用于训练机器学习算法和维护患者隐私的联邦学习系统 Pending CN115088022A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202062975036P 2020-02-11 2020-02-11
US62/975,036 2020-02-11
PCT/US2021/017491 WO2021163213A1 (en) 2020-02-11 2021-02-10 Federated learning system for training machine learning algorithms and maintaining patient privacy

Publications (1)

Publication Number Publication Date
CN115088022A true CN115088022A (zh) 2022-09-20

Family

ID=74860426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180013185.8A Pending CN115088022A (zh) 2020-02-11 2021-02-10 用于训练机器学习算法和维护患者隐私的联邦学习系统

Country Status (5)

Country Link
US (1) US20220351860A1 (zh)
EP (1) EP4104093A1 (zh)
JP (1) JP2023512560A (zh)
CN (1) CN115088022A (zh)
WO (1) WO2021163213A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3143855A1 (en) * 2020-12-30 2022-06-30 Atb Financial Systems and methods for federated learning on blockchain
US20220300618A1 (en) * 2021-03-16 2022-09-22 Accenture Global Solutions Limited Privacy preserving cooperative learning in untrusted environments
US20230004872A1 (en) * 2021-07-01 2023-01-05 GE Precision Healthcare LLC System and method for deep learning techniques utilizing continuous federated learning with a distributed data generative model
CN113762525B (zh) * 2021-09-07 2024-04-05 桂林理工大学 一种具有差分隐私保护的联邦学习模型训练方法
CN113660080B (zh) * 2021-10-20 2021-12-14 北京金鸿睿信息科技有限公司 一种安全多方计算与联邦分析技术
US11778484B2 (en) * 2021-11-02 2023-10-03 Qualcomm Technologies, Inc. Mobility and zone management in zone-based federated learning
CN114612408B (zh) * 2022-03-04 2023-06-06 拓微摹心数据科技(南京)有限公司 一种基于联邦深度学习的心脏图像处理方法
CN115049522B (zh) * 2022-08-17 2022-11-25 南京邮电大学 一种面向电力物联网的电力终端多任务联邦学习方法
CN116384513A (zh) * 2023-05-30 2023-07-04 南京邮电大学 云边端协同学习系统及方法
KR102686297B1 (ko) * 2023-12-04 2024-07-22 (주)에이아이딥 개인 정보 탐지 및 인식 방법, 이를 수행하는 장치 및 컴퓨터 프로그램
CN117893532B (zh) * 2024-03-14 2024-05-24 山东神力索具有限公司 基于图像处理的模锻索具用模具裂纹缺陷检测方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7760927B2 (en) 2003-09-10 2010-07-20 Bioimagene, Inc. Method and system for digital image based tissue independent simultaneous nucleus cytoplasm and membrane quantitation
EP2939026B1 (en) 2012-12-28 2017-07-05 Ventana Medical Systems, Inc. Image analysis for breast cancer prognosis
CA2899714C (en) 2013-03-15 2020-10-27 Ventana Medical Systems, Inc. Tissue object-based machine learning system for automated scoring of digital whole slides
EP3053139B1 (en) 2013-10-01 2020-10-21 Ventana Medical Systems, Inc. Line-based image registration and cross-image annotation devices, systems and methods
EP3108446B1 (en) 2014-02-21 2019-03-20 Ventana Medical Systems, Inc. Medical image analysis for identifying biomarker-positive tumor cells
EP3175389B1 (en) 2014-07-28 2024-05-15 Ventana Medical Systems, Inc. Automatic glandular and tubule detection in histological grading of breast cancer
WO2016120442A1 (en) 2015-01-30 2016-08-04 Ventana Medical Systems, Inc. Foreground segmentation and nucleus ranking for scoring dual ish images
CN111448584B (zh) 2017-12-05 2023-09-26 文塔纳医疗系统公司 计算肿瘤空间和标记间异质性的方法
US11526745B2 (en) * 2018-02-08 2022-12-13 Intel Corporation Methods and apparatus for federated training of a neural network using trusted edge devices

Also Published As

Publication number Publication date
EP4104093A1 (en) 2022-12-21
US20220351860A1 (en) 2022-11-03
WO2021163213A1 (en) 2021-08-19
JP2023512560A (ja) 2023-03-27

Similar Documents

Publication Publication Date Title
US11682192B2 (en) Deep-learning systems and methods for joint cell and region classification in biological images
US20220351860A1 (en) Federated learning system for training machine learning algorithms and maintaining patient privacy
JP7233506B2 (ja) 一次染色および免疫組織化学画像に基づくコンピュータ採点
JP7231631B2 (ja) 腫瘍空間異質性およびインターマーカ異質性の計算方法
US20220351379A1 (en) Non-tumor segmentation to support tumor detection and analysis
JP7197584B2 (ja) デジタル病理学分析結果の格納および読み出し方法
CN112868024A (zh) 用于细胞分类的系统和方法
US20230186659A1 (en) Machine learning models for cell localization and classification learned using repel coding
US11959848B2 (en) Method of storing and retrieving digital pathology analysis results
US20240079116A1 (en) Automated segmentation of artifacts in histopathology images
US20240320562A1 (en) Adversarial robustness of deep learning models in digital pathology
JP2024530388A (ja) 多重免疫蛍光イメージングを使用する組織学的染色のデジタル合成
WO2024118523A1 (en) Consensus labeling in digital pathology images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination