CN116057585A - 用于数字病理学的主动学习系统 - Google Patents

用于数字病理学的主动学习系统 Download PDF

Info

Publication number
CN116057585A
CN116057585A CN202180056644.0A CN202180056644A CN116057585A CN 116057585 A CN116057585 A CN 116057585A CN 202180056644 A CN202180056644 A CN 202180056644A CN 116057585 A CN116057585 A CN 116057585A
Authority
CN
China
Prior art keywords
image
markers
digital pathology
marker
pathology image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180056644.0A
Other languages
English (en)
Inventor
H·费洛斯
M·霍贾斯特
J·拉森
J·F·马丁
N·穆拉里
F·谢赫扎德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ventana Medical Systems Inc
Original Assignee
Ventana Medical Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ventana Medical Systems Inc filed Critical Ventana Medical Systems Inc
Publication of CN116057585A publication Critical patent/CN116057585A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Image Analysis (AREA)

Abstract

访问一种机器学习模型,所述机器学习模型配置成使用一个或多个参数来处理图像以生成标记。执行所述机器学习模型以将至少一个数字病理学图像中的每一个的至少一部分转换成多个预测标记;并且为所述多个预测标记中的每一个生成置信度度量。利用一种界面,所述界面描绘所述至少一个数字病理学图像的所述至少一部分并且基于对应的置信度度量差异性地表示预测标记。响应于所述界面的利用,接收确认、拒绝或替换所述多个预测标记中的至少一个的标记输入。基于所述标记输入更新所述机器学习模型的所述一个或多个参数。

Description

用于数字病理学的主动学习系统
相关申请的交叉引用
本申请要求于2020年8月13日提交的美国临时专利申请编号63/065,404的权益和优先权,所述美国临时专利申请出于所有目的通过引用以其全文并入本文。
技术领域
本公开涉及数字病理学,尤其涉及使用主动学习有效地训练机器学习模型以自动检测、表征和/或分类部分或全部数字病理学图像的技术。
背景技术
数字病理学涉及将载玻片(例如,组织病理学或细胞病理学载玻片)扫描成数字图像。出于包括疾病诊断、对疗法的应答的评估以及药物制剂的开发以对抗疾病的多种原因,数字图像内的组织和/或细胞可随后使用数字病理学图像分析进行检查和/或由病理学家进行解释。为了检查数字图像(其几乎是透明的)内的组织和/或细胞,可使用选择性结合到特定组织和/或细胞组分的各种染色测定(例如,免疫染色剂)来制备病理学载玻片。
训练用于分析数字病理学图像的机器学习模型需要大量图像,这些图像手动标记有基准真值。例如,手动标记可包括标识图像内特定区域内给定类型的每个细胞(例如,肿瘤细胞)的位置(例如,点位置和/或边界)。制作这些标记图像收集起来既乏味又费时。此外,由于隐私问题,获得训练图像可能很困难。
目前,为了收集基准真值以准备训练数据集,选择图像或选择要标记的图像的部分是从数据池(例如,可用图像)中随机选择的。然而,随机挑选要标记的图像或图像的部分并不是一种有效的方法。作为随机选择的样品的图像或图像的部分可能不是训练机器学习模型时提供最多信息的图像,并且可能缺乏目标描述。因此,标记随机选择的图像或随机选择的图像的部分会浪费资源(例如病理学家的时间和模型训练中涉及的计算资源),而不会为训练过程增加任何价值。
发明内容
通过参考附图描述实例,各种实施例的方面和特征将更加明显,其中:
在一些实施例中,提供了一种用于在数字病理学系统中进行主动学习的方法。访问一种机器学习模型,所述机器学习模型配置成使用一个或多个参数来处理图像以生成标记。执行机器学习模型以将至少一个数字病理学图像中的每一个的至少一部分转换成多个预测标记;并且为多个预测标记中的每一个生成置信度度量。利用一种界面,所述界面描绘至少一个数字病理学图像的至少一部分并且基于对应的置信度度量差异性地表示预测标记。响应于界面的利用,接收确认、拒绝或替换多个预测标记中的至少一个的标记输入。基于标记输入更新机器学习模型的一个或多个参数。
方法还可包括一个或多个额外动作。
一个或多个额外动作可包括为数字病理学图像生成确定性图,其中数字病理学图的每个部分的值与对应于部分内的点位置或区域的一个或多个置信度度量的统计数据对应,其中利用界面包括利用确定性图的表示。
界面配置成:接收输入以表示与一个放大级别的区域置信度度量有关的统计数据;表示另一个放大级别的置信度度量;以及接收输入以改变放大级别。
一个或多个额外动作可包括:接收新数字病理学图像;将新数字病理学图像转换成一个或多个新标记,所述标记表征新数字病学理图像或新数字病理学图像的部分;以及输出一个或多个新标记。
一个或多个额外动作可包括预处理数字病理学图像的初始版本以检测每个目标特征的位置,其中转换数字病理学图像的至少一部分包括生成对应于数字病理学图像中的至少一部分内的每个检测到的目标位置的标记。
一个或多个额外动作可包括基于预测标记的置信度度量,为多个预测标记中的每一个来选择标志物的大小、颜色或形状,其中界面通过使用标志物使用具有所选大小、颜色或形状的标志物表示多个预测标记中的每个预测标记基于对应的置信度度量来差异性地表示预测标记。
机器学习模型可包括深度神经网络。
在一些实施例中,提供了一种方法,其包括由用户基于由使用本文公开的一种或多种技术的部分或全部训练的机器学习模型生成的结果来确定受试者的诊断,以及可能基于诊断针对受试者选择、推荐和/或进行特定治疗。
在一些实施例中,提供了一种方法,其包括由用户基于由使用本文公开的一种或多种技术的部分或全部训练的机器学习模型生成的结果来确定针对受试者选择、推荐和/或进行的治疗。
在一些实施例中,提供了一种方法,其包括由用户确定受试者是否有资格参与临床研究或基于由使用本文公开的一种或多种技术的部分或全部训练的机器学习模型生成的结果将受试者分配到临床研究中的特定队列。
在一些实施例中,提供了一种系统,其包括一个或多个数据处理器和包含指令的非暂时性计算机可读存储介质,所述指令当在一个或多个数据处理器上执行时,使一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部。
在一些实施例中,提供了一种计算机程序产品,其有形地体现在非暂时性机器可读存储介质中,并且所述计算机程序产品包括指令,所述指令配置成使一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部。
已采用的术语和表达被用作描述性而非限制性的术语,并且在使用这些术语和表达时,无意排除所示出和描述的特征或其部分的任何等同物,但是应当认识到,在所要求保护的本发明的范围内,各种修改是可能的。因此,应当理解,尽管已通过实施例和任选特征具体地公开了所要求保护的本发明,但是本领域技术人员可采用本文所公开的概念的修改和变化,并且认为这样的修改和变化在由所附权利要求限定的本发明范围内。
附图说明
专利或申请文件包含至少一幅彩色图式。在提出请求并支付必要的费用后,专利局将提供带有一幅或多幅彩色图式的本专利或专利申请公布的副本。
通过参考附图描述实例,各种实施例的方面和特征将更加明显,其中:
图1示出了组织学染色过程的实例。
图2示出了用于使用机器学习模型处理数字病理学图像的(使用一个或多个计算系统执行的)过程流程。
图3示出了根据本公开的一些方面的主动学习工作流程。
图4示出了用于使用部分或全部数字病理学过程流程的示例性工作流程。
图5公开了具有可在此方面中使用的示例性系统和应用程序的网络500。
图6A至6D描绘了整个载玻片图像的部分或全部的示例性图像,以促进接收用于训练机器学习模型的标记。
具体实施方式
虽然描述了某些实施例,但这些实施例仅以示例的方式呈现,且并不旨在限制保护范围。本文描述的设备、方法和系统可以多种其他形式体现。此外,在不脱离保护范围的情况下,可对本文描述的实例方法和系统的形式进行各种省略、替换和变化。
I.概述
在各种实施例中,提供了一种用于数字病理学的主动学习系统,其动态地选择数据集内的特定元素以被标记以用于训练机器学习模型(例如,深度学习或传统机器学习模型)。特定元素可包括给定的载玻片、图像内的给定小块、细胞的给定描述等。所选择的特定元素可包括数据集内的元素的不完整子集(例如,使得只有一小部分细胞描述被选择以进行标记)。特定元素的选择可支持有效地训练机器学习模型以生成准确的预测。例如,特定元素的选择可能引起能够训练模型以仅使用标记数据的一部分(例如,少于75%、少于50%或少于25%)来达到阈值精度,如果随机选择数据元素进行标记,则所述标记数据将需要达到阈值精度。当与使用随机选择的训练数据相比时,主动学习系统的使用允许使用较少的标记数据来训练模型。此外,可迭代地选择要标记的特定元素并训练机器学习模型,从而反复检测和改进模型的弱点。
数字病理学主动学习系统可与一位或多位病理学家或一位或多位成像科学家交互和/或可被他们使用。例如,在一个或多个时间点中的每一个处,主动学习系统可将选择用于标记的特定元素传输、呈现或标识到病理学家的装置。然后病理学家可提供包括标记的输入,之后可使用所述标记来训练机器学习模型。然后可使用经过训练的机器学习模型来处理(例如,由可能是病理学家的实体或不同实体提供或标识的)输入数据并生成标记预测,所述标记预测输出到与输入数据相关联的装置。
在各种实施例中,主动学习系统包括高分辨率图像存储和检索、数据可视化、交互式数据校正以及用于算法训练和推理的图像分析。初始标记数据集用于初始训练机器学习模型(没有初始化任何参数的模型或经由预训练或使用随机初始化过程来初始化的参数的模型)。初始标记数据集可包括随机或伪随机选择的元素的标记。然后使用模型生成与其他元素对应的一组预测。
每个预测都可包括预测标记和与标记相关的对应置信度。用户(例如,病理学家或成像科学家)可使用界面,所述界面标识要标记的选择元素(或用于标记审查)和/或表示(例如,使用缩放的视觉表示或文本)预测各种元素的标记(或标记审查)的程度,以促进相对于其他元素的训练。例如,可呈现对应于整个载玻片图像的热图,其中颜色表示与所描绘的切片内的各个区域相关联的预测的置信度。界面可允许用户放大给定的视野以放大(与低置信度度量相关联的)特定区域,以审查预测标记(例如,以便确认或拒绝标记,以肯定地标识标记等)。这些用户输入可用于重新训练和/或继续训练模型(例如,更新模型的一个或多个参数)。在一些情况下,界面动态地更新自身,使得用户标识或用户确认的标记随后与高(或最大置信度)相关联和/或使得与最低置信度度量相关联的元素(例如,相对于视野中、整个载玻片图像中或数据集中的其他元素)被显著标识(例如,经由给定颜色、标志类型、线类型、线宽等)。
在一些情况下,模型基于批量用户输入(例如,标识元素标记或提供对预测标记的反馈)周期性进行进一步训练。在这种情况下,可周期性地更新或周期性地提供界面以标识基于来自模型的最新版本的输出生成的预测标记。
生成预测标记、提供与最不确定的预测对应的用户反馈以及重新训练模型之间的迭代可继续预定义时间段、预定义迭代次数或直到模型达到所需的性能(此时,可部署模型)。稍后可继续迭代,以进一步微调分类器。
高性能图像服务器可支持一个或多个用于构建、训练和/或使用模型的应用程序。可生成模型的训练和推理结果,并将其大规模存储在数据存储器中。API可实现模型的控制器(训练和/或执行模型)与数据存储器之间的交互。集成平台可用于集成所有这些部件,并允许用户在网络浏览器内训练模型。
II.定义
如本文所用,当动作“基于”某物时,这意味着所述动作至少部分地基于某物的至少一部分。
如本文所用,术语“基本上”、“大约”和“约”被定义为在很大程度上但不必完全是如本领域普通技术人员所理解的那样进行指定的(并且包括完全是所指定的)。在任何公开的实施例中,术语“基本上”、“大约”或“约”可用对于所指定的“在[某个百分比]内”替代,其中百分比包括0.1%、2%、5%和20%。
如本文所用,术语“样品”、“生物样品”或“组织样品”是指从包括病毒在内的任何生物材料和/或生物体获得的包括生物分子(例如蛋白质、肽、核酸、脂质、碳水化合物或它们的组合)的任何样品。其他生物体的实例包括哺乳动物(例如人类;兽类动物,如猫、狗、马、牛和猪;以及实验室动物,如小鼠、大鼠和灵长类动物)、昆虫、环节动物、蛛形纲动物、有袋类动物、爬行类动物、两栖类动物、细菌和真菌。生物样品包括组织样品(例如组织切片和组织的穿刺活检)、细胞样品(例如细胞学涂片,如子宫颈涂片或血液涂片或通过显微解剖获得的细胞样品),或细胞级分、碎片或细胞器(例如通过裂解细胞并通过离心或其他方式分离其组分获得)。生物样品的其他实例包括血液、血清、尿液、精液、粪便、脑脊液、间质液、粘液、眼泪、汗液、脓液、活检组织(例如,通过手术活检或穿刺活检获得)、乳头抽吸物、耵聍、乳汁、阴道分泌物、唾液、拭子(例如口腔拭子)、或任何含有从第一生物样品导出的生物分子的材料。在某些实施例中,本文使用的术语“生物样品”是指从受试者获得的肿瘤或其一部分制备的样品(例如经均质或液化的样品)。
如本文所用,术语“生物材料或结构”是指天然材料或结构,其包含整个或部分的活体结构(例如,细胞核、细胞膜、细胞质、染色体、DNA、细胞、细胞簇等)。
如本文所用,“数字病理学图像”是指染色样品的数字图像。
如本文所用,术语“伪影”是指由于外界因素而在准备好的显微镜载玻片中的人工结构或组织改变。例如,在手术切除、固定、组织处理、包埋、切片、染色和封片过程中可能会出现伪影。组织病理学中的伪影可包括例如预固定伪影、固定伪影、与骨组织相关的伪影、组织处理伪影、与切片术相关的伪影、与浮选和封片相关的伪影、染色伪影、封片伪影、生物伪影、成像伪影等。例如,预固定伪影可包括注射伪影、挤压伪影(例如,组织撕裂或组织褶皱)、电灼伪影、淀粉伪影、自溶伪影等。固定伪影可包括例如福尔马林颜料、汞颜料、冰晶伪影、冷冻伪影、流动伪影等。与漂浮和封片相关的伪影可包括例如截面的折叠和褶皱、污染物、气泡等。染色伪影可包括例如残余蜡、与向伊红添加乙酸相关的伪影、由于苏木精的腐蚀引起的伪影、由于苏木精的荧光光泽引起的伪影等。封片伪影可包括例如残余水和气泡。
III.生成数字病理学图像
组织学染色广泛用于突出目标特征并增强生物样品切片组织或细胞的对比度。例如,染色可用于标示特定类型的细胞和/或标记特定类型的核酸和/或蛋白质以辅助显微镜检查。然后可评估染色样品以确定或估计样品中目标特征的数量(例如,其可包括计数、密度或表达水平)和/或目标特征的一个或多个特性(例如,目标特征相对于彼此或与相对于其他特征、形状特性等的位置)。组织学染色的过程可包括几个阶段,例如固定、处理、包埋、切片、染色和成像。
在一些实施例中,组织切片的免疫组织化学染色是一种用于标识生物样品中特定蛋白质的存在的组织学染色。例如,特定蛋白质(例如,抗原)的表达水平由以下因素确定:(a)对具有特定抗体类型的样品进行免疫组织化学分析;以及(b)确定样品中蛋白质的存在和/或表达水平。在一些实施例中,免疫组织化学染色强度是相对于从参考样品确定的参考来确定的(例如,对照细胞株染色样品、来自非癌症受试者的组织样品、已知具有预定义蛋白质表达水平的参考样品)。
图1示出了组织学染色过程100的实例。组织学染色过程100的阶段110包括样品固定,其可用于保存样品并减缓样品降解。在组织学中,固定通常是指使用化学物质来保留化学成分、保存天然样品结构并保持细胞结构不被降解的不可逆过程。固定也可能使细胞或组织变硬以进行切片。固定剂可使用交联蛋白增强样品和细胞的保存。固定剂可能与一些蛋白质结合并交联,并通过脱水使其他蛋白质变性,这可能会使组织硬化并使酶失活,否则酶可能会降解样品。固定剂也可杀死细菌。
可例如通过制备的样品的灌注和浸润来施用固定剂。可使用各种固定剂,包括甲醇、Bouin固定剂和/或甲醛固定剂,例如中性缓冲福尔马林(NBF)或石蜡-福尔马林(多聚甲醛-PFA)。在样品是液体样品(例如,血液样品)的情况下,可将样品涂抹在载玻片上并在固定前干燥。
虽然为了组织学研究的目的,固定过程可用于保存样品和细胞的结构,但固定可能导致隐藏组织抗原,从而减少抗原检测。因此,固定通常被认为是免疫组织化学的限制因素,因为福尔马林可交联抗原并掩盖表位。在一些情况下,进行额外的过程来逆转交联的影响,包括用柠康酸酐(一种可逆的蛋白质交联剂)处理固定样品并加热。
组织学染色过程100的阶段120包括样品处理和包埋。样品处理可包括用合适的组织学蜡(例如石蜡)浸润固定样品(例如,固定组织样品)。组织学蜡可能不溶于水或酒精,但可溶于石蜡溶剂,例如二甲苯。因此,组织中的水可能需要用二甲苯代替。为此,可首先通过逐渐用酒精代替样品中的水来使样品脱水,这可通过使组织通过增加浓度的乙醇(例如,从0%到约100%)来实现。将水换成醇后,可用与醇互溶的二甲苯代替醇。包埋可包括将样品包埋在温暖的石蜡中。因为石蜡可溶于二甲苯,所以熔化的蜡可能会填充充满二甲苯和之前充满水的空间。可冷却填充有蜡的样品以形成硬化块,可将其夹入到切片机中以进行切片。在一些情况下,偏离上述实例程序会导致石蜡渗入,从而抑制抗体、化学物质或其他固定剂的渗透。
组织学染色过程100的阶段130包括样品切片。切片是从包埋块切割样品(例如,包埋和固定的组织样品)的薄片从而将其封片在显微镜载玻片上进行检查的过程。可使用切片机进行切片。在一些情况下,组织可在干冰或异戊烷中快速冷冻,然后在冷藏柜(例如,低温恒温器)中用冷刀切割。其他类型的冷却剂可用于冷冻组织,例如液氮。用于光学显微镜的切片通常约为4μm到10μm厚。在一些情况下,切片可包埋入环氧树脂或丙烯酸树脂中,这样可切割更薄的切片(例如,<2μm)。切片可放置在载玻片上。
组织学染色过程100的阶段140包括(组织样品的或固定液体样品的切片的)染色。染色的目的是通过颜色反应来标识不同的样品成分。大多数细胞是无色且透明的。因此,可能需要对组织切片进行染色以使细胞可见。染色过程通常涉及向样品添加染料或染色剂,以鉴定或量化特定化合物、结构、分子或特征(例如,亚细胞特征)的存在。例如,染色可帮助标识或突出组织切片中的特定生物标志物。在其他实例中,染色剂可用于标识或突出生物组织(例如,肌肉纤维或结缔组织)、细胞群(例如,不同的血细胞)或个别细胞内的细胞器。
许多染色溶液是水性的。因此,为了对组织切片进行染色,可能需要在将染色溶液应用于切片之前溶解蜡并用水代替(再水化)。例如,切片可依次通过二甲苯、降低浓度的乙醇(从约100%到0%)和水。一旦染色,切片可再次脱水并房置于二甲苯中。然后可将切片封片在溶解在二甲苯中的封固剂中的显微镜载玻片上。盖玻片可放置在顶部以保护样品切片。盖玻片边缘周围二甲苯的蒸发可能会使封固剂干燥,并将盖玻片牢固地粘合到载玻片。
可以使用各种类型的染色方案来进行染色。例如,示例性免疫组织化学染色方案包括:在样品(例如,组织切片)周围使用疏水屏障线以防止培育期间试剂从载玻片渗漏;用试剂处理组织切片以阻断非特异性染色的内源性来源(例如,酶、游离醛基、免疫球蛋白、其他可模拟特定染色的无关分子);将样品与透化缓冲液培育以促进抗体和其他染色试剂渗透到组织中;在特定温度(例如,室温,6℃-8℃)下将组织切片与一抗培育一段时间(例如,1小时到24小时);使用洗涤缓冲液冲洗样品;在另一特定温度(例如,室温)下将样品(组织切片)与二抗培育另一时间段;使用水缓冲液再次冲洗样品;将冲洗过的样品与色原(例如,DAB)培育;以及洗去色原以停止反应。在一些情况下,复染随后用于标识样品的整个“景观”,并作为用于检测组织目标的主要颜色的参考。复染剂的实例可包括苏木精(从蓝色染成紫色)、亚甲蓝(染成蓝色)、甲苯胺蓝(将细胞核染成深蓝色,将多糖从粉红色染成红色)、核固红(也称为Kernechtrot染料,染成红色)和甲基绿(染成绿色);非核显色染色剂,例如伊红(染成粉红色)等。本领域的普通技术人员将认识到可实施其他免疫组织化学染色技术来进行染色。
在另一个实例中,可对组织切片染色进行H&E染色方案。H&E染色方案包括将与金属盐混合的苏木精染色剂或媒染剂应用于样品。然后可在弱酸溶液中冲洗样品以去除多余的染色(分化),然后在弱碱性水中使其变蓝。应用苏木精后,可用伊红复染样品。应当理解,可实施其他H&E染色技术。
在一些实施例中,可使用各种类型的染色剂来进行染色,这取决于所针对的目标特征。例如,DAB可用于IHC染色的各种组织切片,其中DAB产生描绘染色图像中目标特征的棕色。在另一个实例中,碱性磷酸酶(AP)可用于IHC染色的皮肤组织切片,因为DAB颜色可能被黑色素掩盖。关于初级染色技术,适用的染色剂可包括例如嗜碱性和嗜酸性染色剂、血红素和苏木精、硝酸银、三色染色剂等。酸性染料可与组织或细胞中的阳离子或碱性成分发生反应,例如细胞质中的蛋白质和其他成分。碱性染料可与组织或细胞中的阴离子或酸性成分发生反应,例如核酸。如上所述,染色系统的一个实例是H&E。伊红可能是带负电的粉红色酸性染料,且苏木精可能是紫色或蓝色碱性染料,其包括苏木因和铝离子。染色剂的其他实例可包括过碘酸-希夫反应(PAS)染色剂、马松三色染色剂、阿尔新蓝染色剂、范吉森染色剂、网状纤维染色剂等。在一些实施例中,可组合使用不同类型的染色剂。
组织学染色过程100的阶段150包括医学成像。显微镜(例如,电子或光学显微镜)可用于放大染色样品。例如,光学显微镜的分辨率可能小于1μm,例如大约几百纳米。为了观察纳米或亚纳米范围内的更精细细节,可使用电子显微镜。可使用数码相机(例如,与显微镜集成或连接到显微镜)来捕获放大样品的数字图像。数字图像可包括描绘整个载玻片和/或整个染色组织切片的整个载玻片图像。
在阶段160,存储染色切片的图像。图像可存储在本地、远程和/或云服务器中。每个图像可与受试者的标识符和日期(例如,样品被收集的日期和/或图像被捕获的日期)相关联地存储。图像可进一步传输到另一个系统(例如,与病理学家相关联的系统或自动或半自动图像分析系统)。
应当理解,可设想对过程100的修改。例如,如果样品是液体样品,则可从过程中省略阶段120(处理和包埋)和/或阶段130(切片)。
IV.用于数字病理学图像转换的示例性过程流程
图2示出了用于使用机器学习模型处理数字病理学图像的过程流程200(使用一个或多个计算系统进行)。如本文进一步描述的,处理数字病理学图像可包括使用数字病理学图像来训练机器学习模型或使用机器学习模型的训练的(或部分训练的)版本的数字病理学图像将部分或全部数字病理学图像转换成一个或多个结果。
如图2中所示,过程流程200包括几个阶段:图像存储阶段205、预-处理阶段210、标记阶段215、(主动)模型训练阶段220和结果生成阶段225。
图像存储阶段205可包括一个或多个图像数据存储器260,它们被访问(例如,通过预处理阶段210)以提供来自生物样品载玻片或整个生物样品载玻片(例如,组织载玻片)的预选区域的一组数字图像245。存储在每个图像数据存储器260中并在图像存储阶段210被访问的每个数字图像245可包括根据图1中描绘的过程100的部分或全部生成的数字病理学图像。
在预处理阶段210,使用一种或多种技术对一个、多组或所有组数字图像245中的每一个进行预处理以生成对应预处理图像250。预处理可包括裁剪图像。在一些情况下,预处理可进一步包括标准化或重调尺寸(例如,归一化),以将所有特征置于相同的标度(例如,相同的大小标度或者相同的颜色标度或颜色饱和度标度)上。在一些情况下,图像用预定义像素的最小尺寸(宽度或高度)(例如,2500像素)或用预定义像素的最大尺寸(宽度或高度)(例如,3000像素)来调整大小,并且保持原始纵横比。
在一些情况下,预处理包括定位和/或分割数字图像内的每个目标特征。定位目标特征可包括预测图像的点位置和/或边界。例如,定位可包括预测对应于每个描绘的细胞核的点位置或预测对应于每个描绘的膜的闭合形状。可以使用一种或多种自动检测技术来自动执行特征定位。
在一些情况下,半-自动或自动地(由特征定位控制器252)执行定位。例如,图像(例如,预处理图像)上的强度可以被归一化或正则化,强度可以被阈值化或过滤,和/或可应用算法(例如,配置成检测对象、线和/或形状)。然后可将每个边界输出和/或点位置标识为目标特征。在一些情况下,度量与每个目标特征相关联(例如,指示定位目标特征的置信度的度量),并且目标级别可基于所述度量来调节。
在一些情况下,使用对应于预处理图像250的另一图像或使用对应于相同基础图像245的不同预处理图像来执行定位。例如,对于给定的数字病理学图像,可执行给定的预处理动作以强调对应于被细胞核或细胞膜吸收的染料的颜色,并且预处理的图像可用于定位细胞。同时,可使用不同的预处理来确保当每个描绘的细胞被分类(例如,经由标记或使用机器学习模型)为给定细胞类型时描绘其他细胞器。作为另一个实例,可使用不同的染色剂对样品的连续切片进行染色,使得一些切片被染色以促进目标特征的定位(例如,使用H&E染色来促进细胞检测),并且相邻切片被染色以促进经由不同生物标志物的染色进行细胞分类。在这种情况下,可将目标特征的定位从用于标识定位的图像映射、转译和/或映射到要用于进行标记的图像。
一些预处理图像250在标记阶段215被部分或完全标记。在标记阶段215分配的标记是基于来自人类用户(例如,病理学家或图像科学家)的输入而标识的“基准真值”标记。因此,标记阶段可包括将一个或多个预处理图像的部分或全部传输和/或呈现给由用户操作的装置。在一些情况下,标记阶段215包括利用界面(例如,使用API)呈现在由用户操作的装置处,其中所述界面包括输入部件,所述输入部件接受标识标记的输入。例如,输入部件可包括下拉菜单、单选按钮菜单、文本框(例如,配置成接收一个或多个字符)、铅笔工具(例如,配置成标识点位置、曲线、边界)等。
在一些情况下,界面可以标识正在请求的特定标记和/或正在请求的特定标记的程度,这可以经由(例如)文本指令和/或可视化来传达。例如,特定的颜色、大小和/或符号可表示正在针对图像内相对于其他描绘的特定描绘(例如,特定的细胞或区域)请求标记。如果要请求对应于多个描绘的标记,则界面可同时标识描绘中的每一个或可依次标识每个描绘(使得为一个已标识的描绘提供标记会触发标识下一个描绘以进行标记)。
在一些情况下,每个图像都会呈现,直到用户已经标识出特定数量的标记(例如,特定类型的标记)。例如,可呈现给定的整个载玻片图像或整个载玻片图像的给定小块,直到用户已经标识出15个点位置,每个点对应于巨噬细胞的描绘,此时界面可呈现不同的整个载玻片图像或不同小块的图像(例如,直到标记了阈值数量的图像或小块)。因此,在一些情况下,界面配置成请求和/或接受针对目标特征的不完整子集的标记,并且用户可确定将标记可能的许多描绘中的哪一个。
界面可支持放大和缩小图像(例如,放大各种视野或恢复到整个载玻片比例)和/或移动图像。在一些情况下,在低放大级别下,可使用一种类型的视觉标识符(例如,彩色图)来标识请求标记的图像的部分,而在高放大级别下,可使用另一种类型的视觉标识符(例如,标志物符号、标志物大小和/或标志物形状)来替代地或另外标识请求标记的图像的部分。在一些情况下,请求标记的图像的部分的视觉指示的特性随着放大而改变。例如,点位置的标志物的大小可与放大级别相关联。
在标记阶段215标识的标记255可标识(例如)细胞的类别、关于给定细胞是否是特定类型细胞的二元指示、关于预处理图像250(或具有预处理图像250的特定区域)是否包括特定类型的描绘(例如,坏死或伪影)、载玻片级或特定区域描绘的分类特性描述(例如,标识特定类型的伪影)、数量(例如,标识区域内特定类型的细胞的数量、所描绘的伪影的数量或坏死区域的数量)等。在一些情况下,标记255包括位置。例如,标记255可标识特定类型的细胞的细胞核的点位置或特定类型的细胞的点位置。作为另一个实例,标记250可包括边缘或边界,例如所描绘的肿瘤、血管、坏死区域等的边缘。根据目标特征,给定的标记预-处理图像250可与单个标记255或多个标记255相关联。在后一种情况下,每个标记255可与(例如)关于标记对应于预处理图像250内的哪个位置或部分的指示相关联。
在标记阶段215,标记255和对应预处理图像250可用于训练机器学习模型260。机器学习模型260包括(例如)卷积神经网络(“CNN”)、深度神经网络、初始神经网络、残差神经网络(“Resnet”)、U-Net、V-Net、单发多框检测器(“SSD”)网络、递归神经网络(“RNN”)、修正线性单元(“ReLU”)、长短期记忆(“LSTM”)模型、门控递归单元(“GRU”)模型等,或其任何组合。机器学习模型可包括决策树模型、随机森林模型、支持向量机和/或回归模型。
机器学习模型可以包括一个或多个固定的(例如,并由程序员定义的)超参数和/或使用其来配置。例如,超参数可以定义神经网络中的层数、层中的节点数、学习速率等。
训练机器学习模型260可包括使用损失函数或目标函数(例如,最小化损失或最大化目标)来学习一组参数(例如,一个或多个系数和/或权重)。每个参数可为可调变量,使得在训练期间调整参数的值。例如,损失函数或目标函数可配置成优化所描绘的表示的准确分类、优化给定类型特征的表征(例如,表征形状、大侠、均匀性等)、优化给定类型的特征的检测和/或优化给定类型的特征的准确定位。
任何阶段的训练都可涉及请求人类用户标记可用数据的不完整子集。在一些情况下,在第一次训练迭代期间,可使用随机或伪随机计算算法或通过请求用户选择要标记的子集来标识子集。
关于第一次训练迭代,机器学习模型260可(但不必)用在初始训练之前随机或伪随机设置的参数值来初始化。在一些情况下,初始参数值是使用迁移学习定义的,其中针对另一项任务学习参数。在一些情况下,参数是使用迁移学习来定义的,而不是初始训练阶段,所述阶段涉及随机、伪随机或完全服从的用户选择要标记的多个特征的子集。
对于后续迭代,可根据来自先前迭代的参数定义来设置参数,并且在(主动)模型训练阶段220执行的训练可在选择或优先化要在标记阶段215标记的数据时变得更加活跃。更具体地,因为至少机器学习模型260的参数的临时定义由第一次(或随后的)迭代标识,所以模型260可接着在结果生成阶段225用于将其他预处理图像250转换成预测标记265。每个预测标记265可与用于生成预测标记265的图像和/或图像的一部分相关联,并且还与置信度度量270相关联。
用户的装置可用的(例如,病理学家可用的)界面可标识或呈现与低置信度度量(例如,低于预定义的绝对阈值或相对阈值)相关联的图像的图像部分。例如,当标记对应于整个图像时,主动模型训练包括呈现与来自给定训练迭代的最低置信度度量270相关联的预定义数量的图像和/或呈现与来自给定训练迭代的低于预定义的阈值的置信度度量270相关联的所有图像。作为另一个实例,可标识与来自给定训练迭代的低于预定义阈值的置信度度量270相关联的初始图像组,并且可随机或伪随机-选择和呈现初始图像组的子集(具有预定义数量个图像)。
界面可包括如本文所述的一个或多个特征以有助于标记。例如,界面可具有一个或多个输入部件,所述输入部件接受标识标记和/或缩放能力的输入。作为另一个实例,可使用颜色(例如,经由热图)或其他视觉指示来指示需要对图像的哪个(或哪些)部分进行标记或标记审查。界面可呈现与对应预测标记265的指示相关联的每个图像或每个图像部分。例如,标识图像部分的点位置的标志物的颜色可标识二元或分类预测标记的值。作为另一个实例,文本标题或覆盖可标识图像的预测标记。
在一些情况下,界面配置成支持对给定训练图像中用于训练模型的所有图像或对一个或多个图像的所有部分进行标记或标记审查,而不是选择图像或图像的部分进行标记或标记审查。例如,界面可针对许多预测标记265中的每一个同时或依次呈现视觉标识符,并且可接受确认或拒绝预测标记265的任何此类预测标记265的输入。在这种情况下,界面仍然可以强调与低或相对低置信度相关联的预测标记和/或可明确请求针对与低或相对低置信度相关联的预测标记进行标记审查。例如,标志物可覆盖在视野中图像的每个部分上。标志物的颜色可表示预测标记265,并且标志的大小可以与对应的置信度度量270负相关。
当用户与界面交互以标识图像部分或图像的新标记时,新标记被认为是图像部分或图像的基准真值标记255。当用户与界面交互以确认图像部分或图像的给定预测标记时,图像部分或图像的基准真值标记255被定义为预测标记。当用户与界面交互以拒绝预测标记并且如果只有两个可能标记可用(意味着标记是二元的)时,那么图像部分或图像的基准真值标记255被定义为两个的可能标记中的另一个。
新的基准真值标记255可接着用于在下一次训练迭代期间训练机器学习模型260。例如,机器学习模型260可用在先前迭代期间学习的参数值来初始化,然后可以使用新的基准真值标记255来训练模型。作为另一个实例,尽管与最近的标记会话相关联的标记255可比其他标记具有更高的权重,但机器学习模型260可使用与多个标记会话相关联和/或与多个训练迭代相关联地标识的标记255来重新训练。
预测标记265的生成与置信度度量270之间的迭代(在结果生成阶段225)提供了有助于低置信度预测的标记或标记-审查的一个界面,并且使用新标记来训练机器学习模型260,所述迭代可以继续,直到满足停止条件。训练完成条件可配置成在(例如)以下情况时得到满足:预定义次数的迭代已经完成;基于置信度度量270生成的统计数据(例如,高于特定值的平均或中值置信度度量或置信度度量的百分比)超过预定义置信度阈值;在最近的标记审查中被审查和拒绝的标记的百分比低于预定义的标记拒绝阈值;和/或参与标记审查的用户装置关闭标记审查应用程序。在一些情况下,可响应于从用户装置接收到对应请求而发起新的训练迭代。
然后可以使用经过训练的机器学习模型260(在结果生成阶段225)来处理新的预处理图像250以生成新的预测标记265和可能新的置信度度量270。可以使用已经用于初始标记或用于标记审查的相同或相似类型的界面来呈现新的预测标记(和可能的新的置信度度量270)。在各种情况下,呈现新预测标记的界面可能包括或可能缺少用于拒绝或替换预测标记265的输入部件。
在一些情况下,分析控制器280生成一个或多个分析结果285,其可用于请求处理底层图像的实体。可以提供分析结果285来代替或另外作为预测标记265。分析结果285可基于预测标记。例如,分析结果285可标识与特定标记相关联的所描绘细胞的计数或百分比。
应当理解,过程流程200是示例性的,并且设想具有不同阶段和/或使用部件的过程流程200。例如,在一些情况下,网络可以省略预-处理阶段210,使得用于训练模型的图像和/或由模型处理的图像是原始图像(例如,来自图像数据存储器)。作为另一个实例,应当理解,预处理阶段210和(主动)模型训练阶段220中的每一个都可包括控制器来执行本文描述的一个或多个动作。类似地,虽然标记阶段215被描绘为与特征定位控制器252相关联,并且虽然结果生成阶段225被描绘为与分析控制器280相关联,但是与每个阶段相关联的控制器可进一步或替代地促进本文描述的除了特征定位和/或生成分析结果之外的其他动作。作为又一实例,图2中所示的过程流程200的描绘缺少以下各者的描绘表示:与程序员相关联的装置(例如,为机器学习模型260选择架构、定义各种界面将如何运行等);与提供初始标记或标记审查(例如,在标记阶段215)的用户相关联的装置;以及与请求对给定图像进行模型处理的用户相关联的装置(所述用户可以是与已提供初始标记或标记审查的用户相同或不同的用户)。尽管没有描绘这些装置,但过程流程200可能涉及使用一个、多个或所有设备,并且实际上可能涉及使用与提供初始标记或标记审查的对应多个用户相关联的多个装置和/或与请求对各种图像进行模型处理的对应多个用户关联的多个装置。
IV.A.用于标记整个载玻片图像的部分的模型的示例性训练
图3示出了根据本公开的一些方面的主动学习工作流程300。主动学习工作流程300中表示的动作可使用一个或多个计算系统(例如,模型训练计算系统和/或提供标记或标记审查的一个或多个用户的一个或多个装置)来执行。在主动学习工作流程300中执行的一些或所有动作可在过程流程200(图2中所描绘的)的标记阶段215和/或(主动)模型训练阶段220期间执行。
主动学习工作流程包括初始化动作305和主动学习动作310。在此示例性实例中,在方框315处,执行预处理动作以检测整个载玻片图像中的特征(例如,使用表示为VDPSDK的框架,其可支持以特定顺序运行一组命令或脚本)。特征可包括(例如)细胞、伪影、细胞核等。
在方框320处,打开一个或多个整个载玻片图像。打开整个载玻片图像可包括将整个载玻片图像从本地或远程存储加载到用户装置上。可响应用户(例如,病理学家、图像科学家或其他合适的用户)已在查看软件内提供特定类型的输入(例如,启动会话和/或标识整个幻灯片图像)而打开整个载玻片图像。打开整个载玻片图像可触发将整个载玻片图像呈现在用户装置上。
在方框325处,访问来自初始算法的结果,其中结果对应于整个载玻片图像。初始算法可包括机器学习模型,其可包括用随机选择的参数值或伪随机选择的参数值初始化的模型。初始算法可包括具有使用迁移学习定义的参数值的机器学习模型(即,已经在对应于不同任务的上下文中学习)。结果可能包括一个或多个预测标记。
在方框330处,选择一个或多个视野(FOV)。每个视野可标识整个载玻片图像的一部分。可自动选择(例如,使用随机或伪随机技术或使用预定义的顺序)视野或可基于用户输入(例如,单击整个载玻片图像的呈现的一部分或选择整个载玻片图像的一个区域)来选择视野。视野的选择可能使视野呈现在用户装置上(例如,代替或补充整个载玻片图像)。
在方框335处,标记视野中存在的一个、多个或所有目标特征(在方框315处标识)。每个标记可基于从用户接收到的输入来定义。这些标记中的每一个都可被定义为基准真值标记340,其在方框345处与关于对应特征的数据相关联地进行保存。
在方框350处,选择要用于训练的机器学习模型和特征(例如,一个或多个细胞核特征、一个或多个细胞特征、一个或多个形态学特征和/或一个或多个架构特征)。例如,可基于在用户装置处接收到的输入来做出选择,所述选择从列表、下拉菜单等中呈现的多种类型的模型当中标识特定类型的模型。可自动地或基于用户输入来选择特征。多种类型的模型中的每一种在模型架构、参数初始化(例如,基于不同上下文中的训练来确定)等方面可能彼此不同。选择可进一步包括定义模型的一个或多个超参数(例如,基于在用户装置处接收到的输入)。作为另一个实例,可从多个模型当中随机地、伪随机地或使用预定义的顺序来选择模型。
在方框355处,使用基准真值标记340和视野的对应部分来训练所选择的机器学习模型。在一些情况下,基准真值标记被分成两个子集——用于训练模型的第一子集(在方框355处)和用于验证的第二子集。可使用基准真值标记的第二子集来计算一个或多个验证度量,并且在方框360处,可确定验证度量是否至少指示基线性能质量。如果否,则工作流程300可以返回方框350,其中可选择另一个模型。
当确定验证度量至少指示基线性能质量时,工作流程300转换到主动学习动作310。
在方框365处,在相同或新的整个载玻片图像上运行在方框350处选择并具有在方框355处学习的参数的机器学习模型。机器学习模型可输出预测标记和对应于图像内多个点位置中的每一个或区域内多个部分中的每一个的对应的置信度度量。置信度度量可用于生成(也在方框365处)热图,所述热图对应于整个载玻片图像的一部分或全部整个载玻片图像,其中热图表示所描绘区域不同部分的预测标记的确定性(例如,置信度度量)。例如,可通过使用平滑技术或通过计算多个区域中的每一个的统计数据来生成热图。
在方框370处,确定机器学习模型是否被充分训练。如果是,则在方框372处连同用于训练模型的所有基准真值标记一起保存模型。
如果否,则显示确定性热图(例如,在用户装置上),作为在375处由机器学习模型(来自方框365)生成的结果(预测标记)。在一些情况下,热图和结果会同时显示。例如,每个预测的视觉指示可在与对应目标特征相关联的位置处覆盖在热图上。作为另一个实例,热图(例如,整个载玻片图像或给定视野的热图)可以非重叠的方式(例如,以两个帧)与结果同时呈现。在一些情况下,热图在第一组放大级别上显示,并且结果在第二组放大级别上显示(其中第一组放大级别可与第二组放大级别重叠或不重叠)。
在方框380处,选择新的视野(例如,响应于在已显示热图的用户装置处检测到对应输入)。在方框385处,标记一个或多个目标特征,从而创建一个或多个额基准真值(gt)。因此,如方框390所示,可定义全部基准真值标记(G)集以包括来自初始化动作305的基准真值标记和经由主动学习动作310标识的每个额外基准真值标记。
在方框395处,使用全部基准真值标记集来重新训练机器学习模型。在方框397处,存储全部基准真值标记集(例如,替换任何先前存储的全部基准真值标记集)和/或存储新获得的标记(来自方框385)以补充先前存储的基准真值标记。可继续训练模型直到确定(在方框370处)满足停止标准。
IV.B.用于使用数字病理学过程流程的示例性工作流程
图4示出了用于使用部分或全部数字病理学过程流程(例如,图2中描绘的过程流程200)的示例性工作流程。所描绘的工作流程可在一个或多个计算系统上执行(例如,与人工注释者相关联的计算系统、与请求标记预测的用户相关联的计算系统和/或远程计算系统(例如,在云端操作))。
在方框405处,对图像的一部分或全部(例如,整个载玻片图像的一部分或全部)进行注释。注释可包括(例如)将标记(例如,二元标记、分类标记、数字标记等)分配给图像的一部分和/或标识预测描绘给定特征的图像的特定部分。可根据在由注释者操作的装置处接收到的输入来执行注释。可跨不同图像和/或不同目标部分重复执行注释。可另外或替代地执行注释以标记不同的特征(例如,首先定位个别细胞并单独分类个别细胞)。
在一些情况下,在过程流程200中的方框215处执行注释。在一些情况下,带注释的图像可存储在图像数据存储器240中,使得每个图像都与经由注释生成的对应标记数据相关联地进行存储。
在方框410处,执行数据收集。数据收集可包括标识特定注释图像和/或注释图像的特定部分。特定图像和/或特定部分可能已被注释以指示以下各者:它们被注释来标识任何特定类型的目标特征;它们描绘了特定类型的目标特征的至少一部分;它们描绘了至少一个特定类型的目标特征;和/或它们至少描绘了特定类型的目标特征的阈值数量。例如,可执行数据收集以标识每个图像块,这些图像块被注释以指示描绘了10个细胞并且描绘了至少2个巨噬细胞。作为另一个实例,可执行数据收集以标识被注释的每个图像块,从而标识每个巨噬细胞(不管是否检测到任何巨噬细胞)。
在一些情况下,可在预处理阶段210经由将查询传输到图像数据存储器240并接收标识对应图像和/或图像部分的结果来执行数据收集。在一些情况下,数据收集是作为标记阶段215的一部分来执行的。
在方框415处,执行数据准备。数据准备可包括根据(例如)本文公开的一种或多种预处理技术的预处理。数据准备可包括定义一个或多个图块或小块(例如,对应于图像的一部分的每个图块或小块)。数据准备可包括定义基准真值掩码,其可以标识描绘组织切片的至少一部分的图像的一部分。可在预处理阶段210执行数据准备。
在方框420处,准备好的数据(可包括多个图像和对应于每个图像的至少一个标记)可用于训练和/或微调机器学习模型。训练可包括:使用当前版本的机器学习模型来生成标记的预测(例如,以及对应的置信度度量);将预测标记与真实标记进行比较(例如,使用损失函数);以及基于比较调整模型的参数。训练可进一步或另外包括使用模型和/或一个或多个静态变量(例如,图像的特征)来拟合当前模型。可在模型训练阶段220执行训练或微调。
在方框425处,可评估经过训练的模型。评估可表征(例如)预测标记的敏感性、特异性和/或准确性。可在模型训练阶段220执行评估。评估可包括确定给定度量是否超过预定义的阈值。如果度量没有超过预定义的阈值,则可重复训练(或微调)和评估,直到超过预定义的阈值或直到满足另一个条件(例如,至少完成预定义次数的训练迭代)。
在方框430处,执行整个载玻片图像推理。整个载玻片图像推理可在阶段225执行,并且可包括基于与部分内的图像的部分相关联的置信度度量而针对整个载玻片图像中的多个部分中的每一个生成统计数据。在一些情况下,推理进一步或替代地基于与所述部分内的图像的部分相关联的预测标记而针对整个载玻片图像中的多个部分中的每一个生成统计数据。因此,统计数据可表示图像部分内的标记的置信度和/或可反映图像部分的总体预测标记。方框430可由结果生成阶段225或(主动)模型训练阶段220来执行。
在方框435处,生成确定性热图(例如,在结果生成阶段225或(主动)模型训练阶段220),其指示整个载玻片图像内多个部分中的每一个的置信度度量统计数据。图像可能有助于指导人工注释者对图像审查或标记的哪些部分进行请求。例如,红色区域可指示与蓝色区域相比,预测标记的审查具有高度优先级。
在方框440处,标识新标记(例如,基于在注释者的装置处接收到的输入)。新标记可以对应于与生成低置信度预测的图像部分相关联地提供的标记。
然后工作流程可返回到方框420以继续基于新标记的训练。迭代可继续,直到满足停止条件(例如,已经由注释提供至少预定义数量的标记;已执行至少预定义数量的训练迭代;已达到至少预定义的模型精度;来自人类操作员的输入已对应于对模型的接受等)。
V.用于数字病理学处理的示例性框架
如本文所指出的,一个或多个系统中的每一个都可参与执行所公开的各种动作和/或处理以训练或使用机器学习模型来处理图像。图5公开了具有可在此方面中使用的示例性系统和应用程序的网络500。网络500可包括支持过程流程200的部分或全部、图3中描绘的主动学习工作流程的部分或全部和/或图4中描绘的示例性工作流程的部分或全部的部件。
系统和/或应用程序可单独或共同支持:高分辨率和/或高速图像存储和检索;图像可视化、数据可视化、交互式数据校正和/或图像分析(例如,图像训练和推理)。
网络500包括由一组交互-支持部件510支持的前端应用程序子网络505。用户装置512可与内容管理系统515通信(例如,向其发送通信并从其接收通信),所述内容管理系统可一个或多个管理与用户装置512的主动学习会话。管理主动学习会话可包括协调由网络500中的一个或多个其他部件执行的动作。
查看器部件520可定义和提供可用于用户装置512的界面。界面可包括(例如)图像、用于标记图像的一个或多个输入部件、一个或多个预测标记或如本文所述描述的其他信息。
查看器部件520可通过向图像管理部件530发送请求来访问图像。请求可包括(例如)被请求的图像类型的指示(例如,标识器官、染色类型、受试者疾病类型、受试者年龄等)、特定图像的标识符(例如,标识特定受试者)、授权信息(例如,标识与用户装置512相关联的用户以允许图像管理部件530评估访问权限)、标识特定临床研究和/或标识正在被训练或使用的特定机器学习模型(其可能与某些图像类型和/或某些图像访问限制相关联)。在一些情况下,请求是针对单个图像的。在一些情况下,针对多个图像(查看器部件520)的请求然后可部分或全部、同时或分别呈现。
图像管理部件530可评估与请求相关联的权限,并且如果确定所述请求是允许的,则可向远程或本地图像文件系统530查询图像。在一些情况下,图像管理部件530在将图像返回给查看器部件520之前预处理图像。例如,图像管理部件530可裁剪或缩放图像。
另外或替代地,查看器部件520可与分析平台部件535通信以协调图像预处理。例如,预处理-可包括标识图像中的一个或多个细胞描绘中的每一个的点位置。分析平台部件535可进一步促进训练和/或使用机器学习模型。例如,基于来自用户装置512的输入来标识的标记(例如,预测细胞是否属于特定细胞类型、图像是否描绘伪影、肿瘤边界在哪里等)可用于训练机器学习模型。随后,机器学习模型可用于生成此类预测以及可能还生成对应的置信度度量。可使用包括(例如)快速处理器和大容量存储器的高性能部件540来执行机器学习模型的训练和使用。高性能部件540可包括多个节点545,每个节点可支持一个或多个编码平台。在一些情况下,每个节点545基本上独立地操作,从而支持并行处理。
分析平台535可检测与低置信度度量相关联的预测标记,并且可促进(例如,经由内容管理系统515和/或查看器部件520)请求对这些预测标记的标记审查。如本文进一步描述,来自用户装置512的指示每个标记的确认、拒绝或替换的反馈随后可用于重新训练或微调模型。
VI.实例
机器学习模型配置成检测数字病理学图像中巨噬细胞的描绘。对于每个图像,执行预处理步骤以检测每个描绘的细胞核的位置。
图6A描绘了样品的染色切片的示例性整个载玻片图像。每个白框对应一个不同的视野,用户可通过单击所述框将其放大。图6B至6D中的每一个描绘对应于同一特定视野。每个点代表所描绘细胞核的预测位置(如在预处理中所标识的)。
在图6B中,细胞核的表示中的每一个相对于彼此是相同的。如图6B所示的界面在机器学习模型的初始训练期间呈现给用户,以允许用户选择细胞核的子集标记为巨噬细胞或非巨噬细胞。这些标记(以及使用类似技术获得的其他标记)用于最初训练模型。
然后,模型针对每个已标识的细胞核预测细胞核是否对应于巨噬细胞或其他细胞类型。对于每个细胞核,模型进一步输出指示预测中的置信度一个置信度度量。图6C描绘了相同的视野和细胞核标识,但是与细胞核检测相关联的点的大小和亮度基于置信度度量来缩放。(具体来说,对应于高于阈值的置信度度量的细胞核用十字表示,而其他细胞核用实心圆表示。)这些视觉特征可指导用户标记不确定的细胞和/或审查不确定的细胞的标记(例如,通过单击较亮的点并进一步提供输入)。
在收到验证或校正各种标记预测的第一轮输入后,使用额外标记进一步训练模型。然后模型重新生成关于各种细胞是否是巨噬细胞的预测,并重新生成预测度量和置信度度量。
图6D描绘了相同的视野和细胞核标识,但是与细胞核检测相关联的点的大小和亮度基于新的置信度度量来缩放。这些更新后的视觉特性可知道用户标记或审查图像的更新后的模型最不确定的部分。
VII.其他注意事项
本公开的一些实施例包括一种系统,其包括一个或多个数据处理器。在一些实施例中,系统包括一种非暂时性计算机可读存储介质,其包含指令,所述指令当在一个或多个数据处理器上执行时使一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部和/或一种或多种过程的部分或全部。本公开的一些实施例包括一种有形地体现在非暂时性机器可读存储介质中的计算机程序产品,其包括指令,所述指令配置成使一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部和/或一种或多种过程的部分或全部。
已采用的术语和表达被用作描述性而非限制性的术语,并且在使用这些术语和表达时,无意排除所示出和描述的特征或其部分的任何等同物,但是应当认识到,在所要求保护的本发明的范围内,各种修改是可能的。因此,应当理解,尽管已通过实施例和任选特征具体地公开了所要求保护的本发明,但是本领域技术人员可采用本文所公开的概念的修改和变化,并且认为这样的修改和变化在由所附权利要求限定的本发明范围内。
本描述仅提供优选的示例性实施例,并且不旨在限制本公开的范围、适用性或配置。相反,示例性实施例的本描述将为本领域技术人员提供用于实现各种实施例的可行描述。应当理解,在不脱离所附权利要求中阐述的精神和范围的情况下,可对元件的功能和布置进行各种改变。
在本描述中给出具体细节以提供对本实施例的透彻理解。然而,应当理解,可在没有这些具体细节的情况下实践实施例。例如,电路、系统、网络、过程和其他部件可以框图形式显示为部件,以免在不必要的细节中混淆实施例。在其他情况下,可在没有不必要的细节的情况下示出众所周知的电路、过程、算法、结构和技术以避免混淆实施例。

Claims (20)

1.一种用于在数字病理学系统中主动学习的方法,其包括:
访问机器学习模型,所述机器学习模型配置成使用一个或多个参数来处理图像以生成标记;
执行所述机器学习模型以:
将至少一个数字病理学图像中的每一个的至少一部分转换成多
个预测标记;以及
为所述多个预测标记中的每一个生成置信度度量;
利用一种界面,所述界面描绘所述至少一个数字病理学图像的所述至少一部分并且基于对应的置信度度量差异性地表示预测标记;
响应于所述界面的利用而接收确认、拒绝或替换所述多个预测标记中的至少一个的标记输入;以及
基于所述标记输入更新所述机器学习模型的所述一个或多个参数。
2.根据权利要求1所述的方法,其进一步包括:
为所述数字病理学图像生成确定性图,其中所述数字病理学图的像每的每个部分的值与对应于所述部分内的点位置或区域的一个或多个置信度度量的统计数据对应;
其中利用所述界面包括利用所述确定性图的表示。
3.根据权利要求1或权利要求2所述的方法,其中所述界面配置成:
接收输入以表示与一个放大级别的区域置信度度量有关的统计数据;
表示另一个放大级别的置信度度量;以及
接收输入以改变所述放大级别。
4.根据权利要求1至3中任一项所述的方法,其进一步包括:
接收新数字病理学图像;
将所述新数字病理学图像转换成一个或多个新标记,所述新标记表征所述新数字病理学学理图像或所述新数字病理学图像的部分;以及
输出所述一个或多个新标记。
5.根据权利要求1至4中任一项所述的方法,其进一步包括:
预处理所述数字病理学图像的初始版本以检测每个目标特征的位置,其中转换所述数字病理学图像的所述至少一部分包括生成对应于所述数字病理学图像中的所述至少一部分内的每个检测到的目标位置的标记。
6.根据权利要求1至5中任一项所述的方法,其进一步包括:
基于所述预测标记的所述置信度度量,为所述多个预测标记中的每一个选择标志物的大小、颜色或形状,其中所述界面通过使用标志物使用具有所述所选大小、颜色或形状的标志物表示所述多个预测标记中的每个预测标记基于对应的置信度度量来差异性地表示预测标记。
7.根据权利要求1至6中任一项所述的方法,其中所述机器学习模型包括深度神经网络。
8.一种系统,其包括:
一个或多个数据处理器;以及
非暂时性计算机可读存储介质,其包含指令,所述指令当在所述一个或多个数据处理器上执行时,使所述一个或多个数据处理器执行包括以下的一组操作:
访问机器学习模型,所述机器学习模型配置成使用一个或多个参数来处理图像以生成标记;
执行所述机器学习模型以:
将至少一个数字病理学图像中的每一个的至少一部分转换成多个预测标记;以及
为所述多个预测标记中的每一个生成置信度度量;
利用一种界面,所述界面描绘所述至少一个数字病理学图像的所述至少一部分并且基于对应的置信度度量差异性地表示预测标记;
响应于所述界面的利用而接收确认、拒绝或替换所述多个预测标记中的至少一个的标记输入;以及
基于所述标记输入更新所述机器学习模型的所述一个或多个参
数。
9.根据权利要求8所述的系统,其中所述一组操作进一步包括:
为所述数字病理学图像生成确定性图,其中所述数字病理学图的像的每每个部分的值与对应于所述部分内的点位置或区域的一个或多个置信度度量的统计数据对应;
其中利用所述界面包括利用所述确定性图的表示。
10.根据权利要求8或权利要求9所述的系统,其中所述界面配置成:
接收输入以表示与一个放大级别的区域置信度度量有关的统计数据;
表示另一个放大级别的置信度度量;以及
接收输入以改变所述放大级别。
11.根据权利要求8至10中任一项所述的系统,其中所述一组操作进一步包括:
接收新数字病理学图像;
将所述新数字病理学图像转换成一个或多个新标记,所述新标记表征所述新数字病理学学理图像或所述新数字病理学图像的部分;以及
输出所述一个或多个新标记。
12.根据权利要求8至11中任一项所述的系统,其中所述一组操作进一步包括:
预处理所述数字病理学图像的初始版本以检测每个目标特征的位置,其中转换所述数字病理学图像的所述至少一部分包括生成对应于所述数字病理学图像中的所述至少一部分内的每个检测到的目标位置的标记。
13.根据权利要求8至11中任一项所述的系统,其中所述一组操作进一步包括:
基于所述预测标记的所述置信度度量,为所述多个预测标记中的每一个选择标志物的大小、颜色或形状,其中所述界面通过使用标志物使用具有所述所选大小、颜色或形状的标志物表示所述多个预测标记中的每个预测标记基于对应的置信度度量来差异性地表示预测标记。
14.根据权利要求8至13中任一项所述的系统,其中所述机器学习模型包括深度神经网络。
15.一种有形地体现在非暂时性机器可读存储介质中的计算机程序产品,其包括指令,所述指令配置成使一个或多个数据处理器执行包括以下的一组操作:
访问机器学习模型,所述机器学习模型配置成使用一个或多个参数来处理图像以生成标记;
执行所述机器学习模型以:
将至少一个数字病理学图像中的每一个的至少一部分转换成多
个预测标记;以及
为所述多个预测标记中的每一个生成置信度度量;
利用一种界面,所述界面描绘所述至少一个数字病理学图像的所述至少一部分并且基于对应的置信度度量差异性地表示预测标记;
响应于所述界面的利用而接收确认、拒绝或替换所述多个预测标记中的至少一个的标记输入;以及
基于所述标记输入更新所述机器学习模型的所述一个或多个参数。
16.根据权利要求15所述的计算机程序产品,其中所述一组操作进一步包括:
为所述数字病理学图像生成确定性图,其中所述数字病理学图的像的每每个部分的值与对应于所述部分内的点位置或区域的一个或多个置信度度量的统计数据对应;
其中利用所述界面包括利用所述确定性图的表示。
17.根据权利要求15或权利要求16所述的计算机程序产品,其中所述界面配置成:
接收输入以表示与一个放大级别的区域置信度度量有关的统计数据;
表示另一个放大级别的置信度度量;以及
接收输入以改变所述放大级别。
18.根据权利要求15至17中任一项所述的计算机程序产品,其中所述一组操作进一步包括:
接收新数字病理学图像;
将所述新数字病理学图像转换成一个或多个新标记,所述新标记表征所述新数字病理学学理图像或所述新数字病理学图像的部分;以及
输出所述一个或多个新标记。
19.根据权利要求15至18中任一项所述的计算机程序产品,其中所述一组操作进一步包括:
预处理所述数字病理学图像的初始版本以检测每个目标特征的位置,其中转换所述数字病理学图像的所述至少一部分包括生成对应于所述数字病理学图像中的所述至少一部分内的每个检测到的目标位置的标记。
20.根据权利要求15至19中任一项所述的计算机程序产品,其中所述一组操作进一步包括:
基于所述预测标记的所述置信度度量,为所述多个预测标记中的每一个选择标志物的大小、颜色或形状,其中所述界面通过使用标志物使用具有所述所选大小、颜色或形状的标志物表示所述多个预测标记中的每个预测标记基于对应的置信度度量来差异性地表示预测标记。
CN202180056644.0A 2020-08-13 2021-07-29 用于数字病理学的主动学习系统 Pending CN116057585A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063065404P 2020-08-13 2020-08-13
US63/065,404 2020-08-13
PCT/US2021/043717 WO2022035609A1 (en) 2020-08-13 2021-07-29 Active learning system for digital pathology

Publications (1)

Publication Number Publication Date
CN116057585A true CN116057585A (zh) 2023-05-02

Family

ID=77412377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180056644.0A Pending CN116057585A (zh) 2020-08-13 2021-07-29 用于数字病理学的主动学习系统

Country Status (5)

Country Link
US (1) US20230169406A1 (zh)
EP (1) EP4196913A1 (zh)
JP (1) JP2023537978A (zh)
CN (1) CN116057585A (zh)
WO (1) WO2022035609A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4246525A1 (en) 2022-03-18 2023-09-20 Lunit Inc. Method and device for processing pathological slide image

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6784239B2 (ja) * 2017-07-24 2020-11-11 株式会社大林組 切羽評価支援システム、切羽評価支援方法及び切羽評価支援プログラム
US11164312B2 (en) * 2017-11-30 2021-11-02 The Research Foundation tor the State University of New York System and method to quantify tumor-infiltrating lymphocytes (TILs) for clinical pathology analysis based on prediction, spatial analysis, molecular correlation, and reconstruction of TIL information identified in digitized tissue images
EP3721373A1 (en) * 2017-12-07 2020-10-14 Ventana Medical Systems, Inc. Deep-learning systems and methods for joint cell and region classification in biological images
JP2020013427A (ja) * 2018-07-20 2020-01-23 株式会社デンソー 説明文章生成装置、対象情報表現システム、及び説明文章生成方法

Also Published As

Publication number Publication date
JP2023537978A (ja) 2023-09-06
WO2022035609A1 (en) 2022-02-17
EP4196913A1 (en) 2023-06-21
US20230169406A1 (en) 2023-06-01

Similar Documents

Publication Publication Date Title
JP6968177B2 (ja) 一次染色および免疫組織化学画像に基づくコンピュータ採点
US20230186659A1 (en) Machine learning models for cell localization and classification learned using repel coding
CN111448569B (zh) 存储和检索数字病理学分析结果的方法
US20220351860A1 (en) Federated learning system for training machine learning algorithms and maintaining patient privacy
JP7460851B2 (ja) Few-Shot学習を使用した組織染色パターンおよびアーチファクト分類
JP7422235B2 (ja) 腫瘍検出および分析を支援するための非腫瘍セグメンテーション
CN111527519B (zh) 用于生成感兴趣的细胞类型的选择性染色剂分割图像的系统和方法
CN111095352B (zh) 用于检测被染色样本图像中的细胞的自动化方法和系统
WO2023121846A1 (en) Adversarial robustness of deep learning models in digital pathology
US20230169406A1 (en) Active learning system for digital pathology
CN111492368B (zh) 用于基于膜特征对组织图像中的细胞进行分类的系统和方法
US20240046473A1 (en) Transformation of histochemically stained images into synthetic immunohistochemistry (ihc) images
WO2023250094A1 (en) Adaptive learning framework for digital pathology
US20230162485A1 (en) Digital analysis of preanalytical factors in tissues used for histological staining
US20240320562A1 (en) Adversarial robustness of deep learning models in digital pathology
US20240221360A1 (en) Machine-learning techniques for predicting phenotypes in duplex digital pathology images
WO2024118523A1 (en) Consensus labeling in digital pathology images
WO2024025969A1 (en) Architecture-aware image tiling for processing pathology slides

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination