CN114072879A

CN114072879A - 用于处理图像以对经处理的用于数字病理的图像进行分类的系统和方法

Info

Publication number: CN114072879A
Application number: CN202080051306.3A
Authority: CN
Inventors: S·卡普尔; C·卡南; T·富赫斯; L·格拉迪
Original assignee: Paige Artificial Intelligence Co
Current assignee: Paige Artificial Intelligence Co
Priority date: 2019-05-16
Filing date: 2020-05-15
Publication date: 2022-02-18
Anticipated expiration: 2040-05-15
Also published as: CA3137866A1; JP2022528014A; CN114072879B; US20240127086A1; US11315029B2; US10891550B2; AU2020276112A1; US11593684B2; US20200364587A1; AU2024201281A1; WO2020232363A1; US20210117826A1; EP3970158A1; US20230144137A1; US11893510B2; US20210279611A1; US11042807B2; US20220215277A1; JP7100336B2

Abstract

公开了用于接收与目标样本对应的目标图像的系统和方法，目标样本包括患者的组织样品，将机器学习模型应用于目标图像以确定目标样本的至少一个特征和/或目标图像的至少一个特征，机器学习模型已经通过处理多个训练图像以预测至少一个特征而生成，训练图像包括人类组织的图像和/或用算法生成的图像，并且输出目标样本的至少一个特征和/或目标图像的至少一个特征。

Description

用于处理图像以对经处理的用于数字病理的图像进行分类的系统和方法

相关申请

本申请要求2019年5月16日提交的美国临时申请号62/848,703的优先权，其全部公开内容通过引用整体并入本文。

技术领域

本公开的各种实施例一般涉及基于图像的样本分类和相关的图像处理方法。更具体讲，本公开的特定实施例涉及用于基于处理组织样本的图像来标识或验证样本类型或样本属性的系统和方法。

背景技术

为了在医院内或在研究环境中使用数字病理图像，分类样本的组织类型、样本的采集的属性（例如，前列腺穿刺活检、乳腺活组织检查、乳房切除等）以及样本或图像的其他相关属性可能是重要的。在医院环境中，组织类型信息可被存储在实验室信息系统（LIS）中。然而，正确的组织分类信息并不总是与图像内容配对。例如，可以在没有存储在LIS中的对应样本类型标签的情况下向第三方开放对图像内容的匿名访问。对LIS内容的访问可能会由于其敏感内容而受到限制。另外，即使LIS被用于访问数字病理图像的样本类型，由于LIS的许多成分可能是被手动输入的事实，该标签也可能是不正确的，从而存在大的误差余量。

存在对一种提供用于数字病理图像的不正确或遗漏的样本类型标签的解决方案而不必访问LIS或相关信息数据库的方式的期望。以下公开内容涉及用于解决从数字病理图像分类组织样本的这种需要的系统和方法。

前面的概括描述和下面的详细描述仅是示例性和解释性的，而不是对本公开的限制。本文提供的背景技术描述是为了总体上呈现本公开的上下文的目的。除非本文另有说明，否则本节中描述的材料不是本申请中权利要求的现有技术，并且不因被包含在本节中而承认是现有技术或现有技术的建议。

发明内容

根据本公开的某些方面，公开了用于从组织样本的图像分析中标识或验证样本类型或样本属性的系统和方法。

用于分析与样本对应的图像的方法包括：接收与目标样本对应的目标图像，所述目标样本包括患者的组织样品；将机器学习模型应用于所述目标图像以确定所述目标样本的至少一个特征和/或所述目标图像的至少一个特征，所述机器学习模型是通过处理多个训练图像以预测至少一个特征而生成的，所述训练图像包括人类组织的图像和/或用算法生成的图像；以及输出所述目标样本的至少一个特征和/或所述目标图像的至少一个特征。

用于分析与样本对应的图像的系统包括：存储器，存储指令；以及处理器，执行所述指令以执行过程，所述过程包括：接收与目标样本对应的目标图像，所述目标样本包括患者的组织样品；将机器学习模型应用于所述目标图像以确定所述目标样本的至少一个特征和/或所述目标图像的至少一个特征，所述机器学习模型是通过处理多个训练图像以预测至少一个特征而生成的，所述训练图像包括人类组织的图像和/或用算法生成的图像；以及输出所述目标样本的至少一个特征和/或所述目标图像的至少一个特征。

一种存储指令的非暂时性计算机可读介质，所述指令在由处理器执行时使所述处理器执行用于分析与样本对应的图像的方法，所述方法包括：接收与目标样本对应的目标图像，所述目标样本包括患者的组织样品；将机器学习模型应用于所述目标图像以确定所述目标样本的至少一个特征和/或所述目标图像的至少一个特征，所述机器学习模型是通过处理多个训练图像以预测至少一个特征而生成的，所述训练图像包括人类组织的图像和/或用算法生成的图像；以及输出所述目标样本的至少一个特征和/或所述目标图像的至少一个特征。

应当理解，前面的一般描述和下面的详细描述都仅仅是示例性和说明性的，而不是对所要求保护的公开实施例的限制。

附图说明

并入本说明书并构成本说明书的一部分的附图示出了各种示例性实施例，并与说明书一起用于解释所公开的实施例的原理。

图1A示出根据本公开的一个示例性实施例的用于确定与数字病理图像有关的样本属性或图像属性信息的系统和网络的一个示例性框图；

图1B示出根据本公开的一个示例性实施例的疾病检测平台100的一个示例性框图；

图1C示出根据本公开的一个示例性实施例的样本分类平台的一个示例性框图；

图2A和2B是示出根据本公开的一个或多个示例性实施例的用于确定与数字病理图像有关的样本属性或图像属性信息并且使用机器学习对样本进行分类的示例性方法的流程图；

图3是根据本公开的一个示例性实施例的确定与数字病理图像有关的样本属性或图像属性信息的一个示例性实施例的流程图；

图4是根据本公开的一个示例性实施例的生成和使用样本类型标识工具的一个示例性实施例的流程图；

图5是根据本公开的一个示例性实施例的生成和使用图像质量控制和/或样本质量控制工具的一个示例性实施例的流程图；

图6是根据本公开的一个示例性实施例的生成和使用先前组织治疗效果标识工具的一个示例性实施例的流程图；

图7描绘可以执行本文所呈现的技术的一个示例性系统。

具体实施方式

现在将详细参考本公开的示例性实施例，其示例已经在附图中示出了。在可能的任何情况下，在所有附图中使用相同的附图标记来表示相同或相似的部件。

通过示例并参考附图详细描述了本文公开的系统、设备和方法。本文所讨论的示例仅是示例，并且被提供以帮助解释本文所描述的装置、设备、系统和方法。对于这些设备、系统或方法中的任何一个的任何特定实施方式，附图中所示或以下讨论的特征或组件都不应被认为是强制性的，除非被具体指定为强制性的。

此外，对于所描述的任何方法，无论该方法是否结合流程图来描述，应当理解，除非上下文另外指定或要求，否则在方法的执行中执行的步骤的任何显式或隐式排序都不暗示这些步骤必须以所呈现的顺序来执行，而是可以以不同的顺序或并行地执行。

如本文所用，术语“示例性”是在“示例”而非“理想”的意义上使用。此外，术语“一”和“一个”在此不表示数量的限制，而是表示存在一个或多个所引用的项目。

病理学涉及疾病的研究。更具体讲，病理学是指执行用于诊断疾病的测试和分析。例如，组织样品可被放置在载片上，以便由病理学家（例如，作为分析组织样品以确定是否存在任何异常的专家的医师）在显微镜下观察。也就是说，病理样本可以被切成多个分段、染色并制备成载片以供病理学家检查和进行诊断。当不确定载片上的诊断发现时，病理学家可命令额外切割水平、染色或其他测试以从组织中收集更多信息。然后，技术人员可以创建新的载片，其可以包含供病理学家在进行诊断时使用的额外信息。这种产生额外载片的过程可能是耗时的，不仅因为它可能会涉及取回组织块、将其切割以制作一个新的载片、然后对该载片染色，而且因为它可能会被分批用于多个命令。这可能会显著地延迟病理学家做出的最终诊断。另外，即使在延迟之后，可能也仍然不能保证新的载片将具有足以进行诊断的信息。

病理学家可以单独评估癌症和其他疾病的病理载片。本公开提出了一种用于改进癌症和其他疾病的诊断的统一工作流程。该工作流程可以在一个工作站中集成例如载片评估、任务、图像分析和癌症检测人工智能（AI）、注释、咨询和推荐。具体讲，本公开描述了在工作流程中可用的各种示例性用户接口、以及可被集成到工作流程中以加快和改善病理学家的工作的AI工具。

例如，计算机可被用于分析组织样品的图像以快速标识是否需要关于特定组织样品的额外信息，和/或向病理学家突显出他或她应该更靠近观看的区域。因此，获得额外的染色载片和测试的过程可以在病理学家检查之前自动完成。当与自动载片分段和染色机器配对之后，其可以提供完全自动化的载片制备流水线。这种自动化至少具有以下益处：（1）最小化病理学家确定载片不足以进行诊断所浪费的时间量，（2）通过避免在命令额外测试和产生额外测试之间的额外时间来最小化从样本采集到诊断的（平均总）时间，（3）通过允许在组织块（例如病理样本）处于切割台上时进行重新切割来减少每次重新切割的时间量和浪费的材料量，（4）减少在载片制备期间浪费/丢弃的组织材料量，（5）通过部分或完全自动化过程来减少载片制备的成本，（6）允许对载片进行自动定制切割和染色，这将从样本中产生更具代表性/信息性的载片，（7）允许为每个组织块产生更大体积的载片，通过减少请求病理学家进行额外测试的开销来有助于更具有见识的/精确的诊断，和/或（8）标识或验证数字病理图像的正确属性（例如，与样本类型相关），等等。

使用计算机来辅助病理学家的过程被称为计算病理学。用于计算病理学的计算方法可以包括但不限于统计分析、自主或机器学习和AI。AI可以包括但不限于深度学习、神经网络、分类、聚类和回归算法。通过使用计算病理学，可以通过帮助病理学家提高他们的诊断准确性、可靠性、效率和可及性来挽救生命。例如，计算病理学可以用于辅助检测对癌症可疑的载片，从而使病理学家在进行最终诊断之前检查和确认他们的初始评估。

组织病理学是指对已经放置在载片上的样本的研究。例如，数字病理图像可以包括包含样本（例如，涂片）的显微镜载片的数字化图像。病理学家可以用于分析载片上的图像的一种方法是标识细胞核并对细胞核是正常的（例如，良性的）还是异常的（例如，恶性的）进行分类。为了帮助病理学家标识和分类细胞核，可以使用组织学染色来使细胞可见。已经开发了许多基于染料的染色系统，包括高碘酸-Schiff反应、Masson三色、尼氏和亚甲蓝、以及苏木精和曙红（H&E）。对于医学诊断来说，H&E是广泛使用的基于染料的方法，其中苏木精将细胞核染成蓝色，曙红将细胞质和胞外基质染成粉红色，而其他组织区域呈现出这些颜色的变化。然而，在许多情况下，H&E染色的组织学制备物不能为病理学家提供足够的信息，以从视觉上标识可以帮助诊断或指导治疗的生物标记。在这种情况下，可以使用诸如免疫组织化学（IHC）、免疫荧光、原位杂交（ISH）或荧光原位杂交（FISH）之类的技术。IHC和免疫荧光例如包括使用与组织中的特定抗原结合的抗体，使得能够实现表达特定目的蛋白的细胞的视觉检测，这可以揭示出受过训练的病理学家不能基于H&E染色载片的分析可靠地标识的生物标记。根据所用探针的类型（例如用于基因拷贝数的DNA探针和用于评估RNA表达的RNA探针），ISH和FISH可被用于评估基因拷贝数或特定RNA分子的丰度。如果这些方法也未能提供足够的信息来检测一些生物标记，那么，组织的遗传测试可被用于确认生物标记是否存在（例如，肿瘤中特定蛋白质或基因产物的过表达、癌症中给定基因的扩增）。

可以准备数字化图像以示出染色的显微镜载片，这可以允许病理学家手动地查看载片上的图像并估计图像中染色的异常细胞的数目。然而，该过程可能是耗时的，并且可能会导致标识异常中的错误，因为一些异常难以检测。计算过程和设备可以用于帮助病理学家检测可能以其他方式难以检测的异常。例如，AI可以用于从使用H&E和其他基于染料的方法而染色的组织的数字图像内的显著区域中预测生物标记（例如蛋白质和/或基因产物的过表达、扩增或特定基因的突变）。组织的图像可以是全载片图像（WSI）、微阵列内的组织核心的图像或组织切片内的选定的感兴趣区域的图像。使用染色方法（如H&E），这些生物标记对于人类来说可能难以在没有额外测试的帮助下从视觉上检测或定量。使用AI从组织的数字图像推断这些生物标记具有改善病人照护的潜力，同时也更快且更便宜。

然后，检测到的生物标记或图像可以单独用于推荐特定癌症药物或药物组合疗法以用于治疗患者，并且AI可以通过将检测到的生物标记与治疗选项的数据库相关联来标识哪些药物或药物组合不可能成功。这可以用于促进免疫治疗药物的自动推荐以靶向患者的特定癌症。此外，这可被用于实现针对患者的特定子集和/或较罕见癌症类型的个性化癌症治疗。

在当今的病理学领域中，可能难以在整个组织病理学工作流程中提供关于病理学样本制备的系统质量控制（“QC”）和关于诊断质量的质量保证（“QA”）。系统质量保证是困难的，因为它是资源和时间密集型的，因为它可能需要两个病理学家的重复努力。用于质量保证的一些方法包括（1）第二次复查第一次诊断癌症病例；（2）质量保证委员会对不一致或变化的诊断的定期复查；和（3）病例子集的随机复查。这些是非穷举的、大多是回顾性的和手动的。利用自动化和系统化的QC和QA机制，可以在整个工作流程中为每种病例确保质量。实验室质量控制和数字病理学质量控制对于患者样本的成功摄取、处理、诊断和存档是关键的。QC和QA的手工和抽样方法具有显著的益处。系统性QC和QA具有提供效率和提高诊断质量的潜力。

如上所述，本公开的计算病理学过程和设备可以提供集成平台，其允许全自动过程，包括经由web浏览器或其他用户接口的数字病理图像的数据摄取、处理和查看，同时与实验室信息系统（LIS）集成。此外，可以使用患者数据的基于云的数据分析来聚合临床信息。数据可以来自医院、诊所、本领域研究人员等，并且可以通过机器学习、计算机视觉、自然语言处理和/或统计算法来分析，以在多个地理特异性水平上进行健康模式的实时监测和预测。

上述数字病理图像可以与数字病理图像的样本或图像的属性有关的标签和/或标记一起存储，并且这样的标签/标记可能是不正确的或不完整的。因此，本公开涉及用于标识或验证数字病理图像的正确属性（例如，与样本类型相关）的系统和方法。特别地，所公开的系统和方法可以自动预测数字病理图像的样本或图像属性，而不依赖于所存储的标签/标记。此外，本公开涉及用于快速和正确地标识和/或验证数字病理图像的样本类型或与数字病理图像相关的任何信息而不必访问LIS或类似信息数据库的系统和方法。本公开的一个实施例可以包括被训练成基于先前数字病理图像的数据集来标识数字病理图像的各种属性的系统。经训练的系统可以提供对数字病理图像中示出的样本的分类。分类可以帮助为与样本相关联的患者提供治疗或诊断预测。

本公开包括样本分类工具的一个或多个实施例。对工具的输入可以包括数字病理图像和任何相关的额外输入。工具的输出可以包括关于样本的全局和/或局部的信息。样本可以包括活检或手术切除样本。

所公开的工具的示例性全局输出可以包含关于整个图像的信息，例如，样本类型、样本切割的总体质量、玻璃病理载片本身的总体质量和/或组织形态特征。示例性局部输出可指示出图像特定区中的信息，例如，特定图像区可被分类为在载片中具有模糊或裂纹。本公开包括用于开发和使用所公开的样本分类工具的实施例，如下文进一步详细描述的。

图1A示出了根据本公开的一个示例性实施例的用于使用机器学习来确定与数字病理图像有关的样本属性或图像属性信息的系统和网络的框图。

具体讲，图1A示出了可以连接到医院、实验室和/或医生办公室等处的服务器的电子网络120。例如，医师服务器121、医院服务器122、临床试验服务器123、研究实验室服务器124和/或实验室信息系统125等可以各自通过一个或多个计算机、服务器和/或手持移动设备连接到例如因特网的电子网络120。根据本申请的一个示例性实施例，电子网络120还可以连接到服务器系统110，其可以包括被配置为实现疾病检测平台100的处理设备，该疾病检测平台包括根据本公开的一个示例性实施例的用于确定与数字病理图像有关的样本属性或图像属性信息并且使用机器学习来对样本进行分类的样本分类工具101。

医师服务器121、医院服务器122、临床试验服务器123、研究实验室服务器124和/或实验室信息系统125可以创建或以其他方式获得一个或多个患者的细胞学样本、组织病理学样本、细胞学样本载片的图像、组织病理学样本载片的数字化图像或其任何组合。医师服务器121、医院服务器122、临床试验服务器123、研究实验室服务器124和/或实验室信息系统125还可以获得患者特定信息的任意组合，所述患者特定信息是例如年龄、病史、癌症治疗史、家族史、过去的活检或细胞学信息等。医师服务器121、医院服务器122、临床试验服务器123、研究实验室服务器124和/或实验室信息系统125可以通过电子网络120将数字化的载片图像和/或患者特定信息传输到服务器系统110中。服务器系统110可以包括一个或多个存储设备109，其用于存储从医师服务器121、医院服务器122、临床试验服务器123、研究实验室服务器124和/或实验室信息系统125中的至少一个接收的图像和数据。服务器系统110还可以包括用于处理存储在存储设备109中的图像和数据的处理设备。服务器系统110还可以包括一种或多种机器学习工具或能力。例如，根据一个实施例，处理设备可以包括用于疾病检测平台100的机器学习工具。作为替选或补充，本公开（或本公开的系统和方法的部分）可以在本地处理设备（例如，膝上型计算机）上执行。

医师服务器121、医院服务器122、临床试验服务器123、研究实验室服务器124和/或实验室信息系统125是指由病理学家用于检查载片图像的系统。在医院环境中，组织类型信息可以存储在LIS 125中。然而，正确的组织分类信息并不总是与图像内容相配对。另外，即使使用LIS来访问数字病理图像的样本类型，由于LIS的许多成分可能是手动输入的事实，该标签也可能是不正确的，从而存在大的误差余量。根据本公开的一个示例性实施例，可以在不需要访问LIS 125的情况下标识样本类型，或者可以标识样本类型以可能校正LIS125。例如，可以在没有存储在LIS中的对应样本类型标签的情况下向第三方开放对图像内容的匿名访问。另外，对LIS内容的访问可能会由于其敏感内容而受到限制。

图1B示出了用于使用机器学习来确定与数字病理图像有关的样本属性或图像属性信息的疾病检测平台100的一个示例性框图。

具体讲，图1B描绘了根据一个实施例的疾病检测平台100的组件。例如，疾病检测平台100可包括样本分类工具101、数据摄取工具102、载片摄取工具103、载片扫描仪104、载片管理器105、存储器106和查看应用工具108。

如下所述，根据一个示例性实施例，样本分类工具101是指用于确定与数字病理图像有关的样本属性或图像属性信息并且使用机器学习来分类样本的过程和系统。

根据一个示例性实施例，数据摄取工具102指的是有利于数字病理图像传输到用于分类和处理数字病理图像的各种工具、模块、组件和设备的过程和系统。

根据一个示例性实施例，载片摄取工具103指的是用于扫描病理图像并将其转换为数字形式的过程和系统。可以用载片扫描器104来扫描载片，并且载片管理器105可以将载片上的图像处理成数字化病理图像，并将该数字化图像存储在存储器106中。

根据一个示例性实施例，查看应用工具108是指用于向用户（例如，病理学家）提供与数字病理图像有关的样本属性或图像属性信息的过程和系统。可以通过各种输出接口（例如，屏幕、监视器、存储设备和/或web浏览器等）来提供信息。

样本分类工具101及其每个组件可以通过网络120针对服务器系统110、医师服务器121、医院服务器122、临床试验服务器123、研究实验室服务器124和/或实验室信息系统125发送和/或接收数字化载片图像和/或患者信息。此外，服务器系统110可包括用于存储从样本分类工具101、数据摄取工具102、载片摄取工具103、载片扫描器104、载片管理器105和查看应用工具108中的至少一个接收到的图像和数据的存储设备。服务器系统110还可以包括用于处理存储在存储设备中的图像和数据的处理设备。服务器系统110还可以包括由例如处理设备而提供的一种或多种机器学习工具或能力。作为替选或补充，本公开（或本公开的系统和方法的部分）也可以在本地处理设备（例如，膝上型计算机）上执行。

上述设备、工具和模块中的任何一个可以位于通过一个或多个计算机、服务器和/或手持移动设备连接到诸如因特网或云服务提供商之类的电子网络120的设备上。

图1C示出根据本发明的一个示例性实施例的样本分类工具101的一个示例性框图。样本分类工具101可以包括训练图像平台131和/或目标图像平台135。

根据一个实施例，训练图像平台131可以包括训练图像摄取模块132、质量分数确定器模块133和/或治疗标识模块134。

根据一个实施例，训练图像平台131可以创建或接收训练图像，其用于训练机器学习模型以有效地分析和分类数字病理图像。例如，可以从服务器系统110、医师服务器121、医院服务器122、临床试验服务器123、研究实验室服务器124和/或实验室信息系统125中的任何一个或任何组合接收训练图像。用于训练的图像可以来自真实源（例如，人、动物等）或者可以来自合成源（例如，图形渲染引擎、3D模型等）。数字病理图像的示例可以包括（a）用各种染色剂染色的数字化载片，例如（但不限于）H&E、单独的苏木精、IHC、分子病理学等；和/或（b）来自3D成像设备（例如microCT）的数字化组织样品。

训练图像摄取模块132可以创建或接收数据集，其包括与人类组织的图像和图形渲染的图像中的任一个或两者相对应的一个或多个训练图像。例如，可以从服务器系统110、医师服务器121、医院服务器122、临床试验服务器123、研究实验室服务器124和/或实验室信息系统125中的任何一个或任何组合接收训练图像。该数据集可以保存在数字存储设备上。质量分数确定器模块133可以在全局或局部水平上标识训练图像的质量控制（QC）问题（例如，缺陷），其可以极大地影响数字病理图像的可用性。例如，质量分数确定器模块可以使用关于整个图像的信息（例如，样本类型、样本切割的总体质量、玻璃病理载片本身的总体质量或组织形态学特征），并且确定图像的总体质量分数。治疗标识模块134可以分析组织的图像，并且确定哪些数字病理图像具有治疗效果（例如，治疗后）以及哪些图像不具有治疗效果（例如，治疗前）。标识数字病理图像是否具有治疗效果是有用的，因为组织中的先前治疗效果可能会影响组织本身的形态。大多数LIS不明确地跟踪该特征，因此可能期望对具有先前治疗效果的样本类型进行分类。

根据一个实施例，目标图像平台135可以包括目标图像摄取模块136、样本检测模块137和输出接口138。目标图像平台135可以接收目标图像并且将机器学习模型应用于所接收的目标图像以确定目标样本的特征。例如，可以从服务器系统110、医师服务器121、医院服务器122、临床试验服务器123、研究实验室服务器124和/或实验室信息系统125中的任何一个或任何组合接收目标图像。目标图像摄取模块136可以接收与目标样本相对应的目标图像。样本检测模块137可以将机器学习模型应用于目标图像以确定目标样本的特征。例如，样本检测模块137可以检测目标样本的样本类型。样本检测模块137还可以将机器学习模型应用于目标图像以确定目标图像的质量分数。此外，样本检测模块137可以将机器学习模型应用于目标样本以确定目标样本是治疗前还是治疗后。

输出接口138可以用于输出关于目标图像和目标样本的信息。（例如，输出到屏幕、监视器、存储设备、web浏览器等）。

图2A是示出根据本公开的一个示例性实施例的用于对样本进行分类的工具的一个示例性方法的流程图。例如，示例性方法200（例如，步骤202至206）可以由样本分类工具101响应于来自用户（例如，医师）的请求而执行。

根据一个实施例，用于对样本进行分类的示例性方法200可包括以下步骤中的一个或多个。在步骤202中，该方法可以包括接收与目标样本对应的目标图像，该目标样本包括患者的组织样品。例如，可以从服务器系统110、医师服务器121、医院服务器122、临床试验服务器123、研究实验室服务器124和/或实验室信息系统125中的任何一个或任何组合接收目标图像。

在步骤204中，该方法可以包括将机器学习模型应用于目标图像以确定目标样本的至少一个特征和/或目标图像的至少一个特征。确定目标样本的特征可以包括确定目标样本的样本类型。此外，根据一个实施例，确定目标样本的特征可以包括标识与目标样本的样本类型对应的置信度值。例如，机器学习模型可以根据各种参数，指示样本类型的置信度水平。这可以通过使用一系列手段来完成，包括但不限于使用神经网络来计算一个或多个特征的概率分数以及对该概率取阈值。该方法的替选方案是检查由概率机器学习系统产生的输出的熵，其中，高熵指示出更大的不确定性。另外，确定目标图像的特征可以包括标识每个训练图像的质量分数。例如，该方法可以包括应用经训练的机器学习模型来预测质量控制（QC）问题的存在。例如，该方法可以包括标识质量控制问题（例如，切割不良的样本分段、扫描伪影、损坏的载片、载片上的标记等），和/或推荐动作（例如，图像的重新扫描、重新切割、载片重构等）以减轻该问题。根据一个实施例，确定目标图像的特征可以包括标识目标图像中的治疗效果的量，并且输出目标图像的组织已经被治疗的预测程度。

机器学习模型可以通过处理多个训练图像以预测至少一个特征来生成，并且训练图像可以包括人类组织的图像和/或用算法生成的图像。机器学习模型可以使用用于分类和回归的机器学习方法来实现。训练输入可以包括真实的或合成的图像。训练输入可以被增强或者可以不被增强（例如，通过翻转/失真来添加噪声或者创建输入的变体）。示例性机器学习模型可以包括但不限于神经网络、卷积神经网络、随机森林、逻辑回归和最近邻中的任何一个或任何组合。卷积神经网络可以直接学习对于在特征之间区分所需的图像特征表示，当存在要针对每个样本训练的大量数据时，其可以工作得非常好，而其他方法可以与传统的计算机视觉特征（例如SURF或SIFT）一起使用，或者与由训练的卷积神经网络产生的学习嵌入（例如描述符）一起使用，当仅存在要训练的少量数据时，其可以产生优势。可以从服务器系统110、医师服务器121、医院服务器122、临床试验服务器123、研究实验室服务器124和/或实验室信息系统125中的任何一个或任何组合接收训练图像。该数据集可以保存在数字存储设备中。用于训练的图像可以来自真实的源（例如，人、动物等）或者可以来自合成的源（例如，图形渲染引擎、3D模型等）。数字病理图像的示例可以包括（a）用各种染色剂染色的数字化载片，例如（但不限于）H&E、IHC、分子病理等；和/或（b）来自3D成像设备（例如microCT）的数字化组织样品。

在步骤206中，所述方法可以包括输出目标样本的至少一个特征和/或目标图像的至少一个特征。如果不能确定样本类型，则所述方法可以包括输出警报，该警报指示目标样本的样本类型是不可标识的。

图2B是示出根据本公开的一个示例性实施例的用于对样本进行分类的工具的一个示例性方法的流程图。例如，示例性方法208（例如，步骤210至250）可以由样本分类工具101响应于来自用户（例如，医师）的请求而执行。

根据一个实施例，用于对样本进行分类的示例性方法208可包括以下步骤中的一个或多个。在步骤210中，机器学习模型可以创建或接收数据集，该数据集包括与人体组织的图像和图形渲染的图像中的任一个或两者相对应的一个或多个训练图像。例如，可以从服务器系统110、医师服务器121、医院服务器122、临床试验服务器123、研究实验室服务器124和/或实验室信息系统125中的任何一个或任何组合接收训练图像。该数据集可以保存在数字存储设备中。用于训练的图像可以来自真实源（例如，人、动物等）或者可以来自合成源（例如，图形渲染引擎、3D模型等）。数字病理图像的示例可以包括（a）用各种染色剂染色的数字化载片，例如（但不限于）H&E、IHC、分子病理等；和/或（b）来自3D成像设备（例如microCT）的数字化组织样品。

在步骤220中，机器学习模型可以被训练成基于一个或多个参数来预测训练图像的训练样本的特征。例如，机器学习模型可以使其参数拟合（例如，利用反向传播而训练的神经网络）以预测训练集中的标签，这可以使模型在给定数字病理图像作为输入时复制正确的输出行为（例如，对应标签）。该机器学习模型可以使用用于分类和回归的机器学习方法来实现。训练输入可以包括真实的或合成的图像。训练输入可以被增强或不被增强（例如，添加噪声）。示例性机器学习模型可以包括但不限于神经网络、卷积神经网络、随机森林、逻辑回归和最近邻中的任何一个或任何组合。

在步骤230中，所述方法可以包括接收数字病理图像（例如，目标图像）。例如，可以从服务器系统110、医师服务器121、医院服务器122、临床试验服务器123、研究实验室服务器124和/或实验室信息系统125中的任何一个或任何组合接收目标图像。在步骤240中，所述方法可以包括将机器学习模型应用于所接收的目标图像以确定目标样本的特征。确定目标样本的特征可以包括确定目标样本的样本类型。此外，根据一个实施例，确定目标样本的特征可以包括标识与目标样本的样本类型对应的置信度值。例如，机器学习模型可以根据各种参数来指示样本类型的置信度水平。另外，确定目标图像的特征可以包括标识每个训练图像的质量分数。例如，所述方法可以包括应用经训练的机器学习模型来预测质量控制（QC）问题的存在。所述方法可以包括标识质量控制问题（例如，切割不良的样品分段、扫描伪影、损坏的载片、载片上的标记等），和/或推荐动作（例如，图像的重新扫描、重新切割、载片重构等）以减轻该问题。根据一个实施例，确定目标图像的特征可以包括标识目标图像中的治疗效果的量，并且输出目标图像的组织已经被治疗的预测程度。

在步骤250中，所述方法可以包括将目标样本的特征输出到监视器、数字存储设备等。如果不能确定样本类型，则所述方法可以包括输出警报，该警报指示目标样本的样本类型是不可标识的。

图3示出了用于使用机器学习来确定与数字病理图像有关的样本属性或图像属性信息的工具的示例性方法。例如，可以由样本分类工具101响应于来自用户（例如，医师）的请求来执行示例性方法300和320（例如，步骤301-325）。

根据一个实施例，用于开发样本分类工具101的示例性方法300可包括以下步骤中的一个或多个。在步骤301中，机器学习模型可以创建或接收数据集，该数据集包括一个或多个数字病理图像和对应的样本/组织类型标签。例如，可以从服务器系统110、医师服务器121、医院服务器122、临床试验服务器123、研究实验室服务器124和/或实验室信息系统125中的任何一个或任何组合接收图像。该数据集可以保存在数字存储设备中。用于训练的图像可以来自真实源（例如，人、动物等）或者可以来自合成源（例如，图形渲染引擎、3D模型等）。数字病理图像的示例可以包括（a）用各种染色剂染色的数字化载片，例如（但不限于）H&E、IHC、分子病理等；和/或（b）来自3D成像设备（例如microCT）的数字化组织样品。

在步骤303中，机器学习模型可以训练参数化或非参数化的机器学习模型，例如，其中机器学习模型可以标识图像的参数和数据集中的对应标签，这可以使模型在给定数字病理图像作为输入时复制正确的输出行为（例如，对应标签）。该机器学习模型可以使用用于分类和回归的机器学习方法来实现。训练输入可以包括真实的或合成的图像。训练输入可以被增强或不被增强（例如，添加噪声）。示例性机器学习模型可以包括但不限于神经网络、卷积神经网络、随机森林、逻辑回归和最近邻中的任何一个或任何组合。

在步骤305中，可以提示机器学习模型例如基于机器学习模型的一个或多个标识的参数来产生病理图像的局部和全局输出。这样的输出可以是到监视器、数字存储设备等。

根据一个实施例，用于使用样本分类工具101的示例性方法320可包括以下步骤中的一个或多个。在步骤321中，所述方法可以包括从用户接收数字病理图像。例如，可以从服务器系统110、医师服务器121、医院服务器122、临床试验服务器123、研究实验室服务器124和/或实验室信息系统125中的任何一个或任何组合接收图像。在步骤323中，所述方法可以包括将经训练的系统应用于数字病理图像并且预测样本类型。在步骤325中，所述方法可以包括将样本类型预测输出到监视器、数字存储设备等。

此外，在步骤325中，所述方法可以包括将预测的样本信息与LIS或其他地方中提供的信息进行比较。如果预测信息与存储信息不匹配，或者不在存储信息的预定余量内，则可以生成警报，或者系统可以因该不匹配而改变其对输入的处理行为和/或校正存储信息。所述方法可以包括使用预测的样本类型来发起另一机器学习模型或用于处理从用户（例如，组织供体）接收的图像或相关信息的机器学习模型。示例可以包括诊断模型，以根据该特定样本类型执行自动诊断，或者向能够处理来自多种组织的图像的系统提供上下文信息。如果不能标识样本类型，则所述方法可以包括向系统或用户生成警报。

上述样本分类工具101可以包括可用于研究和/或生产/临床/工业环境的特定应用或实施例。这些在下面详细描述。

标识样本类型的示例性方法可以用于数字病理学的许多应用。例如，接收对数字病理图像的访问的机构可能期望标识样本类型，其中图像信息或对图像信息的访问缺少对应的样本类型信息（例如，来自LIS）。如果需要将数字病理图像发送到样本特定诊断或诊断辅助工具，则针对内部医院使用也可能期望标识。标识可以用作一种形式的验证，以确保LIS提供的样本类型标签确实正确。

图4示出了用于样本类型标识工具的示例性方法。例如，示例性方法400可以由样本分类工具101响应于来自用户（例如，医师）的请求而执行。根据一个实施例，用于开发样本类型标识工具的示例性方法400可以包括以下步骤中的一个或多个。在步骤401中，机器学习模型可以创建或接收数字病理图像的数据集及其对应的样本类型标签。例如，可以从服务器系统110、医师服务器121、医院服务器122、临床试验服务器123、研究实验室服务器124和/或实验室信息系统125中的任何一个或任何组合接收图像。该数据集可以包括模型旨在分类的一个或多个样本类型。该步骤还可以包括确定模型旨在分类的一个或多个样本类型。该数据集可以保存在数字存储设备中。具有一种样本类型的数据集可用于验证LIS给定的样本类型标签。具有许多样本类型的数据集可以用于更广泛的标识目的。

在步骤403中，机器学习模型可以训练机器学习模型以根据每个数字病理图像的样本类型对每个数字病理图像进行分类。该模型可以将数字病理图像和对应的样本类型标签作为输入。该模型可以使用任何机器学习分类模型来实现。实施方式的示例可以包括但不限于神经网络、随机森林、逻辑回归、最近邻和密度估计方法中的任何一个或任何组合。卷积神经网络可以直接学习用于区分样本类型的图像特征表示，如果存在要针对每个样本训练的大量数据，则这可以很好地工作，而其他方法可以与传统的计算机视觉特征（例如SURF或SIFT）一起使用，或者与由训练的卷积神经网络产生的学习嵌入（例如描述符）一起使用，如果存在要训练的较少量数据，则这可以产生优势。在步骤405中，可以提示机器学习模型将个体病理图像的标签输出到数字存储设备中。

根据一个实施例，用于使用样本类型标识工具的示例性方法420可以包括以下步骤中的一个或多个。在步骤421中，所述方法可以包括接收数字病理图像。例如，可以从服务器系统110、医师服务器121、医院服务器122、临床试验服务器123、研究实验室服务器124和/或实验室信息系统125中的任何一个或任何组合接收图像。在步骤423中，所述方法可以包括将示例性规范类型工具的经训练的机器学习模型应用于所接收的数字病理图像并且预测样本类型。在步骤425中，所述方法可以包括将针对图像标签的样本类型预测输出到例如屏幕、监视器、存储设备等。如果机器学习模型被用于验证数字病理图像的现有样本类型标签，则机器学习模型可以将给定标签的置信度或适合性的指示输出到屏幕、监视器、存储设备等。

图5示出了可以用于在全局或局部水平上标识质量控制（QC）问题（例如，缺陷）的样本分类工具101的示例性实施例，所述问题可能极大地影响数字病理图像的可用性。例如，示例性方法500和520（例如，步骤501和525）可以由样本分类工具101响应于来自用户（例如，医师）的请求来执行。假定数字病理图像的QC相关信息不可以存储在LIS或任何数字存储设备中，则示例性方法500可以是有用的。

根据一个实施例，用于开发质量控制工具的示例性方法500可以包括以下步骤中的一个或多个。在步骤501中，机器学习模型可以创建或接收可以包括QC问题的示例的数字病理图像的真实或合成数据集，并且给予每个图像全局或局部标签以指示QC问题的存在。例如，可以从服务器系统110、医师服务器121、医院服务器122、临床试验服务器123、研究实验室服务器124和/或实验室信息系统125中的任何一个或任何组合接收图像。该数据集可以保存在数字存储设备中。QC标签可包括但不限于：切割不良的样本分段、扫描伪影、受损载片、载片上的标记等。

在步骤503中，机器学习模型可以训练机器学习模型以针对每个数字病理载片的质量对每个数字病理载片进行分类。该模型可以将数字化病理图像和对应的QC标签作为输入。示例性机器学习模型可以包括但不限于神经网络、随机森林、逻辑回归和最近邻中的任何一个或任何组合。在步骤505中，可以提示机器学习模型将标签输出到数字存储设备，该标签指示个体病理图像的QC问题的存在。

根据一个实施例，用于使用QC工具的示例性方法520可包括以下步骤中的一个或多个。在步骤521中，所述方法可以包括获得或接收数字病理图像。例如，可以从服务器系统110、医师服务器121、医院服务器122、临床试验服务器123、研究实验室服务器124和/或实验室信息系统125中的任何一个或任何组合接收图像。在步骤523，所述方法可包括应用QC工具的经训练的机器学习模型并预测QC问题的存在。在步骤525中，所述方法可以包括将预测输出到数字存储设备，例如，输出到屏幕、监视器、存储设备等。所述方法可以包括例如向屏幕、监视器、存储设备等输出QC问题的类型（切割不良的样本、扫描伪影等）和/或推荐减轻该问题的动作（图像的重新扫描、重新切割等）。该方法可以包括输出图像上的QC问题是否直接影响组织本身。这对于理解数字图像是否仍然可由病理学家用于例如屏幕、监视器、存储设备等是有用的。

图6示出了根据本公开的一个示例性实施例的生成和使用现有组织治疗效果标识工具的一个示例性实施例。组织中的先前治疗效果可能会影响组织本身的形态。大多数LIS未明确地跟踪该特征，因此可能期望对具有先前治疗效果的样本类型进行分类。下面描述用于检测一种或多种组织类型中的治疗效果的系统。例如，样本分类工具101可响应于来自用户（例如，医师）的请求而执行示例性方法600和620（例如，步骤601-625）。

根据一个实施例，用于开发现有组织治疗效果标识工具的示例性方法600可包括以下步骤中的一个或多个。在步骤601中，机器学习模型可以创建或接收数字病理图像的数据集，其包括具有治疗效果的组织的图像和不具有治疗效果的组织的图像。例如，可以从服务器系统110、医师服务器121、医院服务器122、临床试验服务器123、研究实验室服务器124和/或实验室信息系统125中的任何一个或任何组合接收图像。该数据集可以包含针对单个组织类型或多个组织类型的图像。该数据集可以保存在数字存储设备中。

在步骤603中，机器学习模型可以训练机器学习模型以将每个数字病理图像分类为被治疗的（例如，治疗后）或未治疗的（治疗前）。如果患者具有治疗效果，则还可以在治疗效果的程度上训练模型。该模型可以将数字化病理图像和对应的治疗效果标签作为输入。可以使用监督学习分类方法或无监督密度估计或异常检测方法来训练该模型。监督学习实现的示例可以包括神经网络、随机森林、逻辑回归和最近邻中的任何一个或任何组合。在步骤605中，可以提示机器学习模型将指示个体病理图像的治疗效果的存在的标签输出到数字存储设备（例如，治疗后）。

根据一个实施例，使用现有的组织治疗效果标识工具的示例性方法620可包括以下步骤中的一个或多个。在步骤621中，所述方法可以包括获得或接收数字病理图像。例如，可以从服务器系统110、医师服务器121、医院服务器122、临床试验服务器123、研究实验室服务器124和/或实验室信息系统125中的任何一个或任何组合接收图像。在步骤623中，所述方法可以包括应用示例性先前治疗效果工具的经训练的机器学习模型并且预测治疗效果的存在。在步骤625中，所述方法可以包括将预测输出到例如屏幕、监视器、存储设备等。所述方法可以包括将病理图像的组织已经被治疗的程度的指示输出到例如屏幕、监视器、存储设备等。

如图7所示，设备700可以包括中央处理单元（CPU）720。CPU 720可以是任何类型的处理器设备，包括例如任何类型的专用或通用微处理器设备。如相关领域的技术人员应当理解的，CPU 720还可以是多核/多处理器系统中的单个处理器，这样的系统可以单独操作，或者在集群或服务器场中操作的计算设备的集群中。CPU 720可以连接到数据通信基础设施710，例如总线、消息队列、网络或多核消息传递方案。

设备700还可以包括主存储器740，例如随机存取存储器（RAM），并且还可以包括辅助存储器730。辅助存储器730（例如只读存储器（ROM））可以是例如硬盘驱动器或可移动存储驱动器。这种可移动存储驱动器可以包括例如软盘驱动器、磁带驱动器、光盘驱动器、闪存等。在该示例中，可移动存储驱动器以公知的方式从可移动存储单元读取和/或向可移动存储单元写入。可移动存储单元可以包括软盘、磁带、光盘等，其由可移动存储驱动器读取和写入。如相关领域的技术人员应当理解的，这种可移动存储单元通常包括其中存储有计算机软件和/或数据的计算机可用存储介质。

在替选实施方案中，辅助存储器730可包含用于将计算机程序或其他指令加载到设备700中的其他类似装置。这种装置的示例可以包括程序盒和盒接口（例如在视频游戏设备中找到的）、可移动存储器芯片（例如EPROM或PROM）和相关插座、以及允许软件和数据从可移动存储单元传送到设备700的其他可移动存储单元和接口。

设备700还可以包括通信接口（“COM”）760。通信接口760允许软件和数据在设备700和外部设备之间传输。通信接口760可以包括调制解调器、网络接口（例如以太网卡）、通信端口、PCMCIA插槽和卡等。经由通信接口760传送的软件和数据可以是信号形式的，其可以是电子的、电磁的、光学的或能够由通信接口760接收的其他信号。这些信号可以经由设备700的通信路径提供给通信接口760，该通信路径可以使用例如电线或电缆、光纤、电话线、蜂窝电话链路、RF链路或其他通信信道来实现。

这种设备的硬件元件、操作系统和编程语言本质上是常规的，并且假定本领域技术人员对其足够熟悉。设备700还可以包括输入和输出端口750，以与诸如键盘、鼠标、触摸屏、监视器、显示器等的输入和输出设备连接。当然，各种服务器功能可以以分布式方式在多个类似平台上实现，以便分散处理负载。或者，服务器可以通过对一个计算机硬件平台的适当编程来实现。

在本公开中，对组件或模块的引用一般是指在逻辑上可以被分组在一起以执行功能或相关功能组的项。相同的附图标记通常用于表示相同或相似的组件。组件和模块可以用软件、硬件或软件和硬件的组合来实现。

上述工具、模块和功能可以由一个或多个处理器来执行。“存储”型介质可以包括计算机、处理器等的任何或所有有形存储器或其相关联的模块，诸如各种半导体存储器、磁带驱动器、磁盘驱动器等，其可以在任何时间提供用于软件编程的非暂时性存储。

软件可以通过因特网、云服务提供商或其他电信网络来进行通信。例如，通信可以使得能够将软件从一个计算机或处理器加载到另一个中。如本文所使用的，除非限于非暂时性的、有形的“存储”介质，否则诸如计算机或机器“可读介质”的术语指的是参与向处理器提供指令以供执行的任何介质。

前面的一般描述仅是示例性和说明性的，而不是对本公开的限制。通过考虑说明书和本文所公开的本发明的实践，本发明的其他实施例对于本领域技术人员来说应当是显而易见的。说明书和示例仅被认为是示例性的。

Claims

1.一种用于分析与样本对应的图像的计算机实现的方法，所述方法包括：

接收与目标样本对应的目标图像，所述目标样本包括患者的组织样品；

将机器学习模型应用于所述目标图像以确定所述目标样本的至少一个特征和/或所述目标图像的至少一个特征，所述机器学习模型是通过处理多个训练图像以预测至少一个特征而生成的，所述训练图像包括人类组织的图像和/或用算法生成的图像；以及

输出所述目标样本的至少一个特征和/或所述目标图像的至少一个特征。

2.根据权利要求1所述的计算机实现的方法，还包括：

基于所述目标样本的至少一个特征来确定所述目标样本的样本类型的预测；以及

输出所述目标样本的样本类型的预测。

3.根据权利要求1所述的计算机实现的方法，还包括：

响应于确定所述预测的置信度值不超过预定阈值而输出警报，所述警报指示所述目标样本的样本类型是不可标识的。

4.根据权利要求1所述的计算机实现的方法，还包括：

基于所述目标样本的至少一个特征来确定所述目标样本的样本类型的预测的置信度值；以及

输出所述置信度值。

5.根据权利要求1所述的计算机实现的方法，还包括：

标识所述目标图像的质量分数，所述质量分数是根据所述机器学习模型来确定的；以及

输出所述质量分数。

6.根据权利要求1所述的计算机实现的方法，还包括：

标识所述目标图像的质量分数，所述质量分数是根据所述机器学习模型来确定的；

确定所述目标图像的所述质量分数是否小于预定值；以及

响应于所述目标图像的所述质量分数小于所述预定值，输出用于增加所述目标图像的所述质量分数的推荐。

7.根据权利要求6所述的计算机实现的方法，其中，所述推荐包括样本切割、扫描参数、载片重构和载片标记中的任何一个或任何组合。

8.根据权利要求1所述的计算机实现的方法，还包括：

使用所述目标图像和所述机器学习模型来确定所述目标样本是治疗后的还是治疗前的。

9.根据权利要求1所述的计算机实现的方法，还包括：

使用所述目标图像和所述机器学习模型来确定所述目标样本是治疗后的还是治疗前的；

在确定所述目标样本是治疗后的时，基于所述目标图像来确定所述目标样本已经被治疗的预测程度；以及

输出所述目标样本已经被治疗的预测程度。

10.一种用于分析与样本对应的图像的系统，所述系统包括：

存储器，存储指令；以及

处理器，执行所述指令以执行过程，所述过程包括：

11.根据权利要求10所述的系统，还包括：

输出所述目标样本的样本类型的预测。

12.根据权利要求10所述的系统，还包括：

13.根据权利要求10所述的系统，还包括：

输出所述置信度值。

14.根据权利要求10所述的系统，还包括：

输出所述质量分数。

15.根据权利要求10所述的系统，还包括：

确定所述目标图像的所述质量分数是否小于预定值；以及

16.根据权利要求15所述的系统，其中，所述推荐包括样本切割、扫描参数、载片重构和载片标记中的任何一个或任何组合。

17.根据权利要求10所述的系统，还包括：

18.根据权利要求10所述的系统，还包括：

输出所述目标样本已经被治疗的预测程度。

19.一种存储指令的非暂时性计算机可读介质，所述指令在由处理器执行时使所述处理器执行用于分析与样本对应的图像的方法，所述方法包括：

20.根据权利要求19所述的非暂时性计算机可读介质，还包括：

输出所述目标样本的样本类型的预测。