CN115210772B - 用于处理通用疾病检测的电子图像的系统和方法 - Google Patents

用于处理通用疾病检测的电子图像的系统和方法 Download PDF

Info

Publication number
CN115210772B
CN115210772B CN202080097975.4A CN202080097975A CN115210772B CN 115210772 B CN115210772 B CN 115210772B CN 202080097975 A CN202080097975 A CN 202080097975A CN 115210772 B CN115210772 B CN 115210772B
Authority
CN
China
Prior art keywords
machine learning
learning model
target
training
training images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202080097975.4A
Other languages
English (en)
Other versions
CN115210772A (zh
Inventor
B·多达斯
C·肯南
T·富赫斯
L·格拉迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Paige Artificial Intelligence Co
Original Assignee
Paige Artificial Intelligence Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Paige Artificial Intelligence Co filed Critical Paige Artificial Intelligence Co
Publication of CN115210772A publication Critical patent/CN115210772A/zh
Application granted granted Critical
Publication of CN115210772B publication Critical patent/CN115210772B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30024Cell structures in vitro; Tissue sections in vitro
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30096Tumor; Lesion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Primary Health Care (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pathology (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

公开了用于通过以下方式生成专用机器学习模型的系统和方法:接收通过处理多个第一训练图像以预测至少一个癌症特性而生成的通用机器学习模型;接收多个第二训练图像,所述第一训练图像和所述第二训练图像包括组织样本的图像和/或通过算法生成以复制组织样本的图像;接收多个目标专用属性,目标专用属性与多个第二训练图像中的相应第二训练图像相关;通过基于所述多个第二训练图像和目标专用属性修改通用机器学习模型来生成专用机器学习模型;接收对应于目标样本的目标图像;将专用机器学习模型应用于目标图像,以确定目标图像的至少一个特性;以及输出目标图像的特性。

Description

用于处理通用疾病检测的电子图像的系统和方法
(一个或多个)相关申请
本申请要求2020年1月3日提交的美国临时申请第62/956,876号的优先权,其全部公开内容由此通过引用以其整体合并到本文中。
技术领域
本公开的各种实施例一般涉及基于图像的样本分类和相关图像处理方法。更具体地,本公开的特定实施例涉及用于处理图像以开发用于临床和临床前研究中生物标志物开发的通用泛癌机器学习模型的系统和方法。
背景技术
在肿瘤学研究中,对不同患者组进行分层以开发个性化治疗策略、测量肿瘤进展和/或评估治疗效果变得越来越重要。这样的分层的当前实践是使用与大多数机器学习系统的需求相比相对小的临床试验样本。例如,许多III期临床试验登记少于5000名患者,而I期和II期临床试验登记甚至更少的患者(例如,I期一般登记少于100名患者,II期一般登记少于300名患者)。由于过度拟合,对这些小数据集使用深度学习和许多其它端到端机器学习技术具有挑战性,这导致模型做出不准确的预测。
因此,将机器学习技术应用于深度学习和具有小数据集(诸如经由临床试验提供的数据集)的其它端到端机器学习技术将是有益的。
前述一般描述和以下详细描述仅是示例性和解释性的,并不限制本公开。本文中提供的背景描述是出于一般呈现本公开的上下文的目的。除非本文中另有指示,否则本节中描述的材料不是本申请中权利要求的现有技术,并且不通过包含在本节中而被承认为现有技术或现有技术的建议。
发明内容
根据本公开的某些方面,公开了用于从组织样本的图像分析标识或验证样本类型或样本性质的系统和方法。
一种用于生成专用机器学习模型的方法,包括接收通过处理多个第一训练图像生成的通用机器学习模型以预测至少一个癌症特性;接收多个第二训练图像,其中所述第一训练图像和所述第二训练图像包括组织样本的图像和/或通过算法生成以复制组织样本的图像;接收多个目标专用属性,每个目标专用属性与多个第二训练图像中的相应第二训练图像相关;通过基于多个第二训练图像和相应目标专用属性修改通用机器学习模型来生成专用机器学习模型;接收对应于目标样本的目标图像;将专用机器学习模型应用于目标图像以确定目标图像的至少一个特性;以及输出目标图像的至少一个特性。
一种用于生成专用机器学习模型的系统,包括存储指令的存储器;以及处理器,执行指令以施行过程,包括接收通过处理多个第一训练图像生成的通用机器学习模型以预测至少一个癌症特性;接收多个第二训练图像,其中所述第一训练图像和所述第二训练图像包括组织样本的图像和/或通过算法生成以复制组织样本的图像;接收多个目标专用属性,每个目标专用属性与多个第二训练图像中的相应第二训练图像相关;通过基于多个第二训练图像和相应目标专用属性修改通用机器学习模型来生成专用机器学习模型;接收对应于目标样本的目标图像;将专用机器学习模型应用于目标图像以确定目标图像的至少一个特性;以及输出目标图像的至少一个特性。
一种存储指令的非暂时性计算机可读介质,所述指令当由处理器执行时,使处理器施行用于生成专用机器学习模型的方法,所述方法包括接收通过处理多个第一训练图像生成的通用机器学习模型以预测至少一个癌症特性;接收多个第二训练图像,其中所述第一训练图像和所述第二训练图像包括组织样本的图像和/或通过算法生成以复制组织样本的图像;接收多个目标专用属性,每个目标专用属性与多个第二训练图像中的相应第二训练图像相关;通过基于多个第二训练图像和相应目标专用属性修改通用机器学习模型来生成专用机器学习模型;接收对应于目标样本的目标图像;将专用机器学习模型应用于目标图像以确定目标图像的至少一个特性;以及输出目标图像的至少一个特性。应当理解,前述的一般描述和以下的详细描述二者都仅是示例性和解释性的,而不是对所公开的实施例的限制,如所要求保护的。
附图说明
合并在本说明书中并构成其一部分的附图图示了各种示例性实施例,并与描述一起用于解释所公开实施例的原理。
图1A图示了根据本公开示例性实施例的用于基于(一个或多个)病理学图像确定一个或多个特性的系统和网络的示例性框图。
图1B图示了根据本公开示例性实施例的机器学习模型的示例性框图。
图2是图示根据本公开示例性实施例的用于生成专用机器学习模型以输出目标图像的特性的示例性方法的流程图。
图3图示了根据本公开示例性实施例的训练模块的示例性框图。
图4图示了根据本公开示例性实施例的通用机器学习模型和专用机器学习模型的图解。
图5是根据本公开示例性实施例的药物反应预测的示例性实施例的流程图。
图6是根据本公开示例性实施例的癌症复发预测的示例性实施例的流程图。
图7是根据本公开示例性实施例的药物毒性和组织异常预测的示例性实施例的流程图。
图8描绘了可以执行本文中所呈现技术的示例系统。
具体实施方式
现在将详细参考本公开的示例性实施例,其示例在附图中图示。贯穿各附图,将尽可能使用相同的附图编号来指代相同或类似的部分。如本文中所使用的,术语“示例性的”是在“示例”的意义上使用的,而不是“理想的”。此外,本文中的术语“一”和“一个”并不标示数量的限制,而是标示存在一个或多个所引用的项目。在以下的讨论中,诸如“大约”、“大体上”、“近似”之类的相对术语用于在规定值、数值或其它方面的±10%或更少的可能变化。
本文中公开的系统、设备和方法通过示例的方式并参考附图进行了详细描述。本文中讨论的示例仅是示例,并且被提供来帮助解释本文中描述的装置、设备、系统和方法。除非具体指定为强制性的,否则附图中所示出的或下面讨论的特征或组件都不应该被理解为对于这些设备、系统或方法中的任何一个的任何特定实现是强制性的。
此外,对于所描述的任何方法,不管该方法是否结合流程图进行描述,应当理解,除非上下文另有指定或要求,否则在方法执行时施行的步骤的任何显式或隐式次序并不意味着那些步骤必须按所呈现的次序施行,而是可以按不同次序或并行施行。
如本文中所使用的,术语“示例性”在“示例”而不是“理想”的意义上使用。此外,本文中的术语“一”和“一个”并不标示数量的限制,而是标示存在一个或多个所引用的项目。
病理学指的是对疾病的研究。更具体地,病理学指的是施行用于诊断疾病的测试和分析。例如,组织样本可以放置在载玻片上,由病理学家(例如,擅长分析组织样本以确定是否存在任何异常的医生)在显微镜下观察。也就是说,病理学样本可以被切割成多个切片、染色并制备为载玻片,以供病理学家检查并给出诊断。当不确定载玻片上的诊断结果时,病理学家可能要求附加的切割水平、染色或其它测试,以从组织收集更多信息。然后,(一个或多个)技术人员可以创建(一个或多个)新的载玻片,其可以包含病理学家在进行诊断时使用的附加信息。创建附加的载玻片的该过程可能是耗时的,不仅因为它可能涉及取回组织块、切割它以制作新的载玻片、并且然后对载玻片染色,而且因为它可能为多个订单分批。这可能显著延迟病理学家给出的最终诊断。此外,即使在延迟之后,仍然不能保证(一个或多个)新的载玻片将具有足以给出诊断的信息。
病理学家可以单独评估癌症和其它疾病的病理学载玻片。本公开呈现了用于改进癌症和其它疾病的诊断的统一工作流程。该工作流程可以在一个工作站中集成例如载玻片评估、任务、图像分析和癌症检测人工智能(AI)、注释、咨询和推荐。特别地,本公开描述了各种示例性AI工具,其可以被集成到工作流程中以加速和改进病理学家的工作。
例如,计算机可以用于分析组织样本的图像,以快速标识是否可能需要关于特定组织样本的附加信息,和/或向病理学家突出显示他或她应更仔细观察的区域。如本文中所描述的,这种分析可能是针对诸如临床试验之类的专用任务或潜在患有罕见疾病的患者完成的,这使得使用AI技术来促进分析变得更加困难。因此,获得附加染色载玻片和测试的过程可以在病理学家审查之前自动完成。当与自动载玻片分割和染色机器以及专用机器学习模型配对时,这可以提供全自动载玻片制备流水线。这种自动化至少具有以下益处:(1)最小化病理学家通过使用无效的机器学习模型(例如,由于过度校正)来确定载玻片的发现所浪费的时间量,(2)通过避免进行手动分析或有问题的机器学习分析的附加时间来最小化从样本采集到诊断的(平均总)时间,(3)减少在手动重复载玻片制备期间浪费/丢弃的组织材料量,(4)通过部分或完全自动化该过程来降低载玻片制备的成本,(5)允许每个组织块生成更大量的载玻片,使得它们由专用机器学习模型同时分析,通过降低请求病理学家进行附加测试的开销来有助于更明智/精确的诊断,和/或(6)标识或验证数字病理学图像的正确性质(例如,与样本类型有关),等等。
使用计算机协助病理学家的过程称为计算病理学。用于计算病理学的计算方法可以包括但不限于统计分析、自主或机器学习以及AI。AI可以包括但不限于深度学习、神经网络、分类、聚类和回归算法。通过使用计算病理学,可以通过帮助病理学家提高他们诊断的准确性、可靠性、效率和可及性来挽救生命。例如,可以使用计算病理学来协助检测疑似癌症的载玻片,从而允许病理学家在给出最终诊断之前检查和确认他们的初始评估。
组织病理学指的是对已经放置在载玻片上的样本的研究。例如,数字病理学图像可以由包含样本(例如,涂片)的显微镜载玻片的数字化图像组成。病理学家可以用来分析载玻片上的图像的一种方法是标识细胞核并分类细胞核是正常的(例如良性的)还是异常的(例如恶性的)。为了协助病理学家标识和分类细胞核,组织学染色可以用于使细胞可见。已经开发了许多基于染料的染色系统,包括高碘酸-希夫反应、马松三色、尼氏和亚甲蓝、以及苏木精和伊红(H&E)。对于医学诊断,H&E是一种广泛使用的基于染料的方法,其中苏木精将细胞核染成蓝色,伊红将细胞质和细胞外基质染成粉红色,以及其它组织区域呈现这些颜色的变化。然而,在许多情况下,H&E染色的组织学制备不为病理学家提供足够的信息来视觉标识可以帮助诊断或指导治疗的生物标志物。在这种情形下,可以使用诸如免疫组织化学(IHC)、免疫荧光、原位杂交(ISH)或荧光原位杂交(FISH)之类的技术。IHC和免疫荧光涉及例如使用与组织中特定抗原结合的抗体,使得能够对表达感兴趣的特定蛋白质的细胞进行视觉检测,这可以揭示经训练的病理学家基于对H&E染色载玻片的分析不可靠标识的生物标志物。取决于所采用的探针的类型(例如,用于基因拷贝数的DNA探针和用于评估RNA表达的RNA探针),可以采用ISH和FISH来评估基因拷贝数或特定RNA分子的丰度。如果这些方法也未能提供足够的信息来检测一些生物标志物,则可以使用组织的基因测试来确认生物标志物是否存在(例如,肿瘤中特定蛋白质或基因产物的过度表达、癌症中给定基因的扩增)。
可以制备数字化图像以示出染色的显微镜载玻片,这可以允许病理学家手动查看载玻片上的图像,并估计图像中染色的异常细胞的数量。然而,这个过程可能是耗时的,并且可能导致标识异常的错误,因为一些异常难以检测。使用机器学习模型和设备的计算过程可以用于协助病理学家检测以其它方式可能难以检测的异常。例如,AI可以用于从使用H&E和其它基于染料的方法染色的组织的数字图像内的显著区域预测生物标志物(诸如蛋白质和/或基因产物的过度表达、特定基因的扩增或突变)。组织的图像可以是整个载玻片图像(WSI)、微阵列内的组织核心的图像或组织切片内感兴趣的选定区域的图像。使用如H&E的染色方法,在没有附加测试的帮助的情况下,这些生物标志物可能难以被人类视觉检测或量化。使用AI从组织的数字图像推断这些生物标志物具有改进患者护理的潜力,同时也更快且更便宜。
通过专用机器学习模型检测到的生物标志物然后可以用于推荐用于治疗患者的特定癌症药物或药物组合疗法,并且AI可以通过将检测到的生物标志物与治疗选项数据库相关来标识哪些药物或药物组合不太可能成功。这可以用于促进针对患者特定癌症的免疫治疗药物的自动推荐。另外,这可以用于实现针对特定患者子集和/或罕见癌症类型的个性化癌症治疗。
如上面所描述的,本公开的计算病理学过程和设备可以提供集成平台,从而允许全自动过程,包括经由网络浏览器或其它用户接口摄取、处理和查看数字病理学图像,同时与实验室信息系统(LIS)集成。另外,可以使用患者数据的基于云的数据分析来聚合临床信息。数据可能来自医院、诊所、实地研究人员等,并且可以通过机器学习、计算机视觉、自然语言处理和/或统计算法进行分析,以在多个地理特异性水平上进行健康模式的实时监控和预测。
上面描述的AI和机器学习技术可以应用于有限训练数据集可用的实现。有限训练数据集可能对应于小型研究、临床试验和/或罕见疾病,使得可用的训练数据量不足以训练未启动的机器学习模型,因为这样做将会导致过度拟合,并且结果将会导致模型做出不准确的预测。根据所公开主题的实现,可以通过使用通用机器学习模型(例如,泛癌检测模型)来减轻小数据集的限制,该通用机器学习模型被配置为学习跨组织类型的肿瘤特性、形态和肿瘤微环境。可以基于多种不同的癌症类型和基于多种不同的输入来训练通用机器学习模型,所述输入包括组织学家、基因组输入、放射学图像、实验室测试、患者特性以及诸如此类、或其组合。通用机器学习模型可以用于训练专用机器学习模型,该模型更适合于对专用任务进行预测,诸如小型研究、临床试验或对罕见疾病进行预测,其中一小数据集可用。
可以基于第一图像集和其它输入来训练通用机器学习模型,使得其被配置为接收患者特定输入并输出癌症特性。癌症特性可以是癌症诊断、肿瘤表征、生物标志物检测或诸如此类。
可以使用少样本(low-shot)学习技术来优化通用机器学习模型,以生成专用机器学习模型。少样本学习技术可以用于修改通用机器学习模型,以开发针对较小数据集的专用生物标志物、药物反应预测和/或癌症结果预测。例如,较小的数据集可能来自小型研究、临床试验或罕见疾病,其中可能不可能或难以进行大规模临床试验来收集足够的训练数据。因此,所公开的主题利用了通用癌症机器学习模型,该模型使用肿瘤特性、形态和微环境以用于开发临床和临床前研究中的生物标志物。
如本文中进一步公开的,病理学样本的数字图像(例如,组织学、细胞学、免疫组织化学等、或其组合)和任何相关联的信息(例如,基因组、实验室测试、放射学、患者特性等)可以被接收和存储。每个病理学样本可以链接到相关联的信息以及关于相应疾病存在、结果状态(反应、复发等)、和/或任何生物标志物的存在的疾病信息。
通用机器学习模型可以使用深度学习来实例化,并且可以使用大量(例如,超过5,000、超过10,000、超过100,000、超过1,000,000等)与相关联的信息以及疾病信息链接的病理学样本来训练。可以训练通用机器学习模型来预测疾病、生物标志物和/或与来自多种组织类型的癌症诊断和治疗相关的其它属性。基于该训练,通用机器学习模型可以检测跨各种不同组织类型的癌症和/或生物标志物的存在,使得通用机器学习模型的层被调谐以标识肿瘤特性以及正常和异常组织形态。通用机器学习模型可以用于提取诊断特征,该诊断特征可以与下游机器学习算法一起使用,或者其可以针对新任务进行微调。
可以生成专用机器学习模型,用于小型研究(例如,1000个样本以下、3000个样本以下、4000个样本以下、5000个样本以下等)的应用,诸如临床试验(例如,1期、2期、3期),和/或针对罕见疾病的研究,其中不能获得或难以获得更大的数据样本。专用机器学习模型可以通过基于专用训练数据集修改通用机器学习模型来生成,该专用训练数据集不同于通用机器学习模型被训练的训练数据集。专用训练数据集可以来自小型研究,或者以其它方式与具有小型数据集的专用任务相关。可以修改通用机器学习模型以生成专用机器学习模型,使得指定的机器学习模型可以利用通用机器学习模型的一个或多个层,并且调谐或替换一个或多个其它层以适应小型研究的属性。更具体地,专用机器学习模型可以利用通用机器学习模型的癌症检测、肿瘤表征和/或生物标志物检测能力来构建为小型研究配置的专用模型。
图1A图示了根据本公开的示例性实施例的使用机器学习来确定与(一个或多个)数字病理学图像有关的样本性质或图像性质信息的系统和网络的框图。如本文中进一步公开的,图1A的系统和网络可以与通用机器学习模型或专用机器学习模型一起使用。
具体地,图1A图示了可以连接到医院、实验室和/或医生办公室等处的服务器的电子网络120。例如,医师服务器121、医院服务器122、临床试验服务器123、研究实验室服务器124和/或实验室信息系统125等每个均可以通过一个或多个计算机、服务器和/或手持移动设备连接到电子网络120,诸如互联网。根据一实现,电子网络120还可以连接到服务器系统110,服务器系统110可以包括被配置为根据所公开主题的示例性实施例来实现机器学习模型100的处理设备。
医师服务器121、医院服务器122、临床试验服务器123、研究实验室服务器124和/或实验室信息系统125可以创建或以其它方式获得一个或多个类别的病理学样本的图像,包括(一个或多个)患者的细胞学样本、(一个或多个)组织病理学样本、(一个或多个)细胞学样本的(一个或多个)载玻片、组织学、免疫组织化学、(一个或多个)组织病理学样本的(一个或多个)载玻片的数字化图像或其任何组合。医师服务器121、医院服务器122、临床试验服务器123、研究实验室服务器124和/或实验室信息系统125也可以获得患者特定信息的任何组合,诸如年龄、病史、癌症治疗史、家族史、过去的活检或细胞学信息等。医师服务器121、医院服务器122、临床试验服务器123、研究实验室服务器124和/或实验室信息系统125可以通过电子网络120向服务器系统110传输数字化的载玻片图像和/或患者特定信息。(一个或多个)服务器系统110可以包括一个或多个存储设备109,用于存储从医师服务器121、医院服务器122、临床试验服务器123、研究实验室服务器124和/或实验室信息系统125中的至少一个接收的图像和数据。服务器系统110还可以包括用于处理存储在存储设备109中的图像和数据的处理设备。服务器系统110可以进一步经由机器学习模型100包括一个或多个机器学习工具或能力。例如,根据一个实施例,处理设备可以包括通用机器学习模型或专用机器学习模型,如机器学习模型100所示出的。替代地或附加地,本公开(或本公开的系统和方法的部分)可以在本地处理设备(例如,膝上型计算机)上施行。
医师服务器121、医院服务器122、临床试验服务器123、研究实验室服务器124和/或实验室信息系统125指的是病理学家用于审查载玻片图像的系统。在医院环境中,组织类型信息可以存储在LIS 125中。
图1B图示了机器学习模型100的示例性框图,该机器学习模型100用于使用机器学习来确定与(一个或多个)数字病理学图像有关的样本性质或图像性质信息。
具体地,图1B描绘了根据一个实施例的机器学习模型100的组件。例如,机器学习模型100可以包括样本表征工具101、数据摄取工具102、载玻片吸入工具103、载玻片扫描仪104、载玻片管理器105、存储装置106和查看应用工具108。为了清楚起见,图1A和1B中所示出的机器学习模型100是先前训练和生成的机器学习模型(例如,通用机器学习模型、专用机器学习模型等)。本文中提供了用于训练和生成可以用作机器学习模型100的不同类型的机器学习模型的附加公开。
如本文中所描述的,样本表征工具101指的是使用机器学习模型(诸如通用机器学习模型或专用机器学习模型)确定特性(例如,癌症特性)的过程和系统,所述特性诸如与(一个或多个)数字病理学图像有关的样本性质或图像性质。
根据示例性实施例,数据摄取工具102指的是便于将数字病理学图像传送到用于表征和处理数字病理学图像的机器学习模型100的各种工具、模块、组件和设备的过程和系统。
根据示例性实施例,载玻片吸入工具103指的是用于扫描病理学图像并将其转换成数字形式的过程和系统。可以用载玻片扫描仪104扫描载玻片,并且载玻片管理器105可以将载玻片上的图像处理成数字化病理学图像,并将数字化图像存储在存储装置106中。
根据示例性实施例,查看应用工具108指的是用于向用户(例如,病理学家)提供与(一个或多个)数字病理学图像有关的表征或图像性质信息的过程和系统。可以通过各种输出接口(例如,屏幕、监视器、存储设备和/或网络浏览器等)来提供信息。作为示例,查看应用工具108可以在(一个或多个)数字病理学图像上应用覆盖层,并且该覆盖层可以突出显示考虑的关键区域。覆盖层可以是或可以基于机器学习模型100的样本表征工具101的输出。
样本表征工具101及其每个组件可以通过网络120向服务器系统110、医师服务器121、医院服务器122、临床试验服务器123、研究实验室服务器124和/或实验室信息系统125传输和/或接收数字化载玻片图像和/或患者信息。另外,服务器系统110可以包括存储设备,用于存储从样本表征工具101、数据摄取工具102、载玻片吸入工具103、载玻片扫描仪104、载玻片管理器105和查看应用工具108中的至少一个接收的图像和数据。服务器系统110还可以包括用于处理存储在存储设备中的图像和数据的处理设备。服务器系统110可以进一步包括一个或多个机器学习工具或能力,例如,由于处理设备。替代地或附加地,本公开(或本公开的系统和方法的部分)可以在本地处理设备(例如,膝上型计算机)上施行。
样本表征工具101可以提供机器学习模型100(例如,通用机器学习模型、专用机器学习模型等)的输出。作为示例,载玻片吸入工具103和数据摄取工具102可以接收对通用机器学习模型或专用机器学习模型的输入,并且样本表征工具可以基于数据标识载玻片中的生物标志物,并且经由查看应用工具108输出突出显示生物标志物的图像。
任何上面的设备、工具和模块可以位于可以通过一个或多个计算机、服务器和/或手持移动设备连接到电子网络120(诸如互联网或云服务提供商)的设备上。
图2示出了根据所公开主题的示例性实现的用于输出专用目标图像的至少一个特性的流程图200。在图2的202处,可以生成通用机器学习模型。可以生成通用机器学习模型来预测至少一个癌症特性,诸如诊断、组织表征、生物标志物检测或诸如此类。通用机器学习模型可以基于组织样本(诸如人类组织、动物组织或任何适用组织)的图像和/或通过算法生成以复制人类组织、动物组织或任何其它适用组织的图像,对不同癌症类型进行预测(例如生物标志物检测)。组织样本可以来自单个组织样本或多个组织样本。在204处,可以在诸如图3的训练模块300之类的训练模块处接收、确定和/或定位通用机器学习模型,如本文中进一步公开的。在206处,可以接收人类组织、动物组织或任何适用组织的多个专用训练图像和/或通过算法生成以复制人类组织、动物组织或任何适用组织的图像。多个专用训练图像可以对应于小型研究(例如,临床试验、罕见疾病等),其中仅有限量的数据可用。如本文中所公开的,专用训练图像可以全部对应于相同类别的病理学样本。在208处,可以接收多个目标专用属性,每个属性与相应专用训练图像相关。这些属性可以与生成专用训练图像所基于的相应患者相关,可以基于相应过程、相应治疗和/或其它相应属性。在210处,可以通过基于在206处接收的多个专用图像和在208处接收的目标专用属性修改通用机器学习模型来生成专用机器学习模型。在210处生成的专用机器学习模型可以对应于图1A的机器学习模型100。
在212处接收要使用专用机器学习模型分析的目标图像。目标图像可以对应于要基于由在206处接收的多个专用训练图像表示的专用训练数据集来分析的图像。在214处,可以将专用机器学习模型应用于目标图像,以确定目标图像的至少一个特性。目标图像的至少一个特性可以经由例如报告、显示或任何其它适用的输出来输出,如本文中进一步讨论的。
在图2的202处生成的通用机器学习模型可以是端到端机器学习模块,其可以使用深度学习来实例化。通用机器学习模型可以检测跨多于一种组织类型的癌症的存在或不存在(例如,前列腺癌、乳腺癌、膀胱癌等)。它还可以检测附加的生物标志物或对分期重要的信息。例如,对于膀胱癌,通用机器学习模型可以输出固有肌层的存在或不存在,固有肌层是需要被检测用于膀胱癌分期的肌肉。可以用大量数据训练通用机器学习模型,以预测疾病、生物标志物和与来自多种组织类型的癌症治疗相关的其它属性。通过这一过程,它可以检测跨各种不同组织类型的癌症和/或生物标志物的存在,使得它的层建立在对肿瘤特性以及正常和异常组织形态的理解上。通用机器学习模型可以用于提取可以与下游机器学习算法一起使用的诊断特征,或者它可以被“微调”用于新任务,如本文中进一步公开的。
为了在202处生成通用机器学习模型,可以接收到包括大量病理学样本的数字图像(例如,组织学、细胞学、免疫组织化学等)的患者数据集。病理学样本可以是基于物理活检样本生成的数字图像,如本文中所公开的,或者可以是通过算法生成以通过例如渲染系统或生成对抗模型来复制人类组织、动物组织或任何适用的组织的图像。患者相关联的信息(基因组信息、实验室测试、放射学、患者特性、患者信息、治疗信息等)也可以作为患者数据集的一部分被接收。此外,作为训练机器学习模型的一部分,每个患者数据集可以与关于癌症特性输出(例如,生物标志物)的信息或指示配对,所述癌症特性输出诸如疾病存在/不存在、分期变量的存在(例如,膀胱癌的固有肌层)、癌症形式的分类(例如,乳腺癌的小叶或导管)、以及不同癌症类型的其它相关变量、结果状态(例如,反应、复发等)和/或任何生物标志物的存在。
可以从服务器系统110、医师服务器121、医院服务器122、临床试验服务器123、研究实验室服务器124和/或实验室信息系统125中的任何一个或任何组合接收患者数据集、患者相关联的信息和/或癌症特性输出。用于训练的图像可以来自真实的来源(例如,人类、动物等),或者可以来自合成源(例如,图形渲染引擎、3D模型等)。数字病理学图像的示例可以包括(a)用各种染色剂染色的数字化载玻片,诸如(但不限于)H&E、单独苏木精、IHC、分子病理学等;和/或(b)来自诸如microCT之类的3D成像设备的数字化组织样本。
可以基于将与癌症特性输出配对的患者数据集和患者相关联的信息应用于机器学习算法,生成通用机器学习模型。机器学习算法可以接受病理学样本、患者相关联的信息和癌症特性输出作为输入,并使用一种或多种技术来实现训练。例如,可以在一个或多个卷积神经网络(CNN)、具有多实例学习或多标签多实例学习的CNN、循环神经网络(RNN)、长短期记忆RNN(LSTM)、门控循环单元RNN(GRU)、图形卷积网络或诸如此类、或其组合中训练通用机器学习模型。卷积神经网络可以直接学习区分特性所必需的图像特征表示,当每个样本有大量数据要训练时,这可以极其好地工作,而其它方法可以与传统的计算机视觉特征(例如SURF或SIFT)一起使用,或者与由经训练的卷积神经网络产生的学习嵌入(例如描述符)一起使用,这可以在仅少量数据要训练时产生优势。经训练的机器学习模型可以被配置为基于患者数据和患者相关联的信息提供癌症特性作为输出。
通用机器学习模型可以接收患者数据集(例如,一个或多个病理学样本的数字图像(例如,组织学、细胞学、免疫组织化学等))以及患者相关联的信息(基因组、实验室测试、放射学、患者特性等)。通用机器学习模型的训练算法可以应用于患者数据集和患者相关联的信息,以确定一个或多个癌症特性,诸如数字图像中的一个或多个癌症区域。癌症特性可能不是癌症特定的,使得通用机器学习模型可以提供跨癌症类型的癌症特性,如果有的话。癌症特性可以跨一个或多个数字载玻片在空间上变化。
可以将通用机器学习模型的输出(即,一个或多个癌症特性,如果有的话)提供给存储组件(例如,云存储、硬盘驱动器、网络驱动器等)。如果做出在空间上变化的确定,可以提供对应的(一个或多个)癌症特性用于数字显示,如例如坐标、位掩码、覆盖或诸如此类、或其组合。
图3示出了用于训练通用机器学习模型或专用机器学习模型的示例训练模块300,如本文中进一步公开的。如图3中所示出的,训练数据302可以包括病理学图像304(例如,活检图像的数字表示)、患者数据306(例如,患者数据集)和与患者数据306相关的已知结果308(例如,癌症特性)中的一个或多个。训练数据302和训练算法310可以被提供给训练组件320,训练组件320可以将训练数据302应用于训练算法310,以便生成机器学习模型。
在图2的206处,可以提供人类组织、动物组织或任何适用组织的多个目标专用训练图像和/或通过算法生成以复制人类组织、动物组织或任何适用组织的图像。目标专用训练图像可以对应于在小型研究中生成的图像,并且可以针对特定的基于癌症的实现。病理学样本可以是基于物理活检样本生成的数字图像,如本文中所公开的,或者可以是通过算法生成以通过例如渲染系统或生成对抗模型来复制人类组织、动物组织或任何适用的组织的图像。
用于目标专用任务(例如,对应于罕见疾病、小型研究、临床研究等)的目标专用训练图像可以从服务器系统110、医师服务器121、医院服务器122、临床试验服务器123、研究实验室服务器124和/或实验室信息系统125中的任何一个或任何组合接收。用于训练的图像可以来自真实的来源(例如,人类、动物等),或者可以来自合成源(例如,图形渲染引擎、3D模型等)。这样的数字病理学图像的示例可以包括(a)用各种染色剂染色的数字化载玻片,诸如(但不限于)H&E、单独苏木精、IHC、分子病理学等;和/或(b)来自诸如microCT的3D成像设备的数字化组织样本。
与作为通用机器学习模型的训练数据集的一部分而接收的图像相比,用于训练专用机器学习模型的目标专用训练图像的数量可以大大减少(例如,减少一个或两个量级)。较低数量的目标专用训练图像可能是对应于小研究、临床研究或罕见疾病的目标专用任务的目标专用训练图像的结果,其中大量训练数据不可用。
在208处,可以接收与相应专用训练图像相关的多个目标专用属性。目标专用属性可以与训练图像配对,并且可以包括患者相关联的信息(基因组信息、实验室测试、放射学、患者特性、患者信息、治疗信息等)。此外,目标专用属性可以包括关于癌症特性输出(例如,生物标志物)的信息或指示,诸如疾病存在/不存在、分期变量的存在、药物反应、毒性、癌症形式的分类以及不同癌症类型的其它相关变量、结果状态和/或任何生物标志物的存在。
在图2的210处,可以为目标专用任务生成专用机器学习模型。可以通过首先修改通用机器学习模型以具有用于目标专用任务的适当输出来修改通用机器学习模型,从而生成专用机器学习模型。可以利用与各种癌症类型和其它输出目标(例如,癌症的严重性、存在的突变等)相关联的数据来训练通用机器学习模型。通用机器学习模型可能能够识别不同类型的癌症类型的肿瘤区域/特性,而无需具体提供对应组织所关联的癌症类型。这样的识别不同类型癌症的区域/特性的能力为通用机器学习模型提供了内部表示(例如,参数、层、与层相关联的权重、关系等),其对于存在较少数据的其它任务有效。根据一实现,生物标志物检测系统(例如,专用机器学习模型)用通用机器学习模型的参数初始化,并且例如,如果以神经网络的形式实现,则输出层被重新初始化以被微调来推断生物标志物任务。然后可以用梯度下降法完成微调训练。可选地,可以通过仅训练网络的最后M层或者使用诸如L2-SP之类的方法来限制网络过度拟合的能力,从而约束该过程。此外,可以通过使用206的多个专用训练图像和208的多个目标专用属性修改通用机器学习模型来生成专用机器学习模型。通用机器学习模型可以被修改以具有用于生物标志物检测任务的适当输出。附加地或替代地,可以修改通用机器学习模型,以从样本提取特征供专用机器学习模型使用。
可以通过使用专用任务和相关材料(例如,专用训练图像、目标专用属性等)微调(例如,重新训练)一层或多层通用机器学习模型来修改通用机器学习模型,从而使用少量数据生成专用机器学习模型。可以使用L2-SP、深度学习转移(DELTA)(例如,使用特征图)和/或设计用于提高泛化的一种或多种其它方法来进行微调。替代地或附加地,可以使用构建在通用机器学习模型之上的大裕度方法来提高泛化,从而生成专用机器学习模型。替代地或附加地,可以使用少样本学习的方法来生成专用机器学习模型。替代地或附加地,可以使用通用机器学习模型来提取特征,并且然后基于那些特征(例如,最近邻、随机森林、支持向量机、神经网络等)来训练模型,从而生成专用机器学习模型。
专用机器学习模型可以通过使用通用机器学习模型在深度学习中施行迁移学习来生成。迁移学习可以用于加速专用机器学习模型的训练,作为权重初始化方案或特征提取方法。与随机初始化相比,由具有足够大量实例的训练数据集预训练的通用机器学习模型的权重可以为基于目标专用任务的专用机器学习模型提供更好的初始化。
根据权重初始化方案,较低卷积层中的权重可以是固定的,并且较高层中的权重可以使用来自目标任务及其相关材料(例如,专用训练图像、目标专用属性等)的数据重新训练。重用层中的权重可以用作训练过程的起点,并响应于目标任务进行适配。该权重初始化方案可以将迁移学习视为一种类型的权重初始化方案。
替代地,根据特征提取方案,当训练专用机器学习网络时,响应于目标任务,可以不适配通用机器学习网络的权重,使得仅可以训练重用层之后的新层,以解释其输出。
因此,通用机器学习模型和专用机器学习模型可以共享一层或多层,并且可以具有彼此不相同的至少一层。作为示例,可以在图2的210处修改通用机器学习模型的输出层,使得在专用机器学习模型处作为输入接收到的目标图像提供与在通用机器学习模型处作为输入接收到的相同目标图像不同的结果。
在图2的210处,可以使用图3的训练模块300以类似于本文中所描述的用于训练通用机器学习模型的方式来训练专用机器学习模型。如图3中所示出的,训练数据302可以包括病理学图像304(例如,活检图像的数字表示)、患者数据306(例如,患者数据集)和与患者数据306相关的已知结果308(例如,癌症特性)中的一个或多个。病理学图像304可以包括图2的206的专用训练图像。已知结果308可以包括图2的208的目标专用属性。训练数据302和训练算法310可以被提供给训练组件320,训练组件320可以将训练数据302应用于训练算法310,以便生成专用机器学习模型。
图4是示出了通用机器学习模型400和专用机器学习模型420的图解。通用机器学习模型可以具有多个内层402以及第一外层404和第二外层406。根据一示例,与内层相比,外层可以是在机器学习模型的训练中稍后形成的层。根据另一个示例,与更一般的内层相比,外层可以更特定。如本文中所公开的,可以使用大量训练数据来生成通用机器学习模型400,以输出跨不同癌症类型的癌症特性。通用机器学习模型400可以连同图2的206的专用训练图像和目标专用属性208一起被提供给训练模块300。
训练模块300可以被配置为通过维护通用机器学习模型的内层402并将第一外层404和第二外层406修改为第一外层424和第二外层426来生成专用机器学习模型420。可以基于内层402来初始化专用机器学习模型420的训练,并且训练模块300可以基于图2的专用训练图像206和目标专用属性208来替换、修改或调整第一外层404和第二外层406。因此,专用机器学习模型420可以使用相对少量的数据来训练,并且可以利用通用机器学习模型400的先前训练的内层402。当通用机器学习模型400被训练以标识癌症特性时,与初始化没有内层402的专用机器学习模型420相比,内层402可以为专用机器学习模型420提供更适用的初始化。
将理解,尽管第一外层404和第二外层406示出为经修改,但是可以修改比通用机器学习模型400中的总层数少的任何层数,以生成专用机器学习模型420。作为示例,第二外层406可以是输出层,并且当生成专用机器学习模型420时,仅通用机器学习模型的输出层可以被修改。此外,将理解,尽管当训练专用机器学习模型420时维护了通用机器学习模型400的内层402,但是所公开主题的实现不限于内层。通用机器学习模型400的任何可应用的层可以被维护或修改/替换,以生成专用机器学习模型420。
专用机器学习模型可以用于进行预测,诸如确定跨癌症类型的一个或多个生物标志物。专用机器学习模型可以确定一个或多个载玻片图像中一个或多个生物标志物的存在或不存在。该确定可以跨目标图像(例如,数字病理学载玻片)在空间上变化,使得载玻片的不同区域中的不同肿瘤被确定为具有不同生物标志物的存在或不存在。
在210处生成的机器学习模型可以与图1A的机器学习模型100相同或相似,并可以从医师服务器121、医院服务器122、临床试验服务器123、研究实验室服务器124和/或实验室信息系统125等中的一个或多个接收目标图像和患者信息。在212处,可以接收对应于目标样本的目标图像。在214处,可以将专用机器学习模型应用于目标图像,以确定目标图像的至少一个特性。该至少一个特性可以是与目标专用任务相关联的癌症特性,基于该目标专用任务生成专用机器学习模型。在216处,可以经由一个或多个输出接口(例如,屏幕、监视器、存储设备和/或网络浏览器等)输出目标图像的至少一个特性。输出特性可以是样本类型(例如,癌症预测、药物反应、癌症复发率、毒性、组织异常等)。因此,在216处的输出可以是基于在212处接收的目标图像的样本类型的预测。作为示例,图1A的查看应用工具108可以在(一个或多个)数字病理学图像上应用覆盖层,并且该覆盖层可以突出显示考虑的关键区域。输出可以作为坐标、位掩码、覆盖或诸如此类、或其组合来提供。
专用机器学习模型可以用于多种实现,诸如但不限于临床试验中患者分层的药物反应预测、癌症复发预测、药物毒性或异常预测或诸如此类。
图5示出了使用通用机器模型生成的用于药物反应预测的专用机器学习模型的示例实现。开发试验药物的生物标志物传统上是通过临床研究进行的,其中样本大小通常在5000名患者以下。利用这样小的数据集,难以完全理解潜在的疾病机制并预测治疗的患者特性。本文中公开的技术包括全面表征肿瘤及其形态的通用机器学习模型,其可以用作检测生物标志物的初始化步骤,用于标识哪些患者将对临床试验中的治疗有反应,以及反应可能是什么。如图5中所示出的,在502处,可以在502处接收通用机器学习模型。在504处,可以调整通用机器学习模型以具有药物反应预测输出。可以通过调整通用机器学习模型的一层或多层中的权重和/或通用机器学习模型的输出层的权重,和/或修改通用机器学习模型的输出的属性来进行调整。
经调整的机器学习模型可以提供给训练模块300。在510处,训练模块300可以被配置为通过维护通用机器学习模型的一个或多个层(例如,内层)并修改机器学习模型的一个或多个层(例如,外层)来生成专用机器学习模型。专用机器学习模型可以使用相对少量的数据来训练,并且可以利用通用机器学习模型的先前训练的层。可以通过为被提供了目标药物的患者提供病理学图像和对应的患者数据来训练专用机器学习模型。此外,还可以向训练模块300提供目标药物的已知结果,以训练专用机器学习模型。
在510处,可以基于修改在520处接收的通用机器学习模型和基于来自被提供目标药物的患者的专用训练图像的训练,以及他们对药物的已知反应,来生成专用机器学习模型。在510处生成的专用机器学习模型可以用于基于一个或多个目标图像来预测药物反应结果。图5示出了图2的步骤212、214和216,并且为了简洁起见,这里不再重复与这些步骤相关的公开内容。在212处,可以接收对应于目标样本的目标图像。在214处,可以将在510处生成的专用机器学习模型应用于目标图像,以确定目标图像的特性。在图5中提供的实现中,目标图像的特性可以是从其捕获目标图像的患者可能对目标药物具有的反应(例如,肯定、否定、中立、预测问题等)。在216处,可以根据本文中提供的公开内容输出特性。
根据一实现,在图5(即,在502处)、图6(即,在602处)和图7(即,在702处)中提供的示例实现中接收的通用机器学习模型可以是相同的通用机器学习模型。在510、610和710处生成的相应专用机器学习模型中的每一个可以使用来自通用机器学习模型的所有或一些层来初始化。然而,在510、610和710处生成的相应专用机器学习模型中的每一个可以不同,使得它们调谐到它们的特定专用任务中的每一个。因此,基于在510、610和710处生成的专用机器学习模型之间的差异,提供给在510、610和710处生成的每个专用机器学习模型的给定输入图像可以导致不同的输出。
图6示出了使用通用机器模型生成的用于癌症复发预测的专用机器学习模型的示例实现。当癌症在治疗(例如,成功或不成功的治疗)之后复发时,可能发生癌症复发。了解癌症是否将复发可能实现更好的治疗计划。例如,基于一种或多种给定治疗(例如,免疫疗法、基于嵌合抗原受体T(CART-T)细胞的疗法等)了解潜在的复发概率可以为每个患者实现自定义或定制治疗。此外,较新的治疗机制可能影响晚期肿瘤的复发,并且了解与这样的晚期复发相关联的概率可能有助于减轻复发率。然而,由于数据集数量有限,构建机器学习模型来直接从传统研究评估癌症复发具有挑战性。本文中公开的技术包括表征肿瘤及其形态的通用机器学习模型,该技术可以用于启动专用机器学习模型,以用于在具有有限数据集的研究中预测癌症复发。如图6中所示出的,在602处,可以在602处接收通用机器学习模型。在604处,可以调整通用机器学习模型以具有癌症复发预测输出。可以通过调整通用机器学习模型的一层或多层中的权重和/或通用机器学习模型的输出层的权重,和/或修改通用机器学习模型的输出的属性来进行调整。
经调整的机器学习模型可以提供给训练模块300。在610处,训练模块300可以被配置成通过维护通用机器学习模型的一个或多个层(例如,内层)并修改机器学习模型的一个或多个层(例如,外层)来生成专用机器学习模型。专用机器学习模型可以使用相对少量的数据来训练,并且可以利用通用机器学习模型的先前训练的层。可以通过为表现出癌症复发或没有表现出癌症复发的患者提供病理学图像和对应的患者数据来训练专用机器学习模型。此外,还可以向训练模块300提供癌症复发或无复发的已知结果,以训练专用机器学习模型。
在610处,可以基于修改在620处接收的通用机器学习模型和基于来自表现出癌症复发或没有表现出癌症复发的患者的专用训练图像的训练,以及他们对药物的已知反应,来生成专用机器学习模型。在610处生成的专用机器学习模型可以用于基于一个或多个目标图像来预测癌症复发结果。图6示出了图2的步骤212、214和216,并且为了简洁起见,这里不再重复与这些步骤相关的公开内容。在212处,可以接收对应于目标样本的目标图像。在214处,可以将在610处生成的专用机器学习模型应用于目标图像,以确定目标图像的特性。在图6中提供的实现中,目标图像的特性可以是从其捕获目标图像的患者可能表现出癌症复发的概率。替代地或附加地,该特性可以是从其捕获目标图像的患者可能表现出的癌症复发程度。在216处,可以根据本文中提供的公开内容输出特性。
图7示出了使用通用机器模型生成的用于药物毒性或组织异常预测的专用机器学习模型的示例实现。在药物开发周期中,潜在化合物经过多轮动物安全性研究,以及然后是人类安全性研究。例如,基于当前的实践,毒性的评估是经由动物组织中的病理学测试手动进行的。毒性临床前研究中的动物数量相当有限,并且可能需要测试新分子实体的多种剂量。本文中公开的技术包括在各种人类组织、动物组织或任何适用的组织上训练的通用机器学习模型,其基于学习到的肿瘤形态进行加权,当对临床前毒性研究进行预测时,该技术可以用作检测组织(例如,动物组织)中异常的初始化步骤。如图7中所示出的,在702处,可以在702处接收通用机器学习模型。在704处,可以调整通用机器学习模型以具有药物毒性或组织异常预测输出。可以通过调整通用机器学习模型的一层或多层中的权重和/或通用机器学习模型的输出层的权重,和/或修改通用机器学习模型的输出的属性来进行调整。
经调整的机器学习模型可以提供给训练模块300。在710处,训练模块300可以被配置为通过维护通用机器学习模型的一个或多个层(例如,内层)并修改机器学习模型的一个或多个层(例如,外层)来生成专用机器学习模型。专用机器学习模型可以使用相对少量的数据来训练,并且可以利用通用机器学习模型的先前训练的层。可以通过为被提供了目标药物的患者(例如,人类和/或动物)提供病理学图像和对应的患者数据来训练专用机器学习模型。此外,目标药物的毒性或所得到的组织异常的已知结果也可以被提供给训练模块300,以训练专用机器学习模型。
在710处,可以基于修改在720处接收的通用机器学习模型和基于来自被提供目标药物的患者的专用训练图像的训练,以及他们已知的来自药物的毒性或组织异常,来生成专用机器学习模型。在710处生成的专用机器学习模型可以用于基于一个或多个目标图像来预测药物毒性或组织异常结果。图7示出了图2的步骤212、214和216,并且为了简洁起见,这里不再重复与这些步骤相关的公开内容。在212处,可以接收对应于目标样本的目标图像。在214处,可以将在710处生成的专用机器学习模型应用于目标图像,以确定目标图像的特性。在图7中提供的实现中,目标图像的特性可以是从其捕获目标图像的患者对目标药物可能具有的毒性或组织异常的存在或不存在、或程度。在216处,可以根据本文中提供的公开内容输出特性。
如图8中所示出的,设备800可以包括中央处理单元(CPU)820。CPU 820可以是任何类型的处理器设备,包括例如任何类型的专用或通用微处理器设备。如相关领域的技术人员将领会的,CPU 820也可以是多核/多处理器系统中的单个处理器,这样的系统单独操作,或者在集群或服务器群中操作的计算设备集群中操作。CPU 820可以连接到数据通信基础设施810,例如总线、消息队列、网络或多核消息传递方案。
设备800还可以包括主存储器840,例如随机存取存储器(RAM),以及还可以包括辅助存储器830。辅助存储器830——例如只读存储器(ROM)——可以是例如硬盘驱动器或可移除存储驱动器。这样的可移除存储驱动器可以包括例如软盘驱动器、磁带驱动器、光盘驱动器、闪速存储器或诸如此类。该示例中的可移除存储驱动器以众所周知的方式从可移除存储单元读取和/或向其写入。可移除存储单元可以包括软盘、磁带、光盘等,其由可移除存储驱动器读取和写入。如相关领域的技术人员将领会的,这样的可移除存储单元一般包括其中存储有计算机软件和/或数据的计算机可用存储介质。
在替代实现中,辅助存储器830可以包括其它类似部件,用于将计算机程序或其它指令加载到设备800中。这样的部件的示例可以包括程序盒式磁带和盒式磁带接口(诸如在视频游戏设备中发现的)、可移除存储芯片(诸如EPROM或PROM)和相关联的插座、以及其它可移除存储单元和接口,其允许软件和数据从可移除存储单元传送到设备800。
设备800还可以包括通信接口(“COM”)860。通信接口860允许软件和数据在设备800和外部设备之间传送。通信接口860可以包括调制解调器、网络接口(诸如以太网卡)、通信端口、PCMCIA插槽和卡或诸如此类。经由通信接口860传送的软件和数据可以以信号的形式,其可以是电子、电磁、光学或能够被通信接口860接收的其它信号。这些信号可以经由设备800的通信路径提供给通信接口860,设备800的通信路径可以使用例如导线或线缆、光纤、电话线、蜂窝电话链路、RF链路或其它通信信道来实现。
这样的装备的硬件元件、操作系统和编程语言本质上是常规的,并且假定本领域的技术人员对此足够熟悉。设备800还可以包括输入和输出端口850,以与诸如键盘、鼠标、触摸屏、监视器、显示器等之类的输入和输出设备连接。当然,各种服务器功能可以在多个类似的平台上以分布式方式实现,以分配处理负载。替代地,服务器可以通过一个计算机硬件平台的适当编程来实现。
贯穿本公开内容,对组件或模块的引用一般指逻辑上可以分组在一起施行一个功能或一组相关功能的项目。类似的附图标记一般意图指相同或相似的组件。组件和模块可以以软件、硬件或软件和硬件的组合来实现。
上面描述的工具、模块和功能可以由一个或多个处理器施行。“存储”型介质可以包括计算机、处理器或诸如此类的任何或所有有形存储器,或其相关联的模块,诸如各种半导体存储器、磁带驱动器、磁盘驱动器以及诸如此类,它们可以在任何时候为软件编程提供非暂时性存储。
软件可以通过互联网、云服务提供商或其它电信网络进行通信。例如,通信可以实现将软件从一个计算机或处理器加载到另一个计算机或处理器中。如本文中所使用的,除非限于非暂时性的有形“存储”介质,否则诸如计算机或机器“可读介质”之类的术语指的是参与向处理器提供指令以供执行的任何介质。
前述一般描述仅为示例性和解释性的,并不限制本公开。考虑到本文中公开的本发明的说明书和实践,本发明的其它实施例对于本领域技术人员来说将是显而易见的。意图的是说明书和示例仅被认为是示例性的。

Claims (20)

1.一种用于处理电子图像的计算机实现的方法,所述方法包括:
接收通过处理多个第一训练图像以预测至少一个癌症特性而生成的通用机器学习模型;
接收多个第二训练图像,其中所述第一训练图像和所述第二训练图像包括组织样本的图像和/或通过算法生成以复制组织样本的图像,第二训练图像的数量不足以生成满足用于输出针对专用任务的目标图像的一个或多个特性的阈值的机器学习模型;
接收多个目标专用属性,每个目标专用属性与多个第二训练图像中的相应第二训练图像相关;
通过基于所述多个第二训练图像和相应目标专用属性修改通用机器学习模型来生成专用机器学习模型,所述专用机器学习模型满足用于输出针对专用任务的目标图像的一个或多个特性的阈值,所述专用机器学习模型是根据特征提取方案通过对通用机器学习模型的现有层集合生成附加层并基于所述多个第二训练图像和目标专用属性生成附加层的权重而生成的;
接收对应于目标样本的目标图像;
将专用机器学习模型应用于目标图像,以确定目标图像的至少一个特性;以及
输出目标图像的至少一个特性。
2. 根据权利要求1所述的计算机实现的方法,进一步包括:
基于目标图像的至少一个特性来确定目标样本的样本类型的预测;和
输出对目标样本的样本类型的预测。
3.根据权利要求1所述的计算机实现的方法,其中所述多个目标专用属性是存在于每个相应第二训练图像中的一个或多个生物标志物。
4.根据权利要求1所述的计算机实现的方法,其中所述通用机器学习模型包括多个层,并且修改通用机器学习模型进一步包括修改通用机器学习模型的一个或多个外层。
5.根据权利要求1所述的计算机实现的方法,其中修改通用机器学习模型进一步包括移除通用机器学习模型的输出层。
6.根据权利要求1所述的计算机实现的方法,其中所述多个目标专用属性是选自疾病存在、分期变量存在、药物反应、毒性或癌症分类的特性输出的一个或多个指示。
7.根据权利要求1所述的计算机实现的方法,其中所述多个目标专用属性基于药物反应信息、癌症复发预测信息或毒性评估信息中的至少一个。
8.根据权利要求1所述的计算机实现的方法,其中每个第二训练图像是基于相同类别的病理学样本生成的。
9.根据权利要求8所述的计算机实现的方法,其中病理学样本的类别选自组织学、细胞学、免疫组织化学或其组合。
10.根据权利要求1所述的计算机实现的方法,其中修改通用机器学习模型进一步包括调整通用机器学习模型以具有基于目标专用属性的输出。
11.根据权利要求1所述的计算机实现的方法,其中所述多个第一训练图像包括对应于多种癌症类型的图像。
12.根据权利要求1所述的计算机实现的方法,其中所述至少一个癌症特性是癌症诊断、肿瘤表征或生物标志物检测之一。
13. 一种用于处理电子图像的系统,所述系统包括:
至少一个存储指令的存储器;和
至少一个处理器,执行指令以施行操作,包括:
接收通过处理多个第一训练图像以预测至少一个癌症特性而生成的通用机器学习模型;
接收多个第二训练图像,其中所述第一训练图像和所述第二训练图像包括组织样本的图像和/或通过算法生成以复制组织样本的图像,第二训练图像的数量不足以生成满足用于输出针对专用任务的目标图像的一个或多个特性的阈值的机器学习模型;
接收多个目标专用属性,每个目标专用属性与多个第二训练图像中的相应第二训练图像相关;
通过基于多个第二训练图像和相应目标专用属性修改通用机器学习模型来生成专用机器学习模型,所述专用机器学习模型满足用于输出针对专用任务的目标图像的一个或多个特性的阈值,所述专用机器学习模型是根据特征提取方案通过对通用机器学习模型的现有层集合生成附加层并基于所述多个第二训练图像和目标专用属性生成附加层的权重而生成的;
接收对应于目标样本的目标图像;
将专用机器学习模型应用于目标图像,以确定目标图像的至少一个特性;以及
输出目标图像的至少一个特性。
14. 根据权利要求13所述的系统,所述操作进一步包括:
基于目标图像的至少一个特性来确定目标样本的样本类型的预测;和
输出对目标样本的样本类型的预测。
15.根据权利要求13所述的系统,其中所述多个目标专用属性是存在于每个相应第二训练图像内的一个或多个生物标志物。
16.根据权利要求13所述的系统,其中所述通用机器学习模型包括多个层,并且修改通用机器学习模型进一步包括修改通用机器学习模型的一个或多个外层。
17.根据权利要求13所述的系统,其中修改通用机器学习模型进一步包括移除通用机器学习模型的输出层。
18.一种存储指令的非暂时性计算机可读介质,当由处理器执行时,所述指令使处理器施行用于处理电子图像的操作,所述操作包括:
接收通过处理多个第一训练图像以预测至少一个癌症特性而生成的通用机器学习模型;
接收多个第二训练图像,其中所述第一训练图像和所述第二训练图像包括组织样本的图像和/或通过算法生成以复制组织样本的图像,第二训练图像的数量不足以生成满足用于输出针对专用任务的目标图像的一个或多个特性的阈值的机器学习模型;
接收多个目标专用属性,每个目标专用属性与多个第二训练图像中的相应第二训练图像相关;
通过基于多个第二训练图像和相应目标专用属性修改通用机器学习模型来生成专用机器学习模型,所述专用机器学习模型满足用于输出针对专用任务的目标图像的一个或多个特性的阈值,所述专用机器学习模型是根据特征提取方案通过对通用机器学习模型的现有层集合生成附加层并基于所述多个第二训练图像和目标专用属性生成附加层的权重而生成的;
接收对应于目标样本的目标图像;
将专用机器学习模型应用于目标图像,以确定目标图像的至少一个特性;以及
输出目标图像的至少一个特性。
19. 根据权利要求18所述的非暂时性计算机可读介质,所述操作进一步包括:
基于目标图像的至少一个特性来确定目标样本的样本类型的预测;和
输出对目标样本的样本类型的预测。
20.根据权利要求18所述的非暂时性计算机可读介质,其中所述多个目标专用属性是存在于每个相应第二训练图像内的一个或多个生物标志物。
CN202080097975.4A 2020-01-03 2020-12-18 用于处理通用疾病检测的电子图像的系统和方法 Active CN115210772B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202062956876P 2020-01-03 2020-01-03
US62/956876 2020-01-03
PCT/US2020/066045 WO2021138087A1 (en) 2020-01-03 2020-12-18 Systems and methods for processing electronic images for generalized disease detection

Publications (2)

Publication Number Publication Date
CN115210772A CN115210772A (zh) 2022-10-18
CN115210772B true CN115210772B (zh) 2023-07-18

Family

ID=74554206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080097975.4A Active CN115210772B (zh) 2020-01-03 2020-12-18 用于处理通用疾病检测的电子图像的系统和方法

Country Status (9)

Country Link
US (4) US11107573B2 (zh)
EP (1) EP4085377A1 (zh)
JP (1) JP7260119B2 (zh)
KR (2) KR20230118198A (zh)
CN (1) CN115210772B (zh)
AU (1) AU2020417728B2 (zh)
BR (1) BR112022013000B1 (zh)
CA (1) CA3162254A1 (zh)
WO (1) WO2021138087A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022093906A1 (en) * 2020-10-29 2022-05-05 Paige Ai, Inc. Systems and methods for processing images to determine image-based computational biomarkers from liquid specimens
US20230177685A1 (en) * 2021-12-07 2023-06-08 PAIGE.AI, Inc. Systems and methods for processing electronic images to visualize combinations of semantic pathology features
WO2023218240A1 (en) * 2022-05-11 2023-11-16 Agendia NV Digital pathology system
CN116580037B (zh) * 2023-07-10 2023-10-13 天津医科大学第二医院 一种基于深度学习的鼻咽癌图像分割方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3041292A1 (fr) * 2015-09-21 2017-03-24 Touti Terre Siege ergonomique basculant entre deux configurations
WO2017055412A1 (en) * 2015-09-30 2017-04-06 Siemens Healthcare Gmbh Method and system for classification of endoscopic images using deep decision networks
CN107330954A (zh) * 2017-07-14 2017-11-07 深圳市唯特视科技有限公司 一种基于衰减网络通过滑动属性操纵图像的方法
CN107492090A (zh) * 2016-06-09 2017-12-19 西门子保健有限责任公司 根据合成数据利用机器学习的基于图像的肿瘤表型分析
CN107995428A (zh) * 2017-12-21 2018-05-04 广东欧珀移动通信有限公司 图像处理方法、装置及存储介质和移动终端
CN108137712A (zh) * 2015-10-06 2018-06-08 株式会社钟化 聚合物材料、膜、圆偏光片、图像显示装置以及膜的制造方法
CN109308495A (zh) * 2018-07-05 2019-02-05 北京昆仑医云科技有限公司 从患者的医学图像自动预测生理状况的装置和系统
CN110023994A (zh) * 2017-10-02 2019-07-16 梅傲科技(广州)有限公司 组织病理学图像分析
CN110121749A (zh) * 2016-11-23 2019-08-13 通用电气公司 用于图像采集的深度学习医疗系统和方法
KR102057649B1 (ko) * 2018-12-13 2019-12-19 주식회사 알고리고 상위계층 인공신경망을 이용한 전기차 충전소 점유 예측 장치 및 방법
CN110599451A (zh) * 2019-08-05 2019-12-20 平安科技(深圳)有限公司 医学图像病灶检测定位方法、装置、设备及存储介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11129577B2 (en) * 2015-02-17 2021-09-28 Telebyte, Inc. Optical cancer detector using deep optical scanning and multi layer neural network
EP3923237A1 (en) * 2017-02-22 2021-12-15 The United States of America as represented by The Secretary Department of Health and Human Services Detection of prostate cancer in multi-parametric mri using random forest
US11835524B2 (en) * 2017-03-06 2023-12-05 University Of Southern California Machine learning for digital pathology
US11341631B2 (en) * 2017-08-09 2022-05-24 Shenzhen Keya Medical Technology Corporation System and method for automatically detecting a physiological condition from a medical image of a patient
US10650286B2 (en) * 2017-09-07 2020-05-12 International Business Machines Corporation Classifying medical images using deep convolution neural network (CNN) architecture
US20200210767A1 (en) * 2017-09-08 2020-07-02 The General Hospital Corporation Method and systems for analyzing medical image data using machine learning
CA3081643A1 (en) * 2017-11-06 2019-05-09 University Health Network Platform, device and process for annotation and classification of tissue specimens using convolutional neural network
US10748040B2 (en) 2017-11-20 2020-08-18 Kavya Venkata Kota Sai KOPPARAPU System and method for automatic assessment of cancer
US20200372636A1 (en) * 2017-11-22 2020-11-26 The Trustees Of Columbia University In The City Of New York System method and computer-accessible medium for determining breast cancer response using a convolutional neural network
WO2019157214A2 (en) * 2018-02-07 2019-08-15 Ai Technologies Inc. Deep learning-based diagnosis and referral of diseases and disorders
US20190277854A1 (en) * 2018-03-06 2019-09-12 Jessika Baral System and method for cancer detection
EP3794551A4 (en) * 2018-05-14 2022-02-09 Tempus Labs, Inc. FRAMEWORK FOR GENERALIZABLE AND INTERPRETABLE DEEP LEARNING FOR PREDICTING MSI FROM HISTOPATHOLOGICAL SLIDE IMAGES
EP3570288A1 (en) * 2018-05-16 2019-11-20 Siemens Healthcare GmbH Method for obtaining at least one feature of interest
US11508168B2 (en) * 2018-10-15 2022-11-22 Upmc Systems and methods for specimen interpretation
US11631171B2 (en) * 2019-01-10 2023-04-18 Regents Of The University Of Minnesota Automated detection and annotation of prostate cancer on histopathology slides
US10936160B2 (en) * 2019-01-11 2021-03-02 Google Llc System, user interface and method for interactive negative explanation of machine-learning localization models in health care applications

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3041292A1 (fr) * 2015-09-21 2017-03-24 Touti Terre Siege ergonomique basculant entre deux configurations
WO2017055412A1 (en) * 2015-09-30 2017-04-06 Siemens Healthcare Gmbh Method and system for classification of endoscopic images using deep decision networks
CN108137712A (zh) * 2015-10-06 2018-06-08 株式会社钟化 聚合物材料、膜、圆偏光片、图像显示装置以及膜的制造方法
CN107492090A (zh) * 2016-06-09 2017-12-19 西门子保健有限责任公司 根据合成数据利用机器学习的基于图像的肿瘤表型分析
CN110121749A (zh) * 2016-11-23 2019-08-13 通用电气公司 用于图像采集的深度学习医疗系统和方法
CN107330954A (zh) * 2017-07-14 2017-11-07 深圳市唯特视科技有限公司 一种基于衰减网络通过滑动属性操纵图像的方法
CN110023994A (zh) * 2017-10-02 2019-07-16 梅傲科技(广州)有限公司 组织病理学图像分析
CN107995428A (zh) * 2017-12-21 2018-05-04 广东欧珀移动通信有限公司 图像处理方法、装置及存储介质和移动终端
CN109308495A (zh) * 2018-07-05 2019-02-05 北京昆仑医云科技有限公司 从患者的医学图像自动预测生理状况的装置和系统
KR102057649B1 (ko) * 2018-12-13 2019-12-19 주식회사 알고리고 상위계층 인공신경망을 이용한 전기차 충전소 점유 예측 장치 및 방법
CN110599451A (zh) * 2019-08-05 2019-12-20 平安科技(深圳)有限公司 医学图像病灶检测定位方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DEEP CONVOLUTIONAL NEURAL NETWORKS FOR COMPUTER-AIDED;HOO-CHANG SHIN ETAL.;IEEE TRANSACTIONS ON MEDICAL IMAGING;第35卷(第5期);全文 *

Also Published As

Publication number Publication date
US20210350907A1 (en) 2021-11-11
JP2022553446A (ja) 2022-12-22
US11107573B2 (en) 2021-08-31
US11823436B2 (en) 2023-11-21
US20220230734A1 (en) 2022-07-21
JP7260119B2 (ja) 2023-04-18
AU2020417728A1 (en) 2022-08-18
KR102562708B1 (ko) 2023-08-03
KR20230118198A (ko) 2023-08-10
BR112022013000B1 (pt) 2024-01-30
CA3162254A1 (en) 2021-07-08
US20240046615A1 (en) 2024-02-08
AU2020417728B2 (en) 2023-03-16
US11322246B2 (en) 2022-05-03
BR112022013000A2 (pt) 2022-09-06
CN115210772A (zh) 2022-10-18
KR20220113547A (ko) 2022-08-12
WO2021138087A1 (en) 2021-07-08
EP4085377A1 (en) 2022-11-09
US20210210195A1 (en) 2021-07-08

Similar Documents

Publication Publication Date Title
CN114072879B (zh) 用于处理图像以对经处理的用于数字病理的图像进行分类的系统和方法
AU2021213737B2 (en) Systems and methods for processing electronic images for computational detection methods
CN115210772B (zh) 用于处理通用疾病检测的电子图像的系统和方法
JP7212339B1 (ja) 品質制御のために電子画像を分析するためのシステムおよび方法
CN114981899A (zh) 用于处理用于生物标志物定位的电子图像的系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant