CN113454733B - 用于预后组织模式识别的多实例学习器 - Google Patents

用于预后组织模式识别的多实例学习器 Download PDF

Info

Publication number
CN113454733B
CN113454733B CN202080014846.4A CN202080014846A CN113454733B CN 113454733 B CN113454733 B CN 113454733B CN 202080014846 A CN202080014846 A CN 202080014846A CN 113454733 B CN113454733 B CN 113454733B
Authority
CN
China
Prior art keywords
blocks
block
image
patient
tissue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202080014846.4A
Other languages
English (en)
Other versions
CN113454733A (zh
Inventor
E·克莱曼
J·吉尔登布拉特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
F Hoffmann La Roche AG
Original Assignee
F Hoffmann La Roche AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by F Hoffmann La Roche AG filed Critical F Hoffmann La Roche AG
Publication of CN113454733A publication Critical patent/CN113454733A/zh
Application granted granted Critical
Publication of CN113454733B publication Critical patent/CN113454733B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/40Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • G06T7/41Analysis of texture based on statistical description of texture
    • G06T7/44Analysis of texture based on statistical description of texture using image operators, e.g. filters, edge density metrics or local histograms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/695Preprocessing, e.g. image segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10056Microscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10064Fluorescence image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30024Cell structures in vitro; Tissue sections in vitro
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Molecular Biology (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Probability & Statistics with Applications (AREA)
  • Chemical & Material Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Pathology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biotechnology (AREA)
  • Quality & Reliability (AREA)
  • Toxicology (AREA)

Abstract

本发明涉及一种识别指示患者相关属性值的组织模式的方法(100)。所述方法包括:接收(102)患者组织样品的数字图像(212),所述图像已分配了指示患者相关属性值的标签;将每个接收到的图像拆分(104)成图像块集(216);计算(106)每个块的特征向量(220);基于所有块和相应的特征向量训练(108)多实例学习(MIL)程序(226),以便针对所述块中的每个块计算数值(228),所述数值指示与所述块相关联的特征向量相对于所述块的相应图像的标签的预测能力;以及输出报告库(206),所述报告库包含块,所述块根据它们的相应计算出的数值进行排序和/或包含所述数值的图形表示。

Description

用于预后组织模式识别的多实例学习器
技术领域
本发明涉及数字病理学领域,更特别地涉及图像分析领域。
背景技术
已知若干种图像分析方法,这些图像分析方法可用于辅助诊断过程以及基于对组织样品图像的分析来识别合适的治疗。
一些图像分析技术基于使用不同的程序来搜索图像中的结构,已知该结构用作特定疾病的存在和/或用特定药物成功治疗该疾病的可能性的指标。例如,只有在距癌细胞一定距离处存在某些免疫细胞的情况下,在癌症患者免疫疗法过程中使用的一些药物才起作用。在这种情况下,尝试自动识别组织图像中的这些对象,即某些细胞类型或某些亚细胞和超细胞结构,以便能够做出关于疾病的存在情况和/或推荐的治疗的说明。这种方法的缺点是图像分析算法只识别那些为该图像分析算法开发的结构。因此,这种类型的图像分析基于关于某些细胞和组织结构与某些疾病或它们的治疗方案之间关系的现有医学知识。因此,该图像分析方法不适合检测关于某种疾病和/或该疾病治疗的未知预测特征,并且受限于在某个时间可用的医学知识。该图像分析方法不适合扩展医疗关系的知识,即识别迄今为止未知的特征和组织结构,以预测是否存在某种形式的疾病和/或某种药物是否对这种疾病有效。
其他图像分析方法,特别是非监督式机器学习方法,也能够考虑其预测能力为专业界所未知的和/或病理学家在图像分析中无法察觉的组织模式和特征,因为这些特征可以是,例如,由若干其他特征的存在、不存在和/或可表达性产生的衍生特征。这些方法的缺点是它们通常像黑箱一样工作。换句话说,使用这些技术的病理学家必须依赖于这些算法的预测能力,而无法准确指出哪种组织性状对预测具有最终决定性作用。这可能是一个显著缺点,例如在药物批准中,因为出于此目的,必须明确指出受益于某种治疗的患者群体。在决定给某个患者服用潜在有效但副作用强烈的药物是否可行时,不得不完全或部分依赖这个“黑箱”,而不能以语言表述潜在的“决策逻辑”,这对于医生和患者来说都是不尽如人意的。
发明内容
本发明目的是提供一种经改进的识别指示患者相关属性值的组织模式的方法以及一种如独立权利要求中指出的相应图像分析系统。在从属权利要求中给出了本发明的实施例。如果本发明的实施例不是互相排斥的,则可以彼此自由地组合。
在一个方面,本发明涉及一种识别指示患者相关属性值的组织模式的方法。该方法包括:
-针对一组患者中的每个患者,通过图像分析系统,接收该患者的组织样品的至少一个数字图像,该至少一个图像已分配至少两个不同的预定义标签中的一个标签,每个标签指示在用标签标记的图像中描绘其组织的患者的患者相关属性值;
-通过图像分析系统,将每个接收到的图像拆分成图像块集,每个块已分配了分配给用于创建块的图像的标签;
-针对所述块中的每一个块,通过图像分析系统,计算特征向量,该特征向量包含从所述块中描绘的组织模式选择性地提取的图像特征;
-基于针对该组中的所有患者接收到的所有图像的所有块和相应特征向量训练多实例学习(MIL)程序,每个块集被MIL程序处理为具有相同标签的块包,该训练包括分析特征向量以便针对所述块中的每一个计算数值,该数值指示与块相关联的特征向量相对于分配给导出块的图像的标签的预测能力;以及
-经由图像分析系统的GUI,输出图像块报告库,该报告库包括块的子集(该块的子集根据它们的相应计算出的数值进行排序),及/或包括它们的相应数值的图形表示。
这种方法可能是有利的,因为它可将基于明确生物医学专家知识的图像分析方法的优势与机器学习方法的优势结合起来:在机器学习中,多实例学习(MIL)是一种监督式学习。学习器不是接收单独用标签标记的实例集,而是接收用标签标记的包的集合,每个集合包含许多实例。在多实例二元分类的简单情况下,如果包中的所有实例都是负,则该包可用标签标记为负。在另一方面,如果包中至少有一个实例为正,则该包用标签标记为正。从一组用标签标记的包中,学习器尝试(i)引入将正确用标签标记单独示例的概念,或(ii)学习如何在不引入概念的情况下用标签标记包。在Babenko,Boris."Multiple instancelearning:algorithms and applications"(2008)中给出了MIL的方便和简单的示例。然而,根据一些实施例的MIL程序还涵盖基于两个以上不同标签(终点)的训练。
根据本发明的实施例,MIL程序用于计算包中的每个实例(块)(优选地,具有特定标签值的某个患者的组织切片的一个或多个图像的所有块)的预测值并且因此也适用于在块中分别描绘的组织模式。在这一步中,MIL程序可识别新的生物医学知识,因为在训练数据中,图像和相应块的标签作为训练的终点,但不是从块中导出的特征向量的单独特征,块与标签强烈(正或负)相关,因此可预测该标签。此外,针对单独块计算出的预测值也与库中相关块的图形表示一起输出。例如,库中的块可根据数值进行排序。在这种情况下,块在库中的位置允许病理学家或其他人类用户识别经发现对特定标签具有高度预测性的块中描绘的组织模式。此外,或替代性地,数值可显示为空间上接近其相应块,从而使用户能够检查和理解在一个或多个块中描绘的组织的组织模式,所述一个或多个块具有与特定标签相似的数值。
因此,作为训练阶段的输出而生成的图像块库可揭示相对于患者的特定患者相关属性值具有预测性的组织签名。结合图像块呈现数值可能具有以下好处:至少在许多情况下,病理学家可通过比较具有相似数值的库中的若干块与具有高得多或低得多的数值的其他块并且通过比较报告库中块的这些子集中描绘的组织签名来识别和表述预测组织模式(也可称为“组织签名”)。
在进一步有益的方面,使用将图像块作为实例处理的MIL程序以及已分配特定标签的同一患者的所有图像的所有块的整体(例如“对药物D有应答=真”、“微卫星状态=MSX”、“HER2表达状态=+”)特别适用于在整个载玻片组织样品图像的情况下预测患者相关特征。这是因为整个载玻片组织样品通常覆盖许多不同的组织区域,只有一些组织区域可具有任何预测值。例如,微转移的直径可能只有几毫米,但载玻片和相应的整个载玻片图像的长度可达许多厘米。尽管整个图像是用标签标记的-根据对样品来源患者的经验观察-使用特定标签,例如“对药物D有应答=真”,包括许多免疫细胞且预测正向应答的微转移周围的组织区域也可能仅覆盖几毫米。因此,大多数块不包括相对于图像方式和通常的患者方式标签可预测的任何组织区域。MIL程序特别适用于基于数据实例包识别预测特征,其中假定大部分实例没有任何预测值。
根据实施例,接收数字图像包括组织样品的数字图像,该组织样品的数字图像的像素强度值与非生物标志物特异性染色剂,特别是H&E染色剂的量相关。
例如,每包块可代表对特定药物的应答已知的相应患者。该患者专用包中包含的实例是从该特定患者的相应组织样品导出的一个或多个图像的块,该组织样品已用非生物标志物特异性染色剂(诸如H&E)染色。该患者的所有组织图像以及由此导出的所有块已分配标签“患者对药物D有应答=真”。
这可能是有利的,因为H&E染色的组织图像代表染色组织图像的最常见形式,并且仅这种类型的染色已揭示大量可用于预测患者相关属性值的数据,例如特定肿瘤的亚型或分期。此外,许多医院包括从过去多年治疗的患者导出的H&E染色组织图像的大型数据库。通常,医院还拥有关于特定患者是否对特定治疗有应答和/或疾病发展的速度或严重程度的数据。因此,可以得到可用相应的结果(例如,通过特定药物治疗是/否成功、无进展存活期超过一年、无进展存活期超过两年等)用标签标记的训练图像的大量语料库。
根据实施例,接收数字图像包括组织样品的数字图像,该组织样品的数字图像的像素强度值与生物标志物特异性染色剂的量相关。生物标志物特异性染色剂是适于对组织样品中包含的生物标志物选择性染色的染色剂。例如,生物标志物可为特定蛋白质,诸如HER-2、p53、CD3、CD8等。生物标志物特异性染色剂可为与选择性结合上述生物标志物的抗体偶联的明视野显微镜或荧光显微镜染色剂。
例如,每包块可代表对特定药物的应答已知的相应患者。该患者专用包中包含的实例是从该特定患者的相应组织样品导出的一个或多个图像的块。一个或多个组织样品已用一种或多种生物标志物特异性染色剂染色。例如,块可从一个、两个或三个组织图像导出,所有组织图像都描绘了同一患者的相邻组织载玻片已用HER2-特异性染色剂染色。根据另一示例,块可从描绘已用HER2-特异性染色剂染色的第一组织样品的第一组织图像导出,并且从描绘已用p53特异性染色剂染色的第二组织样品的第二组织图像导出,以及从描绘已用FAP-特异性染色剂染色的第三组织样品的第三组织图像导出。第一、第二和第三组织样品从同一患者导出。例如,它们可为相邻的组织样品切片。尽管所述三个组织图像描绘了三个不同的生物标志物,但所有组织图像从同一患者导出,且因此由此衍生的所有块已分配标签“患者对药物D有应答=真”。
基于像素强度值与生物标志物特异性染色剂的量相关的数字图像的图像块训练MIL程序可能具有以下优势:识别组织中一种或多种特定生物标志物的存在和位置可揭示关于特定疾病和疾病亚型的高度特异性和预后信息。预后信息可包括观察到的两种或更多种生物标志物的存在的正相关和负相关。例如,已观察到某些疾病(诸如肺癌或结肠癌)的推荐治疗方案和预后在很大程度上取决于癌症的突变签名和表达谱。有时,单独的单个标志物的表达不具有预测能力,但多个生物标志物的组合表达和/或特定的另外的生物标志物的缺失可能具有相对于特定患者相关属性值的高预测能力。
根据实施例,接收数字图像包括该组织样品的像素强度值与第一生物标志物特异性染色剂的量相关的组织样品的数字图像的组合和该组织样品的像素强度值与非生物标志物特异性染色剂的量相关的组织样品的数字图像的组合。生物标志物特异性染色剂是适于对组织样品中包含的生物标志物选择性染色的染色剂。描绘同一组织样品和/或描绘来自同一患者的相邻组织样品的所有数字图像已分配相同的标签。MIL配置为将从所述数字图像导出的所有块处理为同块包的成员。
这种方法的优势在于,结合由H&E染色揭示的富含信息的组织签名,识别组织中一种或多种特定生物标志物的存在和位置,可提供关于特定疾病和疾病亚型的高度特异性和预后信息。预后信息可包括观察到的两种或更多种生物标志物的存在的正相关和负相关和/或通过H&E染色在视觉上揭示的组织签名。
根据实施例,图像块报告库中显示的图像块从接收到的图像中的一个或多个不同图像导出。方法包括,针对报告块库中描绘的一个或多个图像中的每一个:
-识别报告库中的块中的一个块,所述一个块已从所述图像导出并且已分配从所述图像的导出的所有块的最高分;根据一个实施例,该得分是由MIL针对每个块计算出的数值;根据替代性实施例,该得分是通过如本文针对本发明的实施例所述的注意力-MLL针对每个块计算出的权重;根据更进一步的实施例,该得分是由MIL计算出的所述数值和由注意力MLL针对所述块计算出的所述权重的组合,由此该组合可以是,例如,数值与权重的乘法;
-针对图像的另外一些块中的每一个,通过将另一个块的得分与具有最高得分的块的得分进行比较来计算相关度指标;相关度指标是与另一个块的得分和具有最高得分的块的得分的差异负相关的数值;
-作为相关度指标针的函数计算图像的相关度热图;因此,相关度热图的像素颜色和/或像素强度指示针对所述图像中的块计算出的相关度指标;以及
-显示所述相关度热图。例如,相关度热图可显示为在报告块库中,在空间上接近计算相关度热图的整个载玻片图像。
例如,具有与图像的最高分块的得分高度相似的得分的图像区域和相应块可在相关度热图中用第一颜色(例如“红色”)或高强度值来指示,并且其得分与该图像的块的最高分相异的图像区域和相应块可在相关度热图中用不同于第一颜色的第二颜色(例如“蓝色”)或低强度值来表示。
这可能是有利的,因为GUI自动计算并呈现相关度热图,该相关度热图指示具有高预测能力(或“预后值”)的组织区域和相应图像块的位置和覆盖范围。相关度热图可突出显示具有高相关度指标的组织区域。块通常只是整个载玻片图像的一个小的子区域,且此类报告块库可能无法提供整个组织样品的概览。关于具有高预测相关度的组织模式的位置和覆盖范围的概览信息可由优选以高度直观和智能的方式与整个载玻片组织图像的原始图像组合的相关度热图提供。
基于MIL的数值计算相关度热图可具有以下优势:可能不需要实施和训练注意力MLL。因此,系统架构可更容易实现。
基于注意力MLL计算出的权重计算相关度热图可能具有以下优势:除了MIL的数值之外,用于块预后相关度的第二个数值度量在相关度热图中评估和表示。
基于从由MIL计算出的数值和由注意力MLL针对特定块计算出的权重导出的组合相关度得分来计算相关度热图可能具有以下优势:两个独立计算出的块预测相关度数值度量集成在组合值和基于组合值的相关度热图中并由其表示。这可增加相关组织切片识别的准确性。
根据实施例,GUI使用户能够选择相关度热图是基于MIL的数值或基于注意力MLL的权重或基于组合得分计算出的。这可以允许用户识别关于块的预测能力的MIL的和注意力MLL的输出是否显著不同。
计算和显示相关度热图可能是有利的,因为该热图指示关于用于训练MIL和/或注意力MLL的端点的块的预测能力。因此,向用户显示相关度热图使用户能够快速识别具有可预测整个载玻片图像内的特定标签的组织模式的块的位置和覆盖范围。
根据实施例,报告库中显示的图像块是可选择的。GUI经配置为计算和显示相似性搜索块库,该计算包括:
-接收用户对报告库图像块中的特定块的选择;
-通过识别从所有接收到的图像获得的已分配了特征向量的所有块来识别从所有接收到的图像获得的描绘与所选择块相似的组织模式的所有块,所述特征向量与所选择块的特征向量的相似性超过阈值;以及
-显示相似性搜索库,相似性搜索库选择性地包括所述识别的块。
根据实施例,相似性搜索块库的计算和显示进一步包括:
-确定所述块内的块的数量和/或分数,所述块描绘了与所选块相似的组织模式,该所选块已分配与所选块相同的标签;以及
-在相似性搜索库中显示确定的数量和/或分数。
这些特征可能是有利的,因为人类用户能够快速确定特定组织模式在被检查的患者组中以及在具有特定标签的患者的子集中有多常见。因此,人类用户能够快速且直观地验证特定块和其中描绘的组织模式是否真正具有高预测能力。
例如,用户可以选择报告库的块中的一个,该报告库已分配最高数值且因此关于图像标签的最高预测能力。在选择了块之后,用户可以发起跨块和许多不同患者的图像的基于块的相似性搜索,这些患者可已分配与当前选择的块不同的标签。相似性搜索基于特征向量和块的比较,用于确定基于相似特征矢量的相似块和相似组织模式。通过评估并显示与所选块(及其组织模式)相似但具有与所选块的标签不同的标签(例如“患者对药物D有应答=假”而不是“患者对药物D有应答=真”)的块(及相应组织模式)的数量和/或分数。
因此,病理学家可以通过选择由MIL程序返回的称为“高度预后”的块来轻松检查由MIL程序识别的组织模式的预测能力,特别是敏感性和特异性,以执行相似性搜索,揭示数据集中多少具有相似特征向量的块已分配与所选块相同的标签。与最新的机器学习应用程序相比,这是一个巨大的优势,机器学习应用程序也可提供组织图像预后特征的指示,但我们不允许用户识别和验证这些特征。基于报告库和相似性搜索库,人类用户可以验证所提出的高预后组织模式,并且还可以用语言表述在所有具有高预测能力的块中显示并与相似特征向量相关联的共同特征和结构。
报告库中的块是可选的并且选择触发执行相似性搜索以识别和显示具有与用户选择的块相似的特征向量/组织模式的其他块的特征可使用户能够自由选择他或她感兴趣的报告块库中的任何图像。例如,病理学家可能对如上所述的具有最高预测能力(由MIL计算出的最高数值)的组织模式和相应块感兴趣。替代性地,病理学家可对通常具有特别低的预测能力(特别低的数值)的伪影感兴趣。另外替代性地,病理学家可以出于任何其他原因对特定组织模式感兴趣,例如,因为它揭示了药物的一些副作用或任何其他相关的生物医学信息。病理学家可自由选择相应报告块库中的任何一个块。从而,病理学家触发相似性搜索以及以相似性块库的形式计算和显示结果。完成相似性搜索后,可以自动刷新显示和GUI。
根据一些实施例,相似性搜索库的计算和显示包括相似性热图的计算和显示。热图以颜色和/或像素强度对相似块和相应特征向量进行编码。具有相似特征向量的图像区域和块在热图中以相似颜色和/或高或低像素强度表示。因此,用户可快速获得整个载玻片图像中特定组织模式签名的分布的概览。只需选择不同的块即可轻松刷新热图,因为该选择会根据新选择的块的特征向量自动诱导特征向量相似性的重新计算。
根据实施例,相似性搜索库包括相似性热图。该方法包括通过子方法创建相似性热图,该子方法包括:
-选择报告库中的一个块;
-针对一些或所有接收到的图像的其他块中的每一个,通过将从同一图像和其他图像导出的其他块的特征向量与所选块的特征向量进行比较来计算关于所选块的相似性得分;
-针对块用于计算相应的相似性得分的图像中的每一个,计算作为相似性得分的函数的相应的相似性热图,相似性热图的像素颜色和/或像素强度指示所述图像中的块与所选块的相似性;以及
-显示相似性热图。
根据实施例,相似性搜索库中显示的图像块也是可选择的。
相似性热图可以提供有价值的概览信息,该信息允许人类用户轻松感知目标特定组织模式在特定组织中或在具有特定标签的患者亚群的组织样品中出现的广泛程度。用户可以自由选择搜索库中的任意块,从而分别诱导基于分配给当前所选块的特征向量重新计算相似性热图,以及自动刷新包含相似性热图的GUI。
根据实施例,报告库和/或相似性搜索块库中的图像块基于从患者组织样品图像导出的块进行分组。根据替代实施例,报告库和/或相似性搜索块库中的图像块基于分配给从中导出块的图像的标签进行分组。
通常,从同一患者导出的所有图像将具有相同的标签,并且来自特定患者的那些图像的所有块将被MIL处理为同一“包”的成员。但是,在某些特殊情况下,可能是同一患者的不同图像分配了不同的标签。例如,如果第一图像描绘了患者的第一转移,且第二图像描绘了同一患者的第二转移,并且观察结果是第一转移对药物D的治疗作出应答而消失,而第二转移继续生长,则患者相关属性值可按图像方式进行分配,而不是按患者方式进行分配。在这种情况下,每个患者可能会有多包块。
根据另一示例,在用特定药物治疗之前和之后拍摄的患者组织样品的图像以及用于训练MIL和/或应用经训练的MIL的终点(标签)是属性值“组织状态=用药物D治疗后”或属性值“组织状态=用药物D治疗前”。基于所述患者相关属性值训练MIL可具有识别组织模式的优势,该模式指示药物对肿瘤的活性和形态学影响。这种确定的与药物效应相关的组织模式可以验证和探索药物的作用方式以及潜在的药物副作用。
根据实施例,该方法进一步包括:通过创建额外的块集以计算方式增加块包的数量,每个额外的块集被MIL程序处理为额外的块包,该块包分配了与生成源块的组织图像相同的标签。额外的块集的创建特别地包括:对至少块的子集应用一个或多个伪影生成算法以创建包括伪影的新块。此外,或替代性地,额外的块包的创建可包括提高或降低至少块的子集的分辨率以创建比它们相应的源块粒度更细或粒度更粗的新块。
例如,可以通过随机选择从所述患者获得的一个或多个组织图像的一些或所有块为患者中的每一个获得子集。伪影生成算法模拟图像伪影。图像伪影可以是,例如,在组织制备、染色和/或图像采集期间产生的伪影类型(例如边缘伪影、过度染色、染色不足、灰尘、斑点伪影(通过高斯模糊等进行模拟)。此外,或替代性地,伪影可以是通用噪声类型(例如通过遮挡、颜色抖动、高斯噪声、椒盐噪声、旋转、翻转、歪斜失真等进行模拟)。
额外的块包的创建可能具有从有限的可用训练数据集生成额外的训练数据的优势。额外的训练数据代表图像数据,该图像数据的质量可能会因经常发生在样品制备和图像采集的情况下的常见的失真、伪影和噪声而降低。因此,扩大的训练数据集可确保避免训练期间MIL程序基础模型的过度拟合。
根据实施例,该方法进一步包括计算从一个或多个接收数字图像获得的块群集,其中块基于它们的特征向量的相似性被分组到群集中。优选地,针对患者中的每一个计算群集。这意味着如果块的特征向量足够相似,则来自描绘同一患者的不同组织载玻片的不同图像的块可分组到同一群集中。
根据其他实施例,针对源自所有患者的所有块一起计算群集。
在这两种聚集块的方法中(不同患者的所有块在一起或每个患者的所有块),看起来彼此相似(即具有相似特征向量)的块被聚集到同一群集中。
例如,在“不同患者聚集的所有块”的情况下,聚集的结果可能是生成例如64组(群集)块用于所有患者的所有块。64个群集中的每一个都包含从不同患者导出的相似块。相反,在每个患者聚集的情况下,每个患者将拥有自己的64个群集。
如果为每个患者创建群集,则可能是患者图像没有包含脂肪的块或包含脂肪的块非常少。在这种情况下,可能不会创建“脂肪群集”,因为没有足够的数据来学习围绕“脂肪”特征向量的群集。但是对所有患者的所有块一起执行聚集方法可具有以下优势:可使用最大数量的可用数据识别更多的群集/组织类型:在“所有患者块”聚集中,可能会识别出“脂肪”组织模式的群集,因为至少有些患者的活检中有一些脂肪细胞。因此,数据集中描绘块的脂肪细胞数量足够的概率,将创建脂肪细胞群集(也适用于脂肪细胞含量非常少的患者)。如果为所有患者的所有块在一起创建群集,并且一个群集代表脂肪细胞,则所有含有来自所有患者的脂肪细胞的块都将被分组到该群集中。这意味着针对专用的患者/包,所有带有脂肪细胞的块都将在所述群集中进行分组,并且如果群集采样用于包,则选择属于所述群集的一定数量的块(来自当前患者/包)。
块的聚集可能是有利的,因为该操作可揭示在特定患者中可观察到的组织模式的数量和/或类型。根据一些实施例,GUI包括用户可选择的元素,该元素使用户能够在聚集库视图中触发块的聚集以及块群集的呈现。这可以帮助用户直观且快速地理解在患者的特定组织样品中观察到的重要类型的组织模式。
根据实施例,MIL程序的训练包括对块集进行重复地采样以便从块集中挑选块的子集,并基于块的子集训练MIL程序。
本文使用的术语“采样”是在数据分析或训练机器学习算法的情况下使用的技术,该技术包括从数据集(从患者的一个或多个图像中获得的块的总体)中的多个N数据项(实例、块)中挑选特定数量的L样品。根据实施例,“采样”包括根据假定在统计学上表示训练数据集中的N块的总体的概率分布,从N数据项的数量内选择数据项的子集。这可以允许更准确地了解整个人群的特征。概率分布代表了指导机器学习过程并使“从数据中学习”可行的统计假设。
根据一些实施例,通过随机选择块的子集以提供采样的块包来执行采样。
根据实施例,聚集和采样组合如下:采样包括从针对患者获得的块群集中的每一个选择块,使得在采样中创建的块的每个子集中的块数量对应于取自所述块的群集的大小。
例如,可以从特定患者的数字组织图像创建1000个块。聚集创建了显示包括300个块的背景组织载玻片区域的第一群集,显示包括400个块的基质组织区域的第二群集,显示包括200个块的转移性肿瘤组织的第三群集,显示包括40个块的特定染色伪影的第四群集,显示包括60个块的具有微血管的组织的第五群集。
根据一个实施例,采样包括从群集中的每一个选择特定部分的块,例如50%。这将意味着来自群集1的150个块、来自群集2的200个块、来自群集3的100个块、来自群集4的20个块和来自群集5的30个块。
根据优选实施例,采样包括从每个群集中选择相等数量的块。这种采样方法可具有以下优势:从不同类型的聚集中抽取相同数量的块/组织模式示例,从而使训练数据集更加平衡。如果期望的预测特征在训练数据集中很少见,这可增加经训练的MIL和/或经训练的注意力MLL的准确性。
聚集和采样的组合可能是特别有利的,因为可以通过采样增加用于训练的数据基础,而不会无意中“丢失”实际上具有高预测能力的少数块。通常在数字病理学的背景下,组织样品的绝大多数区域不包括由特定疾病或其他患者相关属性修改或预后的组织区域。例如,组织样品的仅一个小的子区域可能实际上包含肿瘤细胞,其余部分可能显示正常组织。通过首先执行块聚集且然后从群集中的每一个选择块可确保显示预后组织模式的至少一些块,例如,确保肿瘤细胞或微血管始终是样品的一部分。
特征提取方法
根据实施例,针对块中的每一个的特征向量的计算包括接收块中描绘了其组织样品的患者的患者相关数据,以及以特征向量中的一个或多个特征的形式表示患者相关数据,患者相关数据特别选自包括以下项的组:基因组数据、RNA序列数据、患者的已知疾病、年龄、性别、体液中的代谢物浓度、健康参数和当前用药。
根据实施例,特征向量的计算由经训练的机器学习逻辑执行,特别是由包括至少一个瓶颈层的经训练的全卷积神经网络执行。
根据实施例,用于特征提取(“特征提取MLL”)的经训练的机器学习逻辑通过采用包括瓶颈的全卷积网络类型的MLL(如UNET)在监督方法中接受训练。“Unet”架构由OlafRonneberger、Philipp Fischer和Thomas Brox在“U-Net:用于生物医学图像分割的卷积网络”中描述,德国弗莱堡大学计算机科学系及BIOSS生物信号研究中心(arXiv:1505.04597v1,2015年5月18日)。该文件可通过康奈尔大学图书馆https://arxiv.org/abs/1505.04597下载。
例如,可训练特征提取MLL来执行组织图像分割任务,由此待识别的片段包括两个或更多个以下组织图像片段类型:肿瘤组织、健康组织、坏死组织、包括特定对象的组织,诸如如肿瘤细胞、血管、基质、淋巴细胞等以及背景区域。根据一些实施例,使用分类网络(诸如Resnet、ImageNet或SegNet)以监督的方式训练特征提取MLL,通过训练它对具有特定预定类别或对象的图像块进行分类。
在特征提取MLL经训练后,MLL被拆分成“编码器”部分(包括输入层、一个或多个中间层和瓶颈层)和“解码器”,即输出生成部分。根据本发明的实施例,使用“编码器”部分达到经训练的MLL的瓶颈层来提取和计算每个输入块的特征向量。瓶颈层是神经网络的一层,该瓶颈层包含明显少于输入层的神经元。例如,瓶颈层可以是包含小于输入层的60%或甚至小于20%的“神经元”的层。根据不同的网络架构,不同层中神经元的数量和比例可能会有很大差异。瓶颈层是一个隐藏层。
根据一个示例,特征提取MLL的网络具有基于UNET的网络架构。它有一个具有512*512*3(512x512 RGB)个神经元的输入层和具有9*9*128个神经元的瓶颈层。因此,瓶颈层的神经元数量约为输入层的神经元数量的1.5%。
根据一个示例,特征提取MLL的网络具有Resnet架构,该架构实现了监督式或无监督式学习算法。输入层包含512x512x3个神经元,瓶颈层和瓶颈层输出的相应特征向量通常包含1024或2048个元素(神经元/数字)。
根据实施例,特征提取由基于ImageNet自然图像数据集训练的ResNet-50(He etal.,2016)架构的特征提取程序模块执行。Pierre Courtiol,EricW中描述了一些基于此架构从图像中提取特征的详细示例。Tramel、Marc Sanselme和Gilles Wainrib:,,仅使用全球标签的组织病理学分类和疾病定位:弱监督方法”,arXiv:1802.02212,于2018年2月1日提交,可通过康奈尔大学图书馆在线获取https://arxiv.org/pdf/1802.02212.pdf。
根据实施例,将特定块的经训练的特征提取MLL其中一层生成的输出用作MIL程序从块提取的特征向量。这一层可以是,特别地,瓶颈层。根据实施例,特征提取MLL以无监督或自监督的方式训练,如Mathilde Caron和Piotr Bojanowski以及Armand Joulin和MatthijsDouze中所述:“视觉特征无监督式学习的深度聚集”,可通过https://arxiv.org/abs/1807.05520以电子方式获取CoRR,1807.05520,2018。
替代性地,可以根据Spyros Gidaris、Praveer Singh、Nikos Komodakis训练特征提取MLL:“通过预测图像旋转进行无监督表示学习”,2018年2月15日,ICLR 2018会议电子版可通过https://openreview.net/forum?id=S1v4N2l0-获取。
另外替代性地,根据Elad Hoffer,Nir Ailon可训练特征提取MLL。“通过度量嵌入进行半监督深度学习”,2016年11月4日,ICLR 2017电子版可通过https://openreview.net/forum?id=r1R5Z19le获得。
用于训练特征提取MLL的数据集可以是另一个组织图像数据集和/或稍后用于训练MIL程序的组织图像集。在训练阶段,特征提取MLL不会评估或以其他方式使用与训练图像相关联的任何标签,因为特征提取MLL经训练用于识别组织类型和相应的图像片段,而不是识别患者的患者相关属性值(用作MIL程序学习阶段的终点)。
利用基于接近性相似性标签的特征提取方法
根据实施例,特征向量由特征提取机器学习逻辑(“特征提取MLL”)计算,该逻辑已经基于包括用标签标记的块对的训练数据集训练,由此每个标签表示由块对描绘的两个组织模式的相似性,且作为块对中两个块的空间距离的函数进行计算。
根据优选实施例,每个标签表示由块对描绘的两个组织模式的相似性,并且作为块对中的两个块的空间距离的函数来计算,从而使用空间距离作为两个块的相似性的唯一度量。
根据优选实施例,标签被完全自动地分配给训练数据集中的块对。
由于多种原因,这种方法可能是有益的:两个图像区域的空间接近度是组织样品的每个数字图像中始终且固有可用的特征。问题在于图像和相应组织区域本身的空间接近度通常不会揭示相对于生物医学问题的任何相关信息,诸如组织类型分类、疾病分类、特定疾病持久性的预测或图像分割任务。申请人惊奇地观察到,两个图像区域(“块”)的空间接近度传达的信息是两个图像区域的相似性的准确指标,至少是否在MLL的训练阶段期间分析了大量块及其相应距离。因此,通过利用两个块的“空间接近度”的固有可用信息来为两个进行比较的块自动分配组织模式相似性标签,可自动提供可用于训练MLL的大型注释数据集。经训练的MLL可用于自动确定作为输入接收到的两个图像或图像块是否描绘了相似或相异的组织模式。然而,该数据集还可以用于其他且更复杂的任务,例如图像相似性搜索、图像分割、组织类型检测和组织模式聚集。因此,申请人惊奇地观察到,块的空间接近度传达的信息可用于自动创建带注释的训练数据,允许训练可靠地确定图像相似性的MLL,此外还可以训练输出特征向量的MLL,所述特征向量可由额外的数据处理单元用于数字病理学中的多个复杂图像分析任务。这些方法都不需要领域专家手动注释训练数据。
当包含许多不同组织模式(例如“非肿瘤”和“肿瘤”)的训练图像被拆分成许多不同的块时,两个块之间的距离越小,两个相比较块描绘相同组织图的概率就越高,例如“非肿瘤”。然而,在描绘不同组织模式的两个不同模式的边界旁边会有一些块对(例如,第一块“肿瘤”,另一块“非肿瘤”)。这些块对产生噪声,因为它们描绘了不同的组织模式,尽管它们在空间上彼此非常接近。申请人惊奇地观察到,由跨越不同组织模式之间的边界的块对结合简化假设(空间接近度指示所描绘的组织模式的相似性)产生的噪声不会显著降低经训练的MLL的准确性。事实上,申请人观察到根据本发明的实施例训练的MLL的准确性能够胜过现有的基准方法。
在进一步的有益方面,现在可以快速且完全自动地针对许多不同的图像集创建训练数据。目前,缺乏可用的注释数据集来捕捉组织病理学图像中的自然和实际可变性。例如,即使现有的大型数据集(如Camelyon)也只包含一种染色(苏木精和曙红)和一种癌症(乳腺癌)。在来自不同癌症类型、不同组织染色类型和不同组织类型的图像中,组织病理学图像纹理和对象形状可能会有很大差异。此外,组织病理学图像包含许多具有不同领域特定含义的不同纹理和对象类型(例如基质、肿瘤浸润淋巴细胞、血管、脂肪、健康组织、坏死等)。因此,本发明的实施例可以允许针对多种不同癌症类型、癌症亚型、染色方法和患者组(例如治疗/未治疗、男性/女性、比阈值年龄年长/年幼、生物标志物阳性/生物标志物阴性等)中的每一个自动创建注释数据集。因此,本发明的实施例可允许自动创建注释训练数据并基于训练数据训练相应的MLL,使得经训练的MLL适于以高度特定的方式准确解决多个不同患者组中的每一个的生物医学问题。与基于手动注释的乳腺癌数据集训练的MLL针对结肠癌患者提供次优结果的现有技术方法相反,本发明的实施例可允许分别针对不同患者组中的每一个创建MLL。
根据实施例,指示两个组织模式的相似性程度的标签是二进制数据值,即可以具有两个可能选项中的一个的值。例如,标签可以是“1”或“相似”,并且指示两个块描绘相似的组织模式。替代性地,标签可以是“0”或“相异”,并且指示两个块描绘不同的组织模式。根据其他实施例,标签可为更细粒度,例如,可以是从三个或更多数据值的有限集合中选择的数据值,例如“相异”、“相似”和“高度相似”。根据另一些实施例,标签可为更细粒度并且可为数值,其中数值的量与相似性程度呈正相关。例如,可以将数值计算为将成对的两个块之间的空间距离线性和逆变换为表示组织模式相似性的数值的函数。空间距离越大,指示组织模式相似性的数值越小。存在多种MLL架构,可以处理和使用训练数据集中不同类型的标签(例如序数或数值)。选择MLL的类型,使其能够处理训练数据集的自动创建的标签。
根据实施例,基于自动注释的训练数据集训练并且将用于特征提取的MLL适于根据监督式学习算法进行学习。监督式学习是关于找到将一组输入特征转换为一个或多个输出数据值的映射。输出数据值在训练期间作为标签提供,例如作为二元期权标签“相似”或“相异”或作为相似性定量度量的数值。换句话说,在训练过程中,将要预测的数据值以训练数据标签的形式明确提供给MLL的模型。监督式学习带来的问题是需要用标签标记训练数据,以便为每个样品定义输出空间。
根据实施例,至少一些或所有块对分别描绘包含在同一组织切片中的两个组织区域。组织切片中的每一个在接收数字图像中的相应一个中描绘。块之间的距离是在2D坐标系内计算的,该坐标系由接收到的从中导出该对中的块数字图像的x和y维度定义。
根据实施例,通过在多个不同图像的每一个内随机选择块对来生成块对。基于随机选择确保每对中的块之间的空间距离会有所不同。对相似性标签,例如以与两个块之间的距离成反比的数值形式进行计算并分配给每对。
根据其他实施例,通过选择每个接收到的图像的至少一些或所有块作为起始块来生成块对;针对每个起始块,选择所有或预定义数量的“附近块”,其中“附近块”是以起始块为中心的第一圆内的块,由此该圆的半径与第一空间接近度阈值相同;针对每个起始块,选择全部或预定义数量的“远处块”,其中“远处块”是在以起始块为中心的第二圆之外的块,其中所述圆的半径与第二空间度接近阈值相同;可以通过在相应图像区域内随机选择该数量的块来执行预定义数量的选择。第一接近阈值和第二接近阈值可以相同,但优选地,第二接近阈值大于第一接近阈值。例如,第一接近阈值可以是1mm并且第二接近阈值可以是10mm。然后,选择第一块对集,由此每个块对包括起始块和位于第一圆内的附近块。第一集中的每个块对都分配了“相似”组织模式的标签。此外,选择第二块对集,由此所述集中的每一对包括起始块和“远处块”之一。第二集中的每个块对都分配了“相异”组织模式的标签。例如,该实施例可用于创建“相似”或“相异”的“二进制”标签。
根据实施例,在从中导出块的数字图像的x轴和y轴定义的2D坐标系内测量块之间的距离。这些实施例可用于以下情况:其中多个组织样品图像可用,所述多个组织样品图像描绘不同患者和/或同一患者内的不同区域的组织样品,由此所述不同区域彼此远离或由此精确位置所述两个区域相对于彼此是未知的。在这种情况下,块之间的空间接近度仅在由数字图像定义的2D像素平面内测量。基于图像采集设备(例如显微镜的相机或载玻片扫描仪)的已知分辨率因子,原始图像的块之间的距离可用于计算由两个块描绘的组织样品中的组织区域之间的距离。
根据实施例,至少一些或所有块对描绘一堆相邻组织切片的两个不同组织切片中包含的两个组织区域。组织切片中的每一个在接收数字图像中的相应一个中描绘。接收到的图像(该图像描绘一堆相邻组织切片的组织切片)在3D坐标系中彼此对齐。块之间的距离是在3D坐标系内计算的。
例如,一些或所有接收到的数字图像可描绘相邻组织切片的组织块内的切片的组织样品。在这种情况下,数字图像可在公共3D坐标系中彼此对齐,使得数字图像在3D坐标系中的位置再现组织块内分别描绘的组织切片的位置。这可以允许确定3D坐标系中的块距离。“附近”和“远处”块的选择可以如上文所描述的针对2D坐标系情况执行,唯一的区别在于至少一些块对中的块是从接收到的图像中的不同图像导出的。
根据一些实施例,带注释的训练数据包括从相同数字图像导出的块对以及从已在公共3D坐标系中彼此对齐的不同图像导出的块对。这可能是有益的,因为在只有少量相应组织样品的图像可用的情况下,考虑第三维(代表不同组织样品中组织区域的块的空间接近度)可能会极大地增加训练数据中的块数量,由此组织样品属于同一个细胞块,例如3D活检细胞块。
根据实施例,每个块描绘具有小于0.5mm,优选地小于0.3mm的最大边缘长度的组织或背景区域。
小块尺寸可具有以下优点:描述不同组织模式的混合物的块的数量和面积分数减少。这可以帮助减少由描绘两个或更多个不同组织模式的块和由描绘两个不同组织模式的“组织模式边界”旁边的块对产生的噪声。此外,小块尺寸可以允许生成和用标签标记大量块对,从而增加用标签标记的训练数据的量。
根据实施例,块对的自动生成包括:使用第一空间接近度阈值生成第一块对集;由第一集中的每个块对的两个块描绘的两个组织区域由小于第一空间接近阈值的距离彼此分开;使用第二空间接近度阈值生成第二块对集;由第二集中的每个块对的两个块描绘的两个组织区域由大于第二空间阈值的距离彼此分开。例如,这可以通过选择多个起始块、基于每个起始块周围的第一空间接近度阈值和第二空间接近度阈值计算第一圆和第二圆并选择包括起始块和“附近块”(第一集)或“远处块”(第二集),如上文针对本发明的实施例所述。
根据实施例,第一空间接近度阈值和第二空间接近度阈值是相同的,例如1mm。
根据优选实施例,第二空间接近度阈值比第一空间接近度阈值至少大2mm。这可能是有利的,因为在组织模式从一种模式逐渐变为另一种模式的情况下,“远处块”中描绘的组织模式与“附近”块中描绘的组织模式之间的差异可更清楚并且学习效果可得到提高。
根据实施例,第一空间接近度阈值是小于2mm、优选小于1.5mm、特别是1.0mm的距离。
此外或替代性地,第二空间接近度阈值是大于4mm、优选大于8mm、特别是10.0mm的距离。
这些距离阈值指的是数字图像中描绘的组织区域(或切片背景区域)与相应块的距离。基于图像采集设备的已知放大倍数和数字图像的分辨率,该距离可在数字图像的2D或3D坐标系内转换。
例如,可以测量块(以及其中描绘的组织区域)之间的距离,例如2d或3D坐标系中两个块的中心之间。根据替代性实施变型,在2D或3D坐标系中彼此最靠近的两个块边缘(图像区域边缘)之间测量距离。
已经观察到上述阈值可提供用标签标记的训练数据,该数据允许自动生成经训练的MLL,该经训练的MLL能够准确识别乳腺癌患者的相似和相异的组织模式。在一些其他实施示例中,第一空间接近度阈值和第二空间接近度阈值可以具有其他值。特别是在使用显示不同组织类型或癌症类型的不同接收数字图像集的情况下,第一空间接近度阈值和第二空间接近度阈值可具有不同于以上所提供的距离阈值的其他值。
根据实施例,该方法进一步包括创建用于训练特征提取MLL的训练数据集。该方法包括接收多个数字训练图像,每个图像描绘一个组织样品;将接收到的训练图像中的每一个拆分成多个块(“特征提取训练块”);自动生成块对,每个块对已分配一个标签,该标签指示在该对的两个块中描绘的两个组织模式的相似性程度,其中相似性程度作为该对中的两个块的空间接近度的函数进行计算,其中距离与相异性正相关;训练机器学习逻辑–MLL–使用用标签标记的块对作为训练数据来生成经训练的MLL,经训练的MLL已学会从数字组织图像中提取特征向量,所述数字组织图像以相似的图像具有相似的特征向量并且相异的图像具有相异的特征向量的方式表示图像;并且使用所述经训练的MLL或其分量作为用于计算块的特征向量的特征提取MLL。
这种方法可能是有益的,因为可以根据每个数字病理图像中包含的固有的信息自动创建训练数据集的标签,可以创建带注释的数据集,用于训练特征提取MLL,该特征提取MLL特别适于当前解决的生物医学问题,只需选择相应的训练图像。所有进一步的步骤,如拆分、标记和机器学习步骤,都可以全自动或半自动执行。
根据实施例,经训练的MLL是孪生神经网络,包括通过它们的输出层连接的两个神经元子网络。经训练的孪生神经网络的子网络中的一个单独存储在存储介质上,并用作经训练的MLL的分量,该MLL用于计算特征向量。
由MIL程序处理的标签根据实施例,标签选自包括以下项的组:患者对特定药物有应答的指示;患者已发展出转移或特定形式的转移(例如微转移)的指示;癌症患者对特定治疗显示出病理学完全缓解(pCR)的指示;患者患有具有特定形态学状态或微卫星状态的癌症的指示;患者已对特定药物发展出不良反应的指示;遗传特征,特别是基因签名;和/或RNA表达谱。
这些标签可能有助于诊断以及寻找治疗疾病的合适药物。然而,上述标签仅是示例。其他患者相关属性也可用作标签(即训练MIL程序的端点),如上所述。术语“患者相关”还可以包括治疗相关,因为疾病的特定治疗的有效性也与接受治疗的患者有关。
MIL程序和注意力MLL的组合
根据本发明的实施例,MIL程序与基于注意力的MLL相结合,用于计算指示特定块相对于分配从中导出块的图像的标签的预测能力的数值。例如,可以在训练MIL程序时执行组合,如针对图6中描绘的方法和相应系统的实施例所述。根据另一个示例,可以在训练MIL程序时执行组合,如针对图7中描绘的方法和相应系统的实施例所述。
根据实施例,注意力MLL是机器学习逻辑,该机器学习逻辑适于计算权重,该权重指示块的特征向量相对于分配从中导出块的图像的标签的预测能力,并且该权重可作为MIL的输入提供或可与MIL输出的数值组合。
根据实施例,MIL程序和注意力MLL程序都学习识别特征向量和相应块(因此,其中描绘的组织模式)具有相对于患者相关属性值的预测能力。注意力MLL程序可以作为一部分来实现,例如MIL程序的一个子模块。
根据一些实施例,注意力MLL程序实现置换不变变换运算,MIL程序使用该运算来聚合相对于在包中的块的所有特征向量中编码的包的标签的预测能力。这种置换不变变换针对基于所有块的包生成单个聚合数值。根据实施例,聚合数值与实际分配给包的标签的差异也被认为是在反向传播期间将被最小化的MIL程序的“损失”形式。置换不变变换运算在训练阶段由MIL使用,而且在测试阶段也由过训练的MIL程序使用。
置换不变变换运算可允许指出在训练阶段如何考虑在包的所有块中编码的信息。
根据实施例,置换不变变换运算是最大运算。这可能是有益的,因为在训练MIL时生成的预测模型强烈反映了块中描述的组织模式,该块具有相对于包的标签具有最高预测能力的特征向量。该模型不受与标签无关的组织区域/块的负面影响。但是,最大运算将忽略除最高得分的块之外的所有块中包含的所有信息。因此,可能会错过也可能相关的块/组织模式的预测能力。
根据实施例,置换不变变换运算是平均运算,例如数值的算术平均值或中位数表示每个单独特征向量相对于特定标签的预测能力。这可能是有益的,因为在训练MIL时生成的预测模型考虑了所有块中描绘的组织模式。然而,考虑与特定标签的出现实际上无关的组织模式和相应块可能导致经训练的MIL的预测准确性的恶化和降低。
根据实施例,MIL程序的置换不变变换运算是AVERAGE或MEDIAN运算。
根据一个实施例,置换不变变换运算是平均运算,例如数值的算术平均值或中位数表示每个单独特征向量相对于特定标签的预测能力,并且注意力MLL用于计算块中的每一个的权重。针对特定块和相应特征向量计算出的权重表示MIL将在训练阶段针对该块绘制的“注意力”。
“平均”置换不变变换运算与针对计算特定块的权重配置的注意力MLL的组合可能具有以下优点:AVERAGE运算所提供的益处(考虑到在所有块中传达的信息)可以在不接受此运算的缺点(不相关的组织模式对MIL程序预测模型训练的影响)的情况下使用。这可以允许提高经训练的MIL程序的预测模型的准确性:通过从分配更高权重的块中选择性地/主要地学习,在学习过程中平衡不重要的块。
结合如本文中针对本发明的实施例所描述的注意力MLL程序和MIL程序可具有以下优点:注意力MLL程序(特别是当实现除MAX运算之外的置换不变变换运算时,例如AVERAGE或MEDIAN运算)允许MIL程序在每次迭代中从多个实例(块)中学习,例如,与MAX运算的示例相反,MAX运算是一种在每次迭代中仅选择所有包的一个实例进行学习的稀疏方法。通常,不优选使用AVERAGE或MEDIAN运算,因为该运算可能会导致由MIL程序学习的模型的劣化,这是由没有预测能力的块的特征向量造成的。然而,如果基于注意力MLL的独立估计,这些块的特征向量已分配低的权重,则MIL程序的训练过程可能会受益于使用AVERAGE或MEDIAN而不是MAXIMUM运算作为置换不变变换。
例如,在训练MIL程序时使用注意力MLL可以按照Maximilian Ilse、JakubM.Tomczak、Max Welling中的描述执行:“基于注意力的深度多实例学习”,2018年2月,可通过https://arxiv.org/abs/1802.04712以电子方式获得。
根据实施例,GUI被配置为创建并呈现由注意力MLL程序针对从特定数字图像导出的所有块计算出的权重的热图。权重被归一化,例如到0-1的范围内,然后块的归一化权重进行颜色编码。块的权重越相似,基于注意力MLL的热图的颜色就越相似。
提供加权数值的注意力MLL程序
根据实施例(参见例如图6),该方法包括针对块中的每一个计算以加权数值的形式指示与块相关联的特征向量的预测能力的数值。块的每个加权数值被计算为由注意力MLL针对所述块计算出的权重的和由MIL针对所述块计算出的数值的函数。特别地,加权数值可以通过将由注意力MLL计算出的权重乘以相应块的数值来计算。
提供加权特征向量的注意力MLL程序
根据实施例,该方法包括针对块中的每一个计算加权特征向量形式的特征向量。加权特征向量被计算为由注意力MLL针对所述块计算出的权重的和由特征提取程序针对所述块计算出的特征向量的函数。特别是,注意力MLL针对特定块所提供的权重可乘以该块的特征向量。
根据另一实施例,实施MIL的训练使得由MIL针对相对于特定标签的特定块而输出的且指示相对于所述包(图像的)标签的块的预测能力的数值乘以由注意力MLL针对该块计算的权重。在反向传播过程中,权重会影响MIL的预测模型的适应性。特定特征向量对训练期间学习的MIL的预测模型的影响与由注意力MLL针对特定块计算出的权重呈正相关。
根据一个实施例,实施MIL的训练使得注意力MLL所提供的权重与特征向量一起提供作为MIL程序的输入。实施MIL的训练,使得MIL从特征向量具有较高权重的块中学到的比从特征向量具有较低权重的块中学到较多。换句话说,块及其特征向量对训练期间学习的MIL的预测模型的影响与由注意力MLL针对特定块计算出的权重呈正相关。
使用注意力MLL来计算每个特征向量的权重可能是有利的,因为MIL将从具有高预测潜力的少数块中学到较多,而从显示不相关组织切片的大多数块中学到的较少。结果,经训练的MIL程序的准确性增加。
进一步的实施例
根据实施例,该方法进一步包括:
-针对另外一组患者中的每个患者,通过所述图像分析系统接收所述患者的组织样品的至少一个另外的数字图像,每个另外的图像已分配了所述预定义标签中的一个;
-通过所述图像分析系统,将每个接收到的另外的图像拆分成另外的图像块集,每个块已分配了分配给用于创建另外的块的图像的标签;
-针对所述另外的块中的每一个块,通过所述图像分析系统计算另外的特征向量,所述另外的特征向量包含从所述另外的块并从其中描绘的组织模式选择性地提取的图像特征;
-在针对所述另外的组中的所有患者接收到的所有另外的图像的所述另外的块和相应的另外的特征向量上应用经训练的多实例学习(MIL)程序,以便针对所述另外的块中的每一个块,计算指示从中导出所述另外的块的图像已分配了特定标签的可能性的数值,所述数值作为学习到的所述另外的块的所述特征向量的非线性变换函数进行计算;以及
-经由图像分析系统的GUI,输出另外的图像块报告库,所述另外的报告库包含多个另外的块,所述块根据它们的相应计算出的数值进行排序和/或包含它们的相应数值的图形表示。
这可能是有利的,因为经训练的MIL程序可以容易地应用于新的图像数据,从而简化相对于目标患者相关属性的新图像的分析和解释,例如通过自动呈现报告库,选择性地呈现新图像的块中,由经训练的MIL程序识别为相对于这种患者相关属性具有高预测能力的块。
根据实施例,MIL程序在训练阶段学习以将特征向量转换为可以表示特定标签的概率的值。标签可以代表一个类别(例如对特定药物D治疗有应答的患者)或数字终点值(例如指示应答程度的数字或百分比值)。这种学习可以在数学上描述为非线性变换函数的学习,该函数将特征值转换为训练期间所提供的标签之一。根据一些实施例,在测试时,一些小的结构改变被应用于经训练的MIL程序(诸如禁用Dropout层等)并且不发生测试数据的采样。在测试时应用经训练的MIL程序的主要变化是,MIL程序分析测试数据包中的所有实例(块),以计算最终数值,该数值指示块中的每一个以及在训练阶段所提供的多个标签的预测能力。最后,通过聚合为多个标签的图像的块计算出的数值,针对整个图像或特定患者计算最终数值。将经训练的MIL程序应用于患者的一张或多张图像的最终结果是具有最高概率的标签之一(例如“患者将对药物D的治疗有应答!”)。此外,可以在报告图像块库中呈现相对于该标签具有最高预测能力的块之一,该库在结构上等同于上文针对训练阶段描述的报告图像块库。
根据实施例,该方法还包括自动选择或使用户能够选择一个或多个“高预测力块”。“高预测能力块”是其数值指示其特征向量相对于特定标签的预测能力超过高预测能力阈值的块;和/或
此外或替代性地,该方法还包括自动选择或使用户能够选择一个或多个“伪影块”。伪影块是一种块,其数值指示其特征向量相对于特定标签的预测能力低于最小预测能力阈值或描绘一个或多个伪影。
响应于对一个或多个高预测能力块和/或伪影块的选择,自动重新训练所述MIL程序,从而从训练集中排除所述高预测能力块和所述伪影块。
这些特征可能具有重新训练的MIL程序可能更准确的优点,因为在重新训练期间将不再考虑排除的伪影块。因此,通过基于不包含伪影块的训练数据集的简化版本重新训练MIL程序,可以避免和消除由训练数据集中描述伪影的块引起的学习转换中的任何偏差。
使用户能够从训练数据集中移除高预测性的块可能违反直觉,但仍然提供了重要的益处:有时,某些组织模式相对于某些标签的预测能力是不言而喻的。
例如,包含许多表达肺癌特异性生物标志物的肿瘤细胞的组织切片当然是疾病肺癌存在的重要预后标志物。然而,病理学家可能对一些不太明显的组织模式更感兴趣,例如非肿瘤细胞的存在和/或位置,例如FAP+细胞。
根据另一示例,MIL训练用于识别肺癌中吸烟诱发的组织模式,这可能具有相对于标签“患者对特定药物D的治疗表现出低应答”的预测潜力。MIL可以计算对应于包括吸烟引起的残留物的肺组织的第一组织模式的最高数值/预测能力。去除显示具有吸烟诱发残留物的组织区域的块可能会发现另一种具有中等预测能力的组织模式。在特征向量包括患者的遗传和/或生理属性值的情况下,在具有最高数值的块被“列入黑名单”之后,这些额外的特征的预测能力的影响也可能变得更加相关。这些遗传相关或生理相关的预测特征也可以反映在特定的组织模式中,因此可以允许病理学家通过检查基于不包含列入黑名单的块的训练块集重新训练MIL后生成的结果块库中的相应块来识别和理解遗传相关或生理相关的属性。
因此,当删除所有显示肿瘤细胞作为最重要预后因素的块,并基于剩余的训练数据集重新训练MIL程序时,重新训练的MIL将能够更可靠地识别不太突出但仍然重要的预后因素和组织模式。
在另一方面,本发明涉及一种用于识别指示患者相关属性值的组织模式的图像分析系统。图像分析系统包括:
-至少一个处理器;
-易失性或非易失性存储介质,包括一组患者的组织的数字组织图像,其中针对该组患者中的每个患者,该患者的组织样品的至少一个数字图像存储在该存储介质中,至少一个图像已分配至少两个不同的预定义标签中的一个,每个标签指示其组织在用标签标记的图像中描绘的患者的患者相关属性值;
-图像拆分模块,可由至少一个处理器执行并配置为将图像中的每一个拆分成图像块集,每个块已分配了分配给用于创建块的图像的标签;
-特征提取模块,可由至少一个处理器执行并且被配置成针对块中的每一个块计算特征向量,该特征向量包括从所述块中描绘的组织模式选择性地提取的图像特征;
-多实例学习(MIL)程序,可由至少一个处理器执行并且被配置成在MIL程序的训练阶段接收该组中所有患者的所有图像的所有块和各相应特征向量,MIL程序被配置成在训练阶段将每个块集处理为具有相同标签的块包,该训练包括分析特征向量以便针对块中的每一个块计算数值,该数值指示与该块相关联的特征向量相对于分配给从中导出块的图像的标签的预测能力;
-GUI生成模块,可由至少一个处理器执行并且被配置成生成并输出包含图像块报告库的GUI,报告库包含块的子集,该块的子集根据它们的相应计算出的数值进行排序和/或包括它们相应数值的图形表示;以及
-适合显示带有图像块报告库的GUI的显示器。
如本文所用,“组织样品”是可通过本发明的方法分析的细胞的3D组件。3D组件可以是离体细胞块组件的切片。例如,样品可以在从患者收集的组织中制备,例如来自癌症患者的肝脏、肺、肾脏或结肠组织样品。样品可以是显微镜载玻片上的全组织或TMA切片。制备载玻片固定组织样品的方法是本领域众所周知的并且适用于本发明。
可以使用任何试剂或生物标志物标记对组织样品进行染色,诸如直接与特定生物标志物或各种类型的细胞或细胞区室反应的染料或染色剂、组织化学物质或免疫组织化学物质。并非所有染色剂/试剂都兼容。因此,应充分考虑所用染色剂的类型及其应用顺序,但本领域技术人员可以容易地确定。此类组织化学物质可以是透射显微镜可检测的发色团或荧光显微镜可检测的荧光团。通常,可以将含有细胞的样品与包含至少一种组织化学物质的溶液一起孵育,所述组织化学物质将与靶标的化学基团直接反应或结合。一些组织化学物质通常与媒染剂或金属共同孵育以进行染色。可以将含有样品的细胞与至少一种对目标组分染色的组织化学物质和用作复染剂并结合目标组分外的区域的另一种组织化学物质的混合物一起孵育。替代性地,可以在染色中使用多种探针的混合物,并提供一种鉴定特定探针位置的方法。对含有细胞的样品进行染色的程序是本领域公知的。
如本文所用的“图像分析系统”是一种系统,例如一种计算机系统,适于评估和处理数字图像,特别是组织样品的图像,以帮助用户评估或解释图像和/或提取隐含或明确包含在图像中的生物医学信息。例如,计算机系统可以是标准的台式计算机系统或分布式计算机系统,例如云系统。通常,计算机化组织病理学图像分析将相机捕获的单通道或多通道图像作为其输入,并试图提供额外的定量信息以帮助诊断或治疗。
本发明的实施例可用于确定较大患者群中的哪个患者亚群将可能从特定药物中获益。个性化医学(PM)是一个新的医学领域,其目的是根据个人的基因组、表观基因组和蛋白质组学特征提供有效的、量身定制的治疗策略。PM不仅尝试治疗患者,还防止患者受到因无效治疗的副作用。肿瘤发展时经常发生的一些突变会引起对某些治疗的抵抗。因此,可以至少部分地通过生物标志物特异性染色的组织样品的组织图像揭示的患者的突变谱将允许经训练的MIL程序明确决定特定治疗是否对个体患者有效。目前,有必要通过试错法来确定处方药对患者是否有效。试错过程可能会产生许多副作用,诸如不希望的和复杂的药物相互作用、处方药物的频繁更换、有效药物被确定之前的长时间延迟、疾病进展等。PM是基于将个体分成亚群,这些亚群对针对其特定疾病的治疗剂的应答各不相同。例如,一些ALK激酶抑制剂是用于治疗约5%的ALK基因表达升高的NSCLC肺癌患者的有用药物。然而,一段时间后,由于ALK基因或ALK信号级联下游其他基因的突变,激酶抑制剂变得无效。.因此,肺癌患者的智能分子表征允许通过患者分层优化使用某些突变特异性药物。因此,从中获取训练图像或测试图像的“患者组”可以是诸如“100名乳腺癌患者”、100名HER+乳腺癌患者、“200名结肠癌患者”等的组。
这里使用的“数字图像”是二维图像的数字表示,通常是二进制的。通常,组织图像是光栅类型的图像,意味着该图像是分别分配了至少一个强度值的像素的光栅(“矩阵”)。一些多通道图像可能具有每个颜色通道具有一个强度值的像素。数字图像包含固定数量的像素行和列。像素是图像中最小的单独元素,保存着代表给定颜色在任何特定点的亮度的过时值。通常,像素作为光栅图像或光栅地图(小整数的二维数组)存储在计算机内存中。这些值通常以压缩形式传输或存储。可以获取数字图像,例如通过数码相机、扫描仪、坐标测量机、显微镜、载玻片扫描装置等。
此处使用的“标签”是数据值,例如字符串或数值,表示并指出患者相关属性值。标签的示例可以是“患者对药物D的应答=真”、“患者对药物D的应答=假”、“无进展存活时间=6个月”等。
本文使用的“图像块”是数字图像的子区域。通常,从数字图像创建的块可以具有任何形状,例如圆形、椭圆形、多边形、矩形、正方形等,并且可以重叠或不重叠。根据优选实施例,从图像生成的块是矩形的,优选地重叠块。使用重叠块可具有的优势在于,否则将被块生成过程破碎的组织模式也在包中表示。例如,两个重叠块的重叠可以覆盖20-30%,例如单个块面积的25%。
根据实施例,图像块库,例如图像块报告库和/或图像相似性搜索块库是GUI上块的网格样式组织,其中块在图像块库中的空间组织独立于它们在从中导出块的图像的空间排列。
这里使用的“特征向量”是包含描述对象的重要特征的信息的数据结构。数据结构可以是单维或多维数据结构,其中特定类型的数据值存储在该数据结构内的相应位置。例如,数据结构可以是向量、数组、矩阵等。特征向量可以被认为是代表某个对象的数值特征的n维向量。在图像分析中,特征可以有多种形式。图像的简单特征表示是每个像素的原始强度值。然而,更复杂的特征表示也是可能的。例如,从图像或图像块中提取的特征也可以是SIFT描述符特征(规模不变特征变换)。这些特征捕捉了不同线条方向的普遍性。其他特征可以指示图像或图像块的对比度、梯度方向、颜色组成和其他方面。
这里使用的“热图”是数据的图形表示,其中矩阵中包含的单独值以颜色和/或强度值表示。根据一些实施例,热图是不透明的并且包括组织载玻片图像的至少一些结构,热图是基于这些结构创建的。根据其他实施例,热图是半透明的并且显示为用于创建热图的组织图像顶部的覆盖层。根据一些实施例,热图通过相应的颜色或像素强度指示多个相似性得分或相似性得分范围中的每一个。
如本文所用,“生物标志物特异性染色剂”是选择性染色特定生物标志物,例如特定的蛋白质如HER,但不是一般的其他生物标志物或组织成分。
如本文所用,“非生物标志物特异性染色剂”是具有更一般的结合行为的染色剂。非生物标志物特异性染色剂不会选择性地染色单独蛋白质或DNA序列,而是染色具有特定物理或化学特性的更大组的物质和亚细胞以及超细胞结构。例如,苏木精和曙红分别是非生物标志物特异性染色剂。苏木精是一种呈碱性/阳性的深蓝色或紫色染色剂。苏木精与嗜碱性物质(诸如DNA和RNA,呈酸性且带负电荷)结合。细胞核中的DNA/RNA和粗面内质网核糖体中的RNA都是酸性的,因为核酸的磷酸骨架带负电荷。这些骨架与含有正电荷的碱性染料形成盐。因此,像苏木精这样的染料会与DNA和RNA结合并将它们染成紫色。曙红是一种呈酸性且呈阴性的红色或粉红色染色剂。曙红与嗜酸物质结合,诸如带正电荷的氨基酸侧链(例如赖氨酸、精氨酸)。某些细胞的细胞质中的大多数蛋白质是碱性的,因为精氨酸和赖氨酸氨基酸残基使它们带正电荷。这些与含有负电荷的酸性染料(如曙红)形成盐。因此,曙红与这些氨基酸/蛋白质结合并将它们染成粉红色。这包括肌肉细胞中的细胞质细丝、细胞内膜和细胞外纤维。
本文使用的“注意力机器学习逻辑程序”是经训练的以将权重分配给特定参数的MLL,由此权重指示重要性以及其他程序可能在分析这些参数上花费的注意力。注意力MLL背后的想法是模拟人脑选择性地关注与当前上下文特别相关的可用数据子集的能力。使用注意力MLL,例如在文本挖掘领域,有选择地针对特定单词分配权重和计算资源,这些单词对于从句子中获取含义特别重要。并非所有词都同等重要。其中一些比其他更能表征一个句子。通过基于训练数据集训练注意力MLL生成的注意力模型可以指出句子向量可以对“重要”词有更多的注意力。根据一个实施例,经训练的注意力MLL适于计算检查的每个特征向量中的每个特征值的权重,以及计算每个特征向量中所有特征值的加权和。这个加权和体现了块的整个特征向量。
根据实施例,注意力MLL是包括神经注意力机制的MLL,该机制适于为神经网络配备专注于其输入(或特征)的子集的能力:它选择特定输入。设x∈Rd为输入向量,z∈Rk为特征向量,a∈[0,1]k为注意力向量,g∈Rk注意力一瞥(attention glimpse),以及fφ(x)为带参数φ的注意力网络。
通常,注意力实现为
ag=fφ(x),=a⊙z,
其中⊙是逐元素乘法,而z是另一个具有参数θ的神经网络fθ(x)的输出。我们可以谈论软注意力,它将特征与零到一之间的值的(软)掩码相乘,或者硬注意力,当这些值限制为恰好为零或一时,即a∈{0,1}k。在后一种情况下,我们可以使用hard attention mask直接索引特征向量:g-=z[a](在Matlab符号中),它改变了它的维度,现在g-∈Rm及m≤k。
如本文所用,术语“强度信息”或“像素强度”是在数字图像的像素上捕获的或由数字图像的像素表示的电磁辐射(“光”)的量的量度。如本文所用,术语“强度信息”可包括额外的、相关的信息,例如特定颜色通道的强度。MLL可以使用该信息以计算方式提取诸如数字图像中包含的梯度或纹理的衍生信息,并且可以在训练期间和/或在由经训练的MLL进行特征提取期间从数字图像中隐含地或明确地提取衍生信息。例如,表述“数字图像的像素强度值与一种或多种特异性染色剂的强度相关”可以暗示强度信息(包括颜色信息)允许MLL并且还可能允许用户识别已由所述一种或多种染色剂中的一种特异性染色剂染色的组织样品的区域。例如,描绘用苏木精染色的样品区域的像素在蓝色通道中可能具有高像素强度,描绘用快速红染色的样品区域的像素在红色通道中可以具有高像素强度。
如本文所用,“全卷积神经网络”是由卷积层组成的神经网络,没有任何通常在网络末端发现的全连接层或多层感知器(MLP)。全卷积网络在每层学习过滤器。甚至网络末端的决策层也学习过滤器。全卷积网络试图学习表示并根据局部空间输入做出决策。
根据实施例,全卷积网络是仅具有以下形式的层的卷积网络,其激活函数在满足以下特性的特定层中的位置(I,j)生成输出数据向量yij
yij=fks({xsi+δi,sj+δj}0≤δi,δj≤k)
其中xij为特定层中位置(i;j)的数据向量,yij为以下层所述位置的数据向量,其中yij为网络激活函数产生的输出,其中k称为内核尺寸,s是步幅或子采样因子,fks确定层类型:卷积或平均池化的矩阵乘法,最大池化的空间最大值,或激活函数的元素非线性等其他类型层。这种函数形式在组合下保持不变,内核尺寸和步幅遵循转换规则:
虽然一般深度网络计算一般非线性函数,但只有这种形式的层的网络计算非线性过滤器,也称为深度滤波器或全卷积网络。FCN自然地对任意尺寸的输入进行操作,并产生相应(可能重新采样)空间维度的输出。有关若干全卷积网络的特征的更详细描述,请参阅Jonathan Long、Evan Shelhamer和Trevor Darrell:“用于语义分割的全卷积网络”,CVPR2015。
如本文所用,“机器学习逻辑(MLL)”是一种程序逻辑,例如一种软件,如经训练的神经元网络或支持向量机等,已经训练或可以在训练过程中进行训练,并且-作为学习阶段的结果-已经学会根据所提供的训练数据执行一些预测和/或数据处理任务。因此,MLL可以是至少部分未由程序员明确指出的程序代码,但在从样品输入构建一个或多个隐含或明确模型的数据驱动学习过程中隐含学习和修改。机器学习可以采用监督式或无监督式学习。有效的机器学习通常很困难,因为找到模式很困难,而且通常没有足够的训练数据可用。
如本文所用,术语“生物标志物”是一种分子,该分子可在生物样品中作为组织类型、正常或致病过程或对治疗干预的应答的指标进行测量。在一个特定实施例中,生物标志物选自:蛋白质、肽、核酸、脂质和碳水化合物。更特别地,生物标志物可以是特定的蛋白质,例如EGRF、HER2、p53、CD3、CD8、Ki67等。某些标志物是特定细胞的特征,而其他标志物已鉴定为与特定疾病或病症相关。
基于组织样品图像的图像分析来确定特定肿瘤的阶段,可能需要用多种生物标志物特异性染色剂对样品进行染色。组织样品的生物标志物特异性染色通常涉及使用选择性结合目标生物标志物的一抗。特别是这些一抗,以及染色方案的其他组分,可能很贵,因此在许多应用场景中,特别是高通量筛选,由于成本原因,可能会排除可用的图像分析技术的使用。
通常,组织样品用背景染色(“反染色”)染色,例如苏木精染色剂或苏木精和曙红染色剂的组合(“H&E”染色),以揭示大规模组织形态以及细胞和细胞核的边界。除了背景染色之外,可以根据要回答的生物医学问题应用多种生物标志物特异性染色剂,例如肿瘤的分类和分期,检测组织中某些细胞类型的数量和相对分布等。
附图说明
在以下实施例中,仅通过示例,参考附图更详细地解释本发明,其中:
图1描绘了根据本发明的实施例的方法的流程图;
图2描绘了根据本发明实施例的图像分析系统的框图;
图3描绘了根据本发明的实施例的具有报告图像块库的GUI;
图4描绘了根据本发明的实施例的具有相似性搜索图像块库的GUI;
图5描绘了根据本发明实施例的特征提取MLL程序的网络架构;
图6描绘了一种用于结合MIL程序和注意力MLL的可能系统架构;
图7描述了另一种用于结合MIL程序和注意力MLL的可能系统架构;
图8说明了2D和3D坐标系中块的空间距离;
图9描绘了根据本发明的实施例的孪生神经网络的架构;
图10描述了作为截短的孪生神经网络实现的特征提取MLL;
图11描述了在图像数据库中基于相似性搜索使用特征向量的计算机系统;
图12显示基于它们的空间接近度用标签标记的“相似”和“相异”块对;以及
图13显示了基于相似性搜索结果的特征向量,该特征向量由基于接近度的相似性标签训练的特征提取MLL提取。
具体实施方式
图1示出了根据本发明的实施例的方法流程图。该方法可以用于例如预测患者的患者相关属性值,诸如,例如,生物标志物状态、诊断、治疗结果、特定癌症(诸如结直肠癌或乳腺癌)的微卫星状态(MSS)、淋巴结中的微转移以及诊断活检中的病理完全缓解(pCR)。预测基于使用基于-优选无假设-特征提取的深度学习的组织学载玻片的数字图像。
方法100可用于训练弱监督深度学习计算机算法,该算法设计用于识别和提取迄今为止未知的预测性组织学签名。该方法允许识别指示患者相关属性值的组织模式。
可以提供来自患者的组织标本,例如以FFPET组织块的形式。需要从具有预先确定和预先知道的终点(例如存活、应答、基因签名等)的患者身上获取组织块,以用作标签。
将组织块切片,并将切片放置在显微镜载玻片上。然后,切片用一种或多种组织学相关的染色剂染色,例如H&E和/或各种生物标志物特异性染色剂。图像取自染色的组织切片,例如使用载玻片扫描显微镜。
在第一步骤102中,图像分析系统(例如,参考图2所描述的)针对一组患者中的每个患者接收所述患者的组织样品的至少一个数字图像212。
读取可包括从数据库读取图像。例如,图像可以是多年以前的组织样品图像。旧图像数据集的优势在于许多相关事件的结果,例如治疗成功、疾病进展、副作用同时是已知的并且可用于创建训练数据集,该训练数据集包括将已知事件分配为标签的组织图像。此外或替代性地,可直接从图像采集系统接收到的图像,例如显微镜或载玻片扫描仪。标签可手动或自动分配给接收到的图像。例如,用户可配置载玻片扫描仪的软件,使得所获取的图像在其获取过程中用特定标签自动标记。这在依次获取具有相同患者相关属性值/端点的大量患者的组织样品图像的场景中可能是有帮助的,例如已知显示对特定药物D有应答的第一组100名乳腺癌患者的100个组织图像以及已知未显示出这种应答的第二组120名乳腺癌患者的120个组织图像。用户可能必须在获取第一组图像之前仅一次设置要分配给捕获图像的标签,然后在获取第二组图像之前第二次设置标签。
针对每个患者,检索一个或多个图像。例如,可以根据不同的染色方案对相同的组织样品进行多次染色,由此针对每个染色方案获取图像。替代性地,若干相邻的组织样品切片可分别用相同或不同的染色方案染色,并且针对组织样品载玻片中的每一个获取图像。接收到的图像中的每一个已分配至少两个不同的预定义标签中的一个。每个标签指示在用标签标记的图像中描绘其组织的患者的患者相关属性值。属性值可以是任何类型,例如布尔值、数字、字符串、有序参数值等。
接下来在步骤104,图像分析系统将每个接收到的图像拆分成图像块集216。因此,每个块已分配了分配给用于创建块的图像的标签。
例如,作为2016年“CAMELYON16”挑战的基础发布的图像数据集可以用作训练数据集。CAMELYON16数据集由乳腺癌患者H&E染色淋巴结组织切片的270个全玻片图像组成,作为训练图像数据集提供(160个正常组织图像,110个肿瘤转移图像)。该数据集可在https://camelyon16.grand-challenge.org/data/下获得。在10倍放大率下,该数据集的图像可用于从尺寸为256x256像素的非背景区域生成1,113,403个RGB块,每个块都没有重叠。
根据一个实施例,接收到的图像以及生成的块是多通道图像。通过创建具有不同尺寸、放大级别和/或包括一些模拟伪影和噪声的现有块的修改副本,可以增加块的数量以丰富训练数据集。在一些情况下,可以通过如本文针对本发明的实施例所描述的对包中的实例重复采样并将所选实例放置在额外的包中来创建多个包。这种“取样”也可能具有丰富训练数据集的积极作用。
在某些情况下,可以将特征向量聚集为N个群集,并且可以从每个群集中随机选择M个实例(块)放入伪包中,以生成包中实例的聚集等变种群。
接下来在步骤106中,图像分析系统为块中的每一个计算特征向量220。特征向量包括从所述块中描绘的组织模式选择性地提取的图像特征。任选地,特征向量还可以包括遗传特征或其他患者或患者相关数据,这些数据可用于从中导出图像和相应块的患者。根据一些实施例,特征提取由经训练的特征提取MLL执行。特征提取MLL可以针对训练数据集中的每个块生成特征向量,同时保留特征-向量-标签关系。然而,其他实施例可以使用明确编程的特征提取算法来提供多种特征,这些特征描述了计算特征向量的块中描绘的组织区域。
接下来在步骤108中,基于针对该组中的所有患者接收到的所有图像的所有块和相应特征向量训练多实例学习(MIL)程序226。因此,MIL程序将每个块集处理为具有相同标签的块包。训练包括分析训练数据集中的块的特征向量220,针对块中的每一个计算数值228。该数值指示与块相关联的特征向量相对于分配给从中导出块的图像的标签的预测能力。换句话说,该数值表示特定特征向量的预测能力,即“预测值/能力”,用于分配给块的标签的出现/观察。由于特征向量的特征已经完全地或至少部分地从相应块中包含的图像信息中提取,所以特征向量表示该块中描绘的组织区域的光学特性。因此,特征向量可视为电子组织签名。
例如,可以训练MIL程序以预测特定组织区域的一个或多个可能的标签和/或可以训练MIL程序以回归标签如果需要浮点标签预测。在某些情况下,训练额外的注意力MLL以了解哪些特征向量与预测标签最相关。在某些情况下,注意力MLL计算出的权重乘以每个载玻片的特征向量值。作为乘法的结果,针对每个块及其特征向量获得具有加权特征值的特征向量,并在训练时用作MIL程序的输入。在其他实施例中,由注意力MLL计算出的权重乘以由MIL针对每个块的特征向量计算出的数值。这会创建一个加权数值,用作特定块及其相对于标签的特征值的预测能力的指标。加权数值可与训练时的基本事实进行比较,以评估经训练的MIL程序的准确性。在某些情况下,平均、最小、最大最小-最大池化(或它们的组合)可应用于由MIL程序在其置换不变变换运算的训练期间作为块特定结果获得的特征向量。
接下来在步骤110中,图像分析系统经由由图像分析软件生成的GUI232输出图像块报告库206。GUI示例包括图3中描绘的报告图像块库。报告库包括块的子集,由此根据它们的相应计算出的数值对子集进行排序。此外或替代性地,报告图像块图库包括与相应块相关联的数值的图形表示。
最后,作为训练阶段的结果,获得了经训练的MIL程序。经训练的MIL程序可应用于从其他患者队列导出的图像块。
出于测试目的,还可以将可用数据集拆分为子集(包括例例如约75%的图像)用作训练数据集;以及另一子集(包括例如约25%的图像)用作测试数据集。据观察,经训练的MIL程序对相关使用领域(FOVs)达到很高的预测值。这些包括组织模式,该组织模式直到现在还没有被认为对pCR的预测有影响。
因此,本发明的实施例可以允许使用在药物开发过程中可用的大量数据,该数据来自组织学和临床成像、来自基因组学和测序、来自真实世界的数据和来自诊断方法。该方法可以允许提取新颖的见解和开发新技术。
在病理学和组织学分析的背景下,手动识别预测性潜在组织纹理或组织相关签名的任务可令人生畏,由于多通道、多染色、多模态、高倍率图像中可用的信息剪切量,每个图像都有数十亿像素。因此,这种探索通常基于对人类生成假设的探索,并且因此仅限于关于肿瘤和生物学机制的预先存在的知识的边界,以及手动查看大量高倍率组织学图像的复杂性和劳动要求。本发明的实施例可以允许揭示显微病理组织学图像中的隐藏信息,使得机器学习逻辑和人类都可以解释识别为具有高预测能力的特征。
根据实施例,经训练的MIL可以用于对患者组进行分层。这意味着将患者按给定治疗之外的因素进行划分。可以根据在训练MIL或注意力MLL时不用作标签的患者相关属性执行分层。例如,这种患者相关属性可以是年龄、性别、其他人口统计因素或特定的遗传或生理性状。GUI使用户能够基于未用作标签的所述患者相关属性中的任何一个选择其组织图像用于训练MIL的患者的亚群,并选择性地在该亚群上计算经训练的MLL的预测精度.例如,亚群可以由女性患者或60岁以上的患者组成。针对相应亚群选择性获得的准确性,例如女性/男性或60岁以上/60岁以下的患者可能会在某些亚群中揭示经训练的MIL的特定高或低准确性。这可能允许混淆变量(研究人员正在研究的变量以外的变量),从而使研究人员更容易检测和解释变量之间的关系,并识别将从特定药物中受益最大的患者群体。
图2描绘了根据本发明实施例的图像分析系统200的框图。
图像分析系统200包括一个或多个处理器202和易失性或非易失性存储介质210。例如,存储介质可以是硬盘驱动器,例如电磁或闪存驱动器。它可以是磁性的、基于半导体的或光学的数据存储。存储介质可以是易失性介质,例如主存储器,仅临时包含数据。
存储介质包括来自具有已知端点的患者的组织样品的多个用标签标记的数字图像212。
图像分析系统包括拆分模块214,该模块配置为将图像212中的每一个拆分成多个块。块分组到包216中,由此通常同一包中的所有块从自同一患者导出。包的标签是患者的已知终点,包的所有块都分配了包的标签。
特征提取模块218被配置为从块216中的每一个中提取多个图像特征。在一些实施例中,特征提取模块218可以是经训练的MLL或经训练的MLL的编码部分。提取的特征作为特征向量220与从中导出特征向量的块相关联存储在存储介质210中。任选地,特征向量可以用从其他来源导出的患者特征来丰富,例如基因组数据,例如微阵列数据。
任选地,图像分析系统可以包括采样模块215,该模块适于选择用于训练的图像样品(子集)并在剩余的图像块上测试经训练的MIL。采样模块可以在执行采样之前首先基于它们的特征向量对块执行聚集。
任选地,图像分析系统可以包括注意力MLL程序222,该程序配置为计算特征向量中的每一个和相应块的权重。权重可以与特征向量一起用作训练MIL程序226时的输入或用于对作为MIL程序训练结果的MIL针对块中的每一个返回的数值进行加权。
图像分析系统包括多实例学习程序(MIL程序226)。在训练期间,MLL程序226接收特征向量220(或由注意力MLL 222生成的加权特征向量224)以及分配给相应块的标签。作为训练的结果,提供了经训练的MIL程序226。此外,针对块中的每一个,计算数值228,该数值指示块的预测能力和本文描绘的针对分配给块的标签的组织模式。这些数值也可以称为“数值块相关度得分”。
图像分析系统进一步包括模块230,该模块配置为生成显示在图像分析系统的屏幕204上的GUI 232。
GUI包括报告块库206,该报告块库包括至少一些块和针对这些块计算出的数值228。数值228可以明确显示,例如作为相应块上的覆盖层,和/或隐含地,例如以块的排序顺序的形式根据它们的相应数值228进行排序。当用户选择块中的一个时,显示从中导出块的图像的整个载玻片热图。在其他实施例中,除了默认的报告块库206之外,还可以显示热图。
程序模块214、215、218、222、226、230中的每一个都可以实现为大型MIL训练框架软件应用程序的子模块。替代性地,一个或多个模块可以分别代表与图像分析系统的其他程序和模块可互操作的独立软件应用程序。每个模块和程序可以是例如用Java、Python、C#或任何其他合适的编程语言编写的软件。
图3描绘了根据本发明实施例的具有报告图像块库的GUI 300。报告库(行标签302、304、306和308下方的块矩阵)允许用户探索由MIL程序识别的组织模式,以对特定标签具有高预测能力。库包括相对于目标特定标签具有最高数值的块中的一个,例如由MIL计算的“对药物D治疗有反应=真”。块基于从中导出块的组织载玻片图像进行分组,并根据它们的相应数值在它们的组内分类,该数值指示块相对于分配给用于训练MIL的图像的特定标签的预测能力。此外,图库可包括针对图库中的块中的每一个,在训练之后可能已经自动确定的整体预测准确性。此外,或替代性地,报告库可包括分配给相应图像的标签和针对该标签获得的每个包的预测准确性。例如,“基本事实=0”可以代表标签“患者对药物D有应答”,“基本事实=1”可以代表标签“患者对药物D没有应答”。在使用注意力MLL计算权重的情况下,排序也可以基于如本文针对本发明的实施例所描述的针对由注意力MLL生成的块的权重和由MIL计算出的数值的组合(例如乘积)的每个块计算的组合得分值。由MIL计算出的特定图像的所有块的最高数值显示为从所述图像导出的块组顶部的“预测值”。
在所描绘的库中,块行302显示第一患者的六个块。所述块中的第一个已分配最高数值(预后值)指示特定组织载玻片/整个载玻片图像相对于标签的预测能力。每个载玻片组的第一块可以额外地或替代性地分配从特定组织载玻片图像导出的所有块的最高组合值(从由MIL所提供的数值和由注意力MLL计算出的权重导出)。
如图3中所示的GUI描绘,最高数值可以显示在每位患者的最高评分块顶部。
仅包括具有最高预测能力的块的子集的报告块库可能是有利的,因为病理学家不需要检查整个载玻片。相反,病理学家的注意力自动指向每个整个载玻片图像的少量子区域(块),该图像的组织模式已识别相对于目标标签具有最高预测能力。
根据图3中描绘的实施例,报告图像块库显示从H&E染色图像导出的图像块。报告图像块库的组织方式如下:
行302包括分配了由MIL程序计算出的最高数值(指示预测能力,即预后值)的六个块,这些块在从第一患者的特定整个载玻片图像312导出的所有块内。根据其他实施例,基于与由MIL计算出的数值相同的得分值或者是由MIL计算出的数值的导数值来执行排序。例如,导数值可以是作为由MIL针对块计算出的数值的和由注意力MLL针对所述块计算出的权重的组合来计算的组合得分。例如,该组合可以是数值和权重的乘积。根据另一些实施例,块仅根据注意力-MLL计算出的权重进行排序,并且MIL计算出的数值以不同的方式显示给用户,例如,以覆盖相应块的数字或呈现在空间上接近相应块的数字的形式。
用于生成其中一些显示在行312中的块的第一患者的组织样品的相应整个载玻片图像312在空间上接近于该高度相关的块的所选集312。
此外,显示的任选的相关度热图322突出显示了所有整个载玻片图像区域,由MIL计算出的数值类似于图像312的一个块的数值,其中最高数值指示预测能力已计算。在这种情况下,自动识别和选择计算出的最高数值的块之一(例如,在行312中第一位置的块)并用作计算相关度热图322的基础。根据替代性实施方式,相关度热图322不表示块的数值与针对图像的所有块计算出的最高数值的相似性,而是表示块与针对图像的所有块计算出的最高组合得分的相似度。组合得分可以是由注意力MLL针对块计算出的权重的与由MIL计算出的指示块相对于图像标签的预测能力的数值的组合,例如乘积。根据更进一步的实施例,相关度热图322表示由注意力MLL计算出的块的权重与由注意力MLL针对图像的所有块计算出的最高权重的相似度。
列304包括分配了由MIL程序计算出的最高数值的六个块,这些块从第二患者的特定整个载玻片图像314导出。相应的整个载玻片图像314在空间上接近所选的高度相关的块集。此外,显示的相关度热图324突出显示了所有整个载玻片图像区域,该图像区域由MIL计算出的相应数值与由MIL计算出的最高数值的整个载玻片图像314的块高度相似。
列306包括分配了由MIL程序计算出的最高数值的六个块,这些块从第三患者的特定整个载玻片图像316导出。相应的整个载玻片图像316在空间上接近所选的高度相关的块集。此外,显示的相关度热图326突出显示了所有整个载玻片图像区域,该图像区域由MIL计算出的相应数值与由MIL计算出的最高数值的整个载玻片图像316的块高度相似。
列308包括分配了由MIL程序计算出的最高数值的六个块,这些块从患者的特定整个载玻片图像318导出。相应的整个载玻片图像318在空间上接近所选的高度相关的块集。此外,显示的相关度热图328突出显示了所有整个载玻片图像区域,该图像区域由MIL计算出的相应数值与由MIL计算出的最高数值的整个载玻片图像318的块高度相似。
根据实施例,在报告块库中呈现的相关度热图指示预测能力、或基于注意力的权重、或它们的组合。在所描绘的示例中,热图中的亮像素描绘了图像中块具有高预测值、高基于注意力的权重或它们的组合的区域。根据实施例,相关度热图的计算包括确定块的得分(例如,数值、权重或组合值)是否高于图像的最高得分块的得分的最小百分比值。如果是,则相关度热图中的相应块由第一颜色或“亮”强度值表示,例如“255”。如果不是,则相关度热图中的各个块由第二种颜色或“暗”强度值表示,例如“0”。
用户可以选择报告块库中的每个块以启动相似性搜索(例如,通过双击块或通过单击选择块,然后选择GUI元素“搜索”),然后将显示一个相似性搜索块库,例如如图4所示。
可选GUI元素集310中的“黑名单”和“重新训练”元素使用户能够定义块的黑名单并基于除黑名单中的块和与黑名单中的块高度相似的块之外的所有块重新训练MIL程序。例如,黑名单可以包括手动选择的具有特别低数值(预测值)的块集,例如因为它们包含伪影,或具有特别高的数值(排除具有非常高预测能力的块可增加MIL识别额外的、迄今为止未知的组织模式的能力,这些模式相对于目标标签也具有预测能力)。图像分析系统可以配置为响应于用户将特定块添加到黑名单,自动识别其特征向量与添加到黑名单的块的特征向量的相似度超过最小相似度阈值的所有块。识别出的块也自动添加到黑名单中。当用户选择重新训练-GUI元素时,除了黑名单中的块外,MIL将基于训练数据集的所有块重新训练。
图4描绘了根据本发明的实施例的具有相似性搜索图像块库的GUI400。相似性搜索由基于用户的对报告库中430块的选择触发。
该搜索在从整个载玻片图像412-418中的每一个生成的块内识别例如基于比较特征向量的相似性的六个最相似的块的子集。在相似性搜索中识别的块按每个整个载玻片图像或每个患者分组,并根据它们与选择触发相似性搜索的块430(“查询块”)的相似性以降序进行排序。
整个载玻片图像412-418和相似性热图422-428指示其特征向量(以及因此所描绘的组织模式)与所选块的特征向量最相似的块的位置。
任选地,相似度搜索块库还包括以下一项或多项数据:
-标签分配给从中导出描绘的块的图像;图4中描绘的一个标签是“基本事实:0”;
-由MIL程序计算出的每个包(图像)相对于包的标签的预测准确性;
-整张载玻片图像中类似块的计数和/或相似块与相异块比较的百分比(分数)(例如,通过阈值处理)
-整个载玻片图像中所有块的相似性值的平均值、中值或直方图。
图5根据本发明的实施例描绘了特征提取MLL程序的网络架构600,该网络架构支持用于特征向量生成的监督式学习方法。由一系列自动编码器604组成的深度神经网络基于以分层方式从图像块中提取的多个特征进行训练。经训练的网络能够稍后执行分类任务,例如基于从图像块中提取的光学特征,将块中描绘的组织分类为“基质组织”、“背景载玻片区域”、“肿瘤细胞”、“转移组织”等类别之一。网络架构包括瓶颈层606,该瓶颈层具有比输入层603少得多的神经元并且随后可以是进一步的隐藏层和分类层。根据一个示例,瓶颈层包括输入层神经元数量的大约1.5%。输入层和瓶颈层之间可能有数百甚至数千个隐藏层,并且瓶颈层提取的特征可以称为“深度瓶颈特征”(DBNF)。
图6描绘了一种可能的系统架构,用于组合MIL程序和注意力MLL。根据所描绘的实施例,MIL程序的训练包括基于所有接收到的图像的所有块的特征向量220、708-714和标签216、702-706训练注意力机器学习逻辑程序222以计算用于块中的每一个的权重。由注意力MLL计算出的权重指示特征向量和相应块相对于由块的标签指示的患者相关属性值的预测能力。然后,图6中描绘的机器学习系统针对从接收到的训练图像获得的块中的每一个计算组合预测值。组合预测值是由MIL针对块计算出的数值的和由注意力MLL针对块计算出的权重的函数。组合数值可以是例如MIL的数值的和注意力MLL的权重的乘积或平均值。组合数值指示特征向量和相应块相对于由块的标签指示的患者相关属性值的预测能力。然后,计算出的损失值指示针对特定标签获得的组合预测值与分配给块的实际标签的差异。然后,基于计算出的损失值,使用反向传播迭代地适应MIL程序的模型。
图7描绘了另一可能的系统架构,用于组合MIL程序和注意力MLL。MIL程序的训练包括基于所有接收到的图像的所有块的特征向量220和标签216训练注意力机器学习逻辑程序222-注意力MLL程序,以计算块中的每一个的权重。权重指示特征向量和相应块相对于由块的标签表示的患者相关属性值的预测能力。然后,图7中描绘的机器学习系统,针对块中的每一个,计算加权特征向量,作为由注意力MLL针对该块计算出的权重的和从该块提取的特征向量的函数。加权特征向量输入到MIL中,使得MIL能够使用加权特征向量而不是最初从相应块以及任选的其他数据源提取的特征向量来计算块中的每一个的数值。然后,MIL程序计算损失值,该值指示针对特定标签获得的数值与分配给块的实际标签之间的差异。在训练期间,MIL使用基于计算出的损失值的反向传播迭代地适应其模型。
图8示出了2D和3D坐标系中块的空间距离,这些坐标系用于基于从块的空间接近度自动导出的相似性标签自动将相似性标签分配给块对。因此,提供了用于训练特征提取MLL的训练数据集,该数据集不需要领域专家手动注释图像或块。
图8A示出了由数字组织样品训练图像800的x轴和y轴定义的2D坐标系中块的空间距离。训练图像800描绘了患者的组织样品。从患者获得组织样品后,将样品置于显微镜载玻片上并用一种或多种组织学相关的染色剂染色,例如H&E和/或各种生物标志物特异性染色剂。训练图像800是从染色的组织样品中获取的,例如使用载玻片扫描显微镜。根据一些实施变型,所接收到的训练图像中的至少一些是从不同患者和/或是从同一患者的不同组织区域(活组织检查)导出的并且因此不能在3D坐标系中彼此对齐。在这种情况下,可以在由如下所述的图像的x和y坐标定义的2D空间内计算块距离。
训练图像800拆分成多个块。出于说明目的,图8A中的块尺寸大于通常的块尺寸。
可以通过以下方法自动用标签标记训练数据集:首先,选择起始块802。然后,确定围绕该起始块的第一圆区域。第一圆的半径也称为第一空间接近度阈值808。第一圆内的所有块,例如块806,被认为是起始块802的“附近”块。此外,还确定了围绕该起始块的第二圆区域。第二圆的半径也称为第二空间接近度阈值810。第二圆之外的所有块,例如块804是相对于起始块802的“远处”块。
然后,创建第一块对集,其中第一集的每个块对包括起始块和起始块的“附近”块。例如,该步骤可包括创建与第一圆中包含的附近块一样多的块对。替代性地,该步骤可包括随机选择可用附近块的子集并通过将起始块添加到所选附近块来为所选附近块中的每一个创建块对。
创建第二块对集。第二集的每个块对包括起始块和相对于起始块的“远处”块。例如,该步骤可包括创建与在第二圆之外的图像800中包含的远处块一样多的块对。替代性地,该步骤可包括随机选择可用的远处块的子集并通过将起始块添加到所选远处块来为所选远处块中的每一个创建块对。
然后,图像800内的另一块可以用作起始块并且可以类似地执行上述步骤。这意味着使用新的起始块作为中心重新绘制第一圆和第二圆。从而,识别关于新的起始块的附近块和远处块。第一块集补充有基于新的起始块识别的附近块对,而第二块集补充有基于新的起始块识别的远处块对。
然后,可以选择图像800内的另一块作为起始块并且可以重复上述步骤,从而进一步用更多的块对补充第一块对集和第二块对集。可以执行新的起始块的选择,直到图像中的所有块都曾经选为起始块或者直到已经选择了预定数量的块作为起始块。
针对第一集中的块对中的每一个,例如对812,分配“相似”标签。针对第二集中的块对中的每一个,例如对814,分配“相异”标签。
图8B示出了由数字组织样品图像800的x轴和y轴以及对应于彼此对齐的图像800、832、834的堆叠高度的z轴定义的3D坐标系中的块的空间距离根据由训练图像800、832、834分别描绘的组织块的组织切片的相对位置。训练图像分别描绘从特定患者的单个组织块导出的组织样品。所描绘的组织样品属于一堆多个相邻的组织切片。例如,该堆组织切片可以从FFPET组织块离体制备。将组织块切片,并将切片放置在显微镜载玻片上。然后,对切片进行染色,如参考图8A针对图像800所述。
由于该堆内的组织样品从单个组织块导出,因此可以在公共3D坐标系内对齐数字图像800、832、834,由此z轴与组织切片正交。z轴是与组织切片正交的轴。图像在z方向上的距离对应于所述图像所描绘的组织切片的距离。如果一对的两个块从同一图像导出,则在2D空间内计算块对的块距离。此外,可以创建块对,该块对的块从在公共3D坐标系中彼此对齐的不同图像导出。在这种情况下,一对中两个块的距离是使用3D坐标系计算的。
将对齐的数字图像中的每一个拆分成多个块。出于说明目的,图8B中的块尺寸大于通常的块尺寸。
可以通过以下方法自动用标签标记训练数据集:首先,选择起始块802。然后,如下所述识别的和用标签标记的包括起始块和附近块的块对以及包括起始块和远处块的块对。
确定围绕该起始块的第一3D球体。出于说明目的,仅显示了第一球体的横截面。第一球体的半径也称为第一空间接近度阈值836。第一球体内的所有块,例如图像800中的块806以及图像834中的块840被认为是起始块802的“附近”块。此外,还确定了围绕该起始块的第二球体。第二球体的半径也称为第二空间接近度阈值838。第二球体之外的所有块,例如图像800的块804以及图像834的块842是相对于开始块802的“远处”块。
创建第一块对集,其中第一集的每个块对包括起始块和起始块的“附近”块。例如,该步骤可以包括创建与第一球体中包含的附近块一样多的块对。替代性地,该步骤可包括随机选择可用附近块的子集并通过将起始块添加到所选附近块来为所选附近块中的每一个创建块对。
创建第二块对集。第二集的每个块对包括起始块和相对于起始块的“远处”块。例如,该步骤可以包括创建与在第二球体外的图像800、832、834中包含的远处块一样多的块对。替代性地,该步骤可包括随机选择可用的远处块的子集并通过将起始块添加到所选远处块来为所选远处块中的每一个创建块对。
然后,图像800内或图像832、834内的另一块可以用作起始块并且可以类似地执行上述步骤。这意味着第一球体和第二球体使用新的起始块作为中心重新绘制。从而,识别关于新的起始块的附近块和远处块。第一块集补充有基于新的起始块识别的附近块对,而第二块集补充有基于新的起始块识别的远处块对。
可以重复上述步骤,直到接收到的图像800、832、834中的每一个的每个块都选为起始块(或直到满足另一终止标准),从而用进一步的块对进一步补充第一块对集和第二块对集。
针对第一集中的块对中的每一个,例如对812和813,分配“相似”标签。针对第二集中的块对中的每一个,例如对814和815,分配“相异”标签。
图8A和8B中所示的基于圆和球的距离计算只是用于计算基于距离的相似性标签的示例,在这种情况下,二进制标签应该是“相似”或“相异”。可能会使用其他方法,例如计算2D或3D坐标系中两个块之间的欧几里得距离,并计算与两个块的欧几里德距离呈负相关的数值相似度性。
由于一毫米组织对应的像素数量取决于各种因素,例如图像捕获设备的放大倍数和数字图像的分辨率,本文将针对所描绘的真实物理对象指出所有距离阈值,即组织样品或组织样品覆盖的载玻片。
图9描绘了根据本发明的实施例训练的孪生神经网络的架构,用于提供能够从适合执行基于特征向量的相似性搜索和/或从图像块中提取具有生物医学意义的特征向量的子网络基于特征向量的块聚集。孪生神经网络900基于自动用标签标记的训练数据集进行训练,该数据集包括具有基于接近度的相似性标签的块对,例如参照图8A和/或8B所描述的自动创建。
孪生神经网络900由在其输出层924处连接的两个相同子网络902、903组成。每个网络包括输入层905、915,适于接收作为输入的单个数字图像(例如块)954、914。每个子网络包括多个隐藏层906、916、908、918。通过两个子网络中的相应一个从两个输入图像之一中提取一维特征向量910、920。因此,每个网络的最后隐藏层908、918适于计算特征向量并将特征向量提供给输出层924。输入图像的处理是严格分开的。这意味着,该子网络仅处理输入图像954,并且子网络仅处理输入图像914。当输出层比较两个向量以确定向量相似性时,两个输入图像中传达的信息唯一结合的点是在输出层中,并且从而确定两个输入图像中描绘的组织模式的相似性。
根据实施例,每个子网络902、903基于修改的resnet-50架构(He等人,DeepResidual Learning for Image Recognition,2015,CVPR’15)。根据实施例,resnet-50预训练子网络902、903基于ImageNet预训练。最后一层(通常输出1,000个特征)用全连接层408、418替换,其尺寸具有特征向量的期望尺寸,例如尺寸128。例如,每个子网络的最后一层908、918可以被配置为从倒数第二层提取特征,由此倒数第二层可以提供比最后一层908、418多得多的特征数量(例如2048)。根据实施例,优化器,例如使用PyTorch中的默认参数(学习率为0.001,beta为0.9,0.999)的Adam优化器,并且在训练期间使用了256的批量尺寸。针对数据增强,随机水平和垂直翻转和/或高达20度的随机旋转,和/或亮度、对比度饱和度和/或色调值为0.075的颜色抖动增强可以应用于块以增加训练数据集。
当孪生神经网络基于自动用标签标记的图像对进行训练时,学习过程的目标是相似图像应该具有彼此相似的输出(特征向量),而相异的图像应该具有彼此相异的输出。这可以通过最小化损失函数来实现,例如衡量两个子网络提取的特征向量之间差异的函数。
根据实施例,使用损失函数基于块对训练孪生神经神经元网络,使得由两个子网络针对该对的两个块提取的特征向量的相似性分别与该对的两个块中描绘的组织模式的相似性相关。
例如,孪生神经网络可以是,如Bromley等人在“使用‘孪生神经’时间延迟神经网络的签名验证,1994,NIPS’1994”中所述的孪生神经网络。孪生神经网络的每个子网络适于从作为输入所提供的两个图像块中的相应一个提取多维特征向量。该网络基于多个已自动标注有基于邻近度的组织模式相似性标签的块对进行训练,目标是描绘相似组织模式的块对应具有彼此接近(相似)的输出(特征向量),以及描绘相异组织模式的块对应该具有彼此远离的输出。根据一个实施例,这是通过执行对比损失来实现的,例如Hadsell等人所描述的,通过学习不变映射进行降维,2006,CVPR`06。在训练期间,将对比损失最小化。对比损失CL可以计算,例如,根据
CL=(1-y)2(f1-f2)+y*max(0,m-L2(f1-f2)),其中1,2是两个相同子网络的输出,并且y是块对的基本事实标签:如果它们用标签标记为“相似”(第一块对集),则为0,如果它们用标签标记为“相异”(第二块对集),则为1。
孪生神经网络900的训练包括向网络900馈送多个自动用标签标记的相似812、813和相异814、815块对。每个输入训练数据记录928包括块对的两个块及其自动分配的、基于空间接近度的标签907。基于接近度的标签403作为“基本事实”提供。输出层924适合于计算针对两个输入图像904、914的预测相似性标签,作为两个相比较的特征向量908、918的相似性的函数。孪生神经网络的训练包括一个反向传播过程。预测标签926与输入标签907的任何偏差都被视为以损失函数的形式测量的“错误”或“损失”。孪生神经网络的训练包括通过迭代使用反向传播来最小化损失函数计算出的误差。例如,可以实现孪生神经网络900,如Bromley等人在“使用‘孪生神经’时间延迟神经网络的签名验证”,1994,NIPS’1994中所述。
图10描绘了例如参考图9所述的作为截短的孪生神经网络实现的特征提取MLL950。
特征提取MLL 950可以,例如,通过分别存储经训练的孪生神经网络900的子网络902、903之一来获得。与经训练的孪生神经网络相反,用作特征提取MLL的子网络90、903仅需要单个图像952作为输入,并且不输出相似性标签,而是输出特征向量910,该特征向量910选择性地包括限定特征集,该限定特征集在孪生神经网络900的训练期间被识别为针对特定组织模式具有特定特征,并且特别适合通过从两个图像中提取和比较该特定的特征集来确定两个图像中描绘的组织模式的相似性。
图11描绘了在图像数据库中使用基于特征向量的相似性搜索的计算机系统980。例如,相似性搜索可用于计算搜索块库,图4中描绘了一个示例。计算机系统980包括一个或多个处理器982和经训练的特征提取MLL 950,该MLL 950可以是经训练的孪生神经网络(“截短的孪生神经网络”)的子网络。系统980适用于使用特征提取MLL来执行图像相似性搜索,以分别从搜索图像和从搜索图像(块)中的每一个中提取特征向量。
例如,计算机系统可以是标准计算机系统或由数据库992组成或操作上与之耦合的服务器。例如,数据库可以是相关的BDSM,包括描绘多个患者的组织样品的成百上千的整个载玻片图像。优选地,针对数据库中的图像中的每一个,数据库包括已经由特征输出MLL950从数据库中的所述图像提取的相应特征向量。优选地,在接收任何此类请求之前,在单个预处理步骤中执行数据库中每个图像的特征向量的计算。然而,也可以响应于搜索请求动态地计算和提取数据库中图像的特征向量。搜索可以限于从特定数字图像导出的块,例如用于识别描绘与搜索图像986中描绘的组织模式相似的组织模式的单个整个载玻片图像内的块。搜索图像986可以是例如包含在由用户选择的报告块库中的块。
计算机系统包括使用户984能够选择或提供用作搜索图像986的特定图像或图像块的用户界面。经训练的特征提取MLL 950适用于从输入图像中提取特征向量988(“搜索特征向量”)。搜索引擎990从特征输出MLL 950接收搜索特征向量988并在图像数据库中执行基于向量的相似性搜索。相似性搜索包括将搜索特征向量与数据库中图像的特征向量中的每一个进行比较,以计算作为两个相比较的特征向量的函数的相似性得分。相似性得分指示搜索特征向量与数据库中图像的特征向量的相似性程度,并且从而指示两个相比较图像中描绘的组织模式的相似性。搜索引擎990适用于向用户返回并输出搜索结果994。搜索结果可以是,例如,数据库的计算出最高相似性得分的一个或多个图像。
例如,如果搜索图像986是已知描绘乳腺癌组织的图像块,则系统980可用于识别描绘类似乳腺癌组织模式的多个其他块(或包括此类块的整个载玻片图像)。
图12显示了两个块矩阵,每个矩阵由三列组成,每列包含六个块对。第一(上)矩阵显示了第一块对集(A),该第一块对集由彼此靠近的以及已自动分配了标签“相似”的块对的块组成。第二(下)矩阵显示了第二块对集(B),彼此相距很远,并且已自动分配了标签“相异”的块对。在某些情况下,用标签标记“相似”的块看起来相异,而用标签标记“相异”的块看起来相似。这种噪声的起因是:在两个不同组织模式相接的边界处,两个附近的块可能描绘不同的组织模式,并且甚至远处的组织区域也可能描绘相同的组织模式。这是数据集生成过程中预期的固有噪声。
申请人已经观察到,尽管存在这种噪声,但基于自动用标签标记的数据集训练的特征提取MLL能够准确地识别和提取特征,从而明确区分相似和相异的块对。申请人假设所观察到的经训练的MLL对这种噪声的稳健性是基于这样一个事实:即区域边界的面积通常小于区域的非边界面积。
根据实施例,自动生成的训练数据集的质量是在第一步中使用先前经训练的相似性网络或ImageNet预训练网络来评估块对的相似性,然后在第二步中基于本文所述的针对本发明的实施例描述的块的空间接近度生成相似性标签,并且然后纠正成对标签,其中观察到一方面在第一步中确定的和另一方面在第二步中确定的两个块的相似性的强烈偏差。
图13显示了基于相似性搜索结果的特征向量,该特征向量由基于接近度的相似性标签训练的特征提取MLL提取。这5个肿瘤查询块称为A、B、C、D和E。查询块用于图像检索任务,用于分别识别和检索除查询载玻片(A1-A5、B1-B5、C1-C5、D1-D5、E1-E5)以外的5个块,按从低到高的距离进行排序,使用特征提取MLL提取的特征向量,该特征提取MLL基于具有基于接近度的标签自动用标签标记的数据进行训练。目标类别(例如肿瘤)仅占搜索到的块的3%。即使某些检索到的块看起来与查询块(例如C3和C)非常不同,但除A4之外的所有检索到的块都已由专家病理学家验证包含肿瘤细胞(即正确的类别检索)。
参考编号列表
100 方法
102-110 步骤
200 图像分析系统
202 处理器
204 显示器
206 图像块库
208 整个载玻片加热m达ap
210 存储介质
212 数字图像
214 拆分模块
216 用标签标记的块的包
218 特征提取模块
220 特征向量
222 注意力机器学习逻辑程序
224 特征向量权重
226 多实例学习程序
228 块的数值相关度得分
230 GUI生成模块
232 GUI
300 包含报告块库的GUI
302 相似块的第一子集第一组织模式
304 代表第二组织模式的相似块的第二子集
306 代表第三组织模式的相似块的第三子集
308 代表第四组织模式的相似块的第四子集
310 可选择GUI元素集
312 整个载玻片图像
314 整个载玻片图像
316 整个载玻片图像
318 整个载玻片图像
322 相关度热图
324 相关度热图
326 相关度热图
328 相关度热图
400 包含相似性搜索块库的GUI
402 相似块的第一子集第一组织模式
404 代表第二组织模式的相似块的第二子集
406 代表第三组织模式的相似块的第三子集
408 代表第四组织模式的相似块的第四子集
410 可选择GUI元素集
412 整个载玻片图像
414 整个载玻片图像
416 整个载玻片图像
418 整个载玻片图像
422 相似性热图
424 相似性热图
426 相似性热图
428 相似性热图
430 查询块
950 特征提取MLL的网络架构
602 用作输入的图像块
603 输入层
604 多层
606 瓶颈层
800 数字组织图像切成多个块
802 块T1
804 块T2
806 块T3
808 第一空间接近度阈值(2D)
810 第二空间接近度阈值(2D)
812 用标签标记“相似”的块对
813 用标签标记“相似”的块对
814 用标签标记“相异”的块对
815 用标签标记“相异”的块对
816 训练数据
832 与图像300对齐的数字组织图像
834 与图像332对齐的数字组织图像
836 第一空间接近度阈值(3D)
838 第二空间接近度阈值(3D)
840 块T4
842 块T5
900 孪生神经网络
902 子网络
903 子网络
904 第一输入块
905 第一网络N1的输入层
906 隐藏层
907 基于接近度(“测量”)的相似性标签
908 适用于针对第一输入块计算特征向量的隐藏层
910 从第一输入块中904中提取的特征向量
914 第二输入块
915 第二网络N2的输入层
916 隐藏层
918 适用于针对第二输入块计算特征向量的隐藏层
920 从第二输入块914中提取的特征向量
922 输入块对
924 连接网络N1、N2的输出层
926 预测相似度标签
928 训练数据集的单独数据记录
950 特征提取MLL
952 单独输入图像/块
954 特征向量
980 计算机系统
982 处理器
984 用户
986 单独输入图像/块
988 搜索特征向量
990 基于特征向量的搜索引擎
992 包含多个图像或块的数据库
994 返回的相似性搜索结果

Claims (25)

1.一种鉴定指示患者相关属性值的组织模式的方法(100),所述方法包括:
-针对一组患者中的每个患者,通过图像分析系统(200),接收(102)所述患者的组织样品的至少一个数字图像(212),所述至少一个图像已分配了至少两个不同的预定义标签中的一个标签,每个标签指示在用标签标记的图像中描绘其组织的所述患者的患者相关属性值;
-通过所述图像分析系统,将每个接收到的图像拆分(104)成图像块集(216),每个块已分配了分配给用于创建所述块的图像的标签;
-针对所述块中的每一个块,通过所述图像分析系统,计算(106)特征向量(220),所述特征向量包含从所述块中描绘的组织模式选择性地提取的图像特征;
-基于针对所述组中的所有患者接收到的所述图像的所述块和相应的特征向量训练(108)多实例学习(MIL)程序(226),每个块集被所述MIL程序处理为具有相同标签的块包,所述训练包括分析所述特征向量(220)以便针对所述块中的每一个计算数值(228),所述数值指示与所述块相关联的所述特征向量相对于分配给导出所述块的所述图像的所述标签的预测能力;以及-经由所述图像分析系统的GUI(232),输出(110)图像块报告库(206),所述报告库包含所述块的子集,所述块的子集根据它们的相应计算出的数值进行分选,
所述报告库中显示的图像块是可选择的,
所述GUI被配置成用于计算并显示相似性搜索块库,所述计算包括:
-接收用户对报告库图像块中的特定块的选择;
-通过鉴定从所有接收到的图像获得的已分配了特征向量的所有块来鉴定从所有接收到的图像获得的描绘与所选择块相似的组织模式的所有块,所述特征向量与所选择块的特征向量的相似性超过阈值;
-显示所述相似性搜索块库,所述相似性搜索块库选择性地包括所述已识别的块;以及
-确定所述已鉴定的块内已分配了与所选择块相同的标签的块的数目和/或分数,其中所显示的相似性搜索块库进一步包括所确定的数目和/或分数。
2.根据权利要求1所述的方法,所述接收到的数字图像包括:
-组织样品的数字图像,其像素强度值与非生物标志物特异性染色剂的量相关;和/或
-组织样品的数字图像,其像素强度值与生物标志物特异性染色剂的量相关,所述生物标志物特异性染色剂适于选择性地对所述组织样品中包含的生物标志物进行染色;
-以下的组合:
·组织样品的数字图像,所述数字图像的像素强度值与第一生物标志物特异性染色剂的量相关,以及
·组织样品的数字图像,所述数字图像的像素强度值与非生物标志物特异性染色剂的量相关,所述生物标志物特异性染色剂适于选择性地对所述组织样品中包含的生物标志物进行染色,
其中描绘相同的组织样品和/或描绘来自同一患者的相邻组织样品的所有数字图像均已分配了相同的标签,并且其中所述MIL被配置成将从所述数字图像导出的所有块处理为同块包的成员。
3.根据权利要求2所述的方法,其中所述非生物标志物特异性染色剂是苏木精染色剂或H&E染色剂。
4.根据权利要求1所述的方法,所述图像块报告库(300)中显示的图像块是从所述接收到的图像中的一个或多个图像(312、314、
316、318)导出的,所述方法包括针对报告块库中的一个或多个图像中的每一个:
-鉴定所述报告库中的所述块中的一个块,所述一个块已从所述图像导出并且已分配了从所述图像导出的所有块中的最高得分,所述得分是由所述MIL针对每个块计算出的数值,或者是由注意力MLL针对每个块计算出的权重,或者是由所述MIL和所述注意力MLL针对所述块计算出的所述数值和所述权重的组合;
-针对所述图像的其它块中的每一个,通过将另一个块的得分与具有最高得分的块的得分进行比较来计算相关度指标,其中所述相关度指标是与所述另一个块的得分和具有最高得分的块的得分的差异负相关的数值;
-作为所述相关度指标的函数来计算(208)所述图像(312、314、316、318)的相关度热图(322、324、326、328),所述相关度热图的像素颜色和/或像素强度指示针对所述图像中的所述块计算出的所述相关度指标;以及
-显示所述相关度热图。
5.根据权利要求1所述的方法,其中所述报告库中的所述图像块基于从其组织样品图像导出所述块的患者进行分组,和/或其中所述报告库中的所述图像块基于分配给从中导出所述块的图像的标签进行分组。
6.根据权利要求1所述的方法,其进一步包括:
-通过创建额外的块集从计算方面增加块包的数目,每个额外的块集被所述MIL程序处理为已分配了与从中生成源块的组织图像相同的标签的额外的块包。
7.根据权利要求6所述的方法,其中所述额外的块集的创建包括:
·对至少块的子集应用一个或多个伪影生成算法以创建包含所述伪影的新块,和/或
·提高或降低至少块的子集的分辨率,以创建比它们相应的源块粒度更细或粒度更粗的新块。
8.根据权利要求1所述的方法,其进一步包括:
-计算从一个或多个接收到的数字图像获得的块群集,其中块基于它们的特征向量的相似性被分组到群集中。
9.根据权利要求1所述的方法,其中所述MIL程序的训练包括:对所述块集进行重复地采样以便从所述块集中挑选块的子集;以及基于所述块的子集训练所述MIL程序。
10.根据权利要求8所述的方法,其中所述MIL程序的训练包括:对所述块集进行重复地采样以便从所述块集中挑选块的子集;以及基于所述块的子集训练所述MIL程序,且其中所述采样包括从针对患者获得的所述块群集中的每一个中选择块,使得在所述采样中创建的每个块的子集中的块数目对应于从中获取所述块的群集的大小。
11.根据权利要求1所述的方法,其中针对所述块中的每一个块所述特征向量的计算包括接收在所述块中描绘了其组织样品的患者的患者相关数据,以及以所述特征向量中的一个或多个特征的形式表示所述患者相关数据。
12.根据权利要求11所述的方法,其中所述患者相关数据选自包括以下项的组:基因组数据、RNA序列数据、患者的已知疾病、年龄、性别、体液中的代谢物浓度、健康参数和当前用药。
13.根据权利要求1所述的方法,其中所述特征向量的计算通过经训练的机器学习逻辑(950)执行。
14.根据权利要求13所述的方法,其中所述特征向量的计算通过包含至少一个瓶颈层(606)的经训练的全卷积神经网络执行。
15.根据权利要求1所述的方法,其中所述特征向量通过已基于包含用标签标记的块对的训练数据集被训练的特征提取机器学习逻辑来计算,每个标签表示由所述块对描绘的两种组织模式的相似性并且作为所述块对中的两个块的空间距离的函数进行计算。
16.根据权利要求15所述的方法,其进一步包括:
-接收各自描绘组织样品的多个数字训练图像(800、832、834);
-将接收到的训练图像中的每一个图像拆分成多个块;
-自动生成块对(812、813、814、815、922),每个块对已分配了指示在所述对中的两个块中描绘的两种组织模式的相似性程度的标签(907),其中所述相似性程度作为所述对中的两个块的空间接近度(d1、d2、d3、d4)的函数进行计算,其中所述距离与相异性正相关;
-使用所述用标签标记的块对作为训练数据来训练机器学习逻辑MLL(900、902、903、950),以生成经训练的MLL(900),所述经训练的MLL已经学会从数字组织图像提取特征向量,所述数字组织图像以相似的图像具有相似的特征向量并且相异的图像具有相异的特征向量的方式表示图像;以及
-使用所述经训练的MLL或其分量来计算所述块的所述特征向量。
17.根据权利要求16所述的方法,其中所述经训练的MLL是孪生(Siamese)神经网络(900),其包括由它们的输出层(924)连接的两个神经元子网络(902、903),所述方法进一步包括:
-将所述经训练的孪生神经网络(900)的所述子网络中的一个子网络(902)单独存储在存储介质上;以及
-使用所存储的子网络作为所述经训练的MLL(900)的要用于计算所述块的所述特征向量的分量。
18.根据权利要求1所述的方法,其中所述标签选自包括以下项的组:
-所述患者对特定药物产生应答的指示;
-所述患者已发展出转移或特定形式的转移的指示;
-癌症患者在对特定疗法的应答中显示出病理学完全缓解(pCR)的指示;
-所述患者患有具有特定形态状态或微卫星状态的癌症的指示;
-患者已对特定药物发展出不良反应的指示;
-遗传属性;和/或
-RNA表达谱。
19.根据权利要求18所述的方法,其中所述转移是微转移。
20.根据权利要求18所述的方法,其中所述遗传属性是基因签名。
21.根据权利要求1所述的方法,所述MIL程序的训练包括:
-基于所有接收到的图像的所有块的所述特征向量(220)和所述标签训练注意力机器学习逻辑程序(222)—注意力MLL程序,
以针对所述块中的每一个块计算权重,所述权重指示所述特征向量和相应块相对于由所述块的所述标签表示的患者相关属性值的预测能力;
-针对所述块中的每一个块,计算组合预测值,所述组合预测值是由所述MIL针对所述块计算出的数值的以及由所述注意力MLL针对所述块计算出的权重的函数,所述组合数值指示特征向量和相应块相对于由所述块的所述标签表示的患者相关属性值的预测能力;
-计算指示针对特定标签获得的组合预测值与分配给所述块的实际标签的差异的损失值;以及
-基于计算出的损失值,使用反向传播来适配所述MIL程序的模型。
22.根据权利要求1所述的方法,所述MIL程序的训练包括:
-基于所有接收到的图像的所有块的所述特征向量(220)和所述标签训练注意力机器学习逻辑程序(222)—注意力MLL程序,
以针对所述块中的每一个块计算权重,所述权重指示所述特征向量和相应块相对于由所述块的所述标签表示的患者相关属性值的预测能力;
-针对所述块中的每一个块,作为由所述注意力MLL针对所述块计算出的权重的和从所述块提取的特征向量的函数来计算加权特征向量;
-将所述加权特征向量输入到所述MIL中,以使得所述MIL能够使用所述加权特征向量作为所述特征向量来计算针对所述块中的每一个块的数值;
-计算指示针对特定标签获得的数值与分配给所述块的实际标签的差异的损失值;以及
-基于计算出的损失值,使用反向传播来适配所述MIL程序的模型。
23.根据权利要求1所述的方法,其进一步包括:
-针对另外一组患者中的每个患者,通过所述图像分析系统接收所述患者的组织样品的至少一个另外的数字图像,每个另外的图像已分配了所述预定义标签中的一个;
-通过所述图像分析系统,将每个接收到的另外的图像拆分成另外的图像块集,每个块已分配了分配给用于创建另外的块的图像的标签;
-针对所述另外的块中的每一个块,通过所述图像分析系统计算另外的特征向量,所述另外的特征向量包含从所述另外的块并从其中描绘的组织模式选择性地提取的图像特征;
-在针对所述另外的组中的所有患者接收到的所有另外的图像的所述另外的块和相应的另外的特征向量上应用经训练的多实例学习(MIL)程序,以便针对所述另外的块中的每一个块,计算指示从中导出所述另外的块的图像已分配了特定标签的可能性的数值,所述数值作为学习到的所述另外的块的所述特征向量的非线性变换函数进行计算;以及
-经由所述图像分析系统的所述GUI,输出另外的图像块报告库,所述另外的报告库包含多个所述另外的块,所述块根据它们的相应计算出的数值进行分选和/或包含它们的相应数值的图形表示。
24.根据权利要求1所述的方法,其进一步包括:
-自动选择或使得用户能够选择一个或多个“高预测能力块”,其中高预测能力块是其数值(228)超过高预测能力阈值的块,所述数值指示其特征向量相对于所述标签中的特定标签的预测能力;和/或
-自动选择或使得用户能够选择一个或多个“伪影块”,其中伪影块是其数值(228)低于最小预测能力阈值或描绘一个或多个伪影的块,所述数值指示其特征向量相对于所述标签中的特定标签的预测能力;
-响应于对一个或多个高预测能力块和/或伪影块的选择,自动重新训练所述MIL程序,从而从训练集中排除所述高预测能力块和所述伪影块。
25.一种用于鉴定指示患者相关属性值的组织模式的图像分析系统(200),所述图像分析系统包括:
-至少一个处理器(202);
-易失性或非易失性存储介质(210),其包含一组患者的组织的数字组织图像(212),其中针对所述一组患者中的每个患者,将所述患者的组织样品的至少一个数字图像存储在所述存储介质中,所述至少一个图像已分配了至少两个不同的预定义标签中的一个,每个标签指示在用标签标记的图像中描绘其组织的所述患者的患者相关属性值;
-图像拆分模块(214),所述图像拆分模块可由所述至少一个处理器执行并且被配置成将所述图像中的每一个图像拆分成图像块集(216),每个块已分配了分配给用于创建所述块的图像的标签;
-特征提取模块(218),所述特征提取模块可由所述至少一个处理器执行并且被配置成针对所述块中的每一个块计算特征向量(220),所述特征向量包含从所述块中描绘的组织模式选择性地提取的图像特征;
-多实例学习(MIL)程序(226),所述MIL程序可由所述至少一个处理器执行并且被配置成在所述MIL程序的训练阶段接收所述组中的所有患者的所有图像的所有所述块和相应的特征向量(220),所述MIL程序被配置成在所述训练阶段将每个块集处理为具有相同标签的块包,所述训练包括分析所述特征向量以便针对所述块中的每一个块计算数值(228),所述数值指示与所述块相关联的特征向量相对于分配给从中导出所述块的图像的标签的预测能力;以及
-GUI生成模块(230),所述GUI生成模块可由所述至少一个处理器执行并且被配置成生成并输出包含图像块报告库(206)的GUI(232),所述报告库包含所述块的子集,所述块的子集根据它们的相应计算出的数值进行分选;以及
-显示器(204),所述显示器适于显示具有所述图像块报告库的所述GUI,
所述报告库中显示的图像块是可选择的,
所述GUI被配置成用于计算并显示相似性搜索块库,所述计算包括:
-接收用户对报告库图像块中的特定块的选择;
-通过鉴定从所有接收到的图像获得的已分配了特征向量的所有块来鉴定从所有接收到的图像获得的描绘与所选择块相似的组织模式的所有块,所述特征向量与所选择块的特征向量的相似性超过阈值;
-显示所述相似性搜索块库,所述相似性搜索块库选择性地包括所述已识别的块;以及
-确定所述已鉴定的块内已分配了与所选择块相同的标签的块的数目和/或分数,其中所显示的相似性搜索块库进一步包括所确定的数目和/或分数。
CN202080014846.4A 2019-03-12 2020-03-09 用于预后组织模式识别的多实例学习器 Active CN113454733B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP19162244.8 2019-03-12
EP19162244 2019-03-12
EP19165967 2019-03-28
EP19165967.1 2019-03-28
PCT/EP2020/056174 WO2020182710A1 (en) 2019-03-12 2020-03-09 Multiple instance learner for prognostic tissue pattern identification

Publications (2)

Publication Number Publication Date
CN113454733A CN113454733A (zh) 2021-09-28
CN113454733B true CN113454733B (zh) 2024-04-05

Family

ID=69726594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080014846.4A Active CN113454733B (zh) 2019-03-12 2020-03-09 用于预后组织模式识别的多实例学习器

Country Status (5)

Country Link
US (1) US11901077B2 (zh)
EP (1) EP3938948A1 (zh)
JP (1) JP7270058B2 (zh)
CN (1) CN113454733B (zh)
WO (1) WO2020182710A1 (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10818386B2 (en) * 2018-11-21 2020-10-27 Enlitic, Inc. Multi-label heat map generating system
US20220254177A1 (en) * 2019-06-07 2022-08-11 Leica Microsystems Cms Gmbh System and method for processing biology-related data and a microscope
CA3147085A1 (en) * 2019-09-09 2021-03-18 Jason Lock Systems and methods for processing images of slides for digital pathology
US11423678B2 (en) 2019-09-23 2022-08-23 Proscia Inc. Automated whole-slide image classification using deep learning
KR20210071410A (ko) * 2019-12-06 2021-06-16 삼성전자주식회사 센서 특화 이미지 인식 장치 및 방법
US11508481B2 (en) * 2020-03-06 2022-11-22 Salesforce, Inc. Machine-learned hormone status prediction from image analysis
CN113393940B (zh) * 2020-03-11 2024-05-24 宏达国际电子股份有限公司 控制方法以及医疗系统
AU2021345220A1 (en) * 2020-09-18 2023-04-27 Proscia Inc. Training end-to-end weakly supervised networks at the specimen (supra-image) level
WO2022066736A1 (en) 2020-09-23 2022-03-31 Proscia Inc. Critical component detection using deep learning and attention
US20220108097A1 (en) * 2020-10-05 2022-04-07 Rakuten, Inc. Dual encoder attention u-net
WO2022076479A1 (en) * 2020-10-05 2022-04-14 Modern Adjusting Services, LLC Methods, systems, and software for inspection of a structure
WO2022090205A1 (en) * 2020-10-30 2022-05-05 Genfit A method and a system for obtaining a training dataset usable for training a neural network to detect cells, using color deconvolutions and geometrical attributes
KR102510221B1 (ko) * 2020-12-24 2023-03-15 연세대학교 산학협력단 골절 위험 예측 방법 및 장치
US11791035B2 (en) 2021-03-09 2023-10-17 PAIGE.AI, Inc. Systems and methods for artificial intelligence powered molecular workflow verifying slide and block quality for testing
US11545253B2 (en) 2021-05-21 2023-01-03 PAIGE.AI, Inc. Systems and methods to process electronic images to categorize intra-slide specimen tissue type
JP2024528609A (ja) * 2021-07-14 2024-07-30 ルニット インコーポレイテッド 病理イメージ分析方法及びシステム
US20230115448A1 (en) * 2021-10-12 2023-04-13 PAIGE.AI, Inc. Systems and methods for processing electronic images with preanalytic adjustment
CN114121226B (zh) * 2021-12-02 2024-09-06 中国科学院自动化研究所 基于Unet模型的生物标志物预测系统、方法、设备
CN114429281B (zh) * 2021-12-30 2022-11-15 华中师范大学 一种基于深度聚类算法的在线学习者活跃度测评方法
CN114496142A (zh) * 2021-12-31 2022-05-13 上海艾莎医学科技有限公司 图片打标分配方法、装置、系统及存储介质
KR20230116727A (ko) * 2022-01-28 2023-08-04 서울대학교병원 인공지능 기반의 바이오 마커 선별 장치 및 방법
AU2023225716A1 (en) * 2022-02-24 2024-09-12 Vinay Pulim System and method for annotating pathology images to predict patient outcome
CN114648680B (zh) * 2022-05-17 2022-08-16 腾讯科技(深圳)有限公司 图像识别模型的训练方法、装置、设备、介质
JP7342194B1 (ja) 2022-05-19 2023-09-11 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
WO2023228230A1 (ja) * 2022-05-23 2023-11-30 日本電気株式会社 分類装置、学習装置、分類方法、学習方法、およびプログラム
WO2023244567A1 (en) * 2022-06-13 2023-12-21 Rensselaer Polytechnic Institute Self-supervised representation learning with multi-segmental informational coding
CN115578797B (zh) * 2022-09-30 2023-08-29 北京百度网讯科技有限公司 模型训练方法、图像识别方法、装置及电子设备
CN115908374B (zh) * 2022-12-14 2024-07-19 广州科盛隆纸箱包装机械有限公司 基于度量学习的瓦楞纸箱印刷图案匹配检测方法、系统及存储介质
WO2024130333A1 (en) * 2022-12-22 2024-06-27 Franklin-AI Pty Ltd Diagnostic data user interfaces
WO2024137801A1 (en) * 2022-12-22 2024-06-27 Verily Life Sciences Llc Gene expression prediction from whole slide images
CN116646088B (zh) * 2023-07-27 2023-12-01 广东省人民医院 一种预测方法、装置、设备及介质
CN117637189B (zh) * 2023-12-20 2024-06-21 北京壹永科技有限公司 多模态大语言模型的训练及推理方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103154933A (zh) * 2010-07-28 2013-06-12 培力(香港)健康产品有限公司 用于将草药成分与中医中的疾病相关联的人工智能和方法
WO2014089241A2 (en) * 2012-12-04 2014-06-12 Caris Mpi, Inc. Molecular profiling for cancer
WO2016061586A1 (en) * 2014-10-17 2016-04-21 Cireca Theranostics, Llc Methods and systems for classifying biological samples, including optimization of analyses and use of correlation
CA2965564A1 (en) * 2014-11-10 2016-05-19 Ventana Medical Systems, Inc. Classifying nuclei in histology images
CN108140239A (zh) * 2015-09-23 2018-06-08 皇家飞利浦有限公司 用于组织辨识的方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8170330B2 (en) * 2007-10-30 2012-05-01 Siemens Aktiengesellschaft Machine learning for tissue labeling segmentation
US9317781B2 (en) * 2013-03-14 2016-04-19 Microsoft Technology Licensing, Llc Multiple cluster instance learning for image classification
WO2015073935A1 (en) * 2013-11-15 2015-05-21 Corista LLC Continuous image analytics
US10489633B2 (en) * 2016-09-27 2019-11-26 Sectra Ab Viewers and related methods, systems and circuits with patch gallery user interfaces
EP3659110A1 (en) 2017-07-24 2020-06-03 Ventana Medical Systems, Inc. Methods and systems for evaluation of immune cell infiltrate in tumor samples
EP3769282B1 (en) * 2018-03-23 2023-08-23 Memorial Sloan Kettering Cancer Center Systems and methods for multiple instance learning for classification and localization in biomedical imagining

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103154933A (zh) * 2010-07-28 2013-06-12 培力(香港)健康产品有限公司 用于将草药成分与中医中的疾病相关联的人工智能和方法
WO2014089241A2 (en) * 2012-12-04 2014-06-12 Caris Mpi, Inc. Molecular profiling for cancer
WO2016061586A1 (en) * 2014-10-17 2016-04-21 Cireca Theranostics, Llc Methods and systems for classifying biological samples, including optimization of analyses and use of correlation
CA2965564A1 (en) * 2014-11-10 2016-05-19 Ventana Medical Systems, Inc. Classifying nuclei in histology images
CN108140239A (zh) * 2015-09-23 2018-06-08 皇家飞利浦有限公司 用于组织辨识的方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Attention-based Deep Multiple Instance Learning";Maximilian Ilse et al.;Proceedings of the 35 th International Conference on Machine Learning;第2.2部分 *
Gabriele Campanella et al..Terabyte-scale Deep Multiple Instance Learning for Classication and Localization in Pathology.ARXIV.ORG,CORNELL UNIVERSITY LIBRARY.2018, Dataset3与Methods4以及图3 . *
一种病理图像自动标注的机器学习方法;张钢;钟灵;黄永慧;;计算机研究与发展(第09期);第1页 *

Also Published As

Publication number Publication date
JP2022527145A (ja) 2022-05-31
US20210350176A1 (en) 2021-11-11
JP7270058B2 (ja) 2023-05-09
US11901077B2 (en) 2024-02-13
WO2020182710A1 (en) 2020-09-17
EP3938948A1 (en) 2022-01-19
CN113454733A (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
CN113454733B (zh) 用于预后组织模式识别的多实例学习器
US20220237788A1 (en) Multiple instance learner for tissue image classification
US11756318B2 (en) Convolutional neural networks for locating objects of interest in images of biological samples
US12026875B2 (en) Machine learning using distance-based similarity labels
US8831327B2 (en) Systems and methods for tissue classification using attributes of a biomarker enhanced tissue network (BETN)
US11176412B2 (en) Systems and methods for encoding image features of high-resolution digital images of biological specimens
Rauf et al. Attention-guided multi-scale deep object detection framework for lymphocyte analysis in IHC histological images
CN114600155A (zh) 用于细胞检测和分割的弱监督多任务学习
Momeni et al. Deep recurrent attention models for histopathological image analysis
Gupta et al. Simsearch: A human-in-the-loop learning framework for fast detection of regions of interest in microscopy images
Fernandez-Martín et al. Uninformed Teacher-Student for hard-samples distillation in weakly supervised mitosis localization
KR20230063147A (ko) 다단계 특징 분석을 사용한 전립선 조직의 효율적인 경량 cnn과 앙상블 머신 러닝 분류 방법 및 시스템
Alim et al. Integrating convolutional neural networks for microscopic image analysis in acute lymphoblastic leukemia classification: A deep learning approach for enhanced diagnostic precision
Golts et al. Simultaneous detection and classification of partially and weakly supervised cells
Sabata Digital pathology imaging-The next frontier in medical imaging
Swain Combining VGG16 with Random Forest and Capsule Network for Detecting Multiple Myeloma
Lu et al. A deep learning approach for tissue spatial quantification and genomic correlations of histopathological images
Koohbanani Working with scarce annotations in computational pathology
Yuenyong et al. Detection of centroblast cells in H&E stained whole slide image based on object detection
Shamsaddini-Farsangi Instance Segmentation and Classification of Histology Images Using a Multi-task Learning Strategy Based on Cross-stitch and Self-attention
WO2024118842A1 (en) Systems and methods for detecting tertiary lymphoid structures
Yang Using convolutional neural networks to predict NRG1-fusions in PDAC biopsy images
Boushehri et al. PXPermute reveals staining importance in multichannel imaging flow cytometry
Kaczmarzyk et al. Explainable AI for computational pathology identifies model limitations and tissue biomarkers
Ren Computer Aided Analysis of Prostate Histopathology Images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40051109

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant