CN117940971A - 用于预测双重数字病理学图像中的表型的机器学习技术 - Google Patents

用于预测双重数字病理学图像中的表型的机器学习技术 Download PDF

Info

Publication number
CN117940971A
CN117940971A CN202280061617.7A CN202280061617A CN117940971A CN 117940971 A CN117940971 A CN 117940971A CN 202280061617 A CN202280061617 A CN 202280061617A CN 117940971 A CN117940971 A CN 117940971A
Authority
CN
China
Prior art keywords
image
classification
probability
cells
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280061617.7A
Other languages
English (en)
Inventor
J·F·马丁
聂垚
R·温戈帕尔
王兴伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ventana Medical Systems Inc
Original Assignee
Ventana Medical Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ventana Medical Systems Inc filed Critical Ventana Medical Systems Inc
Publication of CN117940971A publication Critical patent/CN117940971A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/695Preprocessing, e.g. image segmentation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

组织切片的双重免疫组织化学(IHC)染色允许在单细胞水平上同时检测两种生物标志物及其共表达,并且不需要两种IHC染色剂和额外配准来识别共定位。包括病理学家在内的人类通常难以对双重IHC进行可靠评分。本文的方法和系统使用机器学习模型和概率图来检测和记录个体表型ER/PR。

Description

用于预测双重数字病理学图像中的表型的机器学习技术
相关申请的交叉引用
本申请要求于2021年9月17日提交的美国临时专利申请63/261,308的权益和优先权,该美国临时专利申请特此出于所有目的通过引用整体并入。
技术领域
本公开涉及数字病理学,并且具体涉及用于使用机器学习技术来预测双重数字病理学图像中描绘的细胞中的两种或更多种表型的技术。
背景技术
数字病理学涉及将病理学载玻片(例如,组织病理学或细胞病理学玻璃载玻片)扫描为数字图像。出于包括疾病诊断、对治疗的反应的评估以及药物制剂的开发以对抗疾病的多种原因,数字图像内的组织和/或细胞可以随后通过数字病理学图像分析进行检查和/或由病理学家进行解释。为了检查数字图像(其几乎是透明的)内的组织和/或细胞,可以使用选择性结合到组织和/或细胞组分的各种染色测定(例如,免疫染色剂)来制备病理学载玻片。
免疫组织化学(IHC)染色用于检测固定至载玻片的样本中特定蛋白质的存在。雌激素受体(ER)和孕激素受体(PR)蛋白是推动乳腺癌临床管理和治疗决策的重要生物标志物。单次或单重IHC染色包括针对单一生物标志物对单张载玻片进行染色。单次IHC染色需要使用多张载玻片来寻找生物标志物的共定位。为了寻找共定位,载玻片中的每一张的图像必须相互配准或映射,并且然后可以叠加以创建显示两种生物标志物的单一图像。
组织切片的双重免疫组织化学(IHC)染色允许同时检测单张载玻片上的两种生物标志物。因此,双重IHC染色允许在单细胞水平上分析生物标志物的共表达,而不是使用两张载玻片,每张载玻片具有单一IHC染色剂和额外的配准以识别共定位。然而,双重IHC载玻片确实面临某些问题。例如,人类(例如,病理学家)通常难以对双重IHC载玻片进行可靠评分。病理学家通常无法直接对双重IHC载玻片(例如ER/PR)进行评分,因为生物标志物通常叠加和聚集。此外,评分过程可能是耗时的,因为每张载玻片可能含有数千个细胞。因此,正确识别和计算表达和共定位水平的任务在实践中几乎是不可能的。
发明内容
在各种实施方案中,提供了一种预测双重数字病理学图像中描绘的细胞中的两种或更多种表型的计算机实现的方法。该计算机实现的方法包括访问数字病理学图像,该数字病理学图像描绘生物学样品的针对第一类型生物标志物和第二类型生物标志物进行染色的至少一部分;该计算机实现的方法进一步包括分解数字病理学图像以生成:(i)第一合成单重图像,其描绘生物学样品的至少一部分,针对该至少一部分识别第一类型生物标志物;和(ii)第二合成单重图像,其描绘生物学样品的至少一部分,该至少一部分识别第二类型生物标志物。该计算机实现的方法进一步包括将第一机器学习模型应用于第一合成单重图像以:(i)从第一合成单重图像检测第一多个细胞;以及确定针对第一多个细胞中的每个细胞的第一组分类中的分类。第一组中的分类指示细胞是否包括具有第一生物标志物类型的生物标志物。
该计算机实现的方法进一步包括将第二机器学习模型应用于第二合成单重图像以:(i)从第二合成单重图像检测第二多个细胞;以及(ii)确定针对第二多个细胞中的每个细胞的第二组分类中的分类。第二组中的分类指示细胞是否包括具有第二生物标志物类型的生物标志物。在一些情况下,第一组分类不同于第二组分类。该计算机实现的方法进一步包括合并第一多个细胞的分类和第二多个细胞的分类以生成合并的分类。该计算机实现的方法进一步包括输出具有合并的分类的数字病理学图像。
在一些实施方案中,确定针对第一多个细胞的分类包括生成第一组概率图。第一组概率图中的每个概率图包括多个像素并且与第一组分类中的分类相关联。第一组概率图中的每个概率图也识别针对多个像素中的每个像素的概率值,该概率值指示像素是否对应于分类。确定针对第一多个细胞的分类进一步包括针对第一多个细胞中的每个细胞:(i)识别第一组概率图中的概率图,该概率图包括针对代表细胞的一个或多个像素的最高概率值;和(ii)为细胞分配与经识别的概率图相关联的分类。
在一些实施方案中,确定针对第二多个细胞的分类包括生成第二组概率图。第二组概率图中的每个概率图包括多个像素并且与第二组分类中的分类相关联。第二组概率图中的每个概率图也识别针对多个像素中的每个像素的概率值,该概率值指示像素是否对应于分类。确定针对第二多个细胞的分类包括针对第二多个细胞中的每个细胞:(i)识别第二组概率图中的概率图,该概率图包括针对代表细胞的一个或多个像素的最高概率值;和(ii)为细胞分配与经识别的概率图相关联的分类。
在一些实施方案中,第一机器学习模型和/或第二机器学习模型包括U-Net模型。
在一些实施方案中,第一类型生物标志物是雌激素受体蛋白并且第二类型生物标志物是孕激素受体蛋白。
在一些实施方案中,输出具有合并的分类的数字病理学图像包括将合并的分类叠加到数字病理学图像上。
在一些实施方案中,使用具有合并的分类的数字病理学图像作为用于训练第三机器学习模型的训练图像。
在一些实施方案中,确定针对第一多个细胞的分类包括生成第一组概率图。第一组概率图中的每个概率图包括多个像素并且与第一组分类中的分类相关联,其中概率图识别针对多个像素中的每个像素的概率值,该概率值指示像素是否对应于分类。
在一些实施方案中,确定针对第二多个细胞的分类包括生成第二组概率图。第二组概率图中的每个概率图包括多个像素并且与第二组分类中的分类相关联,其中概率图识别针对多个像素中的每个像素的概率值,该概率值指示像素是否对应于分类。
在一些实施方案中,将第一组概率图和第二组概率图合并以生成锚点组。为锚点组中的每个锚点分配第一组分类中的第一分类和第二组分类中的第二分类。
在一些实施方案中,提供了一种系统,其包括一个或多个数据处理器和非暂时性计算机可读存储介质,其包含指令,该指令当在该一个或多个数据处理器上执行时,使得该一个或多个数据处理器进行本文所公开的一种或多种方法的一部分或全部。
在一些实施方案中,提供了一种计算机程序产品,其有形地体现在非暂时性机器可读存储介质中,并且包括被配置成促使一个或多个数据处理器执行本文所公开的一种或多种方法的部分或全部的指令。
本公开的一些实施方案包括一种系统,其包括一个或多个数据处理器。在一些实施方案中,该系统包括包含指令的非暂时性计算机可读存储介质,该指令在一个或多个数据处理器上被执行时使一个或多个数据处理器执行本文所公开的一种或多种方法的一部分或全部和/或本文公开的一种或多种过程的一部分或全部。本公开的一些实施方案包括一种有形地体现在非暂时性机器可读存储介质中的计算机程序产品,其包括指令,所述指令被配置为使一个或多个数据处理器执行本文公开的一种或多种方法的一部分或全部和/或本文公开的一种或多种过程的一部分或全部。
已采用的术语和表达被用作描述性而非限制性的术语,并且在使用这些术语和表达时,无意排除所示出和描述的特征或其部分的任何等同物,但是应当认识到,在所要求保护的本发明的范围内,各种修改是可能的。因此,应当理解,尽管已通过实施方案和任选特征具体地公开了所要求保护的本发明,但是本领域技术人员可以采用本文所公开的概念的修改和变化,并且认为这样的修改和变化在由所附权利要求限定的本发明范围内。
附图说明
通过参考附图描述实例,各种实施方案的方面和特征将更加明显,其中:
图1显示了示出根据一些实施方案的使用机器学习技术来合并在合成单重图像中检测到的表型的图像处理系统100的示意图。
图2显示了根据一些实施方案的用于生成数字病理学图像的示例性网络。
图3显示了示出根据一些实施方案的用于使用机器学习模型处理数字病理学图像的计算环境的框图。
图4显示了根据一些实施方案的双重ER/PR和相邻单重IHC ER/PR的实例。
图5显示了根据一些实施方案的从双重ER/PR图像中选择并在单重IHC ER和IHCPR图像上配准的视场(FOV)。
图6A-6C显示了根据一些实施方案的用于生成合成单重图像的示例性技术。
图7示出了根据一些实施方案的通过预训练的U-Net模型获得的dabsyl ER和tamra PR的示例性初始种子位置。
图8显示了根据一些实施方案的用于检测双重载玻片图像中的表型的机器学习模型的示例性架构。
图9A显示了根据一些实施方案的残差块。
图9B显示了根据一些实施方案的金字塔形层。
图10示出了根据一些实施方案的用于训练机器学习模型以检测双重图像中的表型的过程。
图11显示了根据一些实施方案的由两个模型生成的示例性种子位置和不同类别标记物。
图12示出了根据一些实施方案的由ER模型生成的五个概率图。
图13示出了根据一些实施方案的由ER和PR通道中的两个U-Net模型生成的概率图之间的五个合并概率图的计算。
图14示出了根据一些实施方案的通过搜索ER与PR通道之间的合并概率图获得的锚点的实例。
图15示出了根据一些实施方案的在像素水平下的示例性锚点以及周围的ER+和PR+点。
图16示出了根据一些实施方案的从概率图确定的示例性标记物图。
图17示出了根据一些实施方案的将锚点分配到ER+/ER-/其他中的实例。
图18示出了根据一些实施方案的用于将锚点分配到合成ER图像中的ER+/ER-/其他中的过程。
图19示出了根据一些实施方案的将锚点分配到PR+/PR-/其他中的实例。
图20示出了根据一些实施方案的用于将锚点分配到合成PR图像中的PR+/PR-/其他中的过程。
图21示出了根据一些实施方案的叠加在双重图像中的合并表型的实例。
图22示出了根据一些实施方案的用于使用经训练的机器学习模型来检测双重图像中的表型的过程。
图23示出了根据一些实施方案的使用合并表型进行双重ER/PR算法的训练流程。
图24A-24B示出了根据一些实施方案的三位病理学家的共识评分以及U-Net和合并表型算法。
图25示出了根据一些实施方案的双重ER/PR结果的表型检测的实例。
图26A-26B示出了根据一些实施方案的具有不同表型类型的双重ER/PR的实例。
具体实施方式
现有技术通常涉及使用细胞检测算法从数字病理学图像检测细胞,然后将机器学习模型应用于检测到的细胞以预测特定类型的生物标志物是否存在于检测到的细胞的一者或多者中。这些机器学习模型的性能通常取决于训练数据集的准确度。生成训练数据集可以包括标记训练数据集的一个或多个训练图像中描绘的细胞,其中标记物可以由一位或多位病理学家添加。对于经染色以识别两种或更多种类型的生物标志物的双重图像而言,标记过程可能会变得困难。这是因为两种或更多种染色剂可以在双重图像的不同区域中形成不可识别的簇和/或可以存在于双重图像内的相同图像区域中。此类染色特征可能会导致细胞区域应如何正确标记的混乱。此类困难可能导致训练图像与不准确或不一致的训练标记物相关联,这进一步导致使用此类训练图像进行训练以预测其他双重图像中描绘的细胞中两种或更多种生物标志物的存在的机器学习模型的性能下降。
因此,本文描述的某些实施方案可以通过准确预测与双重图像中描绘的细胞中的两种或更多种类型的生物标志物相关的细胞表型来解决这些问题和其他问题。图像处理系统可以访问双重载玻片图像。双重图像描绘了生物学样品的至少一部分,诸如乳房组织部分。可以对生物学样品的至少一部分进行染色以识别两种或更多种类型的生物标志物。例如,第一类型生物标志物可以是雌激素受体(ER),并且第二类型生物标志物可以是孕激素受体(PR)。
图像处理系统可以处理双重图像以生成合成单重图像组。可以生成该合成单重图像组中的每个合成单重图像来描绘针对单一生物标志物(例如,ER)染色的细胞。在一些情况下,合成单重图像是通过以下方式生成的:(i)生成描绘针对相应生物标志物染色的细胞的预处理图像;和(ii)将预处理图像与复染色图像组合。使用复染色图像可以使生物标志物在视觉上与预处理图像中描绘的其他细胞结构区分。
对于合成单重图像组中的每个合成单重图像,图像处理系统可以将机器学习模型应用于合成单重图像以预测合成单重图像中描绘的每个检测到的细胞的表型,其中表型与相应类型的生物标志物相关。在一些情况下,训练机器学习模型来处理描绘针对第一类型生物标志物染色的细胞的第一合成单重图像,并且训练不同的机器学习模型来处理针对第二类型生物标志物染色的第二合成单重图像。例如,图像处理系统可以将第一经训练的U-Net模型应用于针对ER生物标志物染色的合成单重图像以:(i)检测合成单重图像中的细胞;以及(ii)针对每个检测到的细胞预测针对ER生物标志物的细胞表型(例如,ER阳性、ER阴性、伪影)。继续该实例,图像处理系统可以将第二经训练的U-Net模型应用于另一针对PR生物标志物染色的合成单重图像以:(i)检测其他合成单重图像中的细胞;以及(ii)针对每个检测到的细胞预测针对PR生物标志物的细胞表型(例如,PR阳性、PR阴性、伪影)。
在一些情况下,机器学习模型被训练以确定针对合成单重图像中的每个细胞的来自分类组的分类。该组的每个分类可以对应于针对相应类型的生物标志物的细胞的特定表型。例如,机器学习模型可以输出检测到的细胞是否:(i)包括ER生物标志物(ER+);(ii)不包括ER生物标志物(ER-);(iii)对应于基质细胞;(iv)对应于免疫细胞;或(v)对应于伪影或其他类型的生物结构。为了生成分类,图像处理系统可以使用机器学习模型处理合成单重图像以生成概率图组。该概率图组中的每个概率图可以表示合成单重图像的多个像素并且对应于该分类组中的特定分类。对于多个像素中的每个像素,概率图包括指示像素是否对应于分类的概率值。继续该实例,合成单重图像的概率图组可以包括针对ER+的第一概率图、针对ER-的第二概率图、针对基质细胞的第三概率图、针对免疫细胞的第四概率图以及针对伪影的第五概率图。
表示合成单重图像的概率图组可以与表示其他合成单重图像的另一概率图组合并以生成概率图的合并组。概率图的合并组可以用于确定双重图像中的位置(“锚点”)组,在该位置组处可以针对每个锚点识别一种或多种生物标志物的存在。继续上面的实例,第一组概率图可以表示针对ER生物标志物染色的合成单重图像,其中第一组概率图包括:(i)针对ER+分类的第一概率图;(ii)针对ER-分类的第二概率图;(iii)针对基质细胞分类的第三概率图;(iv)针对免疫细胞分类的第四概率图;和(v)针对伪影分类的第五概率图。此外,第二组概率图可以表示针对PR生物标志物染色的合成单重图像,其中第二组概率图包括:(i)针对PR+分类的第一概率图;(ii)针对PR-分类的第二概率图;(iii)针对基质细胞分类的第三概率图;(iv)针对免疫细胞分类的第四概率图;和(v)针对伪影分类的第五概率图。
图像处理系统可以通过针对每个像素将第一组概率图的ER+概率图的概率值与第二组概率图的PR+概率图的另一概率值进行比较来生成合并组的第一概率图。基于比较,然后可以将较高概率值及其对应的分类(例如,ER+)分配给合并组的第一概率图(例如,ER+/PR+)的相应像素。比较和分配步骤可以通过其他像素迭代以生成合并组的第一概率图。还可以重复上述步骤以生成合并组的其他概率图(例如,ER-/PR-、ER+/PR-、ER-/PR+等)。
图像处理系统可以使用合并组概率图来识别双重图像的锚点组。锚点组中的每个锚点可以对应于双重图像中的区域(例如,细胞中心),该区域可以被预测为具有单一生物标志物或多个生物标志物。为了确定锚点,图像处理系统可以选择双重图像的区域,其中该区域包括像素组。图像处理系统可以从合并组的每个概率图获得该区域的概率值组,其中每个概率值指示该区域的对应像素是否识别该像素是否对应于与概率图相关联的分类。从跨越合并组概率图的像素组中,图像处理系统可以选择具有最高概率值的像素并将所选择的像素分配为锚点。
锚点组中的每个锚点可以用一个或多个对应的分类来标记,该一个或多个对应的分类预测由锚点表示的图像区域是否指示单一标志物或多种生物标志物的存在。例如,可以基于锚点与被预测包括ER生物标志物的ER+概率图的区域在预定距离(例如,10个像素)内,用ER+分类来标记锚点。继续该实例,还可以基于锚点与已被预测包括PR生物标志物的PR+概率图的区域在预定距离(例如,10个像素)内,用PR+分类来标记同一锚点。结果,对应于锚点的双重图像的区域可以被标记为具有指示两种类型的生物标志物的存在的表型的细胞(例如,ER+/PR+)。将概率图的概率值并入双重图像的锚点允许双重图像包括识别多种生物标志物的细胞表型的一个或多个区域。具有合并表型的锚点可以叠加在双重图像上,从而准确地展示针对双重图像的给定图像区域的与多种生物标志物相对应的表型。
本文描述的某些实施方案改进了识别双重图像中生物标志物的共定位或共表达的机器学习模型的性能。图像处理系统可以通过从双重图像生成合成单重图像、将单独的机器学习模型应用于合成单重图像以及合并由机器学习模型生成的概率图以输出双重图像中描绘的每个细胞的多个分类来提高性能。即使多种类型的生物标志物混合并聚集在同一双重图像中,图像处理系统也能准确进行。因此,本文的实施方案反映了人工智能系统和数字病理学图像处理技术的功能的改进。
虽然描述了某些实施方案,但这些实施方案仅以实例的方式呈现,并不旨在限制保护范围。本文描述的设备、方法和系统可以以多种其他形式体现。此外,在不脱离保护范围的情况下,可以对本文描述的实例方法和系统的形式进行各种省略、替换和变化。
I.定义
如本文所用,当动作“基于”某物时,这意味着该动作至少部分地基于某物的至少一部分。
如本文所用,术语“基本上”、“大约”和“约”被定义为在很大程度上但不必完全是如本领域普通技术人员所理解的那样进行指定的(并且包括完全是所指定的)。在任何公开的实施方案中,术语“基本上”、“大约”或“约”可以用对于所指定的“在[某个百分比]内”替代,其中百分比包括0.1%、1%、5%和10%。
如本文所用,术语“样品”、“生物学样品”、“组织”或“组织样品”是指从包括病毒在内的任何生物体获得的包括生物分子(诸如蛋白质、肽、核酸、脂质、碳水化合物或它们的组合)在内的任何样品。其他生物体的示例包括哺乳动物(诸如人类;兽类动物,如猫、狗、马、牛和猪;以及实验室动物,如小鼠、大鼠和灵长类动物)、昆虫、环节动物、蛛形纲动物、有袋类动物、爬行类动物、两栖类动物、细菌和真菌。生物样品包括组织样品(诸如组织切片和组织的穿刺活检)、细胞样品(诸如细胞学涂片,诸如子宫颈涂片或血液涂片或通过显微解剖获得的细胞样品),或细胞级分、碎片或细胞器(诸如通过裂解细胞并通过离心或其他方式分离其组分获得)。生物学样品的其他实例包括血液、血清、尿液、精液、粪便、脑脊液、间质液、粘液、眼泪、汗液、脓液、活检组织(例如,通过手术活检或穿刺活检获得)、乳头抽吸物、耵聍、乳汁、阴道分泌物、唾液、拭子(例如口腔拭子)、或任何含有生物分子且从第一生物学样品导出的材料。在一些实施方案中,如本文所用的术语“生物学样品”是指从受试者获得的肿瘤或其一部分制备的样品(诸如经均质或液化处理的样品)。
如本文所用,术语“生物材料”、“生物结构”或“细胞结构”是指天然材料或结构,其包含整个或部分的活体结构(例如,细胞核、细胞膜、细胞质、染色体、DNA、细胞、细胞簇等)。
如本文所用,术语“生物标志物”是指在血液、其他体液或组织中发现的生物分子(例如,蛋白质分子),其作为正常或异常过程或病症或疾病的标志。生物标志物可以与特定类型的生物标志物相关。例如,生物标志物可以是雌激素受体(ER)或孕激素受体(PR)。
如本文所用,“数字病理学图像”是指染色样品的数字图像。
如本文所用,“表型”是指表达与数字病理学图像中的对应生物标志物相关的特征的细胞类型。例如,双重图像区域处的雌激素受体的表型可以识别雌激素受体的存在(ER+),并且同一区域的孕激素受体的表型可以识别孕激素受体的不存在(PR-)。表型可以合并并用于定义多种生物标志物的特征(例如,ER+/PR+)。
如本文所用,“合成单重图像”是指从双重图像生成的数字病理学图像,其中合成单重图像是通过组合以下项生成的:(a)源自双重图像的单染色图像;和(ii)复染色图像。合成单重图像可以识别特定的表型。
如本文所用,“双重图像”是指已被染色以识别两种或更多种生物标志物(例如,ER、PR)的数字病理学图像。
如本文所用,“锚点”是指可以被预测为具有单一生物标志物或多种生物标志物的数字病理学图像(例如,双重图像)的区域(例如,细胞中心)。
II.概述
基于深度学习的系统和方法可以用于从双重图像生成合成单重图像,识别从合成单重图像中的每一者检测到的细胞表型,以及合并经识别的表型以确定包括两种或更多种生物标志物的图像区域。图1显示了示出根据一些实施方案的使用机器学习技术来合并在合成单重图像中检测到的表型的图像处理系统100的示意图。图像处理系统可以被配置成接收已被染色以显示两种或更多种类型的生物标志物的病理学载玻片102的图像(框104)。在一些实施方案中,图像处理系统被配置成使用已染色以显示雌激素受体(ER)和孕激素受体(PR)蛋白的存在的双重载玻片的图像进行操作。针对ER和PR标志物中的每一者,图像中的每个细胞可以被分类为阳性或阴性。因此,每个细胞的表型可以被识别为ER+PR+、ER+PR-、ER-PR+、ER-PR-或其他(例如,基质、免疫、坏死、伪影等)。
在一些情况下,图像处理系统将双重载玻片图像划分为多个图像瓦片(框106)。可以对多个图像瓦片中的每一个进行针对多种生物标志物的细胞表型的识别。在一些情况下,从多个图像瓦片中选择图像瓦片组,其中该图像瓦片组被用作用于训练一个或多个机器学习模型以检测针对生物标志物类型的细胞表型的训练图像。
图像处理系统可以分解双重图像以生成合成单重图像组(框108和110)。可以生成该合成单重图像组中的每个合成单重图像来描绘针对单一生物标志物(例如,ER)染色的细胞。在一些情况下,合成单重图像是通过以下方式生成的:(i)生成描绘针对相应生物标志物染色的细胞的预处理图像;和(ii)将预处理图像与复染色图像组合。
在一些实施方案中,图像处理系统使用图像瓦片组来训练机器学习模型(例如,U-Net模型)以预测合成单重图像中每个检测到的细胞的表型。例如,可以使用图像瓦片组来训练第一机器学习模型以预测针对ER生物标志物的细胞表型(框112),并且可以使用图像瓦片组来训练第二机器学习模型以预测针对PR生物标志物的细胞表型(框114)。
然后可以使用经训练的机器学习模型来检测相应的合成单重图像中的细胞表型(框116和118)。例如,图像处理系统可以使用两个U-Net模型来生成多个概率图(例如,10个概率图),其中多个概率图可以用于检测针对ER和PR的细胞表型。例如,十个概率图中的五个可以表示针对ER生物标志物染色的合成单重图像,其中概率图包括:(i)针对ER+分类的第一概率图;(ii)针对ER-分类的第二概率图;(iii)针对基质细胞分类的第三概率图;(iv)针对免疫细胞分类的第四概率图;和(v)针对伪影分类的第五概率图。其余五个概率图可以表示针对PR生物标志物染色的合成单重图像。
图像处理系统然后可以合并由两个机器学习模型预测的细胞表型(框120)。在一些情况下,逻辑“AND”用于直接计算每个细胞所属的表型。概率优先级可以用于合并生物标志物的所有不同共表达并识别与多种类型生物标志物的识别相关的细胞表型。在一些实施方案中,图像处理系统将锚点确定为每个细胞核的细胞中心(包括ER+/PR+/ER-/PR-/其他)。锚点可以通过比较由两个深度学习网络训练的两个机器学习模型(例如,ER模型和PR模型)生成的10个概率图来获得。然后,系统可以将每个锚点与由第一机器学习模型(“ER模型”)生成的ER+/ER-/其他分类进行匹配。该系统还可以将每个锚点与由第二机器学习模型(“PR模型”)生成的PR+/PR-/其他进行匹配。在一些情况下,数据结构用于记录表型/生物标志物ER/PR的所有位置,并且可以与记录细胞核的锚点/细胞中心的图相关联。逻辑运算符(例如“AND”)和概率优先级可以用于合并所有不同的共表达。结果,可以针对双重载玻片图像识别表示多种生物标志物的合并表型(框122)。在一些情况下,图像处理系统将合并的表型叠加到双重图像上,如图像124所示。与可替代的方法相比,两种机器学习模型和所描述的映射方法的使用显著减少了计算和检测时间。
III.生成数字病理学图像
数字病理学涉及对数字化图像的解释,以正确诊断受试者并指导治疗决策。在数字病理学解决方案中,可以建立图像分析工作流程来自动检测或分类目的生物对象,例如阳性、阴性肿瘤细胞等。示例性数字病理学解决方案工作流程包括获得组织载玻片、使用数字图像扫描仪(例如,全载玻片图像(WSI)扫描仪)扫描载玻片的预选区域或全部以获得数字图像,使用一种或多种图像分析算法对数字图像进行图像分析,并且可能基于图像分析(例如,定量或半定量评分,诸如阳性、阴性、中等、弱等)检测、量化每个目的对象(例如,计数或识别每个目的对象的对象特异性或累积区域)。
图2显示了用于生成数字病理学图像的示例性网络200。固定/包埋系统205使用固定剂(例如,液体固定剂,诸如甲醛溶液)和/或包埋物质(例如,组织学蜡诸如石蜡和/或一种或多种树脂诸如苯乙烯或聚乙烯)来固定和/或包埋组织样品(例如,包括至少一个肿瘤的至少一部分的样品)。每个样品可以通过将样品暴露于固定剂预定时间段(例如,至少3小时)并且然后使样品脱水(例如,经由暴露于乙醇溶液和/或澄清中间剂)来固定。当样品处于液态时(例如,加热时),包埋物质可以浸润样品。
样品固定和/或包埋用于保存样品并减缓样品降解。在组织学中,固定通常是指使用化学物质来保留化学成分、保存天然样品结构并保持细胞结构不被降解的不可逆过程。固定也可能使细胞或组织变硬以进行切片。固定剂可使用交联蛋白增强样品和细胞的保存。固定剂可能与一些蛋白质结合并交联,并通过脱水使其他蛋白质变性,这可能会使组织硬化并使酶失活,否则酶可能会降解样品。固定剂也可杀死细菌。
可以例如通过制备的样品的灌注和浸润来施用固定剂。可使用各种固定剂,包括甲醇、Bouin固定剂和/或甲醛固定剂,例如中性缓冲福尔马林(NBF)或石蜡-福尔马林(多聚甲醛-PFA)。在样品是液体样品(例如,血液样品)的情况下,可将样品涂抹在载玻片上并在固定前干燥。虽然为了组织学研究的目的,固定过程可用于保存样品和细胞的结构,但固定可能导致隐藏组织抗原,从而减少抗原检测。因此,固定通常被认为是免疫组织化学的限制因素,因为福尔马林可交联抗原并掩盖表位。在一些情况下,进行额外的过程来逆转交联的影响,包括用柠康酸酐(一种可逆的蛋白质交联剂)处理固定样品并加热。
包埋可以包括用合适的组织学蜡(诸如石蜡)浸润样品(例如,固定组织样品)。组织学蜡可能不溶于水或酒精,但可溶于石蜡溶剂,例如二甲苯。因此,组织中的水可能需要用二甲苯代替。为此,可首先通过逐渐用酒精代替样品中的水来使组织脱水,这可通过使组织通过增加浓度的乙醇(例如,从0%到约100%)来实现。将水换成醇后,可用与醇互溶的二甲苯代替醇。因为组织学蜡可溶于二甲苯,所以熔化的蜡可能会填充充满二甲苯和之前充满水的空间。可以冷却填充有蜡的样品以形成硬化块,可将其夹入到切片机、振动切片机或压缩式振动切片机中以进行切片。在一些情况下,偏离上述实例程序可能导致石蜡浸润,从而抑制抗体、化学物质或其他固定剂的渗透。
然后,组织切片机210可以用于对固定的和/或包埋的组织样品(例如,肿瘤样品)进行切片。切片是从组织块切割样品的薄片(例如,厚度例如为2-5μm)出于将其固定在显微镜载玻片上以进行检查的目的的过程。可使用切片机、振动切片机或压缩式振动切片机进行切片。在一些情况下,组织可以在干冰或异戊烷中快速冷冻,然后在冷藏柜(例如,低温恒温器)中用冷刀切割。其他类型的冷却剂可用于冷冻组织,诸如液氮。用于明场和荧光显微镜的切片通常约为2μm到10μm厚。在一些情况下,切片可包埋入环氧树脂或丙烯酸树脂中,这样可切割更薄的切片(例如,<2μm)。然后可以将切片安装在一张或多张载玻片上。盖玻片可放置在顶部以保护样品切片。
因为组织切片和其中的细胞实际上是透明的,载玻片的制备通常进一步包括对组织切片进行染色(例如,自动染色),以便使相关结构更具可见性。在一些情况下,染色是手动进行的。在一些情况下,使用染色系统215半自动或自动地进行染色。染色过程包括将组织样品或固定液体样品的切片暴露于一种或多种不同染色剂(例如,连续或同时)以表达组织的不同特征。
例如,染色可以用于标示特定类型的细胞和/或标记特定类型的核酸和/或蛋白质以辅助显微镜检查。染色过程通常涉及向样品添加染料或染色剂,以鉴定或量化特定化合物、结构、分子或特征(例如,亚细胞特征)的存在。例如,染色可帮助标识或突出组织切片中的特定生物标志物。在其他实例中,染色剂可用于识别或突出生物组织(例如,肌肉纤维或结缔组织)、细胞群(例如,不同的血细胞)或个别细胞内的细胞器。
一种示例性类型的组织染色是组织化学染色,其使用一种或多种化学染料(例如,酸性染料、碱性染料、色原)来对组织结构进行染色。组织化学染色可用于指示组织形态和/或细胞组织学的一般方面(例如,以对细胞核与细胞质、指示脂滴等进行区分)。组织化学染色剂的一个示例是H&E。组织化学染色剂的其他示例包括三色染色剂(例如,马松三色染色)、过碘酸-雪夫(PAS)、银染色剂和铁染色剂。组织化学染色试剂(例如染料)的分子量通常为约500千道尔顿(kD)或更小,尽管一些组织化学染色试剂(例如,阿尔新蓝、磷钼酸(PMA))可能具有高达两或三千kD的分子量。高分子量组织化学染色试剂的一个例子是α-淀粉酶(约55kD),它可用于指示糖原。
另一种类型的组织染色是IHC,也称为“免疫染色”,它使用与目的靶抗原(也称为生物标志物)特异性结合的一抗。IHC可以是直接的或间接的。在直接IHC中,一抗直接与标记物(例如发色团或荧光团)缀合。在间接IHC中,一抗首先与靶抗原结合,然后与标记物(例如发色团或荧光团)缀合的二抗与一抗结合。IHC试剂的分子量远高于组织化学染色试剂的分子量,因为抗体的分子量约为150kD或更高。
可以使用各种类型的染色方案来进行染色。例如,示例性IHC染色方案包括:在样品(例如,组织切片)周围使用疏水屏障线以防止孵育期间试剂从载玻片渗漏;用试剂处理组织切片以阻断非特异性染色的内源性来源(例如,酶、游离醛基、免疫球蛋白、其他可模拟特定染色的无关分子);将样品与透化缓冲液孵育以促进抗体和其他染色试剂渗透到组织中;在特定温度(例如,室温,6℃-8℃)下将组织切片与一抗孵育一段时间(例如,1小时到24小时);使用洗涤缓冲液冲洗样品;然后在另一特定温度(例如,室温)下将样品(组织切片)与二抗孵育另一时间段;使用水缓冲液再次冲洗样品;将冲洗过的样品与色原(例如,DAB:3,3'-二氨基联苯胺))孵育;以及洗去色原以停止反应。在一些情况下,复染随后用于标识样品的整个“景观”,并作为用于检测组织目标的主要颜色的参考。复染剂的实例可包括苏木精(从蓝色染成紫色)、亚甲蓝(染成蓝色)、甲苯胺蓝(将细胞核染成深蓝色,将多糖从粉红色染成红色)、核固红(也称为Kernechtrot染料,染成红色)和甲基绿(染成绿色);非核显色染色剂,例如伊红(染成粉红色)等。本领域的普通技术人员将认识到可实施其他免疫组织化学染色技术来进行染色。
在另一个实例中,可以对组织切片染色进行H&E染色方案。H&E染色方案包括将与金属盐混合的苏木精染色剂或媒染剂应用于样品。然后可在弱酸溶液中冲洗样品以去除多余的染色(分化),然后在弱碱性水中使其变蓝。应用苏木精后,可用伊红复染样品。应当理解,可实施其他H&E染色技术。
在一些实施方案中,可以使用各种类型的染色剂来进行染色,这取决于所针对的目标特征。例如,DAB可用于IHC染色的各种组织切片,其中DAB产生描绘染色图像中目标特征的棕色。在另一个实例中,碱性磷酸酶(AP)可用于IHC染色的皮肤组织切片,因为DAB颜色可能被黑色素掩盖。关于初级染色技术,适用的染色剂可包括例如嗜碱性和嗜酸性染色剂、血红素和苏木精、硝酸银、三色染色剂等。酸性染料可与组织或细胞中的阳离子或碱性成分发生反应,诸如细胞质中的蛋白质和其他成分。碱性染料可与组织或细胞中的阴离子或酸性成分发生反应,诸如核酸。如上所述,染色系统的一个实例是H&E。伊红可能是带负电的粉红色酸性染料,且苏木精可能是紫色或蓝色碱性染料,其包括苏木因和铝离子。染色剂的其他实例可包括过碘酸-希夫反应(PAS)染色剂、马松三色染色剂、阿尔新蓝染色剂、范吉森染色剂、网状纤维染色剂等。在一些实施方案中,可组合使用不同类型的染色剂。
然后可以将切片安装在相应的载玻片上,然后成像系统220可以扫描或成像以生成原始数字病理学图像225a-n。显微镜(例如,电子显微镜或光学显微镜)可以用于放大染色样品。例如,光学显微镜的分辨率可能小于1μm,诸如大约几百纳米。为了观察纳米或亚纳米范围内的更精细细节,可使用电子显微镜。成像装置(与显微镜组合或与显微镜分开)对放大的生物学样品进行成像以获得图像数据,诸如具有多个(诸如例如十至十六个)通道的多通道图像(例如,多通道荧光)。成像装置可以包括但不限于照相机(例如模拟相机、数字相机等)、光学器件(例如一个或多个透镜、传感器聚焦透镜组、显微镜物镜等)、成像传感器(例如电荷耦合器件(CCD)、互补金属氧化物半导体(CMOS)图像传感器等)、感光胶片等。在数字实施方案中,成像装置可以包括多个镜头,这些镜头可以协作证明具备即时对焦功能。图像传感器(例如,CCD传感器)可以捕捉生物学样品的数字图像。在一些实施方案中,成像装置是明场成像系统、多光谱成像(MSI)系统或荧光显微镜系统。成像装置可以利用不可见的电磁辐射(例如,UV光)或其他成像技术来捕捉图像。例如,成像装置可以包括显微镜和被布置成捕捉由显微镜放大的图像的相机。由分析系统接收的图像数据可以与由成像装置捕获的原始图像数据相同以及/或可以源自该原始图像数据。
染色切片的图像然后可以存储在存储装置225诸如服务器中。图像可存储在本地、远程和/或云服务器中。每个图像可与受试者的标识符和日期(例如,样品被收集的日期和/或图像被捕获的日期)相关联地存储。图像可以进一步被传送到另一系统(例如,与病理学家相关联的系统、自动或半自动图像分析系统、或机器学习训练和部署系统,如本文进一步详细描述的)。
应当理解,考虑了对关于网络200描述的过程的修改。例如,如果样品是液体样品,则可以从过程中省略包埋和/或切片。
IV.用于数字病理学图像转换的示例性系统
图3显示了示出根据一些实施方案的用于使用机器学习模型处理数字病理学图像的计算环境300的框图。如本文进一步描述的,处理数字病理学图像可以包括使用数字病理学图像来训练机器学习算法和/或使用机器学习算法(即,机器学习模型)的经训练(或经部分训练)版本将部分或全部数字病理学图像转换成一个或多个结果。
如图3中所示,计算环境300包括几个阶段:图像存储阶段305、预-处理阶段310、标记阶段315、数据增强阶段317、训练阶段320和结果生成阶段325。
A.图像存储阶段
图像存储阶段305包括一个或多个图像数据存储器330(例如,关于图2描述的存储装置230),它们被访问(例如,通过预处理阶段310)以提供来自生物学样品载玻片(例如,组织载玻片)的预选区域或整个生物学样品载玻片(例如,组织载玻片)的数字图像组335。存储在每个图像数据存储器330中并在图像存储阶段310被访问的每个数字图像335可以包括根据图2中描绘的网络200描述的部分或全部过程生成的数字病理学图像。在一些实施方案中,每个数字图像335包括来自一张或多张扫描的载玻片的图像数据。数字图像335中的每一者可以对应于来自单个样本的图像数据和/或在对应于该图像的底层图像数据被收集的当天的图像数据。
图像数据可以包括图像、以及与颜色通道或颜色波长通道相关的任何信息、以及关于在其上生成图像的成像平台的细节。例如,组织切片可能需要通过应用染色测定进行染色,该染色测定包含一种或多种与显色染色剂或荧光团相关的不同生物标记物,用于明场成像或荧光成像。染色测定可以使用显色染色剂用于明场成像,使用有机荧光团、量子点或有机荧光团与量子点一起用于荧光成像,或使用染色剂、生物标记物以及观察或成像装置的任何其他组合。示例性生物标志物包括雌激素受体(ER)、人表皮生长因子受体2(HER2)、人Ki-67蛋白、孕激素受体(PR)、程序性细胞死亡蛋白1(PD1)等的生物标志物,其中组织切片针对ER、HER2、Ki-67、PR、PD1等中的每一者,用结合剂(例如,抗体)可检测地标记。在一些实施方案中,数字图像和数据分析操作(诸如分类、评分、cox建模和风险分层)取决于所使用的生物标志物的类型以及视场(FOV)选择和注释。此外,典型的组织切片是在自动化染色/平台中进行处理的,该平台将染色测定应用于组织切片,从而产生染色样品。市场上有多种适合用作染色/测定平台的商业产品,一个实例是受让方Ventana MedicalSystems,Inc.的产品染色的组织切片可以提供给成像系统,例如显微镜或具有显微镜和/或成像组件的全载玻片扫描仪上,一个实例是受让方Ventana Medical Systems,Inc.的产品/>iScan/>//>DP200。多重组织载玻片可以在等效的多重载玻片扫描仪系统上进行扫描。由成像系统提供的附加信息可以包括与染色平台相关的任何信息,包括用于染色的化学物质的浓度、在染色中应用到组织的化学物质的反应时间和/或组织的预分析条件,诸如组织年龄、固定方法、持续时间、切片如何嵌入、切割等。
B.图像预处理阶段
在预处理阶段310,使用一种或多种技术对一个、多组或所有数字图像组335中的每一个进行预处理以生成对应预处理图像340。预处理可以包括裁剪图像。在一些情况下,预处理可以进一步包括标准化或重调尺寸(例如,归一化),以将所有特征置于相同的标度(例如,相同的大小标度或者相同的颜色标度或颜色饱和度标度)上。在一些情况下,利用预定像素的最小尺寸(宽度或高度)(例如,2500像素)或预定像素的最大尺寸(宽度或高度)(例如,3000像素)来调整图像的大小,并且任选保持原始纵横比。预处理可以进一步包括去除噪声。例如,可以诸如通过应用高斯函数或高斯模糊来平滑图像以去除不需要的噪声。
预处理图像340可以包括一个或多个训练图像、验证图像、测试图像和未标记图像。应当理解,不需要同时访问对应于训练组、验证组和未标记组的预处理图像340。例如,可以首先访问训练和验证预处理图像的初始组340并将其用于训练机器学习算法355,并且未标记的输入图像后续可以被访问或接收(例如,在单个或多个后续时间)并被经训练的机器学习模型360用来提供期望的输出(例如,细胞分类)。
C.标记阶段
在一些情况下,使用监督训练来训练机器学习算法355,并且在标记阶段315用标记物345部分或完全地手动、半自动或自动地标记一些或全部预处理图像340,该标记物识别预处理图像340内的各种生物学材料和结构的“正确”解释(即“真实情况”)。例如,标记物345可以识别目的特征(例如)、细胞的分类、关于给定细胞是否是特定类型细胞的二元指示、关于预处理图像340(或具有预处理图像340的特定区域)是否包括特定类型的描绘(例如,坏死或伪影)的二元指示、载玻片级或区域特异性描绘的分类表征(例如,识别特定类型的细胞)、数量(例如,识别区域内特定类型的细胞的数量、所描绘的伪影的数量或坏死区域的数量)、一种或多种生物标志物的存在或不存在等。在一些情况下,标记物345包括位置。例如,标记物345可以识别特定类型的细胞的细胞核的点位置或特定类型的细胞的点位置(例如,原始点标记物)。作为另一实例,标记物345可以包括边界或界线,诸如所描绘的肿瘤、血管、坏死区域等的边界。作为另一实例,标记物345可以包括基于使用一种或多种染色剂观察到的生物标志物模式识别的一种或多种生物标志物。例如,可以观察到和/或处理针对生物标志物例如程序性细胞死亡蛋白1(“PD1”)染色的组织载玻片,以便根据组织中PD1的表达水平和模式将细胞标记为阳性细胞或阴性细胞。根据目的特征,给定标记的预-处理图像340可以与单个标记物345或多个标记物345相关联。在后一种情况下,每个标记345可与(例如)关于标记对应于预处理图像345内的哪个位置或部分的指示相关联。
在标记阶段315分配的标记物345可以基于来自人类用户(例如,病理学家或图像科学家)的输入和/或被配置为定义标记物345的算法(例如,注释工具)来识别。在一些情况下,标记阶段315可以包括将一个或多个预处理图像340的部分或全部传输和/或呈现给由用户操作的计算装置。在一些情况下,标记阶段315包括利用界面(例如,使用API)由标记控制器350在由用户操作的计算装置处呈现,其中该界面包括输入部件以接受识别针对目的特征的标记物345的输入。例如,用户界面可以由标记控制器350提供,该标记控制器使得能够选择用于标记的图像或图像区域(例如,FOV)。操作终端的用户可以使用用户界面选择图像或FOV。可以提供几种图像或FOV选择机制,诸如指定已知的或不规则的形状,或定义目的解剖区域(例如,肿瘤区域)。在一个实例中,图像或FOV是在用H&E染色剂组合染色的IHC载玻片上选择的全肿瘤区域。图像或FOV选择可以由用户或通过自动图像分析算法来进行,诸如H&E组织载玻片上的肿瘤区域分割等。例如,用户可以选择图像或FOV作为全载玻片或全肿瘤,或者可以使用分割算法将全载玻片或全肿瘤区域自动指定为图像或FOV。此后,操作终端的用户可以选择一个或多个标记物345以应用于所选择的图像或FOV,诸如细胞上的点位置、针对细胞表达的生物标志物的阳性标志物、针对细胞未表达的生物标志物的阴性生物标志物、细胞周围的边界等。
在一些情况下,界面可以识别正在请求的特定标记物345和/或该正在请求的特定标记物的程度,这可以经由(例如)文本指令和/或可视化来传达给用户。例如,特定的颜色、大小和/或符号可以表示正在针对图像内相对于其他描绘的特定描绘(例如,特定的细胞或区域或染色模式)请求标记物345。如果要请求对应于多个描绘的标记物345,则界面可同时识别描绘中的每一个或可依次识别每个描绘(使得为一个已识别的描绘提供标记物会触发识别下一个描绘以进行标记)。在一些情况下,每个图像都会呈现,直到用户已经识别出特定数量的标记物345(例如,特定类型的标记物)。例如,可以呈现给定的全载玻片图像或全载玻片图像的给定小块,直到用户已经识别出三种不同生物标志物的存在或不存在,此时界面可以呈现不同的全载玻片图像或不同小块的图像(例如,直到标记了阈值数量的图像或小块)。因此,在一些情况下,界面配置成请求和/或接受针对目的特征的不完整子组的标记物345,并且用户可确定将标记可能的许多描绘中的哪一个。
在一些情况下,标记阶段315包括实现注释算法的标记控制器350,以便半自动或自动标记图像或图像内的目的区域的各种特征。标记控制器350根据来自用户的输入或注释算法来注释第一载玻片上的图像或FOV,并跨越载玻片的其余部分映射该注释。根据定义的FOV,多种用于注释和配准的方法都是可以的。例如,可以自动或由用户在诸如VIRTUOSO/VERSOTM或类似物的界面上选择在多个连续载玻片中的H&E载玻片上注释的全肿瘤区域。由于其他组织载玻片对应于来自相同组织块的连续切片,因此标记控制器350执行标志物间配准操作以将全肿瘤注释从H&E载玻片映射并转移到系列中剩余的IHC载玻片中的每一者。用于标志物间配准的示例性方法在2014年3月12日提交的共同转让的国际申请WO2014140070A2“全载玻片图像配准和交叉图像注释装置、系统和方法”中被进一步详细描述,该国际申请特此出于所有目的通过引用整体并入。在一些实施方案中,可以使用用于图像配准和生成全肿瘤注释的任何其他方法。例如,诸如病理学家的合格读者可以在任何其他IHC载玻片上注释全肿瘤区域,并且执行标记控制器350以将全肿瘤注释映射到其他数字化载玻片上。例如,病理学家(或自动检测算法)可以注释H&E载玻片上的全肿瘤区域,从而触发对所有相邻连续切片IHC载玻片的分析,以确定针对所有载玻片上注释区域的全载玻片肿瘤评分。
在一些情况下,标记阶段315进一步包括注释处理系统351,该注释处理系统实现注释算法以便识别与图像(或图像的FOV)相关联的注释组内的注释-位置和注释-标记物冲突。注释处理系统351可以确定位于训练图像区域内的不同位置的注释组的共识位置。在一些情况下,注释处理系统351通过确定来自同一注释者的两个或更多个注释存在于训练图像中的区域中来确定该区域存在注释-位置冲突。注释处理系统351可以通过保留与区域中的其他注释距离最近的注释同时丢弃来自同一注释者的其他注释来解决此类位置冲突。在所确定的共识位置处,可以针对识别不同目标类型的生物结构的注释组确定共识标记物。跨越不同位置的共识标记物可以用于生成图像的真实标记物。真值标记物可一用于训练、验证和/或测试机器学习模型,该模型被配置为预测数字病理学图像中不同类型的生物结构。
D.增强阶段
在增强阶段317,用使用执行一种或多种增强算法的增强控制354生成的合成图像352增强来自预处理图像340的标记或未标记的图像(原始图像)的训练组。增强技术用于通过添加现有训练数据的稍微修改的合成副本或从现有训练数据新创建的合成数据来人工增加训练数据的数量和/或类型。如本文所述,扫描仪间和实验室间差异可能导致数字图像内的强度和颜色变化。此外,不良扫描可能会导致梯度变化和模糊效果,测定染色可能会产生染色伪影,诸如背景清洗,并且不同的组织/患者样品的细胞大小可能存在差异。这些变化和扰动可能会对深度学习和人工智能网络的质量和可靠性产生负面影响。在增强阶段317中实现的增强技术充当这些变化和扰动的正则化器并且帮助在训练机器学习模型时减少过度拟合。应当理解,本文描述的增强技术可以用作任意数量和类型的变化和扰动的正则化器,并且不限于本文讨论的各种具体实例。
E.训练阶段
在训练阶段320,训练控制器365可以使用标记物345和对应的预处理图像340根据本文描述的各种工作流程来训练机器学习算法355。例如,为了训练算法355,预处理图像340可以被分成用于训练(例如,90%)的图像子组340a和用于验证(例如,10%)的图像子组340b。该分割可以随机地进行(例如,90%/10%或70%/30%),或者该分割可以根据更复杂的验证技术(诸如K折交叉验证、留一法交叉验证、留一组交叉验证、嵌套交叉验证等)来进行,以最小化采样偏差和过拟合。分割还可以基于在预处理图像340内包含增强或合成图像352来进行。例如,限制包括在用于训练的图像子组340a内的合成图像352的数量或比率可能是有益的。在一些情况下,原始图像335与合成图像352的比率保持在1:1、1:2、2:1、1:3、3:1、1:4或4:1。
在一些情况下,机器学习算法355包括CNN、具有由残差神经网络(“Resnet”)替代的编码层的修改的CNN或者具有由Resnet替代的编码和解码层的修改的CNN。在其他情况下,机器学习算法355可以是被配置为定位、分类和/或分析预处理图像340的任何合适的机器学习算法,诸如二维CNN(“2DCNN”)、Mask R-CNN、U-Net、特征金字塔网络(FPN)、动态时间扭曲(“DTW”)技术、隐马尔可夫模型(“HMM”)、纯基于注意力的模型等,或者此类技术中一者或多者的组合——例如,视觉变换器、CNN-HMM或MCNN(多尺度卷积神经网络)。计算环境300可以采用被训练来检测和分类不同细胞的相同类型的机器学习算法或不同类型的机器学习算法。例如,计算环境300可以包括用于检测和分类PD1的第一机器学习算法(例如,U-Net)。计算环境500还可以包括用于检测和分类分化簇68(“CD68”)的第二机器学习算法(例如,2DCNN)。计算环境300还可以包括用于组合检测和分类PD1和CD68的第三机器学习算法(例如,U-Net)。计算环境300还可以包括用于治疗疾病的诊断或用于诸如患者的受试者的预后的第四机器学习算法(例如,HMM)。在根据本公开的其他实例中,还可以实现其他类型的机器学习模型。
机器学习算法355的训练过程包括从参数数据存储器363中选择机器学习算法355的超参数、将图像子组340a(例如,标记物345和对应的预处理图像340)输入机器学习算法355,并且进行迭代操作以学习机器学习算法355的参数组(例如,一个或多个系数和/或权重)。超参数是可以被调整或优化以控制机器学习算法355的行为的设置。大多数算法明确地定义控制算法的不同方面(诸如存储器或执行成本)的超参数。然而,可以定义附加的超参数来使算法适应具体场景。例如,超参数可以包括算法的隐藏单元的数量、算法的学习速率(例如,1e-4)、卷积核宽度或算法的核数量。在一些情况下,与典型CNN相比,每个卷积和去卷积层的模型参数数量和/或每个卷积和去卷积层的卷积核数量减少一半。
图像子组340a可以作为具有预定大小的批次输入机器学习算法355。批次大小限制了在可以进行参数更新之前向机器学习算法355显示的图像的数量。可替代地,图像子组340a可以作为时间序列或顺序地输入机器学习算法355。在任一情况下,在预处理图像340a内包括增强或合成图像352的情况下,原始图像335的数量与每个批次内包括的合成图像352的数量或原始图像335和表型图像352被馈送到算法中的方式(例如,每隔一个批次或图像是原始图像批次或原始图像)可以被定义为超参数。
每个参数为可调变量,使得在训练期间调整参数的值。例如,成本函数或目标函数可以配置成优化所描绘的表示的准确分类、优化给定类型特征的表征(例如,表征形状、大侠、均匀性等)、优化给定类型的特征的检测和/或优化给定类型的特征的准确定位。每次迭代可以涉及学习机器学习算法355的参数组,该参数组最小化或最大化机器学习算法355的成本函数,使得使用该参数组的成本函数的值小于或大于在先前的迭代中使用另一参数组的成本函数的值。可以构造成本函数以测量使用机器学习算法355预测的输出与被包含在训练数据中的标记物345之间的差异。例如,对于基于监督学习的模型,训练的目标是学习将训练输入空间X映射到目标值空间Y的函数“h()”(有时也称为假设函数),h:X→Y,使得h(x)是y相应值的良好预测因子。可以使用各种不同的技术来学习该假设函数。在一些技术中,作为推导假设函数的一部分,可以定义成本或损失函数来测量输入的真实值与该输入的预测值之间的差异。作为训练的一部分,使用诸如反向传播、随机反馈、直接反馈对齐(DFA)、间接反馈对齐(IFA)、赫布学习等的技术来最小化该成本或损失函数。
训练迭代继续直到满足停止条件。训练完成条件可以被配置为当(例如)已经完成预定义数量的训练迭代、基于测试或验证生成的统计量超过预定义的阈值(例如,分类准确度阈值)、基于置信度度量生成的统计量(例如,平均或中值置信度度量或高于特定值的置信度度量的百分比)超过预定义的置信度阈值,和/或已参与训练审核的用户装置关闭由训练控制器365执行的训练应用时满足。一旦经由训练识别模型参数组,机器学习算法355就已经被训练,并且训练控制器365使用图像子组340b(测试或验证数据集)来进行测试或验证的附加过程。该验证过程可以包括使用验证技术(诸如K折交叉验证、留一法交叉验证、留一组交叉验证、嵌套交叉验证等)将来自图像子组340b的图像输入机器学习算法355以调整超参数并且最终找到超参数的最优组的迭代操作。一旦获得超参数的最优组,就将来自图像子组340b的图像的保留测试组输入机器学习算法355以获得输出,并且使用诸如Bland-Altman方法和Spearman等级相关系数的相关技术来评估输出与真实值的关系并计算性能度量,诸如误差、准确度、精确度、召回率、接受者操作特性曲线(ROC)等。在一些情况下,可以响应于接收来自用户装置的相应请求或触发条件(例如,初始模型开发、模型更新/适应、连续学习、在训练的机器学习模型360内确定漂移等)而启动新的训练迭代。
应当理解,其他训练/验证机制也是可以预期的,并且可以在计算环境300内实现。例如,可以对机器学习算法355进行训练并且可以在来自图像子组340a的图像上调整超参数,并且来自图像子组340b的图像可以仅用于测试和评价机器学习算法355的性能。此外,尽管本文描述的训练机制聚焦于训练新的机器学习算法355。但是这些训练机制还可以用于初始模型开发、模型更新/适应以及从其他数据集训练的现有机器学习模型360的连续学习,如本文详细描述的。例如,在一些情况下,机器学习模型360可能已经使用其他对象或生物结构的图像或者来自其他受试者或研究(例如,人类试验或鼠类实验)的切片的图像进行了预处理。在这些情况下,机器学习模型360可以用于初始模型开发、模型更新/适应以及使用预处理图像340的连续学习。
F.结果生成阶段
经训练的机器学习模型360然后可以用于(在结果生成阶段325)处理新的预处理图像340以生成预测或推断,诸如预测细胞中心和/或位置概率、对细胞类型进行分类、生成细胞掩模(例如,图像的逐像素分割掩模)、预测疾病的诊断或诸如患者的受试者的预后或其组合。在一些情况下,掩模识别与一种或多种生物标志物相关的所描绘的细胞的位置。例如,给定针对单一生物标志物染色的组织,经训练的机器学习模型360可以被配置为:(i)推断细胞的中心和/或位置,(ii)根据与生物标志物相关的染色模式的特征对细胞进行分类,以及(iii)输出针对阳性细胞的细胞检测掩模和针对阴性细胞的细胞检测掩模。作为另一个实例,给定针对两种生物标志物染色的组织,经训练的机器学习模型360可以被配置为:(i)推断细胞的中心和/或位置,(ii)根据与两种生物标志物相关的染色模式的特征对细胞进行分类,以及(iii)输出针对第一生物标志物呈阳性的细胞的细胞检测掩模,针对第一生物标志物呈阴性的细胞的细胞检测掩模,针对第二生物标志物呈阳性的细胞的细胞检测掩模以及针对第二生物标志物呈阴性的细胞的细胞检测掩模。作为另一个实例,给定针对单一生物标志物染色的组织,经训练的机器学习模型360可以被配置为:(i)推断细胞的中心和/或位置,(ii)根据细胞特征和与生物标志物相关的染色模式对细胞进行分类,以及(iii)输出针对阳性细胞的细胞检测掩模和针对阴性细胞代码的细胞检测掩模以及被分类为组织细胞的掩模细胞。
在一些情况下,分析控制器380生成分析结果385,该分析结果用于请求处理底层图像的实体。分析结果385可以包括从经训练的机器学习模型360输出的叠加在新的预处理图像340上的掩模。另外或可替代地,分析结果385可以包括根据经训练的机器学习模型的输出计算或确定的信息,诸如全载玻片肿瘤评分。在示例性实施方案中,组织载玻片的自动分析使用受让人VENTANA的经FDA许可的510(k)批准的算法。可替代地或附加地,可以使用任何其他自动化算法来分析图像(例如,掩模图像)的选定区域并生成评分。在一些实施方案中,分析控制器380可以进一步响应从计算装置接收的病理学家、医师、研究者(例如,与临床试验相关)、受试者、医疗专业人员等的指令。在一些情况下,来自计算装置的通信包括特定受试者组中的每一者的识别符,该识别符与对该组中所表示的每个受试者进行分析迭代的请求相对应。计算装置可以进一步基于机器学习模型和/或分析控制器380的输出来进行分析和/或为受试者提供推荐的诊断/治疗。
应当理解,计算环境300是示例性的,并且设想具有不同阶段和/或使用不同部件的计算环境300。例如,在一些情况下,网络可以省略预-处理阶段310,使得用于训练算法的图像和/或由模型处理的图像是原始图像(例如,来自图像数据存储器)。作为另一个实例,应当理解,预处理阶段310和训练阶段320中的每一者都可以包括控制器来进行本文描述的一个或多个动作。类似地,虽然标记阶段315被描绘为与标记控制器350相关联,并且虽然结果生成阶段325被描绘为与分析控制器380相关联,但是与每个阶段相关联的控制器可进一步或替代地促进本文描述的除了生成标记物和/或生成分析结果之外的其他动作。作为又一实例,图3中所示的计算环境300的描绘缺少以下项的描绘表示:与程序员相关联的装置(例如,为机器学习算法355选择架构、定义各种界面将如何运行等);与提供初始标记物或标记物审查(例如,在标记阶段315)的用户相关联的装置;以及与请求对给定图像进行模型处理的用户相关联的装置(该用户可以是与已提供初始标记物或标记物审查的用户相同或不同的用户)。尽管没有描绘这些装置,但计算环境300可能涉及使用一个、多个或所有装置,并且实际上可能涉及使用与提供初始标记物或标记物审查的相应多个用户相关联的多个装置和/或与请求对各种图像进行模型处理的相应多个用户相关联的多个装置。
V.从双重图像生成合成单重图像
图4显示了根据一些实施方案的双重ER/PR和相邻单重IHC ER/PR图像400的实例。可以使用由图2中的网络200执行的过程来获得双重和单重图像400。在图4中,双重ER/PR图像402针对雌激素和孕激素受体两者染色,单重ER图像404可以仅针对雌激素受体染色,并且单重PR图像406可以仅针对孕激素受体染色。组织切片的双重IHC染色允许同时检测两种或更多种生物标志物。双重IHC染色进一步允许两种生物标志物在单细胞水平上共表达。双重IHC染色不需要两种IHC染色剂和额外配准来识别生物标志物的共定位。尽管有这些优点,但双重IHC图像中的生物标志物通常难以被病理学家识别,因为生物标志物经常彼此叠加并聚集。实际上,双重IHC图像的手动评分过程可能具有挑战性。在图4的示例性图像400中,Tamra(紫色)用于染色PR,Quinone Methide Dabsyl(黄色)用于染色ER,并且苏木精(蓝色)用作复染剂。
图5显示了根据一些实施方案的在双重ER/PR图像上选择并在单重IHC ER和IHCPR图像上配准的视场(FOV)500。在图5中,在双重ER/PR图像502上选择FOV,然后将FOV配准并叠加在单重IHC ER图像504和单重IHC PR图像506上。在一些实施方案中,FOV由一名或多名病理学家选择并直接呈现在双重ER/PR图像502上。自动配准算法可以用于将双重ER/PR图像502配准在单重IHC ER和PR图像504和506上。
双重图像可以被分解以生成合成的单重图像,其中每个合成的单重图像可以描绘针对单一生物标志物(例如,ER)染色的细胞。在一些情况下,每个双重图像被处理以产生三个单色图像,其中两个单色图像对应于两种染色剂(例如,ER、PR)中的每一者,并且第三单色图像对应于复染剂(例如,苏木精)。每个单染色图像可以与复染色(“CS”)图像组合以产生合成单重图像。可以使用一个或多个机器学习模型来处理合成单重图像中的每一者以预测每个细胞的表型,其中表型可以与相应类型的生物标志物相关联。可以应用其他类型的图像预处理来生成和修改合成单重图像,其中在图3的预处理阶段310中描述了其他类型的图像预处理。在一些情况下,合成单重图像可以由病理学家可靠地注释或审查以生成训练图像组。
另外或可替代地,可以使用颜色校正方法来处理合成单重图像,以减少在展示装置上展示的颜色范围。图6A-6C显示了根据一些实施方案的用于生成合成单重图像的示例性技术。在图6A中,由载玻片扫描装置602a(例如,DP200扫描仪)扫描的原始图像通常不直接展示给病理学家进行评分,因为展示装置604a——由于其有限的颜色范围——可能无法展示由载玻片扫描装置捕获的所有可能的颜色。因此,可以对原始图像进行颜色校正操作606a。可以使用颜色校正606a,使得所描绘的颜色空间落入展示装置604a的颜色范围内。然后可以将经校正的图像展示在展示装置604a上。颜色校正图像可以包括与可以在显微镜下观察到的颜色相似的颜色。在一些情况下,颜色反卷积技术用于进行颜色校正操作606a。
图6B显示了示出根据一些实施方案的用于从双重ER/PR图像生成合成Dabsyl ER图像和合成PR图像的过程600B的示意图。在图6B中,双重ER/PR图像602b可以被分解以生成原始合成单重图像604b,其中原始合成单重图像604b包括合成ER图像和合成PR图像。可以使用颜色校正操作来处理原始合成单重图像604b中的每一者以生成颜色归一化的合成单重图像606b。在一些情况下,合成的ER/PR图像606b被提供给病理学家用于评分,并且评分可以与配准的单重ER/PR图像608b进行比较以确定任何系统/颜色分解或染色错误的存在。为了使得能够准确比较合成图像和单染色图像(例如,在配准期间避免组织间隙),可以使用特定的载玻片切割顺序。例如,“H&E、单重ER、双重ER/PR、单重PR”的切割顺序可以用于减少配准过程期间的组织间隙。
图6C示出了根据一些实施方案的从双重图像生成的颜色校正的合成单重图像600C的示例性组。第一行图像包括处理用ER/PR染色的示例性双重图像602c以生成描绘PR生物标志物的存在的颜色校正合成图像604c。如图6C所示,颜色校正合成图像描绘了与描绘相邻组织切片的单重PR图像606c的生物标志物图案类似的生物标志物图案。类似地,第二行图像包括处理用ER/PR染色的另一示例性双重图像608c以生成描绘ER生物标志物的存在的另一颜色校正合成图像610c。如图6C所示,颜色校正合成图像描绘了与描绘相邻组织切片的单重ER图像612c的生物标志物图案类似的生物标志物图案。
VI.训练机器学习模型以检测双重图像中的表型
为了训练机器学习模型,图像处理系统可以生成包括训练图像组的训练数据。训练图像可以用真实标记物进行标记,包括ER+、PR+、ER-、PR+和其他(例如,基质细胞、免疫细胞、伪影)。在一些情况下,图像处理系统实施的训练过程包括:(i)病理学家在双重图像中选择一个或多个视场(FOV);(ii)根据从双重图像中选择的FOV,将FOV配准到相邻的单重图像;(iii)从双重ER/PR以及单重ER和PR二者中提取FOV;(iv)从双重图像生成合成TamraPR/合成Dabsyl ER图像,由此为每个FOV生成4个图像;(v)病理学家对所有FOV进行评分,包括合成单重图像;以及(vi)使用这些评分训练ER特异性的机器学习模型和PR特异性的机器学习模型。
A.训练数据
图7示出了根据一些实施方案的用于训练机器学习模型以检测合成单重图像中的细胞表型的训练图像700的示例性组。训练图像可以从描绘生物学样品的至少一部分(例如,组织切片)并用两种或更多种生物标志物(例如,ER、PR)染色的双重图像702生成。双重图像702可以被分解成合成单重图像704。合成单重图像704中的每一者可以表示用单一相应生物标志物染色的生物学样品的至少一部分。在一些情况下,将合成单重图像704与真实单重图像706进行比较以去除任何染色错误。真实单重图像706可以对应于表示双重图像702的组织切片的相邻组织切片的单重图像。为了将合成单重图像704与真实单重图像706进行比较,可以进行配准操作以将真实单重图像706和合成单重图像704与单一坐标系对齐。
一旦去除了染色错误,就可以通过将一个或多个训练标记物添加到合成单重图像704来生成训练图像708。因此,训练图像708可以对应于包括多个训练标记物的合成单重图像。多个训练标记物中的每个训练标记物可以包括:(i)由训练标记物识别的细胞位置;和(ii)针对相应生物标志物的细胞表型。例如,训练标记物的红色指示“肿瘤阳性”癌细胞,训练标记物的绿色指示“肿瘤阴性”非癌细胞,训练标记物的蓝色指示基质细胞,训练标记物的黄色指示免疫细胞,训练标记物的黑色指示伪影。可以重复上述步骤来生成用于训练各个机器学习模型的训练图像组。
B.模型选择
图8显示了根据一些实施方案的用于检测双重载玻片图像中的表型的机器学习模型的示例性架构。如图8所示,U-Net 800可以包括收缩路径805和扩展路径810,这使其具有u形架构。收缩路径805是包括卷积的重复应用(例如,3x3卷积(未填充的卷积))的CNN网络,每个卷积后跟修正线性单元(ReLU)和用于下采样的最大池化操作(例如,步长为2的2x2ma))池化)。在每个降采样步骤或池化操作中,特征通道的数量可以加倍。在收缩期间,图像数据的空间信息减少,而特征信息增加。扩展路径810为组合来自收缩路径805的特征和空间信息(来自收缩路径805的特征图的升采样)的CNN网络。特征图的上采样后跟一系列将通道的数量减半的上卷积(上采样运算子)、与来自收缩路径805的相应裁剪的特征图的串接、每一个后跟修正线性单元(ReLU)的卷积(例如,两个3x3卷积)的重复应用、以及最终卷积(例如,一个1x1卷积),以生成二维肿瘤掩膜。为了定位,来自收缩路径805的高分辨率特征与来自扩展路径810的上采样的输出相组合。U-Net 800使用每一个卷积的有效部分而没有任何全连接层,即,分割图只含有在输入图像中完整上下文可用的像素并且使用跳跃连接,该跳跃连接将在收缩块中学习的上下文特征和在扩展块中学习的定位特征相链接。
在传统的U-Net架构中,卷积块由用于执行卷积的卷积层(例如,通常为两层或三层)组成。然而,根据各种实施方案,卷积块和卷积层被替换为残差块815,在金字塔形层820中在一个或更多个膨胀水平执行可分离卷积(单个卷积层可以被两个或更多金字塔形层820替换)。(例如,堆叠的过滤图像)。图9A示出了图8所示的残差块815中的一个的层结构。如图所示,残差块900可以包括多个金字塔形层905。在包括残差块900的网络(例如,ResNet)中,每一个金字塔形层905馈入下一层(A,B,C..)并直接馈入大约2至3层之外的层(D,E...)。在网络中使用残差块900有助于克服因增加金字塔形层数而出现的退化问题(如果层数不断增加,准确度将首先增加,但会在某一点开始饱和并最终退化)。残差块900使用跳跃连接或残差连接跳过这些附加金字塔形层中的一些层,这最终将更大的梯度传播到初始金字塔形层。跳过在初始训练阶段使用更少的金字塔形层有效地简化了网络。这通过减少消失梯度的影响来加速学习,因为传播通过的层数更少(即,多速残差学习)。然后网络在学习特征空间时逐渐恢复跳过的层。
图9B示出了根据一些实施方案的图9A的单一金字塔形层910。如图9B所示,金字塔形层910可以使用多个不同尺度下的膨胀的(深黑色)可分离卷积(“膨胀块”),在该示例中为四个级别。金字塔形层910包括多个不同尺度下的相同图像,以便提高检测对象(例如,肿瘤)的准确度。膨胀的(深黑色)卷积是指带有“展开”感受野的过滤器,其会增加感受野相对于内核大小的大小。在一些实施方案中,一个或多个膨胀水平是四个膨胀水平。在其他实施方案中,可使用更大或更小的膨胀级,例如,六级膨胀。卷积层输出915是膨胀块920(被标记为膨胀1、2、4和8)的输出。图9B的示出实例假设有四个膨胀块,并且每个膨胀块输出两个通道(具有相同颜色),因此输出的通道总数为八个。每个膨胀块输出的通道数可能会因所讨论的残差块而有所不同。图9B的实例示出了图8中左上或右上的残差块815。在一些实施方案中,由残差块905的金字塔形层910中的每个膨胀块915输出的每个通道的数量等于残差块905上的k个过滤器的数量除以四。
经验证据表明,残差块可提高准确度且更容易优化。可分离卷积,深度卷积后跟逐点卷积,也显示出收敛速度的巨大增益和模型大小的显著减小。膨胀的卷积不损失分辨率扩展了感受野,因此允许聚合多尺度上下文信息下采样。卷积块的重新设计允许在图像中提取非常局部和稀有的信息。
C.训练机器学习模型以检测双重图像中表型的方法
图10示出了根据一些实施方案的用于训练机器学习模型以检测双重图像中的表型的过程1000。为了说明性目的,参考图1的图像处理系统100和/或图3中所示的部件来描述过程1000,但其他实施方式也是可能的。例如,用于图3的计算环境300的存储在非暂时性计算机可读介质中的程序代码由一个或多个处理装置执行以使服务器系统进行本文描述的一个或多个操作。
在步骤1002,训练子系统访问描绘生物学样品的至少一部分(例如,组织切片)的数字病理学图像。数字病理学图像可以是针对第一类型生物标志物和第二类型生物标志物染色的双重图像。在一些情况下,数字病理学图像对应于较大数字图像的一部分(例如,图像瓦片)。
在步骤1004,训练子系统对数字病理学图像进行分解以生成:(i)第一合成单重图像,其描绘生物学样品的至少一部分,针对该至少一部分识别第一类型生物标志物;和(ii)第二合成单重图像,其描绘生物学样品的至少一部分,该至少一部分识别第二类型生物标志物。在一些情况下,合成单重图像是通过以下方式生成的:(i)生成描绘针对相应生物标志物染色的细胞的预处理图像;和(ii)将预处理图像与复染色图像组合。使用复染色图像可以使生物标志物在视觉上与预处理图像中描绘的其他细胞结构区分。
另外,第一类型生物标志物可以对应于ER生物标志物,并且第二类型生物标志物对应于PR生物标志物。另外或可替代地,可以使用颜色校正操作来进一步处理第一和第二合成单重图像以促进训练标记物的添加。在一些情况下,将第一合成单重图像和第二合成单重图像与描绘生物学样品的另一部分(例如,相邻组织切片)的相应单重图像进行比较,以解决任何可能的错误,诸如染色错误。
在步骤1006,训练子系统将第一组训练标记物添加到第一合成单重图像以生成第一训练图像。每个训练标记物可以识别由训练标记物识别的细胞的位置以及针对相应生物标志物的细胞表型。例如,第一组训练标记物可以包括:(i)ER+分类;(ii)ER-分类;(iii)基质细胞分类;(iv)免疫细胞分类;以及(v)伪影分类。在一些情况下,训练标记物由一个或多个病理学家添加到第一合成单重图像。
在步骤1008,训练子系统使用第一训练图像来训练第一机器学习模型。继续上面的实例,可以训练第一机器学习模型来预测针对ER生物标志物染色的图像中的细胞表型,这包括基于第一机器学习模型的输出与对应于第一合成单重图像的真实值之间计算出的损失来调整第一机器学习模型的参数。可以训练第一机器学习模型来生成针对第一训练图像的概率图组。该概率图组中的每个概率图可以表示合成单重图像的多个像素并且对应于该分类组中的特定分类。例如,可以训练第一机器学习模型来生成针对第一训练图像的第一组概率图,其中第一组概率图包括:(i)针对ER+分类的第一概率图;(ii)针对ER-分类的第二概率图;(iii)针对基质细胞分类的第三概率图;(iv)针对免疫细胞分类的第四概率图;和(v)针对伪影分类的第五概率图。在一些情况下,第一机器学习模型是U-Net模型。
在步骤1010,训练子系统将第二组训练标记物添加到第二合成单重图像以生成第二训练图像。每个训练标记物可以识别由训练标记物识别的细胞的位置以及针对相应生物标志物的细胞表型。例如,第一组训练标记物可以包括:(i)PR+分类;(ii)PR-分类;(iii)基质细胞分类;(iv)免疫细胞分类;以及(v)伪影分类。在一些情况下,训练标记物由一名或多名病理学家添加到第二合成单重图像。
在步骤1012,训练子系统使用第二训练图像来训练第二机器学习模型。继续上面的实例,可以训练第二机器学习模型来预测针对PR生物标志物染色的图像中的细胞表型,这包括基于第二机器学习模型的输出与对应于第二合成单重图像的真实值之间计算出的损失来调整第二机器学习模型的参数。可以训练第二机器学习模型来生成针对第二训练图像的概率图组。例如,可以训练第一机器学习模型来生成针对第一训练图像的第一组概率图,其中第一组概率图包括:(i)针对PR+分类的第一概率图;(ii)针对PR-分类的第二概率图;(iii)针对基质细胞分类的第三概率图;(iv)针对免疫细胞分类的第四概率图;和(v)针对伪影分类的第五概率图。在一些情况下,第二机器学习模型是U-Net模型。因此,可以使用单独的训练图像来训练第一机器学习模型和第二机器学习模型,使得经训练的机器学习模型可以准确地预测各自的合成单重图像中描绘的细胞的表型。
在步骤1014,训练子系统提供第一和第二机器学习模型。例如,第一和第二机器学习模型可以由另一个计算系统(例如,图1的图像处理系统100)在通信网络上访问以预测其他双重图像中的细胞表型。在一些情况下,一旦为第一和第二机器学习模型中的每一者确定的损失低于预定阈值,则由另一系统访问第一和第二机器学习模型。此后过程1000终止。VII.合并针对多种生物标志物的细胞表型
经训练的两个机器学习模型可以用于生成初始种子位置并预测针对种子位置的表型。具体地,第一机器学习模型(例如,ER模型)可以用于生成合成单重ER图像中的细胞表型,并且第二机器学习模型(例如,PR模型)可以用于生成合成单重PR图像中的细胞表型。
图11显示了根据一些实施方案的由两个模型生成的示例性种子位置和不同类别标记物。在图11中,图像1102识别由ER模型生成的红色“菱形”,其中ER模型检测到1762个细胞(包括ER+、ER-、免疫、基质和背景)。第一图像1102还识别由PR模型生成的绿色“X”,其中PR模型检测到1034个细胞。图像的放大部分1104进一步显示双重图像中存在识别表型具有挑战性的细胞。该困难可能归因于同一图像中聚集了多个绿色和红色标志物。双重图像的不同区域1106描绘了识别针对多种生物标志物的表型可能具有挑战性的细胞的实例。例如,ER模型可以预测细胞为ER阳性细胞,但PR模型可以预测与其他细胞(诸如免疫细胞和基质细胞)相对应的相同细胞。
A.使用经训练的机器学习模型从合成单重图像生成概率图
为了解决上述挑战,图像处理系统可以合并由第一和第二机器学习模型生成的表型。表型的合并可以通过使用概率图来进行。特别地,可以针对给定图像区域比较由机器学习模型生成的概率图,并且可以基于概率图确定给定区域的输出。概率图的使用优于现有技术(诸如调整启发式参数来分配类别)。
图12示出了根据一些实施方案的由ER模型生成的五个概率图1200。概率图1200中的每个概率图可以表示合成ER图像的多个像素并且对应于该分类组中的特定分类。对于多个像素中的每个像素,概率图包括指示像素是否对应于分类的概率值。如图12所示,表示合成ER图像的概率图1200可以包括:(i)用于ER+分类的第一概率图1204;(ii)用于ER-分类的第二概率图1206;(iii)用于免疫细胞分类的第三概率图1208;(iv)用于基质细胞分类的第四概率图1210;以及(v)用于伪影/噪声分类的第五概率图1212。除了概率图之外,ER模型还可以生成背景/对象图1214。对于ER通道中的每个像素,图像处理系统可以比较五个概率图之间的概率值,以确定该像素是否应分配为ER阳性、ER阴性、免疫细胞、基质细胞或其他细胞。PR模型还可以通过处理合成的PR图像来生成五个概率图。PR模型生成的概率图可以用于确定像素将变为PR阳性、PR阴性、免疫细胞、基质细胞或其他细胞。
B.生成合并的概率图来定义锚点组
由ER和PR模型中的每一者生成的概率图可以被合并以生成概率图的合并组。基于概率图的合并组,可以确定锚点组。该锚点组可以对应于双重图像内可以识别一种或多种生物标志物的存在的位置。图13示出了根据一些实施方案的由ER和PR通道中的两个U-Net模型生成的概率图之间的五个合并概率图1300的计算。在图13中,ER模型可以在合成ER图像上使用,并且可以生成对象图以及ER肿瘤阳性、ER肿瘤阴性、免疫细胞、基质细胞和其他细胞的五个概率图1302。PR模型可以在合成PR图像上使用,并且可以生成对象图以及PR肿瘤阳性、PR肿瘤阴性、免疫细胞、基质细胞和其他细胞的五个概率图1302。图像处理系统可以比较两个概率图1302和1304并且确定ER和PR肿瘤阳性概率图中每个像素的最大概率。图像处理系统还可以确定ER和PR肿瘤阴性概率图中每个像素的最大概率。图像处理系统可以继续对ER和PR通道之间的免疫、基质和其他细胞概率图进行上述过程。
在计算来自ER和PR通道图像的五个合并概率图1306之后,图像处理系统可以比较合并概率图1306中的每个像素在某个距离或区域内的最大概率,以及具有最大概率的像素可以预测为每个细胞的潜在中心或每个细胞的锚点。
图14示出了根据一些实施方案的由搜索ER和PR通道之间的合并概率图获得的锚点1400的实例。在图14中,锚点1400叠加在合成PR图像1402和合成ER图像1404中的每一者上。图像1402和1404中的蓝色方块识别锚点,并且红色菱形对应于最初在Tamra PR图像1402和Dabsyl ER图像1404中检测到的细胞。锚点是每个细胞的中心,并且所有红点组合了ER/PR通道中的五种类型的标记物。在一些实施方案中,锚点对应于细胞的另一部分(例如,细胞核)。
C.将锚点与相应的表型相关联
图15示出了根据一些实施方案的在像素水平下的示例性锚点以及周围的ER+和PR+点。在图15中,描绘了在像素水平下的示例性锚点1502以及周围的ER+点1504和PR+点1506。在一些实施方案中,应用k最近邻算法或距离算法来计算锚点与ER+、PR+点1504和1506之间的距离。例如,如果ER+和PR+位置都在距锚点的预定距离内,则可以为锚点分配ER+和PR+标记物两者。
另外或可替代地,可以使用标记技术。图16示出了根据一些实施方案的从概率图确定的示例性标记物图1600。图16进一步示出了应用于五个标记物图和锚点的逻辑AND计算。对于ER通道中五个概率图(ER+“1”、ER-“2”、基质-“3”、免疫“4”和其他“5”)中的每个点,图像处理系统可以计算周围的标记物图1602。在一些情况下,标记物图可以对应于被分类为显示针对对应类型生物标志物的表型(例如,ER+)的点周围的10x10像素区域。在标记物图1604中,锚点还可以被标记为“红色”圆圈,其中逻辑“&”操作和五个标记物图用于确定锚点是否属于ER+/ER-/免疫/基质/其他分类中的一者。例如,锚点1606可以被分配给ER+分类,因为锚点位于对应于被分类为ER+分类的点的10x10像素区域内。尽管另一ER-标记物图与ER+标记物图重叠,但是图像处理系统可以为ER+标记物图分配更高的权重,使得可以为锚点分配ER+分类而不是其他分类。
i.将锚点与ER分类相关联
图17示出了根据一些实施方案的将锚点分配到ER+/ER-/其他中的实例。在图17中,图像处理系统生成合成单重图像1704(例如,ER通道图像)的像素距离图1702。像素距离图1702包括被分类为具有针对对应类型生物标志物的表型的点组,其中该点组中的每个点由预定像素区域(例如,10x10个像素)定义。图像处理系统可以将像素距离图1702叠加到对应于合成单重图像1704的锚点组,由此生成包括针对该锚点组的分类的映射图像1706。显示了映射图像1706的放大部分1708,其中一个或多个锚点(定义为“红色”点)与对应像素区域(定义为“白色”方块)相关联。映射图像1706可以与针对合成PR图像生成的另一映射图像(未显示)组合,以生成包括ER和PR生物标志物的共定位的输出图像1710。上述技术可以优于其他现有算法,因为上述技术可以更快、更高效且更准确地进行。
图18示出了根据一些实施方案的用于将锚点分配到合成ER图像中的ER+/ER-/其他中的过程1800。在图18中,过程1800包括使用“&”运算符为ER通道中的锚点分配分类标记物(例如,ER+/ER-/其他)的过程,其中:(i)与锚点重叠的“ER+”标记物图的一部分将为锚点生成ER+分类(框1802);(ii)与锚点重叠的“ER-”标记物图的一部分将为锚点生成ER-分类(框1804);以及(iii)与锚点重叠的“免疫/基质/伪影”标记物图的一部分将为锚点生成“其他”分类(框1806)。在一些情况下,当图像处理系统计算针对合成单重图像的像素的分类的最大概率时,弱染色的ER阳性细胞可能不会被考虑并遗漏。为了解决上述问题,图像处理系统可以在此步骤中添加弱染色的ER阳性细胞(框1808)。
ii.将锚点与PR分类相关联
类似地,图像处理系统可以在图19和20中显示的合成PR图像中重复等效处理。图19示出了根据一些实施方案的将锚点分配到PR+/PR-/其他中的实例。在图19中,图像处理系统生成合成单重图像1904(例如,PR通道图像)的像素距离图1902。像素距离图1902包括被分类为具有针对PR生物标志物的表型的点组,其中该点组中的每个点由预定像素区域(例如,10x10像素)定义。图像处理系统可以将像素距离图1902叠加到对应于合成单重图像1904的锚点组,由此生成包括针对该锚点组的分类的映射图像1906。映射图像1906可以与针对合成ER图像生成的映射图像1806组合以生成包括ER和PR生物标志物的共定位的输出图像1910。
图20示出了根据一些实施方案的用于将锚点分配到合成PR图像中的PR+/PR-/其他中的过程2000。在图20中,过程2000包括使用“&”运算符为PR通道中的锚点分配分类标记物(例如,PR+/PR-/其他)的过程,其中:(i)与锚点重叠的“PR+”标记物图的一部分将为锚点生成PR+分类(框2002);(ii)与锚点重叠的“PR-”标记物图的一部分将为锚点生成PR-分类(框2004);以及(iii)与锚点重叠的“免疫/基质/伪影”标记物图的一部分将为锚点生成“其他”分类(框2006)。在一些情况下,当图像处理系统计算针对合成单重图像的像素的分类的最大概率时,弱染色的PR阳性细胞可能不会被考虑并遗漏。为了解决上述问题,图像处理系统可以在此步骤中添加弱染色的PR阳性细胞(框2008)。
D.将表型合并到双重图像中
在一些实施方案中,系统被配置为组合和合并针对所有不同类型的锚点的ER+/PR+/ER-/PR-/其他。可以根据合成的ER和PR图像上的不同优先级概率来确定分类。例如,可以为合成ER和PR图像中的ER+/PR+/ER-/PR-分配相等的权重,在该权重下,图像处理系统可以组合在两个合成ER和PR图像中检测到的上述表型。对于在合成ER和PR图像中检测到的其他细胞,可以分配较小的权重。例如,如果像素在ER通道中被检测为ER+,并且在PR通道中检测到PR+,则图像处理系统可以识别相等的权重,并将该像素分配为ER+PR+共表达表型。在另一个实例中,如果像素在ER通道中被检测为ER+,并且在PR通道中检测到基质细胞,则图像处理系统可以识别两个不同的权重并且仅将该像素分配为ER+分类。图21显示了在一些实施方案中描绘叠加在双重图像中的合并表型的示例性图像组。
E.使用机器学习技术检测双重图像中表型的方法
图22示出了根据一些实施方案的用于使用经训练的机器学习模型来检测双重图像中的表型的过程2200。为了说明性目的,参考图1的图像处理系统100和/或图3中所示的部件来描述过程2200,但其他实施方式也是可能的。例如,用于图3的计算环境300的存储在非暂时性计算机可读介质中的程序代码由一个或多个处理装置执行以使服务器系统进行本文描述的一个或多个操作。
在步骤2202,图像处理系统访问描绘生物学样品的至少一部分(例如,组织切片)的数字病理学图像。数字病理学图像可以是针对第一类型生物标志物和第二类型生物标志物染色的双重图像。在一些情况下,数字病理学图像对应于较大数字图像的一部分(例如,图像瓦片)。
在步骤2204,图像处理系统对数字病理学图像进行分解以生成:(i)第一合成单重图像,其描绘生物学样品的至少一部分,针对该至少一部分识别第一类型生物标志物;和(ii)第二合成单重图像,其描绘生物学样品的至少一部分,该至少一部分识别第二类型生物标志物。在一些情况下,第一类型生物标志物对应于ER生物标志物,并且第二类型生物标志物对应于PR生物标志物。在一些情况下,合成单重图像是通过以下方式生成的:(i)生成描绘针对相应生物标志物染色的细胞的预处理图像;和(ii)将预处理图像与复染色图像组合。使用复染色图像可以使生物标志物在视觉上与预处理图像中描绘的其他细胞结构区分。
在步骤2206,图像处理系统将第一机器学习模型应用于第一合成单重图像以:(i)从第一合成单重图像检测第一多个细胞;以及(ii)确定针对第一多个细胞中的每个细胞的第一组分类中的分类。第一机器学习模型可以是第一经训练的U-Net模型。第一组中的分类指示细胞是否包括具有第一生物标志物类型的生物标志物。第一机器学习模型可以是使用图10的过程1000训练的ER模型。第一组分类可以识别针对ER生物标志物的细胞的表型,其中第一组分类包括:(i)ER阳性分类(ER+);(ii)ER阴性分类生物标志物(ER-);(iii)基质细胞分类;(iv)免疫细胞分类;以及(v)伪影或其他生物结构分类。在一些情况下,图像处理系统应用第一机器学习模型来生成表示第一合成单重图像的第一组概率图。第一组概率图的每个概率图可以表示第一合成单重图像的多个像素并且对应于第一组分类中的特定分类。对于多个像素中的每个像素,概率图包括指示像素是否对应于分类的概率值。
在步骤2208,图像处理系统将第二机器学习模型应用于第二合成单重图像以:(i)从第二合成单重图像检测第二多个细胞;以及(ii)确定针对第二多个细胞中的每个细胞的第二组分类中的分类。第二机器学习模型可以是第二经训练的U-Net模型,其与用于生成第一组分类的第一经训练的U-Net模型分开训练。第二组中的分类指示细胞是否包括具有第二生物标志物类型的生物标志物。第二机器学习模型可以是使用图10的过程1000训练的PR模型。第二组分类可以识别针对PR生物标志物的细胞的表型,其中第二组分类包括:(i)PR阳性分类(PR+);(ii)PR阴性分类生物标志物(PR-);(iii)基质细胞分类;(iv)免疫细胞分类;以及(v)伪影或其他生物结构分类。在一些情况下,图像处理系统应用第二机器学习模型来生成表示第二合成单重图像的第二组概率图。第二组概率图的每个概率图可以表示第二合成单重图像的多个像素并且对应于第二组分类中的特定分类。对于多个像素中的每个像素,概率图包括指示像素是否对应于分类的概率值。第一组分类可以包括与第二组分类的分类不同的分类。
在步骤2210,图像处理系统将第一多个细胞的分类和第二多个细胞的分类合并以生成合并的分类。第一组分类和第二组分类的合并有利于识别数字病理学图像的图像区域,该图像区域描绘与多种生物标志物表型(例如,ER/PR)相关联的细胞。在一些情况下,图像处理系统通过合并第一组概率图和第二组概率图来合并第一组分类和第二组分类以定义锚点组。该锚点组对应于数字病理学图像内的位置,在该位置处可以针对每个锚点识别一种或多种生物标志物的存在。为了合并分类,图像处理系统为锚点组中的每个锚点分配第一组分类的相应分类和第二组分类的相应分类。可以基于锚点是否在距离相应分类中每一者的位置预定距离(例如,10个像素)内的确定来识别第一组和第二组的相应分类。
在步骤2212,图像处理系统输出具有合并的分类的数字病理学图像。合并的分类可以识别针对检测到的细胞的表型,其中表型可以指示针对数字病理学图像染色的多种生物标志物的存在。在一些情况下,图像处理系统通过将合并的分类叠加到数字病理学图像上来输出数字病理学图像。VII.使用合并表型训练增强的机器学习模型
在一些情况下,合并的表型可以用于训练另一机器学习模型以预测双重图像中的细胞表型(称为“增强的机器学习模型”),其中增强的机器学习模型不需要分解双重图像。图23示出了根据一些实施方案的使用针对双重ER/PR算法的合并表型的训练流水线2300。
在图23中,图像处理系统可以被配置成接收已被染色以显示两种或更多种类型的生物标志物的病理学载玻片的图像(框2302)。在一些实施方案中,图像处理系统被配置成使用已染色以显示雌激素受体(ER)和孕激素受体(PR)蛋白的存在的双重载玻片的图像进行操作。针对ER和PR标志物中的每一者,图像中的每个细胞可以被分类为阳性或阴性。因此,每个细胞的表型可以被识别为ER+PR+、ER+PR-、ER-PR+、ER-PR-或其他(例如,基质、免疫、坏死、伪影等)。
在一些情况下,图像处理系统将双重载玻片图像划分为多个图像瓦片(框2304)。可以对多个图像瓦片中的每一个进行针对多种生物标志物的细胞表型的识别。在一些情况下,从多个图像瓦片中选择图像瓦片组,其中该图像瓦片组被用作用于训练一个或多个机器学习模型以检测针对生物标志物类型的细胞表型的训练图像。
图像处理系统可以识别双重图像的合并表型以生成训练双重图像(框2306)。训练双重图像可以包括训练标记物组,其中每个训练标记物识别针对多种生物标志物的相应细胞的表型(例如,ER+/PR+)。训练图像的合并表型可以使用图22中描述的过程2200的步骤来生成。在一些情况下,图像处理系统识别针对图像瓦片组中的每个图像瓦片的合并表型,以生成用于训练机器学习模型的训练图像组。在一些情况下,将针对训练图像组的合并表型与病理学家手动生成的真实训练标记物进行比较(框2308)。
在一些实施方案中,图像处理系统使用具有合并表型的图像瓦片(即,训练图像)组来训练增强的机器学习模型(例如,U-Net模型),使得增强的机器学习模型可以预测针对多种生物标志物的每个检测到的细胞的表型。例如,可以使用训练图像组来训练增强的机器学习模型以预测针对两种ER/PR生物标志物的细胞表型(框2310)。
然后可以使用经训练的增强的机器学习模型来检测相应的其他双重图像中的细胞表型(框2312)。结果,图像处理系统可以使用单一增强的机器学习模型来预测针对多种生物标志物的表型(框2314)。在一些情况下,图像处理系统将合并的表型叠加到双重图像上。使用合并表型训练增强的机器学习模型可以增加检测双重图像中多种生物标志物的准确度,而无需进行图像预处理步骤(诸如颜色分解操作)。
VIII.实验结果
本发明的机器学习技术的性能与病理学家进行的手动注释相当或更好,由此证明图像处理系统在识别双重图像中多种生物标志物的存在方面的准确度增加。
A.共识评分的比较
图24A-24B示出了根据一些实施方案的三位病理学家的共识评分以及U-Net和合并表型算法。图24A显示了三位病理学家针对ER生物标志物的共识评分(例如,平均评分),其与对应于通过本公开的方面中描述的机器学习技术预测的合并表型的评分进行比较。另外,图24B显示了三位病理学家针对PR生物标志物的共识评分,其与对应于通过本机器学习技术预测的合并表型的评分进行比较。如图24A-24B所示,机器学习技术生成的合并表型(绿点)在三位病理学家的评分范围(红条)内,并且非常接近共识评分(黄点)。图24A-24B中的图证明本机器学习技术的表现可以与病理学家进行的手动注释一样好。
表1进一步描述了“合并表型+U-Net”算法与病理学家的一致同意的评分(三位病理学家的中值评分)之间的相关性。
表1
U-Net表1显示U-Net算法和表型的合并在检测ER和PR生物标志物方面的表现与病理学家一样好。
B.增强的机器学习模型的准确度评定
在另一项评定中,病理学家从具有一系列ER和PR生物标志物的多样性和强度的载玻片中选择了50个FOV。设计的合并表型在双重图像中训练单一U-Net模型,以检测共表达ER+PR+、ER+PR-、ER-PR+、ER-PR-和其他细胞。增强的U-Net模型可以使用图23中描述的过程2300的步骤来生成。此外,还使用以下配置来训练增强的U-Net模型:(i)优化器包括Adam优化器;(ii)学习率设置为1e-4;(iii)纪元设置为100/200;(iv)训练/验证设置为80/20;(v)补丁大小设置为256X256;以及(vi)交叉熵函数设置为损失函数。表2提供了用于训练U-Net模型的训练数据集。经训练的U-Net模型的准确度结果如表3所列。
表2:用于双重ER/PR训练和验证的数据集
/>
表3:ER/PR模型的准确度
C.定性结果
除了定量结果之外,还生成定性数据以评定机器学习模型的性能。图25示出了根据一些实施方案的双重ER/PR结果的表型检测的实例。图25显示了双重ER/PR结果的表型检测的实例,包括叠加在ER/PR双重图像上的合并表型2502、叠加在合成ER图像上的合并表型2504以及叠加在合成PR图像上的合并表型2506。
图26A-26B描绘了具有不同类型的合并表型的双重ER/PR的另外的实例。图26A显示了双重ER/PR中ER+/PR+共表达的实例2602,以及双重ER/PR中PR+优势的实例2604。图26B显示了双重ER/PR中ER+优势的实例2606,和双重ER/PR中肿瘤阴性优势的实例2608。
X.其他注意事项
本公开的一些实施方案包括一种系统,其包括一个或多个数据处理器。在一些实施方案中,该系统包括包含指令的非暂时性计算机可读存储介质,该指令在一个或多个数据处理器上被执行时使一个或多个数据处理器执行本文所公开的一种或多种方法的一部分或全部和/或本文公开的一种或多种过程的一部分或全部。本公开的一些实施方案包括一种有形地体现在非暂时性机器可读存储介质中的计算机程序产品,其包括指令,所述指令被配置为使一个或多个数据处理器执行本文公开的一种或多种方法的一部分或全部和/或本文公开的一种或多种过程的一部分或全部。
已采用的术语和表达被用作描述性而非限制性的术语,并且在使用这些术语和表达时,无意排除所示出和描述的特征或其部分的任何等同物,但是应当认识到,在所要求保护的本发明的范围内,各种修改是可能的。因此,应当理解,尽管已通过实施方案和任选特征具体地公开了所要求保护的本发明,但是本领域技术人员可以采用本文所公开的概念的修改和变化,并且认为这样的修改和变化在由所附权利要求限定的本发明范围内。
随后的描述仅提供优选的示例性实施方案,并且不旨在限制本公开的范围、适用性或配置。相反,优选示例性实施方案的随后描述将为本领域技术人员提供用于实现各种实施方案的可行描述。应当理解,在不脱离所附权利要求中阐述的精神和范围的情况下,可以对元件的功能和布置进行各种改变。
在以下描述中给出具体细节以提供对实施方案的透彻理解。然而,应当理解,可以在没有这些具体细节的情况下实践实施方案。例如,电路、系统、网络、过程和其他组件可以以框图形式显示为部件,以免在不必要的细节中混淆实施方案。在其他情况下,可以在没有不必要的细节的情况下示出众所周知的电路、过程、算法、结构和技术以避免混淆实施方案。

Claims (13)

1.一种方法,其包括:
访问数字病理学图像,所述数字病理学图像描绘生物学样品的针对第一类型生物标志物和第二类型生物标志物进行染色的至少一部分;
分解所述数字病理学图像以生成:
第一合成单重图像,其描绘所述生物学样品的所述至少一部分,针对所述至少一部分识别所述第一类型生物标志物;和
第二合成单重图像,其描绘所述生物学样品的所述至少一部分,从所述至少一部分识别所述第二类型生物标志物;
将第一机器学习模型应用于所述第一合成单重图像以:
从所述第一合成单重图像检测第一多个细胞;以及
确定针对所述第一多个细胞中的每个细胞的第一组分类中的分类,所述第一组中的所述分类指示所述细胞是否包括具有第一生物标志物类型的生物标志物;
将第二机器学习模型应用于所述第二合成单重图像以:
从所述第二合成单重图像检测第二多个细胞;以及
确定针对所述第二多个细胞中的每个细胞的第二组分类中的分类,所述第二组中的所述分类指示所述细胞是否包括具有第二生物标志物类型的生物标志物,其中所述第一组分类与所述第二组分类不同;
合并所述第一多个细胞的所述分类和所述第二多个细胞的所述分类以生成合并的分类;以及
输出具有合并的分类的所述数字病理学图像。
2.根据权利要求1所述的方法,其中确定针对所述第一多个细胞的所述分类包括:
生成第一组概率图,其中所述第一组概率图中的每个概率图包括多个像素并且与所述第一组分类中的分类相关联,其中所述概率图识别针对所述多个像素中的每个像素的概率值,所述概率值指示所述像素是否对应于所述分类;以及
针对所述第一多个细胞中的每个细胞:
识别所述第一组概率图中的概率图,所述概率图包括针对代表所述细胞的一个或多个像素的最高概率值;以及
为所述细胞分配与经识别的概率图相关联的分类。
3.根据权利要求1或权利要求2所述的方法,其中确定针对所述第二多个细胞的所述分类包括:
生成第二组概率图,其中所述第二组概率图中的每个概率图包括多个像素并且与所述第二组分类中的分类相关联,其中所述概率图识别针对所述多个像素中的每个像素的概率值,所述概率值指示所述像素是否对应于所述分类;以及
针对所述第二多个细胞中的每个细胞:
识别所述第二组概率图中的概率图,所述概率图包括针对代表所述细胞的一个或多个像素的最高概率值;以及
为所述细胞分配与经识别的概率图相关联的分类。
4.根据权利要求1至3中任一项所述的方法,其中所述第一机器学习模型和/或所述第二机器学习模型包括U-Net模型。
5.根据权利要求1至4中任一项所述的方法,其中所述第一类型生物标志物为雌激素受体蛋白并且所述第二类型生物标志物为孕激素受体蛋白。
6.根据权利要求1至5中任一项所述的方法,其中输出具有合并的分类的所述数字病理学图像包括将所述合并的分类叠加到所述数字病理学图像上。
7.根据权利要求1至6中任一项所述的方法,其中使用具有合并的分类的所述数字病理学图像作为用于训练第三机器学习模型的训练图像。
8.根据权利要求1至7中任一项所述的方法,其中:
确定针对所述第一多个细胞的所述分类包括:
生成第一组概率图,其中所述第一组概率图中的每个概率图包括多个像素并且与所述第一组分类中的分类相关联,其中所述概率图识别针对所述多个像素中的每个像素的概率值,所述概率值指示所述像素是否对应于所述分类;以及
确定针对所述第二多个细胞的所述分类包括:
生成第二组概率图,其中所述第二组概率图中的每个概率图包括多个像素并且与所述第二组分类中的分类相关联,其中所述概率图识别针对所述多个像素中的每个像素的概率值,所述概率值指示所述像素是否对应于所述分类;
其中将所述第一组概率图和所述第二组概率图合并以生成一组锚点,其中为所述一组锚点中的每个锚点分配所述第一组分类中的第一分类和所述第二组分类中的第二分类。
9.一种计算机产品,其包括存储多个指令的非暂时性计算机可读介质,所述多个指令当被执行时控制计算机系统以进行根据前述权利要求中任一项所述的方法。
10.一种系统,其包括:
根据权利要求9所述的计算机产品;以及
一个或多个处理器,其用于执行存储在所述计算机可读介质上的指令。
11.一种系统,其包括用于进行以上方法中的任一者的工具。
12.一种系统,其包括配置成进行以上方法中的任一者的一个或多个处理器。
13.一种系统,其包括分别进行以上方法中的任一者的步骤的模块。
CN202280061617.7A 2021-09-17 2022-09-13 用于预测双重数字病理学图像中的表型的机器学习技术 Pending CN117940971A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163261308P 2021-09-17 2021-09-17
US63/261,308 2021-09-17
PCT/US2022/043285 WO2023043709A1 (en) 2021-09-17 2022-09-13 Machine-learning techniques for predicting phenotypes in duplex digital pathology images

Publications (1)

Publication Number Publication Date
CN117940971A true CN117940971A (zh) 2024-04-26

Family

ID=83508474

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280061617.7A Pending CN117940971A (zh) 2021-09-17 2022-09-13 用于预测双重数字病理学图像中的表型的机器学习技术

Country Status (2)

Country Link
CN (1) CN117940971A (zh)
WO (1) WO2023043709A1 (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2014230809B2 (en) 2013-03-14 2019-05-02 Ventana Medical Systems, Inc. Whole slide image registration and cross-image annotation devices, systems and methods
JP6629762B2 (ja) * 2014-05-23 2020-01-15 ベンタナ メディカル システムズ, インコーポレイテッド 画像内の生物学的構造及び/又はパターンの検出のためのシステム及び方法
EP3155592B1 (en) * 2014-06-10 2019-09-11 Leland Stanford Junior University Predicting breast cancer recurrence directly from image features computed from digitized immunohistopathology tissue slides

Also Published As

Publication number Publication date
WO2023043709A1 (en) 2023-03-23

Similar Documents

Publication Publication Date Title
CA2966555C (en) Systems and methods for co-expression analysis in immunoscore computation
US20200226462A1 (en) Histopathological image analysis
CN111417958A (zh) 用于生物图像中的联合细胞和区域分类的深度学习系统和方法
JP2018502279A (ja) 組織学画像中の核の分類
US20230186659A1 (en) Machine learning models for cell localization and classification learned using repel coding
US20220351860A1 (en) Federated learning system for training machine learning algorithms and maintaining patient privacy
JP7422235B2 (ja) 腫瘍検出および分析を支援するための非腫瘍セグメンテーション
US11210782B2 (en) System and method for generating selective stain segmentation images for cell types of interest
US20240079116A1 (en) Automated segmentation of artifacts in histopathology images
JP7487418B2 (ja) 多重化免疫蛍光画像における自己蛍光アーチファクトの識別
WO2023121846A1 (en) Adversarial robustness of deep learning models in digital pathology
JP7011067B2 (ja) 膜特徴に基づいて組織画像内で細胞を分類するためのシステム及び方法
US20240112341A1 (en) Digital synthesis of histological stains using multiplexed immunofluorescence imaging
US20230169406A1 (en) Active learning system for digital pathology
WO2023107844A1 (en) Label-free virtual immunohistochemical staining of tissue using deep learning
CN117940971A (zh) 用于预测双重数字病理学图像中的表型的机器学习技术
WO2024118523A1 (en) Consensus labeling in digital pathology images
US20240046473A1 (en) Transformation of histochemically stained images into synthetic immunohistochemistry (ihc) images
WO2024025969A1 (en) Architecture-aware image tiling for processing pathology slides
US20230230242A1 (en) Correcting differences in multi-scanners for digital pathology images using deep learning
JP2024521240A (ja) 免疫組織化学(ihc)の合成画像への組織化学的染色画像の変換
WO2023250094A1 (en) Adaptive learning framework for digital pathology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination