CN115668304A - 针对数字病理图像的空间特征分析 - Google Patents

针对数字病理图像的空间特征分析 Download PDF

Info

Publication number
CN115668304A
CN115668304A CN202180036001.XA CN202180036001A CN115668304A CN 115668304 A CN115668304 A CN 115668304A CN 202180036001 A CN202180036001 A CN 202180036001A CN 115668304 A CN115668304 A CN 115668304A
Authority
CN
China
Prior art keywords
biological object
biological
depictions
subject
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180036001.XA
Other languages
English (en)
Inventor
李骁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Genentech Inc
Original Assignee
Genentech Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Genentech Inc filed Critical Genentech Inc
Publication of CN115668304A publication Critical patent/CN115668304A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10056Microscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30024Cell structures in vitro; Tissue sections in vitro
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30096Tumor; Lesion

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Quality & Reliability (AREA)
  • Radiology & Medical Imaging (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Image Analysis (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本公开提供了涉及处理数字病理图像的系统和方法。更具体地,对第一类别的对象(例如,淋巴细胞)的描绘和第二类别的对象(例如,肿瘤细胞)的描绘进行检测。对每一个生物学对象描绘的位置进行识别,所述位置用于生成表征第一类别的对象的描绘相对于第二类别的对象的定位情况的多个空间分布度量。所述空间分布度量用于生成与受试者的预测生物学状态或其潜在治疗相对应的结果。例如,所述结果可以预测淋巴细胞是否已浸润肿瘤和/或其浸润程度、检查点阻断疗法是否是对所述受试者有效的治疗、和/或受试者对于临床试验是否符合条件。

Description

针对数字病理图像的空间特征分析
优先权
本申请根据35U.S.C.§119(e)要求于2020年9月11日提交的美国临时专利申请号63/077,232和于2020年5月18日提交的美国临时专利申请号63/026,545的权益。
技术领域
本申请整体涉及数字病理图像的图像处理,以生成表征图像中特定类型的对象的空间信息的输出。更具体地,可以处理数字病理图像以生成表征以下的度量:一种或多种类型的生物学对象的描绘的跨图像的全部或一部分的空间分布和相关性。
背景技术
图像分析包括处理单个图像以生成图像级结果。例如,结果可以是与关于图像是否包括特定类型的对象的评估相对应的二元结果。又如,结果可以包括在图像内检测到的特定类型的多个对象的图像级计数。在数字病理的上下文中,结果可以包括在样品的图像内检测到的特定类型的细胞的计数、跨整个图像一种细胞类型的计数相对于另一种细胞类型的计数的比率和/或特定细胞类型的密度。
这种图像级方法很方便,因为其可以促进简化的元数据存储,并且就结果的生成方式而言,可以轻松地理解。然而,这种图像级方法可能从图像中去除细节,这可能会阻碍检测所描绘的场景和/或环境的细节。这种简化在数字病理上下文中可尤其有效,因为特定类型的细胞的当前或未来潜在活动可能在很大程度上取决于微环境。
因此,开发处理数字病理图像以生成反映所描绘的生物学对象的空间表征的输出的技术将非常有利。
发明内容
在一些实施例中,提供了一种计算机实现的方法,其包括:数字病理图像处理系统访问描绘来自受试者的生物学样品的切片的数字病理图像。数字病理图像处理系统在数字病理图像内检测第一组生物学对象描绘和第二组生物学对象描绘。第一组生物学对象描绘中的每一个描绘第一类型的生物学对象中的第一生物学对象。第二组生物学对象描绘中的每一个描绘第二类型的生物学对象中的第二生物学对象。数字病理图像处理系统使用第一组生物学对象描绘和第二组生物学对象描绘来生成空间分布度量,其表征第一组生物学对象描绘相对于第二组生物学对象描绘的位置。数字病理图像处理系统使用该空间分布度量来生成与受试者的预测生物学状态或针对该受试者的潜在治疗相对应的受试者级结果。数字病理图像处理系统生成包括受试者级结果的显示。在特定实施例中,第一类型的生物学对象包括第一类型的细胞并且第二类型的生物学对象包括第二类型的细胞。在特定实施例中,第一类型的生物学对象包括淋巴细胞并且第二类型的生物学对象包括肿瘤细胞。在特定实施例中,数字病理图像描绘来自受试者的已用一种或多种染色剂处理过的生物学样品,该一种或多种染色剂中的每一种增强第一类型的生物学对象或第二类型的生物学对象中的一者或多者的外观。在特定实施例中,数字病理图像处理系统通过以下生成空间分布度量:针对一个或多个第一生物学对象描绘中的每一个第一生物学对象描绘,识别数字病理图像内与第一生物学对象描绘相对应的第一点位置;针对一个或多个第二生物学对象描绘中的每一个第二生物学对象描绘,识别数字病理图像内与第二生物学对象描绘相对应的第二点位置;以及基于第一点位置和第二点位置,确定空间分布度量。在特定实施例中,数字病理图像内的第一点位置指示第一生物学对象描绘的位置。在特定实施例中,通过以下来选择数字病理图像内的第一点位置:针对第一生物学对象描绘,计算平均点位置、形心点位置、中值点位置或加权点位置。在特定实施例中,数字病理图像处理系统通过以下生成空间分布度量:针对一个或多个第一生物学对象描绘中的至少一些第一生物学对象描绘中的每一个以及针对一个或多个第二生物学对象描绘中的至少一些第二生物学对象描绘中的每一个,计算与第一生物学对象描绘相对应的第一点位置和与第二生物学对象描绘相对应的第二点位置之间的距离。在特定实施例中,数字病理图像处理系统通过以下生成空间分布度量:针对一个或多个第一生物学对象描绘中的至少一些第一生物学对象描绘中的每一个,识别第二生物学对象描绘中与第一生物学对象描绘和第二生物学对象描绘之间的距离相关联的一个或多个。在特定实施例中,数字病理图像处理系统通过以下生成空间分布度量:定义被配置成将数字病理图像的区划分为一组图像区域的空间点阵;将一个或多个第一生物学对象描绘中的每一个第一生物学对象描绘分配到该一组图像区域中的图像区域;将一个或多个第二生物学对象描绘中的每一个第二生物学对象描绘分配到该一组图像区域中的图像区域;以及基于图像区域分配,生成空间分布度量。在特定实施例中,数字病理图像处理系统通过以下生成空间分布度量:确定该一组图像区域中的包括第一生物学对象描绘的概率大于相邻图像区域的第一组一个或多个图像区域;确定该一组图像区域中的包括第二生物学对象描绘的概率大于相邻图像区域的第二组一个或多个图像区域;以及进一步基于第一组图像区域和第二组图像区域,确定空间分布度量。数字病理图像处理系统通过以下生成空间分布度量:确定该一组图像区域中的包括第一生物学对象描绘和第二生物学对象描绘两者的概率大于相邻图像区域的第三组一个或多个图像区域;以及进一步基于第三组图像区域,确定空间分布度量。在特定实施例中,数字病理图像处理系统通过以下使用第一空间分布度量来生成与受试者的预测生物学状态或针对该受试者的潜在治疗相对应的受试者级结果:将针对数字病理图像生成的空间分布度量与针对先前数字病理图像生成的先前空间分布度量进行比较;以及基于比较,输出针对先前数字病理图像生成的受试者级结果。在特定实施例中,数字病理图像处理系统通过以下生成受试者级结果:基于使用经训练机器学习模型来处理空间分布度量以及第一组生物学对象描绘和第二组生物学对象描绘,确定针对受试者的诊断、预后、治疗建议或治疗合格性评价。在特定实施例中,空间分布度量包括:基于K最近邻分析定义的度量;基于Ripley K函数定义的度量;Morisita-Horn指数;莫兰指数;基于相关函数定义的度量;基于热点/冷点分析定义的度量;或基于Kriging基分析定义的度量。在特定实施例中,空间分布度量为第一度量类型。数字病理图像处理系统使用第一组生物学对象描绘和第二组生物学对象描绘来生成第二空间分布度量,其表征第一组生物学对象描绘相对于第二组生物学对象描绘的位置。第二空间分布度量为与第一度量类型不同的第二度量类型。进一步使用第二空间分布度量来生成受试者级结果。在特定实施例中,数字病理图像处理系统接收来自使用者装置的使用者输入数据,其包括受试者的或数字病理图像的标识符。基于接收到的使用者输入数据访问数字病理图像。数字病理图像处理系统通过向使用者装置提供受试者级结果来提供受试者级结果以供显示。在特定实施例中,数字病理图像处理系统向受试者的使用者装置输出临床评估。临床评估包括针对受试者的诊断、预后、治疗建议或治疗合格性评价。
在一些实施例中,提供了一种方法,该方法包括:由数字病理图像处理系统访问数字病理图像,该数字病理图像描绘从患有给定医学病症的受试者采集的生物学样品的切片。数字病理图像处理系统在数字病理图像中检测一组生物学对象描绘。该一组生物学对象描绘包括第一类别的生物学对象的第一组生物学对象描绘和第二类别的生物学对象的第二组生物学对象描绘。数字病理图像处理系统生成生物学对象描绘的一个或多个关系位置表示。一个或多个关系位置表示中的每一个指示第一生物学对象描绘相对于第二生物学对象描绘的位置。数字病理图像处理系统使用一个或多个关系位置表示来确定空间分布度量,其表征第一组生物学对象描绘的至少一部分被描绘为与第二组生物学对象描绘的至少一部分散布的程度。数字病理图像处理系统基于空间分布度量生成与关于以下的预测相对应的结果:调节免疫反应的给定治疗将在何种程度上有效地治疗受试者的给定医学病症。数字病理图像处理系统基于结果确定受试者对于临床试验符合条件。数字病理图像处理系统生成包括以下指示的显示:受试者对于临床试验符合条件。在特定实施例中,空间分布度量包括:基于K最近邻分析定义的度量、基于Ripley K函数定义的度量、Morisita-Horn指数、莫兰指数、基于相关函数定义的度量、基于热点/冷点分析定义的度量,或基于Kriging基分析定义的度量。在特定实施例中,空间分布度量为第一度量类型;数字病理图像处理系统使用一个或多个关系位置表示来确定第二空间分布度量,其表征第一组生物学对象描绘的至少一部分被描绘为与第二组生物学对象描绘的至少一部分散布的程度。第二空间分布度量为与第一度量类型不同的第二度量类型。进一步基于第二空间分布度量来生成结果。在特定实施例中,生成结果包括:数字病理图像处理系统使用经训练机器学习模型来处理第一空间分布度量和切片空间分布度量。经训练机器学习模型已使用一组训练元素进行训练。该一组训练元素中的每一个对应于已接受与临床试验相关联的特定治疗的另一受试者。该一组训练元素中的每一个包括另一组空间分布度量和反应性值,该反应性值指示给定治疗在何种程度上激活了另一受试者中的免疫反应。在特定实施例中,生成结果包括:将空间分布度量的值与阈值进行比较。在特定实施例中,给定医学病症是一种类型的癌症并且给定治疗是免疫检查点阻断治疗。在特定实施例中,对于该一组生物学对象描绘中的每一个生物学对象描绘,一个或多个关系位置表示包括标识生物学对象描绘在数字病理图像内的位置的一组坐标。在特定实施例中,生成生物学对象描绘的一个或多个关系位置表示包括:针对第一组生物学对象描绘中的每一个生物学对象描绘,识别数字病理图像内与生物学对象描绘相对应的第一点位置;针对第二组生物学对象描绘中的每一个生物学对象描绘,识别数字病理图像内与生物学对象描绘相对应的第二点位置;以及将第一点位置和第二点位置进行比较。在特定实施例中,通过以下来选择数字病理图像内的第一点位置:针对第一组生物学对象描绘中的生物学对象描绘,计算平均点位置、形心点位置、中值点位置或加权点位置。在特定实施例中,数字病理图像处理系统通过以下确定空间分布度量:针对第一组生物学对象描绘中的至少一些中的每一个以及针对第二组生物学对象描绘中的至少一些中的每一个,计算与第一组生物学对象描绘中的生物学对象描绘相对应的第一点位置和与第二组生物学对象描绘中的生物学对象描绘相对应的第二点位置之间的距离。在特定实施例中,数字病理图像处理系统通过以下确定空间分布度量:针对第一组生物学对象描绘中的至少一些中的每一个,识别第二组生物学对象描绘中的与以下距离相关联的一个或多个:与第一组生物学对象描绘中的生物学对象描绘相对应的第一点位置和与第二组生物学对象描绘中的生物学对象描绘相对应的第二点位置之间的距离。在特定实施例中,对于数字病理图像中的一组图像区域中的每一个,一个或多个关系位置表示包括对以下的表示:被识别为位于该区域内的第一类别的生物学对象的生物学对象描绘的绝对数量或相对数量以及被识别为位于该区域内的第二类别的生物学对象的生物学对象描绘的绝对数量或相对数量。在特定实施例中,一个或多个关系位置表示包括第一组生物学对象描绘中的生物学对象描绘被描绘为位于距第二组生物学对象描绘中的生物学对象描绘的给定距离内的基于距离的概率。在特定实施例中,数字病理图像处理系统访问针对受试者的基因测序或放射成像数据,其中进一步基于基因测序或放射成像数据的特性来生成结果。在特定实施例中,第一类别的生物学对象为肿瘤细胞,并且第二类别的生物学对象为免疫细胞。在特定实施例中,数字病理图像处理系统接收来自使用者装置的包括受试者的标识符的使用者输入数据,并响应于接收到标识符而访问数字病理图像。数字病理图像处理系统通过以下生成包括受试者对于临床试验符合条件的指示的显示:向使用者装置提供受试者对于临床试验符合条件的指示。在特定实施例中,数字病理图像处理系统接收以下指示:受试者已参加临床试验。在特定实施例中,数字病理图像处理系统通过以下生成包括受试者对于临床试验符合条件的指示的显示:通知受试者确定对于临床试验的合格性。
在一些实施例中,提供了一种系统,该系统包括一个或多个数据处理器和非暂时性计算机可读存储介质,该非暂时性计算机可读存储介质包含指令,该指令在所述一个或多个数据处理器上执行时,使一个或多个数据处理器执行本文所公开的一种或多种方法的一部分或全部。
在一些实施例中,提供了一种计算机程序产品,该计算机程序产品有形地体现在非暂时性机器可读存储介质中,并且包含指令,该指令配置为促使一个或多个数据处理器执行本文所公开的一种或多种方法的一部分或全部。
本公开的一些实施例包括一种系统,该系统包括一个或多个数据处理器。在一些实施例中,该系统包括包含指令的非暂时性计算机可读存储介质,所述指令当在所述一个或多个数据处理器上被执行时,使所述一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部和/或本文公开的一种或多种过程的部分或全部。本公开的一些实施例包括一种有形地体现在非暂时性机器可读存储介质中的计算机程序产品,其包括指令,所述指令被配置为使一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部和/或本文公开的一种或多种过程的部分或全部。
已采用的术语和表达被用作描述性而非限制性的术语,并且在使用这些术语和表达时,无意排除所示出和描述的特征或其部分的任何等同物,但是应当认识到,在所要求保护的本发明的范围内,各种修改是可能的。因此,应当理解,尽管已通过实施例和任选特征具体地公开了所要求保护的本发明,但是本领域技术人员可以采用本文所公开的概念的修改和变化,并且认为这样的修改和变化在由所附权利要求限定的本发明范围内。
附图说明
结合附图描述本公开:
图1示出了根据一些实施例的用于生成和处理数字病理图像以表征生物学对象的相对空间信息的交互系统。
图2示出了根据一些实施例的用于处理对象描绘数据以生成空间分布度量的说明性系统。
图3A和图3B示出了根据一些实施例的用于基于数字病理图像的空间特定图像处理来提供健康相关评估的过程。
图4示出了根据一些实施例的用于使用基于景观的空间点过程分析框架来处理图像的过程。
图5A至图5C示出了根据一些实施例的使用基于辨别的空间点处理分析框架的示例性图像处理。
图6A至图6D示出了根据一些实施例的示例性基于距离和强度的度量,其表征示例性图像中对象描绘的空间布置。
图7示出了根据一些实施例的用于使用基于点阵的空间-区域分析框架来处理图像的过程。
图8示出了根据一些实施例的用于使用莫兰指数来处理图像的过程。
图9示出了根据一些实施例的用于使用基于热点的空间区域分析框架来处理图像的过程。
图10示出了根据一些实施例的用于使用地统计分析框架来处理图像的过程。
图11示出了根据一些实施例的接受者操作曲线,其表征经训练逻辑回归模型基于对数字病理图像的处理来预测微卫星不稳定性的发生的表现。
图12示出了用于使用嵌套蒙特卡罗交叉验证建模策略来将预测结果标签分配到研究队列中的每个受试者的过程。
图13示出了在分析两个受试者队列时受试者的Kaplan-Meir曲线图。
在附图中,相似的部件和/或特征可以具有相同的附图标记。进一步,可以通过在参考标号后面加上破折号和区分相似部位的第二标记来区分相同类型的各种部位。如果说明书中仅使用第一参考标号,则该描述适用于任何一个具有相同的第一参考标号的相似部位,而与第二参考标号无关。
具体实施方式
数字图像越来越多地用于医学环境中,以促进临床评估,诸如诊断、预后、治疗选择和治疗评价,以及各种其他用途。在数字病理领域,可以执行对数字病理图像的处理来估计给定图像是否包括特定类型或类别的生物学对象的描绘。例如,可以对组织样品的切片进行染色,使得特定类型的生物学对象(例如,特定类型的细胞、特定类型的细胞器或血管)的描绘要优先吸收染色剂,从而用较高强度的特定颜色进行描绘。可以根据本文公开的技术对组织样品进行成像。然后可以处理数字病理图像以检测生物学对象描绘。对生物学对象描绘的检测可以基于生物学对象在分析中满足与染色分布图相对应的某些标准,诸如具有在限定范围内的大小、限定类型的形状、至少限定量的一系列高强度像素等。在特定实施例中,可以基于以下来做出临床评估或建议:是否观测到特定类型或类别的对象的描绘;和/或一种或多种特定类型或类别的对象的描绘的数量。
随着成像技术的进步,肿瘤组织载玻片的数字成像正成为用于管理多种类型的病症的常规临床程序。数字病理图像可以高分辨率捕获给定类型或类别的多个对象。对在数字病理图像中捕获的生物学对象的空间异质性程度以及给定类型的对象相对于彼此和/或相对于不同类型的对象在空间上聚集和/或分布的程度进行表征可能是有利的。生物学对象的当前或潜在的活动或功能可能会大不相同,这取决于生物学对象的微环境。客观地表征特定类型的生物学对象描绘的位置可显著影响当前诊断、预后、治疗评价、治疗选择和/或治疗合格性确定的质量。类似地,客观地表征数字病理图像或数字病理图像的区域内的多种类型的生物学对象的关系可显著影响分析的结果。数字病理图像中生物学对象描绘的位置和关系可与受试者的组织样品中对应生物学对象的位置和关系相关。如本文所公开,可以通过从数字病理图像检测一组生物学对象描绘来执行这种客观空间表征。对象可以按照一种或多种空间分析框架来表示,包括但不限于:空间点过程分析框架、空间区域分析框架、地统计分析框架、基于图的框架等在一些实施例中,每一个检测到的生物学对象描绘与图像内的特定点位置相关联,并且可以进一步与特定类型的对象的标识符相关联。在一些实施例中,针对图像内的一组区域中的每一个以及针对一种或多种特定类型的对象中的每一种,可以存储元数据,该元数据指示被预测或确定为位于区域内的每种特定类型的生物学对象的描绘的数量或密度。
空间聚集可以包括对以下的测度:数字病理图像内的对象如何在空间上聚集或分布在整个数字病理图像上或在数字病理图像的区域上。例如,确定一种类型或类别的生物学对象(例如,淋巴细胞)在空间上与另一种类型或类别的生物学对象(例如,肿瘤细胞)混合的程度可能是有利的。为了进行说明,瘤内肿瘤浸润淋巴细胞(TIL)位于肿瘤内并与肿瘤细胞直接相互作用,而基质TIL位于肿瘤基质中,且与肿瘤细胞没有直接相互作用。不仅瘤内TIL具有与基质TIL不同的活动模式,而且每种细胞类型都可以与不同类型的微环境相关联,从而进一步影响这些类型的TIL之间的行为差异。若在特定位置(例如,在肿瘤内)检测到淋巴细胞,则淋巴细胞能够浸润肿瘤的事实可以传达有关淋巴细胞和/或肿瘤细胞的活动的信息。此外,微环境可能影响淋巴细胞的当前和未来的活动。识别特定类型的生物学对象的相对位置可以为预测应用提供特别丰富的信息,预测应用诸如识别预后方案和治疗方案、评价患者对于临床试验的合格性以及表示受试者的免疫学特性及其病症。
作为检测到的生物学对象描绘的位置和关系的另一形式的客观表征,检测到的生物学对象描绘可以用于生成一个或多个空间分布度量,其可以在区域级、图像级和/或受试者级下对给定类型或类别的生物学对象被预测为与另一类型或类别的生物学对象散布、与相同类型的其他对象聚集和/或与另一给定类型的生物学对象聚集的程度进行表征。例如,数字病理图像处理系统可以检测数字病理图像中的第一组生物学对象描绘和第二组生物学对象描绘。该系统可以预测:第一组生物学对象描绘中的每一个描绘第一类型的生物学对象(例如,淋巴细胞),并且第二组生物学对象描绘中的每一个描绘第二类型的生物学对象(例如,肿瘤细胞)。数字病理图像处理系统可以执行基于距离的评估以生成空间分布度量,该空间分布度量指示第一组生物学对象描绘中的各个生物学对象描绘与第二组生物学对象描绘中的各个生物学对象描绘在空间上结合或分离的程度和/或第一组生物学对象描绘(例如,共同)与第二组生物学对象描绘(例如,共同)在空间上结合或分离的程度。如本文所公开,已经为此目的开发并应用了多种空间分布度量。
可以应用来自高级分析(例如空间统计)的原理和定量方法来生成满足这些需求的新解决方案。本文提供的技术可以用于处理数字病理图像以生成表征一种或多种特定类型或类别的描绘对象(例如,生物学对象)的空间分布和/或空间模式的结果。数字病理图像可以包括样品的染色切片的数字图像。处理可以包括:检测多种特定类型中的每一种的生物学对象的描绘(例如,对应于多种类型中的每一种类型的生物细胞)。生物学对象检测可以包括:检测对应于第一生物学对象类型的一组第一生物学对象描绘中的一个或多个和对应于第二生物学对象类型的一组第二生物学对象描绘中的每一个。附加地或替代地,对象检测可以包括:针对数字病理图像内的一组区域中的每个区域以及针对多种特定生物学对象类型中的每一种,识别高阶度量,该高阶度量被定义为依赖于生物学对象的数量或低阶度量(例如,被推断为表示在对应图像区域内呈现的特定类型的生物学对象的数量的计数、密度或图像强度)并且与其相关联。此外,空间分布度量可以与其他度量(例如RNA测序、放射成像(CT、MRI等))结合使用,以提高其预测能力或发现新的生物标志物以满足未满足的医疗需求。
可以确定一个或多个生物学对象描绘的图像位置。图像位置可以按照一个或多个空间分析框架来确定和表示,诸如空间点过程分析框架、空间区域分析框架、地统计分析框架或基于图的分析框架。例如,生物学对象可以与数字病理图像内的单点位置相关联。单点位置可以指示或被选为代表生物学对象的描绘在数字病理图像内的位置,即使生物学对象的描绘可能跨越多个像素或体素。又如,生物学对象描绘可以与或由一个或多个其他生物学对象描绘共同地表示或指示为促成:在图像的特定区域内检测到的对象的计数、在图像的特定区域内检测到的生物学对象的密度、在图像的特定区域内检测到的生物学对象的模式等。
数字病理图像处理系统可以使用空间分布度量来促进对以下的识别:例如,诊断、预后、治疗评价、治疗选择和/或治疗合格性(例如,对于临床试验或特定临床试验组,受试者被接受或推荐的合格性)。例如,可以响应于检测到第一类型或类别的一组生物学对象在第二类型或类别的生物学对象中的一定程度的浸润来确定特定预后,即,可以响应于检测到各个肿瘤和/或转移性肿瘤巢内较高的淋巴细胞浸润来确定更相关和更准确的预后。又如,可以基于免疫细胞与癌细胞在空间上结合的程度(例如,较高结合通常对应于较早期)来通知对肿瘤期或癌症期的诊断。再如,当开始治疗后淋巴细胞相对于肿瘤细胞的空间接近度相对于治疗前或相对于基于对给定受试者执行的一个或多个先前评估的预计接近度而言较小时,治疗效果可以被确定为较高。
生物学对象检测可以用于产生可包括或基于空间分布度量的结果,该结果可以指示相同或不同类型的生物学对象的描绘之间的接近度和/或一种或多种类型的生物学对象的描绘的共定位程度。生物学对象的描绘的共定位可以表示在数字病理图像的一个或多个区域的每一个区域内多种细胞类型的相似位置。该结果可以指示和/或预测不同生物学对象和不同生物学对象类型之间的相互作用,这些相互作用可能在受试者或患者中的结构的微环境内发生,这由从受试者或患者采集的样品指示。此类相互作用可以支持组织形成、体内稳态、再生过程或免疫反应等生物学过程和/或对其至关重要。因此,由结果传达的空间信息可以提供有关特定生物学结构的功能和活动的信息并且因此可以用作表征例如疾病状态和预后的定量基础。指示特定生物学对象在生物学微环境中所位于的位置的结果可以用于选择预测对特定受试者有效(例如,相对于其他治疗方案)的治疗或预测其他受试者结果。
在特定实施例中,可以生成多个空间分布度量。特别地,可以生成一个或多个度量,其各自对应于一种或多种度量类型中的度量类型。例如,可以使用空间点过程分析框架来生成一个或多个第一度量。第一度量可以基于不同类型的生物学对象的描绘之间的距离。例如,第一度量可以使用对应于肿瘤细胞的生物学对象描绘与对应于淋巴细胞的生物学对象描绘之间的欧几里得距离。也可以使用其他距离度量。可以使用空间区域分析框架生成一个或多个第二度量。第二度量可以表征在各种图像区域内第一类型生物学对象的描绘的计数或密度相对于第二类型生物学对象的其他描绘的计数或密度。
机器学习模型或规则可以用于使用各自与一种或多种度量类型中的度量类型相对应的一个或多个度量来生成与以下相对应的结果:例如,诊断、预后、治疗评价、治疗选择、治疗合格性(例如,对于临床试验或或特定临床试验组被接受或推荐的合格性)和/或对基因突变、基因改变、生物标志物表达水平(包括但不限于基因或蛋白质)等的预测。举例而言而非进行限制,机器学习模型可以包括分类、回归、决策树或神经网络技术,其经训练以学习要在处理度量以产生结果时使用的一个或多个权重。
数字病理图像处理系统可以部分地基于一个或多个空间分布度量来进一步识别和学习识别所检测到的生物学对象描绘的位置和关系的模式。例如,数字病理图像处理系统可以检测第一样品的数字病理图像中的所检测到的生物学对象描绘的位置和关系的模式。数字病理图像处理系统可以由识别的模式生成掩模或其他模式存储数据结构。数字病理图像处理系统可以使用如本文所描述的空间分布度量来预测诊断、预后、治疗评价、治疗选择和/或治疗合格性确定。数字病理图像处理系统可以与所检测到的模式和/或生成的掩模相关联地存储预测的预后等。数字病理图像处理系统可以接收受试者结果以验证预测的预后等。
然后,当处理来自第二样品的第二数字病理图像时,数字病理图像处理系统可以检测第二数字病理图像中的所检测到的生物学对象描绘的位置和关系的模式。数字病理图像处理系统可以识别在第二数字病理图像中检测到的位置和关系的模式与来自第一数字病理图像的掩模或所存储的、检测到的模式之间的相似性。数字病理图像处理系统可以基于识别的相似性和/或受试者结果来通知预测的预后、治疗建议或治疗合格性确定。例如,数字病理图像处理系统可以将所存储的掩模与第二数字病理图像中所检测到的生物学对象描绘的位置和关系的模式进行比较。数字病理图像处理系统可以确定针对第二数字病理图像的一个或多个空间分布度量,并根据对在第一数字病理图像和第二数字病理图像中的所检测到的生物学对象描绘的空间分布度量的比较,得出所存储的掩模与来自第二数字病理图像的所识别模式的比较。
从第一数字病理图像处理系统检测到的模式可以以多种方式与一种或多种类型的一个或多个第一生物学对象描绘的位置和关系相关。例如,模式可以在数字病理图像中不存在其他生物学对象描绘的情况下与数字病理图像中的第一类型的第一生物学对象的位置和关系相关。模式可以与数字病理图像的范围内的生物学对象描绘的位置和/或关系的抽象表示相关(例如,评价所检测到的生物学对象描绘的坐标,可能在没有它们作为生物学对象描绘的上下文的情况下)。又如,模式可以与第一类型的生物学对象描绘相对于数字病理图像中的所有其他生物学对象描绘的位置和关系相关。再如,模式可以与第一类型的一个或多个生物学对象描绘的位置和关系相对于第二类型的一个或多个生物学对象描绘的位置和关系相关。
从数字病理图像检测到的模式可以与包括例如以下的上下文相关联:数字病理图像所描绘的样品类型(例如,肺组织活检品、肝组织样品、血液样品、福尔马林固定石蜡包埋样品、冷冻样品、从各种器官、肿瘤和/或转移灶等经撕除手术、活检手术(包括但不限于空芯针活检、细针抽吸等)获得的细胞制品);样品的制备方法(例如,所用染色剂的类型、样品的年龄等);在整个样品中描绘或结合到模式中的生物学对象的数量和特定类型(例如,样品细胞类型、结构(诸如腺体、胰岛肿瘤、细胞片、血管等)、单个细胞(诸如肿瘤细胞、免疫细胞、有丝分裂细胞、基质细胞、内皮细胞等)以及细胞成分(诸如细胞核、细胞质、细胞膜、纤毛、粘液分泌物等));用于检测或制备模式的空间分布度量的数量和类型;与模式相关联的受试者级结果类型;受试者级结果类型内的指示;受试者级结果的验证程度;以及许多其他因素,用于表征从数字病理图像检测到的模式。该上下文可以用于改善模式的识别及其对未来数字病理图像的应用。
尽管在一些实施例中,模式可以仅应用于相同类型的样品、相同类型的生物学对象描绘、相同类型的空间分布度量、样品类型的受试者级结果等,但数字病理图像处理系统可以经训练以便跨类型应用模式识别方法。例如,数字病理图像处理系统可以经训练以便识别与淋巴细胞浸润和布置到组织样品细胞中相关的模式的广泛适用性,并基于对与不同类型的组织样品相对应的数字病理图像的分析提供相似的受试者级结果。跨模式参考和应用的能力可以基于与不同类型的所检测到的生物学对象描绘相关和跨不同组织样品类型的数字病理图像的空间分布度量的适用性。空间分布度量为各种比较提供客观、可量化的测度。
附加地或替代地,数字病理图像处理系统可以进一步使用空间分布度量来促进治疗选择的识别。例如,在检测到指示淋巴细胞与肿瘤细胞在空间上结合的输出时,可以选择性地推荐免疫疗法或免疫检查点疗法。又如,在检测到指示淋巴细胞与肿瘤细胞在空间上结合的输出时,可以选择性地推荐阿特珠单抗(atezolizumab)加贝伐单抗(bevacizumab)加卡铂(carboplatin)加紫杉醇(paclitaxel)(ABCP)或阿特珠单抗加卡铂加紫杉醇(ACP),而不推荐另一化疗治疗。其他化疗治疗可以包括或可以是贝伐单抗加卡铂加紫杉醇(BCP)。其他方法可以使用其他生物学对象或细胞成分或区室来预测诊断、生物标志物表达或治疗反应(例如,血管分布、淋巴瘤中特定核特征的分布等)。
促进对诊断、预后、治疗评价、治疗选择和/或治疗合格性的识别可以包括:自动地生成潜在的诊断、预后、治疗评价和/或治疗选择。自动识别可以基于一个或多个学习到和/或静态的规则。规则可以具有若-则格式,其可以在条件中包括不等式和/或一个或多个阈值,这些阈值可以指示例如高于阈值的度量与特定治疗的适用性相关联。规则可以替代地或附加地包括函数,诸如将数字度量与疾病的严重性分数或治疗合格性的量化分数相关联的函数。数字病理图像处理系统可以输出潜在的诊断、预后、治疗评价、治疗选择和/或治疗合格性确定作为建议和/或预测。例如,数字病理图像处理系统可以向本地耦合的显示器提供输出,向远程装置或远程装置的访问终端传输输出,将结果存储在本地或远程数据存储装置中等。这样,人类使用者(例如,医师和/或医疗保健提供者)可以使用自动生成的输出或形成由本文讨论的量化指标通知的不同评估。
促进对诊断、预后、治疗评价、治疗选择和/或治疗合格性确定的识别可以包括:输出与所公开的主题一致的空间分布度量。例如,输出可以包括受试者的标识符(例如,受试者的姓名)、所存储的与受试者相关的临床数据(例如,过去的诊断、可能的诊断、当前的治疗、症状、检查结果和/或生命体征)和所确定的空间分布度量。输出可以包括从其导出空间分布度量的数字病理图像和/或其修改版本。例如,数字病理图像的修改版本可以包括标识在数字病理图像中检测到的每一个生物学对象描绘的覆盖图和/或标记。数字病理图像的修改版本可以进一步提供关于所检测到的生物学对象描绘的信息。例如,针对每一个生物学对象描绘,交互式覆盖图可以提供对应于受试者的特定对象类别。然后,人类使用者(例如,医师和/或医疗保健提供者)可以使用输出(包括空间分布度量)来识别诊断、预后、治疗评价、治疗选择或治疗合格性确定。
在特定实施例中,使用从单个数字病理图像检测到的生物学对象描绘来生成多种类型的空间分布度量。根据本文公开的主题,可以组合使用多种类型的空间分布度量。多种类型的空间分布度量可以对应于与例如如何表征每一个生物学对象描绘的位置相关的不同或相同的框架。多种类型的空间分布度量可以包括不同的变量类型(例如,使用不同的算法来计算的)并且可以在不同的值标度上呈现。可以使用规则或机器学习模型来共同处理多种类型的空间分布度量以生成标签。标签可以对应于预测的诊断、预后、治疗评价、治疗选择和/或治疗合格性确定。
在特定实施例中,提供了一种计算机实现的方法。数字病理图像处理系统可以访问一个或多个数字病理图像。一个或多个数字病理图像中的每一个都可以描绘来自受试者的生物学样品的切片。所描绘的切片可以包括用一种或多种染色剂染色的一个切片。数字病理图像处理系统检测一个或多个数字病理图像中的每一个内的第一组生物学对象描绘和第二组生物学对象描绘。第一组生物学对象描绘中的每一个可以描绘第一类型的生物学对象。第二组对象描绘中的每一个可以描绘第二类型的生物学对象。使用第一组生物学对象描绘和第二组生物学对象描绘,数字病理图像处理系统生成第一空间分布度量类型的一个或多个空间分布度量。一个或多个第一空间分布度量中的每一个表征第一组生物学对象描绘相对于第二组生物学对象描绘的位置。使用第一组生物学对象描绘和第二组生物学对象描绘,数字病理图像处理系统生成第二类型的一个或多个空间分布度量。第二类型的空间分布度量表征第一组生物学对象描绘相对于第二组生物学对象描绘的位置。使用一个或多个第一空间分布度量和一个或多个第二空间分布度量,数字病理图像处理系统可以生成与受试者的预测生物学状态或针对该受试者的潜在治疗相对应的受试者级结果。数字病理图像处理系统提供受试者级结果以供显示。除了提供受试者级结果之外,数字病理图像处理系统还可以基于受试者级结果向受试者提供临床评估。临床评估可以包括诊断、预后、治疗评价、治疗选择和/或治疗合格性。
表征第一组生物学对象描绘的位置的空间分布度量可以基于以下(举例而言而非进行限制)来确定:点过程、区域/点阵过程、地统计过程等。在特定实施例中,第一类型的生物学对象可以包括第一类型的细胞,并且第二类型的生物学对象可以包括第二类型的细胞。例如,第一类型的生物学对象可以包括淋巴细胞,第二类型的生物学对象可以包括肿瘤细胞。又如,第一类型的生物学对象可以包括巨噬细胞,并且第二类型的生物学对象可以包括成纤维细胞。在特定实施例中,第一类型的生物学对象可以包括例如由第一类型的特征特性(例如,生物学对象的大小、形状、颜色、预期行为、纹理或生物学对象的成分或区室)定义的第一类别的生物学对象,并且第二类型的生物学对象可以包括例如由第二类型的特征特性或第一类型的变体的特征特性定义的第二类别的生物学对象。应当理解,本文公开的主题可以同样适用于可以表示为与数字病理图像中的位置相对应的点的任何生物学对象。
在特定实施例中,生成第一类型的一个或多个空间分布度量可以包括:针对一个或多个第一生物学对象描绘中的每一个第一生物学对象描绘,识别一个或多个数字病理图像内的第一点位置。第一点位置可以对应于所描绘的第一生物学对象的位置。生成第一类型的一个或多个空间分布度量可以进一步包括:针对一个或多个第二生物学对象中的每一个第二生物学对象,识别一个或多个数字病理图像内的第二点位置。第二点位置可以对应于所描绘的第二生物学对象的位置。生成第一类型的一个或多个空间分布度量可以进一步包括:基于第一点位置和第二点位置,确定第一类型的一个或多个空间分布度量。在特定实施例中,生成一个或多个空间分布度量可以包括:执行基于距离的技术,该技术针对一个或多个第一生物学对象中的至少一些中的每一个第一生物学对象以及针对一个或多个第二生物学对象中的至少一些中的每一个第二生物学对象,评估与第一生物学对象相对应的第一点位置和与第二生物学对象相对应的第二点位置之间的距离。
在特定实施例中,生成第二类型的一个或多个空间分布度量可以包括:定义空间点阵,该空间点阵被配置成将数字病理图像中的一个数字病理图像的区划分为一组图像区域。生成第二类型的一个或多个空间分布度量可以包括:将一个或多个第二生物学对象中的每一个第二生物学对象分配到该一组图像区域中的图像区域。生成第二类型的一个或多个空间分布度量可以包括:基于一个或多个第二生物学对象中的每一个第二生物学对象的图像区域分配,生成第二类型的一个或多个空间分布度量。
生成受试者级结果可以包括:使用经训练机器学习模型来处理第一类型的一个或多个空间分布度量和第二类型的一个或多个空间分布度量。举例而言而非进行限制,经训练机器学习模型可以包括回归模型、决策树模型或神经网络模型。第一度量类型可以为一组度量类型中的一种度量类型。第二度量类型可以为该一组度量类型中的另一种度量类型。该一组度量类型可以包括可以包括:基于K最近邻分析定义的度量;基于Ripley K函数定义的度量;Morisita-Horn指数;莫兰指数;Geary C指数;G函数;基于相关函数定义的度量;基于热点分析或冷点分析定义的度量;或基于Kriging基分析定义的度量。
在特定实施例中,提供了一种方法,该方法包括:从客户端计算系统向远程计算系统传输请求通信以处理描绘来自受试者的生物学样品的特定切片的一个或多个数字病理图像,其中,响应于从客户端计算系统接收到请求通信,远程计算系统访问一个或多个数字病理图像并根据本文公开的主题执行分析。
根据本文公开的主题,在特定实施例中,提供了受试者级结果在治疗受试者中的用途。可以根据本文公开的主题提供受试者级结果。
在特定实施例中,提供了一种方法。在数字病理图像处理系统处访问数字病理图像。数字病理图像描绘用一种或多种染色剂染色的组织载玻片,并且组织载玻片的组织是从患有特定医学病症的受试者采集的。数字病理图像包括一个或多个生物学对象的描绘。一个或多个生物学对象可以包括一组细胞。该一组细胞可以包括一组肿瘤细胞和一组其他细胞。该一组其他细胞可以为一组免疫细胞或一组基质细胞。数字病理图像处理系统可以识别数字病理图像内与一个或多个生物学对象相对应的一组位置,诸如肿瘤细胞位置。该一组肿瘤细胞位置中的每个肿瘤细胞位置可以对应于该一组肿瘤细胞中的一个肿瘤细胞。数字病理图像处理系统可以识别数字病理图像内与一个或多个其他生物学对象相对应的一组其他位置,诸如其他细胞位置。该一组其他细胞位置中的每个其他细胞位置可以对应于该一组其他细胞中的一个细胞。数字病理图像处理系统可以生成一个或多个关系位置表示。一个或多个关系位置表示中的每一个可以指示该一组细胞中的至少一些第一细胞的位置相对于该一组细胞中的至少一些第二细胞的位置。使用一个或多个关系位置表示,数字病理图像处理系统可以确定一组空间分布度量。该一组空间分布度量中的每个空间分布度量可以表征该一组其他细胞中的至少一部分被描绘为与该一组肿瘤细胞中的至少一部分散布的程度。数字病理图像处理系统可以基于该一组空间分布度量生成结果。该结果对应于关于以下的预测:调节免疫反应的特定治疗是否和/或在何种程度上将有效地治疗受试者的特定医学病症。基于该结果,确定受试者对于临床试验符合条件。输出受试者对于临床试验符合条件的指示。
生成结果可包括:使用经训练机器学习模型来处理一组空间异质性度量。经训练机器学习模型可能已使用一组训练元素进行训练。该一组训练元素中的每一个可对应于已接受与临床试验相关联的特定治疗的另一受试者。该一组训练元素中的每一个可以包括另一组空间异质性度量和反应性值,该反应性值指示特定治疗是否和/或在何种程度上激活了受试者中的免疫反应。
在特定实施例中,医学病症可以为一种类型的癌症并且/或者特定治疗可以为免疫检查点阻断治疗。对于一组细胞中的每个细胞,一个或多个关系位置表示可以包括一组坐标,其标识细胞的描绘在数字病理图像内的位置。对于数字病理图像中的一组区域中的每一个,一个或多个关系位置表示可以包括对以下的表示:被识别为位于该区域内的肿瘤细胞的、基质细胞的和/或被识别为位于该区域内的免疫细胞的绝对数量或相对数量。一个或多个关系位置表示可以指示第一类型的细胞被描绘为位于距第二类型的细胞一定距离内的基于距离的概率。第一类型和第二类型中的每一种可以对应于免疫细胞、基质细胞或肿瘤细胞。可以为受试者采集基因测序和/或放射成像数据。结果可以进一步取决于基因测序和/或放射成像数据的特性。
如本文所提及,术语“生物学对象描绘”可以指图像的特定部分(例如,图像的一个或多个像素、限定区域等),其被识别为或已经被识别为对应于特定类型的生物学对象。生物学对象描绘可以描绘生物学对象(例如,细胞)。生物学对象描绘可以包括一个或多个像素和/或一个或多个体素。生物学对象描绘的像素或体素可以对应于例如被预测为生物学对象的描绘的物体的形心、边缘、质心或整体。可以使用机器学习算法、一个或多个静态规则和/或计算机视觉技术来识别生物学对象描绘。应用于数字病理图像。图像可以描绘染色切片,并且可以选择染色剂以优先由特定类型的目标生物学对象吸收,使得生物学对象描绘的识别可以包括基于强度的评估。
如本文所提及,术语“生物学对象”可以指生物学单元。举例而言而非进行限制,生物学对象可以包括细胞、细胞器(例如,细胞核)、细胞膜、基质、肿瘤或血管。应当理解,生物学对象可以包括三维对象,并且数字病理图像可以仅捕获对象的单个二维切片,其甚至不需要沿着二维切片的平面完全延伸穿过整个对象。尽管如此,本文中的参考物可以将这种捕获部分称为描绘生物学对象。
如本文所提及,术语“类型的生物学对象”或生物学对象类型可以指生物单元的类别。举例而言而非进行限制,一种类型的生物学对象可以指细胞(一般而言)、特定类型的细胞(例如,淋巴细胞或肿瘤细胞)、细胞膜(一般而言)等。一些公开内容可以指检测对应于第一类型的生物学对象的生物学对象描绘和对应于第二类型的生物学对象的其他生物学对象描绘。第一和第二类型的生物学对象可以具有相似、相同或不同级的特异性和/或一般性。例如,第一和第二类型的生物学对象可以分别被识别为淋巴细胞类型和肿瘤细胞类型。又如,第一类型的生物学对象可以被识别为淋巴细胞,第二类型的生物学对象可以被识别为肿瘤。
如本文所提及,术语“空间分布度量”可以指表征图像中特定生物学对象描绘相对于彼此和/或相对于其他特定生物学对象描绘的空间布置的度量。空间分布度量可以表征一种类型的生物学对象(例如,淋巴细胞)已经浸润另一种类型的生物学对象(例如,肿瘤)的程度、与另一种类型的对象(例如,肿瘤细胞)散布的程度、与另一种类型的对象(例如,肿瘤细胞)在物理上接近的程度和/或与另一种类型的对象(例如,肿瘤细胞)共定位的程度。
图1示出了根据一些实施例的交互系统或交互系统网络100(例如,专门配置的计算机系统),根据所公开的主题,其可以用于生成和处理数字病理图像,以表征生物学对象的相对空间信息。
数字病理图像生成系统105可以生成对应于特定样品的一个或多个数字图像。例如,由数字病理图像生成系统105生成的图像可以包括活检样品的染色切片。又如,由数字病理图像生成系统105生成的图像可以包括液体样品的载玻片图像(例如,血涂片)。又如,由数字病理图像生成系统105生成的图像可以包括荧光显微图,诸如描绘荧光探针已经与靶DNA或RNA序列结合之后的荧光原位杂交(FISH)的载玻片图像。
一些类型的样品(例如,活检组织、固体样品和/或包括组织的样品)可以由样品制备系统110处理以固定和/或嵌入该样品。样品制备系统110可以促进用固定剂(例如,液体固定剂,诸如甲醛溶液)和/或包埋物质(例如,组织学蜡)浸润样品。例如,固定子系统可以通过将样品暴露于固定剂达至少阈值时间量(例如,至少3小时、至少6小时或至少12小时)来固定样品。脱水子系统可以使样品脱水(例如,通过将固定样品和/或固定样品的一部分暴露于一种或多种乙醇溶液)并可能使用清除中间剂(例如,其包括乙醇和组织学蜡)来清除脱水的样品。包埋子系统可以用加热的(例如,因此呈液体状)组织学石蜡浸润来样品(例如,一次或多次达对应的预定义时间段)。组织学蜡可以包含石蜡和可能的一种或多种树脂(例如,苯乙烯或聚乙烯)。然后可以冷却样品和蜡,然后可以将经蜡浸润的样品封闭。
样品切片器115可以接收固定和包埋的样品并且可以产生一组切片。样品切片器115可以将固定和包埋的样品暴露在凉爽或寒冷的温度下。样品切片器115然后可以切割冷却的样品(或其修整版本)以产生一组切片。每个切片可以具有(例如)小于100μm、小于50μm、小于10μm或小于5μm的厚度。每个切片可以具有(例如)大于0.1μm、大于1μm、大于2μm或大于4μm的厚度。冷却的样品的切割可以在温水浴(例如,在至少30℃、至少35℃或至少40℃的温度下)中进行。
自动化染色系统120可以通过将每个切片暴露于一种或多种染色剂(例如,苏木精和曙红、免疫组织化学染色剂或专门的染色剂)来促进对一个或多个样品切片的染色。每个切片可以被暴露于预定义体积的染色剂达预定义时间段。在特定实施例中,单个切片被同时或依次暴露于多种染色剂。
可以将一个或多个染色切片中的每一个呈现给图像扫描仪125,该图像扫描仪可以捕获该切片的数字图像。图像扫描仪125可以包括显微镜相机。图像扫描仪125可以多个放大级(例如,使用10x物镜、20x物镜、40x物镜等)来捕获数字图像。对图像的操纵可以用于在期望的放大倍数范围内捕获样品的选定部分。图像扫描仪125可以进一步捕获由人类操作者识别的注释和/或形态测量结果。在特定实施例中,在捕获一个或多个图像之后,切片被返回到自动化染色系统120,使得切片可以被清洗、暴露于一种或多种其他染色剂并再次成像。当使用多种染色剂时,可以选择染色剂具有不同颜色配置文件,从而可以将图像的与吸收大量第一染色剂的第一切片部分相对应的第一区域与图像(或不同的图像)的与吸收大量第二染色剂的第二切片部分相对应的第二区域区分开来。
应当理解,在特定实施例中,数字病理图像生成系统105的一个或多个部件可以结合人类操作者进行操作。例如,人类操作者可以跨各种子系统(例如,样品制备系统110或数字病理图像生成系统105的子系统)移动样品和/或启动或终止数字病理图像生成系统105的一个或多个子系统、系统或部件的操作。又如,数字病理图像生成系统的一个或多个部件(例如,样品制备系统110的一个或多个子系统)的一部分或全部可以部分或全部用人类操作者的动作代替。
此外,应当理解,虽然数字病理图像生成系统105的各种所描述和描绘的功能和部件涉及固体和/或活检样品的处理,但其他实施例可以涉及液体样品(例如,血液样品)。例如,数字病理图像生成系统105可以被配置成接收液体样品(例如,血液或尿液)载玻片,其包括基础载玻片、涂抹的液体样品和盖玻片。图像扫描仪125然后可以捕获样品载玻片的图像。数字病理图像生成系统105的其他实施例可以涉及使用本文描述的FISH等高级成像技术来捕获样品的图像。例如,一旦荧光探针已被引入样品并使其与靶序列结合,就可以使用适当的成像来捕获样品的图像以供进一步分析。
给定样品可以与一个或多个使用者(例如,一个或多个医师、实验室技术人员和/或医疗提供者)相关联。相关联使用者可以包括订购产生正被成像的样品的检查或活检的人和/或有权接收检查或活检的结果的人。例如,使用者可以对应于医师、病理学家、临床医生或受试者(从其获得样品)。使用者可以使用一个或一个以上的装置130来(例如)初始提交以下一个或多个请求(例如,其识别受试者):由数字病理图像生成系统105处理样品并且由数字病理图像处理系统135处理所得图像。
在特定实施例中,数字病理图像生成系统105将由图像扫描仪125产生的数字病理图像传输回使用者装置130,并且使用者装置130与数字病理图像处理系统135通信以启动数字病理图像的自动化处理。在特定实施例中,数字病理图像生成系统105将由图像扫描仪125产生的数字病理图像直接用于数字病理图像处理系统135,例如在使用者装置130的使用者的指示下。尽管未示出,但也可以使用其他中间装置(例如,连接到数字病理图像生成系统105或数字病理图像处理系统135的服务器的数据存储区)。除此之外,为了简单起见,在网络100中仅示出了一个数字病理图像处理系统135、数字病理图像生成系统105和使用者装置130。本公开预期使用每种类型的系统及其部件中的一者或多者而不至于背离本公开的教导。
数字病理图像处理系统135可以被配置成识别图像的空间特性和/或表征生物学对象描绘的空间分布。切片对准器子系统140可以被配置成对准多个数字病理图像和/或数字病理图像的对应于同一样品的区域。例如,多个数字病理图像可以对应于同一样品的同一切片。每个图像可以描绘用不同染色剂染色的切片。又如,多个数字病理图像中的每一个可以对应于同一样品的不同切片(例如,各自对应于同一染色剂或其图像的不同子组对应于不同的染色剂)。例如,样品的交替切片可能已用不同的染色剂染色。
切片对准器子系统140可以确定是否要和/或要如何平移、旋转、放大和/或扭曲每个数字病理图像从而对准对应于单个样品和/或单个切片的数字病理图像。可以使用(例如)相关性评估(例如,识别使相关性最大化的对准)来确定对准。
生物学对象检测器子系统145可以被配置成在对准的数字病理图像中的每一个中自动地检测一种或多种特定类型的对象(例如,生物学对象)的描绘。对象类型可以包括例如一些类型的生物学结构,诸如细胞。例如,第一组生物学对象可以对应于第一细胞类型(例如,免疫细胞、白细胞、淋巴细胞、肿瘤浸润淋巴细胞等),并且第二组生物学对象可以对应于第二细胞类型(例如,肿瘤细胞、恶性肿瘤细胞等)或一种类型的生物学结构(例如,肿瘤、恶性肿瘤等)。生物学对象检测器子系统145可以从对准的数字病理图像检测一种或多种特定类型中的每一种类型的生物学对象的描绘。数字病理图像可以描绘单个数字病理图像的各种染色剂。此类数字病理图像可以包括单个图像,其可以对应于用多种染色剂中的每一种染色的样品的切片。例如,生物学对象检测器子系统145可以从单个数字病理图像检测淋巴细胞和肿瘤细胞的描绘。生物学对象检测器145可以从各种数字病理图像检测生物学对象的描绘,例如对应于各种染色剂。
例如,可以在第一数字病理图像中检测到淋巴细胞的描绘,而可以在第二数字病理图像中检测到肿瘤细胞的描绘。第一数字病理图像可以描绘用第一染色剂染色的样品的切片的图像,并且第二数字病理图像可以描绘用第二染色剂染色并再次成像的同一切片。生物学对象检测器子系统145可以检测第一数字病理图像中的第一特定类型的生物学对象的描绘,其可以对应于用第一染色剂染色的样品的切片。生物学对象检测器子系统145可以检测在第二数字病理图像中示出的第二特定类型的生物学对象的描绘,其可以对应于用第二染色剂染色的同一切片或用第二染色剂染色的样品的另一切片。此外,生物学对象检测器子系统145可以检测不与同一样品相关的一个或多个数字病理图像中的一种或多种生物学对象类型的一个或多个生物学对象,以便生成空间分布度量和受试者级结果。
生物学对象检测器子系统145可以使用静态规则和/或经训练模型来检测和表征生物学对象。基于规则的生物学对象检测可以包括:检测一个或多个边缘;识别充分连接且形状闭合的边缘子集;和/或检测一个或多个高强度区域或像素。若例如闭合边缘内的区域的面积在预定义范围内和/或若高强度区域具有在预定义范围内的大小,则可以确定数字病理图像的一部分描绘生物学对象。使用经训练模型来检测生物学对象描绘可以包括:采用神经网络,诸如卷积神经网络、深度卷积神经网络和/或基于图的卷积神经网络。该模型可能已经使用包括指示对象位置和/或边界的注释的经注释图像来进行训练。可能已经从数据存储库(例如,公共数据存储区)和/或从与一个或多个人类注释者相关联的一个或多个装置接收了经注释图像。该模型可能已经使用通用或自然的图像(例如,一般而言,不仅仅是为数字病理用途或医疗用途而捕获的图像)来进行训练。这可以扩展该模型区分不同类型的生物学对象的能力。该该模型可能已经使用专门的训练图像(诸如数字病理图像)集进行训练,这些图像已被选择用于训练该模型以检测特定类型的对象。
可以任意组合使用基于规则的生物学对象检测和经训练模型生物学对象检测。例如,基于规则的生物学对象检测可以检测一种类型的生物学对象的描绘,而经训练模型用于检测另一种类型的生物学对象的描绘。另一示例可以包括:使用由经训练模型输出的生物学对象来验证来自基于规则的生物学对象检测的结果,或者使用基于规则的方法来验证经训练模型的结果。又一示例可以包括:使用基于规则的生物学对象检测作为初始对象检测,然后使用经训练模型进行更精细的生物学对象分析;或者在经由经训练网络检测一组初始生物学对象的描绘之后将基于规则的对象检测方法应用于图像。
生物学对象检测还可以包括(例如)预处理数字病理图像。预处理可以:将数字病理图像的分辨率变换为目标分辨率,应用一个或多个滤色器,和/或将数字病理图像归一化以供基于规则的生物学对象检测方法或经训练模型使用。例如,可以应用通过与由自动化染色系统120使用的染色剂的颜色配置文件相对应的颜色的滤色器。基于规则的生物学对象检测或经训练模型生物学对象检测可以应用于预处理的图像。
针对每一个所检测到的生物学对象,生物学对象检测器子系统145可以识别和存储所描绘的生物学对象的代表性位置(例如,形心点或中点)、与所描绘的对象的边缘相对应的一组像素或体素、和/或与所描绘的生物学对象的面积相对应的一组像素或体素。该生物学对象数据可以与生物学对象的元数据一起存储,举例而言而非进行限制,该元数据可以包括生物学对象的标识符(例如,数字标识符)、对应的数字病理图像的标识符、对应数字病理图像内的对应区域的标识符、对应受试者的标识符和/或对象类型的标识符。
生物学对象检测器子系统145可以生成经注释的数字病理图像,其包括数字病理图像并且进一步包括标识在图像内描绘所检测到的生物学对象的位置的一个或多个覆盖图。在检测到多种类型的生物学对象的特定实施例中,可以例如使用不同的颜色来表示不同类型的注释。
生物学对象分布检测器子系统150可以被配置成生成和/或表征一个或多个对象的空间分布。可以通过(例如)使用一个或多个静态规则(例如,其确定如何应用生物学对象的点位置表示的基于距离的度量、其确定如何使用数字病理图像的网格区域内的生物学对象的绝对或平滑的计数或密度等等)和/或使用经训练机器学习模型(例如,其可以预测要根据一个或多个数字病理图像的预测质量来调节初始对象描绘数据)来生成该分布。例如,表征可以指示:特定类型的生物学对象被描绘为相对于彼此密集地聚集的程度、特定类型的生物学对象的描绘跨图像的全部或部分散布的程度、特定类型的生物学对象的描绘的接近度(相对于彼此)与另一类型的生物学对象的描绘的接近度(相对于彼此)的比较方式、一种或多种特定类型的生物学对象的描绘相对于一种或多种其他类型的生物学对象的描绘的接近度、和/或一种或多种特定类型的生物学对象的描绘位于由一种或多种其他类型的生物学对象的一个或多个描绘限定的区域内和/或附近的程度。如下文关于图2以附加细节进行描述的,生物学对象分布检测器子系统150最初可以使用特定框架(例如,空间点过程分析框架、空间区域分析框架或地统计分析框架等)来生成生物学对象的表示。
受试者级标签生成器子系统155可以使用空间分布度量来生成一个或多个受试者级标签。受试者级标签可以包括针对单个受试者(例如,患者)、受试者(例如,具有相似特性的患者)的限定群组、临床研究组等确定的标签。例如,标签可以对应于潜在的诊断、预后、治疗评价、治疗建议或治疗合格性确定。在特定实施例中,可以使用预定义或学习到的规则来生成标签。例如,规则可以指示高于预定义阈值的空间分布度量将与特定医学病症相关联(例如,作为潜在诊断),而低于阈值的度量将不与特定医学病症相关联。又如,规则可以指示当空间分布度量在预定义范围内时,将推荐特定治疗(例如,否则不推荐)。为了进行说明,当基于距离的度量(例如,表征淋巴细胞描绘的形心离肿瘤细胞描绘的形心有多远)低于预定义阈值时,可以推荐检查点免疫疗法。再如,规则可以基于对应于最近采集的数字病理图像的空间分布度量与对应于更最近采集的数字病理图像的所存储的基线空间分布度量的比率来确定不同的治疗效果带。
受试者级标签生成器子系统155可以进一步使用一个或多个模式或掩模,例如结合空间分布度量,以生成一个或多个受试者级标签。在特定实施例中,受试者级标签生成器子系统155可以检索或被提供与先前标签和/或受试者结果(其可以用于验证标签)相关联的一个或多个模式或掩模。在特定实施例中,受试者级标签生成器子系统155可以根据一个或多个规则或使用经训练模型来检索掩模。例如,规则可以指示要响应于确定在数字病理图像中描绘的一种或多种类型的一个或多个生物学对象,检索特定的掩模或掩模子集并将其与数字病理图像进行比较。又如,规则可以指示要响应于确定空间分布度量满足或不满足阈值或者占据或未占据阈值范围,检索特定的掩模或掩模子集并将其与数字病理图像进行比较。与规则相关联的值可以由受试者级标签生成器子系统155学习。在特定实施例中,可以使用本文描述的一个或多个机器学习过程来训练模型,以基于数字病理图像的整体表征、从其导出的数据和与其相关联的元数据来识别要检索并应用于数字病理图像的模式。
数字病理图像处理系统135可以输出所生成的空间分布度量、受试者级标签和/或经注释图像。输出可以包括本地呈现或传输(例如,到使用者装置130)。
图1中的每个部件和/或系统可以包括(例如)一个或多个计算机、一个或多个服务器、一个或多个处理器和/或一个或多个计算机可读介质。在特定实施例中,单个计算系统(具有一个或多个计算机、一个或多个服务器、一个或多个处理器和/或一个或多个计算机可读介质)可以包括图1中描绘的多个部件。例如,数字病理图像处理系统135可以包括单个服务器和/或服务器集合,其共同实现以下所有项的功能:切片对准器子系统140、生物学对象检测器子系统145、生物学对象分布检测器子系统150和受试者级标签生成器子系统155。
应当理解,可设想各种替代实施例。例如,数字病理图像处理系统135不需要包括受试者级标签生成器子系统155和/或不需要生成受试者级标签。相反,经注释图像(具有由生物学对象检测器子系统145生成的注释)和/或一个或多个空间分布度量(由生物学对象分布检测器子系统150生成)可以由数字病理图像处理系统135输出。然后,使用者可以根据输出数据确定标签(例如,对应于诊断、预后、治疗评价或治疗建议)。
图2示出了根据本发明的一些实施例的用于处理对象数据以生成空间分布度量的说明性生物学对象模式计算系统200。生物学对象分布检测器子系统150可以包括系统200的一部分或全部。
生物学对象模式计算系统200包括多个子系统:点处理子系统205、区域处理子系统210和地统计子系统215。每个子系统对应于并使用不同的框架(点过程分析框架225、区域分析框架230或地统计框架235)来生成空间分布度量或其组成数据。点处理分析框架225可以具有对象特定的焦点,例如,可以针对每一个所检测到的生物学对象描绘识别点位置。区域分析框架230可以为其中使用坐标和/或空间点阵而不是通过单独的生物学对象描绘来对数据(例如,所描绘的生物学对象的位置)编索引的框架。地统计分析框架235可以提供对特定类型的生物学对象描绘位于一组位置中的每一个处的普遍率和/或观测概率的预测。每个框架可以支持生成一个或多个度量,这些度量表征跨一种或多种类型中的每一种类型的一个或多个生物学对象的描绘形成的空间模式和/或分布。
例如,点处理子系统205可以采用点过程分析框架225,其中每一个生物学对象描绘可以被表示为图像内的点位置。在特定实施例中,点位置可以是生物学对象描绘的形心、中点或质心等。在一些实施例中,在检测生物学对象描绘时,检测点位置(例如,通过生物学对象检测器子系统145)。在一些实施例中,点处理子系统205确定生物学对象描绘的位置(例如,基于与所描绘的生物学对象的边缘和/或面积相关联的位置)。点处理子系统205可以包括:距离检测器245,用以检测和处理生物学对象描绘之间的一个或多个距离;基于点的簇生成器250和相关检测器255,用以表征一种或多种类型中的每一种类型的一个或多个生物学对象描绘之间的互相关和/或自相关;以及景观生成器260,用以生成与跨对应于图像的维度的二维空间的计算量的生物学对象描绘相对应的三维景观(例如,其中景观的第三维指示计算量)。作为距离的函数,互相关和自相关可以识别表示第一类型的生物学对象描绘(以及由此的样品中的生物学对象)的点位于距观测的生物学对象描绘的该距离处的概率。对于互相关,针对第二类型的生物学对象计算该概率。对于自相关,针对第一类型的生物学对象计算该概率。互相关或自相关可以包括一维表示(例如,其中x轴设定为距离)或二维表示(例如,其中x轴设定为水平距离并且y轴设定为竖直距离)。
距离检测器245可以检测点和每个点在图像内的位置。对于一对或多对点(例如,“点对”)中的每一对,计算与该对相关联的点位置之间的距离(例如,欧几里得距离)。一个或多个点对中的每一个可以对应于相同类型的生物学对象描绘或不同类型的生物学对象描绘。例如,对于给定、描绘的淋巴细胞,距离检测器245可以识别所描绘的淋巴细胞和每个其他所描绘的淋巴细胞的位置之间的距离,并且距离检测器245可以识别所描绘的淋巴细胞和每个所描绘的肿瘤细胞的位置之间的距离。距离检测器245可以基于统计量生成一个或多个空间分布度量。例如,空间分布度量可以被定义为和/或基于给定类型的生物学对象的描绘之间的距离和/或一种或多种不同类型的生物学对象的描绘之间的距离的平均偏差、中值偏差和/或标准偏差等。为了进行说明,可以检测所有描绘的淋巴细胞的位置之间的距离,然后可以计算平均距离;可以基于每个淋巴细胞-肿瘤细胞对之间的距离进行类似的计算。空间分布度量可以基于以下项:基于第一类型的生物学对象的描绘之间的距离生成的第一统计量和基于第二类型的生物学对象的描绘之间的距离生成的第二统计量。
基于点的簇生成器250可以使用距离来执行聚类分析(例如,多距离空间聚类分析,诸如Ripley K函数)。例如,使用Ripley K函数生成的K值可以表示生物学对象描绘的空间分布对应于空间随机分布(例如,与具有一个或多个空间簇的分布相对)的估计程度。
相关检测器255可以使用距离和/或点位置来生成一个或多个基于相关的度量。基于相关的度量可以指示在一个位置处存在给定类型的生物学对象的描绘可以在何种程度上预测在另一个位置处是否存在给定类型或另一类型的另一生物学对象描绘。例如,可以基于预定义空间增量或生物学对象描绘周围的目标区域来指定另一位置。例如,互相关图可以识别在距淋巴细胞的描绘的每个不同距离内观察到肿瘤细胞描绘的概率。度量可以识别跨从零距离到特定距离的距离的概率的总和。基于相关的度量可以包括随机化相关(dependence)系数或相关(correlation)系数。在特定实施例中,基于相关的度量指示与互相关图的最大值相关联的距离值。
景观生成器260可以使用一种或多种给定类型的生物学对象的描绘的点位置来生成三维“景观”数据结构(例如,景观图),其针对图像的每个水平和竖直位置指示观察到给定类型的对象的描绘的概率。景观数据结构可以通过拟合一个或多个算法进行识别。例如,可以拟合被配置成表示零个、一个或多个高斯(或其他峰值结构)的数据结构。景观生成器260可以被配置成将针对给定生物学对象类型生成的景观数据结构与针对另一生物学对象类型生成的另一景观数据结构进行比较。例如,景观生成器260可以将对应于给定生物学对象类型的景观的一个或多个峰的位置、幅度和/或宽度与对应于另一生物学对象类型的另一景观数据结构的一个或多个峰的位置、幅度和/或宽度进行比较。景观可以包括三维表示,当被可视化时,其峰表示给定类型的对象位于相应区域中的高概率。虽然景观数据表示经由第三维表示对象的密度和/或计数,但替代地可以使用其他可视化方法(例如,通过热图)来传达相同的数据。由景观生成器260生成的示例性景观数据结构在图4中示出,作为景观表示420a和420b。
虽然点过程分析框架225可以通过生物学对象的各个描绘来对数据编索引,但是区域分析框架230可以在更抽象的意义上使用坐标和/或空间点阵来对数据编索引。区域处理子系统210可以应用区域分析框架230来针对与图像面积相关联的一组坐标和/或区域中的每一者识别密度(或计数)。可以使用基于点阵的分区器265、基于点阵的簇监视器和/或热点监视器275中的一者或多者来识别密度。
基于点阵的分区器265(其可以将空间点阵施加到图像上)包括所描绘的生物学对象在图像上的位置的表示。空间点阵(包括一组行和一组列)可以定义一组区域,其中每个区域对应于一个行列组合。每行可以具有限定的高度,并且每列可以具有限定的宽度,使得空间点阵的每个区域可以具有限定的面积。
基于点阵的分区器265可以使用空间点阵和生物学对象描绘的点位置来确定强度度量。例如,对于每个点阵区域,强度度量可以指示和/或可以基于具有区域内的点位置(例如,对于生物学对象描绘的至少阈值部分)的一种或多种类型中的每一种类型的生物学对象描绘的数量。在特定实施例中,可以基于以下项对强度度量进行归一化和/或加权:在数字病理图像内和/或针对样品检测到的(例如,给定类型的)生物学对象的总数;在其他样品中检测到的给定类型的生物学对象的计数;和/或数字病理图像的比例。在特定实施例中,强度度量被平滑和/或以其他方式变换。例如,可以对初始计数设阈值,使得最终强度度量是二元的。例如,二元度量可以包括确定点阵区域是否与满足阈值的生物学对象描绘的数量相关联(例如,是否存在至少五个肿瘤细胞被分配到该区域)。在特定实施例中,基于点阵的分区器265可以通过(例如)比较跨不同类型的生物学对象的强度度量,使用面积数据来生成一个或多个空间分布度量。
基于网格的簇生成器270可以基于与一种或多种生物学对象类型有关的簇相关数据来生成一个或多个空间分布度量。例如,针对一种或多种生物学对象类型中的每一种,可以应用聚类技术和/或拟合技术来确定该类型的生物学对象的描绘例如彼此和/或与另一类型的生物学对象的描绘在空间上聚集的程度。可以进一步应用聚类技术和/或拟合技术来确定生物学对象的描绘在空间上分散和/或随机分布的程度。例如,基于网格的簇生成器270可以确定Morsita-Horn指数和/或莫兰指数。例如,单个度量可以指示一种类型的生物学对象的描绘与另一种类型的对象的描绘在空间上聚集和/或接近的程度。
热点/冷点监视器275可以执行分析以检测一种或多种特定类型的生物学对象的描绘可能存在的任何“热点”位置或一种或多种特定类型的生物学对象的描绘可能不存在的任何“冷点”位置。在特定实施例中,点阵分区的强度度量可以用于(例如)识别局部强度极值(例如,最大值或最小值)和/或拟合一个或多个峰(其可被表征为热点)或一个或多个谷(其可以被表征为冷点)。在特定实施例中,可以使用Getis-Ord热点算法来识别任何热点(例如,跨一组相邻像素的强度,足够高以至于与数字病理图像中的其他强度相比有显著差异)或任何冷点(例如,跨一组相邻像素的强度,足够低以至于与数字病理图像中的其他强度相比有显著差异)。在特定实施例中,“显著不同”可以对应于统计显著性的确定。一旦识别出对象类型特定的热点和冷点,热点/冷点监视器275就可以将针对一种生物学对象类型检测的任何热点或冷点的位置、幅度和/或宽度与针对另一种生物学对象类型检测的任何热点/冷点的位置、幅度和/或宽度进行比较。
地统计子系统215可以使用地统计分析框架235,基于离散样品来估计基础平滑分布。地统计分析框架235可以被配置成将对应于第一维度和/或分辨率的数据变换为第二维度和/或分辨率。例如,生物学对象描绘的位置最初可以使用跨数字病理图像的1毫米分辨率进行定义。然后可以将位置数据拟合到不受毫米分辨率限制的连续函数。又如,最初被定义为二维坐标的生物学对象描绘的位置可以被变换以产生包括位于一组行列组合中的每一个内的生物学对象描绘的计数的数据结构。地统计分析框架235可以被配置成(例如)使用识别(给定类型的)特定生物学对象描绘的位置的多个数据点来拟合函数。例如,可以针对每种特定类型的生物学对象生成变异函数,该变异函数针对一组距离中的每一个,指示是否检测到由该距离隔开的相同类型的两个生物学对象。与较长距离相比,更有可能在短的间隔距离处检测到单一类型的对象。然后可以通过拟合变异函数数据来生成半变异函数。然后,观测的生物学对象和半变异函数可以由地统计子系统215使用来生成图像地图,该图像地图预测特定类型的生物学对象的描绘位于一组位置中的每个位置处的普遍率和/或观测概率。与被处理以最初检测生物学对象描绘的一个或多个数字病理图像相比,图像地图的分辨率和/或大小可以分别更高和/或更大。地统计子系统215可以通过(例如)以下方式使用地统计数据来生成一个或多个空间分布度量:跨不同类型的生物学对象预测生物学对象值(例如,预测普遍率和/或观测概率);表征不同类型的生物学对象之间的预测生物学对象值的空间相关;使用单个类型的生物学对象的预测对象值来表征空间自相关;和/或对预测对象值的空间簇(或热点/冷点)跨不同类型的对象的位置进行比较。
应当理解,各种子系统可以包括未描绘的部件并且可以执行未明确描述的处理。例如,区域处理子系统210可以生成对应于基于熵的互信息测度的空间分布度量,以指示关于第一类型的生物学对象的描绘的位置的信息在何种程度上降低关于(相同或其他类型的)另一生物学对象的描绘是否存在于另一区域内的位置处的不确定性。例如,互信息度量可以指示一种生物学对象类型的位置提供关于另一种生物学对象类型的位置的信息(并由此减小熵)。这种互信息可能与其中一种细胞类型的细胞与另一种细胞类型的细胞散布(例如,肿瘤浸润淋巴细胞散布在肿瘤细胞内)的情况相关联。
又如,点处理子系统205可以基于以下项生成最近邻距离度量:给定生物学对象类型的各个生物学对象检测点与对应于相同生物学对象类型和/或另一生物学对象类型的生物学对象描绘的一个或多个最近其他点之间的距离(或距离统计量)。为了进行说明,对于生物学对象的每个描绘,对象类型内距离值可以指该生物学对象的描绘的位置与相同类型的生物学对象的最近数量描绘的位置之间的平均距离。针对生物学对象类型的对象类型内距离统计量可以指(例如)针对对象类型的所有生物学对象描绘的对象类型内距离值的平均值或中值。对象类型间距离值可以指生物学对象的描绘的位置与不同类型的对象的最近数量描绘的位置之间的平均距离。对象类型间距离统计量可以为(例如)对象类型间距离值的平均值或中值。小/低对象类型间距离统计量可以指示生物学对象的不同类型的描绘彼此接近。对象内类型距离统计量可以用于(例如)归一化目的或用于评估给定类型的生物学对象的一般聚类。
再如,点处理子系统205可以基于互相关函数和/或自相关函数(诸如对相关(交叉类型)函数或标记相关函数)生成基于相关的度量。相关函数可以包括(例如)作为距离函数的相关值。基线相关值可以对应于随机分布。度量可以包括空间距离,相关函数(或相关函数的平滑版本)以该空间距离与基线相关值(或基线相关值的一些调整版本,诸如通过将固定量加到基线相关值和/或将基线相关值乘以预定义因子而计算出的阈值)交叉。
生物学对象模式计算系统200可以使用各种类型的多个(例如,两个或更多个、三个或更多个、四个或更多个、或五个或更多个)空间分布度量(例如,本文公开的那些等)的组合来生成结果(其本身可以为空间分布度量)。多个空间分布度量可以包括使用不同框架(例如,以下中的两者或更多者、三者或更多者、或全部:点过程分析框架225、区域分析框架230和地统计框架235)生成的度量和/或由不同的子系统(例如,以下中的两者或更多者、三者或更多者、或全部:点处理子系统205、区域处理子系统210和地统计子系统)生成的度量。例如,可以使用基于距离的度量(使用空间点过程分析框架生成)和Morisita-Horn指数度量(使用空间区域分析框架生成)来生成空间分布度量。
在特定实施例中,可以使用一个或多个使用者定义和/或预定义的规则和/或使用经训练模型来组合多个度量。例如,机器学习(ML)模型控制器295可以训练机器学习模型以便学习一个或多个参数(例如,权重),这些参数指定要如何共同处理各种较低级度量以生成集成空间分布度量。组合的空间分布度量可以比单独的各个参数在聚集方面更准确。机器学习模型的架构可以存储在ML模型架构数据存储区296中。例如,机器学习模型可以包括逻辑回归、线性回归、决策树、随机森林、支持向量机或神经网络(例如,前馈神经网络),并且ML模型架构数据存储区296可以存储定义模型的一个或多个方程。任选地,ML模型超参数数据存储区297存储用于定义模型和/或其训练但未被学习的一个或多个超参数。例如,超参数可以识别多个隐藏层、丢弃率、学习率等。习得参数(例如,对应于一个或多个权重、阈值、系数等)可以存储在ML模型参数数据存储区298中。
在特定实施例中,使用用于训练ML模型的同一训练数据集的一部分或全部来训练一个或多个子系统的一部分或全部(从而学习存储在ML模型参数数据存储区298中的ML模型参数)。在特定实施例中,与由ML模型控制器295控制的ML模型相比,不同的训练数据集用于训练一个或多个子系统。类似地,当使用多个框架、子系统和/或子系统部件来生成被组合以产生空间分布度量的度量时,可以使用与其他训练数据集不重叠、部分重叠、完全重叠或相同的数据集来训练各个框架、子系统和/或子系统部件。
虽然未在图2中示出,但是生物学对象模式计算系统200可以进一步包括一个或多个部件,用于聚合跨受试者样品的切片的空间分布度量并生成一个或多个聚合的空间分布度量。此类聚合度量可(例如)由子系统内的部件(例如,由热点监视器275)、由子系统(例如,由点处理子系统205)、由ML模型控制器295和/或由生物学对象模式计算系统200生成。聚合的空间分布度量可以包括(例如)一组切片特定的度量的总和、中值、平均值、最大值或最小值。
图3A和图3B示出了根据一些实施例的用于基于使用空间分布度量的数字病理图像的图像处理来提供健康相关评估的过程300a和300b。更具体地,数字病理图像可以例如由数字病理图像处理系统处理,以生成表征一种或多种细胞类型的空间模式和/或分布的一个或多个度量,并且然后,这些度量可以为诊断、预后、治疗评价或治疗合格性决策提供信息。过程开始于步骤310,其中受试者相关的标识符可以由数字病理图像处理系统(例如,数字病理图像处理系统135)接收。受试者相关的标识符可以包括受试者、样品、切片和/或数字病理图像的标识符。受试者相关的标识符可以由使用者(例如,受试者的医疗提供者和/或受试者的医师)提供。例如,使用者可以将标识符作为输入提供给使用者装置,该使用者装置可以将标识符传输到数字病理图像处理系统135。
在步骤315处,数字病理图像处理系统135可以访问与标识符相关联的染色组织样品的一个或多个数字病理图像。例如,可以使用标识符来查询本地或远程数据存储区。又如,可以将包括标识符的请求传输到另一系统(例如,数字病理图像生成系统),并且响应可以包括图像。图像可以描绘来自受试者的样品的染色切片。在特定实施例中,第一数字病理图像描绘用第一染色剂染色的切片,并且第二数字病理图像描绘用第二染色剂染色的切片。在特定实施例中,单个数字病理图像描绘用多种染色剂染色的切片。在特定实施例中,可以在分析过程300a之前或期间将数字病理图像分成区域或图块。分离可以基于使用者指示的对特定区域、所检测到的目标区域(例如,根据基于规则、机器习得的方式检测等)的关注。
在步骤320处,可以从数字病理图像中检测第一类型的生物学对象的第一组描绘和第二类型的生物学对象的第二组描绘。在特定实施例中,第一类型的对象可以对应于与第一染色剂相关联的生物学对象,并且第二类型的对象可以对应于与第二染色剂相关联的生物学对象。第一类型的对象可以对应于第一类型的生物学对象(例如,第一细胞类型),并且第二类型的对象可以对应于第二类型的生物学对象(例如,第二细胞类型)。
每一个生物学对象可以与位置元数据相关联,该位置元数据指示在数字病理图像内描绘对象的位置。位置元数据可以包括(例如)对应于图像内的点的一组坐标、对应于生物学对象描绘的边缘或边界的坐标和/或对应于所描绘的对象的面积的坐标。例如,所检测到的生物学对象描绘可以对应于分析中图像内的5x5平方的像素。位置元数据可以识别生物学对象描绘的所有25个像素、沿边界的16个像素或单个代表点。单个代表点可以为(例如)中点或者可以通过以下生成:使用强度值对25个像素中的每一个进行预加权,然后计算加权中心点。也可以应用其他加权测度,包括内容感知或上下文感知的加权测度。
在步骤325处,基于在步骤320处检测到的生物学对象描绘生成数据结构。数据结构可以包括表征生物学对象描绘的对象信息。针对每一个所检测到的生物学对象描绘,数据结构可以识别例如生物学对象描绘的形心、对应于生物学对象描绘的周边的像素、或对应于生物学对象描绘的面积的像素。针对每一个生物学对象描绘,数据结构可以进一步识别与所描绘的生物学对象相对应的一种类型的生物学对象(例如,淋巴细胞、肿瘤细胞等)。
在步骤330处,生成一个或多个空间分布度量。空间分布度量表征生物学对象描绘的相对位置。在一些情况下,步骤330可以包括:基于示例性步骤320的所检测到的生物学对象描绘和对象类型,生成空间分布度量。例如,空间分布度量可以表征特定类型的对象的描绘相对于彼此和/或相对于另一特定类型的对象的描绘的靠近程度和/或聚集程度。
在步骤335处,将在步骤330处生成的空间分布度量输出到存储实体/数据库、使用者界面或服务平台。服务平台可以使用输出的空间分布度量来提供进一步的分析。空间分布度量可以传输到使用者装置(其可以将度量呈现给使用者)和/或可以经由使用者界面在本地呈现。在特定实施例中,除此之外还输出(例如,传输和/或输出)对应于所检测到的生物学对象描绘的图像和/或注释。
在特定实施例中,使用者可以使用空间分布度量来通知确定针对受试者的诊断、预后、治疗建议或治疗合格性确定。例如,当空间分布度量指示淋巴细胞与肿瘤细胞靠近和/或共定位时,可以将免疫疗法和/或检查点免疫疗法确认为治疗建议。当(例如)表示淋巴细胞与肿瘤细胞之间距离的度量类似于(例如,小于300%、小于200%、小于150%或小于110%的)表示相同细胞类型(例如淋巴细胞或肿瘤细胞)之间距离的度量时,可以确定淋巴细胞与肿瘤细胞靠近或散布。当表示分配给图像内各个区域的每种细胞类型的数量的强度值相似时,可以确定淋巴细胞与肿瘤细胞靠近和/或散布。例如,分析可以确定强度值是否指示细胞类型密集地位于图像区域的相同或相似子组中。
使用者可以向受试者提供诊断、预后等。例如,诊断、预后等可以口头传达给受试者和/或(例如,经由安全门户)从使用者的装置传输到受试者的装置。使用者可以进一步使用使用者装置来更新受试者的电子病历以包括该诊断、预后等。
可以因建议而启动、改变或停止对受试者的治疗。例如,可以启动推荐的治疗,和/或可以响应于诊断出受试者患有特定疾病,启动特定疾病的批准治疗。
图3B示出了根据一些实施例的用于基于使用空间分布度量的数字病理图像的图像处理来提供健康相关评估的另一过程300b。过程300b的步骤305至330很大程度上类似于过程300a的步骤305至330。然而,在特定实施例中,数字病理图像处理系统135可以使用空间分布度量来预测针对受试者的诊断、预后、治疗建议或治疗合格性确定(例如,在步骤347处)。可以使用识别针对度量的一个或多个阈值和/或范围的一个或多个规则来生成预测。预测可以包括表示诊断、预后或治疗建议的结果。结果可以为(例如):二进制值(例如,预测受试者是否患有特定的医学病症);分类值(例如,预测肿瘤期或从一组潜在治疗确定特定治疗);或数字(例如,识别受试者患有给定病症的概率,预测给定治疗将减缓疾病的进展的概率和/或预测病症进展到下一期的持续时间)。治疗建议可以包括使用检查点阻断疗法或免疫疗法(例如,当度量指示肿瘤细胞与淋巴细胞散布时)。
结果可以由经训练机器学习模型(举例而言但不进行限制,经训练的回归、决策树或神经网络模型)生成。在特定实施例中,空间分布度量包括多种不同类型的度量,并且模型被配置成处理多类型数据。例如,一组度量类型可以包括:基于K最近邻分析定义的度量;基于Ripley K函数定义的度量;Morisita-Horn指数;莫兰指数;基于相关函数定义的度量;基于热点分析定义的度量;以及基于Kriging插值(例如,普通Kriging或指示Kriging)定义的度量。并且可以基于该一组度量类型中的至少两个、至少三个或至少四个的度量来生成结果。
在步骤348处,数字病理图像处理系统135可以将预测(其可以包括:输出结果)输出到存储实体/数据库、使用者界面或服务平台。例如,预测可以在本地呈现和/或传输到使用者装置(例如,其可以显示或以其他方式呈现预测)。数字病理图像处理系统135可以进一步输出(并且使用者可以进一步接收)空间分布度量、数字图像和/或标识所检测到的生物学对象描绘的注释数据。
使用者然后可以识别确认的诊断、预后、治疗建议或治疗合格性确定。确认的诊断、预后等可以匹配和/或对应于预测的诊断、预后等。由数字病理图像处理系统生成的预测(和/或其他数据)可以为使用者的关于确定哪种诊断、预后或治疗建议的决策提供信息。在特定实施例中,可以从使用者向数字病理图像处理系统提供反馈,该反馈指示使用者识别的诊断、预后或治疗建议是否与预测的那些相匹配。这种反馈可以用于训练模型和/或更新将空间分布度量与预测输出相关联的规则。
图4描绘了识别空间模式和分布度量的各个期。例如,图4示出了初始数字病理图像、从接收到的图像检测生物学对象的结果、基于所检测到的生物学对象描绘的图像的点过程分析、以及示出在接收到的图像中检测到的生物学对象描绘的位置/强度的空间分布(描绘为地标评估)。空间分布被描绘为地标评估,并且所检测到的对象为淋巴细胞和肿瘤细胞。
图4示出了受试者的组织活检品的示例性染色切片的数字病理图像405。对组织活检品进行采集、固定、包埋和切片。每个切片可以用H&E染色剂染色并成像。染色剂中的苏木精可以将某些细胞结构(例如,细胞核)染成第一颜色,而染色剂中的曙红将细胞外基质和细胞浆染成粉红色。(使用深度神经网络)处理数字病理图像405以检测对两种类型的对象的描绘:淋巴细胞和肿瘤细胞。按照各种图像处理框架和技术(如下所述)处理对象数据,以产生空间分布度量(如下所述)。
一些实施例包括新的和修改的框架和度量以及框架和度量在处理数字病理图像中的新用途。
图4中描绘的表410包括示例性生物学对象数据,其针对多个生物学对象描绘中的每一个识别:与生物学对象相关联的受试者标识符、用于在成像之前对样品进行染色的染色剂的类型、生物学对象的类型(例如,淋巴细胞或肿瘤细胞)和生物学对象描绘的中心在数字病理图像中的坐标。使用对象检测器(例如,生物学对象检测器子系统145)来产生表410,从而针对每一个生物学对象描绘识别单点位置。单点位置被定义为生物学对象描绘的形心点。基于表410进行了点过程分析框架。
淋巴细胞点图像415a描绘了所有检测到的淋巴细胞在肿瘤细胞坐标处的淋巴细胞点表示417a。肿瘤细胞点图像415b描绘了所有检测到的肿瘤细胞在点坐标处的点表示417b。
示例性景观表示420a和420b以图形方式示出了针对生物学对象特征类型(在这种情况下分别为淋巴细胞类型和肿瘤细胞特征类型)的三维景观数据。
可以使用针对两种类型的生物学对象中的每一种类型的点数据(例如,如表410中所示)来生成针对景观表示420a和420b的三维景观数据。景观表示420a的x轴和y轴可以对应于(例如)图像405和淋巴细胞点图像415a的x轴和y轴。在特定实施例中,景观表示420b的x轴和y轴可以对应于数字图像405和肿瘤细胞点图像415b的x轴和y轴。景观数据可以进一步包括z值,其表征在对应于(x,y)坐标的区域内检测到的给定类型的生物学对象描绘的计算数量。景观数据中的每个(x,y)坐标对对应于x值范围和y值范围。因此,可以基于跨由x值范围(对应于景观的总宽度的一部分)和y值范围(对应于景观的总长度的一部分)限定的面积定位的给定类型的生物学对象描绘的数量来确定z值。
三维表示有助于确定图像的给定部分中一种类型的生物学对象的描绘的密度与另一种类型的生物学对象的描绘的密度的比较方式,因为可以在视觉上比较峰的高度。例如,可以针对一种或多种类型的生物学对象中的每一种(诸如针对淋巴细胞以及针对肿瘤细胞)生成景观数据。因此,淋巴细胞景观数据中的峰可以指示数字病理图像的区域中与峰的位置相对应的淋巴细胞的大数,并且肿瘤细胞景观数据中的峰可以指示数字病理图像的区域中与峰的位置相对应的肿瘤细胞的大数。在与第二生物学对象类型的峰相比之下,观察第一生物学对象类型的峰可以看出生物学对象类型和/或其描绘之间的关系。例如,观察与具有淋巴细胞峰的区域相对应的区域处的肿瘤细胞景观峰可以看出肿瘤细胞与淋巴细胞散布。例如,景观表示420a的峰425a可以对应于景观表示420b的峰425b;峰430a可以对应于峰430b。景观表示420a和景观表示420b的峰通常在相同的位置处,因此表明存在生物学对象类型之间的散布。当与峰430a和峰430b的位置处的散布相比时,对峰的比较表明峰425a和峰425b的位置处的散布较少。在一些情况下,对应于峰430a和峰430b的位置的数字病理位置然后可以为目标,并且可以生成采集更多数字病理图像数据或对应于该图像位置的附加生物学样品的提示。
Ripley K函数可以用作用于检测一组点(例如,与生物学对象描绘的点代表图像位置相对应的点)中与空间同质性的偏差的估计器,并且可以用于评估许多距离尺度下的空间聚类或分散程度。K函数(或更特别而言其基于样品的估计)可以被定义为:
Figure BDA0003948639860000361
其中dij表示总共n个生物学对象描绘中第i个和第j个的成对欧几里得距离;r为搜索半径;λ为生物学对象描绘的平均密度(例如,n/A,其中A为涵盖所有生物学对象描绘的组织面积);I(·)为指示函数,当dij≤r时,其带1;并且和wij为边缘校正函数,用于避免边缘校正函数导致的偏差估计,用于避免由于边缘效应导致的偏差估计。
为了设计高效的机器学习方案,可以通过制定以下度量来概括整个K函数:
1.曲线下面积:确定生物学对象到生物学对象距离r的临床上有意义的最大值rmax,并且针对0≤r≤rmax,可以计算观测的和理论的(例如,在假设相同或不同类型的生物学对象在空间上无关的零假设下)K函数之间的面积。
2.在r=rmax时,观测的和理论的Ripley K函数之间的差异点估计。可以分别针对第一类型的生物学对象和第二类型的生物学对象(例如,肿瘤细胞和淋巴细胞)推导上述特征。此外,交叉类型Ripley K函数可以用类似的方式导出。使用Ripley K函数,可以估计和输出生物学对象的空间聚类或分散程度,以供理解生物学对象的描绘之间的这种聚集(例如,指示第一类型的生物学对象与第二类型的生物学对象的浸润或分离)。
为了识别最近邻度量,可以确定多对检测到的生物学对象描绘的位置之间的距离。可以针对每对不同类型的生物学对象描绘(例如,在每个肿瘤细胞/淋巴细胞对之间)计算每个距离。对于给定的生物学对象描绘(例如,单个淋巴细胞的描绘),最近邻对象描绘的子组可以被定义为被识别为给定类型并且被描绘为最接近于给定生物学对象的描绘的那些。例如,对于给定的淋巴细胞,最近邻子组可以识别n个肿瘤细胞,这些肿瘤细胞被描绘成相对于图像中描绘的其他肿瘤细胞最接近给定淋巴细胞,其中n可以是可编程、使用者指示或机器习得的值。对于每个子组,可以计算子组的生物学对象描绘位置的位置形心。可以从其确定形心与给定生物学对象的描绘的位置之间的最近邻距离度量。
图5A和图5B示出了两个示例性最近邻子组。示例性生物学对象描绘的位置由开圆数据点在图5A和图5B中的每一个中表示。针对每一个生物学对象描绘(例如,淋巴细胞),可以识别第二类型的一个或多个最近邻生物学对象描绘(例如,预定义数量的最近邻肿瘤生物学对象描绘)。在所描绘的示例中,识别了五个其他最近邻生物学对象描绘。这些最近邻的位置由填充数据点在图5A和图5B中表示。可以针对最近邻位置计算最近邻的形心。对于最近邻位置,可以将中点计算为例如平均值、中值、加权平均值、质心等。在所描绘的示例中,形心位置由从开圆延伸的线的末端的位置表示。示例性生物学对象的位置与形心之间的最近邻距离度量由从开圆延伸的线在图5A至图5B中表示。
因此,对于给定的生物学对象,可以针对第二类型的生物学对象的最近邻子组计算最近邻距离度量。距离度量可以用于对生物学对象进行分类。例如,在第一生物学对象为淋巴细胞并且最近邻生物学对象为肿瘤细胞的情况下,分类可以作为邻近肿瘤淋巴细胞或肿瘤内淋巴细胞。分类可以基于最近邻距离的习得或基于规则的评估。例如,当距离度量超过阈值时,淋巴细胞可以被分类为邻近肿瘤淋巴细胞,而当距离度量不超过阈值时,淋巴细胞可以被分类为肿瘤内淋巴细胞。阈值可以是固定的或基于与一个或多个数字病理图像相关联的距离度量定义的。在特定实施例中,可以通过以下计算阈值:将2元高斯混合模型拟合到与数字病理图像中描绘的所有生物学对象相关联的距离度量。图5C描绘了根据该辨别分析并且与过程的上下文相关的生物学对象的示例性表征(例如,生物学对象描绘的同一性、生物学对象描绘的数量、生物学对象描绘类型的同一性、生物学对象描绘类型的数量、最近邻距离的绝对值和相对值等)。在图5C所示的示例中,黑点表示肿瘤细胞描绘。蓝点表示被分类为肿瘤内淋巴细胞的淋巴细胞描绘。绿点表示被分类为邻近肿瘤淋巴细胞的淋巴细胞描绘。
交叉类型对相关函数(交叉PCF)是对空间点过程中点(例如,与生物学对象描绘的点代表图像位置相对应的点)之间的空间相关的另一统计测量。在特定实施例中,交叉PCF函数可以量化第一类型的生物学对象描绘(例如,淋巴细胞)被第二类型的生物学对象描绘(例如,肿瘤细胞)包围的方式。交叉PCF可以表示为:
Figure BDA0003948639860000381
其中λ,ωij和dij类似地定义为Ripley K函数,并且kh(·)为平滑带宽h>0的平滑核。
可以通过制定以下度量来概括整个交叉PCF:
1.曲线下面积:可以选择生物学对象到生物学对象距离r的临床上有意义的最大值rmax,并且针对0≤r≤rmax,计算了观测的和理论的(例如,在假设相同或不同类型的生物学对象在空间上无关的零假设下)交叉PCF函数之间的面积。
2.在r=rmax时,观测的和理论的交叉PCF之间的差异点估计。
标记相关函数(MCF)有助于确定生物学对象描绘的位置是否相对于附近(例如,不同类型的)生物学对象描绘的位置或多或少与预期的相似,或者这些位置是否与第二类型的生物学对象描绘无关(例如,随机)。换句话说,第二类型的生物学对象描绘的位置和存在是否影响第一类型的生物学对象描绘的位置和存在。标记相关函数可以定义为:
Figure BDA0003948639860000391
其中
Figure BDA0003948639860000392
表示经验条件期望,假设在数字病理图像位置si和sj处存在相隔距离r的生物学对象描绘;M(si),M(sj)表示与这两个生物学对象描绘相关联的生物学对象类型。在分母上,M,M'为从其边缘分布中随机且无关地抽取的生物学对象类型;当m1==m2时,I(m1;m2)定义为1。
通过制定以下度量来概括整个MCF:
1.曲线下面积:选择了生物学对象到生物学对象距离r的临床上有意义的最大值rmax,并且针对0≤r≤rmax,计算了观测的和理论的(例如,在假设相同或不同类型的生物学对象在空间上无关的零假设下)MCF之间的面积。
2.在r=rmax时,观测的和理论的MCF之间的差异点估计。
生物学对象描绘的进一步评估可以基于对一种或多种类型的生物学对象描绘的普遍率的比较。例如,可以从对第一类型的生物学对象描绘与第二类型的生物学对象描绘的量的比较得出特征。此外,可以通过比较具有特定分类的(例如,第一类型或第二类型的)生物学对象描绘来增强该特征。
例如,可以通过肿瘤内淋巴细胞比率(ITLR)来表征基于肿瘤空间异质性的统计分析的对淋巴细胞的描绘的分类,该ITLR可以表征与肿瘤细胞密度相关的淋巴细胞描绘位置。在一些实施例中,可以通过使用数字病理图像注释(诸如目标部位(例如,肿瘤部位)的注释)来指导评估。在这些部位的每一个内,基于欧几里德距离测量(如本文所述),每个淋巴细胞描绘可以被表征为邻近肿瘤淋巴细胞或肿瘤内淋巴细胞。可以针对每个淋巴细胞描绘识别最近n个肿瘤细胞(例如,使用最近邻技术,诸如章节VI.A.3中描述的技术)。其中n为要使用的邻居数的可定义参数。其次,可以导出n个最近肿瘤细胞描绘形成的凸包区域的形心坐标。然后可以计算从每个淋巴细胞描绘到最近肿瘤细胞描绘和到凸包的形心的距离,并且可以拟合二元高斯混合模型以将淋巴细胞进一步辨别为邻近肿瘤淋巴细胞或肿瘤内淋巴细胞。若淋巴细胞已浸润到肿瘤核心区域,则到形心的距离应很小。相比之下,若淋巴细胞仍在向肿瘤核心区域移动,则距离可能较大。ITLR特征被定义为:
Figure BDA0003948639860000401
其中,N肿瘤内淋巴细胞表示肿瘤内淋巴细胞的总数;N肿瘤细胞表示肿瘤细胞的总数。尽管在特定生物学对象类型的特定分类的上下文中进行了描述,但是可以使用类似的原理将BOR扩展到具有其自身的上下文相关特性的其他生物学对象描绘。
交叉G函数计算在任何给定距离内从第一类型的生物学对象描绘到最近的第二类型的生物学对象描绘的距离的概率分布。具体而言,交叉G函数可以被认为是空间距离分布度量,其表示在以给定点(例如,数字病理图像中生物学对象描绘的点位置表示)为中心的r半径圆内找到(例如,指定类型的)至少一个生物学对象描绘的概率。这些概率分布可应用于量化任何两种类型的生物学对象描绘的相对接近度。因此,例如,交叉G函数可以为浸润确定的定量替代。在数学上,交叉G函数表示如下:
Figure BDA0003948639860000402
其中
Figure BDA0003948639860000403
j表示第一类型的生物学对象描绘的指数;I(·)为指示函数,当di≤r时,其带1;nlym为生物学对象的总数。
类似地,可以通过制定以下度量来概括整个交叉G函数:
1.曲线下面积:选择了生物学对象到生物学对象距离距离r的临床上有意义的最大值rmax,并且针对0≤r≤rmax,计算了观测的和理论的(例如,在假设相同或不同类型的生物学对象在空间上无关的零假设下)交叉G函数之间的面积。
2.在r=rmax时,观测的和理论的交叉G函数之间的差异的点估计。
图6A至图6D示出了根据一些实施例的示例性基于距离和强度的度量,其表征示例性数字病理图像中生物学对象描绘的空间布置。对于基于数字病理图像得出的四种类型的空间特征度量中的每一种,跨一系列r值以曲线示出了统计值。图6A示出了从样品计算出的针对观测的交叉G函数的交叉G函数(窄虚线)和在假设第一类型的生物学对象和第二类型的生物学对象在空间上无关的零假设下的理论交叉G函数(宽虚线)。交叉G函数可以如本文所描述进行计算。图6B示出了针对第一类型的生物学对象描绘计算的K函数与针对第二类型的生物学对象描绘计算的K函数之间的差异(实线)。如本文所描述计算了K函数。图6C示出在假设第一类型的生物学对象和第二类型的生物学对象在空间上无关的零假设下计算的(虚线)或通过将所描绘的第一类型的生物学对象的位置与所描绘的第二类型的生物学对象进行比较来计算的(实线)交叉类型对相关函数。如本文所描述计算了对相关。图6D示出在假设第一类型的生物学对象和第二类型的生物学对象在空间上无关的零假设下计算的(虚线)或通过将所描绘的第一类型的生物学对象的位置与所描绘的第二类型的生物学对象进行比较来计算的(实线)标记相关函数。如本文所描述计算了标记相关。
基于客观测度,图6A至图6D中的曲线示出了(对于该示例)第一类型和第二类型的生物学对象描绘在空间上相关。可以基于本文公开的算法导出另外的定量特征。
图7描绘了区域分析框架230的应用。特别地,使用了区域分析框架230来处理染色样品切片的数字病理图像405。检测到特定类型的生物学对象(例如,淋巴细胞和肿瘤细胞)的描绘,如上文相对于空间点过程分析框架所描述。区域分析框架230进一步产生生物学对象数据,其示例在表410中示出。
可以使用具有限定数量的列和限定数量的行的空间点阵来将数字病理图像405划分为区域。例如,如图7所示,使用了空间点阵来将数字病理图像405划分为22列和19行。空间点阵包括418个区域。每一个生物学对象描绘可以被分配到一个区域。在特定实施例中,区域可以为包含生物学对象描绘的中点或其他表示点的区域。对于每种生物学对象类型和每个点阵区域,可以识别分配到该区域的该生物学对象类型的多个生物学对象描绘。对于每种生物学对象类型,区域特定的生物学对象计数的集合可以被定义为生物学对象类型的点阵数据。图7示出了针对第一类型的生物学对象的描绘的点阵数据715a和针对第二类型的生物学对象的描绘的点阵数据715b的特定实施例,每一者均覆盖在染色切片的数字病理图像405的表示上。针对点阵中的每个区域,点阵数据可以被定义为包括普遍值,该普遍值被定义为等于针对该区域的计数除以跨所有区域的总计数。因此,其内不存在给定类型的生物学对象的区域将具有流行值0,而其内存在给定类型的至少一个生物学对象的区域将具有正的非零普遍值。
在两种不同的上下文(例如,肿瘤)中生物学对象(例如,淋巴细胞)的相同量并不意指表征或表征程度(例如,相同的免疫浸润)。相反,第一类型的生物学对象描绘相对于第二类型的生物学对象描绘的分布方式可能指示函数状态。因此,表征相同类型和不同类型的生物学对象描绘的接近度可以反映更多信息。Morisita-Horn指数为生物学或生态系统中相似性(例如,重叠)的生态测度。在特定实施例中,表征(例如,两种类型的)生物学对象描绘的两个群体之间的双变量关系的Morisita-Horn指数(MH)可以被定义为:
Figure BDA0003948639860000421
其中
Figure BDA0003948639860000422
分别表示方形网格i处的第一类型的生物学对象描绘和第二类型的生物学对象描绘的普遍率。在图7中,点阵数据715a示出了
Figure BDA0003948639860000423
跨网格点的第一类型的生物学对象的描绘的示例性普遍值,并且点阵数据715b示出了
Figure BDA0003948639860000424
跨网格点的第二类型的生物学对象的描绘的示例性普遍值。
当各个点阵区域不包括两种类型的生物学对象描绘时,Morisita-Horn指数被定义为0(表明不同生物学对象类型的分布在空间上是分开的)。例如,当考虑说明性的第一点阵数据720a中所示的说明性空间分离分布时,该指数将为0。当跨点阵区域的第一生物学对象类型的分布与跨点阵区域的第二生物学对象类型的分布匹配(或者是其缩放版本)时,Morisita-Horn指数被定义为1。例如,当考虑说明性的第二点阵数据720b中所示的说明性高度共定位分布时,该指数将接近1。
在图7所示的示例中,使用点阵数据715a和点阵数据715b计算的Morisita-Horn指数为0.47。高指数值指示第一类型和第二类型的生物学对象的描绘是高度共定位的。
Jaccard指数(J)和Sorensen指数(L)彼此相似且密切相关。在特定实施例中,它们可以被定义为:
Figure BDA0003948639860000425
Figure BDA0003948639860000426
其中
Figure BDA0003948639860000427
分别表示方形网格i处的第一类型的生物学对象描绘和第二类型的生物学对象描绘的普遍率,min(a,b)返回a和b之间的最小值。
在特定实施例中,可以表征生物学对象描绘的空间分布的另一度量为莫兰指数,其为空间自相关测度。一般来讲,莫兰指数统计量为相邻空间单元处第一变量与第二变量之间的关系的相关系数。在特定实施例中,第一变量可以被定义为第一类型的生物学对象的描绘的普遍率并且第二变量可以被定义为第二类型的生物学对象的描绘的普遍率,以便量化两种类型的生物学对象描绘在数字病理图像中散布的程度。在一些实施例中,莫兰指数I可以被定义为:
Figure BDA0003948639860000431
其中xi,yj表示区域单元i处的第一类型的生物学对象描绘(例如,肿瘤细胞)的标准化普遍率以及区域单元j处的第二类型的生物学对象描绘(例如,淋巴细胞)的标准化普遍率。ωij为区域单元i和j的二进制权重,若两个单元相邻,则权重为1,否则为0,可以使用一阶型式来定义邻域结构。针对不同类型的生物学对象的生物学对象描绘述,可以单独导出莫兰I。
如图8所示,当生物学对象描绘跨点阵完全分散时,莫兰指数被定义为等于-1(因此具有负空间自相关;“共定位场景”820a);并且当生物学对象描绘紧密聚集时,莫兰指数被定义为1(因此具有正自相关;“分隔场景”820b)。当对象分布与随机分布匹配时,莫兰指数被定义为0。因此,特定生物学对象描绘类型的区域表示有助于生成支持针对每一个生物学对象类型计算莫兰指数的网格。
使用点阵数据715a计算的莫兰指数为0.50。使用淋巴细胞点阵数据715b计算的莫兰指数为0.22。针对两种类型的生物学对象描绘中的每一种计算的莫兰指数之间的差值可以提供对共定位的指示(例如,接近零的差值指示共定位)。
Geary C(也称为Geary邻近比率)为空间自相关测度或尝试确定对同一现象的相邻观测结果是否相关。Geary C与莫兰I呈逆相关,但并不完全相同。虽然莫兰I为全局空间自相关测度,但Geary C对局部空间自相关更灵敏。
Figure BDA0003948639860000432
其中zi表示方形网格i处的第一类型或第二类型的生物学对象描绘的普遍率,ωi,j与上述定义的相同。
在特定实施例中,点阵数据715a和点阵数据715b可以被进一步处理以分别生成与第一类型的生物学对象的所检测到的描绘相对应的热点数据915a和与第二类型的生物学对象的所检测到的描绘相对应的热点数据915b。在图9中,热点数据915a和热点数据915b指示被确定为针对相应类型的生物学对象的所检测到的描绘的热点的区域。被检测为热点的区域示出为红色符号,并且被确定不是热点的区域示出为黑色符号。针对与非零对象计数相关联的每个区域定义了热点数据915a、915b。热点数据915a、915b还可以包括指示给定区域是否被识别为热点的二进制值。除了热点数据和分析之外,还可以进行冷点数据和分析。
对于生物学对象的描绘,可以通过以下针对每种生物学对象类型生成热点数据915a、915b:确定与针对生物学对象类型的非零对象计数相关联的针对每个区域的Getis-Ord局部统计量。可以使用Getis-Ord热点/冷点分析来识别肿瘤细胞或淋巴细胞的具有统计意义的热点/冷点,其中热点为与相邻区域单元相比,生物学对象的描绘的普遍率具有在统计上显著较高的值的区域单元,并且冷点为与相邻区域单元相比,生物学对象的描绘的普遍率具有在统计上显著较低的值的区域单元。该值以及确定何物使热点/冷点区域与相邻区域形成对照可以根据使用者偏好来选择,并且在特定实施例中,可以根据基于规则的方法或习得模型来选择。例如,可以考虑所检测到的生物学对象描绘的数量和/或类型、描绘的绝对数量和其他因素。Getis-Ord局部统计量为z分数,并且针对方形网格i,可以被定义为:
Figure BDA0003948639860000441
其中i表示点阵中的单个区域(特定的行列组合),n为点阵中的行列组合数(即,区域数),ωi,j为i和j之间的空间权重,并且zj为区域中给定类型的生物学对象描绘的普遍率,
Figure BDA0003948639860000442
为跨区域的给定类型的平均对象普遍率,并且:
Figure BDA0003948639860000443
在特定实施例中,可以通过确定每个统计量是否超过阈值来将Getis-Ord局部统计量变换为二进制值。例如,阈值可以设定为0.16。阈值可以根据使用者偏好来选择,并且在特定实施例中,可以根据基于规则、机器习得的方法来进行设定。
在特定实施例中,可以使用逻辑与函数来识别被识别为针对多于一种类型的生物学对象描绘的热点的区域。例如,共定位的热点数据920指示被识别为针对两种类型的生物学对象描绘的热点的区域(示出为红色符号)。被识别为共定位热点的区域的数量相对于针对给定对象类型(例如,针对肿瘤细胞对象)识别的热点区域的数量的高比率可以表明:给定类型的生物学对象描绘与其他对象类型共有空间特性。同时,处于或接近零的低比率可以与不同类型的生物学对象的空间分隔一致。
地统计学是一套最初被研发为预测采矿作业的空间随机过程的概率分布的数学/统计方法。地统计学广泛应用于不同学科,包括石油地质学、地球和大气科学、农业、土壤学和环境暴露评估。在地统计学领域,可以使用变异函数来描述数据的空间连续性。为了通过拟合变异函数来生成特征,首先,可以使用由不同距离分隔的点对(例如,生物学对象描绘的代表性位置)之间的变异测度,将经验变异函数计算为离散函数。其次,可在估计经验变异函数后,拟合理论变异函数。在特定实施例中,可以使用马特恩函数作为理论变异函数模型。考虑空间模型{Z(s):s∈D},其中Z(s)为位置s处肿瘤细胞或淋巴细胞的普遍率,D表示一组样品点s1、s2、...、sn。经验变异函数可以计算如下:
Figure BDA0003948639860000451
在图10的示例中,基于在H&E染色图像405中检测到的生物学对象描绘(在图10中示出为理论变异函数曲线的点)生成了经验变异函数。然后通过将马特恩函数拟合到经验变异函数来生成理论变异函数1015。
在上述计算中,求和仅针对由欧几里得距离h分隔的N(h)个观测结果对(例如,生物学对象描绘对)。来自马特恩函数的参数可以用作该方法的特征。可以分别从对第一类型的生物学对象(例如,肿瘤细胞)的所检测到的描绘和第二类型的生物学对象(例如,淋巴细胞)的所检测到的描绘的变异函数拟合获得这些特征。替代地,也可以结合跨类型生物学对象的所检测到的描绘,进行指示变异函数拟合。
然后,可以使用对所检测到的生物学对象描绘的变异函数和点位置的估计来针对数字病理图像405的每个区域(例如,像素)生成特定类型的生物学对象被描绘在该区域处的概率。图10中描绘的Kriging地图1020针对数字病理图像405中的多个区域中的每一个示出了特定类型的生物学对象(例如,肿瘤细胞)被描绘在该区域处的概率。
在特定实施例中,可以训练回归机器学习模型以处理例如来自受试者的活检切片的数字病理图像,以便从数字病理图像预测对受试者的病症的评估。例如,可以训练回归机器学习模型来:基于来自被诊断患有结直肠癌的受试者的活检切片的数字病理图像,预测癌症是否在肿瘤DNA中表现出微卫星稳定性(相对于肿瘤DNA中的微卫星不稳定性)。微卫星不稳定性可能与微卫星内的相对大量的突变相关联。
可以从患有该病症(在该示例中,结直肠癌)的多个受试者中的每一个采集活检品。可以根据本文公开的主题对样品进行固定、包埋、切片、染色和成像。可以使用例如生物学对象检测器子系统145来检测特定类型的生物学对象的描绘,例如,肿瘤细胞和淋巴细胞生物学对象描绘。在特定实施例中,生物学对象检测器子系统145可以使用经训练深度卷积神经网络来辨别和识别生物学对象的描绘。针对多个受试者中的每个受试者,可以生成一个标签,以指示病症(例如,癌症)是否表现出指定特征(例如,微卫星稳定性对微卫星不稳定性)。可以基于病理学家评估和基于测定的检查结果生成真值标签。
针对每个受试者,输入矢量可以被定义为包括一组空间分布度量。该一组空间分布度量可以包括对本文所描述的度量的选择。例如,要包括在输入矢量中的度量可以包括:
-针对生物学对象到生物学对象距离的观测的和理论的K函数之间的面积,范围从0到最大观测距离;
-在最大生物学对象到生物学对象距离处的对观测的和理论的Ripley K函数之间的差异的点估计;
-针对生物学对象到生物学对象距离的交叉G函数的曲线下面积,范围从0到最大观测距离;
-在最大生物学对象到生物学对象距离处的对观测的和理论的交叉G函数之间的差异的点估计;
-针对生物学对象到生物学对象距离的对相关函数(交叉类型)的曲线下面积,范围从0到最大观测距离;
-在最大生物学对象到生物学对象距离处的观测的和理论的对相关函数(交叉类型)之间差异的点估计;
-针对生物学对象到生物学对象距离的标记相关函数(交叉类型)的曲线下面积,范围从0到最大观测距离;
-在最大生物学对象到生物学对象距离处的对观测的和理论的标记相关函数(交叉类型)之间的差异的点估计;
-肿瘤内淋巴细胞比率;
-Morisita-Horn指数;
-Jacard指数;
-Sorensen指数;
-莫兰指数;
-Geary C;
-针对该类型的生物学对象描绘的共定位点(例如,热点、冷点、非显著点)关于第一类型的生物学对象描绘的点(例如,热点、冷点、非显著点)的数量的比率,其中使用Getis-Ord局部统计量来定义点(例如,热点、冷点、非显著点);和
-通过对两种类型的生物学对象描绘述(例如,肿瘤细胞和淋巴细胞)的变异函数拟合获得的特征。
所选择的度量对应于多个框架(点过程分析框架、区域过程分析框架和地统计框架)。在特定实施例中,针对每个受试者,可以定义标签以指示是否观测到所指示的特征(例如,微卫星稳定性)。可以使用重复嵌套的5折交叉验证以及Lasso,经成对的输入数据和标签来训练和测试L1正则化逻辑回归模型。具体而言,针对5个数据折中的每一个,该模型可以在剩余的4个折上进行训练,并在剩余的折上进行测试,以计算ROC下的面积。
图11示出了使用5折交叉验证生成的示例性中值接受者操作曲线(ROC)。在所描述的示例中,使用验证集生成的ROC下的中值面积为0.931。95%置信区间为(0.88,0.96)。来自输入数据集的最常被L1正则化逻辑回归模型挑选的变量可被识别以指示哪些度量被认为最能预测受试者病症的指定特征。例如,最常挑选的度量可以是对相关函数的曲线下面积和使用Getis-Ord局部统计量计算的热点比率,表明这些度量最能预测微卫星不稳定性。处理数字病理图像可以作为某些繁重且昂贵的检查的可靠替代。例如,在本文讨论的示例中,数字病理图像处理系统可以指示在确定给定受试者的肿瘤是否表现出微卫星不稳定性方面,处理可以反映或超过DNA分析。因此,使用根据本公开的主题的基于图像的方法可以消除从受试者采集附加活检样品以采集DNA的需要,并且可以进一步节省执行DNA分析的时间和费用。
在特定实施例中,针对第一受试者和第二受试者中的每一个,访问染色活检切片的数字病理图像。可以根据本文所描述的技术,在每个图像内检测第一类型的生物学对象的描绘和第二类型的生物学对象的描绘(例如,淋巴细胞和肿瘤细胞)。可以针对每个受试者生成如本文所描述的输入矢量。输入矢量可以由如本文所述的经训练的逻辑回归模型单独处理。
该模型响应于处理与第一受试者相关联的输入矢量而输出第一标签。例如,第一标签可以对应于第一受试者的癌症表现出微卫星不稳定性的预测。
该模型响应于处理与第二受试者相关联的输入矢量而输出第二标签。例如,第二标签可以对应于第二受试者的癌症表现出微卫星稳定性的预测。
第一标签和第二标签中的每一个可以根据治疗建议规则(单独地)进行处理。该规则可以被配置成在检测到受试者病症的某些特征时(例如,检测到微卫星不稳定性时)推荐某些治疗,例如,免疫疗法(或免疫检查点疗法)治疗,或者在检测到受试者病症的某些特征时推荐不使用其他治疗,例如免疫疗法(或免疫检查点疗法)治疗。来自规则处理的结果可以指示例如建议对第一受试者而非对第二受试者推荐免疫疗法治疗。
在特定实施例中,数字病理图像可以描绘包括组织成分的空间结构及其微环境相互作用的肿瘤微环境。微环境可能对组织形成、体内稳态、再生过程和免疫反应等具有很大影响。
非小细胞肺癌(NSCLC)是主要的全球健康问题,并且是全球癌症相关死亡的主要原因。尽管可用的治疗方案范围很广,但对于患有转移性(EGFR和ALK阴性/未知)NSCLC的患者来说,化疗仍然是主流治疗。然而,免疫检查点抑制剂正在彻底改变这一亚群的治疗算法。
可以使用数字病理图像来计算空间统计量(例如,空间分布度量),以确定统计量预测针对各种治疗的总生存期的程度。可以建立临床研究的分支来测试各种治疗的效果。进行了示例性临床试验以评价:在未接受过化疗的患有IV期非鳞状NSCLC的参与者中,与使用卡铂、紫杉醇和贝伐单抗(例如,“CPB组”)治疗相比,阿特珠单抗(工程化抗程序性死亡配体1[PD-L1]抗体)配合卡铂和紫杉醇(例如,“ACP组”)在使用或不使用贝伐单抗(例如,ABCP组)下的安全性和效果。参与者以1:1:1的比例随机分配到ACP组、ACPB组或CPB组,即对照组。
采集基线下的组织样品。对于每个治疗组中的每个受试者,可以捕获基线组织样品的数字病理(例如,H&E病理)图像。对组织样品的H&E染色载玻片进行扫描和数字化以生成本文所描述的一种类型的数字病理图像。对与数字病理图像(也称为全玻片图像或“WSI”)上一个或多个生物学对象描绘相关的区域进行注释。检测特定类型的生物学对象的描绘,包括肿瘤细胞、免疫细胞和其他基质细胞。例如,根据本文公开的主题,生成每种类型的生物学对象的每个描绘的位置坐标。在一个示例中,在研究不同研究组的效果的同时,重点可以放在例如淋巴细胞和肿瘤细胞上,以研究免疫浸润、肿瘤资源分布和细胞间相互作用。
对于每个图像,可以基于所检测到的生物学对象病症和/或它们各自相关的位置,基于本文讨论的空间统计(例如,空间分布度量)算法来导出各种空间特征,这些算法包括例如,空间点过程方法(例如,Ripley K函数特征、G函数特征、对相关函数特征、标记相关函数特征和肿瘤内淋巴细胞比率)、空间点阵过程方法(例如,Morisita-Horn指数、Jaccard指数、Sorensen指数、莫兰I、Geary C和Getis-Ord热点)以及地统计过程方法(普通Kriging特征、指示Kriging特征)。
另外,临床研究的目的,可以确定结果变量,例如受试者的总生存期。
一般来说,在这个示例中进行的分析是被执行以确定当仅考虑每个队列的一部分时,ACP队列和BCP队列之间的总存活期差异是否会变得更加明显,这部分被选为预测相对于队列中的其他受试者有更长的生存期的个体。预测可以基于例如本文讨论的针对取自受试者的样品的数字病理图像生成的空间分布度量中的一个或多个。在特定实施方案中,第一分析包括:将ACP对BCP意向治疗群体与总生存期进行比较。第二分析包括:使用基于模型的预测富集策略来研究导出的空间特征与总生存期(OS)之间的关联。针对临床研究(包括NSCLC临床研究)的预测富集可(例如通过优势比(OR)、相对风险(RR)或危险比(HR))识别总患者群体Ω0中的反应者亚群体Ω,其对所测量治疗的反应大于平均水平。关注该亚群体具有以下优势:提高研究效率或可行性,以及与总群体相比,增强亚组中受试者的获益风险关系。一种可能的富集策略是开放标签单组试验,然后进行随机化。在该设计中,对所有受试者进行研究性治疗,并且根据预先指定的标准(例如,研究目的或生物标志物)确定的反应者被随机分配到安慰剂对照试验中。
例如,可以使用基于模型的方法来解决预测富集问题。特别地,可以在已经进行临床研究的情况下回顾性地开发富集模型。为了回顾性地开发富集模型,可以在每个组中按60:20:20将数据分为训练集、验证集和测试集(例如,根据本文公开的主题)。例如,治疗组中的训练集可以用于模拟经验设计中的开放标签预随机化阶段。以空间统计特征作为输入的Cox模型或客观反应模型可以在治疗组(例如,ACP)的训练集上用L1或L2正则化进行拟合。来自拟合的Cox模型的预测风险分数或者预测反应概率可以用作反应分数S^,并且可以以子集条件的形式指定反应者标准:
Figure BDA0003948639860000501
其中Sq指示反应分数的q分位数,并且x表示由特征矢量表征的受试者级协变量。联合治疗和对照患者的验证集可以用于在随机化之前模拟招募的受试者群组。为了实现子集条件,可以分别针对验证集中的治疗组和对照组计算分位数(但是在q相同的情况下),并且使用上述等式将子集分别用于验证集中的治疗和对照。该示例中的子集
Figure BDA0003948639860000502
可以通过以下进行估计:针对治疗和对照之间的最显著差异,使用对生存期数据的对数秩检验或对客观反应数据的排列检验中的任一者,评价q,该治疗和对照两者均为验证集中反应者子群组的子集。子集
Figure BDA0003948639860000503
也可以使用预先特定的反应阈值q进行估计。具有阈值
Figure BDA0003948639860000504
的富集条件变为
Figure BDA0003948639860000505
然后可以在测试集中根据风险比或优势比使用相同的方法进行评价。
在样品量有限的实施例中,可以使用嵌套蒙特卡罗交叉验证(nMCCV)来评价模型性能。通过在训练集、验证集和测试集之间以相同的比例进行随机拆分,可以将相同的富集过程重复B次,以生成分数函数和阈值的集合
Figure BDA0003948639860000506
对于第i个受试者,可以通过以下评价整体反应者状态:在i被随机分配到测试集的重复中,针对i对反应者群组的隶属关系取平均;以及设置阈值0.5。可以对聚集的测试受试者计算风险比或优势比以及95%置信区间和p值。
预测分析的整个工作流程概括在图12的流程图中。更具体而言,为了给研究队列中的每个受试者分配标签,使用嵌套蒙特卡罗交叉验证(nMCCV)建模策略来克服过度拟合。
具体而言,对于每个受试者,在框1205处,可以将数据集以60:20:20的比例分成训练数据部分、验证数据部分和测试数据部分。在框1210处,可以使用训练集执行10折交叉验证Ridge-Cox(L2正则化Cox模型)以产生10个模型(具有相同的模型架构)。可以基于10折训练数据选择并存储10个生成模型中的特定模型。在框1215处,然后可以将特定模型应用于验证集以调整指定变量。例如,该变量可以识别风险分数的阈值。在框1220处,然后可以将阈值和特定模型应用于独立测试集以生成对受试者的投票,预测受试者是否被分级到较长或较短生存期群组中。数据拆分、训练、截止识别和投票生成(框1205至1220)可以重复N(例如,=1000)次。在框1225处,然后基于投票将受试者分配到较长生存期群组或较短生存期群组中的一者。例如,框1225处的步骤可以包括:通过确定哪个群组与多数投票相关联来将受试者分配到较长生存期群组或较短生存期群组。在框1230处,然后可以对较长/较短生存期群组受试者进行生存期分析。应当理解,基于目标结果将各种标签应用于数据的类似过程可以应用于任何合适的临床评价或合格性研究。
与将ACP对BCP意向治疗群体与总生存风险比(HR)0.85(95% CI 0.71-1.03)进行比较时的主要发现相比,所提出的方法在识别的ACP群组与BCP队列之间产生了明显的分隔,在该示例中HR=0.64(95% CI 0.45-0.91;图13)。需注意,总生存风险比1.0指示各队列的生存期在统计上是相同的。因此,在该描述的示例中,使用第二分析方法(在此期间基于空间统计和/或空间分布度量仅针对被预测具有较长生存期的一部分队列来计算统计量)确保的较低风险比表明:第二分析方法分析能够更好地识别治疗(ACP治疗)对其有效的受试者。因此,使用空间分布度量代表了对先前方法的改进。
在该示例的分析中使用的基于空间统计和空间分布度量的综合模型增强了分析流水线的能力,该分析流水线通过将组织病理图像建模为空间数据来生成关于(在这种情况下)肿瘤微环境空间异质性的系统级知识。结果表明,与护理标准相比,基于空间统计的方法可以对受益于阿特珠单抗治疗的受试者进行分级。这种效果不限于该示例中讨论的特定治疗评价。使用空间统计来表征组织病理图像和其他数字病理图像,在临床环境中可以用于预测治疗结果,从而为治疗选择提供信息。
本公开的一些实施例包括一种系统,该系统包括一个或多个数据处理器。在一些实施例中,该系统包括包含指令的非暂时性计算机可读存储介质,所述指令当在所述一个或多个数据处理器上被执行时,使所述一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部和/或本文公开的一种或多种过程的部分或全部。本公开的一些实施例包括一种有形地体现在非暂时性机器可读存储介质中的计算机程序产品,其包括指令,所述指令被配置为使一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部和/或本文公开的一种或多种过程的部分或全部。
已采用的术语和表达被用作描述性而非限制性的术语,并且在使用这些术语和表达时,无意排除所示出和描述的特征或其部分的任何等同物,但是应当认识到,在所要求保护的本发明的范围内,各种修改是可能的。因此,应当理解,尽管已通过实施例和任选特征具体地公开了所要求保护的本发明,但是本领域技术人员可以采用本文所公开的概念的修改和变化,并且认为这样的修改和变化在由所附权利要求限定的本发明范围内。
随后的描述仅提供优选的示例性实施例,并且不旨在限制本公开的范围、适用性或配置。相反,优选示例性实施例的随后描述将为本领域技术人员提供用于实现各种实施例的可行描述。应当理解,在不脱离所附权利要求中阐述的精神和范围的情况下,可以对元件的功能和布置进行各种改变。
在以下描述中给出具体细节以提供对实施方案的透彻理解。然而,应当理解,可以在没有这些具体细节的情况下实践实施例。例如,电路、系统、网络、过程和其他部件可以以框图形式显示为部件,以免在不必要的细节中混淆实施例。在其他情况下,可以在没有不必要的细节的情况下示出众所周知的电路、过程、算法、结构和技术以免混淆实施例。

Claims (20)

1.一种计算机实现的方法,其包括由数字病理图像处理系统:
访问描绘来自受试者的生物学样品的切片的数字病理图像;
在所述数字病理图像内检测:
第一组生物学对象描绘,所述第一组生物学对象描绘中的每一个描绘第一类型的生物学对象中的第一生物学对象;和
第二组生物学对象描绘,所述第二组生物学对象描绘中的每一个描绘第二类型的生物学对象中的第二生物学对象;
使用所述第一组生物学对象描绘和所述第二组生物学对象描绘来生成空间分布度量,其表征所述第一组生物学对象描绘相对于所述第二组生物学对象描绘的位置;
使用所述空间分布度量来生成与所述受试者的预测生物学状态或针对所述受试者的潜在治疗相对应的受试者级结果;以及
生成包括所述受试者级结果的显示。
2.根据权利要求1所述的计算机实现的方法,其中所述第一类型的生物学对象包括第一类型的细胞,并且其中所述第二类型的生物学对象包括第二类型的细胞。
3.根据权利要求2所述的计算机实现的方法,其中所述第一类型的生物学对象包括淋巴细胞,并且其中所述第二类型的生物学对象包括肿瘤细胞。
4.根据权利要求1所述的计算机实现的方法,其中所述数字病理图像描绘来自所述受试者的已用一种或多种染色剂处理过的所述生物学样品,所述一种或多种染色剂中的每一种增强所述第一类型的生物学对象或所述第二类型的生物学对象中的一者或多者的外观。
5.根据权利要求1所述的计算机实现的方法,其中生成所述空间分布度量包括:
针对所述一个或多个第一生物学对象描绘中的每一个第一生物学对象描绘,识别所述数字病理图像内与所述第一生物学对象描绘相对应的第一点位置;
针对所述一个或多个第二生物学对象描绘中的每一个第二生物学对象描绘,识别所述数字病理图像内与所述第二生物学对象描绘相对应的第二点位置;以及
基于所述第一点位置和所述第二点位置,确定所述空间分布度量。
6.根据权利要求5所述的计算机实现的方法,其中所述数字病理图像内的所述第一点位置指示所述第一生物学对象描绘的位置。
7.根据权利要求6所述的方法,其中通过以下来选择所述数字病理图像内的所述第一点位置:针对所述第一生物学对象描绘,计算平均点位置、形心点位置、中值点位置或加权点位置。
8.根据权利要求5所述的计算机实现的方法,其中生成所述空间分布度量进一步包括:针对所述一个或多个第一生物学对象描绘中的至少一些第一生物学对象描绘中的每一个以及针对所述一个或多个第二生物学对象描绘中的至少一些第二生物学对象描绘中的每一个,计算与所述第一生物学对象描绘相对应的所述第一点位置和与所述第二生物学对象描绘相对应的所述第二点位置之间的距离。
9.根据权利要求8所述的计算机实现的方法,其中生成所述空间分布度量进一步包括:针对所述一个或多个第一生物学对象描绘中的所述至少一些第一生物学对象描绘中的每一个,识别所述第二生物学对象描绘中与所述第一生物学对象描绘和所述第二生物学对象描绘之间的距离相关联的一个或多个。
10.根据权利要求1所述的计算机实现的方法,其中生成所述空间分布度量包括:
定义被配置成将所述数字病理图像的区划分为一组图像区域的空间点阵;
将所述一个或多个第一生物学对象描绘中的每一个第一生物学对象描绘分配到所述一组图像区域中的图像区域;
将所述一个或多个第二生物学对象描绘中的每一个第二生物学对象描绘分配到所述一组图像区域中的图像区域;以及
基于图像区域分配,生成所述空间分布度量。
11.根据权利要求10所述的计算机实现的方法,其中生成所述空间分布度量进一步包括:
确定所述一组图像区域中的包括第一生物学对象描绘的概率大于相邻图像区域的第一组一个或多个图像区域;
确定所述一组图像区域中的包括第二生物学对象描绘的概率大于相邻图像区域的第二组一个或多个图像区域;以及
进一步基于所述第一组图像区域和所述第二组图像区域,确定所述空间分布度量。
12.根据权利要求11所述的计算机实现的方法,其中生成所述空间分布度量进一步包括:
确定所述一组图像区域中的包括第一生物学对象描绘和第二生物学对象描绘两者的概率大于相邻图像区域的第三组一个或多个图像区域;以及
进一步基于所述第三组图像区域,确定所述空间分布度量。
13.根据权利要求1所述的计算机实现的方法,其中使用所述第一空间分布度量来生成与所述受试者的所述预测生物学状态或针对所述受试者的所述潜在治疗相对应的所述受试者级结果包括:
将针对所述数字病理图像生成的所述空间分布度量与针对先前数字病理图像生成的先前空间分布度量进行比较;以及
基于所述比较,输出针对所述先前数字病理图像生成的受试者级结果。
14.根据权利要求1所述的计算机实现的方法,其中生成所述受试者级结果包括:
基于使用经训练机器学习模型来处理所述空间分布度量以及所述第一组生物学对象描绘和所述第二组生物学对象描绘,确定针对所述受试者的诊断、预后、治疗建议或治疗合格性评价。
15.根据权利要求1所述的计算机实现的方法,其中所述空间分布度量包括:
基于K最近邻分析定义的度量;
基于Ripley K函数定义的度量;
Morisita-Horn指数;
莫兰指数;
基于相关函数定义的度量;
基于热点/冷点分析定义的度量;或
基于Kriging基分析定义的度量。
16.根据权利要求1所述的计算机实现的方法,其中:
所述空间分布度量为第一度量类型;
所述计算机实现的方法进一步包括:使用所述第一组生物学对象描绘和所述第二组生物学对象描绘来生成第二空间分布度量,其表征所述第一组生物学对象描绘相对于所述第二组生物学对象描绘的位置,其中所述第二空间分布度量为与所述第一度量类型不同的第二度量类型;并且
进一步使用所述第二空间分布度量来生成所述受试者级结果。
17.根据权利要求1所述的计算机实现的方法,其进一步包括:
接收来自使用者装置的包括所述受试者的或所述数字病理图像的标识符的使用者输入数据,其中基于接收的使用者输入数据来访问所述数字病理图像;并且
其中提供所述受试者级结果以供显示包括:向所述使用者装置提供所述受试者级结果。
18.根据权利要求1所述的计算机实现的方法,其进一步包括:
向所述受试者的使用者装置输出临床评估,所述临床评估包括针对所述受试者的诊断、预后、治疗建议或治疗合格性评价。
19.一种系统,其包括:
一个或多个数据处理器;以及
非暂时性计算机可读存储介质,其通信地耦合到所述一个或多个数据处理器并且包括指令,所述指令当由所述一个或多个数据处理器执行时,使所述一个或多个数据处理器执行包括以下各项的一个或多个操作:
访问描绘来自受试者的生物学样品的切片的数字病理图像;
在所述数字病理图像内检测:
第一组生物学对象描绘,所述第一组生物学对象描绘中的每一个描绘第一类型的生物学对象中的第一生物学对象;和
第二组生物学对象描绘,所述第二组生物学对象描绘中的每一个描绘第二类型的生物学对象中的第二生物学对象;
使用所述第一组生物学对象描绘和所述第二组生物学对象描绘来生成空间分布度量,其表征所述第一组生物学对象描绘相对于所述第二组生物学对象描绘的位置;
使用所述第一空间分布度量来生成与所述受试者的预测生物学状态或针对所述受试者的潜在治疗相对应的受试者级结果;以及
生成包括所述受试者级结果的显示。
20.一种或多种计算机可读非暂时性存储介质,其包括指令,所述指令当由一个或多个数据处理器执行时,使所述一个或多个数据处理器执行包括以下各项的操作:
访问描绘来自受试者的生物学样品的切片的数字病理图像;
在所述数字病理图像内检测:
第一组生物学对象描绘,所述第一组生物学对象描绘中的每一个描绘第一类型的生物学对象中的第一生物学对象;和
第二组生物学对象描绘,所述第二组生物学对象描绘中的每一个描绘第二类型的生物学对象中的第二生物学对象;
使用所述第一组生物学对象描绘和所述第二组生物学对象描绘来生成空间分布度量,其表征所述第一组生物学对象描绘相对于所述第二组生物学对象描绘的位置;
使用所述第一空间分布度量来生成与所述受试者的预测生物学状态或针对所述受试者的潜在治疗相对应的受试者级结果;以及
生成包括所述受试者级结果的显示。
CN202180036001.XA 2020-05-18 2021-05-17 针对数字病理图像的空间特征分析 Pending CN115668304A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063026545P 2020-05-18 2020-05-18
US63/026,545 2020-05-18
US202063077232P 2020-09-11 2020-09-11
US63/077,232 2020-09-11
PCT/US2021/032816 WO2021236547A1 (en) 2020-05-18 2021-05-17 Spatial feature analysis for digital pathology images

Publications (1)

Publication Number Publication Date
CN115668304A true CN115668304A (zh) 2023-01-31

Family

ID=76306054

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202180035995.3A Pending CN115668284A (zh) 2020-05-18 2021-05-17 基于空间特征分析的病理预测
CN202180036001.XA Pending CN115668304A (zh) 2020-05-18 2021-05-17 针对数字病理图像的空间特征分析

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202180035995.3A Pending CN115668284A (zh) 2020-05-18 2021-05-17 基于空间特征分析的病理预测

Country Status (6)

Country Link
US (2) US20230143860A1 (zh)
EP (2) EP4154164A1 (zh)
JP (2) JP2023531154A (zh)
KR (2) KR20230012524A (zh)
CN (2) CN115668284A (zh)
WO (2) WO2021236544A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220108442A1 (en) * 2020-10-02 2022-04-07 Leif E. Honda Identifying Morphologic, Histopathologic, and Pathologic Features with a Neural Network
US20220130542A1 (en) * 2020-10-22 2022-04-28 The Regents Of The University Of Michigan Using machine learning to assess medical information based on a spatial cell organization analysis
WO2023154573A1 (en) * 2022-02-14 2023-08-17 Bostongene Corporation Machine learning techniques for tertiary lymphoid structure (tls) detection
WO2023167448A1 (ko) * 2022-03-03 2023-09-07 주식회사 루닛 병리 슬라이드 이미지를 분석하는 방법 및 장치
WO2024076538A1 (en) * 2022-10-03 2024-04-11 Ventana Medical Systems, Inc. System and method for multimodal prediction of patient outcomes

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9865053B1 (en) * 2011-09-28 2018-01-09 Flagship Biosciences, Inc. Method for scoring pathology images using spatial statistics of cells in tissues
US20180089495A1 (en) * 2011-09-28 2018-03-29 Flagship Biosciences, Inc. Method for scoring pathology images using spatial analysis of tissues
GB201420859D0 (en) * 2014-11-24 2015-01-07 Cancer Res Inst Royal Tumour analysis
WO2019108230A1 (en) * 2017-12-01 2019-06-06 Flagship Biosciences Inc. Method for scoring pathology images using spatial analysis of tissues

Also Published As

Publication number Publication date
EP4154164A1 (en) 2023-03-29
US20230143860A1 (en) 2023-05-11
JP2023531144A (ja) 2023-07-21
EP4154163A1 (en) 2023-03-29
WO2021236547A1 (en) 2021-11-25
KR20230012524A (ko) 2023-01-26
JP2023531154A (ja) 2023-07-21
CN115668284A (zh) 2023-01-31
US20230140977A1 (en) 2023-05-11
WO2021236544A1 (en) 2021-11-25
KR20230011954A (ko) 2023-01-25

Similar Documents

Publication Publication Date Title
US11935152B2 (en) Determining biomarkers from histopathology slide images
CN115668304A (zh) 针对数字病理图像的空间特征分析
JP7406745B2 (ja) コンピュータ検出方法のための電子画像を処理するためのシステムおよび方法
US20220237788A1 (en) Multiple instance learner for tissue image classification
US11348661B2 (en) Predicting total nucleic acid yield and dissection boundaries for histology slides
US11348239B2 (en) Predicting total nucleic acid yield and dissection boundaries for histology slides
US11348240B2 (en) Predicting total nucleic acid yield and dissection boundaries for histology slides
Dodington et al. Analysis of tumor nuclear features using artificial intelligence to predict response to neoadjuvant chemotherapy in high-risk breast cancer patients
CN112543934A (zh) 一种确定异常程度的方法、相应的计算机可读介质和分布式癌症分析系统
CN115440383B (zh) 用于预测晚期癌症患者pd-1/pd-l1单抗治疗疗效的系统
Wetteland et al. Automatic diagnostic tool for predicting cancer grade in bladder cancer patients using deep learning
US20180089495A1 (en) Method for scoring pathology images using spatial analysis of tissues
Mohammed et al. The Spreading Prediction and Severity Analysis of Blood Cancer Using Scale-Invariant Feature Transform
Gu et al. A cloud-based deep learning model in heterogeneous data integration system for lung cancer detection in medical industry 4.0
CN115500851A (zh) 一种基于深度学习的早期肺癌风险分层预测系统
Shaikh et al. Automated lung cancer diagnosis using swarm intelligence with deep learning
Bhattacharyya et al. Medical Image Analysis of Lung Cancer CT Scans Using Deep Learning with Swarm Optimization Techniques
WO2019108230A1 (en) Method for scoring pathology images using spatial analysis of tissues
US20240104948A1 (en) Tumor immunophenotyping based on spatial distribution analysis
CN117377982A (zh) 基于空间分布分析的肿瘤免疫分型
Kumar et al. Classification of Lung Cancer using Alex-ResNet based on Thoracic CT Images.
Pachika et al. The Use of Artificial Intelligence in Lung Cancer Management
WO2024076538A1 (en) System and method for multimodal prediction of patient outcomes
Wang et al. Deep Learning-Enabled Ultrasound Radiomics for Accurate Prediction of Breast Cancer Lymph Node Metastasis
Tsuji et al. Automatic identification of circulating tumor cells in fluorescence microscopy images based on ANN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination