CN109952614B

CN109952614B - 生物粒子的分类系统和方法

Info

Publication number: CN109952614B
Application number: CN201780051805.0A
Authority: CN
Inventors: 卡洛斯·拉米雷斯; 史蒂文·卡达维德; 周金丹
Original assignee: Iris International Inc
Current assignee: Iris International Inc
Priority date: 2016-08-22
Filing date: 2017-08-22
Publication date: 2023-11-10
Anticipated expiration: 2037-08-22
Also published as: JP2022137166A; JP7104691B2; US20190228527A1; US20220335609A1; JP2019529882A; WO2018039216A1; US11900598B2; KR102469620B1; EP3500964A1; BR112019003144A2; KR20190043135A; CN109952614A; JP7465914B2; US11403751B2

Abstract

本发明提供了一种使用自动基于图像的特征提取和分类架构对生物样本中的细胞和粒子进行分类的方法和系统。方法通过将掩模或一系列掩模施加到图像、基于彩色像素的内容和位置从所述图像的未掩模部分提取特征、选择所述提取的特征的子集以及将所述提取的特征的所述子集映射到分类器架构中来操作。在大多数情况下，第一级模型架构提供所述细胞或粒子的准确识别。在少数情况下，所述细胞或粒子的所述分类需要第二级步骤，所述第二级步骤需要结合第二级模型使用来自所述第一级的数值或分类值。

Description

生物粒子的分类系统和方法

背景技术

包括细胞和粒子在内的生物粒子的识别和计数在包括血液状况的检测在内的许多研究和临床应用中是有用的。

自动生物粒子识别是一项需要以时间敏感的方式执行复杂操作的任务，通常在计算资源有限的硬件上执行。因此，重要的是，系统中的每一阶段都是高效的。自动生物粒子识别，特别是血细胞识别，通常是使用需要大量预处理的技术来完成的。这导致计算效率和描述能力之间的必要折衷。此外，由于此类复杂操作所需的大量因素，传统系统的分析和故障排除可能非常麻烦，甚至是不可能的。

因此，仍然需要改进的方法来减少计算要求，同时提高自动生物粒子分类的效率和准确性。本公开的实施方案解决这个问题和其他问题。

发明内容

本公开涉及包含自动基于图像的特征提取和分类架构的系统，该架构适用于生物样本中的生物粒子(包括细胞和其他粒子)的实时分类。该系统可以用作医疗诊断工具，并可以增强细胞和/或粒子的识别和定量。所公开的基于图像的分类系统包括四个主要步骤：图像采集、特征提取、特征选择以及使用级联分类器架构确定细胞或粒子的分类。为了分析生物样本中包含的细胞和/或粒子，可以首先收集或采集细胞或粒子的图像。利用这些图像，系统然后可以从各个图像中提取特定的数值或分类值或称为“特征”的特性。然后，系统可以在分析提取的特征时使用分层或级联分类架构。根据各种实施方案，在确定步骤中使用的级联分类器架构可包括两级分析。如果第一级分析的结果是不确定的，则可以对生物样本(例如血液样本)的提取的特征中的所选特征执行第二级分析。

在示例性架构中，生物样本的提取的特征的所选集合可以与从具有已知特性的细胞或粒子提取的特征的所选集合进行比较。在大多数情况下，比较(“第一级模型”)提供了细胞或粒子的准确识别。在少数情况下，细胞或粒子的分类需要进一步的步骤(“第二级模型”)来对细胞或粒子进行分类。该步骤可包括结合第二级模型使用来自第一级模型的数值或分类值。这种两级架构允许系统在第一级或第二级之后将每个图像精确地分配到一个类或类别中。

当与其他传统方法相比时，本文讨论的血液粒子特征选择和图像分类器架构系统和方法可以提供各种益处和优点。例如，本发明的实施方案提供了可以将特征提取计算复杂度保持在最小值的系统和方法。在一些情况下，复杂且昂贵的特征计算可能被推迟，直到细胞事件到达架构中需要特定特征的特定分类器。在许多情况下，大多数特征将不需要计算。特征提取可能是任何自动分类系统的昂贵阶段。本文公开的架构系统和方法引入了简单但强大的方法来平衡复杂度和性能。此外，分类器系统的级联架构可以是模块化的、可扩展的，并且易于后期分析。系统的输出可以很容易地追溯到各个分类器。可以很容易地重新训练或升级各个分类器，同时保持架构的其余部分不受影响。相比之下，许多传统方法由具有大量特征的单个分类器组成，这使得对架构的分析和故障排除变得非常麻烦，甚至不可能。本文公开的示例性系统和方法可以提供在特征选择阶段定义的级联架构中的处理顺序，该特征选择阶段使用训练数据中所有类别之间的可分性量度。可分性度量可以用于确定在分类工作流开始时哪个类别最容易处理。类别之间复杂的可分性情况可以留到级联的末尾。根据示例性系统和方法实施方案，分类器内的低级复杂度(1级)和高级复杂度(2级)之间的传递函数的特征可以允许两级之间的平滑过渡。由于在两级之间没有硬阈值，而是有连续过渡的事实，当处理特征值变化很小的类似图像时，这可以减少系统响应的可变性。

在一个方面，提供了确定生物样本中粒子的分类的方法，该方法包括：采集粒子的图像；在处理器系统处接收粒子的图像；以及使用处理器系统执行存储在非暂态计算机可读介质上的计算机可执行代码，该计算机可执行代码包括处理器系统上的指令。在一些实例中，当在处理器系统上执行时，指令导致处理器系统执行提取例程，该提取例程可包括基于图像的像素的内容和位置从图像中提取多个特征。在一些实例中，提取包括：将第一掩模施加到图像；基于施加第一掩模从图像采集第一组像素；以及从第一组像素确定所述多个特征。在一些实例中，映射包括执行映射例程，该映射例程包括将提取的特征的子集映射到分类器架构中。在一些实例中，映射包括：使用第一级模型将提取的特征的子集与先前存储的数据集进行比较；以及基于提取的特征的子集与先前存储的数据集的比较来识别初步分类。在一些实例中，映射包括使用第一级模型计算初步分类正确的概率值，并且还可包括当概率值等于或高于阈值时基于初步分类确定分类。

在一个方面，提供了确定生物样本中粒子的分类的方法，该方法包括：采集粒子的图像；基于图像的像素的内容和位置从图像中提取多个特征；选择提取的特征的子集；以及将提取的特征的子集映射到级联分类器架构中；使用第一级模型计算初步分类正确的概率值；以及当概率值等于或高于阈值时，基于初步分类确定分类。在一些实例中，提取包括：将第一掩模施加到图像；基于施加第一掩模从图像采集第一组像素；以及从第一组像素确定所述多个特征。在一些实例中，映射包括：使用第一级模型将提取的特征的子集与先前存储的数据集进行比较；以及基于提取的特征的子集与先前存储的数据集的比较来识别初步分类。在一些实例中，映射包括使用第一级模型计算初步分类正确的概率值，并且还可包括当概率值等于或高于阈值时基于初步分类确定分类。

在一些实例中，提取的方法包括将第二掩模施加到图像以采集第二组像素。在一些实例中，第一掩模和第二掩模可以是圆形的或环形的。在一些实例中，施加不同的掩模呈现不同的像素。在一些实例中，第一掩模和第二掩模可以以预定顺序施加。

在一些实例中，提取的方法包括将第一组像素聚类成一群。

在一些实例中，提取的方法包括从聚类的像素群创建调色板。

在一些实例中，提取的方法包括部分地基于调色板确定图像的标签。

在一些实例中，提取的方法包括将图像归一化到掩模尺寸。

在一些实例中，提取的方法包括将第一掩模归一化到单位幅度。

在一些实例中，提取的方法包括使用选择的颜色空间，该选择的颜色空间包括红-绿-蓝(RGB)色调-饱和度-值(HSV)、色调-饱和度-明度(HSL)或色调-饱和度-亮度(HSB)。

在一些实例中，提取的特征的选定子集包括训练特征、验证特征或测试特征。在一些实例中，提取的特征的子集被映射到级联分类器架构中。

在一些实例中，第一级模型是机器学习模型。

在一些实例中，映射的方法包括当概率值低于阈值时使用第二级模型来确定细胞或粒子分类。在一些实例中，第二级模型是机器学习模型。

在一些实例中，粒子可以是嗜中性粒细胞、淋巴细胞、单核细胞、嗜酸性粒细胞、嗜碱性粒细胞、未成熟白细胞、网织红细胞、具核红细胞、红细胞、上皮细胞、细菌、酵母或寄生虫。

在另一方面，提供了确定生物样本中粒子的分类的方法，该方法包括第二级模型。在一些实例中，第二级模型包括：在第二级模型处接收概率值；根据与细胞或粒子类别相关的分类性能创建值的排序列表；组合概率值和排序列表以创建第二级概率值；以及使用在第一级模型处确定的概率值和在第二级模型处确定的概率值来确定细胞或粒子分类。

在另一方面，提供了用于确定生物样本中的粒子分类的系统，该系统包括处理器和联接到处理器的计算机可读存储介质，该计算机可读存储介质包括可由处理器执行的代码，以用于实现方法，该方法包括：采集粒子的图像；基于图像的像素的内容和位置从图像中提取多个特征；选择提取的特征的子集；以及将提取的特征的子集映射到级联分类器架构中。在一些实例中，提取包括：将第一掩模施加到图像；基于施加第一掩模从图像采集第一组像素；以及从第一组像素确定所述多个特征。在一些实例中，映射包括：使用第一级模型将提取的特征的子集与先前存储的数据集进行比较；基于提取的特征的子集与先前存储的数据集的比较来识别初步分类；使用第一级模型计算初步分类正确的概率值；以及当概率值等于或高于阈值时，基于初步分类来确定分类。在一些情况下，计算机可读存储介质包括可由处理器执行的代码，以用于实现本文公开的方法中的任一方法。在一些实例中，系统使用数字显微镜相机。本发明的实施方案还包括非暂态计算机可读存储介质，其包括可由一个或多个处理器执行的程序指令，当被执行时，所述程序指令导致所述一个或多个处理器执行操作，该操作包括本文公开的方法中的任一方法。

在另一方面，提供了通过将提取的特征的子集映射到级联分类器架构中来确定生物样本中的粒子的分类的方法，该映射包括：使用第一级机器学习模型将提取的特征的子集与先前存储的数据集进行比较，其中提取的特征可以从图像中提取；使用第一级机器学习模型计算概率值；将概率值与预定的对照表进行比较；如果概率值等于或高于阈值，则确定细胞分类；如果概率值低于阈值，则使用第二级机器学习模型；根据它们与细胞或粒子类别相关的分类性能，使用第二级机器学习模型创建值的升序排序列表；组合概率值和值的排序列表以创建第二级分数；使用第二级分数来确定细胞分类。

参考以下说明书、权利要求书和附图，上述内容以及其他特征和实施方案将变得更加明显。

附图说明

图1A和图1B示出了可以用于实现本文公开的实施方案的示例系统和架构的框图。

图2示出了根据本发明的一些实施方案的示例性血细胞图像。

图3示出了根据本发明的一些实施方案的一组示例性二进制同心环掩模。

图4示出了根据本发明的一些实施方案的单个二进制环掩模的示例性聚类。

图5示出了根据本发明的一些实施方案的白细胞类型嗜碱性粒细胞和嗜酸性粒细胞的示例性特征直方图。

图6A和图6B示出了根据本发明的一些实施方案的细胞分类系统的示例性架构模型。

图7是示出根据本发明的一些实施方案的用于确定生物样本中的粒子的分类的方法的一个示例的流程图。

图8示出了根据本发明的一些实施方案的血液粒子图像、血液粒子类别和提取的特征的方面。

图9示出了根据本发明的一些实施方案的级联模型分类器架构。

图10示出了根据本发明的实施方案的分类器Clj的提议内部结构。

图11示出了根据本发明的实施方案的给定两个特征F₁和F₂的示例性1级分类器。

图12示出了根据本发明的实施方案的1级和2级分类器输出之间的示例性过渡函数。

具体实施方式

在以下描述中，出于解释的目的，阐述了具体细节以便提供对本发明的实施方案的透彻理解。然而，显而易见的是，可以在没有这些具体细节的情况下实践各种实施方案。例如，电路、系统、算法、结构、技术、网络、过程和其他部件可以以框图的形式示出为部件，以避免不必要的细节模糊实施方案。

应当理解，本发明的实施方案可包括比图中单独示出的部件更多或更少的部件。这些附图和描述并非旨在进行限制。

此外，应当注意，各个实施方案可以被描述为描绘为流程图、流程示意图、数据流图、结构图或框图的过程。尽管流程图可以将操作描述为顺序过程，但是许多操作可以并行或并发地执行。此外，可以重新安排操作的顺序。当其操作完成时，过程终止，但是可以具有未包括在图中的附加步骤。过程可以对应于方法、函数、程序、子例程、子程序等。当过程对应于函数时，它的终止可能对应于该函数返回给调用函数或主函数。

本公开涉及包含自动基于图像的特征提取和分类架构的系统，该架构适用于生物样本中的细胞和/或粒子的实时分类。

自动粒子分类系统可以用于分析生物样本，以确定样本中包含的一种或多种类型的细胞和/或粒子的组成和/或数量。这些系统通常包括血液分析器和流式细胞仪。例如，外周血中的细胞群体的分析包括检测和列举白细胞(WBC)的五种主要亚型的能力，这些亚型包括嗜中性粒细胞、淋巴细胞、单核细胞、嗜酸性粒细胞和嗜碱性粒细胞。例如，外周血中的主要红细胞(RBC)是网织红细胞和具核红细胞。这些细胞群体具有不同的形状和功能，并且样本中这些细胞群体的数量和存在可能因病理条件、细胞成熟度和其他因素而不同。细胞分类系统可以通过收集和分析当细胞通过由一个或多个仪器监控的小孔或测量区域时产生的信号来区分不同类型的细胞。自动细胞分类系统的有利方面包括基于其架构识别多种类型的细胞以及也识别由细胞处理或图像采集过程产生的伪像(例如，描绘旧的或受损的细胞的图像和失焦的图像)的能力。

血液学

血细胞分析是最常进行的医学测试之一，用于提供患者健康状况的概况。血液样本可以从患者体内抽取并存储在含有抗凝血剂的试管中，以防止凝血。全血样本通常包括三大类血细胞，包括红细胞(erythrocyte)、白细胞(leukocyte)和血小板(thrombocyte)。每类可以进一步划分为成员的亚类。例如，白细胞(WBC)的五大类型或亚类具有不同的形状和功能。白细胞可包括嗜中性粒细胞、淋巴细胞、单核细胞、嗜酸性粒细胞和嗜碱性粒细胞。红细胞类型也存在亚类。样本中粒子的外观可能根据病理条件、细胞成熟度和其他原因而不同。红细胞亚类可包括网织红细胞和具核红细胞。

在一些实施方案中，粒子选自嗜中性粒细胞、淋巴细胞、单核细胞、嗜酸性粒细胞、嗜碱性粒细胞、血小板、网织红细胞、具核红细胞(RBC)、原始细胞、早幼粒细胞、中幼粒细胞、晚幼粒细胞、红细胞(RBC)、血小板、细胞、细菌、粒状物、细胞团或细胞碎片或组分中的至少一种。

除非另外明确指出，否则在本公开中所提及的“粒子”或“多个粒子”将被理解为涵盖分散在流体中的任何离散的或成形的对象。如本文所用，“粒子”可以包括生物流体中的所有可测量的和可检测的(例如，通过图像和/或其他可测量的参数)组分。粒子具有任何材料、任何形状和任何尺寸。在某些实施方案中，粒子可以包括细胞。粒子的示例包括但不限于细胞，包括血细胞、胚胎细胞、上皮细胞、干细胞、肿瘤细胞或细菌、寄生虫或前述任何一个的碎片或生物流体中的其他碎片。血细胞可以是任何血细胞，包括可能存在于生物流体中的任何正常或异常、成熟或未成熟的细胞，例如红细胞(“RBC”)、白细胞(“WBC”)、血小板(“PLT”)和其他细胞。这些成员还包括未成熟或异常细胞。未成熟的WBC可包括晚幼粒细胞、中幼粒细胞、早幼粒细胞和原始细胞。除了成熟的RBC之外，RBC的成员可包括具核RBC(“NRBC”)和网织红细胞。PLT可包括“巨型”PLT和PLT团。在整个说明书中，图像被描述为细胞或粒子的图像。尽管在许多情况下被称为细胞，但这些图像可以是任何粒子的图像。

示例性粒子可以包括生物流体样本中形成的元素，包括例如球形和非球形粒子。在某些实施方案中，粒子可以包括非球形组分。在一些实施方案中，血小板、网织红细胞、具核RBC和WBC，包括嗜中性粒细胞、淋巴细胞、单核细胞、嗜酸性粒细胞、嗜碱性粒细胞和未成熟的WBC，包括原始细胞、早幼粒细胞、中幼粒细胞或晚幼粒细胞作为粒子进行计数和分析。

尿分析

示例性尿液粒子可以包括尿液沉积粒子。示例性尿液沉积粒子可以包括红细胞(RBC)、异性红细胞、白细胞(WBC)、嗜中性粒细胞、淋巴细胞、吞噬细胞、嗜酸性粒细胞、嗜碱性粒细胞、鳞状上皮细胞、移行上皮细胞、诱饵细胞、肾小管上皮细胞、管型、晶体、细菌、酵母、寄生虫、椭圆形脂肪体、脂肪滴、精子、粘液、毛滴虫、细胞团以及细胞碎片。示例性细胞可以包括红细胞、白细胞和上皮细胞。示例性管型可以包括非细胞色素管型、未分类管型(例如，粒状管型)。示例性非细胞管型可以包括例如蜡状管型、宽管型、脂肪管型和晶体管型。示例性细胞管型可以包括例如RBC管型、WBC管型和细胞管型。示例性晶体可以包括例如草酸钙、三聚磷酸盐、磷酸钙、尿酸、碳酸钙、亮氨酸、胱氨酸、酪氨酸和无定形晶体。示例性非鳞状上皮细胞可以包括例如肾上皮细胞和移行上皮细胞。示例性酵母可以包括例如出芽酵母和具有假菌丝的酵母。示例性尿液沉积粒子还可以包括RBC团、脂肪、椭圆形脂肪体和毛滴虫。

该系统可用于例如表征生物流体中的粒子，诸如检测和量化红细胞(RBC)、异形红细胞、白细胞(WBC)、嗜中性粒细胞、淋巴细胞、吞噬细胞、嗜酸性粒细胞、嗜碱性粒细胞、鳞状上皮细胞、移行上皮细胞、诱饵细胞、肾小管上皮细胞、管型、晶体、细菌、酵母、寄生虫、椭圆形脂肪体、脂肪滴、精子、粘液、毛滴虫、细胞团以及细胞碎片，分类和次类划分，计数和分析。

将细胞和/或粒子图像分配到不同的类或类别可能是一项复杂的计算任务。虽然可以通过自动化系统进行一些分析和比较，但是并非所有细胞和/或粒子的图像都足够清晰，或者与具有已知特性和/或性质的细胞和/或粒子的图像足够相似，以便自动化正常或有效地工作。提取的特征可以具有不同程度的计算复杂度。在许多情况下，细胞和/或粒子可以使用少量或复杂的提取特征来分类，例如通过使用基于颜色的特征。通常，基于颜色的特征是一项快速的计算任务，而纹理和形状特征是一项缓慢的计算任务，并且可能会对实时分类产生约束。实时分析约束涉及这样的事实，即粒子流的处理可能需要在某个预期时间内结束，以便采集系统满足预定的吞吐量要求。然而，在某些疾病状况或与系统相关的变化(染色、病灶、细胞老化等)下，可能需要具有更高复杂度的附加特征和因此需要更大计算任务的特征来正确识别合适的细胞和/或粒子类别。由于时间和/或计算约束，对所有需要识别的粒子都使用高度复杂的特征并不总是可行的。本文的实施方案提供了分类架构，其可以适用于细胞和/或粒子(例如血细胞和/或粒子)的实时分类。

更具体地，实施方案可以提供系统，该系统可以用作医疗诊断工具，并且可以增强细胞和/或粒子的识别和定量。所公开的基于图像的分类系统包括四个主要步骤：图像采集、特征提取、特征选择以及使用级联分类器架构确定细胞或粒子的分类。为了分析生物样本中包含的细胞和/或粒子，可以首先收集或采集细胞和/或粒子的图像。利用这些图像，系统然后可以从各个图像中提取特定的数值或分类值或称为“特征”的特性。然后，系统可以在分析提取的特征时使用分层或级联分类架构。根据各种实施方案，在确定步骤中使用的级联分类器架构可包括两级分析。如果第一级模型的结果是不确定的，则可以对生物样本(例如血液样本)的提取的特征中的所选特征执行第二级分析。

图像采集

在一些实施方案中，系统可包括用于收集或采集粒子的图像的分析器。在一些实施方案中，分析器可以是视觉分析器。在一个方面，本公开涉及自动粒子成像系统，其中使包含感兴趣粒子的液体样本流过具有视口的流动池，高光学分辨率成像设备通过该视口捕获图像。在一些方面，高光学分辨率成像设备包括诸如数码相机的相机。在一个方面，高光学分辨率成像设备包括物镜。有助于捕获具有高分辨率图像的示例性图像采集技术已经在其他申请中进行描述并且全文以引用方式并入，包括2014年3月17日提交的标题为“ANALYSIS OF PARTICLES IN FLUID SAMPLES”的专利申请No.14/216,811和2015年9月11日提交的标题为“HEMATOLOGY SYSTEMS AND METHODS”的专利申请No.14/775,448。图像采集的另外的方面可包括但不限于图像的预处理，以去除噪声和/或补偿照明的变化。

图1A示出了根据本发明的实施方案的可用于执行自动细胞或粒子识别的示例系统100的框图。系统100可包括各种部件，包括计算设备110和分析器115。分析器115可以通过例如捕获体液细胞图像的体液系统(如于2015年9月11日提交的标题为“HEMATOLOGYSYSTEMS AND METHODS”的专利申请No.14/775,448中详细所述)收集生物粒子和/或细胞的图像。系统100可以通过级联分类器架构来执行特征提取、特征选择和分类，并且可以使用在该分析中确定的信息对细胞和/或粒子进行分类。用于分类的图像可以存储在存储装置180中和/或由计算机从外部设备或数据库接收。例如，分析器115可以收集图像并将它们存储在存储装置180中。参考图像可以通过分析器115和/或通过其他捕获方法收集以用于比较并可以存储在存储装置180中。系统100可包括计算设备110，计算设备110可以是例如台式计算机、膝上型计算机、平板电脑、电子阅读器、智能电话或移动设备、智能手表、个人数据助理(PDA)或其他电子设备。计算设备110可以在云计算环境中。计算设备110可以由用户使用。计算设备110可包括处理器120，该处理器经由总线130与其他硬件连接。系统100优选地包括存储在计算设备110的存储器140上的一个或多个软件程序或指令145。指令145可以操作来执行级联分类器架构，诸如图1B所示的级联分类器架构185。软件程序可以存储在系统100的机器可读存储器140中。术语“存储器”在本文中旨在包括各种类型的存储器，包括：安装介质，例如CD-ROM或软盘；计算机系统存储器，诸如DRAM、SRAM、EDO RAM、Rambus RAM等；或非易失性存储器，诸如磁介质，例如硬盘驱动器或光学存储装置。存储器140也可包括其他类型的存储器或其组合。存储器140可以体现配置计算设备110的操作的程序部件(例如，指令145和/或级联分类器架构185)。在一些示例中，计算设备110可包括输入/输出(“I/O”)接口部件150(例如，用于与显示器160、监视器165或键盘170或鼠标连接)和存储装置180。存储装置180可以存储来自相机输入的样本图像以及用于分析的参考图像。在一些实施方案中，参考图像可以用作级联分类器架构的神经网络实现的训练数据。存储装置180可包括任何合适的数据库，包括例如SQL />数据库、/>数据库或电子表格。

计算设备110还可包括网络部件190。网络部件190可以表示促进网络连接的任何部件中的一者或多者。在一些示例中，网络部件190可以促进无线连接并且包括无线接口，诸如IEEE 802.11、蓝牙或用于接入蜂窝电话网络的无线电接口(例如，用于接入CDMA、GSM、UMTS或其他移动通信网络的收发器/天线)。在其他示例中，网络部件190可以是有线的并且可包括接口，诸如以太网、USB或IEEE 1394。

另外，存储介质180可以位于其中可以执行程序的第一计算机中，或者可以位于通过网络190连接到第一计算机的第二不同计算机中。在网络190的实例中，第二计算机可以向第一计算机提供程序指令145以供执行。尽管图1A描绘了具有单个处理器120的单个计算设备110，但是系统100可包括任意数量的计算设备110和任意数量的处理器120。例如，多个计算设备110或多个处理器120可以分布在有线或无线网络上(例如，广域网、局域网或互联网)。多个计算设备110或多个处理器120可以单独地或彼此协调地执行本公开的任何步骤。

图1B示出了示例性级联分类器架构185。级联分类器架构可以包含两级模型，并且能够执行两级分析。在一个示例中，第一级模型187可以提供细胞或粒子的精确识别，或者级联分类器架构185可以进一步使用第二级模型189来提供细胞或粒子的精确识别。第二级模型189可包括结合第二级模型189使用来自第一级模型187的数值或分类值。当第一级模型187的输出不清楚或不确定时，可以使用第二级模型189。级联分类器架构185中用于分析的图像可以来自存储装置180，或者直接来自分析器115，可以输入到第一级模型187。如有必要，同样的内容可以输入到第二级模型中。第一级模型187的输出可以被输入到第二级模型189。

图2示出了可以用于本文公开的系统和方法中的样本血细胞图像200-270。如本文所用，n是指第一行205中所示的血液粒子图像P的数据集，其中对应的目标标签T将每个粒子识别为对应的类别。如本文所用，m是指图像P_i可以分配到的第二行215中示出的不同血液粒子类别C(即，NRBC、淋巴细胞、RBC、嗜中性粒细胞等)，其中1≤i≤n。如本文所用，字母“k”用于表示属于一组“m”个可用类别的单个类别。

特征提取

特征提取旨在减少在一组类别中进行分析和判别所需的数据量。该过程可以将大量信息解释或总结为值，该值稍后可以用于进行确定。提取的特征可包括与数据的特定特性相关的数值。例如，在图像中，代替使用所有颜色作为级联分类器架构的输入，可以提取所有颜色的均值和标准差作为特征。在图像处理中，特征提取可能具有不同程度的计算复杂度。高度复杂的提取程序可能涉及图像分割，以隔离感兴趣的区域，并防止在该区域进行冗长的计算操作，同时仍然提取有意义的信息。简单的提取程序可能涉及形状特征，包括但不限于面积、周长和圆度。提取程序可能涉及梯度轮廓以检测边缘。提取简档可能涉及颜色强度、直方图颜色均值、模式、标准差或颜色阈值。提取程序可以意味着通道红和通道绿之间、通道红和通道蓝之间和/或通道绿和通道蓝之间的直方图差异或比率。

在一些实例中，图像可以具有成千上万条信息(例如数据点)，这些信息可以被提取为特征。在一些实例中，图像可以由三个彩色图像组成：一个红色图像、一个绿色图像和一个蓝色图像。

在用于确定生物样本中的细胞或粒子分类的系统100中，如本文所述，图像的特征可以被提取并存储在计算设备的存储器140中，因此原始图像不需要长期存储在分析器115中。因此，当确定细胞或粒子类型时，图像可以仅由提取的特征来表示。根据本文描述的特征提取方法，颜色空间量化方法可以用于从图像中提取一组独特的颜色特征。这种方法可以不实时地(也称为在离线阶段)执行大部分计算。在离线阶段，可以在比获得图像时更晚的时间存储和分析图像。这优于其他特征提取方法，因为离线处理不使用计算任务能量，从而导致更快的在线处理。因为离线处理不受时间的严重限制，计算代价高昂的复杂数学变换的计算和提取可以产生更好的判别特征。在一些实例中，特征提取可以部分或全部离线进行。在一些实例中，特征提取可以部分或全部在线进行。

特征提取方法可以基于图像中的颜色的位置和值创建“颜色特征签名”。颜色特征签名可包括通过累加属于每个调色板颜色的像素数量而获得的直方图。为了提取每个生物粒子的颜色特征签名，可以构建与不同生物粒子类型的图像的选定区域中最具代表性的颜色相对应的调色板。在一些实例中，特征提取可包括将第一组像素聚类成一群。每个像素可以被分配给调色板中最接近的颜色。得到的颜色特征签名可以是具有调色板中每种颜色的幅度值的直方图。

在一个实施方案中，为了结合位置和颜色信息，颜色空间量化方法可以创建由各个同心环组成的一组R个二进制掩模。图3示出了R360的示例。当使用同心环掩模300-350时，细胞的所得图像平面投影通常将为圆形形状。环掩模300-350可以是各向同性的，因此使用环导出的特征签名可以是旋转不变的。在成像系统中，当到被成像的细胞和/或粒子的距离固定时，尺度不变性可能是固有的。每个环掩模100-150的质心可以是动态的，并且由诸如强度或熵的图像中的特征确定。在最简单的情况下，位置可以是固定的，并被限定为图像100的中心。这实现了特征签名的平移不变性。

R 360中的环掩模300-350的宽度和数量r可以基于最终分类性能启发式地选择。每个环掩模300-350可以用于过滤来自原始细胞图像的像素。组360中的掩模可以任何顺序施加。一旦为组360选择了掩模的顺序，就可以使用相同的预定顺序并将其应用于图像分析。组360中的掩模不一定显示图像的相邻区域，但是可以显示图像的相邻区域。为了将环掩模300-350施加到细胞图像，可以首先将细胞图像归一化为环掩模300-350的尺寸。落入每个环掩模300-350中的像素然后可以在选择的颜色空间(即红-绿-蓝(“RGB”)色调-饱和度-值(“HSV”)、色调-饱和度-明度(“HSL”)等)中被提取和分析。

在一个实施方案中，RGB颜色空间可以被选择为掩蔽细胞图像的分析空间。在此类实施方案中，在给定一组环掩模300-350的情况下，提取调色板的过程首先将所有细胞图像P_i归一化为环掩模R_l的尺寸，以能够将掩模施加到细胞图像。在这种归一化中，PCj可以表示所有归一化细胞图像P_i的集合，其中训练集中的对应目标标签T_i等于血细胞类别C_j，1≤j≤m。

对于每个血细胞类别C_j，为了避免由每个P^Cj中的细胞图像的不同计数导致的偏差，可以在P^Cj中选择细胞图像的随机子集，

其中子集的大小n_γ等于整个P^Cj的细胞图像的最小数。

对于每个环掩模R_l，1≤1≤r

用环掩模R_l掩蔽γ^Cj中的所有细胞图像

由掩蔽的细胞图像中保留的像素形成一组RGB像素V^l。

对于每个环掩模R_l，1≤1≤r

对于R_l中的每组像素V^l

将V^l聚类成h群，导致h个聚类中心的集合1≤j≤h；

创建环调色板创建最终调色板PLT＝{PLT₁，PLT2，...，PLT_r}

图4示出了HSV颜色空间中给定环掩模的聚类过程的示例，其中图中的X 400表示聚类的中心，并且每种颜色与属于细胞类别的像素相关联，s轴410表示饱和度分量，h轴420表示色调分量，并且v轴430表示值或亮度。属于给定类别的像素还可以通过使用诸如颜色的其他视觉提示来识别。每个细胞类别可以由训练集中不同数量的图像(例如参考图像)来表示。为了减少朝向训练集中具有更大表示的特定细胞类型的偏差，可以从跨细胞类别的相等数量的训练集图像中采样用于聚类的颜色样本。在该示例中，不同的细胞类别(由不同的颜色标识)在颜色空间中占据与其他细胞类别不同的位置，此外，每个细胞类别在图中具有不同的分布。

可以对照调色板评估训练集或训练特征，以便为每个图像创建相应的颜色直方图。训练数据或参考图像可以是先前存储的数据集。图5示出了白细胞类型嗜碱性粒细胞500和嗜酸性粒细胞510的特征直方图的示例。数据可以被分成称为箱的区间，箱可以用直方图上的竖直矩形表示。直方图中对应于每组聚类中心的每个箱可以成为级联分类器架构185的输入特征(例如，图6A所示的输入特征610)。在在线(也称为实时处理)特征提取过程中，可以通过使用查找表或其他索引方法(例如k维树)存储颜色空间和生成的调色板之间的映射来加速颜色量化。在一些实例中，随着掩模300-350中的环的直径变大，更多数量的像素可以保留并贡献于对应的直方图。因此，环掩模300-350可以产生具有不同样本计数的直方图。使用此类直方图进行分类可能引入朝向直径较大的环掩模300-350的偏差，因为这些环掩模300-350的样本计数可能更大。为了解决这个问题，可以将每个直方图向量归一化为单位幅度。

特征归一化

特征向量归一化方案的示例包括L2范数、L1范数、L2范数后截短和L1范数后开平方等。在外部实现中，选择L2范数方案用于直方图向量归一化。令h为未归一化直方图向量，则归一化直方图向量被定义为：其中/>是向量h的L2范数。

将图像归一化为通用掩模尺寸可以丢弃图像之间的相对尺寸信息。图像宽度可以作为最终特征附加到特征向量上，以保存细胞或粒子尺寸信息。提取的特征可以用诸如梯度、熵等的附加形态学特征进行扩增，以补充颜色空间中可用的提取信息。

特征选择

特征选择，也称为子集选择或变量选择，是机器学习中用来从数据集中所有可用特征中选择特征子集的方法。它在应用学习算法之前被用于机器学习，因为使用数据集中的所有可用特征在计算上是不可行的。当数据集包含含有大量特征的有限数据样本时，特征选择也可以最小化估计和过度拟合的问题。例如，细胞图像可能包含数千个特征，这些特征可能并不都适于分析。特定特征的选择可能取决于系统的规格。特定特征的选择可能取决于特定系统内提取的速度要求。提取的特征可包括用于训练、验证和/或测试的特征(即，“训练特征、验证特征或测试特征”)。

分类器架构

分类器架构是控制分类器状态之间转换的一组规则。在一些实例中，分类器可包括评估或处理阶段的级联，诸如第一级模型和第二级模型。在示例性实施方案中，第一级模型可以以0和1之间的置信度的形式生成意见。如果置信度等于或高于某个阈值，则可以做出关于成像粒子或细胞身份的决策。在示例性实施方案中，如果置信度低于某个阈值，则信息可以被发送到第二级模型。第二级模型可以使用比第一级模型更复杂程度的特征，包括在一些实例中决策树的随机森林，结合来自第一级模型的置信度，来做出关于成像粒子或细胞身份的决策。图6A示出了包括第一级模型600和第二级模型640的示例性级联分类器架构650。

在分类器架构(例如，示例性级联分类器架构650)中，可以使用适当的可分性量度来选择提取的特征子集，并且可以构建最终数据集。数据可以合并在表格中，其中每行对应于特定的细胞(因此对应于细胞图像)，而“特征”列对应于与对应的细胞类别相关联的独特特征，如示例性表1所示。在表1中，“类别”列用于定义每种细胞的“真实”标签或类的目的。

表1

在示例性实施方案中，数据集可以被分成3个子集：训练集、验证集和测试集。训练集可包括来自已经由一个或多个人类专家分类和编码的图像的训练特征。该编码(称为人类参考编码)可以用于训练分类器(作为训练数据集)和/或可以用作验证数据集。在训练第一级模型600之后，训练和验证特征或数据可以用于评估CL第一级模型600的性能。测试集可包括未表征细胞和/或粒子的图像。

在图6A所示的架构模型650的示例性实施方案中，数据起到关键作用，因为它基于其复杂度定义了架构的部件。在图6A所示的示例性实施方案中，架构由两级分析部件组成。在第一级模型600中，通用分类器被训练以匹配训练数据。在第二级模型640中，专用分类器为在第一级模型的验证期间识别的难以分类的样本630提供第二意见。

分类器架构的第一级模型

在示例性实施方案中，架构的第一级(L1)模型600可以由分类器模型CL组成。分类器CL可以是能够将一组输入特征610映射到由训练数据集定义的已知类标签的任何机器学习模型。适用于这种架构的机器学习模型的示例可以是随机森林、多类支持向量机(SVM)、前馈神经网络(FNN)等。

在示例性实施方案中，可以选择随机森林机器学习模型，以将输入特征向量映射到训练数据集中定义的血细胞类别C_j,1≤j≤m之一中。在一些实例中，随机森林可以是由多个决策树组成的集成分类器，每个决策树可以在训练集的不同部分上训练。随机森林的最终分类决策可以是各个树的分类决策的模式。与单一决策树分类器相比，随机森林的优势在于，随机森林不太容易过度拟合训练集，因为随机森林分类决策是多个独立训练的决策树的聚合响应。在一些实例中，随机森林机器的树可以使用80％的数据进行训练。在一些实例中，随机森林包括64颗树。

在一些实例中，可以使用图6B的自举聚合(装袋)技术来训练随机森林。给定细胞图像的训练集P_i和对应的目标标签T_i，对于B次迭代，装袋技术重复选择随机样本，替换训练集。得到的B样本集可以用于训练B决策树，形成随机森林CL。通过替换采样，一些训练样本可以在样本集中重复。这种采样策略称为自举采样，在不增加偏差的情况下，减少了训练的分类器的方差(即，对过度拟合的敏感性)。在一些实例中，CL的输出是一组分数M＝{μ₁,μ₂,…,μ_j…,μ_m}625，每个类别一个，其中μ_j是实数。μ_j的大值表示归属于特定的细胞类。在此上下文中，分数μ_j越高，输入特征610越可能属于细胞类别j，并且该评估的不确定性越小。因此，输入特征610的初步类别标签最初可以由对应于M 625中的最大值μ_j的类别给出。

在训练第一级模型600之后，训练数据和验证数据都可以用于评估CL第一级模型600的性能。对于给定的输入特征向量F_i，可以为每个输入细胞图像P_i获得具有对应M分数的预测类标签L_i。该信息然后可以被用作第二级模型640的设计过程的输入。

分类器架构的第二级模型

该组M_i分数625可以通过第一级模型600分析以建立正确细胞初步分类的概率。正确初步分类的概率可以通过使用一级预测类标签L_i、人类专家目标标签T_i和一级M_i分数625来估计。预期最大μ_j接近0.5的M_i分数625将与一级中正确初步分类值的低概率相关联。

以下等式可以应用于计算类别对{C_j,C_k}的正确初步分类概率P_r的矩阵：

给定类别对{C_j,C_k}，1≤j≤m,1≤k≤m,j≠k

正确分类的概率可以计算为

其中

可以采用∑Pos_i的最小值来避免在低∑Pos_i值时结果的偏差。表2提供了给定训练和验证数据集上两种细胞类别(即嗜中性粒细胞和嗜酸性粒细胞)的的计算示例。假设所有正嗜中性粒细胞和嗜酸性粒细胞数据子集的子集都有该子集的对应的预测类标签L_i、目标标签Ti和M分数，则可以构建∑TPOS_i和∑Pos_i的矩阵来找到Pr_{{Neutrophil,Eosinophil}}。

表2

在表2的示例中，当概率大于或等于98％时，产生M分数625的细胞，不需要使用第二级模型640。此外，产生接近0.5的M分数625的细胞可能不太可能在第一级模型中生成正确的初步分类。由一级CL分类器600提供的嗜中性粒细胞分数＝0.5和嗜酸性粒细胞分数＝0.4在决策中产生最高程度的不确定性，灵敏度为40.6％。嗜中性粒细胞和嗜酸性粒细胞的分数为了分级目的而四舍五入。

表2中例示的概率矩阵具有至少两个主要目的。首先，该矩阵可以用于建立类别对{C_j,C_k}的不确定性的总体量度。其次，与/>中的低或高概率值相关联的训练和验证数据集中的细胞图像可以被选择作为用于训练级联分类器架构的第二级部件640的候选。为了建立不确定性的总体量度，可以计算每个/>上的所有概率值的总和。具有较大总和值的类别对将具有与其判别相关联的较少的不确定性。更详细地说，对于每个类别C_j，为1≤k≤m,j≠k创建/>值的升序排序列表/>排序列表顶部的类别对应于相对于类别C_j具有最低分类性能的类别。在一些情况下，当对的特定组合容易判别并且在训练或验证数据集中没有发现分类错误时，可能会有空列表。表3示出了排序列表/>的示例。

C_j	第一	第二	第三
				NEUT	PYKN	MONO	EOSN
LYMP	BASO	ATYP	MONO
				MONO	LYMP	NEUT	ATYP
EOSN	NEUT	PYKN	LYMP
				BASO	LYMP
BAND	NEUT
				META	NEUT	MYLO

表3

在表3的示例中，一级分类器在试图辨别嗜中性粒细胞和固缩(老化)细胞时生成较高的错误率，而针对单核细胞或嗜酸性粒细胞的初步分类错误较少。

利用由和/>提供的信息，可以定义第二级模型640。对于每个非空列表根据数据可用性创建第二级模型640。每个专用分类器仅利用与/>中定义的低分类率相关联的数据进行训练。在训练之前，使用选择的训练数据的子集执行新的特征选择过程。第二级模型640中使用的特征可以不同于第一级模型600中使用的特征。它们的复杂度和计算成本在大多数情况下可能更高，以便在图像中捕获更多细节。这种复杂度的增加通过具有能够处理大多数细胞和粒子类型的第一级模型600，并将第二级模型640留给最棘手但罕见的情况来平衡。实际上，并非所有类别都具有第二级模型640专用分类器，因为这些情况下可用的数据可能不够，或者第二级模型640的性能可能不会提高第一级模型600的性能。

在训练完成后，专用的第二级模型640可以提供第二分数M_2,k，该第二分数可以与第一级模型600的初步分类分数625组合660，以提供最终类标签670。图6B示出了示例性级联分类器的架构。

在示例性架构中，每个二级分类器可以由与第二级模型640相关联的分类器CL_2,j645和传递函数f 660组成。分类器CL_2,j 645可以是能够将新的一组输入特征映射到已知类标签的任何机器学习模型。适用于这种架构的机器学习模型的示例可以是支持向量机(SVM)、前馈神经网络(FNN)、随机森林等。分类器CL_2,j 645可以被训练以将输入特征向量分配到细胞类别中的任一个。CL_2,j 645的输出可以由每个分类器上的传递函数f 660的值确定。

传递函数f 660可以用于组合来自第一级模型600的M分数625、概率值和CL_2,j645输出分数的目的。函数f 660可以被设计成提供连续的实值，该实值考虑了来自第一级模型600和第二级模型640两者的分类分数。函数f 660的高值可以被解释为初步类别标签j作为最终类别标签670的确认。以下是一级分类器和二级分类器之间传递函数的示例：

为了进一步说明本公开的方法和系统，在图7中用图表描绘了在系统100上执行的示例方法。在图7中，图像被采集710，提取的特征720的子集被选择750并映射到第一级模型架构760中。第一级模型架构760可以将概率值与预定的对照表进行比较，如果概率值等于或高于阈值，则确定细胞分类770，或者如果概率值低于阈值，则使用第二级模型架构780。第二级模型架构可以根据与血细胞类别相关的分类性能组合创建值的排序列表，组合概率值和排序列表以创建第二级概率值，并且使用所述概率值和第二级概率值来确定细胞分类790。图7的特征提取720可以是本公开中以上描述的方法中的任一方法，包括图3-图6中描绘的或结合图3-图6描述的那些方法。类似地，图7的第一级分类器760和第二级分类器780可以是本公开中以上描述的任何分类器，包括图6A-图6B中描绘的或结合图6A-图6B描述的分类器。

在一些情况下，本发明的系统和方法实施方案涵盖粒子图像分类技术，诸如本文别处描述的那些。

本公开的分层或级联模型的优点包括将分析限制于特征的较小子集的优点。这可能需要较少的特征提取，并且可以允许更容易地找出错误分类的原因。在本公开中，根据由低维度(即，少量输入特征)分类器组成的架构来解决分类问题可以潜在地允许在2D或3D图中可视化(即，绘制)特征值的相互作用，这继而帮助分类器设计者更好地理解和领悟由包括但不限于SVM和FNN的训练算法产生的决策函数。该系统的两步架构允许更集中、更快的处理，并进一步允许系统为其他操作保留处理资源。

本公开的另一个优点是可以更好地控制架构复杂度。在分类任务的早期或后期阶段，可能会引入架构复杂度。在大多数情况下，图像的大多数特征将不需要被提取或确定。在大多数情况下，特征选择可能会被推迟到级联架构内的随后阶段。为了准确地解决分类问题，单个复杂的分类器可能必须在单个步骤或遍次中包括或使用所有的判别特征。分类器模型的后续组合和/或这些特征以最佳方式的使用可能因此不可避免地非常复杂，并且可能不是线性的。在这种方法中，计算上廉价(也称为简单或不昂贵)的特征可以用于对大部分生物粒子进行分类。在一些情况下，使用计算上廉价的特征可能是对粒子进行分类所需要的全部特征。如果某些生物粒子存在分类错误，那么对于那些计算上廉价的特征不能够识别的生物粒子，可以选择和提取更精细(也称为复杂)的特征(对于“更容易”的大群来说，这可能实际上并不有用)。一般来说，这也可以使架构更容易理解。该模型还可以跨分类器使用公共或共享特征来进一步降低复杂度。

本公开的另一个优点是分类器系统的级联架构是模块化的、可扩展的并且易于后分析。系统的输出可以追溯到各个分类器。可以重新训练或升级各个分类器，同时保持架构的其余部分不受影响。通过具有专门的分类模块，可以根据需要重新训练——一次训练一个特定的模型。例如，如果收集了与特定细胞状况相关的新数据(即，固缩的嗜中性粒细胞)，那么固缩的嗜中性粒细胞-嗜酸性粒细胞二级分类器可以被重新训练，而不会影响架构中的其他模块。

本公开的另一个优点是分类器的第一级和第二级之间的传递函数的概念允许两级之间的平滑过渡。由于在两级之间没有硬阈值，而是有连续过渡，当处理特征值变化很小的类似图像时，这减少了系统响应的可变性。

另外和相关的示例性实施方案

血液粒子图像可以使用数字显微镜相机捕获，并进一步分析以用于分类目的。将血液粒子图像分配到不同的类或类别可能是一项昂贵的计算任务。它可以涉及从血液粒子图像中提取被称为特征的数值或分类值。这些特征可以具有不同程度的计算复杂度。通常，基于颜色的特征计算速度较快，而纹理和形状特征较慢，并且可能会对实时分类产生约束。实时分析约束可以涉及这样的事实，即血细胞粒子流的处理通常必须在某个预期时间内结束，以便采集系统满足预定的吞吐量要求。

在许多情况下，血细胞粒子可以使用低复杂度信息(如基于颜色的特征)准确分类。然而，在某些疾病状况或与系统相关的变化(染色、病灶、细胞老化等)下，涉及具有更高复杂度负载的附加特征以正确识别合适的细胞类别可能是有用的。然而，由于时间和计算约束，计算和应用针对所有粒子的高复杂度特征可能是不可行的。

本发明的实施方案涵盖适于血液粒子图像的实时分类的分类架构。

血细胞识别可能是一项复杂的任务，它涉及分割、特征提取和分类阶段，这些阶段通常在计算资源有限的硬件上以时间敏感的方式执行。因此，当系统中的每个阶段都高效时，这是很有帮助的。特征提取部件通常最受影响，并且通常在特征复杂度和描述能力与计算效率之间做出折衷。

本发明的实施方案采用分层分类模型，该模型利用用于更容易、更常见的分类事件的更简单、高效的特征，以及用于更困难、更罕见的事件的更复杂、昂贵的特征。相关地，本发明的实施方案涉及对分类置信度和事件难度概率的考虑，这可以提高计算效率。

本发明的实施方案提供模块化，其扩展了故障排除和调查经训练的分类器的潜在错误分类和缺点的能力。本发明的实施方案还使得开发者能够可视化输入特征空间并了解潜在错误分类背后的原因。诸如这里公开的架构的级联模型具有将分类问题模块化为具有较低维度、视觉上可接受的输入特征空间的分类器集合的优点。利用此类模型，可以容易地找出错误分类的原因。

本公开的模块化的另一个优点是集合中的每个较低维分类器可以不那么复杂。例如，当采用单个高维度分类器时，每个细胞图像通常由分类器在所有输入维度上处理，以产生类标签。在级联模型中，细胞图像仅由集合的子集处理，并且每个分类器具有相对较低的输入维度，导致每个图像的计算操作较少。此外，特征计算可以推迟，直到细胞事件到达级联中需要具体特征的特定分类器。在大多数情况下，大多数特征将不需要计算。该模型还可以利用分类器之间的共享特征，从而进一步降低复杂度。

在一些实施方案中，本公开提供了适于血液粒子图像的实时分类的分类架构。典型的基于图像的分类可以由四个主要步骤组成：图像采集、特征提取、特征选择和分类器架构。贯穿本公开，技术描述通常集中在特征选择和分类器架构上。在一些情况下，假设图像采集已经到位，以捕获血液粒子图像。还可以假设，具有不同程度的判别能力和不同水平的计算复杂度的大量特征可用于设计和训练所提出的架构中的各个分类器。特征可以直接从图像中获得，或者是诸如主成分分析的附加降维技术的副产物。

在此上下文中，特征选择可以理解为从大量特征中选择在一个或多个血液粒子之间提供最大判别能力的特征的过程。在传统的基于图像的分类系统中，特征选择和分类器架构设计通常是两个独立的过程。特征基于预定义的性能标准来选择，并且分类器架构利用所选特征来设计和训练。然而，在本发明的实施方案中，特征选择过程和架构可以紧密联接。特征选择过程可以指导分类器架构设计。图8描绘了根据本发明的实施方案的血液粒子图像、血液粒子类别和提取的特征的方面。

在一种简单的形式中，特征选择过程可以按以下方式逐个特征地进行。在更复杂的形式中，可以选择两个或更多个特征的组合来评估它们的判别能力。如果特征的组合被评估，那么最终将使用这些特征的分类器方法可以被训练，并且其输出用于计算所选的判别系数的目的。

对于血液类别C_j,1≤j≤m

将G_j定义为图像P_i的子集，其中标签T_i,1≤i≤n匹配血液类别C_j

对于所有特征F_s,1≤s≤m

计算G_j和数据集中其余粒子图像之间的特征F_s的判别系数D_s,j。

系数D_s可以通过各种方法计算，诸如接受者操作曲线(ROC)的曲线下面积(AUC)、信息熵或其他可用方法。

结束

具有最高D_s,j的类别C_j作为从j＝1开始的分类器的标签Cl_j,1≤j≤m记录到单独的列表中，并从分析中移除，以降低剩余类别判别过程中的复杂度。类别标签Cl₁最终将成为所提出的架构中的第一个分类器，而Cl_m将是最后一个分类器。重复上述过程，直到所有类别C_j都已被分析，并成为Cl_j集合。

总的来说，所公开的方法的一个实施方案允许根据每个类别C_j与其余类别的可分性对其进行排序。该排序列表用于定义分类器的架构框架。分类器架构将首先评估具有最高水平的可分性(即，更容易从其余部分分类)的类别。判别系数D_s,j和复杂度指数O_s被存储用于进一步的分类器特征分配。

在一个实施方案中，分类器架构可以遵循如图9所示的级联模型。给定输入图像，分类器Cl₁试图识别该图像是否属于其相关联的类别。如果分类器Cl₁的输出支持该类别，则输入图像被分类为Cl₁，并且分类结束。否则，该图像被传递到Cl₂等，直到所有分类器都用完为止。

每个分类器Cl_j的内部结构是独一无二的，因为它提供了复杂度和性能之间的平衡。这种方法在其他替代方法中没有出现过。图10描绘了根据本发明的实施方案的分类器Cl_j的提议内部结构。在一个实施方案中，分类器Cl_j由两个分类器组成。第一个称为1级分类器，通常是简单的线性分类器模型，它使用减少数量的特征(通常为三个或更少，以允许容易地可视化特征空间)。该1级分类器的特征选择是由上面获得的D_s,j特征判别系数和与每个特征相关联的计算复杂度O_s的加权组合给出的。具有高判别系数和低计算复杂度的不相关特征是1级的理想候选特征。诸如支持向量机、感知器或其他简单模型的机器学习分类器模型可以用来自动训练1级分类器。

在一个实施方案中，2级分类器是更复杂的分类器模型。通常，基于具有复杂结构的非线性模型来处理特征之间的不明显关系。该2级分类器的特征选择也是由上面获得的D_s,j特征判别系数和与每个特征相关联的计算复杂度O_s的加权组合给出的。具有高判别系数和高计算复杂度的特征是2级的理想候选特征。特征的数量通常超过三个，因此特征空间的可视化不再可能。机器学习分类器模型，诸如多层前馈神经网络、自举或任何其他复杂模型，可以用来自动估计模型参数。

在所提出的架构的一个实施方案中，1级分类器处理绝大多数输入图像，从而减少计算时间并简化分类流程的分析。仅当1级分类器的决策不确定且不可信时，2级分类器才会启用。建议采用以下方法来评估1级分类器的不确定性，并控制1级和2级分类器对Cl_j的最终结果的贡献。

在一个示例中，如图11所示，两个给定的特征F₁和F₂被用作1级分类器的输入，该分类器负责识别类别Cl₉。1级分类器模型输出被定义为特征F₁和F₂与模型系数α,β和偏差项γ的线性组合。随着输入特征数量的增加，将出现更大数量的模型系数。模型系数可以通过机器学习算法获得，诸如线性判别分析、支持向量机或任何其他合适的方法。

等于零的线性组合值(即，)对应于将Cl₉与其余血液粒子类别(即，“其他”)分开的边界的准确位置。线性组合值/>与到/>的垂直距离成比例地增加或减少。接近图左上角的Cl₉中的血液粒子将具有比接近边界的粒子大的正/>值。另一方面，在图右下角附近的“其他”区域中的血液粒子将具有大的负/>值。

如上所述，由限定的线对应于将Cl₉与其余血液粒子类别分开的边界，但此外，它对应于分类器决策的不确定性处于其最高水平的点。特征F₁和F₂值的微小变化可以在该区域附近以这样或那样的方式改变分类器的决策。使用1级分类器模型、特征值F₁和F₂以及对应的目标标签T_i,1≤i≤n，可以限定边界/>周围的不确定性区域，以识别特征F₁和F₂)的值组合，该组合将产生分类器的高度不确定性响应。

在该示例中，不确定性区域可以通过设置边界周围的偏移和/>来限定。在最简单的实现中，偏移可以具有相同的值。偏移的实际值可以通过为1级分类器设置任意性能度量来限定。例如，可能希望在非不确定区域中具有高度特异性，这意味着如果在不确定区域之外检测到血液粒子，则该血液粒子将被正确分类的置信度很高。

在一个实施方案中，当血液粒子的特征的特定组合(在示例F₁和F₂)中)落入1级不确定性区域时，将仅调用2级分类器并计算其对应的输入特征(通常不同于1级特征)。这种独特的设计允许整个分类系统保持简单和快速，以便于对血液粒子进行分类，但足够灵活，以在需要时处理更复杂的情况。

在一个实施方案中，创建2级不确定性区域的相同方法可以应用于2级分类器以限定其偏移。一旦确定了偏移和/>就可以定义一对过渡函数/>和其中-1≤/>且/>如图12所描绘的。这组函数通过根据每个分类器的不确定性值线性组合它们的响应而允许1级和2级分类器输出之间的平滑过渡。应当注意，由于2级分类器的复杂性，函数/>通常在不确定性区域具有非线性行为。以下等式描述了最终分类器Cl_j输出的产生方式：

下面的工作流程总结了由用于实时处理的所提出的分类器架构对单个图像P_i的处理(回顾阶段)：

给定输入图像P_i

对于所有分类器Cl_j

分析图像P_i以提取Cl_j 1级分类器所需的特征F

将特征F输入到1级分类器以计算(1级输出)

如果则将输入图像P_i分类为血液粒子类别Cl_j，并完成输入图像P_i的分类任务

如果则将输入图像P_i分类为血液粒子类别

“其他”，并继续到分类器Cl_j+1

如果则

计算1级分类器的过渡函数

分析图像P_i以提取Cl_j2级分类器所需的特征F

将特征F输入到2级分类器以计算(2级输出)

如果则将输入图像P_i分类为血液粒子类别“其他”，并继续到分类器Cl_j+1

如果则

计算2级分类器的过渡函数

如上所述，使用和/>的线性组合计算最终的Cl_j Classifier Response

如果Cl_j Classifier Response>0，则将输入图像P_i分类为血液粒子类别Cl_j，并完成输入图像P_i的分类任务

如果Cl_j Classifier Response<0，则将输入图像P_i分类为类别“其他”，并继续到分类器Cl_j+1。

结束

如果输入图像P_i未被Cl_j分类器中的任一个分类，则将图像P_i标记为未识别。

所述方法的所有特征适用于作必要修正的所述系统，反之亦然。

本文提供的示例旨在举例说明本发明的潜在和特定的具体实施。应当理解，所述示例主要旨在为本领域的技术人员提供举例说明。在不脱离本发明的实质的前提下，可对这些图形或本文所述的操作进行变化。例如，在某些情况下，方法步骤或操作可按不同的顺序执行或实施，或者可对操作进行添加、删除或修改。

本公开中所讨论的所有专利、专利公布、专利申请、期刊论文、书籍、技术参考文献等全文以引用方式并入本文中以用于所有目的。

应当理解，已对本公开的附图和描述进行了简化，以示出与清楚地理解本公开相关的元件。应当理解，提供附图是为了进行示意性的说明，并且所述附图不作为构造图提供。省略的细节和修改或可供选择的实施方案在本领域普通技术人员的认识范围内。此外，在本公开的某些方面，可用多个部件来替换单个部件，并且可用单个部件来替换多个部件，以提供元件或结构或者执行给定的一种或多种功能。除了此类替换将不能有效实践某些实施方案的情况之外，此类替换被视为在本公开的范围之内。

在附图中所描绘或上文所述的部件的不同布置，以及未示出或描述的部件和步骤也是可行的。类似地，一些特征结构和子组合是可用的，且它们可以在与其他特征结构和子组合无关的情况下被采用。出于例示性和非限制性的目的描述了本发明的方面和实施方案，但可供选择的实施方案对于本专利的读者而言将是显而易见的。因此，本发明不限于上文所述或在附图中描绘的实施方案，并且可以在不脱离以下权利要求的范围的前提下，创造各种实施方案和进行各种修改。

虽然已通过示例的方式以及为了清楚理解的目的相当详细地描述了示例性实施方案，但本领域技术人员将认识到，可采用多种修饰、改型和改变。从而，本发明的范围应该仅受权利要求书的限制。

Claims

1.一种确定生物样本中的粒子的分类的方法，包括：

采集所述粒子的图像；

在处理器系统处接收所述粒子的所述图像；

使用所述处理器系统执行存储在非暂态计算机可读介质上的计算机可执行代码，所述计算机可执行代码包括指令，当在所述处理器系统上执行时，所述指令导致所述处理器系统：

执行提取例程，所述提取例程包括基于所述图像的像素的内容和位置从所述图像中提取多个特征，所述提取包括：

将第一掩模施加到所述图像；

基于施加所述第一掩模从所述图像采集第一组像素；以及

从所述第一组像素中确定所述多个特征；

选择所提取的特征的子集；

执行映射例程，所述映射例程包括将所述提取的特征的所述子集映射到分类器架构中，所述映射包括：

使用第一级模型将所述提取的特征的所述子集与先前存储的数据集进行比较；

基于所述提取的特征的所述子集与所述先前存储的数据集的所述比较来识别初步分类；

使用所述第一级模型计算所述初步分类正确的概率值；以及

当所述概率值等于或高于阈值时基于所述初步分类确定所述分类。

2.根据权利要求1所述的方法，其中，所述提取包括将第二掩模施加到所述图像以采集第二组像素。

3.根据权利要求2所述的方法，其中，所述第一掩模和所述第二掩模是圆形或环形的。

4.根据权利要求2或3所述的方法，其中，不同掩模的施加呈现不同的像素。

5.根据权利要求2或3中任一项所述的方法，其中，以预定顺序施加所述第一掩模和所述第二掩模。

6.根据权利要求1至3中任一项所述的方法，其中，所述提取包括将所述第一组像素聚类成一群。

7.根据权利要求6所述的方法，其中，所述提取包括从所聚类的像素群创建调色板。

8.根据权利要求7所述的方法，其中，所述提取包括部分地基于所述调色板来确定所述图像的标签。

9.根据权利要求1至3中任一项所述的方法，其中，所述提取包括将所述图像归一化到掩模尺寸。

10.根据权利要求1至3中任一项所述的方法，其中，所述提取包括将所述第一掩模归一化到单位幅度。

11.根据权利要求1至3中任一项所述的方法，其中，所述提取包括使用选择的颜色空间，所述选择的颜色空间包括红-绿-蓝RGB色调-饱和度-值HSV、色调-饱和度-明度HSL或色调-饱和度-亮度HSB。

12.根据权利要求1至3中任一项所述的方法，其中，所述提取的特征的选定的子集包括训练特征、验证特征或测试特征。

13.根据权利要求1至3中任一项所述的方法，其中，所述提取的特征的所述子集被映射到级联分类器架构中。

14.根据权利要求1至3中任一项所述的方法，其中，所述第一级模型是机器学习模型。

15.根据权利要求1至3中任一项所述的方法，其中，所述映射还包括：

当所述概率值低于所述阈值时，使用第二级模型来确定粒子分类。

16.根据权利要求15所述的方法，其中，所述第二级模型是机器学习模型。

17.根据权利要求15所述的方法，其中，使用所述第二级模型还包括：

在所述第二级模型处接收所述概率值；

根据与粒子类别相关的分类性能创建值的排序列表；

组合所述概率值和所述排序列表以创建第二级概率值；

使用所述概率值和所述第二级概率值来确定所述粒子分类。

18.根据权利要求1至3中任一项所述的方法，其中，所述粒子包括选自嗜中性粒细胞、淋巴细胞、单核细胞、嗜酸性粒细胞、嗜碱性粒细胞、未成熟白细胞、网织红细胞、具核红细胞、红细胞、上皮细胞、细菌、酵母或寄生虫的成员。

19.一种确定生物样本中的粒子的分类的系统，所述系统包括：

处理器和联接到所述处理器的计算机可读存储介质，所述计算机可读存储介质包括能够由所述处理器执行的代码，以用于实现方法，所述方法包括：

采集所述粒子的图像；

基于所述图像的像素的内容和位置从所述图像中提取多个特征，所述提取包括；

将第一掩模施加到所述图像；

基于施加所述第一掩模从所述图像采集第一组像素；以及

从所述第一组像素中确定所述多个特征；

选择所述提取的特征的子集；

将所述提取的特征的所述子集映射到分类器架构中，所述映射包括：

使用所述第一级模型计算所述初步分类正确的概率值；以及

20.根据权利要求19所述的系统，其中，所述系统使用数字显微镜相机。

21.根据权利要求19或20所述的系统，其中，所述计算机可读存储介质包括能够由所述处理器执行的代码，以用于实现根据权利要求1至18中任一项所述的方法。

22.一种通过将提取的特征的子集映射到分类器架构中来确定生物样本中的粒子的分类的方法，所述映射包括：

使用第一级机器学习模型将提取的特征的所述子集与先前存储的数据集进行比较，其中，所述提取的特征是从图像中提取的；

使用所述第一级机器学习模型计算概率值；

将所述概率值与预定的对照表进行比较；

如果所述概率值等于或高于阈值，则确定粒子分类；

如果所述概率值低于所述阈值，则使用第二级机器学习模型；

根据它们与粒子类别相关的分类性能，使用所述第二级机器学习模型创建值的升序排序列表；

组合所述概率值和值的所述排序列表以创建第二级分数；

使用所述第二级分数来确定粒子分类。

23.一种确定生物样本中的粒子的分类的方法，包括：

采集所述粒子的图像；

将第一掩模施加到所述图像；

基于施加所述第一掩模从所述图像采集第一组像素；以及

从所述第一组像素中确定所述多个特征；

选择所述提取的特征的子集；

使用所述第一级模型计算所述初步分类正确的概率值；以及

24.根据权利要求23所述的方法，其中，所述提取包括将第二掩模施加到所述图像以采集第二组像素。

25.根据权利要求24所述的方法，其中，所述第一掩模和所述第二掩模是圆形或环形的。

26.根据权利要求24或25所述的方法，其中，不同掩模的施加呈现不同的像素。

27.根据权利要求24至25中任一项所述的方法，其中，以预定顺序施加所述第一掩模和所述第二掩模。

28.根据权利要求23至25中任一项所述的方法，其中，所述提取包括将所述第一组像素聚类成一群。

29.根据权利要求28所述的方法，其中，所述提取包括从所聚类的像素群创建调色板。

30.根据权利要求29所述的方法，其中，所述提取包括部分地基于所述调色板来确定所述图像的标签。

31.根据权利要求23至25中任一项所述的方法，其中，所述提取包括将所述图像归一化到掩模尺寸。

32.根据权利要求23至25中任一项所述的方法，其中，所述提取包括将所述第一掩模归一化到单位幅度。

33.根据权利要求23至25中任一项所述的方法，其中，所述提取包括使用选择的颜色空间，所述选择的颜色空间包括红-绿-蓝RGB色调-饱和度-值HSV、色调-饱和度-明度HSL或色调-饱和度-亮度HSB。

34.根据权利要求23至25中任一项所述的方法，其中，所述提取的特征的选定的子集包括训练特征、验证特征或测试特征。

35.根据权利要求23至25中任一项所述的方法，其中，所述提取的特征的所述子集被映射到级联分类器架构中。

36.根据权利要求23至25中任一项所述的方法，其中，所述第一级模型是机器学习模型。

37.根据权利要求23至25中任一项所述的方法，其中，所述映射还包括：

当所述概率值低于所述阈值时，使用第二级模型来确定所述粒子分类。

38.根据权利要求37所述的方法，其中，所述第二级模型是机器学习模型。

39.根据权利要求37所述的方法，其中，使用所述第二级模型还包括：

在所述第二级模型处接收所述概率值；

根据与粒子类别相关的分类性能创建值的排序列表；

组合所述概率值和所述排序列表以创建第二级概率值；

使用所述概率值和所述第二级概率值来确定所述粒子分类。

40.根据权利要求23至25中任一项所述的方法，其中，所述粒子包括选自嗜中性粒细胞、淋巴细胞、单核细胞、嗜酸性粒细胞、嗜碱性粒细胞、未成熟白细胞、网织红细胞、具核红细胞、红细胞、上皮细胞、细菌、酵母或寄生虫的成员。

41.一种非暂态计算机可读存储介质，包括能够由一个或多个处理器执行的程序指令，当被执行时，所述程序指令导致所述一个或多个处理器执行操作，所述操作包括根据权利要求1至18中任一项所述的方法。