CN111052146A

CN111052146A - 用于主动学习的系统和方法

Info

Publication number: CN111052146A
Application number: CN201880054941.XA
Authority: CN
Inventors: 李庭育; 高介其; P·森; 刘洺堉
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2017-08-31
Filing date: 2018-02-06
Publication date: 2020-04-21
Anticipated expiration: 2038-02-06
Also published as: US20190065908A1; JP6837597B2; US10769500B2; EP3475881A1; EP3475881B1; WO2019043988A1; CN111052146B; JP2020528623A

Abstract

用于包括传感器的主动学习系统的系统及方法从包括具有对象的一组图像的场景获得数据。存储主动学习数据的存储器包括被训练用于检测图像中的对象的对象检测器。与存储器通信的处理器被配置为使用对象检测器检测从一组图像中选择的图像中的至少一个对象的语义类别和位置，以产生作为对象检测器的关于图像中对象的语义类别(分类)的不确定度和对象检测器的关于图像中对象的位置(定位)的不确定度的组合的检测指标。使用与处理器通信的输出接口或显示型设备，以在检测指标高于阈值时显示图像以供人标记。

Description

用于主动学习的系统和方法

技术领域

本公开总体上涉及用于计算机视觉的系统和方法，并且更具体地，涉及利用考虑图像中对象的定位和分类的对象检测器来将主动学习应用于对象检测。

背景技术

传统的视觉检测方法已表明，利用大量已注释数据，可以训练卷积神经网络(CNN)以实现用于各种视觉识别任务的超人性能。然而，这些传统的视觉检测方法未能研究出有效的数据注释方法，这是由于数据注释是必要的并且是昂贵的。例如，对于对象检测任务，数据注释尤其昂贵。与可以通过多项选择题进行的注释图像类别相比，注释对象位置需要人工注释者为对象指定边界框。简单拖动密闭边界框来包围对象可能花费比回答多项选择题多10倍的时间。因此，必须向为对象检测任务注释图像的人类标注者支付更高的报酬。除了成本之外，更难以检测和控制的是注释质量。

因此，需要用更少的注释过程以及因此更少的注释预算等来实现更好的性能。

发明内容

技术问题

本公开的实施方式涉及提供一种用于使用考虑图像中对象的定位和分类的对象检测器来将主动学习应用于对象检测的系统和方法。

技术方案

本公开基于以下认识：使用场景图像中的对象的特征的不确定度度量的主动学习能够是用于注释数据以进行图像分类和图像定位任务的有效方法。具体地，我们的实现基于使用用于对象检测的主动学习的检测指标，该检测指标包括对象检测器的关于图像中对象的语义类别(分类)的不确定度和对象检测器的关于图像中对象的位置(定位)的不确定度的组合。然而，要实现这一目标，需要通过实验进一步了解什么可以用作对象定位不确定度的指标。

具体地，通过实验，我们了解到使用作为机器学习过程的主动学习在减少实现特定于本公开的方面的目标性能所需的已注释数据量方面是有用的。即，主动学习可以应用于包括对象分类和行为识别的各种计算机视觉问题。此外，主动学习可以用于具有少量已标记数据集的基线模型(分类器)的初始训练，其中分类器可以应用于未标记数据。这样，对于每个未标记样本，主动学习可以估计该样本是否包含基线模型尚未学习的关键信息。因此，一旦已经识别出携带最关键信息并由人类注释者标记的样本，可以将该样本添加到初始训练数据集中以再训练模型。当将我们的方法与从未标记数据集随机选择样本的一些传统被动学习方法进行比较时，我们发现我们的主动学习能够实现与某些传统被动学习方法相同的准确性，但是标记样本更少但信息更丰富，这对于本公开的许多方面是有益的。

我们的实验进一步使我们理解了什么能够作为对象定位的不确定度的指标。我们实现了，本公开算法可以基于定位不确定度的两个定量测量值。定位不确定度的第一个定量测量值包括定位紧密度(LT)指标，该定位紧密度(LT)指标可以估计检测到的边界框可以围绕真实对象的紧密程度。例如，边界框越紧，定位就越确定。可以由对象检测器基于例如通过区域提议网络(RPN)提议的初始边界框的适配量来估计定位紧密度。定位不确定度的第二个定量测量值包括基于检测到的边界框是否对输入图像的变化敏感的定位稳定度(LS)指标。在评估定位稳定度方面，本公开算法将不同量的高斯噪声加到图像的像素值，并且测量检测到的区域相对于噪声如何变化。我们注意到本公开的至少一个方面在于，我们实现了，给定一图像，我们通过添加噪声来操纵该图像并且测量边界框如何变化。这样，该指标可以应用于所有类型的对象检测器，尤其是那些没有显式建议阶段的对象检测器。而且，该指标可以应用于视频监控分析、障碍物检测和自主驾驶的路径规划等。

换句话说，本公开可以分析关于多个公共基准和不同的对象检测器的测量值。这是独特的并且具有创新性的方面，其包括能够呈现不同的测量值以定量评估对象检测器的定位不确定度。此外，尽管对象位置的真实情况是未知的，但我们的测量值考虑了对象检测的不同方面，因此使得我们的测量值适用于主动学习。另一个独特和创新的方面包括证明了：在对信息丰富的图像进行采样时，应考虑检测器的定位和分类二者，以便应用用于对象检测的主动学习。例如，通过非限制性示例，本公开的系统和方法可以在PASCAL 2012基准上训练检测器，这实现了与传统被动学习方法相同的性能，但是已注释数据少得多。作为非限制性示例，这些性能水平可以通过分别扩展用于具有定位紧密度(LT)和定位稳定度(LS)的分类的方法等来实现。换句话说，如果对象检测器模型涉及调整边界框的尺寸和位置，我们可以进一步估计紧密度。

为了更好地解释本公开的主动学习系统和方法，我们提供了至少一种方法的一些处理流程步骤。例如，该方法包括：对象检测器最初将图像作为输入，并输出一组矩形边界框。其中每个边界框具有位置和其(边界框)形状的比例以及全部类别的概率质量函数。至少一个训练过程步骤最初从已注释图像的小的训练集开始，以训练基线对象检测器。为了通过用更多的图像进行训练来改进对象检测器，该方法继续收集更多的图像以进行注释。除了对全部新收集的图像进行注释以外，我们还基于当前检测器的不同特征，选择了它们的子集供人类注释者来标记。一旦已经进行了注释，这些所选择的图像可以被添加到训练集中，以在以后的某个时间训练新的检测器。其中，整个过程可以继续收集更多图像，针对新的检测器选择子集，用人工对所选择的子集进行注释，再训练检测器，依此类推。其中，我们将数据收集、选择、注释和培训的这样循环称为一轮。

本公开的许多关键组件当中的至少一个关键组件处于选择步骤中，该选择步骤选择信息丰富的一组图像。图像的丰富信息被量化为不确定度得分，该不确定度得分指定了检测器对其包括对象类别和位置的标签的不确定性如何。图像中的对象被指定为边界框。如果对象边界框的不确定度得分高，则应选择该图像。关于计算得分，我们考虑了分类和定位二者的不确定度。边界框的分类不确定度可以类似于基于类别的概率质量函数的主动学习方法。例如，如果关于单个类别的概率接近1.0，即，意味着其它类别的概率低，则检测器关于其类别的确定性高。相反，当多个类别具有相似的概率时，每个概率将降低，因为全部类别的概率之和必须为1。因此，我们可以使用1减去类别的概率质量函数的最大值作为分类不确定度。

此外，给定图像，我们基于定位和分类之间的不一致度或者检测到的对象位置的稳定度来分配得分。然后，得分最高的未标记图像可以被发送给人类标记者，以选择包含对象和相应对象类别的框。这些带有标签的图像可以用于训练初始对象检测器以提高其性能。可以重复此过程，直到满足对象检测器的性能。

根据本公开的实施方式，一种主动学习系统包括用于从传感器接收场景的一组图像的输入接口。例如，传感器可以是从包括一组图像的场景获得数据的摄像机或相机类设备。数据还可以包括诸如环境状况(诸如温度)之类的环境数据等。此外，可以利用存储器来存储主动学习数据，该存储器包括被训练用于检测图像中的对象的对象检测器。与输入接口和存储器通信的处理器可以被配置为使用对象检测器检测从一组图像中选择的图像中的至少一个对象的语义类别和位置，以产生作为对象检测器的关于图像中对象的语义类别(分类)的不确定度和对象检测器的关于图像中对象的位置(定位)的不确定度的组合的检测指标。最终，当检测指标高于阈值时，使用与处理器通信的输出接口(即，显示型设备)来显示图像以供人标记。

根据本公开的另一实施方式，一种主动学习系统包括接收成像数据的存储器。成像数据包括经由输入接口的来自传感器的场景的多组图像。此外，存储器包括具有存储的主动学习数据的储存设备，该存储设备包括被训练用于检测图像中的对象的对象检测器。处理器被配置为连接到存储器、输入接口和输出接口。其中，处理器执行用于使用对象检测器产生检测指标的指令。其中，对象检测器执行以下步骤：使用对象检测器检测从多组图像中的至少一组图像中选择的图像中的至少一个对象的语义类别和位置，以产生作为对象检测器的关于图像中对象的语义类别的不确定度和对象检测器的关于图像中对象的位置的不确定度的组合的检测指标。使用输出接口将图像输出到与成像设备连接的成像接口，用于在检测指标高于阈值时在成像设备上显示图像以供人标记。

根据本公开的另一实施方式，一种使用考虑了图像中对象的定位和分类二者的对象检测器的对象检测的主动学习方法。该方法包括经由输入接口从传感器接收包括场景的多组图像的成像数据并且在存储器中存储成像数据。其中，存储器包括具有所存储的主动学习数据的储存设备，该储存设备包括被训练用于检测图像中的对象的对象检测器。使用与输入接口和存储器通信的处理器。处理器被配置为用于执行使用对象检测器产生检测指标的指令。其中对象检测器执行以下步骤：使用对象检测器检测从多组图像中的至少一组图像中选择的图像中的至少一个对象的语义类别和位置，以产生作为对象检测器的关于图像中对象的语义类别的不确定度和对象检测器的关于图像中对象的位置的不确定度的组合的检测指标。经由输出接口向成像设备输出图像，以在检测指标高于阈值时显示供人标记的图像。其中，处理器与输出接口和成像设备通信。

将参考附图进一步解释当前公开的实施方式。所示的附图不一定按比例绘制，而是通常将重点放在说明当前公开的实施方式的原理上。

附图说明

[图1A]

图1A是例示了主动学习系统的框图。

[图1B]

图1B是例示了图1A的进一步包括用于主动学习系统的一些组件的主动学习系统的框图。

[图1C]

图1C是例示了图1A的主动学习系统的框图，尤其是，在对象检测步骤期间采取的步骤。

[图2A]

图2A是用于训练神经网络的主动学习系统的数据流的框图。

[图2B]

图2B是用于训练神经网络的主动学习系统的流程图。

[图3]

图3是用于对图2A和图2B的未标记图像的分类不确定度和重要度进行排序的主动方法的框图。

[图4]

图4是用于注释未标记图像的主动学习系统的框图。

[图5]

图5是例示了标签接口的框图。

[图6]

图6是例示了可以使用替代计算机或处理器来实现的图1A的主动学习方法的框图。

具体实施方式

以下描述仅提供示例性实施方式，并非旨在限制本公开的范围、适用性或配置。相反，示例性实施方式的以下描述将向本领域技术人员提供使得能够实现一个或更多个示例性实施方式的描述。在不脱离所公开的如本公开的所附权利要求书中阐述的主题的精神和范围的情况下，预期可以在元件的功能和布置上进行的各种改变。

在以下描述中给出了具体细节以提供对实施方式的完整理解。然而，本领域普通技术人员可以理解的是，可以在没有这些具体细节的情况下实践实施方式。例如，所公开的主题中的系统、过程和其它元件可以以框图形式示出为组件，以免在不必要的细节上模糊实施方式。在其它实例中，可以示出公知的过程、结构和技术而无需不必要的细节，以避免模糊实施方式。此外，各个附图中相似的附图标记表示相似的元件。

另外，各个实施方式可以被描述为过程，该过程被描绘为流程图、作业图、数据流图、结构图或框图。尽管流程图可以将操作描述为顺序过程，但是许多操作能够并行或同时执行。另外，操作的顺序可以重新排列。过程可以在其操作完成时终止，但是可以具有在图中未包括或未讨论的附加步骤。此外，并非在任何特定描述过程中的所有操作都可以在所有实施方式中发生。过程可以对应于方法、函数、处理、子例程、子程序等。当过程对应于函数时，函数的终止能够对应于函数返回到调用函数或主函数。

此外，所公开的主题的实施方式可以至少部分手动地或自动地实现。可以通过使用机器、硬件、软件、固件、中间件、微码、硬件描述语言或其任意组合来执行或至少辅助手动或自动实施。当以软件、固件、中间件或微码实现时，可以将执行必要任务的程序代码或代码段存储在机器可读介质中。处理器可以执行必要任务。

概述

本公开的实施方式涉及使用考虑图像中对象的定位和分类的对象检测器来将主动学习应用于对象检测的系统和方法。

本公开基于以下认识：使用场景图像中的对象特征的不确定度度量的主动学习可以是用于注释数据以进行图像分类和图像定位任务的有效方法。具体地，我们的实现基于使用用于对象检测的主动学习的检测指标，该检测指标包括对象检测器的关于图像中对象的语义类别(分类)的不确定度和对象检测器的关于图像中对象的位置(定位)的不确定度的组合。然而，要实现这一目标，需要通过实验进一步了解什么可以用作对象定位的不确定度的指标。

具体地，我们通过实验知道，主动学习可以用于具有少量的已标记数据集的基线模型(分类器)的初始训练，其中分类器可以应用于未标记数据。这样，对于每个未标记样本，主动学习可以估计该样本是否包含基线模型尚未学习的关键信息。因此，一旦识别出携带最关键信息并由人类注释者标记的样本，就可以将该样本添加到初始训练数据集中以再训练模型。

更进一步，本公开的主动学习特征解决了要求满足当今技术应用关于在自主驾驶应用以及其它应用的上下文中用于快速推理方法的视觉特征描述的需求的技术需求。具体地，本公开内容能够克服传统自主驾驶应用/方法的数据。由于驾驶的场景复杂，因此理想地，所收集的驾驶数据应具有足够的量并涵盖广泛的驾驶场景。然而，注释所有驾驶图像可能非常昂贵。通过主动学习，我们能够减少要标记图像的数量，这对于需要非常大量的标记图像的应用至关重要。

我们通过实验认识到什么可以用作对象定位的不确定度的指标，本公开算法可以基于定位不确定度的两个定量测量值。定位不确定度的第一个定量测量值包括定位紧密度(LT)指标，该定位紧密度(LT)指标可以估计所检测到的边界框可以围绕真实对象的紧密程度。例如，边界框越紧，定位就越确定。定位紧密度可以由对象检测器基于例如通过区域提议网络(RPN)提议的初始边界框的适配量来估计。定位不确定度的第二个定量测量值包括基于所检测到的边界框是否对输入图像的变化敏感的定位稳定度(LS)指标。在评估定位稳定度方面，本公开算法将不同量的高斯噪声添加到图像的像素值，并且测量所检测到的区域相对于噪声如何变化。这样，该指标可以应用于所有类型的对象检测器，尤其是那些没有显式建议阶段的对象检测器。而且，该指标可以应用于视频监控分析、障碍物检测和自主驾驶的路径规划等。

换句话说，本公开可以分析关于多个公共基准和不同的对象检测器的测量值。这是独特的并且具有创新性的方面，包括能够呈现不同的测量值以定量评估对象检测器的定位不确定度。此外，尽管对象位置的真实情况是未知的，但我们的测量值考虑了对象检测的不同方面，因此使得我们的测量值适用于主动学习。另一个独特和创新的方面包括证明了：当对信息丰富的图像进行采样时，应考虑检测器的定位和分类二者，以便将对象检测应用于主动学习。例如，通过非限制性示例，本公开的系统和方法可以在PASCAL 2012基准上训练检测器，这实现了与传统被动学习方法相同的性能，但是具有少得多的已注释数据，即，少了大约15％至大约20％的已注释数据，以及少了大约20％至大约25％的已注释数据。作为非限制性示例，这些性能水平可以通过分别扩展用于具有定位紧密度(LT)和定位稳定度(LS)的分类的方法等来实现。

用于本公开的一些实施方式的主动学习系统可以包括人机接口、包括神经网络的储存设备、存储器、与系统外部的网络可连接的网络接口控制器。主动学习系统可以进一步包括与成像设备可连接的成像接口、配置为连接到人机接口、存储设备、存储器、网络接口控制器和成像接口的处理器，其中，处理器可以执行用于使用储存设备中存储的对象检测器来产生检测指标的指示。对象检测器可以执行至少包括检测从多组图像中的至少一组图像中选择的图像中的至少一个对象的语义类别和位置的步骤。此外，对象检测器执行以下步骤：使用对象检测器来产生检测指标，该检测指标作为对象检测器的关于图像中的对象的语义类别的不确定度和对象检测器的关于图像中的对象的位置的不确定度的组合。此外，对象检测器执行以下步骤：当检测指标高于阈值时，将图像输出到成像设备，以显示供人标记的图像。

为了更好地解释本公开的主动学习系统和方法，我们提供了至少一种方法的一些处理流程步骤。例如，该方法包括：对象检测器最初将图像作为输入，并输出一组矩形边界框。其中每个边界框具有位置和其(边界框)形状的比例以及全部类别的概率质量函数。至少一个训练过程步骤最初从已注释图像的小的训练集开始，以训练基线对象检测器。为了通过用更多的图像进行训练来改进对象检测器，该方法继续收集更多的图像以进行注释。除了对全部新收集的图像进行注释以外，我们还基于当前检测器的不同特征，选择它们的子集以供人类注释者标记。一旦进行了注释，可以将这些所选择的图像添加到训练集中，以在以后的某个时间训练新的检测器。其中，整个过程可以继续收集更多图像，选择针对新检测器的子集，人工对所选择的子集进行注释，再训练检测器，依此类推。其中，我们将数据收集、选择、注释和培训的这种循环称为一轮。

本公开的许多关键组件当中的至少一个关键组件处于选择步骤中，该选择步骤选择一组信息丰富的图像。图像的丰富信息被量化为不确定度得分，该不确定度得分指定了检测器对其包括对象类别和位置的标签的不确定性如何。图像中的对象被指定为边界框。如果对象边界框的不确定度得分高，则应选择该图像。关于计算得分，我们考虑了分类和定位二者的不确定度。边界框的分类不确定度可以类似于基于类别的概率质量函数的主动学习方法。例如，如果关于单个类别的概率接近1.0，即，意味着其它类别的概率低，则检测器非常确定其类别。相反，当多个类别具有相似的概率时，因为全部类别的概率之和必须为1，所以每个概率将是低的。因此，我们可以使用1减去类别的概率质量函数的最大值作为分类不确定度。

图1A是例示了根据本公开的一个实施方式的主动学习系统的框图。最初，主动学习系统100包括以下步骤：由处理器经由输入接口从传感器获取场景的一组图像120，其中，一组图像包括对象。下一步包括使用处理器将所获取的一组图像输入到存储于存储器中的对象检测器125中。对象检测器步骤130检测从一组图像中选择的图像中的至少一个对象的语义类别和位置。针对每个图像，步骤131计算作为对象检测器的关于图像中的对象的语义类别的不确定度和对象检测器的关于图像中的对象的位置的不确定度的组合的指标。下一步骤135包括：当检测指标高于阈值时，使用输出接口显示供人标记的图像。

图1B是例示了根据本公开的一些实施方式的、图1A的进一步包括用于主动学习系统的一些组件的主动学习系统的框图。主动学习系统100包括场景110，场景110提供由传感器设备112获得的输入图像。例如，传感器112可以是从场景110获得数据以便获得一组图像114的摄像机或相机类设备。数据还可以包括诸如环境状况(诸如温度)之类的环境数据等。来自场景110的输入图像包括由处理器140处理的通过输入接口116获得的一组图像114。可以预期，一组图像114可以存储在存储器145中，然后由处理器140随后处理。此外，输入接口116和存储器145可以与计算机150通信。此外，处理器140使用对象检测器142对可存储在存储器145中的一组图像114进行处理。

对象检测器142由处理器140处理，使得对象检测器142可以被配置为检测图像中的至少一个对象的语义类别和位置。针对每个图像，它基于检测到的对象的类别和位置来计算检测指标。步骤144选择检测指标高于阈值的图像。最后，可以利用与处理器145通信的输出接口195(即，显示型设备)来显示具有所选图像的图像。

图1C是例示了根据本公开的一些实施方式的图1A的主动学习系统，尤其是在图1A的对象检测步骤130和图1B的对象检测步骤142期间采取的一些步骤的框图。给定图像(161)，首先将其应用于对象检测器(162)以测量分类不确定度(165)。如果该对象检测器还包含关于初始边界框的信息，则模块164将初始边界框与最终边界框进行比较以测量紧密度(167)。为了测量定位稳定度，我们将噪声(162)添加至图像(161)并应用相同的对象检测器(160，其与163相同)。步骤166将由检测器163基于原始图像生成的检测框和来自使用同一检测器算法但是图像中具有噪声的检测器1620的检测框比较。步骤166输出定位稳定度，该定位稳定度与来自模块165的分类不确定度、167(如果存在的话)的定位紧密度，以形成输入图像(161)的最终不确定度测量值。

例如，对象检测器可以基于诸如卷积神经网络、支持向量机等的大量机器学习算法，来检测图像中的至少一个对象的语义类别(分类)。给定分类算法，将其应用于图像对象，以计算该对象为预定义类别中的每一个的概率。这样，对象检测器的关于图像中对象的语义类别的不确定度可以是全部预定义类别的这些概率的函数。例如，具有高概率的类别越多，估计已分类类别的确定度就越小。

此外，对象检测器可以检测图像中的至少一个对象的位置(定位)。为了检测对象，在图像上生成了不同比例和纵横比的多个框。针对每个框，测量从其内部的图像像素到感兴趣的对象(例如，车辆、行人、卡车等)的预先收集的图案的相似性。可以进一步调整框以匹配尽可能多的图案。由于几个框可以交叠同一对象，因此我们可以在与其交叠的框当中进一步过滤相似度最高的框。尽管对象检测器可能会调整初始框以匹配最接近且最可能的对象，但框仍可能不精确。结果，对象检测器的关于图像中对象的位置的不确定度是围绕对象的边界框的紧密度的函数。其中，检测指标可以与物体检测器的关于对象的语义类别的确定度和对象的位置的紧密度之间的不一致度成比例。此外，可以使用初始边界框和最终边界框的交集与初始边界框和最终边界框的并集之比来确定围绕对象的边界框的紧密度的函数。可能的是，对象检测器可以估计围绕对象的初始边界框，并调整该初始边界框以生成最终边界框。此外，期望的是，初始边界框可以由区域提议网络提出。其中，对象检测器将多个初始边界框放置在图像中的不同位置处，并选择最大限度包含特定语义类别的对象的初始边界框。

我们注意到，对象检测器的关于对象的位置的不确定度可以是围绕对象的边界框的稳定度的函数。其中，处理器可以检测由噪声变更的图像中的对象，并基于针对图像确定的边界框与针对由噪声变更的图像确定的边界框之间的差异来确定边界框的稳定度。此外，检测指标可以是神经网络的关于边界框中的对象的类别的不确定度的加权总和，并且边界框的稳定度是基于关于添加的噪声其位置和尺寸变化多大的。如果位置和尺寸在不同程度的噪声下可以是近似的，则可以说该边界框是稳定的。

根据本公开的一些实施方式，主动学习系统包括人机接口、包括神经网络的储存设备、存储器、与系统外部的网络可连接的网络接口控制器。主动学习系统还包括与成像设备可连接的成像接口、配置为连接至人机接口、储存设备、存储器、网络接口控制器和成像接口的处理器，其中，处理器执行用于使用储存设备中存储的神经网络对图像中的对象进行分类的指示，其中，神经网络执行以下步骤：使用神经元网络确定信号的特征；确定用于对信号进行分类的特征的不确定度度量；使用解码器神经元网络从特征重构信号以产生重构信号，将重构信号与信号进行比较以产生重构误差，将不确定度度量与重构误差组合以产生关于手动标记的必要性的信号的等级，根据等级标记信号以产生已标记信号，以及使用已标记信号训练神经元网络和解码器神经元网络。

图2A是根据本公开的一些实施方式的用于训练神经网络的主动学习系统的数据流的框图。例如，主动学习系统200的初始设置包括用随机参数初始化的神经网络210、初始一组已标记训练图像201、训练器202、一组未标记图像203。在这种情况下，神经网络210是用户定义的神经网络。

主动学习系统200尝试通过图2A所示的基本工作流程有效地查询用于执行注释的未标记图像。基于具有随机初始化参数的神经网络(NN)210，训练器202通过将NN 210匹配到图像的初始已标记训练数据集201来更新网络参数。结果，使用具有已更新网络参数的已训练NN 220来对未标记数据集203中的图像的重要度进行排序。未标记图像203根据从已训练NN 220执行的排序结果中获得的重要度得分204进行排序。K个最重要图像205被存储到与标签接口206相关联的存储器(图2A未示出)中的标记储存器中。响应于操作者(或注释者)进行的数据输入，标记界面206生成具有基本事实标签的已注释图像207。然后将这些已注释图像207添加到初始已标记训练数据集201中，以形成新的训练数据集208。然后，训练器202通过匹配图像的新的训练数据集208来对网络220进行再训练，并获取更新的神经网络参数230。该过程是迭代的。已更新的神经网络参数230用于对未标记图像203的其余图像的重要度进行排序，并将K个最重要图像205发送至标记界面206。通常，此过程重复几次，直到实现预定的优选性能或者注释的预算为空。

此外，仍然参照图2A，可以通过使用编码器神经网络来执行确定特征。在这种情况下，编码器神经网络可以执行给定信号的特征分析。在一些情况下，信号可以是脑电图(EEG)或心电图(ECG)。神经网络可以使用生物信号代替图像信号。因此，可以应用本公开的一些实施方式来提供用于辅助医生诊断的特定信号。

图2B是根据本公开的一些实施方式的用于训练神经网络的主动学习系统的流程图。例如，主动学习系统200尝试通过图中所示的处理流程来有效地查询用于注释的未标记图像。图2B的处理流程可以包括以下阶段：

S1–提供初始已标记训练数据集，并使用该数据集来训练神经网络。

S2–通过使用在步骤S1中获得的已训练NN，评估未标记数据集中的每个图像，并向每个图像分配得分。

S3–给定在步骤S2中获得的得分，选择前K个最高得分的图像，以由注释设备进行标记。

S4–将所选的带有新注释标签的图像添加到当前(最新)已标记训练集中，以获取新的训练数据集。

S5–基于新的训练数据集来细化或再训练网络。

图2B示出了尝试有效地查询图像以标记图像的主动学习系统200的主动学习算法。初始化模型是在初始的小的已标记训练集上训练的。基于作为最新训练模型的当前模型，主动学习系统200试图找到要注释的信息最丰富的未标记图像。信息丰富的图像的子集被标记并添加到训练集中，用于下一轮训练。该训练过程被迭代地执行，并且主动学习系统200仔细添加更多已标记图像，以逐渐提高测试数据集上的模型的准确性性能。从本质上讲，主动学习系统200的算法通常比用于训练的标准方法工作得更好，这是因为标准方法只是简单地随机选择样本进行标记。

尽管在说明书中使用了术语“图像”，但是在主动学习系统200中可以使用另一“信号”。例如，主动学习系统200可以处理其它信号，诸如脑电图(EEG)或心电图(心电图)。代替图像，EEG或ECG信号可以在主动学习系统200中被训练。然后，可以将已训练的主动学习系统200应用于确定或判断关于输入信号的异常，这对于相关症状的医学诊断提供了有用的帮助。

图3示出了根据本公开的一些实施方式的用于对图2A与图2B的主动学习系统中的未标记图像的重要度进行排序的处理步骤的框图。当来自图2A的一组未标记图像203的输入图像被提供至图2A的NN 220的前端时，在步骤302中，已训练NN 220生成特征303并经由softmax输出层304输出分类结果。该分类结果用于基于Rényi熵通过不确定度度量305来计算输入信号的重要度得分204。

图2A的已训练NN 220用于提取未标记数据集203中的每个图像的特征303，并且还用于由softmax输出层304计算分类。softmax输出层304获得的分类结果是维数为D的概率矢量，其中维数D是对象类别的数量。用x表示输入图像，并且由softmax输出层304计算出的分类结果指示用p表示的概率矢量，概率矢量p的每个维度表示输入图像203属于特定类别的概率。p的分量之和等于1。然后可以在不确定性度量305的步骤中通过熵函数H(x)来测量输入图像的类别的不确定度。当基于香农熵计算熵H(x)时，输入图像类别的不确定度由下式给出：

仍然参照图3，在不确定度方法中，可以使用不确定度度量作为未标记图像204的重要度得分。此外，在Renyi熵种类中定义的其它熵度量可以用于不确定度计算。例如，熵函数H(x)可以是碰撞熵

或最小熵

此外，可以通过用于获得不确定度的估计的

来定义基于熵的方法，并且在图5中示出了实验结果。

仍然参照图3，由于不确定度方法是一种通用的主动学习方法，因此它可以与各种分类器(SVM、高斯过程或神经网络)结合使用，只要可以从每个输入图像中得出代表类别概率的向量即可。在这种情况下，不确定度方法没有利用分类器的属性，并且达到了次优性能。

图4示出了根据本公开的一些实施方式的主动学习系统400的框图。主动学习系统400可以包括与键盘411和定点设备/介质412可连接的人机接口(HMI)410、处理器420、储存设备430、存储器440、与包括局域网和互联网的网络490可连接的网络接口控制器(NIC)450、显示接口460、与成像设备475可连接的成像接口470、与打印设备485可连接的打印机接口480。处理器420可以包括一个以上的中央处理单元(CPU)。主动学习系统400可以经由连接至NIC 450的网络490接收电子文本/成像文档495。主动学习系统400可以经由HMI 410从注释设备413接收注释数据。此外，注释设备413可以包括显示屏，并且注释设备413的显示屏可以被配置为显示图2A的标记界面206，该标记界面通过在包括具有预定注释框和要选择的预定标记候选的选择区域402的显示区域401中显示未标记图像，允许操作者对存储器440中存储的未标记图像执行标记处理。

储存设备430包括原始图像431、过滤器系统模块432和神经网络400。例如，处理器420将储存器430中的神经网络400的代码加载至存储器440中并执行代码的指令，以实现主动学习。此外，定点设备/介质412可以包括读取计算机可读记录介质上所存储的程序的模块。

参照图4和图5，图5示出了根据本公开的一些实施方式的图2A的标记界面106的示例。在图5中，图2A的标记界面206包括：显示区域501和选择区域502。图2A的标记界面206可以安装在图4的注释设备413中，其在图4的注释设备413的显示器上指示图2A的标记界面206。在一些情况下，图2A的标记界面206可以经由图4的网络490通过可连接到图4的人机接口(HMI)410的输入/输出接口(图5中未示出)来安装。当图2A的标记界面206在图2A的步骤S6中接收K个最重要的未标记图像205的未标记图像时，图2A的标记界面206在图5的显示区域501上示出未标记图像。图5的选择区域502指示用于标记在显示区域501上示出的未标记图像的预定候选。图2A的标记界面206允许操作者针对显示区域501中示出的未标记图像分配在选择区域502中所指示的可选注释中的一个注释。在图5中，选择区域502为选择框提供预定的标记候选：狗、猫、汽车和飞机。作为示例，图5示出了指示在显示区域501中显示的猫图像503的未标记图像。在这种情况下，响应于选择区域502中所示的猫图像，操作者(注释者)检查猫的注释框。除了种类之外，标记者还应绘制可以紧密围绕对象的边界框。在该示例中，框504是用于包围猫的紧密边界框。图2A的标记界面206被配置为根据操作者的操作加载并示出存储器中的标记储存器所存储的未标记图像。如图2A可以看出，由图2A的标记界面206标记的图像在步骤S3中存储到存储器中的新训练图像储存区域中，作为新的已标记训练图像207。

特征

对象检测器可以至少通过针对一组图像在每个图像上生成不同比例和纵横比的多个框，来检测图像中至少一个对象的位置。对于每个框，将框中每个图像内的像素与存储器中所存储的主动学习数据的感兴趣对象的图案进行比较，以确定多个框中每个框的相似度的测量值。如果一个或更多个框与相同的所存储的对象图案交叠，则调整每个框的位置以匹配对象的至少一个所存储图案。从交叠的、具有确定的相似度测量值的其它框中过滤出具有高于预定交叠阈值的所确定的相似度测量值的框中的一些。

对象检测器可以至少通过针对每个框，将框中每个图像内所确定的图案与所存储的主动学习数据的不同语义类别的图像图案进行比较以确定多个框中每个框的相似度的测量值，来检测图像中至少一个对象的语义类别。其中，框中的图像内所确定的图案由更小的图像图案组成，这些更小的图像图案是从一组图像中所选择的图像中的不同比例/颜色/纹理的图像特征所定义的。基于所确定的与全部类别的测得相似度，对全部类别进行归一化，使得归一化后的相似度之和等于1，并且每个类别的归一化后的相似度成为类别概率。

此外，对象检测器的关于图像中对象的位置的不确定度可以是围绕对象的边界框的紧密度的函数。至少一个方面可以包括检测指标，该检测指标可以与对象检测器的关于对象的语义类别的确定度和对象的位置的紧密度之间的不一致度成比例。至少另一方面可以包括围绕对象的边界框的紧密度的函数是使用初始边界框和最终边界框的交集与初始边界框和最终边界框的并集之比来确定的。其中，对象检测器估计围绕对象的初始边界框，并调整初始边界框以生成最终边界框。这样，初始边界框由用户指定或经由区域提议网络来细化，并且对象检测器将多个初始边界框放置在图像中的不同位置处，并选择最大限度地包含特定语义类别的对象的初始边界框。

预期的是，对象检测器的关于对象的位置的不确定度可以是围绕对象的边界框的稳定度的函数。其中，处理器检测由噪声变更的图像中的对象，并基于针对图像确定的边界框与针对由噪声变更的图像确定的边界框之间的差异来确定边界框的稳定度。其中，检测指标是神经网络的关于边界框中的对象的类别的不确定度的加权总和，并且边界框的稳定度是基于在噪声下边界框的敏感度如何；如果对象的边界框的位置和尺寸在不同程度的噪声下可以是近似的，则边界框是稳定的。此外，输出接口可以是显示设备。

预期的是，用于对象检测的主动学习方法使用考虑图像中对象的定位和分类二者的对象检测器。其中，一旦不一致度(即，检测指标与对象检测器的关于对象的语义类别的确定度和对象的位置的紧密度之间的不一致度成比例)或框的稳定度(即，对象检测器的关于对象的位置的不确定度是围绕对象的边界框的稳定度的函数，并且处理器检测由噪声变更的图像中的对象，并基于针对图像确定的边界框与针对由噪声变更的图像确定的边界框之间的差异来确定边界框的稳定度)被计算为每个图像的得分，我们可以选择不一致度最高或稳定度最低的未标记图像。这样，所选的图像将被发送给人类标记者进行注释，以选择包含对象和相应类别的框。这些带有标签的图像将用于训练初始对象检测器以提高其性能。可以重复此过程，直到满足对象检测器的性能。

图6是例示了根据本公开的实施方式的可以使用替代计算机或处理器实现的图1A的方法的框图。计算机611包括通过总线656连接的处理器640、计算机可读存储器612、储存器658以及具有显示器652和键盘651的用户接口649。例如，与处理器640和计算机可读存储器612通信的用户接口649一旦接收到用户从用户界面657的表面、键盘表面的输入，就获取测量数据并将测量数据存储在计算机可读存储器612中。

预期的是，存储器612可以存储由处理器可执行的指令、历史数据以及本公开的方法和系统可以利用的任何数据。处理器640可以是单核处理器、多核处理器、计算集群或任何数量的其它配置。处理器640可以通过总线656连接到一个或更多个输入和输出设备。存储器612可以包括随机存取存储器(RAM)、只读存储器(ROM)、闪存或任何其它适用的存储器系统。

仍然参照图6，储存设备658可以适于存储由处理器使用的补充数据和/或软件模块。例如，储存设备658可以存储历史设备数据和诸如设备手册之类的其它相关设备数据，其中设备是能够获得如以上所述关于本公开的测量数据的感测设备。附加地或另选地，储存设备658可以存储类似于测量数据的历史数据。储存设备658可以包括硬盘驱动器、光盘驱动器、拇指驱动器、驱动器阵列或其任何组合。

该系统可以通过总线656可选地链接到适于将系统连接到显示设备(未示出)的显示接口(未示出)，其中显示设备可以包括计算机监视器、相机、电视、投影仪或移动设备等。

计算机611可以包括电源654，依据应用，电源654可以可选地位于计算机611的外部。打印机接口659也可以通过总线656连接并且适于连接到打印设备632，其中打印设备632可以包括液体喷墨打印机、固体墨打印机、大规模商用打印机、热敏打印机、UV打印机或染料升华打印机等。网络接口控制器(NIC)634适于通过总线656连接到网络636，其中测量数据或其它数据等可以显示在计算机611外部的第三方显示设备、第三方成像设备和/或第三方打印设备上。

仍然参照图6，测量数据或其它数据等可以经由网络636的通信信道传输，和/或存储在储存系统658内，用于存储和/或进一步处理。此外，可以从接收器646(或外部接收器638)无线或硬连线接收测量数据或其它数据，或经由发送器647(或外部发送器639)无线或硬连线发送测量数据或其它数据，接收器646和发送器647两者通过总线656连接。计算机611可以经由输入接口608连接到外部感测设备644和外部输入/输出设备641。计算机611可以连接到其它外部计算机642和外部感测设备644。输出接口609可以用于输出来自处理器640的经处理的数据。此外，传感器604可以从场景602获取一组图像。

可以以多种方式中的任何一种来实现本公开的上述实施方式。例如，可以使用硬件、软件或其组合来实现实施方式。在权利要求中使用诸如“第一”、“第二”之类的序数词来修饰权利要求元素本身并不意味着一个权利要求元素相对于另一个权利要求元素的优先级、位次或次序，或者执行方法的动作的时间顺序，而是仅用作标签以将具有一定名称的一个权利要求元素与具有相同名称(除了使用的序数词)的另一元素区分开，以区分权利要求元素。

Claims

1.一种主动学习系统，该主动学习系统包括：

输入接口，该输入接口从传感器接收场景的一组图像；

存储器，该存储器用于存储主动学习数据，该存储器包括被训练用于检测图像中的对象的对象检测器；

处理器，该处理器与所述输入接口和所述存储器通信，该处理器被配置为：

使用所述对象检测器检测从所述一组图像中选择的图像中的至少一个对象的语义类别和位置，以产生作为所述对象检测器的关于所述图像中所述对象的所述语义类别的不确定度和所述对象检测器的关于所述图像中所述对象的所述位置的不确定度的组合的检测指标；以及

输出接口，该输出接口与所述处理器通信，以在所述检测指标高于阈值时显示供人标记的图像。

2.根据权利要求1所述的主动学习系统，其中，所述对象检测器通过以下操作检测所述图像中的所述至少一个对象的所述位置：

针对所述一组图像，在每个图像上生成不同比例和纵横比的多个框，

针对每个框，将该框中每个图像内的像素与所述存储器中所存储的所述主动学习数据中的感兴趣对象的图案进行比较，以确定所述多个框中的每个框的相似度的测量值；

如果一个或更多个框与相同的所存储的对象图案交叠，则调整每个框的位置以匹配对象的至少一个所存储图案；以及

从交叠的、具有确定的相似度测量值的其它框中过滤出具有高于预定交叠阈值的确定的相似度测量值的框中的一些。

3.根据权利要求2所述的主动学习系统，其中，所述对象检测器通过以下操作检测所述图像中的所述至少一个对象的所述语义类别：

针对每个框，将该框中的每个图像内所确定的图案与所存储的所述主动学习数据的不同语义类别的图像图案进行比较，以确定所述多个框中每个框的相似度的测量值，其中，所述框中的所述图像内所确定的图案由从所述一组图像中所选择的图像中的不同比例/颜色/纹理的图像特征定义的较小图像图案组成；以及

基于对全部类别所确定的测量相似度，对全部类别进行归一化，使得归一化后的相似度之和等于1，并且每个类别的归一化后的相似度成为类别概率。

4.根据权利要求1所述的主动学习系统，其中，所述对象检测器的关于所述图像中所述对象的位置的不确定度是围绕所述对象的边界框的紧密度的函数。

5.根据权利要求4所述的主动学习系统，其中，所述检测指标与所述对象检测器的关于所述对象的所述语义类别的确定度和所述对象的所述位置的所述紧密度之间的不一致度成比例。

6.根据权利要求4所述的主动学习系统，其中，围绕所述对象的所述边界框的紧密度的函数是使用初始边界框和最终边界框的交集与所述初始边界框和所述最终边界框的并集之比来确定的。

7.根据权利要求6所述的主动学习系统，其中，所述对象检测器估计围绕所述对象的初始边界框，并调整所述初始边界框以生成所述最终边界框。

8.根据权利要求7所述的主动学习系统，其中，所述初始边界框由用户指定或者经由区域提议网络来细化。

9.根据权利要求8所述的主动学习系统，其中，所述对象检测器将多个初始边界框放置在所述图像中的不同位置处，并选择最大限度地包含特定语义类别的对象的所述初始边界框。

10.根据权利要求1所述的主动学习系统，其中，所述对象检测器的关于所述对象的位置的所述不确定度是围绕所述对象的边界框的稳定度的函数。

11.根据权利要求10所述的主动学习系统，其中，所述处理器检测由噪声变更的图像中的所述对象，并基于针对所述图像确定的所述边界框与针对由噪声变更的图像确定的所述边界框之间的差异来确定所述边界框的所述稳定度。

12.根据权利要求11所述的主动学习系统，其中，所述检测指标是所述神经网络的关于边界框中的所述对象的类别的所述不确定度的加权总和，并且所述边界框的所述稳定度是基于在噪声下所述边界框的敏感度如何；如果对象的边界框的所述位置和尺寸在不同程度的噪声下能够近似，则所述边界框是稳定的。

13.根据权利要求1所述的主动学习系统，其中，所述输出接口是显示设备。

14.一种主动学习方法，该主动学习方法包括以下步骤：

存储器经由输入接口从传感器接收包括场景的多组图像的成像数据，所述存储器包括具有所存储的主动学习数据的储存设备，该储存设备包括被训练用于检测图像中的对象的对象检测器；

输出接口；以及

处理器被配置为连接到所述存储器、所述输入接口和所述输出接口，其中，所述处理器执行用于使用所述对象检测器产生检测指标的指令，其中，所述对象检测器执行以下步骤：

使用所述对象检测器检测从所述多组图像中的至少一组图像中选择的图像中的至少一个对象的语义类别和位置，以产生作为所述对象检测器的关于所述图像中所述对象的所述语义类别的不确定度和所述对象检测器的关于所述图像中所述对象的所述位置的不确定度的组合的检测指标；

使用所述输出接口将所述图像输出到与成像设备连接的成像接口，以用于在所述检测指标高于阈值时在所述成像设备上显示所述图像以供人标记。

15.根据权利要求14所述的主动学习方法，其中，所述对象检测器的关于所述图像中所述对象的位置的所述不确定度是围绕所述对象的边界框的紧密度的函数。

16.根据权利要求15所述的主动学习方法，其中，所述检测指标与所述对象检测器的关于所述对象的所述语义类别的确定度和所述对象的位置的所述紧密度之间的不一致度成比例。

17.根据权利要求16所述的主动学习方法，其中，围绕所述对象的所述边界框的紧密度的函数是使用初始边界框和最终边界框的交集与所述初始边界框和所述最终边界框的并集之比来确定的。

18.根据权利要求17所述的主动学习方法，其中，所述对象检测器估计围绕所述对象的初始边界框，并调整所述初始边界框以生成所述最终边界框。

19.一种用于使用对象检测器进行对象检测的主动学习方法，该对象检测器考虑了图像中的对象的定位和分类二者，该主动学习方法包括以下步骤：

经由输入接口从传感器接收包括场景的多组图像的成像数据并且在存储器中存储所述成像数据，其中，所述存储器包括具有所存储的主动学习数据的储存设备，该储存设备包括被训练用于检测图像中的对象的对象检测器；

使用与所述输入接口和所述存储器通信的处理器，所述处理器被配置为用于执行用于使用所述对象检测器产生检测指标的指令，其中所述对象检测器执行以下步骤：

使用所述对象检测器检测从所述多组图像中的至少一组图像中选择的图像中的至少一个对象的语义类别和位置，以产生作为所述对象检测器的关于所述图像中所述对象的所述语义类别的不确定度和所述对象检测器的关于所述图像中所述对象的所述位置的不确定度的组合的检测指标；以及

当所述检测指标高于阈值时，经由输出接口将所述图像输出到成像设备，以显示供人标记的图像，其中，所述处理器与所述输出接口和成像设备通信。

20.根据权利要求19所述的主动学习方法，其中，所述对象检测器的关于所述图像中所述对象的位置的不确定度是围绕所述对象的边界框的紧密度的函数，

其中，所述检测指标与所述对象检测器的关于所述对象的所述语义类别的确定度和所述对象的位置的所述紧密度之间的不一致度成比例，或者

其中，围绕所述对象的所述边界框的紧密度的函数是使用初始边界框和最终边界框的交集与所述初始边界框和所述最终边界框的并集之比来确定的，并且

其中，所述对象检测器估计围绕所述对象的初始边界框，并调整所述初始边界框以生成所述最终边界框，使得所述初始边界框由用户指定或者经由区域提议网络来细化。