CN108805170A

CN108805170A - 形成用于全监督式学习的数据集

Info

Publication number: CN108805170A
Application number: CN201810422155.2A
Authority: CN
Inventors: L·杜邦德迪内尚; A·雷耶步斯夫
Original assignee: Dassault Systemes of America Corp
Current assignee: Dassault Systemes of America Corp
Priority date: 2017-05-05
Filing date: 2018-05-04
Publication date: 2018-11-13
Anticipated expiration: 2038-05-04
Also published as: JP2018200685A; EP3399465A1; CN108805170B; US20210049420A1; JP7128022B2; US10929721B2; US11763550B2; US20180322371A1

Abstract

本发明特别涉及一种信号处理的计算机实现的方法，包括：提供图像；针对图像的至少一个子集中的每个相应的一个：应用弱监督式学习函数，弱监督式学习函数输出相应对，所述相应对中的每个包括相应定位和一个或多个相应置信度分数，每个置信度分数表示相应对象类别在相应定位处的实例化概率；基于所述弱监督式学习函数的输出来确定一个或多个相应注释，每个注释包括相应定位和表示相应对象类别在相应定位处的相应标签；以及形成包括数据片段的数据集，每个数据片段包括所述子集的相应图像和针对所述相应图像确定的所述一个或多个注释的至少一部分。这种方法改进了对象检测领域。

Description

形成用于全监督式学习的数据集

技术领域

本发明涉及计算机程序和系统领域，并且更具体地涉及与信号处理有关的方法、设备、数据结构和程序。

背景技术

市场上提供了用于对象的设计、工程和制造的许多系统和程序。CAD是计算机辅助设计的首字母缩略词，例如它涉及用于设计对象的软件解决方案。CAE是计算机辅助工程的缩写，例如它涉及用于模拟未来产品的物理行为的软件解决方案。CAM是计算机辅助制造的首字母缩略词，例如它涉及用于定义制造过程和操作的软件解决方案。在这种计算机辅助设计系统中，图形用户界面在技术效率方面起着重要的作用。这些技术可能嵌入在产品生命周期管理(PLM)系统中。PLM指的是一种商业战略，其帮助企业共享产品数据、应用公共流程，并利用企业知识进行跨越扩展企业概念从概念到产品生命尽头的产品开发。达索系统(Dassault Systèmes)(以CATIA、ENOVIA和DELMIA为商标)提供的PLM解决方案提供了组织产品工程知识的工程中心、管理制造工程知识的制造中心以及使企业集成和连接到工程和制造中心的企业中心。整个系统提供了开放的对象模型，其连接产品、流程和资源以实现动态的、基于知识的产品创建和决策支持，这驱动优化的产品定义、制造准备、生产和服务。

在这种背景和其他背景下，场景理解变得越来越重要。场景理解显然涉及诸如多对象检测算法之类的对象检测解决方案。例如，给定图像，多对象检测算法可以包括同时定位和识别多个对象的所有实例。对象检测可能在许多应用中非常有用，所述应用如盲人或部分视力不佳的人的身体佩戴的摄像头或自动驾驶汽车。

以下论文涉及该领域，并在下文中提及：

[1]Y.Lecun等，“Backpropagation applied to handwritten zip coderecognition”,Neural Comput,1989

[2]S.Ren,等，“Faster R-CNN:Towards Real-Time Object Detection withRegion Proposal Networks”,NIPS 2015

[3]J.Dai等，“R-FCN:Object Detection via Region-based FullyConvolutional Networks”,NIPS 2016

[4]K.Kim等，“PVANET:Deep but Lightweight Neural Networks for Real-timeObject Detection”,NIPS 2016

[5]O.Russakovy等，“ImageNet Large Scale Visual Recognition Challenge”,IJCV 2015

[6]本申请的优先权日期的以下URL公开的论文:http://host.robots.ox.ac.uk/pascal/VOC/voc2012/

[7]V.Kantorov等，“ContextLocNet:Context-Aware Deep Network Models forWeakly Supervised Localization”,ECCV 2016

[8]H.Bilen和A.Vedaldi“Weakly Supervised Deep Detection Networks”,CVPR2016

[9]D.Li等，“Weakly Supervised Object Localization with ProgressiveDomain Adaptation”,CVPR 2016

[10]Dim P.Papadopoulos等，“We don’t need no bounding-boxes:Trainingobject class detectors using only human verification”,CVPR 2016

[11]J.Hoffman等，“LSDA:Large Scale Detection trough Adaptation”,NIPS2014

[12]H.Bilen等，“Weakly supervised object detection with convexclustering”,CVPR 2015

[13]P.M；Long等，“Pac learning axis-aligned rectangles with respect toproduct distributions from multiple-instance examples”,Machine Learning 30(1)1998

[14]B.Babenko“Multiple Instance Learning:Algorithms and Applications”技术报告,University of California,San Diego 2004

[15]R.G.Cinbis等，“Weakly supervised object localization with multi-fold multiple instance learning”,arXiv 2015

[16]T.Deselaers等，“Localizing objects while learning theirappearance”ECCV 2010

[17]R.Girshick,“Fast R-CNN”,ICCV 2015

[18]R.Girshick等，“Rich feature hierarchies for accurate objectdetection and semantic segmentation”CVPR 2014

[19]Koen E.A.van de Sande等，“Segmentation as Selective Search forObject Recognition”,ICCV 2011

[20]Rumelhart等，“Learning internal representations by errorbackpropagation”,1986

[21]Everingham等，“The PASCAL Visual Object Classes(VOC)Challenge”

最近有大量关于针对多场景理解的多对象检测方面的研究。这种方法通常试图识别对象并以图像中的边界框的形式定位所有实例，其中不同视点和配置中的多个对象出现在混乱的背景中。当前最先进的方法采用基于卷积神经网络(CNN)的深度学习[1]。可以考虑不同级别的监督来训练这些模型。对于多对象检测的任务，最常见的是全监督和图像级监督，也称弱监督。

全监督式学习方法[2,3,4]达到在标准基准[5,6]上的最高的准确性，但是它们需要花费非常高的训练数据集。事实上，在这种情况下，每个训练图像用不同的对象位置(例如边界框)和类别(例如“人”、“汽车”、“建筑物”等)标记。

为了减少用于学习对象检测器的预先注释时间/成本，最近的工作集中于使用图像级标签来在弱监督设置中训练模型[7,8,9,10,11]。在这种情况下，训练期间可用的唯一信息是图像中存在的一组对象类别，没有任何定位信息或出现次数。

尽管由于深入学习范例而取得了进步，但针对对象检测的图像级监督仍然是非常具有挑战性的问题。与全监督的对应部分相比，弱监督设置的最新表现仍然低得多(低一半)。

一些现有的弱监督式学习方法[10,11,12]被制定为多示例学习(MIL)或与其紧密相关[13,14]。在这种定制中，图像被解释为一包区域。如果图像被标记为正的，则假定区域的中一个紧紧地包含感兴趣的对象。如果图像被标记为负的，则没有区域包含该对象。学习在估计对象出现的模型和使用出现模型来选择正包中的哪些区域对应于对象之间进行交替。MIL策略导致非凸优化问题。在实践中，求解器往往会陷入局部最优解，使得解的质量很大程度上取决于初始化[15,16]。

此外，由于CNN在许多视觉任务(包括分类和检测)中已经出乎意料地有效，所以最近的最先进的弱监督方法也建立在CNN架构或CNN功能上。例如，在[8]中，作者修改了基于区域的CNN架构[17]，并提出了具有两个流的CNN，一个侧重于识别，而另一个侧重于定位，同时从图像级标签通过端到端训练进行区域选择和分类。虽然这些方法已显示出有希望的结果，但它们存在一些缺点。通常，它们取决于从外部算法提取的区域候选者的质量[19]。这些候选者通常包含太多的噪音，这使得很难选择正确的对象建议。通常，几千个提议中只有几个是实际的对象实例。

在这种背景中，在对象检测领域仍然需要改进的解决方案。

发明内容

因此它提供了一种信号处理的计算机实现的方法。该方法包括提供图像。该方法还包括，针对图像的至少一个子集中的每个相应的一个，应用弱监督式学习函数，以及基于弱监督式学习函数的输出来确定一个或多个相应注释。弱监督式学习函数输出相应对。每个对包括相应定位和一个或多个相应置信度分数。每个置信度分数表示相应对象类别在相应定位处的实例化概率。每个注释包括相应定位和相应标签。该标签表示相应对象类别在相应定位处的实例化。该方法还包括形成数据集。数据集包含数据片段。每个数据片段包括子集的相应图像和针对相应图像确定的一个或多个注释的至少一部分。

该方法允许形成被配置用于函数的全监督式学习的数据集。由于数据集不仅包括关于图像中实例化的对象类别的信息，而且包括关于实例化的定位的信息，所以全监督式学习是可实现的。由该方法确定的注释被称为“伪强注释”，因为这些注释提供与现有技术强注释一样多的信息，即源自用户手动地定位图像中的对象的注释。该方法因此可以进一步包括这种全监督式学习。

对于弱监督式学习函数，全监督式学习函数应用于图像并输出相应对。每个输出的对包括相应定位和一个或多个相应置信度分数。每个置信度分数表示相应对象类别在相应定位处的实例化概率。对于弱监督式学习函数，由此全监督式学习函数被配置为检测图像中的对象类别的实例，从而允许场景理解。因此，该方法可以馈送检测过程，该检测过程可以包括提供全监督式学习函数并将该全监督式学习函数应用于一个或多个图像，例如其未被包括在最初提供的图像中的至少一部分。

现在，该方法以比现有技术更容易的方式形成数据集，现有技术中需要用户手动识别关于对象的定位的信息。事实上，该方法包括应用弱监督式学习函数，这意味着在前一阶段，包括初始数据片段的初始数据集可用。每个初始数据片段包括相应图像和相应注释。在这种情况下，注释由相应一组标签组成，并且每个标签表示相应图像中各个对象类别的实例化。初始数据集的每个图像被提供有的并且对于执行弱监督式学习所必需的这种信息在现有技术中被称为“弱注释”。初始数据集的弱注释可能会排除任何定位信息，并且因此比全监督式学习所需的作为强注释的信息更轻，因此更容易手动生成。

在示例中，该方法可以包括在包含了提供这样的初始数据集的过程中，与手动提供被配置用于全监督式学习的数据集相比，即使手动执行，这样的提供也相对容易。该过程还可以包括基于初始数据集来学习弱监督式学习函数。该过程然后可以包括基于所提供的图像来形成被配置用于全监督式学习的数据集，所提供的图像可以包括初始数据集的图像的子部分或全部或由其组成，和/或包括未包括在初始数据集中的图像或由其组成。

这样的框架可以至少从头开始排除任何用户手动指示图像中的对象实例的定位。事实上，该方法包括简单地应用弱监督式学习函数，并且然后基于弱监督式学习函数的输出来确定注释，其中定位信息已经可用并且可以基于该定位信息。因此定位信息不需要从头手动指示。在示例中，可能在用户启动该方法之后，可以全自动地执行弱监督式学习函数的应用、注释的确定和数据集的形成。

在示例中，该方法可以包括以下中的一个或多个：

-每个相应注释的定位对应于由弱监督式学习函数输出的一个或多个定位；

-相应于每个相应注释的对象类别是在由弱监督式学习函数输出的对应于相应注释的定位的一个或多个定位处具有实例化概率的对象类别，所述实例化概率由高于严格零的相应置信度分数来表示；

-相应于每个相应注释的对象类别是，在由弱监督式学习函数输出的对应于相应注释的定位的一个或多个定位处具有实例化概率的对象类别，所述实例化概率由最高置信度分数表示；

-相应于每个相应注释的对象类别是在由弱监督式学习函数输出的对应于相应注释的定位的一个或多个定位处具有实例化概率的对象类别，所述实例化概率由高于严格正阈值的相应置信度分数来表示；

-阈值具有取决于图像中对象的平均数量的值；

-对于子集的至少一部分的每个相应图像，相应图像被提供有相应初始标签，每个初始标签表示相应图像中的相应对象类别的实例化，并且相应图像的每个相应注释的标签表示对应于相应图像的初始标签的相应对象类别的实例化；和/或

-由弱监督式学习函数输出的对应于相应注释的定位的一个或多个定位经由聚类算法来识别。

进一步提供了能够由该方法形成的数据集。换句话说，数据集包括数据片段，每个数据片段包括相应图像，并且对于图像的至少一部分，一个或多个相应注释的每个包括相应定位和表示相应对象类别在相应定位处的实例化的相应标签。

进一步提供了能够通过上述示例的方法学习的函数，其中它包括基于所形成的数据集的全监督式学习。换句话说，该函数构成将输入变换为输出的方案，该方案可通过该方法获得。该函数可以在用于检测图像中的对象的计算机实现的过程中使用。

进一步提供了包括用于执行该方法和/或该过程的指令的计算机程序。

进一步提供了包括数据集、功能和/或程序的数据结构。

进一步提供了一种具有存储于其上的数据结构的计算机可读存储介质。

进一步提供了一种包括数据存储介质的设备，所述数据存储介质具有存储于其上的数据结构。该设备可以形成非暂时性计算机可读介质。可替换地，该设备可以包括耦合到数据存储介质的处理器。该设备因此可以形成系统。该系统可以进一步包括耦合到处理器的图形用户界面。

附图说明

现在将通过非限制性示例并参照附图来描述本发明的实施例，其中：

-图1示出了该系统的示例；以及

-图2-图10示出了该方法的示例。

具体实施方式

所称“计算机实现的”意味着步骤(或基本上所有的步骤)由至少一台计算机或任何类似系统执行。因此，计算机可以全自动地或半自动地执行步骤。在示例中，对步骤中的至少一些的触发可以通过用户-计算机交互来执行。所需的用户-计算机交互的水平可能取决于预见的自动化水平，并与实现用户意愿的需求相平衡。在示例中，这个水平可以是用户定义的和/或预先定义的。

一种方法的计算机实现的典型示例是利用适合于此目的的系统来执行该方法。该系统可以包括耦合到存储器和图形用户界面(GUI)的处理器，该存储器具有存储于其上的包括用于执行该方法的指令的计算机程序。存储器也可以存储数据库。存储器是适用于这种存储的任何硬件，可能包括几个物理不同部分(例如一个用于程序，并且可能一个用于数据库)。

图1示出了系统的示例，其中该系统是客户端计算机系统，例如，用户的工作站。

该示例的客户端计算机包括连接到内部通信总线1000的中央处理单元(CPU)1010，也连接到总线的随机存取存储器(RAM)1070。客户端计算机还被提供有图形处理单元(GPU)1110，其与连接到总线的视频随机存取存储器1100相关联。视频RAM 1100在本领域中也被称为帧缓冲器。大容量存储器设备控制器1020管理对大容量存储器设备(例如硬盘驱动器1030)的存取。适合于有形地体现计算机程序指令和数据的大容量存储器设备包括所有形式的非易失性存储器，例如包括半导体存储器设备，诸如EPROM、EEPROM和闪存设备；磁盘，如内部硬盘和可移动盘；磁光盘；以及CD-ROM盘1040。上述任何内容都可以由专门设计的ASIC(专用集成电路)补充或包含在其中。网络适配器1050管理对网络1060的访问。客户端计算机还可以包括诸如光标控制设备、键盘等的触觉设备1090。在客户端计算机中使用光标控制设备以允许用户选择性地将光标定位在显示器1080上的任何期望位置。另外，光标控制设备允许用户选择各种命令和输入控制信号。光标控制设备包括许多用于向系统输入控制信号的信号发生设备。通常，光标控制设备可以是鼠标，鼠标的按钮用于生成信号。可选地或另外地，客户端计算机系统可以包括触敏垫和/或触敏屏幕。

该计算机程序可以包括可由计算机执行的指令，该指令包括用于使上述系统执行该方法的单元。该程序可以记录在任何数据存储介质上，包括系统的存储器。该程序可以例如以数字电子电路或计算机硬件、固件、软件或其组合来实现。程序可以实现为装置，例如有形地体现在机器可读存储设备中以用于由可编程处理器执行的产品。方法步骤可以由可编程处理器执行，所述可编程处理器执行指令程序以通过对输入数据进行操作并生成输出来执行该方法的功能。因此，处理器可以是可编程的并且被耦合以从数据存储系统、至少一个输入设备和至少一个输出设备接收数据和指令，并且将数据和指令发送到数据存储系统、至少一个输入设备和至少一个输出设备。应用程序可以以高级程序或面向对象的编程语言来实现，或者如果需要的话可以以汇编或机器语言来实现。在任何情况下，该语言可以是编译或解释的语言。该程序可以是完整的安装程序或更新程序。在任何情况下，程序在系统上的应用都会导致用于执行该方法的指令。

现在讨论本身从图像中的对象检测领域已知的不同概念。

图像是表示例如在场景上的物理信号的空间分布的数据结构。空间分布可以具有任何维度，例如2D或3D。空间分布可以具有任何形状，例如形成网格并由此定义像素，网格可能不规则或规则。物理信号可以是任何信号，例如颜色或灰度级或深度，使得图像可以是RGB图像或灰度图像或深度图像。该图像可以是合成图像或可选地是自然图像，例如照片。所提供的和/或全监督式学习函数要应用的图像可以全部具有相同类型，例如全部是矩形2D RGB或灰度或深度图像。可替代地，可以设想一组不同的图像类型。

表述“对象类别”表示可以在图像中被实例化和定位的实体(即对象)的任何类别，这些实体至少在某种程度上被例如弱监督式学习函数之类的对象检测器识别为属于同一类别。如果对象类别的版本(换言之，该类别的对象)在相应定位处被表示，则对象类别被说成在图像的相应定位处被实例化。

同一对象类别的不同实例，换言之，同一类别的不同对象可以呈现不同的特征。例如，在同一图像中表示的不同车型可以全部被认为是同一对象类别的实例，例如，“汽车”类别。

弱监督式学习函数被配置为检测图像中的对象类别的实例，由该方法设想的对象类别可以形成对象类别的预定集合，例如，对应于由弱监督式学习函数可检测的所有类别。因此，对象的预定集合可以由弱监督式学习函数的配置或能力来定义。

类别之间的差异水平可以取决于由预定集合传达的细节水平。换句话说，取决于弱监督式学习函数的区分能力，可以认为汽车和卡车属于同一对象类别(例如“车辆”)或不同类别(“汽车”和“卡车”)。

术语“定位”指定关于图像的任何位置信息。定位可以例如定义图像的子部分。子部分可以是连通的和/或凸出的。由该方法设想的定位可以例如限于边界框，即定义其中的图像的子部分的矩形。在另一个示例中，弱监督式学习函数和/或全监督式学习函数可以输出由输入图像的分割定义的定位，换句话说，每个像素与片段相关联的格式，每个片段由此被定位。

图像或图像中的相应定位可以被提供有标签。每个标签表示相应对象类别的实例化。换句话说，每个标签是表示这样的事实的数据片段，即在图像中存在相应对象类别的至少一个实例(即，相应类别的对象)，或者分别恰好在定位处存在相应对象类别的一个实例。因此标签可以存在于图像级，在这种情况下，标签形成图像的弱注释，即标签仅允许弱监督式学习，或者标签可以存在于定位级，在这种情况下，标签还允许全监督式学习。

表达“对图像中对象的检测”表示与图像中对象类别的实例化的自动识别有关的任何处理。弱监督式学习函数和全监督式学习函数被配置为执行这种检测。具体而言，“弱监督式学习函数”和“全监督式学习函数”中的每个被配置为拍摄图像作为输入并且针对输入图像输出相应对。每个输出的对形成包括相应定位和一个或多个相应置信度分数的数据片段。每个置信度分数表示相应对象类别在相应定位处的实例化概率。这种输出的信息可以以用于任何特定场景理解应用的任何方式被后处理。

弱监督式学习函数和全监督式学习函数在学习方式上有所不同。然而，对于被配置用于全监督式学习(并且因此更不用说弱监督式学习)的相同数据集，全监督式学习函数通常比弱监督式学习函数执行得更好，因为它以更大准确度来执行对象检测。实际上，弱监督式学习必须包括如何定位与数据集的标签相对应的对象的学习，因为这些信息不在注释中提供。相反，全监督式学习可以集中于识别对象类别本身，因为定位信息已经由注释提供和设置。由该方法设想的弱监督式学习函数和全监督式学习函数可以是那些格式的任何函数，稍后提供示例。

对于现有技术的对象检测器，如[18]，该方法的框架可以基于深度学习模型。现在讨论从深度学习领域中已知的应用于对象检测并能由该方法实现的不同概念。

深度学习模型由数百万个参数来表征，这些参数值不能手动设置。因此，这些参数必须由学习算法设置。当学习算法正在更新模型参数时，该模型被认为处于“训练模式”。它依赖于与每个输入相关联的注释根据针对每个输入的输出来连续地“校正”模型。注释是与特定输入相关联的一组数据，该特定输入允许评估模型的输出是真是假。例如，经过训练以区分猫和狗的图像的对象分类器可以基于猫和狗的注释图像的数据集来执行，每个注释是“猫”或“狗”。因此，如果在训练模式下，对象分类器针对输入中的猫图像输出“狗”，则学习算法将通过更新其参数来校正模型。这种依赖于注释数据集来监督模型训练的方式被称为“监督式学习”。

一旦模型被训练，就停止更新其参数。然后，该模型仅用于处理新的输入(即在训练模式期间无法预见的输入)并返回检测结果，称其处于“测试模式”。

对象检测器可以返回两个不同的输出，因为“检测”的任务可能意味着联合执行识别(或分类)任务和定位任务。

1.定位输出：依赖于边界框可以实现对象定位。边界框是矩形框，其轴与图像边平行。它由四个坐标表征。理想情况下，对象检测器可以以适当的比例和尺度针对每个对象返回以对象为中心的边界框。

2.分类输出：依赖于与针对每个边界框的置信度分数相关联的类别标签，可以实现对象分类。置信度分数可以是0到1之间的实数。与1越接近，对象检测器对与相应边界框相关联的类别标签而言越可信。

对于这样的模型，可以区分两种范例：

·全监督对象检测：在这个范例中，注释可以被标记为边界框。它们被称为“强注释”。在这个范例中，注释允许分别校正两个不同的输出。

·弱监督对象检测：在这个范例中，注释可能只是图像级别的标签，即每个图像都由出现在图像中的对象类别列表进行注释。它们被表示为“弱注释”。没有关于对象定位的信息被提供，也没有可能提供关于每个对象类别出现次数的信息。因此，依赖于图像级标签，定位输出无法直接校正。然而，弱监督对象检测器被设计为用这种监督进行训练并且返回与全监督式对象检测器相同类型的输出。

该方法实现了弱监督对象检测的范例。在这个范例中，模型用弱注释图像的数据集进行训练。

在现有技术中，弱监督对象检测器直接用弱注释(即，仅图像级标签)进行训练，并以与针对每个对象类别的置信度分数相关联的边界框的形式返回检测结果。

由该方法提供的一种可能性是仅用图像级类别标签来训练对象检测器而没有任何定位信息中的一种。因此该方法可以包括新颖的弱监督对象检测框架，其中可以利用全监督对象检测器的高性能和弱监督对象检测器的低注释成本。

图2示出了该方法的示例的流程图。

图2的方法包括提供S10图像。在S10处提供的每个图像都被提供有相应初始标签。因此，在S10处提供的数据形成被配置用于任何弱监督式学习函数的学习的数据集，例如在S20处涉及的(一个或多个)学习函数。因此，图2的方法可以包括S10之后和S20之前的这种弱监督式学习。

初始标签还允许在S50处执行特定的过滤，这改进了形成的数据集。在只有子集的图像被提供有相应初始标签的情况下也是如此。现在，以下讨论也适用于在S10处没有提供任何初始标签的情况下，考虑到S50被丢弃(换句话说，S40的输出被直接输入到S60)，在这种情况下，与S50有关的讨论将被丢弃。

该示例的方法包括针对在S10提供的图像的至少一个子集的每个图像执行特定方案S20-S80。在整个处理的任何时间，由于任何原因(例如，如果图像证明无用，例如因为它被损坏或与另一图像冗余)，可以丢弃在S10处提供的图像。而且，对于给定图像，S20-S80中的任何一个的输出可能是无效的。在这种情况下，该方案可以针对给定的图像结束。给定的图像然后可以被丢弃或者如此提供给S90，因为无效结果可以构成用于稍后学习S100的有用信息。为了清楚起见，这些情况未在图中表示。所提及的“子集”在任何情况下都是在S10处提供的针对其正常执行S20-S80的一组图像的一部分。

该方案包括应用S20弱监督式学习函数。对于输入到S20的每个图像，弱监督函数可以是相同的预定函数。在其他示例中，可以取决于输入的图像来在S20处应用不同的弱监督式学习函数。

弱监督式学习函数针对每个图像输出边界框，并且针对每个输出的边界框输出一组置信度分数。每个置信度分数与可由弱监督式学习函数检测到的相应对象类别相关联，并表示在边界框中的对象类别的实例化概率(根据弱监督式学习函数)。换句话说，弱监督函数知道对象类别的预定的集合(例如，来自先前的弱监督式学习)，并且对于在S20处输入的每个图像，弱监督函数输出应包含对象的边界框和该对象属于每个预定类别的概率。然而，除了S60-S70以外的下面的讨论也适用于除边界框以外的其他类型的定位。

此时，图2的方法实现用于处理关于最终形成的数据集的S20的输出的选项。这些选项参与在S80处形成输入到S20的图像的相关注释以用于稍后的全监督式学习S100。在S80处形成的注释包括边界框，每个边界框与指示对象类别的相应标签相关联，对象类别的实例(即类别的对象)应该由边界框中的图像表示。现在，这些选项旨在确定要在S80中包括在注释中的每个边界框和在S20中输出的一个或多个边界框之间的对应关系。现在解释这一点。

该方法首先包括对由S20输出的所有边界框进行循环，并且滤除S30不是最高置信度分数的所有置信度分数。换句话说，该方法针对每个边界框选择最高置信度分数并丢弃与所有其他置信度分数有关的信息(包括相关联的对象类别)。此时，剩余信息由数据片段组成，每个数据片段包括由S20输出的边界框中的相应边界框、每个边界框的单个相应对象类别以及相应边界框处的相应对象类别的实例化的相应置信度分数。

该方法的其余部分是确定要在S80中包括在注释中的边界框和与同一对象类别相关联的其余信息中的一个或多个边界框之间的对应关系。因此，所述同一对象类别是具有由相应置信度分数表示的实例化概率的对象类别，实例化概率其不仅严格高于零，而且还是(每个对应的边界框的)最高置信度分数。这允许过滤确保在S90最终形成相关数据集。

现在，图2的方法实现其他选项以改善过滤。

该示例的方法尤其地包括滤除S40由S30输出的与低于(例如严格地或不严格)严格正的预定阈值的置信度分数相关联的所有边界框。这可以减少不相关信息的量(由于概率太低)。

在示例中，阈值可以具有如下值，其取决于在其中执行S20的图像中的对象的平均数量(即，每个图像的任何对象类别的实例的平均值，在这样的情况下相同类别的两个实例被计数两次)。这种平均数可以以任何方式和/或在任何时间提前预提供或计算或近似(例如基于S20或S30的输出)。

阈值的值可以是这样的，例如严格地说，输入到S60的每个图像的边界框的平均数比输入到S20的每个图像的所述对象的平均数量高。考虑到任何后续的过滤(例如本示例中的S50)，该方法例如可以设想输入到S60的每个图像的边界框的最小平均数，所述最小平均数(例如，严格地)高于输入到S20的每个图像的对象的平均数量，该阈值是确保达到该最小平均数的任何值。该方法可以以任何方式明确地确定这样的阈值，或者可选地迭代地在边界框中从较高置信度分数值开始到较低值进行过滤，直到达到输入到S60的边界框的最小平均数。

该示例的方法进一步包括：针对给定图像，滤除S50由S40输出的与不在S10中针对给定图像提供的初始标签中的对象类别对应的置信度分数相关联的所有边界框(即，在两个先前的过滤器S30和S40之后剩余的所有边界框)。这样的滤除S50考虑到初始标签基本穷举地指示在S10处提供的图像中哪些对象类别被实例化，使得在S50处滤除与该考虑不一致的结果。当来自用户的最初的标签将弱注释添加到图像以创建初始数据集时，证明尤其如此。

该示例的方法然后对每个输入图像执行聚类算法，其是逐类别执行的。对于每个对象类别，聚类算法都可以找到彼此相邻定位的边界框的组(或群集)，并且可以假定它们表示同一个对象。弱监督式学习函数的应用S20实际上包括不仅关于由不同于1的置信度分数值表示的对象类别的不确定性水平，而且还包括关于由对应于单个对象实例的该多个边界框表示的精确定位本身的不确定性水平。

基于任何定位距离的任何聚类算法都可以实现。在示例中，该方法实施层级聚类，即，输出可在任何给定深度切割以便产生相对应数量的群集的树状图的聚类。可以选择给定的深度以对应于等于对其执行S20的图像中的对象的平均数量的多个群集。

然后，该示例的方法包括：针对每个群集，确定S70表示群集的单个对应边界框。这可以以任何方式执行，例如通过对群集的所有边界框坐标求平均。可选地，聚类S60本身可以输出每个群集的质心的坐标，这种质心在当前情况下对应于如下边界框，该边界框可以是在S70确定的边界框。在S70确定的边界框与对应于该群集的对象类别相关联，并且这样的信息在S80变为当前输入图像的注释。

最终，该方法在S90处形成具有子集和所述注释的图像的数据集，并且该示例的方法还包括基于该数据集来学习S100(或训练)对象检测函数。可替代地，可以将数据集发送给第三方以用于学习。

在示例中，由此该方法可以提供弱监督对象检测框架，其优点包括：

·比当前最先进的弱监督对象检测器有更高的准确度。依赖于称为“mAP”的度量(在[21]中描述)，已经在测试中评估了准确度。度量越高，模型越准确。准确度以百分比表示。该方法的测试显示mAP从约35％改善至约40％。

·由该方法提出的对象检测器形成不取决于外部区域提议算法的统一模型，外部区域提议算法是耗时且不准确的。

·此外，该方法的方式可能比现有的弱监督方式更快。

现在讨论该方法的实现方式的示例。在这些实现方式中，该方法基于输入中的以下组件执行：

模型1：未经训练的弱监督对象检测器。这种检测器仅用图像级标签进行训练，接受图像/场景作为输入并返回与全监督的对象检测器相同的输出，即一组边界框，每个边界框与标签和置信度分数相关联。

·模型2：未经训练的全监督对象检测器。这种类型的对象检测器需要强注释，并且比弱监督对象检测器更有效。

·具有弱注释的图像数据集。因此，数据集的每个图像与出现在图像中的对象类别的列表相关联。

在这些实现方式中，该方法提供了由两个连续阶段组成的框架：

1.离线阶段：本阶段旨在通过四个步骤来训练模型2。这个阶段对用户是透明的。

1)首先，该方法可以包括在具有弱注释的图像的数据集上训练模型1，如图3所示。一旦训练完毕，该方法可以在测试模式下通过该模型。

2)然后，该方法可以包括使用模型1来处理数据集的每个图像，如图4所示。现在，每个图像都与弱注释和由模型1提供的检测结果相关联。由模型1提供的检测结果由具有类别标签和置信度分数的边界框列表组成。

3)该方法可以包括过滤这些结果以形成“伪强注释”，如图5所示。这个过滤可能包括两个步骤：

i.首先，该方法可以修复置信度分数阈值以保持置信度分数在该阈值之上的边界框。

ii.其次，对于每个图像，该方法可以仅保留其标签出现在初始弱注释中的边界框。

数据集的图像现在与伪强注释相关联。

4)该方法可以包括在具有由步骤3提供的注释(即伪强注释)的数据集上训练模型2，如图6所示。

2.在线阶段：模型2可以在测试模式下通过，以对任何未预见的输入图像执行对象检测，如图7所示。

这种弱监督框架允许模型1和模型2之间的性能增益。

图8示出了离线阶段和在线阶段的这种技术工作流：

现在讨论应用于模型1检测结果的过滤的实现细节的示例。

一旦模型1被训练，该方法在针对数据集2的每个图像的测试模式下获得由模型1提供的检测结果。因此，对于每个图像，该方法获得边界框的列表，每个边界框与概率向量相关联，概率向量表示对于每个类别，边界框内的图像属于这个类别的概率。

如图9所示，边界框过滤的过程可以在三个连续步骤中分解，分别对应于S30-S40、S50和S60-S70的示例。

第一步包括标签关联和基于置信度阈值的过滤。现在讨论示例。

该方法可首先将每个边界框与单个标签和概率向量中的对应值相关联。所选标签可以对应于概率向量中具有最高值的那个标签。该值被称为边界框的置信度分数。然后，依赖于置信度阈值，可以执行第一过滤：置信度分数低于置信度阈值的每个边界框被移除。该置信度阈值的值(其是0和1之间的数字)可以取决于数据集2的特性。例如，该方法可以基于数据集2的每个图像的对象的平均数。如果该平均数事先不知道，则可以确定平均值的近似。给定该信息，置信度阈值的值可以被设置，使得聚类步骤的输入中的边界框的每个图像的平均数大于每个图像的平均对象数。因此，置信度阈值属于区间[0，b]，其中b是极限值，因此两个均值相等。

第二步包括标签过滤。现在讨论示例。

在第一步之后，如果数据集2被弱注释，即如果每个图像与指示出现在图像内(以及不出现)的对象类别列表的注释相关联，则可以执行第二过滤。这种过滤可能简单地只保留标签出现在注释中的边界框。

第三步包括聚类。现在讨论示例。

依赖于使用聚类算法，可以过滤由先前的过滤步骤返回的边界框。该算法的目的可以是降低边界框的定位噪声。对于每个图像，该算法独立地应用于每个检测类别的一组边界框。给定具有至少一个检测到的边界框的类别和图像，该方法可以对作为4D向量的边界框坐标组应用聚类算法。聚类的数量可能未知。可以实现求解针对未知数量的群集的聚类问题的任何算法，诸如Xmeans或层级聚类(如Xu R，Wunsch D的论文“Survey ofClustering Algorithms”中所述，特别是在第650-651页中所述)。在测试成功和提高检测精度的实现方式中，该方法可以实现层级聚类算法。这种方法可以包括基于适当的度量和连接标准来建立群集的层级结构。可以使用欧几里得距离和“单连接聚类”来测试该算法。可以使用其他度量和连接标准。该算法构建树状图。给定一定的高度，该方法可以切割树状图并获得在该高度处定义的群集。这个高度可能会被仔细选择。在过滤的示例中，可以设置此高度，使得聚类的输出中过滤的边界框的平均数量等于数据集2内每个图像的对象的平均数量。

现在讨论两个模型的实现方式细节的示例。

该方法的主要目标可以是训练仅具有图像级类别标签而没有任何定位信息的对象检测器。该方法可以包括新颖的弱监督对象检测框架，该框架可以利用全监督对象检测器的高性能和弱监督对象检测器的低注释成本。

该方法可以通过利用深度神经网络(DNN)的能力，即基于区域的深度神经网络(基于区域的DNN)来解决这个问题。

深度神经网络是一套强大的神经网络学习技术(如[20]所述)，其是生物启发式编程范例，使计算机能够从观测数据中学习。

在对象分类中，DNN的成功归因于它们学习丰富的中级2D图像表示的能力，而不是其他图像分类方法(SVM、Boosting、随机森林等)中使用的手工设计的低级特征(HOG、Bag-of-Words、SIFT等)。更具体地说，DNN专注于基于原始数据的端到端学习。换句话说，通过完成从原始特征开始到标签结束的端到端优化，它们尽可能远离特征工程，如图10所示。

与对象分类不同，除了分类(即识别)之外，检测可能需要定位(可能很多)图像内的对象。基于区域的深度神经网络可以解决“使用区域的识别”范例内的定位问题(如[18]中所述)。粗略地说，网络可能会在离线阶段期间学习识别区域提议。区域提议可以由外部算法提供(例如[17])或在训练网络时学习(例如[2])。

该方法可以在离线阶段期间以任何方式以全监督或弱监督的方式执行对基于区域的深度神经网络的训练。

这种方法分为两个阶段。可以表示为离线阶段的第一阶段可能严重依赖于基于区域的深度神经网络并且对应于该方法可以训练两个模型的阶段：

I.模型1：对应于弱监督神经网络检测器。该方法可以例如使用WSDDN，这是一种最先进的基于区域的弱监督深度神经网络(在[8]中描述)。

II.模型2：对应全监督的对象检测器。该方法可以例如使用更快的R-CNN，这是一种最先进的基于区域的全监督神经网络检测器(在[2]中描述)。

下面的表I描述了该方法的实现方式的可能的替代实现方式：

表I-通过该方法可实现的神经网络的示例

在[18]中描述了R-CNN。

在[17]中描述了快速R-CNN。

在[4]中描述了PVANET。

在[78]中描述了ContextLocNet。

如表I所示，该方法在中间列提供的配置中进行测试，并且现在讨论获得的结果。

在结果中，可以观察到从模型1到模型2的相对性能增益为48％。依赖于“均值平均精度”的度量，评估对象检测器的性能([21])。这个度量对应于一个百分比，百分比越高，检测器就越准确。模型1的实现方式被评分为27％mAP，而模型2的实现方式被评分为40％mAP。

Claims

1.一种信号处理的计算机实现的方法，包括：

-提供(S10)图像；

-针对所述图像的至少一个子集中的每个相应的一个：

·应用(S20)弱监督式学习函数，所述弱监督式学习函数输出相应对，所述相应对中的每个对包括相应定位和一个或多个相应置信度分数，每个置信度分数表示相应对象类别在所述相应定位处的实例化概率；

·基于所述弱监督式学习函数的输出来确定(S30-S80)一个或多个相应注释，每个注释包括相应定位和表示相应对象类别在所述相应定位处的实例化的相应标签；以及

-形成(S90)包括数据片段的数据集，每个数据片段包括所述子集的相应图像以及针对所述相应图像确定的所述一个或多个注释的至少一部分。

2.根据权利要求1所述的方法，其中，每个相应注释的所述定位与由所述弱监督式学习函数输出的一个或多个定位相对应。

3.根据权利要求2所述的方法，其中，相应于每个相应注释的所述对象类别是在由所述弱监督式学习函数输出的与所述相应注释的定位相对应的所述一个或多个定位处具有实例化概率的对象类别，所述实例化概率由严格高于零的相应置信度分数表示。

4.根据权利要求3所述的方法，其中，相应于每个相应注释的所述对象类别是在由所述弱监督式学习函数输出的与所述相应注释的定位相对应的一个或多个定位处具有实例化概率的对象类别，所述实例化概率由最高置信度分数表示。

5.根据权利要求3或4所述的方法，其中，相应于每个相应注释的所述对象类别是在由所述弱监督式学习函数输出的与所述相应注释的定位相对应的一个或多个定位处具有实例化概率的对象类别，所述实例化概率由高于严格正阈值的相应置信度分数表示。

6.根据权利要求5所述的方法，其中，所述阈值具有取决于所述图像中的对象的平均数量的值。

7.根据权利要求3-6中的任一项所述的方法，其中，针对所述子集的至少一部分的每个相应图像：

·所述相应图像被提供有相应初始标签，每个初始标签表示所述相应图像中相应对象类别的实例化；并且

·所述相应图像的每个相应注释的标签表示与所述相应图像的初始标签相对应的相应对象类别的实例化。

8.根据权利要求2-7中的任一项所述的方法，其中，由所述弱监督式学习函数输出的与相应注释的定位相对应的所述一个或多个定位是经由聚类算法来识别的。

9.根据权利要求1-8中的任一项所述的方法，所述弱监督式学习函数是基于初始数据集来学习的，所述初始数据集包括初始数据片段，每个初始数据片段包括相应图像和相应注释，所述注释由相应一组标签组成，每个标签表示所述相应图像中相应对象类别的实例化。

10.根据权利要求1-9中的任一项所述的方法，其中，所述方法还包括基于形成的数据集来学习(S100)全监督式学习函数，所述全监督式学习函数应用于图像并且输出相应对，所述相应对中的每个对包括相应定位以及一个或多个相应置信度分数，每个置信度分数表示相应对象类别在所述相应定位处的实例化概率。

11.一种包括计算机程序的数据结构，所述计算机程序包括指令，所述指令用于执行根据权利要求1-10中的任一项所述的方法，由根据权利要求1-10中的任一项所述的方法形成的数据集，和/或能够根据权利要求10所述的方法学习的全监督式学习函数。

12.一种包括具有存储于其上的根据权利要求10所述的数据结构的计算机可读介质的设备。

13.根据权利要求12所述的设备，其中，所述设备进一步包括耦合到所述计算机可读介质的处理器。