CN109478239A

CN109478239A - 检测图像中的对象的方法和对象检测系统

Info

Publication number: CN109478239A
Application number: CN201780044246.0A
Authority: CN
Inventors: 刘洺堉; O·图兹尔; A·M·法拉曼德; 原宏太
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2016-07-25
Filing date: 2017-07-21
Publication date: 2019-03-15
Anticipated expiration: 2037-07-21
Also published as: EP3488387B1; CN109478239B; WO2018021576A1; JP2019517701A; JP6678778B2; US20180025249A1; US10210418B2; EP3488387A1

Abstract

一种方法检测图像中的对象。该方法利用第一子网络从图像的第一区域提取第一特征矢量，并且通过利用第二子网络处理所述第一特征矢量来确定所述图像的第二区域。该方法还利用所述第一子网络从所述图像的所述第二区域中提取第二特征矢量，并且基于所述第一特征矢量和所述第二特征矢量，利用第三子网络检测所述对象，以生成包围所述对象的边界区域和所述对象的类别。所述第一子网络、所述第二子网络以及所述第三子网络形成神经网络。而且，所述第一区域的尺寸不同于所述第二区域的尺寸。

Description

检测图像中的对象的方法和对象检测系统

技术领域

本发明涉及神经网络，更具体地，涉及利用神经网络的对象检测系统和方法。

背景技术

对象检测是计算机视觉中最基本的问题之一。对象检测的目的是检测并以边界框(例如，具有针对给定输入图像的置信值)的形式来局部化预定义对象类别的实例。可以通过扫描窗口技术将对象检测问题转换成对象分类问题。然而，因为要针对各个位置、比例以及纵横比的所有潜在图像区域执行分类步骤，扫描窗口技术效率很低。

使用基于区域的卷积神经网络(R-CNN)来执行两阶段方法，其中，利用方案生成器生成一组对象方案作为关注区域(ROI)，并且利用深度神经网络确定ROI中存在的对象和类。然而，在某些情况下，R-CNN的检测准确度不足。因此，需要另一种方法来进一步改进对象检测性能。

发明内容

一些实施方式基于以下事实的认识和理解：一种用于检测图像中的对象的方法包括：利用第一子网络从图像的第一区域中提取第一特征矢量；通过利用第二子网络处理所述第一特征矢量来确定所述图像的第二区域，其中，所述第一区域的大小不同于所述第二区域的大小；利用所述第一子网络从所述图像的所述第二区域中提取第二特征矢量；以及基于所述第一特征矢量和所述第二特征矢量，利用第三子网络检测所述对象，以生成包围所对象的边界框和所述对象的类别，其中，所述第一子网络、所述第二子网络以及所述第三子网络形成神经网络，其中，所述方法的步骤由处理器执行。

因此，一个实施方式公开了一种存储有程序的非暂时性计算机可读记录介质，所述程序使计算机执行对象检测处理，其中，所述对象检测处理包括：利用第一子网络从图像的第一区域中提取第一特征矢量；通过利用第二子网络处理所述第一特征矢量来确定所述图像的第二区域，其中，所述第一区域的大小不同于所述第二区域的大小；利用所述第一子网络从所述图像的所述第二区域中提取第二特征矢量；以及基于所述第一特征矢量和所述第二特征矢量，利用第三子网络检测所述对象，以生成包围所对象的边界框和所述对象的类别，其中，所述第一子网络、所述第二子网络以及所述第三子网络形成神经网络。

另一实施方式公开了一种对象检测系统，该对象检测系统包括：人机接口；包括神经网络的存储装置；存储器；网络接口控制器，该网络接口控制器可与处于所述系统之外的网络连接；成像接口，该串行接口可与成像装置连接；以及处理器，该处理器被配置成连接至所述人机接口、所述存储装置、所述存储器、所述网络接口控制器以及所述成像接口，其中，所述处理器执行利用存储在所述存储装置中的所述神经网络来检测图像中的对象的指令，其中，所述神经网络执行以下步骤：利用第一子网络从所述图像的第一区域中提取第一特征矢量；通过利用第二子网络处理所述第一特征矢量来确定所述图像的第二区域，其中，所述第一区域的大小不同于所述第二区域的大小；利用所述第一子网络从所述图像的所述第二区域中提取第二特征矢量；以及基于所述第一特征矢量和所述第二特征矢量，利用第三子网络检测所述对象，以生成包围所对象的边界框和所述对象的类别，其中，所述第一子网络、所述第二子网络以及所述第三子网络形成神经网络。

附图说明

图1是根据本发明一些实施方式的、用于检测图像中的对象的对象检测系统的框图。

图2是根据一些实施方式的计算机实现的、用于检测图像中的对象的对象检测方法中所使用的神经网络的框图。

图3A是例示根据一些实施方式的、利用子网络提取特征矢量并确定图像中的区域的处理的框图。

图3B是例示根据一些实施方式的、利用子网络提取特征矢量并确定图像中的区域的处理的流程图。

图3C是根据一些实施方式的、由深度卷积神经网络(DCNN)形成的子网络的框图。

图4A是根据一些实施方式的、将瞥视框放置在图像中的目标对象上的示例。

图4B是根据一些实施方式的、将瞥视框放置在图像中的目标对象上的示例。

图5示出了被划分成3×3网格的第一或第二区域的子窗口。

图6是根据一些实施方式的、由栈式RNN形成的子网络的框图。

图7是根据一些实施方式的、用于检测图像中的对象的计算机实现的对象检测方法中所使用的网络模块的框图。

图8是根据一些实施方式的、由栈式RNN形成的子网络的框图。

图9是根据一些实施方式的比较结果，其指示由小批量中的一个样本产生的场景的数量影响。

图10是根据一些实施方式的、通过四个不同架构设置获得的性能结果的示例。

图11是根据一些实施方式的、由连续奖励运算和离散奖励运算所展示的性能的比较结果。

图12是根据从REINFORCE算法排除背景样本的情况和REINFORCE算法包括背景样本的情况所获得的性能结果的比较。

图13是通过利用具有四维矢量的瞥视和具有二维矢量的瞥视所获得的性能表。

具体实施方式

下面，参照附图，对本发明的各种实施方式进行描述。应注意，附图未按比例绘制，相似结构或功能的部件在所有附图中始终由相同标号表示。还应注意，附图仅旨在便于描述本发明的具体实施方式。它们不旨在作为对本发明的详尽描述或作为对本发明范围的限制。另外，结合本发明特定实施方式描述的方面不必限于该实施方式，而是可以在本发明的任何其它实施方式中具体实践。

一些实施方式基于这样的认识，即，一种对象检测系统包括：人机接口；包括神经网络的存储装置；存储器；网络接口控制器，该网络接口控制器可与处于所述系统之外的网络连接；成像接口，该串行接口可与成像装置连接；以及处理器，该处理器被配置成连接至所述人机接口、所述存储装置、所述存储器、所述网络接口控制器以及所述成像接口，其中，所述处理器执行用于利用存储在所述存储装置中的所述神经网络来检测图像中的对象的指令，其中，所述神经网络执行以下步骤：利用第一子网络从所述图像的第一区域中提取第一特征矢量；通过利用第二子网络处理所述第一特征矢量来确定所述图像的第二区域，其中，所述第一区域的尺寸不同于所述第二区域的尺寸；利用所述第一子网络从所述图像的所述第二区域中提取第二特征矢量；以及基于所述第一特征矢量和所述第二特征矢量，利用第三子网络检测所述对象，以生成包围所对象的边界框和所述对象的类别，其中，所述第一子网络、所述第二子网络以及所述第三子网络形成神经网络。

图1示出了根据本发明一些实施方式的对象检测系统500的框图。对象检测系统500包括：可与键盘511和指示装置/介质512连接的人机接口(HMI)510、处理器520、存储器装置530、存储器540、可与包括局域网和互联网网络的网络590连接的网络接口控制器550(NIC)、显示接口560、可与成像装置575连接的成像接口570、可与打印装置585连接的打印机接口580。对象检测系统500可以经由连接至NIC 550的网络590接收电文/成像文档595。存储装置530包括：原始图像531、过滤系统模块532以及神经网络400。指点装置/介质512可以包括读取存储在计算机可读记录介质上的程序的模块。

为了检测图像中的对象，可以利用键盘511、指点装置/介质512或经由连接至其它计算机(图中未示出)的网络590，将指令发送至对象检测系统500。对象检测系统500使用HMI 510接收指令，并利用存储在存储装置530中的神经网络400，使用处理器520执行用于检测图像中的对象的指令。过滤系统模块532可工作以执行图像处理，以从与指令相关的给定图像获取预定格式化图像。由过滤系统模块532处理的图像可以由神经网络400用于检测对象。下面描述利用神经网络400的对象检测处理。在下面的描述中，瞥视区域(glimpseregion)被称为瞥视框(glimpse box)、边界框、瞥视边界框(glimpse bounding box)或边界框区域，其被放置在图像中的目标上以检测图像中该目标对象的特征。

一些实施方式基于这样的认识，即，一种用于检测图像中的对象的方法包括：利用第一子网络从图像的第一区域中提取第一特征矢量；通过利用第二子网络处理所述第一特征矢量来确定所述图像的第二区域，其中，所述第一区域的尺寸不同于所述第二区域的尺寸；利用所述第一子网络从所述图像的所述第二区域中提取第二特征矢量；以及基于所述第一特征矢量和所述第二特征矢量，利用第三子网络检测所述对象，以生成包围所对象的边界框和所述对象的类别，其中，所述第一子网络、所述第二子网络以及所述第三子网络形成神经网络，其中，所述方法的步骤由处理器执行。

图2示出了根据一些实施方式的计算机实现的、用于检测图像中的对象的对象检测方法中所使用的神经网络400的框图。神经网络400包括：第一子网络100、第二子网络200以及第三子网络300。神经网络400被设计成通过从图像中的目标对象提取特征来检测图像中的该目标对象。神经网络400自适应地且顺序地将瞥视框放置在图像的目标对象上以提取该目标对象的特征，其中，在本实施方式中，瞥视框被设计成具有方形形状或具有不同尺寸和不同纵横比的矩形。然而，瞥视框的形状可以是其它预定形状，诸如三角形、六边形、圆形、椭圆形或者根据神经网络400中使用的算法的任何多边形。在目标对象上应用了放置瞥视框的顺序的神经网络400可以称为基于关注的对象检测(AOD)网络。神经网络400允许对象检测系统500通过提供从对应于图像中的目标对象的瞥视框提取的特征，来确定图像中的目标对象的分类。在这种情况下，第一子网络100可以是深度卷积神经网络(DCNN)100，以获得图像中目标对象的更好特征。

在对象检测处理中，当提供图像11时，图像11的整个区域由深度卷积神经网络(DCNN)100处理，以计算和保存一组特征图150。同时，提议生成器10提供提议(proposal)边界框作为第一瞥视框15以放置在图像11的目标对象上。第一瞥视框15具有图像11中的提议边界框的参数，包括位置x、y、宽度w以及h。DCNN 100还从特征图150中的区域提取第一瞥视框15的特征，其中，特征图150中的区域对应于图像11的提议边界框(第一瞥视框15)。

第二子网络200包括关注区域(ROI)池化模块210和220以及递归神经网络(RNN：Recurrent Neural Network)205。ROI池化模块210被应用于第一瞥视框15的第一特征，以通过使用RNN 205生成第一特征矢量230。第一特征矢量230被发送至第三子网络300的逐元素MAX 310。第二子网络200还生成目标矢量250，目标矢量250被用于编码关于第二瞥视框20相对于第一瞥视框15(锚定边界框)的比例不变平移和对数空间高度/宽度移动。通过使用提议边界框15和目标矢量250，获得第二瞥视20。接连地，DCNN 100基于图像11的第二瞥视20提取第二特征。然后，将第二瞥视框20的第二特征应用于第二子网络200的ROI池化模块220，以生成第二特征矢量240。第二子网络200将第二特征矢量240发送至第三子网络300的逐元素MAX 310，并且逐元素MAX 310保留第二特征矢量240以使用对象检测处理。第三子网络300处理第二特征矢量230和第三特征矢量240，并生成对象边界框320和对象类别概率330作为输出。根据该输出，对象检测系统500对图像11中的目标对象的对象类别和对象位置做出最终判定。

在一些实施方式中，可以根据神经网络架构的设计将提议生成器10设置在神经网络400中。

图3A和图3B示出了根据本发明一些实施方式的、用于例示在子网络中使用的提取特征矢量和确定图像中的区域的处理的框图和流程图。

在图3A的框S0中，示出了利用第一子网络100提取第一特征矢量的初始处理。根据给予对象检测系统500的指令，将图像11提供到处理器520的工作存储器中。该工作存储器可以是处理器520的内部存储器、存储器540或连接至处理器520的存储器530。处理器520可以是一个以上的处理单元，以根据系统设计提高对象检测的处理速度。将DCNN 100应用于图像11的整个区域以获得一组特征图150，并且随后，提议生成器10提供提议边界框作为第一瞥视区域15。第一瞥视区域15可以被称为第一瞥视框15。第一子网络100(DCNN 100)从特征图150的对应区域提取第一瞥视区域15的第一特征，并将第一特征发送至第二子网络200。在这种情况下，特征图150的对应区域与图像11的第一瞥视区域15相关联。

图3A和图3B中的步骤S1和S2示出了利用第一子网络100和第二子网络200从第一区域提取第一特征矢量的处理。在图3A和图3B的步骤S1，在从特征图150接收到第一瞥视区域15的第一特征之后，第二子网络200生成并输出第一特征矢量。同时，第二子网络200生成与第二瞥视区域20相关联的目标矢量。在这种情况下，第二子网络200通过处理该目标矢量来确定第二瞥视区域20。第一和第二瞥视区域15和20的尺寸彼此不同。可以交换步骤S1和S2的顺序，因为第二子网络200可以生成第一特征矢量和目标矢量而不限制处理次序，只要第二子网络200已经在步骤S0中获取第一瞥视区域15的第一特征即可。

在图3A和图3B的步骤S3，利用第一子网络100和第二子网络从第二区域提取第二特征矢量。在接收到第二瞥视区域20的第二特征之后，第二子网络200将第二瞥视区域20的第二特征发送至第三子网络300。应注意，第三子网300在步骤S1中已接收到第一特征矢量。

在步骤S4中，第三子网络300基于第一和第二特征矢量检测图像11中的对象。

图3C示出了包括卷积层的DCNN 100的示例。在DCNN 100中，在最后的卷积层计算一组特征图150。DCNN 100进行计算，使得特征图的特征与图像11的第一区域相关联。

而且，在一些实施方式中，DCNN 100可以是诸如AlexNet或VGGNet的预训练网络，以获得用于检测图像中的对象的等效效果。

图4A和图4B示出了将瞥视框放置在图像中的目标对象上的示例。在那些示例中，对象检测处理通过将框放置在图像的目标图像上直到将最终检测框放置在目标图像上的四个步骤来执行。

图4A包括在上侧和下侧的两个图像4A-1和4A-2。图像4A-1和4A-2示出了与目标对象相同的狗图像。图像4A-1指示狗图像上的对象提议框4A、第一瞥视框4A以及第二瞥视框4A。

在检测目标对象的处理的第一步骤中，对象提议框4A由提议生成器10生成为锚定边界框，并放置在图像4A-1上以包围狗图像，其中对象提议框4A由亮框表示。

在第二步骤中，第二子网络200在接收到由第一子网络100从特征图150提取的对象提议框4A的特征之后，生成第一瞥视框4A和第一特征矢量。第一瞥视框4A(在图像4A-1中用虚线指示)然后被放置在图像4A-1上，以包围对象提议框4A，并且第一特征矢量被发送至第三子网络300。在这种情况下，第一瞥视框4A的尺寸和形状被配置成与对象提议框4A的尺寸和形状不同。

在第三步骤中，第一子网络100利用特征图150提取第一瞥视框4A的特征，并将第一瞥视框4A的特征发送至第二子网络200。第二子网络200基于第一瞥视框4A的特征生成第二瞥视框4A和第二特征矢量，并将第二特征矢量发送至第三子网络300。第二子网络200还将第二瞥视框4A放置在图像4A-1上以包围对象提议框4A。在这种情况下，第二瞥视框4A的区域被配置成比第一瞥视框4A的区域窄，如图像4A-1中所示。

在第四步骤中，第二瞥视框4A的特征由第一子网络100从特征图150中提取并发送至第二子网络200。接连地，第二子网络200生成第三特征矢量并将其发送至第三子网络300。

在最后步骤中，第三子网络300基于第一、第二以及第三特征矢量来输出对象类别概率和对象边界框。第三子网络300基于对象类别概率确定目标对象是狗位置，并将最终检测框4A放置在图像4A-2上以包围围绕狗图像的目标，如图像4A-2所示。

图4B包括在上侧和下侧的两个图像4B-1和4B-2。图像4B-1和4B-2示出鸟图像作为目标对象。图像4B-1指示鸟图像上的对象提议框4B、第一瞥视框4B以及第二瞥视框4B。对象检测处理通过将框放置在目标图像上直到将最终检测框放置在目标图像上的四个步骤来执行。由于图4B中执行的对象检测处理与参照图4A描述的那些相同，因而省略了详细描述。图像4B-2示出了最终检测框放置在鸟图像上。应注意到，在这种情况下，即使其中一个目标对象的一部分丢失，也能正确地检测多个目标。

瞥视框生成

在一些实施方式中，瞥视区域被称为瞥视框。由第二子网络200按时间步长t计算的瞥视框G由G_t∈R⁴表达。对于t＝0，第一瞥视框G₀由提议生成器10提供为提议边界框。该提议边界框被用作锚定边界框。对于t>0，随后的瞥视框G_t由第一子网络100和第二子网络200通过聚合在先前处理步骤中获取的先前瞥视框的特征的信息来动态地确定。

为了获得瞥视框G_t，锚定边界框采用比例不变和高度/宽度归一化偏移参数化。比例不变平移和对数空间高度/宽度偏移参数化提供目标矢量(δ_x、δ_y、δ_w、δ_h)，该目标矢量指示相对于锚定边界框的偏移量。目标矢量表达如下。

其中，(g_x；g_y；g_w；；g_h)表示瞥视框的中心坐标x和y、宽度w以及高度h，而(p_x；p_y；p_w；p_h)表示提议边界框。

在第一时间，根据等式(1)从提议边界框获得目标矢量(δ_x、δ_y、δ_w、δ_h)。下面，获取新瞥视框为(p_x+p_wδx，p_y+p_hδ_y，p_wexp(δ_w)，p_hexp(δh)).。

针对每个瞥视框G_t，通过将ROI池化模块210应用于第一瞥视框15的特征来提取预定维度特征矢量。ROI池化模块210接收第一瞥视框15的特征作为ROI。ROI池化模块210将第一瞥视框15的特征划分成预定子窗口网格，然后在每个子窗口中最大池化(max-pool)第一瞥视框15的特征的特征值。池化特征值被馈送到具有层fc6和fc7的递归神经网络(RNN)205。

图5示出了3×3子窗口网格901的示例。在这种情况下，根据递归神经网络的预定架构，第一瞥视框15的特征被划分成3×3子窗口网格。

在一些实施方式中，RNN 200可以是栈式递归神经网络(栈式(stacked)RNN)。图6示出了被从ROI池化模块210和220馈送特征值的栈式RNN 200。栈式RNN 200包括两个层fc6和fc7，其中，给定特征值沿着图5中箭头所示方向处理。

在一些实施方式中，栈式RNN 200可以包括三个步骤。

图7示出了具有三个步骤的栈式RNN 200的示例。在这种情况下，由提议生成器10生成第一瞥视框，并且分别通过ROI池化模块210和220生成第二瞥视框和第三瞥视框。由于生成瞥视框和瞥视矢量的每个步骤与图2的情况中描述的步骤相同，因而省略了详细描述。

在这种情况下，子网络300基于第一特征矢量、第二特征矢量以及第三特征矢量确定对象类别概率和对象边界框。

图8示出了根据一些实施方式的包括三个步骤的栈式RNN 200的示例。箭头指示栈式RNN 200中的数据处理流程。

根据栈式RNN的架构设计，层fc6和fc7的数量可以增加多于三个。

在一些实施方式中，可以利用强化学习算法来训练DCNN 10作为用于生成瞥视的另一网络架构，以便改进检测性能。

强化学习和网络训练

在强化学习算法的处理中，强化学习代理(RL代理)通过观察环境的状态x∈χ与该环境持续交互，然后RL代理根据其策略π(a|x)和从状态到动作的概率映射来选择动作a∈A。

根据当前状态和所选动作，该环境中RL代理的状态变为X’～P(·|x，a)。RL代理还接收存储为奖励的实值奖励信号r～R(·|x，a)。该交互持续达预定有限数量的步长T。由步长T中的各个步长中的交互而产生的结果被称为场景(episode)ξ。

RL代理被配置成最大化所有场景中接收到的奖励的总和，在这种情况下，R(ξ)表示ξ的返回值。强化学习的目标是找到策略π，使得预期返回值最大化，其中，不基于在每个时间步长T中接收到的奖励来学习的策略π。在强化学习处理中，采用策略梯度算法，其被称作REINFORCE算法。在这种情况下，π由θ参数化。步长α_i＞0的某些选择，该策略梯度算法按其最简单形式按照梯度上升更新，沿J(π_θ)的梯度方向改变策略参数，

通过利用高斯分布作为π_θ，通过在当前策略下生成多个场景，近似梯度计算为：

上面讨论的算法是梯度上升算法并且被引入到标准的反向传播神经网络训练中。在该实施方式中，通过反向传播来自强化学习的梯度和来自监督训练的梯度两者来训练神经网络400。

图2示出了由栈式递归神经网络(RNN)形成的第二子网络200的框图。第二子网络200包括栈式递归神经网络(RNN)205以及ROI池化模块210和220。递归连接在图中被指示为fc6和fc7。

RNN 205的训练数据通过与基于区域的卷积神经网络算法(R-CNN算法)类似的方式构建。由提议生成器10生成的每个提议边界框根据与地面真值(ground truth)对象边界框的重叠，被分配一个背景类别和K个前景对象类别当中的类别标签c^*。背景类别可以是不属于前景类别的任何对象。

每个提议边界框都被赋予边界框目标矢量，所述边界框目标矢量将相对于对象的比例不变平移和对数空间高度/宽度偏移编码。没有为地面真值对象边界框定义边界框目标矢量，因此它们不用于训练RNN 205。

第三子网络300提供最终输出，所述输出是针对所有预定义的前景类别的softmax分类得分和边界框。

在训练第二子网络200期间，为所有预定义的前景类别提供地面真值注释，并且使用标准反向传播时间(BPTT)算法进行训练。在这种情况下，BPTT不用于训练图2中的瞥视生成层(G层)。相反，可以在上述策略梯度算法的处理中训练瞥视生成层。

在一些实施方式中，环境的状态x∈χ是给予图2中的瞥视模块(G层)的输入。瞥视模块250在时间步长t指示新的瞥视区域G_t。在训练期间，在步长T从提议边界框执行多个场景。所有场景中的每一个都从提议生成器10所提供的相同提议边界框开始。

高斯噪声被添加至由瞥视生成层计算的当前瞥视区域G。在每个情节中，第三子网络300在最后时间步长输出类别概率和对象边界框。根据每个输出，神经网络400计算总强化奖励其中，针对场景ξ的每个奖励r_t表达如下：

其中，P(c^*)是真实类别c^*的预测概率，而IoU是针对c^*的预测边界框与对应于该预测边界框的对应地面真值边界框之间的交集并集比。直观地说，如果添加高斯噪声后的瞥视边界框导致更高的类别概率和更大的IoU，那么将更高的返回值指配给对应场景。REINFORCE算法更新该模型，使得所生成瞥视导致更高的返回值。

在下面的描述中，平均精度(mAP)被用作评估对象检测性能的参数。

一些实施方式基于这样的认识，即，在训练中用于获得合理的对象检测性能的场景数量是八个或少于八个。

图9示出了根据一些实施方式的、从小批量中的一个样本产生的场景的数量的影响。如可以在图9中看出，尽管更多的场景往往会导致更好的性能，但八个场景的情况提供了合理的性能结果。由于计算时间和计算成本随着场景的数量而增加，因而可以根据神经网络的预定设计来选择场景的数量。

一些实施方式基于这样的认识，即，与具有逐元素MAX运算模块的RNN、没有逐元素MAX运算模块的栈式RNN以及没有逐元素MAX运算模块的RNN的架构相比，具有逐元素MAX运算的栈式RNN的架构提供了更好的对象检测性能。

图10示出了根据一些实施方式的、通过四个不同架构设置获得的性能结果。如图所示，与其它三种架构：具有逐元素MAX运算模块的RNN、没有逐元素MAX运算模块的栈式RNN以及没有逐元素MAX运算模块的RNN的架构相比，具有逐元素max的栈式RNN提供了更好的检测性能。

图11示出了根据一些实施方式的、指示连续奖励运算优于离散奖励运算的演示结果。一些实施方式基于这样的认识，即，连续奖励运算比离散奖励运算导致更好的性能。

在每个场景中，获得强化奖励r_t。存在用于确定强化奖励的值的两种奖励运算。一个被称作离散奖励运算，其中，如果最高得分类别是地面真值标签，则将奖励设定为r_t＝1，否则将奖励设定为r_t＝0。在这种情况下，0与1之间没有中间值。

另一方面，另一种奖励运算被称作连续奖励运算，其中，奖励的范围从0到1。在这种情况下，如果最高得分类别是地面真值标签并且在预测边界框与地面真值边界框之间获得的IoU大于或等于预定IoU阈值，则根据方程(3)设定奖励，否则将奖励设定为r_t＝0。

一些实施方式基于这样的认识，即，排除背景样本产生更好的性能。

图12示出了在REINFORCE算法中包括背景样本的情况与从REINFORCE算法排除背景样本的情况之间的比较。如可以在图12中看出的，排除背景样本的情况产生更好的性能。在这种情况下，对于背景样本，方程(3)中的IOU被设定为一(unity)(IOU＝1)，因为对于背景样本来说，没有地面真值边界框。

图13示出了根据一些实施方式的结果，所述结果指示具有四维矢量的目标矢量导致比具有二维矢量的瞥视具有更好的性能。

一些实施方式基于这样的认识，即，具有包括x偏移、y偏移、x缩放和y缩放的四维矢量的目标矢量提供比具有包括x偏移和y偏移的二维矢量的瞥视更好的性能。

本发明的上述实施方式可以按许多方式中的任一种来实现。例如，这些实施方式可以利用硬件、软件或其组合来实现。当按软件来实现时，软件代码可以在任何合适处理器或处理器集合上执行，而不管设置在单一计算机中还是分布在多个计算机当中。这种处理器可以被实现为集成电路，在集成电路组件中具有一个或更多个处理器。然而，处理器可以利用采用任何合适格式的电路来实现。

而且，本发明的实施方式可以被具体实施为已经提供了其一示例的方法。作为该方法的一部分执行的动作可以按任何合适方式来安排。因此，即使在例示性实施方式中被示出为顺序动作，也可以构造按与所例示相比不同的次序来执行动作的实施方式，其可以包括同时执行一些动作。

在权利要求书中使用诸如“第一”、“第二”的普通术语来修改权利要求部件不独立地暗示一个权利要求部件的任何优先级、优先权，或次序超过执行方法的动作的另一或临时次序，而是仅仅被用作用于区分具有特定名称的一个权利要求部件与具有相同名称(但供普通术语使用)的另一部件的标记，以区分这些权利要求部件。

Claims

1.一种检测图像中的对象的方法，所述方法包括：

利用第一子网络从图像的第一区域提取第一特征矢量；

通过利用第二子网络处理所述第一特征矢量，确定所述图像的第二区域，其中，所述第一区域的尺寸不同于所述第二区域的尺寸；

利用所述第一子网络从所述图像的所述第二区域提取第二特征矢量；以及

基于所述第一特征矢量和所述第二特征矢量，利用第三子网络检测所述对象以生成包围所对象的边界框以及所述对象的类别，其中，所述第一子网络、所述第二子网络以及所述第三子网络形成神经网络，其中，所述方法的步骤由处理器执行。

2.根据权利要求1所述的方法，其中，所述第二子网络是深度递归神经网络。

3.根据权利要求2所述的方法，其中，所述深度递归神经网络是栈式递归神经网络。

4.根据权利要求3所述的方法，其中，所述栈式递归神经网络由两个隐藏层形成。

5.根据权利要求1所述的方法，其中，所述第三子网络利用所述第一特征矢量和所述第二特征矢量来执行逐元素max运算。

6.根据权利要求1所述的方法，所述方法还包括：

在显示装置上呈现检测到的对象和所述对象的类别，或者通过网络发送检测到的对象和所述对象的类别。

7.根据权利要求1所述的方法，所述方法还包括：

利用所述第一子网络处理所述图像以生成所述图像的一组特征图，其中，所述第一子网络是深度卷积神经网络(DCNN)；

利用提议生成器来确定所述第一区域；

根据与所述第一区域相对应的所述特征图确定所述第一特征矢量；以及

根据与所述第二区域相对应的所述特征图以及在所述第二子网络中生成所述第一特征矢量的期间计算的隐藏表示来确定所述第二特征矢量。

8.根据权利要求7所述的方法，其中，所述特征图是从所述DCNN的最后卷积层计算的。

9.根据权利要求1所述的方法，

其中，所述第二子网络接受所述第一特征矢量，并且输出目标矢量，所述目标矢量将与所述第一区域相关联的所述第二区域的比例不变平移和对数空间高度/宽度偏移进行编码，并且其中，所述对数空间高度/宽度偏移表达为

其中，(g_x；g_y；g_w；g_h)表示指示所述第一区域的位置x和y、宽度w以及高度h的中心坐标，并且(p_x；p_y；p_w；p_h)表示所述第一区域。

10.根据权利要求9所述的方法，其中，所述第二区域是利用所述第一区域和所述目标矢量确定的。

11.根据权利要求2所述的方法，其中，提取所述第一特征矢量的步骤或提取所述第二特征矢量的步骤包括：

将所述第一区域或所述第二区域划分成预定的子窗口的网格；

确定各个子窗口中的所述特征的最大值；以及

通过所述递归神经网络顺序地处理所述最大值。

12.根据权利要求1所述的方法，其中，所述第二区域的尺寸大于所述第一区域的尺寸。

13.根据权利要求1所述的方法，其中，所述深度神经网络是利用强化学习算法训练的。

14.根据权利要求13所述的方法，其中，通过下式获得强化奖励r_t，

对于t＝T，

而对于t≠T，r_t＝0，

其中，P(c^*)是真实类别c^*的预测概率，IoU是针对c^*的预测边界框与对应于该预测边界框的对应真值边界框之间的交并比，t是计算的时间步长，而T是预定数量的时间步长。

15.根据权利要求14所述的方法，

其中，当所述第三子网络确定了所述强化奖励时，将场景的数量增加一，并且其中，所述场景的数量被设定为八个或少于八个。

16.根据权利要求3所述的方法，其中，所述栈式递归神经网络包括逐元素MAX运算。

17.根据权利要求14所述的方法，其中，所述强化奖励是基于连续奖励运算确定的。

18.根据权利要求1所述的方法，其中，所述第一子网络是通过强化学习算法训练的。

19.根据权利要求18所述的方法，其中，所述强化学习算法不训练所述图像中的背景样本。

20.根据权利要求9所述的方法，其中，所述目标矢量是四维矢量。

21.根据权利要求2所述的方法，其中，所述栈式递归神经网络是由超过两个隐藏层形成的。

22.一种存储有程序的非暂时性计算机可读记录介质，所述程序使计算机执行对象检测处理，所述对象检测处理包括：

利用第一子网络从图像的第一区域提取第一特征矢量；

通过利用第二子网络处理所述第一特征矢量来确定所述图像的第二区域，其中，所述第一区域的尺寸不同于所述第二区域的尺寸；

基于所述第一特征矢量和所述第二特征矢量，利用第三子网络检测所述对象，以生成包围所对象的边界框以及所述对象的类别，其中，所述第一子网络、所述第二子网络以及所述第三子网络形成神经网络。

23.一种对象检测系统，所述对象检测系统包括：

人机接口；

包括神经网络的存储装置；

存储器；

网络接口控制器，所述网络接口控制器能够与处于所述系统之外的网络连接；

成像接口，所述成像接口能够与成像装置连接；以及

处理器，所述处理器被配置成连接至所述人机接口、所述存储装置、所述存储器、所述网络接口控制器以及所述成像接口，

其中，所述处理器执行利用存储在所述存储装置中的所述神经网络来检测图像中的对象的指令，其中，所述神经网络执行以下步骤：

利用第一子网络从所述图像的第一区域提取第一特征矢量；