CN106529527A

CN106529527A - 物体检测方法和装置、数据处理装置和电子设备

Info

Publication number: CN106529527A
Application number: CN201610848961.7A
Authority: CN
Inventors: 曾星宇; 欧阳万里; 杨斌; 闫俊杰; 王晓刚
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2016-09-23
Filing date: 2016-09-23
Publication date: 2017-03-22
Also published as: WO2018054329A1

Abstract

本发明实施例公开了一种物体检测方法和装置、数据处理装置和电子设备，其中，方法包括：对待检测图像进行物体定位，获得L个物体候选框；分别以所述L个物体候选框中的每个物体候选框作为当前物体候选框，从所述待检测图像的至少一个特征图中抽取当前物体候选框及其M个关联物体候选框对应的M+1个特征向量；其中，关联物体候选框与所述当前物体候选框具有相同的中心点、不同的高度和/或宽度；对所述M+1个特征向量进行关联，生成一个最终特征向量；根据所述最终特征向量进行物体检测，获得所述当前物体候选框的物体检测结果。本发明实施例有效解决了现有技术单输入方式导致物体候选框的覆盖范围不正确时出现的问题，提高了物体检测的准确性。

Description

物体检测方法和装置、数据处理装置和电子设备

技术领域

本发明涉及计算机视觉技术，尤其是一种物体检测方法和装置、数据处理装置和电子设备。

背景技术

物体检测是计算机视觉领域最基本的问题之一，其包含对图片、视频最基本的语义理解分析，一直以来被投入大量研究。物体检测系统的目标是使用方框(称为：物体候选框)将图片或视频中的目标物体框出。长期以来，物体检测问题被视为一种分类问题，对于每个物体候选框，物体检测系统自动作出该物体候选框内是何种物体的判断。但由于多样的拍摄角度、物体形态、光照变化、复杂多变的背景等因素影响，物体检测一直是一种复杂充满挑战的问题。

在物体检测系统中，对于任何一个物体候选框，其是否能被判定已经检测到目标物体的准则，是看该物体候选框和目标物体方框的交叠率是否大于某个阈值。

发明内容

本发明实施例提供一种用于进行物体检测的技术方案。

根据本发明实施例的一个方面，提供的一种物体检测方法，包括：

对待检测图像进行物体定位，获得L个物体候选框；其中，L为大于0的整数；

分别以所述L个物体候选框中的每个物体候选框作为当前物体候选框，从所述待检测图像的至少一个特征图中抽取当前物体候选框及其M个关联物体候选框对应的M+1个特征向量；其中，关联物体候选框与所述当前物体候选框具有相同的中心点、不同的高度和/或宽度；M为大于0的整数；

对所述M+1个特征向量进行关联，生成一个最终特征向量；

根据所述最终特征向量进行物体检测，获得所述当前物体候选框的物体检测结果。

基于上述物体检测方法的另一实施例中，还包括：

通过卷积神经网络CNN，生成所述待检测图像的特征图。

基于上述任一物体检测方法的另一实施例中，还包括：

根据所述当前物体候选框获取该当前物体候选框的M个关联物体候选框。

基于上述任一物体检测方法的另一实施例中，根据所述当前物体候选框获取该当前物体候选框的M个关联物体候选框包括：

以所述当前物体候选框的中心坐标为中心点，对预设宽度获取公式和预设高度获取公式中的参数分别赋予M个不同的数值，获得所述M个关联物体候选框的宽度和高度，从而获取M个关联物体候选框。

基于上述任一物体检测方法的另一实施例中，所述待检测图像的特征图为一个。

基于上述任一物体检测方法的另一实施例中，所述待检测图像的特征图包括分别由不同深度的多个CNN生成的所述待检测图像的多个特征图；

从所述待检测图像的至少一个特征图中抽取当前物体候选框及其M个关联物体候选框对应的M+1个特征向量具体为：

从所述物体的多个特征图中抽取当前物体候选框及其M个关联物体候选框对应的M+1个特征向量。

基于上述任一物体检测方法的另一实施例中，对所述M+1个特征向量进行关联包括：

基于双向门控制结构网络对所述M+1个特征向量进行关联。

基于上述任一物体检测方法的另一实施例中，所述基于双向门控制结构网络对所述M+1个特征向量进行关联，生成一个最终特征向量包括：

对所述M+1个特征向量按照对应物体候选框的大小排序；

从所述M+1个特征向量中选取一个中间特征向量，通过门控制结构网络，分别获取所述M+1个特征向量中除所述中间特征向量外的其它特征向量的权重值，并通过权重值对相应的所述其它特征向量的输入进行控制，获得所述其它特征向量的有效输入信息；所述中间特征向量为排序的所述M+1个特征向量中除首个特征向量和末尾特征向量外的特征向量；

通过双向传导结构网络，由所述中间特征向量与所述其它特征向量的有效输入信息生成所述最终特征向量。

基于上述任一物体检测方法的另一实施例中，所述门控制结构网络为将特征向量映射为[0,1]的函数。

基于上述任一物体检测方法的另一实施例中，还包括：

通过多个样本图像对初始门控制结构网络进行训练，调整初始门控制结构网络的网络参数，获得所述门控制结构网络。

基于上述任一物体检测方法的另一实施例中，还包括：

通过双向传导结构网络分别获取所述M+1个特征向量的响应；

所述获取所述M+1个特征向量中除所述中间特征向量外的其它特征向量的权重值，并通过权重值对相应的所述其它特征向量的输入进行控制包括：获取所其它特征向量的响应的权重值，并通过权重值对相应的所述其它特征向量的响应进行控制；

由所述中间特征向量与所述其它特征向量的有效输入信息生成所述最终特征向量包括：由所述中间特征向量的响应与所述其它特征向量的有效输入信息生成所述最终特征向量。

基于上述任一物体检测方法的另一实施例中，由所述中间特征向量的响应与所述其它特征向量的有效输入信息生成所述最终特征向量包括：

分别通过双向传导结构网络的前M个网络层，由所述中间特征向量的响应与每个所述其它特征向量的有效输入信息生成一个中间结果向量；

通过所述双向传导结构网络的第M+1个网络层，对所有中间结果向量进行串联求和，获得所述最终特征向量。

分别通过双向传导结构网络的前M个网络层，由所述中间特征向量的响应与所有所述其它特征向量的有效输入信息生成一个中间结果向量；

基于上述任一物体检测方法的另一实施例中，所述物体检测结果包括：所述当前物体候选框包括目标物体的概率值；或者，所述当前物体候选框对应的物体类别。

根据本发明实施例的另一个方面，提供的一种物体检测装置，包括：

物体定位单元，用于对待检测图像进行物体定位，获得L个物体候选框；其中，L为大于0的整数；

特征抽取单元，用于分别以所述L个物体候选框中的每个物体候选框作为当前物体候选框，从所述待检测图像的至少一个特征图中抽取当前物体候选框及其M个关联物体候选框对应的M+1个特征向量；其中，关联物体候选框与所述当前物体候选框具有相同的中心点、不同的高度和/或宽度；M为大于0的整数；

特征关联单元，用于对所述M+1个特征向量进行关联，生成一个最终特征向量；

物体检测单元，用于根据所述最终特征向量进行物体检测，获得所述当前物体候选框的物体检测结果。

基于上述物体检测装置的另一实施例中，还包括：

特征生成单元，用于生成所述待检测图像的特征图。

基于上述任一物体检测装置的另一实施例中，所述特征抽取单元，还用于根据所述当前物体候选框获取该当前物体候选框的M个关联物体候选框。

基于上述任一物体检测装置的另一实施例中，所述待检测图像的特征图为一个。

基于上述任一物体检测装置的另一实施例中，所述待检测图像的特征图包括分别由不同深度的多个CNN生成的所述待检测图像的多个特征图；

所述特征抽取单元从所述待检测图像的至少一个特征图中抽取当前物体候选框及其M个关联物体候选框对应的M+1个特征向量时，具体用于从所述物体的多个特征图中抽取当前物体候选框及其M个关联物体候选框对应的M+1个特征向量。

基于上述任一物体检测装置的另一实施例中，所述特征关联单元，具体用于基于双向门控制结构网络对所述M+1个特征向量进行关联。

基于上述任一物体检测装置的另一实施例中，所述特征关联单元包括：

排序子单元，用于对所述M+1个特征向量按照对应物体候选框的大小排序；

门控制结构网络子单元，用于从所述M+1个特征向量中选取一个中间特征向量，分别获取所述M+1个特征向量中除所述中间特征向量外的其它特征向量的权重值，并通过权重值对相应的所述其它特征向量的输入进行控制，获得所述其它特征向量的有效输入信息；所述中间特征向量为排序的所述M+1个特征向量中除首个特征向量和末尾特征向量外的特征向量；

双向传导结构网络子单元，用于由所述中间特征向量与所述其它特征向量的有效输入信息生成所述最终特征向量。

基于上述任一物体检测装置的另一实施例中，所述门控制结构网络为将特征向量映射为[0,1]的函数。

基于上述任一物体检测装置的另一实施例中，所述双向传导结构网络子单元，还用于分别获取所述M+1个特征向量的响应；

所述门控制结构网络子单元，具体用于获取所其它特征向量的响应的权重值，并通过权重值对相应的所述其它特征向量的响应进行控制；

所述双向传导结构网络子单元，具体用于由所述中间特征向量的响应与所述其它特征向量的有效输入信息生成所述最终特征向量。

基于上述任一物体检测装置的另一实施例中，所述双向传导结构网络子单元包括M+1个网络层；

所述M+1个网络层中的前M个网络层，用于由所述中间特征向量的响应与每个所述其它特征向量的有效输入信息生成一个中间结果向量；

所述M+1个网络层中的第M+1个网络层，用于对所有中间结果向量进行串联求和，获得所述最终特征向量。

所述M+1个网络层中的前M个网络层，用于由所述中间特征向量的响应与所有所述其它特征向量的有效输入信息生成一个中间结果向量；

基于上述任一物体检测装置的另一实施例中，所述物体检测单元，具体用于根据所述最终特征向量进行物体检测，获得所述当前物体候选框包括目标物体的概率值，或者所述当前物体候选框对应的物体类别。

根据本发明实施例的又一个方面，提供一种数据处理装置，包括上述实施例所述的物体检测装置。

基于上述数据处理装置的另一实施例中，所述数据处理装置包括进阶精简指令集机器ARM、中央处理单元CPU或图形处理单元GPU。

根据本发明实施例的再一个方面，提供一种电子设备，包括上述实施例所述的数据处理装置。

根据本发明实施例的再一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，所述指令包括：

对接收的待检测图像进行物体定位，获得L个物体候选框的指令；其中，L为大于0的整数；

分别以所述L个物体候选框中的每个物体候选框作为当前物体候选框，从所述待检测图像的特征图中抽取当前物体候选框及其M个关联物体候选框对应的M+1个特征向量的指令；其中，关联物体候选框与所述当前物体候选框具有相同的中心点、不同的高度和宽度；M为大于0的整数；

对所述M+1个特征向量进行关联，生成一个最终特征向量的指令；

根据所述最终特征向量进行物体检测，获得所述当前物体候选框的物体检测结果的指令。

根据本发明实施例的再一个方面，提供一种计算机设备，包括：

存储器，存储可执行指令；

一个或多个处理器，与存储器通信以执行可执行指令从而完成本发明上述任一实施例的物体检测方法对应的操作。

基于本发明上述实施例提供的物体检测方法和装置、数据处理装置和电子设备，分别针对每个物体候选框，获取与当前物体候选框分别具有相同的中心点、不同的高度和宽度的M个关联物体候选框，从待检测图像的特征图中抽取当前物体候选框及其M个关联物体候选框对应的M+1个特征向量，并对该总共M+1个特征向量进行关联，生成一个最终特征向量，然后根据该最终特征向量进行物体检测，获得当前物体候选框的物体检测结果。由于M个关联物体候选框与当前物体候选框分别具有相同的中心点、不同的高度和宽度，M+1个物体候选框涵盖的区域、分辨率分别不同，本发明实施例实现了多区域/多分辨率的图像输入方式，基于该M+1个物体候选框抽取的M+1个特征向量进行关联获得的最终特征向量进行物体检测，由于采用了不同区域/分辨率的视觉信息，有效解决了现有技术单输入方式导致物体候选框的覆盖范围不正确时出现的问题，例如输入图像中细节被忽略、视觉内容不足和交叠率判断不准的问题，提高了物体检测的准确性。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为一个待检测图片的示意图。

图2为另一个待检测图片的示意图。

图3为本发明物体检测方法一个实施例的流程图。

图4为本发明实施例中获取的关联物体候选框的一个应用示例图。

图5为本发明物体检测方法另一个实施例的流程图。

图6为本发明物体检测方法又一个实施例的流程图。

图7为本发明实施例中双向传导结构网络的一个具体应用示例图。

图8为本发明实施例中门控制结构网络的一个具体应用示例图。

图9为本发明物体检测装置一个实施例的结构示意图。

图10为本发明物体检测装置另一个实施例的结构示意图。

图11为本发明电子设备一个实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统、服务器、终端设备一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统、服务器、终端设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

在实现本发明的过程中，发明人通过研究发现，当一个物体候选框的覆盖范围不正确时，就会出现如下三个个潜在问题：

首先，当一个物体候选框只覆盖了目标物体某部分的时候，该物体候选框内的视觉内容不足以判断该目标物体是什么物体，这种情况常出现于两类物体存在部分类似的状况，如图1中的图片(a)是一只兔子的图片，图片(b)是一只仓鼠的图片，兔子和仓鼠的身体比较相似，物体候选框102和104为正确的物体候选框，如果物体候选框106和108放在了他们身体上，从物体候选框106和108所标定的区域根本无法判断该区域内的目标物体是一只兔子还是一只仓鼠；

再者，当一个物体候选框只覆盖了目标物体某部分的时候，计算交叠率的时候，必须考虑目标物体被其他物体遮挡的严重程度，如图2所示，物体候选框202和204为正确的物体候选框，而两个物体候选框206和物体候选框208均覆盖在兔子的头部位置，但是物体候选框206为正确的物体候选框，而物体候选框208为错误的物体候选框，因为图2(b)中兔子没有被遮挡，物体候选框208覆盖的范围不够；

最后，由于物体检测系统会将物体候选框涵盖的内容缩放到一个固定大小，如果一个物体候选框过大，在缩放到固定大小后，图中的目标物体会变得较小，兔子的很多细节信息将变模糊，因此，如果一个物体候选框过大，物体检测系统会忽略物体候选框内小部分细节，而该部分细节对于目标检测有较强的指导作用。

现有的技术中，物体检测系统多采用单输入方式获取视频、图片中的图像信息，将物体候选框内的图像缩放到一个预设设定的大小，作为检测器的输入图像，即：物体检测系统仅根据物体候选框，获取单一大小/分辨率的输入图像，该种方式无法解决上述物体候选框的覆盖范围不正确时出现的三个问题。如果输入图像的区域比正确的物体候选框大，则其会产生输入图像中细节被忽略的问题；如果输入图像的区域和正确的物体候选框相比大小相同、或者更小，则其会产生视觉内容不足和交叠率判断不准的问题。一个正确的物体候选框是只涵盖住目标物体可见部分的方框，如果输入图像的区域和正确的物体候选框一样，那么检测器无法从输入图像的区域判断目标物体被遮挡部分是否真正被遮挡。如图2(a)中的物体候选框202为正确的物体候选框，但是如果一个检测器只看到物体候选框202的区域，无法判断该兔子的脚和尾巴是否被遮挡。

图3为本发明物体检测方法一个实施例的流程图。如图3所示，该实施例的物体检测方法包括：

302，对待检测图像进行物体定位，获得L个物体候选框。

其中，L为大于0的整数，该待检测图像的来源可能是接收到的，也可能是存储的，还可能是通过采集等方式获取的。

304，分别以L个物体候选框中的每个物体候选框作为当前物体候选框，从待检测图像的至少一个特征图中抽取当前物体候选框及其M个关联物体候选框对应的M+1个特征向量。

其中，关联物体候选框与当前物体候选框具有相同的中心点、不同的高度和/或宽度，M为大于0的整数。

306，对M+1个特征向量进行关联，生成一个最终特征向量。

308，根据最终特征向量进行物体检测，获得当前物体候选框的物体检测结果。

具体地，可以是根据最终特征向量进行物体检测，获得当前物体候选框包括目标物体的概率值；或者，根据最终特征向量进行物体检测，获得当前物体候选框对应的物体类别。

基于本发明上述实施例提供的物体检测方法，分别针对每个物体候选框，获取与当前物体候选框分别具有相同的中心点、不同的高度和宽度的M个关联物体候选框，从待检测图像的特征图中抽取当前物体候选框及其M个关联物体候选框对应的M+1个特征向量，并对该总共M+1个特征向量进行关联，生成一个最终特征向量，然后根据该最终特征向量进行物体检测，获得当前物体候选框的物体检测结果。由于M个关联物体候选框与当前物体候选框分别具有相同的中心点、不同的高度和宽度，M+1个物体候选框涵盖的区域、分辨率分别不同，本发明实施例实现了多区域和/或多分辨率的图像输入方式，基于该M+1个物体候选框抽取的M+1个特征向量进行关联获得的最终特征向量进行物体检测，由于采用了不同区域和/或分辨率的视觉信息，有效解决了现有技术单输入方式导致物体候选框的覆盖范围不正确时出现的问题，例如输入图像中细节被忽略、视觉内容不足和交叠率判断不准的问题，提高了物体检测的准确性。

在本发明物体检测方法的另一个实施例中，还可以包括：通过卷积神经网络(CNN)，生成待检测图像的特征图。

在本发明物体检测方法的另一个实施例中，还可以包括：根据当前物体候选框获取该当前物体候选框的M个关联物体候选框。

作为本发明实施例的一个具体示例，具体可以通过如下方式，根据当前物体候选框获取该当前物体候选框的M个关联物体候选框：

通过以所述当前物体候选框的中心坐标为中心点，对预设宽度获取公式和预设高度获取公式中的参数分别赋予M个不同的数值，获得所述M个关联物体候选框的宽度和高度，从而获取M个关联物体候选框。

例如，可采用以下公式实现获取M个关联物体候选框：

公式：b^p＝[x^o，y^o，(1+p)w^o，(1+p)h^o]，对p分别赋予M个不同的数值，获得M个关联物体候选框。

其中，b^p表示关联物体候选框，x^o和y^o分别表示当前物体候选框的中心点的横坐标和纵坐标，w^o表示当前物体候选框的宽度，h^o表示当前物体候选框的高度，(1+p)w^o表示关联物体候选框的宽度，(1+p)h^o表示关联物体候选框的高度。其中，p和M的取值可以预先设定，并且可以根据实际需求调整。

对于任何一张待检测图像，CNN可以生成一张与该待检测图像的特征图，该特征图例如可以是一个多维矩阵。根据当前物体候选框获取该当前物体候选框的M个关联物体候选框，可以通过基于感兴趣区域池化ROI-Pooling网络，从该特征图的多维矩阵中找到当前物体候选框及其M个关联物体候选框对应的区域，抽取对应的区域的矩阵值，并生成特定大小的M+1个特征向量。

基于本发明实施例的物体检测方法，可基于物体定位获得的每个物体候选框获得M+1物体候选框，这些物体候选框框拥有相同的中心点、但是不同的高度和/或宽度，而每个物体候选框均通过ROI-Pooling操作生成对应的特征向量，最终基于物体定位获得的每个物体候选框可分化成M+1个特征向量，每个分化的物体候选框覆盖不同区域，生成不同分辨率的特征向量，以便实现多区域/多分辨率的图像输入。

如图4所示，为本发明实施例中获取的关联物体候选框的一个应用示例图。该应用示例中，402为对待检测图像进行物体定位获得的一个物体候选框，作为当前物体候选框；M的取值为4，即：分别对p分别赋予-0.2、0.2、0.8、1.7这4个值，根据当前物体候选框402所在的位置，获得b^-0.2、b^0.2、b^0.8、b^1.7这4个区域大小不同、分辨率不同的关联物体候选框，对应的4个特征向量分别表示为(f^-0.2,f^0.2,f^0.8,f^1.7)。

在本发明各物体检测方法实施例的一个具体示例中，检测图像的特征图为一个，即：从待检测图像的一个特征图中抽取当前物体候选框及其M个关联物体候选框对应的M+1个特征向量。

另外，在本发明各物体检测方法实施例的另一个具体示例中，待检测图像的特征图具体可以包括分别由不同深度的多个CNN生成的待检测图像的多个特征图，此时，从待检测图像的特征图中抽取当前物体候选框及其M个关联物体候选框对应的M+1个特征向量，具体为从物体的多个特征图中抽取当前物体候选框及其M个关联物体候选框对应的M+1个特征向量，其中，从多个特征图中各特征图中抽取的特征向量的数量可以相同或任意不同。例如，可以由一个物体候选框生成4个关联物体候选框，第1、2个关联物体候选框来源于待检测图像的一张特征图，而3、4个关联物体候选框来源于该待检测图像的一张特征图。

与通过多个特征图获取多个关联物体候选框的方案相比，由同一张特征图获取多个关联物体候选框的方案，由于不需要采用不同深度的深度神经网络来获取多个特征图，网络结构比较简单，比较易于实现。

在本发明各物体检测方法实施例的又一个具体示例中，具体可以基于预先训练好的双向门控制结构网络，对M+1个特征向量进行关联，生成最终特征向量。其中的双向门控制结构网络可以包括门控制结构网络和双向传导结构网络两部分。

图5为本发明物体检测方法另一个实施例的流程图。如图5所示，该实施例的物体检测方法包括：

504，对待检测图像进行物体定位，获得L个物体候选框；并通过CNN生成待检测图像的特征图。

其中，L为大于0的整数。

506，分别以L个物体候选框中的每个物体候选框作为当前物体候选框，根据当前物体候选框获取该当前物体候选框的M个关联物体候选框。

508，对M+1个特征向量按照对应物体候选框的大小排序。

具体地，可以按照物体候选框的大小由大到小或有小到大的顺序对M+1个特征向量进行排序，将不影响本发明实施例的物体检测结果。

510，从待检测图像的至少一个特征图中抽取当前物体候选框及其M个关联物体候选框对应的M+1个特征向量。

512，从M+1个特征向量中选取一个中间特征向量，通过预先训练好的门控制结构网络，分别获取M+1个特征向量中除该中间特征向量外的其它特征向量的权重值，并通过权重值对相应的其它特征向量的输入进行控制，获得其它特征向量的有效输入信息。

其中，中间特征向量为排序的M+1个特征向量中除首个特征向量和末尾特征向量外的特征向量。

514，通过预先训练好的双向传导结构网络，由中间特征向量与其它特征向量的有效输入信息生成最终特征向量。

516，根据最终特征向量进行物体检测，获得当前物体候选框的物体检测结果。

本发明实施例通过双向传导结构网络实现了多区域和/或分辨率的图像输入，并在不同区域输入之间传递有效的视觉信息，利用门控制结构网络建立信息传递的可信性，从而提升了物体检测的准确性。

具体地，在本发明各物体检测方法实施例的再一个具体示例中，门控制结构网络为将特征向量映射为[0,1]的函数，权重值的产生函数，例如sigmoid函数、tanh函数等。

进一步地，在本发明物体检测方法的又一个实施例中，还可以包括：预先通过多个样本图像对初始门控制结构网络进行训练，调整初始门控制结构网络的网络参数，获得门控制结构网络。

图6为本发明物体检测方法又一个实施例的流程图。如图6所示，与图5所示的实施例相比，该实施例的物体检测方法还包括：

602，通过双向传导结构网络分别获取M+1个特征向量的响应。

相应地，该实施例中，操作512具体可以通过如下操作实现：

604，从M+1个特征向量中选取一个中间特征向量，通过预先训练好的门控制结构网络，分别获取M+1个特征向量中除该中间特征向量外的其它特征向量的响应的权重值，并通过权重值对相应的其它特征向量的响应进行控制，获得其它特征向量的有效输入信息。

操作514具体可以通过如下操作实现：

606，通过预先训练好的双向传导结构网络，由中间特征向量的响应与其它特征向量的有效输入信息生成最终特征向量。

在图6所示实施例的一个具体实例中，操作606具体可以通过如下方式实现：

分别通过双向传导结构网络的前M个网络层，由中间特征向量的响应与每个其它特征向量的有效输入信息生成一个中间结果向量；

通过双向传导结构网络的第M+1个网络层，对所有中间结果向量进行串联求和，获得最终特征向量。

另外，在图6所示实施例的一个具体实例中，操作606具体也可以通过如下方式实现：

分别通过双向传导结构网络的前M个网络层，由中间特征向量的响应与所有其它特征向量的有效输入信息生成一个中间结果向量；

双向传导结构网络的输入为检测方框的M+1个特征向量，如图7所示，为本发明实施例中双向传导结构网络的一个具体应用示例图。为示意简单，该图7中以M的取值为2进行说明，即以上述M+1个特征向量为三个特征向量进行说明，为方便起见，本发明实施例中将三个特征向量表示为(h_i-1 ⁰,h_i ⁰,h_i+1 ⁰)，实际输入的是例如经过图4输出的五个特征向量。图7中其他变量仅为深度神经网络(DNN)中神经网络节点变量，没有明确物理含义，所有的箭头均表示卷积操作。其中下标i表示该特征向量的在M+1个特征向量中的排序序号，上标0表明该特征向量为从特征图中抽取出的特征向量。

对于上述M+1个特征向量中的一个中间特征向量h_i ⁰，将通过卷积操作生成新的响应h_i ¹和h_i ²，其中，h_i ¹为两个部分之和：h_i ⁰通过卷积操作的响应和h_i-1 ¹通过卷积操作的响应；h_i ²同样为两个部分之和：h_i ⁰通过卷积操作的响应和h_i+1 ²通过卷积的响应。双向传导结构网络的物理意义来源于h_i ¹和h_i ²的定义。h_i ¹的数值来源于特征向量h_i ⁰和h_i-1 ⁰，而h_i ²的数值来源于特征向量h_i ⁰和h_i+1 ²，而双向传导结构网络最后输出的特征向量h_i ³则来源于h_i ¹和h_i ²。具体来说，该双向传导结构网络最后的输出为h_i ¹和h_i ²通过卷积操作操作产生的响应h_i ³，具体公式如下所示：

其中，σ()表示卷积网络中修正线性单元(RELU)的非线性变化操作；cat()表示串联操作，即将括号内输入的特征向量串联起来；表示卷积操作，例如表示a和b之间做卷积操作；w和b均表示卷积网络中的参数，w为卷积核，而b代表偏差(bias)，上、下标用于区分双向传导结构网络中不同网络层的参数。h表示卷积网络中各个神经网络节点的响应，该响应也是一个特征向量。

另外，在另一个具体示例中，h_i ¹或者h_i ²也可以来源于中间特征向量的响应与所有其它特征向量，例如，h_i ¹来源于h_i ⁰，h_i-1 ¹，h_i-2 ¹，例如可以通过公式表示为

在又一个截图示例中，h_i ³也可以直接来源于h_i-1 ⁰、h_i ⁰和h_i+1 ⁰，忽略h_i ¹与h_i ²。

根据双向传导结构的含义即：信息传递存在于h_i-1 ¹和h_i ¹之间，同样也存在于h_i ²和h_i+1 ²之间。例如基于如下公式：

的值受到的影响，这是一种从特征向量i-1输入到特征向量i输入的

横向传递。反之，基于如下公式：

的值受到的影响，这是从特征向量i+1到特征向量i的横向传递，最后特征向量i输入将来自特征向量i+1和特征向量i-1的影响统合在一起，成为h_i ³。

门控制结构网络，可通过一个权重值函数控制信息的传递，如果传递的信息被认为是可信的，其权重值较大，反之，如传递的信息被认为不可信，

则其权重值较小。在图7所示的示例中，h_i-1 ¹、h_i+1 ²传递给h_i ¹的信息中，并不是所有的信息都有效，故而通过门控制结构产生的权重值对h_i-1 ¹、h_i+1 ²信息的传递加以约束。

如图8所示，为本发明实施例中门控制结构网络的一个具体应用示例图。门控制结构网络用于控制M+1个特征向量选取出的中间特征向量以为的其它特征向量的有效输入，例如图7中从i+1输入到i输入、或者从i-1输入到i输入传递的信息。如图8所示，本发明实施例在双向传导结构网络中增加了门控制结构网络，其具体通过一个权重值的产生函数---sigmoid函数，从i+1输入到i输入、或者从i-1输入到i输入传递的信息值进行加权处理。在双向门结构中，h_i-1 ¹传递给h_i ¹的数值将会是两部分乘积，一部分是h_i-1 ¹的卷积输出，另一部分是h_i-1 ⁰的卷积通过sigmoid函数加权处理之后的输出；同理适用于h_i ²和h_i+1 ²之间。双向传导结构加上门控制结构之后，其对和改变具体公式如下所示：

其中，·表示矩阵对应元素乘积，exp()表示指数函数，w和b均表示卷积网络中的参数，上、下标用于区分不同的参数，上标g表示该参数是表示门控制结构网络的参数；其他符号的物理含义不变，可参考之前公式中的介绍；x表示当前中间特征向量，例如图7中的h_i ⁰。

在的公式中包含两项，第一项来自于第i个特征向量输入，第二项来自于第i-1个特征向量输入，多输入信息之间可相互辅助以进行物体检测，但不是所有的输入信息都应该有效，例如，兔耳朵有时可以作为将目标物体检测为兔子的有效证据，但也有时候不是，例如兔子玩具上的兔子耳朵便不能作为将目标物体检测为兔子的有效证据，因此使用门控制函数对某一输入信息的权重值进行控制。具体来说，我们对第i-1个特征向量添加一个权重控制项用于控制第i-1个特征向量输入的影响。当物体检测系统认为来自第i-1个特征向量的输入不可靠时，权重值的值可以趋近于0，反之，如果物体检测系统认为来自第i-1个特征向量的输入可靠，该权重值可为1。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图9为本发明物体检测装置一个实施例的结构示意图。该实施例的物体检测装置可用于实现本发明上述各物体检测方法实施例。如图9所示，该实施例的物体检测装置包括：物体定位单元，特征抽取单元，特征关联单元和物体检测单元。其中：

物体定位单元，用于对待检测图像进行物体定位，获得L个物体候选框。其中，L为大于0的整数。

特征抽取单元，用于分别以L个物体候选框中的每个物体候选框作为当前物体候选框，从待检测图像的至少一个特征图中抽取当前物体候选框及其M个关联物体候选框对应的M+1个特征向量。其中，关联物体候选框与当前物体候选框具有相同的中心点、不同的高度和/或宽度；M为大于0的整数。

特征关联单元，用于对M+1个特征向量进行关联，生成一个最终特征向量。

物体检测单元，用于根据最终特征向量进行物体检测，获得当前物体候选框的物体检测结果。

示例性地，物体检测单元具体可用于根据最终特征向量进行物体检测，获得当前物体候选框包括目标物体的概率值，或者当前物体候选框对应的物体类别。

基于本发明上述实施例提供的物体检测装置，分别针对每个物体候选框，获取与当前物体候选框分别具有相同的中心点、不同的高度和宽度的M个关联物体候选框，从待检测图像的特征图中抽取当前物体候选框及其M个关联物体候选框对应的M+1个特征向量，并对该总共M+1个特征向量进行关联，生成一个最终特征向量，然后根据该最终特征向量进行物体检测，获得当前物体候选框的物体检测结果。由于M个关联物体候选框与当前物体候选框分别具有相同的中心点、不同的高度和宽度，M+1个物体候选框涵盖的区域、分辨率分别不同，本发明实施例实现了多区域/多分辨率的图像输入方式，基于该M+1个物体候选框抽取的M+1个特征向量进行关联获得的最终特征向量进行物体检测，由于采用了不同区域/分辨率的视觉信息，有效解决了现有技术单输入方式导致物体候选框的覆盖范围不正确时出现的问题，例如输入图像中细节被忽略、视觉内容不足和交叠率判断不准的问题，提高了物体检测的准确性。

图10为本发明物体检测装置另一个实施例的结构示意图。如图10所示，与图9所示的实施例相比，该实施例中，还包括特征生成单元，用于生成待检测图像的特征图。

在为本发明物体检测装置的又一个实施例中，特征抽取单元还可用于根据当前物体候选框获取该当前物体候选框的M个关联物体候选框。

示例性地，特征抽取单元获取M个关联物体候选框时，具体可以通过公式：b^p＝[x^o，y^o，(1+p)w^o，(1+p)h^o]，对p分别赋予M个不同的数值，获得M个关联物体候选框。

其中，b^p表示关联物体候选框，x^o和y^o分别表示当前物体候选框的中心点的横坐标和纵坐标，w^o表示当前物体候选框的宽度，h^o表示当前物体候选框的高度，(1+p)w^o表示关联物体候选框的宽度，(1+p)h^o表示关联物体候选框的高度。

在本发明各物体检测装置实施例的一个具体示例中，检测图像的特征图为一个。此时，特征抽取单元具体从待检测图像的一个特征图中抽取当前物体候选框及其M个关联物体候选框对应的M+1个特征向量。

在本发明各物体检测装置实施例的另一个具体示例中，待检测图像的特征图包括分别由不同深度的多个CNN生成的待检测图像的多个特征图。此时，特征抽取单元从待检测图像的特征图中抽取当前物体候选框及其M个关联物体候选框对应的M+1个特征向量时，具体用于从物体的多个特征图中抽取当前物体候选框及其M个关联物体候选框对应的M+1个特征向量。其中，从多个特征图中各特征图中抽取的特征向量的数量可以相同或任意不同。

在本发明各物体检测装置实施例的又一个具体示例中，特征关联单元具体用于基于双向门控制结构网络对M+1个特征向量进行关联。

在本发明各物体检测装置实施例的再一个具体示例中，特征关联单元具体可以包括：排序子单元，门控制结构网络子单元和双向传导结构网络子单元。其中：

排序子单元，用于对M+1个特征向量按照对应物体候选框的大小排序。

门控制结构网络子单元，用于从M+1个特征向量中选取一个中间特征向量，分别获取M+1个特征向量中除中间特征向量外的其它特征向量的权重值，并通过权重值对相应的其它特征向量的输入进行控制，获得其它特征向量的有效输入信息。其中的中间特征向量为排序的M+1个特征向量中除首个特征向量和末尾特征向量外的特征向量。

双向传导结构网络子单元，用于由中间特征向量与其它特征向量的有效输入信息生成最终特征向量。

具体地，在本发明各物体检测装置实施例的再一个具体示例中，门控制结构网络为将特征向量映射为[0,1]的函数。

进一步地，在本发明物体检测装置的又一个实施例中，双向传导结构网络子单元，还可用于分别获取M+1个特征向量的响应。相应地，该实施例中，门控制结构网络子单元，具体用于获取所其它特征向量的响应的权重值，并通过权重值对相应的其它特征向量的响应进行控制。双向传导结构网络子单元，具体用于由上述中间特征向量的响应与其它特征向量的有效输入信息生成最终特征向量。

在其中一个具体示例中，双向传导结构网络子单元包括M+1个网络层。其中：

M+1个网络层中的前M个网络层，用于由上述中间特征向量的响应与每个其它特征向量的有效输入信息生成一个中间结果向量。

M+1个网络层中的第M+1个网络层，用于对所有中间结果向量进行串联求和，获得最终特征向量。

M+1个网络层中的前M个网络层，用于由上述中间特征向量的响应与所有其它特征向量的有效输入信息生成一个中间结果向量；

本发明实施例还提供了一种数据处理装置，包括本发明上述任一实施例提供的物体检测装置。

具体地，本发明实施例的数据处理装置可以是任意具有数据处理功能的装置，例如可以包括但不限于：进阶精简指令集机器(ARM)、中央处理单元(CPU)或图形处理单元(GPU)等。

基于本发明上述实施例提供的数据处理装置，包括本发明上述任一实施例提供的基于本发明上述实施例提供的物体检测装置，实现了多区域/多分辨率的图像输入方式，基于该M+1个物体候选框抽取的M+1个特征向量进行关联获得的最终特征向量进行物体检测，由于采用了不同区域/分辨率的视觉信息，有效解决了现有技术单输入方式导致物体候选框的覆盖范围不正确时出现的问题，例如输入图像中细节被忽略、视觉内容不足和交叠率判断不准的问题，提高了物体检测的准确性。

另外，本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等，该电子设备设置有本发明上述任一实施例的数据处理装置。

基于本发明上述实施例提供的电子设备，包括本发明上述数据处理装置，从而包括本发明上述任一实施例提供的物体检测装置，实现了多区域/多分辨率的图像输入方式，基于该M+1个物体候选框抽取的M+1个特征向量进行关联获得的最终特征向量进行物体检测，由于采用了不同区域/分辨率的视觉信息，有效解决了现有技术单输入方式导致物体候选框的覆盖范围不正确时出现的问题，例如输入图像中细节被忽略、视觉内容不足和交叠率判断不准的问题，提高了物体检测的准确性。

图11为本发明电子设备一个实施例的结构示意图。如图11所示，用于实现本发明实施例的电子设备包括中央处理单元(CPU)或者图形处理单元(GPU)，其可以根据存储在只读存储器(ROM)中的可执行指令或者从存储部分加载到随机访问存储器(RAM)中的可执行指令而执行各种适当的动作和处理。中央处理单元或者图形处理单元可与只读存储器和/或随机访问存储器中通信以执行可执行指令从而完成本发明实施例提供的物体检测方法对应的操作，例如：对接收的待检测图像进行物体定位，获得L个物体候选框；其中，L为大于0的整数；分别以所述L个物体候选框中的每个物体候选框作为当前物体候选框，从所述待检测图像的特征图中抽取当前物体候选框及其M个关联物体候选框对应的M+1个特征向量；其中，关联物体候选框与所述当前物体候选框具有相同的中心点、不同的高度和宽度；M为大于0的整数；对所述M+1个特征向量进行关联，生成一个最终特征向量；根据所述最终特征向量进行物体检测，获得所述当前物体候选框的物体检测结果。

此外，在RAM中，还可存储有系统操作所需的各种程序和数据。CPU、GPU、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。

以下部件连接至I/O接口：包括键盘、鼠标等的输入部分；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，所述程序代码可包括对应执行本发明实施例提供的任一项物体检测方法步骤对应的指令，例如，对接收的待检测图像进行物体定位，获得L个物体候选框的指令；其中，L为大于0的整数；分别以所述L个物体候选框中的每个物体候选框作为当前物体候选框，从所述待检测图像的特征图中抽取当前物体候选框及其M个关联物体候选框对应的M+1个特征向量的指令；其中，关联物体候选框与所述当前物体候选框具有相同的中心点、不同的高度和宽度；M为大于0的整数；对所述M+1个特征向量进行关联，生成一个最终特征向量的指令；根据所述最终特征向量进行物体检测，获得所述当前物体候选框的物体检测结果的指令。该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)或图形处理单元(GPU)执行时，执行本发明的方法中限定的上述功能。

本发明实施例还提供了一种计算机存储介质，用于存储计算机可读取的指令，所述指令包括：对接收的待检测图像进行物体定位，获得L个物体候选框的指令；其中，L为大于0的整数；分别以所述L个物体候选框中的每个物体候选框作为当前物体候选框，从所述待检测图像的特征图中抽取当前物体候选框及其M个关联物体候选框对应的M+1个特征向量的指令；其中，关联物体候选框与所述当前物体候选框具有相同的中心点、不同的高度和宽度；M为大于0的整数；对所述M+1个特征向量进行关联，生成一个最终特征向量的指令；根据所述最终特征向量进行物体检测，获得所述当前物体候选框的物体检测结果的指令。

另外，本发明实施例还提供了一种计算机设备，包括：

存储器，存储可执行指令；

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统、装置、设备实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本发明的方法、系统、装置和设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法、系统、装置和设备。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种物体检测方法，其特征在于，包括：

对所述M+1个特征向量进行关联，生成一个最终特征向量；

2.根据权利要求1所述的方法，其特征在于，还包括：

通过卷积神经网络CNN，生成所述待检测图像的特征图。

3.根据权利要求1或2所述的方法，其特征在于，还包括：

4.根据权利要求3所述的方法，其特征在于，根据所述当前物体候选框获取该当前物体候选框的M个关联物体候选框包括：

5.根据权利要求3或4所述的方法，其特征在于，所述待检测图像的特征图为一个。

6.根据权利要求3或4所述的方法，其特征在于，所述待检测图像的特征图包括分别由不同深度的多个CNN生成的所述待检测图像的多个特征图；

7.根据权利要求1至6任意一项所述的方法，其特征在于，对所述M+1个特征向量进行关联包括：

基于双向门控制结构网络对所述M+1个特征向量进行关联。

8.一种物体检测装置，其特征在于，包括：

9.一种数据处理装置，其特征在于，包括权利要求8所述的物体检测装置。

10.一种电子设备，其特征在于，设置有权利要求9所述的数据处理装置。