CN111460958A

CN111460958A - 一种物体检测器构建、物体检测方法及系统

Info

Publication number: CN111460958A
Application number: CN202010223765.7A
Authority: CN
Inventors: 彭杰锋; 龚科; 梁小丹; 王广润; 林倞
Original assignee: DMAI Guangzhou Co Ltd
Current assignee: DMAI Guangzhou Co Ltd
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2020-07-28
Anticipated expiration: 2040-03-26
Also published as: CN111460958B

Abstract

本发明公开一种物体检测器构建、物体检测方法及系统，其中物体检测器构建方法包括：构建主干网络的搜索空间及头部网络的搜索空间，对主干网络和头部网络进行松弛化处理；利用随机梯度下降的方法对松弛化处理后的主干网络和头部网络执行网络结构搜索操作，学习重构其拓扑连接和子网络，得到主干网络和头部网络组成的物体检测器。本发明利用神经网络结构搜索的机制对主干网络和头部网络的结构进行搜索，实现对单次物体检测器的自动网络结构定制。引入头部网络学习重构他们的拓扑连接和子网络，以便挖掘更有效的检测模块进行局部信息和全局信息表达，在执行网络结构搜索时考虑上网络的延迟，实现实时检测任务对模型速度和准确性的权衡。

Description

一种物体检测器构建、物体检测方法及系统

技术领域

本发明涉及自动机器学习技术领域，具体涉及一种物体检测器构建、物体检测方法及系统。

背景技术

目标搜索(检测与定位)是计算机视觉的基础任务，其目的是根据给出的图片找出图片中的目标物体，并给出其位置及其边界框等信息。在现实生活中可以应用于智慧交通，智能安防等方面。

近年来，随着人工智能与深度学习的发展，传统的目标定位与检测任务在性能与速度上都取得了显著性的成果。然而，传统的目标识别或检测任务都是通过人工设计特征提取网络和检测模块来完成的，这需要耗费大量的人力和时间来设计模块与验证有效性。此外，训练过程一般分为两个阶段，先在分类任务上预训练特征提取网络，然后再在目标识别或检测任务上微调模型。现有的模型主干网络是从分类模型迁移过来的，结构固定无法适应具体检测任务做调整，且基于分类任务的预训练模型在检测任务上存在学习目标的偏差。

发明内容

因此，本发明要解决的技术问题在于克服现有技术中的目标检测模型无法调整网络框架导致检测效果差的缺陷，从而提供一种物体检测器构建、物体检测方法及系统。

为达到上述目的，本发明提供如下技术方案：

第一方面，本发明实施例提供一种物体检测器构建方法，包括：构建主干网络的搜索空间，所述主干网络用于提取物体特征；构建头部网络的搜索空间，所述头部网络用于物体的识别检测；对主干网络和头部网络进行松弛化处理；利用随机梯度下降的方法对松弛化处理后的主干网络和头部网络执行网络结构搜索操作，学习重构其拓扑连接和子网络，得到主干网络和头部网络组成的物体检测器。

进一步地，所述主干网络的搜索空间包括多层卷积模块单元，在预设位置的卷积模块单元进行下采样，并在下采样的卷积模块单元增加一倍或多倍的滤波器数量，进行下采样单元称为“缩减单元”，其他单元称为“常规单元”。

进一步地，所述头部网络搜索空间包括多层卷积模块单元，其中的第一个“常规单元”放置在第一个分类器之前，第二个“缩减单元”负责连接主干网络与级联结构，其余单元依次放置在后续的分类器之前。

进一步地，所述主干网络的搜索空间的每个多层卷积模块单元由N个节点组成，其中前两个节点是输入节点，对于N-3个中间节点，第n个节点将来自前面节点的n+1个输入特征图映射到输出特征图，最后一个输出节点将来自中间节点的输出特征图拼接得到当前模块单元的输出。

进一步地，所述头部网络的搜索空间的每个多层卷积模块单元由N个节点组成，其中前两个节点是输入节点，对于N-3个中间节点，第n个节点将来自前面节点的n+1个输入特征图映射到输出特征图，最后一个输出节点将来自中间节点的输出特征图拼接并进行卷积后得到当前模块单元的输出。

进一步地，主干网络的搜索空间和头部网络的搜索空间操作包括：不同尺度的深度可分卷积、不同尺度的卷积、不同尺度的膨胀卷积、无连接操作以及同等映射连接。

进一步地，所述对主干网络和头部网络进行松弛化处理的步骤，包括：

通过增加一路径权重得到松弛化表达的

来近似每个中间节点的操作

其中，

为路径权重由结构参数归一化得到，

为输出特征；

分配不同的结构参数α给“常规单元”和“缩减单元”并使用随机梯度下降优化结构参数α和网络权重ω；

设置权衡系数λ控制模型精度和网络延迟的权衡，并将其合并到最终的损失函数L；

当网络收敛后，根据结构参数α选择两个最可能用于每个中间节点的操作来得到离散化的网络结构。

主干网络的损失函数L1为：

L1＝L_conf1+L_locl+λ₁E1[latency]，

头部网络的损失函数为L2：

L2＝L_conf2+L_loc2+λ₁E2[latency]，

当主干网络和头部网络同时进行松弛化处理时，总的损失函数L为：

L＝L1+L2，

其中，L_conf1、L_conf2分别对应网络的为识别框类别概率， L_loc1、L_loc2为对应网络的识别框位置概率，E1[latency]、E2[latency]为对应网络的延迟，λ₁、λ₁为对应网络的权衡系数。

第二方面，本发明实施例提供一种物体检测方法，包括；

对本发明实施例第一方面所述的物体检测器构建方法得到的物体检测器进行训练；利用训练好的物体检测器对目标物体进行检测。

第三方面，本发明实施例提供一种物体检测器构建系统，包括：

主干网络的搜索空间构建模块，用于构建主干网络的搜索空间，所述主干网络用于提取物体特征；

头部网络的搜索空间构建模块，用于构建头部网络的搜索空间，所述头部网络用于物体的识别检测；

松弛化处理模块，用于对主干网络和头部网络进行松弛化处理；

物体检测器获取模块，用于利用随机梯度下降的方法对松弛化处理后的主干网络和头部网络执行网络结构搜索操作，学习重构其拓扑连接和子网络，得到主干网络和头部网络组成的物体检测器。

第四方面，本发明实施例提供一种物体检测系统，包括：

训练模块，用于对本发明实施例第一方面所述的物体检测器构建方法得到的物体检测器进行训练；

检测模块，用于利用训练好的物体检测器对目标物体进行检测。

第五方面，本发明实施例提供一种计算机设备，包括：至少一个处理器，以及与至少一个处理器通信连接的存储器，其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器执行本发明实施例第一方面及第二方面所述的方法。

第六方面，本发明实施例提供一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令用于使计算机执行本发明实施例第一方面及第二方面所述的方法。

本发明技术方案，具有如下优点：

本发明提供的一种物体检测器构建、物体检测方法及系统，利用神经网络结构搜索的机制对主干网络(特征提取网络)和头部网络(识别检测模块)的结构进行搜索，实现对单次物体检测器的自动网络结构定制。不同于简单地移植图像分类任务中的预训练模型作为检测框架的主干网络的传统做法，使用神经网络结构搜索方法来自动设计一个符合物体检测任务需求的主干网络，称为自动主干网络，优于手工设计的传统主干网络，并且可以直接在物体检测任务上从零开始训练检测模型。其次，引入了自动头部网络，对大部分已经被验证过有效的检测操作作为搜索空间进行搜索，并学习重构他们的拓扑连接和子网络，以便挖掘更有效的检测模块进行局部信息和全局信息表达。还对网络搜索空间进行了扩充和优化，使网络结构搜索能够学习到最有用的头部网络结构，而无需大量的结构设计和组合。最后，在执行网络结构搜索时考虑上网络的延迟，以实现实时检测任务对模型速度和准确性的权衡。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中的物体检测器构建方法的一个具体示例的流程图；

图2为本发明实施例中的网络结构示意图；

图3为本发明实施例中物体检测网络在不同数据集上的最佳性能对比结果示意图；

图4为本发明实施例中提供的PASCAL VOC数据集中以VGG-16为主干网络的其他基线模型比较结果示意图；

图5为本发明实施例中提供的物体检测器构建系统的模块组成图；

图6为本发明实施例中提供的物体检测方法的一个具体示例的流程图；

图7为本发明实施例中物体检测系统一个具体示例的组成框图。

图8为本发明实施例提供的计算机设备一个具体示例的组成图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

本实施例提供一种物体检测器构建方法，如图1所示，包括如下步骤：

S1：构建主干网络的搜索空间，所述主干网络用于提取物体特征。

本发明实施例中，主干网络的搜索空间包括多层卷积模块单元，在预设位置的卷积模块单元进行下采样，并在下采样的卷积模块单元增加一倍或多倍的滤波器数量，进行下采样单元称为“缩减单元”，其他单元称为“常规单元”。

在一具体实施例中，例如是包括6个卷积模块单元，在起始、1/3、1/2 以及倒数1/6处的单元(第1、2、3、6个单元)中对特征下采样一半(或部分)的空间分辨率，同时增加一倍(或多倍)的滤波器数量。

主干网络的搜索空间的每个多层卷积模块单元由N个节点组成，如图2所示，其中前两个节点是输入节点，分别对应前两个模块单元的输出 H^l-1，H^l-2。对于N-3个中间节点，第n个节点将来自前面节点(包括两个输入节点)的n+1个输入特征图映射到输出特征图

最后一个输出节点将来自中间节点的输出特征图

拼接得到当前模块单元的输出H^l。搜索空间包含但不限于以下操作：3x3深度可分卷积、5x5深度可分卷积、1x3_3x1卷积、1x5_5x1卷积、3x3膨胀卷积、5x5膨胀卷积、无连接操作、同等映射连接。

S2：构建头部网络的搜索空间，所述头部网络用于物体的识别检测。

头部网络搜索空间包括多层卷积模块单元，其中的第一个“常规单元”放置在第一个分类器之前，第二个“缩减单元”负责连接主干网络与级联结构，如RFBNet中的RFB模块，其余单元依次放置在后续的分类器之前。

本实施例中头部网络的搜索空间的每个多层卷积模块单元由N个节点组成，其中前两个节点是输入节点，对于N-3个中间节点，第n个节点将来自前面节点的n+1个输入特征图映射到输出特征图，最后一个输出节点将来自中间节点的输出特征图拼接并进行卷积后得到当前模块单元的输出。可以看出与主干网络的搜索空间的每个多层卷积模块单元的结果类似，区别在于在输出节点添加了一个新的卷积，例如是1x1卷积。搜索空间也包含但不限于以下操作：3x3深度可分卷积、5x5深度可分卷积、1x3_3x1 深度可分卷积、1x5_5x1深度可分卷积、3x3膨胀卷积、5x5膨胀卷积、3x3 最大池化层、3x3平均池化层、无连接操作、同等映射连接。

S3：对主干网络和头部网络进行松弛化处理。

本发明实施例为了能够使用随机梯度下降的方法执行网络结构搜索，对主干网络和头部网络进行松弛化处理。主干网络和头部网络进行松弛化的过程一样，下面以主干网络松弛化处理为例进行说明。

首先，每个中间节点的输出特征

都是由输入特征

计算得到，其中的 j节点的输出特征

作为i节点的输入特征：

为了计算O_j→i，通过增加一个路径权重

得到松弛化表达的

来近似O_j→i：

其中

由结构参数

归一化得到：

分配不同的结构参数α给“常规单元”和“缩减单元”并使用随机梯度下降优化结构参数α和网络权重ω。

除了模型精度，网络延迟也作为优化目标之一。具体来说，将网络的延迟建模为神经网络维度的连续函数。给定松弛化表达

以及相关联的路径权重

定义

的期望延迟为：

其中LAT(O^k)表示

的特定操作时间延迟(微秒)，由推理期间测量的实际运行时间得到。因此，网络的总延迟定义如下：

本发明实施例通过系数λ控制模型精度和网络延迟的权衡，并将其合并到最终的损失函数中：

L1＝L_conf1+L_loc1+λ₁E1[latency]

当网络收敛后，我们根据结构参数α选择两个最可能用于每个中间节点的操作来得到离散化的网络结构：

在实际应用中，当主干网络和头部网络可以分别或同时进行松弛化处理，分别松弛化处理时，主干网络的损失函数L1为：

L1＝L_conf1+L_loc1+λ₁E1[latency]，

头部网络的损失函数为L2：

L2＝L_conf2+L_loc2+λ₁E2[latency]

当主干网络和头部网络同时进行松弛化处理时，损失函数L为：

L＝L1+L2，

S4：利用随机梯度下降的方法对松弛化处理后的主干网络和头部网络执行网络结构搜索操作，学习重构其拓扑连接和子网络，得到主干网络和头部网络组成的物体检测器。

本发明实施例提供的方法，利用神经网络结构搜索的机制对主干网络(特征提取网络)和头部网络(识别检测模块)的结构进行搜索，实现对单次物体检测器的自动网络结构定制。不同于简单地移植图像分类任务中的预训练模型作为检测框架的主干网络的传统做法，使用神经网络结构搜索方法来自动设计一个符合物体检测任务需求的主干网络，称为自动主干网络。实验证明它优于手工设计的传统主干网络，并且可以直接在物体检测任务上从零开始训练检测模型。通过引入了自动头部网络，对大部分已经被验证过有效的检测操作作为搜索空间进行搜索，并学习重构他们的拓扑连接和子网络，以便挖掘更有效的检测模块进行局部信息和全局信息表达。还对网络搜索空间进行了扩充和优化，使网络结构搜索能够学习到最有用的头部网络结构，而无需大量的结构设计和组合。在执行网络结构搜索时考虑上网络的延迟，以实现实时检测任务对模型速度和准确性的权衡。

如图3所示，本发明实施例提供的方法在所有三个基准测试中都获得了比基线模型显着的提升，模型尺寸略有增加。具体而言，自动单次物体检测网络在VOC数据集上实现了72.5％的mAP，相比之下，RFBNet只有71.2％，对于COCO数据集则是21.5％比20.7％，此外，ADE数据集是5.2％比3.7％。这有力地证明了本发明实施例提供的方法可以找到比手工设计的单次物体检测网络更好的神经网络架构，包括更有效的主干网络，和用于分类和边界框回归的更好的头部网络结构。将搜索到的架构迁移到其他数据集(COCO和ADE)与直接在搜索目标数据集(VOC)上的表现是一致的，可以验证本申请提到的自动单次物体检测网络具有很好的迁移性和泛化能力。

此外，本发明实施例提供的自动主干网络可以很容易地扩展，以实现更高的性能。在一实施例中，扩展了自动主干网络，并将其与PASCAL VOC 数据集中以VGG-16为主干网络的其他基线模型进行比较，如图4所示。这里的头部网络结构是RFB模块，与在RFBNet中的头部网络是相同的，以便进行公平的比较，本发明实施例扩展的自动主干网络比目前最先进的单次物体检测器在模型大小上轻量化了40％，却仍然达到了相当的性能。进一步证明了本发明实施例提供的自动主干网络具有良好的泛化能力，可以根据模型大小方便地进行扩展，从而有效地获得更好的结果。

与方法对应地，本发明实施例还提供一种物体检测器构建系统，如图5所示，包括：

主干网络的搜索空间构建模块1，用于构建主干网络的搜索空间，所述主干网络用于提取物体特征；此模块执行实施例1中的步骤S1所描述的方法，在此不再赘述。

头部网络的搜索空间构建模块2，用于构建头部网络的搜索空间，所述头部网络用于物体的识别检测；此模块执行步骤S2所描述的方法，在此不再赘述。

松弛化处理模块3，用于对主干网络和头部网络进行松弛化处理；此模块执行步骤S3所描述的方法，在此不再赘述。

物体检测器获取模块4，用于利用随机梯度下降的方法对松弛化处理后的主干网络和头部网络执行网络结构搜索操作，学习重构其拓扑连接和子网络，得到主干网络和头部网络组成的物体检测器。此模块执行步骤S4所描述的方法，在此不再赘述。

实施例2

本发明实施例提供一种物体检测方法，如图6所示，包括：

步骤S11:对实施例1中所述的物体检测器构建方法得到的物体检测器进行训练；

步骤S12:利用训练好的物体检测器对目标物体进行检测。

本发明实施例提供的物体检测方法，通过实施例1中的自动主干网络和自动头部网络组成自动单次物体检测器，并对其从零开始进行训练，能够实现具体检测任务、具体数据的优化，而不是简单的迁移分类模型的训练参数，对物体检测的结果更加准确。

对应上述物体检测方法，本发明实施例还提供一种物体检测系统，如图7所示，包括：

训练模块11，用于对实施例1中的物体检测器构建方法得到的物体检测器进行训练；此模块执行步骤S11所描述的方法，在此不再赘述。

检测模块12，用于利用训练好的物体检测器对目标物体进行检测。此模块执行步骤S12所描述的方法，在此不再赘述。

实施例3

本发明实施例提供一种计算机设备，如图8所示，包括：至少一个处理器401，例如CPU(Central Processing Unit，中央处理器)，至少一个通信接口403，存储器404，至少一个通信总线402。其中，通信总线402用于实现这些组件之间的连接通信。其中，通信接口403可以包括显示屏(Display)、键盘(Keyboard)，可选通信接口403还可以包括标准的有线接口、无线接口。存储器404可以是高速RAM存储器(Ramdom Access Memory，易挥发性随机存取存储器)，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器404可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以执行实施例1及实施例2中的方法。存储器404中存储一组程序代码，且处理器401调用存储器404中存储的程序代码，以用于执行实施例1及实施例2中的方法。

其中，通信总线402可以是外设部件互连标准(peripheral componentinterconnect，简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture，简称EISA)总线等。通信总线402可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条线表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器404可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：hard diskdrive，缩写：HDD)或固降硬盘(英文：solid-state drive，缩写：SSD)；存储器404还可以包括上述种类的存储器的组合。

其中，处理器401可以是中央处理器(英文：central processing unit，缩写：CPU)，网络处理器(英文：network processor，缩写：NP)或者CPU 和NP的组合。

其中，处理器401还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integrated circuit，缩写：ASIC)，可编程逻辑器件(英文：programmable logic device，缩写：PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logic device，缩写：CPLD)，现场可编程逻辑门阵列(英文：field-programmable gate array，缩写：FPGA)，通用阵列逻辑(英文：generic arraylogic,缩写： GAL)或其任意组合。

可选地，存储器404还用于存储程序指令。处理器401可以调用程序指令，实现如本申请执行实施例1及实施例2中的方法。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机可执行指令，该计算机可执行指令可执行实施例1及实施例2中的方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(RandomAccess Memory， RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固降硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种物体检测器构建方法，其特征在于，包括：

构建主干网络的搜索空间，所述主干网络用于提取物体特征；

构建头部网络的搜索空间，所述头部网络用于物体的识别检测；

对主干网络和头部网络进行松弛化处理；

利用随机梯度下降的方法对松弛化处理后的主干网络和头部网络执行网络结构搜索操作，学习重构其拓扑连接和子网络，得到主干网络和头部网络组成的物体检测器。

2.根据权利要求1所述的物体检测器构建方法，所述主干网络的搜索空间包括多层卷积模块单元，在预设位置的卷积模块单元进行下采样，并在下采样的卷积模块单元增加一倍或多倍的滤波器数量，进行下采样单元称为“缩减单元”，其他单元称为“常规单元”。

3.根据权利要求2所述的物体检测器构建方法，所述头部网络搜索空间包括多层卷积模块单元，其中的第一个“常规单元”放置在第一个分类器之前，第二个“缩减单元”负责连接主干网络与级联结构，其余单元依次放置在后续的分类器之前。

4.根据权利要求1所述的物体检测器构建方法，其特征在于，所述主干网络的搜索空间的每个多层卷积模块单元由N个节点组成，其中前两个节点是输入节点，对于N-3个中间节点，第n个节点将来自前面节点的n+1个输入特征图映射到输出特征图，最后一个输出节点将来自中间节点的输出特征图拼接得到当前模块单元的输出。

5.根据权利要求1所述的物体检测器构建方法，其特征在于，所述头部网络的搜索空间的每个多层卷积模块单元由N个节点组成，其中前两个节点是输入节点，对于N-3个中间节点，第n个节点将来自前面节点的n+1个输入特征图映射到输出特征图，最后一个输出节点将来自中间节点的输出特征图拼接并进行卷积后得到当前模块单元的输出。

6.根据权利要求1所述的物体检测器构建方法，其特征在于，主干网络的搜索空间和头部网络的搜索空间操作包括：不同尺度的深度可分卷积、不同尺度的卷积、不同尺度的膨胀卷积、无连接操作以及同等映射连接。

7.根据权利要求3所述的物体检测器构建方法，其特征在于，所述对主干网络和头部网络进行松弛化处理的步骤，包括：

通过增加一路径权重得到松弛化表达的