CN112488060A

CN112488060A - 目标检测方法、装置、设备、介质和程序产品

Info

Publication number: CN112488060A
Application number: CN202011506159.2A
Authority: CN
Inventors: 宫延河
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-03-12
Anticipated expiration: 2040-12-18
Also published as: CN112488060B

Abstract

本申请公开了一种目标检测方法、装置、设备、介质和程序产品，涉及互联网领域，尤其涉及深度学习、图像识别和AR领域。具体实现方案为：获取视频流中至少一帧图像；利用检测模型，对所述至少一帧图像中的设定目标进行目标检测，确定所述视频流中所述设定目标的位姿；其中，所述检测模型包括至少一个逆残差网络块，每个逆残差网络块至少包括深度可分离卷积层和输出层，所述输出层用于从所述深度可分离卷积层得到的n个特征图中，选择符合预设条件的特征图作为输出，n为所述深度可分离卷积层的通道数。本申请通过减少深度可分离卷积中的参数量，减少空间占用，进而减少目标检测的运算量，提高目标检测的效率。

Description

目标检测方法、装置、设备、介质和程序产品

技术领域

本申请涉及互联网领域，尤其涉及一种深度学习、图像识别和AR技术，具体涉及一种目标检测方法、装置、设备、介质和程序产品。

背景技术

现有技术中，通常利用深度学习网络来进行目标检测。深度学习网络需要耗费大量的计算和存储资源，如何在移动端高效运行就成为一个非常重要的课题。深度可分离网络能够大幅减少普通卷积所需的运算量，目前得到了广泛的应用。

但是，如何进一步压缩深度可分离网络的存储空间，仍然是一个亟待解决的问题。

发明内容

本申请提供一种目标检测方法、装置、设备、介质和程序产品，以提高目标检测的效率。

第一方面，本申请提供了一种目标检测方法，包括：

获取视频流中至少一帧图像；

利用检测模型，对所述至少一帧图像中的设定目标进行目标检测，确定所述视频流中所述设定目标的位姿；

其中，所述检测模型包括至少一个逆残差网络块，每个逆残差网络块至少包括深度可分离卷积层和输出层，所述输出层用于从所述深度可分离卷积层得到的n个特征图中，选择符合预设条件的特征图作为输出，n为所述深度可分离卷积层的通道数。

第二方面，本申请还提供了一种目标检测装置，包括：

视频流获取模块，用于获取视频流中至少一帧图像；

目标检测模块，用于利用检测模型，对所述至少一帧图像中的设定目标进行目标检测，确定所述视频流中所述设定目标的位姿；

第三方面，本申请还提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请任意实施例所述的目标检测方法。

第四方面，本申请还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本申请任意实施例所述的目标检测方法。

第五方面，本申请还提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本申请任意实施例所述的目标检测方法。

根据本申请的技术方案，通过减少深度可分离卷积中的参数量，减少空间占用，进而减少目标检测的运算量，提高目标检测的效率。

应当理解，本部分所描述的内容并非旨在标识本申请的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解，上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请实施例的目标检测方法的流程示意图；

图2是根据本申请实施例的目标检测方法中逆残差网络块与现有技术的对比示意图；

图3是根据本申请实施例的目标检测方法中逆残差网络块的结构示意图；

图4是根据本申请实施例的目标检测装置的结构示意图；

图5是用来实现本申请实施例的目标检测方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本申请实施例的目标检测方法的流程示意图，本实施例可适用于依据视频图像进行目标检测的情况，例如在移动端进行目标检测的情况。该方法可由一种目标检测装置来执行，该装置采用软件和/或硬件的方式实现，优选是配置于电子设备中，例如终端、计算机设备或服务器等。如图1所示，该方法具体包括如下：

S101、获取视频流中至少一帧图像。

其中，视频流可以是任何场景下的视频流。例如，在AR试鞋场景下，用户通过移动端等设备对自己进行拍摄，移动端则需要通过视频流中的图像对脚部进行识别，检测出视频中用户脚部的位姿，并利用AR技术，将要试用的鞋子穿戴在用户的脚部，在视频中呈现出用户试穿鞋子的真实场景。

S102、利用检测模型，对至少一帧图像中的设定目标进行目标检测，确定视频流中设定目标的位姿；其中，检测模型包括至少一个逆残差网络块，每个逆残差网络块至少包括深度可分离卷积层和输出层，所述输出层用于从深度可分离卷积层得到的n个特征图中，选择符合预设条件的特征图作为输出，n为深度可分离卷积层的通道数。

具体的，在获取到视频流中至少一帧图像之后，需要利用检测模型对图像中的设定目标进行识别。可以是实时对视频流中至少一帧图像进行识别，也可以是非实时进行识别，由具体的应用场景决定。例如，在AR试鞋的场景中，脚部就是设定目标，如果对实时性要求较高，则可以实时获取视频流中至少一帧图像，并对图像中的脚部进行识别和检测，获取脚部的实时位姿。

所述检测模型可以是基于深度学习算法预先训练的具有目标检测能力的深度可分离网络模型。这里需要说明的是，由于模型是运行在移动端进行的目标检测，尤其是进行实时目标检测的情形，对模型运算的效率要求较高，对存储空间也有较为严格的要求。如果模型运算量过大，占用存储空间过大，会导致运算效率低，影响移动端的目标检测速度，同时移动端也无法留有更多的存储空间用于存储运算过程中产生的参数。虽然深度可分离网络能够大幅减少深度学习网络中普通卷积所需的运算量，然而，在很多场景下，仍然具有进一步压缩深度可分离网络的存储空间的需求，有必要进一步降低模型的运算量，提升运算速度。

因此，本申请实施例中的检测模型包括至少一个逆残差网络块，每个逆残差网络块至少包括深度可分离卷积层和输出层，所述输出层用于从深度可分离卷积层得到的n个特征图中，选择符合预设条件的特征图作为输出，n为深度可分离卷积层的通道数。

现有技术中的逆残差网络通过将3*3卷积分解成1*1卷积+3*3卷积+1*1卷积的方式，在一定程度上降低了运算量，但是仍不能满足现实需求。本申请实施例中的逆残差网络块，中间层是深度可分离卷积层，其后面的输出层并不是普通的1*1卷积，而是用于从深度可分离卷积层得到的n个特征图中，选择符合预设条件的特征图作为输出的输出层。普通的卷积层需要遍历上一层(深度可分离卷积层)的所有特征图，而本申请实施例中的输出层，只需要从深度可分离卷积层得到的n个特征图中，选择符合预设条件的特征图作为输出即可，不需要遍历深度可分离卷积层的所有特征图，从而减少了参数量和运算量，提高了目标检测的速度。而深度可分离卷积层的前一层，可以是1*1卷积层。

在一种实施方式中，预设条件可以包括：特征图中各元素的绝对值之和最大。也就是说，在根据通道数n确定的深度可分离卷积层产生的n个特征图中，比较每个特征图中各元素的绝对值之和，并将和最大的特征图作为输出。在计算过程中，虽然也会产生参数，但是该参数只是计算特征图中各元素的绝对值之和所产生的参数，其参数量远远小于普通卷积因遍历全部特征图而产生的参数量，从而相对普通卷积，大大降低了参数量和运算量，同时降低了存储空间。

在另一种实施方式中，输出层还可以是跨通道分组池化层。该跨通道分组池化层用于将深度可分离卷积层中按通道n进行跨通道分组池化，池化结果作为输出，具体可以采用平均池化或最大池化方法。而由于池化不含有参数，因此，用跨通道分组池化层代替普通的1*1卷积层，也降低了参数量和运算量，同时降低了存储空间。图2即为根据本申请实施例的目标检测方法中逆残差网络块与现有技术的对比示意图，如图2中图(1)所示的现有技术中，逆残差网络块包括箭头所示的1*1卷积层(Conv1×1)、深度可分离卷积层(Dconv3×3)和1*1卷积层(Conv1×1)。而如图2中图(2)所示的本申请实施例中，则将图(1)中最后一层普通的1*1卷积层，替换为跨通道分组池化层(C Pooling)，相比现有技术降低了参数量和运算量。

图3是根据本申请实施例的目标检测方法中逆残差网络块的结构示意图。如图所示，本申请实施例中的逆残差网络块至少包括1*1卷积层1、深度可分离卷积层2和输出层3。输出层3可以是用于从深度可分离卷积层2得到的n个特征图中，计算每个特征图中各元素的绝对值之和，并选择和最大的特征图作为输出的输出层；也可以是跨通道分组池化层，用于在深度可分离卷积层2得到的n个特征图中进行跨通道分组池化。但不论是哪一种实施方式，本申请实施例中的输出层，都能够起到对深度可分离卷积层2进行“打薄”的作用，也即：无需对深度可分离卷积层2得到的n个特征图依次进行遍历，减少深度可分离卷积中的参数量，减少空间占用，同时减少了运算量，有利于移动端部署。

本申请实施例的技术方案，通过从深度可分离卷积层得到的n个特征图中，选择符合预设条件的特征图作为输出，无需遍历深度可分离卷积层得到的全部特征图，减少了深度可分离卷积中的参数量和空间占用，进而减少目标检测的运算量，提高目标检测的效率。

图4是根据本申请实施例的目标检测装置的结构示意图，本实施例可适用于依据视频图像进行目标检测的情况，例如在移动端进行目标检测的情况。该装置可实现本申请任意实施例所述的目标检测方法。如图4所示，该装置400具体包括：

视频流获取模块401，用于获取视频流中至少一帧图像；

目标检测模块402，用于利用检测模型，对所述至少一帧图像中的设定目标进行目标检测，确定所述视频流中所述设定目标的位姿；

可选的，所述预设条件包括：特征图中各元素的绝对值之和最大。

可选的，所述输出层为跨通道分组池化层。

可选的，所述深度可分离卷积层为3*3卷积层；

所述每个逆残差网络块还包括位于所述深度可分离卷积层前面的1*1卷积层。

本申请实施例提供的目标检测装置400可执行本申请任意实施例提供的目标检测方法，具备执行方法相应的功能模块和有益效果。本实施例中未详尽描述的内容可以参考本申请任意方法实施例中的描述。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如目标检测方法。例如，在一些实施例中，目标检测方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的目标检测方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行目标检测方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种目标检测方法，包括：

获取视频流中至少一帧图像；

2.根据权利要求1所述的方法，其中，所述预设条件包括：

特征图中各元素的绝对值之和最大。

3.根据权利要求1所述的方法，其中，所述输出层为跨通道分组池化层。

4.根据权利要求1所述的方法，其中，所述深度可分离卷积层为3*3卷积层；

5.一种目标检测装置，包括：

视频流获取模块，用于获取视频流中至少一帧图像；

6.根据权利要求5所述的装置，其中，所述预设条件包括：

特征图中各元素的绝对值之和最大。

7.根据权利要求5所述的装置，其中，所述输出层为跨通道分组池化层。

8.根据权利要求5所述的装置，其中，所述深度可分离卷积层为3*3卷积层；

9.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述的目标检测方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行权利要求1-4中任一项所述的目标检测方法。

11.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-4中任一项所述的目标检测方法。