CN110163197B

CN110163197B - 目标检测方法、装置、计算机可读存储介质及计算机设备

Info

Publication number: CN110163197B
Application number: CN201810974541.2A
Authority: CN
Inventors: 苗捷; 冉辰; 许典平; 贾晓义; 姜媚; 林榆耿
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-08-24
Filing date: 2018-08-24
Publication date: 2023-03-10
Anticipated expiration: 2038-08-24
Also published as: EP3843003B1; US20200410273A1; CN110163197A; EP3843003A4; WO2020038205A1; EP3843003A1; US11710293B2

Abstract

本申请涉及一种目标检测方法、装置、存储介质及计算机设备，方法包括：获取待测图像；提取所述待测图像对应的第一图像特征和第二图像特征；根据所述第二图像特征进行空洞卷积，得到所述待测图像对应的第三图像特征；根据所述第一图像特征和所述第三图像特征进行分类及回归，确定所述待测图像中的目标对象所对应的候选位置参数以及与所述候选位置参数对应的置信度；按照所述置信度从各所述候选位置参数中筛选出有效位置参数，并根据所述有效位置参数确定所述待测图像中目标对象所在的位置。本申请中的方案能够提高目标检测的鲁棒性及减少耗时。

Description

目标检测方法、装置、计算机可读存储介质及计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种目标检测方法、装置、计算机可读存储介质及计算机设备。

背景技术

随着计算机技术的发展，人们越来越多地通过图像来传递信息，而图像中承载的内容也越来越丰富多样。目标检测是图像处理中的重要分支，具体是指确定图像中目标对象所在的位置。

传统的目标检测方式，是通过在图像中查找目标对象上的定位点来确定目标对象在图像中的位置。以目标对象是二维码为例，在图像中查找设置在二维码的三个顶点处的定位标志，从而确定二维码在图像中的位置。然而，传统的目标检测方式鲁棒性不佳且耗时长。

发明内容

根据此，有必要针对传统技术中鲁棒性不佳且耗时长的技术问题，提供一种目标检测方法、装置、计算机可读存储介质及计算机设备。

一种目标检测方法，包括：

获取待测图像；

提取所述待测图像对应的第一图像特征和第二图像特征；

根据所述第二图像特征进行空洞卷积，得到所述待测图像对应的第三图像特征；

根据所述第一图像特征和所述第三图像特征进行分类及回归，确定所述待测图像中的目标对象所对应的候选位置参数以及与所述候选位置参数对应的置信度；

按照所述置信度从各所述候选位置参数中筛选出有效位置参数，并根据所述有效位置参数确定所述待测图像中目标对象所在的位置。

一种目标检测装置，包括：

待测图像获取模块，用于获取待测图像；

图像特征获取模块，用于提取所述待测图像对应的第一图像特征和第二图像特征；

空洞卷积处理模块，用于根据所述第二图像特征进行空洞卷积，得到所述待测图像对应的第三图像特征；

候选参数获取模块，用于根据所述第一图像特征和所述第三图像特征进行分类及回归，确定所述待测图像中的目标对象所对应的候选位置参数以及与所述候选位置参数对应的置信度；

目标位置确定模块，用于按照所述置信度从各所述候选位置参数中筛选出有效位置参数，并根据所述有效位置参数确定所述待测图像中目标对象所在的位置。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述目标检测方法中的步骤。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述目标检测方法中的步骤。

上述目标检测方法、装置、计算机可读存储介质及计算机设备，提取待测图像对应的第一图像特征和第二图像特征，再根据第二图像特征进行空洞卷积，得到待测图像对应的第三图像特征，进而根据第一图像特征和第三图像特征进行分类及回归，并根据分类及回归的结果确定待测图像中目标对象所在的位置。如此，自动提取待测图像对应的图像特征，并根据提取到的图像特征进行分类和回归，能够有效地提高检测的鲁棒性及减少检测耗时。并且，通过空洞卷积处理有效地扩大了感受野，能够更好地适应不同大小的目标对象的检测。

附图说明

图1为一个实施例中目标检测方法的应用环境图；

图2为一个实施例中目标检测方法的流程示意图；

图3为一个实施例中预定神经网络的结构框图；

图4为一个实施例中下采样模块的结构框图；

图5为一个实施例中残差块的结构框图；

图6为一个实施例中残差块的结构框图；

图7为一个实施例中第二残差块的结构框图；

图8为一个实施例中预定神经网络的结构框图；

图9为一个实施例中目标检测方法的流程示意图；

图10为一个实施例中目标检测装置的结构框图；

图11为一个实施例中在识别码检测中的指标对比示意图；

图12为一个实施例中计算机设备的结构框图；

图13为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本申请，并不用于限定本申请。

需要说明的是，本申请所使用的术语“第一”、“第二”等是用于对类似的对象作出命名上的区分，但这些对象本身不受这些术语限制。应当理解，在不脱离本申请的范围的情况下，这些术语在适当的情况下可以互换。例如，可以将“第一图像特征”描述为“第二图像特征”，且类似地，将“第二图像特征”描述为“第一图像特征”。

此外，术语“包括”、“包含”、“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于已清楚地列出的步骤或单元，而是还可以包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请各实施例提供的目标检测方法，可以应用于如图1所示的应用环境中。该应用环境可以涉及终端110和服务器120，终端110和服务器120可以通过网络连接。

具体地，可以在服务器120上完成模型训练，得到具备目标检测能力的预定神经网络。进而，将该预定神经网络部署到终端110上。终端110获得待测图像后，将待测图像输入预定神经网络，通过预定神经网络提取待测图像对应的第一图像特征和第二图像特征，再根据第二图像特征进行空洞卷积，得到待测图像对应的第三图像特征，进而根据第一图像特征和第三图像特征进行分类及回归，确定待测图像中的目标对象所对应的候选位置参数以及与候选位置参数对应的置信度，而后按照置信度从各候选位置参数中筛选出有效位置参数，并根据有效位置参数确定待测图像中目标对象所在的位置。

在其他实施例中，预定神经网络也可以不部署在终端110上，而部署在服务器120上，在此情况下，终端110获得待测图像后，可以将待测图像发送至服务器120，再由服务器120完成上述从将待测图像输入预定神经网络到确定待测图像中目标对象所在的位置的任务。此外，也可以在终端110上完成模型训练，比如可以由终端110独立完成模型训练和从将待测图像输入预定神经网络到确定待测图像中目标对象所在的位置的任务，而无需服务器120参与。

其中，终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、个人数字助理和穿戴式设备等，但并不局限于此。服务器120可以用独立的物理服务器，或者多个物理服务器构成的服务器集群来实现。可以理解，在图1中，以手机表示终端110、以独立的物理服务器表示服务器120，均仅是一种示例性说明，并不用于限定终端110和服务器120。

在一个实施例中，如图2所示，提供了一种目标检测方法。以该方法应用于计算机设备(如上述图1中的终端110或服务器120)为例进行说明。该方法可以包括如下步骤S202至S210。

S202，获取待测图像。

其中，待测图像是需要进行目标检测的图像。目标检测是确定目标对象在图像中所处的位置。目标对象本质上是图像内容，其可以根据实际需求预先设定。目标对象比如识别码、车辆、行人、人脸等，识别码比如二维码、一维码(又称条形码)、小程序码、PDF417码等，但目标对象和识别码均不局限于此。

在一个实施例中，待测图像可以是未作调整的原始图像，即终端获得原始图像后，未对该原始图像进行调整，而是直接将该原始图像本身作为待测图像。在另一个实施例中，待测图像也可以是调整原始图像后得到的图像，即终端获得原始图像后，为了更好地进行目标检测而对该原始图像进行调整，再将调整后的图像作为待测图像。

其中，对图像进行调整的具体方式可以包括调整图像的分辨率，即可以将原始图像的分辨率调整为根据实际需求预先设定的参考分辨率。在一个实施例中，预先设定的参考分辨率可以仅为一个，在此情况下，全部待测图像的分辨率均统一为该参考分辨率。

在另一个实施例中，可以根据终端的运算能力设置待测图像的分辨率，即在具有不同运算能力的终端上进行目标检测时，所使用的待测图像的分辨率可以有所不同。具体地，预先设定的参考分辨率也可以多于一个，可以预先建立各参考分辨率与各终端描述信息之间的匹配关系，终端描述信息用于表征终端的运算能力。在此情况下，步骤S202可以包括如下步骤：获取原始图像，并获取用于表征本地终端的运算能力的终端描述信息，再根据与终端描述信息匹配的参考分辨率调整原始图像，得到待测图像。

在一个实施例中，可以对终端描述信息进行分类，不同类别的终端描述信息所表征的终端运算能力有所不同，各类别的终端描述信息与各参考分辨率分别匹配。举例说明，将终端描述信息划分为高端终端描述信息和低端终端描述信息，高端终端描述信息表征的终端运算能力高于低端终端描述信息表征的终端运算能力，高端终端描述信息与第一参考分辨率匹配，低端终端描述信息与第二参考分辨率匹配，第一参考分辨率可以高于第二参考分辨率，比如第一参考分辨率是512×512，第二参考分辨率是300×300。可以理解，对不同类别的终端描述信息所匹配的参考分辨率作出区分，能够在高端终端上提高目标检测的准确性，同时在低端终端上提高目标检测的实时性。

此外，对图像进行调整的具体方式可以根据实际需求确定，而不局限于调整图像的分辨率，比如也可以包括调整图像的对比度、曝光、色彩等图像属性。

S204，提取待测图像对应的第一图像特征和第二图像特征。

第一图像特征和第二图像特征，两者均与待测图像对应，且均可以用于反映待测图像的图像特质。其中，第一图像特征是需要进行分类及回归的图像特征，第二图像特征是需要进行空洞卷积处理的图像特征。

第一图像特征的数目可以是等于或大于一的整数。各第一图像特征可以具有不同的空间尺度，比如提取到两个第一图像特征，其中一个第一图像特征的空间尺度为19×19，另一个第一图像特征的空间尺度为10×10。类似地，第二图像特征的数目也可以是等于或大于一的整数，第二图像特征多于一个时，各第二图像特征也可以具有不同的空间尺度。

在一个实施例中，可以通过预定神经网络提取待测图像对应的第一图像特征和第二图像特征。在此情况下，第一图像特征和第二图像特征均可以是特征图(Feature Map)，其数据形态可以为向量。

预定神经网络，是根据已标定目标对象所在位置的样本图像预先训练得到的神经网络，其具备完成目标检测的能力。以目标对象为识别码为例，可以获取海量的识别码样本图像，对于任一识别码样本图像，该识别码样本图像中包含识别码这一目标对象，且标定了该识别码样本图像中识别码所在的位置，据此可以根据海量的识别码样本图像进行模型训练，得到预定神经网络。预定神经网络可以实现端到端的学习(End-to-end Learning)，即可以直接将待测图像输入预定神经网络，进而预定神经网络直接输出用于预测待测图像中目标对象所在的位置的预测参数，即待测图像中的目标对象所对应的候选位置参数以及与候选位置参数对应的置信度。

S206，根据第二图像特征进行空洞卷积，得到待测图像对应的第三图像特征。

空洞卷积(dilated convolution)，也称为扩张卷积，是在卷积核之间注入空洞的一种卷积方式。相较于普通卷积，空洞卷积引入了一个称为“扩张率(dilation rate)”的超参数，该参数定义了卷积核处理数据时各值的间距。

第三图像特征，是根据第二图像特征进行空洞卷积处理得到的图像特征。与第一图像特征和第二图像特征类似，第三图像特征也可以用于反映待测图像的图像特质，其也可以是特征图。第三图像特征的空间尺度可以与第二图像特征相同。此外，第三图像特征的数目也可以是等于或大于一的整数，第三图像特征多于一个时，各第三图像特征可以具有相同的空间尺度，比如第二图像特征的空间尺度为10×10，根据第二特点进行空洞卷积处理后得到三个第三图像特征，这三个第三图像特征的三个空间尺度均为10×10。

需要说明的是，通过空洞卷积处理，一方面能够保持图像特征的空间尺度不变，从而避免因减少了图像特征的像素的信息而导致的信息损失，另一方面能够扩大感受野，从而实现更加精准的目标检测。其中，感受野是神经网络中的隐藏层输出的特征图上的像素点在原始图像上映射的区域大小，像素在原始图像上的感受野越大，表示其映射的原始图像范围越大，也意味着其可能蕴含更为全局、语义层次更高的特征。

S208，根据第一图像特征和第三图像特征进行分类及回归，确定待测图像中的目标对象所对应的候选位置参数以及与候选位置参数对应的置信度。

候选位置参数，可以用于确定待测图像中目标对象所在的候选位置。置信度，用于表征相应候选位置参数所对应的候选位置是待测图像中目标对象所在的位置的概率。其中，候选位置参数通常多于一个，各候选位置参数都具有其对应的置信度。

在一个实施例中，根据第一图像特征和第三图像特征进行分类及回归，确定待测图像中的目标对象所对应的候选位置参数以及与候选位置参数对应的置信度，具体可以通过SSD(Single Shot MultiBox Detector)目标检测方式中所提及的多框预测方式实现。

大致而言，第一图像特征和第三图像特征均对应若干个预选框(即BoundingBox)。预选框是用于预测目标对象在待测图像中所在的位置的矩形框。分别对各预选框进行分类和回归后，可以得到与各预选框分别对应的各偏移参数(回归得到)以及与各预选框分别对应的各置信度(分类得到)，对于任一预选框，与该预选框对应的偏移参数用于确定该预选框在待测图像上映射的区域所在的位置，与该预选框对应的置信度用于表征该预选框在待测图像上映射的区域涵盖目标对象的概率。其中，与各预选框分别对应的各偏移参数，即为待测图像中的目标对象所对应的各候选位置参数，与各预选框分别对应的置信度，即为与候选位置参数分别对应的各置信度。

此外，对于任一预选框，可以用四维参数组来描述该预选框在其对应的图像特征上的位置，进而根据该预选框对应的四维参数组进行回归，从而得到该预选框对应的偏移参数。四维参数组可以包括位置点的横坐标(x)、该位置点的纵坐标(y)、宽度(w)以及高度(h)。用于描述预选框在其对应的图像特征上的位置的四维参数组，可以包括该预选框的一个位置点的横坐标、该位置点的纵坐标、该预选框的宽度、以及该预选框的高度。该预选框的一个位置点可以为该预选框的一个顶点，也可以是该预选框的中心点等等。

举例说明，对于第一图像特征上的一个预选框DB1，用于描述该预选框DB1在第一图像特征上的位置的四维参数组，包括该预选框DB1的左上角顶点在第一图像特征中的横坐标，该左上角顶点在第一图像特征中的纵坐标，该预选框DB1的宽度、以及该预选框DB1的高度。

预选框在待测图像上映射的区域所在的位置，也可以用四维参数组来描述。类似地，描述预选框在待测图像上映射的区域所在的位置的四维参数组，可以包括该映射的区域的一个位置点的横坐标、该位置点的纵坐标、该映射的区域的宽度、以及该映射的区域的高度。该映射的区域的一个位置点可以为该映射的区域的一个顶点，也可以是该映射的区域的中心点等等。

在一个实施例中，第一图像特征上的每一个像素可以对应预定数目的预选框，预定数目可以根据实际需求设定。在一个实施例中，同一像素所对应的预定数目的预选框，可以具有多种横纵比(aspect ratio)和尺寸(scale)。以第一图像特征F11是空间尺度为19×19的特征图，且预定数目为6为例，在此情况下，第一图像特征F11包括361(19×19)个像素，每一个像素均对应6个预选框，6个预选框可以具有多种横纵比和尺寸，则第一图像特征F11上有2166个预选框(361×6)。类似地，第三图像特征上的每一个像素均可以对应预定数目的预选框，预定数目可以根据实际需求设定。在一个实施例中，同一像素所对应的预定数目的预选框，可以具有多种横纵比和尺寸。

S210，按照置信度从各候选位置参数中筛选出有效位置参数，并根据有效位置参数确定待测图像中目标对象所在的位置。

有效位置参数，是满足预定筛选条件的候选位置参数。其中，预定筛选条件可以根据实际需求预先设定，比如，预定筛选条件可以包括候选位置参数对应的置信度大于预定置信度阈值，即将其对应的置信度大于预定置信度阈值的候选位置参数作为有效位置参数。再比如，预定筛选条件也可以包括候选位置参数的置信度最大，即将其对应的置信度是各置信度中最大的候选位置参数作为有效位置参数。

结合前文所述，有效位置参数具有与之对应的预选框(以下将有效位置参数对应的预选框称为有效预选框)，可以理解，有效预选框在待测图像上映射的区域所在的位置，即为待测图像中目标对象所在的位置。筛选出有效位置参数后，根据该有效位置参数进行解码换算，即可得到四维参数组，该四维参数组用于描述该有效预选框在待测图像上映射的区域所在的位置，即待测图像中目标对象所在的位置。具体地，该四维参数组可以包括该目标对象的一个位置点的横坐标、该位置点的纵坐标、该目标对象的宽度、以及该目标对象的高度。类似地，目标对象的一个位置点可以为该目标对象的一个顶点，也可以是该目标对象的中心点等等。

上述目标检测方法，提取待测图像对应的第一图像特征和第二图像特征，再根据第二图像特征进行空洞卷积，得到待测图像对应的第三图像特征，进而根据第一图像特征和第三图像特征进行分类及回归，并根据分类及回归的结果确定待测图像中目标对象所在的位置。如此，自动提取待测图像对应的图像特征，并根据提取到的图像特征进行分类和回归，能够有效地提高检测的鲁棒性及减少检测耗时。并且，通过空洞卷积处理有效地扩大了感受野，能够更好地适应不同大小的目标对象的检测。此外，提高了对尺寸较小的目标对象召回率。

在一个实施例中，通过预定神经网络中的基础网络，提取并输出待测图像对应的第一图像特征和第二图像特征；通过预定神经网络中的空洞卷积网络，根据第二图像特征进行空洞卷积，得到待测图像对应的第三图像特征；通过预定神经网络中的输出网络，根据第一图像特征和第三图像特征进行分类及回归，确定待测图像中的目标对象所对应的候选位置参数以及与候选位置参数对应的置信度。

在本实施例中，如图3所示，预定神经网络可以包括基础网络、空洞卷积网络、以及输出网络。其中，待测图像从基础网络的输入端输入预定神经网络，基础网络的输出端一方面连接输出网络的输入端，另一方面连接空洞卷积网络的输入端；空洞卷积网络的输出端连接输出网络的输入端；输出网络的输出端用于输出待测图像中的目标对象所对应的各候选位置参数以及与各候选位置参数分别对应的各置信度。需要说明的是，基础网络可以具有多个输出端，基础网络中连接输出网络的输出端与该基础网络中连接空洞卷积网络的输出端，可以完全相同，也可以完全不同，还可以部分相同。

基础网络，是可以用于进行特征提取的网络。基础网络的网络框架可以直接选用具备特征提取功能的已有网络框架，比如VGG-16(GG-Very-Deep-16CNN)，也可以将已有网络框架进行改造得到。

第一图像特征，是基础网络根据待测图像得到、且用于输出至输出网络的图像特征。第二图像特征，是基础网络根据待测图像得到、且用于输出至空洞卷积网络的图像特征。基础网络输出至输出网络的第一图像特征，与该基础网络输出至空洞卷积网络的第二图像特征，两者可以完全相同，也可以完全不同，还可以部分相同。比如基础网络输出两个第一图像特征和一个第二图像特征，该第二图像特征与其中一个第一图像特征相同。

第三图像特征，是空洞卷积网络根据第二图像特征得到、且用于输出至输出网络的图像特征。其中，空洞卷积网络是通过空洞卷积进行特征提取的网络。在一个实施例中，空洞卷积网络可以由空洞卷积层堆叠而成。

输出网络，可以用于根据第一图像特征和第三图像特征进行回归处理，从而待测图像中的目标对象所对应的各候选位置参数。并且，输出网络还可以用于根据第一图像特征和第三图像特征进行分类处理，从而确定与各候选位置参数分别对应的各置信度。具体地，输出网络可以用于对第一图像特征和第三图像特征上的预选框进行回归处理和分类处理，从而得到各预选框对应的偏移参数和置信度，即对于任一预选框，输出网络将输出该预选框对应的偏移参数及其对应的置信度。此外，输出网络的网络框架可以采用任何适配的网络框架实现，只要可以实现分类及回归功能即可，本申请不作具体限定。

在一个实施例中，在预定神经网络中越靠前的位置输出的图像特征上的预选框的尺寸越小，在预定神经网络中越靠后的位置输出的图像特征上的预选框的尺寸越大。亦即是说，在预定神经网络中，靠前的位置输出的图像特征用于负责小尺寸的目标对象的检测，靠后的位置输出的图像特征用于负责大尺寸的目标对象的检测。比如，在预定神经网络中，基础网络输出第一图像特征F11和第一图像特征F12至输出网络，空洞卷积网络输出第三图像特征F31、第三图像特征F32、以及第三图像特征F33至输出网络，按照输出位置由前往后的顺序对各图像特征进行排序，依次为第一图像特征F11、第一图像特征F12、第三图像特征F31、第三图像特征F32、以及第三图像特征F33，则从第一图像特征F11到第三图像特征F33，其上的预选框的尺寸逐渐增大，其负责检测的目标对象的尺寸逐渐增大，比如第一图像特征F12上的预选框的尺寸小于第三图像特征F31上的预选框的尺寸，第一图像特征F12负责检测的目标对象的尺寸小于第三图像特征F31负责检测的目标对象的尺寸。

在一个实施例中，通过预定神经网络中的基础网络，提取并输出待测图像对应的第一图像特征和第二图像特征的步骤，可以包括如下步骤：通过基础网络中的初级特征提取网络对待测图像依次进行卷积处理和池化处理，输出待测图像对应的第一中间特征；通过基础网络中的残差网络，根据第一中间特征进行特征提取，并输出提取到的与待测图像对应的第一图像特征和第二图像特征。

在本实施例中，预定神经网络中的基础网络，包括初级特征提取网络和残差网络。其中，初级特征提取网络，是用于对待测图像进行特征提取的网络。残差网络(ResidualNetwork，ResNet)，是为非线性卷积层增加直连边的网络，可以用于对初级特征提取网络的输出结果进行进一步的特征提取，残差网络提取特征的具体方式与残差网络的内部结构对应，不同的内部结构提取特征的方式可以有所不同。

在一个实施例中，初级特征提取网络可以包括卷积层和池化层。卷积层，可以用于进行卷积处理得到图像特征。池化层(Pooling)，可以用于对图像特征进行降维处理，池化层通常包括均值池化(Mean Pooling)和最大值池化(Max Pooling)两种形式。在一个实施例中，初级特征提取网络中的卷积层可以选用3×3的普通卷积层，池化层可以选用3×3的最大值池化层。其中，3×3表示卷积核的大小。

第一中间特征，是待测图像依次经过初级特征提取网络中的卷积层进行卷积处理、池化层进行降维处理后得到的图像特征。

在本实施例中，残差网络根据其输入信息进行特征提取，得到待测图像对应的第一图像特征并将该第一图像特征输出至预定神经网络的输出网络，以及提取待测图像对应的第二图像特征并将该第二图像特征输出至预定神经网络的空洞卷积网络。对于基础网络中位于最前端的残差网络，其输入信息为初级特征提取网络的输出结果(即第一中间特征)，对于基础网络中不位于最前端的残差网络，其输入信息为该残差网络的前一个残差网络的输出结果。

本实施例中使用残差网络构建基础网络，一方面能够有效地减少参数量和计算量，另一方面有利于网络的快速收敛，从而能够有效地解决深度网络训练困难的问题。

在一个实施例中，基础网络中的残差网络多于一个，且各残差网络顺次连接。据此，通过基础网络中的残差网络，根据第一中间特征进行特征提取，并输出提取到的与待测图像对应的第一图像特征和第二图像特征的步骤，可以包括如下步骤：将第一中间特征依次经过基础网络中的各残差网络进行特征提取，通过第一目标残差网络输出待测图像对应的第一图像特征，并通过第二目标残差网络输出待测图像对应的第二图像特征。

第一目标残差网络，可以用于输出第一图像特征至预定神经网络的输出网络。第一目标残差网络选取自基础网络包括的各残差网络。具体地，第一目标残差网络可以包括预先在基础网络的各残差网络中指定的一个或多于一个的残差网络。

第二目标残差网络，可以用于输出第二图像特征至预定神经网络的空洞卷积网络。类似地，第二目标残差网络也选取自基础网络包括的各残差网络。具体地，第二目标残差网络可以包括预先在基础网络的各残差网络中指定的一个或多于一个的残差网络。

需要说明的是，第一目标残差网络中包括的残差网络的数目可以尽可能多，以覆盖到不同空间尺度的第一图像特征，从而提高目标检测的性能。此外，第二目标残差网络一般包括基础网络中位于最末端的残差网络。第一目标残差网络包括的残差网络和第二目标残差网络包括的残差网络，可以完全相同，也可以完全不同，还可以部分相同。

举例说明，预定神经网络的基础网络中包括初级特征提取网络、残差网络RN1、残差网络RN2、残差网络RN3，且四者顺次连接。可以预先设定第一目标残差网络包括残差网络RN2和残差网络RN3，第二目标残差网络包括残差网络RN3。在此情况下，将待测图像输入基础网络后，先由初级特征提取网络对待测图像进行卷积处理和池化处理，再由残差网络RN1对初级特征提取网络的输出结果进行特征处理，再由残差网络RN2对残差网络RN1的输出结果进行特征提取处理，进而由残差网络RN3对残差网络RN2的输出结果进行特征提取处理。其中，残差网络RN2的输出结果和残差网络RN3的输出结果将作为第一图像特征被输出至预定神经网络的输出网络，残差网络RN3的输出结果将作为第二图像特征被输出至预定神经网络的空洞卷积网络。

在一个实施例中，通过基础网络中的残差网络，根据第一中间特征进行特征提取，并输出提取到的与待测图像对应的第一图像特征和第二图像特征的步骤，可以包括如下步骤：通过残差网络中的下采样模块对第一中间特征进行下采样，得到第二中间特征；通过残差网络中的第一残差块，将第二中间特征映射为待测图像对应的第一图像特征和第二图像特征。

在本实施例中，残差网络包括下采样模块和第一残差块。其中，下采样模块，用于实现与池化层相似的功能，即用于对图像特征进行降维处理。在一个实施例中，如图4所示，下采样模块可以包括1×1的普通卷积层、归一化层(Batch Normalization，BN)、激活层(Rectified Linear Units，RELU)、3×3的普通卷积层、归一化层、1×1的普通卷积层、归一化层以及激活层，且上述各层顺次连接。

第二中间特征，是残差网络中的下采样模块对该残差网络的输入信息进行下采样后得到的图像特征。

残差块，是残差网络的基础块，残差块通常包括残差支路和短路支路，残差支路用于对残差块的输入信息进行非线性变换，短路支路用于对残差块的输入信息进行恒等变换或线性变换。相应地，第一残差块是基础网络中的残差块。第一残差块可以直接选用已有的残差块，比如图5所示的常规残差块、或者图6所示的瓶颈残差模块(Bottleneck ResidualBlock)等，也可以是由已有的残差块进行改造得到。

第一残差块将第二中间特征映射为待测图像对应的第一图像特征和第二图像特征的具体方式，与第一残差块的内部结构对应，不同的内部结构下的映射方式可以有所不同。比如，第一残差块为图5所示的常规残差块时，在残差支路上，将第二中间特征依次经过3×3普通卷积层进行卷积处理、归一化层进行归一化处理、激活层进行非线性变换处理、3×3普通卷积层进行卷积处理、归一化层进行归一化处理；在短路支路上，将第二中间特征进行恒等映射；进而，将残差支路的运算结果和短路支路的运算结果进行合成，并通过激活层对合成结果进行非线性变换，从而得到该第一残差块的输出结果。此外，若该第一残差块为第一目标残差块，该第一残差块的输出结果即为待测图像对应的第一图像特征，该第一残差块为第二目标残差块，该第一残差块的输出结果即为待测图像对应的第二图像特征。

在一个实施例中，残差网络中的第一残差块多于一个，且各第一残差块顺次连接。据此，将第一中间特征依次经过基础网络中的各残差网络进行特征提取，通过第一目标残差网络输出待测图像对应的第一图像特征，并通过第二目标残差网络输出待测图像对应的第二图像特征的步骤，可以包括如下步骤：将第一中间特征依次经过各残差网络中的第一残差块进行特征提取，通过第一目标残差网络中的第一目标残差块输出待测图像对应的第一图像特征，并通过第二目标残差网络中的第二目标残差块输出待测图像对应的第二图像特征。

第一目标残差块，可以用于输出待测图像对应的第一图像特征至预定神经网络的输出网络。第一目标残差块选取自第一目标残差网络中的各第一残差块。具体地，第一目标残差块可以包括预先在第一目标残差网络包括的各第一残差块中指定的一个或多于一个的第一残差块。

第二目标残差块，可以用于输出待测图像对应的第二图像特征至预定神经网络的输出网络。类似地，第二目标残差块选取自第二目标残差网络中的各第一残差块。具体地，第二目标残差块可以包括预先在第二目标残差网络包括的各第一残差块中指定的一个或多于一个的第一残差块。

在一个实施例中，第一目标残差块可以包括位于第一目标残差网络最末端的第一残差块，由于位于第一目标残差网络最末端的第一残差块的输出结果所经历的卷积层，是该第一目标残差网络中最多的，因此将位于残差网络最末端的第一残差块的输出结果作为第一图像特征输出至预定神经网络的输出网络，能够提高目标检测的性能。类似地，第二目标残差块也可以包括位于第二目标残差网络最末端的第一残差块。

举例说明，对于其所在的残差网络既是第一目标残差网络，也是第二目标残差网络的残差网络RN3，残差网络RN3中包括顺次连接的第一残差块RB1、第一残差块RB2、第一残差块RB3、以及第一残差块RB4，共计四个第一残差块。假设预先设定第一目标残差块包括第一残差块RB4，第二目标残差块包括第一残差块RB4。在此情况下，将第二中间特征输入残差网络RN3后，先由第一残差块RB1对第二中间特征进行特征提取，再由第一残差块RB2对第一残差块RB1的输出结果进行特征提取，进而由第一残差块RB3对第一残差块RB2的输出结果进行特征提取，然后由第一残差块RB4对第一残差块RB3的输出结果进行特征提取。其中，第一残差块RB4的输出结果一方面将作为第一图像特征被输出至预定神经网络的输出网络，另一方面将作为第二图像特征被输出至预定神经网络的空洞卷积网络。

在一个实施例中，通过残差网络中的第一残差块，将第二中间特征映射为待测图像对应的第一图像特征和第二图像特征，并输出第一图像特征和第二图像特征的步骤，可以包括如下步骤：通过残差网络中的第一残差块，根据第二中间特征进行深度可分离卷积，得到第一特征分量；将第二中间特征恒等映射为第二特征分量；根据第一特征分量和第二特征分量进行合成，得到第一目标特征；将第一目标特征映射为待测图像对应的第一图像特征和第二图像特征，并输出第一图像特征和第二图像特征。

在本实施例中，第一残差块是将已有的残差块进行改造得到，具体可以采用如下改造方式：将已有的残差块(如图5和图6所示的残差块)中用于进行特征提取的3×3普通卷积层替换为深度可分离卷积层。

深度可分离卷积(depthwise separable convolution)，是每一个通道使用一个卷积核进行卷积后得到对应一个通道的输出结果，再进行信息的融合的卷积方式。使用深度可分离卷积的方式进行特征提取，能够精简基础网络的尺寸，提升网络的运算速度。

在本实施例中，对于输入第一残差块的第二中间特征，一方面，在残差支路上，通过深度可分离卷积层对第二中间特征进行特征提取，得到第二中间特征对应的第一特征分量；在短路支路上，将第二中间特征进行恒等映射，得到第三中间特征对应的第二特征分量；进而，将第一特征分量和第二特征分量进行合成，得到第一目标特征；而后，通过激活层对第一目标特征进行非线性变换，从而得到该第一残差块的输出结果。其中，将两个特征分量进行合成可以是将两个特征分量相加。

在一个实施例中，根据第二中间特征进行深度可分离卷积，得到第一特征分量的步骤，可以包括如下步骤：将第二中间特征依次进行降维、深度可分离卷积以及升维，得到第一特征分量。

在本实施例中，第一残差块中的残差支路可以包括降维层、深度可分离卷积层、以及升维层，且三者顺次连接。降维层，用于对残差支路的输入信息(即第二中间特征)进行降维处理，从而减少深度可分离卷积层上的参数量。升维层，用于对深度可分离卷积层的输出结果进行升维处理，从而保证残差支路的输入和输出具有相同的维度。

在一个实施例中，降维层可以包括顺次连接的1×1的普通卷积层、归一化层以及激活层。升维层可以包括顺次连接的1×1的普通卷积层和归一化层。在其他实施例中，降维层和升维层也可以采用其他适配的网络结构，本申请不作具体限定。

在本实施例中，将第二中间特征输入第一残差块中的残差支路，先由降维层对第二中间特征进行降维，再由深度可分离卷积层对降维层的输出结果进行卷积，进而由升维层对深度可分离卷积层的输出结果进行升维，从而第一特征分量。

在一个实施例中，通过预定神经网络中的空洞卷积网络，根据第二图像特征进行空洞卷积处理，得到待测图像对应的第三图像特征的步骤，可以包括如下步骤：通过空洞卷积网络中的第二残差块，根据第二图像特征进行空洞卷积，得到第三特征分量；将第二图像特征线性映射为第四特征分量；根据第三特征分量和第四特征分量进行合成，得到第二目标特征；将第二目标特征映射为待测图像对应的第三图像特征。

第二残差块，是空洞卷积网络中的残差块。类似地，第二残差块可以是将已有的残差块进行改造得到，具体可以采用如下改造方式：将已有的残差块(如图5和图6所示的残差块)中用于进行特征提取的3×3普通卷积层替换为空洞卷积层。

在本实施例中，对于输入第二残差块的第二图像特征，在残差支路上，通过空洞卷积层根据第二图像特征进行特征提取，得到第三特征分量；在短路支路上，将第二图像特征线性映射为第四特征分量；进而，将第三特征分量和第四特征分量进行合成，得到第二目标特征；而后，通过激活层对第二目标特征进行非线性变换，得到该第二残差块的输出结果(即第三图像特征)，并将第三图像特征输出至预定神经网络的输出网络。

在一个实施例中，第二残差块的短路支路上设置用于进行特征提取的附加卷积层。具体地，附加卷积层可以包括1×1普通卷积层和归一化层，且两者顺次连接。据此，在短路支路上，先由1×1普通卷积层对第二残差块的输入信息进行卷积，再由归一化层对1×1普通卷积层的输出结果进行归一化，从而得到第四特征分量。

在一个实施例中，空洞卷积网络中的第二残差块多于一个，且各第二残差块顺次连接。据此，将基础网络输出的第二图像特征依次经过空洞卷积网络中的各第二残差块进行特征提取，各第二残差块的输出结果均作为第三图像特征，输出至预定神经网络的输出网络。

在一个实施例中，根据第二图像特征进行空洞卷积处理，得到第三特征分量的步骤，可以包括如下步骤：将第二图像特征依次进行降维、空洞卷积以及升维，得到第三特征分量。

在本实施例中，如图7所示，第二残差块中的残差支路，包括降维层、空洞卷积层及升维层，且三者顺次连接。

在本实施例中，对于第二残差块的残差支路，先由降维层对该第二残差块的输入信息进行降维，再由空洞卷积层对降维层的输出结果进行特征提取，进而由升维层对空洞卷积层的输出结果进行升维，从而得到第三特征分量。其中，对于空洞卷积网络中位于最前端的第二残差块，其输入信息为第二图像特征，对于空洞卷积神经网络中不位于最前端的第二残差块，其输入信息为该第二残差块的前一个残差块的输出结果。

在一个实施例中，如图8所示，提供了一种预定神经网络。该预定神经网络包括基础网络、空洞卷积网络以及输出网络。其中，基础网络包括初级特征提取网络、第一残差网络、第二残差网络、以及第三残差网络，且四者顺次连接。初级特征提取网络包括3×3普通卷积层和3×3最大值池化层，且两者顺次连接。第一残差网络包括一个下采样模块和三个第一残差块，且四者顺次连接；第二残差网络包括一个下采样模块和七个第一残差块，且八者顺次连接；第三残差网络包括一个下采样模块和三个第一残差块，且四者顺次连接。空洞卷积网络包括三个顺次连接的第二残差块。

如图9所示，提供了一种根据图8所示的预定神经网络实现的目标检测方法。该方法具体可以包括如下步骤S902至S922。

S902，获取待测图像，该待测图像为300×300×3的图像，即尺寸为300×300、且通道数为3。

S904，将待测图像输入初级特征提取网络，使待测图像依次经过初级特征提取网络中的3×3普通卷积层进行卷积、3×3最大值池化层进行降维。

S906、将3×3最大值池化层的输出结果输入至第一残差网络，使该输出结果依次经过第一残差网络中的下采样模块进行下采样、以及三个第一残差块进行特征提取。

S908，将第一残差网络中位于最末端的第一残差块的输出结果输出至第二残差网络，使该输出结果依次经过第二残差网络中的下采样模块进行下采样、以及第二残差网络中的七个第一残差块进行特征提取。

S910，将第二残差网络中位于最末端的第一残差块的输出结果(该输出结果即为其中一个第一图像特征)分别输入至输出网络和第三残差网络，使该输出结果依次经过第三残差网络中的下采样模块进行下采样、以及第三残差网络中的三个第一残差块进行特征提取。

S912，将第三残差网络中位于最末端的第一残差块的输出结果(该输出结果即为其中一个第一图像特征)分别输入至输出网络和空洞卷积网络，使该输出结果经过空洞卷积网络中位于最前端的第二残差块进行特征提取。

S914，将空洞卷积网络中位于最前端的第二残差块的输出结果(该输出结果即为其中一个第三图像特征)分别输入至输出网络和空洞卷积网络中位于中间的第二残差块，将该输出结果经过位于中间的第二残差块进行特征提取。

S916，将空洞卷积网络中位于中间的第二残差块的输出结果(该输出结果即为其中一个第三图像特征)分别输入至输出网络和空洞卷积网络中位于最末端的第二残差块，使该输出结果经过该位于最末端的第二残差块进行特征提取。

S918，将空洞卷积网络中位于最末端的第二残差块的输出结果(该输出结果即为其中一个第三图像特征)输入至输出网络。

S920，通过输出网络，根据第一图像特征和第三图像特征进行分类及回归，确定待测图像中的目标对象所对应的候选位置参数以及与候选位置参数对应的置信度。

S922，按照置信度从各候选位置参数中筛选出有效位置参数，并根据有效位置参数确定待测图像中目标对象所在的位置。

需要说明的是，本实施例中对各技术特征的具体限定，可以与前文中对相应技术特征的限定相同，此处不加赘述。

在合理条件下应当理解，虽然前文各实施例涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

需要说明的是，上述预定神经网络中，各层的通道数可以按需统一缩放，即可以动态调整网络的宽度，从而实现可灵活调整网络效果和速度。在实际实验过程中，选用了较小的网络宽度系数，最终在ImageNet(一个图像样本数据集)上预训练的预定神经网络中的基础网络大小为3M，Top-1准确率达到了56％。

其次，预定神经网络中CONV层(卷积层)、BN层(归一化层)以及Scale层(线性变换层)这三个层连续出现的结构可以融合化简为一个CONV层，从而减少网络体积，提升网络速度。经试验，融合化简后，可以将网络提及减少5％左右，速度提升5％～10％之间。

再则，在服务器上使用PyTorch训练预定神经网络的情况，为了将训练得到的预定神经网络部署到移动端，可以将预定神经网络转换为caffe模型。进行移动端部署时，可以使用NCNN框架(腾讯开源的深度学习前向框架)自带的转换工具将caffe模型转换为NCNN模型，并在转换过程中将模型参数进行格式转换。经试验，可以将模型参数量化到16bit，且通过上述化简和压缩操作，可以将模型的大小由2.1M降为960K。

需要说明的是，本申请各实施例提供的目标检测方法可以应用于识别码检测场景，即目标对象为识别码。终端获得待测图像时，先通过本申请任一实施例提供的目标检测方法确定识别码在待测图像中的位置，进而再根据识别码在待测图像中的位置对待测图像中的识别码进行识别。据此，对于大图小码的应用场景，无需扫描无码干扰信息，能够有效地提升识别性能。此外，目标检测方法也支持一图多码的应用场景，当待测图像中包括的识别码多于一个时，将各偏移参数按照相应的置信度过滤，并根据过滤得到的有效偏移参数确定出的待测图像中目标对象所在的位置的数目与待测图像中识别码的数目相匹配。此外，在移动端进行实际测验时，在识别码检测过程中采用本申请中的目标检测方法，与其他现有目标检测方案的单帧平均耗时及解码成功率的对比情况如图10所示，由图可知，本申请中的目标检测方法可以实时有效的检测到多个不同大小、角度的识别码，具有良好的准确率和召回率的同时，兼顾了在移动端的运行耗时，综合性能强劲。

在一个实施例中，如图11所示，提供了一种目标检测装置1100，可以包括如下模块1102至1110。

待测图像获取模块1102，用于获取待测图像。

图像特征获取模块1104，用于提取待测图像对应的第一图像特征和第二图像特征。

空洞卷积处理模块1106，用于根据第二图像特征进行空洞卷积，得到待测图像对应的第三图像特征。

候选参数获取模块1108，用于根据第一图像特征和第三图像特征进行分类及回归，确定待测图像中的目标对象所对应的候选位置参数以及与候选位置参数对应的置信度。

目标位置确定模块1110，用于按照置信度从各候选位置参数中筛选出有效位置参数，并根据有效位置参数确定待测图像中目标对象所在的位置。

上述目标检测装置，提取待测图像对应的第一图像特征和第二图像特征，再根据第二图像特征进行空洞卷积，得到待测图像对应的第三图像特征，进而根据第一图像特征和第三图像特征进行分类及回归，并根据分类及回归的结果确定待测图像中目标对象所在的位置。如此，自动提取待测图像对应的图像特征，并根据提取到的图像特征进行分类和回归，能够有效地提高检测的鲁棒性及减少检测耗时。并且，通过空洞卷积处理有效地扩大了感受野，能够更好地适应不同大小的目标对象的检测。

在一个实施例中，图像特征获取模块1104用于通过预定神经网络中的基础网络，提取并输出待测图像对应的第一图像特征和第二图像特征；空洞卷积处理模块1106用于通过预定神经网络中的空洞卷积网络，根据第二图像特征进行空洞卷积，得到待测图像对应的第三图像特征；候选参数获取模块1108用于通过预定神经网络中的输出网络，根据第一图像特征和第三图像特征进行分类及回归，确定待测图像中的目标对象所对应的候选位置参数以及与候选位置参数对应的置信度。

在一个实施例中，图像特征获取模块1104可以包括如下单元：第一中间特征输出单元，用于通过基础网络中的初级特征提取网络对待测图像依次进行卷积处理和池化处理，输出待测图像对应的第一中间特征；图像特征获取单元，用于通过基础网络中的残差网络，根据第一中间特征进行特征提取，并输出提取到的与待测图像对应的第一图像特征和第二图像特征。

在一个实施例中，图像特征获取单元可以包括如下子单元：下采样子单元，用于通过残差网络中的下采样模块对第一中间特征进行下采样，得到第二中间特征；残差处理子单元，用于通过残差网络中的第一残差块，将第二中间特征映射为待测图像对应的第一图像特征和第二图像特征，并输出第一图像特征和第二图像特征。

在一个实施例中，残差处理子单元具体可以用于：通过残差网络中的第一残差块，根据第二中间特征进行深度可分离卷积，得到第一特征分量；将第二中间特征恒等映射为第二特征分量；根据第一特征分量和第二特征分量进行合成，得到第一目标特征；将第一目标特征映射为待测图像对应的第一图像特征和第二图像特征，并输出第一图像特征和第二图像特征。

在一个实施例中，残差处理子单元具体可以用于：将第二中间特征依次进行降维、深度可分离卷积以及升维，得到第一特征分量。

在一个实施例中，基础网络中的残差网络多于一个，且各残差网络顺次连接。据此，图像特征获取单元具体可以用于：将第一中间特征依次经过基础网络中的各残差网络进行特征提取，通过第一目标残差网络输出待测图像对应的第一图像特征，并通过第二目标残差网络输出待测图像对应的第二图像特征；其中，第一目标残差网络和第二目标残差网络均选取自基础网络中的各残差网络。

在一个实施例中，残差网络中的第一残差块多于一个，且各第一残差块顺次连接。据此，图像特征获取单元具体可以用于：将第一中间特征依次经过各残差网络中的第一残差块进行特征提取，通过第一目标残差网络中的第一目标残差块输出待测图像对应的第一图像特征，并通过第二目标残差网络中的第二目标残差块输出待测图像对应的第二图像特征；其中，第一目标残差块选取自第一目标残差网络中的各第一残差块，第二目标残差块选取自第二目标残差网络中的各第一残差块。

在一个实施例中，空洞卷积处理模块1106可以包括如下单元：空洞卷积处理单元，用于通过空洞卷积网络中的第二残差块，根据第二图像特征进行空洞卷积，得到第三特征分量；线性映射单元，用于将第二图像特征线性映射为第四特征分量；特征合成单元，用于根据第三特征分量和第四特征分量进行合成，得到第二目标特征；特征映射单元，用于将第二目标特征映射为待测图像对应的第三图像特征。

在一个实施例中，空洞卷积处理单元具体用于：将第二图像特征依次进行降维、空洞卷积以及升维，得到第三特征分量。

在一个实施例中，待测图像获取模块1102可以包括如下单元：原始图像获取单元，用于获取原始图像；描述信息获取单元，用于获取用于表征本地终端的运算能力的终端描述信息；分辨率调整单元，用于根据与终端描述信息匹配的参考分辨率调整原始图像，得到待测图像。

在一个实施例中，目标对象包括识别码，识别码包括二维码、一维码以及小程序码中的至少一项。

关于目标检测装置的具体限定，可以参见上文中对于目标检测方法的限定，此处不加赘述。目标检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现本申请任一实施例提供的目标检测方法中的步骤。

在一个实施例中，该计算机设备可以是图1所示的终端110，其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该处理器用于提供计算和控制能力。该存储器包括非易失性存储介质和内存储器，该非易失性存储介质存储有操作系统和计算机程序，该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境，该计算机程序被处理器执行时以实现目标检测方法。该网络接口用于与外部的终端通过网络连接通信。该显示屏可以是液晶显示屏或者电子墨水显示屏。该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

在一个实施例中，该计算机设备可以是图1所示的服务器120，其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该处理器用于提供计算和控制能力。该存储器包括非易失性存储介质和内存储器，该非易失性存储介质存储有操作系统、计算机程序和数据库，该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该数据库用于存储训练模型的样本数据。该网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现目标检测方法。

本领域技术人员可以理解，图12和图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请各实施例提供的目标检测装置可以实现为一种计算机程序的形式，计算机程序可在如图12或图13所示的计算机设备上运行。计算机设备的存储器中可存储组成该目标检测装置的各个程序模块，比如，图11所示的待测图像获取模块1102、图像特征获取模块1104、空洞卷积处理模块1106、候选参数获取模块1108、以及目标位置确定模块1110。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的目标检测方法中的步骤。例如，图12或图13所示的计算机设备可以通过如图11所示的目标检测装置中的待测图像获取模块1102执行步骤S202、通过图像特征获取模块1104执行步骤S204、通过空洞卷积处理模块1106执行步骤S206、通过候选参数获取模块1108执行步骤S208、通过目标位置确定模块1110执行步骤S210等等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

据此，在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本申请任一实施例提供的目标检测方法。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种目标检测方法，其特征在于，包括：

获取待测图像；

提取所述待测图像对应的第一图像特征和第二图像特征，所述第一图像特征和所述第二图像特征均为基于卷积处理和池化处理得到的；

根据所述第二图像特征进行空洞卷积，得到所述待测图像对应的第三图像特征，所述第三图像特征的空间尺度与所述第二图像特征的空间尺度相同，且所述第三图像特征的感受野大于所述第二图像特征的感受野；

根据所述第一图像特征和所述第三图像特征进行分类及回归，确定所述待测图像中的目标对象所对应的候选位置参数以及与所述候选位置参数对应的置信度；其中，所述第一图像特征和所述第三图像特征均对应多个预选框，所述候选位置参数用于确定所述预选框在所述待测图像上映射的区域所在的位置，所述置信度用于表征所述预选框在所述待测图像上映射的区域涵盖所述目标对象的概率；

2.根据权利要求1所述的方法，其特征在于：

通过预定神经网络中的基础网络，提取并输出所述待测图像对应的第一图像特征和第二图像特征；

通过所述预定神经网络中的空洞卷积网络，根据所述第二图像特征进行空洞卷积，得到所述待测图像对应的第三图像特征；

通过所述预定神经网络中的输出网络，根据所述第一图像特征和所述第三图像特征进行分类及回归，确定所述待测图像中的目标对象所对应的候选位置参数以及与所述候选位置参数对应的置信度。

3.根据权利要求2所述的方法，其特征在于，所述通过预定神经网络中的基础网络，提取并输出所述待测图像对应的第一图像特征和第二图像特征，包括：

通过所述基础网络中的初级特征提取网络对所述待测图像依次进行卷积处理和池化处理，输出所述待测图像对应的第一中间特征；

通过所述基础网络中的残差网络，根据所述第一中间特征进行特征提取，并输出提取到的与所述待测图像对应的第一图像特征和第二图像特征。

4.根据权利要求3所述的方法，其特征在于，所述通过所述基础网络中的残差网络，根据所述第一中间特征进行特征提取，并输出提取到的与所述待测图像对应的第一图像特征和第二图像特征，包括：

通过所述残差网络中的下采样模块对所述第一中间特征进行下采样，得到第二中间特征；

通过所述残差网络中的第一残差块，将所述第二中间特征映射为所述待测图像对应的第一图像特征和第二图像特征，并输出所述第一图像特征和所述第二图像特征。

5.根据权利要求4所述的方法，其特征在于，所述通过所述残差网络中的第一残差块，将所述第二中间特征映射为所述待测图像对应的第一图像特征和第二图像特征，并输出所述第一图像特征和所述第二图像特征，包括：

通过所述残差网络中的第一残差块，根据所述第二中间特征进行深度可分离卷积，得到第一特征分量；

将所述第二中间特征恒等映射为第二特征分量；

根据所述第一特征分量和所述第二特征分量进行合成，得到第一目标特征；

将所述第一目标特征映射为所述待测图像对应的第一图像特征和第二图像特征，并输出所述第一图像特征和所述第二图像特征。

6.根据权利要求5所述的方法，其特征在于，所述根据所述第二中间特征进行深度可分离卷积，得到第一特征分量，包括：

将所述第二中间特征依次进行降维、深度可分离卷积以及升维，得到第一特征分量。

7.根据权利要求4所述的方法，其特征在于，所述基础网络中的残差网络多于一个，且各所述残差网络顺次连接；

所述通过所述基础网络中的残差网络，根据所述第一中间特征进行特征提取，并输出提取到的与所述待测图像对应的第一图像特征和第二图像特征，包括：

将所述第一中间特征依次经过所述基础网络中的各残差网络进行特征提取，通过第一目标残差网络输出所述待测图像对应的第一图像特征，并通过第二目标残差网络输出所述待测图像对应的第二图像特征；

其中，所述第一目标残差网络和所述第二目标残差网络均选取自所述基础网络中的各残差网络。

8.根据权利要求7所述的方法，其特征在于，所述残差网络中的第一残差块多于一个，且各所述第一残差块顺次连接；

所述将所述第一中间特征依次经过所述基础网络中的各残差网络进行特征提取，通过第一目标残差网络输出所述待测图像对应的第一图像特征，并通过第二目标残差网络输出所述待测图像对应的第二图像特征，包括：

将所述第一中间特征依次经过各所述残差网络中的第一残差块进行特征提取，通过所述第一目标残差网络中的第一目标残差块输出所述待测图像对应的第一图像特征，并通过所述第二目标残差网络中的第二目标残差块输出所述待测图像对应的第二图像特征；

其中，所述第一目标残差块选取自所述第一目标残差网络中的各所述第一残差块，所述第二目标残差块选取自所述第二目标残差网络中的各所述第一残差块。

9.根据权利要求2所述的方法，其特征在于，所述通过所述预定神经网络中的空洞卷积网络，根据所述第二图像特征进行空洞卷积，得到所述待测图像对应的第三图像特征，包括：

通过所述空洞卷积网络中的第二残差块，根据所述第二图像特征进行空洞卷积，得到第三特征分量；

将所述第二图像特征线性映射为第四特征分量；

根据所述第三特征分量和第四特征分量进行合成，得到第二目标特征；

将所述第二目标特征映射为所述待测图像对应的第三图像特征。

10.根据权利要求9所述的方法，其特征在于，所述根据所述第二图像特征进行空洞卷积，得到第三特征分量，包括：

将所述第二图像特征依次进行降维、空洞卷积以及升维，得到第三特征分量。

11.根据权利要求1所述的方法，其特征在于，所述获取待测图像，包括：

获取原始图像；

获取用于表征本地终端的运算能力的终端描述信息；

根据与所述终端描述信息匹配的参考分辨率调整所述原始图像，得到待测图像。

12.根据权利要求1至11任一项所述的方法，其特征在于：

所述目标对象包括识别码，所述识别码包括二维码、一维码以及小程序码中的至少一项。

13.一种目标检测装置，其特征在于，包括：

待测图像获取模块，用于获取待测图像；

图像特征获取模块，用于提取所述待测图像对应的第一图像特征和第二图像特征，所述第一图像特征和所述第二图像特征均为基于卷积处理和池化处理得到的；

空洞卷积处理模块，用于根据所述第二图像特征进行空洞卷积，得到所述待测图像对应的第三图像特征，所述第三图像特征的空间尺度与所述第二图像特征的空间尺度相同，且所述第三图像特征的感受野大于所述第二图像特征的感受野；

候选参数获取模块，用于根据所述第一图像特征和所述第三图像特征进行分类及回归，确定所述待测图像中的目标对象所对应的候选位置参数以及与所述候选位置参数对应的置信度；其中，所述第一图像特征和所述第三图像特征均对应多个预选框，所述候选位置参数用于确定所述预选框在所述待测图像上映射的区域所在的位置，所述置信度用于表征所述预选框在所述待测图像上映射的区域涵盖所述目标对象的概率；

14.根据权利要求13所述的装置，其特征在于，所述图像特征获取模块，还用于通过预定神经网络中的基础网络，提取并输出所述待测图像对应的第一图像特征和第二图像特征；

所述空洞卷积处理模块，还用于通过所述预定神经网络中的空洞卷积网络，根据所述第二图像特征进行空洞卷积，得到所述待测图像对应的第三图像特征；

候选参数获取模块，还用于通过所述预定神经网络中的输出网络，根据所述第一图像特征和所述第三图像特征进行分类及回归，确定所述待测图像中的目标对象所对应的候选位置参数以及与所述候选位置参数对应的置信度。

15.根据权利要求14所述的装置，其特征在于，所述图像特征获取模块包括第一中间特征输出单元以及图像特征获取单元；

所述第一中间特征输出单元，用于通过所述基础网络中的初级特征提取网络对所述待测图像依次进行卷积处理和池化处理，输出所述待测图像对应的第一中间特征；

所述图像特征获取单元，用于通过所述基础网络中的残差网络，根据所述第一中间特征进行特征提取，并输出提取到的与所述待测图像对应的第一图像特征和第二图像特征。

16.根据权利要求15所述的装置，其特征在于，所述图像特征获取单元包括下采样子单元以及残差处理子单元：

所述下采样子单元，用于通过所述残差网络中的下采样模块对所述第一中间特征进行下采样，得到第二中间特征；

所述残差处理子单元，用于通过所述残差网络中的第一残差块，将所述第二中间特征映射为所述待测图像对应的第一图像特征和第二图像特征，并输出所述第一图像特征和所述第二图像特征。

17.根据权利要求16所述的装置，其特征在于，所述残差处理子单元，具体用于通过所述残差网络中的第一残差块，根据所述第二中间特征进行深度可分离卷积，得到第一特征分量；将所述第二中间特征恒等映射为第二特征分量；根据所述第一特征分量和所述第二特征分量进行合成，得到第一目标特征；将所述第一目标特征映射为所述待测图像对应的第一图像特征和第二图像特征，并输出所述第一图像特征和所述第二图像特征。

18.根据权利要求17所述的装置，其特征在于，所述残差处理子单元，具体用于将所述第二中间特征依次进行降维、深度可分离卷积以及升维，得到第一特征分量。

19.根据权利要求16所述的装置，其特征在于，所述基础网络中的残差网络多于一个，且各所述残差网络顺次连接；

所述图像特征获取单元，具体用于将所述第一中间特征依次经过所述基础网络中的各残差网络进行特征提取，通过第一目标残差网络输出所述待测图像对应的第一图像特征，并通过第二目标残差网络输出所述待测图像对应的第二图像特征；其中，所述第一目标残差网络和所述第二目标残差网络均选取自所述基础网络中的各残差网络。

20.根据权利要求19所述的装置，其特征在于，所述残差网络中的第一残差块多于一个，且各所述第一残差块顺次连接；

所述图像特征获取单元，具体用于将所述第一中间特征依次经过各所述残差网络中的第一残差块进行特征提取，通过所述第一目标残差网络中的第一目标残差块输出所述待测图像对应的第一图像特征，并通过所述第二目标残差网络中的第二目标残差块输出所述待测图像对应的第二图像特征；其中，所述第一目标残差块选取自所述第一目标残差网络中的各所述第一残差块，所述第二目标残差块选取自所述第二目标残差网络中的各所述第一残差块。

21.根据权利要求14所述的装置，其特征在于，所述空洞卷积处理模块包括空洞卷积处理单元、线性映射单元、特征合成单元以及特征映射单元；

空洞卷积处理单元，用于通过所述空洞卷积网络中的第二残差块，根据所述第二图像特征进行空洞卷积，得到第三特征分量；

所述线性映射单元，用于将所述第二图像特征线性映射为第四特征分量；

所述特征合成单元，用于根据所述第三特征分量和第四特征分量进行合成，得到第二目标特征；

所述特征映射单元，用于将所述第二目标特征映射为所述待测图像对应的第三图像特征。

22.根据权利要求21所述的装置，其特征在于，所述空洞卷积处理单元，具体用于将所述第二图像特征依次进行降维、空洞卷积以及升维，得到第三特征分量。

23.根据权利要求13所述的装置，其特征在于，所述待测图像获取模块包括原始图像获取单元、描述信息获取单元以及分辨率调整单元；

所述原始图像获取单元，用于获取原始图像；

所述描述信息获取单元，用于获取用于表征本地终端的运算能力的终端描述信息；

所述分辨率调整单元，用于根据与所述终端描述信息匹配的参考分辨率调整所述原始图像，得到待测图像。

24.根据权利要求13至23任一项所述的装置，其特征在于：

25.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。

26.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述方法的步骤。