CN112633299B

CN112633299B - 一种目标检测方法、网络、装置、终端设备及存储介质

Info

Publication number: CN112633299B
Application number: CN202011619421.4A
Authority: CN
Inventors: 王东; 程骏; 张惊涛; 胡淑萍; 顾在旺; 郭渺辰; 庞建新
Original assignee: Ubtech Robotics Corp
Current assignee: Ubtech Robotics Corp
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2024-01-16
Anticipated expiration: 2040-12-30
Also published as: CN112633299A

Abstract

本发明适用于目标检测技术领域，提供一种目标检测方法、网络、装置、终端设备及存储介质，通过对多张图像进行特征提取，获得与每张图像对应的多张不同维度的特征图；拼接与每张图像对应的多张不同维度的特征图，获得与每张图像对应的目标特征图；根据每张目标特征图中目标的面积占比，确定与每张目标特征图对应的网格；根据与每张目标特征图所对应的网格，对每张目标特征图进行目标预测，获得目标预测结果；根据目标预测结果计算目标检测网络的损失，根据损失对目标检测网络进行优化训练直到损失收敛时为止；通过完成优化训练后的目标检测网络对待检测图像进行目标检测，获得目标检测结果，可以提升检测小目标时特征的辨识度和鲁棒性。

Description

一种目标检测方法、网络、装置、终端设备及存储介质

技术领域

本发明属于目标检测技术领域，尤其涉及一种目标检测方法、网络、装置、终端设备及存储介质。

背景技术

目标检测技术主要分为两个分支：有锚框(Anchor-based)和无锚框(Anchor-free)的目标检测方法，有锚框的目标检测方法可以进一步分为单阶段和两阶段的目标检测方法，无锚框的目标检测方法可以进一步分为基于关键点和基于中心点的两种目标检测方法。

现有的，基于深度学习的单阶段目标检测方法主要有基于YOLO和SSD网络的深度学习目标检测方法。YOLO算法将目标检测转化为端到端的回归问题，推理速度很快，但是模型的定位精度以及对小目标的检测效果差。SSD算法提取5个不同尺度的特征图做预测，由于单一特征图的感受野和语义信息的限制，导致SSD算法对小目标检测鲁棒性低，浅层表征能力不强。

发明内容

有鉴于此，本发明实施例提供了一种目标检测方法、网络、装置、终端设备及存储介质，以解决现有技术中YOLO算法的定位精度低、对小目标的检测效果差，SSD算法对小目标检测鲁棒性低，浅层表征能力不强的问题。

本发明实施例的第一方面提供一种目标检测方法，包括：

对多张图像进行特征提取，获得与每张所述图像对应的多张不同维度的特征图；

拼接与每张所述图像对应的多张不同维度的特征图，获得与每张所述图像对应的目标特征图；

根据每张所述目标特征图中目标的面积占比，确定与每张所述目标特征图对应的网格；

根据与每张所述目标特征图所对应的网格，对每张所述目标特征图进行目标预测，获得目标预测结果；

根据所述目标预测结果计算目标检测网络的损失，根据所述损失对目标检测网络进行优化训练直到所述损失收敛时为止；

通过完成优化训练后的目标检测网络对待检测图像进行目标检测，获得目标检测结果。

本发明实施例的第二方面提供一种目标检测装置，包括：

特征提取模块，用于对多张图像进行特征提取，获得与每张所述图像对应的多张不同维度的特征图；

拼接模块，用于拼接与每张所述图像对应的多张不同维度的特征图，获得与每张所述图像对应的目标特征图；

网格划分模块，用于根据每张所述目标特征图中目标的面积占比，确定与每张所述目标特征图对应的网格；

目标预测模块，用于根据与每张所述目标特征图所对应的网格，对每张所述目标特征图进行目标预测，获得目标预测结果；

优化训练模块，用于根据所述目标预测结果计算目标检测网络的损失，根据所述损失对目标检测网络进行优化训练直到所述损失收敛时为止；

目标检测模块，用于通过完成优化训练后的目标检测网络对待检测图像进行目标检测，获得目标检测结果。

本发明实施例的第三方面还提供一种目标检测网络，包括：

骨架网络，用于对多张图像进行特征提取，获得与每张所述图像对应的多张不同维度的特征图；拼接与每张所述图像对应的多张不同维度的特征图，获得与每张所述图像对应的目标特征图；

后续检测头网络，用于根据每张所述目标特征图中目标的面积占比，确定与每张所述目标特征图对应的网格；根据与每张所述目标特征图所对应的网格，对每张所述目标特征图进行目标预测，获得目标预测结果；

其中，所述目标检测网络通过根据所述目标预测结果计算得到的损失进行优化训练，直到所述损失函数收敛时为止；完成优化训练后的所述目标检测网络用于对待检测图像进行目标检测，获得目标检测结果。

本发明实施例的第四方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本发明实施例的第一方面所述方法的步骤。

本发明实施例的第五方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如本发明实施例的第一方面所述方法的步骤。

本发明实施例的第一方面提供的目标检测方法，通过对多张图像进行特征提取，获得与每张所述图像对应的多张不同维度的特征图；拼接与每张所述图像对应的多张不同维度的特征图，获得与每张所述图像对应的目标特征图；根据每张所述目标特征图中目标的面积占比，确定与每张所述目标特征图对应的网格；根据与每张所述目标特征图所对应的网格，对每张所述目标特征图进行目标预测，获得目标预测结果；根据所述目标预测结果计算目标检测网络的损失，根据所述损失对目标检测网络进行优化训练直到所述损失收敛时为止；通过完成优化训练后的目标检测网络对待检测图像进行目标检测，获得目标检测结果，可以融合图像的不同感受野和不同尺度的特征，从而提升检测小目标时特征的辨识度和鲁棒性。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的目标检测方法的第一种流程示意图；

图2是本发明实施例提供的目标检测方法的第二种流程示意图；

图3是本发明实施例提供的目标检测网络的结构示意图；

图4是本发明实施例提供的目标检测方法的第三种流程示意图；

图5是本发明实施例提供的每个深度卷积网络的结构示意图；

图6是本发明实施例提供的后续检测头网络中的网格和网格中足球目标的位置的示意图；

图7是本发明实施例提供的目标检测装置的结构示意图；

图8是本发明实施例提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

应当理解，当在本发明说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本发明说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本发明说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本发明说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本发明实施例提供的目标检测方法可以应用于机器人、手机、平板电脑、可穿戴设备、车载设备、增强现实(Augmented Reality，AR)/虚拟现实(Virtual Reality，VR)设备、笔记本电脑、超级移动个人计算机(Ultra-Mobile Personal Computer，UMPC)、上网本、个人数字助理(Personal Digital Assistant，PDA)等终端设备上，本发明实施例对终端设备的具体类型不作任何限制。机器人具体可以是Walker机器人(仿人机器人)。该目标检测方法具体可以用于对足球或者与足球类似的类足球物体进行检测。

如图1所示，本发明实施例提供的目标检测方法，包括如下步骤S101至S106：

步骤S101、对多张图像进行特征提取，获得与每张所述图像对应的多张不同维度的特征图。

在应用中，可以从开放图库OpenImage中获取多张图像构成训练集，并输入骨架网络(Backbone)中进行特征提取，图像具体可以为足球图像，维度为224*224*3。维度包括空间尺寸和通道尺寸，例如，维度224*224*3中224*224为空间尺寸，3为通道尺寸。

在应用中，步骤S101由骨架网络执行，骨架网络用于对图像进行特征提取，获得具有高辨识度和鲁棒性的特征图，提取的这些特征图作为后续检测头网络(Detection Head)的输入。骨架网络可以基于普通卷积层、深度可分离卷积(Depthwise SeparableConvolution)层、深度可分离空洞卷积(Depthwise Separable Dilated Convolution)层、批归一化(Batch Normalization)层、Mish激活函数(Mish Activation Function)层、平均池化(Average Pooling)层等构建，由于单一特征图的感受野和语义信息也会受限，为了解决这一局限性，构建具有特殊结构的深度卷积网络(Inception_DWD Block)层嵌入到骨架网络中。

如图2所示，在一个实施例中，步骤S101包括如下步骤S201至S203：

步骤S201、通过骨架网络的卷积网络层分别对多张图像进行处理，获得与每张所述图像对应的第1维度的特征图；其中，所述第1维度包括第1空间尺寸和第1通道尺寸；

步骤S202、通过所述骨架网络的第i深度卷积网络层对每张所述第i维度的特征图进行处理，获得与每张所述图像对应的第2i维度的特征图；其中，所述第2i维度包括第i空间尺寸和第i+1通道尺寸，i＝1,2,3,4；

步骤S203、通过所述骨架网络的第i平均池化层对每张所述第2i维度的特征图进行处理，获得与每张所述图像对应的第2i+1维度的特征图；其中，所述第2i+1维度包括第i+1空间尺寸和第i+1通道尺寸。

在应用中，骨架网络包括串联的一个输入层、一个卷积网络层、四个深度卷积网络层以及四个平均池化层，每个深度卷积网络层对应一个平均池化层。卷积网络层包括普通卷积层(即卷积网络层)、批归一化层和Mish激活函数层。深度卷积网络层包括深度可分离卷积层和深度可分离空洞卷积层。

在应用中，骨架网络中各层的参数如表一所示：

表一

由表一可知，第1维度至第9维度分别为层级序号1-9所对应的特征图的维度，第1空间尺寸为112*112、第2空间尺寸为56*56、第3空间尺寸为28*28、第4空间尺寸为14*14、第5空间尺寸为7*7，第1通道尺寸为16、第2通道尺寸为32、第3通道尺寸为64、第4通道尺寸为128、第5通道尺寸为256。

如图3所示，示例性的示出了目标检测网络的结构示意图；其中，目标检测网络包括骨架网络1和后续检测头网络2，骨架网络1包括依次连接的输入层10、卷积网络层11、第一深度卷积网络层12、第一平均池化层13、第二深度卷积网络层14、第二平均池化层15、第三深度卷积网络层16、第三平均池化层17、第四深度卷积网络层18和第四平均池化层19，第二深度卷积网络层14、第三深度卷积网络层16和第四平均池化层19与后续检测头网络2连接。

在一个实施例中，基于表一所示的骨架网络的结构及参数，步骤S101具体包括如下步骤：

通过输入层输入多张图像；其中，每张所述图像的大小为224*224*3；

通过卷积网络层分别对每张所述图像进行处理，获得与每张所述图像对应的第1维度的特征图；其中，所述第1维度为112*112*16；

通过第一深度卷积网络层对每张所述第1维度的特征图进行处理，获得与每张所述图像对应的第2维度的特征图；其中，所述第2维度为112*112*32；

通过第一平均池化层对每张所述第2维度的特征图进行处理，获得与每张所述图像对应的第3维度的特征图；其中，所述第3维度为56*56*32；

通过第二深度卷积网络层对每张所述第3维度的特征图进行处理，获得与每张所述图像对应的第4维度的特征图；其中，所述第4维度为56*56*64；

通过第二平均池化层对每张所述第4维度的特征图进行处理，获得与每张所述图像对应的第5维度的特征图；其中，所述第5维度为28*28*64；

通过第三深度卷积网络层对每张所述第5维度的特征图进行处理，获得与每张所述图像对应的第6维度的特征图；其中，所述第6维度为28*28*128；

通过第三平均池化层对每张所述第6维度的特征图进行处理，获得与每张所述图像对应的第7维度的特征图；其中，所述第7维度为14*14*128；

通过第四深度卷积网络层对每张所述第7维度的特征图进行处理，获得与每张所述图像对应的第8维度的特征图；其中，所述第8维度为14*14*256；

通过第四平均池化层对每张所述第8维度的特征图进行处理，获得与每张所述图像对应的第9维度的特征图；其中，所述第9维度为7*7*256。

如图4所示，在一个实施例中，步骤S202包括如下步骤S401至S406：

步骤S401、对每张第i维度的特征图进行复制，获得与每张所述图像对应的四张第i维度的原特征图；

步骤S402、通过所述第i深度卷积网络层的第一卷积网络对与每张所述图像对应的第一张第i维度的原特征图进行处理，得到与每张所述图像对应的第一张第i维度的新特征图；

步骤S403、通过所述第i深度卷积网络层的第二卷积网络对与每张所述图像对应的第二张第i维度的原特征图进行处理，得到与每张所述图像对应的第二张第i维度的新特征图；

步骤S404、通过所述第i深度卷积网络层的第三卷积网络对与每张所述图像对应的第一张第i维度的原特征图进行处理，得到与每张所述图像对应的第三张第i维度的新特征图；

步骤S405、拼接与每张所述图像对应的三张第i维度的新特征图并进行降维，获得与每张所述图像对应的第i维度的新特征图；

步骤S406、将与每张所述图像对应的第i维度的新特征图和与每张所述图像对应的第四张第i维度的原特征图按照元素相加，获得与每张所述图像对应的第2i维度的特征图。

在应用中，骨架网络的每个深度卷积网络层都具有相同的结构，包括第一卷积网络、第二卷积网络和第三卷积网络，第一卷积网络、第二卷积网络和第三卷积网络均包括第一1*1卷积层、3*3深度可分离卷积层和3*3深度可分离空洞卷积层，第一卷积网络、第二卷积网络和第三卷积网络中的3*3深度可分离空洞卷积层的空洞率分别为1、3和5。

在应用中，每个深度卷积网络层中的特征图处理操作均包括：

首先，对输入的每张图像的第i维度的特征图进行复制(Split)操作，得到与每张图像对应的四张相同的第i维度的原特征图；

然后，分别通过第一卷积网络、第二卷积网络和第三卷积网络对与每张图像对应的三张相同的第i维度的原特征图进行卷积处理，得到与每张图像对应的三张第i维度的新特征图；

然后，对与每张图像对应的三张第i维度的新特征图进行拼接(Concat)操作，并通过第二1*1卷积层对拼接后的与每张图像对应的三张第i维度的新特征图进行降维操作，得到与每张图像对应的一张第i维度的新特征图；

最后，将与每张图像对应的一张第i维度的新特征图与剩余的未被卷积处理的一张原特征图按照元素(Element-Wise)相加，得到与每张图像对应的一张第2i维度的特征图。

在应用中，1*1卷积层的降维操作和按照元素(Element-Wise)相加的操称为Transition操作。每张图像经过每个深度卷积网络层处理之后，维度会发生变化，具体为空间尺寸不变，通道尺寸加倍，例如，对于一个输入维度为w*h*c的特征图G1，经过深度卷积网络层的卷积+Transition操作后得到的新特征图G1’的维度为w*h*2c，其中，w*h表示空间尺寸，c和2c表示通道尺寸。卷积网络层，第一卷积网络、第二卷积网络和第三卷积网络中的第一1*1卷积层，Transition操作中的第二1*1卷积层都可以采用普通卷积层。

如图5所示，示例性的示出了每个深度卷积网络层的结构示意图；其中，第i维度的特征图G1标示为51、复制(Split)操作标示为52、第一卷积网络标示为53、第二卷积网络标示为54、第三卷积网络标示为55、短连接(Short Cut)标示为56、拼接(Concat)操作标示为57、Transition操作标示为58、第2i维度的特征图G1’标示为59，第一1*1卷积层标示为CON-1*1、3*3深度可分离卷积层标示为DW-3*3，三个空洞率不同的3*3深度可分离空洞卷积层分别标示为DWD1-3*3、DWD2-3*3、DWD3-3*3。

在应用中，每个深度卷积网络在同一层级没有使用多尺寸滤波器，取而代之的是使用不同空洞率(Dilated Rate)的深度可分离空洞卷积滤波器，每个深度卷积网络可以在同一层级不同分支下产生不同的感受野，然后通过特征图的拼接、1*1普通卷积层的通道降维操作得到与原特征图维度相等的新特征图，最后通过将新特征图与原特征图按照元素相加得到输出的特征图。每个卷积网络中的3*3卷积层包括深度可分离卷积和深度可分离空洞卷积两种类型，卷积层后加入BN层和Mish激活函数。三个深度可分离空洞卷积分支的空洞率依次为1、3和5。

步骤S102、拼接与每张所述图像对应的多张不同维度的特征图，获得与每张所述图像对应的目标特征图。

在应用中，步骤S102由骨架网络执行，后续检测头网络输入的特征图为骨架网络输出的特征图，即骨架网络中层级序号为4、6和9的第二深度卷积网络层、第三深度卷积网络层和第四平均池化层的输出的特征图。

在一个实施例中，步骤S102包括：

通过所述骨架网络拼接与每张所述图像对应的第4维度、第6维度和第9维度的特征图，获得与每张所述图像对应的目标特征图。

在应用中，基于上表所示的骨架网络的结构及参数，第4维度为56*56*64、第6维度为28*28*128、第9维度为7*7*256，由于第4维度、第6维度和第9维度的特征图的空间尺寸分别为56*56、28*28和7*7，因此二者需要对第4维度和第6维度的特征图的空间尺寸分别进行卷积核参数为8*8和4*4平局池化操作，来统一三个维度的特征图的空间尺寸，以使三个维度的特征图的空间尺寸都为7*7。

步骤S103、根据每张所述目标特征图中目标的面积占比，确定与每张所述目标特征图对应的网格。

在应用中，步骤S103由后续检测头网络执行，借鉴YOLO_V1和YOLO_Peds的网格思想，根据目标占据整个图像的面积比例不同，可以从0-1共划分为10个区间，每个区间与后续检测头网络中的10张网格(Grid_1-Grid_10)一一对应，由低到高依次排列，即排序较前的网格负责预测面积占比小的目标，排序较后的网格负责预测面积占比大的目标，而网格内的每个单元格则负责预测中心点落在该单元格内的目标的中心点的坐标，即预测目标的类别置信度(classification)以及边界框相对于中心点的坐标偏移量(coordinateoffsets)。对于足球这一类目标，因此两个目标的中心点落在同一个单元格内的概率几乎为零。此外，当此方法应用于Walker机器人时，由于Walker机器人的胯部和胸前的相机的高度是固定的，踢球场景下足球也放在地面，由远到近采集数据集，因此训练集中不同尺寸的足球的比例分布也较为均匀，这也很好地避免了每个Grid训练样本数量不均衡的问题。

如图6所示，示例性的示出了后续检测头网络中的10张网格和网格中足球目标的位置；其中，足球目标的面积占比为0.199，足球目标的中心点落在x＝3,y＝4单元格，因此Grid_2网格的(3,4)单元格负责预测该足球目标的类别置信度和坐标偏移量。

在一个实施例中，步骤S103包括：

通过后续检测头网络获取每张所述目标特征图中目标的面积占比；

通过所述后续检测头网络根据每张所述目标特征图中目标的面积占比所属的区间，确定与每张所述目标特征图对应的后续检测头网络中的网格。

步骤S104、根据与每张所述目标特征图所对应的网格，对每张所述目标特征图进行目标预测，获得目标预测结果。

在应用中，步骤S104由后续检测头网络执行，目标预测结果包括目标的类别置信度以及边界框相对于目标的中心点的坐标偏移量。

在一个实施例中，步骤S104包括：

通过后续检测头网络根据与每张所述目标特征图所对应的网格，对每张所述目标特征图中目标的类别置信度以及边界框相对于目标的中心点的坐标偏移量进行目标检测，获得目标预测结果。

步骤S105、根据所述目标预测结果计算目标检测网络的损失，根据所述损失对目标检测网络进行优化训练直到所述损失收敛时为止。

在应用中，目标检测网络包括上述骨架网络和后续检测头网络，在通过后续检测头网络获得目标预测结果之后，即根据该目标预测结果计算目标检测网络的损失，然后基于计算得到的损失对目标检测网络进行优化训练，直到目标检测网络的损失收敛时停止对目标检测网络进行优化训练。损失收敛是指损失降低到某个值之后继续对目标检测网络进行优化训练时损失不再继续降低。

在一个实施例中，步骤S105，包括：

根据所述目标预测结果计算目标检测网络的边界框坐标回归损失、边界框类别置信度损失和DIOU损失；

根据所述边界框坐标回归损失、所述边界框类别置信度损失和所述DIOU损失对目标检测网络进行优化训练，直到所述边界框坐标回归损失、所述边界框类别置信度损失和所述DIOU损失均收敛时为止。

在应用中，目标检测网络的损失主要分为边界框坐标回归损失、边界框类别置信度损失和DIOU损失三个部分。后续检测头网络的每个单元格预测3个边界框(BoundingBox)，每个边界框包含有(X,Y,W,H,Confidence)，网络只预测足球这一个类别，无需对类别进行One-Hot编码，(X,Y)表示中心点坐标，W表示宽，H表示高，Confidence表示置信度。

在一个实施例中，所述边界框坐标回归损失的表达式为：

其中，L_loc(i,j,m,n)表示所述边界框坐标回归损失，m表示第m张网格，n表示第m张网格预测的第n个边界框，α表示所述边界框坐标回归损失占总损失的权重因子，I_i,j,m,n表示所述第m张网格中的单元格(i,j)所预测的目标的第n个边界框；

所述边界框类别置信度损失的表达式为：

L_conf(i,j,m,n)＝-β*[I_i,j,m,n*log(C_i,j,m,n)+(1-I_i,j,m,n)*log(1-C_i,j,m,n)]

其中，L_conf(i,j,m,n)表示所述边界框类别置信度损失，β表示所述边界框类别置信度损失占总损失的权重因子；

所述DIOU损失的表达式为：

其中，L_DIOU(i,j,m,n)表示所述DIOU损失，IOU_i,j,m,n表示所述目标的第n个边界框和真值间的交并比，表示所述目标的两个边界框的中心点之间的欧式距离，D_i,j,m,n表示所述两个边界框的最小外接矩形的对角线之间的距离，γ表示所述DIOU损失占总损失的权重因子；

所述总损失的表达式为：

其中，L_total表示所述总损失。

步骤S106、通过完成优化训练后的目标检测网络对待检测图像进行目标检测，获得目标检测结果。

在应用中，通过完成优化训练后的目标检测网络对待检测图像进行目标检测，可以快速获得精确的目标检测结果。待检测图像可以是任意图像，例如，包含足球目标的图像，也可以是用于对目标检测网络进行训练的图像。

本发明实施例可以融合图像的不同感受野和不同尺度的特征，从而提升检测小目标时特征的辨识度和鲁棒性。基于足球这一类训练集与通用目标检测训练集的差异，在单阶段目标检测算法Yolo的基础上，设计了一种可以很好地兼顾高精度和高推理速度的足球目标检测网络(Yolo Ball Detection Net，YoloBDN)。YoloBDN网络使用了更小计算量和更少参数量的骨架网络，后续头连接网络采用了无锚框的网络结构，相较于传统SSD和YOLO网络，YoloBDN网络具有更快的推理速度和较高的检测精度。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本发明实施例还提供一种目标检测网络，包括：

在应用中，目标检测网络包括骨架网络和后续检测头网络，其具体可以是足球目标检测网络，可以很好地兼顾高精度和高推理速度，由于使用了更小计算量和更少参数量的骨架网络，后续头连接网络采用了无锚框的网络结构，使得该目标检测网络相较于传统SSD和YOLO网络，具有更快的推理速度和较高的检测精度。

本发明实施例还提供一种目标检测装置，用于执行上述目标检测方法实施例中的步骤。目标检测装置可以是终端设备中的虚拟装置(virtual appliance)(例如，YoloBDN网络)，由终端设备的处理器运行，也可以是终端设备本身。

如图7所示，本发明实施例提供的目标检测装置100，包括：

特征提取模块101，用于对多张图像进行特征提取，获得与每张所述图像对应的多张不同维度的特征图；

拼接模块102，用于拼接与每张所述图像对应的多张不同维度的特征图，获得与每张所述图像对应的目标特征图；

网格划分模块103，用于根据每张所述目标特征图中目标的面积占比，确定与每张所述目标特征图对应的网格；

目标预测模块104，用于根据与每张所述目标特征图所对应的网格，对每张所述目标特征图进行目标预测，获得目标预测结果；

优化训练模块105，用于根据所述目标预测结果计算目标检测网络的损失，根据所述损失对目标检测网络进行优化训练直到所述损失收敛时为止；

目标检测模块106，用于通过完成优化训练后的目标检测网络对待检测图像进行目标检测，获得目标检测结果。

在应用中，目标检测装置中的各模块可以为软件程序模块，也可以通过处理器中集成的不同逻辑电路实现，还可以通过多个分布式处理器实现。

图8为本发明实施例还提供一种终端设备200，包括：至少一个处理器201(图8中仅示出一个处理器)、存储器202以及存储在存储器202中并可在至少一个处理器201上运行的计算机程序203，处理器201执行计算机程序203时实现上述任意方法实施例中的步骤。

在应用中，终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，图8仅仅是终端设备的举例，并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

在应用中，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在应用中，存储器在一些实施例中可以是终端设备的内部存储单元，例如终端设备的硬盘或内存。存储器在另一些实施例中也可以是终端设备的外部存储设备，例如，终端设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器还可以既包括终端设备的内部存储单元也包括外部存储设备。存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如计算机程序的程序代码等。存储器还可以用于暂时地存储已经输出或者将要输出的数据。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明实施例还提供了一种网络设备，该网络设备包括：至少一个处理器、存储器以及存储在存储器中并可在至少一个处理器上运行的计算机程序，处理器执行计算机程序时实现上述各个方法实施例中的步骤。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本发明实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行时实现可实现上述各个方法实施例中的步骤。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质至少可以包括：能够将计算机程序代码携带到装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种目标检测方法，其特征在于，包括：

通过骨架网络对多张图像进行特征提取，获得与每张所述图像对应的多张不同维度的特征图；

通过骨架网络拼接与每张所述图像对应的多张不同维度的特征图，获得与每张所述图像对应的目标特征图；

通过后续检测头网络根据每张所述目标特征图中目标的面积占比，确定与每张所述目标特征图对应的网格；

通过后续检测头网络根据与每张所述目标特征图所对应的网格，对每张所述目标特征图中目标的类别置信度以及边界框相对于目标的中心点的坐标偏移量进行检测，获得目标预测结果；

通过完成优化训练后的目标检测网络对待检测图像进行目标检测，获得目标检测结果；

其中，所述对多张图像进行特征提取，获得与每张所述图像对应的多张不同维度的特征图，包括：

通过骨架网络的卷积网络层分别对多张图像进行处理，获得与每张所述图像对应的第1维度的特征图；

通过所述骨架网络的第i深度卷积网络层对每张第i维度的特征图进行处理，获得与每张所述图像对应的第2i维度的特征图；

通过所述骨架网络的第i平均池化层对每张所述第2i维度的特征图进行处理，获得与每张所述图像对应的第2i+1维度的特征图；

所述目标检测网络包括所述骨架网络和所述后续检测头网络，所述骨架网络包括依次连接的输入层、卷积网络层、第一深度卷积网络层、第一平均池化层、第二深度卷积网络层、第二平均池化层、第三深度卷积网络层、第三平均池化层、第四深度卷积网络层和第四平均池化层，所述第二深度卷积网络层、所述第三深度卷积网络层和所述第四平均池化层与所述后续检测头网络连接。

2.如权利要求1所述的目标检测方法，其特征在于，所述第1维度包括第1空间尺寸和第1通道尺寸；

所述第2i维度包括第i空间尺寸和第i+1通道尺寸，i＝1,2,3,4；

所述第2i+1维度包括第i+1空间尺寸和第i+1通道尺寸。

3.如权利要求2所述的目标检测方法，其特征在于，所述通过所述骨架网络的第i深度卷积网络层对每张第i维度的特征图进行处理，获得与每张所述图像对应的第2i维度的特征图，包括：

对每张第i维度的特征图进行复制，获得与每张所述图像对应的四张第i维度的原特征图；

通过所述骨架网络的第i深度卷积网络层的第一卷积网络对与每张所述图像对应的第一张第i维度的原特征图进行处理，得到与每张所述图像对应的第一张第i维度的新特征图；

通过所述第i深度卷积网络层的第二卷积网络对与每张所述图像对应的第二张第i维度的原特征图进行处理，得到与每张所述图像对应的第二张第i维度的新特征图；

通过所述第i深度卷积网络层的第三卷积网络对与每张所述图像对应的第一张第i维度的原特征图进行处理，得到与每张所述图像对应的第三张第i维度的新特征图；

拼接与每张所述图像对应的三张第i维度的新特征图并进行降维，获得与每张所述图像对应的第i维度的新特征图；

将与每张所述图像对应的第i维度的新特征图和与每张所述图像对应的第四张第i维度的原特征图按照元素相加，获得与每张所述图像对应的第2i维度的特征图。

4.如权利要求3所述的目标检测方法，其特征在于，所述第一卷积网络、所述第二卷积网络和所述第三卷积网络均包括1*1卷积层、3*3深度可分离卷积层和3*3深度可分离空洞卷积层，所述第一卷积网络、所述第二卷积网络和所述第三卷积网络中的3*3深度可分离空洞卷积层的空洞率分别为1、3和5。

5.如权利要求2所述的目标检测方法，其特征在于，所述拼接与每张所述图像对应的多张不同维度的特征图，获得与每张所述图像对应的目标特征图，包括：

6.如权利要求1至5任一项所述的目标检测方法，其特征在于，所述根据每张所述目标特征图中目标的面积占比，确定与每张所述目标特征图对应的网格，包括：

7.如权利要求1至4任一项所述的目标检测方法，其特征在于，所述根据所述目标预测结果计算目标检测网络的损失，根据所述损失对目标检测网络进行优化训练直到所述损失收敛时为止，包括：

8.如权利要求7所述的目标检测方法，其特征在于，所述边界框坐标回归损失的表达式为：

所述边界框类别置信度损失的表达式为：

L_conf(i,j,m,n)＝-β*[I_i,j,m,n*log(C_i,j,m,n)+(1-I_i,j,m,n)*log(1-C_i,j,m,n)]

所述DIOU损失的表达式为：

所述总损失的表达式为：

其中，L_total表示所述总损失。

9.一种目标检测装置，其特征在于，包括：

特征提取模块，用于通过骨架网络对多张图像进行特征提取，获得与每张所述图像对应的多张不同维度的特征图；

拼接模块，用于通过骨架网络拼接与每张所述图像对应的多张不同维度的特征图，获得与每张所述图像对应的目标特征图；

网格划分模块，用于通过后续检测头网络根据每张所述目标特征图中目标的面积占比，确定与每张所述目标特征图对应的网格；

目标预测模块，用于通过后续检测头网络根据与每张所述目标特征图所对应的网格，对每张所述目标特征图中目标的类别置信度以及边界框相对于目标的中心点的坐标偏移量进行目标预测，获得目标预测结果；

目标检测模块，用于通过完成优化训练后的目标检测网络对待检测图像进行目标检测，获得目标检测结果；

10.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述方法的步骤。

11.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述方法的步骤。