CN111242122B

CN111242122B - 一种轻量级深度神经网络旋转目标检测方法和系统

Info

Publication number: CN111242122B
Application number: CN202010011940.6A
Authority: CN
Inventors: 许超; 熊坤
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-01-07
Filing date: 2020-01-07
Publication date: 2023-09-08
Anticipated expiration: 2040-01-07
Also published as: CN111242122A

Abstract

本发明实施例公开了一种轻量级深度神经网络旋转目标检测方法和系统，包括：将图像经过轻量级基础神经网络处理生成特征金字塔；在特征金字塔上每一层进行尺度不同的旋转目标检测，获得所有包裹目标物体的旋转边界框和物体类别；获得旋转边界框的头尾子旋转区域，对头尾子旋转区域进行分类得到目标物体的朝向，结合旋转边界框的旋转角得到目标物体的具体运动方向。该方法设计了一种轻量级基础网络，有效减小了计算量使得方法可以在算力有限的移动计算平台上实时运行，同时该方法使用头尾分离式的旋转兴趣区域池化操作有效地提高了目标物体运动方向检测准确率。

Description

一种轻量级深度神经网络旋转目标检测方法和系统

技术领域

本发明实施例涉及计算机视觉领域，尤其涉及一种轻量级深度神经网络旋转目标检测方法和系统。

背景技术

在一个算力有限的微型计算设备上对图像中的旋转物体进行实时的目标检测是一个比较困难的问题。旋转目标检测通常出现在航拍图像中的旋转物体检测或者是倾斜的文字检测当中，现有的深度神经网络旋转目标检测方法依赖比较厚重的基础神经网络提取图像特征，使得方法难以在微型计算设备上运行，对网络进行量化、剪枝或设计轻量化的网络结构是一大趋势。同时，常见的深度神经网络旋转目标检测方法并不能给出运动物体如车辆的朝向。

发明内容

本发明实施例的目的在于针对现有深度神经网络难以在算力有限的微型计算设备上实时运行，且对运动物体运动方向估计不准确，提出一种轻量级深度神经网络旋转目标检测方法和装置。

为了实现以上目的，本发明实施例所采用的技术方案如下：

第一方面，本发明实施例提供一种轻量级深度神经网络旋转目标检测方法，包括：

将图像经过轻量级基础神经网络处理生成特征金字塔；

在尺度不同的特征金字塔每一层上进行旋转目标检测，获得所有包裹目标物体的旋转边界框和物体类别；

获得旋转边界框的头尾子旋转区域，对头尾子旋转区域进行分类得到目标物体的朝向，结合旋转边界框的旋转角得到目标物体的具体运动方向。

进一步地，将图像经过轻量级基础神经网络处理生成特征金字塔，包括：

所述轻量级基础网络包含从下至上和从上至下的两个部分；

从下至上部分通过一系列卷积和池化操作生成五层尺度不同的卷积特征图；

从上至下部分不断融合相邻两层卷积特征图得到所述特征金字塔。

进一步地，从下至上部分通过一系列卷积和池化操作生成五层尺度不同的卷积特征图，包含：

输入图像经过一次普通的卷积操作得到所述卷积特征图第一层C₁；

C₁通过一次深度分离卷积操作得到所述卷积特征图第二层C₂；

C₂通过一次深度分离卷积操作得到所述卷积特征图第三层C₃；

C₃通过一次深度分离卷积操作得到所述卷积特征图第四层C₄；

C₄通过一次深度分离卷积操作得到所述卷积特征图第五层C₅。

进一步地，从上至下部分不断融合相邻两层卷积特征图得到所述特征金字塔，包含：

C₅经一次卷积操作得到第五过渡层

对进行上采样操作生成第五上采样层/>

C₄经一次卷积操作后与等比例相加生成第四上采样层/>

将上采样输出与C₃经一次卷积操作后的输出等比例相加生成第三过渡层

分别经一次卷积操作对应获得所述金字塔第三层P₃、所述金字塔第四层P₄和所述金字塔第五层P₅；

P₅经一次卷积操作生成所述金字塔第六层P₆；

P₆经Relu和一次卷积操作生成所述金字塔第七层P₇。

进一步地，在尺度不同的特征金字塔每一层上进行旋转目标检测，获得所有包裹目标物体的旋转边界框和物体类别包括：

在所述特征金字塔每层横向两个分支进行尺度不同的旋转目标检测；

两个分支第一分支是分类分支，利用特征金字塔对图像中所有的采样区域进行K次打分，获得K个物体类别；

两个分支第二分支是旋转边界框回归分支，利用特征金字塔以每个采样区域为基准进行K次预测，每次预测各获得一个该采样区域对应的旋转边界框；

保留分数大于阈值的采样区域，得到所述所有包裹目标物体的旋转边界框和物体类别。

进一步地，两个分支第一分支是分类分支，利用特征金字塔对图像中所有的采样区域进行K次打分，获得K个物体类别，包括：

在所述特征金字塔每层后进行两次卷积操作和一次通道数为K×C的卷积操作，再经过一个全连接层获得所述打分的结果，每个采样区域均对应生成K×C个分数，C为类别数量，K表示在每个采样区域进行K次预测，K次预测每次都保留C个分数中的最高的分数作为该次预测的打分结果，最高的分数对应的类别作为该次预测的类别；

进一步地，两个分支第二分支是旋转边界框回归分支，利用特征金字塔以每个采样区域为基准进行K次预测，每次预测各获得一个该采样区域对应的旋转边界框，包括：

在所述特征金字塔每层后进行两次卷积操作和一次通道数为K×5的卷积操作，再经过一个全连接层获得K×5个偏移量，K表示在每个采样区域进行所述K次预测，5表示每次预测均获得偏移量(x,y,w,h,θ)，(x,y)为所述旋转边界框中心点坐标偏移量，(w,h)为所述旋转边界框宽高偏移量，(θ)为所述旋转边界框角度偏移量，基于所述采样区域和偏移量可获得所述旋转边界框。

进一步地，获得旋转边界框的头尾子旋转区域，对头尾子旋转区域进行分类得到目标物体的朝向，结合旋转边界框的旋转角得到目标物体的具体运动方向，包含：

利用先验知识将每个所述旋转边界框分割成对应目标物体头尾的两个子候选框即所述头尾子旋转区域；

找到子候选框在特征金字塔P₃、P₄和P₅对应区域做旋转兴趣区域池化获得两部分池化特征；

两部分池化特征经一次卷积操作后在深度方向合并，经过一个全连接层输出头尾分类分数，通过sigmoid操作将分类分数压缩至[0,1]的范围内，更接近0表示该部分池化特征对应的子候选区域属于目标物体的尾部，更接近1表示该池化特征对应的子候选区域属于目标物体的头部；

根据头尾分类结果获得所述目标物体的朝向；

结合所述旋转边界框旋转角得到物体具体运动方向。

第二方面，本发明实施例的第二目的是提供一种考虑物体朝向的轻量级深度神经网络旋转目标检测系统，包括：

生成模块，用于将图像经过轻量级基础神经网络处理生成特征金字塔；

检测模块，用于在特征金字塔上每一层进行尺度不同的旋转目标检测，获得所有包裹目标物体的旋转边界框和物体类别；

分类获取模块，用于获得旋转边界框的头尾子旋转区域，对头尾子旋转区域进行分类得到目标物体的朝向，结合旋转边界框的旋转角得到目标物体的具体运动方向。

第三方面，本发明实施例提供一种设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的方法。

本发明实施例的有益效果如下：本发明设计了一种轻量级基础网络，从而大大减少了计算量提高了方法在微型计算设备上的实时运行速度，在多尺度特征金字塔上进行旋转目标检测能够有效的提高对不同大小的目标物体的旋转目标检测准确率，使用头尾子旋转区域来获得物体朝向有效地提高了目标物体运动方向检测准确率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例提供一种轻量级深度神经网络旋转目标检测方法的流程图；

图2为本发明实施例提供的一种轻量级深度神经网络旋转目标检测方法的整体网络框架；

图3为本发明实施例提供的轻量级基础网络示意图；

图4为本发明实施例提供的旋转检测模块示意图；

图5为本发明实施例提供的旋转边界框定义示意图；

图6为本发明实施例提供的朝向分类模块示意图；

图7为本发明实施例提供的物体所有可能的朝向示意图。

图8为本发明实施例提供一种考虑物体朝向的轻量级深度神经网络旋转目标检测系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例具体实施例及相应的附图对本发明实施例技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明实施例保护的范围。

图1为本发明实施例提供一种轻量级深度神经网络旋转目标检测方法的流程图，包括：

S100、将图像经过轻量级基础神经网络处理生成特征金字塔；

S200、在尺度不同的特征金字塔每一层上进行旋转目标检测，获得所有包裹目标物体的旋转边界框和物体类别；

S300、获得旋转边界框的头尾子旋转区域，对头尾子旋转区域进行分类得到目标物体的朝向，结合旋转边界框的旋转角得到目标物体的具体运动方向。

本发明设计了一种轻量级基础网络，轻量化在于引入了深度分离卷积操作，相对于常规卷积操作而言计算量大大减少，从而提高了方法在微型计算设备上的实时运行速度，在多尺度特征金字塔上进行旋转目标检测能够有效的提高对不同大小的目标物体的旋转目标检测准确率，使用头尾子旋转区域来获得物体朝向有效地提高了目标物体运动方向检测准确率，本发明的整体网络框架详见图2。

在本发明的实施例中，所述步骤S100将图像经过轻量级基础神经网络处理生成特征金字塔，如图3所示，包括：

S101、所述轻量级基础网络包含从下至上和从上至下的两个部分；

S102、从下至上部分通过一系列卷积和池化操作生成五层尺度不同的卷积特征图；

具体的，输入图像经过一次普通的卷积操作得到所述卷积特征图第一层C₁；C₁通过一次深度分离卷积操作得到所述卷积特征图第二层C₂；C₂通过一次深度分离卷积操作得到所述卷积特征图第三层C₃；C₃通过一次深度分离卷积操作得到所述卷积特征图第四层C₄；C₄通过一次深度分离卷积操作得到所述卷积特征图第五层C₅。

在一种可能的实现方式中，从下至上生成五层卷积特征图C₁、C₂、C₃、C₄和C₅。输入图像经过一次卷积核大小为3×3、步长为2、通道数为32的卷积操作得到第一层卷积特征图C₁；C₁通过一次膨胀率为6、步长2的深度分离卷积操作生成通道数为24的第二层卷积特征图C₂；C₂通过一次膨胀率为6、步长2的深度分离卷积操作生成通道数为32的第三层卷积特征图C₃；C₃通过一次膨胀率为6、步长2的深度分离卷积操作生成通道数为64的第四层卷积特征图C₄；C₄通过一次膨胀率为6、步长2的深度分离卷积操作生成通道数为160的第五层卷积特征图C₅。

S103、从上至下部分不断融合相邻两层卷积特征图得到所述特征金字塔。

具体的，C₅经一次卷积操作得到第五过渡层对/>进行上采样操作生成第五上采样层/>C₄经一次卷积操作后与/>等比例相加生成第四上采样层将/>上采样输出与C₃经一次卷积操作后的输出等比例相加生成第三过渡层分别经一次卷积操作对应获得所述金字塔第三层P₃、所述金字塔第四层P₄和所述金字塔第五层P₅；P₅经一次卷积操作生成所述金字塔第六层P₆；P₆经Relu和一次卷积操作生成所述金字塔第七层P₇。

在一种可能的实现方式中，从上至下生成特征金字塔P₃、P₄、P₅、P₆和P₇。首先由C₅经一次卷积核大小为1×1、步长为1、通道数为256的卷积操作得到金字塔第五中间层其次生成金字塔第四中间层/>通过对/>进行上采样操作生成金字塔第五层上采样层/>C₄经一次卷积核大小为1×1、步长为1、通道数为256的卷积操作后与/>等比例相加生成/>再生成金字塔第四中间层/>将/>上采样输出与C₃经一次卷积核大小为1×1、步长为1、通道数为256的卷积操作后输出等比例相加生成/>接着生成特征金字塔下三层P₃、P₄和P₅，他们由对应的/>经一次卷积核大小为3×3、步长为1、通道数为256的卷积操作生成；最后P₆由P₅经一次卷积核大小为3×3、步长为2、通道数为256的卷积操作生成，P₆后接Relu再经一次卷积核大小为3×3、步长为2、通道数为256的卷积操作生成P₇。

在本发明的实施例中，所述步骤S200在尺度不同的特征金字塔每一层上进行旋转目标检测，获得所有包裹目标物体的旋转边界框和物体类别，如图4所示，包括：

S201、在所述特征金字塔每层横向两个分支进行尺度不同的旋转目标检测；

具体的，在特征金字塔每一层的每一个单位都设定15个先验框，其中伸缩尺度3种长宽比5种/>先验框铺设的数量由以下方式计算得到：输入图像大小为640×480，则特征金字塔大小分别为P₃80×60、P₄40×30、P₅20×15、P₆10×8、P₇5×4则单位总体数量为80×60+40×30+20×15+10×8+5×4＝6400个。每个单位铺设15个先验框，则总体数量为6400×15＝96000个。

S202、两个分支第一分支是分类分支，利用特征金字塔对图像中所有的采样区域进行K次打分，获得K个物体类别；

具体的，在所述特征金字塔每层后进行两次卷积操作和一次通道数为K×C的卷积操作，再经过一个全连接层获得所述打分的结果，每个采样区域均对应生成K×C个分数，C为类别数量，K表示在每个采样区域进行K次预测，K次预测每次都保留C个分数中的最高的分数作为该次预测的打分结果，最高的分数对应的类别作为该次预测的类别；

在一种可能的实现方式中，分类分支对所有采样区域进行打分，分数代表该区域存在目标的概率，概率越高越可能包含目标。分类子网络具体结构如图4所示，输入特征经两次卷积核大小为3×3、步长为1、通道数为256的卷积操作后，再接一次卷积核大小为3×3、步长为1、通道数为K×C(每单位先验框×目标物体类别数量)的卷积操作得到最后的分类分数，后做sigmoid得到分类概率。

S203、两个分支第二分支是旋转边界框回归分支，利用特征金字塔以每个采样区域为基准进行K次预测，每次预测各获得一个该采样区域对应的旋转边界框；

具体的，在所述特征金字塔每层后进行两次卷积操作和一次通道数为K×5的卷积操作，再经过一个全连接层获得K×5个偏移量，K表示在每个采样区域进行所述K次预测，5表示每次预测均获得偏移量(x,y,w,h,θ)，(x,y)为所述旋转边界框中心点坐标偏移量，(w,h)为所述旋转边界框宽高偏移量，(θ)为所述旋转边界框角度偏移量，基于所述采样区域和偏移量可获得所述旋转边界框，旋转边界框定义如图5所示。

在一种可能的实现方式中，旋框回归分支生成旋转框，旋框回归分支具体结构如图4所示，输入特征经两次卷积核大小为3×3、步长为1、通道数为256的卷积操作后，再接一次卷积核大小为3×3、步长为1、通道数为K×5的卷积操作得到最终的旋框预测量，其中5个量分别代表旋框中心点坐标xy,旋框长宽wh，以及角度θ。

S204、保留分数大于阈值的采样区域，得到所述所有包裹目标物体的旋转边界框和物体类别。

在本发明的实施例中，所述步骤S300获得旋转边界框的头尾子旋转区域，对头尾子旋转区域进行分类得到目标物体的朝向，结合旋转边界框的旋转角得到目标物体的具体运动方向，如图6所示，包含：

S301、利用先验知识将每个所述旋转边界框分割成对应目标物体头尾的两个子候选框即所述头尾子旋转区域；

S302、找到子候选框在特征金字塔P₃、P₄和P₅对应区域做旋转兴趣区域池化获得两部分池化特征；

S303、两部分池化特征经一次卷积操作后在深度方向合并，经过一个全连接层输出头尾分类分数，通过sigmoid操作将分类分数压缩至[0,1]的范围内，更接近0表示该部分池化特征对应的子候选区域属于目标物体的尾部，更接近1表示该池化特征对应的子候选区域属于目标物体的头部；

在一种可能的实现方式中，头尾池化特征一次卷积核大小为3×3、步长为1、通道数为256的卷积操作，后接一个输入通道数为1的全连接层输出一对分数，在通过sigmoid操作将这对分类结果压缩至[0,1]的范围内。更接近0表示该池化特征对应的子候选区域属于目标物体的尾部，更接近1表示该池化特征对应的子候选区域属于目标物体的头部。

S304、根据头尾分类结果获得所述目标物体的朝向；图7展示了目标物体所有朝向的可能性。

S305、结合所述旋转边界框旋转角得到物体具体运动方向。

图8为本发明实施例提供的一种考虑物体朝向的轻量级深度神经网络旋转目标检测系统的结构示意图，该系统可以执行任意本发明任意实施例所提供的一种轻量级深度神经网络旋转目标检测方法，具备执行该方法相应的功能模块和有益效果。如图8所示，该系统包括：

生成模块100，用于将图像经过轻量级基础神经网络处理生成特征金字塔；

检测模块200，用于在特征金字塔上每一层进行尺度不同的旋转目标检测，获得所有包裹目标物体的旋转边界框和物体类别；

分类获取模块300，用于获得旋转边界框的头尾子旋转区域，对头尾子旋转区域进行分类得到目标物体的朝向，结合旋转边界框的旋转角得到目标物体的具体运动方向。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的设备实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种轻量级深度神经网络旋转目标检测方法，其特征在于，包括：

将图像经过轻量级基础神经网络处理生成特征金字塔；

2.根据权利要求1所述的方法，其特征在于，将图像经过轻量级基础神经网络处理生成特征金字塔，包括：

所述轻量级基础神经网络包含从下至上和从上至下的两个部分；

3.根据权利要求2所述的方法，其特征在于，从下至上部分通过一系列卷积和池化操作生成五层尺度不同的卷积特征图，包含：

4.根据权利要求2所述的方法，其特征在于，从上至下部分不断融合相邻两层卷积特征图得到所述特征金字塔，包含：

C₅经一次卷积操作得到第五过渡层P₅ ^middle；

对P₅ ^middle进行上采样操作生成第五上采样层P₅ ^upsampling；

C₄经一次卷积操作后与P₅ ^upsampling等比例相加生成第四上采样层P₄ ^middle；

将P₄ ^middle上采样输出与C₃经一次卷积操作后的输出等比例相加生成第三过渡层P₃ ^middle；

P₃ ^middle、P₄ ^middle、P₅ ^middle分别经一次卷积操作对应获得所述金字塔第三层P₃、所述金字塔第四层P₄和所述金字塔第五层P₅；

P₅经一次卷积操作生成所述金字塔第六层P₆；

P₆经Relu和一次卷积操作生成所述金字塔第七层P₇。

5.根据权利要求1所述的方法，其特征在于，在尺度不同的特征金字塔每一层上进行旋转目标检测，获得所有包裹目标物体的旋转边界框和物体类别包括：

6.根据权利要求5所述的方法，其特征在于，两个分支第一分支是分类分支，利用特征金字塔对图像中所有的采样区域进行K次打分，获得K个物体类别，包括：

在所述特征金字塔每层后进行两次卷积操作和一次通道数为K×C的卷积操作，再经过一个全连接层获得所述打分的结果，每个采样区域均对应生成K×C个分数，C为类别数量，K表示在每个采样区域进行K次预测，K次预测每次都保留C个分数中的最高的分数作为该次预测的打分结果，最高的分数对应的类别作为该次预测的类别。

7.根据权利要求5所述的方法，其特征在于，两个分支第二分支是旋转边界框回归分支，利用特征金字塔以每个采样区域为基准进行K次预测，每次预测各获得一个该采样区域对应的旋转边界框，包括：

8.根据权利要求1所述的方法，其特征在于，获得旋转边界框的头尾子旋转区域，对头尾子旋转区域进行分类得到目标物体的朝向，结合旋转边界框的旋转角得到目标物体的具体运动方向，包含：

根据头尾分类结果获得所述目标物体的朝向；

结合所述旋转边界框旋转角得到物体具体运动方向。

9.一种轻量级深度神经网络旋转目标检测系统，其特征在于，包括：

10.一种设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8任一项所述的方法。