CN109785298B

CN109785298B - 一种多角度物体检测方法和系统

Info

Publication number: CN109785298B
Application number: CN201811593474.6A
Authority: CN
Inventors: 刘永; 王瑞平; 山世光; 陈熙霖
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2018-12-25
Filing date: 2018-12-25
Publication date: 2021-03-05
Anticipated expiration: 2038-12-25
Also published as: CN109785298A

Abstract

本发明涉及一种多角度物体检测方法，包括：以深度神经网络构建检测模型；对训练图提取特征以获得多个特征图，设置多个垂直矩形锚框，获取该垂直矩形锚框与该训练图的样本物体的相交比，并以该相交比大于正例阈值的垂直矩形锚框标记为该训练图的样本物体的正例；通过该特征图对每个该正例进行回归预测，获取该样本物体的倾斜椭圆锚框的特征参数，以对该检测模型进行学习；以该检测模型检测目标图，获取该目标图中物体的倾斜椭圆锚框。

Description

一种多角度物体检测方法和系统

技术领域

本发明属于计算机视觉领域，尤其涉及基于深度学习的多角度物体检测技术。

背景技术

计算机视觉理论的奠基者，英国神经生理学家Marr认为，视觉要解决的问题可归结为“What is Where”，即什么东西在什么地方。因此物体检测是最基本的研究问题之一。给定一张图片，物体检测要回答的是什么物体出现在图中的什么地方，不仅需要认识物体，还需要框出物体所在位置。物体检测作为计算机视觉领域的一个基础性研究问题，如今已经被应用到了很多实际任务当中，例如基于内容的图像检索，自动驾驶等等；同时物体检测也是很多高级视觉任务的必备前提，例如场景理解，图片描述，视觉问答等等。

主流的检测方法主要分为两种类型：(1)两阶段检测器(基于候选框提取的方法)(2)单阶段检测器(基于回归的方法)。

随着深度学习的兴起，在过去的几年中，两阶段探测器很快成为了目标探测的主流。代表性的方法包括区域深度特征的物体检测方法(R-CNN)，两阶段端到端的结合区域提取网络的实时物体检测(Faster R-CNN)等等。这些方法解决思想是在第一阶段生成成千上万个可能存在物体的候选框，第二阶段对这些候选框进行特征提取，并分类成前景或背景。区域深度特征的物体检测方法(R-CNN)利用选择性搜索在图片中产生千万个候选框，再利用网络对候选区域提取深度特征，并应用线性支持向量机(SVM)作为分类器。为了达到更快的检测速度，两阶段端到端的结合区域提取网络的实时物体检测(Faster R-CNN)将候选框提取操作与第二阶段分类器集成到一个单一的卷积网络中，并提出了一种新的区域池化操作从共享的图片卷积特征中映射，为每个候选框提取特征向量。

同时，单阶段检测器也不断发展，主要是能够满足于实时检测，并具有令人满意的精度。一种直接回归的目标检测方法(YOLO)将图片网格化，假设每个网格只会落入一个物体中心，该网格负责预测此物体，每个网格预测所负责物体的区域位置以及该区域属于每个类别的概率值，再与标签进行回归即可。单回归多尺度检测器(SSD)结合YOLO的回归思想以及Faster R-CNN的锚机制，更进一步在多尺度特征上进行回归，实现更精准的物体检测定位。另外，还有一种性能突出的单阶段结合难例挖掘和多尺度网络的目标检测方法(RetinaNet)，此方法利用特征金字塔多尺度网络对图片提取特征，直接与真实标注回归物体类别与位置，并且在损失函数中设计聚焦机制，在学习过程中更关注于对难例的学习。

总之，检测的新方法层不出穷，以上提到的现有技术主要专注于从精度速度上考虑使得性能得以提升。但是这些检测方法对于检测到的物体都是用横平竖直的矩形框来描述，仍然不能完美的应用于更多实际的任务，例如对于场景文字的检测，各个不同方向人脸的检测等等。

发明内容

针对上述问题，本发明公开了一种多角度物体检测方法，包括：以深度神经网络构建检测模型；对训练图提取特征以获得多个特征图，设置多个垂直矩形锚框，获取该垂直矩形锚框与该训练图的样本物体的相交比，并以该相交比大于正例阈值的垂直矩形锚框标记为该训练图的样本物体的正例；通过该特征图对每个该正例进行回归预测，获取该样本物体的倾斜椭圆锚框的特征参数，以对该检测模型进行学习；以该检测模型检测目标图，获取该目标图中样本物体的倾斜椭圆锚框。

本发明所述的多角度物体检测方法，通过获取该正例的外接矩形，以该外接矩形为内切矩形以获取该倾斜椭圆锚框，且该特征参数包括该倾斜椭圆锚框的类别、该倾斜椭圆锚框的角度方向和该倾斜椭圆锚框的位置偏差。

本发明所述的多角度物体检测方法，在预测该类别时，通过softmax损失函数进行学习。

本发明所述的多角度物体检测方法，在预测该角度方向时，将360°的角度周期平均划分为k个基，P_i为第i个基的权重向量，该深度神经网络通过smoothL1损失函数对权重向量P_i进行学习预测，以推断该倾斜椭圆锚框的倾斜角度θ：

其中，

i、k为正整数，i<k，-90°≤θ≤90°。

本发明所述的多角度物体检测方法，在预测该位置偏差时，通过smoothL1损失函数对该正例的形状参数进行学习预测，以获得该倾斜椭圆锚框的长轴a和短轴b：

其中，该正例的形状参数包括w和h，w为该正例的长，h为该正例的宽，且a≥b。

本发明还公开了一种多角度物体检测系统，包括：

模型构建模块，用于以深度神经网络构建检测模型；

正例获取模块，用于获取训练图中样本物体的正例；其中对该训练图提取特征以获得多个特征图，设置多个垂直矩形锚框，获取该垂直矩形锚框与该训练图的样本物体的相交比，并以该相交比大于正例阈值的垂直矩形锚框标记为该正例；

模型训练模块，用于通过该特征图对每个该正例进行回归预测，获取该样本物体的倾斜椭圆锚框的特征参数，以对该检测模型进行学习；

目标检测模块，用于以该检测模型检测目标图，获取该目标图的样本物体的倾斜椭圆锚框。

本发明所述的多角度物体检测系统，通过获取该正例的外接矩形，以该外接矩形为内切矩形以获取该倾斜椭圆锚框，且该特征参数包括该倾斜椭圆锚框的类别、该倾斜椭圆锚框的角度方向和该倾斜椭圆锚框的位置偏差。

本发明所述的多角度物体检测系统，其中，该模型训练模块包括：

类别训练模块，用于在预测该类别时，通过softmax损失函数进行学习；

角度训练模块，用于在预测该角度方向时，将360°的角度周期平均划分为k个基，P_i为第i个基的权重向量，该深度神经网络通过smoothL1损失函数对权重向量P_i进行学习预测，以推断该倾斜椭圆锚框的倾斜角度θ：

其中，

i、k为正整数，i<k，-90°≤θ≤90°；

位置训练模块，用于在预测该位置偏差时，通过smoothL1损失函数对该正例的形状参数进行学习预测，以获得该倾斜椭圆锚框的长轴a和短轴b：

附图说明

图1是本发明实施例的多角度物体检测方法流程图。

图2是本发明实施例的特征金字塔网络获取特征图及锚机制示意图。

图3是本发明实施例的正例、外接矩形及倾斜椭圆锚框示意图。

图4是本发明实施例的多角度物体检测结果示意图

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明提出的多角度物体检测方法及系统进一步详细说明。应当理解，此处所描述的具体实施方法仅仅用以解释本发明，并不用于限定本发明。

针对物体检测问题，本发明提供了一种新的支持多角度物体的检测方法与系统，以支持对待平面内不同旋转角度的物体，能够检测到物体，给定物体位置大小，方向以及类别。本发明的多角度物体检测方法在前端采用特征金字塔深度网络为输入图片提取不同尺度的特征；根据特征图的尺度大小，将图片进行网格化，每个网格设定9种大小不同，长宽比不同的锚框。根据图片中的物体标签，事先计算每个锚框属于正例或负例，如果是正例，将计算与真实物体位置的位置大小偏移和角度偏差。在后端网络中，每个不同尺度的特征图对应预测三个子任务，分别对应各个锚框与真实标签的类别回归，位置及大小回归和角度回归。

图1是本发明实施例的多角度物体检测方法流程图。如图1所示，本发明的多角度物体检测方法具体包括：

步骤S1，基于目前主流的深度学习网络架构，端到端设计可学习的检测模型；

步骤S2，图像特征提取，即对训练图提取特征以获得多个特征图，设置多个垂直矩形锚框，获取该垂直矩形锚框与该训练图的样本物体的相交比，并以该相交比大于正例阈值的垂直矩形锚框标记为该训练图的样本物体的正例；

深度神经网络具有很强的特征抽象能力，能够对图像提取出富含语义信息的特征表示。图2是本发明实施例的特征金字塔网络获取特征图及锚机制示意图。如图2的上半部分所示，本发明采用特征金字塔网络，训练图引入后，对训练图进行分辨率缩放后获得特征图，于本发明的实施例中，每一层特征图均为前一层特征图的分辨率缩放两倍后所获得，具体引入方法采用对应点相加的操作，这样每一层预测所用的特征图都融合了不同分辨率、不同语义强度的特征，融合后的不同分辨率的特征图分别执行对应分辨率大小的物体检测，这样保证了每一层特征图都有合适的分辨率以及强语义特征；

获得多层不同分辨率的特征图后，根据每层特征图的长宽大小，相当于对训练图的原图片进行网格化，并在每个网格上产生多个垂直矩形锚框。请再次参阅图2。如图2下半部分所示，本发明采用的锚机制包括3类面积和3类长宽比，共9类不同形状的垂直矩形锚框。每个垂直矩形锚框和原图所有类别的物体的位置进行比对，若与训练图中的样本物体(正例物体)的相交比大于0.7则垂直矩形锚框记为当前类物体的正例，若与所有类别物体相交比小于0.3则记为负例(背景)。对于定义为正例的垂直矩形锚框，事先计算该垂直矩形锚框与样本物体位置偏差，并在学习过程中为这个垂直矩形锚框对这个位置偏差进行回归。

步骤S3，通过该特征图对每个定义为正例的垂直矩形锚框进行回归预测，获取样本物体的倾斜椭圆锚框的位置特征参数，通过该特征图对每个定义为正例的垂直矩形锚框进行回归预测，获取样本物体的倾斜椭圆锚框的位置特征参数，结合物体倾斜度预测，以对该检测模型进行学习；本发明不再利用传统的水平矩形框来描述物体，而是应用带有角度参数的倾斜椭圆锚框(椭圆)或倾斜矩形锚框(椭圆的内切矩形)来描述图中的物体，这里涉及到的椭圆参数有中心点(x,y)，长短轴(a,b)，倾斜角度θ，同时为了唯一确定一个椭圆表达，约束a≥b，-90°≤θ≤90°；通过步骤S2，分别得到了多个分辨率大小不同的特征图，和每个特征图对应所有垂直矩形锚框锚框的标签；在回归预测中，将每个特征图对应做3个子任务，分别是预测倾斜椭圆锚框的类别，角度方向和位置偏差；

与一般检测任务不同，本发明的多角度物体检测方法中，学习的是倾斜椭圆锚框的椭圆参数以及类别参数，椭圆参数带有角度且具有约束，如果直接暴力的回归，方法效果较差。针对角度的预测，其实角度是一个具有周期性的变量，在这里主方向处于-90°和90°之间，所以在学习过程中，将角度变量转换一个周期性的权重向量来表达，对权重向量来进行回归；针对长短轴的预测，长轴a对应可能是训练图中水平的方向，也可能是竖直方向或者倾斜方向，直接回归无疑会很困难，在学习过程中，将长短轴间接转换为一个垂直矩形锚框的外接矩形，在预测时，回归这个外接矩形的长和宽，再利用预测的角度，将这个外接矩形作为倾斜椭圆锚框的内切矩形计算相应长短轴；具体来说，步骤S3中的回归预测的3个子任务具体包括：

倾斜椭圆锚框的类别预测：采用softmax损失函数进行学习；

倾斜椭圆锚框的角度方向预测：将倾斜椭圆锚框的角度θ转换为一个具有周期性的权重向量P，转换公式包括：

将360°的角度周期平均划分为k个基，以P_i为第i个基的权重向量，深度神经网络通过smoothL1损失函数对权重向量P_i进行学习预测，

i、k为正整数，i<k；

当得到预测后的权重向量P后，相应角度θ计算公式如下：

权重向量P的学习采用检测中常用的smooth L1的损失函数，这种将角度θ转换为权重向量P的学习的好处是能够在学习过程中满足角度回归具有周期性的特性；

倾斜椭圆锚框的位置偏差预测：对于锚框的位置偏差，学习的是倾斜椭圆锚框的长短轴(a,b)和位置中心(x,y)偏差，同样采用smooth L1损失函数进行学习，图3是本发明实施例的正例、外接矩形及倾斜椭圆锚框示意图。如图4所示，样本物体的正例为垂直矩形锚框，垂直矩形锚框的形状参数包括长和宽，其中长为w，宽为h，倾斜椭圆锚框的长轴为a，短轴为b，倾斜角度为θ，垂直矩形锚框与倾斜椭圆锚框的对应关系为：

在测试过程中，椭圆长短轴a,b由预测得到的矩形长宽w,h和角度θ推导，公式如下：

步骤S4，目标图中的物体检测；在实际检测时，给定一张静态的目标图，通过检测模型输出目标图的各种可能存在物体的不同方向的倾斜椭圆锚框，并用常用的物体检测筛选算法选出置信度较高的倾斜椭圆锚框作为结果框输出，采用本发明的多角度物体检测方法所获得的检测结果如图4所示，图中的检测实例用椭圆框进行勾勒，能够清楚看出平面内的物体主要朝向，并相应给出了实例的类别以及置信度，例如图4中，进行滑板运动的人被标识为person，置信度为0.932437，滑板被标识为skateboard，置信度为0.746658，而障碍物被标识为boat，置信度为0.515789。

本发明提出利用带有角度的矩形或者椭圆来描述检测到的物体，对在二维平面上各个方向的物体都能够紧致的表达带有倾斜度的描述。这样多角度物体的检测方法不同于传统矩形框的描述，相比更加紧致，更符合人类的焦点。同时这种椭圆描述能够更广泛应用于实际任务，例如对地航拍图像中，紧致确切的表达各个方向的车辆检测；对于自然场景中，文字大部分也是都倾斜的，本发明能够更精确的表达文字位置与方向，同样对于各个不同方向人脸的检测也非常具有实用意义。

Claims

1.一种多角度物体检测方法，其特征在于，包括：

以深度神经网络构建检测模型；

对训练图提取特征以获得多个特征图，设置多个垂直矩形锚框，获取该垂直矩形锚框与该训练图的样本物体的相交比，并以该相交比大于正例阈值的垂直矩形锚框标记为该训练图的样本物体的正例；

通过该特征图对每个该正例进行回归预测，获取该样本物体的倾斜椭圆锚框的特征参数，以对该检测模型进行学习；

以该检测模型检测目标图，获取该目标图中物体的倾斜椭圆锚框。

2.如权利要求1所述的多角度物体检测方法，其特征在于，通过获取该正例的外接矩形，以该外接矩形为内切矩形以获取该倾斜椭圆锚框，且该特征参数包括该倾斜椭圆锚框的类别、该倾斜椭圆锚框的角度方向和该倾斜椭圆锚框的位置偏差。

3.如权利要求2所述的多角度物体检测方法，其特征在于，在预测该类别时，通过softmax损失函数进行学习。

4.如权利要求2所述的多角度物体检测方法，其特征在于，在预测该角度方向时，将360°的角度周期平均划分为k个基，P_i为第i个基的权重向量，该深度神经网络通过smoothL1损失函数对权重向量P_i进行学习预测，以推断该倾斜椭圆锚框的倾斜角度θ：

其中，

i、k为正整数，i≤k，-90°≤θ≤90°。

5.如权利要求4所述的多角度物体检测方法，其特征在于，在预测该位置偏差时，通过smoothL1损失函数对该正例的形状参数进行学习预测，以获得该倾斜椭圆锚框的长轴a和短轴b：

6.一种多角度物体检测系统，其特征在于，包括：

模型构建模块，用于以深度神经网络构建检测模型；

目标检测模块，用于以该检测模型检测目标图，获取该目标图中物体的倾斜椭圆锚框。

7.如权利要求6所述的多角度物体检测系统，其特征在于，通过获取该正例的外接矩形，以该外接矩形为内切矩形以获取该倾斜椭圆锚框，且该特征参数包括该倾斜椭圆锚框的类别、该倾斜椭圆锚框的角度方向和该倾斜椭圆锚框的位置偏差。

8.如权利要求7所述的多角度物体检测系统，其特征在于，该模型训练模块包括类别训练模块，用于在预测该类别时，通过softmax损失函数进行学习。

9.如权利要求7所述的多角度物体检测系统，其特征在于，该模型训练模块包括角度训练模块，用于在预测该角度方向时，将360°的角度周期平均划分为k个基，P_i为第i个基的权重向量，该深度神经网络通过smoothL1损失函数对权重向量P_i进行学习预测，以推断该倾斜椭圆锚框的倾斜角度θ：

其中，

i、k为正整数，i≤k，-90°≤θ≤90°。

10.如权利要求9所述的多角度物体检测系统，其特征在于，该模型训练模块包括位置训练模块，用于在预测该位置偏差时，通过smoothL1损失函数对该正例的形状参数进行学习预测，以获得该倾斜椭圆锚框的长轴a和短轴b：