CN115223107A

CN115223107A - 一种贴合运动目标检测框的检测方法

Info

Publication number: CN115223107A
Application number: CN202110425514.1A
Authority: CN
Inventors: 阮雅端; 王禹曦; 赵冉; 唐正东; 陈启美
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2022-10-21

Abstract

一种贴合运动目标检测框的检测方法，构建改进Faster‑RCNN深度学习网络，通过回归目标角度信息得到带有目标运动方向角度信息的旋转目标检测框，设置不同的角度来控制提取候选目标区域，对视频监控图像进行检测。本发明将任意方向的目标角度信息引入深度学习目标检测任务并加以改进，可更好地定位目标位置并生成更加贴合目标边缘的旋转目标检测边界框表征目标。

Description

一种贴合运动目标检测框的检测方法

技术领域

本发明属于基于深度学习的视频检测技术领域，涉及目标检测领域，为一种贴合运动目标检测框的检测方法。

背景技术

目前，目标检测技术已经被广泛应用于各个领域，在智能交通系统(IntelligentTransportation System，ITS)中，高速运转的城市道路交通、轨道交通、城际高速交通等路面交通系统以及内河航道水路交通的日益繁忙使其智能化与信息化发展显得尤为重要。通过基于深度学习的计算机视觉技术感知交通系统中运动目标速度、目标尺寸信息与流量等交通流量参数，监测实时交通情况，对目标运动情况与异常行为自动进行视频检测与分析，包括逆行、违法停靠等高危事件，对保障交通安全性与高效性具有重要意义。

深度学习卷积神经网络通过学习带标签的已标注数据集的图像特征，训练生成并完善自己的模型。Faster-RCNN是一种两阶段目标检测方法，此方法用过一个区域候选网络RPN来提取目标的特征信息，大大减少了生成建议框proposal的数量，因此较先前的RCNN、Fast-RCNN等深度学习网络具有更快的检测速度，是一种端到端的目标检测算法。虽然较其他单阶段目标检测方法的速度略有不足，但其具有更高的检测精度。

Faster-RCNN模型通过回归目标的位置信息与类别进行目标检测，使用两个坐标信息定位矩形的左上角与右下角来确定一个矩形边界框定义检测到的目标位置，再回归该边界框的参数来对目标进行进一步的定位，该方法对于简单的目标检测任务是高效和准确的，但对于其他例如船舶、车辆等任意方向的运动目标是不准确的，对于其他一些密集型目标甚至会出现将多个目标合并检测为一个目标的问题。

发明内容

本发明针对先前提出的技术的不足，提供了一种贴合运动目标检测框的检测方法。此方法通过将任意方向的运动目标图像输入网络进行相关信息提取，使用改进的Faster-RCNN目标检测算法对训练集进行训练，最终在测试集中完成任意角度的目标的检测。

本发明的技术方案为：一种贴合运动目标检测框的检测方法，构建改进Faster-RCNN深度学习网络，通过回归目标角度信息得到带有目标运动方向角度信息的旋转目标检测框，对视频监控图像进行检测，包括以下部分：

1)构建改进Faster-RCNN深度学习网络，基于Faster-RCNN网络，在区域候选网络RPN提取候选框时，首先根据所有候选框的位置得分置信度将所有候选框排序，在此基础上，若候选框的分类得分更高，则将该候选框往前排，最终选取前N个候选框，在refine后将结果传递到后续网络中，再使用位置关联的非极大值抑制NMS筛选目标检测结果；

2)基于构建的改进Faster-RCNN深度学习网络，设置回归目标角度信息，进行训练：

2.1)提取训练集图像中目标的位置信息与角度信息：将检测目标表征为一个7维向量{x₁,y₁,x₂,y₂,h,θ}，x表示检测目标的水平方向坐标，y表示检测目标的垂直方向坐标，(x₁,y₁),(x₂,y₂)分别表示检测目标的左上角与右上角坐标信息，h表示检测目标的宽度，θ表示测目标的倾斜角度信息，得到带角度信息的anchor，其中在生成候选框时，根据目标运动方向设置N个角度来控制提取候选框的区域；根据已知训练集图像目标设置三组anchorbox大小，生成3个边界检测框，最终得到3*3*N个anchor box与检测目标位置区拟合，检测目标位置区指训练集中已经标注好的用于训练的目标真实位置；

2.2)设置损失函数：

首先进行正负样本判定：当anchor box与groudtruth间的交并比IOU>0.7且与groudtruth的角度夹角<π/12时，判定为正样本；IOU<0.3或IOU>0.7但anchor box与groudtruth间的角度夹角>π/12时，判定为负样本；

设置RPN损失函数：

L(p,t,v,v^*,u,u^*)＝L_cls(p,t)+λ₁t∑_{i∈(x,y,w,h)}L_reg(v_i,v_i ^*)+λ₂t∑_{i∈(x1,y1,x2,y2,h,θ)}L_reg(u_i,u_i ^*) (1)

式中，i表示预测的边框的索引，p表示预测边框内为目标与背景类别之间的概率，t表示类标签的索引，t＝1时表示目标标记，t＝0时表示背景标记，L_cls(p,t)表示是否有目标的二分类损失，v＝(v_x，v_y，v_w，v_h)表示水平边界框中心坐标及宽高信息的真实值，

表示相应预测的水平边界框的信息，同理，u表示倾斜最小面积边界框的左上角与右上角坐标及高度信息的真实值，u^*表示与之相对应的预测的倾斜最小面积边界框的信息，L_reg(v_i,v_i ^*)表示水平检测框的回归损失，L_reg(u_i,u_i ^*)表示倾斜检测框的回归损失，水平检测框与倾斜检测框均使用smooth_l1函数，λ₁，λ₂为权值参数；

2.3)结合训练集图像中目标的位置信息与角度信息，以及损失函数，迭代训练改进Faster-RCNN深度学习网络；

2.4)利用步骤2.3)训练得到的改进Faster-RCNN深度学习网络，对待测图像进行检测。

本发明可充分利用现有视频监控设备与大量视频数据，以较低成本的投入获得更加丰富与直观的交通数据，满足ITS中的信息化要求。

由于传统的目标检测任务中的正矩形检测框不适用于船舶等任意角度运动目标的检测，正矩形检测框不能贴合含有角度方向的目标，不能正确标记目标位置信息，尤其是多目标相邻近时，虽然目标本身没有重叠，但由于检测框不能贴合目标角度，检测框之间会发生重叠，甚至会出现将多个目标合并检测为一个目标的问题。本发明建立了基于改进的Faster-RCNN的带角度信息的检测模型，利用一个新的区域建议方法获取更加准确的候选框，以次更加准确地定位目标。同时在检测过程中引入目标相关角度信息，可检测并生成带有角度信息的旋转矩形框，在实际的视频监控场景下，该旋转检测框将更好地贴合目标边缘，为后续目标精确尺寸的获取提供帮助。

本发明移动终端检测点为视频监控设备摄备，因其成本低、易安装的特性，可大范围部署，实时检测运动目标信息并传输至控制中心，为交通管理提供帮助。

附图说明

图1为本发明一种贴合运动目标检测框的检测流程图。

图2为本发明应用于实际内河航道场景下的船舶目标检测效果图。

具体实施方式

本发明将任意方向的目标角度信息引入深度学习目标检测任务并加以改进，可更好地定位目标位置并生成更加贴合目标边缘的旋转目标检测边界框表征目标。

考虑到原Faster-RCNN在目标区域定位方面仍有不足，在区域候选网络RPN部分，本发明引入了一个新的区域建议，更加注重生成的anchor与ground truth之间的位置关系，再使用位置关联的非极大值抑制NMS(Non-Maximum Suppression)筛选目标检测结果。且原Faster-RCNN网络中anchor的设置无法适用于引入角度信息后的目标检测任务，因此采用了新的anchor box生成策略，设置不同的角度来控制提取候选目标区域。目标检测中，anchor表示锚点，anchor box是锚框，表示固定的参考点和参考框，ground truth表示有监督学习的训练集的分类准确性，用于证明或者推翻某个假设。

本发明提出了基于改进的深度卷积神经网络Faster-RCNN的带角度信息的目标检测，贴合运动目标的旋转方向，移动终端检测点采用视频监控摄像头，移动终端检测点通过摄像头获取图像信息，利用卷积神经网络对获取的图像进行分析，识别并定位目标。最终将生成带角度信息的旋转目标检测边界框来表征目标，为后续其他目标信息相关检测提供支持。

结合图1，本发明的目标检测具体实现包括以下步骤：

Step1：准备训练数据，提取训练集图像中目标的位置信息与角度信息。首先处理训练及图像，将检测目标表征为一个7维向量{x₁,y₁,x₂,y₂,h,θ}。其中，x表示检测目标的水平方向坐标，y表示检测目标的垂直方向坐标，(x₁,y₁),(x₂,y₂)分别表示检测目标的左上角与右上角坐标信息，h表示检测目标的宽度，θ表示检测目标的倾斜角度信息，得到带角度信息的anchor；

Step2：构建改进Faster-RCNN深度学习网络，在Faster-RCNN的基础上，将RPN网络中使用NMS筛选候选框做区域候选建议的过程去除，使用一个新的区域建议，更加注重生成的anchor与ground truth之间的位置关系，使位置精确的目标候选框更多地传递到后续网络中去。首先在区域候选网络RPN提取候选框时，根据所有生成的候选框的位置得分置信度将所有候选框排序，在此基础上，若候选框的分类得分更高，则将该候选框往前排，最终选取前N个候选框，即先进行位置得分排序，再对排序结果进行分类得分排序，这样使最终的结果更注重于目标位置。在refine后将结果传递到后续网络中，因此获得的区域建议region proposal将更具表征目标位置的能力，给后续网络提供了更加准确的目标位置。

继而再使用改进的位置相关的NMS算法，避免密集场景下多目标靠近时因IOU过大，被原NMS直接删除检测框导致漏检问题的出现。改进的NMS算法：

式中s_i为第i个候选框的二分类得分置信度，按照索引i依次更新s_i的值，s_i′表示对应更新的值，b_max表示置信度最高的候选框位置，b_i表示第i个候选框的位置，IoU(·)表示两个候选框区域的交并比，δ表示设定的尺度参数，δ的值按照实际应用场景下目标的大小，通过调试网络设定。

Step3：针对旋转目标设置检测时的anchor box。带角度信息的anchor共需要考虑54个可能的region proposal生成方案，所以考虑三个尺度的region proposal面积，分别为512*512，256*256，128*128，与原Faster-RCNN中的PRN网络保持一致。继而得到三个region proposal的长宽比，分别为1∶1，1∶3，1∶5，生成3个边界检测框，在anchor的角度生成方案中，考虑实际场景下的视频监控摄像头布设位置，将运动方向角度调整至

对于候选框的生成，设置六个角度

来控制提取候选框的区域，最终得到3*3*6个anchor box与检测目标位置区拟合，检测目标位置区是指训练集中已经标注好用于训练的目标真实位置，用于深度学习网络学习生成更加准确的候选框。

Step4：设置损失函数。在网络的角度回归中将拟合区域设置为

即可完全覆盖目标运动方向角度区间。首先进行正负样本判定：当anchor box与groudtruth间的交并比IOU>0.7且与groudtruth的角度夹角<π/12时，判定为正样本；IOU<0.3或IOU>0.7但anchor box与groudtruth间的角度夹角>π/12时，判定为负样本。

本发明改进Faster-RCNN中，RPN的训练loss函数与原Fater-RCNN算法相同，修改边框回归损失函数，将其修改为任意方向的目标水平边界框loss与倾斜最小面积边界框loss，最终定义loss函数为：

式中i表示预测的边框的索引，p表示预测边框内为目标与背景类别之间的概率，t表示类标签的索引，t＝1时表示目标标记，t＝0时表示背景标记，L_cls(p,t)表示是否有目标的二分类损失，v＝(v_x，v_y，v_w，v_h)表示水平边界框中心坐标及宽高信息的真实值，

表示相应预测的水平边界框的信息，同理，u表示倾斜最小面积边界框的左上角与右上角坐标及高度信息的真实值，u^*表示与之相对应的预测的倾斜最小面积边界框的信息，L_reg(v_i,v_i ^*)表示水平检测框的回归损失，L_reg(u_i,u_i ^*)表示倾斜检测框的回归损失，水平检测框与倾斜检测框均使用smooth_l1函数，λ₁，λ₂为权值参数。

用(m,m^*)表征(v_i,v_i ^*)，(u_i,u_i ^*)，则L_reg(m,m^*)定义为：

L_reg(m,m^*)＝smooth_L1(m-m^*) (3)

Step5：结合训练集图像中目标的位置信息与角度信息，以及损失函数，迭代训练改进Faster-RCNN深度学习网络，迭代500000次，学习率learning rate为0.001，权重decays为0.0005,动量momentums为0.9。

Step6：利用step5中训练得到的改进Faster-RCNN深度学习网络，对测试集图像进行测试，验证检测结果。

图2(a)(b)分别展示了部分应用于实际内河航道场景下的贴合船舶运动目标检测框的效果图，可见本发明的检测目标框能够贴合运动目标，随目标的旋转而旋转角度，每个目标框都能贴合目标具有对应的角度，有利于后续目标精确尺寸的获取，图2(b)中相邻近的目标也能够被独立标出，不会产生重叠。

Claims

1.一种贴合运动目标检测框的检测方法，其特征是构建改进Faster-RCNN深度学习网络，通过回归目标角度信息得到带有目标运动方向角度信息的旋转目标检测框，对视频监控图像进行检测，包括以下部分：

2.1)提取训练集图像中目标的位置信息与角度信息：将检测目标表征为一个7维向量{x₁,y₁,x₂,y₂,h,θ}，x表示检测目标的水平方向坐标，y表示检测目标的垂直方向坐标，(x₁,y₁),(x₂,y₂)分别表示检测目标的左上角与右上角坐标信息，h表示检测目标的宽度，θ表示测目标的倾斜角度信息，得到带角度信息的anchor，其中在生成候选框时，根据目标运动方向设置N个角度来控制提取候选框的区域；根据已知训练集图像目标设置三组anchor box大小，生成3个边界检测框，最终得到3*3*N个anchor box与检测目标位置区拟合，检测目标位置区指训练集中已经标注好的用于训练的目标真实位置；

2.2)设置损失函数：

设置RPN损失函数：

2.根据权利要求1所述的一种贴合运动目标检测框的检测方法，其特征是步骤1)的位置关联的非极大值抑制NMS具体为：

式中s_i为第i个候选框的二分类得分置信度，按照索引i依次更新s_i的值，s_i′表示对应更新的值，b_max表示置信度最高的候选框位置，b_i表示第i个候选框的位置，δ表示尺度参数，IoU(·)表示两个候选框区域的交并比。