CN109934848B

CN109934848B - 一种基于深度学习的运动物体精准定位的方法

Info

Publication number: CN109934848B
Application number: CN201910173592.XA
Authority: CN
Inventors: 刘宇红; 何倩倩; 张荣芬; 林付春; 马治楠; 王曼曼
Original assignee: Guizhou University
Current assignee: Guizhou University
Priority date: 2019-03-07
Filing date: 2019-03-07
Publication date: 2023-05-23
Anticipated expiration: 2039-03-07
Also published as: CN109934848A

Abstract

本发明公开了一种基于深度学习的运动物体精准定位的方法，按下述步骤进行：a.获取待检测的视频序列及对应的深度图；b.采用darknet‑yolo‑v3对视频序列中运动目标进行检测并标识出标识框；c.与深度图中的景深信息相结合，采用Opencv的相关函数在深度图中查找轮廓，并将包围轮廓的矩形边界绘制出来，从而得到一个感兴趣区域的矩形；d.计算出标识框面积、标识框中心点及矩形面积、矩形中心点；e.将所述标识框面积、标识框中心点及矩形面积、矩形中心点进行匹配，当二者在预设阈值范围内匹配时，标识框位置为运动目标所在的位置。本发明能够避免“空洞”现象的产生，且实时性强、识别准确率高。

Description

一种基于深度学习的运动物体精准定位的方法

技术领域

本发明涉及运动物体定位方法，特别是一种基于深度学习的运动物体精准定位的方法。

背景技术

运动目标检测是指通过计算机视觉的方法减除视频中时间和空间上的冗余信息，有效地提取出发生空间位置变化的物体的过程。对此方向的研究一直都是计算机视觉领域的重要研究课题。在视频流中检测运动目标时，对运动的物体进行精准定位在计算机视觉研究领域中成为了最具挑战的研究方向，且它涉及到目前很多前沿的学科，例如：深度学习、图像处理、模式识别等，与这些学科相结合更是成为了研究热点。

在很多场景中，如在高铁站、机场、大型商场等重要的大型场所的安保监控系统中，怎么从摄像头中找到感兴趣的物体，并能准确地定位其位置是该系统中一大难点，若这个问题能够很好地解决，那么将会大大减轻人为劳动量，能够有效地提高监控系统和定位的效率和准确率。在机器人领域中，比如在乒乓球机器人陪练机中，如何检测到乒乓球的位置也是其中一个重点。在视觉导航领域，目标检测与定位是无人飞行器、视觉机器人、自主驾驶汽车等多种智能应用终端的核心关键技术服务。甚至在医学图像的处理中，运动目标物体检测、精准定位并结合跟踪的衍生技术也可以得到深入的运用，比如：在肺部CT图像序列中伴随着患者自主呼吸运动的肿瘤组织实时跟踪等。目前有研究者提出采用帧差法的思想来提取运动目标，在这种方法中，如果视频的图像序列两帧中物体的运动幅度较大时，两帧间会出现明显的差别；通过两帧图像序列做差分运算，采用一定的阈值来判断在视频序列中是否有移动的物体。这种方法易理解、速度快，但是该方法只能得到运动目标的轮廓，不能检测出运动物体的所有像素点，从而导致了“空洞”现象的产生。针对此方法的不足之处，有研究者提出利用背景建模的运动目标检测。先将“干净的”背景进行建模，再用背景减除法对运动的目标与背景进行分类。此方法较为精巧，但计算量大，从而导致实时性下降，这对于一些实时性要求高的系统就无法满足其需求。目前也有研究人员提出光流法，但大多数的光流法计算相当的复杂，且抗噪声性能差，如果没有特别的硬件装置则不能被应用于全帧的视频流实时处理。

发明内容

本发明的目的在于，提供一种基于深度学习的运动物体精准定位的方法。本发明能够避免“空洞”现象的产生，且实时性强、识别准确率高。

本发明的技术方案：一种基于深度学习的运动物体精准定位的方法，按下述步骤进行：

a.获取待检测的视频序列及对应的深度图；

b.采用darknet-yolo-v3对视频序列中运动目标进行检测并标识出标识框；

c.与深度图中的景深信息相结合，采用Opencv的相关函数在深度图中查找轮廓，并将包围轮廓的矩形边界绘制出来，从而得到一个感兴趣区域的矩形；

d.计算出标识框面积、标识框中心点及矩形面积、矩形中心点；

e.将所述标识框面积、标识框中心点及矩形面积、矩形中心点进行匹配，当二者在预设阈值范围内匹配时，标识框位置为运动目标所在的位置。

前述的基于深度学习的运动物体精准定位的方法所述步骤b中，darknet-yolo-v3对视频序列中运动目标进行检测并标识出标识框前，先收集运动目标的数据集并进行标注，使用该标注的数据集对darknet-yolo-v3进行训练。

前述的基于深度学习的运动物体精准定位的方法中，所述的数据集在对darknet-yolo-v3进行训练前，先对数据集中的图片进行增强处理并将图像大小调整一致。

前述的基于深度学习的运动物体精准定位的方法中，所述的数据集对darknet-yolo-v3的训练如下：

将输入的数据集的图像分成S*S网格；

当运动目标groundtruth的中心坐标落到S*S中的某一格子中时，该格子就检测这个运动目标；

S*S网格中的每个格子预测出B个bounding box、置信度及属于运动目标的概率；

选择B个bounding box中，与groundtruth的交并比最大的bounding box来预测运动目标；

则预测对应：

b_x＝σ(t_x)+c_x (1)

b_y＝σ(t_y)+c_y (2)

式中，其中c_x，c_y是网格的坐标偏移量，p_w,p_h分别是边界先验框宽和高；b_x,b_y,b_w,b_h是预测边框的中心坐标和宽高，t_x,t_y,t_w,t_h是要学习的参数，分别用于预测边框的中心坐标b_x和b_y、框的高b_h和宽b_w，σ是sigmoid函数。

前述的基于深度学习的运动物体精准定位的方法中，所述的数据集对darknet-yolo-v3的训练，采用3种尺度进行3种box预测：

尺度1，在特征提取网络后添加一些卷积层，输出张量；

尺度2，对尺度1的倒数第二层卷积层上采样*2，再与最后一个16*16分辨率的特征图逐点相加，再接上一些卷积层，输出张量，比尺度1增加2倍；

尺度3：类比尺度2，使用32*32大小的特征图。

前述的基于深度学习的运动物体精准定位的方法所述步骤a中，深度图采用小觅双目深度摄像头获取。

前述的基于深度学习的运动物体精准定位的方法中，所述的深度图的景深信息按下述公式获取：

Z＝fb/d

式中，Z为深度值，d为视差，f为相机焦距，b为两个相机光圈之间的中心距。

前述的基于深度学习的运动物体精准定位的方法所述步骤c具体按下述步骤进行：

c1.采用Opencv中的findContours()函数寻找轮廓；

c2.采用Opencv的boundingRect()函数创建包围轮廓的矩形边界，得到感兴趣区域的矩形。

有益效果

与现有技术相比，本发明采用darknet-yolo-v3网络对运动目标(如人体)进行检测并标识出标识框，同时通过对每帧视频序列的深度图的实时读取，与深度图中的景深信息相结合，计算相同距离的像素点，从而得到一个感兴趣区域的矩形，从而对运动目标(如人体)位置进行精准的定位。计算矩形的面积和中心点，对比通过darknet-yolo-v3检测得到的标识框的矩形面积和其中心点判断是否匹配来定位运动目标的准确位置；通过该方法，将深度学习技术与深度摄像头获取到的景深信息分析相结合，采用YOLO-V3算法完成运动人体的检测与识别，不同于现有的帧差法对运动物体目标的检测，避免了检测的对象之间容易的出现空洞问题导致无法提取出完整的目标区域，其识别准确率达到99％。

本发明通过对每帧视频序列的深度图的实时读取，实现了运动目标的实时定位，其实时性高。

本发明基于darknet-YOLO-V3框架上实现，采用多尺度预测(3个尺度)的方式结合darknet-53特征提取网络实现在速度及准确率的提升，采用YOLO层进行特征的局部交互，将视频画面中的人体进行检测并与深度图像相结合实现精准定位。

本发明能够改善采用深度学习模型检测出来的标识框对人体目标因人体动作、体态的变化无法将人体准确框住，从而导致中心点及面积对同一目标同一体态却产生不同形式的抖动的问题。为了在准确定位的基础上采用中心点坐标或面积进行跟踪时，针对在检测同一人体目标时，采用深度学习检测出的标识框会根据人体的不同体态以及走路的步伐等问题导致中心点及标识框的抖动问题。解决这一问题的较好的方法为在视频目标范围内找到一个与深度学习检测的标识框无关的坐标点来对目标进行跟踪，这仅用深度学习的方法对目标进行定位检测是无法达到的。而本发明将深度学习检测到的标识框和深度图中的景深信息相结合，弥补了深度学习检测目标定位时的准确度的问题，同时也提升了目标检测定位的准确性。

综上，本发明能够避免“空洞”现象的产生，且实时性强、识别准确率高。

附图说明

图1是本发明目标精准定位的框图；

图2是Darknet-yolo-v3网络检测运动目标的网络框架图；

图3是本发明目标精准定位的算法流程图；

图4是双目相机模型及几何模型图；

图5是深度图像中的矩形边界的矩形面积与中心点对应图；

图6(a)是loss值变化曲线图,图6(b)是交并比的动态变化图；

图7(a)～(c)是人体目标检测效果展示图。

具体实施方式

下面结合附图和实施例对本发明作进一步的说明，但并不作为对本发明限制的依据。

实施例1。一种基于深度学习的运动物体精准定位的方法，如图1-5所示，按下述步骤进行：

a.获取待检测的视频序列及对应的深度图；

前述的步骤b中，darknet-yolo-v3对视频序列中运动目标进行检测并标识出标识框前，先收集运动目标的数据集并进行标注，使用该标注的数据集对darknet-yolo-v3进行训练。

数据集在对darknet-yolo-v3进行训练前，先对数据集中的图片进行增强处理并将图像大小调整一致。具体地，采用VOC2007、VOC2012数据集中的运动目标(如运动的人体)及关于运动目标自制的数据集，共计31456张图片。在进行模型训练前，对这些图像进行预处理，对作为训练集的图像进行增强处理并将图像的大小调整一样，避免因训练的图像大小及图像对比不明显等原因造成检测的准确率下降。

训练时，根据运动目标的类别(如人体)对原darknet-yolo-v3的网络参数进行修改，Darknet-yolo-v3的网络框架图如图2所示，本发明在原有yolov3上将多类物体检测转换为单类物体检测；通过该检测算法能够提高检测效果和检测速度。具体地，数据集对darknet-yolo-v3的训练如下：

将输入的数据集的图像分成S*S网格；

S*S网格中的每个格子预测出B个bounding box、置信度及属于运动目标的概率；优选地，所述的B＝3；

选择B个bounding box中，与groundtruth的交并比(IOU)最大的bounding box来预测运动目标；

则预测对应：

b_x＝σ(t_x)+c_x (1)

b_y＝σ(t_y)+c_y (2)

式中，其中c_x，c_y是网格的坐标偏移量，p_w,p_h分别是边界先验框(即预测前的bounding box)宽和高；b_x,b_y,b_w,b_h是预测边界框的中心坐标和宽高，t_x,t_y,t_w,t_h是要学习的参数，分别用于预测边框的中心坐标b_x和b_y、框的高b_h和宽b_w，σ是sigmoid函数。

bounding box信息为运动目标的中心位置相对格子位置的变化，包括偏移、宽度、高度等，都将被归一化；置信度反映的是包含人体以及运动目标为人体情况下位置的准确性。

前述的数据集对darknet-yolo-v3的训练，采用3种尺度进行3种box预测：

尺度1，在特征提取网络后添加一些卷积层，输出张量；

尺度3：类比尺度2，使用32*32大小的特征图。

本发明采用3个尺度进行3种box预测，目的是为了获取更丰富的信息和更细粒度的特征信息。在每个尺度的预测是在获取特征图后，添加几个卷积层，最后一层卷积用于预测3-d张量，张量编码bounding box的坐标信息(t_x,t_y,t_w,t_h)+物体存在置信度+类别预测值。

前述的步骤a中，深度图采用小觅双目深度摄像头获取。具体地，采用小觅双目深度摄像头来获取前端周围的景深信息。该深度摄像头使用主动双目技术，在传统双目视觉基础上，配以红外结构光辅助投影，能够获取更多的景深细节，同时对外界环境具备更灵活的适应性。

前述的深度图的景深信息按下述公式获取：Z＝fb/d；式中，Z为深度值，d为视差，f为相机焦距，b为两个相机光圈之间的中心距；

具体地，双目摄像机根据人眼原理，由左眼相机和右眼相机两个水平放置的相同规格相机组成，通过同步采集左右相机的图像，计算图像间视差，来估计每一个像素的深度；如图4双目相机模型及几何模型所示，两个相机光圈之间的距离为双目相机的基线，记作b；一个空间点P，在左眼相机和右眼相机中各自成像，记为P_L，P_R；理想情况下由于左右相机只在x轴上有位移，因此P点的像也只在轴上有差异，记它的左侧坐标为U_L，右侧坐标为U_R。根据三角形PP_LP_R和三角形PO_LO_R的相似关系有：

整理可得：

其中Z为P点的深度值，d为左右图的横坐标之差，即视差。

由此可以得到自然场景下的深度信息。另外，该深度摄像头有双目和结构光的优势，对光照可以实现自适应，对并能获取比传统的立体视觉更多的景深细节。

前述的步骤c由深度相机由深度相机可直接得到图像对应的深度图，深度图的每个像素值表示三维世界物体到相机平面的距离。通过对深度图的读取，通过Opencv中的相关函数在深度图中寻找轮廓，从而得到一个感兴趣区域的矩形。计算矩形的面积和中心点，具体按下述步骤进行：

c1.采用Opencv中的findContours()函数寻找轮廓；

findContours()函数原型如下：

findContours(InputOutputArray image,

OutputArrayOfArrays contours,OutputArray hierarchy,int mode,

int method,Point offset＝Point())；

该函数主要通过输入的灰度图或二值图像，通过设置检测轮廓的检索模式、轮廓的近似办法、轮廓点的偏移量，最后得到提取到的contours轮廓的数目。

本发明的轮廓的检索模式采用RETR_EXTERNAL，表示只检测外轮廓，包含在外围轮廓内的内围轮廓都忽略；轮廓的近似方法，取CV_CHAIN_APPROX_NONE，表示保留边界上所有连续的轮廓点到contours向量内，从而得到轮廓的数目；

c2.采用Opencv的boundingRect函数创建包围轮廓的矩形边界，得到感兴趣区域的矩形；

采用Opencv的boundingRect函数，该函数的作于在于计算轮廓的垂直边界最小矩形，矩形与图像的上下边界是平行的。

前述的矩形面积、矩形中心点的计算如下：

如图5所示，设矩形EFGH的E点坐标为(a,c)，F点的坐标为(d,c)，G点的坐标为(d,b)，H点的坐标为(a,b)，则

矩形面积的计算公式为：

S_EFGH＝(d-a)*(c-b) (7)

矩形的中心点O计算公式为：

(x,y)＝((a+(d-a)/2),(b+(c-b)/2)) (8)

前述的步骤e中，标识框面积、标识框中心点及矩形面积、矩形中心点的匹配判断如下进行：

判断两个矩形面积和中心点是否在一定阈值范围内，若在一定范围内则得到运动目标(如人体目标)的准确位置。

图6(a)是整个网络训练过程的loss值可视化图，由于采用的是监督学习的方式，loss值即为预测值和实际值的偏差，这个值越接近0说明模型的预测能力越好，从曲线的走势可以看出随着训练次数的增加，loss值不断减少接近0,图6(b)是交并比值在不同尺度上的动态变化曲线图，交并比值表达了实际物体框与预测框面积的交际与并集的比值，交并比值越接近1说明预测的准确率越高。

图7为darknet-yolo-v3训练后的测试的系列结果截图，对在移动的视频中的行人进行精准的检测。

Claims

1.一种基于深度学习的运动物体精准定位的方法，其特征在于，按下述步骤进行：

a.获取待检测的视频序列及对应的深度图；

2.根据权利要求1所述的基于深度学习的运动物体精准定位的方法，其特征在于，步骤b中，darknet-yolo-v3对视频序列中运动目标进行检测并标识出标识框前，先收集运动目标的数据集并进行标注，使用该标注的数据集对darknet-yolo-v3进行训练。

3.根据权利要求2所述的基于深度学习的运动物体精准定位的方法，其特征在于，所述的数据集在对darknet-yolo-v3进行训练前，先对数据集中的图片进行增强处理并将图像大小调整一致。

4.根据权利要求2所述的基于深度学习的运动物体精准定位的方法，其特征在于，所述的数据集对darknet-yolo-v3的训练如下：

将输入的数据集的图像分成S*S网格；

则预测对应：

b _x =σ(t _x )+c _x (1)

b _y =σ(t _y )+c _y (2)

b _w =p _w e ^tw (3)

b _h =p _h e ^th (4)

式中，其中c _x ，c _y是网格的坐标偏移量，p _w,p _h分别是边界先验框宽和高；b_x,b_y,b_w,b_h是预测边框的中心坐标和宽高，t_x,t_y,t_w,t_h是要学习的参数，分别用于预测边框的中心坐标b_x和b_y、框的高b_h和宽b_w，σ是sigmoid函数。

5.根据权利要求4所述的基于深度学习的运动物体精准定位的方法，其特征在于，所述的数据集对darknet-yolo-v3的训练，采用3种尺度进行3种box预测：

尺度1，在特征提取网络后添加一些卷积层，输出张量；

尺度3：类比尺度2，使用32*32大小的特征图。

6.根据权利要求1所述的基于深度学习的运动物体精准定位的方法，其特征在于，步骤a中，深度图采用小觅双目深度摄像头获取。

7.根据权利要求6所述的基于深度学习的运动物体精准定位的方法，其特征在于，所述的深度图的景深信息按下述公式获取：

Z=fb/d

8.根据权利要求1所述的基于深度学习的运动物体精准定位的方法，其特征在于，步骤c具体按下述步骤进行：

c1.采用Opencv中的findContours()函数寻找轮廓；