CN109035292B

CN109035292B - 基于深度学习的运动目标检测方法及装置

Info

Publication number: CN109035292B
Application number: CN201811010626.5A
Authority: CN
Inventors: 余旭; 赵雪鹏; 李党; 李志国; 朱明�; 潘晓瞳
Original assignee: Beijing Icetech Science & Technology Co ltd
Current assignee: Beijing Icetech Science & Technology Co ltd
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2021-01-01
Anticipated expiration: 2038-08-31
Also published as: CN109035292A

Abstract

本发明提供了基于深度学习的运动目标检测方法，该方法包括：输入或者采集视频图像；对视频图像进行运动目标检测，获取前景区域；对前景区域进行外扩处理，获取外扩前景区域的位置及对应的子图像；将子图像等比例缩放到固定高度，并对缩放后的子图像进行横向拼接，获取横向拼接子图像；采用经训练的深度学习目标检测模型对横向拼接图像进行目标检测，获取目标检测框，将视频图像内目标检测框映射的区域作为目标检测区域，并输出。与现有技术相比，本发明能快速地进行运动目标检测，且检测准确率高。

Description

基于深度学习的运动目标检测方法及装置

技术领域

本发明涉及图像处理、视频监控，特别涉及基于深度学习的运动目标检测方法及装置。

背景技术

目标检测是指计算机和软件系统在图像/场景中定位并识别出每个目标的能力，已广泛应用于人脸检测、车辆检测、行人计数、网络图像、安全系统和无人驾驶汽车等领域。

传统的运动目标检测方法一般采用帧差法或背景减法，但这些传统的运动目标检测方法容易受光线、环境等的影响，检测的准确率较低。

近年来，基于深度学习的检测方法(例如SSD、Yolo、Faster RCNN等)对多目标具备很好的检测效果，但是为了解决多目标检测较为宽泛尺寸的问题，往往需要较大的计算量。

综上所述，目前迫切需要提出一种检测较快的基于深度学习的运动目标检测方法。

发明内容

有鉴于此，本发明的主要目的在于快速实现运动目标检测，且检测准确率较高。

为达到上述目的，按照本发明的第一个方面，提供了基于深度学习的运动目标检测方法，该方法包括：

第一步骤，输入或者采集视频图像；

第二步骤，对视频图像进行运动目标检测，获取前景区域；

第三步骤，对前景区域进行外扩处理，获取外扩前景区域的位置及对应的子图像；

第四步骤，将子图像等比例缩放到固定高度，并对缩放后的子图像进行横向拼接，获取横向拼接子图像；

第五步骤，采用经训练的深度学习目标检测模型对横向拼接图像进行目标检测，获取目标检测框，将视频图像内目标检测框映射的区域作为目标检测区域，并输出。

进一步地，所述第三步骤包括：计算当前帧图像中第i个前景区域的宽度w_i和高度h_i，则第i个前景区域外扩处理后，获取的第i个外扩前景区域的宽度为w_i′＝αw_i、高度为h_i′＝αh_i、左上角横坐标为

左上角纵坐标为

其中x_i、y_i为第i个前景区域的横坐标和纵坐标；根据第i个外扩前景区域的宽度w_i′、高度h_i′和左上角位置的坐标(x_i′,y_i′)，从当前帧图像中获取对应位置的矩形区域图像作为第i个子图像。

进一步地，所述第四步骤包括：

固定高度等比例缩放步骤，计算当前帧图像中第i个子图像的缩放比例

按照缩放比例β_i，对第i个子图像进行缩放，获取第i个缩放子图像，其中H为固定高度，h_i′为子图像的高度；

横向拼接步骤，将当前帧图像中所有缩放子图像进行横向拼接，获取当前帧图像的横向拼接子图像，横向拼接子图像的高度为H、宽度为所有缩放子图像的宽度和。

进一步地，所述第五步骤包括：

目标检测框获取步骤，采用经训练的深度学习目标检测模型对横向拼接图像进行目标检测，获取目标检测框；

目标检测框映射步骤，根据目标检测框获取对应的缩放子图像为第i个缩放子图像，统计第i个缩放子图像内目标检测框的宽度Δw_i、高度Δh_i、左上角坐标(Δx_i,Δy_i)，并根据第i个缩放子图像的缩放比例β_i，获取第i个子图像内的目标检测区域的宽度为

高度为

左上角坐标为

其中(x_i′,y_i′)为第i个子图像的左上角坐标；

目标检测区域输出步骤，输出所有子图像内的目标检测区域。

按照本发明的另一个方面，提供了基于深度学习的运动目标检测装置，该装置包括：

视频图像输入或采集模块，用于输入或者采集视频图像；

运动目标检测模块，用于对视频图像进行运动目标检测，获取前景区域；

外扩处理及子图像获取模块，用于对前景区域进行外扩处理，获取外扩前景区域的位置及对应的子图像；

横向拼接子图像获取模块，用于将子图像等比例缩放到固定高度，并对缩放后的子图像进行横向拼接，获取横向拼接子图像；

目标检测框和映射模块，用于采用经训练的深度学习目标检测模型对横向拼接图像进行目标检测，获取目标检测框，将视频图像内目标检测框映射的区域作为目标检测区域，并输出。

进一步地，所述外扩处理及子图像获取模块包括：用于计算当前帧图像中第i个前景区域的宽度w_i和高度h_i，则第i个前景区域外扩处理后，获取的第i个外扩前景区域的宽度为w_i′＝αw_i、高度为h_i′＝αh_i、左上角横坐标为

左上角纵坐标为

进一步地，所述横向拼接子图像获取模块包括：

固定高度等比例缩放模块，用于计算当前帧图像中第i个子图像的缩放比例

横向拼接模块，用于将当前帧图像中所有缩放子图像进行横向拼接，获取当前帧图像的横向拼接子图像，横向拼接子图像的高度为H、宽度为所有缩放子图像的宽度和。

进一步地，所述目标检测框和映射模块包括：

目标检测框获取模块，用于采用经训练的深度学习目标检测模型对横向拼接图像进行目标检测，获取目标检测框；

目标检测框映射模块，用于根据目标检测框获取对应的缩放子图像为第i个缩放子图像，统计第i个缩放子图像内目标检测框的宽度Δw_i、高度Δh_i、左上角坐标(Δx_i,Δy_i)，并根据第i个缩放子图像的缩放比例β_i，获取第i个子图像内的目标检测区域的宽度为

高度为

左上角坐标为

其中(x_i′,y_i′)为第i个子图像的左上角坐标；

目标检测区域输出模块，用于输出所有子图像内的目标检测区域。

与现有的运动目标检测技术相比，本发明的基于深度学习的运动目标检测方法及装置采用运动目标检测、外扩处理、固定高度缩放、横向拼接、以及深度学习目标检测模型等方法，在提高目标检测准确率的同时，有效地降低了目标检测的复杂度和算法需求。

附图说明

图1示出了按照本发明的基于深度学习的运动目标检测方法的流程图。

图2示出了按照本发明的基于深度学习的运动目标检测装置的框架图。

具体实施方式

为使本领域的技术人员能进一步了解本发明的结构、特征及其他目的，现结合所附较佳实施例详细说明如下，所说明的较佳实施例仅用于说明本发明的技术方案，并非限定本发明。

图1给出了按照本发明的基于深度学习的运动目标检测方法的流程图。如图1所示，按照本发明的基于深度学习的运动目标检测方法包括：

第一步骤S1，输入或者采集视频图像；

第二步骤S2，对视频图像进行运动目标检测，获取前景区域；

第三步骤S3，对前景区域进行外扩处理，获取外扩前景区域的位置及对应的子图像；

第四步骤S4，将子图像等比例缩放到固定高度，并对缩放后的子图像进行横向拼接，获取横向拼接子图像；

第五步骤S5，采用经训练的深度学习目标检测模型对横向拼接图像进行目标检测，获取目标检测框，将视频图像内目标检测框映射的区域作为目标检测区域，并输出。

所述第二步骤S2中运动目标检测可以采用现有的运动目标检测或者移动目标检测方法实现，包括但不限于以下一种或者多种方法的组合：基于背景建模的运动目标检测、基于帧差法的运动目标检测、基于光流法的运动目标检测等。示例性地，采用基于混合高斯背景建模的运动目标检测方法，从视频图像中获取一个或者多个前景区域。

进一步地，所述第三步骤S3包括：计算当前帧图像中第i个前景区域的宽度w_i和高度h_i，则第i个前景区域外扩处理后，获取的第i个外扩前景区域的宽度为w_i′＝αw_i、高度为h_i′＝αh_i、左上角横坐标为

左上角纵坐标为

进一步地，所述α的取值范围1.04～2.16。示例性地，所述α选为1.5或者1.85。

所述

表示：当

大于0时，x_i′为

否则x_i′为0。所述

表示：当

大于0时，y_i′为

否则y_i′为0。

进一步地，所述第四步骤S4包括：

固定高度等比例缩放步骤S41，计算当前帧图像中第i个子图像的缩放比例

横向拼接步骤S42，将当前帧图像中所有缩放子图像进行横向拼接，获取当前帧图像的横向拼接子图像，横向拼接子图像的高度为H、宽度为所有缩放子图像的宽度和。

所述固定高度为H＝λh，其中h为所述目标深度学习模型的最优检测尺度。进一步地，所述λ的取值范围为1.3～1.8。

所述最优检测尺度h根据目标深度学习模型，根据多次样本测试，以获取检测效果最好的样本的高度作为最优检测尺度h。

进一步地，所述最优检测尺度h的取值范围为60～100。

所述固定高度等比例缩放步骤S41中第i个缩放子图像的宽度为β_i*w_i′、高度为H。

示例性地，所述第四步骤S42为：当前帧图像中存在4个缩放子图像，将第1个缩放子图像的右边界与第2个缩放子图像的左边界、第2个缩放子图像的右边界与第3个缩放子图像的左边界、第3个缩放子图像的右边界与第4个缩放子图像的左边界无缝拼接在一起，获取当前帧图像中4个缩放子图像的横向拼接图像，横向拼接子图像的高度为128、宽度为4个缩放子图像的宽度和。

进一步地，所述第五步骤S5包括：

目标检测框获取步骤S51，采用经训练的深度学习目标检测模型对横向拼接图像进行目标检测，获取目标检测框；

目标检测框映射步骤S52，根据目标检测框获取对应的缩放子图像为第i个缩放子图像，统计第i个缩放子图像内目标检测框的宽度Δw_i、高度Δh_i、左上角坐标(Δx_i,Δy_i)，并根据第i个缩放子图像的缩放比例β_i，获取第i个子图像内的目标检测区域的宽度为

高度为

左上角坐标为

其中(x_i′,y_i′)为第i个子图像的左上角坐标；

目标检测区域输出步骤S53，输出所有子图像内的目标检测区域。

所述目标检测框获取步骤S51中经训练的深度学习检测模型为：根据已标注目标的样本图像，对深度学习网络进行反复训练，获取经训练的深度学习检测模型。

进一步地，所述深度学习网络为：卷积神经网络、深度信念网络、递归神经网络、或者生物神经网络，或其组合。

示例性地，所述经训练的深度学习检测模型为：根据已标注目标的样本图像，采用“Faster R-CNN:Towards Real-Time Object Detection with Region ProposalNetworks.S Ren，K He，R Girshick，J Sun.《IEEE Trans Pattern Anal Mach Intell》,2015,39(6):1137-1149”论文中的方法，对Faster R-CNN进行反复训练，获取经训练的深度学习检测模型。

图2给出了按照本发明的基于深度学习的运动目标检测装置的框架图。如图2所示，按照本发明的基于深度学习的运动目标检测装置包括：

视频图像输入或采集模块1，用于输入或者采集视频图像；

运动目标检测模块2，用于对视频图像进行运动目标检测，获取前景区域；

外扩处理及子图像获取模块3，用于对前景区域进行外扩处理，获取外扩前景区域的位置及对应的子图像；

横向拼接子图像获取模块4，用于将子图像等比例缩放到固定高度，并对缩放后的子图像进行横向拼接，获取横向拼接子图像；

目标检测框和映射模块5，用于采用经训练的深度学习目标检测模型对横向拼接图像进行目标检测，获取目标检测框，将视频图像内目标检测框映射的区域作为目标检测区域，并输出。

进一步地，所述外扩处理及子图像获取模块3包括：用于计算当前帧图像中第i个前景区域的宽度w_i和高度h_i，则第i个前景区域外扩处理后，获取的第i个外扩前景区域的宽度为w_i′＝αw_i、高度为h_i′＝αh_i、左上角横坐标为

左上角纵坐标为

进一步地，所述横向拼接子图像获取模块4包括：

固定高度等比例缩放模块41，用于计算当前帧图像中第i个子图像的缩放比例

横向拼接模块42，用于将当前帧图像中所有缩放子图像进行横向拼接，获取当前帧图像的横向拼接子图像，横向拼接子图像的高度为H、宽度为所有缩放子图像的宽度和。

进一步地，所述目标检测框和映射模块5包括：

目标检测框获取模块51，用于采用经训练的深度学习目标检测模型对横向拼接图像进行目标检测，获取目标检测框；

目标检测框映射模块52，用于根据目标检测框获取对应的缩放子图像为第i个缩放子图像，统计第i个缩放子图像内目标检测框的宽度Δw_i、高度Δh_i、左上角坐标(Δx_i,Δy_i)，并根据第i个缩放子图像的缩放比例β_i，获取第i个子图像内的目标检测区域的宽度为

高度为

左上角坐标为

其中(x_i′,y_i′)为第i个子图像的左上角坐标；

目标检测区域输出模块53，用于输出所有子图像内的目标检测区域。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围，应当理解，本发明并不限于这里所描述的实现方案，这些实现方案描述的目的在于帮助本领域中的技术人员实践本发明。任何本领域中的技术人员很容易在不脱离本发明精神和范围的情况下进行进一步的改进和完善，因此本发明只受到本发明权利要求的内容和范围的限制，其意图涵盖所有包括在由所附权利要求所限定的本发明精神和范围内的备选方案和等同方案。