CN111160340A

CN111160340A - 一种运动目标检测方法、装置、存储介质及终端设备

Info

Publication number: CN111160340A
Application number: CN201911360977.3A
Authority: CN
Inventors: 胡艳萍
Original assignee: Pulian International Co Ltd
Current assignee: Pulian International Co Ltd
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2020-05-15
Anticipated expiration: 2039-12-24
Also published as: CN111160340B

Abstract

本发明公开了一种运动目标检测方法、装置、存储介质及终端设备，所述方法包括：获取待处理图像序列；对所述待处理图像序列进行运动目标检测，获取初始运动区域；对所述初始运动区域进行区域统计校正，获取校正后的运动区域；基于预设的Fast network和Slow network，根据所述待处理图像序列和所述校正后的运动区域进行特征提取；根据预设的LSTM对提取到的特征进行特征融合；基于预设的检测器，根据融合后的特征获取运动目标区域。采用本发明的技术方案能够提高运动目标检测的精确度，降低误检率。

Description

一种运动目标检测方法、装置、存储介质及终端设备

技术领域

本发明涉及运动目标检测技术领域，尤其涉及一种运动目标检测方法、装置、计算机可读存储介质及终端设备。

背景技术

运动目标检测是将图像序列中的运动区域从相对静止的背景中分割出来，得到运动的前景目标，从而能够对运动目标进行进一步的跟踪、分类和识别等更高层次的处理，是计算机视觉的重要技术之一，被广泛应用到视频监控、智能交通以及工业检测等领域。

目前，传统的运动目标检测方法主要包括光流法和背景差分法；其中，光流法检测的一般步骤是通过图像序列中的像素速度的变化，来确定不同时间内的灰度变化和相邻像素的相关性，从而检测出运动目标；背景差分法是先构造一个背景模型来替代真实的背景场景，通过将图像序列与背景模型进行比较，识别出运动目标与背景之间的差别来实现运动目标的检测，典型的背景模型有混合高斯模型、ViBe等。

但是，光流法易受噪声影响，抗噪声性能差，背景差分法对环境光线变化敏感，并且这两种方法在检测过程中均容易受到背景场景的动态变化(例如树叶晃动、雨雪天气)、光照变化以及杂乱背景等动态场景的干扰，从而导致运动目标检测的精确度较低，很可能将动态背景误识别为运动目标，误检率较高。

发明内容

本发明实施例所要解决的技术问题在于，提供一种运动目标检测方法、装置、计算机可读存储介质及终端设备，能够提高运动目标检测的精确度，降低误检率。

为了解决上述技术问题，本发明实施例提供了一种运动目标检测方法，包括：

获取待处理图像序列；

对所述待处理图像序列进行运动目标检测，获取初始运动区域；

对所述初始运动区域进行区域统计校正，获取校正后的运动区域；

基于预设的Fast network和Slow network，根据所述待处理图像序列和所述校正后的运动区域进行特征提取；

根据预设的LSTM对提取到的特征进行特征融合；

基于预设的检测器，根据融合后的特征获取运动目标区域。

进一步地，所述对所述待处理图像序列进行运动目标检测，获取初始运动区域，具体包括：

基于预设的混合高斯模型对所述待处理图像序列进行运动目标检测，获取所述初始运动区域。

进一步地，所述对所述初始运动区域进行区域统计校正，获取校正后的运动区域，具体包括：

获取所述初始运动区域对应的二值化图像中的每一个像素点的标记值；

根据获得的每一个像素点的标记值对所述初始运动区域中的像素点进行校正，相应获得所述校正后的运动区域。

进一步地，所述根据获得的每一个像素点的标记值对所述初始运动区域中的像素点进行校正，相应获得所述校正后的运动区域，具体包括：

对于所述初始运动区域的任一个像素点，获取所述像素点的n*n邻域；其中，所述n*n邻域以所述像素点为中心像素点，n>0；

统计所述n*n邻域中包含的标记值为0的像素点的数量n0和标记值为1的像素点的数量n1；

当n*n*α≤n0时，将所述像素点的标记值校正为0；

当n*n*α>n0时，将所述像素点的标记值校正为1。

进一步地，所述基于预设的Fast network和Slow network，根据所述待处理图像序列和所述校正后的运动区域进行特征提取，具体包括：

根据所述待处理图像序列和所述校正后的运动区域在深度方向上进行图像叠加，获得叠加后的图像序列；

将所述叠加后的图像序列输入预设的Fast network和Slow network，以根据预设的帧间隔对所述叠加后的图像序列进行特征提取。

进一步地，所述叠加后的图像序列包括的每一帧叠加后的图像中的每一个像素点均用一个对应的4维向量进行表示；所述4维向量包括对应像素点的R值、G值、B值和D值；D值表示对应像素点在所述校正后的运动区域的二值化图像中的标记值。

进一步地，所述Fast network为MobilenetV3 Small网络；所述Slow network为MobilenetV3 large网络。

为了解决上述技术问题，本发明实施例还提供了一种运动目标检测装置，包括：

图像序列获取模块，用于获取待处理图像序列；

初始运动区域获取模块，用于对所述待处理图像序列进行运动目标检测，获取初始运动区域；

初始运动区域校正模块，用于对所述初始运动区域进行区域统计校正，获取校正后的运动区域；

图像特征提取模块，用于基于预设的Fast network和Slow network，根据所述待处理图像序列和所述校正后的运动区域进行特征提取；

图像特征融合模块，用于根据预设的LSTM对提取到的特征进行特征融合；

运动目标区域获取模块，用于基于预设的检测器，根据融合后的特征获取运动目标区域。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一项所述的运动目标检测方法。

本发明实施例还提供了一种终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现上述任一项所述的运动目标检测方法。

与现有技术相比，本发明实施例提供了一种运动目标检测方法、装置、计算机可读存储介质及终端设备，通过获取待处理图像序列，对待处理图像序列进行运动目标检测，获取初始运动区域，对初始运动区域进行区域统计校正，获取校正后的运动区域，基于预设的Fast network和Slow network，根据待处理图像序列和校正后的运动区域进行特征提取，根据预设的LSTM对提取到的特征进行特征融合，基于预设的检测器，根据融合后的特征获取运动目标区域，从而能够提高运动目标检测的精确度，降低误检率。

附图说明

图1是本发明提供的一种运动目标检测方法的一个优选实施例的流程图；

图2是本发明提供的一种运动目标检测方法的执行过程示意图；

图3是本发明提供的一种运动目标检测装置的一个优选实施例的结构框图；

图4是本发明提供的一种终端设备的一个优选实施例的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本技术领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种运动目标检测方法，参见图1所示，是本发明提供的一种运动目标检测方法的一个优选实施例的流程图，所述方法包括步骤S11至步骤S16：

步骤S11、获取待处理图像序列；

步骤S12、对所述待处理图像序列进行运动目标检测，获取初始运动区域；

步骤S13、对所述初始运动区域进行区域统计校正，获取校正后的运动区域；

步骤S14、基于预设的Fast network和Slow network，根据所述待处理图像序列和所述校正后的运动区域进行特征提取；

步骤S15、根据预设的LSTM对提取到的特征进行特征融合；

步骤S16、基于预设的检测器，根据融合后的特征获取运动目标区域。

具体的，待处理图像序列可以通过电子设备进行实时获取，例如，通过网络摄像头、手机、平板电脑等具备录制视频功能的电子设备的摄像头所录制的视频数据流实时获取待处理图像序列，具体获取方式本发明不作具体限定。

在获得待处理图像序列之后，对待处理图像序列进行运动目标检测，相应获得初始运动区域，并对获得的初始运动区域中的每一个像素点的运动状态进行区域统计校正，以消除初始运动区域中孤立的噪声点，填补内部空洞，相应获得校正后的运动区域，将待处理图像序列和校正后的运动区域输入预先设置的Fast network和预先设置的Slownetwork交替网络中进行特征提取，其中，Fast network负责快速提取每一帧图像的特征，准确率较差，Slow network负责提取每一帧图像的精确特征，速度较慢，将Fast network和Slow network所提取的特征输入预先设置的长短时记忆网络LSTM，以通过LSTM进行特征融合，并将融合后的特征输入预先设置的检测器中，检测器在当前帧图像特征和前后帧图像特征融合的基础上进行回归和分类，最终输出一个精确的运动目标区域。

本发明实施例所提供的一种运动目标检测方法，将深度学习网络模型应用于运动目标检测，通过网络自动提取图像特征，可利用的信息丰富，从而能够提高运动目标检测的精确度，降低误检率，并且能够充分利用好时序前后帧图像之间的关系，解决视频流中连续帧图像之间的大量冗余的情况，提高检测速度，还可以解决视频相对于图像存在的运动模糊、视频失焦、部分遮挡以及形变等问题，提高检测质量。

在另一个优选实施例中，所述对所述待处理图像序列进行运动目标检测，获取初始运动区域，具体包括：

具体的，结合上述实施例，在对待处理图像序列进行运动目标检测时，可以采用现有技术中常用的运动目标检测方法，例如，根据预先设置的混合高斯模型对待处理图像序列进行处理，通过将待处理图像序列与混合高斯模型进行比较，识别出运动目标与背景之间的差别，相应获得初始运动区域。

可以理解的，还可以采用其他的背景模型(例如ViBe等)或其他方法对待处理图像序列进行运动目标检测，以获得初始运动区域，本发明实施例不作具体限定。

在又一个优选实施例中，所述对所述初始运动区域进行区域统计校正，获取校正后的运动区域，具体包括：

具体的，结合上述实施例，由于初始运动区域是和原图像等大的二值化图像，并且二值化图像中的每一个像素点的标记值表示该像素点的运动状态，例如，标记值为1时表示对应像素点为运动状态(即为运动点)，标记值为0时表示对应像素点为静止状态(即为背景点)，因此，在对获得的初始运动区域进行区域统计校正时，可以先获得初始运动区域所对应的二值化图像中的每一个像素点的标记值，从而根据获得的所有的像素点的标记值对初始运动区域中的每一个像素点的运动状态进行区域统计校正，以消除初始运动区域中孤立的噪声点，填补内部空洞，相应获得校正后的运动区域。

作为上述方案的改进，所述根据获得的每一个像素点的标记值对所述初始运动区域中的像素点进行校正，相应获得所述校正后的运动区域，具体包括：

当n*n*α≤n0时，将所述像素点的标记值校正为0；

当n*n*α>n0时，将所述像素点的标记值校正为1。

具体的，初始运动区域中的每一个像素点的校正方法相同，这里以对初始运动区域中的任意一个像素点进行校正为例进行说明：结合上述实施例，以该像素点为中心像素点，在该像素点的周围取该像素点的n*n邻域，并统计n*n邻域中所包含的标记值为0的像素点的数量n0和标记值为1的像素点的数量n1，根据预先设置的百分比α计算n*n*α的值，并比较计算获得的n*n*α的值与统计获得的n*n邻域中标记值为0的像素点的数量n0的大小，当n*n*α≤n0时，将该像素点的标记值校正为0，当n*n*α>n0时，将该像素点的标记值校正为1。

例如，对于像素点x，取n＝3，α＝80％，则以像素点x为中心像素点取3*3邻域，在3*3邻域中包含了3*3＝9个像素点(包括中心像素点)，然后统计3*3邻域中的标记值为0的像素点的数量n0和标记值为1的像素点的数量n1，如果这9个像素点中一共有5个像素点的标记值为1，剩余4个像素点的标记值为0，则n0＝4，n1＝5，此时n*n*α＝3*3*80％＝7.2>4，则将像素点x的标记值校正为1。

在又一个优选实施例中，所述基于预设的Fast network和Slow network，根据所述待处理图像序列和所述校正后的运动区域进行特征提取，具体包括：

具体的，结合上述实施例，在通过预先设置的Fast network和Slow network进行特征提取时，先将待处理图像序列和校正后的运动区域在深度维度方向进行图像叠加，相应获得叠加后的图像序列，再将叠加后的图像序列输入预先设置的Fast network和Slownetwork中，以根据预先设置的帧间隔对叠加后的图像序列进行特征提取。

需要说明的是，帧间隔(即交替时间间隔)可以理解为Fast network和Slownetwork分别间隔几帧图像进行特征提取，例如，假设叠加后的图像序列包括15帧叠加后的图像，按照时间排序分别为t、t+1、t+2、t+3、t+4、t+5、t+6、t+7、t+8、t+9、t+10、t+11、t+12、t+13、t+14，共15帧时序图像，如果帧间隔λ＝2，则将t、t+3、t+6、t+9、t+12输入Slownetwork，将t+1、t+2、t+4、t+5、t+7、t+8、t+10、t+11、t+13、t+14输入Fast network，执行依然是按照时间先后顺序交替执行，即Slow network先执行t，然后Fast network执行t+1、t+2，接着Slow network先执行t+3，以此类推，交替执行。

优选地，所述叠加后的图像序列包括的每一帧叠加后的图像中的每一个像素点均用一个对应的4维向量进行表示；所述4维向量包括对应像素点的R值、G值、B值和D值；D值表示对应像素点在所述校正后的运动区域的二值化图像中的标记值。

可以理解的，待处理图像序列中的每一帧图像均为基于RGB色彩空间的彩色图像，一般由R通道、G通道、B通道三个通道组成，即图像中的每个像素点实质上由3个值(即R值、G值、B值)表示，R表示红色，G表示绿色，B表示蓝色，在深度维度方向上叠加，相当于由原始的3通道，变为4通道，每一帧叠加后的图像中的每个像素点由4个值构成(即R值、G值、B值和D值)，R、G、B依然分别表示红色、绿色、蓝色，D表示该像素点在校正后的运动区域的二值化图像中的标记值，即D表示该像素点是运动点还是背景点。

作为上述方案的改进，所述Fast network为MobilenetV3 Small网络；所述Slownetwork为MobilenetV3 large网络。

下面结合图2所示，对本发明实施例提供的一种运动目标检测方法的执行过程进行具体说明：

每一个Slow network网络单元和每一个Fast network网络单元均对应连接一个LSTM网络单元，检测器相当于深度学习网络模型的最后一层，每一个LSTM网络单元均对应连接一个检测层；假设获得的叠加后的图像序列包括6帧叠加后的图像，分别为It、It+1、It+2、It+3、It+4、It+5，帧间隔设为2，即将t、t+3输入Slow network，将t+1、t+2、t+4、t+5输入Fast network，依次交替提取图像特征，并将Slow network和Fast network提取到的图像特征输入LSTM网络层进行特征融合，再将融合后的特征输入检测层进行处理，对应输出6帧和叠加后的图像等大的二值化图像，分别为Ot、Ot+1、Ot+2、Ot+3、Ot+4、Ot+5，从而根据Ot、Ot+1、Ot+2、Ot+3、Ot+4、Ot+5生成最终获得的运动目标区域。

本发明实施例还提供了一种运动目标检测装置，能够实现上述任一实施例所述的运动目标检测方法的所有流程，装置中的各个模块、单元的作用以及实现的技术效果分别与上述实施例所述的运动目标检测方法的作用以及实现的技术效果对应相同，这里不再赘述。

参见图3所示，是本发明提供的一种运动目标检测装置的一个优选实施例的结构框图，所述装置包括：

图像序列获取模块11，用于获取待处理图像序列；

初始运动区域获取模块12，用于对所述待处理图像序列进行运动目标检测，获取初始运动区域；

初始运动区域校正模块13，用于对所述初始运动区域进行区域统计校正，获取校正后的运动区域；

图像特征提取模块14，用于基于预设的Fast network和Slow network，根据所述待处理图像序列和所述校正后的运动区域进行特征提取；

图像特征融合模块15，用于根据预设的LSTM对提取到的特征进行特征融合；

运动目标区域获取模块16，用于基于预设的检测器，根据融合后的特征获取运动目标区域。

优选地，所述初始运动区域获取模块12具体包括：

初始运动区域获取单元，用于基于预设的混合高斯模型对所述待处理图像序列进行运动目标检测，获取所述初始运动区域。

优选地，所述初始运动区域校正模块13具体包括：

像素点标记值获取单元，用于获取所述初始运动区域对应的二值化图像中的每一个像素点的标记值；

初始运动区域校正单元，用于根据获得的每一个像素点的标记值对所述初始运动区域中的像素点进行校正，相应获得所述校正后的运动区域。

优选地，所述初始运动区域校正单元具体用于：

当n*n*α≤n0时，将所述像素点的标记值校正为0；

当n*n*α>n0时，将所述像素点的标记值校正为1。

优选地，所述图像特征提取模块14具体包括：

图像叠加单元，用于根据所述待处理图像序列和所述校正后的运动区域在深度方向上进行图像叠加，获得叠加后的图像序列；

图像特征提取单元，用于将所述叠加后的图像序列输入预设的Fast network和Slow network，以根据预设的帧间隔对所述叠加后的图像序列进行特征提取。

优选地，所述Fast network为MobilenetV3 Small网络；所述Slow network为MobilenetV3 large网络。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一实施例所述的运动目标检测方法。

本发明实施例还提供了一种终端设备，参见图4所示，是本发明提供的一种终端设备的一个优选实施例的结构框图，所述终端设备包括处理器10、存储器20以及存储在所述存储器20中且被配置为由所述处理器10执行的计算机程序，所述处理器10在执行所述计算机程序时实现上述任一实施例所述的运动目标检测方法。

优选地，所述计算机程序可以被分割成一个或多个模块/单元(如计算机程序1、计算机程序2、······)，所述一个或者多个模块/单元被存储在所述存储器20中，并由所述处理器10执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述终端设备中的执行过程。

所述处理器10可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，通用处理器可以是微处理器，或者所述处理器10也可以是任何常规的处理器，所述处理器10是所述终端设备的控制中心，利用各种接口和线路连接所述终端设备的各个部分。

所述存储器20主要包括程序存储区和数据存储区，其中，程序存储区可存储操作系统、至少一个功能所需的应用程序等，数据存储区可存储相关数据等。此外，所述存储器20可以是高速随机存取存储器，还可以是非易失性存储器，例如插接式硬盘，智能存储卡(Smart Media Card，SMC)、安全数字(Secure Digital，SD)卡和闪存卡(Flash Card)等，或所述存储器20也可以是其他易失性固态存储器件。

需要说明的是，上述终端设备可包括，但不仅限于，处理器、存储器，本领域技术人员可以理解，图4结构框图仅仅是上述终端设备的示例，并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

综上，本发明实施例所提供的一种运动目标检测方法、装置、计算机可读存储介质及终端设备，具有以下有益效果：

(1)将深度学习网络模型应用于运动目标检测，通过网络自动提取图像特征，可利用的信息丰富，能够有效避免树叶摆动、雨雪天气以及光照变化等动态背景的干扰，从而提高运动目标检测的精确度，降低误检率；

(2)能够充分利用LSTM结合时序前后帧图像之间的关系，解决视频流中连续帧图像之间的大量冗余的情况，从而提高检测速度；

(3)能够解决视频相对于图像存在的运动模糊、视频失焦、部分遮挡以及形变等问题，从而提高检测质量。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种运动目标检测方法，其特征在于，包括：

获取待处理图像序列；

根据预设的LSTM对提取到的特征进行特征融合；

基于预设的检测器，根据融合后的特征获取运动目标区域。

2.如权利要求1所述的运动目标检测方法，其特征在于，所述对所述待处理图像序列进行运动目标检测，获取初始运动区域，具体包括：

3.如权利要求1所述的运动目标检测方法，其特征在于，所述对所述初始运动区域进行区域统计校正，获取校正后的运动区域，具体包括：

4.如权利要求3所述的运动目标检测方法，其特征在于，所述根据获得的每一个像素点的标记值对所述初始运动区域中的像素点进行校正，相应获得所述校正后的运动区域，具体包括：

当n*n*α≤n0时，将所述像素点的标记值校正为0；

当n*n*α>n0时，将所述像素点的标记值校正为1。

5.如权利要求1所述的运动目标检测方法，其特征在于，所述基于预设的Fast network和Slow network，根据所述待处理图像序列和所述校正后的运动区域进行特征提取，具体包括：

6.如权利要求5所述的运动目标检测方法，其特征在于，所述叠加后的图像序列包括的每一帧叠加后的图像中的每一个像素点均用一个对应的4维向量进行表示；所述4维向量包括对应像素点的R值、G值、B值和D值；D值表示对应像素点在所述校正后的运动区域的二值化图像中的标记值。

7.如权利要求1～6任一项所述的运动目标检测方法，其特征在于，所述Fast network为MobilenetV3 Small网络；所述Slow network为MobilenetV3 large网络。

8.一种运动目标检测装置，其特征在于，包括：

图像序列获取模块，用于获取待处理图像序列；

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1～7任一项所述的运动目标检测方法。

10.一种终端设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现如权利要求1～7任一项所述的运动目标检测方法。