CN111738211A

CN111738211A - 基于动态背景补偿与深度学习的ptz摄像机运动目标检测与识别方法

Info

Publication number: CN111738211A
Application number: CN202010695736.0A
Authority: CN
Inventors: 谢家阳; 高承醒; 于晋; 吴均峰; 陈积明; 史治国
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2020-10-02
Anticipated expiration: 2040-07-17
Also published as: CN111738211B

Abstract

本发明公开了一种基于动态背景补偿与深度学习的PTZ摄像机运动目标检测与识别方法。该方法包括：1.提取视频流中前、中、后相邻三帧的关键点特征并进行匹配，根据匹配点集，使用随机采样一致性算法计算单应性矩阵，剔除匹配置信度低的特征点对，然后通过单应性矩阵对前、后两帧图像进行投影变换，与中间帧进行配准；2.使用三帧差分运动目标检测算法提取候选区域，经形态学膨胀算子与最小凸包检测对运动目标进行粗定位；3.将提取出的候选区域及其背景上下文输入到深度卷积神经网络提取特征，然后分别经分类网络与位置回归网络实现目标分类及位置的精细回归。

Description

基于动态背景补偿与深度学习的PTZ摄像机运动目标检测与识别方法

技术领域

本发明涉及计算机视觉领域，具体而言，涉及一种基于动态背景补偿与深度学习的PTZ摄像机运动目标检测与识别方法

背景技术

视频运动目标检测是计算机视觉的重要组成部分，它可以检测出视频中变化的区域，并将视频中的变化区域和运动目标提取出来，为目标分类、目标跟踪和行为分析等后续工作提供先验信息，但现有运动目标检测算法存在很多问题和极大局限性。帧间差分法是常用的运动目标检测与分割方法，其通过将前后两视频帧相减得到差分图像，然后通过阈值分割和形态学滤波提取运动目标的轮廓。帧间差分法的优点是算法简单，不易受环境光线影响，具有很好的实时性，但其不能用于运动的摄像头中；且无法识别静止或运动速度很慢的目标；运动目标表面有大面积灰度值相似区域的情况下，在做差分时图像会出现“空洞”、“双影”现象，在安防监控中，在设备有限的情况下，为扩大监控区域，多采用高清PTZ摄像机循环扫描对监控区域中的目标进行检测与识别，此时摄像机拍摄到的视频背景是动态变化的，此时不能直接采用帧间差分或者背景差分法对视频中运动的目标进行检测。同时，如果目标运动速度较快时，用帧间差分方法会出现在重影和空洞现象，不能准确提取无人机在画面中位置；另外由于树叶摇动、系统噪声等干扰会导致很多误检。

本发明创新性地提出一种基于动态背景补偿的运动目标检测与识别方法，首先对运动背景进行补偿，对前、中、后三帧进行配准，将动态背景中的运动目标检测转化为静止背景中运动目标检测，然后改进了三帧差分法提取运动目标候选区域，经形态学膨胀算子与最小凸包检测对运动目标进行粗定位，最后将提取出的候选区域及其背景上下文输入到深度卷积神经网络提取特征，然后分别经分类网络与位置回归网络实现目标分类及位置的精细回归，去除误检。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本发明提供一种基于动态背景补偿与深度学习的PTZ摄像机运动目标检测与识别方法。此方法属于两阶段目标检测，第一阶段提取候选区域，与传统的候选区域不同，本方法采用基于运动目标检测的候选区域方法，并采用动态背景补偿将动态背景中的运动目标检测转化为静态背景中的运动目标检测，快速地为第二阶段的目标检测提供了准确的候选区域；检测的第二阶段采用深度卷积神经网络对运动目标候选区域进行目标分类与位置回归。本发明可应用于对大范围监控区域进行循环扫描的PTZ摄像机，快速准确地对监控区域中的运动目标进行检测与识别。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开实施例的一个方面，提供了一种基于动态背景补偿与深度学习的PTZ摄像机运动目标检测与识别方法，包括三个步骤，步骤一：提取视频流中前、中、后相邻三帧的关键点特征并进行匹配，根据匹配点集，使用随机采样一致性算法计算单应性矩阵，剔除匹配置信度低的特征点对，然后通过单应性矩阵对前、后两帧图像进行投影变换，与中间帧进行配准；步骤二：对于配准完的前、中、后三帧，采用三帧差分运动目标检测算法提取候选区域，使用形态学膨胀算子对候选区域进行后处理，结合最小凸包检测对运动目标进行粗定位；步骤三：将提取出的候选区域及其背景上下文输入到深度卷积神经网络提取特征，然后分别经分类网络与位置回归网络实现目标分类及位置的精细回归。

针对步骤一中动态背景下运动目标候选区域提取，本发明先对前中后三帧视频图像进行图像尺度压缩，以减小计算复杂度，对压缩后的视频图像提取ORB(oriented FASTand rotated BRIEF)特征点，然后采用非极大值抑制去除聚集的特征点，对处理后的ORB特征点进行ORB特征描述，使用汉明距离进行特征点匹配，匹配后的对应点集为

其中i∈{1,2,…,L}，L为第m,n帧视频图像中匹配点的对数，

为第m帧中第i个特征点的坐标，为剔除不良匹配点，利用随机采样一致性算法由公式(1)计算第m帧与第n帧的单应性矩阵

剔除不良匹配点对单应性矩阵计算的影响。

其中

通过以上计算过程分别计算第I_k-1帧与第I_k帧的单应性矩阵H_k|k-1和第I_k+1帧与第I_k帧的单应性矩阵H_k|k+1，然后根据公式(1)分别将前后帧(第I_k-1帧与第I_k+1)与中间帧第I_k帧配准，得到配准后的连续三帧I_k|k-1，I_k与I_k|k+1，将动态背景中的运动目标检测转化为静态背景中目标检测。

帧间差分法是常用的运动目标检测与分割方法，其通过将前后两视频帧相减得到差分图像，然后通过阈值分割和形态学滤波提取运动目标的轮廓，但当目标运动速度较快时，帧差后的图像会出现鬼影现象，导致误检增多，为缓解鬼影现象，在步骤二本发明对配准后的前中后三帧(分别用I_k|k-1，I_k，I_k|k+1表示)做三帧差分，计算过程如公式(2)、(3)、(4)所示：

D(x,y)＝D₁(x,y)∩D₂(x,y) (4)

首先分别计算I_k|k-1与I_k的残差图，使用由实验确定的二值化阈值T将残差图二值化得到D₁，对I_k与I_k|k+1采用相同的计算过程得到D₂，对二值化图D₁,D₂做与运算(∩)得到三帧差分二值图D，其中(x,y)代表图像中的像素坐标，x＝1,2...,M,y＝1,2,...,N分别为像素的横纵坐标，M、N分别是图像的宽度和高度，为消除三帧差分二值图D中的孔洞与边缘裂缝，使用形态学膨胀算子对三帧差分二值图D进行处理并使用连通度检测算法获取二值图像中各个候选区域的轮廓区域集C_k＝{c_i}，i＝1,…,T,T为第k帧中候选区域的数量，其中c_i＝{z_j},j＝0,2,…,V,V为候选区域c_i轮廓点的数量，z_j＝(x_j,y_j)为轮廓点的坐标，对每个轮廓区域进行最小凸包检测，其检测过程包括以下步骤：

(1)输入某轮廓点集c；

(2)选择c中坐标y最小的点作为基点z₀(若有多个，选取其中x坐标最小的点)；

(3)对z₀与z_i≠0构成的向量与x轴的夹角升序排列，得到{z₁,z₂,…,z_V}；

(4)将基点z₀,z₁,z₂压入栈S；

(5)依次遍历从下标i＝3到V的z_i；

(6)判断Q₁→Q₂→z_i构成的拆线是否为逆时针旋转，其中Q₁，Q₂分别为S的第二栈顶元素和栈顶元素；

(7)若Q₁→Q₂→z_i顺时针旋转，Q₂出栈，更新Q₁，Q₂，执行步骤(6)；

(8)若Q₁→Q₂→z_i逆时针旋转，将z_i压入栈S，判断下标i是否大于V，若是，结束循环，若不是下标i自增1，执行步骤(6)；

(9)返回栈S；

栈S中的轮廓点集即为最小凸包的顶点，由此得到每个运动目标候选区域的凸包，并由凸包得到最小外接矩形，作为下一步深度卷积神经网络的输入。

在步骤三中，本发明先生成步骤二中运动目标候区域的背景上下文，这里的背景上下文指的是以候选区域为中心，向外扩展2.5倍的图像块，将候选区域与其相对应的上下文信息分两路输入到深度卷积神经网络，其中特征提取主干网络为resnet50，经特征提取、特征向量拼接后，分成两条分支，一个分支负责目标分类，另一个分支负责精细位置回归。

本发明的有益效果在于：

1.设计了一种快速准确的候选区域提取方法，利用特征点匹配背景补偿算法将动态背景中的运动目标检测转化为静态背景下的运动目标检测；

2.改进了帧间差分法，消除了由于目标快速运动引起的鬼影现象，并使用形态学膨胀算子与最小凸集运算消除了空洞，平滑了候选区域的边缘，检测结果轮廓清晰，无空洞和重影现象，计算速度快，精度高，鲁棒性强；

3.加入背景上下文信息进行检测，使分类结果和位置回归更加准确；

4.本发明可应用于对大范围监控区域进行循环扫描的PTZ摄像机，快速准确地对监控区域中的运动目标进行检测与识别。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了基于动态背景补偿与深度学习的PTZ摄像机运动目标检测与识别方法流程图；

图2示出了视频帧的ORB特征点提取结果与相邻帧之间的匹配效果图；

图3示出运动背景补偿前后经帧间差分法后二值化分割图，图3(a)为运动背景补偿前的帧间差分法检测效果图，图3(b)为运动背景补偿后的帧间差分法检测效果图；

图4示出帧间差分法(左)与三帧差分法(右)的流程示意图；

图5示出了运动目标分割结果比较图，图5(a)为原视频帧，图5(b)为手动标注了分割真实值，图5(c)为无后处理的帧间差分二值化图，图5(d)为应用形态学及最小凸集运算后的帧间差分二值化分割图，图5(e)为无后处理的三帧差分二值化图，图5(f)为应用形态学及最小凸集运算后的三帧差分二值化分割图；

图6示出了结合背景上下文的深度卷积神经网络目标检测算法流程图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

图1示出了基于动态背景补偿与深度学习的PTZ摄像机运动目标检测与识别方法流程图；根据本公开实施例的一个方面，提供了一种基于动态背景补偿与深度学习的PTZ摄像机运动目标检测与识别方法，包括三个步骤，步骤一：提取视频流中前、中、后相邻三帧的关键点特征并进行匹配，根据匹配点集，使用随机采样一致性算法计算单应性矩阵，剔除匹配置信度低的特征点对，然后通过单应性矩阵对前、后两帧图像进行投影变换，与中间帧进行配准；步骤二：对于配准完的前、中、后三帧，采用三帧差分运动目标检测算法提取候选区域，使用形态学膨胀算子对候选区域进行后处理，结合最小凸包检测对运动目标进行粗定位；步骤三：将提取出的候选区域及其背景上下文输入到深度卷积神经网络提取特征，然后分别经分类网络与位置回归网络实现目标分类及位置的精细回归。

其中i∈{1,2,…,L}，L为第m,n帧视频图像中匹配点的对数，

剔除不良匹配点对单应性矩阵计算的影响。

其中

通过以上计算过程分别计算第I_k-1帧与第I_k帧的单应性矩阵H_k|k-1和第I_k+1帧与第I_k帧的单应性矩阵H_k|k+1，然后根据公式(1)分别将前后帧(第I_k-1帧与第I_k+1)与中间帧第I_k帧配准，得到配准后的连续三帧I_k|k-1，I_k与I_k|k+1，将动态背景中的运动目标检测转化为静态背景中目标检测，图2示出了视频帧的ORB特征点提取结果与相邻帧之间的匹配效果图，图3示出运动背景补偿前后经帧间差分法处理后的二值化分割图，图3(a)为运动背景补偿前的帧间差分法检测效果图，图3(b)为运动背景补偿后的帧间差分法检测效果图。

帧间差分法是常用的运动目标检测与分割方法，其通过将前后两视频帧相减得到差分图像，然后通过阈值分割和形态学滤波提取运动目标的轮廓，但当目标运动速度较快时，帧差后的图像会出现鬼影现象，导致误检增多，为消除鬼影现象，在步骤二本发明对配准后的前中后三帧(分别用I_k|k-1，I_K，I_k|k+1表示)做三帧差分，计算过程如公式(2)、(3)、(4)所示：

D(x,y)＝D₁(x,y)∩D₂(x,y) (4)

首先分别计算I_k|k-1与I_k的残差图，使用由实验确定的二值化阈值T将残差图二值化得到D₁，对I_k与I_k|k+1采用相同的计算过程得到D₂，对二值化图D₁,₂做与运算(∩)得到三帧差分二值图D，其中(x,y)代表图像中的像素坐标，x＝1,2...,,y＝1,2,...,分别为像素的横纵坐标，M、N分别是图像的宽度和高度，为消除三帧差分二值图D中的孔洞与边缘裂缝，使用形态学膨胀算子对三帧差分二值图D进行处理并使用连通度检测算法获取二值图像中各个候选区域的轮廓区域集C_k＝{c_i}，i＝1,…,T,T为第k帧中候选区域的数量，其中c_i＝{z_j},j＝0,2,…,V,V为候选区域c_i轮廓点的数量，z_j＝(x_j,y_j)为轮廓点的坐标，对每个轮廓区域进行最小凸包检测，其检测过程包括以下步骤：

(1)输入某轮廓点集c；

(4)将基点z₀,z₁,z₂压入栈S；

(5)依次遍历从下标i＝3到V的z_i；

(9)返回栈S；

栈S中的轮廓点集即为最小凸包的顶点，由此得到每个运动目标候选区域的凸包，并由凸包得到最小外接矩形，作为下一步深度卷积神经网络的输入。图4示出帧间差分法(左)与三帧差分法(右)的流程示意图，图5示出了运动目标分割结果比较图。图5(a)为原视频帧，图5(b)为手动标注了分割真实值，图5(c)为无后处理的帧间差分二值化图，图5(d)为应用形态学及最小凸集运算后的帧间差分二值化分割图，图5(e)为无后处理的三帧差分二值化图，图5(f)为应用形态学及最小凸集运算后的三帧差分二值化分割图。

在步骤三中，本发明先生成步骤二中运动目标候区域的背景上下文，这里的背景上下文指的是以候选区域为中心，向外扩展2.5倍的图像块，将候选区域与其相对应的上下文信息分两路输入到卷积神经网络，其中特征提取主干网络为resnet50，经特征提取、特征向量拼接后，分成两条分支，一个分支负责目标分类，由softmax层输出目标属于各个类别的概率，另一个分支负责精细位置回归，输出检测框的位置与长宽，由x^*,y^*,w^*,h^*表示，其中x^*,y^*为检测框的中心点坐标，w^*,h^*为检测框的长与宽。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种基于动态背景补偿与深度学习的PTZ摄像机运动目标检测与识别方法，其特征在于，包括以下步骤：

步骤一：提取视频流中前、中、后相邻三帧的关键点特征并进行匹配，根据匹配点集，使用随机采样一致性算法计算单应性矩阵，剔除匹配置信度低的特征点对，然后通过单应性矩阵对前、后两帧图像进行投影变换，与中间帧进行配准；

步骤二：对于配准完的前、中、后三帧，使用三帧差分运动目标检测算法提取候选区域，使用形态学膨胀算子对候选区域进行后处理，结合最小凸包检测对运动目标进行粗定位；

步骤三：将提取出的候选区域及其背景上下文输入到深度卷积神经网络提取特征，然后分别经分类网络与位置回归网络实现目标分类及位置的精细回归。

2.如权利要求1所述的基于动态背景补偿与深度学习的PTZ摄像机运动目标检测与识别方法，其特征在于，所述步骤一中，对前中后三帧视频图像进行图像尺度压缩，对压缩后的视频图像提取ORB特征点，采用非极大值抑制去除聚集的特征点，对处理后的ORB特征点进行ORB特征描述，使用汉明距离进行特征点匹配，匹配后的对应点集为

其中i∈{1，2，…，L}，L为第m，n帧视频图像中匹配点的对数，

剔除不良匹配点对单应性矩阵计算的影响。

其中

通过以上计算过程分别计算第I_k-1帧与第I_k帧的单应性矩阵H_k|k-1和第I_k+1帧与第I_k帧的单应性矩阵H_k|k+1，然后根据公式(1)分别将前后帧(第I_k-1帧与第I_k+1)与中间帧第I_k帧配准，得到配准后的连续三帧I_k|k-1，I_k与I_k|k+1。

3.如权利要求1所述的基于动态背景补偿与深度学习的PTZ摄像机运动目标检测与识别方法，其特征在于，所述步骤二中对由步骤一配准后的前中后三帧(分别用I_k|k-1，I_k，I_k|k+1表示)做三帧差分，计算过程如公式(2)、(3)、(4)所示：

D(x，y)＝D₁(x，y)∩D₂(x，y) (4)

首先分别计算I_k|k-1与I_k的残差图，使用由实验确定的二值化阈值T将残差图二值化得到D₁，对I_k与I_k|k+1采用相同的计算过程得到D₂，对二值化图D₁，D₂做与运算(∩)得到三帧差分二值图D，其中(x，y)代表图像中的像素坐标，x＝1，2...，M，y＝1，2，...，N分别为像素的横纵坐标，M、N分别是图像的宽度和高度，为消除三帧差分二值图D中的孔洞与边缘裂缝，使用形态学膨胀算子对三帧差分二值图D进行处理并使用连通度检测算法获取二值图像中各个候选区域的轮廓区域集C_k＝{c_i}，i＝1，…，T，T为第k帧中候选区域的数量，其中c_i＝{z_j}，j＝0，2，…，V，V为候选区域c_i轮廓点的数量，z_j＝(x_j，y_j)为轮廓点的坐标，对每个轮廓区域进行最小凸包检测。

4.如权利要求3所述的基于动态背景补偿与深度学习的PTZ摄像机运动目标检测与识别方法，其特征在于，最小凸包检测过程包括以下步骤：

(1)输入某轮廓点集c；

(3)对z₀与z_i≠0构成的向量与x轴的夹角升序排列，得到{z₁，z₂，…，z_V}；

(4)将基点z₀，z₁，z₂压入栈S；

(5)依次遍历从下标i＝3到V的z_i；

(9)返回栈S；

5.如权利要求1所述的基于动态背景补偿与深度学习的PTZ摄像机运动目标检测与识别方法，其特征在于，所述步骤三中对由步骤二生成运动目标候区域的背景上下文，这里的背景上下文指的是以候选区域为中心，向外扩展2.5倍的图像块，将候选区域与其相对应的上下文信息分两路输入到深度卷积神经网络中，经特征提取、特征向量拼接后，分成两条支路，一个分支负责目标分类，另一个分支负责精细位置回归。