CN107943837A

CN107943837A - 一种前景目标关键帧化的视频摘要生成方法

Info

Publication number: CN107943837A
Application number: CN201711026911.1A
Authority: CN
Inventors: 朱洪锦; 邰阳; 范洪辉; 叶飞跃
Original assignee: Jiangsu University of Technology
Current assignee: Jiangsu University of Technology
Priority date: 2017-10-27
Filing date: 2017-10-27
Publication date: 2018-04-20
Anticipated expiration: 2037-10-27
Also published as: CN107943837B

Abstract

本发明公开一种前景目标关键帧化的视频摘要生成方法，属于图像处理领域。它包括对待处理视频流逐帧利用由卷积神经网络训练的目标分类器对图像进行检测得到前景目标；结合跟踪算法跟踪每一帧前景目标，逐步更新得到目标运动轨迹；在视频中剔除前景目标，得到无运动目标的视频背景；对提取的前景目标序列，去除相似元素，形成关键化后前景目标序列；将提取的目标用图像融合算法贴合到背景图像并显示相关信息，将整个视频流浓缩成少量视频帧，形成视频概述。利用深度学习技术进行目标检测并与跟踪算法配合，高效实现前景目标的检测跟踪，降低场景噪声对视频处理的干扰，由独立目标重新渲染视频，压缩时空数据，提高视频浏览速率，运用于各复杂场景。

Description

一种前景目标关键帧化的视频摘要生成方法

技术领域

本发明属于图像处理领域，尤其是一种前景目标关键帧化的视频摘要生成方法。

背景技术

监控视频一般采用固定摄像头24小时不间断拍摄的方式进行录制。据报道，海量视频信息，真正发挥作用的可能还不到1％。我国投入巨资建设监控系统所发挥的效益很小。面对这种海量的视频信息，最亟需解决的问题是如何提高浏览效率，以便充分利用视频信息。提高视频事件的获取处理速度，降低人工处理视频效率的疏漏。

视频数据具有表现力强、形象生动等特点，但是其数据量巨大、表现内容不透明、数据无结构等特点使得对视频数据的组织、管理、分析很不方便。在此背景下，视频摘要技术应运而生。该技术利用计算机视觉技术对视频文件的内容进行分析，提取有效信息，生成一个能概括原视频的活动内容，但同时又大大缩短视频长度，压缩了视频的大小。

传统的视频摘要技术，一种方法是从视频提取关键帧，再使用关键帧来生成摘要视频。关键帧是选择出来可以很好代表原始内容的视频帧。另一种方法是从原始视频中选择一些视频段来生成摘要视频。这种方法压缩率比较小，但表现能力更强。Alex Rav-Acha等人在CVPR2006上首次提出了以分析视频帧的元数据为核心的视频摘要技术，该技术将每帧视频的活动信息提取出来，在时空上进行重组。

发明内容

为解决现有技术存在用户不能有效快速浏览监控视频的缺陷，本发明提供一种前景目标关键帧化的视频摘要生成方法。

为实现上述目的，本发明采用下述技术方案：

一种前景目标关键帧化的视频摘要生成方法，它包括如下步骤：

步骤1，采集训练样本，构建数据集，训练神经网络模型；

步骤2，对输入视频逐帧进行目标检测，提取检测目标对应的图像区域；

步骤3，为获取到的检测目标分配跟踪器，进行检测目标的连续跟踪并存储运动轨迹；

步骤4，利用提取到的前景目标和给定背景进行视频背景建模；

步骤5，对各前景目标序列提取关键帧，对所有运动目标的轨迹进行时空压缩，生成较少帧数的摘要图像序列；

步骤6，通过图像融合技术将检测目标的运动轨迹贴合到背景图像上。

进一步地，步骤1中数据集包含常规目标类图像(不包括场景类图像与语义场景类图像，以交通道路为例，则采集以车辆、行人为主的图像数据集，准确地说，数据集应选择具有特征代表性的运动目标，而对于手套、茶杯灯大多静止的物体不作训练)，常规目标类图像包括不同拍摄角度、不同光照变化和天气情况下的独立图像，该图像经分类后，选取训练样本，对目标网络进行离线训练(根据训练结果调整目标网络参数，直至达到一个可观的识别率)。

进一步地，步骤2中目标检测是先将视频逐帧输入基于深度神经网络的目标检测算法，根据步骤一离线训练所得特征，再由输入的视频图像进行在线检测；

在进行步骤2中目标检测之前还包括对图像尺寸的处理步骤(例如将所载入的视频帧放缩至较低分辨率)；

对于新出现在视频场景中的目标，步骤2中目标检测将检测目标判定为新出现的目标，并经步骤3分配跟踪器实现对新目标的跟踪。

步骤2中目标检测的区域，避免在临界阈值下出现多分类的情况；步骤2中目标检测的区域，为每个目标分配新的ID，并将其图像区域作为步骤3中连续跟踪算法的初始化区域。

进一步地，步骤3中检测目标的连续跟踪是基于多个互不干扰的单目标跟踪器实现的；

单目标跟踪器包含在图像边缘自动放弃跟踪，销毁跟踪器的内容以及判定目标图像区域为背景的情况下自动销毁的内容，其判别方式如下：

对于目标图像区域坐标接近图像边缘时，销毁跟踪器；对于接近的阈值设定，根据原始图像的长宽通过百分比进行动态设定；

对于目标图像区域静止不动时，判定跟踪目标区域为背景图像，销毁跟踪图像区域，其判定方法为：计算目标图像区域质心两坐标方向的方差，当两方差值的较大者低于所设阈值时，标记图像区域为静止背景，同时销毁跟踪器；该标记用于下一次检测目标区域的过滤判别。

进一步地，步骤3中单目标跟踪器的连续跟踪算法是基于相关滤波实现的，具体步骤如下：

步骤11，计算步骤2所检测得到的目标图像区域的HOG特征；

步骤12，针对步骤11中的目标图像区域，对该区域像素值进行循环移位，构建分块循环矩阵及高斯回归标签，并通过岭回归训练回归模型对该区域进行多尺度采样，训练尺度滤波器；

步骤13，在新的图像输入时，将图像与步骤12的回归模型根据核函数进行运算，确定响应最大的图像位置，即为目标中心位置；

步骤14，以中心位置对目标进行多尺度采样，提取特征，经尺度滤波器卷积得到目标最优尺度；

步骤15，根据步骤14最终确定跟踪算法跟踪结果，即获取到输出图像区域。

步骤16，对比跟踪结果与当前帧检测结果，进行目标图像区域优化。

进一步地，步骤16中对比优化策略是通过计算目标跟踪图像区域与目标检测图像区域的重叠率，并设置阈值判断为同一目标实现连续跟踪。

对于目标检测图像区域与目标跟踪图像区域，具有两者的相互约束与更新策略，该策略通过计算两区域的重叠率；对于重叠率较大的，判定为跟踪图像区域与检测图像区域指代的为同一个目标，以检测图像区域重置跟踪器；对于重叠率较小的，局部情况下判定为不同目标，全局情况下判定为新进入场景的目标，对于此类目标，作为新目标分配ID，并为其配置跟踪器进行跟踪。

进一步地，步骤4中视频背景建模的具体步骤如下：

步骤21，对于在步骤2获取到的图像，经步骤3剔除前景目标后重新生成图像，作为每一帧的背景提取图像；

步骤22，对于背景提取图像，先取第1帧作为假定背景，再依图像序列顺序，根据权重对背景进行更新；

步骤23，最终得到的最后一帧更新后的背景图像，即为全局背景图像。

上述背景更新的算法是首先认定步骤2和步骤3得到的目标图像为全局前景图像，反向获得其余图像即为背景图像，对于背景图像，采用权重累积的方式更新动态平均值，获得全局背景，更新公式如下：

Dst(i,j)←alpha*Src(i,j)+(1-alpha)Dst(i,j)if mask(i,j)≠0。

对视频图像序列每一帧进行如上所述目标提取以及背景更新，待图像处理完成后，对目标提取结果进行轨迹存储；将各目标的轨迹保存，进入视频摘要的分析阶段进行轨迹分析，具体如下：

进一步地，步骤5中各前景目标序列关键帧提取是通过对比不同图像帧内的同一检测目标，采用颜色直方图比较其图像区域像素点的相似程度实现的。

进一步地，各前景目标序列关键帧提取的具体步骤如下：

步骤31，对前景目标的图像区域序列，进行通道分离，得到RGB三通道分量；

步骤32，将目标图像分割为5*5的25个小图像，对每一个图像设定权值，根据矩阵权值加权计算各通道计算颜色直方图；

步骤33，对每个图像序列，取第一帧作为模型帧，将之后的帧作为对比帧，与模型帧进行直方图对比，若两者差异小于先验阈值，则认为两帧相似，保留模型帧，剔除对比帧；否则，以对比帧截断图像序列，重新生成，再次执行该步骤直至图像序列遍历完毕。

计算公式如下：

对所示高斯拉普拉斯算子对每个目标，第i帧第j个区域相似度为S_ij，权值因子M_j，第i帧图像V_ij与V_1j的相似度为S_i，则有：

S_ij＝|V_ij-V_1j|

对经过压缩分割的前景目标图像，将其按时间顺序依次放入背景图像中的对应位置，最终形成视频摘要的形式，具体如下：

进一步地，步骤6中图像融合技术的具体步骤如下：

步骤41，取出步骤4所得的背景帧；

步骤42，将第一个时间段内取得的前景目标按时间顺序通过泊松编辑方法放置在背景中，并标记目标在原始视频中的出现时间；

步骤43，当一帧图像中放置的对象数目大于一定阈值时，则停止放置；

步骤44，取出下一个时间段内的前景目标进行放置，直至放完；

步骤45，将合成后的所有图像帧组合起来，形成最终的视频摘要。

有益效果：

本发明包括：对待处理的视频流逐帧利用由卷积神经网络训练的目标分类器对图像进行检测得到前景目标；结合跟踪算法对每一帧的前景目标进行跟踪，逐步更新得到目标运动轨迹；在视频中剔除前景目标，得到无运动目标的视频背景；对提取出的前景目标序列，去除相似的元素，形成关键化后的前景目标序列；将提取出的目标利用图像融合算法贴合到背景图像中并显示相关信息，将整个视频流浓缩成少量的视频帧，形成视频的概述。本发明利用深度学习技术进行目标检测并与跟踪算法相互配合，能够高效实现前景目标的检测跟踪，降低场景噪声对视频处理的干扰，并由独立目标重新渲染视频，压缩了时空数据，提高了视频浏览速率，能够运用于各种复杂场景。

附图说明

图1为本发明一实施例的流程图；

图2为本发明一实施例的关键帧提取模块流程图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本实施例的一种前景目标关键帧化的视频摘要生成方法，如图1所示，其生成方法具体流程如下：

S101，构建含有目标视频待检测前景目标的训练数据集，并通过SSD网络进行训练，直至得到最优的SSD网络参数。

具体实现中，以交通道路为例，则采集以车辆、行人为主的图像，对采集图像进行分类，选取训练样本，构成SSD网络的训练数据集。

利用数据集对SSD网络进行训练，并根据中间训练结果对网络参数进行调整，直至网络训练收敛完成训练，并验证识别效果得到网络模型。

S102，载入待摘要的目标视频，并逐帧对图像序列缩放至同一分辨率，得到待监测的原始图像以进行前景目标的提取。

S103，对图像进行前景目标检测。

具体实现中，利用S101步骤训练好的SSD网络模型提取所载入视频帧的特征并作进一步匹配，保留置信度较高的匹配结果，作为前景目标检测的结果，并将检测结果还原至原始图像中，得到前景目标对应的图像区域，即为Rect_Detect。

S104，为得到的前景目标分配跟踪器，进行目标跟踪。

具体实现中，对从S103步骤获取到的目标图像区域，基于相关滤波构建目标跟踪器，具体步骤如下：

第一步，以S103步骤获取到的目标图像区域作为跟踪初始区域，首先计算该区域的HOG特征。

第二步，针对第一步中的前景目标图像区域，对该区域像素值进行循环移位，构建分块循环矩阵及高斯回归标签，并通过岭回归训练回归模型对该区域进行多尺度采样，训练尺度滤波器。

在新的图像输入时，将图像与回归模型根据核函数进行运算，确定目标中心位置，并以中心位置对目标进行多尺度采样，提取特征，经尺度滤波器卷积得到目标最优尺度；以尺度及中心位置还原在原始图像中还原跟踪结果，得到目标跟踪图像区域，即为Rect_Track。

在新的图像中，同样执行S103步骤，得到该图像的目标检测图像区域。

对比目标跟踪图像区域与目标检测图像区域，以位置相似度作为优化策略对各独立目标区域进行区域优化。

该优化策略如下，计算检测区域与跟踪区域的覆盖率Overlop，

设定覆盖阈值T，当覆盖率超过覆盖阈值即认为检测区域与跟踪区域所确定目标为同一目标，并以检测图像区域更新覆盖掉跟踪图像区域。否则保持跟踪图像区域继续进行下一步跟踪。

并根据目标提取结果进行轨迹存储，对每个根据检测及跟踪所得目标，根据其图像区域位置存储不同视频帧中的图像。对于判定为新出现在视频帧的目标，为该目标新分配一个ID，对于已经出现在视频帧中的目标，根据匹配ID存储新的位置。

S105，根据提取到的前景目标更新背景模型。

具体实施如下，对于图像序列每帧的前景目标检测结果，根据图像位置绘制仅有前景目标检测的二值化图像作为mask图像，并基于权重更新背景，更新公式如下：

Dst(i,j)←alpha*Src(i,j)+(1-alpha)Dst(i,j)if mask(i,j)≠0

S106，在视频中的目标提取全部完毕后，对视频目标进行关键帧提取。

如图2所示，关键帧提取模块流程为：开始--加载参考帧--加载对比帧--计算各区域相似度--加权计算总体相似度--根据相似度进行归类--根据均值选取关键帧--结束。

关键帧提取的具体实施方式如下：

第一步，对前景目标的图像区域序列，进行通道分离，得到RGB三通道分量。

第二步，将目标图像分割为5*5的25个小图像，对每一个图像设定权值，根据矩阵权值加权计算各通道计算颜色直方图。

第三步，对每个图像序列，取第一帧作为模型帧，将之后的帧作为对比帧与模型帧进行直方图对比，若两者差异小于先验阈值，则认为两帧相似，保留模型帧，剔除对比帧。否则，则以对比帧截断图像序列，重新生成，再次执行该步骤直至图像序列遍历完毕。

S_ij＝|V_ij-V_1j|

S107，待目标序列特征化完成之后，将运动目标按照轨迹融合到背景图像之中。

具体实施如下，首先，判断前景目标是否在整个视频中基本停止，对于此类目标，作出目标静止的额外标记，在视频摘要中，此类标记不作图像融合处理。

第一步，取出步骤4所得背景帧。

第二步，将第一个时间段内取得的前景目标按时间顺序通过泊松编辑方法放置在背景中，并标记目标在原始视频中的出现时间。

第三步，当一帧图像中放置的对象数目大于一定阈值时则停止放置。

第四步，取出下一个时间段内的前景目标进行放置直至放完。

第五步，将合成后的所有图像帧组合起来，形成最终的视频摘要。

对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种前景目标关键帧化的视频摘要生成方法，其特征在于，它包括如下步骤：

步骤1，采集训练样本，构建数据集，训练神经网络模型；

2.根据权利要求1所述的前景目标关键帧化的视频摘要生成方法，其特征在于，所述步骤1中数据集包含常规目标类图像，常规目标类图像包括不同拍摄角度、不同光照变化和天气情况下的独立图像，该图像经分类后，选取训练样本，对目标网络进行离线训练。

3.根据权利要求1所述的前景目标关键帧化的视频摘要生成方法，其特征在于，所述步骤2中目标检测是先将视频逐帧输入基于深度神经网络的目标检测算法，根据步骤一离线训练所得特征，再由输入的视频图像进行在线检测；

在进行所述步骤2中目标检测之前还包括对图像尺寸的处理步骤；

对于新出现在视频场景中的目标，所述步骤2中目标检测将检测目标判定为新出现的目标，并经步骤3分配跟踪器实现对新目标的跟踪。

4.根据权利要求1所述的前景目标关键帧化的视频摘要生成方法，其特征在于，所述步骤3中检测目标的连续跟踪是基于多个互不干扰的单目标跟踪器实现的；

所述单目标跟踪器包含在图像边缘自动放弃跟踪，销毁跟踪器的内容以及判定目标图像区域为背景的情况下自动销毁的内容。

5.根据权利要求4所述的前景目标关键帧化的视频摘要生成方法，其特征在于，所述步骤3中单目标跟踪器的连续跟踪算法是基于相关滤波实现的，具体步骤如下：

步骤11，计算步骤2所检测得到的目标图像区域的HOG特征；

6.根据权利要求5所述的前景目标关键帧化的视频摘要生成方法，其特征在于，所述步骤16中对比优化策略是通过计算目标跟踪图像区域与目标检测图像区域的重叠率，并设置阈值判断为同一目标实现连续跟踪。

7.根据权利要求1所述的前景目标关键帧化的视频摘要生成方法，其特征在于，所述步骤4中视频背景建模的具体步骤如下：

8.根据权利要求1所述的前景目标关键帧化的视频摘要生成方法，其特征在于，所述步骤5中各前景目标序列关键帧提取是通过对比不同图像帧内的同一检测目标，采用颜色直方图比较其图像区域像素点的相似程度实现的。

9.根据权利要求8所述的前景目标关键帧化的视频摘要生成方法，其特征在于，所述各前景目标序列关键帧提取的具体步骤如下：

10.根据权利要求1所述的前景目标关键帧化的视频摘要生成方法，其特征在于，所述步骤6中图像融合技术的具体步骤如下：

步骤41，取出步骤4所得的背景帧；