CN113158972A

CN113158972A - 基于光流估测的视频分类张量构造方法

Info

Publication number: CN113158972A
Application number: CN202110515924.5A
Authority: CN
Inventors: 段强; 李锐; 王建华; 张晖
Original assignee: Shandong Inspur Scientific Research Institute Co Ltd
Current assignee: Shandong Inspur Scientific Research Institute Co Ltd
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2021-07-23

Abstract

本发明提供了一种基于光流估测的视频分类张量构造方法，基于光流估测来判断帧间差异性，并保留差异性较大的帧来组成3D张量的方法，并在一定范围内随机对选定帧进行进行前后帧替换从而达到数据增广的效果，可以使有限的视频数据被充分利用。其包括以下步骤：视频片段提取图像；图像预处理；相邻帧的图像相似度评价；设定阈值过滤相似相邻帧；将保留的图像进行padding或者截取。

Description

基于光流估测的视频分类张量构造方法

技术领域

本发明涉及一种基于光流估测的视频分类张量构造方法，属于深度学习、图像处理及视频分类技术领域。

背景技术

当前视频分类算法中将视频段转为3D张量的方式主要是直接将连续固定帧合成一个张量。因为视频普遍是30帧每秒，这样针对一个发生极快（0.5s及以下）的动作有效，但是现实生活中很少有这种场景，如交通事故视频识别，打架斗殴识别等，事件发生的时间基本在2-4s，这样少则几十帧，多则上百帧的情况，只取其中连续16帧会导致较大的误差，可能会错过关键的时间点。

为了保证整段训练视频都可以被学习，通常还会均匀的从所有帧中进行采样，但这样导致训练集数量显著减少，一段视频只能提取出一组训练数据。

发明内容

本发明目的是提供了一种基于光流估测的视频分类张量构造方法，基于光流估测来判断帧间差异性，并保留差异性较大的帧来组成3D张量的方法，并在一定范围内随机对选定帧进行进行前后帧替换从而达到数据增广的效果，可以使有限的视频数据被充分利用。

本发明为实现上述目的，通过以下技术方案实现：

一种基于光流估测的视频分类张量构造方法，包括以下步骤：

视频片段提取图像；

图像预处理；

相邻帧的图像相似度评价；

设定阈值过滤相似相邻帧；

将保留的图像进行padding或者截取。

所述基于光流估测的视频分类张量构造方法优选方案，利用MoviePy或者opencv的python包加载视频，将视频所有帧转换为图像，并对所有图像做统一的预处理。

所述基于光流估测的视频分类张量构造方法优选方案，使用光流估测中的光流L2范数指标作为连续帧区分度的判断依据。

所述基于光流估测的视频分类张量构造方法优选方案，采用向量二范数将该向量表述为标量，进而计算单张图片所有像素的标量范数总和，即单张帧图片数据的光流L2范数。

所述基于光流估测的视频分类张量构造方法优选方案，迭代计算光流L2范数，使结果仅含固定帧数的图像，通常为16张，帧数不足时使用padding进行填充；对于挑选出的构建张量的帧的集合，通过设定一定概率进行前后某一帧替换当前选定帧的操作。

本发明的原理如下：基于帧间差异性的视频采样，使用光流估测中的光流L2范数指标作为连续帧区分度的判断依据，仅当前后两帧图像有一定区分度时，才将图像保留。得益于前后连续帧在大多数情况下基本相似，所以可以在一定范围内随机取前面的某一帧或者后面的某一帧替代当前帧，由此引入随机性，获得不同帧的组合构建3D张量，以此得到数据增广的效果。

本发明的优点在于：

基于光流估测来判断帧间差异性，并保留差异性较大的帧来组成3D张量的方法，并在一定范围内随机对选定帧进行进行前后帧替换从而达到数据增广的效果，可以使有限的视频数据被充分利用。

具体实施方式

下面对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

基于光流估测的视频分类张量构造方法，实施步骤包括：视频片段提取图像，图像预处理，相邻帧的图像相似度评价，设定阈值过滤相似相邻帧，最后将保留的图像进行padding或者截取。

具体地步骤如下：

1.通过MoviePy或者opencv等python包加载视频；

2.将视频所有帧转换为图像，并对所有图像做统一的预处理；

3.通过光流估测评价当前帧与上一帧的区分度，保留光流L2范数；

4.迭代计算光流L2范数，使结果仅含固定帧数的图像，通常为16张，帧数不足时使用padding进行填充；

5.对于挑选出的构建张量的帧的集合，通过设定一定概率进行前后某一帧替换当前选定帧的操作，达到数据增广的效果。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于光流估测的视频分类张量构造方法，其特征在于：包括以下步骤：

视频片段提取图像；

图像预处理；

相邻帧的图像相似度评价；

设定阈值过滤相似相邻帧；

将保留的图像进行padding或者截取。

2.根据权利要求1所述基于光流估测的视频分类张量构造方法，其特征在于：利用MoviePy或者opencv的python包加载视频，将视频所有帧转换为图像，并对所有图像做统一的预处理。

3.根据权利要求1所述基于光流估测的视频分类张量构造方法，其特征在于使用光流估测中的光流L2范数指标作为连续帧区分度的判断依据。

4.根据权利要求3所述基于光流估测的视频分类张量构造方法，其特征在于：采用向量二范数将该向量表述为标量，进而计算单张图片所有像素的标量范数总和，即单张帧图片数据的光流L2范数。

5.根据权利要求4所述基于光流估测的视频分类张量构造方法，其特征在于：迭代计算光流L2范数，使结果仅含固定帧数的图像，通常为16张，帧数不足时使用padding进行填充；对于挑选出的构建张量的帧的集合，通过设定一定概率进行前后某一帧替换当前选定帧的操作。