CN109101653A

CN109101653A - 一种视频文件的检索方法及其系统和应用

Info

Publication number: CN109101653A
Application number: CN201810980605.XA
Authority: CN
Inventors: 鲁轩; 郗来迎; 赵赫男; 王松波; 马明阳; 张孝超; 李海瑞; 孟庆祎
Original assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd
Priority date: 2018-08-27
Filing date: 2018-08-27
Publication date: 2018-12-28

Abstract

本发明公开了一种视频文件的检索方法及其系统和应用，所述检索方法包括：视频序列结构化处理，即将视频序列分割为若干个镜头；提取每个镜头的关键帧图像；提取每个镜头的全局运动特征，建立每个镜头的特征索引；通过用户提交的检索条件在所有镜头的特征索引集合中进行检索，并向用户反馈结果。本发明的方法通过对视频内容进行计算机处理、分析和理解，自动提取并描述视频的特征和内容，建立相关信息索引，实现视频信息更加方便有效的获取。

Description

一种视频文件的检索方法及其系统和应用

技术领域

本发明属于文件检索技术领域，特别涉及一种视频文件的检索方法及其系统和应用。

背景技术

随着信息技术的快速发展和普及，视频形式的多媒体数据在不断的增加，因此，如何在海量的视频信息中检索出想要的内容成为了一个要急需解决的问题。传统的视频检索方法是通过对视频以人工的方法添加文字标识符的方式进行检索，这种检索方式工作量大、效率低，难以满足如今实际生产应用的需要。

视频检索技术是借助计算机对视频进行从底层到高层的处理、分析和理解的过程、获取其内容并根据内容进行检索，对大规模视频数据库中的视频数据进行检索。它提供一种算法在没有人工参与的情况下，自动提取并描述视频的特征和内容，克服了传统检索方式的不足，已成为多媒体信息检索领域的研究热点。

发明内容

本发明的目的是提供一种视频文件的检索方法及其系统和应用，通过对视频内容进行计算机处理、分析和理解，自动提取并描述视频的特征和内容，建立相关信息索引，实现视频信息更加方便有效的获取。

为此，本发明技术方案如下：

第一方面，本发明提供一种视频文件的检索方法，所述检索方法包括以下步骤：

(1)视频序列结构化处理，即将视频序列分割为若干个镜头；

(2)提取每个镜头的关键帧图像；

(3)提取每个镜头的全局运动特征，建立每个镜头的特征索引；

(4)通过用户提交的检索条件在所有镜头的特征索引集合中进行检索，并向用户反馈结果。

优选地，步骤(1)通过镜头边界检测技术将视频序列分割为若干个镜头；具体为通过对镜头切换点的检测找出连续出现的两个镜头之间的边界，把属于同一个镜头的帧聚集在一起的过程。

镜头切换主要有突变和渐变两种方式，突变是指一个镜头与另一个镜头之间没有过渡，由一个镜头瞬间直接转换为另一个镜头的方法；渐变是指一个镜头到另一个镜头渐渐过渡的过程，包括淡入淡出溶解和扫换等。

步骤(2)为提取每个镜头的关键帧图像，即在镜头分割完成后，需要进一步进行镜头关键帧的提取工作。一个镜头的关键帧就是反映该镜头中主要内容的一帧图像或若干帧图像。关键帧的选取一方面必须能够反映镜头中的主要事件，因而描述应尽可能完全准确；另一方面，为便于管理，数据量应尽量小，且计算不宜太复杂。通过分析视频视觉内容(颜色直方图、运动信息)随时间的变化情况，确定所需关键帧的数目，并按照一定的规则为镜头抽取关键帧。

优选地，步骤(3)所述动态特征包括全局运动特征(摄像机的运动如摇镜头、推拉、跟踪等摄像机的操作)及局部运动(镜头内对象的运动，运动轨迹、相对速度、对象之间位置的变化等)特征，静态特征包括颜色、形状、纹理特征等特征；全局运动特征，利用运动图像序列中灰度数据的时域变化和相关性，确定图像像素的运动情况，包括镜头内对象的运动轨迹、相对速度、对象之间位置的变化等信息。

优选地，提取每个镜头的全局运动特征包括以下步骤：考首先从相邻关键帧中选取足够多的观测点，并在其后求出所述观测点的运动矢量，最后利用参数拟合方法估计摄像机的运动模型参数，运用所述运动模型参数建立摄像机运动的通用模型，来刻画每个镜头的全局运动特征；

优选地，所述参数拟合方法为最小二乘估计法。

优选地，步骤(3)所述提取关键帧的静态特征采用PavNet和Faster-Rcnn结合的多目标物体识别算法进行能够从同一张图片中同时识别出多种物体，该算法采用深度神经网络，所有的计算过程都在GPU内完成，利用基于cuda的并行计算技术，使得计算速度大大加快，基本达到实时的要求。

优选地，步骤(4)具体包括以下步骤：

利用步骤(3)中提取的全局运动特征进行检索，根据用户的检索内容向用户反馈检索结果。

优选地，所述方法包括以下步骤：

(1)视频序列结构化处理，即通过镜头边界检测技术将视频序列分割为若干个镜头；

(2)提取每个镜头的关键帧图像；

(3)提取每个镜头的动态特征和关键帧的静态特征，首先从相邻关键帧中选取足够多的观测点，并在其后求出所述观测点的运动矢量，最后利用参数拟合方法估计摄像机的运动模型参数，运用所述运动模型参数建立摄像机运动的通用模型，来刻画每个镜头的全局运动特征，建立每个镜头的特征索引；

(4)通过用户提交的检索条件在提取的全局运动特征进行检索，根据用户的检索内容向用户反馈检索结果。

第二方面，本发明提供一种文件的检索系统，所述检索系统按照第一方面所述的方法进行视频文件的检索。

第三方面，本发明提供第一方面所述的方法在视频文件检索方面的应用。

与现有技术相比，本发明提供的视频文件的检索方法及其系统和应用至少具有以下有益效果：

(1)面对海量的视频数据，利用视频检索技术，告别传统人工查找方式，能够快速的找到所需的视频信息；

(2)提高数据处理效率，满足实际使用的需求。

附图说明

图1为本发明的视频文件的检索方法的流程图。

具体实施方式

下面结合附图及具体实施例对本发明做进一步的说明，但下述实施例绝非对本发明有任何限制。

如图1所示，作为本发明的第一实施例，该视频文件的检索方法包括以下步骤：

(1)视频序列结构化处理，即将视频序列分割为若干个镜头；

(2)提取每个镜头的关键帧图像；

作为本发明的第二实施例，步骤(1)通过镜头边界检测技术将视频序列分割为若干个镜头。

作为本发明的第三实施例，步骤(3)所述全局运动特征包括镜头的动态特征和关键帧的静态特征。

作为本发明的第四实施例，步骤(3)所述提取每个镜头的全局运动特征包括以下步骤：

首先从相邻关键帧中选取足够多的观测点，并在其后求出所述观测点的运动矢量，最后利用参数拟合方法估计摄像机的运动模型参数，运用所述运动模型参数建立摄像机运动的通用模型，来刻画每个镜头的全局运动特征。

作为本发明的第五实施例，步骤(3)所述提取关键帧的静态特征采用PavNet和Faster-Rcnn结合的多目标物体识别算法进行。

作为本发明的第六实施例，步骤(4)具体包括以下步骤：

应该注意到并理解，在不脱离后附的权利要求所要求的本发明的精神和范围的情况下，能够对上述详细描述的本发明做出各种修改和改进。因此，要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

申请人声明，以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种视频文件的检索方法，其特征在于，所述检索方法包括以下步骤：

(1)视频序列结构化处理，即将视频序列分割为若干个镜头；

(2)提取每个镜头的关键帧图像；

(3)提取每个镜头的全局运动特征，从而建立每个镜头的特征索引；

2.根据权利要求1所述的检索方法，其特征在于，步骤(1)通过镜头边界检测技术将视频序列分割为若干个镜头。

3.根据权利要求1或2所述的检索方法，其特征在于，步骤(3)所述全局运动特征包括镜头的动态特征和关键帧的静态特征；

优选地，步骤(3)所述提取每个镜头的全局运动特征包括以下步骤：

首先从相邻关键帧中选取足够多的观测点，并在其后求出所述观测点的运动矢量，最后利用参数拟合方法估计摄像机的运动模型参数，运用所述运动模型参数建立摄像机运动的通用模型，来刻画每个镜头的全局运动特征；

优选地，所述参数拟合方法为最小二乘估计法。

4.根据权利要求3所述的检索方法，其特征在于，步骤(3)所述提取关键帧的静态特征采用PavNet和Faster-Rcnn结合的多目标物体识别算法进行。

5.根据权利要求1-4中任一项所述的检索方法，其特征在于，步骤(4)具体包括以下步骤：

6.根据权利要求1-5中任一项所述的检索方法，其特征在于，包括以下步骤：

(2)提取每个镜头的关键帧图像；

7.一种文件的检索系统，其特征在于，所述检索系统按照权利要求1-6中任一项所述的方法进行视频文件的检索。

8.根据权利要求1-6中任一项所述的方法在视频文件检索方面的应用。