CN109101653A - 一种视频文件的检索方法及其系统和应用 - Google Patents
一种视频文件的检索方法及其系统和应用 Download PDFInfo
- Publication number
- CN109101653A CN109101653A CN201810980605.XA CN201810980605A CN109101653A CN 109101653 A CN109101653 A CN 109101653A CN 201810980605 A CN201810980605 A CN 201810980605A CN 109101653 A CN109101653 A CN 109101653A
- Authority
- CN
- China
- Prior art keywords
- camera lens
- video
- camera
- key frame
- search method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明公开了一种视频文件的检索方法及其系统和应用,所述检索方法包括:视频序列结构化处理,即将视频序列分割为若干个镜头;提取每个镜头的关键帧图像;提取每个镜头的全局运动特征,建立每个镜头的特征索引;通过用户提交的检索条件在所有镜头的特征索引集合中进行检索,并向用户反馈结果。本发明的方法通过对视频内容进行计算机处理、分析和理解,自动提取并描述视频的特征和内容,建立相关信息索引,实现视频信息更加方便有效的获取。
Description
技术领域
本发明属于文件检索技术领域,特别涉及一种视频文件的检索方法及其系统和应用。
背景技术
随着信息技术的快速发展和普及,视频形式的多媒体数据在不断的增加,因此,如何在海量的视频信息中检索出想要的内容成为了一个要急需解决的问题。传统的视频检索方法是通过对视频以人工的方法添加文字标识符的方式进行检索,这种检索方式工作量大、效率低,难以满足如今实际生产应用的需要。
视频检索技术是借助计算机对视频进行从底层到高层的处理、分析和理解的过程、获取其内容并根据内容进行检索,对大规模视频数据库中的视频数据进行检索。它提供一种算法在没有人工参与的情况下,自动提取并描述视频的特征和内容,克服了传统检索方式的不足,已成为多媒体信息检索领域的研究热点。
发明内容
本发明的目的是提供一种视频文件的检索方法及其系统和应用,通过对视频内容进行计算机处理、分析和理解,自动提取并描述视频的特征和内容,建立相关信息索引,实现视频信息更加方便有效的获取。
为此,本发明技术方案如下:
第一方面,本发明提供一种视频文件的检索方法,所述检索方法包括以下步骤:
(1)视频序列结构化处理,即将视频序列分割为若干个镜头;
(2)提取每个镜头的关键帧图像;
(3)提取每个镜头的全局运动特征,建立每个镜头的特征索引;
(4)通过用户提交的检索条件在所有镜头的特征索引集合中进行检索,并向用户反馈结果。
优选地,步骤(1)通过镜头边界检测技术将视频序列分割为若干个镜头;具体为通过对镜头切换点的检测找出连续出现的两个镜头之间的边界,把属于同一个镜头的帧聚集在一起的过程。
镜头切换主要有突变和渐变两种方式,突变是指一个镜头与另一个镜头之间没有过渡,由一个镜头瞬间直接转换为另一个镜头的方法;渐变是指一个镜头到另一个镜头渐渐过渡的过程,包括淡入淡出溶解和扫换等。
步骤(2)为提取每个镜头的关键帧图像,即在镜头分割完成后,需要进一步进行镜头关键帧的提取工作。一个镜头的关键帧就是反映该镜头中主要内容的一帧图像或若干帧图像。关键帧的选取一方面必须能够反映镜头中的主要事件,因而描述应尽可能完全准确;另一方面,为便于管理,数据量应尽量小,且计算不宜太复杂。通过分析视频视觉内容(颜色直方图、运动信息)随时间的变化情况,确定所需关键帧的数目,并按照一定的规则为镜头抽取关键帧。
优选地,步骤(3)所述动态特征包括全局运动特征(摄像机的运动如摇镜头、推拉、跟踪等摄像机的操作)及局部运动(镜头内对象的运动,运动轨迹、相对速度、对象之间位置的变化等)特征,静态特征包括颜色、形状、纹理特征等特征;全局运动特征,利用运动图像序列中灰度数据的时域变化和相关性,确定图像像素的运动情况,包括镜头内对象的运动轨迹、相对速度、对象之间位置的变化等信息。
优选地,提取每个镜头的全局运动特征包括以下步骤:考首先从相邻关键帧中选取足够多的观测点,并在其后求出所述观测点的运动矢量,最后利用参数拟合方法估计摄像机的运动模型参数,运用所述运动模型参数建立摄像机运动的通用模型,来刻画每个镜头的全局运动特征;
优选地,所述参数拟合方法为最小二乘估计法。
优选地,步骤(3)所述提取关键帧的静态特征采用PavNet和Faster-Rcnn结合的多目标物体识别算法进行能够从同一张图片中同时识别出多种物体,该算法采用深度神经网络,所有的计算过程都在GPU内完成,利用基于cuda的并行计算技术,使得计算速度大大加快,基本达到实时的要求。
优选地,步骤(4)具体包括以下步骤:
利用步骤(3)中提取的全局运动特征进行检索,根据用户的检索内容向用户反馈检索结果。
优选地,所述方法包括以下步骤:
(1)视频序列结构化处理,即通过镜头边界检测技术将视频序列分割为若干个镜头;
(2)提取每个镜头的关键帧图像;
(3)提取每个镜头的动态特征和关键帧的静态特征,首先从相邻关键帧中选取足够多的观测点,并在其后求出所述观测点的运动矢量,最后利用参数拟合方法估计摄像机的运动模型参数,运用所述运动模型参数建立摄像机运动的通用模型,来刻画每个镜头的全局运动特征,建立每个镜头的特征索引;
(4)通过用户提交的检索条件在提取的全局运动特征进行检索,根据用户的检索内容向用户反馈检索结果。
第二方面,本发明提供一种文件的检索系统,所述检索系统按照第一方面所述的方法进行视频文件的检索。
第三方面,本发明提供第一方面所述的方法在视频文件检索方面的应用。
与现有技术相比,本发明提供的视频文件的检索方法及其系统和应用至少具有以下有益效果:
(1)面对海量的视频数据,利用视频检索技术,告别传统人工查找方式,能够快速的找到所需的视频信息;
(2)提高数据处理效率,满足实际使用的需求。
附图说明
图1为本发明的视频文件的检索方法的流程图。
具体实施方式
下面结合附图及具体实施例对本发明做进一步的说明,但下述实施例绝非对本发明有任何限制。
如图1所示,作为本发明的第一实施例,该视频文件的检索方法包括以下步骤:
(1)视频序列结构化处理,即将视频序列分割为若干个镜头;
(2)提取每个镜头的关键帧图像;
(3)提取每个镜头的全局运动特征,建立每个镜头的特征索引;
(4)通过用户提交的检索条件在所有镜头的特征索引集合中进行检索,并向用户反馈结果。
作为本发明的第二实施例,步骤(1)通过镜头边界检测技术将视频序列分割为若干个镜头。
作为本发明的第三实施例,步骤(3)所述全局运动特征包括镜头的动态特征和关键帧的静态特征。
作为本发明的第四实施例,步骤(3)所述提取每个镜头的全局运动特征包括以下步骤:
首先从相邻关键帧中选取足够多的观测点,并在其后求出所述观测点的运动矢量,最后利用参数拟合方法估计摄像机的运动模型参数,运用所述运动模型参数建立摄像机运动的通用模型,来刻画每个镜头的全局运动特征。
作为本发明的第五实施例,步骤(3)所述提取关键帧的静态特征采用PavNet和Faster-Rcnn结合的多目标物体识别算法进行。
作为本发明的第六实施例,步骤(4)具体包括以下步骤:
利用步骤(3)中提取的全局运动特征进行检索,根据用户的检索内容向用户反馈检索结果。
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。
申请人声明,以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (8)
1.一种视频文件的检索方法,其特征在于,所述检索方法包括以下步骤:
(1)视频序列结构化处理,即将视频序列分割为若干个镜头;
(2)提取每个镜头的关键帧图像;
(3)提取每个镜头的全局运动特征,从而建立每个镜头的特征索引;
(4)通过用户提交的检索条件在所有镜头的特征索引集合中进行检索,并向用户反馈结果。
2.根据权利要求1所述的检索方法,其特征在于,步骤(1)通过镜头边界检测技术将视频序列分割为若干个镜头。
3.根据权利要求1或2所述的检索方法,其特征在于,步骤(3)所述全局运动特征包括镜头的动态特征和关键帧的静态特征;
优选地,步骤(3)所述提取每个镜头的全局运动特征包括以下步骤:
首先从相邻关键帧中选取足够多的观测点,并在其后求出所述观测点的运动矢量,最后利用参数拟合方法估计摄像机的运动模型参数,运用所述运动模型参数建立摄像机运动的通用模型,来刻画每个镜头的全局运动特征;
优选地,所述参数拟合方法为最小二乘估计法。
4.根据权利要求3所述的检索方法,其特征在于,步骤(3)所述提取关键帧的静态特征采用PavNet和Faster-Rcnn结合的多目标物体识别算法进行。
5.根据权利要求1-4中任一项所述的检索方法,其特征在于,步骤(4)具体包括以下步骤:
利用步骤(3)中提取的全局运动特征进行检索,根据用户的检索内容向用户反馈检索结果。
6.根据权利要求1-5中任一项所述的检索方法,其特征在于,包括以下步骤:
(1)视频序列结构化处理,即通过镜头边界检测技术将视频序列分割为若干个镜头;
(2)提取每个镜头的关键帧图像;
(3)提取每个镜头的动态特征和关键帧的静态特征,首先从相邻关键帧中选取足够多的观测点,并在其后求出所述观测点的运动矢量,最后利用参数拟合方法估计摄像机的运动模型参数,运用所述运动模型参数建立摄像机运动的通用模型,来刻画每个镜头的全局运动特征,建立每个镜头的特征索引;
(4)通过用户提交的检索条件在提取的全局运动特征进行检索,根据用户的检索内容向用户反馈检索结果。
7.一种文件的检索系统,其特征在于,所述检索系统按照权利要求1-6中任一项所述的方法进行视频文件的检索。
8.根据权利要求1-6中任一项所述的方法在视频文件检索方面的应用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810980605.XA CN109101653A (zh) | 2018-08-27 | 2018-08-27 | 一种视频文件的检索方法及其系统和应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810980605.XA CN109101653A (zh) | 2018-08-27 | 2018-08-27 | 一种视频文件的检索方法及其系统和应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109101653A true CN109101653A (zh) | 2018-12-28 |
Family
ID=64851236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810980605.XA Pending CN109101653A (zh) | 2018-08-27 | 2018-08-27 | 一种视频文件的检索方法及其系统和应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109101653A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110083742A (zh) * | 2019-04-29 | 2019-08-02 | 腾讯科技(深圳)有限公司 | 一种视频查询方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982553A (zh) * | 2012-12-21 | 2013-03-20 | 天津工业大学 | 一种镜头边界检测方法 |
CN103279473A (zh) * | 2013-04-10 | 2013-09-04 | 深圳康佳通信科技有限公司 | 海量视频内容检索方法、系统及移动终端 |
CN106959149A (zh) * | 2017-04-05 | 2017-07-18 | 西安电子科技大学 | 果蔬自动称重与计价智能电子秤 |
CN107016344A (zh) * | 2017-03-08 | 2017-08-04 | 上海极链网络科技有限公司 | 视频中品牌识别系统及其实现方法 |
CN107896313A (zh) * | 2017-11-01 | 2018-04-10 | 无锡港湾网络科技有限公司 | 一种地下管廊无线视频监控系统 |
-
2018
- 2018-08-27 CN CN201810980605.XA patent/CN109101653A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982553A (zh) * | 2012-12-21 | 2013-03-20 | 天津工业大学 | 一种镜头边界检测方法 |
CN103279473A (zh) * | 2013-04-10 | 2013-09-04 | 深圳康佳通信科技有限公司 | 海量视频内容检索方法、系统及移动终端 |
CN107016344A (zh) * | 2017-03-08 | 2017-08-04 | 上海极链网络科技有限公司 | 视频中品牌识别系统及其实现方法 |
CN106959149A (zh) * | 2017-04-05 | 2017-07-18 | 西安电子科技大学 | 果蔬自动称重与计价智能电子秤 |
CN107896313A (zh) * | 2017-11-01 | 2018-04-10 | 无锡港湾网络科技有限公司 | 一种地下管廊无线视频监控系统 |
Non-Patent Citations (1)
Title |
---|
谌爱容: "《网络环境下图书馆的用户研究与信息服务》", 31 July 2017 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110083742A (zh) * | 2019-04-29 | 2019-08-02 | 腾讯科技(深圳)有限公司 | 一种视频查询方法和装置 |
CN110083742B (zh) * | 2019-04-29 | 2022-12-06 | 腾讯科技(深圳)有限公司 | 一种视频查询方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
GB2607749A (en) | Fine-grained visual recognition in mobile augmented reality | |
Vijayakumar et al. | Retrieval of complex images using visual saliency guided cognitive classification | |
CN108256439A (zh) | 一种基于循环生成式对抗网络的行人图像生成方法及系统 | |
CN113240691A (zh) | 一种基于u型网络的医学图像分割方法 | |
CN103714181B (zh) | 一种层级化的特定人物检索方法 | |
CN106991370B (zh) | 基于颜色和深度的行人检索方法 | |
US20150332117A1 (en) | Composition modeling for photo retrieval through geometric image segmentation | |
CN110827312B (zh) | 一种基于协同视觉注意力神经网络的学习方法 | |
CN113408584B (zh) | Rgb-d多模态特征融合3d目标检测方法 | |
Rallis et al. | Extraction of key postures from 3D human motion data for choreography summarization | |
CN110413816A (zh) | 彩色草图图像搜索 | |
CN110826424A (zh) | 一种基于行人重识别驱动定位调整的行人搜索方法 | |
CN109829932A (zh) | 一种自动前景提取的数据采集方法及装置 | |
Yan et al. | Depth map generation for 2d-to-3d conversion by limited user inputs and depth propagation | |
CN114677323A (zh) | 一种室内动态场景下基于目标检测的语义视觉slam定位方法 | |
Abdulwahab et al. | Adversarial learning for depth and viewpoint estimation from a single image | |
CN116682140A (zh) | 基于注意力机制多模态融合的三维人体姿态估计算法 | |
CN106529441A (zh) | 基于模糊边界分片的深度动作图人体行为识别方法 | |
CN110287369B (zh) | 一种基于语义的视频检索方法及系统 | |
Zhu et al. | Automatic group cohesiveness detection with multi-modal features | |
CN104504162B (zh) | 一种基于机器人视觉平台的视频检索方法 | |
Merino‐Gracia et al. | Real‐time text tracking in natural scenes | |
CN109101653A (zh) | 一种视频文件的检索方法及其系统和应用 | |
CN117392289A (zh) | 基于ai语音自动生成案发现场视频的方法和系统 | |
Zhou et al. | Modeling perspective effects in photographic composition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181228 |
|
RJ01 | Rejection of invention patent application after publication |