CN101122914A - 一种基于本体和注释技术的视频检索方法 - Google Patents

一种基于本体和注释技术的视频检索方法 Download PDF

Info

Publication number
CN101122914A
CN101122914A CNA2007100357396A CN200710035739A CN101122914A CN 101122914 A CN101122914 A CN 101122914A CN A2007100357396 A CNA2007100357396 A CN A2007100357396A CN 200710035739 A CN200710035739 A CN 200710035739A CN 101122914 A CN101122914 A CN 101122914A
Authority
CN
China
Prior art keywords
video
annotation
retrieval
frame
present
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007100357396A
Other languages
English (en)
Inventor
欧阳建权
李莹莹
张敏
唐玉元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiangtan University
Original Assignee
Xiangtan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiangtan University filed Critical Xiangtan University
Priority to CNA2007100357396A priority Critical patent/CN101122914A/zh
Publication of CN101122914A publication Critical patent/CN101122914A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明公开了一种基于本体和注释技术的视频检索方法,属于视频检索技术领域。现有的视频检索方法往往存在检索词不规范,检索效率低的问题。针对现有技术中存在的不足,本发明提出了基于本体和注释技术的视频检索方法,设计了基于本体的语义字典,并利用规范的领域词汇描述视频内容及其结构,解决了检索词不规范的问题,通过对镜头和关键帧进行注释,并采用XML实现视频数据的表示,定义一个富有层次的视频元数据结构,结合XML的层次特征来表达视频数据的层次关系,实现视频数据的非线性组织,这样使得视频检索更加高效、方便。实验结果表明,与现有方法相比,本发明可以取得更高的检索准确率和更快的检索速度。

Description

一种基于本体和注释技术的视频检索方法
技术领域
本发明属于视频检索技术领域,具体涉及一种基于本体和注释技术的视频检索方法。
背景技术
随着视频数据的剧增,如何对大量的多媒体信息进行组织和管理,实现快速有效的视频浏览和检索,已成为当今备受关注的焦点。目前大多数多媒体的应用还很少使用到媒体的语义信息,各种媒体的内容之间没有建立起联系,不能依据这些联系来组织、处理和使用信息。因此,有必要采用相应的方法和工具,对多媒体的数据按照不同的形式和来源,通过增加相关语义进行注释,以便于对大量的多媒体信息进行组织和管理,实现快速有效的视频浏览和检索。
国外通过注释方法检索视频取得了一定的成果,对视频的注释方法主要有以下几种:一用图标语言进行视频注释的方法,该方法虽然直观,但是由于未引入有效的知识表示工具,因此不能有效描述视频内容。二利用相关反馈技术进行半自动视频注释,不过该方法所应用的本体没有清晰描述子类间关系,因此根据标注获得的关键词未能有效描述视频内容和结构。三基于规则的视频注释方法,采用模糊逻辑和规则挖掘的方法建立高层语义和低层特征的映射进行注释。但是该方法主要基于分类学,没有进一步挖掘子类间关系和约束。国内郑鹏提出了基于注释的视频索引方法,该方法按镜头对视频进行分段,对每一个镜头进行注释,然后根据应用的需要建立视频文档,方便用户检索。该方法能很好的反映视频数据的语义特征,但是注释需要全手工进行,使注释的成本较高,而且注释的结果与注释者有很大的关系,注释不规范给检索带来了很大的困难。
发明内容
本发明的目的是在于为视频检索领域提供一种高效的、可靠的视频检索方法。
本发明的目的是通过如下方式实现的:
(1)首先基于本体设计语义字典;
(2)对视频提取重放镜头和关键帧;
(3)利用语义字典对镜头和关键帧进行注释;
(4)使用注释信息对视频进行检索。
对视频重放镜头的提取是通过计算每一帧与重放镜头模板之间的颜色直方图距离:
d ( s , t ) = sqrt i = 0 n ( Σ ( s ( i ) - t ( i ) ) 2 )
其中s,t两幅图像的帧号,d(s,t)为图像s和图像t的直方图距离,n为颜色值的数目,s(i)为图像s的第i个颜色值,t(i)为图像t的第i个颜色值。当距离小于给定阈值3000时,记为一次标志匹配,若在该镜头开始之前发生了奇数次匹配,则是重放镜头。
关键帧提取是通过最短路径约束的最小化失真率的算法,算法如下:
(1)进行压缩域摄像机运动估计,首先基于M估计进行摄像机运动参数估计,并基于极线距离约束验证去除外点的正确性,并利用BFGS方法获得参数的最佳估计,求出摄像机运动参数;
(2)j=i=0,kf0=0,关键帧集合KF={帧F0}(j为关键帧kf下标);
(3)i=i+1,Ifi-kfj>Tfand D ( f i , f kf j ) > = T d and D ( f i , f kf j ) < = &lambda; i (D(fi,fkfj)为两帧间的重叠部分, &lambda; i = D ( f kf j - 2 , f kf j - 1 ) + D ( f kf j , f kf j - 1 ) 为基于最短路径的估计值),then j=j+1,kfj=i, O kf j &Element; KF ;
(4)Repeat 3 until i=n-1。
视频的检索是通过载入所有的注释文件,把文件中的数据转化成对应的数据结构,再检索与输入的检索条件相匹配的注释文件,得到符合条件的视频路径及其起始和结束帧。
本发明具有如下的有益效果,视频注释利用规范的领域词汇描述视频内容及其结构,应用XML做为注释信息的存储形式,定义一个富有层次的视频元数据结构,结合XML的层次特征来表达视频数据的层次关系,实现视频数据的非线性组织,可以实现更可靠、有效的视频内容注释,使视频检索更加高效、方便,具体来说有以下效果:
1.本发明基于本体建立视频注释所需要的语义字典,对达成共知的领域知识进行规范的、明确的描述,并且,构造的语义字典可以复用。
2.传统的基于像素域的摄像机运动估计一般通过基于梯度的方法进行优化参数计算,但是该方法要对帧中像素进行计算,计算量非常大,时间复杂度较高,因此我们对摄像机运动估计方法进行改进,以摄像机参数为运动特征,将关键帧选择问题转化为最短路径选择问题,改进后的方法充分考虑了视频流的全局运动,基于最短路径建模选择关键帧,能够降低关键帧选择的失真率;其次由于我们的方法基于压缩域,速度比较快,可以实现实时性。
3.对视频进行了镜头和关键帧提取,使视频注释具有高效性,因其注释是基于本体的,所以满足视频注释的规范性、明确性。
4.利用注释信息检索重放镜头和关键帧的方法,用户可以通过输入所做注释的任何信息方便、快捷的检索到重放镜头和关键帧,从而快速定位到用户检索的视频片段,改变了用户传统、单一的播放和观看视频的方式。
附图说明
图1是本发明语义字典;
图2是本发明镜头注释界面;
图3是本发明关键帧注释界面;
图4是本发明检索界面;
具体实施方式
下面结合实施例对本发明做进一步说明:
实施例
以体育视频为例。
1.语义字典的建立。
以体育领域中足球项目为例,足球语义字典包括视频中可能出现的人物、运动员当前的动作、运动员所在的位置和比赛类型,建立语义字典,如图1所示,然后以XML形式保存起来。
2.提取视频重放镜头和关键帧。
2.1重放镜头提取:
首先通过用户交互从视频中选取重放镜头标志匹配模板,对每一帧计算它和重放镜头标志模板的距离。距离计算由下式给出:
d ( s , t ) = sqrt i = 0 n ( &Sigma; ( s ( i ) - t ( i ) ) 2 )
其中s,t两幅图像的帧号,d(s,t)为图像s和图像t的直方图距离,n为颜色值的数目,s(i)为图像s的第i个颜色值,t(i)为图像t的第i个颜色值。当距离小于给定阈值时,记为一次标志匹配。为避免重复匹配,约定若相邻的两次匹配发生在最小间隔帧数以内,则只记为一次。根据标志匹配的次数就可以对镜头是否属于重放进行判断。若在该镜头开始之前发生了偶数次(包括次数为零)标志匹配,则该镜头为正常镜头,若之前发生了奇数次匹配,则是重放镜头。
2.2关键帧提取:
以摄像机参数为运动特征,基于最短路径约束的最小化失真率提取关键帧,其算法为:
(1)进行压缩域摄像机运动估计,首先基于M估计进行摄像机运动参数估计,并基于极线距离约束验证去除外点的正确性,并利用BFGS方法获得参数的最佳估计,求出摄像机运动参数;
(2)j=i=0,kf0=0,关键帧集合KF={帧F0}(j为关键帧kf下标);
(3)i=i+1,Ifi-kfj>Tfand D ( f i , f kf j ) > = T d and D ( f i , f kf j ) < = &lambda; i (D(fi,fkfj)为两帧间的重叠部分, &lambda; i = D ( f kf j - 2 , f kf j - 1 ) + D ( f kf j , f kf j - 1 ) 为基于最短路径的估计值),then j=j+1,kfj=i, O kf j &Element; KF ;
(4)Repeat (3)until i=n-1。
3.视频注释。
3.1镜头注释:
镜头注释程序界面如图2所示。
3.2关键帧注释:
关键帧注释程序运行界面如图3所示。
具体注释的步骤如下:
(1)通过load或者是loadXML方法装载XML文档。
(2)添加各结点的属性内容。
<annotation>是整个注释文件的根节点,添加它的属性内容:镜头的路径(c:\shot1.mpg)、镜头所描述的体育项目(足球)、起始帧(832)和结束帧(1493)。<annotation>有三个子节点<person>、<shotaction>、<gametype>分别对应语义词典中的“人物”、“动作”和“比赛类型”。<person>有三个子节点<type>、<number>和<name>。语义词典中已经归纳了所要注释的六个体育项目的所有<type>,用户只要在其中选择一种,例如选择“运动员”。而<number>和<name>则需要用户自己输入,例如number为10,name为戈麦斯。<gametype>有两个子节点<sex>和<type>共同描述了比赛的类型,列如“男子国际比赛”。
运行后得到注释结果如下:
<annotation videoname=”c:\shot1.mpg”videotype=”足球”起始帧=”832”结束帧=”1493>”
 <person>
   <type>运动员</type>
   <number>10</number>
   <name>戈麦斯</name>
  </person>
  <shotaction>射门</shotaction>
  <gametype>
   <sex>男子</sex>
   <type>国际比赛</type>
  </gametype>
</annotation>
(3)将注释结果以XML文件形式保存起来。
4.视频检索
以镜头检索为例,首先载入所有的镜头注释XML文件,然后把文件中的数据转换成按照语义字典组织的数据结构。镜头检索过程中,输入运动员的名字“戈麦斯”,输入检索的动作“射门”,就可以得到重放镜头的起始帧和结束帧的位置,通过播放器跳到指定的位置。关键帧检索过程中,输入运动员的名字“戈麦斯”,动作选择“射门”,位置选择“中线”,得到起始帧和结束帧的位置,通过播放器跳到指定的关键帧,如图4所示。

Claims (4)

1.一种基于本体和注释技术的视频检索方法,其特征在于该方法包括以下步骤:
(1)首先基于本体设计语义字典;
(2)对视频提取重放镜头和关键帧;
(3)利用语义字典对镜头和关键帧进行注释;
(4)使用注释信息对视频进行检索。
2.如权利要求1所述的一种基于本体和注释技术的视频检索方法,其特征在于:对视频重放镜头的提取是通过计算每一帧与重放镜头模板之间的颜色直方图距离:
d ( s , t ) = sqrt i = 0 n ( &Sigma; ( s ( i ) - t ( i ) ) 2 )
其中s,t两幅图像的帧号,d(s,t)为图像s和图像t的直方图距离,n为颜色值的数目,s(i)为图像s的第i个颜色值,t(i)为图像t的第i个颜色值。当距离小于给定阈值3000时,记为一次标志匹配,若在该镜头开始之前发生了奇数次匹配,则是重放镜头。
3.如权利要求1所述的一种基于本体和注释技术的视频检索方法,其特征在于:关键帧提取是通过最短路径约束的最小化失真率的算法,算法如下:
(1)进行压缩域摄像机运动估计,首先基于M估计进行摄像机运动参数估计,并基于极线距离约束验证去除外点的正确性,然后利用BFGS方法获得参数的最佳估计,求出摄像机运动参数;
(2)j=i=0,kf0=0,关键帧集合KF={帧F0}(j为关键帧kf下标);
(3)i=i+1,If i-kfj>Tfand D ( f i , f kf j ) > = T d and D ( f i , f kf j ) < = &lambda; i ( D ( f i , f kf j ) 为两帧间的重叠部分, &lambda; i = D ( f kf j - 2 , f kf j - 1 ) + D ( f kf j , f kf j - 1 ) 为基于最短路径的估计值),then j=j+1,kfj=i, O kf j &Element; KF ;
(4)Repeat(3)until i=n-1。
4.如权利要求1所述的一种基于本体和注释技术的视频检索方法,其特征在于:视频的检索是通过载入所有的注释文件,把文件中的数据转化成语义字典的数据结构,再检索与输入的检索条件相匹配的注释文件,得到符合条件的视频路径及其起始和结束帧。
CNA2007100357396A 2007-09-14 2007-09-14 一种基于本体和注释技术的视频检索方法 Pending CN101122914A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2007100357396A CN101122914A (zh) 2007-09-14 2007-09-14 一种基于本体和注释技术的视频检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007100357396A CN101122914A (zh) 2007-09-14 2007-09-14 一种基于本体和注释技术的视频检索方法

Publications (1)

Publication Number Publication Date
CN101122914A true CN101122914A (zh) 2008-02-13

Family

ID=39085250

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007100357396A Pending CN101122914A (zh) 2007-09-14 2007-09-14 一种基于本体和注释技术的视频检索方法

Country Status (1)

Country Link
CN (1) CN101122914A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763439A (zh) * 2010-03-05 2010-06-30 中国科学院软件研究所 一种基于草图的超视频构建方法
CN101958883A (zh) * 2010-03-26 2011-01-26 湘潭大学 一种基于Bloom Filter和开源内核防御SYN Flood攻击的方法
CN103279581A (zh) * 2013-06-25 2013-09-04 中国科学院自动化研究所 一种利用紧凑视频主题描述子进行视频检索的方法
CN103678569A (zh) * 2013-12-09 2014-03-26 北京航空航天大学 一种面向虚拟场景生成的视频图像素材库的构造方法
CN104023181A (zh) * 2014-06-23 2014-09-03 联想(北京)有限公司 信息处理方法及装置
CN104123709A (zh) * 2013-04-23 2014-10-29 中国科学院沈阳自动化研究所 一种基于字典选择的关键帧提取方法
CN105528417A (zh) * 2015-12-07 2016-04-27 北京航空航天大学 一种基于本体的社区监控视频语义模型的应用系统和方法
CN105912684A (zh) * 2016-04-15 2016-08-31 湘潭大学 基于视觉特征和语义特征的跨媒体检索方法
CN106126590A (zh) * 2016-06-20 2016-11-16 北京航空航天大学 一种基于关键信息的无人机侦察视频检索方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763439B (zh) * 2010-03-05 2012-09-19 中国科学院软件研究所 一种基于草图的超视频构建方法
CN101763439A (zh) * 2010-03-05 2010-06-30 中国科学院软件研究所 一种基于草图的超视频构建方法
CN101958883A (zh) * 2010-03-26 2011-01-26 湘潭大学 一种基于Bloom Filter和开源内核防御SYN Flood攻击的方法
CN101958883B (zh) * 2010-03-26 2012-12-12 湘潭大学 一种基于Bloom Filter和开源内核防御SYN Flood攻击的方法
CN104123709A (zh) * 2013-04-23 2014-10-29 中国科学院沈阳自动化研究所 一种基于字典选择的关键帧提取方法
CN103279581B (zh) * 2013-06-25 2016-08-17 中国科学院自动化研究所 一种利用紧凑视频主题描述子进行视频检索的方法
CN103279581A (zh) * 2013-06-25 2013-09-04 中国科学院自动化研究所 一种利用紧凑视频主题描述子进行视频检索的方法
CN103678569A (zh) * 2013-12-09 2014-03-26 北京航空航天大学 一种面向虚拟场景生成的视频图像素材库的构造方法
CN103678569B (zh) * 2013-12-09 2017-02-15 北京航空航天大学 一种面向虚拟场景生成的视频图像素材库的构造方法
CN104023181A (zh) * 2014-06-23 2014-09-03 联想(北京)有限公司 信息处理方法及装置
CN104023181B (zh) * 2014-06-23 2018-08-31 联想(北京)有限公司 信息处理方法及装置
CN105528417A (zh) * 2015-12-07 2016-04-27 北京航空航天大学 一种基于本体的社区监控视频语义模型的应用系统和方法
CN105912684A (zh) * 2016-04-15 2016-08-31 湘潭大学 基于视觉特征和语义特征的跨媒体检索方法
CN105912684B (zh) * 2016-04-15 2019-07-26 湘潭大学 基于视觉特征和语义特征的跨媒体检索方法
CN106126590A (zh) * 2016-06-20 2016-11-16 北京航空航天大学 一种基于关键信息的无人机侦察视频检索方法

Similar Documents

Publication Publication Date Title
CN101122914A (zh) 一种基于本体和注释技术的视频检索方法
Truong et al. Video abstraction: A systematic review and classification
Kolekar Bayesian belief network based broadcast sports video indexing
Petkovic et al. CONTENT-BASED VIDEO RETRIEVAL: A DatabllSe Perspective
Ghosh et al. SmartTennisTV: Automatic indexing of tennis videos
Calic et al. A survey on multimodal video representation for semantic retrieval
Bailer et al. Content-based video retrieval and summarization using MPEG-7
Moënne-Loccoz et al. Managing video collections at large
Muneesawang et al. A new learning algorithm for the fusion of adaptive audio–visual features for the retrieval and classification of movie clips
Tran et al. Character-based indexing and browsing with movie ontology
Tang et al. Multi-modal segment assemblage network for ad video editing with importance-coherence reward
Ćalić et al. An overview of multimodal video representation for semantic analysis
Jiang et al. Tencent AVS: A Holistic Ads Video Dataset for Multi-Modal Scene Segmentation
Dong et al. Advanced news video parsing via visual characteristics of anchorperson scenes
Dao et al. Sports event detection using temporal patterns mining and web-casting text
Song et al. Knowledge representation for video assisted by domain-specific ontology
WO2001069438A2 (en) Methods and apparatus for encoding multimedia annotations using time-synchronized description streams
Jain et al. Spatio-Temporal Querying of Video Content Using SQL for Quantizable Video Databases.
Hentschel et al. Open up cultural heritage in video archives with mediaglobe
KR20160013039A (ko) 파일의 분류를 위한 방법 및 장치
Petković et al. Integrated use of different content derivation techniques within a multimedia database management system
Mulhem et al. Adaptive video summarization
Lili Hidden markov model for content-based video retrieval
Shambharkar et al. TAVM: A Novel Video Summarization Model Based on Text, Audio and Video Frames
Schinas et al. MAAM: Media Asset Annotation and Management

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication