CN101122914A

CN101122914A - 一种基于本体和注释技术的视频检索方法

Info

Publication number: CN101122914A
Application number: CNA2007100357396A
Authority: CN
Inventors: 欧阳建权; 李莹莹; 张敏; 唐玉元
Original assignee: Xiangtan University
Current assignee: Xiangtan University
Priority date: 2007-09-14
Filing date: 2007-09-14
Publication date: 2008-02-13

Abstract

本发明公开了一种基于本体和注释技术的视频检索方法，属于视频检索技术领域。现有的视频检索方法往往存在检索词不规范，检索效率低的问题。针对现有技术中存在的不足，本发明提出了基于本体和注释技术的视频检索方法，设计了基于本体的语义字典，并利用规范的领域词汇描述视频内容及其结构，解决了检索词不规范的问题，通过对镜头和关键帧进行注释，并采用XML实现视频数据的表示，定义一个富有层次的视频元数据结构，结合XML的层次特征来表达视频数据的层次关系，实现视频数据的非线性组织，这样使得视频检索更加高效、方便。实验结果表明，与现有方法相比，本发明可以取得更高的检索准确率和更快的检索速度。

Description

一种基于本体和注释技术的视频检索方法

技术领域

本发明属于视频检索技术领域，具体涉及一种基于本体和注释技术的视频检索方法。

背景技术

随着视频数据的剧增，如何对大量的多媒体信息进行组织和管理，实现快速有效的视频浏览和检索，已成为当今备受关注的焦点。目前大多数多媒体的应用还很少使用到媒体的语义信息，各种媒体的内容之间没有建立起联系，不能依据这些联系来组织、处理和使用信息。因此，有必要采用相应的方法和工具，对多媒体的数据按照不同的形式和来源，通过增加相关语义进行注释，以便于对大量的多媒体信息进行组织和管理，实现快速有效的视频浏览和检索。

国外通过注释方法检索视频取得了一定的成果，对视频的注释方法主要有以下几种：一用图标语言进行视频注释的方法，该方法虽然直观，但是由于未引入有效的知识表示工具，因此不能有效描述视频内容。二利用相关反馈技术进行半自动视频注释，不过该方法所应用的本体没有清晰描述子类间关系，因此根据标注获得的关键词未能有效描述视频内容和结构。三基于规则的视频注释方法，采用模糊逻辑和规则挖掘的方法建立高层语义和低层特征的映射进行注释。但是该方法主要基于分类学，没有进一步挖掘子类间关系和约束。国内郑鹏提出了基于注释的视频索引方法，该方法按镜头对视频进行分段，对每一个镜头进行注释，然后根据应用的需要建立视频文档，方便用户检索。该方法能很好的反映视频数据的语义特征，但是注释需要全手工进行，使注释的成本较高，而且注释的结果与注释者有很大的关系，注释不规范给检索带来了很大的困难。

发明内容

本发明的目的是在于为视频检索领域提供一种高效的、可靠的视频检索方法。

本发明的目的是通过如下方式实现的：

(1)首先基于本体设计语义字典；

(2)对视频提取重放镜头和关键帧；

(3)利用语义字典对镜头和关键帧进行注释；

(4)使用注释信息对视频进行检索。

对视频重放镜头的提取是通过计算每一帧与重放镜头模板之间的颜色直方图距离：

d (s, t) = {sqrt}_{i = 0}^{n} (Σ {(s (i) - t (i))}^{2})

其中s，t两幅图像的帧号，d(s，t)为图像s和图像t的直方图距离，n为颜色值的数目，s(i)为图像s的第i个颜色值，t(i)为图像t的第i个颜色值。当距离小于给定阈值3000时，记为一次标志匹配，若在该镜头开始之前发生了奇数次匹配，则是重放镜头。

关键帧提取是通过最短路径约束的最小化失真率的算法，算法如下：

(1)进行压缩域摄像机运动估计，首先基于M估计进行摄像机运动参数估计，并基于极线距离约束验证去除外点的正确性，并利用BFGS方法获得参数的最佳估计，求出摄像机运动参数；

(2)j＝i＝0，kf₀＝0，关键帧集合KF＝{帧F0}(j为关键帧kf下标)；

(3)i＝i+1，Ifi-kf_j＞T_fand

D (f_{i}, f_{{kf}_{j}}) > = T_{d}

and

D (f_{i}, f_{{kf}_{j}}) < = λ_{i}

(D(f_i，f_kfj)为两帧间的重叠部分，

λ_{i} = D (f_{{kf}_{j - 2}}, f_{{kf}_{j - 1}}) + D (f_{{kf}_{j}}, f_{{kf}_{j - 1}})

为基于最短路径的估计值)，then j＝j+1，kf_j＝i，

O_{{kf}_{j}} &Element; KF;

(4)Repeat 3 until i＝n-1。

视频的检索是通过载入所有的注释文件，把文件中的数据转化成对应的数据结构，再检索与输入的检索条件相匹配的注释文件，得到符合条件的视频路径及其起始和结束帧。

本发明具有如下的有益效果，视频注释利用规范的领域词汇描述视频内容及其结构，应用XML做为注释信息的存储形式，定义一个富有层次的视频元数据结构，结合XML的层次特征来表达视频数据的层次关系，实现视频数据的非线性组织，可以实现更可靠、有效的视频内容注释，使视频检索更加高效、方便，具体来说有以下效果：

1.本发明基于本体建立视频注释所需要的语义字典，对达成共知的领域知识进行规范的、明确的描述，并且，构造的语义字典可以复用。

2.传统的基于像素域的摄像机运动估计一般通过基于梯度的方法进行优化参数计算，但是该方法要对帧中像素进行计算，计算量非常大，时间复杂度较高，因此我们对摄像机运动估计方法进行改进，以摄像机参数为运动特征，将关键帧选择问题转化为最短路径选择问题，改进后的方法充分考虑了视频流的全局运动，基于最短路径建模选择关键帧，能够降低关键帧选择的失真率；其次由于我们的方法基于压缩域，速度比较快，可以实现实时性。

3.对视频进行了镜头和关键帧提取，使视频注释具有高效性，因其注释是基于本体的，所以满足视频注释的规范性、明确性。

4.利用注释信息检索重放镜头和关键帧的方法，用户可以通过输入所做注释的任何信息方便、快捷的检索到重放镜头和关键帧，从而快速定位到用户检索的视频片段，改变了用户传统、单一的播放和观看视频的方式。

附图说明

图1是本发明语义字典；

图2是本发明镜头注释界面；

图3是本发明关键帧注释界面；

图4是本发明检索界面；

具体实施方式

下面结合实施例对本发明做进一步说明：

实施例

以体育视频为例。

1.语义字典的建立。

以体育领域中足球项目为例，足球语义字典包括视频中可能出现的人物、运动员当前的动作、运动员所在的位置和比赛类型，建立语义字典，如图1所示，然后以XML形式保存起来。

2.提取视频重放镜头和关键帧。

2.1重放镜头提取：

首先通过用户交互从视频中选取重放镜头标志匹配模板，对每一帧计算它和重放镜头标志模板的距离。距离计算由下式给出：

d (s, t) = {sqrt}_{i = 0}^{n} (Σ {(s (i) - t (i))}^{2})

其中s，t两幅图像的帧号，d(s，t)为图像s和图像t的直方图距离，n为颜色值的数目，s(i)为图像s的第i个颜色值，t(i)为图像t的第i个颜色值。当距离小于给定阈值时，记为一次标志匹配。为避免重复匹配，约定若相邻的两次匹配发生在最小间隔帧数以内，则只记为一次。根据标志匹配的次数就可以对镜头是否属于重放进行判断。若在该镜头开始之前发生了偶数次(包括次数为零)标志匹配，则该镜头为正常镜头，若之前发生了奇数次匹配，则是重放镜头。

2.2关键帧提取：

以摄像机参数为运动特征，基于最短路径约束的最小化失真率提取关键帧，其算法为：

(3)i＝i+1，Ifi-kf_j＞T_fand

D (f_{i}, f_{{kf}_{j}}) > = T_{d}

and

D (f_{i}, f_{{kf}_{j}}) < = λ_{i}

(D(f_i，f_kfj)为两帧间的重叠部分，

λ_{i} = D (f_{{kf}_{j - 2}}, f_{{kf}_{j - 1}}) + D (f_{{kf}_{j}}, f_{{kf}_{j - 1}})

为基于最短路径的估计值)，then j＝j+1，kf_j＝i，

O_{{kf}_{j}} &Element; KF;

(4)Repeat (3)until i＝n-1。

3.视频注释。

3.1镜头注释：

镜头注释程序界面如图2所示。

3.2关键帧注释：

关键帧注释程序运行界面如图3所示。

具体注释的步骤如下：

(1)通过load或者是loadXML方法装载XML文档。

(2)添加各结点的属性内容。

<annotation>是整个注释文件的根节点，添加它的属性内容：镜头的路径(c:\shot1.mpg)、镜头所描述的体育项目(足球)、起始帧(832)和结束帧(1493)。<annotation>有三个子节点<person>、<shotaction>、<gametype>分别对应语义词典中的“人物”、“动作”和“比赛类型”。<person>有三个子节点<type>、<number>和<name>。语义词典中已经归纳了所要注释的六个体育项目的所有<type>，用户只要在其中选择一种，例如选择“运动员”。而<number>和<name>则需要用户自己输入，例如number为10，name为戈麦斯。<gametype>有两个子节点<sex>和<type>共同描述了比赛的类型，列如“男子国际比赛”。

运行后得到注释结果如下：

<annotation videoname＝”c:\shot1.mpg”videotype＝”足球”起始帧＝”832”结束帧＝”1493>”

</person>

</gametype>

</annotation>

(3)将注释结果以XML文件形式保存起来。

4.视频检索

以镜头检索为例，首先载入所有的镜头注释XML文件，然后把文件中的数据转换成按照语义字典组织的数据结构。镜头检索过程中，输入运动员的名字“戈麦斯”，输入检索的动作“射门”，就可以得到重放镜头的起始帧和结束帧的位置，通过播放器跳到指定的位置。关键帧检索过程中，输入运动员的名字“戈麦斯”，动作选择“射门”，位置选择“中线”，得到起始帧和结束帧的位置，通过播放器跳到指定的关键帧，如图4所示。

Claims

1.一种基于本体和注释技术的视频检索方法，其特征在于该方法包括以下步骤：

(1)首先基于本体设计语义字典；

(2)对视频提取重放镜头和关键帧；

(3)利用语义字典对镜头和关键帧进行注释；

(4)使用注释信息对视频进行检索。

2.如权利要求1所述的一种基于本体和注释技术的视频检索方法，其特征在于：对视频重放镜头的提取是通过计算每一帧与重放镜头模板之间的颜色直方图距离：

d (s, t) = {sqrt}_{i = 0}^{n} (Σ {(s (i) - t (i))}^{2})

3.如权利要求1所述的一种基于本体和注释技术的视频检索方法，其特征在于：关键帧提取是通过最短路径约束的最小化失真率的算法，算法如下：

(1)进行压缩域摄像机运动估计，首先基于M估计进行摄像机运动参数估计，并基于极线距离约束验证去除外点的正确性，然后利用BFGS方法获得参数的最佳估计，求出摄像机运动参数；

(3)i＝i+1，If i-kf_j＞T_fand

D (f_{i}, f_{{kf}_{j}}) > = T_{d}

and

D (f_{i}, f_{{kf}_{j}}) < = λ_{i} (D (f_{i}, f_{{kf}_{j}})

为两帧间的重叠部分，

λ_{i} = D (f_{{kf}_{j - 2}}, f_{{kf}_{j - 1}}) + D (f_{{kf}_{j}}, f_{{kf}_{j - 1}})

为基于最短路径的估计值)，then j＝j+1，kf_j＝i，

O_{{kf}_{j}} &Element; KF;

(4)Repeat(3)until i＝n-1。

4.如权利要求1所述的一种基于本体和注释技术的视频检索方法，其特征在于：视频的检索是通过载入所有的注释文件，把文件中的数据转化成语义字典的数据结构，再检索与输入的检索条件相匹配的注释文件，得到符合条件的视频路径及其起始和结束帧。