CN1240014C

CN1240014C - 一种对镜头进行基于内容的视频检索的方法

Info

Publication number: CN1240014C
Application number: CN 03150126
Authority: CN
Inventors: 董庆杰; 彭宇新; 郭宗明
Original assignee: BEIDA FANGZHENG TECHN INST Co Ltd BEIJING; Inst Of Computer Science & Technology Peking University
Current assignee: BEIDA FANGZHENG TECHN INST Co Ltd BEIJING; Inst Of Computer Science & Technology Peking University
Priority date: 2003-07-18
Filing date: 2003-07-18
Publication date: 2006-02-01
Anticipated expiration: 2023-07-18
Also published as: CN1477566A

Abstract

本发明属于视频检索技术领域，具体涉及一种对镜头进行基于内容的视频检索的方法。现有的基于内容的镜头检索方法往往存在着由于镜头内容描述不准确，检索准确率不高的问题。针对现有技术中存在的不足，本发明首次将模糊聚类分析的方法用于镜头检索。与现有方法相比，本发明提出的方法使用模糊聚类的方法，把镜头分为多个等价类，等价类内部内容是一致的，这些等价类客观全面的描述了镜头内部内容的变化。然后把这些等价类用于镜头检索，获得了良好的检索结果。本发明的效果在于进行基于内容的视频检索时可以取得更高的准确率，同时保持很快的检索速度。

Description

一种对镜头进行基于内容的视频检索的方法

技术领域

本发明属于视频检索技术领域，具体涉及一种对镜头进行基于内容的视频检索的方法。

背景技术

随着在多媒体数据制造、存储与传播方面取得的重大技术进步，数字视频已经成为人们日常生活中不可或缺的一部分。人们面临的问题不再是缺少多媒体内容，而是如何在浩如烟海的多媒体世界中找到自己所需要的信息。从目前来看，传统的基于关键词描述的视频检索因为描述能力有限，主观性强，手工标注等原因，已经不能满足海量视频检索的需求。为了能够方便人们寻找多媒体数据，上世纪90年代开始，基于内容的视频分析和检索技术成为研究的热点问题，多媒体内容描述接口MPEG-7的逐步制定和完善，更加推动了基于内容的视频检索技术的发展。

现有技术中，如文献“A New Approach to Retrieval Video by ExampleVideo Clip”[X.M.Liu，Y.T.Zhuang，and Y.H.Pan，ACM Multimedia，pp.41-44，1999]所述，视频检索的一般方法是首先进行镜头边界检测，以镜头作为视频序列的基本结构单元和检索单元；然后在每个镜头内部提取关键帧来代表该镜头的内容，从关键帧提取出颜色和纹理等低级特征，用于镜头的索引和检索。这样，就把基于内容的镜头检索转化为基于内容的图像检索来解决。这类方法存在的问题是，镜头是图像在时间上的连续序列，没有对存在于视频中的时间信息和运动信息充分进行利用。另外在2002年在IEEE Trans.Circuits and Systems for Video Technology发表的文献“An efficient algorithm forvideo sequence matching using the modified Hausdorff distance and the directeddivergence”(该文献作者是s.H.Kim and R.-H.Park，vol.CSVT-12，no.7，页码592-595)用积累的定向发散(Cumulative Directed Divergence)方法抽取关键帧，用改进的豪斯多夫距离(Modified Hausdorff Distance)方法得到两个镜头之间的相似程度，抽取关键帧和定义镜头相似性时使用了YUV颜色空间直方图。由于抽取关键帧时设定了两个阈值：前后帧相似值的阈值和当前帧与前一个关键帧之间相似值的阈值，必须同时满足这两个条件才能出现一个关键帧，这样将会影响关键帧提取的准确性，最终势必会影响查询的正确性；另外，使用了视频中常用的YUV颜色空间作为视觉特征，它与HSV颜色空间相比，和人们的视觉感知并不大一致。

发明内容

针对现有的镜头检索方法所存在的缺陷，本发明的目的是提出一种对镜头进行基于内容的视频检索的方法，该方法能在现有技术的基础上大大提高基于内容的镜头检索的准确率，同时保持很快的检索速度，从而更加充分地发挥镜头检索技术在当今网络信息社会中的巨大作用。

本发明的目的是这样实现的：一种对镜头进行基于内容的视频检索的方法，包括以下步骤：

(1)首先对视频数据库进行镜头分割，以镜头作为视频的基本结构单元和检索单元；

(2)计算两个帧图像之间的相似度，按下面的方法建立模糊相似矩阵R：当i＝j时，令r_ij为1；当i≠j时，令r_ij为x_i与y_j之间的相似度；

(3)利用传递闭包方法计算模糊相似矩阵R的等价矩阵

(4)设置阈值λ确定截集，对R矩阵的传递闭包矩阵进行模糊聚类，计算

[x] = {y | \hat{R} (x, y) &GreaterEqual; λ},

集合[x]即为模糊聚类的等价类，每个等价类集合中各帧是相似的，所以我们可以取每个集合中任一帧作为关键帧；

(5)用关键帧{r_i1，r_i2，...，r_ik}表示镜头s_i，用关键帧集合来度量两个镜头之间的相似性。

进一步来说，步骤(1)中对视频数据库进行镜头分割的方法最好为时空切片算法。步骤(2)中计算x_i与y_j之间的相似度可以用两个图像直方图的交来计算：

Inter \sec t (x_{i}, x_{j}) = \frac{1}{A (x_{i}, x_{j})} \underset{h}{Σ} \underset{s}{Σ} \underset{v}{Σ} \min {H_{i} (h, s, v), H_{j} (h, s, v)}

A (x_{j}, y_{j}) = \min {\underset{h}{Σ} \underset{s}{Σ} \underset{v}{Σ} H_{i} (h, s, v), \underset{h}{Σ} \underset{s}{Σ} \underset{v}{Σ} H_{j} (h, s, v)}

H_i(h，s，v)是HSV颜色空间的直方图，我们用H，S，V分量在18×3×3的三维空间中统计直方图，以归一化后的162个数值作为颜色特征值，Intersect(x_i，y_j)表示两个直方图的交，用它来判断两个关键帧的相似性，使用A(x_i，y_j)归一化到0，1之间。

再进一步，步骤(3)中，计算模糊相似矩阵R的等价矩阵的传递闭包方法可采用平方法：

R &RightArrow; R^{2} &RightArrow; {(R^{2})}^{2} &RightArrow; \cdot \cdot \cdot &RightArrow; R^{2^{k}} = \hat{R},

它的时间复杂度为O(n³log₂n)，如果n值特别大，势必会影响总的计算时间，所以采用基于图连通分支计算的模糊聚类最佳算法计算矩阵的合成运算，递推如下：

r_{ij}^{(0)} = r_{ij}

0≤i，j≤n

r_{ij}^{(k)} = \max {r_{ij}^{(k - 1)}, \min [r_{ik}^{(k - 1)}, r_{kj}^{(k - 1)}]}

0≤i，j≤n；0≤k≤n

这种算法的时间复杂度T(n)满足O(n)≤T(n)≤O(n²)。

为了更好地实现本发明的目的，在进行镜头检索时，对

进行模糊聚类的方法如下：

(1)确定n个样本X＝(X₁，...，X_n)上的模糊相似关系R和一个截集闽值α；

(2)将R按下面计算改造为一个等价矩阵；

RοR＝R²

R²οR²＝R⁴

...

直到存在一个k满足

R^{2^{k}} = R^{2^{(k + 1)}}

上述式子中，RοR为模糊关系的合成运算，在R是相似矩阵的假设下，已证明必有这样的k存在，满足k≤log n；

(3)计算集合

[x] = {y | \hat{R} (x, y) &GreaterEqual; α},

[x]即为模糊聚类，算法结束；

对n个样本空间进行模糊聚类分析后，得到若干个等价类，在每个等价类中选取一个样本作为关键帧。这样两个镜头之间的相似度度量就变为关键帧集合之间的相似性度量。

在本方法的步骤(5)中，可以把镜头s_i和s_j的相似度定义为

Sim (s_{i}, s_{j}) = \frac{1}{2} {M (s_{i}, s_{j}) + \hat{M} (s_{i}, s_{j})},

M表示关键帧相似的最大值，表示关键帧相似的第二大值，其中，

M (s_{i}, s_{j}) = \max_{p = {1,2, . . .}} \max_{q = {1,2, . . .}} {Inter \sec t (r_{ip}, r_{jq})}

\hat{M} (s_{i}, s_{j}) = \max_{p = {1,2, . . .}}^{^} \max_{q = {1,2, . . .}} {Inter \sec t (r_{ip}, r_{jq})}

Inter \sec t (r_{i}, r_{j}) = \frac{1}{A (r_{i}, r_{j})} \underset{h}{Σ} \underset{s}{Σ} \underset{v}{Σ} \min {H_{i} (h, s, v), H_{j} (h, s, v)}

A (r_{i}, r_{j}) = \min {\underset{h}{Σ} \underset{s}{Σ} \underset{v}{Σ} H_{i} (h, s, v), \underset{h}{Σ} \underset{s}{Σ} \underset{v}{Σ} H_{j} (h, s, v)} .

本发明的效果在于：采用本发明所述的对镜头进行基于内容的视频检索的方法，可以取得更高的准确率，同时保持很快的检索速度。

本发明之所以具有如此显著的技术效果，其原因在于：运用模糊聚类分析的方法，把镜头内容划分为多个等价类，这些等价类很好的描述了镜头内容的变化，而镜头之间的相似性则表现为关键帧结合之间的相似性。镜头之间相似性度量考虑了使用HSV颜色直方图表示关键帧的缺点：如果两个关键帧有相似的颜色分布，即使它们的内容不一样，也会认为这两个关键帧相似。因此使用最大相似值和第二大相似值的平均值来加强算法的鲁棒性。对比实验结果证实了本发明提出方法的有效性。

附图说明

图1是对镜头进行基于内容的视频检索的方法的流程示意图；

图2是实验对比中镜头检索的7个语义类例子示意图；

图3是本发明的方法对游泳镜头的检索结果示意图。

具体实施方式

图1是本发明的总体框架，是本发明中各步方法的流程示意图。如图1所示，一种基于模糊聚类分析的镜头检索方法，包括以下步骤：

1、镜头分割

首先使用时空切片算法(spatio-temporal slice)，对视频数据库进行镜头分割，以镜头作为视频的基本结构单元和检索单元，关于时空切片算法的详细描述可以参考文献“Video Partitioning by Temporal Slice Coherency”[C.W.Ngo，T.C.Pong，and R.T.Chin，IEEE Transactions on Circuits andSystems for Video Technology，Vol.11，No.8，pp.941-953，August，2001]。

2、建立模糊相似矩阵R

建立镜头内部图像之间的建立模糊相似矩阵R方法如下：当i＝j时，令r_ij为1，当i≠j时，令r_ij为x_i与y_j之间的相似度，相似度则采用如下方法来计算：

\begin{matrix} Inter \sec t (x_{i}, y_{j}) = \frac{1}{A (x_{i}, y_{j})} \underset{h}{Σ} \underset{s}{Σ} \underset{v}{Σ} \min {H_{i} (h, s, v), H_{j} (h, s, v)} \\ A (x_{i}, y_{j}) = \min {\underset{h}{Σ} \underset{s}{Σ} \underset{v}{Σ} H_{i} (h, s, v), \underset{h}{Σ} \underset{s}{Σ} \underset{v}{Σ} H_{j} (h, s, v)} \end{matrix}

H_i(h，s，v)是HSV颜色空间的直方图，我们用H，S，V分量在18×3×3的三维空间中统计直方图，以归一化后的162个数值作为颜色特征值。Intersect(x_i，y_j)表示两个直方图的交，用它来判断两个关键帧的相似性，使用A(x_i，y_j)归一化到0，1之间。

3、求相似矩阵R的传递闭包，得到等价矩阵

本实施例中，求相似矩阵的传递闭包采用平方法：

R &RightArrow; R^{2} &RightArrow; {(R^{2})}^{2} &RightArrow; \cdot \cdot \cdot &RightArrow; R^{2^{k}} = \hat{R}

它的时间复杂度为O(n³log₂n)，如果n值特别大，势必会影响总的计算时间。所以采用基于图连通分支计算的模糊聚类最佳算法计算矩阵的合成运算，递推如下：

r_{ij}^{(0)} = r_{ij}

0≤i，j≤n

r_{ij}^{(k)} = \max {r_{ij}^{(k - 1)}, \min [r_{ik}^{(k - 1)}, r_{kj}^{(k - 1)}]}

0≤i，j≤n；0≤k≤n.

这种算法的时间复杂度T(n)满足O(n)≤T(n)≤O(n²)。

4、设置阈值λ确定截集，对R矩阵的传递闭包矩阵

进行模糊聚类。

本实施例中，具体方法如下：

(1)确定n个样本X＝(X₁，...，X_n)上的模糊相似关系R和一个截集阈值α；

(2)将R按下面计算改造为一个等价矩阵；

RοR＝R²

R²οR²＝R⁴

...

直到存在一个k满足

R^{2^{k}} {= R}^{2^{(k + 1)}}

(3)计算集合

[x] = {y | \hat{R} (x, y) &GreaterEqual; α},

[x]即为模糊聚类，算法结束

5、用模糊聚类分析方法得到镜头关键帧后，然后基于这些关键帧进行镜头检索。在此基础上，用关键帧{r_i1，r_i2，...，r_ik}表示镜头，s_i把镜头s_i和s_j的相似度定义为

Sim (s_{i}, s_{j}) = \frac{1}{2} {M (s_{i}, s_{j}) + \hat{M} (s_{i}, s_{j})}

其中，

M (s_{i}, s_{j}) = \max_{p = {1,2, . . .}} \max_{q = {1,2, . . .}} {Inter \sec t (r_{ip}, r_{jq})}

\hat{M} (s_{i}, s_{j}) = \max_{p = {1,2, . . .}}^{^} \max_{q = {1,2, . . .}} {Inter \sec t (r_{ip}, r_{jq})}

Inter \sec t (r_{i}, r_{j}) = \frac{1}{A (r_{i}, r_{j})} \underset{h}{Σ} \underset{s}{Σ} \underset{v}{Σ} \min {H_{i} (h, s, v), H_{j} (h, s, v)}

A (r_{i}, r_{j}) = \min {\underset{h}{Σ} \underset{s}{Σ} \underset{v}{Σ} H_{i} (h, s, v), \underset{h}{Σ} \underset{s}{Σ} \underset{v}{Σ} H_{j} (h, s, v)}

表示第二大的值，使用是因为本文使用HSV颜色直方图来表示关键帧，它的缺点是如果两个关键帧有相似的颜色分布，即使它们的内容不一样，也会认为这两个关键帧相似，为了克服这种缺陷，使用M和的平均值来加强算法的鲁棒性。H_i(h，s，v)是HSV颜色空间的直方图，本文用H，S，V分量在18×3×3的三维空间中统计直方图，以归一化后的162个数值作为颜色特征值。Intersect(r_i，r_j)表示两个直方图的交，本文用它来判断两个关键帧的相似性。

下面的实验结果表明，本发明取得了比现有方法更好的效果，同时检索速度很快，证实了模糊聚类分析算法在镜头检索中的有效性。

镜头检索的实验数据是从电视录制的2002年亚运会节目，总共有41分钟，777个镜头，62132帧图像。它包含多种体育项目，如各种球类运动、举重、游泳以及插播的广告节目等。我们选了7个语义类作为查询镜头，它们是举重、排球、游泳、柔道、划船、体操、足球，如图2所示。

为了验证本发明的有效性，我们测试了以下3种方法做实验对比：

(1)常用的使用每个镜头的首帧做关键帧的镜头检索算法；

(2)2002年在IEEE Trans.Circuits and Systems for Video Technology发表的文献“An efficient algorithm for video sequence matching using the modifiedHausdorff distance and the directed divergence”(该文献作者是s.H.Kim and R.-H.Park，vol.CSVT-12，no.7，页码592-595)中描述的算法；

(3)使用模糊聚类分析算法得到关键帧进行镜头检索(只用颜色特征)；

上述前3种方法，都仅仅使用了颜色特征，因此最后的实验结果能够从镜头相似度的度量方法上证明本发明所公开方法的优越性。图3给出了实验程序的用户界面，右边上面一行是查询视频的浏览区域，显示视频中每个镜头的第1个关键帧，用来表示每个镜头，用户可以从中选择想要进行查询的镜头进行检索，右边下面是查询结果区域。图3是选择上面一行的第1个镜头，它是一个游泳镜头，由该镜头第一帧图像022430.bmp来表示，按照本发明的方法计算出的相似度最大权，从大到小排列查询结果(从左到右，从上到下排列)。左边下方为一个简易播放期，双击检索结果图像可以播放相应镜头对应的那段视频。

实验采用了两种在MPEG-7标准化活动中的评价指标：平均归一化调整后的检索秩ANMRR(average normalized modified retrieval rank)和平均查全率AR(average recall)。AR类似于传统的查全率(recall)，而ANMRR与传统的查准率(precision)相比，不仅能够反映出正确的检索结果比例，而且能够反映出正确结果的排列序号。ANMRR值越小，意味着检索得到的正确镜头的排名越靠前；AR值越大，意味着在前K(K是检索结果的截断值)个查询结果中相似镜头占所有相似镜头的比例越大。表1是上述3种方法对7个语义镜头类的AR和ANMRR比较。

表1 本发明与现有两种方法的对比实验结果

分类	方法1		方法2		方法3
	方法1		方法2		方法3		AR	ANMRR	AR	ANMRR	AR	ANMRR
	举重	0.8824	0.3098	0.8824	0.1539	0.9412	AR	ANMRR	AR	ANMRR	AR	ANMRR	0.2186
排球	举重	0.8824	0.3098	0.8824	0.1539	0.9412	0.6333	0.4974	0.7895	0.3264	0.8556	0.3279	0.2186
排球	游泳	0.8400	0.2676	0.8250	0.3164	0.9200	0.6333	0.4974	0.7895	0.3264	0.8556	0.3279	0.2175
柔道	游泳	0.8400	0.2676	0.8250	0.3164	0.9200	0.7000	0.4310	0.8214	0.2393	0.8000	0.3093	0.2175
柔道	划船	0.8750	0.3407	0.6875	0.3570	0.8125	0.7000	0.4310	0.8214	0.2393	0.8000	0.3093	0.2223
体操	划船	0.8750	0.3407	0.6875	0.3570	0.8125	0.7857	0.3445	0.9600	0.1759	0.7857	0.2056	0.2223
体操	足球	0.5789	0.4883	0.6889	0.2815	0.8421	0.7857	0.3445	0.9600	0.1759	0.7857	0.2056	0.2614
均值	足球	0.5789	0.4883	0.6889	0.2815	0.8421	0.7565	0.3827	0.8078	0.2642	0.8510	0.2518	0.2614

从表1可以看出，采用本发明的方法，无论是AR，还是ANMRR，都取得了比现有的两种算法更好的效果，证实了本发明把模糊聚类分析方法方法用于镜头检索的有效性。本发明的方法运用模糊聚类分析的方法，把镜头内容划分为多个等价类，这些等价类很好的描述了镜头内容的变化，而镜头之间的相似性则表现为关键帧结合之间的相似性。镜头之间相似性度量考虑了使用HSV颜色直方图表示关键帧的缺点：如果两个关键帧有相似的颜色分布，即使它们的内容不一样，也会认为这两个关键帧相似。因此使用最大相似值和第二大相似值的平均值来加强算法的鲁棒性。对比实验结果证实了本发明提出方法的有效性。另外，在CPU 500M PIII，256M内存的PC机上，本发明的算法平均检索时间为22.557秒，对于777个镜头的视频库来说，本发明两种算法的检索速度都是很快的。

Claims

1、一种对镜头进行基于内容的视频检索的方法，其特征在于该方法包括以下步骤：

(3)利用传递闭包方法计算模糊相似矩阵R的等价矩阵计算模糊相似矩阵R的等价矩阵的传递闭包方法采用平方法：

R &RightArrow; R^{2} {(R^{2})}^{2} &RightArrow; \cdot \cdot \cdot &RightArrow; R^{2^{k}} = \hat{R},

r_{ij}^{(0)} = r_{ij} 0 \leq i, j \leq n

r_{ij}^{(k)} = \max {r_{ij}^{(k - 1)}, \min [r_{ik}^{(k - 1)}, r_{kj}^{(k - 1)}]} 0 \leq i, j \leq n; 0 \leq k \leq n

这种算法的时间复杂度T(n)满足O(n)≤T(n)≤O(n²)；

(4)设置阈值λ确定截集，对R矩阵的传递闭包矩阵

进行模糊聚类，计算

[x] = {y | \hat{R} (x, y) &GreaterEqual; λ},

集合[x]即为模糊聚类的等价类，每个等价类集合中各帧是相似的，取每个集合中任一帧图像作为关键帧；

对进行模糊聚类的方法如下：

(a)确定n个样本X＝(X₁，...，X_n)上的模糊相似关系R和一个截集阈值α；

(b)将R按下面计算改造为一个等价矩阵

RоR＝R²

R²оR²＝R⁴

...

直到存在一个k满足

R^{2^{k}} = R^{2^{(k + 1)}}

上述式子中，RоR为模糊关系的合成运算，在R是相似矩阵的假设下，已证明必有这样的k存在，满足k≤log n；

(c)计算集合

[x] = {y | \hat{R} (x, y) &GreaterEqual; α},

[x]即为模糊聚类，算法结束；

对n个样本空间进行模糊聚类分析后，得到等价类，在每个等价类中选取一个样本作为关键帧，这样两个镜头之间的相似度度量就变为关键帧集合之间的相似性度量；

(5)用关键帧{r_i1，r_i2，...，r_ik}表示镜头s_i，关键帧集合来度量两个镜头之间的相似性。

2、如权利要求1所述的一种对镜头进行基于内容的视频检索的方法，其特征在于：步骤(1)中，对视频数据库进行镜头分割的方法为时空切片算法。

3、如权利要求1所述的一种对镜头进行基于内容的视频检索的方法，其特征在于：步骤(2)中，计算x_i与y_j之间的相似度用两个图像直方图的交来计算：

Inter \sec t (x_{i}, y_{j}) = \frac{1}{A (x_{i}, y_{j})} \underset{h}{Σ} \underset{s}{Σ} \underset{v}{Σ} \min {H_{i} (h, s, v), H_{j} (h, s, v)}

A (x_{i}, y_{j}) = \min {\underset{h}{Σ} \underset{s}{Σ} \underset{v}{Σ} \min H_{i} (h, s, v), \underset{h}{Σ} \underset{s}{Σ} \underset{v}{Σ} H_{j} (h, s, v)}

H_i(h，s，v)是HSV颜色空间的直方图，用H，S，V分量在18×3×3的三维空间中统计直方图，以归一化后的162个数值作为颜色特征值，Intersect(x_i，y_j)表示两个直方图的交，用它来判断两个关键帧的相似性，使用A(x_i，y_j)归一化到0，1之间。

4、如权利要求1或2或3所述的一种对镜头进行基于内容的视频检索的方法，其特征在于：把镜头s_i和s_j的相似度定义为

Sim (s_{i}, s_{j}) = \frac{1}{2} {M (s_{i}, s_{j}) + \hat{M} (s_{i}, s_{j})},

M表示关键帧相似的最大值，

表示关键帧相似的第二大值，其中，

M (s_{i}, s_{j}) = \max_{p = {1,2, . . .}} \max_{q = {1,2, . . .}} {Inter \sec t (r_{ip}, r_{jq})}

\hat{M} (s_{i}, s_{j}) = \underset{p = {1,2, . . .}}{\max^{^}} \max_{q = {1,2, . . .}} {Inter \sec t (r_{ip}, r_{jq})}

Inter \sec t (r_{i}, r_{j}) = \frac{1}{A (r_{i}, r_{j})} \underset{h}{Σ} \underset{s}{Σ} \underset{v}{Σ} \min {H_{i} (h, s, v), H_{j} (h, s, v)}

A (r_{i}, r_{j}) = \min {\underset{h}{Σ} \underset{s}{Σ} \underset{v}{Σ} \min H_{i} (h, s, v), \underset{h}{Σ} \underset{s}{Σ} \underset{v}{Σ} H_{j} (h, s, v)} .