CN1240014C - 一种对镜头进行基于内容的视频检索的方法 - Google Patents
一种对镜头进行基于内容的视频检索的方法 Download PDFInfo
- Publication number
- CN1240014C CN1240014C CN 03150126 CN03150126A CN1240014C CN 1240014 C CN1240014 C CN 1240014C CN 03150126 CN03150126 CN 03150126 CN 03150126 A CN03150126 A CN 03150126A CN 1240014 C CN1240014 C CN 1240014C
- Authority
- CN
- China
- Prior art keywords
- sigma
- camera lens
- similarity
- fuzzy
- key frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000007621 cluster analysis Methods 0.000 claims abstract description 10
- 239000011159 matrix material Substances 0.000 claims description 22
- 238000010606 normalization Methods 0.000 claims description 5
- 238000005259 measurement Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 6
- 230000009182 swimming Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 208000018375 cerebral sinovenous thrombosis Diseases 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于视频检索技术领域,具体涉及一种对镜头进行基于内容的视频检索的方法。现有的基于内容的镜头检索方法往往存在着由于镜头内容描述不准确,检索准确率不高的问题。针对现有技术中存在的不足,本发明首次将模糊聚类分析的方法用于镜头检索。与现有方法相比,本发明提出的方法使用模糊聚类的方法,把镜头分为多个等价类,等价类内部内容是一致的,这些等价类客观全面的描述了镜头内部内容的变化。然后把这些等价类用于镜头检索,获得了良好的检索结果。本发明的效果在于进行基于内容的视频检索时可以取得更高的准确率,同时保持很快的检索速度。
Description
技术领域
本发明属于视频检索技术领域,具体涉及一种对镜头进行基于内容的视频检索的方法。
背景技术
随着在多媒体数据制造、存储与传播方面取得的重大技术进步,数字视频已经成为人们日常生活中不可或缺的一部分。人们面临的问题不再是缺少多媒体内容,而是如何在浩如烟海的多媒体世界中找到自己所需要的信息。从目前来看,传统的基于关键词描述的视频检索因为描述能力有限,主观性强,手工标注等原因,已经不能满足海量视频检索的需求。为了能够方便人们寻找多媒体数据,上世纪90年代开始,基于内容的视频分析和检索技术成为研究的热点问题,多媒体内容描述接口MPEG-7的逐步制定和完善,更加推动了基于内容的视频检索技术的发展。
现有技术中,如文献“A New Approach to Retrieval Video by ExampleVideo Clip”[X.M.Liu,Y.T.Zhuang,and Y.H.Pan,ACM Multimedia,pp.41-44,1999]所述,视频检索的一般方法是首先进行镜头边界检测,以镜头作为视频序列的基本结构单元和检索单元;然后在每个镜头内部提取关键帧来代表该镜头的内容,从关键帧提取出颜色和纹理等低级特征,用于镜头的索引和检索。这样,就把基于内容的镜头检索转化为基于内容的图像检索来解决。这类方法存在的问题是,镜头是图像在时间上的连续序列,没有对存在于视频中的时间信息和运动信息充分进行利用。另外在2002年在IEEE Trans.Circuits and Systems for Video Technology发表的文献“An efficient algorithm forvideo sequence matching using the modified Hausdorff distance and the directeddivergence”(该文献作者是s.H.Kim and R.-H.Park,vol.CSVT-12,no.7,页码592-595)用积累的定向发散(Cumulative Directed Divergence)方法抽取关键帧,用改进的豪斯多夫距离(Modified Hausdorff Distance)方法得到两个镜头之间的相似程度,抽取关键帧和定义镜头相似性时使用了YUV颜色空间直方图。由于抽取关键帧时设定了两个阈值:前后帧相似值的阈值和当前帧与前一个关键帧之间相似值的阈值,必须同时满足这两个条件才能出现一个关键帧,这样将会影响关键帧提取的准确性,最终势必会影响查询的正确性;另外,使用了视频中常用的YUV颜色空间作为视觉特征,它与HSV颜色空间相比,和人们的视觉感知并不大一致。
发明内容
针对现有的镜头检索方法所存在的缺陷,本发明的目的是提出一种对镜头进行基于内容的视频检索的方法,该方法能在现有技术的基础上大大提高基于内容的镜头检索的准确率,同时保持很快的检索速度,从而更加充分地发挥镜头检索技术在当今网络信息社会中的巨大作用。
本发明的目的是这样实现的:一种对镜头进行基于内容的视频检索的方法,包括以下步骤:
(1)首先对视频数据库进行镜头分割,以镜头作为视频的基本结构单元和检索单元;
(2)计算两个帧图像之间的相似度,按下面的方法建立模糊相似矩阵R:当i=j时,令rij为1;当i≠j时,令rij为xi与yj之间的相似度;
(4)设置阈值λ确定截集,对R矩阵的传递闭包矩阵
进行模糊聚类,计算
集合[x]即为模糊聚类的等价类,每个等价类集合中各帧是相似的,所以我们可以取每个集合中任一帧作为关键帧;
(5)用关键帧{ri1,ri2,...,rik}表示镜头si,用关键帧集合来度量两个镜头之间的相似性。
进一步来说,步骤(1)中对视频数据库进行镜头分割的方法最好为时空切片算法。步骤(2)中计算xi与yj之间的相似度可以用两个图像直方图的交来计算:
Hi(h,s,v)是HSV颜色空间的直方图,我们用H,S,V分量在18×3×3的三维空间中统计直方图,以归一化后的162个数值作为颜色特征值,Intersect(xi,yj)表示两个直方图的交,用它来判断两个关键帧的相似性,使用A(xi,yj)归一化到0,1之间。
再进一步,步骤(3)中,计算模糊相似矩阵R的等价矩阵
的传递闭包方法可采用平方法:
它的时间复杂度为O(n3log2n),如果n值特别大,势必会影响总的计算时间,所以采用基于图连通分支计算的模糊聚类最佳算法计算矩阵的合成运算,递推如下:
这种算法的时间复杂度T(n)满足O(n)≤T(n)≤O(n2)。
(1)确定n个样本X=(X1,...,Xn)上的模糊相似关系R和一个截集闽值α;
(2)将R按下面计算改造为一个等价矩阵;
RοR=R2
R2οR2=R4
...
直到存在一个k满足
上述式子中,RοR为模糊关系的合成运算,在R是相似矩阵的假设下,已证明必有这样的k存在,满足k≤log n;
(3)计算集合
[x]即为模糊聚类,算法结束;
对n个样本空间进行模糊聚类分析后,得到若干个等价类,在每个等价类中选取一个样本作为关键帧。这样两个镜头之间的相似度度量就变为关键帧集合之间的相似性度量。
在本方法的步骤(5)中,可以把镜头si和sj的相似度定义为 M表示关键帧相似的最大值,
表示关键帧相似的第二大值,其中,
本发明的效果在于:采用本发明所述的对镜头进行基于内容的视频检索的方法,可以取得更高的准确率,同时保持很快的检索速度。
本发明之所以具有如此显著的技术效果,其原因在于:运用模糊聚类分析的方法,把镜头内容划分为多个等价类,这些等价类很好的描述了镜头内容的变化,而镜头之间的相似性则表现为关键帧结合之间的相似性。镜头之间相似性度量考虑了使用HSV颜色直方图表示关键帧的缺点:如果两个关键帧有相似的颜色分布,即使它们的内容不一样,也会认为这两个关键帧相似。因此使用最大相似值和第二大相似值的平均值来加强算法的鲁棒性。对比实验结果证实了本发明提出方法的有效性。
附图说明
图1是对镜头进行基于内容的视频检索的方法的流程示意图;
图2是实验对比中镜头检索的7个语义类例子示意图;
图3是本发明的方法对游泳镜头的检索结果示意图。
具体实施方式
图1是本发明的总体框架,是本发明中各步方法的流程示意图。如图1所示,一种基于模糊聚类分析的镜头检索方法,包括以下步骤:
1、镜头分割
首先使用时空切片算法(spatio-temporal slice),对视频数据库进行镜头分割,以镜头作为视频的基本结构单元和检索单元,关于时空切片算法的详细描述可以参考文献“Video Partitioning by Temporal Slice Coherency”[C.W.Ngo,T.C.Pong,and R.T.Chin,IEEE Transactions on Circuits andSystems for Video Technology,Vol.11,No.8,pp.941-953,August,2001]。
2、建立模糊相似矩阵R
建立镜头内部图像之间的建立模糊相似矩阵R方法如下:当i=j时,令rij为1,当i≠j时,令rij为xi与yj之间的相似度,相似度则采用如下方法来计算:
Hi(h,s,v)是HSV颜色空间的直方图,我们用H,S,V分量在18×3×3的三维空间中统计直方图,以归一化后的162个数值作为颜色特征值。Intersect(xi,yj)表示两个直方图的交,用它来判断两个关键帧的相似性,使用A(xi,yj)归一化到0,1之间。
3、求相似矩阵R的传递闭包,得到等价矩阵
本实施例中,求相似矩阵的传递闭包采用平方法:
它的时间复杂度为O(n3log2n),如果n值特别大,势必会影响总的计算时间。所以采用基于图连通分支计算的模糊聚类最佳算法计算矩阵的合成运算,递推如下:
这种算法的时间复杂度T(n)满足O(n)≤T(n)≤O(n2)。
本实施例中,具体方法如下:
(1)确定n个样本X=(X1,...,Xn)上的模糊相似关系R和一个截集阈值α;
(2)将R按下面计算改造为一个等价矩阵;
RοR=R2
R2οR2=R4
...
直到存在一个k满足
上述式子中,RοR为模糊关系的合成运算,在R是相似矩阵的假设下,已证明必有这样的k存在,满足k≤log n;
(3)计算集合
[x]即为模糊聚类,算法结束
5、用模糊聚类分析方法得到镜头关键帧后,然后基于这些关键帧进行镜头检索。在此基础上,用关键帧{ri1,ri2,...,rik}表示镜头,si把镜头si和sj的相似度定义为
其中,
表示第二大的值,使用
是因为本文使用HSV颜色直方图来表示关键帧,它的缺点是如果两个关键帧有相似的颜色分布,即使它们的内容不一样,也会认为这两个关键帧相似,为了克服这种缺陷,使用M和
的平均值来加强算法的鲁棒性。Hi(h,s,v)是HSV颜色空间的直方图,本文用H,S,V分量在18×3×3的三维空间中统计直方图,以归一化后的162个数值作为颜色特征值。Intersect(ri,rj)表示两个直方图的交,本文用它来判断两个关键帧的相似性。
下面的实验结果表明,本发明取得了比现有方法更好的效果,同时检索速度很快,证实了模糊聚类分析算法在镜头检索中的有效性。
镜头检索的实验数据是从电视录制的2002年亚运会节目,总共有41分钟,777个镜头,62132帧图像。它包含多种体育项目,如各种球类运动、举重、游泳以及插播的广告节目等。我们选了7个语义类作为查询镜头,它们是举重、排球、游泳、柔道、划船、体操、足球,如图2所示。
为了验证本发明的有效性,我们测试了以下3种方法做实验对比:
(1)常用的使用每个镜头的首帧做关键帧的镜头检索算法;
(2)2002年在IEEE Trans.Circuits and Systems for Video Technology发表的文献“An efficient algorithm for video sequence matching using the modifiedHausdorff distance and the directed divergence”(该文献作者是s.H.Kim and R.-H.Park,vol.CSVT-12,no.7,页码592-595)中描述的算法;
(3)使用模糊聚类分析算法得到关键帧进行镜头检索(只用颜色特征);
上述前3种方法,都仅仅使用了颜色特征,因此最后的实验结果能够从镜头相似度的度量方法上证明本发明所公开方法的优越性。图3给出了实验程序的用户界面,右边上面一行是查询视频的浏览区域,显示视频中每个镜头的第1个关键帧,用来表示每个镜头,用户可以从中选择想要进行查询的镜头进行检索,右边下面是查询结果区域。图3是选择上面一行的第1个镜头,它是一个游泳镜头,由该镜头第一帧图像022430.bmp来表示,按照本发明的方法计算出的相似度最大权,从大到小排列查询结果(从左到右,从上到下排列)。左边下方为一个简易播放期,双击检索结果图像可以播放相应镜头对应的那段视频。
实验采用了两种在MPEG-7标准化活动中的评价指标:平均归一化调整后的检索秩ANMRR(average normalized modified retrieval rank)和平均查全率AR(average recall)。AR类似于传统的查全率(recall),而ANMRR与传统的查准率(precision)相比,不仅能够反映出正确的检索结果比例,而且能够反映出正确结果的排列序号。ANMRR值越小,意味着检索得到的正确镜头的排名越靠前;AR值越大,意味着在前K(K是检索结果的截断值)个查询结果中相似镜头占所有相似镜头的比例越大。表1是上述3种方法对7个语义镜头类的AR和ANMRR比较。
表1 本发明与现有两种方法的对比实验结果
分类 | 方法1 | 方法2 | 方法3 | |||
AR | ANMRR | AR | ANMRR | AR | ANMRR | |
举重 | 0.8824 | 0.3098 | 0.8824 | 0.1539 | 0.9412 | 0.2186 |
排球 | 0.6333 | 0.4974 | 0.7895 | 0.3264 | 0.8556 | 0.3279 |
游泳 | 0.8400 | 0.2676 | 0.8250 | 0.3164 | 0.9200 | 0.2175 |
柔道 | 0.7000 | 0.4310 | 0.8214 | 0.2393 | 0.8000 | 0.3093 |
划船 | 0.8750 | 0.3407 | 0.6875 | 0.3570 | 0.8125 | 0.2223 |
体操 | 0.7857 | 0.3445 | 0.9600 | 0.1759 | 0.7857 | 0.2056 |
足球 | 0.5789 | 0.4883 | 0.6889 | 0.2815 | 0.8421 | 0.2614 |
均值 | 0.7565 | 0.3827 | 0.8078 | 0.2642 | 0.8510 | 0.2518 |
从表1可以看出,采用本发明的方法,无论是AR,还是ANMRR,都取得了比现有的两种算法更好的效果,证实了本发明把模糊聚类分析方法方法用于镜头检索的有效性。本发明的方法运用模糊聚类分析的方法,把镜头内容划分为多个等价类,这些等价类很好的描述了镜头内容的变化,而镜头之间的相似性则表现为关键帧结合之间的相似性。镜头之间相似性度量考虑了使用HSV颜色直方图表示关键帧的缺点:如果两个关键帧有相似的颜色分布,即使它们的内容不一样,也会认为这两个关键帧相似。因此使用最大相似值和第二大相似值的平均值来加强算法的鲁棒性。对比实验结果证实了本发明提出方法的有效性。另外,在CPU 500M PIII,256M内存的PC机上,本发明的算法平均检索时间为22.557秒,对于777个镜头的视频库来说,本发明两种算法的检索速度都是很快的。
Claims (4)
1、一种对镜头进行基于内容的视频检索的方法,其特征在于该方法包括以下步骤:
(1)首先对视频数据库进行镜头分割,以镜头作为视频的基本结构单元和检索单元;
(2)计算两个帧图像之间的相似度,按下面的方法建立模糊相似矩阵R:当i=j时,令rij为1;当i≠j时,令rij为xi与yj之间的相似度;
(3)利用传递闭包方法计算模糊相似矩阵R的等价矩阵
计算模糊相似矩阵R的等价矩阵
的传递闭包方法采用平方法: 它的时间复杂度为O(n3log2n),如果n值特别大,势必会影响总的计算时间,所以采用基于图连通分支计算的模糊聚类最佳算法计算矩阵的合成运算,递推如下:
这种算法的时间复杂度T(n)满足O(n)≤T(n)≤O(n2);
对
进行模糊聚类的方法如下:
(a)确定n个样本X=(X1,...,Xn)上的模糊相似关系R和一个截集阈值α;
(b)将R按下面计算改造为一个等价矩阵
RоR=R2
R2оR2=R4
...
直到存在一个k满足
上述式子中,RоR为模糊关系的合成运算,在R是相似矩阵的假设下,已证明必有这样的k存在,满足k≤log n;
(c)计算集合
[x]即为模糊聚类,算法结束;
对n个样本空间进行模糊聚类分析后,得到等价类,在每个等价类中选取一个样本作为关键帧,这样两个镜头之间的相似度度量就变为关键帧集合之间的相似性度量;
(5)用关键帧{ri1,ri2,...,rik}表示镜头si,关键帧集合来度量两个镜头之间的相似性。
2、如权利要求1所述的一种对镜头进行基于内容的视频检索的方法,其特征在于:步骤(1)中,对视频数据库进行镜头分割的方法为时空切片算法。
3、如权利要求1所述的一种对镜头进行基于内容的视频检索的方法,其特征在于:步骤(2)中,计算xi与yj之间的相似度用两个图像直方图的交来计算:
Hi(h,s,v)是HSV颜色空间的直方图,用H,S,V分量在18×3×3的三维空间中统计直方图,以归一化后的162个数值作为颜色特征值,Intersect(xi,yj)表示两个直方图的交,用它来判断两个关键帧的相似性,使用A(xi,yj)归一化到0,1之间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 03150126 CN1240014C (zh) | 2003-07-18 | 2003-07-18 | 一种对镜头进行基于内容的视频检索的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 03150126 CN1240014C (zh) | 2003-07-18 | 2003-07-18 | 一种对镜头进行基于内容的视频检索的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1477566A CN1477566A (zh) | 2004-02-25 |
CN1240014C true CN1240014C (zh) | 2006-02-01 |
Family
ID=34156438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 03150126 Expired - Fee Related CN1240014C (zh) | 2003-07-18 | 2003-07-18 | 一种对镜头进行基于内容的视频检索的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1240014C (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101201822B (zh) * | 2006-12-11 | 2010-06-23 | 南京理工大学 | 基于内容的视频镜头检索方法 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100681017B1 (ko) * | 2005-02-15 | 2007-02-09 | 엘지전자 주식회사 | 동영상의 요약 제공이 가능한 이동통신 단말기 및 이를 이용한 요약 제공 방법 |
CN100573523C (zh) * | 2006-12-30 | 2009-12-23 | 中国科学院计算技术研究所 | 一种基于显著区域的图像查询方法 |
CN101211355B (zh) * | 2006-12-30 | 2010-05-19 | 中国科学院计算技术研究所 | 一种基于聚类的图像查询方法 |
CN101339615B (zh) * | 2008-08-11 | 2011-05-04 | 北京交通大学 | 一种基于相似矩阵逼近的图像分割方法 |
CN101840435A (zh) * | 2010-05-14 | 2010-09-22 | 中兴通讯股份有限公司 | 一种实现视频预览和检索的方法及移动终端 |
CN101968797A (zh) * | 2010-09-10 | 2011-02-09 | 北京大学 | 一种基于镜头间上下文的视频概念标注方法 |
US9176987B1 (en) * | 2014-08-26 | 2015-11-03 | TCL Research America Inc. | Automatic face annotation method and system |
CN104217000A (zh) * | 2014-09-12 | 2014-12-17 | 黑龙江斯迪克信息科技有限公司 | 基于内容的视频检索系统 |
US11265317B2 (en) | 2015-08-05 | 2022-03-01 | Kyndryl, Inc. | Security control for an enterprise network |
CN106960211B (zh) * | 2016-01-11 | 2020-04-14 | 北京陌上花科技有限公司 | 关键帧获取方法及装置 |
CN110175267B (zh) * | 2019-06-04 | 2020-07-07 | 黑龙江省七星农场 | 一种基于无人机遥感技术的农业物联网控制处理方法 |
CN110852289A (zh) * | 2019-11-16 | 2020-02-28 | 公安部交通管理科学研究所 | 一种基于移动视频提取车辆及驾驶人信息的方法 |
-
2003
- 2003-07-18 CN CN 03150126 patent/CN1240014C/zh not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101201822B (zh) * | 2006-12-11 | 2010-06-23 | 南京理工大学 | 基于内容的视频镜头检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN1477566A (zh) | 2004-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Clinchant et al. | Semantic combination of textual and visual information in multimedia retrieval | |
CN1240014C (zh) | 一种对镜头进行基于内容的视频检索的方法 | |
Liu et al. | A new approach to retrieve video by example video clip | |
CN101556600B (zh) | 一种dct域上的图像检索方法 | |
CN102254015A (zh) | 基于视觉词组的图像检索方法 | |
Meng et al. | Object instance search in videos via spatio-temporal trajectory discovery | |
CN101866352A (zh) | 一种基于图像内容分析的外观设计专利检索方法 | |
CN107229710A (zh) | 一种基于局部特征描述符的视频分析方法 | |
Tsikrika et al. | Image annotation using clickthrough data | |
CN114972506B (zh) | 一种基于深度学习和街景图像的图像定位方法 | |
CN1967526A (zh) | 基于对等索引的图像检索方法 | |
CN103049570B (zh) | 基于相关保持映射和一分类器的图像视频搜索排序方法 | |
CN100507910C (zh) | 集成颜色和运动特征进行镜头检索的方法 | |
CN1252647C (zh) | 一种基于内容的镜头检索方法 | |
CN103970838A (zh) | 基于压缩域的社会图像标签排序方法 | |
Juan et al. | Content-based video retrieval system research | |
Sun et al. | A novel region-based approach to visual concept modeling using web images | |
Kumar et al. | Automatic feature weight determination using indexing and pseudo-relevance feedback for multi-feature content-based image retrieval | |
Semela et al. | KIT at MediaEval 2012-Content-based Genre Classification with Visual Cues. | |
Mojsilovic et al. | Psychophysical approach to modeling image semantics | |
Li et al. | Dual-ranking for web image retrieval | |
Sjöberg et al. | Analysing the structure of semantic concepts in visual databases | |
Koskela et al. | Semantic concept detection from news videos with self-organizing maps | |
Koskela et al. | Clustering-based analysis of semantic concept models for video shots | |
電子工程學系 | Content based image retrieval using MPEG-7 dominant color descriptor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20060201 Termination date: 20170718 |