CN1206847C - 一种基于内容的视频片段检索方法 - Google Patents

一种基于内容的视频片段检索方法 Download PDF

Info

Publication number
CN1206847C
CN1206847C CNB031483054A CN03148305A CN1206847C CN 1206847 C CN1206847 C CN 1206847C CN B031483054 A CNB031483054 A CN B031483054A CN 03148305 A CN03148305 A CN 03148305A CN 1206847 C CN1206847 C CN 1206847C
Authority
CN
China
Prior art keywords
fragment
similar
camera lens
video
factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB031483054A
Other languages
English (en)
Other versions
CN1461142A (zh
Inventor
彭宇新
杨宗桦
肖建国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Inst Of Computer Science & Technology Peking University
Original Assignee
BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Inst Of Computer Science & Technology Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIDA FANGZHENG TECHN INST Co Ltd BEIJING, Inst Of Computer Science & Technology Peking University filed Critical BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Priority to CNB031483054A priority Critical patent/CN1206847C/zh
Publication of CN1461142A publication Critical patent/CN1461142A/zh
Application granted granted Critical
Publication of CN1206847C publication Critical patent/CN1206847C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明属于视频检索技术领域,具体涉及一种基于内容的视频片段检索方法。现有的基于内容的视频片段检索方法往往存在着检索精度不高,检索速度慢的问题。针对现有技术中存在的不足,本发明首次运用图论的最大匹配和最优匹配来解决这个问题。首先,通过考察相似镜头的连续性初步得到一个个相似片段,再运用最大匹配的Hungarian算法来确定真正的相似片段。然后,本发明提出用最优匹配的Kuhn-Munkres算法和动态规划算法相结合,来解决片段相似度的度量问题。实践结果表明,与现有方法相比,本发明可以取得更高的检索精度和更快的检索速度,同时在相似片段的排列顺序上,更加符合人的心理特征。

Description

一种基于内容的视频片段检索方法
技术领域
本发明属于视频检索技术领域,具体涉及一种基于内容的视频片段检索方法。
背景技术
随着电视台视频节目的积累,网上数字视频的增加,以及数字图书馆,视频点播,远程教学等大量的多媒体应用,如何在海量视频中快速检索出所需要的资料显得至关重要。传统的基于关键词描述的视频检索因为描述能力有限,主观性强,手工标注,直观性差等原因,已经不能满足海量视频检索的需求.因此,从90年代开始,基于内容的视频检索技术成为研究的热点问题.
基于内容的视频片段检索是基于内容的视频检索的主要方式,它是指给定一个查询片段,从视频库里找到所有与它相似的片段。基于内容的视频片段检索需要解决两个问题和同时进行两种类型片段的检索。两个问题是:1、从视频库里自动分割出与查询片段相似的多个片段;2、按照相似度从高到低排列这些相似片段。两种类型的检索包括:1、精确检索:要检索的片段与查询片段基本一样,具有同样的镜头和帧序列;2、相似性检索:有这样两种情况,一种是对原视频进行了各种编辑,如插入/删除帧(慢镜头/快镜头)、插入/删除镜头、交换帧/镜头顺序等。另一种是不同拍摄的同类节目,如不同的足球比赛等。一个好的片段检索算法,应该能够解决上述两个问题,同时在合理的时间内进行两种类型片段的检索。
已有的片段检索方法可以分为两类:一、如文献“A Framework forMeasuring Video Similarity and Its Application to Video Query by Example”[Y.P.Tan,S.R.Kulkarni,and P.J.Ramadge,IEEE International Conference on ImageProcessing,Vol.2,pp.106-110,1999]所述,把视频片段分为片段-帧两层考虑,片段的相似性利用组成它的帧的相似性来直接度量。这类方法的缺点在于限制相似的片段必须遵守同样的时间顺序,而实际的视频节目并不遵守这种约束,因为后期编辑的结果使得相似的片段完全可能具有不同的镜头顺序,如同一个广告的不同编辑,同时这种基于每帧的比较,也使得检索速度比较慢。二、与本发明最为接近的现有技术是2001年在IEEE International Conferenceon Multimedia and Expo发表的文献“A Match and Tiling Approach toContent-based Video Retrieval”(作者是L.Chen,and T.S.Chua,页码417-420),该对比文献公开了一类片段检索方法,该方法把视频片段分为片段-镜头-帧三层考虑,它包括这样几个步骤:(1)先使用MRA(Temporal Multi-Resolution Analysis)方法检测镜头边界,然后对每个镜头的每一帧,进行颜色编码和纹理编码。颜色编码采用Y分量的均值μ和方差σ编码,纹理采用分形维特征(Fractal Dimension,FD)编码;(2)假设两个镜头内部的相似帧,按照时间顺序对应相似,因此计算两个镜头相似帧的最长序列,最终两个镜头的相似度,表示为上述3个特征的线性组合,确定相似阈值σL,判断两个镜头是否相似;(3)在此基础上,使用滑动窗口(Sliding Window)的办法,最终找到与查询片段相似的片段。这个方法能够同时进行精确检索和相似性检索,但它的问题在于:(1)只考虑了两个片段相似镜头的数量,而没有考虑多对多的镜头相似(粒度)对总体相似度的影响,因此,即使片段Y的所有镜头仅仅和片段X的一个镜头相似,Y也会被认为与X相似;(2)提出的假设并不成立,即两个镜头内部的相似帧,未必按照时间顺序对应相似;(3)镜头的相似性是根据两个镜头相似的最长帧序列来判断,这种基于每帧的比较,片段的检索速度比较慢。
发明内容
针对现有的视频片段检索方法所存在的缺陷,本发明的目的是提出一种基于内容的视频片段检索方法,该方法能在现有技术的基础上大大提高基于内容的视频片段检索的检索精度和检索速度,从而更加充分地发挥视频片段检索技术在当今网络信息社会中的巨大作用。本发明的另外一个目的是在提高检索精度和检索速度的同时,在相似片段的排列顺序上,更加符合人的心理特征。
本发明的目的是这样实现的:一种基于内容的视频片段检索方法,包括以下步骤:
(1)首先使用时空切片算法(spatio-temporal slice)进行镜头边界检测,把查询片段和视频库中的视频分割为镜头;然后检测镜头内的相机运动信息,抽取或构造关键帧来表示镜头内容;镜头的相似性度量是基于查询片段镜头的关键帧和视频数据库镜头的关键帧比较的结果,根据镜头检索结果,检索出视频数据库中与查询片段的镜头相似的所有镜头;
(2)把视频数据库中与查询片段镜头相似的所有镜头,按照时间的先后顺序排序,考察排序后的相似镜头的连续性,如果连续,则属于一个与查询片断相似的片断,如果不连续,则不属于该相似片断,根据这个性质,分割出视频数据库中相似镜头的连续部分,初步得到视频数据库中与查询片断相似的所有片断;
(3)这些片段包括了真正相似的片段和不相似的片段,此时最大匹配的Hungarian算法被使用来过滤不相似的片段,而仅仅保留相似的片段到下一步;
(4)对于相似片段,图论的最优匹配计算它们和查询片段的视觉相似度即视觉因子;基于最优匹配的结果,动态规划算法度量两个相似片段时间顺序的相似性即顺序因子;干扰因子也被进一步度量;最终两个片段的相似度表示为上述视觉因子、顺序因子和干扰因子的线性组合。
需要说明的是,因为最优匹配是在一对一(粒度)的前提下,计算得到视觉因子,而顺序因子和干扰因子的计算也是基于最优匹配的结果,所以最终的相似度度量,实际上已经包含了粒度因子的度量。
为了更好地实现本发明的目的,在进行视频片段检索时,将图论中二分图的理论,算法及结果引入到视频内容的相似度度量上,具体来说,是将图论中最大匹配的Hungarian算法和最优匹配的Kuhn-Munkres算法用于基于内容的视频片段检索。
具体来说,在进行视频片段检索时,初步分割出视频库Y中与查询片段X相似的片段:将视频库Y中与查询片段X相似的镜头yj从小到大排序,然后考察这些yj的连续性,如果|yj+1-yj|>2,j=1,2,...,λ-1,则得到一个可能的相似片段Yk={yi,yi+1,...,yj},i,j∈[1,λ],上述式子中,λ是视频库Y的长度,以镜头数表示。
再具体来说,在进行视频片段检索时,利用最大匹配的Hungarian算法来过滤不相似的片段和确定真正的相似片段:对于二分图Gk={X,Yk,Ek},如果则片段Yk与查询片段X相似,上述计算式中,Ek={eij},eij表示xi与yj相似,最大匹配MEk,并且M中任意两条边都不相邻,n是查询片段X的镜头数。
更进一步,在进行视频片段检索时,利用最优匹配的Kuhn-Munkres算法和动态规划算法具体计算两个片段的相似度:最优匹配的Kuhn-Munkres算法计算查询片段X和相似片段Yk的视觉因子 Vision = ω n , 式中ω为带权二分图Gk={X,Yk,Ek}的最大权,n是查询片段X的镜头数;基于最优匹配的结果,动态规划算法度量两个相似片段的顺序因子 order = c [ i , j ] n ; 干扰因子也被进一步度量: Interference = 2 × | M | n + l , 式中,l是相似片段Y′k的镜头数目,|M|表示Gk={X,Yk,Ek)最优匹配的边数,最终两个片段的相似度表示为上述视觉因子、顺序因子和干扰因子的线性组合:Similarity(X,Y′k)=ω1·Vision+ω2·Order+ω3·Interference,该式中的ω1、ω2、ω3分别表示视觉、顺序、干扰因子的权重。
再具体来说,在进行视频片段检索时,最优匹配计算视觉因子和确定相似片段边界的方法如下:把每对相似镜头的相似值作为权值赋给Gk={X,Yk,Ek)的每条边,这时的Gk就转化为一个带权的二分图,具体计算最优匹配的Kuhn_Munkres算法如下:
(1)给出初始标号 l ( x i ) = max j ω ij , l ( y j ) = 0 , i , j = 1,2 . . . , t , t = max ( n , m ) ;
(2)求出边集El={(xi,yi)|l(xi)+l(yi)=ωij)、Gl=(X,Yk,El)及Gl中的一个匹配M;
(3)如M已饱和X的所有结点,则M即是G的最优匹配,计算结束,否则进行下一步;
(4)在X中找一M非饱和点x0,令A←{x0},B←φ,A,B是两个集合;
(5)若 N G l ( A ) = B , 则转第(9)步,否则进行下一步,其中, N G l ( A ) ⊆ Y k , 是与A中结点邻接的结点集合;
(6)找一结点 y ∈ N G l ( A ) - B ;
(7)若y是M饱和点,则找出y的配对点z,令A←A∪{z},B←B∪{y},转第(5)步,否则进行下一步;
(8)存在一条从x0到y的可增广路P,令M←ME(P),转第(3)步;
(9)按下式计算a值: a = min x i ∈ A y j ∉ N G i ( A ) { l ( x i ) + l ( y j ) - ω ij } , 修改标号:
根据l′求El′及Gl′
(10)l←l′,Gl←Gl′,转第(6)步。
求出最大权ω和取得ω的匹配M后,视觉因子 Vision = ω n ; 为了确定Yk与X相似的片段边界,本发明取X关联M的所有y,从小到大排序为{yα,yβ,...,yγ},α,β,γ∈[1,m],在这个集合中,yα,yβ可能并不连续,即yβ-yα>1,根据视频片段连续性的定义,本发明取yα与yγ之间的所有镜头构成相似片段Y′k={yα,yα+1,...,yγ}。
为了更好地实施本发明,动态规划算法计算顺序因子的方法可以是:在计算的最优匹配M中,进一步考察Y′k和X按时间顺序对应的情况,即找到Y′k按时间顺序和X有边的最长镜头数目,以此来度量顺序因子。这个问题可以归结为最长公共子序列(LCS)问题:给定两个序列X={x1,x2,...,xn}和Y′k={yα,yα+1,...,yγ},要求找出X和Y′k的一个最长公共子序列,动态规划算法可以有效解决这个问题。为了计算方便,我们把{yα,yα+1,...,yγ}表示为{y1,y2,...,yl},l=γ-α+1,用c[i,j]记录序列X和Y′k的最长公共子序列的长度,建立递归关系如下:
Figure C0314830500087
顺序因子 order = c [ i , j ] n .
本发明的效果在于:采用本发明所述的视频片段检索方法,可以取得更高的检索精度和更快的检索速度,本发明的另一个效果在于本发明同时在相似片段的排列顺序上,更加符合人的心理特征。
本发明之所以具有如此显著的技术效果,其原因在于:
一、如前面技术内容所述,为了分割出相似片段,本发明把检索过程分为镜头检索和片段检索两个阶段:在镜头检索阶段,考虑了视频中的时间信息,把一个镜头内部随时间变化的内容,分解为几个内容一致的子镜头(sub-shots),这种基于子镜头的比较全面地反映了两个镜头是否相似,它不仅避免了现有方法对每个镜头仅仅采用一个关键帧比较的不足,也避免了现有方法逐帧比较造成的检索速度慢的问题;在片段检索阶段,通过考察相似镜头的连续性初步得到一个个相似片段,再运用最大匹配的Hungarian算法来确定真正的相似片段。为了排列相似片段,本发明考虑了片段相似度度量的视觉、粒度、时间顺序和干扰因子,提出用最优匹配的Kuhn_Munkres算法和动态规划算法相结合来度量这些因子的影响。本发明首次运用图论的匹配理论来解决视频检索问题,这是因为匹配的思想要求相似镜头必须一一对应(粒度),在这个条件下,求出的最大匹配和最优匹配可以客观全面地反映两个片段相似的镜头数量和两个片段视觉相似的程度,从而避免了现有方法中镜头计算的粒度问题。实验结果表明,与具有同样功能的现有方法相比,无论是检索的准确性,还是检索速度,本发明都取得了出色的效果。
二、视频片段的相似度度量,除了视觉信息以外,还依赖于组成片段的镜头之间的内部关系,为了达到本发明所述的显著技术效果,本发明在具体检索时,考虑了下列4个因子:
(1)视觉因子:是决定两个片段是否相似的最重要因素,主要通过组成片段的镜头的相似性来度量;
(2)粒度因子:一个片段里的某个镜头可能会相似于另一个片段里的多个镜头。因此,在两个片段的相似镜头对应图中,会出现一对多、多对一、多对多的情况。需要方法来度量不同镜头对应关系的相似性。例如,两个多对一关系的片段应该被给予更低的相似值;
(3)顺序因子:两个视觉上相似的片段,不能因为不同的镜头顺序而被认为不相似。但是,相比较视觉相似而时间顺序不同的两个片段,视觉和时间顺序都相似的两个片段应该被赋予更高的相似值;
(4)干扰因子:两个相似片段,它们中的一些镜头可能不能找到对应的相似镜头,这些镜头的存在体现了对应的不连续性,对两个片段最终的相似性会产生影响。
三、提出了基于内容的视频片段的检索策略:先找出视觉上与查询片段相似的所有片段;对于相似片段,再计算它们和查询片段的具体相似度,因为视觉是度量两个片段是否相似的最重要因素,这种检索策略的优点在于:视觉上相似的片段不会因为其它因子的影响而漏掉,同时可以加快检索速度,因为不相似的片段就不用计算它们的具体相似度。
附图说明
图1是本发明的总体框架,是本发明中各步方法的流程示意图;
图2是两个不相似片段的二分图;
图3是两个不相似片段的二分图;
图4是两个相似片段的二分图;
图5是对图3使用求最大匹配的Hungarian算法的结果;
图6是对图4使用求最大匹配的Hungarian算法的结果;
图7是本发明对一个视频片段的检索结果。
具体实施方式
下面结合附图对本发明作进一步详细的描述。
图1列出了本发明各步方法的流程示意图,包括以下步骤:
1、镜头检索
首先使用时空切片算法(spatio-temporal slice)进行镜头边界检测,把查询片段X和视频库Y中的视频分割为镜头,关于时空切片算法的详细描述可以参考文献“Video Partitioning by Temporal Slice Coherency”[C.W.Ngo,T.C.Pong,and R.T.Chin,IEEE Transactions on Circuits and Systems forVideo Technology,Vol.11,No.8,pp.941-953,August,2001];然后根据文献“Motion-based Video Representation for Scene Change Detection”[C.W.Ngo,T.C.Pong,and H.J.Zhang,Intemational Journal of Computer Vision,Vol.50,No.2,pp.127-143,Nov 2002]中的方法,检测镜头内的相机运动信息,抽取或构造关键帧来表示镜头内容;两个镜头的相似值Similarity(xi,yj)是根据两个镜头的关键帧计算的结果(其中xi,yj表示两个镜头);接着,本发明设定阈值T=0.5,当Similarity(xi,yj)>T,就认为两个镜头xi和yj相似,根据这个公式,检索出视频数据库Y中与查询片段X的镜头xi相似的所有镜头yj
2、初步分割相似片段
对视频库Y而言,与查询片段X相似的镜头是少数,大量的镜头并不相似。根据片段由连续镜头组成的定义,本发明首先将Y中与X相似的镜头yj从小到大排序,然后考察这些yj的连续性,如果|yj+1-yj|>2,j=1,2,...,λ-1,λ是视频库Y的长度(以镜头数表示),则得到一个可能的相似片段Yk={yi,yi+1,...,yj},i,j∈[1,λ]。我们取|yj+1-yj|>2,是考虑算法的鲁棒性,因为:
(1)后期编辑会插入无关镜头,如同一个广告的编辑,长广告会在短广告的基础上插入少量不相似的镜头;(2)如果开始一个新片段,它们之间会有一段时间的间隔,这种间隔一般大于2个镜头。
3、最大匹配确认相似片段
假设查询片段X={x1,x2,...,xn},每个可能的相似片段Yk={y1,y2,...,ym},其中xi,yj表示镜头,那么,X与Yk的相似镜头对应图,可以表示为图论中的二分图Gk={X,Yk,Ek},其中,顶点集Vk=X∪Yk,边集Ek={eij},eij表示xi与yj相似。
经过第2步判断的可能相似片段,包含了不相似片段和真正的相似片段。通过大量的实验观察,可以归纳为图2、图3和图4三种典型情况,其中图2和图3是不相似片段的二分图,图4是相似片段的二分图。由于视频片段是由表示同一个语义的连续镜头组成,因此一个视频片段的内部镜头本身就会相似,我们称这个性质为视频片段的自相似性,由于这种自相似性的存在,X和Yk的二分图会出现普遍的一对多、多对一、多对多的情况,如图2、3、4所示。判断两个片段是否相似,可以从它们相似镜头的数量来判断,经过第2步的判断,我们知道,基本每个yj在X中都能找到相似镜头xi,但因为多对多相似的存在,未必每个xi在Yk中都能找到相似镜头yj。因此,我们考察xi的相似情况,因为Yk的长度可能会小于X的长度,考虑算法的鲁棒性,如果X中有一半镜头在Yk中能找到相似镜头,我们就认为Yk和X相似的镜头足够多,因此Yk是X的相似片段,这个方法可以有效辨别图2的情况。但在图3和图4,查询片段X={x1,x2,...,x8}都有6个镜头找到相似镜头,如果用上述方法,它们都被判断为相似片段,但图3却是不相似片段的典型情况。
因此,我们进一步观察在Yk和X一一对应而不是重复对应的情况下,它们的相似情况。对图3、4使用求最大匹配的Hungarian算法,得到图5、6,如果
Figure C0314830500111
我们就认为Yk与X相似的镜头数足够多,因此它是真正的相似片段,该式中最大匹配MEk,并且M中任意两条边都不相邻,n是查询片段X的镜头数。这样从图5、6,我们可以清楚地区分出不相似片段和相似片段。具体的Hungarian算法如下:
(1)任给出图G的一个初始匹配M;
(2)若M已饱和X的所有结点,则M即是最大匹配,计算结束,否则进行下一步;
(3)找X中任一M非饱和点x0,令
       A←{x0},B←φ,A,B是两个集合;
(4)如N(A)=B,将x0作为饱和点(或称为伪饱和点)转第(2)步,否则进行下一步(N(A)Y,是与A中结点邻接的结点集合);
(5)找一结点y∈N(A)-B;
(6)如y是M饱和点,则找出y的配对点z,令
       A←A∪{z},B←B∪{y}
转第(4)步,否则进行下一步;
(7)存在一条从x0到y的可增广道路P,令
      M←MP(M与P进行环和)
转第(2)步。
4、视频片段的相似度模型
经过第3步的计算,我们已经得到与查询片段视觉上相似的多个片段,接下来考虑按照相似度从高到低排列它们。我们考虑了片段相似度度量的下列因子:
(1)视觉因子:是决定两个片段是否相似的最重要因素,主要通过组成片段的镜头的相似性来度量;
(2)粒度因子:一个片段里的某个镜头可能会相似于另一个片段里的多个镜头。因此,在两个片段的相似镜头对应图中,会出现一对多、多对一、多对多的情况。需要方法来度量不同镜头对应关系的相似性。例如,两个多对一关系的片段应该被给予更低的相似值;
(3)顺序因子:两个视觉上相似的片段,不能因为不同的镜头顺序而被认为不相似。但是,相比较视觉相似而时间顺序不同的两个片段,视觉和时间顺序都相似的两个片段应该被赋予更高的相似值;
(4)干扰因子:两个相似片段,它们中的一些镜头可能不能找到对应的相似镜头,这些镜头的存在体现了对应的不连续性,对两个片段最终的相似性会产生影响。
本发明是基于图论的最优匹配来表示和建模上述的相似度模型,这样做的一个显著优点是,本发明的有效性能够通过最优匹配来验证。另外,因为视觉是相似片段最重要的判断标准,我们不是像现有方法那样采用上述因子的线形组合来判断两个片段是否相似,而是先利用最大匹配得到视觉上的相似片段后,再基于最优匹配来表示和建模相似度模型,这样视觉上相似的片段不会因为其它因子的影响而漏掉,另外,因为最大匹配的计算复杂度低于最优匹配,这样做也可以加快检索的速度。最优匹配和最大匹配一样,都是在粒度的前提下进行计算,下面我们具体计算其它的3个因子:
4.1最优匹配计算视觉因子
我们把每对相似镜头的相似值作为权值赋给Gk={X,Yk,Ek}的每条边,这时的Gk就转化为一个带权的二分图,具体计算最优匹配的Kuhn_Munkres算法如下:
(1)给出初始标号 l ( x i ) = max j ω ij , l ( y j ) = 0 , i , j = 1,2 . . . , t , t = max ( n , m ) ;
(2)求出边集El={(xi,yj)|l(xi)+l(yj)=ωij}、Gl=(X,Yk,El)及Gl中的一个匹配M;
(3)如M已饱和X的所有结点,则M即是G的最优匹配,计算结束,否则进行下一步;
(4)在X中找一M非饱和点x0,令A←{x0},B←φ,A,B是两个集合;
(5)若 N G l ( A ) = B , 则转第(9)步,否则进行下一步,其中, N G l ( A ) ⊆ Y k , 是与A中结点邻接的结点集合;
(6)找一结点 y ∈ N G l ( A ) - B ;
(7)若y是M饱和点,则找出y的配对点z,令A←A∪{z},B←B∪{y},转第(5)步,否则进行下一步;
(8)存在一条从x0到y的可增广路P,令M←ME(P),转第(3)步;
(9)按下式计算a值: a = min x i ∈ A y j ∉ N G i ( A ) { l ( x i ) + l ( y j ) - ω ij } , 修改标号:
Figure C0314830500135
根据l′求El及Gl′
(10)l←l′,Gl←Gl′,转第(6)步。
求出最大权ω和取得ω的匹配M后,本发明定义视觉因子 Vision = ω n . 为了确定Yk与X相似的片段边界,本发明取X关联M的所有y,从小到大排序为{yα,yβ,...,yγ},α,β,γ∈[1,m],在这个集合中,yα,yβ可能并不连续,即yβ-yα>1,根据视频片段连续性的定义,本发明取yα与yγ之间的所有镜头构成相似片段Y′k={yα,yα+1,...,yγ}。
4.2动态规划算法计算顺序因子
在4.1计算的最优匹配M中,我们进一步考察Y′k和X按时间顺序对应的情况,即找到Y′k按时间顺序和X有边的最长镜头数目,以此来度量顺序因子。这个问题可以归结为最长公共子序列(LCS)问题:给定两个序列X={x1,x2,...,xn}和Y′k={yα,yα+1,...,yγ},要求找出X和Y′k的一个最长公共子序列,动态规划算法可以有效解决这个问题。为了计算方便,我们把{yα,yα+1,...,yγ}表示为{y1,y2,...,yl},l=γ-α+1,用c[i,j]记录序列X和Y′k的最长公共子序列的长度,建立递归关系如下:
Figure C0314830500137
本发明定义顺序因子 order = c [ i , j ] n .
4.3计算干扰因子
在最优匹配M中,X和Y′k会有少量镜头没有边关联,这说明这些镜头不能找到对应的相似镜头,它们的存在体现了对应的不连续性,本发明定义干扰因子 Interference = 2 × | M | n + l , n是查询片段X的镜头数目,l是相似片段Y′k的镜头数目。这个等式表明两个相似片段X和Y′k的所有镜头中,能找到对应相似镜头的镜头比例。
4.4计算总的相似度
根据前面的分析,本发明用下列公式计算查询片段X和它的相似片段Y′k的相似度:Similarity(X,Y′k)=ω1·Vision+ω2·Order+ω3·Interference
其中,ω1、ω2、ω3表明了人们对视觉、顺序、干扰因子的重视程度,不同的用户可以根据自己对这3个判断标准的喜好程度来调整它们。在本发明,分别取ω1=0.4,ω2=0.3,ω3=0.3,实验结果表明,这种取法能够符合人们的相似性判断标准。
下面用实验结果来说明本发明在视频片段检索中的优异表现。实验数据是从电视录制的几天节目,这个视频数据库非常具有挑战性,总共有3小时11分钟,4714个镜头,286936帧图像,包括了广告、新闻、体育、电影各种类型的节目,这里面有重复的相同视频片段,如新闻的片头、广告等;也有很多重复的相似视频片段,如体育节目中的不同网球比赛、不同时间长度和编辑的相同广告等。为了验证本发明的有效性,我们使用了现有方法作为实验对比,主要有这样两个原因:1、现有方法是目前所给出的实验数据最好的方法,也是最新的一种方法;2、与本发明功能一致,能够在视频库里自动分割出相似片段,然后按相似度从高到低排列这些相似片段。在视频片段检索中,除了检索的准确性以外,检索速度也是非常重要的一个指标,基于这种考虑,我们也比较了两种方法的检索速度,使用的测试机器是PIII DualCPU 1GHz,内存256M。
图7是实验程序的用户界面:上面一行是查询的某条广告,显示的是它的关键帧,下面是检索的结果,按照相似度递减的顺序先后排列。检索出的第一行即是查询的片段,它的相似度当然是最高的,其余的片段按照相似度递减的顺序先后排列。可以看到,排列的相似片段体现了第4步中不同因子的作用,如前3个片段和查询片段在时间顺序上更为相似。具体的实验结果分别在表1和表2给出。
                        表1视频片段精确检索的实验结果
  查询片段  帧数                  本发明             现有的方法
  查准率   查全率   速度(秒)   查准率   查全率   速度(秒)
1、新闻的片头  832   100%     100%     108   75%   100%     230
2、足球新闻  715   100%     100%     74   100%   100%     196
 3、汇源广告     367     100%     100%     167   33.3%   100%     97
 4、光明广告     374     100%     100%     89   100%   100%     101
 5、福临门广告     432     100%     100%     99   100%   100%     116
 平均     544     100%     100%     107   81.7%   100%     148
从表1可以看到,本发明和现有方法都取得了100%的查全率(recall),但在查准率上(precision),本发明优于现有方法,主要原因在于现有方法仅仅计算两个片段相似镜头的数量,而本发明考虑了相似镜头的对应关系。在检索速度上,本发明快于现有方法,根据我们的实验,总的检索时间基本上是等于相似镜头判断的时间,现有方法采用按时间顺序逐帧比较的办法,而本发明只需比较每个镜头的关键帧,因此本发明的检索速度大大快于现有方法。
                           表2视频片段相似性检索的实验结果
    查询片段     帧数                本发明              现有的方法
  查准率   查全率   速度(秒)   查准率   查全率   速度(秒)
1、网球比赛     507   100%   50%   49   100%   50%   140
2、医生抢救病人     1806   60%   85.7%   93   50%   50%   507
3、TCL广告     374   100%   100%   116   85.7%   100%   100
4、脑白金广告     374   100%   100%   129   100%   100%   100
5、厦新广告     374   100%   100%   103   100%   50%   99
平均     687   92%   87.1%   98   87.1%   70%   189
在表2,无论是查全率,还是查准率,本发明都优于现有方法,查询片段1和2是两个难度很大的查询,在我们的视频库中,网球比赛共出现4次,本发明漏掉了其中两个,原因是我们使用了蓝色网球场查询,而漏掉的一个的网球场是绿色,另外一个主要是选手和观众镜头,反映蓝色球场的镜头很少,现有方法也同样漏掉了这两个片段。与查询片段1类似,查询片段2也是一个语义很强而颜色特征很难利用的片段,综合整个片段反映这个语义的基本颜色特征,本发明也取得了不错的检索效果。在检索速度上,本发明同样快于现有方法,查询片段越长,本发明的优势越明显,例如在查询片段2,本发明的速度比现有方法快了5倍多。此外,如图7所示,相比较现有方法而言,本发明的显著优势还表现在根据相似度从大到小排列相似片段上,因为除了视觉特征,本发明还考虑了相似片段的不同因子,而现有方法的相似度仅仅取决于相似镜头的数量,通过对几个人的测试结果表明,本发明在相似片段的排序上,更加符合人的视觉特征和心理特征。
通过采集3小时11分钟的视频节目,并和目前实验效果最好和最新的现有方法进行实验对比,结果表明,采用本发明所述的视频片段检索方法,可以取得更高的检索精度和更快的检索速度,同时在相似片段的排列顺序上,更加符合人的心理特征。除了表1和表2列出的6个广告查询外,我们又查询了十几个不同编辑的广告,本发明都取得了100%的查准率和查全率。

Claims (7)

1、一种基于内容的视频片段检索方法,包括以下步骤:
(1)首先进行镜头边界检测,把查询片段和视频库中的视频分割为镜头;然后度量查询片段的镜头和视频数据库的镜头的相似度,根据度量结果,检索出视频数据库中与查询片段的镜头相似的所有镜头;
(2)把视频数据库中与查询片段镜头相似的所有镜头,按照时间的先后顺序排序,考察排序后的相似镜头的连续性,如果连续,则属于一个与查询片断相似的片断,如果不连续,则不属于该相似片断,根据这个性质,分割出视频数据库中相似镜头的连续部分,初步得到视频数据库中与查询片断相似的所有片断;
(3)这些片段包括了真正相似的片段和不相似的片段,此时图论的最大匹配被使用来过滤不相似的片段,而仅仅保留相似的片段到下一步;
(4)对于相似片段,图论的最优匹配计算它们和查询片段的视觉相似度即视觉因子;基于最优匹配的结果,动态规划算法度量两个相似片段时间顺序的相似性即顺序因子;干扰因子也被进一步度量;最终两个片段的相似度表示为上述视觉因子、顺序因子和干扰因子的线性组合。
2、如权利要求1所述的一种基于内容的视频片段检索方法,其特征在于:在进行视频片段检索时,将图论中二分图的理论、算法及结果引入到视频内容的相似度度量上,具体来说,是将图论中最大匹配的Hungarian算法和最优匹配的Kuhn-Munkres算法用于基于内容的视频片段检索。
3、如权利要求2所述的一种基于内容的视频片段检索方法,其特征在于:步骤(3)中,利用最大匹配的Hungarian算法来过滤不相似的片段和确定真正的相似片段:对于二分图Gk={X,Yk,Ek},如果
Figure C031483050002C1
则片段Yk与查询片段X相似,上述计算式中,Ek={eij},eij表示xi与yj相似,最大匹配MEk,并且M中任意两条边都不相邻,n是查询片段X的镜头数。
4、如权利要求2所述的一种基于内容的视频片段检索方法,其特征在于:步骤(4)中,利用最优匹配的Kuhn-Munkres算法和动态规划算法具体计算两个片段的相似度:最优匹配的Kuhn-Munkres算法计算查询片段X和相似片段Yk的视觉因子 Vision = ω n , 式中ω为带权二分图Gk={X,Yk,Ek}的最大权,n是查询片段X的镜头数;基于最优匹配的结果,动态规划算法度量两个相似片段的顺序因子 order = c [ i , j ] n ; 干扰因子也被进一步度量: Interference = 2 × | M | n + l , 式中l是相似片段Yk′的镜头数目,|M|表示Gk=(X,Yk,Ek}最优匹配的边数,最终两个片段的相似度表示为上述视觉因子、顺序因子和干扰因子的线性组合:Similarity(X,Yk′)=ω1·Vision+ω2·Order+ω3·Interference,该式中的ω1、ω2、ω3分别表示视觉、顺序、干扰因子的权重。
5、如权利要求1所述的一种基于内容的视频片段检索方法,其特征在于:步骤(2)中,初步分割出视频库Y中与查询片段X相似的片段:将视频库Y中与查询片段X相似的镜头yj从小到大排序,然后考察这些yj的连续性,如果|yj+1-yj|>2,j=1,2,...,λ-1,则得到一个可能的相似片段Yk={yi,yi+1,...,yj},i,j∈[1,λ],上述式子中,λ是视频库Y的长度,以镜头数表示。
6、如权利要求4所述的一种基于内容的视频片段检索方法,其特征在于最优匹配计算视觉因子和确定相似片段的边界的方法如下:
把每对相似镜头的相似值作为权值赋给Gk={X,Yk,Ek}的每条边,这时的Gk就转化为一个带权的二分图,具体计算最优匹配的Kuhn_Munkres算法如下:
(1)给出初始标号 l ( x i ) = max j ω ij , l ( y j ) = 0 , i , j = 1,2 . . . , t , t = max ( n , m ) ;
(2)求出边集El={(xi,yj)|l(xi)+l(yj)=ωij}、Gl=(X,Yk,El)及Gl中的一个匹配M;
(3)如M已饱和X的所有结点,则M即是G的最优匹配,计算结束,否则进行下一步;
(4)在X中找一M非饱和点x0,令A←{x0},B←φ,A,B是两个集合;
(5)若 N G l ( A ) = B ,则转第(9)步,否则进行下一步,其中,NGl (A)Yk,是与A中结点邻接的结点集合;
(6)找一结点,y∈NGl (A)-B;
(7)若y是M饱和点,则找出y的配对点z,令A←A∪{z},B←B∪{y},转第(5)步,否则进行下一步;
(8)存在一条从x0到y的可增广路P,令M←ME(P),转第(3)步;
(9)按下式计算α值: a = min x i ∈ A y j ∉ N G l ( A ) { l ( x i ) + l ( y j ) - ω ij } , 修改标号:
根据l′求El′及Gl′
(10)l←l′,Gl←Gl′,转第(6)步;
求出最大权ω和取得ω的匹配M后,视觉因子 Vision = ω n ; 为了确定Yk与X相似的片段边界,本发明取X关联M的所有y,从小到大排序为{yα,yβ,...yγ},α,β,γ∈[1,m],在这个集合中,yα,yβ可能并不连续,即yβ-yα>1,根据视频片段连续性的定义,本发明取yα与yγ之间的所有镜头构成相似片段Yk′={yα,yα+1,...yγ}。
7、如权利要求4所述的一种基于内容的视频片段检索方法,其特征在于动态规划算法计算顺序因子的方法如下:
在计算的最优匹配M中,进一步考察Yk′和X按时间顺序对应的情况,即找到Yk′按时间顺序和X有边的最长镜头数目,以此来度量顺序因子;这个问题可以归结为最长公共子序列(LCS)问题:给定两个序列X={x1,x2,...,xn}和Yk′={yα,yα+1,...,yγ},要求找出X和Yk′的一个最长公共子序列,动态规划算法可以有效解决这个问题,为了计算方便,我们把{yα,yα+1,...,yγ}表示为{y1,y2,...,yl},l=γ-α+1,用c[i,j]记录序列X和Yk′的最长公共子序列的长度,建立递归关系如下:
顺序因子 order = c [ i , j ] n .
CNB031483054A 2003-06-30 2003-06-30 一种基于内容的视频片段检索方法 Expired - Fee Related CN1206847C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB031483054A CN1206847C (zh) 2003-06-30 2003-06-30 一种基于内容的视频片段检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB031483054A CN1206847C (zh) 2003-06-30 2003-06-30 一种基于内容的视频片段检索方法

Publications (2)

Publication Number Publication Date
CN1461142A CN1461142A (zh) 2003-12-10
CN1206847C true CN1206847C (zh) 2005-06-15

Family

ID=29591422

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB031483054A Expired - Fee Related CN1206847C (zh) 2003-06-30 2003-06-30 一种基于内容的视频片段检索方法

Country Status (1)

Country Link
CN (1) CN1206847C (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7603370B2 (en) * 2004-03-22 2009-10-13 Microsoft Corporation Method for duplicate detection and suppression
US20080189753A1 (en) * 2005-01-19 2008-08-07 Koninklijke Philips Electronics, N.V. Apparatus and Method for Analyzing a Content Stream Comprising a Content Item
KR100650665B1 (ko) * 2005-10-28 2006-11-29 엘지전자 주식회사 동영상 검색방법
EP2541963B1 (en) * 2009-12-29 2021-03-17 Inscape Data, Inc. Method for identifying video segments and displaying contextually targeted content on a connected television
CN102737383B (zh) * 2011-03-31 2014-12-17 富士通株式会社 视频中的摄像机运动分析方法及装置
CN102222103B (zh) * 2011-06-22 2013-03-27 央视国际网络有限公司 视频内容的匹配关系的处理方法及装置
CN103365848A (zh) * 2012-03-27 2013-10-23 华为技术有限公司 一种视频查询方法、装置与系统
CN103605914B (zh) * 2013-11-15 2016-05-11 南京云川信息技术有限公司 一种网络影视资源侵权预测指数的计算方法
CN103984778B (zh) * 2014-06-06 2017-12-01 北京猎豹网络科技有限公司 一种视频检索方法及系统
CN105183752B (zh) * 2015-07-13 2018-08-10 中国电子科技集团公司第十研究所 关联查询红外视频图像特定内容的方法
CN106126619A (zh) * 2016-06-20 2016-11-16 中山大学 一种基于视频内容的视频检索方法及系统
CN109982126A (zh) * 2017-12-27 2019-07-05 艾迪普(北京)文化科技股份有限公司 一种相关视频的叠加方法
CN109246446A (zh) * 2018-11-09 2019-01-18 东方明珠新媒体股份有限公司 比较视频内容相似性的方法、装置和设备
CN113886632B (zh) * 2021-12-03 2022-04-01 杭州并坚科技有限公司 一种基于动态规划的视频检索匹配方法

Also Published As

Publication number Publication date
CN1461142A (zh) 2003-12-10

Similar Documents

Publication Publication Date Title
CN1206847C (zh) 一种基于内容的视频片段检索方法
US10867212B2 (en) Learning highlights using event detection
CN105210048B (zh) 基于社交媒体的内容识别方法
JP5711387B2 (ja) 映像を比較する方法および装置
US8233708B2 (en) Video scene classification device and video scene classification method
US9098807B1 (en) Video content claiming classifier
Awad et al. Trecvid semantic indexing of video: A 6-year retrospective
CN107682719A (zh) 一种直播内容健康度的监测评估方法及装置
CN101369281A (zh) 基于视频摘要元数据的检索方法
CN103984778B (zh) 一种视频检索方法及系统
CN103430175B (zh) 用于对视频进行比较的方法和装置
WO2018113673A1 (zh) 针对综艺类query的搜索结果的推送方法及装置
Kuzey et al. Evin: Building a knowledge base of events
CN1372669A (zh) 对普通声频可视数据信号描述的基本实体关系模型
CN1245697C (zh) 一种通过视频片段进行视频检索的方法
Liu et al. Query sensitive dynamic web video thumbnail generation
US20090106208A1 (en) Apparatus and method for content item annotation
Tsikrika et al. Image annotation using clickthrough data
CN106604068B (zh) 一种更新媒体节目的方法及其系统
CN1477566A (zh) 一种对镜头进行基于内容的视频检索的方法
US11308135B2 (en) Data prioritization through relationship analysis mapping
Tong et al. A unified framework for semantic shot representation of sports video
Peng et al. Clip-based similarity measure for hierarchical video retrieval
Pramod Sankar et al. Text driven temporal segmentation of cricket videos
Sav et al. Interactive experiments in object-based retrieval

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20050615