CN103235806B

CN103235806B - 基于时空关系的互联网视频片段间关系识别方法

Info

Publication number: CN103235806B
Application number: CN201310136936.2A
Authority: CN
Inventors: 黄华; 刘洪�; 张磊
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2013-04-19
Filing date: 2013-04-19
Publication date: 2016-04-20
Anticipated expiration: 2033-04-19
Also published as: CN103235806A

Abstract

本发明涉及一种基于时空关系的互联网视频片段间关系识别方法，包括以下步骤：对视频库中的视频片段，检测出其所包含的所有镜头，检测出每个镜头中的每一个关键帧，并描述其颜色特征、轮廓特征和局部极值点个数；基于关键帧的图像特征信息相似性得出两个关键帧之间的相似性，根据关键帧相似性信息计算出镜头之间的相似性，根据镜头间相似性，归纳出视频片段间的关系。本发明为用户提供了一种网络视频库浏览和查询引导的工具，不受外界因素的限制和干扰。该系统能在没有附加条件的指引下快速浏览所有的视频信息，同时以直观的网状关系图展示出视频间的相互关系，引导用户直观而快速地查询所需的内容。

Description

基于时空关系的互联网视频片段间关系识别方法

技术领域

本发明涉及一种计算机视频处理方法，具体涉及一种基于时空关系的互联网视频片段间关系识别方法。

背景技术

随着视频采集、传输和编辑等软硬件技术的高速发展，视频获取已经变得容易化和精细化。因此，近年来涌现出大量的可用视频包括网络传播的商业视频、家庭电影和重新编辑过的视频片段等。例如，知名视频网站YouTube每分钟上传的视频量为40小时。对于一些长视频，用户们通常喜欢通过预览其中的一些小的视频片段以大概了解整体内容。而这些短小的视频片段通常小于15分钟，已经成为了网络视频的主要成分，也是本发明主要针对的处理对象。根据调查，在上传到YouTube的视频中，超过99％的视频长度低于10分钟(Hindle,A.,J.Shao,etal.Clusteringwebvideosearchresultsbasedonintegrationofmultiplefeatures.WorldWideWeb2011,14(1):53-73.)。在这些视频片段中，很多的片段之间是相同的，或者包含了相同的内容，而在大量的视频片段中找出这种关系是相当困难的。视频片段的来源不同，内容也可能各式各样，而且具有结构上的异构性，而视频缺乏明确的结构性是有效集合某种类型的视频片段的最大障碍，因为我们需要用视觉信息去解决高维的流体对象(DiCarlo,etal.Untanglinginvariantobjectrecognition.Trendsincognitivesciences.2007,11(8),P.333-341.)。没有明确的指向信息，从一个海量的视频数据库中找出包含某个内容的视频片段通常需要逐个遍历视频库中的每个成员，而这种做法通常是乏味而没效率的，会浪费掉大量的人力和时间。因此，将给定视频库中的视频片段间的相互关系直观、快速地展示出来，对视频库管理和用户的浏览有很高的实用价值。

尽管视频的总量呈现爆炸性增长，视频内容结构化展示及视频浏览技术却远不能跟上实际需求的脚步。传统的视频浏览方法或系统，如YouTube，通常采用的方法为基于简单的文本(或内容)进行检索，然后将检索到的视频片段罗列出来。最近，Tompkin等人研究出了一个新的系统videoscapes(Tompkin,J.,K.I.Kim,etal.(2012)."Videoscapes:exploringsparse,unstructuredvideocollections."ACMTransactionsonGraphics(TOG)31(4):68.)，该系统在谷歌地球(GoogleEarth)平台上，结合视频拍摄的地理信息对视频片段进行收集和整理。然而，该方法仅结合了视频拍摄的坐标信息，不能将视频的时空信息进行有效融合。

发明内容

本发明的目的在于提供一种基于时空关系的互联网视频片段间关系识别方法。

为达到上述目的，本发明采用的技术方案是：

一种基于时空关系的互联网视频片段间关系识别方法，包括以下步骤：

一、对视频库中的视频片段，检测出其所包含的所有镜头；

二、对于检测出的每个镜头，检测出该镜头中的关键帧；

三、对于每个镜头中的每一个关键帧，分别描述其颜色特征、轮廓特征和局部极值点个数；

四、对于取自不同视频片段中的两个关键帧，基于它们的图像特征信息相似性求出关键帧相似度能量函数，并得出两个关键帧之间的相似性；

五、根据关键帧相似性信息计算出镜头之间的相似性；

六、根据镜头间相似性，归纳出视频片段间是否具有前后、包含结构性关系；

七、对于判定为同一场景而不能满足结构性关系的视频片段，计算出相机相对于该场景的位置和视角，归纳出视频片段间的视角旋转关系；

八、对于不满足结构性关系和视角旋转关系的视频片段对，分割出每个关键帧的特征区域；

九、基于特征区域的局部特征相似性比较，计算出该视频片段对的相似性程度，将视频片段对C_i和C_j之间的关系定义为弱关系。

作为本发明方案的一种优化，本发明还包括步骤十，利用计算出的视频片段间的各种关系，基于图形绘制技术构建出一张能够直观展示互联网视频片段间关系的视频关系网状图。

有益效果

本发明提出的视频关系识别和图形化表示方法，为用户提供了一种网络视频库浏览和查询引导的工具。不同于传统基于简单的文本(或内容)进行检索或结合坐标等外部信息进行导航的视频浏览系统，本发明利用的是视频片段间自身内容间的相关性，不受外界因素的限制和干扰。该系统能在没有附加条件的指引下快速浏览所有的视频信息，同时以直观的网状关系图展示出视频间的相互关系，引导用户直观而快速地查询所需的内容。

附图说明

图1是基于时空关系的互联网视频片段间关系识别方法的流程图。

图2是视频片段间前后、包含关系示意图。

具体实施方式

下面将根据附图对本发明进行详细说明。

图1是本发明的流程图。如图1所示，本发明主要分为十个步骤：

步骤一：对视频库C中的视频片段C_i，检测出其所包含的所有镜头

步骤二：对于每个镜头检测出其关键帧以减小后续处理的计算量；检测关键帧有很多的算法，本实施例采用一种常用的利用AP算法(affinitypropagation)。AP算法可以参考文献Frey,B.J.andD.Dueck，"Clusteringbypassingmessagesbetweendatapoints."science315(5814):972-976.

步骤三：对每个关键帧分别基于该帧图像的颜色信息、轮廓形状信息和局部特征点信息三个方面去描述整帧图像的特征。

描述关键帧的颜色特征、轮廓特征和局部特征点信息分别有多种不同的描述方式，本实施例中利用颜色直方图去描述该关键帧的颜色特征，利用GIST算法求出该关键帧的轮廓特征利用SIFT算法求出该关键帧的局部极值点个数

步骤四：对于视频库C中任意两个视频片段C_i和C_p，其关键帧和之间的相似性能量函数定义为：

其中，为颜色直方图的距离，为GIST特征之间的不一致性，为SIFT特征之间的不一致性，α、β和γ分别为这三个变量的系数，取值范围为0-1.0；本实施例中α、β和γ取值均为0.5，一般情况下均可以使用该取值。如果希望结果更加精确，可以使用包含20-30个视频片段的小测试视频集进行测试，通过测试结果对α、β和γ的值进行调整。

其中的计算均为经典算法，的定义如下：

ω (f_{i}^{j k}, f_{p}^{q t}) = - \exp (1 / m a x (m_{i}^{j k} / m_{p}^{q t}, n_{i}^{j k} / n_{p}^{q t}))

其中，和分别表示关键帧匹配关键帧时所匹配的特征点个数和关键帧匹配关键帧时所匹配的特征点个数。

然后，设置一个阈值，根据计算出的关键帧能量函数的值是否小于这个阈值，判定关键帧和是否相似。

该阈值由用户设置，优选的，通过使用包含20-30个视频片段的小测试视频集进行测试获得。

步骤五：根据关键帧对和之间的对应关系，定义镜头S_i和S_j间的相似度能量函数为：

η (S_{i}, S_{j}) = Σ_{k = 1}^{T_{1}} s (f_{i}^{j k}, σ (f_{i}^{j k})) + Σ_{k = 1}^{T_{2}} s (f_{p}^{q t}, σ (f_{p}^{q t}))

其中，s(，)为关键帧间相似性能量函数，和分别为关键帧和所对应的相似关键帧，T₁为镜头S_i和S_j比对时所找到的相似关键帧对数，T₂为镜头S_j和S_i比对时所找到的相似关键帧对数；

然后，设置一个阈值，根据镜头间的相似度能量函数的值是否小于这个阈值，判定两个镜头间是否相似。

该阈值由用户设置，优选的，该阈值通过使用包含20-30个视频片段的小测试视频集进行测试获得。

步骤六：根据镜头间相似性，得到一个可以有效描述该视频片段整体特征信息的相似性序列，归纳出视频片段间是否具有前后、包含结构性关系：如图2所示，对于视频片段对C_i和C_j，如果C_i的前半部分镜头和C_j的后半部分镜头相对应，则C_i在C_j之后；如果C_i的后半部分镜头和C_j的前半部分镜头相对应，则C_i在C_j之前；如果C_i的所有镜头和C_j的中间部分镜头相对应，则C_i包含于C_j之中；如果C_i的中间部分镜头和C_j的所有镜头相对应，则C_i包含C_j；如果具有前后、包含结构性关系，则将视频片段对C_i和C_j之间的关系变量Re_ij赋值为当前关系，并对它们之间的相似性变量ρ_ij赋一个对应的值；ρ_ij的赋值规则为：

步骤七：设置一个旋转关系阈值，对于镜头间相似性能量函数大于旋转关系阈值但没有结构性关系的视频片段对，判定为同一场景，抽取其中相似的镜头，并利用SFM算法(structurefrommotion)估计拍摄该镜头时的摄像机位置及视角，将视频片段对C_i和C_j之间的关系变量Re_ij赋值为旋转关系，并对它们之间的相似性变量ρ_ij赋值0.8。

该旋转关系阈值由用户设置，优选的，该旋转关系阈值通过使用包含20-30个视频片段的小测试视频集进行测试获得。

步骤八：对于不具有结构性关系也不具有旋转关系的视频片段对C_i和C_j，对关键帧做重要性区域检测，采用基于直方图对比(histogram-basedcontrastmethod)的显著性检测方法(参见(Cheng,M.-M.,G.-X.Zhang,etal.(2011).Globalcontrastbasedsalientregiondetection.ComputerVisionandPatternRecognition(CVPR),2011IEEEConferenceon,IEEE.))分割出每个关键帧和的特征区域和

步骤九：对于视频片段对C_i和C_j中的两个特征区域和采用步骤三和步骤四中关键帧相似性对比的方法，对区域和进行比对，求出关键帧中人眼感兴趣区域的相似性，将视频片段对C_i和C_j之间的关系变量Re_ij赋值为较弱的关系，并对它们之间的相似性变量ρ_ij赋一个对应的较小的值，ρ_ij的赋值规则为：

ρ_{i j} = 0.7 * Σ_{k = 1}^{K} Σ_{t = 1}^{T} \exp (- s (R_{i}^{j k}, R_{p}^{q t})) / (K . T)

其中，s(,)为步骤四中定义的相似性能量函数，K和T分别为视频片段C_i和C_j对应的总的关键帧个数。

步骤十：根据前述步骤的计算结果，对于视频库中的任意两个视频片段C_i和C_j，得到了它们之间的相互关系Re_ij和表征其它们之间相似程度的相似性变量ρ_ij；然后，将视频片段作为节点，利用Isomap算法计算出各视频片段在屏幕上展示时的位置，用线段将具有相似关系的视频连接起来，构建出一张能够直观展示互联网视频片段间关系的视频关系平面网状图，图上各个节点之间的距离表征视频片段之间的相似性程度。

如上所述，本发明提出了一种基于时空关系的互联网视频片段间关系识别和图形化表示方法。它充分利用网络视频片段这个海量的视频资源库，该方法对视频库中每个视频片段分镜头提取关键帧，并结合颜色相似性、形状相似性和局部特征点相似性等特征相似性指标做关键帧间相似性比较，以此推断出镜头间的相似性，最终归纳出视频片段间的前后、包含、旋转等强关系。对于没有强关系的视频对，利用关键帧间特征区域局部颜色相似性和局部特征点相似性特征比对，衡量出它们之间的弱关系。最后，利用图形绘制技术(graphdrawing)将视频间关系直观地展示出来。本发明提出的视频关系图形化表示方法，为用户提供了一种易于网络视频库浏览和查询引导的工具。

应该理解的是，本实施方式只是本发明实施的具体实例，不应该是本发明保护范围的限制。在不脱离本发明的精神与范围的情况下，对上述内容进行等效的修改或变更均应包含在本发明所要求保护的范围之内。

Claims

1.一种基于时空关系的互联网视频片段间关系识别方法，其特征在于，包括以下步骤：

步骤二：对于每个镜头检测出其关键帧；

步骤三：对每个关键帧用颜色直方图去描述该关键帧的颜色特征，利用GIST算法求出该关键帧的轮廓特征利用SIFT算法求出该关键帧的局部极值点个数

步骤四：对于视频库C中任意两个视频片段C_i和C_p，计算其关键帧和之间的相似性能量函数

其中，为颜色直方图的距离，为GIST特征之间的不一致性，为SIFT特征之间的不一致性，α、β和γ分别为这三个变量的系数，取值范围为0-1.0；

的定义如下：

ω (f_{i}^{j k}, f_{p}^{q t}) = - \exp (1 / m a x (m_{i}^{j k} / m_{p}^{q t}, n_{i}^{j k} / n_{p}^{q t}))

其中，和分别表示关键帧匹配关键帧时所匹配的特征点个数和关键帧匹配关键帧时所匹配的特征点个数；

然后，设置一个阈值，根据计算出的关键帧能量函数的值是否小于这个阈值，判定关键帧和是否相似；

η (S_{i}, S_{j}) = Σ_{k = 1}^{T_{1}} s (f_{i}^{j k}, σ (f_{i}^{j k})) + Σ_{t = 1}^{T_{2}} s (f_{p}^{q t}, σ (f_{p}^{q t}))

然后，设置一个阈值，根据镜头间的相似度能量函数的值是否小于这个阈值，判定两个镜头间是否相似；

步骤六：根据镜头间相似性，得到一个描述该视频片段整体特征信息的相似性序列，归纳出视频片段间是否具有前后、包含结构性关系：对于视频片段对C_i和C_j，如果C_i的前半部分镜头和C_j的后半部分镜头相对应，则C_i在C_j之后；如果C_i的后半部分镜头和C_j的前半部分镜头相对应，则C_i在C_j之前；如果C_i的所有镜头和C_j的中间部分镜头相对应，则C_i包含于C_j之中；如果C_i的中间部分镜头和C_j的所有镜头相对应，则C_i包含C_j；如果具有前后、包含结构性关系，则将视频片段对C_i和C_j之间的关系变量Re_ij赋值为当前关系，并对它们之间的相似性变量ρ_ij赋一个对应的值；ρ_ij的赋值规则为：

步骤七：设置一个旋转关系阈值，对于镜头间相似性能量函数大于旋转关系阈值但没有结构性关系的视频片段对，判定为同一场景，抽取其中相似的镜头，并利用SFM算法估计拍摄该镜头时的摄像机位置及视角，将视频片段对C_i和C_j之间的关系变量Re_ij赋值为旋转关系，并对它们之间的相似性变量ρ_ij赋值0.8；

步骤八：对于不具有结构性关系也不具有旋转关系的视频片段对C_i和C_j，对关键帧做重要性区域检测，采用基于直方图对比的显著性检测方法分割出每个关键帧和的特征区域和

步骤九：对于视频片段对C_i和C_j中的两个特征区域和采用步骤三和步骤四中关键帧相似性对比的方法，对区域和进行比对，求出关键帧中特征区域的相似性，将视频片段对C_i和C_j之间的关系变量Re_ij赋值为弱关系，并对它们之间的相似性变量ρ_ij赋值：

ρ_{i j} = 0.7 * Σ_{k = 1}^{K} Σ_{t = 1}^{T} \exp (- s (R_{i}^{j k}, R_{p}^{q t})) / (K . T)

2.根据权利要求1所述的一种基于时空关系的互联网视频片段间关系识别方法，其特征在于，在步骤九之后，还包括步骤十：将视频片段作为节点，利用Isomap算法计算出各视频片段在屏幕上展示时的位置，用线段将具有相似关系的视频连接起来，构建出一张能够直观展示互联网视频片段间关系的视频关系平面网状图，图上各个节点之间的距离表征视频片段之间的相似性程度。

3.根据权利要求1或2所述的一种基于时空关系的互联网视频片段间关系识别方法，其特征在于，步骤三中α、β和γ取值均为0.5。

4.根据权利要求1或2所述的一种基于时空关系的互联网视频片段间关系识别方法，其特征在于，使用包含20-30个视频片段的小测试视频集进行测试，通过测试结果对α、β和γ的值进行调整。