CN102117313A

CN102117313A - 一种视频检索方法和系统

Info

Publication number: CN102117313A
Application number: CN 201010610196
Authority: CN
Inventors: 赵百泉
Original assignee: TVMining Beijing Media Technology Co Ltd
Current assignee: TVMining Beijing Media Technology Co Ltd
Priority date: 2010-12-29
Filing date: 2010-12-29
Publication date: 2011-07-06

Abstract

本发明公开了一种视频检索方法和系统，将视频片段存储在视频数据库中，并提取每个视频片段对应的情感特征向量存储在特征数据库中；输入待检索视频片段，并提取所述待检索视频片段的情感特征向量；将所述待检索视频片段的情感特征向量与特征数据库中的每个情感特征向量进行匹配，计算两者之间的相似度，并对相似度进行排序，选取预设数量的相似度最大的视频片段；将选取出来的视频片段作为检索结果输出。采用了本发明的技术方案，能够解决视频片段情感特征提取和视频内容相似度匹配的问题，实现通过高层语义进行视频内容的检索。

Description

一种视频检索方法和系统

技术领域

本发明涉及数字视频技术领域，尤其涉及一种视频检索方法和系统。

背景技术

近年来，数字视频信息出现了飞速膨胀。新的视频应用，例如数字图书馆、视频点播、数字电视、视频会议、远程教育等，已经为越来越多的人所接受和熟悉。面对海量的视频数据，如何找到所需的视频信息就成为一个亟需解决的问题。上个世纪9O年代以来，出现了基于内容的视频分析和检索研究，其目的就是通过对视频内容进行计算机处理、分析和理解，建立结构和索引，以实现方便有效的视频信息获取。因此，基于内容的视频分析与检索研究从一开始就得到了广泛的重视，并取得了丰硕的研究成果。

基于内容的视频分析从提出到现在，大致经历过3个阶段。第一阶段的研究主要集中在视频结构的分析和浏览上，其中涉及的关键技术有镜头边界检测、关键帧提取和场景的合并。第二阶段的研究主要围绕相似性检索展开，核心问题是特征的提取和特征空间距离的量度。前两个阶段的研究在一定程度上解决了视频检索和浏览的问题．并对视频管理和获取技术进行了有价值的探索。第三阶段的工作提出了面向语义的信息提取，这也是目前基于内容视频分析研究的热点。该阶段工作的根本目标是构建从底层特征到高层语义之间的桥梁，最终形成符合人类思维形式的信息索引和检索方式。

视频镜头的检测

镜头检测的关键是确定从镜头到镜头的转换处，并利用镜头之间的转换方式找到镜头图像之间的差别，镜头之间的转变包括切变、渐变和数字特技，针对不同的情况往往需要使用不同的算法。其中切变检测的算法最为成熟，渐变和数字特技的检测算法往往依赖一定的先验假设，技术还有待进一步完善。常用的自动镜头检测方法主要有以下几种：

(1)基于像素的镜头检测方法，利用视频两帧对应像素之间的差别来检测镜头边界，这种方法的缺点在于容易受到噪声的影响；

(2)基于像素平均值，方差等统计特征的镜头检测方法；

(3)基于视频特征的镜头检测方法，包括基于边缘特征的比较方法（提取视频每帧图像的边缘特征，通过检测边缘的突然变化来确定边界），采用颜色比率特征（Color Ratio Feature）的方法、基于光流特征的方法等，这些方法的计算复杂性都比较大；

(4)基于直方图的镜头检测方法，此方法利用视频帧图像的灰度直方图或者颜色直方图的比较来检测边界，在镜头检测的精度和速度之间达到了较好的平衡，因此使用最为普遍。另外，近年来开始出现了直接对压缩视频进行镜头检测的算法，压缩域内对镜头切变的检测多是利用DCT系数、运动向量及运动补偿宏块等信息进行的 Yasuyuki利用I帧的DC序列考查前后两个I帧DC图的色度相似度，在镜头切换时，色度变化一般较大，从而确定切换点。另一种方法是利用B帧中进行运动补偿的宏块数量来进行切变的检测。在压缩域内镜头渐变的检测方法也较多，典型的有以下几种：Yeo等借助从MPEG 缩码流中提取出的DC系数可以检测闪光、淡人、淡出，同时该方法也可以区分叠化和切变；利用MPEG压缩码流中宏块种类的信息可以获得B帧的预测方向，并进而检测到各帧中场景发生变化的区域，通过对这些变化区域的分析，就可以检测比较复杂的擦除转换，还可以确定擦除的种类。

关键帧提取

在镜头分割以后，为提供给用户浏览．一般要进行镜头关键帧（Key Frame）的提取工作。一个镜头的关键帧就是反映该镜头主要内容的一帧图像或若干帧图像。关键帧的选取一方面必须能够反映镜头中的主要事件，因而描述应尽可能完全律确；另一方面，为便于管理，数据量应尽量小，且计算不宜太复杂。关键帧提取方法主要包括以下几种：

(1)最简单的关键帧提取方法是提取镜头固定位置上的帧作为关键帧。例如第一帧、中间帧或最后一帧，或者相隔固定帧数采样一帧，这种方法操作简单，但不够灵活，因此不能有效地反映镜头内容；

(2)较为复杂的方法包括基于内容复杂性、镜头活动性等特征来提取关键帧，这些方法能较为准确地反映镜头内容；

(3)较理想的方法是通过分析视频视觉内容（颜色直方网、运动信息）随时间的变化情况，确定所需关键帧的数日，并按照一定的规则为镜头抽取关键帧；

(4)还有一种常用的关键帧提取方法是采用图像拼接(Mosaic)技术，也称全景图生成技术，即对分割得到的镜头各帧进行拼接，融合镜头中多帧的背景信息，生成一个全景的拼接图像束代表视频片断的内容，虽然全景图能较为全面地反映镜头内容，但由于算法对前景运动的敏感，这种技术的应用受到一定的限制，还有其他方法，例如用无监督聚类技术来选择关键帧等。

基于内容的相似性检索

目前的视频检索主要依赖视频内容的相似性，称相似性检索。相似性检索要求用户提交感兴趣的视频片断，检索过程将样本片断与视频库中的其它片断作相似性比较，并按相似性大小返回检索结果。视频相似性检索的研究主要解决两个问题：如何提取反映视频内容的特征；如何度量特征之间的相似性。

在特征提取方面，日前的视频检索技术主要是从传统的图像检索技术直接或问接地继承过来的，颜色、纹理和形状是图像检索中广泛使用的底层特征，相应地，它们也是视频检索中十分重要的特征。但是，视频并不是简单的同像序列，相邻视频帧之间表现出非常强的相关性。在近期研究中，越来越多的工作开始利用视频的运动信息为视频检索提供时序线索，视频检索中使用的运动信息主要有物体运动轨迹、块运动矢量的主分量、时序纹理和摄像机运动几种在相似性量度方面。相似性量度一般可以分为局部匹配和全局匹配两种，局部相似性量度方法利用了视频片断间的时序关系，但仅局限在简单的线性关系上，更有计算复杂的缺点；相反．全局相似性量度方法具有索引信息少、检索速度快等优点。但却对视频的时序关系缺乏描述，因此，更复杂的相似性量度方法被提出，例如运动物体轨迹、基于流形假设的最短特征线等。

基于内容的视频检索一直是计算机科学研究的热点和难点问题。目前该技术仍然只是对底层特征的检索，与人们思维中的高层语义概念相去甚远，如何跨越语义鸿沟还需要做更多的研究。

发明内容

本发明的目的在于提出一种视频检索方法和系统，能够解决视频片段情感特征提取和视频内容相似度匹配的问题，实现通过高层语义进行视频内容的检索。

为达此目的，本发明采用以下技术方案：

一种视频检索方法，包括以下步骤：

A、将视频片段存储在视频数据库中，并提取每个视频片段对应的情感特征向量存储在特征数据库中；

B、输入待检索视频片段，并提取所述待检索视频片段的情感特征向量；

C、将所述待检索视频片段的情感特征向量与特征数据库中的每个情感特征向量进行匹配，计算两者之间的相似度，并对相似度进行排序，选取预设数量的相似度最大的视频片段；

D、将选取出来的视频片段作为检索结果输出。

步骤A和步骤B中，提取视频片段的情感特征向量进一步包括以下步骤：

对视频片段从语义层分割成场景；

从每个场景中提取关键帧；

提取场景中每个关键帧的情感特征向量，对场景中所有关键帧的情感特征向量求均值，获得场景的情感特征向量；

对视频片段中所有场景的情感特征向量求均值，获得视频片段的情感特征向量。

提取关键帧的情感特征向量进一步包括以下步骤：

提取关键帧的底层特征向量；

定义关键帧语义层的情感特征向量；

利用模糊集建立底层特征向量和情感特征向量之间的模糊关系矩阵；

根据底层特征向量获得关键帧语义层的情感特征向量。

底层特征向量包括亮度、饱和度、镜头切换速度和颜色能量，情感特征向量包括悲伤、高兴、恐惧。

步骤C中，计算所述待检索视频片段的情感特征向量与特征数据库中的每个情感特征向量之间的相似度进一步包括以下步骤：

采用余弦评估公式计算两个情感特征向量之间的距离，公式如下：

Figure 2010106101968100002DEST_PATH_IMAGE001

其中，X和Y分别表示进行比较的情感特征向量，

Figure 2010106101968100002DEST_PATH_IMAGE002

和

Figure 2010106101968100002DEST_PATH_IMAGE003

分别表示情感特征向量的第

Figure 2010106101968100002DEST_PATH_IMAGE004

个元素，

为正整数，DIS（X,Y）表示两个情感特征向量之间的距离；

再采用以下公式计算两个情感特征向量之间的相似度：

，其中，X和Y分别表示进行比较的情感特征向量，SIM(X,Y)表示两个情感特征向量之间的相似度。

步骤C中，预设数量是10。

一种视频检索系统，包括查询接口单元、相似度匹配单元、数据库单元、情感特征向量生成单元和数据库更新单元，数据库单元进一步包括视频数据库和特征数据库，查询接口单元分别与情感特征向量生成单元、相似度匹配单元和数据库单元连接，数据库单元分别与查询接口单元、相似度匹配单元和数据库更新单元连接，数据库更新单元与情感特征向量生成单元，其中，

查询接口单元用于输入待检索视频片段给情感特征向量生成单元，接收情感特征向量生成单元返回的待检索视频片段的情感特征向量，发送给相似度匹配单元，并接收数据库单元发送的作为检索结果的视频片段；

相似度匹配单元用于接收查询接口单元发送的待检索视频片段的情感特征向量和数据库单元发送的所有视频片段的情感特征向量，并计算两者之间的相似度，对相似度进行排序，将结果发送给数据库单元；

数据库单元的视频数据库用于存储数据库更新单元发送的视频片段，并根据相似度匹配单元发来的结果，将对应的视频片段发送给查询接口单元，数据库单元的特征数据库用于存储数据库更新单元发送的视频片段对应的情感特征向量，并发送给相似度匹配单元；

情感特征向量生成单元用于接收数据库更新单元发来的视频片段，提取视频片段的情感特征向量返还给数据库更新单元，并接收查询接口单元发来的视频片段，提取视频片段的情感特征向量返还给查询接口单元；

数据库更新单元用于发送视频片段给情感特征向量生成单元，从情感特征向量生成单元接收视频片段的情感特征向量，并将视频片段和与其对应的情感特征向量发送给数据库单元。

采用了本发明的技术方案，通过自学习的方式，利用模糊集，在底层特征和高层情感语义之间建立隶属度关系，从而构建模糊关系矩阵，解决语义鸿沟的同时充分考虑了情感语义的模糊特性，为视频内容的表达提供了一种有效的解决方案。此外，利用余弦评估方式来计算视频情感向量的距离，十分简单有效，降低了系统的时间复杂度。

附图说明

图1是本发明具体实施方式中视频检索系统结构示意图。

图2是本发明具体实施方式中视频检索流程图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

图1是本发明具体实施方式中视频检索系统结构示意图。如图1所示，该视频检索系统包括查询接口单元101、相似度匹配单元102、数据库单元103、情感特征向量生成单元104和数据库更新单元105，数据库单元进一步包括视频数据库301和特征数据库302，查询接口单元分别与情感特征向量生成单元、相似度匹配单元和数据库单元连接，数据库单元分别与查询接口单元、相似度匹配单元和数据库更新单元连接，数据库更新单元与情感特征向量生成单元。

查询接口单元输入待检索视频片段给情感特征向量生成单元，接收情感特征向量生成单元返回的待检索视频片段的情感特征向量，发送给相似度匹配单元，并接收数据库单元发送的作为检索结果的视频片段。

相似度匹配单元接收查询接口单元发送的待检索视频片段的情感特征向量和数据库单元发送的所有视频片段的情感特征向量，并计算两者之间的相似度，对相似度进行排序，将结果发送给数据库单元。

数据库单元的视频数据库存储数据库更新单元发送的视频片段，并根据相似度匹配单元发来的结果，将对应的视频片段发送给查询接口单元，数据库单元的特征数据库存储数据库更新单元发送的视频片段对应的情感特征向量，并发送给相似度匹配单元。

情感特征向量生成单元接收数据库更新单元发来的视频片段，提取视频片段的情感特征向量返还给数据库更新单元，并接收查询接口单元发来的视频片段，提取视频片段的情感特征向量返还给查询接口单元。

数据库更新单元发送视频片段给情感特征向量生成单元，从情感特征向量生成单元接收视频片段的情感特征向量，并将视频片段和与其对应的情感特征向量发送给数据库单元。

图2是本发明具体实施方式中视频检索流程图。如图2所示，该视频检索流程包括以下步骤：

步骤201、数据库更新单元收到新的视频片段，将视频片段发给情感特征向量生成单元。

步骤202、情感特征向量生成单元对视频片段从语义层分割成场景，将视频片段分成一个个独立的情感语义单元。

步骤203、从每个场景中提取关键帧。

步骤204、提取场景中每个关键帧的情感特征向量。具体包括以下步骤：

提取关键帧的底层特征向量，包括亮度、饱和度、镜头切换速度和颜色能量；

定义关键帧语义层的情感特征向量，包括悲伤、高兴、恐惧等；

通过自学习的方式，利用模糊集建立底层特征向量和情感特征向量之间的模糊关系矩阵；

根据底层特征向量获得关键帧语义层的情感特征向量。计算过程如下式：

其中，表示语义层的特征向量，表示底层特征向量，矩阵表示模糊关系矩阵，表示两个向量的外积。

步骤205、对场景中所有关键帧的情感特征向量求均值，获得一个场景的情感特征向量，再对视频片段中所有场景的情感特征向量求均值，获得视频片段的情感特征向量，并返还给数据库更新单元。

步骤206、数据库更新单元将视频片段发送到数据库单元，存储在视频数据库中，并将视频片段对应的情感特征向量发送到数据库单元，存储在特征数据库中。

步骤207、用户从查询接口单元输入待检索视频片段，查询接口单元将待检索视频片段发送给情感特征向量生成单元，情感特征向量生成单元提取待检索视频片段的情感特征向量，并返还给查询接口单元，查询接口单元将待检索视频片段的情感特征向量转发给相似度匹配单元。该待检索视频片段的情感特征向量的提取过程与步骤204中关键帧的情感特征向量提取过程一致。

步骤208、相似度匹配单元将待检索视频片段的情感特征向量与从特征数据库中获取的每个情感特征向量进行匹配，计算两者之间的相似度，并对相似度进行排序，选取10个相似度最大的对应的视频片段。

计算待检索视频片段的情感特征向量与特征数据库中的每个情感特征向量之间的相似度进一步包括以下步骤：

，其中，X和Y分别表示进行比较的情感特征向量，

和

分别表示情感特征向量的第个元素，

为正整数，DIS（X,Y）表示两个情感特征向量之间的距离。

再采用以下公式计算两个情感特征向量之间的相似度：

步骤209、数据库单元的视频数据库将选取出来的视频片段作为检索结果输出给查询接口单元。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种视频检索方法，其特征在于，包括以下步骤：

D、将选取出来的视频片段作为检索结果输出。

2.根据权利要求1所述的一种视频检索方法，其特征在于，步骤A和步骤B中，提取视频片段的情感特征向量进一步包括以下步骤：

对视频片段从语义层分割成场景；

从每个场景中提取关键帧；

3.根据权利要求2所述的一种视频检索方法，其特征在于，提取关键帧的情感特征向量进一步包括以下步骤：

提取关键帧的底层特征向量；

定义关键帧语义层的情感特征向量；

根据底层特征向量获得关键帧语义层的情感特征向量。

4.根据权利要求3所述的一种视频检索方法，其特征在于，底层特征向量包括亮度、饱和度、镜头切换速度和颜色能量，情感特征向量包括悲伤、高兴、恐惧。

5.根据权利要求1所述的一种视频检索方法，其特征在于，步骤C中，计算所述待检索视频片段的情感特征向量与特征数据库中的每个情感特征向量之间的相似度进一步包括以下步骤：

采用余弦评估公式计算两个情感特征向量之间的距离，公式如下： ,其中，X和Y分别表示进行比较的情感特征向量，

Figure 2010106101968100001DEST_PATH_IMAGE002

和

Figure 2010106101968100001DEST_PATH_IMAGE003

分别表示情感特征向量的第个元素，

为正整数，DIS（X,Y）表示两个情感特征向量之间的距离；

再采用以下公式计算两个情感特征向量之间的相似度：

Figure 2010106101968100001DEST_PATH_IMAGE005

6.根据权利要求1所述的一种视频检索方法，其特征在于，步骤C中，预设数量是10。

7.一种视频检索系统，其特征在于，包括查询接口单元、相似度匹配单元、数据库单元、情感特征向量生成单元和数据库更新单元，数据库单元进一步包括视频数据库和特征数据库，查询接口单元分别与情感特征向量生成单元、相似度匹配单元和数据库单元连接，数据库单元分别与查询接口单元、相似度匹配单元和数据库更新单元连接，数据库更新单元与情感特征向量生成单元，其中，