CN101071439A

CN101071439A - 一种基于多视角的交互式视频搜索方法

Info

Publication number: CN101071439A
Application number: CN 200710099532
Authority: CN
Inventors: 赵耀; 韦世奎; 朱振峰
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2007-05-24
Filing date: 2007-05-24
Publication date: 2007-11-14
Anticipated expiration: 2027-05-24
Also published as: CN100461182C

Abstract

本发明公开了一种基于多视角的交互式视频搜索方法，属于视频搜索技术领域。本发明将多视角技术应用于交互式视频检索，开发了一种基于多视角的交互式视频搜索方法。本发明以一种半监督的学习方式，从多个独立视角来构造一个新的排序函数，其优点是只需要很少的标注样本就可以开始一个学习过程，并且从多个视角迭代的增加样本容量，并最终提高检索的性能。

Description

一种基于多视角的交互式视频搜索方法

技术领域

本发明涉及一种基于多视角的交互式视频搜索方法，属于视频搜索技术领域。

背景技术

随着视频采集设备(如数码相机、摄像机等)的快速流行，以及视频制作、存储、传输等技术的迅速发展，视频数据在的生活中无处不在，并且数据量庞大，甚至家庭自拍的DV也动辄数G。因此，如何从如此巨大视频资源中准确的搜索出用户需要的信息，已经成为一个亟待解决的问题。视频搜索技术将是新一代搜索引擎的核心，也是以后建立数字图书馆，智能信息查询系统，友好的人机交互系统的关键技术，它在生物医学、军事、教育、娱乐以及网上搜索等领域有着广泛的应用。所谓视频检索就是从大量的视频数据中检索到用户感兴趣的视频片断。传统的基于文本的视频检索方法将视频检索转化为文本检索，利用相对成熟的文本搜索技术来实现数字视频的搜索。具体来说，这种方法将视频内容用文本信息来描述，即利用文本来描述视频内容的语义特征，进而基于文字进行检索。事实上，目前的自动视频标注技术还远远不能满足实际要求，仍然需要人工手动的进行文本标注，这是一项费时费力的工作，而且由于受标注者的主观因素影响很大，标注的准确性也很受质疑。因此，单纯的基于文本的视频检索方法很难满足视频检索需要。与此相比，基于内容的视频检索更具有优势。所谓基于内容的视频检索是指通过分析视频的内容和上下文关系，从低层到高层进行处理、分析和理解，从而获取其内容并根据内容进行检索。它的基本思想是利用完全自动的方式从视频数据中提取一系列低层的内容描述符(比如，颜色、纹理、形状等)，通过一定的相似性度量方式来进行相似性比较，从而达到检索的目的。由于视频数据既包含了高层的语义信息，也包含了低层的视觉信息，并且同时具有时间和空间两个属性，所以视频数据的结构比较复杂，包含的内容也比较丰富，并且它在多义性和相似性度量复杂性方面也远高于文本数据。正是由于视频数据的这些特性，使得目前的特征提取技术还不能提供一种可以很好描述高层语义的特征描述方式，这就出现了所谓的语义鸿沟问题，即低层特征(低层特征描述符)的相似性并不能代表高层语义(用户查询意图)的相似性。这也注定使得这种检索方式返回大量和用户需求不相关的视频片段。为有效的弥补低层特征和用户高层语义查询的鸿沟，视频检索领域的研究者付出了艰辛的努力，并取得了大量的成果。可以说，视频检索的核心问题就是如何克服这个语义鸿沟。

作为一种很有前途的解决方案，交互式搜索技术在一定程度上填补这个鸿沟。交互式视频搜索是一种用户导向的视频搜索技术，其核心思想是利用用户在搜索过程中的反馈信息，来预测用户的查询意图，以便返回符合用户要求的信息.近年来，越来越多的研究者和研究机构开始关注交互式搜索技术，并取得了大量成果。好的交互式搜索技术可以有效地提高搜索精度，为用户提供满意的搜索结果。另外，由于不同的用户反馈反映了不同用户的偏好，因而交互搜索也有利于实现用户的个性化搜索。当前，大部分的交互式搜索技术都是通过用户标注来获取反馈信息的。其基本过程是：

1).系统首先提供给用户一个初始的搜索结果列表；

2).接着用户从这个列表中手动选取一些相关视频和一些不相关的视频提交给系统；

3).最后系统根据这些反馈的信息构造一个新的预测准则，并根据这个准则重新返回一个搜索结果列表。

事实上，最新的交互式搜索技术将用户与系统的交互过程看作机器学习的过程。也就是说，从用户提供的标注信息中学习一个新的检索函数，用这函数来进行新的搜索，以期为用户提供满意的搜索服务。尽管这类基于机器学习理论的交互式搜索方法很多，但大部分方案是基于监督学习的，即学习一个分类器所需的大量样本完全依靠用户的标注反馈。为了尽可能准的预测用户的查询意图，这些交互式搜索技术都要求用户尽可能多的标注正例样本和负例样本。通常，由于初始搜索结果一般都比较差，所以标注正例样本往往需要对初始搜索列表进行深度浏览，这极大地增加了用户负担，也阻碍了此项技术的推广使用。

这大大增加了用户的搜索负担，而很少用户愿意为此花费大量的时间。

正如以上所述，好的交互式搜索技术可以有效地提高搜索精度，为用户提供满意的搜索结果，并且可以根据不同的用户反馈来提供不同的搜索结果，从而实现用户的个性化搜索。作为一种很有前途的技术，它有着广阔的市场前景，这是毋庸置疑的。同时也看到，当前大部分可用的交互式搜索技术都是基于监督学习方法的，也就是说，新的检索函数的重构完全依赖于用户标注。

发明内容

本发明的目的就是提供一种基于多视角的交互式视频搜索方法，通过一种自推断机制来自动增加反馈信息，有效地提高搜索精度，为用户提供满意的搜索结果，并且可以根据不同的用户反馈来提供不同的搜索结果，从而实现用户的个性化搜索，并大大的减少了用户的标注负担。

本发明的目的是通过如下技术方案实现的。一种基于多视角的交互式视频搜索方法，包含以下步骤：

(1).构造多个视角的、能较好描述视频的特征，并且要求多个视角的特征之间尽量相互独立，本发明选择了视频镜头的视觉特征和文本特征作为两个近似独立特征视角；

(2).选择一系列话题类，使之可以覆盖大部分的查询话题，为每一个话题类选择一定数量包含此话题的视频镜头，利用这些视频镜头来为此话题类选择SVM分类器最优参数；

(3).从初始搜索结果中选择几个和查询话题相关的镜头作为正例样本，随机从视频库中抽取一定数量镜头作为负例样本，利用这些样本，分别在视觉特征视角和文本特征视角构造分类器，并利用这两个分类器标注初始搜索结果；两个分类器利用对方分类的信息重新构造自身，从而不断提高分类性能；最后，这两个分类器被融合为一个单独的分类器。

和现有的交互搜索方法相比，本发明仅要求用户标注少量(通常几个)的正例样本，然后通过一种基于多视角的协同学习方法来自动的增加样本的容量，从而在没有降低预测性能的基础上大大减少了用户标注负担。和以往交互技术不同的是，本发明以一种半监督的学习方式，从多个视角来构造一个新的排序函数，比如文本特征视角和视觉特征视角等。这种构造方式的优点是只需要很少的标注样本就可以开始一个学习过程，并且从多个视角迭代的增加样本容量，并最终提高分类器的性能。具体来说，用户先从初始搜索列表中标注几个正例样本，并通过随机采样的方式从视频数据库中抽取一定数量的样本作为负例样本。然后，系统为这些训练样本提取各个视角的特征，并为各个特征视角构造一个分类器。在每个特征视角空间，利用相对应的分类器去标注其他未标注的初始搜索结果，并将最可能为正例的样本加入其他视角分类器的训练集中。通过不断的迭代，各个分类器的性能会不断提高，并通过线性组合而最终形成一个优良的分类器，也就是构造出一个好的检索函数。在本发明中，采用支持向量机(SVM)作为低层分类器。其具体步骤如下：

步骤一多视角特征提取

本发明一个很显著的特点就是从多个视角学习。多个视角是指多个特征视角，也就是说同一个样本的不同特征视角。所以，本发明必经的一步就是构造多个视角的、能较好描述视频的特征，并且要求多个视角的特征之间尽量相互独立。以两个视角为例，并构造了两个近似独立的特征视角：视觉特征和文本特征。事实上，本发明并不局限于这两种特征视角，其他相互独立的特征视角也可替代这两个特征，并且可以推广到更多视角。

步骤二SVM最优参数选择

在本发明中，使用SVM算法来作为低层的分类器。事实上，SVM的参数设置对其分类性能影响很大，特别是，不同的查询需求类别的最优参数设置是不同的。但对于一个特定的查询话题，事先并不知道其最优的参数设置。为了解决这个问题，提出了一个有效SVM最优参数选择方法，为每一个话题类选择一组最优参数。

步骤三基于多视角协同学习方案

作为本发明的核心内容，基于多视角协同学习方案的基本思想是：给予较少训练样本，利用多个视角学习机的相互影响，从未标注样本中自动的挖掘新的训练样本，以便构造出更好的学习机。对于本发明，就是只需要用户标注很少一部分初始搜索结果来暗示其查询意图，就可以从初始搜索列表中自动找到更多的相关结果来学习一个新的检索函数，从而大大的减轻了用户标注负担，并较好的预测出用户的查询意图，返回更精确的搜索结果。

为了验证本发明的有效性和优点，将本发明和其他一些单视角的完全监督的交互式方法进行了比较。仅为本发明标注了5个正例样本，而为其他方案标注了两倍的样本。实验结果表明，与其他方案相比，所设计的基于多视角的交互式视频搜索方案在大大减轻用户标注负担的情况下，取得了优异的检索性能。特别是前半部分的精度更优异。通常，用户只对排在前面的结果感兴趣，所以本发明更加优势。

附图说明

图1本发明的整体系统框图；

图2视频镜头的文本特征提取方案框图；

图3本发明和其他交互式搜索技术的性能比较曲线图；

图4文本驱动的交互式视频搜索系统操作界面图；

图5一个基于文本的视频搜索示例以及反馈方式展示图；

图6交互搜索的搜索结果图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步描述。

根据以上介绍的技术方案，可以很容易的将本发明应用于现有的视频搜索系统中，为用户提供个性化的、精确的视频搜索服务。本发明只专注于交互式搜索部分，所有假定视频已经被切割成一个个小的视频片段(镜头)，并且已经利用语音识别和机器翻译技术，将镜头对应的语音信息转化为统一英文文本信息，而且一个初始的搜索结果已经给出。结合附图，对本发明的具体实施方式作详细阐述。

如图1所示，本发明的整体系统流程图包括以下几个部分：

1.多视角特征提取

在本发明中，需要为每一个查询话题类的训练样本集提取两个视角的特征，即特征A和特征B，如图1上半部分所示。另外，对于整个视频镜头数据库，也要事先在两个视角各构造一个特征库，即视频的A视角特征库和视频的B视角特征库，如图1下半部分所示。的目的是说明这种多视角交互技术的有效性，所以，并不专注于特征提取方案。为了描述视觉特征，使用了一个36维的颜色直方图作为视觉特征，称之为特征A。需要注意的是，视觉特征的提取是基于视频镜头关键帧的，也就是利用关键帧的视觉信息来表达对应视频镜头的视觉信息。

为了描述文本特征，构造一个78维文本矢量特征，称之为特征B。

图2展示了其具体的提取方案流程图。

(1).首先，从概念集中选择了78个具有代表性的概念作为原型概念；

(2).其次，依据标注集，为每一个概念选择40个包含此概念的镜头，构成一个训练集合，并将集合中每个镜头对应的翻录的语音文本信息提取出来形成一个文本文件；

(3).最后，对于每一个待提取特征的镜头，其对应的翻录文本与78个原型概念中的每一个原型概念对应的文本文件进行文本相似性比较，将相似值作为文本特征矢量的一维，从而经过串行化78个相似值，形成了一个78维的特征矢量。

2.SVM最优参数选择

图1上半部分展示本参数选择的一个略图，其具体流程如下：

(1).首先，人为选定几类查询话题，使它们尽可能覆盖较大的查询范围；

(2).其次，为每一个查询话题类选择一定数量的视频样本作为训练集；

(3).然后，为每一个查询话题类的训练样本提取两个视角的特征，即特征A，特征B；

(4).最后，通过交叉验证的方式，在每一个特征视角下为本话题类选择一组最优参数。

3.基于多视角协同学习方案

图1的下半部分给出了本方案的基本流程：

(1).给定反馈次数M以及每次反馈迭代的次数T；

(2).用户通过输入查询话题文本，依据视频的文本信息库，从文本搜索引擎获得一个初始搜索结果列表R₀；

(3).对于每轮反馈i

A.用户搜索结果列表中标注几个正例样本P_i来形成已标注的数据，其他结果视为未标注数据，并随机从数据库中选择一定数量样本作为负例样本N_i。以P_i和N_i作为训练样本集。

B.对于协同学习的每一次迭代j

a)利用构造的训练样本集合，从特征视角A为本轮训练一个分类器如下：

C_{i, A}^{j} = TrainSVM (P_{i, A}, N_{i, A})

其中，P_i，A是当前正例样本的A视角表达形式，N_i，A是当前负例样本的A视角表达形式。

b)利用构造的训练样本集合，从特征视角B为本轮训练一个分类器如下：

C_{i, B}^{j} = TrainSVM (P_{i, B}, N_{i, B})

其中，P_i，B是当前正例样本的B视角表达形式，N_i，B是当前负例样本的B视角表达形式。

c)利用C_i，A ^j从A视角标注搜索列表中的未标注样本，将最可能为正例的样本(为正例的概率大于一个阈值)加入到训练集，在下次迭代用于训练视角B分类器。

d)利用C_i，B ^j从B视角标注搜索列表中的未标注样本，将最可能为正例的样本(为正例的概率大于一个阈值)加入到训练集，在下次迭代用于训练视角A分类器。

C.经过T次迭代协同学习，从两个视角各输出一个分类器C_i，A ^T，C_i，B ^T

D.通过线形组合，由C_i，A ^T和C_i，B ^T构造了一个新的检索函数，即：

F_{i} (D) = α C_{i, A}^{T} (D) + β C_{i, B}^{T} (D)

其中，D是待搜索的视频数据库，α，β为常数，α+β＝1，0＜α，β＜1。

E.利用F_i(D)函数搜索视频数据库，得到一个新的搜索结果列表。

(4).返回(3)，进行下一次反馈，直到满足用户需要。

为了模拟这一过程，开发了一套文本驱动的交互式视频搜索系统，其操作界面如图4所示。只要在图4所示的文本搜索框内输入要查询的话题文字，就可以得到一系列对应的视频镜头，并将镜头显示在结果显示栏中。图5.给出了一个基于文本的视频搜索示例图。为了便于用户标注，在每一个镜头显示框下面设定了一个正例选择框。在取得初始搜索列表后，用户只要选择几个与查询需要相关的镜头，也就是在对应镜头下面的正例选择框打上勾，然后点击交互搜索按钮，就可将信息反馈给系统。系统就会利用本发明来从反馈信息学习的新的检索函数去视频数据库中重新搜索，并将新的搜索结果列表反馈个用户，如图6.所示。点击镜头下面的播放按钮，就可以在左边播放框中播放该视频镜头。通过对24个话题的测试，本发明在大大减轻用户标注负担的情况下，取得了优异的检索性能。图3给出了本发明和其他三种单视角交互方式的比较曲线图。如图所示，采用的评估方法是在返回结果列表不同深度的平均精确度，很明显，本发明优于其他三种方法。

Claims

1、一种基于多视角的交互式视频搜索方法，其特征在于包含以下步骤：

2.根据权利要求1所述的一种基于多视角的交互式视频搜索方法，其特征在于步骤(1)中从多个独立的视角提取视频镜头的特征。

3.根据权利要求1所述的一种基于多视角的交互式视频搜索方法，其特征在于步骤(1)中文本特征的提取方式，即先定义78个原型概念，然后为每一个原型概念生成一个文本文件，通过比较镜头文本和概念文本可以生产一个78维的文本特征。

4.根据权利要求1所述的一种基于多视角的交互式视频搜索方法，其特征在于步骤(2)中预定义一系列的、可以覆盖大部分查询话题的话题类，分别为每一个话题类寻找一个SVM分类器最优参数设置。

5.根据权利要求1所述的一种基于多视角的交互式视频搜索方法，其特征在于步骤(3)中两个分类器利用对方的分类信息来不断从初始搜索结果中挖掘正例样本。其步骤如下：

(1).给定反馈次数M以及每次反馈迭代的次数T；

(3). 对于每轮反馈i

A.用户结果列表标注几个正例样本P_i来形成已标注的数据，其他结果视为未标注数据，并随机从数据库中选择一定数量样本作为负例样本N_i。以P_i和N_i作为训练样本集

B.对于协同学习的每一次迭代j

C_{i, A}^{j} = TrainSVM (P_{i, A}, N_{i, A})

其中，P_i，A是当前正例样本的A视角表达形式，

N_i，A是当前负例样本的A视角表达形式

B_{i, B}^{j} = TrainSVM (P_{i, B}, N_{i, B})

其中，P_i，B是当前正例样本的B视角表达形式，

N_i，B是当前负例样本的B视角表达形式

c)利用C^j _i，A从A视角标注搜索列表中的未标注样本，将最可能为正例的样本(为正例的概率大于一个阈值)加入到训练集，在下次迭代用于训练视角B分类器

d)利用C^j _i，B从B视角标注搜索列表中的未标注样本，将最可能为正例的样本(为正例的概率大于一个阈值)加入到训练集，在下次迭代用于训练视角A分类器；

F_{i} (D) = α C_{i, A}^{T} (D) + β C_{i, B}^{T} (D)

其中，D是待搜索的视频数据库，α，β为常数，α+β＝1，

0＜α，β＜1.

E.利用F_i(D)函数搜索视频数据库，得到一个新的搜索结果列表

(4).返回(3)，进行下一次反馈，直到满足用户需要。