CN102663015A

CN102663015A - 基于特征袋模型和监督学习的视频语义标注方法

Info

Publication number: CN102663015A
Application number: CN2012100750507A
Authority: CN
Inventors: 章剑飞; 蔡喜; 李平; 丁友东
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2012-03-21
Filing date: 2012-03-21
Publication date: 2012-09-12
Anticipated expiration: 2032-03-21
Also published as: CN102663015B

Abstract

本发明涉及一种基于特征袋模型和监督学习的视频语义标注方法。该方法的包括步骤如下：(1)对电影视频进行预处理，进行视频镜头边界检测，对电影进行镜头分割；然后采取一定的策略提取出各个镜头的关键帧，每一幅关键帧作为视频镜头的代表帧；(2)构建一个视频语义本体库，定义大量的语义概念，用语义概念描述视频的语义信息，对视频的语义内容进行标注，以便对视频进行管理和检索；(3)提取视频关键帧的SIFT特征，然后采用k-means聚类对这些特征点聚类，每一个聚类代表一个“视觉单词”,从而生成“视觉词汇表”；(4)提取部分“视觉词汇表”进行训练，标注出相应的语义信息，采用监督学习方法，预测测试样本中的“视觉单词”，实现对视频关键帧的语义标注。

Description

基于特征袋模型和监督学习的视频语义标注方法

技术领域

本发明涉及一种基于特征袋模型和监督学习的视频语义标注方法，属于计算机视觉和视频检索领域。

技术背景

在多媒体信息检索中，基于可视化内容的分析与检索已经相对成熟。然而，对于大多数用户而言，基于语义信息的应用显得更加重要。对语义的理解是指人能够从图像或视频中所得到的认知信息，它包括视频数据中含有的客观存在的具体的物体、物体与物体之间的时空关系以及它所含有的事件语义信息等。用户检索视频时，往往希望能够通过具体的语义信息对视频进行检索。例如通过语义信息查找“演员A与演员B对话的电影片断”，或者“发生某事件的视频片断”等。所以在视频检索中，视频语义信息提取和标注非常重要。

特征袋是一种有效的语义提取方法,也可以称为“词袋”，这种模型来源于自然语言处理。为了对文本进行分类，在自然语言处理中用一个词袋来表示一篇“文档”，即“文档”等价于一个装满了“词语”的袋子。将“词袋”引入到计算机视觉分类领域中的基本思想是把一幅图像看作是一篇“文档”，而图像中提取出的特征认为是“词语”。本发明采用的方法是提取视频的特征作为视频的“词语”。采用SIFT(Scale Invariant Feature Transform，尺度无关特征变换)特征，再对特征点进行聚类得到视频“字典”。然后采用基于机器学习方法来对视觉“词典”进行学习，得到检测模型，通过该模型对视频中是否含有某种语义信息进行检测和标注。

Chong-Wah, Ngo等在“Experimenting VIREO-374: Bag-of-Visual-Words and Visual-Based Ontology for Semantic Video Indexing and Search”(ACM Multimedia,2007)一文中, 提出一种用“Bag-of-Visual-Words”和基于视频本体对LSCOM(Large-Scale Concept Ontology for Multimedia，大规模语义概念本体库)语义本体库中选用374个具有代表性的语义概念进行了语义提取和标注的研究。

Yu-Gang Jiang等在“Towards Optimal Bag-of-Features for Object Categorization and Semantic Video Retrieval”(CIVR’07, July 9–11, 2007)一文中，提出一种基于Bag-of-Features(特征袋模型)的视频对象语义提取算法，该算法优化了各种影响Bag-of-Features性能因素来提高视频对象语义提取性能，其中包括检测器的选择，词汇大小和权重等。

D. Xu等在“Video Event Recognition Using Kernel Methods with Multilevel Temporal Alignment”(IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.30, NO.11, PP.1985-1997, 2008)一文中，提出从所有视频帧中选取一个视频段作为一个无序词袋的描述，一个视频段通常是由事件按时间发展的多个子段构成，所以该算法建立一个基于时间序列的多层金字塔模型，通过融合不同金字塔层的信息，用具有辨别力的kernel方法来测量视频的相似性以实现视频的场景识别。

J. Tang等在“Structure sensitive manifold ranking for video concept detection”(in Proceedings of ACM International conference on Multi-medial，2007)一文中，提出一种基于SIFT-Bag的视频事件识别方法，该方法编码每一个视频段作为无序SIFT特征向量的词袋，从训练样本视频段中提取SIFT特征向量进行全局高斯混合模型学习，在识别阶段，基于SIFT-Bag核被用在支持向量机中来对事件进行分类。

一段视频所表达的内容复杂，语义信息千差万别，为了能够准确，有效地对视频进行语义提取和标注，首先需要构建一个视频语义本体库，定义大量的语义概念，用语义概念描述视频的语义信息，对视频的语义内容进行标注，以便对视频进行管理和检索。许多研究机构致力于视频语义本体库的研究，多种视频语义本体库标准被提出。M. Naphade等“Large-scale concept ontology for multimedia”( IEEE Multimedia. 13(3). pp.86–91, 2006)，IBM公司，卡内基梅隆大学和哥伦比亚大学等研究机构在2006年为新闻视频领域制定的一种多媒体大规模语义概念本体库。该语义概念本体库目前已经定义834个词汇概念，这些词汇概念按照树状结构定义。该语义概念本体库把Cyc词汇中的300，000多个概念和2百多万个规则映射到该语义本体库中，以扩大LSCOM的概念量。哥伦比亚大学选用该语义概念本体库中的374个概念对视频进行语义注释、TRECVID-2006选用了其中449个语义概念对视频进行手工标注等。Kodak 公司在2007年为Kodak实际用户制定了Kodak's consumer video benchmark data set视频基本数据集。该数据集是首次为用户领域定义大规模词汇集和词汇结构，其中包括7种类型概念，分别是SUBJECT ACTIVITY, ORIENTATION, LOCATION, TRADITIONAL SUBJECT MATTER, OCCASION, AUDIO, CAMERA MOTION，共定义了100多个概念。我们通过调研电影领域的知识特点，同时考虑对电影语义标注处理需要强大的知识库的支持，本发明借用HowNet(知网)相关知识来构建一个电影语义本体库。

发明内容

本发明的目的是在于针对已有技术存在的缺陷提供一种基于特征袋模型和监督学习的视频语义标注方法能有效可靠、尽量少的人为参与情况下，完整、准确的提取视频流中基于镜头的语义信息，并且根据所提取的语义信息对视频镜头进行语义标注，从而实现基于语义信息对视频进行快速、准确地管理和检索。

本发明的目的通过以下措施来达到：

一种基于特征袋模型和监督学习的视频语义标注方法，其特征在于具体操作步骤如下：

(1) 电影视频数据集预处理

电影视频数据集预处理主要包括电影视频的镜头分割和关键帧提取两部分。为了快速、有效地对电影视频进行管理和检索，采用基于镜头的语义标注，所以电影视频自动语义提取和标注的首要工作是镜头边界检测。由于电影内容丰富多样、差异性大，存在很多影响镜头边界检测算法性能的因素，如：视频亮度突然大幅度的变化、物体快速运动以及摄像机的缩放和快速移动等操作的影响。为了提高电影语义提取和标注的效率，本发明提出一种针对电影领域的基于SIFT和SVM(支持向量机)的镜头边界检测算法，提高镜头边界检测的准确率。视频镜头分割后，对每个镜头选取一个能简洁地表示该镜头主要内容的帧作为该镜头的关键帧，目的是为用户展示检索结果。

(2) 语义本体库的建立；

电影语义本体库的构建是指在语义概念提取和标注之前需要构建一个电影语义本体库，定义大量的语义概念，依据语义概念来描述电影视频的语义信息。许多研究机构制定和建立了一些视频语义概念库，但这些视频语义概念库是应用于新闻、医学卫生、艺术等特定领域，并不适合电影语义标注，对于电影视频，没有一个成熟的语义概念库，所以通过调研电影领域的知识特点，同时考虑对电影语义标注处理需要强大的知识库的支持，本发明借用知网相关知识来构建一个电影语义本体库。

(3) 语义提取和标注

由于电影内容丰富多样，蕴含的语义概念信息量大、差异性大，如何最大限度地自动提取视频中的语义信息和自动语义标注，建立基于语义层次上的索引和检索，一直以来是困挠研究者的问题。本发明根据电影领域的知识特点提出以下电影视频语义提取和标注方案，该方案是采用特征袋模型和监督学习方法建立视频的低层特征和高层语义信息间的映射关联模型来提取电影视频的语义信息。

(4) 实现基于视频镜头的语义标注：采用支持向量机对样本视觉词汇进行训练，与高层语义进行标注，运用于测试集视觉词汇，实现基于视频镜头的语义标注。

本发明与已有技术相比具有如下特点：

（1）本发明提供的实现算法流程清晰、结构完整，实现效率高。

（2）特征袋模型采用提取视频关键帧SIFT特征，经过聚类构造的视觉词汇表更能反映图像对象的特征，为实现高准确率的语义标注提供了保证。

（3）为提高语义标注的准确率，对影响特征袋性能的各个因素进行了实验总结，包括视频帧特征的选取、视觉词汇表的构造及其大小，选取最优的方案。

（4）监督学习方法采用支持向量机对视觉词汇样本进行训练，标注样本，从而对测试集视觉词汇进行标注，其中对影响标注性能的支持向量机核函数进行了对比实验，选取对提高标注性能最有效的核函数。

附图说明

图1是基于特征袋和监督学习的视频语义标注方法程序框图。

图2是基于特征袋和支持向量机方法的视频语义标注实例图示。

图3是视频的不同逻辑单元图。

图4是镜头淡出过程中SIFT关键点数目图。

图5是镜头扫换转换检测图。

图6是电影视频语义标注结构图。

图7是部分小汽车训练样本。

图8是生成的小汽车视觉单词表中的前50个视觉单词。

图9是用户界面设计图。

具体实施方式

本发明的优先实施例结合附图说明如下：

实施例一：

参见图1，基于特征袋模型和监督学习的语义标注方法，具体操作步骤如下：一种基于特征袋模型和监督学习的视频语义标注方法，其特征在于，具体操作步骤如下：

(1) 将收集的电影视频数据集进行预处理，视频镜头分割和提取镜头关键帧；

(2) 构建一个视频语义本体库，定义语义概念，用语义概念描述视频的语义信息，对视频的语义内容进行标注，以便对视频进行管理和检索；

(3) 采用k-means聚类算法对视频关键帧提取的SIFT特征点进行聚类，构造视觉词汇表；

(4) 然后采用支持向量机对样本视觉词汇进行训练，与高层语义进行标注，运用于测试集视觉词汇，实现基于视频镜头的语义标注。

实施例二：

参见图2-图9本实施例与实施例一基本相同，特例之处如下：

所述步骤(1)中的视频镜头分割所采用的视频镜头分割算法是一种针对电影领域视频的镜头边界检测算法，如图3、图4、图5所示。

所述步骤(2)构建一个视频语义本体库，如图6所示。

所述步骤(3)的采用 k-means聚类算法对视频关键帧提取的SIFT特征点进行聚类，构造视觉词汇表，如图7、图8所示。

所述步骤(4)的实现基于视频镜头的语义标注，如图9所示。

Claims

1.一种基于特征袋模型和监督学习的视频语义标注方法，其特征在于，具体操作步骤如下：

（1）将收集的电影视频数据集进行预处理，视频镜头分割和提取镜头关键帧；

（2）构建一个视频语义本体库，定义语义概念，用语义概念描述视频的语义信息，对视频的语义内容进行标注，以便对视频进行管理和检索；

（3）采用k-means聚类算法对视频关键帧提取的SIFT特征点进行聚类，构造视觉词汇表；

（4）然后采用支持向量机对样本视觉词汇进行训练，与高层语义进行标注，运用于测试集视觉词汇，实现基于视频镜头的语义标注。

2.根据权利要求1所述的基于特征袋模型和监督学习的视频语义标注方法，其特征在于所述步骤(1)中的视频镜头分割所采用的视频镜头分割算法是一种针对电影领域视频的镜头边界检测算法：对视频进行预处理,把视频分割为若干有语义意义的单元——镜头，然后再选取一个或若干个关键帧代表该镜头；所谓镜头是指摄像机在一次连续拍摄期间所得到的连续的帧序列；该视频镜头分割算法采用基于SVM(支持向量机)的SIFT匹配算法，根据不同镜头边界转换类型具有不同的特性，采用“分而治之”的方法来实现镜头突变、淡入淡出和扫换三种重要类型的镜头边界检测：

(1)在镜头突变转换检测实验中，在相邻两视频帧之间的SIFT特征匹配个数曲线上设置一个全局硬阈值

Figure 2012100750507100001DEST_PATH_IMAGE002

，如果相邻两视频帧之间的SIFT特征匹配个数小于阈值

，则判定为镜头突变转换发生，以下面公式所示：

Figure 2012100750507100001DEST_PATH_IMAGE004

(1)

如果相邻两视频帧之间的SIFT特征匹配个数小于预先定义的阈值

, 则突变镜头转换被检测出；在电影视频中经过多次实验表明，同一个镜头内相邻两视频帧的SIFT特征匹配个数普遍都大于4；而在镜头突变镜头转换的边界，相邻两视频帧的SIFT特征匹配个数都不大于4，在实验中突变阈值设置为4；

(2) 在镜头淡入淡出实验中，首先根据SIFT关键点的数目是否为“0” 判断当前帧是不是单色视频帧；

如果当前帧不是单色视频帧，则继续往下判断，如果是单色视频帧，则检测发生淡出的视频帧和淡入的视频帧；

淡出的视频帧检测算法依据SIFT关键点的数目发生的是单调递减变化来判断，判断公式为下列公式(2)，即从第一个单色视频向前推进，如果所提取视频帧的数目满足公式(2)，则为淡出的视频帧，当推进到不满足公式(2)的视频帧为止，不满足的视频帧即为淡出的开始帧；淡入视频帧检测算法依据SIFT关键点的数目发生的是单调递增变化来判断，判断公式为公式(3)，即从最后一个单色视频帧向后推进，如果所提取视频帧的数目一直满足公式(3)，则为淡入的视频帧，同理一直推进到不满足公式(2)的视频帧为止，不满足的视频帧即为淡入的结束帧；

(2)

(3)

其中，

为视频帧的SIFT关键点的数目；

(3)扫换镜头转换是指从一个镜头画面的某一部份开始直线形、曲线形或多边形逐渐被下一个镜头的画面代替；扫换镜头转换的方式(如从上到下、从左到右、从中间到四周、从一角到另一角超过20多种)，扫换镜头转换的一个非常重要的性质是在扫换镜头转换过程中的每个视频帧一部分属于扫换镜头转换的开始帧，剩下的部分属于扫换镜头转换的结束帧，

(4)

其中，f _b是扫换镜头转换的开始帧，f _e是扫换镜头转换的结束帧；

电影视频被分割成镜头后，对每个镜头选取一个能简洁地表示该镜头主要信息内容的帧作为关键帧。

3.根据权利要求1所述的基于特征袋模型和监督学习的视频语义标注方法，其特征在于所述步骤(2)构建一个视频语义本体库：为了提高视频语义索引和检索的效率和准确性，通过调研电影领域的知识特点，同时考虑对电影语义标注处理需要强大的知识库的支持，借用知网相关知识来构建一个电影语义本体库；知网是一个以汉语和英语的词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库；采用知网的电影语义本体库的构建主要分为三个部分内容：(1)电影视频语义描述结构；(2)受控概念定义；(3)构建视觉语义概念间的相关性；

(1) 视频语义描述结构

一段电影视频所表达的内容胜过千言万语，其语义信息也千差万别，为了能够对电影视频进行准确，有效的描述，在分析现有的视频语义描述和识别的基础上，提出一种对视频镜头的电影视频语义描述结构，该结构主要包括四个层次语义信息：关键人物语义信息、显著性对象语义信息、场景语义信息以及事件语义信息；关于关键人物的语义信息，主要是标注出该段视频中具体包含的关键性的人物等；场景的语义信是指视频拍摄的地点；显著性对象语义信息是指标注出该段视频中具体包含的显著性对象；事件的语义信息是指视频中所发生的主要事件；

(2) 受控概念

电影语义本体库受控概念的定义和视频语义描述结构相对应，主要包括四类受控概念的定义：关键人物语义、场景语义、显著对象语义和事件语义；

关键人物语义概念的定义方案：人们非常关注电影中的关键人物，所以为了满足实际应用的需求，电影中的人名被定义到关键人物的语义概念库中，如果电影数据库中新增加电影时，电影中的人名也相应的添加到对象语义概念库中，并且对关键人物定义其相应的属性；对于场景语义、显著对象语义和事件语义的定义，借用知网知识库中的词汇概念进行定义；

(3) 视觉语义概念间的相关性

图像语义标注和视频语义标注都是用单个概念或多个概念进行标注的，他们标注的词汇比较独立，没有考虑视觉语义概念之间的相关性，所以对每类语义概念库需要建立视觉语义概念间的相关性，以提高检索的效率；采用基于知网建立语义本体库的视觉语义概念与概念之间以及概念所具有的属性之间关系；在检索时，对于检索的语义概念，系统通过语义概念之间的相关性得到检索的分值；知网是一个以汉语和英语的词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识性知识库。

4.根据权利要求1所述的基于特征袋模型和监督学习的视频语义标注方法，其特征在于所述步骤(3)的采用 k-means聚类算法对视频关键帧提取的SIFT特征点进行聚类，构造视觉词汇表：每一个关键点聚类表示一个视觉单词，与聚类最近的SIFT特征点属于这个聚类；

处理流程如下：(1) 从 n个数据对象任意选择 k 个对象作为初始聚类中心；(2) 循环(3)到(4)直到每个聚类不再发生变化为止；(3)根据每个聚类对象的均值(中心对象)，计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分；(4)重新计算每个聚类的均值。

5.根据权利要求1所述的基于特征袋模型和监督学习的视频语义标注方法，其特征在于所述步骤(4)的实现基于视频镜头的语义标注：提取部分“视觉词汇表”进行训练，标注出相应的语义概念信息，采用支持向量机算法，预测测试样本中的“视觉单词”，然后运用测试样本实现对视频关键帧的语义标注；

处理流程如下：

在语义标注任务中有多个分类，采用一对一的分类策略，一个分类器对应一个语义概念；采用的特征即为视觉词汇表，这种特征介于视频关键帧底层颜色特征和高层语义概念之间，分类后得到视频关键帧的语义概念；一幅视频关键帧是一个视频镜头的代表帧，镜头是视频流片段的基本单元，因此可以推断出视频镜头和片段描述的语义信息；