CN103279579A

CN103279579A - 基于视觉空间的视频检索方法

Info

Publication number: CN103279579A
Application number: CN2013102529640A
Authority: CN
Inventors: 魏骁勇; 杨震群; 孙洋; 黄劲; 徐浩然
Original assignee: 魏骁勇
Priority date: 2013-06-24
Filing date: 2013-06-24
Publication date: 2013-09-04
Anticipated expiration: 2033-06-24
Also published as: CN103279579B

Abstract

本发明提出了一种基于视觉空间的视频检索方法。首先构建一个代表视觉关系的知识库，形成初始的视觉概念集。然后采集大量的视频样本应用于初始概念集上，得到初始的训练集，再建立初始训练集内部关系矩阵，对该矩阵进行谱分解，得到每个初始视觉概念的向量表示。将得到的视觉概念向量集张成一个多维的正交空间，针对空间中映射的向量进行聚类，选取每个类的中心代表该类，所有概念类的中心构成一个能够覆盖初始视觉空间的集合，形成视觉概念空间，查询视频通过投射到视觉概念空间进行视频检索。本发明通过构建视觉概念空间的方式，为传统的视频检索提供了一种有效的解决方法，且检索速度快，精度较高，有很大的实时性应用潜力。

Description

基于视觉空间的视频检索方法

技术领域

本发明涉及视频检索技术领域，提出了一种基于视觉空间的视频检测方法。

背景技术

视频检索是一门交叉学科，以图像处理、模式识别、计算机视觉和图像理解等领域的知识为基础，引入媒体数据表示和数据模型，设计出可靠有效的检索算法，从而在大量的视频数据中找到所需的视频资料。

基于内容的视频检索技术是通过提取视频数据中的各种视觉特征，例如颜色、纹理、形状、运动等来建立视频内容索引，以满足用户基于视觉、运动和语义属性等方面的查询要求。目前，针对视频内容的检测认知仍然是以基于底层特征的传统信息检索或者匹配方法为主，而从底层视觉特征到高层语义的映射，高层语义特征和底层视觉特征的融合仍然是一大技术难题。

发明内容

本发明针对上述存在的技术问题而提出一种检测速度快速、精度高的基于视觉空间的视频检索，具体解决方案如下：

基于视觉空间的视频检索方法，其特征在于包括以下步骤：

步骤1、构建初始视觉概念空间：

1A、构建代表视觉关系的知识库；

1B、对视觉关系的知识库进行扩展构成初始的概念集C，C=[C1,C2,…,Cn]里面含有n个概念；

步骤2、构成初始的训练检测集：

采集大量的视频序列，提取关键帧以及视频场景片段构成训练集，然后应用于初始概念集C上，练样本为M，所有的训练样本得到的M个向量构成一个M*N的矩阵，构成初始的训练检测集C’；

步骤3、构建视觉空间：

3A、衡量所有概念对之间的相似度，得到一个矩阵R，对R进行谱分解，得到每个概念的向量表示；

3B、量集张成一个多维的正交空间，针对空间中映射的向量进行聚类，类的数目用类间不一致性系数进行衡量，并且保证尽量达到最优，得到的每个类代表一个抽象概念；

3C、选取每个类的中心代表该类，所有概念类的中心构成一个能够覆盖初始视觉空间的集合，称为视觉概念空间S；

步骤4、基于视觉空间的查询过程：

4A、将视觉查询样本Q，将其投射到视觉空间中形成一个向量C_Q，获得样本Q在视觉空间中表达向量C_Q={q1,q2,…}；

4B、然后利用公式(6)计算qi和概念集C中所有概念的相似度，得到相似度最高的C_qi，C_Q就得到一组概念{C_q1,C_q2,…}，用来表达查询所携带的视觉信息，每个概念的权重为其余弦相似度，

Semantic (C_{i}, C_{j}) = \frac{C_{i} C_{j}}{| C_{i} | * | C_{j} |} - - - (6)

4C、计算该查询对于某个视频片段I的相似度，计算公式如下：

Sim (Q, I) = Σ_{C_{qi} &Element; C_{Q}} Semantic (qi, C_{qi}) * Score (C_{qi}, I) - - - (7)

Score(.)输出一个通过概念C_qi找到视频片段I的一个概率，利用公式(7)得到查询视频Q与所有相关视频查询的相似度值，将相似度值排序，返回相似度较高的视频片段给查询用户，完成视频片段的查询。

上述技术方案中，所述步骤3中3A步中：

衡量所有概念对之间的相似度采用WordNet的WUP公式计算相似度，公式如下：

WUP (C_{i}, C_{j}) = \frac{2 D (p_{ij})}{L (C_{i}, C_{j}) + 2 D (p_{ij})} - - - (1)

其中Ci和Cj表示C’中不相同的两个概念，D(p_ij)返回一个概念的深度，L(C_i,C_j)返回在WordNet中概念对的路径长度；

C’形成的所有概念对应用公式（1）得到一个矩阵R，表示为：

C^TC=R (2)

接着对R进行谱分解如下：

其中∧表示矩阵R在斜对角线上的所有特征值，V表示相应的特征值矩阵，根据公式(2)和(3)可得如下表示：

上述技术方案中，所述步骤4中4A步中：对于一个视觉查询样本Q,将其投射到视觉空间中形成一个向量C_Q，公式如下：

C^TC_Q=R_Q

C_Q=(C^T)^-1R_Q (5)

其中R_Q为通过计算WUP中C_Q到概念空间C获得的一个向量，在公式(5)中，使用广义逆的方法计算(C^T)^-1。

本发明具有以下有益效果：

本发明相对于传统的视频检索技术，提出构建视觉概念空间模型。该模型利用各个视觉概念学习相互关系，形成多维的正交空间，有效的解决了不同概念间无法直接进行衡量比较的问题。同时以视觉概念为检索基础，有效地填补了现实世界与底层特征空间的语义鸿沟，提高了视频检索的精度。同时构建的视觉空间极大的抽象出视频库的内容，减少了视频检索的时间消耗，达到可实时性应用的目的。

附图说明

图1为本发明的流程图。

具体实施方式

本发明提出一种检测速度快速、精度高的基于视觉空间的视频检索，具体解决方案如下：

1.初始视觉概念空间的构建

首先要构建代表视觉关系的知识库，这里选择已有的检测器集合进行扩展（如：可以使用NUS-Wide对Columbia-374或者Vireo-374等进行扩展）从而构成初始的概念集C。这里得到的概念集C相当于一系列检测器的集合，每一个检测器作用表示针对某种概念的检测。例如C=[C1,C2,…,Cn]里面含有n个概念，Ci表示某一个概念，如飞机。

2．初始训练检测集的构建

采集大量的视频序列，提取关键帧以及视频场景片段构成训练集，然后应用于初始概念集C上，得到初始的训练检测集C’。例如，一个训练样本A（A视频片段中包含飞机、白云和鸟），用检测器集合C进行检测，表示概念飞机、白云和鸟的Ci、Cj和Ck的输出响应值较高，其他的检测器响应值相对较低，A应用于初始概念集C上得出的值可用一个向量表示，A=[A1,A2,...An]。若训练样本为M，所有的训练样本得到的M个向量构成一个M*N的矩阵，构成初始的训练检测集C’。

3．视觉空间构建

矩阵C’,每一行表示一个样本的输出向量，每一列表示一个检测器Ci应用于测试集上的输出集合，记为Ci=[K1,K2,…,Km]，此时每一个概念都能表示为Ci的形式。接着衡量所有概念对之间的关系，利用WordNet的WUP公式计算相似度，公式如下：

WUP (C_{i}, C_{j}) = \frac{2 D (p_{ij})}{L (C_{i}, C_{j}) + 2 D (p_{ij})} - - - (1)

其中Ci和Cj表示C’中不相同的两个概念，D(p_ij)返回一个概念的深度，L(C_i,C_j)返回在WordNet中概念对的路径长度。C’形成的所有概念对应用公式（1）得到一个矩阵R，表示为：

C^TC=R (2)

接着对R进行谱分解如下：

其中∧表示矩阵R在斜对角线上的所有特征值，V表示相应的特征值矩阵。根据公式(2)和(3)可得如下表示：

从而可以得到每个概念的向量表示。得到的向量集张成一个多维的正交空间，针对空间中映射的向量进行聚类，类的数目用类间不一致性系数进行衡量，并且保证尽量达到最优，得到的每个类代表一个抽象概念。选取每个类的中心代表该类，所有概念类的中心构成一个能够覆盖初始视觉空间的集合，称为视觉概念空间S。

4.基于视觉空间的查询过程

对于一个视觉查询样本Q,将其投射到视觉空间中形成一个向量C_Q，公式如下：

C^TC_Q=R_Q

C_Q=(C^T)^-1R_Q (5)

其中R_Q为通过计算WUP中C_Q到概念空间C获得的一个向量，在公式(5)中，使用广义逆的方法计算(C^T)^-1。计算两个概念相似关系可以直接采用余弦相似度公式：

Semantic (C_{i}, C_{j}) = \frac{C_{i} C_{j}}{| C_{i} | * {| C}_{j} |} - - - (6)

通过公式(5)，获得样本Q在视觉空间中表达向量C_Q={q1,q2,…}。然后利用公式(6)计算qi和概念集C中所有概念的相似度，得到相似度最高的C_qi，那么C_Q可以得到一组概念{C_q1,C_q2,…},用来表达查询所携带的视觉信息，每个概念的权重为其余弦相似度。接着计算该查询对于某个视频片段I的相似度，计算公式如下：

Sim (Q, I) = Σ_{C_{qi} &Element; C_{Q}} Semantic (qi, C_{qi}) * Score (C_{qi}, I) - - - (7)

Score(.)输出一个通过概念C_qi找到视频片段I的一个概率，Score(.)是介绍Score这个函数的功能表示。利用公式(7)可以得到查询视频Q与所有相关视频查询的相似度值，将相似度值排序，返回相似度较高的视频片段给查询用户，完成视频片段的查询。

Claims

1.基于视觉空间的视频检索方法，其特征在于包括以下步骤：

步骤1、构建初始视觉概念空间：

1A、构建代表视觉关系的知识库；

步骤2、构成初始的训练检测集：

采集大量的视频序列，提取关键帧以及视频场景片段构成训练集，然后应用于初始概念集C上，训练样本为M，所有的训练样本得到的M个向量构成一个M*N的矩阵，构成初始的训练检测集C’；

步骤3、构建视觉空间：

步骤4、基于视觉空间的查询过程：

4A、将视觉查询样本Q，将其投射到视觉空间中形成一个向量C_Q，获得样本Q在视觉空间中表达向量C_Q={q1，q2，...};

4B、然后利用公式(6)计算qi和概念集C中所有概念的相似度，得到相似度最高的C_qi，C_Q就得到一组概念{C_q1，C_q2,...}，用来表达查询所携带的视觉信息，每个概念的权重为其余弦相似度，公式如下：

Semantic (C_{i}, C_{j}) = \frac{C_{i} C_{j}}{| C_{i} | * | C_{j} |} - - - (6)

Sim (Q, I) = Σ_{C_{qi} &Element; C_{Q}} Semantic (qi, C_{qi}) * Score (C_{qi}, I) - - - (7)

2.根据权利要求1所述的基于视觉空间的视频检索方法，其特征在于：所述步骤3中3A步中：

WUP (C_{i}, C_{j}) = \frac{2 D (p_{ij})}{L (C_{i}, C_{j}) + 2 D (p_{ij})} - - - (1)

其中Ci和Cj表示C’中不相同的两个概念D(p_ij):返回一个概念的深度，L(C_i,C_j)L(C_i,C_j)返回在WordNet中概念对的路径长度;

C'形成的所有概念对应用公式(1)得到一个矩阵R，表示为:

C^TC=R (2)

接着对R进行谱分解如下:

其中∧表示矩阵R在斜对角线上的所有特征值，V表示相应的特征值矩阵，根据公式(2）和(3)可得初始概念集C的如下表示：

3.根据权利要求1所述的基于视觉空间的视频检索方法，其特征在于：所述步骤4中4A步中:对于一个视觉查询样本Q，将其投射到视觉空间中形成一个向量C_Q，公式如下:

C^TC_Q=R_Q

C_Q=(C^T)^-1R_Q （5）