CN103412909A

CN103412909A - 一种基于特征融合的视频数据检索方法

Info

Publication number: CN103412909A
Application number: CN2013103327044A
Authority: CN
Inventors: 韩军伟; 吉祥; 郭雷; 胡新韬
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2013-08-01
Filing date: 2013-08-01
Publication date: 2013-11-27
Anticipated expiration: 2033-08-01
Also published as: CN103412909B

Abstract

本发明涉及一种基于特征融合的视频数据检索方法，计算不同种类视频数据特征的拉普拉斯矩阵，对拉普拉斯矩阵进行融合得到联合拉普拉斯矩阵，提取联合拉普拉斯矩阵的特征值和特征向量，找出前M个最大特征值所对应的特征向量，计算这些特征向量的相似性矩阵，最后，对每个要查找的目标视频数据，利用相似性矩阵得到每个视频数据的分数，将视频数据按照分数从高到低排序，在前若干个排好序的视频数据中，统计其中与目标视频数据属于同一类别的视频数据数量，计算检索准确率。利用本发明方法，可以实现多种视频数据特征的融合检索，融合后的检索准确率比融合前有了大幅提高。

Description

一种基于特征融合的视频数据检索方法

技术领域

本发明涉及一种基于特征融合的视频数据检索方法，可以应用于不同种类视频数据的检索当中。

背景技术

随着数字多媒体数据的爆炸式增长，网络上的视频数据数量与日俱增，如何利用计算机在海量的视频数据中准确地检索出用户喜欢的视频数据变的越来越重要。传统的视频数据检索方法主要是根据视频数据的底层视觉特征如颜色、形状和纹理等来区分视频的类别，从大量视频数据中寻找出用户期望得到的视频数据类型。但是这种方法的准确性还不能令人满意，近来一种基于人脑认知的视频数据特征被提出并用在视频数据检索中，取得了优于传统视频数据特征的效果。该特征来自测试者观看视频数据时大脑的磁共振响应数据，反映了视频数据在人脑中的理解模式，我们称这种视频数据特征为脑功能特征。虽然脑功能特征在平均水平上比传统特征表现优越，但是我们也发现，对于某些个视频数据，在传统特征中表现要好于脑功能特征。这说明，传统特征还是有其独特的优越性的。所以，基于这些发现，我们提出了一种视频检索方法，该方法能将两种特征的优势进行融合，并用于视频检索中，结果表明，与单独使用一种特征进行检索相比，检索准确率有了很大的提高。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明提出一种基于特征融合的视频数据检索方法，将传统的视频特征和脑功能特征进行融合，提高视频数据检索技术的准确性。

技术方案

一种基于特征融合的视频数据检索方法，其特征在于步骤如下：

步骤1利用

计算N个视频数据的特征X₁,X₂,...,X_N的相似性矩阵W₁，利用

计算N个视频数据的特征Y₁,Y₂,...,Y_N的相似性矩阵W₂；

其中，X₁,X₂,...,X_N表示第1、2和N个视频数据的第一种特征；Y₁,Y₂,...,Y_N表示第1、2和N个视频数据的第二种特征；

表示矩阵W₁第i行和第j列的元素；i＝1,2,...,N，j＝1,2,...,N,N＞0；σ＞0为常数；X_i,X_j表示第i个和第j个视频数据的第一种特征；上标T表示向量转置；

表示矩阵W₂第i行和第j列的元素；Y_i,Y_j表示第i个和第j个视频数据的第二种特征；

步骤2利用公式计算W₁的拉普拉斯矩阵L₁，利用计算W₂的拉普拉斯矩阵L₂；

其中，D₁表示对角线矩阵，其元素

d_{i, j}^{1} = \{\begin{matrix} Σ_{t = 1}^{N} w_{i, t}^{1} & i = j \\ 0 & i &NotEqual; j \end{matrix};

t＝1,2,...,N；

表示矩阵W₁的第i行第t列的元素；D₂表示对角线矩阵，其元素

d_{i, j}^{2} = \{\begin{matrix} Σ_{t = 1}^{N} w_{i, t}^{2} & i = j \\ 0 & i &NotEqual; j \end{matrix};

t＝1,2,...,N；

表示矩阵W₂的第i行第t列的元素；

步骤3利用公式

计算联合拉普拉斯矩阵L；其中，p＝1,2；α＞0表示常数；I表示单位矩阵；

步骤4计算联合拉普拉斯矩阵L的特征值和特征向量，选取前M个最大特征值所对应的特征向量U₁,U₂,...,U_M；其中，M≥1表示常数；U₁,U₂,...,U_M表示大小为N×1的特征向量；

步骤5构造矩阵V＝[U₁ U₂...U_M]；计算[V₁ V₂...V_N]^T的相似性矩阵S，S的元素计算公式为：

s_{i, j} = \exp \frac{{(V_{i} - V_{j})}^{T} \times (V_{i} - V_{j})}{σ^{2}};

其中，V₁,V₂,...,V_N表示矩阵V的第1,2,...,N行元素；

步骤6利用公式r＝β(I-λS)^-1F计算N个视频数据的分数r，并将视频数据按照分数大小从高到低排列，得到排序后的N个视频数据；其中，r＝(r₁,r₂,...,r_N)表示N个视频数据的得分向量，r₁,r₂,...,r_N表示第1,2,...,N个视频数据的得分；β＝1-λ表示常数；λ＝0.99；F＝[f₁,...,f_N]T表示检索时的查询向量，f_i＝1表示第i个视频数据为所要查找的目标视频数据，否则f_i＝0。

利用统计前Q个排序后的音频数据中与目标音频数据属于同一类别的音频数据数量C，计算检索准确率A＝C/Q。

有益效果

本发明提出的一种基于特征融合的视频数据检索方法，计算不同种类视频数据特征的拉普拉斯矩阵，对拉普拉斯矩阵进行融合得到联合拉普拉斯矩阵，提取联合拉普拉斯矩阵的特征值和特征向量，找出前M个最大特征值所对应的特征向量，计算这些特征向量的相似性矩阵，最后，对每个要查找的目标视频数据，利用相似性矩阵得到每个视频数据的分数，将视频数据按照分数从高到低排序，在前若干个排好序的视频数据中，统计其中与目标视频数据属于同一类别的视频数据数量，计算检索准确率。利用本发明方法，可以实现多种视频数据特征的融合检索，融合后的检索准确率比融合前有了大幅提高。

本发明提出的一种视频数据检索方法，能够融合视频数据不同种类特征进行视频数据检索，与单独用一种特征进行检索相比，大大提高了视频数据检索的准确率。

附图说明

图1：本发明方法的基本流程图

图2：本发明方法的检索结果

具体实施方式

现结合实施例、附图对本发明作进一步描述：

用于实施的硬件环境是：AMD Athlon 64×2 5000+计算机、2GB内存、256M显卡，运行的软件环境是：Matlab2009a和Windows XP。我们用Matlab软件实现了本发明提出的方法。

本发明流程图如附图1所示，具体实施如下：

1、分别计算N＝1256个视频数据的两种特征X₁,X₂,...,X_N和Y₁,Y₂,...,Y_N的拉普拉斯矩阵L₁和L₂。X₁,X₂,...,X_N表示第1、2和N个视频数据的第一种特征；Y₁,Y₂,...,Y_N表示第1、2和N个视频数据的第二种特征。1256个视频数据包含三类，分别为：561个运动视频数据、364个天气预报视频数据和331个广告视频数据。两种特征分别为脑功能特征和底层特征，具体步骤如下：

(1)计算两种特征X₁,X₂,...,X_N的相似性矩阵W₁和Y₁,Y₂,...,Y_N的相似性矩阵W₂，W₁的元素计算公式为

同理计算矩阵W₂，其元素计算公式为

w_{i, j}^{2} = \exp \frac{{(Y_{i} - Y_{j})}^{T} \times (Y_{i} - Y_{j})}{σ^{2}};

其中，

表示矩阵W₁第i行和第j列的元素；i＝1,2,...,N，j＝1,2,...,N,N＝1256；σ＝8×10^-6为常数；X_i,X_j表示第i个和第j个视频数据的第一种特征；上标T表示向量转置；

(2)利用公式

计算W₁的拉普拉斯矩阵L₁，同理，计算W₂的拉普拉斯矩阵

其中，D₁表示对角线矩阵，其元素

d_{i, j}^{1} = \{\begin{matrix} Σ_{t = 1}^{N} w_{i, t}^{1} & i = j \\ 0 & i &NotEqual; j \end{matrix};

t＝1,2,...,N；

d_{i, j}^{2} = \{\begin{matrix} Σ_{t = 1}^{N} w_{i, t}^{2} & i = j \\ 0 & i &NotEqual; j \end{matrix};

t＝1,2,...,N；

表示矩阵W₂的第i行第t列的元素；

2、利用公式

计算联合拉普拉斯矩阵L；其中，p＝1,2；α＝0.01表示常数；I表示单位矩阵；

3、计算联合拉普拉斯矩阵L的特征值和特征向量，选取前M个最大特征值所对应的特征向量U₁,U₂,...,U_M；其中，M≥1表示常数；U₁,U₂,...,U_M表示大小为N×1的特征向量；

4、构造矩阵V＝[U₁ U₂...U_M]；计算[V₁ V₂...V_N]^T的相似性矩阵S，S的元素计算公式为

σ＝8×10^-6；其中，V₁,V₂,...,V_N表示矩阵V的第1,2,...,N行元素；

5、利用公式r＝β(I-λS)^-1F计算N个视频数据的分数r，并将视频数据按照分数大小从高到低排列，得到排序后的N个视频数据。

其中，r＝(r₁,r₂,...,r_N)表示N个视频数据的得分向量，r₁,r₂,...,r_N表示第1,2,...,N个视频数据的得分；β＝1-λ表示常数；λ＝0.99；F＝[f₁,...,f_N]^T表示检索时的查询向量，f_i＝1表示第i个视频数据为所要查找的目标视频数据，否则f_i＝0；

6、统计前Q个排序后的音频数据中与目标音频数据属于同一类别的音频数据数量C，计算检索准确率A＝C/Q；

利用本方法进行视频数据检索，将1256个视频数据每个都作为目标视频数据进行一次检索，在前5、10、15和20个视频数据内分别统计与目标视频数据属于同一类别的视频数据数量，计算检索准确率。对1256个视频数据查询所得的检索准确率进行平均，得到1256个视频的平均检索准确率。如附图2所示。作为对比，我们也单独使用脑功能特征和底层特征进行检索，将得到的检索准确率也显示在附图2中，从图中可以看出，我们提出的检索算法可以综合利用两种特征的优势，得到比两种特征更好的检索准确率。本算法的检索准确率比单独使用脑功能特征的检索准确率提高了16%，比单独使用底层特征的检索准确率提高了25%。

Claims

1.一种基于特征融合的视频数据检索方法，其特征在于步骤如下：

步骤1利用

计算N个视频数据的特征X₁,X₂,...,X_N的相似性矩阵W₁，利用

计算N个视频数据的特征Y₁,Y₂,...,Y_N的相似性矩阵W₂；

步骤2利用公式

计算W₁的拉普拉斯矩阵L₁，利用

计算W₂的拉普拉斯矩阵L₂；

其中，D₁表示对角线矩阵，其元素

d_{i, j}^{1} = \{\begin{matrix} Σ_{t = 1}^{N} w_{i, t}^{1} & i = j \\ 0 & i &NotEqual; j \end{matrix};

t＝1,2,...,N；

d_{i, j}^{2} = \{\begin{matrix} Σ_{t = 1}^{N} w_{i, t}^{2} & i = j \\ 0 & i &NotEqual; j \end{matrix};

t＝1,2,...,N；

表示矩阵W₂的第i行第t列的元素；

步骤3利用公式计算联合拉普拉斯矩阵L；其中，p＝1,2；α＞0表示常数；I表示单位矩阵；

s_{i, j} = \exp \frac{{(V_{i} - V_{j})}^{T} \times (V_{i} - V_{j})}{σ^{2}};

其中，V₁,V₂,...,V_N表示矩阵V的第1,2,...,N行元素；

步骤6利用公式r＝β(I-λS)^-1F计算N个视频数据的分数r，并将视频数据按照分数大小从高到低排列，得到排序后的N个视频数据；其中，r＝(r₁,r₂,...,r_N)表示N个视频数据的得分向量，r₁,r₂,...,r_N表示第1,2,...,N个视频数据的得分；β＝1-λ表示常数；λ＝0.99；F＝[f₁,...,f_N]^T表示检索时的查询向量，f_i＝1表示第i个视频数据为所要查找的目标视频数据，否则f_i＝0。

2.根据权利要求1所述的基于特征融合的视频数据检索方法，其特征在于：利用统计前Q个排序后的音频数据中与目标音频数据属于同一类别的音频数据数量C，计算检索准确率A＝C/Q。