CN103970838A

CN103970838A - 基于压缩域的社会图像标签排序方法

Info

Publication number: CN103970838A
Application number: CN201410146890.7A
Authority: CN
Inventors: 张菁; 刘欣; 卓力; 周倩兰; 王超
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2014-04-12
Filing date: 2014-04-12
Publication date: 2014-08-06

Abstract

基于压缩域的社会图像标签排序方法属于图像处理领域。本发明以社会化媒体网站中的压缩格式图像为研究对象，针对社会图像标签的不准确性提出基于压缩域的社会图像标签排序方法。主要运用压缩域图像处理技术，提取压缩域社会图像的特征生成图像的视觉单词，将空间上下文信息融入视觉单词，建立描述性视觉词包。然后结合社会图像标签的语义信息，在充分分析视觉单词和标签语义的基础上，运用近邻投票技术计算标签和图像语义的关联性，进而依据关联性来对图像标签排序，有效提高社会图像标签的准确性以及标记效率，并进一步为社会化媒体网站提供一种高效的图像组织和管理技术手段。

Description

基于压缩域的社会图像标签排序方法

技术领域

本发明以社会化媒体网站中的压缩格式图像为研究对象，针对社会图像标签的不准确性提出基于压缩域的社会图像标签排序方法。

背景技术

随着互联网信息技术的飞速发展，社会化媒体成为了人们传播和分享信息的重要媒介，其主要特点是用户可以自由上传自己的媒体信息，并为其添加标签。社会化媒体网站拥有数以亿计的图像资源，并保持持续高速增长，面对海量的社会图像，如何有效地提供满足用户实际需求的社会图像，成为社会化媒体技术面临的难题之一。随着社会网络的发展，社会图像分享网站成为活跃于互联网上的一支新秀。社会图像分享网站（如Flickr）允许大众群体对社会图像标注文本信息，即标签，这是一种重要的图像语义信息。然而由于人们的文化背景及其对图像的理解和关注角度不同，对相同的图像所标记的标签也会产生差异，标签的无序性、不准确性严重降低了对图像内容的解释能力，因而难以有效的实现图像的组织、管理和分析。

为了组织和管理社会化媒体网站中的图像，基于内容的社会图像标签排序技术成为研究热点。目前，低层视觉特征的提取仍然是图像标签排序的基础，然而由于图像低层特征与其本身所包含的高层语义之间存在着巨大差距，使得标签排序还未取得令人满意的效果。

受文本内容分析的启发，有研究学者借鉴传统词典中用文本单词组合解释术语的思路，将图像视为视觉单词的组合(也称为词包)，利用词包来描述图像的语义内容。该方法为缺乏准确描述图像信息的特征描述算子这一问题，提供了一种重要的解决思路，并进而为有效弥补图像低层特征和高层语义的鸿沟，提供了行之有效的方法。

据统计，社会媒体网站中绝大多数的图像是以压缩格式进行存储和传播的，对于这些以压缩格式存在的图像数据，传统的视觉单词提取方法须先解压缩才能进行局部特征描述算子的计算。这无疑增加了整个标签排序系统的时间，极大地影响了系统的灵活性、实时性。基于此，压缩域图像处理技术成为一种必要，该技术充分利用图像压缩算法及其所形成压缩数据的特点，直接在尽量少解码的压缩数据上进行图像处理，减少了图像处理的数据量，有效地提高了图像处理的速度。

近年来有研究人员将图像标注问题看成是检索问题，通过提取图像的全局低层视觉特征和多种距离度量策略相结合的手段寻找与关键图视觉特征最相近的图像子集，借助近邻投票策略抽取若干个出现频率较高的关键词作为待标注图像的标注结果。其中的近邻投票策略能够降低复杂度，可适应大规模的训练数据，且对训练数据中的噪声不敏感。

本发明将视觉单词和压缩域图像处理两种技术有机地结合在一起，提取图像的尺度不变特征描述算子，建立视觉单词库，并融合图像的上下文信息得到描述性视觉词包。然后，查询得到图像的k近邻图像子集，再借助近邻投票的思想，统计图像子集中各个标签的相关度得分，即标签和图像的关联性，按照得分的高低来进行标签排序。不但能提高标签排序的准确率，而且可以满足社会图像实时处理的要求，对其组织、管理和分析具有重要的研究意义。

发明内容

本发明与已有的基于图像全局特征的方法不同，针对网络上大部分以压缩格式存在的社会图像，引入压缩域图像处理技术，通过提取图像的特征建立各类别图像的视觉单词库，并结合图像的空间上下文信息对其进行优化，最终生成的视觉词包具有更强的描述能力。然后查询得到图像的k近邻图像子集，并借助近邻投票实现社会图像的标签排序。该方法主要分为两大步骤：压缩域描述性视觉词包构建和标签排序，其流程如附图1所示。其中，压缩域描述性词包构建又可细分为四个步骤：重建低分辨率图像，提取SIFT描述算子，生成视觉单词，构建描述性视觉词包。标签排序又可细分为两个步骤：返回k近邻图像集，统计标签相关度得分并降序排列。

1.压缩域描述性词包构建

本发明运用压缩域图像处理技术，重建低分辨率图像，提取SIFT描述算子，聚类分析得到视觉单词库，最后构建描述性视觉词包，其流程如附图2所示。

1）重建低分辨率图像

低分辨率图像重建可以避免反离散余弦变换的过程，提高图像重建的速度。本发明针对8×8的图像块进行讨论。图像块在压缩过程中，经DCT变换和量化后大量的高频系数变为0。因此，为了简化计算，在解码端反量化后，对DCT变换后的高频系数进行了一定程度的舍弃，保留zigzag排序后的前16位DCT系数组成4×4维的矩阵，其中包括1个直流系数和15个交流系数。然后将所有子块矩阵组合起来，构建出原图像分辨率的1/2×1/2版本的图像。

2）提取SIFT描述算子

通过上述方法从压缩码流中获取低分辨率图像后，采用DoG高斯差分尺度空间兴趣点检测子检测图像中的兴趣点，根据兴趣点的位置与尺度信息，计算各点SIFT描述算子。

3）生成视觉单词

本发明从图像中提取SIFT特征数据库，采用k均值聚类方法进行聚类分析，并选取每类中心作为视觉单词，构建视觉单词库。

4）构建描述性视觉词包

在无监督聚类产生的视觉单词库中，复杂背景下的局部特征会产生很多带噪的视觉单词，也会引入大的量化误差。此外，空间上下文信息对视觉匹配和识别非常重要，然而单一的视觉单词所具有的空间上下文信息是非常有限的，因此它不能有效的描述图像的特征。基于此，本发明提出了描述性视觉词包建立方案，包括描述性视觉单词（DVW，Descriptive Visual Words）和描述性视觉单词对（DVP，Descriptive Visual word Pairs）。DVW指能够高效描述某类目标或者场景的特定视觉单词，DVP指在某类别的图像中经常出现的视觉单词对。

针对DVW，依据网页排序的原理提出一种视觉单词排序算法，挑选出各个图像类别中具有描述性的视觉单词，也即得到DVW。针对DVP，首先通过检测一定的空间距离内经常成对出现的视觉单词得到DVP候选词，然后计算每个DVP候选词的重要性并进行排序，从中挑选出各类别中具有描述性的候选词对，得到DVP。最后将DVW和DVP集中起来，形成最终的描述性视觉词包，这种融合空间信息的描述性视觉词包比传统的视觉单词具有更强的描述能力。

2.标签排序

本发明在描述性视觉词包基础上，进行相似性匹配得到查询图像的k近邻图像子集。对于视觉相似的图像，如果不同的人都选择相同的标签进行标注，就说明这些标签对这类图像的解释能力较强，也说明它们与这类图像的相关性较高。由此引入近邻投票模型进行标签排序，其流程如附图3所示。图中所示第一列为关键图的近邻图像及其标签，第二列为关键图的标签，通过近邻图像的标签对关键图的标签进行投票，进行投票统计，也即计算标签的相关度得分，按照最终的相关度得分对标签排序，得到图像新的标签列表。

具体说来，给定图像I和相应的标签列表T={t₁,t₂,…,t_n}，首先，根据图像的低层特征寻找图像I的k近邻图像集；然后，统计标签列表T={t₁,t₂,…,t_n}中各标签在图像I的k近邻图像集中的出现次数，计算相关度得分；最后，依据各标签的相关度得分将标签进行降序排列，得到最终的排序结果。

本发明的特点

首先，本发明结合空间上下文信息对传统的视觉单词进行了优化，构建描述能力更强的描述性视觉词包，从而有效地提高了视觉单词的表征性，得到能够准确描述社会图像信息的特征，进而达到提高社会图像标签排序准确率的目的。其次，本发明运用近邻投票技术进行标签排序，优化了检索难题，而且图像中仅仅被用户标注的标签才予以传播，能有效降低视觉相似性和语义相似性不一致造成的标签误传播的风险。此外，本发明还引入了压缩域图像处理技术，从压缩码流中重建低分辨率图像快速提取其特征，有效提高了构建视觉单词的速度。

附图说明：

图1是本发明流程图。

图2是压缩域描述性词包构建流程图。

图3是标签排序流程图。

图4是K均值聚类过程图。

具体实施方式

根据上述的描述，以下是一个具体的实施流程：从社会化媒体网站中的图像出发，首先利用压缩数据重建低分辨率图像，计算SIFT描述算子，通过聚类分析构建传统视觉单词库，然后融入空间上下文信息得到描述性视觉词包，接下来检索得到查询图像的k近邻图像子集，最后通过标签近邻投票技术，计算图像子集中各个标签的相关度得分，并按照相关度得分的高低进行排序，得到标签排序结果。

1.压缩域描述性视觉词包构建

本发明运用压缩域图像处理技术，重建压缩域低分辨率图像，提取尺度不变特征描述算子，聚类分析得到视觉单词库，结合空间上下文信息构建压缩域描述性视觉词包。

1.1压缩域低分辨率图像的重建

本发明首先从压缩码流中快速重建低分辨率图像，这样可以避免反离散余弦变换的过程，提高了图像重建的速度。这个方法可以从码流中获取原图像1/2×1/2大小的低分辨率图像。

在构建1/2×1/2低分辨率图像时，首先在解码端反量化后，提取8×8块的前16个DCT系数，组成4×4维矩阵A_n(n为总的块数)，然后按照公式(1)计算4×4维矩阵I_n，最后将矩阵I_n组合起来构建一幅原图像分辨率1/2×1/2版本的图像

I_{n} = C A_{n} C^{T} = C [\begin{matrix} A_{0,0}^{Q} Q_{0,0} & A_{0,1}^{Q} Q_{0,1} & A_{0,2}^{Q} Q_{0,2} & A_{0,3}^{Q} Q_{0,3} \\ A_{1.0}^{Q} Q_{1,0} & A_{1, 1}^{Q} Q_{1, 1} & A_{1, 2}^{Q} Q_{1, 2} & A_{1, 3}^{Q} Q_{1, 3} \\ A_{2,0}^{Q} Q_{2,0} & A_{2,1}^{Q} Q_{2,1} & A_{2,2}^{Q} Q_{2,2} & A_{2,3}^{Q} Q_{2,3} \\ A_{4,0}^{Q} Q_{4,0} & A_{4,1}^{Q} Q_{4,1} & A_{4,2}^{Q} Q_{4,2} & A_{4,3}^{Q} Q_{4,3} \end{matrix}] C^{T} - - - (1)

式中，Qp,q,p,q=0,1是DCT系数的量化系数，p,q=0,1是量化前的DCT系数，

C = [\begin{matrix} c_{0} & c_{1} & c_{2} & c_{3} \\ c_{0} & c_{3} & {- c}_{2} & - c_{1} \\ c_{0} & - c_{3} & - c_{2} & c_{1} \\ c_{0} & - c_{1} & c_{2} & - c_{3} \end{matrix}],

c_{0} = 1 / \sqrt{8}, c_{1} = \frac{1}{2} C_{16}^{1} C_{16}^{2}, c_{2} = \frac{1}{2} C_{16}^{2} C_{16}^{4}, c_{3} = \frac{1}{2} C_{16}^{3} C_{16}^{6},

其中

C_{16}^{τ} = \cos (\frac{τπ}{16}) .

1.2尺度不变特征描述算子提取

通过以上步骤，得到了原图像分辨率1/2×1/2版本的压缩域低分辨率图像，对其进行SIFT描述算子的提取，主要包括4个步骤：(1)建立高斯差分尺度空间。本发明采用DoG(Difference of Gaussian)高斯差分尺度空间兴趣点检测子。(2)检测高斯差分尺度空间的关键点。在尺度空间将每一个采样点与其周围3×3×3邻域内的26个点进行比较，从中找到极值点。(3)计算各个关键点的尺度和方向信息。(4)生成关键点的描述算子。得到关键点的方向和尺度系数后，在该点16×16像素区域内，统计4×4小块中8个方向的梯度方向直方图，形成128维的SIFT特征向量，最后通过归一化处理，即可得到具有尺度、旋转、光照等不变特性的描述算子。

1.3视觉单词库构建

本发明对图像库中的每类图像按照1.2所述方法进行SIFT特征的提取。假定该类图像共100幅，首先检测每幅图像的关键点，得到每幅图像各个关键点的描述算子，即128维的SIFT特征向量。然后将100幅图像的所有关键点的描述算子集中起来，采用K均值聚类方法进行聚类分析，选取每个聚类中心作为视觉单词，也就得到了该类别100幅图像的视觉单词库。

K均值聚类过程如下:（1）从数据集中选择k个SIFT描述算子点作为初始聚类中心。（2）对每个描述算子找到离它距离最近的聚类中心，将其分配到该类。（3）重新计算聚类中心。（4）循环（2）、（3）过程，直到终止条件满足为止。整个过程如附图4所示。

1.4描述性视觉词包生成

描述性视觉词包的生成包括DVW的生成和DVP的生成，下面将分别进行说明。

1.4.1DVW生成

DVW指能够高效描述某类目标或者场景的特定视觉单词。DVW有以下两个特点：1）对某类图像更具描述性的视觉单词会频繁出现在该类别图像中，所以DVW在整个图像库和各个图像类别中出现的频率是挑选DVW的重要线索；2）如果两个视觉单词在较小的空间距离下频繁出现在包含同样的场景或者目标的图像中，就可推断它们之间具有很强的空间一致性，因此在DVW选择时借助这种空间上的共现频率Ti,Cj能够降低复杂背景引起的负面影响。综合这两方面的因素，本发明依据网页排序的原理提出一种视觉单词排序算法，把两条线索结合起来选择DVW。

在类别C中建立一个维的矩阵R^(C)，代表类别C中视觉单词的个数，矩阵R^(C)对角元素定义为

R_{i, i}^{C} = {f_{i}}^{C} / \ln (F_{i}) - - - (2)

i表示DVW的一个候选词，F_i和f_i ^C分别为i在所有类别中的平均频率和类别C中的频率，代表候选词i在类别C中自身的重要性的大小。

非对角元素用视觉单词i和j共现的频率来表示：

R_{i, j}^{C} = T_{i, j}^{C} - - - (3)

在此矩阵的基础上，参照网页排序的原理进行循环迭代，直到最终结果保持稳定，选择前N个视觉单词即得到类别C的DVW集合。

1.4.2DVP的生成

DVP指在某类别的图像中经常出现的视觉单词对。针对DVP，首先通过检测一定的空间距离内经常出现的视觉单词对得到DVP候选词，然后计算每个DVP候选词的重要性并进行排序，从中挑选出各类别中具有描述性的候选词对，得到DVP。

首先是DVP候选词的生成。依据两个视觉单词共现这一条件，将某一类别的DVP候选词定义为该类别中共现的传统视觉单词对。假定视觉单词i和j同时出现在类别C中，那么包含这两个视觉单词的DVP候选词可以表示为

CVPCandidate (C) [i, j, T_{i, j}^{(C)}]

表示在图像类别C中视觉单词i和j共现的平均频率，反映了该类别中视觉单词之间空间关系的强弱。

接下来进行DVP的选择。根据信息检索中的TF-IDF权重理论，如果一个候选词在类别C中出现的次数多而在其它类别却很少，那么该词对于类别C来说更具重要性。基于此，DVP候选词K相对于类别C的重要性的大小可由下式计算得到

I_{K}^{(C)} = f_{K}^{(C)} / \ln (F_{K}) - - - (4)

和F_K分别代表DVP候选词K在类别C和所有类别中出现的频率。假定整个图像库有M个图像类别，视觉单词i和视觉单词j包含在DVP候选词K中，那么和F_K可以由下式计算而得：

f_{K}^{(C)} = T_{i, j}^{(C)}, F_{K} = Σ_{m = 1}^{M} T_{i, j}^{(m)} / M - - - (5)

当计算出C中每个DVP候选词的之后，对其按照大小进行排序，选出类别C的DVP集合。用这个方法，从而得到所有类别中是DVP集合。

最后将所有的DVW和DVP集中在一起，也就得到了最终的描述性视觉词包。

2.标签排序

首先给出图像标签相关性排序中的准则。

准则1：图像库中标签与图像相关的概率大于标签与图像不相关的概率，即

P_right(I,t)>P_wrong(I,t) （6）

P_right(I,t)和P_wrong(I,t)分别表示标签与图像相关的概率和标签与图像不相关的概率。

准则2：为保证投票的客观性，每个用户在每轮投票中至多有一幅图像出现在近邻图像集中。

N(I/U_i)<=1 （7）

式中N(I/U_i)表示用户U_i出现在近邻图像集合中的图像数目。

本发明根据视觉词包对图像进行语义分析，得到每幅图像的视觉单词直方图。首先根据关键图的视觉单词直方图寻找图像的k近邻图像集。然后根据公式（8）计算关键图中每个标签的相关度得分。

S(t,I)=V(t,I)-Prior(t,k) （8）

其中，S(t,I)为关键图I中标签t的相关度得分，V(t,I)表示关键图I的k幅近邻图像对标签t的投票统计结果，Prior(t,k)表示在k幅图像中标签t的先验概率得分。也就是说，标签t的相关性由近邻图像的投票结果减去标签t在近邻图像集中的先验概率得到。其中，先验概率Prior(t,k)可由下式得到。

Prior (t, k) = k \frac{M_{t}}{N} - - - (9)

其中k是关键图的近邻图像个数，M_t表示包含标签t的图像数目，N表示整个图像库中的图像数目。

在得到给定图像中每个标签的相关性以后，按相关性由高到低的顺序，将关键图的标签列表重新排序，如公式（10）

Rank(S(t₁,I),S(t₂,I),…,S(t_m,I)) （10）

式中S(t_m,I)表示关键图I的第m个标签的相关度得分。

至此，完成基于压缩域的社会图像标签排序。

Claims

1.基于压缩域的社会图像标签排序方法，其特征在于包括：

压缩域描述性词包构建

1）重建低分辨率图像

对8×8的图像块构建出原图像分辨率的1/2×1/2版本的图像；

2）提取SIFT描述算子

3）生成视觉单词

从图像中提取SIFT特征数据库，采用k均值聚类方法进行聚类分析，并选取每类中心作为视觉单词，构建视觉单词库；

4）构建描述性视觉词包

提出了描述性视觉词包建立方案，包括描述性视觉单词DVW和描述性视觉单词对DVP；DVW指能够高效描述某类目标或者场景的特定视觉单词，DVP指在某类别的图像中经常出现的视觉单词对；

针对DVW，依据网页排序的原理提出一种视觉单词排序算法，挑选出各个图像类别中具有描述性的视觉单词，也即得到DVW；针对DVP，首先通过检测一定的空间距离内经常成对出现的视觉单词得到DVP候选词，然后计算每个DVP候选词的重要性并进行排序，从中挑选出各类别中具有描述性的候选词对，得到DVP；最后将DVW和DVP集中起来，形成最终的描述性视觉词包；

还包括标签排序：

在描述性视觉词包基础上，进行相似性匹配得到查询图像的k近邻图像子集；引入近邻投票模型进行标签排序，通过近邻图像的标签对关键图的标签进行投票，进行投票统计，也即计算标签的相关度得分，按照最终的相关度得分对标签排序，得到图像新的标签列表；

2.根据权利要求1所述的基于压缩域的社会图像标签排序方法，其特征在于：

生成视觉单词具体为：

对图像库中的每类图像进行SIFT特征的提取；假定该类图像共N幅，首先检测每幅图像的关键点，得到每幅图像各个关键点的描述算子，即128维的SIFT特征向量；然后将所有图像的所有关键点的描述算子集中起来，采用K均值聚类方法进行聚类分析，选取每个聚类中心作为视觉单词，也就得到了该类别N幅图像的视觉单词库。

3.根据权利要求1所述的基于压缩域的社会图像标签排序方法，其特征在于：

描述性视觉词包生成具体包括：

1.4.1DVW生成

DVW指能够高效描述某类目标或者场景的特定视觉单词；

R_{i, i}^{C} = {f_{i}}^{C} / \ln (F_{i}) - - - (2)

i表示DVW的一个候选词，F_i和f_i ^C分别为i在所有类别中的平均频率和类别C中的频率，代表候选词i在类别C中自身的重要性的大小；

非对角元素用视觉单词i和j共现的频率来表示：

R_{i, j}^{C} = T_{i, j}^{C} - - - (3)

在此矩阵的基础上，参照网页排序的原理进行循环迭代，直到最终结果保持稳定，选择前N个视觉单词即得到类别C的DVW集合；

1.4.2DVP的生成

DVP指在某类别的图像中经常出现的视觉单词对；针对DVP，首先通过检测一定的空间距离内经常出现的视觉单词对得到DVP候选词，然后计算每个DVP候选词的重要性并进行排序，从中挑选出各类别中具有描述性的候选词对，得到DVP；

首先是DVP候选词的生成；依据两个视觉单词共现这一条件，将某一类别的DVP候选词定义为该类别中共现的传统视觉单词对；假定视觉单词i和j同时出现在类别C中，那么包含这两个视觉单词的DVP候选词表示为

CVPCandidate (C) [i, j, T_{i, j}^{(C)}]

表示在图像类别C中视觉单词i和j共现的平均频率，反映了该类别中视觉单词之间空间关系的强弱；

接下来进行DVP的选择；根据信息检索中的TF-IDF权重理论，如果一个候选词在类别C中出现的次数多而在其它类别却很少，那么该词对于类别C来说更具重要性；基于此，DVP候选词K相对于类别C的重要性的大小由下式计算得到

I_{K}^{(C)} = f_{K}^{(C)} / \ln (F_{K}) - - - (4)

和F_K分别代表DVP候选词K在类别C和所有类别中出现的频率；假定整个图像库有M个图像类别，视觉单词i和视觉单词j包含在DVP候选词K中，那么和F_K由下式计算而得：

f_{K}^{(C)} = T_{i, j}^{(C)}, F_{K} = Σ_{m = 1}^{M} T_{i, j}^{(m)} / M - - - (5)

当计算出C中每个DVP候选词的之后，对其按照大小进行排序，选出类别C的DVP集合；用这个方法，从而得到所有类别中是DVP集合；

4.根据权利要求1所述的基于压缩域的社会图像标签排序方法，其特征在于：

标签排序具体包括：

首先给出图像标签相关性排序中的准则；

P_right(I,t)>P_wrong(I,t) （6）

P_right(I,t)和P_wrong(I,t)分别表示标签与图像相关的概率和标签与图像不相关的概率；

准则2：为保证投票的客观性，每个用户在每轮投票中至多有一幅图像出现在近邻图像集中；

N(I/U_i)<=1 （7）

式中N(I/U_i)表示用户U_i出现在近邻图像集合中的图像数目；

根据视觉词包对图像进行语义分析，得到每幅图像的视觉单词直方图；首先根据关键图的视觉单词直方图寻找图像的k近邻图像集；然后根据公式（8）计算关键图中每个标签的相关度得分；

S(t,I)=V(t,I)-Prior(t,k) （8）

其中，S(t,I)为关键图I中标签t的相关度得分，V(t,I)表示关键图I的k幅近邻图像对标签t的投票统计结果，Prior(t,k)表示在k幅图像中标签t的先验概率得分；也就是说，标签t的相关性由近邻图像的投票结果减去标签t在近邻图像集中的先验概率得到；其中，先验概率Prior(t,k)可由下式得到；

Prior (t, k) = k \frac{M_{t}}{N} - - - (9)

其中k是关键图的近邻图像个数，M_t表示包含标签t的图像数目，N表示整个图像库中的图像数目；

Rank(S(t₁,I),S(t₂,I),…,S(t_m,I)) （10）

式中S(t_m,I)表示关键图I的第m个标签的相关度得分；

至此，完成基于压缩域的社会图像标签排序。