CN103970838A - 基于压缩域的社会图像标签排序方法 - Google Patents

基于压缩域的社会图像标签排序方法 Download PDF

Info

Publication number
CN103970838A
CN103970838A CN201410146890.7A CN201410146890A CN103970838A CN 103970838 A CN103970838 A CN 103970838A CN 201410146890 A CN201410146890 A CN 201410146890A CN 103970838 A CN103970838 A CN 103970838A
Authority
CN
China
Prior art keywords
image
word
dvp
label
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410146890.7A
Other languages
English (en)
Inventor
张菁
刘欣
卓力
周倩兰
王超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201410146890.7A priority Critical patent/CN103970838A/zh
Publication of CN103970838A publication Critical patent/CN103970838A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于压缩域的社会图像标签排序方法属于图像处理领域。本发明以社会化媒体网站中的压缩格式图像为研究对象,针对社会图像标签的不准确性提出基于压缩域的社会图像标签排序方法。主要运用压缩域图像处理技术,提取压缩域社会图像的特征生成图像的视觉单词,将空间上下文信息融入视觉单词,建立描述性视觉词包。然后结合社会图像标签的语义信息,在充分分析视觉单词和标签语义的基础上,运用近邻投票技术计算标签和图像语义的关联性,进而依据关联性来对图像标签排序,有效提高社会图像标签的准确性以及标记效率,并进一步为社会化媒体网站提供一种高效的图像组织和管理技术手段。

Description

基于压缩域的社会图像标签排序方法
技术领域
本发明以社会化媒体网站中的压缩格式图像为研究对象,针对社会图像标签的不准确性提出基于压缩域的社会图像标签排序方法。
背景技术
随着互联网信息技术的飞速发展,社会化媒体成为了人们传播和分享信息的重要媒介,其主要特点是用户可以自由上传自己的媒体信息,并为其添加标签。社会化媒体网站拥有数以亿计的图像资源,并保持持续高速增长,面对海量的社会图像,如何有效地提供满足用户实际需求的社会图像,成为社会化媒体技术面临的难题之一。随着社会网络的发展,社会图像分享网站成为活跃于互联网上的一支新秀。社会图像分享网站(如Flickr)允许大众群体对社会图像标注文本信息,即标签,这是一种重要的图像语义信息。然而由于人们的文化背景及其对图像的理解和关注角度不同,对相同的图像所标记的标签也会产生差异,标签的无序性、不准确性严重降低了对图像内容的解释能力,因而难以有效的实现图像的组织、管理和分析。
为了组织和管理社会化媒体网站中的图像,基于内容的社会图像标签排序技术成为研究热点。目前,低层视觉特征的提取仍然是图像标签排序的基础,然而由于图像低层特征与其本身所包含的高层语义之间存在着巨大差距,使得标签排序还未取得令人满意的效果。
受文本内容分析的启发,有研究学者借鉴传统词典中用文本单词组合解释术语的思路,将图像视为视觉单词的组合(也称为词包),利用词包来描述图像的语义内容。该方法为缺乏准确描述图像信息的特征描述算子这一问题,提供了一种重要的解决思路,并进而为有效弥补图像低层特征和高层语义的鸿沟,提供了行之有效的方法。
据统计,社会媒体网站中绝大多数的图像是以压缩格式进行存储和传播的,对于这些以压缩格式存在的图像数据,传统的视觉单词提取方法须先解压缩才能进行局部特征描述算子的计算。这无疑增加了整个标签排序系统的时间,极大地影响了系统的灵活性、实时性。基于此,压缩域图像处理技术 成为一种必要,该技术充分利用图像压缩算法及其所形成压缩数据的特点,直接在尽量少解码的压缩数据上进行图像处理,减少了图像处理的数据量,有效地提高了图像处理的速度。
近年来有研究人员将图像标注问题看成是检索问题,通过提取图像的全局低层视觉特征和多种距离度量策略相结合的手段寻找与关键图视觉特征最相近的图像子集,借助近邻投票策略抽取若干个出现频率较高的关键词作为待标注图像的标注结果。其中的近邻投票策略能够降低复杂度,可适应大规模的训练数据,且对训练数据中的噪声不敏感。
本发明将视觉单词和压缩域图像处理两种技术有机地结合在一起,提取图像的尺度不变特征描述算子,建立视觉单词库,并融合图像的上下文信息得到描述性视觉词包。然后,查询得到图像的k近邻图像子集,再借助近邻投票的思想,统计图像子集中各个标签的相关度得分,即标签和图像的关联性,按照得分的高低来进行标签排序。不但能提高标签排序的准确率,而且可以满足社会图像实时处理的要求,对其组织、管理和分析具有重要的研究意义。
发明内容
本发明与已有的基于图像全局特征的方法不同,针对网络上大部分以压缩格式存在的社会图像,引入压缩域图像处理技术,通过提取图像的特征建立各类别图像的视觉单词库,并结合图像的空间上下文信息对其进行优化,最终生成的视觉词包具有更强的描述能力。然后查询得到图像的k近邻图像子集,并借助近邻投票实现社会图像的标签排序。该方法主要分为两大步骤:压缩域描述性视觉词包构建和标签排序,其流程如附图1所示。其中,压缩域描述性词包构建又可细分为四个步骤:重建低分辨率图像,提取SIFT描述算子,生成视觉单词,构建描述性视觉词包。标签排序又可细分为两个步骤:返回k近邻图像集,统计标签相关度得分并降序排列。
1.压缩域描述性词包构建
本发明运用压缩域图像处理技术,重建低分辨率图像,提取SIFT描述算子,聚类分析得到视觉单词库,最后构建描述性视觉词包,其流程如附图2所示。
1)重建低分辨率图像
低分辨率图像重建可以避免反离散余弦变换的过程,提高图像重建的速度。本发明针对8×8的图像块进行讨论。图像块在压缩过程中,经DCT变换和量化后大量的高频系数变为0。因此,为了简化计算,在解码端反量化后,对DCT变换后的高频系数进行了一定程度的舍弃,保留zigzag排序后的前16位DCT系数组成4×4维的矩阵,其中包括1个直流系数和15个交流系数。然后将所有子块矩阵组合起来,构建出原图像分辨率的1/2×1/2版本的图像。
2)提取SIFT描述算子
通过上述方法从压缩码流中获取低分辨率图像后,采用DoG高斯差分尺度空间兴趣点检测子检测图像中的兴趣点,根据兴趣点的位置与尺度信息,计算各点SIFT描述算子。
3)生成视觉单词
本发明从图像中提取SIFT特征数据库,采用k均值聚类方法进行聚类分析,并选取每类中心作为视觉单词,构建视觉单词库。
4)构建描述性视觉词包
在无监督聚类产生的视觉单词库中,复杂背景下的局部特征会产生很多带噪的视觉单词,也会引入大的量化误差。此外,空间上下文信息对视觉匹配和识别非常重要,然而单一的视觉单词所具有的空间上下文信息是非常有限的,因此它不能有效的描述图像的特征。基于此,本发明提出了描述性视觉词包建立方案,包括描述性视觉单词(DVW,Descriptive Visual Words)和描述性视觉单词对(DVP,Descriptive Visual word Pairs)。DVW指能够高效描述某类目标或者场景的特定视觉单词,DVP指在某类别的图像中经常出现的视觉单词对。
针对DVW,依据网页排序的原理提出一种视觉单词排序算法,挑选出各个图像类别中具有描述性的视觉单词,也即得到DVW。针对DVP,首先通过检测一定的空间距离内经常成对出现的视觉单词得到DVP候选词,然后计算每个DVP候选词的重要性并进行排序,从中挑选出各类别中具有描述性的候选词对,得到DVP。最后将DVW和DVP集中起来,形成最终的描述性视觉词包,这种融合空间信息的描述性视觉词包比传统的视觉单词具有更强的描述能力。
2.标签排序
本发明在描述性视觉词包基础上,进行相似性匹配得到查询图像的k近邻图像子集。对于视觉相似的图像,如果不同的人都选择相同的标签进行标注,就说明这些标签对这类图像的解释能力较强,也说明它们与这类图像的相关性较高。由此引入近邻投票模型进行标签排序,其流程如附图3所示。图中所示第一列为关键图的近邻图像及其标签,第二列为关键图的标签,通过近邻图像的标签对关键图的标签进行投票,进行投票统计,也即计算标签的相关度得分,按照最终的相关度得分对标签排序,得到图像新的标签列表。
具体说来,给定图像I和相应的标签列表T={t1,t2,…,tn},首先,根据图像的低层特征寻找图像I的k近邻图像集;然后,统计标签列表T={t1,t2,…,tn}中各标签在图像I的k近邻图像集中的出现次数,计算相关度得分;最后,依据各标签的相关度得分将标签进行降序排列,得到最终的排序结果。
本发明的特点
首先,本发明结合空间上下文信息对传统的视觉单词进行了优化,构建描述能力更强的描述性视觉词包,从而有效地提高了视觉单词的表征性,得到能够准确描述社会图像信息的特征,进而达到提高社会图像标签排序准确率的目的。其次,本发明运用近邻投票技术进行标签排序,优化了检索难题,而且图像中仅仅被用户标注的标签才予以传播,能有效降低视觉相似性和语义相似性不一致造成的标签误传播的风险。此外,本发明还引入了压缩域图像处理技术,从压缩码流中重建低分辨率图像快速提取其特征,有效提高了构建视觉单词的速度。
附图说明:
图1是本发明流程图。
图2是压缩域描述性词包构建流程图。
图3是标签排序流程图。
图4是K均值聚类过程图。
具体实施方式
根据上述的描述,以下是一个具体的实施流程:从社会化媒体网站中的图像出发,首先利用压缩数据重建低分辨率图像,计算SIFT描述算子,通过聚类分析构建传统视觉单词库,然后融入空间上下文信息得到描述性视觉词包,接下来检索得到查询图像的k近邻图像子集,最后通过标签近邻投票技术,计算图像子集中各个标签的相关度得分,并按照相关度得分的高低进行排序,得到标签排序结果。
1.压缩域描述性视觉词包构建
本发明运用压缩域图像处理技术,重建压缩域低分辨率图像,提取尺度不变特征描述算子,聚类分析得到视觉单词库,结合空间上下文信息构建压缩域描述性视觉词包。
1.1压缩域低分辨率图像的重建
本发明首先从压缩码流中快速重建低分辨率图像,这样可以避免反离散余弦变换的过程,提高了图像重建的速度。这个方法可以从码流中获取原图像1/2×1/2大小的低分辨率图像。
在构建1/2×1/2低分辨率图像时,首先在解码端反量化后,提取8×8块的前16个DCT系数,组成4×4维矩阵An(n为总的块数),然后按照公式(1)计算4×4维矩阵In,最后将矩阵In组合起来构建一幅原图像分辨率1/2×1/2版本的图像
I n = C A n C T = C A 0,0 Q Q 0,0 A 0,1 Q Q 0,1 A 0,2 Q Q 0,2 A 0,3 Q Q 0,3 A 1.0 Q Q 1,0 A 1 , 1 Q Q 1 , 1 A 1 , 2 Q Q 1 , 2 A 1 , 3 Q Q 1 , 3 A 2,0 Q Q 2,0 A 2,1 Q Q 2,1 A 2,2 Q Q 2,2 A 2,3 Q Q 2,3 A 4,0 Q Q 4,0 A 4,1 Q Q 4,1 A 4,2 Q Q 4,2 A 4,3 Q Q 4,3 C T - - - ( 1 )
式中,Qp,q,p,q=0,1是DCT系数的量化系数,p,q=0,1是量化前的DCT系数, C = c 0 c 1 c 2 c 3 c 0 c 3 - c 2 - c 1 c 0 - c 3 - c 2 c 1 c 0 - c 1 c 2 - c 3 , c 0 = 1 / 8 , c 1 = 1 2 C 16 1 C 16 2 , c 2 = 1 2 C 16 2 C 16 4 , c 3 = 1 2 C 16 3 C 16 6 , 其中 C 16 τ = cos ( τπ 16 ) .
1.2尺度不变特征描述算子提取
通过以上步骤,得到了原图像分辨率1/2×1/2版本的压缩域低分辨率图像,对其进行SIFT描述算子的提取,主要包括4个步骤:(1)建立高斯差分尺度空间。本发明采用DoG(Difference of Gaussian)高斯差分尺度空间兴趣点检测子。(2)检测高斯差分尺度空间的关键点。在尺度空间将每一个采样点与其周围3×3×3邻域内的26个点进行比较,从中找到极值点。(3)计算各个关键点的尺度和方向信息。(4)生成关键点的描述算子。得到关键点的方向和尺度系数后,在该点16×16像素区域内,统计4×4小块中8个方向的梯度方向直方图,形成128维的SIFT特征向量,最后通过归一化处理,即可得到具有尺度、旋转、光照等不变特性的描述算子。
1.3视觉单词库构建
本发明对图像库中的每类图像按照1.2所述方法进行SIFT特征的提取。 假定该类图像共100幅,首先检测每幅图像的关键点,得到每幅图像各个关键点的描述算子,即128维的SIFT特征向量。然后将100幅图像的所有关键点的描述算子集中起来,采用K均值聚类方法进行聚类分析,选取每个聚类中心作为视觉单词,也就得到了该类别100幅图像的视觉单词库。
K均值聚类过程如下:(1)从数据集中选择k个SIFT描述算子点作为初始聚类中心。(2)对每个描述算子找到离它距离最近的聚类中心,将其分配到该类。(3)重新计算聚类中心。(4)循环(2)、(3)过程,直到终止条件满足为止。整个过程如附图4所示。
1.4描述性视觉词包生成
描述性视觉词包的生成包括DVW的生成和DVP的生成,下面将分别进行说明。
1.4.1DVW生成
DVW指能够高效描述某类目标或者场景的特定视觉单词。DVW有以下两个特点:1)对某类图像更具描述性的视觉单词会频繁出现在该类别图像中,所以DVW在整个图像库和各个图像类别中出现的频率是挑选DVW的重要线索;2)如果两个视觉单词在较小的空间距离下频繁出现在包含同样的场景或者目标的图像中,就可推断它们之间具有很强的空间一致性,因此在DVW选择时借助这种空间上的共现频率Ti,Cj能够降低复杂背景引起的负面影响。综合这两方面的因素,本发明依据网页排序的原理提出一种视觉单词排序算法,把两条线索结合起来选择DVW。
在类别C中建立一个维的矩阵R(C)代表类别C中视觉单词的个数,矩阵R(C)对角元素定义为
R i , i C = f i C / ln ( F i ) - - - ( 2 )
i表示DVW的一个候选词,Fi和fi C分别为i在所有类别中的平均频率和类别C中的频率,代表候选词i在类别C中自身的重要性的大小。
非对角元素用视觉单词i和j共现的频率来表示:
R i , j C = T i , j C - - - ( 3 )
在此矩阵的基础上,参照网页排序的原理进行循环迭代,直到最终结果保持稳定,选择前N个视觉单词即得到类别C的DVW集合。
1.4.2DVP的生成
DVP指在某类别的图像中经常出现的视觉单词对。针对DVP,首先通过检测一定的空间距离内经常出现的视觉单词对得到DVP候选词,然后计算每个DVP候选词的重要性并进行排序,从中挑选出各类别中具有描述性的候选词对,得到DVP。
首先是DVP候选词的生成。依据两个视觉单词共现这一条件,将某一类别的DVP候选词定义为该类别中共现的传统视觉单词对。假定视觉单词i和j同时出现在类别C中,那么包含这两个视觉单词的DVP候选词可以表示为
CVPCandidate ( C ) [ i , j , T i , j ( C ) ]
表示在图像类别C中视觉单词i和j共现的平均频率,反映了该类别中视觉单词之间空间关系的强弱。
接下来进行DVP的选择。根据信息检索中的TF-IDF权重理论,如果一个候选词在类别C中出现的次数多而在其它类别却很少,那么该词对于类别C来说更具重要性。基于此,DVP候选词K相对于类别C的重要性的大小可由下式计算得到
I K ( C ) = f K ( C ) / ln ( F K ) - - - ( 4 )
和FK分别代表DVP候选词K在类别C和所有类别中出现的频率。假定整个图像库有M个图像类别,视觉单词i和视觉单词j包含在DVP候选词K中,那么和FK可以由下式计算而得:
f K ( C ) = T i , j ( C ) , F K = Σ m = 1 M T i , j ( m ) / M - - - ( 5 )
当计算出C中每个DVP候选词的之后,对其按照大小进行排序,选出类别C的DVP集合。用这个方法,从而得到所有类别中是DVP集合。
最后将所有的DVW和DVP集中在一起,也就得到了最终的描述性视觉词包。
2.标签排序
首先给出图像标签相关性排序中的准则。
准则1:图像库中标签与图像相关的概率大于标签与图像不相关的概率,即
Pright(I,t)>Pwrong(I,t) (6)
Pright(I,t)和Pwrong(I,t)分别表示标签与图像相关的概率和标签与图像不相关的概率。
准则2:为保证投票的客观性,每个用户在每轮投票中至多有一幅图像出现在近邻图像集中。
N(I/Ui)<=1 (7)
式中N(I/Ui)表示用户Ui出现在近邻图像集合中的图像数目。
本发明根据视觉词包对图像进行语义分析,得到每幅图像的视觉单词直方图。首先根据关键图的视觉单词直方图寻找图像的k近邻图像集。然后根据公式(8)计算关键图中每个标签的相关度得分。
S(t,I)=V(t,I)-Prior(t,k) (8)
其中,S(t,I)为关键图I中标签t的相关度得分,V(t,I)表示关键图I的k幅近邻图像对标签t的投票统计结果,Prior(t,k)表示在k幅图像中标签t的先验概率得分。也就是说,标签t的相关性由近邻图像的投票结果减去标签t在近邻图像集中的先验概率得到。其中,先验概率Prior(t,k)可由下式得到。
Prior ( t , k ) = k M t N - - - ( 9 )
其中k是关键图的近邻图像个数,Mt表示包含标签t的图像数目,N表示整个图像库中的图像数目。
在得到给定图像中每个标签的相关性以后,按相关性由高到低的顺序,将关键图的标签列表重新排序,如公式(10)
Rank(S(t1,I),S(t2,I),…,S(tm,I)) (10)
式中S(tm,I)表示关键图I的第m个标签的相关度得分。
至此,完成基于压缩域的社会图像标签排序。

Claims (4)

1.基于压缩域的社会图像标签排序方法,其特征在于包括:
压缩域描述性词包构建
1)重建低分辨率图像
对8×8的图像块构建出原图像分辨率的1/2×1/2版本的图像;
2)提取SIFT描述算子
3)生成视觉单词
从图像中提取SIFT特征数据库,采用k均值聚类方法进行聚类分析,并选取每类中心作为视觉单词,构建视觉单词库;
4)构建描述性视觉词包
提出了描述性视觉词包建立方案,包括描述性视觉单词DVW和描述性视觉单词对DVP;DVW指能够高效描述某类目标或者场景的特定视觉单词,DVP指在某类别的图像中经常出现的视觉单词对;
针对DVW,依据网页排序的原理提出一种视觉单词排序算法,挑选出各个图像类别中具有描述性的视觉单词,也即得到DVW;针对DVP,首先通过检测一定的空间距离内经常成对出现的视觉单词得到DVP候选词,然后计算每个DVP候选词的重要性并进行排序,从中挑选出各类别中具有描述性的候选词对,得到DVP;最后将DVW和DVP集中起来,形成最终的描述性视觉词包;
还包括标签排序:
在描述性视觉词包基础上,进行相似性匹配得到查询图像的k近邻图像子集;引入近邻投票模型进行标签排序,通过近邻图像的标签对关键图的标签进行投票,进行投票统计,也即计算标签的相关度得分,按照最终的相关度得分对标签排序,得到图像新的标签列表;
具体说来,给定图像I和相应的标签列表T={t1,t2,…,tn},首先,根据图像的低层特征寻找图像I的k近邻图像集;然后,统计标签列表T={t1,t2,…,tn}中各标签在图像I的k近邻图像集中的出现次数,计算相关度得分;最后,依据各标签的相关度得分将标签进行降序排列,得到最终的排序结果。
2.根据权利要求1所述的基于压缩域的社会图像标签排序方法,其特征在于:
生成视觉单词具体为:
对图像库中的每类图像进行SIFT特征的提取;假定该类图像共N幅,首先检测每幅图像的关键点,得到每幅图像各个关键点的描述算子,即128维的SIFT特征向量;然后将所有图像的所有关键点的描述算子集中起来,采用K均值聚类方法进行聚类分析,选取每个聚类中心作为视觉单词,也就得到了该类别N幅图像的视觉单词库。
3.根据权利要求1所述的基于压缩域的社会图像标签排序方法,其特征在于:
描述性视觉词包生成具体包括:
1.4.1DVW生成
DVW指能够高效描述某类目标或者场景的特定视觉单词;
在类别C中建立一个维的矩阵R(C)代表类别C中视觉单词的个数,矩阵R(C)对角元素定义为
R i , i C = f i C / ln ( F i ) - - - ( 2 )
i表示DVW的一个候选词,Fi和fi C分别为i在所有类别中的平均频率和类别C中的频率,代表候选词i在类别C中自身的重要性的大小;
非对角元素用视觉单词i和j共现的频率来表示:
R i , j C = T i , j C - - - ( 3 )
在此矩阵的基础上,参照网页排序的原理进行循环迭代,直到最终结果保持稳定,选择前N个视觉单词即得到类别C的DVW集合;
1.4.2DVP的生成
DVP指在某类别的图像中经常出现的视觉单词对;针对DVP,首先通过检测一定的空间距离内经常出现的视觉单词对得到DVP候选词,然后计算每个DVP候选词的重要性并进行排序,从中挑选出各类别中具有描述性的候选词对,得到DVP;
首先是DVP候选词的生成;依据两个视觉单词共现这一条件,将某一类别的DVP候选词定义为该类别中共现的传统视觉单词对;假定视觉单词i和j同时出现在类别C中,那么包含这两个视觉单词的DVP候选词表示为
CVPCandidate ( C ) [ i , j , T i , j ( C ) ]
表示在图像类别C中视觉单词i和j共现的平均频率,反映了该类别中视觉单词之间空间关系的强弱;
接下来进行DVP的选择;根据信息检索中的TF-IDF权重理论,如果一个候选词在类别C中出现的次数多而在其它类别却很少,那么该词对于类别C来说更具重要性;基于此,DVP候选词K相对于类别C的重要性的大小由下式计算得到
I K ( C ) = f K ( C ) / ln ( F K ) - - - ( 4 )
和FK分别代表DVP候选词K在类别C和所有类别中出现的频率;假定整个图像库有M个图像类别,视觉单词i和视觉单词j包含在DVP候选词K中,那么和FK由下式计算而得:
f K ( C ) = T i , j ( C ) , F K = &Sigma; m = 1 M T i , j ( m ) / M - - - ( 5 )
当计算出C中每个DVP候选词的之后,对其按照大小进行排序,选出类别C的DVP集合;用这个方法,从而得到所有类别中是DVP集合;
最后将所有的DVW和DVP集中在一起,也就得到了最终的描述性视觉词包。
4.根据权利要求1所述的基于压缩域的社会图像标签排序方法,其特征在于:
标签排序具体包括:
首先给出图像标签相关性排序中的准则;
准则1:图像库中标签与图像相关的概率大于标签与图像不相关的概率,即
Pright(I,t)>Pwrong(I,t) (6)
Pright(I,t)和Pwrong(I,t)分别表示标签与图像相关的概率和标签与图像不相关的概率;
准则2:为保证投票的客观性,每个用户在每轮投票中至多有一幅图像出现在近邻图像集中;
N(I/Ui)<=1 (7)
式中N(I/Ui)表示用户Ui出现在近邻图像集合中的图像数目;
根据视觉词包对图像进行语义分析,得到每幅图像的视觉单词直方图;首先根据关键图的视觉单词直方图寻找图像的k近邻图像集;然后根据公式(8)计算关键图中每个标签的相关度得分;
S(t,I)=V(t,I)-Prior(t,k) (8)
其中,S(t,I)为关键图I中标签t的相关度得分,V(t,I)表示关键图I的k幅近邻图像对标签t的投票统计结果,Prior(t,k)表示在k幅图像中标签t的先验概率得分;也就是说,标签t的相关性由近邻图像的投票结果减去标签t在近邻图像集中的先验概率得到;其中,先验概率Prior(t,k)可由下式得到;
Prior ( t , k ) = k M t N - - - ( 9 )
其中k是关键图的近邻图像个数,Mt表示包含标签t的图像数目,N表示整个图像库中的图像数目;
在得到给定图像中每个标签的相关性以后,按相关性由高到低的顺序,将关键图的标签列表重新排序,如公式(10)
Rank(S(t1,I),S(t2,I),…,S(tm,I)) (10)
式中S(tm,I)表示关键图I的第m个标签的相关度得分;
至此,完成基于压缩域的社会图像标签排序。
CN201410146890.7A 2014-04-12 2014-04-12 基于压缩域的社会图像标签排序方法 Pending CN103970838A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410146890.7A CN103970838A (zh) 2014-04-12 2014-04-12 基于压缩域的社会图像标签排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410146890.7A CN103970838A (zh) 2014-04-12 2014-04-12 基于压缩域的社会图像标签排序方法

Publications (1)

Publication Number Publication Date
CN103970838A true CN103970838A (zh) 2014-08-06

Family

ID=51240335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410146890.7A Pending CN103970838A (zh) 2014-04-12 2014-04-12 基于压缩域的社会图像标签排序方法

Country Status (1)

Country Link
CN (1) CN103970838A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599051A (zh) * 2016-11-15 2017-04-26 北京航空航天大学 一种基于生成图像标注库的图像自动标注的方法
CN110083850A (zh) * 2018-01-26 2019-08-02 上海交通大学 智能变电站虚端子自动匹配方法
WO2022148372A1 (zh) * 2021-01-05 2022-07-14 瞬联软件科技(南京)有限公司 基于图像特征空间和空域空间的视觉词组构建方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750385A (zh) * 2012-06-29 2012-10-24 南京邮电大学 基于标签检索的相关性—质量排序图像检索方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750385A (zh) * 2012-06-29 2012-10-24 南京邮电大学 基于标签检索的相关性—质量排序图像检索方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
SHILIANG ZHANG 等: ""Generating Descriptive Visual Words and Visual Phrases for Large-Scale Image Applications"", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 *
XIRONG LI: ""Learning Social Tag Relevance by Neighbor Voting"", 《IEEE TRANSACTIONS ON MULTIMEDIA》 *
李旻先 等: ""基于视觉显著性近邻投票的标签排序方法"", 《南京理工大学学报》 *
赵悦 等: ""结合空间语义信息的图像表示方法"", 《计算机科学与探索》 *
赵日朋: ""海量图像标签自动排序算法的研究与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599051A (zh) * 2016-11-15 2017-04-26 北京航空航天大学 一种基于生成图像标注库的图像自动标注的方法
CN106599051B (zh) * 2016-11-15 2020-02-07 北京航空航天大学 一种基于生成图像标注库的图像自动标注的方法
CN110083850A (zh) * 2018-01-26 2019-08-02 上海交通大学 智能变电站虚端子自动匹配方法
WO2022148372A1 (zh) * 2021-01-05 2022-07-14 瞬联软件科技(南京)有限公司 基于图像特征空间和空域空间的视觉词组构建方法和装置

Similar Documents

Publication Publication Date Title
Chaudhuri et al. Multilabel remote sensing image retrieval using a semisupervised graph-theoretic method
Yu et al. Click prediction for web image reranking using multimodal sparse coding
ElAlami A novel image retrieval model based on the most relevant features
CN106649490B (zh) 一种基于深度特征的图像检索方法及装置
CN101430695B (zh) 用于计算单词之间的差相关度的系统和方法
CN110059198A (zh) 一种基于相似性保持的跨模态数据的离散哈希检索方法
CN110674407A (zh) 基于图卷积神经网络的混合推荐方法
Xia et al. Exploiting deep features for remote sensing image retrieval: A systematic investigation
Yang et al. An improved Bag-of-Words framework for remote sensing image retrieval in large-scale image databases
CN103473307B (zh) 跨媒体稀疏哈希索引方法
Lee et al. MAP-based image tag recommendation using a visual folksonomy
CN111182364B (zh) 一种短视频版权检测方法及系统
CN105849720A (zh) 视觉语义复合网络以及用于形成该网络的方法
CN107229710A (zh) 一种基于局部特征描述符的视频分析方法
CN102542066A (zh) 视频聚类方法、排序方法和视频搜索方法以及相应装置
Bao et al. Efficient region-aware large graph construction towards scalable multi-label propagation
Zhu et al. Two-stream transformer for multi-label image classification
CN103970838A (zh) 基于压缩域的社会图像标签排序方法
Yu et al. Text-image matching for cross-modal remote sensing image retrieval via graph neural network
CN102243631A (zh) 超关键字分布式搜索方法
CN104331717A (zh) 一种整合特征字典结构与视觉特征编码的图像分类方法
CN109857886A (zh) 一种基于极小极大值博弈理论视图逼近的三维模型检索方法
Liu et al. Creating descriptive visual words for tag ranking of compressed social image
Lu et al. Automatic image annotation based-on model space
Adly et al. Development of an Effective Bootleg Videos Retrieval System as a Part of Content-Based Video Search Engine

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140806