CN103778227B - 从检索图像中筛选有用图像的方法 - Google Patents

从检索图像中筛选有用图像的方法 Download PDF

Info

Publication number
CN103778227B
CN103778227B CN201410032416.1A CN201410032416A CN103778227B CN 103778227 B CN103778227 B CN 103778227B CN 201410032416 A CN201410032416 A CN 201410032416A CN 103778227 B CN103778227 B CN 103778227B
Authority
CN
China
Prior art keywords
image
word
semantic
vision
width
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410032416.1A
Other languages
English (en)
Other versions
CN103778227A (zh
Inventor
邓成
王东旭
杨延华
王嘉龙
李洁
高新波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201410032416.1A priority Critical patent/CN103778227B/zh
Publication of CN103778227A publication Critical patent/CN103778227A/zh
Application granted granted Critical
Publication of CN103778227B publication Critical patent/CN103778227B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour

Abstract

本发明公开了一种从检索图像中筛选有用图像的方法,主要用于解决当前图像检索排序结果准确率低的问题。其主要实现步骤为:(1)提取数据库图像视觉词袋特征和语义属性特征;(2)离线训练学习视觉词袋特征和语义属性的映射字典;(3)根据用户给出待搜索图像,检索得到初始图像排序列表;(4)根据用户给出待搜索图像,分析视觉单词语义重要性;(5)根据用户给出待搜索图像,分析视觉单词上下文重要性;(6)结合视觉单词的语义和上下文重要性,重新计算待排序图像相关性分数,完成对初始结果的重新排序,以供用户筛选出有用的相关图像。本发明明显提高最终图像检索的准确率,可用于图像检索。

Description

从检索图像中筛选有用图像的方法
技术领域
本发明属于信息检索技术领域,具体的说是一种从检索图像中筛选有用图像的方法,该方法可用于改善互联网上图像检索结果的准确率。
背景技术
随着互联网技术的快速发展,Flicker,人人网,Facebook,新浪微博等基于web2.0环境的社交媒体日益兴起,这就使得图像、视频等海量多媒体数据的共享成为可能。现在互联网上每时每刻,都有大量的图像、视频上传。与此同时,人们越来越习惯在互联网上进行图像、文字等各种信息的搜索查询。在此背景下,如何实现符合用户搜索意图的高效图像搜索就变得非常重要。当前互联网背景下,诸如Google、Baidu、Bing等商用搜索引擎都在致力于开发更加智能的能符合用户搜索意图的图像搜索系统。传统的图像搜索主要以用户输入的文本关键字作为查询,搜索引擎根据离线建好的语料库对用户输入的关键字进行扩展,构建用户查询的文本特征,搜索时,主要根据图像所在网页中的标签文字,例如图像文件名,图像标注标签,网页URL等,构建图像的文本特征,根据用户的查询文本特征和图像的文本特征计算相似度,以此返回给用户图像搜索的结果。由于当前互联网基于文本的搜索技术已经相当成熟,基于文本特征的图像搜索可以很方便实现,然而,问题在于图像周围的文字标签很可能和图像的视觉内容并不相一致。另一方面,随着当前互联网不断地往社交性、商业性上发展,近些年,直接以图像作为查询的以图搜图系统得到很多用户的青睐。当前的直接以图像作为查询的搜索技术主要利用图像的底层视觉特征来进行相似性的计算,然而,由于图像的低层视觉特征和高层的语义概念之间存在语义鸿沟,低层视觉特征相似的图像并不一定意味着图像之间拥有着相似的语义内容。这样,无论以文本作为查询还是直接以图像作为查询,搜索引擎对于图像的直接搜索结果常常很难令人满意。
在此背景下,结合图像内容对初始搜索结果重新排序就成为了一项非常重要的工作。随着图像搜索技术的不断发展,目前已经提出了很多图像重排序方法。经典的方法包括聚类,分类等技术,将图像的排序问题转变成经典的半监督学习问题,以实现噪音图像的过滤。基于机器学习的方法根据初始的搜索结果去自主的学习用户的搜索意图,以此来改善最终图像搜索的结果。结合当前图像重排序技术,当前的图像搜索结果性能已经得到相当大程度的提高。然而,传统的经典图像重排序技术往往没有考虑图像的语义内容信息。图像语义鸿沟的问题还是没有很好的得到解决。目前的研究趋势正是如何结合图像的语义内容信息,针对图像的语义鸿沟问题研究算法以实现更高性能的图像重排序。
尽管现今基于多特征融合的图像重排序方法可以在一定程度上改善图像搜索排序结果的准确率,但是本质的问题依然存在。一方面,基于伪相关反馈策略选择的标注样例不一定总是正确的。另一方面,在图像的视觉一致性上,挖掘每一个标注样本的每一个视觉元素并不能很好地反映用户的查询目的。这些问题将详述如下:
基于伪相关反馈策略,一个基本的假设是初始排在最前面的样本往往是和查询相关的,因此可以被作为学习排序函数的正样例。然而,实际中一些与查询无关的图像也会在初始排序结果中排在靠前的位置,从而影响挑选的正样本的纯度。另一方面,不止要求用户标注正样本不仅效率低下,而且在实际系统中令人无法接受。即使排在初始结果前面的样本可以被准确的标记,实际中也无法保证可以获得足够多数量的正样本。因此,有选择的对待噪音样本方法就很有必要。比如文献W.Liu,Y.Jiang,J.Luo,andS.-F.Chang,“Noise resistant graph ranking for improved web image search,”in Proc.IEEEInt.Conf.Comput.Vis.Pattern Recognit.,2011,pp.849–856.利用一些排在初始结果前面的图像做为伪标记样本,进一步通过正则化图拉普拉斯算子选择一部分特征基来过滤噪声样本。
视觉一致性方面,在传统定义下,彼此相似的图像应该被排列在最终排序结果前面的位置。这一策略的缺陷在于如果两幅图像缺乏足够的相似性,判断两幅图像是否和查询相关就会变的相当困难。另一方面,纯粹图像级别的监督算法并不能很好的捕获标注样本的语义信息,很多情况下,用户很难通过文本关键字描述其查询意图的语义内容。
发明内容
本发明的目的在于提出一种从检索图像中筛选有用图像的方法,以解决现有排序过程中噪音样本影响排序准确度的问题,以及因缺乏视觉上的一致性而造成无法关联两幅图像的问题,提高初排序中正样本的纯净度,增强图像之间的查询相关性,更准确地获取符合用户意图的图像。
实现本发明目的技术方案是:采用用户查询图像之间的相关性的方法来编码图像间的相似性,利用图像的底层视觉特征和高层语义属性的联合,最终通过重排序能够更精确的获取对用户有用的图像,具体步骤包括如下:
(1)根据视觉词袋词频特征BOW和语义属性的概率分布生成视觉语义字典:
(1a)对数据库中的初始搜索结果图像分别提取8192维视觉词袋词频特征;
(1b)通过离线训练学习,针对2659种基本语义属性,分别训练2659种语义属性的分类器,在做图像搜索时,对每幅图像用这2659种分类器做预测,将每一幅图像对应于2659维特征得到的预测分数向量作为图像的属性特征,每一维对应一种特定的语义属性;
(1c)用映射函数sigmoid将训练图像的语义属性特征映射到0-1范围,视作语义概率分布,把数据库中所用图像的集合用T={1,2,...i...n}表示,n表示数据库中图片的数量大小,i表示数据库中的任意一幅图片,分别提取第i幅图像的视觉词袋词频特征Vi和语义属性的概率分布Ai
Vi={p(i)(v1),p(i)(v2),...p(i)(vj),...p(i)(vk)},
Ai={p(i)(a1),p(i)(a2),...p(i)(aj)....p(i)(an)}
其中,vj代表一个视觉单词,p(i)(vj)为第i幅图像在vj这个视觉单词的概率分布值,k表示视觉词袋词频特征的维数,aj代表一种语义属性,p(i)(aj)为第i幅图像在aj这个语义属性的概率分布值,n表示语义属性的维数;
(1d)用BOW的概率分布和语义属性的概率分布生成视觉语义映射字典D;
(2)初始图像检索排序:
(2a)根据视觉词袋词频特征Vi,利用下式计算两幅图像之间的相似性距离F(t):
F ( t ) = sim ( i , j ) = Σp ( v k | i ) * p ( v k | j ) | | X i | | 2 * | | X j | | 2
其中,i和j分别为数据库中的两幅图像,p(vk|i)是第i幅图像对应的视觉单词中vk出现的词频,p(vk|j)是第j幅图像对应的视觉单词中vk出现的词频,||Xi||2是第i幅图像的BOW特征的2范数,||Xj||2是第j幅图像的BOW特征的2范数;
(2b)利用步骤(2a)计算数据库中所有图像与查询图像之间的相似性距离,并按照相似性距离从小到大的顺序对所有图像进行排序,得到所有图像的初始排序结果;
(3)根据初始排序结果进行相关性计算:
(3a)查询图像的语义近邻图构成查询扩展集合,对扩展集合里所有图像的语义属性概率分布求平均,得到查询相关能反映用户搜索意图的语义属性概率分布Qavg
Q avg = 1 num Σ i = 1 num f ( A i )
其中,num是查询扩展集合中图像的个数,Ai是第i副图像的语义属性特征的概率分布,f是对应的sigmoid映射函数;
(3b)根据视觉语义映射字典D和语义属性概率分布Qavg,计算视觉单词的查询相关语义权重w1
w1=D×Qavg
(3c)将视觉单词之间的上下文关系表示为如下矩阵:
A = a 11 . . . a 1 n . . . . a 1 M . . . a m 1 . . . a mn . . . . a mM . . . . a M 1 . . . a Mm . . . . a MM
其中,i表示数据库中的一幅图像,U表示初始搜索结果的前U幅图,vm,vn为视觉词袋词汇中的两个单词,p(vm|i)是第i幅图像对应的视觉单词中vi出现的词频,p(i|vn)表示单词是vi的情况下对应第i幅图的概率;
(3d)根据上下文关系矩阵A,按照公式w2 t+1=(1-α)P+αATw2 t进行多次迭代,w2 t代表第t次迭代得到视觉单词上下文权重向量,当两次迭代结果w2 t+1与w2 t之间的差值小于0.001时,迭代停止,此时,得到最终的所有视觉单词的上下文重要性的权重向量表示为w2,α是在0-1之间的一个参数,P=(1/k,......1/k),k为视觉词袋特征的维数,AT为上下文关系矩阵A的转置。
(3e)根据查询相关语义权重w1和上下文重要性权重w2,计算视觉单词权重向量R:
R=βw1+(1-β)w2
(4)根据视觉单词权重R,重新计算数据库中每一幅图像的排序分数F(s):
F ( s ) = Σp ( v k | i ) * p ( v k | j ) * e R s | | X i | | 2 * | | X j | | 2
其中,其中,i和j分别为数据库中的两幅图像,p(vk|i)是第i幅图像对应的视觉单词中vk出现的词频,p(vk|j)是第j幅图像对应的视觉单词中vk出现的词频,||Xi||2是第i幅图像的BOW特征的2范数,||Xj||2是第j幅图像的BOW特征的2范数,Rs为视觉单词权重向量中第s个词汇的权重,Rs为视觉单词权重向量中第s个词汇的权重。
(5)根据得到的每幅图像的排序分数,按照排序分数从大到小的顺序,对数据库中每幅图像做重新排序,用户根据排序分数越大,与查询图像越相关的属性,更准确的筛选出所需要的图像。
本发明的主要创新点有以下几点:
1)本发明结合了低层视觉特征和高层语义属性之间关系,减小了特征匹配中的语义鸿沟问题。
2)本发明利用挖掘初始检索结果中查询图像的语义互近邻,对查询图像做扩展,弥补了伪相关反馈中负样本的问题,有效提高了查询扩展集合的纯度。
3)本发明通过图像初始的搜索结果,挖掘用户的搜索意图,分别从视觉语义映射关系和视觉单词上下文关系角度去对用户搜索的查询相关性进行分析,提出了一种结合用户查询图像特点自适应的图像重排序方法,使得用户能够更准确地找到相关的图像。
附图说明
图1是本发明的实现步骤示意图。
具体实施方式
参照图1,本发明的实现步骤如下:
一.根据视觉词袋词频特征BOW的概率分布和语义属性的概率分布生成视觉语义字典。
步骤1:对数据库中的初始搜索结果图像分别提取8192维视觉词袋词频特征。
步骤2:通过离线训练学习,针对2659种基本语义属性,分别训练2659种语义属性的分类器,在做图像搜索时,对每幅图像用这2659种分类器做预测,将每一幅图像对应于2659维特征得到的预测分数向量作为图像的属性特征,每一维对应一种特定的语义属性。
步骤3:用映射函数sigmoid将训练图像的语义属性特征映射到0-1范围,视作语义概率分布,把数据库中所用图像的集合用T={1,2,...i...n}表示,n表示数据库中图片的数量大小,分别提取第i幅图像的视觉词袋词频特征Vi和语义属性的概率分布Ai
Vi={p(i)(v1),p(i)(v2),...p(i)(vj),...p(i)(vk)},
Ai={p(i)(a1),p(i)(a2),...p(i)(aj)....p(i)(an)}
其中,vj代表一个视觉单词,p(i)(vj)为第i幅图像在vj这个视觉单词的概率分布值,k表示视觉词袋词频特征的维数,aj代表一种语义属性,p(i)(aj)为第i幅图像在aj这个语义属性的概率分布值,n表示语义属性的维数。
步骤4:用BOW的概率分布和语义属性的概率分布生成视觉语义映射字典。
4.1)用每一个视觉单字和每一种语义属性的关联性来表示映射值,根据每一幅图像的词袋词频概率特征矩阵B和每一幅图像的语义属性概率分布A,构建语义映射字典D的目标函数为:
min D 1 2 | | B d × k - D d × n A n × k | | 2
s . t Σ i D i , j 2 ≤ 1 , ∀ 1,2 , . . . . . . . . n .
其中,||B-DA||2为B-DA的2范数。,d表示BOW特征的维数,k表示数据库中图像的个数,n表示语义属性的维数。
在字典学习中,一副图像中一个视觉单词出现的概率可以近似由这副图像每一个语义属性出现概率的线性组合来近似表示。视觉语义映射字典就是一组基,而语义属性概率分布则是对应基下的坐标。这样字典重构问题就是已知坐标,求解对应基的问题;
4.2)通过拉格朗日对偶的方法对上述目标函数进行优化,求解视觉语义映射字典D:
4.2a)引入拉格朗日约束:
L ( D , λ → ) = trace ( ( B - DA ) T ( B - DA ) ) + Σ j = 1 n λ j ( Σ i = 1 d D i , j 2 - 1 ) ,
其中,λj≥0是一个对偶变量,此式的目的是寻求使目标函数最小化的D;
4.2b)用如下公式表示拉格朗日对偶算子:
F ( λ ) = min D L ( D , λ → ) = trace ( B T B - BA T ( AA T + Λ ) - 1 ( BA T ) T - Λ ) ,
其中AT为语义属性的概率分布A的转置矩阵,λ为拉格朗日对偶方法的优化算子,(AAT+Λ)-1为(AAT+Λ)的逆矩阵,(BATT为BAT的转置矩阵;
4.2c)计算F(λ)的梯度和HessianH矩阵每一个元素
∂ F ( λ → ) ∂ λ i = | | BA T ( AA T + Λ ) - 1 e i | | 2 - 1
∂ 2 F ( λ → ) ∂ λ i λ j = - 2 ( ( AA T + Λ ) - 1 ( BA T ) T BA T ( AA T + Λ ) - 1 ) i , j ( AA T + Λ ) ) - 1 ) i , j
其中,ei∈Rn是第i个单位向量,代表Hessian矩阵第(i,j)个元素;
4.2d)根据上一步骤得到的F(λ)的梯度和Hessian矩阵,采用经典的牛顿共轭梯度法计算最优拉格朗日参数λ的值,并将计算结果带回到拉格朗日约束中,用经典梯度下降的方法得到最优的视觉映射字典D:
D=(DT)T
DT=(AAT+Λ)-1(BATT
其中,AT为语义属性的概率分布A的转置矩阵,DT为视觉语义映射字典D的转置,(DT)T为DT的转置,(AAT+Λ)-1为(AAT+Λ)的逆矩阵,(BATT为BAT的转置矩阵。
二.初始图像检索排序
步骤5:在线搜索阶段,用户给出待搜索的查询图像,提取查询图像的视觉词袋特征。
步骤6:提取数据库中每幅待排序图像的视觉词袋特征,计算每幅待排序图像的初始排序分数F(t):
F ( t ) = sim ( i , j ) = Σ k p ( v k | i ) * p ( v k | j ) | | X i | | 2 * | | X j | | 2 ,
其中,i和j分别代表数据库中的两幅不同图像,p(vk|i)是第i幅图像对应的视觉单词中vk出现的词频,p(vk|j)是第j幅图像对应的视觉单词中vk出现的词频,||Xi||2是第i幅图像的视觉词袋特征的2范数,||Xj||2是第j幅图像的视觉词袋特征的2范数。
步骤7,将得到的每幅待搜索排序图像的初始排序分数从大到小排序,得到初始的检索排序列表。
三.视觉单词相关性分析
步骤8:视觉单词语义相关性分析
8.1)查找用户给出的待搜索图像的互近邻图像集合,将其构成待搜索图像的扩展集合:
8.1a)将初始的检索排序列表的前m张图像作为目标集,将目标集中的每幅图像做为查询在目标集里做搜索,将每次搜索结果的前k幅结果作为对应图像的k近邻集合;
8.1b)查找待搜索图像的互近邻图像集合G,对R中每幅图像i∈G,需要满足以下条件:
q∈Nk(i)
i∈Nk(q)
此处,q代表用户给出的待搜索图像,Nk(i)表示目标集中每一幅图像i所有k近邻图像构成的集合,Nk(q)代表用户给出的待搜索图像所有k近邻图像构成的集合;
8.2)计算能反映用户搜索意图的语义属性概率分布Qavg
Q avg = 1 num Σ i = 1 num f ( A i )
其中,num是待搜索图像的扩展集合中图像的个数,Ai是第i副图像的语义属性特征,为对应的sigmoid映射函数,f(Ai)是映射后的第i副图像的语义属性概率分布;
8.3)根据离线学习得到的视觉语义映射字典Dd×n和能反映用户搜索意图的语义属性概率分布Qavg,计算视觉单词的语义相关性权重:
w 1 = D d × n × Q avg n × 1 .
步骤9:对视觉单词进行上下文相关性分析,即将视觉单词之间的上下文关系表示为如下矩阵:
A = a 11 . . . a 1 n . . . . a 1 M . . . a m 1 . . . a mn . . . . a mM . . . . a M 1 . . . a Mm . . . . a MM ,
其中,代表视觉单词vm和vn的上下文关系,i表示数据库中第i幅图像图像,U表示初始搜索结果的前U幅图,p(vm|i)是第i幅图像对应的视觉单词中vi出现的词频,p(i||vn)表示单词是vi情况下对应的第i幅图概率。
步骤10:根据上下文关系矩阵A,按照公式w2 t+1=(1-α)P+αATw2 t进行多次迭代,w2 t代表第t次迭代得到视觉单词上下文权重向量,当两次迭代结果w2 t+1与w2 t之间的差值小于0.001时,迭代停止,此时,得到最终的所有视觉单词的上下文重要性的权重向量表示为w2,α是在0-1之间的一个参数,本发明中取值为0.85,P=(1/k,......1/k),代表每个视觉单词初始重要性,k为视觉词袋特征的维数,AT为上下文关系矩阵A的转置。
步骤11:根据视觉单词语义相关性权重向量w1和上下文权重向量w2,计算视觉单词最终的权重向量R:
R=βw1+(1-β)w2
β代表融合系数,本发明中取值为0.3。
四.图像重排序:
步骤12:根据视觉单词权重向量R,重新计算数据库中每幅待排序图像的相关性分数:
F ( s ) = Σ k p ( v k | i ) * p ( v k | j ) * e R s | | X i | | 2 * | | X j | | 2 ,
其中,i和j分别为数据库中的两幅不同图像,p(vk|i)是第i幅图像对应的视觉单词中vk出现的词频,p(vk|j)是第j幅图像对应的视觉单词中vk出现的词频,||Xi||2是第i幅图像的视觉词袋特征的2范数,||Xj||2是第j幅图像的视觉词袋特征的2范数,Rs为视觉单词权重向量中第s个词汇的权重。
步骤13:根据得到的每幅待排序图像的排序分数,按照排序分数从大到小的顺序,对数据库中每幅待排序图像做重新排序,用户根据排序分数越大,与查询图像越相关的属性,更准确的筛选出所需要的图像。
本发明的优点可通过以下仿真实验进一步说明。
本发明在Intral Holiday、Oxford 5k、Paris 3个公用图像检索数据库上进行实验,并依据客观评估平均查全率MAP做为搜索排序结果准确率的指标:
MAP = 1 k Σ k AP k
AP k = 1 num Σ i recall ( i ) * pre ( i ) ,
式中,APk代表第k检索排序的准确率,pre(i)是得到排序列表中前i副图像中相关图像所占的比例。recall(i)是到排序列表中前I副图像中相关图像占搜索结果中所有图像中相关图像个数的比例。
MAP代表所有检索排序列表APk的平均值,MAP值越高,说明图像检索排序结果中的相关图像的个数越多,同时排名越靠前,检索排序的结果越好。
实验分别采用本发明方法和现有的视觉随机游走和伪相关性反馈的方法两种图像检索排序方法分别在三个数据库上做50次检索,总共用到的待检索图像有150张,对待检索图像中的每一幅。
分别对所有数据库中待排序的图像进行相关性排序,计算每一个数据库上所有50次检索排序列表中前200副图像的平均查全率MAP,得到对比结果如表1:
表1 不同数据库排序平均查准率比较
数据集 Holiday Oxford 5k Paris
本发明方法 0.843 0.536 0.7092
视觉随机游走 0.8247 0.5263 0.6544
伪相关性反馈 0.8143 0.5079 0.6393
从表1可以看出,本发明方法对图像检索排序的结果优于现有方法,其原因如下:
1)本发明考虑了图像的语义属性信息,计算相关性分数考虑了每一个视觉单词的语义重要性;
2)本发明从统计角度考虑了视觉单词之间的上下文关系,计算相关性分数是考虑了每一个视觉单词的上下文重要性。
综上,本发明提高了最终图像检索排序结果的准确率。

Claims (2)

1.一种从检索图像中筛选有用图像的方法,包括如下步骤:
(1)根据视觉词袋词频特征BOW和语义属性的概率分布生成视觉语义映射字典:
(1a)对数据库中的初始搜索结果图像分别提取8192维视觉词袋词频特征;
(1b)通过离线训练学习,针对2659种基本语义属性,分别训练2659种基本语义属性的分类器,在做图像搜索时,对每幅图像用这2659种分类器做预测,将每一幅图像对应于2659维特征得到的预测分数向量作为图像的属性特征,每一维对应一种特定的语义属性;
(1c)用映射函数sigmoid将训练图像的语义属性特征映射到0-1范围,视作语义概率分布,把数据库中所有图像的集合用T={1,2,...i...h}表示,h表示数据库中图片的数量大小,i表示数据库中的任意一幅图片,分别提取第i幅图像的视觉词袋词频特征Vi和语义属性的概率分布Ai
Vi={p(i)(v1),p(i)(v2),...p(i)(vj),...p(i)(vk)},
Ai={p(i)(a1),p(i)(a2),...p(i)(aj)....p(i)(an)}
其中,vj代表一个视觉单词,p(i)(vj)为第i幅图像在vj这个视觉单词的概率分布值,k表示视觉词袋词频特征的维数,aj代表一种语义属性,p(i)(aj)为第i幅图像在aj这个语义属性的概率分布值,n表示语义属性的维数;
(1d)用BOW的概率分布和语义属性的概率分布生成视觉语义映射字典D;
(2)初始图像检索排序:
(2a)根据视觉词袋词频特征Vi,利用下式计算两幅图像之间的相似性距离F(t):
F ( t ) = s i m ( i , j ) = Σ p ( v k | i ) * p ( v k | j ) | | X i | | 2 * | | X j | | 2
其中,i和j分别为数据库中的两幅图像,p(vk|i)是第i幅图像对应的视觉单词中vk出现的词频,p(vk|j)是第j幅图像对应的视觉单词中vk出现的词频,||Xi||2是第i幅图像的视觉词袋特征的2范数,||Xj||2是第j幅图像的视觉词袋特征的2范数;
(2b)利用步骤(2a)计算数据库中所有图像与查询图像之间的相似性距离,并按照相似性距离从小到大的顺序对所有图像进行排序,得到所有图像的初始排序结果;
(3)根据初始排序结果进行相关性计算:
(3a)查询图像的语义近邻图构成查询扩展集合,对扩展集合里所有图像的语义属性概率分布求平均,得到查询相关能反映用户搜索意图的语义属性概率分布Qavg
Q a v g = 1 n u m Σ i = 1 n u m f ( A i )
其中,num是查询扩展集合中图像的个数,Ai是第i幅图像的语义属性特征的概率分布,f是对应的sigmoid映射函数;
(3b)根据视觉语义映射字典D和查询相关能反映用户搜索意图的语义属性概率分布Qavg,计算视觉单词的查询相关语义权重w1
w1=D×Qavg
(3c)将视觉单词之间的上下文关系表示为如下矩阵:
A ′ = a 11 ... a 1 n .... a 1 M ... a m 1 ... a m n .... a m M .... a M 1 ... a M m .... a M M
其中,i表示数据库中的一幅图像,U表示初始搜索结果的前U幅图,vm,vn为视觉词袋词汇中的两个单词,p(vm|i)是第i幅图像对应的视觉单词中vm出现的词频,p(i|vn)表示单词是vn的情况下对应第i幅图的概率;
(3d)根据上下文关系矩阵A',按照公式w2 t+1=(1-α)P+αA'T w2 t进行多次迭代,直到w2 t+1与w2 t之间的差值小于0.001时,迭代停止,得到w2的第t次迭代结果w2 t,w2 t作为符合条件的视觉单词中上下文重要性权重,其中,w2表示所有视觉单词中上下文重要性的权重向量,α是在0‐1之间的一个参数,取值为0.85,P=(1/k,......1/k),k为视觉词袋词频特征的维数,A'T为上下文关系矩阵A'的转置;
(3e)根据查询相关语义权重w1和上下文重要性权重w2,计算视觉单词权重向量R:
R=βw1+(1-β)w2
其中β为融合系数,取值为0.3;
(4)根据视觉单词权重向量R,重新计算数据库中每一幅图像的排序分数F(s):
F ( s ) = Σ p ( v k | i ) * p ( v k | j ) * e R s | | X i | | 2 * | | X j | | 2
其中,i和j分别为数据库中的两幅图像,p(vk|i)是第i幅图像对应的视觉单词中vk出现的词频,p(vk|j)是第j幅图像对应的视觉单词中vk出现的词频,||Xi||2是第i幅图像的视觉词袋特征的2范数,||Xj||2是第j幅图像的视觉词袋特征的2范数,Rs为视觉单词权重向量中第s个词汇的权重;
(5)根据得到的每幅图像的排序分数,按照排序分数从大到小的顺序,对数据库中每幅图像做重新排序,用户根据排序分数越大,与查询图像越相关的属性,更准确的筛选出所需要的图像。
2.根据权利要求1所述的从检索图像中筛选有用图像的方法,其中步骤(1d)所述的生成视觉语义映射字典D,按如下步骤进行:
(1d1)用每一个视觉单词和每一种语义属性的关联性来表示映射值,根据每一幅图像的词袋词频概率特征矩阵B和每一幅图像的语义属性概率分布A,构建语义映射字典D的目标函数为:
min D 1 2 | | B - D A | | 2
s.t ∑D2≤1
其中,||B-DA||2为B-DA的2范数;
(1d2)通过拉格朗日对偶的方法对上述目标函数进行优化,得到视觉语义映射字典D:
D=(DT)T
DT=(AAT+Λ)-1(BAT)T
Λ = d i a g ( λ → ) ,
其中,AT为语义属性的概率分布A的转置矩阵,DT为视觉语义映射字典D的转置,(DT)T为DT的转置,λ为拉格朗日对偶方法的优化参数,(AAT+Λ)-1为(AAT+Λ)的逆矩阵,(BAT)T为BAT的转置矩阵。
CN201410032416.1A 2014-01-23 2014-01-23 从检索图像中筛选有用图像的方法 Expired - Fee Related CN103778227B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410032416.1A CN103778227B (zh) 2014-01-23 2014-01-23 从检索图像中筛选有用图像的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410032416.1A CN103778227B (zh) 2014-01-23 2014-01-23 从检索图像中筛选有用图像的方法

Publications (2)

Publication Number Publication Date
CN103778227A CN103778227A (zh) 2014-05-07
CN103778227B true CN103778227B (zh) 2016-11-02

Family

ID=50570462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410032416.1A Expired - Fee Related CN103778227B (zh) 2014-01-23 2014-01-23 从检索图像中筛选有用图像的方法

Country Status (1)

Country Link
CN (1) CN103778227B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150088921A1 (en) 2013-09-20 2015-03-26 Ebay Inc. Search guidance
CN105320703B (zh) * 2014-08-05 2018-07-24 北京大学 相似车辆检索中的查询扩展方法及装置
CN104298707B (zh) * 2014-09-01 2019-01-15 联想(北京)有限公司 一种信息处理方法及电子设备
CN105989001B (zh) * 2015-01-27 2019-09-06 北京大学 图像搜索方法及装置、图像搜索系统
CN105989094B (zh) * 2015-02-12 2020-09-01 中国科学院西安光学精密机械研究所 基于隐层语义中层表达的图像检索方法
CN106294344B (zh) 2015-05-13 2019-06-18 北京智谷睿拓技术服务有限公司 视频检索方法和装置
CN104881451A (zh) * 2015-05-18 2015-09-02 百度在线网络技术(北京)有限公司 图片搜索方法及装置
CN104951534B (zh) * 2015-06-18 2019-07-23 百度在线网络技术(北京)有限公司 搜索结果优化方法及搜索引擎
US11222064B2 (en) * 2015-12-31 2022-01-11 Ebay Inc. Generating structured queries from images
CN107169571A (zh) * 2016-03-07 2017-09-15 阿里巴巴集团控股有限公司 一种特征筛选方法及装置
CN107045520B (zh) * 2016-11-29 2020-07-03 江南大学 一种基于位置信息加权词汇树的车辆图像检索方法
JP6811645B2 (ja) * 2017-02-28 2021-01-13 株式会社日立製作所 画像検索装置及び画像検索方法
CN106921674B (zh) * 2017-03-30 2019-11-12 福州大学 抗后量子攻击的代理重加密语义可搜索加密方法
CN107229920B (zh) * 2017-06-08 2020-11-13 重庆大学 基于整合深度典型时间规整及相关修正的行为识别方法
CN107315812B (zh) * 2017-06-28 2019-10-25 武汉大学 一种云环境下基于词袋模型的图像安全检索方法
CN107688821B (zh) * 2017-07-11 2021-08-06 西安电子科技大学 基于视觉显著性与语义属性跨模态图像自然语言描述方法
CN107563409B (zh) * 2017-08-04 2020-12-29 汕头大学 一种基于区域图像特征关注网络与最近邻排序的描述方法
CN107870992A (zh) * 2017-10-27 2018-04-03 上海交通大学 基于多通道主题模型的可编辑服装图像搜索方法
CN108334627B (zh) * 2018-02-12 2022-09-23 北京百度网讯科技有限公司 新媒体内容的搜索方法、装置和计算机设备
CN110298402A (zh) * 2019-07-01 2019-10-01 国网内蒙古东部电力有限公司 一种小目标检测性能优化方法
CN111556018B (zh) * 2020-03-25 2021-07-27 中国科学院信息工程研究所 一种基于cnn的网络入侵检测方法及电子装置
CN112800259B (zh) * 2021-04-07 2021-06-29 武汉市真意境文化科技有限公司 一种基于边缘闭合与共性检测的图像生成方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129477A (zh) * 2011-04-23 2011-07-20 山东大学 一种多模态联合的图像重排序方法
CN103399951A (zh) * 2013-08-19 2013-11-20 山东大学 一种基于异构图具有自反馈特性的半监督图像重排序方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013075310A1 (en) * 2011-11-24 2013-05-30 Microsoft Corporation Reranking using confident image samples

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129477A (zh) * 2011-04-23 2011-07-20 山东大学 一种多模态联合的图像重排序方法
CN103399951A (zh) * 2013-08-19 2013-11-20 山东大学 一种基于异构图具有自反馈特性的半监督图像重排序方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Query-Dependent Visual Dictionary Adaptation for Image Reranking;Jialong Wang et al;《ACM Multimedia》;20131021;第769-772页 *
基于视觉特征的图像检索重排序;陈畅怀等;《信息技术》;20121231(第12期);第1-4,7页 *
搜索引擎中基于内容的图像重排序;谢辉等;《计算机应用》;20130201;第33卷(第2期);第460-462页 *

Also Published As

Publication number Publication date
CN103778227A (zh) 2014-05-07

Similar Documents

Publication Publication Date Title
CN103778227B (zh) 从检索图像中筛选有用图像的方法
CN103810299B (zh) 基于多特征融合的图像检索方法
Yu et al. Learning to rank using user clicks and visual features for image retrieval
CN110674407B (zh) 基于图卷积神经网络的混合推荐方法
CN105045875B (zh) 个性化信息检索方法及装置
CN105760495B (zh) 一种基于知识图谱针对bug问题进行探索性搜索方法
CN103853831B (zh) 一种基于用户兴趣的个性化搜索实现方法
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN107220277A (zh) 基于手绘草图的图像检索算法
CN103559191B (zh) 基于隐空间学习和双向排序学习的跨媒体排序方法
CN103838833A (zh) 基于相关词语语义分析的全文检索系统
CN106156286A (zh) 面向专业文献知识实体的类型抽取系统及方法
CN103744956B (zh) 一种关键词的多样化拓展方法
CN102750347B (zh) 一种用于图像或视频搜索重排序的方法
CN103020303A (zh) 基于互联网跨媒体地标的历史事件提取及相关图片的搜索方法
CN108984642A (zh) 一种基于哈希编码的印花织物图像检索方法
CN109582782A (zh) 一种基于用弱监督深度学习的文本聚类方法
CN107291895B (zh) 一种快速的层次化文档查询方法
CN105426529A (zh) 基于用户搜索意图定位的图像检索方法及系统
CN110390352A (zh) 一种基于相似性哈希的图像暗数据价值评估方法
CN109033172A (zh) 一种深度学习与近似目标定位的图像检索方法
CN106294661A (zh) 一种扩展搜索方法与装置
CN102081668A (zh) 基于领域本体的信息检索优化方法
CN102693316A (zh) 基于线性泛化回归模型的跨媒体检索方法
Daoud et al. A personalized graph-based document ranking model using a semantic user profile

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20161102

Termination date: 20210123