CN103336830B - 基于结构语义直方图的图像检索方法 - Google Patents

基于结构语义直方图的图像检索方法 Download PDF

Info

Publication number
CN103336830B
CN103336830B CN201310284272.4A CN201310284272A CN103336830B CN 103336830 B CN103336830 B CN 103336830B CN 201310284272 A CN201310284272 A CN 201310284272A CN 103336830 B CN103336830 B CN 103336830B
Authority
CN
China
Prior art keywords
vocabulary
color
hsv
notable
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310284272.4A
Other languages
English (en)
Other versions
CN103336830A (zh
Inventor
刘广海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201310284272.4A priority Critical patent/CN103336830B/zh
Publication of CN103336830A publication Critical patent/CN103336830A/zh
Application granted granted Critical
Publication of CN103336830B publication Critical patent/CN103336830B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提出一种基于结构语义的图像检索方法,关注基于视觉感知机制和视觉词汇模型两者的优势来进行图像检索,提出结构语义直方图的新型图像特征表达方法;结构语义直方图可看作为主流的视觉词汇模型的升华,专门用于自然图像分析,并且比主流的视觉词汇方法具有更丰富信息。它整合了视觉词汇,语义特征和直方图的优点,它在一定程度上模拟了人类视觉感知机制,能够表达语义信息和视觉词汇的结构空间信息,视觉显著性信息和均匀颜色信息。

Description

基于结构语义直方图的图像检索方法
技术领域
本发明涉及图像检索领域,具体涉及一种基于结构语义直方图的图像检索方法。
背景技术
图形图像是人类交流的媒介并能够提供丰富信息来让人们认识和理解世界。随着数字图像技术和互联网的发展,越来越多的图像涌现。如何高效而快速地进行图像索引和检索成为日益迫切的需求,因此,图像检索成为模式识别和人工智能领域的研究热点之一。一般而言,图像检索主要包括:基于文本的图像检索、基于内容的图像检索和基于语义的图像检索,基于文本的图像检索已经不适合时代要求。鉴于目前人工智能和相关技术的局限性,基于语义的图像检索仍然是一个公开的难题。因此,基于内容的图像检索(CBIR)仍然是非常重要而高效的图像检索方法,并且CBIR系统仍然被广泛应用于学术和工业领域。众所周知,人类视觉系统通过感受野周边的神经元竞争机制而产生少量引起视觉注意的关注点并且抑制不相关对象。视觉注意机制和低层次视觉特征之间存在密切的关系,与此同时,人类更加趋向于用类似文字信息来描述物体属性,主流的Bag-of-visual word模型借鉴了文本信息处理模式,在一定程度上具备类似文字信息的功能,所以如何应用视觉感知机制和视觉词汇模型来进行图像检索是一个非常重要并且具有挑战性的问题。
为了充分利用视觉感知机制和视觉词汇模型的优势来进行图像检索,本发明提出了一种新颖的方法来描述图像特征,它被称之为结构语义直方图(structure semantichistogram)。结构语义根据视觉显著性词汇和感知颜色词汇的结构信息来定义,它在一定程度上模拟了人类视觉感知机制,能够表达语义信息和视觉词汇的结构空间信息,视觉显著性信息和均匀颜色信息。结构语义直方图所包含的信息量明显地高于主流的Bag-of-visual word模型,可以视为是Bag-of-visual word模型的升华。
发明内容
本发明所要解决的技术问题是:提供一种基于结构语义的图像检索方法,其能够利用直方图来表达语义信息,视觉显著性信息和均匀颜色信息,并且还能够表达视觉词汇所包含的空间结构属性。
为解决上述问题,本发明是通过以下方案实现的:
一种基于结构语义直方图的图像检索方法,包括如下步骤:
(1)将彩色图像从RGB颜色空间转换到HSV颜色空间;在HSV颜色空间中,H分量表示色彩信息,可用于表示不同颜色。在本发明中被称之为颜色分量。
(2)在HSV彩色空间中,将H,S和V三个分量用于构建高斯金字塔H(σ),S(σ)和V(σ),其中σ∈[0...5]表示尺度,然后通过跨尺度抽样并产生所谓的特征映射:
F(c,s,H)=|H(c)θH(s)| (1)
F(c,s,S)=|S(c)θS(s)| (2)
F(c,s,V)=|V(c)θV(s)| (3)
式中,F(c,s,H)表示H分量的特征映射,F(c,s,S)表示S分量的特征映射,F(c,s,V)表示V分量的特征映射,H(c)表示H分量细尺度c的高斯金字塔,H(s)表示H分量粗尺度s的高斯金字塔,S(c)表示S分量细尺度c的高斯金字塔,S(s)表示S分量粗尺度s的高斯金字塔,V(c)表示V分量细尺度c的高斯金字塔,V(s)表示V分量粗尺度s的高斯金字塔,θ表示中心-周边差操作,它是在“中心”细尺度c和“周边”粗尺度之间进行,并产生特征映射图;
将每个特征映射图缩小到尺度5,然后进行逐点相加,最后得到3个独立显著性图像映射
H ‾ = ⊕ c = 0 4 ⊕ s = 5 5 N ( F ( c , s , H ) ) - - - ( 4 )
S ‾ = ⊕ c = 0 4 ⊕ s = 5 5 N ( F ( c , s , S ) ) - - - ( 5 )
V ‾ = ⊕ c = 0 4 ⊕ s = 5 5 N ( F ( c , s , V ) ) - - - ( 6 )
式中,表示H分量的显著性图像映射,表示S分量的显著性图像映射,表示V分量的显著性图像映射,c表示细尺度,s表示粗尺度,表示映射图的跨尺度相加,N(.)表示标准化;
三个3个独立显著性图像映射 整合为一个显著图Shsv
S h s v = 1 3 ( N ( H ‾ ) + N ( S ‾ ) + N ( V ‾ ) ) - - - ( 7 )
式中,Shsv表示显著图,N(.)表示标准化;
(3)在显著图Shsv以及颜色分量H中,采用SIFT(尺度不变特征转换)算法来抽取和描述局部特征,得到显著图Shsv的特征向量和颜色分量H的特征向量
首先对显著图Shsv采用标准的K均值聚类来构建词典,词典大小设定为n’,则词典里面有n’个视觉词汇。词典构建就是将显著图Shsv中所有的局部特征聚成n’个聚类中心,然后将每一个聚类中心当作是一个视觉词汇,则词典里的n’个视觉词汇可以表示为词典里面的n’个视觉词汇分别对应一个索引值IS=[0,1,2,...,n'-2,n'-1];
词典构建完毕后,需要进行词典量化并且进行索引值分配。词典量化就是把从显著图Shsv中提取的每一个局部特征映射到它最接近的视觉词汇上去,索引值分配就是给每一个局部特征所在的坐标点赋予一个对应的视觉词汇索引值v,最后经过词典量化的显著图Shsv表示为MS(x,y)=v,
采用相同办法对颜色分量H进行处理,则经过词典量化后的颜色分量H表示为MC(x,y)=w,
(4)将HSV颜色空间图像从柱状坐标系变换为笛卡尔坐标系,假设(H,S,V)为柱状坐标系上的一个点,(H',S',V')为(H,S,V)在笛卡尔坐标系上的转换,其中H'=S·cos(H),S'=S·sin(H)和V'=V;假设在HSV颜色空间图像中有一个像素点(x,y),该像素点周边有8个点,分别表示为(xi,yi),i=1,2,..,8,则标准刺激的强度I可以定义为:
在上述公式(8)中,周边每个点和中心点都可以计出一个均匀颜色差别值Ii,i=1,2,...,8:
此时,代表刺激的最小可觉差ΔI=min(I1,I2,...,I8),即ΔI取I1~I8中的最小值;
判断HSV颜色空间图像中的各像素点是否满足Weber原理,即ΔI/I=K,其中ΔI代表刺激的最小可觉差,I代表标准刺激的强度,K是设定的特定感觉道的定值,则保留该像素点(x,y)处的视觉词汇,否则将像素点(x,y)处的视觉词汇删除;由此形成显著图Shsv的视觉词汇图像Ws(x,y)和颜色分量H的视觉词汇图像Wc(x,y);
(5)以视觉词汇图像Ws(x,y)和Wc(x,y)为基准,分别对它们进行视觉词汇的局部结构检测,可以得到基于显著图的局部结构模式和基于颜色的局部结构模式;视觉词汇的局部结构检测方法如下:
在Ws(x,y)中,将它划分为一系列2×2的,相互不重叠方格;然后判断2×2方格中是否为设定的局部结构模式中的一种,如果出现了其中一种局部结构模式,则该2×2方格中的视觉词汇保持不变,否则将2×2方格内的视觉词汇全部删除,最终可得到一个结构图像TS(x,y);采用相同办法,由Wc(x,y)可以得到Wc(x,y)的结构图像TC(x,y);
以某个结构词汇为中心,在设定距离d范围内,如果它的周边存在若干个具有相同局部结构模式的结构词汇,则这些结构词汇的组合称之为结构语义;
(6)分别统计结构图像TS(x,y)和TC(x,y)中视觉词汇出现的频率,并将若干个结构词汇之间的均匀颜色差别作为权重,最后综合频率和均匀颜色差别来描述图像内容,其中
在结构图像TS(x,y)和TC(x,y)中,视觉词汇出现的频率计算方法如下:
Hs(i)=card{(x,y)|Ts(x,y)=i}/(wid×hei) (10)
HC(j)=card{(x,y)|TC(x,y)=j}/(wid×hei) (11)
式中,Hs(i)表示TS(x,y)中视觉词汇出现的频率,其中HC(j)表示TC(x,y)中视觉词汇出现的频率,其中card{.}表示统计词汇个数,分别是统计TS(x,y)中的显著图词汇和TC(x,y)中的颜色词汇,wid和hei分别表示图像宽和图像高;
计算均匀颜色差别的方法如下:
假设在结构图像TS(x,y)和TC(x,y)中有两个结构词汇,它们所在位置分别对应两个坐标点(x,y)和(x',y'),在笛卡尔坐标系中,这两个坐标点分别对应的HSV颜色值为(H'(x,y),S'(x,y),V'(x,y))和(H'(x',y'),S'(x',y'),V'(x',y')),则它们之间颜色差别Δcd计算方法如下:
CDS(i)表示显著图词汇的颜色差别直方图,CDC(j)表示颜色词汇的颜色差别直方图,它们分别定义如下:
式中,Δcds表示结构图像TS(x,y)中,两个坐标点(x,y)和(x',y')之间的颜色差别;Δcdc表示结构图像TC(x,y)中,两个坐标点(x,y)和(x',y')之间的颜色差别;Ts(x,y)=Ts(x',y')表示在结构图像TS(x,y)中两个坐标点(x,y)和(x',y')所对应的视觉词汇具有相同索引值i,Tc(x,y)=Tc(x',y')表示在结构图像TC(x,y)中两个坐标点(x,y)和(x',y')所对应的视觉词汇具有相同索引值j,
显著图词汇的结构语义直方图SH(i)和颜色词汇的结构语义直方图CH(j),它们分别定义如下:
SH(i)=CDS(i)×Hs(i),i=0,1,...,n-1 (15)
CH(j)=CDC(j)×Hc(j),j=0,1,2,..,n-1 (16)
SSH=concac{SH(i),CH(j)} (17)
式中,concac{.}表示将上述两个直方图串联起来形成一个最终的直方图,即是结构语义直方图(SSH);i和j用做直方图的下标;在CDS(i)和HS(i)中,i=0,1,2,...,n-1表示显著图词汇的索引值;在CDC(j)和CH(j)中,j=0,1,2,...,n-1表示颜色词汇索引值;
(7)将结构语义直方图中的特征向量作为最终特征应用于图像检索,并且采用L1距离来进行图像匹配。
上述步骤(3)中,标准化N(.)由如下步骤组成:
(1)归一化映射图中像素值,将其固定到[0,1]之间的范围,以消除依赖于模态的幅值差异;
(2)计算出映射图中最大值M的位置和其它所有局部极大值的平均值
(3)整幅映射图乘以
上述步骤(2)中,所述词典大小n’的取值范围为n’=[500,...,100000]。
上述步骤(3)中,所述词典大小n’的取值为5000。
上述步骤(4)中,设定的特定感觉道的定值K=0.2。
上述步骤(5)中,设定的局部结构模式为11种。
上述步骤(5)中,设定距离d的取值范围介于2-5之间。
与现有技术相比,本发明关注基于视觉感知机制和视觉词汇模型两者的优势来进行图像检索,提出结构语义直方图的新型图像特征表达方法。结构语义直方图可看作为主流的视觉词汇(Bag-of-visual words)模型的升华,专门用于自然图像分析,并且比主流的视觉词汇方法具有更丰富信息。它整合了视觉词汇,语义特征和直方图的优点,它在一定程度上模拟了人类视觉感知机制,能够表达语义信息和视觉词汇的结构空间信息,视觉显著性信息和均匀颜色信息。
附图说明
图1为用于进行结构词汇检测的11种局部结构模式;
图2为结构语义检测示例。
具体实施方式
一种基于共生稀疏直方图的图像检索方法,包括如下步骤:
(1)将彩色图像从RGB颜色空间转换到HSV彩色空间。
(2)人类视觉系统具有非常突出的信息筛选能力,能够迅速找到相关的重要信息,忽略掉不相关信息,这就是视觉注意机制,因此研究视觉注意机制的计算模型,可以降低图像处理的复杂性,减少计算资源耗费,极大提高信息处理的效率。鉴于HSV颜色空间和人类颜色感知具有一定的相似性,因此本发明依据HSV颜色空间定义若干初级视觉特征来进行显著性检测。它由H,S和V分量图像构成。将H,S和V用于构建高斯金字塔H(σ),S(σ)和V(σ),其中σ∈[0...5]表示尺度,然后通过跨尺度抽样并产生所谓的特征映射:
F(c,s,H)=|H(c)θH(s)| (1)
F(c,s,S)=|S(c)θS(s)| (2)
F(c,s,V)=|V(c)θV(s)| (3)
上述三式中,θ表示中心-周边差操作,它是在“中心”细尺度c和“周边”粗尺度s之间进行,并产生特征映射图。
将每个特征映射图缩小到尺度5,然后进行逐点相加,最后得到3个独立显著性图像映射
H ‾ = ⊕ c = 0 4 ⊕ s = 5 5 N ( F ( c , s , H ) ) - - - ( 4 )
S ‾ = ⊕ c = 0 4 ⊕ s = 5 5 N ( F ( c , s , S ) ) - - - ( 5 )
V ‾ = ⊕ c = 0 4 ⊕ s = 5 5 N ( F ( c , s , V ) ) - - - ( 6 )
上述三式中,表示映射图的跨尺度相加,
将三个3个独立显著性图像映射 整合为一个显著图Shsv
S h s v = 1 3 ( N ( H ‾ ) + N ( S ‾ ) + N ( V ‾ ) ) - - - ( 7 )
上述式中,N(.)表示标准化,N(.)由如下步骤组成:(1)归一化映射图中像素值,将其固定到[0,1]之间的范围,以消除依赖于模态的幅值差异;(2)计算出映射图中最大值M的位置和其它所有局部极大值的平均值(3)整幅映射图乘以
(3)对于彩色图像而言,在HSV颜色空间中,H分量可以用于描述不同颜色。在显著图S以及H分量中,采用SIFT算法来抽取和描述局部特征,得到的特征向量分别表示为鉴于SIFT算法是一种非常著名并且广泛应用的算法,本发明将不再赘述。
首先对显著图Shsv采用标准的K均值聚类来构建词典,词典大小设定为n’,词典构建就是将显著图Shsv中所有的局部特征聚成n’个聚类中心,然后将一个聚类中心当作是一个视觉词汇,则词典里的n’个视觉词汇可以表示为词典里面的n’个视觉词汇分别对应一个索引值IS=[0,1,2,...,n'-2,n'-1];
词典构建完毕后,需要进行词典量化并且进行索引值分配。词典量化就是把从显著图Shsv中提取的每一个局部特征映射到它最接近的视觉词汇上去,并且给每一个局部特征所在的坐标点赋予一个对应的索引值v,最后经过词典量化的显著图Shsv表示为MS(x,y)=v,
采用相同办法对颜色分量H进行处理,则经过词典量化后的颜色分量H表示为MC(x,y)=w,鉴于K均值聚类算法是一种非常著名并且广泛应用的聚类算法,本发明也将不再赘述。
(4)在经典的文本检索技术中,需要删除停用词以提高索引效率。鉴于视觉词汇和文本词汇是有区别的,在本发明中,拟删除10%的频率太高和太低的视觉词汇。在颜色词汇以及显著图词汇中,如果某些词汇出现频率太高或者太低,很可能代表的是图像背景或者噪声,需要删除这些噪声词汇。为了尽量减少误删视觉词汇的现象,需要综合考虑视觉词汇之间的均匀颜色差别的对比度来考虑。如果某图像存在频率太高或者太低的视觉词汇,则将这些视觉词汇称为拟删除视觉词汇。在图像中,以拟删除的视觉词汇为中心,考虑它与周边视觉词汇之间的均匀颜色差别的对比度。如果满足Weber原理,则保留该词汇,否则就真正删除该词汇。本发明将最佳的噪声词汇删除比例确定为20%。
将HSV颜色空间图像从柱状坐标系变换为笛卡尔坐标系,假设(H,S,V)为柱状坐标系上的一个点,(H',S',V')为(H,S,V)在笛卡尔坐标系上的转换,其中H'=S·cos(H),S'=S·sin(H)和V'=V;假设在HSV颜色空间图像中有一个像素点(x,y),该像素点周边有8个点,分别表示为(xi,yi),i=1,2,..,8,则标准刺激的强度I可以定义为:
在上述公式(8)中,周边每个点和中心点都可以计出一个均匀颜色差别值Ii,i=1,2,...,8:
此时,代表刺激的最小可觉差ΔI=min(I1,I2,...,I8),即ΔI取I1~I8中的最小值;
判断HSV颜色空间图像中的各像素点是否满足Weber原理,即ΔI/I=K,其中ΔI代表刺激的最小可觉差,I代表标准刺激的强度,K是设定的特定感觉道的定值,则保留该像素点(x,y)处的视觉词汇,否则将像素点(x,y)处的视觉词汇删除;由此形成显著图Shsv的视觉词汇图像Ws(x,y)和颜色分量H的视觉词汇图像Wc(x,y);
(5)以视觉词汇图像Ws(x,y)和Wc(x,y)为基准,分别对它们进行视觉词汇的局部结构检测,可以得到基于显著图的局部结构模式和基于颜色的局部结构模式;视觉词汇的局部结构检测原理如下:
在Ws(x,y)中,将它划分为一系列2×2的,相互不重叠方格。然后判断2×2方格中是否出现图1所示的11种局部结构模式,如果出现了其中一种局部结构模式,则该2×2方格中的视觉词汇保持不变,否则将2×2方格内的视觉词汇删除,最终可得到一个结构图像TS(x,y),其中2×2方格中的词汇集合称之为结构词汇。采用相同办法,可以得到Wc(x,y)的结构图像TC(x,y)。
以某个结构词汇为中心,在设定距离d范围内,如果它的周边存在若干个具有相同模式的结构词汇,则这些结构词汇的组合称之为结构语义,例如图2所示。在本发明中,设定距离d的取值范围介于2-5之间。
(6)在设定的距离d范围内,分别统计TS(x,y)和TC(x,y)中词汇出现的频率,并将若干个局部结构模式之间的均匀颜色差别作为权重,最后综合频率和均匀颜色差别来描述图像内容,其中
在TS(x,y)和TC(x,y)中,视觉词汇出现的频率计算方法如下:
Hs(i)=card{(x,y)|Ts(x,y)=i}/(wid×hei) (10)
HC(j)=card{(x,y)|TC(x,y)=j}/(wid×hei) (11)
上述两式中,Hs(i)表示TS(x,y)中视觉词汇出现的频率,其中HC(j)表示TC(x,y)中视觉词汇出现的频率,其中card{.}表示统计词汇个数,分别是统计TS(x,y)中的显著图词汇和TC(x,y)中的颜色词汇,wid和hei分别表示图像宽和图像高;
计算均匀颜色差别的方法如下:
假设在结构图像TS(x,y)和TC(x,y)中有两个结构词汇,它们所在位置分别对应两个坐标点(x,y)和(x',y'),在笛卡尔坐标系中,这两个坐标点分别对应的HSV颜色值为(H'(x,y),S'(x,y),V'(x,y))和(H'(x',y'),S'(x',y'),V'(x',y')),则它们之间颜色差别Δcd计算方法如下:
CDS(i)表示显著图词汇的颜色差别直方图,CDC(j)表示颜色词汇的颜色差别直方图,它们分别定义如下:
上述两个公式中,Δcds表示结构图像TS(x,y)中,两个坐标点(x,y)和(x',y')之间的颜色差别;Δcdc表示结构图像TC(x,y)中,两个坐标点(x,y)和(x',y')之间的颜色差别;Ts(x,y)=Ts(x',y')表示在结构图像TS(x,y)中两个坐标点(x,y)和(x',y')所对应的视觉词汇具有相同索引值i,Tc(x,y)=Tc(x',y')表示在结构图像TC(x,y)中两个坐标点(x,y)和(x',y')所对应的视觉词汇具有相同索引值j,
显著图词汇的结构语义直方图SH(i)和颜色词汇的结构语义直方图CH(j),它们分别定义如下:
SH(i)=CDS(i)×Hs(i),i=0,1,...,n-1 (15)
CH(j)=CDC(j)×Hc(j),j=0,1,2,..,n-1 (16)
SSH=concac{SH(i),CH(i)} (17)
上述三式中,concac{.}表示将上述两个直方图串联起来形成一个最终的直方图,即是结构语义直方图(SSH);i和j用做直方图的下标;在CDS(i)和HS(i)中,i=0,1,2,...,n-1表示显著图词汇的索引值;在CDC(j)和CH(j)中,j=0,1,2,...,n-1表示颜色词汇索引值;
结构语义直方图在词汇局部结构的基础上能够同时表达显著词汇和颜色词汇的空间关系,它将均匀颜色差别信息和直方图整合为一个描述子,并且采用直方图来描述两者属性。结构语义直方图借鉴了视觉注意机制和自然语言处理技术,非常容易实现,很适合于大规模的图像检索。视觉词汇的局部结构能够保留一定的几何信息,同时也包含了一种局部结构和局部结构之间的关系(空间关系以及几何关系),在一定程度上,它体现了视觉词汇的几何上下文信息。结构语义直方图可看作是一种广义的视觉属性描述子,它在一定程度上模拟了人类视觉感知机制,能够表达语义信息和视觉词汇的结构空间信息,视觉显著性信息和均匀颜色信息,所以,结构语义直方图所包含的信息量明显地高于主流的Bag-of-visual word模型,可以视为是Bag-of-visual word模型的升华。本发明还具有非常强的扩展性,完全可以采用相同方式融合更多视觉信息。例如纹理特征,边缘特征等等。
(5)将结构语义直方图中的5000维特征向量作为最终特征应用于图像检索。传统的bag-of-visual words模型在图像匹配过程中一般采用Cos距离,本发明在检索过程中采用L1距离进行图像匹配。采用L1距离的主要原因是L1距离计算简单,计算量小,不要开方和开根号计算。

Claims (7)

1.基于结构语义直方图的图像检索方法,其特征是包括如下步骤:
(1)将彩色图像从RGB颜色空间转换到HSV颜色空间;在HSV颜色空间中,H分量表示色彩信息,可用于表示不同颜色,称之为颜色分量;
(2)在HSV彩色空间中,将H,S和V三个分量用于构建高斯金字塔H(σ),S(σ)和V(σ),其中σ∈[0...5]表示尺度,然后通过跨尺度抽样并产生所谓的特征映射:
式中,F(c,s,H)表示H分量的特征映射,F(c,s,S)表示S分量的特征映射,F(c,s,V)表示V分量的特征映射,H(c)表示H分量细尺度c的高斯金字塔,H(s)表示H分量粗尺度s的高斯金字塔,S(c)表示S分量细尺度c的高斯金字塔,S(s)表示S分量粗尺度s的高斯金字塔,V(c)表示V分量细尺度c的高斯金字塔,V(s)表示V分量粗尺度s的高斯金字塔,表示中心-周边差操作,它是在“中心”细尺度c和“周边”粗尺度s之间进行,并产生特征映射图;
将每个特征映射图缩小到尺度5,然后进行逐点相加,最后得到3个独立显著性图像映射
H ‾ = ⊕ c = 0 4 ⊕ s = 5 5 N ( F ( c , s , H ) ) - - - ( 4 )
S ‾ = ⊕ c = 0 4 ⊕ s = 5 5 N ( F ( c , s , S ) ) - - - ( 5 )
V ‾ = ⊕ c = 0 4 ⊕ s = 5 5 N ( F ( c , s , V ) ) - - - ( 6 )
上述三式中,表示H分量的显著性图像映射,表示S分量的显著性图像映射,表示V分量的显著性图像映射,c表示细尺度,s表示粗尺度,表示映射图的跨尺度相加,N(.)表示标准化;
将3个独立显著性图像映射 整合为一个显著图Shsv
S h s v = 1 3 ( N ( H ‾ ) + N ( S ‾ ) + N ( V ‾ ) ) - - - ( 7 )
式中,Shsv表示显著图,N(.)表示标准化;
(3)在显著图Shsv以及颜色分量H中,采用SIFT算法来抽取和描述局部特征,得到显著图Shsv的特征向量和颜色分量H的特征向量
首先对显著图Shsv采用标准的K均值聚类来构建词典,词典大小设定为n’,则词典里面有n’个视觉词汇;词典构建就是将显著图Shsv中所有的局部特征聚成n’个聚类中心,然后将一个聚类中心当作是一个视觉词汇,则词典里的n’个视觉词汇可以表示为词典里面的n’个视觉词汇分别对应一个索引值IS=[0,1,2,...,n'-2,n'-1];
词典构建完毕后,需要进行词典量化并且进行索引值分配;词典量化就是把从显著图Shsv中提取的每一个局部特征映射到它最接近的视觉词汇上去,索引值分配就是给每一个局部特征所在的坐标点赋予一个对应的视觉词汇索引值v,最后经过词典量化的显著图Shsv表示为MS(x,y)=v,
采用相同办法对颜色分量H进行处理,则经过词典量化后的颜色分量H表示为MC(x,y)=w,
(4)将HSV颜色空间图像从柱状坐标系变换为笛卡尔坐标系,假设(H,S,V)为柱状坐标系上的一个点,(H',S',V')为(H,S,V)在笛卡尔坐标系上的转换,其中H'=S·cos(H),S'=S·sin(H)和V'=V;假设在HSV颜色空间图像中有一个像素点(x,y),该像素点周边有8个点,分别表示为(xi,yi),i=1,2,..,8,则标准刺激的强度I可以定义为:
在上述公式(8)中,周边每个点和中心点都可以计出一个均匀颜色差别值Ii,i=1,2,...,8:
此时,代表刺激的最小可觉差ΔI=min(I1,I2,...,I8),即ΔI取I1~I8中的最小值;
判断HSV颜色空间图像中的各像素点是否满足Weber原理,即ΔI/I=K,其中ΔI代表刺激的最小可觉差,I代表标准刺激的强度,K是设定的特定感觉道的定值,是则保留该像素点(x,y)处的视觉词汇,否则将像素点(x,y)处的视觉词汇删除;由此形成显著图Shsv的视觉词汇图像Ws(x,y)和颜色分量H的视觉词汇图像Wc(x,y);
(5)以视觉词汇图像Ws(x,y)和Wc(x,y)为基准,分别对它们进行视觉词汇的局部结构检测,可以得到基于显著图的局部结构模式和基于颜色的局部结构模式;视觉词汇的局部结构检测方法如下:
在Ws(x,y)中,将它划分为一系列2×2的,相互不重叠方格;然后判断2×2方格中是否为设定的局部结构模式中的一种,如果出现了其中一种局部结构模式,则该2×2方格中的视觉词汇保持不变,否则将2×2方格内的视觉词汇删除,最终可得到一个结构图像TS(x,y);采用相同办法,由Wc(x,y)可以得到Wc(x,y)的结构图像TC(x,y);
以某个结构词汇为中心,在设定距离d范围内,如果它的周边存在若干个具有相同局部结构模式的结构词汇,则这些结构词汇的组合称之为结构语义;
(6)分别统计结构图像TS(x,y)和TC(x,y)中视觉词汇出现的频率,并将若干个结构词汇之间的均匀颜色差别作为权重,最后综合频率和均匀颜色差别来描述图像内容,其中
在结构图像TS(x,y)和TC(x,y)中,视觉词汇出现的频率计算方法如下:
Hs(i)=card{(x,y)|Ts(x,y)=i}/(wid×hei) (10)
HC(j)=card{(x,y)|TC(x,y)=j}/(wid×hei) (11)
上述两式中,Hs(i)表示TS(x,y)中视觉词汇出现的频率,其中HC(j)表示TC(x,y)中视觉词汇出现的频率,其中card{.}表示统计词汇个数,分别是统计TS(x,y)中的显著图词汇和TC(x,y)中的颜色词汇,wid和hei分别表示图像宽和图像高;
计算均匀颜色差别的方法如下:
假设在结构图像TS(x,y)和TC(x,y)中有两个结构词汇,它们所在位置分别对应两个坐标点(x,y)和(x',y'),在笛卡尔坐标系中,这两个坐标点分别对应的HSV颜色值为(H'(x,y),S'(x,y),V'(x,y))和(H'(x',y'),S'(x',y'),V'(x',y')),则它们之间颜色差别Δcd计算方法如下:
CDS(i)表示显著图词汇的颜色差别直方图,CDC(j)表示颜色词汇的颜色差别直方图,它们分别定义如下:
上述两式中,Δcds表示结构图像TS(x,y)中,两个坐标点(x,y)和(x′,y′)之间的颜色差别;Δcdc表示结构图像TC(x,y)中,两个坐标点(x,y)和(x′,y′)之间的颜色差别;Ts(x,y)=Ts(x′,y′)表示在结构图像TS(x,y)中两个坐标点(x,y)和(x′,y′)所对应的视觉词汇具有相同索引值i,Tc(x,y)=Tc(x′,y′)表示在结构图像TC(x,y)中两个坐标点(x,y)和(x′,y′)所对应的视觉词汇具有相同索引值j,
显著图词汇的结构语义直方图SH(i)和颜色词汇的结构语义直方图CH(j),它们分别定义如下:
SH(i)=CDS(i)×Hs(i),i=0,1,2,...,n-1 (15)
CH(j)=CDC(j)×Hc(j),j=0,1,2,..,n-1 (16)
SSH=concac{SH(i),CH(j)} (17)
上述三式中,concac{.}表示将上述两个直方图串联起来形成一个最终的直方图,即是结构语义直方图SSH;i和j用做直方图的下标;在CDS(i)和HS(i)中,i=0,1,2,...,n-1表示显著图词汇的索引值;在CDC(j)和CH(j)中,j=0,1,2,...,n-1表示颜色词汇索引值;
(7)将结构语义直方图中的特征向量作为最终特征应用于图像检索,并且采用L1距离来进行图像匹配。
2.根据权利要求1所述的基于结构语义直方图的图像检索方法,其特征是:在步骤(2)中,标准化N(.)由如下步骤组成:
(1)归一化映射图中像素值,将其固定到[0,1]之间的范围,以消除依赖于模态的幅值差异;
(2)计算出映射图中最大值M的位置和其它所有局部极大值的平均值
(3)整幅映射图乘以
3.根据权利要求1所述的基于结构语义直方图的图像检索方法,其特征是:在步骤(3)中,所述词典大小n’的取值范围为n’=[500,...,100000]。
4.根据权利要求3所述的基于结构语义直方图的图像检索方法,其特征是:在步骤(3)中,所述词典大小n’的取值为5000。
5.根据权利要求1所述的基于结构语义直方图的图像检索方法,其特征是:在步骤(4)中,设定的特定感觉道的定值K=0.2。
6.根据权利要求1所述的基于结构语义直方图的图像检索方法,其特征是:在步骤(5)中,设定的局部结构模式为11种。
7.根据权利要求1所述的基于结构语义直方图的图像检索方法,其特征是:在步骤(5)中,设定距离d的取值范围介于2-5之间。
CN201310284272.4A 2013-07-08 2013-07-08 基于结构语义直方图的图像检索方法 Expired - Fee Related CN103336830B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310284272.4A CN103336830B (zh) 2013-07-08 2013-07-08 基于结构语义直方图的图像检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310284272.4A CN103336830B (zh) 2013-07-08 2013-07-08 基于结构语义直方图的图像检索方法

Publications (2)

Publication Number Publication Date
CN103336830A CN103336830A (zh) 2013-10-02
CN103336830B true CN103336830B (zh) 2017-02-08

Family

ID=49244995

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310284272.4A Expired - Fee Related CN103336830B (zh) 2013-07-08 2013-07-08 基于结构语义直方图的图像检索方法

Country Status (1)

Country Link
CN (1) CN103336830B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105678349B (zh) * 2016-01-04 2018-12-07 杭州电子科技大学 一种视觉词汇的上下文描述子生成方法
CN105718597A (zh) * 2016-03-04 2016-06-29 北京邮电大学 一种数据检索方法及系统
CN106326902B (zh) * 2016-08-30 2019-05-14 广西师范大学 基于显著性结构直方图的图像检索方法
CN110321452B (zh) * 2019-05-05 2022-08-09 广西师范大学 一种基于方向选择机制的图像检索方法
CN111784709B (zh) * 2020-07-07 2023-02-17 北京字节跳动网络技术有限公司 图像处理方法、装置、电子设备和计算机可读介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101211356A (zh) * 2006-12-30 2008-07-02 中国科学院计算技术研究所 一种基于显著区域的图像查询方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101211356A (zh) * 2006-12-30 2008-07-02 中国科学院计算技术研究所 一种基于显著区域的图像查询方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于局部结构直方图的图像检索;刘广海等;《计算机工程》;20120630;第38卷(第11期);189-191 *

Also Published As

Publication number Publication date
CN103336830A (zh) 2013-10-02

Similar Documents

Publication Publication Date Title
CN102722712B (zh) 基于连续度的多尺度高分辨图像目标检测方法
Thai et al. Image classification using support vector machine and artificial neural network
CN106570521B (zh) 多语言场景字符识别方法及识别系统
CN106815604A (zh) 基于多层信息融合的注视点检测方法
CN103336830B (zh) 基于结构语义直方图的图像检索方法
CN102156885B (zh) 基于级联式码本生成的图像分类方法
CN105678231A (zh) 一种基于稀疏编码和神经网络的行人图片检测方法
CN105844221A (zh) 一种基于Vadaboost筛选特征块的人脸表情识别方法
CN106778852A (zh) 一种修正误判的图像内容识别方法
CN102831389B (zh) 基于判别分量分析的人脸表情识别算法
CN110321967A (zh) 基于卷积神经网络的图像分类改进算法
CN104636755A (zh) 一种基于深度学习的人脸美丽评价方法
CN105718955B (zh) 一种基于多重编码与特征融合的视觉地形分类方法
CN108509833A (zh) 一种基于结构化分析字典的人脸识别方法、装置及设备
CN106960176A (zh) 一种基于超限学习机和颜色特征融合的行人性别识别方法
CN111339935A (zh) 一种基于可解释cnn图像分类模型的光学遥感图片分类方法
CN109086794B (zh) 一种基于t-lda主题模型的驾驶行为模式识方法
CN109213853A (zh) 一种基于cca算法的中文社区问答跨模态检索方法
Li et al. Dating ancient paintings of Mogao Grottoes using deeply learnt visual codes
CN111832573A (zh) 一种基于类激活映射和视觉显著性的图像情感分类方法
Yingxin et al. A robust hand gesture recognition method via convolutional neural network
CN106156798A (zh) 基于环形空间金字塔和多核学习的场景图像分类方法
CN102609715B (zh) 一种结合多个兴趣点检测子的物体类识别方法
CN106203448A (zh) 一种基于非线性尺度空间的场景分类方法
CN114398485B (zh) 基于多视角融合的专家画像构建方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170208

Termination date: 20170708

CF01 Termination of patent right due to non-payment of annual fee