CN103810274A - 基于WordNet语义相似度的多特征图像标签排序方法 - Google Patents

基于WordNet语义相似度的多特征图像标签排序方法 Download PDF

Info

Publication number
CN103810274A
CN103810274A CN201410049041.XA CN201410049041A CN103810274A CN 103810274 A CN103810274 A CN 103810274A CN 201410049041 A CN201410049041 A CN 201410049041A CN 103810274 A CN103810274 A CN 103810274A
Authority
CN
China
Prior art keywords
image
label
test pattern
tag
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410049041.XA
Other languages
English (en)
Other versions
CN103810274B (zh
Inventor
刘宏哲
袁家政
吴焰樟
王棚飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Union University
Original Assignee
Beijing Union University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Union University filed Critical Beijing Union University
Priority to CN201410049041.XA priority Critical patent/CN103810274B/zh
Publication of CN103810274A publication Critical patent/CN103810274A/zh
Application granted granted Critical
Publication of CN103810274B publication Critical patent/CN103810274B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于WordNet语义相似度的多特征图像标签排序方法,包括:建立训练样本库,提取样本库中图像的显著性区域图,训练SVM分类器,测试图像标签预处理,判断测试图像的类型,测试图像标签排序。本发明融合相关性、视觉性、多特征等方法,不仅考虑了场景类图像整幅图像的不同特征,而且考虑了对象类图像显著图的不同特征。在对图像标签进行排序之前,对图像标签的不正确性和标签的不全面性等问题进行改进,提高图像标签与图像内容之间的相关度,以及图像标签的准确性和全面性;本发明不仅考虑了图像视觉特征之间的相似度,而且考虑了标签文本之间的语义相似度,使图像标签的排序更准确。

Description

基于WordNet语义相似度的多特征图像标签排序方法
技术领域
本发明属于互联网社群图像标签处理领域,涉及一种利用现有数据库(NS-WIDE)图像与对应的标签列表基于WordNet语义相似度的多特征图像标签排序方法。
背景技术
随着互联网技术的不断发展,尤其是web2.0的快速发展,我们步入了信息化时代。同时社交网络的数量也在不断增多,而其中最具代表性的社交媒体网站有Facebook,Google的视频分享网站YouTube以及Yahoo的社交图像分享网站Flicker。这一类的社交网站都允许网络用户自行上传图像或者视频,用户可以通过关键字对图像的内容、时间、地点等信息进行标注,这些标注的信息被称为“标签(Tag)”,而为媒体添加关键字标签的过程被称为“Tagging”。由于大部分网络用户没有受过专门的媒体信息标注训练,同时也受到其个人的文化背景、个人因素等影响,故图像存在标注信息与图像本身相关度不大等问题,并且标签的相关性、重要性等方面不能够由现有的标签次序所反映。
为解决这个问题,近些年来大量的学者对此问题进行了研究,目前已有的对图像标签排序办法大致可以分为两类:一、基于全局特征的标签处理办法,即利用图像的全局特征对标签进行处理。二、利用显著图特征进行图像标签排序处理,此种方法首先必须从各图像提取相应的显著图,然后利用图像显著图特征找到k个最近邻显著图像,最后使用这k个图像的标签对目标图像的标签的相关性进行投票。上述两类方法在很大程度上都将标签改善与标签排序分为两个不同的研究内容,故它们在标签排序的过程中很少对图像标签本身做太多的处理,只是对图像标签进行简单的预处理。
发明内容
针对现有技术存在的上述问题,本发明提出了一种基于WordNet语义相似度的多特征图像标签排序方法,在对图像标签进行排序之前,对图像标签的不正确性和标签的不全面性等问题进行改进,提高图像标签与图像内容之间的相关度,以及图像标签的准确性和全面性;同时在图像标签排序的过程中,将图像划分为场景类与对象类图像,场景类图像利用图像的全局特征进行处理,对象类图像利用图像的显著图进行处理。
为了实现上述目的,本发明采取了如下技术方案:
步骤1,建立训练样本库。
利用现有的数据库NS-WIDE中的图像建立一个应用于SVM线性分类器训练的样本图像库,包括场景类图像(Sense Image)和对象类图像(Object Image)。
步骤2,提取样本库中图像的显著性区域图。
利用现有的Itti模型原理方法,提取两类图像的显著性区域图。对象类和场景类图像显著图分别为
Figure BDA0000465386710000021
和Sense_SaliencyMap{S1,S2,S3,……,Sn},其中,O、S分别表示对象类、场景类图像集合,图像样本数目大小分别为m、n,Oi、Si分别表示对象类、场景类图像集合中某一幅图像。
步骤3,训练SVM分类器。
步骤3.1,获取显著性区域图的灰度直方图特征。
任何一幅图像的灰度直方图都包含了丰富的信息,它表示一幅图像灰度分布情况。本发明利用图像灰度直方图上述特点,分别提取对象类和场景类图像的显著性区域直方图特征。
步骤3.2,训练SVM分类器。
两类图像的灰度直方图具有明显的区别,因此可以将对象类与场景类图像作为SVM线性分类器的正负样本,其对应的灰度直方图特征向量OBw_f、SBw_f作为SVM分类器的输入特征向量。通过SVM线性分类器训练得到一个线性分类器,其权重与偏置分别为Weight={Weight1、Weight2、Weight3……Weightn}、Bias,其中,n的大小等于灰度直方图特征向量的维数。
步骤4,对测试图像标签进行预处理。
首先读取数据库NS-WIDE中的任意一张图像作为测试图像(TestImage),并获取其对应的标签数据信息,接着对拼写错误标签进行过滤,然后利用知识库WordNet对测试图像标签进行扩充,其中知识库WordNet将英语的名词、动词、形容词和副词组织为synsets,每一个synset表示一个基本的词汇概念,并在这些概念之间建立了包括同义关系(synonymy)、反义关系(antonymy)、上下位关系(hypernymy&hyponymy)、部分关系(meronymy)等多种语义关系,其中同义关系、上下位关系与图像标签联系更为紧密,故在本发明中使用同义关系和上下位关系。
步骤4.1,改善标签的不准确性。
本发明中考虑的标签不准确性为图像标签的拼写错误,鉴于知识库WordNet涵盖了大量的英语单词,故在本发明中使用知识库这一特点判定图像标签单词的正确性,首先读取数据库(NS-WIDE)中的任意一张图像作为测试图像,同时得到其对应的标签,将标签与知识库WordNet中的单词一一匹配,如果在知识库WordNet中找到与之匹配的标签,则默认单词拼写准确,剔除未匹配到的图像标签。
步骤4.2,对标签进行扩充处理。
读取测试图像对应的标签数据信息,其标签集合用T={T1,T2,......,Tn}表示,获取标签集合T对应知识库WordNet中同义词、上位词、下位词集合,扩充标签集合可用Extend={Extend1,Extend2,...,Extendn}表示,扩充后的标签集合用T_Extend,此集合包括了图像原有标签信息及扩充的标签信息,其具体扩充过程可表示为:
T _ Extend = Σ i = 1 n ( T i + Extend i )
其中,图像标签数目为n,Ti表示标签序号为i的标签,Extendi表示标签序号为i的扩充词集合。
步骤4.3,对标签进行去噪处理。
利用知识库WordNet对图像标签进行扩充,会出现一些不正常的标签,比如,重复出现的标签,由多个单词组成的标签,称这些标签为噪声标签。如果不进行去噪处理,将会影响整个标签排序处理的性能。故需对扩充后的标签集合T_Extend进行去噪处理,即删除噪声标签。去噪过程表示为:
T′_Extend=T_Extend-N_Extend
其中,T′_Extend表示去噪后的标签,N_Extend表示噪声标签集合。
步骤5,判断测试图像的类型。
读取测试图像(TestImage),根据Itti模型原理提取测试图像的显著区域图(TestImage_SalienyMap),其显著区域图直方图特征为:
TBw_f={TBw_f1、TBw_f2、TBw_f3……、TBw_fn}
SVM分类器利用图像灰度直方图特征向量判断测试图像类型(Type):场景类图像或者对象类图像。将该问题表示为一个函数f(x),则判断测试图像类型问题可以归结为求f(x)的范围问题,判断f(x)的范围就可知道图像类型(Type)。
步骤6,测试图像标签排序。
根据图像的类型选择不同的标签投票方法,对于场景类图像采用不同维数全局特征进行标签投票,对象类图像采用测试图像的显著图不同维数特征进行标签投票。然后对投票结果处理并进行排序。
步骤6.1,利用全局特征对场景类图像标签投票。
对于场景类测试图像I,获取其不同维数全局特征,例如64维的颜色直方图、75维的边缘方向直方图、128维的小波纹理、144维的颜色相关图、255维的基于5×5块的颜色矩、500维的基于词袋模型等维数特征,并利用不同维数全局特征获取相对应的测试图像的近邻图像,然后利用不同特征得到的近邻图像标签对测试图像标签进行投票,当近邻图像标签与扩充标签相等时,票数增一。
步骤6.2,利用显著特征对象类图像标签投票。
对于对象类图像,本发明中利用李旻显等人提出的基于Itti模型外接矩形框迭代方法获得图像的显著图,并获取显著图不同维数的特征,然后利用不同维数显著图特征获取测试图像的最近邻显著图像,最后利用不同特征得到的近邻图像标签对测试图像的标签进行投票,当近邻图像标签与扩充标签相等时,票数增一。
步骤6.3,对最后测试图像标签进行排序。
将测试图像同一标签不同特征投票结果乘上一定权重并累加得到初步标签票数。接着将图像原有标签、同义词、上位词、下位词标签票数乘以不同比例得到进一步标签票数,并将此标签票数归一化得到单个标签概率。然后根据经验值删除概率过高和过低的标签信息,因为出现概率很高的标签往往它的表现能力很弱,出现概率很低的标签与图像内容之间的相关度很低。最后将图像标签按照标签出现概率的大小进行排序即得到测试图像标签排序结果。
与现有的图像标签排序方法相比,本发明具有以下明显优势:
(1)本发明融合了相关性、视觉性、多特征等方法,不仅考虑了场景类图像整幅图像的不同特征,而且考虑了对象类图像显著图的不同特征。
(2)利用WordNet语义相似度对测试图像原有标签进行扩展,这不仅考虑了图像原有标签,同时考虑了标签的语义结构信息,使得图像标签包含的信息更广。
(3)本发明不仅考虑了图像视觉特征之间的相似度,而且考虑了标签文本之间的语义相似度,可得到图像标签更准确的排序。
附图说明
图1为本发明所涉及方法的流程图;
图2为测试图像及标签的示意图;
图3为测试图像的显著性区域图;
图4为测试图像显著性区域直方图;
图5为标签排序结果示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
本发明所述方法的流程图如图1所示,包括以下步骤:
步骤1,建立训练样本库。
利用现有的数据库NS-WIDE中的269648张图像建立一个专门应用于SVM线性分类器训练的样本图像库,包括场景类图像(Sense Image)和对象类图像(Object Image)。
步骤2,提取样本库中图像的显著性区域图。
步骤2.1,获取初级视觉特征。
利用现有的Itti模型原理方法,通过计算中央周边差分采样,分别得到亮度、颜色和方向特征图N(I)、N(C)和N(O),并将三种特征图组合成显著性区域图S。
S=α*N(I)+β*N(C)+γ*N(O)
其中,N(·)为归一化函数,α、β和γ分别代表亮度、颜色和方向特征图的权值系数。
步骤2.2,基于人脑过滤冗余信息机制过滤冗余噪声信息。
由于自然环境下的图像存在着很多噪声,而大脑可以去除很多冗余成分,基于人脑这个过滤冗余信息机制,对于初级特征图融合成显著特征图也要进行冗余信息的去除,得到过滤图像初级特征的冗余噪声信息图像。
步骤2.3,通过禁止返回的检测机制、就近转移的原则和注意尺寸的确定来实现焦点的注意和转移。
对于步骤2.2中融合的显著区域图中的注意焦点(FOA)并不明确,故需将显著图中显示的各个目标通过竞争机制吸引注意焦点。显著图中各目标采用胜者为王(WTA)的策略来实现,而由于待注意目标在所有参与者中总是最显著的,在竞争中总会获得胜利,焦点总会恒定的锁定在同一个目标上,注意焦点就无法转移到其他目标上,故可以通过禁止返回的检测机制、就近转移的原则,和注意尺寸的确定来实现焦点的注意和转移。
步骤3,训练SVM分类器。
步骤3.1,获取显著性区域图的灰度直方图特征。
分别提取对象类和场景类图像的显著性区域直方图特征Object_Bw_SaliencyMap{O1,O2,O3,…,Om}和Sense_Bw_SaliencyMap{S1,S2,S3,…,Sn}。对象类、场景类图像灰度直方图特征向量分别为:
OBw_f={OBw_f1,OBw_f2,OBw_f3,...,OBw_fi,...,OBw_fm}
SBw_f={SBw_f1,SBw_f2,SBw_f3,...,SBw_fi,...,SBw_fn}
其中,OBw_fi与SBw_fi分别为某幅对象类和场景类图像的灰度直方图特征向量。
步骤3.2,训练SVM分类器。
将对象类与场景类图像作为SVM线性分类器的正负样本,其对应的灰度直方图特征向量OBw_f、SBw_f作为SVM分类器的输入特征向量,通过SVM线性分类器训练得到一个线性分类器,其表达式为:
f = Bw _ f * Σ i = 1 n Weight i + bias
其中,Bw_f=OBw_f或SBw_f,Weight={Weight1,Weight2,...,Weightn}为分类器的权重,n为灰度直方图的特征维数,bias为偏置。
步骤4,测试图像标签预处理。
在对测试图像标签排序之前,考虑到测试图像原有标签的不准确性、不全面性等问题,故需对图像标签进行预处理。测试图像及标签的示意图如图2所示。
步骤4.1,改善标签的不准确性。
本发明中考虑的标签不准确性为图像标签的拼写错误,鉴于知识库WordNet涵盖了大量的英语单词,故在本发明中使用知识库这一特点判定图像标签单词的正确性,首先读取数据库(NS-WIDE)中的任意一张图像作为测试图像,图像对应的标签集合可用T={T1,T2,...,Ti,...,Tn}表示,其中Ti表示测试图像第i个标签,一个标签表示一个独立的单词,将标签集合T中每个标签与知识库WordNet中的单词进行匹配,如果在知识库WordNet中找到与之匹配的标签,则默认单词拼写准确;否则,认为单词拼写有误,剔除该标签。
步骤4.2,改善标签的不全面性。
使用知识库WordNet中的同义词、上位词和下位词对原有标签进行扩充,扩充后的标签集合包括了图像原有标签信息及扩充后的标签信息。
(1)读取测试图像的标签数据信息T={T1,T2,......,Tn},获取标签集合T对应知识库WordNet中同义词集合Syn,得到同义词集合Syn={Syn1,Syn2,Syn3,......,Synn},同时根据同义词集合获取知识库WordNet中对应的上位词、下位词集合,得到的上位词、下位词集合分别表示为:
Hyper={Hyper1,Hyper2,Hyper3,......,Hypern}
Hypo={Hypo1,Hypo2,Hypo3,......,Hypon}。
(2)利用同义词、上位词、下位词集合对测试图像原有标签进行扩充,扩充后的标签集合用T_Extend表示。
标签扩充过程可表示为:
T _ Extend = Σ i = 1 n ( T i + Syn i + Hyper i + Hypo i )
其中,图像标签数目为n,Ti表示标签序号为i的标签,Syni、Hyperi、Hypoi分别表示第i个标签的同义词、上位词、下位词集合。
步骤4.3,标签去噪。
由于利用知识库WordNet扩充之后的同义词、上位词、下位词标签集合,会包含一些非正常标签,比如,重复出现的标签,由多个单词组成标签,这些标签就是噪声标签。对扩充后的标签进行去噪处理,就是删除这些噪声标签。扩充后的标签集合用T′_Extend={T′_Extend1,T′_Extend2,...,T′_Extendi,...}表示。
步骤5,判断测试图像的类型。
利用步骤2方法提取测试图像的显著性区域图,并提取显著区域图的灰度直方图特征。提取的显著区域图及其直方图分别如图3、图4所示。将此特征向量输入SVM分类器,求出f的值,并根据f的值判断测试图像类型Type:场景类图像或对象类图像。
判别公式如下:
Type = 1 , f ∈ [ α 1 , β 1 ] 0 f ∈ [ α 2 , β 2 ]
其中,α1和β1、α2和β2表示对象类、场景类图像经过SVM分类器分类取值范围上、下限,α2<β2≤α1<β1。当Type=1时表示测试图像为对象类图像,Type=0为场景类图像。
步骤6,测试图像标签排序。
步骤6.1,利用全局特征对场景类图像标签进行投票。
对于场景类测试图像I,获取其不同维数全局特征,例如64维的颜色直方图、75维的边缘方向直方图、128维的小波纹理、144维的颜色相关图、255维的基于5×5块的颜色矩、500维的基于词袋模型等维数特征F={F1,F2,F3,F4,F5,F6},用F1、F2、F3、F4、F5、F6分别表示64D、75D、128D、144D、255D、500D特征,并利用上述特征获取测试图像的k个最近邻图像,k的取值与判定近邻图像的限制条件有关,判定近邻图像的限制条件范围越大,k的取值越大。然后利用近邻图像标签对测试图像每个标签进行投票,当近邻图像标签与扩充标签相等时,票数增一。
投票过程表示为:
Type = 0 Vote ( T ′ _ Extend i , I , F j , k ) = Vote ( T ′ _ Extend i , I , F j , k ) + 1
式中,Type=0表示测试图像为场景类图像,Vote(T′_Extend,I,Fi,k)表示测试图像I利用特征Fj获得的k个最近邻图像标签对测试图像标签T′_Extendi的投票计数。
步骤6.2,利用显著特征对对象类图像进行标签投票。
对于对象类图像I,本发明中利用李旻显等人提出的基于Itti模型外接矩形框迭代方法获得图像的显著图IS及显著图不同维数的特征FS={FS1,FS2,FS3,FS4,FS5,FS6},并利用此特征获取测试图像的k个最近邻显著图像,k的取值方法同步骤6.1。然后利用近邻图像的标签对测试图像的标签进行标签投票,当近邻图像标签与扩充标签相等时,票数增一。
投票过程表示为:
Type = 1 Vote ( T ′ _ Extend i , I , FS j , k ) = Vote ( T ′ _ Extend i , I , FS j , k ) + 1
式中,Type=1表示测试图像为对象类图像,Vote(T′_Extendi,I,FSj,k)表示测试图像I利用特征FSj获得的k个最近邻显著图像标签对测试图像标签T′_Extendi的投票计数。
步骤6.3,对测试图像标签进行排序。
(1)统计测试图像标签票数。
将测试图像I同一标签不同特征投票结果乘上一定权重并累加得到标签票数。对于对象类图像用Vote(T′_Extend,I,FSi,k)表示利用特征FSi获得的k个最近邻显著图像标签对测试图像标签T′_Extend的投票结果,用Vote(T′_Extend,I,FS,k)表示对象类图像标签投票结果。则测试图像标签票数为:
Type = 1 Vote ( T ′ _ Extend , I , FS , k ) = Σ i = 1 6 a i * Vote ( T ′ _ Extend , I , FS i , k )
式中,ai表示第i个特征对应的权重。
如果测试图像I为场景类图像,则可用Vote(T′_Extend,I,Fi,k)表示利用特征Fi获得的k个最近邻图像标签对测试图像标签T′_Extend的投票结果,Vote(T′_Extend,I,F,k)表示场景类图像标签投票结果。则测试图像标签票数为:
Type = 0 Vote ( T ′ _ Extend , I , F , k ) = Σ i = 1 6 b i * Vote ( T ′ _ Extend , I , F i , k )
式中,bi表示第i个特征对应的权重,bi的取值可以与ai相同或者不同。
由于扩充后的标签中,图像原有标签、同义词、上位词和下位词与图像内容联系的紧密程度不同,原有标签最为紧密,同义词集合次之,最后是上位词集合、下位词集合。故需将图像原有标签、同义词、上位词、下位词标签票数分别乘以不同比例。本发明上述4个因子可分别取1.0、0.7、0.2、0.1。
(2)对投票结果进行排序。
将标签投票结果归一化得到单个标签概率,然后根据经验值去除概率高或者低的标签信息,因为出现概率很高的标签往往它的表现能力很弱,出现概率很低的标签与图像内容之间的相关度很低。最后将图像标签按照标签出现概率的大小进行排序即得到测试图像标签排序结果。
测试图像排序结果如图5所示,根据经验值去除了概率很高的标签“nature”,同时将与测试图像最为相关的标签“birds”排列到整个标签列表的前面。

Claims (3)

1.基于WordNet语义相似度的多特征图像标签排序方法,其特征在于包括以下步骤:
步骤1,建立训练样本库;
利用现有的数据库NS-WIDE中的图像建立一个专门应用于SVM线性分类器训练的样本图像库,包括场景类图像和对象类图像;
步骤2,提取样本库中图像的显著性区域图;
步骤2.1,获取初级视觉特征;
利用现有的Itti模型原理方法,通过计算中央周边差分采样,分别得到亮度、颜色和方向特征图N(I)、N(C)和N(O),并将三种特征图组合成显著性区域图S;
S=α*N(I)+β*N(C)+γ*N(O)
其中,N(·)为归一化函数,α、β和γ分别代表亮度、颜色和方向特征图的权值系数;
步骤2.2,基于人脑过滤冗余信息机制过滤冗余噪声信息;
步骤2.3,通过禁止返回的检测机制、就近转移的原则和注意尺寸的确定实现焦点的注意和转移;
步骤3,训练SVM分类器;
步骤3.1,获取显著性区域图的灰度直方图特征;
分别提取对象类和场景类图像的显著性区域直方图特征Object_Bw_SaliencyMap{O1,O2,O3,…,Om}和Sense_Bw_SaliencyMap{S1,S2,S3,…,Sn};对象类、场景类图像灰度直方图特征向量分别为:
OBw_f={OBw_f1,OBw_f2,OBw_f3,...,OBw_fi,...,OBw_fm}
SBw_f={SBw_f1,SBw_f2,SBw_f3,...,SBw_fi,...,SBw_fn}
其中,OBw_fi与SBw_fi分别为某幅对象类和场景类图像的灰度直方图特征向量;
步骤3.2,训练SVM分类器;
将对象类与场景类图像作为SVM线性分类器的正负样本,其对应的灰度直方图特征向量OBw_f、SBw_f作为SVM分类器的输入特征向量,通过SVM线性分类器训练得到一个线性分类器,其表达式为:
f = Bw _ f * Σ i = 1 n Weight i + bias
其中,Bw_f=OBw_f或SBw_f;Weight={Weight1,Weight2,...,Weightn}为分类器的权重,n为灰度直方图的特征维数,bias为偏置;
步骤4,测试图像标签预处理;
在对测试图像标签排序之前,对测试图像原有标签的不准确性、不全面性进行预处理;
步骤5,判断测试图像的类型;
利用所述步骤2的方法提取测试图像的显著性区域图,并提取显著性区域图的灰度直方图特征;将此特征向量输入SVM分类器,求出f的值,并根据f的值判断测试图像是场景类图像还是对象类图像;图像类型的判别公式如下:
Type = 1 , f ∈ [ α 1 , β 1 ] 0 f ∈ [ α 2 , β 2 ]
其中,α1和β1、α2和β2表示对象类、场景类图像经过SVM分类器分类取值范围上、下限,α2<β2≤α1<β1;Type表示图像类型,Type=1表示测试图像为对象类图像,Type=0为场景类图像;
步骤6,测试图像标签排序;
根据图像的类型选择不同的标签投票方法,对于场景类图像采用不同维数全局特征进行标签投票,对象类图像采用测试图像的显著图不同维数特征进行标签投票;然后对投票结果处理并进行排序。
2.根据权利要求1所述的基于WordNet语义相似度的多特征图像标签排序方法,其特征在于,所述步骤4对标签进行预处理还包括以下步骤:
步骤4.1,改善标签的不准确性;
读取样本库中的任意一张图像作为测试图像,图像对应的标签集合用T={T1,T2,...,Ti,...,Tn}表示,其中Ti表示测试图像第i个标签,一个标签表示一个独立的单词,将标签集合T中每个标签与知识库WordNet中的单词进行匹配,如果在知识库WordNet中找到与之匹配的标签,则默认单词拼写准确;否则,认为单词拼写有误,剔除该标签;
步骤4.2,改善标签的不全面性;
读取测试图像的标签数据信息,获取标签集合对应知识库WordNet中同义词集合,根据同义词集合获取知识库WordNet中对应的上位词、下位词集合;利用同义词、上位词、下位词集合对测试图像原有标签进行扩充;
步骤4.3,标签去噪;
利用知识库WordNet扩充之后的同义词、上位词、下位词标签集合,包含了一些非正常标签,比如,重复出现的标签,由多个单词组成标签,这些标签就是噪声标签;对扩充后的标签进行去噪处理,就是删除这些噪声标签。
3.根据权利要求1所述的基于WordNet语义相似度的多特征图像标签排序方法,其特征在于,所述步骤6对图像标签进行排序的方法还包括以下步骤:
步骤6.1,利用全局特征对场景类图像标签进行投票;
对于场景类测试图像,获取其不同维数全局特征,例如64维的颜色直方图、75维的边缘方向直方图、128维的小波纹理、144维的颜色相关图、255维的基于5×5块的颜色矩、500维的基于词袋模型特征F={F1,F2,F3,F4,F5,F6},用F1、F2、F3、F4、F5、F6分别表示64D、75D、128D、144D、255D、500D特征,并利用上述特征获取测试图像的k个最近邻图像,k的取值与判定近邻图像的限制条件有关,判定近邻图像的限制条件范围越大,k的取值越大;然后利用近邻图像标签对测试图像每个标签进行投票,当近邻图像标签与扩充标签相等时,票数增一;
步骤6.2,利用显著特征对对象类图像进行标签投票;
对于对象类图像,利用基于Itti模型外接矩形框迭代方法获得图像的显著图及显著图不同维数的特征FS={FS1,FS2,FS3,FS4,FS5,FS6},并利用此特征获取测试图像的k个最近邻显著图像,k的取值方法同所述步骤6.2;然后利用近邻图像的标签对测试图像的标签进行标签投票,当近邻图像标签与扩充标签相等时,票数增一;
步骤6.3,对测试图像标签进行排序;
将测试图像同一标签不同特征投票结果乘上一定权重并累加得到初步标签票数;接着将图像原有标签、同义词、上位词、下位词标签票数乘以不同比例得到进一步标签票数,并将此标签票数归一化得到单个标签概率;然后根据经验值去除概率高或者低的标签信息,因为出现概率很高的标签往往它的表现能力很弱,出现概率很低的标签与图像内容之间的相关度很低;最后将图像标签按照标签出现概率的大小进行排序即得到测试图像标签排序结果。
CN201410049041.XA 2014-02-12 2014-02-12 基于WordNet语义相似度的多特征图像标签排序方法 Active CN103810274B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410049041.XA CN103810274B (zh) 2014-02-12 2014-02-12 基于WordNet语义相似度的多特征图像标签排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410049041.XA CN103810274B (zh) 2014-02-12 2014-02-12 基于WordNet语义相似度的多特征图像标签排序方法

Publications (2)

Publication Number Publication Date
CN103810274A true CN103810274A (zh) 2014-05-21
CN103810274B CN103810274B (zh) 2017-03-29

Family

ID=50707044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410049041.XA Active CN103810274B (zh) 2014-02-12 2014-02-12 基于WordNet语义相似度的多特征图像标签排序方法

Country Status (1)

Country Link
CN (1) CN103810274B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653701A (zh) * 2015-12-31 2016-06-08 百度在线网络技术(北京)有限公司 模型生成方法及装置、词语赋权方法及装置
CN106126588A (zh) * 2016-06-17 2016-11-16 广州视源电子科技股份有限公司 提供相关词的方法和装置
CN106203483A (zh) * 2016-06-29 2016-12-07 天津大学 一种基于语义相关多模态映射方法的零样本图像分类方法
CN106709502A (zh) * 2016-11-18 2017-05-24 深圳信息职业技术学院 一种基于投票方法的多特征融合识别方法
CN106777283A (zh) * 2016-12-29 2017-05-31 北京奇虎科技有限公司 一种同义词的挖掘方法及装置
CN108647705A (zh) * 2018-04-23 2018-10-12 北京交通大学 基于图像和文本语义相似度的图像语义消歧方法和装置
CN108664998A (zh) * 2018-04-27 2018-10-16 上海爱优威软件开发有限公司 一种释义加强的图片训练方法及系统
CN109101946A (zh) * 2018-08-27 2018-12-28 Oppo广东移动通信有限公司 一种图像特征的提取方法、终端设备及存储介质
CN109816047A (zh) * 2019-02-19 2019-05-28 北京达佳互联信息技术有限公司 提供标签的方法、装置、设备及可读存储介质
CN110069647A (zh) * 2019-05-07 2019-07-30 广东工业大学 图像标签去噪方法、装置、设备及计算机可读存储介质
CN111626306A (zh) * 2019-03-25 2020-09-04 北京联合大学 一种显著图融合方法及系统
CN112016586A (zh) * 2020-07-08 2020-12-01 武汉智筑完美家居科技有限公司 图片分类方法及装置
CN115952312A (zh) * 2022-12-02 2023-04-11 北京工业大学 一种图像标签的自动标注与排序方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7809722B2 (en) * 2005-05-09 2010-10-05 Like.Com System and method for enabling search and retrieval from image files based on recognized information
CN101419606B (zh) * 2008-11-13 2011-10-05 浙江大学 一种基于语义和内容的半自动图像标注方法
CN102880612B (zh) * 2011-07-14 2015-05-06 富士通株式会社 图像标注方法及其装置

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653701B (zh) * 2015-12-31 2019-01-15 百度在线网络技术(北京)有限公司 模型生成方法及装置、词语赋权方法及装置
US10565253B2 (en) 2015-12-31 2020-02-18 Baidu Online Network Technology (Beijing) Co., Ltd. Model generation method, word weighting method, device, apparatus, and computer storage medium
WO2017113592A1 (zh) * 2015-12-31 2017-07-06 百度在线网络技术(北京)有限公司 模型生成方法、词语赋权方法、装置、设备及计算机存储介质
CN105653701A (zh) * 2015-12-31 2016-06-08 百度在线网络技术(北京)有限公司 模型生成方法及装置、词语赋权方法及装置
CN106126588A (zh) * 2016-06-17 2016-11-16 广州视源电子科技股份有限公司 提供相关词的方法和装置
CN106126588B (zh) * 2016-06-17 2019-09-20 广州视源电子科技股份有限公司 提供相关词的方法和装置
CN106203483A (zh) * 2016-06-29 2016-12-07 天津大学 一种基于语义相关多模态映射方法的零样本图像分类方法
CN106203483B (zh) * 2016-06-29 2019-06-11 天津大学 一种基于语义相关多模态映射方法的零样本图像分类方法
CN106709502A (zh) * 2016-11-18 2017-05-24 深圳信息职业技术学院 一种基于投票方法的多特征融合识别方法
CN106777283A (zh) * 2016-12-29 2017-05-31 北京奇虎科技有限公司 一种同义词的挖掘方法及装置
CN108647705A (zh) * 2018-04-23 2018-10-12 北京交通大学 基于图像和文本语义相似度的图像语义消歧方法和装置
CN108664998A (zh) * 2018-04-27 2018-10-16 上海爱优威软件开发有限公司 一种释义加强的图片训练方法及系统
CN109101946A (zh) * 2018-08-27 2018-12-28 Oppo广东移动通信有限公司 一种图像特征的提取方法、终端设备及存储介质
CN109101946B (zh) * 2018-08-27 2021-02-12 Oppo广东移动通信有限公司 一种图像特征的提取方法、终端设备及存储介质
CN109816047A (zh) * 2019-02-19 2019-05-28 北京达佳互联信息技术有限公司 提供标签的方法、装置、设备及可读存储介质
CN111626306A (zh) * 2019-03-25 2020-09-04 北京联合大学 一种显著图融合方法及系统
CN111626306B (zh) * 2019-03-25 2023-10-13 北京联合大学 一种显著图融合方法及系统
CN110069647A (zh) * 2019-05-07 2019-07-30 广东工业大学 图像标签去噪方法、装置、设备及计算机可读存储介质
CN112016586A (zh) * 2020-07-08 2020-12-01 武汉智筑完美家居科技有限公司 图片分类方法及装置
CN115952312A (zh) * 2022-12-02 2023-04-11 北京工业大学 一种图像标签的自动标注与排序方法

Also Published As

Publication number Publication date
CN103810274B (zh) 2017-03-29

Similar Documents

Publication Publication Date Title
CN103810274B (zh) 基于WordNet语义相似度的多特征图像标签排序方法
Vogel et al. A semantic typicality measure for natural scene categorization
Singh et al. From strings to things: Knowledge-enabled vqa model that can read and reason
CN109902285B (zh) 语料分类方法、装置、计算机设备及存储介质
CN110909164A (zh) 一种基于卷积神经网络的文本增强语义分类方法及系统
CN102385592B (zh) 图像概念的检测方法和装置
CN104376010B (zh) 用户推荐方法和装置
RU2760471C1 (ru) Способы и системы идентификации полей в документе
Theisen et al. Automatic discovery of political meme genres with diverse appearances
CN105593851A (zh) 用于跟踪与通过关联的文本和图像可识别的实体相关的微博消息的方法和装置
CN106228166B (zh) 字符图像的识别方法
Lee et al. Tag refinement in an image folksonomy using visual similarity and tag co-occurrence statistics
Jiang et al. Travel recommendation via author topic model based collaborative filtering
Gupta et al. Vico: Word embeddings from visual co-occurrences
CN108510307A (zh) 一种课程推荐方法及系统
CN111797239A (zh) 应用程序的分类方法、装置及终端设备
Madan et al. Synthetically trained icon proposals for parsing and summarizing infographics
CN105260385A (zh) 一种图片检索方法
CN104573711A (zh) 基于文本-物体-场景关系的物体和场景的图像理解方法
US9830533B2 (en) Analyzing and exploring images posted on social media
CN106227836A (zh) 基于图像与文字的无监督联合视觉概念学习系统及方法
Bai et al. News classifications with labeled LDA
Cucurull et al. Deep inference of personality traits by integrating image and word use in social networks
Imran et al. Event recognition from photo collections via pagerank
Bhatt et al. Indian monuments classification using support vector machine

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant