CN104376105A - 一种社会媒体中图像低层视觉特征与文本描述信息的特征融合系统及方法 - Google Patents

一种社会媒体中图像低层视觉特征与文本描述信息的特征融合系统及方法 Download PDF

Info

Publication number
CN104376105A
CN104376105A CN201410692629.7A CN201410692629A CN104376105A CN 104376105 A CN104376105 A CN 104376105A CN 201410692629 A CN201410692629 A CN 201410692629A CN 104376105 A CN104376105 A CN 104376105A
Authority
CN
China
Prior art keywords
image
word
text
feature
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410692629.7A
Other languages
English (en)
Other versions
CN104376105B (zh
Inventor
李超
赵彩贝
荣文戈
郑艳伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201410692629.7A priority Critical patent/CN104376105B/zh
Publication of CN104376105A publication Critical patent/CN104376105A/zh
Application granted granted Critical
Publication of CN104376105B publication Critical patent/CN104376105B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

一种社会媒体中图像低层视觉特征与文本描述信息的特征融合系统及方法:对图像的文本描述信息进行分词等处理,生成以单词为单位的每幅图像的文本描述集,统计整个图像集的文本描述集中出现过的单词及其全局出现概率;提取图像视觉特征,包括归一化的HSV空间颜色直方图和边缘方向直方图特征;根据图像底层特征计算图像间的视觉相似度,对每幅图像取与之视觉相似度最大的k幅图像生成其邻居图像集;对图像的视觉特征和文本描述信息进行特征融合,根据目标图像文本描述集中的单词在该图像邻居中出现的局部概率以及该单词在所有图像中出现的全局概率,计算该单词与目标图像的相关度。本发明可以提高图像文本描述信息的准确度。

Description

一种社会媒体中图像低层视觉特征与文本描述信息的特征融合系统及方法
技术领域
本发明涉及社会媒体中图像检索领域,具体涉及一种图像低层视觉特征与图像文本描述信息的特征融合系统及方法,计算文本描述信息与图像之间的相关度。
背景技术
随着现代多媒体技术以及网络技术的快速发展以及社会媒体的兴起,越来越多的用户热衷于在社会媒体中传输、分享图像,人们在上传图像的同时也可能会提供图像的标题、拍摄时间、图像内容等文本描述信息。目前越来越多的社会媒体分享平台(如Flickr等)给人们提供了标签服务,人们能够通过打标签的方式来标注图像,标签服务在很大程度上丰富了图像的文本描述信息。随着社会媒体中图像数量的急剧增大,如何快速、准确得从海量图像资源中查找到用户满意的图像成为一个很有意义也很有挑战性的问题。
传统的图像检索方法大致可以分为两类:基于文本的图像检索(TBIR)和基于内容的图像检索(CBIR)。图像的特征层次有低层视觉特征和高层语义特征。社会媒体中的图像主要包含两类信息:一是图像本身低层视觉信息,二是图像的文本描述信息,包括标题、元数据信息、标签和其他一些描述文本。
基于文本的图像检索起源于上个世纪七十年代,通过关键词的形式查询图像,在对用户查询请求和被检索图像的文本描述信息进行相似度匹配之前,需要对图像的文本描述信息进行关键字提取,并根据关键字对图像建立索引。目前多数商用的图像检索系统采用的都是基于文本的图像检索方法。基于文本的图像检索方法依赖图像的人工标注信息,在此基础上使用比较完善的文本检索算法进行检索,因此能够进行高效的检索。
基于内容的图像检索使用图像的低层视觉特征对图像进行检索,用户通过样例图像的方式进行检索。在建立图像数据库时,系统对图像进行分析并提取图像的低层视觉特征,以图像视觉特征建立索引。在用户进行检索时,首先提取样例图像的视觉特征,然后采用相似度匹配算法对样例图像的特征和图像库中图像的特征进行匹配,按照匹配度大小将图像返回给用户。
基于文本的图像检索依赖于文本关键字,图像检索仅对这些文本描述建立索引、进行匹配;然而文字标签很难完全表达丰富的图像内容,而且人工标注工作量巨大,且存在容易出错、比较泛化、主观性强等缺点。基于内容的图像检索仍是一个很有挑战性的研究,其核心问题是采用何种方式描述图像内容,这类图像检索主要集中在颜色、纹理、轮廓灯低层视觉特征提取的基础上,但由于图像底层特征的描述和提取、特征间相似度度量的复杂性,无法完全解决高层语义和低层特征之间的“语义鸿沟”,其技术仍不成熟。
发明内容
本发明要解决的技术问题是:克服现有技术的不足,提供一种社会媒体中图像低层视觉特征与文本描述信息的特征融合系统及方法,有效的提高了文本描述信息的准确性和完整性,更好地满足基于文本的图像检索对于文本准确性的要求。
而且本发明还可以提高图像文本描述信息的准确度,进而可以提高通过关键词进行图像检索的准确度。
本发明解决其技术问题所采用的技术方案:一种社会化媒体图像内容特征和文本描述信息融合系统,为了提高社会媒体图像的文本描述信息的准确性、完整性,进而提高基于文本的图像检索的准确性,本发明对图像的底层内容特征和文本描述信息进行了特征融合,提高文本描述信息的质量;
为了实现上述目的,本发明设计了如下4个模块:文本处理模块、图像视觉特征抽取模块、图像邻居计算模块、特征融合模块,如图1所示;图像数据库中图像的文本标注数据送至文本处理模块进行处理,图像数据送至图像视觉特征抽取模块,图像视觉特征抽取模块输出的视觉特征数据传送至图像邻居计算模块,最后将文本处理模块输出的文本信息和图像邻居计算模块输出的图像邻居信息送至特征融合模块进行特征融合,各模块的具体描述如下;
文本处理模块的输入数据来自图像数据库中图像的文本标注信息,对图像的标题等文本描述信息进行分词,对分词后的文本和图像的标签进行去停用词、提取词干处理;对每幅图像,保存其经处理后的单词列表中出现过的单词,作为该图像的文本描述集合;对整个图像集的文本描述集合,统计所有出现过的单词,并计算每个单词t的全局出现概率,即文本描述集合包含单词t的图像数与整个图像集的图像数的比值即文本描述集合包含单词t的图像数与整个图像集的图像数的比值,将文本处理模块输出的文本信息输出至特征融合模块;
图像视觉特征抽取模块的输入数据来自图像数据库中的图像数据,图像的特征层次有低层视觉特征和高层语义特征,对于每个图像,提取其全局视觉特征,包括归一化的HSV空间的颜色直方图和边缘方向直方图,每幅图像的低层视觉特征由这两组特征构成,每一组特征是一个向量,将图像视觉特征抽取模块输出的图像视觉特征输出至图像邻居计算模块;
图像邻居计算模块,利用图像视觉特征抽取模块提取的特征,对每幅图像,计算它和其它图像的距离并对按照距离大小对其他图像进行排序,以距离的大小来衡量图像间相似度的大小,距离越大相似度越小;保存与当前图像相似度最大的k个图像作为该图像的k个邻居,即该图像的图像邻居集;图像低层特征之间距离的计算采用欧氏距离,对四组特征的距离进行加权得到总距离,其计算公式如下:
dis ( i , j ) = Σ c = 1 2 α c dis c ( i , j )
st . Σ c = 1 2 α c = 1
dis c ( i , j ) = Σ m ( f im ( c ) - f jm ( c ) ) 2 , c = 1,2
其中,dis(i,j)表示图像i和图像j在所有底层特征上的总距离,disc(i,j)是图像i和图像j在特征c上的距离,αc是特征c的权重,所有权重之和为1;在计算每组特征之间的距离时,表示图像i的第c组特征的第m个分量,将图像邻居计算模块输出的图像的邻居信息输出至特征融合模块;
特征融合模块,利用文本处理模块输出的图像的文本信息,以及图像邻居计算模块输出的图像邻居信息进行图像的特征融合,基于相似图像不仅视觉特征应该相似,文本描述信息也应该相似的假设;首先对一幅图像的文本描述集合中的每一个单词,计算其在该图像的邻居中出现的概率,即局部出现概率,计算公式如下:
P l ( i ) ( t ) = | NN t ( i ) | | NN ( i ) |
其中,表示在图像i的邻居中图像集中单词t出现的局部概率,NN(i)表示图像i的邻居图像集合,|C|表示集合C的模,由于在邻居计算模块中指定邻居数目为k,故NN(i)的值为k,表示在图像i的邻居图像中,文本描述集合中包含单词t的图像集合;
对每幅图像文本描述集合中的每个单词,根据该单词在该图像的邻居图像中的局部出现概率以及该单词在所有图像中的全局出现概率,来修正该单词与该图像的相关度,如果该单词在该图像邻居中的局部出现概率远大于其全局出现概率,可以认为该单词与该图像较相关,相关度范围在[0,1]区间内,如果该单词在该图像邻居中的局部出现概率小于其全局出现概率,可以认为该单词与该图像的不相关;以局部出现概率减去全局出现概率作为调整后的相关度,若相关度小于0,将调整后的相关度置为0,最终相关度是原始相关度和调整后的相关度的加权和,单词与图像的相关度计算公式如下:
rel ( i ) ( t ) = α + ( 1 - α ) · max ( P l ( i ) ( t ) - P g ( t ) , 0 )
其中,rel(i)(t)表示图像i与单词t的相关度,由于在文本处理模块,图像的文本描述集合中每个单词的出现频率定为1,α和(1-α)分别为原始词频的权重和调整后相关度的权重,max(a,b)的值为a和b中的较大值,即为单词t在图像i的邻居中出现的局部概率与单词t在所有图像中的全局出现概率之差,若该差值小于零,则取零,若该差值大于零,相关度即为原始词频和该差值的加权和,特征融合模块计算完成。特征融合模块的输出是图像文本描述集中的单词与图像之间的相关度。
本发明与现有技术相比所具有的优点是:
(1)本发明同时利用图像的视觉特征和文本描述信息来计算文本和图像特征,基于低层特征相似的图像文本描述也应相似的假设,对这两者进行融合,生成了能够更准确地描述图像的特征,提高了图像的文本描述信息的准确度;
(2)本发明提供更准确的文本描述信息与图像的相关度特征,可以为以文本和图像的相关度为基础的应用,如基于文本的图像检索、图像分类等提供更准确的特征,应用场景广泛;
(3)本发明的图像低层特征提取模块可替换其他图像视觉特征提取方法,可扩展性高,灵活度高。
附图说明
图1为本发明的模块结构图;
图2为本发明的特征融合方法流程图。
具体实施方式
下面结合附图以及具体实施例进一步说明本发明。
如图2所示,社会媒体中的图像数据包含的信息有图像本身和图像的文本标注信息,本发明首先分别对图像本身进行视觉特征提取、对文本标注信息进行分词等处理,然后对这两种特征进行融合,结合视觉特征计算文本和图像的相关度,具体步骤如下:
步骤1:文本处理模块对图像的文本描述信息进行处理和统计,得到文本描述信息中出现的每个单词的全局出现概率,将统计得到的单词的全局出现概率送至特征融合模块,具体的处理统计步骤如步骤1.1和步骤1.2所述:
步骤1.1:对每幅图像的标题、作者、标签等文本描述信息进行分词,对分词后的单词列表和图像的标签一起进行去停用词、提取词干处理,保存每幅图像的单词列表作为该图像的文本描述集合,其中每个出现的单词只保留一次,即文本描述集合中每个单词的词频为1;此步骤处理后得到每幅图像文本描述信息中的单词列表;
步骤1.2:对整个图像集的文本描述集合,统计所有出现过的单词,并计算每个单词t的全局出现概率,其计算公式如下:
P g ( t ) = | I t | | I |
其中,Pg(t)是单词t的全局出现概率,It是文本描述集合中包含单词t的图像集合,I是所有图像集合,|C|是集合C的模,此步骤统计后得到文本描述集合中每个单词的全局出现概率,将统计得到的每个单词的全局出现概率送至步骤4;
步骤2:图像视觉特征抽取,对于每个图像,提取其全局低层视觉特征,包括:归一化的HSV空间的颜色直方图、边缘方向直方图、小波变换纹理特征,将这三组特征连接在一起构成图像的全局低层视觉特征,将抽取的全局低层视觉特征送至步骤3;
步骤2.1:HSV空间颜色直方图特征提取,首先将整幅图像由RGB空间转换到HSV空间,根据HSV颜色模型的特征对HSV空间值作如下处理:
(1)将v<0.2的颜色归入黑色,令h=0,s=0,v=0
(2)将s<0.2且v>0.8的颜色归入白色,h=0,s=0,v=1
(3)其他颜色归入彩色区域,h,s,v值不变
其中,h、s、v分别是HSV空间中色调、饱和度、亮度分量的值。
将HSV空间非等间隔量化,色调H空间量化成7级,饱和度S空间量化为2级,亮度V空间量化为2级,量化公式如下:
H = 0 , H ∈ ( 33,360 ] ∪ [ 0,22 ] 1 , H ∈ ( 22,45 ] 2 , H ∈ ( 45,70 ] 3 , H ∈ ( 70,155 ] 4 , H ∈ ( 155,186 ] 5 , H ∈ ( 186,278 ] 6 , H ∈ ( 278,330 ]
S = 0 , S ∈ ( 0.2,0.65 ] 1 , S ∈ ( 0.6,1 ]
V = 0 , V ∈ ( 0.2,0.7 ] 1 , V ∈ ( 0.7,1 ]
将三个颜色分量合成以为特征向量,公式如下:
L=4*H+2*S+V+8
这样L的取值范围是[0,35],计算L的分布得到36维的颜色直方图;
步骤2.2:边缘方向直方图特征提取,使用Canny算子进行边缘检测,计算水平方向梯度Fx和垂直方向梯度Fy,计算边缘梯度方向Dir:
Dir = arctan ( F y F x )
将方向矩阵Dir的每个值转换[0,360]为的角度,以5度为单位,将360度的角空间量化为72级,统计获取72维边缘方向直方图;
步骤3:图像邻居计算模块,利用图像视觉特征抽取模块提取的图像全局低层视觉特征,对每幅图像,计算它和其它图像的距离并对按照距离大小对其他图像进行排序,以距离的大小来衡量图像间相似度的大小,距离越大相似度越小;保存与当前图像相似度最大的k个图像作为该图像的k个邻居,即该图像的邻居图像集;
步骤3.1:首先计算每两幅图像的各组低层视觉特征之间的欧氏距离,以这3组距离的加权和作为这两幅图像的距离,计算公式如下:
dis ( i , j ) = Σ c = 1 2 α c dis c ( i , j )
st . Σ c = 1 2 α c = 1
dis c ( i , j ) = Σ m ( f im ( c ) - f jm ( c ) ) 2 , c = 1,2
其中,dis(i,j)表示图像i和图像j在所有低层视觉特征上的总距离,disc(i,j)是图像i和图像j在特征c上的距离,这里使用的是欧氏距离,αc是特征c的权重,所有权重之和为1;在计算每组特征之间的距离时,表示图像i的第c组特征的第m个分量;
步骤3.2:对每幅图像,按照其与其他图像的距离进行升序排列,取距离最小的k幅图像作为该图像的邻居集合;
步骤4:特征融合模块,利用步骤2计算的单词出现的全局概率以及步骤3计算的图像邻居数据,根据每幅图像的单词描述在该图像的邻居集合中的分布计算单词和图像之间的相关度,具体步骤如步骤4.1和4.2;
步骤4.1:首先对一幅图像的文本描述集合中的每一个单词,计算其在该图像的邻居中出现的概率,即局部出现概率,计算公式如下:
P l ( i ) ( t ) = | NN t ( i ) | | NN ( i ) |
其中,表示在图像i的邻居中图像集中单词t出现的局部概率,NN(i)表示图像i的邻居图像集合,|C|表示集合C的模,由于在邻居计算模块中指定邻居数目为k,故NN(i)的值为k,表示在图像i的邻居图像中,文本描述集合中包含单词t的图像集合;
步骤4.2:对每幅图像文本描述集合中的每个单词,根据该单词在该图像的邻居图像中的局部出现概率以及该单词在所有图像中的全局出现概率,来修正该单词与该图像的相关度:如果该单词在该图像邻居中的局部出现概率远大于其全局出现概率,可以认为该单词与该图像的相关度较大,如果该单词在该图像邻居中的局部出现概率小于其全局出现概率,可以认为该单词与该图像的相关度较小;以局部出现概率减去全局出现概率作为调整后的相关度,若相关度小于0,将调整后的相关度置为0,最终相关度是原始相关度和调整后的相关度的加权和,其计算公式如下:
rel ( i ) ( t ) = α + ( 1 - α ) · max ( P l ( i ) ( t ) - P g ( t ) , 0 )
其中,rel(i)(t)表示图像i与单词t的相关度,由于在文本处理模块,图像的文本描述集合中每个单词的出现频率定为1,α和(1-α)分别为原始词频的权重和调整后相关度的权重,max(a,b)的值为a和b中的较大值,即为单词t在图像i的邻居中出现的局部概率与单词t在所有图像中的全局出现概率之差,若该差值小于零,则取零,若该差值大于零,相关度即为原始词频和该差值的加权和。这里计算出的图像标准信息中的单词与图像相关度即为特征融合模块最终的输出。

Claims (6)

1.一种社会媒体中图像低层视觉特征与文本描述信息的特征融合系统,其特征在于:对图像的低层视觉特征和图像的文本描述信息进行特征融合,提高图像文本描述信息的准确度,进而提高基于文本的图像检索的准确度,包括文本处理模块、图像视觉特征抽取模块、图像邻居计算模块和特征融合模块;
文本处理模块,根据的图像数据库中图像的文本标注信息,对图像的标题、元数据信息、标签文本标注信息进行分词,对分词后的文本进行去停用词、提取词干处理,以经处理后的单词文本生成该图像的文本描述集;对整个图像集的文本描述集合,统计所有出现过的单词,并计算每个单词t的全局出现概率,即文本描述集合包含单词t的图像数目与整个图像集中的图像数目的比值,将文本处理模块输出的文本信息输出至特征融合模块;
图像视觉特征抽取模块,图像的特征层次有低层视觉特征和高层语义特征,根据来自图像数据库中的图像数据,对于每幅图像提取全局低层视觉特征,包括HSV空间的颜色直方图和边缘方向直方图,并对直方图特征进行归一化,每幅图像的低层视觉特征由这两组特征连接组成,每一组特征是一个向量,将图像视觉特征抽取模块输出的图像视觉特征输出至图像邻居计算模块;
图像邻居计算模块,利用图像视觉特征抽取模块提取的特征,计算每幅图像和其它图像的相似度并对按照相似度由大到小对其他图像进行排序;以与当前图像相似度最大的k幅图像作为该图像的邻居图像集;图像之间相似度采用欧式距离进行计算,欧式距离越大相似度越小,将图像邻居计算模块输出的图像的邻居信息输出至特征融合模块;
特征融合模块,利用文本处理模块输出的图像的文本信息,以及图像邻居计算模块输出的图像邻居信息进行图像的特征融合,基于相似图像不仅视觉特征应该相似,文本描述信息也应该相似的假设,融合过程为:首先对目标图像的文本描述集合中的每一个单词,计算其在该图像的邻居中出现的概率,即局部出现概率,计算公式如下:
P l ( i ) ( t ) = | N N t ( i ) | | N N ( i ) |
其中,表示在图像i的邻居中图像集中单词t出现的局部概率,NN(i)表示图像i的邻居图像集合,|C|表示集合C的模,由于在邻居计算模块中指定邻居数目为k,故NN(i)的值为k,表示在图像i的邻居图像中,文本描述集合中包含单词t的图像集合;
对每幅图像文本描述集合中的每个单词,根据该单词在该图像的邻居图像中的局部出现概率以及该单词在所有图像中的全局出现概率,计算该单词与该图像的相关度,如果该单词在该图像邻居中的局部出现概率远大于其全局出现概率,则认为该单词与该图像的较相关,相关度较大,即相关范围在[0,1]区间内,如果该单词在该图像邻居中的局部出现概率小于其全局出现概率,则认为该单词与该图像不相关;以局部出现概率减去全局出现概率作为该单词与图像调整后的相关度,若调整后的相关度小于0,则将该相关度置为0,最终相关度是原始相关度和调整后的相关度的加权和,单词与图像的相关度计算公式如下:
rel ( i ) ( t ) = α + ( 1 - α ) · max ( P l ( i ) ( t ) - P g ( t ) , 0 )
其中,rel(i)(t)表示图像i与单词t的相关度,由于在文本处理模块,图像的文本描述集合中每个单词的出现频率定为1,α和(1-α)分别为原始词频的权重和调整后相关度的权重,max(a,b)的值为a和b中的较大值,即为单词t在图像i的邻居中出现的局部概率与单词t在所有图像中的全局出现概率之差,若改差值小于零,则取零;最终得到图像文本描述集的单词和该图像之间的相关度,从而完成图像的特征融合。
2.一种社会媒体中图像低层视觉特征与文本描述信息的特征融合方法,其特征在于实现步骤如下:
步骤1:文本处理:对图像的文本描述信息进行处理和统计,得到文本描述信息中出现的每个单词的全局出现概率,将统计得到的单词的全局出现概率送至特征融合模块,具体的处理统计步骤如步骤1.1和步骤1.2所述:
步骤1.1:对每幅图像的标题、作者、标签,文本描述信息进行分词,对分词后的单词列表和图像的标签一起进行去停用词、提取词干处理,保存每幅图像的单词列表作为该图像的文本描述集合,其中每个出现的单词只保留一次,即文本描述集合中每个单词的词频为1;此步骤处理后得到每幅图像文本描述信息中的单词列表;
步骤1.2:对整个图像集的文本描述集合,统计所有出现过的单词,并计算每个单词t的全局出现概率,计算公式如下:
P g ( t ) = | I t | | I |
其中,Pg(t)是单词t的全局出现概率,It是文本描述集合中包含单词t的图像集合,I是所有图像集合,|C|是集合C的模;此步骤统计后得到文本描述集合中每个单词的全局出现概率,将统计得到的每个单词的全局出现概率送至步骤4;
步骤2:图像视觉特征抽取:对于每个图像,提取其全局低层视觉特征,包括:归一化的HSV空间的颜色直方图特征、边缘方向直方图和小波变换纹理特征,将这三组特征连接在一起构成图像的全局低层视觉特征,将抽取的全局低层视觉特征送至步骤3;
步骤3:图像邻居计算:利用步骤2图像视觉特征抽取步骤提取的全局低层视觉特征,对每幅图像,计算它和其它图像在低层视觉特征上的距离并对按照距离大小对其他图像进行排序,以距离的大小来衡量图像间相似度的大小,距离越大相似度越小;保存与当前图像相似度最大的k个图像作为该图像的k个邻居,即邻居图像集;
步骤4:特征融合:利用步骤1计算的单词出现的全局概率以及步骤3计算的图像邻居数据,根据每幅图像的单词描述在该图像的邻居集合中的分布,计算单词和图像之间的相关度,具体步骤如步骤4.1和4.2;
步骤4.1:首先对一幅图像的文本描述集合中的每一个单词,计算其在该图像的邻居中出现的概率,即局部出现概率,计算公式如下:
P l ( i ) ( t ) = | N N t ( i ) | | N N ( i ) |
其中,表示在图像i的邻居中,单词t出现的局部概率,NN(i)表示图像i的邻居图像集合,由于在邻居计算模块指定邻居数目为k,故NN(i)的值为k,表示在图像i的邻居中,文本描述集合中包含单词t的图像集合;
步骤4.2:对每幅图像文本描述集合中的每个单词,根据该单词在该图像的邻居图像中的局部出现概率以及该单词在所有图像中的全局出现概率,来修正该单词与该图像的相关度:如果该单词在该图像邻居中的局部出现概率远大于其全局出现概率,则认为该单词与该图像的相关度较大,如果该单词在该图像邻居中的局部出现概率小于其全局出现概率,则认为该单词与该图像的相关度较小;以局部出现概率减去全局出现概率作为调整后的相关度,若相关度小于0,将调整后的相关度置为0,最终相关度是原始相关度和调整后的相关度的加权和,其计算公式如下:
rel ( i ) ( t ) = α + ( 1 - α ) · max ( P l ( i ) ( t ) - P g ( t ) , 0 )
其中,rel(i)(t)表示图像i与单词t的相关度,由于在文本处理步骤,图像的文本描述集合中每个单词的出现频率定为1,α和(1-α)分别为原始词频的权重和调整后相关度的权重,max(a,b)的值为a和b中的较大值,即为单词t在图像i的邻居中出现的局部概率与单词t在所有图像中的全局出现概率之差,若该差值小于零,则取零,若该差值大于零,相关度即为原始词频和该差值的加权和,计算出的图像标准信息中的单词与图像相关度即为特征融合模块最终的输出。
3.根据权利要求2所述的社会媒体中图像低层视觉特征与文本描述信息的特征融合方法,其特征在于:所述步骤2中HSV空间颜色直方图特征提取步骤为:
首先将整幅图像由RGB空间转换到HSV空间,根据HSV颜色模型的特征对HSV空间值作如下处理:
(1)将v<0.2的颜色归入黑色,令h=0,s=0,v=0;
(2)将s<0.2且v>0.8的颜色归入白色,h=0,s=0,v=1;
(3)其他颜色归入彩色区域,h,s,v不变;
其中,h、s、v分别是HSV空间中色调、饱和度、亮度分量的值;
将HSV空间非等间隔量化,色调H空间量化成7级,饱和度S空间量化为2级,亮度V空间量化为2级,量化公式如下:
H = 0 , H ∈ ( 33,360 ] ∪ [ 0,22 ] 1 , H ∈ ( 22,45 ] 2 , H ∈ ( 45,70 ] 3 , H ∈ ( 70,155 ] 4 , H ∈ ( 155,186 ] 5 , H ∈ ( 186,278 ] 6 , H ∈ ( 278,330 ]
S = 0 , S ∈ ( 0.2,0.65 ] 1 , S ∈ ( 0.6,1 ]
V = 0 , V ∈ ( 0.2,0.7 ] 1 , V ∈ ( 0.7,1 ]
将三个颜色分量合成以为特征向量,公式如下:
L=4*H+2*S+V+8
这样L的取值范围是[0,35],计算L的分布得到36维的颜色直方图。
4.根据权利要求1所述的社会媒体中图像低层视觉特征与文本描述信息的特征融合方法,其特征在于:所述步骤2中边缘方向直方图特征提取时,使用Canny算子进行边缘检测,计算水平方向梯度Fx和垂直方向梯度Fy,计算边缘梯度方向Dir:
Dir = arctan ( F y F x )
将方向矩阵Dir的每个值转换为[0,360]的角度,以5度为单位,将360度的角空间量化为72级,统计获取72维边缘方向直方图。
5.根据权利要求2所述的社会媒体中图像低层视觉特征与文本描述信息的特征融合方法,其特征在于:所述步骤3步骤中对每幅图像,计算它和其它图像在低层视觉特征上的距离的过程为:首先计算每两幅图像的各组视觉特征之间的欧氏距离,以这3组距离的加权和作为这两幅图像在低层视觉特征上的距离,计算公式如下:
dis ( i , j ) = Σ c = 1 2 α c dis c ( i , j )
st . Σ c = 1 2 α c = 1
dis c ( i , j ) = Σ m ( f im ( c ) - f jm ( c ) ) 2 , c = 1,2
其中,dis(i,j)表示图像i和图像j在所有低层视觉特征上的总距离,disc(i,j)是图像i和图像j在特征c上的距离,这里使用的是欧氏距离,αc是特征c的权重,所有权重之和为1;在计算每组特征之间的距离时,表示图像i的第c组特征的第m个分量。
6.根据权利要求2所述的社会媒体中图像低层视觉特征与文本描述信息的特征融合方法,其特征在于:所述步骤3中对每幅图像,按照其与其他图像的距离进行升序排列。
CN201410692629.7A 2014-11-26 2014-11-26 一种社会媒体中图像低层视觉特征与文本描述信息的特征融合系统及方法 Expired - Fee Related CN104376105B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410692629.7A CN104376105B (zh) 2014-11-26 2014-11-26 一种社会媒体中图像低层视觉特征与文本描述信息的特征融合系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410692629.7A CN104376105B (zh) 2014-11-26 2014-11-26 一种社会媒体中图像低层视觉特征与文本描述信息的特征融合系统及方法

Publications (2)

Publication Number Publication Date
CN104376105A true CN104376105A (zh) 2015-02-25
CN104376105B CN104376105B (zh) 2017-08-25

Family

ID=52555012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410692629.7A Expired - Fee Related CN104376105B (zh) 2014-11-26 2014-11-26 一种社会媒体中图像低层视觉特征与文本描述信息的特征融合系统及方法

Country Status (1)

Country Link
CN (1) CN104376105B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653701A (zh) * 2015-12-31 2016-06-08 百度在线网络技术(北京)有限公司 模型生成方法及装置、词语赋权方法及装置
CN105701173A (zh) * 2016-01-05 2016-06-22 中国电影科学技术研究所 一种基于外观设计专利的多模态图像检索方法
CN106529606A (zh) * 2016-12-01 2017-03-22 中译语通科技(北京)有限公司 一种提升图像识别准确率的方法
WO2017113232A1 (zh) * 2015-12-30 2017-07-06 中国科学院深圳先进技术研究院 一种基于深度学习的产品分类方法及装置
CN108256549A (zh) * 2017-12-13 2018-07-06 北京达佳互联信息技术有限公司 图像分类方法、装置及终端
WO2019052403A1 (zh) * 2017-09-12 2019-03-21 腾讯科技(深圳)有限公司 图像文本匹配模型的训练方法、双向搜索方法及相关装置
CN110046271A (zh) * 2019-03-22 2019-07-23 中国科学院西安光学精密机械研究所 一种基于声音指导的遥感图像描述方法
CN110334778A (zh) * 2019-07-16 2019-10-15 同方知网数字出版技术股份有限公司 一种基于描述内容与图像内容特征的图像综合相似分析方法
CN110598038A (zh) * 2019-09-27 2019-12-20 京东方科技集团股份有限公司 画作标签生成方法及电子设备
CN111160452A (zh) * 2019-12-25 2020-05-15 北京中科研究院 一种基于预训练语言模型的多模态网络谣言检测方法
CN111241309A (zh) * 2020-01-07 2020-06-05 腾讯科技(深圳)有限公司 多媒体资源搜索方法、装置及存储介质
CN111708819A (zh) * 2020-05-28 2020-09-25 北京百度网讯科技有限公司 用于信息处理的方法、装置、电子设备和存储介质
CN112528905A (zh) * 2020-12-18 2021-03-19 上海海事大学 一种图像处理方法、装置及计算机存储介质
CN112966760A (zh) * 2021-03-15 2021-06-15 清华大学 融合文本和图像数据的神经网络及其建筑结构的设计方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030021481A1 (en) * 2001-07-25 2003-01-30 Nec Corporation Image retrieval apparatus and image retrieving method
US6594386B1 (en) * 1999-04-22 2003-07-15 Forouzan Golshani Method for computerized indexing and retrieval of digital images based on spatial color distribution
CN101388022A (zh) * 2008-08-12 2009-03-18 北京交通大学 一种融合文本语义和视觉内容的Web人像检索方法
CN101706780A (zh) * 2009-09-03 2010-05-12 北京交通大学 一种基于视觉注意力模型的图像语义检索方法
CN103810299A (zh) * 2014-03-10 2014-05-21 西安电子科技大学 基于多特征融合的图像检索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6594386B1 (en) * 1999-04-22 2003-07-15 Forouzan Golshani Method for computerized indexing and retrieval of digital images based on spatial color distribution
US20030021481A1 (en) * 2001-07-25 2003-01-30 Nec Corporation Image retrieval apparatus and image retrieving method
CN101388022A (zh) * 2008-08-12 2009-03-18 北京交通大学 一种融合文本语义和视觉内容的Web人像检索方法
CN101706780A (zh) * 2009-09-03 2010-05-12 北京交通大学 一种基于视觉注意力模型的图像语义检索方法
CN103810299A (zh) * 2014-03-10 2014-05-21 西安电子科技大学 基于多特征融合的图像检索方法

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017113232A1 (zh) * 2015-12-30 2017-07-06 中国科学院深圳先进技术研究院 一种基于深度学习的产品分类方法及装置
US10565253B2 (en) 2015-12-31 2020-02-18 Baidu Online Network Technology (Beijing) Co., Ltd. Model generation method, word weighting method, device, apparatus, and computer storage medium
CN105653701A (zh) * 2015-12-31 2016-06-08 百度在线网络技术(北京)有限公司 模型生成方法及装置、词语赋权方法及装置
CN105653701B (zh) * 2015-12-31 2019-01-15 百度在线网络技术(北京)有限公司 模型生成方法及装置、词语赋权方法及装置
CN105701173A (zh) * 2016-01-05 2016-06-22 中国电影科学技术研究所 一种基于外观设计专利的多模态图像检索方法
CN106529606A (zh) * 2016-12-01 2017-03-22 中译语通科技(北京)有限公司 一种提升图像识别准确率的方法
WO2019052403A1 (zh) * 2017-09-12 2019-03-21 腾讯科技(深圳)有限公司 图像文本匹配模型的训练方法、双向搜索方法及相关装置
US11699298B2 (en) 2017-09-12 2023-07-11 Tencent Technology (Shenzhen) Company Limited Training method of image-text matching model, bi-directional search method, and relevant apparatus
CN110532571A (zh) * 2017-09-12 2019-12-03 腾讯科技(深圳)有限公司 文本处理方法及相关装置
CN110532571B (zh) * 2017-09-12 2022-11-18 腾讯科技(深圳)有限公司 文本处理方法及相关装置
US11087166B2 (en) 2017-09-12 2021-08-10 Tencent Technology (Shenzhen) Company Limited Training method of image-text matching model, bi-directional search method, and relevant apparatus
CN108256549A (zh) * 2017-12-13 2018-07-06 北京达佳互联信息技术有限公司 图像分类方法、装置及终端
CN110046271A (zh) * 2019-03-22 2019-07-23 中国科学院西安光学精密机械研究所 一种基于声音指导的遥感图像描述方法
CN110046271B (zh) * 2019-03-22 2021-06-22 中国科学院西安光学精密机械研究所 一种基于声音指导的遥感图像描述方法
CN110334778B (zh) * 2019-07-16 2021-08-06 同方知网数字出版技术股份有限公司 基于描述内容与图像内容特征的图像综合相似分析方法
CN110334778A (zh) * 2019-07-16 2019-10-15 同方知网数字出版技术股份有限公司 一种基于描述内容与图像内容特征的图像综合相似分析方法
CN110598038A (zh) * 2019-09-27 2019-12-20 京东方科技集团股份有限公司 画作标签生成方法及电子设备
CN111160452A (zh) * 2019-12-25 2020-05-15 北京中科研究院 一种基于预训练语言模型的多模态网络谣言检测方法
CN111241309A (zh) * 2020-01-07 2020-06-05 腾讯科技(深圳)有限公司 多媒体资源搜索方法、装置及存储介质
CN111708819A (zh) * 2020-05-28 2020-09-25 北京百度网讯科技有限公司 用于信息处理的方法、装置、电子设备和存储介质
CN111708819B (zh) * 2020-05-28 2023-04-07 北京百度网讯科技有限公司 用于信息处理的方法、装置、电子设备和存储介质
CN112528905A (zh) * 2020-12-18 2021-03-19 上海海事大学 一种图像处理方法、装置及计算机存储介质
CN112528905B (zh) * 2020-12-18 2024-04-05 上海海事大学 一种图像处理方法、装置及计算机存储介质
CN112966760A (zh) * 2021-03-15 2021-06-15 清华大学 融合文本和图像数据的神经网络及其建筑结构的设计方法

Also Published As

Publication number Publication date
CN104376105B (zh) 2017-08-25

Similar Documents

Publication Publication Date Title
CN104376105A (zh) 一种社会媒体中图像低层视觉特征与文本描述信息的特征融合系统及方法
Jing et al. Visual search at pinterest
CN102012939B (zh) 综合颜色和局部不变特征匹配的动画场景自动标注方法
CN102073748B (zh) 一种基于视觉关键词的遥感影像语义检索方法
CN111914107B (zh) 一种基于多通道注意力区域扩展的实例检索方法
US20080162561A1 (en) Method and apparatus for semantic super-resolution of audio-visual data
Carneiro et al. A database centric view of semantic image annotation and retrieval
CN105389326B (zh) 基于弱匹配概率典型相关性模型的图像标注方法
CN103824053A (zh) 一种人脸图像的性别标注方法及人脸性别检测方法
CN102663015A (zh) 基于特征袋模型和监督学习的视频语义标注方法
Madan et al. Synthetically trained icon proposals for parsing and summarizing infographics
Solli et al. Emotion related structures in large image databases
CN110059222A (zh) 一种基于协同过滤的视频标签添加方法
Dharani et al. Content based image retrieval system using feature classification with modified KNN algorithm
Wang et al. Unsupervised segmentation of greenhouse plant images based on modified Latent Dirichlet Allocation
Nguyen et al. Adaptive nonparametric image parsing
Xue et al. Research of image retrieval based on color
CN110287369A (zh) 一种基于语义的视频检索方法及系统
Lu et al. Image categorization via robust pLSA
James et al. Interactive video asset retrieval using sketched queries
Niaz et al. EURECOM at TrecVid 2012: The Light Semantic Indexing Task.
CN108182443A (zh) 一种基于决策树的图像自动标注方法和装置
Chu et al. Predicting occupation from images by combining face and body context information
Smith et al. Massive-scale learning of image and video semantic concepts
Li et al. Optimized learning instance-based image retrieval

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170825

Termination date: 20181126