CN104376105A

CN104376105A - 一种社会媒体中图像低层视觉特征与文本描述信息的特征融合系统及方法

Info

Publication number: CN104376105A
Application number: CN201410692629.7A
Authority: CN
Inventors: 李超; 赵彩贝; 荣文戈; 郑艳伟
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2014-11-26
Filing date: 2014-11-26
Publication date: 2015-02-25
Anticipated expiration: 2034-11-26
Also published as: CN104376105B

Abstract

一种社会媒体中图像低层视觉特征与文本描述信息的特征融合系统及方法：对图像的文本描述信息进行分词等处理，生成以单词为单位的每幅图像的文本描述集，统计整个图像集的文本描述集中出现过的单词及其全局出现概率；提取图像视觉特征，包括归一化的HSV空间颜色直方图和边缘方向直方图特征；根据图像底层特征计算图像间的视觉相似度，对每幅图像取与之视觉相似度最大的k幅图像生成其邻居图像集；对图像的视觉特征和文本描述信息进行特征融合，根据目标图像文本描述集中的单词在该图像邻居中出现的局部概率以及该单词在所有图像中出现的全局概率，计算该单词与目标图像的相关度。本发明可以提高图像文本描述信息的准确度。

Description

一种社会媒体中图像低层视觉特征与文本描述信息的特征融合系统及方法

技术领域

本发明涉及社会媒体中图像检索领域，具体涉及一种图像低层视觉特征与图像文本描述信息的特征融合系统及方法，计算文本描述信息与图像之间的相关度。

背景技术

随着现代多媒体技术以及网络技术的快速发展以及社会媒体的兴起，越来越多的用户热衷于在社会媒体中传输、分享图像，人们在上传图像的同时也可能会提供图像的标题、拍摄时间、图像内容等文本描述信息。目前越来越多的社会媒体分享平台(如Flickr等)给人们提供了标签服务，人们能够通过打标签的方式来标注图像，标签服务在很大程度上丰富了图像的文本描述信息。随着社会媒体中图像数量的急剧增大，如何快速、准确得从海量图像资源中查找到用户满意的图像成为一个很有意义也很有挑战性的问题。

传统的图像检索方法大致可以分为两类：基于文本的图像检索(TBIR)和基于内容的图像检索(CBIR)。图像的特征层次有低层视觉特征和高层语义特征。社会媒体中的图像主要包含两类信息：一是图像本身低层视觉信息，二是图像的文本描述信息，包括标题、元数据信息、标签和其他一些描述文本。

基于文本的图像检索起源于上个世纪七十年代，通过关键词的形式查询图像，在对用户查询请求和被检索图像的文本描述信息进行相似度匹配之前，需要对图像的文本描述信息进行关键字提取，并根据关键字对图像建立索引。目前多数商用的图像检索系统采用的都是基于文本的图像检索方法。基于文本的图像检索方法依赖图像的人工标注信息，在此基础上使用比较完善的文本检索算法进行检索，因此能够进行高效的检索。

基于内容的图像检索使用图像的低层视觉特征对图像进行检索，用户通过样例图像的方式进行检索。在建立图像数据库时，系统对图像进行分析并提取图像的低层视觉特征，以图像视觉特征建立索引。在用户进行检索时，首先提取样例图像的视觉特征，然后采用相似度匹配算法对样例图像的特征和图像库中图像的特征进行匹配，按照匹配度大小将图像返回给用户。

基于文本的图像检索依赖于文本关键字，图像检索仅对这些文本描述建立索引、进行匹配；然而文字标签很难完全表达丰富的图像内容，而且人工标注工作量巨大，且存在容易出错、比较泛化、主观性强等缺点。基于内容的图像检索仍是一个很有挑战性的研究，其核心问题是采用何种方式描述图像内容，这类图像检索主要集中在颜色、纹理、轮廓灯低层视觉特征提取的基础上，但由于图像底层特征的描述和提取、特征间相似度度量的复杂性，无法完全解决高层语义和低层特征之间的“语义鸿沟”，其技术仍不成熟。

发明内容

本发明要解决的技术问题是：克服现有技术的不足，提供一种社会媒体中图像低层视觉特征与文本描述信息的特征融合系统及方法，有效的提高了文本描述信息的准确性和完整性，更好地满足基于文本的图像检索对于文本准确性的要求。

而且本发明还可以提高图像文本描述信息的准确度，进而可以提高通过关键词进行图像检索的准确度。

本发明解决其技术问题所采用的技术方案：一种社会化媒体图像内容特征和文本描述信息融合系统，为了提高社会媒体图像的文本描述信息的准确性、完整性，进而提高基于文本的图像检索的准确性，本发明对图像的底层内容特征和文本描述信息进行了特征融合，提高文本描述信息的质量；

为了实现上述目的，本发明设计了如下4个模块：文本处理模块、图像视觉特征抽取模块、图像邻居计算模块、特征融合模块，如图1所示；图像数据库中图像的文本标注数据送至文本处理模块进行处理，图像数据送至图像视觉特征抽取模块，图像视觉特征抽取模块输出的视觉特征数据传送至图像邻居计算模块，最后将文本处理模块输出的文本信息和图像邻居计算模块输出的图像邻居信息送至特征融合模块进行特征融合，各模块的具体描述如下；

文本处理模块的输入数据来自图像数据库中图像的文本标注信息，对图像的标题等文本描述信息进行分词，对分词后的文本和图像的标签进行去停用词、提取词干处理；对每幅图像，保存其经处理后的单词列表中出现过的单词，作为该图像的文本描述集合；对整个图像集的文本描述集合，统计所有出现过的单词，并计算每个单词t的全局出现概率，即文本描述集合包含单词t的图像数与整个图像集的图像数的比值即文本描述集合包含单词t的图像数与整个图像集的图像数的比值，将文本处理模块输出的文本信息输出至特征融合模块；

图像视觉特征抽取模块的输入数据来自图像数据库中的图像数据，图像的特征层次有低层视觉特征和高层语义特征，对于每个图像，提取其全局视觉特征，包括归一化的HSV空间的颜色直方图和边缘方向直方图，每幅图像的低层视觉特征由这两组特征构成，每一组特征是一个向量，将图像视觉特征抽取模块输出的图像视觉特征输出至图像邻居计算模块；

图像邻居计算模块，利用图像视觉特征抽取模块提取的特征，对每幅图像，计算它和其它图像的距离并对按照距离大小对其他图像进行排序，以距离的大小来衡量图像间相似度的大小，距离越大相似度越小；保存与当前图像相似度最大的k个图像作为该图像的k个邻居，即该图像的图像邻居集；图像低层特征之间距离的计算采用欧氏距离，对四组特征的距离进行加权得到总距离，其计算公式如下：

dis (i, j) = Σ_{c = 1}^{2} α_{c} {dis}_{c} (i, j)

st . Σ_{c = 1}^{2} α_{c} = 1

{dis}_{c} (i, j) = \sqrt{\underset{m}{Σ} {(f_{im}^{(c)} - f_{jm}^{(c)})}^{2}}, c = 1,2

其中，dis(i,j)表示图像i和图像j在所有底层特征上的总距离，dis_c(i,j)是图像i和图像j在特征c上的距离，α_c是特征c的权重，所有权重之和为1；在计算每组特征之间的距离时，表示图像i的第c组特征的第m个分量，将图像邻居计算模块输出的图像的邻居信息输出至特征融合模块；

特征融合模块,利用文本处理模块输出的图像的文本信息，以及图像邻居计算模块输出的图像邻居信息进行图像的特征融合，基于相似图像不仅视觉特征应该相似，文本描述信息也应该相似的假设；首先对一幅图像的文本描述集合中的每一个单词，计算其在该图像的邻居中出现的概率，即局部出现概率，计算公式如下：

P_{l}^{(i)} (t) = \frac{| {NN}_{t}^{(i)} |}{| {NN}^{(i)} |}

其中，表示在图像i的邻居中图像集中单词t出现的局部概率，NN⁽ⁱ⁾表示图像i的邻居图像集合，|C|表示集合C的模，由于在邻居计算模块中指定邻居数目为k，故NN⁽ⁱ⁾的值为k，表示在图像i的邻居图像中，文本描述集合中包含单词t的图像集合；

对每幅图像文本描述集合中的每个单词，根据该单词在该图像的邻居图像中的局部出现概率以及该单词在所有图像中的全局出现概率，来修正该单词与该图像的相关度，如果该单词在该图像邻居中的局部出现概率远大于其全局出现概率，可以认为该单词与该图像较相关，相关度范围在[0,1]区间内，如果该单词在该图像邻居中的局部出现概率小于其全局出现概率，可以认为该单词与该图像的不相关；以局部出现概率减去全局出现概率作为调整后的相关度，若相关度小于0，将调整后的相关度置为0，最终相关度是原始相关度和调整后的相关度的加权和，单词与图像的相关度计算公式如下：

{rel}^{(i)} (t) = α + (1 - α) \cdot \max (P_{l}^{(i)} (t) - P_{g} (t), 0)

其中，rel⁽ⁱ⁾(t)表示图像i与单词t的相关度，由于在文本处理模块，图像的文本描述集合中每个单词的出现频率定为1，α和(1-α)分别为原始词频的权重和调整后相关度的权重，max(a,b)的值为a和b中的较大值，即为单词t在图像i的邻居中出现的局部概率与单词t在所有图像中的全局出现概率之差，若该差值小于零，则取零,若该差值大于零，相关度即为原始词频和该差值的加权和，特征融合模块计算完成。特征融合模块的输出是图像文本描述集中的单词与图像之间的相关度。

本发明与现有技术相比所具有的优点是：

(1)本发明同时利用图像的视觉特征和文本描述信息来计算文本和图像特征，基于低层特征相似的图像文本描述也应相似的假设，对这两者进行融合，生成了能够更准确地描述图像的特征，提高了图像的文本描述信息的准确度；

(2)本发明提供更准确的文本描述信息与图像的相关度特征，可以为以文本和图像的相关度为基础的应用，如基于文本的图像检索、图像分类等提供更准确的特征，应用场景广泛；

(3)本发明的图像低层特征提取模块可替换其他图像视觉特征提取方法，可扩展性高，灵活度高。

附图说明

图1为本发明的模块结构图；

图2为本发明的特征融合方法流程图。

具体实施方式

下面结合附图以及具体实施例进一步说明本发明。

如图2所示，社会媒体中的图像数据包含的信息有图像本身和图像的文本标注信息，本发明首先分别对图像本身进行视觉特征提取、对文本标注信息进行分词等处理，然后对这两种特征进行融合，结合视觉特征计算文本和图像的相关度，具体步骤如下：

步骤1：文本处理模块对图像的文本描述信息进行处理和统计，得到文本描述信息中出现的每个单词的全局出现概率，将统计得到的单词的全局出现概率送至特征融合模块，具体的处理统计步骤如步骤1.1和步骤1.2所述：

步骤1.1：对每幅图像的标题、作者、标签等文本描述信息进行分词，对分词后的单词列表和图像的标签一起进行去停用词、提取词干处理，保存每幅图像的单词列表作为该图像的文本描述集合，其中每个出现的单词只保留一次，即文本描述集合中每个单词的词频为1；此步骤处理后得到每幅图像文本描述信息中的单词列表；

步骤1.2：对整个图像集的文本描述集合，统计所有出现过的单词，并计算每个单词t的全局出现概率，其计算公式如下：

P_{g} (t) = \frac{| I_{t} |}{| I |}

其中，P_g(t)是单词t的全局出现概率，I_t是文本描述集合中包含单词t的图像集合，I是所有图像集合，|C|是集合C的模，此步骤统计后得到文本描述集合中每个单词的全局出现概率，将统计得到的每个单词的全局出现概率送至步骤4；

步骤2：图像视觉特征抽取，对于每个图像，提取其全局低层视觉特征，包括：归一化的HSV空间的颜色直方图、边缘方向直方图、小波变换纹理特征，将这三组特征连接在一起构成图像的全局低层视觉特征，将抽取的全局低层视觉特征送至步骤3；

步骤2.1：HSV空间颜色直方图特征提取，首先将整幅图像由RGB空间转换到HSV空间，根据HSV颜色模型的特征对HSV空间值作如下处理：

(1)将v＜0.2的颜色归入黑色，令h＝0,s＝0,v＝0

(2)将s＜0.2且v＞0.8的颜色归入白色，h＝0,s＝0,v＝1

(3)其他颜色归入彩色区域，h,s,v值不变

其中，h、s、v分别是HSV空间中色调、饱和度、亮度分量的值。

将HSV空间非等间隔量化，色调H空间量化成7级，饱和度S空间量化为2级，亮度V空间量化为2级，量化公式如下：

H = \{\begin{matrix} 0, H &Element; (33,360] \cup [0,22] \\ 1, H &Element; (22,45] \\ 2, H &Element; (45,70] \\ 3, H &Element; (70,155] \\ 4, H &Element; (155,186] \\ 5, H &Element; (186,278] \\ 6, H &Element; (278,330] \end{matrix}

S = \{\begin{matrix} 0, S &Element; (0.2,0.65] \\ 1, S &Element; (0.6,1] \end{matrix}

V = \{\begin{matrix} 0, V &Element; (0.2,0.7] \\ 1, V &Element; (0.7,1] \end{matrix}

将三个颜色分量合成以为特征向量，公式如下：

L＝4*H+2*S+V+8

这样L的取值范围是[0,35]，计算L的分布得到36维的颜色直方图；

步骤2.2：边缘方向直方图特征提取，使用Canny算子进行边缘检测，计算水平方向梯度F_x和垂直方向梯度F_y，计算边缘梯度方向Dir：

Dir = \arctan (\frac{F_{y}}{F_{x}})

将方向矩阵Dir的每个值转换[0,360]为的角度，以5度为单位，将360度的角空间量化为72级，统计获取72维边缘方向直方图；

步骤3：图像邻居计算模块，利用图像视觉特征抽取模块提取的图像全局低层视觉特征，对每幅图像，计算它和其它图像的距离并对按照距离大小对其他图像进行排序，以距离的大小来衡量图像间相似度的大小，距离越大相似度越小；保存与当前图像相似度最大的k个图像作为该图像的k个邻居，即该图像的邻居图像集；

步骤3.1：首先计算每两幅图像的各组低层视觉特征之间的欧氏距离，以这3组距离的加权和作为这两幅图像的距离，计算公式如下：

dis (i, j) = Σ_{c = 1}^{2} α_{c} {dis}_{c} (i, j)

st . Σ_{c = 1}^{2} α_{c} = 1

{dis}_{c} (i, j) = \sqrt{\underset{m}{Σ} {(f_{im}^{(c)} - f_{jm}^{(c)})}^{2}}, c = 1,2

其中，dis(i,j)表示图像i和图像j在所有低层视觉特征上的总距离，dis_c(i,j)是图像i和图像j在特征c上的距离，这里使用的是欧氏距离，α_c是特征c的权重，所有权重之和为1；在计算每组特征之间的距离时，表示图像i的第c组特征的第m个分量；

步骤3.2：对每幅图像，按照其与其他图像的距离进行升序排列，取距离最小的k幅图像作为该图像的邻居集合；

步骤4：特征融合模块,利用步骤2计算的单词出现的全局概率以及步骤3计算的图像邻居数据，根据每幅图像的单词描述在该图像的邻居集合中的分布计算单词和图像之间的相关度，具体步骤如步骤4.1和4.2；

步骤4.1：首先对一幅图像的文本描述集合中的每一个单词，计算其在该图像的邻居中出现的概率，即局部出现概率，计算公式如下：

P_{l}^{(i)} (t) = \frac{| {NN}_{t}^{(i)} |}{| {NN}^{(i)} |}

步骤4.2：对每幅图像文本描述集合中的每个单词，根据该单词在该图像的邻居图像中的局部出现概率以及该单词在所有图像中的全局出现概率，来修正该单词与该图像的相关度：如果该单词在该图像邻居中的局部出现概率远大于其全局出现概率，可以认为该单词与该图像的相关度较大，如果该单词在该图像邻居中的局部出现概率小于其全局出现概率，可以认为该单词与该图像的相关度较小；以局部出现概率减去全局出现概率作为调整后的相关度，若相关度小于0，将调整后的相关度置为0，最终相关度是原始相关度和调整后的相关度的加权和，其计算公式如下：

{rel}^{(i)} (t) = α + (1 - α) \cdot \max (P_{l}^{(i)} (t) - P_{g} (t), 0)

其中，rel⁽ⁱ⁾(t)表示图像i与单词t的相关度，由于在文本处理模块，图像的文本描述集合中每个单词的出现频率定为1，α和(1-α)分别为原始词频的权重和调整后相关度的权重，max(a,b)的值为a和b中的较大值，即为单词t在图像i的邻居中出现的局部概率与单词t在所有图像中的全局出现概率之差，若该差值小于零，则取零,若该差值大于零，相关度即为原始词频和该差值的加权和。这里计算出的图像标准信息中的单词与图像相关度即为特征融合模块最终的输出。

Claims

1.一种社会媒体中图像低层视觉特征与文本描述信息的特征融合系统，其特征在于：对图像的低层视觉特征和图像的文本描述信息进行特征融合，提高图像文本描述信息的准确度，进而提高基于文本的图像检索的准确度，包括文本处理模块、图像视觉特征抽取模块、图像邻居计算模块和特征融合模块；

文本处理模块，根据的图像数据库中图像的文本标注信息，对图像的标题、元数据信息、标签文本标注信息进行分词，对分词后的文本进行去停用词、提取词干处理，以经处理后的单词文本生成该图像的文本描述集；对整个图像集的文本描述集合，统计所有出现过的单词，并计算每个单词t的全局出现概率，即文本描述集合包含单词t的图像数目与整个图像集中的图像数目的比值，将文本处理模块输出的文本信息输出至特征融合模块；

图像视觉特征抽取模块，图像的特征层次有低层视觉特征和高层语义特征，根据来自图像数据库中的图像数据，对于每幅图像提取全局低层视觉特征，包括HSV空间的颜色直方图和边缘方向直方图，并对直方图特征进行归一化，每幅图像的低层视觉特征由这两组特征连接组成，每一组特征是一个向量，将图像视觉特征抽取模块输出的图像视觉特征输出至图像邻居计算模块；

图像邻居计算模块，利用图像视觉特征抽取模块提取的特征，计算每幅图像和其它图像的相似度并对按照相似度由大到小对其他图像进行排序；以与当前图像相似度最大的k幅图像作为该图像的邻居图像集；图像之间相似度采用欧式距离进行计算，欧式距离越大相似度越小，将图像邻居计算模块输出的图像的邻居信息输出至特征融合模块；

特征融合模块，利用文本处理模块输出的图像的文本信息，以及图像邻居计算模块输出的图像邻居信息进行图像的特征融合，基于相似图像不仅视觉特征应该相似，文本描述信息也应该相似的假设，融合过程为：首先对目标图像的文本描述集合中的每一个单词，计算其在该图像的邻居中出现的概率，即局部出现概率，计算公式如下：

P_{l}^{(i)} (t) = \frac{| N N_{t}^{(i)} |}{| N N^{(i)} |}

对每幅图像文本描述集合中的每个单词，根据该单词在该图像的邻居图像中的局部出现概率以及该单词在所有图像中的全局出现概率，计算该单词与该图像的相关度，如果该单词在该图像邻居中的局部出现概率远大于其全局出现概率，则认为该单词与该图像的较相关，相关度较大，即相关范围在[0,1]区间内，如果该单词在该图像邻居中的局部出现概率小于其全局出现概率，则认为该单词与该图像不相关；以局部出现概率减去全局出现概率作为该单词与图像调整后的相关度，若调整后的相关度小于0，则将该相关度置为0，最终相关度是原始相关度和调整后的相关度的加权和，单词与图像的相关度计算公式如下：

{rel}^{(i)} (t) = α + (1 - α) \cdot \max (P_{l}^{(i)} (t) - P_{g} (t), 0)

其中，rel⁽ⁱ⁾(t)表示图像i与单词t的相关度，由于在文本处理模块，图像的文本描述集合中每个单词的出现频率定为1，α和(1-α)分别为原始词频的权重和调整后相关度的权重，max(a,b)的值为a和b中的较大值，即为单词t在图像i的邻居中出现的局部概率与单词t在所有图像中的全局出现概率之差，若改差值小于零，则取零；最终得到图像文本描述集的单词和该图像之间的相关度，从而完成图像的特征融合。

2.一种社会媒体中图像低层视觉特征与文本描述信息的特征融合方法，其特征在于实现步骤如下：

步骤1：文本处理：对图像的文本描述信息进行处理和统计，得到文本描述信息中出现的每个单词的全局出现概率，将统计得到的单词的全局出现概率送至特征融合模块，具体的处理统计步骤如步骤1.1和步骤1.2所述：

步骤1.1：对每幅图像的标题、作者、标签,文本描述信息进行分词，对分词后的单词列表和图像的标签一起进行去停用词、提取词干处理，保存每幅图像的单词列表作为该图像的文本描述集合，其中每个出现的单词只保留一次，即文本描述集合中每个单词的词频为1；此步骤处理后得到每幅图像文本描述信息中的单词列表；

步骤1.2：对整个图像集的文本描述集合，统计所有出现过的单词，并计算每个单词t的全局出现概率，计算公式如下：

P_{g} (t) = \frac{| I_{t} |}{| I |}

其中，P_g(t)是单词t的全局出现概率，I_t是文本描述集合中包含单词t的图像集合，I是所有图像集合，|C|是集合C的模；此步骤统计后得到文本描述集合中每个单词的全局出现概率，将统计得到的每个单词的全局出现概率送至步骤4；

步骤2：图像视觉特征抽取：对于每个图像，提取其全局低层视觉特征，包括：归一化的HSV空间的颜色直方图特征、边缘方向直方图和小波变换纹理特征，将这三组特征连接在一起构成图像的全局低层视觉特征，将抽取的全局低层视觉特征送至步骤3；

步骤3：图像邻居计算：利用步骤2图像视觉特征抽取步骤提取的全局低层视觉特征，对每幅图像，计算它和其它图像在低层视觉特征上的距离并对按照距离大小对其他图像进行排序，以距离的大小来衡量图像间相似度的大小，距离越大相似度越小；保存与当前图像相似度最大的k个图像作为该图像的k个邻居，即邻居图像集；

步骤4：特征融合：利用步骤1计算的单词出现的全局概率以及步骤3计算的图像邻居数据，根据每幅图像的单词描述在该图像的邻居集合中的分布，计算单词和图像之间的相关度，具体步骤如步骤4.1和4.2；

P_{l}^{(i)} (t) = \frac{| N N_{t}^{(i)} |}{| N N^{(i)} |}

其中，表示在图像i的邻居中，单词t出现的局部概率，NN⁽ⁱ⁾表示图像i的邻居图像集合，由于在邻居计算模块指定邻居数目为k，故NN⁽ⁱ⁾的值为k，表示在图像i的邻居中，文本描述集合中包含单词t的图像集合；

步骤4.2：对每幅图像文本描述集合中的每个单词，根据该单词在该图像的邻居图像中的局部出现概率以及该单词在所有图像中的全局出现概率，来修正该单词与该图像的相关度：如果该单词在该图像邻居中的局部出现概率远大于其全局出现概率，则认为该单词与该图像的相关度较大，如果该单词在该图像邻居中的局部出现概率小于其全局出现概率，则认为该单词与该图像的相关度较小；以局部出现概率减去全局出现概率作为调整后的相关度，若相关度小于0，将调整后的相关度置为0，最终相关度是原始相关度和调整后的相关度的加权和，其计算公式如下：

{rel}^{(i)} (t) = α + (1 - α) \cdot \max (P_{l}^{(i)} (t) - P_{g} (t), 0)

其中，rel⁽ⁱ⁾(t)表示图像i与单词t的相关度，由于在文本处理步骤，图像的文本描述集合中每个单词的出现频率定为1，α和(1-α)分别为原始词频的权重和调整后相关度的权重，max(a,b)的值为a和b中的较大值，即为单词t在图像i的邻居中出现的局部概率与单词t在所有图像中的全局出现概率之差，若该差值小于零，则取零,若该差值大于零，相关度即为原始词频和该差值的加权和，计算出的图像标准信息中的单词与图像相关度即为特征融合模块最终的输出。

3.根据权利要求2所述的社会媒体中图像低层视觉特征与文本描述信息的特征融合方法，其特征在于：所述步骤2中HSV空间颜色直方图特征提取步骤为：

首先将整幅图像由RGB空间转换到HSV空间，根据HSV颜色模型的特征对HSV空间值作如下处理：

(1)将v＜0.2的颜色归入黑色，令h＝0,s＝0,v＝0；

(2)将s＜0.2且v＞0.8的颜色归入白色，h＝0,s＝0,v＝1；

(3)其他颜色归入彩色区域,h,s,v不变；

其中，h、s、v分别是HSV空间中色调、饱和度、亮度分量的值；

H = \{\begin{matrix} 0, H &Element; (33,360] \cup [0,22] \\ 1, H &Element; (22,45] \\ 2, H &Element; (45,70] \\ 3, H &Element; (70,155] \\ 4, H &Element; (155,186] \\ 5, H &Element; (186,278] \\ 6, H &Element; (278,330] \end{matrix}

S = \{\begin{matrix} 0, S &Element; (0.2,0.65] \\ 1, S &Element; (0.6,1] \end{matrix}

V = \{\begin{matrix} 0, V &Element; (0.2,0.7] \\ 1, V &Element; (0.7,1] \end{matrix}

将三个颜色分量合成以为特征向量，公式如下：

L＝4*H+2*S+V+8

这样L的取值范围是[0,35]，计算L的分布得到36维的颜色直方图。

4.根据权利要求1所述的社会媒体中图像低层视觉特征与文本描述信息的特征融合方法，其特征在于：所述步骤2中边缘方向直方图特征提取时，使用Canny算子进行边缘检测，计算水平方向梯度F_x和垂直方向梯度F_y，计算边缘梯度方向Dir：

Dir = \arctan (\frac{F_{y}}{F_{x}})

将方向矩阵Dir的每个值转换为[0,360]的角度，以5度为单位，将360度的角空间量化为72级，统计获取72维边缘方向直方图。

5.根据权利要求2所述的社会媒体中图像低层视觉特征与文本描述信息的特征融合方法，其特征在于：所述步骤3步骤中对每幅图像，计算它和其它图像在低层视觉特征上的距离的过程为：首先计算每两幅图像的各组视觉特征之间的欧氏距离，以这3组距离的加权和作为这两幅图像在低层视觉特征上的距离，计算公式如下：

dis (i, j) = Σ_{c = 1}^{2} α_{c} {dis}_{c} (i, j)

st . Σ_{c = 1}^{2} α_{c} = 1

{dis}_{c} (i, j) = \sqrt{\underset{m}{Σ} {(f_{im}^{(c)} - f_{jm}^{(c)})}^{2}}, c = 1,2

其中，dis(i,j)表示图像i和图像j在所有低层视觉特征上的总距离，dis_c(i,j)是图像i和图像j在特征c上的距离，这里使用的是欧氏距离，α_c是特征c的权重，所有权重之和为1；在计算每组特征之间的距离时，表示图像i的第c组特征的第m个分量。

6.根据权利要求2所述的社会媒体中图像低层视觉特征与文本描述信息的特征融合方法，其特征在于：所述步骤3中对每幅图像，按照其与其他图像的距离进行升序排列。