CN108170729A

CN108170729A - 利用超图融合多模态信息的图像检索方法

Info

Publication number: CN108170729A
Application number: CN201711324900.1A
Authority: CN
Inventors: 赵伟; 黄若谷; 管子玉; 王泉
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2017-12-13
Filing date: 2017-12-13
Publication date: 2018-06-15

Abstract

本发明公开了一种利用超图融合多模态信息的图像检索方法，主要解决现有方法存在语义鸿沟，图像检索准确率低的问题。其实现方案是：1.提取每幅待检索图像的视觉内容、用户标签和地理位置三种模态信息；2.构建所有待检索图像三种模态信息的距离矩阵；3.根据三种不同模态信息下图像之间的距离，构建描述这三种模态信息之间关联的超图模型；4.根据超图模型顶点和超边的关系构建超图关联矩阵；5.根据不同模态信息下图像之间的距离构建超边权重矩阵；6.根据给出的待检索图像，基于超图模型对所有图像排序并返回检索结果。本发明能切实减小语义鸿沟，将图模型更好的应用于多模态信息，提升图像检索的实用性、灵活性和准确率，可用于海量图像检索领域。

Description

利用超图融合多模态信息的图像检索方法

技术领域

本发明属于图像处理技术领域，特别涉及一种图像检索方法，可用于海量图像检索领域。

技术背景

随着互联网上的图像数据信息越来越多，用户对网上图像搜索的要求也越来越多样化，查找和选择用户需要的信息变得越来越困难，因此图像搜索成为了学术界和业界关注的热门话题。

图像排序是图像搜索系统的核心。随着互联网上的图像越来越多，帮助用户从大量数据中查找相关图像的排序算法就变得很重要。

有许多基于图像内容的排序方法是从大型数据库中找到标志性的图像；其中一种典型的方法是匹配低级特征，构建图像簇，然后基于簇内的相似性识别选择最具代表性的图像；另一种方法是直接估计图像的密度模型，即将密度模型分布的高峰图像作为标志性的图像。

近年来，基于图的排序方法越来越流行，其中一种典型的方法是构建图，图的顶点表示图像，图的边表示两个图像之间的视觉相似性，然后使用标准的图像挖掘技术来识别选择“权威”的顶点，也就是图像。

通常，基于图像内容的排序方法得到的结果不尽人意，存在语义鸿沟问题；而在已有的一些基于图的排序方法中，尽管已经考虑了多模态信息，但是传统基于图的排序方法方法只能捕获成对的图像关系，很难描述作用于多个图像上的多元关系，得不到准确的排序结果。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种利用超图融合多模态信息的图像检索方法，以减小语义鸿沟，提高图像检索的准确率；

为实现上述目的，本发明的技术方案包括如下：

(1)提取每一幅待检索图像的视觉内容、用户标签和地理位置三种模态信息；

(2)对于每一种模态信息，采用不同的距离测量方法计算图像之间的距离，并构建所有待检索图像的视觉内容距离矩阵D₁、用户标签距离矩阵D₂和地理位置距离矩阵D₃；

(3)根据三种不同模态信息下的图像之间的距离，构建描述这三种模态信息之间关联的超图模型；

(4)根据超图模型的顶点和超边的关系构建关联矩阵H_k，H_k表示第k种模态信息下的关联矩阵，k＝1,2,3，将三个关联矩阵H_k按列连接构建超图关联矩阵H；

(5)在三种不同模态信息下，利用图像与图像之间的距离，计算得到不同模态的超边权重进而构建权重矩阵W_k，再将三种模态信息的W_k的对角线相接形成新的对角矩阵W；

(6)根据用户给出的待检索图像设置超图模型的查询顶点，在步骤(3)构建的超图模型上，基于查询顶点利用超图关联矩阵H和对角矩阵W计算其它图像的排名分数并按照从高到低的顺序排序，返回前N个图像，即为检索结果，N的范围是[1,+∞)。

本发明的有益效果如下：

1.提升了图像检索的实用性。

以往的搜索方法大都是基于图像内容的搜索，限制了用户表达查询意图的方式，其内容特征虽然能捕捉图像的视觉相似性，但是视觉相似并不一定代表语义相似，而本发明通过提取图像的多模态信息，切实减小了语义鸿沟。

2.提升了图像检索的灵活性。

传统图排序方法在描述数据的时候，都是通过两个对象间的二元关系进行度量，造成了作用于多个对象上的多元关系很难被描述。而本发明基于超图排序模型，使得图模型不仅仅局限在成对关系上，从而更好地应用于多模态信息，提高了图像检索的准确率。

附图说明

图1为的实现总流程图；

图2为本发明中基于超图模型的排序算法子流程图。

具体实施方式

下面结合附图对本发明的技术方案作进一步详细步骤，此处所描述的具体实施方案仅用以解释本发明，而对其不起任何限定作用。

参照图1，本发明的实现步骤如下：

步骤一，提取每一幅待检索图像的三种模态信息。

传统的图像检索方法往往只提取图像的视觉内容进行检索，而本发明中的检索方法提取了图像的多种模态信息，包括图像的视觉内容、用户标签、地理位置三种模态信息，很好地补充了图像的语义。

1.1)提取待检索图像的视觉内容模态信息，即图像的HSV颜色直方图、Gist特征、Sift特征：

1.1.1)提取HSV颜色直方图，是通过划分颜色空间后计算颜色落在每个小区间内的像素数量，从而得到待检索图像中像素的概率分布；

1.1.2)提取Gist特征向量，是先用4尺度8方向Gabor滤波器组对图像进行滤波后，得到图像的不同频率的梯度方向信息，然后将图像划分为4×4个网格，最后对每个网格中的滤波结果取均值后得到512维的Gist特征向量；

1.1.3)提取Sift特征向量，是先在每幅图像上随机采样得到5000个关键点，然后从每个关键点上提取128维Sift描述符，将每个Sift描述符映射到预先训练好的词典树中从而实现量化，得到11111维的Sift特征向量。

1.2)提取用户标签信息：

将数据集中所有标签转换成小写，得到唯一的词典，并利用直方图统计标签的出现概率，删除图像库中频率小于1的标签，得到标签集，即为用户标签模态信息；

1.3)获取地理位置信息：

根据每幅图像的地理标注信息得到图像的拍摄地点坐标，该地点坐标的经度和纬度信息即为图像的地理位置模态信息。

步骤二，构建所有待检索图像的三种模态信息的距离矩阵。

对于每一种模态信息，采用不同的距离测量方法计算图像之间的距离，并构建所有待检索图像的视觉内容距离矩阵D₁、用户标签距离矩阵D₂和地理位置距离矩阵D₃。

2.1)构建视觉内容距离矩阵：

假设两幅图像的视觉内容向量分别为x₁＝(x₁₁,x₁₂,...x_1i...x_1m)和x₂＝(x₂₁,x₂₂,...x_2i...x_2m)，根据图像视觉内容模态信息，计算两两图像间的曼哈顿距离L：

其中，x_1i表示向量x₁中第i个值，x_2i表示向量x₂中第i个值，i∈(0,m)；

用L组成视觉内容距离矩阵D₁，其中D₁的行和列是所有待检索图像的总数，D₁中的第i个图像和第j个图像之间的曼哈顿距离为D₁(i,j)；

2.2)构建用户标签距离矩阵：

基于Skip-gram模型将用户标签映射到向量空间从而得到每个标签的向量表示，得到两幅图像的用户标签向量分别为：t₁＝(t₁₁,t₁₂,...t_1i...t_1m)和t₂＝(t₂₁,t₂₂,...t_2i...t_2m)，则两图像用户标签欧式距离d₂为：

其中，t_1i表示向量t₁中第i个值，t_2i表示向量t₂中第i个值，i∈(0,m)；

用d₂组成用户标签距离矩阵D₂，D₂的行和列是所有待检索图像的总数，D₂中的第i个图像和第j个图像之间的欧氏距离为D₂(i,j)；

2.3)构建地理位置距离矩阵：

基于图像的经度和纬度，利用Vincenty公式计算图像的地理位置距离；设两幅图像拍摄地点坐标的经度分别是A_z和B_z，设两幅图像拍摄地点坐标的纬度分别表示为A_w和B_w，地球平均半径为R，则任意两幅图像的地理位置距离d₃为：

用d₃组成地理位置距离矩阵D₃，D₃的行和列是所有待检索图像的总数，D₃中的第i个图像和第j个图像之间的地理位置距离为D₃(i,j)。

步骤三，根据三种不同模态信息下的图像之间的距离，构建描述这三种模态信息之间关联的超图模型。

定义V为一个有限的顶点集合，每一个顶点代表每一幅待检索图像；

分别在三种模态信息下，根据每幅待检索图像与其他图像的距离得到该待检索图像的K近邻图像；

用该K近邻图像及待检索图像构成超边e，并定义E为超边e的集合，定义w为超边e的权重，得到构建的超图模型为：G＝(V,E,w)。

步骤四，构建超图关联矩阵H。

4.1)定义待检索图像的总数为n，计算第i个图像和第j个图像的关联值A_k(i,j)：

其中，i∈(0,n)，j∈(0,n)，D_k(i,j)表示第k种模态信息下图像的距离矩阵D_k的元素，表示D_k中所有元素的中值，k＝1,2,3；

用关联值A_k(i,j)组成超图的顶点关联矩阵A_k；

4.2)根据顶点关联矩阵A_k获得第一关联矩阵H_k：

4.2.1)先根据顶点关联矩阵A_k选取超图模型中每个顶点的K近邻，再连接顶点和它的K近邻顶点构成超边；

4.2.2)定义H_k(a,b)表示顶点与超边的关系，判断顶点b是否属于超边a：

若顶点b属于超边a，则设置H_k(a,b)＝1，

若顶点b不属于超边a，则设置H_k(a,b)＝0，

4.3)将a作为行，b作为列，用H_k(a,b)组成第一关联矩阵H_k，H_k的大小为|E|×|V|，|E|表示超边的总数，|V|表示超图顶点的总数，a∈(0,E)，b∈(0,V)；

4.4)将三个关联矩阵H_k按列连接，得到超图关联矩阵H。

步骤五，构建超边权重矩阵W。

5.1)定义待检索图像的总数为n，第k种模态信息下的超边权重w_k(e)为：

其中，i∈(0,n)，j∈(0,n)，i≠j，v表示超图模型的顶点，e表示超图模型的超边；

5.2)用w_k(e)组成大小为|E|×|E|第一权重矩阵W_k，该矩阵是对角矩阵，|E|表示超边的总数；

5.3)将三种模态信息的W_k的对角线相接组成超边权重矩阵W。

步骤六，根据给出的检索图像，基于超图模型对所有图像排序并返回检索结果。

参照图2，本步骤的具体实现如下：

6.1)用户给出待检索图像，判断该待检索图像是否是超图模型的顶点：

如果该待检索图像是超图模型的顶点，则设置该顶点为查询顶点；

如果该待检索图像不是超图模型的顶点，则将该待检索图像作为一个顶点，重新构造超图模型，并设置该待检索图像为查询顶点；

6.2)在超图模型上，基于查询顶点利用超图关联矩阵H和对角矩阵W计算图像的排名分数并按照从高到低的顺序排序，计算图像排名分数的具体步骤如下：

6.2.1)设置查询顶点后，根据建立好的超图模型，定义最小化代价函数Ω(f)如下：

其中，h(v,e)是顶点v与超边e的相交判别函数，当v∈e时，h(v,e)＝1，否则h(v,e)＝0；

h(u,e)是顶点u与超边e的相交判别函数，当u∈e时，h(u,e)＝1，否则h(u,e)＝0；

w(e)表示超边权重，μ是权重参数；

δ(e)表示超边e的度，δ(e)＝∑_e∈Vh(v_,e)；

d(v)表示顶点v的度，d(v)＝∑_e∈Vw(e)h(v_,e)；

f(u)表示顶点u的排名分数，f(v)表示顶点v的排名分数，y(u)表示顶点u的查询向量；

式<1>右边的第一项是约束项，它表示同一超边内的顶点应该有相似的排名分数，第二项保证了超图中存在传播源，即查询顶点；

6.2.2)定义对角矩阵D_e为所有超边的度，对角矩阵D_v表示所有顶点的度，将式<1>中的第一项进行拉普拉斯正则化后，可以得到：

其中，H是超图关联矩阵，W是超边权重矩阵；

6.2.3)定义超图传播矩阵Θ为：

根据式<2>和式<3>，将式<1>化简为：

Ω(f)＝f^T(I-Θ)f+μ(f-y)^T(f-y) <4>

其中，I是单位矩阵，y表示查询向量；

6.2.4)对Ω(f)关于f求导，经过代数运算，最终排名分数可以用下式计算：

因为是常系数，并不影响排序结果，所以可以将式<5>化简为：

f即为图像最终的排名分数；

6.3)返回前N个图像，即为检索结果，N的范围是[1,+∞)。

上述实施内容仅仅是对本发明构思的实现形式的列举，但本发明的保护范围并不局限于此，本发明的保护范围也包含技术人员根据本发明所想到的的等同技术手段。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种利用超图融合多模态信息的图像检索方法，其特征在于，包括:

(5)在三种不同模态信息下，利用图像与图像之间的距离，计算得到不同模态的超边权重进而构建第一权重矩阵W_k，再将三种模态信息的W_k的对角线相接形成超边权重矩阵W；

(6)根据用户给出的待检索图像设置超图模型的查询顶点，在步骤(3)构建的超图模型上，基于查询顶点利用超图关联矩阵H和对角矩阵W计算图像的排名分数并按照从高到低的顺序排序，返回前N个图像，即为检索结果，N的范围是[1,+∞)。

2.如权利要求1所述的方法，其特征在于，步骤(1)中提取每一幅待检索图像的视觉内容、用户标签和地理位置三种模态信息，按如下步骤进行：

1a)提取待检索图像的视觉内容，即图像的HSV颜色直方图、Gist特征、Sift特征，得到视觉内容模态信息；

1b)将数据集中所有标签转换成小写，得到唯一的词典，并利用直方图统计标签的出现概率，删除图像库中频率小于1的标签，得到标签集，即为用户标签模态信息；

1c)根据每幅图像的地理标注信息得到图像的拍摄地点坐标，该地点坐标的经度和纬度信息即为图像的地理位置模态信息。

3.如权利要求1所述方法，其特征在于，步骤(2)中构建所有待检索图像的视觉内容距离矩阵D₁，是根据图像视觉内容模态信息，先计算两两图像间的曼哈顿距离，再用两两图像间的曼哈顿距离组成视觉内容距离矩阵D₁，D₁的行和列是所有待检索图像的总数n，D₁中的第i个图像和第j个图像之间的曼哈顿距离为D₁(i,j)，i∈(0,n)，j∈(0,n)，i≠j。

4.如权利要求1所述方法，其特征在于，步骤(2)中构建所有待检索图像的用户标签距离矩阵D₂，是先提取用户标签模态信息，再利用Skip-gram模型将用户标签模态信息映射到向量空间，得到每个用户标签的向量；然后利用两两图像的用户标签向量计算两两图像的欧式距离；最后用两两图像的欧式距离组成用户标签距离矩阵D₂，D₂的行和列是所有待检索图像的总数n，D₂中的第i个图像和第j个图像之间的欧氏距离为D₂(i,j)，i∈(0,n)，j∈(0,n)，i≠j。

5.如权利要求1所述方法，其特征在于，步骤(2)中构建所有待检索图像的地理位置距离矩阵D₃，是先提取地理位置模态信息，再利用Vincenty公式计算两两图像的地理位置距离，最后用两两图像的地理位置距离组成地理位置距离矩阵D₃，D₃的行和列是所有待检索图像的总数n，D₃中的第i个图像和第j个图像之间的地理位置距离为D₃(i,j)，i∈(0,n)，j∈(0,n)，i≠j。

6.如权利要求1所述的方法，其特征在于，步骤(3)中构建描述视觉内容、用户标签和地理位置这三种模态信息之间关联的超图模型，通过如下定义构建：

分别在三种模态信息下，根据每幅待检索图像与其他图像的距离得到该待检索图像的K近邻图像，用该K近邻图像及待检索图像构成超边e，并定义E为超边e的集合，定义w为超边e的权重，得到构建的超图模型为：G＝(V,E,w)。

7.如权利要求1所述的方法，其特征在于，步骤(4)中构建关联矩阵H_k，按如下步骤进行：

4a)定义待检索图像的总数为n，计算第i个图像和第j个图像的关联值A_k(i,j)：

其中，i∈(0,n)，j∈(0,n)，A_k(i,j)表示第k种模态信息下第i个图像和第j个图像的相似度，D_k(i,j)表示第k种模态信息下图像的距离矩阵D_k的元素，D～_k表示D_k中所有元素的中值；

用关联值A_k(i,j)组成超图的顶点关联矩阵A_k；

4b)根据顶点关联矩阵A_k获得第一关联矩阵H_k：

4b1)先根据顶点关联矩阵A_k选取超图模型中每个顶点的K近邻，再连接顶点和它的K近邻顶点构成超边；

4b2)定义H_k(a,b)表示顶点与超边的关系，判断顶点b是否属于超边a：

若顶点b属于超边a，则设置H_k(a,b)＝1，

若顶点b不属于超边a，则设置H_k(a,b)＝0，

4b3)将a作为行，b作为列，用H_k(a,b)组成第一关联矩阵H_k，H_k的大小为|E|×|V|，|E|表示超边的总数，|V|表示超图顶点的总数，a∈(0,|E|)，b∈(0,|V|)。

8.如权利要求1所述的方法，其特征在于，步骤(5)中构建第一权重矩阵W_k，通过如下方式构建：

定义待检索图像的总数为n，第k种模态信息下的超边权重w_k(e)为：

其中，i∈(0,n)，j∈(0,n)，i≠j，A_k(i,j)表示第k种模态信息下第i个图像和第j个图像的关联值，v表示超图模型的顶点，e表示超图模型的超边；

用w_k(e)组成大小为|E|×|E|第一权重矩阵W_k，该矩阵是对角矩阵，|E|表示超边的总数。

9.如权利要求1所述的方法，其特征在于，步骤(6)中基于查询顶点利用超图关联矩阵H和对角矩阵W计算图像的排名分数并按照从高到低的顺序排序，按如下步骤进行：

6a)给出查询顶点后，根据建立好的超图模型，定义代价函数Ω(f)如下：

其中，

h(v,e)是顶点v与超边e的相交判别函数，当v∈e时，h(v,e)＝1，否则h(v,e)＝0；

w(e)表示超边权重，μ是权重参数；

δ(e)表示超边e的度，δ(e)＝∑_e∈Vh(v,e)；

d(v)表示顶点v的度，d(v)＝∑_e∈Vw(e)h(v,e)；

6b)对Ω(f)关于f求导，经过代数运算，最终排名分数可以用下式计算：

其中，Θ表示超图传播矩阵，y表示查询向量，f表示图像最终的排名分数。