CN103473307B

CN103473307B - 跨媒体稀疏哈希索引方法

Info

Publication number: CN103473307B
Application number: CN201310410588.3A
Authority: CN
Inventors: 吴飞; 张寅�; 余宙; 邵健; 庄越挺
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2013-09-10
Filing date: 2013-09-10
Publication date: 2016-07-13
Anticipated expiration: 2033-09-10
Also published as: CN103473307A

Abstract

本发明公开了一种跨媒体稀疏哈希索引方法。包括如下步骤：（1）对多个模态数据之间的关联关系利用超图进行统一建模（2）利用字典学习框架同时学习多个模态的字典，同时施加稀疏和超图关联关系的正则约束，对每个模态的数据学习得到相应的字典（3）将学习得到的字典作为哈希函数，对新的数据利用对应模态的字典进行稀疏编码（4）利用相应的哈希策略把稀疏编码转变为稀疏编码集合从而把稀疏编码相似性计算问题转变为集合相似性计算问题，利用类似jaccard距离度量方式进行相似性计算。利用该方法可以实现基于内容的海量数据的高效跨媒体检索。用户可以通过提交任意的模态的检索例子去检索任意模态的媒体对象。

Description

跨媒体稀疏哈希索引方法

技术领域

本发明涉及跨媒体检索，尤其涉及一种基于海量数据的跨媒体高效索引方法。

背景技术

随着互联网技术的高速发展和社交网络的风靡，网络上的多媒体数据的数量正在以惊人的速度增长。多媒体数据具有复杂的语义，难以直接进行度量，一般的做法是对其进行特征抽取得到相应的特征。通常这些特征都是高维的，因此，多媒体数据的检索问题就转变为了高维数据的检索问题。传统的暴力的线性比较的策略在面对大规模高维数据的时候的时间复杂度显然不能满足用户的在线搜索需求。此时，人们需要一种有效的索引机制以实现高维数据地高效检索。哈希方法是近些年来的高维索引的热点研究方向。它的核心的思想就是用近似最近邻代替传统的最近邻的来实现海量高维数据的检索。相对于检索的准确性，用户更注重搜索的速度，在大多数情况下，完全精确的查找并不是必须的，近似解已经足以满足用户绝大多数的要求。给定一个高维数据的搜索，通过哈希函数将其映射为简短的哈希编码，在数据集(查找和它具有相同或相近编码的数据作为搜索结果。由于哈希编码的相似性计算是非常高效的，因此在面对海量数据的时候哈希方法也能取得很好的查询性能。

多媒体数据的另一个特性就是多模态的数据存在共生关系。举例来说，一张网络图像除了有图片本身，还有一些描述信息如标题、用户的标注信息、评论信息等；一则新闻报道除了有文字的描述通常还有与之相关的新闻图片。跨媒体检索的目标就是合理地利用同一模态内数据的相似性以及不同模态的数据已知的关联关系，在不同媒体之间建立“桥梁”，使得不同模态的数据可以在统一的度量空间进行相似性比较。为了能对海量的多模态的多媒体数据实现高效的跨媒体检索，相应的跨媒体哈希索引算法被相继提出。

已有的跨媒体哈希算法大多还是基于流形学习的框架，学习的哈希函数试图在保留每个模态的数据的流形的同时，将不同模态映射到同一个子空间内并将不同模态的流形对齐。近年来，人们发现字典学习的方法也可以很好地用学习得到的字典对数据进行有效地表达。本发明提出的方法就是基于字典学习的框架来来进行多模态字典学习，并把学习得到的字典作为哈希函数建立跨媒体哈希索引。

发明内容

本发明的目的是克服现有技术的不足，提供一种跨媒体稀疏哈希索引的方法。

跨媒体稀疏哈希索引方法包括如下步骤：

1)对多个模态数据之间的关联关系利用超图进行统一建模；模态内的相似性使用数据的底层特征的欧氏距离，模态间的关联利用不同模态数据已知的关联关系；

2)将统一超图约束引入多模态字典学习的框架内，使得学习得到的多模态字典能保留模态内的相似性以及模态间的关联关系；

3)将学习得到的字典作为哈希函数，对新的数据利用对应模态的字典进行稀疏编码；

4)将稀疏编码通过哈希策略转化为稀疏编码集，并使用类jaccard距离来计算集合之间的相似度。

所述的步骤2)包括：

给出如下基于最小重建误差的目标函数，以实现多模态字典学习：

\begin{matrix} \begin{matrix} \underset{A, D^{x}, D^{y}}{m i n} & | | X - D^{x} A^{x} | |_{F}^{2} + | | Y - D^{y} A^{y} | |_{F}^{2} + Ω (A) \end{matrix} \\ \begin{matrix} s . t . & | | d_{k}^{x} | |_{F}^{2} \leq 1, | | d_{k}^{y} | |_{F}^{2} \leq 1 & &ForAll; k = 1, 2, ... K \end{matrix} \end{matrix} - - - (1)

其中是两个模态的数据，p_x,p_y为相应模态的数据的维度，N_x，N_y为数据的个数；是数据集X和Y对应的字典；为；K为组成字典的元素的个数，组成D^x和D^y的元素个数相同使得不同模态的数据被映射到统一的字典空间里；是数据集X和Y中每个数据用对应的字典重建的稀疏系数；

此外,是来自不同模态数据对应的重建系数集合，并在目标函数中添加了额外的正则约束项Ω(A)，来实现两个目标：1)重建系数尽可能稀疏，以防止目标函数的“过拟合”，也能起到数据压缩的作用，2)重建系数保持了在超图中的不同模态数据之间关联关系，使得学到的字典具有好的鲁棒性；综合如上两个目标，给出如下的正则项Ω(A):

\begin{matrix} Ω (A) = λ | | A | |_{1} + \frac{α}{2} \underset{e &Element; E}{Σ} \underset{{v_{i}, v_{j}} &SubsetEqual; e}{Σ} \frac{w (e)}{δ (e)} | | a_{i} - a_{j} | |^{2} \\ = λ | | A | |_{1} + α T r ({AL}_{h} A^{T}) \end{matrix} - - - (2)

Ω(A)由两项组成，分别对应了之前定义的两个目标：稀疏和超图关联关系保持。其中L_h为超图拉普拉斯矩阵，具体的定义如下：

L_{h} = 1 - D_{v}^{- 1 / 2} {HWD}_{e}^{- 1} H^{T} D_{v}^{- 1 / 2} - - - (3)

其中I是单位矩阵，H是关联矩阵，D_υ，D_e为超图的顶点和超边的度的构建的对角矩阵，W为超边的权重构建的对角矩阵。

所述的步骤4)包括：

假设数据x的用其模态学习得到的字典D^x进行稀疏编码后得到再将稀疏编码通过哈希方法生成稀疏编码集：

\begin{matrix} {SC}_{+} (a^{x}) = {i | &ForAll; i &Element; 1, 2, ..., K, i f a_{i}^{x} > σ} \\ {SC}_{-} (a^{x}) = {i | &ForAll; i &Element; 1, 2, ..., K, i f a_{i}^{x} < - σ} \end{matrix} - - - (4)

其中σ为设定的阈值，SC₊(·)和SC_{_}(·)对应两个量化函数，生成稀疏编码a^x的系数为正值和负值对应的下标集合：

此外，针对多个稀疏编码集，采用类似于jaccard相似度的度量机制来衡量它们之间的相似性，具体的相似度计算公式如下：

S i m (a^{x}, a^{y}) = \frac{1}{2} (\frac{| {SC}_{+} (a^{x}) \cap {SC}_{+} (a^{y}) |}{| {SC}_{+} (a^{x}) \cap {SC}_{+} (a^{y}) |} + \frac{| {SC}_{-} (a^{x}) \cap {SC}_{-} (a^{y}) |}{| {SC}_{-} (a^{x}) \cap {SC}_{-} (a^{y}) |}) - - - (5)

在实现高效地基于稀疏编码集的检索时，有两种可选的方法：

●当K不大时，使用K维的二值向量来表达稀疏编码集，将稀疏编码集合的“交”和“并”的操作就转变为硬件实现的高效AND和OR位运算；

●当K较大时，所有稀疏编码集对应K维的二值向量可能无法一次性加载到内存中来进行计算，使用另一种方法：使用min-Hash作为稀疏编码集的哈希函数，然后建立LSH索引，从而支持高效的检索。

本发明可以实现基于内容的海量数据的高效跨媒体检索。用户可以通过提交任意的模态的检索例子去检索任意模态的媒体对象。

附图说明

图1是本发明的算法框架流程图；

图2是本发明的跨媒体检索的结果。上半部分为样例图片查询相

关文本；下半部分是以样例文本查询相关图像

具体实施方式

跨媒体稀疏哈希索引方法包括如下步骤：

算法的整体流程图参见图1。

所述的步骤1)包括：将包含多模态的多媒体文档集合分别构建每个模态单独的数据集。假设构成多媒体文档的数据来自两个模态(为了表达上的方便，下面都假设构成多媒体文档的数据是来自两个模态，实际上，本发明的方法可以扩展到任意多个模态)，分别定义为和数据集中的每个数据都来自模态数据集中的每个数据都来自模态p_x和p_y为模态和对应空间的维度，通常p_x≠p_y。N_x和N_y是构成数据集X和Y的数据的个数。最终，集合X和Y的关联关系可以用一个统一的超图G(V，E，ω)进行表达。其中V代表构成超图的顶点集合，每一个顶点υ_i∈V对应了数据集X或Y中的一个数据；E代表了超边集合，每一条超边e_i∈E连接了若干个相互关联的顶点；ω代表了超边集合对应的权重。

对同一模态内的数据。为了能更细致地描述模态内数据之间的相似性，“概率”超图表达被使用如下：

H (v_{i}, e_{j}) = \{\begin{matrix} A (j, i), & i f v_{i} &Element; e_{j} \\ 0 & o t h e r w i s e \end{matrix} - - - (6)

其中代表了两个顶点υ_i和υ_j之间的相似度，Dis(i，j)是两个顶点之间的欧式距离。为所有顶点之间的距离的平均值。每条超边的权重此外，为了更好地表达数据之间的流形结构，本发明使用局部的相似度，即每个顶点只和它的K个近邻点之间存在相似度，否则相似度为0。

用这种方式，可以对数据集X和Y分别计算得到关联矩阵E_x和E_y是数据集X和Y上的超边集合。其中|·|代表集合的势。

对于不同模态间的数据，可以利用“是否存在于同一个多媒体文档中”这一标准来衡量不同模态数据之间是否有关联，从而构建出二值的关联矩阵表示模态间的关联超边对应的权重ω_xy作为一个衡量模态间相似性的重要程度参数由人工设定。

最终，将模态内和模态间的关联矩阵拼接形成完整的关联矩阵具体的构建方式如表1所示

表1.多模态数据超图关联矩阵表达

所述的步骤2)包括：

\begin{matrix} \begin{matrix} \underset{A, D^{x}, D^{y}}{m i n} & | | X - D^{x} A^{x} | |_{F}^{2} + | | Y - D^{y} A^{y} | |_{F}^{2} + Ω (A) \end{matrix} \\ \begin{matrix} s . t . & | | d_{k}^{x} | |_{F}^{2} \leq 1, | | d_{k}^{y} | |_{F}^{2} \leq 1 & &ForAll; k = 1, 2, ... K \end{matrix} \end{matrix} - - - (1)

其中是两个模态的数据，p_x，p_y为相应模态的数据的维度，N_x，N_y为数据的个数；是数据集X和Y对应的字典；为；K为组成字典的元素的个数，组成D^x和D^y的元素个数相同使得不同模态的数据被映射到统一的字典空间里；是数据集X和Y中每个数据用对应的字典重建的稀疏系数；

\begin{matrix} Ω (A) = λ | | A | |_{1} + \frac{α}{2} \underset{e &Element; E}{Σ} \underset{{v_{i}, v_{j}} &SubsetEqual; e}{Σ} \frac{w (e)}{δ (e)} | | a_{i} - a_{j} | |^{2} \\ = λ | | A | |_{1} + α T r ({AL}_{h} A^{T}) \end{matrix} - - - (2)

L_{h} = 1 - D_{v}^{- 1 / 2} {HWD}_{e}^{- 1} H^{T} D_{v}^{- 1 / 2} - - - (3) .

其中I是单位矩阵，H是表1中定义的关联矩阵，D_υ，D_e为超图的顶点和超边的度的构建的对角矩阵，W为超边的权重构建的对角矩阵。

公式(1)中的目标函数是一个非凸优化的问题。因此，不能直接求导获得全局最优解。但是固定A时，求解D^x、D^y；或者固定D^x，D^y，求解A时，公式(1)可以转变为凸优化问题。因此，本发明使用迭代优化的方法，在每次迭代中依次求解A,D^x,D^y。具体的求解算法1如下：

其中，步骤3的求解方法是用的是近似算子法(proximaloperatormethod)，具体的方法参见算法2；步骤5，6中的求解问题为典型的二次约束的二次规划(QCQP)问题，可以用已有的解法进行求解。

所述的步骤3)包括：

利用学习得到的字典D^x,D^y对新来的数据进行稀疏编码。假设新的数据x_q来自模态χ(数据y_q来自模态y也是同理)，使用字典D^x，通过公式(7)可以得到x_q的稀疏编码a_q：

\underset{a_{q}}{m i n} | | x_{q} - D^{x} a_{q} | |_{F}^{2} + λ_{x} | | a_{q} | |_{1} - - - (7)

公式(7)的目标函数是一个经典的LASSO问题，可以采用经典的LARS方法进行高效求解。

所述的步骤4)包括：

\begin{matrix} {SC}_{+} (a^{x}) = {i | &ForAll; i &Element; 1, 2, ..., K, i f a_{i}^{x} > σ} \\ {SC}_{-} (a^{x}) = {i | &ForAll; i &Element; 1, 2, ..., K, i f a_{i}^{x} < - σ} \end{matrix} - - - (4)

其中σ为设定的阈值，SC₊(·)和SC_{_}(·)对应两个量化函数，生成稀疏编码a^x的系数为正值和负值对应的下标集合；

S i m (a^{x}, a^{y}) = \frac{1}{2} (\frac{| {SC}_{+} (a^{x}) \cap {SC}_{+} (a^{y}) |}{| {SC}_{+} (a^{x}) \cap {SC}_{+} (a^{y}) |} + \frac{| {SC}_{-} (a^{x}) \cap {SC}_{-} (a^{y}) |}{| {SC}_{-} (a^{x}) \cap {SC}_{-} (a^{y}) |}) - - - (5)

实施例

为了验证本发明的效果，从“维基百科-每日一图”的网页上抓取约2900个网页，每个网页包含了一张图像以及几段相关的描述文本。以此作为数据集进行跨媒体稀疏哈希索引的实验。给定两种媒体(图像和文本媒体)上的跨媒体检索的实验。对图像模态的数据，本发明提取SIFT局部特征，再用K-means聚类的方法对SIFT特征进行聚类，形成1000个中心点。最终，每张图像被量化为1000维的“视觉词袋”(Bagofvisualwords)；对文本模态的数据，按照单词TF值选取最具代表性的5000个单词，形成5000维的“词袋”(Bagofwords)。

为了客观地评价本发明的算法的性能，发明者使用平均准确率(MeanAveragePrecision，MAP)以及返回的正确结果是否排在前t%(Percentage)两种评价标准，在不同的字典大小K以及不同的稀疏度sparsedegree(稀疏系数中非零项平均所占的比例)做了实验，MAP的结果如表2所示，Percentage的结果如表3所示。

表2.平均准确度MAP的结果

表3.Percentage的结果

为了更好地展现本发明在跨媒体检索上的结果，在图2中呈现了一些查询结果的实例。从呈现的结果可以看到，无论是以图像查询文本，还是以文本查询图像，本发明的方法都具有较好的效果，能返回传统的单一模态的检索所不能实现的语义上相近的结果。

Claims

1.一种跨媒体稀疏哈希索引方法，其特征在于包括如下步骤：

4)将稀疏编码通过哈希策略转化为稀疏编码集，并使用类jaccard距离来计算集合之间的相似度；

所述的步骤2)包括：

\begin{matrix} \min_{A, D^{x}, D^{y}} & | | X - D^{x} A^{x} | |_{F}^{2} + | | Y - D^{y} A^{y} | |_{F}^{2} + Ω (A) \\ s . t . & \begin{matrix} | | d_{k}^{x} | |_{F}^{2} \leq 1, | | d_{k}^{y} | |_{F}^{2} \leq 1 & &ForAll; k = 1, 2, ... K \end{matrix} \end{matrix} - - - (1)

其中是两个模态的数据集，p_x、p_y为相应模态的数据的维度，N_x、N_y为数据的个数；是数据集X和Y对应的字典；K为组成字典的元素的个数，组成D^x和D^y的元素个数相同使得不同模态的数据被映射到统一的字典空间里；是数据集X和Y中每个数据用对应的字典重建的稀疏系数；

Ω(A)＝λ|｜A｜|₁+αTr(AL_hA^T)(2)

Ω(A)由两项组成，分别对应了之前定义的两个目标：稀疏和超图关联关系保持；其中L_h为超图拉普拉斯矩阵，具体的定义如下：

L_{h} = I - D_{v}^{- 1 / 2} {HWD}_{e}^{- 1} H^{T} D_{v}^{- 1 / 2} - - - (3)

其中I是单位矩阵，H是关联矩阵，D_v为超图的顶点的度的构建的对角矩阵，D_e为超图的超边的度的构建的对角矩阵，W为超边的权重构建的对角矩阵。