CN108510559A

CN108510559A - 一种基于有监督多视角离散化的多媒体二值编码方法

Info

Publication number: CN108510559A
Application number: CN201810288688.6A
Authority: CN
Inventors: 王轩; 漆舒汉; 蒋琳; 姚霖; 廖清; 李晔; 关键; 刘泽超; 吴宇琳; 张喜
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2017-07-19
Filing date: 2018-03-30
Publication date: 2018-09-07
Anticipated expiration: 2038-03-30
Also published as: CN108510559B

Abstract

本发明涉及一种基于有监督多视角离散化的多媒体二值编码方法。该方法包括：S1. 假设一个由n幅图像组成训练集，通过学习得到包含一系列子函数的哈希函数，将样本的两种不同模态的特征映射到经过优化的特征空间中，得到的一系列与哈希子函数对应的哈希值，然后通过二值量化将哈希值转化为二值化哈希码：S2. 基于有监督训练的哈希函数：定义一个线性多分类模型并对模型函数进行优化，采用最小平方损失作为目标函数；S3. 基于最小量化损失的哈希函数：假设一种模态的特征，通过哈希函数优化至量化损失最小；S4. 基于多视角锚图的哈希函数：构造锚图，并采用锚图正则化哈希函数；S5. 优化算法。本发明既可以保持数据在原始空间相似性，又能提高检索的准确率。

Description

一种基于有监督多视角离散化的多媒体二值编码方法

技术领域

本发明涉及信息存储检索领域，特别涉及一种基于有监督多视角离散化的多媒体二值编码方法。

背景技术

互联网上不断产生的大量半结构化和非结构化数据产生，使如何有效存储这些数据，减少存储空间消耗成为了一个亟待解决的问题。跨媒体哈希(Cross-media Hashing)方法为解决以上问题提供了有效途径。首先跨媒体哈希方法将多媒体数据编码成一串长度固定的二值码(0/1或者-1/1)，可以极大减少数据的存储空间；其次在进行计算时，仅需要通过简单的异或运算比较哈希码之间的汉明距离就可以实现特征距离计算。

跨媒体检索性能好坏主要取决于所学的哈希码的质量。通常假设哈希码的质量在于其是否能有效保留原始数据内部隐含的语义信息，比如，原始特征空间中两个相似数据点在映射到汉明空间中距离较小，而原始特征空间中两个差异化的数据点在映射到汉明空间中距离较大。为了提高哈希码的质量，通常采用机器学习方法生成哈希函数，并且在优化模型时要求生成的哈希码要与原始特征满足特定的统计分布规律。

采用机器学习方法学习跨媒体哈希函数主要有几点问题：1)哈希函数将原始特征从连续特征空间映射至二值化空间是一个NP难题；2)如何在特征映射时保持数据之间的语义相似性。3)如何对异构多媒体数据之间的关系建模。

发明内容

本发明提供一种基于有监督多视角离散化的多媒体二值编码方法，旨在解决多媒体信息存储检索问题的高效哈希码生成问题。

本发明提供一种基于有监督多视角离散化的多媒体二值编码方法，包括以下步骤：

S1.假设一个由n幅图像组成训练集，通过学习得到包含一系列子函数的哈希函数，将样本的两种不同模态的特征映射到经过优化的特征空间中，得到的一系列与哈希子函数对应的哈希值，然后通过二值量化将哈希值转化为二值化哈希码：

S2.基于有监督训练的哈希函数：定义一个线性多分类模型并对模型函数进行优化，采用最小平方损失作为目标函数；

S3.基于最小量化损失的哈希函数：假设一种模态的特征，通过哈希函数优化至量化损失最小；

S4.基于多视角锚图的哈希函数：构造锚图，并采用锚图正则化哈希函数；

S5.优化算法。

作为本发明的进一步改进，所述步骤S1包括：

假设训练集O＝{o_i}，i＝1,2,...,n包含n个样本，其中o_i＝(x_i ⁽¹⁾,x_i ⁽²⁾，...,x_i ^(j))。x_i ^(j)表示第i个样本的第j种媒体内容的特征向量，Y＝[y₁,y₂,...,y_n]∈{0,1}^c×n表示训练样本的真实类别标签矩阵有：

跨媒体哈希算法通过学习得到包含一系列子函数的哈希函数：

H(x)＝{h₁(x),h₂(x),...,h_k(x)},

将样本的两种不同模态的特征映射到经过优化的特征空间中，得到的一系列与哈希子函数对应的哈希值，然后通过二值量化将哈希值转化为二值化哈希码，过程如下：

b_i＝sgn(H(x_i)),i＝1,...,n

其中sgn()是符号函数，生成的哈希码b_i与b_j保留了原始特征o_i与o_j之间的语义相关性，即如果o_i与o_j具有相似的语义，则b_i和b_j在汉明空间中的汉明距离应该较小，反之亦然。

作为本发明的进一步改进，所述步骤S2包括：

定义一个线性多分类模型如下：

y＝F(b)＝W^Tb＝[w₁ ^Tb,....,w_r ^Tb]^T,

其中{w_k∈R^r×1,k＝1,...,C}数据样本所属类别k的参数向量，总共有C个类别，y∈R^r×1是各个类别的激活值，根据W^Tb的最大值y_k对应的类标，将样本数据点x分类到第k个类别。对于Ω(B,Y),采用下面的优化函数：

式中L()是损失函数，表示训练集的分类误差，度量学习到哈希码的分类质量。λ是正则化参数。||·||_F是Frobenius范数。α是哈希函数H(x_i)拟合哈希码b_i错误率的惩罚参数。本方法具体采用最小平方损失作为目标函数：

作为本发明的进一步改进，所述步骤S3包括：

假设一种模态的特征X(m)＝{x_i ^(m)}，X^m∈Rⁿ×d，x_i ^(m)∈R^d，对于给定二值哈希码的长度c，整个编码过程可以写成

其中P中的列向量p_j是一组超平面系数，令哈希函数能够通过优化P和B，使下式中的量化损失最小：

其中用来控制映射矩阵W的数值规模的正则项。由于约束B＝sgn(P^TX^(m))求解较为困难，同时为了将最小量化损失扩展至多模态特征的情况，优化函数变为：

作为本发明的进一步改进，所述步骤S4包括：

S41.锚图的构造：假定有N个样本点的数据集，用X表示，其特征维度为D，用一系列锚点集合来表示原始数据，每一个数据点在流形空间中通过其最近邻的锚点进行线性表示，模型如下：

其中是一个权重矩阵，用来度量数据样本X与锚点U之间潜在的关系，用一个非线性映射将原始空间数据点映射到低维空间，用锚点邻近的点表示，度量矩阵为Z：

其中||z(x)||₁＝1，Z＝[z(x₁),...,z(x_n)]^T∈R^n×m，D(,)是一个距离度量函数，是锚点的集合，重新构造相似度矩阵，则有A＝ZZ^T，对应的图拉普拉斯为L＝I-H，I为单位矩阵，H为归一化仿射矩阵，

作为本发明的进一步改进，所述步骤S4包括：

S42.采用锚图正则化的哈希函数：

采用超图对映射特征进行约束，构建目标函数如式：

当距离度量一致性哈希扩展至多模态特征时，目标函数为：

作为本发明的进一步改进，所述步骤S5具体包括：

整合，得到最后的优化目标：

作为本发明的进一步改进，所述步骤S5的算法过程为：

输入：多模态特征矩阵X(m),m＝1,2,…j；

Y∈{0,1}^l×n类别标签；

c:哈希码长；

η，δ，λ，τ:权重参；

输出：哈希映射矩阵P_m,m＝1,2,...,j；

初始化：B⁽⁰⁾＝sgn(B^*)；

随机初始化P(0)，生成每种模态特征的归一化仿射矩阵Hm；

步骤：

循环执行；

P-矩阵优化：

W-矩阵优化：W^(t+1)＝(BB^T+λI)^-1B^(t)TY^T；

B-矩阵优化：对于r＝1,…,c.执行：；

其中：

α-向量优化：利用二次规划工具包CVX优化函数

本发明的有益效果是：通过有监督训练的形式，充分利用训练样本的标签蕴含的信息进行训练，同时引入多视角锚图方法，保证数据在原始空间和在汉明空间距离一致性，在学习哈希函数时使用有监督的机器学习方法，采用“离散循环坐标下降”算法，引入辅助变量，逐位学习所有样本数据的哈希码。在逐位学习哈希码过程中，构造非线性哈希函数，因为非线性函数与线性函数相比对特征具有更好的表达能力；利用标签信息，学习二值化哈希码可以认为是对二值化特征向量进行分类，采用线性分类器对哈希码进行二值分类，生成二值化哈希码。本方法充分考虑近似样本点对在汉明空间与原始空间距离一致的原则，原始空间近似样本点对映射到汉明空间之后，哈希码尽量一致，而且产生紧致的哈希码。既可以保持数据在原始空间相似性，又能提高检索的准确率。

附图说明

图1是本发明用图像特征从文本数据库中查找相关文本内容的数据图；

图2是本发明用文本特征从数据库中查找相关图像内容的数据图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。

本发明的一种基于有监督多视角离散化的多媒体二值编码方法，具体方法描述如下：

1、相关概念和问题定义：

假设训练集O＝{o_i}，i＝1,2,...,n包含n个样本，其中o_i＝(x_i ⁽¹⁾,x_i ⁽²⁾，...,x_i ^(j))。x_i ^(j)表示第i个样本的第j种媒体内容的特征向量。Y＝[y₁,y₂,...,y_n]∈{0,1}^c×n表示训练样本的真实类别标签矩阵有：

为了支持跨媒体检索，跨媒体哈希算法通过学习得到包含一系列子函数的哈希

函数：

H(x)＝{h₁(x),h₂(x),...,h_k(x)},

能够将样本的两种不同模态的特征映射到某个经过优化的特征空间中，得到的

一系列与哈希子函数对应的哈希值，然后通过二值量化将哈希值转化为二值化

哈希码，过程如下：

b_i＝sgn(H(x_i)),i＝1,...,n

2、框架描述

本方法首先假设了训练所得哈希码应当保留训练数据集中的类标信息，因此在目标函数中引入了损失项保证哈希码与原始特征点的类标一致性；其次，假设生成哈希码应当原始特征空间中的距离度信息，因此在目标损失函数中引入了损失项保证哈希码与原始特征的距离度量一致性；最后，为了降低连续值向离散值转化的过程中产生的量化损失，本方法采用对离散哈希码直接优化的方式替代传统的松弛量化策略。具体来讲，本文采用的目标函数按照如下形式进行构造：

argminΩ(B,Y)+ηΦ(B,O)+δΘ(B,O)

s.t.B∈{-1，1}^k×n

其中Ω(B,Y)是保持哈希码与原始特征点的类标一致性的损失项；Φ(B,O)是减少量化损失的损失项；Θ(B,O)是保持哈希码与原始特征的距离度量一致性的损失项

2.1、基于有监督训练的哈希函数

现定义一个线性多分类模型如下：

y＝F(b)＝W^Tb＝[w₁ ^Tb,....,w_r ^Tb]^T,

2.2、基于最小量化损失的哈希函数

假设某一种模态的特征X(m)＝{x_i ^(m)}，X^m∈Rⁿ×d，x_i ^(m)∈R^d，为了减少量化损失，本方法的优化目标是寻找映射矩阵P，能够使b_i＝sgn(P^Tx_i(m))的量化损失最小。对于给定二值哈希码的长度c，整个编码过程可以写成

其中P中的列向量p_j是一组超平面系数(Hyperplane Coefficient)。令哈希函数能够通过优化P和B,使下式中的量化损失最小：

2.3、基于多视角锚图的哈希函数

2.3.1、锚图的构造

假定有N个样本点的数据集，用X表示，其特征维度为D，用一系列锚点集合来表示原始数据。每一个数据点在流形空间中可以通过其最近邻的锚点进行线性表示，模型如下：

其中是一个权重矩阵，用来度量数据样本X与锚点U之间潜在的关系，用一个非线性映射将原始空间数据点映射到低维空间，用锚点邻近的点表示，度量矩阵为Z:

其中||z(x)||₁＝1，Z＝[z(x₁),...,z(x_n)]^T∈R^n×m，D(,)是一个距离度量函数，是锚点的集合。重新构造相似度矩阵，则有A＝ZZ^T，对应的图拉普拉斯为L＝I-H，I为单位矩阵，H为归一化仿射矩阵，

2.3.2、采用锚图正则化的哈希函数

采用锚图实现对哈希码的距离度量一致性约束，实际上是要求数据在映射至汉明空间后的距离度量与超图构建的流形空间内的距离度量相一致。即在原特征构成的流形空间内，在局部空间内呈线性关系的数据点之间都是相似的，在映射至汉明空间后，数据点之间的汉明距离仍然要求较小，反之，在原流形空间中距离(注意此时距离不是特征之间的欧式距离，而是在流形空间中的距离，数据点之间通过在小团体之间随机游走可以到达彼此的概率)较远的数据点，在映射至汉明空间后，数据点之间的汉明距离则要求较远。采用超图对映射特征进行约束可以有效改善映射后特征的平滑度，构建目标函数如式：

当距离度量一致性哈希扩展至多模态特征时，目标函数为：

3、总体目标及优化算法

通过对式2-2、式2-5和式2-7进行整合，得到最后的优化目标：

整个算法过程描述如下：

在实际测试阶段，对于多媒体内容特征使用上述的模型求解出的W，以及P，求解出哈希函数H(x)。新的样本根据该哈希函数进行哈希编码，得到关于多媒体内容的二值编码。

本发明通过实验进行验证：

1、实验设置

为了验证本方法的有效性，将本方法应用与跨媒体检索任务中，并且在大型公开数据集NUW-WIDE上进行测试。

NUS-WIDE数据集是一个大规模网络图像数据集，包含269,648个样本，每个样本包含一张图像和对应的文本标签内容。对于每个样本，其图像特征由一个500维的SIFT视觉词袋向量组成，文本特征是二值化词频向量，其词袋是数据集中出现最频繁的前1000个标签。NUS-WIDE数据集提供了一种81类的人工标注，每一个样本与其中至少一个类别对应。

采用了平均正确率均值(Mean Average Precision，MAP)作为评价标准。MAP一种常见的信息检索评价标准，主要考察检索算法的准确性和稳定性，形成比较有参考价值的评分。

本方法与以下五种现有的多媒体二值化方法进行了对比：

CVH：跨视角哈希(Cross-View Hashing)，是一种有监督哈希算法，将传统的谱哈希算法从单视图扩展至多视图，同时保持视角间的相似性。

CMSSH：跨模态相似性敏感哈希(Cross-Modality Similarity-SensitiveHashing)，是一种有监督哈希算法，其主要通过特征值分解和集成学习方法，学习线性哈希函数。

SCM：语义相关最大化哈希(Semantic Correlation Maximization Hashing)，是一种有监督哈希算法，在学习哈希函数时使不同模型之间的语义—类标相关性最大化，同时采用序列化的量化方法，对哈希码进行逐位优化。

CMFH：基于联合矩阵分解的哈希(Collective Matrix Factorization Hashing)，是一种无督哈希算法，对样本不同模态特征所构成的潜在因子模型进行联合矩阵分解来学习哈希函数，达到保持数据之间语义相似性的目的。

LSSH：潜在语义稀疏哈希(Latent Semantic Sparse Hashing)，是一种无监督哈希方法，对样本的图像和文本内容分别采用稀疏编码和矩阵分解方法，将各潜在语义表示映射至统一的高层特征空间后通过量化方法求哈希码。

2、实验结果

在两个跨模态检索任务上进行了测试：(1)使用图像特征作为查询条件，从文本数据库中查找相关的文本内容，其被表示成：Image Query vs Text Database；(2)使用文本特征作为查询特征，从数据库中查找相关的图像内容，其被表示成Text Query vs ImageDatabase。实验结果如图1、图2(本方法简称SDAH)。

从实验结果中可以看出，在两个跨媒体检索任务上，本方法均要好于现有方法。这是由于通过有监督训练的形式，能够有效利用训练样本的类别标签信息，同时引入了多视角锚图对异构多媒体数据在流形空间中的几何流形结构和距离度量关系进行学习，保证数据在原始空间和在汉明空间距离一致性。为了减少量化损失，本文不仅通过正则项度量二值化哈希码与原始特征之间的量化损失，同时还在优化过程中，采用离散循环坐标下降方法，直接对离散变量约束优化问题求解，进一步减少量化损失，提高二值化哈希码的信息量。

从实验结果中还可以看出，随着哈希码长的增加，一些对比方法如CMSSH、CVH、CMFH等出现了性能不稳定的情况，而SHAH的性能随着码长增加也继续增长，这说明了SHAH可以利用更长的码长保留更完整的语义相关性，同时也说明本方法具有较好的稳定性。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于有监督多视角离散化的多媒体二值编码方法，其特征在于，包括以下步骤：

S5.优化算法。

2.根据权利要求1所述的基于有监督多视角离散化的多媒体二值编码方法，其特征在于，所述步骤S1包括：

H(x)＝{h₁(x),h₂(x),...,h_k(x)},

b_i＝sgn(H(x_i)),i＝1,...,n

3.根据权利要求1所述的基于有监督多视角离散化的多媒体二值编码方法，其特征在于，所述步骤S2包括：

定义一个线性多分类模型如下：

y＝F(b)＝W^Tb＝[w₁ ^Tb,....,w_r ^Tb]^T,

4.根据权利要求1所述的基于有监督多视角离散化的多媒体二值编码方法，其特征在于，所述步骤S3包括：

5.根据权利要求1所述的基于有监督多视角离散化的多媒体二值编码方法，其特征在于，所述步骤S4包括：

6.根据权利要求1所述的基于有监督多视角离散化的多媒体二值编码方法，其特征在于，

所述步骤S4包括：

S42.采用锚图正则化的哈希函数：

采用超图对映射特征进行约束，构建目标函数如式：

当距离度量一致性哈希扩展至多模态特征时，目标函数为：

7.根据权利要求1所述的基于有监督多视角离散化的多媒体二值编码方法，其特征在于，所述步骤S5具体包括：

整合，得到最后的优化目标：

8.根据权利要求7所述的基于有监督多视角离散化的多媒体二值编码方法，其特征在于，所述步骤S5的算法过程为：

输入：多模态特征矩阵X(m),m＝1,2,…j；

Y∈{0,1}^l×n类别标签；

c:哈希码长；

η，δ，λ，τ:权重参；

输出：哈希映射矩阵P_m,m＝1,2,...,j；

初始化：B⁽⁰⁾＝sgn(B^*)；

随机初始化P(0)，生成每种模态特征的归一化仿射矩阵Hm；

步骤：

循环执行；

P-矩阵优化：

W-矩阵优化：W^(t+1)＝(BB^T+λI)^-1B^(t)TY^T；

B-矩阵优化：对于r＝1,…,c.执行：；

其中：

α-向量优化：利用二次规划工具包CVX优化函数