CN115878757A

CN115878757A - 一种基于概念分解的混合超图正则化半监督跨模态哈希方法

Info

Publication number: CN115878757A
Application number: CN202211588964.3A
Authority: CN
Inventors: 钟芳明; 张素华; 陈志奎
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2023-03-31

Abstract

本发明提供一种基于概念分解的混合超图正则化半监督跨模态哈希方法，属于计算机技术领域。本发明是解决跨模态检索中存在大量无标签数据的训练问题，充分挖掘有标签和无标签数据间的混合超图高阶关系，提高模型检索能力，步骤包括：基于概念分的解公共语义表示学习、跨模态混合超图构建、有标签数据的分类损失度量、总体目标函数构建及其优化、以及学习量化旋转矩阵和跨模态哈希函数，最终通过哈希函数将跨模态数据转化为二进制的哈希编码进行跨模态交叉检索。本发明能够有效利用无标签数据进行半监督跨模态哈希检索。

Description

一种基于概念分解的混合超图正则化半监督跨模态哈希方法

技术领域

本发明属于计算机技术领域，涉及一种针对互联网中图像和文本的半监督的跨模态检索方法，尤其涉及一种基于概念分解的混合超图正则化半监督跨模态哈希方法。

背景技术

随着社交媒体的发展，以及各行业采集数据手段的多样化，多模态数据(如用户发表微博的图片和蚊子)爆炸性的增长，给跨模态数据交叉检索带来了前所未有的挑战。跨模态检索就是利用一个模态数据去检索另一个模态数据，比如网络购物平台中通过拍摄图片来检索相关的物品，通过一段文字来检索相关的图片和视频等等这种模态交叉检索模式。由于数据存储空间大，传统的检索度量方式计算量大，跨模态哈希成为解决跨模态检索的有效方法，将图像、文本、视频等数据表示成二进制编码的特征形式，大大节约了空间。同时位操作能够快速比对检索，降低了计算时间成本。因此，跨模态哈希是当前最热门的研究问题之一。现有方法大多数都是有监督模型，也有少部分无监督模型。然而有监督模态需要大量的标记数据，而在当前这个大数据时代，海量的多模态数据标记代价昂贵、人工成本高。相反，无监督的模型虽然不需要标记数据，但是跨模态检索性能往往低于有监督方法。因此，研究人员提出了半监督的方法，既能够利用有标签数据的语义准确性，又能够利用大量的无标签数据提供特征辅助学习。

虽然，在半监督跨模态哈希方面提出了很多优秀的工作，仍然存在一些不足。其中一些方法采用对无标签数据进行标签预测，该类方法模拟有标签数据进行预测，但是模型的预测准确率非常关键，有可能造成标签预测错误的累积，进而降低了模型的性能。也有结合传统的无监督方法和有监督方法，分别对有标签和无标签数据进行处理，然而大部分方法仅仅是简单利用无标签数据的结构信息，缺乏挖掘样本之间的高阶语义关系和跨模态高阶关系。

为此，本发明提出了一种基于概念分解的混合超图正则化半监督跨模态哈希方法。首先与采用矩阵分解等方式学习潜在语义表示不同，本发明采用概念分解，学习跨模态数据的内在本质语义信息，能够接收负的跨模态特征，提高模型的鲁棒性。此外，本发明提出跨模态混合超图正则化约束样本保持高阶关系，兼顾模态间和模态内的高阶邻居关系。对于无标签样本和有标签样本，统一构建两个模态的超图，然后混合两个模态形成混合超图，进而约束公共语义表示学习。此外，本发明对于有标签数据的公共语义表示进行分类预测，最小化分类损失，提高公共语义表示的判别性。学习完训练数据的公共语义表示之后，便可以利用其来学习正交旋转矩阵和哈希函数，实现新数据的哈希编码学习和跨模态检索。

发明内容

本发明面向互联网中图像和文本之间的跨模态检索问题，提出半监督跨模态哈希方案，探究一种基于概念分解的混合超图正则化跨模态哈希方法，采用概念分解学习公共语义表示，利用跨模态混合超图在公共语义表示上进行优化限制，以提升局部结构保持能力，利用超图建模样本间的高阶关系，引导学习更具判别性的公共语义表示，同时对有标签数据公共语义表示进行分类误差最小化，最后学习正交旋转矩阵和图像模态以及文本模态的哈希函数，给数据库数据和新来的图像文本查询数据生成二进制的哈希编码，通过哈希编码计算最相似的数据库图像或者文本，实现跨模态检索。

为了达到上述目的，本发明采用的技术方案为：

一种基于概念分解的混合超图正则化半监督跨模态哈希方法，所述的概念分解为公共语义表示学习模块。所述的混合超图正则化，融合了图像模态和文本模态的超图进行正则化约束学习公共语义表示。所述的半监督跨模态哈希方法指既包含了有标签数据，也包含了无标签数据。整个发明包括以下步骤：

步骤1，公共语义表示学习，基于概念分解，学习跨模态数据的内在语义表示；

步骤2，跨模态混合超图构建，混合不同模态数据，构建混合超图；

步骤3，有标签数据分类损失度量，对有标签数据，最小化分类标签预测损失；

步骤4，总体目标函数构建及其优化，结合前面步骤形成总体目标函数；

步骤5，量化旋转矩阵学习，通过公共语义表示，学习正交旋转矩阵，减少量化损失；

步骤6，学习跨模态投影矩阵，构建哈希函数。

具体步骤如下：

一种基于概念分解的混合超图正则化半监督跨模态哈希方法，包括以下步骤：

步骤1、公共语义表示学习

令

表示图像模态数据特征，/>

表示文本模态数据特征，每一个模态里面包含n个样本，其中l个有标签。图像特征维度为d₁，即/>

文本特征维度为d₂，/>

给定有标签数据的标签/>

c表示数据类别的数量。标签向量采用0、1表示，当Y(j,i)＝1时，表示第j个样本属于第i类，否则如果不属于，则Y(j,i)＝0。与有监督方法仅仅能够利用有标签数据训练模型不一样，本发明能够充分利用无标签数据来提高模型的鲁棒性。

针对跨模态数据中既包含有标签数据，也包含无标签数据，本发明提出基于概念分解的方法，学习跨模态数据的内在语义信息。相比于非负矩阵分解，概念分解允许输入数据包含负数，具有更好的兼容性。设

为两个模态的公共语义表示，其中k为表示空间的维度，本发明为了松弛公共语义表示，采用两个表示尽可能相似，而不是约束到一个公共的表示。因此，概念分解的目标函数如公式(1)所示：

其中，

表示关联矩阵，记录数据的概念，α为模态权重参数，||·||_F表示弗罗贝尼乌斯范数。再加上对于公共语义表示的尽可能靠近，形成如公式(2)所示的目标函数，

步骤2，构建跨模态混合超图

通常对于无监督训练模型，都会采用数据本身的局部结构来约束子空间的表示学习，因此，在跨模态检索中，很多方法采用图正则化来约束子空间的表示，使得在原始空间中相邻的样本，在目标公共语义空间中仍然靠近。然而现有方法往往单独对待每一个模态，即进行模态内的局部结构保持，忽视了模态间的关联关系。本发明提出混合超图正则化约束，利用超图能够建模多个样本之间的邻接关系，建立模态内的高阶局部关系保持，同时，通过混合超图构建，融合两种模态间的高阶关系，以引导公共语义表示学习，提高判别性。

首先，根据图像模态数据X₁构建关联矩阵H₁，构建方法采用每个节点构建一条超边的方式，超边由该节点和对应最相似的K个邻居，相似度采用欧氏距离度量。同时，对于文本模态，构建对应的关联矩阵H₂，接下来开始构建混合超图，将两种模态的超边拼接在一起，形成2n条超边的超图，如公式(3)所示：

H＝[H₁,H₂], (3)

然后，根据混合超图关联矩阵H可计算出混合超图拉普拉斯矩阵L^h。因此，混合超图拉普拉斯正则化约束可定义为如公式(4)所示的目标函数。

其中，β是权重参数。目标函数能够约束公共语义表示V₁和V₂保持模态内和模态间的高阶关系。

步骤3、有标签数据分类损失度量

对有标签数据，本发明最小化其分类标签预测损失，目标函数如公式(5)所示，

其中，λ，γ表示超参数参数，

是投影矩阵，/>

表示选择矩阵，而无标签数据没有标签，因此只对有标签数据进行分类损失度量。

步骤4、总体目标函数构建及其优化

结合前面步骤的公式(1)(2)(4)(5)，形成总体目标函数，对相关变量进行优化，如公式(6)所示，

接下来就是对目标函数进行优化，本发明采用交替迭代的方式进行，直到收敛。最后将公共语义子空间对图像模态和文本模态的进行加权平均，得到最终的潜在语义子空间，如公式(7)所示。

V＝αV₁+(1-α)V₂ (7)

步骤5、量化旋转矩阵学习

采用哈希表示能够节省存储空间，提高检索速度，为此，将公共语义空间转化为二进制表示的哈希编码。通常采用直接取公共语义表示的符号来获得，容易引入较大的量化损失，误差较大。因此，本发明通过学习一个正交的旋转矩阵来获得哈希编码，形成目标函数如公式(8)所示。

其中，B表示哈希编码，R表示旋转矩阵，I_k表示单位阵。公式(8)是典型的Orthogonal Procrustes问题，其中可以通过奇异值分解来获得，类似的，采用迭代优化以获得最优解。

步骤6、学习跨模态投影矩阵，构建哈希函数

最后，通过公共语义表示学习量化的正交旋转矩阵，为了能够使查询的图像或者文本数据快速转化为二进制编码，还需要学习图像模态和文本模态的哈希函数，直接将原始特征投影到汉明空间中。因此，针对图像模态数据和文本模态数据，构建如公式(9)所示的目标函数。

其中，P₁，P₂表示投影矩阵。通过交替迭代优化之后，可求得P₁，P₂如公式(10)和公式(11)所示结果。

因此，最后对于图像模态数据x¹，获取哈希编码如公式(12)所示：

h₁＝sgn(RP₁x¹) (12)

对于文本模态数据x²获取哈希编码如公式(13)所示：

h₂＝sgn(RP₂x²) (13)

学习好哈希函数之后，本发明就可以获得新的查询图像或者查询文本的哈希编码，进而从数据库中计算与查询图片哈希编码最相近的文本哈希编码实现图像检索文本，或者从数据库中计算与查询文本哈希编码最相近的图像哈希编码，实现文本检索图像。

本发明的创新性分析：(1)本发明针对跨模态数据进行检索，能够接收带标签和不带标签的跨模态数据，不局限于图像、文本、语音数据。(2)本发明采用概念分解，学习跨模态数据的内在的本质的公共语义信息。(3)本发明构建混合超图，能够建模跨模态数据高阶关系信息。

本发明的有益效果为：本发明基于概念分解，准确学习跨模态数据的公共语义表示，同时通过建模混合超图，进一步通过正则化约束公共语义表示学习，提高判别能力，对于有标签数据通过标签的分类损失最小化进行约束，最终达到利用大量无标签数据进行半监督跨模态数据检索模型的训练和交叉检索。

附图说明

图1为算法步骤图。

具体实施方式

下面结合互联网中图片和文本之间的交叉检索对本发明的实施方式做进一步说明。

步骤1、图像与文本公共语义表示学习

令

表示图像模态数据特征，/>

文本特征维度为d₂，/>

给定有标签数据的标签/>

针对图片和文本跨模态数据中既包含有标签数据，也包含无标签数据，本发明提出基于概念分解的方法，学习图像和文本跨模态数据的内在语义信息。相比于非负矩阵分解，概念分解允许输入数据包含负数，具有更好的兼容性。设

其中，

步骤2，构建图像文本的跨模态混合超图

首先根据图像模态数据X₁构建关联矩阵H₁，构建方法采用每个节点构建一条超边的方式，超边由该节点和对应最相似的K个邻居，相似度采用欧氏距离度量。同时，对于文本模态，构建对应的关联矩阵H₂，接下来开始构建混合超图，将两种模态的超边拼接在一起，形成2n条超边的超图，如公式(3)所示：

H＝[H₁,H₂], (3)

步骤3、有标签数据分类损失度量

其中，λ，γ表示超参数参数，

是投影矩阵，/>

表示选择矩阵

步骤4、总体目标函数构建及其优化

V＝αV₁+(1-α)V₂ (7)

步骤5、量化旋转矩阵学习

步骤6、学习跨模态投影矩阵，构建哈希函数

最后，通过公共语义表示学习了量化的正交旋转矩阵，为了能够使测试数据快速转化为二进制编码，还需要学习各个模态的哈希函数，直接将原始特征投影到汉明空间中。因此，针对图像模态数据和文本模态数据，构建如公式(9)所示的目标函数。

h₁＝sgn(RP₁x¹) (12)

对于文本模态数据x²获取哈希编码如公式(13)所示：

h₂＝sgn(RP₂x²) (13)

学习好哈希函数之后，本发明就可以获得不同模态的哈希编码，进而学习检索库的编码，通过二进制编码的汉明距离快速检索相似的另一模态数据。

应用实例：

下面通过在互联网中真实爬取的图片和文本数据集上应用本发明对本发明的效果进行说明。三个数据集分别是Wikipedia、Pascal Sentence、INRIA-Websearch数据集。Wikipedia数据集包含2866个图像文本对，每一张图片对应一段描述的文字，分别属于10个类别。其中，2173对样本作为训练集用来训练本发明的模型，其中只有75％的数据包含了类别标签。剩下的作为查询集来实现图像查询文本和文本查询图像。首先对所有的图像提取4096维的CNN图像特征，对段落文字提取100维的LDA文本特征。然后按照上述的发明步骤进行总体目标函数的构建以及哈希函数的学习。最后，利用查询的图像和文本对另一个模态数据进行查询。图像检索文本和文本检索图像的交叉检索结果指标(平均精确率均值MAP)如表1所示。其中哈希编码长度分别设置了16位、32位、64位、128位，以查看不同长度的应用效果。

从表1统计的应用效果可以看出，本发明提出的方法取得了最好的图像查询文本和文本查询图像效果。比目前最优秀的方法在不同哈希编码长度下都更好。

表1.Wikipedia数据集上的半监督跨模态检索结果(MAP@50)

此外，本发明还在另外两个互联网收集的图像和文本数据上进行了跨模态检索应用。分别是Pascal Sentence、INRIA-Websearch。Pascal Sentence数据集一共有1000对图像文本分别来自20个类别。从每一个类中随机选择30对样本作为训练集，剩下的作为测试样本。同样的图像特征为4096维的CNN特征，文本为100维的LDA特征。INRIA-Websearch数据集包含71478对图像文本对，分别来自353个类别，删除不相关的文本对之后，得到一个子数据集一共包含14698个文本对，其中10332对作为训练集，4366对作为测试集。数据特征同上。

表2.Pascal Sentence数据集上的半监督跨模态检索结果(MAP@50)

表3.INRIA-Websearch数据集上的半监督跨模态检索结果(MAP@50)

从表2和表3的结果可以看出，本发明提出的方法也取得了最好的跨模态检索应用效果，绝大多数情况下都取得了最优的跨模态检索结果。并且在INRIA-Websearch数据集上，本发明的方法在不同长度哈希编码和不同的跨模态检索任务中都显著高于目前最好的方法。因此，从整体的应用实例效果分析，本发明提出的方法对于充分利用无标签的图像和文本数据，进行半监督的跨模态图像文本检索是有效的，而且取得了比以往方法更优异的跨模态检索成绩。

综上所述，本发明的一种基于混合超图正则化的半监督图像文本跨模态哈希方法，能够基于混合超图和概念分解充分发挥无标签数据在语义结构保持方面的重要性，提高半监督跨模态检索模型的学习性能和检索能力，解决有标签数据标记困难、成本高的问题。

以上所述实例仅表达本发明的实施方式，但并不能因此而理解为对本发明专利的范围的限制，应当指出，对于本领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些均属于本发明的保护范围。

Claims

1.一种基于概念分解的混合超图正则化半监督跨模态哈希方法，其特征在于，所述的概念分解为公共语义表示学习模块；所述的混合超图正则化，融合图像模态和文本模态的超图进行正则化约束学习公共语义表示；所述的半监督跨模态哈希方法指既包含有标签数据，也包含无标签数据；具体包括以下步骤：

步骤6，学习跨模态投影矩阵，构建哈希函数。

2.根据权利要求1所述的一种基于概念分解的混合超图正则化半监督跨模态哈希方法，其特征在于，包括以下步骤：

步骤1、公共语义表示学习

令

表示图像模态数据特征，/>

表示文本模态数据特征，每一个模态里面包含n个样本，其中l个有标签；图像特征维度为d₁，即/>

文本特征维度为d₂，/>

给定有标签数据的标签/>

c表示数据类别的数量；标签向量采用0、1表示，当Y(j,i)＝1时，表示第j个样本属于第i类，否则如果不属于，则Y(j,i)＝0；

提出基于概念分解的方法，学习跨模态数据的内在语义信息，其中跨模态数据中既包含有标签数据，也包含无标签数据；概念分解允许输入数据包含负数；设

为两个模态的公共语义表示，其中k为表示空间的维度；为了松弛公共语义表示，采用两个表示尽可能相似，而不是约束到一个公共的表示；因此，概念分解的目标函数如公式(1)所示：

其中，

表示关联矩阵，记录数据的概念，α为模态权重参数，||·||_F表示弗罗贝尼乌斯范数；再加上对于公共语义表示的尽可能靠近，形成如公式(2)所示的目标函数，

步骤2，构建跨模态混合超图

提出混合超图正则化约束，利用超图能够建模多个样本之间的邻接关系，建立模态内的高阶局部关系保持；同时，通过混合超图构建，融合两种模态间的高阶关系，以引导公共语义表示学习，提高判别性；即跨模态混合超图能够融合模态内和模态间的高阶语义关系；

步骤3、有标签数据分类损失度量

对有标签数据，最小化其分类标签预测损失，目标函数如公式(5)所示，

/>

其中，λ，γ表示超参数参数，

是投影矩阵，/>

表示选择矩阵，而无标签数据没有标签，因此只对有标签数据进行分类损失度量；

步骤4、总体目标函数构建及其优化

对目标函数进行优化，直到收敛；最后将公共语义子空间对图像模态和文本模态的进行加权平均，得到最终的潜在语义子空间，如公式(7)所示；

V＝αV₁+(1-α)V₂ (7)

步骤5、量化旋转矩阵学习

将公共语义空间转化为二进制表示的哈希编码；通过学习一个正交的旋转矩阵来获得哈希编码，形成目标函数如公式(8)所示；

其中，B表示哈希编码，R表示旋转矩阵，I_k表示单位阵；公式(8)是典型的OrthogonalProcrustes问题，其中可以通过奇异值分解来获得，类似的，采用迭代优化以获得最优解；

步骤6、学习跨模态投影矩阵，构建哈希函数

最后，通过公共语义表示学习量化的正交旋转矩阵，为了能够使查询的图像或者文本数据快速转化为二进制编码，还需要学习图像模态和文本模态的哈希函数，直接将原始特征投影到汉明空间中；因此，针对图像模态数据和文本模态数据，构建如公式(9)所示的目标函数；

其中，P₁，P₂表示投影矩阵；通过交替迭代优化之后，可求得P₁，P₂如公式(10)和公式(11)所示结果；

最后对于图像模态数据x¹，获取哈希编码如公式(12)所示：

h₁＝sgn(RP₁x¹) (12)

对于文本模态数据x²获取哈希编码如公式(13)所示：

h₂＝sgn(RP₂x²) (13)

学习哈希函数后，能够获得新的查询图像或者查询文本的哈希编码，进而从数据库中计算与查询图片哈希编码最相近的文本哈希编码实现图像检索文本，或者从数据库中计算与查询文本哈希编码最相近的图像哈希编码，实现文本检索图像。

3.根据权利要求2所述的一种基于概念分解的混合超图正则化半监督跨模态哈希方法，其特征在于，所述的步骤2具体步骤为：

首先，根据图像模态数据X₁构建关联矩阵H₁，构建方法采用每个节点构建一条超边的方式，超边由该节点和对应最相似的K个邻居，相似度采用欧氏距离度量；同时，对于文本模态，构建对应的关联矩阵H₂，接下来开始构建混合超图，将两种模态的超边拼接在一起，形成2n条超边的超图，如公式(3)所示：

H＝[H₁,H₂], (3)

然后，根据混合超图关联矩阵H可计算出混合超图拉普拉斯矩阵L^h；因此，混合超图拉普拉斯正则化约束可定义为如公式(4)所示的目标函数；

其中，β是权重参数；目标函数能够约束公共语义表示V₁和V₂保持模态内和模态间的高阶关系。

4.根据权利要求2所述的一种基于概念分解的混合超图正则化半监督跨模态哈希方法，其特征在于，所述步骤4总体目标函数采用交替迭代的优化方法进行优化。