CN108334574A

CN108334574A - 一种基于协同矩阵分解的跨模态检索方法

Info

Publication number: CN108334574A
Application number: CN201810062484.0A
Authority: CN
Inventors: 李新卫; 荆晓远; 吴飞; 孙莹
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2018-01-23
Filing date: 2018-01-23
Publication date: 2018-07-27
Anticipated expiration: 2038-01-23
Also published as: CN108334574B

Abstract

本发明公开了一种基于协同矩阵分解的跨模态检索方法,同时考虑保持原始空间样本对的局部几何流形结构，使用图正则项加入了模态内与模态间的约束，采用普遍使用的mAP(平均准确率)作为性能评价指标。本发明不仅考虑了样本的模态内相似性，还考虑了样本对模态间的相似性，为以文检图和以图检文准确性提供了保障。本发明利用协同矩阵分解技术、哈希函数，同时加入了保持模态内与模态间相似性的图正则化项，提高了以文检图和以图检文的相互检索性能，广泛应用于移动设备、互联网以及电子商务中的图片文本互相检索服务。

Description

一种基于协同矩阵分解的跨模态检索方法

技术领域

本发明涉及一种基于协同矩阵分解的跨模态检索方法，具体涉及一种考虑保持原始空间数据的模态内相似性和模态间相似性的图正则化方法，属于图像处理技术领域。

背景技术

随着互联网技术的迅速发展，社会步入了大数据时代，大数据以图像、文本、音频和视频等不同的模态表示，这些不同模态的数据并不是独立的，它们有着本质的联系，如何挖掘出数据之间的关联信息成为了人们关注的热点。

跨模态检索技术作为一种基本的相关技术，在机器学习、计算机视觉和数据挖掘等领域被广泛的应用，比如用文本检索图片和用图片检索文本。然而大数据具有数据量大、维度高以及不同模态数据间的语义鸿沟大等一系列特点，这使得针对大数据的跨模态检索困难重重。为了减轻模态间的差异性，相关学者提出了一系列方法，其中一部分主要关注于潜在子空间学习，比如典型关联分析CCA及其扩展变形；而哈希算法作为一种近似最近邻检索技术，具有存储量小、检索速度快等特点，所以另一部分工作者主要进行哈希算法的研究，典型方法主要有跨视图哈希CVH、媒体间哈希IMH和语义关联最大化的监督多模态哈希。

然而，这些方法具有一定的局限性，检索效果比较低，检索的时间比较长，因此设计更好的算法是相关工作者亟需解决的难题。

发明内容

本发明所要解决的技术问题是提供一种基于协同矩阵分解的跨模态检索方法，考虑了保持原始空间数据的模态内相似性和模态间相似性。本发明不仅提高了以文检图的准确率，还提高了以图检文的识别能力，同时具有检索的速度快等优点。

本发明为解决上述技术问题采用以下技术方案：

本发明提供一种基于协同矩阵分解的跨模态检索方法，包括如下步骤：

步骤1，获取原始数据，首先对原始数据中的图像和文本分别进行特征提取，并对提取到的图像特征和文本特征分别进行归一化处理，再将归一化处理后的图像特征和文本特征分别分为两个部分，一部分图像特征和文本特征构成训练集，另一部分图像特征和文本特征构成测试集；

步骤2，利用训练集中的特征数据的类标签构造图像与图像、文本与文本模态内以及图像与文本模态间相似性矩阵和拉普拉斯矩阵；

步骤3，将矩阵分解函数、哈希函数和正则化项合并生成整体目标函数，整体目标函数的表达式如下所示：

式中，i,j＝1,2，λ₁和λ₂分别表示图像模态内和文本模态内的平衡系数，X₁和X₂分别表示训练集中图像特征数据和文本特征数据，U₁和U₂分别表示X₁和X₂的基矩阵，V是成对的图像和文本在低维潜在语义空间的共同表示，α为哈希函数学习时的权重系数，h(·)表示将投影矩阵离散化为二进制的哈希函数，γ为图正则化项的加权系数，tr(·)表示矩阵的迹范数，P₁和P₂分别表示X₁和X₂利用哈希函数所学习的投影矩阵，L₁₁、L₂₂分别表示图像与图像模态内、文本与文本模态内拉普拉斯矩阵，L₁₂＝L₂₁表示图像与文本模态间的拉普拉斯矩阵；

步骤4，对步骤3生成的整体目标函数中的变量U_i、V、P_i分别进行迭代更新，直至达到设定的最大迭代次数，具体为：

(1)将U_i、V、P_i中的所有元素均初始化为(0,1)区间内的随机数，设定λ_i、α、γ的值以及最大迭代次数；

(2)固定V、P₁和P₂，更新U₁、U₂：

其中，U₁ ^t+1、U₁ ^t分别表示第t+1、t次迭代后的U₁，U₂ ^t+1、U₂ ^t分别为第t+1、t次迭代后的U₂；η₁、η₂为平衡参数；

(3)固定U₁、U₂、P₁和P₂，利用KKT条件更新V：

其中，V_pq ^t+1、V_pq ^t分别表示第t+1、t次迭代后的V中的第p行第q列元素；V^t表示第t次迭代后的V，分别表示U₁ ^t、U₂ ^t的转置；

(4)固定V、U₁和U₂，更新P₁、P₂：

其中，P₁ ^t+1、P₁ ^t分别表示第t+1、t次迭代后的P₁；P₂ ^t+1、P₂ ^t分别表示第t+1、t次迭代后的P₂；

步骤5，利用符号函数得到训练集中图像文本统一的哈希编码矩阵sign(V)；

步骤6，根据投影矩阵P₁、P₂，将测试集中的图像特征数据X₁'、文本特征数据X₂'代入步骤3中的哈希函数分别得到X₁'、X₂'的哈希编码；

步骤7，分别计算X₁'、X₂'的哈希编码与训练集哈希编码sign(V)之间的汉明距离D₁与D₂；

步骤8，分别对汉明距离D₁与D₂进行升序排列，根据排序结果找到对应的索引，将索引的前K项对应的对象作为检索结果，并根据检索结果的类标签计算检索精度，从而实现以图检文和以文检图的跨模态检索。

作为本发明的进一步技术方案，步骤3中λ₁＝λ₂＝0.5。

作为本发明的进一步技术方案，步骤3中α的取值范围为[10,200]。

作为本发明的进一步技术方案，步骤3中γ的取值范围为[10,200]。

作为本发明的进一步技术方案，步骤3中的哈希函数h(X_i)＝sign(X_iP_i)。

本发明利用协同矩阵分解的方法进行跨模态检索，使用哈希函数能够将训练集外的样本哈希编码，同时利用图正则化来保持原始数据的局部几何流形结构，保障了模态内的相似性与模态间的相似性。此方法适用于移动设备、互联网和电子商务中的以图检文和以文检图两种常用的互相检索服务。本发明采用以上技术方案与现有技术相比，具有以下技术效果：

(1)本发明创造性的将协同矩阵分解技术应用到跨模态检索领域，同时使用了哈希函数的学习来对训练集以外的样本进行哈希编码，便于汉明距离的计算，进行模态间的相互检索；

(2)本发明将图正则化项加入到了目标函数中用于保持原始数据的局部几何流形结构，保持了数据的模态内相似性与模态间相似性，因而明显地提高了跨模态数据的互检索准确性；

(3)本发明广泛应用于适用于移动设备、互联网和电子商务中的以图检文和以文检图两种常用的互相检索服务。

附图说明

图1是本发明的方法流程图。

图2是本发明在Wiki数据集以图检文的PR曲线。

图3是本发明在Wiki数据集以文检图的PR曲线。

图4是本发明在Pascal VOC 2007下以图检文PR曲线。

图5是本发明在Pascal VOC 2007下以文检图PR曲线。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

大数据时代，信息的获取和处理至关重要，检索技术是其中关键的步骤，尤其在各种模态数据大量涌现的情况下，如何进行有效的信息检索是相关学者关注的重点，也是相关工作者亟需解决的难题，现有的跨模态检索方法存在检索速度慢，检索相关信息的准确性低等缺点。

针对此问题，本发明展开了创新研究，提出了一种基于协同矩阵分解的跨模态检索方法，参见图1，整个检索过程包括如下步骤：

步骤1，获取原始数据，首先对原始数据中的图像和文本分别进行特征提取(其中，图像为BOVW(Bag of Visual Word)特征，文本为BOW(Bag of Word)特征)，并对提取到的图像特征和文本特征分别进行归一化处理，再将归一化处理后的图像特征和文本特征分别分为两个部分，一部分图像特征和文本特征构成训练集，另一部分图像特征和文本特征构成测试集。假设训练集中图像特征数据和文本特征数据分别为X₁与X₂。

步骤2，构造多模态图正则项，利用训练数据的类标签构造图像与图像模态内的相似性矩阵W₁₁和拉普拉斯矩阵L₁₁、文本与文本模态内的相似性矩阵W₂₂和拉普拉斯矩阵L₂₂，构造图像与文本模态间相似性矩阵W₁₂＝W₂₁和拉普拉斯矩阵L₁₂＝L₂₁。具体地，拉普拉斯矩阵的计算公式以图像模态数据说明：L₁₁＝D₁₁-W₁₁，D₁₁是一对角矩阵，具体为W₁₁的行和列矩阵。

步骤3，将矩阵分解、哈希函数和多模态图正则化项加一块合并成整体目标函数，其表达式如下所示：

式中，λ₁和λ₂分别表示图像模态内和文本模态内的平衡系数，一般取λ₁＝λ₂＝0.5；α为哈希函数学习时的权重系数，取值范围为[10,200]；γ为多模态图正则化项的加权系数，取值范围为[10,200]；V是成对的图像和文本在低维潜在语义空间的共同表示，P₁和P₂分别表示X₁和X₂利用哈希函数所学习的投影矩阵；h(·)表示哈希函数，用于将投影矩阵离散化为二进制；I为单位矩阵，约束条件是为了除去X₁和X₂的基矩阵U₁U₂的冗余信息，保持矩阵的无关性，学习到的哈希编码更好。

由于整体目标函数是非凸的，无法通过闭合解计算求得，因此采用交替迭代的方法逐步更新，得到U_i、V、P_i的具体表达式。

步骤4，对步骤3生成的整体目标函数中的变量U_i、V、P_i分别进行迭代更新，直至达到设定的最大迭代次数。

步骤5，利用符号函数得到训练集图像文本统一的哈希编码sign(V)。

步骤8，分别对汉明距离D₁与D₂进行升序排列，根据排序结果找到对应的索引，将索引的前K(根据实际情况可调节)项对应的对象作为检索结果，并根据检索结果的类标签计算检索精度，从而实现以图检文和以文检图的跨模态检索。

实现本发明的技术思路是：在训练集中，利用协同矩阵分解将不同模态的数据映射到潜在的低维语义空间，并得到对应的低维哈希表示，利用多模态图正则化来保持原始空间数据的局部几何流形结构，依次达到保障模态内相似性和模态间相似性的目的，同时利用哈希函数学习得到的投影矩阵来将训练集以外的样本投影到相应的汉明空间并表示成二进制哈希编码；在测试集中，利用训练模式下学习到的投影矩阵P₁、P₂代入到哈希函数中得到测试样本的低维哈希编码，从而计算测试数据与训练数据间的汉明距离，得到检索结果集。

本发明中，步骤2所述的构造多模态图正则项是用来保障原始数据的模态内与模态间的相似性约束的，具体可按如下步骤进行：

步骤2.1，在图像模态和文本模态分别相似的实例投影到低维语义空间中也应该保持近邻关系，即二进制哈希码的关联性尽可能大。为了保持模态内的近邻结构信息，定义了一个KNN相似图，第i个模态内的相似矩阵W_i定义如下：

这里表示和欧式距离，也就是，表示的k(预先定义)个最近邻值；表示第i个模态的第p个样本，即第p行；W_i ^pq为W_i的p行q列元素值，表示第i个模态的第p个样本与第q个样本的相似度；

步骤2.2，不同的模态数据具有不同的特征表示和空间，但是同一个样本不同模态间共享相同的语义表示，因此模态间的对应样本具有千丝万缕的联系。举例来说，如果它们属于同一个类，那么它们就有相似的主题。为了在低维语义空间中能够保持模态间的相似性，定义了一个图像和文本的模态间相似性矩阵W_ij(i≠j)：

其中表示第i个模态的第p个样本；表示第j个模态的第q个样本；为W_ij的p行q列元素值，表示第i个模态的第p个样本与第j个模态的第q个样本的相似性；

步骤2.3，根据上述两种相似性关系，将不同模态的数据整合成联合的多模态图，整体的相似性矩阵表示为：

β是保证模态间相似性和模态内相似性平衡的参数，W₁₁、W₂₂分别为图像的模态内、文本的模态内相似性矩阵，W₁₂＝W₂₁是图像与文本模态间相似性矩阵，。

根据拉普拉斯矩阵通用计算公式L＝D-S,假设S为某一大小为n×n相似性矩阵，那么D是S的行和矩阵，具体地D是对角矩阵且所以图正则项的目标函数为：

多模态图正则项通过保持原始数据的局部几何流形结构而有效地保持了数据的模态内相似性和模态间相似性，进而得到更具有判别性的哈希编码，提高了跨模态检索的精度。

本发明中，步骤3得到的目标函数的具体细节包括：

步骤3.1，分别对X₁和X₂进行矩阵分解，公式化形象表示为其中·_F表示矩阵的F范数，U₁和U₂分别表示X₁和X₂的基矩阵，V为成对的图像和文本在潜在的低维语义空间的共同表示(统一的哈希编码矩阵)，λ₁、λ₂为图像文本两个模态的平衡参数，一般取λ₁＝λ₂＝0.5，两个模态的数据对目标函数贡献值相同。

步骤3.2，由于测试样本为训练集外的实例，为了能够将测试样本表示成低维的潜在语义空间的哈希编码，需要学习投影矩阵，因此需要构造投影误差项：

其中h(X_i)＝sign(X_iP_i)离散化投影后的矩阵，得到训练数据的投影矩阵P_i。

步骤3，根据步骤2构造的拉普拉斯矩阵得到保持模态内相似性和模态间相似性的多模态图正则化其中tr(·)代表矩阵的迹。

步骤4，将上述(1)、(2)、(3)合并成一块构成整体目标函数，如下式所示：

其中，α为哈希函数学习时的权重系数，取值范围为[10,200]，γ为多模态图正则化项的加权系数，取值范围为[10,200]。

此目标函数中的矩阵分解项和哈希函数部分将图像数据和文本数据投影到低维的潜在语义空间中，模态内的相似性和模态间的相似性通过多模态图正则项得到维护，因此通过此目标函数求得的哈希编码更具有判别性，从而提高以文检图和以图检文的精度。

本发明中，步骤4所述的对目标函数中变量的交替迭代过程，得到学习后的U_i、V、P_i的具体表达式，包括如下步骤：

步骤4.1，将U_i、V、P_i中的所有元素均初始化为(0,1)区间内的随机数，设定λ₁＝λ₂＝0.5、α＝20、γ＝10的值以及最大迭代次数；

步骤4.2，固定V、P₁和P₂，更新U₁、U₂：

其中，U₁ ^t+1、U₁ ^t分别表示第t+1、t次迭代后的U₁，U₂ ^t+1、U₂ ^t分别为第t+1、t次迭代后的U₂；η₁、η₂为可调节的平衡参数；

步骤4.3，固定U₁、U₂、P₁和P₂，利用KKT条件更新V：

步骤4.4，固定V、U₁和U₂，更新P₁、P₂：

其中，P₁ ^t+1、P₁ ^t分别表示第t+1、t次迭代后的P₁；P₂ ^t+1、P₂ ^t分别表示第t+1、t次迭代后的P₂。

交替迭代方法将非凸的整体目标函数转化为凸的子目标函数，通过固定其余的变量来求解该变量，高效地解决了基矩阵、系数矩阵和投影矩阵的求解问题。

下面通过具体实施例对本发明的技术方案做进一步阐述：

(1)仿真条件

本发明是在中央处理器为Intel(R)Core(TM)i3-2120 3.30GHZ、内存6G、windows10操作系统上，运用Matlab软件进行的实验仿真。实验中参数设置为λ₁＝λ₂＝0.5，α＝20，γ＝10；

(2)仿真内容

本发明的方法与现有的跨模态哈希检索方法进行了对比，作为对比的方法有关联分析CCA、跨视图哈希CVH、媒体间哈希IMH和语义关联最大化的监督多模态哈希SCM_orth和SCM_seq。

(3)仿真结果

仿真实验中分别给出了CCA、CVH、IMH、SCM_orth、SCM_seq和本发明分别在单标签数据集Wiki和Pascal VOC 2007下哈希码长度为16位、32位、64位和128位所对应的平均准确率mAP，分别如表1和表2所示。

表1 Wiki数据集下以图检文和以文检图的mAP

表2 Pascal VOC 2007数据集以图检文和以文检图的mAP

仿真实验中，分别画出了准确率precision和召回率recall的PR曲线来评估图像文本之间互相检索的能力，其中，准确率是指在某具体汉明距离中，查询到的结果集中相关的样本量与结果集总量之比，召回率是指在某具体汉明距离中，查询到的结果集中相关的样本量与训练集中总的相关量之比，一般情况下随着查询样本数量的增加，召回率随之增加，准确率随之减少，因此PR曲线是一条下降的平滑曲线。图2、图3、图4、图5分别画出了哈希码长度为64位情况下在数据集Wiki和Pascal VOC 2007中的以文检图和以图检文两种检索任务的PR曲线。

仿真实验中，分别给出了CCA、CVH、IMH、SCM_orth、SCM_seq和本发明分别在多标签数据集NUS_WIDE和MIRFLICKR-25K下哈希码长度为16位、32位、64位和128位所对应的平均准确率mAP，分别如表3和表4所示。

表3 NUS_WIDE数据集下以图检文和以文检图的mAP

表4 MIRFLICKR-25K数据集下以图检文和以文检图的mAP

简而言之，本发明公开的基于协同矩阵分解的跨模态检索方法，主要是用于大规模数据集中图像和文本之间快速的互相检索应用，同时考虑保持原始空间样本对的局部几何流形结构，使用图正则项加入了模态内与模态间的约束，采用普遍使用的mAP(平均准确率)作为性能评价指标。本发明不仅考虑了样本的模态内相似性，还考虑了样本对模态间的相似性，为以文检图和以图检文准确性提供了保障。其实现步骤为：(1)获取原始数据，特征提取并进行归一化处理；(2)对训练数据进行协同矩阵分解并加入模态内与模态间相似性约束的多模态图正则化项，得到目标函数；(3)交替迭代更新得到基矩阵、系数矩阵和投影矩阵表达式；(4)通过符号函数量化得到数据集的二进制哈希编码；(5)计算哈希编码之间的汉明距离；(6)汉明距离排序检索查询样本的top-N实例。本发明利用协同矩阵分解、哈希函数和保持模态内相似性与模态间相似性的多模态图正则项作为整体目标函数迭代更新基矩阵、潜在的低维语义空间的系数矩阵和哈希函数的投影矩阵，得到的哈希编码更能够保持原始数据的局部几何流形结构，因而以图检文和以文检图的准确性能更高，可用于移动设备、互联网和电子商务中的图片和文本快速互相检索服务。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于协同矩阵分解的跨模态检索方法，其特征在于，包括如下步骤：

(2)固定V、P₁和P₂，更新U₁、U₂：

(3)固定U₁、U₂、P₁和P₂，利用KKT条件更新V：

(4)固定V、U₁和U₂，更新P₁、P₂：

步骤6，根据投影矩阵P₁、P₂，将测试集中的图像特征数据X′₁、文本特征数据X′₂代入步骤3中的哈希函数分别得到X′₁、X′₂的哈希编码；

步骤7，分别计算X′₁、X′₂的哈希编码与训练集哈希编码sign(V)之间的汉明距离D₁与D₂；

2.根据权利要求1所述的一种基于协同矩阵分解的跨模态检索方法，其特征在于，步骤3中λ₁＝λ₂＝0.5。

3.根据权利要求1所述的一种基于协同矩阵分解的跨模态检索方法，其特征在于，步骤3中α的取值范围为[10,200]。

4.根据权利要求1所述的一种基于协同矩阵分解的跨模态检索方法，其特征在于，步骤3中γ的取值范围为[10,200]。

5.根据权利要求1所述的一种基于协同矩阵分解的跨模态检索方法，其特征在于，步骤3中的哈希函数h(X_i)＝sign(X_iP_i)。