CN111177492A

CN111177492A - 一种基于多视角对称非负矩阵分解的跨模态信息检索方法

Info

Publication number: CN111177492A
Application number: CN202010002486.8A
Authority: CN
Inventors: 马园园; 李勇
Original assignee: Anyang Normal University
Current assignee: Anyang Normal University
Priority date: 2020-01-02
Filing date: 2020-01-02
Publication date: 2020-05-19

Abstract

本发明公开了一种基于多视角对称非负矩阵分解的跨模态信息检索方法，包括多视角对称非负矩阵分解模型、求解多视角对称非负矩阵分解模型和获得新文本或图像在子空间中的表示三个步骤，通过利用Multi‑view SNMF目标函数O_bj、低维子空间表示H^*和聚类指示矩阵H⁽ⁱ⁾，针对多个模态特征信息的联合建模，通过将不同模态的数据映射到相关子空间，进而建立跨越资源形态差异的联系，以实现信息在不同模态空间中的转换和存取；相较于CCA、PLSR等多元统计方法和以SM为代表的语义匹配方法，本算法在多个指标上具有显著的有益效果，并且本方法具有更好的灵活性和普适性，易拓展到具有非线性关系的复杂应用和任务中。

Description

一种基于多视角对称非负矩阵分解的跨模态信息检索方法

技术领域

本发明属于跨媒体相关性学习技术领域，具体涉及一种基于多视角对称非负矩阵分解的跨模态信息检索方法。

背景技术

随着信息技术的快速发展，信息多元化程度日益加剧，海量、异构的信息资源与日俱增，呈现出多种模态(Modal)并存的现象，如在描述某一新闻事件时，往往会在文字周围配以相关的图片，以及音频、视频片段、文字、图片、音频或视频属于不同模态的信息，它们共同阐释了同一信息内容，这些不同表现形式的信息对传统信息检索技术提出了新的挑战.在传统信息检索任务中，文本或图像检索是在同形态空间内进行的，即“以文搜文”、“以图搜图”，然而，用户需求是多元化的，当输入一幅图片时有时会希望系统返回与其相关的文字介绍，该类检索可归结为“如何解决不同模态空间之间信息资源的相互检索”问题；

目前，基于多种形态空间的检索系统可分为两种：多模态检索(Multimodal)和跨模态检索(Cross-modal)，在多模态检索任务中，查询通常采用多个模态的形式，如文本+图片，检索集也以这两种形式的组合呈现，虽然多模态检索是在不同的模态空间中完成的，但其本质仍然是基于单模态方法的拓展，如将不同模态的表示矩阵通过拼接融合成一个“新”的表示，然后对这个表示进行降维，最后在生成的子空间中执行检索，该方法的弊端在于缺乏模态之间信息的有效交互，不能对其中任意一种模态的信息进行存取。

发明内容

为了克服上述现有技术存在的缺陷，本申请的目的在于提供一种基于多视角对称非负矩阵分解的跨模态信息检索方法，通过将不同模态的数据映射到相关子空间，进而建立跨越资源形态差异的联系，以实现信息在不同模态空间中的转换和存取，具有更好的灵活性和普适性，易拓展到具有非线性关系的复杂应用和任务中。

为了实现上述目的，本发明所采用的技术方案如下：

一种基于多视角对称非负矩阵分解的跨模态信息检索方法，具体过程包括以下步骤：

步骤一：提出多视角非负矩阵分解模型，具体来说，假设各视角间存在一致的聚类模式，给定多视角数据矩阵X⁽¹⁾∈R^f×n，X⁽²⁾∈R^p×n，利用对称非负矩阵分解(Symmetricnonnegative matrix factorization,SNMF)方法分别分解矩阵X⁽¹⁾、X⁽²⁾，得到的聚类解都趋于一致的聚类模式；由此产生多视角非负矩阵分解的目标函数O_bj；

步骤二：求解多视角对称非负矩阵分解模型(Multi-view Symmetricnonnegative matrix factorization,Multi-view SNMF)，具体来说，采用迭代更新方法对步骤一产生的目标函数进行求解，得到各视角共享的一致的低维子空间表示H^*的更新规则；

步骤三：基于多视角对称非负矩阵分解的跨模态检索方法，具体是对步骤二计算出的H^*进行分析计算，所述H^*反映了多个视角数据潜在的一致结构模式，通过H^*获得新文本或图像在子空间中的表示，在变换后的子空间中进行跨模态检索。

进一步的，步骤一中所述得到Multi-view SNMF目标函数定义的具体过程为：

S1.给定数据矩阵

SNMF首先构建n×n的样本相似矩阵

相似性采用高斯核函数来刻画：

其中：

矩阵为m×n的具体模态，n为实例数，m为特征数，σ_i为第i个实例与其第7个邻居之间的欧式距离，σ_j为第j个实例与其第7个邻居之间的欧式距离，x_i为第i个实例，x_j为第j个实例，通过公式(1)可获得任意两个节点之间的相似性值，E_ij为第i个实例与第j个实例之间的相似性；

S2.当遇到数据量大的时候，无法通过S1获得任意两个节点之间的距离，采用：

其中：N_(i)＝{j:X_j是X_i的q近邻，j≠i}，表示距离实例i的最近的q个邻居；N_(j)＝{i:X_i是X_j的q近邻，j≠i}，表示距离实例j最近的q邻居，q为近邻数，

为重新计算而获取的两个实例i，j之间的相似性；

S3.在获得

后，对其标准化，得到：

其中：

为节点i的强度，

为节点j的强度；

为矩阵中第i行第l列个元素；

为矩阵中第j行第l列个元素；

S4.在获得相似矩阵A后，由SNMF目标函数

可得出分解后的聚类指示矩阵

然后对其执行简单的Kmeans聚类以获得每个实例的类别；

其中：H^T为矩阵H的转置，||·||_F为矩阵的Frobenius范式；

S5.利用各视角具有一致的聚类模式的假设，给定多视角数据矩阵X⁽¹⁾∈R^f×n，X⁽²⁾∈R^p×ⁿ，第i个视角的相似矩阵用A⁽ⁱ⁾∈Rⁿ×ⁿ表示；根据S4Multi-view SNMF的目标函数可定义为：

其中：

为辅助矩阵，n为实例数，f、p为特征数，H*代表各视角一致的聚类模式，H⁽ⁱ⁾为第i个视角的聚类指示矩阵，n_v为视角的个数，λ⁽ⁱ⁾为第i个视角的权重参数,H_l,1 ⁽ⁱ⁾为矩阵H⁽ⁱ⁾的第l行第1列相应的元素，H_l,2 ⁽ⁱ⁾为第l行第2列相应的元素，H_l,k ⁽ⁱ⁾为第l行第k列相应的元素；

S6.为最小化等式(5)，采用迭代更新方法，求解得到H(i)与H*的更新规则如下：

因各视角的数据矩阵在分解过程中是独立的，因此在等式(6)中用H代替H⁽ⁱ⁾，其中Q^T是相应视角辅助矩阵的转置，H_i,k代表获指示矩阵H的第ik个元素。

得的聚类

进一步的，在步骤一、二中所述Multi-viewSNMF目标函数O_bj中，各视角共享的一致的低维子空间表示H^*和第i个视角的聚类指示矩阵H⁽ⁱ⁾得到的具体过程为：

为了最小化Multi-view SNMF目标函数，使用迭代更新方法(IterativeUpdateProcedure)，具体分两步进行：

(1)固定H^*，计算H⁽ⁱ⁾

通过拉格朗日(Lagrange)方法来解这个优化问题，对约束H⁽ⁱ⁾≥0引入拉格朗日乘子α，在每一步优化过程中，只考虑与H⁽ⁱ⁾相关的项，不失一般性，用A和H代表相应视角的相似矩阵与聚类指示矩阵，从而将目标函数简化为：

其中：tr()代表矩阵的迹；

求8式关于H的偏导，

利用KKT条件，得到下面的更新规则：

(2)固定H⁽ⁱ⁾，更新H^*

只考虑目标函数中与H^*有关的项，在获得所有视角相应的聚类指示矩阵H⁽ⁱ⁾后，关于H^*的目标函数可重写为：

对10式求H^*的偏导，并令其等于0：

则得到H^*的更新规则：

从上式可以看出，H^*的值明显为非负；

Multi-view SNMF的算法流程总结如下：

进一步的，所述的λ⁽ⁱ⁾有两种含义：一方面反映了各视角的权重；另一方面作为正则化参数，代表了目标函数第一项与正则项之间的平衡，λ⁽ⁱ⁾值越大，聚类指示矩阵H⁽ⁱ⁾与H^*越接近，反之，小的λ⁽ⁱ⁾值容许H⁽ⁱ⁾与H^*之间存在一定差异。

进一步的，在步骤三中所述通过H^*获得新文本或图像在子空间中的表示的具体过程为：

S1:给定新样本在第i个模态

中的表示

计算其与同一模态中已有样本的相似性：

其中：

为

与同一模态中已有样本的内积相似性构成的相似向量；

为

的转置；

S2.利用H^*、

获得其子空间表示

S3.相似地，可获得该样本在其它模态中的子空间表示，跨模态检索在变换后的子空间中进行：即

(1)当有一个用户查询q(如文本查询)时，首先通过计算该查询向量与相应模态中所有训练文本的相似性，从而产生一个相似性得分向量(等式12)；

(2)然后利用一致矩阵H^*计算q在子空间中的表示q_emb(等式13)；同样地，计算另一模态中的测试样本(检索集)与训练样本的相似性，再通过H^*获得检索集中样本的子空间表示；

(3)最后，根据相似性函数值(如余弦相似性)排序子空间中与q_emb相关的检索结果，并将其返回给用户。

本发明的有益效果是：本发明提供一种基于多视角对称非负矩阵分解的跨模态信息检索方法，相比现有技术存在以下优点：

(1)设计了一种新的基于对称非负矩阵分解的跨模态检索方法，通过在公开数据集上执行对比试验，相较于CCA、PLSR等多元统计方法和以SM为代表的语义匹配方法，本算法在多个指标上具有显著的优点；

(2)提出的方法具有更好的灵活性和普适性，易拓展到具有非线性关系的复杂应用和任务中。

附图说明

图1为本发明基于对称非负矩阵分解的跨模态检索方法“以图搜文”的效果曲线图。

图2为本发明基于对称非负矩阵分解的跨模态检索方法“以文搜图”的效果曲线图。

图3为MAP混淆矩阵“以图搜文”的结果示意图。

图4为MAP混淆矩阵“以文搜图”的结果示意图。

具体实施方式

为了使本领域的普通技术人员能更好的理解本发明的技术方案，下面结合实施例对本发明的技术方案做进一步的描述。

参照附图1-4所示，一种基于多视角对称非负矩阵分解的跨模态信息检索方法，其特征在于：具体的检索过程包括以下步骤：

步骤一：Multi-view SNMF目标函数的具体定义过程为：

S1.给定数据矩阵

SNMF首先构建n×n的样本相似矩阵

相似性采用高斯核函数来刻画：

其中：

为矩阵为m×n的具体模态，n为实例数，m为特征数，σ_i为第i个实例与其第7个邻居之间的欧式距离，σ_j为第j个实例与其第7个邻居之间的欧式距离，x_i为第i个实例，x_j为第j个实例，E_ij为第i个实例与第j个实例之间的相似性，通过公式(1)可获得任意两个节点之间的距离，这样构建了所有实例之间的全连通图(Fully-connected Graph),当遇到数据量大的时候，则考虑使用另一种图构建方式—稀疏图(Sparse Graph)；

其中：N(i)＝{j:X_j为X_i的q近邻，j≠i}，表示距离实例i的最近的q个邻居，N(j)＝{i:X_i为X_j的q近邻，j≠i}，表示距离实例j最近的q邻居，q为近邻数，

为重新计算而获取的两个实例i，j之间的相似性；

S3.在获得

后，对其标准化，得到：

其中：

为节点i的强度，

为节点j的强度；

为矩阵中第i行第l列个元素；

为矩阵中第j行第l列个元素；

S4.在获得相似矩阵A后，由SNMF目标函数：

可得出分解后的聚类指示矩阵

然后对其执行简单的Kmeans聚类以获得每个实例的类别，H^T为矩阵H的转置，||·||_F为矩阵的Frobenius范式；

S5.利用各视角具有一致的聚类模式的假设，给定多视角数据矩阵X⁽¹⁾∈R^f×n，X⁽²⁾∈R^p×n，第i个视角的相似矩阵用A⁽ⁱ⁾∈R^n×n表示；根据S4Multi-view SNMF的目标函数可定义为：

其中：

为辅助矩阵，n为实例数，f、p为特征数，H^*代表各视角一致的聚类模式(共享的一致的低维子空间表示)，H⁽ⁱ⁾为第i个视角的聚类指示矩阵，n_v为视角的个数，λ⁽ⁱ⁾为第i个视角的权重参数，H_l,1 ⁽ⁱ⁾为矩阵H⁽ⁱ⁾的第l行第1列相应的元素，H_l,2 ⁽ⁱ⁾为第l行第2列相应的元素，H_l,k ⁽ⁱ⁾为第l行第k列相应的元素；

S6.为最小化等式(5)，采用迭代更新方法，求解得到H⁽ⁱ⁾与H^*的更新规则如下：

因各视角的数据矩阵在分解过程中是独立的，因此在等式(6)中用H代替H⁽ⁱ⁾，其中Q^T是相应视角辅助矩阵的转置，H_i,k代表获指示矩阵H的第ik个元素；

得的聚类

步骤二：求解Multi-view SNMF目标函数：给定多视角数据矩阵

得到Multi-view SNMF目标函数O_bj，可获得各视角共享的一致的低维子空间表示H^*和第i个视角的聚类指示矩阵H⁽ⁱ⁾，计算的具体步骤为：

为了最小化Multi-view SNMF目标函数，使用迭代更新方法(Iterative UpdateProcedure)。具体分两步进行：

(1)固定H^*，计算H⁽ⁱ⁾

通过拉格朗日(Lagrange)方法来解这个优化问题，对约束H⁽ⁱ⁾≥0引入拉格朗日乘子α，在每一步优化过程中，只考虑与H⁽ⁱ⁾相关的项，不失一般性，用A和H代表相应视角的相似矩阵与聚类指示矩阵，从而目标函数简化为：

其中：tr()代表矩阵的迹；

求8式关于H的偏导，

利用KKT条件，得到下面的更新规则：

(2)固定H⁽ⁱ⁾，更新H^*

对10式求H^*的偏导，并令其等于0：

则得到H^*的更新规则：

从上式可以看出，H^*的值明显为非负；

Multi-view SNMF的算法流程总结如下：

所述的λ⁽ⁱ⁾有两种含义：一方面反映了各视角的权重；另一方面作为正则化参数，代表了目标函数第一项与正则项之间的平衡，λ⁽ⁱ⁾值越大，聚类指示矩阵H⁽ⁱ⁾与H^*越接近，反之，小的λ⁽ⁱ⁾值容许H⁽ⁱ⁾与H^*之间存在一定差异；

步骤三：基于多视角对称非负矩阵分解的跨模态检索方法，对步骤二计算出的H^*进行分析计算，所述H^*反映了多个视角数据潜在的一致结构模式，可用于多模态数据的聚类、分类等任务.在跨模态检索应用中，通过H^*获得新文本或图像在子空间中的表示，计算的具体步骤为：

S1:给定新样本在第i个模态

中的表示

计算其与同一模态中已有样本的相似性：

其中：

为

与同一模态中已有样本的内积相似性构成的相似向量；

为

的转置；

S2.利用H^*、

获得其子空间表示

(1)当有一个用户查询q(如文本查询)时，首先通过计算该查询向量与相应模态中所有训练文本的相似性，从而产生一个相似性得分向量(等式9)；

(2)然后利用一致矩阵H^*计算q在子空间中的表示q_emb(等式10)；同样地，计算另一模态中的测试样本(检索集)与训练样本的相似性，再通过H^*获得检索集中样本的子空间表示；

实施例一：如附图1和附图2所示，利用Wikipedia数据集作为基准，对

的检索结果进行评价；所述Wikipedia数据集来自于维基百科精选文章，由2886篇文档组成(文本—图像对)，其中2173篇文档作为训练集用于映射函数和子空间学习，693篇文档作为测试集用于评价算法在“以图搜文”和“以文搜图”检索任务中的性能.该数据集包含10个主题类，具体统计情况如表1所示：

表1 Wikipedia数据集统计信息

检索结果的评价采用准确率-召回率曲线(Precision-recall，PR)和均值平均正确率(Mean Average Precision，MAP)等常用的检索指标作为评价标准，其计算公式如下：

准确率(Precision，P)指的是检索到的相关文档占检索到的文档数的比例；召回率(Recall，R)指的是检索到的相关文档与相关文档总数的比例，定义为：

其中，|{doc_rel}|代表相关文档数，|{doc_retr}|代表检索到的文档数,一般情况下，检索系统很难同时满足高的准确率和召回率要求，在系统测评中通常采用PR曲线来描述准确率随召回率的变化情况；

另一个广泛使用的指标是MAP，用以衡量多个查询情况下系统的总体检索性能，计算公式如下：

这里，R为相关文档总数，position(r)代表第r个相关文档在检索结果中的排序位置.AveP(q)代表第q个查询的平均准确率，Q为查询的总数目，MAP反映了所有查询的平均准确率；

利用在Wikipedia数据集上分别运行CCA、PLSR、SM和Multi-view SNMF方法，在Multi-view SNMF方法中，取性能最优时的H*作为映射矩阵，各算法的MAP得分如表2所示：

表2检索性能(MAP得分表)

对于Multi-view SNMF，当λ＝0.04时，取得上述结果，对于其他值，

本发明所使用的Multi-view SNMF有较好的性能表现，对于其它方法，取文献中默认的参数值；

实施例二：如附图3和附图4所示，利用在各主题上的MAP混淆矩阵，对于对

的检索结果的有效性进行评价，具体是：

S1.计算所有查询在10个主题上的MAP得分矩阵；

S2.在所有真实类(Ground truth)上求均值，最后得到10×10的MAP混淆矩阵；

在附图3和附图4中，行代表真实的主题类(查询模态)，列代表预测到的主题类(检索模态)，矩阵中的元素为检索到的主题类在真实查询类上的平均MAP得分；

可以看出：文本查询(“以文搜图”)得到的混淆矩阵和图像查询(以图搜文)很清晰；

一般来说，对角线的元素具有较大的值.可以看出：文本查询(“以文搜图”)得到的混淆矩阵较图像查询(以图搜文)更为清晰，原因是子空间中文本信息具有比图像信息具有更直接、显示的类别标记；

综上，从实施例一和实施例二可以看出，本文提出的基于对称非负矩阵分解的跨模态信息检索方法(Multi-view SNMF)，在MAP、PR曲线上的性能优于以CCA、PLSR等为代表的多元统计分析方法；在相似矩阵构建过程中多种核函数的选择易于将其拓展到具有非线性结构关系的复杂应用中；在模型训练过程中，兼顾了各模态共享的子空间特征信息(H^*)并容许不同模态之间存在差异(H⁽¹⁾、H⁽²⁾)，因此，相比于其它方法具有更好的解释性和普适性；

同时，本申请基于对称非负矩阵分解的方法从理论上建立了多视角学习和跨模态信息检索的关联，虽然仅在两种模态数据上得到了验证，但易拓展到其它多个模态的学习任务中；此外，该方法在利用核函数构建相似矩阵的过程中，一定程度上解决了数据具有非线性关系的问题。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点，本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于多视角对称非负矩阵分解的跨模态信息检索方法，其特征在于：具体过程包括以下步骤：

步骤一：提出多视角非负矩阵分解模型，假设各视角间存在一致的聚类模式，给定多视角数据矩阵X⁽¹⁾∈R^f×n，X⁽²⁾∈R^p×n，利用对称非负矩阵分解方法分别分解矩阵X⁽¹⁾、X⁽²⁾，得到的聚类解都趋于一致的聚类模式；由此产生多视角非负矩阵分解的目标函数O_bj；

步骤二：求解多视角对称非负矩阵分解模型，采用迭代更新方法对步骤一产生的目标函数进行求解，得到各视角共享的一致的低维子空间表示H^*的更新规则；

2.根据权利要求1所述的一种基于多视角对称非负矩阵分解的跨模态信息检索方法，其特征在于：步骤一中所述得到Multi-view SNMF目标函数定义的具体过程为：

S1.给定数据矩阵

SNMF首先构建n×n的样本相似矩阵

相似性采用高斯核函数来刻画：

其中：

矩阵为m×n的具体模态，n为实例数，m为特征数，σ_i为第i个实例与其第7个邻居之间的欧式距离，σ_j为第j个实例与其第7个邻居之间的欧式距离，x_i为第i个实例，x_j为第j个实例，E_ij为第i个实例与第j个实例之间的相似性，通过公式(1)可获得任意两个节点之间的相似性值；

为重新计算而获取的两个实例i，j之间的相似性；

S3.在获得

后，对其标准化，得到：

其中：

1≤i≤n为节点i的强度，

1≤j≤n为节点j的强度；

为矩阵中第i行第l列个元素；

为矩阵中第j行第l列个元素；

S4.在获得相似矩阵A后，由SNMF目标函数

可得出分解后的聚类指示矩阵

然后对其执行简单的Kmeans聚类以获得每个实例的类别；

其中：H^T为矩阵H的转置，||·||_F为矩阵的Frobenius范式；

S5.利用各视角具有一致的聚类模式的假设，给定多视角数据矩阵X⁽¹⁾∈R^f×n，X⁽²⁾∈R^p ^×n，第i个视角的相似矩阵用A⁽ⁱ⁾∈R^n×n表示；根据S4 Multi-view SNMF的目标函数可定义为：

其中：

为辅助矩阵，n为实例数，f、p为特征数，H^*代表各视角一致的聚类模式，H⁽ⁱ⁾为第i个视角的聚类指示矩阵，n_v为视角的个数，λ⁽ⁱ⁾为第i个视角的权重参数,H_l,1 ⁽ⁱ⁾为矩阵H⁽ⁱ⁾的第l行第1列相应的元素，H_l,2 ⁽ⁱ⁾为第l行第2列相应的元素，H_l,k ⁽ⁱ⁾为第l行第k列相应的元素；

因各视角的数据矩阵在分解过程中是独立的，因此在等式(6)中用H代替H⁽ⁱ⁾，其中Q^T是相应视角辅助矩阵的转置，H_i,k代表获得的聚类指示矩阵H的第ik个元素。

3.根据权利要求2所述的一种基于多视角对称非负矩阵分解的跨模态信息检索方法，其特征在于：在步骤一、二中所述Multi-view SNMF目标函数O_bj中，各视角共享的一致的低维子空间表示H^*和第i个视角的聚类指示矩阵H⁽ⁱ⁾得到的具体过程为：

为了最小化Multi-view SNMF目标函数，使用迭代更新方法(Iterative UpdateProcedure)，具体分两步进行：

(1)固定H^*，计算H⁽ⁱ⁾

通过拉格朗日方法来解这个优化问题，对约束H⁽ⁱ⁾≥0引入拉格朗日乘子α，在每一步优化过程中，只考虑与H⁽ⁱ⁾相关的项，不失一般性，用A和H代表相应视角的相似矩阵与聚类指示矩阵，从而将目标函数简化为：

其中：tr()代表矩阵的迹；

求8式关于H的偏导，

利用KKT条件，得到下面的更新规则：

(2)固定H⁽ⁱ⁾，更新H^*

对10式求H^*的偏导，并令其等于0：

则得到H^*的更新规则：

从上式可以看出，H^*的值明显为非负。

4.根据权利要求3所述的一种基于多视角对称非负矩阵分解的跨模态信息检索方法，其特征在于：所述的λ⁽ⁱ⁾有两种含义：一方面反映了各视角的权重；另一方面作为正则化参数，代表了目标函数第一项与正则项之间的平衡，λ⁽ⁱ⁾值越大，聚类指示矩阵H⁽ⁱ⁾与H^*越接近，反之，小的λ⁽ⁱ⁾值容许H⁽ⁱ⁾与H^*之间存在一定差异。

5.根据权利要求3所述的一种基于多视角对称非负矩阵分解的跨模态信息检索方法，其特征在于：在步骤三中所述通过H^*获得新文本或图像在子空间中的表示的具体过程为：

S1:给定新样本在第i个模态