CN111177492A - 一种基于多视角对称非负矩阵分解的跨模态信息检索方法 - Google Patents

一种基于多视角对称非负矩阵分解的跨模态信息检索方法 Download PDF

Info

Publication number
CN111177492A
CN111177492A CN202010002486.8A CN202010002486A CN111177492A CN 111177492 A CN111177492 A CN 111177492A CN 202010002486 A CN202010002486 A CN 202010002486A CN 111177492 A CN111177492 A CN 111177492A
Authority
CN
China
Prior art keywords
matrix
view
similarity
subspace
ith
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010002486.8A
Other languages
English (en)
Inventor
马园园
李勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anyang Normal University
Original Assignee
Anyang Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anyang Normal University filed Critical Anyang Normal University
Priority to CN202010002486.8A priority Critical patent/CN111177492A/zh
Publication of CN111177492A publication Critical patent/CN111177492A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多视角对称非负矩阵分解的跨模态信息检索方法,包括多视角对称非负矩阵分解模型、求解多视角对称非负矩阵分解模型和获得新文本或图像在子空间中的表示三个步骤,通过利用Multi‑view SNMF目标函数Obj、低维子空间表示H*和聚类指示矩阵H(i),针对多个模态特征信息的联合建模,通过将不同模态的数据映射到相关子空间,进而建立跨越资源形态差异的联系,以实现信息在不同模态空间中的转换和存取;相较于CCA、PLSR等多元统计方法和以SM为代表的语义匹配方法,本算法在多个指标上具有显著的有益效果,并且本方法具有更好的灵活性和普适性,易拓展到具有非线性关系的复杂应用和任务中。

Description

一种基于多视角对称非负矩阵分解的跨模态信息检索方法
技术领域
本发明属于跨媒体相关性学习技术领域,具体涉及一种基于多视角对称非负矩阵分解的跨模态信息检索方法。
背景技术
随着信息技术的快速发展,信息多元化程度日益加剧,海量、异构的信息资源与日俱增,呈现出多种模态(Modal)并存的现象,如在描述某一新闻事件时,往往会在文字周围配以相关的图片,以及音频、视频片段、文字、图片、音频或视频属于不同模态的信息,它们共同阐释了同一信息内容,这些不同表现形式的信息对传统信息检索技术提出了新的挑战.在传统信息检索任务中,文本或图像检索是在同形态空间内进行的,即“以文搜文”、“以图搜图”,然而,用户需求是多元化的,当输入一幅图片时有时会希望系统返回与其相关的文字介绍,该类检索可归结为“如何解决不同模态空间之间信息资源的相互检索”问题;
目前,基于多种形态空间的检索系统可分为两种:多模态检索(Multimodal)和跨模态检索(Cross-modal),在多模态检索任务中,查询通常采用多个模态的形式,如文本+图片,检索集也以这两种形式的组合呈现,虽然多模态检索是在不同的模态空间中完成的,但其本质仍然是基于单模态方法的拓展,如将不同模态的表示矩阵通过拼接融合成一个“新”的表示,然后对这个表示进行降维,最后在生成的子空间中执行检索,该方法的弊端在于缺乏模态之间信息的有效交互,不能对其中任意一种模态的信息进行存取。
发明内容
为了克服上述现有技术存在的缺陷,本申请的目的在于提供一种基于多视角对称非负矩阵分解的跨模态信息检索方法,通过将不同模态的数据映射到相关子空间,进而建立跨越资源形态差异的联系,以实现信息在不同模态空间中的转换和存取,具有更好的灵活性和普适性,易拓展到具有非线性关系的复杂应用和任务中。
为了实现上述目的,本发明所采用的技术方案如下:
一种基于多视角对称非负矩阵分解的跨模态信息检索方法,具体过程包括以下步骤:
步骤一:提出多视角非负矩阵分解模型,具体来说,假设各视角间存在一致的聚类模式,给定多视角数据矩阵X(1)∈Rf×n,X(2)∈Rp×n,利用对称非负矩阵分解(Symmetricnonnegative matrix factorization,SNMF)方法分别分解矩阵X(1)、X(2),得到的聚类解都趋于一致的聚类模式;由此产生多视角非负矩阵分解的目标函数Obj
步骤二:求解多视角对称非负矩阵分解模型(Multi-view Symmetricnonnegative matrix factorization,Multi-view SNMF),具体来说,采用迭代更新方法对步骤一产生的目标函数进行求解,得到各视角共享的一致的低维子空间表示H*的更新规则;
步骤三:基于多视角对称非负矩阵分解的跨模态检索方法,具体是对步骤二计算出的H*进行分析计算,所述H*反映了多个视角数据潜在的一致结构模式,通过H*获得新文本或图像在子空间中的表示,在变换后的子空间中进行跨模态检索。
进一步的,步骤一中所述得到Multi-view SNMF目标函数定义的具体过程为:
S1.给定数据矩阵
Figure BDA0002354003370000031
SNMF首先构建n×n的样本相似矩阵
Figure BDA0002354003370000032
相似性采用高斯核函数来刻画:
Figure BDA0002354003370000033
其中:
Figure BDA0002354003370000034
矩阵为m×n的具体模态,n为实例数,m为特征数,σi为第i个实例与其第7个邻居之间的欧式距离,σj为第j个实例与其第7个邻居之间的欧式距离,xi为第i个实例,xj为第j个实例,通过公式(1)可获得任意两个节点之间的相似性值,Eij为第i个实例与第j个实例之间的相似性;
S2.当遇到数据量大的时候,无法通过S1获得任意两个节点之间的距离,采用:
Figure BDA0002354003370000035
其中:N(i)={j:Xj是Xi的q近邻,j≠i},表示距离实例i的最近的q个邻居;N(j)={i:Xi是Xj的q近邻,j≠i},表示距离实例j最近的q邻居,q为近邻数,
Figure BDA0002354003370000036
为重新计算而获取的两个实例i,j之间的相似性;
S3.在获得
Figure BDA0002354003370000037
后,对其标准化,得到:
Figure BDA0002354003370000038
其中:
Figure BDA0002354003370000041
为节点i的强度,
Figure BDA0002354003370000042
为节点j的强度;
Figure BDA0002354003370000043
为矩阵中第i行第l列个元素;
Figure BDA0002354003370000044
为矩阵中第j行第l列个元素;
S4.在获得相似矩阵A后,由SNMF目标函数
Figure BDA0002354003370000045
可得出分解后的聚类指示矩阵
Figure BDA0002354003370000046
然后对其执行简单的Kmeans聚类以获得每个实例的类别;
其中:HT为矩阵H的转置,||·||F为矩阵的Frobenius范式;
S5.利用各视角具有一致的聚类模式的假设,给定多视角数据矩阵X(1)∈Rf×n,X(2)∈Rp×n,第i个视角的相似矩阵用A(i)∈Rn×n表示;根据S4Multi-view SNMF的目标函数可定义为:
Figure BDA0002354003370000047
其中:
Figure BDA0002354003370000048
为辅助矩阵,n为实例数,f、p为特征数,H*代表各视角一致的聚类模式,H(i)为第i个视角的聚类指示矩阵,nv为视角的个数,λ(i)为第i个视角的权重参数,Hl,1 (i)为矩阵H(i)的第l行第1列相应的元素,Hl,2 (i)为第l行第2列相应的元素,Hl,k (i)为第l行第k列相应的元素;
S6.为最小化等式(5),采用迭代更新方法,求解得到H(i)与H*的更新规则如下:
Figure BDA0002354003370000049
Figure BDA0002354003370000051
因各视角的数据矩阵在分解过程中是独立的,因此在等式(6)中用H代替H(i),其中QT是相应视角辅助矩阵的转置,Hi,k代表获指示矩阵H的第ik个元素。
得的聚类
进一步的,在步骤一、二中所述Multi-viewSNMF目标函数Obj中,各视角共享的一致的低维子空间表示H*和第i个视角的聚类指示矩阵H(i)得到的具体过程为:
为了最小化Multi-view SNMF目标函数,使用迭代更新方法(IterativeUpdateProcedure),具体分两步进行:
(1)固定H*,计算H(i)
通过拉格朗日(Lagrange)方法来解这个优化问题,对约束H(i)≥0引入拉格朗日乘子α,在每一步优化过程中,只考虑与H(i)相关的项,不失一般性,用A和H代表相应视角的相似矩阵与聚类指示矩阵,从而将目标函数简化为:
Figure BDA0002354003370000052
其中:tr()代表矩阵的迹;
求8式关于H的偏导,
Figure BDA0002354003370000061
利用KKT条件,得到下面的更新规则:
Figure BDA0002354003370000062
(2)固定H(i),更新H*
只考虑目标函数中与H*有关的项,在获得所有视角相应的聚类指示矩阵H(i)后,关于H*的目标函数可重写为:
Figure BDA0002354003370000063
对10式求H*的偏导,并令其等于0:
Figure BDA0002354003370000064
则得到H*的更新规则:
Figure BDA0002354003370000065
从上式可以看出,H*的值明显为非负;
Multi-view SNMF的算法流程总结如下:
Figure BDA0002354003370000066
Figure BDA0002354003370000071
进一步的,所述的λ(i)有两种含义:一方面反映了各视角的权重;另一方面作为正则化参数,代表了目标函数第一项与正则项之间的平衡,λ(i)值越大,聚类指示矩阵H(i)与H*越接近,反之,小的λ(i)值容许H(i)与H*之间存在一定差异。
进一步的,在步骤三中所述通过H*获得新文本或图像在子空间中的表示的具体过程为:
S1:给定新样本在第i个模态
Figure BDA0002354003370000072
中的表示
Figure BDA0002354003370000073
计算其与同一模态中已有样本的相似性:
Figure BDA0002354003370000074
其中:
Figure BDA0002354003370000075
Figure BDA0002354003370000076
与同一模态中已有样本的内积相似性构成的相似向量;
Figure BDA0002354003370000077
Figure BDA0002354003370000078
的转置;
S2.利用H*
Figure BDA0002354003370000079
获得其子空间表示
Figure BDA00023540033700000710
Figure BDA00023540033700000711
S3.相似地,可获得该样本在其它模态中的子空间表示,跨模态检索在变换后的子空间中进行:即
(1)当有一个用户查询q(如文本查询)时,首先通过计算该查询向量与相应模态中所有训练文本的相似性,从而产生一个相似性得分向量(等式12);
(2)然后利用一致矩阵H*计算q在子空间中的表示qemb(等式13);同样地,计算另一模态中的测试样本(检索集)与训练样本的相似性,再通过H*获得检索集中样本的子空间表示;
(3)最后,根据相似性函数值(如余弦相似性)排序子空间中与qemb相关的检索结果,并将其返回给用户。
本发明的有益效果是:本发明提供一种基于多视角对称非负矩阵分解的跨模态信息检索方法,相比现有技术存在以下优点:
(1)设计了一种新的基于对称非负矩阵分解的跨模态检索方法,通过在公开数据集上执行对比试验,相较于CCA、PLSR等多元统计方法和以SM为代表的语义匹配方法,本算法在多个指标上具有显著的优点;
(2)提出的方法具有更好的灵活性和普适性,易拓展到具有非线性关系的复杂应用和任务中。
附图说明
图1为本发明基于对称非负矩阵分解的跨模态检索方法“以图搜文”的效果曲线图。
图2为本发明基于对称非负矩阵分解的跨模态检索方法“以文搜图”的效果曲线图。
图3为MAP混淆矩阵“以图搜文”的结果示意图。
图4为MAP混淆矩阵“以文搜图”的结果示意图。
具体实施方式
为了使本领域的普通技术人员能更好的理解本发明的技术方案,下面结合实施例对本发明的技术方案做进一步的描述。
参照附图1-4所示,一种基于多视角对称非负矩阵分解的跨模态信息检索方法,其特征在于:具体的检索过程包括以下步骤:
步骤一:Multi-view SNMF目标函数的具体定义过程为:
S1.给定数据矩阵
Figure BDA0002354003370000091
SNMF首先构建n×n的样本相似矩阵
Figure BDA0002354003370000092
相似性采用高斯核函数来刻画:
Figure BDA0002354003370000093
其中:
Figure BDA0002354003370000094
为矩阵为m×n的具体模态,n为实例数,m为特征数,σi为第i个实例与其第7个邻居之间的欧式距离,σj为第j个实例与其第7个邻居之间的欧式距离,xi为第i个实例,xj为第j个实例,Eij为第i个实例与第j个实例之间的相似性,通过公式(1)可获得任意两个节点之间的距离,这样构建了所有实例之间的全连通图(Fully-connected Graph),当遇到数据量大的时候,则考虑使用另一种图构建方式—稀疏图(Sparse Graph);
S2.当遇到数据量大的时候,无法通过S1获得任意两个节点之间的距离,采用:
Figure BDA0002354003370000095
其中:N(i)={j:Xj为Xi的q近邻,j≠i},表示距离实例i的最近的q个邻居,N(j)={i:Xi为Xj的q近邻,j≠i},表示距离实例j最近的q邻居,q为近邻数,
Figure BDA0002354003370000101
为重新计算而获取的两个实例i,j之间的相似性;
S3.在获得
Figure BDA0002354003370000102
后,对其标准化,得到:
Figure BDA0002354003370000103
其中:
Figure BDA0002354003370000104
为节点i的强度,
Figure BDA0002354003370000105
为节点j的强度;
Figure BDA0002354003370000106
为矩阵中第i行第l列个元素;
Figure BDA0002354003370000107
为矩阵中第j行第l列个元素;
S4.在获得相似矩阵A后,由SNMF目标函数:
Figure BDA0002354003370000108
可得出分解后的聚类指示矩阵
Figure BDA0002354003370000109
然后对其执行简单的Kmeans聚类以获得每个实例的类别,HT为矩阵H的转置,||·||F为矩阵的Frobenius范式;
S5.利用各视角具有一致的聚类模式的假设,给定多视角数据矩阵X(1)∈Rf×n,X(2)∈Rp×n,第i个视角的相似矩阵用A(i)∈Rn×n表示;根据S4Multi-view SNMF的目标函数可定义为:
Figure BDA00023540033700001010
其中:
Figure BDA00023540033700001011
为辅助矩阵,n为实例数,f、p为特征数,H*代表各视角一致的聚类模式(共享的一致的低维子空间表示),H(i)为第i个视角的聚类指示矩阵,nv为视角的个数,λ(i)为第i个视角的权重参数,Hl,1 (i)为矩阵H(i)的第l行第1列相应的元素,Hl,2 (i)为第l行第2列相应的元素,Hl,k (i)为第l行第k列相应的元素;
S6.为最小化等式(5),采用迭代更新方法,求解得到H(i)与H*的更新规则如下:
Figure BDA0002354003370000111
Figure BDA0002354003370000112
因各视角的数据矩阵在分解过程中是独立的,因此在等式(6)中用H代替H(i),其中QT是相应视角辅助矩阵的转置,Hi,k代表获指示矩阵H的第ik个元素;
得的聚类
步骤二:求解Multi-view SNMF目标函数:给定多视角数据矩阵
Figure BDA0002354003370000113
得到Multi-view SNMF目标函数Obj,可获得各视角共享的一致的低维子空间表示H*和第i个视角的聚类指示矩阵H(i),计算的具体步骤为:
为了最小化Multi-view SNMF目标函数,使用迭代更新方法(Iterative UpdateProcedure)。具体分两步进行:
(1)固定H*,计算H(i)
通过拉格朗日(Lagrange)方法来解这个优化问题,对约束H(i)≥0引入拉格朗日乘子α,在每一步优化过程中,只考虑与H(i)相关的项,不失一般性,用A和H代表相应视角的相似矩阵与聚类指示矩阵,从而目标函数简化为:
Figure BDA0002354003370000121
其中:tr()代表矩阵的迹;
求8式关于H的偏导,
Figure BDA0002354003370000122
利用KKT条件,得到下面的更新规则:
Figure BDA0002354003370000123
(2)固定H(i),更新H*
只考虑目标函数中与H*有关的项,在获得所有视角相应的聚类指示矩阵H(i)后,关于H*的目标函数可重写为:
Figure BDA0002354003370000124
对10式求H*的偏导,并令其等于0:
Figure BDA0002354003370000125
则得到H*的更新规则:
Figure BDA0002354003370000126
从上式可以看出,H*的值明显为非负;
Multi-view SNMF的算法流程总结如下:
Figure BDA0002354003370000131
所述的λ(i)有两种含义:一方面反映了各视角的权重;另一方面作为正则化参数,代表了目标函数第一项与正则项之间的平衡,λ(i)值越大,聚类指示矩阵H(i)与H*越接近,反之,小的λ(i)值容许H(i)与H*之间存在一定差异;
步骤三:基于多视角对称非负矩阵分解的跨模态检索方法,对步骤二计算出的H*进行分析计算,所述H*反映了多个视角数据潜在的一致结构模式,可用于多模态数据的聚类、分类等任务.在跨模态检索应用中,通过H*获得新文本或图像在子空间中的表示,计算的具体步骤为:
S1:给定新样本在第i个模态
Figure BDA0002354003370000141
中的表示
Figure BDA0002354003370000142
计算其与同一模态中已有样本的相似性:
Figure BDA0002354003370000143
其中:
Figure BDA0002354003370000144
Figure BDA0002354003370000145
与同一模态中已有样本的内积相似性构成的相似向量;
Figure BDA0002354003370000146
Figure BDA0002354003370000147
的转置;
S2.利用H*
Figure BDA0002354003370000148
获得其子空间表示
Figure BDA0002354003370000149
Figure BDA00023540033700001410
S3.相似地,可获得该样本在其它模态中的子空间表示,跨模态检索在变换后的子空间中进行:即
(1)当有一个用户查询q(如文本查询)时,首先通过计算该查询向量与相应模态中所有训练文本的相似性,从而产生一个相似性得分向量(等式9);
(2)然后利用一致矩阵H*计算q在子空间中的表示qemb(等式10);同样地,计算另一模态中的测试样本(检索集)与训练样本的相似性,再通过H*获得检索集中样本的子空间表示;
(3)最后,根据相似性函数值(如余弦相似性)排序子空间中与qemb相关的检索结果,并将其返回给用户。
实施例一:如附图1和附图2所示,利用Wikipedia数据集作为基准,对
Figure BDA00023540033700001411
的检索结果进行评价;所述Wikipedia数据集来自于维基百科精选文章,由2886篇文档组成(文本—图像对),其中2173篇文档作为训练集用于映射函数和子空间学习,693篇文档作为测试集用于评价算法在“以图搜文”和“以文搜图”检索任务中的性能.该数据集包含10个主题类,具体统计情况如表1所示:
表1 Wikipedia数据集统计信息
Figure BDA0002354003370000151
检索结果的评价采用准确率-召回率曲线(Precision-recall,PR)和均值平均正确率(Mean Average Precision,MAP)等常用的检索指标作为评价标准,其计算公式如下:
准确率(Precision,P)指的是检索到的相关文档占检索到的文档数的比例;召回率(Recall,R)指的是检索到的相关文档与相关文档总数的比例,定义为:
Figure BDA0002354003370000152
Figure BDA0002354003370000153
其中,|{docrel}|代表相关文档数,|{docretr}|代表检索到的文档数,一般情况下,检索系统很难同时满足高的准确率和召回率要求,在系统测评中通常采用PR曲线来描述准确率随召回率的变化情况;
另一个广泛使用的指标是MAP,用以衡量多个查询情况下系统的总体检索性能,计算公式如下:
Figure BDA0002354003370000161
Figure BDA0002354003370000162
这里,R为相关文档总数,position(r)代表第r个相关文档在检索结果中的排序位置.AveP(q)代表第q个查询的平均准确率,Q为查询的总数目,MAP反映了所有查询的平均准确率;
利用在Wikipedia数据集上分别运行CCA、PLSR、SM和Multi-view SNMF方法,在Multi-view SNMF方法中,取性能最优时的H*作为映射矩阵,各算法的MAP得分如表2所示:
表2检索性能(MAP得分表)
Figure BDA0002354003370000163
对于Multi-view SNMF,当λ=0.04时,取得上述结果,对于其他值,
本发明所使用的Multi-view SNMF有较好的性能表现,对于其它方法,取文献中默认的参数值;
实施例二:如附图3和附图4所示,利用在各主题上的MAP混淆矩阵,对于对
Figure BDA0002354003370000171
的检索结果的有效性进行评价,具体是:
S1.计算所有查询在10个主题上的MAP得分矩阵;
S2.在所有真实类(Ground truth)上求均值,最后得到10×10的MAP混淆矩阵;
在附图3和附图4中,行代表真实的主题类(查询模态),列代表预测到的主题类(检索模态),矩阵中的元素为检索到的主题类在真实查询类上的平均MAP得分;
可以看出:文本查询(“以文搜图”)得到的混淆矩阵和图像查询(以图搜文)很清晰;
一般来说,对角线的元素具有较大的值.可以看出:文本查询(“以文搜图”)得到的混淆矩阵较图像查询(以图搜文)更为清晰,原因是子空间中文本信息具有比图像信息具有更直接、显示的类别标记;
综上,从实施例一和实施例二可以看出,本文提出的基于对称非负矩阵分解的跨模态信息检索方法(Multi-view SNMF),在MAP、PR曲线上的性能优于以CCA、PLSR等为代表的多元统计分析方法;在相似矩阵构建过程中多种核函数的选择易于将其拓展到具有非线性结构关系的复杂应用中;在模型训练过程中,兼顾了各模态共享的子空间特征信息(H*)并容许不同模态之间存在差异(H(1)、H(2)),因此,相比于其它方法具有更好的解释性和普适性;
同时,本申请基于对称非负矩阵分解的方法从理论上建立了多视角学习和跨模态信息检索的关联,虽然仅在两种模态数据上得到了验证,但易拓展到其它多个模态的学习任务中;此外,该方法在利用核函数构建相似矩阵的过程中,一定程度上解决了数据具有非线性关系的问题。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点,本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (5)

1.一种基于多视角对称非负矩阵分解的跨模态信息检索方法,其特征在于:具体过程包括以下步骤:
步骤一:提出多视角非负矩阵分解模型,假设各视角间存在一致的聚类模式,给定多视角数据矩阵X(1)∈Rf×n,X(2)∈Rp×n,利用对称非负矩阵分解方法分别分解矩阵X(1)、X(2),得到的聚类解都趋于一致的聚类模式;由此产生多视角非负矩阵分解的目标函数Obj
步骤二:求解多视角对称非负矩阵分解模型,采用迭代更新方法对步骤一产生的目标函数进行求解,得到各视角共享的一致的低维子空间表示H*的更新规则;
步骤三:基于多视角对称非负矩阵分解的跨模态检索方法,具体是对步骤二计算出的H*进行分析计算,所述H*反映了多个视角数据潜在的一致结构模式,通过H*获得新文本或图像在子空间中的表示,在变换后的子空间中进行跨模态检索。
2.根据权利要求1所述的一种基于多视角对称非负矩阵分解的跨模态信息检索方法,其特征在于:步骤一中所述得到Multi-view SNMF目标函数定义的具体过程为:
S1.给定数据矩阵
Figure FDA0002354003360000011
SNMF首先构建n×n的样本相似矩阵
Figure FDA0002354003360000012
相似性采用高斯核函数来刻画:
Figure FDA0002354003360000013
其中:
Figure FDA0002354003360000014
矩阵为m×n的具体模态,n为实例数,m为特征数,σi为第i个实例与其第7个邻居之间的欧式距离,σj为第j个实例与其第7个邻居之间的欧式距离,xi为第i个实例,xj为第j个实例,Eij为第i个实例与第j个实例之间的相似性,通过公式(1)可获得任意两个节点之间的相似性值;
S2.当遇到数据量大的时候,无法通过S1获得任意两个节点之间的距离,采用:
Figure FDA0002354003360000021
其中:N(i)={j:Xj是Xi的q近邻,j≠i},表示距离实例i的最近的q个邻居;N(j)={i:Xi是Xj的q近邻,j≠i},表示距离实例j最近的q邻居,q为近邻数,
Figure FDA0002354003360000022
为重新计算而获取的两个实例i,j之间的相似性;
S3.在获得
Figure FDA0002354003360000023
后,对其标准化,得到:
Figure FDA0002354003360000024
其中:
Figure FDA0002354003360000025
1≤i≤n为节点i的强度,
Figure FDA0002354003360000026
1≤j≤n为节点j的强度;
Figure FDA0002354003360000027
为矩阵中第i行第l列个元素;
Figure FDA0002354003360000028
为矩阵中第j行第l列个元素;
S4.在获得相似矩阵A后,由SNMF目标函数
Figure FDA0002354003360000029
可得出分解后的聚类指示矩阵
Figure FDA00023540033600000210
然后对其执行简单的Kmeans聚类以获得每个实例的类别;
其中:HT为矩阵H的转置,||·||F为矩阵的Frobenius范式;
S5.利用各视角具有一致的聚类模式的假设,给定多视角数据矩阵X(1)∈Rf×n,X(2)∈Rp ×n,第i个视角的相似矩阵用A(i)∈Rn×n表示;根据S4 Multi-view SNMF的目标函数可定义为:
Figure FDA0002354003360000031
其中:
Figure FDA0002354003360000032
为辅助矩阵,n为实例数,f、p为特征数,H*代表各视角一致的聚类模式,H(i)为第i个视角的聚类指示矩阵,nv为视角的个数,λ(i)为第i个视角的权重参数,Hl,1 (i)为矩阵H(i)的第l行第1列相应的元素,Hl,2 (i)为第l行第2列相应的元素,Hl,k (i)为第l行第k列相应的元素;
S6.为最小化等式(5),采用迭代更新方法,求解得到H(i)与H*的更新规则如下:
Figure FDA0002354003360000033
Figure FDA0002354003360000034
因各视角的数据矩阵在分解过程中是独立的,因此在等式(6)中用H代替H(i),其中QT是相应视角辅助矩阵的转置,Hi,k代表获得的聚类指示矩阵H的第ik个元素。
3.根据权利要求2所述的一种基于多视角对称非负矩阵分解的跨模态信息检索方法,其特征在于:在步骤一、二中所述Multi-view SNMF目标函数Obj中,各视角共享的一致的低维子空间表示H*和第i个视角的聚类指示矩阵H(i)得到的具体过程为:
为了最小化Multi-view SNMF目标函数,使用迭代更新方法(Iterative UpdateProcedure),具体分两步进行:
(1)固定H*,计算H(i)
通过拉格朗日方法来解这个优化问题,对约束H(i)≥0引入拉格朗日乘子α,在每一步优化过程中,只考虑与H(i)相关的项,不失一般性,用A和H代表相应视角的相似矩阵与聚类指示矩阵,从而将目标函数简化为:
Figure FDA0002354003360000041
其中:tr()代表矩阵的迹;
求8式关于H的偏导,
Figure FDA0002354003360000042
利用KKT条件,得到下面的更新规则:
Figure FDA0002354003360000043
(2)固定H(i),更新H*
只考虑目标函数中与H*有关的项,在获得所有视角相应的聚类指示矩阵H(i)后,关于H*的目标函数可重写为:
Figure FDA0002354003360000051
对10式求H*的偏导,并令其等于0:
Figure FDA0002354003360000052
则得到H*的更新规则:
Figure FDA0002354003360000053
从上式可以看出,H*的值明显为非负。
4.根据权利要求3所述的一种基于多视角对称非负矩阵分解的跨模态信息检索方法,其特征在于:所述的λ(i)有两种含义:一方面反映了各视角的权重;另一方面作为正则化参数,代表了目标函数第一项与正则项之间的平衡,λ(i)值越大,聚类指示矩阵H(i)与H*越接近,反之,小的λ(i)值容许H(i)与H*之间存在一定差异。
5.根据权利要求3所述的一种基于多视角对称非负矩阵分解的跨模态信息检索方法,其特征在于:在步骤三中所述通过H*获得新文本或图像在子空间中的表示的具体过程为:
S1:给定新样本在第i个模态
Figure FDA0002354003360000054
中的表示
Figure FDA0002354003360000055
计算其与同一模态中已有样本的相似性:
Figure FDA0002354003360000056
其中:
Figure FDA0002354003360000057
Figure FDA0002354003360000058
与同一模态中已有样本的内积相似性构成的相似向量;
Figure FDA0002354003360000059
Figure FDA00023540033600000510
的转置;
S2.利用H*
Figure FDA00023540033600000511
获得其子空间表示
Figure FDA00023540033600000512
Figure FDA0002354003360000061
S3.相似地,可获得该样本在其它模态中的子空间表示,跨模态检索在变换后的子空间中进行:即
(1)当有一个用户查询q时,首先通过计算该查询向量与相应模态中所有训练文本的相似性,从而产生一个相似性得分向量;
(2)然后利用一致矩阵H*计算q在子空间中的表示qemb;同样地,计算另一模态中的测试样本与训练样本的相似性,再通过H*获得检索集中样本的子空间表示;
(3)最后,根据相似性函数值排序子空间中与qemb相关的检索结果,并将其返回给用户。
CN202010002486.8A 2020-01-02 2020-01-02 一种基于多视角对称非负矩阵分解的跨模态信息检索方法 Pending CN111177492A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010002486.8A CN111177492A (zh) 2020-01-02 2020-01-02 一种基于多视角对称非负矩阵分解的跨模态信息检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010002486.8A CN111177492A (zh) 2020-01-02 2020-01-02 一种基于多视角对称非负矩阵分解的跨模态信息检索方法

Publications (1)

Publication Number Publication Date
CN111177492A true CN111177492A (zh) 2020-05-19

Family

ID=70656058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010002486.8A Pending CN111177492A (zh) 2020-01-02 2020-01-02 一种基于多视角对称非负矩阵分解的跨模态信息检索方法

Country Status (1)

Country Link
CN (1) CN111177492A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268858A (zh) * 2021-04-25 2021-08-17 贵州电网有限责任公司 一种联合非负矩阵分解的低压配电网设备数据建模方法
CN113469225A (zh) * 2021-06-16 2021-10-01 浙江工业大学 基于跨域特征相关性分析的图像转换方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886066A (zh) * 2014-03-20 2014-06-25 杭州禧颂科技有限公司 一种基于鲁棒非负矩阵分解的图像检索方法
CN106777318A (zh) * 2017-01-05 2017-05-31 西安电子科技大学 基于协同训练的矩阵分解跨模态哈希检索方法
US20180039859A1 (en) * 2016-06-15 2018-02-08 Massachusetts Institute Of Technology Joint acoustic and visual processing
CN110188210A (zh) * 2019-05-10 2019-08-30 山东师范大学 一种基于图正则化与模态独立的跨模态数据检索方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886066A (zh) * 2014-03-20 2014-06-25 杭州禧颂科技有限公司 一种基于鲁棒非负矩阵分解的图像检索方法
US20180039859A1 (en) * 2016-06-15 2018-02-08 Massachusetts Institute Of Technology Joint acoustic and visual processing
CN106777318A (zh) * 2017-01-05 2017-05-31 西安电子科技大学 基于协同训练的矩阵分解跨模态哈希检索方法
CN110188210A (zh) * 2019-05-10 2019-08-30 山东师范大学 一种基于图正则化与模态独立的跨模态数据检索方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马园园: "基于对称非负矩阵分解的信息融合方法与应用研究", 《中国优秀博士学位论文全文数据库》, 15 December 2018 (2018-12-15), pages 140 - 35 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268858A (zh) * 2021-04-25 2021-08-17 贵州电网有限责任公司 一种联合非负矩阵分解的低压配电网设备数据建模方法
CN113469225A (zh) * 2021-06-16 2021-10-01 浙江工业大学 基于跨域特征相关性分析的图像转换方法
CN113469225B (zh) * 2021-06-16 2024-03-22 浙江工业大学 基于跨域特征相关性分析的图像转换方法

Similar Documents

Publication Publication Date Title
Wang et al. Deep multi-view subspace clustering with unified and discriminative learning
Kim et al. A review of dynamic network models with latent variables
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
Liu et al. Localized sparse incomplete multi-view clustering
Ren et al. Matching algorithms: Fundamentals, applications and challenges
Gong et al. Robust multi-task feature learning
Nie et al. Data-driven answer selection in community QA systems
Magis et al. Detection of differential item functioning using the lasso approach
Liu et al. Feature selection for multi-label learning with streaming label
US20170132498A1 (en) Structured Knowledge Modeling, Extraction and Localization from Images
Guo et al. Sparse deep nonnegative matrix factorization
CN103473327A (zh) 图像检索方法与系统
CN114936623A (zh) 一种融合多模态数据的方面级情感分析方法
CN112131261A (zh) 基于社区网络的社区查询方法、装置和计算机设备
CN111325237A (zh) 一种基于注意力交互机制的图像识别方法
CN113535949A (zh) 基于图片和句子的多模态联合事件检测方法
CN111177492A (zh) 一种基于多视角对称非负矩阵分解的跨模态信息检索方法
Wei et al. Food image classification and image retrieval based on visual features and machine learning
CN113553326A (zh) 电子表格数据处理方法、装置、计算机设备和存储介质
Wang et al. SpecVAT: Enhanced visual cluster analysis
CN103678709B (zh) 一种基于时序数据的推荐系统攻击检测方法
CN114298020B (zh) 一种基于主题语义信息的关键词向量化方法及其应用
Li et al. HAPZSL: A hybrid attention prototype network for knowledge graph zero-shot relational learning
CN112203152B (zh) 多模态对抗学习型视频推荐方法和系统
Ranjbar-Khadivi et al. Persian topic detection based on Human Word association and graph embedding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200519