CN109766455B

CN109766455B - 一种有鉴别的全相似性保留哈希跨模态检索方法

Info

Publication number: CN109766455B
Application number: CN201811358982.6A
Authority: CN
Inventors: 荆晓远; 朱治兰; 孙莹; 吴飞; 董西伟
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2018-11-15
Filing date: 2018-11-15
Publication date: 2021-09-24
Anticipated expiration: 2038-11-15
Also published as: CN109766455A

Abstract

本发明公开了一种有鉴别的全相似性保留哈希跨模态检索方法，包括：由图像文本对组成样本构成数据集，并将数据集按照分成特征向量训练集和测试集后做规整和均一化处理；提取双模态数据，构造有鉴别的全相似性保留哈希的目标函数；迭代法求解目标函数，比较求解值与设定阈值的大小；使用预设公式计算哈希码；利用图像特征投影矩阵和文本特征投影矩阵对训练集进行投影变换，获得图像文本语义特征矩阵，再次计算哈希码；计算测试集中每个图像哈希码与训练集中所有文本哈希码之间的汉明距离

和测试集每个文本哈希码与训练集中所有图像哈希码之间的汉明距离

升序排序

和

并对计算结果进行精度计算，完成跨模态检索；本发明提升了跨模态检索的精度。

Description

一种有鉴别的全相似性保留哈希跨模态检索方法

技术领域

本发明属于模式识别技术领域，涉及考虑保持模态间及模态内数据相似性的同时，保持数据特征向量间的鉴别力度，具体为一种有鉴别的全相似性保留哈希跨模态检索方法。

背景技术

近几十年来，互联网多媒体数据的爆炸性增长，使得跨媒体数据检索需求增长，并且促进了复杂多模态检索技术的发展。

处于现在这个信息的时代，多媒体数据往往来自不同的互联网多媒体平台以及不同的数据资源。这些数据经常共同出现且被用来描述同一物体和事件，因此跨模态检索在实际应用中已经成为必要。为了消除不同模态特征之间的多样性，现有很多研究把关注点放在对潜在子空间的学习上，具体研究的关键点是如何通过学习得到一个共同的语义子空间，能够使得不同模态之间的异构性得到消除，从而使得这些特征在这个学习得到的子空间中能被直接相互匹配；但是这些研究由于忽视了特征维度的可伸缩性，在解决大规模数据的多模态检索时这些方法受到了限制；即传统的跨模态检索方法大都只考虑保留模态内数据的相似性，而忽略了模态间数据相似性的保留，并且在保留相似性的同时破坏了数据之间本身的鉴别力。

发明内容

本发明的主要目的在于针对现有技术中对跨模检索无法保留模态间数据相似性以及会破坏模态间数据之间本身鉴别力的问题，提供一种有鉴别的全相似性保留哈希跨模态检索方法，本发明假设有两种模态的训练数据V＝{v₁,...,v_n}和T＝{t₁,...,t_n}，它们分别是同一对象的两种表示模态，这里的n指代训练样本的个数，具体技术方案如下：

一种有鉴别的全相似性保留哈希跨模态检索方法，所述方法包括步骤：

S1、由图像文本对组成样本构成数据集，并将所述数据集按照设定比例划分成特征向量训练集和测试集，并对每一样本中对应文本和图像的特征向量做数据规整和均一化处理；

S2、提取所述训练集中具有双模态的数据，基于所述数据构造有鉴别的全相似性保留哈希的目标函数：

，其中，T为文本特征矩阵，P_T为文本特征矩阵对应的文本特征投影矩阵，V为图像特征矩阵，P_V为图像特征矩阵对应的图像特征投影矩阵，Y为标签矩阵，W为线性分类器，S为语义特征矩阵，L为保留相似性的图拉普拉斯矩阵，γ，μ_T，μ_V，λ均为折衷参数；

S3、设定一阈值，采用迭代法求解所述目标函数，判断每一迭代过程中所述目标函数的解，若所述解小于或等于所述阈值，则停止迭代，并更新P_V，P_T，S和W；

S4、基于所述目标函数的迭代解采用公式H＝sign(S)计算训练集哈希码；

S5、利用所述更新得到的P_V和P_T对所述训练集进行投影变换，将投影变换后得到的矩阵作为图像文本语义特征矩阵，使用公式H＝sign(S)计算测试集哈希码；

S6、计算所述测试集中每个图像哈希码与所述训练集中所有文本哈希码之间的汉明距离

以及所述测试集每个文本哈希码与所述训练集中所有图像哈希码之间的汉明距离

S7、升序排列

和

并根据排列结果查询到所述文本和图像在模态中对应的索引，并按照相关度排名后取前r个作为检索结果，并基于所述模态双模态数据的标签信息对r个所述检索结果进行mAP值计算，完成图像文本对的跨模态检索。

进一步的，步骤S3中，所述目标函数采用迭代法求解具体包括步骤：

S31、随机初始化P_V，P_T，S，W确定哈希码长度k；

S32、固定S，W，并令

得

求解得：

S33、固定P_V，P_T，S令

得

求解得：W＝(SS^T+λI)^-1SY^T；

S34、固定P_V，P_T，W令

得

整理得：AS+SB+E＝0，其中，A＝2(WW^T+(μ_V+μ_T)I)，B＝L+L^T，E＝-2(WT+μ_VP_VV+μ_TP_TT)；

S35、更新P_V，P_T，S，W。

进一步的，所述折衷参数λ的取值范围为[10^-5,1]。

进一步的，所述折衷参数γ的取值范围为[0,2]。

进一步的，所述折衷参数μ_T和μ_V的取值范围均为[1,200]。

进一步的，所述方法还包括通过公式

和公式

计算平均的平均精度指标评估，其中，q_i是一条检索输入，N是检索条目输入总数；T是检索集中所有相关实体的个数，P_q(r)是按照相关度排名后的前r个检索实体的精度；ξ(r)是一个指标函数，当第r个被检索到的实体与检索内容标签一致则ξ(r)的值为1，否则为0。

本发明的有鉴别的全相似性保留哈希跨模态检索方法，首先采集文本-图片作为数据集，并将数据集分为训练集和测试集；然后提取训练集中具有双模态的数据构造有鉴别的全相似性保留哈希的目标函数，并采用迭代法求解目标函数，将得到的目标函数解与一设定阈值比较，同时通过指定公式计算哈希码；接着获取图像文本语义特征矩阵，并再次计算哈希码；随后计算测试集中每个图像哈希码与训练集中每个文本哈希码之间的距离以及测试集中每个文本哈希码与训练集中所有图像哈希码之间的距离；最后对两种距离进行升序排序，并对其中指定数量的检索结果进行精度计算，完成文本-图像的跨模态检索；与现有技术相比，本发明的有益效果为：本发明在基于哈希的跨模态检索中，充分利用了数据特征模态内及模态内相似性约束条件，将其与线性分类框架融合学习，使得同一样本的文本-图像数据在经过投影变换到汉明空间中的语义特征矩阵保持了原始数据之间的鉴别力的同时，也保留了数据间的相似性；从而使得检索精度有所提高；同时由于哈希技术的应用减少了跨模态检索在时间和空间存储上的消耗，有利于检索速度的提升。

附图说明

图1为本发明实施例中所述有鉴别的全相似性保留哈希跨模态检索方法流程图示意。

图2为本发明实施例中所述目标函数的迭代求解流程框图示意。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

参阅图1，在本发明实施例中，提供了一种有鉴别的全相似性保留哈希跨模态检索方法，所述方法包括步骤：

S1、由图像文本对组成样本构成数据集，并将数据集按照设定比例划分成特征向量训练集和测试集，并对每一样本中对应文本和图像的特征向量做数据规整和均一化处理；具体的，本发明的方法通过在MATLAB上对每一样本中的文本和图像进行规整和均一化处理。

S2、提取训练集中具有双模态的数据，基于数据构造有鉴别的全相似性保留哈希的目标函数：

其中，T为文本特征矩阵，P_T为文本特征矩阵对应的文本特征投影矩阵，V为图像特征矩阵，P_V为图像特征矩阵对应的图像特征投影矩阵，Y为标签矩阵，W为线性分类器，S为语义特征矩阵，L为保留相似性的图拉普拉斯矩阵，γ，μ_T，μ_V，λ均为折衷参数；

具体的，首先通过两种线性变换映射原始图像和文本特征到潜在语义空间S_V＝P_VV和S_T＝P_TT；然后，基于相同对象不同模态的数据具有相同语义表示的假设，本发明通过最小化以下函数来求解两个线性变化矩阵：

随后，原始多模态数据特征可以区分分类，为了通过本发明的方法能够更加清晰地区分不同类别的二值代码，本发明希望得到的二值代码是能够反映这一特性的代表性特征；但是，如果二值代码有足够的鉴别力的话，那么它就能够通过它们的原始标签被分类；因此假设给定第i个目标的标签向量y_i，然后可用一个线性分类器W∈R^k×c来预测二值代码的标签向量，即Y＝W^TS；其中，本发明的方法用最小化函数

来求解；

随后，为了利用标签信息，本发明为双模态数据之间的标签一致性建模，并且将图像和文本两种模态数据之间的语义类同度量为：

同时，将图像和文本两种模态数据内的语义类同度量为：

和

融合图像和文本两种模态数据之间的语义类同度量与图像和文本两种模态数据内的语义类同度量得到全相似性项：

，其中，g_ij＝s_ij ^v+s_ij ^t+c_ij；将得到的全相似性项重新规整得到：

其中，G第i行第j列元素为g_ij的值，D是对角矩阵，其中对角线元素为G矩阵列之和，即D_ii＝∑_jG_ij。

最后得到规整后的目标函数为：

式中的正则项

起到防止过拟合的作用；此外在本发明实施例中，折衷参数λ的取值范围为[10^-5,1]；折衷参数γ的取值范围为[0,2]；折衷参数μ_T和μ_V的取值范围均为[1,200]。

S3、设定一阈值，采用迭代法求解目标函数，判断每一迭代过程中目标函数的解，若解小于或等于所述阈值，则停止迭代，并更新P_V，P_T，S和W；

具体的，使用迭代法求解目标函数的具体过程为：

先随机初始化P_V，P_T，S，W确定哈希码长度k；然后固定S，W，并令

得

求解得：

并固定P_V，P_T，S令

得

求解得：W＝(SS^T+λI)^-1SY^T；同时，固定P_V，P_T，W令

得

整理得：AS+SB+E＝0，其中，A＝2(WW^T+(μ_V+μ_T)I)，B＝L+L^T，E＝-2(WT+μ_VP_VV+μ_TP_TT)；最后，更新P_V,P_T,S,W；

为希尔维斯特方程，本发明方法采用MATLAB的李雅普诺夫函数对其进行求解，当然，本发明并未对此进行限制和固定，可根据实际情况进行选择合适的求解方式。

S4、基于目标函数的迭代解采用公式H＝sign(S)计算训练数据哈希码。

S5、利用更新得到的P_V和P_T对测试集进行投影变换，将投影变换后得到的矩阵作为图像文本语义特征矩阵，并再次使用公式H＝sign(S)计算测试数据哈希码。

S6、计算测试集中每个图像哈希码与训练集中所有文本哈希码之间的汉明距离D₁，以及测试集每个文本哈希码与训练集中所有图像哈希码之间的汉明距离D₂。

S7、升序排列D₁和D₂，并根据排列结果查询到文本和图像在模态中对应的索引，并按照相关度排名后取前r个作为检索结果，并基于双模态数据的标签信息对r个检索结果进行精度计算，完成图像文本对的跨模态检索。

本发明的方法包括通过公式

和公式

计算平均的平均精度(mean Average Precision，mAP)指标评估，其中，q_i是一条检索输入，N是检索条目输入总数；T是检索集中所有相关实体的个数，P_q(r)是按照相关度排名后的前r个检索实体的精度；ξ(r)是一个指标函数，当第r个被检索到的实体与检索内容标签一致则ξ(r)的值为1，否则为0。

本发明利用在包含十个语义分类的Wiki数据集和NUS-WIDE数据集中挑选的文本和图像数据来完成具体的操作，具体的，随机抽取Wiki数据集中的2173个数据对作为训练集，将剩余的693个数据对作为测试集；从NUS-WIDE数据集中挑选包含186577张前十类的图片作为实验数据；其中，对于所挑选的数据集，本发明实施例中随机地挑选5000张图像文本对作为训练集，然后在剩余数据中再随机挑选1866图像文本对作为测试集。

参阅表一和表二，本发明的方法将有鉴别的全相似性保留哈希跨模态检索方法和其他五个对比算法对比在不同哈希码长度下都具有较好的mAP值；由此说明本发明通过有鉴别的全相似性保留哈希跨模态检索方法能够挖掘到更多的鉴别信息来提升跨模态检索性能，可通过利用益于标签信息保留跨模态数据之间的相似性，通过线性分类器来提高哈希码的鉴别力；同时，本发明在哈希码比较短的16位时，本发明通过有鉴别的全相似性保留哈希跨模态检索方法相较于采用SMFH算法可取得更好的mAP值，说明本发明的方法可从实质上改善跨模态检索的效果，提升检索精度。

表一.Wiki数据集上的mAP值

表二.NUS-WIDE数据集上mAP值

以上仅为本发明的较佳实施例，但并不限制本发明的专利范围，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本发明说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本发明专利保护范围之内。