CN109376261A

CN109376261A - 基于中级文本语义增强空间的模态独立检索方法和系统

Info

Publication number: CN109376261A
Application number: CN201811268589.8A
Authority: CN
Inventors: 张化祥; 郑顺心; 李静; 吴泓辰; 王琳; 孙建德
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2019-02-22
Anticipated expiration: 2038-10-29
Also published as: CN109376261B

Abstract

本发明公开了一种基于中级文本语义增强空间的模态独立检索方法和系统，所述方法包括：获取成对的文本和图像底层特征，构建训练数据集和测试数据集；根据线性判别分析建立中级文本语义增强空间；计算图像文本对的相似度矩阵；根据所述中级文本语义增强空间和相似度矩阵分别构建图像检索文本和文本检索图像的投影矩阵模型；采用训练数据集分别求解图像检索文本和文本检索图像的投影矩阵模型中的投影矩阵参数；基于图像检索文本/文本检索图像的投影矩阵参数，采用测试数据集执行图像检索文本/文本检索图像。所述方法为图像检索文本和文本检索图像的检索任务分别学习映射矩阵，检索更有针对性，大大提高了检索的准确率。

Description

基于中级文本语义增强空间的模态独立检索方法和系统

技术领域

本公开属于跨媒体检索技术领域，尤其涉及一种基于中级文本语义增强空间的模态独立检索方法和系统。

背景技术

随着社会的发展和网络的普及，网络上的多媒体数据，图片、视频、音频等呈现出指数级的增长，许多不同类型的多媒体数据会表达同一种语义，用户需要从这些海量的数据中检索到自己需要的信息。当前机器学习和模式识别理论的飞速发展，硬件的更新换代使得计算速度得到极大的提升，如何实现跨媒体数据的检索已成为亟需解决的问题。

跨媒体检索是指提交任何类型的媒体类型的数据，获得不同媒体类型的相同语义的结果。目前的检索方式还主要局限在单一媒体检索，基于关键字的搜索源于文本检索，用户提供关键字，数据库通过关键词关联媒体数据，查询系统再根据关键字查找相关数据并返回信息，如当前主流的搜索引擎百度、搜狗、谷歌等采用的技术都是基于关键字搜索。基于内容的图像检索，一般需要提取图像的特征来描述一幅图像，然后查询系统通过特征来查找特征类似的图像数据。而当前的网络上尤其是社交媒体上充满了大量没有关键字的多媒体数据，类似上述的搜索方法对没有关键字或者跨越多媒体的检索无法有效的查询。

由于不同类型的多媒体数据在原始特征的维度和属性的不同会导致跨媒体数据之间存在异构性问题，同一类型但语义不同的多媒体数据会存在原始特征与其高层语义不一致的问题，即“跨媒体异构鸿沟”和“语义鸿沟”。为解决上述问题，在处理图像和文本的检索任务中，很多研究采用子空间学习方法，典型相关性分析(CCA和CFA)通过保持多媒体数据相关性的前提下，将多媒体数据投影到同一维度的子空间中，进而计算跨媒体相似性，以解决“跨媒体异构鸿沟”问题。

然而，由于图像中往往包含大量杂乱的信息，在图像特征的提取过程中会存在大量的语义鸿沟，所以文本模态的特征往往比图像特征具有更强的判别性，传统的子空间方法并没有有效地利用文本特征的强判别性来改善检索结果。同时，大多数方法对于不同的检索任务仅仅学习一对映射矩阵，这种映射机制在单一检索任务中并不能达到最高的性能。

发明内容

为克服上述现有技术的不足，本公开提供了一种基于中级文本语义增强空间的模态独立检索方法和系统，所述方法为图像检索文本和文本检索图像的检索任务分别学习映射矩阵，检索更有针对性，大大提高了检索的准确率。

为实现上述目的，本公开的一个或多个实施例采用如下技术方案：

一种基于中级文本语义增强空间的模态独立检索方法，包括以下步骤：

获取成对的文本和图像底层特征，构建训练数据集和测试数据集；

根据线性判别分析建立中级文本语义增强空间；计算图像文本对的相似度矩阵；

根据所述中级文本语义增强空间和相似度矩阵分别构建图像检索文本和文本检索图像的投影矩阵模型；

采用训练数据集分别求解图像检索文本和文本检索图像的投影矩阵模型中的投影矩阵参数；

基于图像检索文本/文本检索图像的投影矩阵参数，采用测试数据集执行图像检索文本/文本检索图像。

进一步地，所述中级文本语义空间的建立方法包括：

根据每个类文本特征和所有文本特征的均值，计算文本特征的类内散度矩阵和类间散度矩阵；

将所述类内散度矩阵和类间散度矩阵代入线性判别分析公式，得到线性判别分析的目标函数。

进一步地，所述计算图像文本对的相似度矩阵包括：

根据语义标签计算图像文本对的相似度矩阵S＝{s_ij}_2m×2m；

定义S_TT和S_II为单媒体相似矩阵，均为零矩阵，S_TI和S_IT为跨媒体相似矩阵；

定义对角矩阵D＝Diag(d_1,1,d_2,2,...,d_2n,2n)，

将S＝{s_ij}_2m×2m表示为其中，S_II＝S_TT，S＝S^T，并进行归一化；最终相似度矩阵和L_II＝L_TT。

进一步地，

定义s_ij是文本和图像的相似性矩阵，定义y_i为第i个文本图像对对应的标签矩阵向量，y_j为第j个文本图像对对应的标签矩阵向量，s_ij可以表示为：

进一步地，所述投影矩阵模型包括：

用于保持图像文本对的关联关系的媒体相关项，采用相似度矩阵；

用于提升文本特征判别性的正则化项，采用线性判别分析的目标函数；

用于针对不同的检索任务学习投影矩阵的线性投影项；

用于控制投影矩阵的复杂度的正则化项。

进一步地，所述图像检索文本投影矩阵模型为：

其中，V₁∈R^k×c为图像的投影矩阵，W₁∈R^k×c为文本的投影矩阵。

进一步地，所述文本检索图像投影矩阵模型为：

其中V₂∈R^k×c为图像的投影矩阵，W₂∈R^k×c为文本的投影矩阵。

进一步地，所述求解图像检索文本投影矩阵模型或文本检索图像投影矩阵模型包括：固定文本投影矩阵求解图像投影矩阵；固定图像投影矩阵求解文本投影矩阵。

一个或多个实施例提供了一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的基于中级文本语义增强空间的模态独立检索方法。

一个或多个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实所述的基于中级文本语义增强空间的模态独立检索方法。

本公开的有益效果

本公开通过建立一个中级文本语义增强空间，充分利用文本特征的高判别性，并将提高的文本特征的通过距离保持投影迁徙到图像特征中，使得图像特征中的噪音影响更低，最后，在投影过程中根据不同的任务学习不同的投影矩阵，更有检索的针对性，大大提高了检索的准确率。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本公开实施例一中基于中级文本语义增强空间的模态独立检索方法的流程框图；

图2为本公开实施例一中基于中级文本语义增强空间的模态独立检索方法的流程示意图。

图3为本公开实施例一中训练投影矩阵模型的流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

正如背景技术所介绍的，现有技术中存在忽略文本特征的高判别性，图像特征的噪音过多，没有针对不同的任务学习不同的矩阵已达到最优的结果的缺点。本公开为了解决上述问题，提出了一种基于中级文本语义增强空间的模态独立检索方法。建立一个中级语义空间，文本特征的判别能力得到进一步增强并且这种判别能力通过共享子空间迁移到对应的图像特征中，从而提高图像特征的表征能力。具体而言，利用线性判别分析把文本信息投影到中级语义增强空间中，用以增强文本特征的判别能力，通过距离保持投影生成映射矩阵，把增强的文本特征的判别能力迁移到图像特征中。最后，在检索过程中针对不同的跨媒体检索任务学习不同的映射矩阵，因此能够提高检索准确度，并通过实验验证了本公开的有效性。

实施例一

本实施例公开了一种基于中级文本语义增强空间的模态独立检索方法，如图1所示，该方法包括以下步骤：

步骤1：获取成对文本和图像的底层特征，构建文本的训练集和测试集、图像的训练集和测试集；

所述步骤1具体包括：

步骤1：输入三个数据集，获取每个数据集图像和文本的底层特征，表示为(i_i,t_i)表示第i对表示相同语义的文本和图像特征，n是样例个数，数据集中共有k个类。设I＝[i₁,i₂,...i_n]∈R^n×p为图像的底层特征矩阵，p是图像的维度。设T＝[t₁,t₂,...t_n]∈R^n×q为文本的底层特征矩阵，q是文本的维度。Y＝[y₁,y₂,...y_n]∈R^n×k是标记矩阵。设图像的投影矩阵为V∈R^k×p，文本的投影矩阵为W∈R^k×q。并将数据集中70％样本用于训练，30％样本用于测试。

步骤2：建立中级文本语义增强空间；

中级文本语义空间的具体建立过程包括：

步骤2.1：计算第j个类中文本特征的均值，计算所有文本特征的均值，计算文本的类内散度矩阵和类间散度矩阵。

设第j类文本特征的均值，全部类的文本特征的均值，则类内散度矩阵可表述为总体散度矩阵可以表述为

步骤2.2：把步骤2.1得到的矩阵代入线性判别分析(LDA)公式，得到LDA的目标函数。通过线性判别分析(LDA)对文本特征进行降维处理，使得相同类之间更加聚合，不同类之间更加远离，以提高文本特征的判别能力。

利用步骤2.1得到的U_w和U_t可得到线性判别分析表达式：

步骤3：计算文本图像对的相似度矩阵L；

所述步骤3中，计算图像文本对的相似度矩阵。该系数值越大，说明文本和图像对的相似度越高。

步骤3.1：定义s_ij是文本和图像的相似性矩阵，定义y_i为第i个文本图像对对应的标签矩阵向量，y_j为第j个文本图像对对应的标签矩阵向量，s_ij可以表示为：

步骤3.2：定义跨媒体相似矩阵S_TI和S_IT，定义单媒体相似矩阵S_TT和S_II，定义包含所有媒体类型的整体相似度矩阵S＝{s_ij}_2m×2m可以表示为：

上述式子中，S_II＝S_TTandS＝S^T。利用跨媒体相关性，因此设置S_TT和S_II为零矩阵。为了平衡正相关和负相关的影响，将S归一化，使S中的每个行的和等于零，并将S变换为对称矩阵。因此S_II＝S_TT，S＝S^T，上标T为矩阵的转置。

步骤3.3：定义对角矩阵D＝Diag(d_1,1,d_2,2,...,d_2n,2n)，定义和L_II＝L_TT，则L可以表示为

步骤4：对图像检索文本和文本检索图像分别构建投影矩阵模型。

所述步骤4中，投影矩阵模型的具体建立过程包括：

步骤4.1：利用步骤3中得到的相似度矩阵作为跨媒体相关项f(V,W)，用来保持图像文本对的关联关系，

综合步骤3.1-3.3，f(V,W)可以表示为：

利用公式(4)，f(V,W)可以以矩阵形式重写为：

步骤4.2：利用步骤2.2中的得到的LDA的目标函数作为正则化项λl(W,U_w,U_t)，用来提升文本特征的判别性。

步骤4.3：加入一项线性投影项αg(V,W)，用来针对不同的检索任务学习不同的投影矩阵。

步骤4.4：加入一项正则化项βr(V,W)，控制投影矩阵的复杂度，防止学习过程过拟合。

得到如下的关于V和W的最优化问题，

其中α,β和λ为平衡参数，取值在(0-1)之间。为距离保持投影项，保持图像文本对关系。αg(V,W)为线性回归项，通过学习投影矩阵，在图像检索文本时将图像的原始特征矩阵投影到高级语义空间，在文本检索图像时将文本的原始特征矩阵投影到高级语义空间。βr(V,W)为误差项，控制投影矩阵的复杂度，防止过拟合。λl(W,U_w,U_t)为线性判别分析项，对文本特征进行降维处理，增强文本特征的判别性。

步骤5：对图像检索文本投影矩阵模型和文本检索图像投影矩阵模型分别输入训练集进行训练。

所述步骤5中，具体的训练过程包括：

步骤5.1：输入训练样本的特征矩阵，语义矩阵。设置迭代过程的步长，设置收敛条件。初始化投影矩阵，初始化参数；

步骤5.2：计算中级空间文本投影矩阵和距离保持投影项；

步骤5.3：优化目标函数；执行图像检索文本或文本检索图像；

更新权重，重复目标函数优化步骤，直至目标函数收敛。

具体地，所述步骤5.3中，图像检索文本训练过程如下：

假设x是一个矩阵，tr(x)表示矩阵x的迹。图像检索文本的目标函数如下，：

其中V₁∈R^k×c为图像的投影矩阵，W₁∈R^k×c为文本的投影矩阵，tr(·)表示矩阵的迹。

求解过程包括：

步骤(1-1)：固定W₁求V₁得到：

步骤(1-2)：固定V₁求W₁得到：

步骤(1-3)：重复步骤(1-1)-(1-2)，直到收敛。输出W₁和V₁

(2)文本检索图像训练过程如下：

文本检索图像的优化过程与图像检索文本的过程基本一致，在下面主要介绍区别：

文本检索图像的目标函数为：

其中V₂∈R^k×c为图像的投影矩阵，W₂∈R^k×c为文本的投影矩阵。与图像检索文本区别在于该往高层语义空间投影文本特征矩阵。

求解过程包括：

步骤(2-1)：固定W₂求V₂得到：

步骤(2-2)：固定V₁求W₁得到：

步骤(2-3)：重复步骤(2-1)-(2-2)，直到收敛。输出W₂和V₂

步骤5.4：输出图像和文本的投影矩阵。

步骤6：对不同的模型分别输入不同的测试集数据，测试模型的查准率。

所述步骤6中，具体的测试步骤包括：

步骤6.1：分别向文本和图像的投影矩阵模型输入测试文本特征和图像特征。

步骤6.2：通过计算查询对象和所有被查询对象两两之间的欧式距离，确定最匹配的查询结果。

步骤6.3：通过计算平均查准率的均值来体现模型的准确率。

输入测试集，进行测试。对检索结果进行排序，得到最终的检索结果，本实施例采用平均AP和精确回忆曲线(PR)被用来评价跨媒体检索的性能。AP值的计算公式如下：

其中的R为查询结果的数量。如果在第j项的样本与查询项的语义相同，则rel(j)＝1，否则为0.P(j)是检索的前k个结果的准确率。

以Wikipedia数据集、pascal数据集和Websearch数据集上九种跨媒体检索方法的检索平均查准率的均值(mAP)比较(表1-2)：

表1与现有方法对比实验结果

Dataset	Query	PLS	CCA	SM	SCM	GMMFA
							Wikipedia	I2T	0.359	0.331	0.368	0.374	0.284
dataset two	T2I	0.351	0.316	0.386	0.392	0.248
								Average	0.355	0.324	0.377	0.383	0.266
Pascal	I2T	0.365	0.379	0.449	0.407	0.373
							Sentences	T2I	0.376	0.372	0.433	0.393	0.347
dataset	Average	0.370	0.379	0.441	0.400	0.360
							INRIA	I2T	0.193	0.260	0.378	0.354	0.280
-Websearch	T2I	0.260	0.279	0.353	0.308	0.303
							dataset	Average	0.227	0.269	0.365	0.331	0.292

表2与现有方法对比实验结果(续表1)

从表1中可以看出，本公开取得了最好的异构媒体检索结果，本公开解决了现有技术中存在忽略文本特征的高判别性，图像特征的噪音过多，没有针对不同的任务学习不同的矩阵的缺点，提出了一种基于中级文本语义增强空间的模态独立检索方法。建立一个中级语义空间，文本特征的判别能力得到进一步增强并且这种判别能力通过共享子空间迁移到对应的图像特征中，从而提高图像特征的表征能力。具体而言，利用线性判别分析把文本信息投影到中级语义增强空间中，用以增强文本特征的判别能力，通过距离保持投影生成映射矩阵，把增强的文本特征的判别能力迁移到图像特征中。最后，在检索过程中针对不同的跨媒体检索任务学习不同的映射矩阵，因此能够提高检索准确度，并通过实验验证了本公开的有效性。

实施例二

本实施例的目的是提供一种计算机系统。

一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤，包括：

实施例三

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行以下步骤：

以上实施例二和三中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本公开中的任一方法。

上述一个或多个实施例具有以下技术效果：

本领域技术人员应该明白，上述本申请的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本申请不限制于任何特定的硬件和软件的结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述虽然结合附图对本申请的具体实施方式进行了描述，但并非对本申请保护范围的限制，所属领域技术人员应该明白，在本申请的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本申请的保护范围以内。

Claims

1.一种基于中级文本语义增强空间的模态独立检索方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于中级文本语义增强空间的模态独立检索方法，其特征在于，所述中级文本语义空间的建立方法包括：

3.如权利要求1所述的一种基于中级文本语义增强空间的模态独立检索方法，其特征在于，所述计算图像文本对的相似度矩阵包括：

根据语义标签计算图像文本对的相似度矩阵S＝{s_ij}_2m×2m；

定义对角矩阵D＝Diag(d_1,1,d_2,2,...,d_2n,2n)，

4.如权利要求3所述的一种基于中级文本语义增强空间的模态独立检索方法，其特征在于，定义s_ij是文本和图像的相似性矩阵，定义y_i为第i个文本图像对对应的标签矩阵向量，y_j为第j个文本图像对对应的标签矩阵向量，s_ij可以表示为：

5.如权利要求1所述的一种基于中级文本语义增强空间的模态独立检索方法，其特征在于，所述投影矩阵模型包括：

用于针对不同的检索任务学习投影矩阵的线性投影项；

用于控制投影矩阵的复杂度的正则化项。

6.如权利要求3所述的一种基于中级文本语义增强空间的模态独立检索方法，其特征在于，所述图像检索文本投影矩阵模型为：

7.如权利要求3所述的一种基于中级文本语义增强空间的模态独立检索方法，其特征在于，所述文本检索图像投影矩阵模型为：

8.如权利要求6或7所述的一种基于中级文本语义增强空间的模态独立检索方法，其特征在于，所述求解图像检索文本投影矩阵模型或文本检索图像投影矩阵模型包括：固定文本投影矩阵求解图像投影矩阵；固定图像投影矩阵求解文本投影矩阵。

9.一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-8任一项所述的基于中级文本语义增强空间的模态独立检索方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8任一项所述的基于中级文本语义增强空间的模态独立检索方法。