CN110442736A

CN110442736A - 一种基于二次判别分析的语义增强子空间跨媒体检索方法

Info

Publication number: CN110442736A
Application number: CN201910759436.1A
Authority: CN
Inventors: 刘新亮; 陈念; 高彦平; 洪坤明; 高圣乔; 张腾
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2019-08-16
Filing date: 2019-08-16
Publication date: 2019-11-12
Anticipated expiration: 2039-08-16
Also published as: CN110442736B

Abstract

一种基于二次判别分析的语义增强子空间跨媒体检索方法，包括：提取图像和文本数据的原始特征表示，构建相应的训练数据集和测试数据集；通过二次判别分析分别建立图像和文本数据的语义增强子空间，分别计算图像和文本数据的相似性矩阵；根据图像和文本数据的语义增强子空间，将其相似性矩阵通过一个映射模型投影到一个公共语义子空间，在公共语义子空间中通过相似性度量的方法计算图像文本对之间的相似性矩阵；通过训练数据集分别求出图像检索文本和文本检索图像对应的映射矩阵参数；基于图像检索文本和文本检索图像对应的映射矩阵参数，运用测试集进行图像检索文本和文本检索图像的跨媒体检索。

Description

一种基于二次判别分析的语义增强子空间跨媒体检索方法

技术领域

本发明属于跨媒体检索技术领域，尤其涉及一种基于二次判别分析的语义增强子空间跨媒体检索方法。

背景技术

随着互联网信息技术的不断发展，多媒体信息资源呈现爆发性增长，多媒体表现形式也越来越丰富，从单一的文本形式已经扩展到包含文本、图像、视频、音频和3D模型等多种表现形式。由于不同类型的多媒体数据之间会表达同一种语义类别，因此人们可以通过一种类型的媒体数据查询到具有相同语义的其他数据，实现跨媒体检索。当前机器学习理论飞速发展，使跨媒体检索方法得到极大的提升，而如何提高跨媒体检索准确性成为当今亟需解决的问题。跨媒体检索方法从最初的基于关键字标签的搜索方法，通过对多媒体数据进行关键字标注，然后根据关键字查询相关数据，像当今的百度、谷歌等公司采用的就是基于关键字的搜索，但由于关键字标签需要耗费大量的人力和时间，易受外界因素干扰，降低跨媒体检索的准确性。于是产生了基于内容的搜索方法，通过提取数据的底层特征，加以分析和变换，找到最具代表媒体数据的特征，通过相似性度量等方法进行跨媒体检索，然而这种方法在特征转换过程中会造成大量的语义信息丢失，降低跨媒体检索的准确性。于是目前产生了基于语义的搜索方法，通过提取数据的底层特征，将特征映射到公共子空间中，在公共子空间中运用相似性度量等方法计算不同类型媒体数据之间的相关性，目前基于语义的检索方法在特征的映射过程中会造成语义信息的丢失，降低检索的准确性。

由于不同类型的媒体数据之间存在着“异构鸿沟”的问题，为解决这个问题，在处理图像和文本的检索任务中，很多已有的研究都采用子空间学习的方法。

由于图像和文本数据之间包含着大量的杂乱信息，传统的子空间学习方法无法有效的对图像特征和文本特征进行区分来改善检索结果。

发明内容

本发明针对上述问题：为克服现有技术的不足，本发明提供一种基于二次判别分析的语义增强子空间跨媒体检索方法，本方法分别提供图像和文本的语义增强子空间，并采用文本检索图像和图像检索文本来学习映射模型，极大的提高了检索的准确率。

为实现上述目的，提出本发明的技术方案：一种基于二次判别分析的语义增强子空间跨媒体检索方法，用于解决跨媒体检索映射过程中语义信息丢失的问题，并加强图像和文本特征之间的区分度。应用二次判别分析的方法训练图像和文本的语义增强子空间，并采用文本检索图像和图像检索文本来学习映射模型，减少语义信息的丢失，提高跨媒体检索准确性的目的。

本发明的技术方案包括：提取图像和文本数据的原始特征表示，获取图像和文本的训练集和测试集；根据二次判别分析建立图像和文本的语义增强子空间，图像和文本在其子空间中计算其相似性矩阵；根据所述的图像和文本数据的语义增强子空间，将其相似性矩阵通过一个映射模型投影到一个公共语义子空间，在公共语义子空间中通过相似性度量的方法计算图像文本对之间的相似性矩阵；通过训练数据集分别求出图像检索文本和文本检索图像对应的映射矩阵参数；基于图像检索文本和文本检索图像对应的映射矩阵参数，运用测试集进行图像检索文本和文本检索图像的跨媒体检索。

具体步骤如下：

(1)采用CNN卷积神经网络提取图像原始特征表示，采用主题特征提取方法提取文本数据的原始特征表示：设有n组训练数据，其图像特征表示为I＝{i₁,i₂,i₃....,i_n}，其文本特征表示为T＝{t₁,t₂,t₃....,t_n}；

(2)在文本语义增强子空间中根据每个类文本特征和所有文本特征的均值，计算文本特征的类内散度矩阵和总体散度矩阵，将文本的类内散度矩阵和类间散度矩阵代入二次判别分析公式，得到文本的二次判别分析的目标函数，运用文本的二次判别分析的目标函数，计算文本的相似性矩阵X_T；

在图像语义增强子空间中根据每个类图像特征和所有图像特征的均值，计算图像特征的类内散度矩阵和总体散度矩阵，将图像的类内散度矩阵和类间散度矩阵代入二次判别分析公式，得到图像的二次判别分析的目标函数，运用图像的二次判别分析的目标函数，计算图像的相似性矩阵Y_I；

(3)建立图像检索文本和文本检索图像的映射矩阵，将图像和文本的相似性矩阵投影到一个公共语义子空间，在公共语义子空间中通过相似性度量的方法计算图像文本对之间的相似性矩阵；

(4)文本检索图像的映射模型为：

其中X_T为文本的相似性矩阵，Y_I为图像的相似性矩阵，U₁为文本的映射矩阵，V₁为图像的映射矩阵，λ、α、β为正则化参数，Ψ^a _T代表文本的类内散度矩阵，Ψ^b _T代表文本的总体散度矩阵。

(5)图像检索文本的映射模型为：

其中X_T为文本的相似性矩阵，Y_I为图像的相似性矩阵，U₂为文本的映射矩阵，V₂为图像的映射矩阵，λ、α、β为正则化参数，Ψ^a _I代表图像的类内散度矩阵，Ψ^b _I代表文本的总体散度矩阵。

(6)通过训练数据集分别求出图像检索文本和文本检索图像对应的映射矩阵参数。

(7)基于图像检索文本和文本检索图像对应的映射矩阵参数，运用测试集进行图像检索文本和文本检索图像的跨媒体检索。

本发明与现有跨媒体检索方法相比的优点在于：

(1)本发明通过利用二次判别分析的方法分别建立图像语义增强子空间和文本语义增强子空间，并根据不同的检索任务训练不同的映射模型，将图像和文本特征投影到一个公共语义子空间，进行图像文本对之间相关性计算。该方法使图像和文本数据之间的噪音影响更低，提高图像和文本特征之间的区分度，减少映射过程中的语义信息丢失，提高跨媒体检索的准确性。

附图说明

图1为本发明中基于二次判别分析的语义增强子空间跨媒体检索方法的流程图；

图2是本发明中训练映射矩阵模型的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明进行描述。其中，附图1描述了基于二次判别分析的子空间语义增强跨媒体检索方法处理过程。

如图1所示，本发明具体的实现步骤：

(1)提取图像和文本数据的原始特征表示，获取图像和文本的训练集和测试集，具体包括：输入图像和文本数据集，提取图像和文本数据的原始特征表示，图像的原始特征矩阵表示为I＝[i₁,i₂,i₃,....i_n]∈R^n×p，其中i_i表示每一个图像样本的原始特征向量，p为图像特征表示的维度，文本的原始特征矩阵表示为T＝[t₁,t₂,t₃,....t_n]∈R^n×q，其中T_i表示每一个图像样本的原始特征向量，q为文本特征表示的维度。n为样例个数，R表示图像或者文本的维度矩阵，设数据集有k个类别，S＝[s₁,s₂,s₃,....s_n]∈R^n×k是语义类别矩阵。设文本的映射矩阵为U∈R^k×q，图像的映射矩阵为V∈R^k×p。将数据集的70％样本作为训练，30％样本作为测试。

(2)创建图像和文本的语义增强子空间，包括：计算第i类中图像特征的均值，计算所有图像特征的均值，计算图像特征的类内散度矩阵和类间散度矩阵；计算第j类中文本特征的均值，计算所有文本特征的均值，计算文本特征的类内散度矩阵和总体散度矩阵。

w_i表示第i类图像特征的均值，w表示图像特征的总体均值，n表示样本总数，Ω_i表示第i个类别，P(Ω_i)表示属于该类别的概率，I为每一个图像样本。则图像的类内散度矩阵Ψ^a _I和总体散度矩阵Ψ^b _I分别表示为：

m_j表示第j类文本特征的均值，m表示文本特征的总体均值，n表示样本总数，Ω_j表示第j个类别，P(Ω_j)表示属于该类别的概率，T为每一个文本样本。则文本的类内散度矩阵Ψ^a _T和总体散度矩阵Ψ^b _T分别表示为：

分别将图像和文本的类内散度矩阵和总体散度矩阵代入二次判别分析的公式，得到图像和文本特征的目标函数如下所示：

根据图像和文本特征的目标函数计算得出文本和图像的相关性矩阵X_T、Y_I。

(3)建立图像和文本特征的映射模型，将图像和文本特征投影到一个公共语义子空间，在公共语义子空间中通过相似性度量的方法计算图像文本对之间的相似性矩阵Ω，其中包括：用于在子空间学习中确保图像文本对的相关项；用于提升文本特征或图像特征判别的正则化项；用于针对不同的检索任务学习映射矩阵的线性投影项；用于控制映射矩阵的正则化项，防止训练过程中数据过拟合。

用于在子空间学习中确保图像文本对的相关项：

用于提升文本特征或图像特征判别的正则化项：

用于针对不同的检索任务学习映射矩阵的线性投影项：

Q(U,V)＝α(tr(U^TX_TU)-tr(V^TY_IV)+2tr(U^TX_TY_IV))

用于控制映射矩阵的正则化项：

通过以上分析，得到关于U和V的最优化问题：

min F(U,V)＝L(U,V)+Q(U,V)+R(U,V)+R(U,V)

以此可以得到文本检索图像的映射模型：

图像检索文本的映射模型：

通过映射模型将图像和文本特征投影到一个公共语义子空间，运用欧氏距离计算图片文本对的相关性，得到图像文本对的相似性矩阵Ω：

(t_i,i_i)表示第i对具有相同语义的图像文本特征。

(4)对文本检索图像映射模型和图像检索文本映射模型分别输入训练集进行训练。具体的训练过程包括：

输入训练样本的特征矩阵和语义类别矩阵；设置迭代过程的步长，设置收敛条件，初始化投影矩阵，初始化参数；计算图像和文本在语义增强子空间中的相似性矩阵和映射矩阵；在公共语义子空间中计算；优化映射模型，执行文本检索图像和图像检索文本；更新权重，重复映射模型优化步骤，直至映射模型收敛。

(5)输入测试集，进行测试。采用总平均精确度MAP值用来评价跨媒体检索的性能。计算公式如下：

n表示返回样本的数量，R表示相关样本的数量，R_k表示返回相关k结果的数量，rel(k)表示如果第k个样本相关，rel(k)＝1，否则rel(k)＝0；N表示被检索集里样本数量，h_i表示查询的样本。

Claims

1.一种基于二次判别分析的语义增强子空间跨媒体检索方法，其特征在于，所述包括以下步骤：

(1)提取图像和文本数据的原始特征表示，获取图像和文本的训练集和测试集：利用CNN深度卷积神经网络提取图像的原始特征向量，利用主题特征提取方法提取文本特征向量；

(2)根据二次判别分析建立图像和文本的语义增加子空间，图像和文本在其子空间中计算其相似性矩阵；

(3)根据所述的图像和文本数据的语义增强子空间，将其相似性矩阵通过一个映射模型投影到一个公共语义子空间，在公共语义子空间中通过相似性度量的方法计算图像文本对之间的相似性矩阵；

(4)通过训练数据集分别求出图像检索文本和文本检索图像对应的映射矩阵参数；

(5)基于图像检索文本和文本检索图像对应的映射矩阵参数，运用测试集进行图像检索文本和文本检索图像的跨媒体检索。

2.根据权利要求1所述的基于二次判别分析的语义增强子空间跨媒体检索方法，其特征在于：所述步骤(1)中，分别提取图像和文本数据的特征表示：设有n组训练数据，其图像特征表示为I＝{i₁,i₂,i₃....,i_n}，其文本特征表示为T＝{t₁,t₂,t₃....,t_n}。

3.根据权利要求1所述的基于二次判别分析的语义增强子空间跨媒体检索方法，其特征在于：在步骤(2)中，所述的图像语义增强子空间和文本语义增强子空间的建立方法包括：

在文本语义增强子空间中根据每个类文本特征和所有文本特征的均值，计算文本特征的类内散度矩阵和总体散度矩阵，将文本的类内散度矩阵和总体散度矩阵代入二次判别分析公式，得到文本的二次判别分析的目标函数，运用文本的二次判别分析的目标函数，计算文本的相似性矩阵X_T；

在图像语义增强子空间中根据每个类图像特征和所有图像特征的均值，计算图像特征的类内散度矩阵和总体散度矩阵，将图像的类内散度矩阵和总体散度矩阵代入二次判别分析公式，得到图像的二次判别分析的目标函数，运用图像的二次判别分析的目标函数，计算图像的相似性矩阵Y_I。

4.根据权利要求1所述的基于二次判别分析的语义增强子空间跨媒体检索方法，其特征在于：在步骤(3)中，所述映射模型包括：

用于在子空间学习中确保图像文本对的相关项；

用于提升文本特征或图像特征判别的正则化项，采用二次判别分析的目标函数；

用于针对不同的检索任务学习映射矩阵的线性投影项；

用于控制映射矩阵的正则化项；

设语义类别矩阵为S；

相似性度量采用欧式距离计算。

5.根据权利要求1所述的基于二次判别分析的语义增强子空间跨媒体检索方法，其特征在于，所述的文本检索图像映射模型为：

6.根据权利要求1所述的基于二次判别分析的语义增强子空间跨媒体检索方法，其特征在于，所述的图像检索文本映射模型为：

7.根据权利要求5或6所述的基于二次判别分析的语义增强子空间跨媒体检索方法，其特征在于：所述文本检索图像映射模型，通过固定文本投影矩阵求解图像投影矩阵；所述图像检索文本映射模型，通过固定图像投影矩阵求解文本投影矩阵。