CN108388639B

CN108388639B - 一种基于子空间学习与半监督正则化的跨媒体检索方法

Info

Publication number: CN108388639B
Application number: CN201810159590.0A
Authority: CN
Inventors: 张鸿; 代刚
Original assignee: Wuhan University of Science and Engineering WUSE
Current assignee: Wuhan University of Science and Engineering WUSE
Priority date: 2018-02-26
Filing date: 2018-02-26
Publication date: 2022-02-15
Anticipated expiration: 2038-02-26
Also published as: CN108388639A

Abstract

本发明提供一种基于子空间学习与半监督正则化的跨媒体检索方法，其特征在于，包括步骤：步骤一，建立多媒体数据库，收集多媒体原始数据；提取多媒体数据的特征；保存多媒体数据的特征向量和原始数据；步骤二，获得不同媒体类型的投影矩阵，定义最优化目标函数；利用迭代方法求解最优化目标函数；投影多媒体数据的特征向量到共同空间；步骤三，进行跨媒体检索，提取用户提交的媒体数据的特征；投影该媒体数据的特征向量到共同空间中；计算该投影后的向量与共同空间中的其他向量之间的相似度；返回与之相似度最大的前k个特征向量所对应媒体数据。本发明所提供的跨媒体检索方法，检索的结果更加准确。

Description

一种基于子空间学习与半监督正则化的跨媒体检索方法

技术领域

本发明涉及一种基于子空间学习与半监督正则化的跨媒体检索方法，属于数据检索领域。

背景技术

随着多媒体技术和网络技术的高速发展，文本，图像，音频，视频和3D等非结构化异构多媒体内容迅速涌入互联网，使得跨媒体检索变得尤其重要。跨媒体检索指的是不同媒体数据之间的相互检索，这使得检索具有丰富性和多彩性，更好地满足用户希望提交任意一种媒体数据来检索出具有相同语义的各种类型(相同类型或不同类型)媒体数据的需求。

目前，越来越多的国内外学者致力于研究跨媒体检索，所提出的方法大致可归纳为以下几类：深度学习、概率模型、度量学习方法、子空间学习方法等。然而在跨媒体检索中运用子空间学习方法主要是为不同模态学习一个共同的空间，它的做法是将不同模态空间的特征投影到多模态共同空间，并获得跨媒体相似性度量的共同表征。这种方法的优势在于简单明了，适用于任何多种媒体数据之间的检索。缺点是：现有跨媒体检索方法中大多局限于两种媒体之间的检索，以及存在着构造近邻图的过程中计算权值矩阵过于繁琐的问题。

这些传统的检索方法只集中在相同媒体或两种媒体数据之间的检索，这忽视了多种媒体数据之间存在着语义一致性和互补关系。因此设计一种跨媒体检索方法满足两种或两种以上的媒体数据之间相互检索变得更有意义。

发明内容

本发明的目的在于提供一种基于子空间学习与半监督正则化的跨媒体检索方法，以解决上述问题。

本发明采用了如下技术方案：

一种基于子空间学习与半监督正则化的跨媒体检索方法，其特征在于，包括步骤：

步骤一，建立多媒体数据库，

收集多媒体原始数据；提取多媒体数据的特征；保存多媒体数据的特征向量和原始数据；

步骤二，获得不同媒体类型的投影矩阵，

定义最优化目标函数；利用迭代方法求解最优化目标函数；投影多媒体数据的特征向量到共同空间；

步骤三，进行跨媒体检索，

提取用户提交的媒体数据的特征；投影该媒体数据的特征向量到共同空间中；计算该投影后的向量与共同空间中的其他向量之间的相似度；返回与之相似度最大的前k个特征向量所对应媒体数据。

本发明的基于子空间学习与半监督正则化的跨媒体检索方法，还具有这样的特征：

其中，步骤二中，定义最优化目标函数的方法如下：

最优化目标函数包括四个组成部分，最优化目标函数的第一个组成部分：

其中，

表示第i种媒体的有标签数据的特征向量构成的矩阵，其中

是第i种媒体的第p个样本数据的特征向量，n⁽ⁱ⁾是第i种媒体有标签数据的数量，d⁽ⁱ⁾是第i种媒体的每个样本数据对应的特征向量的维度；

是第i种媒体类型的投影矩阵；

表示第i种媒体有标签数据对应的标签向量构成的矩阵，c为多媒体数据库中语义类别的数量，

是第i种媒体的第p个样本数据所对应的标签向量，s是多媒体数据库中媒体类型的数量，α是一个正的常量参数，||Z||_F是矩阵Z的Frobenius范数，

最优化目标函数的第二个组成部分，该部分的第一项由不同媒体数据中相同语义类别数据之间的欧式距离组成，该部分的第二项由不同媒体数据中不同语义类别数据之间的欧式距离组成，第二个组成部分定义如下：

其中

和

是第i种媒体和第j种媒体中包含mij对有着相同标签数据的特征向量构成的矩阵，

和

是第i种媒体和第j种媒体中包含dij对有着不同标签数据的特征向量构成的矩阵，ε和μ为两个正的常量参数，用来平衡式(2)，如果将式(2)最小化，则是在最小化不同媒体数据中相同语义类别数据之间的欧式距离并且最大化不同媒体数据中不同语义类别数据之间的欧式距离，

最优化目标函数的第三个组成部分，在给出第三个组成部分之前，先构建跨媒体近邻图，对于每种媒体，分别构建它们的近邻图，并且构建近邻图的方式是一样的，对于每种媒体，用G⁽ⁱ⁾＝(V⁽ⁱ⁾,E⁽ⁱ⁾)表示第i种媒体的近邻图，V⁽ⁱ⁾表示第i种媒体近邻图中的顶点，这些顶点由在多媒体数据库中第i种媒体有标签和无标签数据通过投影获得的投影向量构成，并且一个投影向量表示一个顶点，每种媒体数据投影向量的维度是相同的，E⁽ⁱ⁾表示这些顶点的边，

计算跨媒体近邻图G⁽ⁱ⁾＝(V⁽ⁱ⁾,E⁽ⁱ⁾)对应的权重矩阵

其中

中的i表示第i种媒体，p表示权重矩阵W⁽ⁱ⁾的第p行，q表示权重矩阵W⁽ⁱ⁾的第q列，

表示第i种媒体对应的权重矩阵W⁽ⁱ⁾的第p行、第q列上的元素值，

的定义如下：

其中

表示第i种媒体的第q个样本数据的特征向量的投影向量，

表示

的k近邻，

接着给出最优化目标函数的第三个组成部分，该项考虑了在多媒体数据库中有标签和无标签媒体数据投影点的近邻关系，定义如下：

其中，a(i)＝n⁽ⁱ⁾+m⁽ⁱ⁾为多媒体数据库中第i种媒体有标签和无标签数据的数量，

是一个图的归一化拉普拉斯矩阵，I是一个单位矩阵，D⁽ⁱ⁾是一个对角矩阵且对角线上的元素值为权重矩阵W⁽ⁱ⁾相应行上的元素值之和，

为D⁽ⁱ⁾对角线上的第p个元素值，

是由第i种媒体有标签和无标签数据投影后的向量组成，

是由第i种媒体的有标签数据和无标签数据的特征向量组成，tr(Z)表示矩阵Z的迹，λ是一个正的常量参数，

最优化目标函数的第四个组成部分，该项为避免过拟合的正则化项，定义如下：

其中P⁽ⁱ⁾为第i种媒体类型的投影矩阵，β为正则化项的参数，

介绍完最优化目标函数的四大组成部分，那么将这四大组成部分结合起来构成最优化目标函数，如下：

式(6)是由式(1)、(2)、(4)、(5)组合而成，求解式(6)获得每种媒体最优的投影矩阵P⁽ⁱ⁾(i＝1,2,...,s)，将公式(6)中的式子记为Ω，直接用Ω对P⁽ⁱ⁾求偏导并让其置为0，得到如下结果：

然后将式(7)的等式整理获得如下：

接着通过迭代的方法找到最优的投影矩阵P⁽ⁱ⁾(i＝1,2,...,s)。

步骤二中，利用迭代方法求解最优化目标函数的方法如下：

首先将多媒体数据库中有标签数据和无标签数据的特征向量进行归一化，然后利用随机矩阵初始化

并且设置t＝0和设置最大迭代次数，更新投影矩阵的等式如下：

这里反复计算式(9)，每次迭代后t＝t+1，当两次迭代的改变率低于某个阈值(如0.001)或达到最大迭代次数时迭代终止，此时的P⁽ⁱ⁾(i＝1,2,…,s)即为最优化目标函数的最优解，这就是使最优化目标函数最小时的最优的投影矩阵。

本发明的基于子空间学习与半监督正则化的跨媒体检索方法，还具有这样的特征：步骤二中，投影多媒体数据的特征向量到共同空间的方法如下：

使用最优的投影矩阵投影多媒体数据的特征向量到共同空间，根据媒体类型使用相应的投影矩阵，对于多媒体数据库中第i种媒体类型的一个特征向量

利用第i个投影矩阵

来投影，投影后的向量为

c为多媒体数据库中语义类别的数目，最后不同媒体类型投影后的向量的维度是相同的且为c维，但分别保存各种媒体类型投影后的向量。

步骤三中，提取用户提交的媒体数据的特征的方法如下：

根据媒体的类型使用相应的模型提取出用户提交的媒体数据的特征。

步骤三中，投影该媒体数据的特征向量到共同空间中；

对于该媒体数据的特征向量，投影到共同空间中为向量，则此向量就是共同空间中的一个向量。

步骤三中，计算该投影后的向量与共同空间中的其他向量之间的相似度的方法如下：

共同空间中任意两个向量之间相似度的公式定义如下：

其中r_p代表向量

的标签,r_q代表向量

的标签,

表示向量

属于语义类别l的概率，c表示多媒体数据库中语义类别的数目，其中

定义如下：

表示在共同空间中向量

的k近邻，r代表投影数据点o所属的类别，σ(z)＝(1+exp(-z))^-1是Sigmoid函数，在实际运用中，用户一般希望指定某种媒体类型数据返回，那么则根据此公式计算出该投影后的向量与在共同空间中用户指定的媒体类型数据的投影向量之间的相似度，用排序函数按相似度值降序排序，保存相似度值和对应的索引向量，方便之后返回。

步骤三中，返回与之相似度最大的前k个特征向量所对应媒体数据的过程如下，

返回之前获得的索引向量的前k个元素的值，由于原始数据的特征向量的索引值与投影后的向量的索引值是相同的，即投影前的特征向量在由这些特征向量组成的矩阵中的位置与投影后的向量在由这些向量组成的矩阵中的位置是相同的，而这k个元素的值就是原始数据的特征向量的索引值，即位置，由之前建立的索引表找到对应的原始数据，返回这k个原始数据给用户。

发明的有益效果

与现有技术相比，本发明的优势在于：

(1)本发明的方法同时考虑在不同媒体类型中相同语义类别媒体数据之间的相似度和不同语义类别媒体数据之间的差异性。

(2)本发明的方法利用的半监督学习方法吸收了有标签数据和无标签数据，并使用了近邻图来表示投影数据点的分布信息，结合了k近邻思想迫使投影数据点的k近邻靠的更近。

(3)本发明的方法利用了每种媒体类型有标签数据的标签信息，再加上近邻图中k近邻的使用，使得每个媒体数据的投影向量不仅紧靠它的标签向量，而且紧靠它的k近邻，这样每个媒体数据的投影向量和它的k近邻都紧靠它的标签向量，而标签向量本质上是语义类别的向量，这样检索会更加准确。

附图说明

图1是本发明的一种基于子空间学习与半监督正则化的跨媒体检索方法流程图；

图2是本发明的实施例中所采用检索方法的搜索结果。

具体实施方式

以下结合附图来说明本发明的具体实施方式。

如图1所示，基于子空间学习与半监督正则化的跨媒体检索方法，包括如下步骤：

步骤(1)建立多媒体数据库，包括如下步骤：

(1.1)收集多媒体原始数据：每种媒体类型都要收集大量的媒体数据，也可以使用公开的数据集，如维基百科数据集，但这个数据集只有图像和文本数据。

(1.2)提取多媒体数据的特征：采用合适的方法分别提取每种媒体类型数据的特征。可以采用多种特征提取类的函数对特征进行提取。

(1.3)保存多媒体数据的特征向量和原始数据：根据不同媒体类型来分别保存每种媒体类型数据的特征向量和原始数据，保存原始数据时给每个原始数据取一个名称且不重复，此名称实质是文件名，并将提取出的特征向量与原始数据一一对应，最好每种媒体类型数据建立一个索引表，可以让一个整数对应一个原始数据的名称，方便以后根据特征向量的索引值先找到原始数据的名称，再通过此名称来读取出原始数据。

步骤(2)获得不同媒体类型的投影矩阵，包括如下步骤：

(2.1)定义最优化目标函数；

先分别介绍最优化目标函数的四大组成部分，给出最优化目标函数的第一个组成部分(标签损失项)：

其中，

表示第i种媒体的有标签数据的特征向量构成的矩阵，其中

是第i种媒体类型的投影矩阵；

是第i种媒体的第p个样本数据所对应的标签向量，s是多媒体数据库中媒体类型的数量，α是一个正的常量参数，||Z||_F是矩阵Z的Frobenius范数。

接着，给出最优化目标函数的第二个组成部分，该部分的第一项由不同媒体数据中相同语义类别数据之间的欧式距离组成，该部分的第二项由不同媒体数据中不同语义类别数据之间的欧式距离组成。第二个组成部分定义如下：

其中

和

和

是第i种媒体和第j种媒体中包含dij对有着不同标签数据的特征向量构成的矩阵。ε和μ为两个正的常量参数，用来平衡式(2)。如果将式(2)最小化，则是在最小化不同媒体数据中相同语义类别数据之间的欧式距离并且最大化不同媒体数据中不同语义类别数据之间的欧式距离。

然后，给出最优化目标函数的第三个组成部分，在给出第三个组成部分之前，先构建跨媒体近邻图，对于每种媒体，分别构建它们的近邻图，并且构建近邻图的方式是一样的。对于每种媒体，用G⁽ⁱ⁾＝(V⁽ⁱ⁾,E⁽ⁱ⁾)表示第i种媒体的近邻图，V⁽ⁱ⁾表示第i种媒体近邻图中的顶点，这些顶点由在多媒体数据库中第i种媒体有标签和无标签数据通过投影获得的投影向量构成，并且一个投影向量表示一个顶点，每种媒体数据投影向量的维度是相同的，E⁽ⁱ⁾表示这些顶点的边。

其中

表示第i种媒体对应的权重矩阵W⁽ⁱ⁾的第p行、第q列上的元素值。

的定义如下：

其中

表示第i种媒体的第q个样本数据的特征向量的投影向量，

表示

的k近邻。

接着给出最优化目标函数的第三个组成部分，该项考虑了在多媒体数据库中有标签和无标签媒体数据投影点(即投影向量)的近邻关系，定义如下：

为D⁽ⁱ⁾对角线上的第p个元素值，

是由第i种媒体有标签和无标签数据投影后的向量组成，

是由第i种媒体的有标签数据和无标签数据的特征向量组成，tr(Z)表示矩阵Z的迹，λ是一个正的常量参数。

然后给出最优化目标函数的第四个组成部分，该项为避免过拟合的正则化项，定义如下：

其中P⁽ⁱ⁾为第i种媒体类型的投影矩阵，β为正则化项的参数。

式(6)是由式(1)、(2)、(4)、(5)组合而成，求解式(6)获得每种媒体最优的投影矩阵P⁽ⁱ⁾(i＝1,2,...,s)。将公式(6)中的式子记为Ω，直接用Ω对P⁽ⁱ⁾求偏导并让其置为0，得到如下结果：

将式(7)整理得到如下：

(2.2)利用迭代方法求解最优化目标函数：首先将多媒体数据库中有标签数据和无标签数据的特征向量进行归一化，然后利用随机矩阵初始化

并且设置t＝0和设置最大迭代次数。图的拉普拉斯矩阵如下：

注意每次计算的W⁽ⁱ⁾矩阵是不同的，因为W⁽ⁱ⁾矩阵定义如下：

其中

由于每次迭代的P⁽ⁱ⁾矩阵在更新后变化了，所以

也随着变化，

随着变化(即W⁽ⁱ⁾矩阵变化)。而D⁽ⁱ⁾是一个对角矩阵且对角线上的元素值为权重矩阵W⁽ⁱ⁾相应行上的元素值之和，则D⁽ⁱ⁾也随着变化，那么根据式(12)可知，

会随着变化，也就是

会随着迭代次数t而改变。更新投影矩阵的等式如下：

这里反复计算式(9)，每次迭代后t＝t+1。当两次迭代的改变率低于某个阈值(如0.001)或达到最大迭代次数时迭代终止，此时的P⁽ⁱ⁾(i＝1,2,…,s)即为最优化目标函数的最优解，这就是使最优化目标函数最小时的最优的投影矩阵。

(2.3)投影多媒体数据的特征向量到共同空间：使用前面得到的最优的投影矩阵投影多媒体数据的特征向量到共同空间，根据媒体类型使用相应的投影矩阵，对于多媒体数据库中第i种媒体类型的一个特征向量

利用第i个投影矩阵

来投影，投影后的向量为

c为多媒体数据库中语义类别的数目。最后不同媒体类型投影后的向量的维度是相同的且为c维，但分别保存各种媒体类型投影后的向量。

步骤(3)进行跨媒体检索，包括如下步骤：

(3.1)提取用户提交的媒体数据的特征：根据媒体的类型使用相应的模型提取出用户提交的媒体数据的特征向量。一般会提前用多媒体数据集的每种媒体类型数据分别训练出相应媒体类型的特征提取的模型。

(3.2)投影该媒体数据的特征向量到共同空间中：对于该媒体数据的特征向量

投影到共同空间中为向量

则此向量

就是共同空间中的一个向量。

(3.3)计算该投影后的向量与共同空间中的其他向量之间的相似度：共同空间中任意两个向量之间相似度的公式定义如下：

其中r_p代表向量

的标签,r_q代表向量

的标签,

表示向量

属于语义类别l的概率，c表示多媒体数据库中语义类别的数目。其中

定义如下：

表示在共同空间中向量

的k近邻，r代表投影数据点o所属的类别，σ(z)＝(1+exp(-z))^-1是Sigmoid函数。在实际运用中，用户一般希望指定某种媒体类型数据返回，那么则根据此公式计算出该投影后的向量与在共同空间中用户指定的媒体类型数据的投影向量之间的相似度，用排序函数按相似度值降序排序，保存相似度值和对应的索引向量，方便之后返回。

(3.4)返回与其相似度最大的前k个特征向量所对应媒体数据：返回之前获得的索引向量的前k个元素的值，由于原始数据的特征向量的索引值与投影后的向量的索引值是相同的，即投影前的特征向量在由这些特征向量组成的矩阵中的位置与投影后的向量在由这些向量组成的矩阵中的位置是相同的，而这k个元素的值就是原始数据的特征向量的索引值，即位置，由之前建立的索引表找到对应的原始数据，返回这k个原始数据给用户。

下面通过具体实施例来进一步说明。

(1)建立多媒体数据库；

这里使用公开的维基百科数据集，这个数据集只有图像和文本数据，并且用维基百科数据集中最受欢迎的10个类别，包括以下10个不同的语义类别：艺术、生物、地理、历史、文献、媒体、音乐、王权、运动、战争，这总共包括2866对成组的图像和文本，即有2866张图片和2866个文本，其中训练集有2173对成组的图像和文本，测试集有693对成组的图像和文本。

对于这个维基百科数据集，每幅图像提取4096维的卷积神经网络CNN特征，每个文本提取3000维的词袋(Bag ofWords)特征。

分别保存此数据集的图像和文本数据的特征向量和原始数据，并将提取出的特征向量与原始数据一一对应，最好分别建立图像和文本数据的索引表，方便以后直接根据特征向量的索引值找到其原始数据。

(2)获得不同媒体类型的投影矩阵：

并且设置t＝0和设置最大迭代次数为15。然后根据公式(9)来进行迭代，每次迭代后t＝t+1。当两次迭代的改变率低于0.001或达到最大迭代次数15时迭代终止，此时的P⁽ⁱ⁾(i＝1,2,…,s)即为最优化目标函数的最优解，这就是使最优化目标函数最小时的最优的投影矩阵。

(3)进行跨媒体检索

当用户提交一个类别为“地理”的文本为查询样例进行跨媒体检索时，提取用户提交的此文本查询样例的特征，投影该查询样例的特征向量到共同空间中，然后根据公式(10)计算该投影后的向量与共同空间中的其他向量之间的相似度，返回与其相似度最大的前k个特征向量所对应媒体数据给用户。这里k取12。

结果如图2所示，在返回的12个图像中有10个是“地理”类别的图像，没加边框的图像表示它的类别与查询样例类别相同，加了黑色框线的图像表示它的类别与查询样例类别不同，其中左侧的加黑色框线图像的类别在此实验数据集中被划分为“历史”,右侧的加黑色框线图像的类别在此实验数据集中被划分为“战争”,12个检索结果中只有2个错误，说明此检索方法能够较为准确地度量跨媒体相似度，能取得较好的检索效率。