CN108388639B - 一种基于子空间学习与半监督正则化的跨媒体检索方法 - Google Patents

一种基于子空间学习与半监督正则化的跨媒体检索方法 Download PDF

Info

Publication number
CN108388639B
CN108388639B CN201810159590.0A CN201810159590A CN108388639B CN 108388639 B CN108388639 B CN 108388639B CN 201810159590 A CN201810159590 A CN 201810159590A CN 108388639 B CN108388639 B CN 108388639B
Authority
CN
China
Prior art keywords
media
data
vector
matrix
ith
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810159590.0A
Other languages
English (en)
Other versions
CN108388639A (zh
Inventor
张鸿
代刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Science and Engineering WUSE
Original Assignee
Wuhan University of Science and Engineering WUSE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Science and Engineering WUSE filed Critical Wuhan University of Science and Engineering WUSE
Priority to CN201810159590.0A priority Critical patent/CN108388639B/zh
Publication of CN108388639A publication Critical patent/CN108388639A/zh
Application granted granted Critical
Publication of CN108388639B publication Critical patent/CN108388639B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于子空间学习与半监督正则化的跨媒体检索方法,其特征在于,包括步骤:步骤一,建立多媒体数据库,收集多媒体原始数据;提取多媒体数据的特征;保存多媒体数据的特征向量和原始数据;步骤二,获得不同媒体类型的投影矩阵,定义最优化目标函数;利用迭代方法求解最优化目标函数;投影多媒体数据的特征向量到共同空间;步骤三,进行跨媒体检索,提取用户提交的媒体数据的特征;投影该媒体数据的特征向量到共同空间中;计算该投影后的向量与共同空间中的其他向量之间的相似度;返回与之相似度最大的前k个特征向量所对应媒体数据。本发明所提供的跨媒体检索方法,检索的结果更加准确。

Description

一种基于子空间学习与半监督正则化的跨媒体检索方法
技术领域
本发明涉及一种基于子空间学习与半监督正则化的跨媒体检索方法,属于数据检索领域。
背景技术
随着多媒体技术和网络技术的高速发展,文本,图像,音频,视频和3D等非结构化异构多媒体内容迅速涌入互联网,使得跨媒体检索变得尤其重要。跨媒体检索指的是不同媒体数据之间的相互检索,这使得检索具有丰富性和多彩性,更好地满足用户希望提交任意一种媒体数据来检索出具有相同语义的各种类型(相同类型或不同类型)媒体数据的需求。
目前,越来越多的国内外学者致力于研究跨媒体检索,所提出的方法大致可归纳为以下几类:深度学习、概率模型、度量学习方法、子空间学习方法等。然而在跨媒体检索中运用子空间学习方法主要是为不同模态学习一个共同的空间,它的做法是将不同模态空间的特征投影到多模态共同空间,并获得跨媒体相似性度量的共同表征。这种方法的优势在于简单明了,适用于任何多种媒体数据之间的检索。缺点是:现有跨媒体检索方法中大多局限于两种媒体之间的检索,以及存在着构造近邻图的过程中计算权值矩阵过于繁琐的问题。
这些传统的检索方法只集中在相同媒体或两种媒体数据之间的检索,这忽视了多种媒体数据之间存在着语义一致性和互补关系。因此设计一种跨媒体检索方法满足两种或两种以上的媒体数据之间相互检索变得更有意义。
发明内容
本发明的目的在于提供一种基于子空间学习与半监督正则化的跨媒体检索方法,以解决上述问题。
本发明采用了如下技术方案:
一种基于子空间学习与半监督正则化的跨媒体检索方法,其特征在于,包括步骤:
步骤一,建立多媒体数据库,
收集多媒体原始数据;提取多媒体数据的特征;保存多媒体数据的特征向量和原始数据;
步骤二,获得不同媒体类型的投影矩阵,
定义最优化目标函数;利用迭代方法求解最优化目标函数;投影多媒体数据的特征向量到共同空间;
步骤三,进行跨媒体检索,
提取用户提交的媒体数据的特征;投影该媒体数据的特征向量到共同空间中;计算该投影后的向量与共同空间中的其他向量之间的相似度;返回与之相似度最大的前k个特征向量所对应媒体数据。
本发明的基于子空间学习与半监督正则化的跨媒体检索方法,还具有这样的特征:
其中,步骤二中,定义最优化目标函数的方法如下:
最优化目标函数包括四个组成部分,最优化目标函数的第一个组成部分:
Figure BDA0001582537030000031
其中,
Figure BDA0001582537030000032
表示第i种媒体的有标签数据的特征向量构成的矩阵,其中
Figure BDA0001582537030000033
是第i种媒体的第p个样本数据的特征向量,n(i)是第i种媒体有标签数据的数量,d(i)是第i种媒体的每个样本数据对应的特征向量的维度;
Figure BDA0001582537030000034
是第i种媒体类型的投影矩阵;
Figure BDA0001582537030000035
表示第i种媒体有标签数据对应的标签向量构成的矩阵,c为多媒体数据库中语义类别的数量,
Figure BDA0001582537030000036
是第i种媒体的第p个样本数据所对应的标签向量,s是多媒体数据库中媒体类型的数量,α是一个正的常量参数,||Z||F是矩阵Z的Frobenius范数,
最优化目标函数的第二个组成部分,该部分的第一项由不同媒体数据中相同语义类别数据之间的欧式距离组成,该部分的第二项由不同媒体数据中不同语义类别数据之间的欧式距离组成,第二个组成部分定义如下:
Figure BDA0001582537030000037
其中
Figure BDA0001582537030000038
Figure BDA0001582537030000039
是第i种媒体和第j种媒体中包含mij对有着相同标签数据的特征向量构成的矩阵,
Figure BDA00015825370300000310
Figure BDA00015825370300000311
是第i种媒体和第j种媒体中包含dij对有着不同标签数据的特征向量构成的矩阵,ε和μ为两个正的常量参数,用来平衡式(2),如果将式(2)最小化,则是在最小化不同媒体数据中相同语义类别数据之间的欧式距离并且最大化不同媒体数据中不同语义类别数据之间的欧式距离,
最优化目标函数的第三个组成部分,在给出第三个组成部分之前,先构建跨媒体近邻图,对于每种媒体,分别构建它们的近邻图,并且构建近邻图的方式是一样的,对于每种媒体,用G(i)=(V(i),E(i))表示第i种媒体的近邻图,V(i)表示第i种媒体近邻图中的顶点,这些顶点由在多媒体数据库中第i种媒体有标签和无标签数据通过投影获得的投影向量构成,并且一个投影向量表示一个顶点,每种媒体数据投影向量的维度是相同的,E(i)表示这些顶点的边,
计算跨媒体近邻图G(i)=(V(i),E(i))对应的权重矩阵
Figure BDA0001582537030000041
其中
Figure BDA0001582537030000042
中的i表示第i种媒体,p表示权重矩阵W(i)的第p行,q表示权重矩阵W(i)的第q列,
Figure BDA0001582537030000043
表示第i种媒体对应的权重矩阵W(i)的第p行、第q列上的元素值,
Figure BDA0001582537030000044
的定义如下:
Figure BDA0001582537030000045
其中
Figure BDA0001582537030000046
表示第i种媒体的第q个样本数据的特征向量的投影向量,
Figure BDA0001582537030000047
表示
Figure BDA0001582537030000048
的k近邻,
接着给出最优化目标函数的第三个组成部分,该项考虑了在多媒体数据库中有标签和无标签媒体数据投影点的近邻关系,定义如下:
Figure BDA0001582537030000049
其中,a(i)=n(i)+m(i)为多媒体数据库中第i种媒体有标签和无标签数据的数量,
Figure BDA00015825370300000410
是一个图的归一化拉普拉斯矩阵,I是一个单位矩阵,D(i)是一个对角矩阵且对角线上的元素值为权重矩阵W(i)相应行上的元素值之和,
Figure BDA00015825370300000411
为D(i)对角线上的第p个元素值,
Figure BDA0001582537030000051
是由第i种媒体有标签和无标签数据投影后的向量组成,
Figure BDA0001582537030000052
是由第i种媒体的有标签数据和无标签数据的特征向量组成,tr(Z)表示矩阵Z的迹,λ是一个正的常量参数,
最优化目标函数的第四个组成部分,该项为避免过拟合的正则化项,定义如下:
Figure BDA0001582537030000053
其中P(i)为第i种媒体类型的投影矩阵,β为正则化项的参数,
介绍完最优化目标函数的四大组成部分,那么将这四大组成部分结合起来构成最优化目标函数,如下:
Figure BDA0001582537030000054
式(6)是由式(1)、(2)、(4)、(5)组合而成,求解式(6)获得每种媒体最优的投影矩阵P(i)(i=1,2,...,s),将公式(6)中的式子记为Ω,直接用Ω对P(i)求偏导并让其置为0,得到如下结果:
Figure BDA0001582537030000055
然后将式(7)的等式整理获得如下:
Figure BDA0001582537030000056
接着通过迭代的方法找到最优的投影矩阵P(i)(i=1,2,...,s)。
本发明的基于子空间学习与半监督正则化的跨媒体检索方法,还具有这样的特征:
步骤二中,利用迭代方法求解最优化目标函数的方法如下:
首先将多媒体数据库中有标签数据和无标签数据的特征向量进行归一化,然后利用随机矩阵初始化
Figure BDA0001582537030000061
并且设置t=0和设置最大迭代次数,更新投影矩阵的等式如下:
Figure BDA0001582537030000062
这里反复计算式(9),每次迭代后t=t+1,当两次迭代的改变率低于某个阈值(如0.001)或达到最大迭代次数时迭代终止,此时的P(i)(i=1,2,…,s)即为最优化目标函数的最优解,这就是使最优化目标函数最小时的最优的投影矩阵。
本发明的基于子空间学习与半监督正则化的跨媒体检索方法,还具有这样的特征:步骤二中,投影多媒体数据的特征向量到共同空间的方法如下:
使用最优的投影矩阵投影多媒体数据的特征向量到共同空间,根据媒体类型使用相应的投影矩阵,对于多媒体数据库中第i种媒体类型的一个特征向量
Figure BDA0001582537030000063
利用第i个投影矩阵
Figure BDA0001582537030000064
来投影,投影后的向量为
Figure BDA0001582537030000065
c为多媒体数据库中语义类别的数目,最后不同媒体类型投影后的向量的维度是相同的且为c维,但分别保存各种媒体类型投影后的向量。
本发明的基于子空间学习与半监督正则化的跨媒体检索方法,还具有这样的特征:
步骤三中,提取用户提交的媒体数据的特征的方法如下:
根据媒体的类型使用相应的模型提取出用户提交的媒体数据的特征。
本发明的基于子空间学习与半监督正则化的跨媒体检索方法,还具有这样的特征:
步骤三中,投影该媒体数据的特征向量到共同空间中;
对于该媒体数据的特征向量,投影到共同空间中为向量,则此向量就是共同空间中的一个向量。
本发明的基于子空间学习与半监督正则化的跨媒体检索方法,还具有这样的特征:
步骤三中,计算该投影后的向量与共同空间中的其他向量之间的相似度的方法如下:
共同空间中任意两个向量之间相似度的公式定义如下:
Figure BDA0001582537030000071
其中rp代表向量
Figure BDA0001582537030000072
的标签,rq代表向量
Figure BDA0001582537030000073
的标签,
Figure BDA0001582537030000074
表示向量
Figure BDA0001582537030000075
属于语义类别l的概率,c表示多媒体数据库中语义类别的数目,其中
Figure BDA0001582537030000076
定义如下:
Figure BDA0001582537030000077
Figure BDA0001582537030000078
表示在共同空间中向量
Figure BDA0001582537030000079
的k近邻,r代表投影数据点o所属的类别,σ(z)=(1+exp(-z))-1是Sigmoid函数,在实际运用中,用户一般希望指定某种媒体类型数据返回,那么则根据此公式计算出该投影后的向量与在共同空间中用户指定的媒体类型数据的投影向量之间的相似度,用排序函数按相似度值降序排序,保存相似度值和对应的索引向量,方便之后返回。
本发明的基于子空间学习与半监督正则化的跨媒体检索方法,还具有这样的特征:
步骤三中,返回与之相似度最大的前k个特征向量所对应媒体数据的过程如下,
返回之前获得的索引向量的前k个元素的值,由于原始数据的特征向量的索引值与投影后的向量的索引值是相同的,即投影前的特征向量在由这些特征向量组成的矩阵中的位置与投影后的向量在由这些向量组成的矩阵中的位置是相同的,而这k个元素的值就是原始数据的特征向量的索引值,即位置,由之前建立的索引表找到对应的原始数据,返回这k个原始数据给用户。
发明的有益效果
与现有技术相比,本发明的优势在于:
(1)本发明的方法同时考虑在不同媒体类型中相同语义类别媒体数据之间的相似度和不同语义类别媒体数据之间的差异性。
(2)本发明的方法利用的半监督学习方法吸收了有标签数据和无标签数据,并使用了近邻图来表示投影数据点的分布信息,结合了k近邻思想迫使投影数据点的k近邻靠的更近。
(3)本发明的方法利用了每种媒体类型有标签数据的标签信息,再加上近邻图中k近邻的使用,使得每个媒体数据的投影向量不仅紧靠它的标签向量,而且紧靠它的k近邻,这样每个媒体数据的投影向量和它的k近邻都紧靠它的标签向量,而标签向量本质上是语义类别的向量,这样检索会更加准确。
附图说明
图1是本发明的一种基于子空间学习与半监督正则化的跨媒体检索方法流程图;
图2是本发明的实施例中所采用检索方法的搜索结果。
具体实施方式
以下结合附图来说明本发明的具体实施方式。
如图1所示,基于子空间学习与半监督正则化的跨媒体检索方法,包括如下步骤:
步骤(1)建立多媒体数据库,包括如下步骤:
(1.1)收集多媒体原始数据:每种媒体类型都要收集大量的媒体数据,也可以使用公开的数据集,如维基百科数据集,但这个数据集只有图像和文本数据。
(1.2)提取多媒体数据的特征:采用合适的方法分别提取每种媒体类型数据的特征。可以采用多种特征提取类的函数对特征进行提取。
(1.3)保存多媒体数据的特征向量和原始数据:根据不同媒体类型来分别保存每种媒体类型数据的特征向量和原始数据,保存原始数据时给每个原始数据取一个名称且不重复,此名称实质是文件名,并将提取出的特征向量与原始数据一一对应,最好每种媒体类型数据建立一个索引表,可以让一个整数对应一个原始数据的名称,方便以后根据特征向量的索引值先找到原始数据的名称,再通过此名称来读取出原始数据。
步骤(2)获得不同媒体类型的投影矩阵,包括如下步骤:
(2.1)定义最优化目标函数;
先分别介绍最优化目标函数的四大组成部分,给出最优化目标函数的第一个组成部分(标签损失项):
Figure BDA0001582537030000101
其中,
Figure BDA0001582537030000102
表示第i种媒体的有标签数据的特征向量构成的矩阵,其中
Figure BDA0001582537030000103
是第i种媒体的第p个样本数据的特征向量,n(i)是第i种媒体有标签数据的数量,d(i)是第i种媒体的每个样本数据对应的特征向量的维度;
Figure BDA0001582537030000104
是第i种媒体类型的投影矩阵;
Figure BDA0001582537030000105
表示第i种媒体有标签数据对应的标签向量构成的矩阵,c为多媒体数据库中语义类别的数量,
Figure BDA0001582537030000106
是第i种媒体的第p个样本数据所对应的标签向量,s是多媒体数据库中媒体类型的数量,α是一个正的常量参数,||Z||F是矩阵Z的Frobenius范数。
接着,给出最优化目标函数的第二个组成部分,该部分的第一项由不同媒体数据中相同语义类别数据之间的欧式距离组成,该部分的第二项由不同媒体数据中不同语义类别数据之间的欧式距离组成。第二个组成部分定义如下:
Figure BDA0001582537030000107
其中
Figure BDA0001582537030000111
Figure BDA0001582537030000112
是第i种媒体和第j种媒体中包含mij对有着相同标签数据的特征向量构成的矩阵,
Figure BDA0001582537030000113
Figure BDA0001582537030000114
是第i种媒体和第j种媒体中包含dij对有着不同标签数据的特征向量构成的矩阵。ε和μ为两个正的常量参数,用来平衡式(2)。如果将式(2)最小化,则是在最小化不同媒体数据中相同语义类别数据之间的欧式距离并且最大化不同媒体数据中不同语义类别数据之间的欧式距离。
然后,给出最优化目标函数的第三个组成部分,在给出第三个组成部分之前,先构建跨媒体近邻图,对于每种媒体,分别构建它们的近邻图,并且构建近邻图的方式是一样的。对于每种媒体,用G(i)=(V(i),E(i))表示第i种媒体的近邻图,V(i)表示第i种媒体近邻图中的顶点,这些顶点由在多媒体数据库中第i种媒体有标签和无标签数据通过投影获得的投影向量构成,并且一个投影向量表示一个顶点,每种媒体数据投影向量的维度是相同的,E(i)表示这些顶点的边。
计算跨媒体近邻图G(i)=(V(i),E(i))对应的权重矩阵
Figure BDA0001582537030000115
其中
Figure BDA0001582537030000116
中的i表示第i种媒体,p表示权重矩阵W(i)的第p行,q表示权重矩阵W(i)的第q列,
Figure BDA0001582537030000117
表示第i种媒体对应的权重矩阵W(i)的第p行、第q列上的元素值。
Figure BDA0001582537030000118
的定义如下:
Figure BDA0001582537030000119
其中
Figure BDA00015825370300001110
表示第i种媒体的第q个样本数据的特征向量的投影向量,
Figure BDA00015825370300001111
表示
Figure BDA00015825370300001112
的k近邻。
接着给出最优化目标函数的第三个组成部分,该项考虑了在多媒体数据库中有标签和无标签媒体数据投影点(即投影向量)的近邻关系,定义如下:
Figure BDA0001582537030000121
其中,a(i)=n(i)+m(i)为多媒体数据库中第i种媒体有标签和无标签数据的数量,
Figure BDA0001582537030000122
是一个图的归一化拉普拉斯矩阵,I是一个单位矩阵,D(i)是一个对角矩阵且对角线上的元素值为权重矩阵W(i)相应行上的元素值之和,
Figure BDA0001582537030000123
为D(i)对角线上的第p个元素值,
Figure BDA0001582537030000124
是由第i种媒体有标签和无标签数据投影后的向量组成,
Figure BDA0001582537030000125
是由第i种媒体的有标签数据和无标签数据的特征向量组成,tr(Z)表示矩阵Z的迹,λ是一个正的常量参数。
然后给出最优化目标函数的第四个组成部分,该项为避免过拟合的正则化项,定义如下:
Figure BDA0001582537030000126
其中P(i)为第i种媒体类型的投影矩阵,β为正则化项的参数。
介绍完最优化目标函数的四大组成部分,那么将这四大组成部分结合起来构成最优化目标函数,如下:
Figure BDA0001582537030000127
式(6)是由式(1)、(2)、(4)、(5)组合而成,求解式(6)获得每种媒体最优的投影矩阵P(i)(i=1,2,...,s)。将公式(6)中的式子记为Ω,直接用Ω对P(i)求偏导并让其置为0,得到如下结果:
Figure BDA0001582537030000131
将式(7)整理得到如下:
Figure BDA0001582537030000132
接着通过迭代的方法找到最优的投影矩阵P(i)(i=1,2,...,s)。
(2.2)利用迭代方法求解最优化目标函数:首先将多媒体数据库中有标签数据和无标签数据的特征向量进行归一化,然后利用随机矩阵初始化
Figure BDA0001582537030000133
并且设置t=0和设置最大迭代次数。图的拉普拉斯矩阵如下:
Figure BDA0001582537030000134
注意每次计算的W(i)矩阵是不同的,因为W(i)矩阵定义如下:
Figure BDA0001582537030000135
其中
Figure BDA0001582537030000136
由于每次迭代的P(i)矩阵在更新后变化了,所以
Figure BDA0001582537030000137
也随着变化,
Figure BDA0001582537030000138
随着变化(即W(i)矩阵变化)。而D(i)是一个对角矩阵且对角线上的元素值为权重矩阵W(i)相应行上的元素值之和,则D(i)也随着变化,那么根据式(12)可知,
Figure BDA0001582537030000139
会随着变化,也就是
Figure BDA00015825370300001310
会随着迭代次数t而改变。更新投影矩阵的等式如下:
Figure BDA0001582537030000141
这里反复计算式(9),每次迭代后t=t+1。当两次迭代的改变率低于某个阈值(如0.001)或达到最大迭代次数时迭代终止,此时的P(i)(i=1,2,…,s)即为最优化目标函数的最优解,这就是使最优化目标函数最小时的最优的投影矩阵。
(2.3)投影多媒体数据的特征向量到共同空间:使用前面得到的最优的投影矩阵投影多媒体数据的特征向量到共同空间,根据媒体类型使用相应的投影矩阵,对于多媒体数据库中第i种媒体类型的一个特征向量
Figure BDA0001582537030000142
利用第i个投影矩阵
Figure BDA0001582537030000143
来投影,投影后的向量为
Figure BDA0001582537030000144
c为多媒体数据库中语义类别的数目。最后不同媒体类型投影后的向量的维度是相同的且为c维,但分别保存各种媒体类型投影后的向量。
步骤(3)进行跨媒体检索,包括如下步骤:
(3.1)提取用户提交的媒体数据的特征:根据媒体的类型使用相应的模型提取出用户提交的媒体数据的特征向量。一般会提前用多媒体数据集的每种媒体类型数据分别训练出相应媒体类型的特征提取的模型。
(3.2)投影该媒体数据的特征向量到共同空间中:对于该媒体数据的特征向量
Figure BDA0001582537030000145
投影到共同空间中为向量
Figure BDA0001582537030000146
则此向量
Figure BDA0001582537030000147
就是共同空间中的一个向量。
(3.3)计算该投影后的向量与共同空间中的其他向量之间的相似度:共同空间中任意两个向量之间相似度的公式定义如下:
Figure BDA0001582537030000151
其中rp代表向量
Figure BDA0001582537030000152
的标签,rq代表向量
Figure BDA0001582537030000153
的标签,
Figure BDA0001582537030000154
表示向量
Figure BDA0001582537030000155
属于语义类别l的概率,c表示多媒体数据库中语义类别的数目。其中
Figure BDA0001582537030000156
定义如下:
Figure BDA0001582537030000157
Figure BDA0001582537030000158
表示在共同空间中向量
Figure BDA0001582537030000159
的k近邻,r代表投影数据点o所属的类别,σ(z)=(1+exp(-z))-1是Sigmoid函数。在实际运用中,用户一般希望指定某种媒体类型数据返回,那么则根据此公式计算出该投影后的向量与在共同空间中用户指定的媒体类型数据的投影向量之间的相似度,用排序函数按相似度值降序排序,保存相似度值和对应的索引向量,方便之后返回。
(3.4)返回与其相似度最大的前k个特征向量所对应媒体数据:返回之前获得的索引向量的前k个元素的值,由于原始数据的特征向量的索引值与投影后的向量的索引值是相同的,即投影前的特征向量在由这些特征向量组成的矩阵中的位置与投影后的向量在由这些向量组成的矩阵中的位置是相同的,而这k个元素的值就是原始数据的特征向量的索引值,即位置,由之前建立的索引表找到对应的原始数据,返回这k个原始数据给用户。
下面通过具体实施例来进一步说明。
(1)建立多媒体数据库;
这里使用公开的维基百科数据集,这个数据集只有图像和文本数据,并且用维基百科数据集中最受欢迎的10个类别,包括以下10个不同的语义类别:艺术、生物、地理、历史、文献、媒体、音乐、王权、运动、战争,这总共包括2866对成组的图像和文本,即有2866张图片和2866个文本,其中训练集有2173对成组的图像和文本,测试集有693对成组的图像和文本。
对于这个维基百科数据集,每幅图像提取4096维的卷积神经网络CNN特征,每个文本提取3000维的词袋(Bag ofWords)特征。
分别保存此数据集的图像和文本数据的特征向量和原始数据,并将提取出的特征向量与原始数据一一对应,最好分别建立图像和文本数据的索引表,方便以后直接根据特征向量的索引值找到其原始数据。
(2)获得不同媒体类型的投影矩阵:
首先将多媒体数据库中有标签数据和无标签数据的特征向量进行归一化,然后利用随机矩阵初始化
Figure BDA0001582537030000161
并且设置t=0和设置最大迭代次数为15。然后根据公式(9)来进行迭代,每次迭代后t=t+1。当两次迭代的改变率低于0.001或达到最大迭代次数15时迭代终止,此时的P(i)(i=1,2,…,s)即为最优化目标函数的最优解,这就是使最优化目标函数最小时的最优的投影矩阵。
(3)进行跨媒体检索
当用户提交一个类别为“地理”的文本为查询样例进行跨媒体检索时,提取用户提交的此文本查询样例的特征,投影该查询样例的特征向量到共同空间中,然后根据公式(10)计算该投影后的向量与共同空间中的其他向量之间的相似度,返回与其相似度最大的前k个特征向量所对应媒体数据给用户。这里k取12。
结果如图2所示,在返回的12个图像中有10个是“地理”类别的图像,没加边框的图像表示它的类别与查询样例类别相同,加了黑色框线的图像表示它的类别与查询样例类别不同,其中左侧的加黑色框线图像的类别在此实验数据集中被划分为“历史”,右侧的加黑色框线图像的类别在此实验数据集中被划分为“战争”,12个检索结果中只有2个错误,说明此检索方法能够较为准确地度量跨媒体相似度,能取得较好的检索效率。

Claims (7)

1.一种基于子空间学习与半监督正则化的跨媒体检索方法,其特征在于,包括步骤:
步骤一,建立多媒体数据库,
收集多媒体原始数据;提取多媒体数据的特征;保存多媒体数据的特征向量和原始数据;
步骤二,获得不同媒体类型的投影矩阵,
定义最优化目标函数;利用迭代方法求解最优化目标函数;投影多媒体数据的特征向量到共同空间,
定义最优化目标函数的方法如下:
最优化目标函数包括四个组成部分,最优化目标函数的第一个组成部分:
Figure FDA0003340154910000011
其中,
Figure FDA0003340154910000012
表示第i种媒体的有标签数据的特征向量构成的矩阵,其中
Figure FDA0003340154910000013
是第i种媒体的第p个样本数据的特征向量,n(i)是第i种媒体有标签数据的数量,d(i)是第i种媒体的每个样本数据对应的特征向量的维度;
Figure FDA0003340154910000014
是第i种媒体类型的投影矩阵;
Figure FDA0003340154910000015
表示第i种媒体有标签数据对应的标签向量构成的矩阵,c为多媒体数据库中语义类别的数量,
Figure FDA0003340154910000016
是第i种媒体的第p个样本数据所对应的标签向量,s是多媒体数据库中媒体类型的数量,α是一个正的常量参数,||Z||F是矩阵Z的Frobenius范数,
最优化目标函数的第二个组成部分,该部分的第一项由不同媒体数据中相同语义类别数据之间的欧式距离组成,该部分的第二项由不同媒体数据中不同语义类别数据之间的欧式距离组成,第二个组成部分定义如下:
Figure FDA0003340154910000021
其中
Figure FDA0003340154910000022
Figure FDA0003340154910000023
是第i种媒体和第j种媒体中包含mij对有着相同标签数据的特征向量构成的矩阵,
Figure FDA0003340154910000024
Figure FDA0003340154910000025
是第i种媒体和第j种媒体中包含dij对有着不同标签数据的特征向量构成的矩阵,ε和μ为两个正的常量参数,用来平衡式(2),如果将式(2)最小化,则是在最小化不同媒体数据中相同语义类别数据之间的欧式距离并且最大化不同媒体数据中不同语义类别数据之间的欧式距离,
最优化目标函数的第三个组成部分,在给出第三个组成部分之前,先构建跨媒体近邻图,对于每种媒体,分别构建它们的近邻图,并且构建近邻图的方式是一样的,对于每种媒体,用G(i)=(V(i),E(i))表示第i种媒体的近邻图,V(i)表示第i种媒体近邻图中的顶点,这些顶点由在多媒体数据库中第i种媒体有标签和无标签数据通过投影获得的投影向量构成,并且一个投影向量表示一个顶点,每种媒体数据投影向量的维度是相同的,E(i)表示这些顶点的边,
计算跨媒体近邻图G(i)=(V(i),E(i))对应的权重矩阵
Figure FDA0003340154910000026
其中
Figure FDA0003340154910000027
中的i表示第i种媒体,p表示权重矩阵W(i)的第p行,q表示权重矩阵W(i)的第q列,
Figure FDA0003340154910000028
表示第i种媒体对应的权重矩阵W(i)的第p行、第q列上的元素值,
Figure FDA0003340154910000029
的定义如下:
Figure FDA00033401549100000210
其中
Figure FDA0003340154910000031
表示第i种媒体的第q个样本数据的特征向量的投影向量,
Figure FDA0003340154910000032
表示
Figure FDA0003340154910000033
的k近邻,
接着给出最优化目标函数的第三个组成部分,该部分考虑了在多媒体数据库中有标签和无标签媒体数据投影点的近邻关系,定义如下:
Figure FDA0003340154910000034
其中,a(i)=n(i)+m(i)为多媒体数据库中第i种媒体有标签和无标签数据的数量,
Figure FDA0003340154910000035
是一个图的归一化拉普拉斯矩阵,I是一个单位矩阵,D(i)是一个对角矩阵且对角线上的元素值为权重矩阵W(i)相应行上的元素值之和,
Figure FDA0003340154910000036
为D(i)对角线上的第p个元素值,
Figure FDA0003340154910000037
是由第i种媒体有标签和无标签数据投影后的向量组成,
Figure FDA0003340154910000038
是由第i种媒体的有标签数据和无标签数据的特征向量组成,tr(Z)表示矩阵Z的迹,λ是一个正的常量参数,
最优化目标函数的第四个组成部分,该部分为避免过拟合的正则化项,定义如下:
Figure FDA0003340154910000039
其中P(i)为第i种媒体类型的投影矩阵,β为正则化项的参数,
介绍完最优化目标函数的四大组成部分,那么将这四大组成部分结合起来构成最优化目标函数,如下:
Figure FDA0003340154910000041
式(6)是由式(1)、(2)、(4)、(5)组合而成,求解式(6)获得每种媒体最优的投影矩阵P(i)(i=1,2,...,s),将公式(6)中的式子记为Ω,直接用Ω对P(i)求偏导并让其置为0,得到如下结果:
Figure FDA0003340154910000042
然后将式(7)的等式整理获得如下:
Figure FDA0003340154910000043
接着通过迭代的方法找到最优的投影矩阵P(i)(i=1,2,...,s);
步骤三,进行跨媒体检索,
提取用户提交的媒体数据的特征;投影该媒体数据的特征向量到共同空间中;计算该投影后的向量与共同空间中的其他向量之间的相似度;返回与之相似度最大的前k个特征向量所对应媒体数据。
2.如权利要求1所述的基于子空间学习与半监督正则化的跨媒体检索方法,其特征在于:
步骤二中,利用迭代方法求解最优化目标函数的方法如下:
首先将多媒体数据库中有标签数据和无标签数据的特征向量进行归一化,然后利用随机矩阵初始化
Figure FDA0003340154910000051
并且设置t=0和设置最大迭代次数,更新投影矩阵的等式如下:
Figure FDA0003340154910000052
这里反复计算式(9),每次迭代后t=t+1,当两次迭代的改变率低于某个阈值或达到最大迭代次数时迭代终止,此时的P(i)(i=1,2,…,s)即为最优化目标函数的最优解,这就是使最优化目标函数最小时的最优的投影矩阵。
3.如权利要求2所述的基于子空间学习与半监督正则化的跨媒体检索方法,其特征在于:
步骤二中,投影多媒体数据的特征向量到共同空间的方法如下:
使用最优的投影矩阵投影多媒体数据的特征向量到共同空间,根据媒体类型使用相应的投影矩阵,对于多媒体数据库中第i种媒体类型的一个特征向量
Figure FDA0003340154910000053
利用第i个投影矩阵
Figure FDA0003340154910000054
来投影,投影后的向量为
Figure FDA0003340154910000055
c为多媒体数据库中语义类别的数目,最后不同媒体类型投影后的向量的维度是相同的且为c维,但分别保存各种媒体类型投影后的向量。
4.如权利要求3所述的基于子空间学习与半监督正则化的跨媒体检索方法,其特征在于:
步骤三中,提取用户提交的媒体数据的特征的方法如下:
根据媒体的类型使用相应的模型提取出用户提交的媒体数据的特征。
5.如权利要求4所述的基于子空间学习与半监督正则化的跨媒体检索方法,其特征在于:
步骤三中,投影该媒体数据的特征向量到共同空间中;
对于该媒体数据的特征向量,投影到共同空间中为向量,则此向量就是共同空间中的一个向量。
6.如权利要求5所述的基于子空间学习与半监督正则化的跨媒体检索方法,其特征在于:
步骤三中,计算该投影后的向量与共同空间中的其他向量之间的相似度的方法如下:
共同空间中任意两个向量之间相似度的公式定义如下:
Figure FDA0003340154910000061
其中rp代表向量
Figure FDA0003340154910000062
的标签,rq代表向量
Figure FDA0003340154910000063
的标签,
Figure FDA0003340154910000064
表示向量
Figure FDA0003340154910000065
属于语义类别l的概率,c表示多媒体数据库中语义类别的数目,其中
Figure FDA0003340154910000066
定义如下:
Figure FDA0003340154910000067
Figure FDA0003340154910000068
表示在共同空间中向量
Figure FDA0003340154910000069
的k近邻,r代表投影数据点o所属的类别,σ(z)=(1+exp(-z))-1是Sigmoid函数,在实际运用中,用户一般希望指定某种媒体类型数据返回,那么则根据此公式计算出该投影后的向量与在共同空间中用户指定的媒体类型数据的投影向量之间的相似度,用排序函数按相似度值降序排序,保存相似度值和对应的索引向量,方便之后返回。
7.如权利要求6所述的基于子空间学习与半监督正则化的跨媒体检索方法,其特征在于:
步骤三中,返回与之相似度最大的前k个特征向量所对应媒体数据的过程如下,
返回之前获得的索引向量的前k个元素的值,由于原始数据的特征向量的索引值与投影后的向量的索引值是相同的,即投影前的特征向量在由这些特征向量组成的矩阵中的位置与投影后的向量在由这些向量组成的矩阵中的位置是相同的,而这k个元素的值就是原始数据的特征向量的索引值,即位置,由之前建立的索引表找到对应的原始数据,返回这k个原始数据给用户。
CN201810159590.0A 2018-02-26 2018-02-26 一种基于子空间学习与半监督正则化的跨媒体检索方法 Expired - Fee Related CN108388639B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810159590.0A CN108388639B (zh) 2018-02-26 2018-02-26 一种基于子空间学习与半监督正则化的跨媒体检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810159590.0A CN108388639B (zh) 2018-02-26 2018-02-26 一种基于子空间学习与半监督正则化的跨媒体检索方法

Publications (2)

Publication Number Publication Date
CN108388639A CN108388639A (zh) 2018-08-10
CN108388639B true CN108388639B (zh) 2022-02-15

Family

ID=63068529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810159590.0A Expired - Fee Related CN108388639B (zh) 2018-02-26 2018-02-26 一种基于子空间学习与半监督正则化的跨媒体检索方法

Country Status (1)

Country Link
CN (1) CN108388639B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188210B (zh) * 2019-05-10 2021-09-24 山东师范大学 一种基于图正则化与模态独立的跨模态数据检索方法及系统
CN111813967B (zh) * 2020-07-14 2024-01-30 中国科学技术信息研究所 检索方法、装置、计算机设备及存储介质
CN114168759A (zh) * 2020-09-11 2022-03-11 四川大学 基于跨媒体分析的科技数据检索技术
CN113722489B (zh) * 2021-09-02 2023-10-31 珠海市新德汇信息技术有限公司 一种基于nlp算法的关系分析方法
CN115170746B (zh) * 2022-09-07 2022-11-22 中南大学 一种基于深度学习的多视图三维重建方法、系统及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012018847A2 (en) * 2010-08-02 2012-02-09 Cognika Corporation Cross media knowledge storage, management and information discovery and retrieval
CN103336968A (zh) * 2013-05-28 2013-10-02 中国矿业大学 基于张量距离补丁校准的高光谱数据降维方法
CN103678483A (zh) * 2013-10-24 2014-03-26 江苏大学 基于自适应概率超图和半监督学习的视频语义分析方法
CN104077408A (zh) * 2014-07-11 2014-10-01 浙江大学 大规模跨媒体数据分布式半监督内容识别分类方法及装置
CN104166684A (zh) * 2014-07-24 2014-11-26 北京大学 一种基于统一稀疏表示的跨媒体检索方法
CN106021402A (zh) * 2016-05-13 2016-10-12 河南师范大学 用于跨模态检索的多模态多类Boosting框架构建方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012018847A2 (en) * 2010-08-02 2012-02-09 Cognika Corporation Cross media knowledge storage, management and information discovery and retrieval
CN103336968A (zh) * 2013-05-28 2013-10-02 中国矿业大学 基于张量距离补丁校准的高光谱数据降维方法
CN103678483A (zh) * 2013-10-24 2014-03-26 江苏大学 基于自适应概率超图和半监督学习的视频语义分析方法
CN104077408A (zh) * 2014-07-11 2014-10-01 浙江大学 大规模跨媒体数据分布式半监督内容识别分类方法及装置
CN104166684A (zh) * 2014-07-24 2014-11-26 北京大学 一种基于统一稀疏表示的跨媒体检索方法
CN106021402A (zh) * 2016-05-13 2016-10-12 河南师范大学 用于跨模态检索的多模态多类Boosting框架构建方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Learning Cross-Media Joint Representation With Sparse and Semisupervised Regularization;Xiaohua Zhai et al.;《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》;20140603;第24卷(第6期);965-978 *
一种基于内容相关性的跨媒体检索方法;张鸿 等;《计算机学报》;20080531;第31卷(第5期);820-826 *

Also Published As

Publication number Publication date
CN108388639A (zh) 2018-08-10

Similar Documents

Publication Publication Date Title
CN108388639B (zh) 一种基于子空间学习与半监督正则化的跨媒体检索方法
Hu et al. Creating something from nothing: Unsupervised knowledge distillation for cross-modal hashing
Peng et al. Semi-supervised cross-media feature learning with unified patch graph regularization
Wang et al. A comprehensive survey on cross-modal retrieval
Wu et al. Online multi-modal distance metric learning with application to image retrieval
Yu et al. Unsupervised random forest indexing for fast action search
CN106202256B (zh) 基于语义传播及混合多示例学习的Web图像检索方法
Liu et al. Label to region by bi-layer sparsity priors
Cai et al. An attribute-assisted reranking model for web image search
CN109784405B (zh) 基于伪标签学习和语义一致性的跨模态检索方法及系统
Wang et al. Facilitating image search with a scalable and compact semantic mapping
CN108595546B (zh) 基于半监督的跨媒体特征学习检索方法
Li et al. Exploiting hierarchical activations of neural network for image retrieval
CN105701225B (zh) 一种基于统一关联超图规约的跨媒体检索方法
Zheng et al. MMDF-LDA: An improved Multi-Modal Latent Dirichlet Allocation model for social image annotation
Niu et al. Knowledge-based topic model for unsupervised object discovery and localization
CN111460201A (zh) 一种基于生成性对抗网络的模态一致性跨模态检索方法
Abdul-Rashid et al. Shrec’18 track: 2d image-based 3d scene retrieval
CN110442736B (zh) 一种基于二次判别分析的语义增强子空间跨媒体检索方法
Song et al. Hierarchical deep hashing for image retrieval
Bai et al. Learning two-pathway convolutional neural networks for categorizing scene images
Lv et al. Retrieval oriented deep feature learning with complementary supervision mining
Zhan et al. Multi-similarity semantic correctional hashing for cross modal retrieval
Mithun et al. Construction of diverse image datasets from web collections with limited labeling
Tian et al. Automatic image annotation with real-world community contributed data set

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220215