CN108388639B - 一种基于子空间学习与半监督正则化的跨媒体检索方法 - Google Patents
一种基于子空间学习与半监督正则化的跨媒体检索方法 Download PDFInfo
- Publication number
- CN108388639B CN108388639B CN201810159590.0A CN201810159590A CN108388639B CN 108388639 B CN108388639 B CN 108388639B CN 201810159590 A CN201810159590 A CN 201810159590A CN 108388639 B CN108388639 B CN 108388639B
- Authority
- CN
- China
- Prior art keywords
- media
- data
- vector
- matrix
- ith
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 239000013598 vector Substances 0.000 claims abstract description 164
- 230000006870 function Effects 0.000 claims abstract description 51
- 239000011159 matrix material Substances 0.000 claims description 82
- 238000005457 optimization Methods 0.000 claims description 35
- 239000000126 substance Substances 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 241000764238 Isis Species 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于子空间学习与半监督正则化的跨媒体检索方法,其特征在于,包括步骤:步骤一,建立多媒体数据库,收集多媒体原始数据;提取多媒体数据的特征;保存多媒体数据的特征向量和原始数据;步骤二,获得不同媒体类型的投影矩阵,定义最优化目标函数;利用迭代方法求解最优化目标函数;投影多媒体数据的特征向量到共同空间;步骤三,进行跨媒体检索,提取用户提交的媒体数据的特征;投影该媒体数据的特征向量到共同空间中;计算该投影后的向量与共同空间中的其他向量之间的相似度;返回与之相似度最大的前k个特征向量所对应媒体数据。本发明所提供的跨媒体检索方法,检索的结果更加准确。
Description
技术领域
本发明涉及一种基于子空间学习与半监督正则化的跨媒体检索方法,属于数据检索领域。
背景技术
随着多媒体技术和网络技术的高速发展,文本,图像,音频,视频和3D等非结构化异构多媒体内容迅速涌入互联网,使得跨媒体检索变得尤其重要。跨媒体检索指的是不同媒体数据之间的相互检索,这使得检索具有丰富性和多彩性,更好地满足用户希望提交任意一种媒体数据来检索出具有相同语义的各种类型(相同类型或不同类型)媒体数据的需求。
目前,越来越多的国内外学者致力于研究跨媒体检索,所提出的方法大致可归纳为以下几类:深度学习、概率模型、度量学习方法、子空间学习方法等。然而在跨媒体检索中运用子空间学习方法主要是为不同模态学习一个共同的空间,它的做法是将不同模态空间的特征投影到多模态共同空间,并获得跨媒体相似性度量的共同表征。这种方法的优势在于简单明了,适用于任何多种媒体数据之间的检索。缺点是:现有跨媒体检索方法中大多局限于两种媒体之间的检索,以及存在着构造近邻图的过程中计算权值矩阵过于繁琐的问题。
这些传统的检索方法只集中在相同媒体或两种媒体数据之间的检索,这忽视了多种媒体数据之间存在着语义一致性和互补关系。因此设计一种跨媒体检索方法满足两种或两种以上的媒体数据之间相互检索变得更有意义。
发明内容
本发明的目的在于提供一种基于子空间学习与半监督正则化的跨媒体检索方法,以解决上述问题。
本发明采用了如下技术方案:
一种基于子空间学习与半监督正则化的跨媒体检索方法,其特征在于,包括步骤:
步骤一,建立多媒体数据库,
收集多媒体原始数据;提取多媒体数据的特征;保存多媒体数据的特征向量和原始数据;
步骤二,获得不同媒体类型的投影矩阵,
定义最优化目标函数;利用迭代方法求解最优化目标函数;投影多媒体数据的特征向量到共同空间;
步骤三,进行跨媒体检索,
提取用户提交的媒体数据的特征;投影该媒体数据的特征向量到共同空间中;计算该投影后的向量与共同空间中的其他向量之间的相似度;返回与之相似度最大的前k个特征向量所对应媒体数据。
本发明的基于子空间学习与半监督正则化的跨媒体检索方法,还具有这样的特征:
其中,步骤二中,定义最优化目标函数的方法如下:
最优化目标函数包括四个组成部分,最优化目标函数的第一个组成部分:
其中,表示第i种媒体的有标签数据的特征向量构成的矩阵,其中是第i种媒体的第p个样本数据的特征向量,n(i)是第i种媒体有标签数据的数量,d(i)是第i种媒体的每个样本数据对应的特征向量的维度;是第i种媒体类型的投影矩阵;表示第i种媒体有标签数据对应的标签向量构成的矩阵,c为多媒体数据库中语义类别的数量,是第i种媒体的第p个样本数据所对应的标签向量,s是多媒体数据库中媒体类型的数量,α是一个正的常量参数,||Z||F是矩阵Z的Frobenius范数,
最优化目标函数的第二个组成部分,该部分的第一项由不同媒体数据中相同语义类别数据之间的欧式距离组成,该部分的第二项由不同媒体数据中不同语义类别数据之间的欧式距离组成,第二个组成部分定义如下:
其中和是第i种媒体和第j种媒体中包含mij对有着相同标签数据的特征向量构成的矩阵,和是第i种媒体和第j种媒体中包含dij对有着不同标签数据的特征向量构成的矩阵,ε和μ为两个正的常量参数,用来平衡式(2),如果将式(2)最小化,则是在最小化不同媒体数据中相同语义类别数据之间的欧式距离并且最大化不同媒体数据中不同语义类别数据之间的欧式距离,
最优化目标函数的第三个组成部分,在给出第三个组成部分之前,先构建跨媒体近邻图,对于每种媒体,分别构建它们的近邻图,并且构建近邻图的方式是一样的,对于每种媒体,用G(i)=(V(i),E(i))表示第i种媒体的近邻图,V(i)表示第i种媒体近邻图中的顶点,这些顶点由在多媒体数据库中第i种媒体有标签和无标签数据通过投影获得的投影向量构成,并且一个投影向量表示一个顶点,每种媒体数据投影向量的维度是相同的,E(i)表示这些顶点的边,
计算跨媒体近邻图G(i)=(V(i),E(i))对应的权重矩阵其中中的i表示第i种媒体,p表示权重矩阵W(i)的第p行,q表示权重矩阵W(i)的第q列,表示第i种媒体对应的权重矩阵W(i)的第p行、第q列上的元素值,的定义如下:
接着给出最优化目标函数的第三个组成部分,该项考虑了在多媒体数据库中有标签和无标签媒体数据投影点的近邻关系,定义如下:
其中,a(i)=n(i)+m(i)为多媒体数据库中第i种媒体有标签和无标签数据的数量,是一个图的归一化拉普拉斯矩阵,I是一个单位矩阵,D(i)是一个对角矩阵且对角线上的元素值为权重矩阵W(i)相应行上的元素值之和,为D(i)对角线上的第p个元素值,是由第i种媒体有标签和无标签数据投影后的向量组成,是由第i种媒体的有标签数据和无标签数据的特征向量组成,tr(Z)表示矩阵Z的迹,λ是一个正的常量参数,
最优化目标函数的第四个组成部分,该项为避免过拟合的正则化项,定义如下:
其中P(i)为第i种媒体类型的投影矩阵,β为正则化项的参数,
介绍完最优化目标函数的四大组成部分,那么将这四大组成部分结合起来构成最优化目标函数,如下:
式(6)是由式(1)、(2)、(4)、(5)组合而成,求解式(6)获得每种媒体最优的投影矩阵P(i)(i=1,2,...,s),将公式(6)中的式子记为Ω,直接用Ω对P(i)求偏导并让其置为0,得到如下结果:
然后将式(7)的等式整理获得如下:
接着通过迭代的方法找到最优的投影矩阵P(i)(i=1,2,...,s)。
本发明的基于子空间学习与半监督正则化的跨媒体检索方法,还具有这样的特征:
步骤二中,利用迭代方法求解最优化目标函数的方法如下:
这里反复计算式(9),每次迭代后t=t+1,当两次迭代的改变率低于某个阈值(如0.001)或达到最大迭代次数时迭代终止,此时的P(i)(i=1,2,…,s)即为最优化目标函数的最优解,这就是使最优化目标函数最小时的最优的投影矩阵。
本发明的基于子空间学习与半监督正则化的跨媒体检索方法,还具有这样的特征:步骤二中,投影多媒体数据的特征向量到共同空间的方法如下:
使用最优的投影矩阵投影多媒体数据的特征向量到共同空间,根据媒体类型使用相应的投影矩阵,对于多媒体数据库中第i种媒体类型的一个特征向量利用第i个投影矩阵来投影,投影后的向量为c为多媒体数据库中语义类别的数目,最后不同媒体类型投影后的向量的维度是相同的且为c维,但分别保存各种媒体类型投影后的向量。
本发明的基于子空间学习与半监督正则化的跨媒体检索方法,还具有这样的特征:
步骤三中,提取用户提交的媒体数据的特征的方法如下:
根据媒体的类型使用相应的模型提取出用户提交的媒体数据的特征。
本发明的基于子空间学习与半监督正则化的跨媒体检索方法,还具有这样的特征:
步骤三中,投影该媒体数据的特征向量到共同空间中;
对于该媒体数据的特征向量,投影到共同空间中为向量,则此向量就是共同空间中的一个向量。
本发明的基于子空间学习与半监督正则化的跨媒体检索方法,还具有这样的特征:
步骤三中,计算该投影后的向量与共同空间中的其他向量之间的相似度的方法如下:
共同空间中任意两个向量之间相似度的公式定义如下:
表示在共同空间中向量的k近邻,r代表投影数据点o所属的类别,σ(z)=(1+exp(-z))-1是Sigmoid函数,在实际运用中,用户一般希望指定某种媒体类型数据返回,那么则根据此公式计算出该投影后的向量与在共同空间中用户指定的媒体类型数据的投影向量之间的相似度,用排序函数按相似度值降序排序,保存相似度值和对应的索引向量,方便之后返回。
本发明的基于子空间学习与半监督正则化的跨媒体检索方法,还具有这样的特征:
步骤三中,返回与之相似度最大的前k个特征向量所对应媒体数据的过程如下,
返回之前获得的索引向量的前k个元素的值,由于原始数据的特征向量的索引值与投影后的向量的索引值是相同的,即投影前的特征向量在由这些特征向量组成的矩阵中的位置与投影后的向量在由这些向量组成的矩阵中的位置是相同的,而这k个元素的值就是原始数据的特征向量的索引值,即位置,由之前建立的索引表找到对应的原始数据,返回这k个原始数据给用户。
发明的有益效果
与现有技术相比,本发明的优势在于:
(1)本发明的方法同时考虑在不同媒体类型中相同语义类别媒体数据之间的相似度和不同语义类别媒体数据之间的差异性。
(2)本发明的方法利用的半监督学习方法吸收了有标签数据和无标签数据,并使用了近邻图来表示投影数据点的分布信息,结合了k近邻思想迫使投影数据点的k近邻靠的更近。
(3)本发明的方法利用了每种媒体类型有标签数据的标签信息,再加上近邻图中k近邻的使用,使得每个媒体数据的投影向量不仅紧靠它的标签向量,而且紧靠它的k近邻,这样每个媒体数据的投影向量和它的k近邻都紧靠它的标签向量,而标签向量本质上是语义类别的向量,这样检索会更加准确。
附图说明
图1是本发明的一种基于子空间学习与半监督正则化的跨媒体检索方法流程图;
图2是本发明的实施例中所采用检索方法的搜索结果。
具体实施方式
以下结合附图来说明本发明的具体实施方式。
如图1所示,基于子空间学习与半监督正则化的跨媒体检索方法,包括如下步骤:
步骤(1)建立多媒体数据库,包括如下步骤:
(1.1)收集多媒体原始数据:每种媒体类型都要收集大量的媒体数据,也可以使用公开的数据集,如维基百科数据集,但这个数据集只有图像和文本数据。
(1.2)提取多媒体数据的特征:采用合适的方法分别提取每种媒体类型数据的特征。可以采用多种特征提取类的函数对特征进行提取。
(1.3)保存多媒体数据的特征向量和原始数据:根据不同媒体类型来分别保存每种媒体类型数据的特征向量和原始数据,保存原始数据时给每个原始数据取一个名称且不重复,此名称实质是文件名,并将提取出的特征向量与原始数据一一对应,最好每种媒体类型数据建立一个索引表,可以让一个整数对应一个原始数据的名称,方便以后根据特征向量的索引值先找到原始数据的名称,再通过此名称来读取出原始数据。
步骤(2)获得不同媒体类型的投影矩阵,包括如下步骤:
(2.1)定义最优化目标函数;
先分别介绍最优化目标函数的四大组成部分,给出最优化目标函数的第一个组成部分(标签损失项):
其中,表示第i种媒体的有标签数据的特征向量构成的矩阵,其中是第i种媒体的第p个样本数据的特征向量,n(i)是第i种媒体有标签数据的数量,d(i)是第i种媒体的每个样本数据对应的特征向量的维度;是第i种媒体类型的投影矩阵;表示第i种媒体有标签数据对应的标签向量构成的矩阵,c为多媒体数据库中语义类别的数量,是第i种媒体的第p个样本数据所对应的标签向量,s是多媒体数据库中媒体类型的数量,α是一个正的常量参数,||Z||F是矩阵Z的Frobenius范数。
接着,给出最优化目标函数的第二个组成部分,该部分的第一项由不同媒体数据中相同语义类别数据之间的欧式距离组成,该部分的第二项由不同媒体数据中不同语义类别数据之间的欧式距离组成。第二个组成部分定义如下:
其中和是第i种媒体和第j种媒体中包含mij对有着相同标签数据的特征向量构成的矩阵,和是第i种媒体和第j种媒体中包含dij对有着不同标签数据的特征向量构成的矩阵。ε和μ为两个正的常量参数,用来平衡式(2)。如果将式(2)最小化,则是在最小化不同媒体数据中相同语义类别数据之间的欧式距离并且最大化不同媒体数据中不同语义类别数据之间的欧式距离。
然后,给出最优化目标函数的第三个组成部分,在给出第三个组成部分之前,先构建跨媒体近邻图,对于每种媒体,分别构建它们的近邻图,并且构建近邻图的方式是一样的。对于每种媒体,用G(i)=(V(i),E(i))表示第i种媒体的近邻图,V(i)表示第i种媒体近邻图中的顶点,这些顶点由在多媒体数据库中第i种媒体有标签和无标签数据通过投影获得的投影向量构成,并且一个投影向量表示一个顶点,每种媒体数据投影向量的维度是相同的,E(i)表示这些顶点的边。
计算跨媒体近邻图G(i)=(V(i),E(i))对应的权重矩阵其中中的i表示第i种媒体,p表示权重矩阵W(i)的第p行,q表示权重矩阵W(i)的第q列,表示第i种媒体对应的权重矩阵W(i)的第p行、第q列上的元素值。的定义如下:
接着给出最优化目标函数的第三个组成部分,该项考虑了在多媒体数据库中有标签和无标签媒体数据投影点(即投影向量)的近邻关系,定义如下:
其中,a(i)=n(i)+m(i)为多媒体数据库中第i种媒体有标签和无标签数据的数量,是一个图的归一化拉普拉斯矩阵,I是一个单位矩阵,D(i)是一个对角矩阵且对角线上的元素值为权重矩阵W(i)相应行上的元素值之和,为D(i)对角线上的第p个元素值,是由第i种媒体有标签和无标签数据投影后的向量组成,是由第i种媒体的有标签数据和无标签数据的特征向量组成,tr(Z)表示矩阵Z的迹,λ是一个正的常量参数。
然后给出最优化目标函数的第四个组成部分,该项为避免过拟合的正则化项,定义如下:
其中P(i)为第i种媒体类型的投影矩阵,β为正则化项的参数。
介绍完最优化目标函数的四大组成部分,那么将这四大组成部分结合起来构成最优化目标函数,如下:
式(6)是由式(1)、(2)、(4)、(5)组合而成,求解式(6)获得每种媒体最优的投影矩阵P(i)(i=1,2,...,s)。将公式(6)中的式子记为Ω,直接用Ω对P(i)求偏导并让其置为0,得到如下结果:
将式(7)整理得到如下:
接着通过迭代的方法找到最优的投影矩阵P(i)(i=1,2,...,s)。
注意每次计算的W(i)矩阵是不同的,因为W(i)矩阵定义如下:
其中由于每次迭代的P(i)矩阵在更新后变化了,所以也随着变化,随着变化(即W(i)矩阵变化)。而D(i)是一个对角矩阵且对角线上的元素值为权重矩阵W(i)相应行上的元素值之和,则D(i)也随着变化,那么根据式(12)可知,会随着变化,也就是会随着迭代次数t而改变。更新投影矩阵的等式如下:
这里反复计算式(9),每次迭代后t=t+1。当两次迭代的改变率低于某个阈值(如0.001)或达到最大迭代次数时迭代终止,此时的P(i)(i=1,2,…,s)即为最优化目标函数的最优解,这就是使最优化目标函数最小时的最优的投影矩阵。
(2.3)投影多媒体数据的特征向量到共同空间:使用前面得到的最优的投影矩阵投影多媒体数据的特征向量到共同空间,根据媒体类型使用相应的投影矩阵,对于多媒体数据库中第i种媒体类型的一个特征向量利用第i个投影矩阵来投影,投影后的向量为c为多媒体数据库中语义类别的数目。最后不同媒体类型投影后的向量的维度是相同的且为c维,但分别保存各种媒体类型投影后的向量。
步骤(3)进行跨媒体检索,包括如下步骤:
(3.1)提取用户提交的媒体数据的特征:根据媒体的类型使用相应的模型提取出用户提交的媒体数据的特征向量。一般会提前用多媒体数据集的每种媒体类型数据分别训练出相应媒体类型的特征提取的模型。
(3.3)计算该投影后的向量与共同空间中的其他向量之间的相似度:共同空间中任意两个向量之间相似度的公式定义如下:
表示在共同空间中向量的k近邻,r代表投影数据点o所属的类别,σ(z)=(1+exp(-z))-1是Sigmoid函数。在实际运用中,用户一般希望指定某种媒体类型数据返回,那么则根据此公式计算出该投影后的向量与在共同空间中用户指定的媒体类型数据的投影向量之间的相似度,用排序函数按相似度值降序排序,保存相似度值和对应的索引向量,方便之后返回。
(3.4)返回与其相似度最大的前k个特征向量所对应媒体数据:返回之前获得的索引向量的前k个元素的值,由于原始数据的特征向量的索引值与投影后的向量的索引值是相同的,即投影前的特征向量在由这些特征向量组成的矩阵中的位置与投影后的向量在由这些向量组成的矩阵中的位置是相同的,而这k个元素的值就是原始数据的特征向量的索引值,即位置,由之前建立的索引表找到对应的原始数据,返回这k个原始数据给用户。
下面通过具体实施例来进一步说明。
(1)建立多媒体数据库;
这里使用公开的维基百科数据集,这个数据集只有图像和文本数据,并且用维基百科数据集中最受欢迎的10个类别,包括以下10个不同的语义类别:艺术、生物、地理、历史、文献、媒体、音乐、王权、运动、战争,这总共包括2866对成组的图像和文本,即有2866张图片和2866个文本,其中训练集有2173对成组的图像和文本,测试集有693对成组的图像和文本。
对于这个维基百科数据集,每幅图像提取4096维的卷积神经网络CNN特征,每个文本提取3000维的词袋(Bag ofWords)特征。
分别保存此数据集的图像和文本数据的特征向量和原始数据,并将提取出的特征向量与原始数据一一对应,最好分别建立图像和文本数据的索引表,方便以后直接根据特征向量的索引值找到其原始数据。
(2)获得不同媒体类型的投影矩阵:
首先将多媒体数据库中有标签数据和无标签数据的特征向量进行归一化,然后利用随机矩阵初始化并且设置t=0和设置最大迭代次数为15。然后根据公式(9)来进行迭代,每次迭代后t=t+1。当两次迭代的改变率低于0.001或达到最大迭代次数15时迭代终止,此时的P(i)(i=1,2,…,s)即为最优化目标函数的最优解,这就是使最优化目标函数最小时的最优的投影矩阵。
(3)进行跨媒体检索
当用户提交一个类别为“地理”的文本为查询样例进行跨媒体检索时,提取用户提交的此文本查询样例的特征,投影该查询样例的特征向量到共同空间中,然后根据公式(10)计算该投影后的向量与共同空间中的其他向量之间的相似度,返回与其相似度最大的前k个特征向量所对应媒体数据给用户。这里k取12。
结果如图2所示,在返回的12个图像中有10个是“地理”类别的图像,没加边框的图像表示它的类别与查询样例类别相同,加了黑色框线的图像表示它的类别与查询样例类别不同,其中左侧的加黑色框线图像的类别在此实验数据集中被划分为“历史”,右侧的加黑色框线图像的类别在此实验数据集中被划分为“战争”,12个检索结果中只有2个错误,说明此检索方法能够较为准确地度量跨媒体相似度,能取得较好的检索效率。
Claims (7)
1.一种基于子空间学习与半监督正则化的跨媒体检索方法,其特征在于,包括步骤:
步骤一,建立多媒体数据库,
收集多媒体原始数据;提取多媒体数据的特征;保存多媒体数据的特征向量和原始数据;
步骤二,获得不同媒体类型的投影矩阵,
定义最优化目标函数;利用迭代方法求解最优化目标函数;投影多媒体数据的特征向量到共同空间,
定义最优化目标函数的方法如下:
最优化目标函数包括四个组成部分,最优化目标函数的第一个组成部分:
其中,表示第i种媒体的有标签数据的特征向量构成的矩阵,其中是第i种媒体的第p个样本数据的特征向量,n(i)是第i种媒体有标签数据的数量,d(i)是第i种媒体的每个样本数据对应的特征向量的维度;是第i种媒体类型的投影矩阵;表示第i种媒体有标签数据对应的标签向量构成的矩阵,c为多媒体数据库中语义类别的数量,是第i种媒体的第p个样本数据所对应的标签向量,s是多媒体数据库中媒体类型的数量,α是一个正的常量参数,||Z||F是矩阵Z的Frobenius范数,
最优化目标函数的第二个组成部分,该部分的第一项由不同媒体数据中相同语义类别数据之间的欧式距离组成,该部分的第二项由不同媒体数据中不同语义类别数据之间的欧式距离组成,第二个组成部分定义如下:
其中和是第i种媒体和第j种媒体中包含mij对有着相同标签数据的特征向量构成的矩阵,和是第i种媒体和第j种媒体中包含dij对有着不同标签数据的特征向量构成的矩阵,ε和μ为两个正的常量参数,用来平衡式(2),如果将式(2)最小化,则是在最小化不同媒体数据中相同语义类别数据之间的欧式距离并且最大化不同媒体数据中不同语义类别数据之间的欧式距离,
最优化目标函数的第三个组成部分,在给出第三个组成部分之前,先构建跨媒体近邻图,对于每种媒体,分别构建它们的近邻图,并且构建近邻图的方式是一样的,对于每种媒体,用G(i)=(V(i),E(i))表示第i种媒体的近邻图,V(i)表示第i种媒体近邻图中的顶点,这些顶点由在多媒体数据库中第i种媒体有标签和无标签数据通过投影获得的投影向量构成,并且一个投影向量表示一个顶点,每种媒体数据投影向量的维度是相同的,E(i)表示这些顶点的边,
计算跨媒体近邻图G(i)=(V(i),E(i))对应的权重矩阵其中中的i表示第i种媒体,p表示权重矩阵W(i)的第p行,q表示权重矩阵W(i)的第q列,表示第i种媒体对应的权重矩阵W(i)的第p行、第q列上的元素值,的定义如下:
接着给出最优化目标函数的第三个组成部分,该部分考虑了在多媒体数据库中有标签和无标签媒体数据投影点的近邻关系,定义如下:
其中,a(i)=n(i)+m(i)为多媒体数据库中第i种媒体有标签和无标签数据的数量,是一个图的归一化拉普拉斯矩阵,I是一个单位矩阵,D(i)是一个对角矩阵且对角线上的元素值为权重矩阵W(i)相应行上的元素值之和,为D(i)对角线上的第p个元素值,是由第i种媒体有标签和无标签数据投影后的向量组成,是由第i种媒体的有标签数据和无标签数据的特征向量组成,tr(Z)表示矩阵Z的迹,λ是一个正的常量参数,
最优化目标函数的第四个组成部分,该部分为避免过拟合的正则化项,定义如下:
其中P(i)为第i种媒体类型的投影矩阵,β为正则化项的参数,
介绍完最优化目标函数的四大组成部分,那么将这四大组成部分结合起来构成最优化目标函数,如下:
式(6)是由式(1)、(2)、(4)、(5)组合而成,求解式(6)获得每种媒体最优的投影矩阵P(i)(i=1,2,...,s),将公式(6)中的式子记为Ω,直接用Ω对P(i)求偏导并让其置为0,得到如下结果:
然后将式(7)的等式整理获得如下:
接着通过迭代的方法找到最优的投影矩阵P(i)(i=1,2,...,s);
步骤三,进行跨媒体检索,
提取用户提交的媒体数据的特征;投影该媒体数据的特征向量到共同空间中;计算该投影后的向量与共同空间中的其他向量之间的相似度;返回与之相似度最大的前k个特征向量所对应媒体数据。
4.如权利要求3所述的基于子空间学习与半监督正则化的跨媒体检索方法,其特征在于:
步骤三中,提取用户提交的媒体数据的特征的方法如下:
根据媒体的类型使用相应的模型提取出用户提交的媒体数据的特征。
5.如权利要求4所述的基于子空间学习与半监督正则化的跨媒体检索方法,其特征在于:
步骤三中,投影该媒体数据的特征向量到共同空间中;
对于该媒体数据的特征向量,投影到共同空间中为向量,则此向量就是共同空间中的一个向量。
6.如权利要求5所述的基于子空间学习与半监督正则化的跨媒体检索方法,其特征在于:
步骤三中,计算该投影后的向量与共同空间中的其他向量之间的相似度的方法如下:
共同空间中任意两个向量之间相似度的公式定义如下:
7.如权利要求6所述的基于子空间学习与半监督正则化的跨媒体检索方法,其特征在于:
步骤三中,返回与之相似度最大的前k个特征向量所对应媒体数据的过程如下,
返回之前获得的索引向量的前k个元素的值,由于原始数据的特征向量的索引值与投影后的向量的索引值是相同的,即投影前的特征向量在由这些特征向量组成的矩阵中的位置与投影后的向量在由这些向量组成的矩阵中的位置是相同的,而这k个元素的值就是原始数据的特征向量的索引值,即位置,由之前建立的索引表找到对应的原始数据,返回这k个原始数据给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810159590.0A CN108388639B (zh) | 2018-02-26 | 2018-02-26 | 一种基于子空间学习与半监督正则化的跨媒体检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810159590.0A CN108388639B (zh) | 2018-02-26 | 2018-02-26 | 一种基于子空间学习与半监督正则化的跨媒体检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108388639A CN108388639A (zh) | 2018-08-10 |
CN108388639B true CN108388639B (zh) | 2022-02-15 |
Family
ID=63068529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810159590.0A Expired - Fee Related CN108388639B (zh) | 2018-02-26 | 2018-02-26 | 一种基于子空间学习与半监督正则化的跨媒体检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108388639B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188210B (zh) * | 2019-05-10 | 2021-09-24 | 山东师范大学 | 一种基于图正则化与模态独立的跨模态数据检索方法及系统 |
CN111813967B (zh) * | 2020-07-14 | 2024-01-30 | 中国科学技术信息研究所 | 检索方法、装置、计算机设备及存储介质 |
CN114168759A (zh) * | 2020-09-11 | 2022-03-11 | 四川大学 | 基于跨媒体分析的科技数据检索技术 |
CN113722489B (zh) * | 2021-09-02 | 2023-10-31 | 珠海市新德汇信息技术有限公司 | 一种基于nlp算法的关系分析方法 |
CN115170746B (zh) * | 2022-09-07 | 2022-11-22 | 中南大学 | 一种基于深度学习的多视图三维重建方法、系统及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012018847A2 (en) * | 2010-08-02 | 2012-02-09 | Cognika Corporation | Cross media knowledge storage, management and information discovery and retrieval |
CN103336968A (zh) * | 2013-05-28 | 2013-10-02 | 中国矿业大学 | 基于张量距离补丁校准的高光谱数据降维方法 |
CN103678483A (zh) * | 2013-10-24 | 2014-03-26 | 江苏大学 | 基于自适应概率超图和半监督学习的视频语义分析方法 |
CN104077408A (zh) * | 2014-07-11 | 2014-10-01 | 浙江大学 | 大规模跨媒体数据分布式半监督内容识别分类方法及装置 |
CN104166684A (zh) * | 2014-07-24 | 2014-11-26 | 北京大学 | 一种基于统一稀疏表示的跨媒体检索方法 |
CN106021402A (zh) * | 2016-05-13 | 2016-10-12 | 河南师范大学 | 用于跨模态检索的多模态多类Boosting框架构建方法及装置 |
-
2018
- 2018-02-26 CN CN201810159590.0A patent/CN108388639B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012018847A2 (en) * | 2010-08-02 | 2012-02-09 | Cognika Corporation | Cross media knowledge storage, management and information discovery and retrieval |
CN103336968A (zh) * | 2013-05-28 | 2013-10-02 | 中国矿业大学 | 基于张量距离补丁校准的高光谱数据降维方法 |
CN103678483A (zh) * | 2013-10-24 | 2014-03-26 | 江苏大学 | 基于自适应概率超图和半监督学习的视频语义分析方法 |
CN104077408A (zh) * | 2014-07-11 | 2014-10-01 | 浙江大学 | 大规模跨媒体数据分布式半监督内容识别分类方法及装置 |
CN104166684A (zh) * | 2014-07-24 | 2014-11-26 | 北京大学 | 一种基于统一稀疏表示的跨媒体检索方法 |
CN106021402A (zh) * | 2016-05-13 | 2016-10-12 | 河南师范大学 | 用于跨模态检索的多模态多类Boosting框架构建方法及装置 |
Non-Patent Citations (2)
Title |
---|
Learning Cross-Media Joint Representation With Sparse and Semisupervised Regularization;Xiaohua Zhai et al.;《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》;20140603;第24卷(第6期);965-978 * |
一种基于内容相关性的跨媒体检索方法;张鸿 等;《计算机学报》;20080531;第31卷(第5期);820-826 * |
Also Published As
Publication number | Publication date |
---|---|
CN108388639A (zh) | 2018-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108388639B (zh) | 一种基于子空间学习与半监督正则化的跨媒体检索方法 | |
Hu et al. | Creating something from nothing: Unsupervised knowledge distillation for cross-modal hashing | |
Peng et al. | Semi-supervised cross-media feature learning with unified patch graph regularization | |
Wang et al. | A comprehensive survey on cross-modal retrieval | |
Wu et al. | Online multi-modal distance metric learning with application to image retrieval | |
Yu et al. | Unsupervised random forest indexing for fast action search | |
CN106202256B (zh) | 基于语义传播及混合多示例学习的Web图像检索方法 | |
Liu et al. | Label to region by bi-layer sparsity priors | |
Cai et al. | An attribute-assisted reranking model for web image search | |
CN109784405B (zh) | 基于伪标签学习和语义一致性的跨模态检索方法及系统 | |
Wang et al. | Facilitating image search with a scalable and compact semantic mapping | |
CN108595546B (zh) | 基于半监督的跨媒体特征学习检索方法 | |
Li et al. | Exploiting hierarchical activations of neural network for image retrieval | |
CN105701225B (zh) | 一种基于统一关联超图规约的跨媒体检索方法 | |
Zheng et al. | MMDF-LDA: An improved Multi-Modal Latent Dirichlet Allocation model for social image annotation | |
Niu et al. | Knowledge-based topic model for unsupervised object discovery and localization | |
CN111460201A (zh) | 一种基于生成性对抗网络的模态一致性跨模态检索方法 | |
Abdul-Rashid et al. | Shrec’18 track: 2d image-based 3d scene retrieval | |
CN110442736B (zh) | 一种基于二次判别分析的语义增强子空间跨媒体检索方法 | |
Song et al. | Hierarchical deep hashing for image retrieval | |
Bai et al. | Learning two-pathway convolutional neural networks for categorizing scene images | |
Lv et al. | Retrieval oriented deep feature learning with complementary supervision mining | |
Zhan et al. | Multi-similarity semantic correctional hashing for cross modal retrieval | |
Mithun et al. | Construction of diverse image datasets from web collections with limited labeling | |
Tian et al. | Automatic image annotation with real-world community contributed data set |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220215 |