CN106777318B - 基于协同训练的矩阵分解跨模态哈希检索方法 - Google Patents
基于协同训练的矩阵分解跨模态哈希检索方法 Download PDFInfo
- Publication number
- CN106777318B CN106777318B CN201710006037.9A CN201710006037A CN106777318B CN 106777318 B CN106777318 B CN 106777318B CN 201710006037 A CN201710006037 A CN 201710006037A CN 106777318 B CN106777318 B CN 106777318B
- Authority
- CN
- China
- Prior art keywords
- matrix
- data
- training
- similarity
- modal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/325—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于协同训练与矩阵分解的跨模态哈希检索方法,主要解决无类标的跨模态数据如何进行有效的模态间与模态内相似性约束的问题。其实现步骤为:获取原始数据并归一化处理;协同训练得到模态间约束;用近邻关系得到模态内约束;训练数据矩阵分解,加入模态间和模态内约束,得到目标函数;交替迭代得到基矩阵、系数矩阵和投影矩阵表达式;量化得到训练数据集和测试数据集哈希编码;计算该两数据集哈希编码之间的汉明距离;汉明距离排序得到检索结果。本发明利用协同训练方法得到跨模态数据的模态间相似性约束,提高图像与文本互检索性能,用于移动设备、物联网以及电子商务的图片文本互搜索服务。
Description
技术领域
本发明属于图像处理技术领域,涉及大规模图像数据与文本数据的快速互检索,具体是一种基于协同训练的矩阵分解跨模态哈希检索方法,可用于物联网、电子商务以及移动设备等的图片与文本互搜索服务。
背景技术
近年来,随着移动设备、互联网、云计算等技术的迅速发展,信息社会已进入大数据时代。图像、文本、音频、视频等大量不同模态的数据迅速涌现,作为信息传递的媒介渗入到人们生活中的方方面面。大数据改变着人们的工作生活方式,同时也影响着科学研究的模式。在信息技术飞速发展的今天,大数据的应用对科技产业举足轻重,其发展前景也毋庸置疑。如何利用这些大数据,如何从中挖掘出有用的信息,便成为人们最为关注的问题。跨模态数据检索作为一项基本技术,在机器学习、计算机视觉以及数据挖掘等领域被广泛应用。然而大数据具有存储量大、数据高维且复杂等一系列特点,这使得针对大数据的检索困难重重。哈希算法作为一种广为使用的近似最近邻检索技术,由于其检索速度快、存储量低,被广泛应用于大数据检索领域。如今,基于哈希算法的单一模态数据检索方法在图像检索领域取得了较好的发展。然而实际应用中的图像、文本、音频、视频等多媒体数据具有模态多样、数据海量等特点,针对大量的跨模态数据,如何设计快速有效的哈希算法,实现跨模态数据的相似性搜索,是大数据时代下亟待解决的问题。
Guiguang Ding,Yuchen Guo和Jile Zhou在文章“Collective MatrixFactorization Hashing for Multimodal Data”(IEEE Conference on Computer Visionand Pattern Recognition,2014,pp.2083-2090)中提出一种利用协同矩阵分解的方法对多模态的数据进行相似性搜索。该方法利用协同矩阵分解将多模态数据映射到潜在的低维子空间中,且每个数据在此低维子空间中有对应的表示系数,通过要求成对的不同模态数据的这一表示系数完全相同来达到相似性保持的目的。最后通过量化低维表示系数来得到多模态数据的哈希编码。由于只考虑了模态间的相似性保持而忽略了数据在模态内的相似性,这一方法虽能进行有效的跨模态数据的相似性检索,但检索性能仍待提高。
Jun Tang,Ke Wang和Ling Shao的文章“Supervised Matrix FactorizationHashing for Cross-Modal Retrieval”(IEEE Transcations on Image Processing2016,VOL.25,NO.7)针对有类标的数据,在利用协同矩阵分解哈希框架进行跨模态检索的基础上,提出以成对数据的类标约束作为模态间的相似性约束,以近邻约束作为同一模态内数据的相似性约束,提高了检索精度。但这一监督方法仅对有类标数据有效,对于实际应用中占大多数的无类标数据,无法进行基于类标的约束处理。
综上,基于矩阵分解的哈希方法能够进行快速有效的跨模态检索。然而,在实际中准确的类标信息不易获取的情况下,无法有效地同时保持模态间相似性与模态内相似性,以致获取的哈希编码判别性低,影响检索精度。
发明内容
本发明的目的在于针对上述已有技术的不足,提供一种精度更高的基于协同训练的矩阵分解跨模态哈希检索方法。
本发明是一种基于协同训练的矩阵分解跨模态哈希检索方法,其特征在于,包括有如下步骤:
(1)获取原始数据,原始数据集包括训练数据集和测试数据集,对原始数据集的训练数据进行归一化处理,得到相应的归一化训练数据,包括归一化图像训练数据,简称为图像数据,记为X(1),归一化文本训练数据,简称为文本数据,记为X(2);
(2)利用协同训练方法,得到构造训练数据的模态间相似性约束项的拉普拉斯矩阵;
(2a)利用高斯核函数分别对图像数据和文本数据构造相似性矩阵,图像数据的相似性矩阵记为K1,文本数据的相似性矩阵记为K2;
(2b)分别计算图像数据相似性矩阵和文本数据相似性矩阵的拉普拉斯矩阵;
(2c)分别对拉普拉斯矩阵进行特征分解,得到特征向量,图像数据拉普拉斯矩阵的特征向量记为P1,文本数据拉普拉斯矩阵的特征向量记为P2;
(2d)利用协同训练方法分别更新相似性矩阵,得到更新后的图像数据相似性矩阵和更新后的文本数据相似性矩阵图像数据的相似性矩阵记为K1,文本数据的相似性矩阵定义记为K2;
(2e)设定一个协同训练迭代次数,当迭代次数达到迭代设定值时,执行步骤(2f),否则返回步骤(2d),用协同训练方法分别再次更新图像数据和文本数据的相似性矩阵;
(2f)分别用迭代完成时的相似性矩阵计算模态间相似性约束项的图像数据和文本数据的拉普拉斯矩阵,图像数据的拉普拉斯矩阵记为L1,文本数据的拉普拉斯矩阵记为L2;
(3)构造训练数据的近邻关系,得到构造训练数据的模态内相似性约束项的拉普拉斯矩阵L′;
(4)分别对归一化训练数据进行矩阵分解,并构造训练数据的模态间及模态内相似性约束项,得到目标函数;
(5)对目标函数中作为变量的基矩阵、系数矩阵以及投影矩阵进行交替迭代,得到对训练数据进行矩阵分解后的基矩阵、系数矩阵以及投影矩阵的具体表达式;
(6)得到训练数据集的哈希编码;
对训练数据的系数矩阵V进行量化,得到训练数据集的哈希编码Y;
(7)得到测试数据集的哈希编码;
(7a)将在训练阶段得到的投影矩阵Wt与测试数据集中的测试数据Xt′相乘,对测试数据进行由高维到低维子空间投影的低维表示,其中,t=1代表图像数据,t=2代表文本数据;
(7b)将得到的低维表示进行量化,得到测试数据集的哈希编码Yt′;
(8)计算测试数据哈希编码Yt′与训练数据集哈希编码Y之间的汉明距离;
(9)对汉明距离进行排序,得到测试数据检索结果,完成基于协同训练的矩阵分解跨模态哈希检索。
本发明利用协同训练方法保持不同模态数据间的相似性判别信息,同时利用近邻约束来保持同一模态数据的相似性结构信息。此方法针对使用更广泛的无监督数据,提高跨模态数据的互检索性能。
本发明与现有技术相比具有以下优点:
第一,本发明在对跨模态数据进行矩阵分解的基础上,增加了由协同训练和近邻约束构成的相似性判别信息保持约束项,分别作为数据模态间和模态内的相似性约束,因而能得到更具判别性和局部特性的低维表示系数,明显地提高了跨模态数据的互检索精度。
第二,由于实际应用中类标信息的获取需要投入大量的人力且不能保证准确,而本发明无需使用类标信息,因此更适用于实际中应用更为广泛的无监督学习。
附图说明
图1为本发明的流程图;
图2为本发明与现有哈希跨模态检索方法在Wiki数据库下的准确率实验结果曲线对比图,其中,图2(a)为编码长度取32位的图像查询文本准确率曲线图,图2(b)为编码长度取32位的文本查询图像准确率曲线图;
图3为本发明与现有哈希跨模态检索方法在Wiki数据库下的召回率实验结果曲线对比图,其中,图3(a)为编码长度取32位的图像查询文本召回率曲线图,图3(b)为编码长度取32位的文本查询图像召回率曲线图;
图4为本发明与现有哈希跨模态检索方法在LabelMe数据库下的准确率实验结果曲线对比图,其中,图4(a)为编码长度取64位的图像查询文本准确率曲线图,图4(b)为编码长度取64位的文本查询图像准确率曲线图;
图5为本发明与现有哈希跨模态检索方法在LabelMe数据库下的召回率实验结果曲线对比图,其中,图5(a)为编码长度取64位的图像查询文本召回率曲线图,图5(b)为编码长度取64位的文本查询图像召回率曲线图。
具体实施方式
下面结合附图,对本发明的实现方法作详细描述:
实施例1
大数据时代,信息的获取与处理至关重要,检索技术是其中的关键步骤,尤其是在各种模态数据大量涌现的背景下,如何进行有效检索,也是信息利用的关键所在。现有的跨模态哈希检索方法在实际中类标信息不易获取的情况下,无法有效地同时保持模态间与模态内相似性,检索精度也因此受到影响。针对此问题,本发明展开了创新研究,提出一种基于协同训练的矩阵分解跨模态哈希检索方法,参见图1,整个哈希检索过程包括有如下步骤:
(1)获取原始数据,原始数据集包括训练数据集和测试数据集,对原始数据集的训练数据进行归一化处理,得到相应的归一化训练数据,包括归一化图像训练数据,简称为图像数据,记为X(1),归一化文本训练数据,简称为文本数据,记为X(2);
(2)利用协同训练方法,得到构造训练数据的模态间相似性约束项的拉普拉斯矩阵,具体实现包括:
(2a)利用高斯核函数分别对归一化图像训练数据和归一化文本训练数据构造相似性矩阵,图像数据的相似性矩阵记为K1,文本数据的相似性矩阵记为K2;
(2b)分别计算图像数据相似性矩阵和文本数据相似性矩阵的拉普拉斯矩阵;
(2c)分别对拉普拉斯矩阵进行特征分解,得到特征向量,图像数据拉普拉斯矩阵的特征向量记为P1,文本数据拉普拉斯矩阵的特征向量记为P2;
(2d)利用协同训练方法分别更新步骤(2a)得到的相似性矩阵,得到更新后的图像数据相似性矩阵和更新后的文本数据相似性矩阵更新后的图像数据相似性矩阵是对文本数据的相似性矩阵进行特征分解,得到包含此模态判别性信息的特征向量P2,再用此特征向量P2对图像数据的相似性矩阵进行约束,使更新后的图像数据相似性矩阵S1具有了来自文本数据的判别信息。同理,按照此协同训练的方法,得到更新后的文本数据相似性矩阵具有来自图像数据的判别信息,图像数据与文本数据代表了不同模态,因此本发明可以使不同模态的数据相互进行相似性约束。
(2e)设定一个协同训练迭代次数,当迭代次数达到迭代设定值时,执行步骤(2f),否则返回步骤(2d),用协同训练方法分别再次更新图像数据和文本数据的相似性矩阵;
(2f)分别用迭代完成时的相似性矩阵计算模态间相似性约束项的图像数据和文本数据的拉普拉斯矩阵,图像数据的拉普拉斯矩阵记为L1,文本数据的拉普拉斯矩阵记为L2。
现存的方法利用类标信息对不同模态的成对数据进行模态间的相似性约束,而在实际应用中,类标信息的获取需要投入大量的人力,且不能保证其准确性,因此应用范围较窄。本发明另辟蹊径,通过协同训练方法,利用其中一个模态的语义判别信息对另一个模态的数据进行约束,有效地保持了不同模态间数据的相似性,从而提高了哈希跨模态检索的精度。
(3)构造训练数据的近邻关系,得到构造训练数据的模态内相似性约束项的拉普拉斯矩阵L′;
(4)分别对归一化训练数据进行矩阵分解,并构造训练数据的模态间及模态内相似性约束项,得到目标函数;
(5)对目标函数中作为变量的基矩阵、系数矩阵以及投影矩阵进行交替迭代,得到对训练数据进行矩阵分解后的基矩阵、系数矩阵以及投影矩阵的具体表达式;
由于整体目标函数是非凸的,无法直接求解所需变量,因此采用交替迭代的方法,固定目标函数中两个变量,对另一个变量进行求解,通过迭代更新变量直至目标函数收敛,得到对训练数据进行矩阵分解后的基矩阵、系数矩阵以及投影矩阵。
(6)得到训练数据集的哈希编码;
对训练数据的系数矩阵V进行量化,得到训练数据集的哈希编码Y。
(7)得到测试数据集的哈希编码;
(7a)将在训练阶段得到的投影矩阵Wt与测试数据集中的测试数据Xt′相乘,对测试数据进行由高维到低维子空间投影的低维表示,其中,t=1代表图像数据,t=2代表文本数据;
(7b)将由此得到的低维表示进行量化,得到测试数据集的哈希编码Yt′。
(8)计算测试数据哈希编码Yt′与训练数据集哈希编码Y之间的汉明距离。
(9)对步骤(8)得到的汉明距离进行排序,得到测试数据检索结果,完成基于协同训练的矩阵分解跨模态哈希检索。
实现本发明的技术思路是:在训练模式下,利用协同矩阵分解将不同模态的数据映射到潜在的低维子空间,并得到对应的低维表示系数,利用协同训练方法和近邻约束对此低维表示系数进行相似性约束,来保持模态间和模态内的判别性信息,通过量化低维表示系数得到训练数据的哈希编码,同时利用线性投影得到原始数据对应于汉明空间的的投影矩阵;在测试模式下,利用训练模式下获得的线性投影矩阵对测试数据进行投影,得到测试数据的低维表示,然后通过量化此低维表示得到哈希编码,从而计算测试数据与训练数据间的汉明距离,得到检索结果。
实施例2
基于协同训练的矩阵分解跨模态哈希检索方法同实施例1,步骤(3)所述的构造训练数据的近邻图,得到训练数据的近邻关系,按如下步骤进行:
(3a)将归一化图像训练数据矩阵的每行作为向量,看做一个图像数据,求得每两个向量之间的欧氏距离d;
(3b)将欧氏距离d进行排序,针对每个图像数据,取出其k个最近邻点的欧氏距离,存成对称的邻接矩阵W1,k的取值范围为[10,50],k值大时,精度会提高但是会增加计算量,k的取值还与被检索系统的数据量大小有关。本例中,近邻个数k取10;
(3c)计算图像数据邻接矩阵W1的拉普拉斯矩阵L1′;
(3d)针对文本数据,按照步骤(3a)到(3c)的同样方法得到文本数据邻接矩阵的拉普拉斯矩阵L2′;
(3e)将步骤(3c)和步骤(3d)中得到的图像数据和文本数据的拉普拉斯矩阵相加,得到模态内相似性约束的拉普拉斯矩阵L′。
近邻关系通过保持同一模态内数据的局部结构信息而有效地保持了数据的模态内相似性,进而得到更具判别性的哈希编码,提高哈希跨模态检索的精度。
实施例3
基于协同训练的矩阵分解跨模态哈希检索方法同实施例1-2,其中步骤(4)中得到目标函数的过程包括:
(4a)分别对图像训练数据X(1)和文本训练数据X(2)进行矩阵分解,构造矩阵分解重构误差项其中||·||F代表矩阵的F范数,U1、U2分别为图像数据和文本数据的基矩阵,V为成对的图像和文本数据在基矩阵下相同的系数矩阵,α为两个模态间的平衡参数,取α=0.5,两个模态的数据对目标函数贡献相同。
(4b)由于训练数据Xt的哈希编码是通过量化低维表示系数V得到,因此构造线性投影重构误差项得到训练数据的线性投影矩阵Wt,其中t=1时代表图像数据,t=2时代表文本数据,||·||F代表矩阵的F范数。
(4c)用步骤(2f)中得到的拉普拉斯矩阵L1、L2构造模态间的相似性约束项其中t=1时代表图像数据,t=2时代表文本数据,tr(·)代表矩阵的迹。
(4d)用步骤(3e)中得到的拉普拉斯矩阵L′构造模态内的相似性约束项其中t=1时代表图像数据,t=2时代表文本数据,tr(·)代表矩阵的迹。
(4e)构造正则约束项R(U1,U2,W1,W2,V),其中
(4f)将矩阵分解重构误差项线性投影重构误差项模态间相似性约束模态内相似性约束以及正则约束项R(U1,U2,W1,W2,V)相加,构成目标函数G,见下式:
其中t=1时代表图像数据,t=2时代表文本数据,α为不同模态间的平衡参数,一般取α=0.5,β为线性投影重构误差项的加权系数,取值范围为[20,500],η为模态内相似性约束项加权系数,取值范围为[0.5,50],γ为模态间相似性约束项加权系数,取值范围为[5,200],λ为正则约束项加权系数,一般取值为λ=0.01。
此目标函数中的矩阵分解重构误差项以及线性投影重构误差项将图像数据和文本数据映射到潜在的低维子空间中,模态间相似性约束项通过利用一个模态的判别性信息对另一个模态的数据进行约束进而保持跨模态数据相似性,模态内相似性约束项通过近邻关系约束同一模态内数据的相似性,因此通过此目标函数求得的哈希编码更具判别性,从而提高检索精度。
实施例4
基于协同训练的矩阵分解跨模态哈希检索方法同实施例1-3,步骤(5)所述的对目标函数中的变量进行交替迭代,得到对训练数据进行矩阵分解后的基矩阵、系数矩阵以及投影矩阵,就是对目标函数中作为变量的基矩阵、系数矩阵以及投影矩阵进行交替迭代,得到对训练数据进行矩阵分解后的基矩阵、系数矩阵以及投影矩阵的具体表达式,包括有如下步骤:
(5a)将基矩阵Ut、系数矩阵V以及投影矩阵Wt中的所有元素的值初始化为(0,1)之间的随机数,其中,t=1代表图像数据,t=2代表文本数据;
(5b)设定目标函数G的最小值、各个平衡参数α,β,η,γ,λ的值,本例中,设置α=0.5,β=20,η=0.5,γ=5,λ=0.01;
(5c)固定系数矩阵V和投影矩阵Wt,目标函数G变为关于基矩阵Ut的子函数G1,将G1对基矩阵求偏导,得到基矩阵的求解表达式
(5d)固定基矩阵Ut和系数矩阵V,目标函数G变为关于投影矩阵Wt的子函数G2,将G2对投影矩阵求偏导,得到投影矩阵的求解表达式
(5e)固定基矩阵Ut和投影矩阵Wt,目标函数G变为关于系数矩阵V的子函数G3,将G3对系数矩阵求偏导,利用等式AV+VB+C=0来更新系数矩阵V,其中B=η(L′+L′T)
(5f)重复执行步骤(5c)、(5d)、(5e),迭代更新以上矩阵,直至目标函数G收敛,得到训练后的基矩阵Ut、系数矩阵V以及投影矩阵Wt。
交替迭代方法将非凸的整体目标函数转化为凸的子目标函数,通过固定其中两个变量求解另一个变量的方式,高效地解决了基矩阵、系数矩阵以及投影矩阵的求解问题。
实施例5
基于协同训练的矩阵分解跨模态哈希检索方法同实施例1-4,本例中步骤(2e)中迭代设定值为200,步骤(3b)中最近邻点的个数为k=50,α=0.5,β=500,η=50,γ=200,λ=0.01,在这种情况下,可以得到具有判别性的哈希编码,获得精度较高的检索结果。
实施例6
基于协同训练的矩阵分解跨模态哈希检索方法同实施例1-5,本例中步骤(2e)中迭代设定值为50,步骤(3b)中最近邻点的个数为k=30,α=0.5,β=200,η=30,γ=150,λ=0.01,在这种情况下,可以同时有效保持模态间与模态内的相似性,得到精度较高的检索结果。
本发明解决了在实际中准确的类标信息不易获取的情况下,利用协同训练方法与近邻关系,有效地同时保持了模态间与模态内的相似性,获得更具判别性的哈希编码,从而提高跨模态数据的检索精度。
下面结合附图,给出一个完整的例子,对本发明的具体实现方法作进一步描述:
实施例7
基于协同训练的矩阵分解跨模态哈希检索方法同实施例1-6,
步骤1,获取原始数据并对数据进行归一化处理。
(1a)从给定的数据库中选取图像数据和文本数据作为原始数据;
(1b)对原始数据中训练数据集的图像和文本数据取均值,分别用每个原始数据减去该均值,得到相应的归一化数据,记为X(t)(对于图像数据,t=1;对于文本数据,t=2)。
步骤2,利用协同训练方法,得到构造训练数据的模态间相似性约束项的拉普拉斯矩阵。
(2a)利用高斯核函数分别对归一化图像训练数据和归一化文本训练数据构造相似性矩阵,图像数据的相似性矩阵记为K1,文本数据的相似性矩阵记为K2;
(2b)分别计算图像数据相似性矩阵和文本数据相似性矩阵的拉普拉斯矩阵;
(2c)分别对拉普拉斯矩阵进行特征分解,得到特征向量,图像数据拉普拉斯矩阵的特征向量记为P1,文本数据拉普拉斯矩阵的特征向量记为P2;
(2d)利用协同训练方法分别更新相似性矩阵,得到更新后的图像数据相似性矩阵和更新后的文本数据相似性矩阵图像数据的相似性矩阵记为K1,文本数据的相似性矩阵记为K2;
(2e)设定一个协同训练迭代次数,当迭代次数达到迭代设定值时,执行步骤(2f),否则返回步骤(2d),用协同训练方法分别再次更新图像数据和文本数据的相似性矩阵。
(2f)分别用迭代完成时的相似性矩阵计算得到最终的图像数据和文本数据的拉普拉斯矩阵,图像数据的拉普拉斯矩阵记为L1,文本数据的拉普拉斯矩阵记为L2。
步骤3,构造训练数据的近邻关系,得到构造训练数据的模态内相似性约束项的拉普拉斯矩阵。
(3a)将归一化图像训练数据矩阵的每行作为向量,看做一个图像数据,求得每两个向量之间的欧氏距离d;
(3b)将欧氏距离d进行排序,针对每个图像数据,取出其k个最近邻点的欧氏距离,存成对称的邻接矩阵W1,在本例中,近邻个数k取25;
(3c)计算图像数据邻接矩阵W1的拉普拉斯矩阵L1′;
(3d)针对文本数据,按照步骤(3a)到(3c)的同样方法得到文本数据邻接矩阵的拉普拉斯矩阵L2′;
(3e)将步骤(3c)和步骤(3d)中得到的图像数据和文本数据的拉普拉斯矩阵相加,得到模态内相似性约束的拉普拉斯矩阵L′。
步骤4,对训练数据进行矩阵分解,将协同训练关系和近邻关系分别作为数据模态间和模态内的相似性约束,得到目标函数。
(4a)分别对图像数据X(1)和文本训练数据X(2)进行矩阵分解,构造误差项其中||·||F代表矩阵的F范数,U1、U2分别为图像数据和文本数据的基矩阵,V为成对的图像和文本数据在基矩阵下相同的系数矩阵,α为两个模态间的平衡参数,取α=0.5,两个模态的数据对目标函数贡献相同;
(4b)构造误差项得到训练数据的线性投影矩阵Wt,其中t=1时代表图像数据,t=2时代表文本数据,||·||F代表矩阵的F范数;
(4c)用拉普拉斯矩阵L1、L2构造模态间的相似性约束项其中t=1时代表图像数据,t=2时代表文本数据,tr(·)代表矩阵的迹;
(4d)用拉普拉斯矩阵L′构造模态内的相似性约束项其中t=1时代表图像数据,t=2时代表文本数据,tr(·)代表矩阵的迹;
(4e)构造正则约束项R(U1,U2,W1,W2,V),其中
(4f)将矩阵分解重构误差项线性投影重构误差项模态间相似性约束模态内相似性约束以及正则约束项R(U1,U2,W1,W2,V)加权相加,构成如下目标函数:
其中t=1时代表图像数据,t=2时代表文本数据,α为不同模态间的平衡参数,一般取α=0.5,β为线性投影重构误差项的加权系数,取值范围为[20,500],η为模态内相似性约束项加权系数,取值范围为[0.5,50],γ为模态间相似性约束项加权系数,取值范围为[5,200],λ为正则约束项加权系数,一般取值为λ=0.01。
步骤5,对目标函数中的变量进行交替迭代,得到对训练数据进行矩阵分解后的基矩阵、系数矩阵以及投影矩阵。
(5a)将基矩阵Ut、系数矩阵V以及投影矩阵Wt中的所有元素的值初始化为(0,1)之间的随机数;
(5b)设定目标函数G的最小值、各个平衡参数α,β,η,γ,λ的值;
(5c)利用更新基矩阵U1以及U2;
(5d)利用更新投影矩阵Wt;
(5e)利用等式AV+VB+C=0来更新系数矩阵V,其中
(5f)重复迭代更新以上矩阵,直至目标函数G收敛,得到训练后的基矩阵Ut、系数矩阵V以及投影矩阵Wt。
步骤6,得到训练数据集的哈希编码。
对训练数据的系数矩阵V进行量化,得到训练数据集的哈希编码Y。
步骤7,得到测试数据集的哈希编码。
(7a)将在训练阶段得到的投影矩阵Wt与测试数据Xt′相乘,对测试数据进行由高维到低维子空间的投影;
(7b)将由此得到的低维表示进行量化,得到测试数据集的哈希编码Yt′。
步骤8,计算测试数据哈希编码与训练数据集哈希编码之间的汉明距离。
步骤9,对汉明距离进行排序,得到检索结果。
本发明在对跨模态数据进行矩阵分解的基础上,增加了由协同训练和近邻约束构成的相似性判别信息保持约束项,分别作为数据模态间和模态内的相似性约束,因而能得到更具判别性和局部特性的低维表示系数,从而解决了无监督条件下基于矩阵分解的跨模态检索问题,明显地提高了跨模态数据的互检索精度。
下面通过仿真,对本发明的技术效果详细说明
实施例8
基于协同训练的矩阵分解跨模态哈希检索方法同实施例1-7
1.仿真条件
本发明是在中央处理器为Intel(R)Core(TM)i3-2100 3.10GHZ、内存8G、WINDOWS7操作系统上,运用MATLAB软件进行的实验仿真。
实验中的参数设置为α=0.5,β=100,η=2,γ=20,λ=0.01。
2.仿真内容
本发明的方法与现有跨模态哈希检索方法进行了对比,作为对比的哈希方法分别是协同矩阵分解哈希(Collective Matrix Factorization Hashing,CMFH)方法以及跨视角哈希(Cross-View Hashing,CVH)方法。
仿真实验中,分别画出数据准确率曲线和召回率曲线来评估图像检索性能。其中,准确率:在某具体汉明距离中,查询到的与查询点相关的图像数据个数和所有的查询得到的图像数据点个数之比。召回率:在某具体汉明距离中,查询到的与查询点相关的图像数据个数和数据集中与查询点相关的全部图像数据个数之比。
实施例9
基于协同训练的矩阵分解跨模态哈希检索方法同实施例1-7,仿真条件和仿真内容同实施例8
仿真1:在Wiki数据库上分别采用本发明方法与现有两种哈希跨模态检索方法进行对比实验,实验结果如图2及图3所示。其中,
图2(a)为编码长度取32位的图像查询文本准确率曲线图,横轴表示查询到的样本个数,纵轴表示准确率。图中可见,本发明的图像查询文本的准确率在查询样本个数2000以内完全优于CVH,在查询样本个数1000以内明显优于CMFH,表现出了良好的图像对文本的检索性能。
图2(b)为编码长度取32位的文本查询图像准确率曲线图,横轴表示查询到的样本个数,纵轴表示准确率。图中可见,本发明的文本查询图像的准确率在查询样本个数700以内明显优于CVH和CMFH,表现出了良好的文本对图像的检索性能。
图3(a)为编码长度取32位的图像查询文本召回率曲线图,横轴表示查询到的样本个数,纵轴表示召回率。图中可见,本发明的图像查询文本的召回率在查询样本个数2000以内优于CVH和CMFH,表现出了良好的查全性能。
图3(b)为编码长度取32位的文本查询图像召回率曲线图,横轴表示查询到的样本个数,纵轴表示召回率。图中可见,本发明的文本查询图像的召回率在查询样本个数2000以内优于CVH和CMFH,表现出了良好的查全性能。
由图2和图3的仿真结果可见,在Wiki数据库上采用本发明进行跨模态检索的准确率以及召回率性能均优于现有的跨模态哈希检索方法CMFH和CVH。因此,与现有技术相比,本发明利用协同训练方法与近邻关系,有效地同时保持了模态间与模态内的相似性,得到了更具判别性的哈希编码,从而提高了跨模态检索的性能。
实施例10
基于协同训练的矩阵分解跨模态哈希检索方法同实施例1-7,仿真条件和仿真内容同实施例8
仿真2:在LabelMe数据库上分别采用本发明方法与现有两种哈希跨模态检索方法进行对比实验,实验结果如图4及图5所示。其中,
图4(a)为编码长度取64位的图像查询文本准确率曲线图,横轴表示查询到的样本个数,纵轴表示准确率。图中可见,本发明的图像查询文本的准确率在查询样本个数2000以内完全优于CVH,在查询样本个数1000以内明显优于CMFH,表现出了良好的图像对文本的检索性能。
图4(b)为编码长度取64位的文本查询图像准确率曲线图,横轴表示查询到的样本个数,纵轴表示准确率。图中可见,本发明的文本查询图像的准确率在查询样本个数2000以内完全优于CVH,在查询样本个数1000以内明显优于CMFH,表现出了良好的文本对图像的检索性能。
图5(a)为编码长度取64位的图像查询文本召回率曲线图,横轴表示查询到的样本个数,纵轴表示召回率。图中可见,本发明的图像查询文本的召回率在查询样本个数2000以内完全优于CVH,在查询样本个数1000以内明显优于CMFH,表现出了良好的查全性能。
图5(b)为编码长度取64位的文本查询图像召回率曲线图,横轴表示查询到的样本个数,纵轴表示召回率。图中可见,本发明的文本查询图像的召回率在查询样本个数2000以内完全优于CVH,在查询样本个数1000以内明显优于CMFH,表现出了良好的查全性能。
由图4和图5的仿真结果可见,在LabeMe数据库上采用本发明进行跨模态检索的准确率以及召回率性能均明显优于现有的跨模态哈希检索方法CMFH和CVH。因此,与现有技术相比,本发明利用协同训练方法与近邻关系,有效地同时保持了模态间与模态内的相似性,得到了更具判别性的哈希编码,从而提高了跨模态检索的性能。
简而言之,本发明公开的基于协同训练的矩阵分解跨模态哈希检索方法,主要解决无类标的跨模态数据如何进行有效的模态间与模态内相似性约束的问题。其实现步骤为:(1)获取原始数据并对数据进行归一化处理;(2)利用协同训练方法得到训练数据的模态间约束;(3)构造训练数据的近邻图,得到训练数据的近邻关系;(4)对训练数据进行矩阵分解,将协同训练关系和近邻关系分别作为数据模态间和模态内的相似性约束,得到目标函数;(5)对目标函数中的变量进行交替迭代,得到对训练数据进行矩阵分解后的基矩阵、系数矩阵以及投影矩阵;(6)由低维系数表示得到训练数据集的哈希编码;(7)根据投影矩阵得到测试数据集的哈希编码;(8)计算测试数据哈希编码与训练数据集哈希编码之间的汉明距离;(9)对汉明距离进行排序,得到检索结果。本发明利用协同训练方法和近邻关系得到跨模态数据的模态间与模态内的相似性约束,得到更具判别性的哈希编码,解决了无监督情况下不同模态数据的互检索问题,提高图像与文本的互检索性能,可用于移动设备、物联网以及电子商务的图片文本互搜索服务。
Claims (4)
1.一种基于协同训练的矩阵分解跨模态哈希检索方法,其特征在于,包括有如下步骤:
(1)获取原始数据,原始数据集包括训练数据集和测试数据集,对原始数据集的训练数据进行归一化处理,得到相应的归一化训练数据,包括归一化图像训练数据,简称为图像数据,记为X(1),归一化文本训练数据,简称为文本数据,记为X(2);
(2)利用协同训练方法,得到构造训练数据的模态间相似性约束项的拉普拉斯矩阵;
(2a)利用高斯核函数分别对图像数据和文本数据构造相似性矩阵,图像数据的相似性矩阵记为K1,文本数据的相似性矩阵记为K2;
(2b)分别计算图像数据相似性矩阵和文本数据相似性矩阵的拉普拉斯矩阵;
(2c)分别对拉普拉斯矩阵进行特征分解,得到特征向量,图像数据拉普拉斯矩阵的特征向量记为P1,文本数据拉普拉斯矩阵的特征向量记为P2;
(2d)利用协同训练方法分别更新相似性矩阵,得到更新后的图像数据相似性矩阵和更新后的文本数据相似性矩阵图像数据的相似性矩阵记为K1,文本数据的相似性矩阵定义记为K2;
(2e)设定一个协同训练迭代次数,当迭代次数达到迭代设定值时,执行步骤(2f),否则返回步骤(2d),用协同训练方法分别再次更新图像数据和文本数据的相似性矩阵;
(2f)分别用迭代完成时的相似性矩阵计算模态间相似性约束项的图像数据和文本数据的拉普拉斯矩阵,图像数据的拉普拉斯矩阵记为L1,文本数据的拉普拉斯矩阵记为L2;
(3)构造训练数据的近邻关系,得到构造训练数据的模态内相似性约束项的拉普拉斯矩阵L′;
(4)分别对归一化训练数据进行矩阵分解,并构造训练数据的模态间及模态内相似性约束项,得到目标函数;
(5)对目标函数中作为变量的基矩阵、系数矩阵以及投影矩阵进行交替迭代,得到对训练数据进行矩阵分解后的基矩阵、系数矩阵以及投影矩阵的具体表达式;
(6)得到训练数据集的哈希编码;
对训练数据的系数矩阵V进行量化,得到训练数据集的哈希编码Y;
(7)得到测试数据集的哈希编码;
(7a)将在训练阶段得到的投影矩阵Wt与测试数据集中的测试数据Xt′相乘,对测试数据进行由高维到低维子空间投影的低维表示,其中,t=1代表图像数据,t=2代表文本数据;
(7b)将得到的测试数据低维表示进行量化,得到测试数据集的哈希编码Yt′;
(8)计算测试数据哈希编码Yt′与训练数据集哈希编码Y之间的汉明距离;
(9)对汉明距离进行排序,得到测试数据检索结果,完成基于协同训练的矩阵分解跨模态哈希检索。
2.根据权利要求1所述的基于协同训练的矩阵分解跨模态哈希检索方法,其特征在于,步骤(3)所述的构造训练数据的近邻关系,得到构造训练数据的模态内相似性约束项的拉普拉斯矩阵,包括有如下步骤:
(3a)将归一化图像训练数据矩阵的每行作为向量,看做一个图像数据,求得每两个向量之间的欧氏距离d;
(3b)将欧氏距离d进行排序,针对每个图像数据,取出其k个最近邻点的欧氏距离,存成对称的邻接矩阵W1,k的取值范围为[10,50];
(3c)计算图像数据邻接矩阵W1的拉普拉斯矩阵L1′;
(3d)针对文本数据,按照步骤(3a)到(3c)的同样方法得到文本数据邻接矩阵的拉普拉斯矩阵L2′;
(3e)将步骤(3c)和步骤(3d)中得到的图像数据和文本数据的拉普拉斯矩阵相加,得到模态内相似性约束的拉普拉斯矩阵L′。
3.根据权利要求1所述的基于协同训练的矩阵分解跨模态哈希检索方法,其特征在于,步骤(4)中所述的得到目标函数,具体包括有:
(4a)分别对图像训练数据X(1)和文本训练数据X(2)进行矩阵分解,构造矩阵分解重构误差项其中||·||F代表矩阵的F范数,U1、U2分别为图像数据和文本数据的基矩阵,V为成对的图像和文本数据在基矩阵下相同的系数矩阵,α为两个模态间的平衡参数,取α=0.5,两个模态的数据对目标函数贡献相同;
(4b)构造线性投影重构误差项得到训练数据的线性投影矩阵Wt,其中t=1时代表图像数据,t=2时代表文本数据,||·||F代表矩阵的F范数;
(4c)用拉普拉斯矩阵L1、L2构造模态间的相似性约束项其中t=1时代表图像数据,t=2时代表文本数据,tr(·)代表矩阵的迹;
(4d)用拉普拉斯矩阵L′构造模态内的相似性约束项其中t=1时代表图像数据,t=2时代表文本数据,tr(·)代表矩阵的迹;
(4e)构造正则约束项R(U1,U2,W1,W2,V),其中
(4f)将矩阵分解重构误差项线性投影重构误差项模态间相似性约束模态内相似性约束以及正则约束项R(U1,U2,W1,W2,V)加权相加,构成如下目标函数;
其中t=1时代表图像数据,t=2时代表文本数据,α为不同模态间的平衡参数,一般取α=0.5,β为线性投影重构误差项的加权系数,取值范围为[20,500],η为模态内相似性约束项加权系数,取值范围为[0.5,50],γ为模态间相似性约束项加权系数,取值范围为[5,200],λ为正则约束项加权系数,一般取值为λ=0.01。
4.根据权利要求1所述的基于协同训练的矩阵分解跨模态哈希检索方法,其特征在于,步骤(5)所述的对目标函数中的变量进行交替迭代,得到对训练数据进行矩阵分解后的基矩阵、系数矩阵以及投影矩阵,按如下步骤进行:
(5a)将基矩阵Ut、系数矩阵V以及投影矩阵Wt中的所有元素的值初始化为(0,1)之间的随机数;
(5b)设定目标函数G的最小值、各个平衡参数α,β,η,γ,λ的值;
(5c)利用更新基矩阵U1以及U2;
(5d)利用更新投影矩阵Wt;
(5e)利用等式AV+VB+C=0来更新系数矩阵V,其中 B=η(L′+L′T),
(5f)重复迭代更新以上矩阵,直至目标函数G收敛,得到训练后的基矩阵Ut、系数矩阵V以及投影矩阵Wt。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710006037.9A CN106777318B (zh) | 2017-01-05 | 2017-01-05 | 基于协同训练的矩阵分解跨模态哈希检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710006037.9A CN106777318B (zh) | 2017-01-05 | 2017-01-05 | 基于协同训练的矩阵分解跨模态哈希检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106777318A CN106777318A (zh) | 2017-05-31 |
CN106777318B true CN106777318B (zh) | 2019-12-10 |
Family
ID=58950801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710006037.9A Active CN106777318B (zh) | 2017-01-05 | 2017-01-05 | 基于协同训练的矩阵分解跨模态哈希检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106777318B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273505B (zh) * | 2017-06-20 | 2020-04-14 | 西安电子科技大学 | 基于非参数贝叶斯模型的监督跨模态哈希检索方法 |
CN107256271B (zh) * | 2017-06-27 | 2020-04-03 | 鲁东大学 | 基于映射字典学习的跨模态哈希检索方法 |
CN107402993B (zh) * | 2017-07-17 | 2018-09-11 | 山东师范大学 | 基于判别性关联最大化哈希的跨模态检索方法 |
CN107766555B (zh) * | 2017-11-02 | 2020-04-21 | 电子科技大学 | 基于软约束无监督型跨模态哈希的图像检索方法 |
CN108334574B (zh) * | 2018-01-23 | 2020-06-12 | 南京邮电大学 | 一种基于协同矩阵分解的跨模态检索方法 |
CN109255098B (zh) * | 2018-07-09 | 2023-01-17 | 广东工业大学 | 一种基于重构约束的矩阵分解哈希方法 |
CN109271486B (zh) * | 2018-09-19 | 2021-11-26 | 九江学院 | 一种相似性保留跨模态哈希检索方法 |
CN109492666B (zh) * | 2018-09-30 | 2021-07-06 | 北京百卓网络技术有限公司 | 图像识别模型训练方法、装置及存储介质 |
CN109657112B (zh) * | 2018-11-29 | 2022-07-08 | 九江学院 | 一种基于锚点图的跨模态哈希学习方法 |
CN109857892B (zh) * | 2018-12-29 | 2022-12-02 | 西安电子科技大学 | 基于类标传递的半监督跨模态哈希检索方法 |
CN109766481B (zh) * | 2019-01-11 | 2021-06-08 | 西安电子科技大学 | 基于协同矩阵分解的在线哈希跨模态信息检索方法 |
CN109902714B (zh) * | 2019-01-18 | 2022-05-03 | 重庆邮电大学 | 一种基于多图正则化深度哈希的多模态医学图像检索方法 |
EP3712784A3 (en) * | 2019-03-20 | 2020-11-04 | Tata Consultancy Services Limited | System and method for signal pre-processing based on data driven models and data dependent model transformation |
CN109960732B (zh) * | 2019-03-29 | 2023-04-18 | 广东石油化工学院 | 一种基于鲁棒监督的深度离散哈希跨模态检索方法及系统 |
CN110059198B (zh) * | 2019-04-08 | 2021-04-13 | 浙江大学 | 一种基于相似性保持的跨模态数据的离散哈希检索方法 |
CN110059154B (zh) * | 2019-04-10 | 2022-04-15 | 山东师范大学 | 一种基于继承映射的跨模态迁移哈希检索方法 |
CN110516026A (zh) * | 2019-07-15 | 2019-11-29 | 西安电子科技大学 | 基于图正则化非负矩阵分解的在线单模态哈希检索方法 |
CN111177492A (zh) * | 2020-01-02 | 2020-05-19 | 安阳师范学院 | 一种基于多视角对称非负矩阵分解的跨模态信息检索方法 |
CN115374165B (zh) * | 2022-10-24 | 2023-03-24 | 山东建筑大学 | 基于三重矩阵分解的数据检索方法、系统及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104317902A (zh) * | 2014-10-24 | 2015-01-28 | 西安电子科技大学 | 基于局部保持迭代量化哈希的图像检索方法 |
CN104765878A (zh) * | 2015-04-27 | 2015-07-08 | 合肥工业大学 | 一种适用于多模态信息的稀疏编码算法及其应用 |
KR20160066395A (ko) * | 2014-12-02 | 2016-06-10 | 포항공과대학교 산학협력단 | 행렬 분해 모델 기반 데이터 분석 방법 및 장치 |
-
2017
- 2017-01-05 CN CN201710006037.9A patent/CN106777318B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104317902A (zh) * | 2014-10-24 | 2015-01-28 | 西安电子科技大学 | 基于局部保持迭代量化哈希的图像检索方法 |
KR20160066395A (ko) * | 2014-12-02 | 2016-06-10 | 포항공과대학교 산학협력단 | 행렬 분해 모델 기반 데이터 분석 방법 및 장치 |
CN104765878A (zh) * | 2015-04-27 | 2015-07-08 | 合肥工业大学 | 一种适用于多模态信息的稀疏编码算法及其应用 |
Non-Patent Citations (2)
Title |
---|
Supervised Matrix Factorization for Cross-Modality Hashing;Hong Liu等;《arXiv》;20160416;全文 * |
语义提升和矩阵分解在跨模哈希检索中的应用研究;王科;《中国优秀硕士学位论文全文数据库信息科技辑》;20161015;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN106777318A (zh) | 2017-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106777318B (zh) | 基于协同训练的矩阵分解跨模态哈希检索方法 | |
CN108334574B (zh) | 一种基于协同矩阵分解的跨模态检索方法 | |
CN110059198B (zh) | 一种基于相似性保持的跨模态数据的离散哈希检索方法 | |
CN107256271B (zh) | 基于映射字典学习的跨模态哈希检索方法 | |
CN110472090B (zh) | 基于语义标签的图像检索方法以及相关装置、存储介质 | |
CN107402993B (zh) | 基于判别性关联最大化哈希的跨模态检索方法 | |
WO2017012491A1 (zh) | 一种图像高维特征的相似比较方法及装置 | |
CN109522435B (zh) | 一种图像检索方法及装置 | |
CN111291212A (zh) | 基于图卷积神经网络的零样本草图图像检索方法和系统 | |
CN108415883B (zh) | 基于子空间聚类的凸非负矩阵分解方法 | |
CN107766555B (zh) | 基于软约束无监督型跨模态哈希的图像检索方法 | |
CN111382555B (zh) | 数据处理方法、介质、装置和计算设备 | |
CN112925962B (zh) | 基于哈希编码的跨模态数据检索方法、系统、设备及介质 | |
CN109948735B (zh) | 一种多标签分类方法、系统、装置及存储介质 | |
CN109284411B (zh) | 一种基于有监督超图离散化图像二值编码方法 | |
CN110046660B (zh) | 一种基于半监督学习的乘积量化方法 | |
CN110706055A (zh) | 商品信息推送方法及装置、存储介质、计算机设备 | |
CN110689049A (zh) | 基于黎曼核字典学习算法的视觉分类方法 | |
CN112395487A (zh) | 信息推荐方法、装置、计算机可读存储介质及电子设备 | |
CN108389113B (zh) | 一种协同过滤推荐方法和系统 | |
CN109857892B (zh) | 基于类标传递的半监督跨模态哈希检索方法 | |
CN113657087B (zh) | 信息的匹配方法及装置 | |
CN111046958A (zh) | 基于数据依赖的核学习和字典学习的图像分类及识别方法 | |
CN111027636A (zh) | 基于多标签学习的无监督特征选择方法及系统 | |
CN114281950B (zh) | 基于多图加权融合的数据检索方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |