CN103473307B - 跨媒体稀疏哈希索引方法 - Google Patents
跨媒体稀疏哈希索引方法 Download PDFInfo
- Publication number
- CN103473307B CN103473307B CN201310410588.3A CN201310410588A CN103473307B CN 103473307 B CN103473307 B CN 103473307B CN 201310410588 A CN201310410588 A CN 201310410588A CN 103473307 B CN103473307 B CN 103473307B
- Authority
- CN
- China
- Prior art keywords
- data
- dictionary
- mode
- sparse
- hypergraph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种跨媒体稀疏哈希索引方法。包括如下步骤:(1)对多个模态数据之间的关联关系利用超图进行统一建模(2)利用字典学习框架同时学习多个模态的字典,同时施加稀疏和超图关联关系的正则约束,对每个模态的数据学习得到相应的字典(3)将学习得到的字典作为哈希函数,对新的数据利用对应模态的字典进行稀疏编码(4)利用相应的哈希策略把稀疏编码转变为稀疏编码集合从而把稀疏编码相似性计算问题转变为集合相似性计算问题,利用类似jaccard距离度量方式进行相似性计算。利用该方法可以实现基于内容的海量数据的高效跨媒体检索。用户可以通过提交任意的模态的检索例子去检索任意模态的媒体对象。
Description
技术领域
本发明涉及跨媒体检索,尤其涉及一种基于海量数据的跨媒体高效索引方法。
背景技术
随着互联网技术的高速发展和社交网络的风靡,网络上的多媒体数据的数量正在以惊人的速度增长。多媒体数据具有复杂的语义,难以直接进行度量,一般的做法是对其进行特征抽取得到相应的特征。通常这些特征都是高维的,因此,多媒体数据的检索问题就转变为了高维数据的检索问题。传统的暴力的线性比较的策略在面对大规模高维数据的时候的时间复杂度显然不能满足用户的在线搜索需求。此时,人们需要一种有效的索引机制以实现高维数据地高效检索。哈希方法是近些年来的高维索引的热点研究方向。它的核心的思想就是用近似最近邻代替传统的最近邻的来实现海量高维数据的检索。相对于检索的准确性,用户更注重搜索的速度,在大多数情况下,完全精确的查找并不是必须的,近似解已经足以满足用户绝大多数的要求。给定一个高维数据的搜索,通过哈希函数将其映射为简短的哈希编码,在数据集(查找和它具有相同或相近编码的数据作为搜索结果。由于哈希编码的相似性计算是非常高效的,因此在面对海量数据的时候哈希方法也能取得很好的查询性能。
多媒体数据的另一个特性就是多模态的数据存在共生关系。举例来说,一张网络图像除了有图片本身,还有一些描述信息如标题、用户的标注信息、评论信息等;一则新闻报道除了有文字的描述通常还有与之相关的新闻图片。跨媒体检索的目标就是合理地利用同一模态内数据的相似性以及不同模态的数据已知的关联关系,在不同媒体之间建立“桥梁”,使得不同模态的数据可以在统一的度量空间进行相似性比较。为了能对海量的多模态的多媒体数据实现高效的跨媒体检索,相应的跨媒体哈希索引算法被相继提出。
已有的跨媒体哈希算法大多还是基于流形学习的框架,学习的哈希函数试图在保留每个模态的数据的流形的同时,将不同模态映射到同一个子空间内并将不同模态的流形对齐。近年来,人们发现字典学习的方法也可以很好地用学习得到的字典对数据进行有效地表达。本发明提出的方法就是基于字典学习的框架来来进行多模态字典学习,并把学习得到的字典作为哈希函数建立跨媒体哈希索引。
发明内容
本发明的目的是克服现有技术的不足,提供一种跨媒体稀疏哈希索引的方法。
跨媒体稀疏哈希索引方法包括如下步骤:
1)对多个模态数据之间的关联关系利用超图进行统一建模;模态内的相似性使用数据的底层特征的欧氏距离,模态间的关联利用不同模态数据已知的关联关系;
2)将统一超图约束引入多模态字典学习的框架内,使得学习得到的多模态字典能保留模态内的相似性以及模态间的关联关系;
3)将学习得到的字典作为哈希函数,对新的数据利用对应模态的字典进行稀疏编码;
4)将稀疏编码通过哈希策略转化为稀疏编码集,并使用类jaccard距离来计算集合之间的相似度。
所述的步骤2)包括:
给出如下基于最小重建误差的目标函数,以实现多模态字典学习:
其中是两个模态的数据,px,py为相应模态的数据的维度,Nx,Ny为数据的个数;是数据集X和Y对应的字典;为;K为组成字典的元素的个数,组成Dx和Dy的元素个数相同使得不同模态的数据被映射到统一的字典空间里;是数据集X和Y中每个数据用对应的字典重建的稀疏系数;
此外,是来自不同模态数据对应的重建系数集合,并在目标函数中添加了额外的正则约束项Ω(A),来实现两个目标:1)重建系数尽可能稀疏,以防止目标函数的“过拟合”,也能起到数据压缩的作用,2)重建系数保持了在超图中的不同模态数据之间关联关系,使得学到的字典具有好的鲁棒性;综合如上两个目标,给出如下的正则项Ω(A):
Ω(A)由两项组成,分别对应了之前定义的两个目标:稀疏和超图关联关系保持。其中Lh为超图拉普拉斯矩阵,具体的定义如下:
其中I是单位矩阵,H是关联矩阵,Dυ,De为超图的顶点和超边的度的构建的对角矩阵,W为超边的权重构建的对角矩阵。
所述的步骤4)包括:
假设数据x的用其模态学习得到的字典Dx进行稀疏编码后得到再将稀疏编码通过哈希方法生成稀疏编码集:
其中σ为设定的阈值,SC+(·)和SC_(·)对应两个量化函数,生成稀疏编码ax的系数为正值和负值对应的下标集合:
此外,针对多个稀疏编码集,采用类似于jaccard相似度的度量机制来衡量它们之间的相似性,具体的相似度计算公式如下:
在实现高效地基于稀疏编码集的检索时,有两种可选的方法:
●当K不大时,使用K维的二值向量来表达稀疏编码集,将稀疏编码集合的“交”和“并”的操作就转变为硬件实现的高效AND和OR位运算;
●当K较大时,所有稀疏编码集对应K维的二值向量可能无法一次性加载到内存中来进行计算,使用另一种方法:使用min-Hash作为稀疏编码集的哈希函数,然后建立LSH索引,从而支持高效的检索。
本发明可以实现基于内容的海量数据的高效跨媒体检索。用户可以通过提交任意的模态的检索例子去检索任意模态的媒体对象。
附图说明
图1是本发明的算法框架流程图;
图2是本发明的跨媒体检索的结果。上半部分为样例图片查询相
关文本;下半部分是以样例文本查询相关图像
具体实施方式
跨媒体稀疏哈希索引方法包括如下步骤:
1)对多个模态数据之间的关联关系利用超图进行统一建模;模态内的相似性使用数据的底层特征的欧氏距离,模态间的关联利用不同模态数据已知的关联关系;
2)将统一超图约束引入多模态字典学习的框架内,使得学习得到的多模态字典能保留模态内的相似性以及模态间的关联关系;
3)将学习得到的字典作为哈希函数,对新的数据利用对应模态的字典进行稀疏编码;
4)将稀疏编码通过哈希策略转化为稀疏编码集,并使用类jaccard距离来计算集合之间的相似度。
算法的整体流程图参见图1。
所述的步骤1)包括:将包含多模态的多媒体文档集合分别构建每个模态单独的数据集。假设构成多媒体文档的数据来自两个模态(为了表达上的方便,下面都假设构成多媒体文档的数据是来自两个模态,实际上,本发明的方法可以扩展到任意多个模态),分别定义为和数据集中的每个数据都来自模态数据集中的每个数据都来自模态px和py为模态和对应空间的维度,通常px≠py。Nx和Ny是构成数据集X和Y的数据的个数。最终,集合X和Y的关联关系可以用一个统一的超图G(V,E,ω)进行表达。其中V代表构成超图的顶点集合,每一个顶点υi∈V对应了数据集X或Y中的一个数据;E代表了超边集合,每一条超边ei∈E连接了若干个相互关联的顶点;ω代表了超边集合对应的权重。
对同一模态内的数据。为了能更细致地描述模态内数据之间的相似性,“概率”超图表达被使用如下:
其中代表了两个顶点υi和υj之间的相似度,Dis(i,j)是两个顶点之间的欧式距离。为所有顶点之间的距离的平均值。每条超边的权重此外,为了更好地表达数据之间的流形结构,本发明使用局部的相似度,即每个顶点只和它的K个近邻点之间存在相似度,否则相似度为0。
用这种方式,可以对数据集X和Y分别计算得到关联矩阵Ex和Ey是数据集X和Y上的超边集合。其中|·|代表集合的势。
对于不同模态间的数据,可以利用“是否存在于同一个多媒体文档中”这一标准来衡量不同模态数据之间是否有关联,从而构建出二值的关联矩阵表示模态间的关联超边对应的权重ωxy作为一个衡量模态间相似性的重要程度参数由人工设定。
最终,将模态内和模态间的关联矩阵拼接形成完整的关联矩阵具体的构建方式如表1所示
表1.多模态数据超图关联矩阵表达
所述的步骤2)包括:
给出如下基于最小重建误差的目标函数,以实现多模态字典学习:
其中是两个模态的数据,px,py为相应模态的数据的维度,Nx,Ny为数据的个数;是数据集X和Y对应的字典;为;K为组成字典的元素的个数,组成Dx和Dy的元素个数相同使得不同模态的数据被映射到统一的字典空间里;是数据集X和Y中每个数据用对应的字典重建的稀疏系数;
此外,是来自不同模态数据对应的重建系数集合,并在目标函数中添加了额外的正则约束项Ω(A),来实现两个目标:1)重建系数尽可能稀疏,以防止目标函数的“过拟合”,也能起到数据压缩的作用,2)重建系数保持了在超图中的不同模态数据之间关联关系,使得学到的字典具有好的鲁棒性;综合如上两个目标,给出如下的正则项Ω(A):
Ω(A)由两项组成,分别对应了之前定义的两个目标:稀疏和超图关联关系保持。其中Lh为超图拉普拉斯矩阵,具体的定义如下:
其中I是单位矩阵,H是表1中定义的关联矩阵,Dυ,De为超图的顶点和超边的度的构建的对角矩阵,W为超边的权重构建的对角矩阵。
公式(1)中的目标函数是一个非凸优化的问题。因此,不能直接求导获得全局最优解。但是固定A时,求解Dx、Dy;或者固定Dx,Dy,求解A时,公式(1)可以转变为凸优化问题。因此,本发明使用迭代优化的方法,在每次迭代中依次求解A,Dx,Dy。具体的求解算法1如下:
其中,步骤3的求解方法是用的是近似算子法(proximaloperatormethod),具体的方法参见算法2;步骤5,6中的求解问题为典型的二次约束的二次规划(QCQP)问题,可以用已有的解法进行求解。
所述的步骤3)包括:
利用学习得到的字典Dx,Dy对新来的数据进行稀疏编码。假设新的数据xq来自模态χ(数据yq来自模态y也是同理),使用字典Dx,通过公式(7)可以得到xq的稀疏编码aq:
公式(7)的目标函数是一个经典的LASSO问题,可以采用经典的LARS方法进行高效求解。
所述的步骤4)包括:
假设数据x的用其模态学习得到的字典Dx进行稀疏编码后得到再将稀疏编码通过哈希方法生成稀疏编码集:
其中σ为设定的阈值,SC+(·)和SC_(·)对应两个量化函数,生成稀疏编码ax的系数为正值和负值对应的下标集合;
此外,针对多个稀疏编码集,采用类似于jaccard相似度的度量机制来衡量它们之间的相似性,具体的相似度计算公式如下:
在实现高效地基于稀疏编码集的检索时,有两种可选的方法:
●当K不大时,使用K维的二值向量来表达稀疏编码集,将稀疏编码集合的“交”和“并”的操作就转变为硬件实现的高效AND和OR位运算;
●当K较大时,所有稀疏编码集对应K维的二值向量可能无法一次性加载到内存中来进行计算,使用另一种方法:使用min-Hash作为稀疏编码集的哈希函数,然后建立LSH索引,从而支持高效的检索。
实施例
为了验证本发明的效果,从“维基百科-每日一图”的网页上抓取约2900个网页,每个网页包含了一张图像以及几段相关的描述文本。以此作为数据集进行跨媒体稀疏哈希索引的实验。给定两种媒体(图像和文本媒体)上的跨媒体检索的实验。对图像模态的数据,本发明提取SIFT局部特征,再用K-means聚类的方法对SIFT特征进行聚类,形成1000个中心点。最终,每张图像被量化为1000维的“视觉词袋”(Bagofvisualwords);对文本模态的数据,按照单词TF值选取最具代表性的5000个单词,形成5000维的“词袋”(Bagofwords)。
为了客观地评价本发明的算法的性能,发明者使用平均准确率(MeanAveragePrecision,MAP)以及返回的正确结果是否排在前t%(Percentage)两种评价标准,在不同的字典大小K以及不同的稀疏度sparsedegree(稀疏系数中非零项平均所占的比例)做了实验,MAP的结果如表2所示,Percentage的结果如表3所示。
表2.平均准确度MAP的结果
表3.Percentage的结果
为了更好地展现本发明在跨媒体检索上的结果,在图2中呈现了一些查询结果的实例。从呈现的结果可以看到,无论是以图像查询文本,还是以文本查询图像,本发明的方法都具有较好的效果,能返回传统的单一模态的检索所不能实现的语义上相近的结果。
Claims (1)
1.一种跨媒体稀疏哈希索引方法,其特征在于包括如下步骤:
1)对多个模态数据之间的关联关系利用超图进行统一建模;模态内的相似性使用数据的底层特征的欧氏距离,模态间的关联利用不同模态数据已知的关联关系;
2)将统一超图约束引入多模态字典学习的框架内,使得学习得到的多模态字典能保留模态内的相似性以及模态间的关联关系;
3)将学习得到的字典作为哈希函数,对新的数据利用对应模态的字典进行稀疏编码;
4)将稀疏编码通过哈希策略转化为稀疏编码集,并使用类jaccard距离来计算集合之间的相似度;
所述的步骤2)包括:
给出如下基于最小重建误差的目标函数,以实现多模态字典学习:
其中是两个模态的数据集,px、py为相应模态的数据的维度,Nx、Ny为数据的个数;是数据集X和Y对应的字典;K为组成字典的元素的个数,组成Dx和Dy的元素个数相同使得不同模态的数据被映射到统一的字典空间里;是数据集X和Y中每个数据用对应的字典重建的稀疏系数;
此外,是来自不同模态数据对应的重建系数集合,并在目标函数中添加了额外的正则约束项Ω(A),来实现两个目标:1)重建系数尽可能稀疏,以防止目标函数的“过拟合”,也能起到数据压缩的作用,2)重建系数保持了在超图中的不同模态数据之间关联关系,使得学到的字典具有好的鲁棒性;综合如上两个目标,给出如下的正则项Ω(A):
Ω(A)=λ||A||1+αTr(ALhAT)(2)
Ω(A)由两项组成,分别对应了之前定义的两个目标:稀疏和超图关联关系保持;其中Lh为超图拉普拉斯矩阵,具体的定义如下:
其中I是单位矩阵,H是关联矩阵,Dv为超图的顶点的度的构建的对角矩阵,De为超图的超边的度的构建的对角矩阵,W为超边的权重构建的对角矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310410588.3A CN103473307B (zh) | 2013-09-10 | 2013-09-10 | 跨媒体稀疏哈希索引方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310410588.3A CN103473307B (zh) | 2013-09-10 | 2013-09-10 | 跨媒体稀疏哈希索引方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103473307A CN103473307A (zh) | 2013-12-25 |
CN103473307B true CN103473307B (zh) | 2016-07-13 |
Family
ID=49798155
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310410588.3A Expired - Fee Related CN103473307B (zh) | 2013-09-10 | 2013-09-10 | 跨媒体稀疏哈希索引方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103473307B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105701225B (zh) * | 2016-01-15 | 2019-02-01 | 北京大学 | 一种基于统一关联超图规约的跨媒体检索方法 |
CN106547826A (zh) * | 2016-09-30 | 2017-03-29 | 西安电子科技大学 | 一种跨模态检索方法、装置及计算机可读介质 |
CN106485271B (zh) * | 2016-09-30 | 2019-11-15 | 天津大学 | 一种基于多模态字典学习的零样本分类方法 |
CN107256271B (zh) * | 2017-06-27 | 2020-04-03 | 鲁东大学 | 基于映射字典学习的跨模态哈希检索方法 |
CN109284411B (zh) * | 2017-07-19 | 2022-03-18 | 哈尔滨工业大学深圳研究生院 | 一种基于有监督超图离散化图像二值编码方法 |
CN107750015B (zh) * | 2017-11-02 | 2019-05-07 | 腾讯科技(深圳)有限公司 | 视频版权的检测方法、装置、存储介质及设备 |
CN108038080A (zh) * | 2017-11-29 | 2018-05-15 | 浙江大学 | 一种利用适应性相似结构规则化进行局部多模态稀疏编码补全的方法 |
CN108170729A (zh) * | 2017-12-13 | 2018-06-15 | 西安电子科技大学 | 利用超图融合多模态信息的图像检索方法 |
CN109299342B (zh) * | 2018-11-30 | 2021-12-17 | 武汉大学 | 一种基于循环生成式对抗网络的跨模态检索方法 |
CN114201972B (zh) * | 2021-12-14 | 2022-07-05 | 长安银行股份有限公司 | 一种理财产品数据处理方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101299241A (zh) * | 2008-01-14 | 2008-11-05 | 浙江大学 | 基于张量表示的多模态视频语义概念检测方法 |
CN101339553A (zh) * | 2008-01-14 | 2009-01-07 | 浙江大学 | 面向海量数据近似快速聚类和索引方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011221688A (ja) * | 2010-04-07 | 2011-11-04 | Sony Corp | 認識装置、認識方法、およびプログラム |
-
2013
- 2013-09-10 CN CN201310410588.3A patent/CN103473307B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101299241A (zh) * | 2008-01-14 | 2008-11-05 | 浙江大学 | 基于张量表示的多模态视频语义概念检测方法 |
CN101339553A (zh) * | 2008-01-14 | 2009-01-07 | 浙江大学 | 面向海量数据近似快速聚类和索引方法 |
Non-Patent Citations (3)
Title |
---|
hypergraph spectral hashing for image retrieval with heterogeneous social contexts;yang liu et al;《neurocomputing》;20130120;第51-53页 * |
laplacian sparse coding,hypergraph laplacian sparse coding ,and applications;shenghua gao et al;《ieee transactions on pattern analysis and machine intelligence》;20130131;第35卷(第1期);第95-96页 * |
robust sparse hashing;anoop cherian et al;《ICIP2012》;20121231;第2417-2419页 * |
Also Published As
Publication number | Publication date |
---|---|
CN103473307A (zh) | 2013-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103473307B (zh) | 跨媒体稀疏哈希索引方法 | |
WO2020143326A1 (zh) | 知识数据存储方法、装置、计算机设备和存储介质 | |
CN102197393B (zh) | 基于图像的语义距离 | |
Zou et al. | gStore: answering SPARQL queries via subgraph matching | |
Mcauley et al. | Discovering social circles in ego networks | |
Zhou et al. | Collaborative index embedding for image retrieval | |
CN103258000B (zh) | 对网页中高频关键词进行聚类的方法及装置 | |
Lin et al. | Image tag completion via image-specific and tag-specific linear sparse reconstructions | |
CN107346328B (zh) | 一种基于多粒度层级网络的跨模态关联学习方法 | |
WO2020062770A1 (zh) | 一种领域词典的构建方法、装置、设备及存储介质 | |
CN104346440A (zh) | 一种基于神经网络的跨媒体哈希索引方法 | |
US20150356199A1 (en) | Click-through-based cross-view learning for internet searches | |
Xie et al. | Fast and accurate near-duplicate image search with affinity propagation on the ImageWeb | |
CN104317838A (zh) | 一种基于耦合鉴别性字典的跨媒体哈希索引方法 | |
CN104166982A (zh) | 基于典型相关性分析的图像优化聚类方法 | |
CN108427723B (zh) | 一种基于聚类算法和局部感知重构模型的作者推荐方法和系统 | |
WO2022241913A1 (zh) | 基于异质图的文本摘要方法及装置、存储介质和终端 | |
CN114565053A (zh) | 基于特征融合的深层异质图嵌入模型 | |
CN109284414A (zh) | 基于语义保持的跨模态内容检索方法和系统 | |
Dourado et al. | Bag of textual graphs (BoTG): A general graph‐based text representation model | |
CN105760875A (zh) | 基于随机森林算法的判别二进制图像特征相似实现方法 | |
CN105183845A (zh) | 一种结合语义特征的ervq图片索引与检索方法 | |
Meng et al. | Concept-concept association information integration and multi-model collaboration for multimedia semantic concept detection | |
JP2008181296A (ja) | 画像検索方法および画像検索プログラム | |
Azzam et al. | A question routing technique using deep neural network for communities of question answering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160713 Termination date: 20180910 |