CN113656700A - 基于多相似度一致矩阵分解的哈希检索方法 - Google Patents
基于多相似度一致矩阵分解的哈希检索方法 Download PDFInfo
- Publication number
- CN113656700A CN113656700A CN202110985144.7A CN202110985144A CN113656700A CN 113656700 A CN113656700 A CN 113656700A CN 202110985144 A CN202110985144 A CN 202110985144A CN 113656700 A CN113656700 A CN 113656700A
- Authority
- CN
- China
- Prior art keywords
- data
- matrix
- similarity
- text
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9014—Indexing; Data structures therefor; Storage structures hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于多相似度一致矩阵分解的哈希检索方法,其通过互联网收集图像和文本数据建立数据集,并将数据集划分为训练集和测试集;利用BOW算法分别提取所有图像和文本模态数据的特征;为了更好地挖掘不同模态之间的语义相关性,设计了一个多相似度一致矩阵,该矩阵既能保持数据之间的绝对相似度,又能保持数据之间的相对相似度;利用多相似度一致矩阵和矩阵分解将图像、文本数据分别映射到一个语义子空间;利用类标签衍生出一个语义子空间,并利用该空间对齐图像和文本模态的语义;通过最小化量化损失生成统一的哈希码;本发明具有较高的检索性能,容易应用到大规模数据集,因此具有广阔的应用前景。
Description
技术领域
本发明尤其涉及基于多相似度一致矩阵分解的哈希检索方法,属于多媒体检索的跨模态检索技术领域。
背景技术
随着5G网络的到来,社交网络上产生了大量的多媒体数据,如文字、图片、视频等;面对如此庞大的数据量,如何高效地进行检索是一个越来越受到关注的问题;近年来,最近邻检索引起了人们的广泛关注;它可以从候选数据库中选择与查询数据最匹配的数据;然而,随着互联网上数据的爆炸式增长,在大规模数据集上的最近邻检索通常会导致检索速度慢、存储成本大等问题;为了解决上述问题,有研究者提出了哈希技术,将原始空间中的相似点映射到相似的哈希码中,然后用异或运算快速计算的汉明距离测量数据之间的相似性;由于哈希技术计算效率和存储成本都很高,因此在多媒体检索领域引起了广泛的关注。
早期哈希技术在单模态检索中得到了广泛应用;随着网络社会的快速发展,互联网上产生了大量的多媒体数据,使得检索工作日益复杂化,变成更有挑战性的任务;因此,跨模态检索成为一个新的研究热点,跨模态检索的主要目标是建立不同的模态之间的关系,具体来说,当提交一个查询时,类似的对象可以由检索系统以其他方式返回;然而,不同形式之间存在普遍的语义差距;因此,如何尽可能地保持不同模态之间的语义相关性成为跨模态检索的重要目标之一。
矩阵分解可以捕获隐藏在原始数据中的固有的数据结构,它是子空间学习的强有力工具;为了解决跨模态检索的任务,设计了几种基于矩阵分解的哈希方法,获得了较好的检索性能;但是,这些方法普遍存在以下缺点;首先,大多数模型通过使用协同矩阵分解保持模态间相似性,然而,不同模态的数据大多位于完全不同的特征空间,因此,直接对异构的成对数据生成一致表示会导致训练过程的巨大开销,从而导致性能下降;其次,为了生成更具鉴别性的哈希码,一些学者提出在哈希学习过程中保持模态内相似性,然而,它只是试图维护基于语义结构的局部数据结构或类标签,不足以捕获训练数据中的内在结构;第三,大多数方法首先学习一个实值公共空间,然后量化实值表示为简单的离散哈希码,但是,量化过程往往导致量化损失大并且检索性能低。
发明内容
本发明的目的在于克服上述已有技术的不足而提供基于多相似度一致矩阵分解的哈希检索方法。
本发明提供的技术方案如下:基于多相似度一致矩阵分解的哈希检索方法,其特征在于其包括以下步骤:
1)步骤S1,通过互联网收集图像和文本两个模态的数据,并建立图像和文本两个模态的数据集,并将两个模态的数据集划分为训练集和测试集;
2)步骤S2,分别利用图像和文本的BOW算法提取训练集和测试集的图像和文本的特征;
3)步骤S3,构造训练集上的基于多相似度一致矩阵分解的哈希检索的总目标函数,其包括以下步骤:
步骤S31,用来描述训练集的数据特征,其中,和分别代表两个模态的维度,n为样本对的数量;,其中表示第t个模态;是来自图像和文本两个模态的特征向量;在不丢失一般性的情况下,不同模态的数据均采用零均值化;代表类标签矩阵并且代表第i个标签向量,其中c是全部类别的数量;表示第i个训练数据属于第q个语义类别,反之;表示哈希码,其中,k表示哈希码的长度;
步骤S32,用径向基核函数将两个模态的数据特征映射到核空间:
步骤S34,类标签首先被映射到一个语义空间,在这个语义空间中,具有相同类标签的数据具有相同的表示;然后通过语义空间将跨模态语义信息对齐,其目标函数可定义为:
和
然后,通过加权求和的方式将它们合并,得到绝对相似矩阵,如下所示:
将相对相似度定义如下:
步骤S36,根据绝对相似度和相对相似度的定义,将多相似度一致矩阵表示为:
上述公式不仅将类标签嵌入到多相似度矩阵构建中,而且将跨不同模态的高阶领域信息结合起来构建多相似度矩阵;
步骤S37,为了保持哈希码中基于多相似矩阵的相似性,其目标函数可定义为:
步骤S38,为了从学习的语义表示中生成哈希码,提出通过最小化量化损失来进一步提高哈希码的质量,其目标函数可定义为:
步骤S45: 判断是否达到最大迭代次数或最近两次迭代损失的差小于0.001,如果不是则继续迭代;如果是,则停止循环;
6)步骤S6,基于测试数据的哈希码,在训练集中检索与测试集中待检索数据距离近的另一模态的数据。
优选地,所述的步骤S1 中,包括从网络上的社交网站收集图像和文本两个模态的样本,并根据图像和文本共现关系构成图像和文本样本,构建数据集;使用NUS-WIDE数据集,其由81类图像及其相应的文本标记组成;从数据集中随机选择80%的图像文本标记对组成训练集,其余的组成测试集。
优选地,所述的S2中,对图像使用由SIFT特征作为视觉单词的词袋模型提取特征,对文本使用传统的词袋模型提取特征。
本发明的有益效果是:本发明将矩阵分解和相似性保持集成到一个统一的框架中;具体来说,首先通过矩阵分解和多相似度一致矩阵生成独立的语义子空间,使学习的语义子空间更具判别性;然后,通过类标签构建语义子空间,以连接不同模态之间的语义相关性;最后,设计了一种直接生成离散统一哈希码的离散优化算法。
本发明在基于哈希的跨模态检索中,充分利用了数据特征的分布,将原始的数据特征映射到两个独立子空间中;它可以有效地利用类标签得到的语义空间来建立由矩阵分解生成的独立子空间之间的关系; 因此,在学习到的公共语义空间中,可以很好地保留模态间的相似度,从而提高对语义空间和哈希码的识别;本发明设计了一种多相似度一致矩阵,该矩阵不仅能将不同模态之间的相似度信息进行融合,而且能较好地捕捉数据之间潜在的语义相似度;因此,训练数据的固有局部结构可以在哈希码中得到更好的保留;本发明检索的准确率高,容易应用于大规模数据集,并且具有广阔的应用前景。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面结合附图对本发明的具体实施方式做详细说明:
虽然本发明指定了图像和文本两个模态,但是算法很容易的扩展到其他模态和多于两个模态的情况;为了方便描述,本发明只考虑图像和文本两个模态。
如图1所示,基于多相似度一致矩阵分解的哈希检索方法,其包括以下步骤:
1)步骤S1,通过互联网收集图像和文本两个模态的数据,并建立图像和文本两个模态的数据集,并将两个模态的数据集划分为训练集和测试集;包括从网络上的社交网站收集图像和文本两个模态的样本,并根据图像和文本共现关系构成图像和文本样本,构建数据集;使用NUS-WIDE数据集,其由81类图像及其相应的文本标记组成;从数据集中随机选择80%的图像文本标记对组成训练集,其余的组成测试集。
2)步骤S2,分别利用图像和文本的BOW算法提取训练集和测试集的图像和文本的特征;对图像使用由SIFT特征作为视觉单词的词袋模型提取特征,对文本使用传统的词袋模型提取特征。
3)步骤S3,构造训练集上的基于多相似度一致矩阵分解的哈希检索的总目标函数,其包括以下步骤:
步骤S31,用来描述训练集的数据特征,其中,和分别代表两个模态的维度,n为样本对的数量;,其中表示第t个模态;是来自图像和文本两个模态的特征向量;在不丢失一般性的情况下,不同模态的数据均采用零均值化;代表类标签矩阵并且代表第i个标签向量,其中c是全部类别的数量;表示第i个训练数据属于第q个语义类别,反之;表示哈希码,其中,k表示哈希码的长度。
步骤S32,用径向基核函数将两个模态的数据特征映射到核空间:
步骤S34,类标签首先被映射到一个语义空间,在这个语义空间中,具有相同类标签的数据具有相同的表示;然后通过语义空间将跨模态语义信息对齐,其目标函数可定义为:
为了更好地发现不同模态之间的语义相关性,本发明设计了一个多相似度一致矩阵,该矩阵既能保持数据之间的绝对相似度,又能保持数据之间的相对相似度;对,和归一化为,和后,,通过以下方式计算每个模态和类别标签的相似矩阵:
和
然后,通过加权求和的方式将它们合并,得到绝对相似矩阵,如下所示:
然而,仅考虑数据的绝对相似性不足以描述训练集数据的内在局部结构,导致待学习的哈希码无法保持适当的相似性;因此,有必要引入额外的相似信息来产生更优化的哈希码;为此,将相对相似度定义如下:
步骤S36,根据绝对相似度和相对相似度的定义,将多相似度一致矩阵表示为:
上述公式不仅将类标签嵌入到多相似度矩阵构建中,而且将跨不同模态的高阶领域信息结合起来构建多相似度矩阵。
步骤S37,为了保持哈希码中基于多相似矩阵的相似性,其目标函数可定义为:
其包括以下步骤:
步骤S45: 判断是否达到最大迭代次数或最近两次迭代损失的差小于0.001,如果不是则继续迭代;如果是,则停止循环。
6) 步骤S6,基于测试数据的哈希码,在训练集中检索与测试集中待检索数据距离近的另一模态的数据。
实验效果:
本实施例在NUS-WIDE数据集进行验证,此数据集含有269684图像和文本组成的样本对,这些样本对可划分为81个语义类别;随机选取80%的样本对构成训练集,其他的20%构成测试集;将图像用500维的纹理的特征表示,将文本用1000维的词袋特征表示,并对特征做归一化、去均值(零中心)处理;以平均准确率(Mean Average Precision,MAP@50)作为性能的评估标准,其中50表示MAP的值由前50个返回的样本计算,并将本方案和MTFH(X. Liu,Z. Hu, H. Ling, and Y. M. Cheung, “Mtfh: A matrix tri-factorization hashingframework for effificient cross-modal retrieval,” IEEE Transactions onPattern Analysis and Machine Intelligence, vol. 43, no. 3, pp. 964–981,2021.)进行对比,其中16位、24位、32位和64位码长在图像检索文本和文本检索任务上的准确率如表1所示。
以NUS-WIDE数据集进行验证,检索准确率如表1所示。
表1 NUS-WIDE数据集上8中跨模态检索的MAP@50比较
可以看出,本发明设计了一种多相似度一致矩阵,该矩阵不仅能将不同模态之间的相似度信息进行融合,而且能较好地捕捉数据之间潜在的语义相似度;因此,训练集数据的固有局部结构可以在哈希码中得到更好的保留;它可以有效地利用类标签得到的语义空间来建立由矩阵分解生成独立的子空间; 因此,在学习到的语义空间中,可以很好地保留模态间的相似度,从而提高对语义空间和哈希码的识别;这些操作使得检索的准确率高,容易应用于大规模数据集,具有广阔的应用前景。
应当理解的是,本说明书未详细阐述的部分都属于现有技术;以上的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明范围进行限定,在不脱离本发明设计精神的前提下,本领域普通工程技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。
Claims (3)
1.基于多相似度一致矩阵分解的哈希检索方法,其特征在于其包括以下步骤:
1)步骤S1,通过互联网收集图像和文本两个模态的数据,并建立图像和文本两个模态的数据集,并将两个模态的数据集划分为训练集和测试集;
2)步骤S2,分别利用图像和文本的BOW算法提取训练集和测试集的图像和文本的特征;
3)步骤S3,构造训练集上的基于多相似度一致矩阵分解的哈希检索的总目标函数,其包括以下步骤:
步骤S31,用来描述训练集的数据特征,其中,和分别代表两个模态的维度,n为样本对的数量;,其中表示第t个模态;是来自图像和文本两个模态的特征向量;在不丢失一般性的情况下,不同模态的数据均采用零均值化;代表类标签矩阵并且代表第i个标签向量,其中c是全部类别的数量;表示第i个训练数据属于第q个语义类别,反之;表示哈希码,其中,k表示哈希码的长度;
步骤S32,用径向基核函数将两个模态的数据特征映射到核空间:
步骤S34,类标签首先被映射到一个语义空间,在这个语义空间中,具有相同类标签的数据具有相同的表示;然后通过语义空间将跨模态语义信息对齐,其目标函数可定义为:
和
然后,通过加权求和的方式将它们合并,得到绝对相似矩阵,如下所示:
将相对相似度定义如下:
步骤S36,根据绝对相似度和相对相似度的定义,将多相似度一致矩阵表示为:
上述公式不仅将类标签嵌入到多相似度矩阵构建中,而且将跨不同模态的高阶领域信息结合起来构建多相似度矩阵;
步骤S37,为了保持哈希码中基于多相似矩阵的相似性,其目标函数可定义为:
步骤S38,为了从学习的语义表示中生成哈希码,提出通过最小化量化损失来进一步提高哈希码的质量,其目标函数可定义为:
步骤S45: 判断是否达到最大迭代次数或最近两次迭代损失的差小于0.001,如果不是则继续迭代;如果是,则停止循环;
6)步骤S6,基于测试数据的哈希码,在训练集中检索与测试集中待检索数据距离近的另一模态的数据。
2.根据权利要求1所述的基于多相似度一致矩阵分解的哈希检索方法,其特征在于,所述的步骤S1 中,包括从网络上的社交网站收集图像和文本两个模态的样本,并根据图像和文本共现关系构成图像和文本样本,构建数据集;使用NUS-WIDE数据集,其由81类图像及其相应的文本标记组成;从数据集中随机选择80%的图像文本标记对组成训练集,其余的组成测试集。
3.根据权利要求1所述的基于多相似度一致矩阵分解的哈希检索方法,其特征在于,所述的S2中,对图像使用由SIFT特征作为视觉单词的词袋模型提取特征,对文本使用传统的词袋模型提取特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110985144.7A CN113656700A (zh) | 2021-08-26 | 2021-08-26 | 基于多相似度一致矩阵分解的哈希检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110985144.7A CN113656700A (zh) | 2021-08-26 | 2021-08-26 | 基于多相似度一致矩阵分解的哈希检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113656700A true CN113656700A (zh) | 2021-11-16 |
Family
ID=78482057
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110985144.7A Withdrawn CN113656700A (zh) | 2021-08-26 | 2021-08-26 | 基于多相似度一致矩阵分解的哈希检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113656700A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114281950A (zh) * | 2022-03-07 | 2022-04-05 | 山东建筑大学 | 基于多图加权融合的数据检索方法与系统 |
CN115828176A (zh) * | 2023-02-09 | 2023-03-21 | 山东建筑大学 | 一种面向智慧工地的跨模态检索方法及系统 |
CN116541429A (zh) * | 2023-07-06 | 2023-08-04 | 南方科技大学 | 一种非对称的哈希检索方法及终端 |
-
2021
- 2021-08-26 CN CN202110985144.7A patent/CN113656700A/zh not_active Withdrawn
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114281950A (zh) * | 2022-03-07 | 2022-04-05 | 山东建筑大学 | 基于多图加权融合的数据检索方法与系统 |
CN114281950B (zh) * | 2022-03-07 | 2022-05-06 | 山东建筑大学 | 基于多图加权融合的数据检索方法与系统 |
CN115828176A (zh) * | 2023-02-09 | 2023-03-21 | 山东建筑大学 | 一种面向智慧工地的跨模态检索方法及系统 |
CN115828176B (zh) * | 2023-02-09 | 2023-05-30 | 山东建筑大学 | 一种面向智慧工地的跨模态检索方法及系统 |
CN116541429A (zh) * | 2023-07-06 | 2023-08-04 | 南方科技大学 | 一种非对称的哈希检索方法及终端 |
CN116541429B (zh) * | 2023-07-06 | 2023-09-05 | 南方科技大学 | 一种非对称的哈希检索方法及终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ke et al. | End-to-end automatic image annotation based on deep CNN and multi-label data augmentation | |
Bai et al. | Targeted attack for deep hashing based retrieval | |
CN110866140B (zh) | 图像特征提取模型训练方法、图像搜索方法及计算机设备 | |
CN111858954B (zh) | 面向任务的文本生成图像网络模型 | |
CN112004111B (zh) | 一种全域深度学习的新闻视频信息抽提方法 | |
CN106202256B (zh) | 基于语义传播及混合多示例学习的Web图像检索方法 | |
CN113177132B (zh) | 基于联合语义矩阵的深度跨模态哈希的图像检索方法 | |
CN113656700A (zh) | 基于多相似度一致矩阵分解的哈希检索方法 | |
CN114329109B (zh) | 基于弱监督哈希学习的多模态检索方法及系统 | |
CN108446334B (zh) | 一种无监督对抗训练的基于内容的图像检索方法 | |
CN111461175B (zh) | 自注意与协同注意机制的标签推荐模型构建方法及装置 | |
Abdul-Rashid et al. | Shrec’18 track: 2d image-based 3d scene retrieval | |
CN113806580B (zh) | 基于层次语义结构的跨模态哈希检索方法 | |
CN110008365B (zh) | 一种图像处理方法、装置、设备及可读存储介质 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN112163114B (zh) | 一种基于特征融合的图像检索方法 | |
CN114299321A (zh) | 视频分类方法、装置、设备及可读存储介质 | |
CN112214623A (zh) | 一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法 | |
CN115410199A (zh) | 图像内容检索方法、装置、设备及存储介质 | |
CN116975615A (zh) | 基于视频多模态信息的任务预测方法和装置 | |
Cheng et al. | Deep attentional fine-grained similarity network with adversarial learning for cross-modal retrieval | |
Perdana et al. | Instance-based deep transfer learning on cross-domain image captioning | |
CN116385946A (zh) | 面向视频的目标片段定位方法、系统、存储介质及设备 | |
CN115878757A (zh) | 一种基于概念分解的混合超图正则化半监督跨模态哈希方法 | |
Tomei et al. | Image-to-image translation to unfold the reality of artworks: an empirical analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20211116 |