CN113326392B - 基于四元组哈希的遥感图像音频检索方法 - Google Patents
基于四元组哈希的遥感图像音频检索方法 Download PDFInfo
- Publication number
- CN113326392B CN113326392B CN202110490965.3A CN202110490965A CN113326392B CN 113326392 B CN113326392 B CN 113326392B CN 202110490965 A CN202110490965 A CN 202110490965A CN 113326392 B CN113326392 B CN 113326392B
- Authority
- CN
- China
- Prior art keywords
- hash
- audio
- quadruple
- remote sensing
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/65—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于四元组哈希的遥感图像音频检索方法,主要解决现存方法未能充分捕捉图像和音频的类别级语义及语义信息利用不足的问题。本发明设计了一种新的四元组哈希网络学习图像和声音的相对语义相似性关系和类别级语义信息,利用自适应跨模态遥感图像音频学习策略生成哈希码,最后利用相似度计算来匹配正确的遥感图像‑音频对。本发明提出了一个新的目标函数来进行有效的哈希码学习,新的目标函数不仅捕获了不同模式下哈希码的相对语义相关,学习了深度特征的相对语义相关,而且增强了哈希码的类别级语义,减少了类哈希码和哈希码之间的量化误差。本发明充分利用图像和音频的语义信息,进一步提升检索性能。
Description
技术领域
本发明属于遥感图像检索领域,具体涉及一种基于四元组哈希的遥感图像音频检索方法。
背景技术
随着地球观测技术的迅速发展,跨模态遥感图像音频检索在遥感数据处理领域受到广泛关注,因此,在大规模的遥感数据中,挖掘出有用的信息是非常关键的。为了挖掘有用的信息,许多研究人员对遥感数据检索的研究非常关注。因为遥感数据检索可以快速检索到有用的信息,并已被应用于许多方面。遥感数据检索可分为单模态遥感数据检索和跨模态遥感数据检索。单模遥感数据检索可以在相同模式下进行类似的遥感数据检索,跨模态遥感数据检索可以在不同的模态下执行类似的数据检索。
随着跨模态遥感数据的爆炸性增长,高效的遥感数据分析技术在净化跨模态遥感数据的异构相关性方面受到了迫切的关注。跨模态遥感图像声音检索的任务是利用声音对相关遥感图像进行检索。由于跨模态数据的异构性,用户很难迅速获得有利的信息。如何解决跨模态遥感数据的异构问题是跨模态遥感检索任务的重要挑战。
近年来,有很多学者利用深度学习方法解决多模态遥感数据的异构性。常见的做法是将所有模态的数据编码到它们相应的特征中,然后在共同表征空间中计算图像和声音之间的相似性。尽管现有的跨模态遥感图像声音检索方法有一定的发展,但是仍然有两点不足:1)一些跨模态遥感图像声音检索方法只学习了图像和声音的相似关系,而忽略了语义的相似关系,这导致了跨模态检索的性能较差。2)图像和声音通常包含丰富而复杂的结构,而现存方法未能充分捕捉图像和声音的类别级语义,这将导致数据语义信息利用不足的问题,并最终影响检索性能。
发明内容
本发明的目的是针对上述不足,提出基于四元组哈希的遥感图像音频检索方法,通过学习图像和声音的相对语义相似性关系和类别级语义信息,利用自适应跨模态遥感图像音频学习策略生成哈希码,最后利用相似度计算来匹配正确的遥感图像-音频对。本发明充分利用图像和音频的语义信息,进一步提升检索性能。
本发明解决该问题采用的技术方案为:基于四元组哈希的遥感图像音频检索方法,本发明首先设计了一种新的四元组哈希网络来学习哈希码的相对语义相似性关系。本发明主要包括三个学习步骤,看听、学习和选择。给定要查询的遥感图像(音频),首先看(听)遥感图像(音频),区分是相似音频(图像)还是不相似音频(图像)。然后利用固定的遥感图像(音频)、相似声音(图像)和不相似声音(图像)的三元组单元直接学习跨模态语义相似关系,并了解其他模态中的样本(音频或遥感图像)。最后,利用相似度计算匹配正确的遥感图像-音频对。除此之外,本发明提出了一个新的目标函数来进行有效的哈希码学习。新的目标函数不仅捕获了不同模式下哈希码的相对语义相关,学习了深度特征的相对语义相关,而且增强了哈希码的类别级语义,减少了类哈希码和哈希码之间的量化误差。
具体步骤如下:
步骤1,划分训练数据集和测试数据集;
步骤2,针对训练数据集,利用四重结构模块选择有效的四元组样本;
步骤3,构建整体网络模型,包括一个图像分支网络I和一个音频分支网络S,用于计算图像和音频的特征表示和哈希码:
图像分支网络包括一系列卷积层和两个全连接层,第一个全连接层是深度特征层,它包含n1个节点,并利用sigmoid函数作为激活函数,第二个全连接层是哈希层,包含K个节点,利用tanh函数作为激活函数;哈希层生成K位的类哈希码pn,并通过量化函数生成K位的哈希码xn;使用梅尔频率倒谱系数表示音频,音频分支网络由一系列的卷积层、池化层和两个全连接层组成,全连接层与图像分支网络的深度特征层相同,哈希层生成K位的类哈希码pn,并通过量化函数生成K位的哈希码xn;
步骤4,训练整体网络模型,计算整体网络模型的目标函数并更新整体网络模型的初始参数;
步骤5,使用训练好的整体网络模型计算测试数据集中样本的哈希码,将查询样本和训练数据集各样本的哈希码之间的汉明距离从大到小排序,并计算排名列表的前n个精度,得出平均精度指标MAP和前n名检索结果。
进一步的,步骤2的具体实现方式如下;
进一步的,步骤4中的目标函数由四元组相似项、四元组语义项、四元组正则化项和四元组特征相似项组成,四元组相似项的具体表达公式如下:
其中,‖·‖2表示L2范式,δ和∈表示边界参数,边界参数在训练阶段自行设置,该目标函数旨在保留在原始空间中匹配的图像和音频的跨模态相似性;
四元组语义项的具体表达公式如下:
四元组正则化项的具体表达公式如下:
四元组特征相似项由音频对图像的三重特征相似项和图像对音频的三重特征相似项组成,四元组特征相似项的具体表达公式如下:
其中,‖·‖2表示L2范式,μ和η表示边界参数,边界参数在训练阶段自行设置;因此,总目标函数的公式表达如下:
其中,α、β和γ是超参数,通过训练模型从而得到网络的权重参数W和偏置参数B。
进一步的,训练整体网络模型时,使用Adam算法进行优化,学习率设置为10-3,批量大小设置为64,哈希码的长度k设置为64,图像分支网络的初始权重使用预先训练好的权值,音频分支网络的权重使用glorot分布进行初始化,α和β设置为1,γ设置为0.01,训练3000轮迭代。
本发明的有益效果是:与现有技术相比,本发明提出的方法不仅捕获了不同模态的哈希码的相对语义相关性,学习了深度特征的相对语义相关性,而且增强了哈希码的类别级语义,减少了类哈希码与哈希码之间的量化误差,进一步提高检索精度。
附图说明
图1为本发明的流程示意图。
图2为本发明的概念说明图。
图3为本发明的网络结构图。
图4为本发明在UCM、Sydney和RSICD图像-声音数据集上利用音频检索遥感图像的部分样例。第一行显示了在UCM图像-声音数据集上的部分结果示例。第二行显示了在Sydney图像-声音数据集上的部分结果示例。第三行显示了在RSICD图像-声音数据集上的部分结果示例。错误的检索结果被标记为灰色方框。
图5为本发明在UCM、Sydney和RSICD图像-声音数据集上利用遥感图像检索音频的部分样例。第一行显示了在UCM图像-声音数据集上的部分结果示例。第二行显示了在Sydney图像-声音数据集上的部分结果示例。第三行显示了在RSICD图像-声音数据集上的部分结果示例。错误的检索结果被标记为灰色方框。
具体实施方式
实施例1
本实施例采用的环境是GeForce GTX Titan X GPU、Inter Core i7-5930K、3.50GHZ CPU、64G RAM、linux操作系统,运用Python和开源库KERAS进行开发。
第一步,划分训练数据集和测试数据集:
使用UCM图像音频数据集,选取该数据集的80%作为训练数据集Itrain,余下的20%作为测试数据集Itest;
第二步,利用四重结构模块选择有效的四元组样本:
将训练数据集样本划分为N个有效的四元组其中和分别是数据集中语义相似的成对的遥感图像和音频,为与语义不相似的遥感图像,为与语义不相似的音频。本发明的网络模型的输入是一个四元组Q,它包含两个音频和两个图像。
第三步,构建一个图片分支网络I和一个音频分支网络S,用于计算图像和音频的特征表示和哈希码:
本发明提出的网络框架主要包括一个图片分支网络I和一个音频分支网络S。本发明利用VGG16的卷积框架作为图像分支网络的主干网,包括一系列卷积层和两个全连接层,第一个全连接层是深度特征层,它包含2000个节点,并利用sigmoid函数作为激活函数。第二个全连接层是哈希层,包含K个节点,利用tanh函数作为激活函数。哈希层生成K位的类哈希码pn,并通过量化函数生成K位的哈希码xn。本发明使用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)表示音频,音频分支网络由一系列的卷积层、池化层和两个全连接层组成,全连接层与图像分支网络的全连接层相似,哈希层生成K位的类哈希码pn,并通过量化函数生成K位的哈希码xn。
第四步,计算目标函数并更新网络的初始参数:
整体目标函数由四元组相似项、四元组语义项、四元组正则化项和四元组特征相似项组成。
四元组相似项的具体表达公式如下:
其中,‖·‖2表示L2范式,δ和∈表示边界参数,边界参数在训练阶段自行设置,该目标函数旨在保留在原始空间中匹配的图像和音频的跨模态相似性。
类别级语义可以增强类似的哈希码的潜在相关性。为了捕获遥感图像和音频的类别级语义,利用标签信息为哈希码学习提供分类级语义。四元组语义项的具体表达公式如下:
上述损失函数计算的过程中可能产生量化误差,本发明提出了一个四元组正则化项来减少类哈希码和哈希码之间的量化误差。四元组正则化项的具体表达公式如下:
为了生成更有效的哈希码,本发明不仅捕获了不同模态下哈希码的相对语义相关性,而且还学习了深度特征的相对语义相关性,可以有效地提高跨模态检索的检索精度。因此,本发明提出四元组特征相似项作为目标函数的一项。四元组特征相似项由音频对图像的三重特征相似项和图像对音频的三重特征相似项组成。四元组特征相似项的具体表达公式如下:
其中,‖·‖2表示L2范式,μ和η表示边界参数,边界参数在训练阶段自行设置。
因此,总目标函数的公式表达如下:
其中,α、β和γ是超参数。
具体地,本实施例中使用Adam算法进行优化,学习率设置为10-3,批量大小设置为64,哈希码的长度k设置为64,图像分支网络的初始权重使用预先训练好的权值,音频分支网络的权重使用glorot分布进行初始化,α和β设置为1,γ设置为0.01,训练大约3000轮迭代,得到训练好的网络模型,至此,完成了本实施例的流程。
第五步,计算检索精度及测试:
使用上述训练的网络计算测试数据集中样本(图像或音频)的哈希码,将查询样本和数据集各样本的哈希码之间的汉明距离从大到小排序,并计算排名列表的前n个精度,得出平均精度指标MAP和前n名检索结果。
为了评估本发明方法的有效性,将本发明方法与几种最先进的方法进行了检索性能比较,包括SIFT+M、DBLP、CNN+SPEC、DVAN、DIVR、DTBH和SCRL,本实验采用64位哈希码,采用UCM图像-音频数据集,SIFT+M方法利用SIFT特征表示图像数据,利用MFCC表示声音数据,然后将它们相应的特征投影到一个共同的表示空间中,DBLP、CNN+SPEC、DVAN、DIVR、DTBH和SCRL方法按原文执行。
表1
表1是本发明与其他方法在UCM数据集上利用音频检索遥感图像的比较实验结果,其中mAP为平均精度指标,P@K为检索列表中前K名的精度。
表2
表2是本发明与其他方法在UCM数据集上利用图像检索音频的比较实验结果,其中mAP为平均精度指标,P@K为检索列表中前K名的精度。
本发明的实施方案仅仅为了清楚地说明本发明的举例,并不局限上述举例。本领域人员在此方法上的基础上作不同形式的改变或等同替换,但凡与本发明类似的变化都属于本发明权利要求的保护范围之中。
Claims (5)
1.一种基于四元组哈希的遥感图像音频检索方法,其特征在于,包括如下步骤:
步骤1,划分训练数据集和测试数据集;
步骤2,针对训练数据集,利用四重结构模块选择有效的四元组样本;
步骤2的具体实现方式如下;
步骤3,构建整体网络模型,包括一个图像分支网络I和一个音频分支网络S,用于计算图像和音频的特征表示和哈希码:
图像分支网络包括一系列卷积层和两个全连接层,第一个全连接层是深度特征层,它包含n1个节点,并利用sigmoid函数作为激活函数,第二个全连接层是哈希层,包含K个节点,利用tanh函数作为激活函数;哈希层生成K位的类哈希码pn,并通过量化函数生成K位的哈希码xn;使用梅尔频率倒谱系数表示音频,音频分支网络由一系列的卷积层、池化层和两个全连接层组成,全连接层与图像分支网络的深度特征层相同,哈希层生成K位的类哈希码pn,并通过量化函数生成K位的哈希码xn;
步骤4,利用步骤2中得到的四元组样本训练整体网络模型,计算整体网络模型的目标函数并更新整体网络模型的初始参数;
步骤5,使用训练好的整体网络模型计算测试数据集中样本的哈希码,将查询样本和训练数据集各样本的哈希码之间的汉明距离从大到小排序,并计算排名列表的前n个精度,得出平均精度指标MAP和前n名检索结果。
3.如权利要求2所述的一种基于四元组哈希的遥感图像音频检索方法,其特征在于:步骤4中的目标函数由四元组相似项、四元组语义项、四元组正则化项和四元组特征相似项组成,四元组相似项的具体表达公式如下:
其中,‖·‖2表示L2范式,δ和∈表示边界参数,边界参数在训练阶段自行设置,该目标函数旨在保留在原始空间中匹配的图像和音频的跨模态相似性;
四元组语义项的具体表达公式如下:
四元组正则化项的具体表达公式如下:
四元组特征相似项由音频对图像的三重特征相似项和图像对音频的三重特征相似项组成,四元组特征相似项的具体表达公式如下:
其中,‖·‖2表示L2范式,μ和η表示边界参数,边界参数在训练阶段自行设置;因此,总目标函数的公式表达如下:
其中,α、β和γ是超参数,通过训练模型从而得到网络的权重参数W和偏置参数B。
4.如权利要求3所述的一种基于四元组哈希的遥感图像音频检索方法,其特征在于:训练整体网络模型时,使用Adam算法进行优化,学习率设置为10-3,批量大小设置为64,哈希码的长度k设置为64,图像分支网络的初始权重使用预先训练好的权值,音频分支网络的权重使用glorot分布进行初始化,α和β设置为1,γ设置为0.01,训练3000轮迭代。
5.如权利要求1所述的一种基于四元组哈希的遥感图像音频检索方法,其特征在于:步骤1中使用UCM图像音频数据集,选取该数据集的80%作为训练数据集Itrain,余下的20%作为测试数据集Itest。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110490965.3A CN113326392B (zh) | 2021-05-06 | 2021-05-06 | 基于四元组哈希的遥感图像音频检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110490965.3A CN113326392B (zh) | 2021-05-06 | 2021-05-06 | 基于四元组哈希的遥感图像音频检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113326392A CN113326392A (zh) | 2021-08-31 |
CN113326392B true CN113326392B (zh) | 2022-11-18 |
Family
ID=77414142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110490965.3A Active CN113326392B (zh) | 2021-05-06 | 2021-05-06 | 基于四元组哈希的遥感图像音频检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113326392B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113836341B (zh) * | 2021-09-13 | 2023-08-18 | 武汉理工大学 | 基于无监督转换器平衡哈希的遥感图像检索方法 |
CN115878832B (zh) * | 2023-02-15 | 2023-05-16 | 武汉理工大学三亚科教创新园 | 基于精细对齐判别哈希的海洋遥感图像音频检索方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273517A (zh) * | 2017-06-21 | 2017-10-20 | 复旦大学 | 基于图嵌入学习的图文跨模态检索方法 |
WO2018188240A1 (zh) * | 2017-04-10 | 2018-10-18 | 北京大学深圳研究生院 | 一种基于深度语义空间的跨媒体检索方法 |
CN109977258A (zh) * | 2019-02-21 | 2019-07-05 | 中国科学院西安光学精密机械研究所 | 图像和语音的跨模态检索分类器模型、检索系统和检索方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080038707A1 (en) * | 2005-06-20 | 2008-02-14 | Sports Learningedge Llc | Multi-modal learning system, apparatus, and method |
CN110309331B (zh) * | 2019-07-04 | 2021-07-27 | 哈尔滨工业大学(深圳) | 一种基于自监督的跨模态深度哈希检索方法 |
US11520993B2 (en) * | 2019-07-24 | 2022-12-06 | Nec Corporation | Word-overlap-based clustering cross-modal retrieval |
CN111209415B (zh) * | 2020-01-10 | 2022-09-23 | 重庆邮电大学 | 基于大批量训练的图文跨模态哈希检索方法 |
-
2021
- 2021-05-06 CN CN202110490965.3A patent/CN113326392B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018188240A1 (zh) * | 2017-04-10 | 2018-10-18 | 北京大学深圳研究生院 | 一种基于深度语义空间的跨媒体检索方法 |
CN107273517A (zh) * | 2017-06-21 | 2017-10-20 | 复旦大学 | 基于图嵌入学习的图文跨模态检索方法 |
CN109977258A (zh) * | 2019-02-21 | 2019-07-05 | 中国科学院西安光学精密机械研究所 | 图像和语音的跨模态检索分类器模型、检索系统和检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113326392A (zh) | 2021-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5537649B2 (ja) | データ検索およびインデクシングの方法および装置 | |
CN108628935B (zh) | 一种基于端到端记忆网络的问答方法 | |
EP3756141A1 (en) | Dialogue state tracking using a global-local encoder | |
CN112015868B (zh) | 基于知识图谱补全的问答方法 | |
CN113326392B (zh) | 基于四元组哈希的遥感图像音频检索方法 | |
JP7257585B2 (ja) | 深層cca及び能動ペアワイズクエリを用いるマルチモーダル検索及びクラスタリングのための方法 | |
CN111400455A (zh) | 基于知识图谱的问答系统的关系检测方法 | |
CN116502711B (zh) | 一种知识图谱构建和动态扩展方法、装置、设备及介质 | |
CN112612875B (zh) | 一种查询词自动扩展方法、装置、设备及存储介质 | |
CN110851584A (zh) | 一种法律条文精准推荐系统和方法 | |
CN114708903A (zh) | 一种基于自注意力机制的蛋白质残基间距离预测方法 | |
CN115329120A (zh) | 一种知识图谱嵌入注意力机制的弱标注哈希图像检索架构 | |
CN112489689B (zh) | 基于多尺度差异对抗的跨数据库语音情感识别方法及装置 | |
CN112183580B (zh) | 一种基于动态知识路径学习的小样本分类方法 | |
CN113792594A (zh) | 一种基于对比学习的视频中语言片段定位方法及装置 | |
CN111581365B (zh) | 一种谓词抽取方法 | |
JP2022158736A (ja) | 学習装置、学習方法及び学習プログラム | |
CN112651499A (zh) | 一种基于蚁群优化算法和层间信息的结构化模型剪枝方法 | |
CN117116383A (zh) | 基于预训练微调的药物分子优化方法及装置 | |
CN101937450B (zh) | 在由粒子表示的信息检索数据库中进行条目检索的方法 | |
CN117171393A (zh) | 一种面向多模态检索的自适应半配对询问哈希方法 | |
CN113468311B (zh) | 一种基于知识图谱的复杂问句问答方法、装置及存储介质 | |
CN113111136B (zh) | 一种基于ucl知识空间的实体消歧方法及装置 | |
CN112199461B (zh) | 基于块索引结构的文档检索方法、装置、介质和设备 | |
CN111767388B (zh) | 一种候选池生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |