CN113343014A - 基于深度异构相关学习的跨模态图像音频检索方法 - Google Patents

基于深度异构相关学习的跨模态图像音频检索方法 Download PDF

Info

Publication number
CN113343014A
CN113343014A CN202110570438.3A CN202110570438A CN113343014A CN 113343014 A CN113343014 A CN 113343014A CN 202110570438 A CN202110570438 A CN 202110570438A CN 113343014 A CN113343014 A CN 113343014A
Authority
CN
China
Prior art keywords
audio
image
hash
function
hash code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110570438.3A
Other languages
English (en)
Inventor
陈亚雄
汤一博
熊盛武
荣毅
路雄博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202110570438.3A priority Critical patent/CN113343014A/zh
Publication of CN113343014A publication Critical patent/CN113343014A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度异构相关学习的跨模态图像音频检索方法,主要解决现存方法对图像和音频的异构相关性信息利用不足的问题。本发明首先设计了一种新的跨模态成对构造策略来选择有效的图像音频对,这有利于捕捉图像和音频之间的异构相关性。本发明利用深度特征的异构相关性来建立图像和音频之间的关系,通过桥接图像和音频之间的深层特征相关性来生成哈希码用于图像音频检索,使用正则化约束以减少类哈希码和哈希码之间的量化误差。本发明充分利用深度特征的异构相关性,进一步提升检索性能。

Description

基于深度异构相关学习的跨模态图像音频检索方法
技术领域
本发明属于图像检索领域,具体涉及一种基于深度异构相关学习的跨模态图像音频检索方法。
背景技术
随着互联网上各种图像、文本、音频和视频等数据呈现爆炸式增长,跨模态图像音频检索在计算机视觉和自然语言处理领域得到了广泛的应用,例如搜索引擎和无人驾驶这两种典型应用场景。跨模态图像-音频检索的任务是利用音频检索相关图像,或利用图像检索相关音频。然而由于多模态数据的异构性,用户很难快速、准确地获得有利信息,因此,如何提高检索效率和解决多模态数据的异构问题是跨模态检索任务的两个巨大挑战。
目前已经有一些基于深度学习的研究已经聚焦于多模态数据的异构性问题,常见的做法是将所有模态的数据编码到它们相应的特征中,然后在共同表征空间中计算图像和声音之间的相似性。尽管现有的跨模态遥感图像声音检索方法有一定的发展,然而,现有的跨模态图像-音频检索方法仍然有一些局限性:(1)现有方法没有充分学习异构相关性关系,导致在跨模态学习中对异构相关关系的利用不足。(2)现有的图像音频检索方法利用高维的实值特征进行跨模态检索,这类方法需要大量存储空间。(3)现有的一些跨模态检索方法不能有效地选择好的跨模态配对样本,最终会影响跨模态相关学习的有效性。
发明内容
本发明的目的是针对上述不足,提出一种基于异构相关学习的跨模态图像音频检索方法,该方法利用深度特征的异构相关性来建立图像和音频之间的关系,进而学习哈希码,本发明充分利用深度特征的异构相关性,通过桥接图像和音频之间的深层特征相关性来生成哈希码用于图像音频检索,能够进一步提升检索性能。
本发明解决该问题采用的技术方案为:基于异构相关学习的跨模态图像音频检索方法,首先,为了减少所需的存储空间,从原始图像和音频中学习哈希码,并使用正则化约束以减少图像和音频的散列码的量化误差。其次,为了更好地建立音频与图像之间的关系,该方法利用深度特征的异构相关性来提高哈希码的相似度。最后,为了选择良好的图像-音频配对样本,本发明设计了一种新的跨模态成对构造策略来选择有效的图像-音频对,这有利于捕捉图像和音频之间的异构相关性。
具体步骤如下:
第一步,划分训练数据集和测试数据集:
将图像数据集分为训练数据集Itrain和测试数据集Itest
第二步,利用跨模态配对结构选择成对的二元组样本:
首先构造N对二元组样本集合
Figure BDA0003082459040000021
和对应的二元组标签集合
Figure BDA0003082459040000022
Figure BDA0003082459040000023
二元组样本集合
Figure BDA0003082459040000024
由正样本对和负样本对组成,Ii表示第i张图片,Vi表示第i个音频,标签yi∈{0,1},标签为1表示图像和音频语义相似,标签为0表示图像和音频语义不相似。
第三步,构建整体网络模型,包括音频网络和图像网络,用于计算图像和音频的特征表示和哈希码:
本发明的整体网络模型框架包含了音频网络和图像网络。
本发明利用VGG16的卷积框架作为图像网络的主干网,包括一系列卷积层和两个全连接层,第一个全连接层包含1000个节点,并且使用tanh激活函数,第二个全连接层包含k个节点,同样也使用了tanh激活函数。第二个全连接层为哈希层,该层生成k位类哈希码,然后利用这k位类哈希码和量化函数生成k位二进制码。
本发明使用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)表示音频,利用VGG16的卷积框架作为音频网络的主干网,包括一系列卷积层、池化层和全连接层,卷积层分别使用64个宽度为11的卷积核,64个宽度为17的卷积核和128个宽度为19的卷积核,池化步长为2,激活函数使用ReLU函数。第一个全连接层包含1000个节点,并且使用tanh激活函数,第二个全连接层包含k个节点,同样也使用了tanh激活函数。第二个全连接层为哈希层,该层生成k位类哈希码,然后利用这k位类哈希码和量化函数生成k位二进制码。
本发明将原始图像和音频投影到高维的实值特征,然后将高维实值特征投影成二进制哈希码。图像网络的哈希层所用的哈希函数
Figure BDA0003082459040000025
公式表达如下:
Figure BDA0003082459040000026
Figure BDA0003082459040000027
其中,
Figure BDA0003082459040000031
表示图像Ii的k位二进制哈希码,FI(Ii)表示图像Ii经过图像网络卷积得到的深层特征,θI表示图像网络中哈希层的参数,τ表示tanh激活函数。
音频网络的哈希层所用的哈希函数
Figure BDA00030824590400000317
公式表达如下:
Figure BDA0003082459040000032
Figure BDA0003082459040000033
其中,
Figure BDA0003082459040000034
表示音频Vi的k位二进制哈希码,FV(Vi)表示音频Vi经过音频网络卷积得到的深层特征,θV表示图像网络中哈希层的参数,τ表示tanh激活函数。
该步骤计算得到图像的深层特征表示FI(Ii),音频的深层特征表示FV(Vi),图像Ii的类哈希码
Figure BDA0003082459040000035
图像Ii的哈希码
Figure BDA0003082459040000036
音频Vi的类哈希码
Figure BDA0003082459040000037
音频Vi的哈希码
Figure BDA0003082459040000038
第四步,计算目标函数并更新网络的初始参数:
总体目标函数由二元组相似项、量化正则化项和异构相关项组成。
二元组相似项的目标是令图像音频正样本对尽可能地相似,图像音频负样本对尽可能地不相似。二元组相似项的公式如下:
Figure BDA0003082459040000039
其中,‖·‖2表示L2范式,max(·)表示最大值函数,m表示边界阈值参数。
上述损失函数计算的过程中可能产生量化误差,本发明提出了一个量化正则化项来减少类哈希码和哈希码之间的量化误差。量化正则化项的具体表达公式如下:
Figure BDA00030824590400000310
其中,本发明使用了绝对值函数|x|的近似函数log cosh x,
Figure BDA00030824590400000311
Figure BDA00030824590400000312
表示哈希码的第k位,
Figure BDA00030824590400000313
Figure BDA00030824590400000314
表示类哈希码的第k位。
为了生成有效的哈希码,本发明利用深度特征的异构相关性来增强哈希码的相关性,由于深度特征的相关性越多,哈希码的相关性就越高。为了保持深层特征的异构相关,异构相关项的表达公式如下:
Figure BDA00030824590400000315
其中,‖·‖2表示L2范式,max(·)表示最大值函数,m表示边界阈值参数。
因此,总目标函数的公式表达如下:
Figure BDA00030824590400000316
其中,α、β是超参数,表示各项目标函数的权重,可自行设置。
第五步,计算检索精度及测试:
使用上述训练的网络计算测试数据集中样本(图像或音频)的哈希码,将查询样本和数据集各样本的哈希码之间的汉明距离从大到小排序,并计算排名列表的前n个精度,得出平均精度指标MAP和前n名检索结果。
至此,完成了本发明所述方法的流程。
本发明的有益效果是:与现有技术相比,本发明提出的方法充分利用深度特征的异构相关性,通过桥接图像和音频之间的深层特征相关性来生成哈希码用于图像音频检索,减少了类哈希码与哈希码之间的量化误差,进一步提高检索精度。
附图说明
图1为本发明的流程示意图。
图2为本发明的概念说明图。
图3为本发明的网络结构图。
图4为本发明在Mirflickr 25K图像-音频数据集上利用图像检索音频的部分样例。
图5为本发明在Mirflickr 25K图像-音频数据集上利用音频检索图像的部分样例。
具体实施方式
实施例1
本实施例采用的环境是GeForce GTX Titan X GPU、Inter Core i7-5930K、3.50GHZ CPU、64G RAM、linux操作系统,运用Python和开源库KERAS进行开发。
第一步,划分训练数据集和测试数据集:
使用Mirflickr 25K图像音频数据集,制作50000对正负样本图像音频对,选取40000对作为训练数据集Itrain,余下的10000对作为测试数据集Itest
第二步,利用跨模态配对结构选择成对的二元组样本:
首先构造N对二元组样本集合
Figure BDA0003082459040000041
和对应的二元组标签集合
Figure BDA0003082459040000042
二元组样本集合
Figure BDA0003082459040000043
由正样本对和负样本对组成,Ii表示第i张图片,Vi表示第i个音频,标签yi∈{0,1},标签为1表示图像和音频语义相似,标签为0表示图像和音频语义不相似。
第三步,计算图像和音频的特征表示和哈希码:
本发明的整体框架包含了音频网络和图像网络。
本发明利用VGG16的卷积框架作为图像网络的主干网,包括一系列卷积层和两个全连接层,第一个全连接层包含1000个节点,并且使用tanh激活函数,第二个全连接层包含k个节点,同样也使用了tanh激活函数。第二个全连接层为哈希层,该层生成k位类哈希码,然后利用这k位类哈希码和量化函数生成k位二进制码。
本发明使用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)表示音频,利用VGG16的卷积框架作为音频网络的主干网,包括一系列卷积层、池化层和两个全连接层,卷积层分别使用64个宽度为11的卷积核,64个宽度为17的卷积核和128个宽度为19的卷积核,池化步长为2,激活函数使用ReLU函数。第一个全连接层包含1000个节点,并且使用tanh激活函数,第二个全连接层包含k个节点,同样也使用了tanh激活函数。第二个全连接层为哈希层,该层生成k位类哈希码,然后利用这k位类哈希码和量化函数生成k位二进制码。
本发明将原始图像和音频投影到高维的实值特征,然后将高维实值特征投影成二进制哈希码。图像网络的哈希层所用的哈希函数
Figure BDA0003082459040000051
公式表达如下:
Figure BDA0003082459040000052
Figure BDA0003082459040000053
其中,
Figure BDA0003082459040000054
表示图像Ii的k位二进制哈希码,FI(Ii)表示图像Ii经过图像网络卷积后得到的深层特征,θI表示图像网络中哈希层的参数,τ表示tanh激活函数,
音频网络的哈希层所用的哈希函数
Figure BDA0003082459040000055
公式表达如下:
Figure BDA0003082459040000056
Figure BDA0003082459040000057
其中,
Figure BDA0003082459040000058
表示音频Vi的k位二进制哈希码,FV(Vi)表示音频Vi经过音频网络卷积后得到的深层特征,θV表示图像网络中哈希层的参数,τ表示tanh激活函数。
该步骤计算得到图像的深层特征表示FI(Ii),音频的深层特征表示FV(Vi),图像Ii的类哈希码
Figure BDA0003082459040000059
图像Ii的哈希码
Figure BDA00030824590400000510
音频Vi的类哈希码
Figure BDA00030824590400000511
音频Vi的哈希码
Figure BDA00030824590400000512
第四步,计算目标函数并更新网络的初始参数:
总体目标函数由二元组相似项、量化正则化项和异构相关项组成。
二元组相似项的目标是令图像音频正样本对尽可能地相似,图像音频负样本对尽可能地不相似。二元组相似项的公式如下:
Figure BDA0003082459040000061
其中,‖·‖2表示L2范式,max(·)表示最大值函数,m表示边界阈值参数。
上述损失函数计算的过程中可能产生量化误差,本发明提出了一个量化正则化项来减少类哈希码和哈希码之间的量化误差。量化正则化项的具体表达公式如下:
Figure BDA0003082459040000062
其中,本发明使用了绝对值函数|x|的近似函数log cosh x,
Figure BDA0003082459040000063
Figure BDA0003082459040000064
表示哈希码的第k位,
Figure BDA0003082459040000065
Figure BDA0003082459040000066
表示类哈希码的第k位。
为了生成有效的哈希码,本发明利用深度特征的异构相关性来增强哈希码的相关性,由于深度特征的相关性越多,哈希码的相关性就越高。为了保持深层特征的异构相关,异构相关项的表达公式如下:
Figure BDA0003082459040000067
其中,‖·‖2表示L2范式,max(·)表示最大值函数,m表示边界阈值参数。
因此,总目标函数的公式表达如下:
Figure BDA0003082459040000068
其中,α、β是超参数,表示各项目标函数的权重,可自行设置。
具体地,本实施例中使用Adam算法进行优化,学习率设置为10-3,批量大小设置为64,哈希码的长度k设置为64,图像网络的初始权重使用预先训练好的权值,音频网络的权重使用glorot分布进行初始化,α设置为1,β设置为0.1,训练1000轮迭代,得到训练好的网络模型。
第五步,计算检索精度及测试:
使用上述训练的网络计算测试数据集中样本(图像或音频)的哈希码,将查询样本和数据集各样本的哈希码之间的汉明距离从大到小排序,并计算排名列表的前n个精度,得出平均精度指标MAP和前n名检索结果。
至此,完成了本实施例的流程。
为了评估本发明方法的有效性,将本发明方法与几种最先进的方法进行了检索性能比较,包括SIFT+M、DBLP、CNN+SPEC、DVAN和V2CMH,本实验采用64位哈希码,采用Mirflickr 25K图像-音频数据集,SIFT+M方法利用SIFT特征表示图像数据,利用MFCC表示声音数据,然后将它们相应的特征投影到一个共同的表示空间中,DBLP、CNN+SPEC、DVAN和V2CMH方法按原文执行。
表1
Figure BDA0003082459040000071
表1是本发明与其他方法在Mirflickr 25K数据集上利用音频检索图像的比较实验结果,其中mAP为平均精度指标,P@K为检索列表中前K名的精度。
表2
Figure BDA0003082459040000072
表2是本发明与其他方法在Mirflickr 25K数据集上利用图像检索音频的比较实验结果,其中mAP为平均精度指标,P@K为检索列表中前K名的精度。
本发明的实施方案仅仅为了清楚地说明本发明的举例,并不局限上述举例。本领域人员在此方法上的基础上作不同形式的改变或等同替换,但凡与本发明类似的变化都属于本发明权利要求的保护范围之中。

Claims (7)

1.一种基于深度异构相关学习的跨模态图像音频检索方法,其特征在于,包括如下步骤:
第一步,划分训练数据集和测试数据集;
第二步,利用跨模态配对结构选择成对的二元组样本;
第三步,构建整体网络模型,包括音频网络和图像网络,用于计算图像和音频的特征表示和哈希码:
其中图像网络包括一系列卷积层和两个全连接层,第一个全连接层包含n1个节点,并且使用tanh激活函数,第二个全连接层包含k个节点,同样也使用了tanh激活函数;第二个全连接层为哈希层,该层生成k位类哈希码,然后利用这k位类哈希码和量化函数生成k位二进制码;音频网络包括一系列卷积层、池化层和全连接层,第一个全连接层包含n1个节点,并且使用tanh激活函数,第二个全连接层包含k个节点,同样也使用了tanh激活函数,第二个全连接层为哈希层,该层生成k位类哈希码,然后利用这k位类哈希码和量化函数生成k位二进制码;
第四步,利用第二步中得到的二元组样本训练整体网络模型,计算整体网络模型的目标函数并更新整体网络模型的初始参数;
第五步,使用训练好的整体网络模型计算测试数据集中样本的哈希码,将查询样本和训练数据集各样本的哈希码之间的汉明距离从大到小排序,并计算排名列表的前n个精度,得出平均精度指标MAP和前n名检索结果。
2.如权利要求1所述的一种基于深度异构相关学习的跨模态图像音频检索方法,其特征在于:第二步的具体实现方式如下;
首先构造N对二元组样本集合
Figure FDA0003082459030000011
和对应的二元组标签集合
Figure FDA0003082459030000012
二元组样本集合
Figure FDA0003082459030000013
由正样本对和负样本对组成,Ii表示第i张图片,Vi表示第i个音频,标签yi∈{0,1},标签为1表示图像和音频语义相似,标签为0表示图像和音频语义不相似。
3.如权利要求1所述的一种基于深度异构相关学习的跨模态图像音频检索方法,其特征在于:第三步中整体网络模型将原始图像和音频投影到高维的实值特征,然后将高维实值特征投影成二进制哈希码,其中图像网络的哈希层所用的哈希函数
Figure FDA0003082459030000014
公式表达如下:
Figure FDA0003082459030000015
Figure FDA0003082459030000016
其中,
Figure FDA0003082459030000021
表示图像Ii的k位二进制哈希码,FI(Ii)表示图像Ii经过图像网络卷积得到的深层特征,θI表示图像网络中哈希层的参数,τ表示tanh激活函数;
音频网络的哈希层所用的哈希函数
Figure FDA0003082459030000022
公式表达如下:
Figure FDA0003082459030000023
Figure FDA0003082459030000024
其中,
Figure FDA0003082459030000025
表示音频Vi的k位二进制哈希码,FV(Vi)表示音频Vi经过音频网络卷积得到的深层特征,θV表示图像网络中哈希层的参数,τ表示tanh激活函数;
该步骤计算得到图像的深层特征表示FI(Ii),音频的深层特征表示FV(Vi),图像Ii的类哈希码
Figure FDA0003082459030000026
图像Ii的哈希码
Figure FDA0003082459030000027
音频Vi的类哈希码
Figure FDA0003082459030000028
音频Vi的哈希码
Figure FDA0003082459030000029
4.如权利要求3所述的一种基于深度异构相关学习的跨模态图像音频检索方法,其特征在于:第四步中目标函数由二元组相似项、量化正则化项和异构相关项组成;
二元组相似项的目标是令图像音频正样本对尽可能地相似,图像音频负样本对尽可能地不相似,二元组相似项的公式如下:
Figure FDA00030824590300000210
其中,‖·‖2表示L2范式,max(·)表示最大值函数,m表示边界阈值参数;
量化正则化项来减少类哈希码和哈希码之间的量化误差,量化正则化项的具体表达公式如下:
Figure FDA00030824590300000211
其中,绝对值函数|x|的近似函数log cosh x,
Figure FDA00030824590300000212
Figure FDA00030824590300000213
表示哈希码的第k位,
Figure FDA00030824590300000214
Figure FDA00030824590300000215
表示类哈希码的第k位;
利用深度特征的异构相关性来增强哈希码的相关性,由于深度特征的相关性越多,哈希码的相关性就越高,为了保持深层特征的异构相关,异构相关项的表达公式如下:
Figure FDA00030824590300000216
其中,‖·‖2表示L2范式,max(·)表示最大值函数,m表示边界阈值参数;
因此,总目标函数的公式表达如下:
Figure FDA00030824590300000217
其中,α、β是超参数,表示各项目标函数的权重,可自行设置。
5.根据权利要求1所述的一种基于深度异构相关学习的跨模态图像音频检索方法,其特征在于:使用梅尔频率倒谱系数表示音频,音频网络中卷积层分别使用64个宽度为11的卷积核,64个宽度为17的卷积核和128个宽度为19的卷积核,池化步长为2,激活函数使用ReLU函数。
6.根据权利要求4所述的一种基于深度异构相关学习的跨模态图像音频检索方法,其特征在于:第四步中使用Adam算法进行训练优化,学习率设置为10-3,批量大小设置为64,哈希码的长度k设置为64,图像网络的初始权重使用预先训练好的权值,音频网络的权重使用glorot分布进行初始化,α设置为1,β设置为0.1,训练1000轮迭代。
7.根据权利要求1所述的一种基于深度异构相关学习的跨模态图像音频检索方法,其特征在于:第一步中使用Mirflickr 25K图像音频数据集,制作50000对正负样本图像音频对,选取40000对作为训练数据集Itrain,余下的10000对作为测试数据集Itest
CN202110570438.3A 2021-05-25 2021-05-25 基于深度异构相关学习的跨模态图像音频检索方法 Pending CN113343014A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110570438.3A CN113343014A (zh) 2021-05-25 2021-05-25 基于深度异构相关学习的跨模态图像音频检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110570438.3A CN113343014A (zh) 2021-05-25 2021-05-25 基于深度异构相关学习的跨模态图像音频检索方法

Publications (1)

Publication Number Publication Date
CN113343014A true CN113343014A (zh) 2021-09-03

Family

ID=77471270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110570438.3A Pending CN113343014A (zh) 2021-05-25 2021-05-25 基于深度异构相关学习的跨模态图像音频检索方法

Country Status (1)

Country Link
CN (1) CN113343014A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107402993A (zh) * 2017-07-17 2017-11-28 山东师范大学 基于判别性关联最大化哈希的跨模态检索方法
CN109241317A (zh) * 2018-09-13 2019-01-18 北京工商大学 基于深度学习网络中度量损失的行人哈希检索方法
CN109977258A (zh) * 2019-02-21 2019-07-05 中国科学院西安光学精密机械研究所 图像和语音的跨模态检索分类器模型、检索系统和检索方法
CN110222140A (zh) * 2019-04-22 2019-09-10 中国科学院信息工程研究所 一种基于对抗学习和非对称哈希的跨模态检索方法
CN111597298A (zh) * 2020-03-26 2020-08-28 浙江工业大学 一种基于深度对抗离散哈希学习的跨模态检索方法及装置
CN111639240A (zh) * 2020-05-14 2020-09-08 山东大学 一种基于注意力感知机制的跨模态哈希检索方法及系统
CN112035728A (zh) * 2020-08-21 2020-12-04 中国电子科技集团公司电子科学研究院 一种跨模态检索方法、装置及可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107402993A (zh) * 2017-07-17 2017-11-28 山东师范大学 基于判别性关联最大化哈希的跨模态检索方法
CN109241317A (zh) * 2018-09-13 2019-01-18 北京工商大学 基于深度学习网络中度量损失的行人哈希检索方法
CN109977258A (zh) * 2019-02-21 2019-07-05 中国科学院西安光学精密机械研究所 图像和语音的跨模态检索分类器模型、检索系统和检索方法
CN110222140A (zh) * 2019-04-22 2019-09-10 中国科学院信息工程研究所 一种基于对抗学习和非对称哈希的跨模态检索方法
CN111597298A (zh) * 2020-03-26 2020-08-28 浙江工业大学 一种基于深度对抗离散哈希学习的跨模态检索方法及装置
CN111639240A (zh) * 2020-05-14 2020-09-08 山东大学 一种基于注意力感知机制的跨模态哈希检索方法及系统
CN112035728A (zh) * 2020-08-21 2020-12-04 中国电子科技集团公司电子科学研究院 一种跨模态检索方法、装置及可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YAXIONG CHEN等: "Deep Cross-Modal Image–Voice Retrieval in Remote Sensing", 《IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING》 *
郭毛: "基于深度神经网络的语音-图像跨模态检索研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *

Similar Documents

Publication Publication Date Title
CN109840287B (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN111259127B (zh) 一种基于迁移学习句向量的长文本答案选择方法
US20170200077A1 (en) End-to-end memory networks
CN112015868B (zh) 基于知识图谱补全的问答方法
CN114298158A (zh) 一种基于图文线性组合的多模态预训练方法
CN111242033B (zh) 一种基于视频和文字对判别分析的视频特征学习方法
CN112214335B (zh) 基于知识图谱和相似度网络的Web服务发现方法
CN108595546B (zh) 基于半监督的跨媒体特征学习检索方法
CN112948601B (zh) 一种基于受控语义嵌入的跨模态哈希检索方法
CN111898379B (zh) 槽填充模型训练方法、电子设备及存储介质
CN112115716A (zh) 一种基于多维词向量下文本匹配的服务发现方法、系统及设备
CN112307048B (zh) 语义匹配模型训练方法、匹配方法、装置、设备及存储介质
CN113962228A (zh) 一种基于记忆网络语义融合的长文档检索方法
CN114528835A (zh) 基于区间判别的半监督专业术语抽取方法、介质及设备
CN113326392B (zh) 基于四元组哈希的遥感图像音频检索方法
CN114022687B (zh) 一种基于增强学习的图像描述对抗生成方法
CN113191150B (zh) 一种多特征融合的中文医疗文本命名实体识别方法
CN111581365B (zh) 一种谓词抽取方法
CN116167353A (zh) 一种基于孪生长短期记忆网络的文本语义相似度度量方法
CN115878757A (zh) 一种基于概念分解的混合超图正则化半监督跨模态哈希方法
CN116049422A (zh) 基于联合抽取模型的包虫病知识图谱构建方法及其应用
CN113343014A (zh) 基于深度异构相关学习的跨模态图像音频检索方法
CN111767388B (zh) 一种候选池生成方法
CN114003773A (zh) 一种基于自构建多场景的对话追踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210903