CN116821381B - 一种基于空间线索的语音-图像跨模态检索方法及装置 - Google Patents

一种基于空间线索的语音-图像跨模态检索方法及装置 Download PDF

Info

Publication number
CN116821381B
CN116821381B CN202311104574.9A CN202311104574A CN116821381B CN 116821381 B CN116821381 B CN 116821381B CN 202311104574 A CN202311104574 A CN 202311104574A CN 116821381 B CN116821381 B CN 116821381B
Authority
CN
China
Prior art keywords
representing
image
cross
spatial
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311104574.9A
Other languages
English (en)
Other versions
CN116821381A (zh
Inventor
钱馨园
高天浩
王雨桐
魏丽芳
刘艳
殷绪成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN202311104574.9A priority Critical patent/CN116821381B/zh
Publication of CN116821381A publication Critical patent/CN116821381A/zh
Application granted granted Critical
Publication of CN116821381B publication Critical patent/CN116821381B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于空间线索的语音‑图像跨模态检索方法及装置,涉及计算机视觉和语音处理技术领域。包括:将语音信号输入到音频编码器,得到空间相关的声学特征;将图像信息输入到图像编码器,得到场景图像特征;对特征进行CSIR,得到跨模态检索结果。本发明通过使用深度学习和相关算法,能够对图像和语音之间的空间关联性进行分析与建模,从而实现图像和语音之间的跨模态检索。与以往的跨模态检索方法只针对语音‑图像的共同语义信息建模不同,本发明重点关注不同模态之间的空间语义一致性,通过深入研究图像和语音之间的空间属性联系,本发明可以帮助用户更高效地检索相关的图像和语音内容,提供更好的交互体验和信息管理能力。

Description

一种基于空间线索的语音-图像跨模态检索方法及装置
技术领域
本发明涉及计算机视觉和语音处理技术领域,尤其涉及一种基于空间线索的语音-图像跨模态检索方法及装置。
背景技术
CMR(Cross-modal Retrieval,跨模态检索)是针对查询和检索结果具有不同模态的情况而设计的。以往的CMR工作主要关注文本和图像之间的共同语义信息或同步事件信息,已被广泛用于视觉问答,图像或视频字幕和文本到图像生成等任务。CMR使用单模态数据作为查询以检索来自其他模态的信息。它允许用户获得有关目标环境和所包含事件的全面信息。
大多数现有的CMR工作都集中在计算机视觉和自然语言处理的交叉领域,例如通过文本与图像之间的共同语义表示实现跨模态检索。与之相比,基于视听觉的CMR还处于起步阶段。目前最具带代表性的视听觉检索(Spatial Image-Acoustic Retrieval,SIAR)工作是H.-H. Wu, P. Seetharaman, K. Kumar, and J. P. Bello等人(Wav2clip:Learning robust audio representations from clip,”in Proc. of IEEE Int. Conf.on Audio, Speech and Signal Processing. IEEE, 2022, pp. 4563–4567.)提出的从预训练的图像-文本CMR模型中利用知识蒸馏技术提取出音频特征表示,但其只探讨了视听觉信号之间的时间同步性,而忽略了它们之间的空间相关性。
由于不同模态之间的特征分布不一致,使得跨模态数据之间的直接比较不可行。因此,我们需要将不同模态之间的数据映射到一个共同的表示空间以弥补不同模态之间的异质性差距。目前大多数CMR工作可以总结为两类:传统SP(Signal Processing,信号处理)方法和基于DL(Deep Learing,深度学习)的方法。
大多数传统的基于SP的CMR方法通过扩大不同模态之间的相关性将模态特定数据投影到潜在的公共子空间中。例如Rasiwasia等人(“A newapproach to cross-modalmultimedia retrieval,” in Proc.of ACM Int. Conf. on Multimedia, 2010, pp.251–260. 3)提出的CCA(Canonical Correlation Analyses,典型相关分析)方法和Dimitrova等人(“Multimedia content processing through cross-modalassociation,” in Proc. of ACM Int. Conf. on Multimedia, 2003, pp. 604–611)提出的CFA(Confirmative Factor Analysis,跨模态因子)分析方法。具体而言,CCA最大化跨模态统计相关性,而CFA通过最小化成对数据的Frobenius范数来学习变换矩阵。
Zhai Peng等人(“Learning cross-media joint representation with sparseand semisupervised reg-ularization,” IEEE Trans. on Circuits and SystemsforVideo Technology, vol. 24, no. 6, pp. 965–978, 2013. 3)提出了一种联合表示学习方法,以在统一的框架中优化跨模态相关性和语义信息。
上述CMR方法依赖于线性模型,均没有充分探索现实世界的多媒体数据的非线性。F. Yan and K. Mikolajczyk等人(“Deep correlation for matching images andtext,” in Proc. of Int. Conf. on Computer Vision and Pattern Recognition,2015, pp. 3441–3450. 3)提出的Deep-CCA,用深层非线性层替换CCA中的两个线性变换,从而提高了图像-文本检索效果。此外,受对抗学习强大的区分能力的启发,一些工作例如,F. Wu, X.-Y. Jing等人(Modality-specific and shared generative adversarialnetwork for cross-modal retrieval,” Pattern Recognition, vol. 104, p. 107335,2020. 3)采用GAN(Generative Adversarial Networks,生成对抗网络)对抗攻击的模型学习模态特定和模态共享表示。
上述基于DL的CMR方法在其强大的特征提取能力和良好的泛化能力方面优于传统方法。但是先前的方法要么关注图像和文本之间的上下文对应关系,要么关注音频和视频样本之间的事件类别相关性。而本专利中重点关注的视觉和声学之间的空间相关性一直被忽视。
发明内容
本发明针对目前已有的问题进行改进,其中包括未能通过空间属性将视觉图像和语音关联起来,以及如何弥合两者的异质性差距。
为解决上述技术问题,本发明提供如下技术方案:
一方面,本发明提供了一种基于空间线索的语音-图像跨模态检索方法,该方法由电子设备实现,该方法包括:
S1、获取待跨模态检索的语音信号,将语音信号输入到构建好的音频编码器中,提取得到具有空间属性的声学特征。
S2、获取待跨模态检索的图像信息,将图像信息输入到构建好的图像编码器中,提取得到场景图像特征。
S3、对声学特征以及场景图像特征进行对比语音图像检索CSIR,得到具有空间一致性的跨模态检索结果。
可选地,S1中的音频编码器为MelCT结构;MelCT结构包括卷积神经网络CNN模块以及Transformer模块。
S1中将语音信号输入到构建好的音频编码器中提取具有空间属性的声学特征,其包括:
S11、将语音信号转换为梅尔频谱图。
S12、将梅尔频谱图输入到卷积神经网络CNN模块中,得到CNN模块输出。
S13、将梅尔频谱图输入到Transformer模块中,得到Transformer模块输出。
S14、将CNN模块输出以及Transformer模块输出进行展平和平均操作后计算后验概率,进而得到具有空间属性的声学特征;其中,后验概率用于预测场景类别标签。
S15、使用交叉熵CE损失对MelCT结构进行优化,使用RT60的L1损失对MelCT结构进行优化。
可选地,S14中的后验概率,如下式(1)所示:
(1)
其中,表示后端多层感知器MLP分类器,/>表示具有空间属性的声学特征向量,/>表示可训练参数,/>表示特征向量维度,/>表示/>维向量空间。
可选地,S15中的RT60,如下式(2)所示:
(2)
其中,表示RT60模型估计值,/>表示后端涉及多层感知器MLP的 RT 60估计器,/>表示具有空间属性的声学特征向量,/>表示可训练参数,/>表示一维向量空间。
可选地,使用交叉熵CE损失对MelCT结构进行优化,使用RT60的L1损失对MelCT结构进行优化,如下式(3)所示:
(3)
其中,表示MelCT结构优化的总损失函数,/>表示通过空间类别标签上的交叉熵损失,/>表示RT60模型估计值,/>表示RT60真实值。
可选地,S3中对声学特征以及图像特征进行对比语音图像检索,得到具有空间一致性的跨模态检索结果,其包括:
S31、将声学特征以及图像特征投影到公共空间,得到投影后的特征。
S32、根据投影后的特征预测每个语义空间标签的后验概率。
S33、根据每个语义空间标签的后验概率,定义交叉熵CE损失。
S34、定义跨模态SCL损失。
S35、根据交叉熵CE损失以及跨模态SCL损失,定义优化的总体函数,进而得到具有空间一致性的跨模态检索结果。
可选地,S32中的每个语义空间标签的后验概率,如下式(4)所示:
(4)
其中,表示来自级联多模态特征的空间分类器,/>表示图像的归一化特征,/>表示音频的归一化特征,⊙表示成对特征级联,/>表示可训练参数,/>表示特征向量维度,/>表示/>维向量空间。
可选地,S33中的交叉熵CE损失,如下式(5)所示:
(5)
其中,表示通过空间类别标签上的交叉熵损失,/>表示可训练样本数,/>表示第i个音频对应的场景真实分布概率,/>表示第i个音频对应的场景预测类别的后验概率。
可选地,S34中的跨模态SCL损失,如下式(6)所示:
(6)
其中,表示跨模态SCL损失,/>表示样本数,/>表示/>类样本数,/>表示,满足条件时为1,否则为0,/>表示归一化的声学特征向量,/>表示归一化的图像特征向量,/>表示强负样本对的惩罚程度,/>表示i≠k时为1,否则为0,/>表示归一化的图像特征向量。
另一方面,本发明提供了一种基于空间线索的语音-图像跨模态检索装置,该装置应用于实现基于空间线索的语音-图像跨模态检索方法,该装置包括:
声学特征提取模块,用于获取待跨模态检索的语音信号,将语音信号输入到构建好的音频编码器中,提取得到具有空间属性的声学特征。
图像特征提取模块,用于获取待跨模态检索的图像信息,将图像信息输入到构建好的图像编码器中,提取得到场景图像特征。
输出模块,用于对声学特征以及场景图像特征进行对比语音图像检索CSIR,得到具有空间一致性的跨模态检索结果。
可选地,音频编码器为MelCT结构;MelCT结构包括卷积神经网络CNN模块以及Transformer模块。
声学特征提取模块,进一步用于:
S11、将语音信号转换为梅尔频谱图。
S12、将梅尔频谱图输入到卷积神经网络CNN模块中,得到CNN模块输出。
S13、将梅尔频谱图输入到Transformer模块中,得到Transformer模块输出。
S14、将CNN模块输出以及Transformer模块输出进行展平和平均操作后计算后验概率,进而得到具有空间属性的声学特征;其中,后验概率用于预测语义类别标签。
S15、使用交叉熵CE损失对MelCT结构进行优化,以及使用RT60的L1损失对MelCT结构进行优化。
可选地,后验概率,如下式(1)所示:
(1)
其中,表示后端多层感知器MLP分类器,/>表示具有空间属性的声学特征向量,/>表示可训练参数,/>表示特征向量维度,/>表示/>维向量空间。
可选地, RT60,如下式(2)所示:
(2)
其中,表示RT60模型估计值,/>表示后端涉及多层感知器MLP的 RT 60估计器,/>表示具有空间属性的声学特征向量,/>表示可训练参数,/>表示一维向量空间。
可选地,使用交叉熵CE损失对MelCT结构进行优化,以及使用RT60的L1损失对MelCT结构进行优化,如下式(3)所示:
(3)
其中,表示MelCT结构优化的总损失函数,/>表示通过空间类别标签上的交叉熵损失,/>表示RT60模型估计值,/>表示RT60真实值。
可选地,输出模块,进一步用于:
S31、将声学特征以及图像特征投影到公共空间,得到投影后的特征。
S32、根据投影后的特征预测每个语义空间标签的后验概率。
S33、根据每个语义空间标签的后验概率,定义交叉熵CE损失。
S34、定义跨模态SCL损失。
S35、根据交叉熵CE损失以及跨模态SCL损失,定义优化的总体函数,进而得到具有空间一致性的跨模态检索结果。
可选地,每个语义空间标签的后验概率,如下式(4)所示:
(4)
其中,表示来自级联多模态特征的空间分类器,/>表示图像的归一化特征,/>表示音频的归一化特征,⊙表示成对特征级联,/>表示可训练参数,/>表示特征向量维度,/>表示/>维向量空间。
可选地,交叉熵CE损失,如下式(5)所示:
(5)
其中,表示通过空间类别标签上的交叉熵损失,/>表示可训练样本数,/>表示第i个音频对应的场景真实分布概率,/>表示第i个音频对应的场景预测类别的后验概率。
可选地,跨模态SCL损失,如下式(6)所示:
(6)
其中,表示跨模态SCL损失,/>表示样本数,/>表示/>类样本数,/>表示,满足条件时为1,否则为0,/>表示归一化的声学特征向量,/>表示归一化的图像特征向量,/>表示强负样本对的惩罚程度,/>表示i≠k时为1,否则为0,/>表示归一化的图像特征向量。
一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述基于空间线索的语音-图像跨模态检索方法。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述基于空间线索的语音-图像跨模态检索方法。
上述技术方案,与现有技术相比至少具有如下有益效果:
上述方案,提出了针对空间和声学相关性的SIAR任务,这是不同于以往所有的工作的。具体来说,本发明提出了一种新的以DL框架为基础的通过SCL技术实现的空间图像和语音之间的双向SIAR。基于深度空间跨模态检索技术在图像和语音之间建立空间关联性和进行跨模态检索,可以带来多方面的有益效果:
跨模态信息交互:该技术可以从图像和语音之间提取互补的信息特征。通过跨模态检索,用户可以通过图像搜索得到相关的语音信息,或通过语音查询获得相关的图像内容,从而实现更全面、直观的信息交互。
提升检索准确性:传统的基于文本或图像的检索方法可能存在语义不匹配或信息不完整的问题。深度空间跨模态检索技术利用深度学习和多模态融合等技术,可以更好地捕捉图像和语音之间的语义联系,从而提高检索准确性和相关性。
多领域应用:该技术在智能图像搜索、语音辅助检索、多媒体数据分析等领域都有广泛的应用前景。无论是在商业领域还是学术研究中,跨模态检索都能为各种领域的信息处理和数据分析提供更加全面的解决方案。
智能辅助功能:深度空间跨模态检索技术有助于构建更智能的系统和应用。例如,通过与语音助手结合,用户可以通过语音指令和查询实现图像搜索,为用户提供更直观、高效的交互体验。
多媒体信息管理:对于包含大量图像和语音内容的多媒体数据库,该技术可以帮助实现更高效的信息管理和检索。通过准确的跨模态检索,用户可以更快速地找到所需的图像和语音资料。
创新应用开发:跨模态检索的技术能够鼓励创新应用的开发,例如增强现实(AR)和虚拟现实(VR)应用领域。这些应用可以结合图像和语音的信息,提供更加丰富和沉浸式的用户体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于空间线索的语音-图像跨模态检索方法流程示意图;
图2是本发明实施例提供的语音编码器MelCT模型结构图;
图3是本发明实施例提供的跨模态特征融合模型结构图;
图4是本发明实施例提供的基于空间线索的语音-图像跨模态检索装置框图;
图5是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种基于空间线索的语音-图像跨模态检索方法,该方法可以由电子设备实现。如图1所示的基于空间线索的语音-图像跨模态检索方法流程图,该方法的处理流程可以包括如下的步骤:
S1、获取待跨模态检索的语音信号,将语音信号输入到构建好的音频编码器中,提取得到具有空间属性的声学特征。
一种可行的实施方式中,由于图像和语音在具有不同统计特性的不同空间中运行,它们不能直接相互比较以进行检索。因此,作为第一步,在本发明中设计单独的单模态编码器分别来提取视觉和语音特征。
其中,音频编码器为MelCT结构;MelCT结构包括卷积神经网络CNN模块以及Transformer模块。
上述步骤S1可以包括如下步骤S11-S15:
S11、将语音信号转换为梅尔频谱图。
一种可行的实施方式中,由于梅尔频谱图在音频模式识别中较为良好,所以本发明中使用梅尔频谱图作为输入,它将语音信号通过短时傅里叶变换STFT(Short-TimeFourier Transform)转换为梅尔频谱图。
S12、将梅尔频谱图输入到卷积神经网络CNN模块中,得到CNN模块输出。
S13、将梅尔频谱图输入到Transformer模块中,得到Transformer模块输出。
如图1所示,由虚线矩形包围显示出了MelCT架构,包括两个并行分支: 一个分支由最大池化操作、transformer编码器和均值操作组成,另一个分支由四个卷积层和平滑处理堆叠而成。
S14、将CNN模块输出以及Transformer模块输出进行展平和平均操作后计算后验概率,进而得到具有空间属性的声学特征;其中,后验概率用于预测场景类别标签。
一种可行的实施方式中,两个分支的输出在进行展平和平均操作之后被连接以预测语义类别标签的后验概率,如下式(1)所示:
(1)
其中,表示后端MLP(Multilayer Perceptron,多层感知器)分类器,其由堆叠的FC(Full Connection,全连接)层、BN层和ELU激活函数组成。/>表示具有空间属性的声学特征向量,/>表示可训练参数,/>表示特征向量维度,/>表示/>维向量空间。此处使用CE(Cross Entropy,交叉熵)损失来优化MelCT。
一种可行的实施方式中,CNN(Convolutional Neural Network,卷积神经网络)在处理频谱图方面具有显著作用,但在建模时间序列信号方面受到限制,但是自注意机制,Transformer 在捕获长距离相关性方面表现出色,因此本发明通过集成两种架构来设计MelCT。
图像信息与语音信息在空间上具有高度相关的,本发明旨在通过比较二者之间的空间信息的相似性,以达到双向信息检索的目标。本发明设计了一个新的语音编码器MelCT,它结合CNN和Transfomer等结构,能够更好从混响的语音中提取空间感知的声学特征。
S15、使用交叉熵CE损失对MelCT结构进行优化,以及使用RT60的L1损失对MelCT结构进行优化。
一种可行的实施方式中,在RT60(声场衰减 60 dB 所用的时间,单位为”秒”)的监督下,本发明进一步提高了MelCT的声学表征的水平。在具体实现中,RT60通过计算混响声音衰减到其原始强度的百万分之一所花费的时间(即,60dB的衰减)。本发明通过以下公式(2)计算RT60:
(2)
其中,表示RT60模型估计值,/>表示后端涉及多层感知器MLP的 RT 60估计器,/>表示具有空间属性的声学特征向量,/>表示可训练参数,/>表示一维向量空间。
最后通过空间类别标签上的CE损失和RT60上的L1损失来进行优化:
(3)
其中,表示MelCT结构优化的总损失函数,/>表示通过空间类别标签上的交叉熵损失,/>表示RT60模型估计值,/>表示RT60真实值。
S2、获取待跨模态检索的图像信息,将图像信息输入到构建好的图像编码器中,提取得到场景图像特征。
一种可行的实施方式中,在图像特征提取中,本发明中采用ResNet(ResidualNetwork,残差网络)来进行图像特征提取。由于其使用恒等映射等方法来解决梯度消失的问题,从而在基于计算机视觉的应用中得到了显著的成功。因此本发明基于ResNet的结构也将有利于图像与混响音频的对应任务,在具体使用时,本发明使用Place365数据集上的预训练空间识别模型来提取视觉特征。
S3、对声学特征以及场景图像特征进行对比语音图像检索CSIR,得到具有空间一致性的跨模态检索结果。
可选地,上述步骤S3可以包括如下步骤S31-S35:
S31、将声学特征以及图像特征投影到公共空间,得到投影后的特征。
一种可行的实施方式中, SIAR(空间图像声学检索)的关键是将不同模态的特征投影到一个公共的表示空间中进行直接的相似性度量。本发明中使用单个FC层进行投影:
(4)
(5)
此处的和/>是对应的图像和音频的归一化特征,/>和/>是可以训练的参数,/>为公共特征空间的维度。
本发明的网络架构分为前期的特征提取和后期的进行多模态融合,实现特征相似性对比,具体如附图2所示。
S32、根据投影后的特征预测每个语义空间标签的后验概率。
一种可行的实施方式中,空间预测(Space prediction):由于图像和语音都是在相同的环境中捕获的,为了利用空间特定的监督,本发明融合了跨模态特征来预测每个语义空间标签的后验概率。分类目标的制定如下:
(6)
其中,表示来自级联多模态特征的空间分类器,/>表示图像的归一化特征,/>表示音频的归一化特征,⊙表示成对特征级联,/>表示可训练参数,/>表示特征向量维度,/>表示/>维向量空间。
S33、根据每个语义空间标签的后验概率,定义交叉熵CE损失。
一种可行的实施方式中,采用(交叉熵)CE损失进行优化:
(7)
其中,表示通过空间类别标签上的交叉熵损失,/>表示可训练样本数,/>表示第i个音频对应的场景真实分布概率,/>表示第i个音频对应的场景预测类别的后验概率。
S34、定义跨模态SCL损失。
一种可行的实施方式中,类别感知特征鉴别:本发明使用SCL来弥合音频和视觉的异质性差距。由于图像和语音特征是彼此的增强视图,二者之间存在相关性,所以在处理多视图的样本中,具有相同空间标签的要素被视为正对,而具有不同空间标签的要素被视为负对。这样跨模态SCL损失定义为:
(8)
其中,表示跨模态SCL损失,/>表示样本数,/>表示/>类样本数,/>表示,满足条件时为1,否则为0,/>表示归一化的声学特征向量,/>表示归一化的图像特征向量,/>表示强负样本对的惩罚程度,/>表示i≠k时为1,否则为0,/>表示归一化的图像特征向量。
本发明在原有基础上关注于语音图像之间的空间相关性,提出了CSIR(Contrastive Speech Image Retrieval,对比语音图像检索)方法。为了消除跨模态的异质性差距,采用SCL(Supervised Contrastive Learning,对比监督学习)的方法吸引相同空间的跨模态特征,而排斥来自不同空间的跨模态特征。通过比较图像和语音特征之间的相似性来进行图像与声音的双向检索,以实现高效准确的双向跨模态检索,提高检索精度。
S35、根据交叉熵CE损失以及跨模态SCL损失,定义优化的总体函数,进而得到跨模态检索结果。
(9)
进一步地,本发明选择公开可用的Image2Reverb数据集。该数据集具有在空间的高可变性的特点(例如卧室和大教堂),并且该数据集涉及265个场景,其中235个室内场景和30个室外场景。总共有11854个成对的图像和语音可供使用。
进一步地,本发明使用Top-1(模型输出排名第一的类别与实际结果相符的准确率)和Top-5准确度(模型输出排名前五的类别与实际结果相符的准确率)(%)作为空间分类度量。对于多模态检索任务,本发明使用Rank k(R@k,%)的召回率,其描述了期望的标签在前K个检索答案(K= 1,5)内的查询的百分比。所有指标对应的值越高,结果越好。
表1给出了空间图像和混响语音之间的双向检索结果。本发明提出的CSIR模型可以成功地找到其中捕获语音的空间的图像,即,语音图像检索(SIR),其中R@1和R@5分别等于66.29%和66.46%。相反,该模型还可以检索由查询图像指定的空间中传输的语音,即,ISR(Speech-to-image retrieval,图像到语音检索)的R@1和R@5分别为87.00%和95.20%。
表1
一种可行的实施方式中,本发明的模型架构分为前期的特征提取和后期的多模态特征比较。在前期特征提取中,对于混响语音信号,设计了一种新的语音编码器,通过结合CNN和Transformer编码器层来提取具有空间特性的声学特征,并且利用空间标签和RT60特性两个方向同时对模型进行优化监督。对于图片信息,本发明采用ResNet结构实现对图像的空闲属性的特征提取,然后根据二者的单模态特征,对于双向SIAR,本发明使用监督对比学习策略,以缩小提取的语音和图像特征之间的模态差距。首先将异构特征投影到一个公共空间后,吸引正的图像语音特征对,排斥负的图像语音特征对,实现跨模态检索。这种技术可以广泛应用于多个领域,例如智能图像搜索、语音辅助检索、多媒体数据分析等。
本发明实施例中,提出了针对空间和声学相关性的SIAR任务,这是不同于以往所有的工作的。具体来说,本发明提出了一种新的以DL框架为基础的通过SCL技术实现的空间图像和语音之间的双向SIAR。基于深度空间跨模态检索技术在图像和语音之间建立关联性和进行跨模态检索,可以带来多方面的有益效果:
跨模态信息交互:该技术可以从图像和语音之间提取互补的信息特征。通过跨模态检索,用户可以通过图像搜索得到相关的语音信息,或通过语音查询获得相关的图像内容,从而实现更全面、直观的信息交互。
提升检索准确性:传统的基于文本或图像的检索方法可能存在语义不匹配或信息不完整的问题。深度空间跨模态检索技术利用深度学习和多模态融合等技术,可以更好地捕捉图像和语音之间的语义联系,从而提高检索准确性和相关性。
多领域应用:该技术在智能图像搜索、语音辅助检索、多媒体数据分析等领域都有广泛的应用前景。无论是在商业领域还是学术研究中,跨模态检索都能为各种领域的信息处理和数据分析提供更加全面的解决方案。
智能辅助功能:深度空间跨模态检索技术有助于构建更智能的系统和应用。例如,通过与语音助手结合,用户可以通过语音指令和查询实现图像搜索,为用户提供更直观、高效的交互体验。
多媒体信息管理:对于包含大量图像和语音内容的多媒体数据库,该技术可以帮助实现更高效的信息管理和检索。通过准确的跨模态检索,用户可以更快速地找到所需的图像和语音资料。
创新应用开发:跨模态检索的技术能够鼓励创新应用的开发,例如增强现实(AR)和虚拟现实(VR)应用领域。这些应用可以结合图像和语音的信息,提供更加丰富和沉浸式的用户体验。
如图4所示,本发明实施例提供了一种基于空间线索的语音-图像跨模态检索装置400,该装置400应用于实现基于空间线索的语音-图像跨模态检索方法,该装置400包括:
声学特征提取模块410,用于获取待跨模态检索的语音信号,将语音信号输入到构建好的音频编码器中,提取得到具有空间属性的声学特征。
图像特征提取模块420,用于获取待跨模态检索的图像信息,将图像信息输入到构建好的图像编码器中,提取得到场景图像特征。
输出模块430,用于对声学特征以及场景图像特征进行对比语音图像检索CSIR,得到具有空间一致性的跨模态检索结果。
可选地,音频编码器为MelCT结构;MelCT结构包括卷积神经网络CNN模块以及Transformer模块。
声学特征提取模块410,进一步用于:
S11、将语音信号转换为梅尔频谱图。
S12、将梅尔频谱图输入到卷积神经网络CNN模块中,得到CNN模块输出。
S13、将梅尔频谱图输入到Transformer模块中,得到Transformer模块输出。
S14、将CNN模块输出以及Transformer模块输出进行展平和平均操作,展平和平均操作后计算后验概率,进而得到具有空间属性的声学特征;其中,后验概率用于预测场景类别标签。
S15、使用交叉熵CE损失对MelCT结构进行优化,以及使用RT60的L1损失对MelCT结构进行优化。
可选地,后验概率,如下式(1)所示:/>
(1)
其中,表示后端多层感知器MLP分类器,/>表示具有空间属性的声学特征向量,/>表示可训练参数,/>表示特征向量维度,/>表示/>维向量空间。
可选地, RT60,如下式(2)所示:
(2)
其中,表示RT60模型估计值,/>表示后端涉及多层感知器MLP的 RT 60估计器,/>表示具有空间属性的声学特征向量,/>表示可训练参数,/>表示一维向量空间。
可选地,使用交叉熵CE损失对MelCT结构进行优化,以及使用RT60的L1损失对MelCT结构进行优化,如下式(3)所示:
(3)
其中,表示MelCT结构优化的总损失函数,/>表示通过空间类别标签上的交叉熵损失,/>表示RT60模型估计值,/>表示RT60真实值。
可选地,输出模块430,进一步用于:
S31、将声学特征以及图像特征投影到公共空间,得到投影后的特征。
S32、根据投影后的特征预测每个语义空间标签的后验概率。
S33、根据每个语义空间标签的后验概率,定义交叉熵CE损失。
S34、定义跨模态SCL损失。
S35、根据交叉熵CE损失以及跨模态SCL损失,定义优化的总体函数,进而得到具有空间一致性的跨模态检索结果。
可选地,每个语义空间标签的后验概率,如下式(4)所示:
(4)
其中,表示来自级联多模态特征的空间分类器,/>表示图像的归一化特征,/>表示音频的归一化特征,⊙表示成对特征级联,/>表示可训练参数,/>表示特征向量维度,/>表示/>维向量空间。
可选地,交叉熵CE损失,如下式(5)所示:
(5)
其中,表示通过空间类别标签上的交叉熵损失,/>表示可训练样本数,/>表示第i个音频对应的场景真实分布概率,/>表示第i个音频对应的场景预测类别的后验概率。
可选地,跨模态SCL损失,如下式(6)所示:
(6)
其中,表示跨模态SCL损失,/>表示样本数,/>表示/>类样本数,/>表示,满足条件时为1,否则为0,/>表示归一化的声学特征向量,/>表示归一化的图像特征向量,/>表示强负样本对的惩罚程度,/>表示i≠k时为1,否则为0,/>表示归一化的图像特征向量。
本发明实施例中,提出了针对空间和声学相关性的SIAR任务,这是不同于以往所有的工作的。具体来说,本发明提出了一种新的以DL框架为基础的通过SCL技术实现的空间图像和语音之间的双向SIAR。基于深度空间跨模态检索技术在图像和语音之间建立关联性和进行跨模态检索,可以带来多方面的有益效果:
跨模态信息交互:该技术可以从图像和语音之间提取互补的信息特征。通过跨模态检索,用户可以通过图像搜索得到相关的语音信息,或通过语音查询获得相关的图像内容,从而实现更全面、直观的信息交互。
提升检索准确性:传统的基于文本或图像的检索方法可能存在语义不匹配或信息不完整的问题。深度空间跨模态检索技术利用深度学习和多模态融合等技术,可以更好地捕捉图像和语音之间的语义联系,从而提高检索准确性和相关性。
多领域应用:该技术在智能图像搜索、语音辅助检索、多媒体数据分析等领域都有广泛的应用前景。无论是在商业领域还是学术研究中,跨模态检索都能为各种领域的信息处理和数据分析提供更加全面的解决方案。
智能辅助功能:深度空间跨模态检索技术有助于构建更智能的系统和应用。例如,通过与语音助手结合,用户可以通过语音指令和查询实现图像搜索,为用户提供更直观、高效的交互体验。
多媒体信息管理:对于包含大量图像和语音内容的多媒体数据库,该技术可以帮助实现更高效的信息管理和检索。通过准确的跨模态检索,用户可以更快速地找到所需的图像和语音资料。
创新应用开发:跨模态检索的技术能够鼓励创新应用的开发,例如增强现实(AR)和虚拟现实(VR)应用领域。这些应用可以结合图像和语音的信息,提供更加丰富和沉浸式的用户体验。
图5是本发明实施例提供的一种电子设备500的结构示意图,该电子设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)501和一个或一个以上的存储器502,其中,存储器502中存储有至少一条指令,至少一条指令由处理器501加载并执行以实现下述基于空间线索的语音-图像跨模态检索方法:
S1、获取待跨模态检索的语音信号,将语音信号输入到构建好的音频编码器中,提取得到空间相关的声学特征。
S2、获取待跨模态检索的图像信息,将图像信息输入到构建好的图像编码器中,提取得到场景图像特征。
S3、对声学特征以及场景图像特征进行对比语音图像检索CSIR,得到具有空间一致性的跨模态检索结果。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述基于空间线索的语音-图像跨模态检索方法。例如,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于空间线索的语音-图像跨模态检索方法,其特征在于,所述方法包括:
S1、获取待跨模态检索的语音信号,将所述语音信号输入到构建好的音频编码器中,提取得到具有空间属性的声学特征;
S2、获取待跨模态检索的图像信息,将所述图像信息输入到构建好的图像编码器中,提取得到场景图像特征;
S3、对所述声学特征以及场景图像特征进行对比语音图像检索CSIR,得到具有空间一致性的跨模态检索结果;
所述S1中的音频编码器为MelCT结构;所述MelCT结构包括卷积神经网络CNN模块以及Transformer模块;
所述S1中的将所述语音信号输入到构建好的音频编码器中,提取得到具有空间属性的声学特征,包括:
S11、将所述语音信号转换为梅尔频谱图;
S12、将所述梅尔频谱图输入到所述卷积神经网络CNN模块中,得到CNN模块输出;
S13、将所述梅尔频谱图输入到所述Transformer模块中,得到Transformer模块输出;
S14、将所述CNN模块输出以及Transformer模块输出进行展平和平均操作后计算后验概率,进而得到具有空间属性的声学特征;其中,所述后验概率用于预测场景类别标签;
S15、使用交叉熵CE损失对所述MelCT结构进行优化,以及使用RT60的L1损失对所述MelCT结构进行优化,如下式(1)所示:
(1)
其中,表示MelCT结构优化的总损失函数,/>表示通过空间类别标签上的交叉熵损失,/>表示RT60模型估计值,/>表示RT60真实值;
所述S3中的对所述声学特征以及图像特征进行对比语音图像检索,得到具有空间一致性的跨模态检索结果,包括:
S31、将所述声学特征以及图像特征投影到公共空间,得到投影后的特征;
S32、根据所述投影后的特征预测每个语义空间标签的后验概率;
S33、根据所述每个语义空间标签的后验概率,定义交叉熵CE损失;
S34、定义跨模态SCL损失;
S35、根据所述交叉熵CE损失以及跨模态SCL损失,定义优化的总体函数,进而得到具有空间一致性的跨模态检索结果;
所述S32中的每个语义空间标签的后验概率,如下式(2)所示:
(2)
其中,表示来自级联多模态特征的空间分类器,/>表示图像的归一化特征,/>表示音频的归一化特征,⊙表示成对特征级联,/>表示可训练参数,/>表示特征向量维度,/>表示/>维向量空间;
所述S33中的交叉熵CE损失,如下式(3)所示:
(3)
其中,表示通过空间类别标签上的交叉熵损失,/>表示可训练样本数,/>表示第i个音频对应的场景真实分布概率,/>表示第i个音频对应的场景预测类别的后验概率。
2.根据权利要求1所述的方法,其特征在于,所述S14中的后验概率,如下式(4)所示:
(4)
其中,表示后端多层感知器MLP分类器,/>表示具有空间属性的声学特征向量,表示可训练参数,/>表示特征向量维度,/>表示/>维向量空间。
3.根据权利要求1所述的方法,其特征在于,所述S15中的RT60,如下式(5)所示:
(5)
其中,表示RT60模型估计值,/>表示后端涉及多层感知器MLP的 RT 60估计器,/>表示具有空间属性的声学特征向量,/>表示可训练参数,/>表示一维向量空间。
4.根据权利要求1所述的方法,其特征在于,所述S34中的跨模态SCL损失,如下式(6)所示:
(6)
其中,表示跨模态SCL损失,/>表示样本数,/>表示类样本数,/>表示/>,满足条件时为1,否则为0,/>表示归一化的声学特征向量,/>表示归一化的图像特征向量,/>表示强负样本对的惩罚程度,/>表示i≠k时为1,否则为0,/>表示归一化的图像特征向量。
5.一种基于空间线索的语音-图像跨模态检索装置,其特征在于,所述装置包括:
声学特征提取模块,用于获取待跨模态检索的语音信号,将所述语音信号输入到构建好的音频编码器中,提取得到具有空间属性的声学特征;
图像特征提取模块,用于获取待跨模态检索的图像信息,将所述图像信息输入到构建好的图像编码器中,提取得到场景图像特征;
输出模块,用于对所述声学特征以及场景图像特征进行对比语音图像检索CSIR,得到具有空间一致性的跨模态检索结果;
所述音频编码器为MelCT结构;所述MelCT结构包括卷积神经网络CNN模块以及Transformer模块;
所述将所述语音信号输入到构建好的音频编码器中,提取得到具有空间属性的声学特征,包括:
S11、将所述语音信号转换为梅尔频谱图;
S12、将所述梅尔频谱图输入到所述卷积神经网络CNN模块中,得到CNN模块输出;
S13、将所述梅尔频谱图输入到所述Transformer模块中,得到Transformer模块输出;
S14、将所述CNN模块输出以及Transformer模块输出进行展平和平均操作后计算后验概率,进而得到具有空间属性的声学特征;其中,所述后验概率用于预测场景类别标签;
S15、使用交叉熵CE损失对所述MelCT结构进行优化,以及使用RT60的L1损失对所述MelCT结构进行优化,如下式(1)所示:
(1)
其中,表示MelCT结构优化的总损失函数,/>表示通过空间类别标签上的交叉熵损失,/>表示RT60模型估计值,/>表示RT60真实值;
所述对所述声学特征以及图像特征进行对比语音图像检索,得到具有空间一致性的跨模态检索结果,包括:
S31、将所述声学特征以及图像特征投影到公共空间,得到投影后的特征;
S32、根据所述投影后的特征预测每个语义空间标签的后验概率;
S33、根据所述每个语义空间标签的后验概率,定义交叉熵CE损失;
S34、定义跨模态SCL损失;
S35、根据所述交叉熵CE损失以及跨模态SCL损失,定义优化的总体函数,进而得到具有空间一致性的跨模态检索结果;
所述S32中的每个语义空间标签的后验概率,如下式(2)所示:
(2)
其中,表示来自级联多模态特征的空间分类器,/>表示图像的归一化特征,/>表示音频的归一化特征,⊙表示成对特征级联,/>表示可训练参数,/>表示特征向量维度,/>表示/>维向量空间;
所述S33中的交叉熵CE损失,如下式(3)所示:
(3)
其中,表示通过空间类别标签上的交叉熵损失,/>表示可训练样本数,/>表示第i个音频对应的场景真实分布概率,/>表示第i个音频对应的场景预测类别的后验概率。
CN202311104574.9A 2023-08-30 2023-08-30 一种基于空间线索的语音-图像跨模态检索方法及装置 Active CN116821381B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311104574.9A CN116821381B (zh) 2023-08-30 2023-08-30 一种基于空间线索的语音-图像跨模态检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311104574.9A CN116821381B (zh) 2023-08-30 2023-08-30 一种基于空间线索的语音-图像跨模态检索方法及装置

Publications (2)

Publication Number Publication Date
CN116821381A CN116821381A (zh) 2023-09-29
CN116821381B true CN116821381B (zh) 2023-12-01

Family

ID=88117051

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311104574.9A Active CN116821381B (zh) 2023-08-30 2023-08-30 一种基于空间线索的语音-图像跨模态检索方法及装置

Country Status (1)

Country Link
CN (1) CN116821381B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536067A (zh) * 2021-07-20 2021-10-22 南京邮电大学 一种基于语义融合的跨模态信息检索方法
US20220044022A1 (en) * 2020-08-10 2022-02-10 International Business Machines Corporation Dual-modality relation networks for audio-visual event localization
CN116628261A (zh) * 2023-05-29 2023-08-22 天津大学 基于多语义空间的视频文本检索方法、系统、设备及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220044022A1 (en) * 2020-08-10 2022-02-10 International Business Machines Corporation Dual-modality relation networks for audio-visual event localization
CN113536067A (zh) * 2021-07-20 2021-10-22 南京邮电大学 一种基于语义融合的跨模态信息检索方法
CN116628261A (zh) * 2023-05-29 2023-08-22 天津大学 基于多语义空间的视频文本检索方法、系统、设备及介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"AI设计下的文本视觉问答技术";晋赞霞 等;《包装工程》;第42卷(第6期);全文 *
"C-BGA:结合对比学习的多模态语音情感识别网络";苗博瑞 等;《计算机工程与应用》;全文 *
"Joint deep learning framework for image registration and segmentation of late gadolinium enhanced MRI and cine cardiac MRI";Upendra Roshan Reddy 等;《Rochester Institute of Technology (United States)》;全文 *
"声音-图像的跨模态处理方法综述";郑婉蓉 等;《中国传媒大学学报》;第25卷(第4期);全文 *

Also Published As

Publication number Publication date
CN116821381A (zh) 2023-09-29

Similar Documents

Publication Publication Date Title
Gabeur et al. Multi-modal transformer for video retrieval
US10691899B2 (en) Captioning a region of an image
Mao et al. Deep cross-modal retrieval for remote sensing image and audio
CN108920666A (zh) 基于语义理解的搜索方法、系统、电子设备及存储介质
CN113709384A (zh) 基于深度学习的视频剪辑方法、相关设备及存储介质
US20230057010A1 (en) Term weight generation method, apparatus, device and medium
Le et al. NII-HITACHI-UIT at TRECVID 2016.
WO2020177673A1 (zh) 一种视频序列选择的方法、计算机设备及存储介质
JP2015162244A (ja) 発話ワードをランク付けする方法、プログラム及び計算処理システム
CN113395578A (zh) 一种提取视频主题文本的方法、装置、设备及存储介质
WO2023168998A1 (zh) 视频片段的识别方法、装置、设备以及存储介质
WO2023207541A1 (zh) 一种语音处理方法及相关设备
CN113596601A (zh) 一种视频画面的定位方法、相关装置、设备及存储介质
CN113392265A (zh) 多媒体处理方法、装置及设备
CN114758742A (zh) 病历信息处理方法、装置、电子设备及存储介质
Sreeja et al. A unified model for egocentric video summarization: an instance-based approach
WO2024093578A1 (zh) 语音识别方法、装置、电子设备、存储介质及计算机程序产品
Liu et al. A multimodal approach for multiple-relation extraction in videos
Wang et al. Listen, look, and find the one: Robust person search with multimodality index
CN116821381B (zh) 一种基于空间线索的语音-图像跨模态检索方法及装置
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
CN116958852A (zh) 视频与文本的匹配方法、装置、电子设备和存储介质
Qi et al. Video captioning via a symmetric bidirectional decoder
WO2013035670A1 (ja) 物体検索システムおよび物体検索方法
Hammad et al. Characterizing the impact of using features extracted from pre-trained models on the quality of video captioning sequence-to-sequence models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant