CN113536067A

CN113536067A - 一种基于语义融合的跨模态信息检索方法

Info

Publication number: CN113536067A
Application number: CN202110818202.7A
Authority: CN
Inventors: 周亮; 徐建博; 冶占远; 魏昕
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2021-10-22
Anticipated expiration: 2041-07-20
Also published as: CN113536067B

Abstract

本发明公开了一种基于语义融合的跨模态信息检索方法，包括：采集原始数据，并对所述原始数据进行预处理；将所述预处理后的原始数据分别进行特征提取和模型训练，得到不同的模态特征；将所述不同的模态特征输入到同一网络中进行语义融合，得到语义融合网络模型；基于所述语义融合网络模型以及查询集样本进行检索，完成跨模态信息检索。本发明克服了传统的图像‑文本两种模态的跨模态检索，实现了图像、音频、触觉信号三种模态的跨模态信息检索；对触觉信号的预处理方法，可以将原始的一维序列信号进行二维可视化，从而可以与原始图像进行语义关联达到检索的目的。

Description

一种基于语义融合的跨模态信息检索方法

技术领域

本发明涉及信息检索技术领域，尤其涉及一种基于语义融合的跨模态信息检索方法。

背景技术

近年来，随着互联网产业火热的发展，大数据、云计算、人工智能等技术不断地兴起，从而产生不同类型的海量数据，如音频、视频、文本、图像等，人们已经不满足于单模态之间的检索，比如图像检索图像、文本检索文本。因此，跨模态检索成为研究的热点。与传统的单模态检索不同，跨模态检索所使用的查询样本和检索样本属于不同的模态。然而，不同模态的数据存在着不同的特征空间，“语义鸿沟”问题使得不同模态数据之间难以直接进行表征和度量。

不过，深度学习技术有望解决该问题，深度神经网络具有强大的非线性映射能力，可以对不同模态数据进行有效的语义关联，从而进行跨模态检索。但是，现有基于深度学习的跨模态检索方法都是致力于解决图像和文本两种数据类型之间的语义关联问题，而现实生活中还充斥着大量的其他类型数据，比如智能机器人在进行人机交互过程中会同时采集到图像、音频以及触觉信号数据。因此，需要设计一种合理的跨模态信息检索方法来解决多于两种模态的信息检索问题，以此达到对多种不同类型的数据之间进行高效、准确地检索。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

因此，本发明解决的技术问题是：跨模态检索所使用的查询样本和检索样本属于不同的模态，它们的数据存在着不同的特征空间，使得不同模态数据之间难以直接进行表征和度量。

为解决上述技术问题，本发明提供如下技术方案：采集原始数据，并对所述原始数据进行预处理；将所述预处理后的原始数据分别进行特征提取和模型训练，得到不同的模态特征；将所述不同的模态特征输入到同一网络中进行语义融合，得到语义融合网络模型；基于所述语义融合网络模型以及查询集样本进行检索，完成跨模态信息检索。

作为本发明所述的基于语义融合的跨模态信息检索方法的一种优选方案，其中：所述原始数据包括原始图像、音频以及触觉信号。

作为本发明所述的基于语义融合的跨模态信息检索方法的一种优选方案：其中：将所述原始图像的分辨率调整为224×224×3；将所述音频转换成离散数字信号；将所述触觉信号或者所述离散数字信号作为新的信号进行预处理。

作为本发明所述的基于语义融合的跨模态信息检索方法的一种优选方案：其中：所述预处理包括，

预加重：

设置所述新的信号x(n)，0≤n≤N-1，将预加重滤波器作用于信号x(n)，得到预加重信号y(n)：

其中，α表示预加重滤波器系数，N为信号长度，信号x(n)采样频率为f_s；

分帧：

将帧大小FRAME_SIZE记为N_sz，帧步长FRAME_STRIDE记为N_sd，计算帧长FRAME_LENGTH为N_lg＝N_sz·f_s，帧步数FRAME_STEP为N_sp＝N_sd·f_s，帧个数FRAME_NUM为N_m＝ceil(|N-N_lg|/N_sp)，需要填充信号的长度PADDING_LENGTH为NP＝N_m·N_sp+N_lg，将信号y(n)补零至长度NP，NP>N，得到填充后的信号z(n)：

构图：

构造p行q列的索引矩阵A：

其中，p表示N_m，q表示N_lg，r表示N_sp；

所述矩阵A记为：

基于所述信号z(n)以及所述矩阵A进行构图，得到矩阵B：

其中，z(a_pq)表示信号z(n)的第a_pq个取值。

作为本发明所述的基于语义融合的跨模态信息检索方法的一种优选方案：其中：所述预处理还包括，

加窗：汉明窗w(n)表示为：

基于所述矩阵B和所述汉明窗w(n)，得到加窗后的矩阵C：

功率谱：计算信号功率谱P的公式为：

其中，x_i表示矩阵C第i行的q个数据，1≤i≤p，|FFT(x_i)|表示对q个数据作M点快速傅里叶变换后取幅值，得到floor(M/2+1)个点，将floor(M/2+1)表示为s；

基于计算信号功率谱

得到最终的功率谱矩阵D：

其中，[d_i1,d_i2,…,d_is]表示经过|FFT(x_i)|²/M运算后得到的s个点；

滤波器组：

设置滤波器个数为K，最低梅尔频率LOW_MEL为m_l＝0，最高梅尔频率HIGH_MEL为m_h＝2595log₁₀(1+(f_s/2)/700)，从m_l至m_h之间等间距取K+2个点，包含起始和末尾点，并从小到大依次排列，得到向量[u₀,u₁,…,u_K+1]，将该向量中的每个元素u_i通过公式

得到元素v_i，0≤i≤K+1，表示为向量[v₀,v₁,…,v_K+1]；

将滤波器组H_m(k)表示为：

其中，f(i)＝floor((M+1)·v_i/f_s)，0≤i≤K+1；

构造滤波器组矩阵Q：

最终构图：

将矩阵Q_K×s乘以矩阵D_p×s的转置，并将所得矩阵中的每个元素以10为底取对数再乘以10，得到最终p行K列的矩阵O_K×p：

O_K×p＝Q_K×s·D_p×s ^T

将二维矩阵O_K×p通过色彩映射变为三维矩阵，得到触觉信号或音频信号的时频图，将所述时频图分辨率调整为224×224×3。

作为本发明所述的基于语义融合的跨模态信息检索方法的一种优选方案，其中：所述模态模型训练包括，

将原始图像、音频和触觉信号经过预处理后得到的224×224×3的图像输入至VGG16网络中，输出的特征向量的形状为(7,7,512)，并通过扁平层扁平化为一维向量。

作为本发明所述的基于语义融合的跨模态信息检索方法的一种优选方案，其中：所述模态模型训练还包括，

将所述一维向量分别进行模型训练，模态训练模型网络结构依次为：批量归一化层、Dropout层1、全连接层1、Dropout层2、全连接层2；

采用Adam优化器，设置优化器学习率为0.001、批次为64、损失函数为多分类交叉熵损失函数；

设置三种模态各自模型的总迭代次数为M₁、M₂、M₃；达到迭代次数后停止迭代，移除模型的Dropout层2、全连接层2；保存模态结构：批量归一化层、Dropout层1、全连接层1以及训练后模型的权重。

作为本发明所述的基于语义融合的跨模态信息检索方法的一种优选方案，其中：所述模态特征提取包括，

损失函数L：

L＝L₁+λ·L₂

其中，λ表示损失函数的超参数，N_V、N_A、N_T分别表示图像、音频、触觉信号的样本数，

表示图像样本N_V中第k个样本经过图像模态的独立训练模型输出的特征，

表示图像样本N_V中第k个样本特征对应的标签，

表示音频样本N_A中第k个样本经过音频模态的独立训练模型输出的特征，

表示音频样本N_A中第k个样本特征对应的标签，

表示触觉信号样本N_T中第k个样本经过触觉模态的独立训练模型输出的特征，

表示触觉信号样本N_V中第k个样本特征对应的标签，g(·)表示多分类交叉熵损失函数，N_s表示图像、音频、触觉信号的样本总数，x^m表示样本总数N_S中第m个样本经过模态的独立训练模型输出的特征，cm表示该第m个样本对应的类别中心，所述中心随着每次迭代的批次不断更新。

作为本发明所述的基于语义融合的跨模态信息检索方法的一种优选方案，其中：所述语义融合网络模型结构依次包括，

全连接层3、Dropout层3、全连接层4、Dropout层4、全连接层5、Dropout层5、全连接层6；

所述语义融合的训练过程包括，

采用Adam优化器，设置优化器学习率为0.001、批次为64、损失函数为所述损失函数L，设置总迭代次数为M_s，达到迭代次数后停止迭代，保存模型结构以及训练后的模型权重。

作为本发明所述的基于语义融合的跨模态信息检索方法的一种优选方案，其中：基于所述语义融合网络模型以及查询集样本进行检索，所述检索过程包括，

提供一个查询集样本和一个检索集样本，将两个样本经过所述优化后的语义融合网络模型，分别输出向量q_i、r_j，采用余弦函数进行相似性度量：

其中，i和j分别表示查询集、检索集中样本的序号；

固定i，将j遍历检索集后按距离从大到小的顺序进行排序，提取距离排序前k个值所对应的检索样本。

本发明的有益效果：本发明克服了传统的图像-文本两种模态的跨模态检索，实现了图像、音频、触觉信号三种模态的跨模态信息检索；对触觉信号的预处理方法，可以将原始的一维序列信号进行二维可视化，从而可以与原始图像进行语义关联达到检索的目的。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明一个实施例提供的一种基于语义融合的跨模态信息检索方法的基本流程示意图；

图2为本发明一个实施例提供的一种基于语义融合的跨模态信息检索方法的图像检索图像的PR曲线图；

图3为本发明一个实施例提供的一种基于语义融合的跨模态信息检索方法的图像检索音频的PR曲线图；

图4为本发明一个实施例提供的一种基于语义融合的跨模态信息检索方法的图像检索触觉信号的PR曲线图；

图5为本发明一个实施例提供的一种基于语义融合的跨模态信息检索方法的音频检索图像的PR曲线图；

图6为本发明一个实施例提供的一种基于语义融合的跨模态信息检索方法的音频检索音频的PR曲线图；

图7为本发明一个实施例提供的一种基于语义融合的跨模态信息检索方法的音频检索触觉信号的PR曲线图；

图8为本发明一个实施例提供的一种基于语义融合的跨模态信息检索方法的触觉信号检索图像的PR曲线图；

图9为本发明一个实施例提供的一种基于语义融合的跨模态信息检索方法的触觉信号检索音频的PR曲线图；

图10为本发明一个实施例提供的一种基于语义融合的跨模态信息检索方法的触觉信号检索触觉信号的PR曲线图；

图11为本发明一个实施例提供的一种基于语义融合的跨模态信息检索方法的单模态检索所有模态的PR曲线图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1，为本发明的一个实施例，提供了一种基于语义融合的跨模态信息检索方法，包括：

S1：采集原始数据，并对原始数据进行预处理。需要说明的是：

原始数据包括原始图像、音频以及触觉信号，将原始图像的分辨率调整为224×224×3；将音频转换成离散数字信号；将触觉信号或者离散数字信号作为新的信号进行预处理；

预处理包括，

(1)预加重：

设置新的信号为x(n)，0≤n≤N-1，将预加重滤波器作用于信号x(n)，得到预加重信号y(n)：

(2)分帧：

(3)构图：

构造p行q列的索引矩阵A：

其中，p表示N_m，q表示N_lg，r表示N_sp；

矩阵A记为：

基于信号z(n)以及矩阵A进行构图，得到矩阵B：

其中，z(a_pq)表示信号z(n)的第a_pq个取值，以此类推。

(4)加窗：

加窗：汉明窗w(n)表示为：

基于矩阵B和汉明窗w(n)，得到加窗后的矩阵C：

(5)功率谱：计算信号功率谱P的公式为：

基于计算信号功率谱

得到最终的功率谱矩阵D：

(6)滤波器组：

得到元素v_i，0≤i≤K+1，表示为向量[v₀,v₁,…,v_K+1]；

进一步地，将滤波器组H_m(k)表示为：

其中，f(i)＝floor((M+1)·v_i/f_s)，0≤i≤K+1；

更进一步地，构造滤波器组矩阵Q：

(7)最终构图：

O_K×p＝Q_K×s·D_p×s ^T

将二维矩阵O_K×p通过色彩映射变为三维矩阵，得到触觉信号或音频信号的时频图，将时频图分辨率调整为224×224×3。

S2：将三种模态分别进行特征提取以及模型训练，得到不同的模态特征。需要说明的是：模态模型训练包括，

将原始图像、音频和触觉信号经过预处理后得到的224×224×3的图像输入至VGG16网络中，VGG16网络为去除末端所有全连接层并且使用ImageNet权重的VGG16网络，输出的特征向量的形状为(7,7,512)，即长为7，宽为7，维度为512，并通过扁平层扁平化为一维向量；

将一维向量分别进行模型训练，模态训练模型网络结构依次为：批量归一化层、Dropout层1(丢弃率0.5)、全连接层1(长度256、激活函数relu)、Dropout层2(丢弃率0.5)、全连接层2(长度为分类的个数、激活函数softmax)；

采用Adam优化器，设置优化器学习率为0.001、批次为64、损失函数为多分类交叉熵损失函数；设置三种模态各自模型的总迭代次数为M₁、M₂、M₃；达到迭代次数后停止迭代，移除模型的Dropout层2(丢弃率0.5)、全连接层2(长度为分类的个数、激活函数softmax)，保存模态结构：批量归一化层、Dropout层1(丢弃率0.5)、全连接层1(长度256、激活函数relu)以及训练后模型的权重。

S3：将不同的模态特征都输入到同一网络中进行语义融合。需要说明的是：

模态特征提取包括，

损失函数L：

L＝L₁+λ·L₂

表示图像样本N_V中第k个样本特征对应的标签，

表示音频样本N_A中第k个样本特征对应的标签，

表示触觉信号样本N_V中第k个样本特征对应的标签，g( )表示多分类交叉熵损失函数，N_s表示图像、音频、触觉信号的样本总数，x^m表示样本总数N_s中第m个样本经过模态的独立训练模型输出的特征，cm表示该第m个样本对应的类别中心，中心随着每次迭代的批次不断更新。

语义融合网络模型结构依次包括：全连接层3(长度256、激活函数relu)、Dropout层3(丢弃率0.5)、全连接层4(长度256、激活函数relu)、Dropout层4(丢弃率0.5)、全连接层5(长度256、激活函数relu)、Dropout层5(丢弃率0.5)、全连接层6(长度为分类的个数、激活函数softmax)；

语义融合的训练过程包括，

采用Adam优化器，设置优化器学习率为0.001、批次为64、损失函数为、损失函数L，设置总迭代次数为M_s，达到迭代次数后停止迭代，保存模型结构以及训练后的模型权重。

S4：基于语义融合网络模型以及查询集样本进行检索，完成跨模态信息检索。需要说明的是：

检索过程包括，

提供一个查询集样本和一个检索集样本，将两个样本经过优化后的语义融合网络模型，分别输出向量记为q_i、r_j；采用余弦函数进行相似性度量：

其中，i和j分别表示查询集、检索集中样本的序号；

固定i，将j遍历检索集后按距离从大到小的顺序进行排序，提取距离排序前k个值所对应的检索样本，即为前k个检索结果。

本发明首先将音频和触觉信号都预处理成图像，与原始图像一起调整为相同大小的分辨率，输入至去除末端所有全连接层并且使用ImageNet权重的VGG16网络中得到特征向量；然后，将不同模态的特征分别进行独立训练；接着，将独立训练后三种模态的特征都输入至语义融合网络中进行语义融合；最后，利用余弦函数对语义融合网络的输出向量进行相似度度量并检索。与现有技术相比，本发明克服了传统的图像-文本两种模态的跨模态检索，实现了图像、音频、触觉信号三种模态的跨模态信息检索；对触觉信号的预处理方法，可以将原始的一维序列信号进行二维可视化，从而可以与原始图像进行语义关联达到检索的目的。

实施例2

参照图2～11为本发明的第二个实施例，该实施例不同于第一个实施例的是，提供了一种基于语义融合的跨模态信息检索方法的验证测试，为对本方法中采用的技术效果加以验证说明，本实施例采用传统技术方案与本发明方法进行对比测试，以科学论证的手段对比试验结果，以验证本方法所具有的真实效果。

传统技术方案：传统的CCA、KCCA、ICA、PCA、AE、VAE六种方法在应对涉及到三种模态的跨模态检索问题时检索精度较低；为验证本方法相对传统方法具有较高的检索性能，本实施例中将采用传统CCA、KCCA、ICA、PCA、AE、VAE这六种方法和本方法分别进行MAP值对比，MAP值越大说明检索性能越好。

测试环境：在Jupyter Notebook软件上，使用Python语言将本文所搭建的模型进行仿真实验，数据集选取包含图像(V)、音频(A)、触觉信号(T)的表面纹理材质公共数据集(https://zeus.lmt.ei.tum.de/downloads/texture/)，将训练集、验证集、测试集分别按照3：1：1的比例重新划分，需要说明的是，V→V表示图像检索图像、V→A表示图像检索音频、V→T表示图像检索触觉信号、A→V表示音频检索图像、A→A表示音频检索音频、A→T表示音频检索触觉信号、T→V表示触觉信号检索图像、T→A表示触觉信号检索音频、T→T表示触觉信号检索触觉信号；

表1：传统方法与本方法MAP值对比结果表。

方法对比	V→V	V→A	V→T	A→V	A→A	A→T	T→V	T→A	T→T	平均
											CCA	0.179	0.141	0.139	0.143	0.169	0.140	0.139	0.138	0.186	0.153
KCCA	0.200	0.199	0.200	0.201	0.218	0.205	0.201	0.217	0.217	0.206
											PCA	0.302	0.144	0.153	0.161	0.250	0.159	0.173	0.152	0.280	0.197
ICA	0.297	0.147	0.145	0.152	0.247	0.179	0.140	0.179	0.269	0.195
											AE	0.302	0.146	0.165	0.159	0.246	0.173	0.161	0.166	0.301	0.202
VAE	0.299	0.148	0.154	0.151	0.253	0.177	0.157	0.170	0.301	0.201
											本方法	0.921	0.702	0.588	0.712	0.560	0.475	0.636	0.479	0.452	0.614

由表1可知，本方法的MAP值远大于传统方法的MAP值，MAP值越大说明检索性能越好，本方法的检索性能要高于传统方法的检索性能。

本发明按照上述流程进行实验，选取包含图像、音频、触觉信号的数据集，按照上述步骤进行实验；将数据按照3：1：1的比例划分出训练集、测试集、验证集，其中训练集用于训练，使用测试集来调整超参数，验证集充当查询集和检索集使用；为了分析结果，采用PR曲线来对本发明方法和CCA、KCCA、ICA、PCA、AE、VAE六种方法进行对比；其中，图像、音频、触觉信号三种模态分别记为V、A、T，所有模态总和记为All。

图2～10为使用本发明的方法得到的跨模态信息检索的PR曲线，对比了CCA、KCCA、ICA、PCA、AE、VAE六种方法，可以看出本发明所提方法的PR曲线均在其余曲线的上方，本文方法的PR曲线完全包住其他方法，说明本文方法的性能优于其他方法(比如：两种方法A和B，如果A方法的PR曲线完全包住B方法的PR曲线，说明A方法的性能要优于B方法的性能)。

图11为本发明的方法可以进行单模态检索所有模态，本方法的PR曲线呈现出上凸状，图像检索所有模态的PR曲线完全包围住音频检索所有模态的PR曲线，而音频检索所有模态的PR曲线完全包围住触觉信号检索所有模态的PR曲线，说明这三者来说，图像检索要优于音频检索和触觉信号检索；其中，V→All、A→All、T→All分别表示图像检索所有模态、音频检索所有模态、触觉信号检索所有模态。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。