CN113536067A - 一种基于语义融合的跨模态信息检索方法 - Google Patents

一种基于语义融合的跨模态信息检索方法 Download PDF

Info

Publication number
CN113536067A
CN113536067A CN202110818202.7A CN202110818202A CN113536067A CN 113536067 A CN113536067 A CN 113536067A CN 202110818202 A CN202110818202 A CN 202110818202A CN 113536067 A CN113536067 A CN 113536067A
Authority
CN
China
Prior art keywords
modal
signal
semantic fusion
matrix
information retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110818202.7A
Other languages
English (en)
Other versions
CN113536067B (zh
Inventor
周亮
徐建博
冶占远
魏昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110818202.7A priority Critical patent/CN113536067B/zh
Publication of CN113536067A publication Critical patent/CN113536067A/zh
Application granted granted Critical
Publication of CN113536067B publication Critical patent/CN113536067B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于语义融合的跨模态信息检索方法,包括:采集原始数据,并对所述原始数据进行预处理;将所述预处理后的原始数据分别进行特征提取和模型训练,得到不同的模态特征;将所述不同的模态特征输入到同一网络中进行语义融合,得到语义融合网络模型;基于所述语义融合网络模型以及查询集样本进行检索,完成跨模态信息检索。本发明克服了传统的图像‑文本两种模态的跨模态检索,实现了图像、音频、触觉信号三种模态的跨模态信息检索;对触觉信号的预处理方法,可以将原始的一维序列信号进行二维可视化,从而可以与原始图像进行语义关联达到检索的目的。

Description

一种基于语义融合的跨模态信息检索方法
技术领域
本发明涉及信息检索技术领域,尤其涉及一种基于语义融合的跨模态信息检索方法。
背景技术
近年来,随着互联网产业火热的发展,大数据、云计算、人工智能等技术不断地兴起,从而产生不同类型的海量数据,如音频、视频、文本、图像等,人们已经不满足于单模态之间的检索,比如图像检索图像、文本检索文本。因此,跨模态检索成为研究的热点。与传统的单模态检索不同,跨模态检索所使用的查询样本和检索样本属于不同的模态。然而,不同模态的数据存在着不同的特征空间,“语义鸿沟”问题使得不同模态数据之间难以直接进行表征和度量。
不过,深度学习技术有望解决该问题,深度神经网络具有强大的非线性映射能力,可以对不同模态数据进行有效的语义关联,从而进行跨模态检索。但是,现有基于深度学习的跨模态检索方法都是致力于解决图像和文本两种数据类型之间的语义关联问题,而现实生活中还充斥着大量的其他类型数据,比如智能机器人在进行人机交互过程中会同时采集到图像、音频以及触觉信号数据。因此,需要设计一种合理的跨模态信息检索方法来解决多于两种模态的信息检索问题,以此达到对多种不同类型的数据之间进行高效、准确地检索。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有存在的问题,提出了本发明。
因此,本发明解决的技术问题是:跨模态检索所使用的查询样本和检索样本属于不同的模态,它们的数据存在着不同的特征空间,使得不同模态数据之间难以直接进行表征和度量。
为解决上述技术问题,本发明提供如下技术方案:采集原始数据,并对所述原始数据进行预处理;将所述预处理后的原始数据分别进行特征提取和模型训练,得到不同的模态特征;将所述不同的模态特征输入到同一网络中进行语义融合,得到语义融合网络模型;基于所述语义融合网络模型以及查询集样本进行检索,完成跨模态信息检索。
作为本发明所述的基于语义融合的跨模态信息检索方法的一种优选方案,其中:所述原始数据包括原始图像、音频以及触觉信号。
作为本发明所述的基于语义融合的跨模态信息检索方法的一种优选方案:其中:将所述原始图像的分辨率调整为224×224×3;将所述音频转换成离散数字信号;将所述触觉信号或者所述离散数字信号作为新的信号进行预处理。
作为本发明所述的基于语义融合的跨模态信息检索方法的一种优选方案:其中:所述预处理包括,
预加重:
设置所述新的信号x(n),0≤n≤N-1,将预加重滤波器作用于信号x(n),得到预加重信号y(n):
Figure BDA0003170923640000021
其中,α表示预加重滤波器系数,N为信号长度,信号x(n)采样频率为fs
分帧:
将帧大小FRAME_SIZE记为Nsz,帧步长FRAME_STRIDE记为Nsd,计算帧长FRAME_LENGTH为Nlg=Nsz·fs,帧步数FRAME_STEP为Nsp=Nsd·fs,帧个数FRAME_NUM为Nm=ceil(|N-Nlg|/Nsp),需要填充信号的长度PADDING_LENGTH为NP=Nm·Nsp+Nlg,将信号y(n)补零至长度NP,NP>N,得到填充后的信号z(n):
Figure BDA0003170923640000022
构图:
构造p行q列的索引矩阵A:
Figure BDA0003170923640000023
其中,p表示Nm,q表示Nlg,r表示Nsp
所述矩阵A记为:
Figure BDA0003170923640000031
基于所述信号z(n)以及所述矩阵A进行构图,得到矩阵B:
Figure BDA0003170923640000032
其中,z(apq)表示信号z(n)的第apq个取值。
作为本发明所述的基于语义融合的跨模态信息检索方法的一种优选方案:其中:所述预处理还包括,
加窗:汉明窗w(n)表示为:
Figure BDA0003170923640000033
基于所述矩阵B和所述汉明窗w(n),得到加窗后的矩阵C:
Figure BDA0003170923640000034
功率谱:计算信号功率谱P的公式为:
Figure BDA0003170923640000035
其中,xi表示矩阵C第i行的q个数据,1≤i≤p,|FFT(xi)|表示对q个数据作M点快速傅里叶变换后取幅值,得到floor(M/2+1)个点,将floor(M/2+1)表示为s;
基于计算信号功率谱
Figure BDA0003170923640000036
得到最终的功率谱矩阵D:
Figure BDA0003170923640000041
其中,[di1,di2,…,dis]表示经过|FFT(xi)|2/M运算后得到的s个点;
滤波器组:
设置滤波器个数为K,最低梅尔频率LOW_MEL为ml=0,最高梅尔频率HIGH_MEL为mh=2595log10(1+(fs/2)/700),从ml至mh之间等间距取K+2个点,包含起始和末尾点,并从小到大依次排列,得到向量[u0,u1,…,uK+1],将该向量中的每个元素ui通过公式
Figure BDA0003170923640000042
得到元素vi,0≤i≤K+1,表示为向量[v0,v1,…,vK+1];
将滤波器组Hm(k)表示为:
Figure BDA0003170923640000043
其中,f(i)=floor((M+1)·vi/fs),0≤i≤K+1;
构造滤波器组矩阵Q:
Figure BDA0003170923640000044
最终构图:
将矩阵QK×s乘以矩阵Dp×s的转置,并将所得矩阵中的每个元素以10为底取对数再乘以10,得到最终p行K列的矩阵OK×p
OK×p=QK×s·Dp×s T
将二维矩阵OK×p通过色彩映射变为三维矩阵,得到触觉信号或音频信号的时频图,将所述时频图分辨率调整为224×224×3。
作为本发明所述的基于语义融合的跨模态信息检索方法的一种优选方案,其中:所述模态模型训练包括,
将原始图像、音频和触觉信号经过预处理后得到的224×224×3的图像输入至VGG16网络中,输出的特征向量的形状为(7,7,512),并通过扁平层扁平化为一维向量。
作为本发明所述的基于语义融合的跨模态信息检索方法的一种优选方案,其中:所述模态模型训练还包括,
将所述一维向量分别进行模型训练,模态训练模型网络结构依次为:批量归一化层、Dropout层1、全连接层1、Dropout层2、全连接层2;
采用Adam优化器,设置优化器学习率为0.001、批次为64、损失函数为多分类交叉熵损失函数;
设置三种模态各自模型的总迭代次数为M1、M2、M3;达到迭代次数后停止迭代,移除模型的Dropout层2、全连接层2;保存模态结构:批量归一化层、Dropout层1、全连接层1以及训练后模型的权重。
作为本发明所述的基于语义融合的跨模态信息检索方法的一种优选方案,其中:所述模态特征提取包括,
损失函数L:
L=L1+λ·L2
Figure BDA0003170923640000051
Figure BDA0003170923640000052
其中,λ表示损失函数的超参数,NV、NA、NT分别表示图像、音频、触觉信号的样本数,
Figure BDA0003170923640000053
表示图像样本NV中第k个样本经过图像模态的独立训练模型输出的特征,
Figure BDA0003170923640000054
表示图像样本NV中第k个样本特征对应的标签,
Figure BDA0003170923640000055
表示音频样本NA中第k个样本经过音频模态的独立训练模型输出的特征,
Figure BDA0003170923640000056
表示音频样本NA中第k个样本特征对应的标签,
Figure BDA0003170923640000057
表示触觉信号样本NT中第k个样本经过触觉模态的独立训练模型输出的特征,
Figure BDA0003170923640000061
表示触觉信号样本NV中第k个样本特征对应的标签,g(·)表示多分类交叉熵损失函数,Ns表示图像、音频、触觉信号的样本总数,xm表示样本总数NS中第m个样本经过模态的独立训练模型输出的特征,cm表示该第m个样本对应的类别中心,所述中心随着每次迭代的批次不断更新。
作为本发明所述的基于语义融合的跨模态信息检索方法的一种优选方案,其中:所述语义融合网络模型结构依次包括,
全连接层3、Dropout层3、全连接层4、Dropout层4、全连接层5、Dropout层5、全连接层6;
所述语义融合的训练过程包括,
采用Adam优化器,设置优化器学习率为0.001、批次为64、损失函数为所述损失函数L,设置总迭代次数为Ms,达到迭代次数后停止迭代,保存模型结构以及训练后的模型权重。
作为本发明所述的基于语义融合的跨模态信息检索方法的一种优选方案,其中:基于所述语义融合网络模型以及查询集样本进行检索,所述检索过程包括,
提供一个查询集样本和一个检索集样本,将两个样本经过所述优化后的语义融合网络模型,分别输出向量qi、rj,采用余弦函数进行相似性度量:
Figure BDA0003170923640000062
其中,i和j分别表示查询集、检索集中样本的序号;
固定i,将j遍历检索集后按距离从大到小的顺序进行排序,提取距离排序前k个值所对应的检索样本。
本发明的有益效果:本发明克服了传统的图像-文本两种模态的跨模态检索,实现了图像、音频、触觉信号三种模态的跨模态信息检索;对触觉信号的预处理方法,可以将原始的一维序列信号进行二维可视化,从而可以与原始图像进行语义关联达到检索的目的。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明一个实施例提供的一种基于语义融合的跨模态信息检索方法的基本流程示意图;
图2为本发明一个实施例提供的一种基于语义融合的跨模态信息检索方法的图像检索图像的PR曲线图;
图3为本发明一个实施例提供的一种基于语义融合的跨模态信息检索方法的图像检索音频的PR曲线图;
图4为本发明一个实施例提供的一种基于语义融合的跨模态信息检索方法的图像检索触觉信号的PR曲线图;
图5为本发明一个实施例提供的一种基于语义融合的跨模态信息检索方法的音频检索图像的PR曲线图;
图6为本发明一个实施例提供的一种基于语义融合的跨模态信息检索方法的音频检索音频的PR曲线图;
图7为本发明一个实施例提供的一种基于语义融合的跨模态信息检索方法的音频检索触觉信号的PR曲线图;
图8为本发明一个实施例提供的一种基于语义融合的跨模态信息检索方法的触觉信号检索图像的PR曲线图;
图9为本发明一个实施例提供的一种基于语义融合的跨模态信息检索方法的触觉信号检索音频的PR曲线图;
图10为本发明一个实施例提供的一种基于语义融合的跨模态信息检索方法的触觉信号检索触觉信号的PR曲线图;
图11为本发明一个实施例提供的一种基于语义融合的跨模态信息检索方法的单模态检索所有模态的PR曲线图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
参照图1,为本发明的一个实施例,提供了一种基于语义融合的跨模态信息检索方法,包括:
S1:采集原始数据,并对原始数据进行预处理。需要说明的是:
原始数据包括原始图像、音频以及触觉信号,将原始图像的分辨率调整为224×224×3;将音频转换成离散数字信号;将触觉信号或者离散数字信号作为新的信号进行预处理;
预处理包括,
(1)预加重:
设置新的信号为x(n),0≤n≤N-1,将预加重滤波器作用于信号x(n),得到预加重信号y(n):
Figure BDA0003170923640000091
其中,α表示预加重滤波器系数,N为信号长度,信号x(n)采样频率为fs
(2)分帧:
将帧大小FRAME_SIZE记为Nsz,帧步长FRAME_STRIDE记为Nsd,计算帧长FRAME_LENGTH为Nlg=Nsz·fs,帧步数FRAME_STEP为Nsp=Nsd·fs,帧个数FRAME_NUM为Nm=ceil(|N-Nlg|/Nsp),需要填充信号的长度PADDING_LENGTH为NP=Nm·Nsp+Nlg,将信号y(n)补零至长度NP,NP>N,得到填充后的信号z(n):
Figure BDA0003170923640000092
(3)构图:
构造p行q列的索引矩阵A:
Figure BDA0003170923640000093
其中,p表示Nm,q表示Nlg,r表示Nsp
矩阵A记为:
Figure BDA0003170923640000094
基于信号z(n)以及矩阵A进行构图,得到矩阵B:
Figure BDA0003170923640000101
其中,z(apq)表示信号z(n)的第apq个取值,以此类推。
(4)加窗:
加窗:汉明窗w(n)表示为:
Figure BDA0003170923640000102
基于矩阵B和汉明窗w(n),得到加窗后的矩阵C:
Figure BDA0003170923640000103
(5)功率谱:计算信号功率谱P的公式为:
Figure BDA0003170923640000104
其中,xi表示矩阵C第i行的q个数据,1≤i≤p,|FFT(xi)|表示对q个数据作M点快速傅里叶变换后取幅值,得到floor(M/2+1)个点,将floor(M/2+1)表示为s;
基于计算信号功率谱
Figure BDA0003170923640000105
得到最终的功率谱矩阵D:
Figure BDA0003170923640000106
其中,[di1,di2,…,dis]表示经过|FFT(xi)|2/M运算后得到的s个点;
(6)滤波器组:
设置滤波器个数为K,最低梅尔频率LOW_MEL为ml=0,最高梅尔频率HIGH_MEL为mh=2595log10(1+(fs/2)/700),从ml至mh之间等间距取K+2个点,包含起始和末尾点,并从小到大依次排列,得到向量[u0,u1,…,uK+1],将该向量中的每个元素ui通过公式
Figure BDA0003170923640000111
得到元素vi,0≤i≤K+1,表示为向量[v0,v1,…,vK+1];
进一步地,将滤波器组Hm(k)表示为:
Figure BDA0003170923640000112
其中,f(i)=floor((M+1)·vi/fs),0≤i≤K+1;
更进一步地,构造滤波器组矩阵Q:
Figure BDA0003170923640000113
(7)最终构图:
将矩阵QK×s乘以矩阵Dp×s的转置,并将所得矩阵中的每个元素以10为底取对数再乘以10,得到最终p行K列的矩阵OK×p
OK×p=QK×s·Dp×s T
将二维矩阵OK×p通过色彩映射变为三维矩阵,得到触觉信号或音频信号的时频图,将时频图分辨率调整为224×224×3。
S2:将三种模态分别进行特征提取以及模型训练,得到不同的模态特征。需要说明的是:模态模型训练包括,
将原始图像、音频和触觉信号经过预处理后得到的224×224×3的图像输入至VGG16网络中,VGG16网络为去除末端所有全连接层并且使用ImageNet权重的VGG16网络,输出的特征向量的形状为(7,7,512),即长为7,宽为7,维度为512,并通过扁平层扁平化为一维向量;
将一维向量分别进行模型训练,模态训练模型网络结构依次为:批量归一化层、Dropout层1(丢弃率0.5)、全连接层1(长度256、激活函数relu)、Dropout层2(丢弃率0.5)、全连接层2(长度为分类的个数、激活函数softmax);
采用Adam优化器,设置优化器学习率为0.001、批次为64、损失函数为多分类交叉熵损失函数;设置三种模态各自模型的总迭代次数为M1、M2、M3;达到迭代次数后停止迭代,移除模型的Dropout层2(丢弃率0.5)、全连接层2(长度为分类的个数、激活函数softmax),保存模态结构:批量归一化层、Dropout层1(丢弃率0.5)、全连接层1(长度256、激活函数relu)以及训练后模型的权重。
S3:将不同的模态特征都输入到同一网络中进行语义融合。需要说明的是:
模态特征提取包括,
损失函数L:
L=L1+λ·L2
Figure BDA0003170923640000121
Figure BDA0003170923640000122
其中,λ表示损失函数的超参数,NV、NA、NT分别表示图像、音频、触觉信号的样本数,
Figure BDA0003170923640000123
表示图像样本NV中第k个样本经过图像模态的独立训练模型输出的特征,
Figure BDA0003170923640000124
表示图像样本NV中第k个样本特征对应的标签,
Figure BDA0003170923640000125
表示音频样本NA中第k个样本经过音频模态的独立训练模型输出的特征,
Figure BDA0003170923640000126
表示音频样本NA中第k个样本特征对应的标签,
Figure BDA0003170923640000127
表示触觉信号样本NT中第k个样本经过触觉模态的独立训练模型输出的特征,
Figure BDA0003170923640000128
表示触觉信号样本NV中第k个样本特征对应的标签,g( )表示多分类交叉熵损失函数,Ns表示图像、音频、触觉信号的样本总数,xm表示样本总数Ns中第m个样本经过模态的独立训练模型输出的特征,cm表示该第m个样本对应的类别中心,中心随着每次迭代的批次不断更新。
语义融合网络模型结构依次包括:全连接层3(长度256、激活函数relu)、Dropout层3(丢弃率0.5)、全连接层4(长度256、激活函数relu)、Dropout层4(丢弃率0.5)、全连接层5(长度256、激活函数relu)、Dropout层5(丢弃率0.5)、全连接层6(长度为分类的个数、激活函数softmax);
语义融合的训练过程包括,
采用Adam优化器,设置优化器学习率为0.001、批次为64、损失函数为、损失函数L,设置总迭代次数为Ms,达到迭代次数后停止迭代,保存模型结构以及训练后的模型权重。
S4:基于语义融合网络模型以及查询集样本进行检索,完成跨模态信息检索。需要说明的是:
检索过程包括,
提供一个查询集样本和一个检索集样本,将两个样本经过优化后的语义融合网络模型,分别输出向量记为qi、rj;采用余弦函数进行相似性度量:
Figure BDA0003170923640000131
其中,i和j分别表示查询集、检索集中样本的序号;
固定i,将j遍历检索集后按距离从大到小的顺序进行排序,提取距离排序前k个值所对应的检索样本,即为前k个检索结果。
本发明首先将音频和触觉信号都预处理成图像,与原始图像一起调整为相同大小的分辨率,输入至去除末端所有全连接层并且使用ImageNet权重的VGG16网络中得到特征向量;然后,将不同模态的特征分别进行独立训练;接着,将独立训练后三种模态的特征都输入至语义融合网络中进行语义融合;最后,利用余弦函数对语义融合网络的输出向量进行相似度度量并检索。与现有技术相比,本发明克服了传统的图像-文本两种模态的跨模态检索,实现了图像、音频、触觉信号三种模态的跨模态信息检索;对触觉信号的预处理方法,可以将原始的一维序列信号进行二维可视化,从而可以与原始图像进行语义关联达到检索的目的。
实施例2
参照图2~11为本发明的第二个实施例,该实施例不同于第一个实施例的是,提供了一种基于语义融合的跨模态信息检索方法的验证测试,为对本方法中采用的技术效果加以验证说明,本实施例采用传统技术方案与本发明方法进行对比测试,以科学论证的手段对比试验结果,以验证本方法所具有的真实效果。
传统技术方案:传统的CCA、KCCA、ICA、PCA、AE、VAE六种方法在应对涉及到三种模态的跨模态检索问题时检索精度较低;为验证本方法相对传统方法具有较高的检索性能,本实施例中将采用传统CCA、KCCA、ICA、PCA、AE、VAE这六种方法和本方法分别进行MAP值对比,MAP值越大说明检索性能越好。
测试环境:在Jupyter Notebook软件上,使用Python语言将本文所搭建的模型进行仿真实验,数据集选取包含图像(V)、音频(A)、触觉信号(T)的表面纹理材质公共数据集(https://zeus.lmt.ei.tum.de/downloads/texture/),将训练集、验证集、测试集分别按照3:1:1的比例重新划分,需要说明的是,V→V表示图像检索图像、V→A表示图像检索音频、V→T表示图像检索触觉信号、A→V表示音频检索图像、A→A表示音频检索音频、A→T表示音频检索触觉信号、T→V表示触觉信号检索图像、T→A表示触觉信号检索音频、T→T表示触觉信号检索触觉信号;
表1:传统方法与本方法MAP值对比结果表。
方法对比 V→V V→A V→T A→V A→A A→T T→V T→A T→T 平均
CCA 0.179 0.141 0.139 0.143 0.169 0.140 0.139 0.138 0.186 0.153
KCCA 0.200 0.199 0.200 0.201 0.218 0.205 0.201 0.217 0.217 0.206
PCA 0.302 0.144 0.153 0.161 0.250 0.159 0.173 0.152 0.280 0.197
ICA 0.297 0.147 0.145 0.152 0.247 0.179 0.140 0.179 0.269 0.195
AE 0.302 0.146 0.165 0.159 0.246 0.173 0.161 0.166 0.301 0.202
VAE 0.299 0.148 0.154 0.151 0.253 0.177 0.157 0.170 0.301 0.201
本方法 0.921 0.702 0.588 0.712 0.560 0.475 0.636 0.479 0.452 0.614
由表1可知,本方法的MAP值远大于传统方法的MAP值,MAP值越大说明检索性能越好,本方法的检索性能要高于传统方法的检索性能。
本发明按照上述流程进行实验,选取包含图像、音频、触觉信号的数据集,按照上述步骤进行实验;将数据按照3:1:1的比例划分出训练集、测试集、验证集,其中训练集用于训练,使用测试集来调整超参数,验证集充当查询集和检索集使用;为了分析结果,采用PR曲线来对本发明方法和CCA、KCCA、ICA、PCA、AE、VAE六种方法进行对比;其中,图像、音频、触觉信号三种模态分别记为V、A、T,所有模态总和记为All。
图2~10为使用本发明的方法得到的跨模态信息检索的PR曲线,对比了CCA、KCCA、ICA、PCA、AE、VAE六种方法,可以看出本发明所提方法的PR曲线均在其余曲线的上方,本文方法的PR曲线完全包住其他方法,说明本文方法的性能优于其他方法(比如:两种方法A和B,如果A方法的PR曲线完全包住B方法的PR曲线,说明A方法的性能要优于B方法的性能)。
图11为本发明的方法可以进行单模态检索所有模态,本方法的PR曲线呈现出上凸状,图像检索所有模态的PR曲线完全包围住音频检索所有模态的PR曲线,而音频检索所有模态的PR曲线完全包围住触觉信号检索所有模态的PR曲线,说明这三者来说,图像检索要优于音频检索和触觉信号检索;其中,V→All、A→All、T→All分别表示图像检索所有模态、音频检索所有模态、触觉信号检索所有模态。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种基于语义融合的跨模态信息检索方法,其特征在于,包括:
采集原始数据,并对所述原始数据进行预处理;
将所述预处理后的原始数据分别进行特征提取和模型训练,得到不同的模态特征;
将所述不同的模态特征输入到同一网络中进行语义融合,得到语义融合网络模型;
基于所述语义融合网络模型以及查询集样本进行检索,完成跨模态信息检索。
2.如权利要求1所述的基于语义融合的跨模态信息检索方法,其特征在于:所述原始数据包括原始图像、音频以及触觉信号。
3.如权利要求2所述的基于语义融合的跨模态信息检索方法,其特征在于:
将所述原始图像的分辨率调整为224×224×3;
将所述音频转换成离散数字信号;
将所述触觉信号或者所述离散数字信号作为新的信号进行预处理。
4.如权利要求1或3所述的基于语义融合的跨模态信息检索方法,其特征在于:所述预处理包括,
预加重:
设置所述新的信号x(n),0≤n≤N-1,将预加重滤波器作用于信号x(n),得到预加重信号y(n):
Figure FDA0003170923630000011
其中,α表示预加重滤波器系数,N为信号长度,信号x(n)采样频率为fs
分帧:
将帧大小FRAME_SIZE记为Nsz,帧步长FRAME_STRIDE记为Nsd,计算帧长FRAME_LENGTH为Nlg=Nsz·fs,帧步数FRAME_STEP为Nsp=Nsd·fs,帧个数FRAME_NUM为Nm=ceil(|N-Nlg|/Nsp),需要填充信号的长度PADDING_LENGTH为NP=Nm·Nsp+Nlg,将信号y(n)补零至长度NP,NP>N,得到填充后的信号z(n):
Figure FDA0003170923630000021
构图:
构造p行q列的索引矩阵A:
Figure FDA0003170923630000022
其中,p表示Nm,q表示Nlg,r表示Nsp
所述矩阵A记为:
Figure FDA0003170923630000023
基于所述信号z(n)以及所述矩阵A进行构图,得到矩阵B:
Figure FDA0003170923630000024
其中,z(apq)表示信号z(n)的第apq个取值。
5.如权利要求4所述的基于语义融合的跨模态信息检索方法,其特征在于:所述预处理还包括,
加窗:汉明窗w(n)表示为:
Figure FDA0003170923630000025
基于所述矩阵B和所述汉明窗w(n),得到加窗后的矩阵C:
Figure FDA0003170923630000031
功率谱:计算信号功率谱P的公式为:
Figure FDA0003170923630000032
其中,xi表示矩阵C第i行的q个数据,1≤i≤p,|FFT(xi)|表示对q个数据作M点快速傅里叶变换后取幅值,得到floor(M/2+1)个点,将floor(M/2+1)表示为s;
基于计算信号功率谱
Figure FDA0003170923630000033
得到最终的功率谱矩阵D:
Figure FDA0003170923630000034
其中,[di1,di2,…,dis]表示经过|FFT(xi)|2/M运算后得到的s个点;
滤波器组:
设置滤波器个数为K,最低梅尔频率LOW_MEL为ml=0,最高梅尔频率HIGH_MEL为mh=2595log10(1+(fs/2)/700),从ml至mh之间等间距取K+2个点,包含起始和末尾点,并从小到大依次排列,得到向量[u0,u1,…,uK+1],将该向量中的每个元素ui通过公式
Figure FDA0003170923630000036
得到元素vi,0≤i≤K+1,表示为向量[v0,v1,…,vK+1];
将滤波器组Hm(k)表示为:
Figure FDA0003170923630000035
其中,f(i)=floor((M+1)·vi/fs),0≤i≤K+1;
构造滤波器组矩阵Q:
Figure FDA0003170923630000041
最终构图:
将矩阵QK×s乘以矩阵Dp×s的转置,并将所得矩阵中的每个元素以10为底取对数再乘以10,得到最终p行K列的矩阵OK×p
OK×p=QK×s·Dp×s T
将二维矩阵OK×p通过色彩映射变为三维矩阵,得到触觉信号或音频信号的时频图,将所述时频图分辨率调整为224×224×3。
6.如权利要求1或5所述的基于语义融合的跨模态信息检索方法,其特征在于:所述模态模型训练包括,
将原始图像、音频和触觉信号经过预处理后得到的224×224×3的图像输入至VGG16网络中,输出的特征向量的形状为(7,7,512),并通过扁平层扁平化为一维向量。
7.如权利要求6所述的基于语义融合的跨模态信息检索方法,其特征在于:所述模态模型训练还包括,
将所述一维向量分别进行模型训练,模态训练模型网络结构依次为:批量归一化层、Dropout层1、全连接层1、Dropout层2、全连接层2;
采用Adam优化器,设置优化器学习率为0.001、批次为64、损失函数为多分类交叉熵损失函数;
设置三种模态各自模型的总迭代次数为M1、M2、M3;达到迭代次数后停止迭代,移除模型的Dropout层2、全连接层2,保存模态结构:批量归一化层、Dropout层1、全连接层1以及训练后模型的权重。
8.如权利要求1或7所述的基于语义融合的跨模态信息检索方法,其特征在于:所述模态特征提取包括,
损失函数L:
L=L1+λ·L2
Figure FDA0003170923630000051
Figure FDA0003170923630000052
其中,λ表示损失函数的超参数,NV、NA、NT分别表示图像、音频、触觉信号的样本数,
Figure FDA0003170923630000053
表示图像样本NV中第k个样本经过图像模态的独立训练模型输出的特征,
Figure FDA0003170923630000054
表示图像样本NV中第k个样本特征对应的标签,
Figure FDA0003170923630000055
表示音频样本NA中第k个样本经过音频模态的独立训练模型输出的特征,
Figure FDA0003170923630000056
表示音频样本NA中第k个样本特征对应的标签,
Figure FDA0003170923630000057
表示触觉信号样本NT中第k个样本经过触觉模态的独立训练模型输出的特征,
Figure FDA0003170923630000058
表示触觉信号样本NV中第k个样本特征对应的标签,g(·)表示多分类交叉熵损失函数,Ns表示图像、音频、触觉信号的样本总数,xm表示样本总数Ns中第m个样本经过模态的独立训练模型输出的特征,cm表示该第m个样本对应的类别中心,所述中心随着每次迭代的批次不断更新。
9.如权利要求1或7所述的基于语义融合的跨模态信息检索方法,其特征在于:所述语义融合网络模型结构依次包括,
全连接层3、Dropout层3、全连接层4、Dropout层4、全连接层5、Dropout层5、全连接层6;
所述语义融合的训练过程包括,
采用Adam优化器,设置优化器学习率为0.001、批次为64、损失函数为所述损失函数L,设置总迭代次数为Ms,达到迭代次数后停止迭代,保存模型结构以及训练后的模型权重。
10.如权利要求9所述的基于语义融合的跨模态信息检索方法,其特征在于:基于所述语义融合网络模型以及查询集样本进行检索,所述检索过程包括,
提供一个查询集样本和一个检索集样本,将两个样本经过所述优化后的语义融合网络模型,分别输出向量qi、rj,采用余弦函数进行相似性度量:
Figure FDA0003170923630000061
其中,i和j分别表示查询集、检索集中样本的序号;
固定i,将j遍历检索集后按距离从大到小的顺序进行排序,提取距离排序前k个值所对应的检索样本。
CN202110818202.7A 2021-07-20 2021-07-20 一种基于语义融合的跨模态信息检索方法 Active CN113536067B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110818202.7A CN113536067B (zh) 2021-07-20 2021-07-20 一种基于语义融合的跨模态信息检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110818202.7A CN113536067B (zh) 2021-07-20 2021-07-20 一种基于语义融合的跨模态信息检索方法

Publications (2)

Publication Number Publication Date
CN113536067A true CN113536067A (zh) 2021-10-22
CN113536067B CN113536067B (zh) 2024-01-05

Family

ID=78100349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110818202.7A Active CN113536067B (zh) 2021-07-20 2021-07-20 一种基于语义融合的跨模态信息检索方法

Country Status (1)

Country Link
CN (1) CN113536067B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108215A (zh) * 2023-02-21 2023-05-12 湖北工业大学 基于深度融合的跨模态大数据检索方法及系统
CN116821381A (zh) * 2023-08-30 2023-09-29 北京科技大学 一种基于空间线索的语音-图像跨模态检索方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693321A (zh) * 2012-06-04 2012-09-26 常州南京大学高新技术研究院 一种跨媒体间信息分析与检索的方法
CN107871014A (zh) * 2017-11-23 2018-04-03 清华大学 一种基于深度融合哈希的大数据跨模态检索方法及系统
CN110110122A (zh) * 2018-06-22 2019-08-09 北京交通大学 基于多层语义深度哈希算法的图像-文本跨模态检索
CN110765281A (zh) * 2019-11-04 2020-02-07 山东浪潮人工智能研究院有限公司 一种多语义深度监督跨模态哈希检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693321A (zh) * 2012-06-04 2012-09-26 常州南京大学高新技术研究院 一种跨媒体间信息分析与检索的方法
CN107871014A (zh) * 2017-11-23 2018-04-03 清华大学 一种基于深度融合哈希的大数据跨模态检索方法及系统
CN110110122A (zh) * 2018-06-22 2019-08-09 北京交通大学 基于多层语义深度哈希算法的图像-文本跨模态检索
CN110765281A (zh) * 2019-11-04 2020-02-07 山东浪潮人工智能研究院有限公司 一种多语义深度监督跨模态哈希检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
熊回香等: "跨媒体知识图谱构建中多模态数据语义相关性研究", 情报理论与实践, vol. 42, no. 2, pages 13 - 18 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108215A (zh) * 2023-02-21 2023-05-12 湖北工业大学 基于深度融合的跨模态大数据检索方法及系统
CN116821381A (zh) * 2023-08-30 2023-09-29 北京科技大学 一种基于空间线索的语音-图像跨模态检索方法及装置
CN116821381B (zh) * 2023-08-30 2023-12-01 北京科技大学 一种基于空间线索的语音-图像跨模态检索方法及装置

Also Published As

Publication number Publication date
CN113536067B (zh) 2024-01-05

Similar Documents

Publication Publication Date Title
CN110516085B (zh) 基于双向注意力的图像文本互检索方法
CN108319666B (zh) 一种基于多模态舆情分析的供电服务评估方法
Cao et al. Deep neural networks for learning graph representations
CN110674339B (zh) 一种基于多模态融合的中文歌曲情感分类方法
CN112487949B (zh) 一种基于多模态数据融合的学习者行为识别方法
CN108520213B (zh) 一种基于多尺度深度的人脸美丽预测方法
CN113536067B (zh) 一种基于语义融合的跨模态信息检索方法
CN113806609B (zh) 一种基于mit和fsm的多模态情感分析方法
CN111444967A (zh) 生成对抗网络的训练方法、生成方法、装置、设备及介质
CN112364937B (zh) 用户类别确定方法及装置、推荐内容确定方法、电子设备
Tang et al. Improved convolutional neural networks for acoustic event classification
CN115878832A (zh) 基于精细对齐判别哈希的海洋遥感图像音频检索方法
CN114817613A (zh) 基于注意力增强模块和多尺度特征融合的图像检索方法
Zhang et al. Temporal Transformer Networks for Acoustic Scene Classification.
CN116028662A (zh) 基于无监督交互式对齐的海洋遥感图像音频检索方法
Ebrahimpour et al. End-to-end auditory object recognition via inception nucleus
CN112541541B (zh) 基于多元素分层深度融合的轻量级多模态情感分析方法
CN116431816B (zh) 一种文献分类方法、装置、设备和计算机可读存储介质
CN113378563A (zh) 一种基于遗传变异、半监督和强化学习的案件特征提取方法及装置
Du et al. Image recommendation algorithm combined with deep neural network designed for social networks
Liu et al. Audiovisual cross-modal material surface retrieval
CN112052880A (zh) 一种基于更新权值支持向量机的水声目标识别方法
CN116343109A (zh) 基于自监督掩码模型和跨模态码本的文本行人搜索方法
CN116705073A (zh) 一种基于双模态与注意力机制的语音情感识别方法
CN113593537B (zh) 基于互补特征学习框架的语音情感识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant