CN113536067A - 一种基于语义融合的跨模态信息检索方法 - Google Patents
一种基于语义融合的跨模态信息检索方法 Download PDFInfo
- Publication number
- CN113536067A CN113536067A CN202110818202.7A CN202110818202A CN113536067A CN 113536067 A CN113536067 A CN 113536067A CN 202110818202 A CN202110818202 A CN 202110818202A CN 113536067 A CN113536067 A CN 113536067A
- Authority
- CN
- China
- Prior art keywords
- modal
- signal
- semantic fusion
- matrix
- information retrieval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 230000004927 fusion Effects 0.000 title claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 45
- 230000006870 function Effects 0.000 claims description 32
- 239000013598 vector Substances 0.000 claims description 23
- 238000001228 spectrum Methods 0.000 claims description 12
- 238000000059 patterning Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000002203 pretreatment Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000012800 visualization Methods 0.000 abstract description 3
- 230000004913 activation Effects 0.000 description 8
- 238000012360 testing method Methods 0.000 description 7
- 238000012795 verification Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/904—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种基于语义融合的跨模态信息检索方法,包括:采集原始数据,并对所述原始数据进行预处理;将所述预处理后的原始数据分别进行特征提取和模型训练,得到不同的模态特征;将所述不同的模态特征输入到同一网络中进行语义融合,得到语义融合网络模型;基于所述语义融合网络模型以及查询集样本进行检索,完成跨模态信息检索。本发明克服了传统的图像‑文本两种模态的跨模态检索,实现了图像、音频、触觉信号三种模态的跨模态信息检索;对触觉信号的预处理方法,可以将原始的一维序列信号进行二维可视化,从而可以与原始图像进行语义关联达到检索的目的。
Description
技术领域
本发明涉及信息检索技术领域,尤其涉及一种基于语义融合的跨模态信息检索方法。
背景技术
近年来,随着互联网产业火热的发展,大数据、云计算、人工智能等技术不断地兴起,从而产生不同类型的海量数据,如音频、视频、文本、图像等,人们已经不满足于单模态之间的检索,比如图像检索图像、文本检索文本。因此,跨模态检索成为研究的热点。与传统的单模态检索不同,跨模态检索所使用的查询样本和检索样本属于不同的模态。然而,不同模态的数据存在着不同的特征空间,“语义鸿沟”问题使得不同模态数据之间难以直接进行表征和度量。
不过,深度学习技术有望解决该问题,深度神经网络具有强大的非线性映射能力,可以对不同模态数据进行有效的语义关联,从而进行跨模态检索。但是,现有基于深度学习的跨模态检索方法都是致力于解决图像和文本两种数据类型之间的语义关联问题,而现实生活中还充斥着大量的其他类型数据,比如智能机器人在进行人机交互过程中会同时采集到图像、音频以及触觉信号数据。因此,需要设计一种合理的跨模态信息检索方法来解决多于两种模态的信息检索问题,以此达到对多种不同类型的数据之间进行高效、准确地检索。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有存在的问题,提出了本发明。
因此,本发明解决的技术问题是:跨模态检索所使用的查询样本和检索样本属于不同的模态,它们的数据存在着不同的特征空间,使得不同模态数据之间难以直接进行表征和度量。
为解决上述技术问题,本发明提供如下技术方案:采集原始数据,并对所述原始数据进行预处理;将所述预处理后的原始数据分别进行特征提取和模型训练,得到不同的模态特征;将所述不同的模态特征输入到同一网络中进行语义融合,得到语义融合网络模型;基于所述语义融合网络模型以及查询集样本进行检索,完成跨模态信息检索。
作为本发明所述的基于语义融合的跨模态信息检索方法的一种优选方案,其中:所述原始数据包括原始图像、音频以及触觉信号。
作为本发明所述的基于语义融合的跨模态信息检索方法的一种优选方案:其中:将所述原始图像的分辨率调整为224×224×3;将所述音频转换成离散数字信号;将所述触觉信号或者所述离散数字信号作为新的信号进行预处理。
作为本发明所述的基于语义融合的跨模态信息检索方法的一种优选方案:其中:所述预处理包括,
预加重:
设置所述新的信号x(n),0≤n≤N-1,将预加重滤波器作用于信号x(n),得到预加重信号y(n):
其中,α表示预加重滤波器系数,N为信号长度,信号x(n)采样频率为fs;
分帧:
将帧大小FRAME_SIZE记为Nsz,帧步长FRAME_STRIDE记为Nsd,计算帧长FRAME_LENGTH为Nlg=Nsz·fs,帧步数FRAME_STEP为Nsp=Nsd·fs,帧个数FRAME_NUM为Nm=ceil(|N-Nlg|/Nsp),需要填充信号的长度PADDING_LENGTH为NP=Nm·Nsp+Nlg,将信号y(n)补零至长度NP,NP>N,得到填充后的信号z(n):
构图:
构造p行q列的索引矩阵A:
其中,p表示Nm,q表示Nlg,r表示Nsp;
所述矩阵A记为:
基于所述信号z(n)以及所述矩阵A进行构图,得到矩阵B:
其中,z(apq)表示信号z(n)的第apq个取值。
作为本发明所述的基于语义融合的跨模态信息检索方法的一种优选方案:其中:所述预处理还包括,
加窗:汉明窗w(n)表示为:
基于所述矩阵B和所述汉明窗w(n),得到加窗后的矩阵C:
功率谱:计算信号功率谱P的公式为:
其中,xi表示矩阵C第i行的q个数据,1≤i≤p,|FFT(xi)|表示对q个数据作M点快速傅里叶变换后取幅值,得到floor(M/2+1)个点,将floor(M/2+1)表示为s;
其中,[di1,di2,…,dis]表示经过|FFT(xi)|2/M运算后得到的s个点;
滤波器组:
设置滤波器个数为K,最低梅尔频率LOW_MEL为ml=0,最高梅尔频率HIGH_MEL为mh=2595log10(1+(fs/2)/700),从ml至mh之间等间距取K+2个点,包含起始和末尾点,并从小到大依次排列,得到向量[u0,u1,…,uK+1],将该向量中的每个元素ui通过公式得到元素vi,0≤i≤K+1,表示为向量[v0,v1,…,vK+1];
将滤波器组Hm(k)表示为:
其中,f(i)=floor((M+1)·vi/fs),0≤i≤K+1;
构造滤波器组矩阵Q:
最终构图:
将矩阵QK×s乘以矩阵Dp×s的转置,并将所得矩阵中的每个元素以10为底取对数再乘以10,得到最终p行K列的矩阵OK×p:
OK×p=QK×s·Dp×s T
将二维矩阵OK×p通过色彩映射变为三维矩阵,得到触觉信号或音频信号的时频图,将所述时频图分辨率调整为224×224×3。
作为本发明所述的基于语义融合的跨模态信息检索方法的一种优选方案,其中:所述模态模型训练包括,
将原始图像、音频和触觉信号经过预处理后得到的224×224×3的图像输入至VGG16网络中,输出的特征向量的形状为(7,7,512),并通过扁平层扁平化为一维向量。
作为本发明所述的基于语义融合的跨模态信息检索方法的一种优选方案,其中:所述模态模型训练还包括,
将所述一维向量分别进行模型训练,模态训练模型网络结构依次为:批量归一化层、Dropout层1、全连接层1、Dropout层2、全连接层2;
采用Adam优化器,设置优化器学习率为0.001、批次为64、损失函数为多分类交叉熵损失函数;
设置三种模态各自模型的总迭代次数为M1、M2、M3;达到迭代次数后停止迭代,移除模型的Dropout层2、全连接层2;保存模态结构:批量归一化层、Dropout层1、全连接层1以及训练后模型的权重。
作为本发明所述的基于语义融合的跨模态信息检索方法的一种优选方案,其中:所述模态特征提取包括,
损失函数L:
L=L1+λ·L2
其中,λ表示损失函数的超参数,NV、NA、NT分别表示图像、音频、触觉信号的样本数,表示图像样本NV中第k个样本经过图像模态的独立训练模型输出的特征,表示图像样本NV中第k个样本特征对应的标签,表示音频样本NA中第k个样本经过音频模态的独立训练模型输出的特征,表示音频样本NA中第k个样本特征对应的标签,表示触觉信号样本NT中第k个样本经过触觉模态的独立训练模型输出的特征,表示触觉信号样本NV中第k个样本特征对应的标签,g(·)表示多分类交叉熵损失函数,Ns表示图像、音频、触觉信号的样本总数,xm表示样本总数NS中第m个样本经过模态的独立训练模型输出的特征,cm表示该第m个样本对应的类别中心,所述中心随着每次迭代的批次不断更新。
作为本发明所述的基于语义融合的跨模态信息检索方法的一种优选方案,其中:所述语义融合网络模型结构依次包括,
全连接层3、Dropout层3、全连接层4、Dropout层4、全连接层5、Dropout层5、全连接层6;
所述语义融合的训练过程包括,
采用Adam优化器,设置优化器学习率为0.001、批次为64、损失函数为所述损失函数L,设置总迭代次数为Ms,达到迭代次数后停止迭代,保存模型结构以及训练后的模型权重。
作为本发明所述的基于语义融合的跨模态信息检索方法的一种优选方案,其中:基于所述语义融合网络模型以及查询集样本进行检索,所述检索过程包括,
提供一个查询集样本和一个检索集样本,将两个样本经过所述优化后的语义融合网络模型,分别输出向量qi、rj,采用余弦函数进行相似性度量:
其中,i和j分别表示查询集、检索集中样本的序号;
固定i,将j遍历检索集后按距离从大到小的顺序进行排序,提取距离排序前k个值所对应的检索样本。
本发明的有益效果:本发明克服了传统的图像-文本两种模态的跨模态检索,实现了图像、音频、触觉信号三种模态的跨模态信息检索;对触觉信号的预处理方法,可以将原始的一维序列信号进行二维可视化,从而可以与原始图像进行语义关联达到检索的目的。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明一个实施例提供的一种基于语义融合的跨模态信息检索方法的基本流程示意图;
图2为本发明一个实施例提供的一种基于语义融合的跨模态信息检索方法的图像检索图像的PR曲线图;
图3为本发明一个实施例提供的一种基于语义融合的跨模态信息检索方法的图像检索音频的PR曲线图;
图4为本发明一个实施例提供的一种基于语义融合的跨模态信息检索方法的图像检索触觉信号的PR曲线图;
图5为本发明一个实施例提供的一种基于语义融合的跨模态信息检索方法的音频检索图像的PR曲线图;
图6为本发明一个实施例提供的一种基于语义融合的跨模态信息检索方法的音频检索音频的PR曲线图;
图7为本发明一个实施例提供的一种基于语义融合的跨模态信息检索方法的音频检索触觉信号的PR曲线图;
图8为本发明一个实施例提供的一种基于语义融合的跨模态信息检索方法的触觉信号检索图像的PR曲线图;
图9为本发明一个实施例提供的一种基于语义融合的跨模态信息检索方法的触觉信号检索音频的PR曲线图;
图10为本发明一个实施例提供的一种基于语义融合的跨模态信息检索方法的触觉信号检索触觉信号的PR曲线图;
图11为本发明一个实施例提供的一种基于语义融合的跨模态信息检索方法的单模态检索所有模态的PR曲线图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
参照图1,为本发明的一个实施例,提供了一种基于语义融合的跨模态信息检索方法,包括:
S1:采集原始数据,并对原始数据进行预处理。需要说明的是:
原始数据包括原始图像、音频以及触觉信号,将原始图像的分辨率调整为224×224×3;将音频转换成离散数字信号;将触觉信号或者离散数字信号作为新的信号进行预处理;
预处理包括,
(1)预加重:
设置新的信号为x(n),0≤n≤N-1,将预加重滤波器作用于信号x(n),得到预加重信号y(n):
其中,α表示预加重滤波器系数,N为信号长度,信号x(n)采样频率为fs;
(2)分帧:
将帧大小FRAME_SIZE记为Nsz,帧步长FRAME_STRIDE记为Nsd,计算帧长FRAME_LENGTH为Nlg=Nsz·fs,帧步数FRAME_STEP为Nsp=Nsd·fs,帧个数FRAME_NUM为Nm=ceil(|N-Nlg|/Nsp),需要填充信号的长度PADDING_LENGTH为NP=Nm·Nsp+Nlg,将信号y(n)补零至长度NP,NP>N,得到填充后的信号z(n):
(3)构图:
构造p行q列的索引矩阵A:
其中,p表示Nm,q表示Nlg,r表示Nsp;
矩阵A记为:
基于信号z(n)以及矩阵A进行构图,得到矩阵B:
其中,z(apq)表示信号z(n)的第apq个取值,以此类推。
(4)加窗:
加窗:汉明窗w(n)表示为:
基于矩阵B和汉明窗w(n),得到加窗后的矩阵C:
(5)功率谱:计算信号功率谱P的公式为:
其中,xi表示矩阵C第i行的q个数据,1≤i≤p,|FFT(xi)|表示对q个数据作M点快速傅里叶变换后取幅值,得到floor(M/2+1)个点,将floor(M/2+1)表示为s;
其中,[di1,di2,…,dis]表示经过|FFT(xi)|2/M运算后得到的s个点;
(6)滤波器组:
设置滤波器个数为K,最低梅尔频率LOW_MEL为ml=0,最高梅尔频率HIGH_MEL为mh=2595log10(1+(fs/2)/700),从ml至mh之间等间距取K+2个点,包含起始和末尾点,并从小到大依次排列,得到向量[u0,u1,…,uK+1],将该向量中的每个元素ui通过公式得到元素vi,0≤i≤K+1,表示为向量[v0,v1,…,vK+1];
进一步地,将滤波器组Hm(k)表示为:
其中,f(i)=floor((M+1)·vi/fs),0≤i≤K+1;
更进一步地,构造滤波器组矩阵Q:
(7)最终构图:
将矩阵QK×s乘以矩阵Dp×s的转置,并将所得矩阵中的每个元素以10为底取对数再乘以10,得到最终p行K列的矩阵OK×p:
OK×p=QK×s·Dp×s T
将二维矩阵OK×p通过色彩映射变为三维矩阵,得到触觉信号或音频信号的时频图,将时频图分辨率调整为224×224×3。
S2:将三种模态分别进行特征提取以及模型训练,得到不同的模态特征。需要说明的是:模态模型训练包括,
将原始图像、音频和触觉信号经过预处理后得到的224×224×3的图像输入至VGG16网络中,VGG16网络为去除末端所有全连接层并且使用ImageNet权重的VGG16网络,输出的特征向量的形状为(7,7,512),即长为7,宽为7,维度为512,并通过扁平层扁平化为一维向量;
将一维向量分别进行模型训练,模态训练模型网络结构依次为:批量归一化层、Dropout层1(丢弃率0.5)、全连接层1(长度256、激活函数relu)、Dropout层2(丢弃率0.5)、全连接层2(长度为分类的个数、激活函数softmax);
采用Adam优化器,设置优化器学习率为0.001、批次为64、损失函数为多分类交叉熵损失函数;设置三种模态各自模型的总迭代次数为M1、M2、M3;达到迭代次数后停止迭代,移除模型的Dropout层2(丢弃率0.5)、全连接层2(长度为分类的个数、激活函数softmax),保存模态结构:批量归一化层、Dropout层1(丢弃率0.5)、全连接层1(长度256、激活函数relu)以及训练后模型的权重。
S3:将不同的模态特征都输入到同一网络中进行语义融合。需要说明的是:
模态特征提取包括,
损失函数L:
L=L1+λ·L2
其中,λ表示损失函数的超参数,NV、NA、NT分别表示图像、音频、触觉信号的样本数,表示图像样本NV中第k个样本经过图像模态的独立训练模型输出的特征,表示图像样本NV中第k个样本特征对应的标签,表示音频样本NA中第k个样本经过音频模态的独立训练模型输出的特征,表示音频样本NA中第k个样本特征对应的标签,表示触觉信号样本NT中第k个样本经过触觉模态的独立训练模型输出的特征,表示触觉信号样本NV中第k个样本特征对应的标签,g( )表示多分类交叉熵损失函数,Ns表示图像、音频、触觉信号的样本总数,xm表示样本总数Ns中第m个样本经过模态的独立训练模型输出的特征,cm表示该第m个样本对应的类别中心,中心随着每次迭代的批次不断更新。
语义融合网络模型结构依次包括:全连接层3(长度256、激活函数relu)、Dropout层3(丢弃率0.5)、全连接层4(长度256、激活函数relu)、Dropout层4(丢弃率0.5)、全连接层5(长度256、激活函数relu)、Dropout层5(丢弃率0.5)、全连接层6(长度为分类的个数、激活函数softmax);
语义融合的训练过程包括,
采用Adam优化器,设置优化器学习率为0.001、批次为64、损失函数为、损失函数L,设置总迭代次数为Ms,达到迭代次数后停止迭代,保存模型结构以及训练后的模型权重。
S4:基于语义融合网络模型以及查询集样本进行检索,完成跨模态信息检索。需要说明的是:
检索过程包括,
提供一个查询集样本和一个检索集样本,将两个样本经过优化后的语义融合网络模型,分别输出向量记为qi、rj;采用余弦函数进行相似性度量:
其中,i和j分别表示查询集、检索集中样本的序号;
固定i,将j遍历检索集后按距离从大到小的顺序进行排序,提取距离排序前k个值所对应的检索样本,即为前k个检索结果。
本发明首先将音频和触觉信号都预处理成图像,与原始图像一起调整为相同大小的分辨率,输入至去除末端所有全连接层并且使用ImageNet权重的VGG16网络中得到特征向量;然后,将不同模态的特征分别进行独立训练;接着,将独立训练后三种模态的特征都输入至语义融合网络中进行语义融合;最后,利用余弦函数对语义融合网络的输出向量进行相似度度量并检索。与现有技术相比,本发明克服了传统的图像-文本两种模态的跨模态检索,实现了图像、音频、触觉信号三种模态的跨模态信息检索;对触觉信号的预处理方法,可以将原始的一维序列信号进行二维可视化,从而可以与原始图像进行语义关联达到检索的目的。
实施例2
参照图2~11为本发明的第二个实施例,该实施例不同于第一个实施例的是,提供了一种基于语义融合的跨模态信息检索方法的验证测试,为对本方法中采用的技术效果加以验证说明,本实施例采用传统技术方案与本发明方法进行对比测试,以科学论证的手段对比试验结果,以验证本方法所具有的真实效果。
传统技术方案:传统的CCA、KCCA、ICA、PCA、AE、VAE六种方法在应对涉及到三种模态的跨模态检索问题时检索精度较低;为验证本方法相对传统方法具有较高的检索性能,本实施例中将采用传统CCA、KCCA、ICA、PCA、AE、VAE这六种方法和本方法分别进行MAP值对比,MAP值越大说明检索性能越好。
测试环境:在Jupyter Notebook软件上,使用Python语言将本文所搭建的模型进行仿真实验,数据集选取包含图像(V)、音频(A)、触觉信号(T)的表面纹理材质公共数据集(https://zeus.lmt.ei.tum.de/downloads/texture/),将训练集、验证集、测试集分别按照3:1:1的比例重新划分,需要说明的是,V→V表示图像检索图像、V→A表示图像检索音频、V→T表示图像检索触觉信号、A→V表示音频检索图像、A→A表示音频检索音频、A→T表示音频检索触觉信号、T→V表示触觉信号检索图像、T→A表示触觉信号检索音频、T→T表示触觉信号检索触觉信号;
表1:传统方法与本方法MAP值对比结果表。
方法对比 | V→V | V→A | V→T | A→V | A→A | A→T | T→V | T→A | T→T | 平均 |
CCA | 0.179 | 0.141 | 0.139 | 0.143 | 0.169 | 0.140 | 0.139 | 0.138 | 0.186 | 0.153 |
KCCA | 0.200 | 0.199 | 0.200 | 0.201 | 0.218 | 0.205 | 0.201 | 0.217 | 0.217 | 0.206 |
PCA | 0.302 | 0.144 | 0.153 | 0.161 | 0.250 | 0.159 | 0.173 | 0.152 | 0.280 | 0.197 |
ICA | 0.297 | 0.147 | 0.145 | 0.152 | 0.247 | 0.179 | 0.140 | 0.179 | 0.269 | 0.195 |
AE | 0.302 | 0.146 | 0.165 | 0.159 | 0.246 | 0.173 | 0.161 | 0.166 | 0.301 | 0.202 |
VAE | 0.299 | 0.148 | 0.154 | 0.151 | 0.253 | 0.177 | 0.157 | 0.170 | 0.301 | 0.201 |
本方法 | 0.921 | 0.702 | 0.588 | 0.712 | 0.560 | 0.475 | 0.636 | 0.479 | 0.452 | 0.614 |
由表1可知,本方法的MAP值远大于传统方法的MAP值,MAP值越大说明检索性能越好,本方法的检索性能要高于传统方法的检索性能。
本发明按照上述流程进行实验,选取包含图像、音频、触觉信号的数据集,按照上述步骤进行实验;将数据按照3:1:1的比例划分出训练集、测试集、验证集,其中训练集用于训练,使用测试集来调整超参数,验证集充当查询集和检索集使用;为了分析结果,采用PR曲线来对本发明方法和CCA、KCCA、ICA、PCA、AE、VAE六种方法进行对比;其中,图像、音频、触觉信号三种模态分别记为V、A、T,所有模态总和记为All。
图2~10为使用本发明的方法得到的跨模态信息检索的PR曲线,对比了CCA、KCCA、ICA、PCA、AE、VAE六种方法,可以看出本发明所提方法的PR曲线均在其余曲线的上方,本文方法的PR曲线完全包住其他方法,说明本文方法的性能优于其他方法(比如:两种方法A和B,如果A方法的PR曲线完全包住B方法的PR曲线,说明A方法的性能要优于B方法的性能)。
图11为本发明的方法可以进行单模态检索所有模态,本方法的PR曲线呈现出上凸状,图像检索所有模态的PR曲线完全包围住音频检索所有模态的PR曲线,而音频检索所有模态的PR曲线完全包围住触觉信号检索所有模态的PR曲线,说明这三者来说,图像检索要优于音频检索和触觉信号检索;其中,V→All、A→All、T→All分别表示图像检索所有模态、音频检索所有模态、触觉信号检索所有模态。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种基于语义融合的跨模态信息检索方法,其特征在于,包括:
采集原始数据,并对所述原始数据进行预处理;
将所述预处理后的原始数据分别进行特征提取和模型训练,得到不同的模态特征;
将所述不同的模态特征输入到同一网络中进行语义融合,得到语义融合网络模型;
基于所述语义融合网络模型以及查询集样本进行检索,完成跨模态信息检索。
2.如权利要求1所述的基于语义融合的跨模态信息检索方法,其特征在于:所述原始数据包括原始图像、音频以及触觉信号。
3.如权利要求2所述的基于语义融合的跨模态信息检索方法,其特征在于:
将所述原始图像的分辨率调整为224×224×3;
将所述音频转换成离散数字信号;
将所述触觉信号或者所述离散数字信号作为新的信号进行预处理。
4.如权利要求1或3所述的基于语义融合的跨模态信息检索方法,其特征在于:所述预处理包括,
预加重:
设置所述新的信号x(n),0≤n≤N-1,将预加重滤波器作用于信号x(n),得到预加重信号y(n):
其中,α表示预加重滤波器系数,N为信号长度,信号x(n)采样频率为fs;
分帧:
将帧大小FRAME_SIZE记为Nsz,帧步长FRAME_STRIDE记为Nsd,计算帧长FRAME_LENGTH为Nlg=Nsz·fs,帧步数FRAME_STEP为Nsp=Nsd·fs,帧个数FRAME_NUM为Nm=ceil(|N-Nlg|/Nsp),需要填充信号的长度PADDING_LENGTH为NP=Nm·Nsp+Nlg,将信号y(n)补零至长度NP,NP>N,得到填充后的信号z(n):
构图:
构造p行q列的索引矩阵A:
其中,p表示Nm,q表示Nlg,r表示Nsp;
所述矩阵A记为:
基于所述信号z(n)以及所述矩阵A进行构图,得到矩阵B:
其中,z(apq)表示信号z(n)的第apq个取值。
5.如权利要求4所述的基于语义融合的跨模态信息检索方法,其特征在于:所述预处理还包括,
加窗:汉明窗w(n)表示为:
基于所述矩阵B和所述汉明窗w(n),得到加窗后的矩阵C:
功率谱:计算信号功率谱P的公式为:
其中,xi表示矩阵C第i行的q个数据,1≤i≤p,|FFT(xi)|表示对q个数据作M点快速傅里叶变换后取幅值,得到floor(M/2+1)个点,将floor(M/2+1)表示为s;
其中,[di1,di2,…,dis]表示经过|FFT(xi)|2/M运算后得到的s个点;
滤波器组:
设置滤波器个数为K,最低梅尔频率LOW_MEL为ml=0,最高梅尔频率HIGH_MEL为mh=2595log10(1+(fs/2)/700),从ml至mh之间等间距取K+2个点,包含起始和末尾点,并从小到大依次排列,得到向量[u0,u1,…,uK+1],将该向量中的每个元素ui通过公式得到元素vi,0≤i≤K+1,表示为向量[v0,v1,…,vK+1];
将滤波器组Hm(k)表示为:
其中,f(i)=floor((M+1)·vi/fs),0≤i≤K+1;
构造滤波器组矩阵Q:
最终构图:
将矩阵QK×s乘以矩阵Dp×s的转置,并将所得矩阵中的每个元素以10为底取对数再乘以10,得到最终p行K列的矩阵OK×p:
OK×p=QK×s·Dp×s T
将二维矩阵OK×p通过色彩映射变为三维矩阵,得到触觉信号或音频信号的时频图,将所述时频图分辨率调整为224×224×3。
6.如权利要求1或5所述的基于语义融合的跨模态信息检索方法,其特征在于:所述模态模型训练包括,
将原始图像、音频和触觉信号经过预处理后得到的224×224×3的图像输入至VGG16网络中,输出的特征向量的形状为(7,7,512),并通过扁平层扁平化为一维向量。
7.如权利要求6所述的基于语义融合的跨模态信息检索方法,其特征在于:所述模态模型训练还包括,
将所述一维向量分别进行模型训练,模态训练模型网络结构依次为:批量归一化层、Dropout层1、全连接层1、Dropout层2、全连接层2;
采用Adam优化器,设置优化器学习率为0.001、批次为64、损失函数为多分类交叉熵损失函数;
设置三种模态各自模型的总迭代次数为M1、M2、M3;达到迭代次数后停止迭代,移除模型的Dropout层2、全连接层2,保存模态结构:批量归一化层、Dropout层1、全连接层1以及训练后模型的权重。
8.如权利要求1或7所述的基于语义融合的跨模态信息检索方法,其特征在于:所述模态特征提取包括,
损失函数L:
L=L1+λ·L2
其中,λ表示损失函数的超参数,NV、NA、NT分别表示图像、音频、触觉信号的样本数,表示图像样本NV中第k个样本经过图像模态的独立训练模型输出的特征,表示图像样本NV中第k个样本特征对应的标签,表示音频样本NA中第k个样本经过音频模态的独立训练模型输出的特征,表示音频样本NA中第k个样本特征对应的标签,表示触觉信号样本NT中第k个样本经过触觉模态的独立训练模型输出的特征,表示触觉信号样本NV中第k个样本特征对应的标签,g(·)表示多分类交叉熵损失函数,Ns表示图像、音频、触觉信号的样本总数,xm表示样本总数Ns中第m个样本经过模态的独立训练模型输出的特征,cm表示该第m个样本对应的类别中心,所述中心随着每次迭代的批次不断更新。
9.如权利要求1或7所述的基于语义融合的跨模态信息检索方法,其特征在于:所述语义融合网络模型结构依次包括,
全连接层3、Dropout层3、全连接层4、Dropout层4、全连接层5、Dropout层5、全连接层6;
所述语义融合的训练过程包括,
采用Adam优化器,设置优化器学习率为0.001、批次为64、损失函数为所述损失函数L,设置总迭代次数为Ms,达到迭代次数后停止迭代,保存模型结构以及训练后的模型权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110818202.7A CN113536067B (zh) | 2021-07-20 | 2021-07-20 | 一种基于语义融合的跨模态信息检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110818202.7A CN113536067B (zh) | 2021-07-20 | 2021-07-20 | 一种基于语义融合的跨模态信息检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113536067A true CN113536067A (zh) | 2021-10-22 |
CN113536067B CN113536067B (zh) | 2024-01-05 |
Family
ID=78100349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110818202.7A Active CN113536067B (zh) | 2021-07-20 | 2021-07-20 | 一种基于语义融合的跨模态信息检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113536067B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116108215A (zh) * | 2023-02-21 | 2023-05-12 | 湖北工业大学 | 基于深度融合的跨模态大数据检索方法及系统 |
CN116821381A (zh) * | 2023-08-30 | 2023-09-29 | 北京科技大学 | 一种基于空间线索的语音-图像跨模态检索方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693321A (zh) * | 2012-06-04 | 2012-09-26 | 常州南京大学高新技术研究院 | 一种跨媒体间信息分析与检索的方法 |
CN107871014A (zh) * | 2017-11-23 | 2018-04-03 | 清华大学 | 一种基于深度融合哈希的大数据跨模态检索方法及系统 |
CN110110122A (zh) * | 2018-06-22 | 2019-08-09 | 北京交通大学 | 基于多层语义深度哈希算法的图像-文本跨模态检索 |
CN110765281A (zh) * | 2019-11-04 | 2020-02-07 | 山东浪潮人工智能研究院有限公司 | 一种多语义深度监督跨模态哈希检索方法 |
-
2021
- 2021-07-20 CN CN202110818202.7A patent/CN113536067B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693321A (zh) * | 2012-06-04 | 2012-09-26 | 常州南京大学高新技术研究院 | 一种跨媒体间信息分析与检索的方法 |
CN107871014A (zh) * | 2017-11-23 | 2018-04-03 | 清华大学 | 一种基于深度融合哈希的大数据跨模态检索方法及系统 |
CN110110122A (zh) * | 2018-06-22 | 2019-08-09 | 北京交通大学 | 基于多层语义深度哈希算法的图像-文本跨模态检索 |
CN110765281A (zh) * | 2019-11-04 | 2020-02-07 | 山东浪潮人工智能研究院有限公司 | 一种多语义深度监督跨模态哈希检索方法 |
Non-Patent Citations (1)
Title |
---|
熊回香等: "跨媒体知识图谱构建中多模态数据语义相关性研究", 情报理论与实践, vol. 42, no. 2, pages 13 - 18 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116108215A (zh) * | 2023-02-21 | 2023-05-12 | 湖北工业大学 | 基于深度融合的跨模态大数据检索方法及系统 |
CN116821381A (zh) * | 2023-08-30 | 2023-09-29 | 北京科技大学 | 一种基于空间线索的语音-图像跨模态检索方法及装置 |
CN116821381B (zh) * | 2023-08-30 | 2023-12-01 | 北京科技大学 | 一种基于空间线索的语音-图像跨模态检索方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113536067B (zh) | 2024-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110516085B (zh) | 基于双向注意力的图像文本互检索方法 | |
CN108319666B (zh) | 一种基于多模态舆情分析的供电服务评估方法 | |
Cao et al. | Deep neural networks for learning graph representations | |
CN110674339B (zh) | 一种基于多模态融合的中文歌曲情感分类方法 | |
CN112487949B (zh) | 一种基于多模态数据融合的学习者行为识别方法 | |
CN108520213B (zh) | 一种基于多尺度深度的人脸美丽预测方法 | |
CN113536067B (zh) | 一种基于语义融合的跨模态信息检索方法 | |
CN113806609B (zh) | 一种基于mit和fsm的多模态情感分析方法 | |
CN111444967A (zh) | 生成对抗网络的训练方法、生成方法、装置、设备及介质 | |
CN112364937B (zh) | 用户类别确定方法及装置、推荐内容确定方法、电子设备 | |
Tang et al. | Improved convolutional neural networks for acoustic event classification | |
CN115878832A (zh) | 基于精细对齐判别哈希的海洋遥感图像音频检索方法 | |
CN114817613A (zh) | 基于注意力增强模块和多尺度特征融合的图像检索方法 | |
Zhang et al. | Temporal Transformer Networks for Acoustic Scene Classification. | |
CN116028662A (zh) | 基于无监督交互式对齐的海洋遥感图像音频检索方法 | |
Ebrahimpour et al. | End-to-end auditory object recognition via inception nucleus | |
CN112541541B (zh) | 基于多元素分层深度融合的轻量级多模态情感分析方法 | |
CN116431816B (zh) | 一种文献分类方法、装置、设备和计算机可读存储介质 | |
CN113378563A (zh) | 一种基于遗传变异、半监督和强化学习的案件特征提取方法及装置 | |
Du et al. | Image recommendation algorithm combined with deep neural network designed for social networks | |
Liu et al. | Audiovisual cross-modal material surface retrieval | |
CN112052880A (zh) | 一种基于更新权值支持向量机的水声目标识别方法 | |
CN116343109A (zh) | 基于自监督掩码模型和跨模态码本的文本行人搜索方法 | |
CN116705073A (zh) | 一种基于双模态与注意力机制的语音情感识别方法 | |
CN113593537B (zh) | 基于互补特征学习框架的语音情感识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |