CN113627482B - 一种基于音频—触觉信号融合的跨模态图像生成方法及装置 - Google Patents
一种基于音频—触觉信号融合的跨模态图像生成方法及装置 Download PDFInfo
- Publication number
- CN113627482B CN113627482B CN202110776966.4A CN202110776966A CN113627482B CN 113627482 B CN113627482 B CN 113627482B CN 202110776966 A CN202110776966 A CN 202110776966A CN 113627482 B CN113627482 B CN 113627482B
- Authority
- CN
- China
- Prior art keywords
- image
- data
- network
- fusion
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 93
- 238000000034 method Methods 0.000 title claims abstract description 89
- 238000012549 training Methods 0.000 claims abstract description 35
- 230000013016 learning Effects 0.000 claims abstract description 27
- 238000012360 testing method Methods 0.000 claims abstract description 22
- 230000007246 mechanism Effects 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 43
- 238000000605 extraction Methods 0.000 claims description 42
- 230000008569 process Effects 0.000 claims description 15
- 238000013140 knowledge distillation Methods 0.000 claims description 13
- 238000005315 distribution function Methods 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 230000005236 sound signal Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims description 3
- 230000009191 jumping Effects 0.000 claims description 3
- 238000013508 migration Methods 0.000 claims description 3
- 230000005012 migration Effects 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 230000008485 antagonism Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000007430 reference method Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 238000004821 distillation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001953 sensory effect Effects 0.000 description 2
- 241001647769 Mirza Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000031836 visual learning Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种基于音频—触觉信号融合的跨模态图像生成方法,其步骤包括:1)选取包含音频数据、图像数据、触觉信号在内的多模态数据集,将该数据集划分为训练集和测试集;2)设计一个音频—触觉信号融合的跨模态图像生成模型,该模型包括深度语义融合、潜在空间学习和跨模态图像生成三个模块;3)利用训练集对该模型进行训练,得到最优参数;4)利用测试集中的触觉信号和音频数据,基于所训练好的模型,跨模态地生成对应的图像。本发明公开了一种基于音频—触觉信号融合的跨模态图像生成装置,本发明引入了强大的生成对抗机制,并且利用了标签信息,有效提高了图像生成的准确性和鲁棒性。
Description
技术领域
本发明涉及图像生成技术领域,特别是一种基于音频—触觉信号融合的跨模态图像生成方法及装置。
背景技术
随着无线通信和多媒体技术的快速发展,人们开始追求更为实际的沉浸式体验。触觉,作为新的感官维度,逐渐开始融入并升华传统的视听服务,形成跨模态业务。协同音-视-触传输的跨模态通信,被认为是当下支持跨模态业务的一种合理而高效的通信方式。然而,由于传输的不可靠性和不同模态信号通信质量的差异,视觉信号往往面临严重损耗,迫切需要恢复重建。
现有的图像生成工作主要利用视觉模态自身的固有信息恢复缺失内容,如图像修复、深度估计、语义补绘等。但在实际跨模态通信场景下,由于图像信号内容缺失严重,学习到的信息极其有限,生成准确度较低。因此有必要寻找具有更丰富图像内容的数据作为先验知识重建视觉图像。考虑到触觉信号和音频在传输中保留相对完整,且和图像在本质上具有深层次的语义一致性,利用触觉信号和音频信号相互融合和互补,可以跨模态生成图像的缺失内容。
跨模态图像生成的一大挑战是如何融合不同模态的信息,一些方法通过特征组合,FV、VLAD聚类编码等结合多模态数据,也有基于深度模型,如自编码器和深度玻尔兹曼机来提取多模态的统一表示。但这些方法局限于浅层特征融合,没有从深层角度来挖掘高级的相关语义和特定表征。
同时,如何克服不同模态的不一致性,学习异构特征的内在关联也很重要,主流的方法是学习公共子空间,如典型相关分析(CCA)利用矩阵将不同模态的成对样本的原始特征投影到低维公共子空间,跨模态因子分析(CFA)将不同模态公共子空间内的特征范数最小化。深度学习的方法也得到了广泛的应用,如深度规范相关自编码器(DCCAE)、深度限制玻尔兹曼机(DBM)等也用来对跨模态数据的相关性进行建模。
此外,现有的生成模型主要是以生成对抗网络(GAN)和变分自编码器(VAE)为代表,但是GAN存在梯度消失和训练不稳定的缺陷,而自编码器生成的图像较为模糊。同时,跨模态图像生成研究主要是基于文本生成图像,这些模型都只能处理单一模态的跨模态生成,即使能扩展,考虑到文本的单词级别的特征相对于触觉和音频-通常以时域序列形式表示更为复杂,基于文本的跨模态模型不适用于多个模态的场景。
发明内容
本发明所要解决的技术问题是克服现有技术的不足而提供一种基于音频—触觉信号融合的跨模态图像生成方法及装置,该方法应用触觉信号和音频多种模态信号跨模态生成图像;该方法首先选取标准的多模态数据集模型训练和测试,并基于音频和触觉信号融合建立了AHFIG(Audio-Haptic Infused Image Generation)模型,实现跨模态图像生成。采用本发明的方法,能够准确地融合多种模态的信号,在模型复杂度较低地情况下生成高质量,高细粒度的视觉图像,提升图像生成质量,保证跨模态业务的沉浸式体验。
本发明为解决上述技术问题采用以下技术方案:
根据本发明提出的一种基于音频—触觉信号融合的跨模态图像生成方法,包括以下步骤:
步骤1、选取多模态的数据集,该数据集包括音频数据、图像数据和触觉信号,将该数据集划分为训练集和测试集;
步骤2、设计一个音频、触觉信号融合的跨模态图像生成AHFIG模型,该模型包括深度语义融合模块、潜在空间学习模块和跨模态图像生成模块:其中,
深度语义融合模块,用于提取触觉信号和音频数据的特征,并通过语义约束深度融合不同模态的互补信息,得到多模态的融合特征;
潜在空间学习模块,用于引入基于对抗机制的图像潜在空间学习,将融合特征与图像特征的真实分布相匹配;
跨模态图像生成模块,将潜在空间学习后的融合特征在图像内容的分层知识蒸馏约束下,跨模态生成图像;
步骤3、利用训练集对AHFIG模型进行训练,得到最优的AHFIG模型结构及参数;
步骤4、利用测试集中的触觉信号和音频数据,基于最优的AHFIG模型,生成对应的图像。
作为本发明所述的一种基于音频—触觉信号融合的跨模态图像生成方法进一步优化方案,步骤1具体如下:
步骤(1-1)、选择图像数据I、音频数据A和触觉信号H三种不同模态数据组成多模态数据集D;其中,图像数据为原始彩色图像信号,音频数据为原始音频信号经过预处理得到的语谱图,触觉信号为触觉原始信号经过预处理得到的触觉功率谱密度;
步骤(1-2)、对于数据集D中不同模态的数据,统计它们的标签信息Y,即,使用独热one-hot编码,为每一个数据打上表示的内容信息所属的类别标签;
步骤(1-3)、从数据集D中随机选取比例为α的数据作为训练集Dtr,剩余的1-α比例的数据作为测试集Dte,α的取值范围在0到1之间。
作为本发明所述的一种基于音频—触觉信号融合的跨模态图像生成方法进一步优化方案,步骤2中,
(2-1)、深度语义融合模块是通过以下方法实现的:
对于触觉信号H,采用门循环单元GRU作为触觉特征提取网络来提取触觉特征h;对于音频数据A采用音频特征提取网络,即深度卷积神经网络提取音频特征a;具体过程为:
其中,h和a分别为触觉特征和音频特征,h和a的维度分别为和/>θh和θa分别是触觉特征提取网络Fh(H;θh)和音频特征提取网络Fa(A;θa)的参数集合;
利用类别标签信息Y={y},y∈{1,…,k,…,K}构造融合网络,该融合网络由全连接层和softmax层组成,通过下列公式在语义约束下融合触觉特征和音频特征:
f=Ff(h,a;θf),
其中,f为融合特征,θf是融合网络Ff(h,a;θf)的参数集合,Ldis为融合网络的语义损失函数,N为训练数据总容量,K是标签中的类别总数,y是触觉特征和音频特征所属的类别,p(f,y;θf)是融合特征f分类正确的概率;
(2-2)、潜在空间学习模块是通过以下方法实现的:
A、将图像数据I输入到由卷积神经网络所构成的图像特征提取网络中进行特征提取,得到图像特征i,将图像映射到潜在空间:
其中,i为图像特征,i的维度为θi是图像特征提取网络Fi(I;θi)中的参数集合;
B、将融合特征f投射到图像潜在空间来进行跨模态关联学习;此时,融合网络和鉴别器DA作为一组生成对抗网络;具体地,采用鉴别器DA来分辨融合特征f和图像特征i,而(2-1)中的融合网络的目标是在潜在空间中产生无法与i区别的f,使得融合特征在潜在空间中不断逼近图像特征;其中,鉴别器DA最小化如下的损失函数:
其中,为鉴别器DA的鉴别损失函数,/>为鉴别器DA的网络参数集合,/>和分别是图像特征分布函数Pdata(i)和融合特征分布函数Pdata(f)的期望,/>和分别为鉴别器DA鉴别图像特征和融合特征为真的概率;而这里融合网络Ff最小化以下损失函数:
其中,为融合网络的生成损失函数;
C、综合(2-1)中的语义损失函数Ldis,融合网络Ff最终需要最小化的损失函数为:
其中,Lfus为最终的融合网络损失函数,λ为正则化参数;
(2-3)、跨模态图像生成模块是通过以下方法实现的:
步骤a、采用另一组生成对抗网络实现跨模态图像生成;具体地,将融合特征f输入图像生成器GB,得到生成图像即/>并利用图像鉴别器DB从生成图像/>和图像数据I中区分真假;所述跨模态图像生成过程最小化以下两组损失函数:,
其中,为生成器GB的生成损失函数,/>为鉴别器DB的鉴别损失函数,I表示数据集中的图像数据,/>表示生成图像,/>为图像生成器/>的网络参数集合,/>为图像鉴别器DB的网络参数集合;/>和/>分别是图像数据分布函数Pdata(i)和生成图像分布函数Pdata(f)的期望;/>和/>分别为鉴别器DB判别图像数据和生成图像为真的概率;最终,最小化/>以增强鉴别器的判别能力,最小化/>使生成器生成更能迷惑鉴别器的图像,实现高质量的跨模态图像生成;
步骤b、跨模态生成图像后,进一步对上述步骤a中的生成图像进行像素级别的约束,采用重构损失函数来拟合图像数据分布,定义图像重构损失函数Lrec为:
步骤c、将图像特征提取网络设置为知识蒸馏模型,生成器GB采用对称的结构;将知识蒸馏模型包括像素级内容的各层输出特征和生成器GB对应的分层特征进行相似性约束,定义分层损失函数LH为:
其中,L和θl表示生成器的层数和第l层的网络参数,θL-l表示图像特征提取网络/>的第L-l层的参数,生成器的网络结构和图像特征提取网络对称,具有相同的网络层和输出维度;对生成器和图像特征提取网络每一层的输出施加L1范数‖·‖1进行距离约束,通过最小化LH,实现真实图像分布、语义和结构信息的进一步迁移;因为Lrec和LH都是针对生成器GB的约束,因此将它们作为GB正则化约束,进一步改写GB的损失函数为LG:
其中,β和γ为正则化参数。
作为本发明所述的一种基于音频—触觉信号融合的跨模态图像生成方法进一步优化方案,步骤3包括:
步骤(3-1)、根据生成图像将步骤1中选取的数据集和步骤(2-1)中的类别标签信息组合为标准化的输入训练数据集Dtr:
Dtr={(Im,Am,Hm,ym),m=1,2,…,N}
其中,ym为第m组参与训练的图像数据Im、音频数据Am和触觉信号Hm所属的类别标签,N为训练数据总容量;
步骤(3-2)、初始化AHFIG模型的网络参数集合,这个集合包括θa,θh,θi,θf,将这些参数初始化为标准正态分布;
步骤(3-3)、设置总迭代次数为R,使用r记录具体迭代次数;
步骤(3-4)、采用随机梯度下降法,训练AHFIG模型;具体过程如下:
步骤①、设定参数λ,β,γ,鉴别器学习率μ1和生成器学习率μ2;
步骤②、计算AHFIG模型中各个网络的输出:
h=Fh(H;θh);a=Fa(A;θa);i=Fi(I;θi),
步骤③、开始迭代;基于梯度下降法和Adam优化器,从目标的负梯度方向对各个网络的参数集合进行更新:
其中,Lfus(*)为Lfus,为/>为/>为/> 和/>分别为第r+1和第r次迭代后的触觉特征提取网络,音频特征提取网络,图像特征提取网络,融合网络、鉴别器DA,鉴别器DB和生成器GB的网络参数集合;/>为导数;
步骤④、如果r<R,则跳转到步骤(3-4)中的步骤③,r=r+1,继续下一次迭代;否则,终止迭代;
步骤(3-5)、经过R轮迭代后,最终输出最优的AHFIG模型结构及参数。
作为本发明所述的一种基于音频—触觉信号融合的跨模态图像生成方法进一步优化方案,步骤4包括:
(4-1)、步骤1中划分的测试集Dte为:
Dte={(A′j,H′j),j=1,2,…,P},
其中,A'j和H'j为第j组成对的音频数据和触觉信号,A'j和H'j用于模型测试,P为测试数据总量;
(4-2)、将Dte中的数据成对输入经过步骤3所训练完成的音频、触觉信号融合的AHFIG模型,输出即为生成图像。
一种基于音频—触觉信号融合的跨模态图像生成装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现上述任一项所述的一种基于音频—触觉信号融合的跨模态图像生成方法。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
(1)本发明使用基于语义关联的深度融合网络,在深层次语义的约束下融合触觉信号和音频的底层特征形成高层表征,提高了模型生成的准确度和完整性;
(2)本发明的模型在度量不同模态的相似性时,引入了对抗学习机制,将触觉和音频的融合特征映射到真实图像数据的潜在空间,来关联异构数据,消除模态间的差异;
(3)本发明针对现有模型网络复杂,生成图像细粒度较低的缺陷,对生成模型施加知识蒸馏约束,将图像内容转化为分层语义表示,通过分层知识约束指导重建过程,在不增加模型复杂度的基础上,从语义和分布上提高图像质量。
附图说明
图1为本发明的音频和触觉信号融合的跨模态图像生成模型。
图2为知识蒸馏辅助模型原理图。
图3为本发明的方法具体实现流程图。
图4为本发明实例方法与现有方法的比较;其中,(a)是现有方法一,(b)是现有方法二,(c)是现有方法三,(d)是现有方法四,(e)是基准方法一,(f)是本实例方法。
图5为本发明装置的结构框架图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述。
需要拟定高效、准确的跨模态图像生成方法,能够融合不同的模态并实现高质量的图像数据重建。近年来,对抗生成模型在图像生成领域取得了较好的成功,知识蒸馏模型也为提高生成图像细粒度提供了简单高效的途径。因此本发明提出一种基于音频-触觉信号融合的跨模态图像生成方法。基于深度语义的融合方法,能够提高模型重建的准确度;潜在空间学习将跨模态数据的语义特征映射到一个“潜在学习空间”,来度量不同模态数据的相似性;基于知识蒸馏的跨模态图像生成在图像分层知识的蒸馏约束下,在不增加模型复杂度的基础上,从语义和分布上提高图像质量。
如图3所示,本发明基于音频-触觉信号融合的跨模态图像生成方法,该方法,包括如下步骤:
步骤1:选取跨模态标准数据集,该数据集包含音频数据、图像数据和触觉信号,将该数据集划分为训练集和测试集。
(1-1)选择图像数据I、音频数据A和触觉信号H三种不同模态数据组成跨模态的数据集D。其中,图像数据为原始彩色图像信号,音频数据为原始音频信号经过预处理得到的语谱图,触觉数据为触觉原始信号经过预处理得到的触觉功率谱密度。
(1-2)对于数据集D中不同模态的数据,统计它们的标签信息Y,即,使用独热(one-hot)编码,为每一个数据打上其表示的内容信息所属的类别标签。
(1-3)从数据集D中随机选取比例为α的数据作为训练集Dtr,剩余的1-α比例的数据作为测试集Dte。这里取α=0.8。
步骤2:设计一个音频、触觉信号融合的跨模态图像生成AHFIG模型,如图1所示,该模型包括深度语义融合、潜在空间学习和跨模态图像生成三个模块:首先,提取触觉信号和音频数据的特征,并通过语义约束深度融合不同模态的互补信息,得到多模态融合特征;然后引入基于对抗机制的图像潜在空间学习,将融合特征与图像特征的真实分布相匹配;最后将潜在空间学习后的融合特征在图像内容的分层知识蒸馏约束下,跨模态生成图像。
(2-1)深度语义融合模块是通过以下方法实现的:
A.对于触觉信号H采用门循环单元(Gated Recurrent Unit,GRU)作为触觉特征提取网络来提取触觉特征,该网络有一个重置门和更新门,设置单元数为256,输出一个64维的触觉特征h。对于音频数据A采用深度卷积神经网络作为音频特征提取网络来提取层次化特征,该网络包含四个卷积层和三个全连接层,卷积核数分别为512,256,128,64,卷积核大小为5x5,全连接层的输出维度为1024,128,最后一个全连接层输出64维的音频特征a;具体过程为:
在上式中,h和a分别为触觉特征和音频特征,h和a的维度分别为和/>θh和θa分别是触觉特征提取网络Fh(H;θh)和音频特征提取网络Fa(A;θa)的参数集合。
B.利用类别标签信息Y={y},y∈{1,...,k,…,K}构造融合网络,该融合网络由5个全连接层和1个softmax层组成,全连接层的输出维度512,1024,512,128,最后一层输出64维的融合特征。此外,softmax层输出维度为9。通过下列公式在语义约束下融合触觉特征和音频特征:
f=Ff(h,a;θf),
在上式中,f为融合特征,θf是融合网络Ff(h,a;θf)的参数集合。Ldis为融合网络的语义损失函数,N为训练数据总容量,K是标签中的类别总数,y是触觉特征和音频特征所属的类别,p(f,y;θf)是融合特征f分类正确的概率。
(2-2)潜在空间学习模块是通过以下方法实现的:
将128x128的彩色图像数据I输入到由卷积神经网络所构成的图像特征提取网络中,该网络包含四个卷积层和三个全连接层,卷积核数分别为512,256,128,64,卷积核大小为5x5,全连接层的输出维度为1024,128,最后一个全连接层输出64维的图像特征i,将图像映射到潜在空间,即:
在上式中,i为图像特征,i的维度为θi是图像特征提取网络Fi(I;θi)中的参数集合。
B.将融合特征f投射到图像潜在空间来进行跨模态关联学习;此时,融合网络和鉴别器作为一组生成对抗网络。具体地,采用鉴别器DA来分辨融合特征f和图像特征i,而(2-1)中的融合网络的目标是在潜在空间中产生无法与i区别的f,使得融合特征在潜在空间中不断逼近图像特征。鉴别器DA主要为四层全连接层网络,维度分别为512,1024,512,1,最后输出一个(0,1)范围内的数表示输入特征为真实特征的概率。鉴别器DA最小化如下的损失函数:
其中,为鉴别器DA的鉴别损失函数,/>为鉴别器DB的鉴别损失函数,/>为鉴别器DA的网络参数集合,/>和/>分别是图像特征分布函数Pdata(i)和融合特征分布函数Pdata(f)的期望。/>和/>分别为鉴别器DA对图像特征和融合特征为真的概率。而这里融合网络Ff最小化以下损失函数:
其中,为融合网络的生成损失函数。
C.综合步骤(2-1)的语义损失函数Ldis,融合网络Ff最终需要最小化的损失函数为:
其中,Lfus为最终的融合网络损失函数,λ为正则化参数。
(2-3)跨模态图像生成模块。
A.采用另一组生成对抗网络实现跨模态图像生成;具体地,将融合特征f输入图像生成器GB,得到生成图像即/>并利用图像鉴别器DB从生成图像/>和图像数据I中区分真假。所述跨模态图像生成过程主要最小化以下两组损失函数:,
其中,为生成器GB的生成损失函数,I表示数据集中的图像数据,/>表示生成图像,/>为图像生成器/>的网络参数集合,/>为图像鉴别器DB的网络参数集合。/>和/>分别是图像数据分布函数Pdata(i)和生成图像分布函数Pdata(f)的期望。/>和分别为鉴别器DB对图像数据和生成图像为真的概率;最终,最小化/>以增强鉴别器的判别能力,最小化/>使生成器生成更能迷惑鉴别器的图像,实现高质量的跨模态图像生成。
在这个模块中,图像生成器GB具有和图像特征提取网络Fi对称的网络结构,包含2个全连接层和4个反卷积层,全连接层的维度分别为128,1024,反卷积的数量为64,128,256,512,输出为128x128的生成图像图像鉴别器DB包含四个卷积层和2个全连接层,卷积层输出维度为512,256,128,64,卷积核大小为5x5,全连接层的维度为1024,1,最后输出一个(0,1)范围内的数表示输入特征为真实特征的概率。
B.跨模态生成图像后,为了进一步对上述步骤a中的生成图像进行像素级别的约束,采用重构损失函数来更好地拟合图像数据分布,定义图像重构损失函数Lrec为:
C.为了增加生成图像的细粒度,将图像特征提取设置为知识蒸馏模型,生成器GB采用对称的结构,如图2所示。将知识蒸馏模型包含像素级内容的各层输出特征和生成器GB对应的分层特征进行相似性约束,减小差异,帮助GB更好地捕获真实图像数据的内容信息。定义分层损失函数LH为:
其中,L和θl表示生成器的层数和第l层的网络参数,θL-l表示图像特征提取网络/>的第L-l层的参数,生成器的网络结构和图像特征提取网络对称,具有相同的网络层和输出维度。对生成器和图像特征提取网络每一层的输出施加L1范数‖·‖1进行距离约束,通过最小化LH,实现真实图像分布、语义和结构信息的进一步迁移。因为Lrec和LH都是针对生成器GB的约束,因此将它们作为GB正则化约束,进一步改写GB的损失函数为LG:
其中,β和γ为正则化参数。
步骤3:利用训练集对AHFIG模型进行训练,得到最优的AHFIG模型结构及参数。
(3-1)根据生成图像将步骤1中选取的数据集和(2-1)中的类别标签信息组合为标准化的输入训练数据集Dtr:
Dtr={(Im,Am,Hm,ym),m=1,2,…,N},
其中,ym为第m组参与训练的图像数据Im、音频数据Am和触觉信号Hm所属的类别标签,N为训练数据总容量。
(3-2)初始化AHFIG模型的网络参数集合,这个集合包括θa,θh,θi,θf,将这些参数初始化为标准正态分布;
(3-3)设置总迭代次数为R=500,使用r记录具体迭代次数。
(3-4)采用随机梯度下降法,训练AHFIG模型。具体过程如下:
步骤①、设定参数λ=10-3,β=0.1,γ=10-5。设置鉴别器学习率μ1=0.0005,生成器学习率μ2=0.0001。
步骤②、计算AHFIG模型中各个网络的输出:
h=Fh(H;θh);a=Fa(A;θa);i=Fi(I;θi),
步骤③、开始迭代。基于梯度下降法和Adam优化器,从目标的负梯度方向对各个网络参数进行更新:
其中,Lfus(*)为Lfus,为/>为/>为/> 和/>分别为第r+1和第r次迭代后的触觉特征提取网络,音频特征提取网络,图像特征提取网络,融合网络、鉴别器DA,鉴别器和DB生成器GB的网络参数集合;/>为导数。D.如果r<R,则跳转到步骤(3-4)中的步骤③,迭代次数加1(r=r+1),继续下一次迭代;否则,终止迭代。
(3-5)经过R轮迭代后,最终输出最优的AHFIG模型结构及参数。
步骤4:利用测试集中的触觉信号和音频数据,基于该最优AHFIG模型,生成对应的图像。
(4-1)步骤1中划分的测试集为:
Dte={(A′j,H′j),j=1,2,…,P},
其中A′j和H′j为第j组成对的音频数据和触觉信号用于模型测试,P为测试数据总量。
(4-2)将Dte中的数据成对输入经过步骤3训练完成的音频、触觉信号融合的AHFIG模型,输出即为生成图像。
如图5所示,本发明基于一种音频—触觉信号融合的跨模态图像生成装置,包括:
1、使用存储器,用于存储至少一个程序。
2、使用处理器,用于加载至少一个程序以执行本实施例中所述的一种音频—触觉信号融合的跨模态图像生成方法。
性能评价:
本发明按照上述流程进行实验,选取LMT材料表面标准数据集作为实验数据集,该数据集由文献“Multimodal Feature-based Surface Material Classification”(作者是Matti Strese,Clemens Schuwerk,Albert Iepure,和Eckehard Steinbach,于2017年4月发表在IEEE TRANSACTIONS ON HAPTICS期刊上)。包含图像、声音和触觉加速度三种实例的材料信息,从每个类别中选取80%作为训练集,剩余20%作为测试集。
现有方法一:文献“Generative adversarial nets”(作者Ian J.Goodfellow,Jean Pouget-Abadie,Mehdi Mirza,Bing Xu等人),提出了一个极小化极大化的博弈对抗过程估计生成模型的新框架,包括两个模型:一个用来捕获数据分布的生成模型G,和一个用来估计样本来自训练数据而不是G的概率的判别模型D,G的训练过程是最大化D产生错误的概率。
现有方法二:文献“Wasserstein generative adversarial networks”(作者:Martin Arjovsky,Soumith Chintala,Leon Bottou)提出了生成对抗网络的变体,通过引入Wasserstein距离作为约束条件来改善基础生成对抗网络模型的梯度消失的缺陷。
现有方法三:文献“StackGAN++:Realistic Image Synthesis with StackedGenerative Adversarial Networks”(作者Han Zhang,Tao Xu,Hongsheng Li,ShaotingZhang,,Xiaogang Wang)利用文本信息跨模态生成视觉图像,在两个生成阶段分别生成模糊的初始图像,并将初始图像输入下一阶段的生成模型进行细化
现有方法四:文献“Touching to See and Seeing to Feel Robotic Cross-modal Sensory Data Generation for Visual-Tactile Perception”(作者Jet-TsynLee,Danushka Bollegala and Shan Luo),基于改进的条件生成对抗网络生成图像,基于触觉的纹理图片,通过生成模型得到对应的视觉图像。增加了一组相似性约束来度量触觉特征和图像特征的语义相似性。
基准方法一:移除听觉模态的信息,仅仅使用触觉模态的信息来验证多模态融合的有效性。
本发明:本实施例的方法。
实验采用图像生成领域常用的IS(Inception Score)和FID(Frechet Inception)两种评价指标来对本实验模型的生成质量进行评估,IS越小,FID越大,说明跨模态图像生成的质量越好。
表I本发明的评估结果展示
结合图4的生成结果和表I的评估结果观察可知。我们的方法具有最高的IS值和最小的FID分数。这表明我们提出的模型优于其他模型,对于相同的生成目标,我们的模型在语义上具有最高的准确度,保证了输入的触、听觉和真实图像具有相同的描述信息,同时间接验证我们的模型具有最高的生成质量和生成多样性。
图4中的(a)是现有方法一,现有方法一模型的生成效果最差。图4中的(b)是现有方法二,图4中的(c)是现有方法三,图4中的(d)是现有方法四,与现有方法二和现有方法三相比,现有方法四和基准方法一的结果略好,因为这两种方法都增加了对融合特征和真实图像特征之间的相关性学习。我们的方法在生成图像的质量和细粒度与原图像非常相似,体现了蒸馏法的重要作用。图4中的(e)是基准方法一,图4中的(f)是本实例方法;最后,通过观察基准实验和我们的方法的结果图,进一步证明了触、听觉融合对生成任务的准确性和鲁棒性上的具有重要意义。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围内。
Claims (4)
1.一种基于音频—触觉信号融合的跨模态图像生成方法,其特征在于,包括以下步骤:
步骤1、选取多模态的数据集,该数据集包括音频数据、图像数据和触觉信号,将该数据集划分为训练集和测试集;
步骤2、设计一个音频、触觉信号融合的跨模态图像生成AHFIG模型,该模型包括深度语义融合模块、潜在空间学习模块和跨模态图像生成模块:其中,
深度语义融合模块,用于提取触觉信号和音频数据的特征,并通过语义约束深度融合不同模态的互补信息,得到多模态的融合特征;
潜在空间学习模块,用于引入基于对抗机制的图像潜在空间学习,将融合特征与图像特征的真实分布相匹配;
跨模态图像生成模块,将潜在空间学习后的融合特征在图像内容的分层知识蒸馏约束下,跨模态生成图像;
步骤3、利用训练集对AHFIG模型进行训练,得到最优的AHFIG模型结构及参数;
步骤4、利用测试集中的触觉信号和音频数据,基于最优的AHFIG模型,生成对应的图像;
步骤1具体如下:
步骤(1-1)、选择图像数据I、音频数据A和触觉信号H三种不同模态数据组成多模态数据集D;其中,图像数据为原始彩色图像信号,音频数据为原始音频信号经过预处理得到的语谱图,触觉信号为触觉原始信号经过预处理得到的触觉功率谱密度;
步骤(1-2)、对于数据集D中不同模态的数据,统计它们的标签信息Y,即,使用独热one-hot编码,为每一个数据打上表示的内容信息所属的类别标签;
步骤(1-3)、从数据集D中随机选取比例为α的数据作为训练集Dtr,剩余的1-α比例的数据作为测试集Dte,α的取值范围在0到1之间;
步骤2中,
(2-1)、深度语义融合模块是通过以下方法实现的:
对于触觉信号H,采用门循环单元GRU作为触觉特征提取网络来提取触觉特征h;对于音频数据A采用音频特征提取网络,即深度卷积神经网络提取音频特征a;具体过程为:
其中,h和a分别为触觉特征和音频特征,h和a的维度分别为和/>θh和θa分别是触觉特征提取网络Fh(H;θh)和音频特征提取网络Fa(A;θa)的参数集合;
利用类别标签信息Y={y},y∈{1,...,k,…,K}构造融合网络,该融合网络由全连接层和softmax层组成,通过下列公式在语义约束下融合触觉特征和音频特征:
f=Ff(h,a;θf),
其中,f为融合特征,θf是融合网络Ff(h,a;θf)的参数集合,Ldis为融合网络的语义损失函数,N为训练数据总容量,K是标签中的类别总数,y是触觉特征和音频特征所属的类别,p(f,y;θf)是融合特征f分类正确的概率;
(2-2)、潜在空间学习模块是通过以下方法实现的:
A、将图像数据I输入到由卷积神经网络所构成的图像特征提取网络中进行特征提取,得到图像特征i,将图像映射到潜在空间:
其中,i为图像特征,i的维度为θi是图像特征提取网络Fi(I;θi)中的参数集合;
B、将融合特征f投射到图像潜在空间来进行跨模态关联学习;此时,融合网络和鉴别器DA作为一组生成对抗网络;具体地,采用鉴别器DA来分辨融合特征f和图像特征i,而(2-1)中的融合网络的目标是在潜在空间中产生无法与i区别的f,使得融合特征在潜在空间中不断逼近图像特征;其中,鉴别器DA最小化如下的损失函数:
其中,为鉴别器DA的鉴别损失函数,/>为鉴别器DA的网络参数集合,/>和/>分别是图像特征分布函数Pdata(i)和融合特征分布函数Pdata(f)的期望,/>和/>分别为鉴别器DA鉴别图像特征和融合特征为真的概率;而这里融合网络Ff最小化以下损失函数:
其中,为融合网络的生成损失函数;
C、综合(2-1)中的语义损失函数Ldis,融合网络Ff最终需要最小化的损失函数为:
其中,Lfus为最终的融合网络损失函数,λ为正则化参数;
(2-3)、跨模态图像生成模块是通过以下方法实现的:
步骤a、采用另一组生成对抗网络实现跨模态图像生成;具体地,将融合特征f输入图像生成器GB,得到生成图像即/>并利用图像鉴别器DB从生成图像/>和图像数据I中区分真假;所述跨模态图像生成过程最小化以下两组损失函数:,
其中,为生成器GB的生成损失函数,/>为鉴别器DB的鉴别损失函数,I表示数据集中的图像数据,/>表示生成图像,/>为图像生成器/>的网络参数集合,/>为图像鉴别器DB的网络参数集合;/>和/>分别是图像数据分布函数Pdata(i)和生成图像分布函数Pdata(f)的期望;/>和/>分别为鉴别器DB判别图像数据和生成图像为真的概率;最终,最小化/>以增强鉴别器的判别能力,最小化/>使生成器生成更能迷惑鉴别器的图像,实现高质量的跨模态图像生成;
步骤b、跨模态生成图像后,进一步对上述步骤a中的生成图像进行像素级别的约束,采用重构损失函数来拟合图像数据分布,定义图像重构损失函数Lrec为:
步骤c、将图像特征提取网络设置为知识蒸馏模型,生成器GB采用对称的结构;将知识蒸馏模型包括像素级内容的各层输出特征和生成器GB对应的分层特征进行相似性约束,定义分层损失函数LH为:
其中,L和θl表示生成器的层数和第l层的网络参数,θL-l表示图像特征提取网络/>的第L-l层的参数,生成器的网络结构和图像特征提取网络对称,具有相同的网络层和输出维度;对生成器和图像特征提取网络每一层的输出施加L1范数‖·‖1进行距离约束,通过最小化LH,实现真实图像分布、语义和结构信息的进一步迁移;因为Lrec和LH都是针对生成器GB的约束,因此将它们作为GB正则化约束,进一步改写GB的损失函数为LG:
其中,β和γ为正则化参数。
2.根据权利要求1所述的一种基于音频—触觉信号融合的跨模态图像生成方法,其特征在于,步骤3包括:
步骤(3-1)、根据生成图像将步骤1中选取的数据集和步骤(2-1)中的类别标签信息组合为标准化的输入训练数据集Dtr:
Dtr={(Im,Am,Hm,ym),m=1,2,…,N}
其中,ym为第m组参与训练的图像数据Im、音频数据Am和触觉信号Hm所属的类别标签,N为训练数据总容量;
步骤(3-2)、初始化AHFIG模型的网络参数集合,这个集合包括将这些参数初始化为标准正态分布;
步骤(3-3)、设置总迭代次数为R,使用r记录具体迭代次数;
步骤(3-4)、采用随机梯度下降法,训练AHFIG模型;具体过程如下:
步骤①、设定参数λ,β,γ,鉴别器学习率μ1和生成器学习率μ2;
步骤②、计算AHFIG模型中各个网络的输出:
h=Fh(H;θh);a=Fa(A;θa);i=Fi(I;θi),
步骤③、开始迭代;基于梯度下降法和Adam优化器,从目标的负梯度方向对各个网络的参数集合进行更新:
其中,Lfus(*)为Lfus,为/>为/>为/> 和/>分别为第r+1和第r次迭代后的触觉特征提取网络,音频特征提取网络,图像特征提取网络,融合网络、鉴别器DA,鉴别器DB和生成器GB的网络参数集合;/>为导数;
步骤④、如果r<R,则跳转到步骤(3-4)中的步骤③,r=r+1,继续下一次迭代;否则,终止迭代;
步骤(3-5)、经过R轮迭代后,最终输出最优的AHFIG模型结构及参数。
3.根据权利要求1所述的一种基于音频—触觉信号融合的跨模态图像生成方法,其特征在于,步骤4包括:
(4-1)、步骤1中划分的测试集Dte为:
Dte={(A′j,H′j),j=1,2,…,P},
其中,A′j和H′j为第j组成对的音频数据和触觉信号,A′j和H′j用于模型测试,P为测试数据总量;
(4-2)、将Dte中的数据成对输入经过步骤3所训练完成的音频、触觉信号融合的AHFIG模型,输出即为生成图像。
4.一种基于音频—触觉信号融合的跨模态图像生成装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征是,所述计算机程序被加载至处理器时实现权利要求1-3任一项所述的一种基于音频—触觉信号融合的跨模态图像生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110776966.4A CN113627482B (zh) | 2021-07-09 | 2021-07-09 | 一种基于音频—触觉信号融合的跨模态图像生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110776966.4A CN113627482B (zh) | 2021-07-09 | 2021-07-09 | 一种基于音频—触觉信号融合的跨模态图像生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113627482A CN113627482A (zh) | 2021-11-09 |
CN113627482B true CN113627482B (zh) | 2023-08-18 |
Family
ID=78379342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110776966.4A Active CN113627482B (zh) | 2021-07-09 | 2021-07-09 | 一种基于音频—触觉信号融合的跨模态图像生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113627482B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114139641B (zh) * | 2021-12-02 | 2024-02-06 | 中国人民解放军国防科技大学 | 基于局部结构传递的多模态表征学习方法和系统 |
CN114820460B (zh) * | 2022-04-02 | 2023-09-29 | 南京航空航天大学 | 一种单基因位点与时序脑图像关联分析的方法及装置 |
CN114842384A (zh) * | 2022-04-30 | 2022-08-02 | 南京邮电大学 | 一种面向6g的触觉模态信号重建方法 |
CN115062328B (zh) | 2022-07-12 | 2023-03-10 | 中国科学院大学 | 一种基于跨模态数据融合的信息智能解析方法 |
CN115658954B (zh) * | 2022-10-28 | 2023-12-26 | 华东师范大学 | 一种基于提示学习的跨模态检索对抗防御方法 |
CN116935169B (zh) * | 2023-09-13 | 2024-01-02 | 腾讯科技(深圳)有限公司 | 文生图模型训练方法以及文生图方法 |
CN117520475B (zh) * | 2023-12-29 | 2024-03-19 | 四川互慧软件有限公司 | 一种护理知识库的构建方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107871014A (zh) * | 2017-11-23 | 2018-04-03 | 清华大学 | 一种基于深度融合哈希的大数据跨模态检索方法及系统 |
CN109144257A (zh) * | 2018-08-22 | 2019-01-04 | 音曼(北京)科技有限公司 | 从歌曲中提取特征并转化为触觉感受的方法 |
CN111581405A (zh) * | 2020-04-26 | 2020-08-25 | 电子科技大学 | 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法 |
CN112784092A (zh) * | 2021-01-28 | 2021-05-11 | 电子科技大学 | 一种混合融合模型的跨模态图像文本检索方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11048974B2 (en) * | 2019-05-06 | 2021-06-29 | Agora Lab, Inc. | Effective structure keeping for generative adversarial networks for single image super resolution |
-
2021
- 2021-07-09 CN CN202110776966.4A patent/CN113627482B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107871014A (zh) * | 2017-11-23 | 2018-04-03 | 清华大学 | 一种基于深度融合哈希的大数据跨模态检索方法及系统 |
CN109144257A (zh) * | 2018-08-22 | 2019-01-04 | 音曼(北京)科技有限公司 | 从歌曲中提取特征并转化为触觉感受的方法 |
CN111581405A (zh) * | 2020-04-26 | 2020-08-25 | 电子科技大学 | 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法 |
CN112784092A (zh) * | 2021-01-28 | 2021-05-11 | 电子科技大学 | 一种混合融合模型的跨模态图像文本检索方法 |
Non-Patent Citations (1)
Title |
---|
生成对抗网络图像类别标签跨模态识别系统设计;刘尚争;刘斌;;现代电子技术(第08期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113627482A (zh) | 2021-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113627482B (zh) | 一种基于音频—触觉信号融合的跨模态图像生成方法及装置 | |
Wang et al. | Automatic classification of breast cancer histopathological images based on deep feature fusion and enhanced routing | |
Lin et al. | Exploring explicit domain supervision for latent space disentanglement in unpaired image-to-image translation | |
WO2018023734A1 (zh) | 一种3d图像的显著性检测方法 | |
CN109919252B (zh) | 利用少数标注图像生成分类器的方法 | |
CN111126488A (zh) | 一种基于双重注意力的图像识别方法 | |
CN112800292B (zh) | 一种基于模态特定和共享特征学习的跨模态检索方法 | |
CN114332466B (zh) | 图像语义分割网络持续学习方法、系统、设备及存储介质 | |
Abdul-Rashid et al. | Shrec’18 track: 2d image-based 3d scene retrieval | |
CN114494973B (zh) | 视频语义分割网络的训练方法、系统、设备及存储介质 | |
Tu et al. | Scale effect on fusing remote sensing and human sensing to portray urban functions | |
Guan et al. | Urban perception: Sensing cities via a deep interactive multi-task learning framework | |
Yang et al. | Explaining deep convolutional neural networks via latent visual-semantic filter attention | |
CN110111365B (zh) | 基于深度学习的训练方法和装置以及目标跟踪方法和装置 | |
Chandaliya et al. | Child face age progression and regression using self-attention multi-scale patch gan | |
Abdollahzadeh et al. | A survey on generative modeling with limited data, few shots, and zero shot | |
Hu et al. | Multimodal learning via exploring deep semantic similarity | |
Xu et al. | Multi‐pyramid image spatial structure based on coarse‐to‐fine pyramid and scale space | |
CN116578738B (zh) | 一种基于图注意力和生成对抗网络的图文检索方法和装置 | |
CN105046286A (zh) | 基于自动视图生成和联合l1,2范数最小化的监督多视图特征选择方法 | |
CN110210562B (zh) | 基于深度网络和稀疏Fisher矢量的图像分类方法 | |
Dong et al. | A supervised dictionary learning and discriminative weighting model for action recognition | |
Ullah et al. | DSFMA: Deeply supervised fully convolutional neural networks based on multi-level aggregation for saliency detection | |
CN110348022A (zh) | 一种相似度分析的方法、装置、存储介质及电子设备 | |
Liang et al. | A deep multimodal feature learning network for RGB-D salient object detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |