CN113627482B

CN113627482B - 一种基于音频—触觉信号融合的跨模态图像生成方法及装置

Info

Publication number: CN113627482B
Application number: CN202110776966.4A
Authority: CN
Inventors: 姚玉媛; 魏昕; 高赟; 周亮
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2023-08-18
Anticipated expiration: 2041-07-09
Also published as: CN113627482A

Abstract

本发明公开了一种基于音频—触觉信号融合的跨模态图像生成方法，其步骤包括：1）选取包含音频数据、图像数据、触觉信号在内的多模态数据集，将该数据集划分为训练集和测试集；2）设计一个音频—触觉信号融合的跨模态图像生成模型，该模型包括深度语义融合、潜在空间学习和跨模态图像生成三个模块；3）利用训练集对该模型进行训练，得到最优参数；4）利用测试集中的触觉信号和音频数据，基于所训练好的模型，跨模态地生成对应的图像。本发明公开了一种基于音频—触觉信号融合的跨模态图像生成装置，本发明引入了强大的生成对抗机制，并且利用了标签信息，有效提高了图像生成的准确性和鲁棒性。

Description

一种基于音频—触觉信号融合的跨模态图像生成方法及装置

技术领域

本发明涉及图像生成技术领域，特别是一种基于音频—触觉信号融合的跨模态图像生成方法及装置。

背景技术

随着无线通信和多媒体技术的快速发展，人们开始追求更为实际的沉浸式体验。触觉，作为新的感官维度，逐渐开始融入并升华传统的视听服务，形成跨模态业务。协同音-视-触传输的跨模态通信，被认为是当下支持跨模态业务的一种合理而高效的通信方式。然而，由于传输的不可靠性和不同模态信号通信质量的差异，视觉信号往往面临严重损耗，迫切需要恢复重建。

现有的图像生成工作主要利用视觉模态自身的固有信息恢复缺失内容，如图像修复、深度估计、语义补绘等。但在实际跨模态通信场景下，由于图像信号内容缺失严重，学习到的信息极其有限，生成准确度较低。因此有必要寻找具有更丰富图像内容的数据作为先验知识重建视觉图像。考虑到触觉信号和音频在传输中保留相对完整，且和图像在本质上具有深层次的语义一致性，利用触觉信号和音频信号相互融合和互补，可以跨模态生成图像的缺失内容。

跨模态图像生成的一大挑战是如何融合不同模态的信息，一些方法通过特征组合，FV、VLAD聚类编码等结合多模态数据，也有基于深度模型，如自编码器和深度玻尔兹曼机来提取多模态的统一表示。但这些方法局限于浅层特征融合，没有从深层角度来挖掘高级的相关语义和特定表征。

同时，如何克服不同模态的不一致性，学习异构特征的内在关联也很重要，主流的方法是学习公共子空间，如典型相关分析(CCA)利用矩阵将不同模态的成对样本的原始特征投影到低维公共子空间，跨模态因子分析(CFA)将不同模态公共子空间内的特征范数最小化。深度学习的方法也得到了广泛的应用，如深度规范相关自编码器(DCCAE)、深度限制玻尔兹曼机(DBM)等也用来对跨模态数据的相关性进行建模。

此外，现有的生成模型主要是以生成对抗网络(GAN)和变分自编码器(VAE)为代表，但是GAN存在梯度消失和训练不稳定的缺陷，而自编码器生成的图像较为模糊。同时，跨模态图像生成研究主要是基于文本生成图像，这些模型都只能处理单一模态的跨模态生成，即使能扩展，考虑到文本的单词级别的特征相对于触觉和音频-通常以时域序列形式表示更为复杂，基于文本的跨模态模型不适用于多个模态的场景。

发明内容

本发明所要解决的技术问题是克服现有技术的不足而提供一种基于音频—触觉信号融合的跨模态图像生成方法及装置，该方法应用触觉信号和音频多种模态信号跨模态生成图像；该方法首先选取标准的多模态数据集模型训练和测试，并基于音频和触觉信号融合建立了AHFIG(Audio-Haptic Infused Image Generation)模型，实现跨模态图像生成。采用本发明的方法，能够准确地融合多种模态的信号，在模型复杂度较低地情况下生成高质量，高细粒度的视觉图像，提升图像生成质量，保证跨模态业务的沉浸式体验。

本发明为解决上述技术问题采用以下技术方案：

根据本发明提出的一种基于音频—触觉信号融合的跨模态图像生成方法，包括以下步骤：

步骤1、选取多模态的数据集，该数据集包括音频数据、图像数据和触觉信号，将该数据集划分为训练集和测试集；

步骤2、设计一个音频、触觉信号融合的跨模态图像生成AHFIG模型，该模型包括深度语义融合模块、潜在空间学习模块和跨模态图像生成模块：其中，

深度语义融合模块，用于提取触觉信号和音频数据的特征，并通过语义约束深度融合不同模态的互补信息，得到多模态的融合特征；

潜在空间学习模块，用于引入基于对抗机制的图像潜在空间学习，将融合特征与图像特征的真实分布相匹配；

跨模态图像生成模块，将潜在空间学习后的融合特征在图像内容的分层知识蒸馏约束下，跨模态生成图像；

步骤3、利用训练集对AHFIG模型进行训练，得到最优的AHFIG模型结构及参数；

步骤4、利用测试集中的触觉信号和音频数据，基于最优的AHFIG模型，生成对应的图像。

作为本发明所述的一种基于音频—触觉信号融合的跨模态图像生成方法进一步优化方案，步骤1具体如下：

步骤(1-1)、选择图像数据I、音频数据A和触觉信号H三种不同模态数据组成多模态数据集D；其中，图像数据为原始彩色图像信号，音频数据为原始音频信号经过预处理得到的语谱图，触觉信号为触觉原始信号经过预处理得到的触觉功率谱密度；

步骤(1-2)、对于数据集D中不同模态的数据，统计它们的标签信息Y，即，使用独热one-hot编码，为每一个数据打上表示的内容信息所属的类别标签；

步骤(1-3)、从数据集D中随机选取比例为α的数据作为训练集D_tr，剩余的1-α比例的数据作为测试集D_te，α的取值范围在0到1之间。

作为本发明所述的一种基于音频—触觉信号融合的跨模态图像生成方法进一步优化方案，步骤2中，

(2-1)、深度语义融合模块是通过以下方法实现的：

对于触觉信号H，采用门循环单元GRU作为触觉特征提取网络来提取触觉特征h；对于音频数据A采用音频特征提取网络，即深度卷积神经网络提取音频特征a；具体过程为：

其中，h和a分别为触觉特征和音频特征，h和a的维度分别为和/>θ_h和θ_a分别是触觉特征提取网络F_h(H；θ_h)和音频特征提取网络F_a(A；θ_a)的参数集合；

利用类别标签信息Y＝{y},y∈{1,…,k,…,K}构造融合网络，该融合网络由全连接层和softmax层组成，通过下列公式在语义约束下融合触觉特征和音频特征：

f＝F_f(h,a；θ_f),

其中，f为融合特征，θ_f是融合网络F_f(h,a；θ_f)的参数集合，L_dis为融合网络的语义损失函数，N为训练数据总容量，K是标签中的类别总数，y是触觉特征和音频特征所属的类别，p(f,y；θ_f)是融合特征f分类正确的概率；

(2-2)、潜在空间学习模块是通过以下方法实现的：

A、将图像数据I输入到由卷积神经网络所构成的图像特征提取网络中进行特征提取，得到图像特征i，将图像映射到潜在空间：

其中，i为图像特征，i的维度为θ_i是图像特征提取网络F_i(I；θ_i)中的参数集合；

B、将融合特征f投射到图像潜在空间来进行跨模态关联学习；此时，融合网络和鉴别器D_A作为一组生成对抗网络；具体地，采用鉴别器D_A来分辨融合特征f和图像特征i,而(2-1)中的融合网络的目标是在潜在空间中产生无法与i区别的f，使得融合特征在潜在空间中不断逼近图像特征；其中，鉴别器D_A最小化如下的损失函数：

其中，为鉴别器D_A的鉴别损失函数，/>为鉴别器D_A的网络参数集合，/>和分别是图像特征分布函数P_data(i)和融合特征分布函数P_data(f)的期望，/>和分别为鉴别器D_A鉴别图像特征和融合特征为真的概率；而这里融合网络F_f最小化以下损失函数:

其中，为融合网络的生成损失函数；

C、综合(2-1)中的语义损失函数L_dis，融合网络F_f最终需要最小化的损失函数为：

其中，L_fus为最终的融合网络损失函数，λ为正则化参数；

(2-3)、跨模态图像生成模块是通过以下方法实现的：

步骤a、采用另一组生成对抗网络实现跨模态图像生成；具体地，将融合特征f输入图像生成器G_B，得到生成图像即/>并利用图像鉴别器D_B从生成图像/>和图像数据I中区分真假；所述跨模态图像生成过程最小化以下两组损失函数：,

其中，为生成器G_B的生成损失函数，/>为鉴别器D_B的鉴别损失函数，I表示数据集中的图像数据，/>表示生成图像，/>为图像生成器/>的网络参数集合，/>为图像鉴别器D_B的网络参数集合；/>和/>分别是图像数据分布函数P_data(i)和生成图像分布函数P_data(f)的期望；/>和/>分别为鉴别器D_B判别图像数据和生成图像为真的概率；最终，最小化/>以增强鉴别器的判别能力，最小化/>使生成器生成更能迷惑鉴别器的图像，实现高质量的跨模态图像生成；

步骤b、跨模态生成图像后，进一步对上述步骤a中的生成图像进行像素级别的约束，采用重构损失函数来拟合图像数据分布，定义图像重构损失函数L_rec为：

步骤c、将图像特征提取网络设置为知识蒸馏模型，生成器G_B采用对称的结构；将知识蒸馏模型包括像素级内容的各层输出特征和生成器G_B对应的分层特征进行相似性约束，定义分层损失函数L_H为：

其中，L和θ_l表示生成器的层数和第l层的网络参数，θ_L-l表示图像特征提取网络/>的第L-l层的参数，生成器的网络结构和图像特征提取网络对称，具有相同的网络层和输出维度；对生成器和图像特征提取网络每一层的输出施加L1范数‖·‖₁进行距离约束，通过最小化L_H，实现真实图像分布、语义和结构信息的进一步迁移；因为L_rec和L_H都是针对生成器G_B的约束，因此将它们作为G_B正则化约束，进一步改写G_B的损失函数为L_G：

其中，β和γ为正则化参数。

作为本发明所述的一种基于音频—触觉信号融合的跨模态图像生成方法进一步优化方案，步骤3包括：

步骤(3-1)、根据生成图像将步骤1中选取的数据集和步骤(2-1)中的类别标签信息组合为标准化的输入训练数据集D_tr：

D_tr＝{(I_m,A_m,H_m,y_m),m＝1,2,…,N}

其中，y_m为第m组参与训练的图像数据I_m、音频数据A_m和触觉信号H_m所属的类别标签，N为训练数据总容量；

步骤(3-2)、初始化AHFIG模型的网络参数集合，这个集合包括θ_a,θ_h,θ_i,θ_f,将这些参数初始化为标准正态分布；

步骤(3-3)、设置总迭代次数为R，使用r记录具体迭代次数；

步骤(3-4)、采用随机梯度下降法，训练AHFIG模型；具体过程如下：

步骤①、设定参数λ,β,γ，鉴别器学习率μ₁和生成器学习率μ₂；

步骤②、计算AHFIG模型中各个网络的输出：

h＝F_h(H；θ_h)；a＝F_a(A；θ_a)；i＝F_i(I；θ_i),

步骤③、开始迭代；基于梯度下降法和Adam优化器，从目标的负梯度方向对各个网络的参数集合进行更新：

其中，L_fus(*)为L_fus，为/>为/>为/> 和/>分别为第r+1和第r次迭代后的触觉特征提取网络，音频特征提取网络，图像特征提取网络，融合网络、鉴别器D_A，鉴别器D_B和生成器G_B的网络参数集合；/>为导数；

步骤④、如果r＜R，则跳转到步骤(3-4)中的步骤③，r＝r+1，继续下一次迭代；否则，终止迭代；

步骤(3-5)、经过R轮迭代后，最终输出最优的AHFIG模型结构及参数。

作为本发明所述的一种基于音频—触觉信号融合的跨模态图像生成方法进一步优化方案，步骤4包括：

(4-1)、步骤1中划分的测试集D_te为：

D_te＝{(A′_j,H′_j),j＝1,2,…,P},

其中，A'_j和H'_j为第j组成对的音频数据和触觉信号，A'_j和H'_j用于模型测试，P为测试数据总量；

(4-2)、将D_te中的数据成对输入经过步骤3所训练完成的音频、触觉信号融合的AHFIG模型，输出即为生成图像。

一种基于音频—触觉信号融合的跨模态图像生成装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现上述任一项所述的一种基于音频—触觉信号融合的跨模态图像生成方法。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

(1)本发明使用基于语义关联的深度融合网络，在深层次语义的约束下融合触觉信号和音频的底层特征形成高层表征，提高了模型生成的准确度和完整性；

(2)本发明的模型在度量不同模态的相似性时，引入了对抗学习机制，将触觉和音频的融合特征映射到真实图像数据的潜在空间，来关联异构数据，消除模态间的差异；

(3)本发明针对现有模型网络复杂，生成图像细粒度较低的缺陷，对生成模型施加知识蒸馏约束，将图像内容转化为分层语义表示，通过分层知识约束指导重建过程，在不增加模型复杂度的基础上，从语义和分布上提高图像质量。

附图说明

图1为本发明的音频和触觉信号融合的跨模态图像生成模型。

图2为知识蒸馏辅助模型原理图。

图3为本发明的方法具体实现流程图。

图4为本发明实例方法与现有方法的比较；其中，(a)是现有方法一，(b)是现有方法二，(c)是现有方法三，(d)是现有方法四，(e)是基准方法一，(f)是本实例方法。

图5为本发明装置的结构框架图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明进行详细描述。

需要拟定高效、准确的跨模态图像生成方法，能够融合不同的模态并实现高质量的图像数据重建。近年来，对抗生成模型在图像生成领域取得了较好的成功，知识蒸馏模型也为提高生成图像细粒度提供了简单高效的途径。因此本发明提出一种基于音频-触觉信号融合的跨模态图像生成方法。基于深度语义的融合方法，能够提高模型重建的准确度；潜在空间学习将跨模态数据的语义特征映射到一个“潜在学习空间”，来度量不同模态数据的相似性；基于知识蒸馏的跨模态图像生成在图像分层知识的蒸馏约束下，在不增加模型复杂度的基础上，从语义和分布上提高图像质量。

如图3所示，本发明基于音频-触觉信号融合的跨模态图像生成方法，该方法，包括如下步骤：

步骤1：选取跨模态标准数据集，该数据集包含音频数据、图像数据和触觉信号，将该数据集划分为训练集和测试集。

(1-1)选择图像数据I、音频数据A和触觉信号H三种不同模态数据组成跨模态的数据集D。其中，图像数据为原始彩色图像信号，音频数据为原始音频信号经过预处理得到的语谱图，触觉数据为触觉原始信号经过预处理得到的触觉功率谱密度。

(1-2)对于数据集D中不同模态的数据，统计它们的标签信息Y，即，使用独热(one-hot)编码，为每一个数据打上其表示的内容信息所属的类别标签。

(1-3)从数据集D中随机选取比例为α的数据作为训练集D_tr，剩余的1-α比例的数据作为测试集D_te。这里取α＝0.8。

步骤2：设计一个音频、触觉信号融合的跨模态图像生成AHFIG模型，如图1所示，该模型包括深度语义融合、潜在空间学习和跨模态图像生成三个模块：首先，提取触觉信号和音频数据的特征，并通过语义约束深度融合不同模态的互补信息，得到多模态融合特征；然后引入基于对抗机制的图像潜在空间学习，将融合特征与图像特征的真实分布相匹配；最后将潜在空间学习后的融合特征在图像内容的分层知识蒸馏约束下，跨模态生成图像。

(2-1)深度语义融合模块是通过以下方法实现的：

A.对于触觉信号H采用门循环单元(Gated Recurrent Unit，GRU)作为触觉特征提取网络来提取触觉特征，该网络有一个重置门和更新门，设置单元数为256，输出一个64维的触觉特征h。对于音频数据A采用深度卷积神经网络作为音频特征提取网络来提取层次化特征，该网络包含四个卷积层和三个全连接层，卷积核数分别为512，256，128，64，卷积核大小为5x5，全连接层的输出维度为1024，128，最后一个全连接层输出64维的音频特征a；具体过程为：

在上式中，h和a分别为触觉特征和音频特征，h和a的维度分别为和/>θ_h和θ_a分别是触觉特征提取网络F_h(H；θ_h)和音频特征提取网络F_a(A；θ_a)的参数集合。

B.利用类别标签信息Y＝{y},y∈{1,...,k,…,K}构造融合网络，该融合网络由5个全连接层和1个softmax层组成，全连接层的输出维度512，1024，512，128，最后一层输出64维的融合特征。此外，softmax层输出维度为9。通过下列公式在语义约束下融合触觉特征和音频特征：

f＝F_f(h,a；θ_f),

在上式中，f为融合特征，θ_f是融合网络F_f(h,a；θ_f)的参数集合。L_dis为融合网络的语义损失函数，N为训练数据总容量，K是标签中的类别总数，y是触觉特征和音频特征所属的类别，p(f,y；θ_f)是融合特征f分类正确的概率。

(2-2)潜在空间学习模块是通过以下方法实现的：

将128x128的彩色图像数据I输入到由卷积神经网络所构成的图像特征提取网络中，该网络包含四个卷积层和三个全连接层，卷积核数分别为512，256，128，64，卷积核大小为5x5，全连接层的输出维度为1024，128，最后一个全连接层输出64维的图像特征i，将图像映射到潜在空间，即：

在上式中，i为图像特征，i的维度为θ_i是图像特征提取网络F_i(I；θ_i)中的参数集合。

B.将融合特征f投射到图像潜在空间来进行跨模态关联学习；此时，融合网络和鉴别器作为一组生成对抗网络。具体地，采用鉴别器D_A来分辨融合特征f和图像特征i,而(2-1)中的融合网络的目标是在潜在空间中产生无法与i区别的f，使得融合特征在潜在空间中不断逼近图像特征。鉴别器D_A主要为四层全连接层网络，维度分别为512，1024，512，1，最后输出一个(0，1)范围内的数表示输入特征为真实特征的概率。鉴别器D_A最小化如下的损失函数：

其中，为鉴别器D_A的鉴别损失函数，/>为鉴别器D_B的鉴别损失函数，/>为鉴别器D_A的网络参数集合，/>和/>分别是图像特征分布函数P_data(i)和融合特征分布函数P_data(f)的期望。/>和/>分别为鉴别器D_A对图像特征和融合特征为真的概率。而这里融合网络F_f最小化以下损失函数:

其中，为融合网络的生成损失函数。

C.综合步骤(2-1)的语义损失函数L_dis，融合网络F_f最终需要最小化的损失函数为：

其中，L_fus为最终的融合网络损失函数，λ为正则化参数。

(2-3)跨模态图像生成模块。

A.采用另一组生成对抗网络实现跨模态图像生成；具体地，将融合特征f输入图像生成器G_B，得到生成图像即/>并利用图像鉴别器D_B从生成图像/>和图像数据I中区分真假。所述跨模态图像生成过程主要最小化以下两组损失函数：,

其中，为生成器G_B的生成损失函数，I表示数据集中的图像数据，/>表示生成图像，/>为图像生成器/>的网络参数集合，/>为图像鉴别器D_B的网络参数集合。/>和/>分别是图像数据分布函数P_data(i)和生成图像分布函数P_data(f)的期望。/>和分别为鉴别器D_B对图像数据和生成图像为真的概率；最终，最小化/>以增强鉴别器的判别能力，最小化/>使生成器生成更能迷惑鉴别器的图像，实现高质量的跨模态图像生成。

在这个模块中，图像生成器G_B具有和图像特征提取网络F_i对称的网络结构，包含2个全连接层和4个反卷积层，全连接层的维度分别为128，1024，反卷积的数量为64，128，256，512，输出为128x128的生成图像图像鉴别器D_B包含四个卷积层和2个全连接层，卷积层输出维度为512，256，128，64，卷积核大小为5x5，全连接层的维度为1024，1，最后输出一个(0，1)范围内的数表示输入特征为真实特征的概率。

B.跨模态生成图像后，为了进一步对上述步骤a中的生成图像进行像素级别的约束，采用重构损失函数来更好地拟合图像数据分布，定义图像重构损失函数L_rec为：

C.为了增加生成图像的细粒度，将图像特征提取设置为知识蒸馏模型，生成器G_B采用对称的结构，如图2所示。将知识蒸馏模型包含像素级内容的各层输出特征和生成器G_B对应的分层特征进行相似性约束，减小差异，帮助G_B更好地捕获真实图像数据的内容信息。定义分层损失函数L_H为：

其中，L和θ_l表示生成器的层数和第l层的网络参数，θ_L-l表示图像特征提取网络/>的第L-l层的参数，生成器的网络结构和图像特征提取网络对称，具有相同的网络层和输出维度。对生成器和图像特征提取网络每一层的输出施加L1范数‖·‖₁进行距离约束，通过最小化L_H，实现真实图像分布、语义和结构信息的进一步迁移。因为L_rec和L_H都是针对生成器G_B的约束，因此将它们作为G_B正则化约束，进一步改写G_B的损失函数为L_G：

其中，β和γ为正则化参数。

步骤3：利用训练集对AHFIG模型进行训练，得到最优的AHFIG模型结构及参数。

(3-1)根据生成图像将步骤1中选取的数据集和(2-1)中的类别标签信息组合为标准化的输入训练数据集D_tr：

D_tr＝{(I_m,A_m,H_m,y_m),m＝1,2,…,N},

其中，y_m为第m组参与训练的图像数据I_m、音频数据A_m和触觉信号H_m所属的类别标签，N为训练数据总容量。

(3-2)初始化AHFIG模型的网络参数集合，这个集合包括θ_a,θ_h,θ_i,θ_f,将这些参数初始化为标准正态分布；

(3-3)设置总迭代次数为R＝500，使用r记录具体迭代次数。

(3-4)采用随机梯度下降法，训练AHFIG模型。具体过程如下：

步骤①、设定参数λ＝10^-3，β＝0.1，γ＝10^-5。设置鉴别器学习率μ₁＝0.0005，生成器学习率μ₂＝0.0001。

步骤②、计算AHFIG模型中各个网络的输出：

h＝F_h(H；θ_h)；a＝F_a(A；θ_a)；i＝F_i(I；θ_i),

步骤③、开始迭代。基于梯度下降法和Adam优化器，从目标的负梯度方向对各个网络参数进行更新：

其中，L_fus(*)为L_fus，为/>为/>为/> 和/>分别为第r+1和第r次迭代后的触觉特征提取网络，音频特征提取网络，图像特征提取网络，融合网络、鉴别器D_A，鉴别器和D_B生成器G_B的网络参数集合；/>为导数。D.如果r＜R，则跳转到步骤(3-4)中的步骤③，迭代次数加1(r＝r+1)，继续下一次迭代；否则，终止迭代。

(3-5)经过R轮迭代后，最终输出最优的AHFIG模型结构及参数。

步骤4：利用测试集中的触觉信号和音频数据，基于该最优AHFIG模型，生成对应的图像。

(4-1)步骤1中划分的测试集为：

D_te＝{(A′_j,H′_j),j＝1,2,…,P},

其中A′_j和H′_j为第j组成对的音频数据和触觉信号用于模型测试，P为测试数据总量。

(4-2)将D_te中的数据成对输入经过步骤3训练完成的音频、触觉信号融合的AHFIG模型，输出即为生成图像。

如图5所示，本发明基于一种音频—触觉信号融合的跨模态图像生成装置，包括：

1、使用存储器，用于存储至少一个程序。

2、使用处理器，用于加载至少一个程序以执行本实施例中所述的一种音频—触觉信号融合的跨模态图像生成方法。

性能评价：

本发明按照上述流程进行实验，选取LMT材料表面标准数据集作为实验数据集，该数据集由文献“Multimodal Feature-based Surface Material Classification”(作者是Matti Strese,Clemens Schuwerk,Albert Iepure,和Eckehard Steinbach，于2017年4月发表在IEEE TRANSACTIONS ON HAPTICS期刊上)。包含图像、声音和触觉加速度三种实例的材料信息，从每个类别中选取80％作为训练集，剩余20％作为测试集。

现有方法一：文献“Generative adversarial nets”(作者Ian J.Goodfellow,Jean Pouget-Abadie,Mehdi Mirza,Bing Xu等人)，提出了一个极小化极大化的博弈对抗过程估计生成模型的新框架，包括两个模型：一个用来捕获数据分布的生成模型G，和一个用来估计样本来自训练数据而不是G的概率的判别模型D，G的训练过程是最大化D产生错误的概率。

现有方法二：文献“Wasserstein generative adversarial networks”(作者：Martin Arjovsky，Soumith Chintala，Leon Bottou)提出了生成对抗网络的变体，通过引入Wasserstein距离作为约束条件来改善基础生成对抗网络模型的梯度消失的缺陷。

现有方法三：文献“StackGAN++:Realistic Image Synthesis with StackedGenerative Adversarial Networks”(作者Han Zhang,Tao Xu,Hongsheng Li,ShaotingZhang,，Xiaogang Wang)利用文本信息跨模态生成视觉图像，在两个生成阶段分别生成模糊的初始图像，并将初始图像输入下一阶段的生成模型进行细化

现有方法四：文献“Touching to See and Seeing to Feel Robotic Cross-modal Sensory Data Generation for Visual-Tactile Perception”(作者Jet-TsynLee,Danushka Bollegala and Shan Luo)，基于改进的条件生成对抗网络生成图像，基于触觉的纹理图片，通过生成模型得到对应的视觉图像。增加了一组相似性约束来度量触觉特征和图像特征的语义相似性。

基准方法一：移除听觉模态的信息，仅仅使用触觉模态的信息来验证多模态融合的有效性。

本发明：本实施例的方法。

实验采用图像生成领域常用的IS(Inception Score)和FID(Frechet Inception)两种评价指标来对本实验模型的生成质量进行评估，IS越小，FID越大，说明跨模态图像生成的质量越好。

表I本发明的评估结果展示

结合图4的生成结果和表I的评估结果观察可知。我们的方法具有最高的IS值和最小的FID分数。这表明我们提出的模型优于其他模型，对于相同的生成目标，我们的模型在语义上具有最高的准确度，保证了输入的触、听觉和真实图像具有相同的描述信息，同时间接验证我们的模型具有最高的生成质量和生成多样性。

图4中的(a)是现有方法一，现有方法一模型的生成效果最差。图4中的(b)是现有方法二，图4中的(c)是现有方法三，图4中的(d)是现有方法四，与现有方法二和现有方法三相比，现有方法四和基准方法一的结果略好，因为这两种方法都增加了对融合特征和真实图像特征之间的相关性学习。我们的方法在生成图像的质量和细粒度与原图像非常相似，体现了蒸馏法的重要作用。图4中的(e)是基准方法一，图4中的(f)是本实例方法；最后，通过观察基准实验和我们的方法的结果图，进一步证明了触、听觉融合对生成任务的准确性和鲁棒性上的具有重要意义。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围内。

Claims

1.一种基于音频—触觉信号融合的跨模态图像生成方法，其特征在于，包括以下步骤：

步骤4、利用测试集中的触觉信号和音频数据，基于最优的AHFIG模型，生成对应的图像；

步骤1具体如下：

步骤(1-3)、从数据集D中随机选取比例为α的数据作为训练集D_tr，剩余的1-α比例的数据作为测试集D_te，α的取值范围在0到1之间；

步骤2中，

(2-1)、深度语义融合模块是通过以下方法实现的：

利用类别标签信息Y＝{y},y∈{1,...,k,…,K}构造融合网络，该融合网络由全连接层和softmax层组成，通过下列公式在语义约束下融合触觉特征和音频特征：

f＝F_f(h,a；θ_f),

(2-2)、潜在空间学习模块是通过以下方法实现的：

其中，为鉴别器D_A的鉴别损失函数，/>为鉴别器D_A的网络参数集合，/>和/>分别是图像特征分布函数P_data(i)和融合特征分布函数P_data(f)的期望，/>和/>分别为鉴别器D_A鉴别图像特征和融合特征为真的概率；而这里融合网络F_f最小化以下损失函数:

其中，为融合网络的生成损失函数；

其中，L_fus为最终的融合网络损失函数，λ为正则化参数；

(2-3)、跨模态图像生成模块是通过以下方法实现的：

其中，β和γ为正则化参数。

2.根据权利要求1所述的一种基于音频—触觉信号融合的跨模态图像生成方法，其特征在于，步骤3包括：

D_tr＝{(I_m,A_m,H_m,y_m),m＝1,2,…,N}

步骤(3-2)、初始化AHFIG模型的网络参数集合，这个集合包括将这些参数初始化为标准正态分布；

步骤(3-3)、设置总迭代次数为R，使用r记录具体迭代次数；

步骤②、计算AHFIG模型中各个网络的输出：

h＝F_h(H；θ_h)；a＝F_a(A；θ_a)；i＝F_i(I；θ_i),

3.根据权利要求1所述的一种基于音频—触觉信号融合的跨模态图像生成方法，其特征在于，步骤4包括：

(4-1)、步骤1中划分的测试集D_te为：

D_te＝{(A′_j,H′_j),j＝1,2,…,P},

其中，A′_j和H′_j为第j组成对的音频数据和触觉信号，A′_j和H′_j用于模型测试，P为测试数据总量；

4.一种基于音频—触觉信号融合的跨模态图像生成装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征是，所述计算机程序被加载至处理器时实现权利要求1-3任一项所述的一种基于音频—触觉信号融合的跨模态图像生成方法。