CN114595739B

CN114595739B - 图像-触觉信号相互重建方法及装置

Info

Publication number: CN114595739B
Application number: CN202210031393.7A
Authority: CN
Inventors: 魏昕; 史贤玥; 王浩宇; 周亮
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2024-07-02
Anticipated expiration: 2042-01-12
Also published as: CN114595739A

Abstract

本申请涉及一种图像‑触觉信号相互重建方法和装置。该方法包括：通过接收到待重建信号，待重建信号为视觉信号或图像信号；将待重建信号输入到训练好的深度重建网络模型中进行数据重建，获得重建后的信号；训练深度重建网络模型的步骤包括：搭建基于自编码器构成的深度重建网络模型，将数据集划分为训练集和测试集对深度重建网络模型进行第一阶段和第二阶段的训练；第一阶段和第二阶段的训练交替重复进行，直至深度重建网络模型的训练结果收敛，获得初步深度重建网络模型；将测试集中图像‑触觉信号输入初步深度重建网络模型进行测试，获得训练好的深度重建网络模型。提升了跨模态重建方法接收端信号恢复的泛化能力和恢复质量。

Description

图像-触觉信号相互重建方法及装置

技术领域

本申请涉及跨模态重建技术领域，特别是涉及一种图像-触觉信号相互重建方法及装置。

背景技术

现代通信过程中，音、视觉协作提供了较好的用户体验感，为进一步实现沉浸式通信体验，考虑将触觉这一重要感知源与传统图像信号集成为新型跨模态通信服务。但值得注意的是，触觉信号与传统图像信号的处理和传输存在显著差异，处理丢包或损坏问题具有挑战性。如果我们可以利用跨模态先验知识，从未丢失模态中恢复丢失模态，则可以为跨模态通信带来极大收益，为准确可靠的沉浸式通信体验奠定基础。

跨模态重建是一个长期研究的领域，从最开始的文字图像标注问题到音视频场景描述，人们通过各种方式将不同感知模态联系在一起。与常见单模态内图像的恢复不同，跨模态信息重建是完全不同类型的数据间的交互，这一过程要求同时掌握原模态和被重建模态的数据特性，而不同模态数据在表现形式、数据结构、分布特征上存在显著差异，这增加了重建的难度。

近年来，一些文章陆续提出各种跨模态重建方法，涉及到不同模态种类。WangliHao等将音频处理成LMS图，设计了基于CycleGAN的跨模态视音频翻译模型。Dan Li等则提出了一种半监督跨模态图像生成方法，由非图像模态(如脑电波信号)生成图像模态。在触觉领域，Shan Luo将触觉传感器检测的织物表面纹理数据处理成感知点图，Huaping Liu等则使用表面加速度信号来表征触觉特性。

尽管上述方法取得了显着进展，但仍然存在一些局限性。首先，在转换过程中，他们大多直接将一一配对的原模态和目标模态作为模型输入输出，忽略了模态间的高级语义相关；其次，这些生成模型都依赖于大规模数据集的支撑，触觉数据作为一种新的数据模式，缺乏可供使用的大型数据库，而跨模态重建任务依赖的视/触觉数据对形式则更为稀缺，因此，目前的跨模态重建方法接收端信号恢复的泛化能力和恢复质量较差。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高跨模态重建方法接收端信号恢复的泛化能力和恢复质量的图像-触觉信号相互重建方法及装置。

一种图像-触觉信号相互重建方法，所述方法包括：

接收到待重建信号，所述待重建信号为视觉信号或图像信号；

将所述待重建信号输入到所述训练好的深度重建网络模型中进行数据重建，获得重建后的信号，其中，所述待重建信号为视觉信号时，重建后的信号为图像信号，所述待重建信号为图像信号时，重建后的信号为视觉信号；

其中，训练深度重建网络模型的步骤包括：

将数据集划分为训练集和测试集，其中，训练集包含外部数据集和内部数据集，外部数据集由图像数据和触觉数据构成；内部数据集由多对一一配对的图像-触觉信号构成，测试集也是由一一配对的图像-触觉信号构成；

搭建基于自编码器的深度重建网络模型；所述深度重建网络模型主要由四个自编码器网络：A₁,A₂,A₃,A₄构成，其中，A₁由编码器EN₁和解码器DE₁组成；A₂由编码器EN₂和解码器DE₂组成；A₃由编码器EN₃和解码器DE₃组成；A₄由编码器EN₄和解码器DE₄组成；其中，编码器EN₁,EN₂,EN₃,EN₄由四层卷积层和两个全连接层构成，解码器DE₁,DE₂,DE₃,DE₄由两个全连接层和四层反卷积层构成；

将所述训练集输入所述深度重建网络模型，对所述深度重建网络模型进行第一阶段的训练，输出成对、一致的图像-触觉特征编码，其中，所述训练集的内部数据集中的图像信号输入所述深度重建网络模型中A₂的编码器EN₂；所述训练集的内部数据集中的触觉信号输入所述深度重建模型中A₃的编码器EN₃；

将所述训练集的内部数据集输入到所述深度重建网络模型，进行第二阶段的训练，实现跨模态重建；

深度重建网络模型的第一阶段的训练和第二阶段的训练交替重复进行，直至深度重建网络模型的训练结果收敛，获得初步深度重建网络模型；

将所述测试集中图像-触觉信号输入所述初步深度重建网络模型进行测试，获得训练好的深度重建网络模型；其中，将测试集中的图像信号输入所述初步深度重建网络模型中的A₂路径，输出重建的触觉信号；将测试集中的触觉信号输入所述初步深度重建网络模型中的A₃路径，输出重建的图像。

在其中一个实施例中，所述将所述训练集输入所述深度重建网络模型，对所述深度重建网络模型进行第一阶段的训练，输出成对、一致的图像-触觉特征编码的步骤，包括：

将所述训练集的外部数据集中的图像数据V^s、所述训练集的内部数据集中的图像信号V^t、所述训练集的外部数据集中的触觉数据H^s、所述训练集的内部数据集中的触觉信号H^t分别输入深度重建网络模型中的四个自编码器A₁,A₂,A₃,A₄，对四个自编码器A₁,A₂,A₃,A₄的重构损失进行惩罚，使编码器NN₂与编码器EN₃之间的数据V^t-H^t映射到公共语义空间，编码器EN₁和编码器EN₄提取出外部图像数据特征和外部触觉数据的特征

对编码器EN₁和编码器EN₂之间以及编码器EN₃和编码器EN₄之间施加迁移损失，其中，编码器EN₁对外部图像进行编码；编码器EN₂对内部图像进行编码；编码器EN₃对内部触觉进行编码；编码器EN₄对外部触觉进行编码；

利用基于中心的特征约束损失让编码器EN₂和编码器EN₃学习到的语义特征具有类内紧凑性，其中，中心特征是取每个类别中所有特征向量的平均值，得到的类中心作为标准，衡量偏移程度，中心特征的取值，在后面每一轮次的模型训练后进行更新；

采用跨领域对齐方法学习跨模态域不变特征，使让内部图像领域的数据分布特性和内部触觉领域的数据分布特性相近，其中，所述领域为内部数据集中的图像信号领域和内部数据集中的触觉信号领域，

跨模态语义一致性约束，语义一致性约束的作用是让成对输入编码器EN₂和EN₃的内部数据集的图像-触觉信号对，输出两两相近的特征向量。

在其中一个实施例中，所述自编码器A₁,A₂,A₃,A₄的重构损失和为：

其中，表示重构损失和，为A₁的重构损失，表示外部数据集中图像数据的第i个输入样本，是重建的外部图像，m^(v)是外部数据集中图像数据的样本数目；为A₂的重构损失，表示内部数据集中图像信号的第p个输入样本，是重建的内部图像，n是内部数据集中的图像-触觉信号对的数目；为A₃的重构损失，表示外部数据集中触觉数据的第j个输入样本，是重建的外部触觉，m^(h)是外部数据集中触觉数据的样本数目；为A₄的重构损失，表示内部数据集中触觉信号的第q个输入样本，是重建的内部触觉。

在其中一个实施例中，所述对编码器EN₁和编码器EN₂之间以及编码器EN₃和编码器EN₄之间施加迁移损失的步骤，包括：

将编码器EN₁的卷积层conv₁～conv₄与编码器EN₂的卷积层conv₁～conv₄共享参数，将编码器EN₃的卷积层conv₁～conv₄与编码器EN₄的卷积层conv₁～6onv₄共享参数；

对四个编码器的全连接层的输出施加最大平均差异的损失，最大程度地减少外部数据集和内部数据集的差异，因此，自编码器A₁到自编码器A₂的迁移损失为：

其中，表示自编码器A₁到自编码器A₂的迁移损失，用表示外部图像数据分布s与内部图像信号分布t之间的MMD，表示被赋予特征核k的再生核希尔伯特空间，μ_k(s)、μ_k(t)是外部图像数据分布s和内部图像信号分布t在中的平均嵌入，φ(·)是映射，用于把原变量v^s、v^t映射到再生核希尔伯特空间中，l₅和l₆是网络中用来迁移的全连接层，v^s、v^t分别是外部图像数据和内部图像信号在编码器EN₁，EN₂的全连接层l₅和l₆的输出，<·,·>表示内积，E_s表示编码器EN₂的输出特征，E_t表示编码器EN₃的输出特征；

自编码器A₄到自编码器A₃的迁移损失为：

其中，表示自编码器A₄到自编码器A₃的迁移损失，用表示外部触觉数据分布s与内部触觉信号分布t之间的MMD，h^s、h^t分别是外部触觉数据和内部触觉信号在编码器EN₃，EN₄的全连接层l₅和l₆的输出；

所述深度重建网络模型的迁移损失为：

在其中一个实施例中，所述利用基于中心的特征约束损失让编码器EN₂和编码器EN₃学习到的语义特征具有类内紧凑性的步骤，包括：

基于中心的特征约束在编码器EN₂和编码器EN₃上分别实施，具体是分别约束EN₂和EN₃的两个全连接层的输出特征，编码器EN₂的基于中心的特征约束损失为：

其中，表示每个样本到其类别中心的距离，表示不同类中心的距离，表示为对齐层输出特征，d为对齐层输出数据维度，是第w_p个类中心特征，w_p∈{1,2,…,c}，c是类别数，m₁、m₂分别是约束阈值，c_i和c_j表示不同类中心特征向量，用来衡量类间可分离性，δ是用来均衡每个样本到其类别中心的距离和不同类中心的距离的参数，n表示图像-触觉信号对中样本对的个数；

同理，EN₃的基于中心的特征约束损失如下：

其中，h_p表示第p个触觉特征向量；

深度重建网络模型的基于中心的特征约束损失为：

其中，l₅和l₆是网络中用来迁移的全连接层。

在其中一个实施例中，所述采用跨领域对齐方法学习跨模态域不变特征，使让内部图像领域的数据分布特性和内部触觉领域的数据分布特性相近的步骤，包括：

学习跨模态域不变特征在内部图像编码器EN₂和内部触觉编码器EN₃上联合实施，具体是计算编码器EN₂和编码器EN₃的全连接层之间输出的CORAL距离；CORAL测量的域差异损失定义为源特征和目标特征的二阶统计量之间的距离L_CORkL：

其中，是平方矩阵Frobenius范数，d为对齐层输出数据维度，l₅和l₆是网络中用来迁移的全连接层，C_V和C_H是对齐层输出的图像和触觉特征表示的协方差矩阵，分别为：

其中，b为训练批次的大小，H_V，分别是A₂和A₃网络中全连接层的输出，是一个全一列向量，T表示转置运算。

在其中一个实施例中，所述跨模态语义一致性约束的步骤，包括：

在内部图像编码器EN₂和内部触觉编码器EN₃上联合实施约束，计算每一对图像-触觉信号在两个领域的全连接层输出的欧式距离求和：

其中，L_con表示语义一致性损失，n是图像-触觉信号对中样本对的个数，表示l₅或l₆层的输出，和指代每一对图像-触觉信号。

在其中一个实施例中，所述将所述训练集的内部数据集输入到所述深度重建网络模型，进行第二阶段的训练，实现跨模态重建的步骤，包括：

将内部数据集中的图像信号V^t输入图像编码器EN₂，输出特征F_V，将特征F_V输入触觉解码器DE₃，得到重建的触觉信号R_H，然后将重建的触觉信号R_H输入触觉编码器DE₃，得到输出特征F_H，计算特征F_V和特征F_H的余弦距离L_V-H来约束循环一致性：

其中，F_Hi表示第i个触觉特征，n表示图像-触觉信号对中样本对的个数，F_Vi表示第i个图像特征，L_V-H表示特征F_V和特征F_H的余弦距离；

将内部数据集中的触觉信号H^t输入触觉编码器EN₃，输出特征F_H，将特征F_H输入图像解码器DE₂，得到重建的图像信号R_V，然后将重建的图像信号R_V输入图像编码器DE₂，得到输出特征F_V，计算特征F_H和特征F_V的余弦距离L_H-V来约束循环一致性：

循环生成过程中，只更新图像解码器DE₂和触觉解码器DE₃的参数，网络中其他模型的参数都是固定的。

一种图像-触觉信号相互重建装置，所述装置包括：

信号接收模块，用于接收到待重建信号，所述待重建信号为视觉信号或图像信号；

信号重建模块，用于将所述待重建信号输入到所述训练好的深度重建网络模型中进行数据重建，获得重建后的信号，其中，所述待重建信号为视觉信号时，重建后的信号为图像信号，所述待重建信号为图像信号时，重建后的信号为视觉信号；

训练深度重建网络模型模块，用于将数据集划分为训练集和测试集，其中，训练集包含外部数据集和内部数据集，外部数据集由图像数据和触觉数据构成；内部数据集由多对一一配对的图像-触觉信号构成，测试集也是由一一配对的图像-触觉信号构成；搭建基于自编码器的深度重建网络模型；所述深度重建网络模型主要由四个自编码器网络：A₁,A₂,A₃,A₄构成，其中，A₁由编码器EN₁和解码器DE₁组成；A₂由编码器EN₂和解码器DE₂组成；A₃由编码器EN₃和解码器DE₃组成；A₄由编码器EN₄和解码器DE₄组成；其中，编码器EN₁,EN₂,EN₃,EN₄由四层卷积层和两个全连接层构成，解码器DE₁,DE₂,DE₃,DE₄由两个全连接层和四层反卷积层构成；将所述训练集输入所述深度重建网络模型，对所述深度重建网络模型进行第一阶段的训练，输出成对、一致的图像-触觉特征编码，其中，所述训练集的内部数据集中的图像信号输入所述深度重建网络模型中A₂的编码器EN₂；所述训练集的内部数据集中的触觉信号输入所述深度重建模型中A₃的编码器EN₃；将所述训练集的内部数据集输入到所述深度重建网络模型，进行第二阶段的训练，实现跨模态重建；深度重建网络模型的第一阶段的训练和第二阶段的训练交替重复进行，直至深度重建网络模型的训练结果收敛，获得初步深度重建网络模型；将所述测试集中图像-触觉信号输入所述初步深度重建网络模型进行测试，获得训练好的深度重建网络模型；其中，将测试集中的图像信号输入所述初步深度重建网络模型中的A₂路径，输出重建的触觉信号；将测试集中的触觉信号输入所述初步深度重建网络模型中的A₃路径，输出重建的图像。

上述图像-触觉信号相互重建方法和装置，通过接收到待重建信号，所述待重建信号为视觉信号或图像信号；将所述待重建信号输入到所述训练好的深度重建网络模型中进行数据重建，获得重建后的信号，其中，所述待重建信号为视觉信号时，重建后的信号为图像信号，所述待重建信号为图像信号时，重建后的信号为视觉信号；训练深度重建网络模型的步骤包括：搭建基于自编码器A₁,A₂,A₃,A₄构成的深度重建网络模型，其中，A₁由编码器EN₁和解码器DE₁组成；A₂由编码器EN₂和解码器DE₂组成；A₃由编码器EN₃和解码器DE₃组成；A₄由编码器EN₄和解码器DE₄组成，编码器EN₁,EN₂,EN₃,EN₄由四层卷积层和两个全连接层构成，解码器DE₁,DE₂,DE₃,DE₄由两个全连接层和四层反卷积层构成；将数据集划分为包含外部数据集和内部数据集的训练集，和多对一一配对的图像-触觉信号构的测试集对深度重建网络模型进行训练；将所述训练集输入所述深度重建网络模型，对所述深度重建网络模型进行第一阶段的训练，将所述训练集的内部数据集输入到所述深度重建网络模型，进行第二阶段的训练，实现跨模态重建；深度重建网络模型的第一阶段的训练和第二阶段的训练交替重复进行，直至深度重建网络模型的训练结果收敛，获得初步深度重建网络模型；将所述测试集中图像-触觉信号输入所述初步深度重建网络模型进行测试，获得训练好的深度重建网络模型。在语义层面上关联不同模态，以在一个模型中同时实现图像-触觉信息互相重建；引入迁移学习的思想，将外界的图像中的知识传递到跨模态重建网络中，显著提高网络的泛化能力，从而提升了跨模态重建方法接收端信号恢复的泛化能力和恢复质量。

附图说明

图1为一个实施例中图像-触觉信号相互重建方法的流程示意图；

图2为一个实施例中训练深度重建网络模型的流程示意图；

图3为一个实施例中基于自编码器的深度重建网络模型的结构示意图；

图4为一个实施例中深度重建网络模型第二阶段的训练流程示意图；

图5为验证过程中的重建图像结果对比图；

图6为验证过程中的重建触觉频谱结果对比图；

图7为一个实施例中图像-触觉信号相互重建装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的图像-触觉信号相互重建方法，可以应用于跨模态远程通信场景中，如该跨模态远程通信场景可以是由机械臂和高清摄像头构成。在传输过程的接收端根据接收到的视觉信号恢复出对应的触觉信号，也可以根据触觉信号恢复对应的视觉信号。接收端可以是终端也可以是服务器其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图1所示，提供了一种图像-触觉信号相互重建方法，以该方法应用于终端为例进行说明，包括以下步骤：

步骤S220，接收到待重建信号，待重建信号为视觉信号或图像信号。

其中，待重建信号接收端接收到的视觉信号或触觉信号。

步骤S240，将待重建信号输入到训练好的深度重建网络模型中进行数据重建，获得重建后的信号，其中，待重建信号为视觉信号时，重建后的信号为图像信号，待重建信号为图像信号时，重建后的信号为视觉信号。

其中，训练好的深度重建网络模型以实现跨模态图像-触觉互生，该训练好的深度重建网络模型由四组自编码器网络组成。知识从外界不成对数据集传递到小规模图像-触觉数据对。知识迁移的过程不仅改善模型的泛化能力，同时也完成跨模态关联的任务。在编解码器提供的公共空间中实现图像-触觉语义相关，最终对训练好的解码器进行微调，实现跨模态图像-触觉互生。

在一个实施例中，如图2所示，训练深度重建网络模型的步骤包括：

步骤1，将数据集划分为训练集和测试集，其中，训练集包含外部数据集和内部数据集，外部数据集由图像数据和触觉数据构成；内部数据集由多对一一配对的图像-触觉信号构成，测试集也是由一一配对的图像-触觉信号构成。

其中，数据集中使用的数据包含触觉和视觉两种模态类型。媒体类型r＝v，h(v表示视觉，h表示触觉)。任何模态的数据有且只有一个语义类别，且两个模态的语义类别一一对应。将外部数据集表示为D^s＝{V^s,H^s}，其中V^s为外部图像，H^s为外部触觉。其中表示外部图像域的第i个样本，m^(v)是样本的数量。其中表示外部触觉域的第j个样本，m^(h)是样本的数量。

将内部数据集的成对图像-触觉领域表示为D^t＝{V^t,H^t}，其中V^t为内部图像，H^t为内部触觉。其中表示内部图像域的第k个样本，n是样本的数量。其中表示内部触觉域的第l个样本，n是样本的数量。

每个域的实例通过编码网络编码到共享的潜在空间中，空间表示为 F_V,F_H分别是外部图像、内部图像、内部触觉、外部触觉的中间特征。其结构均为d×1，d表示特征向量的维度。最后，解码器的重构输出表示为输出和输入样本对应。对于原始图像，将其放缩成128*128。对于原始触觉加速度序列，使用32汉明窗口512点短时傅立叶变换(STFT)计算频谱图，最后将频谱图处理为与图像相同的128*128尺寸。数据输入到编码器的卷积神经网络中，并从一个池化层(max pooling)输入大小为4096的全连接层，最后通过Softmax层得到长度为1024的特征向量。

步骤2，搭建基于自编码器的深度重建网络模型；深度重建网络模型主要由四个自编码器网络：A₁,A₂,A₃,A₄构成，其中，A₁由编码器EN₁和解码器DE₁组成；A₂由编码器EN₂和解码器DE₂组成；A₃由编码器EN₃和解码器DE₃组成；A₄由编码器EN₄和解码器DE₄组成；其中，编码器EN₁,EN₂,EN₃,EN₄由四层卷积层和两个全连接层构成，解码器DE₁,DE₂,DE₃,DE₄由两个全连接层和四层反卷积层构成。

其中，基于自编码器的深度重建网络模型的结构如图3所示，搭建的基于自编码器的深度重建网络模型用于实现图像和触觉互相重建。各自编码器网络中的编码器和解码器的每一层网络的参数和配置如表1和表2所示。

表1编码器每一层网络的参数和配置表

表2解码器每一层网络的参数和配置表

步骤3，将训练集输入深度重建网络模型，对深度重建网络模型进行第一阶段的训练，输出成对、一致的图像-触觉特征编码，其中，训练集的内部数据集中的图像信号输入深度重建网络模型中A₂的编码器EN₂；训练集的内部数据集中的触觉信号输入深度重建模型中A₃的编码器EN₃。

步骤4，将训练集的内部数据集输入到深度重建网络模型，进行第二阶段的训练，实现跨模态重建。

其中，经过上述训练后，在公共语义空间实现跨模态语义一致性，并且内部图像的解码器DE₂和内部触觉的解码器DE₃是训练好的有重建能力的网络。将经过跨模态恢复出的数据重新输入相应的解码器，得到新的中间特征，约束原始中间特征和新中间特征，可以达到循环一致性训练的效果。

步骤5，深度重建网络模型的第一阶段的训练和第二阶段的训练交替重复进行，直至深度重建网络模型的训练结果收敛，获得初步深度重建网络模型。

其中，对深度重建网络模型第一阶段的训练和第二阶段的训练交替进行。都使用随机梯度下降方法优化损失函数。第一阶段的四个自编码器A₁,A₂,A₃,A₄的每层参数θ_V,θ_H,都实时更新；第二阶段只更新图像解码器DE₂和触觉解码器DE₃的全连接层fc7的参数θ_V,θ_H。

具体地，第一阶段深度重建网络模型的损失函数表示为：

其中，α、β和γ分别是控制重建损失、迁移损失、语义一致性的平衡因素，调整它们以控制每个部分的重要性。这些损失可以确保网络可以生成近似真实的图像，并且在类内具有良好的泛化能力。通过优化此目标函数，可以在公共语义空间实现跨模态语义一致性。

第二阶段深度重建网络模型的损失为：

L₂(θ_V,θ_H)＝λ_V(θ_V)+λ_HL_cross-H(θ_H)

由于只对解码器网络进行微调，这里的θ_V,θ_H只表示图像解码器和触觉解码器某一层的参数。

基于随机梯度下降算法，根据目标函数的负梯度方向迭代更新深度重建网络模型的参数。首先根据损失函数来更新参数θ_V，θ_H,其次根据损失函数L₂(θ_V,θ_H)来更新参数θ_V,θ_H。

上述两个阶段的参数更新交替进行，我们将α设置为1,β设置为10,γ设置为0.25，模型可以达到最佳效果。训练过程中，我们使用的批次大小为16，学习率初始为0.001，之后每100次训练后呈指数下降。

步骤6，将测试集中图像-触觉信号输入初步深度重建网络模型进行测试，获得训练好的深度重建网络模型；其中，将测试集中的图像信号输入初步深度重建网络模型中的A₂路径，输出重建的触觉信号；将测试集中的触觉信号输入初步深度重建网络模型中的A₃路径，输出重建的图像。

其中，将测试集中的图像信号输入图像编码器EN₂，得到图像特征，再将该图像特征输入触觉解码器DE₃，得到重建的触觉信号；将测试集中的触觉信号输入触觉编码器EN₃，得到触觉特征，再将该触觉特征输入图像解码器DE₂，得到重建的图像信号。

上述图像-触觉信号相互重建方法，通过接收到待重建信号，待重建信号为视觉信号或图像信号；将待重建信号输入到训练好的深度重建网络模型中进行数据重建，获得重建后的信号，其中，待重建信号为视觉信号时，重建后的信号为图像信号，待重建信号为图像信号时，重建后的信号为视觉信号；训练深度重建网络模型的步骤包括：搭建基于自编码器A₁,A₂,A₃,A₄构成的深度重建网络模型，其中，A₁由编码器EN₁和解码器DE₁组成；A₂由编码器EN₂和解码器DE₂组成；A₃由编码器EN₃和解码器DE₃组成；A₄由编码器EN₄和解码器DE₄组成，编码器EN₁,EN₂,EN₃,EN₄由四层卷积层和两个全连接层构成，解码器DE₁,DE₂,DE₃,DE₄由两个全连接层和四层反卷积层构成；将数据集划分为包含外部数据集和内部数据集的训练集，和多对一一配对的图像-触觉信号构的测试集对深度重建网络模型进行训练；将训练集输入深度重建网络模型，对深度重建网络模型进行第一阶段的训练，将训练集的内部数据集输入到深度重建网络模型，进行第二阶段的训练，实现跨模态重建；深度重建网络模型的第一阶段的训练和第二阶段的训练交替重复进行，直至深度重建网络模型的训练结果收敛，获得初步深度重建网络模型；将测试集中图像-触觉信号输入初步深度重建网络模型进行测试，获得训练好的深度重建网络模型。在语义层面上关联不同模态，以在一个模型中同时实现图像-触觉信息互相重建；引入迁移学习的思想，将外界的图像中的知识传递到跨模态重建网络中，显著提高网络的泛化能力，从而提升了跨模态重建方法接收端信号恢复的泛化能力和恢复质量。

在一个实施例中，将训练集输入深度重建网络模型，对深度重建网络模型进行第一阶段的训练，输出成对、一致的图像-触觉特征编码的步骤，包括：

(2-1)将训练集的外部数据集中的图像数据V^s、训练集的内部数据集中的图像信号V^t、训练集的外部数据集中的触觉数据H^s、训练集的内部数据集中的触觉信号H^t分别输入深度重建网络模型中的四个自编码器A₁,A₂,A₃,A₄，对四个自编码器A₁,A₂,A₃,A₄的重构损失进行惩罚，使编码器EN₂与编码器EN₃之间的数据V^t-H^t映射到公共语义空间，编码器EN₁和编码器EN₄提取出外部图像数据特征和外部触觉数据的特征

(2-2)对编码器EN₁和编码器EN₂之间以及编码器EN₃和编码器EN₄之间施加迁移损失，其中，编码器EN₁对外部图像进行编码；编码器EN₂对内部图像进行编码；编码器EN₃对内部触觉进行编码；编码器EN₄对外部触觉进行编码。

其中，通过对编码器EN₁和编码器EN₂之间以及编码器EN₃和编码器EN₄之间施加迁移损失，完成单模态内知识迁移。

(2-3)利用基于中心的特征约束损失让编码器EN₂和编码器EN₃学习到的语义特征具有类内紧凑性，其中，中心特征是取每个类别中所有特征向量的平均值，得到的类中心作为标准，衡量偏移程度，中心特征的取值，在后面每一轮次的模型训练后进行更新。

其中，利用基于中心的特征约束损失让编码器EN₂和编码器EN₃学习到的语义特征具有类内紧凑性，实现类别特征约束，使得具有相同类别的图像和触觉特征向量接近该语义的中心特征，而具有不同语义的图像和触觉特征向量则彼此远离。

(2-4)采用跨领域对齐方法学习跨模态域不变特征，使让内部图像领域的数据分布特性和内部触觉领域的数据分布特性相近，其中，领域为内部数据集中的图像信号领域和内部数据集中的触觉信号领域。

其中，用跨领域对齐方法学习跨模态域不变特征，实现跨模态域对齐。

(2-5)跨模态语义一致性约束，语义一致性约束的作用是让成对输入编码器EN₂和EN₃的内部数据集的图像-触觉信号对，输出两两相近的特征向量。

在一个实施例中，自编码器A₁,A₂,A₃,A₄的重构损失和为：

其中，表示重构损失和，为A₁的重构损失，表示外部数据集中图像数据的第i个输入样本，是重建的外部图像，m⁽⁰⁾是外部数据集中图像数据的样本数目；为A₂的重构损失，表示内部数据集中图像信号的第p个输入样本，是重建的内部图像，n是内部数据集中的图像-触觉信号对的数目；为A₃的重构损失，表示外部数据集中触觉数据的第j个输入样本，是重建的外部触觉，m⁽⁴⁾是外部数据集中触觉数据的样本数目；为A₄的重构损失，表示内部数据集中触觉信号的第q个输入样本，是重建的内部触觉。

在一个实施例中，对编码器EN₁和编码器EN₂之间以及编码器EN₃和编码器EN₄之间施加迁移损失的步骤，包括：

将编码器EN₁的卷积层conv₁～6onv₄与编码器EN₂的卷积层conv₁～conv₄共享参数，将编码器EN₃的卷积层conv₁～conv₄与编码器EN₄的卷积层conv₁～conv₄共享参数；

对四个编码器的全连接层的输出施加最大平均差异(MMD)的损失，最大程度地减少外部数据集和内部数据集的差异，因此，自编码器A₁到自编码器A₂的迁移损失为：

自编码器A₄到自编码器A₃的迁移损失为：

深度重建网络模型的迁移损失为：

其中，深度重建网络模型的迁移损失也可以理解为总的单模态迁移损失。

在一个实施例中，利用基于中心的特征约束损失让编码器EN₂和编码器EN₃学习到的语义特征具有类内紧凑性的步骤，包括：

其中，表示每个样本到其类别中心的距离，表示不同类中心的距离，表示为对齐层输出特征，d为对齐层输出数据维度，是第w_p个类中心特征，w_p∈{1,2,…,c}，6是类别数，m₁、m₂分别是约束阈值，c_i和c_j表示不同类中心特征向量，用来衡量类间可分离性，δ是用来均衡每个样本到其类别中心的距离和不同类中心的距离的参数，n表示图像-触觉信号对中样本对的个数；

同理，EN₃的基于中心的特征约束损失如下：

其中，h_p表示第p个触觉特征向量；

深度重建网络模型的基于中心的特征约束损失为：

其中，l₅和l₆是网络中用来迁移的全连接层。

在一个实施例中，采用跨领域对齐方法学习跨模态域不变特征，使让内部图像领域的数据分布特性和内部触觉领域的数据分布特性相近的步骤，包括：

学习跨模态域不变特征在内部图像编码器EN₂和内部触觉编码器EN₃上联合实施，具体是计算编码器NE₂和编码器NN₃的全连接层之间输出的CORAL距离；CORAL测量的域差异损失定义为源特征和目标特征的二阶统计量之间的距离L_CORAL：

在一个实施例中，跨模态语义一致性约束的步骤，包括：

在一个实施例中，如图4所示，将训练集的内部数据集输入到深度重建网络模型，进行第二阶段的训练，实现跨模态重建的步骤，包括：

上述图像-触觉信号相互重建方法，通过将四个领域(外部图像、内部图像、内部触觉、外部触觉)的数据分别输入四个自编码器，对编码器进行初步特征提取和解码器数据重构能力训练；并进行单模态数据间的迁移，也就是在每个模态内部进行知识的迁移，还利用自适应层来解决源域和目标域间的差异，让两个域编解码器中的卷积层共享参数，其他层用来适配；将图像和触觉数据映射到公共语义空间来进行跨模态语义关联学习；还对跨模态数据进行类中心约束和跨领域对齐约束，再施加成对语义约束，解决“异构鸿沟”；利用充分关联后的公共空间实现跨模态互生，将触觉解码器生成的图像和图形解码器生成的触觉频谱重新分别输入图像编码器和触觉编码器。并通过微调解码器参数，优化重构数据质量；使得训练好的深度重建网络模型将异模态数据在公共语义空间里对齐，并将外界不成对数据集的知识迁移到当前稀疏数据集中，有效提升了模型灵活度和数据重构能力，从而实现高质量的跨模态数据重构。

进一步地，利用特征区分性约束和跨模态域对齐减小不同模态的数据异构性，为跨模态语义一致性提供有效空间。

为验证本申请的图像-触觉信号相互重建方法的性能，选取现有的pix2pix、DiscoGAN、CMC-GAN这三种数据重建模型进行测试，将测试结果与本申请的图像-触觉信号相互重建方法中的训练好的深度重建网络模型进行比较，评判标准为输出数据的ACC(分类准确度)和SSIM(结构相似度)，最后计算每种方法输出结果的ACC和SSIM得分，进行综合比较，具体验证内容如下：

采用了LMT-108表面材料数据来评估本申请的图像-触觉信号相互重建方法中的深度重建网络模型在跨模态图像-触觉相互恢复中的性能，该数据集由文献“MultimodalFeature-based Surface Material Classification”(作者M.Strese,C.Schuwerk,A.Iepure,and E.Steinbach)提出。该数据集包含各种类型的表面纹理图像和材料表面滑动时的加速度信号，从108个类别中选择了九个类别的子集，每个子集都有20组图像-加速度信号样本。每个加速度信号为4s长，采样率为12kHz。我们使用32汉明窗口512点短时傅立叶变换(STFT)计算频谱图，最后将频谱图处理为与图像相同的128*128尺寸。

在对原始图像进行平移、旋转以及随机擦除，将每个种类的图像增加了80张。同时在CURET、ETHZ Synthesizability等大型材料纹理图像数据集中挑选与上述九个类别相似的纹理图像。通过自己采集和查找，获得了相似表面材料类别的外界触觉数据，每个类别200个实例。测试了以下三种方法作为对比：

现有方法一：文献“Image-to-Image Translation with ConditionalAdversarial Networks”(作者Isola,P.)巧妙的利用了GAN的框架来为图像翻译一类问题提供了通用框架。

现有方法二：文献“Learning to Discover Cross-Domain Relations withGenerative Adversarial Networks”(作者Taeksoo Kim，Moonsu Cha，Hyunsoo Kim,JungKwon Lee，Jiwon Kim)依靠DiscoGAN来学习地面图像和频谱图之间的转换。

现有方法三：文献“CMCGAN：A Uniform Framework for Cross-Modal Visual-Audio Mutual Generation”(作者Hao,W.,Z.Zhang,and H.Guan)在CycleGAN的基础上，引入附加高斯分布的潜在矢量，实现跨模态视音频翻译。

将原始图像和触觉频谱分别输入到pix2pix、DiscoGAN、CMC-GAN和本申请的图像-触觉信号相互重建方法中的训练好的深度重建网络模型进行数据重建，输出的重建图像结果对比图如图5所示，输出的重建触觉频谱结果如图6所示。

表3测试比较结果

SSIM(结构相似性)是一种衡量成对图像相似度的指标，因此常用在图像恢复和超分辨率重建结果评估中。这里将真实数据和重建数据配对来计算每种方法的SSIM得分，结果如表3所示。

针对输出数据的分类精度，使用AlexNet CNN进行分类并预训练网络以适合原始数据集，得到精度较高的标准分类器，再将上述不同对比方法重建出的图像分别输入标准分类器，得到如表3所示的分类精度比较。可以看出，本申请的方法展示了最优的分类准确度。当本申请的方法不添加迁移损失时，准确度有所下降，类似于pix2pix和CMC-GAN的结果，而由于使用了类别信息，DiscoGAN的结果略高于这两者。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种图像-触觉信号相互重建装置，包括：信号接收模块310、信号重建模块320和训练深度重建网络模型模块330。

信号接收模块310，用于接收到待重建信号，待重建信号为视觉信号或图像信号；

信号重建模块320，用于将待重建信号输入到训练好的深度重建网络模型中进行数据重建，获得重建后的信号，其中，待重建信号为视觉信号时，重建后的信号为图像信号，待重建信号为图像信号时，重建后的信号为视觉信号；

训练深度重建网络模型模块330，用于将数据集划分为训练集和测试集，其中，训练集包含外部数据集和内部数据集，外部数据集由图像数据和触觉数据构成；内部数据集由多对一一配对的图像-触觉信号构成，测试集也是由一一配对的图像-触觉信号构成；搭建基于自编码器的深度重建网络模型；深度重建网络模型主要由四个自编码器网络：A₁,A₂,A₃,A₄构成，其中，A₁由编码器EN₁和解码器DE₁组成；A₂由编码器EN₂和解码器DE₂组成；A₃由编码器EN₃和解码器DE₃组成；A₄由编码器EN₄和解码器DE₄组成；其中，编码器EN₁,EN₂,EN₃,EN₄由四层卷积层和两个全连接层构成，解码器DE₁,DE₂,DE₃,DE₄由两个全连接层和四层反卷积层构成；将训练集输入深度重建网络模型，对深度重建网络模型进行第一阶段的训练，输出成对、一致的图像-触觉特征编码，其中，训练集的内部数据集中的图像信号输入深度重建网络模型中A₂的编码器EN₂；训练集的内部数据集中的触觉信号输入深度重建模型中A₃的编码器EN₃；将训练集的内部数据集输入到深度重建网络模型，进行第二阶段的训练，实现跨模态重建；深度重建网络模型的第一阶段的训练和第二阶段的训练交替重复进行，直至深度重建网络模型的训练结果收敛，获得初步深度重建网络模型；将测试集中图像-触觉信号输入初步深度重建网络模型进行测试，获得训练好的深度重建网络模型；其中，将测试集中的图像信号输入初步深度重建网络模型中的A₂路径，输出重建的触觉信号；将测试集中的触觉信号输入初步深度重建网络模型中的A₃路径，输出重建的图像。

关于图像-触觉信号相互重建装置的具体限定可以参见上文中对于图像-触觉信号相互重建方法的限定，在此不再赘述。上述图像-触觉信号相互重建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述的图像-触觉信号相互重建方法的步骤。

在一个实施例中，提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述的图像-触觉信号相互重建方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种图像-触觉信号相互重建方法，其特征在于，所述方法包括：

其中，训练深度重建网络模型的步骤包括：

搭建基于自编码器的深度重建网络模型；所述深度重建网络模型主要由四个自编码器网络：A₁，A₂，A₃，A₄构成，其中，A₁由编码器EN₁和解码器DE₁组成；A₂由编码器EN₂和解码器DE₂组成；A₃由编码器EN₃和解码器DE₃组成；A₄由编码器EN₄和解码器DE₄组成；其中，编码器EN₁，EN₂，EN₃，EN₄由四层卷积层和两个全连接层构成，解码器DE₁，DE₂，DE₃，DE₄由两个全连接层和四层反卷积层构成；

2.根据权利要求1所述的方法，其特征在于，所述将所述训练集输入所述深度重建网络模型，对所述深度重建网络模型进行第一阶段的训练，输出成对、一致的图像-触觉特征编码的步骤，包括：

将所述训练集的外部数据集中的图像数据V^s、所述训练集的内部数据集中的图像信号V^t、所述训练集的外部数据集中的触觉数据H^s、所述训练集的内部数据集中的触觉信号H^t分别输入深度重建网络模型中的四个自编码器A₁，A₂，A₃，A₄，对四个自编码器A₁，A₂，A₃，A₄的重构损失进行惩罚，使编码器EN₂与编码器EN₃之间的数据V^t-H^t映射到公共语义空间，编码器EN₁和编码器EN₄提取出外部图像数据特征和外部触觉数据的特征

3.根据权利要求2所述的方法，其特征在于，所述自编码器A₁，A₂，A₃，A₄的重构损失和为：

4.根据权利要求1所述的方法，其特征在于，所述对编码器EN₁和编码器EN₂之间以及编码器EN₃和编码器EN₄之间施加迁移损失的步骤，包括：

将编码器EN₁的卷积层conv₁～conv₄与编码器EN₂的卷积层conv₁～conv₄共享参数，将编码器EN₃的卷积层conv₁～conv₄与编码器EN₄的卷积层conv₁～conv₄共享参数；

其中，表示自编码器A₁到自编码器A₂的迁移损失，用表示外部图像数据分布s与内部图像信号分布t之间的MMD，表示被赋予特征核k的再生核希尔伯特空间，μ_k(s)、μ_k(t)是外部图像数据分布s和内部图像信号分布t在中的平均嵌入，φ(·)是映射，用于把原变量v^s、v^t映射到再生核希尔伯特空间中，l₅和l₆是网络中用来迁移的全连接层，v^s、v^t分别是外部图像数据和内部图像信号在编码器EN₁，EN₂的全连接层l₅和l₆的输出，<·，·>表示内积，E_s表示编码器EN₂的输出特征，E_t表示编码器EN₃的输出特征；

自编码器A₄到自编码器A₃的迁移损失为：

所述深度重建网络模型的迁移损失为：

5.根据权利要求4所述的方法，其特征在于，所述利用基于中心的特征约束损失让编码器EN₂和编码器EN₃学习到的语义特征具有类内紧凑性的步骤，包括：

其中，表示每个样本到其类别中心的距离，表示不同类中心的距离，表示为对齐层输出特征，d为对齐层输出数据维度，是第w_p个类中心特征，w_p∈{1，2，...，c}，c是类别数，m₁、m₂分别是约束阈值，c_i和c_j表示不同类中心特征向量，用来衡量类间可分离性，δ是用来均衡每个样本到其类别中心的距离和不同类中心的距离的参数，n表示图像-触觉信号对中样本对的个数；

同理，EN₃的基于中心的特征约束损失如下：

其中，h_p表示第p个触觉特征向量；

深度重建网络模型的基于中心的特征约束损失为：

其中，l₅和l₆是网络中用来迁移的全连接层。

6.根据权利要求4所述的方法，其特征在于，所述采用跨领域对齐方法学习跨模态域不变特征，使让内部图像领域的数据分布特性和内部触觉领域的数据分布特性相近的步骤，包括：

学习跨模态域不变特征在内部图像编码器EN₂和内部触觉编码器EN₃上联合实施，具体是计算编码器EN₂和编码器EN₃的全连接层之间输出的CORAL距离；CORAL测量的域差异损失定义为源特征和目标特征的二阶统计量之间的距离L_CORAL：

其中，b为训练批次的大小，分别是A₂和A₃网络中全连接层的输出，是一个全一列向量，T表示转置运算。

7.根据权利要求4所述的方法，其特征在于，所述跨模态语义一致性约束的步骤，包括：

其中，L_con表示语义一致性损失，n是图像-触觉信号对中样本对的个数，表示l₅或l₆层的输出，和脂代每一对图像-触觉信号。

8.根据权利要求4所述的方法，其特征在于，所述将所述训练集的内部数据集输入到所述深度重建网络模型，进行第二阶段的训练，实现跨模态重建的步骤，包括：

9.一种图像-触觉信号相互重建装置，其特征在于，所述装置包括：

训练深度重建网络模型模块，用于将数据集划分为训练集和测试集，其中，训练集包含外部数据集和内部数据集，外部数据集由图像数据和触觉数据构成；内部数据集由多对一一配对的图像-触觉信号构成，测试集也是由一一配对的图像-触觉信号构成；搭建基于自编码器的深度重建网络模型；所述深度重建网络模型主要由四个自编码器网络：A₁，A₂，A₃，A₄构成，其中，A₁由编码器EN₁和解码器DE₁组成；A₂由编码器EN₂和解码器DE₂组成；A₃由编码器EN₃和解码器DE₃组成；A₄由编码器EN₄和解码器DE₄组成；其中，编码器EN₁，EN₂，EN₃，EN₄由四层卷积层和两个全连接层构成，解码器DE₁，DE₂，DE₃，DE₄由两个全连接层和四层反卷积层构成；将所述训练集输入所述深度重建网络模型，对所述深度重建网络模型进行第一阶段的训练，输出成对、一致的图像-触觉特征编码，其中，所述训练集的内部数据集中的图像信号输入所述深度重建网络模型中A₂的编码器EN₂；所述训练集的内部数据集中的触觉信号输入所述深度重建模型中A₃的编码器EN₃；将所述训练集的内部数据集输入到所述深度重建网络模型，进行第二阶段的训练，实现跨模态重建；深度重建网络模型的第一阶段的训练和第二阶段的训练交替重复进行，直至深度重建网络模型的训练结果收敛，获得初步深度重建网络模型；将所述测试集中图像-触觉信号输入所述初步深度重建网络模型进行测试，获得训练好的深度重建网络模型；其中，将测试集中的图像信号输入所述初步深度重建网络模型中的A₂路径，输出重建的触觉信号；将测试集中的触觉信号输入所述初步深度重建网络模型中的A₃路径，输出重建的图像。