CN113642604B

CN113642604B - 一种基于云边协同的音视频辅助触觉信号重建方法

Info

Publication number: CN113642604B
Application number: CN202110776711.8A
Authority: CN
Inventors: 魏昕; 石莹莹; 张思琪; 周亮
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2023-08-18
Anticipated expiration: 2041-07-09
Also published as: US20230290234A1; WO2023280064A1; CN113642604A; US11928957B2

Abstract

本发明公开了一种基于云边协同的音视频辅助触觉信号重建方法，首先利用中心云使用存储的大规模音视频数据库来学习知识，并将其转移到边缘节点；而后边缘节点将自身接收到的音视频信号与中心云的知识相结合，充分挖掘模态间内在语义的相关性和一致性；最后融合所得音频和视频信号的语义特征并输入触觉生成网络，从而实现触觉信号的重建。本发明很好地解决了多模态数据集的音频和视频信号的数量不足以及人工标注无法为训练数据集中的所有音视频信号添加语义标签的问题；还更好地挖掘了不同模态异构数据之间的语义关联，消除了模态间的异质性差距；多模态语义特征的融合实现了模态间信息的互补与增强，能够提升触觉信号的生成效果。

Description

一种基于云边协同的音视频辅助触觉信号重建方法

技术领域

本发明涉及触觉信号生成技术领域，特别是一种基于云边协同的音视频辅助触觉信号重建方法。

背景技术

随着传统多媒体应用相关技术的成熟，人们在视听需求得到极大满足的同时，开始追求更多维度、更高层次的感官体验。而触觉信息逐步融入到现有音视频多媒体业务中，形成多模态业务，可望带来更为极致丰富的互动感受。跨模态通信技术被提出用于支持跨模态服务，其虽然在保证多模态流质量方面具有一定的有效性，但在将跨模式通信应用于以触觉为主的多模式服务时，仍面临一些技术挑战。首先，触觉流对无线链路中的干扰和噪声非常敏感，导致触觉信号在接收端退化甚至丢失，尤其是在远程操作应用场景中，例如远程工业控制、远程手术等，这个问题严重且不可避免。其次，服务提供商没有触觉采集设备，但是用户需要触觉感知，尤其在虚拟互动应用场景中，如在线沉浸式购物、全息博物馆指南、虚拟互动电影等，用户对触觉感官的需求极高，这就要求能够在视频和音频信号的基础上生成“虚拟”触摸感觉或触觉信号。

目前，对于因无线通信不可靠性及通信噪声干扰而发生受损或部分缺失的触觉信号，可从两个方面进行自我恢复。第一类是基于传统的信号处理技术。它通过使用稀疏表示找到具有最相似结构的特定信号，然后使用它来估计受损信号的缺失部分。第二种是挖掘和利用信号本身的时空相关性，实现模态内的自修复和重建。然而，当触觉信号被严重破坏甚至不存在时，基于模态内的重建方案将会失败。

近年来，一些研究关注到了不同模态间的相关性，并借此实现了跨模态重建。Li等人在文献“Learning cross-modal visual-tactile representation using ensembledgenerative adversarial networks”提出利用图像特征得到所需类别信息，然后将其和噪声一起作为生成对抗网络的输入生成相应类别的触觉频谱图。该方法并挖掘到各模态间的语义相关，类别所得提供的信息有限，因此生成结果往往不够精确。Kuniyuki Takahashi等人在文献“Deep Visuo-Tactile Learning:Estimation of Tactile Properties fromImages”扩展了一个编码器-解码器网络，将视觉和触觉属性都嵌入到潜在空间，重点关注了潜在变量所表示的材料触觉属性的程度。进一步，Matthew Purr等人在文献“TeachingCameras to Feel:Estimating Tactile Physical Properties of Surfaces FromImages”中提出了一个带有对抗性学习和跨域联合分类的跨模态学习框架从单个图像中估计触觉物理特性。这类方法虽利用到了模态的语义信息，但并未生完整的触觉信号，对跨模态服务来说没有实际意义。

上述现有跨模态生成方法还存在以下缺陷：其模型的训练均依赖于大规模的训练数据来保证模型的效果，但目前多模态数据的共存往往存在数据量小、数据不完整和不平衡的问题，且它们还忽视了终端缓存、计算和运算能力受限的问题；此外，它们均只利用到单一模态的信息，但实际上单一模态优势不能带给我们足够多的信息量，不同模态共同描述同一语义时，可能会包含不等量的信息，模态间信息的互补与增强将有助于提升生成效果。

发明内容

本发明所要解决的技术问题是克服现有技术的不足而提供一种基于云边协同的音视频辅助触觉信号重建方法，借助于中心云上存储的大规模无标注音视频数据库的自监督学习来实现稀疏数据下的精确语义特征提取；充分发挥多模态特征融合的优势，最大程度地利用视频和音频模态的语义信息；并借此生成了完整的触觉信号，这更加符合跨模态服务的要求。

本发明为解决上述技术问题采用以下技术方案：

根据本发明提出的一种基于云边协同的音视频辅助触觉信号重建方法，包括以下步骤：

步骤(1)、在中心云存储的大规模音视频数据库上，执行自监督学习任务，自监督学习任务是指确定视频帧和音频剪辑是否来自同一视听源，从而得到预训练后的音频特征提取网络、视频特征提取网络；

步骤(2)、在边缘节点处设计一个音视频辅助触觉信号重建AVHR模型；重建AVHR模型具体如下：

边缘节点接收到音频信号和视频信号后，首先将中心云上预训练后的音频特征提取网络、视频特征提取网络作为边缘节点的音频属性提取网络和视频属性提取网络，提取到音频信号属性和视频信号属性后，进一步从音频信号属性和视频信号属性中提取音频信号和视频信号之间关联的音频信号特征和视频信号特征；

然后利用结合了多模态协同和多模态联合范式的融合网络，融合音频信号特征和视频信号特征，得到融合特征；

同时，利用触觉特征提取网络提取触觉信号特征；

根据音频信号特征、视频信号特征、触觉信号特征及融合特征，利用语义相关学习和语义判别学习策略训练音频特征提取网络、视频特征提取网络、触觉特征提取网络及融合网络，学习音频信号、视频信号、触觉信号及融合特征的共享语义，从而得到包含共享语义的融合特征；

最后，将包含共享语义的融合特征输入带有语义约束的触觉信号生成网络，实现目标触觉信号的重建；

步骤(3)、在中心云和边缘节点处分别利用梯度下降算法对AVHR模型进行训练，以得到最优的AVHR模型的结构及参数；

步骤(4)、将待测的成对的音频信号和视频信号输入最优的AVHR模型，最优的AVHR模型用于提取音频信号和视频信号的语义特征并融合，利用融合后的语义特征生成目标触觉信号。

作为本发明所述的一种基于云边协同的音视频辅助触觉信号重建方法进一步优化方案，步骤(1)包括以下步骤：

(1-1)、对于大规模音视频数据库其中M为成对的视频帧和音频剪辑的数量，/>s_j为第j对视频帧和音频剪辑，将第j个视频帧/>和第j个音频剪辑片段分别传递给视频特征提取网络和音频特征提取网络，分别提取对应的视频特征和音频特征；

(1-2)、连接视频及音频特征并输入到由多个全连接层组成的集成网络中，该集成网络输出集成后的特征，而后利用该集成后的特征执行自监督学习任务，自监督学习的目的是判断视频帧和音频剪辑是否来自同一视听源；具体地，定义如下自监督损失函数：

其中，L_Src为自监督损失函数，为第j对视频帧特征和音频剪辑特征集成后的特征，G_v(·)为视频特征提取网络的特征映射,/>是视频特征提取网络的参数，G_a(·)为音频特征提取网络的特征映射，/>是音频特征提取网络的参数；p(·)表示标签指示器，为1时表示该视频帧和音频剪辑来源于同一视听源，为0表示该视频帧和音频剪辑来源于不同的视听源；/>为集成网络输出的对应关系预测值；/>表示由多个全连接层组成的集成网络的参数；通过最小化L_Src得到预训练后的音频特征提取网络、视频特征提取网络。

作为本发明所述的一种基于云边协同的音视频辅助触觉信号重建方法进一步优化方案，步骤(2)包括以下步骤：

(2-1)、将中心云处训练好的音频特征提取网络、视频特征提取网络及音频特征提取网络的参数和视频特征提取网络的参数直接迁移到边缘节点，将该音频特征提取网络和视频特征提取网络用作边缘节点处的音频属性提取网络和视频属性提取网络；

(2-2)、将边缘节点所接收到的完整的音频信号、视频信号和触觉信号作为多模态训练数据集D，第i个实例d_i＝(v_i，a_i，h_i)，(v_i，a_i，h_i)为第i对多模态样本对，其中，v_i∈R^w是多模态训练数据集中的第i个视频信号，R^w为视频信号的样本空间，w为视频信号的样本维数；a_i∈R^u是多模态训练数据集中的第i个音频信号，R^u为音频信号的样本空间，u为音频信号的样本维数；h_i∈R^e是多模态训练数据集中的第i个触觉信号，R^e为触觉信号的样本空间，e为触觉信号的样本维数；每个d_i都有对应的one-hot标签y_i∈R^K，R^K为标签空间，其中K是多模态训练数据集的类别数；

(2-3)、边缘节点利用中心云迁移而来的视频特征提取网络和音频特征提取网络分别提取视频属性和音频属性/>其中，v为视频信号，a为音频信号；然后，将g^v和g^a进一步输入到多层特征网络中，得到视频信号特征f^v＝F_v(v；θ_v)和音频信号特征f^a＝F_a(a；θ_a)，f^v和f^a相关联，其中，F_v(·)为边缘节点处的视频特征提取网络，θ_v代表视频特征提取网络的参数，F_a(·)为边缘节点处的音频特征提取网络，θ_a代表音频特征提取网络的参数；

(2-4)边缘节点将自编码器模型的编码器作为触觉特征提取网络，并利用触觉特征提取网络从触觉信号中提取用于训练的目标的触觉信号特征f^h＝E_h(h；θ_he)，其中，h代表触觉信号，E_h(·)代表边缘节点处的编码器，θ_he代表编码器的参数；

(2-5)利用结合了多模态协同范式和多模态联合范式的融合网络，融合f^v和f^a，得到融合特征：

A、多模态协同：在触觉模态的约束下，最大限度地提高f^a、f^v和f^h之间的语义相似性；

B、多模态联合：在多模态协同范式的基础上，对f^a、f^v进行深度融合；具体过程如下：

f^m＝F_m(f^a，f^v；θ_m)，

其中，f^m是相关联的视频信号特征和音频信号特征的融合特征；F_m(·)是多模态联合网络的映射函数，F_m(·)取f^a和f^v的线性加权；θ_m为多模态联合网络的参数；

(2-6)对相关联的视频信号特征f^v和音频信号特征f^a、触觉信号特征f^h及融合特征f^m进行共享语义的学习，共享语义的学习包括语义相关学习和语义判别学习：

语义相关学习：选用对比损失对f^v、f^a、f^m和f^h进行相关性约束，缩小f^h和与其相匹配的f^v、f^a、f^m之间的距离，并使f^h和与其不匹配的f^v、f^a、f^m之间的距离大于阈值δ，定义如下语义相关损失函数：

其中，音频信号特征f^a和触觉信号特征f^h构成音触对，视觉信号特征f^v和触觉信号特征f^h构成视触对，是音触对和视触对的对比度损失函数，/>则是融合特征f^m和触觉信号特征f^h的对比度损失函数；/>为第p个视频信号特征，/>为第p个音频信号特征，/>为第p个融合特征，/>为第p个触觉信号特征，/>为第q个触觉信号特征；l₂(·)＝||·||₂表示12范数；

语义判别学习：选用具有softmax函数的全连接层作为公共分类器，并将公共分类器添加到视频特征提取网络、音频特征提取网络、触觉特征提取网络及融合网络之上，在监督信息的指导下确保跨模态语义的一致性与区分度，语义判别损失函数的定义如下：

其中，L_Dis为语义判别损失函数，p(·)为公共分类器，为第i个视频信号特征，/>为第i个音频信号特征，/>为第i个触觉信号特征，/>为第i个融合特征，θ_l为公共分类器的参数；

(2-7)自编码器模型包括编码器和解码器，通过将用于训练的触觉信号h与从编码器至解码器过程中获得的触觉信号进行比较来学习自编码器模型的结构，定义触觉信号的重建损失如下：

其中，L_Rec为重建损失函数，是第i个由自编码器模型重建的触觉信号，h_i是第i个真实的触觉信号；E_h(·)是编码器，编码器作为触觉特征提取网络用于触觉特征提取；D_h(·)是解码器，解码器作为触觉信号生成网络用于触觉信号生成；θ_h＝[θ_he，θ_hd]表示自编码器的参数集合，具体地，θ_he是编码器参数，θ_hd是解码器参数；α为超参数；

(2-8)利用自编码器模型的解码器D_h(·)从f^m生成目标触觉信号h′，实现目标触觉信号的重建，并将h′通过编码器E_h(·)重新映射到触觉信号特征f^h′，定义所得生成的触觉信号的损失函数如下：

其中，L_Gen为触觉信号的生成损失函数，是第i个由融合特征生成的触觉信号，/>为第i个融合特征；/>为第i个触觉信号特征，/>是编码器提取的h′_i的语义特征；/>表示/>和/>的相似性，/>是/>的分类损失，是预测的/>的标签，/>和/>共同构成了损失函数的正则项；β和γ为超参数。

作为本发明所述的一种基于云边协同的音视频辅助触觉信号重建方法进一步优化方案，步骤(3)包括以下步骤：

(3-1)在中心云的大规模音视频数据库上训练视频特征提取网络和音频特征提取网络，具体过程如下：

步骤311、初始化为第0次迭代的取值；

步骤312、设置总迭代次数为n₁，令迭代次数n＝0，；并设定学习率μ₁；

步骤313、采用随机梯度下降法SGD，优化各网络参数：

其中，和/>分别为第n+1次和第n次中心云上视频特征提取网络、音频特征提取网络和集成网络的参数；/>为对各损失函数做偏导；

步骤314、如果n＜n₁，则跳转到步骤313，n＝n+1，继续下一次迭代；否则，终止迭代；

步骤315、经过n₁轮迭代后，得到优化后的视频特征提取网络和音频特征提取网络/>

(3-2)在边缘节点接收到的多模态训练数据集上进行AVHR模型的训练，具体过程如下：

步骤321、初始化θ_v(0)，θ_a(0)，θ_m(0)，θ_he(0)，θ_l(0)，θ_v(0)，θ_a(0)，θ_m(0)，θ_he(0)，θ_l(0)为第0次迭代θ_v，θ_a，θ_m，θ_he，θ_l的取值；

步骤322、开始迭代，设置总迭代次数为n₂，令迭代次数n′＝0；并设定学习率μ₂；

步骤323、采用随机梯度下降法，优化各特征提取网络、融合网络及公共分类器的参数：

其中，θ_v(n′+1)，θ_a(n′+1)，θ_he(n′+1)，θ_l(n′+1)，θ_m(n′+1)和θ_v(n′)，θ_a(n′)，θ_he(n′)，θ_l(n′)，θ_m(n′)分别为第n′+1次和第n′次边缘节点上视频特征提取网络，音频特征提取网络，编码器，公共分类器和融合网络的参数；为对各损失函数做偏导；

步骤324、采用随机梯度下降法SGD，优化解码器的参数：

其中，θ_hd(n′+1)和θ_hd(n′)分别为第n′+1次和第n′次边缘节点上解码器的参数；为对各损失函数做偏导；

步骤325、如果n′＜n₂，则跳转到步骤323，n′＝n′+1，继续下一次迭代；否则，终止迭代；

步骤326、经过n₂轮迭代后，得到最优的AVHR模型，最优的AVHR模型包括优化后的视频特征提取网络、音频特征提取网络、触觉特征提取网络、融合网络和触觉信号生成网络。

作为本发明所述的一种基于云边协同的音视频辅助触觉信号重建方法进一步优化方案，步骤(4)包括以下步骤：

(4-1)采用经过训练完成的AVHR模型；

(4-2)将待测的一对视频信号和音频信号/>输入训练完成的AVHR模型，提取各自的语义特征并融合，利用融合后的语义特征生成期望的触觉信号/>

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

借助于中心云上存储的大规模无标注音视频数据库的自监督学习来实现稀疏数据下的精确语义特征提取；充分发挥多模态特征融合的优势，最大程度地利用视频和音频模态的语义信息；并借此生成了完整的触觉信号，这更加符合跨模态服务的要求。

附图说明

图1是本发明的一种基于云边协同的音视频辅助触觉信号重建方法流程图。

图2是本发明的完整网络结构示意图。

图3是本发明的基于多模态融合的共享语义学习架构示意图。

图4是本发明和其他对比方法的触觉信号重建结果图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明进行详细描述。

本发明提供了一种基于云边协同的音视频辅助触觉信号重建方法，其流程图如图1所示，该方法包括如下步骤：

步骤1：在中心云存储的大规模音视频数据库上，执行图2所示的自监督学习任务，确定视频帧和音频剪辑是否来自同一视听源，得到预训练后的音频、视频特征提取网络。

(1-1)对于大规模音视频数据库其中/>将其中224×224的彩色视频帧/>和1s长的音频片段/>分别传递给视频特征提取网络和音频特征提取网络，分别提取对应的视频信号特征和音频信号特征。这里，视频特征提取网络选用VGG网络的设计风格，即具有3×3的卷积滤波器和步幅为2、无填充的2×2的最大池化层；网络被分为四块，每块包含两个卷积层和一个池化层，连续块之间具有加倍的滤波器数量；最后在所有空间位置执行最大池化，以生成单个512维的语义特征向量。音频特征提取网络首先将1秒长的声音片段转化成线性频谱图图，并将其视为257×199的灰度图像，其余结构与视频特征提取网络类似，不同之处在于输入像素是一维强度的，其最终得到的也是一个512维的语义特征向量。

然后，将上述两个512维的视频及音频特征拼接成1024维的向量，通过两个全连通层(128-2)组成的集成网络产生双向分类输出，即判断视频帧和音频剪辑是否来自同一视听源。定义如下自监督损失函数：

其中，L_Src为自监督损失函数，为第j对视频帧特征和音频剪辑特征集成后的特征，G_v(·)为视频特征提取网络的特征映射，/>是视频特征提取网络的参数，G_a(·)为音频特征提取网络的特征映射，/>是音频特征提取网络的参数；p(·)表示标签指示器，为1时表示该视频帧和音频剪辑来源于同一视听源，为0表示该视频帧和音频剪辑来源于不同的视听源；/>为集成网络输出的对应关系预测值；/>表示由多个全连接层组成的集成网络的参数；通过最小化L_Src得到预训练后的音频特征提取网络、视频特征提取网络。

这一步可以得到视频特征提取网络和音频特征提取网络的结构和参数，即G_v(·)，G_a(·)，并可作为知识传递给边缘节点上的特征提取网络，为其处理音频和视频信号提供一个良好的起点。

步骤2：在边缘节点处设计一个音视频辅助触觉信号重建(audio-visual-aidedhaptic signal reconstruction(AVHR))模型，模型结构如图2所示：

同时，利用触觉特征提取网络提取触觉信号特征；

步骤2具体如下：

(2-1)把中心云处训练好的音频特征提取网络结构、视频特征提取网络结构及它们各自的参数直接迁移到边缘节点，将该音频特征提取网络和视频特征提取网络用作边缘节点处的音频属性提取网络和视频属性提取网络；

(2-2)将边缘节点所接收到的完整的音频信号、视频信号和触觉信号作为多模态训练数据集D，第i个实例d_i＝(v_i，a_i，h_i)，(v_i，a_i，h_i)为第i对多模态样本对，其中，v_i∈R^w是多模态训练数据集中的第i个视频信号，R^w为视频信号的样本空间，w为视频信号的样本维数；a_i∈R^u是多模态训练数据集中的第i个音频信号，R^u为音频信号的样本空间，u为音频信号的样本维数；h_i∈R^e是多模态训练数据集中的第i个触觉信号，R^e为触觉信号的样本空间，e为触觉信号的样本维数；每个d_i都有对应的one-hot标签y_i∈R^K，R^K为标签空间，其中K是多模态训练数据集的类别数。

(2-3)边缘节点利用中心云迁移而来的视频特征提取网络和音频特征提取网络分别提取512维的视频属性和512维的音频属性/>其中，v为视频信号，a为音频信号；然后，将g^v和g^a进一步输入到一个三层全连通神经网络(256-128-32)中，得到32维视频信号特征f^v＝F_v(v；θ_v)和音频信号特征f^a＝F_a(a；θ_a)，f^v和f^a相关联，其中，F_v(·)为边缘节点处的视频特征提取网络，θ_v代表视频特征提取网络的参数，F_a(·)为边缘节点处的音频特征提取网络，θ_a代表音频特征提取网络的参数；

(2-4)边缘节点将自编码器模型的编码器作为触觉特征提取网络，并利用触觉特征提取网络从触觉信号中提取用于训练的目标的触觉信号特征f^h＝E_h(h；θ_he)，其中，h代表触觉信号，E_h(·)代表边缘节点处的编码器，θ_he代表编码器的参数。触觉的自编码器采用的是堆叠式自编码器，编码器和解码器结构对称；编码器采用三层前馈神经网络将触觉信号投射为32维的触觉信号特征(Z-256-128-32)，Z为输入触觉信号的维数；解码器的结构刚好相反。

(2-5)融合视频信号特征f^v和音频信号特征f^a，实现语义的互补与增强，如图3所示，融合网络结合了多模态协同范式和多模态联合范式：

f^m＝F_m(f^a，f^v；θ_m)，

语义相关学习：选用对比损失对f^v、f^a、f^m和f^h进行相关性约束，缩小f^h和与其相匹配的f^v、f^a、f^m之间的距离，并使f^h和与其不匹配的f^v、f^a、f^m之间的距离大于阈值6，定义如下语义相关损失函数：

(2-7)自编码器模型包括编码器和解码器，通过将用于训练的触觉信号h与从编码器至解码器(Z-256-128-32-128-256-Z，Z为触觉信号维数)过程中获得的触觉信号进行比较来学习自动编码器的结构，从而有效地保持触觉模态内部的语义一致性，进而使编码器输出的触觉特征f^h将更加合理，提升多模态公共语义空间的学习。

定义触觉信号的重建损失如下：

(2-8)利用自编码器模型的解码器D_h(·)从融合特征f^m生成目标的触觉信号h′，实现目标触觉信号的重建，并将h′通过编码器E_h(·)重新映射到32维的触觉信号特征f^h′，从而保证f^h′和f^h之间的特征语义相似性以及类别判别，精细地约束生成过程；定义所得生成的触觉信号的损失函数如下：

步骤3：在中心云和边缘节点处分别利用梯度下降算法对模型进行训练，以得到最优的AVHR模型结构及参数；

步骤311、初始化为第0次迭代的取值；

步骤312、设置总迭代次数为n₁＝600，令迭代次数n＝0＝0，并设定学习率μ₁＝0.0001；

步骤313、采用随机梯度下降法SGD，优化各网络参数：

步骤322、开始迭代，设置总迭代次数为n₂＝600，令迭代次数n′＝0；并设定学习率μ₂＝0.0001；

步骤324、采用随机梯度下降法SGD，优化解码器的参数：

步骤4：上述步骤完成后，将测试集中成对的音频信号和视频信号输入训练完成的AVHR模型，提取各自的语义特征并融合，利用融合后的语义特征生成目标触觉信号。

(4-1)采用经过训练完成的AVHR模型；

下面的实验结果表明，与现有方法相比，本发明利用多模态语义的互补融合实现了触觉信号合成取得了更好的生成效果。

本实施例采用了LMT跨模数据集进行实验，该数据集由文献“Multimodalfeature-based surface material classification”提出，其中包括九种语义类别的样本:网格，石头，金属，木材，橡胶，纤维，泡沫，箔和纸，纺织品和织物。本实施例选用了五大类(其中每大类包含三小类)进行实验。重新组织了LMT数据集，首先结合每个材料实例的训练集和测试集，分别得到每个实例的20个图像样本、20个音频信号样本和20个触觉信号样本。然后扩充数据以训练神经网络，具体的，将每个图像水平和垂直翻转，以任意角度旋转它们，并在传统方法之外使用随机缩放、剪切及偏移等技术。至此将每个类别的数据扩展到100，因此总共有1500个图像，尺寸为224*224。在数据集中，80％被选择用于训练，而剩余的20％用于测试和性能评估。测试了以下3种方法作为实验对比：

现有方法一：文献“Learning cross-modal visual-tactile representationusing ensembled generative adversarial networks”(作者X.Li,H.Liu,J.Zhou,andF.Sun)中的集成生成对抗网络(Ensembled GANs，简称E-GANs)利用图像特征得到所需类别信息，然后将其和噪声一起作为生成对抗网络的输入生成相应类别的触觉频谱图，最后再转化为触觉信号。

现有方法二：文献“Deep Visuo-Tactile Learning:Estimation of TactileProperties from Images”(作者：Kuniyuki Takahashi and Jethro Tan)中的深度视-触学习方法(Deep visio-tactile learning，简称：DVTL)扩展了传统的具有潜在变量的编码器-解码器网络，将视觉和触觉属性嵌入在潜在空间中。

现有方法三：文献“Teaching Cameras to Feel:Estimating Tactile PhysicalProperties of Surfaces From Images”(作者：Matthew Purri and Kristin Dana)中提出了一种联合编码分类生成网络(Joint-encoding-classification GAN简称：JEC-GAN)，其通过不同的编码网络将每个模态的实例编码到一个共享的内在空间，采用成对约束使嵌入的视觉样本和触觉样本在潜在空间中接近。最后，以视觉信息为输入，通过生成网络重建相应的触觉信号。

本发明：本实施例的方法。

实验采用分类准确率作为评价指标来评估跨模态生成的效果，所用的分类器是在真实的触觉信号数据集上预训练好的。

表1是本发明的实验结果展示

从表1和图4可以看出与上述最先进的方法相比，我们提出的方法有着明显的优势，原因如下：(1)自监督预训练有效地改善了视频及音频特征的提取效果；(2)视频及音频模态的融合实现了语义信息的互补与增强；(3)循环的优化策略改善了共享语义特征的学习效果。

在其他实施例中，本发明步骤(2)中的触觉的编码器使用的是前馈神经网络，可以用一维卷积(One-dimensional convolutional neural networks，简称1D-CNN)来替代。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围内。

Claims

1.一种基于云边协同的音视频辅助触觉信号重建方法，其特征在于，包括以下步骤：

同时，利用触觉特征提取网络提取触觉信号特征；

2.根据权利要求1所述的一种基于云边协同的音视频辅助触觉信号重建方法，其特征在于，步骤(1)包括以下步骤：

(1-1)、对于大规模音视频数据库其中M为成对的视频帧和音频剪辑的数量，/>s_j为第j对视频帧和音频剪辑，将第j个视频帧/>和第j个音频剪辑片段/>分别传递给视频特征提取网络和音频特征提取网络，分别提取对应的视频特征和音频特征；

3.根据权利要求1所述的一种基于云边协同的音视频辅助触觉信号重建方法，其特征在于，步骤(2)包括以下步骤：

(2-2)、将边缘节点所接收到的完整的音频信号、视频信号和触觉信号作为多模态训练数据集D，第i个实例d_i＝(v_i,a_i,h_i)，(v_i,a_i,h_i)为第i对多模态样本对,其中,v_i∈R^w是多模态训练数据集中的第i个视频信号，R^w为视频信号的样本空间,w为视频信号的样本维数；a_i∈R^u是多模态训练数据集中的第i个音频信号，R^u为音频信号的样本空间，u为音频信号的样本维数；h_i∈R^e是多模态训练数据集中的第i个触觉信号，R^e为触觉信号的样本空间，e为触觉信号的样本维数；每个d_i都有对应的one-hot标签y_i∈R^K，R^K为标签空间，其中K是多模态训练数据集的类别数；

f^m＝F_m(f^a，f^v；θ_m)，

其中，L_Dis为语义判别损失函数，p(·)为公共分类器，f_i ^v为第i个视频信号特征，f_i ^a为第i个音频信号特征，f_i ^h为第i个触觉信号特征，f_i ^m为第i个融合特征，θ_l为公共分类器的参数；

(2-8)利用自编码器模型的解码器D_h(·)从f^m生成目标触觉信号h′，实现目标触觉信号的重建，并将h′通过编码器E_h(.)重新映射到触觉信号特征f^h′，定义所得生成的触觉信号的损失函数如下：

其中，L_Gen为触觉信号的生成损失函数，h′_i＝D_h(f_i ^m；θ_hd)是第i个由融合特征生成的触觉信号，f_i ^m为第i个融合特征；f_i ^h为第i个触觉信号特征，f_i ^h′＝E_h(h′_i；θ_hd)是编码器提取的h′_i的语义特征；l₂(f_i ^h，f_i ^h′)表示f_i ^h和f_i ^h′的相似性，y_ilogp(f_i ^h′)是f_i ^h′的分类损失，p(f_i ^h′)是预测的f_i ^h′的标签，l₂(f_i ^h，f_i ^h′)和y_ilogp(f_i ^h′)共同构成了损失函数的正则项；β和γ为超参数。

4.根据权利要求2所述的一种基于云边协同的音视频辅助触觉信号重建方法，其特征在于，步骤(3)包括以下步骤：

步骤311、初始化和/>为第0次迭代的取值；

步骤312、设置总迭代次数为n₁，令迭代次数n＝0，并设定学习率μ₁；

步骤313、采用随机梯度下降法SGD，优化各网络参数：

步骤324、采用随机梯度下降法SGD，优化解码器的参数：

其中，θ_hd(n′+1)和θ_ha(n′)分别为第n′+1次和第n′次边缘节点上解码器的参数；为对各损失函数做偏导；

5.根据权利要求1所述的一种基于云边协同的音视频辅助触觉信号重建方法，其特征在于，步骤(4)包括以下步骤：

(4-1)采用经过训练完成的AVHR模型；