CN113628294B - 一种面向跨模态通信系统的图像重建方法及装置 - Google Patents

一种面向跨模态通信系统的图像重建方法及装置 Download PDF

Info

Publication number
CN113628294B
CN113628294B CN202110776726.4A CN202110776726A CN113628294B CN 113628294 B CN113628294 B CN 113628294B CN 202110776726 A CN202110776726 A CN 202110776726A CN 113628294 B CN113628294 B CN 113628294B
Authority
CN
China
Prior art keywords
image
haptic
network
cross
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110776726.4A
Other languages
English (en)
Other versions
CN113628294A (zh
Inventor
魏昕
章萌
高子涵
周亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110776726.4A priority Critical patent/CN113628294B/zh
Publication of CN113628294A publication Critical patent/CN113628294A/zh
Priority to US18/002,500 priority patent/US11748919B2/en
Priority to PCT/CN2022/103303 priority patent/WO2023280065A1/zh
Application granted granted Critical
Publication of CN113628294B publication Critical patent/CN113628294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B6/00Tactile signalling systems, e.g. personal calling systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种面向跨模态通信系统的图像重建方法,所述方法利用跨模态通信系统中接收端所接收到完整触觉信号对传输过程中所存在的缺失图像进行重建,同时结合注意力机制构造跨模态交互网络,解决传统生成模型只能训练成对样本的局限性。本发明还公开了一种面向跨模态通信系统的图像重建装置。本发明充分利用不同模态数据间的语义相关性,针对未配对数据实现触觉信号到图像的跨模态生成,克服跨模态通信系统中用于实际的训练触觉信号—图像数据难以成对采集的问题,显著提高了生成图像的质量和类别精度。

Description

一种面向跨模态通信系统的图像重建方法及装置
技术领域
本发明涉及跨模态图像生成领域,特别是一种面向跨模态通信系统的图像重建方法及装置。
背景技术
跨模态通信是一种以视觉、音频、触觉信号协调传输和联合处理为目标的新型通信技术,支持跨模态多媒体服务,具有多维度融合、沉浸式感官体验更丰富等特点。然而,在跨模态通信过程中,往往存在传输容量有限及传输干扰等问题,造成终端接收图像数据模糊甚至全部丢失。
针对传输过程中各种干扰因素,相关学者提出了一系列图像恢复的方法。比如,为了去除图像恢复中的脉冲噪声,提出基于全变分的稀疏优化方法;为了解决传输中的丢包现象,利用光流算法的信息与邻近的可用帧进行恢复。上述图像恢复方法主要是在视觉模态内借助其他完整的图像或视频帧进行恢复。然而,在多模态应用中,多模态流存在共存和竞争现象,可能会导致视频流在传输过程中严重受损或丢失。因此,上述方法不适用于跨模态传输。
由于在跨模态通信中,视觉信号和触觉信号并存,传递的内容在模态间具有内在的语义一致性。并且与视觉图像相比,触觉信号通常具有更高的优先级,接收端接收到的触觉信号的完整性更好。因此,可以利用触觉信号和内在语义信息进行缺失或受损的视觉图像生成,即触觉到图像的跨模态生成。
近年来,跨模态信号处理技术也成为一项热门的研究,其思想是挖掘文本、声音、视频等形式之间的语义,以执行检索和重构等任务。但这些方法要求成对数据作为训练集,不适用于难以采集成对数据的实际应用场景,因此设计更好的方法是相关工作者亟需解决的难题。
发明内容
本发明所要解决的技术问题是克服现有技术的不足而提供一种面向跨模态通信系统的图像重建方法及装置,该技术能够实现针对未配对数据的触觉到图像的跨模态生成任务。
本发明为解决上述技术问题采用以下技术方案:
根据本发明提出的一种面向跨模态通信系统的图像重建方法,包括以下步骤:
步骤1、选取跨模态通信系统接收端所接收到的触觉信号和图像数据对,将触觉信号和图像数据对作为训练集;训练集中的每一个触觉信号、图像数据对中的图像数据都带有所属类别的标签信息;
步骤2、建立基于触觉信号的跨模态图像生成模型,该模型包括图像特征提取模块、基于注意力机制的跨模态语义学习模块和对抗式图像生成模块;其中,
图像特征提取模块包括卷积神经网络CNN和第一类别对抗网络,用于对训练集中图像数据进行特征提取,得到图像特征;
跨模态语义学习模块包括一个编码器、基于注意力机制的语义融合网络和第二类别对抗网络,编码器对训练集中的触觉信号进行特征提取,得到触觉特征;而后,触觉特征与图像特征一起输入基于注意力机制的语义融合网络,该网络在与该图像特征具有同标签的触觉特征之间进行相似度计算并经过sigmoid函数的操作,获得与当前图像特征所对应的各触觉特征的权重向量,再基于权重向量对各触觉特征进行加权求和,得到与当前图像特征最为相似的合成触觉特征;接着,第二类别对抗网络在对抗学习的作用下对合成触觉特征进行强化,保持触觉信号的类别特征和分布特征;
对抗式图像生成模块包括一个生成对抗网络,用于接收到强化后的合成触觉特征后,输出与该合成触觉特征具有同标签的生成图像;
步骤3、对基于触觉信号的跨模态图像生成模型进行训练,根据图像特征提取模块计算图像特征的模态内损失,根据基于注意力机制的跨模态语义学习模块计算合成触觉特征的模态内损失、合成触觉特征和图像特征之间的模间损失,根据对抗式图像生成模块并结合均方误差计算生成图像的对抗生成损失;将这些计算得到的损失用于更新跨模态图像生成模型的参数;当模型的参数收敛后,保存此时的最优跨模态图像生成模型及参数;
步骤4、在训练完成后,将跨模态通信系统接收端接收到的触觉信号输入训练好的上述跨模态图像生成模型,输出为目标图像。
作为本发明所述的一种面向跨模态通信系统的图像重建方法进一步优化方案,步骤2中图像数据进行特征提取包括以下步骤:
(2-1)图像数据V经过卷积神经网络CNN获得图像特征v′(f),CNN包括多个卷积层,每层卷积层后面连接一个池化层;
(2-2)为v′(f)构建第一类别对抗网络,该第一类别对抗网络包括网络参数为θv的类别标签预测器fv(·)和网络参数为α的类别标签鉴别器D1,其中fv(·)由多个全连接层和一个softmax层组成,fv(·)的输入为图像特征v′(f),fv(·)的输出为所预测的类别标签v(c)=fv(v′(f);θv);类别标签鉴别器D1由多个依次连接的全连接层组成,最后一层维度为1,D1用于判别v(c)和图像特征v′(f)对应的真实标签yv;通过fv(·)与D1对抗训练,对v′(f)不断进行优化,最终提取具有类别特性的图像特征
Figure BDA0003155686760000031
其中,/>
Figure BDA0003155686760000032
为第i个图像数据的图像特征,N为图像数据总量。
作为本发明所述的一种面向跨模态通信系统的图像重建方法进一步优化方案,第一类别对抗网络的对抗损失如下:
Figure BDA0003155686760000033
Figure BDA0003155686760000034
其中,
Figure BDA0003155686760000035
为类别标签鉴别器D1的对抗损失函数,/>
Figure BDA0003155686760000036
和/>
Figure BDA0003155686760000037
指对*求期望,D1(yv;α)指类别标签鉴别器对真实标签yv的判别结果,D1(v(c);α)指类别标签鉴别器对类别标签预测器输出的v(c)的判别结果,/>
Figure BDA0003155686760000038
为类别标签预测器fv(·)的对抗损失函数。
作为本发明所述的一种面向跨模态通信系统的图像重建方法进一步优化方案,步骤2中基于注意力机制的跨模态语义学习模块的学习过程具体如下:
(3-1)触觉信号经过编码器获得触觉特征
Figure BDA0003155686760000039
其中,/>
Figure BDA00031556867600000310
为第j个触觉信号的触觉特征,N为触觉信号的数据总量,编码器包括门循环单元GRU和多个全连接层;
(3-2)基于注意力机制的语义融合网络匹配触觉特征和(2-2)提取的v(f),每一个
Figure BDA00031556867600000311
作为查询向量,筛选出与/>
Figure BDA00031556867600000312
所属同一类别的合成触觉特征/>
Figure BDA00031556867600000313
Figure BDA00031556867600000314
和/>
Figure BDA00031556867600000315
形成触觉-图像特征对,那么与v(f)对应的合成触觉特征为/>
Figure BDA00031556867600000316
具体如下:
3-2-1、将
Figure BDA00031556867600000317
和触觉特征h(f)输入基于注意力机制的语义融合网络,输出触觉的隐藏层表示向量/>
Figure BDA00031556867600000318
Figure BDA00031556867600000319
为第j个触觉特征/>
Figure BDA00031556867600000320
的隐藏层表示向量,其中,隐藏层为单层感知机结构,激活函数为Tanh()函数;具体过程如下:
Figure BDA00031556867600000321
其中,w和b是基于注意力机制的语义融合网络中隐藏层的网络参数;
3-2-2、计算
Figure BDA0003155686760000041
与/>
Figure BDA0003155686760000042
的皮尔逊相关系数,作为相似度:
Figure BDA0003155686760000043
Figure BDA0003155686760000044
其中,Simi,j
Figure BDA0003155686760000045
与/>
Figure BDA0003155686760000046
的相似度,/>
Figure BDA0003155686760000047
分别为/>
Figure BDA0003155686760000048
与/>
Figure BDA0003155686760000049
的类别标签,||·||1为L1范数;Ii,j是一个评分函数,用于减少触觉特征的冗余搜索和计算;
选择与
Figure BDA00031556867600000410
具有相同类别标签的触觉特征作为参与计算相似度Simi,j的触觉候选特征;
3-2-3、使用softmax()函数对相似度Simi,j进行归一化处理,得到注意力权重系数ai,j;再对触觉候选特征进行加权求和,得到与
Figure BDA00031556867600000411
所属同一类别的合成触觉特征/>
Figure BDA00031556867600000412
ai,j=softmax(Simi,j)
Figure BDA00031556867600000413
(3-3)利用配对模态间的语义信息约束图像特征和触觉特征,具体地,对所有图像特征与触觉特征计算模间损失目标函数:
Figure BDA00031556867600000414
其中,Lcro为图像特征与触觉特征的模间损失,
Figure BDA00031556867600000415
为第j个不与/>
Figure BDA00031556867600000416
配对的合成触觉特征,δ为限制/>
Figure BDA00031556867600000417
与/>
Figure BDA00031556867600000418
差距大小的阈值,||·||2为L2范数;
(3-4)为
Figure BDA00031556867600000419
构建第二类别对抗网络,该第二类别对抗包括网络参数为θh的类别标签预测器fh(·)和网络参数为β的类别标签鉴别器D2,其中类别标签预测器fh(·)包括多个全连接层和一个softmax层,输入为/>
Figure BDA00031556867600000420
输出为所预测的/>
Figure BDA00031556867600000421
的类别标签/>
Figure BDA00031556867600000422
类别标签鉴别器D2由多个全连接层依次连接组成,最后一层维度为1,D2用于判别/>
Figure BDA00031556867600000423
和/>
Figure BDA00031556867600000424
对应的真实标签yh的真假;通过类别标签预测器fh(·)与类别标签鉴别器D2对抗训练,对
Figure BDA00031556867600000425
不断进行优化,最终使得合成触觉特征/>
Figure BDA0003155686760000051
具有类别特性。
作为本发明所述的一种面向跨模态通信系统的图像重建方法进一步优化方案,第二类别对抗网络的对抗损失如下:
Figure BDA0003155686760000052
Figure BDA0003155686760000053
其中,
Figure BDA0003155686760000054
为类别标签鉴别器D2的对抗损失函数,/>
Figure BDA0003155686760000055
和/>
Figure BDA0003155686760000056
指对*求期望,D2(yh;β)指类别标签鉴别器D2对真实标签yh的判别结果,β为类别标签鉴别器D2的网络参数,/>
Figure BDA0003155686760000057
指类别标签鉴别器D2对类别标签预测器输出的/>
Figure BDA0003155686760000058
的判别结果,/>
Figure BDA0003155686760000059
为类别标签预测器fh(·)的对抗损失函数。
作为本发明所述的一种面向跨模态通信系统的图像重建方法进一步优化方案,步骤2中对抗式图像生成模块的学习过程包括以下步骤:
(4-1)采用条件生成对抗网络实现跨模态图像生成;具体地,生成对抗网络包括网络参数为η的图像生成器G和网络参数为γ的图像鉴别器D3,将
Figure BDA00031556867600000510
输入图像生成器G,输出对应的生成图像/>
Figure BDA00031556867600000511
G(*)为一种描述生成器输出生成图像的过程的函数,并将
Figure BDA00031556867600000512
与真实图像v组合输入图像鉴别器D3;图像鉴别器D3辨别所生成图像组/>
Figure BDA00031556867600000513
和真实图像组(v,v)的真假;
(4-2)结合重构损失与生成对抗网络的对抗生成损失函数来拟合数据分布;最终,图像生成器G的损失函数为:
Figure BDA00031556867600000514
其中,LG为图像生成器G的生成损失,E[*]为期望。
作为本发明所述的一种面向跨模态通信系统的图像重建方法进一步优化方案,(4-1)中,生成对抗网络的对抗生成损失如下:
Figure BDA00031556867600000515
其中,L(G,D3)为图像生成器G和图像鉴别器D3的对抗损失,Ev[*]和
Figure BDA00031556867600000518
指对*求期望,D3(v,v;γ)为图像鉴别器D3对真实图像组(v,v)的判别结果,/>
Figure BDA00031556867600000516
为图像鉴别器D3对生成图像组/>
Figure BDA00031556867600000517
的判别结果,γ为图像鉴别器D3的网络参数。
作为本发明所述的一种面向跨模态通信系统的图像重建方法进一步优化方案,步骤3中所述的基于触觉信号的跨模态图像生成模型训练过程包括以下步骤:
(5-1)由步骤1获取训练集:
Figure BDA0003155686760000061
其中,V,H分别为图像和触觉信号的训练数据,vi为第i个图像数据,
Figure BDA0003155686760000062
为vi对应的类别标签,hi为第i个触觉信号,/>
Figure BDA0003155686760000063
为hi对应的类别标签;
(5-2)初始化基于触觉信号的跨模态图像生成模型的网络参数{θv,α},{θh,η,(w,b),β,γ},并导入各模态数据的特征提取网络的预训练模型参数,模态数据是指触觉信号数据或图像数据;各模态数据的特征提取网络指编码器和图像特征提取模块中的CNN;
(5-3)利用随机梯度下降法最小化损失函数,迭代训练基于触觉信号的跨模态图像生成模型,直到收敛或迭代次数达到规定的最大次数,最大迭代次数为预设的:
步骤A、设置D1,D2,D3的学习率μ1和G的学习率μ2,迭代次数r=1;
步骤B、基于梯度下降法,从目标的负梯度方向对各个模块网络的参数进行更新:
Figure BDA0003155686760000064
Figure BDA0003155686760000065
Figure BDA0003155686760000066
Figure BDA0003155686760000067
Figure BDA0003155686760000068
Figure BDA0003155686760000069
Figure BDA00031556867600000610
其中,
Figure BDA00031556867600000611
为第一类别对抗网络的对抗损失,/>
Figure BDA00031556867600000612
为第二类别对抗网络的对抗损失,Lcro(*)为图像特征与触觉特征的模间损失,LG(*)为图像生成器G的损失函数;θv r+1h r+1,(wr+1,br+1),αr+1r+1r+1r+1和θv rh r,(wr,br),αrrrr分别为第r+1和第r次迭代后的类别标签预测器fv(·),类别标签预测器fh(·),基于注意力机制的语义融合网络的隐藏层参数,类别标签鉴别器D1,类别标签鉴别器D2,图像鉴别器D3和图像生成器G的网络参数集合;隐藏层参数包括权重和偏差;/>
Figure BDA00031556867600000613
为导数;
步骤C、当迭代收敛或迭代次数达到规定的最大次数,输出最优对抗式图像生成模块;否则r=r+1,重复步骤B。
作为本发明所述的一种面向跨模态通信系统的图像重建方法进一步优化方案,步骤4中所述的目标图像的生成过程包括以下步骤:
(6-1)跨模态通信系统接收端接收到的触觉信号
Figure BDA0003155686760000071
为:
Figure BDA0003155686760000072
其中,
Figure BDA0003155686760000073
分别为第k个触觉数据及其类别标签,M为待生成的目标图像总量;
(6-2)将
Figure BDA0003155686760000074
中的触觉数据输入编码器,获得触觉特征/>
Figure BDA0003155686760000075
再将其输入训练好的最优对抗式图像生成模块,输出即为生成的目标图像/>
Figure BDA0003155686760000076
具体过程如下:
Figure BDA0003155686760000077
一种面向跨模态通信系统的图像重建装置,包括:
模型建立模块,用于获取图像数据和触觉信号,并建立基于触觉信号的跨模态图像生成模型;
模型分解模块,用于将跨模态图像生成模型分解为图像特征提取模块、基于注意力机制的跨模态语义学习模块和对抗式图像生成模块,其中,所述图像特征提取模块包含预训练参数θv,α,用于提取图像数据特征;基于注意力机制的跨模态语义学习模块包含网络参数θh,(w,b),β,用于图像特征与触觉特征的配对及语义融合;对抗式图像生成模块包含网络参数η,γ,用于触觉特征生成对应图像;
模型训练求解模块,用于求解所述基于触觉信号的跨模态图像生成模型,得到结果,并在求解过程中自适应更新模型网络参数;
目标图像获得重建模块,用于获取完整的触觉信号特征,利用对抗式图像生成模块,得到对应的图像,从而恢复存在损坏、丢失、延迟到达问题的图像数据。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
(1)实现针对未配对数据的触觉到图像的跨模态生成任务,有效解决了跨模态通信中视觉信号延时或丢包导致地不完整问题,提高用户的沉浸式体验;
(2)这种方法能够挖掘视觉模态和触觉模态间的语义相关性,构造跨模态公共子空间,从而弥补异构数据间的鸿沟,同时设计注意力交互网络,使得生成模型能够训练未配对的异构数据并提高生成图像的质量和类别精确度。
附图说明
图1为实施例提供的电子设备的方框示意图。
图2为本发明方法的具体实现流程图。
图3为实施例的跨模态图像生成模型结构示意图。
图4为实施例的注意力网络结构示意图。
图5为实施例中验证模型生成图像性能的结果图。
图6为实施例中验证模型收敛性能的结果图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述。
参照图2,一种面向跨模态通信系统的图像重建方法及装置,包括如下步骤:
步骤1、选取跨模态通信系统接收端所接收到的触觉信号和图像数据对,将触觉信号和图像数据对作为训练集;训练集中的每一个触觉信号、图像数据对中的图像数据都带有所属类别的标签信息;
步骤2、建立基于触觉信号的跨模态图像生成模型,如图3所示,该模型包括图像特征提取模块、基于注意力机制的跨模态语义学习模块和对抗式图像生成模块;其中,
图像特征提取模块包括卷积神经网络(Convolutional Neural Networks,CNN)和第一类别对抗网络,用于对训练集中图像数据进行特征提取,得到图像特征;
跨模态语义学习模块包括一个编码器、基于注意力机制的语义融合网络和第二类别对抗网络,编码器对训练集中的触觉信号进行特征提取,得到触觉特征;而后,触觉特征与图像特征一起输入基于注意力机制的语义融合网络,该网络在与该图像特征具有同标签的触觉特征之间进行相似度计算并经过sigmoid函数的操作,获得与当前图像特征所对应的各触觉特征的权重向量,再基于权重向量对各触觉特征进行加权求和,得到与当前图像特征最为相似的合成触觉特征;接着,第二类别对抗网络在对抗学习的作用下对合成触觉特征进行强化,保持触觉信号的类别特征和分布特征;
对抗式图像生成模块包括一个生成对抗网络,用于接收到强化后的合成触觉特征后,输出与该合成触觉特征具有同标签的生成图像;
步骤3、对基于触觉信号的跨模态图像生成模型进行训练,根据图像特征提取模块计算图像特征的模态内损失,根据基于注意力机制的跨模态语义学习模块计算合成触觉特征的模态内损失、合成触觉特征和图像特征之间的模间损失,根据对抗式图像生成模块并结合均方误差计算生成图像的对抗生成损失;将这些计算得到的损失用于更新跨模态图像生成模型的参数;当模型的参数收敛后,保存此时的最优跨模态图像生成模型及参数;
步骤4、在训练完成后,将跨模态通信系统接收端接收到的触觉信号输入训练好的上述跨模态图像生成模型,输出为目标图像。
本例中,步骤3所述的图像特征提取的实现过程如下:
(1)大小为128×128的图像V经过卷积神经网络(CNN)获得图像特征v′(f),其中,N为图像数据总量,CNN由四个卷积层和池化层组成,卷积核数分别为512,256,128,64,卷积核大小为5×5。
(2)为图像特征v′(f)构建网络参数为θv的类别标签预测器f(·)和网络参数为α的判别器D1,其中预测器由2层全连接层和一个softmax层组成,输出维度分别为1024,128,8,输出预测的类别标签v(c)=f(v′(f);θv);判别器D1由四层全连接层组成,维度分别为512,1024,512,1,最后输出一个(0,1)范围内的数表示输入特征为真实特征的概率,用于判别v(c)和真实标签y。通过预测器与判别器D1对抗训练,提取的图像特征将具有类别特性。对抗损失如下:
Figure BDA0003155686760000091
Figure BDA0003155686760000092
本例中,步骤3所述的基于注意力机制的跨模态语义学习的实现过程如下:
(1)触觉信号H经过编码器获得触觉初始特征
Figure BDA0003155686760000093
其中,N为触觉信号的数据总量,编码器由门循环单元(Gated Recurrent Unit,GRU)和两层全连接层组成。GRU有一个重置门和更新门,设置单元数为256,输出维度为64,全连接层输出维度分别为1024,64。
(2)如图4,基于注意力交互网络匹配触觉特征和所提取出的图像特征,每一个
Figure BDA0003155686760000094
作为查询向量,筛选出与其所属同一类别的合成触觉特征,形成触觉-图像特征对,具体如下:
3-2-1、将
Figure BDA0003155686760000095
和触觉特征h(f)输入基于注意力机制的语义融合网络,输出触觉的隐藏层表示向量/>
Figure BDA0003155686760000096
Figure BDA0003155686760000097
为第j个触觉特征/>
Figure BDA0003155686760000098
的隐藏层表示向量,其中,隐藏层为单层感知机结构,激活函数为Tanh()函数;具体过程如下:
Figure BDA0003155686760000099
其中,w和b是基于注意力机制的语义融合网络中隐藏层的网络参数;
3-2-2、计算
Figure BDA0003155686760000101
与/>
Figure BDA0003155686760000102
的皮尔逊相关系数,作为相似度:
Figure BDA0003155686760000103
Figure BDA0003155686760000104
其中,Simi,j
Figure BDA0003155686760000105
与/>
Figure BDA0003155686760000106
的相似度,/>
Figure BDA0003155686760000107
分别为/>
Figure BDA0003155686760000108
与/>
Figure BDA0003155686760000109
的类别标签,||·||1为L1范数;Ii,j是一个评分函数,用于减少触觉特征的冗余搜索和计算;
选择与
Figure BDA00031556867600001010
具有相同类别标签的触觉特征作为参与计算相似度Simi,j的触觉候选特征;
3-2-3、使用softmax()函数对相似度Simi,j进行归一化处理,得到注意力权重系数ai,j;再对触觉候选特征进行加权求和,得到与
Figure BDA00031556867600001011
所属同一类别的合成触觉特征/>
Figure BDA00031556867600001012
ai,j=softmax(Simi,j)
Figure BDA00031556867600001013
(3)利用配对模态间的语义信息约束视觉和触觉特征,要求不同模态间配对特征向量的距离小,不配对的特征向量之间的距离大。具体地,对所有图像特征与触觉特征计算模间损失目标函数:
Figure BDA00031556867600001014
其中,Lcro为图像特征与触觉特征的模间损失,
Figure BDA00031556867600001015
为第j个不与/>
Figure BDA00031556867600001016
配对的合成触觉特征,δ为限制/>
Figure BDA00031556867600001017
与/>
Figure BDA00031556867600001018
差距大小的阈值,||·||2为L2范数;
(4)为
Figure BDA00031556867600001019
构建第二类别对抗网络,该第二类别对抗包括网络参数为θh的类别标签预测器fh(·)和网络参数为β的类别标签鉴别器D2,其中类别标签预测器fh(·)包括多个全连接层和一个softmax层,输入为/>
Figure BDA00031556867600001020
输出为所预测的/>
Figure BDA00031556867600001021
的类别标签/>
Figure BDA00031556867600001022
输出维度分别为1024,128,8;判别器D2由四层全连接层组成,维度分别为512,1024,512,1,最后输出一个(0,1)范围内的数表示输入特征为真实特征的概率,用于判别/>
Figure BDA0003155686760000111
和真实标签y的真假;类别标签鉴别器D2由多个全连接层依次连接组成,最后一层维度为1,D2用于判别
Figure BDA0003155686760000112
和/>
Figure BDA0003155686760000113
对应的真实标签yh的真假;通过类别标签预测器fh(·)与类别标签鉴别器D2对抗训练,对/>
Figure BDA0003155686760000114
不断进行优化,最终使得合成触觉特征/>
Figure BDA0003155686760000115
具有类别特性。
第二类别对抗网络的对抗损失如下:
Figure BDA0003155686760000116
Figure BDA0003155686760000117
其中,
Figure BDA0003155686760000118
为类别标签鉴别器D2的对抗损失函数,/>
Figure BDA0003155686760000119
和/>
Figure BDA00031556867600001110
指对*求期望,D2(yh;β)指类别标签鉴别器D2对真实标签yh的判别结果,β为类别标签鉴别器D2的网络参数,/>
Figure BDA00031556867600001111
指类别标签鉴别器D2对类别标签预测器输出的/>
Figure BDA00031556867600001112
的判别结果,/>
Figure BDA00031556867600001113
为类别标签预测器fh(·)的对抗损失函数。
本例中,最小化配对视、触觉模态特征向量的距离,可以增强公共空间上两者的语义相关性,解决模态间的异构问题;最小化各模态中同类别特征向量的距离,可以使映射前后样本的类别与分布信息保持一致。
本例中,步骤3所述的结合均方误差构造对抗式图像生成的实现过程如下:
(1)采用条件生成对抗网络实现跨模态图像生成;具体地,将合成触觉特征
Figure BDA00031556867600001114
输入网络参数为η的生成器G,输出对应的生成图像/>
Figure BDA00031556867600001115
并将其与真实图像v组合输入网络参数为γ的判别器D3;图像判别器D3辨别所生成图像组/>
Figure BDA00031556867600001116
和真实图像组(v,v)的真假。具体过程如下:
生成对抗网络的对抗生成损失如下:
Figure BDA00031556867600001117
其中,L(G,D3)为图像生成器G和图像鉴别器D3的对抗损失,Ev[*]和
Figure BDA00031556867600001118
指对*求期望,D3(v,v;γ)为图像鉴别器D3对真实图像组(v,v)的判别结果,/>
Figure BDA00031556867600001119
为图像鉴别器D3对生成图像组/>
Figure BDA00031556867600001120
的判别结果,γ为图像鉴别器D3的网络参数。
在这个模块中,图像生成器G,包含2个全连接层和四个反卷积层,全连接层的维度分别为128,1024,反卷积的数量为64,128,256,512,输出为128x128的彩色图像
Figure BDA00031556867600001121
图像判别器D3包含四个卷积层和2个全连接层,卷积层输出维度为512,256,128,64,卷积核大小为5x5,全连接层的维度为1024,1,最后输出一个(0,1)范围内的数表示输入特征为真实特征的概率。
(2)为了对生成图像和真实图像同时进行全局结构级别与像素级别的约束,结合重构损失与生成对抗网络的对抗生成损失函数来更好地拟合数据分布。最终,图像生成器G的损失函数为:
Figure BDA0003155686760000121
其中,LG为图像生成器G的生成损失,E[*]为期望。
本例中,步骤3所述的模型训练的实现过程如下:
(5-1)由步骤1获取训练集:
Figure BDA0003155686760000122
其中,V,H分别为图像和触觉信号的训练数据,vi为第i个图像数据,
Figure BDA0003155686760000123
为vi对应的类别标签,hi为第i个触觉信号,/>
Figure BDA0003155686760000124
为hi对应的类别标签;
(5-2)初始化基于触觉信号的跨模态图像生成模型的网络参数{θv,α},{θh,η,(w,b),β,γ},并导入各模态数据的特征提取网络的预训练模型参数,模态数据是指触觉信号数据或图像数据;各模态数据的特征提取网络指编码器和图像特征提取模块中的CNN;
(5-3)利用随机梯度下降法最小化损失函数,迭代训练基于触觉信号的跨模态图像生成模型,直到收敛或迭代次数达到规定的最大次数,最大迭代次数为预设的:
步骤A、设置D1,D2,D3的学习率μ1和G的学习率μ2,迭代次数r=1;
步骤B、基于梯度下降法,从目标的负梯度方向对各个模块网络的参数进行更新:
Figure BDA0003155686760000125
Figure BDA0003155686760000126
Figure BDA0003155686760000127
Figure BDA0003155686760000128
Figure BDA0003155686760000129
Figure BDA00031556867600001210
Figure BDA00031556867600001211
其中,
Figure BDA00031556867600001212
为第一类别对抗网络的对抗损失,/>
Figure BDA00031556867600001213
为第二类别对抗网络的对抗损失,Lcro(*)为图像特征与触觉特征的模间损失,LG(*)为图像生成器G的损失函数;θv r+1h r+1,(wr+1,br+1),αr+1r+1r+1r+1和θv rh r,(wr,br),αrrrr分别为第r+1和第r次迭代后的类别标签预测器fv(·),类别标签预测器fh(·),基于注意力机制的语义融合网络的隐藏层参数,类别标签鉴别器D1,类别标签鉴别器D2,图像鉴别器D3和图像生成器G的网络参数集合;隐藏层参数包括权重和偏差;/>
Figure BDA0003155686760000131
为导数;
步骤C、当迭代收敛或迭代次数达到规定的最大次数,输出最优对抗式图像生成模块;否则r=r+1,重复步骤B。
本例中,步骤4中所述的当接收到的图像数据存在损坏、丢失、延迟到达时,目标图像的生成过程如下:
(6-1)跨模态通信系统接收端接收到的触觉信号
Figure BDA0003155686760000132
为:
Figure BDA0003155686760000133
其中,
Figure BDA0003155686760000134
分别为第k个触觉数据及其类别标签,M为待生成的目标图像总量;
(6-2)将
Figure BDA0003155686760000138
中的触觉数据输入编码器,获得触觉特征/>
Figure BDA0003155686760000135
再将其输入训练好的最优对抗式图像生成模块,输出即为生成的目标图像/>
Figure BDA0003155686760000136
具体过程如下:
Figure BDA0003155686760000137
下面通过具体实施例对本发明的技术方案做进一步阐述:
(1)仿真条件
本发明是在中央处理器为Intel(R)Core(TM)i3-21203.30GHZ、内存6G、windows10操作系统上,运用Python软件进行的实验仿真。
(2)仿真内容
本发明的方法与现有的跨模态图像生成方法进行了对比,作为对比的方法如下:
现有方法一:深度规范化相关自动编码器(Deep canonically correlated auto-encoder,DCCAE),最初提出用于从多视图图像数据中学习深度表示,由两个自动编码器组成,以典型的相关性和重构误差为约束条件进行训练。
现有方法二:条件对抗式生成网络(Conditional Generative AdversarialNetwork,CGAN),可以利用类别标签辅助触觉信号生成图像。
现有方法三:ACGAN(Auxiliary Classifier Generative Adversarial Network)是一种带有辅助分类器的条件图像合成方法。其中,分类器的输入被设置为噪声和触觉特征的组合。
现有方法四:AE-GAN(Auto Encoding-Generative Adversarial Network),将自动编码器与对抗式生成网络相结合,用于图像恢复。
(3)仿真结果
仿真实验中分别给出了DCCAE、CGAN、ACGAN、AE-GAN和本发明分别在单标签数据集LMT下所对应的MiroF1、MacroF1、ACC-SVM指标,指标越大,说明图像类别准确度越高,具体如表1所示。
表1 LMT数据集下以触觉生成图像的各类指标
Figure BDA0003155686760000141
结合图5的生成结果和表1的评估结果观察可知。我们的方法生成的图像类别准确度最高。这表明我们提出的模型优于其他模型,对于相同的生成目标,我们的模型在图像质量上具有最高清晰度,在语义上具有最高的准确度,同时也验证了跨模态配对网络在模型中的重要程度。
仿真实验中,画出了跨模态特征向量长度为64位、128位、256位、512位的IS曲线来评估跨模态图像生成模型的收敛能力,如图6。其中,IS曲线是指Inception Score指标,计算公式如下:
Figure BDA0003155686760000142
其中,y指感知网络对图像所预测的标签,当边缘分布p(y)与条件分布的散度越大,说明该图像所包含的内容越丰富,图像质量越好。
图1为实施例提供的电子设备的方框示意图,上述方法可以加载在图1提供的电子设备中。
简而言之,本发明公开的基于注意力机制的跨模态材料纹理图像生成方法,主要是用于大规模未配对数据集中触觉生成图像的应用,同时结合注意力机制构造跨模态交互网络,解决传统生成模型只能训练成对样本的局限性,采用普遍使用的Inception Score作为性能评价指标。本发明不仅考虑了样本的模态内相似性,还考虑了不同模态间的相似性,为以触觉生成对应图像的准确性提供了保障。其实现步骤为:(1)选取跨模态数据集(2)设置模型(3)训练模型,包括对触觉加速度和纹理图像样本进行特征提取;为触觉特征和图像特征构造注意力交互网络,将触觉特征映射到跨模态公共子空间,根据类别与分布对各模态的公共表示进行强配对;利用模态间与模态内相似性的损失函数进行跨分布对齐,同时保持各模态的类别一致性;结合均方误差构造对抗式生成模型;采用交替迭代方法训练网络;(4)图像生成。本发明利用注意机制网络,根据不同模态数据间的语义相关性,实现图像、触觉模态数据的强配对和语义融合,因而触觉生成对应图像的质量更优、类别精度更高,可用于3D游戏等多模态服务,提高用户的沉浸式体验。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围内。

Claims (10)

1.一种面向跨模态通信系统的图像重建方法,其特征在于,包括以下步骤:
步骤1、选取跨模态通信系统接收端所接收到的触觉信号和图像数据对,将触觉信号和图像数据对作为训练集;训练集中的每一个触觉信号、图像数据对中的图像数据都带有所属类别的标签信息;
步骤2、建立基于触觉信号的跨模态图像生成模型,该模型包括图像特征提取模块、基于注意力机制的跨模态语义学习模块和对抗式图像生成模块;其中,
图像特征提取模块包括卷积神经网络CNN和第一类别对抗网络,用于对训练集中图像数据进行特征提取,得到图像特征;
跨模态语义学习模块包括一个编码器、基于注意力机制的语义融合网络和第二类别对抗网络,编码器对训练集中的触觉信号进行特征提取,得到触觉特征;而后,触觉特征与图像特征一起输入基于注意力机制的语义融合网络,该网络在与该图像特征具有同标签的触觉特征之间进行相似度计算并经过sigmoid函数的操作,获得与当前图像特征所对应的各触觉特征的权重向量,再基于权重向量对各触觉特征进行加权求和,得到与当前图像特征最为相似的合成触觉特征;接着,第二类别对抗网络在对抗学习的作用下对合成触觉特征进行强化,保持触觉信号的类别特征和分布特征;
对抗式图像生成模块包括一个生成对抗网络,用于接收到强化后的合成触觉特征后,输出与该合成触觉特征具有同标签的生成图像;
步骤3、对基于触觉信号的跨模态图像生成模型进行训练,根据图像特征提取模块计算图像特征的模态内损失,根据基于注意力机制的跨模态语义学习模块计算合成触觉特征的模态内损失、合成触觉特征和图像特征之间的模间损失,根据对抗式图像生成模块并结合均方误差计算生成图像的对抗生成损失;将这些计算得到的损失用于更新跨模态图像生成模型的参数;当模型的参数收敛后,保存此时的最优跨模态图像生成模型及参数;
步骤4、在训练完成后,将跨模态通信系统接收端接收到的触觉信号输入训练好的上述跨模态图像生成模型,输出为目标图像。
2.根据权利要求1所述的一种面向跨模态通信系统的图像重建方法,其特征在于,步骤2中图像数据进行特征提取包括以下步骤:
(2-1)图像数据V经过卷积神经网络CNN获得图像特征v′(f),CNN包括多个卷积层,每层卷积层后面连接一个池化层;
(2-2)为v′(f)构建第一类别对抗网络,该第一类别对抗网络包括网络参数为θv的类别标签预测器fv(·)和网络参数为α的类别标签鉴别器D1,其中fv(·)由多个全连接层和一个softmax层组成,fv(·)的输入为图像特征v′(f),fv(·)的输出为所预测的类别标签v(c)=fv(v′(f);θv);类别标签鉴别器D1由多个依次连接的全连接层组成,最后一层维度为1,D1用于判别v(c)和图像特征v′(f)对应的真实标签yv;通过fv(·)与D1对抗训练,对v′(f)不断进行优化,最终提取具有类别特性的图像特征
Figure FDA0003155686750000021
其中,/>
Figure FDA0003155686750000022
为第i个图像数据的图像特征,N为图像数据总量。
3.根据权利要求2所述的一种面向跨模态通信系统的图像重建方法,其特征在于,第一类别对抗网络的对抗损失如下:
Figure FDA0003155686750000023
Figure FDA0003155686750000024
其中,
Figure FDA0003155686750000025
为类别标签鉴别器D1的对抗损失函数,/>
Figure FDA0003155686750000026
和/>
Figure FDA0003155686750000027
指对*求期望,D1(yv;α)指类别标签鉴别器对真实标签yv的判别结果,D1(v(c);α)指类别标签鉴别器对类别标签预测器输出的v(c)的判别结果,/>
Figure FDA0003155686750000028
为类别标签预测器fv(·)的对抗损失函数。
4.根据权利要求2所述的一种面向跨模态通信系统的图像重建方法,其特征在于,步骤2中基于注意力机制的跨模态语义学习模块的学习过程具体如下:
(3-1)触觉信号经过编码器获得触觉特征
Figure FDA0003155686750000029
其中,/>
Figure FDA00031556867500000210
为第j个触觉信号的触觉特征,N为触觉信号的数据总量,编码器包括门循环单元GRU和多个全连接层;
(3-2)基于注意力机制的语义融合网络匹配触觉特征和(2-2)提取的v(f),每一个
Figure FDA00031556867500000211
作为查询向量,筛选出与/>
Figure FDA00031556867500000212
所属同一类别的合成触觉特征/>
Figure FDA00031556867500000213
Figure FDA00031556867500000214
和/>
Figure FDA00031556867500000215
形成触觉-图像特征对,那么与v(f)对应的合成触觉特征为/>
Figure FDA00031556867500000216
具体如下:
3-2-1、将
Figure FDA0003155686750000031
和触觉特征h(f)输入基于注意力机制的语义融合网络,输出触觉的隐藏层表示向量/>
Figure FDA0003155686750000032
Figure FDA0003155686750000033
为第j个触觉特征/>
Figure FDA0003155686750000034
的隐藏层表示向量,其中,隐藏层为单层感知机结构,激活函数为Tanh()函数;具体过程如下:
Figure FDA0003155686750000035
其中,w和b是基于注意力机制的语义融合网络中隐藏层的网络参数;
3-2-2、计算
Figure FDA0003155686750000036
与/>
Figure FDA0003155686750000037
的皮尔逊相关系数,作为相似度:
Figure FDA0003155686750000038
Figure FDA0003155686750000039
其中,Simi,j
Figure FDA00031556867500000310
与/>
Figure FDA00031556867500000311
的相似度,/>
Figure FDA00031556867500000312
分别为/>
Figure FDA00031556867500000313
与/>
Figure FDA00031556867500000314
的类别标签,||·||1为L1范数;Ii,j是一个评分函数,用于减少触觉特征的冗余搜索和计算;
选择与
Figure FDA00031556867500000315
具有相同类别标签的触觉特征作为参与计算相似度Simi,j的触觉候选特征;
3-2-3、使用softmax()函数对相似度Simi,j进行归一化处理,得到注意力权重系数ai,j;再对触觉候选特征进行加权求和,得到与
Figure FDA00031556867500000316
所属同一类别的合成触觉特征/>
Figure FDA00031556867500000317
ai,j=softmax(Simi,j)
Figure FDA00031556867500000318
(3-3)利用配对模态间的语义信息约束图像特征和触觉特征,具体地,对所有图像特征与触觉特征计算模间损失目标函数:
Figure FDA00031556867500000319
其中,Lcro为图像特征与触觉特征的模间损失,
Figure FDA00031556867500000320
为第j个不与/>
Figure FDA00031556867500000321
配对的合成触觉特征,δ为限制/>
Figure FDA00031556867500000322
与/>
Figure FDA00031556867500000323
差距大小的阈值,||·||2为L2范数;
(3-4)为
Figure FDA0003155686750000041
构建第二类别对抗网络,该第二类别对抗包括网络参数为θh的类别标签预测器fh(·)和网络参数为β的类别标签鉴别器D2,其中类别标签预测器fh(·)包括多个全连接层和一个softmax层,输入为/>
Figure FDA0003155686750000042
输出为所预测的/>
Figure FDA0003155686750000043
的类别标签/>
Figure FDA0003155686750000044
类别标签鉴别器D2由多个全连接层依次连接组成,最后一层维度为1,D2用于判别/>
Figure FDA0003155686750000045
和/>
Figure FDA0003155686750000046
对应的真实标签yh的真假;通过类别标签预测器fh(·)与类别标签鉴别器D2对抗训练,对/>
Figure FDA0003155686750000047
不断进行优化,最终使得合成触觉特征/>
Figure FDA0003155686750000048
具有类别特性。
5.根据权利要求4所述的一种面向跨模态通信系统的图像重建方法,其特征在于,第二类别对抗网络的对抗损失如下:
Figure FDA0003155686750000049
Figure FDA00031556867500000410
其中,
Figure FDA00031556867500000411
为类别标签鉴别器D2的对抗损失函数,/>
Figure FDA00031556867500000412
和/>
Figure FDA00031556867500000413
指对*求期望,D2(yh;β)指类别标签鉴别器D2对真实标签yh的判别结果,β为类别标签鉴别器D2的网络参数,
Figure FDA00031556867500000414
指类别标签鉴别器D2对类别标签预测器输出的/>
Figure FDA00031556867500000415
的判别结果,/>
Figure FDA00031556867500000416
为类别标签预测器fh(·)的对抗损失函数。
6.根据权利要求1所述的一种面向跨模态通信系统的图像重建方法,其特征在于,步骤2中对抗式图像生成模块的学习过程包括以下步骤:
(4-1)采用条件生成对抗网络实现跨模态图像生成;具体地,生成对抗网络包括网络参数为η的图像生成器G和网络参数为γ的图像鉴别器D3,将
Figure FDA00031556867500000417
输入图像生成器G,输出对应的生成图像/>
Figure FDA00031556867500000418
G(*)为一种描述生成器输出生成图像的过程的函数,并将/>
Figure FDA00031556867500000419
与真实图像v组合输入图像鉴别器D3;图像鉴别器D3辨别所生成图像组/>
Figure FDA00031556867500000420
和真实图像组(v,v)的真假;
(4-2)结合重构损失与生成对抗网络的对抗生成损失函数来拟合数据分布;最终,图像生成器G的损失函数为:
Figure FDA00031556867500000421
其中,LG为图像生成器G的生成损失,E[*]为期望。
7.根据权利要求6所述的一种面向跨模态通信系统的图像重建方法,其特征在于,(4-1)中,生成对抗网络的对抗生成损失如下:
Figure FDA0003155686750000051
其中,L(G,D3)为图像生成器G和图像鉴别器D3的对抗损失,Ev[*]和
Figure FDA0003155686750000052
指对*求期望,D3(v,v;γ)为图像鉴别器D3对真实图像组(v,v)的判别结果,/>
Figure FDA0003155686750000053
为图像鉴别器D3对生成图像组/>
Figure FDA0003155686750000054
的判别结果,γ为图像鉴别器D3的网络参数。
8.根据权利要求1所述的一种面向跨模态通信系统的图像重建方法,其特征在于,步骤3中所述的基于触觉信号的跨模态图像生成模型训练过程包括以下步骤:
(5-1)由步骤1获取训练集:
Figure FDA0003155686750000055
其中,V,H分别为图像和触觉信号的训练数据,vi为第i个图像数据,
Figure FDA0003155686750000056
为vi对应的类别标签,hi为第i个触觉信号,/>
Figure FDA0003155686750000057
为hi对应的类别标签;
(5-2)初始化基于触觉信号的跨模态图像生成模型的网络参数{θv,α},{θh,η,(w,b),β,γ},并导入各模态数据的特征提取网络的预训练模型参数,模态数据是指触觉信号数据或图像数据;各模态数据的特征提取网络指编码器和图像特征提取模块中的CNN;
(5-3)利用随机梯度下降法最小化损失函数,迭代训练基于触觉信号的跨模态图像生成模型,直到收敛或迭代次数达到规定的最大次数,最大迭代次数为预设的:
步骤A、设置D1,D2,D3的学习率μ1和G的学习率μ2,迭代次数r=1;
步骤B、基于梯度下降法,从目标的负梯度方向对各个模块网络的参数进行更新:
Figure FDA0003155686750000058
Figure FDA0003155686750000059
Figure FDA00031556867500000510
Figure FDA00031556867500000511
Figure FDA00031556867500000512
Figure FDA00031556867500000513
Figure FDA00031556867500000514
其中,
Figure FDA00031556867500000515
为第一类别对抗网络的对抗损失,/>
Figure FDA00031556867500000516
为第二类别对抗网络的对抗损失,Lcro(*)为图像特征与触觉特征的模间损失,LG(*)为图像生成器G的损失函数;θv r+1h r+1,(wr+1,br+1),αr+1r+1r+1r+1和θv rh r,(wr,br),αrrrr分别为第r+1和第r次迭代后的类别标签预测器fv(·),类别标签预测器fh(·),基于注意力机制的语义融合网络的隐藏层参数,类别标签鉴别器D1,类别标签鉴别器D2,图像鉴别器D3和图像生成器G的网络参数集合;隐藏层参数包括权重和偏差;/>
Figure FDA0003155686750000061
为导数;
步骤C、当迭代收敛或迭代次数达到规定的最大次数,输出最优对抗式图像生成模块;否则r=r+1,重复步骤B。
9.根据权利要求1所述的一种面向跨模态通信系统的图像重建方法,其特征在于,步骤4中所述的目标图像的生成过程包括以下步骤:
(6-1)跨模态通信系统接收端接收到的触觉信号
Figure FDA0003155686750000062
为:
Figure FDA0003155686750000063
其中,
Figure FDA0003155686750000064
分别为第k个触觉数据及其类别标签,M为待生成的目标图像总量;
(6-2)将
Figure FDA0003155686750000065
中的触觉数据输入编码器,获得触觉特征/>
Figure FDA0003155686750000066
再将其输入训练好的最优对抗式图像生成模块,输出即为生成的目标图像/>
Figure FDA0003155686750000067
具体过程如下:
Figure FDA0003155686750000068
10.一种面向跨模态通信系统的图像重建装置,其特征在于,包括:
模型建立模块,用于获取图像数据和触觉信号,并建立基于触觉信号的跨模态图像生成模型;
模型分解模块,用于将跨模态图像生成模型分解为图像特征提取模块、基于注意力机制的跨模态语义学习模块和对抗式图像生成模块,其中,所述图像特征提取模块包含预训练参数θv,α,用于提取图像数据特征;基于注意力机制的跨模态语义学习模块包含网络参数θh,(w,b),β,用于图像特征与触觉特征的配对及语义融合;对抗式图像生成模块包含网络参数η,γ,用于触觉特征生成对应图像;
模型训练求解模块,用于求解所述基于触觉信号的跨模态图像生成模型,得到结果,并在求解过程中自适应更新模型网络参数;
目标图像获得重建模块,用于获取完整的触觉信号特征,利用对抗式图像生成模块,得到对应的图像,从而恢复存在损坏、丢失、延迟到达问题的图像数据。
CN202110776726.4A 2021-07-09 2021-07-09 一种面向跨模态通信系统的图像重建方法及装置 Active CN113628294B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110776726.4A CN113628294B (zh) 2021-07-09 2021-07-09 一种面向跨模态通信系统的图像重建方法及装置
US18/002,500 US11748919B2 (en) 2021-07-09 2022-07-01 Method of image reconstruction for cross-modal communication system and device thereof
PCT/CN2022/103303 WO2023280065A1 (zh) 2021-07-09 2022-07-01 一种面向跨模态通信系统的图像重建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110776726.4A CN113628294B (zh) 2021-07-09 2021-07-09 一种面向跨模态通信系统的图像重建方法及装置

Publications (2)

Publication Number Publication Date
CN113628294A CN113628294A (zh) 2021-11-09
CN113628294B true CN113628294B (zh) 2023-06-20

Family

ID=78379439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110776726.4A Active CN113628294B (zh) 2021-07-09 2021-07-09 一种面向跨模态通信系统的图像重建方法及装置

Country Status (3)

Country Link
US (1) US11748919B2 (zh)
CN (1) CN113628294B (zh)
WO (1) WO2023280065A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113628294B (zh) 2021-07-09 2023-06-20 南京邮电大学 一种面向跨模态通信系统的图像重建方法及装置
CN114359586B (zh) * 2021-12-01 2022-08-05 合肥工业大学 一种适用于模态缺失的多模态目标检测方法及系统
CN114595739B (zh) * 2022-01-12 2024-07-02 南京邮电大学 图像-触觉信号相互重建方法及装置
CN114897748A (zh) * 2022-04-02 2022-08-12 天津大学 一种基于深度学习的医学图像合成装置
CN114842384B (zh) * 2022-04-30 2024-05-31 南京邮电大学 一种面向6g的触觉模态信号重建方法
CN115908962B (zh) * 2022-06-13 2023-11-14 北京融合未来技术有限公司 神经网络的训练方法、脉冲信号重构图像生成方法及装置
CN115691788B (zh) * 2022-10-27 2023-07-14 北京理工大学 一种基于异构数据的双重注意力耦合网络糖尿病分类系统
CN115859175B (zh) * 2023-02-16 2023-05-23 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于跨模态生成式学习的液压减震器设备异常检测方法
CN116939320B (zh) * 2023-06-12 2024-06-18 南京邮电大学 一种生成式多模态互利增强视频语义通信方法
CN116502069B (zh) * 2023-06-25 2023-09-12 四川大学 一种基于深度学习的触觉时序信号识别方法
CN116628559B (zh) * 2023-07-20 2023-11-10 南方海洋科学与工程广东省实验室(广州) 水下大数据计算综合实验分类系统、分类模型的训练方法
CN116994070B (zh) * 2023-09-25 2023-12-01 四川大学 基于可度量子空间动态分类器的牙齿图像处理方法及设备
CN117611924B (zh) * 2024-01-17 2024-04-09 贵州大学 一种基于图文子空间联合学习的植物叶片表型病害分类方法
CN117648921B (zh) * 2024-01-29 2024-05-03 山东财经大学 基于成对双层对抗对齐的跨主题作文自动测评方法及系统
CN117854009A (zh) * 2024-01-29 2024-04-09 南通大学 一种交叉协作融合的轻量化跨模态人群计数方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5907351A (en) * 1995-10-24 1999-05-25 Lucent Technologies Inc. Method and apparatus for cross-modal predictive coding for talking head sequences
US10248664B1 (en) * 2018-07-02 2019-04-02 Inception Institute Of Artificial Intelligence Zero-shot sketch-based image retrieval techniques using neural networks for sketch-image recognition and retrieval
CN112905822A (zh) * 2021-02-02 2021-06-04 华侨大学 一种基于注意力机制的深度监督跨模态对抗学习方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9880623B2 (en) * 2013-01-24 2018-01-30 Immersion Corporation Friction modulation for three dimensional relief in a haptic device
US10600290B2 (en) * 2016-12-14 2020-03-24 Immersion Corporation Automatic haptic generation based on visual odometry
US10133964B2 (en) * 2017-03-28 2018-11-20 Siemens Healthcare Gmbh Magnetic resonance image reconstruction system and method
CN110516085B (zh) * 2019-07-11 2022-05-17 西安电子科技大学 基于双向注意力的图像文本互检索方法
CN111461203A (zh) * 2020-03-30 2020-07-28 北京百度网讯科技有限公司 跨模态处理方法、装置、电子设备和计算机存储介质
CN112949707B (zh) 2021-02-26 2024-02-09 西安电子科技大学 一种基于多尺度语义信息监督的跨模态人脸图像生成方法
US20220300585A1 (en) * 2021-03-22 2022-09-22 Servicenow, Inc. Cross-Modality Curiosity for Sparse-Reward Tasks
CN113628294B (zh) 2021-07-09 2023-06-20 南京邮电大学 一种面向跨模态通信系统的图像重建方法及装置
US20230041294A1 (en) * 2021-08-03 2023-02-09 Sony Interactive Entertainment Inc. Augmented reality (ar) pen/hand tracking

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5907351A (en) * 1995-10-24 1999-05-25 Lucent Technologies Inc. Method and apparatus for cross-modal predictive coding for talking head sequences
US10248664B1 (en) * 2018-07-02 2019-04-02 Inception Institute Of Artificial Intelligence Zero-shot sketch-based image retrieval techniques using neural networks for sketch-image recognition and retrieval
CN112905822A (zh) * 2021-02-02 2021-06-04 华侨大学 一种基于注意力机制的深度监督跨模态对抗学习方法

Also Published As

Publication number Publication date
CN113628294A (zh) 2021-11-09
US20230196633A1 (en) 2023-06-22
US11748919B2 (en) 2023-09-05
WO2023280065A1 (zh) 2023-01-12

Similar Documents

Publication Publication Date Title
CN113628294B (zh) 一种面向跨模态通信系统的图像重建方法及装置
CN109472232B (zh) 基于多模态融合机制的视频语义表征方法、系统及介质
CN110083705B (zh) 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
Hu et al. Learning supervised scoring ensemble for emotion recognition in the wild
CN108229444B (zh) 一种基于整体和局部深度特征融合的行人再识别方法
CN112784764B (zh) 一种基于局部与全局注意力机制的表情识别方法及系统
CN109783666B (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN111310672A (zh) 基于时序多模型融合建模的视频情感识别方法、装置及介质
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN111126488A (zh) 一种基于双重注意力的图像识别方法
CN113239801B (zh) 基于多尺度特征学习和多级域对齐的跨域动作识别方法
CN109753571A (zh) 一种基于二次主题空间投影的场景图谱低维空间嵌入方法
WO2020177214A1 (zh) 一种基于文本不同特征空间的双流式视频生成方法
CN110175248B (zh) 一种基于深度学习和哈希编码的人脸图像检索方法和装置
CN110349179B (zh) 一种基于多适配器的可见光红外视觉跟踪方法及装置
Yue et al. Action recognition based on RGB and skeleton data sets: A survey
CN111178319A (zh) 基于压缩奖惩机制的视频行为识别方法
CN113128424B (zh) 基于注意力机制的图卷积神经网络动作识别方法
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
CN113628059A (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN112784929A (zh) 一种基于双元组扩充的小样本图像分类方法及装置
CN111368142A (zh) 一种基于生成对抗网络的视频密集事件描述方法
CN113987236A (zh) 基于图卷积网络的视觉检索模型的无监督训练方法和装置
CN113627543A (zh) 一种对抗攻击检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant