CN113628294B - 一种面向跨模态通信系统的图像重建方法及装置 - Google Patents
一种面向跨模态通信系统的图像重建方法及装置 Download PDFInfo
- Publication number
- CN113628294B CN113628294B CN202110776726.4A CN202110776726A CN113628294B CN 113628294 B CN113628294 B CN 113628294B CN 202110776726 A CN202110776726 A CN 202110776726A CN 113628294 B CN113628294 B CN 113628294B
- Authority
- CN
- China
- Prior art keywords
- image
- haptic
- network
- cross
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 92
- 230000006854 communication Effects 0.000 title claims abstract description 43
- 238000004891 communication Methods 0.000 title claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 46
- 230000007246 mechanism Effects 0.000 claims abstract description 34
- 239000010410 layer Substances 0.000 claims description 56
- 230000006870 function Effects 0.000 claims description 38
- 238000000605 extraction Methods 0.000 claims description 29
- 230000004927 fusion Effects 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 23
- 238000013527 convolutional neural network Methods 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 16
- 238000009826 distribution Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000008485 antagonism Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 230000003111 delayed effect Effects 0.000 claims description 3
- 239000013604 expression vector Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 239000002356 single layer Substances 0.000 claims description 3
- 235000010627 Phaseolus vulgaris Nutrition 0.000 claims description 2
- 244000046052 Phaseolus vulgaris Species 0.000 claims description 2
- 239000002131 composite material Substances 0.000 claims description 2
- 238000000354 decomposition reaction Methods 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 abstract description 8
- 230000003993 interaction Effects 0.000 abstract description 4
- 230000000875 corresponding effect Effects 0.000 description 17
- 238000005457 optimization Methods 0.000 description 9
- 230000000007 visual effect Effects 0.000 description 8
- 238000004088 simulation Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B6/00—Tactile signalling systems, e.g. personal calling systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种面向跨模态通信系统的图像重建方法,所述方法利用跨模态通信系统中接收端所接收到完整触觉信号对传输过程中所存在的缺失图像进行重建,同时结合注意力机制构造跨模态交互网络,解决传统生成模型只能训练成对样本的局限性。本发明还公开了一种面向跨模态通信系统的图像重建装置。本发明充分利用不同模态数据间的语义相关性,针对未配对数据实现触觉信号到图像的跨模态生成,克服跨模态通信系统中用于实际的训练触觉信号—图像数据难以成对采集的问题,显著提高了生成图像的质量和类别精度。
Description
技术领域
本发明涉及跨模态图像生成领域,特别是一种面向跨模态通信系统的图像重建方法及装置。
背景技术
跨模态通信是一种以视觉、音频、触觉信号协调传输和联合处理为目标的新型通信技术,支持跨模态多媒体服务,具有多维度融合、沉浸式感官体验更丰富等特点。然而,在跨模态通信过程中,往往存在传输容量有限及传输干扰等问题,造成终端接收图像数据模糊甚至全部丢失。
针对传输过程中各种干扰因素,相关学者提出了一系列图像恢复的方法。比如,为了去除图像恢复中的脉冲噪声,提出基于全变分的稀疏优化方法;为了解决传输中的丢包现象,利用光流算法的信息与邻近的可用帧进行恢复。上述图像恢复方法主要是在视觉模态内借助其他完整的图像或视频帧进行恢复。然而,在多模态应用中,多模态流存在共存和竞争现象,可能会导致视频流在传输过程中严重受损或丢失。因此,上述方法不适用于跨模态传输。
由于在跨模态通信中,视觉信号和触觉信号并存,传递的内容在模态间具有内在的语义一致性。并且与视觉图像相比,触觉信号通常具有更高的优先级,接收端接收到的触觉信号的完整性更好。因此,可以利用触觉信号和内在语义信息进行缺失或受损的视觉图像生成,即触觉到图像的跨模态生成。
近年来,跨模态信号处理技术也成为一项热门的研究,其思想是挖掘文本、声音、视频等形式之间的语义,以执行检索和重构等任务。但这些方法要求成对数据作为训练集,不适用于难以采集成对数据的实际应用场景,因此设计更好的方法是相关工作者亟需解决的难题。
发明内容
本发明所要解决的技术问题是克服现有技术的不足而提供一种面向跨模态通信系统的图像重建方法及装置,该技术能够实现针对未配对数据的触觉到图像的跨模态生成任务。
本发明为解决上述技术问题采用以下技术方案:
根据本发明提出的一种面向跨模态通信系统的图像重建方法,包括以下步骤:
步骤1、选取跨模态通信系统接收端所接收到的触觉信号和图像数据对,将触觉信号和图像数据对作为训练集;训练集中的每一个触觉信号、图像数据对中的图像数据都带有所属类别的标签信息;
步骤2、建立基于触觉信号的跨模态图像生成模型,该模型包括图像特征提取模块、基于注意力机制的跨模态语义学习模块和对抗式图像生成模块;其中,
图像特征提取模块包括卷积神经网络CNN和第一类别对抗网络,用于对训练集中图像数据进行特征提取,得到图像特征;
跨模态语义学习模块包括一个编码器、基于注意力机制的语义融合网络和第二类别对抗网络,编码器对训练集中的触觉信号进行特征提取,得到触觉特征;而后,触觉特征与图像特征一起输入基于注意力机制的语义融合网络,该网络在与该图像特征具有同标签的触觉特征之间进行相似度计算并经过sigmoid函数的操作,获得与当前图像特征所对应的各触觉特征的权重向量,再基于权重向量对各触觉特征进行加权求和,得到与当前图像特征最为相似的合成触觉特征;接着,第二类别对抗网络在对抗学习的作用下对合成触觉特征进行强化,保持触觉信号的类别特征和分布特征;
对抗式图像生成模块包括一个生成对抗网络,用于接收到强化后的合成触觉特征后,输出与该合成触觉特征具有同标签的生成图像;
步骤3、对基于触觉信号的跨模态图像生成模型进行训练,根据图像特征提取模块计算图像特征的模态内损失,根据基于注意力机制的跨模态语义学习模块计算合成触觉特征的模态内损失、合成触觉特征和图像特征之间的模间损失,根据对抗式图像生成模块并结合均方误差计算生成图像的对抗生成损失;将这些计算得到的损失用于更新跨模态图像生成模型的参数;当模型的参数收敛后,保存此时的最优跨模态图像生成模型及参数;
步骤4、在训练完成后,将跨模态通信系统接收端接收到的触觉信号输入训练好的上述跨模态图像生成模型,输出为目标图像。
作为本发明所述的一种面向跨模态通信系统的图像重建方法进一步优化方案,步骤2中图像数据进行特征提取包括以下步骤:
(2-1)图像数据V经过卷积神经网络CNN获得图像特征v′(f),CNN包括多个卷积层,每层卷积层后面连接一个池化层;
(2-2)为v′(f)构建第一类别对抗网络,该第一类别对抗网络包括网络参数为θv的类别标签预测器fv(·)和网络参数为α的类别标签鉴别器D1,其中fv(·)由多个全连接层和一个softmax层组成,fv(·)的输入为图像特征v′(f),fv(·)的输出为所预测的类别标签v(c)=fv(v′(f);θv);类别标签鉴别器D1由多个依次连接的全连接层组成,最后一层维度为1,D1用于判别v(c)和图像特征v′(f)对应的真实标签yv;通过fv(·)与D1对抗训练,对v′(f)不断进行优化,最终提取具有类别特性的图像特征其中,/>为第i个图像数据的图像特征,N为图像数据总量。
作为本发明所述的一种面向跨模态通信系统的图像重建方法进一步优化方案,第一类别对抗网络的对抗损失如下:
其中,为类别标签鉴别器D1的对抗损失函数,/>和/>指对*求期望,D1(yv;α)指类别标签鉴别器对真实标签yv的判别结果,D1(v(c);α)指类别标签鉴别器对类别标签预测器输出的v(c)的判别结果,/>为类别标签预测器fv(·)的对抗损失函数。
作为本发明所述的一种面向跨模态通信系统的图像重建方法进一步优化方案,步骤2中基于注意力机制的跨模态语义学习模块的学习过程具体如下:
(3-2)基于注意力机制的语义融合网络匹配触觉特征和(2-2)提取的v(f),每一个作为查询向量,筛选出与/>所属同一类别的合成触觉特征/> 和/>形成触觉-图像特征对,那么与v(f)对应的合成触觉特征为/>具体如下:
3-2-1、将和触觉特征h(f)输入基于注意力机制的语义融合网络,输出触觉的隐藏层表示向量/> 为第j个触觉特征/>的隐藏层表示向量,其中,隐藏层为单层感知机结构,激活函数为Tanh()函数;具体过程如下:
其中,w和b是基于注意力机制的语义融合网络中隐藏层的网络参数;
ai,j=softmax(Simi,j)
(3-3)利用配对模态间的语义信息约束图像特征和触觉特征,具体地,对所有图像特征与触觉特征计算模间损失目标函数:
(3-4)为构建第二类别对抗网络,该第二类别对抗包括网络参数为θh的类别标签预测器fh(·)和网络参数为β的类别标签鉴别器D2,其中类别标签预测器fh(·)包括多个全连接层和一个softmax层,输入为/>输出为所预测的/>的类别标签/>类别标签鉴别器D2由多个全连接层依次连接组成,最后一层维度为1,D2用于判别/>和/>对应的真实标签yh的真假;通过类别标签预测器fh(·)与类别标签鉴别器D2对抗训练,对不断进行优化,最终使得合成触觉特征/>具有类别特性。
作为本发明所述的一种面向跨模态通信系统的图像重建方法进一步优化方案,第二类别对抗网络的对抗损失如下:
其中,为类别标签鉴别器D2的对抗损失函数,/>和/>指对*求期望,D2(yh;β)指类别标签鉴别器D2对真实标签yh的判别结果,β为类别标签鉴别器D2的网络参数,/>指类别标签鉴别器D2对类别标签预测器输出的/>的判别结果,/>为类别标签预测器fh(·)的对抗损失函数。
作为本发明所述的一种面向跨模态通信系统的图像重建方法进一步优化方案,步骤2中对抗式图像生成模块的学习过程包括以下步骤:
(4-1)采用条件生成对抗网络实现跨模态图像生成;具体地,生成对抗网络包括网络参数为η的图像生成器G和网络参数为γ的图像鉴别器D3,将输入图像生成器G,输出对应的生成图像/>G(*)为一种描述生成器输出生成图像的过程的函数,并将与真实图像v组合输入图像鉴别器D3;图像鉴别器D3辨别所生成图像组/>和真实图像组(v,v)的真假;
(4-2)结合重构损失与生成对抗网络的对抗生成损失函数来拟合数据分布;最终,图像生成器G的损失函数为:
其中,LG为图像生成器G的生成损失,E[*]为期望。
作为本发明所述的一种面向跨模态通信系统的图像重建方法进一步优化方案,(4-1)中,生成对抗网络的对抗生成损失如下:
其中,L(G,D3)为图像生成器G和图像鉴别器D3的对抗损失,Ev[*]和指对*求期望,D3(v,v;γ)为图像鉴别器D3对真实图像组(v,v)的判别结果,/>为图像鉴别器D3对生成图像组/>的判别结果,γ为图像鉴别器D3的网络参数。
作为本发明所述的一种面向跨模态通信系统的图像重建方法进一步优化方案,步骤3中所述的基于触觉信号的跨模态图像生成模型训练过程包括以下步骤:
(5-1)由步骤1获取训练集:
(5-2)初始化基于触觉信号的跨模态图像生成模型的网络参数{θv,α},{θh,η,(w,b),β,γ},并导入各模态数据的特征提取网络的预训练模型参数,模态数据是指触觉信号数据或图像数据;各模态数据的特征提取网络指编码器和图像特征提取模块中的CNN;
(5-3)利用随机梯度下降法最小化损失函数,迭代训练基于触觉信号的跨模态图像生成模型,直到收敛或迭代次数达到规定的最大次数,最大迭代次数为预设的:
步骤A、设置D1,D2,D3的学习率μ1和G的学习率μ2,迭代次数r=1;
步骤B、基于梯度下降法,从目标的负梯度方向对各个模块网络的参数进行更新:
其中,为第一类别对抗网络的对抗损失,/>为第二类别对抗网络的对抗损失,Lcro(*)为图像特征与触觉特征的模间损失,LG(*)为图像生成器G的损失函数;θv r+1,θh r+1,(wr+1,br+1),αr+1,βr+1,γr+1,ηr+1和θv r,θh r,(wr,br),αr,βr,γr,ηr分别为第r+1和第r次迭代后的类别标签预测器fv(·),类别标签预测器fh(·),基于注意力机制的语义融合网络的隐藏层参数,类别标签鉴别器D1,类别标签鉴别器D2,图像鉴别器D3和图像生成器G的网络参数集合;隐藏层参数包括权重和偏差;/>为导数;
步骤C、当迭代收敛或迭代次数达到规定的最大次数,输出最优对抗式图像生成模块;否则r=r+1,重复步骤B。
作为本发明所述的一种面向跨模态通信系统的图像重建方法进一步优化方案,步骤4中所述的目标图像的生成过程包括以下步骤:
一种面向跨模态通信系统的图像重建装置,包括:
模型建立模块,用于获取图像数据和触觉信号,并建立基于触觉信号的跨模态图像生成模型;
模型分解模块,用于将跨模态图像生成模型分解为图像特征提取模块、基于注意力机制的跨模态语义学习模块和对抗式图像生成模块,其中,所述图像特征提取模块包含预训练参数θv,α,用于提取图像数据特征;基于注意力机制的跨模态语义学习模块包含网络参数θh,(w,b),β,用于图像特征与触觉特征的配对及语义融合;对抗式图像生成模块包含网络参数η,γ,用于触觉特征生成对应图像;
模型训练求解模块,用于求解所述基于触觉信号的跨模态图像生成模型,得到结果,并在求解过程中自适应更新模型网络参数;
目标图像获得重建模块,用于获取完整的触觉信号特征,利用对抗式图像生成模块,得到对应的图像,从而恢复存在损坏、丢失、延迟到达问题的图像数据。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
(1)实现针对未配对数据的触觉到图像的跨模态生成任务,有效解决了跨模态通信中视觉信号延时或丢包导致地不完整问题,提高用户的沉浸式体验;
(2)这种方法能够挖掘视觉模态和触觉模态间的语义相关性,构造跨模态公共子空间,从而弥补异构数据间的鸿沟,同时设计注意力交互网络,使得生成模型能够训练未配对的异构数据并提高生成图像的质量和类别精确度。
附图说明
图1为实施例提供的电子设备的方框示意图。
图2为本发明方法的具体实现流程图。
图3为实施例的跨模态图像生成模型结构示意图。
图4为实施例的注意力网络结构示意图。
图5为实施例中验证模型生成图像性能的结果图。
图6为实施例中验证模型收敛性能的结果图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述。
参照图2,一种面向跨模态通信系统的图像重建方法及装置,包括如下步骤:
步骤1、选取跨模态通信系统接收端所接收到的触觉信号和图像数据对,将触觉信号和图像数据对作为训练集;训练集中的每一个触觉信号、图像数据对中的图像数据都带有所属类别的标签信息;
步骤2、建立基于触觉信号的跨模态图像生成模型,如图3所示,该模型包括图像特征提取模块、基于注意力机制的跨模态语义学习模块和对抗式图像生成模块;其中,
图像特征提取模块包括卷积神经网络(Convolutional Neural Networks,CNN)和第一类别对抗网络,用于对训练集中图像数据进行特征提取,得到图像特征;
跨模态语义学习模块包括一个编码器、基于注意力机制的语义融合网络和第二类别对抗网络,编码器对训练集中的触觉信号进行特征提取,得到触觉特征;而后,触觉特征与图像特征一起输入基于注意力机制的语义融合网络,该网络在与该图像特征具有同标签的触觉特征之间进行相似度计算并经过sigmoid函数的操作,获得与当前图像特征所对应的各触觉特征的权重向量,再基于权重向量对各触觉特征进行加权求和,得到与当前图像特征最为相似的合成触觉特征;接着,第二类别对抗网络在对抗学习的作用下对合成触觉特征进行强化,保持触觉信号的类别特征和分布特征;
对抗式图像生成模块包括一个生成对抗网络,用于接收到强化后的合成触觉特征后,输出与该合成触觉特征具有同标签的生成图像;
步骤3、对基于触觉信号的跨模态图像生成模型进行训练,根据图像特征提取模块计算图像特征的模态内损失,根据基于注意力机制的跨模态语义学习模块计算合成触觉特征的模态内损失、合成触觉特征和图像特征之间的模间损失,根据对抗式图像生成模块并结合均方误差计算生成图像的对抗生成损失;将这些计算得到的损失用于更新跨模态图像生成模型的参数;当模型的参数收敛后,保存此时的最优跨模态图像生成模型及参数;
步骤4、在训练完成后,将跨模态通信系统接收端接收到的触觉信号输入训练好的上述跨模态图像生成模型,输出为目标图像。
本例中,步骤3所述的图像特征提取的实现过程如下:
(1)大小为128×128的图像V经过卷积神经网络(CNN)获得图像特征v′(f),其中,N为图像数据总量,CNN由四个卷积层和池化层组成,卷积核数分别为512,256,128,64,卷积核大小为5×5。
(2)为图像特征v′(f)构建网络参数为θv的类别标签预测器f(·)和网络参数为α的判别器D1,其中预测器由2层全连接层和一个softmax层组成,输出维度分别为1024,128,8,输出预测的类别标签v(c)=f(v′(f);θv);判别器D1由四层全连接层组成,维度分别为512,1024,512,1,最后输出一个(0,1)范围内的数表示输入特征为真实特征的概率,用于判别v(c)和真实标签y。通过预测器与判别器D1对抗训练,提取的图像特征将具有类别特性。对抗损失如下:
本例中,步骤3所述的基于注意力机制的跨模态语义学习的实现过程如下:
(1)触觉信号H经过编码器获得触觉初始特征其中,N为触觉信号的数据总量,编码器由门循环单元(Gated Recurrent Unit,GRU)和两层全连接层组成。GRU有一个重置门和更新门,设置单元数为256,输出维度为64,全连接层输出维度分别为1024,64。
3-2-1、将和触觉特征h(f)输入基于注意力机制的语义融合网络,输出触觉的隐藏层表示向量/> 为第j个触觉特征/>的隐藏层表示向量,其中,隐藏层为单层感知机结构,激活函数为Tanh()函数;具体过程如下:
其中,w和b是基于注意力机制的语义融合网络中隐藏层的网络参数;
ai,j=softmax(Simi,j)
(3)利用配对模态间的语义信息约束视觉和触觉特征,要求不同模态间配对特征向量的距离小,不配对的特征向量之间的距离大。具体地,对所有图像特征与触觉特征计算模间损失目标函数:
(4)为构建第二类别对抗网络,该第二类别对抗包括网络参数为θh的类别标签预测器fh(·)和网络参数为β的类别标签鉴别器D2,其中类别标签预测器fh(·)包括多个全连接层和一个softmax层,输入为/>输出为所预测的/>的类别标签/>输出维度分别为1024,128,8;判别器D2由四层全连接层组成,维度分别为512,1024,512,1,最后输出一个(0,1)范围内的数表示输入特征为真实特征的概率,用于判别/>和真实标签y的真假;类别标签鉴别器D2由多个全连接层依次连接组成,最后一层维度为1,D2用于判别和/>对应的真实标签yh的真假;通过类别标签预测器fh(·)与类别标签鉴别器D2对抗训练,对/>不断进行优化,最终使得合成触觉特征/>具有类别特性。
第二类别对抗网络的对抗损失如下:
其中,为类别标签鉴别器D2的对抗损失函数,/>和/>指对*求期望,D2(yh;β)指类别标签鉴别器D2对真实标签yh的判别结果,β为类别标签鉴别器D2的网络参数,/>指类别标签鉴别器D2对类别标签预测器输出的/>的判别结果,/>为类别标签预测器fh(·)的对抗损失函数。
本例中,最小化配对视、触觉模态特征向量的距离,可以增强公共空间上两者的语义相关性,解决模态间的异构问题;最小化各模态中同类别特征向量的距离,可以使映射前后样本的类别与分布信息保持一致。
本例中,步骤3所述的结合均方误差构造对抗式图像生成的实现过程如下:
(1)采用条件生成对抗网络实现跨模态图像生成;具体地,将合成触觉特征输入网络参数为η的生成器G,输出对应的生成图像/>并将其与真实图像v组合输入网络参数为γ的判别器D3;图像判别器D3辨别所生成图像组/>和真实图像组(v,v)的真假。具体过程如下:
生成对抗网络的对抗生成损失如下:
其中,L(G,D3)为图像生成器G和图像鉴别器D3的对抗损失,Ev[*]和指对*求期望,D3(v,v;γ)为图像鉴别器D3对真实图像组(v,v)的判别结果,/>为图像鉴别器D3对生成图像组/>的判别结果,γ为图像鉴别器D3的网络参数。
在这个模块中,图像生成器G,包含2个全连接层和四个反卷积层,全连接层的维度分别为128,1024,反卷积的数量为64,128,256,512,输出为128x128的彩色图像图像判别器D3包含四个卷积层和2个全连接层,卷积层输出维度为512,256,128,64,卷积核大小为5x5,全连接层的维度为1024,1,最后输出一个(0,1)范围内的数表示输入特征为真实特征的概率。
(2)为了对生成图像和真实图像同时进行全局结构级别与像素级别的约束,结合重构损失与生成对抗网络的对抗生成损失函数来更好地拟合数据分布。最终,图像生成器G的损失函数为:
其中,LG为图像生成器G的生成损失,E[*]为期望。
本例中,步骤3所述的模型训练的实现过程如下:
(5-1)由步骤1获取训练集:
(5-2)初始化基于触觉信号的跨模态图像生成模型的网络参数{θv,α},{θh,η,(w,b),β,γ},并导入各模态数据的特征提取网络的预训练模型参数,模态数据是指触觉信号数据或图像数据;各模态数据的特征提取网络指编码器和图像特征提取模块中的CNN;
(5-3)利用随机梯度下降法最小化损失函数,迭代训练基于触觉信号的跨模态图像生成模型,直到收敛或迭代次数达到规定的最大次数,最大迭代次数为预设的:
步骤A、设置D1,D2,D3的学习率μ1和G的学习率μ2,迭代次数r=1;
步骤B、基于梯度下降法,从目标的负梯度方向对各个模块网络的参数进行更新:
其中,为第一类别对抗网络的对抗损失,/>为第二类别对抗网络的对抗损失,Lcro(*)为图像特征与触觉特征的模间损失,LG(*)为图像生成器G的损失函数;θv r+1,θh r+1,(wr+1,br+1),αr+1,βr+1,γr+1,ηr+1和θv r,θh r,(wr,br),αr,βr,γr,ηr分别为第r+1和第r次迭代后的类别标签预测器fv(·),类别标签预测器fh(·),基于注意力机制的语义融合网络的隐藏层参数,类别标签鉴别器D1,类别标签鉴别器D2,图像鉴别器D3和图像生成器G的网络参数集合;隐藏层参数包括权重和偏差;/>为导数;
步骤C、当迭代收敛或迭代次数达到规定的最大次数,输出最优对抗式图像生成模块;否则r=r+1,重复步骤B。
本例中,步骤4中所述的当接收到的图像数据存在损坏、丢失、延迟到达时,目标图像的生成过程如下:
下面通过具体实施例对本发明的技术方案做进一步阐述:
(1)仿真条件
本发明是在中央处理器为Intel(R)Core(TM)i3-21203.30GHZ、内存6G、windows10操作系统上,运用Python软件进行的实验仿真。
(2)仿真内容
本发明的方法与现有的跨模态图像生成方法进行了对比,作为对比的方法如下:
现有方法一:深度规范化相关自动编码器(Deep canonically correlated auto-encoder,DCCAE),最初提出用于从多视图图像数据中学习深度表示,由两个自动编码器组成,以典型的相关性和重构误差为约束条件进行训练。
现有方法二:条件对抗式生成网络(Conditional Generative AdversarialNetwork,CGAN),可以利用类别标签辅助触觉信号生成图像。
现有方法三:ACGAN(Auxiliary Classifier Generative Adversarial Network)是一种带有辅助分类器的条件图像合成方法。其中,分类器的输入被设置为噪声和触觉特征的组合。
现有方法四:AE-GAN(Auto Encoding-Generative Adversarial Network),将自动编码器与对抗式生成网络相结合,用于图像恢复。
(3)仿真结果
仿真实验中分别给出了DCCAE、CGAN、ACGAN、AE-GAN和本发明分别在单标签数据集LMT下所对应的MiroF1、MacroF1、ACC-SVM指标,指标越大,说明图像类别准确度越高,具体如表1所示。
表1 LMT数据集下以触觉生成图像的各类指标
结合图5的生成结果和表1的评估结果观察可知。我们的方法生成的图像类别准确度最高。这表明我们提出的模型优于其他模型,对于相同的生成目标,我们的模型在图像质量上具有最高清晰度,在语义上具有最高的准确度,同时也验证了跨模态配对网络在模型中的重要程度。
仿真实验中,画出了跨模态特征向量长度为64位、128位、256位、512位的IS曲线来评估跨模态图像生成模型的收敛能力,如图6。其中,IS曲线是指Inception Score指标,计算公式如下:
其中,y指感知网络对图像所预测的标签,当边缘分布p(y)与条件分布的散度越大,说明该图像所包含的内容越丰富,图像质量越好。
图1为实施例提供的电子设备的方框示意图,上述方法可以加载在图1提供的电子设备中。
简而言之,本发明公开的基于注意力机制的跨模态材料纹理图像生成方法,主要是用于大规模未配对数据集中触觉生成图像的应用,同时结合注意力机制构造跨模态交互网络,解决传统生成模型只能训练成对样本的局限性,采用普遍使用的Inception Score作为性能评价指标。本发明不仅考虑了样本的模态内相似性,还考虑了不同模态间的相似性,为以触觉生成对应图像的准确性提供了保障。其实现步骤为:(1)选取跨模态数据集(2)设置模型(3)训练模型,包括对触觉加速度和纹理图像样本进行特征提取;为触觉特征和图像特征构造注意力交互网络,将触觉特征映射到跨模态公共子空间,根据类别与分布对各模态的公共表示进行强配对;利用模态间与模态内相似性的损失函数进行跨分布对齐,同时保持各模态的类别一致性;结合均方误差构造对抗式生成模型;采用交替迭代方法训练网络;(4)图像生成。本发明利用注意机制网络,根据不同模态数据间的语义相关性,实现图像、触觉模态数据的强配对和语义融合,因而触觉生成对应图像的质量更优、类别精度更高,可用于3D游戏等多模态服务,提高用户的沉浸式体验。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围内。
Claims (10)
1.一种面向跨模态通信系统的图像重建方法,其特征在于,包括以下步骤:
步骤1、选取跨模态通信系统接收端所接收到的触觉信号和图像数据对,将触觉信号和图像数据对作为训练集;训练集中的每一个触觉信号、图像数据对中的图像数据都带有所属类别的标签信息;
步骤2、建立基于触觉信号的跨模态图像生成模型,该模型包括图像特征提取模块、基于注意力机制的跨模态语义学习模块和对抗式图像生成模块;其中,
图像特征提取模块包括卷积神经网络CNN和第一类别对抗网络,用于对训练集中图像数据进行特征提取,得到图像特征;
跨模态语义学习模块包括一个编码器、基于注意力机制的语义融合网络和第二类别对抗网络,编码器对训练集中的触觉信号进行特征提取,得到触觉特征;而后,触觉特征与图像特征一起输入基于注意力机制的语义融合网络,该网络在与该图像特征具有同标签的触觉特征之间进行相似度计算并经过sigmoid函数的操作,获得与当前图像特征所对应的各触觉特征的权重向量,再基于权重向量对各触觉特征进行加权求和,得到与当前图像特征最为相似的合成触觉特征;接着,第二类别对抗网络在对抗学习的作用下对合成触觉特征进行强化,保持触觉信号的类别特征和分布特征;
对抗式图像生成模块包括一个生成对抗网络,用于接收到强化后的合成触觉特征后,输出与该合成触觉特征具有同标签的生成图像;
步骤3、对基于触觉信号的跨模态图像生成模型进行训练,根据图像特征提取模块计算图像特征的模态内损失,根据基于注意力机制的跨模态语义学习模块计算合成触觉特征的模态内损失、合成触觉特征和图像特征之间的模间损失,根据对抗式图像生成模块并结合均方误差计算生成图像的对抗生成损失;将这些计算得到的损失用于更新跨模态图像生成模型的参数;当模型的参数收敛后,保存此时的最优跨模态图像生成模型及参数;
步骤4、在训练完成后,将跨模态通信系统接收端接收到的触觉信号输入训练好的上述跨模态图像生成模型,输出为目标图像。
2.根据权利要求1所述的一种面向跨模态通信系统的图像重建方法,其特征在于,步骤2中图像数据进行特征提取包括以下步骤:
(2-1)图像数据V经过卷积神经网络CNN获得图像特征v′(f),CNN包括多个卷积层,每层卷积层后面连接一个池化层;
4.根据权利要求2所述的一种面向跨模态通信系统的图像重建方法,其特征在于,步骤2中基于注意力机制的跨模态语义学习模块的学习过程具体如下:
(3-2)基于注意力机制的语义融合网络匹配触觉特征和(2-2)提取的v(f),每一个作为查询向量,筛选出与/>所属同一类别的合成触觉特征/> 和/>形成触觉-图像特征对,那么与v(f)对应的合成触觉特征为/>具体如下:
3-2-1、将和触觉特征h(f)输入基于注意力机制的语义融合网络,输出触觉的隐藏层表示向量/> 为第j个触觉特征/>的隐藏层表示向量,其中,隐藏层为单层感知机结构,激活函数为Tanh()函数;具体过程如下:
其中,w和b是基于注意力机制的语义融合网络中隐藏层的网络参数;
ai,j=softmax(Simi,j)
(3-3)利用配对模态间的语义信息约束图像特征和触觉特征,具体地,对所有图像特征与触觉特征计算模间损失目标函数:
6.根据权利要求1所述的一种面向跨模态通信系统的图像重建方法,其特征在于,步骤2中对抗式图像生成模块的学习过程包括以下步骤:
(4-1)采用条件生成对抗网络实现跨模态图像生成;具体地,生成对抗网络包括网络参数为η的图像生成器G和网络参数为γ的图像鉴别器D3,将输入图像生成器G,输出对应的生成图像/>G(*)为一种描述生成器输出生成图像的过程的函数,并将/>与真实图像v组合输入图像鉴别器D3;图像鉴别器D3辨别所生成图像组/>和真实图像组(v,v)的真假;
(4-2)结合重构损失与生成对抗网络的对抗生成损失函数来拟合数据分布;最终,图像生成器G的损失函数为:
其中,LG为图像生成器G的生成损失,E[*]为期望。
8.根据权利要求1所述的一种面向跨模态通信系统的图像重建方法,其特征在于,步骤3中所述的基于触觉信号的跨模态图像生成模型训练过程包括以下步骤:
(5-1)由步骤1获取训练集:
(5-2)初始化基于触觉信号的跨模态图像生成模型的网络参数{θv,α},{θh,η,(w,b),β,γ},并导入各模态数据的特征提取网络的预训练模型参数,模态数据是指触觉信号数据或图像数据;各模态数据的特征提取网络指编码器和图像特征提取模块中的CNN;
(5-3)利用随机梯度下降法最小化损失函数,迭代训练基于触觉信号的跨模态图像生成模型,直到收敛或迭代次数达到规定的最大次数,最大迭代次数为预设的:
步骤A、设置D1,D2,D3的学习率μ1和G的学习率μ2,迭代次数r=1;
步骤B、基于梯度下降法,从目标的负梯度方向对各个模块网络的参数进行更新:
其中,为第一类别对抗网络的对抗损失,/>为第二类别对抗网络的对抗损失,Lcro(*)为图像特征与触觉特征的模间损失,LG(*)为图像生成器G的损失函数;θv r+1,θh r+1,(wr+1,br+1),αr+1,βr+1,γr+1,ηr+1和θv r,θh r,(wr,br),αr,βr,γr,ηr分别为第r+1和第r次迭代后的类别标签预测器fv(·),类别标签预测器fh(·),基于注意力机制的语义融合网络的隐藏层参数,类别标签鉴别器D1,类别标签鉴别器D2,图像鉴别器D3和图像生成器G的网络参数集合;隐藏层参数包括权重和偏差;/>为导数;
步骤C、当迭代收敛或迭代次数达到规定的最大次数,输出最优对抗式图像生成模块;否则r=r+1,重复步骤B。
10.一种面向跨模态通信系统的图像重建装置,其特征在于,包括:
模型建立模块,用于获取图像数据和触觉信号,并建立基于触觉信号的跨模态图像生成模型;
模型分解模块,用于将跨模态图像生成模型分解为图像特征提取模块、基于注意力机制的跨模态语义学习模块和对抗式图像生成模块,其中,所述图像特征提取模块包含预训练参数θv,α,用于提取图像数据特征;基于注意力机制的跨模态语义学习模块包含网络参数θh,(w,b),β,用于图像特征与触觉特征的配对及语义融合;对抗式图像生成模块包含网络参数η,γ,用于触觉特征生成对应图像;
模型训练求解模块,用于求解所述基于触觉信号的跨模态图像生成模型,得到结果,并在求解过程中自适应更新模型网络参数;
目标图像获得重建模块,用于获取完整的触觉信号特征,利用对抗式图像生成模块,得到对应的图像,从而恢复存在损坏、丢失、延迟到达问题的图像数据。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110776726.4A CN113628294B (zh) | 2021-07-09 | 2021-07-09 | 一种面向跨模态通信系统的图像重建方法及装置 |
US18/002,500 US11748919B2 (en) | 2021-07-09 | 2022-07-01 | Method of image reconstruction for cross-modal communication system and device thereof |
PCT/CN2022/103303 WO2023280065A1 (zh) | 2021-07-09 | 2022-07-01 | 一种面向跨模态通信系统的图像重建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110776726.4A CN113628294B (zh) | 2021-07-09 | 2021-07-09 | 一种面向跨模态通信系统的图像重建方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113628294A CN113628294A (zh) | 2021-11-09 |
CN113628294B true CN113628294B (zh) | 2023-06-20 |
Family
ID=78379439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110776726.4A Active CN113628294B (zh) | 2021-07-09 | 2021-07-09 | 一种面向跨模态通信系统的图像重建方法及装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11748919B2 (zh) |
CN (1) | CN113628294B (zh) |
WO (1) | WO2023280065A1 (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113628294B (zh) | 2021-07-09 | 2023-06-20 | 南京邮电大学 | 一种面向跨模态通信系统的图像重建方法及装置 |
CN114359586B (zh) * | 2021-12-01 | 2022-08-05 | 合肥工业大学 | 一种适用于模态缺失的多模态目标检测方法及系统 |
CN114595739B (zh) * | 2022-01-12 | 2024-07-02 | 南京邮电大学 | 图像-触觉信号相互重建方法及装置 |
CN114897748A (zh) * | 2022-04-02 | 2022-08-12 | 天津大学 | 一种基于深度学习的医学图像合成装置 |
CN114842384B (zh) * | 2022-04-30 | 2024-05-31 | 南京邮电大学 | 一种面向6g的触觉模态信号重建方法 |
CN115908962B (zh) * | 2022-06-13 | 2023-11-14 | 北京融合未来技术有限公司 | 神经网络的训练方法、脉冲信号重构图像生成方法及装置 |
CN115691788B (zh) * | 2022-10-27 | 2023-07-14 | 北京理工大学 | 一种基于异构数据的双重注意力耦合网络糖尿病分类系统 |
CN115859175B (zh) * | 2023-02-16 | 2023-05-23 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 基于跨模态生成式学习的液压减震器设备异常检测方法 |
CN116939320B (zh) * | 2023-06-12 | 2024-06-18 | 南京邮电大学 | 一种生成式多模态互利增强视频语义通信方法 |
CN116502069B (zh) * | 2023-06-25 | 2023-09-12 | 四川大学 | 一种基于深度学习的触觉时序信号识别方法 |
CN116628559B (zh) * | 2023-07-20 | 2023-11-10 | 南方海洋科学与工程广东省实验室(广州) | 水下大数据计算综合实验分类系统、分类模型的训练方法 |
CN116994070B (zh) * | 2023-09-25 | 2023-12-01 | 四川大学 | 基于可度量子空间动态分类器的牙齿图像处理方法及设备 |
CN117611924B (zh) * | 2024-01-17 | 2024-04-09 | 贵州大学 | 一种基于图文子空间联合学习的植物叶片表型病害分类方法 |
CN117648921B (zh) * | 2024-01-29 | 2024-05-03 | 山东财经大学 | 基于成对双层对抗对齐的跨主题作文自动测评方法及系统 |
CN117854009A (zh) * | 2024-01-29 | 2024-04-09 | 南通大学 | 一种交叉协作融合的轻量化跨模态人群计数方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5907351A (en) * | 1995-10-24 | 1999-05-25 | Lucent Technologies Inc. | Method and apparatus for cross-modal predictive coding for talking head sequences |
US10248664B1 (en) * | 2018-07-02 | 2019-04-02 | Inception Institute Of Artificial Intelligence | Zero-shot sketch-based image retrieval techniques using neural networks for sketch-image recognition and retrieval |
CN112905822A (zh) * | 2021-02-02 | 2021-06-04 | 华侨大学 | 一种基于注意力机制的深度监督跨模态对抗学习方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9880623B2 (en) * | 2013-01-24 | 2018-01-30 | Immersion Corporation | Friction modulation for three dimensional relief in a haptic device |
US10600290B2 (en) * | 2016-12-14 | 2020-03-24 | Immersion Corporation | Automatic haptic generation based on visual odometry |
US10133964B2 (en) * | 2017-03-28 | 2018-11-20 | Siemens Healthcare Gmbh | Magnetic resonance image reconstruction system and method |
CN110516085B (zh) * | 2019-07-11 | 2022-05-17 | 西安电子科技大学 | 基于双向注意力的图像文本互检索方法 |
CN111461203A (zh) * | 2020-03-30 | 2020-07-28 | 北京百度网讯科技有限公司 | 跨模态处理方法、装置、电子设备和计算机存储介质 |
CN112949707B (zh) | 2021-02-26 | 2024-02-09 | 西安电子科技大学 | 一种基于多尺度语义信息监督的跨模态人脸图像生成方法 |
US20220300585A1 (en) * | 2021-03-22 | 2022-09-22 | Servicenow, Inc. | Cross-Modality Curiosity for Sparse-Reward Tasks |
CN113628294B (zh) | 2021-07-09 | 2023-06-20 | 南京邮电大学 | 一种面向跨模态通信系统的图像重建方法及装置 |
US20230041294A1 (en) * | 2021-08-03 | 2023-02-09 | Sony Interactive Entertainment Inc. | Augmented reality (ar) pen/hand tracking |
-
2021
- 2021-07-09 CN CN202110776726.4A patent/CN113628294B/zh active Active
-
2022
- 2022-07-01 US US18/002,500 patent/US11748919B2/en active Active
- 2022-07-01 WO PCT/CN2022/103303 patent/WO2023280065A1/zh unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5907351A (en) * | 1995-10-24 | 1999-05-25 | Lucent Technologies Inc. | Method and apparatus for cross-modal predictive coding for talking head sequences |
US10248664B1 (en) * | 2018-07-02 | 2019-04-02 | Inception Institute Of Artificial Intelligence | Zero-shot sketch-based image retrieval techniques using neural networks for sketch-image recognition and retrieval |
CN112905822A (zh) * | 2021-02-02 | 2021-06-04 | 华侨大学 | 一种基于注意力机制的深度监督跨模态对抗学习方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113628294A (zh) | 2021-11-09 |
US20230196633A1 (en) | 2023-06-22 |
US11748919B2 (en) | 2023-09-05 |
WO2023280065A1 (zh) | 2023-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113628294B (zh) | 一种面向跨模态通信系统的图像重建方法及装置 | |
CN109472232B (zh) | 基于多模态融合机制的视频语义表征方法、系统及介质 | |
CN110083705B (zh) | 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端 | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
Hu et al. | Learning supervised scoring ensemble for emotion recognition in the wild | |
CN108229444B (zh) | 一种基于整体和局部深度特征融合的行人再识别方法 | |
CN112784764B (zh) | 一种基于局部与全局注意力机制的表情识别方法及系统 | |
CN109783666B (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
CN111310672A (zh) | 基于时序多模型融合建模的视频情感识别方法、装置及介质 | |
CN110378208B (zh) | 一种基于深度残差网络的行为识别方法 | |
CN111126488A (zh) | 一种基于双重注意力的图像识别方法 | |
CN113239801B (zh) | 基于多尺度特征学习和多级域对齐的跨域动作识别方法 | |
CN109753571A (zh) | 一种基于二次主题空间投影的场景图谱低维空间嵌入方法 | |
WO2020177214A1 (zh) | 一种基于文本不同特征空间的双流式视频生成方法 | |
CN110175248B (zh) | 一种基于深度学习和哈希编码的人脸图像检索方法和装置 | |
CN110349179B (zh) | 一种基于多适配器的可见光红外视觉跟踪方法及装置 | |
Yue et al. | Action recognition based on RGB and skeleton data sets: A survey | |
CN111178319A (zh) | 基于压缩奖惩机制的视频行为识别方法 | |
CN113128424B (zh) | 基于注意力机制的图卷积神经网络动作识别方法 | |
CN112527993B (zh) | 一种跨媒体层次化深度视频问答推理框架 | |
CN113628059A (zh) | 一种基于多层图注意力网络的关联用户识别方法及装置 | |
CN112784929A (zh) | 一种基于双元组扩充的小样本图像分类方法及装置 | |
CN111368142A (zh) | 一种基于生成对抗网络的视频密集事件描述方法 | |
CN113987236A (zh) | 基于图卷积网络的视觉检索模型的无监督训练方法和装置 | |
CN113627543A (zh) | 一种对抗攻击检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |