CN114595739B - 图像-触觉信号相互重建方法及装置 - Google Patents
图像-触觉信号相互重建方法及装置 Download PDFInfo
- Publication number
- CN114595739B CN114595739B CN202210031393.7A CN202210031393A CN114595739B CN 114595739 B CN114595739 B CN 114595739B CN 202210031393 A CN202210031393 A CN 202210031393A CN 114595739 B CN114595739 B CN 114595739B
- Authority
- CN
- China
- Prior art keywords
- encoder
- image
- signal
- network model
- haptic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 238000012549 training Methods 0.000 claims abstract description 138
- 238000012360 testing method Methods 0.000 claims abstract description 50
- 230000000007 visual effect Effects 0.000 claims abstract description 32
- 238000013508 migration Methods 0.000 claims description 39
- 230000005012 migration Effects 0.000 claims description 39
- 239000013598 vector Substances 0.000 claims description 20
- 238000013507 mapping Methods 0.000 claims description 10
- 235000014653 Carica parviflora Nutrition 0.000 claims description 8
- 241000243321 Cnidaria Species 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 230000035807 sensation Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000011084 recovery Methods 0.000 abstract description 13
- 230000006854 communication Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种图像‑触觉信号相互重建方法和装置。该方法包括:通过接收到待重建信号,待重建信号为视觉信号或图像信号;将待重建信号输入到训练好的深度重建网络模型中进行数据重建,获得重建后的信号;训练深度重建网络模型的步骤包括:搭建基于自编码器构成的深度重建网络模型,将数据集划分为训练集和测试集对深度重建网络模型进行第一阶段和第二阶段的训练;第一阶段和第二阶段的训练交替重复进行,直至深度重建网络模型的训练结果收敛,获得初步深度重建网络模型;将测试集中图像‑触觉信号输入初步深度重建网络模型进行测试,获得训练好的深度重建网络模型。提升了跨模态重建方法接收端信号恢复的泛化能力和恢复质量。
Description
技术领域
本申请涉及跨模态重建技术领域,特别是涉及一种图像-触觉信号相互重建方法及装置。
背景技术
现代通信过程中,音、视觉协作提供了较好的用户体验感,为进一步实现沉浸式通信体验,考虑将触觉这一重要感知源与传统图像信号集成为新型跨模态通信服务。但值得注意的是,触觉信号与传统图像信号的处理和传输存在显著差异,处理丢包或损坏问题具有挑战性。如果我们可以利用跨模态先验知识,从未丢失模态中恢复丢失模态,则可以为跨模态通信带来极大收益,为准确可靠的沉浸式通信体验奠定基础。
跨模态重建是一个长期研究的领域,从最开始的文字图像标注问题到音视频场景描述,人们通过各种方式将不同感知模态联系在一起。与常见单模态内图像的恢复不同,跨模态信息重建是完全不同类型的数据间的交互,这一过程要求同时掌握原模态和被重建模态的数据特性,而不同模态数据在表现形式、数据结构、分布特征上存在显著差异,这增加了重建的难度。
近年来,一些文章陆续提出各种跨模态重建方法,涉及到不同模态种类。WangliHao等将音频处理成LMS图,设计了基于CycleGAN的跨模态视音频翻译模型。Dan Li等则提出了一种半监督跨模态图像生成方法,由非图像模态(如脑电波信号)生成图像模态。在触觉领域,Shan Luo将触觉传感器检测的织物表面纹理数据处理成感知点图,Huaping Liu等则使用表面加速度信号来表征触觉特性。
尽管上述方法取得了显着进展,但仍然存在一些局限性。首先,在转换过程中,他们大多直接将一一配对的原模态和目标模态作为模型输入输出,忽略了模态间的高级语义相关;其次,这些生成模型都依赖于大规模数据集的支撑,触觉数据作为一种新的数据模式,缺乏可供使用的大型数据库,而跨模态重建任务依赖的视/触觉数据对形式则更为稀缺,因此,目前的跨模态重建方法接收端信号恢复的泛化能力和恢复质量较差。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高跨模态重建方法接收端信号恢复的泛化能力和恢复质量的图像-触觉信号相互重建方法及装置。
一种图像-触觉信号相互重建方法,所述方法包括:
接收到待重建信号,所述待重建信号为视觉信号或图像信号;
将所述待重建信号输入到所述训练好的深度重建网络模型中进行数据重建,获得重建后的信号,其中,所述待重建信号为视觉信号时,重建后的信号为图像信号,所述待重建信号为图像信号时,重建后的信号为视觉信号;
其中,训练深度重建网络模型的步骤包括:
将数据集划分为训练集和测试集,其中,训练集包含外部数据集和内部数据集,外部数据集由图像数据和触觉数据构成;内部数据集由多对一一配对的图像-触觉信号构成,测试集也是由一一配对的图像-触觉信号构成;
搭建基于自编码器的深度重建网络模型;所述深度重建网络模型主要由四个自编码器网络:A1,A2,A3,A4构成,其中,A1由编码器EN1和解码器DE1组成;A2由编码器EN2和解码器DE2组成;A3由编码器EN3和解码器DE3组成;A4由编码器EN4和解码器DE4组成;其中,编码器EN1,EN2,EN3,EN4由四层卷积层和两个全连接层构成,解码器DE1,DE2,DE3,DE4由两个全连接层和四层反卷积层构成;
将所述训练集输入所述深度重建网络模型,对所述深度重建网络模型进行第一阶段的训练,输出成对、一致的图像-触觉特征编码,其中,所述训练集的内部数据集中的图像信号输入所述深度重建网络模型中A2的编码器EN2;所述训练集的内部数据集中的触觉信号输入所述深度重建模型中A3的编码器EN3;
将所述训练集的内部数据集输入到所述深度重建网络模型,进行第二阶段的训练,实现跨模态重建;
深度重建网络模型的第一阶段的训练和第二阶段的训练交替重复进行,直至深度重建网络模型的训练结果收敛,获得初步深度重建网络模型;
将所述测试集中图像-触觉信号输入所述初步深度重建网络模型进行测试,获得训练好的深度重建网络模型;其中,将测试集中的图像信号输入所述初步深度重建网络模型中的A2路径,输出重建的触觉信号;将测试集中的触觉信号输入所述初步深度重建网络模型中的A3路径,输出重建的图像。
在其中一个实施例中,所述将所述训练集输入所述深度重建网络模型,对所述深度重建网络模型进行第一阶段的训练,输出成对、一致的图像-触觉特征编码的步骤,包括:
将所述训练集的外部数据集中的图像数据Vs、所述训练集的内部数据集中的图像信号Vt、所述训练集的外部数据集中的触觉数据Hs、所述训练集的内部数据集中的触觉信号Ht分别输入深度重建网络模型中的四个自编码器A1,A2,A3,A4,对四个自编码器A1,A2,A3,A4的重构损失进行惩罚,使编码器NN2与编码器EN3之间的数据Vt-Ht映射到公共语义空间,编码器EN1和编码器EN4提取出外部图像数据特征和外部触觉数据的特征
对编码器EN1和编码器EN2之间以及编码器EN3和编码器EN4之间施加迁移损失,其中,编码器EN1对外部图像进行编码;编码器EN2对内部图像进行编码;编码器EN3对内部触觉进行编码;编码器EN4对外部触觉进行编码;
利用基于中心的特征约束损失让编码器EN2和编码器EN3学习到的语义特征具有类内紧凑性,其中,中心特征是取每个类别中所有特征向量的平均值,得到的类中心作为标准,衡量偏移程度,中心特征的取值,在后面每一轮次的模型训练后进行更新;
采用跨领域对齐方法学习跨模态域不变特征,使让内部图像领域的数据分布特性和内部触觉领域的数据分布特性相近,其中,所述领域为内部数据集中的图像信号领域和内部数据集中的触觉信号领域,
跨模态语义一致性约束,语义一致性约束的作用是让成对输入编码器EN2和EN3的内部数据集的图像-触觉信号对,输出两两相近的特征向量。
在其中一个实施例中,所述自编码器A1,A2,A3,A4的重构损失和为:
其中,表示重构损失和,为A1的重构损失,表示外部数据集中图像数据的第i个输入样本,是重建的外部图像,m(v)是外部数据集中图像数据的样本数目;为A2的重构损失,表示内部数据集中图像信号的第p个输入样本,是重建的内部图像,n是内部数据集中的图像-触觉信号对的数目;为A3的重构损失,表示外部数据集中触觉数据的第j个输入样本,是重建的外部触觉,m(h)是外部数据集中触觉数据的样本数目;为A4的重构损失,表示内部数据集中触觉信号的第q个输入样本,是重建的内部触觉。
在其中一个实施例中,所述对编码器EN1和编码器EN2之间以及编码器EN3和编码器EN4之间施加迁移损失的步骤,包括:
将编码器EN1的卷积层conv1~conv4与编码器EN2的卷积层conv1~conv4共享参数,将编码器EN3的卷积层conv1~conv4与编码器EN4的卷积层conv1~6onv4共享参数;
对四个编码器的全连接层的输出施加最大平均差异的损失,最大程度地减少外部数据集和内部数据集的差异,因此,自编码器A1到自编码器A2的迁移损失为:
其中,表示自编码器A1到自编码器A2的迁移损失,用表示外部图像数据分布s与内部图像信号分布t之间的MMD,表示被赋予特征核k的再生核希尔伯特空间,μk(s)、μk(t)是外部图像数据分布s和内部图像信号分布t在中的平均嵌入,φ(·)是映射,用于把原变量vs、vt映射到再生核希尔伯特空间中,l5和l6是网络中用来迁移的全连接层,vs、vt分别是外部图像数据和内部图像信号在编码器EN1,EN2的全连接层l5和l6的输出,<·,·>表示内积,Es表示编码器EN2的输出特征,Et表示编码器EN3的输出特征;
自编码器A4到自编码器A3的迁移损失为:
其中,表示自编码器A4到自编码器A3的迁移损失,用表示外部触觉数据分布s与内部触觉信号分布t之间的MMD,hs、ht分别是外部触觉数据和内部触觉信号在编码器EN3,EN4的全连接层l5和l6的输出;
所述深度重建网络模型的迁移损失为:
在其中一个实施例中,所述利用基于中心的特征约束损失让编码器EN2和编码器EN3学习到的语义特征具有类内紧凑性的步骤,包括:
基于中心的特征约束在编码器EN2和编码器EN3上分别实施,具体是分别约束EN2和EN3的两个全连接层的输出特征,编码器EN2的基于中心的特征约束损失为:
其中,表示每个样本到其类别中心的距离,表示不同类中心的距离,表示为对齐层输出特征,d为对齐层输出数据维度,是第wp个类中心特征,wp∈{1,2,…,c},c是类别数,m1、m2分别是约束阈值,ci和cj表示不同类中心特征向量,用来衡量类间可分离性,δ是用来均衡每个样本到其类别中心的距离和不同类中心的距离的参数,n表示图像-触觉信号对中样本对的个数;
同理,EN3的基于中心的特征约束损失如下:
其中,hp表示第p个触觉特征向量;
深度重建网络模型的基于中心的特征约束损失为:
其中,l5和l6是网络中用来迁移的全连接层。
在其中一个实施例中,所述采用跨领域对齐方法学习跨模态域不变特征,使让内部图像领域的数据分布特性和内部触觉领域的数据分布特性相近的步骤,包括:
学习跨模态域不变特征在内部图像编码器EN2和内部触觉编码器EN3上联合实施,具体是计算编码器EN2和编码器EN3的全连接层之间输出的CORAL距离;CORAL测量的域差异损失定义为源特征和目标特征的二阶统计量之间的距离LCORkL:
其中,是平方矩阵Frobenius范数,d为对齐层输出数据维度,l5和l6是网络中用来迁移的全连接层,CV和CH是对齐层输出的图像和触觉特征表示的协方差矩阵,分别为:
其中,b为训练批次的大小,HV,分别是A2和A3网络中全连接层的输出,是一个全一列向量,T表示转置运算。
在其中一个实施例中,所述跨模态语义一致性约束的步骤,包括:
在内部图像编码器EN2和内部触觉编码器EN3上联合实施约束,计算每一对图像-触觉信号在两个领域的全连接层输出的欧式距离求和:
其中,Lcon表示语义一致性损失,n是图像-触觉信号对中样本对的个数,表示l5或l6层的输出,和指代每一对图像-触觉信号。
在其中一个实施例中,所述将所述训练集的内部数据集输入到所述深度重建网络模型,进行第二阶段的训练,实现跨模态重建的步骤,包括:
将内部数据集中的图像信号Vt输入图像编码器EN2,输出特征FV,将特征FV输入触觉解码器DE3,得到重建的触觉信号RH,然后将重建的触觉信号RH输入触觉编码器DE3,得到输出特征FH,计算特征FV和特征FH的余弦距离LV-H来约束循环一致性:
其中,FHi表示第i个触觉特征,n表示图像-触觉信号对中样本对的个数,FVi表示第i个图像特征,LV-H表示特征FV和特征FH的余弦距离;
将内部数据集中的触觉信号Ht输入触觉编码器EN3,输出特征FH,将特征FH输入图像解码器DE2,得到重建的图像信号RV,然后将重建的图像信号RV输入图像编码器DE2,得到输出特征FV,计算特征FH和特征FV的余弦距离LH-V来约束循环一致性:
循环生成过程中,只更新图像解码器DE2和触觉解码器DE3的参数,网络中其他模型的参数都是固定的。
一种图像-触觉信号相互重建装置,所述装置包括:
信号接收模块,用于接收到待重建信号,所述待重建信号为视觉信号或图像信号;
信号重建模块,用于将所述待重建信号输入到所述训练好的深度重建网络模型中进行数据重建,获得重建后的信号,其中,所述待重建信号为视觉信号时,重建后的信号为图像信号,所述待重建信号为图像信号时,重建后的信号为视觉信号;
训练深度重建网络模型模块,用于将数据集划分为训练集和测试集,其中,训练集包含外部数据集和内部数据集,外部数据集由图像数据和触觉数据构成;内部数据集由多对一一配对的图像-触觉信号构成,测试集也是由一一配对的图像-触觉信号构成;搭建基于自编码器的深度重建网络模型;所述深度重建网络模型主要由四个自编码器网络:A1,A2,A3,A4构成,其中,A1由编码器EN1和解码器DE1组成;A2由编码器EN2和解码器DE2组成;A3由编码器EN3和解码器DE3组成;A4由编码器EN4和解码器DE4组成;其中,编码器EN1,EN2,EN3,EN4由四层卷积层和两个全连接层构成,解码器DE1,DE2,DE3,DE4由两个全连接层和四层反卷积层构成;将所述训练集输入所述深度重建网络模型,对所述深度重建网络模型进行第一阶段的训练,输出成对、一致的图像-触觉特征编码,其中,所述训练集的内部数据集中的图像信号输入所述深度重建网络模型中A2的编码器EN2;所述训练集的内部数据集中的触觉信号输入所述深度重建模型中A3的编码器EN3;将所述训练集的内部数据集输入到所述深度重建网络模型,进行第二阶段的训练,实现跨模态重建;深度重建网络模型的第一阶段的训练和第二阶段的训练交替重复进行,直至深度重建网络模型的训练结果收敛,获得初步深度重建网络模型;将所述测试集中图像-触觉信号输入所述初步深度重建网络模型进行测试,获得训练好的深度重建网络模型;其中,将测试集中的图像信号输入所述初步深度重建网络模型中的A2路径,输出重建的触觉信号;将测试集中的触觉信号输入所述初步深度重建网络模型中的A3路径,输出重建的图像。
上述图像-触觉信号相互重建方法和装置,通过接收到待重建信号,所述待重建信号为视觉信号或图像信号;将所述待重建信号输入到所述训练好的深度重建网络模型中进行数据重建,获得重建后的信号,其中,所述待重建信号为视觉信号时,重建后的信号为图像信号,所述待重建信号为图像信号时,重建后的信号为视觉信号;训练深度重建网络模型的步骤包括:搭建基于自编码器A1,A2,A3,A4构成的深度重建网络模型,其中,A1由编码器EN1和解码器DE1组成;A2由编码器EN2和解码器DE2组成;A3由编码器EN3和解码器DE3组成;A4由编码器EN4和解码器DE4组成,编码器EN1,EN2,EN3,EN4由四层卷积层和两个全连接层构成,解码器DE1,DE2,DE3,DE4由两个全连接层和四层反卷积层构成;将数据集划分为包含外部数据集和内部数据集的训练集,和多对一一配对的图像-触觉信号构的测试集对深度重建网络模型进行训练;将所述训练集输入所述深度重建网络模型,对所述深度重建网络模型进行第一阶段的训练,将所述训练集的内部数据集输入到所述深度重建网络模型,进行第二阶段的训练,实现跨模态重建;深度重建网络模型的第一阶段的训练和第二阶段的训练交替重复进行,直至深度重建网络模型的训练结果收敛,获得初步深度重建网络模型;将所述测试集中图像-触觉信号输入所述初步深度重建网络模型进行测试,获得训练好的深度重建网络模型。在语义层面上关联不同模态,以在一个模型中同时实现图像-触觉信息互相重建;引入迁移学习的思想,将外界的图像中的知识传递到跨模态重建网络中,显著提高网络的泛化能力,从而提升了跨模态重建方法接收端信号恢复的泛化能力和恢复质量。
附图说明
图1为一个实施例中图像-触觉信号相互重建方法的流程示意图;
图2为一个实施例中训练深度重建网络模型的流程示意图;
图3为一个实施例中基于自编码器的深度重建网络模型的结构示意图;
图4为一个实施例中深度重建网络模型第二阶段的训练流程示意图;
图5为验证过程中的重建图像结果对比图;
图6为验证过程中的重建触觉频谱结果对比图;
图7为一个实施例中图像-触觉信号相互重建装置的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的图像-触觉信号相互重建方法,可以应用于跨模态远程通信场景中,如该跨模态远程通信场景可以是由机械臂和高清摄像头构成。在传输过程的接收端根据接收到的视觉信号恢复出对应的触觉信号,也可以根据触觉信号恢复对应的视觉信号。接收端可以是终端也可以是服务器其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图1所示,提供了一种图像-触觉信号相互重建方法,以该方法应用于终端为例进行说明,包括以下步骤:
步骤S220,接收到待重建信号,待重建信号为视觉信号或图像信号。
其中,待重建信号接收端接收到的视觉信号或触觉信号。
步骤S240,将待重建信号输入到训练好的深度重建网络模型中进行数据重建,获得重建后的信号,其中,待重建信号为视觉信号时,重建后的信号为图像信号,待重建信号为图像信号时,重建后的信号为视觉信号。
其中,训练好的深度重建网络模型以实现跨模态图像-触觉互生,该训练好的深度重建网络模型由四组自编码器网络组成。知识从外界不成对数据集传递到小规模图像-触觉数据对。知识迁移的过程不仅改善模型的泛化能力,同时也完成跨模态关联的任务。在编解码器提供的公共空间中实现图像-触觉语义相关,最终对训练好的解码器进行微调,实现跨模态图像-触觉互生。
在一个实施例中,如图2所示,训练深度重建网络模型的步骤包括:
步骤1,将数据集划分为训练集和测试集,其中,训练集包含外部数据集和内部数据集,外部数据集由图像数据和触觉数据构成;内部数据集由多对一一配对的图像-触觉信号构成,测试集也是由一一配对的图像-触觉信号构成。
其中,数据集中使用的数据包含触觉和视觉两种模态类型。媒体类型r=v,h(v表示视觉,h表示触觉)。任何模态的数据有且只有一个语义类别,且两个模态的语义类别一一对应。将外部数据集表示为Ds={Vs,Hs},其中Vs为外部图像,Hs为外部触觉。其中表示外部图像域的第i个样本,m(v)是样本的数量。其中表示外部触觉域的第j个样本,m(h)是样本的数量。
将内部数据集的成对图像-触觉领域表示为Dt={Vt,Ht},其中Vt为内部图像,Ht为内部触觉。其中表示内部图像域的第k个样本,n是样本的数量。其中表示内部触觉域的第l个样本,n是样本的数量。
每个域的实例通过编码网络编码到共享的潜在空间中,空间表示为 FV,FH分别是外部图像、内部图像、内部触觉、外部触觉的中间特征。其结构均为d×1,d表示特征向量的维度。最后,解码器的重构输出表示为输出和输入样本对应。对于原始图像,将其放缩成128*128。对于原始触觉加速度序列,使用32汉明窗口512点短时傅立叶变换(STFT)计算频谱图,最后将频谱图处理为与图像相同的128*128尺寸。数据输入到编码器的卷积神经网络中,并从一个池化层(max pooling)输入大小为4096的全连接层,最后通过Softmax层得到长度为1024的特征向量。
步骤2,搭建基于自编码器的深度重建网络模型;深度重建网络模型主要由四个自编码器网络:A1,A2,A3,A4构成,其中,A1由编码器EN1和解码器DE1组成;A2由编码器EN2和解码器DE2组成;A3由编码器EN3和解码器DE3组成;A4由编码器EN4和解码器DE4组成;其中,编码器EN1,EN2,EN3,EN4由四层卷积层和两个全连接层构成,解码器DE1,DE2,DE3,DE4由两个全连接层和四层反卷积层构成。
其中,基于自编码器的深度重建网络模型的结构如图3所示,搭建的基于自编码器的深度重建网络模型用于实现图像和触觉互相重建。各自编码器网络中的编码器和解码器的每一层网络的参数和配置如表1和表2所示。
表1编码器每一层网络的参数和配置表
表2解码器每一层网络的参数和配置表
步骤3,将训练集输入深度重建网络模型,对深度重建网络模型进行第一阶段的训练,输出成对、一致的图像-触觉特征编码,其中,训练集的内部数据集中的图像信号输入深度重建网络模型中A2的编码器EN2;训练集的内部数据集中的触觉信号输入深度重建模型中A3的编码器EN3。
步骤4,将训练集的内部数据集输入到深度重建网络模型,进行第二阶段的训练,实现跨模态重建。
其中,经过上述训练后,在公共语义空间实现跨模态语义一致性,并且内部图像的解码器DE2和内部触觉的解码器DE3是训练好的有重建能力的网络。将经过跨模态恢复出的数据重新输入相应的解码器,得到新的中间特征,约束原始中间特征和新中间特征,可以达到循环一致性训练的效果。
步骤5,深度重建网络模型的第一阶段的训练和第二阶段的训练交替重复进行,直至深度重建网络模型的训练结果收敛,获得初步深度重建网络模型。
其中,对深度重建网络模型第一阶段的训练和第二阶段的训练交替进行。都使用随机梯度下降方法优化损失函数。第一阶段的四个自编码器A1,A2,A3,A4的每层参数θV,θH,都实时更新;第二阶段只更新图像解码器DE2和触觉解码器DE3的全连接层fc7的参数θV,θH。
具体地,第一阶段深度重建网络模型的损失函数表示为:
其中,α、β和γ分别是控制重建损失、迁移损失、语义一致性的平衡因素,调整它们以控制每个部分的重要性。这些损失可以确保网络可以生成近似真实的图像,并且在类内具有良好的泛化能力。通过优化此目标函数,可以在公共语义空间实现跨模态语义一致性。
第二阶段深度重建网络模型的损失为:
L2(θV,θH)=λV(θV)+λHLcross-H(θH)
由于只对解码器网络进行微调,这里的θV,θH只表示图像解码器和触觉解码器某一层的参数。
基于随机梯度下降算法,根据目标函数的负梯度方向迭代更新深度重建网络模型的参数。首先根据损失函数来更新参数θV,θH,其次根据损失函数L2(θV,θH)来更新参数θV,θH。
上述两个阶段的参数更新交替进行,我们将α设置为1,β设置为10,γ设置为0.25,模型可以达到最佳效果。训练过程中,我们使用的批次大小为16,学习率初始为0.001,之后每100次训练后呈指数下降。
步骤6,将测试集中图像-触觉信号输入初步深度重建网络模型进行测试,获得训练好的深度重建网络模型;其中,将测试集中的图像信号输入初步深度重建网络模型中的A2路径,输出重建的触觉信号;将测试集中的触觉信号输入初步深度重建网络模型中的A3路径,输出重建的图像。
其中,将测试集中的图像信号输入图像编码器EN2,得到图像特征,再将该图像特征输入触觉解码器DE3,得到重建的触觉信号;将测试集中的触觉信号输入触觉编码器EN3,得到触觉特征,再将该触觉特征输入图像解码器DE2,得到重建的图像信号。
上述图像-触觉信号相互重建方法,通过接收到待重建信号,待重建信号为视觉信号或图像信号;将待重建信号输入到训练好的深度重建网络模型中进行数据重建,获得重建后的信号,其中,待重建信号为视觉信号时,重建后的信号为图像信号,待重建信号为图像信号时,重建后的信号为视觉信号;训练深度重建网络模型的步骤包括:搭建基于自编码器A1,A2,A3,A4构成的深度重建网络模型,其中,A1由编码器EN1和解码器DE1组成;A2由编码器EN2和解码器DE2组成;A3由编码器EN3和解码器DE3组成;A4由编码器EN4和解码器DE4组成,编码器EN1,EN2,EN3,EN4由四层卷积层和两个全连接层构成,解码器DE1,DE2,DE3,DE4由两个全连接层和四层反卷积层构成;将数据集划分为包含外部数据集和内部数据集的训练集,和多对一一配对的图像-触觉信号构的测试集对深度重建网络模型进行训练;将训练集输入深度重建网络模型,对深度重建网络模型进行第一阶段的训练,将训练集的内部数据集输入到深度重建网络模型,进行第二阶段的训练,实现跨模态重建;深度重建网络模型的第一阶段的训练和第二阶段的训练交替重复进行,直至深度重建网络模型的训练结果收敛,获得初步深度重建网络模型;将测试集中图像-触觉信号输入初步深度重建网络模型进行测试,获得训练好的深度重建网络模型。在语义层面上关联不同模态,以在一个模型中同时实现图像-触觉信息互相重建;引入迁移学习的思想,将外界的图像中的知识传递到跨模态重建网络中,显著提高网络的泛化能力,从而提升了跨模态重建方法接收端信号恢复的泛化能力和恢复质量。
在一个实施例中,将训练集输入深度重建网络模型,对深度重建网络模型进行第一阶段的训练,输出成对、一致的图像-触觉特征编码的步骤,包括:
(2-1)将训练集的外部数据集中的图像数据Vs、训练集的内部数据集中的图像信号Vt、训练集的外部数据集中的触觉数据Hs、训练集的内部数据集中的触觉信号Ht分别输入深度重建网络模型中的四个自编码器A1,A2,A3,A4,对四个自编码器A1,A2,A3,A4的重构损失进行惩罚,使编码器EN2与编码器EN3之间的数据Vt-Ht映射到公共语义空间,编码器EN1和编码器EN4提取出外部图像数据特征和外部触觉数据的特征
(2-2)对编码器EN1和编码器EN2之间以及编码器EN3和编码器EN4之间施加迁移损失,其中,编码器EN1对外部图像进行编码;编码器EN2对内部图像进行编码;编码器EN3对内部触觉进行编码;编码器EN4对外部触觉进行编码。
其中,通过对编码器EN1和编码器EN2之间以及编码器EN3和编码器EN4之间施加迁移损失,完成单模态内知识迁移。
(2-3)利用基于中心的特征约束损失让编码器EN2和编码器EN3学习到的语义特征具有类内紧凑性,其中,中心特征是取每个类别中所有特征向量的平均值,得到的类中心作为标准,衡量偏移程度,中心特征的取值,在后面每一轮次的模型训练后进行更新。
其中,利用基于中心的特征约束损失让编码器EN2和编码器EN3学习到的语义特征具有类内紧凑性,实现类别特征约束,使得具有相同类别的图像和触觉特征向量接近该语义的中心特征,而具有不同语义的图像和触觉特征向量则彼此远离。
(2-4)采用跨领域对齐方法学习跨模态域不变特征,使让内部图像领域的数据分布特性和内部触觉领域的数据分布特性相近,其中,领域为内部数据集中的图像信号领域和内部数据集中的触觉信号领域。
其中,用跨领域对齐方法学习跨模态域不变特征,实现跨模态域对齐。
(2-5)跨模态语义一致性约束,语义一致性约束的作用是让成对输入编码器EN2和EN3的内部数据集的图像-触觉信号对,输出两两相近的特征向量。
在一个实施例中,自编码器A1,A2,A3,A4的重构损失和为:
其中,表示重构损失和,为A1的重构损失,表示外部数据集中图像数据的第i个输入样本,是重建的外部图像,m(0)是外部数据集中图像数据的样本数目;为A2的重构损失,表示内部数据集中图像信号的第p个输入样本,是重建的内部图像,n是内部数据集中的图像-触觉信号对的数目;为A3的重构损失,表示外部数据集中触觉数据的第j个输入样本,是重建的外部触觉,m(4)是外部数据集中触觉数据的样本数目;为A4的重构损失,表示内部数据集中触觉信号的第q个输入样本,是重建的内部触觉。
在一个实施例中,对编码器EN1和编码器EN2之间以及编码器EN3和编码器EN4之间施加迁移损失的步骤,包括:
将编码器EN1的卷积层conv1~6onv4与编码器EN2的卷积层conv1~conv4共享参数,将编码器EN3的卷积层conv1~conv4与编码器EN4的卷积层conv1~conv4共享参数;
对四个编码器的全连接层的输出施加最大平均差异(MMD)的损失,最大程度地减少外部数据集和内部数据集的差异,因此,自编码器A1到自编码器A2的迁移损失为:
其中,表示自编码器A1到自编码器A2的迁移损失,用表示外部图像数据分布s与内部图像信号分布t之间的MMD,表示被赋予特征核k的再生核希尔伯特空间,μk(s)、μk(t)是外部图像数据分布s和内部图像信号分布t在中的平均嵌入,φ(·)是映射,用于把原变量vs、vt映射到再生核希尔伯特空间中,l5和l6是网络中用来迁移的全连接层,vs、vt分别是外部图像数据和内部图像信号在编码器EN1,EN2的全连接层l5和l6的输出,<·,·>表示内积,Es表示编码器EN2的输出特征,Et表示编码器EN3的输出特征;
自编码器A4到自编码器A3的迁移损失为:
其中,表示自编码器A4到自编码器A3的迁移损失,用表示外部触觉数据分布s与内部触觉信号分布t之间的MMD,hs、ht分别是外部触觉数据和内部触觉信号在编码器EN3,EN4的全连接层l5和l6的输出;
深度重建网络模型的迁移损失为:
其中,深度重建网络模型的迁移损失也可以理解为总的单模态迁移损失。
在一个实施例中,利用基于中心的特征约束损失让编码器EN2和编码器EN3学习到的语义特征具有类内紧凑性的步骤,包括:
基于中心的特征约束在编码器EN2和编码器EN3上分别实施,具体是分别约束EN2和EN3的两个全连接层的输出特征,编码器EN2的基于中心的特征约束损失为:
其中,表示每个样本到其类别中心的距离,表示不同类中心的距离,表示为对齐层输出特征,d为对齐层输出数据维度,是第wp个类中心特征,wp∈{1,2,…,c},6是类别数,m1、m2分别是约束阈值,ci和cj表示不同类中心特征向量,用来衡量类间可分离性,δ是用来均衡每个样本到其类别中心的距离和不同类中心的距离的参数,n表示图像-触觉信号对中样本对的个数;
同理,EN3的基于中心的特征约束损失如下:
其中,hp表示第p个触觉特征向量;
深度重建网络模型的基于中心的特征约束损失为:
其中,l5和l6是网络中用来迁移的全连接层。
在一个实施例中,采用跨领域对齐方法学习跨模态域不变特征,使让内部图像领域的数据分布特性和内部触觉领域的数据分布特性相近的步骤,包括:
学习跨模态域不变特征在内部图像编码器EN2和内部触觉编码器EN3上联合实施,具体是计算编码器NE2和编码器NN3的全连接层之间输出的CORAL距离;CORAL测量的域差异损失定义为源特征和目标特征的二阶统计量之间的距离LCORAL:
其中,是平方矩阵Frobenius范数,d为对齐层输出数据维度,l5和l6是网络中用来迁移的全连接层,CV和CH是对齐层输出的图像和触觉特征表示的协方差矩阵,分别为:
其中,b为训练批次的大小,HV,分别是A2和A3网络中全连接层的输出,是一个全一列向量,T表示转置运算。
在一个实施例中,跨模态语义一致性约束的步骤,包括:
在内部图像编码器EN2和内部触觉编码器EN3上联合实施约束,计算每一对图像-触觉信号在两个领域的全连接层输出的欧式距离求和:
其中,Lcon表示语义一致性损失,n是图像-触觉信号对中样本对的个数,表示l5或l6层的输出,和指代每一对图像-触觉信号。
在一个实施例中,如图4所示,将训练集的内部数据集输入到深度重建网络模型,进行第二阶段的训练,实现跨模态重建的步骤,包括:
将内部数据集中的图像信号Vt输入图像编码器EN2,输出特征FV,将特征FV输入触觉解码器DE3,得到重建的触觉信号RH,然后将重建的触觉信号RH输入触觉编码器DE3,得到输出特征FH,计算特征FV和特征FH的余弦距离LV-H来约束循环一致性:
其中,FHi表示第i个触觉特征,n表示图像-触觉信号对中样本对的个数,FVi表示第i个图像特征,LV-H表示特征FV和特征FH的余弦距离;
将内部数据集中的触觉信号Ht输入触觉编码器EN3,输出特征FH,将特征FH输入图像解码器DE2,得到重建的图像信号RV,然后将重建的图像信号RV输入图像编码器DE2,得到输出特征FV,计算特征FH和特征FV的余弦距离LH-V来约束循环一致性:
循环生成过程中,只更新图像解码器DE2和触觉解码器DE3的参数,网络中其他模型的参数都是固定的。
上述图像-触觉信号相互重建方法,通过将四个领域(外部图像、内部图像、内部触觉、外部触觉)的数据分别输入四个自编码器,对编码器进行初步特征提取和解码器数据重构能力训练;并进行单模态数据间的迁移,也就是在每个模态内部进行知识的迁移,还利用自适应层来解决源域和目标域间的差异,让两个域编解码器中的卷积层共享参数,其他层用来适配;将图像和触觉数据映射到公共语义空间来进行跨模态语义关联学习;还对跨模态数据进行类中心约束和跨领域对齐约束,再施加成对语义约束,解决“异构鸿沟”;利用充分关联后的公共空间实现跨模态互生,将触觉解码器生成的图像和图形解码器生成的触觉频谱重新分别输入图像编码器和触觉编码器。并通过微调解码器参数,优化重构数据质量;使得训练好的深度重建网络模型将异模态数据在公共语义空间里对齐,并将外界不成对数据集的知识迁移到当前稀疏数据集中,有效提升了模型灵活度和数据重构能力,从而实现高质量的跨模态数据重构。
进一步地,利用特征区分性约束和跨模态域对齐减小不同模态的数据异构性,为跨模态语义一致性提供有效空间。
为验证本申请的图像-触觉信号相互重建方法的性能,选取现有的pix2pix、DiscoGAN、CMC-GAN这三种数据重建模型进行测试,将测试结果与本申请的图像-触觉信号相互重建方法中的训练好的深度重建网络模型进行比较,评判标准为输出数据的ACC(分类准确度)和SSIM(结构相似度),最后计算每种方法输出结果的ACC和SSIM得分,进行综合比较,具体验证内容如下:
采用了LMT-108表面材料数据来评估本申请的图像-触觉信号相互重建方法中的深度重建网络模型在跨模态图像-触觉相互恢复中的性能,该数据集由文献“MultimodalFeature-based Surface Material Classification”(作者M.Strese,C.Schuwerk,A.Iepure,and E.Steinbach)提出。该数据集包含各种类型的表面纹理图像和材料表面滑动时的加速度信号,从108个类别中选择了九个类别的子集,每个子集都有20组图像-加速度信号样本。每个加速度信号为4s长,采样率为12kHz。我们使用32汉明窗口512点短时傅立叶变换(STFT)计算频谱图,最后将频谱图处理为与图像相同的128*128尺寸。
在对原始图像进行平移、旋转以及随机擦除,将每个种类的图像增加了80张。同时在CURET、ETHZ Synthesizability等大型材料纹理图像数据集中挑选与上述九个类别相似的纹理图像。通过自己采集和查找,获得了相似表面材料类别的外界触觉数据,每个类别200个实例。测试了以下三种方法作为对比:
现有方法一:文献“Image-to-Image Translation with ConditionalAdversarial Networks”(作者Isola,P.)巧妙的利用了GAN的框架来为图像翻译一类问题提供了通用框架。
现有方法二:文献“Learning to Discover Cross-Domain Relations withGenerative Adversarial Networks”(作者Taeksoo Kim,Moonsu Cha,Hyunsoo Kim,JungKwon Lee,Jiwon Kim)依靠DiscoGAN来学习地面图像和频谱图之间的转换。
现有方法三:文献“CMCGAN:A Uniform Framework for Cross-Modal Visual-Audio Mutual Generation”(作者Hao,W.,Z.Zhang,and H.Guan)在CycleGAN的基础上,引入附加高斯分布的潜在矢量,实现跨模态视音频翻译。
将原始图像和触觉频谱分别输入到pix2pix、DiscoGAN、CMC-GAN和本申请的图像-触觉信号相互重建方法中的训练好的深度重建网络模型进行数据重建,输出的重建图像结果对比图如图5所示,输出的重建触觉频谱结果如图6所示。
表3测试比较结果
SSIM(结构相似性)是一种衡量成对图像相似度的指标,因此常用在图像恢复和超分辨率重建结果评估中。这里将真实数据和重建数据配对来计算每种方法的SSIM得分,结果如表3所示。
针对输出数据的分类精度,使用AlexNet CNN进行分类并预训练网络以适合原始数据集,得到精度较高的标准分类器,再将上述不同对比方法重建出的图像分别输入标准分类器,得到如表3所示的分类精度比较。可以看出,本申请的方法展示了最优的分类准确度。当本申请的方法不添加迁移损失时,准确度有所下降,类似于pix2pix和CMC-GAN的结果,而由于使用了类别信息,DiscoGAN的结果略高于这两者。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图7所示,提供了一种图像-触觉信号相互重建装置,包括:信号接收模块310、信号重建模块320和训练深度重建网络模型模块330。
信号接收模块310,用于接收到待重建信号,待重建信号为视觉信号或图像信号;
信号重建模块320,用于将待重建信号输入到训练好的深度重建网络模型中进行数据重建,获得重建后的信号,其中,待重建信号为视觉信号时,重建后的信号为图像信号,待重建信号为图像信号时,重建后的信号为视觉信号;
训练深度重建网络模型模块330,用于将数据集划分为训练集和测试集,其中,训练集包含外部数据集和内部数据集,外部数据集由图像数据和触觉数据构成;内部数据集由多对一一配对的图像-触觉信号构成,测试集也是由一一配对的图像-触觉信号构成;搭建基于自编码器的深度重建网络模型;深度重建网络模型主要由四个自编码器网络:A1,A2,A3,A4构成,其中,A1由编码器EN1和解码器DE1组成;A2由编码器EN2和解码器DE2组成;A3由编码器EN3和解码器DE3组成;A4由编码器EN4和解码器DE4组成;其中,编码器EN1,EN2,EN3,EN4由四层卷积层和两个全连接层构成,解码器DE1,DE2,DE3,DE4由两个全连接层和四层反卷积层构成;将训练集输入深度重建网络模型,对深度重建网络模型进行第一阶段的训练,输出成对、一致的图像-触觉特征编码,其中,训练集的内部数据集中的图像信号输入深度重建网络模型中A2的编码器EN2;训练集的内部数据集中的触觉信号输入深度重建模型中A3的编码器EN3;将训练集的内部数据集输入到深度重建网络模型,进行第二阶段的训练,实现跨模态重建;深度重建网络模型的第一阶段的训练和第二阶段的训练交替重复进行,直至深度重建网络模型的训练结果收敛,获得初步深度重建网络模型;将测试集中图像-触觉信号输入初步深度重建网络模型进行测试,获得训练好的深度重建网络模型;其中,将测试集中的图像信号输入初步深度重建网络模型中的A2路径,输出重建的触觉信号;将测试集中的触觉信号输入初步深度重建网络模型中的A3路径,输出重建的图像。
关于图像-触觉信号相互重建装置的具体限定可以参见上文中对于图像-触觉信号相互重建方法的限定,在此不再赘述。上述图像-触觉信号相互重建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述的图像-触觉信号相互重建方法的步骤。
在一个实施例中,提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的图像-触觉信号相互重建方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种图像-触觉信号相互重建方法,其特征在于,所述方法包括:
接收到待重建信号,所述待重建信号为视觉信号或图像信号;
将所述待重建信号输入到所述训练好的深度重建网络模型中进行数据重建,获得重建后的信号,其中,所述待重建信号为视觉信号时,重建后的信号为图像信号,所述待重建信号为图像信号时,重建后的信号为视觉信号;
其中,训练深度重建网络模型的步骤包括:
将数据集划分为训练集和测试集,其中,训练集包含外部数据集和内部数据集,外部数据集由图像数据和触觉数据构成;内部数据集由多对一一配对的图像-触觉信号构成,测试集也是由一一配对的图像-触觉信号构成;
搭建基于自编码器的深度重建网络模型;所述深度重建网络模型主要由四个自编码器网络:A1,A2,A3,A4构成,其中,A1由编码器EN1和解码器DE1组成;A2由编码器EN2和解码器DE2组成;A3由编码器EN3和解码器DE3组成;A4由编码器EN4和解码器DE4组成;其中,编码器EN1,EN2,EN3,EN4由四层卷积层和两个全连接层构成,解码器DE1,DE2,DE3,DE4由两个全连接层和四层反卷积层构成;
将所述训练集输入所述深度重建网络模型,对所述深度重建网络模型进行第一阶段的训练,输出成对、一致的图像-触觉特征编码,其中,所述训练集的内部数据集中的图像信号输入所述深度重建网络模型中A2的编码器EN2;所述训练集的内部数据集中的触觉信号输入所述深度重建模型中A3的编码器EN3;
将所述训练集的内部数据集输入到所述深度重建网络模型,进行第二阶段的训练,实现跨模态重建;
深度重建网络模型的第一阶段的训练和第二阶段的训练交替重复进行,直至深度重建网络模型的训练结果收敛,获得初步深度重建网络模型;
将所述测试集中图像-触觉信号输入所述初步深度重建网络模型进行测试,获得训练好的深度重建网络模型;其中,将测试集中的图像信号输入所述初步深度重建网络模型中的A2路径,输出重建的触觉信号;将测试集中的触觉信号输入所述初步深度重建网络模型中的A3路径,输出重建的图像。
2.根据权利要求1所述的方法,其特征在于,所述将所述训练集输入所述深度重建网络模型,对所述深度重建网络模型进行第一阶段的训练,输出成对、一致的图像-触觉特征编码的步骤,包括:
将所述训练集的外部数据集中的图像数据Vs、所述训练集的内部数据集中的图像信号Vt、所述训练集的外部数据集中的触觉数据Hs、所述训练集的内部数据集中的触觉信号Ht分别输入深度重建网络模型中的四个自编码器A1,A2,A3,A4,对四个自编码器A1,A2,A3,A4的重构损失进行惩罚,使编码器EN2与编码器EN3之间的数据Vt-Ht映射到公共语义空间,编码器EN1和编码器EN4提取出外部图像数据特征和外部触觉数据的特征
对编码器EN1和编码器EN2之间以及编码器EN3和编码器EN4之间施加迁移损失,其中,编码器EN1对外部图像进行编码;编码器EN2对内部图像进行编码;编码器EN3对内部触觉进行编码;编码器EN4对外部触觉进行编码;
利用基于中心的特征约束损失让编码器EN2和编码器EN3学习到的语义特征具有类内紧凑性,其中,中心特征是取每个类别中所有特征向量的平均值,得到的类中心作为标准,衡量偏移程度,中心特征的取值,在后面每一轮次的模型训练后进行更新;
采用跨领域对齐方法学习跨模态域不变特征,使让内部图像领域的数据分布特性和内部触觉领域的数据分布特性相近,其中,所述领域为内部数据集中的图像信号领域和内部数据集中的触觉信号领域,
跨模态语义一致性约束,语义一致性约束的作用是让成对输入编码器EN2和EN3的内部数据集的图像-触觉信号对,输出两两相近的特征向量。
3.根据权利要求2所述的方法,其特征在于,所述自编码器A1,A2,A3,A4的重构损失和为:
其中,表示重构损失和,为A1的重构损失,表示外部数据集中图像数据的第i个输入样本,是重建的外部图像,m(v)是外部数据集中图像数据的样本数目;为A2的重构损失,表示内部数据集中图像信号的第p个输入样本,是重建的内部图像,n是内部数据集中的图像-触觉信号对的数目;为A3的重构损失,表示外部数据集中触觉数据的第j个输入样本,是重建的外部触觉,m(h)是外部数据集中触觉数据的样本数目;为A4的重构损失,表示内部数据集中触觉信号的第q个输入样本,是重建的内部触觉。
4.根据权利要求1所述的方法,其特征在于,所述对编码器EN1和编码器EN2之间以及编码器EN3和编码器EN4之间施加迁移损失的步骤,包括:
将编码器EN1的卷积层conv1~conv4与编码器EN2的卷积层conv1~conv4共享参数,将编码器EN3的卷积层conv1~conv4与编码器EN4的卷积层conv1~conv4共享参数;
对四个编码器的全连接层的输出施加最大平均差异的损失,最大程度地减少外部数据集和内部数据集的差异,因此,自编码器A1到自编码器A2的迁移损失为:
其中,表示自编码器A1到自编码器A2的迁移损失,用表示外部图像数据分布s与内部图像信号分布t之间的MMD,表示被赋予特征核k的再生核希尔伯特空间,μk(s)、μk(t)是外部图像数据分布s和内部图像信号分布t在中的平均嵌入,φ(·)是映射,用于把原变量vs、vt映射到再生核希尔伯特空间中,l5和l6是网络中用来迁移的全连接层,vs、vt分别是外部图像数据和内部图像信号在编码器EN1,EN2的全连接层l5和l6的输出,<·,·>表示内积,Es表示编码器EN2的输出特征,Et表示编码器EN3的输出特征;
自编码器A4到自编码器A3的迁移损失为:
其中,表示自编码器A4到自编码器A3的迁移损失,用表示外部触觉数据分布s与内部触觉信号分布t之间的MMD,hs、ht分别是外部触觉数据和内部触觉信号在编码器EN3,EN4的全连接层l5和l6的输出;
所述深度重建网络模型的迁移损失为:
5.根据权利要求4所述的方法,其特征在于,所述利用基于中心的特征约束损失让编码器EN2和编码器EN3学习到的语义特征具有类内紧凑性的步骤,包括:
基于中心的特征约束在编码器EN2和编码器EN3上分别实施,具体是分别约束EN2和EN3的两个全连接层的输出特征,编码器EN2的基于中心的特征约束损失为:
其中,表示每个样本到其类别中心的距离,表示不同类中心的距离,表示为对齐层输出特征,d为对齐层输出数据维度,是第wp个类中心特征,wp∈{1,2,...,c},c是类别数,m1、m2分别是约束阈值,ci和cj表示不同类中心特征向量,用来衡量类间可分离性,δ是用来均衡每个样本到其类别中心的距离和不同类中心的距离的参数,n表示图像-触觉信号对中样本对的个数;
同理,EN3的基于中心的特征约束损失如下:
其中,hp表示第p个触觉特征向量;
深度重建网络模型的基于中心的特征约束损失为:
其中,l5和l6是网络中用来迁移的全连接层。
6.根据权利要求4所述的方法,其特征在于,所述采用跨领域对齐方法学习跨模态域不变特征,使让内部图像领域的数据分布特性和内部触觉领域的数据分布特性相近的步骤,包括:
学习跨模态域不变特征在内部图像编码器EN2和内部触觉编码器EN3上联合实施,具体是计算编码器EN2和编码器EN3的全连接层之间输出的CORAL距离;CORAL测量的域差异损失定义为源特征和目标特征的二阶统计量之间的距离LCORAL:
其中,是平方矩阵Frobenius范数,d为对齐层输出数据维度,l5和l6是网络中用来迁移的全连接层,CV和CH是对齐层输出的图像和触觉特征表示的协方差矩阵,分别为:
其中,b为训练批次的大小,分别是A2和A3网络中全连接层的输出,是一个全一列向量,T表示转置运算。
7.根据权利要求4所述的方法,其特征在于,所述跨模态语义一致性约束的步骤,包括:
在内部图像编码器EN2和内部触觉编码器EN3上联合实施约束,计算每一对图像-触觉信号在两个领域的全连接层输出的欧式距离求和:
其中,Lcon表示语义一致性损失,n是图像-触觉信号对中样本对的个数,表示l5或l6层的输出,和脂代每一对图像-触觉信号。
8.根据权利要求4所述的方法,其特征在于,所述将所述训练集的内部数据集输入到所述深度重建网络模型,进行第二阶段的训练,实现跨模态重建的步骤,包括:
将内部数据集中的图像信号Vt输入图像编码器EN2,输出特征FV,将特征FV输入触觉解码器DE3,得到重建的触觉信号RH,然后将重建的触觉信号RH输入触觉编码器DE3,得到输出特征FH,计算特征FV和特征FH的余弦距离LV-H来约束循环一致性:
其中,FHi表示第i个触觉特征,n表示图像-触觉信号对中样本对的个数,FVi表示第i个图像特征,LV-H表示特征FV和特征FH的余弦距离;
将内部数据集中的触觉信号Ht输入触觉编码器EN3,输出特征FH,将特征FH输入图像解码器DE2,得到重建的图像信号RV,然后将重建的图像信号RV输入图像编码器DE2,得到输出特征FV,计算特征FH和特征FV的余弦距离LH-V来约束循环一致性:
循环生成过程中,只更新图像解码器DE2和触觉解码器DE3的参数,网络中其他模型的参数都是固定的。
9.一种图像-触觉信号相互重建装置,其特征在于,所述装置包括:
信号接收模块,用于接收到待重建信号,所述待重建信号为视觉信号或图像信号;
信号重建模块,用于将所述待重建信号输入到所述训练好的深度重建网络模型中进行数据重建,获得重建后的信号,其中,所述待重建信号为视觉信号时,重建后的信号为图像信号,所述待重建信号为图像信号时,重建后的信号为视觉信号;
训练深度重建网络模型模块,用于将数据集划分为训练集和测试集,其中,训练集包含外部数据集和内部数据集,外部数据集由图像数据和触觉数据构成;内部数据集由多对一一配对的图像-触觉信号构成,测试集也是由一一配对的图像-触觉信号构成;搭建基于自编码器的深度重建网络模型;所述深度重建网络模型主要由四个自编码器网络:A1,A2,A3,A4构成,其中,A1由编码器EN1和解码器DE1组成;A2由编码器EN2和解码器DE2组成;A3由编码器EN3和解码器DE3组成;A4由编码器EN4和解码器DE4组成;其中,编码器EN1,EN2,EN3,EN4由四层卷积层和两个全连接层构成,解码器DE1,DE2,DE3,DE4由两个全连接层和四层反卷积层构成;将所述训练集输入所述深度重建网络模型,对所述深度重建网络模型进行第一阶段的训练,输出成对、一致的图像-触觉特征编码,其中,所述训练集的内部数据集中的图像信号输入所述深度重建网络模型中A2的编码器EN2;所述训练集的内部数据集中的触觉信号输入所述深度重建模型中A3的编码器EN3;将所述训练集的内部数据集输入到所述深度重建网络模型,进行第二阶段的训练,实现跨模态重建;深度重建网络模型的第一阶段的训练和第二阶段的训练交替重复进行,直至深度重建网络模型的训练结果收敛,获得初步深度重建网络模型;将所述测试集中图像-触觉信号输入所述初步深度重建网络模型进行测试,获得训练好的深度重建网络模型;其中,将测试集中的图像信号输入所述初步深度重建网络模型中的A2路径,输出重建的触觉信号;将测试集中的触觉信号输入所述初步深度重建网络模型中的A3路径,输出重建的图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210031393.7A CN114595739B (zh) | 2022-01-12 | 2022-01-12 | 图像-触觉信号相互重建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210031393.7A CN114595739B (zh) | 2022-01-12 | 2022-01-12 | 图像-触觉信号相互重建方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114595739A CN114595739A (zh) | 2022-06-07 |
CN114595739B true CN114595739B (zh) | 2024-07-02 |
Family
ID=81803640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210031393.7A Active CN114595739B (zh) | 2022-01-12 | 2022-01-12 | 图像-触觉信号相互重建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114595739B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115795119B (zh) * | 2022-11-11 | 2024-09-13 | 中国电信股份有限公司 | 触觉特征信息获取方法、装置、系统、设备及介质 |
CN115905838A (zh) * | 2022-11-18 | 2023-04-04 | 南京邮电大学 | 一种视听辅助的细粒度触觉信号重建方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113628294A (zh) * | 2021-07-09 | 2021-11-09 | 南京邮电大学 | 一种面向跨模态通信系统的图像重建方法及装置 |
CN113627482A (zh) * | 2021-07-09 | 2021-11-09 | 南京邮电大学 | 一种基于音频—触觉信号融合的跨模态图像生成方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472483B (zh) * | 2019-07-02 | 2022-11-15 | 五邑大学 | 一种面向sar图像的小样本语义特征增强的方法及装置 |
-
2022
- 2022-01-12 CN CN202210031393.7A patent/CN114595739B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113628294A (zh) * | 2021-07-09 | 2021-11-09 | 南京邮电大学 | 一种面向跨模态通信系统的图像重建方法及装置 |
CN113627482A (zh) * | 2021-07-09 | 2021-11-09 | 南京邮电大学 | 一种基于音频—触觉信号融合的跨模态图像生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114595739A (zh) | 2022-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11645835B2 (en) | Hypercomplex deep learning methods, architectures, and apparatus for multimodal small, medium, and large-scale data representation, analysis, and applications | |
Kossaifi et al. | Factorized higher-order cnns with an application to spatio-temporal emotion estimation | |
US20230359865A1 (en) | Modeling Dependencies with Global Self-Attention Neural Networks | |
CN113593611B (zh) | 语音分类网络训练方法、装置、计算设备及存储介质 | |
Husain et al. | REMAP: Multi-layer entropy-guided pooling of dense CNN features for image retrieval | |
Vinyals et al. | Learning with recursive perceptual representations | |
CN114595739B (zh) | 图像-触觉信号相互重建方法及装置 | |
CN111133453B (zh) | 人工神经网络 | |
US20230077849A1 (en) | Content recognition method and apparatus, computer device, and storage medium | |
EP3371712A1 (en) | Method and apparatus for generating codebooks for efficient search | |
CN113822125B (zh) | 唇语识别模型的处理方法、装置、计算机设备和存储介质 | |
CN115083435B (zh) | 音频数据处理方法、装置、计算机设备和存储介质 | |
CN113240115B (zh) | 一种生成人脸变化图像模型的训练方法及相关装置 | |
Wang et al. | Optimization-based post-training quantization with bit-split and stitching | |
WO2021012691A1 (zh) | 用于检索图像的方法和装置 | |
CN112883227A (zh) | 一种基于多尺度时序特征的视频摘要生成方法和装置 | |
Ma et al. | Deep unsupervised active learning on learnable graphs | |
CN113220936B (zh) | 基于随机矩阵编码和简化卷积网络的视频智能推荐方法、装置及存储介质 | |
CN113420179B (zh) | 基于时序高斯混合空洞卷积的语义重构视频描述方法 | |
CN113837047A (zh) | 一种视频质量评估方法、系统、计算机设备及存储介质 | |
WO2024076445A1 (en) | Transformer-based text encoder for passage retrieval | |
CN116958613A (zh) | 深度多视图聚类方法、装置、电子设备及可读存储介质 | |
Chung et al. | Filter pruning by image channel reduction in pre-trained convolutional neural networks | |
CN117688390A (zh) | 内容匹配方法、装置、计算机设备、存储介质和程序产品 | |
CN111291223B (zh) | 四胞胎卷积神经网络视频指纹方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |