CN113642604B - 一种基于云边协同的音视频辅助触觉信号重建方法 - Google Patents
一种基于云边协同的音视频辅助触觉信号重建方法 Download PDFInfo
- Publication number
- CN113642604B CN113642604B CN202110776711.8A CN202110776711A CN113642604B CN 113642604 B CN113642604 B CN 113642604B CN 202110776711 A CN202110776711 A CN 202110776711A CN 113642604 B CN113642604 B CN 113642604B
- Authority
- CN
- China
- Prior art keywords
- audio
- video
- signal
- extraction network
- feature extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000004927 fusion Effects 0.000 claims abstract description 65
- 238000012549 training Methods 0.000 claims abstract description 42
- 238000000605 extraction Methods 0.000 claims description 157
- 230000005236 sound signal Effects 0.000 claims description 66
- 230000006870 function Effects 0.000 claims description 48
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims description 13
- 230000000007 visual effect Effects 0.000 claims description 13
- 238000011478 gradient descent method Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 8
- 238000002372 labelling Methods 0.000 abstract description 3
- 238000005457 optimization Methods 0.000 description 5
- 230000003655 tactile properties Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 3
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000000704 physical effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000035807 sensation Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000012733 comparative method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000006260 foam Substances 0.000 description 1
- 239000011888 foil Substances 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 239000000123 paper Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000005060 rubber Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 239000004753 textile Substances 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B6/00—Tactile signalling systems, e.g. personal calling systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于云边协同的音视频辅助触觉信号重建方法,首先利用中心云使用存储的大规模音视频数据库来学习知识,并将其转移到边缘节点;而后边缘节点将自身接收到的音视频信号与中心云的知识相结合,充分挖掘模态间内在语义的相关性和一致性;最后融合所得音频和视频信号的语义特征并输入触觉生成网络,从而实现触觉信号的重建。本发明很好地解决了多模态数据集的音频和视频信号的数量不足以及人工标注无法为训练数据集中的所有音视频信号添加语义标签的问题;还更好地挖掘了不同模态异构数据之间的语义关联,消除了模态间的异质性差距;多模态语义特征的融合实现了模态间信息的互补与增强,能够提升触觉信号的生成效果。
Description
技术领域
本发明涉及触觉信号生成技术领域,特别是一种基于云边协同的音视频辅助触觉信号重建方法。
背景技术
随着传统多媒体应用相关技术的成熟,人们在视听需求得到极大满足的同时,开始追求更多维度、更高层次的感官体验。而触觉信息逐步融入到现有音视频多媒体业务中,形成多模态业务,可望带来更为极致丰富的互动感受。跨模态通信技术被提出用于支持跨模态服务,其虽然在保证多模态流质量方面具有一定的有效性,但在将跨模式通信应用于以触觉为主的多模式服务时,仍面临一些技术挑战。首先,触觉流对无线链路中的干扰和噪声非常敏感,导致触觉信号在接收端退化甚至丢失,尤其是在远程操作应用场景中,例如远程工业控制、远程手术等,这个问题严重且不可避免。其次,服务提供商没有触觉采集设备,但是用户需要触觉感知,尤其在虚拟互动应用场景中,如在线沉浸式购物、全息博物馆指南、虚拟互动电影等,用户对触觉感官的需求极高,这就要求能够在视频和音频信号的基础上生成“虚拟”触摸感觉或触觉信号。
目前,对于因无线通信不可靠性及通信噪声干扰而发生受损或部分缺失的触觉信号,可从两个方面进行自我恢复。第一类是基于传统的信号处理技术。它通过使用稀疏表示找到具有最相似结构的特定信号,然后使用它来估计受损信号的缺失部分。第二种是挖掘和利用信号本身的时空相关性,实现模态内的自修复和重建。然而,当触觉信号被严重破坏甚至不存在时,基于模态内的重建方案将会失败。
近年来,一些研究关注到了不同模态间的相关性,并借此实现了跨模态重建。Li等人在文献“Learning cross-modal visual-tactile representation using ensembledgenerative adversarial networks”提出利用图像特征得到所需类别信息,然后将其和噪声一起作为生成对抗网络的输入生成相应类别的触觉频谱图。该方法并挖掘到各模态间的语义相关,类别所得提供的信息有限,因此生成结果往往不够精确。Kuniyuki Takahashi等人在文献“Deep Visuo-Tactile Learning:Estimation of Tactile Properties fromImages”扩展了一个编码器-解码器网络,将视觉和触觉属性都嵌入到潜在空间,重点关注了潜在变量所表示的材料触觉属性的程度。进一步,Matthew Purr等人在文献“TeachingCameras to Feel:Estimating Tactile Physical Properties of Surfaces FromImages”中提出了一个带有对抗性学习和跨域联合分类的跨模态学习框架从单个图像中估计触觉物理特性。这类方法虽利用到了模态的语义信息,但并未生完整的触觉信号,对跨模态服务来说没有实际意义。
上述现有跨模态生成方法还存在以下缺陷:其模型的训练均依赖于大规模的训练数据来保证模型的效果,但目前多模态数据的共存往往存在数据量小、数据不完整和不平衡的问题,且它们还忽视了终端缓存、计算和运算能力受限的问题;此外,它们均只利用到单一模态的信息,但实际上单一模态优势不能带给我们足够多的信息量,不同模态共同描述同一语义时,可能会包含不等量的信息,模态间信息的互补与增强将有助于提升生成效果。
发明内容
本发明所要解决的技术问题是克服现有技术的不足而提供一种基于云边协同的音视频辅助触觉信号重建方法,借助于中心云上存储的大规模无标注音视频数据库的自监督学习来实现稀疏数据下的精确语义特征提取;充分发挥多模态特征融合的优势,最大程度地利用视频和音频模态的语义信息;并借此生成了完整的触觉信号,这更加符合跨模态服务的要求。
本发明为解决上述技术问题采用以下技术方案:
根据本发明提出的一种基于云边协同的音视频辅助触觉信号重建方法,包括以下步骤:
步骤(1)、在中心云存储的大规模音视频数据库上,执行自监督学习任务,自监督学习任务是指确定视频帧和音频剪辑是否来自同一视听源,从而得到预训练后的音频特征提取网络、视频特征提取网络;
步骤(2)、在边缘节点处设计一个音视频辅助触觉信号重建AVHR模型;重建AVHR模型具体如下:
边缘节点接收到音频信号和视频信号后,首先将中心云上预训练后的音频特征提取网络、视频特征提取网络作为边缘节点的音频属性提取网络和视频属性提取网络,提取到音频信号属性和视频信号属性后,进一步从音频信号属性和视频信号属性中提取音频信号和视频信号之间关联的音频信号特征和视频信号特征;
然后利用结合了多模态协同和多模态联合范式的融合网络,融合音频信号特征和视频信号特征,得到融合特征;
同时,利用触觉特征提取网络提取触觉信号特征;
根据音频信号特征、视频信号特征、触觉信号特征及融合特征,利用语义相关学习和语义判别学习策略训练音频特征提取网络、视频特征提取网络、触觉特征提取网络及融合网络,学习音频信号、视频信号、触觉信号及融合特征的共享语义,从而得到包含共享语义的融合特征;
最后,将包含共享语义的融合特征输入带有语义约束的触觉信号生成网络,实现目标触觉信号的重建;
步骤(3)、在中心云和边缘节点处分别利用梯度下降算法对AVHR模型进行训练,以得到最优的AVHR模型的结构及参数;
步骤(4)、将待测的成对的音频信号和视频信号输入最优的AVHR模型,最优的AVHR模型用于提取音频信号和视频信号的语义特征并融合,利用融合后的语义特征生成目标触觉信号。
作为本发明所述的一种基于云边协同的音视频辅助触觉信号重建方法进一步优化方案,步骤(1)包括以下步骤:
(1-1)、对于大规模音视频数据库其中M为成对的视频帧和音频剪辑的数量,/>sj为第j对视频帧和音频剪辑,将第j个视频帧/>和第j个音频剪辑片段分别传递给视频特征提取网络和音频特征提取网络,分别提取对应的视频特征和音频特征;
(1-2)、连接视频及音频特征并输入到由多个全连接层组成的集成网络中,该集成网络输出集成后的特征,而后利用该集成后的特征执行自监督学习任务,自监督学习的目的是判断视频帧和音频剪辑是否来自同一视听源;具体地,定义如下自监督损失函数:
其中,LSrc为自监督损失函数,为第j对视频帧特征和音频剪辑特征集成后的特征,Gv(·)为视频特征提取网络的特征映射,/>是视频特征提取网络的参数,Ga(·)为音频特征提取网络的特征映射,/>是音频特征提取网络的参数;p(·)表示标签指示器,为1时表示该视频帧和音频剪辑来源于同一视听源,为0表示该视频帧和音频剪辑来源于不同的视听源;/>为集成网络输出的对应关系预测值;/>表示由多个全连接层组成的集成网络的参数;通过最小化LSrc得到预训练后的音频特征提取网络、视频特征提取网络。
作为本发明所述的一种基于云边协同的音视频辅助触觉信号重建方法进一步优化方案,步骤(2)包括以下步骤:
(2-1)、将中心云处训练好的音频特征提取网络、视频特征提取网络及音频特征提取网络的参数和视频特征提取网络的参数直接迁移到边缘节点,将该音频特征提取网络和视频特征提取网络用作边缘节点处的音频属性提取网络和视频属性提取网络;
(2-2)、将边缘节点所接收到的完整的音频信号、视频信号和触觉信号作为多模态训练数据集D,第i个实例di=(vi,ai,hi),(vi,ai,hi)为第i对多模态样本对,其中,vi∈Rw是多模态训练数据集中的第i个视频信号,Rw为视频信号的样本空间,w为视频信号的样本维数;ai∈Ru是多模态训练数据集中的第i个音频信号,Ru为音频信号的样本空间,u为音频信号的样本维数;hi∈Re是多模态训练数据集中的第i个触觉信号,Re为触觉信号的样本空间,e为触觉信号的样本维数;每个di都有对应的one-hot标签yi∈RK,RK为标签空间,其中K是多模态训练数据集的类别数;
(2-3)、边缘节点利用中心云迁移而来的视频特征提取网络和音频特征提取网络分别提取视频属性和音频属性/>其中,v为视频信号,a为音频信号;然后,将gv和ga进一步输入到多层特征网络中,得到视频信号特征fv=Fv(v;θv)和音频信号特征fa=Fa(a;θa),fv和fa相关联,其中,Fv(·)为边缘节点处的视频特征提取网络,θv代表视频特征提取网络的参数,Fa(·)为边缘节点处的音频特征提取网络,θa代表音频特征提取网络的参数;
(2-4)边缘节点将自编码器模型的编码器作为触觉特征提取网络,并利用触觉特征提取网络从触觉信号中提取用于训练的目标的触觉信号特征fh=Eh(h;θhe),其中,h代表触觉信号,Eh(·)代表边缘节点处的编码器,θhe代表编码器的参数;
(2-5)利用结合了多模态协同范式和多模态联合范式的融合网络,融合fv和fa,得到融合特征:
A、多模态协同:在触觉模态的约束下,最大限度地提高fa、fv和fh之间的语义相似性;
B、多模态联合:在多模态协同范式的基础上,对fa、fv进行深度融合;具体过程如下:
fm=Fm(fa,fv;θm),
其中,fm是相关联的视频信号特征和音频信号特征的融合特征;Fm(·)是多模态联合网络的映射函数,Fm(·)取fa和fv的线性加权;θm为多模态联合网络的参数;
(2-6)对相关联的视频信号特征fv和音频信号特征fa、触觉信号特征fh及融合特征fm进行共享语义的学习,共享语义的学习包括语义相关学习和语义判别学习:
语义相关学习:选用对比损失对fv、fa、fm和fh进行相关性约束,缩小fh和与其相匹配的fv、fa、fm之间的距离,并使fh和与其不匹配的fv、fa、fm之间的距离大于阈值δ,定义如下语义相关损失函数:
其中,音频信号特征fa和触觉信号特征fh构成音触对,视觉信号特征fv和触觉信号特征fh构成视触对,是音触对和视触对的对比度损失函数,/>则是融合特征fm和触觉信号特征fh的对比度损失函数;/>为第p个视频信号特征,/>为第p个音频信号特征,/>为第p个融合特征,/>为第p个触觉信号特征,/>为第q个触觉信号特征;l2(·)=||·||2表示12范数;
语义判别学习:选用具有softmax函数的全连接层作为公共分类器,并将公共分类器添加到视频特征提取网络、音频特征提取网络、触觉特征提取网络及融合网络之上,在监督信息的指导下确保跨模态语义的一致性与区分度,语义判别损失函数的定义如下:
其中,LDis为语义判别损失函数,p(·)为公共分类器,为第i个视频信号特征,/>为第i个音频信号特征,/>为第i个触觉信号特征,/>为第i个融合特征,θl为公共分类器的参数;
(2-7)自编码器模型包括编码器和解码器,通过将用于训练的触觉信号h与从编码器至解码器过程中获得的触觉信号进行比较来学习自编码器模型的结构,定义触觉信号的重建损失如下:
其中,LRec为重建损失函数,是第i个由自编码器模型重建的触觉信号,hi是第i个真实的触觉信号;Eh(·)是编码器,编码器作为触觉特征提取网络用于触觉特征提取;Dh(·)是解码器,解码器作为触觉信号生成网络用于触觉信号生成;θh=[θhe,θhd]表示自编码器的参数集合,具体地,θhe是编码器参数,θhd是解码器参数;α为超参数;
(2-8)利用自编码器模型的解码器Dh(·)从fm生成目标触觉信号h′,实现目标触觉信号的重建,并将h′通过编码器Eh(·)重新映射到触觉信号特征fh′,定义所得生成的触觉信号的损失函数如下:
其中,LGen为触觉信号的生成损失函数,是第i个由融合特征生成的触觉信号,/>为第i个融合特征;/>为第i个触觉信号特征,/>是编码器提取的h′i的语义特征;/>表示/>和/>的相似性,/>是/>的分类损失,是预测的/>的标签,/>和/>共同构成了损失函数的正则项;β和γ为超参数。
作为本发明所述的一种基于云边协同的音视频辅助触觉信号重建方法进一步优化方案,步骤(3)包括以下步骤:
(3-1)在中心云的大规模音视频数据库上训练视频特征提取网络和音频特征提取网络,具体过程如下:
步骤311、初始化为第0次迭代的取值;
步骤312、设置总迭代次数为n1,令迭代次数n=0,;并设定学习率μ1;
步骤313、采用随机梯度下降法SGD,优化各网络参数:
其中,和/>分别为第n+1次和第n次中心云上视频特征提取网络、音频特征提取网络和集成网络的参数;/>为对各损失函数做偏导;
步骤314、如果n<n1,则跳转到步骤313,n=n+1,继续下一次迭代;否则,终止迭代;
步骤315、经过n1轮迭代后,得到优化后的视频特征提取网络和音频特征提取网络/>
(3-2)在边缘节点接收到的多模态训练数据集上进行AVHR模型的训练,具体过程如下:
步骤321、初始化θv(0),θa(0),θm(0),θhe(0),θl(0),θv(0),θa(0),θm(0),θhe(0),θl(0)为第0次迭代θv,θa,θm,θhe,θl的取值;
步骤322、开始迭代,设置总迭代次数为n2,令迭代次数n′=0;并设定学习率μ2;
步骤323、采用随机梯度下降法,优化各特征提取网络、融合网络及公共分类器的参数:
其中,θv(n′+1),θa(n′+1),θhe(n′+1),θl(n′+1),θm(n′+1)和θv(n′),θa(n′),θhe(n′),θl(n′),θm(n′)分别为第n′+1次和第n′次边缘节点上视频特征提取网络,音频特征提取网络,编码器,公共分类器和融合网络的参数;为对各损失函数做偏导;
步骤324、采用随机梯度下降法SGD,优化解码器的参数:
其中,θhd(n′+1)和θhd(n′)分别为第n′+1次和第n′次边缘节点上解码器的参数;为对各损失函数做偏导;
步骤325、如果n′<n2,则跳转到步骤323,n′=n′+1,继续下一次迭代;否则,终止迭代;
步骤326、经过n2轮迭代后,得到最优的AVHR模型,最优的AVHR模型包括优化后的视频特征提取网络、音频特征提取网络、触觉特征提取网络、融合网络和触觉信号生成网络。
作为本发明所述的一种基于云边协同的音视频辅助触觉信号重建方法进一步优化方案,步骤(4)包括以下步骤:
(4-1)采用经过训练完成的AVHR模型;
(4-2)将待测的一对视频信号和音频信号/>输入训练完成的AVHR模型,提取各自的语义特征并融合,利用融合后的语义特征生成期望的触觉信号/>
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
借助于中心云上存储的大规模无标注音视频数据库的自监督学习来实现稀疏数据下的精确语义特征提取;充分发挥多模态特征融合的优势,最大程度地利用视频和音频模态的语义信息;并借此生成了完整的触觉信号,这更加符合跨模态服务的要求。
附图说明
图1是本发明的一种基于云边协同的音视频辅助触觉信号重建方法流程图。
图2是本发明的完整网络结构示意图。
图3是本发明的基于多模态融合的共享语义学习架构示意图。
图4是本发明和其他对比方法的触觉信号重建结果图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述。
本发明提供了一种基于云边协同的音视频辅助触觉信号重建方法,其流程图如图1所示,该方法包括如下步骤:
步骤1:在中心云存储的大规模音视频数据库上,执行图2所示的自监督学习任务,确定视频帧和音频剪辑是否来自同一视听源,得到预训练后的音频、视频特征提取网络。
(1-1)对于大规模音视频数据库其中/>将其中224×224的彩色视频帧/>和1s长的音频片段/>分别传递给视频特征提取网络和音频特征提取网络,分别提取对应的视频信号特征和音频信号特征。这里,视频特征提取网络选用VGG网络的设计风格,即具有3×3的卷积滤波器和步幅为2、无填充的2×2的最大池化层;网络被分为四块,每块包含两个卷积层和一个池化层,连续块之间具有加倍的滤波器数量;最后在所有空间位置执行最大池化,以生成单个512维的语义特征向量。音频特征提取网络首先将1秒长的声音片段转化成线性频谱图图,并将其视为257×199的灰度图像,其余结构与视频特征提取网络类似,不同之处在于输入像素是一维强度的,其最终得到的也是一个512维的语义特征向量。
然后,将上述两个512维的视频及音频特征拼接成1024维的向量,通过两个全连通层(128-2)组成的集成网络产生双向分类输出,即判断视频帧和音频剪辑是否来自同一视听源。定义如下自监督损失函数:
其中,LSrc为自监督损失函数,为第j对视频帧特征和音频剪辑特征集成后的特征,Gv(·)为视频特征提取网络的特征映射,/>是视频特征提取网络的参数,Ga(·)为音频特征提取网络的特征映射,/>是音频特征提取网络的参数;p(·)表示标签指示器,为1时表示该视频帧和音频剪辑来源于同一视听源,为0表示该视频帧和音频剪辑来源于不同的视听源;/>为集成网络输出的对应关系预测值;/>表示由多个全连接层组成的集成网络的参数;通过最小化LSrc得到预训练后的音频特征提取网络、视频特征提取网络。
这一步可以得到视频特征提取网络和音频特征提取网络的结构和参数,即Gv(·),Ga(·),并可作为知识传递给边缘节点上的特征提取网络,为其处理音频和视频信号提供一个良好的起点。
步骤2:在边缘节点处设计一个音视频辅助触觉信号重建(audio-visual-aidedhaptic signal reconstruction(AVHR))模型,模型结构如图2所示:
边缘节点接收到音频信号和视频信号后,首先将中心云上预训练后的音频特征提取网络、视频特征提取网络作为边缘节点的音频属性提取网络和视频属性提取网络,提取到音频信号属性和视频信号属性后,进一步从音频信号属性和视频信号属性中提取音频信号和视频信号之间关联的音频信号特征和视频信号特征;
然后利用结合了多模态协同和多模态联合范式的融合网络,融合音频信号特征和视频信号特征,得到融合特征;
同时,利用触觉特征提取网络提取触觉信号特征;
根据音频信号特征、视频信号特征、触觉信号特征及融合特征,利用语义相关学习和语义判别学习策略训练音频特征提取网络、视频特征提取网络、触觉特征提取网络及融合网络,学习音频信号、视频信号、触觉信号及融合特征的共享语义,从而得到包含共享语义的融合特征;
最后,将包含共享语义的融合特征输入带有语义约束的触觉信号生成网络,实现目标触觉信号的重建;
步骤2具体如下:
(2-1)把中心云处训练好的音频特征提取网络结构、视频特征提取网络结构及它们各自的参数直接迁移到边缘节点,将该音频特征提取网络和视频特征提取网络用作边缘节点处的音频属性提取网络和视频属性提取网络;
(2-2)将边缘节点所接收到的完整的音频信号、视频信号和触觉信号作为多模态训练数据集D,第i个实例di=(vi,ai,hi),(vi,ai,hi)为第i对多模态样本对,其中,vi∈Rw是多模态训练数据集中的第i个视频信号,Rw为视频信号的样本空间,w为视频信号的样本维数;ai∈Ru是多模态训练数据集中的第i个音频信号,Ru为音频信号的样本空间,u为音频信号的样本维数;hi∈Re是多模态训练数据集中的第i个触觉信号,Re为触觉信号的样本空间,e为触觉信号的样本维数;每个di都有对应的one-hot标签yi∈RK,RK为标签空间,其中K是多模态训练数据集的类别数。
(2-3)边缘节点利用中心云迁移而来的视频特征提取网络和音频特征提取网络分别提取512维的视频属性和512维的音频属性/>其中,v为视频信号,a为音频信号;然后,将gv和ga进一步输入到一个三层全连通神经网络(256-128-32)中,得到32维视频信号特征fv=Fv(v;θv)和音频信号特征fa=Fa(a;θa),fv和fa相关联,其中,Fv(·)为边缘节点处的视频特征提取网络,θv代表视频特征提取网络的参数,Fa(·)为边缘节点处的音频特征提取网络,θa代表音频特征提取网络的参数;
(2-4)边缘节点将自编码器模型的编码器作为触觉特征提取网络,并利用触觉特征提取网络从触觉信号中提取用于训练的目标的触觉信号特征fh=Eh(h;θhe),其中,h代表触觉信号,Eh(·)代表边缘节点处的编码器,θhe代表编码器的参数。触觉的自编码器采用的是堆叠式自编码器,编码器和解码器结构对称;编码器采用三层前馈神经网络将触觉信号投射为32维的触觉信号特征(Z-256-128-32),Z为输入触觉信号的维数;解码器的结构刚好相反。
(2-5)融合视频信号特征fv和音频信号特征fa,实现语义的互补与增强,如图3所示,融合网络结合了多模态协同范式和多模态联合范式:
A、多模态协同:在触觉模态的约束下,最大限度地提高fa、fv和fh之间的语义相似性;
B、多模态联合:在多模态协同范式的基础上,对fa、fv进行深度融合;具体过程如下:
fm=Fm(fa,fv;θm),
其中,fm是相关联的视频信号特征和音频信号特征的融合特征;Fm(·)是多模态联合网络的映射函数,Fm(·)取fa和fv的线性加权;θm为多模态联合网络的参数;
(2-6)对相关联的视频信号特征fv和音频信号特征fa、触觉信号特征fh及融合特征fm进行共享语义的学习,共享语义的学习包括语义相关学习和语义判别学习:
语义相关学习:选用对比损失对fv、fa、fm和fh进行相关性约束,缩小fh和与其相匹配的fv、fa、fm之间的距离,并使fh和与其不匹配的fv、fa、fm之间的距离大于阈值6,定义如下语义相关损失函数:
其中,音频信号特征fa和触觉信号特征fh构成音触对,视觉信号特征fv和触觉信号特征fh构成视触对,是音触对和视触对的对比度损失函数,/>则是融合特征fm和触觉信号特征fh的对比度损失函数;/>为第p个视频信号特征,/>为第p个音频信号特征,/>为第p个融合特征,/>为第p个触觉信号特征,/>为第q个触觉信号特征;l2(·)=||·||2表示12范数;
语义判别学习:选用具有softmax函数的全连接层作为公共分类器,并将公共分类器添加到视频特征提取网络、音频特征提取网络、触觉特征提取网络及融合网络之上,在监督信息的指导下确保跨模态语义的一致性与区分度,语义判别损失函数的定义如下:
其中,LDis为语义判别损失函数,p(·)为公共分类器,为第i个视频信号特征,/>为第i个音频信号特征,/>为第i个触觉信号特征,/>为第i个融合特征,θl为公共分类器的参数;
(2-7)自编码器模型包括编码器和解码器,通过将用于训练的触觉信号h与从编码器至解码器(Z-256-128-32-128-256-Z,Z为触觉信号维数)过程中获得的触觉信号进行比较来学习自动编码器的结构,从而有效地保持触觉模态内部的语义一致性,进而使编码器输出的触觉特征fh将更加合理,提升多模态公共语义空间的学习。
定义触觉信号的重建损失如下:
其中,LRec为重建损失函数,是第i个由自编码器模型重建的触觉信号,hi是第i个真实的触觉信号;Eh(·)是编码器,编码器作为触觉特征提取网络用于触觉特征提取;Dh(·)是解码器,解码器作为触觉信号生成网络用于触觉信号生成;θh=[θhe,θhd]表示自编码器的参数集合,具体地,θhe是编码器参数,θhd是解码器参数;α为超参数;
(2-8)利用自编码器模型的解码器Dh(·)从融合特征fm生成目标的触觉信号h′,实现目标触觉信号的重建,并将h′通过编码器Eh(·)重新映射到32维的触觉信号特征fh′,从而保证fh′和fh之间的特征语义相似性以及类别判别,精细地约束生成过程;定义所得生成的触觉信号的损失函数如下:
其中,LGen为触觉信号的生成损失函数,是第i个由融合特征生成的触觉信号,/>为第i个融合特征;/>为第i个触觉信号特征,/>是编码器提取的h′i的语义特征;/>表示/>和/>的相似性,/>是/>的分类损失,是预测的/>的标签,/>和/>共同构成了损失函数的正则项;β和γ为超参数。
步骤3:在中心云和边缘节点处分别利用梯度下降算法对模型进行训练,以得到最优的AVHR模型结构及参数;
(3-1)在中心云的大规模音视频数据库上训练视频特征提取网络和音频特征提取网络,具体过程如下:
步骤311、初始化为第0次迭代的取值;
步骤312、设置总迭代次数为n1=600,令迭代次数n=0=0,并设定学习率μ1=0.0001;
步骤313、采用随机梯度下降法SGD,优化各网络参数:
其中,和/>分别为第n+1次和第n次中心云上视频特征提取网络、音频特征提取网络和集成网络的参数;/>为对各损失函数做偏导;
步骤314、如果n<n1,则跳转到步骤313,n=n+1,继续下一次迭代;否则,终止迭代;
步骤315、经过n1轮迭代后,得到优化后的视频特征提取网络和音频特征提取网络/>
(3-2)在边缘节点接收到的多模态训练数据集上进行AVHR模型的训练,具体过程如下:
步骤321、初始化θv(0),θa(0),θm(0),θhe(0),θl(0),θv(0),θa(0),θm(0),θhe(0),θl(0)为第0次迭代θv,θa,θm,θhe,θl的取值;
步骤322、开始迭代,设置总迭代次数为n2=600,令迭代次数n′=0;并设定学习率μ2=0.0001;
步骤323、采用随机梯度下降法,优化各特征提取网络、融合网络及公共分类器的参数:
其中,θv(n′+1),θa(n′+1),θhe(n′+1),θl(n′+1),θm(n′+1)和θv(n′),θa(n′),θhe(n′),θl(n′),θm(n′)分别为第n′+1次和第n′次边缘节点上视频特征提取网络,音频特征提取网络,编码器,公共分类器和融合网络的参数;为对各损失函数做偏导;
步骤324、采用随机梯度下降法SGD,优化解码器的参数:
其中,θhd(n′+1)和θhd(n′)分别为第n′+1次和第n′次边缘节点上解码器的参数;为对各损失函数做偏导;
步骤325、如果n′<n2,则跳转到步骤323,n′=n′+1,继续下一次迭代;否则,终止迭代;
步骤326、经过n2轮迭代后,得到最优的AVHR模型,最优的AVHR模型包括优化后的视频特征提取网络、音频特征提取网络、触觉特征提取网络、融合网络和触觉信号生成网络。
步骤4:上述步骤完成后,将测试集中成对的音频信号和视频信号输入训练完成的AVHR模型,提取各自的语义特征并融合,利用融合后的语义特征生成目标触觉信号。
(4-1)采用经过训练完成的AVHR模型;
(4-2)将待测的一对视频信号和音频信号/>输入训练完成的AVHR模型,提取各自的语义特征并融合,利用融合后的语义特征生成期望的触觉信号/>
下面的实验结果表明,与现有方法相比,本发明利用多模态语义的互补融合实现了触觉信号合成取得了更好的生成效果。
本实施例采用了LMT跨模数据集进行实验,该数据集由文献“Multimodalfeature-based surface material classification”提出,其中包括九种语义类别的样本:网格,石头,金属,木材,橡胶,纤维,泡沫,箔和纸,纺织品和织物。本实施例选用了五大类(其中每大类包含三小类)进行实验。重新组织了LMT数据集,首先结合每个材料实例的训练集和测试集,分别得到每个实例的20个图像样本、20个音频信号样本和20个触觉信号样本。然后扩充数据以训练神经网络,具体的,将每个图像水平和垂直翻转,以任意角度旋转它们,并在传统方法之外使用随机缩放、剪切及偏移等技术。至此将每个类别的数据扩展到100,因此总共有1500个图像,尺寸为224*224。在数据集中,80%被选择用于训练,而剩余的20%用于测试和性能评估。测试了以下3种方法作为实验对比:
现有方法一:文献“Learning cross-modal visual-tactile representationusing ensembled generative adversarial networks”(作者X.Li,H.Liu,J.Zhou,andF.Sun)中的集成生成对抗网络(Ensembled GANs,简称E-GANs)利用图像特征得到所需类别信息,然后将其和噪声一起作为生成对抗网络的输入生成相应类别的触觉频谱图,最后再转化为触觉信号。
现有方法二:文献“Deep Visuo-Tactile Learning:Estimation of TactileProperties from Images”(作者:Kuniyuki Takahashi and Jethro Tan)中的深度视-触学习方法(Deep visio-tactile learning,简称:DVTL)扩展了传统的具有潜在变量的编码器-解码器网络,将视觉和触觉属性嵌入在潜在空间中。
现有方法三:文献“Teaching Cameras to Feel:Estimating Tactile PhysicalProperties of Surfaces From Images”(作者:Matthew Purri and Kristin Dana)中提出了一种联合编码分类生成网络(Joint-encoding-classification GAN简称:JEC-GAN),其通过不同的编码网络将每个模态的实例编码到一个共享的内在空间,采用成对约束使嵌入的视觉样本和触觉样本在潜在空间中接近。最后,以视觉信息为输入,通过生成网络重建相应的触觉信号。
本发明:本实施例的方法。
实验采用分类准确率作为评价指标来评估跨模态生成的效果,所用的分类器是在真实的触觉信号数据集上预训练好的。
表1是本发明的实验结果展示
从表1和图4可以看出与上述最先进的方法相比,我们提出的方法有着明显的优势,原因如下:(1)自监督预训练有效地改善了视频及音频特征的提取效果;(2)视频及音频模态的融合实现了语义信息的互补与增强;(3)循环的优化策略改善了共享语义特征的学习效果。
在其他实施例中,本发明步骤(2)中的触觉的编码器使用的是前馈神经网络,可以用一维卷积(One-dimensional convolutional neural networks,简称1D-CNN)来替代。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围内。
Claims (5)
1.一种基于云边协同的音视频辅助触觉信号重建方法,其特征在于,包括以下步骤:
步骤(1)、在中心云存储的大规模音视频数据库上,执行自监督学习任务,自监督学习任务是指确定视频帧和音频剪辑是否来自同一视听源,从而得到预训练后的音频特征提取网络、视频特征提取网络;
步骤(2)、在边缘节点处设计一个音视频辅助触觉信号重建AVHR模型;重建AVHR模型具体如下:
边缘节点接收到音频信号和视频信号后,首先将中心云上预训练后的音频特征提取网络、视频特征提取网络作为边缘节点的音频属性提取网络和视频属性提取网络,提取到音频信号属性和视频信号属性后,进一步从音频信号属性和视频信号属性中提取音频信号和视频信号之间关联的音频信号特征和视频信号特征;
然后利用结合了多模态协同和多模态联合范式的融合网络,融合音频信号特征和视频信号特征,得到融合特征;
同时,利用触觉特征提取网络提取触觉信号特征;
根据音频信号特征、视频信号特征、触觉信号特征及融合特征,利用语义相关学习和语义判别学习策略训练音频特征提取网络、视频特征提取网络、触觉特征提取网络及融合网络,学习音频信号、视频信号、触觉信号及融合特征的共享语义,从而得到包含共享语义的融合特征;
最后,将包含共享语义的融合特征输入带有语义约束的触觉信号生成网络,实现目标触觉信号的重建;
步骤(3)、在中心云和边缘节点处分别利用梯度下降算法对AVHR模型进行训练,以得到最优的AVHR模型的结构及参数;
步骤(4)、将待测的成对的音频信号和视频信号输入最优的AVHR模型,最优的AVHR模型用于提取音频信号和视频信号的语义特征并融合,利用融合后的语义特征生成目标触觉信号。
2.根据权利要求1所述的一种基于云边协同的音视频辅助触觉信号重建方法,其特征在于,步骤(1)包括以下步骤:
(1-1)、对于大规模音视频数据库其中M为成对的视频帧和音频剪辑的数量,/>sj为第j对视频帧和音频剪辑,将第j个视频帧/>和第j个音频剪辑片段/>分别传递给视频特征提取网络和音频特征提取网络,分别提取对应的视频特征和音频特征;
(1-2)、连接视频及音频特征并输入到由多个全连接层组成的集成网络中,该集成网络输出集成后的特征,而后利用该集成后的特征执行自监督学习任务,自监督学习的目的是判断视频帧和音频剪辑是否来自同一视听源;具体地,定义如下自监督损失函数:
其中,LSrc为自监督损失函数,为第j对视频帧特征和音频剪辑特征集成后的特征,Gv(·)为视频特征提取网络的特征映射,/>是视频特征提取网络的参数,Ga(·)为音频特征提取网络的特征映射,/>是音频特征提取网络的参数;p(·)表示标签指示器,为1时表示该视频帧和音频剪辑来源于同一视听源,为0表示该视频帧和音频剪辑来源于不同的视听源;/>为集成网络输出的对应关系预测值;/>表示由多个全连接层组成的集成网络的参数;通过最小化LSrc得到预训练后的音频特征提取网络、视频特征提取网络。
3.根据权利要求1所述的一种基于云边协同的音视频辅助触觉信号重建方法,其特征在于,步骤(2)包括以下步骤:
(2-1)、将中心云处训练好的音频特征提取网络、视频特征提取网络及音频特征提取网络的参数和视频特征提取网络的参数直接迁移到边缘节点,将该音频特征提取网络和视频特征提取网络用作边缘节点处的音频属性提取网络和视频属性提取网络;
(2-2)、将边缘节点所接收到的完整的音频信号、视频信号和触觉信号作为多模态训练数据集D,第i个实例di=(vi,ai,hi),(vi,ai,hi)为第i对多模态样本对,其中,vi∈Rw是多模态训练数据集中的第i个视频信号,Rw为视频信号的样本空间,w为视频信号的样本维数;ai∈Ru是多模态训练数据集中的第i个音频信号,Ru为音频信号的样本空间,u为音频信号的样本维数;hi∈Re是多模态训练数据集中的第i个触觉信号,Re为触觉信号的样本空间,e为触觉信号的样本维数;每个di都有对应的one-hot标签yi∈RK,RK为标签空间,其中K是多模态训练数据集的类别数;
(2-3)、边缘节点利用中心云迁移而来的视频特征提取网络和音频特征提取网络分别提取视频属性和音频属性/>其中,v为视频信号,a为音频信号;然后,将gv和ga进一步输入到多层特征网络中,得到视频信号特征fv=Fv(v;θv)和音频信号特征fa=Fa(a;θa),fv和fa相关联,其中,Fv(·)为边缘节点处的视频特征提取网络,θv代表视频特征提取网络的参数,Fa(·)为边缘节点处的音频特征提取网络,θa代表音频特征提取网络的参数;
(2-4)边缘节点将自编码器模型的编码器作为触觉特征提取网络,并利用触觉特征提取网络从触觉信号中提取用于训练的目标的触觉信号特征fh=Eh(h;θhe),其中,h代表触觉信号,Eh(·)代表边缘节点处的编码器,θhe代表编码器的参数;
(2-5)利用结合了多模态协同范式和多模态联合范式的融合网络,融合fv和fa,得到融合特征:
A、多模态协同:在触觉模态的约束下,最大限度地提高fa、fv和fh之间的语义相似性;
B、多模态联合:在多模态协同范式的基础上,对fa、fv进行深度融合;具体过程如下:
fm=Fm(fa,fv;θm),
其中,fm是相关联的视频信号特征和音频信号特征的融合特征;Fm(·)是多模态联合网络的映射函数,Fm(·)取fa和fv的线性加权;θm为多模态联合网络的参数;
(2-6)对相关联的视频信号特征fv和音频信号特征fa、触觉信号特征fh及融合特征fm进行共享语义的学习,共享语义的学习包括语义相关学习和语义判别学习:
语义相关学习:选用对比损失对fv、fa、fm和fh进行相关性约束,缩小fh和与其相匹配的fv、fa、fm之间的距离,并使fh和与其不匹配的fv、fa、fm之间的距离大于阈值δ,定义如下语义相关损失函数:
其中,音频信号特征fa和触觉信号特征fh构成音触对,视觉信号特征fv和触觉信号特征fh构成视触对,是音触对和视触对的对比度损失函数,/>则是融合特征fm和触觉信号特征fh的对比度损失函数;/>为第p个视频信号特征,/>为第p个音频信号特征,/>为第p个融合特征,/>为第p个触觉信号特征,/>为第q个触觉信号特征;l2(·)=||·||2表示12范数;
语义判别学习:选用具有softmax函数的全连接层作为公共分类器,并将公共分类器添加到视频特征提取网络、音频特征提取网络、触觉特征提取网络及融合网络之上,在监督信息的指导下确保跨模态语义的一致性与区分度,语义判别损失函数的定义如下:
其中,LDis为语义判别损失函数,p(·)为公共分类器,fi v为第i个视频信号特征,fi a为第i个音频信号特征,fi h为第i个触觉信号特征,fi m为第i个融合特征,θl为公共分类器的参数;
(2-7)自编码器模型包括编码器和解码器,通过将用于训练的触觉信号h与从编码器至解码器过程中获得的触觉信号进行比较来学习自编码器模型的结构,定义触觉信号的重建损失如下:
其中,LRec为重建损失函数,是第i个由自编码器模型重建的触觉信号,hi是第i个真实的触觉信号;Eh(·)是编码器,编码器作为触觉特征提取网络用于触觉特征提取;Dh(·)是解码器,解码器作为触觉信号生成网络用于触觉信号生成;θh=[θhe,θhd]表示自编码器的参数集合,具体地,θhe是编码器参数,θhd是解码器参数;α为超参数;
(2-8)利用自编码器模型的解码器Dh(·)从fm生成目标触觉信号h′,实现目标触觉信号的重建,并将h′通过编码器Eh(.)重新映射到触觉信号特征fh′,定义所得生成的触觉信号的损失函数如下:
其中,LGen为触觉信号的生成损失函数,h′i=Dh(fi m;θhd)是第i个由融合特征生成的触觉信号,fi m为第i个融合特征;fi h为第i个触觉信号特征,fi h′=Eh(h′i;θhd)是编码器提取的h′i的语义特征;l2(fi h,fi h′)表示fi h和fi h′的相似性,yilogp(fi h′)是fi h′的分类损失,p(fi h′)是预测的fi h′的标签,l2(fi h,fi h′)和yilogp(fi h′)共同构成了损失函数的正则项;β和γ为超参数。
4.根据权利要求2所述的一种基于云边协同的音视频辅助触觉信号重建方法,其特征在于,步骤(3)包括以下步骤:
(3-1)在中心云的大规模音视频数据库上训练视频特征提取网络和音频特征提取网络,具体过程如下:
步骤311、初始化和/>为第0次迭代的取值;
步骤312、设置总迭代次数为n1,令迭代次数n=0,并设定学习率μ1;
步骤313、采用随机梯度下降法SGD,优化各网络参数:
其中,和/>分别为第n+1次和第n次中心云上视频特征提取网络、音频特征提取网络和集成网络的参数;/>为对各损失函数做偏导;
步骤314、如果n<n1,则跳转到步骤313,n=n+1,继续下一次迭代;否则,终止迭代;
步骤315、经过n1轮迭代后,得到优化后的视频特征提取网络和音频特征提取网络/>
(3-2)在边缘节点接收到的多模态训练数据集上进行AVHR模型的训练,具体过程如下:
步骤321、初始化θv(0),θa(0),θm(0),θhe(0),θl(0),θv(0),θa(0),θm(0),θhe(0),θl(0)为第0次迭代θv,θa,θm,θhe,θl的取值;
步骤322、开始迭代,设置总迭代次数为n2,令迭代次数n′=0;并设定学习率μ2;
步骤323、采用随机梯度下降法,优化各特征提取网络、融合网络及公共分类器的参数:
其中,θv(n′+1),θa(n′+1),θhe(n′+1),θl(n′+1),θm(n′+1)和θv(n′),θa(n′),θhe(n′),θl(n′),θm(n′)分别为第n′+1次和第n′次边缘节点上视频特征提取网络,音频特征提取网络,编码器,公共分类器和融合网络的参数;为对各损失函数做偏导;
步骤324、采用随机梯度下降法SGD,优化解码器的参数:
其中,θhd(n′+1)和θha(n′)分别为第n′+1次和第n′次边缘节点上解码器的参数;为对各损失函数做偏导;
步骤325、如果n′<n2,则跳转到步骤323,n′=n′+1,继续下一次迭代;否则,终止迭代;
步骤326、经过n2轮迭代后,得到最优的AVHR模型,最优的AVHR模型包括优化后的视频特征提取网络、音频特征提取网络、触觉特征提取网络、融合网络和触觉信号生成网络。
5.根据权利要求1所述的一种基于云边协同的音视频辅助触觉信号重建方法,其特征在于,步骤(4)包括以下步骤:
(4-1)采用经过训练完成的AVHR模型;
(4-2)将待测的一对视频信号和音频信号/>输入训练完成的AVHR模型,提取各自的语义特征并融合,利用融合后的语义特征生成期望的触觉信号/>
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110776711.8A CN113642604B (zh) | 2021-07-09 | 2021-07-09 | 一种基于云边协同的音视频辅助触觉信号重建方法 |
US18/247,845 US11928957B2 (en) | 2021-07-09 | 2022-07-01 | Audiovisual secondary haptic signal reconstruction method based on cloud-edge collaboration |
PCT/CN2022/103301 WO2023280064A1 (zh) | 2021-07-09 | 2022-07-01 | 一种基于云边协同的音视频辅助触觉信号重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110776711.8A CN113642604B (zh) | 2021-07-09 | 2021-07-09 | 一种基于云边协同的音视频辅助触觉信号重建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113642604A CN113642604A (zh) | 2021-11-12 |
CN113642604B true CN113642604B (zh) | 2023-08-18 |
Family
ID=78417001
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110776711.8A Active CN113642604B (zh) | 2021-07-09 | 2021-07-09 | 一种基于云边协同的音视频辅助触觉信号重建方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11928957B2 (zh) |
CN (1) | CN113642604B (zh) |
WO (1) | WO2023280064A1 (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113642604B (zh) | 2021-07-09 | 2023-08-18 | 南京邮电大学 | 一种基于云边协同的音视频辅助触觉信号重建方法 |
CN114663802B (zh) * | 2022-02-28 | 2024-05-31 | 北京理工大学 | 基于特征时空约束的监控视频跨模态视频迁移方法 |
CN114660934B (zh) * | 2022-03-03 | 2024-03-01 | 西北工业大学 | 一种基于视觉-触觉融合的机械臂自主操作策略学习方法 |
CN114842384B (zh) * | 2022-04-30 | 2024-05-31 | 南京邮电大学 | 一种面向6g的触觉模态信号重建方法 |
CN114979013B (zh) * | 2022-05-17 | 2023-12-05 | 南京邮电大学 | 一种面向多模态业务的传输模式选择与资源分配方法 |
CN115407875A (zh) * | 2022-08-19 | 2022-11-29 | 瑞声开泰声学科技(上海)有限公司 | 触觉反馈效果的生成方法、系统及相关设备 |
CN115905838A (zh) * | 2022-11-18 | 2023-04-04 | 南京邮电大学 | 一种视听辅助的细粒度触觉信号重建方法 |
CN116939320B (zh) * | 2023-06-12 | 2024-06-18 | 南京邮电大学 | 一种生成式多模态互利增强视频语义通信方法 |
CN117611845B (zh) * | 2024-01-24 | 2024-04-26 | 浪潮通信信息系统有限公司 | 多模态数据的关联识别方法、装置、设备及存储介质 |
CN118092671B (zh) * | 2024-04-23 | 2024-07-05 | 北京航空航天大学 | 目标视听数据生成方法、装置、电子设备和可读介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804453A (zh) * | 2017-04-28 | 2018-11-13 | 上海荆虹电子科技有限公司 | 一种视音频识别方法及装置 |
CN109559758A (zh) * | 2018-11-05 | 2019-04-02 | 清华大学 | 一种基于深度学习的将纹理图像转换成触觉信号的方法 |
CN109598279A (zh) * | 2018-09-27 | 2019-04-09 | 天津大学 | 基于自编码对抗生成网络的零样本学习方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9619980B2 (en) * | 2013-09-06 | 2017-04-11 | Immersion Corporation | Systems and methods for generating haptic effects associated with audio signals |
CN110008842A (zh) * | 2019-03-09 | 2019-07-12 | 同济大学 | 一种基于深度多损失融合模型的行人重识别方法 |
US11340704B2 (en) | 2019-08-21 | 2022-05-24 | Subpac, Inc. | Tactile audio enhancement |
CN110956651B (zh) | 2019-12-16 | 2021-02-19 | 哈尔滨工业大学 | 一种基于视觉和振动触觉融合的地形语义感知方法 |
CN111966226B (zh) | 2020-09-03 | 2022-05-10 | 福州大学 | 一种基于补偿型长短期记忆网络的触感通信容错方法及系统 |
CN113642604B (zh) | 2021-07-09 | 2023-08-18 | 南京邮电大学 | 一种基于云边协同的音视频辅助触觉信号重建方法 |
-
2021
- 2021-07-09 CN CN202110776711.8A patent/CN113642604B/zh active Active
-
2022
- 2022-07-01 US US18/247,845 patent/US11928957B2/en active Active
- 2022-07-01 WO PCT/CN2022/103301 patent/WO2023280064A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804453A (zh) * | 2017-04-28 | 2018-11-13 | 上海荆虹电子科技有限公司 | 一种视音频识别方法及装置 |
CN109598279A (zh) * | 2018-09-27 | 2019-04-09 | 天津大学 | 基于自编码对抗生成网络的零样本学习方法 |
CN109559758A (zh) * | 2018-11-05 | 2019-04-02 | 清华大学 | 一种基于深度学习的将纹理图像转换成触觉信号的方法 |
Non-Patent Citations (1)
Title |
---|
多模态特征融合与多任务学习的特种视频分类;吴晓雨;顾超男;王生进;;光学精密工程(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
US20230290234A1 (en) | 2023-09-14 |
WO2023280064A1 (zh) | 2023-01-12 |
CN113642604A (zh) | 2021-11-12 |
US11928957B2 (en) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113642604B (zh) | 一种基于云边协同的音视频辅助触觉信号重建方法 | |
CN113762322B (zh) | 基于多模态表示的视频分类方法、装置和设备及存储介质 | |
CN107979764A (zh) | 基于语义分割和多层注意力框架的视频字幕生成方法 | |
WO2020103674A1 (zh) | 自然语言描述信息的生成方法及装置 | |
CN111966883A (zh) | 结合自动编码器和生成对抗网络的零样本跨模态检索方法 | |
CN115131638B (zh) | 视觉文本预训练模型的训练方法、装置、介质和设备 | |
CN114443899A (zh) | 视频分类方法、装置、设备及介质 | |
CN114339450B (zh) | 视频评论生成方法、系统、设备及存储介质 | |
CN115905838A (zh) | 一种视听辅助的细粒度触觉信号重建方法 | |
CN114359775A (zh) | 关键帧检测方法、装置、设备及存储介质、程序产品 | |
CN113590965A (zh) | 一种融合知识图谱与情感分析的视频推荐方法 | |
CN116933051A (zh) | 一种用于模态缺失场景的多模态情感识别方法及系统 | |
CN116028846A (zh) | 一种融合多特征和注意力机制的多模态情感分析方法 | |
WO2021028236A1 (en) | Systems and methods for sound conversion | |
CN113407663A (zh) | 基于人工智能的图文内容质量识别方法和装置 | |
CN114661951A (zh) | 一种视频处理方法、装置、计算机设备以及存储介质 | |
Zhou et al. | Sepfusion: Finding optimal fusion structures for visual sound separation | |
Guo et al. | Learning inter-class optical flow difference using generative adversarial networks for facial expression recognition | |
CN116956953A (zh) | 翻译模型的训练方法、装置、设备、介质及程序产品 | |
CN116543339A (zh) | 一种基于多尺度注意力融合的短视频事件检测方法及装置 | |
CN116932788A (zh) | 封面图像提取方法、装置、设备及计算机存储介质 | |
Radzi et al. | Research on Emotion Classification Based on Multi-modal Fusion | |
Lubitz et al. | The VVAD-LRS3 Dataset for Visual Voice Activity Detection | |
Chen et al. | Generative Multi-Modal Mutual Enhancement Video Semantic Communications. | |
CN117152821B (zh) | 一种基于双重对比学习的跨域人脸面部运动单元检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |