CN108256627A

CN108256627A - 视听信息互生装置及其基于循环对抗生成网络的训练系统

Info

Publication number: CN108256627A
Application number: CN201711474426.0A
Authority: CN
Inventors: 张兆翔; 郝王丽; 关赫
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2018-07-06

Abstract

本发明属于机器学习领域，具体涉及一种视听信息互生装置及其基于循环对抗生成网络的训练系统。为了在图像或声音模态缺失或损失时，能够基于已知的图像或声音样本生成缺失或损失的模态信息，本发提供了一种视听信息互生装置，并基于循环对抗生成网络训练视听信息互生装置。在训练过中，通过在模态的高层表示中引入高斯隐变量以解不同模态间样本的结构、信息不对称问题，通过跨模态生成路径之间的权值共享，以充分利用原始模态信息。通过本发明可以更加高效可靠地实现视听模态间的互相生成。

Description

视听信息互生装置及其基于循环对抗生成网络的训练系统

技术领域

本发明属于机器学习领域，具体涉及一种视听信息互生装置及其基于循环对抗生成网络的训练系统。

背景技术

视频中包含两个共生模态，分别为视觉模态和听觉模态，它们不仅包含共同信息，而且包含互补信息。如果可充分利用这些信息，一些特定视觉任务的性能便可得到提升，比如视频描述，说话者识别等。

但是，受环境干扰、传感器故障等原因的影响，视频中的某一模态在某些情况下可能会受损或者缺失，从而出现不发声(听觉模态缺失)或者模糊(视觉模态受损)的视频。利用这些模态不完整视频进行相关任务的训练势必会导致性能的降低。为解决该问题，很多研究者提出了跨模态生成技术。

在跨模态样本互相生成方面，目前比较流行的基本算法大致可分为：

自动编码器：自动编码器包含一个对称的编码器和解码器，目标是重构出尽可能相似的输入样本。

对抗生成网络：对抗生成网络包含一个判别器和一个生成器，两者以博弈的方式进行训练。生成器的目标是生成一个尽可能真的样本，最大概率地干扰判别器。判别器的目标是以最大的概率判断出生成器生成的样本是假样本。

循环对抗生成网络：循环对抗生成网络主要用于跨域对象互相生成，比如晴天-雨天图片互相生成，RGB-和红外图片互相生成，黑夜-白天图像互相生成等。

条件对抗生成网络：条件对抗生成网络可用于跨模态生成，比如从文本生成图像。基于文本和对应图像的相同语义信息，可实现文本到图像的跨模态生成。利用特定网络提取出文本的编码信息，并将其作为条件输入给条件对抗生成网路生成对应的图片。条件对抗网络的另一个应用是做视听跨模态的生成。具体为，采用两个独立的网络进行图片到声音以及声音到图片的生成，每个独立的网络均可分为两个阶段，第一阶段采用分类网络提取一个模态样本的判别信息，第二阶段基于提取出的判别信息，生成另一模态的对应样本。

上述算法存在以下缺陷：基于条件对抗网路的跨域生成所采用的样本均来自同一个模态，比如图片域。这些跨域的样本间共享相似的结构、维度信息，所以相互生成比较容易。然而，对于跨模态视听相互生成，对应的(图片、声音)样本来自不同的模态，它们维度、结构不对称，故若采用传统的循环对抗生成网络不能有效地解决视听跨模态相互生成问题。基于条件对抗生成网络的视听跨模态相互生成采用两个独立的网络进行跨模态生成，且每个生成网络不是端到端的，分两阶段完成。

本发明提出一种视听信息互生装置及其基于循环对抗生成网络的训练系统，通过引入隐变量解决视听模态样本在互相生成过程中的结构和维度的不对称性；利用联合对应对抗损失函数引入额外匹配信息；以及利用权值共享进一步提高跨模态生成效果。本发明提供的视听信息互生装置可在一个统一的框架下实现(图像，声音)的相互生成，并可进行端到端的训练。

发明内容

为了解决现有技术中的上述问题，即为了解决视频中视觉模态或听觉模态受损或缺失的问题，本发明的一方面，提出了一种视听信息互生装置：该装置由四类子网络经排列组合构成的两条跨模态生成路径构成；

所述四类子网络包括由声音生成图像的A-V子网络、由声音生成声音的A-A子网络、由图像生成声音的V-A子网络、由图像生成图像的V-V子网络；

所述两条跨模态生成路径包括第一路径V-V-A、第二路径A-A-V；

所述第一路径由V-V子网络、V-A子网络串联设置构成；

所述第二路径由A-A子网络、A-V子网络串联设置构成。

进一步地，所述子网络包括编码器和解码器，编码器和解码器之间通过符合高斯分布的高斯隐变量进行连接。

进一步地，所述子网络中的编码器由多个卷积层构成，解码器由多个反卷积层构成。

进一步地，所述视听信息互生装置还包括视听数据预处理模块，该模块的输出端与两条跨模态生成路径的输入端相连接。

进一步地，所述视听数据预处理模块包括视频预处理模块、图像样本预处理模块、声音样本预处理模块；

所述视频预处理模块，用于将视频切割成时间长度固定的视频片；

所述图像样本预处理模块，用于提取所述视频预处理模块生成的视频片的第一帧图像并归一化成相同大小的图片样本；

所述声音样本预处理模块，用于提取视频片中对应音频片段的LMS频谱图，并归一化成相同大小的声音样本。

进一步地，所述视听信息互生装置还包括视听数据判断模块，该模块用于判断所输入的视听数据中视觉模态、听觉模态的完整性；若视觉模态缺失或受损，则将听觉模态信息输入至对应的跨模态生成路径；若听觉模态缺失或受损，则将视觉模态信息输入至对应的跨模态生成路径。

本发明的另一方面，还提出了一种基于循环对抗生成网络的视听信息互生装置训练系统，其包括所述的视听信息互生装置，还包括第三路径A-V-A、第四路径V-A-V；

所述第三路径由A-V子网络、V-A子网络串联设置构成；所述第三路径与第一路径中V-V-A输入端并联；

所述第四路径由V-A子网络、A-V子网络串联设置构成；所述第四路径与第二路径中A-A-V输入端并联；

所述第一路径共享所述第三路径的权值；所述第二路径共享所述第四路径的权值。

进一步地，所述“所述第一路径共享所述第三路径的权值；所述第二路径共享所述第四路径的权值”，其方法为：

所述第一路径中V-V子网络的解码器的权值采用所述第三路径中A-V子网络的解码器的权值；所述第一路径中V-A子网络采用所述第三路径中V-A子网络的全部权值；

所述第二路径中A-A子网络的解码器的权值采用所述第四路径中V-A子网络的解码器的权值；所述第二路径中A-V子网络采用所述第四路径中A-V子网络的全部权值。

进一步地，所述的基于循环对抗生成网络的视听信息互生装置训练系统还包括判别器，用于判断视觉模态数据与其生成的听觉模态数据是否来自同一个声音来源；或者

听觉模态数据与其生成的视觉模态数据是否来自同一个声音来源。

进一步地，还包括一致性判断模块，用于判断生成的听觉模态数据与输入样本中听觉模态数据的一致性；或者

生成的视觉模态数据与输入样本中视觉模态数据的一致性。

进一步地，所述解码器的损失函数l_G为：

l_G＝log(S_rvfa)+log(S_fvra)

所述判别器的损失函数l_D：

所述一直性判断模块的损失函数l_C：

其中，代表l₁损失函数，l₁代表l₁范数；

S_rvfa为(真实图像，生成声音)样本对输入到判别器后所得分数；

S_fvra为(生成图像，真实声音)样本对输入到判别器后所得分数；

S_rvra为相同类别(图像，声音)样本对输入到判别器后所得分数；

S_rvwa为(真实图像，错误类别声音)样本对输入到判别器后所得分数；

S_wvra为(错误类别图像，真实声音)样本对输入到判别器后所得分数；

G为对应路径的生成模型，G的下标代表输入到输出所经过的生成路径；

GT_i和GT_s代表真实的声音和图像样本。

本发明提出了一种视听信息互生装置及其基于循环对抗生成网络的训练系统，为视听跨模态相互生成提供一种快速有效的方法，且可以很好地解决模态缺失的问题。与现有技术相比，本发明具有如下优势：

(1)本发明将高斯隐变量引入模态的高层表示中，可很好地解决不同模态间样本的结构、信息不对称性问题。

(2)本发明利用联合对应对抗损失函数将(图像、声音)样本对的不同匹配信息作为先验引入网络模型，对生成的样本进行更细尺度的约束，从而生成更好的样本。

(3)本发明在传统循环对抗生成网络模型上添加两条新的跨模态生成路径，该生成路径可通过与原始路径共享权值进行信息迁移，更好的实现跨模态样本的相互生成。

附图说明

图1为本发明一种实施例的视听信息互生装置及其基于循环对抗生成网络的训练系统示意图；

图2为本发明一种实施例的视听信息互生装置和传统模型生成的声音和图像样本的对比示意图；

图3为本发明一种实施例的验证高斯隐变量提高视听信息互生装置性能的对比示意图；

图4为本发明一种实施例的验证跨模态路径V-V-A和A-A-V有效性的对比示意图；

图5为本发明一种实施例的联合对应对抗损失函数引入先验信息提高视听信息互生装置性能的对比示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明提供了一种视听信息互生装置，该装置由四类子网络经排列组合构成的两条跨模态生成路径构成；

所述两条跨模态生成路径包括第一路径V-V-A、第二路径A-A-V；

所述第一路径由V-V子网络、V-A子网络串联设置构成；

所述第二路径由A-A子网络、A-V子网络串联设置构成。

所述子网络包括编码器和解码器，编码器和解码器之间通过符合高斯分布的高斯隐变量进行连接。

以A-V子网络为例，该A-V子网络包括由一系列卷积层组成的声音编码器和由一系列反卷积层组成的图像解码器，在声音编码器和图像解码器之间直接连接一个符合高斯分布的多维度的高斯隐变量。高斯隐变量的引入用以解决视听模态在互相生成过程中的结构和维度不对称性问题。

以A-A子网络为例，该A-A子网络包括由一系列卷积层组成的声音编码器和一系列反卷积层组成的声音解码器，在声音编码器和声音解码器之间直接连接一个符合高斯分布的多维度的高斯隐变量。

下面以A-V子网络为例解释子网络的编/解码过程：其输入为声音样本，声音样本像素为128*32，经过由一系列卷积层组成的声音编码器进行编码，得到特征表示F_V，并将一个符合高斯分布的维度为100的隐变量和F_V进行叠加，得到E_V，将E_V输入给由一系列反卷积组成的图形解码器中进行解码，得到图像样本，生成的图像样本像素为128*128。

下面以A-A子网络为例解释子网络的编/解码过程：其输入为声音样本，声音样本像素为128*128，经过由一系列卷积层组成的声音编码器进行编码，得到特征表示F_V，并将一个符合高斯分布的维度为100的隐变量和F_V进行叠加，得到E_V，将E_V输入给由一系列反卷积组成的声音解码器中进行解码，得到声音样本，生成的声音样本像素为128*32。

视听信息互生装置还包括视听数据预处理模块，该模块的输出端与两条跨模态生成路径的输入端相连接。

视听数据预处理模块包括视频预处理模块、图像样本预处理模块、声音样本预处理模块；

本实施例中视频预处理模块将视频截成0.5秒的小片段，每个片段的第一帧图像与其0.5秒的音频片相对应。

本实施例中图像样本预处理模块提取视频预处理模块生成的视频片的第一帧图像并归一化成像素为128*128的图片样本。

本实施例中声音样本预处理模块提取视频片中对应音频片的LMS频谱图，并归一化成像素为128*32的声音样本。

视听信息互生装置还包括视听数据判断模块，该模块用于判断所输入的视听数据中视觉模态、听觉模态的完整性；若视觉模态缺失或受损，则将听觉模态信息输入至对应的第二路径；若听觉模态缺失或受损，则将视觉模态信息输入至对应的第一路径。

本发明一种实施例的基于循环对抗生成网络的视听信息互生装置训练系统，该系统包括视听信息互生装置，还包括第三路径A-V-A、第四路径V-A-V。本发明一种实施例的视听信息互生装置及其基于循环对抗生成网络的训练系统，如图1所示。该系统的输入为声音LMS谱、图像；输出为RF_Sound(从生成的图像里重构的声音)、FR_Sound(从重构的图像里生成的声音)、FR_Image(从重构的声音里生成的图像)、RF_Image(从生成的声音里重构的图像)；Fe表示特征图；Z表示高斯隐变量；EncoderA表示声音编码器；DecoderA表示声音解码器；EncoderV表示图像编码器；DecoderV表示图像解码器；模态转换过程中生成的样本为F_Image(生成图片)、R_Image(重构图片)、R_Sound(重构声音)、F_sound(生成声音)；

第一路径由V-V子网络、V-A子网络串联设置构成；

第二路径由A-A子网络、A-V子网络串联设置构成；

第三路径由A-V子网络、V-A子网络串联设置构成；第三路径与第一路径中V-V-A输入端并联；

第四路径由V-A子网络、A-V子网络串联设置构成；第四路径与第二路径中A-A-V输入端并联；

第一路径共享第三路径的权值；第二路径共享第四路径的权值。

本实施例的基于循环对抗生成网络的视听信息互生装置训练系统中，子网络同上述视听信息互生装置中子网络一样，包括编码器和解码器，编码器和解码器之间通过符合高斯分布的高斯隐变量进行连接。

本实施例中上述权值共享的方法具体为：

第一路径中V-V子网络的解码器的权值采用第三路径中A-V子网络的解码器的权值；第一路径中V-A子网络采用第三路径中V-A子网络的全部权值；

第二路径中A-A子网络的解码器的权值采用第四路径中V-A子网络的解码器的权值；第二路径中A-V子网络采用第四路径中A-V子网络的全部权值。

该基于循环对抗生成网络的视听信息互生装置训练系统，用于对上述视听信息互生装置进行训练，得到最优的参数组合。为了便于实现，所构建的训练系统中包括上述视听信息互生装置的镜像网络结构，在训练结束参数优化后，可以提取训练系统中上述视听信息互生装置的镜像网络结构的参数，并用于视听信息互生装置中。还可以构建包括第三路径A-V-A、第四路径V-A-V的训练系统，通过信息关联与需要优化的视听信息互生装置进行完整的训练系统进行参数训练。

基于循环对抗生成网络的视听信息互生装置训练系统，还包括判别器，用于判断视觉模态数据与其生成的听觉模态数据是否来自同一个声音来源；或者听觉模态数据与其生成的视觉模态数据是否来自同一个声音来源。该训练系统依据判别结果计算目标函数，依据目标函数采用随机梯度下降法优化判别器的参数。

具体为：若图像样本和声音样本来自相同的乐器类别则判别器判断为真实匹配的S_rvra样本对，标记为1；S_rvra表示相同类别(图像，声音)样本对输入到判别器后所得分数；

若图像样本和声音样本分别来自不同的乐器类别则判别器判断为错误匹配的S_rvwa/S_wvra样本对，标记为0；S_rvwa、S_wvra分别表示(真实图像，错误类别声音)和(错误类别图像，真实声音)样本对输入到判别器后所得分数；

若图像样本和声音样本中其中一种样本来自一种乐器类别，而另一种是基于该样本通过视听信息互生装置的生成则判别器判断为假匹配的S_rvfa/S_fvra样本对，标记为0；S_rvfa、S_fvra分别表示(真实图像，生成声音)和(生成图像，真实声音)样本对输入到判别器后所得分数；

输入200个图像和声音样本对至该训练系统，将形成200个标记结果，将标记结果进行叠加，其叠加值越高，证明视听信息互生装置生成的结果越接近真实，通过随机梯度下降法优化判别器参数；

判别器的损失函数l_D，如公式(1)-(3)所示：

基于循环对抗生成网络的视听信息互生装置训练系统，还包括一致性判断模块，用于判断生成的听觉模态数据与输入样本中听觉模态数据的一致性；或者生成的视觉模态数据与输入样本中视觉模态数据的一致性。

一直性判断模块损失函数l_C，如公式(4)所示：

其中，代表l₁损失函数，l₁代表l₁范数；G为对应路径的生成模型，G的下标代表输入到输出所经过的生成路径；GT_i和GT_s代表真实的声音和图像样本。

基于循环对抗生成网络的视听信息互生装置训练系统中解码器(生成器)的目标是生成尽可能真的图像或者声音，使判别器判断不出是假匹配还是真匹配。生成器采用Adam算法进行参数优化。该生成器即基于循环对抗生成网络的视听信息互生装置训练系统的子网络；

解码器的损失函数l_G，如公式(5)所示：

l_G＝log(S_rvfa)+log(S_fvra) (5)

S_fvra为(生成图像，真实声音)样本对输入到判别器后所得分数。

为了更清晰地对本实施例的训练系统进行说明，现对其训练过程进行进一步描述：首先将乐器演奏视频分成图像和声音两个通道，每张图像帧和其对应时间的半秒钟音频的频谱图组成正确匹配的(图像，声音)样本对。另外，将图像帧和不同类别乐器的半秒钟音频频谱组成错误匹配的(图像，错误类别声音)和(错误类别图像，声音)样本对。然后将正确匹配的(图像，声音)样本对输入到视听信息互生成装置里，得到跨模态生成的输出(声音，图像)对，输入和对应输出组成假匹配的(图像，生成(假)声音)，(生成(假)图像，声音)样本对。然后，将三种样本对分别输入到判别器中，判别器给正确匹配的样本对设置标签为1，给错误匹配和假匹配的样本对设置标签为0。不同样本对经过判别器得到一个分数，所有样本对所得分数与其对应的标签之间的交叉熵作为我们的损失函数，通过随机梯度下降(SGD)基于该损失函数更新网络里的参数。另外，为了保证生成图像和声音的质量，我们增加了一个数据保证性约束，即对(图像，生成图像)对以及(声音，生成声音)对增加一个l2范数约束，通过Adam优化器对该约束进行优化并更新网络参数。

为显示该视听信息互生装置的跨模态生成效果，图2给出了传统模型和本发明提供的视听信息互生装置生成的声音样本和图像样本的对比图。将巴松管、大提琴、单簧管、低音提琴、喇叭、双簧管、长号、小号、管乐、中提琴、小提琴、萨克斯管、长笛的图像和声音样本对输入到传统模型和本发明提供的视听信息互生装置中，分别生成对应的声音和图像样本。图2中第一行图片为传统模型生成图像样本，标记为S21C；第二行为视听信息互生装置生成的图片样本，标记为Ours1；第三行为真实的图片数据，标记为GT Image；第四行为传统模型生成的声音样本，标记为12C；第五行为视听信息互生装置生成的声音样本，标记为Ours2；第六行为真实的声音数据，标记为GT Sound。图2中其每一列输入的图片样本或声音样本一致。从图2可以看出传统模型生成的样本与真实数据差别较大，而信息互生装置生成的样本十分接近真实数据。

为验证本发明中高斯隐变量可解决视听跨模态的信息、结构和维度不对称问题，图3给出验证其性能的对比图。CMCGAN表示本发明的视听信息互生装置；NNCMCGAN是视听信息互生装置中的所有子网络去掉高斯隐变量形成的对比网络。为进一步验证性能，CMCGAN和NNCMCGAN的编码/解码器使用不同的卷积/反卷积层，具体为5层，6层，7层，对应模型记为CMCGAN-5/6/7、NNCMCGAN-5/6/7。将图像/声音样本输入不同的网络模型中去生成对应的声音/图像。图3中其每一列输入的图片样本或声音样本一致。其中，GT Sound表示真实的声音数据；GT Image为真实的图片数据。从图3我们可以看出和NNCMCGAN相比，CMCGAN生成的图像像素排列的更加合理，生成的声音频谱与真实的频谱相比，差异更小。说明了CMCGAN可以很好地解决由模态间结构、维度不对称引起的像素漂移和频谱抖动现象。另外卷基层越多，生成的图像和声音样本质量越好，验证了高层语义信息对跨模态生成的重要作用，语义信息越完整，跨模态生成的样本越好。

为验证本发明视听信息互生装置中跨模态生成路径V-V-A和A-A-V的有效性，我们建立一个对比网络LCMCGAN，LCMCGAN为基于循环对抗生成网络的视听信息互生装置训练系统去掉V-V-A和A-A-V路径后的新网络。图4为本发明中验证跨模态路径V-V-A和A-A-V有效性的对比图。其中，第一行图片样本为基于LCMCGAN中A-V-A路径的A-V子网络生成的图片样本，标记为LCMCGAN(F-Image)；第二行图片样本为基于LCMCGAN中V-A-V路径的A-V子网络生成的图片样本，标记为LCMCGAN(RF-Image)；第三行图片样本为基于本发明视听信息互生装置的A-A-V路径生成的图片样本，标记为Ours3；第四行图片样本为真实的图像数据，标记为GT Image；第五行为基于LCMCGAN中V-A-V路径的V-A子网络生成的声音样本，标记为LCMCGAN(F-Sound)；第六行为基于LCMCGAN中A-V-A路径的V-A子网络生成的声音样本，标记为LCMCGAN(RF-Sound)；第七行为基于本发明视听信息互生装置的V-V-A路径生成声音样本，标记为Ours4；第八行为声音样本的真实数据，标记为GT Sound；图4中其每一列输入的图片样本或声音样本一致。从图4中可以看出本发明视听信息互生装置生成的图像和声音频谱图比LCMCGAN好，说明跨模态路径V-V-A和A-A-V通过信息共享可提高跨模态生成图像/声音的性能。

联合对应对抗损失函数引入先验匹配信息提高视听模态互相生成的质量，图5为本发明中联合对应对抗损失函数引入先验匹配信息提高视听模态互相生成质量的效果对比图。第一行为标准损失函数训练本发明的视听信息互生装置，基于输入声音样本得到的图片样本；第二行为联合对应对抗损失函数训练视听信息互生装置，基于输入声音样本得到的图片样本。图5中其每一列输入的声音样本相同。从图5可以看出，将声音样本输入有不同损失函数约束的网络模型中去生成对应的图像。使用标准损失函数的模型生成的图片信息混叠严重，原因为引入先验信息较少，不能很好地重构图像，进一步说明了本发明中所提出的联合对应对抗损失函数在引入先验匹配信息方面具有优势。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、单元及方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种视听信息互生装置，其特征在于，该装置由四类子网络经排列组合构成的两条跨模态生成路径构成；

所述两条跨模态生成路径包括第一路径V-V-A、第二路径A-A-V；

所述第一路径由V-V子网络、V-A子网络串联设置构成；

所述第二路径由A-A子网络、A-V子网络串联设置构成。

2.根据权利要求1所述的视听信息互生装置，其特征在于，所述子网络包括编码器和解码器，编码器和解码器之间通过符合高斯分布的高斯隐变量进行连接。

3.根据权利要求2所述的视听信息互生装置，其特征在于，所述子网络中的编码器由多个卷积层构成，解码器由多个反卷积层构成。

4.根据权利要求1所述的视听信息互生装置，其特征在于，所述装置还包括视听数据预处理模块，该模块的输出端与两条跨模态生成路径的输入端相连接。

5.根据权利要求4所述的视听信息互生装置，其特征在于，所述视听数据预处理模块包括视频预处理模块、图像样本预处理模块、声音样本预处理模块；

6.根据权利要求1-5所述的视听信息互生装置，其特征在于，还包括视听数据判断模块，该模块用于判断所输入的视听数据中视觉模态、听觉模态的完整性；若视觉模态缺失或受损，则将听觉模态信息输入至对应的跨模态生成路径；若听觉模态缺失或受损，则将视觉模态信息输入至对应的跨模态生成路径。

7.一种基于循环对抗生成网络的视听信息互生装置训练系统，其特征在于，包括权利要求1-6任一项所述的视听信息互生装置，还包括第三路径A-V-A、第四路径V-A-V；

8.根据权利要求7所述的基于循环对抗生成网络的视听信息互生装置训练系统，其特征在于，所述子网络包括编码器和解码器，编码器和解码器之间通过符合高斯分布的高斯隐变量进行连接。

9.根据权利要求8所述的基于循环对抗生成网络的视听信息互生装置训练系统，其特征在于，所述“所述第一路径共享所述第三路径的权值；所述第二路径共享所述第四路径的权值”，其方法为：

10.根据权利要求9所述的基于循环对抗生成网络的视听信息互生装置训练系统，其特征在于，还包括判别器，用于判断视觉模态数据与其生成的听觉模态数据是否来自同一个声音来源；或者

11.根据权利要求10所述的基于循环对抗生成网络的视听信息互生装置训练系统，其特征在于，还包括一致性判断模块，用于判断生成的听觉模态数据与输入样本中听觉模态数据的一致性；或者

生成的视觉模态数据与输入样本中视觉模态数据的一致性。

12.根据权利要求10所述的基于循环对抗生成网络的视听信息互生装置训练系统，其特征在于，

所述解码器的损失函数l_G为：

l_G＝log(S_rvfa)+log(S_fvra)

所述判别器的损失函数l_D：

所述一直性判断模块损失函数l_C：

其中，

代表l₁损失函数，l₁代表l₁范数；

GT_i和GT_s代表真实的声音和图像样本。