CN116089654A

CN116089654A - 一种基于音频监督的可转移视听文本生成方法和系统

Info

Publication number: CN116089654A
Application number: CN202310365526.9A
Authority: CN
Inventors: 李烈锋; 王志辉; 姜伟昊; 钱冠梁; 孙清; 陈梓铭
Original assignee: Hangzhou Dongshang Intelligent Technology Co ltd
Current assignee: Hangzhou Dongshang Intelligent Technology Co ltd
Priority date: 2023-04-07
Filing date: 2023-04-07
Publication date: 2023-05-09
Anticipated expiration: 2043-04-07
Also published as: CN116089654B

Abstract

本发明公开了一种基于音频监督的可转移视听文本生成方法和系统，属于描述性数据的生成和处理领域。首先提取源域视频帧特征序列和音频特征序列，提取视频帧特征序列的视觉前缀；构建通用音频语义空间，将视觉前缀重建为重建音频片段特征和反事实音频片段特征；将视觉前缀和视频帧特征序列拼接后与音频特征序列一起编码，得到跨模态融合后的视频特征序列和音频特征序列，再解码生成预测的描述文本；采用元学习和反事实对比学习方法，利用源域训练数据集对网络模型进行训练。本发明使用在不同域中语义信息变化较小的音频信号来监督视觉变化，将音频的域不变性引入到视觉特征中，同时使用一种反事实对比学习策略，有效地改善了文本生成的性能。

Description

一种基于音频监督的可转移视听文本生成方法和系统

技术领域

本发明涉及描述性数据的生成和处理领域，尤其涉及一种基于音频监督的可转移视听文本生成方法和系统。

背景技术

视听文本生成任务旨在弥合感知（视觉和听觉）和交流（语言）之间的差距，因此正成为人工智能的一个日益重要的目标。现有的方法大多数都是针对一个领域的视频如烹饪类视频，体育类视频进行描述。尽管现有的方法在特定领域表现良好，但由于不同领域的不同数据分布，他们在应用到新领域时不可避免地遭受严重的性能退化。同时对于视听文本生成任务而言，人工数据标注是非常耗时耗力的。

针对不同领域之间的泛化问题，现有报道中提出了一些缩小不同领域数据差距的方法。这些方法主要针对单模态的情况，缺少对跨模态关系的分析。本发明考虑到对于低级语义概念理解而言不同领域中音频模态相较于视觉模态变化较小，若利用音频模态提供额外的监督信息来对齐视觉模态，则可有效提升对不同领域视听内容理解的准确程度。

综上，现有技术中还不能有效地解决可转移到视听文本生成问题，导致了在实际场景应用中性能有限，无法准确快速的生成自然语言描述文本。

发明内容

为了解决上述技术问题，本发明公开了一种基于音频监督的可转移视听文本生成方法和系统，使用在不同域中语义信息变化较小的音频信号来监督视觉变化，通过从视觉特征重建音频特征的学习过程将音频中的域不变性引入到视觉特征中，同时考虑基于重建音频的特征分布和模态依赖，使用一种反事实对比学习策略，有效地改善了文本生成的性能。

为了实现上述目的，本发明采用的技术方案如下：

第一方面，本发明提出了一种基于音频监督的可转移视听文本生成方法，包括以下步骤：

步骤1，获取包含不同域的视频及描述文本，构建源域训练数据集，提取源域视频帧特征序列和音频特征序列；

步骤2，通过音频映射器中的视觉-音频映射子模块生成视频帧特征序列的视觉前缀；

步骤3，构建通用音频语义空间，通过音频映射器中的音频重建子模块将视觉前缀重建为重建音频片段特征和反事实音频片段特征；

步骤4，将视觉前缀和视频帧特征序列拼接后与音频特征序列一起输入编码-解码网络中的编码器，得到跨模态融合后的视频特征序列和音频特征序列，再由编码-解码网络中的解码器计算视觉模态和音频模态的关联性得分，基于关联性得分生成预测的描述文本；

步骤5，采用元学习和反事实对比学习方法，利用源域训练数据集对音频映射器和编码-解码网络进行训练；

步骤6，利用训练后的音频映射器和编码-解码网络生成待描述视频的自然语言描述文本。

进一步的，所述的步骤5中还包括在目标域数据集上对音频映射器和编码-解码网络进行参数微调的步骤。

进一步的，所述的音频映射器中的视觉-音频映射子模块的计算过程包括：

2.1）将视频帧特征序列按照等时间间隔划分，并对时间间隔内所有视频帧特征进行均值化，得到视频片段特征序列；

2.2）利用自注意力机制计算视频片段特征序列中每一个视频片段的注意力得分，再经全连接层得到每一个视频片段的视觉前缀。

进一步的，所述的音频映射器中的音频重建子模块的计算过程包括：

3.1）构建通用音频语义空间：对全部视频的音频特征序列按照等时间间隔划分，得到全部视频的音频片段特征并聚类，生成由K个音频聚类中心组成的通用音频语义空间；

3.2）对视频中每一个视频片段的视觉前缀进行softmax处理，生成通用音频语义空间中K个音频聚类中心的权重得分；

3.3）将视频中每一个视频片段生成的权重得分与音频聚类中心加权组合，得到原始视频对应的重建音频片段特征；

3.4）将视频中每一个视频片段生成的权重得分与音频聚类中心反向加权组合，得到原始视频对应的反事实音频片段特征。

进一步的，所述的编码-解码网络中的编码器的计算过程包括：

4.1）将视觉前缀和视频帧特征拼接，得到带视觉前缀的视觉帧特征序列；

4.2）分别对音频特征序列和带视觉前缀的视频特征序列应用多头注意力机制进行编码，得到编码后的音频特征序列和编码后的带视觉前缀的视频特征序列；

4.3）分别对编码后的音频特征序列和编码后的带视觉前缀的视频特征序列应用多头注意力机制进行编码，融合视觉模态和音频模态，得到跨模态融合后的音频特征序列和跨模态融合后的视频特征序列。

进一步的，所述的步骤4.3）中，以编码后的音频特征序列作为多头注意力机制中的查询输入，以编码后的带视觉前缀的视频特征序列作为多头注意力机制中的键和值输入，生成跨模态融合后的音频特征序列；以编码后的带视觉前缀的视频特征序列作为多头注意力机制中的查询输入，以编码后的音频特征序列作为多头注意力机制中的键和值输入，生成跨模态融合后的视频特征序列。

进一步的，所述的编码-解码网络中的解码器的计算过程包括：

将跨模态融合后的音频特征序列和跨模态融合后的视频特征序列作为解码器的输入，进行D步解码，在解码过程中，对于第t次解码，首先计算视觉模态和音频模态的关联性得分；再根据视觉模态和音频模态的关联性得分，计算每一解码步的隐藏层状态并生成当前步的预测结果，重复解码D次得到预测的描述文本。

进一步的，采用元学习和反事实对比学习方法进行训练时，以音频重建损失、反事实对比学习损失、描述文本交叉熵损失、音频重建损失的加权和作为总损失。

进一步的，所述的反事实对比学习损失包括：

以真实音频片段特征及其对应的重建音频片段特征为正样本对，以真实音频片段特征及其对应的反事实音频片段特征为负样本对，计算基于特征分布的反事实对比学习损失；

以真实音频片段特征的模态依赖分数及其对应的重建音频片段特征的模态依赖分数为正样本对，以真实音频片段特征的模态依赖分数及其对应的反事实音频片段特征的模态依赖分数为负样本对，计算基于模态依赖的反事实对比学习损失；所述的模态依赖分数为视觉模态的关联性得分与音频模态的关联性得分的比值。

第二方面，本发明提出了一种基于音频监督的可转移视听文本生成系统，包括：

视频-文本预处理模块，其用于获取包含不同域的视频及描述文本，构建源域训练数据集，提取源域视频帧特征序列和音频特征序列；

音频映射器模块，其用于通过视觉-音频映射子模块生成视频帧特征序列的视觉前缀；以及用于构建通用音频语义空间，通过音频重建子模块将视觉前缀重建为重建音频片段特征和反事实音频片段特征；

编码-解码网络模块，其用于以视觉前缀和视频帧特征序列的拼接结果与音频特征序列作为编码器输入，得到跨模态融合后的视频特征序列和音频特征序列，再由解码器计算视觉模态和音频模态的关联性得分，基于关联性得分生成预测的描述文本；

元学习模块，其用于采用元学习和反事实对比学习方法，利用源域训练数据集对音频映射器模块和编码-解码网络模块进行训练。

与现有技术相比，本发明具备的有益效果是：

（1）针对传统视听文本生成方法面对新领域性能退化，在低资源域中难以训练的问题，本发明提出采用音频信号提供的额外监督信息，将音频的域不变性编码到视觉前缀中，从而缩小不同领域中的视觉差异，并通过重建音频的方式，对视觉前缀的生成进行约束，避免了额外的人工标注，从而提高了模型的容错能力，降低了模型的部署成本。

（2）本发明引入反事实对比学习，从特征分布和模态依赖两个角度优化音频重建的准确性，避免了从同一组训练数据中选择负样本，并通过反事实音频片段特征提升了模型的鲁棒性；此外，本发明考虑了文本生成过程中不同单词对于视觉模态和音频模态具有不同的依赖程度，重建音频特征也应该保持模态不平衡性，从而提出模态依赖的对比学习损失，来进一步提高重建音频特征的准确性。

附图说明

图1是本发明实施例示出的基于音频监督的可转移视听文本生成方法的框架示意图。

图2是本发明实施例示出的音频映射器的结构示意图。

图3是本发明实施例示出的用于实现基于音频监督的可转移视听文本生成方法的电子设备终端结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

本发明提出的一种基于音频监督的可转移视听文本生成方法，如图1所示，设计了包含音频映射器和编码-解码网络的视听文本生成模型，以及预训练的视觉特征提取器和音频特征提取器。其中，视觉特征提取器和音频特征提取器分别用于提取帧特征和音频特征。音频映射器由视觉-音频映射子模块和音频重建子模块构成，用于生成视觉前缀、重建音频和反事实音频，将不同领域中的视觉特征和一个通用音频语义空间对齐，采用反事实对比学习的方法，通过测量重建音频/反事实音频特征的准确性来优化视觉特征和音频语义空间的对齐度。编码-解码网络中的编码器用于对视觉特征和音频特征进行编码、融合，解码器用于对视觉编码信息和音频编码信息进行解码，获得预测的自然语言描述文本。本发明通过元学习的方式将音频映射器和编码-解码网络在多个领域上进行训练，使模型支持在新领域中快速收敛，实现领域迁移。

在本发明的一项具体实施中，一种基于音频监督的可转移视听文本生成方法，主要包括如下步骤：

步骤一，建立包含不同域的视频及描述文本，构建源域训练数据集，提取源域视频帧特征序列和音频特征序列。

步骤二，对于视频帧特征序列，通过音频映射器中的视觉-音频映射子模块生成视觉前缀。

步骤三，将视觉前缀作为音频映射器中的音频重建子模块的输入，并通过通用音频语义空间生成重建音频片段特征和反事实音频片段特征，同时引入均方误差和反事实对比学习来提高重建音频的准确性。

步骤四，将视觉前缀和视频帧特征序列拼接后和音频特征序列一起输入编码-解码网络中的编码器，得到跨模态融合后的音频特征序列和视频特征序列；编码-解码网络中的解码器接收跨模态融合后的音频特征序列和视频特征序列并重复解码D次得到预测的描述文本。

步骤五，采用元学习方法对音频映射器和编码-解码网络进行训练，结合描述文本交叉熵损失、音频重建损失和反事实对比学习损失，更新音频映射器和编码-解码网络的参数；继续在目标域数据集上对音频映射器和编码-解码网络进行参数微调，得到训练后的音频映射器和编码-解码网络。

步骤六，利用训练后的音频映射器和编码-解码网络生成待描述视频的自然语言描述文本。

在本发明的一项具体实施中，步骤一的实施过程如下：

1.1）获取公开的MSRVTT及MSVD数据集的视频及描述文本。

1.2）根据MSRVTT数据集的类目标签划分10个领域的子数据集，将新闻、电影、体育、烹饪及交通类视频作为源域数据集，将动画、音乐、动物、幼儿、美妆及MSVD作为目标域数据集。本实施例中，将源域数据集作为训练数据集，将目标域数据集作为测试数据集。

1.3）使用预训练的视频特征提取器提取视频帧特征序列V={v₁,v₂,…,v_n}；使用预训练的音频特征提取器提取视频的音频特征序列E={e₁,e₂,…,e_n}，其中，n为帧数。

在本发明的一项具体实施中，所述的音频映射器如图2所示，包括视觉-音频映射子模块和音频重建子模块，其中，视觉-音频映射子模块由自注意力机制和全连接层构成，用于实现步骤二的功能，生成视觉前缀；音频重建子模块由softmax层和加权组合层构成，用于实现步骤三，基于视觉前缀生成重建音频片段特征和反事实音频片段特征。

其中，步骤二的具体实施过程如下：

2.1）将视频帧特征序列V按照时间间隔T进行划分，并对时间间隔T内所有视频帧特征进行均值化，得到视频片段特征序列C=[c₁,c₂,…,c_m]，公式如下：

其中，c_i为第i个视频片段特征序列，v_t第t个视频帧特征，m表示视频片段的数量。

同理，对音频特征序列E按照时间间隔T进行划分，并对时间间隔T内所有视频帧特征进行均值化，得到音频片段特征序列A=[a₁,a₂,…,a_m]。

2.2）利用自注意力机制计算视频片段特征序列c_i之间的注意力得分，并生成视觉前缀P=[p₁,p₂,…,p_m]，公式如下：

其中，SelfAtt(.)表示自注意力机制，FC(.)表示全连接层。

步骤三的具体实施过程如下：

3.1）首先建立一个通用音频语义空间，具体为：利用K-means聚类算法将训练数据集中所有视频的音频片段特征投影至聚类中心，生成由K个音频聚类中心组成的通用音频语义空间M={m₁,m₂,…,m_K}。

3.2）将视觉前缀和通用音频语义空间作为音频重建子模块的输入，首先经过Softmax层生成音频聚类中心的权重得分，计算公式如下：

其中，w_i,k表示第i个视频片段对应的第k个音频聚类中心的权重得分，k=[1,2,…K]。

3.3）通过每一个视频片段的音频聚类中心的权重得分，将音频聚类中心加权组合，得到视频中所有的重建音频片段特征，计算公式如下：

其中，表示视频中第i个重建音频片段特征，m_k表示第k个聚类中心。

另外，通过将权重得分反向组合生成反事实音频片段特征，计算公式如下：

其中，表示视频中第i个反事实音频片段特征。

在本发明的一项具体实施中，所述的编码器包含单模态的多头注意力机制和跨模态的多头注意力机制，所述的解码器包含关联性得分计算模块和单模态的多头注意力机制。

在本发明的一项具体实施中，步骤四中编码-解码的具体实施过程如下，其中步骤4.1）至步骤4.3）为编码过程，步骤4.4）至步骤4.5）为解码过程。

4.1）将视觉前缀P和视频帧特征V拼接起来，得到带视觉前缀的视觉帧特征序列。

4.2）分别对音频特征序列E和带视觉前缀的视频特征序列应用多头注意力机制进行编码，计算公式如下：

其中，f_a表示编码后的音频特征序列，f_v表示编码后的带视觉前缀的视频特征序列，MHA(.)表示多头注意力机制。

以音频特征序列为例，多头自注意力机制的公式如下：

其中，分别为第i个自注意力机制中的权重矩阵，H表示多头注意力的数量，ATT表示张量的点击计算即。

4.3）分别对f_a和f_v应用多头注意力机制进行编码，对视觉模态和音频模态的融合，计算公式如下：

其中，x_av表示跨模态融合后的音频特征序列，x_va表示跨模态融合后的视频特征序列。

4.4）将x_av和x_va作为解码器的输入，进行D步解码，在解码过程中，对于第d次解码，先计算视觉模态和音频模态的关联性得分S，计算公式如下：

其中，表示拼接操作，表示sigmoid激活函数，S_va表示视觉模态的关联性得分，S_av表示音频模态的关联性得分；表示第d-1解码步生成的描述文本，W_d、b_d分别表示第d-1解码步的权重矩阵和偏置。

4.5）根据视觉模态和音频模态的关联性得分，计算每一解码步的隐藏层状态并生成当前步的预测结果，重复解码D次得到预测的描述文本；所述解码公式如下所示：

其中，为第d解码步生成的描述文本，z_d为第d解码步的隐藏层状态，FC(.)表示全连接层。解码的描述文本由隐藏层状态z_d经过softmax函数生成对应字典的概率分布，并选择其中概率最大的单词作为结果。重复解码D次得到预测的描述文本。

在本发明的一项具体实施中，步骤五中采用元学习方法对音频映射器和编码-解码网络进行训练的实施过程如下：

5.1）对于生成的重建音频片段特征，将其和真实音频片段特征序列A=[a₁,s₂,…,a_m]计算均方误差，计算音频重建损失，公式如下：

其中，L_rec表示音频重建损失。

5.2）由于均方误差损失函数是隐式的优化音频映射器中视觉和音频的对齐关系，本发明引入了反事实对比学习，包括基于特征分布和基于模态依赖的两个对比学习损失。反事实对比学习通过从反事实结果中构建细粒度的监督信号，直接优化视觉-文本对齐，而不依赖随机选择的负样本的质量。

具体的，基于特征分布的对比学习，通过拉近真实音频片段特征和重建音频片段特征的距离，拉远和反事实音频片段特征的距离来为音频重建过程提供约束，计算公式如下：

其中，L_dis表示基于特征分布的反事实对比学习损失，A表示真实音频片段特征，A⁺表示重建音频片段特征，表示第i个反事实音频片段特征，表示温度系数，B表示批大小，s(.)表示余弦相似度。

基于模态依赖的对比学习，考虑了文本生成过程中，每个单词对视觉模态和音频模态的不同依赖程度，如“短袖（shirt）”更多依赖视觉特征而“唱歌（singing）”更多依赖音频特征。通过测量重建音频片段特征的模态依赖关系，可以为视觉-音频对齐提供额外的约束，计算公式如下：

其中，r表示真实音频的模态依赖分数，由计算得到，r⁺表示重建音频的模态依赖分数，由计算得到，r^-表示反事实音频的模态依赖分数，由计算得到。

需要说明的是，在训练阶段，此处的表示的是由步骤四中的编码器和解码器中的关联性得分计算模块组成的部分，当以视频帧特征序列V、视频的音频片段特征序列A作为编码器的输入时，由解码器的关联性得分计算模块得到视觉模态的关联性得分和音频模态的关联性得分，两者之比即真实音频的模态依赖分数；同理，当以视频帧特征序列V、重建音频片段特征A_rec作为编码器的输入时，由解码器的关联性得分计算模块得到视觉模态的关联性得分和音频模态的关联性得分之比即重建音频的模态依赖分数；当以视频帧特征序列V、反事实音频片段特征A_cf作为编码器的输入时，由解码器的关联性得分计算模块得到视觉模态的关联性得分和音频模态的关联性得分之比即反事实音频的模态依赖分数。

5.3）根据解码器的输出结果与真实描述文本进行比对，计算交叉熵损失函数，公式如下：

其中，D为设定的最长描述文本长度，Y_1:d-1表示前d-1个真实单词，Y_d表示第d个真实单词。

5.4）计算多任务损失，公式如下：

其中，w₁和w₂是超参数，L是总损失。

5.5）最后，为了帮助音频映射器积累不同域之间的知识以及提高模型的泛化性，本发明应用元学习方法，将音频映射器和编码-解码网络在不同领域的数据集上进行训练，具体为：

给定k个源域数据集，随机挑选k-1个域作为元训练支撑集，剩下的一个域作为元训练查询集，将同一个模型初始化参数分别在k-1个域上更新，然后在元训练查询集测试更新后的模型性能并计算损失，重复这一过程，直至模型收敛。然后基于最终的模型初始化参数在目标域数据集中微调少量几步后得到最终训练好的模型。

在本发明的一项具体实施中，步骤六中利用训练后的音频映射器和编码-解码网络生成待描述视频的自然语言描述文本，具体为：

首先，提取待描述视频的视频帧特征序列和音频特征序列。

之后，利用训练后的音频映射器中的视觉-音频映射子模块，以视频帧特征为输入，生成视觉前缀；

最后，将视觉前缀和视频帧特征序列拼接后和音频特征序列一起输入编码-解码网络中的编码器，得到跨模态融合后的音频特征序列和视频特征序列；编码-解码网络中的解码器接收跨模态融合后的音频特征序列和视频特征序列并重复解码D次得到预测的描述文本。

下面将上述方法应用于下列实施例中，以体现本发明的技术效果，实施例中具体步骤不再赘述。本实施例中，基于MSVD和MSRVTT两大数据集通过类别标签重新构造了可转移的视听文本生成数据集，如表1所示。

表1：可转移的视听文本生成数据集

特别的，将新闻、电影、体育、烹饪及交通类视频作为源域数据集，将动画、音乐、动物、幼儿、美妆及MSVD作为跨类别基准下的目标域数据集。本实施例还研究了跨数据集的迁移，具体的将动画、音乐、动物、幼儿、美妆整合成一个MSRVTT-1数据集，MSRVTT-1和MSVD作为跨数据集基准下的目标域数据集。在测试评价标准方面，遵循广泛使用的标准，采用BLEU，METEOR，ROUGE-L和CIDEr作为评价指标。

实施细节如下：

对于视觉信号，从每个视频中抽取30帧，使用在ImageNet上预训练的ResNet-101模型来提取视频帧特征；对于音频信号，使用VGGish模型来提取音频特征。

对于文本描述，设定最大长度为10；将每个描述文本中的标点符号去除，并通用转化为小写英文字母，在每个描述的开头添加一个[sos]标签，并在最后添加一个[eos]标签。

表2和表3是本发明在跨类别基准和跨数据集基准的实验结果，本发明缩写为TAVT；MARN是使用由单词和相应的视觉上下文特征组成的记忆网络，AVIC是引入视听控制器来平衡音频和视觉模态之间的重要性，SGN是将视频编码为语义组，SHAN是使用语法引导的层次注意力来整合视觉和句子上下文特征，Att-TVT是利用注意力机制融合视频和文本模态，SBAT是利用边界感知池化操作减少视觉冗余，对比模型均属于本领域常用的高性能模型。

表2：在跨类别基准上的实验结果

从表2中可见，本发明的方法（TAVT）与上述对比方法在跨类别基准测试的性能比较中，TAVT在5个领域上优于其他所有方法，表明本发明具有良好的泛化能力。特别是，对于一些只有少量标记数据的低资源领域，如幼儿和美妆，其他方法的性能下降严重，而TAVT的性能大大超过了它们（在幼儿上有3.2%的CIDEr提升，在美妆上有4.5%的CIDEr提升）。

表3：在跨数据集基准上的实验结果

从表3中可见，本发明的方法与上述对比方法在跨数据集基准上的性能比较中，可以观察到：（1）在MSRVTT-1和MSVD上，本发明的方法在所有指标上都明显优于所有对比方法。（2）AVIC和Att-TVT专注于设计复杂的多模态融合策略来学习视听表示，但没有利用音频的不变性；TAVT使用音频作为监督信号来对齐不同领域的视觉信息，重点是将音频中的不变量转换为视觉前缀，因此，本发明明显优于它们(在MSRVTT-1上的CIDEr值的提升为4.0%~10.6%)。（3）在只有视觉流的MSVD中，本发明冻结了音频映射器的参数，并使用重建音频代替真实的音频，这种情况下在MSRVTT-1和MSVD上仍表现良好（2.9%～15%的CIDEr提升），表明音频映射器通过元训练积累了领域共享知识。换句话说，即使在没有真正的音频监督的情况下，冻结的元映射网络也可以产生有判别性的视觉前缀，并重建有信息量的音频特征。

在本实施例中还提供了一种基于音频监督的可转移视听文本生成系统，该系统用于实现上述实施例。以下所使用的术语“模块”、“单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能的。

具体的，一种基于音频监督的可转移视听文本生成系统，包括：

对于系统实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可，其余模块的实现方法此处不再赘述。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明的系统的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。系统实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，图3为本实施例提供的一种硬件结构图，除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中系统所在的任意具备数据处理能力的设备通常根据该设备的实际功能，还可以包括其他硬件，对此不再赘述。

以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.一种基于音频监督的可转移视听文本生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于音频监督的可转移视听文本生成方法，其特征在于，所述的步骤5中还包括在目标域数据集上对音频映射器和编码-解码网络进行参数微调的步骤。

3.根据权利要求1所述的一种基于音频监督的可转移视听文本生成方法，其特征在于，所述的音频映射器中的视觉-音频映射子模块的计算过程包括：

4.根据权利要求3所述的一种基于音频监督的可转移视听文本生成方法，其特征在于，所述的音频映射器中的音频重建子模块的计算过程包括：

5.根据权利要求1所述的一种基于音频监督的可转移视听文本生成方法，其特征在于，所述的编码-解码网络中的编码器的计算过程包括：

6.根据权利要求5所述的一种基于音频监督的可转移视听文本生成方法，其特征在于，所述的步骤4.3）中，以编码后的音频特征序列作为多头注意力机制中的查询输入，以编码后的带视觉前缀的视频特征序列作为多头注意力机制中的键和值输入，生成跨模态融合后的音频特征序列；以编码后的带视觉前缀的视频特征序列作为多头注意力机制中的查询输入，以编码后的音频特征序列作为多头注意力机制中的键和值输入，生成跨模态融合后的视频特征序列。

7.根据权利要求5所述的一种基于音频监督的可转移视听文本生成方法，其特征在于，所述的编码-解码网络中的解码器的计算过程包括：

将跨模态融合后的音频特征序列和跨模态融合后的视频特征序列作为解码器的输入，进行D步解码，在解码过程中，对于每一次解码，首先计算视觉模态和音频模态的关联性得分，再根据视觉模态和音频模态的关联性得分，计算每一解码步的隐藏层状态并生成当前步的预测结果，重复解码D次得到预测的描述文本。

8.根据权利要求1所述的一种基于音频监督的可转移视听文本生成方法，其特征在于，采用元学习和反事实对比学习方法进行训练时，以音频重建损失、反事实对比学习损失、描述文本交叉熵损失、音频重建损失的加权和作为总损失。

9.根据权利要求8所述的一种基于音频监督的可转移视听文本生成方法，其特征在于，所述的反事实对比学习损失包括：

10.一种基于音频监督的可转移视听文本生成系统，其特征在于，包括：