CN115952255B

CN115952255B - 多模态信号内容分析方法、装置、电子设备及存储介质

Info

Publication number: CN115952255B
Application number: CN202211457156.3A
Authority: CN
Inventors: 马占宇; 张益铭; 杜若一; 梁孔明
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-11-21
Filing date: 2022-11-21
Publication date: 2023-12-05
Anticipated expiration: 2042-11-21
Also published as: CN115952255A

Abstract

本申请公开了一种多模态信号内容分析方法、装置、电子设备及存储介质。该多模态信号内容分析方法包括：获取音频‑视频信号对应的字幕词嵌入特征；利用预训练的字幕代理特征提取模型处理所述字幕词嵌入特征，得到字幕代理特征；基于所述字幕代理特征生成字幕。本申请实施例提供的多模态信号内容分析方法，利用预训练的字幕代理特征提取模型处理所述字幕词嵌入特征，得到字幕代理特征，基于字幕代理特征生成字幕，避免了由于字幕语义差异性对训练的影响，生成的字幕能够更好地描述音频‑视频信号的内容，克服了相关技术中没有考虑字幕差异性对音频‑视频字幕任务的影响所导致的不良影响。

Description

多模态信号内容分析方法、装置、电子设备及存储介质

技术领域

本申请涉及信号处理技术领域，具体涉及一种多模态信号内容分析方法、装置、电子设备及计算机可读存储介质。

背景技术

在日常生活中，视觉与音频是人们感知外界的两个最主要、最基本的模态，人类利用音频-视频信号来探索、捕捉和感知现实世界。多模态内容分析是一项让机器能够像人一样准确感受音频-视频多模态信号内容的任务。多模态内容分析任务是通向通用人工智能的关键一步，使机器具有像人一样的感知能力。在日常生活中，有着极大的应用前景，例如，可以帮助残障人士更加自然的融入社会、作为生活助手提醒用户等。目前，基于深度学习的多模态信号内容分析方法已经取得了很大的进步。模型通过编码器来封装多模态信号，以字幕语句的形式使用解码器来生成有关该信号的相关描述。

相关技术中，基于深度学习的多模态信号内容分析方法没有考虑到由于字幕差异性对于多模态信号内容分析方法训练及性能的影响。由于音频模态模糊性与视频模态复杂性，不同人对同一个音频-视频可能有不同感受，这就造成字幕之间的语义差异性过大。在多模态内容分析任务数据集中，同一个音频-视频往往对应着多个不同的字幕语句，这些字幕语句都是来描述该音频-视频信号的内容，但是由于人的感知差异，造成了字幕语句存在语义上的差异性，而这些语义差异性会导致多模态信号内容分析方法在训练时存在优化方向上差异较大，从而影响模型性能。

发明内容

本申请的目的是提供一种多模态信号内容分析方法、装置、电子设备及计算机可读存储介质。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

根据本申请实施例的一个方面，提供一种多模态信号内容分析方法，包括：

获取音频-视频信号对应的字幕词嵌入特征；

利用预训练的字幕代理特征提取模型处理所述字幕词嵌入特征，得到字幕代理特征；

基于所述字幕代理特征生成字幕。

在本申请的一些实施例中，所述获取音频-视频信号对应的字幕词嵌入特征，包括：

读取所述音频-视频信号对应的字幕语句；

对所述字幕语句进行分词处理，得到所述字幕语句的分词；

对所述字幕语句的分词进行词嵌入特征编码，得到字幕词嵌入特征。

在本申请的一些实施例中，所述预训练的字幕代理特征提取模型的获取步骤包括：

初始化预设的字幕代理特征提取模型；

利用预先获取的训练集训练所述字幕代理特征提取模型，直至损失函数收敛，保存训练完成的模型参数，得到所述预训练的字幕代理特征提取模型；

其中，所述训练集包括音频-视频预训练特征与对应的真实字幕词嵌入特征。

在本申请的一些实施例中，所述利用预先获取的训练集训练所述字幕代理特征提取模型，包括：

将所述真实字幕词嵌入特征输入到预训练的字幕代理特征提取模型中进行处理，获得输出的对应字幕代理特征；

计算所述对应字幕代理特征与各音频-视频特征之间的相似性；

通过对比学习与多模态特征对齐，最大化所述字幕代理特征与其对应的音频-视频预训练特征的相似性，最小化字幕代理特征与其他音频-视频预训练特征的相似性，并通过反向传播算法优化模型参数。

在本申请的一些实施例中，所述基于所述字幕代理特征生成字幕，包括：

获取所述音频-视频信号的音频特征与视频特征，输入到预训练的音频-视频编码器中，获得封装后的音频特征与视频特征；

拼接所述封装后的音频特征与所述封装后的视频特征，输入到语言解码器中，解码生成字幕。

在本申请的一些实施例中，所述获取所述音频-视频信号的音频特征与视频特征，包括：

将所述音频-视频信号中的音频信号与视频信号分别输入到音频编码器和视频编码器中，获得封装后的音频特征与封装后的视频特征。

在本申请的一些实施例中，所述语言解码器的获取步骤，包括：

计算生成的字幕语句与真实的字幕语句之间的词分类的交叉熵损失和特征正则化约束的损失，通过反向传播算法优化模型参数，直至损失函数收敛，保存训练完成的模型参数，得到所述语言解码器。

根据本申请实施例的另一个方面，提供一种多模态信号内容分析装置，包括：

字幕词嵌入特征获取模块，用于获取音频-视频信号对应的字幕词嵌入特征；

字幕代理特征获取模块，用于利用预训练的字幕代理特征提取模型处理所述字幕词嵌入特征，得到字幕代理特征；

多模态信号内容分析模块，用于基于所述字幕代理特征生成字幕。

根据本申请实施例的另一个方面，提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现上述任一项所述的方法。

根据本申请实施例的另一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以实现上述任一项所述的方法。

本申请实施例的其中一个方面提供的技术方案可以包括以下有益效果：

本申请实施例提供的多模态信号内容分析方法，利用预训练的字幕代理特征提取模型处理所述字幕词嵌入特征，得到字幕代理特征，基于字幕代理特征生成字幕，避免了由于字幕语义差异性对训练的影响，生成的字幕能够更好地描述音频-视频信号的内容，克服了相关技术中没有考虑字幕差异性对音频-视频字幕任务的影响所导致的不良影响。

本申请的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者，部分特征和优点可以从说明书中推知或毫无疑义地确定，或者通过实施本申请实施例了解。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请的一个实施例的多模态信号内容分析方法流程图。

图2示出了本申请的另一个实施例的多模态信号内容分析方法流程图。

图3示出了本申请一种实施方式中基于对比学习与多模态特征对齐的方式生成字幕代理特征的流程图。

图4示出了本申请另一种实施方式中基于对比学习与多模态特征对齐的方式生成字幕代理特征的示意图。

图5示出了本申请一种实施方式中基于字幕代理特征生成字幕的流程图。

图6示出了本申请另一种实施方式中基于字幕代理特征生成字幕的示意图。

图7示出了本申请的一个实施例的多模态信号内容分析装置结构框图。

图8示出了本申请的一个实施例的电子设备结构框图。

图9示出了本申请的一个实施例的计算机可读存储介质示意图。

本申请的目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本申请做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

相关技术中，基于深度学习的多模态信号内容分析方法没有考虑到由于字幕差异性对多模态信号内容分析方法的训练及性能造成了较大的不良影响。由于音频模态模糊性与视频模态复杂性，不同人对同一个音频-视频可能有不同感受，这就造成字幕之间的语义差异性过大。在多模态字幕任务数据集中，同一个音频-视频往往对应着多个不同的字幕语句，这些字幕语句都是来描述该音频-视频信号的内容，但是由于人的感知差异，造成了字幕语句存在语义上的差异性，而这些语义差异性会导致多模态信号内容分析方法在训练时存在优化方向上差异较大，从而影响模型性能。

针对相关技术中存在的问题，如图1所示，本申请的一个实施例提供了一种多模态信号内容分析方法，包括：

步骤10、获取音频-视频信号对应的字幕词嵌入特征；

步骤20、利用预训练的字幕代理特征提取模型处理字幕词嵌入特征，得到字幕代理特征；

步骤30、基于字幕代理特征生成字幕。

参考图2所示，本申请的另一个实施例提供了一种多模态信号内容分析方法，是一种基于特征空间正则化约束的多模态多模态信号内容分析方法，该方法包括步骤S10至S20：

S10、基于对比学习与多模态特征对齐的方式生成字幕代理特征。

基于对比学习与多模态特征对齐的方式生成字幕代理特征，通过对比学习与多模态特征对齐的方式，训练字幕代理特征提取模型，得到训练好的字幕代理特征提取模型，使通过字幕代理特征提取模型得到的字幕代理特征具有更好的表征能力，能够很好的准确表达出音频-视频信号中的内容。字幕代理特征提取模型也可以称为字幕代理特征提取器。字幕代理特征提取模型可以是预先设置的人工神经网络模型所构成。

如图3所示，在一种实施方式中，基于对比学习与多模态特征对齐的方式生成字幕代理特征包括步骤S101和步骤S102：

S101、获取音频-视频信号对应的字幕词嵌入特征。

在一个示例中，所述获取音频-视频信号对应的字幕词嵌入特征，包括：读取所述音频-视频信号对应的字幕语句；对所述字幕语句进行分词处理，得到所述字幕语句的分词；对所述字幕语句的分词进行词嵌入特征编码，得到字幕词嵌入特征。

具体地，利用预先获取的训练集训练所述字幕代理特征提取模型，包括：将所述真实字幕词嵌入特征输入到预训练的字幕代理特征提取模型中进行处理，获得输出的对应字幕代理特征；计算所述对应字幕代理特征与各音频-视频特征之间的相似性；通过对比学习与多模态特征对齐，最大化所述字幕代理特征与其对应的音频-视频预训练特征的相似性，最小化字幕代理特征与其他音频-视频预训练特征的相似性，并通过反向传播算法优化模型参数。

S102、利用预训练的字幕代理特征提取模型处理所述字幕词嵌入特征，得到字幕代理特征。

在一个示例中，所述预训练的字幕代理特征提取模型的获取步骤包括：初始化预设的字幕代理特征提取模型；利用预先获取的训练集训练所述字幕代理特征提取模型，直至损失函数收敛，保存训练完成的模型参数，得到所述预训练的字幕代理特征提取模型；其中，所述训练集包括音频-视频预训练特征与对应的真实字幕词嵌入特征。

在另一种实施方式中，如图4所示，基于对比学习与多模态特征对齐的方式生成字幕代理特征，包括步骤S10-1至S10-7：

S10-1、对音频-视频信号进行预处理。

在一种实施方式中，对音频-视频信号进行预处理可以包括：通过开源的L3预训练模型提取音频-视频特征。

在一个具体的示例中，将音频-视频字幕任务数据集设定为

{Audio,Video,Captions}_N，

其中N代表数据集的样本个数，Audio,Video,Captions分别为每个样本实例的音频、视频与其对应的多个字幕语句。

将每一个样本的音频与视频数据(Audio，Video)送入到开源的预训练编码器模型中，可以对应的多模态特征n代表的第n个样本的多模态特征。

S10-2、对字幕语句进行预处理。

在一种实施方式中，对字幕语句进行预处理可以包括：读取音频-视频信号对应的字幕语句，将字幕语句进行分词，并对其进行词嵌入特征编码。

沿用上述具体的示例举例说明，字幕语句预处理步骤可以包括：将字幕语句Captions进行分词并进行词嵌入特征编码为C_nm。其中为第n个样本的第m个字幕的嵌入特征编码，L为字幕语句C_nm的词的总数量，/>代表每个词的词嵌入。

S10-3、对预设的人工神经网络模型进行初始化。

在一种实施方式中，对预设的人工神经网络模型进行初始化可以包括：初始化模型参数，并获取预处理后的音频-视频预训练特征与字幕词嵌入特征。

沿用上述具体的示例，模型初始化步骤可以包括：初始化人工神经网络参数为Ω，F(Ω)表示人工神经网络。人工神经网络例如可以为卷积神经网络。

S10-4、提取字幕代理特征。

在一种实施方式中，提取字幕代理特征可以包括：将字幕词嵌入特征输入到模型中，获取模型的输出即为字幕代理特征。

沿用上述具体的示例，字幕代理特征提取步骤可以包括：将字幕语句嵌入特征编码C_n输入到字幕代理特征提取模型中，其输出为F(C_n，Ω)。字幕代理特征提取模型可以是预先设置的人工神经网络模型所构成。

S10-5、计算字幕代理特征与多个音频-视频特征的相似性。

沿用上述具体的示例，步骤S10-5的特征相似性计算步骤可以包括：

多模态特征与F(C_n，Ω).的相似性计算公式为

其中S_n1n2代表第n1个样本的多模态特征与第n2个样本的特征F(C_n2m，Ω)的相似性，cos_sim[·，·]表示余弦相似性度量函数。当n1与n2相等时，即字幕特征C与多模态特征e^av来自同一样本，上述计算得到的S_n1n1为正样本对的相似值；当n1与n2不相等时，即字幕特征C与多模态特征e^av来自不同样本，上述计算得到的S_n1n2为正样本对的相似值。

S10-6、计算相似性损失函数，并优化模型参数。

具体地，S10-6可以包括：通过对比学习与多模态特征对齐，最大化字幕代理特征与其对应的音频-视频特征的相似性，最小化字幕代理特征与其他音频-视频特征的相似性，并通过反向传播算法优化模型参数。

沿用上述具体的示例，相似性损失函数计算及模型参数的优化步骤可以包括：

损失函数为

通过上述公式可以在空间上拉进来自同一样本的字幕代理特征与音频-视频特征的相似性，最小化字幕代理特征与其他样本的音频-视频特征的相似性。

S10-7、重复步骤S10-4到步骤S10-6，直至损失函数收敛，保存训练完成的模型参数，并通过步骤S10-4，提取模型收敛时的字幕代理特征。

在模型收敛后，提取模型的输出F(C_n,Ω)，作为字幕代理特征

S20、基于字幕代理特征生成字幕。

具体地，基于字幕代理特征生成字幕可以包括基于字幕代理特征正则化约束生成字幕。

基于代理特征正则化约束生成字幕，通过使用字幕代理特征来优化多模态信号内容分析方法的训练，同时提供额外的监督信息，使得模型能够生成字幕能够更好描述音频-视频信号。

如图5所示，在一种实施方式中，基于字幕代理特征生成字幕，包括：

S201、获取所述音频-视频信号的音频特征与视频特征，输入到预训练的音频-视频编码器中，获得封装后的音频特征与视频特征。

示例性地，获取所述音频-视频信号的音频特征与视频特征，将所述音频-视频信号中的音频信号与视频信号分别输入到预训练的音频编码器和视频编码器中，获得封装后的音频特征与封装后的视频特征。

S202、拼接所述封装后的音频特征与所述封装后的视频特征，输入到语言解码器中，解码生成字幕。

示例性地，所述语言解码器的获取步骤，包括：

在另一种实施方式中，如图6所示，基于代理特征正则化约束生成字幕，可以包括：

S20-1、模型初始化及特征预处理步骤。

在一种实施方式中，步骤S20-1可以包括：初始化音频编码器、视频编码器与语言解码器模型参数，并通过字幕代理特征提取步骤，提取模型收敛时的字幕代理特征。

沿用上述具体的示例，模型初始化及特征预处理步骤可以包括：音频编码器的模型为Enc_a(·)，视频编码器的模型为Enc_v(·)，，解码器的模型为Dec(·)，已经提取上一阶段的字幕代理特征

S20-2、音频-视频编码步骤：获取数据集中对应的音频与视频信号，将两者分别输入到对应编码器中，并获得封装后的音频与视频特征。

沿用上述具体的示例，音频-视频编码步骤可以包括：将音频与视频数据(Audio，Video)分别送入音频编码器的模型为Enc_a(·)和视频编码器的模型为Enc_v(·)中，得到两者输出A_n与V_n，其中A_n为第n个样本的音频经过编码器的输出，V_n为第n个样本的视频经过编码器的输出。

S20-3、字幕语言解码步骤：将S20-2得到的音频与视频特征进行拼接，输入到语言解码器中，循环迭代生成字幕语句。

沿用上述具体的示例，字幕语言解码步骤，将A_n与V_n进行拼接得到，操作如下：

E_n＝Conct(A_n，V_n)

其中E_n为拼接后的解码器输入，Conct(·)为拼接操作。将E_n送入到解码器中，即可到达预测的解码器输出为：

D_n＝Dec(E_n)

D_n为解码器的输出，其中L为D_n输出的总个数，/>代表第l个的输出特征。

S20-4、交叉熵损失与代理特征正则化约束损失计算及优化步骤：计算生成的字幕语句与真实的字幕语句之间的词分类的交叉熵损失和特征正则化约束的损失，最后通过反向传播算法优化模型参数。

交叉熵损失与代理特征正则化约束损失计算及优化步骤：将D_n沿着时间轴总全局池化操作的，最终可以得到生成字幕的嵌入特征为：

其中为生成字幕的嵌入特征，mean(·)与max(·)分别为平均池化与最大池化操作。

代理特征正则化约束损失L_pc的公式如下：

cosine(·)为计算cosine距离度量函数。

同时也将解码器的输出D_n沿着时间轴逐个做SoftMax操作得到输出的生成字幕的概率

因此交叉熵损失函数为

最终该步骤的总损失函数为

L＝L_pc+L_CE

通过上述损失函数可以确保生成的字幕尽可能跟真实字幕保持一致，又通过正则化约束损失函数约束模型的训练，减少因为语义差异性造成模型性能下降。

S20-5、重复S20-2到S20-4，直至损失函数收敛，保存训练完成的模型参数。当模型收敛后，提取S20-3的输出作为生成的字幕语句。

重复多轮训练，模型的输出即为最终字幕语句。

本发明公开的多模态信号内容分析方法是一种基于特征空间正则化约束的多模态信号内容分析方法，与相关技术相比，本申请实施例的方法具有如下有益效果：通过对比学习与多模态特征对齐，字幕代理特征能够更好地学习到与其音频-视频信号在高维特征空间上的相似性，获得更好的表征能力，而后通过字幕代理特征的约束生成多模态字幕，使得模型避免了由于字幕语义差异性对训练的影响，提高了模型性能，使得模型生成的字幕能够更好的描述音频-视频信号的内容，克服了相关技术中没有考虑字幕差异性对音频-视频字幕任务的影响所导致的不良影响。

如图7所示，本申请的另一个实施例提供了一种多模态信号内容分析装置，包括：

在一种实施方式中，字幕词嵌入特征获取模块所执行的获取音频-视频信号对应的字幕词嵌入特征，包括：

读取所述音频-视频信号对应的字幕语句；

对所述字幕语句进行分词处理，得到所述字幕语句的分词；

在一种实施方式中，所述预训练的字幕代理特征提取模型的获取步骤包括：

初始化预设的字幕代理特征提取模型；

在一种实施方式中，字幕代理特征获取模块所执行的利用预先获取的训练集训练所述字幕代理特征提取模型，包括：

在一种实施方式中，多模态信号内容分析模块所执行的基于所述字幕代理特征生成字幕，包括：获取所述音频-视频信号的音频特征与视频特征，输入到预训练的音频-视频编码器中，获得封装后的音频特征与视频特征；拼接所述封装后的音频特征与所述封装后的视频特征，输入到语言解码器中，解码生成字幕。

在一种实施方式中，所述获取所述音频-视频信号的音频特征与视频特征，包括：

在一种实施方式中，所述语言解码器的获取步骤，包括：

本申请实施例提供的多模态信号内容分析装置，利用预训练的字幕代理特征提取模型处理所述字幕词嵌入特征，得到字幕代理特征，基于字幕代理特征生成字幕，避免了由于字幕语义差异性对训练的影响，生成的字幕能够更好地描述音频-视频信号的内容，克服了相关技术中没有考虑字幕差异性对音频-视频字幕任务的影响所导致的不良影响。

本申请的另一个实施例提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现上述任一实施方式所述的方法。

如图8所示，电子设备10可以包括：处理器100，存储器101，总线102和通信接口103，处理器100、通信接口103和存储器101通过总线102连接；存储器101中存储有可在处理器100上运行的计算机程序，处理器100运行该计算机程序时执行本申请前述任一实施方式所提供的方法。

其中，存储器101可能包含高速随机存取存储器(RAM：Random Access Memory)，也可能还可以包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线102可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。其中，存储器101用于存储程序，处理器100在接收到执行指令后，执行该程序，前述本申请实施例任一实施方式揭示的方法可以应用于处理器100中，或者由处理器100实现。

处理器100可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器100中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器100可以是通用处理器，可以包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器101，处理器100读取存储器101中的信息，结合其硬件完成上述方法的步骤。

本申请实施例提供的电子设备与本申请实施例提供的方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请的另一个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以实现上述任一实施方式所述的方法。

本申请实施方式还提供一种与前述实施方式所提供的方法对应的计算机可读存储介质，参考图9所示，其示出的计算机可读存储介质为光盘20，其上存储有计算机程序(即程序产品)，该计算机程序在被处理器运行时，会执行前述任意实施方式所提供的方法。

需要说明的是，计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

需要说明的是：

术语“模块”并非意图受限于特定物理形式。取决于具体应用，模块可以实现为硬件、固件、软件和/或其组合。此外，不同的模块可以共享公共组件或甚至由相同组件实现。不同模块之间可以存在或不存在清楚的界限。

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示例一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述实施例仅表达了本申请的实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种多模态信号内容分析方法，其特征在于，包括：

获取音频-视频信号对应的字幕词嵌入特征；

基于所述字幕代理特征生成字幕；

所述预训练的字幕代理特征提取模型的获取步骤包括：

初始化预设的字幕代理特征提取模型；

其中，所述训练集包括音频-视频预训练特征与对应的真实字幕的词嵌入特征；

所述利用预先获取的训练集训练所述字幕代理特征提取模型，包括：

将所述真实字幕的词嵌入特征输入到预训练的字幕代理特征提取模型中进行处理，获得输出的对应字幕代理特征；

通过对比学习与多模态特征对齐，最大化所述字幕代理特征与其对应的音频-视频预训练特征的相似性，最小化字幕代理特征与其他音频-视频预训练特征的相似性，并通过反向传播算法优化模型参数；

所述基于所述字幕代理特征生成字幕，包括：

拼接所述封装后的音频特征与所述封装后的视频特征，输入到语言解码器中，解码生成字幕；

所述语言解码器的获取步骤，包括：

计算生成的字幕语句与真实的字幕语句之间的词分类的交叉熵损失和特征正则化约束的损失，通过反向传播算法优化模型参数，直至损失函数收敛，保存训练完成的模型参数，得到所述的语言解码器。

2.根据权利要求1所述的方法，其特征在于，所述获取音频-视频信号对应的字幕词嵌入特征，包括：

读取所述音频-视频信号对应的字幕语句；

对所述字幕语句进行分词处理，得到所述字幕语句的分词；

3.根据权利要求1所述的方法，其特征在于，所述获取所述音频-视频信号的音频特征与视频特征，包括：

4.一种多模态信号内容分析装置，其特征在于，包括：

多模态信号内容分析模块，用于基于所述字幕代理特征生成字幕；

所述预训练的字幕代理特征提取模型的获取步骤包括：

初始化预设的字幕代理特征提取模型；

所述基于所述字幕代理特征生成字幕，包括：

所述语言解码器的获取步骤，包括：

5.一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-3中任一所述的方法。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以实现如权利要求1-3中任一所述的方法。