CN113423004B

CN113423004B - 基于解耦译码的视频字幕生成方法和系统

Info

Publication number: CN113423004B
Application number: CN202110967808.7A
Authority: CN
Inventors: 张天翊; 赵洲
Original assignee: Hangzhou Yizhi Intelligent Technology Co ltd
Current assignee: Hangzhou Yizhi Intelligent Technology Co ltd
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-11-30
Anticipated expiration: 2041-08-23
Also published as: CN113423004A

Abstract

本发明公开了一种基于解耦译码的视频字幕生成方法和系统，属于视频字幕生成领域。1）获取视频的三种模态特征，在每一种模态特征的开头添加“[CLS]”标记；2）利用一个三通道跨模态编码器分别对三种模态特征进行编码；将所有编码块的输出结合在一起作为最终输出，并在最终输出结果中引入重构约束；3）从编码后的模态特征序列的首位“[CLS]”标记提取到三种模态的全局特征，结合历史预测词序列获得细粒度三阶张量，解耦三阶张量得到每种模态下的注意权重；将编码器输出的三种编码后的模态特征与对应模态下的注意权重的乘积作为语境序列特征，引入到解码器的解码过程中，生成新的预测词。

Description

基于解耦译码的视频字幕生成方法和系统

技术领域

本发明视频字幕生成领域，具体涉及一种基于解耦译码的视频字幕生成方法和系统。

背景技术

生成图像和视频的自然语言描述(视觉字幕)是计算机视觉中的一个重要问题。它不仅需要强大的模型来理解图像或视频，也同样需要语言处理技术来生成类似于人类有意义的自然描述。与图像字幕相比，视频字幕更加复杂，因为视频包含时间和多模态信息，需要谨慎利用。它可以应用于各种实际应用，如视频检索，人机交互，帮助视力障碍者理解视频内容。

基于长短期存储单元(LSTM)的编解码器结构在视频字幕中得到了广泛的应用。一些学者采用LSTM对视频特征进行编码并生成相应的描述。Li Yao等人首先提出将LSTM与注意机制相结合，根据解码器的查询赋予编码后的视频特征不同的注意权重。为了更好地整合多模态特征，Chiori等人提出了一个两级注意机制，其中第一级和第二级分别关注不同的时间步骤（timestep）和模式(即图像，运动，音频)。然而，基于LSTM的视频字幕存在一些严重的问题，如忽视了跨模态的相互作用和缺乏捕捉长时程相关的能力。

为了弥补这些缺点，在视频字幕中引入了基于Transformer模型的架构。MingChen等人提出用Transformer代替LSTM进行视频理解，因为Transformer可以关联序列特征的任意两个时间步长。类似地，Luowei Zhou等人使用Transformer来实现密集视频字幕。上述两个方法虽然利用了Transformer的内在优势，可以捕捉到长时程相关，但它们没有利用不同模态之间的跨模态相互作用，此外，基于Transformer的方法仍然存在许多问题。例如，深度堆叠的跨模态编码块使不同的模态失去了它们的识别属性，在计算注意权重时，上述方法只考虑了查询与键模式的相关性，而忽略了它们与其他模式的相互作用。此外，解码器通常使用最后一个编码块的输出，这不是一个全面的表示，由于不同的Transformer编码块携带不同方面的信息(即低级、高级)，对浅层特征的处理可能是对信息的浪费。

发明内容

为了解决上述中的技术问题，本发明提供了一种一种基于解耦译码的视频字幕生成方法和系统。

本发明采用如下技术方案：

本发明的其中一个目的在于提供一种基于解耦译码的视频字幕生成方法，包括以下步骤：

1）给定一段视频，获取视频的三种模态特征：图像特征、运动特征和音频特征；在每一种模态特征的开头添加 [CLS]标记；

2）利用一个三通道跨模态编码器分别对三种模态特征进行编码；每一个通道均由多个编码块叠加构成；所述的编码块包含一个自注意层、一个跨模态注意层和一个前馈层；将所有编码块的输出结合在一起作为最终输出，并在最终输出结果中引入重构约束；

3）利用解码器对编码器输出的三种编码后的模态特征进行解码：

从编码后的模态特征序列的首位 [CLS]标记提取到三种模态的全局特征，结合历史预测词序列获得细粒度三阶张量，解耦三阶张量得到每种模态下的注意权重；

将编码器输出的三种编码后的模态特征与对应模态下的注意权重的乘积作为语境序列特征，将语境序列特征引入到解码器的解码过程中，生成新的预测词；

4）结合历史预测词与实时生成的新的预测词，合成视频字幕。

本发明的另一个目的在于提供一种基于解耦译码的视频字幕生成系统，用于实现上述的视频字幕生成方法。

与现有技术相比，本发明在编码器中，采用 [CLS]标记与多模态特征相联系，根据这些标记的编码结果执行重构约束，增强了不同模态下的识别特性；此外，为了更好地捕捉不同模态的关联，将点积运算用基于tucker的运算取代，由于核张量不是固定的，它可以动态学习以适应任务。最后基于细粒度的分层解码来生成单词，该解码器利用张量外积运算在多种模态特征之间形成联系，并对得到的张量进行解耦来计算出这些特征的注意权重。实验结果表明，本发明提出的IAT模型在大多数指标上都优于目前最先进的方法。

附图说明

图1是本发明方法的整体框架设计图。

图2是基于全局门控多模态交互的注意机制(GMI_AT)的计算过程，它是“GMI_Self”和“GMI_CM”的关键步骤。

图3是tucker分解示意图。

图4是在MSR-VTT数据集上不同权重下损失函数之间的权衡。

图5是SBAT、IAT生成结果的对比。

图6是分层注意机制中注意权重的可视化结果。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

如图1所示，基于解耦译码的视频字幕生成方法主要包括以下步骤：

步骤一：给定一段视频，获取视频的图像特征、运动特征和音频特征，表示为

，

，

；在第一个时间步长上，在每一种模态特征的开头添加 [CLS]标记，即

。

步骤二：利用一个三通道跨模态编码器分别对三种模态特征进行编码；每一个通道均由多个编码块叠加构成；所述的编码块包含一个自注意层、一个跨模态注意层和一个前馈层；

为了增强不同模态下的识别特性，将所有编码块的输出结合在一起作为最终输出，并在最终输出中引入重构约束；

第三：利用解码器对编码器输出的三种编码后的模态特征进行解码。

三个步骤分别对应预处理、编码和解码过程，下面分别对三部分内容进行介绍。

（一）预处理

由于视频字幕是一个多模态任务，编码器的输入包括多个模态，如图1所示，由堆叠的注意块组成的三个联合的Transformer架构分别处理图像、运动和音频特征。三个模态的特征可以由预训练的CNN特征提取网络获得。

方便起见，我们使用

表示图像特征、运动特征和音频特征。

表示时间步长的数量。结合Transformer的特点，在第一个时间步长上将 [CLS]标记联系起来(即

)。

（二）编码器

通常，图像特征（或运动特征、音频特征）是由包含自注意层和跨模态注意层的注意块来处理的。本发明中，当模态数量增加时，自注意层和跨模态注意层仍然聚焦于不超过两个模态上，分别对自注意层和跨模态注意层执行全局门控交互。

由于传统的GMI_AT通过点积运算不能调整低秩核张量来更好地适应视频字幕任务，因此，我们用基于Tucker的运算代替点积运算。假设我们有两个向量

并且想把它们仅和一个头联结。将q和k用下列双线性函数变换为

：

其中，W₂可以用低秩(秩

)近似进行分解，U_q,U_k对应可训练的向量，向量1由1组成，⊙和

结合表示点积运算。

传统Transformer中采用的分解称为CP分解，它是Tucker分解的一种特殊形式。如图3所示，利用tucker分解可以将计算过程重写为：

其中，W₂被表示为

，

是低秩近似的核张量，它保留了W₂的大部分属性。当

为单位矩阵(即不能保留任何属性)时，CP分解等于tucker分解。因此，低秩核张量

携带更多的信息且有可调节的秩值，基于Tucker的运算能更好地捕捉到查询到键的关联。

关于上述基于Tucker的运算的理论分析(1)：采用CP分解时，核张量

是固定的 (单位矩阵)。因此，原矩阵W₂的大部分属性都丢失了，而且秩值需要手动调整。然而，基于 Tucker的运算不固定核心张量，而是可以通过动态学习来适应视频字幕任务。(2):我们对Q 和K采用对应元素的非线性函数，而

可以捕捉它们对应元素之间的相关性。因此，全局门控交互和基于Tucker的运算是相辅相成的。在接下来的实验部分，我们也设置了消融实验来验证这一事实。

在本实施例中，所述的自注意层和跨模态注意层采用基于Tucker的运算计算注意力值，表示为：

其中，Q、K、V、g表示输入量参数，根据三通道跨模态编码器的不同通道的具体处理对象确定；Q'和K'为输入量的全局交互结果，d_k是输入维度，W_q、W_k是可训练变量，

表示 sigmoid门控函数，⊙表示对应元素乘积；Q₁、K₁表示输入序列中的 [CLS]标记。

以图像特征编码的过程为例。

图像通道自注意层的计算表示为：

I'=GMI_Self(I)=GMI_MH(I,I|M₁⊙S₁)

其中，GMI_Self表示全局门控多模态交互的自注意，同理可得运动通道和音频通道的自注意层的计算结果M'和S'，如下：

M'=GMI_Self(M)=GMI_MH(M,M|I₁⊙S₁)

图像通道与运动通道的跨模态注意层的计算表示为：

GMI_CM(I',M')=GMI_MH(I',M'|S'₁)

其中，GMI_CM表示全局门控多模态交互的跨模态注意，同理可得其余两两通道之间的跨模态注意层的计算结果GMI_CM(I',S')和GMI_CM(S',M')；如下：

GMI_CM(I',S')=GMI_MH(I,S'|M'₁)

GMI_CM(S',M')=GMI_MH(S',M'|I'₁)

其中，I、M、S分别表示图像特征、运动特征和音频特征，I'、M'、S'分别表示图像特征自注意表示、运动特征自注意表示和音频特征自注意表示，I₁、M₁、S₁、I'₁、M'₁、S'₁分别表示对应特征序列中的 [CLS]标记；GMI_Self表示全局门控多模态交互的自注意，GMI_CM表示全局门控多模态交互的跨模态注意，GMI_MH表示多头注意，表示为：

其中，a、b、c用于表示不同的输入，根据三通道跨模态编码器的不同通道的具体处理对象确定；

表示可训练变量。

由于深度堆叠的编码块使不同的模式失去了识别特性，因此，本发明对每个模态采用重构约束，在实施中，仅在最后一个编码块的三通道输出端引入重构约束，利用最后的编码层中的 [CLS]标记的编码结果来预测原始提取特征的概率分布。

依然以图像特征编码的过程为例。当我们使用预训练的CNN提取视频特征时，我们也保留了不同类别(即1000类ImageNet)的概率分布，将其作为图像模态下的真实概率分布。同理，视频的每个时间步长都有其图像、运动和音频的真实概率分布。在实际应用中，我们保留每类在所有视频帧中的最大概率。

所述的重构约束分别计算三种模态下的损失，表示为：

其中，

表示对应模态下的概率分布损失，*=I、M或S，分别表示图像模态概率分布损失、运动模态概率分布损失和音频模态概率分布损失；F表示对应模态下的类的数量，f 表示第f类，p_f和z_f表示相应类的真实概率分布和最后一个编码块的三通道输出的实际概率分布；

表示可训练变量；

=I'₁、M'₁或S'₁，分别表示对应模态下自注意表示序列中的 [CLS]标记；

表示sigmoid门控函数。

为了更加清楚的说明，以图像模态为例，采用多标签二分交叉熵损失函数：

其中，其中L_ri表示图像模态的损失函数，

表示 [CLS]标记。

用于将 [CLS]标记的编码结果映射到图像的概率分布，F表示类的数量(也即ImageNet类为1000，即图像类的数量)，f表示第f个类，z表示预测概率矩阵；L_rm和L_rs可用类似的方法得到。

传统方法只使用最后一个编码块的输出，并不是一个全面的表示。我们认为不同的编码块捕获不同层次的视频信息。因此，我们保留所有编码块的输出。为了方便，我们使用

表示编码器的输出，其中n为编码块的数量。

（三）解码器

从编码后的模态特征序列的首位 [CLS]标记提取到三种模态的全局特征，结合历史预测词序列获得细粒度三阶张量，解耦三阶张量获得每个模态下的注意权重；

将编码器输出的三种编码后的模态特征与对应模态下的注意权重的乘积作为语境序列特征，将语境序列特征引入到解码器的解码过程中，生成新的预测词。

在本发明的一项具体实施中，解码过程包括以下步骤：

3.1）将编码器输出的三种编码后的模态特征表示为

，*=I、M或S，分别表示图像模态、运动模态和音频模态，即Iⁿ、Mⁿ和Sⁿ；从各模态下特征序列首位 [CLS]标记提取三种模态的全局特征

，即分别表示为

；

3.2）结合历史预测词序列和全局特征，计算细粒度三阶张量：

其中，C表示三阶张量，

为三阶张量中指数为[r₁,r₂,r₃]的元素，

表示

的第r₁行，

表示

的第r₂行，

表示

的第r₃ 行；⊗表示张量积运算；

3.3）解耦三阶张量获得每个模态下的注意权重：

其中，

表示对应模态下的注意权重，*=I、M或S，分别表示图像模态、运动模态和音频模态；te表示对应第te个预测词的时间步长，W_*表示对应模态下的可训练向量，d表示训练向量的维度；

3.4）计算语境序列特征：

其中，

表示对应模态下的语境序列特征；

3.5）将语境序列特征引入到解码器的解码过程中，生成新的预测词。

具体的，解码器包含一个自注意层、一个编解码层和一个前馈层。

解码时，首先将历史预测词序列作为自注意层的输入，计算历史预测词的自注意力表示：

其中，

表示历史预测词序列，GMI_Self(.)表示自注意操作，LayerNorm(.)表示归一化操作；

表示历史预测词的自注意力表示；

然后，结合历史预测词的自注意力表示与各模态下的语境序列特征，利用编解码层计算历史信息的全局交互结果：

其中：

分别是各模态下的历史交互注意向量，

的计算同

；

表示

序列中的 [CLS]标记，GMI_MH表示多头注意，

表示历史信息的全局交互结果。

最后，基于上述结果生成生成新的预测词：

其中，

是解码器最终表示，P_te是当前预测词的概率分布，

是可训练的向量。

（四）训练过程

本发明中，最终文本生成的优化目标是最小化所有时间步长的累积损失，采用交叉熵损失函数计算损失值：

其中，y_te表示时间步长te处的正确标注单词，P_te(y_te)表示在时间步长te处预测单词为y_te的概率，Te为目标文本的长度，L_ce为文本损失。

根据预测损失与重构约束损失联合起来，作为最终的损失值：

其中，L为最终损失，

为权重，本实施例中

；L_ri、L_rm、L_rs分别为三种模态下的重构约束损失。

与前述的一种基于解耦译码的视频字幕生成方法的实施例相对应，本申请还提供了一种基于解耦译码的视频字幕生成系统的实施例，其包括：

视频预处理模块，其用于获取给定视频的三种模态特征：图像特征、运动特征和音频特征；在每一种模态特征的开头添加 [CLS]标记；

三通道跨模态编码器模块，其用于对三种模态特征进行编码；每一个通道均由多个编码块叠加构成；所述的编码块包含一个自注意层、一个跨模态注意层和一个前馈层；将所有编码块的输出结合在一起作为最终输出，并在最终输出结果中引入重构约束；

编码器模块，其用于对编码器输出的三种编码后的模态特征进行解码：

字幕合成模块，其用于结合历史预测词与实时生成的新的预测词，合成视频字幕。

对于系统实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为三通道跨模态编码器模块，可以是或者也可以不是物理上分开的。另外，在本发明中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述集成的模块或单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现，以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。

实施例

本发明在MSVD、MSR-VTT公共数据集上评估了本发明提出的视频字幕生成方法的性能。

其中，MSVD数据集包含从YouTube上收集的1970个视频片段，每个视频大约有40个可用的英文描述。MSVD包括大约80000个视频描述对，总共大约13000个不重复的单词。在本实施例中，使用1200个视频进行训练，100个视频进行校验以及670个视频进行测试。

MSR-VTT是一个最近发布的用于视频字幕的大型参照视频集，包含10000个网络视频片段，时长41.2小时，被分成20个界限清晰的类别。在这个数据集中，词汇量大约是30000。每个视频片段都配有20多个由AMT工作人员标注的自然句子。在MSR-VTT中进行初始区分之后，分别使用6513、2990和467个视频片段进行训练、校验和验证。

（1）数据预处理：对每个视频抽样30帧用于提取图像特征。为了提取运动特征，首先将原始视频数据以30个采样帧为中心划分为视频段，每个视频段包含32帧。为了提取音频特征，使用FFmpeg从原始视频数据中提取音频文件，使用预训练的VGGish来提取音频特征。

对于MSVD和MSR-VTT数据集，利用ImageNet上预训练的Inception-ResNet-v2来从采样帧中提取图像特征，并保留倒数第二层的激活状态和不同类别的概率分布。然后，使用预训练的I3D从视频段中提取运动特征。我们保留了来自上一个卷积层的激活结果，并在时间维度上进行平均池化，同样也保留了输出的概率分布。

（2）模型参数设置：所有多头注意机制的隐藏大小设置为512，头数为8，编码器和解码器的注意块数均为4。α值设置为0.6。在训练过程中，批量大小设置为32，学习率被初始化为0.0001，然后如果校验集上的CIDEr分数超过10个时间段没有提升，学习率就减半。当学习率小于0.0000125时训练阶段结束。

使用Adam优化器来优化损失函数。在测试阶段，使用集束搜索方法来生成单词，集束个数为5。通过预训练的word2vec嵌入对单词向量进行初始化，并随机初始化那些不在word2vec字典中的单词。

（3）评价指标：采用四种在图像/视频字幕任务中常见的指标：BLEU、ROUGE，METEOR和MSVD数据集中的CIDEr。在MSR-VTT数据集中，根据Microsoft Multimedia Challenge中的官方评估指标，我们也采用了BLEU、METEOR、CIDEr和ROUGE来进行评估。所有指标都是使用Microsoft COCO Evaluation Server发布的代码进行测算的。

（4）实验结果：

1.关于消融实验：

如表1所示，我们将完整的模型IAT与一组多种设置下的消融模型在进行了比较：IAT是发明提出的模型，IAT w/o LD表示没有细粒度分层解码的模型，IAT w/o Tucker表示没有基于Tucker的运算的模型，IAT w/o GMI表示没有全局门控多模态交互的模型，IAT w/o DE表示没有重构约束来保持不同模态特性的模型，多模态Transformer表示没有经过任何改进的模型。

根据表1中的结果，可以观察到以下现象：

重构约束的影响：在MSVD和MSR-VTT上，IAT的表现都优于IAT w/o DE。由于重构约束保留了堆叠注意块加工后的不同模态的特性，使得解码器可以使用携带更多信息的特征。此外，为了评估可识别编码的影响并找到不同损失函数之间的合适比例，我们调整了方程中的

值。如图4所示，

时模型的性能最好。另外，

的模型性能最差，再次说明了重构约束的有效性。

全局门控多模态交互和基于Tucker的运算的影响：与IAT相比，IAT w/o GMI和IATw/o Tucker的表现相对较差。因为IAT w/o GMI只考虑不超过两种模式的关联，然而，视频数据的不同模式可以提供相互补充的线索。IAT w/o Tucker采用传统的点积计算固定低秩核张量(恒等矩阵)的注意权重，而IAT可以动态调整核张量及其秩值以适应任务。

细粒度解码的影响：与IAT相比，IAT w/o LD的性能也相对较差。现有的基于Transformer的方法总是使用最后一个编码层的输出，但是因为不同的层捕捉不同层级的信息，IAT采用自上而下的分层注意和自下而上的序列跨模式注意相结合的方式，明显产生了优异的效果。

2.本发明与最先进的方法对比：

为了公平起见，我们将IAT与不使用预训练的Faster- RCNN提取的目标特征的方法进行比较，因为使用这些特征的方法可以很容易地获得高指标。进行比较的方法有TVT、Dense Cap、MARN、POS-CG、SBAT、RecNet、SAAT。我们简单介绍一下这些方法：

(1) TVT : TVT将Transformer架构引入到视频字幕任务中。考虑到基于LSTM的方法存在一些严重问题例如忽略了跨模态交互和捕获长时程相关的能力不足，TVT用Transformer代替了LSTM。

(2) Dense Cap：Dense Cap将视频字幕的任务看作一个弱监督问题，提出基于多实例多标签学习的词汇完全卷积神经网络来联结视频区域和词汇标签，以及引入了一个新的子模块最大化方法，基于Lexical-FCN的输出生成多个信息化的和不同区域的序列。

(3) MARN：考虑到存在一个单词的视觉语境信息在多个视频中出现的情况，MARN设计了一个记忆结构来探索一个单词与训练数据的视频中它的各种相似视觉语境之间的全局对应关系。

(4) POS-CG：通过一个特别设计的可以有效地编码和融合不同类型的表示的交叉门控块，POS-CG构建了一个门控融合网络。一个POS序列生成器依赖于这种融合表示来预测全局句法结构，然后利用它来指导视频字幕的生成和控制句子的语法。

(5) SBAT：SBAT改进了基于TVT的Transformer架构来解决特征冗余问题。具体来说，SBAT采用边界感知池化策略来提高视觉特征的稀疏性，并采用了全局-局部编码方法。

(6) RecNet:：RecNet采用了一种新颖的编码器-解码器-重构器结构，利用正向(视频到句子)和反向(句子到视频)流实现视频字幕。

(7) SAAT：SAAT兼顾视觉感知和语法表示学习来生成准确的视频描述。特别地，SAAT将视觉线索翻译成取决于学习得到的句法结构的词。

表2显示了不同方法在MSVD和MSR- VTT上的运行结果，其中B, R, M, C分别表示BLEU4, ROUGE, METEOR, CIDEr。

如表所示，我们可以发现，在MSR-VTT上的四个评估指标的结果一致表明，我们提出的IAT表现出比所有其他方法更好的性能，包括基于LSTM的方法(Dense Cap、MARN、POS-CG、Distill、SAAT)和基于Transformer的方法(TVT, SBAT)。其中，与基于LSTM的方法中性能最好的POS-CG相比，IAT在METEOR和CIDEr上的相对提升分别为1.4%和2.9%，显示出巨大潜力。此外，与基于Transformer的方法中性能最好的SBAT相比，IAT也表现出了相对较好的性能。在MSVD上也得到了类似的观测结果，IAT优于基于LSTM的方法(Dense Cap、MARN、POS-CG、Distill、SAAT)和基于Transformer的方法(TVT、SBAT)。

我们还比较了不同的基于Transformer的方法的推断时间和参数数量。结果如表3所示，其中MM-TM表示表1中没有任何修改的多模态Transformer，推断时间不包含特征(图像，运动，音频)提取的时间。对比实验在NVIDIA 1080Ti GPU上进行。可以看出，IAT在可接受的参数数量和推断时间下拥有最佳性能，因为SBAT在每个编码块中使用两个前馈层，而IAT只使用一个前馈层。

我们通过定性结果来研究IAT的生成过程。在图5中，我们比较了SBAT、IAT生成的结果和正确标注(GT)的对比。可见，SBAT、IAT都可以生成相关的句子，但本发明更加接近GT的描述。例如，SBAT产生对右上角视频中生成结果为“骑自行车”，是不准确的，而IAT获得了准确描述“骑摩托车”。与SBAT生成的句子中的名词“instrument”相比，我们的IAT方法中的“guitar”更准确地描述了左下角视频中的视觉内容。

此外，我们发现IAT比SBAT更能准确地将不同的词汇与模式联系起来。如图6所示(视频属于MSR-VTT的测试集)，我们展示了分层注意机制中注意权重的可视化结果，我们可以很容易地发现，在IAT中，“man”与图像模态相关，“playing”与运动模式相关，而在SBAT中，“man”与运动模态相关，“playing”与音频模式相关，显然IAT更加准确，说明了IAT增强了不同模态下的识别特性，而SBAT已经失去了其识别特性。

以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.一种基于解耦译码的视频字幕生成方法，其特征在于，包括以下步骤：

1)给定一段视频，获取视频的三种模态特征：图像特征、运动特征和音频特征；在每一种模态特征的开头添加“[CLS]”标记；

2)利用一个三通道跨模态编码器分别对三种模态特征进行编码；每一个通道均由多个编码块叠加构成；所述的编码块包含一个自注意层、一个跨模态注意层和一个前馈层；将所有编码块的输出结合在一起作为最终输出，并在最终输出结果中引入重构约束；所述的重构约束分别计算三种模态下的损失，表示为：

其中，

表示对应模态下的概率分布损失，*＝I、M或S，分别表示图像模态概率分布损失、运动模态概率分布损失和音频模态概率分布损失；F表示对应模态下的类的数量，f表示第f类，p_f和z_f表示相应类的真实概率分布和最后一个编码块的三通道输出的实际概率分布；

3)利用解码器对编码器输出的三种编码后的模态特征进行解码：

从编码后的模态特征序列的首位“[CLS]”标记提取到三种模态的全局特征，结合历史预测词序列获得细粒度三阶张量：

其中，

表示从三种模态特征序列首位“[CLS]”标记提取的全局特征；C表示三阶张量，

为三阶张量中指数为[r₁,r₂,r₃]的元素，

表示

的第r₁行，

表示

的第r₂行，

表示

的第r₃行；

表示张量积运算，E′_＜te表示历史预测词的自注意力表示；⊙表示对应元素乘积，向量1由1组成，上角标T表示转置；

解耦三阶张量得到每种模态下的注意权重；

4)结合历史预测词与实时生成的新的预测词，合成视频字幕。

2.根据权利要求1所述的基于解耦译码的视频字幕生成方法，其特征在于，所述编码块中的自注意层和跨模态注意层采用基于Tucker的运算来计算注意力值，所述的基于Tucker的运算表示为：

Q′＝(1+σ([g,Q₁,g⊙Q₁]W_q))⊙Q

K′＝(1+σ([g,K₁,g⊙K₁]W_k))⊙K

其中，Q、K、V表示询问序列、键序列、值序列，根据三通道跨模态编码器的不同通道的具体处理对象确定，分别选自图像特征、运动特征和音频特征中的任一种，g表示门控参数；Q'和K'为询问序列和键序列的全局交互结果，d_k是输入维度，W_q、W_k是可训练变量，σ(.)表示sigmoid门控函数，⊙表示对应元素乘积；Q₁、K₁表示询问序列和键序列中的“[CLS]”标记；GMI_AT表示基于Tucker的运算式。

3.根据权利要求2所述的基于解耦译码的视频字幕生成方法，其特征在于，所述的编码器中图像通道自注意层的计算表示为：

I'＝GMI_Self(I)＝GMI_MH(I,I|M₁⊙S₁)

其中，I表示图像特征，I'表示图像特征自注意表示，M₁、S₁表示运动特征和音频特征序列中的“[CLS]”标记；GMI_Self表示全局门控多模态交互的自注意，同理可得运动通道和音频通道的自注意层的计算结果M'和S'；

图像通道与运动通道的跨模态注意层的计算表示为：

GMI_CM(I',M')＝GMI_MH(I',M'|S'₁)

其中，M'表示图运动特征自注意表示，S'₁表示音频特征自注意表示S'序列中的“[CLS]”标记，GMI_CM表示全局门控多模态交互的跨模态注意，同理可得其余两两通道之间的跨模态注意层的计算结果；

GMI_MH表示多头注意，表示为：

GMI_MH(a,b|c₁)＝[hd₁,…,hd_h]W₁