CN115661710A

CN115661710A - 一种视频描述生成方法、装置及存储介质

Info

Publication number: CN115661710A
Application number: CN202211303545.0A
Authority: CN
Inventors: 徐天阳; 张赟捷; 宋晓宁; 赖丽娜; 朱学峰; 吴小俊
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2022-10-24
Filing date: 2022-10-24
Publication date: 2023-01-31

Abstract

本发明涉及视频理解技术领域，尤其是指一种视频描述生成方法、装置及计算机存储介质。本发明所述的视频描述生成方法，提出了时间注意和融合注意，并向每个帧特征在线添加一个标记来表示全局特征，让这些标记进行交互，以便在帧与帧之间进行信息的传递和交互，首先，使用时间注意交互所有的标记，学习输入视频的视频帧之间的时间关系，接下来，将时间注意处理过的标记与最终特征内的每一个特征向量相级联，然后输入到融合注意，融合注意使全部特征相交互，使得经过融合注意之后输出的特征包含视频帧之间的时间关系；本发明将预训练模型得到的空间特征和时序信息相结合，捕获视频帧之间的时间线索，最终能够得到更充分的特征表示，提高了预测精度。

Description

一种视频描述生成方法、装置及存储介质

技术领域

本发明涉及视频理解技术领域，尤其是指一种视频描述生成方法、装置及计算机存储介质。

背景技术

现有的技术中，视频字幕技术旨在从视频中自动生成自然语言描述，在帮助视障人士、人机交互、视频检索和许多其他应用中发挥着重要作用。早期的视频字幕生成方法通常先利用视频中检测到的视觉信息，然后通过预设的人工设置好的模板生成句子。但是这种方法高度依赖于一套固定的模板，只能生成具有固定句法结构的句子，导致最后呈现的效果并不佳。

为了解决上述存在的问题，如公开号为CN202010233049.7的中国专利公开了基于图卷积网络的视频描述生成系统，包括视频特征提取网络、图卷积网络、视觉注意力网络和句子描述生成网络。工作时，首先通过视频特征提取网络对视频进行采样处理，获取视频特征，输出至图卷积网络；接着利用图卷积网络对视频特征根据语义关系进行重构，并输入至句子描述生成循环神经网络；最后使用句子描述生成网络根据视频重构的特征进行句子生成。该系统采用图卷积对视频中帧级序列和目标级序列特征进行重构，在生成描述语句时充分利用视频内的时序信息和语义信息，使得生成更为精确。但该系统是在CNN模型的基础上构建的视频编码器，仅使用来自视觉方面的信息，缺乏足够的语言表示。又如公开号为CN202111060036.5的中国专利公开了一种用于生成视频描述文本的系统和方法，包括视觉编码模块、字幕生成模块和跨模态信息流对齐模块。工作时，首先使用视觉编码模块对待处理的视频进行全局编码，得到全局视频特征，并利用视频分段信息和全局视频特征对相应的视频片段进行局部编码，得到各个视频片段中每个视频帧的视觉模态表征；接着在字幕生成模块中，将视觉模态表征进行嵌入处理，得到文本模态表征，并基于文本模态表征生成描述文本。该系统生成的描述文本不仅具有视觉准确性和视觉一致性，且前后文本更加连贯。但是视频数据通常包含物体随着时间变换的信息，而该系统没有有效的利用到视频片段内的时间线索。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中没有有效的利用到视频片段内的时间线索的问题。

为解决上述技术问题，本发明提供了一种视频描述生成方法，包括：

将视频片段输入训练好的视频描述生成模型中；

利用预训练视频编码器提取多个视频帧特征；

对所述多个视频帧特征进行平均池化得到平均池化特征，并将所述平均池化特征分别与所述多个视频帧特征进行级联，得到多个最终帧特征；

为所述多个最终帧特征在线添加一个标记，所述标记为随机生成的特征向量，使用时间注意力交互所有的标记，将多个最终帧特征分别与对应的时间注意力处理过的标记级联，并将与标记级联后的多个最终帧特征通过融合注意力相交互，得到多个时间帧特征；

将丢弃标记后的多个时间帧特征输入第一Transformer编码器—解码器模块，预测生成第一字幕。

优选地，所述得到多个时间帧特征后还包括：

将丢弃标记后的多个时间帧特征输入多层前馈神经网络来加强特征表示。

优选地，所述将丢弃标记后的多个时间帧特征输入第一Transformer编码器—解码器模块，预测生成第一字幕后还包括：

利用文本编码器将生成的第一字幕转换为多个单词特征，并与所述多个时间帧特征级联后输入第二Transformer编码器—解码器模块，预测生成第二字幕。

优选地，所述利用文本编码器将生成的第一字幕转换为多个单词特征，并与所述多个时间帧特征级联后输入第二Transformer编码器—解码器模块，预测生成第二字幕前包括：

为所述第一字幕在线添加一个标记，所述标记为随机生成的特征向量，将添加的标记通过多层前馈神经网络，得到一个置信度得分；

若所述第一置信度得分不低于预设阈值，则将所述第一字幕作为最终的预测结果；

若所述第一置信度得分低于所述预设阈值，则继续预测所述第二字幕，将所述第二字幕作为最终的预测结果。

优选地，所述视频描述生成模型的训练方法包括：

构建训练集，所述训练集中的一个训练样本为一个视频片段和其对应的多句标注文本；

利用所述训练集训练所述视频描述生成模型，调节模型参数直至总损失收敛；

其中，针对任意一训练样本，总损失的计算过程为：

将该训练样本的视频片段输入预训练视频编码器提取得到多个视频帧训练特征；

将该训练样本的多句标注文本输入文本编码器提取得到多个单词训练特征和多个句子训练特征；

根据所述多个视频帧训练特征和多个单词训练特征计算第一对比损失；

对所述多个视频帧训练特征进行平均池化得到平均池化训练特征，并将所述平均池化训练特征分别与所述多个视频帧训练特征进行级联，得到多个最终帧训练特征；

将所述多个最终帧训练特征进行平均池化得到全局视频训练特征；

根据所述多个句子训练特征和所述全局视频训练特征计算第二对比损失；

根据该训练样本计算所述视频描述生成模型的对称交叉熵损失；

根据所述第一对比损失、所述第二对比损失和所述对称交叉熵损失计算总损失。

优选地，所述第一对比损失L_f-ω的函数为：

其中，s(f_j,ω_i)是单词项ω_i和帧特征项f_j之间的相似性函数，s(f_i,ω_i)是单词项ω和帧特征项f_i之间的相似性函数，s(f_i,ω_j)是单词项ω_j和帧特征项f_j之间的相似性函数，N是一个句子中的单词数，L_f2ω和L_ω2f表示帧到单词和单词到帧的损失项。

优选地，所述第二对比损失L_v-t的函数为：

其中，s(v_j,t_i)是文本项t_i和视频项v_j之间的相似性函数，s(v_i,t_i)是文本项t_i和视频项v_i之间的相似性函数，s(v_i,t_j)是文本项t_j和视频项v_i之间的相似性函数，并且B是一个批次中的句子数，L_v2t和L_t2v表示视频到文本和文本到视频的损失项。

优选地，所述对称交叉熵损失L_sl的函数为：

L_sl＝λ₁L_ce+(1-λ₁)L_rce

其中，P和Q分别是预测输出和实际输出，L_ce是正常的交叉熵损失，L_rce是交换了标签的交叉熵损失，λ₁是超参数。

本发明还提供了一种视频描述生成装置，包括：

输入模块，用于将视频片段输入训练好的视频描述生成模型中；

视频帧特征提取模块，用于利用预训练视频编码器提取多个视频帧特征；

最终帧特征获取模块，用于对所述多个视频帧特征进行平均池化得到平均池化特征，并将所述平均池化特征分别与所述多个视频帧特征进行级联，得到多个最终帧特征；

时间转换器模块，用于为所述多个最终帧特征在线添加一个标记，所述标记为随机生成的特征向量，使用时间注意力交互所有的标记，将多个最终帧特征分别与对应的时间注意力处理过的标记级联，并将与标记级联后的多个最终帧特征通过融合注意力相交互，得到多个时间帧特征；

字幕预测模块，用于将丢弃标记后的多个时间帧特征输入第一Transformer编码器—解码器模块，预测生成第一字幕。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种视频描述生成方法的步骤。

本发明的上述技术方案相比现有技术具有以下优点：

本发明所述的视频描述生成方法，为了实现跨帧信息交换，我们提出了时间注意和融合注意，并向每个帧特征在线添加一个标记来表示全局特征，我们让这些标记进行交互，以便在帧与帧之间进行信息的传递和交互，首先，使用时间注意交互所有的标记，学习输入视频的视频帧之间的时间关系，接下来，将时间注意处理过的标记与最终特征内的每一个特征向量相级联，然后输入到融合注意，融合注意使全部特征相交互，使得经过融合注意之后输出的特征包含视频帧之间的时间关系；本发明将预训练模型得到的空间特征和时序信息相结合，捕获视频帧之间的时间线索，最终能够得到更充分的特征表示，提高了预测精度。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中：

图1为本发明所提供的视频描述生成方法的实现流程图；

图2为视频描述生成模型的网络结构图；

图3为时间帧特征获取的实现流程图；

图4为第一对比损失和第二对比损失计算的流程图；

图5为本发明实施例提供的一种视频描述生成装置的结构框图。

具体实施方式

本发明的核心是提供一种视频描述生成方法、装置及计算机存储介质，能够得到更充分的特征表示，提高了预测精度。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1和图2，图1为本发明所提供的视频描述生成方法的实现流程图，图2为视频描述生成模型的网络结构图；具体操作步骤如下：

S101:将视频片段输入训练好的视频描述生成模型中；

S102:利用预训练视频编码器提取多个视频帧特征；

在一种实施例中，我们首先通过CLIP4Clip的预训练视频编码器提取视频特征，每段视频提取12帧，每一帧是一个512维度的向量特征。

S103:对所述多个视频帧特征进行平均池化得到平均池化特征，并将所述平均池化特征分别与所述多个视频帧特征进行级联，得到多个最终帧特征；

将从CLIP4Clip模型提取到的视频特征进行平均池化得到平均池化特征，然后分别与之前的12帧特征相级联，得到最终帧特征。

如图3所示：

S104:为所述多个最终帧特征在线添加一个标记，所述标记为随机生成的特征向量，使用时间注意力交互所有的标记，将多个最终帧特征分别与对应的时间注意力处理过的标记级联，并将与标记级联后的多个最终帧特征通过融合注意力相交互，得到多个时间帧特征；

将丢弃标记后的多个时间帧特征输入多层前馈神经网络来加强特征表示，添加的标记在经过多层前馈神经网络之前被丢弃，因为该标记是在线生成的，且只用于时间模块内的视频帧之间的交互，在之后的模块中是无效的。

S105:将丢弃标记后的多个时间帧特征输入第一Transformer编码器—解码器模块，预测生成第一字幕。

利用CLIP文本编码器将生成的第一字幕转换为多个单词特征，并与所述多个时间帧特征级联后输入第二Transformer编码器—解码器模块，预测生成第二字幕。

由于生成第二字幕的二级网络相较于生成第一字幕的一级网络，增加了一个Transformer的编码器—解码器结构，计算量大大提升，因此在Transformer的编码器—解码器之后，我们设计了一个自适应门模块来减少模型的计算量，具体如下：

若所述第一置信度得分不低于预设阈值T∈[0,1]，表示预测字幕结果良好，则将所述第一字幕作为最终的预测结果；

若所述第一置信度得分低于所述预设阈值，说明一级网络的预测字幕结果不好，需要经过二级网络，则继续预测所述第二字幕，将所述第二字幕作为最终的预测结果。

本发明所述的视频描述生成方法，为了实现跨帧信息交换，我们提出了时间注意和融合注意，并向每个帧特征在线添加一个标记来表示全局特征，我们让这些标记进行交互，以便在帧与帧之间进行信息的传递和交互，首先，使用时间注意交互所有的标记，学习输入视频的视频帧之间的时间关系，接下来，将时间注意处理过的标记与最终特征内的每一个特征向量相级联，然后输入到融合注意，融合注意使全部特征相交互，使得经过融合注意之后输出的特征包含视频帧之间的时间关系；本发明将预训练模型得到的空间特征和时序信息相结合，捕获视频帧之间的时间线索，最终能够得到更充分的特征表示，提高了预测精度；自适应两层网络结构将第一层网络预测获得的结果语言信息通过设置了一定阈值的自适应门，保存好的字幕预测效果，将不好的字幕预测结果进入第二层网络进行进一步的预测。最终实现在减少计算量的同时获得更精确的字幕。

如图4所示，基于以上实施例，本实施例对视频描述生成模型的训练方法进行说明：

其中，针对任意一训练样本，总损失的计算过程为：

根据所述多个视频帧训练特征和多个单词训练特征计算第一对比损失L_f-ω：

其中，s(f_j,ω_i)是单词项ω_i和帧特征项f_j之间的相似性函数，s(f_i,ω_i)是单词项ω_i和帧特征项f_i之间的相似性函数，s(f_i,ω_j)是单词项ω_j和帧特征项f_j之间的相似性函数，N是一个句子中的单词数，L_f2ω和L_ω2f表示帧到单词和单词到帧的损失项；

根据所述多个句子训练特征和所述全局视频训练特征计算第二对比损失：

第二对比损失的函数为L_v-t：

其中，s(v_j,t_i)是文本项t_i和视频项v_j之间的相似性函数，s(v_i,t_i)是文本项t_i和视频项v_i之间的相似性函数，s(v_i,t_j)是文本项t_j和视频项v_i之间的相似性函数，并且B是一个批次中的句子数，L_v2t和L_t2v表示视频到文本和文本到视频的损失项；

根据该训练样本计算所述视频描述生成模型的对称交叉熵损失L_sl：

L_sl＝λ₁L_ce+(1-λ₁)L_rce

由于提取的视频特征通常是有噪声和模糊的，所以我们使用对称交叉熵(SCE)损失代替原始的交叉熵(CE)损失，并使用正则化项来减轻过拟合和对抗噪声的问题。我们使用SCE损失来放松它们严格的二元标签。为了平滑严格的时间约束交叉熵，我们将标签值从1开始稍微降低，其他类型的值从0开始增加。SCE损失是交叉熵(CE)损失和反向交叉熵(RCE)损失的组合。其中，P和Q分别是预测输出和实际输出，L_ce是正常的交换熵损失，L_rce是交换了标签的交换熵损失，λ₁是超参数。

根据所述第一对比损失、所述第二对比损失和所述对称交叉熵损失计算总损失L_fl＝λ₂L_sl+λ₃L_v-t+λ₄L_f-ω，其中λ₂,λ₃,λ₄是超参数。

由于大多数现有方法难以弥补视频外观和语言线索之间存在的巨大差异，为了解决视频生成字幕中视频外观和语言提示之间的不一致，本发明将句子特征和全局视频特征，单词特征和帧特征之间进行对比损失的计算，最后使得成对视频—文本间的相似度最大化以及非成对视频—文本间的相似度最小化，实现在多个粒度上对准视频特征和文本特征的效果，为准确的视频字幕提供了文本相关的视觉特征，弥补了视频外观和语言之间的差距。

基于以上实施例，本实施例在MSVD和MSR-VTT数据集上验证我们模型的效果，具体如下：

MSVD数据集由1970个YouTube视频片段组成，每个视频片段的长度在10到25秒之间，用大约40句英语标注。MSR-VTT数据集是开放领域视频字幕的大型数据集。它包含10000个视频片段，每个视频都有大约20句英语注释。MSVD和MSR-VTT常用的评价指标有BLUE@4、METEOR、ROUGE-L和CIDEr。

不管是在MSVD还是MSR-VTT测试集上连续添加每个模块，实验性能都有所提高，当添加所有模块时效果最佳。可见，相比于原来的网络，自适应二级网络在性能上有很大的提高，是在MSVD和MSR-VTT基准上的最佳方法。首先我们将其与14种最先进的方法进行比较，发现在两个数据集上，所提出的方法几乎在所有评估指标上都击败了其他方法。此外，我们的方法没有添加由目标检测模型获得的额外目标特征。这些均验证了所提出的方法相对于现有方法的优点和优越性。

接着，在MSVD和MSR-VTT的测试集上进行添加每个模块(对比模块、时间模块和自适应模块)后的相应消融分析(共八组)，从表1,表2可以看出，在连续添加各模块时实验性能都在提高，添加所有模块时效果最佳：

表1在MSVD的测试集上对各个模块进行消融实验的结果

表2在MSR-VTT的测试集上对各个模块进行消融实验的结果

最后，分析增加各模块后模型计算量的变化，从表3可以看出，随着模块的增加，模型的计算量逐渐增大，而与两级网络相比，自适应两级网络的计算负担减少了约12％。同时模型的大小几乎不变。

表3增加各模块后模型计算量的分析结果

请参考图5，图5为本发明实施例提供的一种视频描述生成装置的结构框图；具体装置可以包括：

输入模块100，用于将视频片段输入训练好的视频描述生成模型中；

视频帧特征提取模块200，用于利用预训练视频编码器提取多个视频帧特征；

最终帧特征获取模块300，用于对所述多个视频帧特征进行平均池化得到平均池化特征，并将所述平均池化特征分别与所述多个视频帧特征进行级联，得到多个最终帧特征；

时间转换器模块400，用于为所述多个最终帧特征在线添加一个标记，所述标记为随机生成的特征向量，使用时间注意力交互所有的标记，将多个最终帧特征分别与对应的时间注意力处理过的标记级联，并将与标记级联后的多个最终帧特征通过融合注意力相交互，得到多个时间帧特征；

字幕预测模块500，用于将丢弃标记后的多个时间帧特征输入第一Transformer编码器—解码器模块，预测生成第一字幕。

本实施例的视频描述生成装置用于实现前述的视频描述生成方法，因此视频描述生成装置中的具体实施方式可见前文视频描述生成方法的实施例部分，例如，输入模块100，视频帧特征提取模块200，最终帧特征获取模块300，时间转换器模块400，字幕预测模块500，分别用于实现上述视频描述生成方法中步骤S101，S102，S103，S104和S105，所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再赘述。

本发明具体实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种视频描述生成方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种视频描述生成方法，其特征在于，包括：

将视频片段输入训练好的视频描述生成模型中；

利用预训练视频编码器提取多个视频帧特征；

2.根据权利要求1所述的视频描述生成方法，其特征在于，所述得到多个时间帧特征后还包括：

3.根据权利要求1所述的视频描述生成方法，其特征在于，所述将丢弃标记后的多个时间帧特征输入第一Transformer编码器—解码器模块，预测生成第一字幕后还包括：

4.根据权利要求3所述的视频描述生成方法，其特征在于，所述利用文本编码器将生成的第一字幕转换为多个单词特征，并与所述多个时间帧特征级联后输入第二Transformer编码器—解码器模块，预测生成第二字幕前包括：

5.根据权利要求1所述的视频描述生成方法，其特征在于，所述视频描述生成模型的训练方法包括：

其中，针对任意一训练样本，总损失的计算过程为：

6.根据权利要求5所述的视频描述生成方法，其特征在于，所述第一对比损失L_f-ω的函数定义为：

其中，s(f_j,ω_i)是单词项ω_i和帧特征项f_j之间的相似性函数，s(f_i,ω_i）是单词项ω_i和帧特征项f_i之间的相似性函数，s(f_i,ω_j)是单词项ω_j和帧特征项f_i之间的相似性函数，N是一个句子中的单词数，L_f2ω和L_ω2f表示帧到单词和单词到帧的损失项。

7.根据权利要求5所述的视频描述生成方法，其特征在于，所述第二对比损失L_v-t的函数定义为：

8.根据权利要求5所述的视频描述生成方法，其特征在于，所述对称交叉熵损失L_sl的函数定义为：

L_sl＝λ₁L_ce+(1-λ₁)L_rce

9.一种视频描述生成装置，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述一种视频描述生成装方法的步骤。