CN116013299A

CN116013299A - 一种局部语义指导的多特征融合视频文本生成方法

Info

Publication number: CN116013299A
Application number: CN202211405410.5A
Authority: CN
Inventors: 徐天阳; 赖丽娜; 张赟捷; 宋晓宁; 朱学峰; 吴小俊
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2023-04-25

Abstract

本发明公开了一种局部语义指导的多特征融合视频文本生成方法、装置、设备以及计算机可读存储介质，包括构建并训练视频文本生成模型，将视频片段输入训练好的视频文本生成模型中；提取视频片段中预设帧数的局部空间语义特征；提取视频片段的全局空间语义特征；提取全局空间语义特征中的时间序列特征；将局部空间语义特征、全局空间语义特征和时间序列特征融合；并融合后进行平均池化操作，得到全局平均池化特征；将融合特征和全局平均池化特征输入编码器中进行编码‑解码模块中，得到视频片段的视频字幕。本发明融合局部、全局和时间序列特征，使获得语义更丰富，干扰更小，关键信息更多的视频字幕。

Description

一种局部语义指导的多特征融合视频文本生成方法

技术领域

本发明涉及视觉字幕领域，特别是涉及一种局部语义指导的多特征融合视频文本生成方法、装置、设备以及计算机可读存储介质。

背景技术

视频字幕旨在理解视频中的事件并自动预测相应的字幕，在视频搜索、视频摘要、视频密钥识别和许多其他应用中发挥着重要作用。传统的视频字幕通过预测视频帧中对象和动作所代表的单词，并将其放入预定义模板生成句子。这种方法的明显缺点是无法生成多样化和灵活的视频描述。

为了解决上述存在的问题，如公开号为CN111866598A的中国专利公开了训练字幕模型的方法和装置、计算机设备及存储介质，包括初始化模块、第一训练模块、第二训练模块和生成模块。工作时，首先使用交叉熵损失初始化包括在所述字幕模型中的多个长短期记忆(LSTM)单元；接着使用强化训练LSTM单元；然后使用多任务训练对所述字幕模型中的LSTM单元和多个卷积神经网络(CNN)进行训练；最后使用所述字幕模型生成对应于所述输入视频的视频字幕。该装置节省了内存和数据消耗、简化了训练过程、并且提高了训练质量。但该装置不能将视觉特征与文本特征交互，并且缺少文本模式的辅助，难以解决视频编码过程中长期依赖的问题。又如公开号为CN115062174A的中国专利公开了基于语义原型树的端到端图像字幕生成方法，包括基于移位窗口的多头自注意力模块、多层感知器模块、GELU非线性层和归一化模块。工作时，首先在设计的端到端方法中，构建一个可训练的视觉编码器，基于当前给定的原始图片信息，能够提取出图像的栅格信息；接着构建一个用于提取语义原型树的提取器TSP，利用分词算法和分层聚类算法，输出树结构的原型语义词；然后基于交叉注意力机制，渐进地融合语义信息与栅格特征，进行跨模态与跨空间域的对象表征学习，得到语义强化的视觉表征向量；最后采用基于Transformer结构的解码器，将改进的栅格特征送入其中，得到模型预测的描述结果，并计算预测损失。该装置解决了传统方法中特征所处领域与下游任务领域有所割裂以及得到的语义概念词与图像内容无关导致生成的描述不准确的问题。但该装置并未考虑局部和全局空间语义以及感知视频时序外感变化的问题，并且使用Transformer模型进行训练通常需要巨大的计算费用。

目前国内外尚无解决同时兼顾局部和全局空间语义和实现有效的时间聚集的有效方法。

发明内容

本发明的目的是提供一种局部语义指导的多特征融合视频文本生成方法，解决了现有技术中缺乏将全局语义特征、局部语义特征和时间顺序线索融合的方法。

为解决上述技术问题，本发明提供一种局部语义指导的多特征融合视频文本生成方法，包括：

构建并训练视频文本生成模型，将视频片段输入训练好的视频文本生成模型中；

提取所述视频片段中预设帧数的的局部空间语义特征；

提取所述视频片段的全局空间语义特征；

提取所述全局空间语义特征中的时间序列特征；

将所述局部空间语义特征、所述全局空间语义特征和所述时间序列特征级联得到融合特征；

将所述融合特征进行平均池化操作，得到全局平均池化特征；

将所述融合特征和所述全局平均池化特征输入编码器-解码器模块，得到预测视频字幕。

优选地，所述提取视频片段中间一帧的局部空间语义特征包括：

提取所述视频片段中所述预设帧数的视频片段；

利用Faster-RCNN目标检测器提取所述预设帧数视频片段中的局部空间语义；

利用ResNet50的Conv5层提取所述局部空间语义中的目标特征；

利用多层感知器模块处理所述目标特征，得到所述局部空间语义特征。

优选地，所述提取所述视频片段的全局空间语义特征包括：

利用CLIP4Clip模型提取所述视频片段的空间语义信息，得到所述全局空间语义特征。

优选地，所述提取所述全局空间语义特征中的时间序列特征包括：

利用GRU模块循环提取所述全局空间语义特征中每一时刻与下一时刻之间的时间线索，得到多个时间线索；

将所述多个时间线索进行融合得到所述时间序列特征。

优选地，所述将所述局部空间语义特征、所述全局空间语义特征和所述时间序列特征融合得到融合特征包括：

将所述局部空间语义特征和所述全局空间语义特征通过线性投影层进行同步维度；

将同步维度后的所述局部空间语义特征、所述全局空间语义特征和所述时间序列特征进行级联融合，得到所述融合特征。

优选地，所述训练视频文本生成模型包括：

将训练视频片段输入所述视频文本生成模型中进行训练，得到预测视频字幕；

提取所述训练视频片段的真实视频字幕；

计算所述预测视频字幕和所述预测视频字幕的交叉熵和对称交叉熵；

根据所述交叉熵和所述对称交叉熵构建损失函数，直至损失函数收敛，则所述视频文本生成模型完成训练。

优选地，所述根据所述交叉熵和所述对称交叉熵构建损失函数包括：

根据所述交叉熵损失

和对称交叉熵

构建所述损失函数L_sl＝λ₁L_ce+λ₂L_rce；

其中P和Q分别为预测视频字幕和真实视频字幕，L_ce为正常交叉熵损失，L_rec为对称交叉熵损失，λ₁，λ₂为超参数，L为预测文本的词总数，t为预测文本中第几个词。

本发明还提供了一种局部语义指导的多特征融合视频文本生成装置，包括：

训练模块，用于构建并训练视频文本生成模型，将视频片段输入训练好的视频文本生成模型中；

局部特征提取模块，用于提取所述视频片段中预设帧数的的局部空间语义特征；

全局特征提取模块，用于提取所述视频片段的全局空间语义特征；

时间序列特征提取模块，用于提取所述全局空间语义特征中的时间序列特征；

融合特征模块，用于将所述局部空间语义特征、所述全局空间语义特征和所述时间序列特征级联得到融合特征；

池化特征模块，用于将所述融合特征进行平均池化操作，得到全局平均池化特征；

编码-解码模块，用于将所述融合特征和所述全局平均池化特征输入编码器-解码器模块，得到预测视频字幕。

本发明还提供了一种局部语义指导的多特征融合视频文本生成设备，包括：

存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现上述一种多特征融合视频文本生成的方法的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种多特征融合视频文本生成的方法的步骤。

本发明所提供的一种局部语义指导的多特征融合视频文本生成方法，提取视频片段的局部语义特征信息和全局语义特征信息，兼顾全局和局部的空间语义信息可以获得更全面的视频特征表示；并提取全局语义特征信息中时间序列特征，弥补了特征中时间线索的不足，丰富视频特征的表示；然后将局部空间语义特征、全局空间语义特征和时间序列特征进行融合，获得的语义更加丰富，关节信息更多；最后将所有特征进行融合输入编码器中进行编码，通过解码器得到视频字幕。本发明充分利用多个特征之间的互补性，获得语义更加丰富，噪声更小，关键信息更多的视频表示。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的局部语义指导的多特征融合视频文本生成方法的第一种具体实施例的流程图；

图2为本发明所提供的局部语义指导的多特征融合视频文本生成方法的第二种具体实施例的流程图；

图3为本发明所提供的局部语义指导的多特征融合视频文本生成模型的结构框图；

图4为本发明实施例提供的一种局部语义指导的多特征融合视频文本生成装置的结构框图。

具体实施方式

本发明的核心是提供一种局部语义指导的多特征融合视频文本生成方法、装置、设备以及计算机可读存储介质，将局部空间语义特征、全局语义特征以及时间序列特征级联，充分利用了多特征之间的互补性，使得到的视频字幕根据准确、丰富以及关键信息更多。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明所提供的局部语义指导的多特征融合视频文本生成方法的第一种具体实施例的流程图；具体操作步骤如下：

步骤S101：构建并训练视频文本生成模型，将视频片段输入训练好的视频文本生成模型中；

步骤S102：提取所述视频片段中预设帧数的的局部空间语义特征；

使用Faster-RCNN目标检测器提取局部空间语义信息，即从每一个视频片段中提取预设帧数，最佳帧数为12帧，并使用分类阈值为0.3的Faster-RCNN对象检测器检测每个中心帧中的对象获得N×1024的局部空间语义，N为对象的数目；然后使用ResNet50的Conv5层从提取出的局部空间语义信息中提取特征；最后通过多层感知器(MLP)模块进一步处理这些特征以获得有效的局部空间语义信息。通过兼顾局部与空间语义可以获得更全面的视频特征表示。

步骤S103：提取所述视频片段的全局空间语义特征；

步骤S104：提取所述全局空间语义特征中的时间序列特征；

使用GRU模块强调Clip4Clip模型提取的文本相关全局空间语义的时间相关性，以实现有效的时间聚集。通过大规模多模态预训练模型提取特征，并使用用于缓解长短记忆(LSTM)中的梯度问题且计算量较小的一种递归神经网络——GRU借助循环核提取序列信息来获取特征中的时间线索。我们将全局空间语义的大小设置为12×512，其中12是帧数，512是维数，并在GRU模块之后将时间有序表示的大小设置为1×512。通过获得有效的时间序列，弥补了特征中时间线索的不足以及丰富视频的特征表示。

步骤S105：将所述局部空间语义特征、所述全局空间语义特征和所述时间序列特征级联得到融合特征；

步骤S106：将所述融合特征进行平均池化操作，得到全局平均池化特征；

步骤S107：将所述融合特征和所述全局平均池化特征输入编码器-解码器模块，得到预测视频字幕。

使用线性投影层将N×1024的局部空间语义的维度减少到N×512。然后将全局空间语义、局部空间语义和时序表示级联以获得融合特征。接着使用平均池化层来获得大小为1×512的全局平均池化特征。最后将全局平均池化特征与融合特征相级联，最终得到输入大小为(14+N)×512维的特征(其中14维包含12维视频帧特征、1维全局平均池化特征和1维时间序列特征)，获得语义更丰富、噪声更小、关键信息更多的视频字幕。

使用transformer编码器-解码器对输入的特征信息进行编码和解码，预测视频字幕的每一个单词或每一个字符，依次输出视频片段的视频字幕。

在本实施例中，提取视频片段的局部语义特征信息和全局语义特征信息，兼顾全局和局部的空间语义信息可以获得更全面的视频特征表示；并提取全局语义特征信息中时间序列特征，弥补了特征中时间线索的不足，丰富视频特征的表示；然后将局部空间语义特征、全局空间语义特征和时间序列特征进行融合，获得的语义更加丰富，关节信息更多；最后将所有特征进行融合输入编码器中进行编码，通过解码器得到视频字幕。本发明充分利用多个特征之间的互补性，获得语义更加丰富，噪声更小，关键信息更多的视频表示。

基于上述实施例，本实施例详细描述了训练视频文本生成模型的具体方法，请参考图2和图3，图2为本发明所提供的局部语义指导的多特征融合视频文本生成方法的第二种具体实施例的流程图，图3为本发明所提供的局部语义指导的多特征融合视频文本生成模型的结构框图；具体步骤如下：

步骤S201：随机将MSVD数据集中的训练视频片段输入视频文本生成模型中进行训练；

MSVD数据集包含了1970个YouTube视频片段，长度在10到25秒之间，每个视频片段用大约40个英语句子标记。

步骤S202：利用Faster-RCNN目标检测器提取训练视频片段12帧数视频片段的局部空间语义；

步骤S203：利用ResNet50的Conv5层提取局部空间语义中的目标特征，并利用感知器对提取的目标特征进行处理，得到局部空间语义特征；

步骤S204：利用CLIP4Clip模型提取训练视频片段中的全局空间语义特征；

步骤S205：利用GRU模块循环提取所述全局空间语义特征中每一时刻与下一时刻之间的时间线索，得到多个时间线索并将其组合，得到时间序列特征；

步骤S206：将局部空间语义特征、全局空间语义特征和时间序列特征进行融合得到融合特征，并将融合特征进行全局平均池化处理，得到全局平均池化特征；

步骤S207：将全局平均池化特征和融合特征进行级联融合，输入编码器中进行编码，得到编码数据；

步骤S208：通过解码器对编码数据进行解码，得到MSVD数据集中的第一个视频片段的预测视频字幕；

步骤S209：提取MSVD数据集中的第一个视频片段中真实视频字幕；

步骤S210：计算真实视频字幕与预测视频字幕的交叉熵和对称交叉熵，并计算损失函数；

交叉熵损失的公式为：

对称交叉熵损失的公式为：

根据交叉熵损失和对称交叉熵损失构建损失函数L_sl＝λ₁L_ce+λ₂L_rec；

判断损失损失函数是否收敛，若不收敛，重新重新输入新的视频片段进行训练；

步骤S211：重新随机选取训练视频片段，重复步骤S202至步骤S210，直至损失函数收敛，完成视频文本生成模型的训练。

在本实施例中，采用训练数据集对视频文本生成模型进行训练，并且每次输出的视频字幕都与真实字幕计算交叉熵和对称交叉熵，计算损失函数，判断损失函数是否收敛，若不收敛，则重新带入新的顺利视频片段，重新计算损失函数，直至损失函数收敛，完成视频文本生成模型的训练过程。

在本实施例中，将本发明的视频文本生成模型与现有技术中的视频预测方法进行对比，利用MSVD和MSR-VTT数据集上验证了本发明模型的效果。MSVD数据集包含了1970个YouTube视频片段，长度在10到25秒之间，每个视频片段用大约40个英语句子标记。MSR-VTT数据集包含了10000个视频剪辑，每个视频剪辑都有大约20个英文句子的注释，它还为总共20个类别的每个视频提供分类信息。MSVD和MSR-VTT常用的评估指标有BLUE@4、METEOR、ROUGE-L和CIDEr。请参考表1，本发明的方法与MSVD和MSR-VTT基准上的14种最先进的方法进行了比较，最佳结果为粗体显示，可以看到，在两个数据集的几乎所有评估指标中，所提出的方法都优于所有其他方法。这验证了所提出方法相对于最先进方法的优点和优越性。

表1本发明与14种最先进的MSVD和MSR-VTT基准方法的对比表

表2和表3报告了MSVD和MSV-VTT数据集的性能。与基线相比，使用局部语义信息将两个数据集的CIDEr性能提高了3.9和0.6。通过GRU整合时间顺序线索，我们可以进一步将CIDEr的性能提高5.4和1.0。我们还测试了两种降低局部空间语义维度的方法，分别是Linear和Transformer。根据表4中的实验结果可以看出直接使用线性投影效果很好。

表2在MSVD的测试集上对各个模块进行消融实验的结果

表3在MSR-VTT的测试集上对各个模块进行消融实验的结果

表4 MSR-VTT的测试集上降维方法的比较

请参考图4，图4为本发明实施例提供的一种局部语义指导的多特征融合视频文本生成装置的结构框图；具体装置可以包括：

训练模块100，用于构建并训练视频文本生成模型，将视频片段输入训练好的视频文本生成模型中；

局部特征提取模块200，用于提取所述视频片段中预设帧数的的局部空间语义特征；

全局特征提取模块300，用于提取所述视频片段的全局空间语义特征；

时间序列特征提取模块400，用于提取所述全局空间语义特征中的时间序列特征；

融合特征模块500，用于将所述局部空间语义特征、所述全局空间语义特征和所述时间序列特征级联得到融合特征；

池化特征模块600，用于将所述融合特征进行平均池化操作，得到全局平均池化特征；

编码-解码模块700，用于将所述融合特征和所述全局平均池化特征输入编码器-解码器模块，得到预测视频字幕。

本实施例的局部语义指导的多特征融合视频文本生成装置用于实现前述的局部语义指导的多特征融合视频文本生成方法，因此局部语义指导的多特征融合视频文本生成装置中的具体实施方式可见前文中的局部语义指导的多特征融合视频文本生成方法的实施例部分，例如，训练模块100，局部特征提取模块200，全局特征提取模块300，时间序列特征提取模块400，融合特征模块500，池化特征模块600，编码-解码模块700，分别用于实现上述局部语义指导的多特征融合视频文本生成方法中步骤S101，S102，S103，S104，S105，S106和S107，所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再赘述。

本发明具体实施例还提供了一种局部语义指导的多特征融合视频文本生成设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现上述一种局部语义指导的多特征融合视频文本生成方法的步骤。

本发明具体实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种局部语义指导的多特征融合视频文本生成方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种局部语义指导的多特征融合视频文本生成方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种局部语义指导的多特征融合视频文本生成方法，其特征在于，包括：

提取所述视频片段中预设帧数的局部空间语义特征；

提取所述视频片段的全局空间语义特征；

提取所述全局空间语义特征中的时间序列特征；

2.如权利要求1所述的视频文本生成方法，其特征在于，所述提取所述视频片段中预设帧数的的局部空间语义特征包括：

提取所述视频片段中所述预设帧数的视频片段；

利用ResNet50的Conv5层提取所述局部空间语义中的目标特征；

3.如权利要求1所述的视频文本生成方法，其特征在于，所述提取所述视频片段的全局空间语义特征包括：

4.如权利要求1所述的视频文本生成方法，其特征在于，所述提取所述全局空间语义特征中的时间序列特征包括：

将所述多个时间线索进行融合得到所述时间序列特征。

5.如权利要求1所述的视频文本生成方法，其特征在于，所述将所述局部空间语义特征、所述全局空间语义特征和所述时间序列特征级联得到融合特征包括：

6.如权利要求1所述的视频文本生成方法，其特征在于，所述训练视频文本生成模型包括：

提取所述训练视频片段的真实视频字幕；

7.如权利要求6所述的视频文本生成方法，其特征在于，所述根据所述交叉熵和所述对称交叉熵构建损失函数包括：

根据所述交叉熵损失

和对称交叉熵

构建所述损失函数L_sl＝λ₁L_ce+λ₂L_rce；

其中P和Q分别为预测视频字幕和真实视频字幕，L_ce为正常交叉熵损失，L_rce为对称交叉熵损失，λ₁，λ₂为超参数，L为预测文本的词总数，t为预测文本中第几个词。

8.一种局部语义指导的多特征融合视频文本生成装置，其特征在于，包括：

9.一种局部语义指导的多特征融合视频文本生成设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述一种局部语义指导的多特征融合视频文本生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述一种局部语义指导的多特征融合视频文本生成方法的步骤。