CN114386260A

CN114386260A - 一种视频描述生成方法、装置以及存储介质

Info

Publication number: CN114386260A
Application number: CN202111640894.7A
Authority: CN
Inventors: 蔡晓东; 王湘晴
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-22

Abstract

本发明提供一种视频描述生成方法、装置以及存储介质，属于视频处理技术领域，方法包括：S1：导入待训练视频，并构建编码器、语义检测器和解码器；S2：通过编码器对待训练视频进行特征分析，得到待处理特征和视觉特征；S3：通过语义检测器对待处理特征进行语义分析，得到语义属性；S4：通过解码器对视觉特征进行解码，得到预测标签向量；S5：对语义属性和预测标签向量进行损失分析，得到视频描述生成模型；S6：通过视频描述生成模型对待描述视频进行视频描述，生成视频描述结果。本发明能够探索生成的描述和视觉内容之间的相关性，生成语义丰富的句子，充分地考虑了突出的特征，提高了模型的准确性。

Description

一种视频描述生成方法、装置以及存储介质

技术领域

本发明主要涉及视频处理技术领域，具体涉及一种视频描述生成方法、装置以及存储介质。

背景技术

视频描述的目的是自动生成一个简洁准确的视频描述，它需要计算机视觉(CV)和自然语言处理(NLP)的技术。深度学习的序列-序列学习方法能够从离散的颜色数组学习到密集的向量，并在不受人为干扰的情况下生成自然语言序列。然而，现有的大多数方法都是将整个视频镜头或帧压缩成一个静态的表示，而不考虑突出的特征。此外，现有的翻译方法大多对翻译错误进行了建模，但忽略了句子语义与视觉内容之间的相关性。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种视频描述生成方法、装置以及存储介质。

本发明解决上述技术问题的技术方案如下：一种视频描述生成方法，包括如下步骤：

S1：导入待训练视频，并构建训练模型，所述训练模型包括编码器、语义检测器和解码器；

S2：通过所述编码器对所述待训练视频进行特征分析，得到待处理特征和视觉特征；

S3：通过所述语义检测器对所述待处理特征进行语义分析，得到语义属性；

S4：通过所述解码器对所述视觉特征进行解码，得到预测标签向量；

S5：对所述语义属性和所述预测标签向量进行损失分析，得到视频描述生成模型；

S6：导入待描述视频，通过所述视频描述生成模型对所述待描述视频进行视频描述，生成视频描述结果。

本发明解决上述技术问题的另一技术方案如下：一种视频描述生成装置，包括：

模型构建模块，用于导入待训练视频，并构建训练模型，所述训练模型包括编码器、语义检测器和解码器；

特征分析模块，用于通过所述编码器对所述待训练视频进行特征分析，得到待处理特征和视觉特征；

语义分析模块，用于通过所述语义检测器对所述待处理特征进行语义分析，得到语义属性；

特征解码模块，用于通过所述解码器对所述视觉特征进行解码，得到预测标签向量；

损失分析模块，用于对所述语义属性和所述预测标签向量进行损失分析，得到视频描述生成模型；

视频描述结果生成模块，用于导入待描述视频，通过所述视频描述生成模型对所述待描述视频进行视频描述，生成视频描述结果。

本发明解决上述技术问题的另一技术方案如下：一种视频描述生成装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，当所述处理器执行所述计算机程序时，实现如上所述的视频描述生成方法。

本发明解决上述技术问题的另一技术方案如下：一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，实现如上所述的视频描述生成方法。

本发明的有益效果是：通过编码器对待训练视频的特征分析得到待处理特征和视觉特征，通过语义检测器对待处理特征的语义分析得到语义属性，通过解码器对视觉特征的解码得到预测标签向量，对语义属性和预测标签向量的损失分析得到视频描述生成模型，通过视频描述生成模型对待描述视频的视频描述生成视频描述结果，能够探索生成的描述和视觉内容之间的相关性，生成语义丰富的句子，充分地考虑了突出的特征，提高了模型的准确性。

附图说明

图1为本发明实施例提供的一种视频描述生成方法的流程示意图；

图2为本发明实施例提供的一种视频描述生成装置的模块框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明实施例提供的一种视频描述生成方法的流程示意图。

如图1所示，一种视频描述生成方法，包括如下步骤：

上述实施例中，通过编码器对待训练视频的特征分析得到待处理特征和视觉特征，通过语义检测器对待处理特征的语义分析得到语义属性，通过解码器对视觉特征的解码得到预测标签向量，对语义属性和预测标签向量的损失分析得到视频描述生成模型，通过视频描述生成模型对待描述视频的视频描述生成视频描述结果，能够探索生成的描述和视觉内容之间的相关性，生成语义丰富的句子，充分地考虑了突出的特征，提高了模型的准确性。

可选地，作为本发明的一个实施例，所述编码器包括2D-CNN卷积神经网络和3D-CNN卷积神经网络，所述步骤S2的过程包括：

通过所述2D-CNN卷积神经网络对所述待训练视频进行全局特征提取，得到全局特征；

通过所述3D-CNN卷积神经网络对所述待训练视频进行运动特征提取，得到运动特征，并将所述全局特征和所述运动特征一并作为待处理特征；

对所述全局特征和所述运动特征进行拼接，得到视觉特征。

应理解地，所述2D-CNN卷积神经网络是指卷积核在输入图像的二维空间进行滑窗操作,2D卷积只考虑到了空间的特征，而没有考虑时间的特征。2D-CNN的输入和输出数据是3维的。主要用于图像数据。

应理解地，所述3D-CNN卷积神经网络是指卷积核在输入图像的三维空间进行滑窗操作,3D卷积多了一个深度通道(depth)，这个深度一般为视频上的连续帧，或立体图像的不同切片。3D-CNN的输入和输出数据是4维的。通常用于视频处理领域(检测动作及人物行为)。

具体地，给定待描述视频V(即所述待训练视频)，先分别提取出视频V(即所述待训练视频)的所述全局特征Va、所述运动特征Vm等视觉特征表示,然后，通过将这两个特征向量通过编码器，可以获得该视频的视觉时空表示(即所述视觉特征)。

上述实施例中，通过编码器对待训练视频的特征分析得到待处理特征和视觉特征，为探索生成的描述和视觉内容之间的相关性提供了基础，提高了模型的准确率。

可选地，作为本发明的一个实施例，所述步骤S3的过程包括：

对所述全局特征进行全局特征的语义分析，得到多个全局特征语义属性；

对所述运动特征进行运动特征的语义分析，得到多个运动特征语义属性；

将所有的所述全局特征语义属性和所有的所述运动特征语义属性作为语义属性。

应理解地，把得到的所述全局特征和所述运动特征输入到语义检测器，采用多标签分类方法学习视频的语义属性，Vi表示第i个视频的特征向量，通过训练实例{vi,yi},利用MLP学习出一个函数f:R^m→R^K,其中m是输入维度的个数，K是输出维度的个数，K等于语义属性的个数。

上述实施例中，对全局特征的全局特征语义分析得到多个全局特征语义属性，对运动特征的运动特征语义分析得到多个运动特征语义属性，将所有的全局特征语义属性和所有的运动特征语义属性作为语义属性，能够筛选出最贴近的描述，提高了模型的准确率。

可选地，作为本发明的一个实施例，所述全局特征包括多个全局特征向量，所述对所述全局特征进行全局特征的语义分析，得到多个全局特征语义属性的过程包括：

分别计算各个所述全局特征向量与预设特征库中各个词向量的全局特征相似度，得到与各个所述全局特征向量对应的多个全局特征相似度；

按照全局特征相似度大小分别对与各个所述全局特征向量对应的多个全局特征相似度进行排序，得到与各个所述全局特征向量对应的多个排序后全局特征相似度；

利用Spacy Tagging Tool工具分别对各个所述排序后全局特征相似度进行全局特征的筛选，筛选后得到与各个所述全局特征向量对应的多个筛选后全局特征相似度；

将各个所述全局特征向量对应的前K个所述筛选后全局特征相似度所对应的词向量作为全局特征语义属性。

应理解地，K为正整数，可以为1、2、3…。

应理解地，所述Spacy Tagging Tool工具即spaCy是世界上最快的工业级自然语言处理工具。支持多种自然语言处理基本功能；spaCy主要功能包括分词、词性标注、词干化、命名实体识别、名词短语提取等等。

应理解地，首先根据训练集(即所述全局特征)中提取的所有单词的频率对它们进行排序，然后删除一些功能词(如“a”、“the”),最后选择包含动词、名词、形容词在内的前K个单词作为语义属性(即所述全局特征语义属性)。

上述实施例中，对全局特征的全局特征语义分析得到多个全局特征语义属性，能够筛选出最贴近的描述，提高了模型的准确率。

可选地，作为本发明的一个实施例，所述运动特征包括多个运动特征向量，所述对所述运动特征进行运动特征的语义分析，得到多个运动特征语义属性的过程包括：

分别计算各个所述运动特征向量与所述预设特征库中各个所词向量的运动特征相似度，得到与各个所述运动特征向量对应的多个运动特征相似度；

按照运动特征相似度大小分别对与各个所述运动特征向量对应的多个运动特征相似度进行排序，得到与各个所述运动特征向量对应的多个排序后运动特征相似度；

利用所述Spacy Tagging Tool工具分别对各个所述排序后运动特征相似度进行运动特征的筛选，筛选后得到与各个所述运动特征向量对应的多个筛选后运动特征相似度；

将各个所述运动特征向量对应的前K个所述筛选后运动特征相似度所对应的词向量作为运动特征语义属性。

应理解地，K为正整数，可以为1、2、3…。

应理解地，首先根据训练集(即所述运动特征)中提取的所有单词的频率对它们进行排序，然后删除一些功能词(如“a”、“the”),最后选择包含动词、名词、形容词在内的前K个单词作为语义属性(即所述运动特征语义属性)。

上述实施例中，对运动特征的运动特征语义分析得到多个运动特征语义属性，能够筛选出最贴近的描述，提高了模型的准确率。

可选地，作为本发明的一个实施例，所述步骤S4的过程包括：

基于LSTM长短期记忆网络对所述视觉特征进行解码，得到预测标签向量。

应理解地，将提取出的所述视觉特征，输入到由LSTM构成的解码器中，得到视频的预测标签向量。

上述实施例中，基于LSTM长短期记忆网络对视觉特征的解码得到预测标签向量，从而得到精准的视觉内容，提高了模型的准确率。

可选地，作为本发明的一个实施例，所述步骤S5的过程包括：

利用交叉熵损失算法计算所述语义属性和所述预测标签向量的损失值，得到损失值；

根据所述损失值对所述解码器进行参数更新，并返回步骤S2，直至达到预设迭代次数，将更新后的训练模型作为视频描述生成模型。

应理解地，解码器解码出所述预测标签向量，与视频的所述语义属性向量(即所述语义属性)做交叉熵损失计算，损失层计算反向梯度并反馈，最终完成模型训练。

上述实施例中，对语义属性和预测标签向量的损失分析得到视频描述生成模型，能够探索生成的描述和视觉内容之间的相关性，生成语义丰富的句子，充分地考虑了突出的特征，提高了模型的准确性。

可选地，作为本发明的一个实施例，所述步骤S4之后还包括：

根据预设语料库对所述预测标签向量进行检索，得到视频描述信息。

上述实施例中，通过预设语料库对预测标签向量的检索得到视频描述信息，能够直观的获得描述结果，生成了语义丰富的句子。

可选地，作为本发明的另一个实施例，如图2所示，一种视频描述生成装置，包括：

可选地，本发明的另一个实施例提供一种视频描述生成装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，当所述处理器执行所述计算机程序时，实现如上所述的视频描述生成方法。该装置可为计算机等装置。

可选地，本发明的另一个实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，实现如上所述的视频描述生成方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频描述生成方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的视频描述生成方法，其特征在于，所述编码器包括2D-CNN卷积神经网络和3D-CNN卷积神经网络，所述步骤S2的过程包括：

对所述全局特征和所述运动特征进行拼接，得到视觉特征。

3.根据权利要求2所述的视频描述生成方法，其特征在于，所述步骤S3的过程包括：

4.根据权利要求3所述的视频描述生成方法，其特征在于，所述全局特征包括多个全局特征向量，所述对所述全局特征进行全局特征的语义分析，得到多个全局特征语义属性的过程包括：

5.根据权利要求4所述的视频描述生成方法，其特征在于，所述运动特征包括多个运动特征向量，所述对所述运动特征进行运动特征的语义分析，得到多个运动特征语义属性的过程包括：

6.根据权利要求1所述的视频描述生成方法，其特征在于，所述步骤S4的过程包括：

7.根据权利要求1所述的视频描述生成方法，其特征在于，所述步骤S5的过程包括：

8.根据权利要求1所述的视频描述生成方法，其特征在于，所述步骤S4之后还包括：

9.一种视频描述生成装置，其特征在于，包括：

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，当所述计算机程序被处理器执行时，实现如权利要求1至7任一项所述的视频描述生成方法。