CN114817637B

CN114817637B - 一种基于句子语义的视频描述方法、装置及存储介质

Info

Publication number: CN114817637B
Application number: CN202210487341.0A
Authority: CN
Inventors: 蔡晓东; 周美欣
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2022-05-06
Filing date: 2022-05-06
Publication date: 2024-03-22
Anticipated expiration: 2042-05-06
Also published as: CN114817637A

Abstract

本发明涉及一种基于句子语义的视频描述方法、装置及存储介质，属于技术领域；方法包括步骤：将视觉特征和运动特征进行拼接融合，将目标视频特征对应的描述词袋转换为文本特征，根据视觉词、目标视频特征及其对应的文本特征构建损失函数模型，以及计算每个单词在句中出现的概率，根据概率得到句子级别损失函数，通过句子级别损失函数和损失函数模型进行损失迭代计算，得到最终的视频描述信息；本发明有助于提高预测长度的准确性，从而生成的视频描述信息更完整。

Description

一种基于句子语义的视频描述方法、装置及存储介质

技术领域

本发明主要涉及计算机视觉技术领域，具体涉及一种基于句子语义的视频描述方法、装置及存储介质。

背景技术

近数十年以来伴随着互联网技术和信息传输技术的飞速发展，人们面临的媒体数据从最初的文字发展成为图像，再到现如今的视频。视频数据已经成为全世界范围内信息传播的重要载体，也是信息的重要存储形式之一。手机和面向用户的拍照设备的普遍出现，使得视频数据被快速生产、存储、上传，数量巨大且无组织，对庞大的视频数据进行有效的组织管理是使用视频所带来的巨大难题。

视频描述是视频理解的子任务，旨在通过对视频内容的理解，并以自然语言的形式描述出来。然而对机器来说，视频描述是一项非常困难的任务，机器需要理解视频内容，才能用自然语言去描述它。视频的描述文本涉及到许多背景知识的理解以及视频中的物体、人物、动作、场景、人与物关系等内容的检测，且需要根据对视频内容的理解生成语法正确、描述准确的自然语言文本。因此，视频描述不仅在技术发展方面有重要的研究意义，而且对人们生活各方面的帮助有重要的现实意义。虽然目前为止，该课题的研究在真实世界的性能还比较差，开放领域的视频语义解析还面临着极大的挑战，但是在特定的现实场景或者特殊的应用中，已经发挥了一定的重要作用。视频内容的自然语言描述问题，还需要不断探索和发展，以寻求更大的突破。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种基于句子语义的视频描述方法、装置及存储介质。

本发明解决上述技术问题的技术方案如下：一种基于句子语义的视频描述方法，包括如下步骤：

导入数据集，所述数据集包括多个视频及描述对以及与各个所述视频及描述对对应的描述词袋；

将各个所述视频及描述对中的视频分别进行视觉特征和运动特征提取，将每个所述视频对应的视觉特征和运动特征进行拼接融合，得到目标视频特征，并通过词嵌入方式将目标视频特征对应的描述词袋转换为文本特征；

对所述目标视频特征进行句子长度的预测，并结合预设的标签对预测的句子长度信息进行损失计算，得到含有标签的句子长度信息；

将所述含有标签的句子长度信息解码生成视觉词，并根据所述视觉词、所述目标视频特征及其对应的文本特征构建损失函数模型；

通过所述视觉词计算所述文本特征中每个单词在句中出现的概率；

根据所述概率得到句子级别损失函数，通过所述句子级别损失函数和所述损失函数模型进行损失迭代计算，得到最终的视频描述信息。

本发明的有益效果是：将视觉特征和运动特征进行拼接融合，将目标视频特征对应的描述词袋转换为文本特征，根据视觉词、所述目标视频特征及其对应的文本特征构建损失函数模型，以及计算每个单词在句中出现的概率，根据概率得到句子级别损失函数，通过句子级别损失函数和损失函数模型进行损失迭代计算，得到最终的视频描述信息，有助于提高预测长度的准确性，从而生成的视频描述信息更完整。

本发明解决上述技术问题的另一技术方案如下：一种基于句子语义的视频描述装置，包括：

数据导入模块，用于导入数据集，所述数据集包括多个视频及描述对以及与各个所述视频及描述对对应的描述词袋；

视频特征处理模块，用于将各个所述视频及描述对中的视频分别进行视觉特征和运动特征提取，将每个所述视频对应的视觉特征和运动特征进行拼接融合，得到目标视频特征，并通过词嵌入方式将目标视频特征对应的描述词袋转换为文本特征；

句子长度预测模块，用于对所述目标视频特征进行句子长度的预测，并结合预设的标签对预测的句子长度信息进行损失计算，得到含有标签的句子长度信息；

视频特征解码模块，用于将所述含有标签的句子长度信息解码生成视觉词，并根据所述视觉词、所述目标视频特征及其对应的文本特征构建损失函数模型；

句子语义处理模块，用于通过所述视觉词h_t计算所述文本特征中每个单词在句中出现的概率；

本发明解决上述技术问题的另一技术方案如下：一种基于句子语义的视频描述装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，当所述处理器执行所述计算机程序时，实现如上所述的基于句子语义的视频描述方法。

本发明解决上述技术问题的另一技术方案如下：一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，实现如上所述的基于句子语义的视频描述方法。

附图说明

图1为本发明实施例提供的基于句子语义的视频描述方法的流程示意图；

图2为本发明实施例提供的基于句子语义的视频描述装置的功能模块框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

实施例1：

如图1所示，一种基于句子语义的视频描述方法，包括如下步骤：

上述实施例中，将视觉特征和运动特征进行拼接融合，将目标视频特征对应的描述词袋转换为文本特征，根据视觉词、所述目标视频特征及其对应的文本特征构建损失函数模型，以及计算每个单词在句中出现的概率，根据概率得到句子级别损失函数，通过句子级别损失函数和损失函数模型进行损失迭代计算，得到最终的视频描述信息，有助于提高预测长度的准确性，从而生成的视频描述信息更完整。

优选地，还包括对拼接融合后的视觉特征和运动特征进行紧凑处理的步骤，具体为：

通过highway网络对拼接融合后的视觉特征和运动特征进行紧凑处理。

具体地，视觉特征和运动特征采用预训练ResNet101模型进行2D，3D提取。

优选地，所述对所述目标视频特征进行句子长度的预测，具体为：

通过第一式对所述目标视频特征进行句子长度的预测，所述第一式为：

L′＝Softmax(ReLU(MP(V)W_l1)W_l2)，

其中，MP表示平均池化，RELU和Softmax表示激活函数，和表示权重参数，R表示任意实数，dm×dm形状的矩阵，dm×dmax形状的矩阵，是被预测的最大序列长度。

具体地，结合预设的标签对预测的句子长度信息进行损失计算，即句子长度的预测需要结合视频对应的标签的句子长度进行损失计算。其具体过程如下：

其中，L′表示预测的句子长度，L表示标签的句子长度，l_j表示视频对应的标签长度为j的句子占的百分比。

应理解地，预设的标签是指通过人工方式进行标注，将描述视频内容作为标签进行标注。

上述实施例中，能够准确地对目标视频特征进行句子长度的预测。

优选地，将所述含有标签的句子长度信息解码生成视觉词，具体为：

视觉词为名词或动词，然后再生成非视觉词，通过tansformer模型多次迭代后获取正确的描述。采用tansformer模型的解码层的两个层作为解码网络，其中的一个是多头自注意力层，它是tansformer模型移除了随机遮盖的自注意力层，从而使得解码过程变成双向的，预测每个词时，既可以使用左上下文，也可以使用右上下文作为条件信息。另外一个是多头类间注意力层，通过复制目标视频特征、文本特征来增强解码端的输入，从而生成视觉词。

优选地，所述根据所述视觉词、所述目标视频特征及其对应的文本特征构建损失函数模型，具体为：

所述损失函数模型为：

其中，V表示所述目标视频特征及其对应的文本特征，Y^vis表示视觉词，Y_obs表示生成过程中未掩盖的词，Y_mask表示生成过程中掩盖的词，λ表示可调整的参数。

上述实施例中，构建损失函数模型，有助于提高预测长度的准确性。

优选地，所述通过所述视觉词计算所述文本特征中每个单词在句中出现的概率，具体为：

通过第二式计算视觉词的单词级别分数，所述第二式为：s_i＝W_gh_i+b_g，其中，h_t表示视觉词，W_g，b_g表示学习训练参数；

通过第三式和所述单词级别分数计算每个单词在句中出现的概率，所述第三式为：

其中，S_b表示概率，K表示第i个视频对应的标签的词袋数量，bi表示标签对应的词袋表示标签对应的词袋。

应理解地，h_t表示视觉词，即名词或者动词。将视觉词h_t作为输入，先获得生成单词级别分数，然后对单词级别分数向量进行求和，得到句子级别分数向量，得到每个单词在句中出现的概率S_b。

上述实施例中，能够计算每个单词在句中出现的概率。

优选地，所述根据所述概率得到句子级别损失函数，通过所述句子级别损失函数和所述损失函数模型进行损失迭代计算，得到最终的视频描述信息，具体为：

通过第四式和所述概率计算句子级别损失函数，所述第四式为：

其中，K表示第i个视频对应的标签的词袋数量，bi表示标签对应的词袋；

通过第五式、所述句子级别损失函数和所述损失函数模型L_w进行损失迭代计算，得到最终的视频描述信息，所述第五式为：

L_gen＝L_w+αL_s，

其中，α表示损失函数模型。

上述实施例中，能够提高视频描述信息的准确性。

实施例2：

如图2所示，一种基于句子语义的视频描述装置，包括：

实施例3：

一种基于句子语义的视频描述装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，当所述处理器执行所述计算机程序时，实现如上所述的基于句子语义的视频描述方法。

实施例4：

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，实现如上所述的基于句子语义的视频描述方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于句子语义的视频描述方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的视频描述方法，其特征在于，还包括对拼接融合后的视觉特征和运动特征进行紧凑处理的步骤，具体为：

3.根据权利要求1所述的视频描述方法，其特征在于，所述对所述目标视频特征进行句子长度的预测，具体为：

L＝Soft max(ReLU(MP(V)W_l1)W_l2)，

其中，MP表示平均池化，RELU和Softmax表示激活函数，和表示权重参数。

4.根据权利要求1所述的视频描述方法，其特征在于，所述根据所述视觉词、所述目标视频特征及其对应的文本特征构建损失函数模型，具体为：

所述损失函数模型为：

5.根据权利要求1所述的视频描述方法，其特征在于，所述通过所述视觉词计算所述文本特征中每个单词在句中出现的概率，具体为：

通过第二式计算视觉词的单词级别分数，所述第二式为：s_t＝W_gh_t+b_g，其中，h_t表示视觉词，W_g，b_g表示学习训练参数；

其中，S_b表示概率，K表示第i个视频对应的标签的词袋数量，bi表示标签对应的词袋。

6.根据权利要求1所述的视频描述方法，其特征在于，所述根据所述概率得到句子级别损失函数，通过所述句子级别损失函数和所述损失函数模型进行损失迭代计算，得到最终的视频描述信息，具体为：

通过第四式和所述概率Sb计算句子级别损失函数，所述第四式为：

其中，K表示第i个视频对应的标签的词袋数量，b_i表示标签对应的词袋；

L_gen＝L_w+αL_s，

其中，α表示损失函数模型。

7.一种基于句子语义的视频描述装置，其特征在于，包括：

8.根据权利要求7所述的视频描述装置，其特征在于，还包括对拼接融合后的视觉特征和运动特征进行紧凑处理的步骤，具体为：

9.一种基于句子语义的视频描述装置，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，当所述处理器执行所述计算机程序时，实现如权利要求1至6任一项所述的基于句子语义的视频描述方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，实现如权利要求1至6任一项所述的基于句子语义的视频描述方法。