CN111930999B

CN111930999B - 逐帧跨模态相似度关联实施文本查询定位视频片段方法

Info

Publication number: CN111930999B
Application number: CN202010707541.3A
Authority: CN
Inventors: 程志勇; 唐昊煜; 祝继华; 高赞; 舒明雷
Original assignee: Shandong Institute of Artificial Intelligence
Current assignee: Shandong Institute of Artificial Intelligence
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2022-09-30
Anticipated expiration: 2040-07-21
Also published as: CN111930999A

Abstract

一种逐帧跨模态相似度关联实施文本查询定位视频片段方法，利用基于深度神经网络的跨模态特征间相似度或距离来尽可能挖掘视频与文本查询之间的关联信息；通过对视频语义感知的注意力信息对文本查询逐帧建模，提升了文本查询特征的表达能力；通过对视频片段内部帧的提取融合，最大化跨模态特征内包含信息，提高了视频片段定位的准确率。提供了一种新的集成了注意力机制和跨模态相似度/距离函数的模型，以挖掘视频帧和文本查询特征之间的交互作用；通过对视频片段内部帧的提取融合，最大化利用跨模态特征内包含信息，提高了视频片段定位的准确率，实现对视频片段的精准定位。

Description

逐帧跨模态相似度关联实施文本查询定位视频片段方法

技术领域

本发明涉及多媒体视觉语言处理及深度学习技术领域，具体涉及一种逐帧跨模态相似度关联实施文本查询定位视频片段方法。

背景技术

近年来，由于很多视频分享网站和相关应用程序的兴起，探索并理解大量产生的视频变得极具挑战性。在多媒体视觉语言处理领域中，有很多相关技术，如视频检索，视频内容捕捉，视频问答等。其中，基于文本查询来定位视频中某一片段是这一领域的核心技术。该技术编码视频和文本特征，学习视频与文本之间的跨模态信息。早期的基于文本定位视频片段的技术主要是基于文本查询特征，对利用时序滑窗采样的视频片段进行相似度排序。此类技术主要存在视频长度较大时会引入较大计算量与时间复杂度的问题，因此应用范围受限。此外，近期也出现了通过直接将文本查询逐帧拼接到视频特征上进行匹配并直接预测视频片段边界的不需预采样视频片段的技术。但是，简单的拼接特征无法深入挖掘跨模态特征之间的相似度关联。

发明内容

本发明为了克服以上技术的不足，提供了一种解决基于文本查询定位视频片段任务中存在的无法深入挖掘跨模态特征之间的相似度关联问题、忽视文本查询中不同词语权重差异，提高视频片段定位准确性的方法。

本发明克服其技术问题所采用的技术方案是：

一种逐帧跨模态相似度关联实施文本查询定位视频片段方法，包括如下步骤：

a)在视频-文本数据集中得到视频V的编码特征；

b)在视频-文本数据集中得到文本Q的编码特征；

c)构建视频V的编码特征及文本Q的编码特征之间的注意力关联，得到特定帧对应文本查询表示；

d)建立并训练基于深度网络逐帧跨模态相似度关联模型；

e)将文本查询与其对应的整段视频输入到训练好的模型中，得到开始与结束预测值的联合最大值，实现视频片段精准定位。

进一步的，步骤a)中采用ActivityNet-Caption视频-文本数据集以及Charades-STA视频-文本数据集。

进一步的，步骤a)中将视频-文本数据集中的视频降采样后，通过公式f_t＝F(v_t)使用预训练好的三维深度卷积网络输入图片提取特征得到视频嵌入特征f_t，通过公式V＝{v₁,...,v_T}得到视频V的编码特征，式中v_t为视频第t帧的特征，T为视频长度，1≤t≤T。

进一步的，步骤b)中通过公式Q＝{q₁,...,q_m}得到文本Q的编码特征，式中q_i为文本第i个词，m为文本查询长度，1≤i≤m，利用斯坦福CoreNLP工具标记视频-文本数据集中每个句子，通过公式S＝glove(Q)采用预训练的Glove语料库得到文本嵌入特征S，S＝{s₁,s₂,...,s_m}，式中s_j为文本第j个词的嵌入特征，式中1≤j≤m。

进一步的，骤c)包括如下步骤：

c-1)通过公式

计算得到逐帧的视频V的编码特征与逐词的文本Q的编码特征，式中BiLSTM为双向长短期记忆人工神经网络，

为视频V的编码特征的第t个隐藏特征，

为文本Q的编码特征的第j个隐藏特征；

c-2)通过公式

计算得到定帧对应文本查询表示r_tj，式中

W_s、W_v均为线性映射函数的权重矩阵，b_r为偏差向量，tanh为双曲正切非线性激活函数，β_tj为求得的相对于第t帧特征得到的第j个词的注意力权重，

为相对于第t帧特征得到的文本描述整体特征。

进一步的，步骤d)包括如下步骤：

d-1)通过公式

计算归一化的视频特征的维度

及文本特征的维度

式中W_q为线性映射函数的权重矩阵，b_q、b_v均为偏差向量，

为归一化函数，

为所有帧的文本描述整体特征拼接结果，h^V为视频V的编码特征的所有隐藏特征的拼接结果，

d-2)通过公式

计算得到融合后的逐帧跨模态相似度特征C^V；

d-3)通过公式

计算得到开始真概率序列，式中P_s为开始帧概率序列，P_e为结束帧概率序列，P_f为视频片段内部帧概率序列，MLP为多层感知机，softmax(·)为归一化函数；

d-4)通过公式L＝L_c+λL_I、

计算损失函数L，式中λ为权重参数，L_c为最大化视频边界概率的损失函数，L_I为最大化视频片段内部帧概率的损失函数，K为训练样本总数，

为第i个样本的视频片段真实的开始帧，

为第i个样本的视频片段真实的结束帧，

为第i个样本的视频片段内部的帧，j∈[s,e]，1≤i≤K；

d-5)通过计算得到的损失函数L对模型进行训练。

进一步的，步骤e)中通过最大化视频开始帧与结束帧的联合概率P_s(t^s)×P_e(t^e)，通过公式

计算得到视频开始位置的边界帧t^s以及视频结束位置的边界帧t^e。

进一步的，步骤d-1)中的归一化函数采取L2归一化和高斯分布归一化。

本发明的有益效果是：利用基于深度神经网络的跨模态特征间相似度或距离来尽可能挖掘视频与文本查询之间的关联信息；通过对视频语义感知的注意力信息对文本查询逐帧建模，提升了文本查询特征的表达能力；通过对视频片段内部帧的提取融合，最大化跨模态特征内包含信息，提高了视频片段定位的准确率。提供了一种新的集成了注意力机制和跨模态相似度/距离函数的模型，以挖掘视频帧和文本查询特征之间的交互作用；通过对视频片段内部帧的提取融合，最大化利用跨模态特征内包含信息，提高了视频片段定位的准确率；在两个基准数据Charades STA和ActivityNet Caption上进行的大量实验已经证明了我们的模型可以达到优异的效果，实现对视频片段的精准定位。

附图说明

图1为本发明的方法流程图。

具体实施方式

下面对本发明做进一步说明。

a)在视频-文本数据集中得到视频V的编码特征。优选的，步骤a)中采用ActivityNet-Caption视频-文本数据集以及Charades-STA视频-文本数据集。

b)在视频-文本数据集中得到文本Q的编码特征。

c)构建视频V的编码特征及文本Q的编码特征之间的注意力关联，得到特定帧对应文本查询表示。

由于此前得到的视频与文本嵌入特征会缺失整体的上下文信息，因此我们采用双向长短期记忆人工神经网络编码视频帧与文本词语的序列嵌入特征，以融合长程的语义信息关联，最终得到逐帧的视频编码特征与逐词的文本编码特征。本发明通过将视频帧编码、文本查询词编码统一嵌入同一空间后构建视频帧-查询词之间的相似度矩阵，矩阵元素表示相应帧与词之间的相似度权重，权重值将会在每一轮训练中迭代更新；通过每帧相应的所有词的注意力权重，得到特定帧对应的文本表示。

d)建立并训练基于深度网络逐帧跨模态相似度关联模型。

本发明针对现有方法在跨模态特征融合时直接拼接不能很好地捕捉视频帧与文本查询之间的交互或相似度信息、并因此导致获得次优模型的问题，设计发明了一个新的基于深度网络逐帧跨模态相似度关联的模型。具体操作包括：1)将视频帧及利用相应注意力机制得到的特定帧编码的文本表示嵌入到同一特征空间后归一化。分别利用单层线性函数将两个模态特征映射到同一特征空间后，由于两种特征来自不同网络，其值可能在不同的范围内且偏差较大，这增加了下一步学习一个好的预测模型的难度。为了更好地进行后续相似性度量，我们需保证映射后两种特征处于同一尺度。为此我们引入了归一化方法；2)逐帧跨模态相似度特征融合。计算归一化特征之间的相似度可以更好地获取了视觉特征和文本特征之间的交互与关联。我们的发明用简单的度量得到逐帧视觉特征和帧对应的特定文本表示之间的跨模态相似度交互；3)映射相似度或距离特征得到预测值。将得到的内积或相减特征逐帧输入三个不同的多层感知机，得到三个预测值序列，每个值分别表示对应帧为开始帧、结束帧、视频片段内部帧的概率，将三个序列输入损失函数，训练模型。

利用基于深度神经网络的跨模态特征间相似度或距离来尽可能挖掘视频与文本查询之间的关联信息；通过对视频语义感知的注意力信息对文本查询逐帧建模，提升了文本查询特征的表达能力；通过对视频片段内部帧的提取融合，最大化跨模态特征内包含信息，提高了视频片段定位的准确率。提供了一种新的集成了注意力机制和跨模态相似度/距离函数的模型，以挖掘视频帧和文本查询特征之间的交互作用；通过对视频片段内部帧的提取融合，最大化利用跨模态特征内包含信息，提高了视频片段定位的准确率；在两个基准数据Charades STA和ActivityNet Caption上进行的大量实验已经证明了我们的模型可以达到优异的效果，实现对视频片段的精准定位。

进一步的，步骤a)中将视频-文本数据集中的视频降采样后，通过公式f_t＝F(v_t)使用预训练好的三维深度卷积网络输入图片提取特征得到视频嵌入特征f_t，通过公式V＝{v₁,...,v_T}得到视频V的编码特征，式中v_t为视频第t帧的特征，T为视频长度，1≤t≤T。发明采用两个大规模公开视频-文本数据集(ActivityNet-Caption,Charades-STA)。为了得到视频的编码特征，我们将视频降采样后，使用预训练好的三维深度卷积网络以16帧每组的输入图片提取特征得到视频嵌入；为了得到文本的编码特征，用斯坦福CoreNLP标记每个句子，然后采用预训练的Glove语料库得到文本的嵌入特征。

由于此前得到的视频与文本嵌入特征会缺失整体的上下文信息，因此我们采用双向长短期记忆人工神经网络(BiLSTM)编码视频帧与文本词语的序列嵌入特征，以融合长程的语义信息关联，最终得到逐帧的视频编码特征与逐词的文本编码特征。因此骤c)包括如下步骤：

c-1)通过公式

为视频V的编码特征的第t个隐藏特征，

为文本Q的编码特征的第j个隐藏特征；

c-2)本发明通过将视频帧编码、文本查询词编码统一嵌入同一空间后构建视频帧-查询词之间的相似度矩阵，矩阵元素表示相应帧与词之间的相似度权重，权重值将会在每一轮训练中迭代更新；通过每帧相应的所有词的注意力权重，得到特定帧对应的文本表示，即通过公式

计算得到定帧对应文本查询表示r_tj，式中

为相对于第t帧特征得到的文本描述整体特征。

视频帧及利用相应注意力机制得到的特定帧编码的文本表示嵌入到同一特征空间后归一化。分别利用单层线性函数将两个模态特征映射到同一特征空间后，由于两种特征来自不同网络，其值可能在不同的范围内且偏差较大，这增加了下一步学习一个好的预测模型的难度。为了更好地进行后续相似性度量，我们需保证映射后两种特征处于同一尺度。步骤d)包括如下步骤：

d-1)通过公式

计算归一化的视频特征的维度

及文本特征的维度

式中W_q为线性映射函数的权重矩阵，b_q、b_v均为偏差向量，

为归一化函数，

d-2)计算归一化特征之间的相似度可以更好地获取了视觉特征和文本特征之间的交互与关联，通过公式

计算得到融合后的逐帧跨模态相似度特征C^V，实现逐帧跨模态相似度特征融合。

d-3)通过公式

计算得到开始真概率序列，式中P_s为开始帧概率序列，P_e为结束帧概率序列，P_f为视频片段内部帧概率序列，MLP为多层感知机，softmax(·)为归一化函数。

d-4)通过公式L＝L_c+λL_I、

为第i个样本的视频片段真实的开始帧，

为第i个样本的视频片段真实的结束帧，

为第i个样本的视频片段内部的帧，j∈[s,e]，1≤i≤K。

d-5)通过计算得到的损失函数L对模型进行训练。

优选的，步骤d-1)中的归一化函数采取L2归一化和高斯分布归一化。

Claims

1.一种逐帧跨模态相似度关联实施文本查询定位视频片段方法，其特征在于，包括如下步骤：

a)在视频-文本数据集中得到视频V的编码特征；

b)在视频-文本数据集中得到文本Q的编码特征；

d)建立并训练基于深度网络逐帧跨模态相似度关联模型；

e)将文本查询与其对应的整段视频输入到训练好的模型中，得到开始与结束预测值的联合最大值，实现视频片段精准定位；

步骤a)中将视频-文本数据集中的视频降采样后，通过公式f_t＝F(v_t)使用预训练好的三维深度卷积网络输入图片提取特征得到视频嵌入特征f_t，通过公式V＝{v₁,...,v_T}得到视频V的编码特征，式中v_t为视频第t帧的特征，T为视频长度，1≤t≤T；

步骤b)中通过公式Q＝{q₁,...,q_m}得到文本Q的编码特征，式中q_i为文本第i个词，m为文本查询长度，1≤i≤m，利用斯坦福CoreNLP工具标记视频-文本数据集中每个句子，通过公式S＝glove(Q)采用预训练的Glove语料库得到文本嵌入特征S，S＝{s₁,s₂,...,s_m}，式中s_j为文本第j个词的嵌入特征，式中1≤j≤m；

骤c)包括如下步骤：

c-1)通过公式