CN109815927A

CN109815927A - 利用对抗双向交互网络解决视频时间文本定位任务的方法

Info

Publication number: CN109815927A
Application number: CN201910093894.6A
Authority: CN
Inventors: 赵洲; 成瑀
Original assignee: Hangzhou Yi Zhi Intelligent Technology Co Ltd
Current assignee: Hangzhou Yi Zhi Intelligent Technology Co Ltd
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2019-05-28
Anticipated expiration: 2039-01-30
Also published as: CN109815927B

Abstract

本发明公开了一种利用对抗双向交互网络解决视频时间文本定位任务的方法，主要包括如下步骤：1)设计一种对抗双向交互网络模型完成对于视频片段的定位及定位结果的判别。2)训练得到最终的对抗双向交互网络模型，利用该模型定位出与文本描述相关的视频片段。相比于一般的视频时间文本定位解决方案，本发明利用了对抗双向交互网络，能够更好地定位出与文本描述相关的视频片段。本发明在视频时间文本定位任务中所取得的效果相比于传统的方法更好。

Description

利用对抗双向交互网络解决视频时间文本定位任务的方法

技术领域

本发明涉及视频时间文本定位任务，尤其涉及一种利用对抗双向交互网络解决视频时间文本定位任务的方法。

背景技术

视频时间文本定位任务是一项十分有挑战性的任务，目前吸引了很多人的关注。在该任务中需要系统可以针对于某个特定视频的描述，在视频中定位出与文本描述相关的视频片段。目前视频时间文本定位任务仍然是一个较为新颖的任务，对其的研究还不成熟。与一般的视频内容理解任务不同，视频时间文本定位任务需要对于视频及文本信息的综合理解，丰富复杂的视频及文本信息增加了该任务的难度。

目前已有的视频时间文本定位任务解决方法一般是利用视频动作定位的传统方法。使用一个滑动窗口结构来对于视频进行密集采样，之后分别计算采集的视频样本与所针对的视频描述文本之间的相关程度，将具有最大相关程度的视频样本作为视频时间文本定位的结果。此种方法由于采样的密集性需要巨大的计算量，同时该种方法缺乏了对于视频内容的长程语义理解。为了解决上述问题，本发明使用对抗双向交互网络来解决视频时间文本定位任务，提高视频时间文本定位任务形成视频定位片段的准确性。

发明内容

本发明的目的在于解决现有技术中的问题，为了克服现有技术对于视频时间文本定位任务无法提供较为准确的视频定位片段的问题，本发明提供一种利用对抗双向交互网络解决视频时间文本定位任务的方法。本发明所采用的具体技术方案是：

利用对抗双向交互网络解决视频时间文本定位任务的方法，包含如下步骤：

1.设计一种双向交互网络，基于视频的每个帧图像和输入的文本描述，获取与文本相关的视频帧级别的相关程度分布及整个相关程度分布中具有最大联合相关程度的视频目标片段。

2.利用步骤1中获取的与文本相关的视频帧级别的相关程度分布及整个相关程度分布中具有最大联合相关程度的视频目标片段，设计一种辅助判别网络，验证步骤1获取的与文本相关的视频目标片段的准确性，并利用对抗训练过程提高视频时间文本定位的效果。

3.利用步骤1设计的双向交互网络与步骤2设计的辅助判别网络，进行训练，利用训练出的双向交互网络及辅助判别网络获取与文本描述相关的视频片段。

上述步骤可具体采用如下实现方式：

对于视频时间文本定位任务中视频的每个帧输入到提前训练好的 3维卷积网络中，获取视频的帧级别表达v＝(v₁,v₂,...,v_n)，其中v_i代表视频中的第i个帧的帧级别表达，n代表视频中的帧个数。将视频中各个帧的帧级别表达v＝(v₁,v₂,...,v_n)依次输入到双向LSTM网络中，按照如下公式计算得到视频各个帧的语义表达

其中，与分别代表双向LSTM网络中的前向 LSTM网络计算与后向LSTM网络计算，与代表前向LSTM网络计算第i次循环的隐层输出与状态值，与代表后向LSTM网络计算第i次循环的隐层输出与状态值，代表视频中的第i个帧的语义表达，代表将与进行连接计算。

对于视频时间文本定位任务中的输入文本，将文本中的各个单词利用单词映射的方式，获得文本中各个单词的映射向量s＝(s₁,s₂,...,s_m)，其中s_j代表文本中的第j个单词的映射向量，m代表文本中的单词个数。将文本中各个单词的映射向量s＝(s₁,s₂,...,s_m)依次输入到双向 LSTM网络中，按照如下公式计算得到文本各个单词的语义表达

其中，与分别代表双向LSTM网络中的前向 LSTM网络计算与后向LSTM网络计算，与代表前向LSTM网络计算第j次循环的隐层输出与状态值，与代表后向LSTM网络计算第j次循环的隐层输出与状态值，代表文本中的第j个单词的语义表达，代表将与进行连接计算。

利用得到的视频各个帧的语义表达与文本各个单词的语义表达利用如下公式计算得到视频文本注意力矩阵M，M为n×m维矩阵，

其中，与代表可训练的权重矩阵，b_m代表可训练的偏置向量，代表可训练的参数向量w_m的转置，tanh()代表双曲正切函数，代表矩阵M第i行j列的元素。

利用得到的视频文本注意力矩阵M，按照如下公式计算得到视频到文本矩阵M^row与文本到视频矩阵M^col，其中M^row与M^col均为n×m维矩阵，

其中，代表矩阵M^row的第i行j列的元素，代表矩阵M^col的第i行j列的元素，exp()代表以自然底数e为底的指数运算函数。

利用得到的视频到文本矩阵M^row与文本到视频矩阵M^col，按照如下公式计算得到视频自注意力矩阵D，D为n×n维矩阵，

其中，代表矩阵M^col的转置矩阵。

利用得到的视频自注意力矩阵D与视频各个帧的语义表达按照如下公式计算得到视频利用文本指引的语义表达

其中，代表视频第i帧对应的文本指引的自注意力输出，代表将与进行连接计算。

利用得到的视频到文本矩阵M^row与文本到视频矩阵M^col，按照如下公式计算得到文本自注意力矩阵L，L为m×m维矩阵，

其中，代表矩阵M^col的转置矩阵。

利用得到的文本自注意力矩阵L与文本各个单词的语义表达按照如下公式计算得到文本利用视频指引的语义表达

其中，代表文本第i个单词对应的视频指引的自注意力输出，代表将与进行连接计算。

利用得到的视频利用文本指引的语义表达与文本利用视频指引的语义表达按照如下公式计算得到注意力矩阵S，S为n×m维矩阵，

其中，与代表可训练的权重矩阵，b_s代表可训练的偏置向量，代表可训练的参数向量w_s的转置，tanh()代表双曲正切函数，代表矩阵S第i行j列的元素。

利用得到的视频利用文本指引的语义表达文本利用视频指引的语义表达注意力矩阵S，按照如下公式计算得到多模态混合表达

其中，softmax(S_ij)代表对于注意力矩阵S中的第i行j列的元素S_ij计算其对应注意力矩阵S第i行所有元素计算softmax函数值。代表与视频第i帧相关的聚合文本表达，代表多模态混合表达H^f第i维的表达，W_f代表可训练的权重矩阵，b_f代表可训练的偏置向量，代表按元素相乘。

将得到的多模态混合表达依次输入到双向LSTM 网络中，得到多模态上下文表达利用如下公式计算得到视频帧级别的相关程度分布p^f为n维向量，

其中，代表可训练的参数向量w_f的转置，b_f代表可训练的偏置值。

利用得到的视频帧级别的相关程度分布按照如下公式计算得到拥有最大联合相关程度的视频目标片段的起始位置与结尾位置

其中，pⁱⁿ代表在选取的视频目标片段内帧的联合相关程度，p^out代表在选取的视频目标片段外帧的联合负相关程度，与代表视频帧级别的相关程度分布p^f中第j维与第k维的值。

利用训练数据中真实的与文本描述相关的视频片段情况，得到真实的视频帧级别的相关程度分布其中代表视频的第i帧在真实的与文本描述相关的视频片段中，代表视频的第i帧不在真实的与文本描述相关的视频片段中。

利用得到的视频帧级别的相关程度分布与真实的视频帧级别的相关程度分布按照如下公式计算得到视频时间文本定位的损失函数L_loc(θ)，

其中log代表对数函数运算，L_i代表视频第i帧对应的损失函数值。

在利用上述方法获得双向交互网络G_θ(v,s)后，可以得到视频帧级别的相关程度分布与拥有最大联合相关程度的视频目标片段的起始位置与结尾位置

利用得到的视频帧级别的相关程度分布与视频各个帧的语义表达按照如下公式计算得到全局视频特征v^f，

利用得到的真实的视频帧级别的相关程度分布与视频各个帧的语义表达按照如下公式计算得到真实的全局视频特征v^gt，

利用得到的文本各个单词的语义表达按照如下公式计算得到全局文本特征s^d，

其中，为可训练的权重向量w_γ的转置。

利用得到的全局视频特征v^f与全局文本特征s^d，按照如下公式计算得到全局视频特征与全局文本特征的匹配分数F^f，

其中，W_l、为可训练的权重矩阵，b_l、代表可训练的偏置向量，代表按元素相乘，tanh()代表双曲正切函数，σ()代表sigmoid函数计算。

利用得到的真实的全局视频特征v^gt与全局文本特征s^d，按照如下公式计算得到真实的全局视频特征与全局文本特征的匹配分数F^gt，

其中，W_l'、为可训练的权重矩阵，b_l'、代表可训练的偏置向量，代表按元素相乘，tanh()代表双曲正切函数，σ()代表sigmoid函数计算。

利用得到的全局视频特征与全局文本特征的匹配分数F^f及真实的全局视频特征与全局文本特征的匹配分数F^gt，按照如下公式对于双向交互网络G_θ(v,s)及辅助判别网络D_φ(p)进行训练，

其中，对于双向交互网络G_θ(v,s)训练时，训练损失函数为，

L_aux(θ)＝-log(F^f)

对于辅助判别网络D_φ(p)训练时，训练损失函数为，

L_dis(φ)＝-(log(F^gt)+log(1-F^f))

在对于对抗双向交互网络进行训练时，首先对于对抗双向交互网络中的双向交互网络G_θ(v,s)利用如下公式作为损失函数进行预训练，

其中，N代表训练数据中样本数量，L_loc(θ)代表得到的视频时间文本定位的损失函数。

经过预训练之后，按照如下公式计算得到对抗双向交互网络中双向交互网络G_θ(v,s)的损失函数L_gen(θ)，

其中，N代表训练数据中样本数量，α＝5，β＝1，L_loc(θ)代表得到的视频时间文本定位的损失函数，L_aux(θ)代表得到的双向交互网络 G_θ(v,s)的损失函数。

利用L_gen(θ)作为对抗双向交互网络中双向交互网络G_θ(v,s)的损失函数，L_dis(φ)作为对抗双向交互网络中辅助判别网络D_φ(p)的损失函数，对于对抗双向交互网络进行训练，直到对抗双向交互网络中的双向交互网络G_θ(v,s)与辅助判别网络D_φ(p)达到平衡。

在对抗双向交互网络训练完成后，对于输入的视频及文本描述，利用计算得到的拥有最大联合相关程度的视频目标片段的起始位置与结尾位置找到与文本描述相关的视频片段，完成视频时间文本定位任务。

附图说明

图1是根据本发明的一实施例的用于解决视频时间文本定位任务的对抗双向交互网络的整体示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

如图1所示，本发明利用对抗双向交互网络解决视频时间文本定位任务的方法包括如下步骤：

1)设计一种双向交互网络，基于视频的每个帧图像和输入的文本描述，获取与文本相关的视频帧级别的相关度分布及整个相关程度分布中具有最大联合相关程度的视频目标片段；

2)利用步骤1)中获取的与文本相关的视频帧级别的相关程度分布及整个相关程度分布中具有最大联合相关程度的视频目标片段，设计一种辅助判别网络，验证步骤1)获取的与文本相关的视频目标片段的准确性，并利用对抗训练过程提高视频时间文本定位的效果；

3)利用步骤1)设计的双向交互网络与步骤2)设计的辅助判别网络，进行训练，利用训练出的双向交互网络及辅助判别网络获取与文本描述相关的视频片段。

所述步骤1)，其具体步骤为:

其中，代表矩阵M^col的转置矩阵。

所述步骤2)，其具体步骤为:

利用步骤1)得到的视频帧级别的相关程度分布与视频各个帧的语义表达按照如下公式计算得到全局视频特征v^f，

利用步骤1)得到的真实的视频帧级别的相关程度分布与视频各个帧的语义表达按照如下公式计算得到真实的全局视频特征v^gt，

利用步骤1)得到的文本各个单词的语义表达按照如下公式计算得到全局文本特征s^d，

其中，为可训练的权重向量w_γ的转置。

其中，对于双向交互网络G_θ(v,s)训练时，训练损失函数为，

L_aux(θ)＝-log(F^f)

对于辅助判别网络D_φ(p)训练时，训练损失函数为，

L_dis(φ)＝-(log(F^gt)+log(1-F^f))

所述步骤3)，其具体步骤为:

其中，N代表训练数据中样本数量，L_loc(θ)代表步骤1)得到的视频时间文本定位的损失函数。

其中，N代表训练数据中样本数量，α＝5，β＝1，L_loc(θ)代表步骤1)得到的视频时间文本定位的损失函数，L_aux(θ)代表步骤3)得到的双向交互网络G_θ(v,s)的损失函数。

下面将上述方法应用于下列实施例中，以体现本发明的技术效果，实施例中具体步骤不再赘述。

实施例

本发明在构建的ActivityNet实验数据集及TACoS实验数据集上进行实验。为了客观地评价本发明的算法的性能，本发明在所选出的测试集中，对于ActivityNet实验数据集分别使用了平均交并比(mIoU), 交并比@0.1(mIoU@0.1)，交并比@0.3(mIoU@0.3)，交并比@0.5 (mIoU@0.5)，交并比@0.7(mIoU@0.7)评价标准来对于本发明的效果进行评价，对于TACoS实验数据集分别使用了平均交并比(mIoU),交并比@0.1(mIoU@0.1)，交并比@0.3(mIoU@0.3)，交并比@0.5(mIoU@0.5)评价标准来对于本发明的效果进行评价。按照具体实施方式中描述的步骤，所得的实验结果如表1-表2所示，本方法表示为ABIN(full)：

表1本发明针对于ActivityNet数据集的测试结果

表2本发明针对于TACoS数据集的测试结果。

Claims

1.利用对抗双向交互网络解决视频时间文本定位任务的方法，用于解决视频时间文本定位任务，其中视频时间文本定位任务包括用户输入的文本描述，由帧图像组成的视频，其特征在于包括如下步骤：

2.根据权利要求1所述利用对抗双向交互网络解决视频时间文本定位任务的方法，其特征在于，所述步骤1)，具体为：

对于视频时间文本定位任务中视频的每个帧图像输入到提前训练好的3维卷积网络中，获取视频的帧级别表达v＝(v₁,v₂,...,v_n)，其中v_i代表视频中的第i个帧的帧级别表达，n代表视频中的帧个数；将视频中各个帧的帧级别表达v＝(v₁,v₂,...,v_n)依次输入到双向LSTM网络中，按照如下公式计算得到视频各个帧的语义表达

其中，与分别代表双向LSTM网络中的前向LSTM网络计算与后向LSTM网络计算，与代表前向LSTM网络计算第i次循环的隐层输出与状态值，与代表后向LSTM网络计算第i次循环的隐层输出与状态值，代表视频中的第i个帧的语义表达，代表将与进行连接计算；

对于视频时间文本定位任务中的输入的文本描述，将文本描述中的各个单词利用单词映射的方式，获得文本中各个单词的映射向量s＝(s₁,s₂,...,s_m)，其中s_j代表文本中的第j个单词的映射向量，m代表文本中的单词个数；将文本中各个单词的映射向量s＝(s₁,s₂,...,s_m)依次输入到双向LSTM网络中，按照如下公式计算得到文本各个单词的语义表达

其中，与分别代表双向LSTM网络中的前向LSTM网络计算与后向LSTM网络计算，与代表前向LSTM网络计算第j次循环的隐层输出与状态值，与代表后向LSTM网络计算第j次循环的隐层输出与状态值，代表文本中的第j个单词的语义表达，代表将与进行连接计算；

其中，与代表可训练的权重矩阵，b_m代表可训练的偏置向量，代表可训练的参数向量w_m的转置，tanh()代表双曲正切函数，代表矩阵M第i行j列的元素；

其中，代表矩阵M^row的第i行j列的元素，代表矩阵M^col的第i行j列的元素，exp()代表以自然底数e为底的指数运算函数；

其中，代表矩阵M^col的转置矩阵；

其中，代表视频第i帧对应的文本指引的自注意力输出，代表将与进行连接计算；

其中，代表矩阵M^col的转置矩阵；

其中，代表文本第i个单词对应的视频指引的自注意力输出，代表将与进行连接计算；

其中，与代表可训练的权重矩阵，b_s代表可训练的偏置向量，代表可训练的参数向量w_s的转置，tanh()代表双曲正切函数，代表矩阵S第i行j列的元素；

其中，softmax(S_ij)代表对于注意力矩阵S中的第i行j列的元素S_ij计算其对应注意力矩阵S第i行所有元素计算softmax函数值；代表与视频第i帧相关的聚合文本表达，代表多模态混合表达H^f第i维的表达，W_f代表可训练的权重矩阵，b_f代表可训练的偏置向量，代表按元素相乘；

将得到的多模态混合表达依次输入到双向LSTM网络中，得到多模态上下文表达利用如下公式计算得到视频帧级别的相关程度分布p^f为n维向量，

其中，代表可训练的参数向量w_f的转置，b_f代表可训练的偏置值；

其中，pⁱⁿ代表在选取的视频目标片段内帧的联合相关程度，p^out代表在选取的视频目标片段外帧的联合负相关程度，与代表视频帧级别的相关程度分布p^f中第j维与第k维的值；

利用训练数据中真实的与文本描述相关的视频片段情况，得到真实的视频帧级别的相关程度分布其中代表视频的第i帧在真实的与文本描述相关的视频片段中，代表视频的第i帧不在真实的与文本描述相关的视频片段中；

其中log代表对数函数运算，L_i代表视频第i帧对应的损失函数值；

3.根据权利要求2所述的利用对抗双向交互网络解决视频时间文本定位任务的方法，其特征在于，所述步骤2)，具体为：

其中，为可训练的权重向量w_γ的转置；

其中，W_l、为可训练的权重矩阵，b_l、代表可训练的偏置向量，代表按元素相乘，tanh()代表双曲正切函数，σ()代表sigmoid函数计算；

其中，W_l'、为可训练的权重矩阵，b_l'、代表可训练的偏置向量，代表按元素相乘，tanh()代表双曲正切函数，σ()代表sigmoid函数计算；

其中，对于双向交互网络G_θ(v,s)训练时，训练损失函数为，

L_aux(θ)＝-log(F^f)

对于辅助判别网络D_φ(p)训练时，训练损失函数为，

L_dis(φ)＝-(log(F^gt)+log(1-F^f))。

4.根据权利要求3所述的利用对抗双向交互网络解决视频时间文本定位任务的方法，其特征在于，所述步骤3)具体为：

在对于利用对抗双向交互网络进行训练时，首先对于对抗双向交互网络中的双向交互网络G_θ(v,s)利用如下公式作为损失函数进行预训练，

其中，N代表训练数据中样本数量，L_loc(θ)代表步骤1)得到的视频时间文本定位的损失函数；

其中，N代表训练数据中样本数量，α＝5，β＝1，L_loc(θ)代表步骤1)得到的视频时间文本定位的损失函数，L_aux(θ)代表步骤3)得到的双向交互网络G_θ(v,s)的损失函数；

利用L_gen(θ)作为对抗双向交互网络中双向交互网络G_θ(v,s)的损失函数，L_dis(φ)作为对抗双向交互网络中辅助判别网络D_φ(p)的损失函数，对于对抗双向交互网络进行训练，直到对抗双向交互网络中的双向交互网络G_θ(v,s)与辅助判别网络D_φ(p)达到平衡；