CN109902164B

CN109902164B - 利用卷积双向自注意网络解决开放长格式视频问答的方法

Info

Publication number: CN109902164B
Application number: CN201910167951.0A
Authority: CN
Inventors: 璧垫床; 赵洲
Original assignee: Hangzhou Yizhi Intelligent Technology Co ltd
Current assignee: Hangzhou Yizhi Intelligent Technology Co ltd
Priority date: 2019-03-06
Filing date: 2019-03-06
Publication date: 2020-12-18
Anticipated expiration: 2039-03-06
Also published as: CN109902164A

Abstract

本发明公开了一种利用卷积双向自注意网络解决开放长格式视频问答的方法，主要包括如下步骤：1)设计一种卷积双向自注意网络模型来获取开放长格式视频问答的相关答案；2)训练得到最终的卷积双向自注意网络模型，利用该模型生成长格式视频问答任务的答案。相比于一般的视频问答任务解决方案，本发明利用了卷积自注意力机制，能够更好地完成开放长格式视频问答任务。本发明在开放长格式视频问答任务中所取得的效果相比于传统的方法更好。

Description

利用卷积双向自注意网络解决开放长格式视频问答的方法

技术领域

本发明涉及开放长格式视频问答任务，尤其涉及一种利用卷积双向自注意网络解决开放长格式视频问答的方法。

背景技术

开放长格式视频问答任务是一项十分有挑战性的任务，目前吸引了很多人的关注。在该任务中需要系统针对于某个特定视频，回答用户提出的问题，并且用户的提问对象一般是较长的视频，用户提出的问题也是较长的自然语言文本。目前开放长格式视频问答任务的研究仍处于探索阶段。对于开放长格式视频问答任务的研究可以应用于众多领域之中。

目前已有的视频问答任务解决方法一般是关注解决短格式视频问答任务，对于开放长格式视频问答任务关注较少。传统的短格式视频问答任务解决方法，主要是利用多模态循环编解码器网络。这种方法由于缺乏对长格式视频内容中长格式语义依赖关系的建模，对开放长格式视频问答任务的解决效果不好。

为了解决上述问题，本发明利用卷积双向自注意网络来解决开放长格式视频问答任务，提高开放长格式视频问答任务形成答案文本的准确性。

发明内容

本发明的目的在于解决现有技术中的问题，为了克服现有技术由于缺乏对长格式视频内容中长格式语义依赖关系的建模，对开放长格式视频问答任务的解决效果不好的问题，本发明提供一种利用卷积双向自注意网络解决开放长格式视频问答的方法。本发明所采用的具体技术方案是：

利用卷积双向自注意网络解决开放长格式视频问答的方法，包含如下步骤：

1.设计一种堆叠卷积序列模型，利用该堆叠卷积序列模型获得帧级别的视频语义表达与单词级别的问题语义表达。

2.设计一种双向问题自注意力模型，利用该双向问题自注意力模型结合步骤1中获取的帧级别的视频语义表达与单词级别的问题语义表达，获取最终多流视频语义表达。

3.设计卷积多步骤注意力解码器网络模型，利用该卷积多步骤注意力解码器网络模型结合步骤2获取的最终多流视频语义表达，得到开放长格式视频问答的结果。

上述步骤可具体采用如下实现方式：

对于输入堆叠卷积序列模型的序列，需要与位置时间信号相加，获得带有位置信息的输入序列，位置时间信号计算方法如下列公式所示，

其中，t代表计算位置时间信号中的第t个元素，i代表位置时间信号中的第t个元素的维度索引，timing(t,2i)代表位置时间信号中的第 t个元素的偶数位置2i取值的计算取值方法，timing(t,2i+1)代表位置时间信号中的第t个元素的奇数位置2i+1取值的计算取值方法，d代表位置时间信号中的每个位置元素的维度。

对于开放长格式视频问答任务的视频帧，利用训练好的ConvNet 网络获取视频中的帧表达特征v＝{v₁,v₂,...,v_n}，其中n代表视频中含有的视频帧个数。将获取的视频中的帧表达特征v＝{v₁,v₂,...,v_n}与计算得到的视频元素位置时间信号相加，获得带有位置信息的视频帧表达 v＝{v₁',v₂',...,v_n'}。

对于开放长格式视频问答任务的问题文本，输入到文本编码网络中，获取单词级别的问题表达q＝(q₁,q₂,...,q_r)，其中r代表问题中含有的单词个数。将获取的单词级别的问题表达q＝(q₁,q₂,...,q_r)与计算得到的问题文本元素位置时间信号相加，获得带有位置信息的问题文本表达q＝{q₁',q₂',...,q_n'}。

对于堆叠卷积序列模型中第l个卷积序列层，其输入序列表达为

输出序列表达为

输入序列表达按照如下公式计算得到输出序列表达，

其中，A代表2d维向量[A,B]中的前d维度元素值构成的向量，B 代表2d维向量[A,B]中的后d维度元素值构成的向量，

代表按元素相乘操作，δ()代表sigmoid函数计算。

将获得的带有位置信息的视频帧表达v＝{v₁',v₂',...,v_n'}输入到L层堆叠的卷积序列模型中，上一层堆叠的卷积序列模型的输出作为下一层堆叠的卷积序列模型的输入，获得帧级别的视频语义表达

将获得的带有位置信息的问题文本表达q＝{q₁',q₂',...,q_n'}输入到K 层堆叠的卷积序列模型中，上一层堆叠的卷积序列模型的输出作为下一层堆叠的卷积序列模型的输入，获得单词级别的问题语义表达

利用得到的帧级别的视频语义表达

与单词级别的问题语义表达

按照如下公式计算得到视频问题注意力矩阵S，

其中，

代表可训练的参数矩阵，b_s代表可训练的偏置向量，

代表参数向量w_s的转置，

代表视频问题注意力矩阵S中的第i行第j列的值。按照如下公式计算得到自注意力矩阵D，

D＝S·S^T

利用得到的自注意力矩阵D，分别加上正向位置矩阵M^fw与负向位置矩阵M^bw，得到正向自注意力分数矩阵D^fw与负向自注意力分数 D^bw，正向位置矩阵M^fw与负向位置矩阵M^bw的元素

与

取值如下，

利用得到的正向自注意力分数矩阵D^fw与负向自注意力分数D^bw，及帧级别的视频语义表达

按照如下公式计算得到视频每一帧的正向自注意力表达

与视频每一帧的负向自注意力表达

利用得到的视频每一帧的正向自注意力表达

视频每一帧的负向自注意力表达

与帧级别的视频语义表达

利用如下计算方法，得到最终多流视频语义表达

其中W_f、W_g为可训练的参数矩阵，b_f、b_g为可训练的参数偏置向量，δ()代表sigmoid函数计算，

代表按元素相乘操作。

设计一种卷积多步骤注意力解码器网络模型，该卷积多步骤注意力解码器网络模型由Z个卷积注意力序列层堆叠而成，其中，第z 个卷积注意力序列层的输入为序列表达

利用如下公式计算得到第z个卷积注意力序列层中卷积层的输出

代表按元素相乘操作。

利用得到的单词级别的问题语义表达

进行平均池化操作后得到全局问题表达h^Q，利用得到的第z个卷积注意力序列层中卷积层的输出

平均池化操作后得到全局问题表达h^Q与最终多流视频语义表达

按照如下公式计算得到第z个卷积注意力序列层中注意力层的输出

其中，

为可训练的参数矩阵，b_z为可训练的参数偏置向量，

为第z个卷积注意力序列层中注意力层的输出

中第i个向量。

利用如上方法，经过Z个卷积注意力序列层堆叠而成的卷积多步骤注意力解码器网络模型，得到卷积多步骤注意力解码器网络模型的输出

按照如下公式计算得到所预测答案每个步骤的单词输出，

其中，W_a代表可训练的权重矩阵，b_a代表可训练的偏置向量。

代表所预测答案中第i个单词

的取值概率，将预测概率分数高的单词取出作为所预测答案中的第i个单词。

按照如下公式作为整个模型的训练函数，训练获得最终的卷积双向自注意网络，

利用训练得到的卷积双向自注意网络，输入开放长格式视频问答任务中的视频及问题，可以获得开放长格式视频问答任务的预测答案。

附图说明

图1是根据本发明的一实施例的用于解决开放长格式视频问答任务的卷积双向自注意网络的整体示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

如图1所示，本发明利用卷积双向自注意网络解决开放长格式视频问答的方法包括如下步骤：

1)设计一种堆叠卷积序列模型，利用该堆叠卷积序列模型获得帧级别的视频语义表达与单词级别的问题语义表达；

2)设计一种双向问题自注意力模型，利用该双向问题自注意力模型结合步骤1)中获取的帧级别的视频语义表达与单词级别的问题语义表达，获取最终多流视频语义表达；

3)设计卷积多步骤注意力解码器网络模型，利用该卷积多步骤注意力解码器网络模型结合步骤2)获取的最终多流视频语义表达，得到开放长格式视频问答的结果。

所述步骤1)，其具体步骤为:

输出序列表达为

输入序列表达按照如下公式计算得到输出序列表达，

代表按元素相乘操作，δ()代表sigmoid函数计算。

所述步骤2)，其具体步骤为:

利用得到的帧级别的视频语义表达

与单词级别的问题语义表达

按照如下公式计算得到视频问题注意力矩阵S，

其中，

代表可训练的参数矩阵，b_s代表可训练的偏置向量，

代表参数向量w_s的转置，

D＝S·S^T

与

取值如下，

按照如下公式计算得到视频每一帧的正向自注意力表达

与视频每一帧的负向自注意力表达

利用得到的视频每一帧的正向自注意力表达

视频每一帧的负向自注意力表达

与帧级别的视频语义表达

利用如下计算方法，得到最终多流视频语义表达

代表按元素相乘操作。

所述步骤3)，其具体步骤为:

代表按元素相乘操作。

利用得到的单词级别的问题语义表达

其中，

为可训练的参数矩阵，b_z为可训练的参数偏置向量，

为第z个卷积注意力序列层中注意力层的输出

中第i个向量。

按照如下公式计算得到所预测答案每个步骤的单词输出，

代表所预测答案中第i个单词

下面将上述方法应用于下列实施例中，以体现本发明的技术效果，实施例中具体步骤不再赘述。

实施例

本发明在ActivityNet实验数据集上进行实验。ActivityNet实验数据集的问题被分为“对象(object)”、“数字(number)”、“颜色(color)”、“地点(location)”、“动作(action)”五类，为了客观地评价本发明的算法的性能，本发明在所选出的测试集中，对每种问题分别采用了准确度(Accuracy),Wu-Palmer相似性@0.9 (WUPS@0.9),Wu-Palmer相似性@0.0(WUPS@0.0)方法来对本发明的效果进行评价。按照具体实施方式中描述的步骤，所得的实验结果如表1-3所示，本方法表示为CBSA：

表1本发明针对于准确度(Accuracy)的测试结果

表2本发明针对于Wu-Palmer相似性@0.9(WUPS@0.9)的测试结果

表3本发明针对于Wu-Palmer相似性@0.0(WUPS@0.0)的测试结果

Claims

1.利用卷积双向自注意网络解决开放长格式视频问答的方法，其特征在于，包括如下步骤：

对于输入堆叠卷积序列模型的序列，与位置时间信号相加，获得带有位置信息的输入序列；对于开放长格式视频问答任务的视频帧，利用训练好的ConvNet网络获取视频中的帧表达特征以及带有位置信息的视频帧表达；对于开放长格式视频问答任务的问题文本，输入到文本编码网络中，获取单词级别的问题表达以及带有位置信息的问题文本表达；将获得的带有位置信息的视频帧表达输入到L层的堆叠卷积序列模型中，上一层堆叠卷积序列模型的输出作为下一层堆叠卷积序列模型的输入，获得帧级别的视频语义表达；将获得的带有位置信息的问题文本表达输入到K层堆叠卷积序列模型中，上一层堆叠卷积序列模型的输出作为下一层堆叠的卷积序列模型的输入，获得单词级别的问题语义表达；

给定计算方式，利用得到的帧级别的视频语义表达与单词级别的问题语义表达计算得到视频问题注意力矩阵，并进一步获取正向自注意力分数矩阵和负向注意力分数矩阵，通过给定计算方式基于视频每一帧的正向自注意力表达、视频每一帧的负向注意力表达与帧级别的视频语义表达获得最终多流视频语义表达；

3)设计卷积多步骤注意力解码器网络模型，利用该卷积多步骤注意力解码器网络模型结合步骤2)获取的最终多流视频语义表达，得到开放长格式视频问答的结果；

其中卷积多步骤注意力解码器网络模型由Z个卷积注意力序列层堆叠而成，利用得到的单词级别的问题语义表达进行平均池化操作后得到全局问题表达，利用得到的第z个卷积注意力序列层中卷积层的输出、平均池化操作后得到全局问题表达与最终多流视频语义表达，按照设定公式计算得到第z个卷积注意力序列层中注意力层的输出，经过Z个卷积注意力序列层堆叠而成的卷积多步骤注意力解码器网络模型，得到卷积多步骤注意力解码器网络模型的输出，按照设定公式计算得到所预测答案每个步骤的单词输出，按照设定公式作为整个模型的训练函数，训练得到卷积双向自注意网络。

2.根据权利要求1所述的利用卷积双向自注意网络解决开放长格式视频问答的方法，其特征在于，所述步骤1)具体为：

位置时间信号计算方法如下列公式所示，

其中，t代表计算位置时间信号中的第t个元素，i代表位置时间信号中的第t个元素的维度索引，timing(t,2i)代表位置时间信号中的第t个元素的偶数位置2i取值的计算取值方法，timing(t,2i+1)代表位置时间信号中的第t个元素的奇数位置2i+1取值的计算取值方法，d代表位置时间信号中的每个位置元素的维度；

帧表达特征为v＝{v₁,v₂,...,v_n}，其中n代表视频中含有的视频帧个数；将获取的视频中的帧表达特征v＝{v₁,v₂,...,v_n}与计算得到的视频元素位置时间信号相加，获得带有位置信息的视频帧表达v＝{v₁',v₂',...,v_n'}；

单词级别的问题表达为q＝(q₁,q₂,...,q_r)，其中r代表问题中含有的单词个数；将获取的单词级别的问题表达q＝(q₁,q₂,...,q_r)与计算得到的问题文本元素位置时间信号相加，获得带有位置信息的问题文本表达q＝{q₁',q₂',...,q_n'}；