CN114911930B

CN114911930B - 一种全局与局部互补的双向注意的视频问答方法与系统

Info

Publication number: CN114911930B
Application number: CN202210393827.8A
Authority: CN
Inventors: 王若梅; 罗源茂; 周凡
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2022-04-15
Filing date: 2022-04-15
Publication date: 2024-09-13
Anticipated expiration: 2042-04-15
Also published as: CN114911930A

Abstract

本发明公开了一种全局与局部互补的双向注意的视频问答方法与系统。包括：首先对数据集进行预处理，利用多头自注意力层和卷积层获取具有全局和局部上下文信息的特征，然后利用图注意机制进行聚合，最后通过将获取的特征输入答案预测模块，进行模型训练和预测。本发明利用多头自注意力机制提取完整的全局上下文信息，利用一维卷积神经网络网络提取精确的局部上下文信息，实现更加完整和精确的特征提取。同时，本发明以不同的顺序堆叠多头自注意力层和一维卷积层，使全局信息和局部信息相互补充与融合，实现了特征表示的多步推理过程。本发明通过对答案预测模块的修改，能够在多项视频问答任务中发挥作用，提高精确度，也拓展了应用场景。

Description

一种全局与局部互补的双向注意的视频问答方法与系统

技术领域

本发明涉及视频问答领域，具体涉及一种全局与局部互补的双向注意的视频问答方法与系统。

背景技术

视频问答(VideoQA)是继视频描述之后的一种细粒度的视频理解任务，相对于视频描述任务中的概括性描述，视频问答不仅需要能够理解视觉内容、文本信息与语音信息，还需要建立三种模态数据之间的联系并进行推理，使得视频问答过程比视频描述过程需要更多的细节描述信息和复杂推理过程，因此研究如何从日益增长的大量视频中提取有效信息尤为重要。视频问答方法共分为基于规则的视频问答方法与基于深度学习的视频问答方法，其中基于规则的视频问答方法最早开始于2003年，早期的视频问答方法将其作为查询内容，问题作为查询子，以检索的方式去定位相关的视频内容信息，研究的对象主要集中在新闻视频领域，并采用视频内容结构化的方式来建模视频内容，并利用HMM来构建推理机制，视频问答从视频中获取信息是重要的和有价值的，特别是因为现在有大量的视频被制作。当前的视频问答方法最早开始于2016年，研究对象主要集中在相应的数据集上，而由于视频问答因其时空特性，使得构建视频问答数据集成为一项具有挑战的任务，从而延缓了视频问答领域的进展，主要的研究方法是采用深度学习的方法来主动学习与问题相关的视频内容。近些年随着数据集的逐步完善，视频问答研究也有了新的进展。有的工作在空间注意力和时间注意力上做了探索，有的则在静态特征和动态特征融合方面有了突破，还有的拓展了视觉问答中的动态记忆网络模型。这些网络能较好地提取有用的视频信息并进行交互，取得了不错的性能。但因为该任务的复杂性，总体的性能仍有大幅度提升的空间，目前视频问答领域更多的工作仍是集中在整合视频动态时序信息以及视频多模态特征融合上。

目前的现有技术之一是由Kyung-Min Kim等人提出的一种基于多头自注意力机制的视频故事问答技术，其关键思想是使用具有晚期融合的双重注意机制。该技术使用自注意力来学习场景帧和字幕中的潜在概念。针对给定的文本问题，对这些潜在的概念再次使用注意力机制。多模态融合是在双重注意过程后进行多模态融合，以此学习从完整视频内容的抽象中推断出高级视觉语言联合表示。其缺点为：该技术基于多头自注意力机制，能够获取特征间完整的全局上下文信息，但缺少对局部上下文信息的细化。同时，该技术仅针对视频故事问答任务中，没有应用在其它丰富的视频问答任务中。

目前的现有技术之二是Liang Peng等人构建的一种共同探索对象级、帧级和剪辑级的多重视觉关系的视频问答技术，其在对象级关系编码中设计了两种互补图，一种用于学习来自同一帧的对象之间的空间关系和语义关系，另一种用于建模来自不同帧的同一对象之间的时间关系。帧级图探索了不同帧之间的交互，以记录细粒度的外观变化，而剪辑级图则模拟了剪辑中各种动作之间的时间和语义关系。这些不同层次的图以一种渐进的方式连接，以学习从低级到高级的视觉关系。其缺点为：该技术利用注意力机制，以对象级、帧级、剪辑级、视频级的次序逐步视频内容进行处理，从视频的局部信息逐步拓展到全局信息，缺少由视频全局信息向局部信息的细化步骤，也缺少了全局信息与局部信息之间的多步推理步骤。

发明内容

本发明的目的是克服现有方法的不足，提出了一种全局与局部互补的双向注意的视频问答方法。本发明解决的主要问题：一是现有技术缺乏对局部上下文信息的细化，适用性较低，应用场景受限的问题；二是现有技术缺少全局信息与局部信息之间的多步推理步骤，计算机对视频内容的理解准确度较低的问题。

为了解决上述问题，本发明提出了一种全局与局部互补的双向注意的视频问答方法，所述方法包括：

将视频问答数据集划分为训练集与测试集，从训练集中获取原始视频、相应的文本问题和答案标识；

对所述原始视频、所述文本问题进行预处理操作，获得视频的外观特征表示、运动特征表示和问题表示；

将所述问题表示进行平铺处理，获得平铺张量，将其与所述外观特征表示和所述运动特征表示对齐，形成特征表示组合；

利用多头注意力层和一维卷积层堆叠组成的全局与局部双向注意模块，对所述特征表示组合进行处理，分别获得具有全局与局部上下文信息的外观特征和运动特征；

对所述特征表示组合分别处理，构建无向全连接的外观图和运动图，利用图注意机制进行聚合操作，获得具有全局上下文信息的外观特征和运动特征；

构建答案预测模块，将所述具有全局与局部上下文信息的外观特征和运动特征，以及所述具有全局上下文信息的外观特征和运动特征进行连接，得到最终特征，并将其与所述问题表示作为预测模块的输入，进行模型训练操作，得到训练好的答案预测模型；

从所述测试集获取目标视频和问题，重复所述预处理操作，根据问题类型将处理结果输入所述训练好的答案预测模型，输出需要获取的视频问答答案。

优选地，所述将视频问答数据集划分为训练集与测试集，从训练集中获取原始视频、相应的文本问题和答案标识，具体为：

采用大型数据集TGIF-QA作为视频问答数据集，将其划分为训练集与测试集；

数据集由72000个动画gif中收集到的165000个问题—答案对组成，包含计数、动作、状态转换和帧问答四种类型的任务；

从划分的训练集中提取原始视频、相应的文本问题和答案标识。

优选地，所述对所述原始视频、所述文本问题进行预处理操作，获得视频的外观特征表示、运动特征表示和问题表示，具体为：

对所述原始视频均匀采样为128帧，并均匀分割为8个片段，每个片段包含16帧；

将获得的每个片段输入预训练的特征提取器ResNeXt，输出片段级运动向量F^m，将获得的每个帧输入预训练的特征提取器ResNet，输出帧级外观特征向量F^a；

将运动向量F^m和外观特征向量F^a输入双向循环网络BiLSTM，将正向和反向的长短词记忆模型LSTM的输出隐藏状态连接，并在时间维度上对齐两种特征，获得运动特征表示V^m和外观特征表示V^a；

利用预训练的GloVe模型将所述问题表示嵌入到300维的向量中，将与上下文无关的嵌入向量输入双向循环网络BiLSTM，然后将正向和反向LSTM的输出隐藏状态连接，获得问题表示q。

优选地，所述将所述问题表示进行平铺处理，获得平铺张量，将其与所述外观特征表示和所述运动特征表示对齐，形成特征表示组合，具体为：

将所述问题表示q复制为128份并拼接得到平铺张量q_tile；

将平铺张量q_tile的维度与所述外观特征表示V^a和所述运动特征表示V^m进行对齐，形成特征表示组合(V^a,q_tile)和(V^m,q_tile)。

优选地，所述利用多头注意力层和一维卷积层堆叠组成的全局与局部双向注意模块，对所述特征表示组合进行处理，分别获得具有全局与局部上下文信息的外观特征和运动特征，具体为：

利用多头自注意力层获取所述特征表示组合的全局上下文信息，利用一维卷积层获取所述特征表示组合的局部上下文信息；

以不同的次序堆叠多头自注意力层和一维卷积层，构建先全局后局部和先局部后全局的两种上下文信息获取子模块，连接子模块的输出，构成全局与局部双向注意模块；

将所述特征表示组合(V^a,q_tile)和(V^m,q_tile)输入全局与局部双向注意模块，输出具有全局与局部上下文信息的外观特征和运动特征

优选地，所述对所述特征表示组合分别处理，构建无向全连接的外观图和运动图，利用图注意机制进行聚合操作，获得具有全局上下文信息的外观特征和运动特征，具体为：

将所述特征表示组合(V^a,q_tile)和(V^m,q_tile)分别拼接为[V^a,q_tile]和[V^m,q_tile]，作为无向全连接外观图和运动图的节点；

计算顶点和间的相关性α_i,j，作为连接两节点的边的权值，计算公式如下：

其中，σ(·)是一个非线性函数如LeakyReLU，a是前馈神经网络的可学习参数，W^k是共享的可学习矩阵，是节点的邻接节点的集合，[·||·]表示连接操作；

利用邻接节点和边的加权聚合操作，更新节点的特征，分别获得具有全局上下文信息的外观特征和运动特征

优选地，所述构建答案预测模块，将所述具有全局与局部上下文信息的外观特征和运动特征，以及所述具有全局上下文信息的外观特征和运动特征进行连接，得到最终特征，并将其与所述问题表示作为预测模块的输入，进行模型训练操作，得到训练好的答案预测模型，具体为：

将所述具有全局与局部上下文信息的外观特征和运动特征以及具有全局上下文信息的外观特征和运动特征进行连接，得到最终特征V^f，将其与所述问题表示q作为答案预测模块的输入；

对于帧问答任务，根据多分类问题的方法计算标签概率p，使用交叉熵损失完成该任务；

对于计数任务，利用一个线性回归函数处理后进行舍入操作，使用均方差损失来完成该任务；

对于动作任务和状态转换任务，根据每组问题与候选答案的联合表示得到一个实值得分，通过正确答案得分s_p和错误答案得分s_n的铰链损失max(0，1+s_n-s_p)进行优化。

相应地，本发明还提供了一种全局与局部互补的双向注意的视频问答系统，包括：

数据集处理单元，用于将视频问答数据集划分为训练集与测试集，从训练集中获取原始视频、相应的文本问题和答案标识，并进行预处理操作；

特征获取单元，用于将预处理后的数据进行平铺处理与对齐操作，获得特征表示组合，输入全局与局部双向注意模块以及利用图注意机制进行聚合操作，获取相关特征；

模型训练与预测单元，用于将所获得的特征进行连接得到最终特征，作为预测模块的输入，并进行模型训练与最终预测。

实施本发明，具有如下有益效果：

本发明提出一种全局与局部互补的双向注意的视频问答方法。第一，本发明利用多头自注意力机制提取完整的全局上下文信息，利用一维卷积神经网络网络提取精确的局部上下文信息，实现更加完整和精确的特征提取；第二，本发明以不同的顺序堆叠多头自注意力层和一维卷积层，使全局信息和局部信息相互补充与融合，实现了特征表示的多步推理过程；第三，通过对答案预测模块的修改，本发明能够在多项视频问答任务中发挥作用，拓展了应用场景。

附图说明

图1是本发明实施例的一种全局与局部互补的双向注意的视频问答方法总体流程图；

图2是本发明实施例的一种全局与局部互补的双向注意的视频问答系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术发明进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例的一种全局与局部互补的双向注意的视频问答方法总体流程图，如图1所示，该方法包括：

S1，将视频问答数据集划分为训练集与测试集，从训练集中获取原始视频、相应的文本问题和答案标识；

S2，对所述原始视频、所述文本问题进行预处理操作，获得视频的外观特征表示、运动特征表示和问题表示；

S3，将所述问题表示进行平铺处理，获得平铺张量，将其与所述外观特征表示和所述运动特征表示对齐，形成特征表示组合；

S4，利用多头注意力层和一维卷积层堆叠组成的全局与局部双向注意模块，对所述特征表示组合进行处理，分别获得具有全局与局部上下文信息的外观特征和运动特征；

S5，对所述特征表示组合分别处理，构建无向全连接的外观图和运动图，利用图注意机制进行聚合操作，获得具有全局上下文信息的外观特征和运动特征；

S6，构建答案预测模块，将所述具有全局与局部上下文信息的外观特征和运动特征，以及所述具有全局上下文信息的外观特征和运动特征进行连接，得到最终特征，并将其与所述问题表示作为预测模块的输入，进行模型训练操作，得到训练好的答案预测模型；

S7，从所述测试集获取目标视频和问题，重复所述预处理操作，根据问题类型将处理结果输入所述训练好的答案预测模型，输出需要获取的视频问答答案。

步骤S1，具体如下：

S1-1：从视频问答数据库中提取原始视频和相应的文本问题。数据来源于大型视频问答数据集TGIF-QA，该数据集由72000个动画gif中收集到的165000个问题-答案对组成，包含四种类型的任务：计数、动作、状态转换和帧问答。

步骤S2，具体如下：

S2-1：对S1-1获得的视频均匀采样为128帧，并均匀分割为8个片段，每个片段包含16帧。通过预训练的特征提取器ResNet处理每个帧，获得帧级外观特征向量F^a。通过预训练的特征提取器ResNeXt处理每个片段，获得片段级运动向量F^m。

S2-2：使用BiLSTM进一步处理S2-1获得的F^a和F^m，将正向和反向LSTM的输出隐藏状态连接，并在时间维度上对齐两种特征，获得外观特征表示V^a和运动特征表示V^m。

S2-3：利用预训练的GloVe模型将S1-1获得的问题嵌入到300维的向量中。将这些与上下文无关的嵌入向量输入BiLSTM中。将正向和反向LSTM的输出隐藏状态连接，形成问题表示q。

步骤S3，具体如下：

S3-1：将S2生成的问题表示q复制为128份并拼接得到平铺张量q_tile，使其维度与S2-2中获得的V^a和V^m对齐，组合为(V^a,q_tile)和(V^m,q_tile)。

步骤S4，具体如下：

S4-1：利用多头自注意力层获取特征的全局上下文信息，利用一维卷积层获取特征的局部上下文信息。

S4-2：以不同的次序堆叠S4-1中构建的多头自注意力层和一维卷积层，分别构建先全局后局部和先局部后全局的两种上下文信息获取子模块，连接子模块的输出，构成全局与局部双向注意模块。

S4-3：将S3-1生成的(V^a,q_tile)和(V^m,q_tile)输入到S4-2构建的模块中，输出融合全局与局部上下文信息的外观特征和运动特征

步骤S5，具体如下：

S5-1：将S3-1生成的(V^a,q_tile)和(V^m,q_tile)分别拼接为[V^a,q_tile]和[V^m,q_tile],作为无向全连接外观图和运动图的节点。

S5-2：根据公式(1)计算顶点和间的相关性α_i,j，作为连接两节点的边的权值。

其中，σ(·)是一个非线性函数如LeakyReLU，a是前馈神经网络的可学习参数，W^k是共享的可学习矩阵，是节点的邻接节点的集合，[·||·]表示连接操作。

S5-3：利用邻接节点和边的加权聚合操作，更新节点的特征，分别获得具有全局上下文信息的外观特征和运动特征

步骤S6，具体如下：

S6-1：连接S4-3生成的和S5-3生成的得到V^f。将最终特征V^f和问题特征q作为答案预测模块的输入。

S6-2：对于帧问答任务，根据多分类问题的方法计算标签概率p，使用交叉熵损失完成该任务。

S6-3：对于计数任务，利用一个线性回归函数处理后进行舍入操作，使用均方差损失(MSE)来完成该任务。

S6-4：对于动作任务和状态转换任务，根据每组问题与候选答案的联合表示得到一个实值得分，通过正确答案得分s_p和错误答案得分s_n的铰链损失max(0，1+s_n-s_p)进行优化。

步骤S7，具体如下：

S7-1：从视频问答数据集的测试集中获得需要处理的视频和问题，利用S2-1，S2-2，S2-3的处理过程，对视频和问题进行编码，根据问题类型输入相应的模型中，输出理解视频内容后对问题的回答。

相应地，本发明还提供了一种全局与局部互补的双向注意的视频问答系统，如图2所示，包括：

数据集处理单元1，用于将视频问答数据集划分为训练集与测试集，从训练集中获取原始视频、相应的文本问题和答案标识，并进行预处理操作。

具体地，将视频问答数据集划分为训练集与测试集，从训练集中获取原始视频、相应的文本问题和答案标识，进行预处理操作，获得视频的外观特征表示、运动特征表示和问题表示，然后进行平铺处理，获得平铺张量，将其与所述外观特征表示和所述运动特征表示对齐，形成特征表示组合。

特征获取单元2，用于将预处理后的数据进行平铺处理与对齐操作，获得特征表示组合，输入全局与局部双向注意模块以及利用图注意机制进行聚合操作，获取相关特征。

具体地，利用多头注意力层和一维卷积层堆叠组成的全局与局部双向注意模块，对特征表示组合进行处理，分别获得具有全局与局部上下文信息的外观特征和运动特征，对特征表示组合分别处理，构建无向全连接的外观图和运动图，利用图注意机制进行聚合操作，获得具有全局上下文信息的外观特征和运动特征。

模型训练与预测单元3，用于将所获得的特征进行连接得到最终特征，作为预测模块的输入，并进行模型训练与最终预测。

具体地，构建答案预测模块，将具有全局与局部上下文信息的外观特征和运动特征，以及具有全局上下文信息的外观特征和运动特征进行连接，得到最终特征，并将其与问题表示作为预测模块的输入，进行模型训练操作，得到训练好的答案预测模型，从测试集获取目标视频和问题，重复预处理操作，根据问题类型将处理结果输入训练好的答案预测模型，输出需要获取的视频问答答案。

因此，本发明首先对数据集进行预处理，利用多头自注意力层获取特征的全局上下文信息，利用一维卷积层获取特征的局部上下文信息。以不同的次序堆叠多头自注意力层和一维卷积层，分别构建先全局后局部和先局部后全局的两种上下文信息获取子模块，连接子模块的输出，构成全局与局部双向注意模块。使用该模块处理初步提取的外观特征和运动特征，输出融合全局与局部上下文信息的外观特征和运动特征。然后，将外观特征、运动特征与问题表示分别拼接，作为无向全连接外观图和运动图中的节点，并计算节点间的相关性，作为连接两节点的边的权值。利用邻接节点和边的加权聚合操作，更新节点的特征，分别获得具有全局上下文信息的外观特征和运动特征。最后构建答案预测模块，将获取的特征输入，进行模型训练和预测。

以上对本发明实施例所提供的一种全局与局部互补的双向注意的视频问答方法与系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种全局与局部互补的双向注意的视频问答方法，其特征在于，所述方法包括：

2.如权利要求1所述的一种全局与局部互补的双向注意的视频问答方法，其特征在于，所述将视频问答数据集划分为训练集与测试集，从训练集中获取原始视频、相应的文本问题和答案标识，具体为：

数据集由72000个动画gif中收集到的165000个问题-答案对组成，包含计数、动作、状态转换和帧问答四种类型的任务；

3.如权利要求2所述的一种全局与局部互补的双向注意的视频问答方法，其特征在于，所述对所述原始视频、所述文本问题进行预处理操作，获得视频的外观特征表示、运动特征表示和问题表示，具体为：

4.如权利要求3所述的一种全局与局部互补的双向注意的视频问答方法，其特征在于，所述将所述问题表示进行平铺处理，获得平铺张量，将其与所述外观特征表示和所述运动特征表示对齐，形成特征表示组合，具体为：

将所述问题表示q复制为128份并拼接得到平铺张量q_tile；

5.如权利要求4所述的一种全局与局部互补的双向注意的视频问答方法，其特征在于，所述利用多头注意力层和一维卷积层堆叠组成的全局与局部双向注意模块，对所述特征表示组合进行处理，分别获得具有全局与局部上下文信息的外观特征和运动特征，具体为：

6.如权利要求4所述的一种全局与局部互补的双向注意的视频问答方法，其特征在于，所述对所述特征表示组合分别处理，构建无向全连接的外观图和运动图，利用图注意机制进行聚合操作，获得具有全局上下文信息的外观特征和运动特征，具体为：

将所述特征表示组合(V^a,q_tile)和(V^m,q_tile)分别拼接为[V^a,q_tile]和

[V^m,q_tile]，作为无向全连接外观图和运动图的节点；

7.如权利要求5或6所述的一种全局与局部互补的双向注意的视频问答方法，其特征在于，所述构建答案预测模块，将所述具有全局与局部上下文信息的外观特征和运动特征，以及所述具有全局上下文信息的外观特征和运动特征进行连接，得到最终特征，并将其与所述问题表示作为预测模块的输入，进行模型训练操作，得到训练好的答案预测模型，具体为：

8.一种全局与局部互补的双向注意的视频问答系统，其特征在于，所述系统包括：

数据集处理单元，用于将视频问答数据集划分为训练集与测试集，从训练集中获取原始视频、相应的文本问题和答案标识；对所述原始视频、所述文本问题进行预处理操作，获得视频的外观特征表示、运动特征表示和问题表示；将所述问题表示进行平铺处理，获得平铺张量，将其与所述外观特征表示和所述运动特征表示对齐，形成特征表示组合；

特征获取单元，用于利用多头注意力层和一维卷积层堆叠组成的全局与局部双向注意模块，对所述特征表示组合进行处理，分别获得具有全局与局部上下文信息的外观特征和运动特征；对所述特征表示组合分别处理，构建无向全连接的外观图和运动图，利用图注意机制进行聚合操作，获得具有全局上下文信息的外观特征和运动特征；

模型训练与预测单元，用于构建答案预测模块，将所述具有全局与局部上下文信息的外观特征和运动特征，以及所述具有全局上下文信息的外观特征和运动特征进行连接，得到最终特征，并将其与所述问题表示作为预测模块的输入，进行模型训练操作，得到训练好的答案预测模型；从所述测试集获取目标视频和问题，重复所述预处理操作，根据问题类型将处理结果输入所述训练好的答案预测模型，输出需要获取的视频问答答案。