CN114936297B

CN114936297B - 一种基于先验知识和对象敏感的视频问答方法

Info

Publication number: CN114936297B
Application number: CN202210661707.1A
Authority: CN
Inventors: 许辉; 曾鹏鹏; 张浩楠; 赵磊; 宋井宽
Original assignee: Sichuan Artificial Intelligence Research Institute Yibin
Current assignee: Sichuan Artificial Intelligence Research Institute Yibin
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2023-03-14
Anticipated expiration: 2042-06-10
Also published as: CN114936297A

Abstract

本发明公开了一种基于先验知识和对象敏感的视频问答方法，首先提出了一种新的先验知识探索方式，即先验知识探索网络PKE，它以信息检索的方式引入了先验知识，以促进视频问答模型的推理能力；同时，PKE还可以通过将检索到的句子作为推理的证据来提供额外的可解释性。本发明还提出了一种新的对象敏感表示学习范式，即对象敏感表征网络ORL，它探索了跨空间和时间域的语义丰富的对象表示；该范式充分考虑了结构化的视觉信息，更符合人类注意机制的本质。本发明解决了传统基于注意力的视频问答方法难以模拟人类认知推理、忽略结构化视觉信息导致的视频分析推理能力差、答案预测不准确等问题。

Description

一种基于先验知识和对象敏感的视频问答方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于先验知识和对象敏感的视频问答方法的设计。

背景技术

近年来，随着深度神经网络的快速发展和图像文本等多媒体数据的爆炸式增长，图像描述、图文匹配等多模态技术已经日趋成熟，并被广泛应用于各个领域。但是，相较于静态的图像数据，视频数据因其存在大量时间线索和具备丰富外观和运动信息等特点，使得基于视频的多模态技术存在难以处理密集的时序信息，缺乏语义推理能力等问题，而未能得到广泛的支持和应用。

其中，视频问答任务是一种功能性较强，应用前景广泛的视频多模态技术，它利用用户提出的一段文本问题，对视频内容进行表征学习和逻辑推理，通过进一步完成文本和视觉模态信息之间的语义对齐，最终给出正确的答案。由于视频问答技术满足了“用户提问，模型回答”的人机交互范式，因此该研究有助于在线教育、情景分析、视觉障碍辅助等领域的发展。

近年来，学习视频问答技术的一种主流解决方案是注意力机制，它旨在发现那些关键的视觉内容，以提高答案的预测准确度，例如位置自注意力、层级注意力、基于图网络的注意力等。视频问答的性能已经通过各种功能的注意力机制得到了显著的提高，然而，基于注意力的方法存在两个问题。首先，这些方法局限于探索视频和问题本身的信息，而未考虑先验性的知识信息，这与人类认知过程的本质并不一致。具体地，当被问及视频内容相关的问题时，人类会习惯性地从大脑中检索积累的经验性信息，作为推理过程中的指导；然而目前的视频问答方法并未涉及这一论点，造成模型认知能力不足，生成答案过于简单等问题。其次，基于注意力的方法主要关注那些问题引导下重要的视频外观或动作特征，而未能捕捉到帧内部各种对象区域的特定信息，导致这些方法忽略了结构化视频信息，对视频中的物体不敏感。实际上，与对象相关的问题广泛分布在视频问答数据集当中。在回答与物体相关的问题时，人类通常会关注视频中那些显著性物体区域，而不是视频整体。

发明内容

本发明的目的是为了解决传统基于注意力的视频问答方法难以模拟人类认知推理、忽略结构化视觉信息导致视频分析推理能力差的问题，提出了一种基于先验知识和对象敏感的视频问答方法。

本发明的技术方案为：一种基于先验知识和对象敏感的视频问答方法，包括以下步骤：

S1、在先验知识探索网络PKE中构建一个先验知识检索器，基于当前输入先验知识探索网络PKE的视频和问题，从文本语料库中搜索与视频和问题相关的描述性语句作为先验知识。

S2、在问题的引导下，采用注意力机制，将先验知识与问题进行加权融合，得到知识感知的表征向量。

S3、将知识感知的表征向量和视频特征输入对象敏感表征网络ORL中，进行跨空间域和跨时间域的对象表示学习，得到对象敏感的表征向量。

S4、采用非线性映射，将知识感知的表征向量和对象敏感的表征向量进行融合，并送入分类器中得到候选答案的概率分布，计算分类损失。

进一步地，步骤S1包括以下分步骤：

S11、将视频外观特征

视频运动特征

问题向量q和文本语料库输入先验知识探索网络PKE中；其中

表示视频外观特征V^a中第l个特征向量，L表示视频外观特征V^a中的特征向量总数，

表示视频运动特征V^m中第j个特征向量，C表示视频运动特征V^m中的特征向量总数，L≥C。

S12、在先验知识探索网络PKE中采用自注意力机制的方法，分别对视频外观特征V^a和视频运动特征V^m进行聚合操作，剔除其中包含的冗余信息，得到增强后的全局外观特征

和全局运动特征

其中Agg(·)表示聚合操作，α_l表示

的注意力分数，α_j表示

的注意力分数，W₁为可学习的参数。

S13、在先验知识探索网络PKE中构建一个先验知识检索器，将全局外观特征

全局运动特征

和问题向量q进行相加取均值，得到检索键值x：

S14、计算检索键值x与文本语料库中所有句子的余弦相似度：

sim(s,x)＝s^Tx

其中sim(·)表示余弦相似度，s表示文本语料库中的一个句子向量，T表示向量转置。

S15、对检索键值x与文本语料库中所有句子的余弦相似度进行排序，得到topk个与检索键值x最相似的句子向量Z＝{z₁,...,z_topk}，并将其作为先验知识。

进一步地，步骤S2具体为：

在先验知识探索网络PKE中，基于问题引导的注意力模块，利用乘法注意力机制将先验知识Z与问题向量q进行加权融合，得到知识感知的表征向量

其中FC(·)表示全连接层，[；]为特征拼接操作，

表示将topk个句子向量进行加权求和后得到的全局知识表征，β_i为句子向量z_i的注意力分数，

为哈达玛乘积，W₂，W₃，W₄均为可学习参数。

进一步地，步骤S3包括以下分步骤：

S31、将知识感知的表征向量

视频外观特征V^a和视频运动特征V^m输入对象敏感表征网络ORL中。

S32、在对象敏感表征网络ORL中，通过知识引导的聚合模块使用注意力机制将知识感知的表征向量

别与视频外观特征V^a和视频运动特征V^m进行模态交互，得到知识感知的外观特征

和知识感知的动作特征

其中ATT(·)表示模态交互，

表示知识感知的外观特征

中第l个特征向量，

表示每一帧外观特征对先验知识的权重值，

表示知识感知的动作特征

中第j个特征向量，

表示每一帧运动特征对先验知识的权重值，W₅，W₆，W₇均为可学习参数。

S33、在对象敏感表征网络ORL中，通过物体敏感的注意力模块将原始对象特征

分别与知识感知的外观特征

和知识感知的动作特征

进行模态交互，得到基于外观的对象特征

和基于运动的对象特征

其中o_l表示始对象特征O的第l个特征向量，U(·)表示物体敏感的注意力机制。

S34、在对象敏感表征网络ORL中，通过知识引导的注意力模块将知识感知的表征向量

分别与基于外观的对象特征

和基于运动的对象特征

进行融合，再分别与全局外观特征

和全局运动特征

进行特征拼接，得到对象敏感的表征向量

和

其中F(·)表示知识引导的注意力机制。

进一步地，步骤S4中得到的候选答案的概率分布为：

其中p表示问题向量q的候选答案概率。

进一步地，步骤S4中分类损失的计算公式为：

其中L_cls表示分类损失，p_i表示分类器对第i个答案的概率值，y_i表示第i个答案的真实标签，||表示答案候选集中答案的数量。

本发明的有益效果是：

(1)本发明首次提出了一种新的先验知识探索方式，即先验知识探索网络PKE，它以信息检索的方式引入了先验知识，以促进视频问答模型的推理能力。同时，PKE还可以通过将检索到的句子作为推理的证据来提供额外的可解释性。

(2)本发明提出了一种新的对象敏感表示学习范式，即对象敏感表征网络ORL，它探索了跨空间和时间域的语义丰富的对象表示；该范式充分考虑了结构化的视觉信息，更符合人类注意机制的本质。

附图说明

图1所示为本发明实施例提供的一种基于先验知识和对象敏感的视频问答方法流程图。

图2所示为本发明实施例提供的一种基于先验知识和对象敏感的视频问答方法框架图。

图3所示为本发明实施例提供的现有视频问答方法与本发明方法的结果对比示意图。

具体实施方式

现在将参考附图来详细描述本发明的示例性实施方式。应当理解，附图中示出和描述的实施方式仅仅是示例性的，意在阐释本发明的原理和精神，而并非限制本发明的范围。

本发明实施例提供了一种基于先验知识和对象敏感的视频问答方法，如图1和图2共同所示，包括以下步骤S1～S4：

如图2所示，步骤S1包括以下分步骤S11～S15：

S11、将视频外观特征

视频运动特征

问题向量q和文本语料库输入先验知识探索网络PKE中；其中

和全局运动特征

其中Agg(·)表示聚合操作，α_l表示

的注意力分数，α_j表示

的注意力分数，W₁为可学习的参数。

全局运动特征

和问题向量q进行相加取均值，得到检索键值x：

S14、计算检索键值x与文本语料库中所有句子的余弦相似度：

sim(s,x)＝s^Tx

如图2所示，本发明实施例中，在先验知识探索网络PKE中，基于问题引导的注意力模块，利用乘法注意力机制将先验知识Z与问题向量q进行加权融合，得到知识感知的表征向量

其中FC(·)表示全连接层，[；]为特征拼接操作，

为哈达玛乘积，W₂，W₃，W₄均为可学习参数。

如图2所示，步骤S3包括以下分步骤S31～S34：

S31、将知识感知的表征向量

分别与视频外观特征V^a和视频运动特征V^m进行模态交互，得到知识感知的外观特征

和知识感知的动作特征

其中ATT(·)表示模态交互，

表示知识感知的外观特征

中第l个特征向量，

表示每一帧外观特征对先验知识的权重值，

表示知识感知的动作特征

中第j个特征向量，

分别与知识感知的外观特征

和知识感知的动作特征

进行模态交互，得到基于外观的对象特征

和基于运动的对象特征

分别与基于外观的对象特征

和基于运动的对象特征

进行融合，再分别与全局外观特征

和全局运动特征

进行特征拼接，得到对象敏感的表征向量

和

其中F(·)表示知识引导的注意力机制。

本发明实施例中，候选答案的概率分布为：

其中p表示问题向量q的候选答案概率。

分类损失的计算公式为：

下面结合两个具体实验例对本发明的技术效果作进一步描述。

实验例一：

设置实验条件为：系统：Ubuntu 20.04，软件：Python 3.6，处理器：Intel(R)Xeon(R)CPU E5-2678 v3@2.50GHz×2，内存：256GB。

实验内容：利用目前已有的视频问答方法和本发明提供的基于先验知识和对象敏感的视频问答方法进行对比，将原始视频特征和对应的问题特征作为输入，给出对应的答案预测。进一步地，本发明提供的基于先验知识和对象敏感的视频问答方法为每个样例给出从语料库中检索得到的top3描述句子，结果如附图3所示。

实验结果分析：从图3可以看出，本发明提供的基于先验知识和对象敏感的视频问答方法预测的答案相比于现有视频问答方法更加准确，且更加符合视频中物体的语义内容。进一步地，从检索到的前3个句子可视化效果来看，本发明提出的PKE网络可以为模型提供充足的先验知识信息，来解释模型背后的推理过程，从而进一步证明了PKE的有效性和可解释性。

实验例二：

实验条件：系统：Ubuntu 20.04，软件：Python 3.6，处理器：Intel(R)Xeon(R)CPUE5-2678v3@2.50GHz×2，内存：256GB。

测试说明：实验中所使用的数据集都是以视频文本对的形式存在的，即一段视频对应若干个问题。具体地，依次使用每种算法对数据集中的训练集进行训练。训练完毕后，分别用每种算法对该数据集测试集上真实视频和问题进行预测，得到预测答案。

在实验中将测试集随机划分为若干个批次，每个批次包括了64个视频问题对(v,q)。

(1)考察预测的总体预测准确度：

对于每种算法，按批次将视频问题对送入模型进行训练，在测试集上计算模型对于每个样本的输出和真实标签是否一致，统计所有测试集样本，得到总体模型准确度ALL。

(2)考察具体问题类型的预测准确度：

数据集MSVD-QA和MSRVTT-QA中的问题类型分布包括5种：What，Who，How，When和Where。对于每种算法，分别统计5种问题类型的答案预测准确度。

(3)考察对于不同视频预测任务的预测准确度：

数据集TGIF-QA提供四种类型的任务：动作重复计数(Count)、帧内问答(FrameQA)、状态转换(Trans)以及重复动作(Action)。重复计数(Count)是一个开放任务，具体回答关于视频中一个动作的重复次数。帧内问答(FrameQA)的目标是在视频中找到一个能够回答问题的特定帧。状态转换(Trans)是一个多项选择任务，用于识别发生在另一个动作状态之前(或之后)的动作。重复动作(Action)被定义为一个识别在视频中的重复动作任务。以上四种任务的预测准确度计算均和(1)中所述一致。

表1

表2

表3

通过表1、表2和表3的数据分析对比，可以得知本发明提供的基于先验知识和对象敏感的视频问答方法预测答案的能力更优，这些结果验证了先验知识探索和对象敏感表示学习的有效性。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。