CN112860847B

CN112860847B - 视频问答的交互方法及系统

Info

Publication number: CN112860847B
Application number: CN202110069976.4A
Authority: CN
Inventors: 刘静; 王卫宁; 刘飞; 卢汉清
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Zhongke Zidong Taichu (Beijing) Technology Co.,Ltd.
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2022-08-19
Anticipated expiration: 2041-01-19
Also published as: CN112860847A

Abstract

本发明涉及一种视频问答的交互方法及系统，所述交互方法包括：从待处理的原始视频及与问题文本中，得到文本特征以及各帧图像中多个目标的第一视觉特征及第一语义特征；针对每帧图像中的每一目标，根据文本特征以及目标的第一视觉特征及第一语义特征，确定目标的第二视觉特征及第二语义特征；根据文本特征、目标的第二视觉特征及第二语义特征，得到该帧图像的第一全局视觉表示及第一全局语义表示；根据文本特征及各帧图像的第一全局视觉表示及第一全局语义表示，得到各帧图像的全局视觉表示；根据文本特征及各帧图像的全局视觉表示，得到原始视频的全局视觉特征表示；根据所述全局视觉特征表示及文本特征，可准确得到所述原始视频的问题答案。

Description

视频问答的交互方法及系统

技术领域

本发明涉及计算机视觉和自然语言处理技术领域，特别涉及一种基于层级视觉-语义图记忆网络的视频问答的交互方法及系统。

背景技术

视频问答任务是一个跨越计算机视觉和自然语言处理领域的交叉学科。该任务旨在根据视频内容来回答相应的问题，涉及到许多计算机技术，包括视频目标识别、信息检索、关系推理等。这些都需要机器能够理解视频内容，因而视频理解是该任务的核心问题。视频问答在实际中有许多应用，比如自动救援搜索、辅助视觉障碍患者、智能家居管理等。

为了能更好的理解视频内容，机器必须理解视频帧中目标之间的关系以及视频帧之间的关系，因而关系的推理建模是视频理解的核心。目前的方法存在两个重要的缺陷：第一，这些现有方法要么只建模目标级别的关系，要么只建模视频帧级别的关系，没有去联合地建模这两类关系；第二，这些现有方法只考虑视觉关系的推理和建模，忽视了利用语义知识来建模语义关系。这些缺陷严重地限制了机器对视频的理解程度，从而影响问答的准确性。

发明内容

为了解决现有技术中的上述问题，即为了提高针对视频问题的答案的准确性，本发明的目的在于提供一种视频问答的交互方法及系统。

为解决上述技术问题，本发明提供了如下方案：

一种视频问答的交互方法，所述交互方法包括：

从待处理的原始视频及与所述原始视频对应的问题文本中，得到文本特征以及各帧图像中多个目标的第一视觉特征及第一语义特征；所述原始视频包括多帧图像；

针对每帧图像中的每一目标，根据所述文本特征以及目标的第一视觉特征及第一语义特征，确定目标的第二视觉特征及第二语义特征；

根据所述文本特征、目标的第二视觉特征及第二语义特征，得到该帧图像的第一全局视觉表示及第一全局语义表示；

根据所述文本特征及各帧图像的第一全局视觉表示及第一全局语义表示，得到各帧图像的全局视觉表示；

根据所述文本特征及各帧图像的全局视觉表示，得到原始视频的全局视觉特征表示；

根据所述全局视觉特征表示及文本特征，得到所述原始视频的问题答案。

可选地，所述从待处理的原始视频及与所述原始视频对应的问题文本中，得到文本特征以及各帧图像中目标的第一视觉特征及第一语义特征，具体包括：

通过目标区域定位网络从原始视频的各帧图像中定位出目标区域；

针对每帧图像，从所述目标区域中提取目标的多个第一视觉特征；

根据各目标区域预测类别标签，得到语义标签；

通过词向量模型从所述语义标签中提取目标的多个第一语义特征；

利用词向量模型和循环神经网络，从问题文本中提取问题的文本特征。

可选地，所述根据所述文本特征以及目标的第一视觉特征及第一语义特征，确定目标的第二视觉特征及第二语义特征，具体包括：

根据所述文本特征及目标的第一视觉特征，建立目标级别的视觉关系网络；

基于所述目标级别的视觉关系网络，根据所述第一视觉特征，得到所述目标的第二视觉特征；

根据所述文本特征及目标的第一语义特征，建立目标级别的语义关系网络；

基于所述目标级别的语义关系网络，根据所述第一语义特征，得到所述目标的第二语义特征。

可选地，所述根据所述文本特征及目标的第二视觉特征及第二语义特征，得到该帧图像的第一全局视觉表示及第一全局语义表示，具体包括：

将所述文本特征分别与各目标的第二视觉特征，进行特征融合，得到对应的目标特征；

通过注意力机制，计算各目标特征的注意力权重；

通过各注意力权重对每帧图像中的所有目标特征进行加权求和，得到该帧图像的第一全局视觉表示；

通过平均池化机制聚合每帧图像中目标的第二语义特征，得到该帧图像的第一全局语义表示。

可选地，所述根据所述文本特征及各帧图像的第一全局视觉表示及第一全局语义表示，得到各帧图像的全局视觉表示，具体包括：

根据所述文本特征及各帧图像的第一全局视觉表示，建立视频帧级别的视觉关系网络；

基于所述视频帧级别的视觉关系网络，根据各帧图像的第一全局视觉表示，得到各帧图像的第二全局视觉表示；

根据所述文本特征及各帧图像的第一全局语义表示，建立视频帧级别的语义关系网络；

基于所述视频帧级别的语义关系网络，根据各帧图像的第一全局语义表示，得到各帧图像的第二全局语义表示；

将各帧图像的第二全局语义表示映射至视觉空间，与对应的第二全局视觉表示相加，得到各帧图像的全局视觉表示。

可选地，所述根据所述文本特征及各帧图像的全局视觉表示，得到原始视频的全局视觉特征表示，具体包括：

将所述文本特征分别与各帧图像的全局视觉表示，进行特征融合，得到对应的全局视觉特征；

通过注意力机制，计算各全局视觉特征的注意力权重；

通过各注意力权重对原始视频中每帧图像的全局视觉特征进行加权求和，得到原始视频的全局视觉特征表示。

可选地，所述根据所述全局视觉特征表示及文本特征，得到所述问题文本对应的问题答案，具体包括：

根据所述文本特征，获取对应的历史候选答案；

将所述全局视觉特征表示及文本特征进行多模态融合，得到融合数据；

根据所述融合数据，确定各历史候选答案的得分，其中得分最高的历史候选答案为所述原始视频的问题答案。

为解决上述技术问题，本发明还提供了如下方案：

一种视频问答的交互系统，所述视频问答的交互系统包括：

特征提取单元，用于从待处理的原始视频及与所述原始视频对应的问题文本中，得到文本特征以及各帧图像中多个目标的第一视觉特征及第一语义特征；所述原始视频包括多帧图像；

第一确定单元，用于针对每帧图像中的每一目标，根据所述文本特征以及目标的第一视觉特征及第一语义特征，确定目标的第二视觉特征及第二语义特征；

第一融合单元，用于根据所述文本特征、目标的第二视觉特征及第二语义特征，得到该帧图像的第一全局视觉表示及第一全局语义表示；

第二确定单元，用于根据所述文本特征及各帧图像的第一全局视觉表示及第一全局语义表示，得到各帧图像的全局视觉表示；

第二融合单元，用于根据所述文本特征及各帧图像的全局视觉表示，得到原始视频的全局视觉特征表示；

第三融合单元，用于根据所述全局视觉特征表示及文本特征，得到所述原始视频的问题答案。

为解决上述技术问题，本发明还提供了如下方案：

一种视频问答的交互系统，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

为解决上述技术问题，本发明还提供了如下方案：

一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

根据本发明的实施例，本发明公开了以下技术效果：

本发明通过从原始视频中提取目标级别的第一视觉特征及第一语义特征，从问题文本中提取文本特征，根据第一视觉特征、第一语义特征及文本特征，得到视频帧级别的第一全局视觉表示及第一全局语义表示，可便于更好的理解视频内容，进一步确定原始视频的全局视觉特征表示，并根据文本特征，可得到所述原始视频的问题答案，提高答案预测的准确度。

附图说明

图1是本发明视频问答的交互方法的流程图；

图2是层级视觉-语义图记忆网络的流程图；

图3是第一视觉图记忆模块的示意图；

图4为第一语义图记忆模块的示意图；

图5为本发明视频问答的交互系统的模块结构示意图。

符号说明：

特征提取单元-1，第一确定单元-2，第一融合单元-3，第二确定单元-4，第二融合单元-5，第三融合单元-6。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明的目的是提供一种视频问答的交互方法，通过从原始视频中提取目标级别的第一视觉特征及第一语义特征，从问题文本中提取文本特征，根据第一视觉特征、第一语义特征及文本特征，得到视频帧级别的第一全局视觉表示及第一全局语义表示，可便于更好的理解视频内容，进一步确定原始视频的全局视觉特征表示，并根据文本特征，可得到所述原始视频的问题答案，提高答案预测的准确度。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1和图2所示，本发明视频问答的交互方法包括：

步骤100：从待处理的原始视频及与所述原始视频对应的问题文本中，得到文本特征以及各帧图像中多个目标的第一视觉特征及第一语义特征。其中，所述原始视频包括多帧图像。

步骤200：针对每帧图像中的每一目标，根据所述文本特征以及目标的第一视觉特征及第一语义特征，确定目标的第二视觉特征及第二语义特征。

步骤300：根据所述文本特征、目标的第二视觉特征及第二语义特征，得到该帧图像的第一全局视觉表示及第一全局语义表示。

步骤400：根据所述文本特征及各帧图像的第一全局视觉表示及第一全局语义表示，得到各帧图像的全局视觉表示。

步骤500：根据所述文本特征及各帧图像的全局视觉表示，得到原始视频的全局视觉特征表示。

步骤600：根据所述全局视觉特征表示及文本特征，得到所述原始视频的问题答案。

其中，在步骤100中，所述从待处理的原始视频及与所述原始视频对应的问题文本中，得到文本特征以及各帧图像中目标的第一视觉特征及第一语义特征，具体包括：

步骤110：通过目标区域定位网络从原始视频的各帧图像中定位出目标区域；

步骤120：针对每帧图像，从所述目标区域中提取目标的多个第一视觉特征；

步骤130：根据各目标区域预测类别标签，得到语义标签；

步骤140：通过词向量模型从所述语义标签中提取目标的多个第一语义特征；

步骤150：利用词向量模型和循环神经网络，从问题文本中提取问题的文本特征。

在本实施例中，采用GloVe词向量模型和Bi-LSTM循环神经网络来从问题文本中提取文本特征；采用在Visual Genome数据集上预训练好的Faster R-CNN来从视频帧中同时提取目标的第一视觉特征和语义标签；进一步使用预训练的fastText模型来提取第一语义特征。

在步骤200中，所述根据所述文本特征以及目标的第一视觉特征及第一语义特征，确定目标的第二视觉特征及第二语义特征，具体包括：

步骤210：根据所述文本特征及目标的第一视觉特征，建立目标级别的视觉关系网络。

步骤220：基于所述目标级别的视觉关系网络，根据所述第一视觉特征，得到所述目标的第二视觉特征。

具体地，本发明通过第一视觉图记忆模块，利用目标的第一视觉特征来迭代更新，从而建模目标级别的视觉关系网络。

其中，第一视觉图记忆模块是在普通记忆网络(Memory Network)的基础上，将记忆单元组织成全连接图(Fully Connected Graph)的结构。如图3所示，第一视觉图记忆模块包括：图结构的记忆单元(又称为记忆节点)和可学习的读写控制器。

其中，记忆节点用来储存目标的第一视觉特征，读写控制器用来读取和写入(更新)记忆节点的内容。

步骤220具体包括以下步骤：

首先，初始化记忆节点和读写控制器的状态；通过目标的第一视觉特征来初始化记忆节点；通过文本特征来初始化读写控制器的状态。其次，读写控制器迭代地读取和更新记忆节点的内容。在每次迭代，读写控制器读取记忆节点的内容如下：

其中，h^(k-1)表示读写控制器上一次迭代的状态，v_i ^(k-1)表示第i个视觉图记忆节点在上一次迭代的状态，r^(k)表示读写控制器读取的内容，W_r ^a，U_r ^a和V_r ^a表示可学习的权重参数，上标(k-1)和(k)表示迭代次数的索引。在读取记忆节点的内容后，读写控制器更新自身的状态如下：

其中，σ表示sigmoid函数，

表示Hadamard乘积，h^(k)表示读写控制器更新后的状态，W_r ^h、U_r ^h、W_r ^g和U_r ^g表示可学习的权重参数。在读操作之后，读写控制器需要更新记忆节点的内容。首先，借助图结构，每个记忆节点收集来自其他相邻节点的信息：

其中，MLP表示多层感知机函数，由两个线性变换层加中间的ReLU函数组成；[；]表示特征拼接；e_i,j ^(k)表示第i个和第j个节点之间连边的权重。

最后，记忆节点的内容被更新如下：

其中，v_i ^(k)表示第i个视觉图记忆节点更新后的状态，即第二视觉特征。

步骤230根据所述文本特征及目标的第一语义特征，建立目标级别的语义关系网络。

步骤240：基于所述目标级别的语义关系网络，根据所述第一语义特征，得到所述目标的第二语义特征。

具体地，在本实施例中，通过第一语义图记忆模块，利用目标的语义标签信息来迭代更新，从而建模目标级别的语义关系。第一语义图记忆模块在视觉图记忆模块的基础上，增加了视觉到语义节点映射和语义到视觉节点映射机制。

如图4所示，所述第一语义图记忆模块包括：图结构的记忆节点、可学习的读写控制器、视觉到语义节点映射和语义到视觉节点映射机制。记忆节点用来储存目标的语义特征；读写控制器用来读取和更新记忆节点的内容；视觉到语义节点映射和语义到视觉节点映射机制用来交换视觉和语义信息，丰富彼此的特征表示。

步骤240具体包括以下步骤：

首先，初始化记忆节点和读写控制器的状态；通过目标的第一语义标签特征来初始化语义图记忆节点；通过文本特征来初始化读写控制器的状态。在做迭代的读写操作之前，使用视觉到语义节点映射机制引入视觉信息来丰富语义特征：

其中，W_i ^vs和W_p ^v表示可学习的权重参数，|S|表示语义图记忆节点的数量，|V|表示视觉图记忆节点的数量，v_j ⁽⁰⁾表示第j个视觉图记忆节点的状态；该过程将每个视觉图记忆节点的信息映射到第i个语义图记忆节点。使用f_i ^vs和初始的语义图记忆节点s_i ⁽⁰⁾进行特征拼接来更新第i个语义图记忆节点为：

其次，读写控制器迭代地读取和更新记忆节点的内容，具体操作与视觉图记忆模块一致，在此不再赘述。假定迭代次数为K_s，在经过K_s次迭代更新后，使用语义到视觉节点映射机制来交换语义信息到视觉空间：

其中，

表示在K_s次迭代后第j个语义图记忆节点的状态，v_i ⁽⁰⁾表示初始的第i个视觉图记忆节点的状态，W_i ^sv和W_p ^s表示可学习的权重参数。

最后，使用残差连接来更新第i个视觉图记忆节点表示(即第二语义特征)：

进一步地，在步骤300中，所述根据所述文本特征及目标的第二视觉特征及第二语义特征，得到该帧图像的第一全局视觉表示及第一全局语义表示，具体包括：

步骤310：将所述文本特征分别与各目标的第二视觉特征，进行特征融合，得到对应的目标特征；

步骤320：通过注意力机制(Attention Mechanism)，计算各目标特征的注意力权重；

步骤330：通过各注意力权重对每帧图像中的所有目标特征进行加权求和，得到该帧图像的第一全局视觉表示；

步骤340：通过平均池化(Average Pooling)机制来聚合每帧图像中目标的第二语义特征，得到该帧图像的第一全局语义表示。

进一步地，在步骤400中，所述根据所述文本特征及各帧图像的第一全局视觉表示及第一全局语义表示，得到各帧图像的全局视觉表示，具体包括：

步骤410：根据所述文本特征及各帧图像的第一全局视觉表示，建立视频帧级别的视觉关系网络。

步骤420：基于所述视频帧级别的视觉关系网络，根据各帧图像的第一全局视觉表示，得到各帧图像的第二全局视觉表示。

本发明引入第二视觉图记忆模块，利用视频帧的第一全局视觉表示来迭代更新，从而建模视频帧级别的视觉关系网络；第二视觉图记忆模块的结构与计算过程和所述第一视觉图记忆模块一致；不同之处在于所述第二视觉图记忆模块的记忆节点用来储存视频帧的第一全局视觉表示。

步骤420具体包括以下步骤：

首先，初始化记忆节点和读写控制器的状态；通过各帧图像的第一全局视觉表示来初始化记忆节点；使用文本特征来初始化读写控制器的状态。然后读写控制器迭代地读取和更新记忆节点的内容。

步骤430：根据所述文本特征及各帧图像的第一全局语义表示，建立视频帧级别的语义关系网络。

步骤440：基于所述视频帧级别的语义关系网络，根据各帧图像的第一全局语义表示，得到各帧图像的第二全局语义表示。

步骤450：将各帧图像的第二全局语义表示映射至视觉空间，与对应的第二全局视觉表示相加，得到各帧图像的全局视觉表示。

在本实施例中，引入第二语义图记忆模块，利用视频帧的第一全局语义表示来迭代更新，从而建模视频帧级别的语义关系。第二语义图记忆模块的结构与计算过程和所述第一语义图记忆模块一致；不同之处在于该第二语义图记忆模块的记忆节点用来储存视频帧的第一全局语义表示。

步骤440具体包括：

首先，初始化记忆节点和读写控制器的状态；使用第一全局语义表示来初始化记忆节点；使用文本特征来初始化读写控制器的状态。在做迭代的读取操作之前，使用视觉到语义节点映射机制引入第二全局视觉表示来丰富语义特征：然后读写控制器迭代地读取和更新记忆节点的内容。

步骤450具体包括：使用第二全局语义表示到视觉节点映射机制将更新后的语义特征映射回视觉空间，与第二全局视觉表示相加得到最后的输出，即各帧图像的全局视觉表示。

在步骤500中，所述根据所述文本特征及各帧图像的全局视觉表示，得到原始视频的全局视觉特征表示，具体包括：

步骤510：将所述文本特征分别与各帧图像的全局视觉表示，进行特征融合，得到对应的全局视觉特征；

步骤520：通过注意力机制，计算各全局视觉特征的注意力权重；

步骤530：通过各注意力权重对原始视频中每帧图像的全局视觉特征进行加权求和，得到原始视频的全局视觉特征表示。

在步骤600中，所述根据所述全局视觉特征表示及文本特征，得到所述问题文本对应的问题答案，具体包括：

步骤610：根据所述文本特征，获取对应的历史候选答案；

步骤620：将所述全局视觉特征表示及文本特征进行多模态融合，得到融合数据；

步骤630：根据所述融合数据，确定各历史候选答案的得分，其中得分最高的历史候选答案为所述原始视频的问题答案。

优选地，本发明使用交叉熵损失函数来监督模型的训练，提高答案预测的准确度。

本发明公开了一种基于层级视觉-语义图记忆网络的视频问答的交互方法及系统；提出了有创新性的视觉图记忆模块和语义图记忆模块两个基本模块；所提出的图记忆模块是在普通的记忆网络的基础上改进而得到，将记忆节点组织成图结构，以便更好地建模关系。视觉图记忆模块利用视觉特征来编码有用的视觉知识和建模视觉关系；语义图记忆模块利用语义特征来编码有用的语义知识和建模语义关系；这些模块既被应用在目标级别，也被应用在视频帧级别，来联合地建模目标级别的视觉关系及语义关系和视频帧级别的视觉关系及语义关系。用这样方式，本发明能够克服现有方法的缺陷，显著地改进视频问答的精度，实现当前最好的性能。

进一步地，本发明还提供一种视频问答的交互系统，可提高针对视频问题的答案的准确性。

如图5所示，本发明视频问答的交互系统包括特征提取单元1、第一确定单元2、第一融合单元3、第二确定单元4、第二融合单元5及第三融合单元6。

具体地，所述特征提取单元1用于从待处理的原始视频及与所述原始视频对应的问题文本中，得到文本特征以及各帧图像中多个目标的第一视觉特征及第一语义特征；所述原始视频包括多帧图像；

所述第一确定单元2用于针对每帧图像中的每一目标，根据所述文本特征以及目标的第一视觉特征及第一语义特征，确定目标的第二视觉特征及第二语义特征；

所述第一融合单元3用于根据所述文本特征、目标的第二视觉特征及第二语义特征，得到该帧图像的第一全局视觉表示及第一全局语义表示；

所述第二确定单元4用于根据所述文本特征及各帧图像的第一全局视觉表示及第一全局语义表示，得到各帧图像的全局视觉表示；

所述第二融合单元5用于根据所述文本特征及各帧图像的全局视觉表示，得到原始视频的全局视觉特征表示；

所述第三融合单元6用于根据所述全局视觉特征表示及文本特征，得到所述原始视频的问题答案。

此外，本发明还提供了如下方案：

一种视频问答的交互系统，包括：

处理器；以及

此外，本发明还提供了如下方案：

相对于现有技术，本发明视频问答的交互系统、计算机可读存储介质与上述视频问答的交互方法的有益效果相同，在此不再赘述。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种视频问答的交互方法，其特征在于，所述交互方法包括：

2.根据权利要求1所述的视频问答的交互方法，其特征在于，所述从待处理的原始视频及与所述原始视频对应的问题文本中，得到文本特征以及各帧图像中目标的第一视觉特征及第一语义特征，具体包括：

根据各目标区域预测类别标签，得到语义标签；

3.根据权利要求1所述的视频问答的交互方法，其特征在于，所述根据所述文本特征以及目标的第一视觉特征及第一语义特征，确定目标的第二视觉特征及第二语义特征，具体包括：

4.根据权利要求1所述的视频问答的交互方法，其特征在于，所述根据所述文本特征及目标的第二视觉特征及第二语义特征，得到该帧图像的第一全局视觉表示及第一全局语义表示，具体包括：

通过注意力机制，计算各目标特征的注意力权重；

5.根据权利要求1所述的视频问答的交互方法，其特征在于，所述根据所述文本特征及各帧图像的第一全局视觉表示及第一全局语义表示，得到各帧图像的全局视觉表示，具体包括：

6.根据权利要求1所述的视频问答的交互方法，其特征在于，所述根据所述文本特征及各帧图像的全局视觉表示，得到原始视频的全局视觉特征表示，具体包括：

通过注意力机制，计算各全局视觉特征的注意力权重；

7.根据权利要求1所述的视频问答的交互方法，其特征在于，所述根据所述全局视觉特征表示及文本特征，得到所述问题文本对应的问题答案，具体包括：

根据所述文本特征，获取对应的历史候选答案；

8.一种视频问答的交互系统，其特征在于，所述视频问答的交互系统包括：

9.一种视频问答的交互系统，包括：

处理器；以及

10.一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：