CN113609330B

CN113609330B - 一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质

Info

Publication number: CN113609330B
Application number: CN202110907635.XA
Authority: CN
Inventors: 孙广路; 梁丽丽; 谭涛; 于波; 刘昕雨
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2021-07-15
Filing date: 2021-08-09
Publication date: 2022-06-14
Anticipated expiration: 2041-08-09
Also published as: CN113609330A

Abstract

本发明提出一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质，属于计算机视觉和自然语言处理交叉领域。首先，获得问题语句的词嵌入表示；其次，获得问题导向的视频文本级别特征表示；再其次，获得问题导向的具有空间注意的视频帧级别特征表示；再其次，获得最终的问题导向的视频帧级别特征表示；再其次，获得问题导向的视频片段级别特征表示；最后，得到具有问题导向的视频特征表示，并生成答案。解决了现有技术中存在的答案推理准确性低的技术问题。本发明通过提取视频的细粒度区域特征，可以更好地理解视频信息，增加了视频问答问题的准确度，缩小了视频和问题之间的模态差异。

Description

一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质

技术领域

本发明涉及一种视频问答方法，尤其涉及一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质，属于计算机视觉和自然语言处理交叉领域。

背景技术

近几年，随着计算机视觉与自然语言处理的发展，大量的视觉与语言研究课题得到了广泛的关注。视频问答是跨模态任务，它包括多种不同模态的数据信息，如视频模态、语音模态、文本模态。

视频问答的任务可以描述为，已知一段视频和与视频内容相关的自然语言描述的问题，通过获取他们的视觉信息和语义信息，对问题给出合适的答案的过程。当人们观看一段视频时，会通过视频帧展现的视觉信息来获取视频中出现的人物、物体、环境等，场景带来的视觉信息使人们对视频内容有了一个整体的了解。

传统的视频问答方法通常通过直接提取视频特征进行推理，而忽略了问题语句和视频的模态差异问题，因此在进行相似度计算后生成的视频特征表示并不是与问题最相关的；此外，大多数视频问答方法提取视频特征时，忽略了视频帧的区域细粒度特征，从而影响最终答案推理的准确性。

因此，如何实现答案推理的准确性显得尤为重要。本发明针对该问题，提出了一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

本发明提供了一种基于文本注意力和细粒度信息的视频问答系统，包括，词嵌入获取模块、视频文本级别特征表示获取模块、视频帧级别特征表示获取模块、问题导向的视频帧级别特征表示获取模块、问题导向的视频特征表示获取模块、视频特征表示融合模块和生成答案获取模块；

所述词嵌入获取模块用于针对问题语句，获取问题语句的词嵌入表示；

所述视频文本级别特征表示获取模块用于将得到的问题语句的词嵌入表示，使用文本注意力机制为视频的每条文本描述生成一个注意力得分，以此为基础获得问题导向的视频文本级别特征表示；

所述视频帧级别特征表示获取模块用于提取视频每一帧中的区域特征，构成视频帧的区域特征集合，根据问题语句的词嵌入表示，使用空间注意力机制为每个区域特征生成一个注意力得分，以此为基础得到问题导向的具有空间注意的视频帧级别特征表示；

所述问题导向的视频帧级别特征表示获取模块用于根据具有空间注意的视频帧级别特征，获得最终的问题导向的视频帧级别特征表示；

所述问题导向的视频特征表示获取模块用于使用三维卷积神经网络C3D获取视频片段，获得问题导向的视频片段级别特征表示；

所述视频特征表示融合模块用于将视频文本级别特征表示、视频帧级别特征表示和视频片段级别特征表示进行特征融合，得到具有问题导向的视频特征表示；

所述答案获取模块用于使用softmax函数计算生成答案。

一种基于文本注意力和细粒度信息的视频问答方法，包括以下步骤：

S1、针对问题语句，获得问题语句的词嵌入表示；

S2、针对一段视频，为每一个视频生成M句的视频文本描述,根据步骤S1得到的问题语句的词嵌入表示，使用文本注意力机制为视频的每条文本描述生成一个注意力得分，以此为基础获得问题导向的视频文本级别特征表示；

S3、针对一段视频，提取视频每一帧中的区域特征，构成视频帧的区域特征集合，根据步骤S1得到的问题语句的词嵌入表示，使用空间注意力机制为每个区域特征生成一个注意力得分，以此为基础得到问题导向的具有空间注意的视频帧级别特征表示；

S4、对于步骤S3所得到的具有空间注意的视频帧级别特征，获得最终的问题导向的视频帧级别特征表示；

S5、使用三维卷积神经网络C3D获取视频片段，获得问题导向的视频片段级别特征表示；

S6、对步骤S2所获得的视频文本级别特征表示，步骤S3所获得的视频帧级别特征表示，步骤S5获得的视频片段级别特征表示进行特征融合，得到具有问题导向的视频特征表示，并生成答案。

优选的，步骤S1所述获得问题语句的词嵌入表示的方法具体是：针对一条问题语句，首先采用词向量编码网络Word2Wec获得问题语句中的每个单词的词嵌入向量表示，然后将每个词嵌入向量表示输入门控循环单元网络GRU中，获得问题的隐状态表示h^q作为问题的词嵌入表示。

优选的，步骤S2所述获得问题导向的视频文本级别特征表示的具体方法是：首先使用一个预训练的词汇全卷积神经网络Lexical-FCN为每一个视频生成M句的文本描述s₁，s₂，...，s_M来概括视频中不同区域的内容，其次，使用GRU模型对M句文本描述进行特征的编码表示，记为

其中

为第i时刻编码的文本描述的隐状态表示，i∈{1,2,...,M}；

使用文本注意力机制来计算问题语句与每一句文本描述的相似度，生成每一句文本描述的权重，并进行加权融合得到问题导向的文本描述的文本特征表示，具体的计算过程如下：

a)计算文本特征

的注意力分数：

其中，h^q为问题的词嵌入表示，上标T为矩阵的转置运算，W_s是用来计算文本注意力得分的参数矩阵；

b)对于每一个文本特征

使用softmax函数对权重进行数值转换，计算公式如下：

c)根据权重系数

对

进行加权求和得到问题导向的视频文本级别特征表示，计算公式如下：

优选的，步骤S3所述得到问题导向的具有空间注意的视频帧级别特征表示的具体的方法是：

使用预训练的视网膜网络RetinaNet提取每一个视频帧中的区域特征，记为：

其中K表示每一帧中区域特征的数量，

表示第i帧中的第j个区域特征，

表示提取的第i帧的视频帧级别特征，使用空间注意力机制为区域特征分配权重，并进行加权融合得到问题导向的区域特征表示，具体的计算过程如下：

a)计算区域特征

的注意力分数：

其中，h^q为问题的词嵌入表示，W，W_q和W_o为参数矩阵，b_o为偏置向量；

b)对于每一个区域特征

使用softmax函数对权重进行数值转换，计算公式如下：

c)根据权重系数

对

进行加权求和得到具有空间注意的视频帧级别特征，计算公式如下：

优选的，步骤S4所述获得最终的问题导向的视频帧级别特征表示的具体方法是：针对步骤S3计算得到的具有空间注意的视频帧级别特征表示

N表示帧的个数，使用GRU模型对其进行编码表示，记为：

表示第i时刻编码的视频帧的隐状态特征，使用时间注意力机制筛选冗余帧，通过为每一个视频帧特征分配权重，并根据权重结果进行加权求和，得到问题导向的视频帧特征表示，具体的计算过程如下：

a)计算所给视频帧特征

的注意力分数：

其中，h^q为问题的词嵌入表示，W、W_q和W_f为参数矩阵，b_f为偏置向量；

b)对于每一个视频帧特征

使用softmax函数对权重进行标准化，计算公式如下：

c)根据权重系数

对

进行加权求和得到最终问题导向的视频帧级别特征表示，计算公式如下：

优选的，步骤S5所述获得问题导向的视频片段级别特征表示的具体的方法是：

使用三维卷积神经网络C3D提取片段级别的视频特征表示，记为

表示第i个片段特征表示，并使用GRU模型对片段特征编码，记为

表示第i时刻编码的片段的隐状态特征表示，根据不同的视频片段与问题的相关性不同，使用时间注意力机制来计算每一个视频片段的权重，并根据计算结果进行特征的加权融合，得到问题导向的视频片段特征表示，具体的计算过程如下：

a)计算视频片段特征

的注意力分数：

其中，h^q为问题的词嵌入表示，W、W_q和W_c为参数矩阵，b_c为偏置向量；

b)对于每一个视频片段特征

使用softmax函数对权重进行标准化，计算公式如下：

c)根据权重系数

对

进行加权求和得到问题导向的视频片段级别的特征表示，计算公式如下：

优选的，步骤S6所述得到具有问题导向的视频特征表示，并生成答案的具体的方法是：

对得到的具有问题导向的视频文本级别特征表示

视频帧级别特征表示

视频片段级别特征表示

进行特征融合得到具有问题导向的视频特征表示，并使用softmax函数来计算答案集中单词的概率分布，最终答案预测的计算公式如下：

其中，[]表示向量的连接，W_a是一个参数矩阵，b_a是一个偏置向量。

一种计算机，包括存储器和处理器，存储器存储有计算机程序，所述的处理器执行所述计算机程序时实现一种基于文本注意力和细粒度信息的视频问答方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现一种基于文本注意力和细粒度信息的视频问答方法。

本发明的有益效果如下：

(1)与现有技术相比，本发明通过为视频生成文本描述的方式，缩小了视频与问题之间的模态差异。

(2)通过提取视频的细粒度区域特征，可以更好地理解视频信息，增加了回答问题的准确度。

(3)通过对视频帧特征和视频片段特征引入时间注意力机制，获得与问题相关的视频帧和视频片段，排除了冗余信息，进一步增加了回答问题的准确度并提高了问题推理的效率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例一所述视频问答系统的结构示意图；

图2为本发明实施例二所述视频问答方法流程示意图；

图3为本发明实施例二所述视频问答方法原理示意图；

图4为本发明视频问答方法的结果示意图。

具体实施方式

为了使本申请实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例一：

参照图1说明本实施方式，本实施例的一种基于文本注意力和细粒度信息的视频问答系统，包括，词嵌入获取模块、视频文本级别特征表示获取模块、视频帧级别特征表示获取模块、问题导向的视频帧级别特征表示获取模块、问题导向的视频特征表示获取模块、视频特征表示融合模块和生成答案获取模块；

所述答案获取模块用于使用softmax函数计算生成答案。

实施例二：

参照图2至图4说明本实施方式，本实施例的一种基于文本注意力和细粒度信息的视频问答方法，包括以下步骤：

S1、针对问题语句，获得问题语句的词嵌入表示；

具体的，针对一条问题语句，采用词嵌入方式获得问题语句的词嵌入表示，首先采用词向量编码网络Word2Wec获得问题语句中的每个单词的词嵌入向量表示，然后将每个词嵌入向量表示输入门控循环单元网络GRU中，获得问题的隐状态表示h^q作为问题的词嵌入表示。

具体的，针对一段视频，首先使用一个预训练的词汇全卷积神经网络Lexical-FCN为每一个视频生成M句的文本描述s₁，s₂，...，s_M来概括视频中不同区域的内容，其次，使用GRU模型对M句文本描述进行特征的编码表示，记为

其中

为第i时刻编码的文本描述的隐状态表示，i∈{1,2,...,M}；

a)计算文本特征

的注意力分数：

b)对于每一个文本特征

使用softmax函数对权重进行数值转换，计算公式如下：

c)根据权重系数

对

具体的，针对一段视频，使用预训练的视网膜网络RetinaNet提取视频每一帧中的区域特征，构成视频帧的区域特征集合，根据步骤S1得到的问题语句的词嵌入表示，使用空间注意力机制为每个区域特征生成一个注意力得分，以此为基础得到问题导向的具有空间注意的视频帧级别特征表示；

具体的，使用预训练的视网膜网络RetinaNet提取每一个视频帧中的区域特征，记为：

其中K表示每一帧中区域特征的数量，

表示第i帧中的第j个区域特征，

a)计算区域特征

的注意力分数：

其中，h^q为问题的词嵌入表示，W、W_q和W_o为参数矩阵，b_o为偏置向量；

b)对于每一个区域特征

使用softmax函数对权重进行数值转换，计算公式如下：

c)根据权重系数

对

具体的，使用时间注意力机制，获得最终的问题导向的视频帧级别特征表示；

具体的，针对步骤S3计算得到的具有空间注意的视频帧级别特征表示

N表示帧的个数，使用GRU模型对其进行编码表示，记为：

a)计算视频帧特征

的注意力分数：

其中，h^q为问题的词嵌入表示，W，W_q和W_f为参数矩阵，b_f为偏置向量；

b)对于每一个视频帧特征

使用softmax函数对权重进行标准化，计算公式如下：

c)根据权重系数

对

具体的，使用三维卷积神经网络C3D获取视频片段，使用时间注意力机制获得问题导向的视频片段级别特征表示；

具体的，使用三维卷积神经网络C3D提取片段级别的视频特征表示，记为

a)计算视频片段特征

的注意力分数：

其中，h^q为问题的词嵌入表示，W，W_q和W_c为参数矩阵，b_c为偏置向量；

b)对于每一个视频片段特征

使用softmax函数对权重进行标准化，计算公式如下：

c)根据权重系数

对

具体的，使用Softmax函数来计算答案集中单词的概率分布。

具体的，对得到的具有问题导向的视频文本级别特征表示

视频帧级别特征表示

视频片段级别特征表示

对本发明提出的方法进行实验分析：

在视频问答数据集ActivityNet-QA上对本专利所提方法进行实验分析；

ActivityNet-QA源自于ActivityNet数据集，侧重于从用户产生的视频中识别出日常生活，高层次，面向目标的活动，包括了14429个视频剪辑，71961个自然语言描述和130161个问答对，视频的平均长度为180s，其中，问答对是根据给定问题模板由人工方式生成的，包括以下四种类型：Motion类型问题，问题需要针对粗略的时间行为进行理解；Spatial Relationship类型问题，主要是基于静态视频帧进行空间推理；TemporalRelationship类型问题，需要发现连续视频帧之间的关系；Free类型问题，包含两种及以上上述类型的组合，本发明根据答案属性将问题分为五类，分别是What、Who、How、Where和Other。

本发明将ActivityNet-QA数据集划分为75％的训练集，5％的验证集和20％的测试集，并对问答对中的答案进行单词统计，选择了词汇表中前1000个出现次数最多的单词作为答案集。

使用Word2Vec模型编码问题和答案，维度大小为300维，对于在词汇表中找不到的词，其词嵌入特征可以通过计算已有词嵌入特征的均值得到。

为了客观地评价本发明的性能，按实施方式中描述的步骤，测试了本发明在ActivityNet-QA数据集上的性能，所得的实验结果的准确率达到38.2％。

本发明的工作原理：

1)使用一个预训练的Lexical-FCN模型为每一个视频生成M句文本描述,并采用文本注意力机制为每条文本描述生成一个注意力得分，以此得到问题相关的文本级别特征。

2)提取视频中细粒度的区域特征,同时采用空间注意力机制对提取的区域特征打分,以此得到问题相关的帧级别特征。

3)使用时间注意力机制得到与问题最相关的帧和视频片段，并利用视频文本级别特征、帧级别特征和片段级别特征预测最终答案。

本发明缩小了视频和问题之间的模态差异，并充分利用视频的细粒度信息，可有效提高视频问答的准确率。

本发明的计算机装置可以是包括有处理器以及存储器等装置，例如包含中央处理器的单片机等。并且，处理器用于执行存储器中存储的计算机程序时实现上述的基于CREO软件的可修改由关系驱动的推荐数据的推荐方法的步骤。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

计算机可读存储介质实施例

本发明的计算机可读存储介质可以是被计算机装置的处理器所读取的任何形式的存储介质，包括但不限于非易失性存储器、易失性存储器、铁电存储器等，计算机可读存储介质上存储有计算机程序，当计算机装置的处理器读取并执行存储器中所存储的计算机程序时，可以实现上述的基于CREO软件的可修改由关系驱动的建模数据的建模方法的步骤。

所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种基于文本注意力和细粒度信息的视频问答系统，其特征在于，包括，词嵌入获取模块、视频文本级别特征表示获取模块、视频帧级别特征表示获取模块、问题导向的视频帧级别特征表示获取模块、问题导向的视频特征表示获取模块、视频特征表示融合模块和生成答案获取模块；

所述视频文本级别特征表示获取模块用于将得到的问题语句的词嵌入表示，使用文本注意力机制为视频的每条文本描述生成一个注意力得分，以此为基础获得问题导向的视频文本级别特征表示，具体方法是，针对一段视频，为每一个视频生成M句的视频文本描述,根据得到的问题语句的词嵌入表示，使用文本注意力机制为视频的每条文本描述生成一个注意力得分，以此为基础获得问题导向的视频文本级别特征表示；

所述答案获取模块用于使用softmax函数计算生成答案。

2.一种基于文本注意力和细粒度信息的视频问答方法，其特征在于，包括以下步骤：

S1、针对问题语句，获得问题语句的词嵌入表示；

3.根据权利要求2所述的方法，其特征在于，步骤S1所述获得问题语句的词嵌入表示的方法具体是：针对一条问题语句，首先采用词向量编码网络Word2Wec获得问题语句中的每个单词的词嵌入向量表示，然后将每个词嵌入向量表示输入门控循环单元网络GRU中，获得问题的隐状态表示h^q作为问题的词嵌入表示。

4.根据权利要求3所述的方法，其特征在于，步骤S2所述获得问题导向的视频文本级别特征表示的具体方法是：首先使用一个预训练的词汇全卷积神经网络Lexical-FCN为每一个视频生成M句的文本描述s₁，s₂，...，s_M来概括视频中不同区域的内容，其次，使用GRU模型对M句文本描述进行特征的编码表示，记为