CN114387537A

CN114387537A - 一种基于描述文本的视频问答方法

Info

Publication number: CN114387537A
Application number: CN202111439356.1A
Authority: CN
Inventors: 胡锦祥; 孟朝晖
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-04-22

Abstract

本发明公开了一种基于描述文本的视频问答方法，属于自然语言处理和计算机视觉领域。本发明将视频的视觉信息通过文本来进行描述，在特征提取时考虑了常识特征的获取，在生成视频描述时对问题单词进行了短语级划分并基于短语使用了多重注意力，此外，还利用了知识库对视频描述内容做进一步的扩充，使得生成的视频描述包含视频的绝大部分视觉信息，之后，将视频描述和问题进行语义上的交互和分析，得到新的融合特征，最后将该特征输入到分类器中进行分类得到预测的答案，同时利用了知识库对答案的语义进行判断。本发明避免了跨模态信息融合的分析的困难，并使用了知识库对描述信息进行补充，从而提升了视频问答的准确率。

Description

一种基于描述文本的视频问答方法

技术领域

本发明属于自然语言处理和计算机视觉领域，尤其涉及一种基于描述文本的视频问答方法。

背景技术

视频问答通常是指给计算机提供一段视频以及几个与视频内容相关的问题，让计算机理解视频内容并用自然语言回答出这些问题，近年来一直吸引着研究者的关注，是一项重要的多模态理解任务，其在现实中也有很多应用场景，比如提高机器人人机交互的能力、帮助视觉障碍人士获取视频信息、快速获取视频信息等等。

随着神经网络的飞速发展，近年来开始出现了基于深度学习的问答系统。早期的视频问答系统侧重于将视觉信息和文本信息分开处理，在模型的最后阶段再进行特征的融合来推理答案。CVPR2017年会议论文集，TGIF-QA:Toward Spatio-Temporal Reasoning inVisual Question Answering，1359-1367页公开了一种分别提取视频的视觉信息和问题的问题特征，最后融合两者推理答案的方法，该方法采用C3D和ResNet神经网络分别在时间和空间两个维度提取视频的视觉特征并融合，利用LSTM网络提取问题的文本特征，之后将融合后的视觉特征和文本特征编码，最后解码得到答案。之后，许多研究者都投身于改进基于深度学习的问题系统，比较有代表性的改进是注意力机制以及记忆网络的使用。但是，目前的大多数方法由于将视觉信息和文本信息这两种不同模态的信息融合，导致相应的信息利用的不够充分。具体来说，现有的视频问答方法无法有效地通过高层次神经网络表达视频中与问题相关的信息，从而在问答问题时无法充分利用视频的信息，使得生成的答案不准确。

发明内容

针对现有方法的不足，本发明提出了一种基于描述文本的视频问答方法，考虑将视频特征通过文字进行描述，并利用知识库补充描述文本的内容，再将视频的相关描述与问题文本进行融合推理，挖掘问题与描述之间的潜在关联，最后进行分类得到预测答案，并通过知识库进行预测答案和预期答案的语义关系判断。

技术方案：为实现本发明的目的，本发明所采用的技术方案是：一种基于描述文本的视频问答方法，包括如下步骤：

步骤1，根据所有问题和答案生成相应的先验知识库G；

步骤2，通过卷积神经网络提取视频的帧特征和运动特征，并表示为二组固定维度的特征实值向量Vf、Vm；

步骤3，通过常识特征提取网络提取视频帧的常识特征实值向量Vc；

步骤4，将视频特征实值向量Vf、Vm以及常识特征实值向量Vc进行注意力计算，得到视频最终的特征向量表示Φ(V)；

步骤5，将视频特征表示Φ(V)以及问题文本通过描述网络生成视频描述文本Dw；

步骤6，通过对视频描述文本Dw进行关键词提取，在先验知识库G中查询相应的知识，根据查询结果生成补充描述Gw，并将视频描述文本Dw和补充描述Gw两者合并得到最终的描述文本Vd；

步骤7，对视频描述文本Vd和问题文本进行特征提取，利用问答处理网络对两者进行处理，将处理结果输入到分类器中得到预测的答案，结合先验知识库G判断预测的准确性，完成基于描述文本的视频问答。

作为优选，步骤1的具体步骤为：

步骤1-1，将问题文本的疑问词根据答案进行替换，得到相应的陈述句；

步骤1-2，对问题陈述语句进行关键词提取，并根据词语间的关系生成三元组<W,R,W>，其中W表示单词，R表示单词间的关系；

步骤1-3，根据关系三元组<W,R,W>，将W作为图的节点，R作为边，构建先验知识库G。

作为优选，步骤2的具体步骤为：

步骤2-1，根据视频所包含的帧数，等间隔地提取n帧图像；

步骤2-2，根据提取的n帧图像，利用卷积神经网络ResNet获取视频的帧特征向量表征Vf＝{Vf₁,Vf₂，……,Vf_n}，并将视频的帧特征向量表征Vf作为视频对应的帧特征实值向量，其中Vf_n表示第n个视频帧对应的帧特征；

步骤2-3，根据视频所包含的帧数，等间隔地分为t个视频片段；

步骤2-4，根据划分的t个视频片段，利用卷积神经网络ResNext获取视频的运动特征向量表征Vm＝{Vm₁,Vm₂,……,Vm_t}，并将视频的运动特征向量表征Vm作为视频对应的运动特征实值向量，其中Vm_t表示第t个视频片段对应的运动特征。

作为优选，步骤3的具体步骤为：

步骤3-1，通过稀疏采样的方法提取视频的K帧图像；

步骤3-2，将提取的K帧图像输入到在COCO数据集上预训练的VC-RNN网络进行常识特征提取，得到相应的常识特征向量表征Vc＝{Vc₁,Vc₂,……,Vc_k}，并将所述常识特征向量表征Vc作为视频对应的常识特征实值向量，其中Vc_k表示第k个视频帧对应的常识特征。

作为优选，步骤4的具体步骤为：

步骤4-1，利用注意力机制，计算常识特征实值向量Vc对运动特征实值向量Vm的关注，得到常识特征关注的运动特征Φ_c(V_m)；Φ_c(V_m)的表达式如下：

其中，Vf_i表示第i帧视频对应的帧特征，

表示在每一个时间步t通过注意力机制计算出的第i个帧特征对第j个常识特征的注意力权重，n表示常识特征数量；

步骤4-2，利用注意力机制，计算常识特征实值向量Vc对帧特征实值向量Vf的关注，得到常识特征关注的帧特征Φ_c(V_f)；Φ_c(V_f)的表达式如下：

其中，Vm_i表示第i个视频片段对应的运动特征，

表示在每一个时间步t通过注意力机制计算出的第i个运动特征对第j个常识特征的注1意力权重，n表示常识特征数量；

步骤4-3，将常识特征Vc、常识特征关注的运动特征Φ_c(V_m)、常识特征关注的帧特征Φ_c(V_f)拼接，得到视频最终的特征表示向量Φ(V)＝{v₁,v₂,……v_t}，其中v_t表示第t次拼接得到的视频特征表示。

作为优选，步骤5的具体步骤为：

步骤5-1，根据问题单词文本，将输入的问题以单词序列的形式进行处理；

步骤5-2，利用预训练的BERT模型将问题单词序列转化为固定维度的词向量集合Q＝{q₁,q₂,……,q_n}，其中q_n表示第n个单词对应的词向量表示；

步骤5-3，在第一个时间步t，生成开始标识<SOS>并初始化LSTM网络；

步骤5-4，根据单词的关联性进行计算，得到短语表示矩阵P_t＝[p_1,t……p_j,t]，其中p_j,t表示第j个到第t个单词构成的短语表示；

步骤5-5，根据短语表示矩阵P_t，计算相关的视频特征权重，得到最终的视频语义特征表示Φ_atten(V)^(t)；

步骤5-6，将视频语义特征Φ_atten(V)^(t)输入至LSTM网络中，生成该时间步的视频描述单词w；

步骤5-7，循环步骤5-4至步骤5-6生成视频描述单词，直到生成结束标识<EOS>为止完成视频描述的生成，最终得到视频相应的描述文本Dw＝{w₁,w₂,……,w_n}，其中n表示单词的个数。

步骤5-4中，P_t的计算过程如下：

A_t＝ψ^p(W_t)＝[α_1,t,……,α_j,t]

P_t＝[p_1,t,……,p_j,t]

在任意一个时间步t，W_t表示前t-1步生成的描述单词的词向量表示构成的矩阵，其中E_wt-1表示第t-1个单词通过word2vec得到的词向量表示，ψ^p表示单词注意力的计算，A_t表示单词注意力权重矩阵，α_j,t表示第1个到第t-1个单词对于生成短语p_j,t的注意权重，P_t为短语表示矩阵，p_j,t表示第j个到第t个单词构成的短语表示。

步骤5-5中，Φ_atten(V)的计算过程如下：

在任意一个时间步t，β_i,j,t表示短语对p_i,t和视频特征v_j的相关得分，其中σ表示tanh激活函数，

U_s、O_s表示可训练参数矩阵，b_s表示可训练偏置，p_i,t表示第i个单词到第t个单词构成的短语表示，v_j表示第j个视频特征表示；

表示根据相关得分计算得到的视频特征表示，N表示视频特征总数；s_i,t表示将p_i,t和

的拼接结果作为短语对p_i,t的单词组特征；γ_i,t表示当前单词组特征和历史特征的相关得分，其中σ表示tanh激活函数，

U_d、O_d表示可训练参数矩阵，b_d表示可训练偏置，h_t-1表示LSTM网络的上一个时间步t-1的隐藏层表示；Φ_atten(V)(t)为根据所有单词组的相关得分γ_i,t得到的最后特征表示，M表示单词组的数量。

作为优选，步骤6的具体步骤为：

步骤6-1，将视频描述文本Dw通过jieba分词库进行关键词提取，得到相应的关键词列表Kw＝{kw₁,kw₂,……,kw_m}，其中kw_m表示第m个关键词，m表示关键词的个数；

步骤6-2，将关键词列表的每一个单词作为节点，进行关联知识的查询，选择关联权重最高的关系生成相应的描述信息Dk＝{Dk₁,Dk₂,……,Dk_i}，其中Dk_i表示第i个关键词对应的描述信息；

步骤6-3，将视频描述文本Dw以及所有关键词的描述信息Dk进行合并，作为最终的视频描述文本Vd。

作为优选，步骤7的具体步骤为：

步骤7-1，将问题文本和视频描述文本Dw以单词序列的形式进行处理；

步骤7-2，利用预训练的BERT模型将问题文本序列转化为固定维度的词向量集合Q＝{q₁,q₂,……,q_n}，其中q_n表示问题第n个单词对应的词向量表示；

步骤7-3，利用预训练的BERT模型将视频描述文本序列转化为固定维度的词向量集合D＝{d₁,d₂,……,d_m}，其中d_m表示视频描述第m个单词对应的词向量表示；

步骤7-4，将视频描述词向量集合D和问题词向量集合Q输入至问答处理网络的编码层，通过预训练的BERT模型提取两者的句子级特征并得到特征编码后的表示Td和Tq；

步骤7-5，将特征编码表示Td和Tq输入至问答处理网络的双向注意层，得到question-description的注意力矩阵X和description-question的注意力矩阵Y；

步骤7-6，将特征编码后的表示Td、矩阵X的行a以及矩阵Y的行b输入至问答处理网络的模型编码层，并经过池化层处理得到最终的编码表示M；

步骤7-7，将编码表示M输入至分类器进行分类，得到模型初步预测的答案p，并根据预测答案和预期答案进行知识库搜索，判断最终生成结果的正确性，完成基于描述文本的视频问答。

步骤7-5中，矩阵X和矩阵Y的表达式及相关计算如下：

S_i,j＝W₀[tq_i,td_j,tq_i⊙td_j]

X＝softmax(S,axis＝row)·Td^T

Y＝X·(Td^T)^-1·softmax(S,axis＝column)^T·Tq^T

其中，tq_i和td_j分别为编码后问题的第i个单词向量以及描述的第j个单词向量，⊙表示按元素点乘，W₀为可训练参数矩阵，LayerNorm表示正则化层。

步骤7-7中包括以下步骤：

步骤7-7-1：将预测的答案作为知识库G的节点查询其关联信息，将直接关联的t个单词作为其关联单词组R_pw＝{pw₁,pw₂,……,pw_t}，其中pw_t表示知识库查询到的第t个与预测答案关联的单词；

步骤7-7-2：将标准答案作为知识库G的节点查询其关联信息，将直接关联的t个单词作为其关联单词组R_rw＝{rw₁,rw₂,……,rw_t}，其中rw_t表示知识库查询到的第t个与标准答案关联的单词；

步骤7-7-3：将关联单词组R_pw和R_rw分别组成句子输入至BERT模型进行语义相似度计算，语义相似度大于设定阈值的答案预测正确，否则答案预测失败。

有益效果：与现有技术相比，本发明的技术方案具有以下有益的技术效果：

本发明通过将视频的视觉特征通过文本来进行描述，同时利用先验知识库对描述文本进一步扩充知识，避免了跨模态融合的视频语义信息保留不够的问题，在答案推理过程中通过文本单一模态的交互能够更大程度挖掘相关信息，从而提升了视频问答的效果。

附图说明

图1为本发明的方法流程示意图；

图2为本实施例中的流程示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1和图2所示，本发明提供了一种基于描述文本的视频问答方法，其实现方法如下：

步骤1，根据所有问题和答案生成相应的先验知识库G，其实现方法如下：

步骤1-1，将问题文本的what、who、where等疑问词根据答案进行替换，得到相应的陈述句；

步骤2，通过卷积神经网络提取视频的帧特征和运动特征，并表示为二组固定维度的特征实值向量Vf、Vm，其实现方法如下：

步骤2-1，根据视频所包含的帧数，等间隔地提取n帧图像；

步骤2-2，根据提取的n帧图像，利用卷积神经网络ResNet获取视频的帧特征向量表征Vf＝{Vf₁，Vf₂，……，Vf_n}，并将视频的帧特征向量表征Vf作为视频对应的帧特征实值向量，其中Vf_n表示第n个视频帧对应的帧特征；

步骤3，通过常识特征提取网络提取视频帧的常识特征实值向量Vc，其实现方法如下：

步骤3-1，通过稀疏采样的方法提取视频的K帧图像；

步骤4，将视频特征实值向量Vf、Vm以及常识特征实值向量Vc进行注意力计算，得到视频最终的特征向量表示Φ(V)，其实现方法如下：

步骤4-1，利用注意力机制，计算常识特征实值向量Vc对运动特征实值向量Vm的关注，得到常识特征关注的运动特征Φ_c(V_m)；

本实施例中，通过使用注意力机制，对视频运动特征实值向量Vm进行处理，计算出运动特征对常识特征任意时刻t的权重

然后加权得到任意时刻t常识特征相关的运动特征向量

这使得运动特征包含更丰富的常识信息，有利于提高描述文本生成内容的多样性。

步骤4-2，利用注意力机制，计算常识特征实值向量Vc对帧特征实值向量Vf的关注，得到常识特征关注的帧特征Φ_c(V_f)；

本实施例中，通过使用注意力机制，对视频帧特征实值向量Vf进行处理，计算出帧特征对常识特征任意时刻t的权重

然后加权得到任意时刻t常识特征相关的运动特征向量

这使得帧特征包含更丰富的常识信息，也有助于提高描述文本生成内容的多样性。

步骤5，将视频特征表示Φ(V)以及问题文本通过描述网络生成视频描述文本Dw，其实现方法如下：

本实施例中，考虑到不同单词组合的意思是不同的，根据单词之间的注意力计算它们之间的关联性，得到短语表示矩阵P_t＝[p_1,t……p_j,t]以及注意力权重矩阵A_t＝[α_1,t……α_j,t]，该方法能挖掘问题单词间的语义关系，有助于模型对问题语义的理解。

本实施例中，通过计算不同短语和视频特征的关联性：

并综合关联性选择最相关的视频特征：

进而得到不同的语义特征组表示：

接着计算不同语义特征组对历史特征的关联性：

最后结合所有语义特征组得到最终的视频语义特征表示：

这对视频描述的信息选择和定位有着极大的帮助，使得视频描述的内容能够抓住视频和问题双方面的核心信息。

上式中，在任意一个时间步t，β_i,j,t表示短语对p_i,t和视频特征v_j的相关得分，其中σ表示tanh激活函数，

步骤5-6，将视频语义特征Φ_atten(V)(t)输入至LSTM网络中，生成该时间步的视频描述单词w；

步骤5-7，循环步骤5-4至5-6生成视频描述单词，直到生成结束标识<EOS>为止完成视频描述的生成，最终得到视频相应的描述文本Dw＝{w₁,w₂,……,w_n}，其中n表示单词的个数。

步骤6，将视频特征表示Φ(V)以及问题文本通过描述网络生成视频描述文本Dw，其实现方法如下：

步骤6-2，将关键词列表的每一个单词作为节点，进行关联知识的查询，选择关联权重最高的i个关系生成相应的描述信息Dk＝{Dk₁,Dk₂,……,Dk_i}，其中Dk_i表示第i个关键词对应的描述信息；

步骤6-3，将视频描述文本Dw以及所有关键词的描述信息的Dk进行合并，作为最终的视频描述文本Vd。

步骤7，对视频描述文本Vd和问题文本进行特征提取，利用问答处理网络对两者进行处理，将处理结果输入到分类器中得到预测的答案，结合知识库信息判断预测的准确性，完成基于描述文本的视频问答，其实现方法如下：

步骤7-3，利用预训练的BERT模型将视频描述文本序列转化为固定维度的词向量集合D＝{d₁,d₂,……,d_m}，其中d_m表示视频描述第n个单词对应的词向量表示。

本方法将视频的视觉信息通过相应的描述文本来表示，在视频描述生成的过程中，对问题的单词组计算了注意力权重，使得生成的描述与问题关联性更强，此外还利用先验知识库对描述内容进行补充，使描述文本中包含更丰富的信息，在答案推理的过程中可以充分利用单模态融合的优势，避免多模态融合过程中视频特征保留不够的问题，因此能大大提高问答结果的准确性。

本实施例中，为了生成结果更符合实际，选择了比较预测答案和标准答案的语义相关性，并且这个语义相关性是通过知识库扩充的，有助于改善问题答案的匹配能力，问题的答案只要语义足够相似即为预测正确，形式不同是可以接受的，这也符合生活实际。

以下对本发明作进一步的说明。

本实施例在数据集MSVD-QA和MSRVTT-QA上进行了测试，MSVD-QA数据集是一个拥有5K个问题的小数据集，这些问题来源于1970个视频片段，可分为what，who，how，when和where这5种类型，MSRVTT-QA数据集包含了243K个问题，它们来源于10K个视频片段，问题的类型与MSVD-QA数据集类似，但其视频包含更复杂的场景，视频的平均时间也更长。由于所有的问题均为开放式回答，因此对回答的所有5类问题均以准确率进行评估。如表1所示，表1为MSVD-QA数据集上本方法和现有方法的效果对比，从表中可以看出，本方法相比现有的ST-VQA(时空注意力网络)、Co-Mem(协同注意记忆网络)以及HME(异构记忆增强网络)方法的效果都要好。

表1

	What	Who	How	When	Where	All
							ST-VQA	0.181	0.500	0.838	0.724	0.286	0.313
Co-Mem	0.196	0.487	0.816	0.741	0.317	0.317
							HME	0.224	0.501	0.730	0.707	0.429	0.337
本方法	0.237	0.513	0.746	0.682	0.413	0.372

如表2所示，表2为MSRVTT-QA数据集上本方法和现有方法的效果对比，从表中可以看出，本方法的效果总体同样优于其它方法。

表2

	What	Who	How	When	Where	All
							ST-VQA	0.245	0.412	0.780	0.765	0.349	0.309
Co-Mem	0.239	0.425	0.741	0.690	0.429	0.32
							HME	0.265	0.436	0.824	0.760	0.286	0.33
本方法	0.266	0.445	0.824	0.731	0.322	0.364

综上所述，本发明引入了视频描述机制以及先验知识库，将视频所包含的信息不再用高层次神经网络的中间状态来表示，而是通过相应的描述文本来表示，进而将文本问答的一些技巧如知识库等运用到视频问答中，以提高视频问答的效果，同时，对于视频描述文本与问题描述做多层次的交互处理，以提高文本语义匹配的能力，进而更好的预测出答案，实验在MSVD-QA以及MSRVTT-QA两个数据集上进行，结果表明，本发明相较与其它现有方法回答的准确性有所提高。