CN113807222B

CN113807222B - 基于稀疏采样进行端到端训练的视频问答方法与系统

Info

Publication number: CN113807222B
Application number: CN202111042753.5A
Authority: CN
Inventors: 王若梅; 欧锐植; 周凡
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2023-06-27
Anticipated expiration: 2041-09-07
Also published as: CN113807222A

Abstract

本发明公开了一种基于稀疏采样进行端到端训练的视频问答方法。包括：对输入的视频进行稀疏采样得到相同时长的N个视频片段；将采样得到的每一个视频片段进行视觉编码、时间融合、位置嵌入，生成该视频片段的视频特征序列；对文本信息编码得到词向量序列，并对其进行位置嵌入；将N个视频片段特征序列和词向量序列进行交叉模型融合和预测，得到N个预测结果，最后再将N个预测结果融合得到最终答案；输入视频和问题到模型中预测问题答案。本发明也公开了一种基于稀疏采样进行端到端训练的视频问答的系统、设备及存储介质。本发明通过稀疏采样解决视频问答任务的方法，相对于基于注意力模型视频问答方法，本发明模型收敛更快，预测准确性更高。

Description

基于稀疏采样进行端到端训练的视频问答方法与系统

技术领域

本发明涉及计算机视觉，自然语言处理技术领域，具体涉及一种基于稀疏采样进行端到端训练的视频问答的方法、计算机设备及计算机可读存储介质。

背景技术

近年来，视觉和语言理解任务因其包含了真实世界的动态场景信息而受到越来越多的关注。它有助于有效聚合海量数据，为在线学习提供教育资源。视频问答在深度视觉和语言理解方面起着至关重要的作用。视频问答的主要目标是学习一个模型，该模型需要理解视频和问题中的语义信息，以及它们的语义关联，以预测给定问题的正确答案。在视频问答中应用了多种人工智能技术，包括对象检测和分割、特征提取、内容理解、分类等。综合表现的评估指标是答对问题的百分比。视频问答可以应用于许多实际应用中，如用户自由提问的视频内容检索，视障人士的视频内容理解等。视频问答打破了视觉和语言的语义鸿沟，从而促进了视觉理解和人机交互。

视频问答的研究是推动计算机视觉和自然语言处理研究领域发展的一项重要而具有挑战性的任务。目前，视频问答仍有大量的空间进行进一步的研究和性能改进。现有的解决方法主要是利用其他任务中已训练好的视觉和语言模型来从视频和问答对中提取密集特征，然后用这些特征去训练神经网络模型。但由于其他任务中已训练好的模型往往是次优的，提取出的特征可能缺失了回答问题所需的信息，并不能完全契合视频问答任务的要求。而且存在一个突出的性能问题是视频包含的数据量大，从完整视频中提取出的特征多，进行模型训练时需要大量的资源设备支持，耗费的时间长，更无法支持端到端的模型训练。

目前的现有技术之一，一种基于注意力模型的视频问答方法。该方法基于编码解码的框架进行设计，采用端到端的方式学习视频的视觉信息和语义信息。该发明自主设计帧模型来提取视频的特征向量。在编码阶段，通过长短期记忆网络学习视频的场景特征表示，并将其作为解码阶段文本模型的初始状态输入，同时，在文本模型中加入的注意力机制能够有效的增强视频帧和问题之间的联系，更好的解析出视频的语义信息。该方法的缺点是从视频中提取的特征向量数据量大，当数据集非常大时难以进行端到端训练。

目前的现有技术之二，利用结合关系互动的视频转换器解决视频问答任务的方法。该方法设计一种利用结合关系互动的视频转换器模型完成对于视频问答任务的答案获取。通过训练得到最终的视频转换器模型，利用该模型生成视频问答任务的答案。该方法的缺点是提出的视频转换器模型无法准确提取到回答问题所需要的信息，导致生成问题的答案准确率较低。

目前的现有技术之三，利用自适应的时空图模型通过提升视频-语言表征学习来解决视频问答问题的方法及其系统。该方案首先针对一组视频、问题、答案训练集，使用目标检测器获取每个视频帧的目标级别的信息。其次，对于目标级别的信息，使用自适应的时空图模型学到目标的动态表达。最后，使用Transformer模型学习视觉和文本信息之间的联系，增强视觉问答的性能。该方案的缺点是其使用预训练好的目标检测器来提取视频的信息和特征，因为目标检测器是使用其他任务的数据集进行训练的，提取出的特征可能缺失了回答问题所需的信息，导致最终生成的答案不准确，不完整。

发明内容

本发明的目的是克服现有方法的不足，提出了基于稀疏采样进行端到端训练的视频问答方法、系统、设备及存储介质。本发明解决的主要问题，一是现有利用预训练好的模型提取视觉特征以及文本特征，不能完整地提取出视频问答任务的特征表示，导致最终生成的答案不准确，不完整，本发明通过分析与问题注意力较高的视频片段，进行端到端训练使得所得到的答案准确度更高；二是视频包含的数据量大，训练模型需要大量的资源设备支持，耗时耗力，本发明通过稀疏采样，筛选掉大量与问答无关片段训练，节约了大量训练资源。

为了解决上述问题，本发明提出了一种基于稀疏采样进行端到端训练的视频问答方法，所述方法包括：

收集视频片段数据集，将完整视频进行稀疏采样，选取其中注意力权重高的N个视频片段进行训练；

利用所述采样得到的每一个视频片段进行预处理，对其视觉编码、时间融合、位置嵌入等，生成该视频片段的视频特征序列，构造视频数据集；

利用可训练的词嵌入网络对问题文本信息进行编码，进行位置嵌入操作，得到文本词向量序列，构造问题文本词向量数据集；

将所述预处理后的N个视频特征序列与所述文本词向量序列进行交叉模型融合和预测，得到N个预测结果，将N个预测结果融合得到最终预测答案；

初始化神经网络模型结构中的权重参数，使用所述收集的视频和问答数据集，进行端到端训练，直到损失函数的结果收敛到合适阈值。

输入待处理问题和对应的视频到所述训练后的模型中，利用其生成预测答案，并使用测试集对模型的准确性进行测试，得出模型在测试集上的准确率。

优选地，所述收集视频片段数据集，将完整视频进行稀疏采样，选取其中注意力权重高的若干视频片段进行训练，具体为：

对完整视频进行稀疏采样处理；

将视频切分成时长适当且相同的多个视频片段，利用时间注意力模型得到每个视频片段的注意力权重，选取注意力权重高的N个视频片段进行训练。

优选地，所述采样得到的视频片段进行预处理，对其视觉编码、时间融合、位置嵌入等，生成视频特征序列，构造视频数据集，具体为：

在每一个视频片段中均匀采样适当帧，对于每一帧，使用卷积神经网络进行视觉编码，利用额外的卷积层以减小输出的特征长度，利用最大池化层进行空间下采样，每一帧得到对应的特征图。

将所述特征图进行时间融合，使用平均池化将帧层次的特征图按时间顺序聚合成一张视频片段层次的特征图，再对所述特征图进行位置嵌入，基于特征图中的特征向量的2维位置，添加行位置嵌入向量和列位置嵌入向量，得到该视频片段的视频特征序列。

优选地，所述在利用可训练的词嵌入网络对问题文本信息进行编码，进行位置嵌入操作，得到文本词向量序列，构造问题文本词向量数据集，具体为：

利用词嵌入网络中可训练的神经网络将问题文本中的词转换成向量，将所有词向量结合得到一个词向量序列；再对所述词向量序列进行位置嵌入，根据词的位置信息，添加一个可训练的位置嵌入向量到每个词向量中。

优选地，所述将所述预处理后的N个视频特征序列与所述文本词向量序列进行交叉模型融合和预测，并将每个视频片段的预测结果融合得到最终预测答案，具体为：

将所述每一个视频特征序列与文本词向量序列连接起来输入12层的Transformer模型进行交叉模型融合和预测，得到预测结果P_i：

P_i＝Trans(F_v(c_i),F_l(S))

其中，Trans表示12层Transformer模型，F_v表示视觉编码器，F_l表示语言编码器，c_i表示第i个采样的视频片段，S表示问题文本序列。

使用平均池化技术对所述得到的N个预测结果进行融合，得到该问题在整个视频层次的最终的预测答案。定义整个模型的损失函数l_task：

l_task＝L(G(P₁，P₂，…，P_N)，q)

其中，G表示预测答案的聚合函数，q表示问题的正确答案。

优选地，所述使用图像问答任务的预训练模型初始化ResNet-50的权重参数，再使用基于BERT的视觉和语言模型初始化词嵌入神经网络和Transformer的权重参数。

优选地，所述使用训练好的视频问答神经网络模型进行视频问答预测，使用测试集对模型准确性进行测试，比较模型生成的预测答案与测试集正确答案，得出模型在测试集上的准确率。

相应地，本发明还提供了一种基于稀疏采样进行端到端训练的视频问答系统，包括：

视频预处理单元，将完整视频进行稀疏采样，选取其中注意力权重高的若干视频片段进行训练；

视频数据集构造单元，利用所述采样得到的每一个视频片段进行预处理，对其视觉编码、时间融合、位置嵌入等，生成该视频片段的视频特征序列，构造视频特征序列数据集；

文本数据集构造单元，利用可训练的词嵌入网络对问题文本信息进行编码，进行位置嵌入操作，得到文本词向量序列，构造文本词向量数据集；

答案预测单元，将所述预处理后的N个视频特征序列与所述文本词向量序列进行交叉模型融合和预测得到N个预测结果，并将N个预测结果融合得到最终预测答案；

相应地，本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行上述视频问答方法的步骤。

相应地，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述视频问答方法的步骤。

实施本发明，具有如下有益效果：

本发明采用基于稀疏采样的端到端训练来解决视频问答问题。与通过预训练好的视觉和语言模型提取出密集特征进行训练相比，本发明训练所需的资源负担更小，网络收敛速度更快；实现了端到端训练，训练得到的特征提取网络是完全契合视频问答任务的，预测准确性更高；能够对网络结构进行微调和修改，也能更改特征提取网络结构，具有更好的扩展性。

附图说明

图1是本发明实施例的基于稀疏采样进行端到端训练的视频问答方法的总体流程图；

图2是本发明实施例的模型训练的流程图；

图3是基于稀疏采样进行端到端训练的视频问答系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例的基于稀疏采样进行端到端训练的视频问答方法的总体流程图，如图1所示，该方法包括：

S1，对输入的完整视频进行稀疏采样，得到N个视频片段用于训练。

S2，对所述采样得到的每个视频片段进行视觉编码、时间融合、位置嵌入等操作，生成的特征图平铺成一个嵌入序列来表示该视频片段的视频特征序列。

S3，使用可训练的词嵌入网络作为语言编码器对问题的文本信息进行编码，得到文本词向量序列，再进行位置嵌入操作。

S4，利用所述每一个视频片段特征序列和所述词向量序列进行交叉模型融合和预测，得到N个预测结果，将N个预测结果进行融合形成最终的预测答案。

S5，初始化神经网络模型结构中的权重参数，整理和调整数据集，进行端到端训练，直到损失函数的结果收敛到合适阈值，训练完成后得到视频问答模型；输入待处理问题和对应的视频到所述训练后的视频问答模型中，利用其生成预测答案。

步骤S1，具体如下：

S1-1，利用时间注意力机制对输入的完整视频进行稀疏采样，得到时长适当且相同的的视频片段，利用时间注意力模型得到每个视频片段的权重，选取注意力权重高的N个视频片段(例如总视频片段的5％)进行训练。

步骤S2，具体如下：

S2-1，对所述每一个视频片段进行均匀采样T个帧，对于每一帧，使用2维的卷积神经网络ResNet-50进行视觉编码，利用一个卷积层以减小输出的特征长度，再利用2x2的最大池化层进行空间下采样，最终得到T张对应的特征图。

S2-2，将所述编码得到的T张特征图进行时间融合。使用平均池化将T张特征图按时间顺序聚合成一张视频片段层次的特征图，该特征图包含T个视频帧的视觉信息和时间发生先后的时序信息。

S2-3，对上述所述特征图进行2维位置嵌入。基于所述特征图中的每个特征向量的2维位置，添加一个行位置嵌入向量和一个列位置嵌入向量，强调原帧图像中物体的位置信息，得到该视频片段的特征序列。

步骤S3，具体如下：

S3-1，利用可训练的神经网络将问题文本中的每个词转换成词向量，将所有词向量结合得到一个词向量序列。

S3-2，根据词的位置信息，为每个词向量添加一个可训练的位置嵌入向量到词向量序列中得到文本词向量序列。

步骤S4，具体如下：

S4-1，将所述文本词向量序列与N个视频片段特征序列连接输入12层的Transformer模型进行交叉模型融合和预测，得到N个预测结果，预测结果为P_i:

P_i＝Trans(F_v(c_i),F_l(S))

Transformer模型是采用编码器-解码器架构的，它的编码器部分由6个编码器子模块堆叠构成。每个编码器子模块有两层，一个是自注意力层，利用自注意力机制学习事物内部的上下文关系；一个是前馈神经网络层，属于简单的全连接网络。解码器部分同样由6个解码器小模块堆叠组成。每个解码器小模块有三层，其中两层跟编码器小模块一致，中间还有一层注意力层，帮助当前节点获取到当前需要关注的重点内容。

S4-2，使用平均池化技术对上述得到的N个预测结果P₁,P₂,…,P_N进行融合，得到该问题在整个视频层次的最终的预测答案。定义整个模型的损失函数l_task：

l_task＝L(G(P₁,P₂,…,P_N),q)

其中，G表示预测答案的聚合函数，q表示问题的正确答案。

步骤S5，如图2所示，具体如下：

S5-1，利用其他预训练模型初始化模型中的权重参数。首先使用图像问答任务的预训练模型初始化ResNet-50的权重参数，有效提取到视频帧图像的边缘特征。再使用基于BERT的视觉和语言模型初始化词嵌入神经网络和Transformer的权重参数；

利用所述收集的视频特征序列数据集和文本词向量序列数据集进行端到端训练，直到损失函数的结果收敛到合适阈值，训练完成后得到视频问答模型；

输入待处理问题和对应的视频到所述训练后的视频问答模型中进行视频问答预测，得到预测的问题答案。

相应地，本发明还提供了一种基于稀疏采样进行端到端训练的视频问答的模型训练流程图，如图3所示，包括：

视频预处理单元1，用于收集视频特征序列数据集，将完整视频进行稀疏采样，

具体地，使用时间注意力机制对完整视频进行稀疏采样得到时长相当且相同的若干视频片段，选取注意力权重高的适当比例数量的N个视频片段进行训练。

视频数据集构造单元2，将所述注意力权重高的若干视频片段进行视觉编码、时间融合、位置嵌入等操作生成视频片段的特征序列。

具体地，对所述视频片段均匀采样T个帧，使用2维卷积神经网络网络ResNet-50对每一帧进行视觉编码，使用卷积层减小输出特征长度，利用2x2的最大池化层进行空间下采样，得到对应的T张特征图。使用平均池化将帧层次的T张特征图按照时间顺序聚合成一张视频片段层次的特征图。对特征图中的每个特征向量添加一个行位置嵌入向量和一个列位置嵌入向量，得到相应视频片段的相应特征序列图。

文本数据集构造单元3，利用可训练的词嵌入网络对问题文本信息进行编码，进行位置嵌入操作，得到文本词向量序列，构造文本词向量数据集。

具体地，使用词嵌入网络中可训练的神经网络将问题文本中的每个词转换成向量，将所有词向量结合得到一个词向量序列，根据词的位置信息，对每个词向量，添加一个可训练的位置嵌入向量到词向量序列中。

答案预测单元4，将所述预处理后的视频特征序列与所述文本词向量序列进行交叉模型融合和预测，并将每个视频片段的预测结果融合得到最终预测答案。

具体地，将N个视频特征序列和文本词向量序列连接输入12层的Transformer模型进行交叉模型融合和预测得到N个预测结果，预测结果为P_i：

P_i＝Trans(F_v(c_i)，F_l(S))

使用平均池化技术对上述得到的N个预测结果进行融合，得到该问题在整个视频层次的最终的预测答案。

定义整个模型的损失函数：

l_task＝L(G(P₁，P₂，…，P_N)，q)

其中，G表示预测答案的聚合函数，q表示问题的正确答案。

因此，本发明采用基于稀疏采样的端到端训练来解决视频问答问题。与通过预训练好的视觉和语言模型提取出密集特征进行训练相比，本发明训练所需的资源负担更小，网络收敛速度更快；实现了端到端训练，训练得到的特征提取网络是完全契合视频问答任务的，预测准确性更高；能够对网络结构进行微调和修改，也能更改特征提取网络结构，具有更好的扩展性。

相应地，本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述视频问答方法的步骤。同时，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述视频问答方法的步骤。

以上对本发明实施例所提供的基于稀疏采样进行端到端训练的视频问答的方法、系统、设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于稀疏采样进行端到端训练的视频问答方法与系统，其特征在于，所述方法包括：

收集视频片段数据集，将完整视频进行稀疏采样，选取其中注意力权重高的N个视频片段；

利用所述采样得到的每一个视频片段进行预处理，对其视觉编码、时间融合、位置嵌入，生成该视频片段的视频特征序列；

利用可训练的词嵌入网络对问题文本信息进行编码，进行位置嵌入操作，得到文本词向量序列；

将所述N个视频片段得到的N个视频特征序列分别与所述文本词向量序列进行交叉模型融合和预测，得到N个预测结果，再将N个预测结果进行融合得到最终预测答案；

初始化神经网络模型结构中的权重参数，进行端到端训练，至损失函数的结果收敛到合适阈值，训练完成后得到视频问答模型；

输入待处理问题和对应的视频到所述训练后的视频问答模型中，利用其生成预测答案；

其中，所述利用采样得到的每一个视频片段进行预处理，对其视觉编码、时间融合、位置嵌入，生成该视频片段的视频特征序列，具体为：

在视频片段中均匀采样T个帧，使用卷积神经网络对每一帧进行视觉编码，利用卷积层减小特征长度，利用最大池化层进行空间下采样，使用平均池化将帧层次的特征图按时间顺序聚合成一张视频片段层次的特征图，再基于特征图中的特征向量的2维位置，添加行位置嵌入向量和列位置嵌入向量，对所述特征图进行位置嵌入；

其中，所述利用可训练的词嵌入网络对问题文本信息进行编码，进行位置嵌入操作，得到文本词向量序列，具体为：

利用词嵌入网络中可训练的神经网络将问题文本中的词转换成向量，将所有词向量结合得到一个词向量序列，再根据词的位置信息，添加可训练的位置嵌入向量到每个词向量中，对所述词向量序列进行位置嵌入；

其中，所述将所述N个视频片段得到的N个视频特征序列分别与所述文本词向量序列进行交叉模型融合和预测，得到N个预测结果，再将N个预测结果进行融合得到最终预测答案，具体为：

将所述每一个视频特征序列与文本词向量序列连接起来输入12层的Transformer模型进行交叉融合和预测，共得到N个预测预测结果，P_i为预测结果：

P_i＝Trans(F_v(c_i),F_l(S))

其中，Trans表示12层Transformer模型，F_v表示视觉编码器，F_l表示语言编码器，c_i表示第i个采样的视频片段，S表示问题文本序列；

使用平均池化对N个预测结果进行融合，得到整个视频的最终预测答案；

其损失函数l_task具体为：

l_task＝L(G(P₁,P₂,…,P_N),q),

其中，G表示预测答案的聚合函数，q表示问题的正确答案。

2.如权利要求1所述的基于稀疏采样进行端到端训练的视频问答方法与系统，其特征在于，所述将完整视频稀疏采样进行预处理，具体为：

对完整视频进行稀疏采样处理，将视频切分成时长适当且相同的多个视频片段，利用时间注意力模型得到每个视频片段的注意力权重，选取注意力权重高的若干个视频片段进行训练。

3.一种基于稀疏采样进行端到端训练的视频问答的系统，其特征在于，所述系统包括：

视频预处理单元，用于收集视频片段数据集，将完整视频进行稀疏采样，选取其中注意力权重高的N个视频片段；

视频数据集构造单元，用于利用所述采样得到的每一个视频片段进行预处理，对其视觉编码、时间融合、位置嵌入，生成该视频片段的视频特征序列；

文本数据集构造单元，用于利用可训练的词嵌入网络对问题文本信息进行编码，进行位置嵌入操作，得到文本词向量序列；

答案预测单元，用于将所述N个视频片段得到的N个视频特征序列分别与所述文本词向量序列进行交叉模型融合和预测，得到N个预测结果，再将N个预测结果进行融合得到最终预测答案；初始化神经网络模型结构中的权重参数，进行端到端训练，至损失函数的结果收敛到合适阈值，训练完成后得到视频问答模型；输入待处理问题和对应的视频到所述训练后的视频问答模型中，利用其生成预测答案；

其中，所述视频数据集构造单元中利用采样得到的每一个视频片段进行预处理，对其视觉编码、时间融合、位置嵌入，生成该视频片段的视频特征序列，具体为：

其中，所述文本数据集构造单元中利用可训练的词嵌入网络对问题文本信息进行编码，进行位置嵌入操作，得到文本词向量序列，具体为：

其中，所述答案预测单元中将所述N个视频片段得到的N个视频特征序列分别与所述文本词向量序列进行交叉模型融合和预测，得到N个预测结果，再将N个预测结果进行融合得到最终预测答案，具体为：

P_i＝Trans(F_v(c_i),F_l(S))

其损失函数l_task具体为：

l_task＝L(G(P₁,P₂,…,P_N),q),

其中，G表示预测答案的聚合函数，q表示问题的正确答案。

4.如权利要求3所述的基于稀疏采样进行端到端训练的视频问答的系统，其特征在于，所述视频预处理单元，需要对完整视频进行稀疏采样处理，将视频切分成时长适当且相同的多个视频片段，利用时间注意力模型得到每个视频片段的注意力权重，选取注意力权重高的N个视频片段进行训练。

5.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至2中任一项所述的方法的步骤。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至2中任一项所述的方法的步骤。