CN112738647A

CN112738647A - 一种基于多层级编码-解码器的视频描述方法及系统

Info

Publication number: CN112738647A
Application number: CN202011581321.7A
Authority: CN
Inventors: 郑慧诚; 余明静; 王腾; 刘泽华
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-04-30
Anticipated expiration: 2040-12-28
Also published as: CN112738647B

Abstract

本发明公开了一种基于多层级编码‑解码器的视频描述方法及系统，该方法包括：获取视频并基于多层级编码器进行编码处理，构建目标图和事件图；基于多层级解码器对目标图和事件图进行解码，得到句子序列和单词序列，基于多任务学习完成文本描述任务和句子标签预测任务。该系统包括：编码模块和解码模块。本发明基于多层级编码器和多层级解码器，能够挖掘语句中细粒度的关系并提升描述性能。本发明作为一种基于多层级编码‑解码器的视频描述方法及系统，可广泛应用于视频处理领域。

Description

一种基于多层级编码-解码器的视频描述方法及系统

技术领域

本发明属于视频处理领域，尤其涉及一种基于多层级编码-解码器的视频描述方法及系统。

背景技术

密集视频描述任务的目标是对未修剪视频中的多个事件进行时间位置检测与自然语言描述，该任务近年来吸引了越来越多研究者的关注。密集视频描述包括两个子任务，时序事件提名任务和事件描述任务。前者的目的是检测事件的时间范围，后者是对该事件生成一句自然语言描述。事件描述网络需要以准确、强大的事件特征作为输入，而事件的精准时间边框是特征构建的基础，因此绝大多数现有模型分两步完成密集描述：先实现精准的事件提名预测，再进一步进行事件描述。现有方法中，大多数模型忽略了多粒度的层次结构及语义元素间的关系建模，这往往使得描述语句中对细粒度元素的刻画不精确,对目标间、事件间相互关系的阐述不清晰。

发明内容

为了解决上述技术问题，本发明的目的是提供一种基于多层级编码-解码器的视频描述方法及系统，能够挖掘语句中细粒度的关系并提升描述性能。

本发明所采用的第一技术方案是一种基于多层级编码-解码器的视频描述方法，包括以下步骤：

S1、获取视频并基于多层级编码器进行编码处理，构建目标图和事件图；

S2、基于多层级解码器对目标图和事件图进行解码，得到句子序列和单词序列，完成文本描述任务和句子标签预测任务。

进一步，还包括：

构建多任务损失函数并基于损失函数更新多层级编码器和多层级解码器。

进一步，所述多层级编码器包括事件层级图卷积层、图池化层和目标层级图卷积层，所述多层级解码器包括句子记忆器和描述生成器，所述损失函数包括句子级别损失和单词级别损失。

进一步，所述获取视频并基于多层级编码器进行编码处理，构建目标图和事件图这一步骤，其具体包括：

获取视频并对视频进行处理，得到视频帧图像并基于深度神经网络提取视频帧卷积特征；

基于目标层级图卷积层对视频帧卷积特征进行处理，提取目标信息并根据目标的时间关系和空间关系构建目标图；

基于图池化层将目标图层级图卷积层信息聚合并传递给事件层级图卷积层；

基于事件层级图卷积层对目标图进行处理，提取事件信息并根据事件之间的时间关系构建事件图。

进一步，所述根据目标的时间关系和空间关系构建目标图，具体规则为：

判断到时间关系Sim(o_i,o_j)＞0.3且空间关系IOU(o_i,o_j)＞0.5，建立两个目标对象o_i,o_j之间的边，所述Sim(·)表示外观相似度度量，所述IOU(·)表示计算空间交互比。

进一步，所述根据事件之间的时间关系构建事件图，具体规则为：

判断到两个事件之间存在共现关系

建立事件之间的边；

判断到两个事件之间存在邻近关系

建立事件之间的边；

其中

表示事件i,j的结束时间，

表示事件i,j的开始时间，U_i,j代表两个事件的并集的长度，|d_i,j|代表了两个事件的边界点的距离。

进一步，所述基于多层级解码器对目标图和事件图进行解码，得到句子序列和单词序列，完成文本描述任务和句子标签预测任务这一步骤，其具体包括：

基于句子记忆器对事件图进行解码处理，结合前一句子的信息解码得到所有事件的句子，按顺序生成句子序列；

基于描述生成器按顺序对目标图进行解码处理，结合句子序列和前一单词的信息完成所有目标图的解码，生成单词序列；

基于句子序列和单词序列完成文本描述任务和句子标签预测任务。

本发明所采用的第二技术方案是：一种基于多层级编码-解码器的视频描述系统，包括以下模块：

编码模块，用于获取视频并基于多层级编码器进行编码处理，构建目标图和事件图；

解码模块，用于基于多层级解码器对目标图和事件图进行解码，得到句子序列和单词序列。

本发明方法及系统的有益效果是：本发明提出一种针对未修剪视频建模的多层级图，包括一个事件图与多个目标图。事件图着重建模多事件之间的时间联系，目标图着重建模同一事件下多目标之间的时空关系，借助于本发明的多层级编码器和多层级解码器，能够挖掘细粒度的视觉关系并提升描述性能。

附图说明

图1是本发明具体实施例总体流程图；

图2是本发明具体实施例多层级编码器的结构示意图；

图3是本发明具体实施例一种基于多层级编码-解码器的视频描述方法的步骤流程图；

图4是本发明具体实施例一种基于多层级编码-解码器的视频描述系统的结构框图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

参照图1和图3，本发明提供了一种基于多层级编码-解码器的视频描述方法，该方法包括以下步骤：

具体地，多层级编码器结构参照图2，本发明构造两种类型的图来表示视频中的层次结构，即目标图和事件图，在小尺度上，我们构造了几个单独的目标图，每个目标图代表一个事件。通过应用堆叠的图卷积层来推理目标间的关联，得到每个目标的关系性特征。在大尺度上，我们构造一个事件图来表示整个视频，并在其上应用图卷积进行事件层级的关系推理。对于每种类型，我们通过节点之间的特定关系来构造它，并对其执行图卷积。由于图的边连接是非全连接的，因此能够有效节省运算量且避免噪声信息，同时图卷积可推理具有丰富语义的关系性特征。

具体地，本发明同样在解码阶段对多粒度的解码过程进行建模，首先将事件解码为句子层级的大尺度特征，然后利用描述生成器进行精细化地解码，生成更为具体的单词，同时完成句子标签的预测任务和文本描述任务。

进一步作为本方法的优选实施例，还包括：

构建损失函数并基于损失函数更新多层级编码器和多层级解码器。

具体地，损失函数由句子级别损失L^sent与单词级别损失L^word的加权，权衡因子为λ。

L＝L^word+λL^sent

对于单词层级的预测任务，我们的目标是在给定视频后，预测某个单词序列的概率。这等价于：给定视频V，事件提名p_i与当前时刻以前生成的单词w_:t-1时，网络预测下一个单词的概率的累乘。因此，我们定义一个视频中所有事件的损失值为：

是与p_i匹配的ground-truth语句的长度

对于句子层级的预测任务，目标是给定过去事件及语句的信息，预测下一个事件中出现的单词频次。我们采用一种多标签间隔损失：

其中τ(y_i)＝{(p,q)|p∈W_i,p≠q},W_i表示出现在{y₁,y₂,...y_i,}中的单词集合。

进一步作为本方法优选实施例，所述多层级编码器包括事件层级图卷积层、图池化层和目标层级图卷积层，所述多层级解码器包括句子记忆器和描述生成器，所述损失函数包括句子级别损失和单词级别损失。

进一步作为本发明的优选实施例，所述获取视频并基于多层级编码器进行编码处理，构建目标图和事件图这一步骤，其具体包括：

具体地，对于目标图G_o，每个节点都代指一个目标框，每个边表示两个节点之间的关系。给定任意两个节点，我们考虑两种类型的关系来确定两个节点之间的边是否存在：空间关系和时间关系。注意到视频中目标间存在复杂的空间关联，例如，在草地场景下，“狗”经常与“飞盘”一同出现，这是一种共现关系；又如，大量视频中的“电脑”的空间位置往往与“鼠标”临近，“勺子”经常与“锅”的空间位置往往存在交叠。基于以上观察，我们认为空间信息是度量目标关系的重要特征，当相邻帧中的两个对象距离较近或存在重叠时，空间关系就会存在。

此外，本发明还考虑时间上的关系变化，事件中的主要目标(如行为者、行为接受者、显著物体)往往在多帧都出现，随着行为的进行，同一个目标可能存在位置、旋转、拍摄角度等变化。我们将同一目标在多帧上的动态变化信息称为时间关系。时间关系可以联合不同帧中多个表观相似的目标框共同建模同一个目标的行为，这种关系对于动作的识别尤为重要。

具体地，对于事件图G_e，视频中的事件通常表示为一维时间框，因此我们主要利用事件之间的时间关系。对于每个事件-事件对，我们将它们的时间交并比(tIOU)和相对距离作为时间关系的判断。如果两个事件的交并比较高，则它们的语义是相关的，因为它们共享一部分视觉信息，这种关系我们称之为共现关系。同样，较小的相对距离通常表示两个事件是相邻的，这意味着它们可能包含两个顺序发生的行为，我们称之为临近关系。

进一步作为本发明优选实施例，所述根据目标的时间关系和空间关系构建目标图，具体规则为：

进一步作为本发明优选实施例，所述根据事件之间的时间关系构建事件图，具体规则为：

判断到两个事件之间存在共现关系

建立事件之间的边；

判断到两个事件之间存在邻近关系

建立事件之间的边；

其中

表示事件i,j的结束时间，

表示事件i,j的开始时间，U_i,j代表两个事件的并集的长度。当d_i,j＞0时，等价于两个事件存在交叠，共现关系的强弱即两个事件的交叠比大小；当d_i,j≤0时，两个事件没有交集。|d_i,j|代表了两个事件的边界点的距离，即后发生的事件开始时间与先发生的事件的截止时间的差值，邻近关系衡量了两个不交叠事件的距离长短。

进一步作为本方法的优选实施例，所述基于多层级解码器对目标图和事件图进行解码，得到句子序列和单词序列，完成文本描述任务和句子标签预测任务。这一步骤，其具体包括：

具体地，我们以序列的方式生成所有事件{p₁,p₂,...p,_n}对应的语句为{s₁,s₂,..s._n,}。随着一个新的语句生成，记忆向量

便会更新：

其中

表示事件图G_e的节点特征向量；

表示RNN中的隐藏状态；

表示上一个句子s_i-1的特征，从描述生成器中获得的。

然后，我们需要设计一个指导信号g_i，用来初始化描述生成器的隐藏状态，进而生成下一个句子。另外，考虑到并非所有句子都需要历史信息作为指导，存在某些句子并不依赖于高层的文本上下文，而仅仅依赖于事件内部的细粒度视觉信息，我们添加一个门控α_i来控制高层特征和底层特征的平衡。具体而言，该指导信号通过下式获得：

其中·代表逐点乘法，

是目标图中节点特征的平均池化；σ表示sigmoid激活函数，FC(·)代表一个全连接层；当α_i≈0，表示某个句子并不依赖于历史文本信息，当α_i≈1时，代表该句子强烈依赖于历史文本。

基于描述生成器按顺序对目标图进行解码处理，结合句子序列和前一单词的信息完成所有目标图的解码，生成单词序列。

基于多任务学习完成文本描述任务和句子标签预测任务。

具体地，为了实现视觉模态特征到文本模态的转换，我们采用基于RNN的描述生成器按顺序生成单词序列。描述生成器中隐藏状态的更新策略为：

其中

分别代表目标层级的注意力特征，以及当生成第i个事件的第t′个单词时的RNN隐藏层状态。w_i,t′-1代表第t′-1个单词的one-hot向量，FC(w_i,t′-1)是上一个单词的编码向量。

目标的注意力特征

来自于注意力机制，其中查询(query)为

键(key)与值(value)都是目标图中的关系性特征

在预测第t′个单词时，注意力机制能够自动判断目标图中哪个或哪些节点的信息需要重点关注，它实现了单词与目标的软对齐。

注意到，我们使用目标图的细粒度特征指导单词的生成，而没有直接利用事件图中的节点特征，这里也体现了多层级语义对齐的思想。

在我们的模型中，我们采用广泛使用的软注意力(soft attention)机制作为ATT(·,·,·)。接着，注意力特征后接一个全联接层与softmax层预测下一个单词w_i,t′的概率分布:

通过RNN的循环过程，我们可以得到所有事件及其对应的句子，且这些句子能感知到周围事件的信息。

如图4所示，一种基于多层级编码-解码器的视频描述系统，包括以下模块：

上述系统实施例中的内容均适用于本方法实施例中，本方法实施例所具体实现的功能与上述系统实施例相同，并且达到的有益效果与上述系统实施例所达到的有益效果也相同。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。