CN113327268A

CN113327268A - 一种自约束视频活动预测方法及系统

Info

Publication number: CN113327268A
Application number: CN202110577016.9A
Authority: CN
Inventors: 王树徽; 戚兆波; 黄庆明
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2021-08-31

Abstract

本发明提出一种自约束视频活动预测方法和系统。包括：提取待预测视频中每帧的该视觉特征F＝{F₁，F₂，...，F_o}，并通过第一特征聚合模型处理该视觉特征F，得到最后观测时刻o的特征表示h_o；获取指定的预测帧数a，根据视觉特征F和h_o迭代预测下一时刻的特征表示，直到预测第o+a帧的特征表示，保存第o+1帧到第o+a帧的特征表示作为该待预测视频的预测结果。本发明通过迭代预测提高了活动预测的准确性。

Description

一种自约束视频活动预测方法及系统

技术领域

本发明涉及计算机视觉的视频活动预测技术，特别涉及针对视频数据的高层语义表征学习技术。

背景技术

视频活动预测技术是计算机视觉领域的重要研究课题之一，具有广泛的应用前景。例如，在人机交互场景下，为保证机器与人的密切合作，机器需要预判人类接下来的行为；在自动驾驶场景中，为保证行车安全，自动驾驶系统需要预判是否有行人穿过马路并产生相应的系统控制命令。活动预测算法需要根据观测视频数据预测未来多个时刻发生的活动。因此，活动预测算法需要解决如何充分利用观测视频数据和已预测结果进行后续预测的问题。

目前，活动预测的经典模型是递归序列预测，即模型通过编码所有观测到的视频片段，来预测下一个时刻会发生的活动。重复这个过程，直到活动预测的目标时刻。Y.AbuFarha提出RU-LSTM模型，该算法利用两个LSTM(Long Short-Term Memory,长短期记忆网络)和一个模态注意力机制来处理基于视频帧、光流和物体的视觉特征，迭代预测未来发生的活动。从本质上讲，这些递归序列预测模型通过观测到的视频内容获取初始视觉表征，基于初始表征预测后续时刻的特征表示。但是，这些预测表征可能存在误差，无法准确表示对应时刻的真实视频内容，从而导致较差的活动预测结果。此外，如果将它们直接用于后续预测，持续累积的误差可能导致不准确的最终预测结果。因此为了解决这一问题，模型需要充分利用活动视频中包含的丰富信息，以获取准确的特征表示用于目标活动预测。具体讲，一方面，活动视频包含一系列语义和表观具有较大变化的活动。比如“做早餐”这个视频可能包含“放煎饼”，“拿刀”，“打开黄油”，“取黄油”、“涂抹黄油”和“关闭黄油”等一系列活动。这些活动具有明显不同的语义信息，且可以由不同外观表征的视频关键帧表示，即构成帧内活动的主体和客体是不同的。模型可以利用这些语义和表观变化来修正预测的特征表示。另一方面，活动视频中不同的活动间具有多样化的依赖关系。例如，“黄油”可以出现在“打开黄油”，“涂抹黄油”和“关闭黄油”等活动中，而“涂抹黄油”似乎与“拿刀”有着较强的上下文联系。模型可以利用这些依赖关系增强预测特征的表示能力。

发明内容

本发明的目的是针对视频活动预测中递归序列预测模型存在的预测误差累积问题，提出了一种自约束视频活动预测算法。

针对现有技术的不足，本发明提出一种自约束视频活动预测方法，其中包括：

步骤1、提取待预测视频中每帧的视觉特征3＝{F₁,F₂,...,F_o}，并通过第一特征聚合模型处理该视觉特征F，得到最后观测时刻o的特征表示h_o；

步骤2、获取指定的预测帧数a，根据视觉特征F和h_o迭代预测下一时刻的特征表示，直到预测第o+a帧的特征表示，保存第o+1帧到第o+a帧的特征表示作为该待预测视频的预测结果；

其中，该步骤2中根据视觉特征F和h_o迭代预测下一时刻的特征表示的过程具体包括：

步骤21、根据特征表示h_o和t-1时刻预测的特征表示

利用第二特征聚合模型得到t时刻的初始特征表示

其中当前预测时刻t属于{o+1,o+2,...,o+a}中的任意一个时刻；

步骤22、将该特征表示

作为正样本，提取多个与该待预测视频相关视频的特征作为负样本集，集合该正样本和该负样本集作为特征表示集合；

步骤23、根据该特征表示集合和该初始特征表示

构建损失函数，通过调整该第二特征聚合模型中的参数最小化该损失函数，将该损失函数最小时对应的该初始特征表示

作为修正后的特征表示

步骤24、计算修正后的特征表示

与视觉特征F中各特征的相似度，得到相似度向量

基于该相似度向量s_t，获取待预测视频中的有用信息

步骤25、使用第三特征聚合模型聚合有用信息

修正后的特征表示

和t-1时刻预测的特征表示

得到当前预测时刻t完整的特征表示

所述的自约束视频活动预测方法，其中步骤22中该相关视频包括与该待预测视频语义信息相似度大于阈值的画面内容。

所述的自约束视频活动预测方法，其中步骤21包括：根据该相关视频的活动标签，将每个相关视频分成多个片段，从具有不同活动标签的视频片段中随机抽取样本作为该负样本集。

所述的自约束视频活动预测方法，其中t时刻对应的该损失函数

其中，运算符*代表点积，特征表示集合X包含一个正样本和N-1个负样本

所述的自约束视频活动预测方法，其中该步骤24包括：

相似度向量

表示视觉特征F中每个观测时刻的特征表示与当前预测时刻的特征表示间的相关性，其中

表示在观察时刻j的特征表示F_j与当前时刻修正后的特征表示

之间的相关性，其可以通过以下公式获取：

其中运算符*表示点积，使用该相似度向量获取有用信息

本发明还提出了一种自约束视频活动预测系统，其中包括：

模块1，用于提取待预测视频中每帧的视觉特征F＝{F₁,F₂,...,F_o}，并通过第一特征聚合模型处理该视觉特征F，得到最后观测时刻o的特征表示h_o；

模块2，用于获取指定的预测帧数a，根据视觉特征F和h_o迭代预测下一时刻的特征表示，直到预测第o+a帧的特征表示，保存第o+1帧到第o+a帧的特征表示作为该待预测视频的预测结果；

其中，该模块2中根据视觉特征F和h_o迭代预测下一时刻的特征表示的过程具体包括：

模块21，用于根据特征表示h_o和t-1时刻预测的特征表示

利用第二特征聚合模型得到t时刻的初始特征表示

其中当前预测时刻t属于{o+1,o+2,...,o+a}中的任意一个时刻；

模块22、将该特征表示

模块23，用于根据该特征表示集合和该初始特征表示

作为修正后的特征表示

模块24，用于计算修正后的特征表示

与视觉特征F中各特征的相似度，得到相似度向量

基于该相似度向量s_t，获取待预测视频中的有用信息

模块25、使用第三特征聚合模型聚合有用信息

修正后的特征表示

和t-1时刻预测的特征表示

得到当前预测时刻t完整的特征表示

所述的自约束视频活动预测系统，其中模块22中该相关视频包括与该待预测视频语义信息相似度大于阈值的画面内容。

所述的自约束视频活动预测系统，其中模块21包括：根据该相关视频的活动标签，将每个相关视频分成多个片段，从具有不同活动标签的视频片段中随机抽取样本作为该负样本集。

所述的自约束视频活动预测系统，其中t时刻对应的该损失函数

所述的自约束视频活动预测系统，其中该模块24包括：

相似度向量

表示在观察时刻j的特征表示F_j与当前时刻修正后的特征表示

之间的相关性，其可以通过以下公式获取：

其中运算符*表示点积，使用该相似度向量获取有用信息

由以上方案可知，本发明的优点在于：

经典的视频活动预测算法递归序列预测模型面临预测误差累积的问题，导致目标活动的预测准确性较差。该发明充分利用视频中丰富的时空语义结构信息，提出自约束视频活动预测算法。一方面，利用对比损失对递归序列预测模型的中间预测特征进行修正，使模型产生的预测特征能准确表达对应时刻的视频内容，提高了活动预测的性能。另一方面，利用动态加权机制增强了递归序列预测模型的中间预测特征的表征能力，提升了活动预测效果。此外，利用多任务学习框架增强递归序列预测模型对目标活动预测的预测能力，使模型在目标时刻既可以预测目标活动，又可以预测与目标活动相关的动作与物体，提升活动预测的准确性。

附图说明

图1为本发明流程图。

具体实施方式

为了实现上述技术效果本申请提出了以下关键技术点：

关键点1：利用对比损失对递归序列预测模型的中间预测特征进行修正；在技术效果上，使递归序列预测模型产生的中间特征能准确表达对应时刻视频包含的语义信息，提升活动预测准确性。

关键点2：利用动态加权机制增强递归序列预测模型产生的中间预测特征的表征能力；在技术效果上，使递归序列预测模型产生的中间特征具有更强的表示能力，提升活动预测效果。

关键点3：利用多任务学习框架增强递归序列预测模型的目标活动预测能力；在技术效果上，使递归序列预测模型在目标时刻既可以预测目标活动，又可以预测与目标活动相关的动作与物体，提升活动预测的准确性。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

视频活动预测任务的目标是通过观测长度为τ_o的视频片段来预测经过τ_a时刻后视频中发生的活动。为方便建模，对活动视频的观测部分和预测部分，本算法每隔δ秒提取一帧，最终获取视频观测部分o帧，并表示为I＝{I₁,I₂,...,I_o}，视频预测部分a帧,即对于递归序列预测模型而言，模型需要迭代预测a次，才会到达目标预测时刻t_s。本发明提出了一种自约束视频活动预测算法，算法包含三个主要模块，分别是观测视频编码模块，迭代预测模块，目标活动预测模块。附图1为本发明的算法流程图。

首先是观测视频编码模块。给定视频观测部分的视频帧I＝{I₁,I₂,...,I_o}，本算法利用特征提取器φ(例如TSN,I3D等模型)提取每个视频帧的视觉特征，从而获取视频观测部分的特征表示F＝{F₁,F₂,...,F_o}，然后利用特征聚合函数Φ(例如GRU)获取最后观测时刻o的特征表示h_o。

其次是迭代预测模块。给定F＝{F₁,F₂,...,F_o}和h_o，迭代预测模块将迭代预测下一时刻的特征表示，直到目标预测时刻t_s。为了更直观的表示模型的迭代预测过程，我们假设模型已经迭代预测了多个时刻的特征表示，当前到达了预测时刻t，这里的t可能是{o+1,o+2,...,o+a}中的任意一个时刻。给定最后观测时刻o的特征表示h_o和模型在t-1时刻预测的特征表示

本算法首先利用一个GRU预测t时刻的初始特征表示

其中当t＝o+1时，我们取

为F_o和

为h_o。

但是这样获取的初始特征无法准确表示对应时刻的视频内容，如果将其直接应用于后续预测将导致错误的积累和不准确的最终预测结果。

为了得到准确的特征表示，我们利用对比损失函数修正预测的中间特征。具体讲，视频内容包含的高层语义信息具有时序一致性。活动视频包含的一系列活动间既有密切联系，又有各自特点，可以通过高层语义表示来准确识别。但是在训练阶段，我们无法获取视频预测部分的活动标签，从而没法直接优化预测的特征表示。而一种新的无监督学习范式对比损失已广泛应用于图像和语音识别任务中，它能够优化特征表示空间中样本对的相似性，用于高维数据的无监督表示学习。因此，本发明使用对比损失来加强不同活动间的特征差异，从而增强预测特征的表示能力。

本算法采用对比损失函数InfoNCE，其基本思想是构建一个能在一组样本中正确区分目标的二值分类任务。给定时刻t的初始特征表示

和特征表示集合

修正预测特征表示的损失函数可以表示为如下形式：

其中，运算符*代表点积。特征表示集合X包含一个正样本

和N-1个随机采样的负样本

正样本

通过将当前预测时刻的视频帧输入特征提取器φ获取,如附图1所示，在模型训练阶段训练GRU1和GRU2两个模型，而特征提取器φ不需要训练。该损失函数只在模型训练阶段使用，在模型测试阶段是不需要运行该函数的。对于负样本，为了能够对特征表示进行有效的修正，我们期望负样本集合中既包含与目标样本语义信息相似(但不同)的样本又包含与目标样本语义信息不同的样本。具体讲，本算法根据活动标签将每个视频分成多个片段，然后从具有不同活动标签的视频片段中随机抽取样本作为选定的负样本集合。从本质上讲，这些负样本可能来自与正样本具有相同或不同编号的视频。考虑到目前活动预测数据集的构建特点，这些正样本和负样本可能是由同一演员在同一厨房场景中记录的，也可能是不同演员在同一厨房场景中记录的。那么这种设置可以更好地保证负样本的多样性和相似性，从而保证修正特征表示操作的有效性。通过最小化这一损失函数，本算法可以获取修正后的预测特征表示

该损失函数主要用于优化提取该特征表示的模型，优化后通过模型可以得到更准确的表征。在测试阶段，直接利用该表征，并没有额外的操作，所以修正前后使用了同一个符号。

通过构建的损失函数，优化提取该初始预测特征

的GRU模型。损失函数利用该初始预测表征

和构建的特征表示集合计算损失值，然后优化GRU模型参数，通过当前批次的训练，GRU模型参数发生变化，后续再利用该GRU模型提取初始预测表征时，可以得到更准确的预测表征。实际是GRU模型的参数发生了变化，从而可以得到更准确的预测特征表示，后续再计算损失时，可以使损失函数变小。

接下来本算法将解决如何从视频观察部分获取与当前预测时刻视频内容相关的有用信息的问题，从而进一步增强预测特征的表示能力。对于包含一系列活动的视频，不同活动间有明显的语义相关性。例如，在预测时刻t出现的活动“涂黄油”与视频观测部分出现的物体“煎饼”、“刀”、“黄油”和动作“打开”等密切相关。因此，本算法提出了一个动态加权机制，能够根据观测视频帧表示与当前预测特征表示的相关性动态调整不同观测视频帧的重要性，从而加强那些真正相关的观测视频帧对增强预测特征表示能力的贡献。具体讲，算法定义了相似度向量

表示每个观测时刻的特征表示与当前预测时刻的特征表示之间的相关性。比如

表示在观察时刻j的特征表示与当前时刻的特征表示之间的相关性，其可以通过以下公式获取，

其中运算符*表示点积。然后算法使用该相似度向量获取观察视频中的有用信息

现在，

表示当前预测时刻的视频内容，

包含了观测视频中与当前预测时刻相关的视频内容，这两种表示可以有效互补，提高特征表示能力。为了充分利用它们，本算法使用另一个GRU层来获得更完整的特征表示

最后是目标活动预测模块。经过a次迭代预测后，我们得到了目标预测时刻t_s的特征表示

此外，每个目标活动都包含有用的语义上下文信息。例如活动“关闭黄油”可以用中层语义动作“关闭”和物体“黄油”来表示，它们揭示了目标活动的主体和客体。因此，我们可以利用这些语义上下文信息进一步增强算法的活动预测能力。具体讲，本算法构造了两个辅助预测任务，使用两个单独的全连接层，并利用softmax激活函数来预测与目标活动相关的动作和物体的概率分布

和

其中W_v和W_n是可学习的参数，

是特征表示

和

的串联。本算法通过最小化动作分类和物体分类的交叉熵损失L_v和L_n来优化这两个辅助任务。

此外，本算法的最终目标是获取目标预期时刻的活动类别，通过带有softmax激活函数的线性层，可以计算出目标预测时刻的活动概率分布

其中W_a是可学习的参数，

是特征表示

和

的串联，本算法通过优化交叉熵损失L_a来优化活动预期模型。最终本算法的总体损失函数如下

其中α,β∈[0,1]。公式第三项是所有时刻的对比损失的总和。

多时刻活动预测。本算法可以预测未来多个时刻发生的活动，预测过程遵循递归序列预测模式。具体讲，给定一个观测视频片段，本算法首先获得该视频片段的特征表示，在每一个预测时刻t，本算法可以通过迭代预测模块得到最终的特征表示

一方面通过目标活动预测模块利用

获取当前时刻的活动类别。另一方面，

也可以通过迭代预测模块和目标活动预测模块预测下一个时刻发生的活动。通过迭代输入之前时刻预测的特征表示到迭代预测模块和目标活动模块，可以得到多个时刻的活动预测结果。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

本发明还提出了一种自约束视频活动预测系统，其中包括：

模块21，用于根据特征表示h_o和t-1时刻预测的特征表示

利用第二特征聚合模型得到t时刻的初始特征表示

其中当前预测时刻t属于{o+1,o+2,...,o+a}中的任意一个时刻；

模块22、将该特征表示

模块23，用于根据该特征表示集合和该初始特征表示

作为修正后的特征表示

模块24，用于计算修正后的特征表示

与视觉特征F中各特征的相似度，得到相似度向量

基于该相似度向量s_t，获取待预测视频中的有用信息

模块25、使用第三特征聚合模型聚合有用信息

修正后的特征表示

和t-1时刻预测的特征表示

得到当前预测时刻t完整的特征表示

所述的自约束视频活动预测系统，其中该模块24包括：

相似度向量

表示在观察时刻j的特征表示F_j与当前时刻修正后的特征表示

之间的相关性，其可以通过以下公式获取：

其中运算符*表示点积，使用该相似度向量获取有用信息

Claims

1.一种自约束视频活动预测方法，其特征在于，包括：

步骤1、提取待预测视频中每帧的该视觉特征F＝{F₁，F₂，...，F_o}，并通过第一特征聚合模型处理该视觉特征F，得到最后观测时刻o的特征表示h_o；

步骤21、根据特征表示h_o和t-1时刻预测的特征表示

利用第二特征聚合模型得到t时刻的初始特征表示

其中当前预测时刻t属于{o+1，o+2，...，o+a}中的任意一个时刻；

步骤22、将该特征表示

步骤23、根据该特征表示集合和该初始特征表示

作为修正后的特征表示

步骤24、计算修正后的特征表示

与视觉特征F中各特征的相似度，得到相似度向量

基于该相似度向量s_t，获取待预测视频中的有用信息

步骤25、使用第三特征聚合模型聚合有用信息

修正后的特征表示

和t-1时刻预测的特征表示

得到当前预测时刻t完整的特征表示

2.如权利要求1所述的自约束视频活动预测方法，其特征在于，步骤22中该相关视频包括与该待预测视频语义信息相似度大于阈值的画面内容。

3.如权利要求1或2所述的自约束视频活动预测方法，其特征在于，步骤21包括：根据该相关视频的活动标签，将每个相关视频分成多个片段，从具有不同活动标签的视频片段中随机抽取样本作为该负样本集。

4.如权利要求1所述的自约束视频活动预测方法，其特征在于，t时刻对应的该损失函数

5.如权利要求1所述的自约束视频活动预测方法，其特征在于，该步骤24包括：

相似度向量

表示在观察时刻j的特征表示F_j与当前时刻修正后的特征表示

之间的相关性，其可以通过以下公式获取：

其中运算符*表示点积，使用该相似度向量获取有用信息

6.一种自约束视频活动预测系统，其特征在于，包括：

模块1，用于提取待预测视频中每帧的视觉特征F＝{F₁，F₂，...，F_o}，并通过第一特征聚合模型处理该视觉特征F，得到最后观测时刻o的特征表示h_o；

模块21，用于根据特征表示h_o和t-1时刻预测的特征表示

利用第二特征聚合模型得到t时刻的初始特征表示

模块22、将该特征表示

模块23，用于根据该特征表示集合和该初始特征表示

作为修正后的特征表示

模块24，用于计算修正后的特征表示

与视觉特征F中各特征的相似度，得到相似度向量

基于该相似度向量s_t，获取待预测视频中的有用信息

模块25、使用第三特征聚合模型聚合有用信息

修正后的特征表示

和t一1时刻预测的特征表示

得到当前预测时刻t完整的特征表示

7.如权利要求6所述的自约束视频活动预测系统，其特征在于，模块22中该相关视频包括与该待预测视频语义信息相似度大于阈值的画面内容。

8.如权利要求1或2所述的自约束视频活动预测系统，其特征在于，模块21包括：根据该相关视频的活动标签，将每个相关视频分成多个片段，从具有不同活动标签的视频片段中随机抽取样本作为该负样本集。

9.如权利要求6所述的自约束视频活动预测系统，其特征在于，t时刻对应的该损失函数

10.如权利要求6所述的自约束视频活动预测系统，其特征在于，该模块24包括：

相似度向量

表示在观察时刻j的特征表示F_j与当前时刻修正后的特征表示

之间的相关性，其可以通过以下公式获取：

其中运算符*表示点积，使用该相似度向量获取有用信息