CN108921087A

CN108921087A - 视频理解方法

Info

Publication number: CN108921087A
Application number: CN201810699566.6A
Authority: CN
Inventors: 李扬曦; 杜翠兰; 佟玲玲; 王晶; 缪亚男; 胡卫明; 王博; 邓智方; 张宏源
Original assignee: Institute of Automation of Chinese Academy of Science; National Computer Network and Information Security Management Center
Current assignee: Institute of Automation of Chinese Academy of Science; National Computer Network and Information Security Management Center
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2018-11-30

Abstract

本发明涉及计算机视觉技术领域，具体涉及一种视频理解方法，旨在解决如何有效提取视频的密集帧特征和长期时空特征的技术问题。为此目的，本发明提供的视频理解方法首先利用残差网络获取目标视频的视频帧组，然后利用时序关系网络并根据多个视频帧组生成视频的时序关系特征，最后根据时序关系特征预测目标视频的视频行为类别。其中，视频帧组包括两个有序视频帧，每个有序视频帧均包括多个按照时间顺序依次排列的视频帧。基于上述步骤，能够有效获取到目标视频的密集帧特征和长期时空特征，进而可以快速且准确地预测出目标视频的视频行为类别。

Description

视频理解方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种视频理解方法。

背景技术

相比于静态图像，视频包含一维时序信息，因此视频能够承载更多的运动信息。根据这些运动信息可以预测未来一段时间内可能发生的动作。在计算机视觉技术领域中主要按照下列步骤进行视频理解：特征提取、分类模型学习和行为分类。其中，“特征提取”的步骤主要包括基于人工设计技术的特征提取和基于机器学习技术的特征提取。

“基于人工设计技术的特征提取”主要包括：采样局部视频子块并统计每个局部视频子块的特征(即局部特征提取)。具体地，首先检测局部时空兴趣点，然后统计局部时空兴趣点。但是这种特征提取方法不能有效处理具有长期时间结构的运动。

“基于机器学习技术的特征提取”主要是利用卷积神经网络和机器学习算法构建视频识别模型，进而利用该视频识别模型获取视频特征。例如，利用图像序列深度卷积网络模型或双流卷积神经网络模型等模型提取视频特征。但是这种特征提取方法往往不能提取密集帧特征。

发明内容

为了解决现有技术中的上述问题，即为了解决如何有效提取视频的密集帧特征和长期时空特征的技术问题。为此目的，本发明提供了一种视频理解方法。

在第一方面，本发明中的视频理解方法包括下列步骤：

获取目标视频的多个视频帧组；

基于预设的残差网络提取每个所述视频帧组对应的单视频帧特征；

基于预设的时序关系网络并根据所述单视频帧特征生成时序关系特征；

根据所述时序关系特征和预设的视频行为类别，预测所述目标视频对应的视频行为类别；

其中，所述残差网络和时序关系网络均是基于深度神经网络并利用机器学习算法构建的网络；所述视频帧组包括两个有序视频帧，所述有序视频帧包括多个按照时间顺序依次排列的视频帧。

进一步地，本发明提供的一个优选技术方案是：

“获取目标视频的多个视频帧组”的步骤包括：

对所述目标视频进行抽样处理得到多个视频帧；

对所述视频帧进行随机抽取得到两个包含特定数量视频帧的视频帧序列；

将每个所述视频帧序列中的视频帧按照时间顺序依次排列得到有序视频帧；

根据所述有序视频帧构建所述视频帧组。

进一步地，本发明提供的一个优选技术方案是：

所述视频帧组中每个有序视频帧均包括d+1个按照时间顺序依次排列的视频帧；

其中，1≤d≤N，所述N是视频帧组的总数。

进一步地，本发明提供的一个优选技术方案是：

所述时序关系特征如下式所示：

T(V)＝T₁(V)+T₂(V)+...+T_d(V)+...+T_N(V)

其中，所述V表示目标视频，T(V)是所述目标视频V对应的时序关系特征，所述T_d(V)是所述目标视频V的第d个视频帧组对应的时序关系特征且1≤d≤N，所述N是视频帧组的总数。

进一步地，本发明提供的一个优选技术方案是：

所述时序关系特征T_d(V)如下式所示：

T_d(V)＝h_φ∑g_θ(f₁,...,f_k,...,f_d+1)

其中，所述f_k是第d个视频帧组中第k个有序视频帧对应的单视频帧特征且1≤k≤d+1，所述h_φ和g_θ分别表示预设的感知器。

进一步地，本发明提供的一个优选技术方案是：

所述感知器h_φ是单层感知器并且所述单层感知器中神经元的数量与所述视频行为类别的数量相同；

所述感知器g_θ是双层感知器。

进一步地，本发明提供的一个优选技术方案是：

所述残差网络是基于ResNet-50网络框架构建的深度残差网络。

进一步地，本发明提供的一个优选技术方案是：

所述深度残差网络包括四层残差子网络和一个池化层；

其中，按照由浅至深的顺序每层所述残差子网络分别包括3个残差块、4个残差块、6个残差块和3个残差块。

进一步地，本发明提供的一个优选技术方案是：

所述时序关系网络是基于TRN网络框架构建的网络。

与最接近的现有技术相比，上述技术方案至少具有如下有益效果：

本发明中的视频理解方法首先利用残差网络获取目标视频的视频帧组，然后利用时序关系网络并根据多个视频帧组生成视频的时序关系特征，最后根据时序关系特征预测目标视频的视频行为类别。其中，视频帧组包括两个有序视频帧，每个有序视频帧均包括多个按照时间顺序依次排列的视频帧。也就是说，利用残差网络和时序关系网络得到的时序关系特征相当于获取到了目标视频的密集帧特征和长期时空特征，进而可以根据时序关系特征快速且准确地预测出目标视频的视频行为类别。

附图说明

图1是本发明实施例中一种视频理解方法的主要步骤示意图；

图2是本发明实施例中一种视频帧组的示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

参阅附图1，图1示例性示出了本实施例中一种视频理解方法的主要步骤。如图1所示，本实施例中的视频理解方法可以包含如下步骤：

步骤S101：获取目标视频的多个视频帧组。

本实施例中的视频帧组可以包括两个有序视频帧，每个有序视频帧可以包括多个按照时间顺序依次排列的视频帧。

具体地，在本实施例中可以按照如下步骤获取目标视频的视频帧组：

步骤S1011：对目标视频进行抽样处理得到多个视频帧。

参阅附图2，图2示例性示出了本实施例中的一种视频帧组。如图2所示，本实施例中对目标视频进行抽样处理可以得到视频帧1～视频帧12。可选地，本实施例中可以利用平均抽样方法对目标视频进行抽样处理。

步骤S1012：对视频帧进行随机抽取得到两个包含特定数量视频帧的视频帧序列。在本实施例的一个优选实施方案中，视频帧组中的每个有序视频帧均可以包括d+1个按照时间顺序依次排列的视频帧。其中，1≤d≤N，N是视频帧组的总数。

继续参阅附图2，本实施例中当获取目标视频帧的视频帧组1时对视频帧1～视频帧12进行随机抽取可以得到包含视频帧1和视频帧9的视频帧序列(为描述简洁，将该视频帧序列描述为“视频帧序列1”)以及包含视频帧10和视频帧5的视频帧序列(为描述简洁，将该视频帧序列描述为“视频帧序列2”)。当获取目标视频帧的视频帧组1时对视频帧1～视频帧12进行随机抽取可以得到包含视频帧3、视频帧8和视频帧12的视频帧序列(为描述简洁，将该视频帧序列描述为“视频帧序列3”)以及包含视频帧10、视频帧1和视频帧4的视频帧序列(为描述简洁，将该视频帧序列描述为“视频帧序列4”)。当获取目标视频帧的视频帧组3时对视频帧1～视频帧12进行随机抽取可以得到包含视频帧2、视频帧5、视频帧12和视频帧9的视频帧序列(为描述简洁，将该视频帧序列描述为“视频帧序列5”)。

步骤S1013：将每个视频帧序列中的视频帧按照时间顺序依次排列得到有序视频帧。

继续参阅附图2，本实施例中可以将视频帧序列1～视频帧序列5中的视频帧按照时间顺序依次排列可以得到有序视频帧1～有序视频帧5。其中，有序视频帧1包括依次排列的视频帧1和视频帧9。有序视频帧2包括依次排列的视频帧5和视频帧10。有序视频帧3包括依次排列的视频帧3、视频帧8和视频帧12。有序视频帧4包括依次排列的视频帧1、视频帧4和视频帧10。有序视频帧5包括依次排列的视频帧2、视频帧5、视频帧9和视频帧12。

步骤S1014：根据有序视频帧构建视频帧组。

继续参阅附图2，本实施例中可以根据有序视频帧1和有序视频帧2构建视频帧组1，可以根据有序视频帧3和有序视频帧4构建视频帧组2，可以将有序视频帧5作为视频帧组3的第1个有序视频帧，而视频帧组3的第2个有序视频帧的获取方法与第1个有序视频帧的获取方法相同，为了描述简洁在此不再赘述。

步骤S102：基于预设的残差网络提取每个视频帧组对应的单视频帧特征。

具体地，本实施例中残差网络可以是基于深度神经网络并利用机器学习算法构建的网络。

在本实施例的一个优选实施方案中，残差网络可以是基于ResNet-50网络框架构建的深度残差网络，该深度残差网络可以包括四层残差子网络和一个池化层。可选的，按照由浅至深的顺序每层残差子网络分别包括3个残差块、4个残差块、6个残差块和3个残差块，池化层可以是全局平均池化层，单视频帧特征对应的像素尺寸是1×1。

步骤S103：基于预设的时序关系网络并根据单视频帧特征生成时序关系特征。具体地，本实施例中时序关系网络可以是基于深度神经网络并利用机器学习算法构建的网络。可选的，时序关系网络可以是基于TRN(Temporal Relational Network)网络框架构建的网络。

本实施例中时序关系特征如下式(1)所示：

T(V)＝T₁(V)+T₂(V)+...+T_d(V)+...+T_N(V) (1)

公式(1)中各参数含义是：

V表示目标视频，T(V)是目标视频V对应的时序关系特征，目标视频V的第d个视频帧组对应的时序关系特征T_d(V)如下式(2)所示：

T_d(V)＝h_φ∑g_θ(f₁,...,f_k,...,f_d+1) (2)

公式(2)中各参数含义是：

f_k是第d个视频帧组中第k个有序视频帧对应的单视频帧特征且1≤k≤d+1，h_φ和g_θ分别表示预设的感知器。可选的，本实施例中感知器h_φ是单层感知器并且单层感知器中神经元的数量与视频行为类别的数量相同，感知器g_θ是双层感知器。

例如，第1个视频帧组对应的时序关系特征T₁(V)＝h_φ∑g_θ(f₁,f₂)，第2个视频帧组对应的时序关系特征T₂(V)＝h_φ∑g_θ(f₁，f₂，f₃)，第3个视频帧组对应的时序关系特征T₃(V)＝h_φ∑g_θ(f₁,f₂,f₃,f₄)。

步骤S104：根据时序关系特征和预设的视频行为类别，预测目标视频对应的视频行为类别。

具体地，本实施例中可以根据时序关系特征计算每个视频行为类别对应的概率，然后将最大概率值对应的视频行为类别作为目标视频的视频行为类别。

进一步地，在本实施例中利用图1所示的视频理解方法预测目标视频的视频行为类别之前，还可以按照如下步骤对残差网络和时序关系网络进行网络训练：

步骤S201：利用步骤S1011～步骤S1014公开的方法获取多个预设的视频数据集的多个视频帧组。可选的，本实施例中的视频数据集可以是Something-Something视频数据集，Jester视频数据集和Charades视频数据集。

步骤S202：对残差网络进行参数权重初始化以及对多个视频数据集进行批量标准化，并且对残差网络进行参数正则化处理防止发生参数过拟合。

可选地，本实施例中可以利用基于ImageNet数据集完成网络训练的训练方法中所采用参数权重初始化方法对残差网络进行参数权重初始化，以及该训练方法中所采用的批量标准化处理方法对视频数据集进行批量标准化。

步骤S203：根据残差网络的输出数据并按照预设的分类损失函数对时序关系网络进行网络训练。其中，每个视频数据集对应的训练超参数的数值相同。可选的，本实施例中时序关系网络的双层感知器g_θ中每层感知网络均可以包括256个神经元。进一步地，本实施例中可以将完成网络训练的残差网络和时序关系网络存储为npz格式的文件。

上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述，但是本领域技术人员可以理解，为了实现本实施例的效果，不同的步骤之间不必按照这样的次序执行，其可以同时(并行)执行或以颠倒的次序执行，这些简单的变化都在本发明的保护范围之内。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在本发明的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”和“包括”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种视频理解方法，其特征在于包括：

获取目标视频的多个视频帧组；

2.根据权利要求1所述的视频理解方法，其特征在于，“获取目标视频的多个视频帧组”的步骤包括：

对所述目标视频进行抽样处理得到多个视频帧；

根据所述有序视频帧构建所述视频帧组。

3.根据权利要求1所述的视频理解方法，其特征在于，

其中，1≤d≤N，所述N是视频帧组的总数。

4.根据权利要求1-3中任一项所述的视频理解方法，其特征在于，所述时序关系特征如下式所示：

T(V)＝T₁(V)+T₂(V)+...+T_d(V)+...+T_N(V)

5.根据权利要求4所述的视频理解方法，其特征在于，所述时序关系特征T_d(V)如下式所示：

T_d(V)＝h_φ∑g_θ(f₁,...,f_k,...,f_d+1)

6.根据权利要求5所述的视频理解方法，其特征在于，

所述感知器g_θ是双层感知器。

7.根据权利要求1-3中任一项所述的视频理解方法，其特征在于，

所述残差网络是基于ResNet-50网络框架构建的深度残差网络。

8.根据权利要求7所述的视频理解方法，其特征在于，

所述深度残差网络包括四层残差子网络和一个池化层；

9.根据权利要求1-3中任一项所述的视频理解方法，其特征在于，

所述时序关系网络是基于TRN网络框架构建的网络。