CN107480642A

CN107480642A - 一种基于时域分段网络的视频动作识别方法

Info

Publication number: CN107480642A
Application number: CN201710712620.1A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-08-18
Filing date: 2017-08-18
Publication date: 2017-12-15

Abstract

本发明中提出的一种基于时域分段网络的视频动作识别方法，其主要内容包括：基于分段抽样的时域分段网络(TSN)、聚合函数和分析、时域分段网络的输入与训练策略和未裁剪视频中的动作识别，其过程为，先将视频划分成等长的持续时间，然后从对应的片段中随机抽取一个片段，该序列中的每个片段都会产生动作类的片段级预测，并且设计一个共同函数，将这些片段级预测聚合到视频级别分数中，在训练过程中，在视频级预测中定义优化目标，并通过迭代更新模型参数进行优化。本发明基于片段的采样和聚合模块来建立长期时间结构，能够通过使用整个动作视频有效地学习动作模型，同时能保存长时间的视频，而且能提高对于动作的检测和识别的灵敏度和准确度。

Description

一种基于时域分段网络的视频动作识别方法

技术领域

本发明涉及动作识别领域，尤其是涉及了一种基于时域分段网络的视频动作识别方法。

背景技术

随着科学技术的高速发展与社会的进步，人们日常生活中的方方面面都用到了视频获取技术，但是人们在获取了海量的视频数据后，往往需要人为地观看、判别和标记视频中的动作。因此，视频动作识别技术越来越受到人们的关注，应用范围也越来越广，如识别和分析自动售货机、ATM机、商场、车站等公共场合的监控录像中可疑人物的行为、篮球比赛中的投篮动作分析、分析舞蹈视频进行练习、识别和检测道路驾驶中司机的危险动作、家庭中老人和小孩的危险行为预警，甚至是在人机交互中计算机结合面部表情对人体动作进行识别和分析等。然而，传统方法中训练深度卷积神经网络需要较大的训练样本，但是这方面的数据资源却是有限的，而且其有限的存储空间严重限制了视频的持续时间，会导致视频丢失重要信息。

本发明提出了一种基于时域分段网络的视频动作识别方法，先将视频划分成几段等长的持续时间，然后从其对应的片段中随机抽取一个片段；该序列中的每个片段都会产生动作类的片段级预测，并且设计一个共同函数，将这些片段级预测聚合到视频级别分数中，在训练过程中，在视频级预测中定义优化目标，并通过迭代更新模型参数进行优化。本发明基于片段的采样和聚合模块来建立长期时间结构，能够通过使用整个动作视频有效地学习动作模型，同时能保存长时间的视频，而且能提高对于动作的检测和识别的灵敏度和准确度。

发明内容

针对存储空间有限的问题，本发明的目的在于提供一种基于时域分段网络的视频动作识别方法，先将视频划分成几段等长的持续时间，然后从其对应的片段中随机抽取一个片段；该序列中的每个片段都会产生动作类的片段级预测，并且设计一个共同函数，将这些片段级预测聚合到视频级别分数中，在训练过程中，在视频级预测中定义优化目标，并通过迭代更新模型参数进行优化。

为解决上述问题，本发明提供一种基于时域分段网络的视频动作识别方法，其主要内容包括：

(一)基于分段抽样的时域分段网络(TSN)；

(二)聚合函数和分析；

(三)时域分段网络的输入与训练策略；

(四)未裁剪视频中的动作识别。

其中，所述的基于分段抽样的时域分段网络(TSN)，基于分段的抽样确保抽样片段将沿时间维度均匀分布，无论动作视频持续多长时间，抽样片段总是涵盖整个视频的内容，因此能够在整个视频中建立长范围的时间结构；

首先将视频划分成几段等长的持续时间，然后从其对应的片段中随机抽取一个片段；该序列中的每个片段都会产生动作类的片段级预测，并且设计一个共同函数，将这些片段级预测聚合到视频级别分数中；这个视频级别的分数比原始的片段级预测更可靠，因为它捕获了整个视频的长期信息；在训练过程中，在视频级预测中定义优化目标，并通过迭代更新模型参数进行优化；

给定视频V，将其划分为相等持续时间的K个片段{S₁,S₂,…,S_K}；每个片段T_K从其对应的片段S_K随机抽样；然后TSN模拟一系列片段(T₁,T₂,…,T_K)，如下所示：

其中，是表示具有参数W的卷积神经网络(ConvNets)的函数，它对短片段T_K起作用，并在所有类中生成类分数；分段共识函数组合了来自多个短片段的输出，以达成它们之间的类别假设的共识；基于这个共识，预测函数预测整个视频中每个动作类的概率。

进一步地，所述的共识函数，在TSN框架中，共识函数的形式是非常重要的，因为它应该具有较高的建模能力，即将片段级预测有效地聚合到视频级别分数中的能力，并且可微性允许使用反向传播优化TSN框架；

结合标准分类交叉熵损失，关于片段的共识的最终损失函数为：

其中，C是动作类的数量，y_i是关于类i的标定好的真实数据的标签，g_j是G的第j个维度；在TSN框架的训练阶段，相对于模型参数W的损失值的梯度可以写为：

其中，K是TSN中的片段数；使用基于梯度的优化方法来学习模型参数时，公式(3)表明参数更新正在利用从所有片段级预测中得出的片段共识G。

其中，所述的聚合函数和分析，共识(聚合)函数是TSN框架中的重要组成部分；提出了五种类型的聚合函数：最大池、平均池、顶级池、加权平均和注意力权重。

进一步地，所述的最大池和平均池，在这个聚合函数中，将最大池分配到采样片段中每个类别的预测分数，即其中是的第i个元素；相对g_i的梯度可以计算为：

最大池的基本思想是为每个动作类寻求一个单一的和最具判别性的片段，并利用最强的激活函数作为此类别的视频级响应；因此，这种聚合函数激励TSN从每个动作类的最具判别性的片断中学习，但缺乏联合多个片段建模，实现视频级动作理解的能力；

最大池聚合函数的替代方案是平均池，对每个类的这些片段级预测分数取平均值，即相对于平均聚集函数的梯度如下：

平均池利用所有片段的响应进行动作识别，并将其平均激活函数用作视频级预测；因此平均池可以联合多个片段建模，并从整个视频中捕获视觉信息；另一方面，特别是对于具有背景复杂的嘈杂视频，一些片段可能是与动作相关的，对这些背景片段求平均值可能会影响最终的识别性能。

进一步地，所述的顶级池，为了在最大池和平均池之间取得平衡，提出了一个新的聚合函数，称为顶级池；在这个聚合函数中，首先为每个动作类别选择个最大的区分片段，然后在这些片段上执行平均池，即其中α_k是选择的指标，如果选择，则设置为1，否则为0；最大池和平均池可以认为是顶级池的特殊情况，分别设置为1或K；类似地，g_i相对于的梯度可以计算如下：

该聚合函数能够自适应地确定不同视频的识别片段的子集；因此，它具有最大池和平均池的优点，具有联合多个相关片段建模的能力，同时避免背景片段的影响。

进一步地，所述的线性加权，在这个聚合函数中，需要对每个动作类别的预测分数执行元素加权线性组合；具体来说，将聚合函数定义为其中ω_k是第k个片段的权重；在这个聚合函数中，引入一个模型参数ω，并计算g_i相对于和ω_k的梯度如下：

实际上，使用这个方程可以更新网络权重W和组合权重ω；这个聚合函数的基本假设是，动作可以分解成几个阶段，不同的阶段在识别动作类时可能会发挥不同的作用。

进一步地，所述的注意力加权，这个聚合函数的目标是学习一个函数，根据视频内容自动分配每个片段的重要性权重；聚合函数被定义为其中是片段T_k的注意力权重，并且根据视频内容自适应地计算；在这个表达式中，可以计算g_i相对于和的梯度如下：

在这种注意力加权方案中，注意力加权函数的设计对于最终性能至关重要；首先从具有相同ConvNet的每个片段中提取视觉特征然后产生注意力权重：

其中，ω^att是注意力权重函数的参数，将与网络权重W联合学习；这里是第k个片段的视觉特征；它是激活函数最后一层隐藏层；在这个公式中，可以计算相对于注意力模型参数ω^att的梯度：

其中，的梯度计算为：

有了这个梯度公式，可以学习注意力模型参数ω^att是使用反向传播与ConvNet参数W；另外，由于引入注意力模型公式(3)中的基本反向传播公式应改成：

总体而言，引入注意力模型的优点为：(1)注意力模型通过自动估计每个片段基于视频内容的重要性权重，增强了TSN框架的建模能力；(2)由于注意力模型基于ConvNet的表示R，因此利用额外的反向传播信息来指导ConvNet参数W的学习过程，并可能加速训练的融合。

其中，所述的时域分段网络的输入与训练策略，TSN的四种输入模式分别为RGB图像、RGB差异、光流场和翘曲光流场；TSN训练策略有交叉模态初始化、正则化和数据扩充；

(1)交叉模态初始化：首先通过线性变换将光流场离散化到0到255的间隔；然后在第一层的RGB信道中平均预训练的RGB模型的权重，并且通过时间网络输入的信道数来复制平均值；最后，从预训练的RGB网络直接复制时间网络剩余层的权重；

(2)正则化：在使用预训练模型进行初始化之后，使所有批次标准化层的均值和方差参数保持不变，第一个除外；由于光流的分布与RGB图像不同，第一卷积层的激活函数值将具有明显的分布，因此相应地需要重新估计均值和方差；同时，在全局池层之后添加了一个具有信号丢失比(实验设置为0.8)的信号丢失层，以进一步降低过拟合效应；

(3)数据扩充：利用角落裁剪和尺度抖动这两种新的数据扩充技术；将输入大小固定为256×340，并且裁剪区域的宽度和高度从{256,224,192,168}中随机选择；最后，这些裁减区域将调整为224×224，用于网络训练。

其中，所述的未裁剪视频中的动作识别，在长度为M秒的视频中获得M个片段{T₁,…,T_M}；应用TSN模型获得片段T_m的分数然后建立大小为l∈{1,2,4,8,16}的时间滑动窗口；窗口将滑动整个视频的持续时间，步幅时间为0.8×l；

对于从第二秒开始的窗口位置，一系列片段将被覆盖为{T_s+1,…,T_s+l}，它们的类别分数为该窗口的类别得分F^s,l可以通过以下方法计算：

对于大小l，得到N^l个窗口，应用顶级池方案来获得来自大小为l的N^l个窗口的共识G^l；这里，参数得到5组窗口大小为l∈{1,2,4,8,16}的类分数；然后将最终得分计算为这是五个窗口大小的平均值；将这种视频分类技术称为多尺度时间窗口集成。

附图说明

图1是本发明一种基于时域分段网络的视频动作识别方法的系统框架图。

图2是本发明一种基于时域分段网络的视频动作识别方法的基于分段抽样的时域分段网络。

图3是本发明一种基于时域分段网络的视频动作识别方法的时域分段网络的输入模式。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于时域分段网络的视频动作识别方法的系统框架图。主要包括基于分段抽样的时域分段网络(TSN)，聚合函数和分析，时域分段网络的输入与训练策略和未裁剪视频中的动作识别。

聚合函数和分析，共识(聚合)函数是TSN框架中的重要组成部分；提出了五种类型的聚合函数：最大池、平均池、顶级池、加权平均和注意力权重。

最大池，在这个聚合函数中，将最大池分配到采样片段中每个类别的预测分数，即其中是的第i个元素；相对g_i的梯度可以计算为：

顶级池，为了在最大池和平均池之间取得平衡，提出了一个新的聚合函数，称为顶级池；在这个聚合函数中，首先为每个动作类别选择个最大的区分片段，然后在这些片段上执行平均池，即其中α_k是选择的指标，如果选择，则设置为1，否则为0；最大池和平均池可以认为是顶级池的特殊情况，分别设置为1或K；类似地，g_i相对于的梯度可以计算如下：

线性加权，在这个聚合函数中，需要对每个动作类别的预测分数执行元素加权线性组合；具体来说，将聚合函数定义为其中ω_k是第k个片段的权重；在这个聚合函数中，引入一个模型参数ω，并计算g_i相对于和ω_k的梯度如下：

注意力加权，这个聚合函数的目标是学习一个函数，根据视频内容自动分配每个片段的重要性权重；聚合函数被定义为其中是片段T_k的注意力权重，并且根据视频内容自适应地计算；在这个表达式中，可以计算g_i相对于和的梯度如下：

其中，的梯度计算为：

有了这个梯度公式，可以学习注意力模型参数ω^att是使用反向传播与ConvNet参数W；另外，由于引入注意力模型公式(13)中的基本反向传播公式应改成：

时域分段网络的TSN训练策略有交叉模态初始化、正则化和数据扩充；

未裁剪视频中的动作识别，在长度为M秒的视频中获得M个片段{T₁,…,T_M}；应用TSN模型获得片段T_m的分数然后建立大小为l∈{1,2,4,8,16}的时间滑动窗口；窗口将滑动整个视频的持续时间，步幅时间为0.8×l；

图2是本发明一种基于时域分段网络的视频动作识别方法的基于分段抽样的时域分段网络。基于分段的抽样确保抽样片段将沿时间维度均匀分布，无论动作视频持续多长时间，抽样片段总是涵盖整个视频的内容，因此能够在整个视频中建立长范围的时间结构；

在TSN框架中，共识函数的形式是非常重要的，因为它应该具有较高的建模能力，即将片段级预测有效地聚合到视频级别分数中的能力，并且可微性允许使用反向传播优化TSN框架；

其中，C是动作类的数量，y_i是关于类i的标定好的真实数据的标签，g_i是G的第j个维度；在TSN框架的训练阶段，相对于模型参数W的损失值的梯度可以写为：

其中，K是TSN中的片段数；使用基于梯度的优化方法来学习模型参数时，公式(13)表明参数更新正在利用从所有片段级预测中得出的片段共识G。

图3是本发明一种基于时域分段网络的视频动作识别方法的时域分段网络的输入模式。TSN的四种输入模式分别为RGB图像、RGB差异、光流场和翘曲光流场。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于时域分段网络的视频动作识别方法，其特征在于，主要包括基于分段抽样的时域分段网络(TSN)(一)；聚合函数和分析(二)；时域分段网络的输入与训练策略(三)；未裁剪视频中的动作识别(四)。

2.基于权利要求书1所述的基于分段抽样的时域分段网络(TSN)(一)，其特征在于，基于分段的抽样确保抽样片段将沿时间维度均匀分布，无论动作视频持续多长时间，抽样片段总是涵盖整个视频的内容，因此能够在整个视频中建立长范围的时间结构；

3.基于权利要求书2所述的共识函数，其特征在于，在TSN框架中，共识函数的形式是非常重要的，因为它应该具有较高的建模能力，即将片段级预测有效地聚合到视频级别分数中的能力，并且可微性允许使用反向传播优化TSN框架；

4.基于权利要求书1所述的聚合函数和分析(二)，其特征在于，共识(聚合)函数是TSN框架中的重要组成部分；提出了五种类型的聚合函数：最大池、平均池、顶级池、加权平均和注意力权重。

5.基于权利要求书4所述的最大池和平均池，其特征在于，在这个聚合函数中，将最大池分配到采样片段中每个类别的预测分数，即其中是的第i个元素；相对g_i的梯度可以计算为：

6.基于权利要求书4所述的顶级池，其特征在于，为了在最大池和平均池之间取得平衡，提出了一个新的聚合函数，称为顶级池；在这个聚合函数中，首先为每个动作类别选择个最大的区分片段，然后在这些片段上执行平均池，即其中α_k是选择的指标，如果选择，则设置为1，否则为0；最大池和平均池可以认为是顶级池的特殊情况，分别设置为1或K；类似地，g_i相对于的梯度可以计算如下：

7.基于权利要求书4所述的线性加权，其特征在于，在这个聚合函数中，需要对每个动作类别的预测分数执行元素加权线性组合；具体来说，将聚合函数定义为其中ω_k是第k个片段的权重；在这个聚合函数中，引入一个模型参数ω，并计算g_i相对于和ω_k的梯度如下：

<mrow> <mfrac> <mrow> <mo>&part;</mo> <msub> <mi>g</mi> <mi>i</mi> </msub> </mrow> <mrow> <mo>&part;</mo> <msubsup> <mi>f</mi> <mi>i</mi> <mi>k</mi> </msubsup> </mrow> </mfrac> <mo>=</mo> <msub> <mi>&omega;</mi> <mi>k</mi> </msub> <mo>,</mo> <mfrac> <mrow> <mo>&part;</mo> <msub> <mi>g</mi> <mi>i</mi> </msub> </mrow> <mrow> <mo>&part;</mo> <msub> <mi>&omega;</mi> <mi>k</mi> </msub> </mrow> </mfrac> <mo>=</mo> <msubsup> <mi>f</mi> <mi>i</mi> <mi>k</mi> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

8.基于权利要求书4所述的注意力加权，其特征在于，这个聚合函数的目标是学习一个函数，根据视频内容自动分配每个片段的重要性权重；聚合函数被定义为其中是片段T_k的注意力权重，并且根据视频内容自适应地计算；在这个表达式中，可以计算g_i相对于和的梯度如下：

其中，的梯度计算为：

9.基于权利要求书1所述的时域分段网络的输入与训练策略(三)，其特征在于，TSN的四种输入模式分别为RGB图像、RGB差异、光流场和翘曲光流场；TSN训练策略有交叉模态初始化、正则化和数据扩充；

10.基于权利要求书1所述的未裁剪视频中的动作识别(四)，其特征在于，在长度为M秒的视频中获得M个片段{T₁,…,T_M}；应用TSN模型获得片段T_m的分数然后建立大小为l∈{1,2,4,8,16}的时间滑动窗口；窗口将滑动整个视频的持续时间，步幅时间为0.8×l；

<mrow> <msubsup> <mi>F</mi> <mi>i</mi> <mrow> <mi>s</mi> <mo>,</mo> <mi>l</mi> </mrow> </msubsup> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <mi>p</mi> <mo>&Element;</mo> <mo>{</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>l</mi> <mo>}</mo> </mrow> </munder> <mo>{</mo> <msubsup> <mi>f</mi> <mi>i</mi> <mrow> <mi>s</mi> <mo>+</mo> <mi>p</mi> </mrow> </msubsup> <mo>}</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>13</mn> <mo>)</mo> </mrow> </mrow>