CN107480642A - 一种基于时域分段网络的视频动作识别方法 - Google Patents

一种基于时域分段网络的视频动作识别方法 Download PDF

Info

Publication number
CN107480642A
CN107480642A CN201710712620.1A CN201710712620A CN107480642A CN 107480642 A CN107480642 A CN 107480642A CN 201710712620 A CN201710712620 A CN 201710712620A CN 107480642 A CN107480642 A CN 107480642A
Authority
CN
China
Prior art keywords
fragment
mrow
video
pond
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201710712620.1A
Other languages
English (en)
Inventor
夏春秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Vision Technology Co Ltd
Original Assignee
Shenzhen Vision Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Vision Technology Co Ltd filed Critical Shenzhen Vision Technology Co Ltd
Priority to CN201710712620.1A priority Critical patent/CN107480642A/zh
Publication of CN107480642A publication Critical patent/CN107480642A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440245Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment

Abstract

本发明中提出的一种基于时域分段网络的视频动作识别方法,其主要内容包括:基于分段抽样的时域分段网络(TSN)、聚合函数和分析、时域分段网络的输入与训练策略和未裁剪视频中的动作识别,其过程为,先将视频划分成等长的持续时间,然后从对应的片段中随机抽取一个片段,该序列中的每个片段都会产生动作类的片段级预测,并且设计一个共同函数,将这些片段级预测聚合到视频级别分数中,在训练过程中,在视频级预测中定义优化目标,并通过迭代更新模型参数进行优化。本发明基于片段的采样和聚合模块来建立长期时间结构,能够通过使用整个动作视频有效地学习动作模型,同时能保存长时间的视频,而且能提高对于动作的检测和识别的灵敏度和准确度。

Description

一种基于时域分段网络的视频动作识别方法
技术领域
本发明涉及动作识别领域,尤其是涉及了一种基于时域分段网络的视频动作识别方法。
背景技术
随着科学技术的高速发展与社会的进步,人们日常生活中的方方面面都用到了视频获取技术,但是人们在获取了海量的视频数据后,往往需要人为地观看、判别和标记视频中的动作。因此,视频动作识别技术越来越受到人们的关注,应用范围也越来越广,如识别和分析自动售货机、ATM机、商场、车站等公共场合的监控录像中可疑人物的行为、篮球比赛中的投篮动作分析、分析舞蹈视频进行练习、识别和检测道路驾驶中司机的危险动作、家庭中老人和小孩的危险行为预警,甚至是在人机交互中计算机结合面部表情对人体动作进行识别和分析等。然而,传统方法中训练深度卷积神经网络需要较大的训练样本,但是这方面的数据资源却是有限的,而且其有限的存储空间严重限制了视频的持续时间,会导致视频丢失重要信息。
本发明提出了一种基于时域分段网络的视频动作识别方法,先将视频划分成几段等长的持续时间,然后从其对应的片段中随机抽取一个片段;该序列中的每个片段都会产生动作类的片段级预测,并且设计一个共同函数,将这些片段级预测聚合到视频级别分数中,在训练过程中,在视频级预测中定义优化目标,并通过迭代更新模型参数进行优化。本发明基于片段的采样和聚合模块来建立长期时间结构,能够通过使用整个动作视频有效地学习动作模型,同时能保存长时间的视频,而且能提高对于动作的检测和识别的灵敏度和准确度。
发明内容
针对存储空间有限的问题,本发明的目的在于提供一种基于时域分段网络的视频动作识别方法,先将视频划分成几段等长的持续时间,然后从其对应的片段中随机抽取一个片段;该序列中的每个片段都会产生动作类的片段级预测,并且设计一个共同函数,将这些片段级预测聚合到视频级别分数中,在训练过程中,在视频级预测中定义优化目标,并通过迭代更新模型参数进行优化。
为解决上述问题,本发明提供一种基于时域分段网络的视频动作识别方法,其主要内容包括:
(一)基于分段抽样的时域分段网络(TSN);
(二)聚合函数和分析;
(三)时域分段网络的输入与训练策略;
(四)未裁剪视频中的动作识别。
其中,所述的基于分段抽样的时域分段网络(TSN),基于分段的抽样确保抽样片段将沿时间维度均匀分布,无论动作视频持续多长时间,抽样片段总是涵盖整个视频的内容,因此能够在整个视频中建立长范围的时间结构;
首先将视频划分成几段等长的持续时间,然后从其对应的片段中随机抽取一个片段;该序列中的每个片段都会产生动作类的片段级预测,并且设计一个共同函数,将这些片段级预测聚合到视频级别分数中;这个视频级别的分数比原始的片段级预测更可靠,因为它捕获了整个视频的长期信息;在训练过程中,在视频级预测中定义优化目标,并通过迭代更新模型参数进行优化;
给定视频V,将其划分为相等持续时间的K个片段{S1,S2,…,SK};每个片段TK从其对应的片段SK随机抽样;然后TSN模拟一系列片段(T1,T2,…,TK),如下所示:
其中,是表示具有参数W的卷积神经网络(ConvNets)的函数,它对短片段TK起作用,并在所有类中生成类分数;分段共识函数组合了来自多个短片段的输出,以达成它们之间的类别假设的共识;基于这个共识,预测函数预测整个视频中每个动作类的概率。
进一步地,所述的共识函数,在TSN框架中,共识函数的形式是非常重要的,因为它应该具有较高的建模能力,即将片段级预测有效地聚合到视频级别分数中的能力,并且可微性允许使用反向传播优化TSN框架;
结合标准分类交叉熵损失,关于片段的共识的最终损失函数为:
其中,C是动作类的数量,yi是关于类i的标定好的真实数据的标签,gj是G的第j个维度;在TSN框架的训练阶段,相对于模型参数W的损失值的梯度可以写为:
其中,K是TSN中的片段数;使用基于梯度的优化方法来学习模型参数时,公式(3)表明参数更新正在利用从所有片段级预测中得出的片段共识G。
其中,所述的聚合函数和分析,共识(聚合)函数是TSN框架中的重要组成部分;提出了五种类型的聚合函数:最大池、平均池、顶级池、加权平均和注意力权重。
进一步地,所述的最大池和平均池,在这个聚合函数中,将最大池分配到采样片段中每个类别的预测分数,即其中的第i个元素;相对gi的梯度可以计算为:
最大池的基本思想是为每个动作类寻求一个单一的和最具判别性的片段,并利用最强的激活函数作为此类别的视频级响应;因此,这种聚合函数激励TSN从每个动作类的最具判别性的片断中学习,但缺乏联合多个片段建模,实现视频级动作理解的能力;
最大池聚合函数的替代方案是平均池,对每个类的这些片段级预测分数取平均值,即 相对于平均聚集函数的梯度如下:
平均池利用所有片段的响应进行动作识别,并将其平均激活函数用作视频级预测;因此平均池可以联合多个片段建模,并从整个视频中捕获视觉信息;另一方面,特别是对于具有背景复杂的嘈杂视频,一些片段可能是与动作相关的,对这些背景片段求平均值可能会影响最终的识别性能。
进一步地,所述的顶级池,为了在最大池和平均池之间取得平衡,提出了一个新的聚合函数,称为顶级池;在这个聚合函数中,首先为每个动作类别选择个最大的区分片段,然后在这些片段上执行平均池,即其中αk是选择的指标,如果选择,则设置为1,否则为0;最大池和平均池可以认为是顶级池的特殊情况,分别设置为1或K;类似地,gi相对于的梯度可以计算如下:
该聚合函数能够自适应地确定不同视频的识别片段的子集;因此,它具有最大池和平均池的优点,具有联合多个相关片段建模的能力,同时避免背景片段的影响。
进一步地,所述的线性加权,在这个聚合函数中,需要对每个动作类别的预测分数执行元素加权线性组合;具体来说,将聚合函数定义为其中ωk是第k个片段的权重;在这个聚合函数中,引入一个模型参数ω,并计算gi相对于和ωk的梯度如下:
实际上,使用这个方程可以更新网络权重W和组合权重ω;这个聚合函数的基本假设是,动作可以分解成几个阶段,不同的阶段在识别动作类时可能会发挥不同的作用。
进一步地,所述的注意力加权,这个聚合函数的目标是学习一个函数,根据视频内容自动分配每个片段的重要性权重;聚合函数被定义为其中是片段Tk的注意力权重,并且根据视频内容自适应地计算;在这个表达式中,可以计算gi相对于的梯度如下:
在这种注意力加权方案中,注意力加权函数的设计对于最终性能至关重要;首先从具有相同ConvNet的每个片段中提取视觉特征然后产生注意力权重:
其中,ωatt是注意力权重函数的参数,将与网络权重W联合学习;这里是第k个片段的视觉特征;它是激活函数最后一层隐藏层;在这个公式中,可以计算相对于注意力模型参数ωatt的梯度:
其中,的梯度计算为:
有了这个梯度公式,可以学习注意力模型参数ωatt是使用反向传播与ConvNet参数W;另外,由于引入注意力模型公式(3)中的基本反向传播公式应改成:
总体而言,引入注意力模型的优点为:(1)注意力模型通过自动估计每个片段基于视频内容的重要性权重,增强了TSN框架的建模能力;(2)由于注意力模型基于ConvNet的表示R,因此利用额外的反向传播信息来指导ConvNet参数W的学习过程,并可能加速训练的融合。
其中,所述的时域分段网络的输入与训练策略,TSN的四种输入模式分别为RGB图像、RGB差异、光流场和翘曲光流场;TSN训练策略有交叉模态初始化、正则化和数据扩充;
(1)交叉模态初始化:首先通过线性变换将光流场离散化到0到255的间隔;然后在第一层的RGB信道中平均预训练的RGB模型的权重,并且通过时间网络输入的信道数来复制平均值;最后,从预训练的RGB网络直接复制时间网络剩余层的权重;
(2)正则化:在使用预训练模型进行初始化之后,使所有批次标准化层的均值和方差参数保持不变,第一个除外;由于光流的分布与RGB图像不同,第一卷积层的激活函数值将具有明显的分布,因此相应地需要重新估计均值和方差;同时,在全局池层之后添加了一个具有信号丢失比(实验设置为0.8)的信号丢失层,以进一步降低过拟合效应;
(3)数据扩充:利用角落裁剪和尺度抖动这两种新的数据扩充技术;将输入大小固定为256×340,并且裁剪区域的宽度和高度从{256,224,192,168}中随机选择;最后,这些裁减区域将调整为224×224,用于网络训练。
其中,所述的未裁剪视频中的动作识别,在长度为M秒的视频中获得M个片段{T1,…,TM};应用TSN模型获得片段Tm的分数然后建立大小为l∈{1,2,4,8,16}的时间滑动窗口;窗口将滑动整个视频的持续时间,步幅时间为0.8×l;
对于从第二秒开始的窗口位置,一系列片段将被覆盖为{Ts+1,…,Ts+l},它们的类别分数为该窗口的类别得分Fs,l可以通过以下方法计算:
对于大小l,得到Nl个窗口,应用顶级池方案来获得来自大小为l的Nl个窗口的共识Gl;这里,参数得到5组窗口大小为l∈{1,2,4,8,16}的类分数;然后将最终得分计算为这是五个窗口大小的平均值;将这种视频分类技术称为多尺度时间窗口集成。
附图说明
图1是本发明一种基于时域分段网络的视频动作识别方法的系统框架图。
图2是本发明一种基于时域分段网络的视频动作识别方法的基于分段抽样的时域分段网络。
图3是本发明一种基于时域分段网络的视频动作识别方法的时域分段网络的输入模式。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于时域分段网络的视频动作识别方法的系统框架图。主要包括基于分段抽样的时域分段网络(TSN),聚合函数和分析,时域分段网络的输入与训练策略和未裁剪视频中的动作识别。
聚合函数和分析,共识(聚合)函数是TSN框架中的重要组成部分;提出了五种类型的聚合函数:最大池、平均池、顶级池、加权平均和注意力权重。
最大池,在这个聚合函数中,将最大池分配到采样片段中每个类别的预测分数,即 其中的第i个元素;相对gi的梯度可以计算为:
最大池的基本思想是为每个动作类寻求一个单一的和最具判别性的片段,并利用最强的激活函数作为此类别的视频级响应;因此,这种聚合函数激励TSN从每个动作类的最具判别性的片断中学习,但缺乏联合多个片段建模,实现视频级动作理解的能力;
最大池聚合函数的替代方案是平均池,对每个类的这些片段级预测分数取平均值,即 相对于平均聚集函数的梯度如下:
平均池利用所有片段的响应进行动作识别,并将其平均激活函数用作视频级预测;因此平均池可以联合多个片段建模,并从整个视频中捕获视觉信息;另一方面,特别是对于具有背景复杂的嘈杂视频,一些片段可能是与动作相关的,对这些背景片段求平均值可能会影响最终的识别性能。
顶级池,为了在最大池和平均池之间取得平衡,提出了一个新的聚合函数,称为顶级池;在这个聚合函数中,首先为每个动作类别选择个最大的区分片段,然后在这些片段上执行平均池,即其中αk是选择的指标,如果选择,则设置为1,否则为0;最大池和平均池可以认为是顶级池的特殊情况,分别设置为1或K;类似地,gi相对于的梯度可以计算如下:
该聚合函数能够自适应地确定不同视频的识别片段的子集;因此,它具有最大池和平均池的优点,具有联合多个相关片段建模的能力,同时避免背景片段的影响。
线性加权,在这个聚合函数中,需要对每个动作类别的预测分数执行元素加权线性组合;具体来说,将聚合函数定义为其中ωk是第k个片段的权重;在这个聚合函数中,引入一个模型参数ω,并计算gi相对于和ωk的梯度如下:
实际上,使用这个方程可以更新网络权重W和组合权重ω;这个聚合函数的基本假设是,动作可以分解成几个阶段,不同的阶段在识别动作类时可能会发挥不同的作用。
注意力加权,这个聚合函数的目标是学习一个函数,根据视频内容自动分配每个片段的重要性权重;聚合函数被定义为其中是片段Tk的注意力权重,并且根据视频内容自适应地计算;在这个表达式中,可以计算gi相对于的梯度如下:
在这种注意力加权方案中,注意力加权函数的设计对于最终性能至关重要;首先从具有相同ConvNet的每个片段中提取视觉特征然后产生注意力权重:
其中,ωatt是注意力权重函数的参数,将与网络权重W联合学习;这里是第k个片段的视觉特征;它是激活函数最后一层隐藏层;在这个公式中,可以计算相对于注意力模型参数ωatt的梯度:
其中,的梯度计算为:
有了这个梯度公式,可以学习注意力模型参数ωatt是使用反向传播与ConvNet参数W;另外,由于引入注意力模型公式(13)中的基本反向传播公式应改成:
总体而言,引入注意力模型的优点为:(1)注意力模型通过自动估计每个片段基于视频内容的重要性权重,增强了TSN框架的建模能力;(2)由于注意力模型基于ConvNet的表示R,因此利用额外的反向传播信息来指导ConvNet参数W的学习过程,并可能加速训练的融合。
时域分段网络的TSN训练策略有交叉模态初始化、正则化和数据扩充;
(1)交叉模态初始化:首先通过线性变换将光流场离散化到0到255的间隔;然后在第一层的RGB信道中平均预训练的RGB模型的权重,并且通过时间网络输入的信道数来复制平均值;最后,从预训练的RGB网络直接复制时间网络剩余层的权重;
(2)正则化:在使用预训练模型进行初始化之后,使所有批次标准化层的均值和方差参数保持不变,第一个除外;由于光流的分布与RGB图像不同,第一卷积层的激活函数值将具有明显的分布,因此相应地需要重新估计均值和方差;同时,在全局池层之后添加了一个具有信号丢失比(实验设置为0.8)的信号丢失层,以进一步降低过拟合效应;
(3)数据扩充:利用角落裁剪和尺度抖动这两种新的数据扩充技术;将输入大小固定为256×340,并且裁剪区域的宽度和高度从{256,224,192,168}中随机选择;最后,这些裁减区域将调整为224×224,用于网络训练。
未裁剪视频中的动作识别,在长度为M秒的视频中获得M个片段{T1,…,TM};应用TSN模型获得片段Tm的分数然后建立大小为l∈{1,2,4,8,16}的时间滑动窗口;窗口将滑动整个视频的持续时间,步幅时间为0.8×l;
对于从第二秒开始的窗口位置,一系列片段将被覆盖为{Ts+1,…,Ts+l},它们的类别分数为该窗口的类别得分Fs,l可以通过以下方法计算:
对于大小l,得到Nl个窗口,应用顶级池方案来获得来自大小为l的Nl个窗口的共识Gl;这里,参数得到5组窗口大小为l∈{1,2,4,8,16}的类分数;然后将最终得分计算为这是五个窗口大小的平均值;将这种视频分类技术称为多尺度时间窗口集成。
图2是本发明一种基于时域分段网络的视频动作识别方法的基于分段抽样的时域分段网络。基于分段的抽样确保抽样片段将沿时间维度均匀分布,无论动作视频持续多长时间,抽样片段总是涵盖整个视频的内容,因此能够在整个视频中建立长范围的时间结构;
首先将视频划分成几段等长的持续时间,然后从其对应的片段中随机抽取一个片段;该序列中的每个片段都会产生动作类的片段级预测,并且设计一个共同函数,将这些片段级预测聚合到视频级别分数中;这个视频级别的分数比原始的片段级预测更可靠,因为它捕获了整个视频的长期信息;在训练过程中,在视频级预测中定义优化目标,并通过迭代更新模型参数进行优化;
给定视频V,将其划分为相等持续时间的K个片段{S1,S2,…,SK};每个片段TK从其对应的片段SK随机抽样;然后TSN模拟一系列片段(T1,T2,…,TK),如下所示:
其中,是表示具有参数W的卷积神经网络(ConvNets)的函数,它对短片段TK起作用,并在所有类中生成类分数;分段共识函数组合了来自多个短片段的输出,以达成它们之间的类别假设的共识;基于这个共识,预测函数预测整个视频中每个动作类的概率。
在TSN框架中,共识函数的形式是非常重要的,因为它应该具有较高的建模能力,即将片段级预测有效地聚合到视频级别分数中的能力,并且可微性允许使用反向传播优化TSN框架;
结合标准分类交叉熵损失,关于片段的共识的最终损失函数为:
其中,C是动作类的数量,yi是关于类i的标定好的真实数据的标签,gi是G的第j个维度;在TSN框架的训练阶段,相对于模型参数W的损失值的梯度可以写为:
其中,K是TSN中的片段数;使用基于梯度的优化方法来学习模型参数时,公式(13)表明参数更新正在利用从所有片段级预测中得出的片段共识G。
图3是本发明一种基于时域分段网络的视频动作识别方法的时域分段网络的输入模式。TSN的四种输入模式分别为RGB图像、RGB差异、光流场和翘曲光流场。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (10)

1.一种基于时域分段网络的视频动作识别方法,其特征在于,主要包括基于分段抽样的时域分段网络(TSN)(一);聚合函数和分析(二);时域分段网络的输入与训练策略(三);未裁剪视频中的动作识别(四)。
2.基于权利要求书1所述的基于分段抽样的时域分段网络(TSN)(一),其特征在于,基于分段的抽样确保抽样片段将沿时间维度均匀分布,无论动作视频持续多长时间,抽样片段总是涵盖整个视频的内容,因此能够在整个视频中建立长范围的时间结构;
首先将视频划分成几段等长的持续时间,然后从其对应的片段中随机抽取一个片段;该序列中的每个片段都会产生动作类的片段级预测,并且设计一个共同函数,将这些片段级预测聚合到视频级别分数中;这个视频级别的分数比原始的片段级预测更可靠,因为它捕获了整个视频的长期信息;在训练过程中,在视频级预测中定义优化目标,并通过迭代更新模型参数进行优化;
给定视频V,将其划分为相等持续时间的K个片段{S1,S2,…,SK};每个片段TK从其对应的片段SK随机抽样;然后TSN模拟一系列片段(T1,T2,…,TK),如下所示:
其中,是表示具有参数W的卷积神经网络(ConvNets)的函数,它对短片段TK起作用,并在所有类中生成类分数;分段共识函数组合了来自多个短片段的输出,以达成它们之间的类别假设的共识;基于这个共识,预测函数预测整个视频中每个动作类的概率。
3.基于权利要求书2所述的共识函数,其特征在于,在TSN框架中,共识函数的形式是非常重要的,因为它应该具有较高的建模能力,即将片段级预测有效地聚合到视频级别分数中的能力,并且可微性允许使用反向传播优化TSN框架;
结合标准分类交叉熵损失,关于片段的共识的最终损失函数为:
其中,C是动作类的数量,yi是关于类i的标定好的真实数据的标签,gj是G的第j个维度;在TSN框架的训练阶段,相对于模型参数W的损失值的梯度可以写为:
其中,K是TSN中的片段数;使用基于梯度的优化方法来学习模型参数时,公式(3)表明参数更新正在利用从所有片段级预测中得出的片段共识G。
4.基于权利要求书1所述的聚合函数和分析(二),其特征在于,共识(聚合)函数是TSN框架中的重要组成部分;提出了五种类型的聚合函数:最大池、平均池、顶级池、加权平均和注意力权重。
5.基于权利要求书4所述的最大池和平均池,其特征在于,在这个聚合函数中,将最大池分配到采样片段中每个类别的预测分数,即其中的第i个元素;相对gi的梯度可以计算为:
最大池的基本思想是为每个动作类寻求一个单一的和最具判别性的片段,并利用最强的激活函数作为此类别的视频级响应;因此,这种聚合函数激励TSN从每个动作类的最具判别性的片断中学习,但缺乏联合多个片段建模,实现视频级动作理解的能力;
最大池聚合函数的替代方案是平均池,对每个类的这些片段级预测分数取平均值,即 相对于平均聚集函数的梯度如下:
<mrow> <mfrac> <mrow> <mo>&amp;part;</mo> <msub> <mi>g</mi> <mi>i</mi> </msub> </mrow> <mrow> <mo>&amp;part;</mo> <msubsup> <mi>f</mi> <mi>i</mi> <mi>k</mi> </msubsup> </mrow> </mfrac> <mo>=</mo> <mfrac> <mn>1</mn> <mi>K</mi> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>
平均池利用所有片段的响应进行动作识别,并将其平均激活函数用作视频级预测;因此平均池可以联合多个片段建模,并从整个视频中捕获视觉信息;另一方面,特别是对于具有背景复杂的嘈杂视频,一些片段可能是与动作相关的,对这些背景片段求平均值可能会影响最终的识别性能。
6.基于权利要求书4所述的顶级池,其特征在于,为了在最大池和平均池之间取得平衡,提出了一个新的聚合函数,称为顶级池;在这个聚合函数中,首先为每个动作类别选择个最大的区分片段,然后在这些片段上执行平均池,即其中αk是选择的指标,如果选择,则设置为1,否则为0;最大池和平均池可以认为是顶级池的特殊情况,分别设置为1或K;类似地,gi相对于的梯度可以计算如下:
该聚合函数能够自适应地确定不同视频的识别片段的子集;因此,它具有最大池和平均池的优点,具有联合多个相关片段建模的能力,同时避免背景片段的影响。
7.基于权利要求书4所述的线性加权,其特征在于,在这个聚合函数中,需要对每个动作类别的预测分数执行元素加权线性组合;具体来说,将聚合函数定义为其中ωk是第k个片段的权重;在这个聚合函数中,引入一个模型参数ω,并计算gi相对于和ωk的梯度如下:
<mrow> <mfrac> <mrow> <mo>&amp;part;</mo> <msub> <mi>g</mi> <mi>i</mi> </msub> </mrow> <mrow> <mo>&amp;part;</mo> <msubsup> <mi>f</mi> <mi>i</mi> <mi>k</mi> </msubsup> </mrow> </mfrac> <mo>=</mo> <msub> <mi>&amp;omega;</mi> <mi>k</mi> </msub> <mo>,</mo> <mfrac> <mrow> <mo>&amp;part;</mo> <msub> <mi>g</mi> <mi>i</mi> </msub> </mrow> <mrow> <mo>&amp;part;</mo> <msub> <mi>&amp;omega;</mi> <mi>k</mi> </msub> </mrow> </mfrac> <mo>=</mo> <msubsup> <mi>f</mi> <mi>i</mi> <mi>k</mi> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>
实际上,使用这个方程可以更新网络权重W和组合权重ω;这个聚合函数的基本假设是,动作可以分解成几个阶段,不同的阶段在识别动作类时可能会发挥不同的作用。
8.基于权利要求书4所述的注意力加权,其特征在于,这个聚合函数的目标是学习一个函数,根据视频内容自动分配每个片段的重要性权重;聚合函数被定义为其中是片段Tk的注意力权重,并且根据视频内容自适应地计算;在这个表达式中,可以计算gi相对于的梯度如下:
在这种注意力加权方案中,注意力加权函数的设计对于最终性能至关重要;首先从具有相同ConvNet的每个片段中提取视觉特征然后产生注意力权重:
其中,ωatt是注意力权重函数的参数,将与网络权重W联合学习;这里是第k个片段的视觉特征;它是激活函数最后一层隐藏层;在这个公式中,可以计算相对于注意力模型参数ωatt的梯度:
其中,的梯度计算为:
有了这个梯度公式,可以学习注意力模型参数ωatt是使用反向传播与ConvNet参数W;另外,由于引入注意力模型公式(3)中的基本反向传播公式应改成:
总体而言,引入注意力模型的优点为:(1)注意力模型通过自动估计每个片段基于视频内容的重要性权重,增强了TSN框架的建模能力;(2)由于注意力模型基于ConvNet的表示R,因此利用额外的反向传播信息来指导ConvNet参数W的学习过程,并可能加速训练的融合。
9.基于权利要求书1所述的时域分段网络的输入与训练策略(三),其特征在于,TSN的四种输入模式分别为RGB图像、RGB差异、光流场和翘曲光流场;TSN训练策略有交叉模态初始化、正则化和数据扩充;
(1)交叉模态初始化:首先通过线性变换将光流场离散化到0到255的间隔;然后在第一层的RGB信道中平均预训练的RGB模型的权重,并且通过时间网络输入的信道数来复制平均值;最后,从预训练的RGB网络直接复制时间网络剩余层的权重;
(2)正则化:在使用预训练模型进行初始化之后,使所有批次标准化层的均值和方差参数保持不变,第一个除外;由于光流的分布与RGB图像不同,第一卷积层的激活函数值将具有明显的分布,因此相应地需要重新估计均值和方差;同时,在全局池层之后添加了一个具有信号丢失比(实验设置为0.8)的信号丢失层,以进一步降低过拟合效应;
(3)数据扩充:利用角落裁剪和尺度抖动这两种新的数据扩充技术;将输入大小固定为256×340,并且裁剪区域的宽度和高度从{256,224,192,168}中随机选择;最后,这些裁减区域将调整为224×224,用于网络训练。
10.基于权利要求书1所述的未裁剪视频中的动作识别(四),其特征在于,在长度为M秒的视频中获得M个片段{T1,…,TM};应用TSN模型获得片段Tm的分数然后建立大小为l∈{1,2,4,8,16}的时间滑动窗口;窗口将滑动整个视频的持续时间,步幅时间为0.8×l;
对于从第二秒开始的窗口位置,一系列片段将被覆盖为{Ts+1,…,Ts+l},它们的类别分数为该窗口的类别得分Fs,l可以通过以下方法计算:
<mrow> <msubsup> <mi>F</mi> <mi>i</mi> <mrow> <mi>s</mi> <mo>,</mo> <mi>l</mi> </mrow> </msubsup> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <mi>p</mi> <mo>&amp;Element;</mo> <mo>{</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>l</mi> <mo>}</mo> </mrow> </munder> <mo>{</mo> <msubsup> <mi>f</mi> <mi>i</mi> <mrow> <mi>s</mi> <mo>+</mo> <mi>p</mi> </mrow> </msubsup> <mo>}</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>13</mn> <mo>)</mo> </mrow> </mrow>
对于大小l,得到Nl个窗口,应用顶级池方案来获得来自大小为l的Nl个窗口的共识Gl;这里,参数得到5组窗口大小为l∈{1,2,4,8,16}的类分数;然后将最终得分计算为这是五个窗口大小的平均值;将这种视频分类技术称为多尺度时间窗口集成。
CN201710712620.1A 2017-08-18 2017-08-18 一种基于时域分段网络的视频动作识别方法 Withdrawn CN107480642A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710712620.1A CN107480642A (zh) 2017-08-18 2017-08-18 一种基于时域分段网络的视频动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710712620.1A CN107480642A (zh) 2017-08-18 2017-08-18 一种基于时域分段网络的视频动作识别方法

Publications (1)

Publication Number Publication Date
CN107480642A true CN107480642A (zh) 2017-12-15

Family

ID=60600758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710712620.1A Withdrawn CN107480642A (zh) 2017-08-18 2017-08-18 一种基于时域分段网络的视频动作识别方法

Country Status (1)

Country Link
CN (1) CN107480642A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108447048A (zh) * 2018-02-23 2018-08-24 天津大学 基于关注层的卷积神经网络图像特征处理方法
CN108573246A (zh) * 2018-05-08 2018-09-25 北京工业大学 一种基于深度学习的时序动作识别方法
CN108615011A (zh) * 2018-04-24 2018-10-02 东南大学 基于多尺度滑动窗口的非修剪视频行为识别预测方法
CN108764128A (zh) * 2018-05-25 2018-11-06 华中科技大学 一种基于稀疏时间分段网络的视频动作识别方法
CN108960059A (zh) * 2018-06-01 2018-12-07 众安信息技术服务有限公司 一种视频动作识别方法及装置
CN109377555A (zh) * 2018-11-14 2019-02-22 江苏科技大学 自主水下机器人前景视场三维重建目标特征提取识别方法
CN109886165A (zh) * 2019-01-23 2019-06-14 中国科学院重庆绿色智能技术研究院 一种基于运动目标检测的动作视频提取和分类方法
CN110110601A (zh) * 2019-04-04 2019-08-09 深圳久凌软件技术有限公司 基于多时空注意力模型的视频行人重识别算法及装置
CN110188654A (zh) * 2019-05-27 2019-08-30 东南大学 一种基于移动未裁剪网络的视频行为识别方法
CN110263916A (zh) * 2019-05-31 2019-09-20 腾讯科技(深圳)有限公司 数据处理方法和装置、存储介质及电子装置
CN110287789A (zh) * 2019-05-23 2019-09-27 北京百度网讯科技有限公司 基于互联网数据的游戏视频分类方法以及系统
CN110647903A (zh) * 2019-06-20 2020-01-03 杭州趣维科技有限公司 一种短视频分类方法
CN110852273A (zh) * 2019-11-12 2020-02-28 重庆大学 一种基于强化学习注意力机制的行为识别方法
CN111626273A (zh) * 2020-07-29 2020-09-04 成都睿沿科技有限公司 基于原子性动作时序特性的摔倒行为识别系统及方法
CN112200096A (zh) * 2020-10-14 2021-01-08 公安部第三研究所 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质
CN112733595A (zh) * 2020-12-02 2021-04-30 国网湖南省电力有限公司 一种基于时间分段网络的视频动作识别方法及存储介质
CN113469142A (zh) * 2021-03-12 2021-10-01 山西长河科技股份有限公司 一种监控视频时空信息融合的分类方法、装置及终端
CN112200096B (zh) * 2020-10-14 2024-05-14 公安部第三研究所 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KAREN SIMONYAN等: "Two-Stream Convolutional Networks for Action Recognition in Videos", 《ARXIV:1406.2199V1》 *
LIMIN WANG等: "Temporal Segment Networks for Action Recognition in Videos", 《ARXIV:1705.02953V1》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108447048B (zh) * 2018-02-23 2021-09-14 天津大学 基于关注层的卷积神经网络图像特征处理方法
CN108447048A (zh) * 2018-02-23 2018-08-24 天津大学 基于关注层的卷积神经网络图像特征处理方法
CN108615011A (zh) * 2018-04-24 2018-10-02 东南大学 基于多尺度滑动窗口的非修剪视频行为识别预测方法
CN108573246A (zh) * 2018-05-08 2018-09-25 北京工业大学 一种基于深度学习的时序动作识别方法
CN108573246B (zh) * 2018-05-08 2022-04-05 北京工业大学 一种基于深度学习的时序动作识别方法
CN108764128A (zh) * 2018-05-25 2018-11-06 华中科技大学 一种基于稀疏时间分段网络的视频动作识别方法
CN108960059A (zh) * 2018-06-01 2018-12-07 众安信息技术服务有限公司 一种视频动作识别方法及装置
CN109377555A (zh) * 2018-11-14 2019-02-22 江苏科技大学 自主水下机器人前景视场三维重建目标特征提取识别方法
CN109377555B (zh) * 2018-11-14 2023-07-25 江苏科技大学 自主水下机器人前景视场三维重建目标特征提取识别方法
CN109886165A (zh) * 2019-01-23 2019-06-14 中国科学院重庆绿色智能技术研究院 一种基于运动目标检测的动作视频提取和分类方法
CN110110601A (zh) * 2019-04-04 2019-08-09 深圳久凌软件技术有限公司 基于多时空注意力模型的视频行人重识别算法及装置
CN110287789A (zh) * 2019-05-23 2019-09-27 北京百度网讯科技有限公司 基于互联网数据的游戏视频分类方法以及系统
CN110188654B (zh) * 2019-05-27 2023-04-07 东南大学 一种基于移动未裁剪网络的视频行为识别方法
CN110188654A (zh) * 2019-05-27 2019-08-30 东南大学 一种基于移动未裁剪网络的视频行为识别方法
CN110263916B (zh) * 2019-05-31 2021-09-10 腾讯科技(深圳)有限公司 数据处理方法和装置、存储介质及电子装置
CN110263916A (zh) * 2019-05-31 2019-09-20 腾讯科技(深圳)有限公司 数据处理方法和装置、存储介质及电子装置
CN110647903A (zh) * 2019-06-20 2020-01-03 杭州趣维科技有限公司 一种短视频分类方法
CN110852273A (zh) * 2019-11-12 2020-02-28 重庆大学 一种基于强化学习注意力机制的行为识别方法
CN111626273A (zh) * 2020-07-29 2020-09-04 成都睿沿科技有限公司 基于原子性动作时序特性的摔倒行为识别系统及方法
CN112200096A (zh) * 2020-10-14 2021-01-08 公安部第三研究所 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质
CN112200096B (zh) * 2020-10-14 2024-05-14 公安部第三研究所 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质
CN112733595A (zh) * 2020-12-02 2021-04-30 国网湖南省电力有限公司 一种基于时间分段网络的视频动作识别方法及存储介质
CN113469142A (zh) * 2021-03-12 2021-10-01 山西长河科技股份有限公司 一种监控视频时空信息融合的分类方法、装置及终端

Similar Documents

Publication Publication Date Title
CN107480642A (zh) 一种基于时域分段网络的视频动作识别方法
Zhang et al. C2FDA: Coarse-to-fine domain adaptation for traffic object detection
CN110298415A (zh) 一种半监督学习的训练方法、系统和计算机可读存储介质
CN110147711A (zh) 视频场景识别方法、装置、存储介质和电子装置
CN113536922A (zh) 一种加权融合多种图像任务的视频行为识别方法
CN107180226A (zh) 一种基于组合神经网络的动态手势识别方法
CN106537390B (zh) 标识教育视频的呈现样式
Cai et al. Deep historical long short-term memory network for action recognition
CN104572804A (zh) 一种视频物体检索的方法及其系统
CN107506793A (zh) 基于弱标注图像的服装识别方法及系统
CN108985360A (zh) 基于扩展形态学与主动学习的高光谱分类方法
CN113256677A (zh) 一种图注意力视觉目标跟踪方法
CN108230355A (zh) 目标跟踪及神经网络训练方法、装置、存储介质和电子设备
CN110059646A (zh) 训练动作规划模型的方法及目标搜索方法
CN103093247A (zh) 一种植物图片的自动分类方法
Ma Research on basketball teaching network course resource recommendation method based on deep learning algorithm
Batra et al. DMCNet: Diversified model combination network for understanding engagement from video screengrabs
CN107633527A (zh) 基于全卷积神经网络的目标追踪方法及装置
CN112364852A (zh) 融合全局信息的动作视频段提取方法
CN106447691A (zh) 基于加权多示例学习的加权极限学习机视频目标跟踪方法
CN106960188A (zh) 天气图像分类方法及装置
CN109063732B (zh) 基于特征交互和多任务学习的图像排序方法及系统
CN110210430A (zh) 一种行为识别方法及装置
Haselhoff et al. An evolutionary optimized vehicle tracker in collaboration with a detection system
Li et al. Assessing and improving intelligent physical education approaches using modified cat swarm optimization algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20171215