CN109993077A - 一种基于双流网络的行为识别方法 - Google Patents
一种基于双流网络的行为识别方法 Download PDFInfo
- Publication number
- CN109993077A CN109993077A CN201910202628.2A CN201910202628A CN109993077A CN 109993077 A CN109993077 A CN 109993077A CN 201910202628 A CN201910202628 A CN 201910202628A CN 109993077 A CN109993077 A CN 109993077A
- Authority
- CN
- China
- Prior art keywords
- network
- video
- picture
- rgb
- activity recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Abstract
本发明公开了一种基于双流网络的行为识别方法,属于机器视觉及行为识别领域,网络部分:对于一个输入视频,将其分成k个片段,对每个片段,将对应的经过处理后的图片得到对应的分类准确率,将所有的片段融合得到最终的分类准确率。网络训练部分:通过使用多尺度裁剪,颜色抖动,随机翻转等方法解决了训练数据少产生的过拟合问题。时间段网络通过从k个片段中学习视频的特征,关注到了视频的全局信息而非局部,与3维卷积网络方法相比,3维卷积网络虽然能关注全局的视频信息,但参数量巨大,时间段网络不管在参数量还是在计算量上都比3维卷积更小。时间段网络是传统两种方法的综合,既注重视频全局信息,又不会带来很大的参数和计算量。
Description
技术领域
本发明属于机器视觉及行为识别领域,尤其涉及一种基于双流网络的行为识别方法。
背景技术
基于视频的行为识别因其在安全和行为分析等许多领域的应用而引起了极大关注,过去主要是基于手工提取特征的方法,比如采用梯度直方图(Histogram of OrientedGradients,HOG),光流直方图(Histogram of Optical Flow,HOF)表示视频的静态与运动信息,这些特征用词袋模型(Bag of Features)编码,最后结合支持向量机(supportvector machine,SVM)等分类器进行预测,然而手工特征难以表达高层的语义信息,在大规模数据据上有很大的局限性。随着深度学习的发展,卷积网络越来越多的被应用在行为识别领域,与静态的图片不同,视频多了时间维度,因此在行为识别中有两个关键方面:静态的外观和变化的动作。Simonyan等人在发表于NIPS会议的文献“Two-StreamConvolutional Networks for Action Recognition in Videos”中提出的方法用两个卷积网络分别对静态信息和运动信息建模,最后通过融合两路信息进行视频预测,然而此方法仅对单张图片建模,忽略了视频的时序依赖关系,识别系统的性能在很大程度上取决于它是否能从具有时序关系的视频中提取和利用相关信息,由于相机抖动,尺度变化,计算复杂度等多方面因素的存在,提取这些信息并不简单,因此设计能够应对这些挑战的行为识别分类系统变得至关重要。
发明内容
本发明所要解决的技术问题是解决了训练数据少,以及主流学习框架不能捕捉长时间跨度运动信息的不足提供了一种基于双流网络的行为识别方法。
本发明为解决上述技术问题采用以下技术方案
一种基于双流网络的行为识别方法,其特征在于:具体包含如下步骤;
步骤1,输入部分:探讨3种不同的输入,即将视频通过ffmpeg解码成连续的视频帧并提取其RGB图片、RGB差异图片和光流图片对行为识别结果的影响;
步骤2,数据预处理及模型训练部分:以RGB图片为输入的空间网络可用imagenet数据集上预训练的网络来初始化,以光流图片为输入的时间网络先平均RGB通道的权重,并根据时间网络输入的通道数复制该平均值;
步骤3,网络部分采用双路卷积网络,分别是空间网络和时间网络,空间网络以视频帧作为输入,时间网络以光流作为输入;时间段网络的输入从整个视频中稀疏采样的一系列短片段,视频用V表示,将V分成K份,用(S1,S2,…,SK)表示,则整个网络框架的表达式用下式表示:
Net(T1,T2,...TK)=H(G(F(T1;W),F(T2;W),...,F(TK;W)))
其中,T1,T2,…,TK表示一系列短片段,即TK是从S1,S2,…,SK中对应的视频片段中随机采样出来的结果,W是网络参数,则F(TK;W)为网络的输出,也就是该短片段属于每个类的得分,G是一个聚合函数,对所有短片段的属于同一类别的得分做平均;
步骤4,用H函数根据得分算概率,概率最高的类别就是视频所属的类别;
H函数采用最常见的Softmax函数,另外图1中的K个空间网的参数共享,K个时间网的参数共享;
网络的损失函数为下式:
其中,C为总的行为类别,y为每个类别的标签。
作为本发明一种基于双流网络的行为识别方法的进一步优选方案,在步骤1中,所述RGB差异图片为两幅RGB图片各通道之差;所述光流图片为连续若干光流的水平分量和垂直分量交替堆叠形成多通道图像。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1、本发明使用时间段网络,通过稀疏采样一系列短片段来捕捉长时间跨度的运动信息。与行为识别常用的两种方法:双流方法和3维卷积的方法相比,双流方法的优势在于参数量,计算量适中,但由于双流法的采样方式仅关注局部信息,忽略了全局信息的重要性,但实际情况中,一个视频可能会分成好几个片段,每个片段有不同的语义,仅仅关注局部远远不够,因此时间段网络相比双流网络能更加关注全局信息。
2、本发明3维卷积的方法虽然能关注到全局信息,但计算量相当大,用于对101个类别进行识别的2维卷积网络参数仅有5M,一旦使用3维卷积,参数约有33M。
3、本发明时间段网络是两种方法的综合,既保证了这个网络能关注到全局信息,又让参数量,计算量不至于很大(2)行为识别的一大难题是数据集小,导致模型泛化能力差,因此探寻更多数据扩充的方法非常重要,我们使用多尺度裁剪,颜色抖动,随机翻转等方法解决了训练数据少产生的过拟合问题。
附图说明
图1为本发明行为识别总的流程图;
图2为本发明尝试的三种不同的输入,从左到右分别为RGB,光流(水平方向,垂直方向)RGB差异图;
图3为图1流程图中空间网,时间网结构;
图4为图3中Submodel的结构。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
本发明设计了一种基于深度学习的行为识别系统,解决了训练数据少,以及主流学习框架不能捕捉长时间跨度运动信息的不足。
为达到以上目的,本发明采用的技术方案如下:
输入部分:本发明探讨了3种不同的输入,即将视频处理并提取其RGB图片,RGB差异图片(即两幅RGB图片各通道之差),光流图片(即连续若干光流的水平分量和垂直分量交替堆叠形成多通道图像)对行为识别结果的影响,如图2所示。
(2)数据预处理及模型训练部分:为了解决训练数据少以及会造成的过拟合问题,本发明采用多尺度裁剪,水平翻转数据增强方法,交叉模态预训练方法(即以RGB图片为输入的空间网络可以用imagenet数据集上预训练的网络来初始化,以光流图片为输入的时间网络先平均RGB通道的权重,并根据时间网络输入的通道数复制该平均值)。
(3)网络部分:根据本发明的实施方案,网络部分依然用具有不错效果的双路卷积网络,分别是空间网络和时间网络,都采用图3所示结构,包含若干卷积层,池化层等,其中图3的每个子模块由图4组成。空间网络以视频帧作为输入,时间网络以光流作为输入。最重要的是时间段网络(包含多个空间网络和时间网络,参看图1)的输入是从整个视频中稀疏采样的一系列短片段,这就是为了获取长时间跨度结构所做的改进。图1的最左边是一个视频,用V表示,将V分成K份,用(S1,S2,…,SK)表示。网络用下(1)式表示:
Net(T1,T2,...TK)=H(G(F(T1;W),F(T2;W),...,F(TK;W))) (1)
这里的(T1,T2,…,TK)表示一系列短片段,也就是说TK是从(S1,S2,…,SK)中对应的视频片段中随机采样出来的结果,W是网络参数,因此F(TK;W)就是网络的输出,也就是该短片段属于每个类的得分,G是一个聚合函数,对所有短片段的属于同一类别的得分做平均,因为最后要求视频属于哪个类别,而不是这个视频的某个短片段属于哪个类别。G函数的输出结果就是图1中段共识模块的输出结果。最后用H函数根据得分算概率,概率最高的类别就是视频所属的类别。H函数采用最常见的Softmax函数,另外图1中的K个空间网的参数共享,K个时间网的参数共享。
网络的损失函数为下(2)式:
其中C为总的行为类别,y为每个类别的标签。
如图1所示,一个视频被均匀分成3等分,每个部分随机采样1个短片段,其中每个短片段包含2部分:包含静态信息的RGB图片以及包含动态信息的光流图片,然后每个短片段经过图3所示网络输出片段级的预测,最后经过段共识模块将片段级别的预测进行整合(做平均),从而形成视频级别的预测。
如图2所示,为三种不同的输入,从左到右分别为RGB图片,x和y方向上的光流图片以及RGB差异图片。
如图3所示,为空间网以及时间网的网络结构图。理想情况,只要网络不过拟合,应该是越深越好,因此图3通过submodel构架的叠加,通过设计交叉模态预训练等方法,在保证网络不过拟合的情况下,提高了识别的准确率。
如图4所示,为空间网以及时间网中子模块的结构图,1*1的卷积层主要用来减少模型参数以及控制特征图输出深度。
如表1所示,为不同的输入经过本发明网络训练得到的测试结果与基准方法在ucf101数据集上的对比,预测时通过空间流网络与时间流网络融合可以得到更高的准确率。
表1
输入 | 表现 |
RGB | 84.36% |
RGBDiff | 86.95% |
Flow | 87.66% |
RGB+Flow | 92.97% |
RGB+RGBDiff | 90.51% |
BaselineRGB+Flow | 87% |
Claims (2)
1.一种基于双流网络的行为识别方法,其特征在于:具体包含如下步骤;
步骤1,输入部分:探讨3种不同的输入,即将视频通过ffmpeg解码成连续的视频帧并提取其RGB图片、RGB差异图片和光流图片对行为识别结果的影响;
步骤2,数据预处理及模型训练部分:以RGB图片为输入的空间网络可用imagenet数据集上预训练的网络来初始化,以光流图片为输入的时间网络先平均RGB通道的权重,并根据时间网络输入的通道数复制该平均值;
步骤3,网络部分采用双路卷积网络,分别是空间网络和时间网络,空间网络以视频帧作为输入,时间网络以光流作为输入;时间段网络的输入从整个视频中稀疏采样的一系列短片段,视频用V表示,将V分成K份,用(S1,S2,…,SK)表示,则整个网络框架的表达式用下式表示:
Net(T1,T2,...TK)=H(G(F(T1;W),F(T2;W),...,F(TK;W)))
其中,T1,T2,…,TK表示一系列短片段,即TK是从S1,S2,…,SK中对应的视频片段中随机采样出来的结果,W是网络参数,则F(TK;W)为网络的输出,也就是该短片段属于每个类的得分,G是一个聚合函数,对所有短片段的属于同一类别的得分做平均;
步骤4,用H函数根据得分算概率,概率最高的类别就是视频所属的类别;
H函数采用最常见的Softmax函数,另外图1中的K个空间网的参数共享,K个时间网的参数共享;
网络的损失函数为下式:
其中,C为总的行为类别,y为每个类别的标签。
2.根据权利要求1所述的一种基于双流网络的行为识别方法,其特征在于:在步骤1中,所述RGB差异图片为两幅RGB图片各通道之差;所述光流图片为连续若干光流的水平分量和垂直分量交替堆叠形成多通道图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910202628.2A CN109993077A (zh) | 2019-03-18 | 2019-03-18 | 一种基于双流网络的行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910202628.2A CN109993077A (zh) | 2019-03-18 | 2019-03-18 | 一种基于双流网络的行为识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109993077A true CN109993077A (zh) | 2019-07-09 |
Family
ID=67130619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910202628.2A Pending CN109993077A (zh) | 2019-03-18 | 2019-03-18 | 一种基于双流网络的行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109993077A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458038A (zh) * | 2019-07-19 | 2019-11-15 | 天津理工大学 | 基于双链深度双流网络的小数据跨域动作识别方法 |
CN110516540A (zh) * | 2019-07-17 | 2019-11-29 | 青岛科技大学 | 基于多流架构与长短时记忆网络的组群行为识别方法 |
CN110569773A (zh) * | 2019-08-30 | 2019-12-13 | 江南大学 | 基于时空显著性行为注意力的双流网络行为识别方法 |
CN111027377A (zh) * | 2019-10-30 | 2020-04-17 | 杭州电子科技大学 | 一种双流神经网络时序动作定位方法 |
CN111178319A (zh) * | 2020-01-06 | 2020-05-19 | 山西大学 | 基于压缩奖惩机制的视频行为识别方法 |
CN111259795A (zh) * | 2020-01-16 | 2020-06-09 | 河南职业技术学院 | 基于多流深度学习的人体行为识别方法 |
CN111372123A (zh) * | 2020-03-03 | 2020-07-03 | 南京信息工程大学 | 基于从局部到全局的视频时序片段提取方法 |
CN111709306A (zh) * | 2020-05-22 | 2020-09-25 | 江南大学 | 一种基于多层次时空特征融合增强的双流网络行为识别方法 |
CN111709351A (zh) * | 2020-06-11 | 2020-09-25 | 江南大学 | 基于多径时空特征强化融合的三支流网络行为识别方法 |
CN112398875A (zh) * | 2021-01-18 | 2021-02-23 | 北京电信易通信息技术股份有限公司 | 视频会议场景下基于机器学习的流数据安全漏洞探测方法 |
CN112733595A (zh) * | 2020-12-02 | 2021-04-30 | 国网湖南省电力有限公司 | 一种基于时间分段网络的视频动作识别方法及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108288035A (zh) * | 2018-01-11 | 2018-07-17 | 华南理工大学 | 基于深度学习的多通道图像特征融合的人体动作识别方法 |
-
2019
- 2019-03-18 CN CN201910202628.2A patent/CN109993077A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108288035A (zh) * | 2018-01-11 | 2018-07-17 | 华南理工大学 | 基于深度学习的多通道图像特征融合的人体动作识别方法 |
Non-Patent Citations (1)
Title |
---|
LOWKEYBLN: "Temporal Segment Networks: Towards Good Practices for Deep Action Recognition(时间段网络:使用深度行为识别的良好实现)", 《HTTPS://WWW.JIANSHU.COM/P/B8022590864E》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516540A (zh) * | 2019-07-17 | 2019-11-29 | 青岛科技大学 | 基于多流架构与长短时记忆网络的组群行为识别方法 |
CN110516540B (zh) * | 2019-07-17 | 2022-04-29 | 青岛科技大学 | 基于多流架构与长短时记忆网络的组群行为识别方法 |
CN110458038A (zh) * | 2019-07-19 | 2019-11-15 | 天津理工大学 | 基于双链深度双流网络的小数据跨域动作识别方法 |
CN110569773A (zh) * | 2019-08-30 | 2019-12-13 | 江南大学 | 基于时空显著性行为注意力的双流网络行为识别方法 |
CN111027377B (zh) * | 2019-10-30 | 2021-06-04 | 杭州电子科技大学 | 一种双流神经网络时序动作定位方法 |
CN111027377A (zh) * | 2019-10-30 | 2020-04-17 | 杭州电子科技大学 | 一种双流神经网络时序动作定位方法 |
CN111178319A (zh) * | 2020-01-06 | 2020-05-19 | 山西大学 | 基于压缩奖惩机制的视频行为识别方法 |
CN111259795A (zh) * | 2020-01-16 | 2020-06-09 | 河南职业技术学院 | 基于多流深度学习的人体行为识别方法 |
CN111372123A (zh) * | 2020-03-03 | 2020-07-03 | 南京信息工程大学 | 基于从局部到全局的视频时序片段提取方法 |
CN111372123B (zh) * | 2020-03-03 | 2022-08-09 | 南京信息工程大学 | 基于从局部到全局的视频时序片段提取方法 |
CN111709306A (zh) * | 2020-05-22 | 2020-09-25 | 江南大学 | 一种基于多层次时空特征融合增强的双流网络行为识别方法 |
CN111709351A (zh) * | 2020-06-11 | 2020-09-25 | 江南大学 | 基于多径时空特征强化融合的三支流网络行为识别方法 |
CN111709351B (zh) * | 2020-06-11 | 2023-05-05 | 江南大学 | 基于多径时空特征强化融合的三支流网络行为识别方法 |
CN112733595A (zh) * | 2020-12-02 | 2021-04-30 | 国网湖南省电力有限公司 | 一种基于时间分段网络的视频动作识别方法及存储介质 |
CN112398875A (zh) * | 2021-01-18 | 2021-02-23 | 北京电信易通信息技术股份有限公司 | 视频会议场景下基于机器学习的流数据安全漏洞探测方法 |
CN112398875B (zh) * | 2021-01-18 | 2021-04-09 | 北京电信易通信息技术股份有限公司 | 视频会议场景下基于机器学习的流数据安全漏洞探测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109993077A (zh) | 一种基于双流网络的行为识别方法 | |
Chen et al. | Video person re-identification with competitive snippet-similarity aggregation and co-attentive snippet embedding | |
Lin et al. | Gait recognition with multiple-temporal-scale 3d convolutional neural network | |
CN109829443A (zh) | 基于图像增强与3d卷积神经网络的视频行为识别方法 | |
CN105678216A (zh) | 基于深度学习的时空数据流视频行为识别方法 | |
CN100361451C (zh) | 基于内容的网络色情图像和不良图像检测系统 | |
CN109871777A (zh) | 一种基于注意力机制的行为识别系统 | |
Peng et al. | Rgb-t crowd counting from drone: A benchmark and mmccn network | |
CN108510061B (zh) | 基于条件生成对抗网络的多监控视频人脸合成正脸的方法 | |
CN108830252A (zh) | 一种融合全局时空特征的卷积神经网络人体动作识别方法 | |
CN107506786A (zh) | 一种基于深度学习的属性分类识别方法 | |
CN109993269A (zh) | 基于注意力机制的单张图像人群计数方法 | |
CN113762138B (zh) | 伪造人脸图片的识别方法、装置、计算机设备及存储介质 | |
CN109214298A (zh) | 一种基于深度卷积网络的亚洲女性颜值评分模型方法 | |
CN110472634A (zh) | 基于多尺度深度特征差值融合网络的变化检测方法 | |
CN109948721A (zh) | 一种基于视频描述的视频场景分类方法 | |
CN113807176B (zh) | 一种基于多知识融合的小样本视频行为识别方法 | |
CN111382602A (zh) | 一种跨域人脸识别算法、存储介质及处理器 | |
Song et al. | Knowledge-guided blind image quality assessment with few training samples | |
Zhang et al. | Fchp: Exploring the discriminative feature and feature correlation of feature maps for hierarchical dnn pruning and compression | |
Zhang | Tfcnet: Temporal fully connected networks for static unbiased temporal reasoning | |
CN110110812A (zh) | 一种用于视频动作识别的串流深度网络模型 | |
Zhang et al. | Temporal transformer networks with self-supervision for action recognition | |
Wu et al. | Cross-fiber spatial-temporal co-enhanced networks for video action recognition | |
CN106683074A (zh) | 一种基于雾霾特性的图像篡改检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |