CN110610145A - 一种结合全局运动参数的行为识别方法 - Google Patents
一种结合全局运动参数的行为识别方法 Download PDFInfo
- Publication number
- CN110610145A CN110610145A CN201910802207.3A CN201910802207A CN110610145A CN 110610145 A CN110610145 A CN 110610145A CN 201910802207 A CN201910802207 A CN 201910802207A CN 110610145 A CN110610145 A CN 110610145A
- Authority
- CN
- China
- Prior art keywords
- global motion
- behavior
- global
- motion information
- motion parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种结合全局运动参数的行为识别方法。由于智能设备是戴在头部的,所以随着头部的运动会产生全局运动信息,这对于行为识别会产生很大的干扰,将原始行为视频的特征与全局运动信息特征进行融合,能减少全局运动信息的影响。本发明不增加智能设备的成本,只稍微增加网络运行时间,计算复杂度低,将全局运动信息融入行为识别网络,为行为识别网络提供全局信息,减少头部抖动以及一些全局信息的干扰,使得预测准确率更高,而且全局运动参数的提取相对于光流的提取极大的降低了时间成本。
Description
技术领域
本发明涉及行为识别技术,特别涉及第一视角的行为识别技术。
背景技术
伴随着深度学习的发展和可穿戴的智能设备的增加,第一视角的行为识别越来越重要,同时也带来一定的挑战性。传统方法解决行为识别问题主要采用手工特征设计,例如,传统算法表现最好的iDT,其主要是通过手工提取HOF、HOG、MBH、trajectory4等特征,然后利用FV(Fisher Vector)方法对特征进行编码,再基于编码特征训练SVM分类器;然而深度学习的出现,通过网络模型自己学习特征,可以很好的克服手工提取特征问题。深度学习主要包括Two-Stream、三维卷积等方向;其中Two-Stream包含两个支路,其中之一是利用光流作为网络模型输入,然而提取光流需要消耗大量时间,不过光流的确可以提供很好的运动信息以供网络模型学习,所以缺失光流对准确率会有很大的影响。而且由于智能设备穿戴者的一些自然动作,相机经常会产生抖动和模糊的镜头,出现难以理解的视频,增加行为识别难度,因此运动信息对于可穿戴智能设备的行为识别是必不可少的。
目前,对于可穿戴设备第一视角行为识别,增加运动信息主要通过提取光流和增加传感器芯片(陀螺仪,加速器等);然而提取光流消耗大量时间,增加网络运行时间,很难实现实时检测,而增加传感器,没有增加网络运行时间,但是增加可穿戴智能设备的成本,这对可穿戴设备的智能产品都不是很友好。
发明内容
本发明所要解决的技术问题是,提供一种适用于可穿戴智能设备的第一视角行为识别方法。
本发明为解决上述技术问题所采用的技术方案是,一种结合全局运动参数的行为识别方法,包括以下步骤:
1)待识别的行为视频输入行为识别网络后,同时进入步骤2)与步骤3);
2)通过三维卷积对输入的行为视频进行处理提取行为视频特征,进入步骤4);
3)提取行为视频的全局运动参数,再提取全局运动参数的全局运动信息特征,进入步骤4);
4)将行为视频特征与全局运动信息特征通过相加的方式进行融合,得到融合特征;
5)对融合特征进行行为识别。
由于智能设备是戴在头部的,所以随着头部的运动会产生全局运动信息,这对于行为识别会产生很大的干扰,将原始行为视频的特征与全局运动信息特征进行融合,能减少全局运动信息的影响。
本发明的有益效果是,不增加智能设备的成本,只稍微增加网络运行时间,计算复杂度低,将全局运动信息融入行为识别网络,为行为识别网络提供全局信息,减少头部抖动以及一些全局信息的干扰,使得预测准确率更高,而且全局运动参数的提取相对于光流的提取极大的降低了时间成本。
附图说明
图1:实施例流程图。
具体实施方式
行为识别网络在训练时包括三维卷积网络、全局运动参数计算模块、长短期记忆网络LSTM、FC层、SoftmaxLoss模块;行为识别网络在测试时包括三维卷积网络、全局运动参数计算模块、长短期记忆网络LSTM、FC层、Softmax模块。
由于Two_Stream是将图像作为网络输入,是对每帧图像单独处理。然而行为识别是一个连续动作,仅仅对单帧进行处理,没有利用前后帧的信息,从时间维度上看连续性存在一定的问题。如图1所示,本发明的行为识别网络将输入的行为视频分做两个支路,一个支路输入至三维卷积网络,通过三维卷积对行为视频处理得到行为视频特征,行为视频特征中包括有前后帧之间的信息,能提高之后行为识别的准确率。
另一个支路是输入至全局运动参数计算模块从行为视频中提取全局运动参数,使网络模型利用全局信息,减少全局运动信息对行为识别的影响,首先要根据行为视频提取全局运动参数,实施例采用的是六参数模型的全局运动估计:
其中,(x,y)代表参考帧中像素的坐标,(x′,y′)代表当前帧中像素的坐标,P=(a,b,c,d,e,f)T为六参数矢量。
将当前帧划分成N个宏块,将计算出的运动矢量与估计出的当前帧的坐标,通过最小二乘法迭代来计算六参数最优估计:
其中(xk,yk)为第k个宏块的运动矢量,(x′k,y′k)是第k个宏块的坐标。
然后,将计算得到的全局运动参数送入长短期记忆网络LSTM得到全局运动信息特征,将全局运动信息特征与行为视频特征进行特征融合,最终经过一个全连接层FC对融合特征进行判决之前的预处理。在训练阶段,SoftmaxLoss模块接收到FC层输入的融合特征后用交叉熵计算损失,并计算损失函数的梯度,采用SGD梯度下降法更新行为识别网络模型参数。训练直至网络模型收敛,性能达到最优。训练完成后,FC层对融合特征进行判决之前的预处理得到每种行为的预测值后,输入至Softmax进行行为识别。
Claims (3)
1.一种结合全局运动参数的行为识别方法,其特征在于,包括以下步骤:
1)待识别的行为视频输入行为识别网络后,同时进入步骤2)与步骤3);
2)通过三维卷积对输入的行为视频进行处理提取行为视频特征,进入步骤4);
3)提取行为视频的全局运动参数,再提取全局运动参数的全局运动信息特征,进入步骤4);
4)将行为视频特征与全局运动信息特征通过相加的方式进行融合,得到融合特征;
5)对融合特征进行行为识别。
2.如权利要求1所述方法,其特征在于,全局运动参数为六参数模型的全局运动估计得到参数:
其中,(x,y)代表参考帧中像素坐标,(x′,y′)代表当前帧中像素的坐标,P=(a,b,c,d,e,f)T为六参数矢量;
提取行为视频的全局运动参数的方法是:将当前帧划分成N个宏块,将计算出的运动矢量与估计出的当前帧的坐标,通过最小二乘法迭代来计算六参数最优估计:
其中,(xk,yk)为第k个宏块的运动矢量,(x′k,y′k)是k个宏块的坐标。
3.如权利要求1所述方法,其特征在于,步骤3)中通过长短期记忆网络LSTM提取全局运动信息特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910802207.3A CN110610145B (zh) | 2019-08-28 | 2019-08-28 | 一种结合全局运动参数的行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910802207.3A CN110610145B (zh) | 2019-08-28 | 2019-08-28 | 一种结合全局运动参数的行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110610145A true CN110610145A (zh) | 2019-12-24 |
CN110610145B CN110610145B (zh) | 2022-11-08 |
Family
ID=68889970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910802207.3A Active CN110610145B (zh) | 2019-08-28 | 2019-08-28 | 一种结合全局运动参数的行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110610145B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006105094A2 (en) * | 2005-03-29 | 2006-10-05 | Duke University | Sensor system for identifying and tracking movements of multiple sources |
CN104159120A (zh) * | 2014-08-21 | 2014-11-19 | 北京奇艺世纪科技有限公司 | 一种视频稳像方法、装置及系统 |
CN106022310A (zh) * | 2016-06-14 | 2016-10-12 | 湖南大学 | 基于htg-hog和stg特征的人体行为识别方法 |
CN107360474A (zh) * | 2017-08-18 | 2017-11-17 | 电子科技大学 | 基于局部纹理特征和全局亮度特征的视频迟滞帧检测方法 |
CN107423697A (zh) * | 2017-07-13 | 2017-12-01 | 西安电子科技大学 | 基于非线性融合深度3d卷积描述子的行为识别方法 |
CN108416288A (zh) * | 2018-03-04 | 2018-08-17 | 南京理工大学 | 基于全局与局部网络融合的第一视角交互动作识别方法 |
CN108830252A (zh) * | 2018-06-26 | 2018-11-16 | 哈尔滨工业大学 | 一种融合全局时空特征的卷积神经网络人体动作识别方法 |
CN109447095A (zh) * | 2018-10-30 | 2019-03-08 | 上海七牛信息技术有限公司 | 视觉属性识别方法、装置及存储介质 |
CN109446991A (zh) * | 2018-10-30 | 2019-03-08 | 北京交通大学 | 基于全局和局部特征融合的步态识别方法 |
CN109508684A (zh) * | 2018-11-21 | 2019-03-22 | 中山大学 | 一种视频中人体行为识别的方法 |
CN109711380A (zh) * | 2019-01-03 | 2019-05-03 | 电子科技大学 | 一种基于全局上下文信息的时序行为片段生成系统及方法 |
CN109726671A (zh) * | 2018-12-27 | 2019-05-07 | 上海交通大学 | 从全局到类别特征表达学习的动作识别方法和系统 |
-
2019
- 2019-08-28 CN CN201910802207.3A patent/CN110610145B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006105094A2 (en) * | 2005-03-29 | 2006-10-05 | Duke University | Sensor system for identifying and tracking movements of multiple sources |
CN104159120A (zh) * | 2014-08-21 | 2014-11-19 | 北京奇艺世纪科技有限公司 | 一种视频稳像方法、装置及系统 |
CN106022310A (zh) * | 2016-06-14 | 2016-10-12 | 湖南大学 | 基于htg-hog和stg特征的人体行为识别方法 |
CN107423697A (zh) * | 2017-07-13 | 2017-12-01 | 西安电子科技大学 | 基于非线性融合深度3d卷积描述子的行为识别方法 |
CN107360474A (zh) * | 2017-08-18 | 2017-11-17 | 电子科技大学 | 基于局部纹理特征和全局亮度特征的视频迟滞帧检测方法 |
CN108416288A (zh) * | 2018-03-04 | 2018-08-17 | 南京理工大学 | 基于全局与局部网络融合的第一视角交互动作识别方法 |
CN108830252A (zh) * | 2018-06-26 | 2018-11-16 | 哈尔滨工业大学 | 一种融合全局时空特征的卷积神经网络人体动作识别方法 |
CN109447095A (zh) * | 2018-10-30 | 2019-03-08 | 上海七牛信息技术有限公司 | 视觉属性识别方法、装置及存储介质 |
CN109446991A (zh) * | 2018-10-30 | 2019-03-08 | 北京交通大学 | 基于全局和局部特征融合的步态识别方法 |
CN109508684A (zh) * | 2018-11-21 | 2019-03-22 | 中山大学 | 一种视频中人体行为识别的方法 |
CN109726671A (zh) * | 2018-12-27 | 2019-05-07 | 上海交通大学 | 从全局到类别特征表达学习的动作识别方法和系统 |
CN109711380A (zh) * | 2019-01-03 | 2019-05-03 | 电子科技大学 | 一种基于全局上下文信息的时序行为片段生成系统及方法 |
Non-Patent Citations (2)
Title |
---|
王强: "用于三维成像激光雷达的MEMS扫描镜研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
纪巍: "面向视频压缩域的实时目标识别技术研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN110610145B (zh) | 2022-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108830252B (zh) | 一种融合全局时空特征的卷积神经网络人体动作识别方法 | |
CN106096568B (zh) | 一种基于cnn和卷积lstm网络的行人再识别方法 | |
CN107239728B (zh) | 基于深度学习姿态估计的无人机交互装置与方法 | |
CN109598268B (zh) | 一种基于单流深度网络的rgb-d显著目标检测方法 | |
CN107808131B (zh) | 基于双通路深度卷积神经网络的动态手势识别方法 | |
CN102456225B (zh) | 一种运动目标检测与跟踪方法和系统 | |
CN107862376A (zh) | 一种基于双流神经网络的人体图像动作识别方法 | |
CN109635728B (zh) | 一种基于非对称度量学习的异构行人再识别方法 | |
CN113706699B (zh) | 数据处理方法、装置、电子设备及计算机可读存储介质 | |
CN109190522B (zh) | 一种基于红外相机的活体检测方法 | |
CN106296725A (zh) | 运动目标实时检测与跟踪方法及目标检测装置 | |
CN111598026A (zh) | 动作识别方法、装置、设备及存储介质 | |
TWI539407B (zh) | 移動物體偵測方法及移動物體偵測裝置 | |
CN108961227B (zh) | 一种基于空域和变换域多特征融合的图像质量评价方法 | |
CN112801019B (zh) | 基于合成数据消除无监督车辆再识别偏差的方法及系统 | |
CN110969110A (zh) | 一种基于深度学习的人脸跟踪方法及系统 | |
KR20140074201A (ko) | 추적 장치 | |
CN110059597A (zh) | 基于深度相机的场景识别方法 | |
CN101237581B (zh) | 基于运动特征的h.264压缩域实时视频对象分割方法 | |
CN104408444A (zh) | 人体动作识别方法和装置 | |
Cao et al. | Compressed video action recognition with refined motion vector | |
CN110610145B (zh) | 一种结合全局运动参数的行为识别方法 | |
Al-Obaidi et al. | Temporal salience based human action recognition | |
ITUB20159613A1 (it) | Procedimento e sistema di clustering, apparecchiatura e prodotto informatico corrispondenti | |
CN111246176A (zh) | 一种节带化视频传输方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |