CN113052059A - 一种基于时空特征融合的实时动作识别方法 - Google Patents
一种基于时空特征融合的实时动作识别方法 Download PDFInfo
- Publication number
- CN113052059A CN113052059A CN202110300133.0A CN202110300133A CN113052059A CN 113052059 A CN113052059 A CN 113052059A CN 202110300133 A CN202110300133 A CN 202110300133A CN 113052059 A CN113052059 A CN 113052059A
- Authority
- CN
- China
- Prior art keywords
- time
- real
- action
- space
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000009471 action Effects 0.000 title claims abstract description 41
- 230000004927 fusion Effects 0.000 title claims abstract description 25
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 238000013135 deep learning Methods 0.000 claims abstract description 11
- 238000004458 analytical method Methods 0.000 claims abstract description 9
- 238000009432 framing Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000007500 overflow downdraw method Methods 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 abstract 1
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明结合深度学习与计算机视觉算法,具体公开了一种基于时空特征融合的实时动作识别方法,该方法包括如下步骤:s1、通过摄像头获取人物动作的视频信息;s2、将获取人物动作的视频信息上传到服务器;s3、对上传的视频进行预处理,进行等间隔的分帧;s4、使用动作检测器,对视频信息进行特征提取,使用时空特征融合方法,对视频信息进行时间域与空间域特征融合,完成特征提取;s5、使用深度学习的方法,对特征进行综合分析,判断目标动作;s6、将结果实时反馈。本发明方法通过使用卷积神经网络对于目标动作中视频信息的分析,使用时空特征融合方法,充分挖掘视频每帧之间的关系特征,实时的检测待检测目标动作。
Description
技术领域
本发明结合深度学习与计算机视觉算法,具体公开了一种基于时空特征融合的实时动作识别方法。
背景技术
随着视频获取设备和网络的发展,从视频信息中分析和理解人体动作变得越来越重要。人体动作识别应用于视频监控、自动视频标签和人机交互等多个领域。动作识别在模式识别当中属于比较困难的识别任务,识别视频中的动作则是其中一个充满挑战而又具有较高实际应用价值的任务。相比图像来说,视频内容和背景更加复杂多变,不同的动作类别之间具有相似性,而相同的类别在不同环境下又有着不同的特点。
根据实现的方法来分类,可以把人体动作识别分为基于单帧图像的动作识别和基于视频的动作识别。相比于基于视频的识别,基于单帧图像的识别优势在于图像更容易获得,可是由于图像没有时间信息识别起来更加困难,并且也更容易出现误判。而基于视频的动作识别能够有效的获取视频中的时间和空间信息,这在很大程度上提高了识别的准确率。现有的人体动作识别方法主要有基于特征提取的动作识别方法和基于深度学习的动作识别方法。传统基于特征提取的动作识别方法主要靠一些经典的人为设计特征来提取运动特征,再由分类器分类或进行模板匹配。人工设计特征数据预处理复杂,而深度学习模型具有自适应学习特征、数据预处理简单等优点。
现在的方法多是通过深度学习的方法进行特征提取,但是采用二维卷积神经网络的方法缺少对时间域特征的提取,采用三维卷积神经网络的方法存在过拟合,参数量过大的问题。
因此,结合深度学习与计算机视觉的方法,构建一种更便利的动作识别方法是非常必要的。
发明内容
本发明的目的在于提出一种基于时空特征融合的实时动作识别方法,其采用如下方案:
一种基于时空特征融合的实时动作识别方法,包括如下步骤:
s1、通过摄像头获取人物动作的视频信息;
s2、将获取人物动作的视频信息上传到服务器;
s3、对上传的视频进行预处理,进行等间隔的分帧;
s4、使用动作检测器,对视频信息进行特征提取,使用时空特征融合方法,对视频信息进行时间域与空间域特征融合,完成特征提取;
s5、使用深度学习的方法,对特征进行综合分析,判断目标动作;
s6、将结果实时反馈。
进一步,上述步骤s1中,通过调整摄像头角度,实时地捕获目标人物的动作特征信息。
进一步,上述步骤s2中,需要将对于s1中获取到的信息每隔一定时间上传到指定的服务器中,分析所处动作状态。
进一步,上述步骤s3中,通过视频分帧技术,根据深度学习算法中时间步长,每秒提取16张视频帧图片。
进一步,上述步骤s4中,完成对于时空特征融合的特征提取。
进一步,数据处理的具体步骤为:
s41、通过动作检测器,在步骤s3的基础上,完成对于每一帧图片目标动作的空间域特征提取工作;
s42、通过时空特征融合方法,在步骤s41的基础上,实现时间域与空间域特征的融合;
s43、通过高斯核函数,在步骤s42的基础上,完成对时空特征正则化,提高特征的高效性;
进一步,上述步骤s5中,根据s4中的特征提取结果进行分析处理,送入深度学习分类其中进行目标人物的动作状态的判别。
进一步,上述步骤s6中,根据s5中的分析结果实时的反馈待目标人物的动作状态。
本发明具有如下优点:
本发明方法通过深度神经网络与计算机视觉的方法,在二维神经网络架构中,加入了三维池化层,创造性地融合了时空特征,并且加入了高斯核函数来对特征进行扰动,增强特征的高效性,采用二维卷积提取特征,大大缩短了算法处理时间,使得识别目标人物的动作更加高效快捷,相较于二维卷积的方法,考虑了时间域的特征,相较于三维卷积的方法,参数量小运行速度快。
附图说明
图1为本发明中一种基于时空特征融合的实时动作识别方法的流程框图。
具体实施方法
下面结合附图以及具体实施方式对本发明作进一步详细说明:
结合图1所示,一种基于时空特征融合的实时动作识别方法,包括如下步骤:
s1、获取人物动作的视频信息
为了充分获取目标人物的动作特征信息,本方法要合理的调整摄像头的角度,从而使得目标人物的信息能够被摄像头充分的捕捉到。
s2、将获取人物动作的视频信息上传到服务器
完成对于目标人物动作状态的实时获取,由于本地的硬件环境可能不满足数据处理的需要,为了实时的目标人物动作的状态变化,本方法每隔一小段时间需要完成数据的上传以便进行疲劳的检测。
s3、对上传的视频进行预处理,进行等间隔的分帧,转化为标准的数据形式;
由于上传到服务器的是一段完成的视频,而如果对完整的视频进行检测会大大增加检测的复杂性,为此,通过视频分帧技术,将视频进行分帧,具体为每秒提取16帧,并将其转化为标准的数据形式。
s4、对等间隔的帧做进一步处理,提取特征;
为了充分提取目标人物动作的所有视觉特征,本方法考虑时间域以及空间域特征对于动作识别的影响,构建了时空特征融合的特征提取架构。
s41、在架构的底层,考虑空间域对于目标动作识别状态的影响,本方法使用ResNet-50为基础框架预训练动作检测器,在挑选帧的基础上检测动作特征;
s42、在步骤s41的基础上,在每两层网络后加入一个三维池化层,实现时间域与空间域特征的融合,提高在时间维度上,不同时间步的关注度,提高特征的高效性;
s43、通过高斯核函数,在步骤s42的基础上,完成对时空特征正则化,,提高在不同频率特征的关注度;
s44、通过特征融合技术,融合步骤s41与步骤s43提取的特征。
通过以上操作,完成对于当前数据的特征提取工作。
s5、基于深度神经网络模型,对特征进行综合分析,判断目标动作
根据之前的数据处理得到的特征,对特征进行处理分析,采用Softmax分类器对目标人物进行动作判别。
s6、完成对于当前目标人物动作检测的分析工作,并实时反馈。
当然,以上说明仅仅为本发明的较好实施例子,本发明并不限于列举上述实施例,应当说明的是,任何熟悉本领域的技术人员在本说明书的教导下,所做出的所有等同替代、明显变形形式,均落在本说明书的实质范围之内,理应受到本发明的保护。
Claims (7)
1.一种基于时空特征融合的实时动作识别方法,其特征在于,包括如下步骤:
s1、通过摄像头获取人物动作的视频信息;
s2、将获取人物动作的视频信息上传到服务器;
s3、对上传的视频进行预处理,进行等间隔的分帧;
s4、使用动作检测器,对视频信息进行特征提取,使用时空特征融合方法,对视频信息进行时间域与空间域特征融合,完成特征提取;
s5、使用深度学习的方法,对特征进行综合分析,判断目标动作;
s6、将结果实时反馈。
2.根据权利要求1所述的一种基于时空特征融合的实时动作识别方法,其特征在于,所述步骤s1中,在目标人物运动的过程中获取视频特征信息。
3.根据权利要求1所述的一种基于时空特征融合的实时动作识别方法,其特征在于,所述步骤s2中,完成对于s1中获取到的数据上传服务器进行分析。
4.根据权利要求1所述的一种基于时空特征融合的实时动作识别方法,其特征在于,所述步骤s3中,完成对于数据的预处理,使用视频分帧技术,固定每秒提取16帧图片,提取连续的视频帧。
5.根据权利要求1所述的一种基于时空特征融合的实时动作识别方法,其特征在于,所述步骤s4中,特征提取的具体的处理过程如下:
s41、通过动作检测器,在步骤s3的基础上,完成对于每一帧图片目标动作的空间域特征提取工作;
s42、通过时空特征融合方法,在步骤s41的基础上,实现时间域与空间域特征的融合;
s43、通过特征融合技术,融合步骤s41与步骤s42提取的特征。
6.根据权利要求1所述的一种基于时空特征融合的实时动作识别方法,其特征在于,所述步骤s5中,根据s4提取的特征,送入深度学习分类器中进行目标人物动作判别。
7.根据权利要求1所述的一种基于时空特征融合的实时动作识别方法,其特征在于,所述步骤s6中,根据s5分析结果完成对待目标动作的实时反馈工作,以减少因时间滞后而引起的错误判别以及带来的财产损失。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110300133.0A CN113052059A (zh) | 2021-03-22 | 2021-03-22 | 一种基于时空特征融合的实时动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110300133.0A CN113052059A (zh) | 2021-03-22 | 2021-03-22 | 一种基于时空特征融合的实时动作识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113052059A true CN113052059A (zh) | 2021-06-29 |
Family
ID=76513949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110300133.0A Pending CN113052059A (zh) | 2021-03-22 | 2021-03-22 | 一种基于时空特征融合的实时动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113052059A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114926761A (zh) * | 2022-05-13 | 2022-08-19 | 浪潮卓数大数据产业发展有限公司 | 一种基于时空平滑特征网络的动作识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886358A (zh) * | 2019-03-21 | 2019-06-14 | 上海理工大学 | 基于多时空信息融合卷积神经网络的人体行为识别方法 |
CN109977773A (zh) * | 2019-02-18 | 2019-07-05 | 华南理工大学 | 基于多目标检测3d cnn的人体行为识别方法及系统 |
CN110188637A (zh) * | 2019-05-17 | 2019-08-30 | 西安电子科技大学 | 一种基于深度学习的行为识别技术方法 |
CN112464768A (zh) * | 2020-11-18 | 2021-03-09 | 中国石油大学(华东) | 一种基于自关注多特征融合的疲劳检测方法 |
-
2021
- 2021-03-22 CN CN202110300133.0A patent/CN113052059A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977773A (zh) * | 2019-02-18 | 2019-07-05 | 华南理工大学 | 基于多目标检测3d cnn的人体行为识别方法及系统 |
CN109886358A (zh) * | 2019-03-21 | 2019-06-14 | 上海理工大学 | 基于多时空信息融合卷积神经网络的人体行为识别方法 |
CN110188637A (zh) * | 2019-05-17 | 2019-08-30 | 西安电子科技大学 | 一种基于深度学习的行为识别技术方法 |
CN112464768A (zh) * | 2020-11-18 | 2021-03-09 | 中国石油大学(华东) | 一种基于自关注多特征融合的疲劳检测方法 |
Non-Patent Citations (2)
Title |
---|
JINHYUNG KIM; SEUNGHWAN CHA; DONGYOON WEE; SOONMIN BAE; JUNMO KIM;: "Regularization on Spatio-Temporally Smoothed Feature for Action Recognition", 《2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, 5 August 2020 (2020-08-05) * |
XIAOQIANG LI, MIAO XIE, YIN ZHANG, JIDE LI;: "Multi-scale temporal feature-based dense convolutional network for action recognition", 《JOURNAL OF ELECTRONIC IMAGING》, vol. 29, no. 6, 17 November 2020 (2020-11-17) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114926761A (zh) * | 2022-05-13 | 2022-08-19 | 浪潮卓数大数据产业发展有限公司 | 一种基于时空平滑特征网络的动作识别方法 |
CN114926761B (zh) * | 2022-05-13 | 2023-09-05 | 浪潮卓数大数据产业发展有限公司 | 一种基于时空平滑特征网络的动作识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Recent advances in video-based human action recognition using deep learning: A review | |
Jegham et al. | Vision-based human action recognition: An overview and real world challenges | |
CN109684925B (zh) | 一种基于深度图像的人脸活体检测方法及设备 | |
Kim et al. | Spatiotemporal saliency detection using textural contrast and its applications | |
CN110929593B (zh) | 一种基于细节辨别区别的实时显著性行人检测方法 | |
KR102132407B1 (ko) | 점진적 딥러닝 학습을 이용한 적응적 영상 인식 기반 감성 추정 방법 및 장치 | |
KR101906796B1 (ko) | 딥러닝 기반 영상 분석 장치 및 영상 분석 방법 | |
Huynh-The et al. | NIC: A robust background extraction algorithm for foreground detection in dynamic scenes | |
CN110096945B (zh) | 基于机器学习的室内监控视频关键帧实时提取方法 | |
Gammulle et al. | Coupled generative adversarial network for continuous fine-grained action segmentation | |
CN113158905A (zh) | 一种基于注意力机制的行人重识别方法 | |
Li et al. | Zooming into face forensics: A pixel-level analysis | |
CN113065568A (zh) | 目标检测、属性识别与跟踪方法及系统 | |
CN111881818B (zh) | 医疗行为细粒度识别装置及计算机可读存储介质 | |
CN113052059A (zh) | 一种基于时空特征融合的实时动作识别方法 | |
CN112488165A (zh) | 一种基于深度学习模型的红外行人识别方法及系统 | |
Nasrollahi et al. | Summarization of surveillance video sequences using face quality assessment | |
Yadav et al. | Human Illegal Activity Recognition Based on Deep Learning Techniques | |
CN114037937A (zh) | 一种基于多目标追踪的实时冰箱食材识别方法 | |
Reddy et al. | Facial Recognition Enhancement Using Deep Learning Techniques | |
Bhavani | Automated Attendance System and Voice Assistance using Face Recognition | |
Gharahdaghi et al. | A non-linear mapping representing human action recognition under missing modality problem in video data | |
WO2023069085A1 (en) | Systems and methods for hand image synthesis | |
CN111860229A (zh) | 异常行为智能识别方法及其装置和存储介质 | |
CN114926761B (zh) | 一种基于时空平滑特征网络的动作识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |