CN114926761B - 一种基于时空平滑特征网络的动作识别方法 - Google Patents

一种基于时空平滑特征网络的动作识别方法 Download PDF

Info

Publication number
CN114926761B
CN114926761B CN202210517629.8A CN202210517629A CN114926761B CN 114926761 B CN114926761 B CN 114926761B CN 202210517629 A CN202210517629 A CN 202210517629A CN 114926761 B CN114926761 B CN 114926761B
Authority
CN
China
Prior art keywords
video
space
information
carrying
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210517629.8A
Other languages
English (en)
Other versions
CN114926761A (zh
Inventor
张洪超
单震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Original Assignee
Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chaozhou Zhuoshu Big Data Industry Development Co Ltd filed Critical Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority to CN202210517629.8A priority Critical patent/CN114926761B/zh
Publication of CN114926761A publication Critical patent/CN114926761A/zh
Application granted granted Critical
Publication of CN114926761B publication Critical patent/CN114926761B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于时空平滑特征网络的动作识别方法,属于计算机视觉技术领域,网络模型通过服务器读取视频数据,对读取的视频进行预处理,进行等间隔的分帧,使用动作检测器,对视频信息进行特征提取,使用时空平滑特征融合方法,对时间域与空间域的特征进行平滑处理,完成特征提取,使用深度学习的方法,对特征进行综合分析,判断目标动作。可以在提升性能的同时,充分挖掘视频每帧之间的关系特征,准确的检测待目标动作。

Description

一种基于时空平滑特征网络的动作识别方法
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于时空平滑特征网络的动作识别方法。
背景技术
随着视频获取设备和网络的发展,从视频信息中分析和理解人体动作变得越来越重要。人体动作识别应用于视频监控、自动视频标签和人机交互等多个领域,然而使用机器识别人类动作是一项具有挑战性的任务。因为定义人类动作比理解要难的多。定义人类动作需要综合运用多个学科的知识,这给动作识别带来很大的挑战。根据实现的方法来分类,可以把人体动作识别分为基于单帧图像的动作识别和基于视频的动作识别。相比于基于视频的识别,基于单帧图像的识别优势在于图像更容易获得,可是由于图像没有时间信息识别起来更加困难,并且也更容易出现误判。而基于视频的动作识别能够有效的获取视频中的时间和空间信息,这在很大程度上提高了识别的准确率,又因为它的强拓展性和高灵活度,基于视频的动作识别成为研究的主要方向。
现有的基于视频的动作识别方法主要有基于特征提取的动作识别方法和基于深度学习的动作识别方法。传统基于特征提取的动作识别方法主要靠一些经典的人为设计特征来提取运动特征,再由分类器分类或进行模板匹配。人工设计特征数据预处理复杂,而深度学习模型具有自适应学习特征、数据预处理简单等优点。
现在的方法多是通过深度学习的方法进行特征提取,但是采用二维卷积神经网络的方法缺少对时间域特征的提取,采用三维卷积神经网络的方法存在过拟合,参数量过大的问题。因此,结合深度学习与计算机视觉的方法,构建一种更便利的动作识别方法是非常必要的。
发明内容
为了解决以上技术问题,本发明提供了一种基于时空平滑特征网络的动作识别方法。结合深度学习与计算机视觉的方法,利用三维卷积与时空平滑特征融合技术,解决目前动作识别网络中,二维卷积神经网络的方法缺少对时间域特征的提取,三维卷积神经网络的方法存在过拟合,参数量过大的问题,实现高效的动作识别。
本发明的技术方案是:
一种基于时空平滑特征网络的动作识别方法,
包括:
1)通过服务器读取视频数据,
2)对读取的视频进行预处理,
3)对视频信息进行特征提取,
进一步的,
使用深度学习的方法,对特征进行综合分析,判断目标动作;
最后进行反馈结果。
再进一步的,
把视频输入进行分帧,并进行特征提取。
对读取的视频进行预处理,进行等间隔的分帧,对于每一秒钟的视频,等时间距提取10张图片。
利用动作检测器,对视频信息进行特征提取,采用C3D模型提取特征。
使用时空平滑特征融合方法,对时间域与空间域的特征进行平滑处理,完成特征提取。
对时间域与空间域得特征进行平滑处理,采用3D均值池化得到均值信息,然后原始信息与均值信息进行差值计算得到差异性信息,对于每个均值进行随机高斯分布乘积,最后与差异性信息进行相融合得到变换后的时空平滑特征融合信息。
利用softmax分类器对得到的特征进行分析判别得到目标动作。
本发明的有益效果是
1、适用于多个复杂场景下的动作识别;
2、提高了目前基于视频的动作识别的识别效率;
3、解决了二维卷积神经网络缺少对时间域特征的提取、三维卷积神经网络的方法过拟合,参数量过大的问题
4、避免了人工手动识别对于动作的难定义性。
附图说明
图1是C3D特征提取网络架构示意图;
图2是时空平滑特征融合示意图;
图3是整体流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种基于时空平滑特征网络的动作识别方法,(1)整体思路包括:
(A)从服务器中读取要识别的视频数据。
(B)把视频输入进行分帧,依次输入C3D网络模型中进行特征提取
(C)对于C3D网络中提取的特征的信息,采用3D均值池化得到均值信息,然后原始信息与均值信息进行差值计算得到差异性信息r,对于每个均值进行随机高斯分布乘积,最后与差异性信息r进行相融合得到变换后的时空平滑特征融合信息。
(2)实现内容:
(A)对服务器中待检测的视频进行预处理,进行等间隔的分帧。
(B)使用动作检测器,对视频信息进行特征提取,使用时空特征融合方法,对视频信息进行时间域与空间域特征融合,完成特征提取。
(C)使用softmax分类器,对特征进行综合分析,判断目标动作。
(D)将结果进行反馈。
本发明的结合三维卷积与时空平滑特征。该方法适用与多个复杂场景下的动作识别,可以在提升性能的同时,充分挖掘视频每帧之间的关系特征,准确的检测待目标动作。
网络模型通过服务器读取视频数据,对读取的视频进行预处理,进行等间隔的分帧,使用动作检测器,对视频信息进行特征提取,使用时空平滑特征融合方法,对时间域与空间域的特征进行平滑处理,完成特征提取,使用深度学习的方法,对特征进行综合分析,判断目标动作。
对读取的视频进行预处理,进行等间隔的分帧,对于每一秒钟的视频,等时间距提取10张图片。
利用动作检测器,对视频信息进行特征提取,采用C3D模型提取特征,模型结构如图1。
对时间域与空间域得特征进行平滑处理,采用3D均值池化得到均值信息,然后原始信息与均值信息进行差值计算得到差异性信息r,对于每个均值进行随机高斯分布乘积,最后与差异性信息r进行相融合得到变换后的时空平滑特征融合信息。如图2所示。
利用softmax分类器对得到的特征进行分析判别得到目标动作。
以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (2)

1.一种基于时空平滑特征网络的动作识别方法,其特征在于,
包括:
1)通过服务器读取视频数据,
2)对读取的视频进行预处理,
3)对视频信息进行特征提取;
使用深度学习的方法,对特征进行综合分析,判断目标动作;
最后进行反馈结果;
把视频输入进行分帧,并进行特征提取;
对读取的视频进行预处理,进行等间隔的分帧,对于每一秒钟的视频,等时间距提取10张图片;
利用动作检测器,对视频信息进行特征提取,采用C3D模型提取特征;
使用时空平滑特征融合方法,对时间域与空间域的特征进行平滑处理,完成特征提取;
对时间域与空间域得特征进行平滑处理,采用3D均值池化得到均值信息,然后原始信息与均值信息进行差值计算得到差异性信息,对于每个均值进行随机高斯分布乘积,最后与差异性信息进行相融合得到变换后的时空平滑特征融合信息。
2.根据权利要求1所述的方法,其特征在于,
利用softmax分类器对得到的特征进行分析判别得到目标动作。
CN202210517629.8A 2022-05-13 2022-05-13 一种基于时空平滑特征网络的动作识别方法 Active CN114926761B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210517629.8A CN114926761B (zh) 2022-05-13 2022-05-13 一种基于时空平滑特征网络的动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210517629.8A CN114926761B (zh) 2022-05-13 2022-05-13 一种基于时空平滑特征网络的动作识别方法

Publications (2)

Publication Number Publication Date
CN114926761A CN114926761A (zh) 2022-08-19
CN114926761B true CN114926761B (zh) 2023-09-05

Family

ID=82808281

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210517629.8A Active CN114926761B (zh) 2022-05-13 2022-05-13 一种基于时空平滑特征网络的动作识别方法

Country Status (1)

Country Link
CN (1) CN114926761B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104875A (zh) * 2019-12-04 2020-05-05 喻丁玲 雨雪天气条件下的运动目标检测方法
CN111160356A (zh) * 2020-01-02 2020-05-15 博奥生物集团有限公司 一种图像分割分类方法和装置
CN111401177A (zh) * 2020-03-09 2020-07-10 山东大学 基于自适应时空注意力机制的端到端行为识别方法及系统
CN111695717A (zh) * 2019-03-15 2020-09-22 辉达公司 自主机器应用中的时间信息预测
CN112766062A (zh) * 2020-12-30 2021-05-07 河海大学 一种基于双流深度神经网络的人体行为识别方法
CN112800988A (zh) * 2021-02-02 2021-05-14 安徽工业大学 一种基于特征融合的c3d行为识别方法
CN113052059A (zh) * 2021-03-22 2021-06-29 中国石油大学(华东) 一种基于时空特征融合的实时动作识别方法
CN113255616A (zh) * 2021-07-07 2021-08-13 中国人民解放军国防科技大学 一种基于深度学习的视频行为识别方法
WO2021184619A1 (zh) * 2020-03-19 2021-09-23 南京未艾信息科技有限公司 一种人体运动姿态识别评价方法及其系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10157309B2 (en) * 2016-01-14 2018-12-18 Nvidia Corporation Online detection and classification of dynamic gestures with recurrent convolutional neural networks
CN112241673B (zh) * 2019-07-19 2022-11-22 浙江商汤科技开发有限公司 视频处理方法及装置、电子设备和存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695717A (zh) * 2019-03-15 2020-09-22 辉达公司 自主机器应用中的时间信息预测
CN111104875A (zh) * 2019-12-04 2020-05-05 喻丁玲 雨雪天气条件下的运动目标检测方法
CN111160356A (zh) * 2020-01-02 2020-05-15 博奥生物集团有限公司 一种图像分割分类方法和装置
CN111401177A (zh) * 2020-03-09 2020-07-10 山东大学 基于自适应时空注意力机制的端到端行为识别方法及系统
WO2021184619A1 (zh) * 2020-03-19 2021-09-23 南京未艾信息科技有限公司 一种人体运动姿态识别评价方法及其系统
CN112766062A (zh) * 2020-12-30 2021-05-07 河海大学 一种基于双流深度神经网络的人体行为识别方法
CN112800988A (zh) * 2021-02-02 2021-05-14 安徽工业大学 一种基于特征融合的c3d行为识别方法
CN113052059A (zh) * 2021-03-22 2021-06-29 中国石油大学(华东) 一种基于时空特征融合的实时动作识别方法
CN113255616A (zh) * 2021-07-07 2021-08-13 中国人民解放军国防科技大学 一种基于深度学习的视频行为识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于卷积特征融合的视觉显著性检测算法研究;凌艳;《中国优秀硕士学位论文全文数据库 信息科技辑》;第1-48页 *

Also Published As

Publication number Publication date
CN114926761A (zh) 2022-08-19

Similar Documents

Publication Publication Date Title
CN109522853B (zh) 面向监控视频的人脸检测与搜索方法
CN111126379A (zh) 一种目标检测方法与装置
CN111144366A (zh) 一种基于联合人脸质量评估的陌生人脸聚类方法
CN111027377B (zh) 一种双流神经网络时序动作定位方法
CN110827312B (zh) 一种基于协同视觉注意力神经网络的学习方法
CN109685045A (zh) 一种运动目标视频跟踪方法及系统
CN110008793A (zh) 人脸识别方法、装置及设备
CN110096945B (zh) 基于机器学习的室内监控视频关键帧实时提取方法
WO2013075295A1 (zh) 低分辨率视频的服装识别方法及系统
CN106529441B (zh) 基于模糊边界分片的深度动作图人体行为识别方法
CN111723773A (zh) 遗留物检测方法、装置、电子设备及可读存储介质
Yin et al. Dynamic difference learning with spatio-temporal correlation for deepfake video detection
CN112749671A (zh) 一种基于视频的人体行为识别方法
Lu et al. Context-constrained accurate contour extraction for occlusion edge detection
CN109165542A (zh) 基于精简卷积神经网络的行人检测方法
CN106446832B (zh) 一种基于视频的实时检测行人的方法
CN106022310B (zh) 基于htg-hog和stg特征的人体行为识别方法
CN105893967B (zh) 基于时序保留性时空特征的人体行为分类检测方法及系统
US20140376822A1 (en) Method for Computing the Similarity of Image Sequences
CN111881818A (zh) 医疗行为细粒度识别装置及计算机可读存储介质
CN114926761B (zh) 一种基于时空平滑特征网络的动作识别方法
CN108564020B (zh) 基于全景3d图像的微手势识别方法
Guangjing et al. Research on static image recognition of sports based on machine learning
Prabakaran et al. Key frame extraction analysis based on optimized convolution neural network (ocnn) using intensity feature selection (ifs)
Liu et al. [Retracted] Mean Shift Fusion Color Histogram Algorithm for Nonrigid Complex Target Tracking in Sports Video

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant