CN113052091A - 一种基于卷积神经网络的动作识别方法 - Google Patents
一种基于卷积神经网络的动作识别方法 Download PDFInfo
- Publication number
- CN113052091A CN113052091A CN202110338887.5A CN202110338887A CN113052091A CN 113052091 A CN113052091 A CN 113052091A CN 202110338887 A CN202110338887 A CN 202110338887A CN 113052091 A CN113052091 A CN 113052091A
- Authority
- CN
- China
- Prior art keywords
- neural network
- dimensional
- convolutional neural
- recognition method
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于卷积神经网络的动作识别方法。不同于常见的以二维图像特征为输入的长短期记忆模型动作识别方法,本发明采用三维卷积核构建的骨干网络对图像序列进行特征提取,在保留空间特征的情况下引入时序特征。与此同时,通过三维空间下的批标准化操作对特征进行处理,避免模型训练过程中出现梯度消失现象。将骨干网络提取到的时空混合特征送入经过改进的长短期记忆模型并输出表征动作类别的一维向量。该方法通过对人类动作时空信息的有效提取以更好地保留目标的动作特征,从而实现以视频帧序列作为信息源的目标动作识别功能。
Description
技术领域
本发明涉及计算机视觉技术领域,具体为一种基于卷积神经网络的动作识别方法。
背景技术
动作识别技术是指机器人等智能系统根据摄像头、激光雷达等传感器获得人类目标动作信息进行特征提取并对动作进行分类识别的技术。动作识别技术是机器人等智能系统在环境感知及场景理解中需要解决的关键技术问题之一。
在以摄像头为传感器的计算机视觉方向,动作识别问题与图像识别(或目标检测)问题最大的不同之处在于后者只需要获取图像中的二维空间特征信息,而前者除了需要获取二维空间特征信息之外,还要提取时间序列特征信息。这使得动作识别问题相较二维图像处理问题更加具有挑战性。一般的卷积神经网络特征提取框架和分类器是针对二维空间信息输入的,如何同时提取空间特征信息和时间序列特征信息并对其进行合适的表达,是智能系统执行动作识别任务中的难点问题。设计一种能够同时对时间信息以及空间信息进行有效提取的神经网络算法,有效地对目标动作进行识别,具有重要的现实意义。同时也是完善智能系统对环境感知所须解决的关键技术问题。
发明内容
鉴于现有技术中所存在的问题,本发明公开了一种基于卷积神经网络的动作识别方法,提供了一种高效的神经网络模型,能够同时有效的对人类目标的空间特征信息和时间特征信息进行提取并依据提取到的特征信息对目标动作进行准确识别。其采用的技术方案为,该神经网络基于长短期记忆模型,在保留原有的遗忘门、输入门和输出门结构的基础上,将原先的以二维卷积核为特征提取器的卷积神经网络结构改为由三维卷积核为特征提取器的卷积神经网络结构,同时在网络的激活层之前根据输入维度引入相应的批标准化处理层。
该方法中,由基本结构为三维卷积核的三维卷积神经网络对视频片段中目标的动作特征在时空维度中初步提取,将提取到的特征图送入带批标准化处理层的长短期记忆模型单元,通过若干上述步骤在时间维度上的拼接,最终由长短期记忆模型的输出门输出目标的动作类别。
作为本发明的一种优选方案,通过三维卷积核构建的ConvNet骨干网络对图像序列进行卷积操作,不对单幅图像进行卷积操作,设训练样本的一个批次总样本数为N,单个样本特征图序列深度为D,特征图高度为H,特征图宽度为W,令p,d,k,s分别为特征图外围补充像素数,卷积核膨胀系数,卷积核尺寸以及卷积核移动步长,则三维卷积操作后的特征图参数有如下表示:
对得到的特征图展成的特征向量,在进入长短期记忆模型模型后,在长短期记忆模型单元中的激活函数之前,引入批次标准化变换,使得输入特征向量在坐标轴上分布更均匀,避免特征在单一长短期记忆模型上产生梯度消失现象,设x为包含n个样本的输入向量,μ(x)为样本均值,σ(x)为样本标准差,xinput为经过批标准化处理的待输入特征向量,则有如下关系:
式(6)中,γ和β分别是通过网络训练学习到的参数。
在训练阶段,所述均值μ(x)与所述方差σ(x)通过每一批训练数据产生,在预测阶段,无法预先获取整个批次样本值,所述均值μ(x)与所述方差σ(x)通过对全部训练样本求均值与方差得到。
本发明的有益效果:本发明采用基于长短期记忆模型的动作识别方法,通过三维卷积网络提取时空特征,并引入批处理化操作避免训练中的梯度消失问题,实现智能系统对人类目标的准确动作识别。
附图说明
图1为本发明的动作识别算法模型整体框架图;
图2为本发明的三维卷积核工作原理示意图;
图3为本发明的ConvNet结构示意图;
图4为本发明的改进长短期记忆模型结构示意图。
具体实施方式
实施例1
如图1至图4所示,本发明所述的一种基于卷积神经网络的动作识别方法,采用的技术方案是,模型以图像帧序列作为输入,在经过三维卷积特征提取模块ConvNet和时空特征提取模块长短期记忆模型处理后,经由长短期记忆模型模块内嵌的分类器得到动作输出。算法模型的的输入在训练阶段和推理阶段有所区别。在训练阶段,算法模型的输入为多个连续的二维图像帧序列组成的数据张量,每组训练张量的维度为B×N×C×W×H,其中,B是单批输入数据的数量,N是单个训练数据包含的图像帧数量,C是单幅图像的通道数,RGB图像通常取3,W和H分别为图像的宽度和高度。算法的输出为B×n的向量序列,其中n代表算法模型所能识别的动作种类。而在推理阶段,由于不需要进行批次输入,所以模型输入的维度为1×N×C×W×H,输出为1×n。
在该算法框架中,ConvNet代表以三维卷积核为特征提取器的卷积神经网络,为了增强其对特征的学习能力,引入残差单元(residual unit)结构。
为了避免过量的权重参数影响整个模型算法的实时性,特征提取网络结构采用resnet18的结构,将其中的二维卷积核部分替换成三维卷积核。将最后一层的输出替换为1024维,保留更多的信息。包含卷积神经网络的动作识别算法通常包含大量的权重参数,在进行动作识别推理前,应利用大量的视频动作数据对算法模型进行训练。
由于经过ConvNet结构提取的特征向量维度较大且在输入长短期记忆模型时通过输入门与遗忘门时需要进行两次激活函数的处理,故对长短期记忆模型进行结构上的改进,在其长短期记忆模型内部门结构的激活函数单元之前设置批标准化处理层操作。
并有:
式中,是经过标准化处理的输入数据,yi是经过变换后的输入数据,γ和β是权重参数,通过神经网络的反向传播进行学习。通过以上变换后,经过激活后的输出数据能够有效地避免因为集中在激活饱和值附近而导致的梯度消失。经过上述处理后,在长短期记忆模型单元后加入softmax层,即可获得最后的动作识别结果。
该基于卷积神经网络的动作识别方法主要包括以下步骤:
步骤1:获取视频动作片段,将其制作成数据集,并将数据集分为训练集、验证集,测试集三部分。并分别为其进行类别标签标注。
步骤2:将训练集输入网络模型进行训练。由于该动作识别算法模型是通过学习预设的动作片段标签值来对输入动作类别进行标签分类,故本质上该问题为一个多分类问题。针对多分类问题,可以使用交叉熵损失函数作为损失函数并对其进行参数优化,其形式为:
步骤3:模型验证。将测试集数据送入训练好的模型,对整个算法模型的识别准确率进行测试。注意将批标准化处理层的样本均值和方差设置成训练数据集样本的整体方差与均值,并将输入的单批测试数据批次数设置为1,以确保整个模型能够得到正确的推理结果。
本文中未详细说明的部件为现有技术。
上述虽然对本发明的具体实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化,而不具备创造性劳动的修改或变形仍在本发明的保护范围以内。
Claims (5)
1.一种基于卷积神经网络的动作识别方法,其特征在于,采用含三维卷积核的深度残差网络并引入批标准化处理层长短期记忆模型(LSTM)对视频中的目标进行动作识别,在基础的深度残差卷积神经网络的结构中,将二维卷积核替换为三维卷积核,对视频动作的时空特征进行初步的提取,之后将特征张量输入长短期记忆模型(LSTM),利用长短期记忆模型(LSTM)对信息的过滤能力,过滤掉时空维度上与动作低关联性的特征,最后得到表征动作的一维向量并通过分类函数得到输出。
4.根据权利要求3所述的一种基于卷积神经网络的动作识别方法,其特征在于:在训练阶段,所述均值μ(x)与所述方差σ(x)通过每一批训练数据产生。
5.根据权利要求3所述的一种基于卷积神经网络的动作识别方法,其特征在于:在预测阶段,无法预先获取整个批次样本值,所述均值μ(x)与所述方差σ(x)通过对全部训练样本求均值与方差得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110338887.5A CN113052091A (zh) | 2021-03-30 | 2021-03-30 | 一种基于卷积神经网络的动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110338887.5A CN113052091A (zh) | 2021-03-30 | 2021-03-30 | 一种基于卷积神经网络的动作识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113052091A true CN113052091A (zh) | 2021-06-29 |
Family
ID=76516281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110338887.5A Pending CN113052091A (zh) | 2021-03-30 | 2021-03-30 | 一种基于卷积神经网络的动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113052091A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113989938A (zh) * | 2021-11-12 | 2022-01-28 | 内蒙古科技大学 | 行为识别方法、装置及电子设备 |
CN115063884A (zh) * | 2022-06-14 | 2022-09-16 | 电子科技大学 | 基于多域融合深度学习的毫米波雷达头部动作识别方法 |
CN117953588A (zh) * | 2024-03-26 | 2024-04-30 | 南昌航空大学 | 一种融合场景信息的羽毛球运动员动作智能识别方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112464807A (zh) * | 2020-11-26 | 2021-03-09 | 北京灵汐科技有限公司 | 视频动作识别方法、装置、电子设备和存储介质 |
-
2021
- 2021-03-30 CN CN202110338887.5A patent/CN113052091A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112464807A (zh) * | 2020-11-26 | 2021-03-09 | 北京灵汐科技有限公司 | 视频动作识别方法、装置、电子设备和存储介质 |
Non-Patent Citations (3)
Title |
---|
X. WANG, ET.AL,: "Beyond Frame-level CNN: Saliency-Aware 3-D CNN With LSTM for Video Action Recognition", 《IEEE SIGNAL PROCESSING LETTERS》 * |
傅余洋子: "基于LSTM模型的中文图书分类研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
吕宗明: "基于深度学习的视频动作识别研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113989938A (zh) * | 2021-11-12 | 2022-01-28 | 内蒙古科技大学 | 行为识别方法、装置及电子设备 |
CN115063884A (zh) * | 2022-06-14 | 2022-09-16 | 电子科技大学 | 基于多域融合深度学习的毫米波雷达头部动作识别方法 |
CN115063884B (zh) * | 2022-06-14 | 2024-04-23 | 电子科技大学 | 基于多域融合深度学习的毫米波雷达头部动作识别方法 |
CN117953588A (zh) * | 2024-03-26 | 2024-04-30 | 南昌航空大学 | 一种融合场景信息的羽毛球运动员动作智能识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110135231B (zh) | 动物面部识别方法、装置、计算机设备和存储介质 | |
US11704817B2 (en) | Method, apparatus, terminal, and storage medium for training model | |
CN113052091A (zh) | 一种基于卷积神经网络的动作识别方法 | |
US12039440B2 (en) | Image classification method and apparatus, and image classification model training method and apparatus | |
EP4099220A1 (en) | Processing apparatus, method and storage medium | |
JP6351240B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN111444765B (zh) | 图像重识别方法及相关模型的训练方法及相关装置、设备 | |
CN114821014B (zh) | 基于多模态与对抗学习的多任务目标检测识别方法及装置 | |
CN111680705B (zh) | 适于目标检测的mb-ssd方法和mb-ssd特征提取网络 | |
CN109685830B (zh) | 目标跟踪方法、装置和设备及计算机存储介质 | |
CN108875655A (zh) | 一种基于多特征的实时目标视频跟踪方法及系统 | |
CN116343330A (zh) | 一种红外-可见光图像融合的异常行为识别方法 | |
US20230386242A1 (en) | Information processing apparatus, control method, and non-transitory storage medium | |
CN112861695A (zh) | 行人身份再识别方法、装置、电子设备及存储介质 | |
CN108345835B (zh) | 一种基于仿复眼感知的目标识别方法 | |
CN111144220B (zh) | 适于大数据的人员检测方法、装置、设备和介质 | |
CN114170484B (zh) | 图片属性预测方法、装置、电子设备和存储介质 | |
CN111898418A (zh) | 一种基于t-tiny-yolo网络的人体异常行为检测方法 | |
CN113095199B (zh) | 一种高速行人识别方法及装置 | |
Tavakkoli et al. | Incremental SVDD training: improving efficiency of background modeling in videos | |
EP4332910A1 (en) | Behavior detection method, electronic device, and computer readable storage medium | |
CN115170843A (zh) | 基于嵌入特征提取的多视图一致性图像聚类方法及系统 | |
CN112487927B (zh) | 一种基于物体关联注意力的室内场景识别实现方法及系统 | |
CN114581769A (zh) | 一种基于无监督聚类的在建房屋识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210629 |