CN116229323A - 一种基于改进的深度残差网络的人体行为识别方法 - Google Patents

一种基于改进的深度残差网络的人体行为识别方法 Download PDF

Info

Publication number
CN116229323A
CN116229323A CN202310221454.0A CN202310221454A CN116229323A CN 116229323 A CN116229323 A CN 116229323A CN 202310221454 A CN202310221454 A CN 202310221454A CN 116229323 A CN116229323 A CN 116229323A
Authority
CN
China
Prior art keywords
channels
input
layer
training
multiplied
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310221454.0A
Other languages
English (en)
Inventor
罗仁泽
刘恒
林虹宇
吴涛
曹瑞
雷璨如
易玺
廖波
赵丹
王清松
谭亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Petroleum University
Original Assignee
Southwest Petroleum University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Petroleum University filed Critical Southwest Petroleum University
Priority to CN202310221454.0A priority Critical patent/CN116229323A/zh
Publication of CN116229323A publication Critical patent/CN116229323A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Psychiatry (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于改进深度残差网络的人体行为识别方法。包括训练阶段和测试阶段:在训练阶段,使用摄像头获取图像数据集,使用分段采样的稀疏采样策略提取训练视频的原始帧,将提取的原始帧送入通道注意力机制改进深度残差网络的进行训练;在测试阶段,提取测试视频的原始帧,送入训练得到的改进深度残差网络模型,通过softmax分类器判断出最终的行为类别。本发明方法能够根据特征通道的重要程度对重要特征进行增强,对不重要的特征进行抑制,从而提高模型对输入数据的特征提取能力。本发明网络具有较高的运行速度和较高的行为识别准确率以及较低的网络复杂度,特别是在一些复杂动作和较难识别动作中能够提取有效特征具有较好的表现。

Description

一种基于改进的深度残差网络的人体行为识别方法
技术领域
本发明属于计算机技术领域,尤其是行为识别技术领域,涉及一种对视频人体行为进行识别的方法,特别是一种基于改进的深度残差网络的行为识别方法。
背景技术
行为识别是视频理解技术中的一个基础方向,其核心技术是通过学习序列帧图像的特征信息,使计算机对视频内目标的行为进行分类,从而达到识别的目的,常用于人机交互、监护智能机器人。视频数据中目标的行为识别通常是存在时间依赖性的,不仅包括每帧图像中的空间信息,也包含帧与帧之间的时间信息,如老人跌倒、搬运物品等行为。
近几年,行为识别技术的主流方法还是基于二维卷积的网络模型和基于三维卷积的网络模型。Simonyan K等人(Simonyan K,Zisserman A.Two-stream convolutionalnetworks for action recognition in videos[J].Advances in neuralinformationprocessing systems,2014,27.)使用二维卷积构建双流网络,使用光流和RGB图片进行行为识别。Tran D等人(Tran D,Bourdev L,Fergus R,et al.Learningspatiotemporal features with 3d convolutional networks[C]//Proceedings of theIEEE international conference on computer vision.2015:4489-4497.)将二维卷积延时间维度膨胀成三维卷积,构建C3D网络用于行为识别。PanT等人(Pan T,Song Y,Yang T,et al.Videomoco:Contrastive video representation learning with temporallyadversarial examples[C]//Proceedings of the IEEE/CVF Conference onComputerVision and Pattern Recognition.2021:11205-11214.)将二维残差网络使用三维卷积重新构建成了3D-Resnet18网络用于行为识别。Pan T等人(Pan T,Song Y,Yang T,et al.Videomoco:Contrastive video representation learning with temporallyadversarial examples[C]//Proceedings of the IEEE/CVF Conference onComputerVision and Pattern Recognition.2021:11205-11214.)将三位卷积使用一维时间卷积和二维空间卷积代替,构建了R(2+1)D网络用于行为识别。Qiu Z等人(Qiu Z,Yao T,Mei T.Learning spatio-temporal representation with pseudo-3d residualnetworks[C]//proceedings of the IEEE International Conference onComputerVision.2017:5533-5541.)探索了几种不同的一维时间卷积和二维空间卷积组合代替三位卷积方式,构建了P3D网络用于行为识别。Kopuklu O等人(Kopuklu O,Kose N,Gunduz A,et al.Resource efficient 3d convolutional neural networks[C]//Proceedings of the IEEE/CVF International Conference on Computer VisionWorkshops.2019:0-0.)将各种众所周知的资源高效二维神经网络转换为三维神经网络,构建了3D-SqueezeNet网络用于行为识别。
目前,大多数行为识别技术因其固有的繁重的计算量导致模型参数推导速度缓慢,从而限制落地于实际场景。因此,急需提出一种能提高精度且减少计算成本的行为识别方案,提高模型对序列帧图像的特征表达能力,增强行为识别的性能。
发明内容
本发明的目的就是提供基于改进的深度残差网络的人体行为识别方法,以更好的表达特征,从而提高行为识别的准确率。
一种基于改进的深度残差网络的人体行为识别方法,其特征在于包括以下步骤:
步骤1:使用摄像头获取人体行为视频,将视频标签构建成文件夹,将对应人体行为视频放在对应的标签文件夹下,构建人体行为识别数据集;
步骤2:将步骤1获取的人体行为识别数据集分为训练数据集、测试数据集和验证数据集;将视频等分为T个片段,表示为S={S1,S2...,ST},假设视频长度为A,则每个片段长度为
Figure SMS_1
表示向下取整;如果A/T不是一个整数,则先将视频分为A\T个片段,\表示取余,对A\T个片段每个片段随机丢失一帧,然后将剩余视频帧分为T个片段,对每个片段采样一张视频帧,图像尺寸均规范化为M×N,M∈(224,1080)和N∈(224,1080)分别表示图像的高度和宽度,形成训练集、测试集和验证集;
步骤3:构建基于注意力机制的特征融合模块,所述基于注意力机制的特征融合模块包括以下结构:
首先使用全局平均池化对需要融合的两个特征进行降维,将降维后的特征直接相加构成一个整体特征,然后使用自适应卷积核的一维卷积进行特征提取,最后使用Sigmoid激活函数层学习两个参数a0和a1=1-a0,将a0和a1分别与两个输入特征相乘再在通道维度上进行拼接,构成融合后的特征;该模块的输入的两个特征为n个帧数为f的视频样本X0和X1,f∈(1,64],X0和X1均为c×f个a×b矩阵,a∈(224,1080),b∈(224,1080),c为视频图像的通道数量,c∈{1,3};使用全局平均池化进行降维,降低计算量的同时集中全局信息,使用自适应选择卷积核大小的一维卷积实现通道的局部交互,自适应选择卷积核大小的公式:
Figure SMS_2
其中C为特征通道数量,K为自适应选择卷积核的大小,将经过一维卷积的特征使用Sigmod激活函数生成权重参数a0和a1,权重参数计算公式:
a0=σ(C1Dk(GAP(X1)+GAP(X0)))
a1=1-a0
其中σ(·)为Sigmod激活函数,C1Dk代表具有自适应卷积核的一维卷积操作,GAP为全局平均池化操作,将权重参数分别与输入特征X0和X1相乘再在通道维度上拼接得输出特征H,输出H的公式:
H=Concate(X0⊙a0,X1⊙a1)
其中⊙代表通道级相乘,H为融合后的特征,Concate代表在通道维度上进行拼接操作,Concate的操作公式如下:
Figure SMS_3
式中,X、Y均为该通道输入的特征图且X=Y,k表示输入特征图X的通道数,d为输入特征图Y的通道数,i∈[1,k],j∈[1,d];
步骤4:使用步骤3构建基于注意力机制的特征融合模块改进两种深度残差模块Identity Block和Conv Block,Identity Block输入维度和输出维度相同,可以串联,作用是加深网络,Conv Block输入和输出的通道数不同,不能连续串联,作用是改变网络的维度;
(1)所述改进的深度残差模块Identity Block包括以下结构:
第一层包含3×3×3的卷积核,该层通道数为输入特征通道数的一半,步长为1×1×1,补零宽度为1×1×1,批归一化BN处理、线性单元Relu处理;
第二层包含3×3×3的分组卷积核,该层通道数为输入特征通道数的一半,分组数为输入特征通道数的一半,步长为1×1×1,补零宽度为1×1×1,批归一化BN处理;
第二个分支:
第一层包含3×3×3的卷积核,该层通道数为输入特征通道数的一半,步长为1×1×1,补零宽度为1×1×1,批归一化BN处理;
将第一个分支与第二个分支的输出特征输入到基于注意力机制的特征融合模块中得到输出特征;
(2)所述改进的深度残差模块Conv Block包括以下结构:
第一个分支:
第一层包含3×3×3的卷积核,该层通道数为输入特征通道数的一半,步长为2×2×2,补零宽度为1×1×1,批归一化BN处理、线性单元Relu处理;
第二层包含3×3×3的分组卷积核,该层通道数为输入特征通道数的一半,分组数为输入特征通道数的一半,步长为1×1×1,补零宽度为1×1×1,批归一化BN处理;
第二个分支:
第一层包含3×3×3的卷积核,该层通道数为输入特征通道数的一半,步长为2×2×2,补零宽度为1×1×1,批归一化BN处理;
将第一个分支与第二个分支的输出特征输入到基于注意力机制的特征融合模块中得到输出特征;
步骤5:构建改进的深度残差网络网络:所述改进的深度残差网络包括以下结构:
(1)第一层包含3×7×7的卷积核,该层通道数为64,步长为1×2×2,补零宽度为1×3×3,批归一化BN处理、线性单元Relu处理和最大池化层,最大池化层核的尺寸为3×3×3,步长为2×2×2,补零宽度为1×1×1;
(2)第二层包含两个相同的改进的残差模块Identity Block,将两个IdentityBlock串联,输入通道和输出通道数均为64;
(3)第三层含改进的Conv Block和Identity Block,将Conv Block和IdentityBlock进行串联,输入通道数为64,输出通道数为128;
(4)第四层包含改进的Conv Block和Identity Block,输入通道数为128,输出通道数为256;
(5)第五层包含改进的Conv Block和Identity Block,输入通道数为256,输出通道数为512;
(6)第五层后接平均池化层,经过平均池化层后,经过一个通道数为512的全连接层,后接softmax激活函数层;
步骤6:将步骤2得到的训练集和测试集送入到步骤5构建的改进的深度残差网络网络中进行训练,训练输入n个帧数为f的视频样本X3,f∈(1,64],X3为c×f个a×b矩阵,a∈(224,1080),b∈(224,1080),c为视频图像的通道数量,c∈{1,3};学习率设置为L,L∈(0,1),学习率变化为每E个训练周期衰减为原来的1/O,批尺寸大小设置为J,E、O和J均为正整数,使用交叉熵损失函数评估预测值与真实值的差距,使用随机梯度下降算法SGD对参数进行优化,冲量设置为S,S∈(0,1),权重衰减指数为A,A∈(0,1);使用验证集对训练过程进行验证,计算验证集的准确率Acci,训练至准确率Acci不再上升时,Acci∈(0,1),i表示训练轮次,i∈(1,N],N为最大训练轮次,是个正整数;使用以下公式评价模型识别准确率Acci:
Figure SMS_4
式中,TP为模型预测正样本正确的数量,TN为模型预测负样本正确的数量,FP为模型预测正样本错误的数量,FN为模型预测负样本错误的数量,保存准确率最高的参数模型为P,Pi表示第i轮训练时的网络参数,Acc表示保存最高的准确率;P的更新按照以下公式:
Figure SMS_5
步骤7:使用步骤6中保存的部署参数P作为改进的深度残差网络的网络参数,并将网络参数为P的改进的深度残差网络部署到识别终端上,同时终端对输入视频进行人体行为识别,得到视频属于每类人体行为的得分V,V是q×s的矩阵,V经maxout函数预测得到模型识别结果W,W是长度为q的向量,W计算公式如下:
Figure SMS_6
式中Wn代表模型识别结果W的第n个元素,xqs代表预测矩阵V的q×s个元素,xqs∈(0,1],jn代表预测矩阵V第n行中最大的元素的列数,jn∈[1,s],s代表训练样本X3中视频样本人体行为类别数,Wn表示识别结果W的第n个元素的人体行为分类。
本发明创新点表现在:
(1)与3D-Resnet18方法相比,上述方法的残差模块使用元素相加直接进行特征融合,本发明使用通道拼接方式代替元素相加方式进行特征融合,并使用基于注意力机制的特征融合模块监督特征融合,降低网络复杂度的同时,提高网络运行速度和识别精度。
(2)与I3D、P3D、C3D等经典异常行为识别方法相比,上述三种神经网络全部采用三维卷积作为特征提取器,本发明同样使用三维卷积作为特征提取器,但是网络复杂度更低,运行速度更快,识别精度更高。
有益效果:
与现有技术相比,本发明具有以下有益效果:
以通道注意力机制为基础,所用基于注意力机制的特征融合模块改进的残差模块克服了残差模块特征融合不充分的缺点,克服了引入注意力机制仅考虑单个特征没有考虑总体特征的缺点,降低了网络的复杂度,提高了网络的运行速度和识别精度,具有广泛的应用价值。
附图说明
图1为人体行为识别的流程图,由原始视频数据集、数据预处理、本发明算法、行为识别分类4个部分组成,表示人体行为识别的处理流程,并且本发明对行为识别网络进行改进;
图2为基于注意力机制的特征融合模块,表示特征融合分配的权重比例;
图3为改进的深度残差模块Identity Block,输入维度和输出维度相同,可以串联,用于加深网络;
图4为改进的深度残差模块Conv Block,输入维度和输出维度不相同,不可以串联,用于改变网络输出特征维度;
图5为改进深度残差网络,用于人体行为识别;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例:
本实例使用UCF101数据集,是一个现实动作视频的动作识别数据集,收集自YouTube,提供了来自101个动作类别。
1、一种基于改进的深度残差网络的人体行为识别方法,其特征在于包括以下步骤:
步骤1:使用摄像头获取人体行为视频,将视频标签构建成文件夹,将对应人体行为视频放在对应的标签文件夹下,构建人体行为识别数据集;
步骤2:将步骤1获取的人体行为识别数据集按16:4:5的比例分为训练数据集、测试数据集和验证数据集;将视频等分为K=16个片段,表示为S={S1,S2,…,SK},假设视频长度为A,则每个片段长度为
Figure SMS_7
表示向下取整;如果A/K不是一个整数,则先将视频分为A\K个片段,\表示取余,对A\K个片段每个片段随机丢失一帧,然后将剩余视频帧分为K个片段,对每个片段采样一张视频帧,图像尺寸均规范化为M×N,M=224和N=224分别表示图像的高度和宽度,形成训练集、测试集和验证集;
步骤3:构建基于注意力机制的特征融合模块,所述基于注意力机制的特征融合模块包括以下结构:
首先使用全局平均池化对需要融合的两个特征进行降维,将降维后的特征直接相加构成一个整体特征,然后使用自适应卷积核的一维卷积进行特征提取,最后使用Sigmoid激活函数层学习两个参数a0和a1=1-a0,将a0和a1分别与两个输入特征相乘再在通道维度上进行拼接,构成融合后的特征;该模块的输入的两个特征为n个帧数为f的视频样本X0和X1,f∈(1,64],X0和X1均为c×f个a×b矩阵,a∈(224,1080),b∈(224,1080),c为视频图像的通道数量,c∈{1,3};使用全局平均池化进行降维,降低计算量的同时集中全局信息,使用自适应选择卷积核大小的一维卷积实现通道的局部交互,自适应选择卷积核大小的公式:
Figure SMS_8
其中C为特征通道数量,K为自适应选择卷积核的大小,将经过一维卷积的特征使用Sigmod激活函数生成权重参数a0和a1,权重参数计算公式:
a0=σ(C1Dk(GAP(X1)+GAP(X0)))
a1=1-a0
其中σ(·)为Sigmod激活函数,C1Dk代表具有自适应卷积核的一维卷积操作,GAP为全局平均池化操作,将权重参数分别与输入特征X0和X1相乘再在通道维度上拼接得输出特征H,输出H的公式:
H=Concate(X0⊙a0,X1⊙a1)
其中⊙代表通道级相乘,H为融合后的特征,Concate代表在通道维度上进行拼接操作,Concate的操作公式如下:
Figure SMS_9
式中,X、Y均为该通道输入的特征图且X=Y,k表示输入特征图X的通道数,d为输入特征图Y的通道数,i∈[1,k],j∈[1,d];
步骤4:使用步骤3构建基于注意力机制的特征融合模块改进两种深度残差模块Identity Block和Conv Block,Identity Block输入维度和输出维度相同,可以串联,作用是加深网络,Conv Block输入和输出的通道数不同,不能连续串联,作用是改变网络的维度;
(1)所述改进的深度残差模块Identity Block包括以下结构:
第一层包含3×3×3的卷积核,该层通道数为输入特征通道数的一半,步长为1×1×1,补零宽度为1×1×1,批归一化BN处理、线性单元Relu处理;
第二层包含3×3×3的分组卷积核,该层通道数为输入特征通道数的一半,分组数为输入特征通道数的一半,步长为1×1×1,补零宽度为1×1×1,批归一化BN处理;
第二个分支:
第一层包含3×3×3的卷积核,该层通道数为输入特征通道数的一半,步长为1×1×1,补零宽度为1×1×1,批归一化BN处理;
将第一个分支与第二个分支的输出特征输入到基于注意力机制的特征融合模块中得到输出特征;
(3)所述改进的深度残差模块Conv Block包括以下结构:
第一个分支:
第一层包含3×3×3的卷积核,该层通道数为输入特征通道数的一半,步长为2×2×2,补零宽度为1×1×1,批归一化BN处理、线性单元Relu处理;
第二层包含3×3×3的分组卷积核,该层通道数为输入特征通道数的一半,分组数为输入特征通道数的一半,步长为1×1×1,补零宽度为1×1×1,批归一化BN处理;
第二个分支:
第一层包含3×3×3的卷积核,该层通道数为输入特征通道数的一半,步长为2×2×2,补零宽度为1×1×1,批归一化BN处理;
将第一个分支与第二个分支的输出特征输入到基于注意力机制的特征融合模块中得到输出特征;
步骤5:构建改进的深度残差网络网络:所述改进的深度残差网络包括以下结构:
(1)第一层包含3×7×7的卷积核,该层通道数为64,步长为1×2×2,补零宽度为1×3×3,批归一化BN处理、线性单元Relu处理和最大池化层,最大池化层核的尺寸为3×3×3,步长为2×2×2,补零宽度为1×1×1;
(2)第二层包含两个相同的改进的残差模块Identity Block,将两个IdentityBlock串联,输入通道和输出通道数均为64;
(3)第三层含改进的Conv Block和Identity Block,将Conv Block和IdentityBlock进行串联,输入通道数为64,输出通道数为128;
(4)第四层包含改进的Conv Block和Identity Block,输入通道数为128,输出通道数为256;
(5)第五层包含改进的Conv Block和Identity Block,输入通道数为256,输出通道数为512;
(6)第五层后接平均池化层,经过平均池化层后,经过一个通道数为512的全连接层,后接softmax激活函数层;
步骤6:将步骤2得到的训练集和测试集送入到步骤5构建的改进的深度残差网络网络中进行训练,训练输入8个帧数为16的视频样本X3;X3为3×16个224×224矩阵;学习率设置为lr=0.01,学习率变化为每H个训练周期衰减为原来的1/L,批尺寸大小设置为B,H=10,L=10,B=8,使用交叉熵损失函数评估预测值与真实值的差距,使用随机梯度下降算法SGD对参数进行优化,冲量设置为M=0.9,权重衰减指数为A=0.0005,使用验证集对训练过程进行验证,计算验证集的准确率Acci,训练至准确率Acci不再上升时,Acci∈(0,1),i表示训练轮次,i∈(1,N];N为最大训练轮次,N=50,使用以下公式评价模型识别准确率Acci:
Figure SMS_10
式中,TP为模型预测正样本正确的数量,TN为模型预测负样本正确的数量,FP为模型预测正样本错误的数量,FN为模型预测负样本错误的数量,保存准确率最高的参数模型为P,Pi表示第i轮训练时的网络参数,Acc表示保存最高的准确率,P的更新按照以下公式:
Figure SMS_11
步骤7:使用步骤6中保存的部署参数P作为改进的深度残差网络的网络参数,并将网络参数为P的改进的深度残差网络部署到识别终端上,同时终端对输入一个视频进行人体行为识别,得到视频属于每类人体行为的得分V,V是1×101的矩阵,V中得分最高的就是该样本的行为识别分类。
下表展示了本专利提出的网络模型的准确率与其他网络模型的对比。
表1本发明方法与不同模型的识别准确率对比
Tab.1 Our method improves the recognition rate of various models
模型 UCF101数据集准确率(%) 计算量(GFloat) 参数量(Mbit)
C3D 82.3 64.23G 78.41M
3D-Resnet18 74.1 45.89G 33.18M
本发明算法 90.74 7.42G 9.88M
R(2+1)D 78.7 40.51G 33.3M
P3D 88.6 28.6G 98M
3D-SqueezeNet 74.94 18.4G 2.15M

Claims (1)

1.一种基于改进的深度残差网络的人体行为识别方法,其特征在于包括以下步骤:
步骤1:使用摄像头获取人体行为视频,将视频标签构建成文件夹,将对应人体行为视频放在对应的标签文件夹下,构建人体行为识别数据集;
步骤2:将步骤1获取的人体行为识别数据集分为训练数据集、测试数据集和验证数据集;将视频等分为T个片段,表示为S={S1,S2...,ST},假设视频长度为A,则每个片段长度为
Figure QLYQS_1
Figure QLYQS_2
表示向下取整;如果A/T不是一个整数,则先将视频分为A\T个片段,\表示取余,对A\T个片段每个片段随机丢失一帧,然后将剩余视频帧分为T个片段,对每个片段采样一张视频帧,图像尺寸均规范化为M×N,M∈(224,1080)和N∈(224,1080)分别表示图像的高度和宽度,形成训练集、测试集和验证集;
步骤3:构建基于注意力机制的特征融合模块,所述基于注意力机制的特征融合模块包括以下结构:
首先使用全局平均池化对需要融合的两个特征进行降维,将降维后的特征直接相加构成一个整体特征,然后使用自适应卷积核的一维卷积进行特征提取,最后使用Sigmoid激活函数层学习两个参数a0和a1=1-a0,将a0和a1分别与两个输入特征相乘再在通道维度上进行拼接,构成融合后的特征;该模块的输入的两个特征为n个帧数为f的视频样本X0和X1,f∈(1,64],X0和X1均为c×f个a×b矩阵,a∈(224,1080),b∈(224,1080),c为视频图像的通道数量,c∈{1,3};使用全局平均池化进行降维,降低计算量的同时集中全局信息,使用自适应选择卷积核大小的一维卷积实现通道的局部交互,自适应选择卷积核大小的公式:
Figure QLYQS_3
其中C为特征通道数量,K为自适应选择卷积核的大小,将经过一维卷积的特征使用Sigmod激活函数生成权重参数a0和a1,权重参数计算公式:
a0=σ(C1Dk(GAP(X1)+GAP(X0)))
a1=1-a0
其中σ(·)为Sigmod激活函数,C1Dk代表具有自适应卷积核的一维卷积操作,GAP为全局平均池化操作,将权重参数分别与输入特征X0和X1相乘再在通道维度上拼接得输出特征H,输出H的公式:
H=Concate(X0⊙a0,X1⊙a1)
其中⊙代表通道级相乘,H为融合后的特征,Concate代表在通道维度上进行拼接操作,Concate的操作公式如下:
Figure QLYQS_4
式中,X、Y均为该通道输入的特征图且X=Y,k表示输入特征图X的通道数,d为输入特征图Y的通道数,i∈[1,k],j∈[1,d];
步骤4:使用步骤3构建基于注意力机制的特征融合模块改进两种深度残差模块Identity Block和Conv Block,Identity Block输入维度和输出维度相同,可以串联,作用是加深网络,Conv Block输入和输出的通道数不同,不能连续串联,作用是改变网络的维度;
(1)所述改进的深度残差模块Identity Block包括以下结构:
第一层包含3×3×3的卷积核,该层通道数为输入特征通道数的一半,步长为1×1×1,补零宽度为1×1×1,批归一化BN处理、线性单元Relu处理;
第二层包含3×3×3的分组卷积核,该层通道数为输入特征通道数的一半,分组数为输入特征通道数的一半,步长为1×1×1,补零宽度为1×1×1,批归一化BN处理;
第二个分支:
第一层包含3×3×3的卷积核,该层通道数为输入特征通道数的一半,步长为1×1×1,补零宽度为1×1×1,批归一化BN处理;
将第一个分支与第二个分支的输出特征输入到基于注意力机制的特征融合模块中得到输出特征;
(2)所述改进的深度残差模块Conv Block包括以下结构:
第一个分支:
第一层包含3×3×3的卷积核,该层通道数为输入特征通道数的一半,步长为2×2×2,补零宽度为1×1×1,批归一化BN处理、线性单元Relu处理;
第二层包含3×3×3的分组卷积核,该层通道数为输入特征通道数的一半,分组数为输入特征通道数的一半,步长为1×1×1,补零宽度为1×1×1,批归一化BN处理;
第二个分支:
第一层包含3×3×3的卷积核,该层通道数为输入特征通道数的一半,步长为2×2×2,补零宽度为1×1×1,批归一化BN处理;
将第一个分支与第二个分支的输出特征输入到基于注意力机制的特征融合模块中得到输出特征;
步骤5:构建改进的深度残差网络网络:所述改进的深度残差网络包括以下结构:
(1)第一层包含3×7×7的卷积核,该层通道数为64,步长为1×2×2,补零宽度为1×3×3,批归一化BN处理、线性单元Relu处理和最大池化层,最大池化层核的尺寸为3×3×3,步长为2×2×2,补零宽度为1×1×1;
(2)第二层包含两个相同的改进的残差模块Identity Block,将两个Identity Block串联,输入通道和输出通道数均为64;
(3)第三层含改进的Conv Block和Identity Block,将Conv Block和Identity Block进行串联,输入通道数为64,输出通道数为128;
(4)第四层包含改进的Conv Block和Identity Block,输入通道数为128,输出通道数为256;
(5)第五层包含改进的Conv Block和Identity Block,输入通道数为256,输出通道数为512;
(6)第五层后接平均池化层,经过平均池化层后,经过一个通道数为512的全连接层,后接softmax激活函数层;
步骤6:将步骤2得到的训练集和测试集送入到步骤5构建的改进的深度残差网络网络中进行训练,训练输入n个帧数为f的视频样本X3,f∈(1,64],X3为c×f个a×b矩阵,a∈(224,1080),b∈(224,1080),c为视频图像的通道数量,c∈{1,3};学习率设置为L,L∈(0,1),学习率变化为每E个训练周期衰减为原来的1/O,批尺寸大小设置为J,E、O和J均为正整数,使用交叉熵损失函数评估预测值与真实值的差距,使用随机梯度下降算法SGD对参数进行优化,冲量设置为S,S∈(0,1),权重衰减指数为A,A∈(0,1);使用验证集对训练过程进行验证,计算验证集的准确率Acci,训练至准确率Acci不再上升时,Acci∈(0,1),i表示训练轮次,i∈(1,N],N为最大训练轮次,是个正整数;使用以下公式评价模型识别准确率Acci:
Figure QLYQS_5
式中,TP为模型预测正样本正确的数量,TN为模型预测负样本正确的数量,FP为模型预测正样本错误的数量,FN为模型预测负样本错误的数量,保存准确率最高的参数模型为P,Pi表示第i轮训练时的网络参数,Acc表示保存最高的准确率;P的更新按照以下公式:
Figure QLYQS_6
步骤7:使用步骤6中保存的部署参数P作为改进的深度残差网络的网络参数,并将网络参数为P的改进的深度残差网络部署到识别终端上,同时终端对输入视频进行人体行为识别,得到视频属于每类人体行为的得分V,V是q×s的矩阵,V经maxout函数预测得到模型识别结果W,W是长度为q的向量,W计算公式如下:
Figure QLYQS_7
式中Wn代表模型识别结果W的第n个元素,xqs代表预测矩阵V的q×s个元素,xqs∈(0,1],jn代表预测矩阵V第n行中最大的元素的列数,jn∈[1,s],s代表训练样本X3中视频样本人体行为类别数,Wn表示识别结果W的第n个元素的人体行为分类。
CN202310221454.0A 2023-03-09 2023-03-09 一种基于改进的深度残差网络的人体行为识别方法 Pending CN116229323A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310221454.0A CN116229323A (zh) 2023-03-09 2023-03-09 一种基于改进的深度残差网络的人体行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310221454.0A CN116229323A (zh) 2023-03-09 2023-03-09 一种基于改进的深度残差网络的人体行为识别方法

Publications (1)

Publication Number Publication Date
CN116229323A true CN116229323A (zh) 2023-06-06

Family

ID=86584189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310221454.0A Pending CN116229323A (zh) 2023-03-09 2023-03-09 一种基于改进的深度残差网络的人体行为识别方法

Country Status (1)

Country Link
CN (1) CN116229323A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117149944A (zh) * 2023-08-07 2023-12-01 北京理工大学珠海学院 一种基于宽时间范畴的多模态情境情感识别方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117149944A (zh) * 2023-08-07 2023-12-01 北京理工大学珠海学院 一种基于宽时间范畴的多模态情境情感识别方法及系统
CN117149944B (zh) * 2023-08-07 2024-04-23 北京理工大学珠海学院 一种基于宽时间范畴的多模态情境情感识别方法及系统

Similar Documents

Publication Publication Date Title
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN111639692A (zh) 一种基于注意力机制的阴影检测方法
CN110110689B (zh) 一种行人重识别方法
CN111340123A (zh) 一种基于深度卷积神经网络的图像分数标签预测方法
CN112507920B (zh) 一种基于时间位移和注意力机制的考试异常行为识别方法
Guo et al. JointPruning: Pruning networks along multiple dimensions for efficient point cloud processing
CN112766062B (zh) 一种基于双流深度神经网络的人体行为识别方法
CN110321805B (zh) 一种基于时序关系推理的动态表情识别方法
CN111062410B (zh) 基于深度学习的星型信息桥气象预测方法
CN115100574A (zh) 基于融合图卷积网络与Transformer网络的动作识别方法及系统
CN113870335A (zh) 一种基于多尺度特征融合的单目深度估计方法
CN116229323A (zh) 一种基于改进的深度残差网络的人体行为识别方法
CN115147456A (zh) 一种基于时序自适应卷积与注意力机制的目标跟踪方法
CN115761881A (zh) 一种基于改进yolov5-SFF的检测方法及系统
Li et al. Event transformer
CN116958786A (zh) 一种基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法
CN117058235A (zh) 跨多种室内场景的视觉定位方法
Li et al. CDMY: A lightweight object detection model based on coordinate attention
CN115761888A (zh) 基于nl-c3d模型的塔吊操作人员异常行为检测方法
CN113591647B (zh) 人体动作识别方法、装置、计算机设备和存储介质
CN117011219A (zh) 物品质量检测方法、装置、设备、存储介质和程序产品
CN113537240B (zh) 一种基于雷达序列图像的形变区智能提取方法及系统
CN115527253A (zh) 一种基于注意力机制的轻量级人脸表情识别方法和系统
KR102340387B1 (ko) 뇌 연결성 학습 방법 및 이를 위한 시스템
CN114463614A (zh) 使用生成式参数的层次性显著建模的显著性目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination