CN113361417A - 一种基于可变时序的人体行为识别方法 - Google Patents

一种基于可变时序的人体行为识别方法 Download PDF

Info

Publication number
CN113361417A
CN113361417A CN202110640902.1A CN202110640902A CN113361417A CN 113361417 A CN113361417 A CN 113361417A CN 202110640902 A CN202110640902 A CN 202110640902A CN 113361417 A CN113361417 A CN 113361417A
Authority
CN
China
Prior art keywords
time sequence
training
network model
data set
method based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110640902.1A
Other languages
English (en)
Other versions
CN113361417B (zh
Inventor
张鹏超
徐鹏飞
刘亚恒
张智军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi University of Technology
Original Assignee
Shaanxi University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi University of Technology filed Critical Shaanxi University of Technology
Priority to CN202110640902.1A priority Critical patent/CN113361417B/zh
Publication of CN113361417A publication Critical patent/CN113361417A/zh
Application granted granted Critical
Publication of CN113361417B publication Critical patent/CN113361417B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于可变时序的人体行为识别方法,包括:(1)对输入视频进行预处理操作;(2)搭建网络模型SED3DNet;(3)选择合适的损失函数、优化器;(4)训练网络模型,过程如下所示:(4.1)采用Kaiming‑init的方式初始化参数;(4.2)学习率为0.001,batch_size为16;(4.3)进行损失计算,并利用反向传播机制对权重进行更新;(4.4)训练130个epochs;(4.5)结束训练;(5)进行测试,验证SER3DNet网络的有效性。本发明采用可变时序3D卷积核实现了提取长、中、短等不同时序的特征,克服了相似行为识别难的问题。同时,将3D卷积核分解为空间卷积核与时间卷积核,不仅减少了参数,还增加了网络模型的非线性表达能力,提高了行为识别的准确率。

Description

一种基于可变时序的人体行为识别方法
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种基于可变时序的人体行为识别方法。
背景技术
人体行为识别是计算机视觉领域的重要研究问题,被广泛应用在智能视频监控、智能机器人、人机交互、行为分析等众多领域。
中国发明专利名称:一种基于骨架数据的行为识别系统及方法,专利申请公布号:CN 110427834A;公开了一种基于骨架数据的行为识别系统及方法,首先采集实时视频数据,根据Openpose姿态估计算法,从实时视频数据中提取序列化的人体骨架数据并处理成序列化的非欧式结构数据。然后,使用基于时空图卷积神经网络和长短周期记忆网络,从序列化的非欧式结构数据中识别出对应的行为类别。该方法提取骨架数据过程复杂,不能进行端对端训练,无法满足实时性要求。
中国发明专利名称:基于伪3D卷积神经网络的组群行为识别方法,专利申请公布号:CN 110378281A;公开了一种基于伪3D卷积神经网络的组群行为识别方法,利用伪3D提取特征,使用Softmax分类对时空特征进行分类,完成单人行为识别;同时,利用人体目标的位置信息和外观特征,构建人体目标交互图,并进行组群行为识别。该方法虽然减少了一定量的模型参数,加快了训练速度,但时间卷积核为3,无法处理多帧图像,容易损失时序上的有效信息,准确率低。
发明内容
本发明针对现有技术的缺陷,提供了一种基于可变时序的人体行为识别方法。
为了实现以上发明目的,本发明采取的技术方案如下:
一种基于可变时序的人体行为识别方法,包括以下步骤:
步骤1,对输入视频进行预处理操作;
步骤2,搭建网络模型SED3DNet;
步骤3,选择合适的损失函数、优化器;
步骤4,训练网络模型,过程如下所示:
步骤4.1,采用Kaiming init的方式初始化参数;
步骤4.2,学习率为0.001,batch_size为16;
步骤4.3,进行损失计算,并利用反向传播机制对权重进行更新;
步骤4.4,训练130个epochs;
步骤4.5,结束训练;
步骤5,进行测试,验证SER3DNet网络的有效性。
进一步地,步骤1预处理具体子步骤如下:
a:由于视频帧存在大量冗余信息,无法获取视频全局特征信息,故本发明采用二次采样的策略对视频数据集进行采样,以提高行为识别的准确率。首先,按照一定的采样率f(f=4)进行视频采样,获得每个视频对应图像数据集D;然后采用二次采样算法从图像数据集D中均匀采集16帧,形成数据集G。
b:采用随机抖动、水平翻转以及中心裁剪等方法对数据集G进行数据增强,并按照8:2的比例对数据集G进行训练集和测试集的划分,以备网络模型的训练与测试。
进一步地,所述网络模型SER3Dnet,共18层,6个block。
进一步地,在步骤3中,采用了交叉熵与正则化L2之和作为网络模型的损失函数:
F=H(P,Q)+L2
其中,交叉熵损失函数H(P,Q)=-P(x)log(Q(x)),主要用于表示真实概率分布P(x)和预测概率分布Q(x)之间的差异性,值越小则表示预测的结果越好;
L2正则化可以有效地防止网络在训练时的过拟合现象,表达式为
Figure BDA0003107643740000031
其中,λ为惩罚因子,n为权重w的个数。
与现有技术相比,本发明的优点在于:
首先,在时序上采用可变卷积核,使得网络可以同时提取长、中、短等不同时序的特征信息,增强了网络模型的特征提取能力,其次,采用了拆分原理将三维卷积核分解为空间卷积核与时间卷积核的串联形式,不仅有效地减少了网络模型的参数量以及计算量,还可以增加网络模型的非线性,以防止过拟合,提高行为识别准确率。
附图说明
图1是本发明实施例人体行为识别方法流程图;
图2是本发明实施例SER3D模型结构示意图;
图3是本发明实施例block模块结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下根据附图并列举实施例,对本发明做进一步详细说明。
如图1所示,一种基于可变时序的人体行为识别方法,其具体步骤如下:
(1)对输入视频进行预处理操作(数据集为UCF-101);
(2)搭建网络模型SER3DNet;
(3)选择合适的损失函数、优化器;
(4)训练网络模型,过程如下所示:
(4.1)采用Kaiming-init的方式初始化参数;
(4.2)学习率为0.001,batch_size为16;
(4.3)进行损失计算,并利用反向传播机制对权重进行更新;
(4.4)训练130个epochs;
(4.5)结束训练;
(5)进行测试,验证SER3DNet网络的有效性。
具体的:
(1)预处理具体操作如下所示:
a:由于视频帧存在大量冗余信息,无法获取视频全局特征信息,故本发明采用二次采样的策略对视频数据集进行采样,以提高行为识别的准确率。首先,按照一定的采样率f(f=4)进行视频采样,获得每个视频对应图像数据集D;然后采用二次采样算法从图像数据集D中均匀采集16帧,形成数据集G。
b:采用随机抖动、水平翻转以及中心裁剪等方法对数据集G进行数据增强,并按照8:2的比例对数据集G进行训练集和测试集的划分,以备网络模型的训练与测试。
(2)针对以往网络模型无法有效地提取长时序信息以及识别准确率低等问题,本发明结合squeeze思想以及shortcut思想,提出并设计了一种网络模型SER3Dn et,共18层,6个block,具体内容如下:
a:block1由Conv3d、BN、Relu等组成,其中Conv3d有96个filter,卷积核为3×7×7,stride为1×2×2,padding为1×3×3.预处理后的数据集G维度为3×16×16×112×112,依次通过Conv3d、BN、Relu后,输出维度为96×16×16×56×56。
b:如图2所示,block2由1×3×3、3×1×1、5×3×3、1×1×1等4个Conv3d支路组成,且每个Conv3d都有BN以及Relu。其中,1×3×3支路中,卷积核为1×3×3,stride为1×1×1,padding为0×1×1。3×1×1支路中,卷积核为3×1×1,stride为1×1×1,padding为1×0×0。5×3×3支路中,为了进一步减少参数量,将5×3×3拆分为空间卷积核1×3×3(卷积核为1×3×3,stride为1×1×1,padding为0×1×1)以及时间卷积核5×1×1(卷积核为5×1×1,stride为1×1×1,padding为2×0×0)。1×1×1中支路,卷积核为1×1×1,stride为1×1×1。
首先,先通过1×1×1卷积层对channel进行降维,filter数为16;然后,通过4个Conv3d支路对channel进行升维,filter数分别为64,64,64,64。为了增加特征信息,分别将1×3×3和3×1×1以及5×3×3和1×1×1的输出相加,形成两条新的支路,最后将1×1×1、5×3×3以及两条新的支路通道拼接在一起,通过一个M axpool层(卷积核为3×3×3,stride为2×2×2,padding为1×1×1)输出结果。输入维度为96×16×16×56×56,经过2个block2后,输出维度为256×16×8×28×28。
c:block3、block4的组成与block2一致,只是filter数不同。在block3中,用于降低维度的1×1×1卷积层的filter为32,4个Conv3d支路的filter数分别为128,128,128,128,输入维度为256×16×8×28×28,经过2个block3后,输出维度为512×16×4×14×14。在block4中,用于降低维度的1×1×1卷积层的filter为48,4个Conv3d支路的filter数分别为192,192,192,192,输入维度为512×16×4×14×14,经过2个block4后,输出维度为768×16×2×7×7。
d:block5是在block2的基础上删除了Maxpool层,用于降低维度的1×1×1卷积层的filter为64,4个Conv3d支路的filter数分别为256,256,256,256,输入维度为768×16×2×7×7,经过2个block5后,输出维度为1024×16×2×7×7。
e:block6由AdaptiveAvgpool、Flatten、FC以及Softmax组成。其中AdaptiveAvgpool为自适应全局平均池化,池化后的结果为1024×16×1×1×1;Flatten的作用是将上层的输出reshape为16×1024;FC为全连接层,输出维度为UCF-101的类别数101,Softmax为分类层。block6的输入维度为1024×16×2×7×7,输出维度为16×101。
(3)在损失函数的设计中,采用了交叉熵与正则化L2之和作为网络模型的损失函数:
F=H(P,Q)+L2
其中,交叉熵损失函数H(P,Q)=-P(x)log(Q(x)),主要用于表示真实概率分布P(x)和预测概率分布Q(x)之间的差异性,值越小则表示预测的结果越好;
L2正则化可以有效地防止网络在训练时的过拟合现象,表达式为
Figure BDA0003107643740000061
其中,λ为惩罚因子,n为权重w的个数。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的实施方法,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (4)

1.一种基于可变时序的人体行为识别方法,其特征在于,包括以下步骤:
步骤1,对输入视频进行预处理操作;
步骤2,搭建网络模型SED3DNet;
步骤3,选择合适的损失函数、优化器;
步骤4,训练网络模型,过程如下所示:
步骤4.1,采用Kaiming init的方式初始化参数;
步骤4.2,学习率为0.001,batch_size为16;
步骤4.3,进行损失计算,并利用反向传播机制对权重进行更新;
步骤4.4,训练130个epochs;
步骤4.5,结束训练;
步骤5,进行测试,验证SER3DNet网络的有效性。
2.根据权利要求1所述的一种基于可变时序的人体行为识别方法,其特征在于:步骤1预处理具体子步骤如下:
a:由于视频帧存在大量冗余信息,无法获取视频全局特征信息,故本发明采用二次采样的策略对视频数据集进行采样,以提高行为识别的准确率;首先,按照一定的采样率f(f=4)进行视频采样,获得每个视频对应图像数据集D;然后采用二次采样算法从图像数据集D中均匀采集16帧,形成数据集G;
b:采用随机抖动、水平翻转以及中心裁剪等方法对数据集G进行数据增强,并按照8:2的比例对数据集G进行训练集和测试集的划分,以备网络模型的训练与测试。
3.根据权利要求1所述的一种基于可变时序的人体行为识别方法,其特征在于:所述网络模型SER3Dnet,共18层,6个block。
4.根据权利要求1所述的一种基于可变时序的人体行为识别方法,其特征在于:在步骤3中,采用了交叉熵与正则化L2之和作为网络模型的损失函数:
F=H(P,Q)+L2
其中,交叉熵损失函数H(P,Q)=-P(x)log(Q(x)),主要用于表示真实概率分布P(x)和预测概率分布Q(x)之间的差异性,值越小则表示预测的结果越好;
L2正则化可以有效地防止网络在训练时的过拟合现象,表达式为
Figure FDA0003107643730000021
其中,λ为惩罚因子,n为权重w的个数。
CN202110640902.1A 2021-06-09 2021-06-09 一种基于可变时序的人体行为识别方法 Active CN113361417B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110640902.1A CN113361417B (zh) 2021-06-09 2021-06-09 一种基于可变时序的人体行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110640902.1A CN113361417B (zh) 2021-06-09 2021-06-09 一种基于可变时序的人体行为识别方法

Publications (2)

Publication Number Publication Date
CN113361417A true CN113361417A (zh) 2021-09-07
CN113361417B CN113361417B (zh) 2023-10-31

Family

ID=77533370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110640902.1A Active CN113361417B (zh) 2021-06-09 2021-06-09 一种基于可变时序的人体行为识别方法

Country Status (1)

Country Link
CN (1) CN113361417B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109559297A (zh) * 2018-11-15 2019-04-02 大连大学 一种基于三维区域生成网络的肺结节检测的方法
CN110059568A (zh) * 2019-03-21 2019-07-26 中南大学 基于深层卷积神经网络的多类白细胞自动识别方法
CN110378281A (zh) * 2019-07-17 2019-10-25 青岛科技大学 基于伪3d卷积神经网络的组群行为识别方法
CN110427834A (zh) * 2019-07-10 2019-11-08 上海工程技术大学 一种基于骨架数据的行为识别系统及方法
CN110766660A (zh) * 2019-09-25 2020-02-07 上海众壹云计算科技有限公司 基于融合深度学习模型的集成电路缺陷图像识别分类系统
US10664722B1 (en) * 2016-10-05 2020-05-26 Digimarc Corporation Image processing arrangements
CN111325687A (zh) * 2020-02-14 2020-06-23 上海工程技术大学 一种基于端对端深度网络的平滑滤波取证方法
CN111626197A (zh) * 2020-05-27 2020-09-04 陕西理工大学 一种人体行为识别网络模型及识别方法
CN111627052A (zh) * 2020-04-30 2020-09-04 沈阳工程学院 一种基于双流时空注意力机制的动作识别方法
CN111696101A (zh) * 2020-06-18 2020-09-22 中国农业大学 一种基于SE-Inception的轻量级茄科病害识别方法
CN111832336A (zh) * 2019-04-16 2020-10-27 四川大学 一种基于改进的c3d视频行为检测方法
CN111860278A (zh) * 2020-07-14 2020-10-30 陕西理工大学 一种基于深度学习的人体行为识别算法
CN112464835A (zh) * 2020-12-03 2021-03-09 北京工商大学 一种基于时序增强模块的视频人体行为识别方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10664722B1 (en) * 2016-10-05 2020-05-26 Digimarc Corporation Image processing arrangements
CN109559297A (zh) * 2018-11-15 2019-04-02 大连大学 一种基于三维区域生成网络的肺结节检测的方法
CN110059568A (zh) * 2019-03-21 2019-07-26 中南大学 基于深层卷积神经网络的多类白细胞自动识别方法
CN111832336A (zh) * 2019-04-16 2020-10-27 四川大学 一种基于改进的c3d视频行为检测方法
CN110427834A (zh) * 2019-07-10 2019-11-08 上海工程技术大学 一种基于骨架数据的行为识别系统及方法
CN110378281A (zh) * 2019-07-17 2019-10-25 青岛科技大学 基于伪3d卷积神经网络的组群行为识别方法
CN110766660A (zh) * 2019-09-25 2020-02-07 上海众壹云计算科技有限公司 基于融合深度学习模型的集成电路缺陷图像识别分类系统
CN111325687A (zh) * 2020-02-14 2020-06-23 上海工程技术大学 一种基于端对端深度网络的平滑滤波取证方法
CN111627052A (zh) * 2020-04-30 2020-09-04 沈阳工程学院 一种基于双流时空注意力机制的动作识别方法
CN111626197A (zh) * 2020-05-27 2020-09-04 陕西理工大学 一种人体行为识别网络模型及识别方法
CN111696101A (zh) * 2020-06-18 2020-09-22 中国农业大学 一种基于SE-Inception的轻量级茄科病害识别方法
CN111860278A (zh) * 2020-07-14 2020-10-30 陕西理工大学 一种基于深度学习的人体行为识别算法
CN112464835A (zh) * 2020-12-03 2021-03-09 北京工商大学 一种基于时序增强模块的视频人体行为识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Y. ZHANG ET AL: "Pulmonary Nodule Detection Based on Multi-branch 3D Squeeze-and-Excitation Network", 《DASC/PICOM/CBDCOM/CYBERSCITECH》 *
Y. ZHANG ET AL: "Pulmonary Nodule Detection Based on Multi-branch 3D Squeeze-and-Excitation Network", 《DASC/PICOM/CBDCOM/CYBERSCITECH》, 31 December 2019 (2019-12-31), pages 505 - 509 *
解怀奇等: "基于通道注意力机制的视频人体行为识别", 《电子技术与软件工程》 *
解怀奇等: "基于通道注意力机制的视频人体行为识别", 《电子技术与软件工程》, 15 February 2020 (2020-02-15), pages 140 - 142 *

Also Published As

Publication number Publication date
CN113361417B (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
CN111563508B (zh) 一种基于空间信息融合的语义分割方法
CN114120019B (zh) 一种轻量化的目标检测方法
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN111126258B (zh) 图像识别方法及相关装置
CN104268594B (zh) 一种视频异常事件检测方法及装置
CN111461083A (zh) 基于深度学习的快速车辆检测方法
CN111046821B (zh) 一种视频行为识别方法、系统及电子设备
CN112699786B (zh) 一种基于空间增强模块的视频行为识别方法及系统
CN114445430B (zh) 轻量级多尺度特征融合的实时图像语义分割方法及系统
CN111898432A (zh) 一种基于改进YOLOv3算法的行人检测系统及方法
CN111401293A (zh) 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法
CN113920581A (zh) 一种时空卷积注意力网络用于视频中动作识别的方法
CN110930378A (zh) 基于低数据需求的肺气肿影像处理方法及系统
CN114360067A (zh) 一种基于深度学习的动态手势识别方法
CN115966010A (zh) 一种基于注意力和多尺度特征融合的表情识别方法
CN113192076A (zh) 联合分类预测和多尺度特征提取的mri脑肿瘤图像分割方法
CN113869412B (zh) 一种联合轻量级注意力机制和YOLOv3网络的图像目标检测方法
CN115761888A (zh) 基于nl-c3d模型的塔吊操作人员异常行为检测方法
CN110889858A (zh) 一种基于点回归的汽车部件分割方法及装置
CN114782859A (zh) 一种目标行为时空感知定位模型的建立方法及应用
CN116935249A (zh) 一种无人机场景下三维特征增强的小目标检测方法
CN116740362A (zh) 一种基于注意力的轻量化非对称场景语义分割方法及系统
CN117237599A (zh) 图像目标检测方法及装置
CN113361417A (zh) 一种基于可变时序的人体行为识别方法
CN114694042A (zh) 一种基于改进Scaled-YOLOv4的伪装人员目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant