CN113343760A - 一种基于多尺度特征神经网络的人体行为识别方法 - Google Patents

一种基于多尺度特征神经网络的人体行为识别方法 Download PDF

Info

Publication number
CN113343760A
CN113343760A CN202110471890.4A CN202110471890A CN113343760A CN 113343760 A CN113343760 A CN 113343760A CN 202110471890 A CN202110471890 A CN 202110471890A CN 113343760 A CN113343760 A CN 113343760A
Authority
CN
China
Prior art keywords
branch
neural network
scale
input
scale characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110471890.4A
Other languages
English (en)
Inventor
王永雄
秦宇龙
刘智华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Warm House Information Technology Suzhou Co ltd
Original Assignee
Warm House Information Technology Suzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Warm House Information Technology Suzhou Co ltd filed Critical Warm House Information Technology Suzhou Co ltd
Priority to CN202110471890.4A priority Critical patent/CN113343760A/zh
Publication of CN113343760A publication Critical patent/CN113343760A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多尺度特征神经网络的人体行为识别方法,包括对视频样本进行数据分类,数据增强等预处理操作,获得相应的视频序列作为网络的输入数据,设计了类残差连接的多尺度特征模块,通过对输入特征的通道维度进行分割和重组处理,获取多种尺度的时空特征。并以多尺度特征模块为核心,构建残差机构的多尺度特征神经网络,通过输入数据中的训练样本,进行卷积、池化等操作,提取各动作的时空特征,训练优化多尺度特征神经网络。最后将待测数据输入到该网络中,进行多尺度时空特征的提取以及计算各类行为的概率,完成人体行为识别。本发明能够在视频数据中提取多种尺度的时空特征,有效地提高网络的特征表达能力和人体行为识别准确率。

Description

一种基于多尺度特征神经网络的人体行为识别方法
技术领域
本发明涉及一种人体行为识别方法,特别是一种基于多尺度特征神经网络的人体行为识别方法。
背景技术
人体行为识别是计算机视觉领域中极具挑战性的研究课题。人体行为识别是一种利用相关算法,是计算机自主地视频特征进行特征捕获、处理、分析和识别的技术。人体行为识别方法,以处理海量视频数据为前提,其关键是如何高效地进行时空特征的提取,以达到快速且精准地识别人体行为的目的,在智能监控、人机交互、自动驾驶等领域有着极大的发展潜力和研究意义。传统手工标定的方式,不仅耗时受力,而且受到标注环境、标注方式、样本数量等多方面的限制。因此,基于深度学习的方法,端到端的进行视频特征的提取,对于该领域的研究和应用有着重要意义。
目前,基于深度学习方法进行人体行为识别的应用可以分为两大类,一类为基于传统2D卷积神经网络,如双流网络法,循环神经网络等,但这类方法普遍结构相对复杂,且破坏视频样本时间维度的特征信息,提高了其应用在具体工程中的难度。另一类是基于3D卷积神经网络,如C3D等方法,但这类方法参数量相对较大,特征尺度单一,在处理复杂的动作识别问题时,识别效果不理想。
发明内容
针对上述现有技术缺陷,本发明的任务在于提供一种基于多尺度特征神经网络的人体行为识别方法,通过内部的类残差连接结构,对数据特征的通道维度进行处理,获得多种尺度的时空特征,达到提高人体行为识别的准确率效果。
本发明技术方案如下:一种基于多尺度特征神经网络的人体行为识别方法,包括以下步骤:
步骤1、对视频数据进行包括逐帧拆解及归一化的预处理操作,获得包含时序信息的连续视频帧;
步骤2、将样本视频数据经过步骤1的所述预处理操作后添加对应的动作标签构成训练样本;
步骤3、构建多尺度特征神经网络,所述多尺度特征神经网络依次包括2+1D卷积层、池化层、四组多尺度特征模块和全局平均池化层相互连接而成。由所述全局平均池化层输出提取的时空特征,由所述时空特征计算对应的动作概率;所述多尺度特征模块包括依次连接的第一卷积层、类残差结构、第二卷积层和第三卷积层,所述类残差结构包括通道数均分的第一分支、第二分支、第三分支和第四分支,所述第二分支、第三分支和第四分支分别设有第四卷积层,所述第一分支的输入特征直接输出,所述第二分支的输出与所述第三分支的输入叠加输入至所述第三分支的第四卷积层,所述第三分支的输出与所述第四分支的输入叠加输入至所述第四分支的第四卷积层,所述第一分支、第二分支、第三分支和第四分支的输出叠加输入至所述第二卷积层;所述多尺度特征模块的输入与所述第三卷积层的输入叠加作为所述多尺度特征模块的输出;
步骤4、由所述训练样本训练所述多尺度特征神经网络;
步骤5、对于待识别的视频数据按所述步骤1得到相应的连续视频帧并输入由所述步骤4训练完成的所述多尺度特征神经网络得到识别结果。
进一步地,所述步骤2对所述样本视频数据按步骤1预处理包括对所述样本视频数据按时间维度逐帧拆解,拆解后连续的视频帧,以16帧为一组进行数据增强操作再进行归一化。
进一步地,所述数据增强操作包括等比例缩放、随机裁剪和随机水平翻转。
进一步地,所述第一卷积层和所述第二卷积层的卷积核为1×1×1,所述第三卷积层和所述第四卷积层的卷积核为3×3×3。
进一步地,所述四组多尺度特征模块的通道数依次为64、128、256和512。
进一步地,所述多尺度特征神经网络的目标函数为交叉熵函数,所述多尺度特征神经网络的反向传播算法为梯度随机下降算法。
本发明与现有技术相比的优点在于:
1、该多尺度特征神经网络可以端到端的处理输入数据,无需复杂的预处理,即可进行相关特征的提取,保留了数据中的时空信息。
2、该多尺度特征神经网络对经典的3D卷积神经网络结构进行调整,通过对特征通道维度的处理,获得多种尺度的时空特征,提高相关网络的特征提取能力,以提高网络的人体行为识别准确率。
3、该多尺度特征神经网络以时空分割的2+1D卷积为基础,通过网络内部的类残差连接结构,可以获取更加丰富的时空特征,进一步降低网络的参数数量,提高网络的人体行为识别效率。
4、该多尺度特征神经网络可以直接在数据样本的时空维度进行特征提取,构建相关动作特征的时空关系,无需进行复杂的特征融合计算,降低网络结构的复杂度。
附图说明
图1为本发明基于多尺度特征神经网络的人体行为识别方法的流程示意图。
图2为多尺度特征神经网络结构示意图。
图3为多尺度特征模块结构示意图。
图4为样本数据及测试数据的识别准确率对比图。
具体实施方式
下面结合实施例对本发明作进一步说明,但不作为对本发明的限定。
请结合图1至图3所示,本发明实施例所涉及的一种基于多尺度特征神经网络的人体行为识别方法,包括以下步骤:
步骤1,对复杂的视频样本数据,进行逐帧拆解、数据增强、像素归一化等预处理操作,获得包含时序信息的连续视频帧。具体实现如下:
1.1获取UCF101数据集中的视频样本,按照时间维度进行逐帧拆解。
1.2将拆解后连续的视频帧,以16帧为一组,依次进行等比例缩放、随机裁剪、随机水平翻转的数据增强操作,获得大小为112×112的视频序列。
1.3使用ImageNet dataset标准化系数,对输入样本进行归一化处理,完成数据的预处理操作,获得最终的输入数据。
步骤2、将预处理后的连续视频帧,按照3:7的比例,将数据样本划分为训练样本和测试样本两部分,作为网络的输入数据,输入到的多尺度特征神经网络之中进行网络参数的训练和特征提取。实现具体如下:
2.1将预处理后的连续视频帧,添加与之对应的动作类别标签,并按照3:7的比例将其划分为训练样本和测试样本两部分,
2.2训练样本用于训练多尺度特征神经网络中的网络参数,测试样本用于评价该网络的识别准确率。
步骤3、构建多尺度特征神经网络,利用训练样本,进行卷积、池化等操作,训练网络中的相关参数。通过多尺度特征模块,对特征的通道维度进行分割和重组处理,获取多种尺度的时空特征,提高网络的特征提取能力。根据所提取的时空特征和动作标签,计算各动作类别的概率值,并结合随机梯度下降法和交叉熵损失函数,优化相关的多尺度特征神经网络。具体如下:
3.1以多尺度特征模块为核心,结合全局平均池化层构建本发明提出的多尺度特征神经网络,图2为本发明提出的多尺度特征神经网络的网络结构图(图中下采样的池化层均未示出)。该网络以16帧大小为112×112的训练样本视频帧,作为网络的输入样本,随机初始化网络参数,进行网络参数的训练。输入数据首先经过一组通道数为64的2+1D卷积组进行特征提取,该卷积组由大小为1×3×3的空间卷积和3×1×1的时间卷积卷积串联构成,并通过空间池化下采样,得到16×56×56的输出特征。然后经过四组多尺度特征模块MSF,通道数依次为64、128、256、512,进行多尺度时空特征的提取及时空维度的下采样操作,提取到通道数为512,大小为2×7×7的时空特征。最后通过全局平均池化层GAP处理,完成网络的时空特征提取过程。
多尺度特征模块如图3(图中下采样的池化层均未示出)所示,在输入特征的通道维度,进行类残差结构的连接,依次对特征各通道特征进行处理,以获得多种尺度的时空信息。具体是对于通道数为C1的输入特征,首先经过一个1×1×1的卷积组进行通道维度的交互,然后在特征的通道维度上均匀地分割为四个部分,每部分特征的通道数为C`,即C`=1/4C1。每个部分经过不同的分支进行处理。其中第一分支直接输出,第二分支的输入经过3×3×3的卷积组进行处理后输出,此时第二分支的输出不仅沿着网络向后传递,还与第三分支的输入进行叠加,共同作为第三分支的输入,经过该分支大小为3×3×3的卷积组进行特征提取处理后输出。同理,第三分支的输出在向下传递的同时,与第四分支的输入特征进行叠加,再经过该分支大小为3×3×3的卷积组进行特征提取。通过这种不断叠加的方式,可以等效地扩大卷积层的时空感受野范围,以获得多种尺度的时空特征,最后将各分支提取到的特征进行拼接重组,按照各分支的输出顺序进行排序。排序后的特征通过通道数为C2的1×1×1卷积组和3×3×3的2+1D卷积组进行处理,调整输出时空特征的通道维度,实现各部分特征间的信息融合。同时,为了避免出现梯度消失等问题,该模块还结合了残差结构,将信息融合后结果与多尺度特征模块的输入特征组合以获得最终的输出特征。
3.2根据所提取的时空特征,计算各动作类别的概率值,取最大概率的动作类别作为网络最终的判断结果。
3.3结合随机梯度下降法和交叉熵损失函数,计算识别动作类别与真实动作类别间的差异,优化相关的多尺度特征神经网络,获得最终的多尺度特征神经网络。
步骤4、将测试样本(即为待识别数据经过预处理步骤后的待识别样本)中的相关数据,输入到步骤3中所训练的卷积神经网络之中,进行多尺度时空特征的提取及计算各类预判动作的概率,完成最终的人体行为识别。实现具体如下:
4.1将测试样本输入到步骤3中优化的多尺度特征神经网络,进行时空特征的提取。
4.2根据所提取的时空特征,进行人体行为识别分析,以判断该样本的动作类别。
4.3对所有样本的测试准确率取平均值计算,获得最终的识别准确率,完成人体行为识别任务。其最终的实验结果如图4所示。
通过上述实例,本发明提出了一种基于多尺度特征神经网络的人体行为识别方法。通过网络内部的类残差连接结构,可以在视频样本中提取更加丰富的时空特征,提到网络的特征表达能力。在测试过程中,多尺度特征神经网络的人体行为识别准确率可以达到76.0%以上,超过了当前大多数的人体行为识别方法,提高了人体行为识别准确率。

Claims (6)

1.一种基于多尺度特征神经网络的人体行为识别方法,其特征在于,包括以下步骤:
步骤1、对视频数据进行包括逐帧拆解及归一化的预处理操作,获得包含时序信息的连续视频帧;
步骤2、将样本视频数据经过步骤1的所述预处理操作后添加对应的动作标签构成训练样本;
步骤3、构建多尺度特征神经网络,所述多尺度特征神经网络依次包括第一2+1D卷积层、池化层、四组多尺度特征模块和全局平均池化层,由所述全局平均池化层输出提取的时空特征,由所述时空特征计算对应的动作概率;所述多尺度特征模块包括依次连接的第一卷积层、类残差结构、第二卷积层和第三卷积层,所述类残差结构包括通道数均分的第一分支、第二分支、第三分支和第四分支,所述第二分支、第三分支和第四分支分别设有第四卷积层,所述第一分支的输入特征直接输出,所述第二分支的输出与所述第三分支的输入叠加输入至所述第三分支的第四卷积层,所述第三分支的输出与所述第四分支的输入叠加输入至所述第四分支的第四卷积层,所述第一分支、第二分支、第三分支和第四分支的输出叠加输入至所述第二卷积层;所述多尺度特征模块的输入与所述第三卷积层的输入叠加作为所述多尺度特征模块的输出;
步骤4、由所述训练样本训练所述多尺度特征神经网络;
步骤5、对于待识别的视频数据按所述步骤1得到相应的连续视频帧并输入由所述步骤4训练完成的所述多尺度特征神经网络得到识别结果。
2.根据权利要求1所述的基于多尺度特征神经网络的人体行为识别方法,其特征在于,所述步骤2对所述样本视频数据按步骤1预处理包括对所述样本视频数据按时间维度逐帧拆解,拆解后连续的视频帧,以16帧为一组进行数据增强操作再进行归一化。
3.根据权利要求2所述的基于多尺度特征神经网络的人体行为识别方法,其特征在于,所述数据增强操作包括等比例缩放、随机裁剪和随机水平翻转。
4.根据权利要求1所述的基于多尺度特征神经网络的人体行为识别方法,其特征在于,所述第一卷积层和所述第二卷积层的卷积核为1×1×1,所述第三卷积层和所述第四卷积层的卷积核为3×3×3。
5.根据权利要求1所述的基于多尺度特征神经网络的人体行为识别方法,其特征在于,所述四组多尺度特征模块的通道数依次为64、128、256和512。
6.根据权利要求1所述的基于多尺度特征神经网络的人体行为识别方法,其特征在于,所述多尺度特征神经网络的目标函数为交叉熵函数,所述多尺度特征神经网络的反向传播算法为梯度随机下降算法。
CN202110471890.4A 2021-04-29 2021-04-29 一种基于多尺度特征神经网络的人体行为识别方法 Pending CN113343760A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110471890.4A CN113343760A (zh) 2021-04-29 2021-04-29 一种基于多尺度特征神经网络的人体行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110471890.4A CN113343760A (zh) 2021-04-29 2021-04-29 一种基于多尺度特征神经网络的人体行为识别方法

Publications (1)

Publication Number Publication Date
CN113343760A true CN113343760A (zh) 2021-09-03

Family

ID=77468998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110471890.4A Pending CN113343760A (zh) 2021-04-29 2021-04-29 一种基于多尺度特征神经网络的人体行为识别方法

Country Status (1)

Country Link
CN (1) CN113343760A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115223250A (zh) * 2022-09-13 2022-10-21 东莞理工学院 基于多尺度时空分解卷积网络的上肢康复动作识别方法
CN116631050B (zh) * 2023-04-20 2024-02-13 北京电信易通信息技术股份有限公司 一种面向智能视频会议的用户行为识别方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886358A (zh) * 2019-03-21 2019-06-14 上海理工大学 基于多时空信息融合卷积神经网络的人体行为识别方法
CN110020639A (zh) * 2019-04-18 2019-07-16 北京奇艺世纪科技有限公司 视频特征提取方法及相关设备
CN110543822A (zh) * 2019-07-29 2019-12-06 浙江理工大学 一种基于卷积神经网络和监督式离散哈希算法的指静脉识别方法
US20200082165A1 (en) * 2016-12-16 2020-03-12 Peking University Shenzhen Graduate School Collaborative deep network model method for pedestrian detection
CN111199522A (zh) * 2019-12-24 2020-05-26 重庆邮电大学 一种基于多尺度残差生成对抗网络的单图像盲去运动模糊方法
CN111488805A (zh) * 2020-03-24 2020-08-04 广州大学 一种基于显著性特征提取的视频行为识别方法
CN112149504A (zh) * 2020-08-21 2020-12-29 浙江理工大学 混合卷积的残差网络与注意力结合的动作视频识别方法
CN112418164A (zh) * 2020-12-07 2021-02-26 公安部昆明警犬基地 一种多任务学习网络对警犬动作进行动态识别的方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200082165A1 (en) * 2016-12-16 2020-03-12 Peking University Shenzhen Graduate School Collaborative deep network model method for pedestrian detection
CN109886358A (zh) * 2019-03-21 2019-06-14 上海理工大学 基于多时空信息融合卷积神经网络的人体行为识别方法
CN110020639A (zh) * 2019-04-18 2019-07-16 北京奇艺世纪科技有限公司 视频特征提取方法及相关设备
CN110543822A (zh) * 2019-07-29 2019-12-06 浙江理工大学 一种基于卷积神经网络和监督式离散哈希算法的指静脉识别方法
CN111199522A (zh) * 2019-12-24 2020-05-26 重庆邮电大学 一种基于多尺度残差生成对抗网络的单图像盲去运动模糊方法
CN111488805A (zh) * 2020-03-24 2020-08-04 广州大学 一种基于显著性特征提取的视频行为识别方法
CN112149504A (zh) * 2020-08-21 2020-12-29 浙江理工大学 混合卷积的残差网络与注意力结合的动作视频识别方法
CN112418164A (zh) * 2020-12-07 2021-02-26 公安部昆明警犬基地 一种多任务学习网络对警犬动作进行动态识别的方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
DU TRAN等: "A Closer Look at Spatiotemporal Convolutions for Action Recognition", 《CVPR 2018》, 31 December 2018 (2018-12-31), pages 6450 - 6459 *
SHANGHUA GAO等: "Res2Net:A new multi-scalse backbone architecture", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》, vol. 43, no. 02, 1 January 2021 (2021-01-01), pages 652 - 662 *
ZHITAO XIAO等: "Segmentation of Lung Nodules Using Improved 3D-UNet Neural Network", 《SYSMMETRY 2020》, vol. 12, no. 11, 28 October 2020 (2020-10-28), pages 1 - 15 *
李元祥等: "结合RGB-D视频和卷积神经网络的行为识别算法", 《 计算机与数字工程》, vol. 48, no. 12, 20 December 2020 (2020-12-20), pages 3052 - 3058 *
秦悦: "基于时空卷积神经网络的视频人体行为识别", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 2021, 15 February 2021 (2021-02-15), pages 138 - 1679 *
谈咏东: "(2+1)D多时空信息融合模型及在行为识别的应用", 《信息与控制》, vol. 48, no. 06, 24 September 2019 (2019-09-24), pages 715 - 722 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115223250A (zh) * 2022-09-13 2022-10-21 东莞理工学院 基于多尺度时空分解卷积网络的上肢康复动作识别方法
CN116631050B (zh) * 2023-04-20 2024-02-13 北京电信易通信息技术股份有限公司 一种面向智能视频会议的用户行为识别方法及系统

Similar Documents

Publication Publication Date Title
US11010600B2 (en) Face emotion recognition method based on dual-stream convolutional neural network
CN107564025B (zh) 一种基于深度神经网络的电力设备红外图像语义分割方法
CN108256482B (zh) 一种基于卷积神经网络进行分布学习的人脸年龄估计方法
CN111526434B (zh) 基于转换器的视频摘要方法
CN113673510B (zh) 一种结合特征点和锚框共同预测和回归的目标检测方法
CN111738054B (zh) 一种基于时空自编码器网络和时空cnn的行为异常检测方法
CN110726898B (zh) 一种配电网故障类型识别方法
CN111401149B (zh) 基于长短期时域建模算法的轻量级视频行为识别方法
CN113343760A (zh) 一种基于多尺度特征神经网络的人体行为识别方法
CN112732921B (zh) 一种虚假用户评论检测方法及系统
CN112070727A (zh) 一种基于机器学习的金属表面缺陷检测方法
CN114463759A (zh) 一种基于无锚框算法的轻量化文字检测方法及装置
CN111079645A (zh) 一种基于AlexNet网络的绝缘子自爆识别方法
CN113298817A (zh) 一种准确率高的遥感图像语义分割方法
CN112163490A (zh) 一种基于场景图片的目标检测方法
CN114037684B (zh) 一种基于yolov5和注意力机制模型的疵点检测方法
CN112905828A (zh) 一种结合显著特征的图像检索器、数据库及检索方法
CN115797808A (zh) 一种无人机巡检缺陷图像的识别方法、系统、装置及介质
CN115908793A (zh) 一种基于位置注意力机制的编解码结构语义分割模型
CN114581789A (zh) 一种高光谱图像分类方法及系统
CN111914600A (zh) 一种基于空间注意力模型的群组情绪识别方法
CN112508121B (zh) 一种工业机器人感知外界的方法和系统
Han et al. Research on facial expression recognition based on Multimodal data fusion and neural network
CN117011219A (zh) 物品质量检测方法、装置、设备、存储介质和程序产品
CN115797827A (zh) 一种基于双流网络架构的ViT的人体行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination