CN109558805A - 基于多层深度特征的人体行为识别方法 - Google Patents
基于多层深度特征的人体行为识别方法 Download PDFInfo
- Publication number
- CN109558805A CN109558805A CN201811312013.7A CN201811312013A CN109558805A CN 109558805 A CN109558805 A CN 109558805A CN 201811312013 A CN201811312013 A CN 201811312013A CN 109558805 A CN109558805 A CN 109558805A
- Authority
- CN
- China
- Prior art keywords
- feature
- top layer
- video
- deep learning
- full articulamentum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004044 response Effects 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000013136 deep learning model Methods 0.000 claims abstract description 19
- 230000000694 effects Effects 0.000 claims abstract description 9
- 238000013507 mapping Methods 0.000 claims abstract description 9
- 230000006399 behavior Effects 0.000 claims abstract description 6
- 230000002123 temporal effect Effects 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 4
- 238000012706 support-vector machine Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 229910017435 S2 In Inorganic materials 0.000 claims 1
- 230000008901 benefit Effects 0.000 abstract description 3
- 230000004927 fusion Effects 0.000 abstract description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000002844 melting Methods 0.000 description 1
- 230000008018 melting Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000037081 physical activity Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于多层深度特征的人体行为识别方法,包括如下步骤:在目标数据库上训练出深度学习模型;将样本输入到深度学习模型中,提取顶层卷积层特征映射图和顶层全连接层特征;在顶层卷积层特征映射图的各通道上分别做最大值池化操作,并将池化结果连接成一个列向量;将池化结果组成的列向量和顶层全连接层特征连接,作为视频最终特征表达,结合支持向量机完成行为识别任务。该方法以深度学习模型的顶层全连接层和顶层卷积层特征为基础,考虑深度学习模型全连接层的分类能力和卷积层的语义上下文描述能力,通过融合多层特征的互补性和各自的优势,提高视频特征表达的辨识力,提高了行为识别的精度和算法的运行效率。
Description
技术领域
本发明涉及一种人体行为识别方法,具体涉及一种基于多层深度特征的人体行为识别方法,属于视频行为识别技术领域。
背景技术
基于视频的行为识别在较多领域有着广泛的应用场景和市场需求,例如智能安全监控、智能机器人、人机交互、基于视频的检索等领域。近年来,虽然行为识别的方法层出不穷,但由于背景干扰、遮挡、类内误差等问题,学习辨识力强的行为特征表达仍然是计算机视觉领域的重点和难点。
随着计算设备性能的提升和大数据时代的到来,深度学习成为解决行为识别问题的有效工具。目前,很多方法利用深度学习模型提取全连接层作为视频特征表达,并致力于研究更复杂或者更深的网络结构,以提升特征表达的辨识能力。但这些算法在提高识别精度的同时,增加了运算的复杂度;此外,目前的方法都只利用了全连接层的分类能力,忽略了卷积层对于视频语义上下文信息的描述能力,造成特征表达的辨识能力降低。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于多层深度特征的人体行为识别方法,该方法同时考虑深度学习模型全连接层的分类能力和卷积层的语义上下文描述能力,生成辨识力强的视频特征表达,以提高视觉特征的描述能力,解决现有技术中人体行为识别模型复杂、算法识别低的技术问题。
为实现以上目的,本发明采用以下技术方案:
一种基于多层深度特征的人体行为识别方法,包括如下步骤:
S1,在目标数据库上训练出深度学习模型;
S2,将样本输入到深度学习模型中,提取顶层卷积层特征映射图和顶层全连接层特征;
S3,在顶层卷积层特征映射图的各通道上分别做最大值池化操作,并将池化结果连接成一个列向量;
S4,将池化结果组成的列向量和顶层全连接层特征连接,作为视频最终特征表达,结合支持向量机完成行为识别任务。
进一步地,步骤S1中:分别采用视频帧的RGB图像、光流图像作为输入,以vgg-16作为预训练模型,不断优化模型参数直至目标函数收敛,生成基于空间流和时间流的深度学习模型。
进一步地,步骤S2中:将样本视频帧的RGB图像、光流图像输入到步骤S1的深度学习模型中,提取每帧图像的顶层卷积层的所有特征通道以及顶层全连接层特征。
进一步地,步骤S3中:取顶层卷积层每个特征通道上的最大响应值,连接所有通道的最大响应值,组成特征列向量。
进一步地,步骤S4包括如下步骤:
S41,针对视频的每帧RGB图像,连接步骤S2的所述顶层全连接层特征和步骤S3所述特征列向量,得到每帧RGB图像的空间信息特征表达;
S42,针对视频的每帧光流图像,进行与步骤S41的相同处理,得到每帧光流图像的时间信息特征表达;
S43,归一化并池化视频所有帧RGB图像的空间信息特征表达和所有帧光流图像的时间信息特征表达,分别生成视频的空间信息特征表达和时间信息特征表达;
S44,连接视频的空间信息特征表达和时间信息特征表达,得到视频最终特征表达;
S45,将视频的最终特征表达和标签分别作为支持向量机分类器的输入和输出,训练分类器模型,实现测试样本的行为识别任务。
与已有技术相比,本发明具有如下有益效果:
本发明基于多层深度特征的人体行为识别方法,以深度学习模型的顶层全连接层和顶层卷积层特征为基础,考虑深度学习模型全连接层的分类能力和卷积层的语义上下文描述能力,通过融合多层特征的互补性和各自的优势,提高视频特征表达的辨识力,从而提高了行为识别的精度和算法的运行效率,解决了现有技术中人体行为识别模型复杂、算法识别低的技术问题。
附图说明
图1为本发明的流程图;
图2为本发明中步骤S4的流程图。
具体实施方式
下面结合附图和具体的实施方式对本发明作进一步详细的说明。所述实施例的示例在附图中示出,在下述本发明的实施方式中描述的具体的实施例仅作为本发明的具体实施方式的示例性说明,旨在用于解释本发明,而不构成为对本发明的限制。
本发明提供了一种基于多层深度特征的人体行为识别方法,如图1所示,包括如下步骤:
S1,在目标数据库上训练出深度学习模型;
S2,将样本输入到深度学习模型中,提取顶层卷积层特征映射图和顶层全连接层特征;
S3,在顶层卷积层特征映射图的各通道上分别做最大值池化操作,并将池化结果连接成一个列向量;
S4,将池化结果组成的列向量和顶层全连接层特征连接,作为视频最终特征表达,结合支持向量机完成行为识别任务。
具体地,在步骤S1中,分别采用视频帧的RGB图像、光流图像作为输入,设计网络结构,以vgg-16作为预训练模型,不断优化模型参数直至目标函数收敛,生成基于空间流和时间流的深度学习模型。
在步骤S2中,将样本视频帧的RGB图像和光流图像输入到步骤S1的深度学习模型中,提取每帧图像顶层卷积层的所有特征通道以及顶层全连接层特征。即将样本视频帧的RGB图像输入到已经训练好的深度空间模型中、将样本视频帧的光流图像输入到已经训练好的深度时间模型中,提取顶层卷积层的c个特征通道以及顶层全连接层的d维特征。
在步骤S3中,取顶层卷积层每个特征通道上的最大响应值,连接所有通道的最大响应值,组成特征列向量。顶层卷积层特征映射图的所有通道组成一个3D矩阵其中m×n为每个卷积层的大小,c为卷积层的通道个数;取每个通道m×n个响应值中的最大值,并将c个通道的最大响应值连接,生成c维的特征列向量。
在步骤S4中,如图2所示,具体包括如下步骤:
S41,针对视频的每帧RGB图像,连接步骤S2的顶层全连接层特征和步骤S3的特征列向量,得到每帧RGB图像的空间信息特征表达;即对视频的第t帧RGB图像而言,连接d维的顶层全连接层、顶层卷积层池化结果组成的c维的特征列向量,得到c+d维的空间信息特征表达ft;
S42,针对视频的每帧光流图像,进行与步骤S41的相同处理,即连接步骤S2的顶层全连接层特征和步骤S3的特征列向量,得到每帧光流图像的时间信息特征表达;即对视频的第t帧光流图像而言,得到c+d维的时间信息特征表达
S43,归一化并池化视频所有T帧RGB图像的空间信息特征表达、所有T帧光流图像的时间信息特征表达,分别生成视频的空间信息特征表达fS和时间信息特征表达fT,计算的表达式如下:
S44,连接视频的空间信息特征表达fS和时间信息特征表达fT,得到视频最终特征表达 fvideo:
fvideo=[fS;fT];
S45,将视频的最终特征表达和标签分别作为支持向量机分类器的输入和输出,训练分类器模型,实现测试样本的行为识别任务。
本发明提供的基于多层深度特征的人体行为识别方法,以深度学习模型的顶层全连接层和顶层卷积层特征为基础,考虑前者分类能力和后者语义上下文描述能力,通过融合多层特征的互补性和各自的优势,提高视频特征表达的辨识力,提高了行为识别的精度和算法的运行效率。
应该注意的是,上述实施例是对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,单词“包括”不排除存在未列在权利要求中的数据或步骤。
Claims (5)
1.一种基于多层深度特征的人体行为识别方法,其特征在于,包括如下步骤:
S1,在目标数据库上训练出深度学习模型;
S2,将样本输入到深度学习模型中,提取顶层卷积层特征映射图和顶层全连接层特征;
S3,在顶层卷积层特征映射图的各通道上分别做最大值池化操作,并将池化结果连接成一个列向量;
S4,将池化结果组成的列向量和顶层全连接层特征连接,作为视频最终特征表达,结合支持向量机完成行为识别任务。
2.根据权利要求1所述的基于多层深度特征的人体行为识别方法,其特征在于,步骤S1中:分别采用视频帧的RGB图像、光流图像作为输入,以vgg-16作为预训练模型,不断优化模型参数直至目标函数收敛,生成基于空间流和时间流的深度学习模型。
3.根据权利要求2所述的基于多层深度特征的人体行为识别方法,其特征在于,步骤S2中:将样本视频帧的RGB图像、光流图像输入到步骤S1的深度学习模型中,提取每帧图像顶层卷积层的所有特征通道以及顶层全连接层特征。
4.根据权利要求3所述的基于多层深度特征的人体行为识别方法,其特征在于,步骤S3中:取顶层卷积层每个特征通道上的最大响应值,连接所有通道的最大响应值,组成特征列向量。
5.根据权利要求4所述的基于多层深度特征的人体行为识别方法,其特征在于,步骤S4包括如下步骤:
S41,针对视频的每帧RGB图像,连接步骤S2的所述顶层全连接层特征和步骤S3的所述特征列向量,得到每帧RGB图像的空间信息特征表达;
S42,针对视频的每帧光流图像,进行与步骤S41的相同处理,得到每帧光流图像的时间信息特征表达;
S43,归一化并池化视频所有帧RGB图像的空间信息特征表达和所有帧光流图像的时间信息特征表达,分别生成视频的空间信息特征表达和时间信息特征表达;
S44,连接视频的空间信息特征表达和时间信息特征表达,得到视频最终特征表达;
S45,将视频的最终特征表达和标签分别作为支持向量机分类器的输入和输出,训练分类器模型,实现测试样本的行为识别任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811312013.7A CN109558805A (zh) | 2018-11-06 | 2018-11-06 | 基于多层深度特征的人体行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811312013.7A CN109558805A (zh) | 2018-11-06 | 2018-11-06 | 基于多层深度特征的人体行为识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109558805A true CN109558805A (zh) | 2019-04-02 |
Family
ID=65865970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811312013.7A Pending CN109558805A (zh) | 2018-11-06 | 2018-11-06 | 基于多层深度特征的人体行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109558805A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135345A (zh) * | 2019-05-15 | 2019-08-16 | 武汉纵横智慧城市股份有限公司 | 基于深度学习的行为识别方法、装置、设备及存储介质 |
CN110532909A (zh) * | 2019-08-16 | 2019-12-03 | 成都电科慧安科技有限公司 | 一种基于三维uwb定位的人体行为识别方法 |
CN110674460A (zh) * | 2019-09-16 | 2020-01-10 | 三峡大学 | 基于E-Seq2Seq技术的数据驱动型机组组合智能决策方法 |
CN110991223A (zh) * | 2019-10-18 | 2020-04-10 | 武汉虹识技术有限公司 | 一种基于迁移学习的美瞳识别方法及系统 |
CN111082879A (zh) * | 2019-12-27 | 2020-04-28 | 南京邮电大学 | 一种基于深度时空模型的wifi感知方法 |
CN111556453A (zh) * | 2020-04-27 | 2020-08-18 | 南京邮电大学 | 一种基于信道状态信息和BiLSTM的多场景室内动作识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740773A (zh) * | 2016-01-25 | 2016-07-06 | 重庆理工大学 | 基于深度学习和多尺度信息的行为识别方法 |
CN106815579A (zh) * | 2017-01-22 | 2017-06-09 | 深圳市唯特视科技有限公司 | 一种基于多区域双流卷积神经网络模型的动作检测方法 |
CN106845351A (zh) * | 2016-05-13 | 2017-06-13 | 苏州大学 | 一种用于视频的基于双向长短时记忆单元的行为识别方法 |
-
2018
- 2018-11-06 CN CN201811312013.7A patent/CN109558805A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740773A (zh) * | 2016-01-25 | 2016-07-06 | 重庆理工大学 | 基于深度学习和多尺度信息的行为识别方法 |
CN106845351A (zh) * | 2016-05-13 | 2017-06-13 | 苏州大学 | 一种用于视频的基于双向长短时记忆单元的行为识别方法 |
CN106815579A (zh) * | 2017-01-22 | 2017-06-09 | 深圳市唯特视科技有限公司 | 一种基于多区域双流卷积神经网络模型的动作检测方法 |
Non-Patent Citations (2)
Title |
---|
盛碧云: "基于特征学习的人体目标检测与分析", 《万方学位论文数据库》 * |
高修菊: "基于深度学习的动作识别研究", 《万方学位论文数据库》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135345A (zh) * | 2019-05-15 | 2019-08-16 | 武汉纵横智慧城市股份有限公司 | 基于深度学习的行为识别方法、装置、设备及存储介质 |
CN110532909A (zh) * | 2019-08-16 | 2019-12-03 | 成都电科慧安科技有限公司 | 一种基于三维uwb定位的人体行为识别方法 |
CN110674460A (zh) * | 2019-09-16 | 2020-01-10 | 三峡大学 | 基于E-Seq2Seq技术的数据驱动型机组组合智能决策方法 |
CN110991223A (zh) * | 2019-10-18 | 2020-04-10 | 武汉虹识技术有限公司 | 一种基于迁移学习的美瞳识别方法及系统 |
CN110991223B (zh) * | 2019-10-18 | 2023-07-28 | 武汉虹识技术有限公司 | 一种基于迁移学习的美瞳识别方法及系统 |
CN111082879A (zh) * | 2019-12-27 | 2020-04-28 | 南京邮电大学 | 一种基于深度时空模型的wifi感知方法 |
CN111082879B (zh) * | 2019-12-27 | 2022-02-01 | 南京邮电大学 | 一种基于深度时空模型的wifi感知方法 |
CN111556453A (zh) * | 2020-04-27 | 2020-08-18 | 南京邮电大学 | 一种基于信道状态信息和BiLSTM的多场景室内动作识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109558805A (zh) | 基于多层深度特征的人体行为识别方法 | |
Zhang et al. | Empowering things with intelligence: a survey of the progress, challenges, and opportunities in artificial intelligence of things | |
Han et al. | A survey on visual transformer | |
Wang et al. | Large-scale isolated gesture recognition using convolutional neural networks | |
Liu et al. | SAANet: Siamese action-units attention network for improving dynamic facial expression recognition | |
CN110135249B (zh) | 基于时间注意力机制和lstm的人体行为识别方法 | |
CN110096950A (zh) | 一种基于关键帧的多特征融合行为识别方法 | |
Deng et al. | MVF-Net: A multi-view fusion network for event-based object classification | |
CN109712108B (zh) | 一种基于多样鉴别性候选框生成网络的针对视觉定位方法 | |
CN104573665A (zh) | 一种基于改进维特比算法的连续动作识别方法 | |
CN108154156B (zh) | 基于神经主题模型的图像集成分类方法及装置 | |
CN112307995A (zh) | 一种基于特征解耦学习的半监督行人重识别方法 | |
Zhang et al. | Weakly supervised local-global attention network for facial expression recognition | |
CN110135251B (zh) | 一种基于注意力机制和混合网络的群体图像情绪识别方法 | |
Cherian et al. | Spatio-temporal ranked-attention networks for video captioning | |
CN113505719B (zh) | 基于局部-整体联合知识蒸馏算法的步态识别模型压缩系统及方法 | |
CN112115796A (zh) | 一种基于注意力机制的三维卷积微表情识别算法 | |
CN113590874B (zh) | 一种视频定位方法及装置、模型训练方法及设备 | |
CN111881716A (zh) | 一种基于多视角生成对抗网络的行人重识别方法 | |
CN107832713A (zh) | 一种基于OptiTrack的人体姿态识别方法 | |
Chen et al. | Intelligent teaching evaluation system integrating facial expression and behavior recognition in teaching video | |
US20230072445A1 (en) | Self-supervised video representation learning by exploring spatiotemporal continuity | |
CN112966672B (zh) | 一种复杂背景下的手势识别方法 | |
CN113592881A (zh) | 图片指代性分割方法、装置、计算机设备和存储介质 | |
CN117576753A (zh) | 基于面部关键点的注意力特征融合的微表情识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190402 |
|
RJ01 | Rejection of invention patent application after publication |