CN110059662A - 一种深度视频行为识别方法及系统 - Google Patents
一种深度视频行为识别方法及系统 Download PDFInfo
- Publication number
- CN110059662A CN110059662A CN201910346049.5A CN201910346049A CN110059662A CN 110059662 A CN110059662 A CN 110059662A CN 201910346049 A CN201910346049 A CN 201910346049A CN 110059662 A CN110059662 A CN 110059662A
- Authority
- CN
- China
- Prior art keywords
- channel
- video
- space
- attention
- characteristic pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 94
- 230000000694 effects Effects 0.000 title claims abstract description 62
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 76
- 230000002123 temporal effect Effects 0.000 claims abstract description 10
- 230000006399 behavior Effects 0.000 claims description 90
- 238000013507 mapping Methods 0.000 claims description 21
- 101100049727 Arabidopsis thaliana WOX9 gene Proteins 0.000 claims description 19
- 101150059016 TFIP11 gene Proteins 0.000 claims description 19
- 102100032856 Tuftelin-interacting protein 11 Human genes 0.000 claims description 19
- 241000376353 Stips Species 0.000 claims description 18
- 238000001514 detection method Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 8
- 230000015654 memory Effects 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000006116 polymerization reaction Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000013480 data collection Methods 0.000 abstract description 15
- 230000003542 behavioural effect Effects 0.000 abstract description 6
- 239000000284 extract Substances 0.000 abstract description 3
- 239000010410 layer Substances 0.000 description 38
- 238000011156 evaluation Methods 0.000 description 22
- 230000003993 interaction Effects 0.000 description 16
- 230000008859 change Effects 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000002474 experimental method Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 7
- 238000012360 testing method Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 230000004927 fusion Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 239000012141 concentrate Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000002611 posturography Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 206010000087 Abdominal pain upper Diseases 0.000 description 1
- 208000008035 Back Pain Diseases 0.000 description 1
- 206010011224 Cough Diseases 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 241000288105 Grus Species 0.000 description 1
- 206010019233 Headaches Diseases 0.000 description 1
- 206010028836 Neck pain Diseases 0.000 description 1
- 241000220317 Rosa Species 0.000 description 1
- 206010047700 Vomiting Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 208000019804 backache Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003339 best practice Methods 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 230000001680 brushing effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 231100000869 headache Toxicity 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 230000008673 vomiting Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2193—Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种深度视频行为识别方法及系统,包括:把深度视频的动态图像序列表示作为CNNs的输入,在CNNs卷积层后嵌入通道与时空兴趣点注意力模型,对卷积特征图进行优化调整。最后,将全局平均池化应用于输入深度视频的被调整后的卷积特征图中,生成行为视频的特征表示,并将其输入到LSTM网络中,捕获人体行为的时间信息并进行分类。在三个具有挑战性的公共人体行为数据集上进行评估,实验结果表明,本发明方法能够提取具有辨识力的时空信息,显著地提升视频人体行为识别的性能。与其他现有方法相比,该方法有效地提高了行为识别率。
Description
技术领域
本发明属于基于视频的人体行为识别技术领域,具体涉及一种融合卷积神经网络和通道与时空兴趣点注意力模型的深度视频行为识别方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
基于视频的人体行为识别由于其广泛的应用,如智能视频监控、视频检索和老年人监护等,近年来在计算机视觉领域引起了越来越多的关注。尽管对视频中人体行为的理解与分类已经开展了大量的研究工作来提高动作识别的性能,但由于复杂的背景环境、丰富的行为类间变化以及微小的行为类内差异等问题造成的干扰,基于视频的人体行为识别仍然是一个极具挑战性的研究领域。低成本深度传感器Microsoft Kinect的出现使得基于深度数据的行为识别成为了非常活跃的研究课题,与RGB模态相比,深度数据对光照变化的敏感度较低,能够提供人体三维的运动信息,从而更好地进行行为的识别。此外,深度图像很好地掩盖了被检测人的身份信息,在实际应用中有效地保护了人的隐私。
最近,由于计算能力的显著进步和大量标注数据集的可用性,深度学习引起了广泛的关注,并被用于解决各种各样的计算机视觉挑战。得益于深度网络在目标检测、人脸检测、图像检索和图像分类等方面取得的成功,许多研究人员将深度网络模型应用于基于视频的行为识别任务中。深度网络可以自动学习具有辨识力的图像特征,有效地提升视频理解的性能。一些早期的方法利用卷积神经网络(convolutional neural networks,CNNs)进行视频中的行为识别,有两种常用的基于CNNs的网络框架,一个是Simonyan等人提出的双流CNNs,通过将来自RGB图像的外观信息和来自光流的运动信息分别输入两个CNNs来获得更好的识别性能。另一种是3D卷积网络(3D convolutional networks,C3D),它可以利用3D卷积核在小范围内同时捕获视频的时空信息。然而,从整体上来看,基于CNNs的方法并不善于处理行为视频中的时间信息。为了解决这一问题,循环神经网络(recurrent neuralnetworks,RNNs)应运而生,它在处理序列数据方面具有很大的优势,其中长短时记忆网络(long short-term memory,LSTM)尤其适用于建模长视频的序列信息。
发明人发现,虽然基于CNNs的方法在行为识别方面取得了巨大的成功,但仍然存在两个问题。首先,CNNs缺乏对整个视频的长时间依赖性建模的能力。
其次,CNNs模型没有能力去聚焦输入图像中的信息区域,而对于视频中的行为识别来说,图像帧中与行为相关的显著运动区域非常重要。注意力机制在自然语言处理和图像标注等各种预测任务中展现出了显著的效果,它的出现是受到了人类注意力机制的启发,人们通常会有选择性地聚焦于视觉场景的目标区域以获取更详细的信息,而不是一次性同时处理整个场景的信息。由于注意力机制有助于聚焦视频中人体前景的运动细节,因此被广泛与深度网络模型相结合来进行行为的识别。大多数现有的注意力模型通常考虑的是行为视频的空间或时间特征。空间层次的注意力模型集中在图像帧中的突出运动区域,而时间层次的注意力模型集中于视频序列中的关键帧。CNNs的卷积层特征包含了丰富的结构、角点、边缘和纹理等空间信息,对行为识别具有重要的价值。此外,卷积特征是多通道的,不同的通道对应不同的特征检测子,忽略特征通道之间的不同学习能力,并对其进行同等处理,可能会降低CNNs卷积特征的强大表达能力。
发明内容
为了解决上述问题,本发明提出一种深度视频的行为识别方法及系统,该方法提出了通道与时空兴趣点注意力模型,用于探索卷积神经网络中不同特征通道的辨识能力以及聚焦行为视频中的显著运动区域,能够充分利用CNNs卷积特征的特点来提升人体行为识别的性能。具体地,将深度视频的动态图像序列表示作为CNNs的输入,在CNNs卷积层后嵌入通道与时空兴趣点注意力模型,对卷积特征图进行优化调整。最后,将全局平均池化应用于输入深度视频的被调整后的卷积特征图中,生成行为视频的特征表示,并将其输入到LSTM网络中,捕获人体行为的时间信息并进行分类。
在一些实施方式中,采用如下技术方案:
一种深度视频行为识别方法,包括:
获取深度视频信息,得到该深度视频的动态图像序列表示;
将深度视频的动态图像序列表示作为CNNs的输入;
在CNNs卷积层后嵌入通道与时空兴趣点注意力模型,对卷积特征图进行优化调整;
将全局平均池化应用于所述深度视频的被调整后的卷积特征图中,生成行为视频的特征表示;
将行为视频的特征表示输入到LSTM网络中,捕获人体行为的时间信息并进行分类。
进一步地,得到该深度视频的动态图像序列表示,具体为:
假设一个包含N帧的视频V被等分为T个不重叠的片段,表示为其中St是第t个视频片段,基于视频分割后的每一个短时片段,应用分级池化对其所包含的连续帧进行聚合,生成对应的动态图像,以描述行为视频局部的时空动态;依次对每一个短时片段进行处理,最后得到对应的T帧动态图像序列。
进一步地,将深度视频的动态图像序列表示作为CNNs的输入,具体为:
对于视频动态图像序列中的第i帧(i=1,...,T),将其输入CNNs,得到最后一个卷积层的特征,表示为ConvFi∈RC×H×W,即包含C个通道尺寸大小为H×W的特征图;
对于由T帧动态图像表示的行为视频,最终得到其卷积特征表示:ConvF={ConvF1,...,ConvFi,...,ConvFT}∈RT×C×H×W。
进一步地,所述通道与时空兴趣点注意力模型包括:通道注意力模块和时空兴趣点注意力模块,所述通道注意力模块用于发现CNNs卷积特征中更具辨识力的通道;所述时空兴趣点注意力模块用于聚焦显著的运动区域,以实现有效的行为识别。
进一步地,所述通道注意力模块对卷积特征图进行优化调整,具体为:
假设动态图像序列中某一帧在CNNs最后一个卷积层的特征表示为X∈RC×H×W;
对卷积特征图应用全局平均池化,将通道全局空间信息压缩成通道描述向量;
生成通道注意力模块的权值表示;
卷积特征图与通道注意力模块的权值表示按通道进行乘积运算,得到通道注意力加权特征图。
进一步地,所述生成通道注意力模块的权值表示,具体为:
α=f(Wuδ(WaU))
其中,Wa是缩减比例为r的通道下采样卷积层的权重参数,δ(·)是ReLu激活函数,Wu是放大比例为r的通道上采样卷积层的权重参数,f(·)是sigmoid激活函数。
进一步地,所述时空兴趣点注意力模块对卷积特征图进行优化调整,具体为:
假设动态图像序列中某一帧在CNNs最后一个卷积层的特征表示为X∈RC×H×W,从该帧动态图像检测的时空兴趣点被映射在卷积特征图的空间维度H×W上来生成相应的映射点;
基于n个STIPs在特征图空间中的映射点,计算空间维度H×W上每一个像素位置处映射点的数量;
将上述每一个像素位置处映射点的数量编码为空间权值;保留H×W的空间权值中的前k个最大权值,其余权值均设置为0,得到调整后的时空兴趣点注意力权值;
卷积特征图与调整后的时空兴趣点注意力权值进行加权运算后,再与原始的输入卷积特征图求和,得到时空兴趣点注意力加权特征图。
进一步地,在CNNs卷积层后嵌入通道与时空兴趣点注意力模型,对卷积特征图进行优化调整,具体为:
将输入图像在CNNs最后一组卷积层生成的特征图作为通道注意力模块的输入,通过初始卷积特征图与通道注意力模块的权值相乘,将输出的通道注意力加权特征图作为时空兴趣点注意力模块的输入对卷积特征图继续进行优化调整,生成的时空兴趣点注意力加权特征图作为图像最终调整后的卷积特征图。
在另外一些实施方式中,采用如下技术方案:
一种深度视频行为识别系统,包括服务器,所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的深度视频行为识别方法。
在另外一些实施方式中,采用如下技术方案:
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行上述的深度视频行为识别方法。
与现有技术相比,本发明的有益效果是:
(1)本发明提出了动态图像序列作为一种新的视频表示方法,通过建模视频中局部短时片段的时空信息将整个视频压缩表达为几帧动态图像。深度CNNs能够对动态图像序列进行有效的学习,从而捕获长时视频的行为时空动态变化信息。
(2)本发明设计了一个行为识别框架,将通道与时空兴趣点注意力模型嵌入到CNNs中,两个注意力模块融合可以更好地聚焦行为的空间动态;应用LSTM网络捕获视频的时序信息并进行行为分类。对于深度视频中的人体行为,该框架可以描述行为视频中具有辨识力的时空信息,以实现有效的行为识别。
(3)本发明应用了通道注意力机制,考虑了卷积特征通道的不同辨识能力,以便更有效地进行特征学习;首次尝试把通道注意力引入到基于深度视频的行为识别领域。
(4)本发明提出了一种新的空间注意力方法—时空兴趣点注意力,它可以聚焦于人体行为的显著运动区域,并丢弃视频帧中不相关的部分。
(5)本发明在三个具有挑战性的人体行为数据集上进行了全面的实验,实验仅基于深度数据由于它具有更好的几何信息和隐私性。实验结果表明,本发明方法在所有被评估的数据集上都取得了良好的性能。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1是实施例一中基于通道与时空兴趣点注意力模型的行为识别框架示意图;
图2是实施例一中T帧动态图像序列示意图;
图3是实施例一中NTU RGB+D数据集中十类行为动态图上的STIPs检测示意图;
图4是实施例一中通道和时空兴趣点注意力模型的流程图;
图5是实施例一中LSTM单元的结构图;
图6是实施例一中LSTM网络分类流程图;
图7是本实施例方法在SDUFall数据集上的混淆矩阵;
图8是本实施例方法在SBU Kinect交互数据集上的混淆矩阵;
图9是交叉人评估标准下所提方法在NTU RGB+D数据集中的混淆矩阵;
图10是NTU RGB+D数据集中六类行为的时空兴趣点注意力权值β′(k=3)的可视化;
图11是本实施例方法在SDUFall数据集和SBU Kinect交互数据集中的识别率随LSTM隐层节点数的变化趋势。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
在一个或多个实施方式中,公开了一种融合卷积神经网络和通道与时空兴趣点注意力模型的深度视频行为识别方法,如图1所示,将深度视频的动态图像序列表示作为CNNs的输入,在CNNs卷积层后嵌入通道与时空兴趣点注意力模型,对卷积特征图进行优化调整。最后,将全局平均池化应用于输入深度视频的被调整后的卷积特征图中,生成行为视频的特征表示,并将其输入到LSTM网络中,捕获人体行为的时间信息并进行分类。
本实施例对视频提出了动态图像序列表示(dynamic image sequence,DIS),将整个视频沿着时间轴分割成一组短时片段,然后将包含多个连续图像帧的每个短时片段分别编码为动态图像,以描述视频的局部时空运动信息。作为视频的一种新的表示方法,动态图像序列将原始视频压缩表达为几帧动态图像,通过建模局部短时时空结构信息来有效地提取整个视频的行为时空动态变化。动态图像序列表示有效地增强了深层CNNs对长时行为视频时空动态建模的能力。
本实施例提出的通道与空间注意力模型,能够充分利用CNNs卷积特征的特点来提升视频人体行为识别的性能。通道注意力模块可以自动学习不同通道的卷积特征,并为其分配不同的权重,以自适应地对关键通道特征进行强化。空间注意力模块,称为时空兴趣点(spatial-temporal interest points,STIPs)注意力(STIPs attention,SA),以聚焦图像帧中行为的显著运动区域。时空兴趣点注意力模块首先将从动态图像上检测到的兴趣点投影到相应的卷积特征空间中得到映射点,卷积特征映射空间中每个像素位置的映射点数量被编码为权值表示。所提出的通道与时空兴趣点注意力模型不仅考虑了不同特征通道对提高网络识别能力的重要性,而且能够聚焦对行为分类有重要意义的显著运动区域。
下面对本发明方法做详细的说明。
图1给出了本实施例基于通道与时空兴趣点注意力的人体行为识别框架,以深度视频的动态图像序列表示作为输入,不仅能够有效地建模长时行为视频中的时空动态,并且可以进一步聚焦于显著的运动区域,更准确地进行行为的识别。该框架由四个部分组成:动态图像序列的构造、CNNs卷积特征提取、通道与时空兴趣点注意力模型、LSTM行为分类。下面我们将分别描述这些部分。
1.1动态图像序列
CNNs没有能力去捕获整个行为视频中的长时时空依赖性。为了整合时域中的语义信息,存在两种常用的采样策略。第一种是密集采样,它生成覆盖整个视频的连续帧,该方案会导致采样序列包含冗余以及无关的行为信息。另一种是稀疏采样,即在整个视频中每隔几帧采样一帧。对于复杂的行为或较长的行为视频来说,稀疏采样方案可能会丢失一些重要的动作细节。
在这一部分,为了使CNNs能够有效地学习行为视频的时空特征,本实施例提出了动态图像序列表示作为视频的一种新的表达方式。
假设一个包含N帧的视频V被等分为T个不重叠的片段,表示为其中St是第t个视频片段。引入动态图像的概念,通过应用分级池化将每一个视频片段压缩为一张动态图像。分级池化利用成对线性排序机学习一个线性函数,其参数可以对视频帧的时序进行编码用作视频新的表示。作为一种新的时间池化方法,分级池化不仅可以很好地捕捉视频的时序变化,而且易于实现。基于视频分割后的每一个短时片段,应用分级池化对其所包含的连续帧进行聚合,生成对应的动态图像,以描述局部的时空动态。
令其中,表示视频第t个片段中的第j张图像,k表示视频第t个片段中所有连续帧的数量。时变平均向量运算用于捕获第t个视频片段中连续帧之间的时序信息,见式(1)。
平滑向量序列d={d1,...,di,...,dk}仍然能够保留第t个视频片段中k帧连续图像之间的时序信息。一个线性排序函数被定义为α是排序函数的参数向量,可以保留视频帧之间的相对时序信息,即如果那么排序函数值满足 使用结构风险最小化来定义分级池化的目标函数,见式(2)。
εij是一个松弛变量,α*是最优参数向量,随后被转换为二维矩阵表示生成的动态图像,该动态图像能够同时描述视频短时片段的空间运动和时间结构信息。
利用上述方法对视频的每一个片段进行处理,最后得到对应的T帧动态图像序列,如图2所示。所提出的动态图像序列表示的一个显著优点是,对于任意长度的视频,将其压缩为T帧动态图像,具有非常轻便的结构。作为一种紧凑且有效的视频表示方法,动态图像序列不仅可以通过建模局部时空结构信息来很好地描述长时行为视频的运动变化,而且可以降低运行整个视频的计算量。
1.2CNNs卷积特征
深度CNNs可以提取具有辨识力的图像特征,其中低层特征主要关注颜色、纹理、边角等视觉信息,而高层特征主要关注语义模式等更加抽象的信息。为了充分利用CNNs卷积层丰富的空间信息进行行为识别,采用卷积层的输出作为所提通道与时空兴趣点注意力模型的输入。考虑到CNNs最后一组卷积层输出的特征具有更多的通道,在一定程度上可以更好地保留视频帧的空间结构,对输入视频的动态图像序列表示分别提取每一帧在最后一组卷积层的特征。具体来说,对于视频动态图像序列中的第i帧(i=1,...,T),将其输入CNNs,得到最后一个卷积层的特征,表示为ConvFi∈RC×H×W,即包含C个通道尺寸大小为H×W的特征图,因此对于由T帧动态图像表示的行为视频,最终得到其卷积特征表示:ConvF={ConvF1,...,ConvFi,...,ConvFT}∈RT×C×H×W。
1.3通道与时空兴趣点注意力模型
基于CNNs的卷积特征,提出了一个通道与时空兴趣点注意力模型(CSAM),以提升CNNs的特征学习能力。该模型包括两个注意力模块:一个是通道注意力(CA)模块,用于发现CNNs卷积特征中更具辨识力的通道;另一个是时空兴趣点注意力(SA)模块,用于聚焦显著的运动区域,以实现有效的行为识别。
1.3.1通道注意力模块
以往大多数基于CNNs的行为识别方法都是同等地处理卷积特征的通道关系,这是不合理的,因为忽视了特征通道之间的不同重要性。本实施例将通道注意力应用在CNNs中,以实现基于视频的行为识别。引入通道注意力模块的目的是通过显式地建模卷积特征通道之间的相互依赖性来提高网络的识别能力。
动态图像序列中某一帧在CNNs最后一个卷积层的特征表示为X∈RC×H×W,首先在卷积特征图的空间维度上H×W应用全局平均池化,将通道全局空间信息压缩成通道描述向量。全局平均池化被定义为:
Xc,i,j表示第C个通道的卷积特征图中位置(i,j)处的响应值,Uc是通道描述向量的第C个元素。随后应用了一组卷积操作,以充分利用通过全局平均池化聚合的空间信息,见式(4)。
α=f(Wuδ(WdU)) (4)
Wa是缩减比例为r的通道下采样卷积层的权重参数,δ(·)是ReLu激活函数,Wu是放大比例为r的通道上采样卷积层的权重参数,f(·)是sigmoid激活函数。最后生成通道注意力模块的权值表示α∈RC,用于调整CNNs卷积层输出的特征图:
表示每一个通道的卷积特征图与对应通道权值之间的乘积运算。是被校准后的卷积特征图,命名为通道注意力加权特征图。使用通道注意力模块,CNNs能够学习不同特征通道之间的依赖关系,增强特征的辨识度,进而提升网络的识别性能。
1.3.2时空兴趣点注意力模块
关注具有辨别力的人体空间运动区域对视频中的行为识别具有非常重要的价值。本实施例提出了一种新的空间注意力方法,利用从动态图像序列中检测到的时空兴趣点(spatial-temporal interest points,STIPs)来生成空间权重,将注意力集中在人体行为的显著运动区域。
对于视频的动态图像序列,首先使用选择性STIP检测方法从动态图像帧中检测密集STIPs。由于存在大量的STIPs位于背景环境中,因此从视频中提取的STIPs不能直接被使用。为了获得更加有效的STIPs,应用了背景抑制以及局部和时间约束来排除在背景纹理或非人体前景对象上检测到的点。图3展示了从NTU RGB+D数据集中的一些行为的动态帧中检测到的有效STIPs。假设一张输入动态图像的尺寸大小是HD×WD,则被检测到的有效STIPs表示为P={P1(x1,y1),...,Pk(xk,yk),...,Pn(xn,yn)},n是STIPs的数量,Pk(xk,yk)表示第k个时空兴趣点的坐标(xk,yk)。被检测到的STIPs是稳定的、鲁棒的和具有辨识力的,有助于聚焦人体行为的显著运动区域。
在所提出的时空兴趣点注意力模块中,假设动态图像序列中某一帧在CNNs最后一个卷积层的特征表示为X∈RC×H×W,从该帧动态图像检测的STIPs被映射在卷积特征图的空间维度上(H×W)来生成相应的映射点,见式(6)。
表示特征图空间中第k个映射点的坐标位置。基于n个STIPs在特征图空间中的映射点,计算空间维度H×W上每一个像素位置处映射点的数量,即N={Ni,j}∈RH×W,i∈1...H,j∈1...W。Ni,j表示其中位于第i行第j列位置处的映射点的数量。映射点数量的多少可以反映特征图上对应像素位置的活跃程度,即在一个像素位置上映射点越多,其感受野能够获取的信息量就越大。最终,映射点数目N被编码为空间权值:
β=N/max(N) (7)
β∈RH×W表示生成的时空兴趣点注意力分布,如图3所示,大多数被检测到的STIPs都围绕在显著运动区域周围。但仍然存在一些多余的点分布在人体轮廓或其他与目标前景无关的物体周围,这些冗余点在特征图空间H×W上的映射点可能会对关键运动区域的注意造成干扰。因此,只保留β中的前k个最大权值,而其余均设置为0。k值的选取与特征图空间H×W的大小相关,如果时空兴趣点注意力是基于CNNs的最后一组卷积层特征,由于其感受野较大,因此我们在实验中证明,使用β中的前3个最大权重足以聚焦人体行为的显著运动区域。
调整后的时空兴趣点注意力分布被表示为β′,则时空兴趣点注意力加权特征定义为:
表示每个通道的卷积特征图与调整后的时空兴趣点注意力权值的加权运算。此外,为了同时利用原始卷积特征中的空间信息,我们还增加了原始的输入卷积特征X。表示最终生成的时空兴趣点注意力加权特征图。时空兴趣点注意力可以发现动态图像序列帧中显著的时空运动区域,有助于大大提高行为识别的性能。
1.3.3视频特征表示
为了自适应地探索网络中具有辨识力的特征通道和人体行为中的显著运动区域,将通道注意力模块和时空兴趣点注意力模块整合在一起,时空兴趣点注意力模块串接在通道注意力模块之后。具体来说,首先将输入图像在CNNs最后一组卷积层生成的特征图作为通道注意力模块的输入,通过初始卷积特征图与通道注意力权值α相乘,将输出的通道注意力加权特征图作为时空兴趣点注意力模块的输入对卷积特征图继续进行优化调整,将通道注意力加权特征图与时空兴趣点注意力权值β′进行元素级相乘,生成的时空兴趣点注意力加权特征图作为图像最终调整后的卷积特征图。图4给出了通道和时空兴趣点注意力模型的实现流程图。
基于通道和时空兴趣点注意力模型,可以获得行为视频有区分度的特征表示。首先将视频的动态图像序列输入CNNs,将所提出的通道和时空兴趣点注意力模型嵌入网络最后一组卷积层后,以优化调整输出的卷积特征图。其次,全局平均池化替代了传统的全连接层,应用于被调整后的卷积特征图。最后得到行为视频的特征表示T×C,其中T是视频的动态图像序列中所包含的帧数,C是卷积特征图的通道数。与全连接层相比,全局平均池化更适用于卷积结构,可以显式地将特征图转化为类别置信图。全局平均池化的另一个优点是没有需要优化的参数,这避免了全连接层容易造成的过拟合问题。此外,全局平均池化聚合了局部空间信息,以获得更具鲁棒性的特征表示。
1.4LSTM行为分类
与图像相比,视频具有独特的性质,即它们是由连续帧组成的三维数据。因此,视频中的时间动态可以为行为识别提供非常有价值的参考信息。RNN模型具有较强的序列数据建模能力,在基于视频的行为识别中得到了广泛的应用。LSTM是一种先进的RNN体系结构,可以解决RNN中的梯度消失和爆炸问题。如图5所示,LSTM单元包含输入门it、输出门ot、遗忘门ft和存储单元ct。存储单元的状态由输入门和遗忘门控制,最终用于决定LSTM的输出。t时刻的输出可以通过一个softmax函数来生成预测分布yt。
由于LSTM在其内部的存储单元中引入了一种门机制,因此更适合于对长时输入序列中的时间动态进行建模。如图6所示,统一了所有视频的动态图像序列为T帧,生成的视频特征表示(T×C)输入LSTM模型来捕捉时间动态。将LSTM在中间时刻和最后时刻的输出连接在一起,作为softmax层的输入,以实现更好的行为识别。
2.实验
该部分在三个具有挑战性的RGB-D人体行为数据集中评估了所提方法的有效性,即SDUFall数据集、SBU Kinect交互数据集和NTU RGB+D数据集。首先介绍了实验的评估方案、数据集和实现细节;然后对不同评估方案下的实验结果进行分析;最后通过与三个数据集中先进算法的结果进行比较,以验证所提方法的优越性能。此外,还对所提出的时空兴趣点注意力进行了可视化,来验证其定位视频帧中的显著运动区域的准确性。
2.1评估方案
所提出的行为识别框架主要包括:1)视频动态图像序列表示(DIS)。2)通道与时空兴趣点注意力模型(CSAM)。3)LSTM行为分类。深度数据提供的场景三维结构信息能够简化类内运动变化以及去除杂乱的背景噪声,为识别任务提供了很大的方便;此外使用深度数据还可以消除光照和颜色变化的影响,因此所提方法基于三个数据集的深度视频进行评估。
为了充分证明所提方法的优越性,另外设计了以下三种评估方案以进行比较实验:
无注意力(no attention,NA)。在这一评估方案中,去除了行为识别框架中的通道与时空兴趣点注意力模型。换言之,动态图像序列在最后一组卷积层输出的特征图直接用全局平均池化进行处理,生成视频特征表示,然后送入LSTM进行分类。该方案用于验证所提出的动态图像序列表示的性能,以及注意力模型的有效性。
通道注意力(CA)。在这一方案中,移除了所提出框架中的时空兴趣点注意力模块,以评估通道注意力模块的效果。识别框架中的其余部分保持不变,即仍采用视频的动态图像序列作为输入,采用LSTM捕获视频的时间动态并进行行为分类。
时空兴趣点注意力(SA)。在这个方案中,去掉了通道注意力模块来展示时空兴趣点注意力对行为识别的影响。与通道注意力评估方案相同,行为识别框架的其余部分保持不变。
2.2实验数据集
SDUFall数据集。该数据集由山东大学控制科学与工程学院机器人研究中心建立。数据集由安装在实验室环境中1.5米高的Kinect摄像机所采集,包含六类人体行为:弯腰、摔倒、躺、坐、蹲和行走。每个动作由20名志愿者执行,每人每个动作进行10次,总共有1200个样本。SDUFall数据集包含丰富的类内变化,如照明、方向和位置等的变化。
SBU Kinect交互数据集。此数据集由纽约州立大学石溪分校使用MicrosoftKinect传感器采集。它包含八种人与人的互动动作:接近、离开、推、踢、拳击、交换物体、拥抱和握手。在数据集中,七个参与者组成共21个集合,其中每个集合包含一对不同的人。每个交互动作在每个集合中被执行一到两次,整个数据集大约有300个交互视频。由于数据集中的人体行为具有非常相似的运动形态,因此该数据集也极具挑战性。
NTU RGB+D数据集。该数据集由南洋理工大学的Rose实验室建立,同时使用3台Microsoft Kinect V.2相机进行采集。据我们所知,它是目前最大的RGB-D人体行为数据集,由56880个行为样本组成。该数据集包含60个不同的行为类别,由40名志愿者完成。60类行为分别是:喝酒、吃饭、刷牙、梳头发、丢东西、捡东西、扔东西、坐下、站起来(从坐姿开始)、拍手、看书、写字、撕纸、穿夹克、脱夹克、穿鞋、脱鞋、戴眼镜、摘眼镜、戴帽子、脱帽子,喝彩,挥手,踢东西,伸进自己的口袋,跳跃,跳起来,打/接电话,玩手机,打字,指向某物,自拍,看时间,搓两只手,鞠躬,摇头,擦脸,敬礼,把手掌放在一起,双手交叉在前面,打喷嚏/咳嗽、蹒跚、摔倒、摸头(头痛)、摸胸口(胃痛/心痛)、摸背(背痛)、摸脖子(脖子痛)、呕吐、扇风,拳击对方,踢对方,推对方,拍对方的背,指着对方,拥抱,给对方东西,摸对方的口袋,握手,走向对方,离开对方。NTU RGB+D数据集中由于存在大量的行为样本和行为类别以及丰富的类内变化,因此非常具有挑战性。
2.3实验参数设置
在行为识别框架中,不同数据集中视频动态图像序列的帧数T分别被固定为:T=8(SDUFall数据集、NTU RGB+D数据集);T=4(SBU Kinect交互数据集)。为了验证所提出的CSAM的有效性,首先采用了被广泛使用的VGG16网络作为卷积特征提取的基本CNNs模型,由于它的高效性和准确性。该基本网络模型也可以被其他任何CNNs结构所取代。本实施例选择在ImageNet上预先训练好的模型参数作为VGG16的初始化,以便更快的训练。对于VGG16,最后一组卷积层代表第5组卷积层,输出512个通道的空间尺寸为7×7的特征图。CSAM被嵌入在VGG16的最后一组卷积层后,生成通道注意力权值α∈R512和时空兴趣点注意力权值β′∈R7×7,对原始卷积特征图进行调整,其中β′仅保留原时空兴趣点注意力分布β中的前3个最大权重。在CSAM之后添加了一个全局平均池化层和一个512维的全连接层,替换VGG16中原来的3个全连接层,以减少网络的参数数量并防止过拟合。该网络被命名为特征生成网络,全局平均池化层输出维度为T×512的视频特征。视频的特征随后被输入到一个单层的LSTM结构中进行行为的分类。LSTM隐层状态维度为128,SDUFall数据集和NTU RGB+D数据集中视频的中间时刻被定义为动态图像序列的第五帧,在SBU Kinect交互数据集中被定义为第二帧。
对于网络的训练,视频的动态图像序列作为特征生成网络的输入,对网络参数进行微调。训练后的网络用于视频特征的提取,LSTM用作分类网络。使用反向传播并通过最小化交叉熵损失来训练所有的模型,采用小批量随机梯度下降算法学习网络的权值。初始学习率、衰减速率和动量分别被设置为1×10-2、0.9和0.9。SDUFall和SBU Kinect数据集中每次迭代的最小批量为32个样本,NTU RGB+D数据集为128个样本。训练将在100次迭代后停止,应用早停以避免过拟合。使用pytorch工具箱来进行实验。
2.4CSAM性能评估
基于SDUFall,SBU Kinect和NTU RGB+D数据集对四种评估方案(CSAM、NA、CA、SA)进行实验,旨在验证所提方法的优越性能,实验结果见表I。在该节所有实验中,特征生成网络均以VGG16为基本CNNs模型。首先对每个数据集的实验结果进行单独的描述,然后对四种评估方案进行比较分析。
表I不同评估方案在三个数据集中的识别结果
2.4.1SDUFall数据集
该数据集有1200个行为视频,其中包含丰富的类内变化。在实验中,随机选取SDUFall数据集中3/5参与者的视频样本作为训练集,其余参与者的样本作为测试集。考虑到该数据集中样本数量相对较少,采用随机水平翻转和旋转的方式进行数据扩充,以增加样本数量。
如表I所示,SDUFall数据集上NA评估方案的识别精度为94.17%,将CA模块应用于行为识别,准确度提高到97.71%。仅应用SA模块时,精度为96.88%,略低于单独使用CA模块的结果。所提出的CSAM在该数据集上取得了最高识别精度98.54%,比无注意力高出约4.37%,比仅用CA模块高出0.83%,比仅用SA模块高出1.66%。本实施例所提方法在SDUFall数据集上的混淆矩阵如图7所示,可以看到,本实施例方法在“弯腰、“坐”、“蹲”和“行走”四种行为上都获得了100%的识别率。对于“跌倒”和“躺”这两类行为,由于它们相似的运动变化模式导致出现了极少数的误分类。
2.4.2SBU Kinect交互数据集
按照该数据集的标准评估准则,对数据集进行5折交叉验证。同样地,使用数据增强来增加样本的数量。从表I可以看出,在没有注意力的情况下,SBU Kinect交互数据集上的识别精度为94.20%。分别应用CA模块和SA模块后,结果均提高了1.45%左右。同样地,本实施例的CSAM具有最佳的识别性能,准确率达到了98.55%。所提方法在SBU Kinect交互数据集上的混淆矩阵如图8所示,可以看到,大多数行为都能够被准确地识别,证明了所提方法可以通过聚焦显著运动变化区域来更好地捕捉人体行为的时空信息。对于“踢”这类行为,11%被误识别为“拳击”,这是因为部分参与者在完成“踢”的动作时会同时加入类似于“拳击”的上肢动作,可能会导致行为的混淆。
2.4.3NTU RGB+D数据集
作为目前最大的行为识别数据集,NTU RGB+D数据集包含了丰富的类内以及视角变化。该数据集有两种评估准则:交叉人评估和交叉视角评估。在交叉人评估中,20名参与者的视频样本用于训练,其他20名参与者的样本用于测试。对于交叉视角评估,相机2和相机3捕获的视频样本用于训练,而相机1捕获的样本用于测试。为了排除该数据集深度视频中杂乱背景的影响,从动态图像序列中将人体前景区域剪切出来,然后保持与原始动态图像相同的长宽比,将其大小调整为265×320。被裁剪后的深度视频动态图像序列作为网络的输入对所提方法进行评估。
两种评估准则下的实验结果如表I所示,可以看出,所提出的方法在交叉人和交叉视角中的识别率分别为87.76%和89.38%,均优于其他三种评估方案。图9展示了交叉人评估标准下所提方法在NTU RGB+D数据集中的混淆矩阵。可以看出,所提方法对大多数行为都表现出良好的分类性能,其中包括一些仅时序相反的相似行为,如“穿夹克”和“脱夹克”、“戴帽子”和“脱帽子”等。然而,对于一些包含微小运动变化的行为(如“读”和“写”),所提出的方法并没有展现出足够的辨识力。最可能的原因是这些行为的动态图像序列中几乎没有突出的空间运动变化,因此检测到的时空兴趣点可能并不主要分布在具有区分度的区域上,这将削弱时空兴趣点注意力的性能。
2.4.4评估方案的比较与分析
如表I所示,在三个人体行为数据集上,NA评估方案也能获得较高的识别率,这说明所提出的动态图像序列表示是有效的,能够通过建模局部时空信息来描述整个行为视频的运动变化。对于三个数据集,CA和SA的准确度均略高于NA,这表明CA和SA有助于提高行为识别的性能。将CA和SA结合在一起后的CSAM在三个数据集上都取得了最好的实验结果,这表明它可以有效地探索CNNs中具有辨识力的特征通道和人体行为中显著的空间运动区域,以获得更好的行为识别效果。此外,与NA的结果相比,所提方法在SDUFall数据集和SBUKinect交互数据集中的识别率分别有4.4%和4.3%的显著提升。但是,在NTU RGB+D数据集的交叉人和交叉视角评估标准中,识别率的提高并不明显,约为1.6%和2.8%。主要原因可能是SDUFall数据集和SBU Kinect数据集相对较小,仅包含具有显著空间运动的简单人体行为。而NTU RGB+D数据集中的行为更丰富、更复杂,尤其是一些具有细微变化的人体行为非常相似且容易混淆,这增加了行为被错误分类的可能性。此外,部分深度样本所包含的背景噪声也会影响STIPs的检测,进而对时空兴趣点注意力的准确性造成干扰。
2.5不同CNNs网络架构的评估
为了进一步验证所提出的CSAM的高性能和泛化能力,将其应用于ResNet50。对于特征生成网络,将VGG16替换为ResNet50作为基本CNNs模型。CSAM同样被嵌入在ResNet50的最后一组卷积层之后(res5c层),res5c层输出2048个通道的空间尺寸为7×7的卷积特征图。表II是两种CNNs架构下的实验结果,可以看出,所提方法对于ResNet50仍然具有很好的性能,这证明了所提方法具有很好的泛化能力,可以整合到其他任何CNNs中。此外,与VGG16网络的结果相比,ResNet50的性能在所有数据集中都得到了提高,这是由于相比VGG16,ResNet50具有更深的网络架构和更强的先进性,卷积特征包含更多的通道数(2048),有助于提高通道注意力模块的性能。具体来说,对于SDUFall数据集和SBU Kinect交互数据集,ResNet50的识别率比VGG16分别提升了0.21%和0.27%;NTU RGB+D数据集中交叉人和交叉视角两种评估标准下识别率的提升分别为0.57%和0.65%。
表II所提方法基于不同CNNs架构在三个数据集上的实验结果
2.6与其他先进算法的比较
为了证明所提方法的优越性能,将其与SDUFall、SBU Kinect和NTU RGB+D数据集中的先进算法进行了比较。由于所提方法基于ResNet50的识别性能优于VGG16,因此使用ResNet50下的实验结果与不同数据集的优秀方法进行比较。表III是SDUFall数据集上所提方法与其他几种方法的比较,之前的算法都是基于传统特征(人体轮廓)进行行为识别,并没有引入深度学习。从表III可以看出,所提方法获得了最高的识别结果98.75%,证明了方法的有效性。
对于SBU Kinect交互数据集,所提方法与其他方法的比较如表IV所示,可以看出,之前的大多数工作都是基于骨骼数据,然而,骨骼数据是有限的,当人体姿势非直立时,骨骼数据可能并不可靠。相比之下,所提出的基于深度数据的方法达到了98.82%的最高识别精度,优于其他所有方法。实验结果表明,所提方法具有较强的识别能力,能够将通道注意力和空间注意力有效地应用于CNN卷积特征,提高行为识别的性能。
在NTU RGB+D数据集中,忽略了不同算法中输入数据的模态,将所提出的方法与其他先进方法进行了比较。如表V所示,所提方法在交叉人设置和交叉视角设置下的识别率分别为88.33%和90.03%,均优于该数据集上的大多数方法,证明了方法的高效性。具体来说,对于基于深度数据的所有方法,所提方法在两种评价标准下都实现了最高的识别性能,与当前基于深度数据的最佳算法(Depth Pooling)相比,交叉人设置下的性能被提高了1.25%;当使用交叉视角设置进行测试时,所提方法取得了5.81%的显著改进。此外,所提方法甚至优于同时使用RGB和深度数据作为输入的深度共享特定组件分析-结构稀疏学习机(DSSCA-SSLM)。与基于骨骼数据的方法相比,虽然所提方法仅使用深度数据,但是在两种评价标准中始终都能够获得最佳的性能,并且显著优于所有基于骨骼数据的方法。视觉云(Glimpse Clouds)利用视觉注意力模型,仅使用RGB图像数据来识别人体行为,交叉视角设置中的识别率比我们的方法提高了3.17%。但是,对于交叉人设置,实验结果略低于所提方法。姿势图(Pose Map)是目前NTU RGB+D数据集中不同输入数据模态下的最优方法,交叉人设置下它的准确率为91.7%,比所提方法高出3%左右;对于交叉视角设置,它的精确度达到了95.2%,比所提方法高出5%。我们推测,这是因为姿势估计图的变化生成的人体轮廓图像和人体姿势图像可以排除杂乱背景的干扰,有效地捕捉人体运动。与姿势图相比,所提方法缺乏能够为身体部位的运动提供更丰富准确信息的姿势估计,因此识别性能上可能会被减弱。
总体而言,所提方法在SDUFall数据集和SBU Kinect交互数据集上都获得了最佳性能,同时优于NTU RGB+D数据集上的绝大多数方法。实验结果有力地证明了所提方法的有效性,下面总结了其实现优越性能的可能原因:(1)动态图像序列表示作为网络的输入,能够通过对视频局部的时空结构信息进行建模,从而较好地描述长时深度视频的运动变化。同时,它具有轻便的结构,减少了运行整个视频的计算量以及消耗的时间。(2)CSAM能有效地聚焦于网络中具有区分度的特征通道和人体行为中的显著运动区域。(3)利用具有强大的序列数据建模能力的LSTM网络,捕获视频动态帧的时间相关性并进行分类,有效地利用了深度视频的全局时空信息来提高行为识别的性能。
表III SDUFALL数据集中与其他算法的比较
表IV SBU Kinect交互数据集中与其他算法的比较
表V NTU RGB+D数据集中与其他算法的比较
2.7实验讨论
2.7.1时空兴趣点注意力分析
将从动态图像帧中检测到的时空兴趣点映射到VGG16最后一组卷积层的7×7特征图空间上,生成相应的时空兴趣点注意力权值β。为了减少在人体轮廓或其他与目标前景不相关物体周围检测的冗余点对关键运动区域注意造成的干扰,仅保留β中的前k个最大权值,而其余权值被设置为0。在NTU RGB+D数据集上用SA方案对k分别取1,2,3,4时产生的不同调整后的时空兴趣点注意力权值β′进行评估,此外还同时测试了原始的时空兴趣点注意力权值β。不同情况下时空兴趣点注意力权值的实验结果如表VI所示,可以看到,k=3所得到的空间权值β′在NTU RGB+D数据集的交叉人设置和交叉视角设置中均取得了最高的识别率,分别为87.27%和88.58%。原始时空兴趣点注意力权值β的识别率分别为82.32%和83.21%,低于不同k值下β′的实验结果。这可能是由于β包含了少量冗余映射点所产生的权重,从而降低了识别性能。在所有的实验中均使用k=3时的空间注意力权值β′,以便更好地聚焦人体行为的显著运动区域。
如图10所示,对NTU RGB+D数据集中一些深度行为样本的时空兴趣点注意力权值β′(k=3)进行可视化。对于每一类行为,上面一行表示深度视频中的动态图像,下面一行表示对应的时空兴趣点注意力图。注意力图中的明亮区域代表人体行为较为显著的空间运动区域,其中亮度的大小表示注意力的强度。从图10可以看出,时空兴趣点注意力模块可以准确地聚焦人体行为中具有辨识力以及信息量丰富的空间区域,表明了所提出的时空兴趣点注意力学习的有效性。
表VI SA评估方案下不同时空兴趣点注意力权值在NTU RGB+D数据集的实验结果
2.7.2LSTM隐层节点数
基于所提出的方法,在SDUFall数据集和SBU Kinect交互数据集中评估了LSTM隐层节点数对行为识别性能的影响。图11给出了识别精度随隐层节点数的变化曲线,可以看到,尽管隐层神经元数量的变化范围很大,但识别精度的变化却很小,这说明隐层节点的数目对识别性能的影响很小。因此,在所有实验中LSTM隐层节点数均被设置为128。
综上所述,本实施例提出了一种基于CNNs的通道与时空兴趣点注意力模型,通过关注网络中具有区分度的特征通道以及人体行为中信息量丰富的显著运动区域来提高深度视频中行为识别的性能。此外,对长时行为视频提出了动态图像序列表示方法,不仅能够通过对局部时空结构信息进行建模来很好地捕捉整个视频序列的运动变化信息,而且提供了一种轻便的结构来描述行为视频,可以减少运行整个视频所消耗的时间和计算量。
实施例二
在一个或多个实施方式中,公开了一种融合卷积神经网络和通道与时空兴趣点注意力模型的深度视频行为识别系统,包括服务器,所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例一中所述的深度视频行为识别方法。
实施例三
在一个或多个实施方式中,公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行实施例一中所述的融合卷积神经网络和通道与时空兴趣点注意力模型的深度视频行为识别方法。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.一种深度视频行为识别方法,其特征在于,包括:
获取深度视频信息,得到该深度视频的动态图像序列表示;
将深度视频的动态图像序列表示作为CNNs的输入;
在CNNs卷积层后嵌入通道与时空兴趣点注意力模型,对卷积特征图进行优化调整;
将全局平均池化应用于所述深度视频的被调整后的卷积特征图中,生成行为视频的特征表示;
将行为视频的特征表示输入到LSTM网络中,捕获人体行为的时间信息并进行分类。
2.如权利要求1所述的一种深度视频行为识别方法,其特征在于,得到该深度视频的动态图像序列表示,具体为:
假设一个包含N帧的视频V被等分为T个不重叠的片段,表示为其中St是第t个视频片段,基于视频分割后的每一个短时片段,应用分级池化对其所包含的连续帧进行聚合,生成对应的动态图像,以描述行为视频局部的时空动态;依次对每一个短时片段进行处理,最后得到对应的T帧动态图像序列。
3.如权利要求1所述的一种深度视频行为识别方法,其特征在于,将深度视频的动态图像序列表示作为CNNs的输入,具体为:
对于视频动态图像序列中的第i帧(i=1,…,T),将其输入CNNs,得到最后一个卷积层的特征,表示为ConvFi∈RC×H×W,即包含C个通道尺寸大小为H×W的特征图;
对于由T帧动态图像表示的行为视频,最终得到其卷积特征表示:ConvF={ConvF1,…,ConvFi,…,ConvFT}∈RT×C×H×W。
4.如权利要求1所述的一种深度视频行为识别方法,其特征在于,所述通道与时空兴趣点注意力模型包括:通道注意力模块和时空兴趣点注意力模块,所述通道注意力模块用于发现CNNs卷积特征中更具辨识力的通道;所述时空兴趣点注意力模块用于聚焦显著的运动区域,以实现有效的行为识别。
5.如权利要求4所述的一种深度视频行为识别方法,其特征在于,所述通道注意力模块对卷积特征图进行优化调整,具体为:
假设动态图像序列中某一帧在CNNs最后一个卷积层的特征表示为X∈RC×H×W;
对卷积特征图应用全局平均池化,将通道全局空间信息压缩成通道描述向量;
生成通道注意力模块的权值表示;
卷积特征图与通道注意力模块的权值表示按通道进行乘积运算,得到通道注意力加权特征图。
6.如权利要求5所述的一种深度视频行为识别方法,其特征在于,所述生成通道注意力模块的权值表示,具体为:
α=f(Wuδ(WdU))
其中,Wd是缩减比例为r的通道下采样卷积层的权重参数,δ(·)是ReLu激活函数,Wu是放大比例为r的通道上采样卷积层的权重参数,f(·)是sigmoid激活函数。
7.如权利要求4所述的一种深度视频行为识别方法,其特征在于,所述时空兴趣点注意力模块对卷积特征图进行优化调整,具体为:
假设动态图像序列中某一帧在CNNs最后一个卷积层的特征表示为X∈RC×H×W,从该帧动态图像检测的时空兴趣点被映射在卷积特征图的空间维度H×W上来生成相应的映射点;
基于n个STIPs在特征图空间中的映射点,计算空间维度H×W上每一个像素位置处映射点的数量;
将上述每一个像素位置处映射点的数量编码为空间权值;保留H×W的空间权值中的前k个最大权值,其余权值均设置为0,得到调整后的时空兴趣点注意力权值;
卷积特征图与调整后的时空兴趣点注意力权值进行加权运算后,再与原始的输入卷积特征图求和,得到时空兴趣点注意力加权特征图。
8.如权利要求4所述的一种深度视频行为识别方法,其特征在于,在CNNs卷积层后嵌入通道与时空兴趣点注意力模型,对卷积特征图进行优化调整,具体为:
将输入图像在CNNs最后一组卷积层生成的特征图作为通道注意力模块的输入,通过初始卷积特征图与通道注意力模块的权值相乘,将输出的通道注意力加权特征图作为时空兴趣点注意力模块的输入对卷积特征图继续进行优化调整,生成的时空兴趣点注意力加权特征图作为图像最终调整后的卷积特征图。
9.一种深度视频行为识别系统,其特征在于,包括服务器,所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-8任一项所述的深度视频行为识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时执行权利要求1-8任一项所述的深度视频行为识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910346049.5A CN110059662B (zh) | 2019-04-26 | 2019-04-26 | 一种深度视频行为识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910346049.5A CN110059662B (zh) | 2019-04-26 | 2019-04-26 | 一种深度视频行为识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110059662A true CN110059662A (zh) | 2019-07-26 |
CN110059662B CN110059662B (zh) | 2021-03-23 |
Family
ID=67319534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910346049.5A Active CN110059662B (zh) | 2019-04-26 | 2019-04-26 | 一种深度视频行为识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110059662B (zh) |
Cited By (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110647933A (zh) * | 2019-09-20 | 2020-01-03 | 北京达佳互联信息技术有限公司 | 一种视频的分类方法及装置 |
CN110675860A (zh) * | 2019-09-24 | 2020-01-10 | 山东大学 | 基于改进注意力机制并结合语义的语音信息识别方法及系统 |
CN110688918A (zh) * | 2019-09-12 | 2020-01-14 | 上海交通大学 | 基于长时增强特征增强及稀疏动态采样的快速行为检测方法 |
CN110705463A (zh) * | 2019-09-29 | 2020-01-17 | 山东大学 | 基于多模态双流3d网络的视频人体行为识别方法及系统 |
CN110852182A (zh) * | 2019-10-21 | 2020-02-28 | 华中科技大学 | 一种基于三维空间时序建模的深度视频人体行为识别方法 |
CN110866938A (zh) * | 2019-11-21 | 2020-03-06 | 北京理工大学 | 一种全自动视频运动目标分割方法 |
CN111046227A (zh) * | 2019-11-29 | 2020-04-21 | 腾讯科技(深圳)有限公司 | 一种视频查重方法及装置 |
CN111161306A (zh) * | 2019-12-31 | 2020-05-15 | 北京工业大学 | 一种基于运动注意力的视频目标分割方法 |
CN111178141A (zh) * | 2019-12-05 | 2020-05-19 | 江苏大学 | 一种基于注意力机制的lstm人体行为识别方法 |
CN111191737A (zh) * | 2020-01-05 | 2020-05-22 | 天津大学 | 基于多尺度反复注意力机制的细粒度图像分类方法 |
CN111242101A (zh) * | 2020-03-08 | 2020-06-05 | 电子科技大学 | 一种基于时空上下文关联的行为识别方法 |
CN111259790A (zh) * | 2020-01-15 | 2020-06-09 | 上海交通大学 | 用于中短时视频的从粗到细的行为快速检测与分类方法及系统 |
CN111275714A (zh) * | 2020-01-13 | 2020-06-12 | 武汉大学 | 一种基于注意力机制的3d卷积神经网络的前列腺mr图像分割方法 |
CN111310637A (zh) * | 2020-02-11 | 2020-06-19 | 山西大学 | 一种基于尺度不变网络的机器人目标抓取检测方法 |
CN111382679A (zh) * | 2020-02-25 | 2020-07-07 | 上海交通大学 | 帕金森病步态运动障碍严重程度的评估方法、系统及设备 |
CN111401310A (zh) * | 2020-04-08 | 2020-07-10 | 天津中科智能识别产业技术研究院有限公司 | 基于人工智能的厨房卫生安全监督管理方法 |
CN111444803A (zh) * | 2020-03-18 | 2020-07-24 | 北京迈格威科技有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN111488840A (zh) * | 2020-04-15 | 2020-08-04 | 桂林电子科技大学 | 一种基于多任务学习模型的人体行为分类方法 |
CN111523461A (zh) * | 2020-04-22 | 2020-08-11 | 南京工程学院 | 基于增强cnn和跨层lstm的表情识别系统与方法 |
CN111695523A (zh) * | 2020-06-15 | 2020-09-22 | 浙江理工大学 | 基于骨骼时空及动态信息的双流卷积神经网络动作识别方法 |
CN111767783A (zh) * | 2020-04-22 | 2020-10-13 | 杭州海康威视数字技术股份有限公司 | 行为检测、模型训练方法、装置、电子设备及存储介质 |
CN111814567A (zh) * | 2020-06-11 | 2020-10-23 | 上海果通通信科技股份有限公司 | 人脸活体检测的方法、装置、设备和存储介质 |
CN111860267A (zh) * | 2020-07-13 | 2020-10-30 | 浙大城市学院 | 一种基于人体骨骼关节点位的多通道健身运动识别方法 |
CN111967344A (zh) * | 2020-07-28 | 2020-11-20 | 南京信息工程大学 | 一种面向人脸伪造视频检测的精细化特征融合方法 |
CN111968150A (zh) * | 2020-08-19 | 2020-11-20 | 中国科学技术大学 | 一种基于全卷积神经网络的弱监督视频目标分割方法 |
CN112131943A (zh) * | 2020-08-20 | 2020-12-25 | 深圳大学 | 一种基于双重注意力模型的视频行为识别方法及系统 |
CN112381068A (zh) * | 2020-12-25 | 2021-02-19 | 四川长虹电器股份有限公司 | 一种检测人“玩手机”的方法及系统 |
CN112419321A (zh) * | 2021-01-25 | 2021-02-26 | 长沙理工大学 | X射线图像识别方法、装置、计算机设备及存储介质 |
CN112487957A (zh) * | 2020-11-27 | 2021-03-12 | 广州华多网络科技有限公司 | 视频行为检测、响应方法及装置、设备、介质 |
CN112669355A (zh) * | 2021-01-05 | 2021-04-16 | 北京信息科技大学 | 基于rgb-d超像素分割的聚焦堆栈数据拼接融合的方法及系统 |
CN112766279A (zh) * | 2020-12-31 | 2021-05-07 | 中国船舶重工集团公司第七0九研究所 | 一种基于联合注意力机制的图像特征提取方法 |
CN112766177A (zh) * | 2021-01-22 | 2021-05-07 | 西安电子科技大学 | 基于特征映射和多层时间交互注意力的行为识别方法 |
CN112818843A (zh) * | 2021-01-29 | 2021-05-18 | 山东大学 | 基于通道注意力导向时间建模的视频行为识别方法及系统 |
CN113205060A (zh) * | 2020-12-28 | 2021-08-03 | 武汉纺织大学 | 采用循环神经网络依据骨骼形态判断的人体动作检测方法 |
CN114627427A (zh) * | 2022-05-18 | 2022-06-14 | 齐鲁工业大学 | 基于时空信息的跌倒检测方法、系统、存储介质及设备 |
CN116309590A (zh) * | 2023-05-22 | 2023-06-23 | 四川新迎顺信息技术股份有限公司 | 一种基于人工智能的视觉计算方法、系统、电子设备和介质 |
CN116612537A (zh) * | 2023-07-21 | 2023-08-18 | 武汉理工大学 | 一种基于背景弱化及一致性计算的半监督动作检测方法 |
CN117671594A (zh) * | 2023-12-08 | 2024-03-08 | 中化现代农业有限公司 | 安全监控方法、装置、电子设备和存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120045092A1 (en) * | 2010-08-17 | 2012-02-23 | Microsoft Corporation | Hierarchical Video Sub-volume Search |
CN104299007A (zh) * | 2014-09-17 | 2015-01-21 | 电子科技大学 | 一种用于行为识别的分类器训练方法 |
CN105825240A (zh) * | 2016-04-07 | 2016-08-03 | 浙江工业大学 | 一种基于ap聚类词袋建模的行为识别方法 |
CN105893936A (zh) * | 2016-03-28 | 2016-08-24 | 浙江工业大学 | 一种基于hoirm和局部特征融合的行为识别方法 |
US20160360186A1 (en) * | 2015-06-03 | 2016-12-08 | University Of Connecticut | Methods and systems for human action recognition using 3d integral imaging |
US20180075306A1 (en) * | 2016-09-14 | 2018-03-15 | Canon Kabushiki Kaisha | Temporal segmentation of actions using context features |
CN109101896A (zh) * | 2018-07-19 | 2018-12-28 | 电子科技大学 | 一种基于时空融合特征和注意力机制的视频行为识别方法 |
CN109190479A (zh) * | 2018-08-04 | 2019-01-11 | 台州学院 | 一种基于混合深度学习的视频序列表情识别方法 |
CN109460734A (zh) * | 2018-11-08 | 2019-03-12 | 山东大学 | 基于层次动态深度投影差值图像表示的视频行为识别方法及系统 |
CN109635721A (zh) * | 2018-12-10 | 2019-04-16 | 山东大学 | 基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测方法及系统 |
-
2019
- 2019-04-26 CN CN201910346049.5A patent/CN110059662B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120045092A1 (en) * | 2010-08-17 | 2012-02-23 | Microsoft Corporation | Hierarchical Video Sub-volume Search |
CN104299007A (zh) * | 2014-09-17 | 2015-01-21 | 电子科技大学 | 一种用于行为识别的分类器训练方法 |
US20160360186A1 (en) * | 2015-06-03 | 2016-12-08 | University Of Connecticut | Methods and systems for human action recognition using 3d integral imaging |
CN105893936A (zh) * | 2016-03-28 | 2016-08-24 | 浙江工业大学 | 一种基于hoirm和局部特征融合的行为识别方法 |
CN105825240A (zh) * | 2016-04-07 | 2016-08-03 | 浙江工业大学 | 一种基于ap聚类词袋建模的行为识别方法 |
US20180075306A1 (en) * | 2016-09-14 | 2018-03-15 | Canon Kabushiki Kaisha | Temporal segmentation of actions using context features |
CN109101896A (zh) * | 2018-07-19 | 2018-12-28 | 电子科技大学 | 一种基于时空融合特征和注意力机制的视频行为识别方法 |
CN109190479A (zh) * | 2018-08-04 | 2019-01-11 | 台州学院 | 一种基于混合深度学习的视频序列表情识别方法 |
CN109460734A (zh) * | 2018-11-08 | 2019-03-12 | 山东大学 | 基于层次动态深度投影差值图像表示的视频行为识别方法及系统 |
CN109635721A (zh) * | 2018-12-10 | 2019-04-16 | 山东大学 | 基于轨迹加权深度卷积次序池化描述子的视频人体跌倒检测方法及系统 |
Non-Patent Citations (8)
Title |
---|
BASURA FERNANDO: "Rank Pooling for Action Recognition", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
BHASKARCHAKRABORTY: "Selective spatio-temporal interest points", 《COMPUTER VISION AND IMAGE UNDERSTANDING》 * |
DASHAN GUO: "Capturing Temporal Structures for Video Captioning by Spatio-temporal Contexts and Channel Attention Mechanism", 《NEURAL PROCESSING LETTERS VOLUME》 * |
HAKAN BILEN: "Dynamic image networks for action recognition", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
JINLIANG ZANG: "Attention-Based Temporal Weighted Convolutional Neural Network for Action Recognition", 《ARTIFICIAL INTELLIGENCE APPLICATIONS AND INNOVATIONS》 * |
MA XIN: "Deep Learning Based Human Action Recognition-A Survey", 《 2017 CHINESE AUTOMATION CONGRESS》 * |
孟乐乐: "融合时空网络与注意力机制的人体行为识别研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
裴利沈: "视频中人体行为识别若干问题研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (60)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110688918A (zh) * | 2019-09-12 | 2020-01-14 | 上海交通大学 | 基于长时增强特征增强及稀疏动态采样的快速行为检测方法 |
CN110688918B (zh) * | 2019-09-12 | 2023-02-14 | 上海交通大学 | 基于长时增强特征增强及稀疏动态采样的快速行为检测方法 |
CN110647933B (zh) * | 2019-09-20 | 2023-06-20 | 北京达佳互联信息技术有限公司 | 一种视频的分类方法及装置 |
CN110647933A (zh) * | 2019-09-20 | 2020-01-03 | 北京达佳互联信息技术有限公司 | 一种视频的分类方法及装置 |
CN110675860A (zh) * | 2019-09-24 | 2020-01-10 | 山东大学 | 基于改进注意力机制并结合语义的语音信息识别方法及系统 |
CN110705463A (zh) * | 2019-09-29 | 2020-01-17 | 山东大学 | 基于多模态双流3d网络的视频人体行为识别方法及系统 |
CN110852182B (zh) * | 2019-10-21 | 2022-09-20 | 华中科技大学 | 一种基于三维空间时序建模的深度视频人体行为识别方法 |
CN110852182A (zh) * | 2019-10-21 | 2020-02-28 | 华中科技大学 | 一种基于三维空间时序建模的深度视频人体行为识别方法 |
CN110866938B (zh) * | 2019-11-21 | 2021-04-27 | 北京理工大学 | 一种全自动视频运动目标分割方法 |
CN110866938A (zh) * | 2019-11-21 | 2020-03-06 | 北京理工大学 | 一种全自动视频运动目标分割方法 |
CN111046227B (zh) * | 2019-11-29 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 一种视频查重方法及装置 |
CN111046227A (zh) * | 2019-11-29 | 2020-04-21 | 腾讯科技(深圳)有限公司 | 一种视频查重方法及装置 |
CN111178141B (zh) * | 2019-12-05 | 2022-07-22 | 江苏大学 | 一种基于注意力机制的lstm人体行为识别方法 |
CN111178141A (zh) * | 2019-12-05 | 2020-05-19 | 江苏大学 | 一种基于注意力机制的lstm人体行为识别方法 |
CN111161306B (zh) * | 2019-12-31 | 2023-06-02 | 北京工业大学 | 一种基于运动注意力的视频目标分割方法 |
CN111161306A (zh) * | 2019-12-31 | 2020-05-15 | 北京工业大学 | 一种基于运动注意力的视频目标分割方法 |
CN111191737A (zh) * | 2020-01-05 | 2020-05-22 | 天津大学 | 基于多尺度反复注意力机制的细粒度图像分类方法 |
CN111191737B (zh) * | 2020-01-05 | 2023-07-25 | 天津大学 | 基于多尺度反复注意力机制的细粒度图像分类方法 |
CN111275714A (zh) * | 2020-01-13 | 2020-06-12 | 武汉大学 | 一种基于注意力机制的3d卷积神经网络的前列腺mr图像分割方法 |
CN111275714B (zh) * | 2020-01-13 | 2022-02-01 | 武汉大学 | 一种基于注意力机制的3d卷积神经网络的前列腺mr图像分割方法 |
CN111259790B (zh) * | 2020-01-15 | 2023-06-20 | 上海交通大学 | 用于中短时视频的从粗到细的行为快速检测与分类方法及系统 |
CN111259790A (zh) * | 2020-01-15 | 2020-06-09 | 上海交通大学 | 用于中短时视频的从粗到细的行为快速检测与分类方法及系统 |
CN111310637A (zh) * | 2020-02-11 | 2020-06-19 | 山西大学 | 一种基于尺度不变网络的机器人目标抓取检测方法 |
CN111310637B (zh) * | 2020-02-11 | 2022-11-11 | 山西大学 | 一种基于尺度不变网络的机器人目标抓取检测方法 |
CN111382679A (zh) * | 2020-02-25 | 2020-07-07 | 上海交通大学 | 帕金森病步态运动障碍严重程度的评估方法、系统及设备 |
CN111382679B (zh) * | 2020-02-25 | 2022-08-02 | 上海交通大学 | 帕金森病步态运动障碍严重程度的评估方法、系统及设备 |
CN111242101A (zh) * | 2020-03-08 | 2020-06-05 | 电子科技大学 | 一种基于时空上下文关联的行为识别方法 |
CN111444803A (zh) * | 2020-03-18 | 2020-07-24 | 北京迈格威科技有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN111401310B (zh) * | 2020-04-08 | 2023-08-29 | 天津中科智能识别产业技术研究院有限公司 | 基于人工智能的厨房卫生安全监督管理方法 |
CN111401310A (zh) * | 2020-04-08 | 2020-07-10 | 天津中科智能识别产业技术研究院有限公司 | 基于人工智能的厨房卫生安全监督管理方法 |
CN111488840A (zh) * | 2020-04-15 | 2020-08-04 | 桂林电子科技大学 | 一种基于多任务学习模型的人体行为分类方法 |
CN111523461A (zh) * | 2020-04-22 | 2020-08-11 | 南京工程学院 | 基于增强cnn和跨层lstm的表情识别系统与方法 |
CN111767783A (zh) * | 2020-04-22 | 2020-10-13 | 杭州海康威视数字技术股份有限公司 | 行为检测、模型训练方法、装置、电子设备及存储介质 |
CN111814567A (zh) * | 2020-06-11 | 2020-10-23 | 上海果通通信科技股份有限公司 | 人脸活体检测的方法、装置、设备和存储介质 |
CN111695523A (zh) * | 2020-06-15 | 2020-09-22 | 浙江理工大学 | 基于骨骼时空及动态信息的双流卷积神经网络动作识别方法 |
CN111695523B (zh) * | 2020-06-15 | 2023-09-26 | 浙江理工大学 | 基于骨骼时空及动态信息的双流卷积神经网络动作识别方法 |
CN111860267B (zh) * | 2020-07-13 | 2022-06-14 | 浙大城市学院 | 一种基于人体骨骼关节点位的多通道健身运动识别方法 |
CN111860267A (zh) * | 2020-07-13 | 2020-10-30 | 浙大城市学院 | 一种基于人体骨骼关节点位的多通道健身运动识别方法 |
CN111967344B (zh) * | 2020-07-28 | 2023-06-20 | 南京信息工程大学 | 一种面向人脸伪造视频检测的精细化特征融合方法 |
CN111967344A (zh) * | 2020-07-28 | 2020-11-20 | 南京信息工程大学 | 一种面向人脸伪造视频检测的精细化特征融合方法 |
CN111968150A (zh) * | 2020-08-19 | 2020-11-20 | 中国科学技术大学 | 一种基于全卷积神经网络的弱监督视频目标分割方法 |
CN112131943B (zh) * | 2020-08-20 | 2023-07-11 | 深圳大学 | 一种基于双重注意力模型的视频行为识别方法及系统 |
CN112131943A (zh) * | 2020-08-20 | 2020-12-25 | 深圳大学 | 一种基于双重注意力模型的视频行为识别方法及系统 |
CN112487957A (zh) * | 2020-11-27 | 2021-03-12 | 广州华多网络科技有限公司 | 视频行为检测、响应方法及装置、设备、介质 |
CN112381068B (zh) * | 2020-12-25 | 2022-05-31 | 四川长虹电器股份有限公司 | 一种检测人“玩手机”的方法及系统 |
CN112381068A (zh) * | 2020-12-25 | 2021-02-19 | 四川长虹电器股份有限公司 | 一种检测人“玩手机”的方法及系统 |
CN113205060A (zh) * | 2020-12-28 | 2021-08-03 | 武汉纺织大学 | 采用循环神经网络依据骨骼形态判断的人体动作检测方法 |
CN112766279A (zh) * | 2020-12-31 | 2021-05-07 | 中国船舶重工集团公司第七0九研究所 | 一种基于联合注意力机制的图像特征提取方法 |
CN112669355B (zh) * | 2021-01-05 | 2023-07-25 | 北京信息科技大学 | 基于rgb-d超像素分割的聚焦堆栈数据拼接融合的方法及系统 |
CN112669355A (zh) * | 2021-01-05 | 2021-04-16 | 北京信息科技大学 | 基于rgb-d超像素分割的聚焦堆栈数据拼接融合的方法及系统 |
CN112766177A (zh) * | 2021-01-22 | 2021-05-07 | 西安电子科技大学 | 基于特征映射和多层时间交互注意力的行为识别方法 |
CN112766177B (zh) * | 2021-01-22 | 2022-12-02 | 西安电子科技大学 | 基于特征映射和多层时间交互注意力的行为识别方法 |
CN112419321A (zh) * | 2021-01-25 | 2021-02-26 | 长沙理工大学 | X射线图像识别方法、装置、计算机设备及存储介质 |
CN112818843A (zh) * | 2021-01-29 | 2021-05-18 | 山东大学 | 基于通道注意力导向时间建模的视频行为识别方法及系统 |
CN114627427A (zh) * | 2022-05-18 | 2022-06-14 | 齐鲁工业大学 | 基于时空信息的跌倒检测方法、系统、存储介质及设备 |
CN116309590A (zh) * | 2023-05-22 | 2023-06-23 | 四川新迎顺信息技术股份有限公司 | 一种基于人工智能的视觉计算方法、系统、电子设备和介质 |
CN116309590B (zh) * | 2023-05-22 | 2023-08-04 | 四川新迎顺信息技术股份有限公司 | 一种基于人工智能的视觉计算方法、系统、电子设备和介质 |
CN116612537A (zh) * | 2023-07-21 | 2023-08-18 | 武汉理工大学 | 一种基于背景弱化及一致性计算的半监督动作检测方法 |
CN116612537B (zh) * | 2023-07-21 | 2023-10-03 | 武汉理工大学 | 一种基于背景弱化及一致性计算的半监督动作检测方法 |
CN117671594A (zh) * | 2023-12-08 | 2024-03-08 | 中化现代农业有限公司 | 安全监控方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110059662B (zh) | 2021-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110059662A (zh) | 一种深度视频行为识别方法及系统 | |
Nadeem et al. | Automatic human posture estimation for sport activity recognition with robust body parts detection and entropy markov model | |
Zhang et al. | Dynamic hand gesture recognition based on short-term sampling neural networks | |
Han et al. | CNNs-based RGB-D saliency detection via cross-view transfer and multiview fusion | |
Sharma et al. | Action recognition using visual attention | |
Lillo et al. | Discriminative hierarchical modeling of spatio-temporally composable human activities | |
CN104063719B (zh) | 基于深度卷积网络的行人检测方法及装置 | |
Pan et al. | Deepfake detection through deep learning | |
CN109460734B (zh) | 基于层次动态深度投影差值图像表示的视频行为识别方法及系统 | |
Liu et al. | Learning human pose models from synthesized data for robust RGB-D action recognition | |
CN110705463A (zh) | 基于多模态双流3d网络的视频人体行为识别方法及系统 | |
Pham et al. | Learning to recognise 3D human action from a new skeleton‐based representation using deep convolutional neural networks | |
CN112668366A (zh) | 图像识别方法、装置、计算机可读存储介质及芯片 | |
Ding et al. | Skeleton-based square grid for human action recognition with 3D convolutional neural network | |
CN114419732A (zh) | 基于注意力机制优化的HRNet人体姿态识别方法 | |
Chaabouni et al. | ChaboNet: Design of a deep CNN for prediction of visual saliency in natural video | |
Chalasani et al. | Egocentric gesture recognition for head-mounted ar devices | |
Sheeba et al. | Hybrid features-enabled dragon deep belief neural network for activity recognition | |
Xue et al. | Attention‐based spatial–temporal hierarchical ConvLSTM network for action recognition in videos | |
Su et al. | Monocular depth estimation using information exchange network | |
Tomas et al. | Human activity recognition using combined deep architectures | |
Yaseen et al. | A Novel Approach Based on Multi-Level Bottleneck Attention Modules Using Self-Guided Dropblock for Person Re-Identification | |
Yu | Deep learning methods for human action recognition | |
CN113449550A (zh) | 人体重识别数据处理的方法、人体重识别的方法和装置 | |
CN111339888A (zh) | 基于关节点运动图的双人交互行为识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20190726 Assignee: Shandong Ocean Group Technology Co.,Ltd. Assignor: SHANDONG University Contract record no.: X2024980000055 Denomination of invention: A method and system for deep video behavior recognition Granted publication date: 20210323 License type: Common License Record date: 20240104 |