CN109740419A - 一种基于Attention-LSTM网络的视频行为识别方法 - Google Patents

一种基于Attention-LSTM网络的视频行为识别方法 Download PDF

Info

Publication number
CN109740419A
CN109740419A CN201811397129.5A CN201811397129A CN109740419A CN 109740419 A CN109740419 A CN 109740419A CN 201811397129 A CN201811397129 A CN 201811397129A CN 109740419 A CN109740419 A CN 109740419A
Authority
CN
China
Prior art keywords
feature
module
frame
attention
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811397129.5A
Other languages
English (en)
Other versions
CN109740419B (zh
Inventor
陆生礼
庞伟
向丽苹
范雪梅
舒程昊
吴成路
阮小千
梁彪
邹涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanbao Sci & Tech Co Ltd Nanjing
Southeast University - Wuxi Institute Of Technology Integrated Circuits
Southeast University
Original Assignee
Sanbao Sci & Tech Co Ltd Nanjing
Southeast University - Wuxi Institute Of Technology Integrated Circuits
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanbao Sci & Tech Co Ltd Nanjing, Southeast University - Wuxi Institute Of Technology Integrated Circuits, Southeast University filed Critical Sanbao Sci & Tech Co Ltd Nanjing
Priority to CN201811397129.5A priority Critical patent/CN109740419B/zh
Publication of CN109740419A publication Critical patent/CN109740419A/zh
Application granted granted Critical
Publication of CN109740419B publication Critical patent/CN109740419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于Attention‑LSTM网络的视频行为识别方法。通过光流图序列生成模块对输入的RGB图序列进行变换,得到光流图序列;将光流图序列与原RGB图序列输入时域注意力取帧模块,分别选取两种图序列中非冗余的关键帧;将两种图的关键帧序列输入AlexNet网络特征提取模块,分别提取出两种帧图的时序特征和空间特征,通过特征分权加强模块,对最后一层卷积层输出的特征图执行加重与动作相关性强的特征权重的操作;将两个AlexNet网络特征提取模块输出的特征图输入LSTM网络行为识别模块,分别对两种图片进行识别,并将两种识别结果通过融合模块按比例融合,得到最终的视频行为识别结果。本发明不仅能实现从视频中识别行为的功能,且能提高识别的准确率。

Description

一种基于Attention-LSTM网络的视频行为识别方法
技术领域
本发明属于计算机视觉领域,特别涉及了一种基于Attention-LSTM网络的视频行为识别方法。
背景技术
智能视频分析是目前计算机视觉领域非常热,也是极具挑战的一个方向。智能视频分析方向包含众多的子研究方向,其中主要的两个研究方向为行为识别和行为检测。行为识别类似与图像的分类,主要解决“视频中的行为是什么”问题,给出一段只包含一个行为动作的修剪视频,要求给视频分类。行为检测(或定位)和目标检测一致,主要解决“视频中是否有相应的行为发生,如果有,则发生在视频帧序列的哪一段和在每一帧的什么位置”问题,这主要分两步完成,一是类似于目标检测中的候选区域提取,这步主要是从视频中找出可能含有动作的视频段;二是对该视频段进行分类。
行为分类研究在深度学习出现之前,表现最好的算法是iDT算法,其思路是利用光流场来获得视频序列中的一些轨迹,再沿着轨迹提取HOF,HOG,MBH,trajectory4中的特征,其中HOF是基于灰度图计算,另外几个均基于密集光流计算;再利用Fisher Vector方法对特征进行编码;最后基于编码训练结果训练SVM,随机森林等传统的机器学习分类器方法进行分类和最终结果的输出。深度学习问世后,实现了从特征提取到分类的端到端解决方案。Du Tran等人在二维的卷积核中引入时间维度,用三维的卷积核处理视频,实现端到端的训练,网络结构简单且速度快。因为视频除了空间维度外,最大的痛点是时间序列问题,基于RNN网络能很好处理序列问题,Du Wenbin等人提出的基于RNN的网络算法引入姿态监督的机制,提高了视频分类的效果。行为检测中最大的难点是定位存在行为动作的视频段。过去的行为检测方法多采用滑动窗口法,然而基于滑动窗口法的动作定位非常耗时,时间效率低。
发明内容
为了解决上述背景技术提出的技术问题,本发明提供一种基于Attention-LSTM网络的视频行为识别方法,实现对视频中目标行为的准确识别。
为了实现上述技术目的,本发明的技术方案为:
一种基于Attention-LSTM网络的视频行为识别方法,首先,通过光流图序列生成模块对输入的RGB图序列进行变换,得到光流图序列;其次,将得到的光流图序列与原RGB图序列输入时域注意力取帧模块,分别选取两种图序列中非冗余的关键帧;然后,将两种图的关键帧序列输入AlexNet网络特征提取模块,分别提取出两种帧图的时序特征和空间特征,同时,在AlexNet网络的最后一层卷积层与全连接层之间通过特征分权加强模块,对最后一层卷积层输出的特征图执行加重与动作相关性强的特征权重的操作;将两个AlexNet网络特征提取模块输出的特征图输入LSTM网络行为识别模块,分别对两种图片进行识别,并将两种识别结果通过融合模块按比例融合,得到最终的视频行为识别结果。
进一步地,所述光流图片序列生成模块生成的光流图与原RGB图的尺寸相同。
进一步地,所述时域注意力取帧模块采用注意力机制,计算序列图片之间的矢量距离,将距离小于设定阈值的帧图去除,则保留的帧图构成关键帧序列。
进一步地,所述AlexNet网络特征提取模块依次包括5层卷积层和1层全连接层,图片先经过前5层卷积层进行特征提取,再在第5层特征图上通过特征分权加强模块加大与动作相关部位的权重,将特征分布变化的特征图进行最后的全连接操作得到输出的高维特征图。
进一步地,将当前时刻帧图在经过AlexNet网络第5层卷积后的特征与上一时刻在经过LSTM网络的隐藏层特征共同作为输入送入特征分权加强模块,特征分权加强模块实现对两个特征矢量距离的计算,获得送入AlexNet网络全连接层输入的权重系数,将该权重系数与第5层卷积后的特征相乘得到的与动作有关的关键部位信息的特征送入AlexNet网络的全连接层,得到帧图的高维特征。
进一步地,所述特征分权加强模块利用一个神经网络实现,该神经网络的损失函数loss如下:
上式中,t为当前时刻帧图,T为一个行为的总时刻帧图,K为每个特征图上的特征值总数量,lt,i为该神经网络训练得到的权重系数值,是对一个行为的序列帧在一个像素点的值累加,是对所有像素点的值累加。
进一步地,在LSTM网络行为识别模块中,1个LSTM单元的输入是当前时刻帧图特征信息xt与上一时刻特征信息ht-1,利用输入门、遗忘门和输出门控制LSTM单元的输出;
所述输入门控制当前候选记忆单元特征的输入,输入门it如下:
it=f(Wixt+Uiht-1+bi)
上式中,f为激活函数,Wi、Ui、bi分别为输入门中xt、ht-1的权值系数和偏置;
所述遗忘门控制上一时刻记忆单元特征的输入,遗忘门ft如下:
ft=f(Wfxt+Ufht-1+bf)
上式中,Wf、Uf、bf分别为遗忘门中xt、ht-1的权值系数和偏置;
所述输出门控制融合了当前候选记忆单元特征与上一时刻记忆单元特征的当前记忆单元特征的输入,输出门如下:
ot=f(Woxt+Uoht-1+bo)
上式中,Wo、Uo、bo分别为输出门中xt、ht-1的权值系数和偏置;
当前候选记忆单元特征
上式中,Wc、Uc、bc分别为输出门中xt、ht-1的权值系数和偏置;
当前记忆单元特征ct
根据ct得到经过该LSTM单元的隐藏层信息ht
ht=ot·tanh(ct)
选择不同的卷积核信息得到多个LSTM隐藏单元,再经过全连接层和Softmax层送入融合模块。
采用上述技术方案带来的有益效果:
本发明通过运用基于深度学习的高效模型AlexNet和经典循环神经网络LSTM,结合注意力Attention机制得到Attention-LSTM网络,实现从视频中识别行为的功能,且能提高识别的准确率;此外,相较于卷积神经网络,循环神经网路LSTM加入了对时序信息的记录,可实现对动态行为的识别。本发明可应用在如检测出有人翻墙触发报警系统等安防场景下,或察觉并记录运动员等犯规操作等体育竞技场景下,或车辆行为异常检测抓拍,司机驾驶行为异常等交通管理场景下。
附图说明
图1是本发明的整体流程框图;
图2是本发明中AlexNet网络结构图;
图3是本发明中特征分权加强模块结构图。
具体实施方式
以下将结合附图,对本发明的技术方案进行详细说明。
一种基于Attention-LSTM网络的视频行为识别方法,如图1所示。首先,通过光流图序列生成模块对输入的RGB图序列进行变换,得到光流图序列;其次,将得到的光流图序列与原RGB图序列输入时域注意力取帧模块,分别选取两种图序列中非冗余的关键帧;然后,将两种图的关键帧序列输入AlexNet网络特征提取模块,分别提取出两种帧图的时序特征和空间特征,同时,在AlexNet网络的最后一层卷积层与全连接层之间通过特征分权加强模块,对最后一层卷积层输出的特征图执行加重与动作相关性强的特征权重的操作;将两个AlexNet网络特征提取模块输出的特征图输入LSTM网络行为识别模块,分别对两种图片进行识别,并将两种识别结果通过融合模块(Fsusion模块)按比例融合,得到最终的视频行为识别结果。
1、光流图序列生成模块
光流图片序列生成模块的核心算法是光流法。在空间中,运动可以用运动场描述。而在一个图像平面上,物体的运动往往是通过图像序列中不同图像灰度分布的不同体现的。空间中的运动场转移到图像上就表示为光流场,光流场反映了图像上每一点灰度的变化趋势。光流可以看作像素点在图像平面运动产生的瞬时速度场。光流场是图片中每个像素都有一个X方向和Y方向的位移,所以在光流计算结束后得到的光流是个和原来图像大小相等的双通道图像。
将视频以“一帧一图“的形式进行分解和保存,且每张图的输入尺寸一致。保存的图片为RGB图片,利用光流图片序列生成模块得到具有时间属性的光流图,一帧RGB图生成两帧光流图,融合两帧图片信息生成最终的光流图。分别整理保存RGB图和光流图,作为接下来的双通道输入。
2、时域注意力取帧模块
行为视频由连续帧图片序列组成,图片序列中存在许多描述动作变化的冗余图片,采用Attention注意力机制,计算此序列图片之间的矢量距离,将距离小于阈值的帧图去除,保留保持一定距离的图帧构成进入网络的关键帧序列。该序列的图帧能很好的保持动作的差异性、连续性和完整性。
3、AlexNet特征提取模块
传统AlexNet卷积神经网络是一个由5个卷积层和3个全连接层组成,该网络在ImageNet数据集上的分类效果较于传统的机器学习网络有很大的提高。在本发明中,如图2所示,Attention-LSTM网络采用AlexNet网络的前六层(Conv1~Conv5,FC6),将最后两层的全连接层删除,并改变全连接层的通道数,获得适应于行为识别的特殊的特征提取网络。图片输入该网络通过前5层的卷积层进行特征提取,得到代表原始图片信息的高维特征图,再在第5层特征图上实现空时注意力模块加大与动作相关部位的权重,将特征分布变化的特征图进行最后的全连接操作,获得代表图片高维特征送入LSTM网络。
4、特征分权加强模块
因为帧图中不同部位对行为实现的贡献不同,利用特有的特征分权加强机制实现对空间重要部位的关注。将当前时刻帧图在经过AlexNet网络第5层卷积后的特征与上一时刻在经过LSTM网络的隐藏层特征共同作为输入送入特征分权加强模块,特征分权加强模块实现对两个特征矢量距离的计算,获得送入AlexNet网络全连接层输入的权重系数,将该权重系数与第5层卷积后的特征相乘得到的与动作有关的关键部位信息的特征送入AlexNet网络的全连接层,得到帧图的高维特征,如图3所示。
特征分权加强模块利用一个神经网络实现,该神经网络的损失函数loss如下:
上式中,t为当前时刻帧图,T为一个行为的总时刻帧图,K为每个特征图上的特征值总数量,lt,i为该神经网络训练得到的权重系数值,是对一个行为的序列帧在一个像素点的值累加,是对所有像素点的值累加。只有当网络训练效果不错,即分权加权作用显著,在每个像素点的T时刻累加值越接近1,最终损失函数值也就会越小。该网络可以成功地实现对特征图和动作有关的重要位置加强关注,而不重要的位置弱化关注,从而实现网络准确率的提高。
5、LSTM行为识别模块
图片进行特征提取后,如果简单的加入分类层,最终的分类结果因为没有记录连续帧之间时序维度的连续性信息,将会在一定程度上降低最终的分类结果。所以,Attention-LSTM网络利用循环神经网络在时序上对上一帧信息的记录作用,将当前时刻的帧图特征和上一时刻帧图的特征一起送入LSTM网络,联合生成具有之前动作信息和当前动作信息的特征并实现最终的分类。LSTM网络是循环神经网络中的经典网络,1个LSTM单元的输入是当前时刻帧图特征信息xt与上一时刻特征信息ht-1,利用输入门、遗忘门和输出门控制LSTM单元的输出。输入门控制当前候选记忆单元特征的输入,输入门it如下:
it=f(Wixt+Uiht-1+bi)
上式中,f为激活函数,Wi、Ui、bi分别为输入门中xt、ht-1的权值系数和偏置。遗忘门控制上一时刻记忆单元特征的输入,遗忘门ft如下:
ft=f(Wfxt+Ufht-1+bf)
上式中,Wf、Uf、bf分别为遗忘门中xt、ht-1的权值系数和偏置。
输出门控制融合了当前候选记忆单元特征与上一时刻记忆单元特征的当前记忆单元特征的输入,输出门如下:
ot=f(Woxt+Uoht-1+bo)
上式中,Wo、Uo、bo分别为输出门中xt、ht-1的权值系数和偏置。
当前候选记忆单元特征
上式中,Wc、Uc、bc分别为输出门中xt、ht-1的权值系数和偏置;
当前记忆单元特征ct
根据ct得到经过该LSTM单元的隐藏层信息ht
ht=ot·tanh(ct)
选择不同的卷积核信息得到多个LSTM隐藏单元,再经过全连接层和Softmax层送入融合模块。
6、融合模块
Attention-LSTM网络只是分别形成了帧图的时间和空间上的识别。而Fusion模块则根据一定的机制,融合光流图和RGB图的结果。根据单独训练帧图的RGB图片和光流图片结果的对比,在Softmax层后,分配识别效果好的形式更高的融合权重,加权得到最终分类结果,也即该段视频中目标的行为判断结果。
实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (7)

1.一种基于Attention-LSTM网络的视频行为识别方法,其特征在于,首先,通过光流图序列生成模块对输入的RGB图序列进行变换,得到光流图序列;其次,将得到的光流图序列与原RGB图序列输入时域注意力取帧模块,分别选取两种图序列中非冗余的关键帧;然后,将两种图的关键帧序列输入AlexNet网络特征提取模块,分别提取出两种帧图的时序特征和空间特征,同时,在AlexNet网络的最后一层卷积层与全连接层之间通过特征分权加强模块,对最后一层卷积层输出的特征图执行加重与动作相关性强的特征权重的操作;将两个AlexNet网络特征提取模块输出的特征图输入LSTM网络行为识别模块,分别对两种图片进行识别,并将两种识别结果通过融合模块按比例融合,得到最终的视频行为识别结果。
2.根据权利要求1所述基于Attention-LSTM网络的视频行为识别方法,其特征在于,所述光流图片序列生成模块生成的光流图与原RGB图的尺寸相同。
3.根据权利要求1所述基于Attention-LSTM网络的视频行为识别方法,其特征在于,所述时域注意力取帧模块采用注意力机制,计算序列图片之间的矢量距离,将距离小于设定阈值的帧图去除,则保留的帧图构成关键帧序列。
4.根据权利要求1所述基于Attention-LSTM网络的视频行为识别方法,其特征在于,所述AlexNet网络特征提取模块依次包括5层卷积层和1层全连接层,图片先经过前5层卷积层进行特征提取,再在第5层特征图上通过特征分权加强模块加大与动作相关部位的权重,将特征分布变化的特征图进行最后的全连接操作得到输出的高维特征图。
5.根据权利要求4所述基于Attention-LSTM网络的视频行为识别方法,其特征在于,将当前时刻帧图在经过AlexNet网络第5层卷积后的特征与上一时刻在经过LSTM网络的隐藏层特征共同作为输入送入特征分权加强模块,特征分权加强模块实现对两个特征矢量距离的计算,获得送入AlexNet网络全连接层输入的权重系数,将该权重系数与第5层卷积后的特征相乘得到的与动作有关的关键部位信息的特征送入AlexNet网络的全连接层,得到帧图的高维特征。
6.根据权利要求5所述基于Attention-LSTM网络的视频行为识别方法,其特征在于,所述特征分权加强模块利用一个神经网络实现,该神经网络的损失函数loss如下:
上式中,t为当前时刻帧图,T为一个行为的总时刻帧图,K为每个特征图上的特征值总数量,lt,i为该神经网络训练得到的权重系数值,是对一个行为的序列帧在一个像素点的值累加,是对所有像素点的值累加。
7.根据权利要求1所述基于Attention-LSTM网络的视频行为识别方法,其特征在于,在LSTM网络行为识别模块中,1个LSTM单元的输入是当前时刻帧图特征信息xt与上一时刻特征信息ht-1,利用输入门、遗忘门和输出门控制LSTM单元的输出;
所述输入门控制当前候选记忆单元特征的输入,输入门it如下:
it=f(Wixt+Uiht-1+bi)
上式中,f为激活函数,Wi、Ui、bi分别为输入门中xt、ht-1的权值系数和偏置;
所述遗忘门控制上一时刻记忆单元特征的输入,遗忘门ft如下:
ft=f(Wfxt+Ufht-1+bf)
上式中,Wf、Uf、bf分别为遗忘门中xt、ht-1的权值系数和偏置;
所述输出门控制融合了当前候选记忆单元特征与上一时刻记忆单元特征的当前记忆单元特征的输入,输出门如下:
ot=f(Woxt+Uoht-1+bo)
上式中,Wo、Uo、bo分别为输出门中xt、ht-1的权值系数和偏置;
当前候选记忆单元特征
上式中,Wc、Uc、bc分别为输出门中xt、ht-1的权值系数和偏置;
当前记忆单元特征ct
根据ct得到经过该LSTM单元的隐藏层信息ht
ht=ot·tanh(ct)
选择不同的卷积核信息得到多个LSTM隐藏单元,再经过全连接层和Softmax层送入融合模块。
CN201811397129.5A 2018-11-22 2018-11-22 一种基于Attention-LSTM网络的视频行为识别方法 Active CN109740419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811397129.5A CN109740419B (zh) 2018-11-22 2018-11-22 一种基于Attention-LSTM网络的视频行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811397129.5A CN109740419B (zh) 2018-11-22 2018-11-22 一种基于Attention-LSTM网络的视频行为识别方法

Publications (2)

Publication Number Publication Date
CN109740419A true CN109740419A (zh) 2019-05-10
CN109740419B CN109740419B (zh) 2021-03-02

Family

ID=66357018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811397129.5A Active CN109740419B (zh) 2018-11-22 2018-11-22 一种基于Attention-LSTM网络的视频行为识别方法

Country Status (1)

Country Link
CN (1) CN109740419B (zh)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135386A (zh) * 2019-05-24 2019-08-16 长沙学院 一种基于深度学习的人体动作识别方法和系统
CN110222840A (zh) * 2019-05-17 2019-09-10 中山大学 一种基于注意力机制的集群资源预测方法和装置
CN110222653A (zh) * 2019-06-11 2019-09-10 中国矿业大学(北京) 一种基于图卷积神经网络的骨架数据行为识别方法
CN110245581A (zh) * 2019-05-25 2019-09-17 天津大学 一种基于深度学习和距离-多普勒序列的人体行为识别方法
CN110246160A (zh) * 2019-06-20 2019-09-17 腾讯科技(深圳)有限公司 视频目标的检测方法、装置、设备及介质
CN110287816A (zh) * 2019-06-05 2019-09-27 北京字节跳动网络技术有限公司 车门动作检测方法、装置和计算机可读存储介质
CN110287879A (zh) * 2019-06-26 2019-09-27 天津大学 一种基于注意力机制的视频行为识别方法
CN110287876A (zh) * 2019-06-25 2019-09-27 黑龙江电力调度实业有限公司 一种基于视频图像的内容识别方法
CN110458013A (zh) * 2019-07-05 2019-11-15 中国地质大学(武汉) 一种基于实例级注意机制的交通异常事件检测方法
CN110490136A (zh) * 2019-08-20 2019-11-22 电子科技大学 一种基于知识蒸馏的人体行为预测方法
CN110664412A (zh) * 2019-09-19 2020-01-10 天津师范大学 一种面向可穿戴传感器的人类活动识别方法
CN111079547A (zh) * 2019-11-22 2020-04-28 武汉大学 一种基于手机惯性传感器的行人移动方向识别方法
CN111144289A (zh) * 2019-12-26 2020-05-12 南京航空航天大学 一种针对视频中复杂人类行为的识别方法
CN111414876A (zh) * 2020-03-26 2020-07-14 西安交通大学 一种基于时序引导空间注意力的暴力行为识别方法
CN111476162A (zh) * 2020-04-07 2020-07-31 广东工业大学 一种操作命令生成方法、装置及电子设备和存储介质
CN111553467A (zh) * 2020-04-30 2020-08-18 陈永聪 一种实现通用人工智能的方法
CN111598844A (zh) * 2020-04-24 2020-08-28 理光软件研究所(北京)有限公司 一种图像分割方法、装置、电子设备和可读存储介质
CN111680602A (zh) * 2020-06-01 2020-09-18 华南理工大学 基于双流分级特征修正的行人重识别方法及模型架构
CN111914731A (zh) * 2020-07-28 2020-11-10 上海电力大学 一种基于自注意力机制的多模态lstm的视频动作预测方法
CN112001420A (zh) * 2020-07-24 2020-11-27 武汉安视感知科技有限公司 一种矿井工人钻杆智能计时计数方法、设备及存储设备
CN112016736A (zh) * 2020-07-29 2020-12-01 天津大学 基于门控卷积和注意力机制的光伏发电功率的控制方法
CN112061136A (zh) * 2020-08-26 2020-12-11 西北工业大学 基于长短期记忆网络的司机驾驶行为自动化分析方法
CN112241665A (zh) * 2019-07-18 2021-01-19 顺丰科技有限公司 一种暴力分拣识别方法、装置、设备及存储介质
CN112434608A (zh) * 2020-11-24 2021-03-02 山东大学 一种基于双流结合网络的人体行为识别方法及系统
CN112580559A (zh) * 2020-12-25 2021-03-30 山东师范大学 基于骨架特征和视频表征结合的双流视频行为识别方法
CN112698660A (zh) * 2020-12-31 2021-04-23 杭州电子科技大学 基于9轴传感器的驾驶行为视觉感知装置及方法
CN113010735A (zh) * 2019-12-20 2021-06-22 北京金山云网络技术有限公司 一种视频分类方法、装置、电子设备及存储介质
CN113111842A (zh) * 2021-04-26 2021-07-13 浙江商汤科技开发有限公司 一种动作识别方法、装置、设备及计算机可读存储介质
CN113609923A (zh) * 2021-07-13 2021-11-05 中国矿业大学 基于注意力的连续手语语句识别方法
CN114419524A (zh) * 2022-03-29 2022-04-29 之江实验室 一种基于伪光流辅助的视频分类方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080310734A1 (en) * 2007-06-18 2008-12-18 The Regents Of The University Of California High speed video action recognition and localization
US20110182469A1 (en) * 2010-01-28 2011-07-28 Nec Laboratories America, Inc. 3d convolutional neural networks for automatic human action recognition
CN103955671A (zh) * 2014-04-23 2014-07-30 浙江工业大学 基于快速判别公共向量算法的人体行为识别方法
CN106709461A (zh) * 2016-12-28 2017-05-24 中国科学院深圳先进技术研究院 基于视频的行为识别方法及装置
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
CN108280406A (zh) * 2017-12-30 2018-07-13 广州海昇计算机科技有限公司 一种基于分段双流模型的行为识别方法、系统及装置
CN108509880A (zh) * 2018-03-21 2018-09-07 南京邮电大学 一种视频人物行为语义识别方法
CN108549841A (zh) * 2018-03-21 2018-09-18 南京邮电大学 一种基于深度学习的老人跌倒行为的识别方法
CN108764050A (zh) * 2018-04-28 2018-11-06 中国科学院自动化研究所 基于角度无关性的骨架行为识别方法、系统及设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080310734A1 (en) * 2007-06-18 2008-12-18 The Regents Of The University Of California High speed video action recognition and localization
US20110182469A1 (en) * 2010-01-28 2011-07-28 Nec Laboratories America, Inc. 3d convolutional neural networks for automatic human action recognition
CN103955671A (zh) * 2014-04-23 2014-07-30 浙江工业大学 基于快速判别公共向量算法的人体行为识别方法
CN106709461A (zh) * 2016-12-28 2017-05-24 中国科学院深圳先进技术研究院 基于视频的行为识别方法及装置
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
CN108280406A (zh) * 2017-12-30 2018-07-13 广州海昇计算机科技有限公司 一种基于分段双流模型的行为识别方法、系统及装置
CN108509880A (zh) * 2018-03-21 2018-09-07 南京邮电大学 一种视频人物行为语义识别方法
CN108549841A (zh) * 2018-03-21 2018-09-18 南京邮电大学 一种基于深度学习的老人跌倒行为的识别方法
CN108764050A (zh) * 2018-04-28 2018-11-06 中国科学院自动化研究所 基于角度无关性的骨架行为识别方法、系统及设备

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
AMIN ULLAH 等: "Action Recognition in Video Sequences using Deep Bi-Directional LSTM With CNN Features", 《SPECIAL SECTION ON VISUAL SURVEILLANCE AND BIOMETRICS: PRACTICES,》 *
XIANG YAN 等: "Deep Keyframe Detection in Human Action Videos", 《ARXIV》 *
ZHENYANG LI 等: "VideoLSTM convolves, attends and flows for action recognition", 《COMPUTER VISION AND IMAGE UNDERSTANDING》 *
刘天亮 等: "融合空间-时间双网络流和视觉注意的人体行为识别", 《电子与信息学报》 *
毛志强 等: "基于时空双流卷积与 LSTM 的人体动作识别", 《软件》 *
葛瑞 等: "基于多层卷积神经网络特征和双向长短时记忆单元的行为识别", 《控制理论与应用》 *

Cited By (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222840A (zh) * 2019-05-17 2019-09-10 中山大学 一种基于注意力机制的集群资源预测方法和装置
CN110222840B (zh) * 2019-05-17 2023-05-05 中山大学 一种基于注意力机制的集群资源预测方法和装置
CN110135386A (zh) * 2019-05-24 2019-08-16 长沙学院 一种基于深度学习的人体动作识别方法和系统
CN110245581B (zh) * 2019-05-25 2023-04-07 天津大学 一种基于深度学习和距离-多普勒序列的人体行为识别方法
CN110245581A (zh) * 2019-05-25 2019-09-17 天津大学 一种基于深度学习和距离-多普勒序列的人体行为识别方法
CN110287816B (zh) * 2019-06-05 2021-12-28 北京字节跳动网络技术有限公司 车门动作检测方法、装置和计算机可读存储介质
CN110287816A (zh) * 2019-06-05 2019-09-27 北京字节跳动网络技术有限公司 车门动作检测方法、装置和计算机可读存储介质
CN110222653B (zh) * 2019-06-11 2020-06-16 中国矿业大学(北京) 一种基于图卷积神经网络的骨架数据行为识别方法
CN110222653A (zh) * 2019-06-11 2019-09-10 中国矿业大学(北京) 一种基于图卷积神经网络的骨架数据行为识别方法
CN110246160A (zh) * 2019-06-20 2019-09-17 腾讯科技(深圳)有限公司 视频目标的检测方法、装置、设备及介质
CN110246160B (zh) * 2019-06-20 2022-12-06 腾讯科技(深圳)有限公司 视频目标的检测方法、装置、设备及介质
CN110287876A (zh) * 2019-06-25 2019-09-27 黑龙江电力调度实业有限公司 一种基于视频图像的内容识别方法
CN110287879A (zh) * 2019-06-26 2019-09-27 天津大学 一种基于注意力机制的视频行为识别方法
CN110458013B (zh) * 2019-07-05 2022-05-06 中国地质大学(武汉) 一种基于实例级注意机制的交通异常事件检测方法
CN110458013A (zh) * 2019-07-05 2019-11-15 中国地质大学(武汉) 一种基于实例级注意机制的交通异常事件检测方法
CN112241665A (zh) * 2019-07-18 2021-01-19 顺丰科技有限公司 一种暴力分拣识别方法、装置、设备及存储介质
CN110490136A (zh) * 2019-08-20 2019-11-22 电子科技大学 一种基于知识蒸馏的人体行为预测方法
CN110664412A (zh) * 2019-09-19 2020-01-10 天津师范大学 一种面向可穿戴传感器的人类活动识别方法
CN111079547A (zh) * 2019-11-22 2020-04-28 武汉大学 一种基于手机惯性传感器的行人移动方向识别方法
CN113010735A (zh) * 2019-12-20 2021-06-22 北京金山云网络技术有限公司 一种视频分类方法、装置、电子设备及存储介质
CN113010735B (zh) * 2019-12-20 2024-03-08 北京金山云网络技术有限公司 一种视频分类方法、装置、电子设备及存储介质
CN111144289A (zh) * 2019-12-26 2020-05-12 南京航空航天大学 一种针对视频中复杂人类行为的识别方法
CN111144289B (zh) * 2019-12-26 2024-03-22 南京航空航天大学 一种针对视频中复杂人类行为的识别方法
CN111414876A (zh) * 2020-03-26 2020-07-14 西安交通大学 一种基于时序引导空间注意力的暴力行为识别方法
CN111476162A (zh) * 2020-04-07 2020-07-31 广东工业大学 一种操作命令生成方法、装置及电子设备和存储介质
CN111598844B (zh) * 2020-04-24 2024-05-07 理光软件研究所(北京)有限公司 一种图像分割方法、装置、电子设备和可读存储介质
CN111598844A (zh) * 2020-04-24 2020-08-28 理光软件研究所(北京)有限公司 一种图像分割方法、装置、电子设备和可读存储介质
CN111553467A (zh) * 2020-04-30 2020-08-18 陈永聪 一种实现通用人工智能的方法
CN111680602A (zh) * 2020-06-01 2020-09-18 华南理工大学 基于双流分级特征修正的行人重识别方法及模型架构
CN112001420B (zh) * 2020-07-24 2022-09-09 武汉安视感知科技有限公司 一种矿井工人钻杆智能计时计数方法、设备及存储设备
CN112001420A (zh) * 2020-07-24 2020-11-27 武汉安视感知科技有限公司 一种矿井工人钻杆智能计时计数方法、设备及存储设备
CN111914731B (zh) * 2020-07-28 2024-01-23 上海电力大学 一种基于自注意力机制的多模态lstm的视频动作预测方法
CN111914731A (zh) * 2020-07-28 2020-11-10 上海电力大学 一种基于自注意力机制的多模态lstm的视频动作预测方法
CN112016736A (zh) * 2020-07-29 2020-12-01 天津大学 基于门控卷积和注意力机制的光伏发电功率的控制方法
CN112016736B (zh) * 2020-07-29 2023-08-01 天津大学 基于门控卷积和注意力机制的光伏发电功率的控制方法
CN112061136A (zh) * 2020-08-26 2020-12-11 西北工业大学 基于长短期记忆网络的司机驾驶行为自动化分析方法
CN112434608B (zh) * 2020-11-24 2023-02-28 山东大学 一种基于双流结合网络的人体行为识别方法及系统
CN112434608A (zh) * 2020-11-24 2021-03-02 山东大学 一种基于双流结合网络的人体行为识别方法及系统
CN112580559A (zh) * 2020-12-25 2021-03-30 山东师范大学 基于骨架特征和视频表征结合的双流视频行为识别方法
CN112698660B (zh) * 2020-12-31 2022-05-27 杭州电子科技大学 基于9轴传感器的驾驶行为视觉感知装置及方法
CN112698660A (zh) * 2020-12-31 2021-04-23 杭州电子科技大学 基于9轴传感器的驾驶行为视觉感知装置及方法
CN113111842B (zh) * 2021-04-26 2023-06-27 浙江商汤科技开发有限公司 一种动作识别方法、装置、设备及计算机可读存储介质
CN113111842A (zh) * 2021-04-26 2021-07-13 浙江商汤科技开发有限公司 一种动作识别方法、装置、设备及计算机可读存储介质
CN113609923A (zh) * 2021-07-13 2021-11-05 中国矿业大学 基于注意力的连续手语语句识别方法
CN114419524B (zh) * 2022-03-29 2022-08-05 之江实验室 一种基于伪光流辅助的视频分类方法及系统
CN114419524A (zh) * 2022-03-29 2022-04-29 之江实验室 一种基于伪光流辅助的视频分类方法及系统

Also Published As

Publication number Publication date
CN109740419B (zh) 2021-03-02

Similar Documents

Publication Publication Date Title
CN109740419A (zh) 一种基于Attention-LSTM网络的视频行为识别方法
CN109389055B (zh) 基于混合卷积和注意力机制的视频分类方法
CN108830252B (zh) 一种融合全局时空特征的卷积神经网络人体动作识别方法
CN110458844B (zh) 一种低光照场景的语义分割方法
CN110781838B (zh) 一种复杂场景下行人的多模态轨迹预测方法
CN108830157A (zh) 基于注意力机制和3d卷积神经网络的人体行为识别方法
Minhas et al. Incremental learning in human action recognition based on snippets
CN110210551A (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN110097028B (zh) 基于三维金字塔图像生成网络的人群异常事件检测方法
Brahmbhatt et al. StuffNet: Using ‘Stuff’to improve object detection
CN106650617A (zh) 一种基于概率潜在语义分析的行人异常识别方法
CN112528891A (zh) 一种基于骨架信息的双向lstm-cnn的视频行为识别方法
WO2023030182A1 (zh) 图像生成方法及装置
CN111126223A (zh) 基于光流引导特征的视频行人再识别方法
CN111523378A (zh) 一种基于深度学习的人体行为预测方法
CN113065645A (zh) 孪生注意力网络、图像处理方法和装置
CN116343330A (zh) 一种红外-可见光图像融合的异常行为识别方法
CN109447014A (zh) 一种基于双通道卷积神经网络的视频在线行为检测方法
CN112036379A (zh) 基于注意力时间池化图卷积的骨架动作识别方法
CN113688761A (zh) 一种基于图像序列的行人行为类别检测方法
CN113420703A (zh) 基于多尺度特征提取和多注意力机制建模的动态面部表情识别方法
Zhu et al. Tracking multiple objects through occlusion with online sampling and position estimation
Hou et al. A survey of efficient deep learning models for moving object segmentation
Du et al. Adaptive visual interaction based multi-target future state prediction for autonomous driving vehicles

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant