CN110135386A - 一种基于深度学习的人体动作识别方法和系统 - Google Patents
一种基于深度学习的人体动作识别方法和系统 Download PDFInfo
- Publication number
- CN110135386A CN110135386A CN201910437636.5A CN201910437636A CN110135386A CN 110135386 A CN110135386 A CN 110135386A CN 201910437636 A CN201910437636 A CN 201910437636A CN 110135386 A CN110135386 A CN 110135386A
- Authority
- CN
- China
- Prior art keywords
- light stream
- module
- residual error
- network model
- video sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的人体动作识别方法,包括:获取视频序列中的连续两帧图像,将该连续两帧图像输入已训练的人体动作识别模型中,以得到人体动作识别结果,人体动作识别模型是通过以下步骤生成:获取数据集中视频序列中的连续两帧图像,利用光流提取方法从获取的连续两帧图像中提取光流图像,对视频序列中所有剩余帧,重复执行上述过程,将视频序列和光流图像序列平均分成T段,从视频序列的每一段中提取单帧图像,并从光流图像序列的每一段中提取连续的L帧光流图像。本发明能够解决现有人体动作识别方法中由于提取网络的深度较浅以及没有考虑特征之间的时序关系,会导致提取的特征不利于分类、识别准确率低的技术问题。
Description
技术领域
本发明属于深度学习技术领域,更具体地,涉及一种基于深度学习的人体动作识别方法和系统。
背景技术
传统的人体动作识别是将生物传感器或者力学传感器等采集设备加装到人的身上,是一种接触式的动作检测方法,会给人带来反感或者疲惫感。随着技术的发展,这种识别模式已逐渐被基于图像的识别方法所替代。
深度学习的提出使得机器学习取得突破性的进展,也为人体动作识别带来了新的发展方向。不同于传统的识别方法,深度学习能够自动地从低层次的特征中学习出高层次的特征,解决了特征选取过于依赖任务本身和调整过程耗时长的问题。
双流(Two-Stream)卷积神经网络模型是现有基于深度学习的人体动作识别方法中一种广泛使用的方法,其通过效仿人体视觉过程,对视频信息理解,在处理视频图像中的环境空间信息的基础上,对视频帧序列中的时序信息进行理解,为了更好地对这些信息进行理解,双流卷积神经网络将异常行为分类任务分为两个不同的部分。单独的视频单帧作为表述空间信息的载体,其中包含环境、视频中的物体等空间信息,称为空间信息网络;另外,光流信息作为时序信息的载体输入到另外一个卷积神经网络中,用来理解动作的动态特征,称为时间信息网络。
然而,现有的双流卷积神经网络模型存在一些不可忽略的技术问题:第一、其特征提取网络的深度较浅,这可能会导致提取的特征不利于分类,识别准确率低;第二、其没有考虑特征之间的时序关系,也会导致分类的结果不佳,进一步降低识别的准确率。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于深度学习的人体动作识别方法和系统,其目的在于,解决现有人体动作识别方法中由于提取网络的深度较浅以及没有考虑特征之间的时序关系,会导致提取的特征不利于分类、识别准确率低的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于深度学习的人体动作识别方法,包括以下步骤:
(1)获取视频序列中的连续两帧图像;
(2)将该连续两帧图像输入已训练的人体动作识别模型中,以得到人体动作识别结果。
优选地,所述人体动作识别模型是通过以下步骤生成:
(1)获取数据集中视频序列中的连续两帧图像,利用光流提取方法从获取的连续两帧图像中提取光流图像;
(2)对视频序列中所有剩余帧,重复执行上述过程,从而得到光流图像序列,将视频序列和光流图像序列平均分成T段,从视频序列的每一段中提取单帧图像,并从光流图像序列的每一段中提取连续的L帧光流图像;其中T和L都是自然数。
(3)将步骤(2)从视频序列的每一段中提取的单帧图像和L帧光流图像分别输入到空间流残差网络模型和时间流残差网络模型中,以分别获取多个外观特征和多个运动特征,将多个外观特征按照其对应的多个单帧图像在视频序列中出现的时间先后顺序进行排列,从而形成外观特征集合,将多个运动特征按照其对应的多个光流图像在光流图像序列中出现的时间先后顺序进行排列,从而形成运动特征集合;
(4)将步骤(3)中得到的外观特征集合中的所有外观特征进行融合,从而得到融合的外观特征,并将步骤(3)中得到的运动特征集合中的所有运动特征进行融合,从而得到融合的运动特征;
(5)将步骤(4)得到的融合的外观特征和融合的运动特征分别输入到与多层感知机的输出相连的Softmax层进行归一化,以分别输出外观分类结果和运动分类结果;
(6)根据步骤(5)输出的外观分类结果和运动分类结果分别计算其对应的损失值;
(7)根据步骤(6)得到的损失值调整空间流残差网络模型、时间流残差网络模型、以及步骤(4)中融合过程中使用的全连接层和多层感知机的参数;
(8)重复上述步骤(1)到(7),当达到迭代次数阈值的时候,将最终得到的外观分类结果和运动分类结果进行融合,过程结束。
优选地,光流提取方法是采用TV-L1方法。
优选地,步骤(3)中的空间流残差网络模型和时间流残差网络模型都被在ImageNet数据集上预训练过的残差网络进行过初始化;
空间流残差网络模型和时间流残差网络模型的基础网络采取ResNet网络,其网络层数可以是34层、50层、或101层。
时间流残差网络模型和空间流残差网络模型的最后一层使用高随机失活率为P的随机失活层,P可以为0.5、0.7、或0.8。
优选地,针对外观特征融合而言,步骤(4)首先将外观特征集合中的所有外观特征逐一通过与空间流残差网络模型的输出相连的全连接层分别映射为一个固定长度V的特征向量,然后将所有长度为V的特征向量进行级联融合,随后将级联后的特征输入到多层感知机中聚合,从而得到融合的外观特征,多层感知机层数C和每层隐含节点数为Ci,其中C为1,Ci为512,V等于256;
针对运动特征融合而言,步骤(4)就是按照平均方式对运动特征集合中的所有运动特征进行聚合,从而得到融合的运动特征。
优选地,针对外观分类结果而言,是使用以下公式计算其对应的损失值:
Loss(pt)=-αt(1-pt)γlogpt
其中pt表示外观分类结果,αt表示权重,其取值为1,γ为聚焦参数,其为1至5之间的任意自然数;
针对运动分类结果而言,其对应的损失值就是其交叉熵损失值。
优选地,步骤(8)中采用的融合方式为加权融合,外观分类结果对应的空间流残差网络模型和运动分类结果对应的时间流残差网络模型之间的融合比例为1:1、1:1.1、1:1.2、或1:1.5。
按照本发明的另一方面,提供了一种基于深度学习的人体动作识别系统,包括:
第一模块,用于获取视频序列中的连续两帧图像;
第二模块,用于将该连续两帧图像输入已训练的人体动作识别模型中,以得到人体动作识别结果。
优选地,所述人体动作识别模型是通过以下模块生成:
第三模块,用于获取数据集中视频序列中的连续两帧图像,利用光流提取方法从获取的连续两帧图像中提取光流图像;
第四模块,用于对视频序列中所有剩余帧,重复执行上述过程,从而得到光流图像序列,将视频序列和光流图像序列平均分成T段,从视频序列的每一段中提取单帧图像,并从光流图像序列的每一段中提取连续的L帧光流图像;其中T和L都是自然数。
第五模块,用于将第四模块从视频序列的每一段中提取的单帧图像和L帧光流图像分别输入到空间流残差网络模型和时间流残差网络模型中,以分别获取多个外观特征和多个运动特征,将多个外观特征按照其对应的多个单帧图像在视频序列中出现的时间先后顺序进行排列,从而形成外观特征集合,将多个运动特征按照其对应的多个光流图像在光流图像序列中出现的时间先后顺序进行排列,从而形成运动特征集合;
第六模块,用于将第五模块得到的外观特征集合中的所有外观特征进行融合,从而得到融合的外观特征,并将第五模块得到的运动特征集合中的所有运动特征进行融合,从而得到融合的运动特征;
第七模块,用于将第六模块得到的融合的外观特征和融合的运动特征分别输入到与多层感知机的输出相连的Softmax层进行归一化,以分别输出外观分类结果和运动分类结果;
第八模块,用于根据第七模块输出的外观分类结果和运动分类结果分别计算其对应的损失值;
第九模块,用于根据第八模块得到的损失值调整空间流残差网络模型、时间流残差网络模型、以及第六模块融合过程中使用的全连接层和多层感知机的参数;
第十模块,用于重复上述第三模块到第九模块,当达到迭代次数阈值的时候,将最终得到的外观分类结果和运动分类结果进行融合,过程结束。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)由于本发明中使用了多层ResNet网络,其深度比现有双流卷积神经网络模型深,提取的特征更有利于后续的分类过程,从而能保证较高的识别准确率;
(2)由于本发明采用了步骤(3)对外观特征和运动特征进行排序,后续使用排序后的多个外观特征进行了融合操作,并使用排序后的多个运动特征进行了融合操作,从而能够保证得到较好的分类结果,由此进一步保证较高的识别准确率。
附图说明
图1是本发明基于深度学习的人体动作识别方法的流程图;
图2是本发明人体动作识别模型的生成过程的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,本发明基于深度学习的人体动作识别方法包括:获取视频序列中的连续两帧图像,并将该连续两帧图像输入已训练的人体动作识别模型中,以得到人体动作识别结果,其中人体动作识别模型是通过以下步骤生成的(如图2所示):
(1)获取数据集中视频序列中的连续两帧图像,利用光流提取方法从获取的连续两帧图像中提取光流图像;
具体而言,本发明中的光流提取方法是TV-L1方法。
(2)对视频序列中所有剩余帧,重复执行上述过程,从而得到光流图像序列,将视频序列和光流图像序列平均分成T段,从视频序列的每一段中提取单帧图像,并从光流图像序列的每一段中提取连续的L帧光流图像;其中T和L都是自然数,且T的取值小于或等于视频序列的总帧数,L的取值小于或等于(视频序列的总帧数/T)。
举例而言,加入视频序列的总帧数是100,本步骤将视频时序分成T=5段,从光流图像序列的每一段中提取的连续的光流图像的数量L为5,每张光流图像包含x和y两个方向。
(3)将步骤(2)从视频序列的每一段中提取的单帧图像和L帧光流图像分别输入到空间流残差网络模型和时间流残差网络模型中,以分别获取多个外观特征和多个运动特征,将多个外观特征按照其对应的多个单帧图像在视频序列中出现的时间先后顺序进行排列,从而形成外观特征集合,将多个运动特征按照其对应的多个光流图像在光流图像序列中出现的时间先后顺序进行排列,从而形成运动特征集合;
具体而言,本步骤中空间流残差网络模型和时间流残差网络模型都被在ImageNet数据集上预训练过的残差网络进行过初始化。
具体而言,使用的空间流残差网络模型和时间流残差网络模型的基础网络采取ResNet网络,本发明采用的网络层数可以是34层、50层、或101层,在本步骤中,优选使用的是ResNet-101用于特征提取。
为了能够避免神经网络训练过拟合,时间流残差网络模型和空间流残差网络模型的最后一层使用高随机失活率为P的随机失活层,P可以选取为0.5、0.7、或0.8,优选地,本步骤中空间流残差网络模型的P等于0.8,时间流残差网络模型的P等于0.7。
(4)将步骤(3)中得到的外观特征集合中的所有外观特征进行融合,从而得到融合的外观特征,并将步骤(3)中得到的运动特征集合中的所有运动特征进行融合,从而得到融合的运动特征;
具体而言,针对外观特征融合而言,首先将外观特征集合中的所有外观特征逐一通过与空间流残差网络模型的输出相连的全连接层分别映射为一个固定长度V的特征向量(本步骤中选取的V等于256),然后将所有长度为V的特征向量进行级联融合,随后将级联后的特征输入到多层感知机中聚合,从而得到融合的外观特征,多层感知机层数C和每层隐含节点数为Ci(其中C和Ci为自然数),本步骤中选取C为1,Ci为512。
针对运动特征融合而言,按照平均方式对运动特征集合中的所有运动特征进行聚合,从而得到融合的运动特征。
(5)将步骤(4)得到的融合的外观特征和融合的运动特征分别输入到与多层感知机的输出相连的Softmax层进行归一化,以分别输出外观分类结果和运动分类结果;
(6)根据步骤(5)输出的外观分类结果和运动分类结果分别计算其对应的损失值;
具体而言,针对外观分类结果而言,是使用以下公式计算其对应的损失值:
Loss(pt)=-αt(1-pt)γlogpt
其中pt表示外观分类结果,αt是权重,其取值为1,γ为聚焦参数,其可以设定为1至5之间的任意自然数,优选为2。
针对运动分类结果而言,其对应的损失值就是其交叉熵损失值。
(7)根据步骤(6)得到的损失值调整空间流残差网络模型、时间流残差网络模型、以及步骤(4)中融合过程中使用的全连接层和多层感知机的参数;
(8)重复上述步骤(1)到(7),当达到迭代次数阈值的时候,将最终得到的外观分类结果和运动分类结果进行融合,过程结束;
在本发明中,迭代次数的阈值为340次。
本步骤中采用的融合方式为加权融合,外观分类结果对应的空间流残差网络模型和运动分类结果对应的时间流残差网络模型之间的融合比例可以为1:1、1:1.1、1:1.2、或1:1.5,优选为1:1.1。
将本发明与现有的传统方法和神经网络方法如稠密轨迹特征(DenseTrajectories,简称DT),改进稠密轨迹特征(Improved Dense Trajectories,简称iDT),轨迹汇集深度卷积描述符(Trajectory-pooled Deep-convolutional Descriptors,简称TDDs)长时递归卷积神经网络(Long-term Recurrent Convolutional Network,简称LRCN)、双流卷积神经网络(Two-Stream),双流卷积融合网络(Two-Stream Fusion),深层双流卷积神经网络(Deep Two-Stream)等方法对比,得到以下表1,从表1可以看出,本发明的方法在UCF101数据集上的准确率为94.1%,总体来说,本方法能够实现较好的人体动作识别效果。
表1准确率比较
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于深度学习的人体动作识别方法,其特征在于,包括以下步骤:
(1)获取视频序列中的连续两帧图像;
(2)将该连续两帧图像输入已训练的人体动作识别模型中,以得到人体动作识别结果。
2.根据权利要求1所述的人体动作识别方法,其特征在于,所述人体动作识别模型是通过以下步骤生成:
(1)获取数据集中视频序列中的连续两帧图像,利用光流提取方法从获取的连续两帧图像中提取光流图像;
(2)对视频序列中所有剩余帧,重复执行上述过程,从而得到光流图像序列,将视频序列和光流图像序列平均分成T段,从视频序列的每一段中提取单帧图像,并从光流图像序列的每一段中提取连续的L帧光流图像;其中T和L都是自然数。
(3)将步骤(2)从视频序列的每一段中提取的单帧图像和L帧光流图像分别输入到空间流残差网络模型和时间流残差网络模型中,以分别获取多个外观特征和多个运动特征,将多个外观特征按照其对应的多个单帧图像在视频序列中出现的时间先后顺序进行排列,从而形成外观特征集合,将多个运动特征按照其对应的多个光流图像在光流图像序列中出现的时间先后顺序进行排列,从而形成运动特征集合;
(4)将步骤(3)中得到的外观特征集合中的所有外观特征进行融合,从而得到融合的外观特征,并将步骤(3)中得到的运动特征集合中的所有运动特征进行融合,从而得到融合的运动特征;
(5)将步骤(4)得到的融合的外观特征和融合的运动特征分别输入到与多层感知机的输出相连的Softmax层进行归一化,以分别输出外观分类结果和运动分类结果;
(6)根据步骤(5)输出的外观分类结果和运动分类结果分别计算其对应的损失值;
(7)根据步骤(6)得到的损失值调整空间流残差网络模型、时间流残差网络模型、以及步骤(4)中融合过程中使用的全连接层和多层感知机的参数;
(8)重复上述步骤(1)到(7),当达到迭代次数阈值的时候,将最终得到的外观分类结果和运动分类结果进行融合,过程结束。
3.根据权利要求2所述的人体动作识别方法,其特征在于,光流提取方法是采用TV-L1方法。
4.根据权利要求2所述的人体动作识别方法,其特征在于,步骤(3)中的空间流残差网络模型和时间流残差网络模型都被在ImageNet数据集上预训练过的残差网络进行过初始化;
空间流残差网络模型和时间流残差网络模型的基础网络采取ResNet网络,其网络层数可以是34层、50层、或101层。
时间流残差网络模型和空间流残差网络模型的最后一层使用高随机失活率为P的随机失活层,P可以为0.5、0.7、或0.8。
5.根据权利要求4所述的人体动作识别方法,其特征在于,
针对外观特征融合而言,步骤(4)首先将外观特征集合中的所有外观特征逐一通过与空间流残差网络模型的输出相连的全连接层分别映射为一个固定长度V的特征向量,然后将所有长度为V的特征向量进行级联融合,随后将级联后的特征输入到多层感知机中聚合,从而得到融合的外观特征,多层感知机层数C和每层隐含节点数为Ci,其中C为1,Ci为512,V等于256;
针对运动特征融合而言,步骤(4)就是按照平均方式对运动特征集合中的所有运动特征进行聚合,从而得到融合的运动特征。
6.根据权利要求5所述的人体动作识别方法,其特征在于,
针对外观分类结果而言,是使用以下公式计算其对应的损失值:
Loss(pt)=-αt(1-pt)γlog pt
其中pt表示外观分类结果,αt表示权重,其取值为1,γ为聚焦参数,其为1至5之间的任意自然数;
针对运动分类结果而言,其对应的损失值就是其交叉熵损失值。
7.根据权利要求6所述的人体动作识别方法,其特征在于,步骤(8)中采用的融合方式为加权融合,外观分类结果对应的空间流残差网络模型和运动分类结果对应的时间流残差网络模型之间的融合比例为1:1、1:1.1、1:1.2、或1:1.5。
8.一种基于深度学习的人体动作识别系统,其特征在于,包括:
第一模块,用于获取视频序列中的连续两帧图像;
第二模块,用于将该连续两帧图像输入已训练的人体动作识别模型中,以得到人体动作识别结果。
9.根据权利要求8所述的人体动作识别系统,其特征在于,所述人体动作识别模型是通过以下模块生成:
第三模块,用于获取数据集中视频序列中的连续两帧图像,利用光流提取方法从获取的连续两帧图像中提取光流图像;
第四模块,用于对视频序列中所有剩余帧,重复执行上述过程,从而得到光流图像序列,将视频序列和光流图像序列平均分成T段,从视频序列的每一段中提取单帧图像,并从光流图像序列的每一段中提取连续的L帧光流图像;其中T和L都是自然数。
第五模块,用于将第四模块从视频序列的每一段中提取的单帧图像和L帧光流图像分别输入到空间流残差网络模型和时间流残差网络模型中,以分别获取多个外观特征和多个运动特征,将多个外观特征按照其对应的多个单帧图像在视频序列中出现的时间先后顺序进行排列,从而形成外观特征集合,将多个运动特征按照其对应的多个光流图像在光流图像序列中出现的时间先后顺序进行排列,从而形成运动特征集合;
第六模块,用于将第五模块得到的外观特征集合中的所有外观特征进行融合,从而得到融合的外观特征,并将第五模块得到的运动特征集合中的所有运动特征进行融合,从而得到融合的运动特征;
第七模块,用于将第六模块得到的融合的外观特征和融合的运动特征分别输入到与多层感知机的输出相连的Softmax层进行归一化,以分别输出外观分类结果和运动分类结果;
第八模块,用于根据第七模块输出的外观分类结果和运动分类结果分别计算其对应的损失值;
第九模块,用于根据第八模块得到的损失值调整空间流残差网络模型、时间流残差网络模型、以及第六模块融合过程中使用的全连接层和多层感知机的参数;
第十模块,用于重复上述第三模块到第九模块,当达到迭代次数阈值的时候,将最终得到的外观分类结果和运动分类结果进行融合,过程结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910437636.5A CN110135386B (zh) | 2019-05-24 | 2019-05-24 | 一种基于深度学习的人体动作识别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910437636.5A CN110135386B (zh) | 2019-05-24 | 2019-05-24 | 一种基于深度学习的人体动作识别方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110135386A true CN110135386A (zh) | 2019-08-16 |
CN110135386B CN110135386B (zh) | 2021-09-03 |
Family
ID=67573083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910437636.5A Active CN110135386B (zh) | 2019-05-24 | 2019-05-24 | 一种基于深度学习的人体动作识别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110135386B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178443A (zh) * | 2019-12-31 | 2020-05-19 | 东软集团股份有限公司 | 模型参数选择、图像分类、信息识别方法及装置、设备 |
CN111666852A (zh) * | 2020-05-28 | 2020-09-15 | 天津大学 | 一种基于卷积神经网络的微表情双流网络识别方法 |
CN111680602A (zh) * | 2020-06-01 | 2020-09-18 | 华南理工大学 | 基于双流分级特征修正的行人重识别方法及模型架构 |
CN112417989A (zh) * | 2020-10-30 | 2021-02-26 | 四川天翼网络服务有限公司 | 一种监考人员违规行为识别方法及系统 |
CN112668431A (zh) * | 2020-12-22 | 2021-04-16 | 山东师范大学 | 基于外观-运动融合网络的人群异常行为检测方法及系统 |
CN112991174A (zh) * | 2021-03-13 | 2021-06-18 | 长沙学院 | 一种提高单帧红外图像分辨率的方法与系统 |
CN114220175A (zh) * | 2021-12-17 | 2022-03-22 | 广州津虹网络传媒有限公司 | 运动模式识别方法及其装置、设备、介质、产品 |
CN114897955A (zh) * | 2022-04-25 | 2022-08-12 | 电子科技大学 | 一种基于可微几何传播的深度补全方法 |
Citations (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1345174A1 (en) * | 2002-03-12 | 2003-09-17 | Eidgenossisch Technische Hochschule Zurich | Method and apparatus for visual motion recognition |
CN105550699A (zh) * | 2015-12-08 | 2016-05-04 | 北京工业大学 | 一种基于cnn融合时空显著信息的视频识别分类方法 |
CN105678216A (zh) * | 2015-12-21 | 2016-06-15 | 中国石油大学(华东) | 基于深度学习的时空数据流视频行为识别方法 |
CN105787458A (zh) * | 2016-03-11 | 2016-07-20 | 重庆邮电大学 | 基于人工设计特征和深度学习特征自适应融合的红外行为识别方法 |
CN106407889A (zh) * | 2016-08-26 | 2017-02-15 | 上海交通大学 | 基于光流图深度学习模型在视频中人体交互动作识别方法 |
CN106650655A (zh) * | 2016-12-16 | 2017-05-10 | 北京工业大学 | 一种基于卷积神经网络的动作检测模型 |
US20170132785A1 (en) * | 2015-11-09 | 2017-05-11 | Xerox Corporation | Method and system for evaluating the quality of a surgical procedure from in-vivo video |
US20170228618A1 (en) * | 2014-10-24 | 2017-08-10 | Huawei Technologies Co., Ltd. | Video classification method and apparatus |
US20170262995A1 (en) * | 2016-03-11 | 2017-09-14 | Qualcomm Incorporated | Video analysis with convolutional attention recurrent neural networks |
EP3232371A1 (en) * | 2016-04-15 | 2017-10-18 | Ricoh Company, Ltd. | Object recognition method, object recognition device, and classifier training method |
CN107292247A (zh) * | 2017-06-05 | 2017-10-24 | 浙江理工大学 | 一种基于残差网络的人体行为识别方法及装置 |
CN107506712A (zh) * | 2017-08-15 | 2017-12-22 | 成都考拉悠然科技有限公司 | 一种基于3d深度卷积网络的人类行为识别的方法 |
CN107609460A (zh) * | 2017-05-24 | 2018-01-19 | 南京邮电大学 | 一种融合时空双重网络流和attention机制的人体行为识别方法 |
CN108108699A (zh) * | 2017-12-25 | 2018-06-01 | 重庆邮电大学 | 融合深度神经网络模型和二进制哈希的人体动作识别方法 |
CN108197566A (zh) * | 2017-12-29 | 2018-06-22 | 成都三零凯天通信实业有限公司 | 一种基于多路神经网络的监控视频行为检测方法 |
CN108288035A (zh) * | 2018-01-11 | 2018-07-17 | 华南理工大学 | 基于深度学习的多通道图像特征融合的人体动作识别方法 |
US20180204076A1 (en) * | 2017-01-13 | 2018-07-19 | The Regents Of The University Of California | Moving object detection and classification image analysis methods and systems |
US20180218203A1 (en) * | 2017-02-01 | 2018-08-02 | The Government Of The United States Of America, As Represented By The Secretary Of The Navy | Recognition Actions on Event Based Cameras with Motion Event Features |
CN108416266A (zh) * | 2018-01-30 | 2018-08-17 | 同济大学 | 一种利用光流提取运动目标的视频行为快速识别方法 |
CN108805080A (zh) * | 2018-06-12 | 2018-11-13 | 上海交通大学 | 基于上下文的多层次深度递归网络群体行为识别方法 |
CN108960031A (zh) * | 2018-03-29 | 2018-12-07 | 中国科学院软件研究所 | 一种基于分层动力解析与编码的视频动作分类系统及方法 |
CN108985192A (zh) * | 2018-06-29 | 2018-12-11 | 东南大学 | 一种基于多任务深度卷积神经网络的视频烟雾识别方法 |
CN109446923A (zh) * | 2018-10-10 | 2019-03-08 | 北京理工大学 | 基于训练特征融合的深度监督卷积神经网络行为识别方法 |
CN109460707A (zh) * | 2018-10-08 | 2019-03-12 | 华南理工大学 | 一种基于深度神经网络的多模态动作识别方法 |
CN109670446A (zh) * | 2018-12-20 | 2019-04-23 | 泉州装备制造研究所 | 基于线性动态系统和深度网络的异常行为检测方法 |
CN109740419A (zh) * | 2018-11-22 | 2019-05-10 | 东南大学 | 一种基于Attention-LSTM网络的视频行为识别方法 |
CN109784269A (zh) * | 2019-01-11 | 2019-05-21 | 中国石油大学(华东) | 一种基于时空联合的人体动作检测和定位方法 |
-
2019
- 2019-05-24 CN CN201910437636.5A patent/CN110135386B/zh active Active
Patent Citations (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1345174A1 (en) * | 2002-03-12 | 2003-09-17 | Eidgenossisch Technische Hochschule Zurich | Method and apparatus for visual motion recognition |
US20170228618A1 (en) * | 2014-10-24 | 2017-08-10 | Huawei Technologies Co., Ltd. | Video classification method and apparatus |
US20170132785A1 (en) * | 2015-11-09 | 2017-05-11 | Xerox Corporation | Method and system for evaluating the quality of a surgical procedure from in-vivo video |
CN105550699A (zh) * | 2015-12-08 | 2016-05-04 | 北京工业大学 | 一种基于cnn融合时空显著信息的视频识别分类方法 |
CN105678216A (zh) * | 2015-12-21 | 2016-06-15 | 中国石油大学(华东) | 基于深度学习的时空数据流视频行为识别方法 |
CN105787458A (zh) * | 2016-03-11 | 2016-07-20 | 重庆邮电大学 | 基于人工设计特征和深度学习特征自适应融合的红外行为识别方法 |
US20170262995A1 (en) * | 2016-03-11 | 2017-09-14 | Qualcomm Incorporated | Video analysis with convolutional attention recurrent neural networks |
EP3232371A1 (en) * | 2016-04-15 | 2017-10-18 | Ricoh Company, Ltd. | Object recognition method, object recognition device, and classifier training method |
CN106407889A (zh) * | 2016-08-26 | 2017-02-15 | 上海交通大学 | 基于光流图深度学习模型在视频中人体交互动作识别方法 |
CN106650655A (zh) * | 2016-12-16 | 2017-05-10 | 北京工业大学 | 一种基于卷积神经网络的动作检测模型 |
US20180204076A1 (en) * | 2017-01-13 | 2018-07-19 | The Regents Of The University Of California | Moving object detection and classification image analysis methods and systems |
US20180218203A1 (en) * | 2017-02-01 | 2018-08-02 | The Government Of The United States Of America, As Represented By The Secretary Of The Navy | Recognition Actions on Event Based Cameras with Motion Event Features |
CN107609460A (zh) * | 2017-05-24 | 2018-01-19 | 南京邮电大学 | 一种融合时空双重网络流和attention机制的人体行为识别方法 |
CN107292247A (zh) * | 2017-06-05 | 2017-10-24 | 浙江理工大学 | 一种基于残差网络的人体行为识别方法及装置 |
CN107506712A (zh) * | 2017-08-15 | 2017-12-22 | 成都考拉悠然科技有限公司 | 一种基于3d深度卷积网络的人类行为识别的方法 |
CN108108699A (zh) * | 2017-12-25 | 2018-06-01 | 重庆邮电大学 | 融合深度神经网络模型和二进制哈希的人体动作识别方法 |
CN108197566A (zh) * | 2017-12-29 | 2018-06-22 | 成都三零凯天通信实业有限公司 | 一种基于多路神经网络的监控视频行为检测方法 |
CN108288035A (zh) * | 2018-01-11 | 2018-07-17 | 华南理工大学 | 基于深度学习的多通道图像特征融合的人体动作识别方法 |
CN108416266A (zh) * | 2018-01-30 | 2018-08-17 | 同济大学 | 一种利用光流提取运动目标的视频行为快速识别方法 |
CN108960031A (zh) * | 2018-03-29 | 2018-12-07 | 中国科学院软件研究所 | 一种基于分层动力解析与编码的视频动作分类系统及方法 |
CN108805080A (zh) * | 2018-06-12 | 2018-11-13 | 上海交通大学 | 基于上下文的多层次深度递归网络群体行为识别方法 |
CN108985192A (zh) * | 2018-06-29 | 2018-12-11 | 东南大学 | 一种基于多任务深度卷积神经网络的视频烟雾识别方法 |
CN109460707A (zh) * | 2018-10-08 | 2019-03-12 | 华南理工大学 | 一种基于深度神经网络的多模态动作识别方法 |
CN109446923A (zh) * | 2018-10-10 | 2019-03-08 | 北京理工大学 | 基于训练特征融合的深度监督卷积神经网络行为识别方法 |
CN109740419A (zh) * | 2018-11-22 | 2019-05-10 | 东南大学 | 一种基于Attention-LSTM网络的视频行为识别方法 |
CN109670446A (zh) * | 2018-12-20 | 2019-04-23 | 泉州装备制造研究所 | 基于线性动态系统和深度网络的异常行为检测方法 |
CN109784269A (zh) * | 2019-01-11 | 2019-05-21 | 中国石油大学(华东) | 一种基于时空联合的人体动作检测和定位方法 |
Non-Patent Citations (2)
Title |
---|
JI S等: "3D convolutional neural networks for human action recognition", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
杨天明等: "基于视频深度学习的时空双流人物动作识别模型", 《计算机应用》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178443A (zh) * | 2019-12-31 | 2020-05-19 | 东软集团股份有限公司 | 模型参数选择、图像分类、信息识别方法及装置、设备 |
CN111178443B (zh) * | 2019-12-31 | 2023-10-31 | 东软集团股份有限公司 | 模型参数选择、图像分类、信息识别方法及装置、设备 |
CN111666852A (zh) * | 2020-05-28 | 2020-09-15 | 天津大学 | 一种基于卷积神经网络的微表情双流网络识别方法 |
CN111680602A (zh) * | 2020-06-01 | 2020-09-18 | 华南理工大学 | 基于双流分级特征修正的行人重识别方法及模型架构 |
CN112417989A (zh) * | 2020-10-30 | 2021-02-26 | 四川天翼网络服务有限公司 | 一种监考人员违规行为识别方法及系统 |
CN112668431A (zh) * | 2020-12-22 | 2021-04-16 | 山东师范大学 | 基于外观-运动融合网络的人群异常行为检测方法及系统 |
CN112991174A (zh) * | 2021-03-13 | 2021-06-18 | 长沙学院 | 一种提高单帧红外图像分辨率的方法与系统 |
CN114220175A (zh) * | 2021-12-17 | 2022-03-22 | 广州津虹网络传媒有限公司 | 运动模式识别方法及其装置、设备、介质、产品 |
CN114897955A (zh) * | 2022-04-25 | 2022-08-12 | 电子科技大学 | 一种基于可微几何传播的深度补全方法 |
CN114897955B (zh) * | 2022-04-25 | 2023-04-18 | 电子科技大学 | 一种基于可微几何传播的深度补全方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110135386B (zh) | 2021-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110135386A (zh) | 一种基于深度学习的人体动作识别方法和系统 | |
CN108229338B (zh) | 一种基于深度卷积特征的视频行为识别方法 | |
CN110096950B (zh) | 一种基于关键帧的多特征融合行为识别方法 | |
CN107330362B (zh) | 一种基于时空注意力的视频分类方法 | |
CN105787458B (zh) | 基于人工设计特征和深度学习特征自适应融合的红外行为识别方法 | |
CN108133188A (zh) | 一种基于运动历史图像与卷积神经网络的行为识别方法 | |
CN108830252A (zh) | 一种融合全局时空特征的卷积神经网络人体动作识别方法 | |
CN109190479A (zh) | 一种基于混合深度学习的视频序列表情识别方法 | |
CN109871777A (zh) | 一种基于注意力机制的行为识别系统 | |
CN110516536A (zh) | 一种基于时序类别激活图互补的弱监督视频行为检测方法 | |
CN107506712A (zh) | 一种基于3d深度卷积网络的人类行为识别的方法 | |
CN111652357B (zh) | 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统 | |
CN105205448A (zh) | 基于深度学习的文字识别模型训练方法和识别方法 | |
CN113076809A (zh) | 一种基于视觉Transformer的高空坠物检测方法 | |
CN111611847A (zh) | 基于尺度注意力空洞卷积网络的视频动作检测方法 | |
CN109410135B (zh) | 一种对抗学习型图像去雾、加雾方法 | |
CN110413838A (zh) | 一种无监督视频摘要模型及其建立方法 | |
CN112651360B (zh) | 一种小样本下骨架动作识别方法 | |
CN111178319A (zh) | 基于压缩奖惩机制的视频行为识别方法 | |
CN109271629A (zh) | 基于强化学习的生成式文本摘要方法 | |
CN113449801B (zh) | 一种基于多级图像上下文编解码的图像人物行为描述生成方法 | |
CN113239801B (zh) | 基于多尺度特征学习和多级域对齐的跨域动作识别方法 | |
CN110245602A (zh) | 一种基于深度卷积特征的水下静目标识别方法 | |
Duan et al. | A Multi-Task Deep Learning Approach for Sensor-based Human Activity Recognition and Segmentation | |
Kiciroglu et al. | Long term motion prediction using keyposes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |