CN110110651B - 基于时空重要性和3d cnn的视频中行为识别方法 - Google Patents

基于时空重要性和3d cnn的视频中行为识别方法 Download PDF

Info

Publication number
CN110110651B
CN110110651B CN201910365711.1A CN201910365711A CN110110651B CN 110110651 B CN110110651 B CN 110110651B CN 201910365711 A CN201910365711 A CN 201910365711A CN 110110651 B CN110110651 B CN 110110651B
Authority
CN
China
Prior art keywords
importance
segment
video
cnn
behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910365711.1A
Other languages
English (en)
Other versions
CN110110651A (zh
Inventor
王晓芳
臧升睿
任洁
郑亚雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Original Assignee
Qilu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology filed Critical Qilu University of Technology
Priority to CN201910365711.1A priority Critical patent/CN110110651B/zh
Publication of CN110110651A publication Critical patent/CN110110651A/zh
Application granted granted Critical
Publication of CN110110651B publication Critical patent/CN110110651B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开一种基于时空重要性和3D CNN的视频中行为识别方法,本发明将空域重要位置选择功能、时域重要片段选择功能和3D CNN的特征提取和分类功能相结合,通过计算视频的空域位置重要性和时域片段重要性,并利用重要性对空域位置特征和片段类别分值进行选择,突出对行为识别有用的时空信息在行为识别中的贡献,抑制背景或其他无关信息的影响,从而提高行为识别性能。

Description

基于时空重要性和3D CNN的视频中行为识别方法
技术领域
本发明涉及一种视频中行为识别方法,尤其涉及一种基于时空重要性和3D CNN的视频中行为识别方法,其中3D CNN指三维卷积神经网络,属于深度学习和视频识别技术领域。
背景技术
视频是一种重要的信息载体,人们常常需要通过观察、识别视频中人体行为以达到特定的目的。然而,传统的依靠人眼观察、人脑处理的人体行为识别模式已经不能满足海量视频数据处理的需求。随着计算机处理数据能力的增强,用计算机模仿人类大脑处理视频并识别其中发生的行为已逐渐变为现实,该项技术在视频监控、虚拟现实、机器人等领域具有广阔的应用前景。
然而,由于行为本身复杂的动特性以及视频拍摄环境的不可控性,利用计算机识别视频中的人体行为并非是一项简单的任务。近年来,深度学习的兴起将行为识别向前推进了一大步。在大规模训练集和GPU支持下,深度学习通过卷积神经网络(CNN)的卷积层特征提取功能、全连接层分类功能以及随机梯度学习算法,全面地挖掘目标多层次特征并进行分类,实现由像素到类别的“end-to-end”的识别模式。虽然在某些图像分类任务中深度学习的识别能力甚至超过人类,但深度学习用于行为识别远没有图像分类成功,其根本原因在于视频是由多帧图像按时间顺序堆叠构成,具有复杂的时空特性,如何有效提取视频整体时空信息是行为识别的关键。
时域片段网络(TSN)是一种典型的获取视频整体时空信息进行行为识别的方法,该方法先将视频在时域分割成多个片段,再利用CNN提取每个片段特征并计算其类别分值,最后通过平均法获取视频类别分值。这种方法平等地对待视频所有时空位置的信息,然而,视频中除了行为信息外还存在大量背景或干扰信息,它们对行为识别的重要性是不同的。首先,人们在识别视频中的行为时,并不是均匀地观察整个空域场景,而是习惯地将目光集中在行为发生的区域,这意味着视频中不同空域位置对行为识别的贡献不同。其次,对于实际场景拍摄的视频,不是所有时间段内都有感兴趣的行为发生,尤其是没有剪辑的视频中存在大量和感兴趣行为无关的帧或片段,它们包含对行为识别有用的信息很少。因此,根据视频不同时空位置对行为识别的重要性,有选择地提取时空信息更有利于改善行为识别性能。
发明内容
本发明的目的在于提供一种基于时空重要性和3D CNN的视频中行为识别方法,将空域重要位置选择、时域重要片段选择和3D CNN特征提取及分类功能相结合,以选择时域、空域重要信息进行行为识别,抑制无关信息的影响,提高行为识别性能。
为了解决所述技术问题,本发明采用的技术方案是:基于时空重要性和3D CNN的视频中行为识别方法,包括以下步骤:
S01)、构建一个行为识别模型,用于判别输入视频中正在发生的行为类别,行为识别模型包括视频分割模块、3D CNN模块、空域重要位置选择模块、时域重要片段选择模块和类别判定模块,视频分割模块将输入的行为视频在时域进行分割得到多个视频片段;3DCNN对分割后的每个视频片段进行特征提取与分类,从其中一个卷积层输出片段特征图,从softmax层输出片段的类别分值;空域重要位置选择模块根据每个片段特征图计算其空域位置的重要性,再利用位置重要性对特征图中各个位置的局部特征进行空域选择,得到片段特征;时域重要片段选择模块根据视频每个片段特征计算其重要性,再依据片段重要性对视频各个片段的类别分值进行时域选择,得到视频的类别分值;类别判定模块将分值最大的类别判定为当前视频中行为的类别;
S02)、利用大量已知类别的行为视频作为样本构建训练数据集,并将其中每个视频的空域尺寸缩放到固定大小;
S03)、基于步骤S02构建的训练数据集,采用分阶段的方式对步骤S01中的行为识别模型进行训练,使其具有自动选择时域重要片段和空域重要位置的信息进行行为识别的能力;
S04)、将待识别的行为视频的空域尺寸缩放到固定大小,再输入到训练后的行为识别模型,模型输出视频中行为的类别。
进一步的,步骤S01中,视频分割模块在时域按照相等的间隔将整个视频分割成给定数目的子视频,对每一个子视频,利用随机的方法确定一个时域位置,再从该位置开始向前或者向后截取一定数目的连续帧构成视频片段,所有子视频的片段按照时间顺序组成一个片段序列。
进一步的,步骤S01中,空域重要位置选择模块包括全连接层、softmax层和特征加权求和子模块,全连接层根据3D CNN输出的片段特征图中每个空域位置局部特征计算该位置的重要性,第l个片段特征图中第k个空域位置局部特征xl,k输入到全连接层,全连接层输出该位置的重要性:
Figure BDA0002045175850000021
wp为权重向量,bp为偏置,(xl,k)T表示xl,k的转置;softmax层对特征图中所有空域位置的重要性进行归一化,/>
Figure BDA0002045175850000022
归一化后的值为
Figure BDA0002045175850000023
K为位置总数;特征加权求和子模块以归一化的重要性为权值对特征图中所有空域位置的局部特征加权求和,得到经空域重要性选择的片段特征,第l个片段特征为/>
Figure BDA0002045175850000024
进一步的,步骤S01中,时域重要片段选择模块包括一个全连接层、两个softmax层和一个类别分值加权求和子模块,全连接层神经元个数为行为类别数C,全连接层根据空域重要位置选择模块输出的片段特征计算每个片段对所有行为类别的重要性,第l个片段特征
Figure BDA0002045175850000025
输入到全连接层,全连接层输出该片段对所有行为类别的重要性:
Figure BDA0002045175850000026
Figure BDA0002045175850000027
是第l个片段对第c个类别的重要性,1≤c≤C,Ws为权重矩阵,bs为偏置向量;第一个softmax层对所有片段的重要性进行归一化,/>
Figure BDA0002045175850000028
归一化后的值为/>
Figure BDA0002045175850000029
L为片段总数;类别分值加权求和子模块以归一化的重要性为权值对视频所有片段的同一类别分值加权求和,得到经时域重要性选择的视频类别分值,视频第c个类别的分值为/>
Figure BDA0002045175850000031
sl,c为第l个片段对第c个类别的分值;第二个softmax层将视频所有类别分值进行归一化,sc′归一化后的值为/>
Figure BDA0002045175850000032
进一步的,步骤S03中,训练参数包括3D CNN的参数、空域重要位置选择模块中的全连接层参数、时域重要片段选择模块中的全连接层参数。
进一步的,模型训练包括以下步骤:
S31)、初始化模型的训练参数;
S32)、将模型中的空域重要位置选择模块和时域重要片段选择模块的参数设置为不可训练,将空域位置重要性和片段重要性固定为等概率分布,利用训练数据集对模型中3D CNN的参数进行训练;
S33)、将模型的所有训练参数设置为可训练,取消空域位置重要性和片段重要性的等概率分布设置,设置模型中3D CNN的学习速率远小于空域重要位置选择模块和时域重要片段选择模块的学习速率,利用训练数据集对模型的所有训练参数进行训练。
本发明的有益效果:本发明将空域重要位置选择功能、时域重要片段选择功能和3D CNN的特征提取和分类功能相结合,通过计算视频的空域位置重要性和时域片段重要性,并利用重要性对空域位置特征和片段类别分值进行选择,突出对行为识别有用的时空信息在行为识别中的贡献,抑制背景或其他无关信息的影响,从而提高行为识别性能。
附图说明
图1为行为识别模型的系统框图;
图2为视频时域分割示意图;
图3为3D CNN结构示意图;
图4为空域重要位置选择模块的结构示意图;
图5为时域重要片段选择模块的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的说明。
实施例
本实施例公开一种基于时空重要性和3D CNN的视频中行为识别方法,具体包括以下步骤:
S01)、行为识别模型构建
首先,构建一个行为识别模型,本实施例中,所述行为识别模型输入为视频,输出为视频中行为的类别。如图1所示,该模型包括视频分割模块、3D CNN模块、空域重要位置选择模块、时域重要片段选择模块和类别判定模块。视频分割模块将输入的行为视频在时域进行分割得到多个视频片段;3D CNN对分割后的每个视频片段进行特征提取与分类,从其中一个卷积层输出片段特征图,从softmax层输出片段的类别分值;空域重要位置选择模块根据每个片段特征图计算其空域位置的重要性,再利用位置重要性对特征进行空域选择,得到视频每个片段特征;时域重要片段选择模块根据视频每个片段特征计算其重要性,再依据片段重要性对片段的类别分值进行时域选择,得到视频的类别分值;类别判定模块将分值最大的类别判定为当前视频中行为的类别。各模块的具体设计如下:
(1)视频分割模块
如图2所示,视频分割模块先在时域按照相等的间隔将整个视频分割成L个子视频,对每一个子视频,利用随机的方法确定一个时域位置,再从该位置开始向前或者向后截取T个连续帧构成视频片段,所有子视频的片段按时间顺序组成一个片段序列。
(2)3D CNN(三维卷积神经网络)
如图3所示,3D CNN采用Du Tran提出的C3D构架,包含五个卷积层五个最大值池化层,两个全连接层和一个softmax层。除最后一个卷积层外,每一个卷积层经池化层后和后一卷积层相连,最后一个卷积层经池化层后和第一个全连接层相连,第二个全连接层连接到softmax层。所有卷积层的卷积核大小为3×3×3,步长为[1,1,1];第一个池化层的池化核大小为1×2×2,步长为[1,2,2],其它池化层的池化核大小为2×2×2,步长为[2,2,2];各卷积层的滤波器个数依次为64,128,256,512,512;第一个全连接层神经元个数为4096,第二个全连接层神经元个数为行为类别数C。
将视频每个片段输入到一个共享参数的3D CNN,从第四个卷积层输出片段特征图,对第l个片段,其特征图包含的所有局部特征为[xl,1,xl,2,…xl,K],其中,xl,k为特征图中第k个空域位置的局部特征,K为位置总数;从softmax层输出片段的类别分值,第l个片段的类别分值为[sl,1,sl,2,…,sl,C],其中,sl,c为第c个类别分值。
(3)空域重要位置选择模块
如图4所示,空域重要位置选择模块由全连接层、softmax层和特征加权求和子模块组成。
全连接层根据3D CNN的第四个卷积层输出的特征图中每个空域位置的局部特征,计算该位置的重要性。全连接层包含一个神经元,其权重向量为
Figure BDA0002045175850000041
偏置为bp,M为输入特征维度,将第l个片段的特征图中第k个空域位置的局部特征xl,k输入到全连接层,得到该位置的重要性:/>
Figure BDA0002045175850000042
将第l个片段特征图中每个空域位置的局部特征都输入到一个共享参数的全连接层,可得各个空域位置的重要性为/>
Figure BDA0002045175850000043
softmax层将各个空域位置的重要性归一化。将第l个片段第k个空域位置的重要性
Figure BDA0002045175850000044
输入到softmax层,得到归一化的值为/>
Figure BDA0002045175850000045
第l个片段特征图中各个空域位置的归一化的重要性为/>
Figure BDA0002045175850000046
特征加权求和子模块以归一化的重要性为权值,对3D CNN第四个卷积层输出的片段特征图中各个空域位置的局部特征加权求和获取片段特征,第l个片段特征为
Figure BDA0002045175850000051
(4)时域重要片段选择模块
如图5所示,该模块由一个全连接层、两个softmax层和一个类别分值加权求和子模块组成。
全连接层根据片段特征获取片段对每一个行为类别的重要性。全连接层神经元个数为行为类别数C,其权重矩阵为
Figure BDA0002045175850000052
其中,/>
Figure BDA0002045175850000053
是用于计算片段对第c个类别重要性的权重向量,N是输入特征的维度,全连接层的偏置向量为/>
Figure BDA0002045175850000054
将第l个片段特征/>
Figure BDA0002045175850000055
输入到全连接层,全连接层输出该片段对所有行为类别的重要性:/>
Figure BDA0002045175850000056
其中,/>
Figure BDA0002045175850000057
是第l个片段对第c个类别的重要性。将视频各个片段特征输入到一个共享参数的全连接层,可得所有片段对所有行为类别的重要性。
第一个softmax层将视频所有片段的重要性归一化。对第c个类别,所有片段归一化的重要性为
Figure BDA0002045175850000058
其中,/>
Figure BDA0002045175850000059
类别分值加权求和子模块以片段归一化的重要性为权值对视频所有片段的同一个类别的分值进行加权求和,获取视频的类别分值。若3D CNN输出的各个片段对第c个类别的分值为[s1,c,s2,c,…,sL,c],视频第c个类别的分值为
Figure BDA00020451758500000510
利用类别分值加权求和子模块可以求出视频所有类别分值[s1′,s2′,…,s′C]。
第二个softmax层将视频各个类别的分值归一化,得到归一化的视频类别分值
Figure BDA00020451758500000511
其中,/>
Figure BDA00020451758500000512
(5)类别判定模块
类别判定模块求视频类别分值最大值对应的类别
Figure BDA00020451758500000513
并将/>
Figure BDA00020451758500000514
判定为视频中行为的类别。
S02)、训练数据集构建
训练数据集可采用UCF101Split1的数据集,共包含9537个训练视频,分为101个行为类别,训练前将每个视频空域尺寸缩放到112×112像素。
S03)、模型训练
利用训练数据集对行为识别模型进行训练,使其具有自动选择时域重要片段和空域重要位置的信息进行行为识别的能力。模型训练参数包括:3D CNN的参数、空域重要位置模块中的全连接层参数、时域重要片段选择模块中的全连接层参数。采用分阶段的训练方式,具体过程如下:
(1)初始化模型训练参数,模型的权重参数采用Xavier方法初始化,模型的偏置参数初始化为0;
(2)将模型中的空域重要位置选择模块和时域重要片段选择模块的参数设置为不可训练,将空域位置重要性和片段重要性固定为等概率分布,利用训练数据集对模型中3DCNN的参数进行训练;
(3)将模型的所有训练参数设置为可训练,取消空域位置重要性和片段重要性的等概率分布设置,设置模型中3D CNN的学习速率远小于空域重要位置选择模块和时域重要片段选择模块的学习速率,利用训练数据集对模型的所有训练参数进行训练。
上述每一阶段均采用批量的方式进行多轮训练。每一轮开始前利用随机的方法重新设置训练数据集中的视频顺序,每次从训练数据集中按序取出给定数目视频输入到行为识别模型判别视频类别,根据视频的真实类别和模型的判别类别计算交叉熵损失函数,并求交叉熵损失函数对训练参数的导数用于修正参数。上述过程不断重复,直至训练数据集中所有视频都输入到模型,训练过程完成一轮。对模型进行一轮一轮的训练,直至达到预定的训练轮数为止。
S04)、行为识别
将待识别的行为视频的空域尺寸缩放到112×112像素,再输入到训练后的行为识别模型,模型输出视频中行为的类别。
以上描述的仅是本发明的基本原理和优选实施例,本领域技术人员根据本发明做出的改进和替换,属于本发明的保护范围。

Claims (5)

1.基于时空重要性和3D CNN的视频中行为识别方法,其特征在于:包括以下步骤:
S01)、构建一个行为识别模型,用于判别输入视频中正在发生的行为类别,行为识别模型包括视频分割模块、3D CNN模块、空域重要位置选择模块、时域重要片段选择模块和类别判定模块,视频分割模块将输入的行为视频在时域进行分割得到多个视频片段;3D CNN对分割后的每个视频片段进行特征提取与分类,从其中一个卷积层输出片段特征图,从softmax层输出片段的类别分值;空域重要位置选择模块根据每个片段特征图计算其空域位置的重要性,再利用位置重要性对特征图中各个位置的局部特征进行空域选择,得到片段特征;时域重要片段选择模块根据视频每个片段特征计算其重要性,再依据片段重要性对视频各个片段的类别分值进行时域选择,得到视频的类别分值;类别判定模块将分值最大的类别判定为当前视频中行为的类别;
S02)、利用大量已知类别的行为视频作为样本构建训练数据集,并将其中每个视频的空域尺寸缩放到固定大小;
S03)、基于步骤S02构建的训练数据集,采用分阶段的方式对步骤S01中的行为识别模型进行训练,使其具有自动选择时域重要片段和空域重要位置的信息进行行为识别的能力;
S04)、将待识别的行为视频的空域尺寸缩放到固定大小,再输入到训练后的行为识别模型,模型输出视频中行为的类别;
步骤S01)中,空域重要位置选择模块包括全连接层、softmax层和特征加权求和子模块,全连接层根据3D CNN输出的片段特征图中每个空域位置局部特征计算该位置的重要性,第l个片段特征图中第k个空域位置局部特征xl,k输入到全连接层,全连接层输出该位置的重要性为
Figure FDA0004122971840000011
wp为权重向量,bp为偏置,(xl,k)T表示xl,k的转置;softmax层对特征图中所有空域位置的重要性进行归一化,/>
Figure FDA0004122971840000012
归一化后的值为/>
Figure FDA0004122971840000013
K为位置总数;特征加权求和子模块以归一化的重要性为权值对特征图中所有空域位置的局部特征加权求和,得到经空域重要性选择的片段特征,第l个片段特征为/>
Figure FDA0004122971840000014
2.根据权利要求1所述的基于时空重要性和3D CNN的视频中行为识别方法,其特征在于:步骤S01中,视频分割模块在时域按照相等的间隔将整个视频分割成给定数目的子视频,对每一个子视频,利用随机的方法确定一个时域位置,再从该位置开始向前或者向后截取一定数目的连续帧构成视频片段,所有子视频的片段按照时间顺序组成一个片段序列。
3.根据权利要求1所述的基于时空重要性和3D CNN的视频中行为识别方法,其特征在于:步骤S01)中,时域重要片段选择模块包括一个全连接层、两个softmax层和一个类别分值加权求和子模块,全连接层神经元个数为行为类别数C,全连接层根据空域重要位置选择模块输出的片段特征计算每个片段对所有行为类别的重要性,第l个片段特征
Figure FDA0004122971840000015
输入到全连接层,全连接层输出该片段对所有行为类别的重要性为/>
Figure FDA0004122971840000021
Figure FDA0004122971840000022
是第l个片段对第c个类别的重要性,1≤c≤C,Ws为权重矩阵,bs为偏置向量;第一个softmax层对所有片段的重要性进行归一化,/>
Figure FDA0004122971840000023
归一化后的值为/>
Figure FDA0004122971840000024
L为片段总数;类别分值加权求和子模块以归一化的重要性为权值对视频所有片段的同一类别分值加权求和,得到经时域重要性选择的视频类别分值,视频第c个类别的分值为/>
Figure FDA0004122971840000025
sl,c为第l个片段对第c个类别的分值;第二个softmax层将视频所有类别分值进行归一化,sc′归一化后的值为
Figure FDA0004122971840000026
4.根据权利要求1所述的基于时空重要性和3D CNN的视频中行为识别方法,其特征在于:步骤S03中,训练参数包括3D CNN的参数、空域重要位置选择模块中的全连接层参数、时域重要片段选择模块中的全连接层参数。
5.根据权利要求4所述的基于时空重要性和3D CNN的视频中行为识别方法,其特征在于:模型训练包括以下步骤:
S31)、初始化模型的训练参数;
S32)、将模型中的空域重要位置选择模块和时域重要片段选择模块的参数设置为不可训练,将空域位置重要性和片段重要性固定为等概率分布,利用训练数据集对模型中3DCNN的参数进行训练;
S33)、将模型的所有训练参数设置为可训练,取消空域位置重要性和片段重要性的等概率分布设置,设置模型中3D CNN的学习速率远小于空域重要位置选择模块和时域重要片段选择模块的学习速率,利用训练数据集对模型的所有训练参数进行训练。
CN201910365711.1A 2019-04-29 2019-04-29 基于时空重要性和3d cnn的视频中行为识别方法 Active CN110110651B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910365711.1A CN110110651B (zh) 2019-04-29 2019-04-29 基于时空重要性和3d cnn的视频中行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910365711.1A CN110110651B (zh) 2019-04-29 2019-04-29 基于时空重要性和3d cnn的视频中行为识别方法

Publications (2)

Publication Number Publication Date
CN110110651A CN110110651A (zh) 2019-08-09
CN110110651B true CN110110651B (zh) 2023-06-13

Family

ID=67488038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910365711.1A Active CN110110651B (zh) 2019-04-29 2019-04-29 基于时空重要性和3d cnn的视频中行为识别方法

Country Status (1)

Country Link
CN (1) CN110110651B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113015022A (zh) * 2021-02-05 2021-06-22 深圳市优必选科技股份有限公司 行为识别方法、装置、终端设备及计算机可读存储介质
CN116778395B (zh) * 2023-08-21 2023-10-24 成都理工大学 基于深度学习的山洪漫流视频识别监测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845351A (zh) * 2016-05-13 2017-06-13 苏州大学 一种用于视频的基于双向长短时记忆单元的行为识别方法
CN106897714A (zh) * 2017-03-23 2017-06-27 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法
CN107122780A (zh) * 2017-02-28 2017-09-01 青岛科技大学 基于时空特征点的互信息与时空分布熵的行为识别方法
CN107330362A (zh) * 2017-05-25 2017-11-07 北京大学 一种基于时空注意力的视频分类方法
CN107506712A (zh) * 2017-08-15 2017-12-22 成都考拉悠然科技有限公司 一种基于3d深度卷积网络的人类行为识别的方法
CN108629326A (zh) * 2018-05-14 2018-10-09 中国科学院自动化研究所 目标体的动作行为识别方法及装置
CN109241829A (zh) * 2018-07-25 2019-01-18 中国科学院自动化研究所 基于时空注意卷积神经网络的行为识别方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8345984B2 (en) * 2010-01-28 2013-01-01 Nec Laboratories America, Inc. 3D convolutional neural networks for automatic human action recognition
US10853951B2 (en) * 2017-08-04 2020-12-01 Intel Corporation Methods and apparatus to generate temporal representations for action recognition systems

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845351A (zh) * 2016-05-13 2017-06-13 苏州大学 一种用于视频的基于双向长短时记忆单元的行为识别方法
CN107122780A (zh) * 2017-02-28 2017-09-01 青岛科技大学 基于时空特征点的互信息与时空分布熵的行为识别方法
CN106897714A (zh) * 2017-03-23 2017-06-27 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法
CN107330362A (zh) * 2017-05-25 2017-11-07 北京大学 一种基于时空注意力的视频分类方法
CN107506712A (zh) * 2017-08-15 2017-12-22 成都考拉悠然科技有限公司 一种基于3d深度卷积网络的人类行为识别的方法
CN108629326A (zh) * 2018-05-14 2018-10-09 中国科学院自动化研究所 目标体的动作行为识别方法及装置
CN109241829A (zh) * 2018-07-25 2019-01-18 中国科学院自动化研究所 基于时空注意卷积神经网络的行为识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于深度学习的视频行为识别技术研究";余兴;《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑I138-225》;20180915;第13-28页 *

Also Published As

Publication number Publication date
CN110110651A (zh) 2019-08-09

Similar Documents

Publication Publication Date Title
Wang et al. SaliencyGAN: Deep learning semisupervised salient object detection in the fog of IoT
CN108537743B (zh) 一种基于生成对抗网络的面部图像增强方法
CN107463949B (zh) 一种视频动作分类的处理方法及装置
Fu et al. Fast crowd density estimation with convolutional neural networks
CN109685072B (zh) 一种基于生成对抗网络的复合降质图像高质量重建方法
CN112750140B (zh) 基于信息挖掘的伪装目标图像分割方法
CN109410239A (zh) 一种基于条件生成对抗网络的文本图像超分辨率重建方法
CN109829391B (zh) 基于级联卷积网络和对抗学习的显著性目标检测方法
CN112446270A (zh) 行人再识别网络的训练方法、行人再识别方法和装置
CN112699786B (zh) 一种基于空间增强模块的视频行为识别方法及系统
CN112287973A (zh) 基于截尾奇异值和像素插值的数字图像对抗样本防御方法
CN110136162B (zh) 无人机视角遥感目标跟踪方法及装置
CN110110651B (zh) 基于时空重要性和3d cnn的视频中行为识别方法
CN112084952B (zh) 一种基于自监督训练的视频点位跟踪方法
CN116051683B (zh) 一种基于风格自组的遥感图像生成方法、存储介质及设备
CN113239875A (zh) 人脸特征的获取方法、系统、装置及计算机可读存储介质
CN112766062A (zh) 一种基于双流深度神经网络的人体行为识别方法
CN112418032A (zh) 一种人体行为识别方法、装置、电子设备及存储介质
CN112651459A (zh) 深度学习图像对抗样本防御方法、装置、设备及存储介质
Salem et al. Semantic image inpainting using self-learning encoder-decoder and adversarial loss
CN112149526A (zh) 一种基于长距离信息融合的车道线检测方法及系统
CN113239866B (zh) 一种时空特征融合与样本注意增强的人脸识别方法及系统
WO2021073311A1 (zh) 图像识别方法、装置、计算机可读存储介质及芯片
CN111881803A (zh) 一种基于改进YOLOv3的畜脸识别方法
CN113591647B (zh) 人体动作识别方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant