CN109325435A - 基于级联神经网络的视频动作识别及定位算法 - Google Patents

基于级联神经网络的视频动作识别及定位算法 Download PDF

Info

Publication number
CN109325435A
CN109325435A CN201811077637.5A CN201811077637A CN109325435A CN 109325435 A CN109325435 A CN 109325435A CN 201811077637 A CN201811077637 A CN 201811077637A CN 109325435 A CN109325435 A CN 109325435A
Authority
CN
China
Prior art keywords
section
candidate
video
loc
movement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811077637.5A
Other languages
English (en)
Other versions
CN109325435B (zh
Inventor
周圆
李鸿儒
杨建兴
毛爱玲
李绰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201811077637.5A priority Critical patent/CN109325435B/zh
Publication of CN109325435A publication Critical patent/CN109325435A/zh
Application granted granted Critical
Publication of CN109325435B publication Critical patent/CN109325435B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于级联神经网络的视频动作识别及定位算法,步骤(1)、生成候选区间并扩展,把候选区间分为三类;步骤(2)、将扩展后的候选区间中的彩色图像进行结构化;步骤(3)、利用视频单元时/空域特征提取网络进行视频单元级别的时/空域特征的提取,获得二维特征图F;步骤(4)、得到全局时域特征向量和全局空域特征向量ft′,fs′;步骤(5)、将全局时域特征向量和全局空域特征向量ft′,fs′输入动作分类器、完整性分类器和候选区间坐标调整器中,计算损失函数并优化网络参数;步骤(6)、得到最终预测结果即以取整后的loc+Δloci帧为中心、宽度为取整后的size+Δsizei帧的范围的第m类动作。与现有技术相比,本发明能够精准判断原始视频中从开始到结束的区间内是第几类动作。

Description

基于级联神经网络的视频动作识别及定位算法
技术领域
本发明涉及机器视觉领域视频理解,特别是涉及一种视频动作识别及定位算法。
背景技术
动作识别及定位是视频理解技术中基础的一环,它能够有效地去除视频中大量的冗余信息,自动理解视频含义并进行分类,从而减轻人工审核视频的负担。目前,某些动作识别及定位算法可以一定程度上完成动作识别的任务,但是依赖于人对包含大量冗余信息的视频进行裁剪,去除无用的背景信息,无法直接对原始视频数据进行处理;此外,现有算法无法准确定位有意义动作在原始视频中的位置,无法有效减轻人的负担。
随着深度神经网络技术的发展,许多网络模型被应用于多种图像及视频任务,展现了深度神经网络强大的特征提取能力。
发明内容
为了解决现有技术难以直接处理原始视频并精准定位有意义动作的问题,本发明提出一种基于深度神经网络的视频动作识别及定位算法,通过神经网络自动完成原始视频中有意义动作的识别及定位,以实现视频语义的自动理解。
本发明的一种基于级联神经网络的视频动作识别及定位算法,该算法包括以下步骤:
步骤1、用基于聚类算法的视频候选区间生成算法生成大量候选区间,并将原候选区间扩展至原来的两倍长度,同时把候选区间分为三类:第一类,候选区间与训练数据集中包含动作的视频片段重叠度IoU大于0.7,第二类,候选区间与训练数据集中包含动作的视频片段重叠度IoU小于0.3,大于0.01,第三类,候选区间与训练数据集中包含动作的视频片段重叠度IoU小于0.01;
步骤2、将扩展后的候选区间中的彩色图像进行结构化处理,本步骤的具体处理包括:将连续六帧图像作为一个视频单元,使用TVL1光流算法计算相邻两帧RGB图像之间的像素流动,生成十张光流图;将这十张光流图与从每个视频单元中随机选出的一张RGB图像作为一个视频单元时/空域特征提取网络的输入;
步骤3、利用视频单元时/空域特征提取网络进行视频单元级别的时/空域特征的提取,获得二维特征图F,本步骤的具体处理包括:所述视频单元时/空域特征提取网络包含时域GoogLeNet和空域GoogLeNet,时域GoogLeNet和空域GoogLeNet对输入层接受的数据维度参数进行了调整,其中时域GoogLeNet的输入层固定接受维度为n×10×w×h的矩阵,空域GoogLeNet的输入层固定接受维度为n×3×w×h的矩阵,其中,n为一批训练样本中图片的张数,w为图片宽度的像素数,h为图片高度的像素数,3和10代表通道数目;时域GoogLeNet和空域GoogLeNet的输出分别为时域特征图Ft和空域特征图Fs,两种特征图共同作为步骤4中全局时空特征提取网络的输入;
步骤4、将尺寸不一的特征图时域特征图Ft和空域特征图Fs改变为固定尺寸的、结构化的特征图Ft′,Fs′,并利用全局时空域特征提取网络进行特征图Ft′,Ft′的全局时域特征向量和空域特征向量的提取,得到全局时域特征向量和全局空域特征向量ft′,fs′;
步骤5、将全局时域特征向量和全局空域特征向量ft′,fs′输入动作分类器、完整性分类器和候选区间坐标调整器中,分别进行损失函数的计算;
动作分类器与完整性分类器的总损失函数Lcls表达式为:
第一项为动作分类器的损失函数,只有第一类和第三类训练样本用于训练动作分类器;第二项为完成度分类器的损失函数,只有第一类和第二类训练样本用于训练完成度分类器;其中,Vn表示完整性分类器的输出;Pn表示动作分类器的输出,cn *表示分类标签,N为一个训练批次中训练样本的个数;n为一个训练批次中某一样本的编号;
候选区间坐标调整器的损失函数Lreg
其中,表示当训练样本为第一类样本时取1、为第二类及第三类样本时取0;smoothL1代表平滑的L1损失函数;rn={Δloc′n,Δsize′n}表示网络预测的候选区间坐标调整至真实动作区间的调整量,表示候选区间调整至真实动作区间真实需要的坐标调整量;locn表示候选区间的中心坐标,sizen表示候选区间的长度,表示真实动作的中心坐标,表示真实动作的长度,Δlocn′、Δsizen′分别表示网络预测的候选区间中心点loc需要的调整量以及网络预测的候选区间宽度size需要的调整量,Δlocn、Δsizen分别对应真实的候选区间中心点loc需要的调整量以及真实的候选区间宽度size需要的调整量;根据损失函数Lreg计算误差,利用反向传播优化网络参数;
步骤6、融合步骤(5)中动作分类器的输出Pn和完整性分类器的输出Vn,得到预测的分类得分向量使用极大值抑制的方法去除冗余的候选区间,最终使用候选区间中心点loc调整量Δloci和候选区间宽度size调整量Δsizen作为坐标调整器的输出,调整候选区间坐标,得到最终预测结果loc+Δlocn,size+Δsizen,即以取整后的loc+Δlocn帧为中心、宽度为取整后的size+Δsizen帧的范围的第m类动作,m为数值最大的得分向量O对应的维数。
所述步骤3中的利用视频单元时/空域特征提取网络进行视频单元级别的时/空域特征的提取,获得的特征图通过调整等分份数与全连接层维度调整维度,该算法包括以下步骤:
步骤31、把候选区间分为三个区间,前四分之一为动作开始区间,中间二分之一为动作持续区间,后四分之一为动作结束区间。把动作开始区间均等分成a份,动作持续区间均等分成b份,动作结束区间均等分成a份,对每份中包含的全部特征向量取平均;
步骤32、将每等份中的特征向量取平均后得到的向量,输入一个输出维度n可调整的全连接层,得到一个新的维度为(2a+b)×n特征图。
本发明的一种基于结构化时域池化和特征重编码的视频特征图维度调整算法,该算法包括以下步骤:
步骤1、把候选区间分为三个区间,前四分之一为动作开始区间,中间二分之一为动作持续区间,后四分之一为动作结束区间。把动作开始区间均等分成a份,动作持续区间均等分成b份,动作结束区间均等分成a份,对每份中包含的全部特征向量取平均;
步骤2、将每等份中的特征向量取平均后得到的向量,输入一个输出维度n可调整的全连接层,得到一个新的维度为(2a+b)×n特征图。
与现有技术相比,本发明能够精准判断原始视频中从第几秒开始到第几秒结束的区间内,以及是第几类动作。
附图说明
图1为本发明的基于级联神经网络的视频动作识别及定位算法流程图;
图2为本发明的基于级联神经网络的视频动作识别及定位算法实施例的执行结果示意图。
具体实施方式
下面将结合附图对本发明的实施方式作进一步的详细描述。
如图1所示,为本发明的基于级联神经网络的视频动作识别及定位算法流程图,具体细节如下:
一、基于聚类的视频候选区间生成算法:
步骤(1)、设计一种包含时域特征提取子网络与空域特征提取子网络的神经网络,该网络还包含一个二分类器,输出零到一之间的值,用于表示每帧图像对应时间点包含动作的可能性(动作得分)。通过把视频输入该网络,得到每一帧图像对应时刻的动作得分;
步骤(2)、设定一个阈值x,当动作得分高于这个值x时,判定这个时刻包含动作,并标注为1,否则,判定这个时刻不包含动作,并标注为0;
步骤(3)、得到一系列的0、1之后,进行聚类操作,。选取前一时刻标注为0、当前时刻标注为1的时刻点为种子点,吸收后面的时刻点,若后面的时刻点标注为1则正样本数加1,若后面的时刻点为0则负样本数加1,当正样本数与负样本数的比值小于一个阈值y,则停止吸收时刻点,得到一个候选区间。
二、基于结构化时域池化和特征重编码的视频特征图维度调整算法:
步骤(1)、把候选区间分为三个区间,前四分之一为动作开始区间,中间二分之一为动作持续区间,后四分之一为动作结束区间。把动作开始区间均等分成a份,动作持续区间均等分成b份,动作结束区间均等分成a份,对每份中包含的全部特征向量取平均;
步骤(2)、将每等份中的特征向量取平均后得到的向量,输入一个输出维度n可调整的全连接层,得到一个新的维度为(2a+b)×n特征图。
三、基于级联神经网络的视频动作识别及定位算法:
步骤(1)、用基于聚类的视频候选区间生成算法生成大量候选区间,并将原候选区间扩展至原来的两倍长度。同时把候选区间分为三类:第一类,候选区间与训练数据集中包含动作的视频片段重叠度IoU大于0.7,第二类,候选区间与训练数据集中包含动作的视频片段重叠度IoU小于0.3,大于0.01,第三类,候选区间与训练数据集中包含动作的视频片段重叠度IoU小于0.01;
步骤(2)、将扩展后的候选区间中的彩色图像进行结构化处理:将连续六帧图像作为一个视频单元,使用TVL1光流算法,计算相邻两帧RGB图像之间的像素流动,生成光流图。图像为二维数字矩阵,表示像素流动需要两个方向,即需要两张光流图表示一对相邻RGB图像之间的像素流动,又因为6帧图像共有5对相邻图像,所以连续的6帧RGB图像可得到十张光流图。将这十张光流图与从每个视频单元中随机选出的一张RGB图像视为一个步骤二中视频单元时空域特征提取网络的输入结构,即只能以一张RGB图像和十张光流图的组合方式才能输入网络;
步骤3、利用视频单元时/空域特征提取网络进行视频单元级别的时/空域特征的提取,获得二维特征图F,本步骤的具体处理包括:所述视频单元时/空域特征提取网络包含时域GoogLeNet和空域GoogLeNet,时域GoogLeNet和空域GoogLeNet对输入层接受的数据维度参数进行了调整,其中时域GoogLeNet的输入层固定接受维度为n×10×w×h的矩阵,空域GoogLeNet的输入层固定接受维度为n×3×w×h的矩阵,其中,n为一批训练样本中图片的张数,w为图片宽度的像素数,h为图片高度的像素数,3和10代表通道数目,n=64,w=320,h=240;时域GoogLeNet和空域GoogLeNet的输出分别为时域特征图Ft和空域特征图Fs,两种特征图共同作为步骤(4)中全局时空特征提取网络的输入;
步骤4、利用基于结构化时域池化和特征重编码的视频特征图维度调整算法,将尺寸不一的特征图Ft,Ft改变为固定尺寸的、结构化的特征图Ft′,Ft′,并利用全局时空域特征提取网络提取特征图Ft′,Ft′的全局时空特征向量ft′,fs′;
步骤5、将全局时空特征向量ft′,fs′输入动作分类器(全连接层)、完整性分类器(全连接层)和候选区间坐标调整器(全连接层)中分别进行损失函数的计算;其中,动作分类器与完整性分类器的总损失函数Lcls表达式为
其中,Vn表示完整性分类器的输出;Pn表示动作分类器的输出,cn *表示分类标签,N为一个训练批次中训练样本的个数;n为一个训练批次中某一样本的编号。式中第一项为动作分类器的损失函数,只有第一类和第三类训练样本用于训练动作分类器。第二项为完成度分类器的损失函数,只有第一类和第二类训练样本用于训练完成度分类器;
候选区间坐标调整器的损失函数Lreg为:
其中,表示当训练样本为第一类样本时取1、为第二类及第三类样本时取0;smoothL1代表平滑的L1损失函数;rn={Δloc′n,Δsize′n}表示网络预测的候选区间坐标调整至真实动作区间的调整量,表示候选区间调整至真实动作区间真实需要的坐标调整量;locn表示候选区间的中心坐标,sizen表示候选区间的长度,表示真实动作的中心坐标,表示真实动作的长度,Δlocn′、Δsizen′分别表示网络预测的候选区间中心点loc需要的调整量以及网络预测的候选区间宽度size需要的调整量,Δlocn、Δsizen分别对应真实的候选区间中心点loc需要的调整量以及真实的候选区间宽度size需要的调整量;根据损失函数Lreg计算误差,利用反向传播优化网络参数;
步骤6、融合步骤(5)中动作分类器的输出Pn和完整性分类器Vn的输出,得到预测的分类得分向量使用极大值抑制(NMS)的方法去除冗余的候选区间,最终使用坐标调整器的输出(候选区间中心点loc调整量Δloci和候选区间宽度size调整量Δsizen)调整候选区间坐标得到最终预测结果loc+Δlocn,size+Δsizen,即以loc+Δlocn(取整)帧为中心,宽度为size+Δsizen(取整)帧的范围,是第m类(m为O得分向量中数值最大的那一维)动作。
本发明的具体实施例描述如下:
本发明的技术方案中,提取视频的光流图像选用了TVL1光流算法。训练相关模型时,使用ImageNet数据集上的预训练模型进行初始化,有助于缩短训练时间和提升性能。实验选用随机梯度下降的方法优化网络参数,初始学习率为0.001,后每经过5K次迭代,学习率下降为原来的十分之一,15k次迭代后终止。训练过程中,第一类、第二类、第三类训练样本的比例为1:6:1。推理时,极大值抑制的门限值设置为0.6。
如图2所示,为实验结果参考。预测的候选区间与真实区间重叠度IoU大于0.5,判定为预测准确。对于原始视频中零散分布的有意义的动作,算法可以较好的自动去除冗余信息,不需要人为去除,并可准确判断相关动作种类。对于第1、2、3段测试视频,算法很好的完成了有意义动作的分类及定位,未出现候选区间缺失或不包含有意义动作的情况,摆脱了对人工去除视频冗余的依赖。第4段视频中出现了两个有意义动作被判断为一个的情况,这是由于两段动作之间的间隔相对于两段动作的持续时间之和很短,所以出现该情况。

Claims (4)

1.一种基于级联神经网络的视频动作识别及定位算法,其特征在于,该算法包括以下步骤:
步骤(1)、用基于聚类算法的视频候选区间生成算法生成大量候选区间,并将原候选区间扩展至原来的两倍长度,同时把候选区间分为三类:第一类,候选区间与训练数据集中包含动作的视频片段重叠度IoU大于0.7,第二类,候选区间与训练数据集中包含动作的视频片段重叠度IoU小于0.3,大于0.01,第三类,候选区间与训练数据集中包含动作的视频片段重叠度IoU小于0.01;
步骤(2)、将扩展后的候选区间中的彩色图像进行结构化处理,本步骤的具体处理包括:将连续六帧图像作为一个视频单元,使用TVL1光流算法计算相邻两帧RGB图像之间的像素流动,生成十张光流图;将这十张光流图与从每个视频单元中随机选出的一张RGB图像作为一个视频单元时/空域特征提取网络的输入;
步骤(3)、利用视频单元时/空域特征提取网络进行视频单元级别的时/空域特征的提取,获得二维特征图F,本步骤的具体处理包括:所述视频单元时/空域特征提取网络包含时域GoogLeNet和空域GoogLeNet,时域GoogLeNet和空域GoogLeNet对输入层接受的数据维度参数进行了调整,其中时域GoogLeNet的输入层固定接受维度为n×10×w×h的矩阵,空域GoogLeNet的输入层固定接受维度为n×3×w×h的矩阵,其中,n为一批训练样本中图片的张数,w为图片宽度的像素数,h为图片高度的像素数,3和10代表通道数目;时域GoogLeNet和空域GoogLeNet的输出分别为时域特征图Ft和空域特征图Fs,两种特征图共同作为步骤(4)中全局时空特征提取网络的输入;
步骤(4)、将尺寸不一的特征图时域特征图Ft和空域特征图Fs改变为固定尺寸的、结构化的特征图Ft′,Fs′,并利用全局时空域特征提取网络进行特征图Ft′,Ft′的全局时域特征向量和空域特征向量的提取,得到全局时域特征向量和全局空域特征向量ft′,fs′;
步骤(5)、将全局时域特征向量和全局空域特征向量ft′,fs′输入动作分类器、完整性分类器和候选区间坐标调整器中,分别进行损失函数的计算;
动作分类器与完整性分类器的总损失函数Lcls表达式为:
第一项为动作分类器的损失函数,只有第一类和第三类训练样本用于训练动作分类器;第二项为完成度分类器的损失函数,只有第一类和第二类训练样本用于训练完成度分类器;其中,Vn表示完整性分类器的输出;Pn表示动作分类器的输出,cn *表示分类标签,N为一个训练批次中训练样本的个数;n为一个训练批次中某一样本的编号;
候选区间坐标调整器的损失函数Lreg
其中,表示当训练样本为第一类样本时取1、为第二类及第三类样本时取0;smoothL1代表平滑的L1损失函数;rn={Δloc′n,Δsize′n}表示网络预测的候选区间坐标调整至真实动作区间的调整量,表示候选区间调整至真实动作区间真实需要的坐标调整量;locn表示候选区间的中心坐标,sizen表示候选区间的长度,表示真实动作的中心坐标,表示真实动作的长度,Δlocn′、Δsizen′分别表示网络预测的候选区间中心点loc需要的调整量以及网络预测的候选区间宽度size需要的调整量,Δlocn、Δsizen分别对应真实的候选区间中心点loc需要的调整量以及真实的候选区间宽度size需要的调整量;根据损失函数Lreg计算误差,利用反向传播优化网络参数;
步骤(6)、融合步骤(5)中动作分类器的输出Pn和完整性分类器的输出Vn,得到预测的分类得分向量使用极大值抑制的方法去除冗余的候选区间,最终使用候选区间中心点loc调整量Δloci和候选区间宽度size调整量Δsizen作为坐标调整器的输出,调整候选区间坐标,得到最终预测结果loc+Δlocn,size+Δsizen,即以取整后的loc+Δlocn帧为中心、宽度为取整后的size+Δsizen帧的范围的第m类动作,m为数值最大的得分向量O对应的维数。
2.如权利要求1所述的一种基于级联神经网络的视频动作识别及定位算法,其特征在于,用基于聚类算法的视频候选区间生成算法生成大量候选区间基于聚类算法的视频候选区间生成算法
步骤(1)、设计一种包含时域特征提取子网络与空域特征提取子网络的神经网络,该网络还包含一个二分类器,输出零到一之间的值,用于表示每帧图像对应时间点包含动作的可能性;把视频输入该网络,得到每一帧图像对应时刻的动作得分;
步骤(2)、设定一个阈值x,当动作得分高于阈值x时,判定这个时刻包含动作,并标注为1,否则,判定这个时刻不包含动作,并标注为0;
步骤(3)、得到一系列的0、1之后,进行聚类操作:选取前一时刻标注为0、当前时刻标注为1的时刻点为种子点,吸收后面的时刻点,若后面的时刻点标注为1则正样本数加1,若后面的时刻点为0则负样本数加1,当正样本数与负样本数的比值小于一个阈值y,则停止吸收时刻点,得到一个候选区间。
3.如权利要求1所述的一种基于结构化时域池化和特征重编码的视频特征图维度调整算法,其特征在于,所述步骤(3)中的利用视频单元时/空域特征提取网络进行视频单元级别的时/空域特征的提取,获得的特征图通过调整等分份数与全连接层维度调整维度,该算法包括以下步骤:
步骤(31)、把候选区间分为三个区间,前四分之一为动作开始区间,中间二分之一为动作持续区间,后四分之一为动作结束区间;把动作开始区间均等分成a份,动作持续区间均等分成b份,动作结束区间均等分成a份,对每份中包含的全部特征向量取平均;
步骤(32)、将每等份中的特征向量取平均后得到的向量,输入一个输出维度n可调整的全连接层,得到一个新的维度为(2a+b)×n特征图。
4.一种基于结构化时域池化和特征重编码的视频特征图维度调整算法,该算法包括以下步骤:
步骤(1)、把候选区间分为三个区间,前四分之一为动作开始区间,中间二分之一为动作持续区间,后四分之一为动作结束区间;把动作开始区间均等分成a份,动作持续区间均等分成b份,动作结束区间均等分成a份,对每份中包含的全部特征向量取平均;
步骤(2)、将每等份中的特征向量取平均后得到的向量,输入一个输出维度n可调整的全连接层,得到一个新的维度为(2a+b)×n特征图。
CN201811077637.5A 2018-09-15 2018-09-15 基于级联神经网络的视频动作识别及定位方法 Active CN109325435B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811077637.5A CN109325435B (zh) 2018-09-15 2018-09-15 基于级联神经网络的视频动作识别及定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811077637.5A CN109325435B (zh) 2018-09-15 2018-09-15 基于级联神经网络的视频动作识别及定位方法

Publications (2)

Publication Number Publication Date
CN109325435A true CN109325435A (zh) 2019-02-12
CN109325435B CN109325435B (zh) 2022-04-19

Family

ID=65265641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811077637.5A Active CN109325435B (zh) 2018-09-15 2018-09-15 基于级联神经网络的视频动作识别及定位方法

Country Status (1)

Country Link
CN (1) CN109325435B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472728A (zh) * 2019-07-30 2019-11-19 腾讯科技(深圳)有限公司 目标信息确定方法、目标信息确定装置、介质及电子设备
CN111027448A (zh) * 2019-12-04 2020-04-17 成都考拉悠然科技有限公司 一种基于时域推理图的视频行为类别识别方法
CN112883782A (zh) * 2021-01-12 2021-06-01 上海肯汀通讯科技有限公司 投放行为识别方法、装置、设备及存储介质
CN112954312A (zh) * 2021-02-07 2021-06-11 福州大学 一种融合时空特征的无参考视频质量评估方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217214A (zh) * 2014-08-21 2014-12-17 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于可配置卷积神经网络的rgb-d人物行为识别方法
CN106599789A (zh) * 2016-07-29 2017-04-26 北京市商汤科技开发有限公司 视频类别识别方法和装置、数据处理装置和电子设备
CN106897714A (zh) * 2017-03-23 2017-06-27 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法
CN107273800A (zh) * 2017-05-17 2017-10-20 大连理工大学 一种基于注意机制的卷积递归神经网络的动作识别方法
CN107341452A (zh) * 2017-06-20 2017-11-10 东北电力大学 基于四元数时空卷积神经网络的人体行为识别方法
US20180121768A1 (en) * 2016-10-28 2018-05-03 Adobe Systems Incorporated Utilizing a digital canvas to conduct a spatial-semantic search for digital visual media
US20180129899A1 (en) * 2016-11-07 2018-05-10 Gracenote, Inc. Recurrent Deep Neural Network System for Detecting Overlays in Images

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217214A (zh) * 2014-08-21 2014-12-17 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于可配置卷积神经网络的rgb-d人物行为识别方法
CN106599789A (zh) * 2016-07-29 2017-04-26 北京市商汤科技开发有限公司 视频类别识别方法和装置、数据处理装置和电子设备
US20180121768A1 (en) * 2016-10-28 2018-05-03 Adobe Systems Incorporated Utilizing a digital canvas to conduct a spatial-semantic search for digital visual media
US20180129899A1 (en) * 2016-11-07 2018-05-10 Gracenote, Inc. Recurrent Deep Neural Network System for Detecting Overlays in Images
CN106897714A (zh) * 2017-03-23 2017-06-27 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法
CN107273800A (zh) * 2017-05-17 2017-10-20 大连理工大学 一种基于注意机制的卷积递归神经网络的动作识别方法
CN107341452A (zh) * 2017-06-20 2017-11-10 东北电力大学 基于四元数时空卷积神经网络的人体行为识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Y LAVINIA等: ""Fusion Based Deep CNN for Improved Large-Scale Image Action Recognition"", 《2016 IEEE INTERNATIONAL SYMPOSIUM ON MULTIMEDIA (ISM)》 *
于成龙: ""基于视频的人体行为识别关键技术研究"", 《中国优秀博士学位论文全文数据库(电子期刊)信息科技辑》 *
叶青: "" 无标记人体运动捕捉技术的研究"", 《中国博士学位论文全文数据库(电子期刊) 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472728A (zh) * 2019-07-30 2019-11-19 腾讯科技(深圳)有限公司 目标信息确定方法、目标信息确定装置、介质及电子设备
CN111027448A (zh) * 2019-12-04 2020-04-17 成都考拉悠然科技有限公司 一种基于时域推理图的视频行为类别识别方法
CN112883782A (zh) * 2021-01-12 2021-06-01 上海肯汀通讯科技有限公司 投放行为识别方法、装置、设备及存储介质
CN112883782B (zh) * 2021-01-12 2023-03-24 上海肯汀通讯科技有限公司 投放行为识别方法、装置、设备及存储介质
CN112954312A (zh) * 2021-02-07 2021-06-11 福州大学 一种融合时空特征的无参考视频质量评估方法
CN112954312B (zh) * 2021-02-07 2024-01-05 福州大学 一种融合时空特征的无参考视频质量评估方法

Also Published As

Publication number Publication date
CN109325435B (zh) 2022-04-19

Similar Documents

Publication Publication Date Title
CN109325435A (zh) 基于级联神经网络的视频动作识别及定位算法
CN113688723B (zh) 一种基于改进YOLOv5的红外图像行人目标检测方法
CN109886225A (zh) 一种基于深度学习的图像手势动作在线检测与识别方法
CN108830252A (zh) 一种融合全局时空特征的卷积神经网络人体动作识别方法
CN109961034A (zh) 基于卷积门控循环神经单元的视频目标检测方法
CN107463920A (zh) 一种消除局部遮挡物影响的人脸识别方法
CN109919122A (zh) 一种基于3d人体关键点的时序行为检测方法
CN110929578A (zh) 一种基于注意力机制的抗遮挡行人检测方法
CN108509839A (zh) 一种基于区域卷积神经网络高效的手势检测识别方法
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN107451994A (zh) 基于生成对抗网络的物体检测方法及装置
CN115661943B (zh) 一种基于轻量级姿态评估网络的跌倒检测方法
CN108416266A (zh) 一种利用光流提取运动目标的视频行为快速识别方法
CN106778796A (zh) 基于混合式协同训练的人体动作识别方法及系统
CN110097029B (zh) 基于Highway网络多视角步态识别的身份认证方法
US20160296795A1 (en) Apparatus and method for analyzing golf motion
CN104200203B (zh) 一种基于动作字典学习的人体动作检测方法
CN109614907A (zh) 基于特征强化引导卷积神经网络的行人再识别方法及装置
CN110046574A (zh) 基于深度学习的安全帽佩戴识别方法及设备
CN110070029A (zh) 一种步态识别方法及装置
CN109376696A (zh) 视频动作分类的方法、装置、计算机设备和存储介质
CN110363770A (zh) 一种边缘引导式红外语义分割模型的训练方法及装置
CN105139000A (zh) 一种去除眼镜痕迹的人脸识别方法及装置
CN110298281A (zh) 视频结构化方法、装置、电子设备及存储介质
CN114663769B (zh) 一种基于YOLO v5的水果识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant