CN109325435B - 基于级联神经网络的视频动作识别及定位方法 - Google Patents

基于级联神经网络的视频动作识别及定位方法 Download PDF

Info

Publication number
CN109325435B
CN109325435B CN201811077637.5A CN201811077637A CN109325435B CN 109325435 B CN109325435 B CN 109325435B CN 201811077637 A CN201811077637 A CN 201811077637A CN 109325435 B CN109325435 B CN 109325435B
Authority
CN
China
Prior art keywords
interval
action
candidate
video
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811077637.5A
Other languages
English (en)
Other versions
CN109325435A (zh
Inventor
周圆
李鸿儒
杨建兴
毛爱玲
李绰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201811077637.5A priority Critical patent/CN109325435B/zh
Publication of CN109325435A publication Critical patent/CN109325435A/zh
Application granted granted Critical
Publication of CN109325435B publication Critical patent/CN109325435B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于级联神经网络的视频动作识别及定位方,步骤(1)、生成候选区间并扩展,把候选区间分为三类;步骤(2)、将扩展后的候选区间中的彩色图像进行结构化;步骤(3)、利用视频单元时/空域特征提取网络进行视频单元级别的时/空域特征的提取,获得二维特征图F;步骤(4)、得到全局时域特征向量和全局空域特征向量ft′,fs′;步骤(5)、将全局时域特征向量和全局空域特征向量ft′,fs′输入动作分类器、完整性分类器和候选区间坐标调整器中,计算损失函数并优化网络参数;步骤(6)、得到最终预测结果即以取整后的loc+Δloci帧为中心、宽度为取整后的size+Δsizei帧的范围的第m类动作。与现有技术相比,本发明能够精准判断原始视频中从开始到结束的区间内是第几类动作。

Description

基于级联神经网络的视频动作识别及定位方法
技术领域
本发明涉及机器视觉领域视频理解,特别是涉及一种视频动作识别及定位算法。
背景技术
动作识别及定位是视频理解技术中基础的一环,它能够有效地去除视频中大量的冗余信息,自动理解视频含义并进行分类,从而减轻人工审核视频的负担。目前,某些动作识别及定位算法可以一定程度上完成动作识别的任务,但是依赖于人对包含大量冗余信息的视频进行裁剪,去除无用的背景信息,无法直接对原始视频数据进行处理;此外,现有算法无法准确定位有意义动作在原始视频中的位置,无法有效减轻人的负担。
随着深度神经网络技术的发展,许多网络模型被应用于多种图像及视频任务,展现了深度神经网络强大的特征提取能力。
发明内容
为了解决现有技术难以直接处理原始视频并精准定位有意义动作的问题,本发明提出一种基于深度神经网络的视频动作识别及定位方法,通过神经网络自动完成原始视频中有意义动作的识别及定位,以实现视频语义的自动理解。
本发明的一种基于级联神经网络的视频动作识别及定位方法,该方法包括以下步骤:
步骤1、用基于聚类算法的视频候选区间生成算法生成大量候选区间,并将原候选区间扩展至原来的两倍长度,同时把候选区间分为三类:第一类,候选区间与训练数据集中包含动作的视频片段重叠度IoU大于0.7,第二类,候选区间与训练数据集中包含动作的视频片段重叠度IoU小于0.3,大于0.01,第三类,候选区间与训练数据集中包含动作的视频片段重叠度IoU小于0.01;
步骤2、将扩展后的候选区间中的彩色图像进行结构化处理,本步骤的具体处理包括:将连续六帧图像作为一个视频单元,使用TVL1光流算法计算相邻两帧RGB图像之间的像素流动,生成十张光流图;将这十张光流图与从每个视频单元中随机选出的一张RGB图像作为一个视频单元时/空域特征提取网络的输入;
步骤3、利用视频单元时/空域特征提取网络进行视频单元级别的时/空域特征的提取,获得二维特征图F,本步骤的具体处理包括:所述视频单元时/空域特征提取网络包含时域GoogLeNet和空域GoogLeNet,时域GoogLeNet和空域GoogLeNet对输入层接受的数据维度参数进行了调整,其中时域GoogLeNet的输入层固定接受维度为n×10×w×h的矩阵,空域GoogLeNet的输入层固定接受维度为n×3×w×h的矩阵,其中,n为一批训练样本中图片的张数,w为图片宽度的像素数,h为图片高度的像素数,3和10代表通道数目;时域GoogLeNet和空域GoogLeNet的输出分别为时域特征图Ft和空域特征图Fs,两种特征图共同作为步骤4中全局时空特征提取网络的输入;
步骤4、将尺寸不一的特征图时域特征图Ft和空域特征图Fs改变为固定尺寸的、结构化的特征图Ft′,Fs′,并利用全局时空域特征提取网络进行特征图Ft′,Ft′的全局时域特征向量和空域特征向量的提取,得到全局时域特征向量和全局空域特征向量ft′,fs′;
步骤5、将全局时域特征向量和全局空域特征向量ft′,fs′输入动作分类器、完整性分类器和候选区间坐标调整器中,分别进行损失函数的计算;
动作分类器与完整性分类器的总损失函数Lcls表达式为:
Figure GDA0003297399820000031
第一项
Figure GDA0003297399820000032
为动作分类器的损失函数,只有第一类和第三类训练样本用于训练动作分类器;第二项
Figure GDA0003297399820000033
为完成度分类器的损失函数,只有第一类和第二类训练样本用于训练完成度分类器;其中,Vj表示完整性分类器的输出;Pj表示动作分类器的输出,cj *表示分类标签,N为一个训练批次中训练样本的个数,j为一个训练批次中某一样本的编号;
候选区间坐标调整器的损失函数Lreg
Figure GDA0003297399820000035
Figure GDA0003297399820000036
其中,
Figure GDA0003297399820000037
表示当训练样本为第一类样本时取1、为第二类及第三类样本时取0;smoothL1代表平滑的L1损失函数;rj={Δloc′j,Δsize′j}表示网络预测的候选区间坐标调整至真实动作区间的调整量,
Figure GDA0003297399820000038
表示候选区间调整至真实动作区间真实需要的坐标调整量;locm表示候选区间的中心坐标,sizem表示候选区间的长度,
Figure GDA0003297399820000039
表示真实动作的中心坐标,
Figure GDA00032973998200000310
表示真实动作的长度,Δlocj′、Δsizej′分别表示网络预测的候选区间中心点loc需要的调整量以及网络预测的候选区间宽度size需要的调整量,Δlocj、Δsizej分别对应真实的候选区间中心点loc需要的调整量以及真实的候选区间宽度size需要的调整量;根据损失函数Lreg计算误差,利用反向传播优化网络参数;
骤(6)、融合步骤(5)中动作分类器的输出Pj和完整性分类器的输出Vj,得到预测的分类得分向量
Figure GDA0003297399820000041
使用极大值抑制的方法去除冗余的候选区间,最终使用候选区间中心点loc调整量Δloci和候选区间宽度size调整量Δsizej作为坐标调整器的输出,调整候选区间坐标,得到最终预测结果loc+Δlocj、size+Δsizej,即以取整后的loc+Δlocm帧为中心、宽度为取整后的size+Δsizej帧的范围的第m类动作,m为数值最大的得分向量O对应的维数。
所述步骤3中的利用视频单元时/空域特征提取网络进行视频单元级别的时/空域特征的提取,获得的特征图通过调整等分份数与全连接层维度调整维度,该算法包括以下步骤:
步骤31、把候选区间分为三个区间,前四分之一为动作开始区间,中间二分之一为动作持续区间,后四分之一为动作结束区间。把动作开始区间均等分成a份,动作持续区间均等分成b份,动作结束区间均等分成a份,对每份中包含的全部特征向量取平均;
步骤32、将每等份中的特征向量取平均后得到的向量,输入一个输出维度k可调整的全连接层,得到一个新的维度为(2a+b)×k特征图。
本发明的一种基于结构化时域池化和特征重编码的视频特征图维度调整方法,该算法包括以下步骤:
步骤1、把候选区间分为三个区间,前四分之一为动作开始区间,中间二分之一为动作持续区间,后四分之一为动作结束区间。把动作开始区间均等分成a份,动作持续区间均等分成b份,动作结束区间均等分成a份,对每份中包含的全部特征向量取平均;
步骤2、将每等份中的特征向量取平均后得到的向量,输入一个输出维度k可调整的全连接层,得到一个新的维度为(2a+b)×k特征图。
与现有技术相比,本发明能够精准判断原始视频中从第几秒开始到第几秒结束的区间内,以及是第几类动作。
附图说明
图1为本发明的基于级联神经网络的视频动作识别及定位方法流程图;
图2为本发明的基于级联神经网络的视频动作识别及定位方法实施例的执行结果示意图。
具体实施方式
下面将结合附图对本发明的实施方式作进一步的详细描述。
如图1所示,为本发明的基于级联神经网络的视频动作识别及定位方法流程图,具体细节如下:
一、基于聚类的视频候选区间生成算法:
步骤(1)、设计一种包含时域特征提取子网络与空域特征提取子网络的神经网络,该网络还包含一个二分类器,输出零到一之间的值,用于表示每帧图像对应时间点包含动作的可能性(动作得分)。通过把视频输入该网络,得到每一帧图像对应时刻的动作得分;
步骤(2)、设定一个阈值x,当动作得分高于这个值x时,判定这个时刻包含动作,并标注为1,否则,判定这个时刻不包含动作,并标注为0;
步骤(3)、得到一系列的0、1之后,进行聚类操作,。选取前一时刻标注为0、当前时刻标注为1的时刻点为种子点,吸收后面的时刻点,若后面的时刻点标注为1则正样本数加1,若后面的时刻点为0则负样本数加1,当正样本数与负样本数的比值小于一个阈值y,则停止吸收时刻点,得到一个候选区间。
二、基于结构化时域池化和特征重编码的视频特征图维度调整算法:
步骤(1)、把候选区间分为三个区间,前四分之一为动作开始区间,中间二分之一为动作持续区间,后四分之一为动作结束区间。把动作开始区间均等分成a份,动作持续区间均等分成b份,动作结束区间均等分成a份,对每份中包含的全部特征向量取平均;
步骤(2)、将每等份中的特征向量取平均后得到的向量,输入一个输出维度k可调整的全连接层,得到一个新的维度为(2a+b)×k特征图。
三、基于级联神经网络的视频动作识别及定位算法:
步骤(1)、用基于聚类的视频候选区间生成算法生成大量候选区间,并将原候选区间扩展至原来的两倍长度。同时把候选区间分为三类:第一类,候选区间与训练数据集中包含动作的视频片段重叠度IoU大于0.7,第二类,候选区间与训练数据集中包含动作的视频片段重叠度IoU小于0.3,大于0.01,第三类,候选区间与训练数据集中包含动作的视频片段重叠度IoU小于0.01;
步骤(2)、将扩展后的候选区间中的彩色图像进行结构化处理:将连续六帧图像作为一个视频单元,使用TVL1光流算法,计算相邻两帧RGB图像之间的像素流动,生成光流图。图像为二维数字矩阵,表示像素流动需要两个方向,即需要两张光流图表示一对相邻RGB图像之间的像素流动,又因为6帧图像共有5对相邻图像,所以连续的6帧RGB图像可得到十张光流图。将这十张光流图与从每个视频单元中随机选出的一张RGB图像视为一个步骤二中视频单元时空域特征提取网络的输入结构,即只能以一张RGB图像和十张光流图的组合方式才能输入网络;
步骤3、利用视频单元时/空域特征提取网络进行视频单元级别的时/空域特征的提取,获得二维特征图F,本步骤的具体处理包括:所述视频单元时/空域特征提取网络包含时域GoogLeNet和空域GoogLeNet,时域GoogLeNet和空域GoogLeNet对输入层接受的数据维度参数进行了调整,其中时域GoogLeNet的输入层固定接受维度为n×10×w×h的矩阵,空域GoogLeNet的输入层固定接受维度为n×3×w×h的矩阵,其中,n为一批训练样本中图片的张数,w为图片宽度的像素数,h为图片高度的像素数,3和10代表通道数目,n=64,w=320,h=240;时域GoogLeNet和空域GoogLeNet的输出分别为时域特征图Ft和空域特征图Fs,两种特征图共同作为步骤(4)中全局时空特征提取网络的输入;
步骤4、利用基于结构化时域池化和特征重编码的视频特征图维度调整算法,将尺寸不一的特征图Ft,Ft改变为固定尺寸的、结构化的特征图Ft′,Ft′,并利用全局时空域特征提取网络提取特征图Ft′,Ft′的全局时空特征向量ft′,fs′;
步骤5、将全局时空特征向量ft′,fs′输入动作分类器(全连接层)、完整性分类器(全连接层)和候选区间坐标调整器(全连接层)中分别进行损失函数的计算;其中,动作分类器与完整性分类器的总损失函数Lcls表达式为
Figure GDA0003297399820000071
其中,Vj表示完整性分类器的输出;Pj表示动作分类器的输出,cj *表示分类标签,N为一个训练批次中训练样本的个数;j为一个训练批次中某一样本的编号。式中第一项
Figure GDA0003297399820000072
为动作分类器的损失函数,只有第一类和第三类训练样本用于训练动作分类器。第二项
Figure GDA0003297399820000073
为完成度分类器的损失函数,只有第一类和第二类训练样本用于训练完成度分类器;
候选区间坐标调整器的损失函数Lreg为:
Figure GDA0003297399820000074
Figure GDA0003297399820000075
其中,
Figure GDA0003297399820000081
表示当训练样本为第一类样本时取1、为第二类及第三类样本时取0;smoothL1代表平滑的L1损失函数;rj={Δloc′j,Δsize′j}表示网络预测的候选区间坐标调整至真实动作区间的调整量,
Figure GDA0003297399820000082
表示候选区间调整至真实动作区间真实需要的坐标调整量;locj表示候选区间的中心坐标,sizej表示候选区间的长度,
Figure GDA0003297399820000083
表示真实动作的中心坐标,
Figure GDA0003297399820000084
表示真实动作的长度,Δlocj′、Δsizej′分别表示网络预测的候选区间中心点loc需要的调整量以及网络预测的候选区间宽度size需要的调整量,Δlocj、Δsizej分别对应真实的候选区间中心点loc需要的调整量以及真实的候选区间宽度size需要的调整量;根据损失函数Lreg计算误差,利用反向传播优化网络参数;
步骤6、融合步骤(5)中动作分类器的输出Pj和完整性分类器Vj的输出,得到预测的分类得分向量
Figure GDA0003297399820000085
使用极大值抑制(NMS)的方法去除冗余的候选区间,最终使用坐标调整器的输出(候选区间中心点loc调整量Δloci和候选区间宽度size调整量Δsizej)调整候选区间坐标得到最终预测结果loc+Δlocj、size+Δsizej,即以loc+Δlocj(取整)帧为中心,宽度为size+Δsizen size+Δsizej(取整)帧的范围,是第m类(m为O得分向量中数值最大的那一维)动作。
本发明的具体实施例描述如下:
本发明的技术方案中,提取视频的光流图像选用了TVL1光流算法。训练相关模型时,使用ImageNet数据集上的预训练模型进行初始化,有助于缩短训练时间和提升性能。实验选用随机梯度下降的方法优化网络参数,初始学习率为0.001,后每经过5K次迭代,学习率下降为原来的十分之一,15k次迭代后终止。训练过程中,第一类、第二类、第三类训练样本的比例为1:6:1。推理时,极大值抑制的门限值设置为0.6。
如图2所示,为实验结果参考。预测的候选区间与真实区间重叠度IoU大于0.5,判定为预测准确。对于原始视频中零散分布的有意义的动作,算法可以较好的自动去除冗余信息,不需要人为去除,并可准确判断相关动作种类。对于第1、2、3段测试视频,算法很好的完成了有意义动作的分类及定位,未出现候选区间缺失或不包含有意义动作的情况,摆脱了对人工去除视频冗余的依赖。第4段视频中出现了两个有意义动作被判断为一个的情况,这是由于两段动作之间的间隔相对于两段动作的持续时间之和很短,所以出现该情况。

Claims (4)

1.一种基于级联神经网络的视频动作识别及定位方法,其特征在于,该方法包括以下步骤:
步骤(1)、用基于聚类算法的视频候选区间生成算法生成大量候选区间,并将原候选区间扩展至原来的两倍长度,同时把候选区间分为三类:第一类,候选区间与训练数据集中包含动作的视频片段重叠度IoU大于0.7,第二类,候选区间与训练数据集中包含动作的视频片段重叠度IoU小于0.3,大于0.01,第三类,候选区间与训练数据集中包含动作的视频片段重叠度IoU小于0.01;
步骤(2)、将扩展后的候选区间中的彩色图像进行结构化处理,本步骤的具体处理包括:将连续六帧图像作为一个视频单元,使用TVL1光流算法计算相邻两帧RGB图像之间的像素流动,生成十张光流图;将这十张光流图与从每个视频单元中随机选出的一张RGB图像作为一个视频单元时/空域特征提取网络的输入;
步骤(3)、利用视频单元时/空域特征提取网络进行视频单元级别的时/空域特征的提取,获得二维特征图F,本步骤的具体处理包括:所述视频单元时/空域特征提取网络包含时域GoogLeNet和空域GoogLeNet,时域GoogLeNet和空域GoogLeNet对输入层接受的数据维度参数进行了调整,其中时域GoogLeNet的输入层固定接受维度为n×10×w×h的矩阵,空域GoogLeNet的输入层固定接受维度为n×3×w×h的矩阵,其中,n为一批训练样本中图片的张数,w为图片宽度的像素数,h为图片高度的像素数,3和10代表通道数目;时域GoogLeNet和空域GoogLeNet的输出分别为时域特征图Ft和空域特征图Fs,两种特征图共同作为步骤(4)中全局时空特征提取网络的输入;
步骤(4)、将尺寸不一的特征图时域特征图Ft和空域特征图Fs改变为固定尺寸的、结构化的特征图Ft′,Fs′,并利用全局时空域特征提取网络进行特征图Ft′,Ft′的全局时域特征向量和空域特征向量的提取,得到全局时域特征向量和全局空域特征向量ft′,fs′;
步骤(5)、将全局时域特征向量和全局空域特征向量ft′,fs′输入动作分类器、完整性分类器和候选区间坐标调整器中,分别进行损失函数的计算;
动作分类器与完整性分类器的总损失函数Lcls表达式为:
Figure FDA0003297399810000021
第一项
Figure FDA0003297399810000022
为动作分类器的损失函数,只有第一类和第三类训练样本用于训练动作分类器;第二项
Figure FDA0003297399810000023
为完成度分类器的损失函数,只有第一类和第二类训练样本用于训练完成度分类器;其中,Vj表示完整性分类器的输出;Pj表示动作分类器的输出,cj *表示分类标签,N为一个训练批次中训练样本的个数;j为一个训练批次中某一样本的编号;
候选区间坐标调整器的损失函数Lreg
Figure FDA0003297399810000024
Figure FDA0003297399810000025
其中,
Figure FDA0003297399810000026
表示当训练样本为第一类样本时取1、为第二类及第三类样本时取0;smoothL1代表平滑的L1损失函数;rj={Δloc′j,Δsize′j}表示网络预测的候选区间坐标调整至真实动作区间的调整量,
Figure FDA0003297399810000027
表示候选区间调整至真实动作区间真实需要的坐标调整量;locj表示候选区间的中心坐标,sizem表示候选区间的长度,
Figure FDA0003297399810000028
表示真实动作的中心坐标,
Figure FDA0003297399810000029
表示真实动作的长度,Δlocj′、Δsizej′分别表示网络预测的候选区间中心点loc需要的调整量以及网络预测的候选区间宽度size需要的调整量,Δlocj、Δsizej分别对应真实的候选区间中心点loc需要的调整量以及真实的候选区间宽度size需要的调整量;根据损失函数Lreg计算误差,利用反向传播优化网络参数;
步骤(6)、融合步骤(5)中动作分类器的输出Pj和完整性分类器的输出Vj,得到预测的分类得分向量
Figure FDA0003297399810000031
使用极大值抑制的方法去除冗余的候选区间,最终使用候选区间中心点loc调整量Δloci和候选区间宽度size调整量Δsizej作为坐标调整器的输出,调整候选区间坐标,得到最终预测结果loc+Δlocj、size+Δsizej,即以取整后的loc+Δlocj帧为中心、宽度为取整后的size+Δsizej帧的范围的第m类动作,m为数值最大的得分向量O对应的维数。
2.如权利要求1所述的基于级联神经网络的视频动作识别及定位方法,其特征在于,用基于聚类算法的视频候选区间生成算法生成大量候选区间基于聚类算法的视频候选区间生成算法:
步骤(1)、设计一种包含时域特征提取子网络与空域特征提取子网络的神经网络,该网络还包含一个二分类器,输出零到一之间的值,用于表示每帧图像对应时间点包含动作的可能性;把视频输入该网络,得到每一帧图像对应时刻的动作得分;
步骤(2)、设定一个阈值x,当动作得分高于阈值x时,判定这个时刻包含动作,并标注为1,否则,判定这个时刻不包含动作,并标注为0;
步骤(3)、得到一系列的0、1之后,进行聚类操作:选取前一时刻标注为0、当前时刻标注为1的时刻点为种子点,吸收后面的时刻点,若后面的时刻点标注为1则正样本数加1,若后面的时刻点为0则负样本数加1,当正样本数与负样本数的比值小于一个阈值y,则停止吸收时刻点,得到一个候选区间。
3.如权利要求1所述的一种基于级联神经网络的视频动作识别及定位方法,其特征在于,所述步骤(3)中的利用视频单元时/空域特征提取网络进行视频单元级别的时/空域特征的提取,获得的特征图通过调整等分份数与全连接层维度调整维度,该算法包括以下步骤:
步骤(31)、把候选区间分为三个区间,前四分之一为动作开始区间,中间二分之一为动作持续区间,后四分之一为动作结束区间;把动作开始区间均等分成a份,动作持续区间均等分成b份,动作结束区间均等分成a份,对每份中包含的全部特征向量取平均;
步骤(32)、将每等份中的特征向量取平均后得到的向量,输入一个输出维度k可调整的全连接层,得到一个新的维度为(2a+b)×k特征图。
4.一种基于结构化时域池化和特征重编码的视频特征图维度调整方法,该方法包括以下步骤:
步骤(1)、把候选区间分为三个区间,前四分之一为动作开始区间,中间二分之一为动作持续区间,后四分之一为动作结束区间;把动作开始区间均等分成a份,动作持续区间均等分成b份,动作结束区间均等分成a份,对每份中包含的全部特征向量取平均;
步骤(2)、将每等份中的特征向量取平均后得到的向量,输入一个输出维度k可调整的全连接层,得到一个新的维度为(2a+b)×k特征图。
CN201811077637.5A 2018-09-15 2018-09-15 基于级联神经网络的视频动作识别及定位方法 Active CN109325435B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811077637.5A CN109325435B (zh) 2018-09-15 2018-09-15 基于级联神经网络的视频动作识别及定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811077637.5A CN109325435B (zh) 2018-09-15 2018-09-15 基于级联神经网络的视频动作识别及定位方法

Publications (2)

Publication Number Publication Date
CN109325435A CN109325435A (zh) 2019-02-12
CN109325435B true CN109325435B (zh) 2022-04-19

Family

ID=65265641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811077637.5A Active CN109325435B (zh) 2018-09-15 2018-09-15 基于级联神经网络的视频动作识别及定位方法

Country Status (1)

Country Link
CN (1) CN109325435B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472728B (zh) * 2019-07-30 2023-05-23 腾讯科技(深圳)有限公司 目标信息确定方法、目标信息确定装置、介质及电子设备
CN111027448B (zh) * 2019-12-04 2023-05-05 成都考拉悠然科技有限公司 一种基于时域推理图的视频行为类别识别方法
CN112883782B (zh) * 2021-01-12 2023-03-24 上海肯汀通讯科技有限公司 投放行为识别方法、装置、设备及存储介质
CN112954312B (zh) * 2021-02-07 2024-01-05 福州大学 一种融合时空特征的无参考视频质量评估方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217214A (zh) * 2014-08-21 2014-12-17 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于可配置卷积神经网络的rgb-d人物行为识别方法
CN106599789A (zh) * 2016-07-29 2017-04-26 北京市商汤科技开发有限公司 视频类别识别方法和装置、数据处理装置和电子设备
CN106897714A (zh) * 2017-03-23 2017-06-27 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法
CN107273800A (zh) * 2017-05-17 2017-10-20 大连理工大学 一种基于注意机制的卷积递归神经网络的动作识别方法
CN107341452A (zh) * 2017-06-20 2017-11-10 东北电力大学 基于四元数时空卷积神经网络的人体行为识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10346727B2 (en) * 2016-10-28 2019-07-09 Adobe Inc. Utilizing a digital canvas to conduct a spatial-semantic search for digital visual media
US10503998B2 (en) * 2016-11-07 2019-12-10 Gracenote, Inc. Recurrent deep neural network system for detecting overlays in images

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217214A (zh) * 2014-08-21 2014-12-17 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于可配置卷积神经网络的rgb-d人物行为识别方法
CN106599789A (zh) * 2016-07-29 2017-04-26 北京市商汤科技开发有限公司 视频类别识别方法和装置、数据处理装置和电子设备
CN106897714A (zh) * 2017-03-23 2017-06-27 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法
CN107273800A (zh) * 2017-05-17 2017-10-20 大连理工大学 一种基于注意机制的卷积递归神经网络的动作识别方法
CN107341452A (zh) * 2017-06-20 2017-11-10 东北电力大学 基于四元数时空卷积神经网络的人体行为识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Fusion Based Deep CNN for Improved Large-Scale Image Action Recognition";Y lavinia等;《2016 IEEE International Symposium on Multimedia (ISM)》;20161201;第1-5页 *
"基于视频的人体行为识别关键技术研究";于成龙;《中国优秀博士学位论文全文数据库(电子期刊)信息科技辑》;20160315;I138-144 *
叶青." 无标记人体运动捕捉技术的研究".《中国博士学位论文全文数据库(电子期刊) 信息科技辑》.2015, *

Also Published As

Publication number Publication date
CN109325435A (zh) 2019-02-12

Similar Documents

Publication Publication Date Title
CN109325435B (zh) 基于级联神经网络的视频动作识别及定位方法
CN109815826B (zh) 人脸属性模型的生成方法及装置
US10289909B2 (en) Conditional adaptation network for image classification
CN110175595B (zh) 人体属性识别方法、识别模型训练方法及装置
Dosovitskiy et al. Flownet: Learning optical flow with convolutional networks
CN109583483B (zh) 一种基于卷积神经网络的目标检测方法和系统
CN107529650B (zh) 闭环检测方法、装置及计算机设备
US11501563B2 (en) Image processing method and system
WO2017096758A1 (zh) 图像分类方法、电子设备和存储介质
TW202101371A (zh) 視訊流的處理方法和裝置
CN108595558B (zh) 一种数据均衡策略和多特征融合的图像标注方法
US20210012503A1 (en) Apparatus and method for generating image
Ma et al. Fusioncount: Efficient crowd counting via multiscale feature fusion
CN111047543A (zh) 图像增强方法、装置和存储介质
CN110909741A (zh) 一种基于背景分割的车辆再识别方法
CN114519877A (zh) 人脸识别方法、人脸识别装置、计算机设备及存储介质
CN111160356A (zh) 一种图像分割分类方法和装置
CN111428664A (zh) 一种基于人工智能深度学习技术的计算机视觉的实时多人姿态估计方法
CN112560618A (zh) 基于骨架和视频特征融合的行为分类方法
CN117253110A (zh) 一种基于扩散模型的目标检测模型泛化能力提升方法
CN116957051A (zh) 一种优化特征提取的遥感图像弱监督目标检测方法
CN112541469B (zh) 基于自适应分类的人群计数方法及系统
CN114863570A (zh) 视频动作识别模型的训练、识别方法、装置以及介质
US20180060647A1 (en) Image processing apparatus, non-transitory computer readable medium, and image processing method
CN114038045A (zh) 一种跨模态人脸识别模型构建方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant