CN112784704A - 一种面向小样本视频动作分类的方法 - Google Patents

一种面向小样本视频动作分类的方法 Download PDF

Info

Publication number
CN112784704A
CN112784704A CN202110003759.5A CN202110003759A CN112784704A CN 112784704 A CN112784704 A CN 112784704A CN 202110003759 A CN202110003759 A CN 202110003759A CN 112784704 A CN112784704 A CN 112784704A
Authority
CN
China
Prior art keywords
optical flow
video
frame
motion
convolutional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110003759.5A
Other languages
English (en)
Inventor
张伟杰
魏莱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Maritime University
Original Assignee
Shanghai Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Maritime University filed Critical Shanghai Maritime University
Priority to CN202110003759.5A priority Critical patent/CN112784704A/zh
Publication of CN112784704A publication Critical patent/CN112784704A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向小样本视频动作分类的方法,涉及视频动作分类技术领域,包括以下步骤:获取待分类视频,确定所述待分类视频中的多个视频帧,并提取所述视频帧的光流图像;对获取的光流图像进行预处理,并采用金字塔光流算法对光流图像进行迭代处理,其中包括金字塔光流算法追踪动态特征产生的光流运动,对产生光流运动的特征点进行累加,并对发生动态运动的特征点进行记录,获取光流图像集;将获取的光流图像集输入到空间卷积神经网络和时序卷积神经网络。本发明实现能够在保持视频动作类别不发生改变的情况下进行更准确的分类,不仅该方法简单有效,而且能够提高复杂场景下人物动作的识别准确率,提高了分类处理的效率以及精准度。

Description

一种面向小样本视频动作分类的方法
技术领域
本发明涉及视频动作分类技术领域,具体来说,涉及一种面向小样本视频动作分类的方法。
背景技术
随着深度学习的快速发展,计算机视觉领域的诸多任务都得到了不错的成效。视频动作识别也逐渐成为国内外研究人员专注的热点研究问题,目前已经出现了很多能够在现有视频动作识别数据集上达到较高识别度的模型,但是它们大多都依赖大量人工标注过的数据。在实际应用中,更多的是待预测的视频只有一个或者少数几个标注样本的情况。小样本视频动作识别研究的就是如何在标注数据极少的情况下让网络模型拥有快速学习视频特征表示进而进行动作识别的能力。
现有的小样本视频动作识别是用类别无交叉的训练数据去迁移到测试数据上,但相对于视频数据而言,尽管训练数据与测试数据的类别标签不同,依然很难保证测试数据中的动作片段没有出现在训练视频中。
检索中国发明专利CN 110188668B公开了一种面向小样本视频动作分类的方法,针对现有小样本视频动作分类的设定存在训练集与测试集类别交叉的问题,提出基于智能人体的小样本视频识别新模式,利用3D智能虚拟人体与虚拟环境交互的方式生成相同动作的大量虚拟视频,为深度神经网络提供训练样本;此外,还提出基于视频段替换的数据增强方法,通过用语义相近的视频片段替换原视频中某个片段的方法扩充有限的数据集。实验表明该方法对于小样本视频动作识别能起到很大的促进作用,且具有较好的鲁棒性与较强的算法可移植性。但其仍存在一定局限性,适应性较差,而且对于源数据未进行处理,精准度较低。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种面向小样本视频动作分类的方法,以克服现有相关技术所存在的上述技术问题。
本发明的技术方案是这样实现的:
一种面向小样本视频动作分类的方法,包括以下步骤:
步骤S1,获取待分类视频,确定所述待分类视频中的多个视频帧,并提取所述视频帧的光流图像;
步骤S2,对获取的光流图像进行预处理,并采用金字塔光流算法对光流图像进行迭代处理,其中包括金字塔光流算法追踪动态特征产生的光流运动,对产生光流运动的特征点进行累加,并对发生动态运动的特征点进行记录,获取光流图像集;
步骤S3,将获取的光流图像集输入到空间卷积神经网络和时序卷积神经网络,得到所述光流图像集对应的光流特征信息和对应的空间特征信息,其中包括选择一帧视频帧作为起始帧,提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像,并与所述起始帧的RGB图像作为一个样本;
步骤S4,基于所述光流特征信息和所述空间特征信息,输入至视频动作分类模型,确定所述待分类视频对应的分类类别信息。
其中,步骤所述光流图像进行预处理,包括以下步骤:
预先进行光流图像灰度化处理,其中包括标定第一帧和第二帧的运动向量对应关系;
获取第一帧和第二帧的像素的相对深度的深度图值和图像的感知图的感知图值;
基于深度图值和感知图值获取第一帧的增强映射策略;
将获取的增强映射策略再映射第二帧。
其中,所述金字塔光流算法迭代算子最大迭代次数10,收敛阀值0.2,金字塔窗口大小5x5。
其中,所述空间卷积神经网络和所述时序卷积神经网络使用VGG16模型,其中,所述VGG16模型,包括:第一组卷积层及其参数2,64,3,1,1、最大池化层;第二组卷积层及其参数2,128,3,1,1、最大池化层;第三组卷积层及其参数3,256,3,1,1、最大池化层;第四组卷积层及其参数3,512,3,1,1、最大池化层;第五组卷积层及其参数3,512,3,1,1,每组卷积层参数的数字依次代表:该组卷积层的数量、卷积核的数量、卷积核的空间尺度、卷积核移动的空间步长以及该卷积层的输入边缘填充尺度,每组卷积层中的最大池化层的参数为2x2,且所述最高卷积层为所述第五组卷积层中的第3层卷积层。
其中,步骤所述视频动作分类模型,包括以下步骤:
搭建目标神经网络模型作为源参数模型;
获取多个带有标签的训练视频中的训练图像帧,并获取训练图像帧的特征向量;
对多个训练视频的训练图像帧的特征向量进行分布匹配,得到多个训练图像帧集合;
将获取训练图像帧集合对搭建目标神经网络模型进行训练,获得视频动作分类模型。
本发明的有益效果:
本发明一种面向小样本视频动作分类的方法,通过获取待分类视频,确定所述待分类视频中的多个视频帧,并提取所述视频帧的光流图像,对获取的光流图像进行预处理,并采用金字塔光流算法对光流图像进行迭代处理,其中包括金字塔光流算法追踪动态特征产生的光流运动,对产生光流运动的特征点进行累加,并对发生动态运动的特征点进行记录,获取光流图像集;将获取的光流图像集输入到空间卷积神经网络和时序卷积神经网络,得到所述光流图像集对应的光流特征信息的对应的空间特征信息,其中包括选择一帧视频帧作为起始帧,提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像,并与所述起始帧的RGB图像作为一个样本,基于所述光流特征信息和所述空间特征信息,输入至视频动作分类模型,确定所述待分类视频对应的分类类别信息,实现能够在保持视频动作类别不发生改变的情况下进行更准确的分类,不仅该方法简单有效,而且能够提高复杂场景下人物动作的识别准确率,提高了分类处理的效率以及精准度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种面向小样本视频动作分类的方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的实施例,提供了一种面向小样本视频动作分类的方法。
如图1所示,根据本发明实施例的面向小样本视频动作分类的方法,包括以下步骤:
步骤S1,获取待分类视频,确定所述待分类视频中的多个视频帧,并提取所述视频帧的光流图像;
步骤S2,对获取的光流图像进行预处理,并采用金字塔光流算法对光流图像进行迭代处理,其中包括金字塔光流算法追踪动态特征产生的光流运动,对产生光流运动的特征点进行累加,并对发生动态运动的特征点进行记录,获取光流图像集;
步骤S3,将获取的光流图像集输入到空间卷积神经网络和时序卷积神经网络,得到所述光流图像集对应的光流特征信息的对应的空间特征信息,其中包括选择一帧视频帧作为起始帧,提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像,并与所述起始帧的RGB图像作为一个样本;
步骤S4,基于所述光流特征信息和所述空间特征信息,输入至视频动作分类模型,确定所述待分类视频对应的分类类别信息。
借助于上述技术方案,通过获取待分类视频,确定所述待分类视频中的多个视频帧,并提取所述视频帧的光流图像,对获取的光流图像进行预处理,并采用金字塔光流算法对光流图像进行迭代处理,其中包括金字塔光流算法追踪动态特征产生的光流运动,对产生光流运动的特征点进行累加,并对发生动态运动的特征点进行记录,获取光流图像集;将获取的光流图像集输入到空间卷积神经网络和时序卷积神经网络,得到所述光流图像集对应的光流特征信息的对应的空间特征信息,其中包括选择一帧视频帧作为起始帧,提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像,并与所述起始帧的RGB图像作为一个样本,基于所述光流特征信息和所述空间特征信息,输入至视频动作分类模型,确定所述待分类视频对应的分类类别信息,实现能够在保持视频动作类别不发生改变的情况下进行更准确的分类,不仅该方法简单有效,而且能够提高复杂场景下人物动作的识别准确率,提高了分类处理的效率以及精准度。
其中,步骤所述光流图像进行预处理,包括以下步骤:
预先进行光流图像灰度化处理,其中包括标定第一帧和第二帧的运动向量对应关系;
获取第一帧和第二帧的像素的相对深度的深度图值和图像的感知图的感知图值;
基于深度图值和感知图值获取第一帧的增强映射策略;
将获取的增强映射策略再映射第二帧。
其中,所述金字塔光流算法迭代算子最大迭代次数10,收敛阀值0.2,金字塔窗口大小5x5。
其中,所述空间卷积神经网络和所述时序卷积神经网络使用VGG16模型,其中,所述VGG16模型,包括:第一组卷积层及其参数2,64,3,1,1、最大池化层;第二组卷积层及其参数2,128,3,1,1、最大池化层;第三组卷积层及其参数3,256,3,1,1、最大池化层;第四组卷积层及其参数3,512,3,1,1、最大池化层;第五组卷积层及其参数3,512,3,1,1,每组卷积层参数的数字依次代表:该组卷积层的数量、卷积核的数量、卷积核的空间尺度、卷积核移动的空间步长以及该卷积层的输入边缘填充尺度,每组卷积层中的最大池化层的参数为2x2,且所述最高卷积层为所述第五组卷积层中的第3层卷积层。
其中,步骤所述视频动作分类模型,包括以下步骤:
搭建目标神经网络模型作为源参数模型;
获取多个带有标签的训练视频中的训练图像帧,并获取训练图像帧的特征向量;
对多个训练视频的训练图像帧的特征向量进行分布匹配,得到多个训练图像帧集合;
将获取训练图像帧集合对搭建目标神经网络模型进行训练,获得视频动作分类模型。
综上所述,借助于本发明的上述技术方案,通过获取待分类视频,确定所述待分类视频中的多个视频帧,并提取所述视频帧的光流图像,对获取的光流图像进行预处理,并采用金字塔光流算法对光流图像进行迭代处理,其中包括金字塔光流算法追踪动态特征产生的光流运动,对产生光流运动的特征点进行累加,并对发生动态运动的特征点进行记录,获取光流图像集;将获取的光流图像集输入到空间卷积神经网络和时序卷积神经网络,得到所述光流图像集对应的光流特征信息的对应的空间特征信息,其中包括选择一帧视频帧作为起始帧,提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像,并与所述起始帧的RGB图像作为一个样本,基于所述光流特征信息和所述空间特征信息,输入至视频动作分类模型,确定所述待分类视频对应的分类类别信息,实现能够在保持视频动作类别不发生改变的情况下进行更准确的分类,不仅该方法简单有效,而且能够提高复杂场景下人物动作的识别准确率,提高了分类处理的效率以及精准度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种面向小样本视频动作分类的方法,其特征在于,包括以下步骤:
获取待分类视频,确定所述待分类视频中的多个视频帧,并提取所述视频帧的光流图像;
对获取的光流图像进行预处理,并采用金字塔光流算法对光流图像进行迭代处理,其中包括金字塔光流算法追踪动态特征产生的光流运动,对产生光流运动的特征点进行累加,并对发生动态运动的特征点进行记录,获取光流图像集;
将获取的光流图像集输入到空间卷积神经网络和时序卷积神经网络,得到所述光流图像集对应的光流特征信息和对应的空间特征信息,其中包括选择一帧视频帧作为起始帧,提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像,并与所述起始帧的RGB图像作为一个样本;
基于所述光流特征信息和所述空间特征信息,输入至视频动作分类模型,确定所述待分类视频对应的分类类别信息。
2.根据权利要求1所述的面向小样本视频动作分类的方法,其特征在于,步骤所述光流图像进行预处理,包括以下步骤:
预先进行光流图像灰度化处理,其中包括标定第一帧和第二帧的运动向量对应关系;
获取第一帧和第二帧的像素的相对深度的深度图值和图像的感知图的感知图值;
基于深度图值和感知图值获取第一帧的增强映射策略;
将获取的增强映射策略再映射第二帧。
3.根据权利要求2所述的面向小样本视频动作分类的方法,其特征在于,所述金字塔光流算法迭代算子最大迭代次数10,收敛阀值0.2,金字塔窗口大小5x5。
4.根据权利要求1所述的面向小样本视频动作分类的方法,其特征在于,所述空间卷积神经网络和所述时序卷积神经网络使用VGG16模型,其中,所述VGG16模型,包括:第一组卷积层及其参数2,64,3,1,1、最大池化层;第二组卷积层及其参数2,128,3,1,1、最大池化层;第三组卷积层及其参数3,256,3,1,1、最大池化层;第四组卷积层及其参数3,512,3,1,1、最大池化层;第五组卷积层及其参数3,512,3,1,1,每组卷积层参数的数字依次代表:该组卷积层的数量、卷积核的数量、卷积核的空间尺度、卷积核移动的空间步长以及该卷积层的输入边缘填充尺度,每组卷积层中的最大池化层的参数为2x2,且所述最高卷积层为所述第五组卷积层中的第3层卷积层。
5.根据权利要求1所述的面向小样本视频动作分类的方法,其特征在于,步骤所述视频动作分类模型,包括以下步骤:
搭建目标神经网络模型作为源参数模型;
获取多个带有标签的训练视频中的训练图像帧,并获取训练图像帧的特征向量;
对多个训练视频的训练图像帧的特征向量进行分布匹配,得到多个训练图像帧集合;
将获取训练图像帧集合对搭建目标神经网络模型进行训练,获得视频动作分类模型。
CN202110003759.5A 2021-01-04 2021-01-04 一种面向小样本视频动作分类的方法 Pending CN112784704A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110003759.5A CN112784704A (zh) 2021-01-04 2021-01-04 一种面向小样本视频动作分类的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110003759.5A CN112784704A (zh) 2021-01-04 2021-01-04 一种面向小样本视频动作分类的方法

Publications (1)

Publication Number Publication Date
CN112784704A true CN112784704A (zh) 2021-05-11

Family

ID=75753798

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110003759.5A Pending CN112784704A (zh) 2021-01-04 2021-01-04 一种面向小样本视频动作分类的方法

Country Status (1)

Country Link
CN (1) CN112784704A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104246822A (zh) * 2012-03-22 2014-12-24 高通股份有限公司 图像增强
WO2017107188A1 (zh) * 2015-12-25 2017-06-29 中国科学院深圳先进技术研究院 视频分类快速识别的方法及装置
CN107180428A (zh) * 2017-06-09 2017-09-19 电子科技大学 一种基于光流算法的磁光图像增强方法
CN107463949A (zh) * 2017-07-14 2017-12-12 北京协同创新研究院 一种视频动作分类的处理方法及装置
CN109376696A (zh) * 2018-11-28 2019-02-22 北京达佳互联信息技术有限公司 视频动作分类的方法、装置、计算机设备和存储介质
CN109740670A (zh) * 2019-01-02 2019-05-10 京东方科技集团股份有限公司 视频分类的方法及装置
CN109919031A (zh) * 2019-01-31 2019-06-21 厦门大学 一种基于深度神经网络的人体行为识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104246822A (zh) * 2012-03-22 2014-12-24 高通股份有限公司 图像增强
WO2017107188A1 (zh) * 2015-12-25 2017-06-29 中国科学院深圳先进技术研究院 视频分类快速识别的方法及装置
CN107180428A (zh) * 2017-06-09 2017-09-19 电子科技大学 一种基于光流算法的磁光图像增强方法
CN107463949A (zh) * 2017-07-14 2017-12-12 北京协同创新研究院 一种视频动作分类的处理方法及装置
CN109376696A (zh) * 2018-11-28 2019-02-22 北京达佳互联信息技术有限公司 视频动作分类的方法、装置、计算机设备和存储介质
CN109740670A (zh) * 2019-01-02 2019-05-10 京东方科技集团股份有限公司 视频分类的方法及装置
US20200210708A1 (en) * 2019-01-02 2020-07-02 Boe Technology Group Co., Ltd. Method and device for video classification
CN109919031A (zh) * 2019-01-31 2019-06-21 厦门大学 一种基于深度神经网络的人体行为识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张怡佳;茅耀斌;: "基于双流卷积神经网络的改进人体行为识别算法", 计算机测量与控制, no. 08 *

Similar Documents

Publication Publication Date Title
CN111178197B (zh) 基于Mask R-CNN和Soft-NMS融合的群养粘连猪实例分割方法
CN108960245B (zh) 轮胎模具字符的检测与识别方法、装置、设备及存储介质
CN106778687B (zh) 基于局部评估和全局优化的注视点检测方法
CN110929593B (zh) 一种基于细节辨别区别的实时显著性行人检测方法
CN112837344B (zh) 一种基于条件对抗生成孪生网络的目标跟踪方法
CN112836734A (zh) 一种异源数据融合方法及装置、存储介质
CN114220035A (zh) 一种基于改进yolo v4的快速害虫检测方法
CN108171133B (zh) 一种基于特征协方差矩阵的动态手势识别方法
CN111783576A (zh) 基于改进型YOLOv3网络和特征融合的行人重识别方法
CN104408760B (zh) 一种基于双目视觉的高精度虚拟装配系统算法
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
CN105160310A (zh) 基于3d卷积神经网络的人体行为识别方法
CN112861575A (zh) 一种行人结构化方法、装置、设备和存储介质
CN111428550A (zh) 一种基于改进YOLOv3的车辆检测方法
CN109035300B (zh) 一种基于深度特征与平均峰值相关能量的目标跟踪方法
CN111553949A (zh) 基于单帧rgb-d图像深度学习对不规则工件的定位抓取方法
CN111738344A (zh) 一种基于多尺度融合的快速目标检测方法
CN113408584B (zh) Rgb-d多模态特征融合3d目标检测方法
Dong Optimal Visual Representation Engineering and Learning for Computer Vision
CN108038515A (zh) 无监督多目标检测跟踪方法及其存储装置与摄像装置
CN111368637B (zh) 一种基于多掩模卷积神经网络的搬运机器人识别目标方法
CN112949704A (zh) 一种基于图像分析的烟叶成熟度状态识别方法及装置
CN110827312A (zh) 一种基于协同视觉注意力神经网络的学习方法
CN114723010B (zh) 一种异步事件数据的自动学习增强方法及系统
CN115620393A (zh) 一种面向自动驾驶的细粒度行人行为识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination