CN108416266B - 一种利用光流提取运动目标的视频行为快速识别方法 - Google Patents

一种利用光流提取运动目标的视频行为快速识别方法 Download PDF

Info

Publication number
CN108416266B
CN108416266B CN201810090541.6A CN201810090541A CN108416266B CN 108416266 B CN108416266 B CN 108416266B CN 201810090541 A CN201810090541 A CN 201810090541A CN 108416266 B CN108416266 B CN 108416266B
Authority
CN
China
Prior art keywords
image
video
optical flow
images
videos
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810090541.6A
Other languages
English (en)
Other versions
CN108416266A (zh
Inventor
赵生捷
陈伟超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201810090541.6A priority Critical patent/CN108416266B/zh
Publication of CN108416266A publication Critical patent/CN108416266A/zh
Application granted granted Critical
Publication of CN108416266B publication Critical patent/CN108416266B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种利用光流提取运动目标的视频行为快速识别方法,包括:步骤S1:接收多个视频,逐帧读取视频中的图像并保存为图片格式文件;步骤S2:将所有图像的尺寸统一到设定值,并将所有视频分为训练集和测试集;步骤S3:提取每个视频的光流图像;步骤S4:选择各视频中灰度值最大的光流图像,提取其灰度值处于设定范围之外的部分,并作用于该图像的原始RGB图像得到mask图像;步骤S5:将训练集中各视频选择的mask图像和光流图像分别输入双流卷积神经网络的空间流和时间流进行训练;步骤S6:将测试集中各视频选择的mask图像和光流图像分别输入双流卷积神经网络的空间流和时间流进行识别。与现有技术相比,本发明具有运算速度快等优点。

Description

一种利用光流提取运动目标的视频行为快速识别方法
技术领域
本发明涉及一种视频识别技术,尤其是涉及一种利用光流提取运动目标的视频行为快速识别方法。
背景技术
以往的视频行为识别方法大多是基于一些对应用场景严苛的假设上,例如目标小尺度变化和视觉改变等,这些方法在现实世界中是很难满足的。
目前,在这方面,大部分当前的方法都是遵循两个步骤:(1)在原始的输入中提取复杂的人工特征;(2)在获取的特征上学习分类器。现实世界的场景中,几乎很难知道对于一个具体的任务什么样的特征才是重要的,因为特征的选择与具体的问题高度依赖。特别是行为识别上,不同的运动类型在外观和运动模型上都呈现出非常大的不同。
而卷积神经网络是人工神经网络的一种已成为当前语音分析和图像识别领域的研究热点,它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。
传统的卷积神经网络是为了识别二维形状而设计的多层感知器,无法对三维的运动图像进行多层感知,无法满足现在的要求。
江南大学申请的专利“基于图像深度信息的3D高斯空间人体行为识别方法”(专利申请号201410009445,公开号CN103810496A)中公开了一种基于图像深度信息的3D高斯空间人体行为识别方法。该专利首先提取深度信息中的人体骨骼3D坐标并对其进行归一化操作,过滤对人体行为识别率低的关节及冗余关节,并针对各个行为构建兴趣关节群,基于高斯距离核对人体动作空间特征进行AP聚类,获得行为特征单词表并对其进行数据清理,从而构建人体行为条件随机场识别模型,据此实现对人体行为的分类。该专利申请公开的方法存在的不足是:在原始输入中提取的人工特征过于复杂,计算分析数据慢;模型的更新较为复杂,实时性较差。
Davis在其发表的论文“The recognition of human movement using temporaltemplates.”(Pattern Analysis and Machine Intelligence,IEEE Transactions on 23(3):257-267)中提出了采用轮廓来描述人体的运动信息的方法。该方法用MEI和MHI两个模板来保存对应的一个动作信息,然后用马氏距离分类器来进行识别。MEI为运动能量图,用来指示运动在哪些部位发生过,MHI为运动历史图,除了体现运动发生的空间位置外还体现了运动的时间先后顺序。这两种特征都是从背景减图中获取的。该方法存在的不足之处是:数据比较大,计算量大;对于快速运动的物体或者形变较大的情况,跟踪效果不够理想。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种利用光流提取运动目标的视频行为快速识别方法。
本发明的目的可以通过以下技术方案来实现:
一种利用光流提取运动目标的视频行为快速识别方法,包括:
步骤S1:接收多个视频,逐帧读取视频中的图像并保存为图片格式文件;
步骤S2:将所有图像的尺寸统一到设定值,并将所有视频分为训练集和测试集;
步骤S3:提取每个视频的光流图像;
步骤S4:选择各视频中灰度值最大的光流图像,提取其灰度值处于设定范围之外的部分,并作用于该图像的原始RGB图像得到mask图像;
步骤S5:将训练集中各视频选择的mask图像和光流图像分别输入双流卷积神经网络的空间流和时间流进行训练;
步骤S6:将测试集中各视频选择的mask图像和光流图像分别输入双流卷积神经网络的空间流和时间流进行识别。
所述步骤S1中输入的视频文件被分为多个类别,每个类别包括多个视频文件,所述步骤S2中每个类别中选择设定比例的视频作为训练集。
每个类别中80%的视频作为训练集。
视频文件的类别共有51个,每个类别包括5个视频文件。
所述步骤S2中所有图像的尺寸被统一至256*340像素大小。
所述步骤S1中的图片格式为jpg。
所述步骤S3中对单个视频的处理过程具体包括:
步骤S31:将视频中的所有图像处理为灰度图;
步骤S32:计算各灰度图的变化率:
Figure GDA0003157116340000031
其中:Ix为灰度图的灰度值沿x方向的变化率,Iy为图像提取后的灰度值沿y方向的变化率,It为灰度图的灰度值沿时间t方向的变化率,I为灰度图:;
步骤S33:计算图像在x和y方向的光流矢量:
Figure GDA0003157116340000032
其中:其中,U为图像在x,y方向上的光流矢量,T表示转置;
步骤S34:将所有光流图像保存为jpg格式的灰度图像。
所述步骤S5具体包括:
步骤S51:输入mask图像和光流图像;
步骤S52:判断输入图像的有效区域边界,对边界所构成的方形区域进行卷积,得到下一层对应的卷积结果;
步骤S53:在无效的背景区域,直接输出结果为0的卷积结果到下一层对应的位置;
步骤S54:双流卷积神经网络训练采用随机梯度下降算法,对双流卷积神经网络提取得到的特征向量进行加权融合得到最终结果。
与现有技术相比,本发明具有以下有益效果:
1)基本结构是双流卷积神经网络,网络的双流输入分别是RGB图像和光流的灰度图像,有效的提取了视频中的静态信息和动态联系,从而在视频行为识别方面达到了很好的准确率。
2)利用自适应卷积操作取代传统的全局卷积,减少了与背景卷积所带来的计算开销,从而提升了网络正向传播预测时的运算速度。
附图说明
图1为本发明方法的主要步骤流程示意图;
图2为本发明方法的流程架构示意图;
图3为及本发明处理结果示意图;
图4为本发明双流卷积神经网络的数据流向示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
一种利用光流提取运动目标的视频行为快速识别方法,如图1和图2所示,包括:
步骤S1:接收多个视频,逐帧读取视频中的图像并保存为图片格式文件,具体的,将HMDB51数据集所有51个类别的视频文件输入计算机,逐帧读取视频图像并保存为jpg格式。
步骤S2:将所有图像的尺寸统一到设定值,并将所有视频分为训练集和测试集,具体的,将所有图像尺寸统一到256*340像素大小,随机分成5份,1-4份作为训练数据集,第5份作为测试数据集。
步骤S3:提取每个视频的光流图像,其中对单个视频的处理过程具体包括:
步骤S31:将视频中的所有图像处理为灰度图;
步骤S32:计算各灰度图的变化率:
Figure GDA0003157116340000041
其中:Ix为灰度图的灰度值沿x方向的变化率,Iy为图像提取后的灰度值沿y方向的变化率,It为灰度图的灰度值沿时间t方向的变化率,I为灰度图,
Figure GDA0003157116340000042
为偏导数;
步骤S33:计算图像在x和y方向的光流矢量:
Figure GDA0003157116340000043
其中:其中,U为图像在x,y方向上的光流矢量,T表示转置;
步骤S34:将所有光流图像保存为jpg格式的灰度图像。
步骤S4:选择各视频中灰度值最大的光流图像,提取其灰度值处于设定范围之外的部分,并作用于该图像的原始RGB图像得到mask图像,其中所提取的部分即为除灰色值以外的部分,本实施例中将灰度值处于126~128之间的部分认为设定范围内的部分。
步骤S5:如图4所示,将训练集中各视频选择的mask图像和光流图像分别输入双流卷积神经网络的空间流和时间流进行训练,采用自适应的卷积算法对mask图像中有效区域进行卷积,避免背景区域的运算,其中双流神经网络的架构中的双流均采用BN-Inception-v2结构,预置参数按照其在ImageNet上训练得到的参数,最后输出层神经元设置为51,对应视频数据集中的51个类别。
具体包括:
步骤S51:输入mask图像和光流图像;
步骤S52:判断输入图像的有效区域边界,对边界所构成的方形区域进行卷积,得到下一层对应的卷积结果;
步骤S53:在无效的背景区域,直接输出结果为0的卷积结果到下一层对应的位置;
步骤S54:如图3所示,双流卷积神经网络训练采用随机梯度下降算法,对双流卷积神经网络提取得到的特征向量进行加权融合(权重为1:1.5)得到最终结果,将输出的测试结果与一些基准方法得到的测试结果进行比较,验证本方法的有效性。
步骤S6:将测试集中各视频选择的mask图像和光流图像分别输入双流卷积神经网络的空间流和时间流进行识别。

Claims (6)

1.一种利用光流提取运动目标的视频行为快速识别方法,其特征在于,包括:
步骤S1:接收多个视频,逐帧读取视频中的图像并保存为图片格式文件;
步骤S2:将所有图像的尺寸统一到设定值,并将所有视频分为训练集和测试集;
步骤S3:提取每个视频的光流图像;
步骤S4:选择各视频中灰度值最大的光流图像,提取其灰度值处于设定范围之外的部分,并作用于该图像的原始RGB图像得到mask图像;
步骤S5:将训练集中各视频选择的mask图像和光流图像分别输入双流卷积神经网络的空间流和时间流进行训练;
步骤S6:将测试集中各视频选择的mask图像和光流图像分别输入双流卷积神经网络的空间流和时间流进行识别;
所述步骤S3中对单个视频的处理过程具体包括:
步骤S31:将视频中的所有图像处理为灰度图,
步骤S32:计算各灰度图的变化率:
Figure FDA0003157116330000011
其中:Ix为灰度图的灰度值沿x方向的变化率,Iy为图像提取后的灰度值沿y方向的变化率,It为灰度图的灰度值沿时间t方向的变化率,I为灰度图,
步骤S33:计算图像在x和y方向的光流矢量:
Figure FDA0003157116330000012
其中:其中,U为图像在x,y方向上的光流矢量,T表示转置,
步骤S34:将所有光流图像保存为jpg格式的灰度图像;
所述步骤S5具体包括:
步骤S51:输入mask图像和光流图像;步骤S52:判断输入图像的有效区域边界,对边界所构成的方形区域进行卷积,得到下一层对应的卷积结果;步骤S53:在无效的背景区域,直接输出结果为0的卷积结果到下一层对应的位置;步骤S54:双流卷积神经网络训练采用随机梯度下降算法,对双流卷积神经网络提取得到的特征向量进行加权融合得到最终结果。
2.根据权利要求1所述的一种利用光流提取运动目标的视频行为快速识别方法,其特征在于,所述步骤S1中输入的视频文件被分为多个类别,每个类别包括多个视频文件,所述步骤S2中每个类别中选择设定比例的视频作为训练集。
3.根据权利要求2所述的一种利用光流提取运动目标的视频行为快速识别方法,其特征在于,每个类别中80%的视频作为训练集。
4.根据权利要求2所述的一种利用光流提取运动目标的视频行为快速识别方法,其特征在于,视频文件的类别共有51个,每个类别包括5个视频文件。
5.根据权利要求1所述的一种利用光流提取运动目标的视频行为快速识别方法,其特征在于,所述步骤S2中所有图像的尺寸被统一至256*340像素大小。
6.根据权利要求1所述的一种利用光流提取运动目标的视频行为快速识别方法,其特征在于,所述步骤S1中的图片格式为jpg。
CN201810090541.6A 2018-01-30 2018-01-30 一种利用光流提取运动目标的视频行为快速识别方法 Active CN108416266B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810090541.6A CN108416266B (zh) 2018-01-30 2018-01-30 一种利用光流提取运动目标的视频行为快速识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810090541.6A CN108416266B (zh) 2018-01-30 2018-01-30 一种利用光流提取运动目标的视频行为快速识别方法

Publications (2)

Publication Number Publication Date
CN108416266A CN108416266A (zh) 2018-08-17
CN108416266B true CN108416266B (zh) 2021-10-08

Family

ID=63126547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810090541.6A Active CN108416266B (zh) 2018-01-30 2018-01-30 一种利用光流提取运动目标的视频行为快速识别方法

Country Status (1)

Country Link
CN (1) CN108416266B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109410242B (zh) * 2018-09-05 2020-09-22 华南理工大学 基于双流卷积神经网络的目标跟踪方法、系统、设备及介质
US11200424B2 (en) * 2018-10-12 2021-12-14 Adobe Inc. Space-time memory network for locating target object in video content
CN109376747A (zh) * 2018-12-11 2019-02-22 北京工业大学 一种基于双流卷积神经网络的视频火焰检测方法
CN109711338A (zh) * 2018-12-26 2019-05-03 上海交通大学 利用光流指导特征融合的物体实例分割方法
CN111401104B (zh) * 2019-01-02 2023-10-31 顺丰科技有限公司 分类模型的训练方法、分类方法、装置、设备及存储介质
CN110032942B (zh) * 2019-03-15 2021-10-08 中山大学 基于时域分段及特征差分的动作识别方法
CN110007675B (zh) * 2019-04-12 2021-01-15 北京航空航天大学 一种基于行车态势图的车辆自动驾驶决策系统及基于无人机的训练集制备方法
CN110135386B (zh) * 2019-05-24 2021-09-03 长沙学院 一种基于深度学习的人体动作识别方法和系统
CN110399789B (zh) * 2019-06-14 2021-04-20 佳都新太科技股份有限公司 行人重识别方法、模型构建方法、装置、设备和存储介质
CN110348321A (zh) * 2019-06-18 2019-10-18 杭州电子科技大学 基于骨骼时空特征及长短时记忆网络的人体动作识别方法
CN110458038B (zh) * 2019-07-19 2021-10-26 天津理工大学 基于双链深度双流网络的小数据跨域动作识别方法
CN110866489B (zh) * 2019-11-07 2020-12-04 腾讯科技(深圳)有限公司 图像识别方法、装置、设备及存储介质
CN111160115B (zh) * 2019-12-10 2023-05-02 上海工程技术大学 一种基于孪生双流3d卷积神经网络的视频行人再识别方法
CN111401308B (zh) * 2020-04-08 2023-03-24 蚌埠学院 一种基于光流效应的鱼类行为视频识别方法
CN114283060A (zh) * 2021-12-20 2022-04-05 北京字节跳动网络技术有限公司 视频生成方法、装置、设备及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6654483B1 (en) * 1999-12-22 2003-11-25 Intel Corporation Motion detection using normal optical flow
CN1468004A (zh) * 2002-06-27 2004-01-14 上海汉唐科技有限公司 基于时空梯度范围和分层结构的全局运动估计方法
CN103793922B (zh) * 2013-09-12 2016-07-06 电子科技大学 一种特定姿态实时检测方法
CN104504362A (zh) * 2014-11-19 2015-04-08 南京艾柯勒斯网络科技有限公司 基于卷积神经网络的人脸检测方法
CN105160310A (zh) * 2015-08-25 2015-12-16 西安电子科技大学 基于3d卷积神经网络的人体行为识别方法
CN107305635A (zh) * 2016-04-15 2017-10-31 株式会社理光 对象识别方法、对象识别装置和分类器训练方法
CN106204484B (zh) * 2016-07-11 2020-07-24 徐州工程学院 一种基于光流和局部不变特征的交通目标跟踪方法
CN106991686B (zh) * 2017-03-13 2019-05-28 电子科技大学 一种基于超像素光流场的水平集轮廓跟踪方法
CN107169415B (zh) * 2017-04-13 2019-10-11 西安电子科技大学 基于卷积神经网络特征编码的人体动作识别方法
CN107085609A (zh) * 2017-04-24 2017-08-22 国网湖北省电力公司荆州供电公司 一种基于神经网络进行多特征融合的行人检索方法

Also Published As

Publication number Publication date
CN108416266A (zh) 2018-08-17

Similar Documents

Publication Publication Date Title
CN108416266B (zh) 一种利用光流提取运动目标的视频行为快速识别方法
JP7236545B2 (ja) ビデオターゲット追跡方法と装置、コンピュータ装置、プログラム
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN111027493B (zh) 一种基于深度学习多网络软融合的行人检测方法
CN111179217A (zh) 一种基于注意力机制的遥感图像多尺度目标检测方法
CN111860171B (zh) 一种大规模遥感图像中不规则形状目标的检测方法及系统
CN105160310A (zh) 基于3d卷积神经网络的人体行为识别方法
CN113221639A (zh) 一种基于多任务学习的代表性au区域提取的微表情识别方法
CN109543548A (zh) 一种人脸识别方法、装置及存储介质
CN110929593A (zh) 一种基于细节辨别区别的实时显著性行人检测方法
CN110991274B (zh) 一种基于混合高斯模型和神经网络的行人摔倒检测方法
CN111738344A (zh) 一种基于多尺度融合的快速目标检测方法
CN112329771B (zh) 一种基于深度学习的建筑材料样本识别方法
CN109886159B (zh) 一种非限定条件下的人脸检测方法
Li et al. A weak supervision machine vision detection method based on artificial defect simulation
CN114757904A (zh) 一种基于ai深度学习算法的表面缺陷检测方法
CN111539320B (zh) 基于互相学习网络策略的多视角步态识别方法及系统
CN112749675A (zh) 一种基于卷积神经网络的马铃薯病害识别方法
CN114332473A (zh) 目标检测方法、装置、计算机设备、存储介质及程序产品
CN111401209B (zh) 一种基于深度学习的动作识别方法
CN110570450B (zh) 一种基于级联的上下文感知框架的目标跟踪方法
CN117011648A (zh) 一种基于单个真实样本的触觉图像数据集扩充方法及设备
CN110334703B (zh) 一种昼夜图像中的船舶检测和识别方法
CN116912670A (zh) 基于改进yolo模型的深海鱼类识别方法
Fan et al. BFNet: Brain-like Feedback Network for Object Detection under Severe Weather

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant