CN111626178B - 一种基于新时空特征流的压缩域视频动作识别方法和系统 - Google Patents

一种基于新时空特征流的压缩域视频动作识别方法和系统 Download PDF

Info

Publication number
CN111626178B
CN111626178B CN202010445471.9A CN202010445471A CN111626178B CN 111626178 B CN111626178 B CN 111626178B CN 202010445471 A CN202010445471 A CN 202010445471A CN 111626178 B CN111626178 B CN 111626178B
Authority
CN
China
Prior art keywords
stream
frame
motion vector
module
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010445471.9A
Other languages
English (en)
Other versions
CN111626178A (zh
Inventor
丁昊
江凯华
江小平
石鸿凌
李成华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South Central Minzu University
Original Assignee
South Central University for Nationalities
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South Central University for Nationalities filed Critical South Central University for Nationalities
Priority to CN202010445471.9A priority Critical patent/CN111626178B/zh
Publication of CN111626178A publication Critical patent/CN111626178A/zh
Application granted granted Critical
Publication of CN111626178B publication Critical patent/CN111626178B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种利用新时空特征流的压缩域视频动作识别方法,包括:提取压缩视频序列中的I帧数据、P帧中的运动矢量数据和残差数据,并对该运动矢量数据和残差数据进行预处理。将预处理后运动矢量的双通道数据和预处理后残差的单通道数据分别作为R/G/B通道融合构建新时空特征图像并输入CNN卷积神经网络模型中训练和测试,以得到动作的识别种类分数。对于提取到的I帧数据和预处理后的运动矢量数据分别输入CNN卷积神经网络模型中训练和测试,以得到动作的识别种类分数,最后以比例2:1:1融合这三种数据的动作的识别种类分数得到最终的动作识别结果。本发明能解决现有视频动作识别方法中存在的识别准确率不高、计算过程繁杂的技术问题。

Description

一种基于新时空特征流的压缩域视频动作识别方法和系统
技术领域
本发明属于深度学习和模式识别技术领域,更具体地,涉及一种基于新时空特征流的压缩域视频动作识别方法和系统。
背景技术
伴随着人们对人工智能需求的不断增加,视频动作识别技术已成为计算机视觉的重要问题,其广泛地推动了人工智能的发展。
现有的视频动作识别方法主要包括以下四种,第一种是基于人工特征的视频动作识别,其主要是密集地提取和追踪光流中每个像素特征,对其编码后进行分类;第二种是基于双流的神经网络,其将视频分成空间和时间两个部分,分别将RGB图像和光流图像送入两支神经网络,并融合得到最终分类结果;第三种是基于三维卷积的神经网络,其针对视频将神经网络优化为三维卷积神经网络,以此来捕捉更多的时间和空间信息,并且得到了比较好的识别效果;第四种是基于压缩域的运动矢量数据和离散余弦变换(Discrete CosineTransform,简称DCT),系数,以梯度直方图、光流直方图和密集轨迹等方式构建简便的数学模型,最终得出预测结果。
然而,上述视频动作识别方法均存在一些不可忽略的技术问题,针对上述第一种方法而言,其对于小数据集和特定动作有一定的效果,但在处理大规模数据集时,密集轨迹的特征缺乏一定的灵活性和可扩展性,因此无法实现更实时、有效的分类;在上述第二种方法中,如果不使用光流,则其识别精度不高,如果使用光流,则其计算开销很大;在上述第三种方法中,三维卷积神经网络的数据计算量远远大于二维卷积神经网络的数据计算量,因而极大地占用了计算资源;上述第四种方法对于特定动作有识别效果,但是其普适性太低,且不能处理尺度变化问题,因此无法达到在一定的识别精度保障下正确识别多种动作的基本要求。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于新时空特征流的压缩域视频动作识别方法和系统,其目的在于,解决现有视频动作识别方法中存在的上述技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于新时空特征流的压缩域视频动作识别方法,包括以下步骤:
(1)从压缩视频码流中随机获取多个I帧和P帧,并对所有I帧进行解码处理,以得到I帧流,即原始RGB帧集合;
(2)将步骤(1)得到的I帧流输入训练好的Resnet-152 2D卷积神经网络模型中,以得到该I帧流中每一个I帧对应动作的预判分数。提取步骤(1)得到的每一个P帧中的运动矢量和残差,所有P帧中的运动矢量和残差分别构成运动矢量流和残差流,并对每一个P帧中的运动矢量进行运动目标预提取,以得到该P帧对应的运动目标;
(3)使用累计算法对步骤(2)中得到的运动矢量流和残差流分别做累计处理,以分别得到累计运动矢量流和累计残差流。
(4)对步骤(3)得到的累计运动矢量流先后进行空间滤波处理和时间滤波处理,以得到预处理后的累计运动矢量流;
(5)使用步骤(3)得到的累计残差流和步骤(4)得到的预处理后的累计运动矢量流创建新时空特征流;
(6)将步骤(4)得到的预处理后的累计运动矢量流和步骤(5)创建的新时空特征流输入训练好的Densenet-121 2D卷积神经网络中,以分别得到预处理后的累计运动矢量流中每一个累计运动矢量对应动作的预判分数、以及新时空特征流中每一个时空特征对应动作的预判分数。
(7)将步骤(2)中得到的I帧流中每一个I帧对应动作的预判分数、该动作在步骤(6)得到的预处理后的累计运动矢量流中对应的预判分数、以及该动作在步骤(6)得到的新时空特征流中对应的预判分数按照其比例进行分数相加,从而得到每一个动作的最后得分,将最后得分中最高的动作作为最终识别的动作。
优选地,步骤(2)中使用的Resnet-152 2D卷积神经网络模型是通过以下过程训练得到的:
(a)获取公开的动作识别数据集HMDB-51和/或数据集UCF-101,并按照数据集的要求来划分训练集和测试集;
(b)根据训练集的标签,随机选取训练集中的一个视频,并将该视频的全部I帧以RGB图像的形式重新裁剪为256x340尺寸大小,并将裁剪后的全部I帧输入卷积神经网络;
(c)使用反向传播算法对卷积神经网络中每层的权重参数和偏置参数进行更新和优化,以得到更新后的卷积神经网络;
(d)对步骤(a)更新后的卷积神经网络进行迭代训练,直到该卷积神经网络的损失函数达到最小为止;
(e)使用步骤(a)得到的数据集中的测试集对迭代训练后的卷积神经网络进行迭代验证,直到得到的分类精度达到最优为止,从而得到训练好的卷积神经网络。
优选地,步骤(2)中,对每一个P帧中的运动矢量进行运动目标预提取,以得到该P帧对应的运动目标这一过程具体为:
首先,获取该P帧中的非边缘宏块(即该P帧中除了最上方、最下方、最左方、以及最右方以外的宏块)作为当前宏块,并设置一个N×N宏块大小的搜索窗口,其中N为正整数;
然后,计算搜索窗口中该当前宏块的运动矢量MVCur的模和与该当前宏块相邻的N2-1个宏块中每一个的运动矢量MVi的模之间差的绝对值,然后将所有得到的绝对值相加并取均值,从而得到搜索窗口的阈值θ;
随后,统计上述得到的所有绝对值中小于θ的绝对值的总数α,以及该当前宏块相邻的(N2-1)个宏块中运动矢量不为零的宏块总数β,当α大于β/2,并且当前宏块运动矢量的模不为零时,将该中心宏块标记为运动目标;
然后,针对该P帧中的每一个剩余宏块,重复以上操作,直到该P帧的所有宏块都被处理完毕为止。
优选地,步骤(5)包括以下子步骤:
(5-1)对步骤(3)得到的累计残差流中每一帧的残差进行最大值灰度化处理,以得到该帧对应的灰度残差,累计残差流中所有帧的灰度残差构成灰度残差流;
(5-2)获取灰度残差流中一帧对应的灰度残差和步骤(4)预处理后的累计运动矢量流中该帧对应的运动矢量进行通道融合,以得到该帧对应的三通道新时空特;
(5-3)针对灰度残差流中剩余帧对应的灰度残差,重复上述步骤(5-2),直至灰度残差流中的所有帧都被处理完毕为止,得到的所有三通道新时空特征组成新时空特征流。
优选地,三通道新时空特征
Figure BDA0002505714460000041
Figure BDA0002505714460000042
其中MV表示该帧的运动矢量,
Figure BDA0002505714460000043
表示该帧经过步骤(4)预处理后的累计运动矢量的大小,H表示该帧经过步骤(4)预处理后的累计运动矢量的高度,W表示该帧经过步骤(4)预处理后的累计运动矢量的宽度,GrayR表示该帧对应的灰度残差。
优选地,步骤(6)中使用的Densenet-121 2D卷积神经网络模型是通过以下过程训练得到的:
(a)采用公开的动作识别数据集HMDB-51和/或数据集UCF-101,并按照数据集的要求来划分训练集和测试集;
(b)根据训练集的标签,随机选取一个视频,并将对应视频重新裁剪为256x340尺寸大小后,输入卷积神经网络;
(c)使用密集连接算法对卷积神经网络中每层的权重参数和偏置参数进行更新和优化,以得到更新后的卷积神经网络;
(d)对步骤(a)更新后的卷积神经网络进行迭代训练,直到该卷积神经网络的损失函数达到最小为止;
(e)使用步骤(a)得到的数据集中的测试集对迭代训练后的卷积神经网络进行迭代验证,直到得到的分类精度达到最优为止,从而得到训练好的卷积神经网络。
按照本发明的另一方面,提供了一种基于新时空特征流的压缩域视频动作识别系统,包括:
第一模块,用于从压缩视频码流中随机获取多个I帧和P帧,并对所有I帧进行解码处理,以得到I帧流,即原始RGB帧集合;
第二模块,用于将第一模块得到的I帧流输入训练好的Resnet-152 2D卷积神经网络模型中,以得到该I帧流中每一个I帧对应动作的预判分数。提取第一模块得到的每一个P帧中的运动矢量和残差,所有P帧中的运动矢量和残差分别构成运动矢量流和残差流,并对每一个P帧中的运动矢量进行运动目标预提取,以得到该P帧对应的运动目标;
第三模块,用于使用累计算法对第二模块得到的运动矢量流和残差流分别做累计处理,以分别得到累计运动矢量流和累计残差流。
第四模块,用于对第三模块得到的累计运动矢量流先后进行空间滤波处理和时间滤波处理,以得到预处理后的累计运动矢量流;
第五模块,用于使用第三模块得到的累计残差流和第四模块得到的预处理后的累计运动矢量流创建新时空特征流;
第六模块,用于将第四模块得到的预处理后的累计运动矢量流和第五模块创建的新时空特征流输入训练好的Densenet-121 2D卷积神经网络中,以分别得到预处理后的累计运动矢量流中每一个累计运动矢量对应动作的预判分数、以及新时空特征流中每一个时空特征对应动作的预判分数。
第七模块,用于将第二模块得到的I帧流中每一个I帧对应动作的预判分数、该动作在第六模块得到的预处理后的累计运动矢量流中对应的预判分数、以及该动作在第六模块得到的新时空特征流中对应的预判分数按照其比例进行分数相加,从而得到每一个动作的最后得分,将最后得分中最高的动作作为最终识别的动作。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)由于本发明采用了步骤(2)和步骤(5),即在特征送入网络之前,对特征进行详细地特征预处理步骤,因此卷积神经网络对该特征的辨识度更高。
(2)由于本发明采用了步骤(2)的视频压缩域标准,其特征具有信息密度大、信息关联度高等特点,因此能够解决现有视频动作识别方法存在的不使用光流,则其识别精度不高,如果使用光流,则其计算开销很大的技术问题;
(3)由于本发明的方法中采用了步骤(3)、步骤(4)和步骤(5),其运动矢量残差数据具有普适性,因此该方法可广泛适用于各类动作的基本识别;
(4)由于本发明的方法中采用了步骤(4),其利用压缩视频中图像帧的运动矢量时间相关性和空间相关性,从而提升本发明对于利用若干图像帧完成动作识别的精度;
(5)本发明提取运动矢量和残差以及解码I帧都是在压缩域处理,采用的是部分解码操作,避免了视频完全解码和重构,这样可以提高系统的处理效率,便于实时应用。
(6)本发明采样现有的神经网络模型,因此模型训练简单,且本发明方法在数据集HMDB-51和UCF-101上的实验结果比现有视频动作识别方法的实验结果更好。
附图说明
图1是本发明基于新时空特征流的压缩域视频动作识别方法的流程图;
图2是本发明方法的步骤(1)中得到的原始RGB帧;
图3是本发明方法的步骤(1)得到的每一个P帧中的运动矢量;
图4是本发明方法的步骤(1)得到的每一个P帧中的残差;
图5是本发明方法的步骤(5-1)处理后得到的帧对应的灰度残差;
图6是本发明方法的步骤(5-2)处理后得到的三通道新时空特征。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提出了基于新时空特征流压缩域视频动作识别方法,其将计算机视觉和压缩域视频进行结合,提出了将传统压缩域预处理方法运用于深度学习,并创造了压缩域新时空特征流,使用较小参量的卷积神级网络模型作为分类器进行训练。
如图1所示,本发明提供了一种基于新时空特征流的压缩域视频动作识别方法,包括以下步骤:
(1)从压缩视频码流中随机获取多个I帧和P帧,并对所有I帧进行解码处理,以得到I帧流,即原始RGB帧集合(如图2所示);
具体而言,本发明中的视频码流是MPEG4编解标准的视频码流。
(2)将步骤(1)得到的I帧流输入训练好的Resnet-152 2D卷积神经网络模型中,以得到该I帧流中每一个I帧对应动作的预判分数。提取步骤(1)得到的每一个P帧中的运动矢量(如图3所示)和残差(如图4所示),所有P帧中的运动矢量和残差分别构成运动矢量流和残差流,并对每一个P帧中的运动矢量进行运动目标预提取,以得到该P帧对应的运动目标;
具体而言,I帧流对数据集的预判分数为训练好的Resnet-152 2D卷积神经网络模型对I帧流中每一个I帧对应的动作打多个预判分数,如数据集是HMDB51,则为每一个动作分别给出一个分数,每一个I帧对应的动作共有51个预判分数;如数据集是UCF101,则为每一个动作分别给出一个分数,每一个I帧对应的动作共有101个预判分数。
本步骤中使用的Resnet-152 2D卷积神经网络模型是通过以下过程训练得到的:
(a)获取公开的动作识别数据集HMDB-51和/或数据集UCF-101,并按照数据集的要求来划分训练集和测试集;
(b)根据训练集的标签,随机选取训练集中的一个视频,并将该视频的全部I帧以RGB图像的形式重新裁剪为256x340尺寸大小,并将裁剪后的全部I帧输入卷积神经网络;
(c)使用反向传播算法对卷积神经网络中每层的权重参数和偏置参数进行更新和优化,以得到更新后的卷积神经网络;
(d)对步骤(a)更新后的卷积神经网络进行迭代训练,直到该卷积神经网络的损失函数达到最小为止;
卷积神经网络的损失函数为标准分类交叉熵损失函数。
(e)使用步骤(a)得到的数据集中的测试集对迭代训练后的卷积神经网络进行迭代验证,直到得到的分类精度达到最优为止,从而得到训练好的卷积神经网络。
本步骤中,对每一个P帧中的运动矢量进行运动目标预提取,以得到该P帧对应的运动目标这一过程具体为,首先,获取该P帧中的非边缘宏块(即该P帧中除了最上方、最下方、最左方、以及最右方以外的宏块)作为当前宏块,并设置一个N×N宏块大小的搜索窗口,其中N为正整数(在本实施方式中,N=3);
然后,计算搜索窗口中该当前宏块的运动矢量(MVCur)的模和与该当前宏块相邻的N2-1个宏块中每一个的运动矢量(MVi)的模之间差的绝对值,然后将所有得到的绝对值相加并取均值,从而得到搜索窗口的阈值θ,如以下公式(1)所示:
θ=(∑(|MVi|-|MVCur|))/(N2-1) (1)
随后,统计上述得到的所有绝对值中小于θ的绝对值的总数α,以及该当前宏块相邻的(N2-1)个宏块中运动矢量不为零的宏块总数β,当α大于β/2,并且当前宏块运动矢量的模不为零时,将该中心宏块标记为运动目标;
然后,针对该P帧中的每一个剩余宏块,重复以上操作,一直到该P帧的所有宏块都被处理完毕为止。
对于运动矢量流中的非运动目标块,我们将其运动矢量值除以2;对于运动矢量流中的运动目标块,我们将其运动矢量值乘以2。本步骤获取运动目标的目的在于利用运动矢量的空间相关性,发现运动矢量流中哪些块是运动目标,那些块是运动干扰,减轻运动矢量流的部分噪声干扰。
(3)使用累计算法对步骤(2)中得到的运动矢量流和残差流分别做累计处理,以分别得到累计运动矢量流和累计残差流。
具体而言,本步骤中使用的累计算法是2018年发表于《计算机视觉顶级会议》(即CVPR)中的论文“Compressed Video Action Recognition”(Chao-Yuan Wu,ManzilZaheer,Hexiang Hu and R.Manmatha等著)所公开的。
(4)对步骤(3)得到的累计运动矢量流先后进行空间滤波处理和时间滤波处理,以得到预处理后的累计运动矢量流;
具体而言,本步骤中的空间滤波处理过程和时间滤波处理过程在基于“HEVC压缩视频监控的实时运动目标分割与分类的视频目标预处理方法”(即Real-Time MovingObject Segmentation and Classification from HEVC Compressed SurveillanceVideo.Liang Zhao,Zhihai He.In IEEE Transactions on Circuits and Systems forVideo Technology,DOI 10.1109/TCSVT.2016.2645616)一文中予以披露,在此不再赘述。
(5)使用步骤(3)得到的累计残差流和步骤(4)得到的预处理后的累计运动矢量流创建新时空特征流;
具体而言,本步骤包括以下子步骤:
(5-1)对步骤(3)得到的累计残差流中每一帧的残差进行最大值灰度化处理,以得到该帧对应的灰度残差(如图5所示),累计残差流中所有帧的灰度残差构成灰度残差流;
(5-2)获取灰度残差流中一帧对应的灰度残差和步骤(4)预处理后的累计运动矢量流中该帧对应的运动矢量进行通道融合,以得到该帧对应的三通道新时空特征(如图6所示);
具体而言,三通道新时空特征
Figure BDA0002505714460000101
Figure BDA0002505714460000102
其中MV表示该帧的运动矢量,
Figure BDA0002505714460000103
表示该帧经过步骤(4)预处理后的累计运动矢量的大小,H表示该帧经过步骤(4)预处理后的累计运动矢量的高度,W表示该帧经过步骤(4)预处理后的累计运动矢量的宽度,2表示其为双通道,GrayR表示该帧对应的灰度残差。
(5-3)针对灰度残差流中剩余帧对应的灰度残差,重复上述步骤(5-2),直至灰度残差流中的所有帧都被处理完毕为止,得到的所有三通道新时空特征组成新时空特征流。
(6)将步骤(4)得到的预处理后的累计运动矢量流和步骤(5)创建的新时空特征流输入训练好的Densenet-121 2D卷积神经网络中,以分别得到预处理后的累计运动矢量流中每一个累计运动矢量对应动作的预判分数、以及新时空特征流中每一个时空特征对应动作的预判分数。
上述预处理后的累计运动矢量流中每一个累计运动矢量对应动作的预判分数以及新时空特征流中每一个时空特征对应动作的预判分数,与步骤(2)中I帧流对应的每一个测试视频的若干个预判分数预判分数的形式一样,在此不再赘述。
本步骤中使用的Densenet-121 2D卷积神经网络模型是通过以下过程训练得到的:
(a)采用公开的动作识别数据集HMDB-51和/或数据集UCF-101,并按照数据集的要求来划分训练集和测试集;
(b)根据训练集的标签,随机选取一个视频,并将对应视频重新裁剪为256x340尺寸大小后,输入卷积神经网络;
(c)使用密集连接算法对卷积神经网络中每层的权重参数和偏置参数进行更新和优化,以得到更新后的卷积神经网络;
(d)对步骤(a)更新后的卷积神经网络进行迭代训练,直到该卷积神经网络的损失函数达到最小为止;
具体而言,卷积神经网络的损失函数为标准分类交叉熵损失函数。
(e)使用步骤(a)得到的数据集中的测试集对迭代训练后的卷积神经网络进行迭代验证,直到得到的分类精度达到最优为止,从而得到训练好的卷积神经网络。
(7)将步骤(2)中得到的I帧流中每一个I帧对应动作的预判分数、该动作在步骤(6)得到的预处理后的累计运动矢量流中对应的预判分数、以及该动作在步骤(6)得到的新时空特征流中对应的预判分数以比例2:1:1的方式进行分数相加(即I帧流的预判分数*2+预处理后的累计运动矢量流的预判分数*1+新时空特征流的预判分数*1),从而得到每一个动作的最后得分,将最后得分中最高的动作作为最终识别的动作。
测试结果
将数据集HMDB-51、UCF-101分别输入到本方法训练好的卷积神经网络中,网络自动识别负载类别并给出识别结果。如下列表1和2所示,可以看出与本发明“背景技术”中提到的本领域常用的动作识别方法比较,本发明的识别准确率更高或者计算量更小。
Figure BDA0002505714460000121
Figure BDA0002505714460000122
其中CoViAR、DMC-Net(ResNet-18)以及DTMV-CNN是与本发明同属一类的方法,SSCV是本文背景技术中提到的第一种方法,ResNet-50、ResNet-152和Two-stream+Flow是本文背景技术中提到的第二种方法,Res3D和C3D是本文背景技术中提到的第三种方法,HOF+MBH是本文背景技术中提到的第四种方法。
将数据集HMDB-51、UCF-101分别输入到本方法训练好的卷积神经网络中,网络自动识别负载类别并给出识别结果。如上面的表1和表2所示,可以看出与本发明“背景技术”中提到的本领域常用的动作识别方法比较,本发明的识别准确率更高,计算量更小。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于新时空特征流的压缩域视频动作识别方法,其特征在于,包括以下步骤:
(1)从压缩视频码流中随机获取多个I帧和P帧,并对所有I帧进行解码处理,以得到I帧流,即原始RGB帧集合;
(2)将步骤(1)得到的I帧流输入训练好的Resnet-152 2D卷积神经网络模型中,以得到该I帧流中每一个I帧对应动作的预判分数;提取步骤(1)得到的每一个P帧中的运动矢量和残差,所有P帧中的运动矢量和残差分别构成运动矢量流和残差流,并对每一个P帧中的运动矢量进行运动目标预提取,以得到该P帧对应的运动目标;
(3)使用累计算法对步骤(2)中得到的运动矢量流和残差流分别做累计处理,以分别得到累计运动矢量流和累计残差流;
(4)对步骤(3)得到的累计运动矢量流先后进行空间滤波处理和时间滤波处理,以得到预处理后的累计运动矢量流;
(5)使用步骤(3)得到的累计残差流和步骤(4)得到的预处理后的累计运动矢量流创建新时空特征流;步骤(5)包括以下子步骤:
(5-1)对步骤(3)得到的累计残差流中每一帧的残差进行最大值灰度化处理,以得到该帧对应的灰度残差,累计残差流中所有帧的灰度残差构成灰度残差流;
(5-2)获取灰度残差流中一帧对应的灰度残差和步骤(4)预处理后的累计运动矢量流中该帧对应的运动矢量进行通道融合,以得到该帧对应的三通道新时空特征;
(5-3)针对灰度残差流中剩余帧对应的灰度残差,重复上述步骤(5-2),直至灰度残差流中的所有帧都被处理完毕为止,得到的所有三通道新时空特征组成新时空特征流;
(6)将步骤(4)得到的预处理后的累计运动矢量流和步骤(5)创建的新时空特征流输入训练好的Densenet-121 2D卷积神经网络中,以分别得到预处理后的累计运动矢量流中每一个累计运动矢量对应动作的预判分数、以及新时空特征流中每一个时空特征对应动作的预判分数;
(7)将步骤(2)中得到的I帧流中每一个I帧对应动作的预判分数、该动作在步骤(6)得到的预处理后的累计运动矢量流中对应的预判分数、以及该动作在步骤(6)得到的新时空特征流中对应的预判分数按照其比例进行分数相加,从而得到每一个动作的最后得分,将最后得分中最高的动作作为最终识别的动作。
2.根据权利要求1所述的基于新时空特征流的压缩域视频动作识别方法,其特征在于,步骤(2)中使用的Resnet-152 2D卷积神经网络模型是通过以下过程训练得到的:
(a)获取公开的动作识别数据集HMDB-51和/或数据集UCF-101,并按照数据集的要求来划分训练集和测试集;
(b)根据训练集的标签,随机选取训练集中的一个视频,并将该视频的全部I帧以RGB图像的形式重新裁剪为256x340尺寸大小,并将裁剪后的全部I帧输入卷积神经网络;
(c)使用反向传播算法对卷积神经网络中每层的权重参数和偏置参数进行更新和优化,以得到更新后的卷积神经网络;
(d)对步骤(a)更新后的卷积神经网络进行迭代训练,直到该卷积神经网络的损失函数达到最小为止;
(e)使用步骤(a)得到的数据集中的测试集对迭代训练后的卷积神经网络进行迭代验证,直到得到的分类精度达到最优为止,从而得到训练好的卷积神经网络。
3.根据权利要求1所述的基于新时空特征流的压缩域视频动作识别方法,其特征在于,步骤(2)中,对每一个P帧中的运动矢量进行运动目标预提取,以得到该P帧对应的运动目标这一过程具体为:
首先,获取该P帧中的非边缘宏块(即该P帧中除了最上方、最下方、最左方、以及最右方以外的宏块)作为当前宏块,并设置一个N×N宏块大小的搜索窗口,其中N为正整数;
然后,计算搜索窗口中该当前宏块的运动矢量MVCur的模和与该当前宏块相邻的N2-1个宏块中每一个的运动矢量MVi的模之间差的绝对值,然后将所有得到的绝对值相加并取均值,从而得到搜索窗口的阈值θ;
随后,统计上述得到的所有绝对值中小于θ的绝对值的总数α,以及该当前宏块相邻的(N2-1)个宏块中运动矢量不为零的宏块总数β,当α大于β/2,并且当前宏块运动矢量的模不为零时,将该当前宏块标记为运动目标;
然后,针对该P帧中的每一个剩余宏块,重复以上操作,直到该P帧的所有宏块都被处理完毕为止。
4.根据权利要求1所述的基于新时空特征流的压缩域视频动作识别方法,其特征在于,三通道新时空特征
Figure FDA0002736382870000031
Figure FDA0002736382870000032
其中MV表示该帧的运动矢量,
Figure FDA0002736382870000033
表示该帧经过步骤(4)预处理后的累计运动矢量的大小,H表示该帧经过步骤(4)预处理后的累计运动矢量的高度,W表示该帧经过步骤(4)预处理后的累计运动矢量的宽度,GrayR表示该帧对应的灰度残差。
5.根据权利要求1所述的基于新时空特征流的压缩域视频动作识别方法,其特征在于,步骤(6)中使用的Densenet-121 2D卷积神经网络模型是通过以下过程训练得到的:
(a)采用公开的动作识别数据集HMDB-51和/或数据集UCF-101,并按照数据集的要求来划分训练集和测试集;
(b)根据训练集的标签,随机选取一个视频,并将对应视频重新裁剪为256x340尺寸大小后,输入卷积神经网络;
(c)使用密集连接算法对卷积神经网络中每层的权重参数和偏置参数进行更新和优化,以得到更新后的卷积神经网络;
(d)对步骤(a)更新后的卷积神经网络进行迭代训练,直到该卷积神经网络的损失函数达到最小为止;
(e)使用步骤(a)得到的数据集中的测试集对迭代训练后的卷积神经网络进行迭代验证,直到得到的分类精度达到最优为止,从而得到训练好的卷积神经网络。
6.一种基于新时空特征流的压缩域视频动作识别系统,其特征在于,包括:
第一模块,用于从压缩视频码流中随机获取多个I帧和P帧,并对所有I帧进行解码处理,以得到I帧流,即原始RGB帧集合;
第二模块,用于将第一模块得到的I帧流输入训练好的Resnet-152 2D卷积神经网络模型中,以得到该I帧流中每一个I帧对应动作的预判分数;提取第一模块得到的每一个P帧中的运动矢量和残差,所有P帧中的运动矢量和残差分别构成运动矢量流和残差流,并对每一个P帧中的运动矢量进行运动目标预提取,以得到该P帧对应的运动目标;
第三模块,用于使用累计算法对第二模块得到的运动矢量流和残差流分别做累计处理,以分别得到累计运动矢量流和累计残差流;
第四模块,用于对第三模块得到的累计运动矢量流先后进行空间滤波处理和时间滤波处理,以得到预处理后的累计运动矢量流;
第五模块,用于使用第三模块得到的累计残差流和第四模块得到的预处理后的累计运动矢量流创建新时空特征流;第五模块包括:
第一子模块,用于对第三模块得到的累计残差流中每一帧的残差进行最大值灰度化处理,以得到该帧对应的灰度残差,累计残差流中所有帧的灰度残差构成灰度残差流;
第二子模块,用于获取灰度残差流中一帧对应的灰度残差和第四模块预处理后的累计运动矢量流中该帧对应的运动矢量进行通道融合,以得到该帧对应的三通道新时空特征;
第三子模块,用于针对灰度残差流中剩余帧对应的灰度残差,重复上述第二子模块,直至灰度残差流中的所有帧都被处理完毕为止,得到的所有三通道新时空特征组成新时空特征流;
第六模块,用于将第四模块得到的预处理后的累计运动矢量流和第五模块创建的新时空特征流输入训练好的Densenet-121 2D卷积神经网络中,以分别得到预处理后的累计运动矢量流中每一个累计运动矢量对应动作的预判分数、以及新时空特征流中每一个时空特征对应动作的预判分数;
第七模块,用于将第二模块得到的I帧流中每一个I帧对应动作的预判分数、该动作在第六模块得到的预处理后的累计运动矢量流中对应的预判分数、以及该动作在第六模块得到的新时空特征流中对应的预判分数按照其比例进行分数相加,从而得到每一个动作的最后得分,将最后得分中最高的动作作为最终识别的动作。
CN202010445471.9A 2020-05-24 2020-05-24 一种基于新时空特征流的压缩域视频动作识别方法和系统 Active CN111626178B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010445471.9A CN111626178B (zh) 2020-05-24 2020-05-24 一种基于新时空特征流的压缩域视频动作识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010445471.9A CN111626178B (zh) 2020-05-24 2020-05-24 一种基于新时空特征流的压缩域视频动作识别方法和系统

Publications (2)

Publication Number Publication Date
CN111626178A CN111626178A (zh) 2020-09-04
CN111626178B true CN111626178B (zh) 2020-12-01

Family

ID=72272296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010445471.9A Active CN111626178B (zh) 2020-05-24 2020-05-24 一种基于新时空特征流的压缩域视频动作识别方法和系统

Country Status (1)

Country Link
CN (1) CN111626178B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112215908B (zh) * 2020-10-12 2022-12-02 国家计算机网络与信息安全管理中心 面向压缩域的视频内容比对系统、优化方法、比对方法
CN112686193B (zh) * 2021-01-06 2024-02-06 东北大学 基于压缩视频的动作识别方法、装置及计算机设备
CN113343923A (zh) * 2021-07-01 2021-09-03 江苏舆图信息科技有限公司 一种基于视频图像的河道排口排水状态实时识别方法
CN114170618A (zh) * 2021-09-28 2022-03-11 广州新华学院 基于双流时空分解的视频人体行为识别算法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106713917A (zh) * 2016-12-05 2017-05-24 南京航空航天大学 一种基于运动矢量残差的视频隐写算法
CN110598598A (zh) * 2019-08-30 2019-12-20 西安理工大学 基于有限样本集的双流卷积神经网络人体行为识别方法
CN110751649A (zh) * 2019-10-29 2020-02-04 腾讯科技(深圳)有限公司 视频质量评估方法、装置、电子设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8630346B2 (en) * 2007-02-20 2014-01-14 Samsung Electronics Co., Ltd System and method for introducing virtual zero motion vector candidates in areas of a video sequence involving overlays
US8027542B2 (en) * 2007-06-18 2011-09-27 The Regents Of The University Of California High speed video action recognition and localization
CN111200736B (zh) * 2013-06-14 2022-06-21 北京三星通信技术研究有限公司 一种视频编/解码中运动信息的获取方法及装置
CN108574846B (zh) * 2018-05-18 2019-03-08 中南民族大学 一种视频压缩域目标跟踪方法和系统
CN111046766A (zh) * 2019-12-02 2020-04-21 武汉烽火众智数字技术有限责任公司 一种行为识别方法、装置及计算机存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106713917A (zh) * 2016-12-05 2017-05-24 南京航空航天大学 一种基于运动矢量残差的视频隐写算法
CN110598598A (zh) * 2019-08-30 2019-12-20 西安理工大学 基于有限样本集的双流卷积神经网络人体行为识别方法
CN110751649A (zh) * 2019-10-29 2020-02-04 腾讯科技(深圳)有限公司 视频质量评估方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于视频深度学习的时空双流人物动作识别模型;杨天明 等;《计算机应用》;20180310;第38卷(第3期);895-899+915 *
融合空间-时间双网络流和视觉注意的人体行为识别;刘天亮 等;《电子与信息学报》;20181031;第40卷(第10期);2395-2401 *

Also Published As

Publication number Publication date
CN111626178A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
CN111626178B (zh) 一种基于新时空特征流的压缩域视频动作识别方法和系统
Wu et al. Learned block-based hybrid image compression
CN110798690B (zh) 视频解码方法、环路滤波模型的训练方法、装置和设备
Poyser et al. On the impact of lossy image and video compression on the performance of deep convolutional neural network architectures
CN111062314B (zh) 图像选取方法、装置、计算机可读存储介质及电子设备
WO2023016155A1 (zh) 图像处理方法、装置、介质及电子设备
Hadizadeh et al. Video error concealment using a computation-efficient low saliency prior
TWI539407B (zh) 移動物體偵測方法及移動物體偵測裝置
CN109547803B (zh) 一种时空域显著性检测及融合方法
CN111539272B (zh) 基于联合特征被动检测ai换脸视频的方法及系统
CN115393396B (zh) 一种基于掩码预训练的无人机目标跟踪方法
CN105913002A (zh) 视频场景下在线自适应的异常事件检测方法
CN112560901A (zh) 一种基于图像预处理与对抗训练结合的防御对抗样本的方法
Wang A survey on IQA
CN110677624B (zh) 基于深度学习的面向监控视频的前景和背景并行压缩方法
CN116630369A (zh) 基于时空记忆网络的无人机目标跟踪方法
CN111950496A (zh) 一种蒙面人身份识别方法
CN117173507A (zh) 一种基于pu学习的盲参考图像质量评估半监督方法
CN112508121A (zh) 一种工业机器人感知外界的方法和系统
CN116543338A (zh) 一种基于注视目标估计的学生课堂行为检测方法
CN111539263B (zh) 一种基于聚合对抗网络的视频人脸识别方法
US20230342986A1 (en) Autoencoder-based segmentation mask generation in an alpha channel
He et al. MTRFN: Multiscale temporal receptive field network for compressed video action recognition at edge servers
Boujut et al. No-reference video quality assessment of H. 264 video streams based on semantic saliency maps
Marvasti-Zadeh et al. An efficient adaptive boundary matching algorithm for video error concealment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant