CN113014923A - 一种基于压缩域表征运动向量的行为识别方法 - Google Patents

一种基于压缩域表征运动向量的行为识别方法 Download PDF

Info

Publication number
CN113014923A
CN113014923A CN202110232921.0A CN202110232921A CN113014923A CN 113014923 A CN113014923 A CN 113014923A CN 202110232921 A CN202110232921 A CN 202110232921A CN 113014923 A CN113014923 A CN 113014923A
Authority
CN
China
Prior art keywords
motion
motion vector
video
information
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110232921.0A
Other languages
English (en)
Other versions
CN113014923B (zh
Inventor
张冠文
周铖辉
周巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110232921.0A priority Critical patent/CN113014923B/zh
Publication of CN113014923A publication Critical patent/CN113014923A/zh
Application granted granted Critical
Publication of CN113014923B publication Critical patent/CN113014923B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/149Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Psychiatry (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于压缩域表征运动向量的行为识别方法,首先,使用提出的利用运动向量进行视频关键信息序列检测模块提取源视频内关键信息子序列,并在子序列中进行稀疏采样,降低整体的计算复杂度。其次,利用视频编码解耦合以及相机方向角估计方法来提升运动向量的信息完整性和准确性。最后利用多输入多模态行为识别网络模型对视频动作进行有效识别。本发明极大程度降低了整体方法的计算复杂度,有效地提高视频端到端行为识别的实时性;提高了网络模型对视频有效信息的利用,在不增加计算复杂度的前提下有效地提高了行为识别准确率;克服了原始运动向量表征信息不完整导致网络模型直接利用运动向量识别精度下降的问题。

Description

一种基于压缩域表征运动向量的行为识别方法
技术领域
本发明涉及深度学习、计算机视觉和视频编码技术领域,尤其是一种人体行为识别方法。
背景技术
视频行为识别已经成为人工智能的活跃领域,并被广泛的应用于人机交互、智慧交通、智慧安防等各个领域。随着智能终端的快速发展,视频已经逐渐取代文字和图片成为人们日常信息的主要获取方式。视频行为识别任务不同于传统的静态图片分类任务在于它包含了丰富的运动信息,然而视频的有效信息密度稀疏,关键信息定位不准确,传统时序特征提取计算复杂度高等问题仍然使得快速有效地识别视频动作具有挑战性。目前,面向视频行为识别的方法中与本发明相关的领域主要有两个:(1)如何利用视频的时序特征;(2)如何实现高效的视频有效信息采样策略;
深度神经网络的快速发展对视频行为识别任务产生了深远的影响。大量研究者们提出了有效的卷积神经网络提取视频内的深度特征用于行为识别任务。Zisserman提出了经典的Two-stream网络结构,文献名“Two-stream convolutional networks for actionrecognition in videos”,通过在空域和时域上分别训练各自的卷积神经网络(convolution neural network,CNN)来提取视频中RGB图像信息和时域运动信息,最后使用加权融合两个网络的分类结果获得最终的识别结果。这些网络结构虽然在识别准确度上达到了优秀的结果,但在利用视频的时序特征上依旧依赖传统的光流特征,这也导致了这些方法无法实现实时性的终端部署。
由于视频内有效信息密度非常稀疏,研究者们对如何高效地提取视频有效信息进行了大量的研究。Shi在文献“Sequential deep trajectory descriptor for actionrecognition with three-stream cnn”中提出了视频序列深度轨迹描述符(sequentialDeep Trajectory Descriptor,sDTD),并将其引入三流(Three Stream)网络中进行视频序列行为识别。Song在文献“Temporalspatial mapping for action recognition”中提出了一种简单但非常有效的时空域映射方法(spatial-temporal mapping,STM),用于获取视频内图像帧的时域信息辨识度。这些方法都需要在一定时间范围内进行密集采样,从而增加了网络模型的计算复杂度。
发明内容
为了克服现有技术的不足,本发明提供一种基于压缩域表征运动向量的行为识别方法。首先,使用提出的利用运动向量进行视频关键信息序列检测模块提取源视频内关键信息子序列,并在子序列中进行稀疏采样,降低整体的计算复杂度。其次,利用视频编码解耦合以及相机方向角估计方法来提升运动向量的信息完整性和准确性。最后利用多输入多模态行为识别网络模型对视频动作进行有效识别。
本发明的主要目的在于提出了一种基于压缩域表征运动向量的行为识别方法(Compressed Video Action Recognition using Motion Vector Representation),使用运动向量替换光流作为视频的时序特征,设计了关键信息序列提取方法,更好地获取视频内有效信息,以进行高效准确地行为识别。
本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤1、通过视频解码提取压缩视频的RGB原始图像帧信息
Figure BDA0002959315760000021
和运动向量信息
Figure BDA0002959315760000022
其中T为总帧数,fm_i表示第i帧图像的运动向量信息,fr_i表示第i帧图像的RGB信息;
步骤2、通过视频运动向量分布特征切分出源视频内运动信息密度最大的3段序列作为视频关键信息序列
Figure BDA0002959315760000023
其中k表示第k段视频关键信息序列;
步骤3、利用相邻运动向量间的相互依赖性,通过线性累加的方式获得当前图像组的第一帧参考帧到当前采样帧的所有运动信息
Figure BDA0002959315760000024
其中
Figure BDA0002959315760000025
是当前采样帧像素点t所代表的位置信息,
Figure BDA0002959315760000026
是像素点t在当前图像组第一帧参考帧处的相对位置,
Figure BDA0002959315760000027
表示解耦合后的当前采样帧的运动向量信息;向量表示从终点到起点的位移信息;
步骤4、利用角度投票算法,估算出视频内由于相机移动带来的背景移动运动信息,并通过目标区域的运动补偿减少由于相机移动带来的影响,具体形式如下max hist(Ux,yA(Mx,y)),其中A((Mx,y)表示位于(x,y)位置上的运动向量的方向角,hist(·)表示运动向量方向角的直方图,即选择选择含有最大直方图的角度作为相机运动的估计方向,并对中心目标进行运动补偿;
步骤5、在步骤二所得的视频关键信息序列
Figure BDA0002959315760000031
中随机采样得到的空域图像帧
Figure BDA0002959315760000032
经过行为识别基础网络模型ResNet获得相应的特征向量
Figure BDA0002959315760000033
并通过求VS平均值得到空域模型最终的特征向量
Figure BDA0002959315760000034
步骤6、利用通过步骤四后获得的增强运动向量
Figure BDA0002959315760000035
经过时域行为识别基础网络模型ResNet获得相应的特征向量
Figure BDA0002959315760000036
并通过求VT平均值得到时域模型最终的特征向量
Figure BDA0002959315760000037
步骤7、对空域模型的输出
Figure BDA0002959315760000038
和时域模型的输出
Figure BDA0002959315760000039
进行加权求和得到最终的双模态特征向量
Figure BDA00029593157600000310
所述步骤2具体步骤为:
步骤2.1、利用整段视频每一帧图像的运动向量信息计算第i帧图像的相对运动向量
Figure BDA00029593157600000311
通过计算相对运动向量减少相机运动对整体运动信息的影响;
步骤2.2、计算前后帧图像的相对运动向量残差
Figure BDA00029593157600000312
步骤2.3、MVresidual越大表示该区域的运动信息越丰富,将MVresidual小于所设置的阈值的区域作为关键信息区域的划分边界,而前后边界之间的区域为运动信息关键区域,其中阈值为整段视频中运动向量的平均值;
步骤2.4、根据弱连续运动向量残差评价标准定位视频内关键信息序列的边界;弱连续运动向量残差评价标准为当MVresidual小于预先设定的阈值的连续图像帧数超过长度阈值L时,代表当前区域的运动状态变化不明显,即有效运动信息密度较低,可将其作为关键信息序列的边界,其中阈值设定为整段视频的平均运动向量强度。
所述步骤2.4中,由于数据集中视频的帧率通常为35帧每秒,通过实验设定L为10最合适,即当MVresidual小于该视频的平均运动向量强度的连续帧数超过10帧时则表明该区域为边界区域。
所述其中步骤4具体包括:
步骤4.1、根据编码单元的划分深度确认图像的背景区域。通常而言,背景区域的划分深度通常而言比运动目标的划分深度更小,通过编码单元的划分深度来确定图像中的背景区域
Figure BDA0002959315760000041
其中x,y为像素坐标,D表示坐标为(x,y)的划分深度,N为总的编码单元数目;
步骤4.2、通过三角函数来计算运动向量在笛卡尔坐标系中的角度
Figure BDA0002959315760000042
其中A(Mx,y)表示运动向量的方向角,hist(*)表示运动向量方向角的角度直方图;
步骤4.3、根据Mc确定相机运动角度,将360°平均划分为12份,每份30°,将各个A(Mx,y)划分到各自的角度范围内,划分结束后通过计算各自角度范围内所有运动向量平均值来计算各个角度范围内的相机运动强度r(Mx,y);
步骤4.4、由A(Mx,y)和r(Mx,y)确定出每一帧图像所包含的相机运动角度和运动强度;
步骤4.5、确定相机运动角度和运动强度对中心区域在相机运动角度的相反方向进行运动强度的补偿。
所述步骤7中,空域和时域的默认加权值为1:1.5。
本发明的有益效果为:第一,本发明利用运动向量替换光流作为视频时序特征,极大程度降低了整体方法的计算复杂度,有效地提高视频端到端行为识别的实时性;第二,本发明利用运动向量提取关键信息序列,提高了网络模型对视频有效信息的利用,在不增加计算复杂度的前提下有效地提高了行为识别准确率;第三,本发明利用视频编码解耦合方法和相机运动角度估计方法克服了原始运动向量表征信息不完整导致网络模型直接利用运动向量识别精度下降的问题。
附图说明
图1是本发明方法处理流程示意图。
图2是本发明的算法模型图。
图3是运动向量和光流信息结构对比示意图。
图4是相机移动所引起的背景移动示意图,图4(a)为相机相对静止的背景移动示意图图4(b)为相机从右往左移动的背景移动示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
图2为本发明的整体模型图。模型以关键信息序列检测,增强运动向量,空域网络,时域网络,多段单一模态特征融合,多模态特征融合六个关键部分组成。其中空域网络和时域网络都是以ResNet50为基础构建的多输入网络模型。算法以三段RGB图像和运动向量图分别作为空域模型和时域模型的输入,随后分别对多段单一模态输出特征向量进行全局平均融合获得单一模态特征向量,最后通过加权融合将两段单一模态特征向量获得最终的多模态特征向量。
该方法包括下列顺序的步骤:
步骤1:获取相应的视频行为识别数据集:下载UCF101和HMDB51数据集,UCF101数据集包括13320个视频、101类动作,有三种不同的训练集测试集划分方法有split、split2和split3,其中split1是最常用的训练接测试集划分方法,UCF101是一个大型多环境人类行为动作视频数据集,所包含的动作视频有着非常大的多样性,包含角度变换,光线变换,物体比例变换,相机运动等。HMDB51数据集包含6849个视频样本,由51个类组成,其中每个类别至少包含101个视频样本。大多数视频样本来自电影,背景混乱和光线变化使识别视频所代表的的行为动作具有非常大的挑战性。
步骤2:基于运动向量提取视频关键信息序列:通过计算每一帧图像的相对运动强度和运动残差,结合弱连续原则,确定关键信息序列边界,从源视频内提取出3段子序列。具体是指:计算整个视频的运动向量信息:MVi。相对运动强度为
Figure BDA0002959315760000051
通过求取相对运动向量强度可以在一定程度上降低背景移动带来的影响。为了更好的检测关键信息序列边界,本发明引入了运动残差
Figure BDA0002959315760000052
考虑到运动向量类似于物理学中的‘速度’,长时间的高速运动并不代表运动状态发生变化,而运动残差相似于‘运动加速度’,可以更好地体现运动状态的变化。考虑到视频内容的持续性,本发明采用了弱连续的评价方法,当运动残差绝对值小于所预先设定的阈值的连续帧数超过某一数量时,代表当前区域的运动状态变化不明显,有效信息密度较低。
步骤3:利用相邻运动向量间的相互依赖性,具体是指通过线性累加的方式获得当前图像组的第一帧参考帧到当前采样帧的所有运动信息,
Figure BDA0002959315760000061
其中
Figure BDA0002959315760000062
是当前采样帧像素点t所代表的位置信息,
Figure BDA0002959315760000063
是像素点t在当前图像组第一帧参考帧处的相对位置,
Figure BDA0002959315760000064
表示解耦合后的当前采样帧的运动向量信息。
步骤4:利用角度投票算法,估算出视频内由于相机移动带来的背景移动运动信息,相机运动所引起的背景移动如图4所示,通过目标区域的运动补偿来减少由于相机移动带来的影响。具体形式如下max hist(∪x,yA(Mx,y)),其中A((Mx,y)表示位于(x,y)位置上的运动向量的方向角,hist(·)表示运动向量方向角的直方图,即选择含有最大直方图的角度作为相机运动的估计方向,并对中心目标进行运动补偿。
步骤5:利用在关键信息序列中采样得到的空域图像帧
Figure BDA0002959315760000065
经过行为识别网络模型获得相应的单一模态多段特征向量
Figure BDA0002959315760000066
并通过平均求值求得空域模型最终的特征向量
Figure BDA0002959315760000067
具体计算过程如下公式:
Figure BDA0002959315760000068
其中,
Figure BDA0002959315760000069
是指从关键信息序列中提取的样本,
Figure BDA00029593157600000610
是指卷积神经网络中的卷积操作,而
Figure BDA00029593157600000611
代表平均池化操作,
Figure BDA00029593157600000612
指的是Softmax函数。
步骤6:利用在关键信息序列中采样得到的时域图像帧
Figure BDA00029593157600000613
经过时域行为识别网络模型获得相应的单一模态多段特征向量
Figure BDA00029593157600000614
并通过平均求值求得时域模型最终的特征向量
Figure BDA00029593157600000615
特别的是,时间网络模型的输入为在x和y方向上分别选取连续10帧运动向量图像堆叠而成的20通道图像堆。在Resnet50的基础上在第一个卷积层的卷积核沿通道数求平均,并进行复制叠加成20通道数,作为新的第一层卷积层的参数。
步骤7:对空域模型的输出
Figure BDA0002959315760000071
和时域模型的输出
Figure BDA0002959315760000072
进行加权求和得到最终的双模态特征向量
Figure BDA0002959315760000073
空域和时域的默认加权值为1:1.5,可根据实际应用调整融合权重。将双模态特征向量
Figure BDA0002959315760000074
与标签数据进行损失计算,损失函数为交叉熵损失函数,将损失值进行反向传播,进行多轮的训练优化,获得最终的行为识别网络模型。交叉熵损失函数如下公式:
Figure BDA0002959315760000075
其中,C是视频样本类别总数,yi是当前样本的真实标签,pi是指预测向量中每一类别的预测分数。
实施例
为了验证本发明的有效性,本发明在公开的UCF101数据集和HMDB51数据集上进行试验。UCF101和HMDB51有三种不同的训练集测试集划分方法:split、split2和split3,其中split1是最常用的训练集测试集划分方法。
表1是实验过程中的各个参数设置(以UCF101为例):
表1是实验过程中的各个参数设置(以UCF101为例)
模型 输入尺寸 初始学习率 Epoch数 训练时长
空域 224*224 0.001 60 1.5h
时域 224*224 0.001 300 4h
表2是本发明运动向量提取速度和传统光流提取速度的比较:
表2运动向量提取速度和传统光流提取速度的比较
Figure BDA0002959315760000076
Figure BDA0002959315760000081
表2是本发明提出的增强运动向量方法在UCF101和HMDB51两种相同分辨率的数据集条件下和光流特征提取速度对比,可以看出本发明在特征提取过程中具有非常大的优势,即使在强计算能力GPU的加持下,在320*240低清晰度的视频中提取光流特征的速度依旧非常缓慢,而运动向量仅仅在CPU条件下就可以实现特征提取速度约为光流的20倍,因此利用运动向量可以充分满足行为识别算法的实时性部署。
表3是本发明和其他经典算法的表现比较:
表3本发明和其他经典算法的表现比较(以UCF101为例)
UCF101 准确度 处理速度(FPS)
Two-stream 88.0% 14.3
Two-stream+I3D 93.4% <14
Ours 92.1% 461.5
经试验对比,相较于现有借助传统时序特征光流的算法,本发明通过改进压缩视频内运动向量表征信息提高视频行为识别的准确率和识别速度,说明了本发明方法的有效性。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (5)

1.一种基于压缩域表征运动向量的行为识别方法,其特征在于包括下述步骤:
步骤1、通过视频解码提取压缩视频的RGB原始图像帧信息
Figure FDA0002959315750000011
和运动向量信息
Figure FDA0002959315750000012
其中T为总帧数,fm_i表示第i帧图像的运动向量信息,fr_i表示第i帧图像的RGB信息;
步骤2、通过视频运动向量分布特征切分出源视频内运动信息密度最大的3段序列作为视频关键信息序列
Figure FDA0002959315750000013
其中k表示第k段视频关键信息序列;
步骤3、利用相邻运动向量间的相互依赖性,通过线性累加的方式获得当前图像组的第一帧参考帧到当前采样帧的所有运动信息
Figure FDA0002959315750000014
其中
Figure FDA00029593157500000112
是当前采样帧像素点t所代表的位置信息,
Figure FDA0002959315750000016
是像素点t在当前图像组第一帧参考帧处的相对位置,
Figure FDA0002959315750000017
表示解耦合后的当前采样帧的运动向量信息;向量表示从终点到起点的位移信息;
步骤4、利用角度投票算法,估算出视频内由于相机移动带来的背景移动运动信息,并通过目标区域的运动补偿减少由于相机移动带来的影响,具体形式如下max hist(∪x,yA(Mx,y)),其中A((Mx,y)表示位于(x,y)位置上的运动向量的方向角,hist(·)表示运动向量方向角的直方图,即选择选择含有最大直方图的角度作为相机运动的估计方向,并对中心目标进行运动补偿;
步骤5、在步骤二所得的视频关键信息序列
Figure FDA00029593157500000113
中随机采样得到的空域图像帧
Figure FDA0002959315750000019
经过行为识别基础网络模型ResNet获得相应的特征向量
Figure FDA00029593157500000110
并通过求VS平均值得到空域模型最终的特征向量
Figure FDA00029593157500000111
步骤6、利用通过步骤四后获得的增强运动向量
Figure FDA0002959315750000021
经过时域行为识别基础网络模型ResNet获得相应的特征向量
Figure FDA0002959315750000022
并通过求VT平均值得到时域模型最终的特征向量
Figure FDA0002959315750000023
步骤7、对空域模型的输出
Figure FDA0002959315750000024
和时域模型的输出
Figure FDA0002959315750000025
进行加权求和得到最终的双模态特征向量
Figure FDA0002959315750000026
2.根据权利要求1所述的基于压缩域表征运动向量的行为识别方法,其特征在于:
所述步骤2具体步骤为:
步骤2.1、利用整段视频每一帧图像的运动向量信息计算第i帧图像的相对运动向量
Figure FDA0002959315750000027
通过计算相对运动向量减少相机运动对整体运动信息的影响;
步骤2.2、计算前后帧图像的相对运动向量残差
Figure FDA0002959315750000028
步骤2.3、将MVresidual小于所设置的阈值的区域作为关键信息区域的划分边界,而前后边界之间的区域为运动信息关键区域,其中阈值为整段视频中运动向量的平均值;
步骤2.4、根据弱连续运动向量残差评价标准定位视频内关键信息序列的边界;弱连续运动向量残差评价标准为当MVresidual小于预先设定的阈值的连续图像帧数超过长度阈值L时,代表当前区域的运动状态变化不明显,即有效运动信息密度较低,将其作为关键信息序列的边界,其中阈值设定为整段视频的平均运动向量强度。
3.根据权利要求1所述的基于压缩域表征运动向量的行为识别方法,其特征在于:
所述步骤2.4中,阈值L为整段视频的平均运动向量强度,L取值为10。
4.根据权利要求1所述的基于压缩域表征运动向量的行为识别方法,其特征在于:
所述其中步骤4具体步骤为:
步骤4.1、根据编码单元的划分深度确认图像的背景区域;通过编码单元的划分深度来确定图像中的背景区域
Figure FDA0002959315750000029
其中x,y为像素坐标,D表示坐标为(x,y)的划分深度,N为总的编码单元数目;
步骤4.2、通过三角函数来计算运动向量在笛卡尔坐标系中的角度
Figure FDA0002959315750000031
其中A(Mx,y)表示运动向量的方向角,hist(*)表示运动向量方向角的角度直方图;
步骤4.3、根据Mc确定相机运动角度,将360°平均划分为12份,每份30°,将各个A(Mx,y)划分到各自的角度范围内,划分结束后通过计算各自角度范围内所有运动向量平均值来计算各个角度范围内的相机运动强度r(Mx,y);
步骤4.4、由A(Mx,y)和r(Mx,y)确定出每一帧图像所包含的相机运动角度和运动强度;
步骤4.5、确定相机运动角度和运动强度对中心区域在相机运动角度的相反方向进行运动强度的补偿。
5.根据权利要求1所述的基于压缩域表征运动向量的行为识别方法,其特征在于:
所述步骤7中,空域和时域的默认加权值为1∶1.5。
CN202110232921.0A 2021-03-03 2021-03-03 一种基于压缩域表征运动向量的行为识别方法 Active CN113014923B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110232921.0A CN113014923B (zh) 2021-03-03 2021-03-03 一种基于压缩域表征运动向量的行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110232921.0A CN113014923B (zh) 2021-03-03 2021-03-03 一种基于压缩域表征运动向量的行为识别方法

Publications (2)

Publication Number Publication Date
CN113014923A true CN113014923A (zh) 2021-06-22
CN113014923B CN113014923B (zh) 2022-12-06

Family

ID=76403116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110232921.0A Active CN113014923B (zh) 2021-03-03 2021-03-03 一种基于压缩域表征运动向量的行为识别方法

Country Status (1)

Country Link
CN (1) CN113014923B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114359784A (zh) * 2021-12-03 2022-04-15 湖南财政经济学院 一种面向视频压缩的人眼恰可察觉失真的预测方法及系统
CN117857808A (zh) * 2024-03-06 2024-04-09 深圳市旭景数字技术有限公司 一种基于数据分类压缩的高效视频传输方法及系统
CN117857808B (zh) * 2024-03-06 2024-06-04 深圳市旭景数字技术有限公司 一种基于数据分类压缩的高效视频传输方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080310734A1 (en) * 2007-06-18 2008-12-18 The Regents Of The University Of California High speed video action recognition and localization
US20160148391A1 (en) * 2013-06-12 2016-05-26 Agency For Science, Technology And Research Method and system for human motion recognition
CN111079567A (zh) * 2019-11-28 2020-04-28 中科驭数(北京)科技有限公司 采样方法、模型生成方法、视频行为识别方法及装置
CN112200096A (zh) * 2020-10-14 2021-01-08 公安部第三研究所 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080310734A1 (en) * 2007-06-18 2008-12-18 The Regents Of The University Of California High speed video action recognition and localization
US20160148391A1 (en) * 2013-06-12 2016-05-26 Agency For Science, Technology And Research Method and system for human motion recognition
CN111079567A (zh) * 2019-11-28 2020-04-28 中科驭数(北京)科技有限公司 采样方法、模型生成方法、视频行为识别方法及装置
CN112200096A (zh) * 2020-10-14 2021-01-08 公安部第三研究所 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
BOWEN ZHANG等: "Real-Time Action Recognition With Deeply Transferred Motion Vector CNNs", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 *
RUIHAN BAO等: "Spatio-temporal motion field descriptors for the hierarchical action recognition system", 《2011 5TH INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING AND COMMUNICATION SYSTEMS (ICSPCS)》 *
SIMONYAN K, ZISSERMAN A: "Two-stream convolutional networks for action recognition in videos", 《ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS》 *
XIAOLIN SONG等: "Temporal–Spatial Mapping for Action Recognition", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》 *
YEMIN SHI等: "Sequential Deep Trajectory Descriptor for Action Recognition with Three-stream CNN", 《IEEE TRANSACTIONS ON MULTIMEDIA》 *
冯波等: "基于光流特征与序列比对的实时行为识别", 《计算机应用研究》 *
李庆辉等: "结合有序光流图和双流卷积网络的行为识别", 《光学学报》 *
王晓芳等: "一种运用显著性检测的行为识别方法", 《西安交通大学学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114359784A (zh) * 2021-12-03 2022-04-15 湖南财政经济学院 一种面向视频压缩的人眼恰可察觉失真的预测方法及系统
CN117857808A (zh) * 2024-03-06 2024-04-09 深圳市旭景数字技术有限公司 一种基于数据分类压缩的高效视频传输方法及系统
CN117857808B (zh) * 2024-03-06 2024-06-04 深圳市旭景数字技术有限公司 一种基于数据分类压缩的高效视频传输方法及系统

Also Published As

Publication number Publication date
CN113014923B (zh) 2022-12-06

Similar Documents

Publication Publication Date Title
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN107767405B (zh) 一种融合卷积神经网络的核相关滤波目标跟踪方法
WO2020108362A1 (zh) 人体姿态检测方法、装置、设备及存储介质
CN108492319B (zh) 基于深度全卷积神经网络的运动目标检测方法
CN103593464B (zh) 基于视觉特征的视频指纹检测及视频序列匹配方法及系统
CN110120064B (zh) 一种基于互强化与多注意机制学习的深度相关目标跟踪算法
CN105528794A (zh) 基于混合高斯模型与超像素分割的运动目标检测方法
Zhang et al. Coarse-to-fine object detection in unmanned aerial vehicle imagery using lightweight convolutional neural network and deep motion saliency
CN113011357A (zh) 基于时空融合的深度伪造人脸视频定位方法
CN115527269B (zh) 一种人体姿态图像智能识别方法及系统
CN114973112A (zh) 一种基于对抗学习网络的尺度自适应密集人群计数方法
CN112329784A (zh) 一种基于时空感知及多峰响应的相关滤波跟踪方法
Xiong et al. Contrastive learning for automotive mmWave radar detection points based instance segmentation
CN112163508A (zh) 一种基于真实场景的文字识别方法、系统及ocr终端
CN113591674A (zh) 一种面向实时视频流的边缘环境行为识别系统
CN109002808B (zh) 一种人体行为识别方法及系统
CN113014923B (zh) 一种基于压缩域表征运动向量的行为识别方法
CN114049483A (zh) 基于事件相机的目标检测网络自监督训练方法及装置
Yang et al. No-reference image quality assessment focusing on human facial region
Guo et al. Small aerial target detection using trajectory hypothesis and verification
CN110503049B (zh) 基于生成对抗网络的卫星视频车辆数目估计方法
CN105893967B (zh) 基于时序保留性时空特征的人体行为分类检测方法及系统
Almalki et al. Characterizing scattered occlusions for effective dense-mode crowd counting
CN114360058A (zh) 一种基于行走视角预测的跨视角步态识别方法
CN113420608A (zh) 一种基于密集时空图卷积网络的人体异常行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant