CN113705394B - 一种长短时域特征结合的行为识别方法 - Google Patents

一种长短时域特征结合的行为识别方法 Download PDF

Info

Publication number
CN113705394B
CN113705394B CN202110935756.5A CN202110935756A CN113705394B CN 113705394 B CN113705394 B CN 113705394B CN 202110935756 A CN202110935756 A CN 202110935756A CN 113705394 B CN113705394 B CN 113705394B
Authority
CN
China
Prior art keywords
frame sequence
time domain
video
slice
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110935756.5A
Other languages
English (en)
Other versions
CN113705394A (zh
Inventor
张栗粽
田玲
段贵多
解修蕊
许毅
罗光春
张勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110935756.5A priority Critical patent/CN113705394B/zh
Publication of CN113705394A publication Critical patent/CN113705394A/zh
Application granted granted Critical
Publication of CN113705394B publication Critical patent/CN113705394B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种长短时域特征结合的行为识别方法,属于人工智能深度学习视频理解行为识别技术领域,包括S1:获取包含人类行为的视频,预处理后得到与视频对应的目标视频帧序列;S2:构建以ResNet50网络为骨干网络、包含50个残差块的行为识别网络,残差块由短时域运动特征增强模块和长时域运动特征集成模块堆叠而成;S3:基于目标视频帧序列和预设目标行为类别对行为识别网络进行训练,得到训练完成的行为识别模型;S4:将待检测视频预处理后得到待检测视频帧序列,输入至训练完成的行为识别模型中,得到待检测视频的目标行为类别,实现待检测视频中人类行为的识别,提升模型运动特征建模能力及时空特征和运动特征的交互效率。

Description

一种长短时域特征结合的行为识别方法
技术领域
本发明属于人工智能深度学习视频理解行为识别技术领域,具体涉及一种长短时域特征结合的行为识别方法。
背景技术
随着互联网技术的不断升级以及存储设备容量的不断攀升,网络视频数量激增,更大的数据规模促使了视频处理技术的发展。如何利用计算机高效、准确地处理视频数据和识别视频信息,成为亟需解决的重要问题。其中,对视频中人类行为的识别是视频理解的核心问题,主要的技术方案可以分为传统行为识别方法和基于深度学习的行为识别算法。
模式识别和匹配技术是传统行为识别方法的核心,但由于其计算复杂,时效性差,准确度较低,渐渐难以适应如今信息爆炸的历史背景。随着深度学习的发展,基于深度学习的行为识别算法渐渐成为当前视频分析的首选。
基于深度学习的行为识别方法主要遵循两种不同的基础架构:双流卷积神经网络和三维卷积神经网络,但上述两种方法都存在一定问题。
基于双流卷积神经网络结构的行为识别方法存在两个难以避免的问题,其一为光流的提取需要大量的时序以及算力资源;其二为RGB流和光流的训练是分离的,信息融合往往仅在网络的末尾,难以发生有效的特征级交互。
尽管三维卷积神经网络整体计算量低于一般的双流卷积神经网络,但其卷积核维度的扩充依然带来了额外的计算开销。同时,经过大量的局部卷积操作后,远距离帧之间的相互作用变得极其有限,难以捕获有效的时空信息。
针对上述两种方法存在的问题,一些研究者提出了各自的解决方案,对本发明所提技术影响较大的有两个,分别是TEA和TSM。
TEA构建了一个独特的运动激励(motion excitation,ME)模块,该模块计算时空特征中相邻帧的特征级时序差异,结合注意力机制,利用特征级时序差异来激发原始特征的运动敏感通道,最后与输入的时空特征形成正反馈。然而TEA存在的问题是仅使用时空特征相邻帧矢量差的均值来刻画视频的运动特征,该策略容易导致像素级差异的极化以及帧间相似性信息的丢失。
为了加强远距离帧的特征交互频率,TSM创造性地使用了位移(shift)算子,该算子可以实现限定条件下视频帧序列的重排列,即帧序重构。帧序重构和卷积操作交替进行,实现远距离帧交互频率的提升。然而,TSM中位移算子的参数来源于手工和大量的实验测算,缺乏灵活性,难以适应差异化的数据场景。同时,基于经验值的位移模板无法保证参数的最优化。
发明内容
针对上述现有技术中存在的技术问题,本发明提出了一种长短时域特征结合的行为识别方法,通过采用短时域运动特征增强模块和长时域运动特征集成模块,实现对视频行为识别的可靠建模。
本发明具体技术方案如下:
一种长短时域特征结合的行为识别方法,其特征在于,包括以下步骤:
步骤1:获取包含人类行为的视频,对视频进行预处理,得到与视频对应的目标视频帧序列,目标视频帧序列的大小为[N,T,C,H,W];其中,N为批次大小;T为目标视频帧序列的帧长度;C为特征的通道数;H为特征的高度;W为特征的宽度;
步骤2:构建以ResNet(残差网络)50网络为骨干网络、包含50个残差块的行为识别网络,所述残差块由短时域运动特征增强模块和长时域运动特征集成模块堆叠而成,构建行为识别网络的过程具体为:
步骤2.1:初始化行为识别网络的网络参数;
步骤2.2:将通道数为C的特征X通过第一个残差块中的短时域运动特征增强模块,获得短时域输出特征Xo,增强特征中的运动敏感部分,具体为:
步骤2.2.1:以通道数为C的特征X为短时域运动特征增强模块的输入特征图,经过1×1的卷积层降低特征X的通道数目后,得到通道数为C/16的特征Xr,以提升效率;
步骤2.2.2:去除特征Xr的头一帧,并在去除头一帧处填充0,得到头相邻帧序列
Figure BDA0003213037720000021
去除特征Xr的尾一帧,并在去除尾一帧处填充0,得到尾相邻帧序列/>
Figure BDA0003213037720000022
步骤2.2.3:为了防止头相邻帧序列
Figure BDA0003213037720000023
和尾相邻帧序列/>
Figure BDA0003213037720000024
的过度不匹配,先将头相邻帧序列/>
Figure BDA0003213037720000025
和尾相邻帧序列/>
Figure BDA0003213037720000026
分别通过3×3的2维卷积层,然后分别使用矢量差和余弦相似度计算头相邻帧序列/>
Figure BDA0003213037720000027
和尾相邻帧序列/>
Figure BDA0003213037720000028
的差异M(t)和相似度P(t):
Figure BDA0003213037720000029
Figure BDA00032130377200000210
Figure BDA0003213037720000031
其中,convtrans代表3×3的2维卷积层;*代表相乘;cos(A,B)代表A与B之间的余弦相似度计算;
步骤2.2.4:分别按照帧长度T堆叠差异M(t)和相似度P(t),对应得到差异运动矩阵M和相似度运动矩阵P,将相似度运动矩阵P通过softmax层得到归一化相似度运动矩阵Pa
步骤2.2.5:分别采用平均池化和最大池化处理差异运动矩阵M,经softmax层归一化处理后,对应得到平均池化运动矩阵Ma和最大池化运动矩阵Mm,平均池化运动矩阵Ma、最大池化运动矩阵Mm和归一化相似度运动矩阵Pa均在某个侧面反映了头相邻帧序列
Figure BDA0003213037720000032
Figure BDA0003213037720000033
和尾相邻帧序列/>
Figure BDA0003213037720000034
之间的差异,即视频运动特征,并且彼此之间存在互补性;
步骤2.2.6:对平均池化运动矩阵Ma、最大池化运动矩阵Mm和归一化相似度运动矩阵P进行通道维度的加权,得到最终的运动矩阵F:
F=α*Ma+β*Mm+γ*Pa
其中,α、β和γ均为超参数,α+β+γ=1,α的取值范围为0.2~0.4,β的取值为0.1;
步骤2.2.7:将运动矩阵F通过1×1的2维卷积层,其通道数扩展为C,然后通过sigmoid函数以及线性变换对运动矩阵F进行归一化,得到最终的注意力权重Fs
Fs=2*δ(convexp*F-1)
其中,convexp代表1×1的2维卷积层;δ(·)代表sigmoid函数;
步骤2.2.8:将注意力权重Fs与特征X进行通道维度的点乘,得到的向量再与特征X相加,得到短时域输出特征Xo,在增强特征X中的运动敏感部分的同时保证背景信息在全训练过程中不丢失,短时域输出特征Xo为:
Xo=X+X⊙Fs
其中,⊙代表点乘;
步骤2.3:将短时域输出Xo通过第一个残差块中的长时域运动特征集成模块,获得长时域输出特征X′,提升特征中远距离帧的交互频率,具体为:
步骤2.3.1:在通道维度上将短时域输出特征X°按顺序划分为四个通道数均为C/4的切片,分别为第0切片X0、第1切片X1、第2切片X2和第3切片X3
步骤2.3.2:构建由3×3的2维卷积层、1维位移算子层和3×3的2维卷积层依次堆叠而成的卷积组,所述1维位移算子层用于实现帧序列的重构,假设待重构帧序列的大小为[N,T,C/4,H,W],先将待重构帧序列重排为[N,H,W,C/4,T]的重排待重构帧序列,再形变为[NHW,C/4,T]的形变待重构帧序列,经大小为(,3)的1维卷积层后,变为[NHW,C/4,T]的重构后帧序列,然后形变为[N,H,W,C/4,T]的形变重构后帧序列,最后重排为[N,T,C/4,H,W]的重排重构后帧序列;
步骤2.3.3:将第1切片X1通过卷积组,得到卷积后第1切片X1′;卷积后第1切片X1′与第2切片X2通过残差连接相加后,通过卷积组得到卷积后第2切片X2′;卷积后第2切片X2再与第3切片X3通过残差连接相加后,通过卷积组得到卷积后第3切片X3′,最终形成一个级联的残差结构,为特征提取过程提供了多种尺度的感受野;
卷积后第1切片X1′、卷积后第2切片X2′和卷积后第3切片X3′分别通过以下公式表示:
X′1=convspt2*SMM(convspt1*X1)
X′i=convspt2*SMM(convspt1*(Xi+Xi′)),i=2,3
其中,convspt1和convspt2均代表3×3的2维卷积层;SMM(·)代表1维位移算子层;
步骤2.3.4:将第0切片X0、卷积后第1切片X1′、卷积后第2切片X2′和卷积后第3切片X3′在通道维度上进行拼接,获得长时域输出特征X′;
步骤2.4:将步骤2.3.4所得长时域输出特征X′作为下一个残差块的特征X,返回步骤2.2,直到通过骨干网络中的所有残差块,完成对视频整体时空特征和运动特征的学习,得到残差块输出向量X*
步骤2.5:将残差块输出向量X*通过骨干网络中的全连接层,输出维度与预设的目标行为类别数目相同的输出向量Xc
步骤3:基于步骤1所得目标视频帧序列和预设的目标行为类别对行为识别网络进行训练,得到训练完成的行为识别模型;
步骤4:将待检测视频进行步骤1所述预处理,得到待检测视频帧序列,输入至步骤3所得训练完成的行为识别模型中,得到待检测视频的目标行为类别,实现待检测视频中人类行为的识别。
进一步地,步骤1中预处理的过程具体包括:
步骤1.1:视频帧切分:对视频进行帧提取,获得所有的视频帧,将视频帧按顺序均分为N组;
步骤1.2:获取帧序列:在N组视频帧的每组视频帧中各随机提取一帧,组成帧序列;
步骤1.3:将帧序列中每个视频帧的大小统一缩放为255×255;
步骤1.4:将帧序列中每个视频帧的中心剪裁成224×224大小的区域,按顺序堆叠获得目标帧序列。
进一步地,步骤3中训练的具体过程为:以步骤1所得目标视频帧序列为行为识别网络的输入,预设的目标行为类别为训练目标,通过反向传播算法和随机梯度下降对行为识别网络进行训练,反向传播算法所采用的损失函数为全连接层输出的输出向量Xc与目标行为类别对应向量的交叉熵损失。
本发明的有益效果为:
1.本发明提出了一种长短时域特征结合的行为识别方法,通过构建并训练以ResNet50网络为骨干网络,短时域运动特征增强模块和长时域运动特征集成模块为残差块的行为识别网络,在丰富整体行为识别网络的感受野的同时,从短、长时域两方面提升模型整体的运动特征建模能力;并结合注意力机制和残差网络,保证了时空特征和运动特征的充分交互,实现了可靠的运动建模;
2.短时域运动特征增强模块基于通道注意力构建,采用多种不同的运动特征建模方法(包括矢量差极值、矢量差平均值和余弦相似度),增强原始特征中的运动敏感部分,提升了空间信息和运动信息的特征级交互效率;
3.长时域运动特征集成模块通过利用可训练的1维位移算子层,实现训练过程中帧序的重排列,提升远距离帧的交互频率,进而提升长时域运动信息的建模能力。
附图说明
图1为本发明实施例1提出的长短时域特征结合的行为识别方法的识别流程图;
图2为本发明实施例1提出的长短时域特征结合的行为识别方法中短时域运动特征增强模块的工作原理示意图;
图3为本发明实施例1提出的长短时域特征结合的行为识别方法中长时域运动特征集成模块的工作原理示意图;
图4为本发明实施例1提出的长短时域特征结合的行为识别方法中1维位移算子层的工作原理示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清晰,结合以下具体实施例,并参照附图,对本发明做进一步的说明。
下述非限制性实施例可以使本领域的普通技术人员更全面的理解本方明,但不以任何方式限制本发明。
实施例1
本实施例提供了一种长短时域特征结合的行为识别方法,包括以下步骤:
步骤1:获取并输入包含人类行为的视频数据,对视频数据进行预处理,得到与视频对应的目标视频帧序列,目标视频帧序列的大小为[N,T,C,H,W];其中,N为批次大小;T为目标视频帧序列的帧长度;C为特征的通道数;H为特征的高度;W为特征的宽度;其中,预处理的过程具体为:
步骤1.1:视频帧切分:对视频数据进行帧提取,获得所有的视频帧,将视频帧按顺序均分为N组;
步骤1.2:获取帧序列:在N组视频帧的每组视频帧中各随机提取一帧,组成帧序列;
步骤1.3:将帧序列中每个视频帧的大小统一缩放为255×255;
步骤1.4:将帧序列中每个视频帧的中心剪裁成224×224大小的区域,按顺序堆叠获得目标帧序列;
步骤2:构建以ResNet50网络为骨干网络、包含50个残差块的行为识别网络,所述残差块由短时域运动特征增强模块和长时域运动特征集成模块堆叠而成,构建行为识别网络的过程具体为:
步骤2.1:初始化行为识别网络的网络参数;
步骤2.2:将通道数为C的特征X通过第一个残差块中的短时域运动特征增强模块,获得短时域输出特征Xo,增强特征中的运动敏感部分,工作原理示意图如图2所示,具体为:
步骤2.2.1:以通道数为C的特征X为短时域运动特征增强模块的输入特征图,经过1×1的2维卷积层降低特征X的通道数目后,得到通道数为C/16的特征Xr,以提升效率;
步骤2.2.2:进行时序分割,去除特征Xr的头一帧,并在去除头一帧处填充0,得到头相邻帧序列
Figure BDA0003213037720000061
去除特征Xr的尾一帧,并在去除尾一帧处填充0,得到尾相邻帧序列/>
Figure BDA0003213037720000062
步骤2.2.3:为了防止头相邻帧序列
Figure BDA0003213037720000063
和尾相邻帧序列/>
Figure BDA0003213037720000064
的过度不匹配,先将头相邻帧序列/>
Figure BDA0003213037720000065
和尾相邻帧序列/>
Figure BDA0003213037720000066
分别通过3×3的2维卷积层,然后分别使用矢量差和余弦相似度计算头相邻帧序列/>
Figure BDA0003213037720000067
和尾相邻帧序列/>
Figure BDA0003213037720000068
的差异M(t)和相似度P(t):
Figure BDA0003213037720000069
Figure BDA0003213037720000071
Figure BDA0003213037720000072
其中,convtrans代表3×3的2维卷积层;*代表相乘;cos(A,B)代表A与B之间的余弦相似度计算;
步骤2.2.4:分别按照帧长度T堆叠差异M(t)和相似度P(t),对应得到差异运动矩阵M和相似度运动矩阵P,将相似度运动矩阵P通过softmax层得到归一化相似度运动矩阵Pa
步骤2.2.5:分别采用平均池化和最大池化处理差异运动矩阵M,经softmax层归一化处理后,对应得到平均池化运动矩阵Ma和最大池化运动矩阵Mm,平均池化运动矩阵Ma、最大池化运动矩阵Mm和归一化相似度运动矩阵Pa均在某个侧面反映了头相邻帧序列
Figure BDA0003213037720000073
Figure BDA0003213037720000074
和尾相邻帧序列/>
Figure BDA0003213037720000075
之间的差异,即视频运动特征,并且彼此之间存在互补性;
步骤2.2.6:对平均池化运动矩阵Ma、最大池化运动矩阵Mm和归一化相似度运动矩阵P进行通道维度的加权,得到最终的运动矩阵F:
F=α*Ma+β*Mm+γ*Pa
其中,α、β和γ均为超参数,α+β+γ=1,α的取值范围为0.2~0.4,β的取值为0.1;
步骤2.2.7:将运动矩阵F通过1×1的2维卷积层,其通道数扩展为C,然后通过sigmoid函数以及线性变换对运动矩阵F进行归一化,得到最终的注意力权重Fs
Fs=2*δ(convexp*F-1)
其中,convexp代表1×1的2维卷积层;δ(·)代表sigmoid函数;
步骤2.2.8:将注意力权重Fs与特征X进行通道维度的点乘,得到的向量再与特征X相加,得到短时域输出特征Xo,在增强特征X中的运动敏感部分的同时保证背景信息在全训练过程中不丢失,短时域输出特征X°为:
X°=X+X⊙Fs
其中,⊙代表点乘;
步骤2.3:将短时域输出Xo通过第一个残差块中的长时域运动特征集成模块,获得长时域输出特征X′,提升特征中远距离帧的交互频率,工作原理示意图如图3所示,具体为:
步骤2.3.1:在通道维度上将短时域输出特征Xo按顺序划分为四个通道数均为C/4的切片,分别为第0切片X0、第1切片X1、第2切片X2和第3切片X3
步骤2.3.2:构建由3×3的2维卷积层、1维位移算子层和3×3的2维卷积层依次堆叠而成的卷积组,所述1维位移算子层用于实现帧序列的重构,工作原理示意图如图4所示,假设待重构帧序列的大小为[N,T,C/4,H,W],先将待重构帧序列重排为[N,H,W,C/4,T]的重排待重构帧序列,再形变为[NHW,C/4,T]的形变待重构帧序列,经大小为(,3)的1维卷积层后,变为[NHW,C/4,T]的重构后帧序列,然后形变为[N,H,W,C/4,T]的形变重构后帧序列,最后重排为[N,T,C/4,H,W]的重排重构后帧序列;
步骤2.3.3:将第1切片X1通过卷积组,得到卷积后第1切片X1′;卷积后第1切片X1′与第2切片X2通过残差连接相加后,通过卷积组得到卷积后第2切片X2′;卷积后第2切片X2再与第3切片X3通过残差连接相加后,通过卷积组得到卷积后第3切片X3′,最终形成一个级联的残差结构,为特征提取过程提供了多种尺度的感受野;
卷积后第1切片X1′、卷积后第2切片X′2和卷积后第3切片X′3分别通过以下公式表示:
X′1=convspt2*SMM(convspt1*X1)
X′i=convspt2*SMM(convspt1*(Xi+Xi′)),i=2,3
其中,convspt1和convspt2均代表3×3的2维卷积层;SMM(·)代表1维位移算子层;
步骤2.3.4:将第0切片X0、卷积后第1切片X1′、卷积后第2切片X′2和卷积后第3切片X3′在通道维度上进行拼接,获得长时域输出特征X′;
步骤2.4:将步骤2.3.4所得长时域输出特征X′作为下一个残差块的特征X,返回步骤2.2输入至下一个残差块,以此重复49次,直到通过骨干网络中的所有残差块,完成对视频整体时空特征和运动特征的学习,得到残差块输出向量X*
步骤2.5:将残差块输出向量X*通过骨干网络中的全连接层,输出维度与预设的目标行为类别数目相同的输出向量Xc
步骤3:以步骤1所得目标视频帧序列为行为识别网络的输入,预设的目标行为类别为训练目标,通过反向传播算法和随机梯度下降对行为识别网络进行训练,反向传播算法所采用的损失函数为全连接层输出的输出向量Xc与目标行为类别对应向量的交叉熵损失,最终得到训练完成的行为识别模型;
步骤4:待检测视频的识别流程图如图1所示,将待检测视频进行步骤1所述预处理,得到待检测视频帧序列,输入至步骤3所得训练完成的行为识别模型中,经50次迭代后,得到待检测视频的目标行为类别(人体行为识别分类),即全连接层输出的输出向量Xc中最大数值所对应的目标行为类别,并输出分类结果,实现待检测视频中人类行为的识别。

Claims (3)

1.一种长短时域特征结合的行为识别方法,其特征在于,包括以下步骤:
步骤1:获取包含人类行为的视频,预处理后得到目标视频帧序列,大小为[N,T,C,H,W];其中,N为批次大小;T为目标视频帧序列的帧长度;C、H、W分别为特征的通道数、高度和宽度;
步骤2:构建以ResNet50网络为骨干网络、包含50个残差块的行为识别网络,残差块由短时域运动特征增强模块和长时域运动特征集成模块堆叠而成,过程具体为:
步骤2.1:初始化行为识别网络的网络参数;
步骤2.2:将通道数为C的特征X通过第一个残差块中的短时域运动特征增强模块,获得短时域输出特征Xo,具体为:
步骤2.2.1:以特征X为短时域运动特征增强模块的输入特征图,经1×1的卷积层得到通道数为C/16的特征Xr
步骤2.2.2:去除特征Xr的头一帧,并在去除头一帧处填充0,得到头相邻帧序列
Figure QLYQS_1
去除特征Xr的尾一帧,并在去除尾一帧处填充0,得到尾相邻帧序列/>
Figure QLYQS_2
步骤2.2.3:将头相邻帧序列
Figure QLYQS_3
和尾相邻帧序列/>
Figure QLYQS_4
分别通过3×3的2维卷积层,然后分别使用矢量差和余弦相似度计算头相邻帧序列/>
Figure QLYQS_5
和尾相邻帧序列/>
Figure QLYQS_6
的差异M(t)和相似度P(t):
Figure QLYQS_7
Figure QLYQS_8
Figure QLYQS_9
其中,convtrans代表3×3的2维卷积层;*代表相乘;cos(A,B)代表A与B之间的余弦相似度计算;
步骤2.2.4:分别按照帧长度T堆叠差异M(t)和相似度P(t),对应得到差异运动矩阵M和相似度运动矩阵P,将相似度运动矩阵P通过softmax层得到归一化相似度运动矩阵Pa
步骤2.2.5:分别采用平均池化和最大池化处理差异运动矩阵M,经softmax层归一化处理后,对应得到平均池化运动矩阵Ma和最大池化运动矩阵Mm
步骤2.2.6:对平均池化运动矩阵Ma、最大池化运动矩阵Mm和归一化相似度运动矩阵Pa进行通道维度的加权,得到最终的运动矩阵F:
F=α*Ma+β*Mm+γ*Pa
其中,α、β和γ均为超参数,α+β+γ=1,α的取值范围为0.2~0.4,β的取值为0.1;
步骤2.2.7:将运动矩阵F通过1×1的2维卷积层,通道数扩展为C,再归一化得到最终的注意力权重Fs
Fs=2*δ(convexp*F-1)
其中,convexp代表1×1的2维卷积层;δ(·)代表sigmoid函数;
步骤2.2.8:将注意力权重Fs与特征X进行通道维度的点乘,得到的向量再与特征X相加,得到短时域输出特征Xo
Xo=X+X⊙Fs
其中,⊙代表点乘;
步骤2.3:将短时域输出X°通过第一个残差块中的长时域运动特征集成模块,获得长时域输出特征X′,提升特征中远距离帧的交互频率,具体为:
步骤2.3.1:在通道维度上将短时域输出特征Xo按顺序划分为四个通道数均为C/4的切片,分别为第0切片X0、第1切片X1、第2切片X2和第3切片X3
步骤2.3.2:构建由3×3的2维卷积层、1维位移算子层和3×3的2维卷积层依次堆叠而成的卷积组,所述1维位移算子层用于实现帧序列的重构,假设待重构帧序列的大小为[N,T,C/4,H,W],先将待重构帧序列重排为[N,H,W,C/4,T]的重排待重构帧序列,再形变为[NHW,C/4,T]的形变待重构帧序列,经大小为(,3)的1维卷积层后,变为[NHW,C/4,T]的重构后帧序列,然后形变为[N,H,W,C/4,T]的形变重构后帧序列,最后重排为[N,T,C/4,H,W]的重排重构后帧序列;
步骤2.3.3:将第1切片X1通过卷积组,得到卷积后第1切片X1′;卷积后第1切片X1′与第2切片X2通过残差连接相加后,通过卷积组得到卷积后第2切片X2′;卷积后第2切片X2再与第3切片X3通过残差连接相加后,通过卷积组得到卷积后第3切片X3′;
卷积后第1切片X1′、卷积后第2切片X′2和卷积后第3切片X3′分别通过以下公式表示:
X′1=convspt2*SMM(convspt1*X1)
X′i=convspt2*SMM(convspt1*(Xi+Xi′)),i=2,3
其中,convspt1和convspt2均代表3×3的2维卷积层;SMM(·)代表1维位移算子层;
步骤2.3.4:将第0切片X0、卷积后第1切片X1′、卷积后第2切片X′2和卷积后第3切片X3′在通道维度上进行拼接,获得长时域输出特征X′;
步骤2.4:将步骤2.3.4所得长时域输出特征X′作为下一个残差块的特征X,返回步骤2.2,直到通过骨干网络中的所有残差块,得到残差块输出向量X*
步骤2.5:将残差块输出向量X*通过骨干网络中的全连接层,输出维度与预设的目标行为类别数目相同的输出向量Xc
步骤3:基于步骤1所得目标视频帧序列和预设的目标行为类别对行为识别网络进行训练,得到训练完成的行为识别模型;
步骤4:将待检测视频进行步骤1所述预处理,得到待检测视频帧序列,输入至步骤3所得训练完成的行为识别模型中,得到待检测视频的目标行为类别。
2.根据权利要求1所述长短时域特征结合的行为识别方法,其特征在于,步骤1中预处理的过程具体包括:
步骤1.1:视频帧切分:对视频进行帧提取,获得所有的视频帧,将视频帧按顺序均分为N组;
步骤1.2:获取帧序列:在N组视频帧的每组视频帧中各随机提取一帧,组成帧序列;
步骤1.3:将帧序列中每个视频帧的大小统一缩放为255×255;
步骤1.4:将帧序列中每个视频帧的中心剪裁成224×224大小的区域,按顺序堆叠获得目标帧序列。
3.根据权利要求2所述长短时域特征结合的行为识别方法,其特征在于,步骤3中训练的具体过程为:以步骤1所得目标视频帧序列为行为识别网络的输入,预设的目标行为类别为训练目标,通过反向传播算法和随机梯度下降对行为识别网络进行训练,反向传播算法所采用的损失函数为全连接层输出的输出向量Xc与目标行为类别对应向量的交叉熵损失。
CN202110935756.5A 2021-08-16 2021-08-16 一种长短时域特征结合的行为识别方法 Active CN113705394B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110935756.5A CN113705394B (zh) 2021-08-16 2021-08-16 一种长短时域特征结合的行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110935756.5A CN113705394B (zh) 2021-08-16 2021-08-16 一种长短时域特征结合的行为识别方法

Publications (2)

Publication Number Publication Date
CN113705394A CN113705394A (zh) 2021-11-26
CN113705394B true CN113705394B (zh) 2023-05-30

Family

ID=78653144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110935756.5A Active CN113705394B (zh) 2021-08-16 2021-08-16 一种长短时域特征结合的行为识别方法

Country Status (1)

Country Link
CN (1) CN113705394B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898175B (zh) * 2022-04-29 2023-03-28 北京九章云极科技有限公司 目标检测方法、装置及相关设备
CN117196449B (zh) * 2023-11-08 2024-04-09 讯飞智元信息科技有限公司 一种视频识别方法、系统以及相关装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105096344A (zh) * 2015-08-18 2015-11-25 上海交通大学 基于cd运动特征的群体行为识别方法及系统
CN109849910A (zh) * 2018-12-21 2019-06-07 重庆长安汽车股份有限公司 无人驾驶车辆多目标决策控制方法、装置及计算机可读存储介质
CN112015843A (zh) * 2020-09-02 2020-12-01 中国科学技术大学 基于多车意图交互结果的行车风险态势评估方法及系统
CN112927202A (zh) * 2021-02-25 2021-06-08 华南理工大学 多时域多特征结合的Deepfake视频检测方法及系统
CN112926453A (zh) * 2021-02-26 2021-06-08 电子科技大学 基于运动特征增强和长时时序建模的考场作弊行为分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160297B (zh) * 2019-12-31 2022-05-13 武汉大学 基于残差注意机制时空联合模型的行人重识别方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105096344A (zh) * 2015-08-18 2015-11-25 上海交通大学 基于cd运动特征的群体行为识别方法及系统
CN109849910A (zh) * 2018-12-21 2019-06-07 重庆长安汽车股份有限公司 无人驾驶车辆多目标决策控制方法、装置及计算机可读存储介质
CN112015843A (zh) * 2020-09-02 2020-12-01 中国科学技术大学 基于多车意图交互结果的行车风险态势评估方法及系统
CN112927202A (zh) * 2021-02-25 2021-06-08 华南理工大学 多时域多特征结合的Deepfake视频检测方法及系统
CN112926453A (zh) * 2021-02-26 2021-06-08 电子科技大学 基于运动特征增强和长时时序建模的考场作弊行为分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Xiaojun Wu 等.Skeleton-Based Pedestrian Abnormal Behavior Detection with Spatio-Temporal Model in Public Places.Journal of Physics: Conference Series.2020,第1518卷1-7. *
李元祥 等.结合RGB-D视频和卷积神经网络的行为识别算法.计算机与数字工程.2020,第48卷(第12期),3052-3058. *
陈佳 等.一种基于帧差分法与快速图分割相结合的运动目标检测方法.现代电子技术.2016,第39卷(第03期),13-17+22. *

Also Published As

Publication number Publication date
CN113705394A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
Theis et al. Faster gaze prediction with dense networks and fisher pruning
CN110119780B (zh) 基于生成对抗网络的高光谱图像超分辨重建方法
Wang et al. Factorized convolutional neural networks
CN105095862B (zh) 一种基于深度卷积条件随机场的人体动作识别方法
CN110188239B (zh) 一种基于跨模态注意力机制的双流视频分类方法和装置
CN110909801B (zh) 基于卷积神经网络的数据分类方法、系统、介质及设备
CN113705394B (zh) 一种长短时域特征结合的行为识别方法
CN109993269B (zh) 基于注意力机制的单张图像人群计数方法
Xia et al. Identifying recurring patterns with deep neural networks for natural image denoising
CN104077742B (zh) 基于Gabor特征的人脸素描合成方法及系统
Hara et al. Towards good practice for action recognition with spatiotemporal 3d convolutions
CN113627389A (zh) 一种目标检测的优化方法及设备
CN105787867A (zh) 基于神经网络算法的处理视频图像的方法和装置
CN115423739A (zh) 基于SimpleBaseline的遥操作机械臂关键点的检测方法
CN114821058A (zh) 一种图像语义分割方法、装置、电子设备及存储介质
CN114332482A (zh) 一种基于特征融合的轻量化目标检测方法
Xu et al. AutoSegNet: An automated neural network for image segmentation
CN114898171B (zh) 一种适用于嵌入式平台的实时目标检测方法
Qi et al. Learning low resource consumption cnn through pruning and quantization
CN112528077B (zh) 基于视频嵌入的视频人脸检索方法及系统
CN113888491A (zh) 基于非局部特征的多级高光谱图像递进超分方法及系统
CN109558819B (zh) 一种用于遥感图像目标检测的深度网络轻量化方法
CN116797456A (zh) 图像超分辨率重建方法、系统、设备和存储介质
CN116168197A (zh) 一种基于Transformer分割网络和正则化训练的图像分割方法
CN113379655B (zh) 一种基于动态自注意力生成对抗网络的图像合成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant