CN113705394A - 一种长短时域特征结合的行为识别方法 - Google Patents

一种长短时域特征结合的行为识别方法 Download PDF

Info

Publication number
CN113705394A
CN113705394A CN202110935756.5A CN202110935756A CN113705394A CN 113705394 A CN113705394 A CN 113705394A CN 202110935756 A CN202110935756 A CN 202110935756A CN 113705394 A CN113705394 A CN 113705394A
Authority
CN
China
Prior art keywords
time domain
video
convolution
frame sequence
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110935756.5A
Other languages
English (en)
Other versions
CN113705394B (zh
Inventor
张栗粽
田玲
段贵多
解修蕊
许毅
罗光春
张勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110935756.5A priority Critical patent/CN113705394B/zh
Publication of CN113705394A publication Critical patent/CN113705394A/zh
Application granted granted Critical
Publication of CN113705394B publication Critical patent/CN113705394B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种长短时域特征结合的行为识别方法,属于人工智能深度学习视频理解行为识别技术领域,包括S1:获取包含人类行为的视频,预处理后得到与视频对应的目标视频帧序列;S2:构建以ResNet50网络为骨干网络、包含50个残差块的行为识别网络,残差块由短时域运动特征增强模块和长时域运动特征集成模块堆叠而成;S3:基于目标视频帧序列和预设目标行为类别对行为识别网络进行训练,得到训练完成的行为识别模型;S4:将待检测视频预处理后得到待检测视频帧序列,输入至训练完成的行为识别模型中,得到待检测视频的目标行为类别,实现待检测视频中人类行为的识别,提升模型运动特征建模能力及时空特征和运动特征的交互效率。

Description

一种长短时域特征结合的行为识别方法
技术领域
本发明属于人工智能深度学习视频理解行为识别技术领域,具体涉及一种长短时域特征结合的行为识别方法。
背景技术
随着互联网技术的不断升级以及存储设备容量的不断攀升,网络视频数量激增,更大的数据规模促使了视频处理技术的发展。如何利用计算机高效、准确地处理视频数据和识别视频信息,成为亟需解决的重要问题。其中,对视频中人类行为的识别是视频理解的核心问题,主要的技术方案可以分为传统行为识别方法和基于深度学习的行为识别算法。
模式识别和匹配技术是传统行为识别方法的核心,但由于其计算复杂,时效性差,准确度较低,渐渐难以适应如今信息爆炸的历史背景。随着深度学习的发展,基于深度学习的行为识别算法渐渐成为当前视频分析的首选。
基于深度学习的行为识别方法主要遵循两种不同的基础架构:双流卷积神经网络和三维卷积神经网络,但上述两种方法都存在一定问题。
基于双流卷积神经网络结构的行为识别方法存在两个难以避免的问题,其一为光流的提取需要大量的时序以及算力资源;其二为RGB流和光流的训练是分离的,信息融合往往仅在网络的末尾,难以发生有效的特征级交互。
尽管三维卷积神经网络整体计算量低于一般的双流卷积神经网络,但其卷积核维度的扩充依然带来了额外的计算开销。同时,经过大量的局部卷积操作后,远距离帧之间的相互作用变得极其有限,难以捕获有效的时空信息。
针对上述两种方法存在的问题,一些研究者提出了各自的解决方案,对本发明所提技术影响较大的有两个,分别是TEA和TSM。
TEA构建了一个独特的运动激励(motion excitation,ME)模块,该模块计算时空特征中相邻帧的特征级时序差异,结合注意力机制,利用特征级时序差异来激发原始特征的运动敏感通道,最后与输入的时空特征形成正反馈。然而TEA存在的问题是仅使用时空特征相邻帧矢量差的均值来刻画视频的运动特征,该策略容易导致像素级差异的极化以及帧间相似性信息的丢失。
为了加强远距离帧的特征交互频率,TSM创造性地使用了位移(shift)算子,该算子可以实现限定条件下视频帧序列的重排列,即帧序重构。帧序重构和卷积操作交替进行,实现远距离帧交互频率的提升。然而,TSM中位移算子的参数来源于手工和大量的实验测算,缺乏灵活性,难以适应差异化的数据场景。同时,基于经验值的位移模板无法保证参数的最优化。
发明内容
针对上述现有技术中存在的技术问题,本发明提出了一种长短时域特征结合的行为识别方法,通过采用短时域运动特征增强模块和长时域运动特征集成模块,实现对视频行为识别的可靠建模。
本发明具体技术方案如下:
一种长短时域特征结合的行为识别方法,其特征在于,包括以下步骤:
步骤1:获取包含人类行为的视频,对视频进行预处理,得到与视频对应的目标视频帧序列,目标视频帧序列的大小为[N,T,C,H,W];其中,N为批次大小;T为目标视频帧序列的帧长度;C为特征的通道数;H为特征的高度;W为特征的宽度;
步骤2:构建以ResNet(残差网络)50网络为骨干网络、包含50个残差块的行为识别网络,所述残差块由短时域运动特征增强模块和长时域运动特征集成模块堆叠而成,构建行为识别网络的过程具体为:
步骤2.1:初始化行为识别网络的网络参数;
步骤2.2:将通道数为C的特征X通过第一个残差块中的短时域运动特征增强模块,获得短时域输出特征Xo,增强特征中的运动敏感部分,具体为:
步骤2.2.1:以通道数为C的特征X为短时域运动特征增强模块的输入特征图,经过1×1的卷积层降低特征X的通道数目后,得到通道数为C/16的特征Xr,以提升效率;
步骤2.2.2:去除特征Xr的头一帧,并在去除头一帧处填充0,得到头相邻帧序列
Figure BDA0003213037720000021
去除特征Xr的尾一帧,并在去除尾一帧处填充0,得到尾相邻帧序列
Figure BDA0003213037720000022
步骤2.2.3:为了防止头相邻帧序列
Figure BDA0003213037720000023
和尾相邻帧序列
Figure BDA0003213037720000024
的过度不匹配,先将头相邻帧序列
Figure BDA0003213037720000025
和尾相邻帧序列
Figure BDA0003213037720000026
分别通过3×3的2维卷积层,然后分别使用矢量差和余弦相似度计算头相邻帧序列
Figure BDA0003213037720000027
和尾相邻帧序列
Figure BDA0003213037720000028
的差异M(t)和相似度P(t):
Figure BDA0003213037720000029
Figure BDA00032130377200000210
Figure BDA0003213037720000031
其中,convtrans代表3×3的2维卷积层;*代表相乘;cos(A,B)代表A与B之间的余弦相似度计算;
步骤2.2.4:分别按照帧长度T堆叠差异M(t)和相似度P(t),对应得到差异运动矩阵M和相似度运动矩阵P,将相似度运动矩阵P通过softmax层得到归一化相似度运动矩阵Pa
步骤2.2.5:分别采用平均池化和最大池化处理差异运动矩阵M,经softmax层归一化处理后,对应得到平均池化运动矩阵Ma和最大池化运动矩阵Mm,平均池化运动矩阵Ma、最大池化运动矩阵Mm和归一化相似度运动矩阵Pa均在某个侧面反映了头相邻帧序列
Figure BDA0003213037720000032
Figure BDA0003213037720000033
和尾相邻帧序列
Figure BDA0003213037720000034
之间的差异,即视频运动特征,并且彼此之间存在互补性;
步骤2.2.6:对平均池化运动矩阵Ma、最大池化运动矩阵Mm和归一化相似度运动矩阵P进行通道维度的加权,得到最终的运动矩阵F:
F=α*Ma+β*Mm+γ*Pa
其中,α、β和γ均为超参数,α+β+γ=1,α的取值范围为0.2~0.4,β的取值为0.1;
步骤2.2.7:将运动矩阵F通过1×1的2维卷积层,其通道数扩展为C,然后通过sigmoid函数以及线性变换对运动矩阵F进行归一化,得到最终的注意力权重Fs
Fs=2*δ(convexp*F-1)
其中,convexp代表1×1的2维卷积层;δ(·)代表sigmoid函数;
步骤2.2.8:将注意力权重Fs与特征X进行通道维度的点乘,得到的向量再与特征X相加,得到短时域输出特征Xo,在增强特征X中的运动敏感部分的同时保证背景信息在全训练过程中不丢失,短时域输出特征Xo为:
Xo=X+X⊙Fs
其中,⊙代表点乘;
步骤2.3:将短时域输出Xo通过第一个残差块中的长时域运动特征集成模块,获得长时域输出特征X′,提升特征中远距离帧的交互频率,具体为:
步骤2.3.1:在通道维度上将短时域输出特征X°按顺序划分为四个通道数均为C/4的切片,分别为第0切片X0、第1切片X1、第2切片X2和第3切片X3
步骤2.3.2:构建由3×3的2维卷积层、1维位移算子层和3×3的2维卷积层依次堆叠而成的卷积组,所述1维位移算子层用于实现帧序列的重构,假设待重构帧序列的大小为[N,T,C/4,H,W],先将待重构帧序列重排为[N,H,W,C/4,T]的重排待重构帧序列,再形变为[NHW,C/4,T]的形变待重构帧序列,经大小为(,3)的1维卷积层后,变为[NHW,C/4,T]的重构后帧序列,然后形变为[N,H,W,C/4,T]的形变重构后帧序列,最后重排为[N,T,C/4,H,W]的重排重构后帧序列;
步骤2.3.3:将第1切片X1通过卷积组,得到卷积后第1切片X1′;卷积后第1切片X1′与第2切片X2通过残差连接相加后,通过卷积组得到卷积后第2切片X2′;卷积后第2切片X2再与第3切片X3通过残差连接相加后,通过卷积组得到卷积后第3切片X3′,最终形成一个级联的残差结构,为特征提取过程提供了多种尺度的感受野;
卷积后第1切片X1′、卷积后第2切片X2′和卷积后第3切片X3′分别通过以下公式表示:
X′1=convspt2*SMM(convspt1*X1)
X′i=convspt2*SMM(convspt1*(Xi+Xi′)),i=2,3
其中,convspt1和convspt2均代表3×3的2维卷积层;SMM(·)代表1维位移算子层;
步骤2.3.4:将第0切片X0、卷积后第1切片X1′、卷积后第2切片X2′和卷积后第3切片X3′在通道维度上进行拼接,获得长时域输出特征X′;
步骤2.4:将步骤2.3.4所得长时域输出特征X′作为下一个残差块的特征X,返回步骤2.2,直到通过骨干网络中的所有残差块,完成对视频整体时空特征和运动特征的学习,得到残差块输出向量X*
步骤2.5:将残差块输出向量X*通过骨干网络中的全连接层,输出维度与预设的目标行为类别数目相同的输出向量Xc
步骤3:基于步骤1所得目标视频帧序列和预设的目标行为类别对行为识别网络进行训练,得到训练完成的行为识别模型;
步骤4:将待检测视频进行步骤1所述预处理,得到待检测视频帧序列,输入至步骤3所得训练完成的行为识别模型中,得到待检测视频的目标行为类别,实现待检测视频中人类行为的识别。
进一步地,步骤1中预处理的过程具体包括:
步骤1.1:视频帧切分:对视频进行帧提取,获得所有的视频帧,将视频帧按顺序均分为N组;
步骤1.2:获取帧序列:在N组视频帧的每组视频帧中各随机提取一帧,组成帧序列;
步骤1.3:将帧序列中每个视频帧的大小统一缩放为255×255;
步骤1.4:将帧序列中每个视频帧的中心剪裁成224×224大小的区域,按顺序堆叠获得目标帧序列。
进一步地,步骤3中训练的具体过程为:以步骤1所得目标视频帧序列为行为识别网络的输入,预设的目标行为类别为训练目标,通过反向传播算法和随机梯度下降对行为识别网络进行训练,反向传播算法所采用的损失函数为全连接层输出的输出向量Xc与目标行为类别对应向量的交叉熵损失。
本发明的有益效果为:
1.本发明提出了一种长短时域特征结合的行为识别方法,通过构建并训练以ResNet50网络为骨干网络,短时域运动特征增强模块和长时域运动特征集成模块为残差块的行为识别网络,在丰富整体行为识别网络的感受野的同时,从短、长时域两方面提升模型整体的运动特征建模能力;并结合注意力机制和残差网络,保证了时空特征和运动特征的充分交互,实现了可靠的运动建模;
2.短时域运动特征增强模块基于通道注意力构建,采用多种不同的运动特征建模方法(包括矢量差极值、矢量差平均值和余弦相似度),增强原始特征中的运动敏感部分,提升了空间信息和运动信息的特征级交互效率;
3.长时域运动特征集成模块通过利用可训练的1维位移算子层,实现训练过程中帧序的重排列,提升远距离帧的交互频率,进而提升长时域运动信息的建模能力。
附图说明
图1为本发明实施例1提出的长短时域特征结合的行为识别方法的识别流程图;
图2为本发明实施例1提出的长短时域特征结合的行为识别方法中短时域运动特征增强模块的工作原理示意图;
图3为本发明实施例1提出的长短时域特征结合的行为识别方法中长时域运动特征集成模块的工作原理示意图;
图4为本发明实施例1提出的长短时域特征结合的行为识别方法中1维位移算子层的工作原理示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清晰,结合以下具体实施例,并参照附图,对本发明做进一步的说明。
下述非限制性实施例可以使本领域的普通技术人员更全面的理解本方明,但不以任何方式限制本发明。
实施例1
本实施例提供了一种长短时域特征结合的行为识别方法,包括以下步骤:
步骤1:获取并输入包含人类行为的视频数据,对视频数据进行预处理,得到与视频对应的目标视频帧序列,目标视频帧序列的大小为[N,T,C,H,W];其中,N为批次大小;T为目标视频帧序列的帧长度;C为特征的通道数;H为特征的高度;W为特征的宽度;其中,预处理的过程具体为:
步骤1.1:视频帧切分:对视频数据进行帧提取,获得所有的视频帧,将视频帧按顺序均分为N组;
步骤1.2:获取帧序列:在N组视频帧的每组视频帧中各随机提取一帧,组成帧序列;
步骤1.3:将帧序列中每个视频帧的大小统一缩放为255×255;
步骤1.4:将帧序列中每个视频帧的中心剪裁成224×224大小的区域,按顺序堆叠获得目标帧序列;
步骤2:构建以ResNet50网络为骨干网络、包含50个残差块的行为识别网络,所述残差块由短时域运动特征增强模块和长时域运动特征集成模块堆叠而成,构建行为识别网络的过程具体为:
步骤2.1:初始化行为识别网络的网络参数;
步骤2.2:将通道数为C的特征X通过第一个残差块中的短时域运动特征增强模块,获得短时域输出特征Xo,增强特征中的运动敏感部分,工作原理示意图如图2所示,具体为:
步骤2.2.1:以通道数为C的特征X为短时域运动特征增强模块的输入特征图,经过1×1的2维卷积层降低特征X的通道数目后,得到通道数为C/16的特征Xr,以提升效率;
步骤2.2.2:进行时序分割,去除特征Xr的头一帧,并在去除头一帧处填充0,得到头相邻帧序列
Figure BDA0003213037720000061
去除特征Xr的尾一帧,并在去除尾一帧处填充0,得到尾相邻帧序列
Figure BDA0003213037720000062
步骤2.2.3:为了防止头相邻帧序列
Figure BDA0003213037720000063
和尾相邻帧序列
Figure BDA0003213037720000064
的过度不匹配,先将头相邻帧序列
Figure BDA0003213037720000065
和尾相邻帧序列
Figure BDA0003213037720000066
分别通过3×3的2维卷积层,然后分别使用矢量差和余弦相似度计算头相邻帧序列
Figure BDA0003213037720000067
和尾相邻帧序列
Figure BDA0003213037720000068
的差异M(t)和相似度P(t):
Figure BDA0003213037720000069
Figure BDA0003213037720000071
Figure BDA0003213037720000072
其中,convtrans代表3×3的2维卷积层;*代表相乘;cos(A,B)代表A与B之间的余弦相似度计算;
步骤2.2.4:分别按照帧长度T堆叠差异M(t)和相似度P(t),对应得到差异运动矩阵M和相似度运动矩阵P,将相似度运动矩阵P通过softmax层得到归一化相似度运动矩阵Pa
步骤2.2.5:分别采用平均池化和最大池化处理差异运动矩阵M,经softmax层归一化处理后,对应得到平均池化运动矩阵Ma和最大池化运动矩阵Mm,平均池化运动矩阵Ma、最大池化运动矩阵Mm和归一化相似度运动矩阵Pa均在某个侧面反映了头相邻帧序列
Figure BDA0003213037720000073
Figure BDA0003213037720000074
和尾相邻帧序列
Figure BDA0003213037720000075
之间的差异,即视频运动特征,并且彼此之间存在互补性;
步骤2.2.6:对平均池化运动矩阵Ma、最大池化运动矩阵Mm和归一化相似度运动矩阵P进行通道维度的加权,得到最终的运动矩阵F:
F=α*Ma+β*Mm+γ*Pa
其中,α、β和γ均为超参数,α+β+γ=1,α的取值范围为0.2~0.4,β的取值为0.1;
步骤2.2.7:将运动矩阵F通过1×1的2维卷积层,其通道数扩展为C,然后通过sigmoid函数以及线性变换对运动矩阵F进行归一化,得到最终的注意力权重Fs
Fs=2*δ(convexp*F-1)
其中,convexp代表1×1的2维卷积层;δ(·)代表sigmoid函数;
步骤2.2.8:将注意力权重Fs与特征X进行通道维度的点乘,得到的向量再与特征X相加,得到短时域输出特征Xo,在增强特征X中的运动敏感部分的同时保证背景信息在全训练过程中不丢失,短时域输出特征X°为:
X°=X+X⊙Fs
其中,⊙代表点乘;
步骤2.3:将短时域输出Xo通过第一个残差块中的长时域运动特征集成模块,获得长时域输出特征X′,提升特征中远距离帧的交互频率,工作原理示意图如图3所示,具体为:
步骤2.3.1:在通道维度上将短时域输出特征Xo按顺序划分为四个通道数均为C/4的切片,分别为第0切片X0、第1切片X1、第2切片X2和第3切片X3
步骤2.3.2:构建由3×3的2维卷积层、1维位移算子层和3×3的2维卷积层依次堆叠而成的卷积组,所述1维位移算子层用于实现帧序列的重构,工作原理示意图如图4所示,假设待重构帧序列的大小为[N,T,C/4,H,W],先将待重构帧序列重排为[N,H,W,C/4,T]的重排待重构帧序列,再形变为[NHW,C/4,T]的形变待重构帧序列,经大小为(,3)的1维卷积层后,变为[NHW,C/4,T]的重构后帧序列,然后形变为[N,H,W,C/4,T]的形变重构后帧序列,最后重排为[N,T,C/4,H,W]的重排重构后帧序列;
步骤2.3.3:将第1切片X1通过卷积组,得到卷积后第1切片X1′;卷积后第1切片X1′与第2切片X2通过残差连接相加后,通过卷积组得到卷积后第2切片X2′;卷积后第2切片X2再与第3切片X3通过残差连接相加后,通过卷积组得到卷积后第3切片X3′,最终形成一个级联的残差结构,为特征提取过程提供了多种尺度的感受野;
卷积后第1切片X1′、卷积后第2切片X′2和卷积后第3切片X′3分别通过以下公式表示:
X′1=convspt2*SMM(convspt1*X1)
X′i=convspt2*SMM(convspt1*(Xi+Xi′)),i=2,3
其中,convspt1和convspt2均代表3×3的2维卷积层;SMM(·)代表1维位移算子层;
步骤2.3.4:将第0切片X0、卷积后第1切片X1′、卷积后第2切片X′2和卷积后第3切片X3′在通道维度上进行拼接,获得长时域输出特征X′;
步骤2.4:将步骤2.3.4所得长时域输出特征X′作为下一个残差块的特征X,返回步骤2.2输入至下一个残差块,以此重复49次,直到通过骨干网络中的所有残差块,完成对视频整体时空特征和运动特征的学习,得到残差块输出向量X*
步骤2.5:将残差块输出向量X*通过骨干网络中的全连接层,输出维度与预设的目标行为类别数目相同的输出向量Xc
步骤3:以步骤1所得目标视频帧序列为行为识别网络的输入,预设的目标行为类别为训练目标,通过反向传播算法和随机梯度下降对行为识别网络进行训练,反向传播算法所采用的损失函数为全连接层输出的输出向量Xc与目标行为类别对应向量的交叉熵损失,最终得到训练完成的行为识别模型;
步骤4:待检测视频的识别流程图如图1所示,将待检测视频进行步骤1所述预处理,得到待检测视频帧序列,输入至步骤3所得训练完成的行为识别模型中,经50次迭代后,得到待检测视频的目标行为类别(人体行为识别分类),即全连接层输出的输出向量Xc中最大数值所对应的目标行为类别,并输出分类结果,实现待检测视频中人类行为的识别。

Claims (3)

1.一种长短时域特征结合的行为识别方法,其特征在于,包括以下步骤:
步骤1:获取包含人类行为的视频,预处理后得到目标视频帧序列,大小为[N,T,C,H,W];其中,N为批次大小;T为目标视频帧序列的帧长度;C、H、W分别为特征的通道数、高度和宽度;
步骤2:构建以ResNet50网络为骨干网络、包含50个残差块的行为识别网络,残差块由短时域运动特征增强模块和长时域运动特征集成模块堆叠而成,过程具体为:
步骤2.1:初始化行为识别网络的网络参数;
步骤2.2:将通道数为C的特征X通过第一个残差块中的短时域运动特征增强模块,获得短时域输出特征Xo,具体为:
步骤2.2.1:以特征X为短时域运动特征增强模块的输入特征图,经1×1的卷积层得到通道数为C/16的特征Xr
步骤2.2.2:去除特征Xr的头一帧,并在去除头一帧处填充0,得到头相邻帧序列
Figure FDA0003213037710000011
去除特征Xr的尾一帧,并在去除尾一帧处填充0,得到尾相邻帧序列
Figure FDA0003213037710000012
步骤2.2.3:将头相邻帧序列
Figure FDA0003213037710000013
和尾相邻帧序列
Figure FDA0003213037710000014
分别通过3×3的2维卷积层,然后分别使用矢量差和余弦相似度计算头相邻帧序列
Figure FDA0003213037710000015
阳尾相邻帧序列
Figure FDA0003213037710000016
的差异M(t)和相似度P(t):
Figure FDA0003213037710000017
Figure FDA0003213037710000018
Figure FDA0003213037710000019
其中,convtrans代表3×3的2维卷积层;*代表相乘;cos(A,B)代表A与B之间的余弦相似度计算;
步骤2.2.4:分别按照帧长度T堆叠差异M(t)和相似度P(t),对应得到差异运动矩阵M和相似度运动矩阵P,将相似度运动矩阵P通过softmax层得到归一化相似度运动矩阵Pa
步骤2.2.5:分别采用平均池化和最大池化处理差异运动矩阵M,经softmax层归一化处理后,对应得到平均池化运动矩阵Ma和最大池化运动矩阵Mm
步骤2.2.6:对平均池化运动矩阵Ma、最大池化运动矩阵Mm和归一化相似度运动矩阵Pa进行通道维度的加权,得到最终的运动矩阵F:
F=α*Ma+β*Mm+γ*Pa
其中,α、β和γ均为超参数,α+β+γ=1,α的取值范围为0.2~0.4,β的取值为0.1;
步骤2.2.7:将运动矩阵F通过1×1的2维卷积层,通道数扩展为C,再归一化得到最终的注意力权重Fs
Fs=2*δ(convexp*F-1)
其中,convexp代表1×1的2维卷积层;δ(·)代表sigmoid函数;
步骤2.2.8:将注意力权重Fs与特征X进行通道维度的点乘,得到的向量再与特征X相加,得到短时域输出特征Xo
Xo=X+X⊙Fs
其中,⊙代表点乘;
步骤2.3:将短时域输出X°通过第一个残差块中的长时域运动特征集成模块,获得长时域输出特征X′,提升特征中远距离帧的交互频率,具体为:
步骤2.3.1:在通道维度上将短时域输出特征Xo按顺序划分为四个通道数均为C/4的切片,分别为第0切片X0、第1切片X1、第2切片X2和第3切片X3
步骤2.3.2:构建由3×3的2维卷积层、1维位移算子层和3×3的2维卷积层依次堆叠而成的卷积组,所述1维位移算子层用于实现帧序列的重构,假设待重构帧序列的大小为[N,T,C/4,H,W],先将待重构帧序列重排为[N,H,W,C/4,T]的重排待重构帧序列,再形变为[NHW,C/4,T]的形变待重构帧序列,经大小为(,3)的1维卷积层后,变为[NHW,C/4,T]的重构后帧序列,然后形变为[N,H,W,C/4,T]的形变重构后帧序列,最后重排为[N,T,C/4,H,W]的重排重构后帧序列;
步骤2.3.3:将第1切片X1通过卷积组,得到卷积后第1切片X1′;卷积后第1切片X1′与第2切片X2通过残差连接相加后,通过卷积组得到卷积后第2切片X2′;卷积后第2切片X2再与第3切片X3通过残差连接相加后,通过卷积组得到卷积后第3切片X3′;
卷积后第1切片X1′、卷积后第2切片X′2和卷积后第3切片X3′分别通过以下公式表示:
X′1=convspt2*SMM(convspt1*X1)
X′i=convspt2*SMM(convspt1*(Xi+Xi′)),i=2,3
其中,convspt1和convspt2均代表3×3的2维卷积层;SMM(·)代表1维位移算子层;
步骤2.3.4:将第0切片X0、卷积后第1切片X1′、卷积后第2切片X′2和卷积后第3切片X3′在通道维度上进行拼接,获得长时域输出特征X′;
步骤2.4:将步骤2.3.4所得长时域输出特征X′作为下一个残差块的特征X,返回步骤2.2,直到通过骨干网络中的所有残差块,得到残差块输出向量X*
步骤2.5:将残差块输出向量X*通过骨干网络中的全连接层,输出维度与预设的目标行为类别数目相同的输出向量Xc
步骤3:基于步骤1所得目标视频帧序列和预设的目标行为类别对行为识别网络进行训练,得到训练完成的行为识别模型;
步骤4:将待检测视频进行步骤1所述预处理,得到待检测视频帧序列,输入至步骤3所得训练完成的行为识别模型中,得到待检测视频的目标行为类别。
2.根据权利要求1所述长短时域特征结合的行为识别方法,其特征在于,步骤1中预处理的过程具体包括:
步骤1.1:视频帧切分:对视频进行帧提取,获得所有的视频帧,将视频帧按顺序均分为N组;
步骤1.2:获取帧序列:在N组视频帧的每组视频帧中各随机提取一帧,组成帧序列;
步骤1.3:将帧序列中每个视频帧的大小统一缩放为255×255;
步骤1.4:将帧序列中每个视频帧的中心剪裁成224×224大小的区域,按顺序堆叠获得目标帧序列。
3.根据权利要求2所述长短时域特征结合的行为识别方法,其特征在于,步骤3中训练的具体过程为:以步骤1所得目标视频帧序列为行为识别网络的输入,预设的目标行为类别为训练目标,通过反向传播算法和随机梯度下降对行为识别网络进行训练,反向传播算法所采用的损失函数为全连接层输出的输出向量Xc与目标行为类别对应向量的交叉熵损失。
CN202110935756.5A 2021-08-16 2021-08-16 一种长短时域特征结合的行为识别方法 Active CN113705394B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110935756.5A CN113705394B (zh) 2021-08-16 2021-08-16 一种长短时域特征结合的行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110935756.5A CN113705394B (zh) 2021-08-16 2021-08-16 一种长短时域特征结合的行为识别方法

Publications (2)

Publication Number Publication Date
CN113705394A true CN113705394A (zh) 2021-11-26
CN113705394B CN113705394B (zh) 2023-05-30

Family

ID=78653144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110935756.5A Active CN113705394B (zh) 2021-08-16 2021-08-16 一种长短时域特征结合的行为识别方法

Country Status (1)

Country Link
CN (1) CN113705394B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898175A (zh) * 2022-04-29 2022-08-12 北京九章云极科技有限公司 目标检测方法、装置及相关设备
CN117196449A (zh) * 2023-11-08 2023-12-08 讯飞智元信息科技有限公司 一种视频识别方法、系统以及相关装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105096344A (zh) * 2015-08-18 2015-11-25 上海交通大学 基于cd运动特征的群体行为识别方法及系统
CN109849910A (zh) * 2018-12-21 2019-06-07 重庆长安汽车股份有限公司 无人驾驶车辆多目标决策控制方法、装置及计算机可读存储介质
CN112015843A (zh) * 2020-09-02 2020-12-01 中国科学技术大学 基于多车意图交互结果的行车风险态势评估方法及系统
CN112927202A (zh) * 2021-02-25 2021-06-08 华南理工大学 多时域多特征结合的Deepfake视频检测方法及系统
CN112926453A (zh) * 2021-02-26 2021-06-08 电子科技大学 基于运动特征增强和长时时序建模的考场作弊行为分析方法
US20210201010A1 (en) * 2019-12-31 2021-07-01 Wuhan University Pedestrian re-identification method based on spatio-temporal joint model of residual attention mechanism and device thereof

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105096344A (zh) * 2015-08-18 2015-11-25 上海交通大学 基于cd运动特征的群体行为识别方法及系统
CN109849910A (zh) * 2018-12-21 2019-06-07 重庆长安汽车股份有限公司 无人驾驶车辆多目标决策控制方法、装置及计算机可读存储介质
US20210201010A1 (en) * 2019-12-31 2021-07-01 Wuhan University Pedestrian re-identification method based on spatio-temporal joint model of residual attention mechanism and device thereof
CN112015843A (zh) * 2020-09-02 2020-12-01 中国科学技术大学 基于多车意图交互结果的行车风险态势评估方法及系统
CN112927202A (zh) * 2021-02-25 2021-06-08 华南理工大学 多时域多特征结合的Deepfake视频检测方法及系统
CN112926453A (zh) * 2021-02-26 2021-06-08 电子科技大学 基于运动特征增强和长时时序建模的考场作弊行为分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIAOJUN WU 等: "Skeleton-Based Pedestrian Abnormal Behavior Detection with Spatio-Temporal Model in Public Places" *
李元祥 等: "结合RGB-D视频和卷积神经网络的行为识别算法" *
陈佳 等: "一种基于帧差分法与快速图分割相结合的运动目标检测方法" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898175A (zh) * 2022-04-29 2022-08-12 北京九章云极科技有限公司 目标检测方法、装置及相关设备
CN117196449A (zh) * 2023-11-08 2023-12-08 讯飞智元信息科技有限公司 一种视频识别方法、系统以及相关装置
CN117196449B (zh) * 2023-11-08 2024-04-09 讯飞智元信息科技有限公司 一种视频识别方法、系统以及相关装置

Also Published As

Publication number Publication date
CN113705394B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
Theis et al. Faster gaze prediction with dense networks and fisher pruning
Wang et al. Factorized convolutional neural networks
CN111144329B (zh) 一种基于多标签的轻量快速人群计数方法
CN110909801B (zh) 基于卷积神经网络的数据分类方法、系统、介质及设备
Wang et al. Exploring linear relationship in feature map subspace for convnets compression
CN110929736B (zh) 多特征级联rgb-d显著性目标检测方法
CN111563507B (zh) 一种基于卷积神经网络的室内场景语义分割方法
CN111738363B (zh) 基于改进的3d cnn网络的阿尔茨海默病分类方法
CN111523546A (zh) 图像语义分割方法、系统及计算机存储介质
CN113705394A (zh) 一种长短时域特征结合的行为识别方法
Xia et al. Identifying recurring patterns with deep neural networks for natural image denoising
CN110046550A (zh) 基于多层特征学习的行人属性识别系统及方法
CN113743269B (zh) 一种轻量化识别视频人体姿态的方法
CN113379655B (zh) 一种基于动态自注意力生成对抗网络的图像合成方法
CN111582041A (zh) 基于cwt和mlmsffcnn的脑电识别方法
CN110188827A (zh) 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
CN115082293A (zh) 一种基于Swin Transformer和CNN双分支耦合的图像配准方法
CN115631513B (zh) 基于Transformer的多尺度行人重识别方法
CN115775350A (zh) 一种图像增强方法和装置、计算设备
Qi et al. Learning low resource consumption cnn through pruning and quantization
CN113888491A (zh) 基于非局部特征的多级高光谱图像递进超分方法及系统
CN116258914B (zh) 基于机器学习及局部和全局特征融合的遥感图像分类方法
CN110992320B (zh) 一种基于双重交错的医学图像分割网络
CN116777842A (zh) 基于深度学习的轻量化纹理表面缺陷检测方法和系统
CN115937693A (zh) 一种基于遥感图像的道路识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant