CN113762149A

CN113762149A - 基于分割注意力的特征融合人体行为识别系统及方法

Info

Publication number: CN113762149A
Application number: CN202111043736.3A
Authority: CN
Inventors: 卢先领; 余金锁
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2021-12-07

Abstract

本发明公开了计算机视觉的动作识别技术领域的一种基于分割注意力的特征融合人体行为识别系统及方法，包括：获取视频样本；基于视频样本进行逐帧分解采样；将采样后的视频帧输入分割注意力网络中进行深度特征提取，输出特征向量；将提取的特征向量输入到双向长短时记忆网络中建模时间信息，提取时间特征；基于提取的时间特征，使用softmax分类器对其结果进行动作类别分类，其中得分最高的动作为识别结果，所述动作得分为该类动作的识别准确率。本发明能够解决传统卷积神经网络所提取特征精确度不足的情况，以及单向长短时记忆网络不能充分利用时间信息的问题，有效提升了识别性能。

Description

基于分割注意力的特征融合人体行为识别系统及方法

技术领域

本发明涉及一种基于分割注意力的特征融合人体行为识别系统及方法，属于计算机视觉的动作识别技术领域。

背景技术

人体行为识别是指利用模式识别、机器学习等方法，自动分析识别出视频中的人体行为，在视频检索、安全监控、智能家居等领域有着广泛应用。与单图像识别相比，动作识别不仅需要提取动作的空间特征，还要对视频帧之间的时间相关信息进行建模。此外视频中的背景、光照、视角等变化也会影响识别效果，因此设计一个高效准确的行为识别算法十分具有挑战性。

传统人体行为识别算法通过提取运动目标的特征描述子等手工特征来表征人体动作，从而达到识别的目的。近年来，深度学习发展迅速，卷积神经网络在图像领域取得了巨大成功。使用深度学习中的卷积神经网络通过自学习的方式来提取动作特征，成为人体行为识别领域的主流方法。

目前，基于深度学习的人体行为识别算法大致可以分为三大类。第一类是使用双流神经网络分别建模视频帧的空间和时间信息。双流网络极大地提高了识别准确率，但是双流网络在空间流仅操作一帧，在时间流仅操作短片段中的单堆帧，对视频中的时间信息利用有限。第二类是使用3D卷积神经网络直接建模视频的时空信息。3D卷积神经网络使用大小为3×3×3的卷积核直接在时间和空间维度操作16帧视频输入，最后使用Softmax分类器得到视频分类结果。3D卷积神经网络仅使用RGB视频帧作为输入，不需要计算额外的光流，提升了数据预处理速度，但是由于其三维结构，网络参数也成倍增加。第三类是基于CNN-RNN的算法框架。该框架使用卷积神经网络提取视频帧的空间信息，再使用循环神经网络提取动作的时间信息，避免了双流神经网络中复杂的光流图提取，相对于3D卷积神经网络也有效降低了计算量。

但是，基于CNN-RNN的算法中存在两大不足：

(1)传统的CNN-RNN算法中使用的卷积神经网络受背景等冗余信息所影响，所提取的特征精确度不足，导致最后的识别精度不够理想。

(2)单向的长短时记忆网络只利用了过去时刻的信息，不能充分对时间信息建模。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种基于分割注意力的特征融合人体行为识别系统及方法，能够解决传统卷积神经网络所提取特征精确度不足的情况，以及单向长短时记忆网络不能充分利用时间信息的问题，有效提升了识别性能。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了基于分割注意力的特征融合人体行为识别方法，包括：

获取视频样本；

基于视频样本进行逐帧分解采样；

将采样后的视频帧输入分割注意力网络中进行深度特征提取，输出特征向量；

将提取的特征向量输入到双向长短时记忆网络中建模时间信息，提取时间特征；

基于提取的时间特征，使用softmax分类器对其结果进行动作类别分类，其中得分最高的动作为识别结果，所述动作得分为该类动作的识别准确率。

进一步的，基于视频样本进行逐帧分解采样，包括：

对视频帧数量小于30帧的视频样本，不采样；

对视频帧数量介于30至59帧的视频样本，逐帧采样；

对视频帧数量介于60至90帧的视频样本，每两帧采样一帧；

对视频帧数量大于90帧的视频样本，每三帧采样一帧。

进一步的，将采样后的视频帧输入到分割注意力网络中进行深度特征提取，包括：

将采样后的视频帧分成多个基数组，再将每个基数组分成多个分割，在每个分割中对输入视频帧进行卷积操作，得到多个特征图组；

通过使用全局上下文信息计算不同特征图组在通道维度的权重；

基于通道特征向量的权重计算每一个基数组中的通道特征向量；

对每一个特征向量沿通道维度进行连接，得到分割注意力模块的输出特征向量。

进一步的，特征图组为：

U_i＝F_i(X)，i∈{1,2,...G}

式中，F_i是对每个独立特征图组使用的1×1卷积和3×3卷积，i表示不同的特征图组，X表示采样后的视频帧，U_i是经过卷积之后输出的特征图组。

进一步的，全局上下文信息为：

式中，

为第c通道的全局上下文信息，k表示所在基数组，H，W为第c个通道特征向量的输出大小，

表示第c个通道的特征向量卷积后的结果，其中i，j分别表示特征向量中的宽度坐标和高度坐标。

进一步的，通道维度的权重为：

式中，

表示第c个通道特征向量的权重，权重函数

是根据全局上下文信息

确定的每个特征图组中第c个通道所占的权重，m，n表示当前所在特征图组。

进一步的，通道特征向量为：

式中，

为第k个基数组中第c个通道特征向量，

表示第c个通道特征向量的权重，U_r(k-1)+i表示第k个基数组中第i个原特征向量，通过对原特征向量加权累加可得第c个通道的特征向量表示。

进一步的，分割注意力模块的输出特征向量为：

V＝Concat{V¹,V²,...V^k}

式中，Concat表示沿通道维度的拼接操作，V^k表示第k个基数组的特征向量，将原始输入视频帧x与分割注意力模块的输出V进行短接，从而生成分割注意力模块的最终输出：

Y＝V+T(x)

式中，T表示带步长的卷积操作，用于对齐分割注意力块的输出形状，x表示原始输入。

进一步的，双向长短时记忆网络建模时间信息为：

h_t＝σ(w₁x_t+w₂h_t-1+b_t)

h’_t＝σ(w₃x_t+w₅h’_t+1+b_t)

O’_t＝tanh(w₄h_t+b_t)

O”_t＝tanh(w₆h’_t+b_t)

其中h_t-1，h_t分别表示前向推理过程前一时刻和当前时刻的输出，h’_t+1，h’_t分别表示反向推理过程前一时刻和当前时刻的输出，w_i表示权重，i＝1，2…6，b_t为偏置项，x_t为分割注意力网络提取的特征，o_t为时序输出向量，o’_t和o”_t别分表示前向传播与反向传播的输出，o_t取二者平均值，σ和tanh分别表示sigmoid激活函数和tanh激活函数。

第二方面，本发明提供了基于分割注意力的特征融合人体行为识别系统，包括：

输入模块：用于获取视频样本；

采样模块：用于基于视频样本进行逐帧分解采样；

特征向量输出模块：用于将采样后的视频帧输入分割注意力网络中进行深度特征提取，输出特征向量；

时间特征提取模块：用于将提取的特征向量输入到双向长短时记忆网络中建模时间信息，提取时间特征；

动作类别分类模块：用于基于提取的时间特征，使用softmax分类器对其结果进行动作类别分类，其中得分最高的动作为识别结果，所述动作得分为该类动作的识别准确率。

与现有技术相比，本发明所达到的有益效果：

本发明使用分割注意力网络提取视频中动作的表观信息，有效抑制了视频帧中冗余的背景，将目光集中于动作本身，提高了特征精度。其次，在分割注意力网络中引入特征融合机制，提升高低层特征间的交互。最后使用双向长短时记忆网络替换单向长短时记忆网络，在前向传递的同时增加反向传递结构，充分利用了人体动作的前后相关特性。

附图说明

图1是本发明实施例一提供的基于分割注意力的特征融合人体行为识别方法的流程图；

图2是本发明实施例一提供的基于分割注意力的特征融合人体行为识别方法的分割注意力块结构图；

图3是本发明实施例一提供的基于分割注意力的特征融合人体行为识别方法的双向长短时记忆网络结构图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一：

如图1所示，一种基于分割注意力的特征融合人体行为识别方法，包括如下步骤：

步骤S1：逐帧分解每个视频得到视频帧，视频帧的原始尺寸为320×240，裁剪调整为224×224，其作用是将输入信息标准化。其次，使用自适应采样策略对裁剪后的视频帧进行采样，以便最大化提取视频中的动作信息。

由于视频中的时间信息分布于整个视频帧中，对于长度不同的视频其时间信息分布也不相同。为了最大化收集视频中的时间信息，需要对不同长度的视频使用不同的采样率采样。本发明提出一种自适应采样策略，对视频帧进行采样，具体如下：

通过对数据集分析发现，小于30帧的视频样本不足总样本的千分之一，所以剔除小于30帧的视频样本。对于视频帧数量介于30至59帧的，以采样率1采样，即直接采样前30帧，不舍弃中间帧。对于视频帧数量介于60至90帧的，以采样率2采样，即每两帧采样一帧对其采样30帧；对于视频帧数量大于90帧的，以采样率3采样，即每三帧采样一帧对其采样30帧。考虑到视频中前后帧的相关性，自适应采样策略中的采样率不宜设置过大，过大会导致运动信息丢失，降低识别准确性。

本发明所使用的数据集提供了三种不同的训练测试样本划分，分别在这三个训练测试样本上进行实验，最终结果取三个不同样本划分的平均值作为最终结果。

步骤S2，经过步骤S1采样后，将采样后的视频帧输入到分割注意力网络中，在经过分割注意力网络的卷积，加权求和以及池化等操作后，最终输出一维特征向量，并输入BI-LSTM网络中，其作用是提取视频帧中的深度特征。并在分割注意力网络中引入特征融合机制，其作用是增加不同卷积层之间的信息交互，从而更精确地提取视频帧的深度特征。

本发明所提出方法首先使用分割注意力网络提取视频的动作信息。分割注意力网络由分割注意力模块构成，其结构如图2所示。在分割注意力模块中，首先将输入视频帧分成k个基数组，再将每个基数组分成r个分割，在每个分割中使用1×1卷积和3×3卷积对输入视频帧进行卷积操作，以降低输入视频帧的空间尺寸，最终得到G＝kr个特征图组。每个特征图组可表示为：

U_i＝F_i(X)，i∈{1,2,...G}

式中，F_i是对每个独立特征图组使用的1×1卷积和3×3卷积，i表示不同的特征图组，X表示输入，U_i是经过卷积之后输出的特征图组。

全局上下文信息描述了视频帧中不同像素点之间的隐式关系，在分割注意力模块中通过使用全局上下文信息

计算不同特征图组在通道维度的权重a_n，以突出视频帧中重要信息，同时抑制冗余的背景信息，其中k表示所在基数组，n表示基数组中的第n个分割。第c通道的全局上下文信息

计算过程如下：

式中，H，W为第c个通道特征向量的输出大小；

表示第c个通道的特征向量卷积后的结果；其中i，j分别表示特征向量中的宽度坐标和高度坐标。利用全局上下文信息

计算得到的特征图组权重

可表示为：

式中，权重函数

是根据全局上下文信息

每个通道的特征向量由不同特征图组加权组合产生，即通道维度软注意力，那么第k个基数组中第c个通道特征向量可表示为

式中，

最后，对每一个特征向量沿通道维度进行连接，得到分割注意力模块的输出：

V＝Concat{V¹,V²,...V^k}

式中，Concat表示沿通道维度的拼接操作，V¹表示第一个基数组的特征向量，因为共有k个基数组，所以V^k表示第k个基数组的特征向量。将原始输入视频帧x与分割注意力模块的输出V进行短接，从而生成分割注意力模块的最终输出：

Y＝V+T(x)

为了提高不同卷积层间的信息交互，在分割注意力网络中引入特征融合机制以提高CNN特征的表征能力。分割注意力网络的结构如图1所示。其中Layer4层的输出尺寸为7×7，为了将Layer1层与Layer4层进行融合，在分割注意力网络前向卷积的同时，将Layer1层的输出通过全局平均池化，使尺寸降低到7×7，作为浅层特征与Layer4层融合。经过池化后的浅层特征与Layer4层的深层特征在通道维度进行叠加(Concatenation)，以达到融合特征的目的。之后再次使用全局平均池化将融合后的特征展开至1×1×2048，并将该一维特征向量传输至BI-LSTM(双向长短时记忆网络)中。

步骤S3，将分割注意力网络提取的特征向量输入到BI-LSTM(双向长短时记忆网络)中，其作用是建模动作的时间信息。

双向长短时记忆网络是循环神经网络的变体之一，该网络通过引入门控单元来更新传入到网络中的时间信息，被广泛应用于自然语言处理与行为识别等研究。双向长短时记忆网络建模时间信息的过程如下公式所示：

h_t＝σ(w₁x_t+w₂h_t-1+b_t)

h’_t＝σ(w₃x_t+w₅h’_t+1+b_t)

O’_t＝tanh(w₄h_t+b_t)

O”_t＝tanh(w₆h’_t+b_t)

其中h_t-1，h_t分别表示前向推理过程前一时刻和当前时刻的输出；h’_t+1，h’_t分别表示反向推理过程前一时刻和当前时刻的输出；w_i表示权重，i＝1，…，6；b_t为偏置项；x_t为分割注意力网络提取的特征，以时间顺序依次输入BI-LSTM(双向长短时记忆网络)中；o_t为时序输出向量，o’_t和o”_t别分表示前向传播与反向传播的输出，o_t取二者平均值；σ和tanh分别表示sigmoid激活函数和tanh激活函数。

步骤4，根据双向长短时记忆网络提取的时间特征，使用softmax分类器对其结果进行分类，使用的两个数据集共有152种动作类别。

其中，本发明所使用的UCF101数据集共有101种动作类别，HMDB51共有51种动作类别。取得分最高的动作作为最后的识别结果，其得分作为该类动作的最终识别准确率。

实施例二：

一种基于分割注意力的特征融合人体行为识别系统，包括：

输入模块：用于获取视频样本；

采样模块：用于基于视频样本进行逐帧分解采样；

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。