CN110826447A

CN110826447A - 一种基于注意力机制的餐厅后厨人员行为识别方法

Info

Publication number: CN110826447A
Application number: CN201911035532.8A
Authority: CN
Inventors: 颜津; 蔡强; 毛典辉
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2020-02-21

Abstract

本发明公开了一种基于注意力机制的餐厅后厨人员行为识别方法，目的是有效地识别餐厅后厨视频中的人体行为，实现对后厨的监控管理。本发明包括：利用摄像头采集后厨人员的工作视频，构建一个视频包含一个明确动作的数据库，并对其切帧、提取光流图像；将视频帧输入到基于空间注意力机制的空间流网络中，得到空间特征；将光流图像输入到基于长短时记忆网络的时间流网络中，得到时序特征；将空间、时序特征分别输入到分类器中，得到分类得分，进行得分融合，完成后厨人员行为的识别。在本发明中，加入了空间注意力机制，使得模型更加关注空间上更重要的点；长短时记忆网络更好的保留了视频中的时序信息，从而提高了后厨人员行为识别的准确率。

Description

一种基于注意力机制的餐厅后厨人员行为识别方法

技术领域

本发明涉图像理解与计算机视觉领域，具体涉及一种人体行为识别方法。

背景技术

随着经济与科技的快速发展，视频监控系统的需求不断地增加，如停车场、超市、商场、银行、工厂、矿山、餐厅后厨等地方。挖掘视频中的人体行为信息成为了重大发展方向。

简单来说，行为识别就是对一给定的视频片段进行分类，类别通常是人的各类动作，即检测出人体的行为动作，更好掌握视频中人的行为信息。如今明厨亮灶越来越受大家重视，对餐厅后厨视频中人体行为是否存在违规情况进行检测的需求不断增大，实现实时监控管理，对食品卫生情况也可以有所保障。

现在用于图像分类的卷积神经网络已经达到了很好的效果，但是如果将其直接应用于视频数据上，结果就显得不尽人意了。因为视频相对于图片来说，多了时序信息，因此对于视频数据的处理来说，提取其时序信息是至关重要的。目前基于深度学习的行为识别方法主要有双流网络和3D卷积网络两种，还有部分学者提出了另外一些思路，如受限玻尔兹曼机(Restricted Boltzmann Machines，RBM)，循环神经网络(Recurrent NeuralNetworks，RNN)，独立子空间分析(Independent Subspace Analysis，ISA)等。其中，双流网络由时间流网络和空间流网络组成，分别通过2D卷积来获取视频的时序信息、空间信息，最后融合双流网络分类得分，完成对人体行为的识别；3D卷积网络通过3D卷积可单流完成空间、时序信息的捕捉。还有基于以上两种情况的改进，比如伪3D卷积网络(P3D、R(2+1)D)，还有双流网络和3D卷积网络的结合(I3D)。3D卷积网络相比于2D卷积可以更好的捕捉时空信息，但是他需要昂贵的计算消费和存储需求。

因此，本专利提出了一个针对餐厅后厨视频数据进行人体行为识别的方法，它是比现有2D卷积网络可以更好地捕捉时空特征的双流网络，且不需要像3D卷积网络样需要昂贵的计算消费和存储需求，并应用于后厨视频监控管理中，对餐厅后厨人员进行行为识别，也可以及时发现违规行为，为食品安全带来了更大的保障。

本发明的网络以视频帧与光流图像作为输入，加入了注意力机制和长短时记忆网络，更好的捕获餐厅后厨视频中的时空信息。光流是空间运动物体在观察成像平面上的像素运动的瞬时速度。利用光流图像捕获时许信息的方法是光流法，即通过视频帧在时间域上的变化，以及通过相邻帧之间的相关性来找到当前帧与前一帧之间的对应关系，从而可以计算出相邻帧之间人体行为信息的方法。长短时记忆网络是一种递归神经网络，可以学习长期依赖关系。长短时记忆网络内部主要有三个阶段：忘记阶段、选择记忆阶段和输出阶段。对上一个节点传进来的输入进行选择性忘记，并且将这个阶段的输入有选择性地进行“记忆”，最后决定哪些将会被当成当前状态的输出。通过门控状态来控制传输状态，记住需要长时间记忆的，忘记不重要的信息，从而更好的捕捉到视频中的时序信息。

发明内容

针对上述问题，本发明提出了一种基于注意力机制的人体行为识别方法，在双流网络中引入长短时记忆网络来捕获视频的时序信息，并加入注意力机制来获得更高的人体行为识别精度。

本发明包括以下步骤：

(1)利用摄像头采集后厨人员的工作视频，构建一个视频有一个明确动作的后厨视频数据库，对于视频数据进行预处理，包括视频切帧以及提取光流图像；

(2)为了在捕捉视频中全部有用信息的同时，尽可能减少对餐厅后厨人员行为识别无用的冗余数据，选择对视频数据进行稀疏采样，先将视频平均分成n部分，再从n部分中随机采样得到m个片段，获得步骤(1)中片段所包含的视频帧及其光流图像；

(3)将步骤(2)中获得的片段的视频帧、光流图像输入到以Conv1为基础网络的双流网络中，并在空间流网络中加入了空间注意力机制，使得网络更加关注于对于餐厅后厨人员行为识别更重要的点，经过双流网络可以得到m个片段级空间/时序特征，融合生成n个部分级空间/时序特征，实现部分的一致性，最后将部分级空间/时序特征融合生成一个视频级空间/时序特征；

(4)再将步骤(3)获得的视频级空间特征、视频级时序特征放入到分类器中进行分类，最后以一定权重进行分类得分融合，完成对于视频中人体行为的识别。

在步骤(2)中，将n设置为3，m设置为25，即把一个视频先平均分为3部分，然后在这三部分分别随机采样8、9、8个视频片段。既可以捕捉到整个视频的有用信息，也可以减少一些时间序列内由于人体行为变化较小而产生的冗余信息。

在步骤(3)中，双流网络由基于空间注意力机制的空间流网络、基于长短时记忆网络的时间流网络组成，空间流、时间流网络的基础网络Conv1是BNInception，增加了卷积网络深度的同时，减少了网络参数，可以充分提取视频帧中的空间/时序信息；并且为得到部分一致性，分别对视频三个部分中的片段级特征采用最大池化融合生成3个部分级空间/时序特征；将部分级空间/时序特征以并联的方式融合起来，得到视频级空间/时序特征，其通道数为三个部分级空间/时序特征的通道数加和；其中，空间注意力机制是通过学习每个部分级特征各个通道的权重值，给每个部分级特征加以权重，使得对于行为识别有效的部分权重值更大，无效或效果小的部分对应的权重值较小，将得到的权重值与原特征进行点乘，得到基于空间注意力机制的部分级特征。

在步骤(4)中，分类器采用SVM，输入视频级空间/时序特征，得到分类得分，并以1.5∶1的权重融合空间流网络以及时间流网络得分。

本发明与现有技术相比的优点在于：通过以上的步骤，为捕获视频中的时序信息，相比于现有的双流网络引入了长短时记忆网络，更好的捕捉到了时序性，并且加入了空间注意力机制，更好地关注了对人体行为识别有用的特征信息，保证了人体行为识别的速度与检测精度。

附图说明

图1是基于注意力机制的人体行为识别过程的流程图；

图2是本发明的提取到的光流图像示意图；

图3是本发明时间流网络示意图；

图4是本发明中使用的注意力机制示意图；

图5是本发明的空间注意力模块结构图；

图6是本发明提供的基于注意力机制的餐厅后厨人员行为识别网络架构图。

具体实施方式

下面结合附图和具体实施方式对本发明进行描述。下面结合附图对本发明进行进一步的说明。

此发明的流程图如图1所示。将餐厅后厨视频数据库中的视频帧、光流图像分别输入到空间流、时间流网络后，在基础网络BNInception的最后一个卷积后得到的特征称为片段级特征；对视频每个部分里面的片段级特征通过在每个维度上取最大值，把片段级特征融合成部分级特征X，X∈R^H×W×C(H表示部分级特征的高度，W表示部分级特征的宽度，C表示部分级特征的通道数)，令X＝[x₁，x₂，...x_c]，其中x_i表示第i通道上的特征向量；此时对于空间流网络获得的特征加入空间注意力机制，得到基于注意力机制的部分级空间特征；再将部分级时序特征/基于注意力机制的部分级空间特征并联起来得到视频级空间/时序特征；最终将视频级特征放入到SVM分类器中，得到人体行为识别结果。

具体的实现步骤：

(1)构建餐厅后厨视频数据库，对数据进行预处理。将视频数据输入到本发明的网络中之前，先对视频进行切帧，并进一步提取其光流图像，光流图像如图2所示，这是一个跳动动作的视频提取的光流图像，利用光流图像可以更好的捕获到视频数据的时序信息。

(2)由于视频数据巨大且有冗余数据，对于存储、计算速度都是很大的挑战，故将整个视频输入到网络中去学习的可能性很小，于是此发明提出了一个对于视频数据进行稀疏采样的方法。

对于一个视频，先将其平均分为三部分，然后在每一部份随机采样产一些视频片段，然后将这些视频片段的帧、光流图像作为网络的输入。

(3)此发明的双流网络分为空间流和时间流，空间流网络用来学习视频中的空间特征，时间流网络用来学习视频中的时序信息。基于注意力机制的空间流网络以BNInception网络为基础网络，视频帧作为输入，通过网络产生一个人体行为预测，并与视频真实所属类别的标签产生一个损失，然后进行反向传播来优化网络参数，使得预测值与标签之间的损失减小至小于我们设定的阈值。

其中，空间流网络中的空间注意力机制示意图如图4所示。注意力机制的使用分为两步。第一步：压缩操作，通过使用全局平均池化来生成通道统计数据，将部分级特征信息压缩到一个通道描述符中。形式上，通过将特征X缩小到其空间维度H×W来生成权重统计量，使得z的第c个元素通过以下公式计算：

公式中，F_sq是压缩操作函数，z_c表示对通道c上的特征x_c进行全局平均池化后产生的权重统计量。

第二步，为了捕获压缩操作后的信息，紧接着跟一个激活操作，可以完全捕获部分级特征的各个通道的依赖关系，使得对行为识别作用大的通道拥有更大的权重，为此采用sigmoid激活函数作为一个简单的闸门机制，公式如下：

X′＝F_ex(z，W)＝σ(g(z，W))＝σ(W₂δ(W₁z))

公式中，F_ex是激活操作函数，σ是sigmoid激活函数，δ是relu激活函数，其网络结构示意图如图5所示。

(4)基于长短时记忆网络的时间流网络其结构如图3所示，同样以BNInception网络为基础网络，视频提取的光流图像作为网络的输入，并且引入长短时记忆网络，可以学习长期依赖关系。

(7)基于注意力机制的餐厅后厨人员行为识别模型的网络结构如图6所示。此模型是由空间流、时间流网络组成的双流网络。对于空间/时间流网络而言，视频帧/光流图像作为输入，提取片段级空间/时序特征，为了达到部分的一致性，得到部分级空间/时序特征，接着将3个部分的部分级空间/时序特征并联起来，得到视频级空间/时序特征，最终输入到SVM分类器中，得到分类得分；最后，将空间流网络、时间流网络的得分以1.5∶1的权重融合起来，得到最终的餐厅后厨人员行为识别结果。

Claims

1.一种基于注意力机制的餐厅后厨人员行为识别方法，其特征在于，包括以下步骤：

步骤(1)利用摄像头采集后厨人员的工作视频，构建一个视频有一个明确动作的后厨视频数据库，对于视频数据进行预处理，包括视频切帧以及提取光流图像；

步骤(2)为了捕捉视频中全部有用信息的同时，尽可能减少对餐厅后厨人员行为识别无用的冗余数据，选择对视频数据进行稀疏采样，先将视频平均分成n部分，再从n部分中随机采样得到m个片段，获得步骤(1)中片段所包含的视频帧及其光流图像；

步骤(3)将步骤(2)中获得的片段的视频帧、光流图像输入到以Conv1为基础网络的双流网络中，并在空间流网络中加入了空间注意力机制，使得网络更加关注于对于餐厅后厨人员行为识别更重要的点，在时间流网络中，加入了长短时记忆网络，使得网络可以更好地捕捉时序信息，经过双流网络得到m个片段级空间/时序特征，融合生成n个部分级空间/时序特征，实现部分的一致性，最后将部分级空间/时序特征融合生成一个视频级空间/时序特征；

步骤(4)再将步骤(3)获得的视频级空间特征、视频级时序特征放入到分类器中进行分类，最后以一定权重进行分类得分融合，完成对于视频中人体行为的识别。

2.根据权利要求1所述的基于注意力机制的餐饮后厨人员行为识别方法，其特征在于，在步骤(2)中，将n设置为3，m设置为25，即把一个视频先平均分为3部分，然后在这三部分分别随机采样8、9、8个视频片段。既可以捕捉到整个视频的有用信息，也可以减少一定时间序列内由于人体行为变化较小甚至没有变化而产生的冗余信息。

3.根据权利要求1所述的基于注意力机制的餐饮后厨人员行为识别方法，其特征在于：在步骤(3)中，双流网络由基于空间注意力机制的空间流网络和基于长短时记忆网络的时间流网络组成，空间流、时间流网络的基础网络Conv1是BNInception，增加了卷积网络深度的同时，减少了网络参数，可以充分提取视频帧中的空间/时序信息；并且为得到部分一致性，分别对视频三个部分中的片段级特征采用最大池化融合生成3个部分级空间/时序特征；将部分级空间/时序特征以并联的方式融合起来，得到视频级空间/时序特征，其通道数为三个部分级空间/时序特征的通道数加和；其中，空间注意力机制是通过学习每个部分级特征各个通道的权重值，给每个部分级特征加以权重，使得对于行为识别有效的部分权重值更大，无效或效果小的部分对应的权重值较小，将得到的权重值与原特征进行点乘，得到基于空间注意力机制的部分级特征。

4.根据权利要求1所述的基于注意力机制的餐厅后厨人员行为识别方法，其特征在于：在步骤(4)中，分类器采用SVM，输入视频级空间/时序特征，得到分类得分，并以1.5∶1的权重融合空间流网络以及时间流网络得分。