CN112818948B

CN112818948B - 一种嵌入式系统下的基于视觉注意力的行为识别方法

Info

Publication number: CN112818948B
Application number: CN202110256359.5A
Authority: CN
Inventors: 徐琴珍; 侯坤林; 杨镇安; 毛喻; 杨绿溪
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2022-03-29
Anticipated expiration: 2041-03-09
Also published as: CN112818948A

Abstract

本发明公开了一种嵌入式系统下的基于视觉注意力的行为识别方法，将视频文件处理成图像帧，按照基于视觉注意力的显著性图生成策略为每一帧图像生成显著性图，并叠加于原始图像帧上。训练含五个三维卷积层加五个三维池化层、两个全连接层和一个归一化指数函数输出层的卷积神经网络，对视频中的多个图像帧提取特征，从而完成视频中的行为识别，本发明识别效果好，搭载于TX2(芯片名称)嵌入式开发板上，可以直接读取视频文件进行预测，也可以连接摄像头采入数据进行实时监测。

Description

一种嵌入式系统下的基于视觉注意力的行为识别方法

技术领域

本发明涉及一种基于视觉注意力的行为识别方法，属于多媒体信号处理领域。

背景技术

随着近年来网络多媒体信息体量的爆发式增长以及监视监控的普及，网络中每时每刻地都在传输着不可计数的视频数据，据知名视频门户网站Youtube给出的数据，每分钟上传到Youtube服务器的视频能达到100个小时。如此之大的数据量如果交由人力资源完成成本太过高昂，因此有必要尝试让机器代替人来执行这一过程，包括给视频分类、打分、将视频推送给合适的用户、视频中异常情况监测等。要实现这一点，必须教会机器如何分析视频、理解视频中的内容。

而在对视频分析的研究内容之中，行为识别是当下最火的研究方向之一。行为识别，顾名思义便是分析视频中的活动物体(主要对象为人)所进行的动作或活动的含义，英文名Action Recognition或Activity Recognition(两者有微妙的差别，前者注重分立的一个动作片段所代表的含义，而后者则更偏向于一整套连续动作所代表的的行为意义)。对于门户网站来说，行为识别可以帮助他们快速将用户上传的数据进行分类，并且对于被识别出包含不良信息的视频可以及时进行更进一步的审核而后将其剔除，避免其传播所导致的不良影响；而在监控方面，行为识别可以交由机器识别出监控视频中的人所进行的活动，从而对某些存在危险的甚至犯罪行为、不合规定的操作以及异常的人物状态进行预警，减少了人工监控的人力资源浪费，并且机器监控不会出现人在工作时出现的注意力不集中以及精力分散导致漏掉关键信息的情况；对于网络信息安全，行为识别也可以用于打击网络不良视频信息的传播；商家也可以使用行为识别分析用户偏好，提供更具针对性的服务等等。

在卷积神经网络引入之前，行为识别最具代表性的便是DT(Dense Trajectories)算法以及在其基础上进行了一部分改进的iDT(improved Dense Trajectories)算法。这些算法已经在相关数据集上有了不错的表现，但是算法的缺点也十分明显，那就是运算量过大，处理效率低下，几乎无法做到实时视频处理的目的。随着卷积神经网络在图像处理方面的出色的表现，目前也已经成为最主流的行为识别的算法基础。但简单的卷积神经网络优势在于对单一的图片进行处理分类，将其应用在视频处理中则会导致时域信息的损失。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种嵌入式系统下的基于视觉注意力的行为识别方法，本发明能够准确高效的定位到人类感兴趣的区域，从而生成显著性图叠加于原始图像帧上。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种嵌入式系统下的基于视觉注意力的行为识别方法，包括如下步骤：

步骤1，获取训练样本视频文件，将训练样本视频文件转换为图像帧。

步骤2，对于步骤1得到的图像帧，按照基于视觉注意力的显著性图生成方法为每一帧图像生成显著性图，并叠加于原始图像帧上，得到视觉注意力叠加图。

步骤2.1：读取图像帧，记I⁰为源图像，经高斯滤波，1/2采样到I¹，I¹的1/2采样到I²，I²的1/2采样到I³，一直1/2采样直到I⁸，I¹为原始图像的1/2采样，I²为原始图像的1/4采样，I³为原始图像的1/8采样，I⁸为原始图像的1/256采样。将输入图像表示成9层的高斯金字塔，其中第0层是输入图像，1到8层分别是用5×5的高斯滤波器对输入图像进行滤波和采样形成的，大小分别为输入图像的1/2到1/256。

步骤2.2：提取特征：包括红色R、绿色G、蓝色B、黄色Y四种颜色信息，0°、45°、90°、135°四个方向信息，亮度I共九种信息。从原始图像中直接提取到红绿蓝三个通道的对应的值记为r、g、b，亮度和颜色特征由如下公式得到：

I＝(r+g+b)/3

R＝r-(g+b)/2

G＝g-(r+b)/2

B＝b-(r+g)/2

Y＝(r+g)/2-|r-g|/2+b

用Gabor函数滤波构建Gabor方向金字塔O(σ，θ)，其中σ∈{0..8}，∈{0°,45°,90°,135°}。

步骤2.3：对不同尺度间特征取差形成特征图，模拟人类视觉系统中感受野的中心—外周拮抗的结构，对各种特征分别在特征金字塔的不同尺度间作差。感受野中心对应于尺度c的特征图像素点(c∈{2,3,4})，感受野周边区域对应于尺度s的特征图像素点(s＝c+δ,δ∈{3,4})。不同尺度特征图的分辨率不同，需要通过插值使两幅图像大小相同后，通过两幅图像之间点对点作差，这个过程用

表示。中心和外周的局部方向特征的对比由如下公式得到：

其中，δ表示感受野，I(c,s)表示尺度c和尺度s的综合亮度特征，I(c)表示尺度c的亮度特征，I(s)表示尺度s的亮度特征，RG(c,s)表示尺度c和尺度s的红绿颜色特征，R(c)表示尺度c的红色特征，G(c)表示尺度c的绿色特征，G(s)表示尺度s的绿色特征，R(s)表示尺度s的红色特征，BY(c,s)表示尺度c和尺度s的蓝黄颜色特征，B(c)表示尺度c的蓝色特征，Y(c)表示尺度c的黄色特征，Y(s)表示尺度s的黄色特征，B(s)表示尺度s的蓝色特征，O(c,s,θ)表示尺度c和尺度s的综合Gabor方向特征，O(c,θ)表示尺度c的Gabor方向特征，O(s,θ)表示尺度s的Gabor方向特征。

步骤2.4：对于步骤2.3生成的不同尺度和不同特征的特征图，先进行归一化处理，形成一幅显著性图，然后再将不同特征的显著性图进行归一化处理获得最好的视觉显著性图S，计算过程如下：

其中，

表示亮度显著性，

表示各个特征间的加和运算，

表示归一化函数，

表示颜色显著性，

表示方向显著性，S表示视觉显著性图。

步骤3，使用双线性插值法将步骤2得到的所有视觉注意力叠加图重塑到相同的大小，获得训练集。

步骤4，基于步骤3得到的训练集，通过三维卷积神经网络进行训练，每5个迭代检查验证集上的损失，当连续5个迭代验证集上损失没有降低时，终止训练，保存训练好的卷积神经网络，进行预测。

步骤5，识别时，获取待识别的视频文件，将待识别的视频文件经过步骤1-步骤3得到识别集，将识别集输入到训练好的卷积神经网络进行预测。

优选的：卷积神经网络包括依次连接的输入层、第一层卷积层、第一层池化层、第二层卷积层、第二层池化层、第三层卷积层、第三层池化层、第四层卷积层、第四层池化层、第五层卷积层、第五层池化层、第一层全连接层、第二层全连接层和归一化指数函数层。每次以16个不重叠的帧为一个视频片段输入到卷积神经网络中，输入维度是3×16×112×112。从第一层卷积层到第五层卷积层，卷积核数量分别为64，128，256，512，512。在每一个卷积层后都会对图像做池化操作并且卷积步长为1，因此每一次卷积过后输出的图像尺寸都不会发生改变。第一层池化层的核尺寸为1×2×2，第二层池化层到第五层池化层的核的尺寸都为2×2×2，步长为1。第一层全连接层、第二层全连接层都是4096个输出。

优选的：步骤2.4中归一化函数

的计算过程如下：

步骤2.4.1：将图中的每个像素点的显著值归一化到一个区间[0,M]，M表示全局最大值。

步骤2.4.2：寻找特征图中的全局最大值M，计算所有其他局部最大值的平均值

步骤2.4.3：对特征图中的每个位置乘以

优选的：步骤3中使用双线性插值法将步骤2得到的所有视觉注意力叠加图重塑到相同的大小的方法：以Q₁₁,Q₁₂,Q₂₁,Q₂₂为图像U中的四个点，这四个点围成一个矩形，待求点P是矩形中的一个点，则P点像素值为：

其中，Q_ij的坐标为(x_i,y_j)，P的坐标为(x,y)，f是一种映射，R₁,R₂分别为双线性插值的中间值，i，j＝1，2。

优选的：步骤1中使用FFmpeg软件将视频文件转换为图像帧。

本发明相比现有技术，具有以下有益效果：

本发明受高效的人类视觉信息处理机制的启发，为计算机建立一定的数学模型，让计算机来模拟人类的视觉系统，使得计算机能够准确高效的定位到人类感兴趣的区域，从而生成显著性图叠加于原始图像帧上，再结合三维卷积对视频中的多个图像帧进行卷积以提取特征，从而完成视频中的行为识别，在两个benchmark数据集：UCF-101和HMDB-51以及一个自建数据集上均有很好的识别效果。此外，完整算法搭载于TX2(芯片名称)嵌入式开发板上，可以直接读取视频文件进行预测，也可以连接摄像头采入数据进行实时监测。

附图说明

图1为本发明基于视觉注意力的行为识别方法的流程图。

图2为本发明嵌入式系统开发所用的英伟达Jetson TX2芯片。

图3为本发明训练网络所用的UCF-101数据集示例。

图4为本发明训练网络所用的HMDB-51数据集示例。

图5为本发明训练网络所用的自建数据集示例。

图6为图像的显著性图生成策略原理图。

图7为显著性图生成过程中的特征图输出可视化。

图8为视觉注意力叠加于原始图像帧后的图像。

图9为双线性插值法示意图。

图10为三维卷积操作示意图。

图11为本发明卷积神经网络的网络结构图。

图12为卷积神经网络对于一个clip中信息提取的特征可视化。

图13为用训练好的模型进行视频中行为识别的效果图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种嵌入式系统下的基于视觉注意力的行为识别方法，如图1所示，本发明使用英伟达公司的Jetson TX2开发板作为实验平台，搭载Nvidia Pascal图形处理芯片，官方运算能力打分6.2(对比GTX1080官方打分6.1)。选取如此高性能的芯片主要是由于系统担负着训练三维卷积网络模型的任务，但在已有训练好的模型文件的情况下，系统实际对图形运算能力的要求要低得多。英伟达Jetson TX2芯片(如图2所示)是一款专为部署计算机视觉和深度学习算法而开发的模块化系统，其基础配置如下：a)双核NVIDIA Denver2；b)四核ARM Cortex-A57；c)256核Pascal GPU；d)8GB LPDDR4,128-bit interface；e)32GB eMMC；f)4kp60 H.264/H.265编码器&解码器；g)Dual ISPs(图像信号处理器)；h)1.4gigapixel/sec MIPI CSI camera ingest。

UCF-101(数据集名称)数据集(如图3所示)中包含101种不同的行为(即101个classes)，该数据集中每种行为都有与之对应的100个视频片段，视频尺寸320×240，长度为100至400帧不等。HMDB-51(数据集名称)数据集(如图4所示)中的样本来源多种多样，从电视电影到YouTube上的视频，整个数据集包含了51个动作类别和6766个视频片段，动作包含了面部动作、普通肢体动作和人与人之间的交互动作。

UCF-101和HMDB-51数据集数据类别太过冗杂，不适合于实际应用，故另外自建数据集如图5所示。本发明设想应用于某一种存在危险的工作环境，需要监测工作人员工作状态，由此将动作划分为7种类别分别是“站立(1_stand)”、“坐(2_sit)”、“走(3_walk)”、“跑(4_run)”、“躺(5_lyingDown)”、“蹲(6_crouch)”以及“伏案(napOnTable)”。其中的五种动作是“正常”动作，而“蹲”、和“躺”两种动作则是“危险”动作。

对于输入的视频文件，将其转换为图像帧，然后按照图6所示的显著性图生成策略为每一帧图像生成显著性图，具体如下步骤：

步骤1，对于输入的视频文件，首先使用FFmpeg将其转换为图像帧。

步骤2.1：读取图像帧，记I⁰为源图像，经高斯滤波，1/2采样到I¹，一直1/2采样直到I⁸，即I¹为原始图像的1/2采样，I⁸为原始图像的1/256采样。这一步是将输入图像表示成9层的高斯金字塔，其中第0层是输入图像，1到8层分别是用5×5的高斯滤波器对输入图像进行滤波和采样形成的，大小分别为输入图像的1/2到1/256。

步骤2.2：提取特征：包括红色R、绿色G、蓝色B、黄色Y四种颜色信息，0°、45°、90°、135°四个方向信息，亮度I共九种信息。从原始图像中可以直接提取到红绿蓝三个通道的对应的值记为r、g、b，亮度和颜色特征由如下公式得到：

I＝(r+g+b)/3

R＝r-(g+b)/2

G＝g-(r+b)/2

B＝b-(r+g)/2

Y＝(r+g)/2-|r-g|/2+b

表示。中心和外周的局部方向特征的对比由如下公式得到：

由于中心尺度c和外周尺度s之间有6种组合(2-5，2-6，3-6，3-7，4-7，4-8)，所以四个式子都可以得到6个特征图，共42个不同尺度的特征图(分别是6个亮度特征图，12个颜色特征图和24个方向特征图)。

步骤2.4：对于步骤2.3生成的42个不同尺度和不同特征的特征图，先进行归一化处理，形成一幅该特征的显著性图，然后再将不同特征的显著性图进行归一化处理获得最好的视觉显著性图S，计算过程如下：

其中，

表示亮度显著性，

表示各个特征间的加和运算，

表示归一化函数，

表示颜色显著性，

表示方向显著性，S表示视觉显著性图。

归一化函数

的计算过程如下：

步骤2.4.1：将图中的每个像素点的显著值归一化到一个区间[0,M]，M表示全局最大值，这样可以消除因为不同特征的显著值分布的区间不同产生的影响。

步骤2.4.3：对特征图中的每个位置乘以

显著性图生成过程中的特征图输出可视化如图7所示，将最终生成的显著性图叠加于原始图像帧上，得到视觉注意力叠加的图像如图8所示。

在将视觉注意力叠加的图像输入到卷积神经网络之前，将所有图像重塑到相同的大小(112×112)，在这里用到的是双线性插值法。如图9所示，假设Q₁₁,Q₁₂,Q₂₁,Q₂₂为图像U中的四个点，这四个点围成一个矩形，待求点P是矩形中的一个点，则P点像素值为：

一般卷积(即二维卷积)就是将一个二维的模板放置在原图像上(一般是以左上角的点为原点进行卷积)，并不断移动模板。当模板在某一点，将模板上的值与原图像中对应位置的值相乘最后相加作为卷积后该点的值此被称为二维卷积。三维卷积便是将上述情况拓展到三维，即用一个三维的模板一个三维数据块中移动并做相应计算以得到卷积后的值。而把类似的概念迁移至二维池化也就得到了三维池化的方法。三维操作更加适合于时空特征的提取，通过三维卷积和三维池化能够提取到二维操作所不能得到的时间信息。如图10所示，三维卷积在多幅图片输入时输出则同样为多幅图片，因此保存了时域信息。

除两个Full connection层和一个Softmax层之外，卷积神经网络的主要构造为五个三维卷积层(Conv)加五个三维池化(Pooling)层，如图11所示，卷积神经网络包括依次连接的输入层、第一层卷积层、第一层池化层、第二层卷积层、第二层池化层、第三层卷积层、第三层池化层、第四层卷积层、第四层池化层、第五层卷积层、第五层池化层、第一层全连接层、第二层全连接层和归一化指数函数层。每次以16个不重叠的帧为一个视频片段输入到卷积神经网络中，输入维度是3×16×112×112。从第一层卷积层到第五层卷积层，卷积核数量分别为64，128，256，512，512。在每一个卷积层后都会对图像做池化操作并且卷积步长为1，因此每一次卷积过后输出的图像尺寸都不会发生改变。第一层池化层的核尺寸为1×2×2，第二层池化层到第五层池化层的核的尺寸都为2×2×2，步长为1。除第一层外，每一个池化层的核的尺寸都为2×2×2，步长为1，即输出与输入相比尺寸缩小了8倍。第一个池化层的核尺寸为1×2×2，这是由于不希望时间信号过早的融合在一起，同时也是为了满足每16帧一个clip的剪辑需求。第一层全连接层、第二层全连接层都是4096个输出。训练时，考虑到硬件限制，使用较小的batch，大小为30，初始学习率设定为0.003，训练过程中将每个epoch的train_loss和val_loss记录下来，待val_loss收敛后停止训练。

图12展示了本发明卷积神经网络中第五个三维卷积层逆卷积后与原图的对比。以UCF-101数据集为例，在第一个例子中，特征在开始几帧中勾勒出整个人的形状，接下来则集中体现了运动员在平衡木上的运动。而在第二个例子中，一开始特征对眼部比较敏感，而后则跟踪主体在化妆时在眼部周围的运动。由此可见，通过三维卷积层提取的特征对图像的“外貌”和“运动”都很敏感。

在训练过程中，如果5个epoch的最终验证集误差存在较大差异，则继续训练下一轮5个epoch，如果5个epoch的最终验证集误差不会再提升精度，则停止训练，保存模型，并进行检测。

本发明在两个benchmark数据集：UCF-101和HMDB-51以及一个自建数据集上均有很好的识别效果，三个验证集上的精度分别达到88.5％、91.1％和95.3％。以自建数据集验证集中的一个样本为例，图13为用训练好的模型进行视频中行为识别的效果图。

本发明对视频中的多个图像帧提取特征，从而完成视频中的行为识别，成果模型在三个验证集上均有很好的识别效果，本发明涉及的完整算法搭载于TX2(芯片名称)嵌入式开发板上，可以直接读取视频文件进行预测，也可以连接摄像头采入数据进行实时监测。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种嵌入式系统下的基于视觉注意力的行为识别方法，其特征在于，包括如下步骤：

步骤1，获取训练样本视频文件，将训练样本视频文件转换为图像帧；

步骤2，对于步骤1得到的图像帧，按照基于视觉注意力的显著性图生成方法为每一帧图像生成显著性图，并叠加于原始图像帧上，得到视觉注意力叠加图；

步骤2.1：读取图像帧，记1⁰为源图像，经高斯滤波，1/2采样到I¹，I¹的1/2采样到I²，I²的1/2采样到I³，一直1/2采样直到I⁸，I¹为原始图像的1/2采样，I²为原始图像的1/4采样，I³为原始图像的1/8采样，I⁸为原始图像的1/256采样；将输入图像表示成9层的高斯金字塔，其中第0层是输入图像，1到8层分别是用5×5的高斯滤波器对输入图像进行滤波和采样形成的，大小分别为输入图像的1/2到1/256；

步骤2.2：提取特征：包括红色R、绿色G、蓝色B、黄色Y四种颜色信息，0°、45°、90°、135°四个方向信息，亮度I共九种信息；从原始图像中直接提取到红绿蓝三个通道的对应的值记为r、g、b，亮度和颜色特征由如下公式得到：

I＝(r+g+b)/3

R＝r-(g+b)/2

G＝g-(r+b)/2

B＝b-(r+g)/2

Y＝(r+g)/2-|r-g|/2+b

用Gabor函数滤波构建Gabor方向金字塔O(σ，θ)，其中σ∈{0..8}，θ∈{0°，45°，90°，135°}；

步骤2.3：对不同尺度间特征取差形成特征图，模拟人类视觉系统中感受野的中心-外周拮抗的结构，对各种特征分别在特征金字塔的不同尺度间作差；感受野中心对应于尺度c的特征图像素点， c∈{2，3，4}，感受野周边区域对应于尺度s的特征图像素点， s＝c+δ，δ∈{3，4}；不同尺度特征图的分辨率不同，需要通过插值使两幅图像大小相同后，通过两幅图像之间点对点作差，这个过程用

表示；中心和外周的局部方向特征的对比由如下公式得到：

其中，δ表示感受野，I(c，s)表示尺度c和尺度s的综合亮度特征，I(c)表示尺度c的亮度特征，I(s)表示尺度s的亮度特征，RG(c，s)表示尺度c和尺度s的红绿颜色特征，R(c)表示尺度c的红色特征，G(c)表示尺度c的绿色特征，G(s)表示尺度s的绿色特征，R(s)表示尺度s的红色特征，BY(c，s)表示尺度c和尺度s的蓝黄颜色特征，B(c)表示尺度c的蓝色特征，Y(c)表示尺度c的黄色特征，Y(s)表示尺度s的黄色特征，B(s)表示尺度s的蓝色特征，O(c，s，θ)表示尺度c和尺度s的综合Gabor方向特征，O(c，θ)表示尺度c的Gabor方向特征，O(s，θ)表示尺度s的Gabor方向特征；

其中，

表示亮度显著性，

表示各个特征间的加和运算，

表示归一化函数，

表示颜色显著性，

表示方向显著性，S表示视觉显著性图；

步骤3，使用双线性插值法将步骤2得到的所有视觉注意力叠加图重塑到相同的大小，获得训练集；

步骤4，基于步骤3得到的训练集，通过三维卷积神经网络进行训练，每5个迭代检查验证集上的损失，当连续5个迭代验证集上损失没有降低时，终止训练，保存训练好的卷积神经网络，进行预测；

2.根据权利要求1所述嵌入式系统下的基于视觉注意力的行为识别方法，其特征在于：卷积神经网络包括依次连接的输入层、第一层卷积层、第一层池化层、第二层卷积层、第二层池化层、第三层卷积层、第三层池化层、第四层卷积层、第四层池化层、第五层卷积层、第五层池化层、第一层全连接层、第二层全连接层和归一化指数函数层；每次以16个不重叠的帧为一个视频片段输入到卷积神经网络中，输入维度是3×16×112×112；从第一层卷积层到第五层卷积层，卷积核数量分别为64，128，256，512，512；在每一个卷积层后都会对图像做池化操作并且卷积步长为1，因此每一次卷积过后输出的图像尺寸都不会发生改变；第一层池化层的核尺寸为1×2×2，第二层池化层到第五层池化层的核的尺寸都为2×2×2，步长为1；第一层全连接层、第二层全连接层都是4096个输出。

3.根据权利要求2所述嵌入式系统下的基于视觉注意力的行为识别方法，其特征在于：步骤2.4中归一化函数N()的计算过程如下：

步骤2.4.1：将图中的每个像素点的显著值归一化到一个区间[0，M]，M表示全局最大值；

步骤2.4.3：对特征图中的每个位置乘以

4.根据权利要求3所述嵌入式系统下的基于视觉注意力的行为识别方法，其特征在于：步骤3中使用双线性插值法将步骤2得到的所有视觉注意力叠加图重塑到相同的大小的方法：以Q₁₁，Q₁₂，Q₂₁，Q₂₂为图像U中的四个点，这四个点围成一个矩形，待求点P是矩形中的一个点，则P点像素值为：

其中，Q_ij的坐标为(x_i，y_j)，P的坐标为(x，y)，f是一种映射，R₁，R₂分别为双线性插值的中间值，i，j＝1，2。

5.根据权利要求4所述嵌入式系统下的基于视觉注意力的行为识别方法，其特征在于：步骤1中使用FFmpeg软件将视频文件转换为图像帧。