CN117253293A

CN117253293A - 行为识别方法、系统、存储介质及计算机设备

Info

Publication number: CN117253293A
Application number: CN202311515165.8A
Authority: CN
Inventors: 曾高荣; 谢志豪; 饶志明
Original assignee: Jiangxi Normal University
Current assignee: Jiangxi Normal University
Priority date: 2023-11-15
Filing date: 2023-11-15
Publication date: 2023-12-19

Abstract

本发明涉及视频识别技术领域，尤其是涉及一种行为识别方法、系统、存储介质及计算机设备，包括将待识别的视频帧输入后，对图像进行预处理，利用特征提取网络获取视频帧的特征信息，其中所述特征提取网络包括卷积层和池化层，预处理后的图像数据在经过五个卷积层和池化层处理后会得到相应数目的特征，这些特征流入了两个全连接层中，将所述特征映射成了特征图并调用节点抛弃函数缓解数据过拟合；将获取到的特征信息输送至特征分类网络，使用归一化指数函数对获取到的特征信息进行特征分类，然后进行训练和验证；输出对应的行为识别结果，本发明与现有技术相比提高了测试集及训练集的准确率，缩短了训练时间，降低了损失值。

Description

行为识别方法、系统、存储介质及计算机设备

技术领域

本发明涉及视频识别技术领域，尤其是涉及一种行为识别方法、系统、存储介质及计算机设备。

背景技术

识别视频中人体行为是视频理解领域的一个重要研究方向。现如今人体行为识别技术所产生的科研成果，已应用在生活的各方面。

在视频监控中，随着更多监控设备的使用，监控数据也在不断增多。传统的方法往往需要耗费大量的人力资源，在海量的监控数据中找出可疑的异常行为。而且在查找过程中精力需要高度集中，导致工作人员容易产生疲劳，这样无疑会使得工作质量下降。此外由于环境的不确定性、摄像机视角的差异性以及人体动作的复杂和多变性等等，都造成了很多成果无法达到行业的要求。其中较为突出的两个问题是实时性差和准确率低，因此目前想要让人体行为识别技术的成果大规模落地实现，还面临着巨大的挑战。

发明内容

本发明旨在至少改善现有技术中存在的技术问题之一。为此，本发明提出了一种行为识别方法、系统、存储介质及计算机设备。

根据本发明第一方面实施例的一种行为识别方法，其中，包括：

将待识别的视频帧输入后，对图像进行预处理，利用特征提取网络获取视频帧的特征信息，其中所述特征提取网络包括卷积层和池化层，预处理后的图像数据在经过五个卷积层和池化层处理后会得到相应数目的特征，这些特征流入了两个全连接层FC6和FC7中，将所述特征映射成了特征图并调用节点抛弃函数缓解数据过拟合；

将获取到的特征信息输送至特征分类网络，使用归一化指数函数对获取到的特征信息进行特征分类，然后进行训练和验证；

输出对应的行为识别结果。

在第一方面的一种可能的实现方式中，三维卷积输出的三维特征图大小与卷积核大小、滑动步长、填充值及视频帧尺寸有关，计算公式如下所示：

，

其中，输入数据高度、宽度和深度大小用H、W和D表示；输出的特征图高度、宽度和深度大小用、/>和/>表示；卷积核的高度、宽度和深度大小用h、w和d表示；填充值和滑动步长则用P和S表示。

在第一方面的一种可能的实现方式中，所述对图像进行预处理包括采用背景差分法获得图像的背景差分图，然后经过预处理，通过抖动裁剪得到符合第一预设尺寸的图像，具体包括：

先对视频帧进行预处理操作转化为灰度图，由于每个视频都有可能受到外界的干扰噪声，导致这些噪声在对目标进行跟踪时会被检测出来，所以引入高斯滤波算法对灰度图中的噪声进行平滑处理，之后再将处理后的图片进行相减操作，得到差分图。

在第一方面的一种可能的实现方式中，所述特征提取网络的模型采用Hardswish函数作为激活函数，具体为：

，

其中x为特征数据或加权求和变换后的数据。

在第一方面的一种可能的实现方式中，在进行训练和验证时，选用准确率和损失值作为评判模型是否优秀的标准，其中准确率代表可以使得模型能正确识别出的样本数与总样本数的比值，计算公式如下：

，

其中：acc为准确率；为正确识别的样本数；/>为总样本数；

在深度学习中，最终是为了让模型的预测值尽可能地接近真实值，预测值与真实值的差称为损失值，选用交叉熵损失函数来获取模型的损失值，计算公式如下：

，

其中loss为损失值，真实概率分布，/>为预测概率分布。

根据本发明实施例的行为识别方法，具备如下有益效果：

（1）将隐藏层中的整流线性单元（The Rectified Linear Unit，Relu）激活函数替换成Hardswish函数。当整流线性单元函数输入值为负数时，其输出值和梯度都会为零，这将导致部分神经元“坏死”使得网络参数不能继续往下更新。且该函数没有负值输出，将会导致梯度收敛变慢容易进入局部最优。为此本次选用Hardswish函数代替整流线性单元函数，实验结果表明该函数可以有效缓解上述问题并提高模型识别准确率。

（2）使用背景差分法优化数据集。人体行为识别更加关注的是人具体做了什么动作，而视频中的背景往往不关注。为此本文提出背景差分法将视频中不变的背景进行裁剪，只保留运动的前景。并将裁剪后的视频帧组成新的数据集和视频集。实验结果表明用模型训练新的数据集准确率提高明显，且用新的视频集进行检测可以缩短检测时间。

（3）改进图像预处理操作。等比例的图像缩放比非等比例缩放得到的图像更清晰，即图像数据损失更少。在模型训练时需要缩放图像，为缩短缩放时间同时提高图像质量，预先将图像按比例裁剪成接近C3D模型输入层规定的尺寸大小，并将裁剪后的图像组成新的数据集。用改进激活函数后的模型训练新的数据集，实验效果显著，模型训练准确率达到89%较原始C3D模型提高39%，同时损失值降低明显。

在第一方面的一种可能的实现方式中，进行训练和验证时使用随机梯度下降（Stochastic Gradient Descent，SGD）优化器，超参数设置如下：

训练次数设为50轮次，动量因子设为0.9，权重衰减系数设为0.0005，初始学习率设为0.00005且每训练完10轮次将学习率除以10；

在训练集训练完成一次后，进行一次验证集验证；在训练集训练完五次后，进行一次测试集测试，最终得到训练后的结果。

在第一方面的一种可能的实现方式中，所述第一预设尺寸为106×106。

根据本发明第二方面实施例的行为识别系统，其中，包括：

识别提取预处理单元，用于将待识别的视频帧输入后，对图像进行预处理，利用特征提取网络获取视频帧的特征信息，其中所述特征提取网络包括卷积层和池化层，预处理后的图像数据在经过五个卷积层和池化层处理后会得到相应数目的特征，这些特征流入了两个全连接层FC6和FC7中，将所述特征映射成了特征图并调用节点抛弃函数缓解数据过拟合，其中三维卷积输出的三维特征图大小与卷积核大小、滑动步长、填充值及视频帧尺寸有关，计算公式如下所示：

，

其中，输入数据高度、宽度和深度大小用H、W和D表示；输出的特征图高度、宽度和深度大小用、/>和/>表示；卷积核的高度、宽度和深度大小用h、w和d表示；填充值和滑动步长则用P和S表示；在对图像进行预处理时采用背景差分法获得图像的背景差分图，然后经过预处理，通过抖动裁剪得到符合第一预设尺寸的图像，具体包括：先对视频帧进行预处理操作转化为灰度图，由于每个视频都有可能受到外界的干扰噪声，导致这些噪声在对目标进行跟踪时会被检测出来，所以引入高斯滤波算法对灰度图中的噪声进行平滑处理，之后再将处理后的图片进行相减操作，得到差分图；

特征分类训练单元，用于将获取到的特征信息输送至特征分类网络，使用归一化指数函数对获取到的特征信息进行特征分类，然后进行训练和验证，其中在进行训练和验证时，选用准确率和损失值作为评判模型是否优秀的标准，其中准确率代表可以使得模型能正确识别出的样本数与总样本数的比值，计算公式如下：

，

其中：acc为准确率；为正确识别的样本数；/>为总样本数；

，

其中loss为损失值，真实概率分布，/>为预测概率分布；

输出单元，用于输出对应的行为识别结果。

根据本发明第三方面实施例的存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现上述行为识别方法的过程。

根据本发明第四方面实施例的一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现上述行为识别方法的过程。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的行为识别方法的行为识别示意图；

图2是根据本发明实施例的行为识别方法的图像进行预处理裁剪过程示意图。

具体实施方式

下面详细描述本发明的实施例，参考附图描述的实施例是示例性的，应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

需要说明的是，当元件被称为“固定于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施方式的目的，不是旨在于限制本发明。本文所使用的术语“及／或”包括一个或多个相关的所列项目的任意的和所有的组合。

本申请的说明书和权利要求书及所述附图中术语“第一”、“第二”、“第三”等是区别于不同的对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元，或者可选地，还包括没有列出的步骤或单元，或者可选地还包括这些过程、方法、产品或设备固有的其它步骤或单元。

附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前，应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作（或步骤）描述成顺序的处理，但是其中的许多操作可以并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

在本说明书中使用的术语“部件”、“模块”、“系统”、“单元”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件或执行中的软件。例如，单元可以是但不限于在处理器上运行的进程、处理器、对象、可执行文件、执行线程、程序和/或分布在两个或多个计算机之间。此外，这些单元可从在上面存储有各种数据结构的各种计算机可读介质执行。单元可例如根据具有一个或多个数据分组（例如来自与本地系统、分布式系统和/或网络间的另一单元交互的第二单元数据。例如，通过信号与其它系统交互的互联网）的信号通过本地和/或远程进程来通信。

实施例1

本实施例提供一种行为识别方法，其中，包括：

输出对应的行为识别结果。

需要说明的是，三维卷积输出的三维特征图大小与卷积核大小、滑动步长、填充值及视频帧尺寸有关，计算公式如下所示：

，

需要说明的是，所述对图像进行预处理包括采用背景差分法获得图像的背景差分图（其原理为：首先选定一张图片作为背景帧，在视频序列里通常选用第一帧作为背景，当确定好背景帧后，使用当前帧与背景帧做相减运算得到差分图。），然后经过预处理，通过抖动裁剪得到符合第一预设尺寸的图像，具体包括：

先对视频帧进行预处理操作转化为灰度图，由于每个视频都有可能受到外界的干扰噪声，如光线变化、摄像机的抖动等等，导致这些噪声在对目标进行跟踪时会被检测出来，所以引入高斯滤波算法对灰度图中的噪声进行平滑处理，之后再将处理后的图片进行相减操作，得到差分图。

需要说明的是，所述特征提取网络的模型采用Hardswish函数作为激活函数，具体为：

，

其中x为特征数据或加权求和变换后的数据。

需要说明的是，在进行训练和验证时，选用准确率和损失值作为评判模型是否优秀的标准，其中准确率代表可以使得模型能正确识别出的样本数与总样本数的比值，计算公式如下：

，

其中：acc为准确率；为正确识别的样本数；/>为总样本数；

，

其中loss为损失值，真实概率分布，/>为预测概率分布。

根据本发明实施例的行为识别方法，具备如下有益效果：

（1）将隐藏层中的整流线性单元激活函数替换成Hardswish函数。当整流线性单元函数输入值为负数时，其输出值和梯度都会为零，这将导致部分神经元“坏死”使得网络参数不能继续往下更新。且该函数没有负值输出，将会导致梯度收敛变慢容易进入局部最优。为此本次选用Hardswish函数代替整流线性单元函数，实验结果表明该函数可以有效缓解上述问题并提高模型识别准确率。

需要说明的是，进行训练和验证时使用随机梯度下降优化器，超参数设置如下：

可选择地，所述第一预设尺寸为106×106。

本实施例还提供如下具体实例：

在特征提取网络初始输入连续16帧大小为320×240像素值的3通道RGB图像，为适应网络结构需要将输入的图像通过抖动裁剪成112×112大小（如图2所示），之后再将所得的图像输送至C3D卷积神经网络进行特征提取并完成人体行为识别。整个特征提取网络的卷积层和池化层结构，都可以预先按照三维卷积输出的三维特征图计算公式进行设计。在每个卷积层的设计中，都会先将输入的数据进行填充操作，以使得卷积得到的特征图与输入的尺寸一致。

下面将结合图1介绍输入的图像数据在流经各种结构后所产生的变化：

经过第一个卷积层，数据被64个卷积核进行特征提取，并生成64个尺寸为112×112、时间维度为16的特征数据。接下来，这些数据会输入到第一个池化层进行处理。这里会使用1×2×2大小的池化核以1×2×2的滑动步长对数据进行降采样，得到64个尺寸大小为56×56、时间维度为16的特征数据，其中图1中的①和②分别背景差分及图像裁剪过程，③为激活函数运算过程。

数据在流入第二个卷积层后，有128个卷积核对数据进行特征提取，得到128个与输入数据大小一致的特征图。数据进入第二个池化层，使用2×2×2大小的池化核以2×2×2的滑动步长对数据进行降采样，得到128个尺寸大小为28×28、时间维度为8的特征数据。

与前面不同的是，之后数据流入的每层卷积层都会经过两次卷积操作。且这两次卷积都选用相同大小的卷积核，即得到的数据个数和尺寸都会一致。第三个卷积层中，每层卷积核个数为256，卷积完后得到256个与输入数据大小一致的特征图。数据进入第三个池化层，使用2×2×2大小的池化核以2×2×2的滑动步长对数据进行降采样，得到256个尺寸大小为14×14、时间维度为4的特征数据。

之后这些数据会进入卷积核个数为512的卷积层，并进行两次卷积操作。卷积完后得到512个与输入数据大小一致的特征图。数据进入第四个池化层，使用2×2×2大小的池化核以2×2×2的滑动步长对数据进行降采样，得到512个尺寸大小为7×7、时间维度为2的特征数据。

第五个卷积层包含Conv5a和Conv5b两次卷积操作，数据进入后会有512个卷积核进行特征提取，并得到512个尺寸大小为7×7、时间维度为2的特征数据。之后进入第五个池化层，使用2×2×2大小的池化核以2×2×2的滑动步长对数据进行降采样，得到512个尺寸大小为4×4、时间维度为1的特征数据。

数据经过前面5个卷积层和池化层处理后，一共得到了512×4×4=8192个特征。之后这些特征流入了两个全连接层FC6和FC7中，将8192个特征映射成了4096维度的特征图并调用节点抛弃函数缓解数据过拟合。最后，使用归一化指数函数对输入数据进行分类，图1中Num表示分类个数。

在本实施例中选用UCF-101数据集作为测试集，该数据集一共有13320个分辨率都为320×240的视频，总时长约为27小时。有101种类别囊括了人体的五大类动作，如有打高尔夫、转呼啦圈、打太极拳、弹钢琴等等。

因为Pytorch简洁明了易于操作且使用Python语言编程，故而选用其作为深度学习框架，具体的硬件及软件环境如表1所示。

表1 硬件及软件环境

需要说明的是，在对UCF-101数据集进行背景差分处理时，每个视频中发生的行为动作都不同，这样将会导致裁剪出来的图片形状不一。当神经网络处理大小不一的图片时，由于特征无规律将导致模型不易训练。为此，本次实验将裁剪出来的图片都先调整成106×106大小以统一尺寸。由于在原始C3D模型中网络输入的视频帧都为112×112大小，因此需要根据三维卷积输出的三维特征图计算公式重新修改池化层的参数使得网络能适应新的视频帧尺寸。经过计算，只需在第二次和第三次池化时都先进行一次填充（Padding），这样得到的特征图将会与原始C3D模型输出的特征图一致。

本次实验使用经过上面步骤处理后的图片作为数据集，激活函数使用性能更优的Hardswish，并用改进过的网络进行模型训练。

需要说明的是，在对UCF-101数据集进行图像预处理时，171×128尺寸的图片是按照原视频分辨率的比例裁剪而成，112×112尺寸的图片则是根据设计的C3D网络结构裁剪。值得注意的是，图片从171×128裁剪成为112×112大小是在模型训练时进行的。当需要缩放的图片接近目标尺寸大小时，可以缩短图像处理函数运行的时间。且在获取一定大小的图片时，等比例缩放所生成的图片，会比非等比例缩放所生成的图片更清晰，即图像数据损失更少。

于是在将图片从171×128裁剪成112×112大小前，再进行第二次图像裁剪操作，使得裁剪后的图片更接近112×112大小且比例也为1:1。同比采用106×106大小的图片进行训练取得了较好的效果，且该图片比例为也为1:1。所以在第二次图片裁剪时，我们将图片从171×128裁剪成106×106大小，然后再将得到的图片输入模型中。

将本发明与现有技术（原C3D模型）进行训练得到的结果如图表2所示：

表2 本发明与现有技术的数据对比表

从表2可以看出本发明在各个数据测试中表现最为优异。与原始C3D模型相比，在测试集上准确率提高27%、训练集上准确率提高39%、验证集上准确率提高28%；在测试集上损失减少1、训练集上损失减少1.4、验证集上损失减少1.1。除此之外，改进后的模型训练整个UCF-101数据集一轮次，可以比原始C3D模型缩短2分钟左右，效果显著。

实施例2

本实施例提供一种行为识别系统，其中，包括：

，

其中：acc为准确率；为正确识别的样本数；/>为总样本数；

，

其中loss为损失值，真实概率分布，/>为预测概率分布；

输出单元，用于输出对应的行为识别结果。

实施例3

本实施例提供一种存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现上述行为识别方法的过程。

实施例4

本实施例提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现上述行为识别方法的过程。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对发明的限制。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。

显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或者特性可以包含在本实施例申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是相同的实施例，也不是与其它实施例互斥的独立的或是备选的实施例。本领域技术人员可以显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种行为识别方法，其特征在于，包括：

将待识别的视频帧输入后，对图像进行预处理，利用特征提取网络获取视频帧的特征信息，其中所述特征提取网络包括卷积层和池化层，预处理后的图像数据在经过五个卷积层和池化层处理后会得到相应数目的特征，这些特征流入了两个全连接层FC6和FC7中，将所述特征映射成了特征图并调用节点抛弃函数缓解数据过拟合，其中三维卷积输出的三维特征图大小与卷积核大小、滑动步长、填充值及视频帧尺寸有关，计算公式如下所示：

，

将获取到的特征信息输送至特征分类网络，使用归一化指数函数对获取到的特征信息进行特征分类，然后进行训练和验证，其中在进行训练和验证时，选用准确率和损失值作为评判模型是否优秀的标准，其中准确率代表可以使得模型能正确识别出的样本数与总样本数的比值，计算公式如下：

，

其中：acc为准确率；为正确识别的样本数；/>为总样本数；

，

其中loss为损失值，真实概率分布，/>为预测概率分布；

输出对应的行为识别结果。

2.根据权利要求1所述的行为识别方法，其特征在于，所述特征提取网络的模型采用Hardswish函数作为激活函数，具体为：

，

其中x为特征数据或加权求和变换后的数据。

3.根据权利要求1所述的行为识别方法，其特征在于，进行训练和验证时使用随机梯度下降优化器，超参数设置如下：

4.根据权利要求1所述的行为识别方法，其特征在于，所述第一预设尺寸为106×106。

5.一种行为识别系统，其特征在于，包括：

，

其中：acc为准确率；为正确识别的样本数；/>为总样本数；

，

其中loss为损失值，真实概率分布，/>为预测概率分布；

输出单元，用于输出对应的行为识别结果。

6.一种存储介质，所述存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4任一项所述行为识别方法的过程。

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至4任一项所述行为识别方法的过程。