CN110472490A

CN110472490A - 基于改进VGGNet的动作识别方法及装置、存储介质和终端

Info

Publication number: CN110472490A
Application number: CN201910602687.9A
Authority: CN
Inventors: 张晖; 史雪勇; 赵海涛; 孙雁飞; 朱洪波
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2019-11-19

Abstract

一种基于改进VGGNet的动作识别方法及装置、存储介质和终端，所述方法包括：对采集到的原始图像进行预处理；对预处理后的图像进行分割，得到对应的人形区域图像；将分割得到的人形区域图像输入改进的VGGNet模型中提取对应的动作特征数据；采用预设的随机森林模型对所提取的动作特征数据进行分类，得到所述原始图像中的人体动作信息。上述的方案，可以在使用有限的资源进行动作识别时提高识别的准确率。

Description

基于改进VGGNet的动作识别方法及装置、存储介质和终端

技术领域

本发明属于图像识别领域，特别是涉及一种基于改进VGGNet的动作识别方法及装置、存储介质和终端。

背景技术

在过去的几十年里，计算机技术日新月异，人们将越来越多的工作放在计算机上去完成。最近十几年来，人工智能浪潮疯狂袭来，对各行各业造成了深刻而重大的影响，借助于机器学习这个最得力的工具，正取得了前所未有的发展。

在过去的几年里，图像识别已成为一股浪潮，引起了该行业人员的广泛关注。与此同时，关于图像识别的技术和产品也越来越多。但在行为识别领域中，由于人体姿态复杂，如何在动作识别时节约计算资源并提高准确率成为亟待解决的问题。

发明内容

本发明解决的技术问题是如何使用有限的资源进行动作识别时提高识别的准确率。

为了达到上述目的，本发明实施例提供了一种基于改进VGGNet的动作识别方法，所述方法包括：

对采集到的原始图像进行预处理；

对预处理后的图像进行分割，得到对应的人形区域图像；

将分割得到的人形区域图像输入改进的VGGNet模型中提取对应的动作特征数据；

采用预设的随机森林模型对所提取的动作特征数据进行分类，得到所述原始图像中的人体动作信息。

可选地，所述对采集到的原始图像进行预处理，包括：

对采集到的原始图像进行灰度处理和高斯模糊平滑处理。

可选地，所述对预处理后的图像进行分割，得到对应的人形区域图像，包括：

采用Canny边缘检测算法对预处理后的图像进行分割。

可选地，所述改进的VGGNet模型不包括全连接层和输出层。

本发明实施例还提供了一种基于改进VGGNet的动作识别装置，所述装置包括：

预处理单元，适于对采集到的原始图像进行预处理；

图像分割单元，适于对预处理后的图像进行分割，得到对应的人形区域图像；

特征提取单元，适于将分割得到的人形区域图像输入改进的VGGNet模型中提取对应的动作特征数据；

动作识别单元，适于采用预设的随机森林模型对所提取的动作特征数据进行分类，得到所述原始图像中的人体动作信息。

可选地，所述预处理单元，适于对采集到的原始图像进行灰度处理和高斯模糊平滑处理。

可选地，所述图像分割单元，适于采用Canny边缘检测算法对预处理后的图像进行分割。

可选地，所述改进的VGGNet模型不包括全连接层和输出层。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述任一项所述的基于改进VGGNet的动作识别方法的步骤。

本发明实施例还提供了一种终端，其特征在于，包括存储器和处理器，所述存储器上储存有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行上述任一项所述的基于改进VGGNet的动作识别方法的步骤。

与现有技术相比，本发明的有益效果为：

上述的方案，通过对预处理后的图像进行分割，得到对应的人形区域图像，并将分割得到的人形区域图像输入改进的VGGNet模型中提取对应的动作特征数据，再采用预设的随机森林模型对所提取的动作特征数据进行分类，得到所述原始图像中的人体动作信息，可以在使用有限的计算资源进行动作识别时提高动作识别的准确率，实现计算资源与识别准确率之间的平衡。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种基于改进VGGNet的动作识别方法的流程示意图；

图2是本发明实施例的一种基于改进VGGNet的动作识别装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。本发明实施例中有关方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

如背景技术所述，在行为识别领域中，由于人体姿态复杂，如何在动作识别时节约计算资源并提高准确率成为亟待解决的问题。

本发明的技术方案通过对预处理后的图像进行分割，得到对应的人形区域图像，并将分割得到的人形区域图像输入改进的VGGNet模型中提取对应的动作特征数据，再采用预设的随机森林模型对所提取的动作特征数据进行分类，得到所述原始图像中的人体动作信息，可以在使用有限的计算资源进行动作识别时提高动作识别的准确率，实现计算资源与识别准确率之间的平衡。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例的一种基于改进VGGNet的动作识别方法的流程示意图。参见图1，一种基于改进VGGNet的动作识别方法，具体可以包括如下的步骤：

步骤S101：对采集到的原始图像进行预处理。

在具体实施中，实时采集视频流中的每帧图像，并对采集到的原始图像进行预处理，其中，预处理包括灰度处理和高斯模糊平滑处理；原始图像为RGB格式的彩色图像，考虑到人眼的生理特点，灰度化处理时采用的方法为Gray＝0.299R+0.587G+0.114B；高斯滤波主要消除噪声对检测的影响。记当前帧预处理后的图像为Image1。

步骤S102：对预处理后的图像进行分割，得到对应的人形区域图像。

在本发明一实施例中，采用Canny边缘检测算法对预处理后的图像Image1进行分割。具体地：

首先，计算图像Image1中每个像素点的梯度强度和方向，记得到的梯度图像为Image2。其中，在计算梯度图像Image2时，Canny算法中所采用的卷积算子为：

其中，S_x表示x方向的Canny算子，用于检测y方向的边缘；S_y表示y方向的Canny算子，用于检测x方向的边缘(边缘方向和梯度方向垂直)。

记图像中一个3*3的窗口为A，则像素点e在x和y方向的梯度值分别为：

G_x＝S_x*A (3)

G_y＝S_y*A (4)

其中，*表示卷积运算。

之后，便可以采用如下的公式确定像素点e的梯度G和方向θ：

θ＝arctan(G_y/G_x) (6)

其中，G表示梯度强度，θ表示梯度方向，arctan为反正切函数。

之后，对梯度图像Image2应用非极大值抑制，以消除边缘检测带来的杂散响应。其中，对梯度图像中每个像素进行非极大值抑制时，将当前像素的梯度强度与沿正负梯度方向上的两个邻近像素进行比较；如果当前像素的梯度强度与另外两个邻近像素相比最大，则该像素点保留为边缘点，否则该像素点将不被标记为边缘点。

接着，应用双阈值算法检测和连接边缘；在施加非极大值抑制之后，剩余的像素可以更准确地表示图像中的实际边缘。然而，仍然存在由于噪声和颜色变化引起的一些边缘像素。为了解决这些杂散响应，必须用弱梯度值过滤边缘像素，并保留具有高梯度值的边缘像素，可以通过选择高低阈值来实现。如果边缘像素的梯度值高于高阈值，则将其标记为强边缘像素；如果边缘像素的梯度值小于高阈值并且大于低阈值，则将其标记为弱边缘像素；如果边缘像素的梯度值小于低阈值，则会被抑制。其中，所述阈值的选择取决于给定输入图像的内容。这里的抑制，主要是指不标记为边缘像素，或从边缘像素中剔除。

然后，在通过抑制孤立的弱边缘最终完成边缘检测，并绘制边缘检测区域，并对图像Image1中对应的边缘检测区域进行矩形拟合，对拟合后的图像进行图像分割，并调整图像大小为(227,227)，记为Image3；这里的矩形拟合指的是在图像Image1中刚好能够包含上述边缘检测区域的外接矩形。这里的抑制，主要是指不标记为边缘像素，或从边缘像素中剔除。

步骤S103：将分割得到的人形区域图像输入改进的VGGNet模型中提取对应的动作特征数据。

在具体实施中，为了节省动作识别的计算资源，本发明实施例中采用改进的VGGNet模型分割得到的人形区域图像进行动作特征提取。其中，本发明提供的一种改进VGGNet模型在保留现有的VGGNet-19模型中前16层的同时，去掉了最后三层，即去除了最后的两层全连接层和一层输出层，以用于对分割后的人体动作图像进行特征提取。

步骤S104：采用预设的随机森林模型对所提取的动作特征数据进行分类，得到所述原始图像中的人体动作信息。

在具体实施汇总，当采用VGGNet模型中提取得到对应的动作特征数据，再将所提取的动作特征数据输入预先训练好的随机森林模型，以使得随机森林模型对所提取的动作特征数据进行分类，从而得到所述原始图像中的人体动作信息。

上述对本发明实施例中的基于改进VGGNet的动作识别方法进行了详细的描述，下面将对上述的方法对应的装置进行介绍。

图2示出了本发明实施例中的一种基于改进VGGNet的动作识别装置的结构示意图。参见图2，一种基于改进VGGNet的动作识别装置20可以包括预处理单元201、图像分割单元202、特征提取单元203和动作识别单元204，其中：

所述预处理单元201，适于对采集到的原始图像进行预处理；在具体实施中，所述预处理单元201，适于对采集到的原始图像进行灰度处理和高斯模糊平滑处理。

所述图像分割单元202，适于对预处理后的图像进行分割，得到对应的人形区域图像；在本发明一实施例中，所述图像分割单元202，适于采用Canny边缘检测算法对预处理后的图像进行分割。

所述特征提取单元203，适于将分割得到的人形区域图像输入改进的VGGNet模型中提取对应的动作特征数据；其中，所述改进的VGGNet模型不包括全连接层和输出层。

所述动作识别单元204，适于采用预设的随机森林模型对所提取的动作特征数据进行分类，得到所述原始图像中的人体动作信息。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行所述的基于改进VGGNet的动作识别方法的步骤。其中，所述基于改进VGGNet的动作识别方法请参见前述部分的详细介绍，不再赘述。

本发明实施例还提供了一种终端，其特征在于，包括存储器和处理器，所述存储器上储存有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行所述的基于改进VGGNet的动作识别方法的步骤。其中，所述基于改进VGGNet的动作识别方法请参见前述部分的详细介绍，不再赘述。

采用本发明实施例中的上述方案，通过对预处理后的图像进行分割，得到对应的人形区域图像，并将分割得到的人形区域图像输入改进的VGGNet模型中提取对应的动作特征数据，再采用预设的随机森林模型对所提取的动作特征数据进行分类，得到所述原始图像中的人体动作信息，可以在使用有限的计算资源进行动作识别时提高动作识别的准确率，实现计算资源与识别准确率之间的平衡。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，本发明要求保护范围由所附的权利要求书、说明书及其等效物界定。

Claims

1.一种基于改进VGGNet的动作识别方法，其特征在于，包括：

对采集到的原始图像进行预处理；

对预处理后的图像进行分割，得到对应的人形区域图像；

2.根据权利要求1所述的基于改进VGGNet的动作识别方法，其特征在于，所述对采集到的原始图像进行预处理，包括：

对采集到的原始图像进行灰度处理和高斯模糊平滑处理。

3.根据权利要求1所述的基于改进VGGNet的动作识别方法，其特征在于，所述对预处理后的图像进行分割，得到对应的人形区域图像，包括：

采用Canny边缘检测算法对预处理后的图像进行分割。

4.根据权利要求1所述的基于改进VGGNet的动作识别方法，其特征在于，所述改进的VGGNet模型不包括全连接层和输出层。

5.一种基于改进VGGNet的动作识别装置，其特征在于，包括：

预处理单元，适于对采集到的原始图像进行预处理；

6.根据权利要求5所述的基于改进VGGNet的动作识别装置，其特征在于，所述预处理单元，适于对采集到的原始图像进行灰度处理和高斯模糊平滑处理。

7.根据权利要求5所述的基于改进VGGNet的动作识别装置，其特征在于，所述图像分割单元，适于采用Canny边缘检测算法对预处理后的图像进行分割。

8.根据权利要求5所述的基于改进VGGNet的动作识别装置，其特征在于，所述改进的VGGNet模型不包括全连接层和输出层。

9.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述计算机指令运行时执行权利要求1至4任一项所述的基于改进VGGNet的动作识别方法的步骤。

10.一种终端，其特征在于，包括存储器和处理器，所述存储器上储存有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行权利要求1至4任一项所述的基于改进VGGNet的动作识别方法的步骤。