CN110751091A

CN110751091A - 静态图像行为识别的卷积神经网络模型

Info

Publication number: CN110751091A
Application number: CN201910994597.9A
Authority: CN
Inventors: 于祥春; 张哲�; 吴垒; 庞巍; 陈贺昌; 于哲舟; 李斌
Original assignee: Jiangxi University of Technology
Current assignee: Jiangxi University of Technology; Jiangxi University of Science and Technology
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2020-02-04

Abstract

本发明公开了一种静态图像行为识别的卷积神经网络模型，涉及图像处理方法技术领域。所述模型包括：VGG16卷积层模块，用于对输入的图像进行处理；多分支卷积层模块，用于通过不同的分支来分别学习VGG16卷积层模块最后一层输出的特征，该模块的卷积层权重在训练过程中随机初始；softmax分类器层模块，用于对三分支卷积层模块输出的特征进行分类。所述模型可以更加有效的探索VGG16卷积层模块通道中的信息，而且可起到了微调神经网络中最高层权重的效果；因此，可以更加有效的辨识出单幅静态人类行为图像中的动作信息。

Description

静态图像行为识别的卷积神经网络模型

技术领域

本发明涉及图像处理方法技术领域，尤其涉及一种静态图像行为识别的卷积神经网络模型。

背景技术

人类行为识别是计算机视觉领域的重要研究内容之一。大部分关于人类行为识别的研究都是基于视频而不是单幅图像的方法，但是有很多常见的人类行为可以通过单幅图像就可以很充分地表示一个行为，例如，打电话、电脑交互、射击等。即使这些动作的视频信息可用，但是仍然需要基于静态线索的方法，例如弹吉他、骑马、跑步等，也就是说这些人类行为的运动幅度小，运动轨迹没有辨别性，因此识别这些动作还是要采用基于单幅图像的静态方法。

基于深度学习的算法在计算机视觉领域取得了巨大的成果，具体地，在人脸识别、目标位置预测等领域已经被广泛应用。基于视频的人类行为识别其本质是在连续变化的图像帧序列上的动作分析和分类问题。卷积神经网络(Convolutional Neural Networks,CNNs)是当前图像识别领域中主流的分类模型，但是现实生活中的大量人类行为类别具有静态属性，从而致使基于视频的人类行为识别技术在该种类的人类行为识别中失效。因此，为了解决这个问题，本发明专利开发一种应用于静态图像行为识别的卷积神经网络模型。

发明内容

本发明所要解决的技术问题是如何提供一种应用于静态图像行为识别的卷积神经网络模型。

为解决上述技术问题，本发明所采取的技术方案是：一种静态图像行为识别的卷积神经网络模型，其特征在于包括：

VGG16卷积层模块，用于对输入的图像进行多次的卷积和池化处理，提取具有判别性的深度特征；

多分支卷积层模块，用于通过不同的分支来分别学习VGG16卷积层模块最后一层输出的特征，该模块的卷积层权重在训练过程中随机初始；

softmax分类器层模块，用于对三分支卷积层模块输出的特征进行分类。

进一步的技术方案在于，所述多分支卷积层模块设置三个不同的分支：

第一个分支包括一个卷积层，采用1×1的卷积核，过滤器个数为128；

第二个分支包括两个卷积层，第一个卷积层与第一分支一样，第二个卷积层，采用3×3的卷积核，过滤器个数为128；

第三个分支包括一个平均池化层和一个卷积层，平均池化层的池化大小为3×3，卷积层采用3×3的卷积核，过滤器个数为128。

进一步的技术方案在于：所述softmax分类器层模块包括三个全连接层，第一层和第二层大小为2048，在这两个层中添加L2正则化项，并且将该正则化项系数的权重设置为0.001，第三层大小为7。

进一步的技术方案在于，所述网络模型的训练过程如下：

权重初始阶段：VGG16卷积层模块的权重由预训练VGG16模型的权重初始；多分支卷积层模块和softmax分类器层模块的权重随机初始；

权重训练阶段：VGG16卷积层模块的权重被冻结，在训练过程中这个模块的所有权重固定不变；多分支卷积层模块和softmax分类器层模块的权重通过优化算法进行调整；

数据增强阶段：在训练过程中通过对数据进行转换变化操作产生更多的数据，具体的参数设置如下：旋转参数范围：0-90度，宽度移位范围：0-0.2，高度移位范围：0-0.2，斜切变化范围：0-0.2，并且设置水平和垂直翻转。

采用上述技术方案所产生的有益效果在于：本申请中多分支卷积层模块中设置有三个分支，可以通过不同的分支来分别学习VGG16卷积层模块最后一层的特征，这样可以更加有效的探索其通道中的信息。而且该模块的卷积层权重在训练过程中随机初始，因此也起到了微调神经网络中最高层权重的效果；此外，本申请中softmax分类器层模块设置了L2正则化项，可以有效的预防模型训练过程中的过拟合问题，综上本申请所述模型可以更加有效的完成静态图像行为识别任务。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明实施例所述网络模型的原理框图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

如图1所示，本发明实施例公开了一种静态图像行为识别的卷积神经网络模型，包括：

具体的，如图1所示，多分支卷积层模块设置了三个不同的分支：a)第一个分支由一个卷积层，采用1×1的卷积核，过滤器个数为128；b)第二个分支有两个卷积层，第一个卷积层是同a)一样，第二个卷积层，采用3×3的卷积核，过滤器个数为128；c)第三个分支有一个平均池化层和一个卷积层，平均池化层的池化大小为3×3，卷积层采用3×3的卷积核，过滤器个数为128；

softmax分类器层模块增加三个分支的优点是：可以通过不同的分支来分别学习VGG16卷积层模块最后一层的特征，这样可以更加有效的探索其通道中的信息。而且该模块的卷积层权重在训练过程中随机初始，因此也起到了微调神经网络中最高层权重的效果。

softmax分类器层模块：该模块设置了三个全连接层，第一层和第二层大小为2048，而且为了预防过拟合问题，在这两个层中添加了L2正则化项，并且将该正则化项系数的权重设置为0.001，第三层大小为7，与分类任务一致。所述模型的具体结构如表1所示：

表1：NCNN模型的具体网络结构

训练过程：

(a)权重初始阶段：VGG16卷积层模块的权重由预训练VGG16模型的权重初始；多分支卷积层模块和softmax分类器层模块的权重随机初始。

(b)权重训练阶段：VGG16卷积层模块的权重被冻结，就是在训练过程中这个模块的所有权重固定不变；多分支卷积层模块和softmax分类器层模块的权重通过优化算法进行调整。

(c)数据增强：模型发生过拟合问题的一个重要因素就是样本量不够。因此本发明采用深度学习中常用的数据增强手段，在训练过程中通过对数据进行转换变化操作从而产生更多的数据：在本发明中，具体的参数设置如下，旋转参数范围：0-90度，宽度移位范围：0-0.2，高度移位范围：0-0.2，斜切变化范围：0-0.2，并且设置水平和垂直翻转。

Claims

1.一种静态图像行为识别的卷积神经网络模型，其特征在于包括：

2.如权利要求1所述的静态图像行为识别的卷积神经网络模型，其特征在于：所述多分支卷积层模块设置三个不同的分支，

3.如权利要求1所述的静态图像行为识别的卷积神经网络模型，其特征在于：所述softmax分类器层模块包括三个全连接层，第一层和第二层大小为2048，在这两个层中添加L2正则化项，并且将该正则化项系数的权重设置为0.001，第三层大小为7。

4.如权利要求1所述的静态图像行为识别的卷积神经网络模型，其特征在于，所述网络模型的训练过程如下：