CN110751091A - 静态图像行为识别的卷积神经网络模型 - Google Patents

静态图像行为识别的卷积神经网络模型 Download PDF

Info

Publication number
CN110751091A
CN110751091A CN201910994597.9A CN201910994597A CN110751091A CN 110751091 A CN110751091 A CN 110751091A CN 201910994597 A CN201910994597 A CN 201910994597A CN 110751091 A CN110751091 A CN 110751091A
Authority
CN
China
Prior art keywords
layer
convolutional
layer module
module
branch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910994597.9A
Other languages
English (en)
Inventor
于祥春
张哲�
吴垒
庞巍
陈贺昌
于哲舟
李斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi University of Technology
Jiangxi University of Science and Technology
Original Assignee
Jiangxi University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi University of Technology filed Critical Jiangxi University of Technology
Priority to CN201910994597.9A priority Critical patent/CN110751091A/zh
Publication of CN110751091A publication Critical patent/CN110751091A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明公开了一种静态图像行为识别的卷积神经网络模型,涉及图像处理方法技术领域。所述模型包括:VGG16卷积层模块,用于对输入的图像进行处理;多分支卷积层模块,用于通过不同的分支来分别学习VGG16卷积层模块最后一层输出的特征,该模块的卷积层权重在训练过程中随机初始;softmax分类器层模块,用于对三分支卷积层模块输出的特征进行分类。所述模型可以更加有效的探索VGG16卷积层模块通道中的信息,而且可起到了微调神经网络中最高层权重的效果;因此,可以更加有效的辨识出单幅静态人类行为图像中的动作信息。

Description

静态图像行为识别的卷积神经网络模型
技术领域
本发明涉及图像处理方法技术领域,尤其涉及一种静态图像行为识别的卷积神经网络模型。
背景技术
人类行为识别是计算机视觉领域的重要研究内容之一。大部分关于人类行为识别的研究都是基于视频而不是单幅图像的方法,但是有很多常见的人类行为可以通过单幅图像就可以很充分地表示一个行为,例如,打电话、电脑交互、射击等。即使这些动作的视频信息可用,但是仍然需要基于静态线索的方法,例如弹吉他、骑马、跑步等,也就是说这些人类行为的运动幅度小,运动轨迹没有辨别性,因此识别这些动作还是要采用基于单幅图像的静态方法。
基于深度学习的算法在计算机视觉领域取得了巨大的成果,具体地,在人脸识别、目标位置预测等领域已经被广泛应用。基于视频的人类行为识别其本质是在连续变化的图像帧序列上的动作分析和分类问题。卷积神经网络(Convolutional Neural Networks,CNNs)是当前图像识别领域中主流的分类模型,但是现实生活中的大量人类行为类别具有静态属性,从而致使基于视频的人类行为识别技术在该种类的人类行为识别中失效。因此,为了解决这个问题,本发明专利开发一种应用于静态图像行为识别的卷积神经网络模型。
发明内容
本发明所要解决的技术问题是如何提供一种应用于静态图像行为识别的卷积神经网络模型。
为解决上述技术问题,本发明所采取的技术方案是:一种静态图像行为识别的卷积神经网络模型,其特征在于包括:
VGG16卷积层模块,用于对输入的图像进行多次的卷积和池化处理,提取具有判别性的深度特征;
多分支卷积层模块,用于通过不同的分支来分别学习VGG16卷积层模块最后一层输出的特征,该模块的卷积层权重在训练过程中随机初始;
softmax分类器层模块,用于对三分支卷积层模块输出的特征进行分类。
进一步的技术方案在于,所述多分支卷积层模块设置三个不同的分支:
第一个分支包括一个卷积层,采用1×1的卷积核,过滤器个数为128;
第二个分支包括两个卷积层,第一个卷积层与第一分支一样,第二个卷积层,采用3×3的卷积核,过滤器个数为128;
第三个分支包括一个平均池化层和一个卷积层,平均池化层的池化大小为3×3,卷积层采用3×3的卷积核,过滤器个数为128。
进一步的技术方案在于:所述softmax分类器层模块包括三个全连接层,第一层和第二层大小为2048,在这两个层中添加L2正则化项,并且将该正则化项系数的权重设置为0.001,第三层大小为7。
进一步的技术方案在于,所述网络模型的训练过程如下:
权重初始阶段:VGG16卷积层模块的权重由预训练VGG16模型的权重初始;多分支卷积层模块和softmax分类器层模块的权重随机初始;
权重训练阶段:VGG16卷积层模块的权重被冻结,在训练过程中这个模块的所有权重固定不变;多分支卷积层模块和softmax分类器层模块的权重通过优化算法进行调整;
数据增强阶段:在训练过程中通过对数据进行转换变化操作产生更多的数据,具体的参数设置如下:旋转参数范围:0-90度,宽度移位范围:0-0.2,高度移位范围:0-0.2,斜切变化范围:0-0.2,并且设置水平和垂直翻转。
采用上述技术方案所产生的有益效果在于:本申请中多分支卷积层模块中设置有三个分支,可以通过不同的分支来分别学习VGG16卷积层模块最后一层的特征,这样可以更加有效的探索其通道中的信息。而且该模块的卷积层权重在训练过程中随机初始,因此也起到了微调神经网络中最高层权重的效果;此外,本申请中softmax分类器层模块设置了L2正则化项,可以有效的预防模型训练过程中的过拟合问题,综上本申请所述模型可以更加有效的完成静态图像行为识别任务。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明实施例所述网络模型的原理框图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
如图1所示,本发明实施例公开了一种静态图像行为识别的卷积神经网络模型,包括:
VGG16卷积层模块,用于对输入的图像进行多次的卷积和池化处理,提取具有判别性的深度特征;
多分支卷积层模块,用于通过不同的分支来分别学习VGG16卷积层模块最后一层输出的特征,该模块的卷积层权重在训练过程中随机初始;
softmax分类器层模块,用于对三分支卷积层模块输出的特征进行分类。
具体的,如图1所示,多分支卷积层模块设置了三个不同的分支:a)第一个分支由一个卷积层,采用1×1的卷积核,过滤器个数为128;b)第二个分支有两个卷积层,第一个卷积层是同a)一样,第二个卷积层,采用3×3的卷积核,过滤器个数为128;c)第三个分支有一个平均池化层和一个卷积层,平均池化层的池化大小为3×3,卷积层采用3×3的卷积核,过滤器个数为128;
softmax分类器层模块增加三个分支的优点是:可以通过不同的分支来分别学习VGG16卷积层模块最后一层的特征,这样可以更加有效的探索其通道中的信息。而且该模块的卷积层权重在训练过程中随机初始,因此也起到了微调神经网络中最高层权重的效果。
softmax分类器层模块:该模块设置了三个全连接层,第一层和第二层大小为2048,而且为了预防过拟合问题,在这两个层中添加了L2正则化项,并且将该正则化项系数的权重设置为0.001,第三层大小为7,与分类任务一致。所述模型的具体结构如表1所示:
表1:NCNN模型的具体网络结构
Figure BDA0002239343770000041
Figure BDA0002239343770000051
训练过程:
(a)权重初始阶段:VGG16卷积层模块的权重由预训练VGG16模型的权重初始;多分支卷积层模块和softmax分类器层模块的权重随机初始。
(b)权重训练阶段:VGG16卷积层模块的权重被冻结,就是在训练过程中这个模块的所有权重固定不变;多分支卷积层模块和softmax分类器层模块的权重通过优化算法进行调整。
(c)数据增强:模型发生过拟合问题的一个重要因素就是样本量不够。因此本发明采用深度学习中常用的数据增强手段,在训练过程中通过对数据进行转换变化操作从而产生更多的数据:在本发明中,具体的参数设置如下,旋转参数范围:0-90度,宽度移位范围:0-0.2,高度移位范围:0-0.2,斜切变化范围:0-0.2,并且设置水平和垂直翻转。

Claims (4)

1.一种静态图像行为识别的卷积神经网络模型,其特征在于包括:
VGG16卷积层模块,用于对输入的图像进行多次的卷积和池化处理,提取具有判别性的深度特征;
多分支卷积层模块,用于通过不同的分支来分别学习VGG16卷积层模块最后一层输出的特征,该模块的卷积层权重在训练过程中随机初始;
softmax分类器层模块,用于对三分支卷积层模块输出的特征进行分类。
2.如权利要求1所述的静态图像行为识别的卷积神经网络模型,其特征在于:所述多分支卷积层模块设置三个不同的分支,
第一个分支包括一个卷积层,采用1×1的卷积核,过滤器个数为128;
第二个分支包括两个卷积层,第一个卷积层与第一分支一样,第二个卷积层,采用3×3的卷积核,过滤器个数为128;
第三个分支包括一个平均池化层和一个卷积层,平均池化层的池化大小为3×3,卷积层采用3×3的卷积核,过滤器个数为128。
3.如权利要求1所述的静态图像行为识别的卷积神经网络模型,其特征在于:所述softmax分类器层模块包括三个全连接层,第一层和第二层大小为2048,在这两个层中添加L2正则化项,并且将该正则化项系数的权重设置为0.001,第三层大小为7。
4.如权利要求1所述的静态图像行为识别的卷积神经网络模型,其特征在于,所述网络模型的训练过程如下:
权重初始阶段:VGG16卷积层模块的权重由预训练VGG16模型的权重初始;多分支卷积层模块和softmax分类器层模块的权重随机初始;
权重训练阶段:VGG16卷积层模块的权重被冻结,在训练过程中这个模块的所有权重固定不变;多分支卷积层模块和softmax分类器层模块的权重通过优化算法进行调整;
数据增强阶段:在训练过程中通过对数据进行转换变化操作产生更多的数据,具体的参数设置如下:旋转参数范围:0-90度,宽度移位范围:0-0.2,高度移位范围:0-0.2,斜切变化范围:0-0.2,并且设置水平和垂直翻转。
CN201910994597.9A 2019-10-18 2019-10-18 静态图像行为识别的卷积神经网络模型 Pending CN110751091A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910994597.9A CN110751091A (zh) 2019-10-18 2019-10-18 静态图像行为识别的卷积神经网络模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910994597.9A CN110751091A (zh) 2019-10-18 2019-10-18 静态图像行为识别的卷积神经网络模型

Publications (1)

Publication Number Publication Date
CN110751091A true CN110751091A (zh) 2020-02-04

Family

ID=69278838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910994597.9A Pending CN110751091A (zh) 2019-10-18 2019-10-18 静态图像行为识别的卷积神经网络模型

Country Status (1)

Country Link
CN (1) CN110751091A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340011A (zh) * 2020-05-18 2020-06-26 中国科学院自动化研究所南京人工智能芯片创新研究院 一种自适应时序移位神经网络时序行为识别方法及系统
CN113642461A (zh) * 2021-08-13 2021-11-12 辽宁华盾安全技术有限责任公司 一种基于深度学习的电梯开关门状态识别方法及装置
CN116562338A (zh) * 2022-01-27 2023-08-08 美的集团(上海)有限公司 多分支卷积结构、神经网络模型及其确定方法、确定装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563349A (zh) * 2017-09-21 2018-01-09 电子科技大学 一种基于VGGNet的人数估计方法
CN108009509A (zh) * 2017-12-12 2018-05-08 河南工业大学 车辆目标检测方法
CN109462564A (zh) * 2018-11-16 2019-03-12 泰山学院 基于深度神经网络的水下通信调制方式识别方法及系统
CN110188653A (zh) * 2019-05-27 2019-08-30 东南大学 基于局部特征聚合编码和长短期记忆网络的行为识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563349A (zh) * 2017-09-21 2018-01-09 电子科技大学 一种基于VGGNet的人数估计方法
CN108009509A (zh) * 2017-12-12 2018-05-08 河南工业大学 车辆目标检测方法
CN109462564A (zh) * 2018-11-16 2019-03-12 泰山学院 基于深度神经网络的水下通信调制方式识别方法及系统
CN110188653A (zh) * 2019-05-27 2019-08-30 东南大学 基于局部特征聚合编码和长短期记忆网络的行为识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
董海鹰: "《智能控制理论及应用》", 30 September 2016, 中国铁道出版社 *
魏艳涛等: "基于深度学习的学生课堂行为识别", 《现代教育技术》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340011A (zh) * 2020-05-18 2020-06-26 中国科学院自动化研究所南京人工智能芯片创新研究院 一种自适应时序移位神经网络时序行为识别方法及系统
CN111340011B (zh) * 2020-05-18 2020-09-11 中国科学院自动化研究所南京人工智能芯片创新研究院 一种自适应时序移位神经网络时序行为识别方法
CN113642461A (zh) * 2021-08-13 2021-11-12 辽宁华盾安全技术有限责任公司 一种基于深度学习的电梯开关门状态识别方法及装置
CN116562338A (zh) * 2022-01-27 2023-08-08 美的集团(上海)有限公司 多分支卷积结构、神经网络模型及其确定方法、确定装置

Similar Documents

Publication Publication Date Title
WO2020244261A1 (zh) 高分辨率遥感图像的场景识别系统及模型生成方法
CN107506712B (zh) 一种基于3d深度卷积网络的人类行为识别的方法
Kuo et al. Green learning: Introduction, examples and outlook
CN110751091A (zh) 静态图像行为识别的卷积神经网络模型
CN106991372A (zh) 一种基于混合深度学习模型的动态手势识别方法
CN107808132A (zh) 一种融合主题模型的场景图像分类方法
CN107292250A (zh) 一种基于深度神经网络的步态识别方法
Guo et al. Robust student network learning
Van Hieu et al. Automatic plant image identification of Vietnamese species using deep learning models
WO2021042857A1 (zh) 图像分割模型的处理方法和处理装置
CN114882278A (zh) 一种基于注意力机制和迁移学习的轮胎花纹分类方法和装置
Salem et al. Semantic image inpainting using self-learning encoder-decoder and adversarial loss
Luan et al. Sunflower seed sorting based on convolutional neural network
Siddiqi Fruit-classification model resilience under adversarial attack
Nalini et al. Comparative analysis of deep network models through transfer learning
Marrone et al. Effects of hidden layer sizing on CNN fine-tuning
CN113361590A (zh) 基于多元时间序列的特征融合方法
Wang et al. Efficient deep convolutional model compression with an active stepwise pruning approach
Xiao et al. Explore video clip order with self-supervised and curriculum learning for video applications
Zhang et al. Effective traffic signs recognition via kernel PCA network
Farabi et al. Improving action quality assessment using weighted aggregation
Hollósi et al. Improve the accuracy of neural networks using capsule layers
TWI722383B (zh) 應用於深度學習之預特徵萃取方法
Kaya et al. Binary classification of criminal tools from the images of the case using CNN
Zakaria et al. Improved VGG Architecture in CNNs for Image Classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination