CN110472490A - 基于改进VGGNet的动作识别方法及装置、存储介质和终端 - Google Patents

基于改进VGGNet的动作识别方法及装置、存储介质和终端 Download PDF

Info

Publication number
CN110472490A
CN110472490A CN201910602687.9A CN201910602687A CN110472490A CN 110472490 A CN110472490 A CN 110472490A CN 201910602687 A CN201910602687 A CN 201910602687A CN 110472490 A CN110472490 A CN 110472490A
Authority
CN
China
Prior art keywords
vggnet
image
improving
action
original image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910602687.9A
Other languages
English (en)
Inventor
张晖
史雪勇
赵海涛
孙雁飞
朱洪波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201910602687.9A priority Critical patent/CN110472490A/zh
Publication of CN110472490A publication Critical patent/CN110472490A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/34Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Manipulator (AREA)
  • Image Analysis (AREA)

Abstract

一种基于改进VGGNet的动作识别方法及装置、存储介质和终端,所述方法包括:对采集到的原始图像进行预处理;对预处理后的图像进行分割,得到对应的人形区域图像;将分割得到的人形区域图像输入改进的VGGNet模型中提取对应的动作特征数据;采用预设的随机森林模型对所提取的动作特征数据进行分类,得到所述原始图像中的人体动作信息。上述的方案,可以在使用有限的资源进行动作识别时提高识别的准确率。

Description

基于改进VGGNet的动作识别方法及装置、存储介质和终端
技术领域
本发明属于图像识别领域,特别是涉及一种基于改进VGGNet的动作识别方法及装置、存储介质和终端。
背景技术
在过去的几十年里,计算机技术日新月异,人们将越来越多的工作放在计算机上去完成。最近十几年来,人工智能浪潮疯狂袭来,对各行各业造成了深刻而重大的影响,借助于机器学习这个最得力的工具,正取得了前所未有的发展。
在过去的几年里,图像识别已成为一股浪潮,引起了该行业人员的广泛关注。与此同时,关于图像识别的技术和产品也越来越多。但在行为识别领域中,由于人体姿态复杂,如何在动作识别时节约计算资源并提高准确率成为亟待解决的问题。
发明内容
本发明解决的技术问题是如何使用有限的资源进行动作识别时提高识别的准确率。
为了达到上述目的,本发明实施例提供了一种基于改进VGGNet的动作识别方法,所述方法包括:
对采集到的原始图像进行预处理;
对预处理后的图像进行分割,得到对应的人形区域图像;
将分割得到的人形区域图像输入改进的VGGNet模型中提取对应的动作特征数据;
采用预设的随机森林模型对所提取的动作特征数据进行分类,得到所述原始图像中的人体动作信息。
可选地,所述对采集到的原始图像进行预处理,包括:
对采集到的原始图像进行灰度处理和高斯模糊平滑处理。
可选地,所述对预处理后的图像进行分割,得到对应的人形区域图像,包括:
采用Canny边缘检测算法对预处理后的图像进行分割。
可选地,所述改进的VGGNet模型不包括全连接层和输出层。
本发明实施例还提供了一种基于改进VGGNet的动作识别装置,所述装置包括:
预处理单元,适于对采集到的原始图像进行预处理;
图像分割单元,适于对预处理后的图像进行分割,得到对应的人形区域图像;
特征提取单元,适于将分割得到的人形区域图像输入改进的VGGNet模型中提取对应的动作特征数据;
动作识别单元,适于采用预设的随机森林模型对所提取的动作特征数据进行分类,得到所述原始图像中的人体动作信息。
可选地,所述预处理单元,适于对采集到的原始图像进行灰度处理和高斯模糊平滑处理。
可选地,所述图像分割单元,适于采用Canny边缘检测算法对预处理后的图像进行分割。
可选地,所述改进的VGGNet模型不包括全连接层和输出层。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述任一项所述的基于改进VGGNet的动作识别方法的步骤。
本发明实施例还提供了一种终端,其特征在于,包括存储器和处理器,所述存储器上储存有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述任一项所述的基于改进VGGNet的动作识别方法的步骤。
与现有技术相比,本发明的有益效果为:
上述的方案,通过对预处理后的图像进行分割,得到对应的人形区域图像,并将分割得到的人形区域图像输入改进的VGGNet模型中提取对应的动作特征数据,再采用预设的随机森林模型对所提取的动作特征数据进行分类,得到所述原始图像中的人体动作信息,可以在使用有限的计算资源进行动作识别时提高动作识别的准确率,实现计算资源与识别准确率之间的平衡。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种基于改进VGGNet的动作识别方法的流程示意图;
图2是本发明实施例的一种基于改进VGGNet的动作识别装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本发明实施例中有关方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
如背景技术所述,在行为识别领域中,由于人体姿态复杂,如何在动作识别时节约计算资源并提高准确率成为亟待解决的问题。
本发明的技术方案通过对预处理后的图像进行分割,得到对应的人形区域图像,并将分割得到的人形区域图像输入改进的VGGNet模型中提取对应的动作特征数据,再采用预设的随机森林模型对所提取的动作特征数据进行分类,得到所述原始图像中的人体动作信息,可以在使用有限的计算资源进行动作识别时提高动作识别的准确率,实现计算资源与识别准确率之间的平衡。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1是本发明实施例的一种基于改进VGGNet的动作识别方法的流程示意图。参见图1,一种基于改进VGGNet的动作识别方法,具体可以包括如下的步骤:
步骤S101:对采集到的原始图像进行预处理。
在具体实施中,实时采集视频流中的每帧图像,并对采集到的原始图像进行预处理,其中,预处理包括灰度处理和高斯模糊平滑处理;原始图像为RGB格式的彩色图像,考虑到人眼的生理特点,灰度化处理时采用的方法为Gray=0.299R+0.587G+0.114B;高斯滤波主要消除噪声对检测的影响。记当前帧预处理后的图像为Image1。
步骤S102:对预处理后的图像进行分割,得到对应的人形区域图像。
在本发明一实施例中,采用Canny边缘检测算法对预处理后的图像Image1进行分割。具体地:
首先,计算图像Image1中每个像素点的梯度强度和方向,记得到的梯度图像为Image2。其中,在计算梯度图像Image2时,Canny算法中所采用的卷积算子为:
其中,Sx表示x方向的Canny算子,用于检测y方向的边缘;Sy表示y方向的Canny算子,用于检测x方向的边缘(边缘方向和梯度方向垂直)。
记图像中一个3*3的窗口为A,则像素点e在x和y方向的梯度值分别为:
Gx=Sx*A (3)
Gy=Sy*A (4)
其中,*表示卷积运算。
之后,便可以采用如下的公式确定像素点e的梯度G和方向θ:
θ=arctan(Gy/Gx) (6)
其中,G表示梯度强度,θ表示梯度方向,arctan为反正切函数。
之后,对梯度图像Image2应用非极大值抑制,以消除边缘检测带来的杂散响应。其中,对梯度图像中每个像素进行非极大值抑制时,将当前像素的梯度强度与沿正负梯度方向上的两个邻近像素进行比较;如果当前像素的梯度强度与另外两个邻近像素相比最大,则该像素点保留为边缘点,否则该像素点将不被标记为边缘点。
接着,应用双阈值算法检测和连接边缘;在施加非极大值抑制之后,剩余的像素可以更准确地表示图像中的实际边缘。然而,仍然存在由于噪声和颜色变化引起的一些边缘像素。为了解决这些杂散响应,必须用弱梯度值过滤边缘像素,并保留具有高梯度值的边缘像素,可以通过选择高低阈值来实现。如果边缘像素的梯度值高于高阈值,则将其标记为强边缘像素;如果边缘像素的梯度值小于高阈值并且大于低阈值,则将其标记为弱边缘像素;如果边缘像素的梯度值小于低阈值,则会被抑制。其中,所述阈值的选择取决于给定输入图像的内容。这里的抑制,主要是指不标记为边缘像素,或从边缘像素中剔除。
然后,在通过抑制孤立的弱边缘最终完成边缘检测,并绘制边缘检测区域,并对图像Image1中对应的边缘检测区域进行矩形拟合,对拟合后的图像进行图像分割,并调整图像大小为(227,227),记为Image3;这里的矩形拟合指的是在图像Image1中刚好能够包含上述边缘检测区域的外接矩形。这里的抑制,主要是指不标记为边缘像素,或从边缘像素中剔除。
步骤S103:将分割得到的人形区域图像输入改进的VGGNet模型中提取对应的动作特征数据。
在具体实施中,为了节省动作识别的计算资源,本发明实施例中采用改进的VGGNet模型分割得到的人形区域图像进行动作特征提取。其中,本发明提供的一种改进VGGNet模型在保留现有的VGGNet-19模型中前16层的同时,去掉了最后三层,即去除了最后的两层全连接层和一层输出层,以用于对分割后的人体动作图像进行特征提取。
步骤S104:采用预设的随机森林模型对所提取的动作特征数据进行分类,得到所述原始图像中的人体动作信息。
在具体实施汇总,当采用VGGNet模型中提取得到对应的动作特征数据,再将所提取的动作特征数据输入预先训练好的随机森林模型,以使得随机森林模型对所提取的动作特征数据进行分类,从而得到所述原始图像中的人体动作信息。
上述的方案,通过对预处理后的图像进行分割,得到对应的人形区域图像,并将分割得到的人形区域图像输入改进的VGGNet模型中提取对应的动作特征数据,再采用预设的随机森林模型对所提取的动作特征数据进行分类,得到所述原始图像中的人体动作信息,可以在使用有限的计算资源进行动作识别时提高动作识别的准确率,实现计算资源与识别准确率之间的平衡。
上述对本发明实施例中的基于改进VGGNet的动作识别方法进行了详细的描述,下面将对上述的方法对应的装置进行介绍。
图2示出了本发明实施例中的一种基于改进VGGNet的动作识别装置的结构示意图。参见图2,一种基于改进VGGNet的动作识别装置20可以包括预处理单元201、图像分割单元202、特征提取单元203和动作识别单元204,其中:
所述预处理单元201,适于对采集到的原始图像进行预处理;在具体实施中,所述预处理单元201,适于对采集到的原始图像进行灰度处理和高斯模糊平滑处理。
所述图像分割单元202,适于对预处理后的图像进行分割,得到对应的人形区域图像;在本发明一实施例中,所述图像分割单元202,适于采用Canny边缘检测算法对预处理后的图像进行分割。
所述特征提取单元203,适于将分割得到的人形区域图像输入改进的VGGNet模型中提取对应的动作特征数据;其中,所述改进的VGGNet模型不包括全连接层和输出层。
所述动作识别单元204,适于采用预设的随机森林模型对所提取的动作特征数据进行分类,得到所述原始图像中的人体动作信息。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述的基于改进VGGNet的动作识别方法的步骤。其中,所述基于改进VGGNet的动作识别方法请参见前述部分的详细介绍,不再赘述。
本发明实施例还提供了一种终端,其特征在于,包括存储器和处理器,所述存储器上储存有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行所述的基于改进VGGNet的动作识别方法的步骤。其中,所述基于改进VGGNet的动作识别方法请参见前述部分的详细介绍,不再赘述。
采用本发明实施例中的上述方案,通过对预处理后的图像进行分割,得到对应的人形区域图像,并将分割得到的人形区域图像输入改进的VGGNet模型中提取对应的动作特征数据,再采用预设的随机森林模型对所提取的动作特征数据进行分类,得到所述原始图像中的人体动作信息,可以在使用有限的计算资源进行动作识别时提高动作识别的准确率,实现计算资源与识别准确率之间的平衡。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,本发明要求保护范围由所附的权利要求书、说明书及其等效物界定。

Claims (10)

1.一种基于改进VGGNet的动作识别方法,其特征在于,包括:
对采集到的原始图像进行预处理;
对预处理后的图像进行分割,得到对应的人形区域图像;
将分割得到的人形区域图像输入改进的VGGNet模型中提取对应的动作特征数据;
采用预设的随机森林模型对所提取的动作特征数据进行分类,得到所述原始图像中的人体动作信息。
2.根据权利要求1所述的基于改进VGGNet的动作识别方法,其特征在于,所述对采集到的原始图像进行预处理,包括:
对采集到的原始图像进行灰度处理和高斯模糊平滑处理。
3.根据权利要求1所述的基于改进VGGNet的动作识别方法,其特征在于,所述对预处理后的图像进行分割,得到对应的人形区域图像,包括:
采用Canny边缘检测算法对预处理后的图像进行分割。
4.根据权利要求1所述的基于改进VGGNet的动作识别方法,其特征在于,所述改进的VGGNet模型不包括全连接层和输出层。
5.一种基于改进VGGNet的动作识别装置,其特征在于,包括:
预处理单元,适于对采集到的原始图像进行预处理;
图像分割单元,适于对预处理后的图像进行分割,得到对应的人形区域图像;
特征提取单元,适于将分割得到的人形区域图像输入改进的VGGNet模型中提取对应的动作特征数据;
动作识别单元,适于采用预设的随机森林模型对所提取的动作特征数据进行分类,得到所述原始图像中的人体动作信息。
6.根据权利要求5所述的基于改进VGGNet的动作识别装置,其特征在于,所述预处理单元,适于对采集到的原始图像进行灰度处理和高斯模糊平滑处理。
7.根据权利要求5所述的基于改进VGGNet的动作识别装置,其特征在于,所述图像分割单元,适于采用Canny边缘检测算法对预处理后的图像进行分割。
8.根据权利要求5所述的基于改进VGGNet的动作识别装置,其特征在于,所述改进的VGGNet模型不包括全连接层和输出层。
9.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至4任一项所述的基于改进VGGNet的动作识别方法的步骤。
10.一种终端,其特征在于,包括存储器和处理器,所述存储器上储存有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行权利要求1至4任一项所述的基于改进VGGNet的动作识别方法的步骤。
CN201910602687.9A 2019-07-05 2019-07-05 基于改进VGGNet的动作识别方法及装置、存储介质和终端 Withdrawn CN110472490A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910602687.9A CN110472490A (zh) 2019-07-05 2019-07-05 基于改进VGGNet的动作识别方法及装置、存储介质和终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910602687.9A CN110472490A (zh) 2019-07-05 2019-07-05 基于改进VGGNet的动作识别方法及装置、存储介质和终端

Publications (1)

Publication Number Publication Date
CN110472490A true CN110472490A (zh) 2019-11-19

Family

ID=68506846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910602687.9A Withdrawn CN110472490A (zh) 2019-07-05 2019-07-05 基于改进VGGNet的动作识别方法及装置、存储介质和终端

Country Status (1)

Country Link
CN (1) CN110472490A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695507A (zh) * 2020-06-12 2020-09-22 桂林电子科技大学 一种基于改进VGGNet网络和PCA的静态手势识别方法
CN114299602A (zh) * 2021-11-09 2022-04-08 北京九州安华信息安全技术有限公司 一种微幅度动作图像处理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695507A (zh) * 2020-06-12 2020-09-22 桂林电子科技大学 一种基于改进VGGNet网络和PCA的静态手势识别方法
CN111695507B (zh) * 2020-06-12 2022-08-16 桂林电子科技大学 一种基于改进VGGNet网络和PCA的静态手势识别方法
CN114299602A (zh) * 2021-11-09 2022-04-08 北京九州安华信息安全技术有限公司 一种微幅度动作图像处理方法

Similar Documents

Publication Publication Date Title
CN107358242B (zh) 目标区域颜色识别方法、装置及监控终端
EP3633611A1 (en) Method and device for detecting salient object in image
Protiere et al. Interactive image segmentation via adaptive weighted distances
CN108647694B (zh) 基于上下文感知和自适应响应的相关滤波目标跟踪方法
Harandi et al. An automated method for segmentation of epithelial cervical cells in images of ThinPrep
CN103745468B (zh) 一种基于图结构和边界先验的显著性物体检测方法
CN110009556A (zh) 图像背景虚化方法、装置、存储介质及电子设备
CN109635656A (zh) 基于神经网络的车辆属性识别方法、装置、设备及介质
CN103136766B (zh) 一种基于颜色对比和颜色分布的物体显著性检测方法
CN102750535B (zh) 自动提取图像前景的方法和系统
CN111260688A (zh) 一种孪生双路目标跟踪方法
CN111914698B (zh) 图像中人体的分割方法、分割系统、电子设备及存储介质
CN107862698A (zh) 基于k均值聚类的光场前景分割方法及装置
CN111145209A (zh) 一种医学图像分割方法、装置、设备及存储介质
Hua et al. Extended guided filtering for depth map upsampling
CN111062386A (zh) 基于深度金字塔注意力和特征融合的自然场景文本检测方法
CN110232318A (zh) 穴位识别方法、装置、电子设备及存储介质
CN103208115A (zh) 基于测地线距离的图像显著性区域检测方法
CN111681198A (zh) 一种形态学属性滤波多模融合成像方法、系统及介质
US20180357212A1 (en) Detecting occlusion of digital ink
Ofir et al. Fast detection of curved edges at low SNR
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
CN110503115A (zh) 一种颜色识别方法、装置、设备及计算机可读存储介质
CN110472490A (zh) 基于改进VGGNet的动作识别方法及装置、存储介质和终端
CN112164013A (zh) 人像换装方法、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20191119