CN109992171A

CN109992171A - 人体行为识别方法及装置

Info

Publication number: CN109992171A
Application number: CN201910242322.XA
Authority: CN
Inventors: 岳峻; 魏丽冉; 贾世祥; 李振波; 张志旺; 寇光杰; 姚涛
Original assignee: Ludong University
Current assignee: Ludong University
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2019-07-09

Abstract

本发明实施例提供一种人体行为识别方法及装置，其中方法包括：提供图形用户界面GUI，GUI用于展示控制面板和显示面板，控制面板中包括加载网络按钮、加载图像按钮以及识别按钮，显示面板用于显示待识别的图像和行为识别结果；若监测到触发加载网络按钮，则加载预先训练的GoogLeNet模型；若在加载GoogLeNet模型后，监测到触发加载图像按钮，则在接收到待识别的图像后，将图像显示在显示面板中；若图像显示在显示面板后，监测到触发识别按钮，则将待识别的图像输入至GoogLeNet模型，输出行为识别结果，将行为识别结果显示在显示面板中。本发明实施例构建GUI能够更直观地展示人体行为识别的过程，并且在应用时只需加载一次模型即可实现重复识别的目的。

Description

人体行为识别方法及装置

技术领域

本发明实施例涉及图像识别技术领域，更具体地，涉及一种人体行为识别方法及装置。

背景技术

近年来，人类行为识别逐渐成为一个非常活跃的研究课题。由于动作的复杂性，例如不同的身体磨损和习惯导致了对同一动作的不同观察，在外部环境下的相机运动，光照变化，阴影，视点，这些因素的影响使得动作识别仍然是一个具有挑战性的项目。行为分析中大部分研究都是基于视频的，而静态图像的研究相对较少。但近年来，有关静态图像的人体行为识别研究也慢慢得到了关注。

现有技术中存在一种“poselet激活向量”的方法，参见参考文献：《Actionrecognition from a distributed representation of pose and appearance》，该方法对人的姿势和外观实现分布式表示，对于遮挡、视角变化有较好的鲁棒性，但因为缺乏人与物体之间的姿态约束而不能很好地估计体态，进行识别。

现有技术中还存在一种方法，参见参考文献：《Pose primitive based humanaction recognition in videos or still images》该方法将人体动作的图像分为行为部分和背景部分各自进行训练，使其得到不同的行为原型表达，再根据测试图像与行为原型的接近程度判断行为类别。此方法简单，不需要考虑人体检测、物体检测等问题，但也因为无法区分不同行为之间的细微差距和人与场景、物体之间的交互关系而使识别准确率较低。

发明内容

本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的人体行为识别方法及装置。

第一个方面，本发明实施例提供一种人体行为识别方法，包括：

提供图形用户界面GUI，所述GUI用于展示控制面板和显示面板，所述控制面板中包括加载网络按钮、加载图像按钮以及识别按钮，所述显示面板用于显示待识别的图像和行为识别结果；

若监测到触发所述加载网络按钮，则加载预先训练的GoogLeNet模型；若在加载所述GoogLeNet模型后，监测到触发所述加载图像按钮，则在接收到待识别的图像后，将所述图像显示在所述显示面板中；

若所述图像显示在所述显示面板后，监测到触发所述识别按钮，则将所述待识别的图像输入至所述GoogLeNet模型，输出行为识别结果，将所述行为识别结果显示在所述显示面板中；

其中，所述GoogLeNet模型通过样本图像以及所述样本图像的行为标签训练而成。

第二个方面，本发明实施例提供一种人体行为识别装置，包括：

GUI模块，用于提供图形用户界面GUI，所述GUI用于展示控制面板和显示面板，所述控制面板中包括加载网络按钮、加载图像按钮以及识别按钮，所述显示面板用于显示待识别的图像和行为识别结果；

图像加载模块，用于若监测到触发所述加载网络按钮，则加载预先训练的GoogLeNet模型；若在加载所述GoogLeNet模型后，监测到触发所述加载图像按钮，则在接收到待识别的图像后，将所述图像显示在所述显示面板中；

输出模块，用于若所述图像显示在所述显示面板后，监测到触发所述识别按钮，则将所述待识别的图像输入至所述GoogLeNet模型，输出行为识别结果，将所述行为识别结果显示在所述显示面板中；

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的人体行为识别方法及装置，通过使用2014年ILSVRC挑战赛中取得冠军的GoogLeNet模型构建基于GoogLeNet人体行为识别模型，以实现对人体动作的分类目标。构建GUI能够更直观地展示人体行为识别的过程，并且在应用时只需加载一次模型即可实现重复识别的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的人体行为识别方法的流程示意图；

图2为本发明实施例提供的人体行为识别装置的结构示意图；

图3为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的人体行为识别方法的流程示意图，如图1所示，该方法包括S101、S102和S103，具体地，

S101、提供图形用户界面GUI，所述GUI用于展示控制面板和显示面板，所述控制面板中包括加载网络按钮、加载图像按钮以及识别按钮，所述显示面板用于显示待识别的图像和行为识别结果。

本发明实施例的人体行为识别方法的一个目的在于实现识别过程的可视化，因此，本发明实施例提供图形用户界面(Graphical User Interface，GUI)，用于展示人体行为识别过程的必要信息，在本发明实施例中，GUI用于展示控制面板和显示面板，控制面板包括加载网络按钮、加载图像按钮以及识别按钮，加载网络按钮被配置为触发后加载预先训练好的神经网络，本发明实施例的人体行为识别通过神经网络的方式实现。加载图像按钮被配置为触发后加载待识别的图像。识别按钮被配置为触发后利用已加载的神经网络识别图像。显示面板则用于显示待识别的图像和行为识别结果，当加载图像按钮被触发后，显示面板会显示待识别的图像供使用者观看，当识别按钮被触发后，显示面板会进一步显示出图像中的行为识别结果。

S102、若监测到触发所述加载网络按钮，则加载预先训练的GoogLeNet模型；若在加载所述GoogLeNet模型后，监测到触发所述加载图像按钮，则在接收到待识别的图像后，将所述图像显示在所述显示面板中。

需要说明的是，本发明实施例的神经网络模型为GoogLeNet模型。GoogLeNet是一种通过加深网络模型深度和宽度来构建的一种深度卷积神经网络。如果在加深网络时只是纯粹增大网络，就会出现过拟合和计算量增加的问题，为解决上述问题就要在增加网络深度和宽度的同时减少参数，因此卷积神经网络中的全连接就需要变成稀疏连接。因此GoogLeNet模型采用既能达到稀疏的减少参数的效果，又能利用硬件中密集矩阵优化的Inception网络架构。Inception模型的主要优势在于可以显著增加每个阶段的单元数量，而不会无限的提高计算复杂性。加入Inception模型的GoogLeNet神经网络可以实现图像处理的有效降维，增加网络模型的深度与宽度。

S103、若所述图像显示在所述显示面板后，监测到触发所述识别按钮，则将所述待识别的图像输入至所述GoogLeNet模型，输出行为识别结果，将所述行为识别结果显示在所述显示面板中；其中，所述GoogLeNet模型通过样本图像以及所述样本图像的行为标签训练而成。样本图像的特点在于预先已知了图像中人体的行为，并根据该行为生产了一个标签，即行为标签。

本发明实施例通过构建GUI能够更直观地展示人体行为识别的过程，并且在应用时只需加载一次模型即可实现重复识别的目的，并且采用神经网络的方法获得人体行为，相比现有技术能够提高信息处理的效率。

在上述各实施例的基础上，作为一种可选实施例，本发明实施例的GoogLeNet模型中的Softmax分类层的维度为1*1*n，n表示行为识别结果的种类；所述Softmax分类层之后还连接分类输出层，所述分类输出层用于输入大小为1*1*n的特征图，输出行为识别结果。

需要说明的是，由于人体行为的分类类别为互斥多分类，本专利中采用逻辑回归分类的扩展——Softmax回归分类方法，以更好的解决多分类问题。在该模型的分类中，本发明实施例中采用逻辑分类中的Softmax分类来实现动作的多分类问题。例如，若采用的样本数据库中共有24类动作，则n为24。在Softmax分类层后增加可视化的分类输出层，可以使人们更直观的看到最后的结果。

在上述各实施例的基础上，作为一种可选实施例，GoogLeNet模型还包括：

第一卷积层，用于输入为224*224像素的待识别的图像，输出大小为112*112*64的第一特征图；

第一池化层，用于输入所述第一特征图，输出大小为56*56*64的第二特征图；

第二卷积层，用于输入所述第二特征图，输出大小为56*56*192的第三特征图；

第二池化层，用于输入所述第三特征图，输出大小为28*28*192的第四特征图；

第一inception模块，用于输入所述第四特征图，输出大小为28*28*480的第五特征图；

第三池化层，用于输入所述第五特征图，输出大小为14*14*480的第六特征图；

第二inception模块，用于输入所述第六特征图，输出大小为14*14*832的第七特征图；

第四池化层，用于输入所述第七特征图，输出大小为7*7*832的第八特征图；

第三inception模块，用于输入所述第八特征图，输出大小为7*7*1024的第九特征图；

第五池化层，用于输入所述第九特征图，输出大小为1*1*1024的第十特征图；

全连接层，用于输入所述第十特征图，输出大小为1*1*1000的第十一特征图；

所述全连接层的输出端与所述Softmax分类层的输入端连接。

在上述各实施例的基础上，作为一种可选实施例，本发明实施例根据迁移学习的方法对所述GoogLeNet模型进行训练。

迁移学习主要指的是利用之前已经在其他任务上学习到的知识用在一个新的任务上。迁移学习的思想主要受到了人的学习能力的启发，人们在学习新的知识的时候往往会利用之前学到的知识，因此也可以将这种特性用在机器学习算法的训练学习中。一方面是它可以利用之前学到的知识用在新的任务上，这样就可以减少新任务学习所需要的样本数量。另一方面，因为具有了一些预备知识，新任务训练所需要的时间和需要调整的参数会比重新训练一个新的模型要少很多。因此在此问题上采用迁移学习的方法来对所研究的数据集进行训练及测试。对于本发明实施例来说，其他任务即imagenet大规模数据集的分类，新的任务是斯坦福大学创建的乐器演奏数据集(PPMI)的分类。

本发明实施例将样本数据集的80％用于模型的训练，20％用于验证。

图2为本发明实施例提供的人体行为识别装置的结构示意图，如图2所示，该人体行为识别装置包括：GUI模块201、加载模块202、输出模块203，其中：

GUI模块201，用于提供图形用户界面GUI，所述GUI用于展示控制面板和显示面板，所述控制面板中包括加载网络按钮、加载图像按钮以及识别按钮，所述显示面板用于显示待识别的图像和行为识别结果。

本发明实施例的人体行为识别方法的一个目的在于实现识别过程的可视化，因此，本发明实施例提供图形用户界面(Graphical UserInterface，GUI)，用于展示人体行为识别过程的必要信息，在本发明实施例中，GUI用于展示控制面板和显示面板，控制面板包括加载网络按钮、加载图像按钮以及识别按钮，加载网络按钮被配置为触发后加载预先训练好的神经网络，本发明实施例的人体行为识别通过神经网络的方式实现。加载图像按钮被配置为触发后加载待识别的图像。识别按钮被配置为触发后利用已加载的神经网络识别图像。显示面板则用于显示待识别的图像和行为识别结果，当加载图像按钮被触发后，显示面板会显示待识别的图像供使用者观看，当识别按钮被触发后，显示面板会进一步显示出图像中的行为识别结果。

图像加载模块202，用于若监测到触发所述加载网络按钮，则加载预先训练的GoogLeNet模型；若在加载所述GoogLeNet模型后，监测到触发所述加载图像按钮，则在接收到待识别的图像后，将所述图像显示在所述显示面板中。

输出模块203，用于若所述图像显示在所述显示面板后，监测到触发所述识别按钮，则将所述待识别的图像输入至所述GoogLeNet模型，输出行为识别结果，将所述行为识别结果显示在所述显示面板中；其中，所述GoogLeNet模型通过样本图像以及所述样本图像的行为标签训练而成。

本发明实施例提供的人体行为识别装置，具体执行上述各人体行为识别方法实施例流程，具体请详见上述各人体行为识别方法实施例的内容，在此不再赘述。本发明实施例提供的人体行为识别装置，通过使用2014年ILSVRC挑战赛中取得冠军的GoogLeNet模型构建人体行为识别模型，以实现对人体动作的分类目标，采用逻辑分类中的Softmax分类来实现动作的多分类问题，使得网络在预训练之后能够对行为个体具有一定的姿势表达能力，以达到提高人体行为识别的准确率的效果。

图3为本发明实施例提供的电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储在存储器330上并可在处理器310上运行的计算机程序，以执行上述各实施例提供的人体行为识别方法，例如包括：提供图形用户界面GUI，所述GUI用于展示控制面板和显示面板，所述控制面板中包括加载网络按钮、加载图像按钮以及识别按钮，所述显示面板用于显示待识别的图像和行为识别结果；若监测到触发所述加载网络按钮，则加载预先训练的GoogLeNet模型；若在加载所述GoogLeNet模型后，监测到触发所述加载图像按钮，则在接收到待识别的图像后，将所述图像显示在所述显示面板中；若所述图像显示在所述显示面板后，监测到触发所述识别按钮，则将所述待识别的图像输入至所述GoogLeNet模型，输出行为识别结果，将所述行为识别结果显示在所述显示面板中；其中，所述GoogLeNet模型通过样本图像以及所述样本图像的行为标签训练而成。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的人体行为识别方法，例如包括：提供图形用户界面GUI，所述GUI用于展示控制面板和显示面板，所述控制面板中包括加载网络按钮、加载图像按钮以及识别按钮，所述显示面板用于显示待识别的图像和行为识别结果；若监测到触发所述加载网络按钮，则加载预先训练的GoogLeNet模型；若在加载所述GoogLeNet模型后，监测到触发所述加载图像按钮，则在接收到待识别的图像后，将所述图像显示在所述显示面板中；若所述图像显示在所述显示面板后，监测到触发所述识别按钮，则将所述待识别的图像输入至所述GoogLeNet模型，输出行为识别结果，将所述行为识别结果显示在所述显示面板中；其中，所述GoogLeNet模型通过样本图像以及所述样本图像的行为标签训练而成。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种人体行为识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述GoogLeNet模型中的Softmax分类层的维度为1*1*n，n表示行为识别结果的种类；

所述Softmax分类层之后还连接分类输出层，所述分类输出层用于输入大小为1*1*n的特征图，输出行为识别结果。

3.根据权利要求2所述的方法，其特征在于，所述GoogLeNet模型还包括：

所述全连接层的输出端与所述Softmax分类层的输入端连接。

4.根据权利要求2所述的方法，其特征在于，根据迁移学习的方法对所述GoogLeNet模型进行训练。

5.一种人体行为识别装置，其特征在于，包括：

6.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至4中任意一项所述的人体行为识别方法。

7.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至4中任意一项所述的人体行为识别方法。