CN110610154A

CN110610154A - 行为识别方法、装置、计算机设备和存储介质

Info

Publication number: CN110610154A
Application number: CN201910854292.8A
Authority: CN
Inventors: 韦阳光; 张文硕
Original assignee: Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Priority date: 2019-09-10
Filing date: 2019-09-10
Publication date: 2019-12-24

Abstract

本发明涉及一种行为识别方法、装置、计算机设备和存储介质。该方法通过获取人体行为的视频图像，并对对该视频图像进行图像处理，得到视频图像的高层语义特征图和视频图像中人体关节点的热力图，再进一步的根据高层语义特征图和人体关节点的热力图，确定视频图像的注意力增强特征图。然后将注意力增强特征图输入至行为识别网络，得到人体行为的识别结果。在上述行为识别方法中，由于加入了骨架检测网络检测视频图像中的人体关节点，然后利用人体关节点来加强高层语义特征图中的表示人体行为的特征，使本申请提出的行为识别方法，相比于传统的行为识别方法，尤其针对于背景环境较复杂的视频图像的识别，其识别准确性较高。

Description

行为识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种行为识别方法、装置、计算机设备和存储介质。

背景技术

随着计算机视觉技术的发展，行为识别技术成为了计算机视觉研究的一个重要分支，行为识别技术用于检测人体行为、运动状态等，其在人机交互、教育、虚拟增强现实、娱乐、动画等领域都有着广泛的应用前景。

目前行为识别方法主要是基于深度学习算法实现人体行为识别，例如，卷积神经网络(Convolution neural network,CNN)、独立子空间分析(Independent subspaceanalysis,ISA)、限制玻尔兹曼机(Restricted Boltzmann machine,RBM)以及递归神经网络(Recurrent neural network，RNN)等算法。

但是，上述算法在面对某些动作幅度大、场景复杂的视频图像时，存在识别准确性低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够有效识别准确性的行为识别方法、装置、计算机设备和存储介质。

第一方面，一种行为识别方法，所述方法包括：

获取人体行为的视频图像；

对视频图像进行图像处理，得到视频图像的高层语义特征图和视频图像中人体关节点的热力图；人体关节点的热力图反映视频图像中各人体的姿态位置；

根据高层语义特征图和人体关节点的热力图，确定视频图像的注意力增强特征图；注意力增强特征图表示高层语义特征图中人体关节点对应的特征值被增强后的特征图；

将注意力增强特征图输入至行为识别网络，得到人体行为的识别结果。

在其中一个实施例中，对视频图像进行图像处理，得到视频图像的高层语义特征图，包括：

将视频图像输入至卷积神经网络进行特征提取，得到视频图像的高层语义特征图。

在其中一个实施例中，将视频图像输入至卷积神经网络进行特征提取，得到视频图像的高层语义特征图，包括：

从视频图像中提取出连续帧的视频图像；

将连续帧的视频图像输入至卷积神经网络进行特征提取，得到视频图像的高层语义特征图。

在其中一个实施例中，对视频图像进行图像处理，得到人体关节点的热力图，包括：

将视频图像输入至骨架检测网络进行关节点检测，得到人体关节点的热力图。

在其中一个实施例中，将视频图像输入至骨架检测网络进行关节点检测，得到人体行为关节点的热力图，包括：

从视频图像中提取出中间关键帧图像；

将中间关键帧图像输入至骨架检测网络，得到人体关节点的热力图。

在其中一个实施例中，根据高层语义特征图和人体关节点的热力图，确定视频图像的注意力增强特征图，包括：

将视频高层语义特征图和人体关节点的热力图进行乘法运算，得到注意力增强特征图。

在其中一个实施例中，根据高层语义特征图和人体关节点的热力图，确定视频图像的注意力增强特征图之前，还包括：

对高层语义特征图进行预设倍数的下采样，得到与人体关节点的热力图尺寸相同的高层语义特征图。

第二方面，一种行为识别的识别网络，所述识别网络包括：第一提取模块、3D卷积神经网络、第二提取模块、骨架检测网络、乘法器、行为识别网络；

第一提取模块用于从输入的视频图像中提取出连续帧图像；

3D卷积神经网络用于对连续帧图像进行语义特征提取，得到连续帧图像的高层语义特征图；

第二提取模块用于从输入的视频图像中提取出中间关键帧图像；

骨架检测网络用于对中间关键帧图像进行人体关节点的检测，得到中间关键帧图像对应的人体关节点的热力图；

乘法器用于将高层语义特征图和人体关节点的热力图相乘，得到注意力增强特征图；

行为识别网络用于对注意力增强特征图进行行为识别，得到行为识别结果。

第三方面，一种行为识别装置，所述装置包括：

获取模块，用于获取人体行为的视频图像；

处理模块，用于对视频图像进行图像处理，得到视频图像的高层语义特征图和视频图像中人体关节点的热力图；人体关节点的热力图反映视频图像中各人体的姿态位置；

确定模块，用于根据高层语义特征图和人体关节点的热力图，确定视频图像的注意力增强特征图；注意力增强特征图表示高层语义特征图中人体关节点对应的特征值被增强后的特征图；

识别模块，用于将注意力增强特征图输入至行为识别网络，得到人体行为的识别结果。

第四方面，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现第一方面任一实施例所述的行为识别方法。

第五方面，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面任一实施例所述的行为识别方法。

本申请提供的一种行为识别方法、装置、计算机设备和存储介质，通过获取人体行为的视频图像，并对对该视频图像进行图像处理，得到视频图像的高层语义特征图和视频图像中人体关节点的热力图，再进一步的根据高层语义特征图和人体关节点的热力图，确定视频图像的注意力增强特征图。然后将注意力增强特征图输入至行为识别网络，得到人体行为的识别结果。在上述行为识别方法中，由于人体关节点的热力图能够直接反映人体姿态位置，因此，使用人体关节点的热力图加强高层语义特征图中表示人体行为的特征，可以使高层语义特征图中因为环境复杂等因素造成的不明显的某些人体行为的特征得到加强，从而使行为识别网络在之后对加强后的特征进行识别时，极大的提高了对那些不明显人体行为特征的识别准确性，因此，采用本申请提出的行为识别方法，相比于传统的行为识别方法，尤其针对于背景环境较复杂的视频图像的识别，其识别准确性较高。

附图说明

图1为一个实施例提供的一种计算机设备的内部结构示意图；

图2为一个实施例提供的一种行为识别方法的流程图；

图3为一个实施例提供的一种行为识别方法的流程图；

图4为一个实施例提供的一种行为识别方法的流程图；

图5为一个实施例提供的一种识别网络的结构示意图；

图6为一个实施例提供的一种行为识别装置的结构示意图；

图7为一个实施例提供的一种行为识别装置的结构示意图；

图8为一个实施例提供的一种行为识别装置的结构示意图；

图9为一个实施例提供的一种行为识别装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本申请提供的行为识别方法，可以应用于如图1所示的计算机设备中。该计算机设备可以是终端，其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种行为识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

下面将通过实施例并结合附图具体地对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图2为一个实施例提供的一种行为识别方法的流程图，该方法的执行主体可以为图1中的计算机设备，该方法涉及的是计算机设备对输入的视频图像中的人体行为进行行为识别的具体过程。如图2所示，该方法具体包括以下步骤：

S101、获取人体行为的视频图像。

其中，人体行为可以指人的具体动作，例如，跑步、游泳。视频图像可以具体为RGB图像，可以为连续帧的视频图像。视频图像中可以包括一个人，也可以包含多个人。本实施例中，计算机设备可以通过各种类型的摄像头或拍摄设备拍摄得到包含人体行为的视频图像。可选的，计算机设备也可以直接在网上下载得到包含人体行为的视频图像，对此本实施例不做限制，只要计算机设备可以获取到包含人体行为的视频图像即可。

S102、对视频图像进行图像处理，得到视频图像的高层语义特征图和视频图像中人体关节点的热力图；人体关节点的热力图反映视频图像中各人体的姿态位置。

其中，高层语义特征图为视频图像经过语义特征提取后的特征图。人体关节点表示人体身上的骨骼节点，例如，头、手、脚等。本实施例中，当计算机设备基于S101获取到包含人体行为的视频图像时，可以采用相应的图像处理方法对视频图像进行图像处理，得到对应的高层语义特征图和人体关节点的热力图。需要说明的是，上述在得到高层语义特征图的过程中，可以具体采用语义特征提取的图像处理方法对视频图像进行图像处理，得到视频图像的高层语义特征图，其中语义特征提取的方法可以通过相应的特征提取网络和相应的特征提取算法实现，例如，深度卷积神经网络等；上述在得到人体关节点的热力图的过程中，可以具体采用人体关节点检测的图像处理方法对视频图像进行图像处理，得到视频图像的人体关节点的热力图，其中人体关节点检测的方法可以通过相应的检测网络和相应的人体姿态估计算法实现，例如，神经网络和分类器等。特别说明的是，计算机设备得到的人体关节点的热力图可以为一个人体关节点的热力图，也可以是多个人体关节点的热力图。

S103、根据高层语义特征图和人体关节点的热力图，确定视频图像的注意力增强特征图；注意力增强特征图表示高层语义特征图中人体关节点对应的特征值被增强后的特征图。

当计算机设备基于前述S102的步骤得到视频图像的高层语义特征图和人体关节点的热力图时，可以进一步的对高层语义特征图和人体关节点的热力图进行图像处理，例如，调整高层语义特征图和人体关节点的热力图的尺寸、去除背景噪声等图像处理，然后将处理后的高层语义特征图和人体关节点的热力图进行运算，得到视频图像的注意力增强特征图。需要说明的是，上述运算可以是乘法运算，也可以先进行加权再进行乘法运算。可选的，也可以是卷积运算。

S104、将注意力增强特征图输入至行为识别网络，得到人体行为的识别结果。

其中，行为识别网络用于对输入的图像中的人体行为进行识别，其具体可以采用分类器、识别器等。本实施例中，当计算机设备基于上述S103的步骤获取到注意力增强特征图时，可以进一步的将注意力增强特征图输入至预先训练好的行为识别网络进行行为识别，得到视频图像中人体行为的识别结果。

本实施例提供的一种行为识别方法，通过获取人体行为的视频图像，并对该视频图像进行图像处理，得到视频图像的高层语义特征图和视频图像中人体关节点的热力图，再进一步的根据高层语义特征图和人体关节点的热力图，确定视频图像的注意力增强特征图。然后将注意力增强特征图输入至行为识别网络，得到人体行为的识别结果。在上述行为识别方法中，由于人体关节点的热力图能够直接反映人体姿势位置，因此，使用人体关节点的热力图加强高层语义特征图中表示人体行为的特征，可以使高层语义特征图中那些因为环境复杂等因素造成的不明显的某些人体行为的特征得到加强，从而使行为识别网络在之后对加强后的特征进行识别时，极大的提高了对那些不明显人体行为特征的识别准确性。因此，采用本申请提出的行为识别方法，相比于传统的行为识别方法，尤其针对于背景环境较复杂的视频图像的识别，其识别准确性较高。

在实际应用中，上述图像处理的过程可以包括语义特征提取的图像处理过程，也可以包括人体关节点的图像检测的过程，下述实施例将具体针对不同的图像处理过程对上述S102的步骤进行说明。

在一个实施例中，当上述图像处理的过程包括语义特征提取的图像处理过程时，上述S102中的“对视频图像进行图像处理，得到视频图像的高层语义特征图”，具体包括：将视频图像输入至卷积神经网络进行特征提取，得到视频图像的高层语义特征图。

本实施涉及计算机设备对视频图像进行语义特征提取的图像处理过程，在该过程中，计算机设备在获取到视频图像后，可以将该视频图像直接输入至预先训练好的用于特征提取的卷积神经网络中，得到该视频图像的高层语义特征图。可选的，计算机设备在获取到视频图像后，也可以从该视频图像中提取出部分帧的视频图像，然后再将提取出的部分帧的视频图像输入至预先训练好的用于特征提取的卷积神经网络中，得到该视频图像的高层语义特征图。

可选的，上述“将视频图像输入至卷积神经网络进行特征提取，得到视频高层语义特征图”的步骤，如图3所示，可以具体包括如下步骤：

S201、从视频图像中提取出连续帧的视频图像。

本实施例中，当计算机设备在获取到需要识别的视频图像后，可以从该视频图像中提取出预设帧数的连续帧的视频图像，具体的预设帧数可以根据实际应用需求确定，对此本实施例不做限制。具体的提取帧图像的位置(视频图像的前段、中间、后段)也可以根据实际应用需求确定，对此本实施例不做限制，只要提取的是连续帧的视频图像即可。

S202、将连续帧的视频图像输入至卷积神经网络进行特征提取，得到视频图像的高层语义特征图。

当计算机设备基于S201的步骤得到连续帧的视频图像后，可以进一步的将该提取出的连续帧的视频图像输入至预先训练好的卷积神经网络进行特征提取，得到视频图像的高层语义特征图。上述的卷积神经网络可以具体采用3D卷积神经网络，当采用3D卷积神经网络提取特征时，3D卷积神经网络可以同时对输入的视频图像的时间和空间维度进行卷积，能够有效提取空间语义信息和时序的运行信息，从而得到视频图像的高层语义特征图。

在一个实施例中，当上述图像处理的过程包括人体关节点的图像检测过程时，上述S102中的“对视频图像进行图像处理，得到人体关节点的热力图”，具体包括：将视频图像输入至骨架检测网络进行关节点检测，得到人体关节点的热力图。

本实施涉及计算机设备对视频图像进行人体关节点的检测过程，在该过程中，计算机设备在获取到视频图像后，可以将该视频图像直接输入至预先训练好的用于检测关节点的骨架检测网络，得到人体关节点的热力图。可选的，计算机设备在获取到视频图像后，也可以从该视频图像中提取出部分帧的视频图像，然后再将提取出的部分帧的视频图像输入至预先训练好的用于检测关节点的骨架检测网络，得到人体关节点的热力图。

可选的，上述“将视频图像输入至骨架检测网络进行关节点检测，得到人体关节点的热力图”的步骤，如图4所示，可以具体包括如下步骤：

S301、从视频图像中提取出中间关键帧图像。

其中，中间关键帧图像是指位于视频图像的中间段位置的若干帧图像，中间关键帧图像更稳定，更能够反映出视频图像中完整的骨架信息，利于提高之后基于该中间关键帧图像对人体关节点进行检测时的检测精度。

本实施例中，当计算机设备在获取到需要识别的视频图像后，可以从该视频图像的中间段位置提取出预设帧数的中间关键帧图像，具体的预设帧数可以根据实际应用需求确定，对此本实施例不做限制。

S302、将中间关键帧图像输入至骨架检测网络，得到人体关节点的热力图。

当计算机设备基于S301的步骤得到中间关键帧图像后，可以进一步的将该提取出的中间关键帧图像输入至预先训练好的骨架检测网络进行关节点检测，得到视频图像的人体关节点的热力图。需要说明的是，计算机设备通过骨架检测网络可以得到包括多个人的人体关节点的热力图，也可以得到多个包括单个人的人体关节点的热力图。当计算机设备得到人体关节点的热力图后，即可得到视频图像中每个人的关节点的位置坐标，通过该位置坐标即可反映出视频图像中每个人的姿势位置，对于复杂环境表现更加鲁棒，有利于运动信息的提取。

在一个实施例中，上述S103中的“根据高层语义特征图和人体关节点的热力图，确定视频图像的注意力增强特征图”，具体包括：将视频高层语义特征图和人体关节点的热力图进行乘法运算，得到注意力增强特征图。

本实施例涉及的是计算机设备对高层语义特征图和人体关节点的热力图的运算过程，具体的，计算机设备在得到高层语义特征图和人体关节点的热力图后，可以将高层语义特征图和人体关节点的热力图进行乘法运算，例如，若人体关节点的热力图为RGB热力图时，具体在相乘时，将高层语义特征图中对应坐标位置上的特征值与热力图中对应坐标位置上的灰度值进行相乘，相乘后的图像即为上述视频图像的注意力增强特征图。上述方法利用人体关节点的热力图增强了高层语义特征图中人体关节点对应的特征，相当于增强了高层语义特征图中的人体运动信息，特别是那些由于背景复杂等因素造成的不明显的人体运动信息，使得注意力增强特征图中表示人体行为的特征更加明显，从而使基于注意力增强特征图的人体行为识别更加准确。

在实际应用中，在上述S103“根据高层语义特征图和人体关节点的热力图，确定视频图像的注意力增强特征图”之前，图2实施例的方法还包括：对高层语义特征图进行预设倍数的下采样，得到与人体关节点的热力图尺寸相同的高层语义特征图。

本实施例涉及对高层语义特征图进行预处理的过程，即将高层语义特征图进行预设倍数的下采样，使高层语义特征图与人体关节点的热力图尺寸相同，以便之后对高层语义特征图和人体关节点的热力图进行乘法运算。其中预设倍数可以根据实际应用需求确定，例如，本实施例即可采用16倍数的下采样处理方法对高层语义特征图进行处理，对此本实施例不做限制。

综上，本申请还提供了一种用于行为识别的识别网络的结构，如图5所示，该识别网络包括：第一提取模块、3D卷积神经网络、第二提取模块、骨架检测网络、行为识别网络。第一提取模块用于从输入的视频图像中提取出连续帧图像，3D卷积神经网络用于对输入的连续帧图像进行语义特征提取，得到该连续帧图像的高层语义特征图。第二提取模块用于从输入的视频图像中提取出中间关键帧图像，骨架检测网络用于对输入的中间关键帧图像进行人体关节点的检测，得到中间关键帧图像中包含的人体关节点的热力图。然后，将高层语义特征图和人体关节点的热力图输入到乘法器的输入端，进行乘法运算，得到注意力增强特征图。行为识别网络用于对输入的注意力增强特征图进行行为识别，得到行为识别结果。图5所示的识别网络可以应用于前述任一实施例所述的行为识别方法，具体内容请参见前述说明，在此不重复累赘说明。

在上述识别网络中，由于加入了骨架检测网络检测视频图像中的人体关节点，然后利用人体关节点来加强高层语义特征图中的表示人体行为的特征，这种行为识别网络，相比于现有的直接对视频图像的特征图进行行为识别的网络，极大的提高了行为识别的准确性。

应该理解的是，虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行。

在一个实施例中，如图6所示，提供了一种行为识别装置，包括：获取模块11、处理模块12、确定模块13和识别模块14，其中：

获取模块11，用于获取人体行为的视频图像；

处理模块12，用于对视频图像进行图像处理，得到视频图像的高层语义特征图和视频图像中人体关节点的热力图；人体关节点的热力图反映视频图像中各人体的姿态位置；

确定模块13，用于根据高层语义特征图和人体关节点的热力图，确定视频图像的注意力增强特征图；注意力增强特征图表示高层语义特征图中人体关节点对应的特征值被增强后的特征图；

识别模块14，用于将注意力增强特征图输入至行为识别网络，得到人体行为的识别结果。

在一个实施例中，上述处理模块12具体用于将视频图像输入至卷积神经网络进行特征提取，得到视频高层语义特征图。

在一个实施例中，如图7所示，提供了一种行为识别装置，上述处理模块12，包括：

连续帧提取单元121，用于从视频图像中提取出连续帧的视频图像；

特征提取单元122，用于将连续帧的视频图像输入至卷积神经网络进行特征提取，得到视频高层语义特征图。

在一个实施例中，上述处理模块12具体用于将视频图像输入至骨架检测网络进行关节点检测，得到人体关节点的热力图。

在一个实施例中，如图8所示，提供了一种行为识别装置，上述处理模块12，还包括：

关键帧提取单元123，用于从视频图像中提取出中间关键帧图像；

检测单元124，用于将中间关键帧图像输入至骨架检测网络，得到人体关节点的热力图。

在一个实施例中，上述确定模块13具体用于将视频高层语义特征图和人体关节点的热力图进行乘法运算，得到注意力增强特征图。

在一个实施例中，在上述确定模块13之前，所述行为识别装置，还包括：

采样模块15，用于对视频高层语义特征图进行预设倍数的下采样，得到与人体关节点的热力图尺寸相同的视频高层语义特征图。

关于行为识别装置的具体限定可以参见上文中对于一种行为识别方法的限定，在此不再赘述。上述行为识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取人体行为的视频图像；

上述实施例提供的一种计算机设备，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时还实现以下步骤：

获取人体行为的视频图像；

上述实施例提供的一种计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种行为识别方法，其特征在于，所述方法包括：

获取人体行为的视频图像；

对所述视频图像进行图像处理，得到所述视频图像的高层语义特征图和所述视频图像中人体关节点的热力图；所述人体关节点的热力图反映所述视频图像中各人体的姿态位置；

根据所述高层语义特征图和所述人体关节点的热力图，确定所述视频图像的注意力增强特征图；所述注意力增强特征图表示所述高层语义特征图中人体关节点对应的特征值被增强后的特征图；

将所述注意力增强特征图输入至行为识别网络，得到所述人体行为的识别结果。

2.根据权利要求1所述的方法，其特征在于，所述对所述视频图像进行图像处理，得到所述视频图像的高层语义特征图，包括：

将所述视频图像输入至卷积神经网络进行特征提取，得到所述视频图像的高层语义特征图。

3.根据权利要求2所述的方法，其特征在于，所述将所述视频图像输入至卷积神经网络进行特征提取，得到所述视频图像的高层语义特征图，包括：

从所述视频图像中提取出连续帧的视频图像；

将所述连续帧的视频图像输入至所述卷积神经网络进行特征提取，得到所述视频图像的高层语义特征图。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述对所述视频图像进行图像处理，得到所述人体关节点的热力图，包括：

将所述视频图像输入至骨架检测网络进行关节点检测，得到所述人体关节点的热力图。

5.根据权利要求4所述的方法，其特征在于，所述将所述视频图像输入至骨架检测网络进行关节点检测，得到所述人体行为关节点的热力图，包括：

从所述视频图像中提取出中间关键帧图像；

将所述中间关键帧图像输入至所述骨架检测网络，得到所述人体关节点的热力图。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述根据所述高层语义特征图和所述人体关节点的热力图，确定所述视频图像的注意力增强特征图，包括：

将所述视频高层语义特征图和所述人体关节点的热力图进行乘法运算，得到所述注意力增强特征图。

7.根据权利要求6所述的方法，其特征在于，所述根据所述高层语义特征图和所述人体关节点的热力图，确定所述视频图像的注意力增强特征图之前，还包括：

对所述高层语义特征图进行预设倍数的下采样，得到与所述人体关节点的热力图尺寸相同的高层语义特征图。

8.一种行为识别的识别网络，其特征在于，所述识别网络应用如上权利要求1-7任一项所述的行为识别方法，所述识别网络包括：第一提取模块、3D卷积神经网络、第二提取模块、骨架检测网络、乘法器、行为识别网络；

所述第一提取模块用于从输入的视频图像中提取出连续帧图像；

所述3D卷积神经网络用于对所述连续帧图像进行语义特征提取，得到所述连续帧图像的高层语义特征图；

所述第二提取模块用于从输入的所述视频图像中提取出中间关键帧图像；

所述骨架检测网络用于对所述中间关键帧图像进行人体关节点的检测，得到所述中间关键帧图像对应的人体关节点的热力图；

所述乘法器用于将所述高层语义特征图和所述人体关节点的热力图相乘，得到注意力增强特征图；

所述行为识别网络用于对所述注意力增强特征图进行行为识别，得到行为识别结果。

9.一种行为识别装置，其特征在于，所述装置包括：

获取模块，用于获取人体行为的视频图像；

处理模块，用于对所述视频图像进行图像处理，得到所述视频图像的高层语义特征图和所述视频图像中人体关节点的热力图；所述人体关节点的热力图反映所述视频图像中各人体的姿态位置；

确定模块，用于根据所述高层语义特征图和所述人体关节点的热力图，确定所述视频图像的注意力增强特征图；所述注意力增强特征图表示所述高层语义特征图中人体关节点对应的特征值被增强后的特征图；

识别模块，用于将所述注意力增强特征图输入至行为识别网络，得到所述人体行为的识别结果。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。