CN110348335B

CN110348335B - 行为识别的方法、装置、终端设备及存储介质

Info

Publication number: CN110348335B
Application number: CN201910554527.1A
Authority: CN
Inventors: 马潜; 陈欣
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2022-07-12
Anticipated expiration: 2039-06-25
Also published as: WO2020259213A1; CN110348335A

Abstract

本发明实施例适用于行为识别技术领域，提供了一种行为识别的方法、装置、终端设备及存储介质，所述方法包括：采集待检测的图像信息；确定人物影像在图像信息中的位置区域，以及，确定物体对象的种类；提取人物特征信息，将人物特征信息输入预置的堆叠沙漏网络结构模型，获得人物影像中包含的多个肢体关键点；根据预设的肢体关键点与物体对象的种类之间的匹配关系，识别多个肢体关键点中的目标关键点；针对任一目标关键点，计算目标关键点与各个物体对象之间的行为概率值；依据行为概率值，确定图像信息中的人物行为。本实施例将姿态检测和对象检测结合，共同应用于对人物行为的识别，提高了人物行为识别的准确率。

Description

行为识别的方法、装置、终端设备及存储介质

技术领域

本发明属于行为识别技术领域，特别是涉及一种行为识别的方法、一种行为识别的装置、一种终端设备及一种计算机可读存储介质。

背景技术

行为识别是一种通过对图像信息进行分析，从而识别出该图像中的人物具体行为的技术。行为识别技术在智能监控、人机交互、视频序列理解、医疗健康等众多领域扮演着越来越重要的角色。

现有技术中的行为识别主要是通过姿态识别来实现的，即，通过获取图像中人物的肢体关键点，如腕，膝，臀，关节等等，根据各个肢体关键点的位置来确定人物的具体行为。但是，位于某个位置的肢体关键点可能呈现多种行为，依靠肢体关键点的位置来进行的行为识别误差较大，识别结果的准确率也较低。

发明内容

有鉴于此，本发明实施例提供了一种行为识别的方法、装置、终端设备及存储介质，以解决现有技术中行为识别准确率较低的问题。

本发明实施例的第一方面提供了一种行为识别的方法，包括：

采集待检测的图像信息，所述图像信息中包括至少一个人物影像和至少一个物体对象；

确定所述人物影像在所述图像信息中的位置区域，以及，确定所述物体对象的种类；

提取在所述人物影像的位置区域中的人物特征信息，将所述人物特征信息输入预置的堆叠沙漏网络结构模型，获得所述人物影像中包含的多个肢体关键点；

根据预设的肢体关键点与物体对象的种类之间的匹配关系，识别所述多个肢体关键点中的目标关键点；

针对任一目标关键点，计算所述目标关键点与各个物体对象之间的行为概率值；

依据所述行为概率值，确定所述图像信息中的人物行为。

本发明实施例的第二方面提供了一种行为识别的装置，包括：

图像信息采集模块，用于采集待检测的图像信息，所述图像信息中包括至少一个人物影像和至少一个物体对象；

图像信息确定模块，用于确定所述人物影像在所述图像信息中的位置区域，以及，确定所述物体对象的种类；

肢体关键点识别模块，用于提取在所述人物影像的位置区域中的人物特征信息，将所述人物特征信息输入预置的堆叠沙漏网络结构模型，获得所述人物影像中包含的多个肢体关键点；

目标关键点识别模块，用于根据预设的肢体关键点与物体对象的种类之间的匹配关系，识别所述多个肢体关键点中的目标关键点；

行为概率值计算模块，用于针对任一目标关键点，计算所述目标关键点与各个物体对象之间的行为概率值；

人物行为确定模块，用于依据所述行为概率值，确定所述图像信息中的人物行为。

本发明实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述行为识别的方法的步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述行为识别的方法的步骤。

与现有技术相比，本发明实施例包括以下优点：

本发明实施例，通过采集待检测的图像信息，并确定图像信息中人物影像的位置区域以及物体对象的种类，从而可以在提取人物影像的位置区域中的人物特征信息后，通过将上述人物特征信息输入预置的堆叠沙漏网络结构模型，获得人物影像中包含的多个肢体关键点。然后，根据预设的肢体关键点与物体对象的种类之间的匹配关系，可以识别多个肢体关键点中的目标关键点，并针对任一目标关键点，计算目标关键点与各个物体对象之间的行为概率值，从而能够依据上述行为概率值，确定图像信息中的人物行为。本实施例采用姿态检测的方式，通过识别肢体关键点周围的特征，综合确定人物与物体之间的关系，然后采用对象检测识别该物体是什么，将姿态检测的结果和对象检测的结果结合在一起，共同应用于对人物行为的识别，提高了人物行为识别的准确率，区别于现有技术中的“检测有什么”，本实施例可以检测到“发生了什么”。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的一种行为识别的方法的步骤流程示意图；

图2是本发明一个实施例的一种行为识别结果的示意图；

图3是本发明一个实施例的一种行为识别的装置的示意图；

图4是本发明一个实施例的一种终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域技术人员应当清楚，在没有这些具体细节的其他实施例中也可以实现本发明。在其他情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

下面通过具体实施例来说明本发明的技术方案。

参照图1，示出了本发明一个实施例的一种行为识别的方法的步骤流程示意图，具体可以包括如下步骤：

S101、采集待检测的图像信息，所述图像信息中包括至少一个人物影像和至少一个物体对象；

需要说明的是，本方法可以应用于对图像或视频中的人物行为进行识别。

在本发明实施例中，待检测的图像信息可以是一张图片，或者，也可以是视频信息中的某一帧图像。

通常，人物行为都是针对某一特定对象而进行的。例如，在喝水这一行为中，需要人拿起水杯，整个行为过程映射在图像中就包括人和水杯。

因此，待检测的图像信息中应当包括至少一个待检测的人物影像，以及至少一个待检测的物体对象。

S102、确定所述人物影像在所述图像信息中的位置区域，以及，确定所述物体对象的种类；

在本发明实施例中，在对采集到的图像信息进行人物行为识别前，可以首先确定在该图像中，上述人物影像和物体对象所处的位置区域，以及该物体对象的具体种类。

在本具体实现中，可以采用目标检测算法Faster R-CNN对采集得到的待检测图像进行检测，以识别出图像中的人物位置区域，以及物体的种类和位置区域。

通常，采用Faster R-CNN算法对人物或物体进行识别的具体过程可以包括如下步骤：

(1)输入测试图像；

(2)将整张图片输入CNN(卷积神经网络模型)中，进行特征提取；

(3)用RPN(区域候选网络模型)生成建议窗口(proposals)，一般地，每张图片可生成300个建议窗口；

(4)把建议窗口映射到CNN的最后一层卷积feature map(特征图)上；

(5)通过RoI pooling层(池化层的一种)使每个RoI(矩形框)生成固定尺寸的feature map；

(6)利用Softmax Loss(探测分类概率模型)和Smooth L1Loss(探测边框回归模型)对feature map进行联合训练，识别出图像中的人物位置和物体种类及位置。

因此，在本发明实施例中，对于待检测的图像信息，可以在将上述图像信息输入至预置的卷积神经网络模型(CNN)后，可以采用该预置的卷积神经网络模型对图像信息进行特征提取，获得多个图像特征；然后针对获得的图像特征，采用预置的区域候选网络模型(RPN)生成多个建议窗口(proposals)，并将上述多个建议窗口映射至卷积神经网络模型的最后一层卷积特征图(feature map)上，获得多个矩形框(RoI)。在将各个矩形框转换为固定尺寸的特征图后，可以采用Softmax Loss模型和Smooth L1Loss对固定尺寸的特征图进行特征训练，从而确定在图像信息中的人物影像的位置区域，和物体对象的位置区域及种类。

S103、提取在所述人物影像的位置区域中的人物特征信息，将所述人物特征信息输入预置的堆叠沙漏网络结构模型，获得所述人物影像中包含的多个肢体关键点；

在本发明实施例中，在检测出人物影像在图像中的位置区域后，可以基于人物影像的位置，采用预置的堆叠沙漏网络结构模型(Stacked HourglassNetworks)确定人物影像的多个肢体关键点。例如，人的手腕关键点、面部关键点、膝盖关键点等等。

在本发明实施例中，堆叠沙漏网络结构模型可以由多个预先训练得到的沙漏网络组成。

在提取出人物特征信息后，可以将上述人物特征信息输入第一个沙漏网络，并输出对应第一个沙漏网络的第一热力图。然后，依次将前一个沙漏网络的输入信息和输出信息作为后一个沙漏网络的输入信息，直到从最后一个沙漏网络中输出目标热力图。目标热力图中标记有人物影像中包含的多个肢体关键点。

例如，若堆叠沙漏网络结构模型由预先训练好的沙漏网络1和沙漏网络2组成。在将人物特征信息T1输入到沙漏网络1中得到热力图O1后，可以将人物特征信息T1和热力图O1作为沙漏网络2的输入信息。即，将人物特征信息T1和热力图O1同时输入沙漏网络2，由沙漏网络2输出热力图O2。此时输出的热力图O2即是目标热力图。堆叠沙漏网络结构模型的主要贡献在于利用多尺度特征来识别肢体关键点。如果仅仅使用一个沙漏网络识别肢体关键点，可能只使用了最后一层的卷积特征，这样会造成信息的丢失。使用堆叠沙漏网络结构，则可以使用多层卷积特征识别肢体关键点，从而能够充分提取输入图像中包含的信息，达到提升人体肢体关键点的检测效果的目的。

S104、根据预设的肢体关键点与物体对象的种类之间的匹配关系，识别所述多个肢体关键点中的目标关键点；

本发明实施例，在通过堆叠沙漏网络结构模型得到输入图像的多个肢体关键点后，可以根据预设的肢体关键点与物体对象的种类之间的匹配关系，从多个肢体关键点中识别出目标关键点。上述匹配关系可以根据各个肢体关键点所能实现的动作，与多个不同种类的物体对象的属性来确定。例如，对于食品类的物体对象，人们针对食品的行为可以包括用手拿、用鼻子闻、用嘴吃等等，那么针对食品类的物体对象匹配，可以将其匹配至手、鼻、嘴等部位的关键点。

作为本发明的一种示例，上述肢体关键点与物体对象的种类之间的匹配关系中还可以记录有分别与各个肢体关键点相对应的多个行为词。各个行为词即是该肢体关键点能够操作或执行的某个动作对应的词语。例如，针对手腕关键点，其对应的行为词可以包括拍、举、拿、端、打等等。

在具体实现中，可以针对任一肢体关键点，通过判断该肢体关键点是否具备产生与上述物体对象相匹配的行为的可能性，即判断各个肢体关键点对应的多个行为词是否与上述物体对象构成相应词组，从而识别出目标关键点。若该肢体关键点对应的任一行为词与物体对象构成相应词组，也就认为该关键点具备产生与上述物体对象相匹配的行为的可能性，则可以识别该肢体关键点为目标关键点。

需要说明的是，识别出的目标关键点可以包括多个，多个目标关键点可以是同一类型的肢体关键点，如，左手手腕关键点和右手手腕关键点；或者，也可以是不同类型的肢体关键点，如，左手手腕关键点和脚踝关键点。

肢体关键点与物体对象的种类之间的匹配关系可以是根据物体的种类以及针对该物体可能产生的动作所涉及的肢体部位之间的对应关系建立的。

例如，对于水杯，人可以用嘴喝水杯中的水，也可以用手拿着水杯。因此，跟水杯之间具有映射关系的肢体部位可以是手，也可以是嘴。对于足球，人可以用脚踢球，也可以用手拍球。因此，跟足球之间具有映射关系的肢体部分可以是手或脚。

因此，在本发明实施例中，可以根据识别出的物体种类，确定出对应的目标关键点。

例如，如果识别出的物体为水杯，识别出的多个肢体关键点包括手腕关键点、面部(嘴唇)关键点、膝盖关键点等等，可以根据是否能够与水杯产生某种行为的可能性，提取手腕关键点和嘴唇关键点作为目标关键点。

S105、针对任一目标关键点，计算所述目标关键点与各个物体对象之间的行为概率值；

在本发明实施例中，可以通过生成与各个目标关键点对应的图结构来计算该目标关键点与各个物体对象之间的行为概率值。上述图结构可以是数据结构中的图(Graph)。图是一种复杂的非线性结构，在图结构中，每个元素都可以有零个或多个前驱，也可以有零个或多个后继，也就是说，元素之间的关系是任意的。

在本发明实施例中，可以首先确定各个物体对象在图像信息中的位置区域。需要说明的是，物体对象的位置区域可以采用步骤S102中的目标检测算法Faster R-CNN来确定，本步骤对此不再赘述。

然后，可以根据物体对象在图像信息中的位置区域，确定各个物体对象的位置中心点，进而针对任一目标关键点，分别将上述目标关键点与各个物体对象的位置中心点连接，生成多个图结构。

在具体实现中，可以以目标关键点作为一个节点，将该目标关键点周围的物体的位置中心点作为另一个节点，通过将上述两个节点连接起来生成物体对象实例的图结构。

然后，可以通过计算目标关键点与各个物体对象的位置中心点之间的距离来确定目标关键点与物体对象之间的行为概率值。目标关键点与各个物体对象之间的行为概率值即是连接目标关键点与某个物体对象得到的边的边权重，该边权重与上述距离成反比。

在具体实现中，可以首先在确定出的物体的位置中心点后，计算该位置中心点与各个肢体关键点之间的距离大小，将上述距离大小的倒数作为对应边的边所连接的目标关键点和物体对象的行为概率值，即该条边的边权重。

S106、依据所述行为概率值，确定所述图像信息中的人物行为。

在本发明实施例中，可以为上述行为概率值设定一个阈值，当行为概率值大于该阈值时，可以认为目标关键点与该物体对象具有某种行为联系。

例如，在根据右手手腕这一目标关键点和水杯这一物体对象构建出的图结构中，若根据二者之间的距离计算得到的行为概率值(边权重)大于上述阈值，则可以推测人的右手中可能拿着这个水杯。当然，根据边权重与阈值的比较，仅仅是一种概率推测，并非真实发生的行为。

因此，在进行人物行为的识别时，可以分别比较各个图结构中的边权重，然后提取边权重最大值对应的目标关键点和物体对象，从而依据边权重最大值对应的目标关键点和物体对象生成目标行为，作为上述图像信息中的人物行为。

例如，在待检测图像信息中包括一个人左手拿着一个水杯并送到嘴边，右手去摸另一个水杯，按照上述识别方法得出的边权重如图2所示。即，在水杯1与嘴唇构成的图结构中，边权重为0.99；在水杯1与手腕构成的图结构中，边权重为0.88；在水杯2与与嘴唇构成的图结构中，边权重为0.18；在水杯2与手腕构成的图结构中，边权重为0.78。

其中，水杯1与嘴唇构成的图结构中边权重最大，因此可以根据水杯1与嘴唇确定人的行为为“喝水”。

在本发明实施例中，通过采集待检测的图像信息，并确定图像信息中人物影像和物体对象的位置区域以及物体对象的种类，从而可以在提取人物影像的位置区域中的人物特征信息后，通过将上述人物特征信息输入预置的堆叠沙漏网络结构模型，获得人物影像中包含的多个肢体关键点。然后，根据预设的肢体关键点与物体对象的种类之间的匹配关系，可以识别多个肢体关键点中的目标关键点，并针对任一目标关键点，计算目标关键点与各个物体对象之间的行为概率值，从而能够依据上述行为概率值，确定图像信息中的人物行为。本实施例采用姿态检测的方式，通过识别肢体关键点周围的特征，综合确定人物与物体之间的关系，然后采用对象检测识别该物体是什么，将姿态检测的结果和对象检测的结果结合在一起，共同应用于对人物行为的识别，提高了人物行为识别的准确率，区别于现有技术中的“检测有什么”，本实施例可以检测到“发生了什么”。

需要说明的是，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

参照图3，示出了本发明一个实施例的一种行为识别的装置的示意图，具体可以包括如下模块：

图像信息采集模块301，用于采集待检测的图像信息，所述图像信息中包括至少一个人物影像和至少一个物体对象；

图像信息确定模块302，用于确定所述人物影像在所述图像信息中的位置区域，以及，确定所述物体对象的种类；

肢体关键点识别模块303，用于提取在所述人物影像的位置区域中的人物特征信息，将所述人物特征信息输入预置的堆叠沙漏网络结构模型，获得所述人物影像中包含的多个肢体关键点；

目标关键点识别模块304，用于根据预设的肢体关键点与物体对象的种类之间的匹配关系，识别所述多个肢体关键点中的目标关键点；

行为概率值计算模块305，用于针对任一目标关键点，计算所述目标关键点与各个物体对象之间的行为概率值；

人物行为确定模块306，用于依据所述行为概率值，确定所述图像信息中的人物行为。

在本发明实施例中，所述图像信息确定模块302具体可以包括如下子模块：

特征提取子模块，用于采用预置的卷积神经网络模型对所述图像信息进行特征提取，获得多个图像特征；

建议窗口生成子模块，用于针对所述图像特征，采用预置的区域候选网络模型生成多个建议窗口；

建议窗口映射子模块，用于将所述多个建议窗口映射至所述卷积神经网络模型的最后一层卷积特征图上，获得多个矩形框；

矩形框转换子模块，用于将各个矩形框转换为固定尺寸的特征图；

特征训练子模块，用于对所述固定尺寸的特征图进行特征训练，确定所述图像信息中人物影像的位置区域和物体对象的种类。

在本发明实施例中，所述堆叠沙漏网络结构模型由多个预先训练得到的沙漏网络组成，所述肢体关键点识别模块303具体可以包括如下子模块：

模型训练子模块，用于将所述人物特征信息输入第一个沙漏网络，并输出对应所述第一个沙漏网络的第一热力图；依次将前一个沙漏网络的输入信息和输出信息作为后一个沙漏网络的输入信息，直到从最后一个沙漏网络中输出目标热力图，所述目标热力图中标记有所述人物影像中包含的多个肢体关键点。

在本发明实施例中，所述肢体关键点与物体对象的种类之间的匹配关系中记录有分别与各个肢体关键点相对应的多个行为词，所述目标关键点识别模块304具体可以包括如下子模块：

行为词组判断子模块，用于针对任一肢体关键点，判断所述肢体关键点对应的多个行为词是否与所述物体对象构成相应词组；

目标关键点识别子模块，用于当所述肢体关键点对应的任一行为词与所述物体对象构成相应词组时，识别所述肢体关键点为目标关键点。

在本发明实施例中，所述行为概率值计算模块305具体可以包括如下子模块：

物体对象位置区域确定子模块，用于确定所述物体对象在所述图像信息中的位置区域；

位置中心点确定子模块，用于根据所述物体对象在所述图像信息中的位置区域，确定各个物体对象的位置中心点；

中心点连接子模块，用于针对任一目标关键点，分别将所述目标关键点与各个物体对象的位置中心点连接；

距离计算子模块，用于计算所述目标关键点与各个物体对象的位置中心点之间的距离，所述距离与对应的目标关键点与物体对象之间的行为概率值成反比。

在本发明实施例中，所述人物行为确定模块306具体可以包括如下子模块：

行为概率值提取子模块，用于提取所述行为概率值最大值对应的目标关键点和物体对象；

人物行为确定子模块，用于依据所述行为概率值最大值对应的目标关键点和物体对象生成目标行为，作为所述图像信息中的人物行为。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述得比较简单，相关之处参见方法实施例部分的说明即可。

参照图4，示出了本发明一个实施例的一种终端设备的示意图。如图4所示，本实施例的终端设备400包括：处理器410、存储器420以及存储在所述存储器420中并可在所述处理器410上运行的计算机程序421。所述处理器410执行所述计算机程序421时实现上述行为识别的方法各个实施例中的步骤，例如图1所示的步骤S101至S105。或者，所述处理器410执行所述计算机程序421时实现上述各装置实施例中各模块/单元的功能，例如图3所示模块301至305的功能。

示例性的，所述计算机程序421可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器420中，并由所述处理器410执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段可以用于描述所述计算机程序421在所述终端设备400中的执行过程。例如，所述计算机程序421可以被分割成图像信息采集模块、图像信息确定模块、肢体关键点识别模块、目标关键点识别模块、行为概率值计算模块和人物行为确定模块，各模块具体功能如下：

所述终端设备400可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备400可包括，但不仅限于，处理器410、存储器420。本领域技术人员可以理解，图4仅仅是终端设备400的一种示例，并不构成对终端设备400的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备400还可以包括输入输出设备、网络接入设备、总线等。

所述处理器410可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器420可以是所述终端设备400的内部存储单元，例如终端设备400的硬盘或内存。所述存储器420也可以是所述终端设备400的外部存储设备，例如所述终端设备400上配备的插接式硬盘，智能存储卡(SmartMedia Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等等。进一步地，所述存储器420还可以既包括所述终端设备400的内部存储单元也包括外部存储设备。所述存储器420用于存储所述计算机程序421以及所述终端设备400所需的其他程序和数据。所述存储器420还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制。尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种行为识别的方法，其特征在于，包括：

根据预设的肢体关键点与物体对象的种类之间的匹配关系，识别所述多个肢体关键点中的目标关键点；其中，所述肢体关键点与物体对象的种类之间的匹配关系中记录有分别与各个所述肢体关键点相对应的多个行为词，各个行为词是所述肢体关键点能够操作或执行的动作对应的词语，若所述肢体关键点对应的任一行为词与所述物体对象构成相应词组，则所述肢体关键点为所述目标关键点；

依据所述行为概率值，确定所述图像信息中的人物行为。

2.根据权利要求1所述的方法，其特征在于，所述确定所述人物影像在所述图像信息中的位置区域，以及，确定所述物体对象的种类的步骤包括：

采用预置的卷积神经网络模型对所述图像信息进行特征提取，获得多个图像特征；

针对所述图像特征，采用预置的区域候选网络模型生成多个建议窗口；

将所述多个建议窗口映射至所述卷积神经网络模型的最后一层卷积特征图上，获得多个矩形框；

将各个矩形框转换为固定尺寸的特征图；

对所述固定尺寸的特征图进行特征训练，确定所述图像信息中人物影像的位置区域和物体对象的种类。

3.根据权利要求1所述的方法，其特征在于，所述堆叠沙漏网络结构模型由多个预先训练得到的沙漏网络组成，所述将所述人物特征信息输入预置的堆叠沙漏网络结构模型，获得所述人物影像中包含的多个肢体关键点的步骤包括：

将所述人物特征信息输入第一个沙漏网络，并输出对应所述第一个沙漏网络的第一热力图；

依次将前一个沙漏网络的输入信息和输出信息作为后一个沙漏网络的输入信息，直到从最后一个沙漏网络中输出目标热力图，所述目标热力图中标记有所述人物影像中包含的多个肢体关键点。

4.根据权利要求3所述的方法，其特征在于，所述针对任一目标关键点，计算所述目标关键点与各个物体对象之间的行为概率值的步骤包括：

确定所述物体对象在所述图像信息中的位置区域；

根据所述物体对象在所述图像信息中的位置区域，确定各个物体对象的位置中心点；

针对任一目标关键点，分别将所述目标关键点与各个物体对象的位置中心点连接；

计算所述目标关键点与各个物体对象的位置中心点之间的距离，所述距离与对应的目标关键点与物体对象之间的行为概率值成反比。

5.根据权利要求1所述的方法，其特征在于，所述依据所述行为概率值，确定所述图像信息中的人物行为的步骤包括：

提取所述行为概率值最大值对应的目标关键点和物体对象；

依据所述行为概率值最大值对应的目标关键点和物体对象生成目标行为，作为所述图像信息中的人物行为。

6.一种行为识别的装置，其特征在于，包括：

图像信息确定模块，用于确定所述人物影像和物体对象在所述图像信息中的位置区域，以及，确定所述物体对象的种类；

目标关键点识别模块，用于根据预设的肢体关键点与物体对象的种类之间的匹配关系，识别所述多个肢体关键点中的目标关键点；其中，所述肢体关键点与物体对象的种类之间的匹配关系中记录有分别与各个所述肢体关键点相对应的多个行为词，各个行为词是所述肢体关键点能够操作或执行的动作对应的词语，若所述肢体关键点对应的任一行为词与所述物体对象构成相应词组，则所述肢体关键点为所述目标关键点；

7.根据权利要求6所述的装置，其特征在于，所述堆叠沙漏网络结构模型由多个预先训练得到的沙漏网络组成，所述肢体关键点识别模块包括：

8.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述行为识别的方法的步骤。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述行为识别的方法的步骤。