CN113627334A

CN113627334A - 对象的行为识别方法及装置

Info

Publication number: CN113627334A
Application number: CN202110915905.1A
Authority: CN
Inventors: 张澍; 杨树松; 马彦波; 俞益; 张艳; 赵敏; 魏乃科; 潘华东
Original assignee: Zhejiang Dahua Technology Co Ltd; Operation Branch of Ningbo Rail Transit Group Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd; Operation Branch of Ningbo Rail Transit Group Co Ltd
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2021-11-09

Abstract

本发明提供了一种对象的行为识别方法、装置、存储介质及电子装置，包括：对连续多帧图像中的目标对象的关键点进行检测，得到目标对象的关键点序列，其中，关键点序列中包括连续多帧图像中目标对象的关键点；对关键点序列进行分析，得到目标对象的静态特征和目标对象的动态特征；基于静态特征和所述动态特征，对目标对象的行为进行识别。通过本发明，解决了对人体行为预测效率和准确率低的问题，进而达到了利用人体关键点信息，对人体行为进行高效精确预测的效果。

Description

对象的行为识别方法及装置

技术领域

本发明涉及通信领域，具体而言，涉及一种对象的行为识别方法及装置。

背景技术

在日常生活中，行为识别技术具有较大的需求和实际应用价值，例如，可以识别人体的行为，比如可以通过检测目标人物是否处于摔倒、睡眠或疾病的状态，或者通过目标人物的健身、体育运动或舞蹈等的自动教学，以理解人体全身的肢体语言，确定人体当前动作的含义。在实际场景中，可以通过机场跑道信号、交警信号等对人体行为进行检测，以增强安保和监控等。

相关技术，通常使用神经网络模型对人体行为进行识别，通过神经网络模型对待处理的目标对象的图片进行人体检测，得到人体ROI区域，对ROI区域中的人体行为进行识别。然而，图片ROI区域中的人体图像一般是静态特征，而人体行为通常是动态的。仅基于静态特征分析人体的行为动作准确度较低。

针对相关技术中，人体行为识别准确度较低的问题，目前尚未存在有效的解决方案。

发明内容

本发明实施例提供了一种对象的行为识别方法及装置，以至少解决相关技术中人体行为识别准确度较低的问题。

根据本发明的一个实施例，提供了一种对象的行为识别方法，包括：一种对象的行为识别方法，其特征在于，包括：对连续多帧图像中的目标对象的关键点进行检测，得到目标对象的关键点序列，其中，所述关键点序列中包括所述连续多帧图像中所述目标对象的关键点；对所述关键点序列进行分析，得到所述目标对象的静态特征和所述目标对象的动态特征，其中，所述静态特征表示所述目标对象在同一帧图像中不同关键点的位置关系，所述动态特征表示不同帧图像中所述目标对象的相同关键点的位置关系；基于所述静态特征和所述动态特征，对所述目标对象的行为进行识别。

可选地，基于所述静态特征和所述动态特征，对所述目标对象的行为进行识别，包括：将所述静态特征输入行为识别神经网络模型的第一主干网络，通过所述第一主干网络对所述静态特征进行特征提取，得到目标静态特征；将所述动态特征输入所述行为识别神经网络模型的第二主干网络，通过所述第二主干网络对所述动态特征进行特征提取，得到目标动态特征；通过所述目标静态特征和所述目标动态特征，得到所述目标对象的行为识别结果。

可选地，所述通过所述目标静态特征和所述目标动态特征，得到所述目标对象的行为识别结果，包括：将所述目标静态特征和所述目标动态特征输入所述行为识别神经网络模型的全连接层；通过所述全连接层对所述目标静态特征和所述目标动态特征进行分析，得到目标对象的行为类别，其中，所述目标对象的行为识别结果包括所述目标对象的行为类别。

可选地，所述静态特征包括以下至少之一：所述目标对象的距离编码特征、所述目标对象的方向编码特征，以及对所述目标对象的距离编码特征和目标对象的方向编码特征进行融合得到的特征。

可选地，对所述关键点序列进行分析，得到所述目标对象的静态特征，包括：确定每帧图像的多个关键点中任意两个关键点之间的距离编码，得到所述静态特征中的所述距离编码特征。

可选地，所述对所述关键点序列进行分析，得到所述目标对象的静态特征，包括：确定每帧图像的多个关键点中任意两个关键点之间的方向编码，得到所述静态特征中的所述方向编码特征。

可选地，所述静态特征包括以下至少之一：所述目标对象的轨迹编码特征、所述目标对象的方向轨迹编码特征，以及所述目标对象的轨迹编码特征和目标对象的方向轨迹编码特征进行融合得到的特征。

可选地，所述对所述关键点序列进行分析，得到所述目标对象的动态特征，包括：根据预设参数长度在所述连续多帧图像中选取出M帧图像，其中，所述M是整数；确定所述M帧图像中相应关键点的的坐标差值，为所述动态特征中的所述轨迹编码特征。

可选地，所述对所述关键点序列进行分析，得到所述目标对象的动态特征，包括：根据预设参数长度在所述连续多帧图像中选取出M帧图像；根据所述出M帧图像的方向编码特征，确定所述动态特征中的所述方向轨迹编码特征。

根据本发明的另一个实施例，提供了一种对象的行为识别装置，包括：检测模块，对连续多帧图像中的目标对象的关键点进行检测，得到目标对象的关键点序列，其中，所述关键点序列中包括所述连续多帧图像中所述目标对象的关键点；分析模块，用于对所述关键点序列进行分析，得到所述目标对象的静态特征和所述目标对象的动态特征，其中，所述静态特征表示所述目标对象在同一帧图像中不同关键点的位置关系，所述动态特征表示不同帧图像中所述目标对象的相同关键点的位置关系；识别模块，用于基于所述静态特征和所述动态特征，对所述目标对象的行为进行识别。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，对目标对象的静态特征和动态特征进行识别，静态特征表示目标对象在同一帧图像中不同关键点的位置关系，动态特征表示不同帧图像中目标对象的相同关键点的位置关系，静态特征和动态特征是在目标对象的关键点序列中提取得到的。可以达到由计算机对人体行为进行识别的目的，解决了现有技术中对人体行为预测准确率低的问题，提高了人体行为识别的效率和准确率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种对象的行为识别方法的移动终端的硬件结构框图；

图2是根据本发明实施例的行为识别的方法的流程图；

图3是根据本发明实施例的人体行为识别的方法流程图；

图4是根据本发明实施例的行为识别神经网络模型总体框图；

图5是根据本发明实施例的行为识别神经网络模型的主干网络结构图；

图6是根据本发明可选实施例的特征融合模块的流程图；

图7是根据本发明实施例的对象的行为识别装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是根据本发明实施例的一种对象的行为识别方法的移动终端的硬件结构框图。如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的对象的行为识别方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述移动终端的对象的行为识别方法，图2是根据本发明实施例的对象的行为识别的流程图，如图2所示，该流程包括如下步骤：

步骤S202，对连续多帧图像中的目标对象的关键点进行检测，得到目标对象的关键点序列，其中，所述关键点序列中包括所述连续多帧图像中所述目标对象的关键点；

其中，连续多帧图像可以为监控设备拍摄的视频流中的任意连续的图像，也可以是计算机或手机中存储的视频文件中任意连续的图像，此处对连续多帧图像的来源不做限制。目标对象可以为连续多帧图像中的人物、动物等。以目标对象是人物为例，关键点为人体可以标识关键部位的点，比如可以是人体的头部、腰部、手部等，此处对关键点的选取不做限制，关键点选取的数量可以为10个、20个，以实际需要识别的场景和动作进行适应性调整，此处不做限制。对连续多帧图像的每帧图像中的人体的关键点进行选取，得到人体在连续多帧图像中的关键点序列。

步骤S204，对所述关键点序列进行分析，得到所述目标对象的静态特征和所述目标对象的动态特征，其中，所述静态特征表示所述目标对象在同一帧图像中不同关键点的位置关系，所述动态特征表示不同帧图像中所述目标对象的相同关键点的位置关系；

其中，对目标对象的关键点序列进行分析，关键点序列中可以包括目标对象的静态特征和动态特征，静态特征可以包括同一帧图像中任意两个关键点之间的位置关系，例如距离关系和方向关系。动态特征可以包括不同帧图像中同一关键点的位置关系，例如，不同帧图像中相同关键点的轨迹和轨迹方向。

步骤S206，基于所述静态特征和所述动态特征，对所述目标对象的行为进行识别。

其中，通过目标对象的静态特征和动态特征可以对目标对象的行为进行识别，行为识别的结果可以是人体行为类型，该类型可以是预先设置的，例如，行走、站立、蹲下、坐着、躺着等，具体类型可以根据实际情况而定。也可以是人体当前处于的状态，例如检测是否处于疾病状态、睡眠状态等，也可以是人体行为当前执行的动作，例如检测是否正在执行健身动作、打球动作等。基于目标对象的静态特征和动态特征，可以得到对目标对象的行为识别结果。

通过上述步骤，使用本发明对目标对象的行为进行识别，解决了人体行为识别效率和准确率低的问题，提高了人体行为识别的效率和准确率。

可选地，上述步骤的执行主体可以为终端等，但不限于此。

作为一个可选的实施方式，可以对人体行为进行识别，人体行为识别的整体流程如图3所示，图3为根据本发明实施例的人体行为识别的方法流程图，可以在视频流中的连续多帧图像中检测目标对象，目标对象可以是人体目标，可以使用跟踪算法将视频中同一个人关联起来，并分配独立的身份标识(Identity Document，简称ID)，每个ID用于标识同一个人体目标对象。对视频流中连续多帧图像的每帧图像进行人体位置追踪，并检测人体关键点。为了避免单帧图像检测造成的关键点位置波动，可以取同一人体目标对象ID的前后帧的关键点进行平滑，分别将每个ID的关键点序列输入到行为识别模块，行为识别模块可以包括人体关键点特征编码和行为识别神经网络模型，关键点序列可以为多帧图像对应的关键点序列，比如可以是32帧或者是64帧，此处对图像帧的数量不做限制。将得到的静态特征和动态特征输入行为识别神经网络模型，以对行为结果进行识别，其中静态特征编码包括但不限于距离编码和方向编码，动态特征编码包括但不限于轨迹编码和方向轨迹编码。通过上述行为识别模块，识别并输出最终的人体行为识别结果。

作为一个可选的实施方式，可以使用两个主干网络分别对目标对象静态特征和动态特征进行建模，目标对象可以为人体图像，第一主干网络可以用于对静态特征进行特征提取，静态特征可以包括距离编码和方向编码，第一主干网络对静态特征进行处理后，获得目标静态特征。第二主干网络可以用于对动态特征进行特征提取，动态特征可以包括轨迹编码和方向轨迹编码，第二主干网络对动态特征进行处理后，获得目标动态特征，通过目标静态特征和目标动态特征获得目标对象的行为识别结果。

作为一个可选的实施方式，如图4所示为根据本发明实施例的行为识别神经网络模型整体框图，图4中上下两个分支中的第一主干网络与第二主干网络是结构相同但不共享的两个网络，两个网络分别对特征融合后的静态特征和动态特征进行特征提取，如图5所示为根据本发明实施例的行为识别神经网络模型的主干网络结构图，第一主干网络与第二主干网络可以分别对目标对象的静态特征和动态特征进行特征合并、卷积、池化等操作，获得处理后的目标静态特征和目标动态特征，第一主干网络和第二主干网络可以使用一维卷积，能够极大减小整体的运算量。主干网络可以对静态特征及动态特征的特征合并结果进行处理，将静态特征及动态特征的特征合并结果分别输入至第一主干网络及第二主干网络，主干网络中的操作可以包括3个卷积层和3个最大池化层，特征处理的顺序可以为2*Conv1D(3,2f)卷积、最大池化、2*Conv1D(3,4f)卷积、最大池化、2*Conv1D(3,4f)卷积和最大池化。

作为一个可选的实施方式，将静态特征输入至第一主干网络获得目标静态特征，将动态特征输入至第二主干网络获得目标动态特征，如图4所示，在获得目标静态特征与目标动态特征之后，需要将目标静态特征与目标动态特征输入至全连接层，得到对目标对象进行识别后的行为结果，行为结果可以是行为类别。

作为一个可选的实施方式，静态特征可以是同一帧图像中两个关键点之间的距离编码特征或者是同一帧图像中两个关键点之间的方向编码特征，也可以是对静态特征中的距离编码特征和方向编码特征进行融合后得到的特征，此处对静态特征的组合不做限制，在至少包括以上三种特征之一的情况下，可以是以上三种特征进行任意组合得到的。其中，距离编码特征用于表示不同关键点在同一帧图像中的距离信息，可以用不同关键点在同一帧图像中的坐标点之间的距离信息进行编码，例如可以使用欧式距离表示距离信息，此处对关键点距离信息表示的方法不作限制，方向编码用于表示不同关键点在同一帧图像中的坐标点之间的方向信息，可以用不同关键点在同一帧图像中的坐标点之间的方向信息进行编码，例如可以用atan函数表示两个关键点坐标之间的方向信息，此处对关键点方向信息表示的方法不作限制。特征融合可以使用常用的融合方法，此处对特征融合的方法不做限制，将距离编码特征和方向编码特征融合之后，可以获得融合特征。

作为一个可选的实施方式，如图4所示为根据本发明实施例的行为识别神经网络模型整体框图，静态特征通过特征融合模块，将距离编码特征和方向编码特征进行融合操作，获得融合特征，如图6所示为根据本发明可选实施例的特征融合模块的流程图，将人体目标对象中关键点的坐标信息和方向信息进行卷积及池化操作，获得特征合并后的融合特征结果。特征融合模块分为两个分支，一个分支用于处理坐标信息，将坐标信息分别通过三个卷积层Conv1D(1,2f)，Conv1D(1,3f)，Conv1D(1,f)进行处理，并对坐标信息的处理结果进行最大池化，另一个分支用于处理方向信息，将方向信息分别通过三个卷积层Conv1D(1,4f)，Conv1D(1,3f)，Conv1D(1,f)进行处理，并对坐标信息的处理结果进行最大池化，最后对池化后的坐标信息以及方向信息进行特征。

可选地，所述对所述关键点序列进行分析，得到所述目标对象的静态特征，包括：确定每帧图像的多个关键点序列中任意两个关键点之间的距离编码，得到所述静态特征中的所述距离编码特征。

作为一个可选的实施方式，每帧图像的多个关键点序列可以是在视频流中获取的连续多帧图像中任意一帧图像中提取的关键点信息，关键点可以用于表示人体关键部位的信息，可以在每帧图像的多个关键点序列中获取两个关键点的坐标信息，并计算出两个关键点之间的距离编码，该距离编码的计算方式可以是欧式距离，此处对距离的计算方式不做限制。每帧图像的多个关键点数量可以为20个、32个或者44个，此处对关键点的个数不做限制，假设选取的关键点个数为32，则由32个关键点中两两关键点之间的距离编码构成距离编码特征，静态特征中可以包括距离编码特征。

作为一个可选的实施方式，在进行距离编码之前，可以对原始的关键点坐标进行处理，在输入网络前按如下方式进行归一化：

x’＝(x/W-0.5)*W/H

y’＝(y/H-0.5)

其中，W、H为图像的宽和高，(x，y)为原始的关键点坐标，(x’，y’)为归一化后的关键点坐标。

距离编码，可以使用任意两两关键点的欧式距离，假设有N个关键点，则位置编码维度为N*(N-1)/2，距离特征编码d_ij可以用以下公式表示：

其中(x_i，y_i)，(x_j，y_j)为上述公式中归一化的数值。假设N为20，则位置编码维度为20*(20-1)/2，即为190。

作为一个可选的实施方式，可以在视频中获取多帧图像，在多帧图像的每帧图像中选取多个关键点，关键点可以用于表示人体关键部位的信息，可以在选取的多个关键点中获取两个关键点的方向信息，并计算出两个关键点之间的方向编码，该方向编码的计算方式可以使用atan函数计算出坐标之间的反正切值，此处对方向的计算方式不做限制。在每帧图像中选取多个关键点数量可以为20个、32个或者44个，此处对选取的关键点数量不做限制，假设选取的关键点数量为32，则由32个关键点中两两关键点之间的方向编码构成方向编码特征，静态特征中可以包括方向编码特征。

作为一个可选的实施方式，在进行方向编码之前，可以对原始的关键点坐标进行处理，在输入网络前按如下方式进行归一化：

x’＝(x/W-0.5)*W/H

y’＝(y/H-0.5)

其中W、H为图像的宽和高，(x，y)为原始的关键点坐标，(x’，y’)为归一化后的关键点坐标。

方向编码，在每次动作中，由于运动幅度不同，距离编码可能差异很大，为此对关键点进行方向编码：

其中，(x_i，y_i)和(x_j，y_j)为选取的关键点归一化后的坐标。

可选地，所述动态特征包括以下至少之一：所述目标对象的轨迹编码特征、所述目标对象的方向轨迹编码特征，以及所述目标对象的轨迹编码特征和目标对象的方向轨迹编码特征进行融合得到的特征。

作为一个可选的实施方式，动态特征可以是不同帧图像中同一关键点之间的轨迹编码特征或者是不同帧图像中同一关键点之间的轨迹方向编码特征，也可以是对动态特征中的轨迹编码特征和轨迹方向编码特征进行融合后得到的特征，此处对动态特征的组合不做限制，在至少包括以上三种特征之一的情况下，可以是以上三种特征进行任意组合得到的。其中，轨迹编码特征用于表示同一关键点在不同帧图像中的运动轨迹信息，可以用同一关键点在选取的多个图像帧中的坐标点差值进行表示，例如可以用同一关键点在选取的3个图像帧中的坐标点差值表示该关键点的轨迹信息，轨迹方向编码用于表示同一关键点在不同帧图像中的运动轨迹方向信息，可以用同一关键点在选取的多个图像帧中的坐标点差值进行表示，例如可以用同一关键点在选取的3个图像帧中的坐标点方向差值表示该关键点的轨迹方向信息。特征融合可以使用常用的融合方法，此处对特征融合的方法不做限制，将轨迹编码特征和轨迹方向编码特征融合之后，可以获得融合特征。

作为一个可选的实施方式，动态特征可以是不同帧图像中两个关键点之间的轨迹编码特征和方向轨迹编码特征，对动态特征中的轨迹编码特征和方向轨迹编码特征进行特征融合操作，特征融合可以使用常用的融合方法，此处对特征融合的方法不做限制，将轨迹编码特征和方向轨迹编码特征融合之后可以获得融合特征，将该融合特征输入至第二主干网络，得到处理后的目标动态特征。

作为一个可选的实施方式，如图4所示为根据本发明实施例的行为识别神经网络模型整体框图，动态特征通过特征融合模块，将轨迹编码特征和方向轨迹编码特征进行融合操作，获得融合特征，如图6所示为根据本发明可选实施例的特征融合模块的流程图，将人体目标对象中关键点的坐标信息和方向信息进行卷积及池化操作，获得特征合并后的融合特征结果。

其中，预设参数长度可以包括轨迹长度T，可以通过轨迹长度T在视频中选取的连续多帧图像中进行图像帧的选取，在连续多帧图像中选取M帧图像，其中M可以为3、6等，此处对选取的图像帧数量M不做限制，目标对象可以为人体图像，关键点用于表示人体关键部位的信息。假设在连续32帧图像中选取图像帧，轨迹长度T为7，步长s为3，假设当前时刻t为32，则每隔步长3选取一帧图像，轨迹长度为7，选取的轨迹图像帧对应的时刻t为32、29、26，即选取了3帧图像作为时刻32时的轨迹编码特征值，此时选取的M为3，即需要根据3帧图像中检测出的3组对应关键点，通过3组对应关键点的坐标差值，确定目标对象的轨迹编码特征。

作为一个可选的实施方式，轨迹编码可以使用位移序列编码时间维度的信息，可以设置2个参数，分别为轨迹长度T和步长s。当轨迹长度T选取的过长时，会包含太多冗余信息，但T选取的太小时，会缺少必要的时间信息，因此需要根据实际情况选取合适的T作为轨迹长度，T的选取可以是7、14等，此处对轨迹长度的选取不做限制。对于步长s，通过选取合适的步长s，可以对关键点进行帧间平滑，提高预测的效果。假设T＝7，s＝3，选取视频中的连续32帧图像，在时刻t＝32时，人体关键点轨迹特征选取时刻t为32、29、26对应的图像帧；t＝31时，人体关键点轨迹特征选取时刻t为31、28、25对应的图像帧，以此类推，一直计算到时刻t＝7，选取时刻t为7、4、1对应的图像帧，通过上述步骤，可以获得目标对象的轨迹编码特征。

作为一个可选的实施方式，轨迹编码可以使用位移序列编码时间维度的信息，轨迹特征可以用以下公式表示：

其中，f为归一化的关键点坐标，即f_t＝(x_t，y_t)，假设T＝7，s＝3，选取的视频流图像总帧数为32，在时刻t＝32时，人体关键点的轨迹为(x32-x29，x29-x26，y32-y29，y29-y26)，t＝31时的轨迹为(x31-x28，x28-x25，y31-y28，y28-y25)，以此类推，一直计算到时刻t＝7，轨迹为(x7-x4，x4-x1，y7-y4，y4-y1)。

作为一个可选的实施方式，预设参数长度可以包括轨迹长度T，可以根据轨迹长度T，在连续多帧图像中选取出M帧图像，连续多帧图像可以是视频流中的图像，连续多帧图像中帧数不做限制，例如可以为30、60等，假设T为7，连续多帧图像的数量为32帧，则在32帧图像中选取M帧图像时，可以设定在时刻t＝32时，选取的的图像帧对应的时刻为t＝32到t＝26，总长度为7，假设步长为3，则选取的图像帧对应的时刻t为32、29和26，即最终选取的M为3。3帧图像中的方向编码特征用于表示同一关键点在3帧图像中的方向轨迹信息，3帧图像对应的3个方向编码特征构成了方向轨迹编码特征，方向编码特征用于表示每帧图像中关键点的方向信息。

作为一个可选的实施方式，方向轨迹编码用于表示人体部位之间的方向在时间维度变化的信息，可以使用与轨迹编码相同的方式进行编码：

此时方向编码特征O_t＝O_i，j，O_i，j为静态特征中的方向编码，假设T＝7，s＝3。即可得到方向轨迹信息。假设T＝7，s＝3，选取的视频流图像总帧数为32，在时刻t＝32时，人体关键点的方向轨迹为(O32-O29，O29-O26)，t＝31时的轨迹为(O31-O28，O28-O25)，以此类推，一直计算到时刻t＝7，轨迹为(O7-O4，O4-O1)。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种对象的行为识别装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图7是根据本发明实施例的对象的行为识别装置的结构框图，如图7所示，该装置包括：检测模块72，用于对连续多帧图像中的目标对象的关键点进行检测，得到目标对象的关键点序列，其中，所述关键点序列中包括所述连续多帧图像中所述目标对象的关键点；分析模块74，用于对所述关键点序列进行分析，得到所述目标对象的静态特征和所述目标对象的动态特征，其中，所述静态特征表示所述目标对象在同一帧图像中不同关键点的位置关系，所述动态特征表示不同帧图像中所述目标对象的相同关键点的位置关系；识别模块76，用于基于所述静态特征和所述动态特征，对所述目标对象的行为进行识别。

可选地，上述装置还用于将所述静态特征输入行为识别神经网络模型的第一主干网络，通过所述第一主干网络对所述静态特征进行特征提取，得到目标静态特征；将所述动态特征输入所述行为识别神经网络模型的第二主干网络，通过所述第二主干网络对所述动态特征进行特征提取，得到目标动态特征；通过所述目标静态特征和所述目标动态特征，得到所述目标对象的行为识别结果。

可选地，上述装置还用于将所述目标静态特征和所述目标动态特征输入所述行为识别神经网络模型的全连接层；通过所述全连接层对所述目标静态特征和所述目标动态特征进行分析，得到目标对象的行为类别，其中，所述目标对象的行为识别结果包括所述目标对象的行为类别。

可选地，所述静态特征包括以下至少之一：包括所述目标对象的距离编码特征、所述目标对象的方向编码特征，以及对所述目标对象的距离编码特征和目标对象的方向编码特征进行融合得到的特征。

可选地，上述装置还用于确定每帧图像的多个关键点中任意两个关键点之间的距离编码，得到所述静态特征中的所述距离编码特征。

可选地，上述装置还用于确定每帧图像的多个关键点中任意两个关键点之间的方向编码，得到所述静态特征中的所述方向编码特征。

可选地，上述动态特征包括以下至少之一：所述目标对象的轨迹编码特征、所述目标对象的方向轨迹编码特征，以及所述目标对象的轨迹编码特征和目标对象的方向轨迹编码特征进行融合得到的特征。

可选地，上述装置还用于根据预设参数长度在所述连续多帧图像中选取出M帧图像，其中，所述M是整数；确定所述M帧图像中相应关键点的的坐标差值，为所述动态特征中的所述轨迹编码特征。

可选地，上述装置还用于根据预设参数长度在所述连续多帧图像中选取出M帧图像；根据所述出M帧图像的方向编码特征，确定所述动态特征中的所述方向轨迹编码特征。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，对连续多帧图像中的目标对象的关键点进行检测，得到目标对象的关键点序列，其中，所述关键点序列中包括所述连续多帧图像中所述目标对象的关键点；

S2，对所述关键点序列进行分析，得到所述目标对象的静态特征和所述目标对象的动态特征，其中，所述静态特征表示所述目标对象在同一帧图像中不同关键点的位置关系，所述动态特征表示不同帧图像中所述目标对象的相同关键点的位置关系；

S3，基于所述静态特征和所述动态特征，对所述目标对象的行为进行识别。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种对象的行为识别方法，其特征在于，包括：

对连续多帧图像中的目标对象的关键点进行检测，得到目标对象的关键点序列，其中，所述关键点序列中包括所述连续多帧图像中所述目标对象的关键点；

对所述关键点序列进行分析，得到所述目标对象的静态特征和所述目标对象的动态特征，其中，所述静态特征表示所述目标对象在同一帧图像中不同关键点的位置关系，所述动态特征表示不同帧图像中所述目标对象的相同关键点的位置关系；

基于所述静态特征和所述动态特征，对所述目标对象的行为进行识别。

2.根据权利要求1所述的方法，其特征在于，基于所述静态特征和所述动态特征，对所述目标对象的行为进行识别，包括：

将所述静态特征输入行为识别神经网络模型的第一主干网络，通过所述第一主干网络对所述静态特征进行特征提取，得到目标静态特征；

将所述动态特征输入所述行为识别神经网络模型的第二主干网络，通过所述第二主干网络对所述动态特征进行特征提取，得到目标动态特征；

通过所述目标静态特征和所述目标动态特征，得到所述目标对象的行为识别结果。

3.根据权利要求2所述的方法，其特征在于，所述通过所述目标静态特征和所述目标动态特征，得到所述目标对象的行为识别结果，包括：

将所述目标静态特征和所述目标动态特征输入所述行为识别神经网络模型的全连接层；

通过所述全连接层对所述目标静态特征和所述目标动态特征进行分析，得到目标对象的行为类别，其中，所述目标对象的行为识别结果包括所述目标对象的行为类别。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述静态特征包括以下至少之一：

所述目标对象的距离编码特征、所述目标对象的方向编码特征，以及对所述目标对象的距离编码特征和目标对象的方向编码特征进行融合得到的特征。

5.根据权利要求4所述的方法，其特征在于，对所述关键点序列进行分析，得到所述目标对象的静态特征，包括：

确定每帧图像的多个关键点中任意两个关键点之间的距离编码，得到所述静态特征中的所述距离编码特征。

6.根据权利要求4所述的方法，其特征在于，所述对所述关键点序列进行分析，得到所述目标对象的静态特征，包括：

确定每帧图像的多个关键点中任意两个关键点之间的方向编码，得到所述静态特征中的所述方向编码特征。

7.根据权利要求1至3中任一项所述的方法，其特征在于，所述动态特征包括以下至少之一：

所述目标对象的轨迹编码特征、所述目标对象的方向轨迹编码特征，以及所述目标对象的轨迹编码特征和目标对象的方向轨迹编码特征进行融合得到的特征。

8.根据权利要求7所述的方法，其特征在于，所述对所述关键点序列进行分析，得到所述目标对象的动态特征，包括：

根据预设参数长度在所述连续多帧图像中选取出M帧图像，其中，所述M是整数；

确定所述M帧图像中相应关键点的的坐标差值，为所述动态特征中的所述轨迹编码特征。

9.根据权利要求7所述的方法，其特征在于，所述对所述关键点序列进行分析，得到所述目标对象的动态特征，包括：

根据预设参数长度在所述连续多帧图像中选取出M帧图像；

根据所述出M帧图像的方向编码特征，确定所述动态特征中的所述方向轨迹编码特征。

10.一种对象的行为识别装置，其特征在于，包括：

检测模块，用于对连续多帧图像中的目标对象的关键点进行检测，得到目标对象的关键点序列，其中，所述关键点序列中包括所述连续多帧图像中所述目标对象的关键点；

分析模块，用于对所述关键点序列进行分析，得到所述目标对象的静态特征和所述目标对象的动态特征，其中，所述静态特征表示所述目标对象在同一帧图像中不同关键点的位置关系，所述动态特征表示不同帧图像中所述目标对象的相同关键点的位置关系；

识别模块，用于基于所述静态特征和所述动态特征，对所述目标对象的行为进行识别。