CN114627552B

CN114627552B - 一种行为识别方法、装置及电子设备

Info

Publication number: CN114627552B
Application number: CN202210220925.1A
Authority: CN
Inventors: 孙梦南
Original assignee: Hangzhou Ezviz Network Co Ltd
Current assignee: Hangzhou Ezviz Network Co Ltd
Priority date: 2022-03-08
Filing date: 2022-03-08
Publication date: 2025-07-25
Anticipated expiration: 2042-03-08
Also published as: CN114627552A

Abstract

本申请实施例公开了一种行为识别方法、装置及电子设备。本申请提供的方案将针对目标对象拍摄的原始图像分别输入至第一深度学习模型和人形检测模型，得到用于拍摄原始图像的拍摄设备的目标特征信息和目标检测信息，然后将目标特征信息和目标检测信息进行融合，得到融合特征，最后将融合特征输入至已训练的第二深度学习模型，得到目标对象的三维姿势。上述目标特征信息包括拍摄设备拍摄目标对象时的拍摄角度，在预测目标的三维姿势时，将拍摄设备的影响也计算了进去，限制了原始图像从二维平面映射为三维空间的可能性，提高了行为识别的准确度，同时将多个模型得到的特征进行融合，使得预测到的目标对象的三维姿势更准确。

Description

一种行为识别方法、装置及电子设备

技术领域

本申请涉及机器学习领域，特别涉及一种行为识别方法、装置及电子设备。

背景技术

行为识别往往需要依据人体的深度信息为辅助对人体的姿势进行识别，例如进行摔倒检测时借助人体头、脚的深度，进行坐姿识别时借助人体上半身关节深度判断是否旋转，以及多人场景中对多人的行为进行识别时借助人与人之间的深度距离等。

而人体的深度信息通过平面图像是无法直接获取的，需要将一个图像展示的二维平面映射到三维空间。但目前对行为识别的判断和分析的过程中，从一个图像展示的二维平面映射到三维空间有多种可能性，拍摄该图像的拍摄设备的姿态也会对人物的姿势估计出现误差，这会导致行为识别不准。

发明内容

本申请公开了一种行为识别方法、装置及电子设备，以提高行为识别的准确度。

根据本申请实施例的第一方面，提供一种行为识别方法，该方法至少包括：

将已获得的针对目标对象拍摄的原始图像输入至已训练的第一深度学习模型，得到用于拍摄所述原始图像的拍摄设备的目标特征信息，所述目标特征信息至少包括：所述拍摄设备拍摄所述目标对象以得到所述原始图像时的拍摄角度、以及预测所述拍摄设备以指定角度拍摄所述目标对象得到的预测图像；

将所述原始图像输入至已训练的人形检测模型，得到目标检测信息，所述目标检测信息至少包括：目标对象中用于指示姿态的至少一个关键点在所述原始图像中的二维坐标；

将所述目标特征信息和所述目标检测信息进行融合，得到融合特征；所述融合特征用于预测所述目标对象的至少一个关键点的三维坐标，所述三维坐标用于预测所述目标对象的三维姿势；

将所述融合特征输入至已训练的第二深度学习模型，得到所述目标对象的三维姿势。

可选的，所述拍摄设备拍摄所述目标对象以得到所述原始图像时的拍摄角度至少包括：

所述拍摄设备拍摄所述目标对象以得到所述原始图像时被设置的俯仰角pitch角度、以及翻滚角roll角度。

可选的，所述目标检测信息还包括：从所述原始图像中提取出用于指示所述目标对象的对象特征；

所述将所述目标特征信息和所述目标检测信息进行融合，得到融合特征包括：

将所述原始图像、所述对象特征输入至已训练的第二深度学习模型，以依据所述对象特征从所述原始图像提取出对应的对象特征图；

将所述目标特征信息、所述目标检测信息和所述对象特征图进行融合得到融合特征。

可选的，所述第二深度学习模型至少通过以下计算层得到所述三维姿势：

所述三维坐标信息预测层，用于依据所述融合特征，预测所述目标对象的关键点在三维坐标系中每一平面内的二维坐标，对该关键点在三维坐标系中每一平面内的二维坐标进行指定运算以得到该关键点的三维坐标信息，输出该关键点的三维坐标信息至三维姿势预测层；所述三维坐标系中包含三个平面，且三个平面两两垂直；

所述三维姿势预测层，用于依据输入的所述目标对象中各关键点的三维坐标信息预测所述目标对象的三维姿势。

可选的，所述依据所述融合特征，预测所述目标对象的关键点在三维坐标系中每一平面内的二维坐标，包括：

若当前存在所述原始图像之前的前N帧连续视频帧，则依据所述前N帧连续视频帧中每一视频帧的融合特征和所述原始图像的融合特征确定参考三维坐标信息，依据参考三维坐标信息预测所述目标对象中各关键点在三维坐标系中每一平面内的二维坐标；所述参考三维坐标信息至少包含：结合所述前N帧连续视频帧中每一视频帧的融合特征和所述原始图像的融合特征，基于结合后的融合特征预测出的前N帧连续视频帧中每一视频帧内所述目标对象中各关键点的三维坐标信息。

可选的，所述依据输入的所述目标对象中各关键点的三维坐标信息预测所述目标对象的三维姿势，包括：

依据所述参考三维坐标信息和所述目标对象中各关键点的三维坐标信息预测所述目标对象的三维姿势。

可选的，所述第二深度学习模型还包括：特征图提取层；

所述特征图提取层，用于接收输入的所述原始图像和所述对象特征，依据所述对象特征从所述原始图像提取出对应的对象特征图。

可选的，所述关键点的三维坐标信息是相对于三维坐标系中根节点的三维坐标信息，所述根节点为所述目标对象中被指定的一个关键点。

根据本申请实施例的第二方面，提供一种行为识别装置，该装置至少包括：

目标特征信息获得单元，用于将已获得的针对目标对象拍摄的原始图像输入至已训练的第一深度学习模型，得到用于拍摄所述原始图像的拍摄设备的目标特征信息，所述目标特征信息至少包括：所述拍摄设备拍摄所述目标对象以得到所述原始图像时的拍摄角度、以及预测所述拍摄设备以指定角度拍摄所述目标对象得到的预测图像；

目标检测信息获得单元，用于将所述原始图像输入至已训练的人形检测模型，得到目标检测信息，所述目标检测信息至少包括：目标对象中用于指示姿态的至少一个关键点在所述原始图像中的二维坐标；

特征融合单元，用于将所述目标特征信息和所述目标检测信息进行融合，得到融合特征；所述融合特征用于预测所述目标对象的至少一个关键点的三维坐标，所述三维坐标用于预测所述目标对象的三维姿势；

三维姿势预测单元，用于将所述融合特征输入至已训练的第二深度学习模型，得到所述目标对象的三维姿势。

根据本申请实施例的第三方面，提供一种电子设备，该电子设备包括：处理器和存储器；

所述存储器，用于存储机器可执行指令；

所述处理器，用于读取并执行所述存储器存储的机器可执行指令，以实现如上所述的行为识别方法。

本申请的实施例提供的技术方案可以包括以下有益效果：

由以上技术方案可知，本申请提供的方案通过将针对目标对象拍摄的原始图像分别输入至第一深度学习模型和人形检测模型，得到用于拍摄原始图像的拍摄设备的目标特征信息和目标检测信息，然后将目标特征信息和目标检测信息进行融合，得到融合特征，最后将融合特征输入至已训练的第二深度学习模型，得到目标对象的三维姿势。上述目标特征信息包括拍摄设备拍摄目标对象时的拍摄角度，在预测目标的三维姿势时，将拍摄设备的影响也计算了进去，限制了原始图像从二维平面映射为三维空间的可能性，提高了行为识别的准确度，同时将多个模型得到的特征进行融合，使得预测到的目标对象的三维姿势更准确。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书一起用于解释本说明书的原理。

图1为本申请实施例提供的一种行为识别方法的流程图；

图2为本申请实施例提供的拍摄设备被设置的pitch角度的示意图；

图3为本申请实施例提供的拍摄设备被设置的roll角度的示意图；

图4为本申请实施例提供的预测图像的示意图；

图5为本申请实施例提供的原始图像中目标对象的人形图片的示意图；

图6为本申请实施例提供的一种行为识别装置的示意图；

图7为本申请实施例提供的一种电子设备的示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为了使本领域技术人员更好地理解本申请实施例提供的技术方案，并使本申请实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请实施例中技术方案作进一步详细的说明。

请参照图1，图1为本申请实施例提供的一种行为识别方法的流程示意图。如图1所示，该方法包括以下步骤：

步骤101，将已获得的针对目标对象拍摄的原始图像输入至已训练的第一深度学习模型，得到用于拍摄该原始图像的拍摄设备的目标特征信息。

在本申请实施例中，本步骤101中已获得的针对目标对象的原始图像可以是通过诸如相机等拍摄设备拍摄的视频中的单个视频帧，或者，该原始图像也可以是通过相机等拍摄设备拍摄的单张图像。其中，本实施例中拍摄原始图像的拍摄设备是针对目标对象部署的，比如教室中针对学生部署的摄像头、街道上针对行人部署的监控设备等。在具体应用时，本申请实施例可以通过与用于拍摄目标对象的拍摄设备之间建立连接，以获取拍摄设备拍摄的单张图像或者视频，或者，通过接收外部输入的数据获得针对目标对象拍摄的单张图像或者视频。

作为一个实施例，由于对目标对象进行行为识别，会受到拍摄设备对目标对象进行拍摄时的拍摄角度的影响，比如对于同一对象，拍摄设备以不同的拍摄角度进行拍摄时，该对象在不同拍摄角度的图片中被识别出的行为可能不一致。

因此本申请实施例在获得原始图像之后，将已获得的原始图像输入至已训练的第一深度学习模型，通过第一深度学习模型按照已训练好的方式对输入的原始图像进行处理，得到用于拍摄该原始图像的拍摄设备的目标特征信息。其中，目标特征信息至少包括：拍摄设备拍摄上述目标对象以得到该原始图像时的拍摄角度、以及预测该拍摄设备以指定角度拍摄目标对象得到的预测图像。

在本实施例中，上述拍摄设备拍摄目标对象以得到原始图像时被设置的拍摄角度包括：俯仰角pitch角度、以及翻滚角roll角度。其中，pitch角度是指相对于水平放置的拍摄设备，拍摄设备的镜头向上或者向下倾斜后的角度，可参照图2；roll角度是指相对于摄像头的中轴线垂直于地面放置的拍摄设备，拍摄设备的镜头向左边旋转或者向右边旋转后的角度，可参照图3。

作为一个实施例，上述预测图像是预测该拍摄设备以pitch角度为0，roll角度也为0(即拍摄设备水平放置且摄像头的中轴线垂直于地面)的角度拍摄目标对象得到的预测图像，在对预测图像进行预测时，根据当前得到的拍摄设备的拍摄角度以原始图像的边界处开始预测，比如在当前得到的拍摄设备的拍摄角度相对于指定角度为俯视时，这时拍摄设备若以指定角度进行拍摄，将不能拍摄到原始图像上边的一部分，因此可以通过预测拍摄设备以指定角度进行拍摄时无法拍摄到的部分图像，得到相对于原始图像的预测图像。示例性的，如图4中左图为本申请实施例中的拍摄设备仰视时拍摄的原始图像，右图为本申请实施例中的拍摄设备以pitch角度为0，roll角度也为0的角度拍摄的预测图像，以pitch角度为0，roll角度也为0的角度拍摄时，拍摄设备将不能拍摄到图像的上边的一部分(即右图中灰色部分)。

可选的，在本申请实施例中，第一深度学习模型可以通过以下方式训练得到：预先准备好已标记拍摄角度的图像样本集，以及图像样本集中各图像样本对应的在指定角度下拍摄得到的预测图像样本集，根据图像样本集和预测图像样本集训练第一深度学习模型。

步骤102，将原始图像输入至已训练的人形检测模型，得到目标检测信息。

作为一个实施例，步骤102中的目标检测信息至少包括：目标对象中用于指示姿态的至少一个关键点在原始图像中的二维坐标。可选的，可以选择能反应目标对象的姿势的关节点作为关键点，和/或，还可以将能目标对象各部位的中心点作为关键点。

可选的，本步骤102中的人形检测模型可以采用相关技术中已训练好的模型，该人形检测模型可以对原始图像中存在的人进行检测。由于本申请实施例中原始图像中包含的目标对象为人，所以可以通过人形检测模型确定待识别行为的目标对象在原始图像中的位置。可选的，本实施例中的人形检测模型可以通过诸如HRNET，ALPHAPOSE、OPENPOSE等的人体姿态估计网络，对目标任务的2D图像进行关键点计算。具体计算过程可参照相关技术，这里不再赘述。

可选的，本申请实施例中的目标检测信息还包括：从原始图像中提取出用于指示目标对象的对象特征，比如目标对象所穿戴的衣帽，目标对象的长相特征、身高特征等可以标识目标对象的特征。

步骤103，将目标特征信息和目标检测信息进行融合，得到融合特征。

在本申请实施例中，融合特征用于预测目标对象的至少一个关键点的三维坐标，三维坐标用于预测目标对象的三维姿势。可选的，在对目标特征信息和目标检测信息进行融合时，需要将目标特征信息和目标检测信息都转化为向量矩阵，然后根据转化后的向量矩阵的最大维度，将各向量转化为相同维度，然后将转化后的向量相加得到融合向量，该融合向量即融合特征。

基于目标检测信息还包括从原始图像中提取出用于指示目标对象的对象特征，本实施例中将所述目标特征信息和所述目标检测信息进行融合，得到融合特征时可以通过以下步骤：将原始图像、对象特征输入至已训练的第二深度学习模型，以依据该对象特征从原始图像提取出对应的对象特征图；将目标特征信息、目标检测信息和对象特征图进行融合得到融合特征。其中，对象特征图是第二深度学习模型根据对象特征对原始图像进行特征提取，以提取出的强化目标对象的人形图片的对象特征图，其中人形图片如图5所示。

示例性的，第二深度学习模型可以依据对象特征从原始图像提取出多张对象特征图，该对象特征图的分辨率相比原始图像的分辨率会缩小，缩小对象特征图的分辨率是为了处理对象特征图时降低计算的复杂度。将对象特征图和目标特征信息、目标检测信息进行融合可以参照上述目标特征信息和目标检测信息进行融合的方法，这里不再赘述。

步骤104，将融合特征输入至已训练的第二深度学习模型，得到目标对象的三维姿势

可选的，本申请实施例中的第二深度学习模型至少通过以下计算层得到目标对象的三维姿势：

三维坐标信息预测层，用于依据融合特征，预测目标对象的关键点在三维坐标系中每一平面内的二维坐标，对该关键点在三维坐标系中每一平面内的二维坐标进行指定运算以得到该关键点的三维坐标信息，输出该关键点的三维坐标信息至三维姿势预测层，其中三维坐标系中包含三个平面，且三个平面两两垂直。

作为一个实施例，三维坐标信息可以反应人体的深度信息，因此第二深度学习模型可以依据目标对象的三维坐标信息对目标对象的行为进行识别。

本申请实施例中，目标对象的三维坐标信息中的三维坐标可以通过以下方式计算：

示例性的，可以在人形图片的二维平面所映射出的三维空间建立一个三维坐标系，依据融合特征得到目标对象的至少一个关键点在该三维坐标系中的三个平面(xy平面、xz平面、yz平面)中的二维坐标。由于此时针对任一个关键点，该点将在三个平面内都具有一个坐标，比如点A在xy平面内坐标为(x1，y1)，在xz平面内坐标为(x2，z1)，在yz平面内坐标为(y2，z2)。因此，点A将具有两个x轴的坐标，两个y轴的坐标和两个z轴的坐标，可以通过对点A对应的所有二维x轴坐标进行平均运算得到点A的三维坐标中x坐标为(x1+x2)/2，对点A对应的所有二维y轴坐标进行平均运算得到点A的三维坐标中y坐标为(y1+y2)/2，对点A对应的所有二维z轴坐标进行平均运算得到点A的三维坐标中z坐标为(z1+z2)/2，即点A最终的三维坐标为((x1+x2)/2，(y1+y2)/2，(z1+z2)/2)。

三维姿势预测层，用于依据输入的目标对象中各关键点的三维坐标信息预测所述目标对象的三维姿势。

需要说明的是，基于人体的行为存在连贯性，单个图片中的姿势可能会误导目标对象的行为，比如从当前进行行为识别的图像中识别出目标对象正在跑步，但实际上目标对象只是在走路的过程中简单演示跑步的动作，并未真正跑步，这种行为只看一帧图像显然是无法准确识别目标对象的行为的。为了使得预测目标对象的三维姿势更加具有连贯性和稳定性，以提高对目标对象进行行为识别的准确性，本申请实施例还可以依据下述方法对三维姿势预测层进行优化：

在具体实现时，三维坐标信息预测层依据所述融合特征，预测所述目标对象的关键点在三维坐标系中每一平面内的二维坐标可以通过以下步骤：

作为一个实施例，如果原始图像为视频中的一个视频帧，若当前存在原始图像之前的前N帧连续视频帧，则依据前N帧连续视频帧中每一视频帧的融合特征和原始图像的融合特征确定参考三维坐标信息，依据参考三维坐标信息预测目标对象中各关键点在三维坐标系中每一平面内的二维坐标。其中，参考三维坐标信息至少包含：结合前N帧连续视频帧中每一视频帧的融合特征和原始图像的融合特征，基于结合后的融合特征预测出的前N帧连续视频帧中每一视频帧内目标对象中各关键点的三维坐标信息。

基于上述三维坐标信息的获取方法，三维姿势预测层依据输入的目标对象中各关键点的三维坐标信息预测所述目标对象的三维姿势可以通过以下步骤：依据参考三维坐标信息和目标对象中各关键点的三维坐标信息预测所述目标对象的三维姿势。

示例性的，如果当前存在12张视频帧，被记为第0～11帧视频帧，本申请实施例中的原始图像为第11帧，若上述N为9，则获取第2～10帧视频帧的融合特征，根据第2～10帧各视频帧的融合特征和第第11帧的融合特征，确定第2～10帧视频帧中目标对象的三维坐标信息，将第2～10帧视频帧中目标对象的三维坐标信息按照每组3个分为3组：第2～4帧、第5～7帧和第8～10帧，分别根据第2～4帧视频帧中目标对象的三维坐标信息预测第11帧中目标对象的二维坐标、根据第5～7帧视频帧中目标对象的三维坐标信息预测第11帧中目标对象的二维坐标、根据第8～10帧视频帧中目标对象的三维坐标信息预测第11帧中目标对象的二维坐标，然后对上述预测到的3组第11帧中目标对象各关键点的二维坐标进行平均值计算，得到最终的第11帧中目标对象的二维坐标，进而可以通过对目标对象的各关键点在三维坐标系中每一平面内的二维坐标进行指定运算以得到各关键点的三维坐标信息。本实施例中可以选取N为3的倍数，按照上述对N帧连续视频帧分组的方法，预测目标对象的三维坐标信息。

进一步的，可以根据第2～10帧视频帧中目标对象的三维坐标信息和第11帧中目标对象的三维坐标信息，预测目标对象的三维姿势。

上述实施例中，可以通过结合原始图像之前的N帧连续视频帧中目标对象对应的融合特征，再依据原始图像中目标对象对应的融合特征对目标对象的三维姿势进行预测。相比只依靠单个图像对目标对象的三维姿势进行预测，考虑到了人体进行动作的连贯性，可以进一步提高对目标对象进行行为识别的准确性。

作为另一个实施例，如果原始图像为单张图片，或者，若当前不存在原始图像之前的前N帧连续视频，则目标对象的关键点的二维坐标是依据目标对象的融合特征进行预测得到的，预测目标对象的三维姿势时是依据该目标对象的三维坐标得到的。

可选的，本申请实施例中第二深度学习模型还包括：特征图提取层。该特征图提取层用于接收输入的原始图像和对象特征，依据对象特征从原始图像提取出对应的对象特征图。

至此，完成图1所示流程。

通过图1所述的方法实施例，可以看出，本申请提供的方案通过将针对目标对象拍摄的原始图像分别输入至第一深度学习模型和人形检测模型，得到用于拍摄原始图像的拍摄设备的目标特征信息和目标检测信息，然后将目标特征信息和目标检测信息进行融合，得到融合特征，最后将融合特征输入至已训练的第二深度学习模型，得到目标对象的三维姿势。上述目标特征信息包括拍摄设备拍摄目标对象时的拍摄角度，在预测目标的三维姿势时，将拍摄设备的影响也计算了进去，限制了原始图像从二维平面映射为三维空间的可能性，提高了行为识别的准确度，同时将多个模型得到的特征进行融合，使得预测到的目标对象的三维姿势更准确。

可选的，本申请实施例中预测的目标对象的各关键点的三维坐标信息是相对于三维坐标系中根节点的三维坐标信息，该根节点为目标对象中被指定的一个关键点。

比如当目标对象具有3个关键点：A、B、C时，将A作为根节点，以A点所在的位置深度设置为0，以A点朝向图像外侧的方向为正值，以A点朝向图像外侧的方向为负值，比如若预测到B点与拍摄设备的镜头之间的距离相比A点与拍摄设备的镜头之间的距离更近，则确定B点所在的位置深度小于0。通过指定目标对象中一个关键点为根节点建立三维坐标系，更便于第二深度学习模型分析目标对象对应的各关键点之间的深度关系进行三维姿势预测。

在本申请实施例中，通过上述根节点还可以有效降低图像中目标对象的指定行为进行识别时的漏检率。例如在摔倒识别中通过判断双脚的相对深度和头的相对深度来降低摔倒的漏检率，在不良坐姿识别中，也可以通过上述指定目标对象中一个关键点为根节点的方法来判断人是否趴在桌子上、是否向后倾斜等，有效降低识别的漏检率。

以上完成了对本申请实施例提供的方法实施例的介绍，下面对本申请实施例提供的一种行为识别装置进行描述。如图6所示，该装置至少包括：

目标特征信息获得单元601，用于将已获得的针对目标对象拍摄的原始图像输入至已训练的第一深度学习模型，得到用于拍摄所述原始图像的拍摄设备的目标特征信息，所述目标特征信息至少包括：所述拍摄设备拍摄所述目标对象以得到所述原始图像时的拍摄角度、以及预测所述拍摄设备以指定角度拍摄所述目标对象得到的预测图像。

目标检测信息获得单元602，用于将所述原始图像输入至已训练的人形检测模型，得到目标检测信息，所述目标检测信息至少包括：目标对象中用于指示姿态的至少一个关键点在所述原始图像中的二维坐标。

特征融合单元603，用于将所述目标特征信息和所述目标检测信息进行融合，得到融合特征；所述融合特征用于预测所述目标对象的至少一个关键点的三维坐标，所述三维坐标用于预测所述目标对象的三维姿势。

三维姿势预测单元604，用于将所述融合特征输入至已训练的第二深度学习模型，得到所述目标对象的三维姿势。

所述特征融合单元603将所述目标特征信息和所述目标检测信息进行融合，得到融合特征包括：

若当前存在所述原始图像之前的前N帧连续视频帧，则依据所述前N帧连续视频帧中每一视频帧的融合特征和所述原始图像的融合特征确定参考三维坐标信息，依据参考三维坐标信息预测所述目标对象中各关键点在三维坐标系中每一平面内的二维坐标；所述参考三维坐标信息至少包含：结合所述前N帧连续视频帧中每一视频帧的融合特征和所述原始图像的融合特征，基于结合后的融合特征预测出的前N帧连续视频帧中每一视频帧内所述目标对象中各关键点的三维坐标信息；

可选的，所述第二深度学习模型还包括：特征图提取层；

对应地，本申请实施例还提供了一种电子设备的硬件结构图，具体如图7所示，该电子设备可以为上述实施行为识别方法的设备。如图7所示，该硬件结构包括：处理器和存储器。

其中，所述存储器，用于存储机器可执行指令；

所述处理器，用于读取并执行所述存储器存储的机器可执行指令，以实现如上所示的所对应的行为识别方法的方法实施例。

作为一个实施例，存储器可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，存储器可以是：易失存储器、非易失性存储器或者类似的存储介质。具体地，存储器可以是RAM(Radom Access Memory，随机存取存储器)、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、DVD等)，或者类似的存储介质，或者它们的组合。

至此，完成图7所示电子设备的描述。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种行为识别方法，其特征在于，所述方法包括：

将所述目标特征信息和所述目标检测信息进行融合，得到融合特征；所述融合特征用于预测所述目标对象的至少一个关键点的三维坐标，所述三维坐标用于预测所述目标对象的三维姿势；所述目标对象的关键点的三维坐标，是依据所述融合特征，预测该关键点在三维坐标系中每一平面内的二维坐标，并对该关键点在三维坐标系中每一平面内的二维坐标进行指定运算以得到的；

2.根据权利要求1所述的方法，其特征在于，所述拍摄设备拍摄所述目标对象以得到所述原始图像时的拍摄角度至少包括：

3.根据权利要求1所述的方法，其特征在于，所述目标检测信息还包括：从所述原始图像中提取出用于指示所述目标对象的对象特征；

4.根据权利要求1所述的方法，其特征在于，所述第二深度学习模型至少通过以下计算层得到所述三维姿势：

5.根据权利要求4所述的方法，其特征在于，所述依据所述融合特征，预测所述目标对象的关键点在三维坐标系中每一平面内的二维坐标，包括：

6.根据权利要求5所述的方法，其特征在于，所述依据输入的所述目标对象中各关键点的三维坐标信息预测所述目标对象的三维姿势，包括：

7.根据权利要求3所述的方法，其特征在于，所述第二深度学习模型包括：特征图提取层；

8.根据权利要求1至7任一所述的方法，其特征在于，所述关键点的三维坐标信息是相对于三维坐标系中根节点的三维坐标信息，所述根节点为所述目标对象中被指定的一个关键点。

9.一种行为识别装置，其特征在于，所述装置包括：

特征融合单元，用于将所述目标特征信息和所述目标检测信息进行融合，得到融合特征；所述融合特征用于预测所述目标对象的至少一个关键点的三维坐标，所述三维坐标用于预测所述目标对象的三维姿势；所述目标对象的关键点的三维坐标，是依据所述融合特征，预测该关键点在三维坐标系中每一平面内的二维坐标，并对该关键点在三维坐标系中每一平面内的二维坐标进行指定运算以得到的；

10.一种电子设备，其特征在于，该电子设备包括：处理器和存储器；

所述存储器，用于存储机器可执行指令；

所述处理器，用于读取并执行所述存储器存储的机器可执行指令，以实现如权利要求1到8任一项所述的方法。