CN112613383A

CN112613383A - 关节点检测方法、姿态识别方法及装置

Info

Publication number: CN112613383A
Application number: CN202011499437.6A
Authority: CN
Inventors: 罗正雄; 王志成; 蔡元昊
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2021-04-06

Abstract

本发明提供了一种关节点检测方法、姿态识别方法及装置，涉及图像处理的技术领域，该方法包括：获取待检测的目标图像；通过关节点检测模型对目标图像进行关节点检测，得到目标图像中对应的关节点热力图；其中，关节点检测模型包括特征提取网络和特征融合网络；特征提取网络包括密集连接块和所述密集连接块之间的正交注意力模块；正交注意力模块用于提取多尺度特征；特征融合网络包括多个阶段的二阶融合模块，每个阶段的二阶融合模块均用于对多尺度特征和前一阶段的二阶融合模块输出的聚合特征进行加权融合；基于关节点热力图确定目标图像中的关节点。本发明能够高效地检测得到精度较高的关节点检测结果。

Description

关节点检测方法、姿态识别方法及装置

技术领域

本发明涉及图像处理技术领域，尤其是涉及一种关节点检测方法、姿态识别方法及装置。

背景技术

人体姿态识别旨在定位图像中诸如眼睛、耳朵和肩部等关键骨骼点(也可称为关节点)，随着神经网络的研究以及硬件设施的发展，关节点的检测精度得到了较大地提升。由于多尺度信息在关节点检测中具有较为重要的作用，现有关节点检测模型通常采用级联金字塔框架提取多尺度信息，虽然此类关节点模型具有较高的检测精度，但是级联金字塔框架过于庞大，导致关节点检测效率较低。目前，单金字塔框架的关节点检测模型属于一种轻量级模型，单金字塔框架相较于级联金字塔框架足够轻便，然而单金字塔框架的关节点检测模型无法提取足量的多尺度信息，将导致关节点检测精度较低。综上所述，现有的关节点检测方法无法高效地检测得到精度较高的关节点检测结果。

发明内容

有鉴于此，本发明的目的在于提供一种关节点检测方法、姿态识别方法及装置，能够高效地检测得到精度较高的关节点检测结果。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种关节点检测方法，包括：获取待检测的目标图像；通过关节点检测模型对所述目标图像进行关节点检测，得到所述目标图像对应的关节点热力图；其中，所述关节点检测模型包括特征提取网络和特征融合网络；所述特征提取网络用于提取多尺度特征；所述特征融合网络包括多个阶段的二阶融合模块，每个阶段的所述二阶融合模块均用于对所述多尺度特征和前一阶段的二阶融合模块输出的聚合特征进行加权融合；基于所述关节点热力图确定所述目标图像中的关节点。

在一种实施方式中，所述关节点检测模型还包括热力图生成网络；所述特征提取网络包括密集连接块和所述密集连接块之间的正交注意力模块；所述通过关节点检测模型对所述目标图像进行关节点检测，得到所述目标图像对应的关节点热力图的步骤，包括：通过所述特征提取网络内的各个所述正交注意力模块对所述目标图像进行特征提取，得到所述目标图像对应的多个多尺度特征；通过所述特征融合网络内的每个阶段的所述二阶融合模块对前一阶段的二阶融合模块输出的聚合特征和与该聚合特征空间尺寸相同的多尺度特征进行加权融合，得到该阶段的二阶段融合子网络输出的聚合特征；所述热力图生成网络对所述特征融合网络输出的聚合特征进行处理，生成所述目标图像对应的关节点热力图。

在一种实施方式中，其中，所述正交注意力模块包括多个依次连接的正交注意力单元；所述通过所述特征提取网络内的各个所述正交注意力模块对所述目标图像进行特征提取，得到所述目标图像对应的多个多尺度特征的步骤，包括：对于所述特征提取网络内的每个正交注意力模块内的第一个正交注意力单元，将前一阶段的正交注意力模块输出的多尺度特征作为该第一个正交注意力单元的输入特征，通过该第一个正交注意力单元针对该输入特征输出多尺度特征；对于所述特征提取网络内的每个正交注意力模块内的其余正交注意力单元，将前一阶段的正交注意力模块输出的多尺度特征和位于该正交注意力单元之前的各个正交注意力单元输出的多尺度特征，作为该正交注意力单元的输入特征，通过该正交注意力单元针对该输入特征输出多尺度特征。

在一种实施方式中，所述通过该正交注意力单元针对该输入特征输出多尺度特征的步骤，包括：通过该正交注意力单元中的蒙版注意力子单元对输入特征执行特征取反操作，得到蒙版特征图；通过该正交注意力单元中的通道注意力子单元对所述输入特征进行加权处理，得到通道特征图；将所述蒙版特征图和所述通道特征图进行特征融合，得到该正交注意力单元输出的多尺度特征。

在一种实施方式中，通过所述特征融合网络内每个阶段的所述二阶融合模块对前一阶段的二阶融合模块输出的聚合特征和与该聚合特征空间尺寸相同的多尺度特征进行加权融合，得到该阶段的二阶融合模块输出的聚合特征的步骤，包括：对于所述特征融合网络内每个阶段的所述二阶融合模块，将前一阶段的二阶融合模块输出的聚合特征和与该聚合特征空间尺寸相同的多尺度特征进行拼接，得到关系权重图；基于所述关系权重图对前一阶段的二阶融合模块输出的聚合特征和与该聚合特征空间尺寸相同的多尺度特征进行加权融合，得到该阶段的二阶融合模块输出的聚合特征。

在一种实施方式中，所述基于所述关节点热力图确定所述目标图像中的关节点的步骤，包括：根据所述关节点热力图，确定所述关节点热力图中各个像素点为关节点的概率；根据所述概率，确定所述关节点热力图中的目标像素点；将所述目标像素点映射至所述目标图像，得到所述目标图像中的关节点。

在一种实施方式中，所述获取待检测的目标图像的步骤，包括：获取待检测的原始图像；将所述原始图像输入至目标检测网络，得到目标对象所在的包围框；截取所述包围框所在区域，得到待检测的目标图像。

在一种实施方式中，所述关节点检测模型的训练步骤，包括：将训练样本输入至初始检测模型，得到所述训练样本对应的关节点热力图；基于预设损失函数和所述训练样本对应的关节点热力图计算损失值，并根据所述损失值更新所述初始检测模型的参数，得到所述关节点检测模型。

第二方面，本发明实施例还提供一种姿态识别方法，包括：采用如第一方面提供的任一项所述的方法对待检测的目标图像进行关节点检测，得到所述目标图像中所包含的目标对象的多个关节点；根据所述目标对象的多个关节点的位置，确定所述目标对象的姿态。

第三方面，本发明实施例提供了一种关节点检测装置，包括：目标图像获取模块，用于获取待检测的目标图像；热力图获取模块，用于通过关节点检测模型对所述目标图像进行关节点检测，得到所述目标图像对应的关节点热力图；其中，所述关节点检测模型包括特征提取网络和特征融合网络；所述特征提取网络用于提取多尺度特征；所述特征融合网络包括多个阶段的二阶融合模块，每个阶段的所述二阶融合模块均用于对所述多尺度特征和前一阶段的二阶融合模块输出的聚合特征进行加权融合；关节点确定模块，用于基于所述关节点热力图确定所述目标图像中的关节点。

第四方面，本发明实施例提供了一种姿态识别装置，包括：关节检测模块，用于采用如第一方面提供的任一项所述的方法对待检测的目标图像进行关节点检测，得到所述目标图像中所包含的目标对象的多个关节点；姿态识别模块，用于根据所述目标对象的多个关节点的位置，确定所述目标对象的姿态。

第五方面，本发明实施例提供了一种电子设备，包括处理器和存储器；所述存储器上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如第一方面提供的任一项所述的方法，或，执行如第二方面提供的所述的方法。

第六方面，本发明实施例提供了一种计算机存储介质，用于储存为第一方面提供的任一项所述方法所用的计算机软件指令，或，执行储存为第二方面提供的所述方法所用的计算机软件指令。

本发明实施例提供了一种关节点检测方法及装置，首先获取待检测的目标图像，然后通过关节点检测模型对目标图像进行关节点检测，得到目标图像对应的关节点热力图，并基于关节点热力图确定目标图像中的关节点，其中，上述关节点检测模型包括特征提取网络和特征融合网络，特征提取网络用于提取多尺度特征，特征融合网络包括多个阶段的二阶融合模块，每个阶段的二阶融合模块均用于对多尺度特征和前一阶段的二阶融合模块输出的聚合特征进行加权融合。上述方法提出了一种新的关节点检测模型，利用新的关节点检测模型能够高效地检测得到精度较高的关节点检测结果。具体的，通过利用特征提取网络提取不同空间尺寸的多尺度特征，使得关节点检测模型可以提取较多的多尺度信息，且利用特征融合网络对多尺度特征和相应的聚合特征进行加权融合可以更充分地利用多尺度信息，由于该关键点检测模型与级联金字塔框架相比，结构更为精简，因此相较于级联金字塔框架的神经网络模型，本发明实施例可以更为高效地检测得到精度较高的关节点检测结果，相较于单金字塔框架的轻量级神经网络模型，本发明实施例通过提取较多的多尺度信息可以有效提高关节点检测精度，也即本发明实施例综合提高了关节点检测的效率和精度。

本发明实施例提供了一种姿态识别方法及装置，采用上述关节点检测方法提供的任一项方法对待检测的目标图像进行关节点检测，得到目标图像中所包含的目标对象的多个关节点，并根据目标对象的多个关节点识别目标对象的姿态。上述方法利用检测效率较快且检测精度较高的关节点检测方法检测目标图像中所包含的所有关节点，从而基于检测得到的关节点识别目标对象的姿态，进而可以更为高效地识别得到更为准确的目标对象人体姿态。

本发明实施例的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本发明实施例的上述技术即可得知。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例所提供的一种电子设备的结构示意图；

图2示出了本发明实施例所提供的一种关节点检测方法的流程示意图；

图3示出了本发明实施例所提供的一种关节点检测模型的结构示意图；

图4示出了本发明实施例所提供的一种正交注意力模块的结构示意图；

图5示出了本发明实施例所提供的一种正交注意力单元的结构示意图；

图6示出了本发明实施例所提供的一种二阶融合模块的结构示意图；

图7示出了本发明实施例所提供的一种姿态识别方法的流程示意图；

图8示出了本发明实施例所提供的一种关节点检测装置的结构示意图；

图9示出了本发明实施例所提供的一种姿态识别装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

目前，级联金字塔框架的神经网络模型检测关节点的效率较低，而单金字塔框架的神经网络模型检测关节点的准确度较低，为改善此问题，本发明实施例提供了关节点检测方法、姿态识别方法及装置，该技术可应用于需要进行关节点检测的场景或需要进行姿态识别的场景，以下对本发明实施例进行详细介绍。

实施例一：

首先，参照图1来描述用于实现本发明实施例的一种关节点检测方法、姿态识别方法及装置的示例电子设备100。

如图1所示的一种电子设备的结构示意图，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备可以具有图1示出的部分组件，也可以具有图1未示出其他组件和结构。

所述处理器102可以采用数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)中的至少一种硬件形式来实现，所述处理器102可以是中央处理单元(CPU)、图形处理单元(GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元中的一种或几种的组合，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集装置110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的关节点检测方法、姿态识别方法及装置的示例电子设备可以被实现为诸如智能手机、平板电脑、计算机等智能终端。

实施例二：

参见图2所示的一种关节点检测方法的流程示意图，该方法主要包括以下步骤S202至步骤S206：

步骤S202，获取待检测的目标图像。

其中，目标图像可以为包含有一个目标对象的图像，目标图像可以基于待检测的原始图像得到，原始图像包含有至少一个目标对像，通过截取原始图像中包含的目标对像可以得到目标图像，在一些实施方式中，可以通过具有拍摄功能的设备(例如，智能手机或相机)拍摄得到原始图像，也可为用户提供人工上传通道，从而获取用户上传的原始图像。为较好地对原始图像中每个目标对象的关节点进行检测，本发明实施例可以将各个目标对象所在区域从原始图像中截取出来，从而得到仅包含有一个目标对象的目标图像，进而对该目标图像中目标对象的所有关节点进行检测。

步骤S204，通过关节点检测模型对目标图像进行关节点检测，得到目标图像对应的关节点热力图。

其中，关节点检测模型包括特征提取网络和特征融合网络，特征提取网络用于自上而下地提取目标图像中的多尺度特征，特征融合网络用于自下而上地对特征提取网络提取得到的多尺度特征进行融合，进而基于融合后的特征生成关节点热力图。在一种实施方式中，特征提取网络包括密集连接块和密集连接块之间的正交注意力模块(OAB，Orthogonal Attention Block)，正交注意力模块用于提取多尺度特征，例如，OAB模块1用于提取空间尺寸为l1*w1的特征图的多尺度特征，OAB模块2用于提取空间尺寸为l2*w2的特征图的多尺度特征；另外，特征融合网络还包括多个阶段的二阶融合模块，每个阶段的二阶融合模块均用于对多尺度特征和前一阶段的二阶融合模块输出的聚合特征进行加权融合，例如，第二阶段的二阶融合模块用于对多尺度特征和第一阶段的二阶融合模块输出的聚合特征进行加权融合，从而得到第二阶段的二阶融合模块输出的聚合特征。

步骤S206，基于关节点热力图确定目标图像中的关节点。

其中，关节点热力图与目标图像中所包含的所有关节点一一对应，在一种实施方式中，可以对关节点热力图中各个像素点所表征的概率值进行统计，从中确定概率值最大的像素点，并获取该像素点对应的坐标值，通过将坐标值映射至目标图像中，即可得到该关节点热力图对应的关节点。在具体实现时，对目标图像中所包含的每个关节点对应的关节点热力图均做上述处理，即可确定目标图像中所包含的所有关节点。

本发明实施例提供的上述关节点检测方法，提出了一种新的关节点检测模型，利用新的关节点检测模型能够高效地检测得到精度较高的关节点检测结果。具体的，通过利用各个正交注意力模块分别提取不同空间尺寸的多尺度特征，使得关节点检测模型可以提取较多的多尺度信息，且利用特征融合网络对多尺度特征和相应的聚合特征进行加权融合可以更充分地利用多尺度信息，由于该关键点检测模型与级联金字塔框架相比，结构更为精简，因此相较于级联金字塔框架的神经网络模型，本发明实施例可以更为高效地检测得到精度较高的关节点检测结果，相较于单金字塔框架的轻量级神经网络模型，本发明实施例通过提取较多的多尺度信息可以有效提高关节点检测精度，也即本发明实施例综合提高了关节点检测的效率和精度。

在实际应用中，考虑到原始图像中可能包含有较多目标对象，不利于对原始图像中每个目标对象的关节点进行检测，因此本发明实施例将各个目标对象所在区域从原始图像中截取出来得到目标图像，进而分别对各个目标图像中所包含的关节点进行检测，以在一定程度上提高关节点检测的准确性。本发明实施例提供了一种获取待检测的目标图像的具体实施方式，具体可参照如下步骤(1)～步骤(3)：

(1)获取待检测的原始图像。其中，原始图像可以包括诸如智能手机或相机等具有拍摄功能的电子设备采集得到的图像，也可以包括用户上传的图像或电子设备从网络上下载的图像，在一种实施方式中，可以为用户提供图像上传通道，用户可自行从众多图像中选择并上传需要进行关节点检测的图像作为原始图像；在另一种实施方式中，还可以将具有拍照功能的电子设备当前采集的图像作为待检测的原始图像。

(2)将原始图像输入至目标检测网络，得到标注有人物包围框的原始图像。其中，目标检测网络用于检测原始图像中所包含的目标对象，可以采用诸如Megdet网络、R-CNN(Region-based Convolutional Network)网络、YOLO(You Only Look Once)网络或SSD(Single Shot Multi-Box Detector)网络等，人物包围框用于在原始图像中标注目标对象所在区域，在实际应用中可采用矩形框作为人物包围框。在一种实施方式中，为得到检测质量较高的人物包围框，本发明实施例可采用Megdet网络作为目标检测网络，从而得到标注有人物包围框的原始图像。

(3)截取人物包围框所在区域，得到待检测的目标图像。为了进一步提高关节点检测的精度，本发明实施例还可以将截取到的目标图像缩放至指定尺寸，假设指定尺寸为384×288，则将截取得到的人物包围框所在区域缩放至384×288，将缩放尺寸后的图像作为目标图像，并在后续检测过程中对该指定尺寸的目标图像进行关节点检测。

为便于理解，本发明实施例进一步提供了一种关节点检测模型，参见图3示例性提供的一种关节点检测模型的结构示意图，其中，关节点检测模型还包括热力图生成网络，热力图生成网络用于生成关节点热力图，特征融合网络包括多个二阶融合模块(SFU，Second-order Fusion Unit)，用于对多尺度特征和前一阶段的二阶融合模块输出的聚合特征进行加权融合，图3中左斜线覆盖区域表示特征图，右斜线覆盖区域表示关节点热力图。特征提取网络的输入为目标图像，输出为不同空间尺寸的多尺度特征；特征融合网络的输入为不同空间尺寸的多尺度特征，输出为聚合特征；热力图生成网络的输入为聚合特征，输出为关节点热力图。

在图3的基础上，本发明实施例提供了一种人物通过关节点检测模型对目标图像进行关节点检测，得到目标图像中所包含的所有关节点的关节点热力图的具体实施方式，参见如下步骤1至步骤3：

步骤1，通过特征提取网络内的各个正交注意力模块对目标图像进行特征提取，得到目标图像对应的多个多尺度特征。其中，正交注意力模块包括多个依次连接的正交注意力单元。

为便于对步骤1进行理解，本发明实施例进一步对特征提取网络进行解释说明，本发明实施例所提供的特征提取网络还包括多个第一卷积层(conv)和池化层(Pooling)，其中，图3中通过“conv+Pooling”标注的箭头处表示第一卷积层和池化层，由图3可知，第一卷积层的数量比正交注意力模块的数量少一，第一卷积层与除特征融合网络内位于末端的正交注意力模块之外的其余各个正交注意力模块一对一相连，也可理解为，正交注意力模块之间通过第一卷积层和池化层连接。其中，第一卷积层例如可以为1*1卷积核，池化层可以为2*2步长为2的池化层。例如，本发明实施例提供的正交注意力模块为4个，则第一卷积层和池化层的数量均为3个。

基于上述特征提取网络，本发明实施例提供了一种通过特征提取网络内的各个正交注意力模块对目标图像进行特征提取，得到多个多尺度特征的具体实施方式，其中，不同正交注意力模块输出的多尺度特征的空间尺寸不同，具体可参见如下(1)和(2)：

(1)对于特征提取网络内第一阶段的正交注意力模块，通过该正交注意力模块对目标图像进行特征提取，得到同一空间尺寸的多个多尺度特征，并通过与该阶段的正交注意力模块相连的第一卷积层和池化层对该空间尺寸的各个多尺度特征进行下采样处理，得到该正交注意力模块输出的一个多尺度特征。其中，同一空间尺寸例如可以为目标图像原始尺寸的1/4，本申请实施例对此不作限定。由图4所示，多尺度特征输入至特征提取网络中第一阶段的正交注意力模块，假设原始尺寸为S，则第一阶段的正交注意力模块将对空间尺寸为1/4S的目标图像进行特征提取，得到空间尺寸为1/4S的多个多尺度特征，将各个多尺度特征输入至与该正交注意力模块连接的第一卷积层和池化层，利用该第一卷积层和该池化层对输入的多个多尺度特征进行下采样处理，得到空间尺寸为1/8S的一个多尺度特征。

(2)对于其余阶段的正交注意力模块，通过该阶段的正交注意力模块对前一阶段的正交注意力模块输出的多尺度特征进行特征提取，得到同一空间尺寸下的多个多尺度特征，并通过与该阶段的正交注意力模块相连的第一卷积层和池化层对该空间尺寸的各个多尺度特征进行下采样处理，得到该正交注意力模块输出的一个多尺度特征。其中，同一空间尺寸可以为目标图像原始尺寸的1/8、1/16或1/32等。以图3为例，利用特征提取网络中第二阶段的正交注意力模块将对空间尺寸为1/8S的多尺度特征进行特征提取，得到空间尺寸为1/8S的多个多尺度特征，将各个多尺度特征输入至与该阶段的正交注意力模块连接的第一卷积层和池化层，利用该第一卷积层和该池化层对输入的多尺度特征进行下采样处理，得到空间尺寸为1/16S的一个多尺度特征。同理，利用特征图网络中第三阶段的正交注意力模块对空间尺寸为1/16S的多尺度特征进行特征提取，得到空间尺寸为1/16的多个多尺度特征，从而得到空间尺寸为1/32的一个多尺度特征，进而利用特征提取网络中第四阶段的正交注意力模块将对空间尺寸为1/32的多尺度特征进行特征提取，得到空间尺寸为1/32的多个多尺度特征。

为便于对通过正交注意力模块进行特征提取得到同一空间尺寸下的多个多尺度特征进行理解，本发明实施例进一步提供一种正交注意力模块。参见图4所示的一种正交注意力模块的结构示意图，正交注意力模块包括多个依次连接的正交注意力单元，示例性的图4所示的正交注意力模块包括三个依次连接的正交注意力单元，每个正交注意力单元均包括蒙版注意力(Mask Attention Unit，MAU)子单元和通道注意力(Channel AttentionUnit，CAU)子单元。在图4的基础上，本发明实施例提供了一种各个正交注意力模块对目标图像进行特征提取得到目标图像对应的多个多尺度特征的实施方式，具体可参加如下步骤1.1至步骤1.2：

步骤1.1，对于特征提取网络内的每个正交注意力模块内的第一个正交注意力单元，将前一阶段的正交注意力模块输出的多尺度特征作为该第一个正交注意力单元的输入特征，通过该第一个正交注意力单元针对该输入特征输出多尺度特征。例如，该正交注意力模块内第一个OAB单元的输入为的前一阶段的正交注意力模块输出的多尺度特征A，并输出针对该多尺度特征A输出多尺度特征B。

步骤1.2，对于特征提取网络内的每个正交注意力模块内的其余正交注意力单元，将前一阶段的正交注意力模块输出的多尺度特征和位于该正交注意力单元之前的各个正交注意力单元输出的多尺度特征，作为该正交注意力单元的输入特征，通过该正交注意力单元针对该输入特征输出多尺度特征。例如，正交注意力模块内第二个OAB单元的输入为多尺度特征A与多尺度特征B融合得到的输入特征，并针对该输入特征输出多尺度特征C；正交注意力模块内第三个OAB单元的输入为多尺度特征A、多尺度特征B和多尺度特征C融合得到的输入特征，并针对该输入特征输出多尺度特征D，依次类推，直至最后一个OAB单元输出多尺度特征。

本发明实施例提供了一种OAB单元，参见图5所示的一种正交注意力单元的结构示意图，其中，正交注意力单元包括蒙版注意力子单元和通道注意力子单元，MAU子单元包括1*1卷积核、DW9*9卷积核(也即，深度可分离卷积核)和Sigmoid激活函数，CAU子单元包括GPA(global-average-pooling，全局池化层)、两个1*1卷积核和Sigmoid激活函数，另外，OAB单元还包括一个1*1卷积核和一个3*3卷积核。基于此，本发明实施例提供了一种通过该正交注意力单元针对该输入特征输出多尺度特征的实施方式，参见如下(一)至(三)：

(一)通过该正交注意力单元中的蒙版注意力子单元对输入特征执行特征取反操作，得到蒙版特征图。MAU子单元通过蒙版盖住输出的蒙版特征图中所包含的输入特征所表征的特征，从而迫使不同层的信息尽可能丰富多样。参见图5所示，输入特征经1*1卷积核、DW9*9卷积核和Sigmoid激活函数后得到注意力图M(也可称之为，蒙版M)，其中，注意力图M所表征的特征和输入特征所表征的特征一致，然后利用F(x)＝1-x对该注意力图进行取反操作，即可得到蒙版特征图(1-M)，此时蒙版特征图(1-M)所表征的特征与输入特征所表征的特征完全相反。应当注意的是，MAU子单元不仅包括上述卷积核和激活函数，还包括取反操作和相乘操作。

(二)通过该正交注意力单元中的通道注意力子单元对输入特征进行加权处理，得到通道特征图。如图5所示，输入特征经GPA、两个1*1卷积核和Sigmoid激活函数建立拼接图中各个特征通道的依赖关系，得到通道权重α，将通道权重α与输入特征进行按位相乘，得到通道特征图。

(三)将蒙版特征图和通道特征图进行特征融合，得到该正交注意力单元输出的多尺度特征。CAU子单元用于探索不同特征通道之间的相互依赖关系从而提高单个网络层的非线性，使输出的通道特征图表征与输入特征不同的特征。在将蒙版特征图与通道特征图进行特征融合前，先将通道特征图经过一个1*1卷积核和一个3*3卷积核，再将该3.3卷积核输出的特征与蒙版特征图进行按位相乘，即可得到该正交注意力单元输出的多尺度特征。本发明实施例为使输出的多尺度特征与输入的输入特征存在更多的区别，通过MAU子单元输出与输入特征所表征的特征完全相反的蒙版特征图，并将该蒙版特征图与通道特征图进行按位相乘，从而得到具有更为丰富多样的多尺度特征。

本发明实施例通过上述OAB模块不停的生成新的多尺度特征，并将生成的多尺度特征与已有的多尺度特征进行拼接，从而形成一种紧密连接结构，达到抽取更多的多尺度特征的目的，在MAU子单元和CAU子单元的共同作用下，OAB模块能使单个空间尺寸下也具有丰富的多尺度特征。

步骤2，通过特征融合网络内每个阶段的二阶融合模块对前一阶段的二阶融合模块输出的聚合特征和与该聚合特征空间尺寸相同的多尺度特征进行加权融合，得到该阶段的二阶融合模块输出的聚合特征。其中，对于特征融合网络内第一阶段的二阶融合模块，可以对特征提取网络中最后一阶段的正交注意力模块输出的多尺度特征进行反卷积操作，然后通过第一阶段的二阶融合模块将反卷积操作得到的聚合特征和与该聚合特征空间尺寸相同的多尺度特征进行加权融合，得到该阶段的二阶融合模块输出的聚合特征；对于特征融合网络内其余阶段的二阶融合模块，可以对前一阶段的二阶融合模块输出的聚合特征进行反卷积操作，然后通过该阶段的二阶融合模块将反卷积操作得到的聚合特征和与该聚合特征空间尺寸相同的多尺度特征进行加权融合，得到该阶段的二阶融合模块输出的聚合特征。另外，特征融合网络中还包括Transposed Conv(转置卷积)，用于对聚合特征或者对特征提取网络中最后一阶段的正交注意力模块输出的多尺度特征进行反卷积操作。

由于OAB模块输出的多尺度特征为多个，在进行加权融合时，需要对同一空间尺寸的多尺度特征进行压缩，进而对压缩得到的特征图和聚合特征进行加权融合，在实际应用中，为对同一空间尺寸的多尺度特征进行压缩，本发明实施例提供的特征提取网络还包括多个依次相连的第二卷积层(conv)和归一化层(bn)，其中，图3中通过“conv+bn”标注的箭头处表示第二卷积层和归一化层，第二卷积层的数量与正交注意力模块的数量相同，第二卷积层与正交注意力模块一对一相连，通过将同一空间尺寸的多个多尺度特征输入至该第二卷积层和归一化层，即可得到该空间尺寸下的多个多尺度特征进行压缩。

另外，本发明实施例还示例性提供了一种二阶融合模块，参见图6所示的一种二阶融合模块的结构示意图，其中，二阶融合模块包括Concat函数，用于拼接压缩得到的特征图Fbu和聚合特征Ftd得到关系权重图，还包括一个1*1卷积核、DW9*9卷积核和Sigmoid激活函数。基于图6所示的二阶融合模块，本发明实施例提供了一种通过特征融合网络内每个阶段的二阶融合模块对前一阶段的二阶融合模块输出的聚合特征和与该聚合特征空间尺寸相同的多尺度特征进行加权融合，得到该阶段的二阶融合模块输出的聚合特征的实施方式，参见如下步骤2.1至步骤2.2：

步骤2.1，对于特征融合网络内每个阶段的二阶融合模块，将前一阶段的二阶融合模块输出的聚合特征和与该聚合特征空间尺寸相同的多尺度特征进行拼接，得到关系权重图。在一种实施方式中，可以通过第二卷积层和归一化层对空间尺寸相同的各个多尺度特征进行压缩处理。如图3所示，与第一个OAB模块连接的第二卷积层和归一化层将空间尺寸为1/4S的多个多尺度特征压缩为空间尺寸为1/4S的一个特征图；同理，与第二个OAB模块连接的第二卷积层和归一化层将空间尺寸为1/8S的多个多尺度特征压缩为空间尺寸为1/8S的一个特征图；与第三个OAB模块连接的第二卷积层和归一化层将空间尺寸为1/16S的多个多尺度特征压缩为空间尺寸为1/16S的一个特征图；与第四个OAB模块连接的第二卷积层和归一化层将空间尺寸为1/32S的多个多尺度特征压缩为空间尺寸为1/32S的一个特征图。然后将压缩得到的特征图和聚合特征进行拼接，得到关系权重图。在一种实施方式中，可通过Concat函数拼接压缩得到的特征图和聚合特征，得到关系权重图。

步骤2.2，基于关系权重图对前一阶段的二阶融合模块输出的聚合特征和与该聚合特征空间尺寸相同的多尺度特征进行加权融合，得到该阶段的二阶融合模块输出的聚合特征。在一种实施方式中，可以基于关系权重图计算特征融合权重，并计算预设权重与特征融合权重的差值，具体的，关系权重图经上述1*1卷积核、DW9*9卷积核和Sigmoid激活函数后得到权重融合权重λ，假设预设权重为1，则计算1与λ的差值1-x，也即利用F(x)＝1-x对权重融合权重λ进行取反得到差值1-λ。在确定特征融合权重和上述差值后，可以分别计算压缩得到的特征图与1-λ的乘积得到第一特征图，以及计算聚合特征与λ的乘积得到第二特征图，并将第一特征图和第二特征图进行按位相加处理，得到该阶段的二阶融合模块输出的聚合特征。

为便于对上述加权融合过程进一步理解，本发明实施例结合图3对特征融合过程进行解释说明，首先利用与第四个OAB模块连接的第二卷积层和归一化层对空间尺寸为1/32S的多个多尺度特征进行压缩，得到空间尺寸为1/32S的特征图，利用第一个TransposedConv对该空间尺寸为1/32S的特征图进行反卷积操作得到空间尺寸为1/16S的聚合特征，另外，利用与第三个OAB模块连接的第二卷积层和归一化层对空间尺寸为1/16S的多个多尺度特征进行压缩，此时将空间尺寸为1/16S的特征图和聚合特征作为第一个SFU子网络的输入，第一个SFU子网络将计算特征融合权重，并基于该特征融合权重对输入的特征图和聚合特征进行加权融合，得到空间尺寸为1/16S的聚合特征；同理，利用与第二个OAB模块连接的第二卷积层和归一化层对空间尺寸为1/8S的多个多尺度特征进行压缩，得到空间尺寸为1/8S的特征图，以及利用第二个Transposed Conv对该空间尺寸为1/16S的聚合特征进行反卷积操作得到空间尺寸为1/8S的聚合特征，此时将空间尺寸为1/8S的特征图和聚合特征作为第二个SFU子网络的输入，并输出空间尺寸为1/8S的聚合特征，以此类推。

本发明实施例提供的二阶融合模块，利用λ和1-λ具有完全相反的模式，使被加权的特征图之间相似的特征得到了抑制，而不同的特征得到了加强，最后把加权之后的特征图相加得到融合之后的聚合特征，使得融合之后的特征图中存在更少的冗余信息，且存在更多的有效信息，本发明实施例中不同空间尺寸下的特征通过SFU不断融合，形成最后的深度聚合特征，使得末端的二阶融合网络输出的聚合特征包含足量的多尺度信息且具有强大的表征能力。

步骤3，热力图生成网络对特征融合网络输出的聚合特征进行处理，生成目标图像对应的关节点热力图。在一种实施方式中，特征融合网络生成聚合特征(也即，最后一阶段的二阶融合模块输出的聚合特征)之后，会将其送入到一个热力图生成网络以生成关节点热力图，其中，热力图生成网络可以为回归器，且可以选择卷积层作为回归器。热力图包含K个通道，其中K表示需要检测的骨骼点(也即，上述关节点)数量。每一个通道可以为一个二维的图像，尺寸为原始图像的1/4。也即，回归器将根据特征融合网络输出K个关节点热力图，且每个关节点热力图分别与关节点一一对应。

在一种实施方式中，本发明实施例可以按照如下步骤a至步骤c执行上述基于关节点热力图确定目标图像中的关节点的步骤：

步骤a，根据关节点热力图，确定关节点热力图中各个像素点为关节点的概率。关节点热力图是由像素点组成的，每个像素点均有可能是/不是关节点，并确定每个像素点是关节点的概率。

步骤b，根据概率，确定关节点热力图中的目标像素点。在一种实施方式中，可以将概率最大的像素点作为关节点热力图中的目标像素点，并获取目标像素点所在的坐标值。其中，关节点热力图中各个像素点对应的概率值越高，表明该像素点是骨骼点的可能性越高，反之该像素点是骨骼点的可能性越低，因此本发明实施例将概率值最大的像素点作为关节点热力图中的目标像素点。本发明实施例提供了一种获取目标像素点所在的坐标值的实施方式，首先对关节点热力图进行低通滤波处理，以去掉关节点热力图中的噪声，然后找到整张关节点热力图中概率值最大的像素点，并将其确定为目标像素点，但是由于像素点的精度有限，因此获取得到的坐标值仅为整数，为提高坐标值的精度，本发明实施例对该整数坐标值进行偏移处理，具体的，通过确定该坐标值对应的次极值点，并将该整数坐标值朝着次极值点进行偏移，从而得到目标像素点所在的坐标值。

步骤c，将目标像素点映射至目标图像，得到目标图像中的关节点。在具体实现时，将从各个关节点热力图中确定的目标像素点均映射至目标图像，即可确定该目标图像中所有的关节点。

另外，本发明实施例提供了一种关节点检测模型的训练方法，首先获取训练样本，然后将训练样本输入至初始检测模型，得到训练样本对应的关节点热力图，并基于预设损失函数和训练样本对应的关节点热力图计算损失值，并根据损失值更新初始检测模型的参数。示例地，将训练完成时的初始检测模型确定为关节点检测模型，例如当初始检测模型的参数迭代更新的次数达到特定次数，或者损失值小于或等于特定值，或者训练时间达到特定时间时，将此时更新后的初始检测模型确定为该关节点检测模型。在一种实施方式中，训练样本可以为标注有各个关节点的目标图像，基于预设损失函数、训练样本对应的关节点热力图和训练样本标注的关节点，计算得到损失值，从而利用损失值对初始检测模型进行训练。

综上所述，本发明实施例提供的上述关节点检测方法，对单金字塔框架的神经网络进行改进：一方面利用OAB模块对特征提取网络进行改进，使用密集连接的OAB模块提取同一空间尺寸下不同层之间的多尺度信息，并且通过注意力机制使得不同层提取的多尺度信息更加丰富多样，从而让单一空间尺寸的特征也能包含更多的多尺度信息；另一方面利用SFU子网络对特征融合网络进行改进，该SFU子网络可以较好地抑制特征中的冗余信息，使得最终的聚合特征中有效信息的比例更高，其中有效信息指的是能为最后结果带来增益的信息，本发明实施例可以较好地提高单个空间尺寸下的特征的利用率，从而使得融合后的特征更具表征能力。因此，本发明实施例可以提取更多的多尺度信息，同时使多尺度信息具有足够的表征能力，从而使单层金字塔框架的关节点检测模型达到了和级联金字塔模型相媲美的精度，同时较好地提高了关节点检测模型检测关节点的速度和效率。

实施例三：

在实施例二的关节点检测方法的基础上，本发明实施例提供了一种姿态识别方法，参见图7所示的一种姿态识别方法的流程示意图，该方法主要包括以下步骤S702至步骤S704：

步骤S702，采用关节点检测方法对待检测的目标图像进行关节点检测，得到目标图像中所包含的目标对象的多个关节点。在一种实施方式中，可以将目标图像输入至实施例二提供的关节点检测模型，通过该关节点检测模型中的特征提取网络提取多个空间尺寸的多尺度特征，并利用该关节点检测模型中的特征融合网络对提取得到的多尺度特征进行融合，从而利用融合后的特征图生成关节点热力图，进而基于该关节点热力图确定目标对象的各个关节，其中，关节点检测模型的结构可参照前述实施例二，本发明实施例在此不再赘述。

步骤S704，根据目标对象的多个关节点的位置，确定目标对象的姿态。在一种实施方式中，按照人体骨架结构连接各个关节点即可得到目标对象的姿态，诸如，连接肩部、肘部和腕部，即可得知目标对象手臂的姿态。

本发明实施例提供的上述姿态识别方法，利用检测效率较快且检测精度较高的关节点检测方法检测目标图像中所包含的所有关节点，从而基于检测得到的关节点识别目标对象的姿态，进而可以更为高效地识别得到更为准确的目标对象人体姿态。

实施例四：

对于实施例二中所提供的关节点检测方法，本发明实施例提供了一种关节点检测装置，参见图8所示的一种关节点检测装置的结构示意图，该装置包括以下模块：

目标图像获取模块802，用于获取待检测的目标图像。

热力图获取模块804，用于通过关节点检测模型对目标图像进行关节点检测，得到目标图像对应的关节点热力图；其中，关节点检测模型包括特征提取网络和特征融合网络；特征提取网络用于提取多尺度特征；特征融合网络包括多个阶段的二阶融合模块，每个阶段的二阶融合模块均用于对多尺度特征和前一阶段的二阶融合模块输出的聚合特征进行加权融合。

关节点确定模块806，用于基于关节点热力图确定目标图像中的关节点。

本发明实施例提供的上述关节点检测装置，提出了一种新的关节点检测模型，利用新的关节点检测模型能够高效地检测得到精度较高的关节点检测结果。具体的，通过利用各个正交注意力模块分别提取不同空间尺寸的多尺度特征，使得关节点检测模型可以提取较多的多尺度信息，且利用特征融合网络对多尺度特征和相应的聚合特征进行加权融合可以更充分地利用多尺度信息，由于该关键点检测模型与级联金字塔框架相比，结构更为精简，因此相较于级联金字塔框架的神经网络模型，本发明实施例可以更为高效地检测得到精度较高的关节点检测结果，相较于单金字塔框架的轻量级神经网络模型，本发明实施例通过提取较多的多尺度信息可以有效提高关节点检测精度，也即本发明实施例综合提高了关节点检测的效率和精度。

在一种实施方式中，关节点检测模型还包括热力图生成网络；特征提取网络包括密集连接块和密集连接块之间的正交注意力模块；上述热力图获取模块804还用于：通过特征提取网络内的各个正交注意力模块对目标图像进行特征提取，得到目标图像对应的多个多尺度特征；通过特征融合网络每个阶段的二阶融合模块对前一阶段的二阶融合模块输出的聚合特征和与该聚合特征空间尺寸相同的多尺度特征进行加权融合，得到该阶段的二阶融合模块输出的聚合特征；热力图生成网络对特征融合网络输出的聚合特征进行处理，生成目标图像对应的关节点热力图。

在一种实施方式中，正交注意力模块包括多个依次连接的正交注意力单元；目标图像上述热力图获取模块804还用于：对于特征提取网络内的每个正交注意力模块内的第一个正交注意力单元，将前一阶段的正交注意力模块输出的多尺度特征作为该第一个正交注意力单元的输入特征，通过该第一个正交注意力单元针对该输入特征输出多尺度特征；其中，正交注意力模块包括多个依次连接的正交注意力单元；对于特征提取网络内的每个正交注意力模块内的其余正交注意力单元，将前一阶段的正交注意力模块输出的多尺度特征和位于该正交注意力单元之前的各个正交注意力单元输出的多尺度特征，作为该正交注意力单元的输入特征，通过该正交注意力单元针对该输入特征输出多尺度特征。

在一种实施方式中，上述热力图获取模块804还用于：通过该正交注意力单元中的蒙版注意力子单元对输入特征执行特征取反操作，得到蒙版特征图；通过该正交注意力单元中的通道注意力子单元对输入特征进行加权处理，得到通道特征图；将蒙版特征图和通道特征图进行特征融合，得到该正交注意力单元输出的多尺度特征。

在一种实施方式中，上述热力图获取模块804还用于：对于特征融合网络内每个阶段的二阶融合模块，将前一阶段的二阶融合模块输出的聚合特征和与该聚合特征空间尺寸相同的多尺度特征进行拼接，得到关系权重图；基于关系权重图对前一阶段的二阶融合模块输出的聚合特征和与该聚合特征空间尺寸相同的多尺度特征进行加权融合，得到该阶段的二阶融合模块输出的聚合特征。

在一种实施方式中，上述关节点确定模块806还用于：根据关节点热力图，确定关节点热力图中各个像素点为关节点的概率；根据概率，确定关节点热力图中的目标像素点；将目标像素点映射至目标图像，得到目标图像中的关节点。

在一种实施方式中，上述目标图像获取模块802还用于：获取待检测的原始图像；将原始图像输入至目标检测网络，得到目标对象所在的包围框；截取包围框所在区域，得到待检测的目标图像。

在一种实施方式中，上述装置还包括训练模块，用于：将训练样本输入至初始检测模型，得到训练样本对应的关节点热力图；基于预设损失函数和训练样本对应的关节点热力图计算损失值，并根据损失值更新初始检测模型的参数，得到关节点检测模型。

对于实施例三中所提供的姿态识别方法，本发明实施例提供了一种姿态识别装置，参见图9所示的一种姿态识别装置的结构示意图，该装置包括以下模块：

关节检测模块902，用于采用如实施例二提供的任一项的方法对待检测的目标图像进行关节点检测，得到目标图像中所包含的目标对象的多个关节点。

姿态识别模块904，用于根据目标对象的多个关节点的位置，确定目标对象的姿态。

本发明实施例提供的上述姿态识别装置，利用检测效率较快且检测精度较高的关节点检测方法检测目标图像中所包含的所有关节点，从而基于检测得到的关节点识别目标对象的姿态，进而可以更为高效地识别得到更为准确的目标对象人体姿态。

本实施例所提供的装置，其实现原理及产生的技术效果和前述实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

实施例五：

本发明实施例所提供的关节点检测方法、姿态识别方法及装置的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种关节点检测方法，其特征在于，包括：

获取待检测的目标图像；

通过关节点检测模型对所述目标图像进行关节点检测，得到所述目标图像对应的关节点热力图；其中，所述关节点检测模型包括特征提取网络和特征融合网络；所述特征提取网络用于提取多尺度特征；所述特征融合网络包括多个阶段的二阶融合模块，每个阶段的所述二阶融合模块均用于对所述多尺度特征和前一阶段的二阶融合模块输出的聚合特征进行加权融合；

基于所述关节点热力图确定所述目标图像中的关节点。

2.根据权利要求1所述的方法，其特征在于，所述关节点检测模型还包括热力图生成网络；所述特征提取网络包括密集连接块和所述密集连接块之间的正交注意力模块；

所述通过关节点检测模型对所述目标图像进行关节点检测，得到所述目标图像对应的关节点热力图的步骤，包括：

通过所述特征提取网络内的各个所述正交注意力模块对所述目标图像进行特征提取，得到所述目标图像对应的多个多尺度特征；

通过所述特征融合网络内每个阶段的所述二阶融合模块对前一阶段的二阶融合模块输出的聚合特征和与该聚合特征空间尺寸相同的多尺度特征进行加权融合，得到该阶段的二阶融合模块输出的聚合特征；

所述热力图生成网络对所述特征融合网络输出的聚合特征进行处理，生成所述目标图像对应的关节点热力图。

3.根据权利要求2所述的方法，其特征在于，所述正交注意力模块包括多个依次连接的正交注意力单元；

所述通过所述特征提取网络内的各个所述正交注意力模块对所述目标图像进行特征提取，得到所述目标图像对应的多个多尺度特征的步骤，包括：

对于所述特征提取网络内的每个正交注意力模块内的第一个正交注意力单元，将前一阶段的正交注意力模块输出的多尺度特征作为该第一个正交注意力单元的输入特征，通过该第一个正交注意力单元针对该输入特征输出多尺度特征；对于所述特征提取网络内的每个正交注意力模块内的其余正交注意力单元，将前一阶段的正交注意力模块输出的多尺度特征和位于该正交注意力单元之前的各个正交注意力单元输出的多尺度特征，作为该正交注意力单元的输入特征，通过该正交注意力单元针对该输入特征输出多尺度特征。

4.根据权利要求3所述的方法，其特征在于，所述通过该正交注意力单元针对该输入特征输出多尺度特征的步骤，包括：

通过该正交注意力单元中的蒙版注意力子单元对输入特征执行特征取反操作，得到蒙版特征图；

通过该正交注意力单元中的通道注意力子单元对所述输入特征进行加权处理，得到通道特征图；

将所述蒙版特征图和所述通道特征图进行特征融合，得到该正交注意力单元输出的多尺度特征。

5.根据权利要求3或4所述的方法，其特征在于，所述通过所述特征融合网络内每个阶段的所述二阶融合模块对前一阶段的二阶融合模块输出的聚合特征和与该聚合特征空间尺寸相同的多尺度特征进行加权融合，得到该阶段的二阶融合模块输出的聚合特征的步骤，包括：

对于所述特征融合网络内每个阶段的所述二阶融合模块，将前一阶段的二阶融合模块输出的聚合特征和与该聚合特征空间尺寸相同的多尺度特征进行拼接，得到关系权重图；

基于所述关系权重图对前一阶段的二阶融合模块输出的聚合特征和与该聚合特征空间尺寸相同的多尺度特征进行加权融合，得到该阶段的二阶融合模块输出的聚合特征。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述基于所述关节点热力图确定所述目标图像中的关节点的步骤，包括：

根据所述关节点热力图，确定所述关节点热力图中各个像素点为关节点的概率；

根据所述概率，确定所述关节点热力图中的目标像素点；

将所述目标像素点映射至所述目标图像，得到所述目标图像中的关节点。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述获取待检测的目标图像的步骤，包括：

获取待检测的原始图像；

将所述原始图像输入至目标检测网络，得到目标对象所在的包围框；

截取所述包围框所在区域，得到待检测的目标图像。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述关节点检测模型的训练步骤，包括：

将训练样本输入至初始检测模型，得到所述训练样本对应的关节点热力图；

基于预设损失函数和所述训练样本对应的关节点热力图计算损失值，并根据所述损失值更新所述初始检测模型的参数，得到所述关节点检测模型。

9.一种姿态识别方法，其特征在于，包括：

采用如权利要求1-8任一项所述的方法对待检测的目标图像进行关节点检测，得到所述目标图像中所包含的目标对象的多个关节点；

根据所述目标对象的多个关节点的位置，确定所述目标对象的姿态。

10.一种关节点检测装置，其特征在于，包括：

目标图像获取模块，用于获取待检测的目标图像；

热力图获取模块，用于通过关节点检测模型对所述目标图像进行关节点检测，得到所述目标图像对应的关节点热力图；其中，所述关节点检测模型包括特征提取网络和特征融合网络；所述特征提取网络用于提取多尺度特征；所述特征融合网络包括多个阶段的二阶融合模块，每个阶段的所述二阶融合模块均用于对所述多尺度特征和前一阶段的二阶融合模块输出的聚合特征进行加权融合；

关节点确定模块，用于基于所述关节点热力图确定所述目标图像中的关节点。

11.一种姿态识别装置，其特征在于，包括：

关节检测模块，用于采用如权利要求1-8任一项所述的方法对待检测的目标图像进行关节点检测，得到所述目标图像中所包含的目标对象的多个关节点；

姿态识别模块，用于根据所述目标对象的多个关节点的位置，确定所述目标对象的姿态。

12.一种电子设备，其特征在于，包括处理器和存储器；

所述存储器上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如权利要求1至8任一项所述的方法，或，执行如权利要求9所述的方法。

13.一种计算机存储介质，其特征在于，用于储存为权利要求1至8任一项所述方法所用的计算机软件指令，或，执行储存为权利要求9所述方法所用的计算机软件指令。