CN116012875A

CN116012875A - 一种人体姿态估计方法及相关装置

Info

Publication number: CN116012875A
Application number: CN202211566253.6A
Authority: CN
Inventors: 陈宇
Original assignee: Orbbec Inc
Current assignee: Orbbec Inc
Priority date: 2022-12-07
Filing date: 2022-12-07
Publication date: 2023-04-25

Abstract

本申请提供了一种人体姿态估计方法及相关装置，该人体姿态估计方法包括：基于连续预设帧数的第一原始图像，获取背景区域图像集；利用背景区域图像集进行背景建模，得到完整背景图像；对帧序号取值大于预设帧数的第二原始图像以及完整背景图像进行差分运算，得到对应于第二原始图像的前景目标图像；对前景目标图像进行特征提取及预测，得到对应于第二原始图像的人体姿态估计结果。通过本申请方案的实施，对多帧原始图像进行背景建模可获得较为完整的背景图，然后基于完整背景图对待检测图像进行去背景处理，再对前景目标进行姿态估计，可排除大部分背景干扰导致的误检，有效提高了人体骨架点检测结果的准确性。

Description

一种人体姿态估计方法及相关装置

技术领域

本申请涉及图像处理技术领域，尤其涉及一种人体姿态估计方法及相关装置。

背景技术

近年来，随着深度学习技术的不断进步，人体姿态估计(也即人体骨架点检测)得到了较大发展，人体骨架点包括关节、五官等，通过这些关键点可以描述人体骨骼信息。目前，人体姿态估计技术在实际场景中的应用也越来越广泛，如娱乐健身、康复训练、动作识别等。

然而，在实际应用场景下，待检测图像中可能存在复杂背景，进而在人体姿态估计过程中容易受背景干扰而导致人体骨架点误检的问题。而为了克服此类问题，在相关技术中，针对当前帧待检测图像，通常直接将前一帧图像的背景区域作为参考，来获取当前帧图像的前景目标，然后对所获取的前景目标进行人体骨架点检测，但是，在运动场景下，前一帧图像的背景区域与当前帧图像的实际背景区域仅是具备一定相似性，在复杂运动场景下并不能为当前帧图像的人体骨架点检测提供准确参考，在实际应用中仍然存在较高的误检可能性，人体骨架点检测结果的整体准确性相对较低。

发明内容

本申请实施例提供了一种人体姿态估计方法及相关装置，至少能够解决相关技术中所提供的人体姿态估计方案的误检可能性较高，人体骨架点检测结果的整体准确性相对较低的问题。

本申请实施例第一方面提供了一种人体姿态估计方法，包括：基于连续预设帧数的第一原始图像，获取背景区域图像集；其中，所述背景区域图像集包括对应于多帧所述第一原始图像的多张背景区域图像；利用所述背景区域图像集进行背景建模，得到完整背景图像；对第二原始图像以及所述完整背景图像进行差分运算，得到对应于所述第二原始图像的前景目标图像；其中，所述第二原始图像的帧序号取值大于所述预设帧数；对所述前景目标图像进行特征提取及预测，得到对应于所述第二原始图像的人体姿态估计结果。

本申请实施例第二方面提供了一种人体姿态估计装置，包括：获取模块，用于基于连续预设帧数的第一原始图像，获取背景区域图像集；其中，所述背景区域图像集包括对应于多帧所述第一原始图像的多张背景区域图像；建模模块，用于利用所述背景区域图像集进行背景建模，得到完整背景图像；运算模块，用于对第二原始图像以及所述完整背景图像进行差分运算，得到对应于所述第二原始图像的前景目标图像；其中，所述第二原始图像的帧序号取值大于所述预设帧数；估计模块，用于对所述前景目标图像进行特征提取及预测，得到对应于所述第二原始图像的人体姿态估计结果。

本申请实施例第三方面提供了一种电子设备，包括：图像采集装置及处理器，其中：图像采集装置用于采集原始图像并传输至所述处理器；处理器用于利用上述本申请实施例第一方面提供的人体姿态估计方法对所述原始图像进行处理，以获取人体姿态估计结果。

本申请实施例第四方面提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时，实现上述本申请实施例第一方面提供的人体姿态估计方法中的各步骤。

由上可见，根据本申请方案所提供的人体姿态估计方法及相关装置，基于连续预设帧数的第一原始图像，获取背景区域图像集；利用背景区域图像集进行背景建模，得到完整背景图像；对帧序号取值大于预设帧数的第二原始图像以及完整背景图像进行差分运算，得到对应于第二原始图像的前景目标图像；对前景目标图像进行特征提取及预测，得到对应于第二原始图像的人体姿态估计结果。通过本申请方案的实施，对多帧原始图像进行背景建模可获得较为完整的背景图，然后基于完整背景图对待检测图像进行去背景处理，再对前景目标进行姿态估计，可排除大部分背景干扰导致的误检，有效提高了人体骨架点检测结果的准确性。

附图说明

图1为本申请一实施例提供的应用场景的场景示意图；

图2为本申请一实施例提供的电子设备的结构示意图；

图3为本申请一实施例提供的人体姿态估计方法的基本流程示意图；

图4为本申请一实施例提供的一种人体姿态估计模型的检测流程示意图；

图5为本申请一实施例提供的一种特征提取网络的结构示意图；

图6为本申请一实施例提供的一种姿态预测网络的结构示意图；

图7为本申请一实施例提供的人体姿态估计方法的细化流程示意图；

图8为本申请一实施例提供的人体姿态估计装置的程序模块示意图。

具体实施方式

为使得本申请的发明目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例的描述中，需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请实施例和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请实施例的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本申请实施例中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请实施例中的具体含义。

下面将结合附图详细说明本申请实施例的一种人体姿态估计方法及相关装置。

为了提高了人体骨架点检测结果的准确性，本申请一实施例提供了一种人体姿态估计方法，应用于如图1所示的场景，在该应用场景中，可以包括图像采集设备10以及电子设备20，在一种实现方式中，图像采集设备10可以为相机，其传感器类型可视实际应用场景而定，在典型实施方式中，该相机可以为彩色相机、深度相机、灰度相机等中任意一种或多种组合；而电子设备20则是具备数据处理功能的各种终端设备，包括但不限于电视、智能手机、平板电脑、膝上型便携计算机和台式计算机等。

在图1所示的应用场景中，可以通过图像采集设备10连续采集多帧图像，然后将连续采集的图像发送至电子设备20。电子设备20针对所接收的前N帧图像也即第一原始图像，获取背景区域图像集；然后，利用背景区域图像集进行背景建模，得到完整背景图像；接下来，在接收到帧序号大于N的第二原始图像时，以及完整背景图像进行差分运算，得到对应于第二原始图像的前景目标图像；最后，对前景目标图像进行特征提取及预测，得到对应于第二原始图像的人体姿态估计结果。

如图2所示为本申请一实施例提供的一种电子设备的结构示意图。该电子设备主要包括：存储器201及处理器202，处理器202的数量可以是一个或多个，存储器201上存储有可在处理器202上运行的计算机程序203，存储器201和处理器202通信连接，处理器202执行该计算机程序203时，实现如下人体姿态估计方法的流程：基于连续预设帧数的第一原始图像，获取背景区域图像集；其中，背景区域图像集包括对应于多帧第一原始图像的多张背景区域图像；利用背景区域图像集进行背景建模，得到完整背景图像；对第二原始图像以及完整背景图像进行差分运算，得到对应于第二原始图像的前景目标图像；其中，第二原始图像的帧序号取值大于预设帧数；对前景目标图像进行特征提取及预测，得到对应于第二原始图像的人体姿态估计结果。

在一个实施例中，处理器202可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)、神经网络芯片或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在一个实施例中，存储器201可以是内部存储单元，例如硬盘或内存；存储器也可以是外部存储设备，例如配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器还可以既包括内部存储单元也包括外部存储设备，存储器还可以用于暂时地存储已经输出或者将要输出的数据。需要说明的是，当处理器为神经网络芯片时，电子设备可不包括存储器，电子设备是否需使用存储器存储相应的计算机程序取决于处理器的类型。

在一个实施例中，电子设备还包括图像采集装置，用于采集原始图像并传输至处理器202，以供处理器202根据本申请提供的人体姿态估计方法对图像进行处理。其中，图像采集装置可集成于电子设备中，亦可通过有线或无线通信与电子设备连接；图像采集装置包括彩色相机、深度相机、灰度相机等中任一一种或多种组合，深度相机为结构光相机、飞行时间相机、双目相机或多目相机等，此处不作限制。

本申请一实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以是设置于前述电子设备中，该计算机可读存储介质可以是前述图2所示实施例中的存储器。

该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现前述人体姿态估计方法。进一步的，该计算机可存储介质还可以是U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

如图3为本实施例提供的人体姿态估计方法的基本流程图，该人体姿态估计方法可以由图1或图2中的电子设备执行，具体包括以下的步骤：

步骤301、基于连续预设帧数的第一原始图像，获取背景区域图像集。

具体的，在实际应用中，相机针对实际场景连续拍摄图像(例如RGB图像)，电子设备接收到相机连续拍摄的前N帧图像时，可以分别获取其对应的背景区域图像，背景区域图像也即对原始图像去除前景目标后所得到的图像，N张背景区域图像组成背景区域图像集。

在本实施例一种可选实施方式中，上述基于连续预设帧数的第一原始图像，获取背景区域图像集的步骤，包括：对连续预设帧数的第一原始图像进行归一化处理；基于归一化处理后的第一原始图像获取背景区域图像集。

具体的，在本实施例中，可以先对原始图像进行归一化处理，也即将待处理的原始图像转换成唯一标准形式，该标准形式对平移、旋转、缩放等仿射变换具有不变特性，以使不同图像的数据都处于相同范围内，然后再分别获取相应的背景区域图像，以方便后续使用背景区域图像进行处理。

步骤302、利用背景区域图像集进行背景建模，得到完整背景图像。

具体的，在实际应用中，由于前一帧输出的背景区域与当前帧的背景区域基本相似，实际上在未能获取完整的背景图时，可利用前一帧的背景区域获取前景目标，但是前一帧输出的背景区域相对于当前帧来说通常仅是一个粗略的目标区域，特别是在复杂场景中或者复杂动作中会产生误检或漏检的背景区域，如果直接使用背景区域与当前帧的图像进行差分运算来获取的前景目标执行后续检测，最终所得到的骨架点也会产生误检或漏检，反而降低骨架点的准确性或增加其误检率。基于此，在本实施例中，基于多帧原始图像进行背景建模，可获得完整的背景，从而可得到更准确的前景目标。

在本实施例一种可选实施方式中，上述利用背景区域图像集进行背景建模，得到完整背景图像的步骤，包括：基于预设背景建模算法，对背景区域图像集以及对应的第一原始图像进行背景建模，得到完整背景图像。

其中，本实施例的背景建模算法包括如下任意一种：高斯混合背景建模法、帧差法。

步骤303、对第二原始图像以及完整背景图像进行差分运算，得到对应于第二原始图像的前景目标图像。

具体的，本实施例的第二原始图像的帧序号取值大于预设帧数，也即针对相机连续输入的图像，当接收到第N帧之后的原始图像时，可以使用通过前N帧原始图像得到的完整背景图像对当前帧原始图像进行差分运算，得到当前帧原始图像的前景目标图像。

步骤304、对前景目标图像进行特征提取及预测，得到对应于第二原始图像的人体姿态估计结果。

具体的，本实施例可以将当前帧原始图像的前景目标图像传入人体姿态估计模型进行特征提取以及预测处理，得到人体骨架点推理结果。

在本实施例一种可选实施方式中，上述对前景目标图像进行特征提取及预测，得到对应于第二原始图像的人体姿态估计结果的步骤，包括：将前景目标图像输入至训练完成的人体姿态估计模型中的特征提取网络，输出目标特征图像；将目标特征图像输入至人体姿态估计模型中的姿态预测网络，输出对应于第二原始图像的人体姿态估计结果。

如图4所示为本实施例提供的一种人体姿态估计模型的检测流程示意图，图中Backbone所表示的网络表示前述特征提取网络，Stage 1至Stage k所组成网络表示前述姿态预测网络。

如图5所示为本实施例提供的一种特征提取网络的结构示意图，在本实施例一种可选实施方式中，上述特征提取网络包括最大池化模块(也即图5中maxpool)、多个级联的卷积模块(也即图5中conv)以及平均池化模块(也即图5中avgpool)。相应的，上述将前景目标图像输入至训练完成的人体姿态估计模型中的特征提取网络，输出目标特征图像的步骤，包括：将前景目标图像输入至训练完成的人体姿态估计模型中的特征提取网络，利用最大池化模块对前景目标图像进行最大池化处理，得到第一特征图像；将各卷积模块的输入以及输出进行特征融合后作为下一卷积模块的输入，利用多个级联的卷积模块对第一特征图像进行卷积处理，得到第二特征图像；利用平均池化模块对第二特征图像进行平均池化处理，得到目标特征图像。

具体的，在本实施例中，最大池化模块的输出与首个卷积模块的输入连接，末尾一个卷积模块的输出与平均池化模块的输入连接，本实施例的卷积模块的数量可以为8个，各卷积模块包括两个卷积层，所有卷积模块中的卷积层的尺度可以为3*3，第一个以及第二个卷积模块的通道数为64，第三个以及第四个卷积模块的通道数为128，第五个以及第六个卷积模块的通道数为256，第七个以及第八个卷积模块的通道数为512，此外，本实施例的最大池化模块的输入还可以与一个单独的卷积层的输出连接，也即输入图像经过该单独的卷积层进行卷积处理后的特征图输入至最大池化模块，该单独的卷积层的尺度为7*7，通道数为64，还应当说明的是，平均池化模块的输出连接一个全连接层(FC，Fully Connected)，平均池化处理后的特征图经过全连接层处理后得到最终的目标特征图像。

如图6所示为本实施例提供的一种姿态预测网络的结构示意图，在本实施例一种可选实施方式中，姿态预测网络包括多个级联的stage模块(如图6中stage1、stage2……)，stage模块包括关键点置信度预测网络以及关键点亲和度向量场预测网络。相应的，上述将目标特征图像输入至人体姿态估计模型中的姿态预测网络，输出对应于第二原始图像的人体姿态估计结果的步骤，包括：将目标特征图像输入至人体姿态估计模型中的姿态预测网络，依次利用各stage模块的关键点置信度预测网络获取关键点置信度图像，以及利用关键点亲和度向量场预测网络获取关键点亲和度向量场；将最后一个stage模块的关键点置信度图像以及关键点亲和度向量场融合后所得的输出，作为对应于第二原始图像的人体姿态估计结果；其中，相邻两个stage模块中，前一个stage模块的输出为下一个stage模块的输入。

具体的，本实施例通过主干网络提取特征之后，将所提取的特征输入至多个串行的stage模块中首个stage模块，所有stage模块的结构和功能均相同。在本实施例中，每个stage模块包括两个分支，两个分支均由五层卷积网络组成，其中一个分支生成关键点置信度图像(PCM，Part confidence map)，也即每个骨架点的置信度图，另一个分支生成亲和度向量场(PAF，part Affinity field)，是一个由身体部位各个肢体的2D向量组成的向量场，每个肢体是由两个骨架点组成，它保持了肢体之间的位置信息与方向信息。应当理解的是，本实施例顺序通过多个stage模块重复进行预测，可以不断加深预测深度，在后的stage模块可以利用在前的stage模块的预测结果进一步优化自身的预测结果，对于视觉特征较为复杂的部位的关键点，通过多个stage模块渐进优化预测，可以实现预测结果的准确性和全面性。

在本实施例一种可选实施方式中，上述基于连续预设帧数的第一原始图像，获取背景区域图像集的步骤，包括：将连续预设帧数的第一原始图像输入至人体姿态估计模型中的特征提取网络以及姿态预测网络进行特征提取及预测，输出对应于第一原始图像的特征图像及人体姿态估计结果；将各第一原始图像的特征图像输入至人体姿态估计模型中的背景分析网络并融合姿态预测网络中各stage模块得到的特征得到各前景区域，利用各前景区域与各第一原始图像获取前N帧原始图像的背景区域图像；对所有背景区域图像进行汇总，得到背景区域图像集。

具体的，请再次参阅图4，本实施例的人体姿态估计模型还包括背景分析网络(Background parsing)，在本实施例中，对于前N帧原始图像，其人体姿态估计同样使用前述人体姿态估计模型的特征提取网络以及姿态预测网络实现，所不同的是，由于前N帧原始图像不具备完整背景图像，将前N帧原始图像输入至人体姿态估计模型的背景分析网络中以获取前景目标并通过前景区域与前N帧原始图像比较获取完整背景图像。应当说明的是，本实施例针对前N帧原始图像执行多任务检测，除了执行人体姿态估计任务之外，还同时执行背景分析任务，也即将前N帧原始图像经过特征提取网络得到特征图像输入至背景分析网络，在背景分析网络中融合姿态预测网络中各stage模块得到的特征得到前景区域并利用前景区域与前N帧原始图像进行差分运算，即可得到前N帧原始图像相应的背景分析结果，也即背景区域图像，N帧背景区域图像组成背景区域图像集。另外，在背景分析网络中融合姿态预测网络中各stage模块得到的特征，不仅能辅助姿态预测网络进行姿态预测，确保了前N帧人体姿态的检测精度，还能获取更为精确的前景区域以获取效果更佳的背景区域。

应当说明的是，本实施例针对N帧之后的图像也可以通过上述背景分析网络获取背景区域图像，以对背景区域图像集进行持续迭代更新，相应可以通过背景建模算法进一步更新完整背景图像，由此，即使多人进入画面中，也可获取完整的多人人体，从而得到多人的骨架。

图7中的方法为本申请一实施例提供的一种细化的人体姿态估计方法，该人体姿态估计方法包括：

步骤701、将前N帧原始图像分别输入至人体姿态估计模型，利用人体姿态估计模型中的特征提取网络以及姿态预测网络进行特征提取及预测，输出前N帧原始图像对应的特征图像及人体姿态估计结果。

步骤702、分别将前N帧原始图像对应的特征图像输入至人体姿态估计模型中的背景分析网络，并融合姿态预测网络各模块得到的特征得到各前景区域，利用前N帧原始图像和与之对应的各前景区域输出N帧背景区域图像，组成背景区域图像集。

具体的，本实施例针对相机拍摄的前N帧原始图像执行多任务检测，除了执行人体姿态估计任务之外，还同时执行背景分析任务，也即将前N帧原始图像经过特征提取网络及姿态预测网络中各模块得到的特征一并输入至背景分析网络得到前景区域，并利用前景区域与原始图像进行差分运算，即可得到前N帧原始图像相应的背景分析结果，也即背景区域图像。需要说明的是，本申请中人体姿态估计任务与背景分析任务共享一特征提取网络，可使得背景分析网络对姿态预测网络具有约束作用，从而提高人体姿态估计的准确率。

步骤703、基于预设背景建模算法，对背景区域图像集以及对应的前N帧原始图像进行背景建模，得到完整背景图像。

具体的，本实施例的背景建模算法包括如下任意一种：高斯混合背景建模法、帧差法。

步骤704、将帧序号处于N帧之后的原始图像与完整背景图像进行差分运算，得到对应的前景目标图像。

具体的，在本实施例中，基于多帧原始图像进行背景建模，可获得完整的背景，以此为基础对原始图像进行去背景处理，可以得到更准确的前景目标。

步骤705、将前景目标图像输入至人体姿态估计模型，利用特征提取网络以及姿态预测网络进行特征提取及预测，输出N帧之后的原始图像对应的人体姿态估计结果。

具体的，在本实施例中，针对N帧之后的原始图像，将其前景目标图像输入至人体姿态估计模型进行特征提取以及预测处理，通过直接对前景区域进行人体姿态估计，可提高人体骨架点推理结果的准确性，有效排除背景干扰导致的误检。

应当理解的是，本实施例中各步骤的序号的大小并不意味着步骤执行顺序的先后，各步骤的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成唯一限定。

基于本申请上述实施例的技术方案，对多帧原始图像进行背景建模可获得较为完整的背景图，然后基于完整背景图对待检测图像进行去背景处理，再对前景目标进行姿态估计，可排除大部分背景干扰导致的误检，有效提高了人体骨架点检测结果的准确性。

图8为本申请一实施例提供的一种人体姿态估计装置。该人体姿态估计装置可用于实现前述实施例中的人体姿态估计方法，该人体姿态估计装置主要包括：

获取模块801，用于基于连续预设帧数的第一原始图像，获取背景区域图像集；其中，背景区域图像集包括对应于多帧第一原始图像的多张背景区域图像；

建模模块802，用于利用背景区域图像集进行背景建模，得到完整背景图像；

运算模块803，用于对第二原始图像以及完整背景图像进行差分运算，得到对应于第二原始图像的前景目标图像；其中，第二原始图像的帧序号取值大于预设帧数；

估计模块804，用于对前景目标图像进行特征提取及预测，得到对应于第二原始图像的人体姿态估计结果。

在本实施例的一些实施方式中，估计模块具体用于：将前景目标图像输入至训练完成的人体姿态估计模型中的特征提取网络，输出目标特征图像；将目标特征图像输入至人体姿态估计模型中的姿态预测网络，输出对应于第二原始图像的人体姿态估计结果。

在本实施例的一些实施方式中，特征提取网络包括最大池化模块、多个级联的卷积模块以及平均池化模块；姿态预测网络包括多个级联的stage模块，stage模块包括关键点置信度预测网络以及关键点亲和度向量场预测网络。

相应的，估计模块具体用于：将前景目标图像输入至训练完成的人体姿态估计模型中的特征提取网络，利用最大池化模块对前景目标图像进行最大池化处理，得到第一特征图像；将各卷积模块的输入以及输出进行特征融合后作为下一卷积模块的输入，利用多个级联的卷积模块对第一特征图像进行卷积处理，得到第二特征图像；利用平均池化模块对第二特征图像进行平均池化处理，得到目标特征图像；将目标特征图像输入至人体姿态估计模型中的姿态预测网络，依次利用各stage模块的关键点置信度预测网络获取关键点置信度图像，以及利用关键点亲和度向量场预测网络获取关键点亲和度向量场；将最后一个stage模块的关键点置信度图像以及关键点亲和度向量场融合后所得的输出，作为对应于第二原始图像的人体姿态估计结果；其中，相邻两个stage模块中，前一个stage模块的输出为下一个stage模块的输入。

在本实施例的一些实施方式中，获取模块具体用于：对连续预设帧数的第一原始图像进行归一化处理；基于归一化处理后的第一原始图像获取背景区域图像集。

在本实施例的另一些实施方式中，获取模块具体用于：将连续预设帧数的第一原始图像输入至人体姿态估计模型中的特征提取网络以及姿态预测网络进行特征提取及预测，输出对应于第一原始图像的特征图像及人体姿态估计结果；将各第一原始图像的特征图像输入至人体姿态估计模型中的背景分析网络并融合姿态预测网络中各stage模块得到的特征得到各前景区域，利用各前景区域与各第一原始图像获取前N帧图像的背景区域图像；对所有背景区域图像进行汇总，得到背景区域图像集。

在本实施例的一些实施方式中，建模模块具体用于：基于预设背景建模算法，对背景区域图像集以及对应的第一原始图像进行背景建模，得到完整背景图像；其中，背景建模算法包括如下任意一种：高斯混合背景建模法、帧差法。

应当说明的是，前述实施例中的人体姿态估计方法均可基于本实施例提供的人体姿态估计装置实现，所属领域的普通技术人员可以清楚的了解到，为描述的方便和简洁，本实施例中所描述的人体姿态估计装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

根据本实施例所提供的人体姿态估计装置，基于连续预设帧数的第一原始图像，获取背景区域图像集；利用背景区域图像集进行背景建模，得到完整背景图像；对帧序号取值大于预设帧数的第二原始图像以及完整背景图像进行差分运算，得到对应于第二原始图像的前景目标图像；对前景目标图像进行特征提取及预测，得到对应于第二原始图像的人体姿态估计结果。通过本申请方案的实施，对多帧原始图像进行背景建模可获得较为完整的背景图，然后基于完整背景图对待检测图像进行去背景处理，再对前景目标进行姿态估计，可排除大部分背景干扰导致的误检，有效提高了人体骨架点检测结果的准确性。

应当说明的是，在本申请所提供的几个实施例中所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的可读存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上为对本申请所提供的人体姿态估计方法及相关装置的描述，对于本领域的技术人员，依据本申请实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

1.一种人体姿态估计方法，其特征在于，包括：

基于连续预设帧数的第一原始图像，获取背景区域图像集；其中，所述背景区域图像集包括对应于多帧所述第一原始图像的多张背景区域图像；

利用所述背景区域图像集进行背景建模，得到完整背景图像；

对第二原始图像以及所述完整背景图像进行差分运算，得到对应于所述第二原始图像的前景目标图像；其中，所述第二原始图像的帧序号取值大于所述预设帧数；

对所述前景目标图像进行特征提取及预测，得到对应于所述第二原始图像的人体姿态估计结果。

2.根据权利要求1所述的人体姿态估计方法，其特征在于，所述对所述前景目标图像进行特征提取及预测，得到对应于所述第二原始图像的人体姿态估计结果的步骤，包括：

将所述前景目标图像输入至训练完成的人体姿态估计模型中的特征提取网络，输出目标特征图像；

将所述目标特征图像输入至所述人体姿态估计模型中的姿态预测网络，输出对应于所述第二原始图像的人体姿态估计结果。

3.根据权利要求2所述的人体姿态估计方法，其特征在于，所述特征提取网络包括最大池化模块、多个级联的卷积模块以及平均池化模块；

所述将所述前景目标图像输入至训练完成的人体姿态估计模型中的特征提取网络，输出目标特征图像的步骤，包括：

将所述前景目标图像输入至训练完成的人体姿态估计模型中的特征提取网络，利用所述最大池化模块对所述前景目标图像进行最大池化处理，得到第一特征图像；

将各所述卷积模块的输入以及输出进行特征融合后作为下一卷积模块的输入，利用多个级联的所述卷积模块对所述第一特征图像进行卷积处理，得到第二特征图像；

利用所述平均池化模块对所述第二特征图像进行平均池化处理，得到目标特征图像。

4.根据权利要求2所述的人体姿态估计方法，其特征在于，所述姿态预测网络包括多个级联的stage模块，所述stage模块包括关键点置信度预测网络以及关键点亲和度向量场预测网络；

所述将所述目标特征图像输入至所述人体姿态估计模型中的姿态预测网络，输出对应于所述第二原始图像的人体姿态估计结果的步骤，包括：

将所述目标特征图像输入至所述人体姿态估计模型中的姿态预测网络，依次利用各所述stage模块的所述关键点置信度预测网络获取关键点置信度图像，以及利用所述关键点亲和度向量场预测网络获取关键点亲和度向量场；

将最后一个所述stage模块的所述关键点置信度图像以及所述关键点亲和度向量场融合后所得的输出，作为对应于所述第二原始图像的人体姿态估计结果；其中，相邻两个所述stage模块中，前一个所述stage模块的所述输出为下一个所述stage模块的输入。

5.根据权利要求1所述的人体姿态估计方法，其特征在于，所述基于连续预设帧数的第一原始图像，获取背景区域图像集的步骤，包括：

对连续预设帧数的第一原始图像进行归一化处理；

基于归一化处理后的所述第一原始图像获取背景区域图像集。

6.根据权利要求2所述的人体姿态估计方法，其特征在于，所述基于连续预设帧数的第一原始图像，获取背景区域图像集的步骤，包括：

将所述连续预设帧数的第一原始图像输入至所述人体姿态估计模型中的特征提取网络以及姿态预测网络进行特征提取及预测，输出对应于所述第一原始图像的特征图像及人体姿态估计结果；

将各所述第一原始图像的特征图像输入至所述人体姿态估计模型中的背景分析网络并融合所述姿态预测网络中得到的特征得到各前景区域，利用所述各前景区域与各第一原始图像获取前N帧原始图像的背景区域图像；

对所有所述背景区域图像进行汇总，得到背景区域图像集。

7.根据权利要求1至6中任意一项所述的人体姿态估计方法，其特征在于，所述利用所述背景区域图像集进行背景建模，得到完整背景图像的步骤，包括：

基于预设背景建模算法，对所述背景区域图像集以及对应的所述第一原始图像进行背景建模，得到完整背景图像；其中，所述背景建模算法包括如下任意一种：高斯混合背景建模法、帧差法。

8.一种人体姿态估计装置，其特征在于，包括：

获取模块，用于基于连续预设帧数的第一原始图像，获取背景区域图像集；其中，所述背景区域图像集包括对应于多帧所述第一原始图像的多张背景区域图像；

建模模块，用于利用所述背景区域图像集进行背景建模，得到完整背景图像；

运算模块，用于对第二原始图像以及所述完整背景图像进行差分运算，得到对应于所述第二原始图像的前景目标图像；其中，所述第二原始图像的帧序号取值大于所述预设帧数；

估计模块，用于对所述前景目标图像进行特征提取及预测，得到对应于所述第二原始图像的人体姿态估计结果。

9.一种电子设备，其特征在于，包括图像采集装置及处理器，其中：

所述图像采集装置，用于采集原始图像并传输至所述处理器；

所述处理器，用于利用权利要求1至7中任意一项所述人体姿态估计方法对所述原始图像进行处理，以获取人体姿态估计结果。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1至7中的任意一项所述人体姿态估计方法中的步骤。