CN112381837A

CN112381837A - 一种图像处理方法及电子设备

Info

Publication number: CN112381837A
Application number: CN202011263362.1A
Authority: CN
Inventors: 马骁; 魏亚男; 姜譞; 邹进屹; 李聪
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2021-02-19
Anticipated expiration: 2040-11-12
Also published as: CN112381837B

Abstract

本申请涉及一种图像处理方法及电子设备，该方法结合目标图像中目标对象与背景部分之间的前背景分割特征以及目标图像中目标对象的骨架结构特征，对目标图像中的目标对象进行关键点检测，也即，相当于，本申请在基于目标对象的骨架结构特征对目标图像中目标对象的多个关键点进行检测识别时，利用了目标图像中人体等目标对象与背景部分的前背景分割信息作为辅助，这样，针对场景/背景内容复杂的图像，可借助其目标对象与背景部分的前背景分割信息，而准确地进行目标对象与其背景部分的区分及在此基础上目标对象关键点的检测识别，避免了出现将图像背景中某个区域识别为对象关键点的现象，提升了人体等对象姿态估计中关键点的检测准确度。

Description

一种图像处理方法及电子设备

技术领域

本申请属于图像处理领域，尤其涉及一种图像处理方法及电子设备。

背景技术

人体等的对象姿态估计中会涉及到对图像中人体等对象的关键点检测。当使用训练好的姿态估计模型对场景/背景内容复杂的图像进行对象关键点检测时，可能会因图像中对象关键点部位被部分遮挡、图像背景复杂亦或是前景背景纹理和颜色接近度高等原因，而导致关键点的检测准确度不高，出现将图像背景中某个区域识别为对象关键点的现象。

发明内容

有鉴于此，本申请提供了一种图像处理方法及电子设备，目的在于通过利用图像中人体等前景对象与背景部分的分割信息来辅助对象的关键点检测，而达到提升人体等对象姿态估计中关键点的检测准确度的目的。

为此，本申请公开如下技术方案：

一种图像处理方法，包括：

获得待处理的目标图像；

提取所述目标图像中目标对象与背景部分之间的前背景分割特征；

提取所述目标图像中目标对象的骨架结构特征；

根据所述前背景分割特征和所述骨架结构特征，识别所述目标图像中目标对象的多个关键点，得到能用于对所述目标对象进行姿态估计的多个关键点信息。

可选的，所述提取所述目标图像中目标对象与背景部分之间的前背景分割特征，提取所述目标图像中目标对象的骨架结构特征，包括：

利用已构建的人工智能模型中的主干网络，提取所述目标图像的预定低层语义特征；

利用所述人工智能模型中的分割网络，将所述预定低层语义特征转换为包括所述目标图像中目标对象与背景部分之间的前背景分割特征的第一高层语义特征；

利用所述人工智能模型中的姿态估计网络，将所述预定低层语义特征转换为包括所述目标图像中目标对象的骨架结构特征的第二高层语义特征。

可选的，所述根据所述前背景分割特征和所述骨架结构特征，识别所述目标图像中目标对象的多个关键点，包括：

利用所述人工智能模型中的融合模块，对所述第一高层语义特征和所述第二高层语义特征进行融合处理，得到融合后的高层语义特征，并确定所述融合后的高层语义特征中各特征分别对应的重要度信息；

利用所述人工智能模型中的后处理网络，根据所述融合后的高层语义特征中各特征分别对应的重要度信息，将所述融合后的高层语义特征变形得到预定数量的热图；其中，不同热图对应于所述目标对象的不同指定部位，每个热图包括对应于相应指定部位的多个候选关键点，每个候选关键点对应一置信度信息；

从每个热图中选取满足置信度条件的候选关键点，作为该热图对应的相应指定部位的关键点。

可选的，所述确定所述融合后的高层语义特征中各特征分别对应的重要度信息，包括：

根据注意力机制，确定所述融合后的高层语义特征中各特征的重要性，并为各特征分别分配用于指示所对应的重要性的权重信息；不同的权重信息表征不同的重要度信息。

可选的，所述从每个热图中选取满足置信度条件的候选关键点，作为该热图对应的相应指定部位的关键点，包括：

从每个热图中选取置信度取值最大的候选关键点，作为该热图对应的相应指定部位的关键点。

可选的，在所述获得待处理的目标图像之前，还包括：构建一人工智能模型；

所述人工智能模型的构建过程包括：

根据对多个样本图像分别进行前背景分割得到的前背景图像和对所述前背景图像分别标注的前背景信息，训练一分割模型；

在所述分割模型的基础上进行姿态估计训练，得到所述人工智能模型。

可选的，其中：

所述分割模型包括主干网络和分割网络；主干网络用于提取图像的预定低层语义特征，分割网络用于将所述预定低层语义特征转换为包括图像中前景对象与背景部分之间的前背景分割特征的第一高层语义特征；

所述在所述分割模型的基础上进行姿态估计训练，得到所述人工智能模型，包括：

利用一预先训练的姿态估计网络接收所述主干网络输出的样本图像的预定低层语义特征，将所述预定低层语义特征转换为包括所述样本图像中前景对象的骨架结构特征的第二高层语义特征，并输出；所述姿态估计网络预先根据多个样本图像和对所述多个样本图像中的前景对象分别标注的关键点信息训练得到。

利用一融合模块将所述分割网络输出的样本图像的第一高层语义特征和所述姿态估计网络输出的样本图像的第二高层语义特征进行融合处理，得到融合后的高层语义特征，并确定所述融合后的高层语义特征中各特征分别对应的重要度信息；

利用一后处理网络，根据所述融合后的高层语义特征中各特征分别对应的重要度信息，将所述融合后的高层语义特征变形得到预定数量的热图，并输出；不同热图对应于样本图像中前景对象的不同指定部位，每个热图包括对应于相应指定部位的多个候选关键点，每个候选关键点对应一置信度信息；

根据所述后处理网络输出的各个热图和预先基于人工标注得到的热图，确定姿态估计中的损失信息；

根据所述损失信息对所述姿态估计网络、所述融合模块和所述后处理网络进行优化，直至达到优化目标时，得到由所述分割模型、姿态估计网络、融合模块和后处理网络构成的所述人工智能模型。

一种电子设备，包括：

存储器，用于至少存储一组指令集；

处理器，用于调用并执行所述存储器中的所述指令集，通过执行所述指令集进行以下操作：

获得待处理的目标图像；

提取所述目标图像中目标对象的骨架结构特征；

可选的，所述处理器，在提取所述目标图像中目标对象与背景部分之间的前背景分割特征，提取所述目标图像中目标对象的骨架结构特征方面，具体用于：

利用已构建的人工智能模型中的主干网络，提取所述目标图像的预定低层语义特征；利用所述人工智能模型中的分割网络，将所述预定低层语义特征转换为包括所述目标图像中目标对象与背景部分之间的前背景分割特征的第一高层语义特征；利用所述人工智能模型中的姿态估计网络，将所述预定低层语义特征转换为包括所述目标图像中目标对象的骨架结构特征的第二高层语义特征。

所述处理器，在根据所述前背景分割特征和所述骨架结构特征，识别所述目标图像中目标对象的多个关键点方面，具体用于：

可选的，所述处理器，在所述获得待处理的目标图像之前，还用于：构建一人工智能模型；

其中，所述处理器构建所述人工智能模型的过程包括：

可知，本申请实施例提供的图像处理方法及电子设备，结合目标图像中目标对象与背景部分之间的前背景分割特征以及目标图像中目标对象的骨架结构特征，对目标图像中的目标对象进行关键点检测，也即，相当于，本申请在基于目标对象的骨架结构特征对目标图像中目标对象的多个关键点进行检测识别时，利用了目标图像中人体等目标对象与背景部分的前背景分割信息作为辅助，这样，针对场景/背景内容复杂的图像，可借助其目标对象与背景部分的前背景分割信息，而准确地进行目标对象与其背景部分的区分及在此基础上目标对象关键点的检测识别，避免了出现将图像背景中某个区域识别为对象关键点的现象，提升了人体等对象姿态估计中关键点的检测准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是现有技术对人体相应部位关键点识别错误的示意图；

图2是本申请实施例提供的图像处理方法的一种流程示意图；

图3是本申请实施例提供的图像处理方法的另一种流程示意图；

图4是本申请实施例提供的利用分割网络辅助训练姿态估计网络的网络架构示意图；

图5是本申请实施例提供的在分割模型的基础上训练姿态估计模型的处理过程流程图；

图6是本申请实施例提供的图像处理方法的又一种流程示意图；

图7是本申请实施例提供的利用本申请的图像处理方法对图像进行对象关键点检测后得到的检测结果示意图；

图8是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在复杂场景下使用训练好的姿态估计模型对图像中的人体等对象进行关键点检测时，由于关键点部位被部分遮挡、背景复杂亦或是前背景纹理和颜色很接近等原因，导致检测准确度通常不高，经常会把背景中某个区域识别为对象关键点。

发明人经研究发现，现有方案在进行对象关键点检测时，本质仅利用到图像的前景信息，以人体为例，只利用了人身体上的信息来检测关键点，而在前背景因上述原因比较相似的环境下准确率就难以得到保证，并且诸如人体肩膀以及胯部等部位，本身特征并不明显，仅仅通过前景信息很难准确判别其关键点。

例如，参见图1，提供了对人体肩膀等部位关键点识别错误的示例，由于背景复杂、与肩膀等部位的纹理、颜色较接近，从而对模型识别造成了干扰。

由此，本申请提供了一种图像处理方法及电子设备，用于至少解决上述技术问题，通过利用图像中人体等前景对象与背景部分的分割信息来辅助对象的关键点检测，而达到提升人体等对象姿态估计中关键点的检测准确度的目的。

参见图2，为本申请一可选实施例提供的图像处理方法的一种流程示意图，该方法可应用于但不限于具有图像处理功能的手机、平板电脑、个人PC(如笔记本、一体机、台式机)等终端设备中，或具有图像处理功能的私有云/公有云云平台、服务节点等对应的物理机中。

如图2所示，本实施例的图像处理方法可以包括以下处理步骤：

步骤201、获得待处理的目标图像。

待处理的目标图像，可以是人体等的对象姿态估计场景中，待进行目标对象的关键点检测以实现姿态估计的图像，其具体可以是实时采集的目标对象的至少一个图像，如，利用摄像头实时采集的一系列人体图像等，或者，也可以是历史上已采集并存储的目标对象的至少一个图像，但不限于此，还可以是来自网络的图像，本实施例对此不加限制。

步骤202、提取所述目标图像中目标对象与背景部分之间的前背景分割特征。

目标对象，是指图像前景部分中待进行关键点检测及此基础上的姿态估计的对象，典型地，比如可以是人体、动物、无人机等前景对象。

本申请实施例在对目标图像中的目标对象进行关键点检测时，提取目标图像中目标对象与背景部分之间的前背景分割特征，并将提取的前背景分割特征作为辅助信息引入目标对象的关键点识别中，其中，加入前背景分割特征之后，不仅能够利用目标对象(如人体)上的信息(即，前景信息)来检测关键点，还能够利用到背景信息，特别地能够利用到有效将前景信息与背景信息加以区分、分割的前背景分割特征，以此来提高前背景比较相似情况下的关键点/特征点检测准确度。

步骤203、提取所述目标图像中目标对象的骨架结构特征。

目标对象的骨架结构特征，为目标图像中目标对象所对应的前景部分中所体现的目标对象不同部位/不同组成部件之间的骨架关系、结构关系或位置关系特征。

以目标对象为人体为例，目标对象的骨架结构特征，可以包括但不限于人的眼睛、鼻子、嘴巴、肩膀、胯部、四肢等不同部位之间的骨架关系、结构关系和/或位置关系特征。

目标图像中目标对象的骨架结构特征的提取，本质目的在于利用目标对象自身的信息(如人体身上的信息)来检测关键点。

步骤204、根据所述前背景分割特征和所述骨架结构特征，识别所述目标图像中目标对象的多个关键点，得到能用于对所述目标对象进行姿态估计的多个关键点信息。

由以上方案可知，本申请实施例提供的图像处理方法，结合目标图像中目标对象与背景部分之间的前背景分割特征以及目标图像中目标对象的骨架结构特征，对目标图像中的目标对象进行关键点检测，也即，相当于，本申请在基于目标对象的骨架结构特征对目标图像中目标对象的多个关键点进行检测识别时，利用了目标图像中人体等目标对象与背景部分的前背景分割信息作为辅助，这样，针对场景/背景内容复杂的图像，可借助其目标对象与背景部分的前背景分割信息，而准确地进行目标对象与其背景部分的区分及在此基础上目标对象关键点的检测识别，避免了出现将图像背景中某个区域识别为对象关键点的现象，提升了人体等对象姿态估计中关键点的检测准确度。

可选的，针对前背景问题导致的目标对象关键点检测不准确的现象，本申请实施例具体提出了一种利用前景对象与背景部分的前背景分割信息，对用于关键点检测的姿态估计网络的训练过程进行辅助的策略和训练框架，并在此基础上，利用结合所述前背景分割信息辅助训练得到的姿态估计模型(即为一人工智能模型)，对目标图像进行目标对象的关键点检测，以使得为目标对象的姿态估计提供依据。

由此，参见图3示出的图像处理方法的流程示意图，本实施例中，该图像处理方法在步骤201之前，还可以包括：

步骤201’、构建一人工智能模型。

该人工智能模型，即为结合图像中前景对象与背景部分之间的前背景分割信息，对用于关键点检测的姿态估计模型的训练过程进行辅助而得到的姿态估计模型。

基于该辅助训练策略，所述人工智能模型的构建过程可以包括：

1)根据对多个样本图像分别进行前背景分割得到的前背景图像和对所述前背景图像分别标注的前背景信息，训练一分割模型；

具体地，如图4示出的训练框架，训练得到的该分割模型包括主干网络backbone和分割网络SegNet两部分。

其中，主干网络用于提取图像的预定低层语义特征，可以包括但不限于图像中颜色、纹理、灰度/亮度等方面的一系列数学表征特征。

分割网络用于将主干网络提取的预定低层语义特征转换为包括图像中前景对象与背景部分之间的前背景分割特征的第一高层语义特征，可以包括但不限于基于图像中颜色、纹理、灰度/亮度等方面的数学表征特征，而进一步得到的面向图像中前背景不同区域的区域分割层面的数学表征特征。

在分割模型的训练过程中，基于模型对一系列图像样本进行处理而输出的前背景分割结果与人工对该一系列样本图像的前背景图像分别标注的前背景信息之间的差异，计算该分割模型在图像分割处理中的损失信息，如图4中的loss_seg，并基于该损失信息loss_seg，优化分割模型，直至达到优化目标(如损失值低于针对该分割模型设定的阈值)时，完成分割模型的训练。

实施中，分割网络SegNet可为任意类型的分割网络，例如，全卷积神经网络(FullyConvolutional Networks，FCN)、用于医学图像分割的卷积神经网络(U-net)、深度监督网络(Deeply-Supervised Nets，DSN)等等。

2)在所述分割模型的基础上进行姿态估计训练，得到所述人工智能模型。

该在分割模型的基础上进一步进行姿态估计训练，得到人工智能模型的过程，如图5所示，具体可以包括：

步骤501、利用一预先训练的姿态估计网络接收所述主干网络输出的样本图像的预定低层语义特征，将所述预定低层语义特征转换为包括所述样本图像中前景对象的骨架结构特征的第二高层语义特征，并输出；

其中，所述姿态估计网络预先根据多个样本图像和对所述多个样本图像中的前景对象分别标注的关键点信息训练得到。

前景对象比如可以是人体等对象。

图4中的PoseNet表示所述姿态估计网络，姿态估计网络PoseNet与分割网络SegNet共享主干网络backbone，且姿态估计网络PoseNet与分割网络SegNet共同作为图4所示整个姿态估计模型的模型架构的头网络(head)部分。

姿态估计网络PoseNet接收主干网络backbone输出的样本图像的预定低层语义特征，如，颜色、纹理、灰度/亮度等方面的一系列数学表征特征，将该预定低层语义特征转换为包括样本图像中前景对象的骨架结构特征的第二高层语义特征并输出，该第二高层语义特征可以包括但不限于样本图像中前景对象的不同部位/不同组成部件之间的骨架关系、结构关系或位置关系特征，如，人的眼睛、鼻子、嘴巴、肩膀、胯部、四肢等不同部位之间的骨架关系、结构关系和/或位置关系特征等。

实施中，姿态估计网络PoseNet可为任意类型的姿态估计网络，例如，OpenPose、DeepCut、RMPE(Regional Multi-Person Pose Estimation，区域多人姿态检测)等等。

步骤502、利用一融合模块将所述分割网络输出的样本图像的第一高层语义特征和所述姿态估计网络输出的样本图像的第二高层语义特征进行融合处理，得到融合后的高层语义特征，并确定所述融合后的高层语义特征中各特征分别对应的重要度信息。

融合模块对第一高层语义特征和第二高层语义特征的融合处理，具体指对第一高层语义特征中的各个特征和第二高层语义特征的各个特征进行concat(合并)操作，图4中具体采用

表示该操作，通过该操作，得到融合后的高层语义特征。

之后，确定融合后的高层语义特征中各特征分别对应的重要度信息。

可选的，如图4所示，具体可根据注意力机制(Attention机制)，对融合后的高层语义特征中的各特征进行重要性筛选，确定各特征的重要性，增强重要的特征、削弱不重要的特征，并在此基础上，为各特征分别分配用于指示所对应的重要性的权重信息，以基于不同的权重信息表征不同的重要度信息。

之后，将携带有重要度信息(如权重)的各高层语义特征输入至后处理网络，如图4中所示的RefineNet。

步骤503、利用一后处理网络，根据所述融合后的高层语义特征中各特征分别对应的重要度信息，将所述融合后的高层语义特征变形得到预定数量的热图，并输出。

后处理网络RefineNet包括多个卷积层(conv层)，目的是为了将融合模块输出的携带有重要度信息(如权重)的各高层语义特征，融合变形为预定数量的热图，其中，不同热图对应于样本图像中前景对象的不同指定部位，如人体眼睛部位、鼻子部位、肩膀部位，胯部、四肢等，每个热图包括对应于相应指定部位的多个候选关键点，每个候选关键点对应一置信度信息。

步骤504、根据所述后处理网络输出的各个热图和预先基于人工标注得到的热图，确定姿态估计中的损失信息。

步骤505、根据所述损失信息对所述姿态估计网络、所述融合模块和所述后处理网络进行优化，直至达到优化目标时，得到由所述分割模型、姿态估计网络、融合模块和后处理网络构成的所述人工智能模型。

在对图4指出的人工智能模型(姿态估计模型)的整体网络架构进行训练时，首先只训练分割模型分支，也就是Beckbone+SegNet部分，分割模型训练完成后，进一步训练网络架构中的其他分支，即，PoseNet+融合模块+RefineNet部分，该PoseNet+融合模块+RefineNet部分构成的分支即为整体网络架构中的姿态估计分支(容易理解，该姿态估计分支中融合了图像的前背景分割信息作为姿态估计的辅助信息)，基于此，在得到后处理网络输出的各个热图后，可进一步根据后处理网络输出的各个热图和预先基于人工标注得到的热图之间的差异，计算姿态估计分支在姿态估计中的损失信息，如图4中示出的Loss_pose，并根据损失信息Loss_pose对姿态估计分支的网络部分进行优化，直至达到优化目标时，如损失值低于针对该分支设定的阈值时，完成人工智能模型的构建，构建得到的该人工智能模型具体包括由所述分割模型(Beckbone+SegNet)、姿态估计网络、融合模块和后处理网络构成的整体网络架构。

实施中，针对图4示出的人工智能模型的网络架构，具体可为其设置如下的损失值计算式：

Loss＝α*loss_seg+loss_pose；

其中，loss_seg为分割网络分支的loss，loss_pose为姿态估计分支的loss，α为一预先设置的系数，一般设置为一个较小的值。

并基于以上的计算式在不同网络分支训练过程中，基于所对应损失值进行相应分支的网络优化。

在构建完成所述人工智能模型(结合有分割信息的姿态估计模型)的基础上，参见图6示出的图像处理方法的流程示意图，可进一步基于所构建的人工智能模型，将本申请的图像处理方法实现为以下的处理过程：

步骤601、获得待处理的目标图像。

步骤602、利用已构建的人工智能模型中的主干网络，提取所述目标图像的预定低层语义特征。

具体地，可利用图4示出的网络架构中的主干网络Beckbone，提取目标图像中目标对象不同部位/不同组成部件之间的骨架关系、结构关系或位置关系特征，如，提取人的眼睛、鼻子、嘴巴、肩膀、胯部、四肢等不同部位之间的骨架关系、结构关系和/或位置关系特征等。

步骤603、利用所述人工智能模型中的分割网络，将所述预定低层语义特征转换为包括所述目标图像中目标对象与背景部分之间的前背景分割特征的第一高层语义特征。

之后，利用分割网络SegNet将主干网络Beckbone输出的上述低层语义特征转换为包括目标图像中目标对象与背景部分之间的前背景分割特征的第一高层语义特征，如，基于目标图像中颜色、纹理、灰度/亮度等方面的数学表征特征，而进一步得到的面向图像中前背景不同区域的区域分割层面的数学表征特征等。

步骤604、利用所述人工智能模型中的姿态估计网络，将所述预定低层语义特征转换为包括所述目标图像中目标对象的骨架结构特征的第二高层语义特征。

同时，姿态估计网络PoseNet将主干网络Beckbone输出的上述低层语义特征转换为包括目标图像中目标对象的骨架结构特征的第二高层语义特征，如，转换为目标图像中目标对象的不同部位/不同组成部件之间的骨架关系、结构关系或位置关系特征(比如人的眼睛、鼻子、嘴巴、肩膀、胯部、四肢等不同部位之间的骨架关系、结构关系和/或位置关系特征)等，并输出给后续的融合模块。

步骤605、利用所述人工智能模型中的融合模块，对所述第一高层语义特征和所述第二高层语义特征进行融合处理，得到融合后的高层语义特征，并确定所述融合后的高层语义特征中各特征分别对应的重要度信息。

融合模块将分割网络SegNet输出的第一高层语义特征和姿态估计网络PoseNet输出的第二高层语义特征进行concat(合并)操作，实现特征融合，并基于注意力机制(Attention机制)，对融合后的高层语义特征中的各特征进行重要性筛选，确定各特征的重要性，增强重要的特征、削弱不重要的特征，并在此基础上为各特征分别分配用于指示所对应的重要性的权重信息；不同的权重信息表征不同的重要度信息。

之后，将携带有重要度信息(如权重)的各高层语义特征输入至后处理网络RefineNet。

步骤606、利用所述人工智能模型中的后处理网络，根据所述融合后的高层语义特征中各特征分别对应的重要度信息，将所述融合后的高层语义特征变形得到预定数量的热图。

后处理网络RefineNet基于其包括的各卷积层，将融合模块输出的携带有重要度信息(如权重)的各高层语义特征，融合变形为预定数量的热图。

其中，不同热图对应于目标图像中目标对象的不同指定部位，每个热图包括对应于相应指定部位的多个候选关键点，每个候选关键点对应一置信度信息。

步骤607、从每个热图中选取满足置信度条件的候选关键点，作为该热图对应的相应指定部位的关键点。

最终，从每个热图中选取满足置信度条件的候选关键点，作为该热图对应的相应指定部位的关键点，例如，从人体的鼻子、眼睛、肩膀、胯部、四肢等不同部位分别对应的热图中，选取满足置信度条件的候选关键点，而分别作为人体不同部位的关键点等，相应得到能用于对目标对象进行姿态估计的多个关键点信息。

其中，从每个热图中选取满足置信度条件的候选关键点，作为该热图对应的相应指定部位的关键点，可以是但不限于：从每个热图中选取置信度取值最大的候选关键点，作为该热图对应的相应指定部位的关键点。

最终得到的能用于对目标对象进行姿态估计的多个关键点信息，可以包括但不限于各个关键点分别对应的位置信息，以及分别对应的置信度信息。关键点对应的置信度信息，用于表示关键点属于所对应的指定部位(如眼睛、鼻子)的关键点的概率。

且，实施中，通常通过在目标图像中目标对象的相应位置标记出关键点，而使得标记出的关键点自带位置属性，并同时针对标记出的每个关键点为其携带一置信度信息，具体可参见图7所示，提供了利用本申请实施例的图像处理方法对图像进行对象关键点检测后得到的检测结果。

经与图1的检测结果进行比对，可知，图7示出的检测结果的准确度更高，有效避免了前背景比较相似的情况下，将图像背景中某个区域识别为对象关键点的现象。

本实施例通过引入分割网络对姿态估计网络的训练过程进行辅助，实现了将分割网络与能够进行对象关键点检测的姿态估计网络进行融合，相应可实现在姿态估计中结合图像中前景对象与背景部分的前背景分割信息对前景对象的关键点检测进行辅助，以此使得在对象姿态估计中对对象进行关键点检测时，不仅能够利用前景对象(如人体)上的信息来检测关键点，还能够利用到背景信息，特别地能够利用到有效将前景信息与背景信息加以区分、分割的前背景分割特征而辅助关键点的检测过程，从而有效提高了前背景比较相似的情况下的关键点检测的准确度。

本申请实施例还提供了一种电子设备，该电子设备可以是但不限于具有图像处理功能的手机、平板电脑、个人PC(如笔记本、一体机、台式机)等终端设备，或具有图像处理功能的私有云/公有云云平台、服务节点等对应的物理机。

参见图8示出的电子设备的结构示意图，该电子设备可以包括：

存储器801，用于至少存储一组指令集。

所述的计算机指令集可以采用计算机程序的形式实现。

存储器801可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其它易失性固态存储器件。

处理器802，用于调用并执行所述存储器中的所述指令集，通过执行所述指令集进行以下操作：

获得待处理的目标图像；

提取所述目标图像中目标对象的骨架结构特征；

其中，处理器802可以为中央处理器(Central Processing Unit，CPU)，特定应用集成电路(application-specific integrated circuit，ASIC)，数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件等。

除此之外，电子设备还可以包括通信接口、通信总线等组成部分。存储器、处理器和通信接口通过通信总线完成相互间的通信。

通信接口用于电子设备与其它设备之间的通信。通信总线可以是外设部件互连标准(Peripheral Component Interconnect，PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture，EISA)总线等，该通信总线可以分为地址总线、数据总线、控制总线等。

在本申请实施例的一可选实施方式中，处理器802，在提取所述目标图像中目标对象与背景部分之间的前背景分割特征，提取所述目标图像中目标对象的骨架结构特征方面，具体用于：

在本申请实施例的一可选实施方式中，处理器802，在根据所述前背景分割特征和所述骨架结构特征，识别所述目标图像中目标对象的多个关键点方面，具体用于：

在本申请实施例的一可选实施方式中，处理器802，在确定所述融合后的高层语义特征中各特征分别对应的重要度信息方面，具体用于：

在本申请实施例的一可选实施方式中，处理器802，在从每个热图中选取满足置信度条件的候选关键点，作为该热图对应的相应指定部位的关键点方面，具体用于：

在本申请实施例的一可选实施方式中，处理器802，在获得待处理的目标图像之前，还用于：构建一人工智能模型；

所述人工智能模型的构建过程包括：

在本申请实施例的一可选实施方式中，所述分割模型包括主干网络和分割网络；主干网络用于提取图像的预定低层语义特征，分割网络用于将所述预定低层语义特征转换为包括图像中前景对象与背景部分之间的前背景分割特征的第一高层语义特征；

处理器802，在所述分割模型的基础上进行姿态估计训练，得到所述人工智能模型方面，具体用于：

对于本申请实施例公开的电子设备而言，由于其与上文任一方法实施例公开的图像处理方法相对应，所以描述的比较简单，相关相似之处请参见上文方法实施例中图像处理方法部分的说明即可，此处不再详述。

另外，本申请实施例还公开了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机指令集，所述计算机指令集被处理器执行时实现如上文方法实施例所公开的图像处理方法。

该计算机可读存储介质中存储的指令在运行时，结合目标图像中目标对象与背景部分之间的前背景分割特征以及目标图像中目标对象的骨架结构特征，对目标图像中的目标对象进行关键点检测，也即，相当于，本申请在基于目标对象的骨架结构特征对目标图像中目标对象的多个关键点进行检测识别时，利用了目标图像中人体等目标对象与背景部分的前背景分割信息作为辅助，这样，针对场景/背景内容复杂的图像，可借助其目标对象与背景部分的前背景分割信息，而准确地进行目标对象与其背景部分的区分及在此基础上目标对象关键点的检测识别，避免了出现将图像背景中某个区域识别为对象关键点的现象，提升了人体等对象姿态估计中关键点的检测准确度。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

为了描述的方便，描述以上系统或装置时以功能分为各种模块或单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

最后，还需要说明的是，在本文中，诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种图像处理方法，包括：

获得待处理的目标图像；

提取所述目标图像中目标对象的骨架结构特征；

2.根据权利要求1所述的方法，所述提取所述目标图像中目标对象与背景部分之间的前背景分割特征，提取所述目标图像中目标对象的骨架结构特征，包括：

3.根据权利要求2所述的方法，所述根据所述前背景分割特征和所述骨架结构特征，识别所述目标图像中目标对象的多个关键点，包括：

4.根据权利要求3所述的方法，所述确定所述融合后的高层语义特征中各特征分别对应的重要度信息，包括：

5.根据权利要求3所述的方法，所述从每个热图中选取满足置信度条件的候选关键点，作为该热图对应的相应指定部位的关键点，包括：

6.根据权利要求1所述的方法，在所述获得待处理的目标图像之前，还包括：构建一人工智能模型；

所述人工智能模型的构建过程包括：

7.根据权利要求6所述的方法，其中：

利用一预先训练的姿态估计网络接收所述主干网络输出的样本图像的预定低层语义特征，将所述预定低层语义特征转换为包括所述样本图像中前景对象的骨架结构特征的第二高层语义特征，并输出；所述姿态估计网络预先根据多个样本图像和对所述多个样本图像中的前景对象分别标注的关键点信息训练得到；

8.一种电子设备，包括：

存储器，用于至少存储一组指令集；

获得待处理的目标图像；

提取所述目标图像中目标对象的骨架结构特征；

9.根据权利要求8所述的电子设备，所述处理器，在提取所述目标图像中目标对象与背景部分之间的前背景分割特征，提取所述目标图像中目标对象的骨架结构特征方面，具体用于：

利用已构建的人工智能模型中的主干网络，提取所述目标图像的预定低层语义特征；利用所述人工智能模型中的分割网络，将所述预定低层语义特征转换为包括所述目标图像中目标对象与背景部分之间的前背景分割特征的第一高层语义特征；利用所述人工智能模型中的姿态估计网络，将所述预定低层语义特征转换为包括所述目标图像中目标对象的骨架结构特征的第二高层语义特征；

10.根据权利要求8所述的电子设备，所述处理器，在所述获得待处理的目标图像之前，还用于：构建一人工智能模型；

其中，所述处理器构建所述人工智能模型的过程包括：