CN116612495B

CN116612495B - 图像处理方法及装置

Info

Publication number: CN116612495B
Application number: CN202310511597.5A
Authority: CN
Inventors: 卞思沅; 李杰锋; 刘祺; 唐家声; 王帆; 卢策吾
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-05-05
Filing date: 2023-05-05
Publication date: 2024-04-30
Anticipated expiration: 2043-05-05
Also published as: CN116612495A

Abstract

本说明书实施例提供图像处理方法及装置，其中所述图像处理方法包括：获取待处理图像，其中，所述待处理图像中包括待检测目标；识别所述待处理图像，获得所述待检测目标的至少一个预测关键点信息和各预测关键点信息对应的扭动旋转信息；将各预测关键点信息和各预测关键点信息对应的扭动旋转信息输入至姿态预测模型，获得所述待检测目标的姿态参数信息，其中，所述姿态预测模型为可逆神经网络模型；根据所述姿态参数信息，生成所述待检测目标对应的三维遮挡目标。通过本方法，提供了一种基于可逆神经网络的姿态预测模型，该模型可以准确且鲁棒地估计出待检测目标的姿态信息。便于后续生成三维遮挡目标，提升了生成三维遮挡目标的准确性。

Description

图像处理方法及装置

技术领域

本说明书实施例涉及计算机技术领域，特别涉及图像处理方法。

背景技术

目标形态检测一直是计算机视觉的一项基础任务，例如人体形态检测，人体形状和姿态估计是人类行为理解的基础，也在虚拟现实(Virtual Reality，VR)，辅助现实(Augmented RealityAR)，自动驾驶等领域有广泛应用。

近来年越来越多的研究转向了目标三维姿态(目标3D)估计，在此过程中，最常用的模型是关键点模型，通过估计目标的多个关键点坐标，可以确定目标的动作，不过关键点模型不能完全反应目标的形态，因此，基于目标网格化模型的目标形态估计就受到越来越多人的关注。但是无论是关键点预测还是目标网格化模型都存在对于遮挡区域无法检测或者预检测的区域不准确的问题。因此亟需一种形态检测方法，解决上述问题。

发明内容

有鉴于此，本说明书实施例提供了图像处理方法。本说明书一个或者多个实施例同时涉及图像处理装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种图像处理方法，包括：

获取待处理图像，其中，所述待处理图像中包括待检测目标；

识别所述待处理图像，获得所述待检测目标的至少一个预测关键点信息和各预测关键点信息对应的扭动旋转信息；

将各预测关键点信息和各预测关键点信息对应的扭动旋转信息输入至姿态预测模型，获得所述待检测目标的姿态参数信息，其中，所述姿态预测模型为可逆神经网络模型；

根据所述姿态参数信息，生成所述待检测目标对应的三维遮挡目标。

根据本说明书实施例的第二方面，提供了一种图像处理方法，包括：

获取待处理图像，其中，所述待处理图像中包括待检测人物；

识别所述待处理图像，获得所述待检测人物的至少一个预测关键点信息和各预测关键点信息对应的扭动旋转信息；

将各预测关键点信息和各预测关键点信息对应的扭动旋转信息输入至姿态预测模型，获得所述待检测人物的姿态参数信息，其中，所述姿态预测模型为可逆神经网络模型；

根据所述姿态参数信息，生成所述待检测人物对应的三维遮挡人体模型。

根据本说明书实施例的第三方面，提供了一种图像处理装置，包括：

图像获取模块，被配置为获取待处理图像，其中，所述待处理图像中包括待检测目标；

识别模块，被配置为识别所述待处理图像，获得所述待检测目标的至少一个预测关键点信息和各预测关键点信息对应的扭动旋转信息；

姿态获取模块，被配置为将各预测关键点信息和各预测关键点信息对应的扭动旋转信息输入至姿态预测模型，获得所述待检测目标的姿态参数信息，其中，所述姿态预测模型为可逆神经网络模型；

生成模块，被配置为根据所述姿态参数信息，生成所述待检测目标对应的三维遮挡目标。

根据本说明书实施例的第四方面，提供了一种图像处理装置，包括：

图像获取模块，被配置即为获取待处理图像，其中，所述待处理图像中包括待检测人物；

识别模块，被配置为识别所述待处理图像，获得所述待检测人物的至少一个预测关键点信息和各预测关键点信息对应的扭动旋转信息；

姿态获取模块，被配置为将各预测关键点信息和各预测关键点信息对应的扭动旋转信息输入至姿态预测模型，获得所述待检测人物的姿态参数信息，其中，所述姿态预测模型为可逆神经网络模型；

生成模块，被配置为根据所述姿态参数信息，生成所述待检测人物对应的三维遮挡人体模型。

根据本说明书实施例的第五方面，提供了一种增强现实AR设备或虚拟现实VR设备，包括：

存储器、处理器和显示器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现如下步骤：

根据所述姿态参数信息，生成所述待检测目标对应的三维遮挡目标；

将所述三维遮挡目标通过所述增强现实AR设备或所述虚拟现实VR设备的显示器进行展示。

根据本说明书实施例的第六方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述图像处理方法的步骤。

根据本说明书实施例的第七方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述图像处理方法的步骤。

根据本说明书实施例的第八方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述图像处理方法的步骤。

本说明书一个实施例提供的图像处理方法，包括获取待处理图像，其中，所述待处理图像中包括待检测目标；识别所述待处理图像，获得所述待检测目标的至少一个预测关键点信息和各预测关键点信息对应的扭动旋转信息；将各预测关键点信息和各预测关键点信息对应的扭动旋转信息输入至姿态预测模型，获得所述待检测目标的姿态参数信息，其中，所述姿态预测模型为可逆神经网络模型；根据所述姿态参数信息，生成所述待检测目标对应的三维遮挡目标。通过本方法，提供了一种基于可逆神经网络的姿态预测模型，该模型可以准确且鲁棒地估计出待检测目标的姿态信息。便于后续生成三维遮挡目标，提升了生成三维遮挡目标的准确性。

附图说明

图1是本说明书一个实施例提供的一种图像处理方法的流程图；

图2是本说明书一个实施例提供的姿态预测模型的数据处理示意图；

图3是本说明书一个实施例提供的一种应用于人体识别场景的图像处理方法的处理过程流程图；

图4是本说明书一个实施例提供的三维遮挡人体模型的示意图；

图5是本说明书一个实施例提供的一种图像处理装置的结构示意图；

图6是本说明书另一个实施例提供的一种图像处理装置的结构示意图；

图7是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

需要说明的是，本说明书所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

可逆神经网络：(Invertible Neural Networks，INN)，可逆神经网络的输入和输出的维度相同，从输入到输出的映射是双射的，即输入和输出是可逆的，可逆神经网络的正向和反向迎合都是有效可计算的。可逆神经网络的基本构建块是Real NVP模型推广的仿射耦合成，其工作原理是将输入数据分成两部分u1、u2，这两部分由学习函数si、ti(可以是任意的函数，且函数本身不需要时可逆的)转换并以交替方式耦合。在可逆神经网络中，信息传递是无损的，可以保留输入数据的细节信息。

SMPL：Skinned Multi-Person Linear，是一种线性混合蒙皮模型，是人体形态估计中最常用的模型，其包含了6890个三角网络，SMPL模型的形状由形状参数和姿态参数控制，形状参数决定了人体骨骼长度与静止姿态下的人体模版网络，而姿态参数控制了人物的姿势。

目标形态检测一直是计算机视觉任务的一项基础任务，以人体形态检测为例，从RGB图像回归出人体形状与姿态，在影视剧特效、动画、自动驾驶等场景有广泛的应用，人体形状与姿态估计是人类行为理解的基础。

今年来越来越多的研究转向了目标3D估计，在此过程中，通常需要使用关键点模型来估计目标的多个关键点坐标，以此来确定目标的动作，而关键点模型并不能很好的反应目标的形态(例如高矮胖瘦、形状、大小等)，也无法完整的重建出目标的表面结构。因此，基于目标网格化模型的目标形态估计就受到越来越多人的关注。

但是无论是关键点预测，还是目标网格化模型都存在着一些难以解决的问题，例如目前的模型都对于遮挡比较敏感，当有图像中有遮挡时就无法准确的进行预测，又或者生成的预测结果无法与图片实现像素级的对齐，即生成的3D模型无法遮挡图像中的目标，生成的3D模型不准确的问题。

在本说明书中，提供了图像处理方法，本说明书同时涉及图像处理装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

参见图1，图1示出了根据本说明书一个实施例提供的一种图像处理方法的流程图，具体包括以下步骤。

步骤102：获取待处理图像，其中，所述待处理图像中包括待检测目标。

其中，待处理图像具体是指要进行图像识别的图像，在本说明书提供的方法中，要识别出待处理图像中的待检测目标，基于待检测目标生成对应的3D模型。例如，在人体检测场景中，要生成人体3D姿态的模型；本说明书提供的方法，还可以用于到其他识别目标的场景中，例如目标追踪场景、目标识别场景，待检测目标也可以根据实际应用场景的不同，例如可以是图像中的人、动物、建筑物等等。

在本说明书提供的一具体实施方式中，以人体检测场景为例，获取包括有人物在内的待处理图像，在待处理图像中，人即为待检测目标，本说明书提供的方法，是为图像中的人物生成对应的3D模型。

示意性的，在本说明书提供的方法中，获取待处理图像，包括：

获得待处理视频，其中，所述待处理视频中包括待检测目标；

解码所述待处理视频，获得至少一个待处理图像。

本说明书提供的方法除了处理待处理图像之外，还可以处理视频，具体的，由于视频是由多个视频帧组成，在识别视频中的待检测目标的过程中，可以先将待处理视频进行解码，获得待处理视频对应的多个待处理视频帧，将每个待处理视频帧即可作为待处理图像。

步骤104：识别所述待处理图像，获得所述待检测目标的至少一个预测关键点信息和各预测关键点信息对应的扭动旋转信息。

在获得了待处理图像之后，可以通过图像识别技术识别该待处理图像，提取待检测目标的至少一个预测关键点信息，和各预测关键点信息对应的扭动旋转信息。

其中，预测关键点信息具体是指用于表征待检测目标特征的关键点，以人体检测为例，可以将人体上的关节点作为关键点，例如头、肩膀、肘、手腕、腰、膝盖、脚腕等等。

在识别到多个预测关键点信息之后，还可以预测获得各预测关键点信息对应的扭动旋转信息(twist)，twist具体可以理解为待检测目标骨骼的自旋转。在对待处理图像进行图像识别时，可以直接从图像识别网络中获取到各预测关键点对应的twist。

在本说明书提供的一具体实施方式中，识别所述待处理图像，获得所述待检测目标的至少一个预测关键点信息和各预测关键点信息对应的扭动旋转信息，包括：

将所述待处理图像输入至关键点检测模型，获得所述关键点检测模型输出的至少一个预测关键点信息；

根据各预测关键点信息确定各预测关键点对应的扭动旋转信息。

其中，关键点检测模型具体是指预先训练好的，用于识别待检测目标的神经网络模型，将待处理图像输入到该关键点检测模型中，可以获得该关键点检测模型输出的至少一个预测关键点信息，和各预测关键点信息对应的扭动旋转信息(twist)。

示意性的，以人体检测场景为例，关键点检测模型可以使用AlphaPose人体姿态识别模型，AlphaPose可以实现人体动作、面部表情、手指运动等姿态估计，适用于单人和多人，有较好的鲁棒性。

在本说明书提供的一具体实施方式中，以关键点检测模型为AlphaPose人体姿态识别模型为例进行解释说明，具体的，将所述待处理图像输入至关键点检测模型，获得所述关键点检测模型输出的至少一个预测关键点信息，包括：

将所述待处理图像输入至关键点检测模型的特征提取层，获得待处理图像特征信息；

对所述待处理图像特征信息执行反卷积处理，获得预测关键点概率分布信息；

基于所述预测关键点概率分布信息确定至少一个预测关键点信息。

在本实施方式中，关键点检测模型首先包括一个特征提取层，将待处理图像输入到关键点检测模型中，经过卷积网络提取特征，获得待处理图像特征信息。再对待处理图像特征信息经过多层反卷积层处理，得到待处理图像特征信息对应的预测关键点概率分布图，基于该预测关键点概率分布图确定至少一个预测关键点信息。更进一步的，将预测关键点概率分布图中，概率大于预设阈值的关键点确定为预测关键点，并获取该预测关键点的预测关键点信息。在实际应用中，预测关键点信息至少包括关键点标识、关键点位置信息。

以人体检测为例，在使用AlphaPose人体姿态识别模型的情况下，有多个预测关键点，如头、鼻、左右目、左右耳、左右肩、左右肘、左右手、左右腰、左右膝、左右足等等。在实际应用中，不同的人体姿态识别模型可以识别出不同的关键点类型，在本说明书提供的实施方式中对此不做限定。

在确定了待检测对象的预测关键点信息的同时，关键点检测模型还可以同时输出各预测关键点对应的扭动旋转信息(twist)。

需要注意的是，在本说明书提供的方法中，最终是要生成与待识别目标对应的3D模型，基于此，以人体检测场景为例，生成人体3D模型通常会用到SMPL模型(SkinnedMulti-Person Linear Model)，SMPL模型在生成3D模型的过程中，通常需要人体的形状参数，即人体的高矮胖瘦信息，人体的形状参数信息也可以从待处理图像中获取。

具体的，在本说明书提供的一具体实施方式中，在识别所述待处理图像，获得所述待检测目标的至少一个预测关键点信息和各预测关键点信息对应的扭动旋转信息之后，还包括：

获取所述待检测目标的形状参数信息。

通过对待处理图像的图像识别，可以获得待检测目标的形状参数信息，更进一步的，依然以人体检测为例，在SMPL模型中的形状参数通常有10个维度的数值信息，每一个维度的数值表示人体形状的某个指标，例如高矮、胖瘦、等等。这些形状参数均可以通过图像识别模型从待处理图像中获取。

步骤106：将各预测关键点信息和各预测关键点信息对应的扭动旋转信息输入至姿态预测模型，获得所述待检测目标的姿态参数信息，其中，所述姿态预测模型为可逆神经网络模型。

其中，姿态预测模型具体是指基于可逆神经网络的神经网络模型，在实际应用中，通过关键点检测模型获得的预测关键点信息与真正关键点信息之间是存在一定误差的，本说明书提供的方法，旨在能从预测关键点信息中找到该误差，从而根据预测关键点信息和该误差，从而获得真正关键点信息。

可逆神经网络(Invertible Neural Networks，INN)的输入和输出的维度相同，而且可逆神经网络中的信息传递是无损的，即将信息A输入到可逆神经网络中进行正向运算，会获得信息B，再将B输入到可逆神经网络中进行反向运算，还可以再获得信息A。

基于可逆神经网络，可以有效保证输入的信息并不回有损失，因此，将预测关键点信息输入到可逆神经网络中进行处理，可将预测关键点信息进行显式的拆解为真正关键点信息和信息误差。从而可以获得更为准确的真正关键点信息。

根据可逆神经网络的性质，在本说明书提供的一个或多个实施方式中，在训练姿态预测模型的过程中，使用了多个损失函数：Inverse Training Loss(反向训练损失函数)，Forward Tranining Loss(前向训练损失函数)，Independence Loss(独立损失函数)，Boundary Condition Loss(边界条件损失函数)。

Inverse Training Loss用于在姿态预测模型中正向训练，训练样本为样本初始关键点信息、样本初始关键点信息对应的扭动旋转信息、样本修正关键点信息。具体的，将样本初始关键点信息和扭动旋转信息输入至姿态预测模型处理，获得预测修正关键点信息，再将预测修正关键点信息和样本修正关键点信息计算损失值1，根据损失值1调整姿态预测模型的正向预算模型参数。

Forward Tranining Loss用于在姿态预测模型中的逆向训练，训练样本为样本修正关键点信息、样本初始关键点信息和样本初始关键点信息对应的样本扭动旋转信息。将样本修正关键点信息输入至姿态预测模型，在姿态预测模型中进行逆向运算，获得模型输出的预测初始关键点信息和预测初始关键点信息对应的预测扭动旋转信息，再根据样本初始关键点信息和样本扭动旋转信息，与预测初始关键点信息和预测扭动旋转信息计算损失值2，根据损失值2调整姿态预测模型的逆向运算模型参数。

Independence Loss用于在正向训练过程中，将误差信息与关键点信息相互独立，在输出的结果中，除了预测修正关键点信息外，还包括有误差信息，并且在误差信息中不包括扭动旋转信息。

Boundary Condition Loss用于监督边界条件，即当输入信息与输出信息完全没有误差信息的情况下，姿态预测模型应输出没有误差的姿态参数信息，此时的误差信息为0，进一步保证可逆神经网络对样本初始关键点信息的敏感性。

具体的，在本说明书提供的方法中，将各预测关键点信息和各预测关键点信息对应的扭动旋转信息输入至姿态预测模型，姿态预测模型的架构为可逆神经网络架构，将输入的信息分为两个部分，随后经过转换系数与两个仿射变换层的处理后，得到最终的输出结果，即所述待检测目标的姿态参数信息。在本说明书提供的方法中，仿射变换层的仿射系数可以通过任意函数得到，而不需要时可逆的结构。

参见图2，图2示出了本说明书一实施例提供的姿态预测模型的数据处理示意图。如图2所示，将预测关键点信息和对应的扭动旋转信息作为输入信息，输入到姿态预测模型，在姿态预测模型中，将输入的信息分为U1和U2两个部分，这两部分由学习函数s和学习函数t进行转换，并以交替方式耦合。最终获得输出的输出信息和误差信息，图2中的参数β为转换系数，在本说明书提供的一具体实施方式中，参数β可以理解为上述步骤中获得的形状参数信息。

参见图2，图2中的V1＝U1⊙s2(U2，β)+t2(U2，β)；V2＝U2⊙s1(V1，β)+t1(V1，β)。最后，根据V1和V2生成输出信息和误差信息。在本实施方式中，输入信息即为预测关键点信息和扭动旋转信息，输出信息即为姿态参数信息。

更进一步的，将各预测关键点信息和各预测关键点信息对应的扭动旋转信息输入至姿态预测模型，获得所述待检测目标的姿态参数信息，包括S1062-S1068：

S1062、将目标预测关键点信息和所述目标预测关键点信息对应的扭动旋转信息输入至所述姿态预测模型的嵌入层，获得预测关键点特征信息和扭动旋转特征信息，其中，所述目标预测关键点信息为各预测关键点信息中的任一个。

在本说明书提供的方法中，有多个预测关键点信息，为了便于解释说明，用其中一个作为示例，在实际应用中，可以分别对各预测关键点信息进行处理，也可以对多个预测关键点信息进行集中处理，在本说明书提供的实施方式中对此不做限定。

目标预测关键点信息和目标预测关键点信息对应的扭动旋转信息输入至嵌入层，做嵌入化处理，嵌入层用于将输入的信息转换为计算机可以识别并使用的特征信息，从而获得目标预测关键点信息对应的预测关键点特征信息，获得扭动旋转信息对应的扭动旋转特征信息。

S1064、将所述目标预测关键点特征信息输入至所述姿态预测模型的轴向旋转层，获得所述目标预测关键点信息对应的轴向旋转特征信息。

轴向旋转层是姿态预测模型中的第一个网络层，用于根据预测关键点特征信息生成目标关键点信息对应的轴向旋转特征信息(Swing)，轴向旋转层的网络结构与图2中的网络结构类似，输入信息为预测关键点特征信息，输出的信息为轴向旋转特征信息。预测关键点特征信息和轴向旋转特征信息的特征信息维度相同。在实际应用中，轴向旋转层包括多个顺次连接的轴向旋转子层，每个轴向旋转子层的输入即为上一个轴向旋转子层的输出。

具体的，将所述目标预测关键点特征信息输入至所述姿态预测模型的轴向旋转层，获得所述目标预测关键点信息对应的轴向旋转特征信息，包括：

将所述预测关键点特征信息分为第一关键点特征信息和第二关键点特征信息；

根据所述第一关键点特征信息和所述第二关键点特征信息，获得第一耦合特征信息；

根据所述第一耦合特征信息和所述第二关键点特征信息，获得第二耦合特征信息；

根据所述第一耦合特征信息和所述第二耦合特征信息，获得所述目标预测关键点信息对应的轴向旋转特征信息。

其中，第一耦合特征信息具体是指在计算过程中，获得的第一组特征信息；第二耦合特征信息具体是指在计算过程中，获得的第二组特征信息，如图2所示，第一耦合特征信息可以看做V1，第二耦合特征信息可以看做V2。第一关键点特征信息可以看做U1，第二关键点特征信息可以看做U2。轴向旋转层的输入信息即为预测关键点特征信息，轴向旋转层的输出信息即为轴向旋转特征信息。

在轴向旋转层中，将输入的预测关键点特征信息分为第一关键点特征信息u1和第二关键点特征信息u2，对u1和u2的操作，参见上述图2的相关描述，根据预测关键点特征信息确定轴向旋转特征信息的模型处理与上述图2中的相关描述类似在此不在赘述。通过轴向旋转层，可以获得目标预测关键点特征信息对应的轴向旋转特征信息。

S1066、将所述扭动旋转特征信息和所述轴向旋转特征信息输入至所述姿态预测模型的姿态层，获得所述目标预测关键点信息对应的姿态参数特征信息。

在获得轴向旋转特征信息后，再结合扭动旋转特征信息，即可获得目标预测关键点信息对应的姿态参数特征信息。在实际应用中，姿态层也包括多个顺次连接的姿态子层，每个姿态子层的输入即为上一个姿态子层的输出。

具体的，将所述扭动旋转特征信息和所述轴向旋转特征信息输入至所述姿态预测模型的姿态层，获得所述目标预测关键点信息对应的姿态参数特征信息，包括：

根据所述扭动旋转特征信息和所述轴向旋转特征信息生成拼接特征信息，并将所述拼接特征信息分为第一拼接特征信息和第二拼接特征信息；

根据所述第一拼接特征信息和所述第二拼接特征信息，获得第一仿射特征信息；

根据所述第一仿射特征信息和所述第二拼接特征信息，获得第二仿射特征信息；

根据所述第一仿射特征信息和所述第二仿射特征信息，获得所述目标预测关键点信息对应的姿态参数特征信息。

在实际应用中，在获得扭动旋转特征信息和所述轴向旋转特征信息后，将这两个特征信息进行拼接，获得拼接特征信息，再根据可逆神经网络的网络结构，将拼接特征信息分为第一拼接特征信息和第二拼接特征信息，如图2所示，输入信息即为拼接特征信息，第一拼接特征信息可以理解为U1，第二拼接特征信息可以理解为U2，第一仿射特征信息可以理解为V1，第二仿射特征信息可以理解为V2。在获得的第一仿射特征信息V1和第二仿射特征信息V2之后，即可进一步推算出该目标预测关键点信息对应的姿态参数特征信息。即图2中的输出信息。

S1068、将所述姿态参数特征信息输入至所述姿态预测模型的输出层，获得所述目标预测关键点信息的姿态参数信息。

此时获得的姿态参数特征信息还是特征信息，无法直接使用，需要输入到姿态预测模型的输出层，经过输出层的处理之后，即可获得目标预测关键点信息的姿态参数信息。

在实际应用中，对各预测关键点信息执行相应的操作处理之后，即可获得各预测关键点信息对应的姿态参数信息。从而获得所述待检测目标的姿态参数信息。

在本说明书提供的实施方式中，通过基于可逆神经网络架构构建的姿态预测模型，结合各预测关键点信息和各预测关键点信息对应的扭动旋转信息(twist)，可以准确的预测出姿态参数信息，将预测关键点信息中的误差信息带来的影响降到最低，还原出更准确的姿态参数信息，为后续生成3D遮挡模型提供了数据基础。

步骤108：根据所述姿态参数信息，生成所述待检测目标对应的三维遮挡目标。

在获得了姿态参数之后，即可根据该姿态参数生成待检测目标对应的三维遮挡目标。其中，三维遮挡目标具体是指与待检测目标对应的，三维立体的遮挡图像，在本说明书提供的方法中，根据待处理图像中的待识别对象，生成与待识别对象对应的三维遮挡目标，该三维遮挡目标具体是基于待检测目标生成的，而且可以实现对待检测目标的像素级的对齐，将三维遮挡目标与待检测目标重合时，可以实现将待检测目标覆盖的效果。

在实际应用中，以人体检测场景为例，在生成人体3D模型时，除了使用姿态参数信息之外，还会用到人体的形状参数信息，形状参数信息可以通过上述步骤中对待处理图像进行识别获得。具体的，根据所述姿态参数信息，生成所述待检测目标对应的三维遮挡目标，包括：

根据所述形状参数信息和所述姿态参数信息，生成所述待检测目标对应的三维遮挡目标。

更进一步的，根据所述形状参数信息和所述姿态参数信息，生成所述待检测目标对应的三维遮挡目标，包括：

将所述形状参数信息和所述姿态参数信息输入到三维建模模型，获得所述三维建模模型输出的三维遮挡目标。

在本说明书提供的方法中，使用SMPL模型生成三维遮挡目标，具体的，SMPL模型不仅包括骨架点，还包括有蒙皮，蒙皮通过3D mesh(三角面片)表示，3D mesh是指在立体空间里面用3个点表示一个面，可以视作对真实集合的采样，其中采样的点越多，3D mesh越密，建模的精度就越高。

在SMPL模型中，目标是对于人体的形状(如高矮胖瘦)和人体的动作姿态进行定义，进一步的，需要对人体的每个关键点进行参数化，当改变某个关键点的参数时，人体的姿态就会随之改变。基于此，姿态参数信息具体是指人体各个关键点的动作姿态参数，形状参数信息具体是指人体的高矮胖瘦等形状参数。

在确定了形状参数信息和姿态参数信息之后，将两个信息输入到三维建模模型中，即可获得由三维建模模型生成的三维遮挡目标。

需要注意的是，在实际应用中，本说明书提供的方法，还可以对视频进行处理，视频帧不仅需要获得当前视频帧中的姿态参数特征信息，还可以参考前后视频帧中的姿态参数特征信息，即存在空间中的特征信息，又存在时间上的特征信息。

基于此，在视频处理场景中，首先对多个视频帧进行图像识别，获得各视频帧对应的预测关键点信息和各预测关键点信息对应的扭动旋转信息。

根据本说明书实施例提供的图像处理方法，分别获得各视频帧对应的姿态参数特征信息，同时为了增强各视频帧之间姿态参数特征信息的关系，本说明书一实施例提供的方法，对于视频场景，本说明书提供的姿态预测模型中还引入了自注意力层，在获得了各视频帧对应的预测关键点信息和各预测关键点信息对应的姿态参数特征信息后，将各视频帧对应的预测关键点信息和各预测关键点信息对应的姿态参数特征信息拼接到一起，输入到自注意力层，利用自注意力机制融合各姿态参数特征信息件的特征，从而可以更好的从各视频帧的前后视频帧中学习到相关的特征信息。

具体的，自注意力层可以穿插到轴向旋转层和姿态层中，例如，以轴向旋转层包括8个轴向旋转子层为例，自注意力层可以添加到第4个和第8个轴向旋转子层后，用于融合第1-4个轴向旋转子层和第5-8个轴向旋转子层的特征信息。同样的，以姿态层包括8个姿态子层为例，自注意力层可以添加到第4个和第8个姿态子层后，用于融合第1-4个姿态子层和第5-8个姿态子层的特征信息。

基于可逆神经网络的姿态预测模型，可以双向建模正向运动学与反向运动学过程中的错误信息，在反向运动学的方向上，将预测关键点信息中的误差信息提取出来，以提高网络鲁棒性，在正向运动学的方向，通过前向训练损失函数、独立损失函数和边界条件损失函数保证了模型对关键点信息的敏感性。同时利用了扭动旋转信息和轴向旋转信息，进一步提升了生成三维遮挡目标的高精准度。

下述结合附图3，以本说明书提供的图像处理方法在人体识别场景的应用为例，对所述图像处理方法进行进一步说明。其中，图3示出了本说明书一个实施例提供的一种应用于人体识别场景的图像处理方法的处理过程流程图，具体包括以下步骤。

步骤302：获取待处理图像，其中，所述待处理图像中包括待检测人物。

步骤304：识别所述待处理图像，获得所述待检测人物的至少一个预测关键点信息和各预测关键点信息对应的扭动旋转信息。

步骤306：将各预测关键点信息和各预测关键点信息对应的扭动旋转信息输入至姿态预测模型，获得所述待检测人物的姿态参数信息，其中，所述姿态预测模型为可逆神经网络模型。

步骤308：根据所述姿态参数信息，生成所述待检测人物对应的三维遮挡人体模型。

可选的，识别所述待处理图像，获得所述待检测人物的至少一个预测关键点信息和各预测关键点信息对应的扭动旋转信息，包括：

可选的，将所述待处理图像输入至关键点检测模型，获得所述关键点检测模型输出的至少一个预测关键点信息，包括：

可选的，将各预测关键点信息和各预测关键点信息对应的扭动旋转信息输入至姿态预测模型，获得所述待检测人物的姿态参数信息，包括：

将目标预测关键点信息和所述目标预测关键点信息对应的扭动旋转信息输入至所述姿态预测模型的嵌入层，获得预测关键点特征信息和扭动旋转特征信息，其中，所述目标预测关键点信息为各预测关键点信息中的任一个；

将所述目标预测关键点特征信息输入至所述姿态预测模型的轴向旋转层，获得所述目标预测关键点信息对应的轴向旋转特征信息；

将所述扭动旋转特征信息和所述轴向旋转特征信息输入至所述姿态预测模型的姿态层，获得所述目标预测关键点信息对应的姿态参数特征信息；

将所述姿态参数特征信息输入至所述姿态预测模型的输出层，获得所述目标预测关键点信息的姿态参数信息。

可选的，将所述目标预测关键点特征信息输入至所述姿态预测模型的轴向旋转层，获得所述目标预测关键点信息对应的轴向旋转特征信息，包括：

可选的，将所述扭动旋转特征信息和所述轴向旋转特征信息输入至所述姿态预测模型的姿态层，获得所述目标预测关键点信息对应的姿态参数特征信息，包括：

可选的，在识别所述待处理图像，获得所述待检测人物的至少一个预测关键点信息和各预测关键点信息对应的扭动旋转信息之后，还包括：

获取所述待检测人物的形状参数信息。

可选的，根据所述姿态参数信息，生成所述待检测人物对应的三维遮挡人体模型，包括：

根据所述形状参数信息和所述姿态参数信息，生成所述待检测人物对应的三维遮挡人体模型。

可选的，根据所述形状参数信息和所述姿态参数信息，生成所述待检测人物对应的三维遮挡人体模型，包括：

将所述形状参数信息和所述姿态参数信息输入到三维建模模型，获得所述三维建模模型输出的三维遮挡人体模型。

可选的，获取待处理图像，包括：

获得待处理视频，其中，所述待处理视频中包括待检测人物；

解码所述待处理视频，获得至少一个待处理图像。

参见图4，图4示出了本说明书一实施例提供的三维遮挡人体模型的示意图，如图4所示，输入待处理图像，待处理图像中包括待检测人物，经过本说明书提供的图像处理方法，获得与该待检测任务对应的三维遮挡人体模型，该三维遮挡人体模型与待检测人物可以实现像素级对齐。

本说明书一个实施例提供的图像处理方法，包括获取待处理图像，其中，所述待处理图像中包括待检测人物；识别所述待处理图像，获得所述待检测人物的至少一个预测关键点信息和各预测关键点信息对应的扭动旋转信息；将各预测关键点信息和各预测关键点信息对应的扭动旋转信息输入至姿态预测模型，获得所述待检测人物的姿态参数信息，其中，所述姿态预测模型为可逆神经网络模型；根据所述姿态参数信息，生成所述待检测人物对应的三维遮挡人体模型。通过本方法，提供了一种基于可逆神经网络的姿态预测模型，该模型可以准确且鲁棒地估计出待检测人物的姿态信息。便于后续生成三维遮挡人体模型，提升了生成三维遮挡人体模型的准确性。

基于可逆神经网络的姿态预测模型，可以双向建模正向运动学与反向运动学过程中的错误信息，在反向运动学的方向上，将预测关键点信息中的误差信息提取出来，以提高网络鲁棒性，在正向运动学的方向，通过前向训练损失函数、独立损失函数和边界条件损失函数保证了模型对关键点信息的敏感性。同时利用了扭动旋转信息和轴向旋转信息，进一步提升了生成三维遮挡人体模型的高精准度。

与上述方法实施例相对应，本说明书还提供了图像处理装置实施例，图5示出了本说明书一个实施例提供的一种图像处理装置的结构示意图。如图5所示，该装置包括：

图像获取模块502，被配置为获取待处理图像，其中，所述待处理图像中包括待检测目标；

识别模块504，被配置为识别所述待处理图像，获得所述待检测目标的至少一个预测关键点信息和各预测关键点信息对应的扭动旋转信息；

姿态获取模块506，被配置为将各预测关键点信息和各预测关键点信息对应的扭动旋转信息输入至姿态预测模型，获得所述待检测目标的姿态参数信息，其中，所述姿态预测模型为可逆神经网络模型；

生成模块508，被配置为根据所述姿态参数信息，生成所述待检测目标对应的三维遮挡目标。

可选的，所述识别模块504，进一步被配置为：

可选的，所述姿态获取模块506，被配置为：

可选的，所述识别模块504，还被配置为：

获取所述待检测目标的形状参数信息。

可选的，所述生成模块508，进一步被配置为：

可选的，所述图像获取模块502，进一步被配置为：

解码所述待处理视频，获得至少一个待处理图像。

本说明书一个实施例提供的图像处理装置，包括获取待处理图像，其中，所述待处理图像中包括待检测目标；识别所述待处理图像，获得所述待检测目标的至少一个预测关键点信息和各预测关键点信息对应的扭动旋转信息；将各预测关键点信息和各预测关键点信息对应的扭动旋转信息输入至姿态预测模型，获得所述待检测目标的姿态参数信息，其中，所述姿态预测模型为可逆神经网络模型；根据所述姿态参数信息，生成所述待检测目标对应的三维遮挡目标。通过本装置，提供了一种基于可逆神经网络的姿态预测模型，该模型可以准确且鲁棒地估计出待检测目标的姿态信息。便于后续生成三维遮挡目标，提升了生成三维遮挡目标的准确性。

上述为本实施例的一种图像处理装置的示意性方案。需要说明的是，该图像处理装置的技术方案与上述的图像处理方法的技术方案属于同一构思，图像处理装置的技术方案未详细描述的细节内容，均可以参见上述图像处理方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了图像处理装置实施例，图6示出了本说明书一个实施例提供的一种图像处理装置的结构示意图。如图6所示，该装置包括：

图像获取模块602，被配置即为获取待处理图像，其中，所述待处理图像中包括待检测人物；

识别模块604，被配置为识别所述待处理图像，获得所述待检测人物的至少一个预测关键点信息和各预测关键点信息对应的扭动旋转信息；

姿态获取模块606，被配置为将各预测关键点信息和各预测关键点信息对应的扭动旋转信息输入至姿态预测模型，获得所述待检测人物的姿态参数信息，其中，所述姿态预测模型为可逆神经网络模型；

生成模块608，被配置为根据所述姿态参数信息，生成所述待检测人物对应的三维遮挡人体模型。

本说明书一个实施例提供的图像处理装置，包括获取待处理图像，其中，所述待处理图像中包括待检测人物；识别所述待处理图像，获得所述待检测人物的至少一个预测关键点信息和各预测关键点信息对应的扭动旋转信息；将各预测关键点信息和各预测关键点信息对应的扭动旋转信息输入至姿态预测模型，获得所述待检测人物的姿态参数信息，其中，所述姿态预测模型为可逆神经网络模型；根据所述姿态参数信息，生成所述待检测人物对应的三维遮挡人体模型。通过本装置，提供了一种基于可逆神经网络的姿态预测模型，该模型可以准确且鲁棒地估计出待检测人物的姿态信息。便于后续生成三维遮挡人体模型，提升了生成三维遮挡人体模型的准确性。

本说明书一实施例还提供一种增强现实AR设备或虚拟现实VR设备，包括：

存储器、处理器和显示器；

上述为本实施例的一种增强现实AR设备或虚拟现实VR设备的示意性方案。需要说明的是，该增强现实AR设备或虚拟现实VR设备的技术方案与上述的图像处理方法的技术方案属于同一构思，增强现实AR设备或虚拟现实VR设备的技术方案未详细描述的细节内容，均可以参见上述图像处理方法的技术方案的描述。

图7示出了根据本说明书一个实施例提供的一种计算设备700的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接，数据库750用于保存数据。

计算设备700还包括接入设备740，接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(PSTN，Public SwitchedTelephone Network)、局域网(LAN，Local Area Network)、广域网(WAN，Wide AreaNetwork)、个域网(PAN，Personal Area Network)或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC，networkinterface controller))中的一个或多个，诸如IEEE802.11无线局域网(WLAN，WirelessLocal Area Network)无线接口、全球微波互联接入(Wi-MAX，WorldwideInteroperability for Microwave Access)接口、以太网接口、通用串行总线(USB，Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC，Near FieldCommunication)。

在本说明书的一个实施例中，计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图7所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备700可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或个人计算机(PC，Personal Computer)的静止计算设备。计算设备700还可以是移动式或静止式的服务器。

其中，处理器720用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述数据处理方法的步骤。上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的图像处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述图像处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述图像处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的图像处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述图像处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述图像处理方法的步骤。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的图像处理方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述图像处理方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据专利实践的要求进行适当的增减，例如在某些地区，根据专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种图像处理方法，包括：

将各预测关键点信息和各预测关键点信息对应的扭动旋转信息输入至姿态预测模型，获得所述待检测目标的姿态参数信息，其中，所述姿态预测模型为可逆神经网络模型，所述姿态预测模型用于减少各预测关键点信息中的误差信息，所述姿态预测模型基于预测关键点信息生成轴向旋转特征信息，根据扭动旋转信息生成扭动旋转特征信息，根据扭动旋转特征信息和轴向旋转特征信息确定姿态参数信息；

2.如权利要求1所述的方法，识别所述待处理图像，获得所述待检测目标的至少一个预测关键点信息和各预测关键点信息对应的扭动旋转信息，包括：

3.如权利要求2所述的方法，将所述待处理图像输入至关键点检测模型，获得所述关键点检测模型输出的至少一个预测关键点信息，包括：

4.如权利要求1所述的方法，将各预测关键点信息和各预测关键点信息对应的扭动旋转信息输入至姿态预测模型，获得所述待检测目标的姿态参数信息，包括：

5.如权利要求4所述的方法，将所述目标预测关键点特征信息输入至所述姿态预测模型的轴向旋转层，获得所述目标预测关键点信息对应的轴向旋转特征信息，包括：

6.如权利要求4所述的方法，将所述扭动旋转特征信息和所述轴向旋转特征信息输入至所述姿态预测模型的姿态层，获得所述目标预测关键点信息对应的姿态参数特征信息，包括：

7.如权利要求1所述的方法，在识别所述待处理图像，获得所述待检测目标的至少一个预测关键点信息和各预测关键点信息对应的扭动旋转信息之后，还包括：

获取所述待检测目标的形状参数信息。

8.如权利要求7所述的方法，根据所述姿态参数信息，生成所述待检测目标对应的三维遮挡目标，包括：

9.如权利要求8所述的方法，根据所述形状参数信息和所述姿态参数信息，生成所述待检测目标对应的三维遮挡目标，包括：

10.如权利要求1所述的方法，获取待处理图像，包括：

解码所述待处理视频，获得至少一个待处理图像。

11.一种图像处理方法，包括：

将各预测关键点信息和各预测关键点信息对应的扭动旋转信息输入至姿态预测模型，获得所述待检测人物的姿态参数信息，其中，所述姿态预测模型为可逆神经网络模型，所述姿态预测模型用于减少各预测关键点信息中的误差信息，所述姿态预测模型基于预测关键点信息生成轴向旋转特征信息，根据扭动旋转信息生成扭动旋转特征信息，根据扭动旋转特征信息和轴向旋转特征信息确定姿态参数信息；

12.一种图像处理装置，包括：

姿态获取模块，被配置为将各预测关键点信息和各预测关键点信息对应的扭动旋转信息输入至姿态预测模型，获得所述待检测目标的姿态参数信息，其中，所述姿态预测模型为可逆神经网络模型，所述姿态预测模型用于减少各预测关键点信息中的误差信息，所述姿态预测模型基于预测关键点信息生成轴向旋转特征信息，根据扭动旋转信息生成扭动旋转特征信息，根据扭动旋转特征信息和轴向旋转特征信息确定姿态参数信息；

13.一种图像处理装置，包括：

姿态获取模块，被配置为将各预测关键点信息和各预测关键点信息对应的扭动旋转信息输入至姿态预测模型，获得所述待检测人物的姿态参数信息，其中，所述姿态预测模型为可逆神经网络模型，所述姿态预测模型用于减少各预测关键点信息中的误差信息，所述姿态预测模型基于预测关键点信息生成轴向旋转特征信息，根据扭动旋转信息生成扭动旋转特征信息，根据扭动旋转特征信息和轴向旋转特征信息确定姿态参数信息；

14.一种增强现实AR设备或虚拟现实VR设备，包括：

存储器、处理器和显示器；

15.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1-11任意一项所述方法的步骤。

16.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1-11任意一项所述方法的步骤。