CN113158974A

CN113158974A - 姿态估计方法、装置、计算机设备和存储介质

Info

Publication number: CN113158974A
Application number: CN202110517805.3A
Authority: CN
Inventors: 贾配洋; 侯俊
Original assignee: Insta360 Innovation Technology Co Ltd
Current assignee: Insta360 Innovation Technology Co Ltd
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2021-07-23
Also published as: WO2022237688A1

Abstract

本申请涉及一种姿态估计方法、装置、计算机设备和存储介质。所述方法包括：获取待进行姿态估计的目标图像；所述目标图像中包括待处理的目标对象；基于所述目标图像进行特征提取，获取第一提取特征；通过图像特征扩张网络对所述第一提取特征进行特征扩张，得到扩张图像特征；对所述扩张图像特征进行特征提取，得到第二提取特征；通过图像特征压缩网络对所述第二提取特征进行特征压缩，得到压缩图像特征；基于所述压缩图像特征确定所述目标图像中的所述目标对象对应的关键点位置信息，基于所述关键点位置信息对所述目标对象进行姿态估计。本方法能够提高姿态估计的效率。

Description

姿态估计方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机视觉技术领域，特别是涉及一种姿态估计方法、装置、计算机设备和存储介质。

背景技术

随着计算机视觉技术的发展，姿态估计作为计算机视觉中的重要应用之一，也得到了快速的发展，被广泛应用于对象活动分析、视频监控或者对象交互等领域。例如，姿态估计中的人体姿态估计，通过人体姿态估计，可以在一张包含人体的图像中检测出人体的各个关键点。例如，可以通过人体姿态估计得到人体的五官、四肢或者关节等。因其具有的功能，被广泛应用到定格动画、拼贴舞蹈、透明人、走路拼接或者动作分类等场景。

然而，目前的姿态估计方法，存在效率低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高姿态估计效率的姿态估计方法、装置、计算机设备和存储介质。

一种姿态估计方法，所述方法包括：获取待进行姿态估计的目标图像；所述目标图像中包括待处理的目标对象；基于所述目标图像进行特征提取，获取第一提取特征；通过图像特征扩张网络对所述第一提取特征进行特征扩张，得到扩张图像特征；对所述扩张图像特征进行特征提取，得到第二提取特征；通过图像特征压缩网络对所述第二提取特征进行特征压缩，得到压缩图像特征；基于所述压缩图像特征确定所述目标图像中的所述目标对象对应的关键点位置信息，基于所述关键点位置信息对所述目标对象进行姿态估计。

在其中一个实施例中，所述图像特征扩张网络包括多个特征卷积通道，所述通过图像特征扩张网络对所述第一提取特征进行特征扩张，得到扩张图像特征包括：将所述第一提取特征分别输入到所述图像特征扩张网络对应的多个特征卷积通道中，各个所述特征卷积通道利用特征维度保持卷积核对所述第一提取特征进行卷积，得到各个所述特征卷积通道输出的卷积特征；综合各个所述特征卷积通道所述输出的卷积特征得到所述扩张图像特征。

在其中一个实施例中，所述基于所述压缩图像特征确定所述目标图像中的所述目标对象对应的关键点位置信息包括：对所述压缩图像特征进行放大，得到放大的图像特征；对所述放大的图像特征进行卷积，得到第三提取特征；基于所述第三提取特征，确定所述目标图像中的所述目标对象对应的关键点位置信息。

在其中一个实施例中，所述获取待进行姿态估计的目标图像包括：获取初始图像；对所述初始图像进行对象检测，得到所述初始图像中多个候选图像区域分别包括目标对象的概率；基于所述候选图像区域包括目标对象的概率从候选图像区域中选取得到包括目标对象的对象图像区域；根据所述对象图像区域，从所述初始图像中提取得到截取图像区域，将截取得到的图像作为待进行姿态估计的目标图像。

在其中一个实施例中，所述根据所述对象图像区域，从所述初始图像中提取得到截取图像区域，将截取得到的图像作为待进行姿态估计的目标图像包括：获取所述对象图像区域中的中心坐标；获取所述对象图像区域对应的区域尺寸，基于所述区域尺寸以及尺寸外扩系数得到区域延伸值；基于所述中心坐标以及所述区域延伸值向所述区域延伸值所对应的延伸方向进行延伸，得到延伸坐标；将位于所述延伸坐标内的图像区域作为图像截取区域，将截取得到的图像作为待进行姿态估计的目标图像。

在其中一个实施例中，所述关键点位置信息为多个，所述方法还包括：根据所述关键点位置信息与目标点位置信息的映射关系，将各个所述关键点位置信息转换为对应的目标点位置信息；所述目标点位置信息为所述关键点位置信息在所述初始图像中的位置信息；基于各个所述目标位置信息对所述目标对象进行姿态估计，得到所述目标图像对应的目标姿态。

一种目标视频生成方法，，所述方法还包括：获取目标动作，确定所述目标动作所对应的姿态序列，所述姿态序列中的姿态按照顺序执行，得到所述目标动作；执行上述姿态估计方法，获取目标图像集合中各个目标图像对应的目标姿态；从所述目标图像集合中获取所述姿态序列中各个目标姿态所对应的图像，作为视频帧图像；按照所述姿态序列中姿态的排序对得到的所述视频帧图像进行排列，得到所述目标动作所对应的目标视频。

一种姿态估计装置，所述装置包括：目标图像获取模块，用于获取待进行姿态估计的目标图像；所述目标图像中包括待处理的目标对象；第一提取特征模块，用于基于所述目标图像进行特征提取，获取第一提取特征；扩张图像特征得到模块，用于通过图像特征扩张网络对所述第一提取特征进行特征扩张，得到扩张图像特征；第二提取特征得到模块，用于对所述扩张图像特征进行特征提取，得到第二提取特征；压缩图像特征得到模块，用于通过图像特征压缩网络对所述第二提取特征进行特征压缩，得到压缩图像特征；关键点位置信息确定模块，用于基于所述压缩图像特征确定所述目标图像中的所述目标对象对应的关键点位置信息，基于所述关键点位置信息对所述目标对象进行姿态估计。

在其中一个实施例中，扩张图像特征得到模块用于将所述第一提取特征分别输入到所述图像特征扩张网络对应的多个特征卷积通道中，各个所述特征卷积通道利用特征维度保持卷积核对所述第一提取特征进行卷积，得到各个所述特征卷积通道输出的卷积特征；综合各个所述特征卷积通道所述输出的卷积特征得到所述扩张图像特征。

在其中一个实施例中，关键点位置信息确定模块用于对所述压缩图像特征进行放大，得到放大的图像特征；对所述放大的图像特征进行卷积，得到第三提取特征；基于所述第三提取特征，确定所述目标图像中的所述目标对象对应的关键点位置信息。

在其中一个实施例中，目标图像获取模块用于获取初始图像；对所述初始图像进行对象检测，得到所述初始图像中多个候选图像区域分别包括目标对象的概率；基于所述候选图像区域包括目标对象的概率从候选图像区域中选取得到包括目标对象的对象图像区域；根据所述对象图像区域，从所述初始图像中提取得到截取图像区域，将截取得到的图像作为待进行姿态估计的目标图像。

在其中一个实施例中，目标图像获取模块用于获取所述对象图像区域中的中心坐标；获取所述对象图像区域对应的区域尺寸，基于所述区域尺寸以及尺寸外扩系数得到区域延伸值；基于所述中心坐标以及所述区域延伸值向所述区域延伸值所对应的延伸方向进行延伸，得到延伸坐标；将位于所述延伸坐标内的图像区域作为截取图像区域，将截取得到的图像作为待进行姿态估计的目标图像。

在其中一个实施例中，目标图像获取模块用于根据所述关键点位置信息与目标点位置信息的映射关系，将各个所述关键点位置信息转换为对应的目标点位置信息；所述目标点位置信息为所述关键点位置信息在所述初始图像中的位置信息；基于各个所述目标位置信息对所述目标对象进行姿态估计，得到所述目标图像对应的目标姿态。

一种目标视频生成装置，所述装置用于获取目标动作，确定所述目标动作所对应的姿态序列，所述姿态序列中的姿态按照顺序执行，得到所述目标动作；获取目标图像集合中各个目标图像对应的目标姿态；从所述目标图像集合中获取所述姿态序列中各个目标姿态所对应的图像，作为视频帧图像；按照所述姿态序列中姿态的排序对得到的所述视频帧图像进行排列，得到所述目标动作所对应的目标视频。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：获取待进行姿态估计的目标图像；所述目标图像中包括待处理的目标对象；基于所述目标图像进行特征提取，获取第一提取特征；通过图像特征扩张网络对所述图像提取特征进行特征扩张，得到扩张图像特征；对所述扩张图像特征进行特征提取，得到第二提取特征；通过图像特征压缩网络对所述第二提取特征进行特征压缩，得到压缩图像特征；基于所述压缩图像特征确定所述目标图像中的所述目标对象对应的关键点位置信息，基于所述关键点位置信息对所述目标对象进行姿态估计。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：获取待进行姿态估计的目标图像；所述目标图像中包括待处理的目标对象；基于所述目标图像进行特征提取，获取第一提取特征；通过图像特征扩张网络对所述图像提取特征进行特征扩张，得到扩张图像特征；对所述扩张图像特征进行特征提取，得到第二提取特征；通过图像特征压缩网络对所述第二提取特征进行特征压缩，得到压缩图像特征；基于所述压缩图像特征确定所述目标图像中的所述目标对象对应的关键点位置信息，基于所述关键点位置信息对所述目标对象进行姿态估计。

上述姿态估计方法、装置、计算机设备和存储介质，通过获取待进行姿态估计的目标图像；该目标图像中包括待处理的目标对象；基于目标图像进行特征提取，获取第一提取特征；通过图像特征扩张网络对第一提取特征进行特征扩张，得到扩张图像特征；对扩张图像特征进行特征提取，得到第二提取特征；通过图像特征压缩网络对第二提取特征进行特征压缩，得到压缩图像特征；基于压缩图像特征确定目标图像中的目标对象对应的关键点位置信息，基于关键点位置信息对目标对象进行姿态估计。先利用图像特征扩张网络对提取到的第一提取特征进行特征扩张，使得在进行姿态估计的网络的输入端能够输入尽可能多的图像特征，然后通过图像特征压缩网络对第二提取特征进行特征压缩，结合以上特征能够达到提高姿态估计效率以及准确度的目的。

附图说明

图1为一个实施例中姿态估计方法的应用环境图；

图2为一个实施例中姿态估计方法的流程示意图；

图3为另一个实施例中姿态估计方法的流程示意图；

图4为另一个实施例中姿态估计方法的流程示意图；

图5为另一个实施例中姿态估计方法的流程示意图；

图6为另一个实施例中姿态估计方法的流程示意图；

图7为另一个实施例中姿态估计方法的流程示意图；

图8为一个实施例中目标视频生成方法的流程示意图；

图9为一个实施例中包含对象的全景图像的示意图；

图10为一个实施例中对对象进行检测的示意图；

图11为一个实施例中截取带有对象子图的示意图；

图12为一个实施例中对象关键点的示意图；

图13为一个实施例中人体姿态模型的示意图；

图14为一个实施例中姿态估计装置的结构框图；

图15为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的姿态估计方法，可以应用于如图1所示的应用环境中，具体应用到一种姿态估计系统中。该姿态估计系统包括图像采集设备102与终端104，其中，图像采集设备102与终端104通信连接。终端104执行一种姿态估计方法，具体的，终端104获取从图像采集设备102传输过来的，待进行姿态估计的目标图像；目标图像中包括待处理的目标对象；终端104基于目标图像进行特征提取，获取第一提取特征；通过图像特征扩张网络对第一提取特征进行特征扩张，得到扩张图像特征；对上述扩张图像特征进行特征提取，得到第二提取特征；通过图像特征压缩网络对第二提取特征进行特征压缩，得到压缩图像特征；基于压缩图像特征确定目标图像中的目标对象对应的关键点位置信息，基于关键点位置信息对目标对象进行姿态估计。其中，图像采集设备102可以但不限于是各种有图像采集功能的设备，可以分布于终端104的外部，也可以分布于终端104的内部。例如：分布于终端104的外部的各种摄像头、扫描仪、各种相机、图像采集卡。终端104可以但不限于是各种相机、个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。可以理解，本申请实施例提供的方法，也可以是由服务器执行的。

在一个实施例中，如图2所示，提供了一种姿态估计方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤202，获取待进行姿态估计的目标图像；上述目标图像中包括待处理的目标对象。

其中，姿态估计是指通过检测目标对象中的关键点，对一个或多个关键点的描述，估计得到目标对象的姿态的过程。关键点是指能够描述目标对象的结构特征的特征点。例如，目标对象的五官、腿关节或者手关节等。目标对象是指进行姿态估计的对象。例如，人体或者动物等。

具体地，终端可以通过直接或者间接的方式得到待进行姿态估计的目标图像。

在一个实施例中，终端将接收到的图像采集设备传输过来的，包括待处理的目标对象的图像作为目标图像。

在一个实施例中，终端将接收到的，图像采集设备传输过来的图像，经过图像预处理后，将预处理后的图像作为目标图像。

在一个实施例中，图像采集设备为全景相机，全景相机采集到全景图像后，将全景图像作为待进行姿态估计的目标图像，该目标图像中包括待处理的目标对象。目标对象可以是完整的，也可以只包含其中一部分或存在遮挡的情况。

在一个实施例中，终端通过在全景视频中抽帧获取全景图像，对该全景图像直接或者将该全景图像进行预处理后，得到待进行姿态估计的目标图像。预处理包括对全景图像进行归一化或者对对全景图像中的目标对象进行裁剪等处理。

步骤204，基于目标图像进行特征提取，获取第一提取特征。

其中，特征是代表目标图像所特有的属性的信息，通过该信息可以识别到目标图像中的某个对象或者对目标图像进行分类等。

具体地，可以通过特征提取网络对目标图像进行特征提取，获取第一提取特征。

在一个实施例中，可以通过轻量级深度神经网络对目标图像进行特征提取，获取第一提取特征。

步骤206，通过图像特征扩张网络对第一提取特征进行特征扩张，得到扩张图像特征。

其中，图像特征扩张网络是指能够使图像特征数量增多的网络。扩张图像特征是指对图像特征进行扩张之后的图像特征。

具体地，通过逐点卷积将获取到的第一提取特征的通道进行扩张，丰富特征数量，得到扩张图像特征。

在一个实施例中，终端在获取第一提取特征之后，图像特征扩张网络利用1*1的逐点卷积将图像提取特征进行特征扩张，得到扩张图像特征。

步骤208，对扩张图像特征进行特征提取，得到第二提取特征。

具体地，在得到扩张图像特征之后，可以通过参数较少的卷积对扩张图像特征进行特征提取，得到第二提取特征。

在一个实施例中，可以通过预设卷积和激活函数对扩张图像特征进行降采样，对扩张图像特征进行特征提取，得到第二提取特征。例如，可以利用预设卷积可以为3*3的卷积和ReLU(Rectified Linear Unit，修正线性单元)激活函数对扩张图像特征进行特征提取，得到第二提取特征。基于各个应用场景的适配性，上述激活函数可以使用Sigmoid函数(Sigmoid function，S型生长曲线)、ELU(Exponential Linear Unit，指数线性单元)、GELU(Gaussian Error Linear Unit，高斯误差线性单元)等替换。

步骤210，通过图像特征压缩网络对第二提取特征进行特征压缩，得到压缩图像特征。

其中，图像特征压缩网络是指能够使图像特征数量减少的网络。压缩图像特征是指对图像特征进行压缩之后的图像特征。

具体地，终端在得到第二提取特征之后，可以对第二提取特征进行特征压缩，以便于提高终端进行姿态估计的速度。

在一个实施例中，终端在得到第二提取特征之后，图像特征压缩网络利用1*1的逐点卷积对第二提取特征进行特征压缩，经过线性变换后得到压缩图像特征。

步骤212，基于压缩图像特征确定目标图像中的目标对象对应的关键点位置信息，基于关键点位置信息对目标对象进行姿态估计。

其中，关键点位置信息是指能够确定关键点在目标图像中位置的信息。例如，关键点在目标图像的坐标、名称或者方向等信息。

具体的，终端在得到压缩图像特征之后，可以通过压缩图像特征与目标对象对应的关键点位置信息之间的对应关系，得到目标对象对应的关键点位置信息。

在一个实施例中，终端存储有压缩图像特征与关键点位置信息之间的匹配关系表，在得到压缩图像特征之后，终端通过遍历上述匹配关系表，得到相应的关键点位置信息。根据关键点位置信息中的位置坐标及名称，对目标对象进行姿态估计。例如，终端在遍历上述匹配关系表后得到的关键点位置信息为(200，200，腕关节)，表示该关键点的位置坐标为(200，200)处，并且该关键点是腕关节，通过多个上述关键点位置信息的描述，估计出姿态。

上述姿态估计方法中，通过获取待进行姿态估计的目标图像；该目标图像中包括待处理的目标对象；基于目标图像进行特征提取，获取第一提取特征；通过图像特征扩张网络对第一提取特征进行特征扩张，得到扩张图像特征；对扩张图像特征进行特征提取，得到第二提取特征；通过图像特征压缩网络对第二提取特征进行特征压缩，得到压缩图像特征；基于压缩图像特征确定目标图像中的目标对象对应的关键点位置信息，基于关键点位置信息对目标对象进行姿态估计。先通过图像特征扩张网络对提取到的第一提取特征进行特征扩张，使得在进行姿态估计的网络的输入端能够输入尽可能多的图像特征，然后通过图像特征压缩网络对第二提取特征进行特征压缩，结合以上特征能够达到提高姿态估计效率以及准确度的目的。

在一个实施例中，如图3所示，图像特征扩张网络包括多个特征卷积通道，通过图像特征扩张网络对第一提取特征进行特征扩张，得到扩张图像特征包括：

步骤302，将第一提取特征分别输入到图像特征扩张网络对应的多个特征卷积通道中，各个特征卷积通道利用特征维度保持卷积核对第一提取特征进行卷积，得到各个特征卷积通道输出的卷积特征。

其中，特征维度保持卷积核是指能够使图像的维度保持不变的卷积核，图像的维度就是指图像的通道数。例如，尺寸为1*1的卷积核。

具体地，终端可以通过设定特征维度保持卷积核，从各个特征卷积通道对第一提取特征进行卷积，可以在保持第一提取特征尺度不变的情况下，使用更少的参数得到特征卷积通道输出的卷积特征。

在一个实施例中，终端通过设定特征维度保持卷积核的数量和大小，对各个特征卷积通道的图像提取特征进行卷积，得到特征卷积通道输出的卷积特征。例如，在网络为64通道的3*3的卷积网络上，添加一个大小为1*1，通道数量为256的卷积核后，能够实现通过64*256个参数就能够将原有网络的通道数从64扩张为256。

步骤304，综合各个特征卷积通道输出的卷积特征得到扩张图像特征。

具体的，在得到特征卷积通道输出的卷积特征之后，特征维度保持卷积核可以对图像中的第一提取特征中的每个像素点在不同的通道上进行线性组合，得到扩张图像特征。例如，扩张网络的组成是，在3*3，64通道的卷积核后面添加一个1*1，28通道的卷积核，转变成3*3，28通道的卷积核，原有的64个通道就跨通道线性组合变成了28通道，实现了通道之间的信息交互，通过各个特征卷积通道输出的卷积特征得到扩张图像特征。

本实施例中，通过在图像特征扩张网络中，利用特征维度保持卷积核对特征卷积通道中的第一提取特征进行卷积，得到特征卷积通道输出的卷积特征，并且综合各个特征卷积通道输出的卷积特征得到扩张图像特征，能够达到在较少参数量的情况下，得到扩张图像特征的目的，进而提高了姿态估计的效率。

在一个实施例中，如图4所示，基于压缩图像特征确定目标图像中的目标对象对应的关键点位置信息包括：

步骤402，对压缩图像特征进行放大，得到放大的图像特征。

具体的，在得到压缩图像特征之后，通过对特征进行上采样，得到放大的图像特征。

在一个实施例中，终端对压缩图像特征进行放大，通过设置三层采样网络，将三层采样网络的输入输出通道数分别设置为(256，128)，(128，64)，(64，64)，可以起到减少网络参数量和计算量的效果。

在一个实施例中，终端通过插值方法，对压缩图像特征进行插值计算，得到放大的图像特征。例如，在压缩图像特征的基础上，在像素点之间采用合适的插值算法如线性插值或者双线性插值等插入新的元素。

步骤404，对放大的图像特征进行卷积，得到第三提取特征。

具体地，在得到放大的图像特征之后，为了弥补对压缩图像特征进行放大过程中非线性单元的减少，对放大的图像特征进行卷积，得到第三提取特征。

步骤406，基于第三提取特征，确定目标图像中的目标对象对应的关键点位置信息。

具体地，在得到第三提取特征后，对第三提取特征进行查找过滤等，确定目标图像中的目标对象对应的关键点位置信息。

在一个实施例中，终端中存储有图像特征与关键点位置信息的匹配列表，当得到第三提取特征后，遍历上述匹配列表，得到第三提取特征对应的关键点位置信息，即目标图像中的目标对象对应的关键点位置信息。

本实施例中，通过对压缩图像特征进行放大，得到放大的图像特征，对放大的图像特征进行卷积，得到第三提取特征，基于第三提取特征，确定目标图像中的目标对象对应的关键点位置信息，能够达提高图像输出质量的目的，从而达到更准确地得到目标对象对应的关键点位置信息的目的。

在一个实施例中，如图5所示，获取待进行姿态估计的目标图像包括：

步骤502，获取初始图像。

其中，初始图像是指未经过处理的原始图像。原始图像为图像采集设备或者终端直接得到的图像。

在一个实施例中，终端可以通过连接的图像采集设备进行初始图像的采集，采集设备将采集到的初始图像实时传输给终端；或者采集设备将采集到的初始图像暂存到采集设备本地，当接收到终端的图像获取指令时，将本地存储的初始图像传输给终端，相应的，终端能够获取到初始图像。

在一个实施例中，终端通过内部存在的图像采集模块，对初始图像进行采集，对采集到的图像存储到终端存储器中，当终端需要获取初始图像时，从存储器中，获取初始图像。

步骤504，对初始图像进行对象检测，得到初始图像中多个候选图像区域分别包括目标对象的概率。

具体地，在获取到初始图像之后，对初始图像分割成多个图像子区域，作为候选图像区域，检测目标对象在各个候选图像区域中的概率。例如，将图像分割成子区域A、子区域B和子区域C，目标对象在子区域A中的概率是0％，目标对象在子区域B中的概率是10％，目标对象在子区域C中的概率是90％。

在一个实施例中，终端通过逐渐缩小图像子区域的大小，得到各个图像子区域中包括目标对象的概率。

步骤506，基于候选图像区域包括目标对象的概率从候选图像区域中选取得到包括目标对象的对象图像区域。

具体地，终端在得到初始图像中多个候选图像区域分别包括目标对象的概率之后，可以对各个候选图像区域的概率进行比较，得到概率在预设概率阈值范围内的候选图像区域，将该候选图像区域作为包括目标对象的对象图像区域。

在一个实施例中，终端遍历候选图像区域包括目标对象的概率，得到各个概率中的最大概率值，将最大概率值对应的候选图像区域作为目标对象的对象图像区域。

步骤508，根据对象图像区域，从初始图像中提取得到截取图像区域，将截取得到的图像作为待进行姿态估计的目标图像。

具体地，终端在得到包括目标对象的对象图像区域之后，基于该对象图像区域的位置信息，可以截取得到的图像区域的图像作为待进行姿态估计的目标图像，以减少姿态估计时的运算量，提高姿态估计效率。

在一个实施例中，终端可以通过提取到对象图像区域的坐标信息，利用该坐标信息，截取得到进行姿态估计的目标图像。

在一个实施例中，可以通过接收用户的目标对象框选操作，通过框选出的图像区域作为对象图像区域，在初始图像中截取框选出的图像区域，作为待进行姿态估计的目标图像。

本实施例中，通过获取初始图像，对初始图像进行对象检测，得到初始图像中多个候选图像区域分别包括目标对象的概率，基于候选图像区域包括目标对象的概率从候选图像区域中选取得到包括目标对象的对象图像区域，从初始图像中提取得到对象图像区域，将截取得到的图像作为待进行姿态估计的目标图像，能够达到从初始图像中准确得到目标图像的目的。

在一个实施例中，如图6所示，根据对象图像区域，从初始图像中提取得到截取图像区域，将截取得到的图像作为待进行姿态估计的目标图像包括：

步骤602，获取对象图像区域中的中心坐标。

其中，中心坐标是指处在对象图像区域中心点位置的像素点的坐标。该坐标是基于目标对象的对象图像区域的中心位置处的像素点在初始图像中的坐标，可以根据初始图像的长和宽来确定。

具体地，在确定对象图像区域后，终端通过获取该对象图像区域中中心处的像素点，通过像素点坐标获取工具，获取到该像素点的坐标。

步骤604，获取对象图像区域对应的区域尺寸，基于区域尺寸以及尺寸外扩系数得到区域延伸值。

其中，区域尺寸是指对象图像区域的区域长和区域宽。例如，对象图像区域的区域长为h，对象图像区域的区域宽为w，则区域尺寸为w*h，尺寸外扩系数是指能够使区域尺寸增大的系数。区域延伸值是指利用尺寸外扩系数对区域尺寸修正，得到的区域尺寸的增长值。

具体地，终端在获取到对象图像区域中的中心坐标后，可以再获取对象图像区域对应的区域尺寸，通过区域尺寸和尺寸外扩系数之间的函数关系，得到区域延伸值。

在一个实施例中，终端通过图像尺寸测量工具，获取对象图像区域对应的区域尺寸，利用区域尺寸与尺寸外扩系数之间的乘积关系，得到区域延伸值。例如，区域尺寸中的区域宽为w，尺寸外扩系数为exp_ratio，区域宽的区域延伸值为w*exp_ratio*1.2/2；同理，通过区域尺寸中的区域长的区域延伸值也可以通过相应的尺寸外扩系数得到。

步骤606，基于中心坐标以及区域延伸值向区域延伸值所对应的延伸方向进行延伸，得到延伸坐标。

其中，延伸方向是指区域延伸值所对应的，宽度和长度增大的方向。延伸坐标是指以中心坐标为参考点，对对象图像区域在延伸方向上进行延伸得到的对象图像区域的坐标。该坐标可以利用对象图像区域的左上角坐标和右下角坐标来表示。

具体地，终端在得到区域延伸值之后，可以以中心坐标为参考点，利用区域延伸值对对象图像区域进行扩展，得到对象图像区域对应的延伸坐标。以使对象图像区域能够包括更完整的目标对象。

在一个实施例中，中心坐标表示为(x,y)，延伸坐标为(x0,y0)和(x1,y1)，其中x0和x1为对象图像区域延伸值在图像的宽度延伸方向上的坐标，y0和y1为对象图像区域延伸值在图像的长度延伸方向上的坐标，则延伸坐标可以表示为公式：

x0＝int(x-w*exp_ratio*1.2/2)

x1＝int(x+w*exp_ratio*1.2/2)

y0＝int(y-h*exp_ratio*0.8/2)

y1＝int(y+h*exp_ratio*0.8/2)

在一个实施例中，当区域延伸值中的宽度延伸方向的区域延伸值小于等于0时，延伸值取零；当区域延伸值大于等于初始图像的宽度时，将初始图像的宽度作为区域延伸值。同理，当区域延伸值中的长度延伸方向的区域延伸值小于等于零时，区域延伸值取零；当区域延伸值大于等于初始图像的高度时，将初始图像的高度作为区域延伸值。

步骤608，将位于延伸坐标内的图像区域作为截取图像区域，将截取得到的图像作为待进行姿态估计的目标图像。

具体地，终端在获取到延伸坐标之后，可以将延伸坐标内的图像区域作为截取图像区域，将截取得到的图像作为待进行姿态估计的目标图像。

本实施例中，通过获取对象图像区域中的中心坐标和对象图像区域对应的区域尺寸，基于区域尺寸以及尺寸外扩系数得到区域延伸值，基于中心坐标以及区域延伸值向区域延伸值所对应的延伸方向进行延伸，得到延伸坐标，将位于延伸坐标内的图像区域作为截取图像区域，将截取得到的图像作为待进行姿态估计的目标图像，能够达到准确截取目标图像的目的，进而提高姿态估计的效率。

在一个实施例中，如图7所示，关键点位置信息为多个，方法还包括：

步骤702，根据关键点位置信息与目标点位置信息的映射关系，将各个关键点位置信息转换为对应的目标点位置信息；目标点位置信息为关键点位置信息在初始图像中的位置信息。

其中，位置信息是指能够体现某个位置点的位置相关的信息。其中的位置点可以是关键点，也可以是其他和关键点结构或者功能相同的点。位置相关的信息可以是关键点的坐标信息或者对该关键点的位置进行描述的信息。例如，关键点位置信息可以表示为(100,100，眼睛)。

具体地，在目标图像中的关键点位置信息与在初始图像中的目标点位置信息之间有一一对应的关系，并且可以相互转换。在得知关键点位置信息后，可以相应地得到该关键点在初始图像中的位置信息，以便于在目标图像中得到的初始图像中的位置信息能够准确体现在初始图像中。

在一个实施例中，第j个关键点的关键点位置信息表示为(x_keypoints_j，y_keypoints_j)，第i个目标图像在初始图像中左上角的顶点坐标表示为(x_person_i,y_person_i)，该关键点在初始图像中的坐标表示为(x_original_keypoints，y_original_keypoints)，则该关键点在初始图像中的坐标表示为公式：

x_original_keypoints＝x_person_i+x_keypoints_j

y_original_keypoints＝y_person_i+y_keypoints_j

步骤704，基于各个目标位置信息对目标对象进行姿态估计，得到目标图像对应的目标姿态。

具体的，终端在确定多个关键点对应的各个目标位置信息之后，通过关键点具体类型与目标位置信息的对应关系，进行姿态估计，得到目标图像对应的目标姿态。

本实施例中，通过关键点位置信息与目标点位置信息的映射关系，将各个关键点位置信息转换为对应的目标点位置信息，通过各个目标位置信息对目标对象进行姿态估计，得到目标图像对应的目标姿态。能够达到得到目标图像中的目标姿态的目的。

在一个实施例中，如图8所示，目标视频生成方法包括：

步骤802，获取目标动作，确定目标动作所对应的姿态序列，其中姿态序列中的姿态按照顺序执行，得到目标动作。

其中，目标动作是指各个姿态按照顺序执行后，得到的动作。姿态是指组成动作的各个子动作。例如，目标动作为手臂伸展运动，组成该目标动作的是胳膊平放、胳膊伸直以及手臂并拢侧向转向等多个子动作。多个姿态根据前后顺序可以形成姿态序列，通过姿态序列顺序执行时，得到目标动作。

步骤804，根据上述各方法实施例中的步骤，获取目标图像集合中各个目标图像对应的目标姿态。

具体地，终端在获取目标动作之后，可以基于上述各个姿态估计方法得到各个姿态，组成目标动作的各个姿态处在不同的目标图像中，可以从各个目标图像获取到对应的各个姿态。例如，目标图像E中存在有目标姿态F或者目标图像G中存在有目标姿态H等等。

在一个实施例中，根据姿态与图像之间的对应关系，在目标图像集合中，获取到各个目标图像对应的目标姿态。

步骤806，从目标图像集合中获取姿态序列中各个目标姿态所对应的图像，作为视频帧图像。

具体的，终端在获取目标姿态后，根据目标姿态，得到与目标姿态对应的图像，并且将得到的各个图像作为视频帧图像。

在一个实施例中，获取与目标姿态对应的图像对应的时间戳，并且将携带有各自时间戳的图像作为视频帧图像。

步骤808，按照姿态序列中姿态的排序对得到的视频帧图像进行排列，得到目标动作所对应的目标视频。

具体的，姿态序列中姿态和所对应的视频帧图像之间存在一一对应关系，根据姿态序列中姿态的排序对相应的视频帧图像进行排列，得到目标动作所对应的目标视频。

在一个实施例中，姿态序列中姿态的排序与视频帧图像的时间戳之间存在绑定的对应关系，对姿态序列中的姿态进行了排序，也即在在得到视频帧图像后，根据视频帧图像的时间戳对视频帧图像进行了排列，根据视频帧图像的，得到了目标视频。

本实施例中，通过获取目标动作和目标图像集合中各个目标图像对应的目标姿态，从目标图像集合中获取姿态序列中各个目标姿态所对应的图像，作为视频帧图像，按照姿态序列中姿态的排序对得到的视频帧图像进行排列，得到目标动作所对应的目标视频，能够达到通过姿态估计得到目标动作对应的目标视频的目的，使得姿态估计能够实现得到实际的应用。

在一个实施例中，以终端为全景相机，目标对象为人体为例，如图9所示，通过全景相机的全景图像或从全景相机拍摄的全景视频中抽取视频帧获取全景图像，图像中通常需包含用于进行人体姿态估计的人体目标对象。人体目标对象可以是完整的，也可以只包含其中一部分或存在遮挡等情况。如图10所示，将全景图像进行归一化处理后，通过人体跟踪或者检测算法，得到人体边界框B1的坐标值，通过该人体边界框的坐标值或者将该人体边界框进行扩充之后得到扩充之后的边框B2的坐标值。如图11所示，对全景图像进行裁剪，得到边框为B2的子全景图像，对子全景图像进行归一化之后，将该子全景图像输入到训练好的人体姿态估计模型中，如图12所示，得到第1个关键点C的热图，执行将该子全景图像输入到训练好的人体姿态估计模型中，得到第2个关键点的热图，以此类推，通过得到多张热图，依次得到预设数量带有关键点的热图。将关键点在热图中的坐标映射到子全景图像，在通过关键点在子全景图像的位置映射到全景图像中，从而得到关键点在全景图像的位置，从而估计出人体的姿态。

在一个实施例中，终端对全景图像进行归一化处理或者子全景图像进行归一化处理，均可以通过归一化处理后的图像中像素点的像素值与原图像中像素点的像素值与像素值的平均值之间的差值之间的正比例关系，得到归一化处理后的图像中像素点的像素值。假设，归一化后的图像中某个像素点的像素值表示为X_normalization，全景图像或者子全景图像中某个像素点的像素值表示为X，全景图像或者子全景图像中全部像素点的像素值的平均值表示为mean，正比例系数表示为std，则X_normalization表示为公式：

X_normalization＝(X-mean)/std

可以理解的，其中的std可以为全景图像或者子全景图像中全部像素点的方差；全景图像或者子全景图像中某个像素点可以为RGB(红、绿和蓝)三通道的像素点。

在一个实施例中，终端可以通过人体检测算法得到人体边界框的坐标值。例如，利用Faster RCNN(Faster Region-CNN)、YOLO(You Only Look Once)系列算法、SSD(SingleShot MultiBox Detector)系列算法等或跟踪算法如Siamese(Siamese network)跟踪算法等。

在一个实施例中，如图13所示，人体姿态估计模型可以通过减少HRNet中阶段之间的图像特征块的数量，例如，将第二阶段中下采样的图像特征块的数量改为1个，以使得人体姿态估计模型能够减少参数量和计算量，从而提高人体姿态估计的效率。

应该理解的是，虽然图2-8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-8中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图14所示，提供了一种姿态估计装置1400，包括：目标图像获取模块1402、第一提取特征模块1404、扩张图像特征得到模块1406、第二提取特征得到模块1408、压缩图像特征得到模块1410和关键点位置信息确定模块1412，其中：目标图像获取模块1402，用于获取待进行姿态估计的目标图像；目标图像中包括待处理的目标对象；第一提取特征模块1404，用于基于目标图像进行特征提取，获取第一提取特征；扩张图像特征得到模块1406，用于通过图像特征扩张网络对第一提取特征进行特征扩张，得到扩张图像特征；第二提取特征得到模块1408，用于对扩张图像特征进行特征提取，得到第二提取特征；压缩图像特征得到模块1410，用于通过图像特征压缩网络对第二提取特征进行特征压缩，得到压缩图像特征；关键点位置信息确定模块1412，用于基于压缩图像特征确定目标图像中的目标对象对应的关键点位置信息，基于关键点位置信息对目标对象进行姿态估计。

在一个实施例中，扩张图像特征得到模块1406用于将第一提取特征分别输入到图像特征扩张网络对应的多个特征卷积通道中，各个特征卷积通道利用特征维度保持卷积核对第一提取特征进行卷积，得到各个特征卷积通道输出的卷积特征；综合各个特征卷积通道输出的卷积特征得到扩张图像特征。

在一个实施例中，关键点位置信息确定模块1412用于对压缩图像特征进行放大，得到放大的图像特征；对放大的图像特征进行卷积，得到第三提取特征；基于第三提取特征，确定目标图像中的目标对象对应的关键点位置信息。

在一个实施例中，目标图像获取模块1402用于获取初始图像；对初始图像进行对象检测，得到初始图像中多个候选图像区域分别包括目标对象的概率；基于候选图像区域包括目标对象的概率从候选图像区域中选取得到包括目标对象的对象图像区域；根据所述对象图像区域，从初始图像中提取得到截取图像区域，将截取得到的图像作为待进行姿态估计的目标图像。

在一个实施例中，目标图像获取模块1402用于获取对象图像区域中的中心坐标；获取对象图像区域对应的区域尺寸，基于区域尺寸以及尺寸外扩系数得到区域延伸值；基于中心坐标以及区域延伸值向区域延伸值所对应的延伸方向进行延伸，得到延伸坐标；将位于延伸坐标内的图像区域作为截取图像区域，将截取得到的图像作为待进行姿态估计的目标图像。

在一个实施例中，目标图像获取模块1402用于根据关键点位置信息与目标点位置信息的映射关系，将各个关键点位置信息转换为对应的目标点位置信息；目标点位置信息为关键点位置信息在初始图像中的位置信息；基于各个目标位置信息对目标对象进行姿态估计，得到目标图像对应的目标姿态。

在一个实施例中，目标视频生成装置用于获取目标动作，确定目标动作所对应的姿态序列，姿态序列中的姿态按照顺序执行，得到目标动作；获取目标图像集合中各个目标图像对应的目标姿态；从目标图像集合中获取姿态序列中各个目标姿态所对应的图像，作为视频帧图像；按照姿态序列中姿态的排序对得到的视频帧图像进行排列，得到目标动作所对应的目标视频。

关于姿态估计装置的具体限定可以参见上文中对于姿态估计方法的限定，在此不再赘述。上述姿态估计装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图15所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种姿态估计方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图15中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种姿态估计方法，其特征在于，所述方法包括：

获取待进行姿态估计的目标图像；所述目标图像中包括待处理的目标对象；

基于所述目标图像进行特征提取，获取第一提取特征；

通过图像特征扩张网络对所述第一提取特征进行特征扩张，得到扩张图像特征；

对所述扩张图像特征进行特征提取，得到第二提取特征；

通过图像特征压缩网络对所述第二提取特征进行特征压缩，得到压缩图像特征；

基于所述压缩图像特征确定所述目标图像中的所述目标对象对应的关键点位置信息，基于所述关键点位置信息对所述目标对象进行姿态估计。

2.根据权利要求1所述的方法，其特征在于，所述图像特征扩张网络包括多个特征卷积通道，所述通过图像特征扩张网络对所述第一提取特征进行特征扩张，得到扩张图像特征包括：

将所述第一提取特征分别输入到所述图像特征扩张网络对应的多个特征卷积通道中，各个所述特征卷积通道利用特征维度保持卷积核对所述第一提取特征进行卷积，得到各个所述特征卷积通道输出的卷积特征；

综合各个所述特征卷积通道所述输出的卷积特征得到所述扩张图像特征。

3.根据权利要求1所述的方法，其特征在于，所述基于所述压缩图像特征确定所述目标图像中的所述目标对象对应的关键点位置信息包括：

对所述压缩图像特征进行放大，得到放大的图像特征；

对所述放大的图像特征进行卷积，得到第三提取特征；

基于所述第三提取特征，确定所述目标图像中的所述目标对象对应的关键点位置信息。

4.根据权利要求1所述的方法，其特征在于，所述获取待进行姿态估计的目标图像包括：

获取初始图像；

对所述初始图像进行对象检测，得到所述初始图像中多个候选图像区域分别包括目标对象的概率；

基于所述候选图像区域包括目标对象的概率从候选图像区域中选取得到包括目标对象的对象图像区域；

根据所述对象图像区域，从所述初始图像中提取得到截取图像区域，将截取得到的图像作为待进行姿态估计的目标图像。

5.根据权利要求4所述的方法，其特征在于，所述根据所述对象图像区域从所述初始图像中提取得到截取图像区域，将截取得到的图像作为待进行姿态估计的目标图像包括：

获取所述对象图像区域中的中心坐标；

获取所述对象图像区域对应的区域尺寸，基于所述区域尺寸以及尺寸外扩系数得到区域延伸值；

基于所述中心坐标以及所述区域延伸值向所述区域延伸值所对应的延伸方向进行延伸，得到延伸坐标；

将位于所述延伸坐标内的图像区域作为截取图像区域，将截取得到的图像作为待进行姿态估计的目标图像。

6.根据权利要求4所述的方法，其特征在于，所述关键点位置信息为多个，所述方法还包括：

根据所述关键点位置信息与目标点位置信息的映射关系，将各个所述关键点位置信息转换为对应的目标点位置信息；所述目标点位置信息为所述关键点位置信息在所述初始图像中的位置信息；

基于各个所述目标位置信息对所述目标对象进行姿态估计，得到所述目标图像对应的目标姿态。

7.一种目标视频生成方法，其特征在于，所述方法包括：

获取目标动作，确定所述目标动作所对应的姿态序列，所述姿态序列中的姿态按照顺序执行，得到所述目标动作；

基于权1-6中任一项所述的方法对目标图像进行处理，获取目标图像集合中各个目标图像对应的目标姿态；

从所述目标图像集合中获取所述姿态序列中各个目标姿态所对应的图像，作为视频帧图像；

按照所述姿态序列中姿态的排序对得到的所述视频帧图像进行排列，得到所述目标动作所对应的目标视频。

8.一种姿态估计装置，其特征在于，所述装置包括：

目标图像获取模块，用于获取待进行姿态估计的目标图像；所述目标图像中包括待处理的目标对象；

第一提取特征模块，用于基于所述目标图像进行特征提取，获取第一提取特征；

扩张图像特征得到模块，用于通过图像特征扩张网络对所述第一提取特征进行特征扩张，得到扩张图像特征；

第二提取特征得到模块，用于对所述扩张图像特征进行特征提取，得到第二提取特征；

压缩图像特征得到模块，用于通过图像特征压缩网络对所述第二提取特征进行特征压缩，得到压缩图像特征；

关键点位置信息确定模块，用于基于所述压缩图像特征确定所述目标图像中的所述目标对象对应的关键点位置信息，基于所述关键点位置信息对所述目标对象进行姿态估计。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项或者权利要求7所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项或者权利要求7所述的方法的步骤。