CN109949368A

CN109949368A - 一种基于图像检索的人体三维姿态估计方法

Info

Publication number: CN109949368A
Application number: CN201910190964.XA
Authority: CN
Inventors: 吕培; 彭泽; 徐明亮; 周兵
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2019-03-14
Filing date: 2019-03-14
Publication date: 2019-06-28
Anticipated expiration: 2039-03-14
Also published as: CN109949368B

Abstract

本发明公开了一种基于图像检索的人体三维姿态估计方法。该方法包括步骤：构建并训练模型、使用训练模型估计、生成估计图像描述子、构建人体姿态字典集、查询人体姿态字典集，通过以上步骤能够对待识别图像中的人体姿态特征进行提取并生成图像描述子，然后在构建的人体姿态字典集中通过图像描述子比较进行快速查询，得到最匹配的人体三维姿态作为待检测人体二维姿态对应的人体三维状态输出。本发明方法克服了现有技术在室外和背景较为复杂的环境中难以识别人体姿态的问题，同时可以估计不同视角下图像中目标人物的人体三维姿态，具有鲁棒性强和高精度的优点。

Description

一种基于图像检索的人体三维姿态估计方法

技术领域

本发明涉及计算机图像处理技术领域，尤其涉及一种基于图像检索的人体三维姿态估计方法。

背景技术

人体姿态估计是计算机视觉领域中的一个重要研究方向，在人体活动分析、动作识别、行为识别和人机交互等领域中的关键问题，也是当前的研究热点。基于视觉的人体姿态估计主要就是从图像中检测出人体各个部位或关节位置及其方向和尺度信息。人体姿态估计从输入不同主要分为基于RGB-D图和基于RGB图两种，由于深度相机在日常使用中存在诸多不便，基于单目视觉RGB图的研究具有更广泛的应用前景。但是目前基于深度学习的方法依然无法解决需要大量样本数据的问题，数据采集依然是困难之一。此外，受限于数据的采集，端对端方法在实际应用中依然受到诸多因素的限制，其中，如何在实际环境中应用便是限制因素之一。

发明内容

本发明主要解决的技术问题是提供一种基于图像检索的人体三维姿态估计方法，解决现有技术中难以具有复杂背景二维图像中提取人体二维姿态，并对应快速输出人体三维姿态的问题。

为解决上述技术问题，本发明采用的一个技术方案是提供一种基于图像检索的人体三维姿态估计方法，包括以下步骤：

构建并训练模型，构建卷积神经网络模型，将训练图像和训练标签输入到所述卷积神经网络模型并进行训练，使得所述卷积神经网络模型能够从输入的所述训练图像中提取出人体二维姿态训练数据,并且所述人体二维姿态训练数据与对应的训练标签相一致；使用训练模型估计，将待识别图像输入到经前一步骤训练完成的所述卷积神经网络模型中进行人体姿态估计，得到对应的人体二维姿态估计数据；生成估计图像描述子，将所述人体二维姿态估计数据按照图像描述子转换方法转换为对应的估计图像描述子；构建人体姿态字典集，将人体三维姿态字典数据通过多视角投影方法得到对应的人体二维姿态字典数据，再利用所述图像描述子转换方法将所述人体二维姿态字典数据转换为对应的字典图像描述子，从而构建包含所述人体三维姿态字典数据与所述字典图像描述子相映射的人体姿态字典集；查询人体姿态字典集，将所述估计图像描述子输入到所述人体姿态字典集，通过图像描述子相似比较法从中查询与所述估计图像描述子最相似的所述字典图像描述子，再将这个最相似的所述字典图像描述子对应映射的所述人体三维姿态字典数据，作为所述待识别图像中对应的人体三维姿态输出。

在本发明基于图像检索的人体三维姿态估计方法另一实施例中，所述卷积神经网络模型包括深卷积度神经网络Open pose模型，构建训练图像中人体的15个关键节点分别为头、颈、左肩、右肩、左肘、右肘、左手、右手、左胯、右胯、左膝、右膝、左脚踝、右脚踝以及盆骨，并对所述关键节点进行标注得到训练标签，所述训练图像和训练标签输入应用到所述深卷积度神经网络Open pose模型中，并对所述深卷积度神经网络Open pose模型进行训练，提取得到人体二维姿态训练数据。

在本发明基于图像检索的人体三维姿态估计方法另一实施例中，所述深卷积度神经网络Open pose模型包括由多个3×3卷积核和池化层串接而成的第一级网络，以及在所述第一级网络之后是依次串联的第二级网络至第七级网络，所述第二级网络包括两个分支，均接收来自所述第一级网络提取输出的图像特征，其中第一分支用于预测肢体部分亲和域，第二分支用于对人体关键关节位置进行初步的预测；第三级网络至第七级网络的输入包括来自所述第一级网络提取输出的图像特征，以及与前一级网络输出的高维特征的和。

在本发明基于图像检索的人体三维姿态估计方法另一实施例中，所述图像描述子转换方法包括：首先，将一个人体二维姿态图像I(ρ,θ)的根节点固定在一张空表图像的正中心，并对所述人体二维姿态图像I(ρ,θ)进行二值化，其中，I(ρ,θ)＝1表示在(ρ,θ)位置有二维姿态的肢体，I(ρ,θ)＝0表示在(ρ,θ)位置没有肢体存在；然后，在整幅人体二维姿态图像上，采用了角径向分割法来建立虚拟网格，整个人体二维姿态图像被划分为M×N个区域，其中M＝R/ρ是沿半径方向的划分，R是图像最外围圆的半径，N＝2π/θ是垂直半径的划分，N是同心圆的数量，由此图像描述子表示为每个区域内灰度值为1，即代表肢体的黑色像素的个数：

其中x＝0,1,2,...,M-1，y＝0,1,2,...,N-1；

最后，将所述图像描述子编码为一个M×N大小的二维直方图，使得f(x,y)构成一种二维直方图的形式。

在本发明基于图像检索的人体三维姿态估计方法另一实施例中，所述多视角投影方法包括针对每个被保留得到的人体三维姿态使用60个不同视角的虚拟相机进行投影，水平跨度为360度、俯仰角跨度为[-60，60]度，两个方向采样步长均为30度，由此对每个人体三维姿态可以得到对应的60个人体二维投影。

在本发明基于图像检索的人体三维姿态估计方法另一实施例中，所述图像描述子相似比较法包括：

其中p(x_ij)和q(x_ij)分别代表两个不同的图像描述子，x_ij是图像描述子二维直方图对应位置的取值，并且所述图像描述子p(x_ij)和q(x_ij)的所有位置均设置极小值ζ＝0.0001。

在本发明基于图像检索的人体三维姿态估计方法另一实施例中，在构建人体姿态字典集还包括对人体三维姿态字典数据相似性比较，包括使用dis(p_i,p_j)来表示数据集中两个不同的人体三维姿态字典数据p_i和p_j之间的相似性：

其中，p_i代表数据集中第i帧的人体三维姿态字典数据，代表第k个关键节点的位置坐标，K是关键节点的个数；p_j代表数据集中第j帧的人体三维姿态字典数据，代表第f个关键节点的位置坐标，F是关键节点的个数；表示刚性的二维变换将两个人体三维姿态字典数据p_i和p_j的坐标系对齐，使目标姿态在垂直轴上旋转θ度，之后平移这个姿态(x₀,z₀)，将根关节的位置平移至坐标系的原点位置。

在本发明基于图像检索的人体三维姿态估计方法另一实施例中，在查询人体姿态字典集中包括：首先，建立数据库索引，使用聚类方法对数据库特征进行粗量化，得到K个索引项，中心个数就是倒排表的大小，将所有类中心保存到一个粗糙聚类表中；然后计算残差r(y)＝y-q_c(y)，使用所述字典图像描述子y减去之前粗糙量化的结果q_c(y)得到余量r(y)；将所有的r(y)分为m组，使用乘积量化的方法，每组内均进行聚类，可以得到一个m维的向量并保存在乘积量化的重心表中，分别将y在粗糙聚类表中的索引i和重心表中的索引j，将其(id，j)置于第i个倒排表L_i中；其次，查询时对待查询的所述估计图像描述子x进行粗糙量化，接着计算x的余量r(x)，再之后对r(x)分组，计算r(x)到之前重心的距离，计算x与q(y)的距离，得到x到y的最小近似距离。

本发明的有益效果是：本发明公开了一种基于图像检索的人体三维姿态估计方法。该方法包括步骤：构建并训练模型、使用训练模型估计、生成估计图像描述子、构建人体姿态字典集、查询人体姿态字典集，通过以上步骤能够对待识别图像中的人体姿态特征进行提取并生成图像描述子，然后在构建的人体姿态字典集中通过图像描述子比较进行快速查询，得到最匹配的人体三维姿态作为待检测人体二维姿态对应的人体三维状态输出。本发明方法克服了现有技术在室外和背景较为复杂的环境中难以识别人体姿态的问题，同时可以估计不同视角下图像中目标人物的人体三维姿态，具有鲁棒性强和高精度的优点。

附图说明

图1是根据本发明基于图像检索的人体三维姿态估计方法一实施例的流程图；

图2是根据本发明基于图像检索的人体三维姿态估计方法另一实施例中的深卷积度神经网络Open pose模型图；

图3是根据本发明基于图像检索的人体三维姿态估计方法另一实施例中的图像描述子生成示意图；

图4是根据本发明基于图像检索的人体三维姿态估计方法另一实施例中的字典集查询示意图。

具体实施方式

为了便于理解本发明，下面结合附图和具体实施例，对本发明进行更详细的说明。附图中给出了本发明的较佳的实施例。但是，本发明可以以许多不同的形式来实现，并不限于本说明书所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

需要说明的是，除非另有定义，本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是用于限制本发明。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

图1显示了本发明基于图像检索的人体三维姿态估计方法一实施例的流程图。在图1中，包括步骤：

步骤S101，构建并训练模型，构建卷积神经网络模型，将训练图像和训练标签输入到所述卷积神经网络模型并进行训练，使得所述卷积神经网络模型能够从输入的所述训练图像中提取出人体二维姿态训练数据,并且所述人体二维姿态训练数据与对应的训练标签相一致；

步骤S102，使用训练模型估计，将待识别图像输入到经前一步骤训练完成的所述卷积神经网络模型中进行人体姿态估计，得到对应的人体二维姿态估计数据；

步骤S103，生成估计图像描述子，将所述人体二维姿态估计数据按照图像描述子转换方法转换为对应的估计图像描述子；

步骤S104，构建人体姿态字典集，将人体三维姿态字典数据通过多视角投影方法得到对应的人体二维姿态字典数据，再利用所述图像描述子转换方法将所述人体二维姿态字典数据转换为对应的字典图像描述子，从而构建包含所述人体三维姿态字典数据与所述字典图像描述子相映射的人体姿态字典集；

步骤S105，查询人体姿态字典集，将所述估计图像描述子输入到所述人体姿态字典集，通过图像描述子相似比较法从中查询与所述估计图像描述子最相似的所述字典图像描述子，再将这个最相似的所述字典图像描述子对应映射的所述人体三维姿态字典数据，作为所述待识别图像中对应的人体三维姿态输出。

优选的，在步骤S101中，卷积神经网络模型包括深卷积度神经网络Open pose模型，通过使用Human3.6M、CoCo、MPI I数据集中的训练集进行镜像、平移、旋转等变换形式进行构建训练图像，在该训练图像中人体的15个关键节点分别为头、颈、左肩、右肩、左肘、右肘、左手、右手、左胯、右胯、左膝、右膝、左脚踝、右脚踝以及盆骨，对这些关键节点进行标注可得到训练标签，各个关键节点在二维图像中的坐标为J_i＝{j_x1,y1,j_x2,y2,...,j_x15,y15}，其中x1,y1表示关键节点头的二维图像坐标，x2,y2则表示颈的二维图像坐标，以此类推直到x15,y15表示关键节点盆骨的二维图像坐标。将训练图像和训练标签输入应用到深卷积度神经网络Open pose模型中，并对深卷积度神经网络Open pose模型进行训练，可提取得到人体二维姿态训练数据。

优选的，如图2显示了该深卷积度神经网络Open pose模型的一个优选实施例，首先输入图像会送第一级网络G1进行特征的提取，该第一级网络G1包括由多个3×3卷积核和池化层串接而成，得到的输入图像的图像特征表示为F，然后将图像特征F送入到后面的第二级网络，该第二级网络包括两个分支，即第一分支G21和第二分支G22，第一分支G21用于预测肢体部分亲和域(Part Affinity Field，PAFs)，共14类，第二分支G22用于对人体关键关节位置进行初步的预测，共15类，通过置信图对应15种人体关键关节点。

在第二级网络之后，是依次串联的第三级网络至第七级网络，这些网络具有和第二级网络类似结构，例如第七级网络也包括第一分支G71和第二分支G72，这些网络的输入都是原始图像的特征F和上一级网络输出的高维特征的和，并采用7×7大小的卷积核，最后一层使用1×1大小的卷积核进行降维。采用较大的卷积核具有更大的感受野，有助于网络学习到关节之间的空间关系也就是肢体的信息，同时较大的感受野可以获得更大区域中的上下文信息有助于网络学习、推断一些图像中没有的信息，在一定程度上可以解决因为图片中的遮挡导致部分肢体不可见的问题，增强了网络的推理能力。从第二级网络至第七级网络，这六个阶段中的每一个阶段都是一个相对独立的预测过程，而后一个阶段会基于上一阶段的预测结果，也就是其置信图、特征图和原始图像特征F，作为输入进行进一步的预测，这里我们采用残差学习的方法在每个阶段之间加入了一个短链接，将上一级网络的信息传递到下一级网络，通过6级网络的迭代式预测最后就可以得到精度较高的预测结果。

优选的，由图2可以看出，将对人体关键关节点的检测任务表示为预测一个关节点所在位置的置信图的过程，如图2中的第二支路G22完成，该置信图采用高斯建模，置信图中的数值表示该点属于某个关节点的概率。

关节点的置信图被表示为：

和

其中k表示图像中总共有k个目标人物，j表示关节点的种类，比如头、肩、手等，p∈R²表示所预测图像当前的位置坐标，x_j,k∈R²则表示第k个目标人物第j类关节点的具体坐标位置，σ＝1e+2是一个极小值用来保证训练过程的可行性。

可以表达为当前位置p距离第k个目标人物的第j类关节点位置越近，其得分就越高。

则对应多人的情况，当前位置p在第j类关节点中找到得分最大的k，即最可能所属的人。

优选的，肢体的置信图则可以描述为预测一个向量的起点与终点，对应如图2中的第一支路G21完成。对于第k个目标人物的第c类肢体(c对应肢体种类，比如上臂、大腿、躯干等)的PAFs为：

0≤v·(p-x_j,k)≤l_c,k；

其中x_j,k表示第k个目标人物第j类关节点的位置，表示这两个关节点之间肢体部分的长度。

通过步骤S101实现对深卷积度神经网络Open pose模型的训练，通过训练可以使得该模型能够对输入的图像不仅能够去除复杂的背景干扰因素，还能够提取人体姿态信息，然后再通过训练得到对关键节点进行标注的训练标签，而提取得到人体二维姿态训练数据主要就是这些训练标签的集合。这样通过大量图片进行训练，就可以形成稳定的网络模型，从而可以实现对人体姿态的准确提取和估算。

优选的，在步骤S102中，将待识别图像，如RGB图像输入并应用到深卷积度神经网络Open pose模型中，待识别图像包括了人体的各个关键节点，对待识别图像进行预估计并得到的人体二维姿态估计数据。这里的人体二维姿态估计数据也是包括人体各关节点，主要是头、颈、左右肩、左右肘、左右手、左右胯、左右膝、左右脚踝和盆骨共15个关节的位置数据。

优选的，在步骤S103中，对于图像描述子转换方法，本发明使用一种角径向分割法来构建人体二维姿态和人体三维姿态之间的联系并生成图像描述子。

优选的，如图3所示，本发明使用图像描述子来表示一个人体二维姿态。具体而言使用一种角径向分割法来生成图像描述子，优选的，对于一个已知的人体二维姿态，首先将一个人体二维姿态的根节点(即盆骨关节点)固定在一张空表图像的正中心，这个二维姿态图像首先进行二值化，则一个人体二维姿态的图像RE1可以描述为I(ρ,θ)，I(ρ,θ)＝1表示在(ρ,θ)位置有二维姿态的肢体，即图像中黑色像素代表的肢体部分，I(ρ,θ)＝0则表示没有肢体存在，(ρ,θ)是这些肢体上像素位置的极坐标表示。之后在整幅图片上建立虚拟网格RE2，这里采用了角径向分割法来构建虚拟网格。整个描述子图像被划分为M×N个区域，其中M＝R/ρ是沿半径方向的划分，R是图像最外围圆的半径，N＝2π/θ是垂直半径的划分，即同心圆的数量。图像描述子可以表示为每个区域内灰度值为1，即代表肢体的黑色像素的个数：

其中x＝0,1,2,...,M-1，y＝0,1,2,...,N-1，将图像描述子编码为一个M×N大小的二维直方图RE3。使得f(x,y)构成一种二维直方图的形式。这样我们就可以使用这种二维直方图形式的描述子来表示和描述其所对应的二维姿态图像。

如图3所示，本发明实施例所采用的图像描述子方法因为使用角径向分割，相比于直接将整幅图像分割为规则的小矩形块有着非常明显的优点，因为小矩形块的对称性如果仅仅统计落在矩形块中代表肢体黑色像素的个数只能知道这些像素分布在二维图像的某个区域，而这种类似扇形结构因为其长宽不对称，如果一个扇形区域内统计得到非常多的像素点表示存在某个肢体部分沿长边方向穿过了这个区域，而只有少量像素点存在的区域可能代表肢体是沿短边方向穿过了这个扇形区域，所以应用本实施例采用的划分方法可以在统计代表肢体存在的像素过程中保留部分方向信息，可以提高描述子表示二维姿态的能力。并且将根节点位置固定在图像中心之后，人体二维姿态主要集中在图像中心而图像的边界主要是四肢的末端，所以在垂直半径方向采用不均等的分割方式，在较为复杂的中心区域半径间隔较小以更精确的表达靠近中心部分肢体的分布情况，而在距离中心区域较远的地方分布的是人的四肢末端，因为表示四肢末端的像素数量较少且分布更为稀疏，所以使用较大的半径间隔也可以很好的描述这些肢体部分。整幅人体二维姿态图像的描述子就是分别统计每个区域内非0像素的个数，之后按照指定规律排列并构成一个二维直方图。使用这种针对人体二维姿态图片改进型的角径向分割方法来划分人体二维姿态图片可以更精细的描述一个人体二维姿态。

另外，在生成人体二维姿态图像的过程中由于输入图像不同的视角和距离目标人物的拍摄距离，会导致目标人物的二维姿态呈现出非常大的差异，很可能同一个人体三维姿态从不同的角度拍摄呈现的出姿势、尺度完全不同的二维投影。其中对本方法有较大影响的就是不同输入图片姿势的尺度不同，这会导致尺度较小的二维姿态会集中在图像的中心区域，而尺度较大的二维姿态则有可能会超出图像区域。显然这样的二维姿态图像生成的图像描述子是无法在标准描述子组成的字典集中查询得到理想的结果的。

优选的，为了便于后续在字典集中查询，我们需要对输入的二维姿态进行一次标准化，将其转化为与字典集中标准的人体二维姿态相仿的尺度。因为不同的视角可能导致肢体的尺度变化，比如斜向上的视角可能导致下肢较长而上肢较短。所以在处理二维姿态尺度的时候采用了按照肢体比例进行缩放的准则：首先计算各个肢体与躯干部分之间长度的比例，然后比较这个比例和字典集中60个虚拟视角肢体比例的相似性，选取最相似的一组，然后按照字典集中标准骨架的长度放大或者缩小所获得的二维姿态。

优选的，在生成输入图像中目标人物二维姿态的图像描述子时，加入了一个预处理步骤。不直接生成该姿态的二值化姿态图像，而是根据前述图2所示实施例中的15张置信图生成不同权重的肢体线段，跟据人体结构，对于置信度较低的关节点，其从父节点到子节点代表一段肢体连线赋予不同的权重，而不再使用二值化的表示方法。在置信度较高的两个关节点之间赋予更高的权重，本实施例将这个权重分为5个不同的级别，这样可以在之后计算两个图像描述子的距离的时候，可以使得置信度较低的关节对距离计算的影响较小，可以进一步提高查询精度。这样可以使得不精确的关节点，例如可能是预测错误的关节点，对查询过程的贡献较小，而较为精确的关节点对查询过程的权重较大。

步骤S104是与前三个步骤S101至S103具有相对独立性的步骤，主要是用于构建字典集。

优选的，在步骤S104中，在构建人体姿态字典集还包括对人体三维姿态字典数据相似性比较，包括使用dis(p_i,p_j)来表示数据集中两个不同的人体三维姿态字典数据p_i和p_j之间的相似性：

其中，p_i代表数据集中第i帧的人体三维姿态字典数据，代表第k个关键节点的位置坐标，K是关键节点的个数；p_j代表数据集中第j帧的人体三维姿态字典数据，代表第f个关键节点的位置坐标，F是关键节点的个数；表示刚性的二维变换将两个人体三维姿态字典数据p_i和p_j的坐标系对齐，使目标姿态在垂直轴上旋转θ度，之后平移这个姿态(x₀,z₀)，将根关节的位置平移至坐标系的原点位置。我们共使用k＝15个关键节点来描述一个姿态，包括前述的15个关键节点。

为了避免在衡量两个不同人体三维姿态的相似性的时候，因为两个相似姿态因为朝向不同而被判别为不相似的情况发生，这里首先使用了一个刚性的二维变换将两个人体三维姿态数据p_i和p_j的坐标系对齐，即首先使目标姿态在垂直轴上旋转θ度，之后平移这个姿态(x₀,z₀)，将根关节的位置平移至坐标系的原点位置，这样就可以保证两个三维姿态的根关节固定在同一个位置并且朝向相同。然后，再计算两个不同人体三维姿态的相似性，当相似性大于所设阈值λ的时候，目标姿态将被保留，否则就在数据集中删除这个姿态。所以可以使用不同的阈值λ来调整字典集的规模，λ越大所保留的三维姿态就越少、字典集的规模越小；λ越小所保留的三维姿态就越多，字典集就越完备、细致，但是相应的字典集规模也会扩大从而影响查询检索的速度。

在删除数据集中冗余的三维姿态之后，由于我们得到了很多三维姿态数据，而同一个三维姿态在通过不同的角度观察的时候会呈现不同的二维投影。通过图像描述子建立了二维姿态与三维姿态的对应关系，所以需要将一个三维姿态通过不同角度进行投影得到不同的二维姿态投影来进行匹配，这就需要通过构建包含多视角三维姿态投影的字典集来保证本方法实施例可以估计于不同视角下拍摄图片中目标人物的人体三维姿态。对于每个被保留下来的三维姿态，使用多视角投影方法，针对每个被保留得到的三维姿态我们使用60个不同视角的虚拟相机进行投影，水平跨度为360度、俯仰角跨度为[-60，60]度，两个方向采样步长均为30度。这样每个三维姿态可以得到对应的60个二维投影。将所有通过投影得到的二维姿态图片再按照前述的方法生成图像描述子并保存下来，这些保存下来的图像描述子的集合就是后续查询匹配过程中的字典集。

值得注意的是在这一过程中因为是采集日常行为的三维姿态数据，所以其三维姿态数据的骨骼信息是不同的，不同的肢体长度导致了不同的骨骼信息，这也是不利于进行查询，为此使用CMU MoCap运动数据的表达形式，使用方向的单位向量乘以标准骨骼肢体的长度得到每个姿态所对应的标准三维骨骼信息，然后在转化为二维投影并生成描述子组成字典集以保持字典集中数据的一致性。

由此，可以构建三维姿态数据集中不同的三维姿态字典数据在不同视角和相机参数下投影得到二维姿态字典数据，将得到的二维姿态字典数据生成图像描述子并进行保存，构建人体姿态字典集。

优选的，在步骤S105中，为了使得相似的二维姿态之间的距离更小以便于下一步的查询，提高查询得到三维姿态的投影更接近于输入的二维姿态图像。我们使用一个大小为24×24的高斯核对每个代表肢体的像素进行加权，将每个像素在计算距离的时候可以将贡献分散到该像素周围的区域，即在统计像素位置生成描述子之前，对每个像素进行一次高斯加权，这样这个像素对单元格的贡献就不仅仅作用于本单元格，而是以一种高斯权重的形式分配在周围的单元格中。使得距离代表肢体的像素p(x_ij)∈I(ρ,θ)越近的位置，在计算两姿态距离时的权重越大。优选的，对于图像描述子相似比较法，本实施例使用K-L散度代替欧氏距离来衡量两个图像描述子之间的相似性，具体方法如下：

其中p(x_ij)和q(x_ij)分别代表两个不同的图像描述子，x_ij是图像描述子二维直方图对应位置的取值，并且所述图像描述子p(x_ij)和q(x_ij)的所有位置均设置极小值ζ＝0.0001。这里为了使得dist可以计算，在生成图像描述子的过程中会给所有的描述子p(x_ij)的所有位置都加上一个极小值ζ＝0.0001，用以保证分母位置不会存在0值，而导致距离dist无法计算。使用K-L散度可以在计算二维姿态相似性的时候，让更相似姿态得到距离更近，从而解决上述采用欧氏距离计算距离时存在的问题。

很显然如果使用待估计的人体二维姿态描述子直接在之前构建好的字典集中进行遍历查询的话，由于所使用的图像描述子本质上是一个高维向量，所以遍历查询的计算开销会非常大，会严重影响整个人体三维姿态估计的效率。为了提高查询速度，优选采用了基于乘积量化的查询方法。

基于乘积量化最近邻查询方法的基本思想是将原有的高维向量空间分解成多个低维向量空间的笛卡尔积，对之前分解所得到的低维向量空间做不同的量化，就可以使得每个高维向量可以使用若干低维空间的量化码组合进行表示，实现了很大程度的降维，所以乘积量化的方法其实是一种高维数据压缩表达的方法。

首先是进行聚类，其过程如下：首先随机选取k个对象作为初始化的聚类中心点；然后计算剩下的所有样本到这k个初始聚类中心的距离，将每个样本分配给距离其最近的聚类中心；重新计算k个聚类的中心点并迭代整个过程，直至判别函数收敛

其中E₁表示全局误差，c_i表示k个聚类族中的一个μ_i是其重心，而x_j是其中任意一个元素。

然后进行矢量量化，将高维度的N维矢量空间R^N映射到一个仅包含有限个矢量集合C(这里也可以称作码本)，并且码本C是高维矢量空间R^N的一个子集，可以表示为：

Q:R^N→C＝{y₁,y₂,...,y_M|y_i∈R^N}

这里Q就是映射关系，M表示码本C的尺寸，y_i就是码本的内容，也可以称之为码字，N则表示R^N中训练矢量的维度。并且对于x＝{x₁,x₂,...,x_N}∈R^N均满足映射关系Q(x|x∈R^N)＝y_p，同时满足这里码字y_p＝{y_p1,y_p2,...,y_pN}，d(x,y_p)则表示训练矢量x与码字y_p之间产生的量化失真，通常使用其平方误差来表示：

这样就在高维向量空间R^N中的每一个训练矢量x，都可以在码本C中找到一个对应失真最小的码字y_p。经过矢量量化器Q的量化之后可以被分割成为M个互不重叠的低维度子向量空间，所以就可以将这个高维向量空间R表示为R＝{R₁,R₂,...,R_M}，其中R_i＝{x|Q(x)＝y_i}就是N维矢量空间中全部映射为码字y_j的训练矢量x的集合，并且满足且

而乘积量化对于一个D维的高维向量x，会将其划分成m个n维的子向量μ_j,1≤j≤m，之后会使用m个子量化器将这m个子向量分别进行量化，这个过程可以表示为：

其中Q是不同子空间的独特量化器，每个Q都有其对应的索引I和码本C。通过指标集的笛卡尔乘积，I＝I₁×I₂×...×I_m中的元素可以同来表示乘积量化的索引，其码本就是每个子向量空间码本的笛卡尔乘积C＝C₁×C₂×...×C_m，对应的重心为m个量化器的重心串联而得到的向量。

对于一个由高维向量组成的庞大数据集来说，就像将数据集分为k个类别，每个数据样本都使用短向量形式表示，其维度为d，将这些短向量分为m组。将所有短向量的某一组分量作为一个新的数据集，采用上述聚类方法获得该类的类中心，所以一共需要m次聚类过程得到m个类中心，将这m个类中心作为一个集合。对这个m个类中心组成的集合做笛卡尔积，就可以得到整个数据集的类中心。因为图像描述子就是一个M×N的二维直方图，所以非常适合使用这种基于量化乘积的方式进行查询。

优选的，查询流程如图4所示，首先需要建立数据库索引，使用聚类方法对数据库特征进行粗量化，得到K个索引项，中心个数就是倒排表的大小，将所有类中心保存到一个粗糙聚类表中；然后计算残差r(y)＝y-q_c(y)，使用所述字典图像描述子y减去之前粗糙量化的结果q_c(y)得到余量r(y)。将所有的r(y)分为m组，使用乘积量化的方法，每组内均进行聚类。就可以得到一个m维的向量并保存在乘积量化的重心表中。分别将y在粗糙聚类表中的索引i和重心表中的索引j，将其(id，j)置于第i个倒排表L_i中。

查询过程与按照建立索引的方法类似，对待查询的所述估计图像描述子x进行粗糙量化，接着计算x的余量r(x)，再之后对r(x)分组计算r(x)到之前重心的距离，使用ADC的方法计算x与q(y)的距离，所以可以得到x到y的近似距离。堆栈中每个元素代表数据库中y与x的距离，堆栈顶的元素相距最远，如果比堆栈顶元素小则代替堆栈顶元素，直至遍历所有y，其过程可以用如下计算式表示：

r(y)＝y-q_c(y)；

y≈q_c(y)+q_p(r(y))；

x＝q_c(x)+r(x)；

||x-y||＝||q_c(x)+r(x)-q_c(y)-q_p(r(y))||＝||r(x)-q_p(r(y))||；

通过查找就可以根据输入图片中目标人物的人体二维姿态生成的图像描述子得到其在字典集中的k个最接近的人体三维姿态对应的二维投影，从而对应得到至多k个与之对应的人体三维姿态，这些三维姿态通过之后的优化处理就可以得到最终的人体三维姿态。

由此可见，本发明公开了一种基于图像检索的人体三维姿态估计方法。该方法包括步骤：构建并训练模型、使用训练模型估计、生成估计图像描述子、构建人体姿态字典集、查询人体姿态字典集，通过以上步骤能够对待识别图像中的人体姿态特征进行提取并生成图像描述子，然后在构建的人体姿态字典集中通过图像描述子比较进行快速查询，得到最匹配的人体三维姿态作为待检测人体二维姿态对应的人体三维状态输出。本发明方法克服了现有技术在室外和背景较为复杂的环境中难以识别人体姿态的问题，同时可以估计不同视角下图像中目标人物的人体三维姿态，具有鲁棒性强和高精度的优点。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于图像检索的人体三维姿态估计方法，其特征在于，包括以下步骤：

构建并训练模型，构建卷积神经网络模型，将训练图像和训练标签输入到所述卷积神经网络模型并进行训练，使得所述卷积神经网络模型能够从输入的所述训练图像中提取出人体二维姿态训练数据,并且所述人体二维姿态训练数据与对应的训练标签相一致；

使用训练模型估计，将待识别图像输入到经前一步骤训练完成的所述卷积神经网络模型中进行人体姿态估计，得到对应的人体二维姿态估计数据；

生成估计图像描述子，将所述人体二维姿态估计数据通过图像描述子转换方法转换为对应的估计图像描述子；

构建人体姿态字典集，将人体三维姿态字典数据通过多视角投影方法得到对应的人体二维姿态字典数据，再利用所述图像描述子转换方法将所述人体二维姿态字典数据转换为对应的字典图像描述子，从而构建包含所述人体三维姿态字典数据与所述字典图像描述子相映射的人体姿态字典集；

查询人体姿态字典集，将所述估计图像描述子输入到所述人体姿态字典集，通过图像描述子相似比较法从中查询与所述估计图像描述子最相似的所述字典图像描述子，再将这个最相似的所述字典图像描述子对应映射的所述人体三维姿态字典数据，作为所述待识别图像中对应的人体三维姿态输出。

2.根据权利要求1所述的基于图像检索的人体三维姿态估计方法，其特征在于，所述卷积神经网络模型包括深卷积度神经网络Open pose模型，构建训练图像中人体的15个关键节点分别为头、颈、左肩、右肩、左肘、右肘、左手、右手、左胯、右胯、左膝、右膝、左脚踝、右脚踝以及盆骨，并对所述关键节点进行标注得到训练标签，所述训练图像和训练标签输入到所述深卷积度神经网络Open pose模型中，并对所述深卷积度神经网络Open pose模型进行训练，提取得到人体二维姿态训练数据。

3.根据权利要求2所述的基于图像检索的人体三维姿态估计方法，其特征在于，所述深卷积度神经网络Open pose模型包括由多个3×3卷积核和池化层串接而成的第一级网络，以及在所述第一级网络之后是依次串联的第二级网络至第七级网络，所述第二级网络包括两个分支，均接收来自所述第一级网络提取输出的图像特征，其中第一分支用于预测肢体部分亲和域，第二分支用于对人体关键关节位置进行初步的预测；第三级网络至第七级网络的输入均包括来自所述第一级网络提取输出的图像特征，以及与前一级网络输出的高维特征的和。

4.根据权利要求3所述的基于图像检索的人体三维姿态估计方法，其特征在于，所述图像描述子转换方法包括：

首先，将一个人体二维姿态图像I(ρ,θ)的根节点固定在一张空表图像的正中心，并对所述人体二维姿态图像I(ρ,θ)进行二值化，其中，I(ρ,θ)＝1表示在(ρ,θ)位置有二维姿态的肢体，I(ρ,θ)＝0表示在(ρ,θ)位置没有肢体存在；

然后，在整幅人体二维姿态图像上，采用了角径向分割法来建立虚拟网格，整幅人体二维姿态图像被划分为M×N个区域，其中M＝R/ρ是沿半径方向的划分，R是图像最外围圆的半径，N＝2π/θ是垂直半径的划分，N是同心圆的数量，由此图像描述子表示为每个区域内灰度值为1，即代表肢体的黑色像素的个数：

其中x＝0,1,2,...,M-1，y＝0,1,2,...,N-1；

5.根据权利要求4所述的基于图像检索的人体三维姿态估计方法，其特征在于，所述多视角投影方法包括针对每个被保留得到的人体三维姿态使用60个不同视角的虚拟相机进行投影，水平跨度为360度、俯仰角跨度为[-60，60]度，两个方向采样步长均为30度，由此对每个人体三维姿态可以得到对应的60个人体二维投影。

6.根据权利要求5所述的基于图像检索的人体三维姿态估计方法，其特征在于，所述图像描述子相似比较法包括：

7.根据权利要求6所述的基于图像检索的人体三维姿态估计方法，其特征在于，在构建人体姿态字典集还包括对人体三维姿态字典数据相似性比较，包括使用dis(p_i,p_j)来表示数据集中两个不同的人体三维姿态字典数据p_i和p_j之间的相似性：

8.根据权利要求7所述的基于图像检索的人体三维姿态估计方法，其特征在于，在查询人体姿态字典集中包括：

首先，建立数据库索引，使用聚类方法对数据库特征进行粗量化，得到K个索引项，中心个数就是倒排表的大小，将所有类中心保存到一个粗糙聚类表中；然后计算残差r(y)＝y-q_c(y)，使用所述字典图像描述子y减去之前粗糙量化的结果q_c(y)得到余量r(y)；将所有的r(y)分为m组，使用乘积量化的方法，每组内均进行聚类，可以得到一个m维的向量并保存在乘积量化的重心表中，分别将y在粗糙聚类表中的索引i和重心表中的索引j，将其(id，j)置于第i个倒排表L_i中；

其次，查询时对待查询的所述估计图像描述子x进行粗糙量化，接着计算x的余量r(x)，再之后对r(x)分组，计算r(x)到之前重心的距离，计算x与q(y)的距离，得到x到y的最小近似距离。