CN105678321B

CN105678321B - 一种基于融合模型的人体姿态估计方法

Info

Publication number: CN105678321B
Application number: CN201511025900.2A
Authority: CN
Inventors: 孔德慧; 朱碧焓; 王少帆; 尹宝才
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2015-12-31
Filing date: 2015-12-31
Publication date: 2019-06-21
Anticipated expiration: 2035-12-31
Also published as: CN105678321A

Abstract

本发明公开一种基于融合模型的人体姿态估计方法，其能够充分利用图像特征信息，能够将图像的HOG特征信息和形状特征信息融合，提高了传统图模型结构的人体姿态识别的准确率。包括以下步骤：(1)以人体运动时的二维静态图像为输入数据，获取基于图模型的候选姿态；(2)利用信度函数D‑S融合模型将图像中的特征信息融合，求得最高信度值对应各部位的位置，作为最佳位置，从而获得人体姿态最佳结果。

Description

一种基于融合模型的人体姿态估计方法

技术领域

本发明属于计算机视觉和模式识别的技术领域，具体地涉及一种基于融合模型的人体姿态估计方法。

背景技术

人体姿态估计是通过对图像中各种特征进行分析，自动确定人体部位在图像中的位置、方向和尺度的过程，是近年来一个热门的研究方向。在计算机视觉中，计算机只能处理图像的底层信息，然后对其所包含的信息进行推断，从而得到最终结果。但是，人类在认知的过程中并不遵循这一过程，而是依赖于概率、语言以及个人经验。因此，如何能跨域语义鸿沟一直是计算机视觉所研究的重点。人体姿态估计的研究具有重要的理论意义，涉及了计算机视觉多方面的知识。致使人体姿态估计成为重点研究方向的主要原因是电子设备飞速的发展，以及所带来的巨大的市场。人体姿态估计的研究能够应用于视频监控、虚拟现实、图像检索和人机交互等多方面。

目前，面向二维图像的人体姿态估计方法中，基于PS模型的方法占有优势。PS模型是以图形结构来表示部件之间的连接，将人体分为多个刚性部件(头、躯干、一对上臂，一对下臂，一对大腿，一对小腿等)，各部位用一个矩形框来定位表示；相邻两部件之间由关节点相连。由此，人体姿态模型主要包分为树形和非树形两种类型，树形结构中人体姿态可表示为L＝(l₁,l₂,…l₁₀)，如图1a。如图1b所示，人体树形结构模型，以无向图表示为：

G＝(V，E) (1)

其中E为图中所有的边的集合，顶点集合V＝{v₁,v₂,v₃,...,v_n}中的各个元素分别是对应人体刚性部位，若两个人体部位v_i和v_j相连，则存在边(v_i，v_j)∈E。2009年SamJohnson等人基于HOG和颜色特征的外观模型的似然度结果重叠作为新的外观模型，但是利用多个特征时图像特征的融合方法过于简单，以至于并不能实现高效的融合。2011年Yang等人提出了基于树形结构，以HOG作为图像的特征向量的人体姿态估计方法，该方法没有充分利用图像中的信息，以致于手臂等部位检测准确率不高。基于以上等原因，寻求一种新的融合理论能够有效地融合图像中的多种特征信息。

发明内容

本发明的技术解决问题是：克服现有技术的不足，提供一种基于融合模型的人体姿态估计方法，其能够充分利用图像特征信息，能够将图像的HOG特征信息和形状特征信息融合，提高了传统图模型结构的人体姿态识别的准确率。

本发明的技术解决方案是：这种基于融合模型的人体姿态估计方法，包括以下步骤：

(1)以人体运动时的二维静态图像为输入数据，获取基于图模型的候选姿态；

(2)利用信度函数D-S融合模型将图像中的特征信息融合，求得最高信度值对应各部位的位置，作为最佳位置，从而获得人体姿态最佳结果。

本发明中将信度函数D-S融合模型用于人体姿态估计，建立图像中多种特征信息的质量函数，对不同的质量函数进行融合，克服了贝叶斯公式的缺点，不必满足概率可加性，允许不确定性和相互矛盾的存在，并且将这些信息保存在质量函数当中，所以能够充分利用图像特征信息，能够将图像的HOG特征信息和形状特征信息融合，提高了传统图模型结构的人体姿态识别的准确率。

附图说明

图1a示出了树形结构中的人体姿态。

图1b是图1a的人体树形结构模型。

图2是根据本发明的基于融合模型的人体姿态估计方法的流程图。

具体实施方式

本发明专注于静态图像的人体姿态估计方法的研究，将Dempster-Shafer融合理论应用于二维人体姿态估计领域，提出了基于D-S融合理论的人体骨架点提取方法。D-S理论是一种数据融合理论，能够结合不同信源的证据，提供了一种不确定性的决策过程。根据D-S理论，引入以下术语：

(1)质量函数：存在一组互斥的假设Θ＝{θ₁,θ₂,…,θ_N}，这组假设的全集有2^N种可能，定义为P(Θ)：

其中，定义了空集。对一个质量函数的概率，定义了一个映射：m:P(Θ)→[0,1],满足

(2)信度函数：给定一个质量函数m，反映了假设A的信度，可定义为：

根据Dempster的正交融合理论规则，将不同信源融合定义为：

其中，⊕是融合符号，m_n是A_n在P(Θ)中所对应的质量函数，K是衡量N个质量函数间的冲突概率。当K＝0时，代表了{m_n}^N _n＝1中没有冲突；K＝1时，代表了{m_n}^N _n＝1互相完全对立。K的定义为：

如图2所示，这种基于融合模型的人体姿态估计方法，其特征在于：包括以下步骤：

优选地，所述步骤(1)中依据图模型方法，将单部件和二元打分之和作为衡量因素，图模型中所求L为各部件的坐标位置；根据公式(6)，依次选取得分最高的前M个骨架点l*，作为候选集Ω^M

其中，V为图模型中的顶点集合，E为图模型中的边集合l_i＝{x,y}为部件i的像素位置，是HOG特征向量，

μ(l_i-l_j)＝[dx,dx²,dy,dy²]^T，i、j为相邻部件。

优选地，所述步骤(2)包括以下分步骤：

(2.1)计算单部分的HOG特征的质量函数；

(2.2)计算单部分的形状特征的质量函数；

(2.3)将步骤(2.1)和(2.2)的结果融合，取最大信度值作为最佳位置，从而获得人体姿态最佳结果。

优选地，所述步骤(2.1)中根据公式(9)计算单部分的HOG特征的质量函数：

其中，h_n(xⁿ)代表了x_n所对应的HOG分类器h_n的SVM预测函数。

优选地，所述步骤(2.2)中根据公式(10)计算单部分的形状特征的质量函数：

其中，p_a是特征点x的检测框中的像素点，τ是判别函数，N是四个相连邻域，一元项c(p_a)定义了一个单独的像素偏向于前景或背景的程度，二元项定义了邻域像素点一致度。

优选地，所述步骤(2.3)中根据公式(17)、(18)计算最大信度值

Bel(A,l)反映了假设A的置信度，Bel({1},l)是假设l为所求最佳位置对应的置信度：

l^*＝Max Bel({1},l) (18)。

以下对本发明进行更详细的说明。

本发明以人体运动时的二维静态图像为输入数据，计算输出人体骨架点(16个)的空间位置。本发明主要过程分为两步：1、基于图模型的候选姿态获取；2、基于表观形状模型的最佳姿态获取，流程图如图2所示。

1、基于图模型的候选姿态获取

依据图模型方法，将单部件和二元打分之和作为衡量因素，图模型中所求L为各部件的坐标位置：

其中，l_i＝{x,y}为部件i的像素位置，是HOG特征向量，μ(l_i-l_j)＝[dx,dx²,dy,dy²]^T，i、j为相邻部件。

根据公式(6)，依次选取得分最高的前M个骨架点l*，作为候选集Ω^M。

2、基于表观形状模型的最佳姿态获取

在获取候选集后，利用D-S融合理论将图像中的特征信息融合，求得最高信度值对应各部位的位置，即最佳位置，获得人体姿态最佳结果。

对于每个特征点，选择HOG特征和形状特征来描述每个特征点的特征，每种特征分别对应不同的SVM分类器。如此，每个部位有两种信息源的质量函数融合，所以定义了特征信息的判别信息源的全集为：

其中，Θ＝{-1,1}定义了全集类，{1}代表目标类，{-1}代表非目标类

因此，对第n个特征点的特征信息所对应的质量函数m_i(A_n)可定义为：

其中，i＝1，2，δ为不确定度,xⁿ为某个候选集所对应的第n个特征点的位置。

对于每个特征点的HOG特征而言，g_n(xⁿ)就是标准化SVM分类置信度，定义为：

其中，h_n(xⁿ)代表了x_n所对应的HOG分类器h_n的SVM预测函数

而对于形状特征，g_n(xⁿ)是Xn所对应的形状特征的图像分割能量函数，定义为：

其中，p_a是特征点x的检测框中的像素点，τ是判别函数，N是四个相连邻域。一元项c(p_a)定义了一个单独的像素偏向于前景或背景的程度，二元项定义了邻域像素点一致度。

为了评判一元项c(p_a)，需要基于像素的前景/背景模型。对于被检测框，假设每个像素都有一个前景的先验分布p_fg(a)，用于前景/背景颜色直方图的的建立：

Pr(fg(a))＝∑_ap_fg(a)·τ(im(a)＝k) (11)

Pr(fg(a))＝∑_a(1-p_fg(a))·τ(im(a)＝k) (12)

上式中的im(a)代表了位置a的像素值的二进制码。用了R、G、B三通道各8位表示，所以理论上，k的索引的值域为1～8³＝512。实际上，每个检测窗中的像素值并达不到如此之高。所以，一元项的负对数概率模型如下：

c(l_a＝1)＝-log(Pr(fg(im(a)))) (13)

c(l_a＝0)＝-log(Pr(bg(im(a)))) (14)

前景先验概率p_fg(a)只隐含的出现在训练前景/背景颜色模型中，相应的，1-p_fg(a)为背景先验概率.若给出T张给定标定好的真实数据的训练图像l^t，p_fg(a)的最大似然估计为样本平均，即

但是，在目前的数据集中并不存在这样的像素分割数据。所以，可以使用正训练集的包围框位置，而得到一个粗糙的包围框的先验概率：

根据D-S融合理论，求得HOG特征对应质量函数m₁(A)和形状特征质量函数m₂(A)，最终的联合质量函数M(A)＝m₁(A)⊕m₂(A)。所以，M(A)对应的的置信函数Bel(A)定义为：

上式中，M()为置信度函数，Bel(A,l)反映了假设A的置信度，所以Bel({1},l)就是假设l为所求最佳位置对应的置信度。因此，用Bel({1},l)作为衡量每个部位的打分，即求得l所在位置时的打分，当取得最高分值时表示l的置信度最高，就是所求的最佳姿态结果，即：

l^*＝Max Bel({1},l) (18)

对上述模型进行了实验验证，并且取得了明显的效果。在实验中，选用PARSE全身图像数据集，选取l₁～l₁₄共14个骨架点，测试100帧静态图像数据，统计了均方根误差(RMS)和最大误差(Max)，其数值均以像素为单位。根据实验效果，上文所提到质量函数不确定度δ设置为0.1，形状特征中二元项对应的的γ为常数，取0.4。

本发明与YANG等人提出的方法比较，从RMS和MAX两个标准上都取得了理想的提升。其中，均方根误差RMS＝9.0288，YANG等人提出的方法最大误差平均值MAX＝113.2148提高至85.9704。同时，设置错误阈值为10个像素点，统计了准确度，平均准确率为84％。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.一种基于融合模型的人体姿态估计方法，其特征在于：包括以下步骤：

(2)利用信度函数D-S融合模型将图像中的特征信息融合，求得最高信度值对应各部位的位置，作为最佳位置，从而获得人体姿态最佳结果，具体包括以下步骤：

(2.1)计算单部分的HOG特征的质量函数；

(2.2)计算单部分的形状特征的质量函数；

2.根据权利要求1所述的基于融合模型的人体姿态估计方法，其特征在于：所述步骤(1)中依据图模型方法，将单部件和二元打分之和作为衡量因素，图模型中所求L为各部件的坐标位置；根据公式(6)，依次选取得分最高的前M个骨架点l*，作为候选集Ω^M

其中，V为图模型中的顶点集合，E为图模型中的边集合，l_i＝{x,y}为部件i的像素位置，是HOG特征向量，

μ(l_i-l_j)＝[dx,dx²,dy,dy²]^T，i、j为相邻部件。

3.根据权利要求2所述的基于融合模型的人体姿态估计方法，其特征在于：所述步骤(2.1)中根据公式(9)计算单部分的HOG特征的质量函数：

其中，h_n(xⁿ)代表了xⁿ所对应的HOG分类器h_n的SVM预测函数。

4.根据权利要求3所述的基于融合模型的人体姿态估计方法，其特征在于：所述步骤(2.2)中根据公式(10)计算单部分的形状特征的质量函数：

5.根据权利要求4所述的基于融合模型的人体姿态估计方法，其特征在于：所述步骤(2.3)中根据公式(17)、(18)计算最大信度值

l^*＝Max Bel({1},l) (18)。