CN105678321B - 一种基于融合模型的人体姿态估计方法 - Google Patents
一种基于融合模型的人体姿态估计方法 Download PDFInfo
- Publication number
- CN105678321B CN105678321B CN201511025900.2A CN201511025900A CN105678321B CN 105678321 B CN105678321 B CN 105678321B CN 201511025900 A CN201511025900 A CN 201511025900A CN 105678321 B CN105678321 B CN 105678321B
- Authority
- CN
- China
- Prior art keywords
- human body
- model
- body posture
- fusion
- estimation method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000003068 static effect Effects 0.000 claims abstract description 7
- 230000036544 posture Effects 0.000 claims description 35
- 238000001514 detection method Methods 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 2
- 230000006870 function Effects 0.000 description 32
- 238000011160 research Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于融合模型的人体姿态估计方法,其能够充分利用图像特征信息,能够将图像的HOG特征信息和形状特征信息融合,提高了传统图模型结构的人体姿态识别的准确率。包括以下步骤:(1)以人体运动时的二维静态图像为输入数据,获取基于图模型的候选姿态;(2)利用信度函数D‑S融合模型将图像中的特征信息融合,求得最高信度值对应各部位的位置,作为最佳位置,从而获得人体姿态最佳结果。
Description
技术领域
本发明属于计算机视觉和模式识别的技术领域,具体地涉及一种基于融合模型的人体姿态估计方法。
背景技术
人体姿态估计是通过对图像中各种特征进行分析,自动确定人体部位在图像中的位置、方向和尺度的过程,是近年来一个热门的研究方向。在计算机视觉中,计算机只能处理图像的底层信息,然后对其所包含的信息进行推断,从而得到最终结果。但是,人类在认知的过程中并不遵循这一过程,而是依赖于概率、语言以及个人经验。因此,如何能跨域语义鸿沟一直是计算机视觉所研究的重点。人体姿态估计的研究具有重要的理论意义,涉及了计算机视觉多方面的知识。致使人体姿态估计成为重点研究方向的主要原因是电子设备飞速的发展,以及所带来的巨大的市场。人体姿态估计的研究能够应用于视频监控、虚拟现实、图像检索和人机交互等多方面。
目前,面向二维图像的人体姿态估计方法中,基于PS模型的方法占有优势。PS模型是以图形结构来表示部件之间的连接,将人体分为多个刚性部件(头、躯干、一对上臂,一对下臂,一对大腿,一对小腿等),各部位用一个矩形框来定位表示;相邻两部件之间由关节点相连。由此,人体姿态模型主要包分为树形和非树形两种类型,树形结构中人体姿态可表示为L=(l1,l2,…l10),如图1a。如图1b所示,人体树形结构模型,以无向图表示为:
G=(V,E) (1)
其中E为图中所有的边的集合,顶点集合V={v1,v2,v3,...,vn}中的各个元素分别是对应人体刚性部位,若两个人体部位vi和vj相连,则存在边(vi,vj)∈E。2009年SamJohnson等人基于HOG和颜色特征的外观模型的似然度结果重叠作为新的外观模型,但是利用多个特征时图像特征的融合方法过于简单,以至于并不能实现高效的融合。2011年Yang等人提出了基于树形结构,以HOG作为图像的特征向量的人体姿态估计方法,该方法没有充分利用图像中的信息,以致于手臂等部位检测准确率不高。基于以上等原因,寻求一种新的融合理论能够有效地融合图像中的多种特征信息。
发明内容
本发明的技术解决问题是:克服现有技术的不足,提供一种基于融合模型的人体姿态估计方法,其能够充分利用图像特征信息,能够将图像的HOG特征信息和形状特征信息融合,提高了传统图模型结构的人体姿态识别的准确率。
本发明的技术解决方案是:这种基于融合模型的人体姿态估计方法,包括以下步骤:
(1)以人体运动时的二维静态图像为输入数据,获取基于图模型的候选姿态;
(2)利用信度函数D-S融合模型将图像中的特征信息融合,求得最高信度值对应各部位的位置,作为最佳位置,从而获得人体姿态最佳结果。
本发明中将信度函数D-S融合模型用于人体姿态估计,建立图像中多种特征信息的质量函数,对不同的质量函数进行融合,克服了贝叶斯公式的缺点,不必满足概率可加性,允许不确定性和相互矛盾的存在,并且将这些信息保存在质量函数当中,所以能够充分利用图像特征信息,能够将图像的HOG特征信息和形状特征信息融合,提高了传统图模型结构的人体姿态识别的准确率。
附图说明
图1a示出了树形结构中的人体姿态。
图1b是图1a的人体树形结构模型。
图2是根据本发明的基于融合模型的人体姿态估计方法的流程图。
具体实施方式
本发明专注于静态图像的人体姿态估计方法的研究,将Dempster-Shafer融合理论应用于二维人体姿态估计领域,提出了基于D-S融合理论的人体骨架点提取方法。D-S理论是一种数据融合理论,能够结合不同信源的证据,提供了一种不确定性的决策过程。根据D-S理论,引入以下术语:
(1)质量函数:存在一组互斥的假设Θ={θ1,θ2,…,θN},这组假设的全集有2N种可能,定义为P(Θ):
其中,定义了空集。对一个质量函数的概率,定义了一个映射:m:P(Θ)→[0,1],满足
(2)信度函数:给定一个质量函数m,反映了假设A的信度,可定义为:
根据Dempster的正交融合理论规则,将不同信源融合定义为:
其中,⊕是融合符号,mn是An在P(Θ)中所对应的质量函数,K是衡量N个质量函数间的冲突概率。当K=0时,代表了{mn}N n=1中没有冲突;K=1时,代表了{mn}N n=1互相完全对立。K的定义为:
如图2所示,这种基于融合模型的人体姿态估计方法,其特征在于:包括以下步骤:
(1)以人体运动时的二维静态图像为输入数据,获取基于图模型的候选姿态;
(2)利用信度函数D-S融合模型将图像中的特征信息融合,求得最高信度值对应各部位的位置,作为最佳位置,从而获得人体姿态最佳结果。
本发明中将信度函数D-S融合模型用于人体姿态估计,建立图像中多种特征信息的质量函数,对不同的质量函数进行融合,克服了贝叶斯公式的缺点,不必满足概率可加性,允许不确定性和相互矛盾的存在,并且将这些信息保存在质量函数当中,所以能够充分利用图像特征信息,能够将图像的HOG特征信息和形状特征信息融合,提高了传统图模型结构的人体姿态识别的准确率。
优选地,所述步骤(1)中依据图模型方法,将单部件和二元打分之和作为衡量因素,图模型中所求L为各部件的坐标位置;根据公式(6),依次选取得分最高的前M个骨架点l*,作为候选集ΩM
其中,V为图模型中的顶点集合,E为图模型中的边集合li={x,y}为部件i的像素位置,是HOG特征向量,
μ(li-lj)=[dx,dx2,dy,dy2]T,i、j为相邻部件。
优选地,所述步骤(2)包括以下分步骤:
(2.1)计算单部分的HOG特征的质量函数;
(2.2)计算单部分的形状特征的质量函数;
(2.3)将步骤(2.1)和(2.2)的结果融合,取最大信度值作为最佳位置,从而获得人体姿态最佳结果。
优选地,所述步骤(2.1)中根据公式(9)计算单部分的HOG特征的质量函数:
其中,hn(xn)代表了xn所对应的HOG分类器hn的SVM预测函数。
优选地,所述步骤(2.2)中根据公式(10)计算单部分的形状特征的质量函数:
其中,pa是特征点x的检测框中的像素点,τ是判别函数,N是四个相连邻域,一元项c(pa)定义了一个单独的像素偏向于前景或背景的程度,二元项定义了邻域像素点一致度。
优选地,所述步骤(2.3)中根据公式(17)、(18)计算最大信度值
Bel(A,l)反映了假设A的置信度,Bel({1},l)是假设l为所求最佳位置对应的置信度:
l*=Max Bel({1},l) (18)。
以下对本发明进行更详细的说明。
本发明以人体运动时的二维静态图像为输入数据,计算输出人体骨架点(16个)的空间位置。本发明主要过程分为两步:1、基于图模型的候选姿态获取;2、基于表观形状模型的最佳姿态获取,流程图如图2所示。
1、基于图模型的候选姿态获取
依据图模型方法,将单部件和二元打分之和作为衡量因素,图模型中所求L为各部件的坐标位置:
其中,li={x,y}为部件i的像素位置,是HOG特征向量,μ(li-lj)=[dx,dx2,dy,dy2]T,i、j为相邻部件。
根据公式(6),依次选取得分最高的前M个骨架点l*,作为候选集ΩM。
2、基于表观形状模型的最佳姿态获取
在获取候选集后,利用D-S融合理论将图像中的特征信息融合,求得最高信度值对应各部位的位置,即最佳位置,获得人体姿态最佳结果。
对于每个特征点,选择HOG特征和形状特征来描述每个特征点的特征,每种特征分别对应不同的SVM分类器。如此,每个部位有两种信息源的质量函数融合,所以定义了特征信息的判别信息源的全集为:
其中,Θ={-1,1}定义了全集类,{1}代表目标类,{-1}代表非目标类
因此,对第n个特征点的特征信息所对应的质量函数mi(An)可定义为:
其中,i=1,2,δ为不确定度,xn为某个候选集所对应的第n个特征点的位置。
对于每个特征点的HOG特征而言,gn(xn)就是标准化SVM分类置信度,定义为:
其中,hn(xn)代表了xn所对应的HOG分类器hn的SVM预测函数
而对于形状特征,gn(xn)是Xn所对应的形状特征的图像分割能量函数,定义为:
其中,pa是特征点x的检测框中的像素点,τ是判别函数,N是四个相连邻域。一元项c(pa)定义了一个单独的像素偏向于前景或背景的程度,二元项定义了邻域像素点一致度。
为了评判一元项c(pa),需要基于像素的前景/背景模型。对于被检测框,假设每个像素都有一个前景的先验分布pfg(a),用于前景/背景颜色直方图的的建立:
Pr(fg(a))=∑apfg(a)·τ(im(a)=k) (11)
Pr(fg(a))=∑a(1-pfg(a))·τ(im(a)=k) (12)
上式中的im(a)代表了位置a的像素值的二进制码。用了R、G、B三通道各8位表示,所以理论上,k的索引的值域为1~83=512。实际上,每个检测窗中的像素值并达不到如此之高。所以,一元项的负对数概率模型如下:
c(la=1)=-log(Pr(fg(im(a)))) (13)
c(la=0)=-log(Pr(bg(im(a)))) (14)
前景先验概率pfg(a)只隐含的出现在训练前景/背景颜色模型中,相应的,1-pfg(a)为背景先验概率.若给出T张给定标定好的真实数据的训练图像lt,pfg(a)的最大似然估计为样本平均,即
但是,在目前的数据集中并不存在这样的像素分割数据。所以,可以使用正训练集的包围框位置,而得到一个粗糙的包围框的先验概率:
根据D-S融合理论,求得HOG特征对应质量函数m1(A)和形状特征质量函数m2(A),最终的联合质量函数M(A)=m1(A)⊕m2(A)。所以,M(A)对应的的置信函数Bel(A)定义为:
上式中,M()为置信度函数,Bel(A,l)反映了假设A的置信度,所以Bel({1},l)就是假设l为所求最佳位置对应的置信度。因此,用Bel({1},l)作为衡量每个部位的打分,即求得l所在位置时的打分,当取得最高分值时表示l的置信度最高,就是所求的最佳姿态结果,即:
l*=Max Bel({1},l) (18)
对上述模型进行了实验验证,并且取得了明显的效果。在实验中,选用PARSE全身图像数据集,选取l1~l14共14个骨架点,测试100帧静态图像数据,统计了均方根误差(RMS)和最大误差(Max),其数值均以像素为单位。根据实验效果,上文所提到质量函数不确定度δ设置为0.1,形状特征中二元项对应的的γ为常数,取0.4。
本发明与YANG等人提出的方法比较,从RMS和MAX两个标准上都取得了理想的提升。其中,均方根误差RMS=9.0288,YANG等人提出的方法最大误差平均值MAX=113.2148提高至85.9704。同时,设置错误阈值为10个像素点,统计了准确度,平均准确率为84%。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。
Claims (5)
1.一种基于融合模型的人体姿态估计方法,其特征在于:包括以下步骤:
(1)以人体运动时的二维静态图像为输入数据,获取基于图模型的候选姿态;
(2)利用信度函数D-S融合模型将图像中的特征信息融合,求得最高信度值对应各部位的位置,作为最佳位置,从而获得人体姿态最佳结果,具体包括以下步骤:
(2.1)计算单部分的HOG特征的质量函数;
(2.2)计算单部分的形状特征的质量函数;
(2.3)将步骤(2.1)和(2.2)的结果融合,取最大信度值作为最佳位置,从而获得人体姿态最佳结果。
2.根据权利要求1所述的基于融合模型的人体姿态估计方法,其特征在于:所述步骤(1)中依据图模型方法,将单部件和二元打分之和作为衡量因素,图模型中所求L为各部件的坐标位置;根据公式(6),依次选取得分最高的前M个骨架点l*,作为候选集ΩM
其中,V为图模型中的顶点集合,E为图模型中的边集合,li={x,y}为部件i的像素位置,是HOG特征向量,
μ(li-lj)=[dx,dx2,dy,dy2]T,i、j为相邻部件。
3.根据权利要求2所述的基于融合模型的人体姿态估计方法,其特征在于:所述步骤(2.1)中根据公式(9)计算单部分的HOG特征的质量函数:
其中,hn(xn)代表了xn所对应的HOG分类器hn的SVM预测函数。
4.根据权利要求3所述的基于融合模型的人体姿态估计方法,其特征在于:所述步骤(2.2)中根据公式(10)计算单部分的形状特征的质量函数:
其中,pa是特征点x的检测框中的像素点,τ是判别函数,N是四个相连邻域,一元项c(pa)定义了一个单独的像素偏向于前景或背景的程度,二元项定义了邻域像素点一致度。
5.根据权利要求4所述的基于融合模型的人体姿态估计方法,其特征在于:所述步骤(2.3)中根据公式(17)、(18)计算最大信度值
Bel(A,l)反映了假设A的置信度,Bel({1},l)是假设l为所求最佳位置对应的置信度:
l*=Max Bel({1},l) (18)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511025900.2A CN105678321B (zh) | 2015-12-31 | 2015-12-31 | 一种基于融合模型的人体姿态估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511025900.2A CN105678321B (zh) | 2015-12-31 | 2015-12-31 | 一种基于融合模型的人体姿态估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105678321A CN105678321A (zh) | 2016-06-15 |
CN105678321B true CN105678321B (zh) | 2019-06-21 |
Family
ID=56298161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511025900.2A Active CN105678321B (zh) | 2015-12-31 | 2015-12-31 | 一种基于融合模型的人体姿态估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105678321B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110033007B (zh) * | 2019-04-19 | 2022-08-09 | 福州大学 | 基于深度姿态预估和多特征融合的行人衣着属性识别方法 |
CN110728310B (zh) * | 2019-09-27 | 2023-09-01 | 聚时科技(上海)有限公司 | 一种基于超参数优化的目标检测模型融合方法及融合系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1404016A (zh) * | 2002-10-18 | 2003-03-19 | 清华大学 | 融合多视角、多线索二维信息的人脸三维模型的建立方法 |
CN101710421A (zh) * | 2009-11-26 | 2010-05-19 | 西北工业大学 | 基于剪影的二维人体姿态处理方法 |
CN105117694A (zh) * | 2015-08-16 | 2015-12-02 | 北京航空航天大学 | 一种结合旋转不变性特征的单张图片人体姿态估计方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8559671B2 (en) * | 2008-12-18 | 2013-10-15 | The Regents Of The University Of California | Training-free generic object detection in 2-D and 3-D using locally adaptive regression kernels |
-
2015
- 2015-12-31 CN CN201511025900.2A patent/CN105678321B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1404016A (zh) * | 2002-10-18 | 2003-03-19 | 清华大学 | 融合多视角、多线索二维信息的人脸三维模型的建立方法 |
CN101710421A (zh) * | 2009-11-26 | 2010-05-19 | 西北工业大学 | 基于剪影的二维人体姿态处理方法 |
CN105117694A (zh) * | 2015-08-16 | 2015-12-02 | 北京航空航天大学 | 一种结合旋转不变性特征的单张图片人体姿态估计方法 |
Non-Patent Citations (1)
Title |
---|
融合多姿势估计特征的动作识别;罗会兰 等;《中国图象图形学报》;20151130;第20卷(第11期);第1463-1468页 |
Also Published As
Publication number | Publication date |
---|---|
CN105678321A (zh) | 2016-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11455495B2 (en) | System and method for visual recognition using synthetic training data | |
US9449432B2 (en) | System and method for identifying faces in unconstrained media | |
US9317785B1 (en) | Method and system for determining ethnicity category of facial images based on multi-level primary and auxiliary classifiers | |
CN106778796B (zh) | 基于混合式协同训练的人体动作识别方法及系统 | |
US20120068917A1 (en) | System and method for dynamic gesture recognition using geometric classification | |
Nuevo et al. | RSMAT: Robust simultaneous modeling and tracking | |
CN115797736B (zh) | 目标检测模型的训练和目标检测方法、装置、设备和介质 | |
CN107944398A (zh) | 基于深度特征联合表示图像集人脸识别方法、装置和介质 | |
CN110569879A (zh) | 舌头图像提取方法、装置及计算机可读存储介质 | |
CN112200056A (zh) | 人脸活体检测方法、装置、电子设备及存储介质 | |
CN113312973A (zh) | 一种手势识别关键点特征提取方法及系统 | |
CN104978583B (zh) | 人物动作的识别方法及装置 | |
CN105678321B (zh) | 一种基于融合模型的人体姿态估计方法 | |
WO2020068104A1 (en) | Generating spatial gradient maps for a person in an image | |
Demirkus et al. | Multi-layer temporal graphical model for head pose estimation in real-world videos | |
CN117689887A (zh) | 基于点云分割的工件抓取方法、装置、设备及存储介质 | |
CN110826495A (zh) | 基于面部朝向的身体左右肢体一致性跟踪判别方法及系统 | |
Xiao et al. | Fast unstructured road detection and tracking from monocular video | |
CN105760881A (zh) | 基于Haar分类器方法的人脸建模检测方法 | |
Hernández-Vela et al. | Automatic user interaction correction via multi-label graph cuts | |
Moreira et al. | Fast and accurate gesture recognition based on motion shapes | |
Chen et al. | Global-attributes assisted outdoor scene geometric labeling | |
CN113903083B (zh) | 行为识别方法、装置、电子设备以及存储介质 | |
Huang et al. | Real-Time Human Body Motion Capturing System | |
Nebehay | A Deformable Part Model for One-Shot Object Tracking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |