CN105678321B - 一种基于融合模型的人体姿态估计方法 - Google Patents
一种基于融合模型的人体姿态估计方法 Download PDFInfo
- Publication number
- CN105678321B CN105678321B CN201511025900.2A CN201511025900A CN105678321B CN 105678321 B CN105678321 B CN 105678321B CN 201511025900 A CN201511025900 A CN 201511025900A CN 105678321 B CN105678321 B CN 105678321B
- Authority
- CN
- China
- Prior art keywords
- human body
- model
- estimation method
- fusion
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000003068 static effect Effects 0.000 claims abstract description 7
- 238000001514 detection method Methods 0.000 claims description 5
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 2
- 238000005303 weighing Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 33
- 230000008569 process Effects 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000002414 leg Anatomy 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 210000000689 upper leg Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于融合模型的人体姿态估计方法,其能够充分利用图像特征信息,能够将图像的HOG特征信息和形状特征信息融合,提高了传统图模型结构的人体姿态识别的准确率。包括以下步骤:(1)以人体运动时的二维静态图像为输入数据,获取基于图模型的候选姿态;(2)利用信度函数D‑S融合模型将图像中的特征信息融合,求得最高信度值对应各部位的位置,作为最佳位置,从而获得人体姿态最佳结果。
Description
技术领域
本发明属于计算机视觉和模式识别的技术领域,具体地涉及一种基于融合模型的人体姿态估计方法。
背景技术
人体姿态估计是通过对图像中各种特征进行分析,自动确定人体部位在图像中的位置、方向和尺度的过程,是近年来一个热门的研究方向。在计算机视觉中,计算机只能处理图像的底层信息,然后对其所包含的信息进行推断,从而得到最终结果。但是,人类在认知的过程中并不遵循这一过程,而是依赖于概率、语言以及个人经验。因此,如何能跨域语义鸿沟一直是计算机视觉所研究的重点。人体姿态估计的研究具有重要的理论意义,涉及了计算机视觉多方面的知识。致使人体姿态估计成为重点研究方向的主要原因是电子设备飞速的发展,以及所带来的巨大的市场。人体姿态估计的研究能够应用于视频监控、虚拟现实、图像检索和人机交互等多方面。
目前,面向二维图像的人体姿态估计方法中,基于PS模型的方法占有优势。PS模型是以图形结构来表示部件之间的连接,将人体分为多个刚性部件(头、躯干、一对上臂,一对下臂,一对大腿,一对小腿等),各部位用一个矩形框来定位表示;相邻两部件之间由关节点相连。由此,人体姿态模型主要包分为树形和非树形两种类型,树形结构中人体姿态可表示为L=(l1,l2,…l10),如图1a。如图1b所示,人体树形结构模型,以无向图表示为:
G=(V,E) (1)
其中E为图中所有的边的集合,顶点集合V={v1,v2,v3,...,vn}中的各个元素分别是对应人体刚性部位,若两个人体部位vi和vj相连,则存在边(vi,vj)∈E。2009年SamJohnson等人基于HOG和颜色特征的外观模型的似然度结果重叠作为新的外观模型,但是利用多个特征时图像特征的融合方法过于简单,以至于并不能实现高效的融合。2011年Yang等人提出了基于树形结构,以HOG作为图像的特征向量的人体姿态估计方法,该方法没有充分利用图像中的信息,以致于手臂等部位检测准确率不高。基于以上等原因,寻求一种新的融合理论能够有效地融合图像中的多种特征信息。
发明内容
本发明的技术解决问题是:克服现有技术的不足,提供一种基于融合模型的人体姿态估计方法,其能够充分利用图像特征信息,能够将图像的HOG特征信息和形状特征信息融合,提高了传统图模型结构的人体姿态识别的准确率。
本发明的技术解决方案是:这种基于融合模型的人体姿态估计方法,包括以下步骤:
(1)以人体运动时的二维静态图像为输入数据,获取基于图模型的候选姿态;
(2)利用信度函数D-S融合模型将图像中的特征信息融合,求得最高信度值对应各部位的位置,作为最佳位置,从而获得人体姿态最佳结果。
本发明中将信度函数D-S融合模型用于人体姿态估计,建立图像中多种特征信息的质量函数,对不同的质量函数进行融合,克服了贝叶斯公式的缺点,不必满足概率可加性,允许不确定性和相互矛盾的存在,并且将这些信息保存在质量函数当中,所以能够充分利用图像特征信息,能够将图像的HOG特征信息和形状特征信息融合,提高了传统图模型结构的人体姿态识别的准确率。
附图说明
图1a示出了树形结构中的人体姿态。
图1b是图1a的人体树形结构模型。
图2是根据本发明的基于融合模型的人体姿态估计方法的流程图。
具体实施方式
本发明专注于静态图像的人体姿态估计方法的研究,将Dempster-Shafer融合理论应用于二维人体姿态估计领域,提出了基于D-S融合理论的人体骨架点提取方法。D-S理论是一种数据融合理论,能够结合不同信源的证据,提供了一种不确定性的决策过程。根据D-S理论,引入以下术语:
(1)质量函数:存在一组互斥的假设Θ={θ1,θ2,…,θN},这组假设的全集有2N种可能,定义为P(Θ):
其中,定义了空集。对一个质量函数的概率,定义了一个映射:m:P(Θ)→[0,1],满足
(2)信度函数:给定一个质量函数m,反映了假设A的信度,可定义为:
根据Dempster的正交融合理论规则,将不同信源融合定义为:
其中,⊕是融合符号,mn是An在P(Θ)中所对应的质量函数,K是衡量N个质量函数间的冲突概率。当K=0时,代表了{mn}N n=1中没有冲突;K=1时,代表了{mn}N n=1互相完全对立。K的定义为:
如图2所示,这种基于融合模型的人体姿态估计方法,其特征在于:包括以下步骤:
(1)以人体运动时的二维静态图像为输入数据,获取基于图模型的候选姿态;
(2)利用信度函数D-S融合模型将图像中的特征信息融合,求得最高信度值对应各部位的位置,作为最佳位置,从而获得人体姿态最佳结果。
本发明中将信度函数D-S融合模型用于人体姿态估计,建立图像中多种特征信息的质量函数,对不同的质量函数进行融合,克服了贝叶斯公式的缺点,不必满足概率可加性,允许不确定性和相互矛盾的存在,并且将这些信息保存在质量函数当中,所以能够充分利用图像特征信息,能够将图像的HOG特征信息和形状特征信息融合,提高了传统图模型结构的人体姿态识别的准确率。
优选地,所述步骤(1)中依据图模型方法,将单部件和二元打分之和作为衡量因素,图模型中所求L为各部件的坐标位置;根据公式(6),依次选取得分最高的前M个骨架点l*,作为候选集ΩM
其中,V为图模型中的顶点集合,E为图模型中的边集合li={x,y}为部件i的像素位置,是HOG特征向量,
μ(li-lj)=[dx,dx2,dy,dy2]T,i、j为相邻部件。
优选地,所述步骤(2)包括以下分步骤:
(2.1)计算单部分的HOG特征的质量函数;
(2.2)计算单部分的形状特征的质量函数;
(2.3)将步骤(2.1)和(2.2)的结果融合,取最大信度值作为最佳位置,从而获得人体姿态最佳结果。
优选地,所述步骤(2.1)中根据公式(9)计算单部分的HOG特征的质量函数:
其中,hn(xn)代表了xn所对应的HOG分类器hn的SVM预测函数。
优选地,所述步骤(2.2)中根据公式(10)计算单部分的形状特征的质量函数:
其中,pa是特征点x的检测框中的像素点,τ是判别函数,N是四个相连邻域,一元项c(pa)定义了一个单独的像素偏向于前景或背景的程度,二元项定义了邻域像素点一致度。
优选地,所述步骤(2.3)中根据公式(17)、(18)计算最大信度值
Bel(A,l)反映了假设A的置信度,Bel({1},l)是假设l为所求最佳位置对应的置信度:
l*=Max Bel({1},l) (18)。
以下对本发明进行更详细的说明。
本发明以人体运动时的二维静态图像为输入数据,计算输出人体骨架点(16个)的空间位置。本发明主要过程分为两步:1、基于图模型的候选姿态获取;2、基于表观形状模型的最佳姿态获取,流程图如图2所示。
1、基于图模型的候选姿态获取
依据图模型方法,将单部件和二元打分之和作为衡量因素,图模型中所求L为各部件的坐标位置:
其中,li={x,y}为部件i的像素位置,是HOG特征向量,μ(li-lj)=[dx,dx2,dy,dy2]T,i、j为相邻部件。
根据公式(6),依次选取得分最高的前M个骨架点l*,作为候选集ΩM。
2、基于表观形状模型的最佳姿态获取
在获取候选集后,利用D-S融合理论将图像中的特征信息融合,求得最高信度值对应各部位的位置,即最佳位置,获得人体姿态最佳结果。
对于每个特征点,选择HOG特征和形状特征来描述每个特征点的特征,每种特征分别对应不同的SVM分类器。如此,每个部位有两种信息源的质量函数融合,所以定义了特征信息的判别信息源的全集为:
其中,Θ={-1,1}定义了全集类,{1}代表目标类,{-1}代表非目标类
因此,对第n个特征点的特征信息所对应的质量函数mi(An)可定义为:
其中,i=1,2,δ为不确定度,xn为某个候选集所对应的第n个特征点的位置。
对于每个特征点的HOG特征而言,gn(xn)就是标准化SVM分类置信度,定义为:
其中,hn(xn)代表了xn所对应的HOG分类器hn的SVM预测函数
而对于形状特征,gn(xn)是Xn所对应的形状特征的图像分割能量函数,定义为:
其中,pa是特征点x的检测框中的像素点,τ是判别函数,N是四个相连邻域。一元项c(pa)定义了一个单独的像素偏向于前景或背景的程度,二元项定义了邻域像素点一致度。
为了评判一元项c(pa),需要基于像素的前景/背景模型。对于被检测框,假设每个像素都有一个前景的先验分布pfg(a),用于前景/背景颜色直方图的的建立:
Pr(fg(a))=∑apfg(a)·τ(im(a)=k) (11)
Pr(fg(a))=∑a(1-pfg(a))·τ(im(a)=k) (12)
上式中的im(a)代表了位置a的像素值的二进制码。用了R、G、B三通道各8位表示,所以理论上,k的索引的值域为1~83=512。实际上,每个检测窗中的像素值并达不到如此之高。所以,一元项的负对数概率模型如下:
c(la=1)=-log(Pr(fg(im(a)))) (13)
c(la=0)=-log(Pr(bg(im(a)))) (14)
前景先验概率pfg(a)只隐含的出现在训练前景/背景颜色模型中,相应的,1-pfg(a)为背景先验概率.若给出T张给定标定好的真实数据的训练图像lt,pfg(a)的最大似然估计为样本平均,即
但是,在目前的数据集中并不存在这样的像素分割数据。所以,可以使用正训练集的包围框位置,而得到一个粗糙的包围框的先验概率:
根据D-S融合理论,求得HOG特征对应质量函数m1(A)和形状特征质量函数m2(A),最终的联合质量函数M(A)=m1(A)⊕m2(A)。所以,M(A)对应的的置信函数Bel(A)定义为:
上式中,M()为置信度函数,Bel(A,l)反映了假设A的置信度,所以Bel({1},l)就是假设l为所求最佳位置对应的置信度。因此,用Bel({1},l)作为衡量每个部位的打分,即求得l所在位置时的打分,当取得最高分值时表示l的置信度最高,就是所求的最佳姿态结果,即:
l*=Max Bel({1},l) (18)
对上述模型进行了实验验证,并且取得了明显的效果。在实验中,选用PARSE全身图像数据集,选取l1~l14共14个骨架点,测试100帧静态图像数据,统计了均方根误差(RMS)和最大误差(Max),其数值均以像素为单位。根据实验效果,上文所提到质量函数不确定度δ设置为0.1,形状特征中二元项对应的的γ为常数,取0.4。
本发明与YANG等人提出的方法比较,从RMS和MAX两个标准上都取得了理想的提升。其中,均方根误差RMS=9.0288,YANG等人提出的方法最大误差平均值MAX=113.2148提高至85.9704。同时,设置错误阈值为10个像素点,统计了准确度,平均准确率为84%。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。
Claims (5)
1.一种基于融合模型的人体姿态估计方法,其特征在于:包括以下步骤:
(1)以人体运动时的二维静态图像为输入数据,获取基于图模型的候选姿态;
(2)利用信度函数D-S融合模型将图像中的特征信息融合,求得最高信度值对应各部位的位置,作为最佳位置,从而获得人体姿态最佳结果,具体包括以下步骤:
(2.1)计算单部分的HOG特征的质量函数;
(2.2)计算单部分的形状特征的质量函数;
(2.3)将步骤(2.1)和(2.2)的结果融合,取最大信度值作为最佳位置,从而获得人体姿态最佳结果。
2.根据权利要求1所述的基于融合模型的人体姿态估计方法,其特征在于:所述步骤(1)中依据图模型方法,将单部件和二元打分之和作为衡量因素,图模型中所求L为各部件的坐标位置;根据公式(6),依次选取得分最高的前M个骨架点l*,作为候选集ΩM
其中,V为图模型中的顶点集合,E为图模型中的边集合,li={x,y}为部件i的像素位置,是HOG特征向量,
μ(li-lj)=[dx,dx2,dy,dy2]T,i、j为相邻部件。
3.根据权利要求2所述的基于融合模型的人体姿态估计方法,其特征在于:所述步骤(2.1)中根据公式(9)计算单部分的HOG特征的质量函数:
其中,hn(xn)代表了xn所对应的HOG分类器hn的SVM预测函数。
4.根据权利要求3所述的基于融合模型的人体姿态估计方法,其特征在于:所述步骤(2.2)中根据公式(10)计算单部分的形状特征的质量函数:
其中,pa是特征点x的检测框中的像素点,τ是判别函数,N是四个相连邻域,一元项c(pa)定义了一个单独的像素偏向于前景或背景的程度,二元项定义了邻域像素点一致度。
5.根据权利要求4所述的基于融合模型的人体姿态估计方法,其特征在于:所述步骤(2.3)中根据公式(17)、(18)计算最大信度值
Bel(A,l)反映了假设A的置信度,Bel({1},l)是假设l为所求最佳位置对应的置信度:
l*=Max Bel({1},l) (18)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511025900.2A CN105678321B (zh) | 2015-12-31 | 2015-12-31 | 一种基于融合模型的人体姿态估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511025900.2A CN105678321B (zh) | 2015-12-31 | 2015-12-31 | 一种基于融合模型的人体姿态估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105678321A CN105678321A (zh) | 2016-06-15 |
CN105678321B true CN105678321B (zh) | 2019-06-21 |
Family
ID=56298161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511025900.2A Active CN105678321B (zh) | 2015-12-31 | 2015-12-31 | 一种基于融合模型的人体姿态估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105678321B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110033007B (zh) * | 2019-04-19 | 2022-08-09 | 福州大学 | 基于深度姿态预估和多特征融合的行人衣着属性识别方法 |
CN110728310B (zh) * | 2019-09-27 | 2023-09-01 | 聚时科技(上海)有限公司 | 一种基于超参数优化的目标检测模型融合方法及融合系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1404016A (zh) * | 2002-10-18 | 2003-03-19 | 清华大学 | 融合多视角、多线索二维信息的人脸三维模型的建立方法 |
CN101710421A (zh) * | 2009-11-26 | 2010-05-19 | 西北工业大学 | 基于剪影的二维人体姿态处理方法 |
CN105117694A (zh) * | 2015-08-16 | 2015-12-02 | 北京航空航天大学 | 一种结合旋转不变性特征的单张图片人体姿态估计方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8559671B2 (en) * | 2008-12-18 | 2013-10-15 | The Regents Of The University Of California | Training-free generic object detection in 2-D and 3-D using locally adaptive regression kernels |
-
2015
- 2015-12-31 CN CN201511025900.2A patent/CN105678321B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1404016A (zh) * | 2002-10-18 | 2003-03-19 | 清华大学 | 融合多视角、多线索二维信息的人脸三维模型的建立方法 |
CN101710421A (zh) * | 2009-11-26 | 2010-05-19 | 西北工业大学 | 基于剪影的二维人体姿态处理方法 |
CN105117694A (zh) * | 2015-08-16 | 2015-12-02 | 北京航空航天大学 | 一种结合旋转不变性特征的单张图片人体姿态估计方法 |
Non-Patent Citations (1)
Title |
---|
融合多姿势估计特征的动作识别;罗会兰 等;《中国图象图形学报》;20151130;第20卷(第11期);第1463-1468页 |
Also Published As
Publication number | Publication date |
---|---|
CN105678321A (zh) | 2016-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111274921B (zh) | 一种利用姿态掩模进行人体行为识别的方法 | |
CN108388882B (zh) | 基于全局-局部rgb-d多模态的手势识别方法 | |
JP6411510B2 (ja) | 無制約の媒体内の顔を識別するシステムおよび方法 | |
CN110276264B (zh) | 一种基于前景分割图的人群密度估计方法 | |
CN104156693B (zh) | 一种基于多模态序列融合的动作识别方法 | |
CN111191667B (zh) | 基于多尺度生成对抗网络的人群计数方法 | |
CN106951840A (zh) | 一种人脸特征点检测方法 | |
CN105022982A (zh) | 手部运动识别方法和装置 | |
CN108898063A (zh) | 一种基于全卷积神经网络的人体姿态识别装置及方法 | |
CN110751097B (zh) | 一种半监督的三维点云手势关键点检测方法 | |
CN107392131A (zh) | 一种基于人体骨骼节点距离的动作识别方法 | |
CN107301376B (zh) | 一种基于深度学习多层刺激的行人检测方法 | |
Rao et al. | Sign Language Recognition System Simulated for Video Captured with Smart Phone Front Camera. | |
CN105956552A (zh) | 一种人脸黑名单监测方法 | |
CN113312973A (zh) | 一种手势识别关键点特征提取方法及系统 | |
CN104573612A (zh) | 估计深度图像中重叠的多个人体对象的姿态的设备和方法 | |
CN104537689A (zh) | 基于局部对比显著性联合特征的目标跟踪方法 | |
CN115937626A (zh) | 基于实例分割的半虚拟数据集自动生成方法 | |
CN102521582B (zh) | 一种适用于低对比度视频的人体上半身检测及分割的方法 | |
CN108520529A (zh) | 基于卷积神经网络的可见光和红外视频目标跟踪方法 | |
CN103065302B (zh) | 一种基于离群数据挖掘的图像显著性检测方法 | |
CN105678321B (zh) | 一种基于融合模型的人体姿态估计方法 | |
Huang et al. | Multi‐class obstacle detection and classification using stereovision and improved active contour models | |
CN105741323A (zh) | 一种基于单目视频的人体骨架跟踪方法 | |
CN107122714B (zh) | 一种基于边缘约束的实时行人检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |