一种基于双层条件随机场的人体行为识别方法
技术领域
本发明涉及计算机视觉行为识别技术领域,特别是一种基于双层条件随机场(Double-layer conditional random fields model for human action recognition,DL-CRFs)的人体行为识别方法。
背景技术
视频序列中的人体行为识别是一项涉及计算机视觉、模式识别及人工智能等多领域的研究课题,因其在商业、医疗和体育等领域中广泛的应用价值,一直是人们研究的热点。
文献[Koppula H S,Gupta R,Saxena A.Learning Human Activities andObject Affordances from RGB-D Videos[J].International Journal of RoboticsResearch,2013,32(8):951-970.]根据人体行为的复杂程度将人体行为分为高级行为(high-level activity)和简单行为(action)。简单行为指过程中最多只有一个交互物体的不可分割的行为,一般持续时间很短,例如:接触、放置、打开、关闭等。高级行为指由一系列连续的简单行为构成的复杂行为,例如烹饪食物,它一般包含了打开(微波炉)、接触(食物)、移动(食物)、放置(食物)、关闭(微波炉)。同时,这说明对于视频中一个序列的简单行为,具有两层意义的相关性:简单行为内部潜在的相关性,例如移动食物,移动水杯,不同的交互物体具有不同含义,并且有些交互物体不具备移动特性,例如只有关闭或者打开门,而不能移动(门);一系列的连续简单行为之间具有相关性,例如关闭(微波炉)一定是在打开(微波炉)之后的某一时刻发生。所以当以识别简单行为通过建模上述两层意义的相关性,提高人体行为识别的准确率。
近几年,针对室内场景视频的人体简单行为识别研究(以下均称为行为识别研究)主要使用概率图模型的方法对人体行为进行分类解析。根据学习方法的不同,常见的概率图模型主要分为两种结构:生成模型和判决模型。生成模型:首先建模样本数据的联合概率分布p(x,y),然后再得到条件概率p(y|x),常见的生成模型有:隐马尔可夫模型(HiddenMarkov Model)、贝叶斯网络(DBNs)、半马尔可夫模型(Semi-Markov Models)。生成模型明显的不足之处在于,当输入的样本数据之间存在较为复杂的相关性时,联合分布的建模将变得复杂甚至不准确。相反,判决模型对条件概率p(y|x)建模,例如隐条件随机场(HiddenCRFs)、环状条件随机场(Loopy CRFs),它不需要考虑输入样本数据之间的复杂性,就可以衍生出准确而有效的推断。因此对于视频序列的人体行为识别,判决模型有利于融合从视频中提取的不同特征。
在判决模型中,线性条件随机场由于可以运用精确推理方法计算,有效、稳健而备受欢迎,但是它只能捕捉人体行为状态之间的低阶相关性,而不能有效的捕捉目标行为状态内部的潜在结构和人体行为状态之间的高阶相关性,例如物体与行为在空间维结构信息、行为与行为之间在时间维上的语义信息。所以,现有的行为识别研究加入隐状态来建模行为复杂的语义信息。实验结果证明通过判别模型中隐状态确实捕捉到行为的语义信息,从而提高行为识别的准确。文献[Hu N,Englebienne G,Lou Z,et al.Learning latentstructure for activity recognition[C]//IEEE International Conference onRobotics and Automation.IEEE,2014:1048-1053.]从RGB-D视频中提取人体姿态特征和物体信息,通过在条件随机场模型加入隐状态来捕捉视频中人体行为的上下文语义信息。文献[Wang L,Qiao Y,Tang X.La-tent Hierarchical Model of Temporal Structurefor Complex Activity Classification.[J].IEEE Transactions on Image ProcessingA Publication of the IEEE Signal Processing Society,2014,23(2):810.]提出了一种将子行为作为隐状态来识别复杂的高级行为的分层模型。文献[Chatzis S P,DemirisY.The Infinite-Order Conditional Random Field Model for Sequential DataModeling[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2013,35(6):1523-1534.]提出了一种无穷阶条件随机场对序列化数据建模,同时使用了一种序列记忆(sequence memorizer)的方法建模标签序列中无穷阶的相关性。然而上述现有的基于概率图模型的行为识别方法,都未曾同时考虑人体行为状态内部的潜在结构和人体行为状态之间的高阶相关性,仍然存在识别准确率低的问题。
发明内容
本发明所要解决的技术问题是克服现有技术的不足而提供一种基于双层条件随机场的人体行为识别方法,将人体姿态和交互物体作为预测行为标签的内部的潜在结构——中间状态,建立一个包含底层输入数据、中间状态和预测行为标签的底层条件随机场,以丰富人体行为内部的潜在结构;将全局特征作为顶层输入数据,建立顶层输入数据和预测行为标签的顶层条件随机场,以捕捉行为之间的高阶相关性;最终构成完整的双层条件随机场模型。
本发明为解决上述技术问题采用以下技术方案:
根据本发明提出的一种基于双层条件随机场的人体行为识别方法,包括以下步骤:
步骤A、获取包含人体行为RGB视频信息和深度信息的RGB-D训练视频样本,并将每个训练视频样本分割为多个连续的视频段;
步骤B、从获取得到的深度信息中提取出行为动作主体人的人体骨架结构信息;联合RGB视频信息和人体骨架结构信息两种数据源,从中提取人体姿态特征、交互物体的形状和位置特征,以及人体和交互物体的相对位置特征;对上述特征进行处理得到行为表示特征和全局特征;
步骤C、构建行为表示特征、人体姿态和交互物体组成的中间状态、预测行为标签序列三部分链接而成的底层条件随机场;构建全局特征和预测行为标签序列链接而成的顶层条件随机场,结合底层和顶层条件随机场构建完整视频段的双层条件随机场模型;
步骤D、将步骤C建立的双层条件随机场模型融合为一个线性的概率图模型,并对该线性的概率图模型应用精确推理方法计算出最优的预测行为标签序列;
步骤E,利用最大-间隔算法,加入精确推理的过程,通过标准的结构化SVM学习步骤D中得到的线性的概率图模型的最优参数;
步骤F,根据步骤C构建的双层条件随机场模型和步骤E学习得到的最优参数,输入测试视频样本的数据,从而识别出测试视频样本中对应的行为标签。
作为本发明所述的一种基于双层条件随机场的人体行为识别方法进一步优化方案,所述步骤B中:
联合RGB视频信息和人体骨架结构信息两种数据源,从中提取人体姿态特征、交互物体的形状和位置特征,以及人体和交互物体的相对位置特征,将上述特征串联后得到的行为表示特征x={x1,···,xt,···,xT}作为底层输入数据,其中,1≤t≤T,T表示分割视频段的数目,xt表示第t个视频段的行为表示特征;
将交互物体完全出现或部分出现在各个视频段中的得分串联,得到的全局特征xa作为顶层输入数据。
作为本发明所述的一种基于双层条件随机场的人体行为识别方法进一步优化方案,所述步骤C中人体姿态和交互物体组成的中间状态,采用k-means聚类法处理底层输入数据,经过十次k-means聚类,初始化中间状态ht和ot;其中,ht和ot分别表示第t个视频段的人体姿态和交互物体。
作为本发明所述的一种基于双层条件随机场的人体行为识别方法进一步优化方案,所述步骤C中双层条件随机场模型的势能函数ψ(y,h,o,x,xa;ω),其具体表示如下:
其中,t表示训练视频样本分割后的第t个视频段,xa表示该训练样本的全局特征,ω1、ω2、ω3、ω4均表示模型的参数,yt表示第t个视频段的预测行为标签;表示xt与联合状态(yt,ht,ot)的依赖性,为xt到特征空间的映射函数;ω2(yt,ht,ot)表示联合状态(yt,ht,ot)内部的yt和ht、ot的耦合性;ω3(ht,ot)表示ht和ot的相关性;ω4(yt-1,yt,xa)表示在xa的限制条件下yt-1和yt的相关性。
作为本发明所述的一种基于双层条件随机场的人体行为识别方法进一步优化方案,所述步骤D中计算出最优的预测行为标签序列,所述最优的预测行为标签序列为:
其中,Y表示训练视频样本的行为标签序列的集合。
作为本发明所述的一种基于双层条件随机场的人体行为识别方法进一步优化方案,求解对双层条件随机场模型进行以下推理过程:
将双层条件随机场模型中的yt,ht,ot合并为联合状态(yt,ht,ot),因此底层的模型结构看作一个线性条件随机场;由于底层和顶层具有相同的输出,因此将底层和顶层两个条件随机场融合为一个线性结构;从而求解最优的预测行为标签序列转变为递归的动态规划过程:
将此过程遍历整个视频,记录每次势能函数得到最大得分时的y1,···yt,···yT-1,,最后得到第T视频段的预测行为标签:再由得到行为预测行为标签反向递推第T-1视频段的预测行为标签以此类推直至得到
作为本发明所述的一种基于双层条件随机场的人体行为识别方法进一步优化方案,所述步骤E包含以下子步骤:
步骤E1,概率图模型的最优参数ω由下述正则项表达式计算:
其中,λ为均衡权重值,N表示训练视频样本的总数,yi、分别表示第i个训练视频样本的实际行为标签序列和预测行为标签序列,表示和yi差异的损失函数;
步骤E2,对进行边缘化替代,求出的上边界,将计算参数ω变成如下凸最优化问题:
其中,松弛变量ξi表示第i个训练视频样本的替代损失函数,Y表示训练视频样本的行1标签序列的集合,hi、oi、xi、分别表示第i个训练视频样本的人体姿态、交互物体、行为表示特征、全局特征;
步骤E3,将损失函数作为概率图模型中的额外的一部分因子,采用步骤D中精确推理方法计算和采用结构化支持向量机SSVM求解上述凸最优化问题。
作为本发明所述的一种基于双层条件随机场的人体行为识别方法进一步优化方案,所述步骤A具体如下:采用Kinect深度传感器获取人体行为的RGB-D训练视频样本;将每个训练视频样本分割为具有统一长度的多个连续的视频段。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明基于双层条件随机场的人体行为识别方法,在建模时引入并增加了当前行为动作相关因素内部的潜在结构和序列行为动作之间的高阶相关性,对行为动作过程中包含的人体外形差异、复杂场景和交互物体等都具有显著的鲁棒性,在一定程度上能提高人体行为动作的识别准确度。
附图说明
图1是本发明基于双层条件随机场的人体行为识别方法的流程图示意图。
图2是本发明提出的双层条件随机场的模型示意图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
为解决背景技术中提出的问题,本发明引入双层条件随机场模型(DL-CRFs),通过底层和顶层两个模块分别同时捕捉人体行为状态内部的潜在结构和人体行为状态之间的高阶相关性。
如图1所示是本发明基于双层条件随机场的人体行为识别方法的流程图示意图:
步骤A、获取包含人体行为RGB视频信息和深度信息的RGB-D训练视频样本,并将每个训练视频样本分割为多个连续的视频段。
步骤B,特征提取:利用OpenNI从获取得到的深度信息中提取出行为动作主体人的人体骨架结构信息。联合RGB视频信息和人体骨架结构信息两种数据源,从中提取人体姿态特征、交互物体的形状和位置特征,以及人体和交互物体的相对位置特征;对上述特征进行处理、得到行为表示特征和全局特征;
步骤B1,将人体姿态特征、交互物体的形状和位置特征,以及人体和交互物体的相对位置特征,串联后得到的行为表示特征作为底层输入数据。
步骤B2,将交互物体完全出现或部分出现在各个视频段中的得分串联,得到的全局特征作为顶层输入数据。
步骤B3,采用现有的k-means聚类法[Y.Zhuang,Y.Rui,T.S.Huang,andS.Mehrotra,"Adaptive key frame extraction using unsupervised clustering."pp.866-870]处理底层输入数据,经过十次k-means聚类,初始化中间表示变量ht和ot,其中,T表示分割视频段的数目,xt表示第t个视频段的行为表示特征
步骤C,DL-CRFs模型构建:构建当行为表示特征、人体姿态和交互物体组成的中间状态、预测行为标签三部分链接而成的底层条件随机场;构建全局特征和预测行为标签序列链接而成的顶层条件随机场,结合底层和顶层条件随机场构建完整视频段的双层条件随机场模型。
结合图2定义双层条件随机场模型的目标函数和势能函数。针对底层(Bottomlayer)输入数据x、顶层(Top layer)输入数据xa,其对应的目标层(Target-state layer)的行为标签序列y的概率可以表示为如下目标函数:
其中,ψ(y,h,o,x,xa;ω)∈R为双层条件随机场模型的势能函数,衡量x、xa、中间层(Intermediate layer)的人体姿态h和交互物体o,以及预测行为标签序列y之间的相关性,ω为模型参数。为实现底层和顶层条件随机场的作用,势能函数ψ(y,h,o,x,xa;ω)由两部分组成:
其中,t=1,···,T表示训练视频样本分割后的第t个视频段,ω1、ω2、ω3、ω4均表示模型的参数,xt、yt、ht、ot分别表示第t个视频段的行为表示特征、预测行为标签、人体姿态和交互物体,
步骤C1,在底层条件随机场中,首先直接建模行为表示特征与中间状态、预测行为标签之间的依赖性,从而避免其他任何条件假设;其次建模预测行为标签和中间状态的耦合性;最后建模人体姿态和交互物体之间相关性。
1.行为表示特征xt和中间状态、预测行为标签的联合状态(yt,ht,ot)的依赖性:
其中,为输入数据xt到特征空间的映射函数。
2.预测行为标签yt和中间状态ht和ot的耦合性:
ψ2(yt,ht,ot;ω2)=ω2(yt,ht,ot) (4)
3.人体姿态ht和交互物体ot之间相关性:
ψ3(ht,ot;ω3)=ω3(ht,ot) (5)
步骤C2,在顶层条件随机场中,建模在全局特征xa的限制下当前时刻的预测行为标签yt与前一时刻的预测行为标签yt-1之间的相关性:
ψ4(yt-1,yt,xa;ω4)=ω4(yt-1,yt,xa) (6)
步骤D、模型推理:将双层条件随机场模型中的yt,ht,ot的联合状态(yt,ht,ot)看做一个整体,不考虑其内部结构,底层结构将变为线性条件随机场,所以提出双层条件随机场模型可以看作由底层和顶层两个线性条件随机场组成,通过公式(5),我们将底层和顶层融合为一个整体的线性结构,因此精确推理在我们模型中是可控制的。
在给定图模型和参数ω的情况下,通过精确推理找出能够最大化目标函数的y:
直接对公式(7)求解是一个N-P难题,本发明根据线性条件随机场的维特比解法,将公式(7)转变为递归的动态规划问题:
y0是初始值,设为0;
将此过程迭代整个视频,计算势能函数的最大得分并记录每次迭代结果y1,···yt,···yT-1,,最后得到第T个视频段的预测行为标签
根据公式(8)再反向推到出依次类推得到整个视频段的预测行为标签序列
步骤E,DL-CRFs参数学习:采用最大-间隔算法(Max-margin),学习所构造的双层条件随机场模型的参数。在训练数据集中包含N组训练视频样本,xi、yi和分别表示第i个训练视频样本的行为表示特征、实际行为标签序列和全局特征。
步骤E1,本发明中模型学习的目的为找出最优的模型参数ω,使得预测行为标签和实际标签的差异最小。为防止过拟合现象,本发明给出对应的正则项表达式:
其中λ为均衡权重值,表示由公式(7)所获得的第i个训练视频样本的预测行为标签序列。表示第i训练视频样本的预测行为标签序列和实际行为标签序列差异的损失函数。具体表示为:
其中,Ti表示第i个训练视频样本分割视频段的数目,分别表示第i训练视频样本的第t个视频段的实际行为标签和预测行为标签。
步骤E2,对进行边缘化替代,求出的上边界。故而将计算模型参数ω变成如下凸最优化问题:
其中,松弛变量ξi表示第i个训练视频样本的替代损失函数,Y表示训练视频样本的行为标签序列的集合,hi、oi、xi、分别表示第i个训练视频样本的人体姿态、交互物体、行为表示特征、全局特征。
步骤E3,将损失函数作为概率图模型中的额外的一部分因子,采用步骤D中精确推理方法计算和然后采用结构化支持向量机(Structural-Support Vector Machine,SSVM)求解上述凸最优化问题。
步骤F、将测试视频样本经过步骤A、B处理,得到相应的测试视频样本的数据,根据步骤C建模的双层条件随机场和步骤E学习得到的参数,输入测试视频样本的数据,从识别出测试视频样本中对应的行为标签。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。