CN105224952A

CN105224952A - 基于最大间隔马尔可夫网模型的双人交互行为识别方法

Info

Publication number: CN105224952A
Application number: CN201510646538.4A
Authority: CN
Inventors: 陈昌红; 马丽; 干宗良
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2015-10-08
Filing date: 2015-10-08
Publication date: 2016-01-06
Anticipated expiration: 2035-10-08
Also published as: CN105224952B

Abstract

基于最大间隔马尔可夫网模型的双人交互行为识别方法,包括:采用一种最大间隔方法实现的结构化模型对高层语义建模，通过人工设定少量的特征模板表示交互行为；包括单人语义识别和交互行为识别两个步骤；对双人数据库进行单人跟踪,分别得到交互中的两人,对单人提取能够表征局部外观和局部运动的动作上下文描述符作为底层特征,采用度量学习的方法得到单人原子行为语义；将单人原子行为语义及其所属的交互行为和特征模板结合,训练结构化的最大间隔马尔可夫网得到建模交互行为的模型,利用该模型推断双人的交互行为。该方法能够在跟踪阶段有效排除背景干扰，在交互建模时起到纠错作用，识别效果良好。

Description

基于最大间隔马尔可夫网模型的双人交互行为识别方法

技术领域

本发明属于图像处理技术及模式识别领域，特别涉及基于最大间隔马尔可夫网模型的双人交互行为识别方法。

背景技术

人体行为识别，尤其是日常生活中最常见的人与人之间的交互行为的识别，对于智能监控有着重大意义，是计算机视觉和模式识别领域备受关注的热点和难点。然而，客观环境的多样性以及人体运动的复杂性使得人体行为识别变得异常困难。而目前对于交互行为识别的方法主要体现在对底层特征的空间和时间的结构建模上，对行为识别中的高层语义描述的研究还较少，现存的高层行为语义建模的方法大多比较复杂，需要人工设定大量的规则，因此如何根据底层的特征得到人类可以直接理解的行为语义仍是一个挑战。

在现存的基于高层语义描述的双人交互行为识别算法中，有一系列算法是基于随机文法和马尔可夫逻辑网模型的，随机文法是Ryoo和Aggarwal提出的用于对群体行为的高层语义进行描述，基于文法的方法可以有效地对复杂行为的内部结构进行建模，但是这类方法大多需要人工设定所有可能的产生式规则，工作量过大，而且传统的基于知识和逻辑推理的方法只能进行知识的精确推理，对于输入数据的错误和不确定性无能为力。马尔可夫逻辑网(MarkovLogicNetwork，简称MLN)是将马尔可夫网和一阶逻辑知识库相结合，既能灵活的进行建模，同时又能处理不确定性的情况，但是该模型也需要人工设定大量的规则，模型复杂。

发明内容

现存的高层行为语义建模的方法大多比较复杂，又因为交互行为具有时序性，两人交互动作的发生在时间上有前后之分，针对这两种情况，本发明提出一种相对简单的利用最大间隔算法实现的结构化的高层语义建模方法。该方法包括如下步骤：

步骤1：对双人数据库进行单人跟踪,分别得到交互中的两人,对单人提取能够表征局部外观和局部运动的动作上下文描述符作为底层特征,采用度量学习的方法得到单人原子行为语义；

步骤2：将单人原子行为语义及其所属的交互行为和特征模板结合,训练结构化的最大间隔马尔可夫网得到建模交互行为的模型,利用该模型推断双人的交互行为；

作为本发明的进一步改进,所述步骤1具体包括：

步骤11对双人行为数据库，采用将结构化的局部稀疏模型和可变的模板更新策略想结合的跟踪算法,分别跟踪得到交互的两人；

步骤12对跟踪得到了单人,分别提取剪影、光流特征，将这两种特征融合，计算得到运动上下文描述符，将运动上下文描述符加在剪影和光流特征之后，作为底层特征，用于表示单人行为；

步骤13将提取的单人行为特征分为训练和测试两部分，采用一种新型的度量学习算法-大间隔最近邻模型学习得到一个全局转换矩阵，利用该矩阵在测试部分识别单人原子行为语义；

作为本发明的进一步改进,所述步骤2具体包括：

步骤21设定特征模板和测试文件，测试文件包括单人原子行为语义及其对应的交互行为，特征模板用于表示单人原子行为语义及其对应的交互行为之间的关系；

步骤22将特征模板和测试文件输入到马尔可夫网中，通过最大间隔算法，训练得到能够识别交互行为的模型；

步骤23利用交互行为模型，对于单人识别的原子行为语义进行识别，得到他们所属的交互行为。

作为本发明的进一步改进,剪影和光流的特征描述符的提取具体包括:

光流分为水平和垂直两个通道，为了降低噪声的影响，对每一个通道用中值滤波平滑，剪影作为第三个通道，分别提取这三个通道的直方图：根据剪影计算得到每一帧的边界框的大小，对边界框进行归一化，把边界框分为2x2的子窗口，然后把每个子窗口分为18个扇形区域，每个区域20度，通过整合每一个扇形区域得到各个通道的直方图，每一个为72(2x2x18)维的向量，联合这三个通道的直方图获得一个216维的帧描述符。

作为本发明的进一步改进,动作上下文描述符的提取具体包括:

获得帧描述符之后，在当前帧的前后共取15帧，然后将这15帧分为3块，每一块选取5帧分别代表过去、现在和将来；每一块的5帧描述符堆叠在一起组成一个1080(216x5)维的向量，通过PCA降维将这个块描述符映射到前N个主成分，N分别取10,50,10这三个值，对应于过去、现在和将来的帧块，结果得到一个70维的上下文描述符。

有益效果

在交互行为识别中，目前的方法主要体现在对底层特征的空间和时间的结构建模上，而对于人类可以直接理解的高层行为语义建模的方法大多比较复杂。本发明提出一种利用最大间隔方法实现的结构化的高层语义建模方法，通过人工设定少量的特征模板表示交互行为。本方法将交互行为识别分为原子行为识别和交互行为识别两大层次，在原子行为识别阶段，通过单人跟踪算法，能有效的排除背景的干扰，使待识别的行为更纯净，在行为识别中，由于底层的视觉特征提取和中层的原子行为识别都可能存在误差和错误，本发明的高层语义建模建模方法能有效的对原子行为语义进行纠错，从而得到正确的交互行为识别结果。本方法不需要人工设定复杂的规则并且其实施简单，能够很好的识别双人交互行为，对于未来视频监控的交互行为预测具有重要作用。

附图说明

图1发明的主流程图。

图2跟踪得到的单人数据库。

图3特征提取的过程。

图4原子行为的识别结果。

图5交互行为的识别结果。

图6本方法和Hough-voting以及key-pose方法的比较。

具体实施方式

下面结合附图和实例对本发明作进一步说明。

如图1是基于最大间隔马尔可夫网模型的双人交互行为的识别过程,包括如下步骤：

步骤1：分别对训练视频序列和测试视频序列的双人数据库进行单人跟踪,分别得到交互中的两人,对单人提取能够表征局部外观和局部运动的动作上下文描述符作为底层特征,采用度量学习的方法得到训练视频序列和测试视频序列的单人原子行为语义；

步骤2：对于训练视频序列,将单人原子行为语义及其所属的交互行为和特征模板相结合,训练结构化的最大间隔马尔可夫网得到建模交互行为的模型,对于测试视频序列,利用该模型推断双人的交互行为。

步骤1单人原子行为语义识别的过程包括：

步骤11基于结构化的局部外观稀疏模型的跟踪算法，具体的操作过程有：

(1)给定一组目标模板的图像集合T＝[T₁,T₂,...,T_n]；

(2)在目标区域内进行重叠的空域采样，得到一组图像块作为词典，如：

D＝[d₁,d₂,...,d_nxN]∈R^dx(nxN)(1)

其中，d是图像块向量的维度，n是目标模板的个数，N是每个模板内的局部图像块的个数；

(3)对于待检测的区域，用相同的方式得到：

Y＝[y₁,y₂,...,y_N]∈R^dxN(2)

(4)通过式

\begin{matrix} \min | | y_{i} - {Db}_{i} | |_{2}^{2} + λ | | b_{i} | |_{1} \\ s . t . b_{i} &GreaterEqual; 0 \end{matrix} - - - (3)

可以得到每个图像块y_i对应的稀疏编码系数b_i；

(5)根据b_i，得到一个目标区域内的局部图像块系数的加权向量v_i，

v_{i} = \frac{1}{C} Σ_{k = 1}^{n} b_{i}^{(k)}, i = 1, 2, ..., N - - - (4)

(6)所有的局部图像块的加权向量v_i构成方阵V，f＝diag(V)；

(7)方阵V的对角线元素f即为校准对齐的特征，因为每个待检测区域中的第个图像块都应该由模板中的对应区域最佳描述，所以取主对角线作为特征。

如图2是在UT数据库上跟踪得到的单人数据库,包括五种交互动作:握手、拥抱、踢、拳击、推搡。

步骤12提取运动上下文描述符。具体的操作过程有：

(1)提取剪影，首先对每幅单人图像求所有的连通域的面积及其对应的标号，然后将连通域的面积从大到小进行排列，如果第一大面积和第二大面积之差大于A(本文A＝1000)，则最大面积对应标号的连通域为前景色，其余的连通域为背景色；否则，第一大面积和第二大面积对应标号的连通域为前景色，剩下的为背景色。

(2)光流分为水平和垂直两个通道，为了降低噪声的影响，对每一个通道用中值滤波平滑，得到水平和垂直两个分量，二值的剪影作为第三个通道。然后分别提取这三个通道的直方图,具体方法为：首先根据边界框的大小，把每一帧分为2x2的子窗口；然后再将每个子窗口分为18个扇形区域，每个区域20度，扇形区域的中心位于子窗口的中心，并且每个扇形区域之间没有重叠；最后通过整合每一个扇形区域得到各个通道的直方图，每一个为72(2x2x18)维的向量，联合这三个通道的直方图获得一个216维的帧描述符，既局部特征描述符。

(3)在当前帧的前后共取15帧，然后将这15帧分为3块，每一块选取5帧分别代表过去、现在和将来。由于5x3刚好为1秒长的一个序列(每秒15帧)，故把窗口值的大小设为5帧。每一块的5帧描述符堆叠在一起组成一个1080(216x5)维的向量，通过PCA降维将这个块描述符映射到前N个主成分，N分别取10,50,10这三个值，对应于过去、现在和将来的帧块，结果得到一个70维的上下文描述符，将其附加在当前帧描述符上形成了最终的286维的运动上下文描述符，图3为特征提取过程。

步骤2.交互行为建模和识别：

步骤21设定特征模板和测试文件，测试文件包括单人原子行为语义及其对应的交互行为，特征模板用于表示单人原子行为语义及其对应的交互行为之间的关系，特征模板设置如下：一共21个模板，包含以下6种基本特征：

(a)C_n0,n0＝-2,-1,0,1,2；

(b)C_n0C_n0+1,n0＝-2,-1,0,1；

(c)C_n1,n1＝-2,-1,0,1,2；

(5)

(d)C_n1C_n1+1,n1＝-2,-1,0,1；

(e)C_n1C_n1+1C_n1+2,n1＝-2,-1,0；

(f)T(-1)T(0)

其中，C_n0表示要识别的目标，n0表示以当前目标C₀₀为参照的相对位移，C_n1表示要识别的目标的行为语义，n1表示以当前语义为参照的相对位移，T(-1)T(0)表示前一个人所属的交互行为和当前人所属的交互行为相关联，实验时采用这6种基本的特征表示当前人的行为。

步骤22将特征模板和测试文件输入到马尔可夫网中，通过最大间隔算法，训练得到能够识别交互行为的模型，最大间隔算法是通过训练找到使错分类的间隔最大的参数w，按照最大间隔原则，M3N模型参数训练所对应的原始优化问题和对偶优化问题分别如下：

原始优化问题：

\begin{matrix} \min \frac{1}{2} | | w | |^{2} + C \underset{x}{Σ} ξ_{x} \\ s . t . W^{T} {Δf}_{i} (y) &GreaterEqual; {Δt}_{x} (y) - ξ_{x}, &ForAll; x, y . \end{matrix} - - - (6)

对偶优化问题：

\begin{matrix} \max \underset{x, y}{Σ} α_{x} (y) {Δt}_{x} (y) - \frac{1}{2} | | \underset{x, y}{Σ} α_{x} (y) {Δf}_{x} (y) | |^{2} \\ s . t . \underset{y}{Σ} α_{x} (y) = C, &ForAll; x; α_{x} (y) &GreaterEqual; 0, &ForAll; x, y \end{matrix} - - - (7)

步骤23利用交互行为模型，对于单人识别的原子行为语义进行识别，得到他们所属的交互行为，利用维特比算法，找到最高概率得分的标签：

h_{w} (x) = {argmax}_{y} Σ_{k = 1}^{n} w_{k} f_{k} (x, y) = {argmax}_{y} W^{T} f (x, y) - - - (8)

本发明的有效性可通过以下仿真实验进一步说明：

UT双人交互数据库是由ICPR提供，是目前使用较多的双人行为识别数据库，所以本文采用了这个数据库作为实验。它包含了两种数据库，第一种是在一个停车场上拍摄，其中每个视频的变焦比几乎相同，背景大部分是静止的，摄像机抖动极小；第二个数据库相对复杂，是在一个有风草坪上拍摄，背景有轻微的变动(例如，树的晃动)，并且摄像机有抖动。这两个数据库一共涉及到六种交互行为，其中由于“指向”这个动作没有太大的实际意义，故只选取了握手、拥抱、踢打、拳击、推搡等五种交互动作用于实验，每个数据库中的每种交互动作由10组人表演，实验过程中五种交互动作分为了六种单人原子动作：伸手，张开双臂，躲避，踢腿、出拳、推。对所有的序列，本文计算他们的识别率以及混淆矩阵。

实验结果可以通过图4及图5观测到。图4给出了两个数据库上的单人原子行为的识别结果的混淆矩阵，可以看出在第一个数据库上背景简单，干扰较少，单人动作识别取得的良好的效果，第二个数据库尽管由于有一些干扰、抖动和光照的影响，效果较第一个数据库稍差，但除了出拳这一动作，其他的原子行为依然得到了令人满意的识别结果。这是因为在对单人跟踪的过程中，能够有效的排除场景中的一些背景干扰，大大改善单人动作识别的效果，而在第二个数据库中出拳这一动作之所以识别效果不是特别理想，通过观察和实验发现，出拳这一个动作样本过少，增大出拳这一动作的训练集，识别率会相应提高。图5给出了最终的双人交互识别结果，可以看出在第二个数据库上拳击效果较差，拳击主要是错分为了推搡，这是因为拳击和推搡这两种交互动作在有手臂相互遮挡的情况下难以进行区分，尽管如此，识别的总体效果是令人满意的，在图6中将本算法和另外两种方法进行了比较，验证了本方法整体上效果较好，说明该方法是有效的。

上面描述仅是本发明的一个具体实施例，显然在本发明的技术方案指导下本领域的任何人所作的修改或局部替换，均属于本发明权利要求书限定的范围。

Claims

1.基于最大间隔马尔可夫网模型的双人交互行为识别方法，其特征是，该方法包括如下步骤：

步骤1对双人数据库进行单人跟踪,分别得到交互中的两人,对单人提取能够表征局部外观和局部运动的动作上下文描述符作为底层特征,采用度量学习的方法得到单人原子行为语义；

步骤2将单人原子行为语义及其所属的交互行为和特征模板结合,训练结构化的最大间隔马尔可夫网得到建模交互行为的模型,利用该模型推断双人的交互行为。

2.根据权利要求1所述的双人交互行为识别方法，其特征是，所述步骤1具体包括：

步骤12对跟踪得到了单人,分别提取剪影、光流特征，将这两种特征融合，计算得到运动上下文描述符，然后将运动上下文描述符加在剪影和光流特征之后，作为底层特征，用于表示单人行为；

步骤13将提取的单人行为特征分为训练和测试两部分，采用一种新型的度量学习算法,大间隔最近邻模型学习得到一个全局转换矩阵，利用该矩阵在测试部分识别单人原子行为语义；

3.根据权利要求1所述的双人交互行为识别方法，其特征是，所述步骤2具体包括：

步骤23利用训练得到的交互行为模型，对于单人识别得到的原子行为语义进行识别，得到他们所属的交互行为。

4.根据权利要求书2所述的双人交互行为识别方法，其特征是，所述剪影和光流的特征描述符的提取:

5.根据权利要求书2所述的双人交互行为识别方法，其特征是，所述动作上下文描述符的提取:

获得帧描述符之后，在当前帧的前后共取15帧，然后将这15帧分为3块，每一块选取5帧分别代表过去、现在和将来；每一块的5帧描述符堆叠在一起组成一个1080(216x5)维的向量，通过PCA降维将这个块描述符映射到前N个主成分，N分别取10,50,10这三个值，对应于过去、现在和将来的帧块，结果得到一个70维的上下文描述。