CN107491735B

CN107491735B - 人类行为识别的标签和交互关系联合学习方法

Info

Publication number: CN107491735B
Application number: CN201710593912.8A
Authority: CN
Inventors: 王振华; 金佳丽; 刘盛; 张剑华; 陈胜勇
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2017-07-20
Filing date: 2017-07-20
Publication date: 2020-08-18
Anticipated expiration: 2037-07-20
Also published as: CN107491735A

Abstract

一种用于人类行为识别的标签和交互关系联合学习方法，包括以下步骤：1)，使用CNN特征、HOG特征、HOF特征及人与人之间的距离、头部朝向等信息构造能量函数，包含一元能量项、二元能量项、交互能量项和正则化项；2)使用大间隔结构化学习训练所有模型参数；3)标签和交互关系预测，使用交替搜索策略求解复杂推理问题，在迭代中交替优化标签和交互结构。本发明适用于包含多人、多行为类别的图像和视频，能够同时识别个人行为和人与人之间的交互行为。

Description

人类行为识别的标签和交互关系联合学习方法

技术领域

本发明属于计算机视觉中的行为识别领域，涉及一种人类的行为识别方法。该发明在识别个人行为的同时判断人之间的交互。

背景技术

识别图像或视频中的人类行为在计算机视觉中是一个基本的问题，这在许多应用如运动视频分析，监控系统和视频检索中至关重要。最近的工作中，深度学习明显提高了行为识别的性能。然而，这些工作不适用于处理包含多人互动的数据。首先，他们专注于分给每个图像一个行为标签，这不适用于包含多个行为类别的图像。第二，他们忽视了人之间的相互关系为识别复杂的人类活动像握手，战斗和足球比赛等提供了重要的语境信息。

为了表示人之间的交互，大多数CRF模型使用预定义的图形结构，通常使用领域知识或启发式方法来确定其结构，例如，人之间的距离，但是其对数据变化和成像条件的变化不敏感。使用这样的图通常导致不良的识别性能。更好的策略是从数据中学习CRF图。然而，人类交互结构通常是多样化的，这使得传统的图学习方法无效。Lan等提出通过潜在的结构化SVM来联合估计个人行为和交互，其中交互被视为隐含变量，这导致非凸的训练问题。

发明内容

为了克服已有的人类行为识别方式无法适用于多个行为类别的图像、无法识别交互行为的不足，以及交互作为隐含变量导致非凸的训练问题的缺点，本发明提供了一种人类行为识别的标签和交互关系联合学习方法，适用于包含多个行为类别的图像，能够在不使用隐含变量的情况下共同学习互动和个人行为的全新的训练框架，并提出了一种有效解决相应推理问题的算法。

本发明解决其技术问题所采用的技术方案是：

一种用于人类行为识别的联合标签交互学习的方法，所述方法包括以下步骤：

1)构造能量函数

令G＝(V，E)表示图，其中节点集V表示所有人的个人行为，边集E表示他们的交互信息，例如，e_ij∈E表示人i和人j之间有交互，而边e_st的缺失则表示人s与人t之间没有交互。I表示一张图像，

是人i的个人行为标签，a＝[a_i]_{i＝1，…，n}是包含n个人的个人行为标签的向量；

给定一个新的输入I，目标是通过解决以下的问题(1)来预测个人行为标签a和交互信息G；

其中

其中

是一个指示函数，如果a_i＝s,它的值为1，反之则为0；当e_ij＝z时指示函数

的值为1，反之则为0；同样地，当a_i＝s且a_j＝t时，指示函数

为1，反之为0；

2)训练模型的参数

训练样本集

G^k＝(V^k，E^k)，边集E^k表示在第k张训练样本的图片中，人之间的真实的交互信息，e^k是E^k的向量形式，使用下面的最大边距式公式来训练所有的模型参数w＝[w^u，w^c，w^τ，w^r，ω^s]：

标签代价，即错误预测的惩罚为：

其中δ(·)是指示函数，当测试情况为真时取1，反之为0；m表示人的个数；

3)解决推理问题

通过固定参数θ来解决推理问题(1)，初始化e为一个全连接的结构，在每次迭代中，首先固定图结构e，用

表示，然后解决剩余的问题：

通过OpenGM包中的Tree-reweighted消息传递接口来解决这个问题；

用

来表示a的当前解，把

代入公式(1)，推理问题缩减为：

重整方程式(12)，得到下面的形式：

每个e_ij和所有的余下的变量e没有相互作用，因此e_ij的最佳值仅依赖于它的系数值，最小化关于变量e的表达式，如果

的值为负，e_ij的最佳值为1；如果

的值不为负，e_ij的最佳值为0。

本发明提出一个框架来同时学习交互关系和个人行为，这个框架使用从深层神经网络学到的特征和人类交互环境等信息构建了一个势函数。避免了训练函数的非凸性，并提出一种迭代的方法来有效并近似地解决相应的推理问题。

本发明的有益效果主要表现在：适用于包含多个行为类别的图像，能够同时识别个人行为和交互。

具体实施方式

下面对本发明作进一步描述。

一种用于人类行为识别的联合标签交互学习的方法，包括以下步骤：

1)构造能量函数

令G＝(V，E)表示图，其中节点集V表示所有人的个人行为，边集E表示他们的交互信息，例如，e_ij∈E表示人i和人j之间有交互，而边e_st的缺失则表示人s与人t之间没有交互，I表示一张图像，

是人i的个人行为标签，a＝[a_i]_{i＝1，...，n}是包含n个人的个人行为标签的向量；

其中

其中

的值为1，反之则为0；同样地，当a_i＝s且a_j＝t时，指示函数

为1，反之为0；

一元能量项θ_i；s的定义如下：

其中w_u是一元能量函数的权重项，

是指示向量，在s这个位置时取1，其他情况都为0，p_i；s是把标签s分配给i时的判别得分。为了计算这个判别得分，把通过深度卷积神经网络(CNNs)学到的特征、人身体区域的HOG和HOF特征串联起来，训练一个支持向量机(SVM)分类器；

二元能量项的定义如下：

其中w_c衡量两个交互的人的个人行为标签s和t之前的兼容性，

是指示向量，在下标是(l_i，j，p_i，p_j，s，t)的位置取1，其他情况下取0.

表示人i和人j之间的相对距离，定义为：

设r_i，r_j是人i和j的包围框的宽度，设d_i，j是这些成对包围框的中心的欧几里得距离，计算h_i，j为：

在方程式(5)中，

表示从训练样本中筛选的所有的交互项(i，j)的平均值；

像一般的行为识别做的，把人的头部朝向分为5类，分别为{profile-left，profile-right，frontal-left，frontal-right，backwards}，为了确定每个人的头部朝向，使用手工特征和ConvNet学到的特征，训练了一个线性大间隔分类器。

考虑到人之间交互的存在，此能量项规定了负的信任值。定义如下：

w_τ是得分项p_i，j；z的权重项，表示两个人(i，j)之间有(z＝1)无(z＝0)交互的可能性。为了得分项p_i，j；z，使用从人i和j的包围框区域提取的特征，再次训练一个SVM分类器，这边使用的特征表示和用来计算p_i；s用的特征表示是类似的。1_τ(z)∈{0，1}²是指示向量，在z的位置取1，其他情况取0；

w_r评估交互信息(由z编码)，相对距离l_i，j和头部朝向p_i，p_j之间的兼容性。此项的目的是利用语境线索来提高交互和非交互识别的判别能力；当根据得分p_i，j；z得到的预测不正确时，方程式(7)中的第二项可以用来纠正预测结果；

在方程式(1)中引入的正则项定义如下：

其中θ₀＝w_s，w_s∈R。当松弛变量e∈{0，1}为e∈[0，1]此正则项满足L₁正则化的定义。因此，使用此项来加强稀疏的人交互的学习；

2)训练模型的参数

假设有一个训练样本集

标签代价，即错误预测的惩罚为：

其中δ(·)是指示函数，当测试情况为真时取1，反之为0。m表示人的个数，问题(9)是凸的，可以通过切平面算法解决；

3)解决推理问题

通过固定参数θ来解决推理问题(1)，因为这个问题是NP问题，一般而言，是不可能得到它的全局解的。一种方法是松弛方程使之变成一个线性规划问题(通过引入许多辅助变量)，然后通过分支界定法来解决这个松弛后的问题。然而使用交替搜索策略来解决这个推理问题；

在迭代中交替优化标签空间和交互结构空间，初始化e为一个全连接的结构，在每次迭代中，首先固定图结构e，用

表示，然后解决剩余的问题：

可以通过OpenGM包中的Tree-reweighted消息传递接口来解决这个问题；

用

来表示a的当前解，把

代入公式(1)，推理问题缩减为：

重整方程式(12)，得到下面的形式：

的值为负，e_ij的最佳值为1；如果

的值不为负，e_ij的最佳值为0。

本发明提出了一种在联合框架中学习人类互动及其个人行为标签的方法。使用深度神经网络特征和上下文语义信息，以监督的方式学习个人行为和交互。使用大间隔结构化学习方法来学习模型参数，并提出了一种有效的优化算法来解决相关推理问题，提出的方法大大优于基准方法，与已知最好结果相比具有很强的竞争力。

Claims

1.一种用于人类行为识别的联合标签交互学习的方法，其特征在于：所述方法包括以下步骤：

1)构造能量函数

令G＝(V，E)表示图，其中节点集V表示所有人的个人行为，边集E表示他们的交互信息，e_ij∈E表示人i和人j之间有交互，而边e_st的缺失则表示人s与人t之间没有交互，I表示一张图像，

给定一个新的输入I，目标是通过解决以下的问题(1)来预测个人行为标签a和交互信息E；

其中

其中

是一个指示函数，如果a_i＝s，它的值为1，反之则为0；当e_ij＝z时指示函数

的值为1，反之则为0；同样地，当a_i＝s且a_j＝t时，指示函数

为1，反之为0；

一元能量项θ_i；s的定义如下：

其中w_u是一元能量函数的权重项，

是指示向量，在s这个位置时取1，其他情况都为0，p_i；s是把标签s分配给i时的判别得分，为了计算这个判别得分，把通过深度卷积神经网络学到的特征、人身体区域的HOG和HOF特征串联起来，训练一个支持向量机分类器；

二元能量项的定义如下：

是一个指示向量，在(s，t，l_i，j，p_i，p_j)对应的位置取1，其它位置均为0，

表示人i和人j之间的相对距离，定义为：

在方程式(5)中，

表示从训练样本中筛选的所有的交互项(i，j)的平均值；

像一般的行为识别做的，把人的头部朝向分为5类，分别为{profile-left，profile-right，frontal-left，frontal-right，backwards}，为了确定每个人的头部朝向，使用手工特征和ConvNet学到的特征，训练了一个线性大间隔分类器；

考虑到人之间交互的存在，θ_ij；z规定了负的信任值，定义如下：

w_τ是得分项p_i，j；z的权重项，表示两个人(i，j)之间有无交互的可能性，有交互时z＝1，无交互时z＝0，为了计算得分项p_i，j；z，使用从人i和j的包围框区域提取的特征，再次训练一个SVM分类器，这边使用的特征表示和用来计算p_i；s用的特征表示是一致的，1_τ(z)∈{0，1}²是指示向量，在z的位置取1，其他情况取0；

w_r评估交互信息由z编码，相对距离l_i，j和头部朝向p_i，p_j之间的兼容性，此项的目的是利用语境线索来提高交互和非交互识别的判别能力；当根据得分p_i，j；z得到的预测不正确时，方程式(7)中的第二项可以用来纠正预测结果；

在方程式(1)中引入的正则项定义如下：