CN106815600B

CN106815600B - 用于人类行为识别的深度联合结构化和结构化学习方法

Info

Publication number: CN106815600B
Application number: CN201611223815.1A
Authority: CN
Inventors: 王振华; 金佳丽; 陈胜勇; 刘盛; 张剑华
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2016-12-27
Filing date: 2016-12-27
Publication date: 2019-07-30
Anticipated expiration: 2036-12-27
Also published as: CN106815600A

Abstract

一种用于人类行为识别的深度联合结构化和结构化学习的方法，包括以下步骤：1)构造联合结构和结构公式化；2)使用空间网络从图像中的人体区域提取深层卷积神经网络特征，将空间网络的fc6层的输出作为深度特征，使用梯度直方图和光流直方图特征来进一步增强特征表示；CNN，HOG和HOF特征被连接以表示图像中的个人行为或交互关系，使用这种特征为每个数据集训练两个线性支持向量机分类器，使用组合特征来计算公式(1)中的联合特征；3)训练模型的参数；4)训练和预测中的相关推理，在训练的每次迭代期间，针对每个训练示例解决损失增强推理。本发明适用于多个行为类别的图像、能够识别交互行为。

Description

用于人类行为识别的深度联合结构化和结构化学习方法

技术领域

本发明属于计算机视觉中的行为识别领域，涉及一种人类的行为识别方法。

背景技术

识别图像或视频中的人类行为在计算机视觉中是一个基本的问题，这在许多应用如运动视频分析，监控系统和视频检索中至关重要。最近的工作中，深度学习明显提高了行为识别的性能。然而，这些工作不适用于处理包含多人互动的数据。首先，他们专注于分给每个图像一个行为标签，这不适用于包含多个行为类别的图像。第二，他们忽视了人之间的相互关系为识别复杂的人类活动像握手，战斗和足球比赛等提供了重要的语境信息。

发明内容

为了克服已有人类的行为识别方式的无法适用于多个行为类别的图像、无法识别交互行为的不足，本发明提供了一种适用于多个行为类别的图像、能够识别交互行为的用于人类行为识别的深度联合结构化和结构化学习方法。

本发明解决其技术问题所采用的技术方案是：

一种用于人类行为识别的深度联合结构化和结构化学习的方法，所述方法包括以下步骤：

1)构造联合结构和结构公式化

假设有一组n个训练样本I表示一张图像，a是图像中所有人的行为标签的集合；如果图像包含m个个体，则a＝[a₁,…,a_m]，矩阵E＝(e_ij)∈{0,1}^m×m是一个严格的上三角矩阵，表示图像中所有个体的相互关系结构；e_ij＝0意味着在人i和人j之间没有交互，而e_ij＝1指示人i和人j彼此交互；

为了预测a和E，最大化下面的潜在函数：

这里w＝[w₀，w₁，w₂]^T是训练期间要学习的模型参数，函数φ(·)，μ(·)和ψ(·)用于计算三种类型的联合特征，φ给出了图像和行为标签的联合特征；μ计算所述图像和所述交互标签e的联合特征；ψ输出图像和两个个体的行为标签a的联合特征表示；

2)特征表示

使用空间网络从图像中的人体区域提取深层卷积神经网络CNN特征，将空间网络的fc6层的输出作为深度特征，使用梯度直方图HOG和光流直方图特征HOF来进一步增强特征表示；CNN，HOG和HOF特征被连接以表示图像中的个人行为或交互关系，使用这种特征为每个数据集训练两个线性支持向量机分类器，一个用于分类个人行为，另一个用于分类交互关系，使用组合特征来计算公式(1)中的联合特征，为此，计算

这里d_α，d_∈是用训练好的SVM分类器分类包含个人行为和交互关系得到的决策值表示的向量，并且所有运算符表示基于向量的元素计算；

s_α(a)表示一个人的行为为a的判别分数。s_∈(e)表示1两个人有交互的判别分值或不在交互的分值，公式(1)中的联合特征由下式定义：

φ(I，a)＝1_α(a)·S_α(a) (4)

μ(I，a)＝1_∈(e)·S_∈(e) (5)

ψ(I，a_i，a_j)＝1_τ(a_i，a_j，p_i，p_j，r_ij) (6)

这里1_α(a)∈{0，1}^a是指示符向量，在位置a时取值1，，其他位置取0的。同样，1_∈(e)在位置e取1，在别处取0，1_τ(·)在索引位置a_i，a_j，p_i，p_j，r_ij时取1，其中p_i，p_j表示人i和人j的姿势，r_ij表示人j与人i的相对位置；为了计算r_ij，将围绕人j的区域划分为六个子区域，并且每个子区域被分配一个相对位置，r_ij是包围边界框i的中心的子区域的ID；

3)训练模型的参数

给定n个训练样本，使用max-margin-style公式进行训练：

这里ξ表示松弛变量，C是确定增加模型复杂性和减少对训练数据的不正确预测之间的权衡的常数；标签成本，即不正确预测的惩罚由下式给出：

其中δ(·)是指示功能，如果测试条件为真则给出1，否则输出0；

4)训练和预测中的相关推理

在训练的每次迭代期间，针对每个训练示例解决以下损失增强推理：

由于潜在函数F的表达，成本项Δ被吸收到公式(1)中的两个一元项中，因此，问题(10)与优化是同质的：

进一步，所述步骤4)中，交替搜索标签空间和结构空间，在每次迭代期间，算法依次执行以下两个步骤：

4.1)固定结构并通过循环信任传播解决剩余问题，以找到的解；

4.2)固定标签并解决剩余的整数线性规划ILP问题(11)，找到的解；

其中a^*表示在第一步骤中发现的解，向(11)中添加两种类型的约束，这导致另外两个ILP问题：

其中||Z||₀是Z的L₀范数；

(11)，(12)，(13)分别是没有约束的，最大边数约束和节点度约束的ILP问题，分别用ILP-NoC，ILP-MNE和ILP-NDC表示；

对于每对(i，j)_{i，j∈{1，…，m}，i＜j}，考虑输出

如果V₀＞V₁，设置e_ij＝0，否则把(i，j)放到候选队列中；接下来，根据候选的V₁值以降序对数组进行排序，然后从头到尾访问这个数组，对于当前对(s，t)，如果在ILP-NDC中没有违反约束，设置e_st＝1；否则设置e_st＝0。

本发明提出一个简单但有效的框架，以有监督的方式，来联合学习人类互动结构和结构化标签。为此，通过深层神经网络学习特征表达式来表示个人行为和交互行为，并提出了一种高效的推理算法来估计标签和图形结构。

本发明的有益效果主要表现在：适用于多个行为类别的图像、能够识别交互行为。

具体实施方式

下面对本发明作进一步描述。

一种用于人类行为识别的深度联合结构化和结构化学习的方法，包括以下步骤：

1)构造联合结构和结构公式化

假设有一组n个训练样本这里I表示一张图像，a是图像中所有人的行为标签的集合。如果图像包含m个个体，则a＝[a₁，…，a_m]。矩阵E＝(e_ij)∈{0，1}^m×m是一个严格的上三角矩阵，表示图像中所有个体的相互关系结构。具体地，e_ij＝0意味着在人i和人j之间没有交互，而e_ij＝1指示人i和人j彼此交互。事实上，a和E可以被认为是对人类活动的直接描述。通过这种表示，识别系统不仅能够回答问题1)他们在做什么，而且能够回答问题2)它们之间的相互作用关系是什么。

为了预测a和E，最大化下面的潜在函数：

这里w＝[w₀，w₁，w₂]^T是训练期间要学习的模型参数。函数φ(·)，μ(·)和ψ(·)用于计算三种类型的联合特征。φ给出了观察信息(即图像)和行为标签的联合特征；μ计算所述图像和所述交互标签e的联合特征；ψ输出图像和两个个体的行为标签a的联合特征表示。在该公式中，任何成对特征可以通过将二进制变量e_ij打开(e_ij＝1或关闭(e_ij＝0)来包括或排除。直观地，从上述模型中排除成对项(通过设置e＝0)表示相关人没有彼此交互。包括这样的项不是信息性的，并且将使模型的训练复杂化。这个模型的目的是获得行为标签和交互关系的联合优化。例如，如果知道人u和人v正在交互，将他们的行为标签预测为(握手-握手)而不是(握手-吻)更合理。

公式(1)在两个方面表现新颖。首先，添加新项(即第二项)来促进交互结构的学习。这种简单的修改使得能够更好地识别个人行为和交互关系，部分是因为与之前仅使用高级特征的方法相比，它结合高级信息(即公式(1)中的第三项)和低级特征(即第二项)来明确地估计结构。第二，用深层卷积神经网络计算联合特征，其能力在人类行为识别中没有得到很好的探索。总的来说，此公式优于公共数据集的最好方法。

2)特征表示

通过深层卷积神经网络(CNN)学习到的特征和手工制作的特征相结合。使用空间网络从图像中的人体区域提取CNN特征。空间网络捕获了静止图像的静态外观。由于其良好的性能，将空间网络的fc6层的输出作为深度特征。使用梯度直方图和光流直方图(HoG和HoF)特征来进一步增强特征表示。HoF是从相邻帧中提取的，这是对不捕获运动线索的CNN特征和HoG特征的良好补充。为了计算HoF，提取扭曲光流。最后，CNN，HOG和HOF特征被连接以表示图像中的个人行为或交互关系。使用这种特征为每个数据集训练两个线性支持向量机(SVM)分类器，一个用于分类个人行为，另一个用于分类交互关系。注意，其目的是使用组合特征来计算公式(1)中的联合特征。为此，计算

这里d_α，d_∈是用训练好的SVM分类器分类包含个人行为和交互关系得到的决策值表示的向量，并且所有运算符表示基于向量的元素计算。

s_α(a)表示一个人的行为为a的判别分数。s_∈(e)表示1两个人有交互的判别分值(当e＝1时)或不在交互的分值(当e＝0时)。公式(1)中的联合特征由下式定义：

φ(I，a)＝1_α(a)·S_α(a) (4)

μ(I，a)＝1_∈(e)·S_∈(e) (5)

ψ(I，a_i，a_j)＝1_τ(a_i，a_j，p_i，p_j，r_ij) (6)

这里1_α(a)∈{0，1}^a是指示符向量，在位置a时取值1，，其他位置取0的。同样，1_∈(e)在位置e取1，在别处取0，1_τ(·)在索引位置a_i，a_j，p_i，p_j，r_ij时取1，其中p_i，p_j表示人i和人j的姿势，r_ij表示人j与人i的相对位置。在本文中，将人体姿势分为五类，即p∈{profileleft，profile right，frontal left，frontal right，backwards}。为了计算r_ij，将围绕人j的区域划分为六个子区域，并且每个子区域被分配{overlap，adjacentleft(right)，nearleft(right)，far}中的一个相对位置。r_ij是包围边界框i的中心的子区域的ID。

3)训练模型的参数

给定n个训练样本，目的是训练用于行为识别的判别模型。如通常所做的，使用以下的max-margin-style公式进行训练：

这里ξ表示松弛变量，C是确定增加模型复杂性和减少对训练数据的不正确预测之间的权衡的常数。确定“最佳”C的常见策略是交叉验证。标签成本，即不正确预测的惩罚由下式给出：

其中δ(·)是指示功能，如果测试条件为真则给出1，否则输出0。

把这种公式称为联合结构和结构化学习(JSSL)，因为它打算同时学习结构标签a和交互结构E。很容易发现公式(7)是凸的，可以通过切平面算法或基于子梯度的方法有效地求解w。

4)训练和预测中的相关推理

在训练的每次迭代期间，必须针对每个训练示例解决以下损失增强推理：

由于潜在函数F的表达，成本项Δ可以被吸收到公式(1)中的两个一元项中。因此，问题(10)与下面的优化是同质的：

知道训练的模型w，这个优化实际上是预测问题。换句话说，可以使用相同的算法来解决损失增加的推断和预测问题。然而，这种优化通常是NP完全问题。引入多个辅助变量和约束，可以把它近似到双线性规划问题。本发明提出一个简单而有效的算法来近似解决这样的问题。

本发明的算法交替搜索标签空间和结构空间。在每次迭代期间，算法依次执行以下两个步骤：

1.固定结构并通过循环信任传播解决剩余问题，以找到的解。

2.固定标签并解决剩余的整数线性规划(1LP)问题(11)，找到的解。

其中a^*表示在第一步骤中发现的解。为了确保稀疏性，我们向(11)中添加两种类型的约束，这导致另外两个ILP问题：

其中||Z||₀是Z的L₀范数。

实际上，(11)，(12)，(13)分别是没有约束的，最大边数约束和节点度约束的ILP问题，分别用ILP-NoC，ILP-MNE和ILP-NDC表示。很容易发现ILP-NoC和ILP-MNE是容易解决的，总是能找到确切的解决方案。

本发明近似解决ILP-NDC。该算法维护交互的候选阵列。对于每对(i，j)_{i，j∈{1，…，m}，i＜j}，考虑输出

如果V₀＞V₁，设置e_ij＝0，否则把(i，j)放到候选队列中。接下来，根据候选的V₁值以降序对数组进行排序。然后从头到尾访问这个数组。对于当前对(s，t)，如果在ILP-NDC中没有违反约束，设置e_st＝1；否则设置e_st＝0。

本发明提出了一个联合学习交互结构和结构化标签的方法。本发明的公式基于低级图像信息和高级上下文信息，以监督的方式明确地学习人类交互关系。本发明已经包括通过深层卷积神经网络学习的特征，并且发现这样的特征能够增强对人类个人行为和交互的识别。使用max-margin-style训练方法来学习模型参数，并提出了一种有效的算法来解决相关的推理问题。

Claims

1.一种用于人类行为识别的深度联合结构化和结构化学习的方法，其特征在于：所述方法包括以下步骤：

1)构造联合结构和结构公式化

为了预测a和E，最大化下面的潜在函数：

这里w＝[w₀,w₁,w₂]^T是训练期间要学习的模型参数，函数φ(·),μ(·)和ψ(·)用于计算三种类型的联合特征，φ给出了图像和行为标签的联合特征；μ计算所述图像和所述交互标签e的联合特征；ψ输出图像和两个个体的行为标签a的联合特征表示；

2)特征表示

这里d_α,d_∈是用训练好的SVM分类器分类包含个人行为和交互关系得到的决策值表示的向量，并且所有运算符表示基于向量的元素计算；

s_α(a)表示一个人的行为为a的判别分数，s_∈(e)表示两个人有交互的判别分值或不在交互的分值，公式(1)中的联合特征由下式定义：

φ(I,a)＝1_α(a)·S_α(a) (4)

μ(I,e)＝1_∈(e)·S_∈(e) (5)

ψ(I,a_i,a_j)＝1_τ(a_i,a_j,p_i,p_j,r_ij） (6)

这里1_α(a)∈{0,1}^a是指示符向量，在位置a时取值1，其他位置取0的，同样，1_∈(e)在位置e取1，在别处取0，1_τ(·)在索引位置a_i,a_j,p_i,p_j,r_ij时取1，其中p_i,p_j表示人i和人j的姿势，r_ij表示人j与人i的相对位置；为了计算r_ij，将围绕人j的区域划分为六个子区域，并且每个子区域被分配一个相对位置，r_ij是包围边界框i的中心的子区域的ID；

3)训练模型的参数

给定n个训练样本，使用max-margin-style公式进行训练：

4)训练和预测中的相关推理

2.如权利要求1所述的用于人类行为识别的深度联合结构化和结构化学习的方法，其特征在于：所述步骤4)中，交替搜索标签空间和结构空间，在每次迭代期间，算法依次执行以下两个步骤：

其中||Z||₀是Z的L₀范数；

对于每对(i,j)_{i,j∈{1,…,m},i＜j}，考虑输出

如果V₀>V₁，设置e_ij＝0，否则把(i,j)放到候选队列中；接下来，根据候选的V₁值以降序对数组进行排序，然后从头到尾访问这个数组，对于当前对(s,t)，如果在ILP-NDC中没有违反约束，设置e_st＝1；否则设置e_st＝0。