CN109948483B

CN109948483B - 一种基于动作和面部表情的人物交互关系识别方法

Info

Publication number: CN109948483B
Application number: CN201910171315.5A
Authority: CN
Inventors: 王中元; 江恒烜; 韩镇; 梁超
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-03-07
Filing date: 2019-03-07
Publication date: 2022-03-15
Anticipated expiration: 2039-03-07
Also published as: CN109948483A

Abstract

本发明公开了一种基于动作和面部表情的人物交互关系识别方法，包括人体交互行为识别过程、人脸面部表情识别及交互人物关系挖掘。在人体交互行为识别过程中，使用基于个体分离的识别分类技术，采用先分离后融合的特征融合方法有效提升交互行为识别精度。在人脸面部表情识别过程中，采用基于深度卷积网络的特征抽取方法获得具有鲁棒性的人脸特征，然后使用概率分布函数实现人脸表情分类。最后结合人物的交互动作及交互时的表情，提取出了交互双方的行为语义关系。本发明可以有效的根据发生交互动作时的行为及双方面部表情判断出两者的社会行为关系，在社会安全领域具有实际应用价值。

Description

一种基于动作和面部表情的人物交互关系识别方法

技术领域

本发明属于计算机视觉技术领域，涉及一种视频数据中人物交互关系的识别方法，具体涉及一种基于动作和面部表情的人物交互关系识别方法。

技术背景

视频中的人物是构成视频内容的主要实体，过去的研究只是停留把每个人物看做独立个体进行研究，忽略了他们之间客观存在的社会联系。通过人物典型动作识别及关联人物交互行为分析，识别视频中的人物关系，有助于挖掘视频更深层的语义，达到准确侦测感兴趣人物间互动行为类型的目的。同时，方便用户更高效地组织、检索视频，从新的角度来解读视频内容。

人物之间的对立、友好关系在监控视频的案件侦查、影视视频的故事情节解析中具有重要作用。视频人物之间的交互动作及发生互动行为时的面部表情能够揭示人物之间的对立或友好关系，如握手或拥抱行为更可能反映出二者之间的友好关系，而踢打或推搡行为反映的是对立关系。但有些交互动作并没有明确的人物语义关系信息(如指手)，甚至没有明确的交互动作行为发生(如谈话)，这种情况下单凭交互动作行为识别人物关系存在困难，但此时人物之间的面部表情可作为对立、友好关系抽取的依据，愤怒表情更多地暗示二者之间的对立关系而高兴表情则更多表明出友好关系。

深度学习技术促进了基于视频的人体动作和表情识别的发展。研究人员已经使用卷积神经网络识别人体动作，通过架构不同卷积神经网络结构，可以获得不同的人体行为识别功能，通常将传统卷积神经网络拓展到具有时间信息的3D卷积神经网络，在视频数据的时间维度和空间维度上进行特征计算，并使用光流数据捕获运动信息。而对于更加复杂的视频交互行为识别而言，常用的识别方法可分为两类：基于整体的交互行为识别方法和基于人物分割的交互行为识别方法。基于整体的交互行为识别方法更多关注于发生交互动作时的动作细节，以及背景变化对识别精度的影响。而基于人物分割的识别方法对单人肢体细节有更多的考量。研究人员发现，在背景相对静止的情形下，基于个体分割的交互行为识别方法表现出更为鲁棒的识别精度。

人脸表情是最直接、最有效的情感识别模式，在现实生活中有很多实际的应用，例如疲劳驾驶检测、手机端实时表情识别等。交互双方在发生交互行为时的面部表情能较好的反映出两人当前所蕴含的情感。故此，可以考虑将人脸表情识别作为判断交互双方间行为关系的有利依据。

现有的交互行为识别仅可实现特定行为分类，但无法直接有效的判断出交互双方的行为关系，而交互双方的面部表情可以作为判断交互双方关系的一个良好补充。因此，结合动作及面部表情的方法可以有效的提取出交互行为中蕴含的语义信息。对于交互行为识别，可以采用基于人物分割的交互行为识别方法来实现相关行为分类。对于面部表情识别，可以采用深度学习对人脸特征进行有效建模。

发明内容

为了准确判断交互双方间的社会行为关系，本发明开拓性地提出了一种融合动作和面部表情的人物交互关系识别方法。

本发明所采用的技术方案是：一种基于动作和面部表情的人物交互关系识别方法，其特征在于，包括以下步骤：

步骤1：使用基于个体分割的方式实现交互行为识别分类；

具体实现包括以下子步骤：

步骤1.1：将公开交互行为数据集拆分为训练集与验证集，并使用水平翻转、像素变化等方法对训练数据进行数据扩充以保证训练结果的泛化性；

步骤1.2：对于每一条输入的视频序列，使用随机缩放、随机裁剪并加以正则化约束的方法完成数据预处理过程，并以处理完成的数据作为训练网络的输入；

步骤1.3：针对步骤1.2中得到的视频序列，检测并追踪视频帧中的交互个体，得到相关交互人物在相应视频帧中的边界框，根据获得的边界框实现交互人物个体的视频段分割；

步骤1.4：结合步骤1.3中获得的视频段及经步骤1.1处理后的交互行为数据集，实现对交互个体及全局特征的特征表达构建；

步骤1.5：对于步骤1.4中得到的交互个体及全局特征的特征表达，预设N类动作类别，使用Softmax概率分类器完成类别分类，并使用交叉熵作为损失函数，通过不断缩小损失函数数值，以此完成训练网络的迭代优化；

步骤1.6：重复步骤1.5，直至训练网络至收敛；

步骤2：构建深度学习网络，实现基于人脸的面部表情识别；

具体实现包括以下子步骤：

步骤2.1：将公开人脸表情数据集按对应表情标签完成数据集分类，数据集中共包含生气、开心、恐惧、厌恶、伤心、中性等6种表情类型；

步骤2.2：对图像中的人脸进行检测与识别，并将检测到的人脸图像统一重塑为设定像素值；

步骤2.3：搭建深度卷积神经网络，将步骤2.1中分类完成的数据集作为卷积神经网络的输入；

步骤2.4：训练深度卷积神经网络,并对深度卷积神经网络进行循环迭代；

步骤2.5：重复步骤2.4，直至深度卷积神经网络收敛；

步骤3：融合步骤1及步骤2相关特征，挖掘交互双方的行为语义关系；

具体实现包括以下子步骤：

步骤3.1：执行步骤1，以实现交互动作的识别分类；

步骤3.2：利用步骤2中的人脸表情识别方法，对步骤3.1中发生交互动作个体检测交互双方的面部表情；

步骤3.3：根据步骤3.1分类动作，对两者关系进行判别；

步骤3.4：重复步骤3.3，得出交互双方的行为语义关系判别。

与现有的动作识别或表情识别方案相比，本发明具有以下的优点与积极效果：

(1)本发明能够从交互动作中提取更高层次的交互关系的语义信息，契合了社会安全防范应用的需求。

(2)通本发明过融合肢体动作及面部表情提高了人物交互行为关系的识别的可靠性，有效弥补了因交互动作的语义信息不确定时的交互关系判别的不足。

附图说明

图1：本发明实施例的流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施案例对本发明做进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种视频数据中人物交互关系的识别方法，包括以下步骤：

步骤1：基于个体分割的方法实现交互动作识别分类(以UT-Interaction数据集为例)；

步骤1.1：在步骤1.1中，采用N-fold留一验证的方式，将公开交互行为数据集拆分为训练集与验证集，并应用水平翻转及随机剪裁两种数据增广方案实现训练数据的扩充以保证训练结果的泛化性。对于每一条输入的视频序列，均将其缩放至L*128*144，然后将每个视频序列随机剪裁至L*112*128，并以此作为训练网络的输入大小，其中L表示每个视频数据集的总帧数。此外，为了减少光照或者背景对识别精度的影响，通过计算视频帧中每个像素的标准差来实现图像的正则化。

视频像素标准差计算公式为：

其中，d表示每张视频帧的维度，l表示一个视频序列中的帧数量，w表示每张视频帧的宽度，h表示每张视频帧的高度，N则表示视频数据总量。μ和Std分别表示所有训练视频的平均值和标准差。P(Norm)表示视频帧经过正则化后的实际像素值。P(d,l,w,h)表示视频帧的像素值。

步骤1.2：针对步骤1.1中得到的视频序列，采用方向梯度直方图(HOG)融合支持向量机(SVM)的方法来检测视频帧中的交互个体。并使用Kalman滤波来追踪视频帧中的行人，通过视频追踪技术，得到相关交互人物在相应视频帧中的边界框，根据获得的边界框实现交互人物个体的视频段分割。

步骤1.3：结合步骤1.2获得的视频段及经步骤1.1处理的交互行为数据集，运用基于3D卷积的ResNet网络实现对交互个体及全局特征的特征表达构建。

步骤1.4：对于步骤1.3中得到的交互个体及全局特征的特征表达，使用Softmax分类器将动作类别设置成N类(本实施例中，N值取值为6)，并使用交叉熵作为损失函数，通过不断缩小损失函数数值，以此完成训练网络的迭代优化。

步骤1.5：重复步骤1.4，直至训练模型至收敛。

步骤2：基于深度学习的面部表情识别；

步骤2.2：使用公开人脸识别库Opencv实现图像中的人脸检测与识别。对于检测到的人脸使用几何归一化技术，通过双线内插值算法将图像统一重塑为48*48像素。

步骤2.3：建立深度卷积神经网络，将步骤2.1中分类好的数据集作为深度卷积神经网络的输入。在建立深度卷积神经网络的过程中，为增强网络的表达能力的同时尽可能减少计算量，在输入层之后添加1*1卷积层以增加非线性表示、加深网络深度，在每个卷积层后添加BN层，以减少深度卷积神经网络过拟合的风险。

步骤2.4：训练深度卷积神经网络，在训练过程中使用SGD作为深度卷积神经网络的优化算法，激活函数选用ReLu。选用批尺寸为128以实现深度卷积神经网络的循环迭代。

步骤2.5：重复步骤2.4，直至深度卷积神经网络收敛。

步骤3：人物交互关系融合判别；

步骤3.1：完成步骤1，以实现交互动作的识别分类。

步骤3.2：利用步骤2中的人脸表情检测技术对步骤3.1中发生交互动作个体检测交互双方的面部表情。

步骤3.3:若步骤3.1分类动作为握手或拥抱等，则表征两者为友好关系。反之，若分类动作表现为踢打、推搡等，则两者关系反映为对立关系，而针对于无法准确反应交互人物关系的行为如交谈、指手等，则返回步骤3.2对发生交互动作个体检测交互双方的面部表情，若两者表情为开心、惊讶等积极表情，则判别为友好关系。若表情为愤怒、害怕等消极表情，则两者关系为对立。

步骤3.4：重复步骤3.3，得出交互双方的行为关系判别。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于动作和面部表情的人物交互关系识别方法，其特征在于，包括以下步骤：

步骤1：使用基于个体分割的方式实现交互行为识别分类；

具体实现包括以下子步骤：

步骤1.1：将公开交互行为数据集拆分为训练集与验证集，并使用水平翻转、像素变化等方法对训练数据进行扩充，以保证训练结果的泛化性；

步骤1.6：重复步骤1.5，直至训练网络至收敛；

步骤2：构建深度学习网络，实现基于人脸的面部表情识别；

具体实现包括以下子步骤：

步骤2.1：将公开人脸表情数据集按对应表情标签完成数据集分类，数据集中共包含生气、开心、恐惧、厌恶、伤心、中性6种表情类型；

其中，在建立模型的过程中，为增强网络的表达能力的同时尽可能减少计算量，在输入层之后添加1*1卷积层以增加非线性表示、加深网络深度，在每个卷积层后添加BN层，以减少模型过拟合的风险；

步骤2.5：重复步骤2.4，直至深度卷积神经网络收敛；

具体实现包括以下子步骤：

步骤3.1：执行步骤1，以实现交互动作的识别分类；

步骤3.3：根据步骤3.1分类动作，对两者关系进行判别；

步骤3.4：重复步骤3.3，得出交互双方的行为语义关系判别。

2.根据权利要求1所述的基于动作和面部表情的人物交互关系识别方法，其特征在于：在步骤1.1中，采用N-fold留一验证的方式，将公开交互行为数据集拆分为训练集与验证集，并应用水平翻转及随机剪裁两种数据增广方案实现训练数据的扩充以保证训练结果的泛化性。

3.根据权利要求1所述的基于动作和面部表情的人物交互关系识别方法，其特征在于：步骤1.3中，对于每一条输入的视频序列，均将其缩放至L*128*144，然后将每个视频序列随机剪裁至L*112*128，并以此作为训练网络的输入大小，其中L表示每个视频数据集的总帧数；此外，为了减少光照或者背景对识别精度的影响，通过计算视频中每个像素的标准差来实现图像的正则化；

其中视频中每个像素的标准差计算公式为：

其中，d表示每张视频帧的维度，l表示一个视频序列中的帧数量，w表示每张视频帧的宽度，h表示每张视频帧的高度，N则表示视频数据总量；μ和Std分别表示所有训练视频的平均值和标准差；P(Norm)表示视频帧经过正则化后的实际像素哈值，P(d,l,w,h)表示视频帧的像素值。

4.根据权利要求1所述的基于动作和面部表情的人物交互关系识别方法，其特征在于：步骤1.4中，对于公开交互行为数据集采用方向梯度直方图融合支持向量机的方法来检测视频帧中的交互个体；并使用Kalman滤波来追踪视频帧中的行人，通过视频追踪技术，得到相关交互人物在相应视频帧中的边界框，根据获得的边界框实现交互人物个体的视频段分割。

5.根据权利要求1所述的基于动作和面部表情的人物交互关系识别方法，其特征在于：步骤1.5中，运用基于3D卷积的ResNet网络实现对交互个体及全局特征的特征表达构建。

6.根据权利要求1所述的基于动作和面部表情的人物交互关系识别方法，其特征在于：步骤1.6中，使用ADAM模型优化算法完成模型的优化迭代。

7.根据权利要求1所述的基于动作和面部表情的人物交互关系识别方法，其特征在于：步骤2.2中，使用公开人脸识别库Opencv实现图像中的人脸检测与识别，对于检测到的人脸使用几何归一化技术，通过双线内插值算法将图像统一重塑为48*48像素。

8.根据权利要求1所述的基于动作和面部表情的人物交互关系识别方法，其特征在于：步骤2.4中，在训练过程中使用SGD作为模型的优化算法，激活函数选用ReLu，选用批尺寸为128以实现模型的循环迭代。

9.根据权利要求1-8任意一项所述的基于动作和面部表情的人物交互关系识别方法，其特征在于：步骤3.3中，若步骤3.1分类动作为握手或拥抱，则表征两者为友好关系；若分类动作表现为踢打、推搡，则两者关系反映为对立关系；而针对于无法准确反应交互人物关系的行为，则返回步骤3.2对发生交互动作个体检测交互双方的面部表情，若两者表情为积极表情，则判别为友好关系，若表情为消极表情，则两者关系为对立。