CN112329648B

CN112329648B - 基于面部表情交互的人际关系行为模式识别方法

Info

Publication number: CN112329648B
Application number: CN202011237259.XA
Authority: CN
Inventors: 刘秋实; 赵长宽; 张昱; 陈默; 于戈
Original assignee: 东北大学
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2023-08-08
Anticipated expiration: 2040-11-09
Also published as: CN112329648A

Abstract

本发明提供一种基于面部表情交互的人际关系行为模式识别方法，首先从给定的视频序列中分离出特定的表情交互序列，并利用动态时间规整算法计算每一表情交互序列的共情度量值，用来构建样本集，然后采用长短期记忆网络模型对采集的双人交互数据进行训练，通过输入表情交互序列，判断双方当前的具体人际关系行为模式，本发明采用长短期记忆网络模型作为训练模型，同时引入共情这一概念，提出对其进行量化的方法，将其量化值融入到模型中，进一步提高了模型的识别准确率。

Description

基于面部表情交互的人际关系行为模式识别方法

技术领域

本发明计算机视觉技术领域，具体涉及一种基于面部表情交互的人际关系行为模式识别方法。

背景技术

一直以来，基于视觉的人的行为识别是一个非常活跃的研究领域，在人的行为识别中，人与人交互行为识别是一个重要组成部分。目前，双人交互行为识别的研究在智慧教育、智能安防、视频监控领域中有很大的应用前景，尤其是多种神经网络模型的提出推动了深度学习技术在双人交互行为识别上的应用。但双人交互行为识别方法重点关注人的身体行为(如握手、拥抱、斗殴等)所引起的交互活动，对面部表情引起的交互问题研究的很少。

瑞士IDIAP研究院提出了社交信号处理网络，能够获得大量有关个体的情感、意图及社会关系的社交信息。该研究表明，多种非语言行为都可以作为表达人的情感、意图的社交信号。在人与人之间的互动中，大量的信息不是靠人与人之间的明确交流，而是通过人与人之间说话的方式、面部表情、手势和其他方式。

另一方面，为满足人机交互的需求，表情识别技术经过几十年发展，取得了显著成果。无论是基于静态图片的识别技术以及基于动态视频序列的识别技术，都已经相对成熟。但是，这方面的研究主要是针对个人的表情识别，没有考虑表情交互问题。

同时研究表明人类识别他人感受的能力与一个人的模仿能力有关，并且似乎是基于一种天生的能力，这种能力将一个人看到的另一个身体动作和面部表情与自己产生相应的动作或表情的本体感受相关联，共情即人类识别他人的感受能力。从心理学的角度来看，交互过程实质上是分为两个步骤：第一步，区分他人的情感状态；第二步，在考虑到他人的情感状态下，做出自己的情感反应，也就是感同身受。目前针对如何对交互过程中的共情程度进行量化尚没有一个明确的标准。

发明内容

针对现有技术的不足，本发明提出一种基于面部表情交互的人际关系行为模式识别方法，包括以下步骤：

步骤1：采集n段双人表情交互视频片段，构建长短期记忆神经网络模型的样本集，包括：

步骤1.2：确定每段视频片段的表情交互序列；

步骤1.3：利用动态时间规整算法计算每一表情交互序列的共情度量值；

步骤1.4：确定每段视频对应的人际关系行为模式，并标记为不同的标签；

步骤1.5：将同一段视频片段对应的表情交互序列、共情度量值、人际关系行为模式对应的标签作为一组样本数据；

步骤1.6：统计n段视频片段对应的n组样本数据，构成样本集；

步骤2：采用十折交叉验证技术将样本集划分为训练集和测试集两部分；

步骤3：设置长短期记忆神经网络层的超参数，并构建长短期记忆神经网络模型，所述长短期记忆神经网络模型包括输入层、长短期记忆神经网络层、全连接层、输出层，所述超参数包括长短期记忆神经网络层的单元数目及层数、学习率、学习次数、批量大小；

步骤4：利用训练集训练长短期记忆神经网络模型，得到训练后的模型；

步骤5：利用测试集验证训练后的模型的准确率，将准确率最高的模型作为最优模型；

步骤6：利用最优模型对待识别的双人表情交互视频片段进行人际关系行为模式的识别。

所述步骤1.3包括：

步骤1.3.1：将第q段双人表情交互视频片段平均划分为m个时间序列，定义视频中的人A、人B对应的表情交互序列分别为S_Aq＝{x_A1,x_A2,…,x_At,…,x_Am}、S_Bq＝{x_B1,x_B2,…,x_Bt,…,x_Bm}，t＝1,2,…,m，x_At表示视频中的人A在第t个时间序列内的表情所对应的One-hot编码值，x_Bt表示视频中的人B在第t个时间序列内的表情所对应的One-hot编码值，q＝1,2,…,n；

步骤1.3.2：计算每组样本中人A、人B对应的表情交互序列中的任意两个编码值t_Ai、t_Bj的欧式距离为d(t_Ai,t_Bj)；

步骤1.3.3：令i＝1,2,…,m，j＝1,2,…,m，计算出所有的欧式距离，并构成一个m×m的矩阵D＝(d_i,j)，d_i,j表示矩阵D中第i行、第j列对应的元素d(t_Ai,t_Bj)，即d_i,j＝d(t_Ai,t_Bj)；

步骤1.3.4：利用公式(1)计算得到累计距离值d’_i,j，其中，令d'_0,0＝d'_0,j＝d’_i,0＝0；

d’_i,j＝d_i,j+min{d’_i,j-1,d’_i-1,j,d’_i-1,j-1} (1)

步骤1.3.5：令i＝1,2,…,m，j＝1,2,…,m，利用公式(1)迭代计算得到d'_m,m，则累计距离值d'_m,m即为第q段双人表情交互视频片段对应的共情度量值e。

3、所述人际关系行为模式包括：1)由管理、教育引起对方的尊敬和服从；2)由帮助、同情引起对方的信任和接受；3)由赞同、合作引起对方的协助和友好；4)由尊敬、求助引起对方的帮助；5)由怯懦、服从导致对方的欺侮、控制；6)由反抗、厌倦导致对方的惩罚、拒绝；7)由攻击、责骂导致对方的仇恨和反抗；8)由夸张、拒绝导致对方的不信任、自卑；9)不属于1)～8)中的交互类别，但仍属于可识别出的人际关系行为模式；10)不可识别的人际关系行为模式。

本发明的有益效果是：

本发明提出了一种基于面部表情交互的人际关系行为模式识别方法，首次将表情交互行为和人际关系行为模式这两种概念相关联，采用长短期记忆网络模型(简称LSTM模型)，利用采集的双人交互数据进行训练，通过输入表情交互序列，可判断出双方当前的具体人际关系行为模式。本发明引入共情这一概念，提出对其进行量化的方法，将其量化值融入到LSTM模型中，进一步提高了模型的识别准确率。

附图说明

图1为本发明中基于面部表情交互的人际关系行为模式识别方法流程图；

图2为本发明中基于面部表情交互的人际关系行为模式识别示意图；

图3为本发明中人工识别表情示意图；

图4为本发明中对比实验2的准确率对比图；

图5为本发明中对比实验3的准确率对比图；

图6为本发明中全连接神经网络(FCN)模型的混淆矩阵；

图7为本发明中卷积神经网络(CNN)模型的混淆矩阵；

图8为本发明中长短期记忆神经网络(LSTM)模型混淆矩阵。

具体实施方式

为解决表情面部表情交互问题，本发明提出从给定的视频序列中分离出特定的表情交互序列，通过分类学习，判别交互双方的人际关系行为模式，为解决双人交互识别问题提供新的思路。同时本发明引用共情这一概念，提出对其进行量化的方法，并将情感计算融入到识别模型中。下面结合附图和具体实施实例对发明做进一步说明。

如图1～图2所示，一种基于面部表情交互的人际关系行为模式识别方法，包括如下步骤：

步骤1.2：确定每段视频片段的表情交互序列；

步骤1.3：利用动态时间规整算法计算每一表情交互序列的共情度量值，包括：

步骤1.3.2：计算每组样本中人A、人B对应的表情交互序列中的任意两个编码值x_Ai、x_Bj的欧式距离为d(x_Ai,x_Bj)；

步骤1.3.3：令i＝1,2,…,m，j＝1,2,…,m，计算出所有的欧式距离，并构成一个m×m的矩阵D＝(d_i,j)，d_i,j表示矩阵D中第i行、第j列对应的元素d(x_Ai,x_Bj)，即d_i,j＝d(x_Ai,x_Bj)；

d’_i,j＝d_i,j+min{d’_i,j-1,d’_i-1,j,d’_i-1,j-1} (1)

本实施方式中构建样本集的过程如下：

进行一次粗略调查从而确定时间窗口即视频时长范围，首先采集50个60s的双人表情交互视频，然后从大学生中随机采访5个普通人，每人对其中的10段视频进行观察，并分别记录他们在观察10段视频过程中判定标签的最短识别时间和最长维持时间，标签为美国社会心理学家概括出的八种代表性的人际关系行为模式，另外，根据实际情况定义两个其他类型的标签，主要有：1)8种标签不能包涵的其他类别，但其仍属于人际关系行为模式，例如，由一方的兴致勃勃导致另一方的挖苦甚至愤怒，或者由一方的伤心难过导致另一方的兴奋甚至嘲笑；2)不可识别的类型。在这类场景中一方行为未能明显影响或改变另一方行为，交互双方情感色彩过于平淡，比如交互双方一问一答，并未流露过多情感，因此这一类别不属于人际关系行为模式。十种标签类别如下：

1由管理、教育引起对方的尊敬和服从

2由帮助、同情引起对方的信任和接受

3由赞同、合作引起对方的协助和友好

4由尊敬、求助引起对方的帮助

5由怯懦、服从导致对方的欺侮、控制

6由反抗、厌倦导致对方的惩罚、拒绝

7由攻击、责骂导致对方的仇恨和反抗

8由夸张、拒绝导致对方的不信任、自卑

9不属于以上交互类别(可识别)

10无法识别(感情过于平淡)

按照表1给出的表情与序列号的关系表，为每个时间片下的表情打标签，图3中，在当前时间片下，两个人的表情都为高兴happy，因此该时间片下叠加后的表情交互序列为0002000，其他时间片下的两人表情也按照上述方式进行叠加，最终得到视频片段的表情交互序列。

表1表情与序列号关系表

表2记录了5人A、B、C、D、E对于10段视频的标签最短识别时间均值和最长维持时间均值，同时对于5个人的标签识别时间均值和标签持续时间均值再次求平均值。调查显示，对于一段60s的双人交互视频，通常在17.3s左右，人们可以给视频打出一个较为合理的标签，而对于该标签，其维持的时间大约在31.5s左右，超过一定时长，标签有很大概率将会发生改变，因此时间窗口设定在15-30s范围内。

表2标签识别时间及标签维持时间记录表

人工采集1000个时长30s的表情交互片段并且人工完成表情识别和人际关系行为模式类别的标注，同时由于规定每隔3s记录一次两人交互表情，则相应的时间序列数m＝{5,6,7,8,9,10}，因此视频片段的前15s、18s、21s、24s、27s、30s依次作为不同时间窗口下的样本集。

步骤3：设置长短期记忆神经网络层(简称LSTM层)的超参数，并构建长短期记忆神经网络模型(简称LSTM模型)，所述长短期记忆神经网络模型包括输入层、长短期记忆神经网络层、全连接层、输出层，所述超参数包括长短期记忆神经网络层的单元数目及层数、学习率、学习次数、批量大小；其中，LSTM层单元数目设置为128，LSTM层层数设置为1，学习率设置为0.001，学习次数设置为2000，批量大小设置为50。

定义S_q＝{x₁,x₂,…,x_t,…,x_m}，x_t＝x_At+x_Bt，相应地，cell数目与时间序列数目相同等于m，LSTM模型通过遗忘门f_t、输入门i_t、输出门o_t按照公式(3)、(4)、(5)、(6)、(7)选择性地筛选数据，完成对cell状态C_t的不断更新，对于每一个样本，x_t作为输入矩阵经过m次迭代后，最后一个时间序列下的h_t即为LSTM层的输出。

f_t＝σ(W_f[h_t-1,x_t]+b_f) (3)

o_t＝σ(W_o[h_t-1,x_t]+b_o) (6)

h_t＝o_t*tanh(C_t) (7)

式中，x_t为视频中的人A在第t个时间序列内的表情所对应的One-hot编码值x_At与人B在第t个时间序列内的表情所对应的One-hot编码值x_Bt叠加得到的编码值，x₀初始值设定为0，W_f，W_i，W_c，W_o初始值为随机初始化的权重向量，b_f，b_i，b_c，b_o初始值为随机初始化的偏置向量。

经过LSTM层后，数据再按照公式(8)通过全连接层完成分类。

P_q＝Wh+b (8)

式中，h为最后一个时间序列下LSTM层的输出值，W初始值为随机初始化的权重向量，b初始值为随机初始化的偏置向量。

采用Adam优化器完成数据在长短期记忆神经网络模型中的后向传播从而完成权重向量和偏置向量的迭代更新。

本实施方式中设计了三个对比实验来验证本发明给出的识别方法的有效性，具体实验过程如下：

在对比实验1中，基于全连接神经网络(FCN)、卷积神经网络(CNN)、长短期记忆神经网络(LSTM)三种神经网络模型采用十折交叉验证技术对每个时间窗口下的表情交互序列进行训练，并测试相应的准确率，不同时间窗口下的准确率如表3所示，结果表明时间窗口为27s时，基于3种模型进行训练并测试的准确率最高，因此设定27s为最佳时间窗口。

表3三种神经网络下不同时间窗口的数据测试准确率记录表

图4为6种模型测试结果的对比图，在对比实验2中，除了3种神经网络模型外本发明还采用了3种传统的机器学习模型，分别为朴素贝叶斯模型(NBS)、K近邻模型(KNN)和决策树模型(DT)，对27s即最佳时间窗口下的数据进行训练并测试。对比实验2的结果表明LSTM模型相比于传统机器学习模型具有一定的优越性。

在对比实验3中，采用动态时间规整算法(DTW算法)对每一表情交互序列的共情程度进行量化，将共情量化值融入到神经网络模型中，作为新增加的特征值，重新对数据进行训练和测试，并将其结果与引入共情概念前的实验结果进行对比。

图5为3种神经网络模型引入共情量化值e前后测试结果的对比图，图中NOE代指未引入共情量化值e，E代指引入共情量化值。初始分类后的预测结果为p₁，引入参数值e后得到的预测结果为p₂，可定义为公式(9)、(10)，其中w为权重。

p₁＝f(w₁ ^T(S)) (9)

式中，w₁、w₂分别表示神经网络模型中的全连接层中表情交互序列S和共情量化值e对应的权重向量，f()表示神经网络的最终输出值到预测值的映射函数，先采用softmax函数将输出值转换成一个概率分布，然后取概率值最大的作为样本的预测分类值。

对比实验3结果的提高表明交互双方的共情能力在某种程度上与人际关系行为模式存在着一定的联系，同时可以起到改进模型的效果。最终本方法的识别准确率较高，可以达到75.2％。

其中模型建立的实验环境如下：处理器为Intel(R)Core(TM)i5-5200U CPU@2.20GHz，安装内存(RAM)为4.00GB，系统类型为64位操作系统，深度学习框架为tensorflow1.2.1，编程语言采用python 3.6.8。其中卷积神经网络模型的卷积层数为1，卷积核大小设定为3*1，即对前一时间片、当前时间片及后一时间片的特征进行提取，池化层采用最大池化层，大小设定为2*1。K近邻模型(KNN)中K值取3。朴素贝叶斯模型(NBS)中alpha值设定为1。除此之外其他模型的参数均为默认值或经验值。

此外本发明还统计了3类神经网络模型在其中一次测试中的混淆矩阵。如图6、图7、图8所示。整体来看，LSTM神经网络模型效果要好于全连接神经网络模型和卷积神经网络模型，这是因为LSTM相比CNN具有记忆的能力，其最大的优势在于每一时间步的输出都考虑到之前所有的输入，CNN神经网络模型中的卷积核虽然也可以提取数据在时间维度上的特征，但其大小是固定的，且并未考虑数据在时间维度上的长期依赖性。

Claims

1.一种基于面部表情交互的人际关系行为模式识别方法，其特征在于，包括如下步骤：

步骤1.2：确定每段视频片段的表情交互序列；

2.根据权利要求1所述的一种基于面部表情交互的人际关系行为模式识别方法，其特征在于，所述步骤1.3包括：

步骤1.3.4：利用公式(1)计算得到累计距离值d′_i,j，其中，令d′_0,0＝d′_0,j＝d′_i,0＝0；

d′_i,j＝d_i,j+min{d′_i,j-1,d′_i-1,j,d′_i-1,j-1} (1)

步骤1.3.5：令i＝1,2,…,m，j＝1,2,…,m，利用公式(1)迭代计算得到d′_m,m，则累计距离值d′_m,m即为第q段双人表情交互视频片段对应的共情度量值e。

3.根据权利要求1所述的一种基于面部表情交互的人际关系行为模式识别方法，其特征在于，所述人际关系行为模式包括：1)由管理、教育引起对方的尊敬和服从；2)由帮助、同情引起对方的信任和接受；3)由赞同、合作引起对方的协助和友好；4)由尊敬、求助引起对方的帮助；5)由怯懦、服从导致对方的欺侮、控制；6)由反抗、厌倦导致对方的惩罚、拒绝；7)由攻击、责骂导致对方的仇恨和反抗；8)由夸张、拒绝导致对方的不信任、自卑；9)不属于1)～8)中的交互类别，但仍属于可识别出的人际关系行为模式；10)不可识别的人际关系行为模式。