CN113822192B

CN113822192B - 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质

Info

Publication number: CN113822192B
Application number: CN202111098471.7A
Authority: CN
Inventors: 李玉军; 韩卓群; 朱孔凡; 杨阳; 翟超
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-09-18
Filing date: 2021-09-18
Publication date: 2023-06-30
Anticipated expiration: 2041-09-18
Also published as: CN113822192A

Abstract

本发明涉及一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质，包括：(1)数据预处理：对文本数据、语音数据、微表情数据、肢体动作数据分别进行预处理，使其符合不同模态对应模型的输入要求；(2)特征提取：对四个模态的数据所蕴含的情感信息分别进行提取，获取对应的特征向量；(3)特征融合：采用跨模态Transformer将特征向量进行特征融合：(4)训练模型，得到最优的情感识别模型。本发明克服不同模态间的长时依赖性，有效地捕捉不同模态之间的互补信息及它们之间的相互影响，使得到的联合特征向量能更加全面的表示在押人员的正确的情感状态，提高情感识别的准确率。

Description

一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质

技术领域

本发明涉及一种基于Transformer进行多模态特征融合的在押人员情感识别方法、设备及存储介质，属于情感计算的技术领域。

背景技术

从上世纪开始，随着越来越多的人工智能机器人产品的出现，机器与人之间实现了有意义的互动，让机器能够响应用户的需求。然而，大多数产品只回答特定的问题，并没有适当地响应用户的需求。自动情感识别技术可以帮助计算机系统响应用户的需求，使机器真正“温暖”，增强用户体验。情感识别在监狱等特殊场所起到十分重要的作用，对在押人员这类特殊人群进行情感识别，可以有效的监控他们的情感状态，对于保障监狱环境安全，提升改造质量具有重要意义。尽管情感识别研究已经有几十年的历史，但一直难以实现实际应用。主要原因是研究中使用的模型不够先进，不能充分利用数据中的情感特征。

由于在押人员的身份特殊性，使其具有很强的防范心理，进而会隐藏自己情感的表达，基于单模数据的情感识别可能产生较大的误差，难以准确判断在押人员的真实情绪。单模态情感识别具有识别率低、鲁棒性差的特点。在建立一个鲁棒性高、高识别率的在押人员情感识别模型时，不仅需要解决如何正确提取被在押人员的情感特征，而且需要解决不同模态下在押人员的情感特征信息互补的问题，合理解决不同模态之间的相关性和差异性等一系列特征提取和融合问题。

发明内容

针对现有技术的不足，本发明提供了一种基于Transformer进行多模态特征融合的在押人员情感识别方法。

发明概述：

一种基于Transformer进行多模态特征融合的在押人员情感识别方法，利用了文本、语音、微表情和肢体动作四个模态的数据来进行最后的情感计算。首先，对四个模态的数据分别进行特征提取。对文本的特征提取采用GloVe预训练词向量嵌入，对语音的特征提取采用COVAREP开源工具进行提取，对微表情的特征提取采用dlib工具包和imotionFACET工具进行面部表情特征提取，对于肢体动作，采用Openpose工具进行骨骼关键点提取。然后，将四个模态的特征通过基于Transformer的多模态融合模型进行特征融合，可以得到精确度高，表达能力好的联合特征向量，相较于其他融合方式，Transformer架构可以实现不同模态间的信息交互提高识别效果。最后，再将特征拼接，输入到全连接网络进行情感识别。

本发明详细解释了提取各个模态特征时用到的神经网络的作用，在特征融合的过程中充分实现了不同模态之间的信息的交互，同时，避免了传统多模态融合方法中需要繁琐的对齐操作的问题，从而提高了网络的性能。本发明在特征融合方面引入Transformer架构，使网络得到优化，得到的联合特征向量更加有效，更加有利于提取到更好的情感特征，提高最后的识别效果。

本发明应用于在押人员的真实情感识别，主要是在监狱在押人员与家属/亲友进行远程视频会见，或者在押人员与其他在押人员以及狱警的的自然交流过程中，通过对在押人员多模态数据的进行采集和分析，从而实现判别在押人员真实情感状态的变化。本发明采用基于Transformer架构的多模态融合的方式，从多个维度去分析在押人员的情感状态，更具综合性和有效性，从而提高了情感识别的效果。

本发明还提供了一种计算机设备及存储介质。

术语解释：

1、GloVe预训练词向量字典，使用GloVe工具，送入维基百科中文语料数据训练得到的预训练词向量字典。

2、GloVe预训练词向量嵌入，全称是Global Vectors for Word Representation,中文意思是全局词向量，它是一个基于全局词频统计的词表征工具。它可以把一个单词表示成一个由实数组成的向量，向量可以捕捉单词之间的一些语义特性

3、COVAREP，是一个高度封装的语音特征提取工具。它不仅可以提取一些基础的语音特征，比如帧能、基频、短时抖动参数等，同样可以提取非常重要的语音情感特征参数，像梅尔频率倒谱系数(Mel Frequency Cepstral Coefficents,MFCC)。

4、Reshape，请解释；一种矩阵操作，用于调整矩阵的维度和形状。

5、Facet和dlib工具，请解释；Facet是imotions公司开发的面部表情分析工具，Dlib是一个使用现代C++技术编写的跨平台的一个机器学习的开源库，包含了机器学习的很多算法。6、PE(positionalencoding)，位置嵌入，位置嵌入是指将单词的位置信息编码成特征向量，位置嵌入是向模型中引入单词位置关系的至关重要的一环。

6、Transformer，Google在2017提出一种使用自注意力机制来做机器翻译的模型，取得了很好的效果，并且训练速度很快。

7、OpenPose，人体姿态识别工具，基于卷积神经网络和监督学习并以caffe为框架开发的开源库。可以实现人体关键点检测。

8、上半身姿态的18个关键骨骼点，主要检测人体的关节、五官等，通过关键点描述人体骨骼信息,如图3所示。

9、中心骨骼点，对提取到的骨骼点坐标求取均值，获得中心点即为中心骨骼点。

本发明的技术方案为：

一种基于Transformer进行多模态特征融合的在押人员情感识别方法，包括步骤如下：

(1)特征提取：对文本、语音、微表情和肢体动作四个模态的数据包括文本数据、语音数据、微表情数据、肢体动作数据分别进行预处理：对四个模态的数据所包含的情感信息分别进行提取，获取对应的特征向量，使其符合不同模态对应的基于Transformer架构的多模态融合模型的输入要求；

文本数据是指在押人员与家属/亲友进行远程视频会见过程中对话的文字；语音数据是指在押人员与家属/亲友进行远程视频会见过程中对话的音频；微表情数据是指在押人员与家属/亲友进行远程视频会见过程中在押人员的面部微表情数据，面部微表情数据是指包含面部表情的视频；肢体动作数据是指监狱在押人员与家属/亲友进行远程视频会见过程中在押人员的肢体动作数据是指包含肢体躯干的视频信息；

(2)特征融合：采用基于Transformer架构的多模态融合模型将步骤(1)提取到的文本、语音、微表情和肢体动作四个模态的特征向量进行特征融合；

(3)训练基于Transformer架构的多模态融合模型：将步骤(1)预处理后的文本、语音、微表情和肢体动作四个模态的数据随机分成n组，每次取n-1组的数据作为训练集，依次执行步骤(1)至步骤(3)，训练基于Transformer架构的多模态融合模型，剩下1组数据作为验证集，验证基于Transformer架构的多模态融合模型的效果，如此循环，做多次交叉验证，得到最优的基于Transformer架构的多模态融合模型作为情感识别模型；

(4)获取待情感识别的在押人员的文本数据、语音数据、微表情数据、肢体动作数据，依次通过步骤(1)、步骤(2)处理后，输入至步骤(3)训练好的情感识别模型进行情感识别。

根据本发明优选的，所述步骤(1)中，

对于文本数据，预处理过程包括：将文本数据进行分词，根据分词的结果和与GloVe预训练词向量字典中查询对应关系，在数据转换过程中，对每一条文本进行分词，根据GloVe预训练词向量字典中词对应的关系，将文本转化为一串序号组成的数学序列，即为可输入基于Transformer进行多模态特征融合的整体模型中的数学数据即文本模态的特征向量；

对于语音数据，预处理过程包括：

首先，从原始的视频数据中经过分离转录获取WAV格式的语音数据；

然后，读取格式信息、波形数据和声音数据，同时，通过COVAREP工具包，对每一条语音数据取基础语音特征，包括帧能、基频、短时抖动参数发音持续时间、振幅以及非常重要的语音情感特征参数，非常重要的语音情感特征参数是指梅尔频率倒谱系数，将提取的特征数据进行reshape、转置操作，得到语音模态的特征向量，其数据结构满足基于Transformer进行多模态特征融合的整体模型输入的原始音频特征数据的要求；

对于微表情数据，利用Facet和dlib工具提取面部表情特征，包括面部动作单元信息和面部姿态信息和面部关键点信息，面部动作单元信息包括嘴角提拉、眨眼、皱眉、鼻子皱纹、面颊提升动作；面部姿态信息包括头部左右旋转、抬头低头，面部关键点信息是指面部五官关键点坐标，即微表情模态的特征向量；

对于肢体动作数据，预处理过程包括：

a、采用Openpose工具进行骨骼关键点提取，得到上半身姿态的18个骨骼关键点坐标(x_i，y_i)，并计算偏移量X_offset和Y_offset，X_offset＝x_i-x_neck，Y_offset＝y_i-y_neck，其中(x_neck，y_neck)为中心骨骼点的坐标；

b、对上半身姿态的18个骨骼关键点坐标进行二次处理，计算三个参数，包括人体运动速度

骨骼点偏移角速度/>

和骨骼点运动速度/>

计算公式分别如式(Ⅰ)、式(Ⅱ)、式(Ⅲ)所示：

式(Ⅰ)、式(Ⅱ)、式(Ⅲ)中，i表示骨骼关键点坐标序号，Δt表示第i帧与第i-1帧之间的时间差，

为第i帧中心骨骼点横坐标、/>

为第i-1帧中心骨骼点横坐标；

为第t_i时刻纵坐标的偏移量，/>

为第t_i-1时刻纵坐标的偏移量，/>

为第t_i时刻横坐标的偏移量，

为第t_i-1时刻横坐标的偏移量；

经过上述步骤处理的特征数据包括人体运动速度

骨骼点偏移角速度/>

和骨骼点运动速度/>

组成最终输入基于Transformer进行多模态特征融合的整体模型的肢体特征数据，即肢体动作模态的特征向量。

根据本发明优选的，步骤(2)中，基于Transformer架构的多模态融合模型包括一层一维时间卷积层、跨模态Transformer模块、若干层自注意力Transformer序列模型、全连接层；所述跨模态Transformer模块包括若干层交叉注意力模块；特征融合的具体实现过程包括：

首先，将步骤(1)提取到的文本、语音、微表情和肢体动作四个模态的特征向量输入到一层一维时间卷积层，经过卷积操作的序列融合了相邻元素的信息，实现了局部的信息交互；

然后，将位置信息PE嵌入到处理过的特征向量中；

再次，将上述经过位置信息PE嵌入的不同模态的特征向量两两送入不同的跨模态Transformer模块；

最后，将共享相同目标模态的跨模态Transformer模块的输出拼接起来，通过全连接层进行预测。

根据本发明优选的，所述步骤(2)，包括步骤如下：

A、将步骤(1)提取到的文本、语音、微表情和肢体动作四个模态的特征向量输入到一层一维时间卷积层，如式(Ⅳ)所示：

式(Ⅳ)中，k_{L,V,A,P}为针对不同模态，包括文本L、微表情V、语音A、肢体动作P不同的卷积核的大小，d为公共维数；

是经过一维时间卷积层卷积后的特征向量,X_{L,V,A,P}是未经过一维时间卷积层卷积操作的特征向量；

B、将位置信息PE嵌入到步骤A处理过的特征向量中；

C、将上述经过位置嵌入的不同模态的特征向量两两送入不同的交叉注意力模块，使一个模态从另一个模态接收信息；如式(V)、式(Ⅵ)、式(Ⅶ)所示：

式(V)表示交叉注意力模块的第0层输入

为/>

为得到的特征向量；

式(Ⅵ)表示交叉注意力模块的第i层中间变量

等于i-1层的输出经过层归一化和模态V的特征向量加上第i-1层的输出/>

一起输入第i层交叉注意力模块的结果；

式(Ⅶ)分别表示第i层中间变量

经过前馈神经网络/>

得到第i层交叉注意力模块的输出/>

f_θ为第i个交叉注意力模块中前馈子层的参数，CM_V→L表示经过交叉注意力模块实现的模态V向模态L的映射，LN表示层归一化；

D、将共享相同目标模态的跨模态Transformer模块的输出拼接起来，通过全连接层进行预测，具体包括：

首先，将共享相同目标模态的交叉注意力模块的输出拼接起来；

然后，通过一个自注意力Transformer序列模型来收集时间信息来进行预测；

最后，提取自注意力Transformer序列模型的最后元素，通过全连接层进行预测，将所述自注意力Transformer序列模型输出的最终的联合特征送到分类器进行情感识别；

分类器包括三层全连接层，将最终的联合特征向量进行降维、归一化操作，使其转化为一个二维向量，根据二维向量中对应位置数值的大小进行最终的情感分类，其中取值最高的情感类别即为输出的情感分类结果。

进一步优选的，步骤B中，将位置信息PE嵌入到步骤A处理过的特征向量中，具体是指：

位置信息PE用来表示PE特征向量中每个元素的位置，奇数位置PE_(pos,2i)由余弦函数获得，偶数位置PE_(pos,2i+1)由正弦函数获得，公式分别如式(Ⅷ)、式(Ⅸ)所示：

根据本发明优选的，所述步骤(3)中，训练模型，采用交叉熵损失函数进行基于Transformer进行多模态特征融合的整体模型的训练，如式(Ⅹ)所示：

式(Ⅹ)中，p(x)是样本类别的标准分布，q(x)是样本类别的预测分布。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现基于Transformer进行多模态特征融合的在押人员情感识别方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现基于Transformer进行多模态特征融合的在押人员情感识别方法的步骤。

本发明的有益效果为：

1.本发明提出利用Transformer进行多模态特征融合，对在押人员在视频会见或日常交流中的情感状态进行分析、识别，根据情感表达带有伪装性等监狱在押人员的所特有的一些情况，通过多个模态特征的跨模态融合，打破了单模态数据的局限性，降低噪音信息的负面影响，使提取到的情感特征更加丰富、有效和准确，提高了在押人员的情感识别效果。

2.本发明所述基于特征层融合的多模态融合过程中，采用Transformer架构，在融合过程中，充分考虑不同模态间的长时依赖性，使每一个模态的特征都能更好的发挥作用，并且不需要繁琐的对齐操作，能够直接将未对齐的数据送入上游模型，大大减少了工作量。

3.本发明在多模态融合方式方面选用了特征层融合，有效地捕捉不同模态之间的互补信息及它们之间的相互影响，使得到的联合特征向量能更加全面的表示在押人员的正确的情感状态，提高情感识别的准确率。

附图说明

图1为交叉注意力模块的结构示意图；

图2为采用跨模态Transformer进行特征融合的流程示意图；

图3为上半身姿态的18个关键骨骼点的示意图。

具体实施方式

下面结合实施例和说明书附图对本发明做进一步说明，但不限于此。

实施例1

实施例2

根据实施例1所述的一种基于Transformer进行多模态特征融合的在押人员情感识别方法，其区别在于：

步骤(1)中，对于文本数据，预处理过程包括：将文本数据进行分词，根据分词的结果和与GloVe预训练词向量字典中查询对应关系，在数据转换过程中，对每一条文本进行分词，根据GloVe预训练词向量字典中词对应的关系，将文本转化为一串序号组成的数学序列，即为可输入基于Transformer进行多模态特征融合的整体模型中的数学数据即文本模态的特征向量；GloVe预训练词向量嵌入最大优势是网络结构简单，在模型网络结构简单的情况下，通过引入已经训练好的词向量有很不错的效果，使本发明的模型在有较好的效果的同时加快收敛的速度。

对于语音数据，预处理过程包括：

然后，读取格式信息(如声道数、量化位数(byte单位)、采样频率、采样点数等)、波形数据和声音数据，同时，通过COVAREP工具包，对每一条语音数据取一些基础语音特征，包括帧能、基频、短时抖动参数发音持续时间、振幅以及非常重要的语音情感特征参数，非常重要的语音情感特征参数是指梅尔频率倒谱系数，将提取的特征数据进行reshape、转置操作，得到语音模态的特征向量，其数据结构满足基于Transformer进行多模态特征融合的整体模型输入的原始音频特征数据的要求；

对于肢体动作数据，预处理过程包括：

骨骼点偏移角速度/>

和骨骼点运动速度/>

计算公式分别如式(Ⅰ)、式(Ⅱ)、式(Ⅲ)所示：

为第i帧中心骨骼点横坐标、/>

为第i-1帧中心骨骼点横坐标；

为第t_i时刻纵坐标的偏移量，/>

为第t_i-1时刻纵坐标的偏移量，/>

为第t_i时刻横坐标的偏移量，

为第t_i-1时刻横坐标的偏移量；

经过上述步骤处理的特征数据包括人体运动速度

骨骼点偏移角速度/>

和骨骼点运动速度/>

步骤(2)中，如图2所示，基于Transformer架构的多模态融合模型包括一层一维时间卷积层、跨模态Transformer模块、若干层自注意力Transformer序列模型、全连接层；所述跨模态Transformer模块包括若干层交叉注意力模块；特征融合的具体实现过程包括：

然后，将位置信息PE嵌入到处理过的特征向量中；

步骤(2)，包括步骤如下：

A、将步骤(1)提取到的文本、语音、微表情和肢体动作四个模态的特征向量输入到一层一维时间卷积层，卷积核的作用，保证输入序列的每个元素对其邻域元素有足够的感知，如式(Ⅳ)所示：

式(Ⅳ)中，H_{L,V,A,P}为针对不同模态，包括文本L、微表情V、语音A、肢体动作P不同的卷积核的大小，d为公共维数；

经过卷积操作的序列融合了相邻元素的信息，实现了局部的信息交互。此外，由于卷积将不同维度的特征投射到同一维d上，使得后续交叉模态注意模块中可以对特征向量进行点积操作。

B、将位置信息PE嵌入到步骤A处理过的特征向量中；由于transformer模型没有循环神经网络的迭代操作,所以我们必须提供每个元素的位置信息给transformer,才能识别出时序向量中的顺序关系。具体是指：

位置信息PE用来表示PE特征向量中每个元素的位置，奇数位置PE_(pos,2i)由余弦函数获得，偶数位置PE_(abs,2i+1)由正弦函数获得，公式分别如式(Ⅷ)、式(Ⅸ)所示：

C、将上述经过位置嵌入的不同模态的特征向量两两送入不同的交叉注意力模块，使一个模态从另一个模态接收信息；例如，我们将表情(V)信息传递给语言(L)，用“V→L”表示。我们确定所有的维数(d{α,β,k,v})的每个跨通道注意块，如d。如式(V)、式(Ⅵ)、式(Ⅶ)所示：

式(V)表示交叉注意力模块的第0层输入

为/>

为得到的特征向量；

式(Ⅵ)表示交叉注意力模块的第i层中间变量

一起输入第i层交叉注意力模块的结果；

式(Ⅶ)分别表示第i层中间变量

经过前馈神经网络/>

得到第i层交叉注意力模块的输出/>

每层交叉注意力模块的执行的操作图1所示，当要实现从模态β到模态α的映射时，定义查询向量

键向量/>

值向量/>

其中/>

是训练的权重矩阵，将模态β到模态α的映射记为Y_α＝CM_β→α(X_α,X_β)。

在这个过程中，每个模态通过交叉注意力模块获得其他模态的信息来不断更新其序列。在交叉注意力模块的每一层，都与目标模态进行交互从而将有意义的元素关联到不同的模态。

步骤(3)中，训练模型，采用交叉熵损失函数进行基于Transformer进行多模态特征融合的整体模型的训练，如式(Ⅹ)所示：

实施例3

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现实施例1或2所述的基于Transformer进行多模态特征融合的在押人员情感识别方法的步骤。

实施例4

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现实施例1或2所述的基于Transformer进行多模态特征融合的在押人员情感识别方法的步骤。

Claims

1.一种基于Transformer进行多模态特征融合的在押人员情感识别方法，其特征在于，包括步骤如下：

(4)获取待情感识别的在押人员的文本数据、语音数据、微表情数据、肢体动作数据，依次通过步骤(1)、步骤(2)处理后，输入至步骤(3)训练好的情感识别模型进行情感识别；

所述步骤(2)，包括步骤如下：

B、将位置信息PE嵌入到步骤A处理过的特征向量中；

C、将上述经过位置嵌入的不同模态的特征向量两两送入不同的交叉注意力模块，使一个模态从另一个模态接收信息；如式(Ⅴ)、式(Ⅵ)、式(Ⅶ)所示：

式(Ⅴ)表示交叉注意力模块的第0层输入

为/>

为得到的特征向量；

式(Ⅵ)表示交叉注意力模块的第i层中间变量

一起输入第i层交叉注意力模块的结果；

式(Ⅶ)分别表示第i层中间变量

经过前馈神经网络/>

得到第i层交叉注意力模块的输出/>

2.根据权利要求1所述的一种基于Transformer进行多模态特征融合的在押人员情感识别方法，其特征在于，所述步骤(1)中，

对于语音数据，预处理过程包括：

对于肢体动作数据，预处理过程包括：

骨骼点偏移角速度/>

和骨骼点运动速度/>

计算公式分别如式(Ⅰ)、式(Ⅱ)、式(III)所示：

式(Ⅰ)、式(Ⅱ)、式(III)中，i表示骨骼关键点坐标序号，Δt表示第i帧与第i-1帧之间的时间差，

为第i帧中心骨骼点横坐标、/>

为第i-1帧中心骨骼点横坐标；

为第t_i时刻纵坐标的偏移量，/>

为第t_i-1时刻纵坐标的偏移量，/>

为第t_i时刻横坐标的偏移量，/>

为第t_i-1时刻横坐标的偏移量；

经过上述步骤处理的特征数据包括人体运动速度

骨骼点偏移角速度/>

和骨骼点运动速度/>

3.根据权利要求1所述的一种基于Transformer进行多模态特征融合的在押人员情感识别方法，其特征在于，步骤(2)中，基于Transformer架构的多模态融合模型包括一层一维时间卷积层、跨模态Transformer模块、若干层自注意力Transformer序列模型、全连接层；所述跨模态Transformer模块包括若干层交叉注意力模块；特征融合的具体实现过程包括：

然后，将位置信息PE嵌入到处理过的特征向量中；

4.根据权利要求3所述的一种基于Transformer进行多模态特征融合的在押人员情感识别方法，其特征在于，步骤B中，将位置信息PE嵌入到步骤A处理过的特征向量中，具体是指：

5.根据权利要求1所述的一种基于Transformer进行多模态特征融合的在押人员情感识别方法，其特征在于，所述步骤(3)中，训练模型，采用交叉熵损失函数进行基于Transformer进行多模态特征融合的整体模型的训练，如式(X)所示：

式(X)中，p(x)是样本类别的标准分布，q(x)是样本类别的预测分布。

6.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-5任一所述的基于Transformer进行多模态特征融合的在押人员情感识别方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-5任一所述的基于Transformer进行多模态特征融合的在押人员情感识别方法的步骤。