CN115731595A

CN115731595A - 一种基于模糊规则的多层次决策融合的情感识别方法

Info

Publication number: CN115731595A
Application number: CN202211441603.6A
Authority: CN
Inventors: 陈首彦; 孙欣琪; 赵志甲; 易梓宇; 许森颖
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2022-11-17
Filing date: 2022-11-17
Publication date: 2023-03-03

Abstract

本发明属于模式识别和情感识别领域，公开了一种基于模糊规则的多层次决策融合的情感识别方法，包括如下步骤：步骤1:获取视听情感数据集，语音模态下进行语音MFCC特征提取，视觉模态下进行面部表情图像预处理；步骤2：建立视觉下面部表情识别模型，模型的输入为面部表情图像，输出为情感分类结果；情感分类结果包括：生气、厌恶、害怕、高兴、中性、悲伤、惊讶；步骤3：建立基于模糊规则的决策级融合语音情感识别模型；步骤4：建立基于模糊规则的视觉和语音双模态情感识别模型。本发明通过模糊规则的多层次决策融合策略，根据模态的贡献来分配模态权值，实现基于视觉和语音双模态下的情感识别，改善情感识别率。

Description

一种基于模糊规则的多层次决策融合的情感识别方法

技术领域

本发明涉及模式识别和情感识别技术领域，具体涉及一种基于模糊规则的多层次决策融合的情感识别方法。

背景技术

情感识别是吸引学者关注的研究兴趣之一。早期的研究主要集中在利用单模态信息进行情绪识别，包括面部情绪识别、语音情绪识别和脑电图信号的情绪识别，在控制良好的环境方面取得了重大成就。然而，单模态情感识别方法并不能在自然场景中提供足够的信息，这限制了单模态识别方法的应用。因此，学者们尝试进行多模态情感识别的研究，包括基于视频-音频的识别、基于视频-音频-文本的识别、基于视频-脑电图的识别。

但是，由于存在着诸多的技术困难，目前还没有基于视觉和语音两种模态进行处理的技术方案，而特征处理和融合是多模态情绪识别的关键步骤。在多模态融合过程中，来自不同模式的数据可能包含相似或相同的情绪信息，导致数据冗余和计算成本增加。同时，固定权重分配方法广泛应用于多模态数据的决策级融合，与实际情况不一致。因此，本发明提出一种基于模糊规则的多层次决策融合策略。

发明内容

本发明的目的是解决多模态融合过程中存在模态权值分配的问题，提供一种基于模糊规则的多层次决策融合情感识别方法，根据模态的贡献来分配模态权值。分别将基于模糊规则的决策融合应用于语音情绪识别阶段和多模态-情绪识别阶段，以便于分配语音特征权值和模态权值。本发明可以减少冗余数据，提高识别精度。同时，本发明在面部识别性能较差的情况下，模糊规则的自然表现力得到很好地体现。

本发明的目的是通过以下述技术方案实现：

一种基于模糊规则的多层次决策融合的情感识别方法，实现基于视觉和语音双模态下的情感识别，改善情感识别率，包括步骤如下：

步骤1：获取视听情感数据集，语音模态下进行语音MFCC特征提取，视觉模态下进行面部表情图像预处理；

步骤2：建立视觉下面部表情识别模型，模型的输入为面部表情图像，输出为情感分类结果；情感分类结果包括：生气、厌恶、害怕、高兴、中性、悲伤、惊讶；

步骤3：建立基于模糊规则的决策级融合语音情感识别模型；

步骤4：建立基于模糊规则的视觉和语音双模态情感识别模型。

步骤2的实现方法为：

对面部表情图像进行图像预处理，将面部表情图像与情感标签对应起来，建立训练集与测试集；

输入CNN模型前对面部表情图像进行图像增强处理，将增强处理后的面部表情图像输入到CNN模型中进行识别，得到情感特征识别结果；CNN模型由输入层、卷积层1、卷积层2、池化层1、卷积层3、池化层2、卷积层4、池化层3、全连接层1、全连接层2、输出层，依次连接组成。

步骤3的实现方法为：

步骤3.1：语音MFCC特征提取，具体的步骤如下：

步骤3.1.1：先对语音进行预加重、分帧、加窗；

其中，预加重中语音通过的数字滤波器为：

假设输入信号第m个采样点为x(m)，则对应的预加重公式为：

y(m)＝x(m)-μx(m-1)，μ＝0.97

z变换之后得到对应的传递函数为

H(z)＝1-μz^-1

其中，μ为预加重系数。

分帧：先将N个采样点集合成一个观测单位，称为帧。通常情况下N的值为256或512，为了避免相邻两帧的变化过大，会采取帧叠的方式，帧叠一般为N的1/2或1/3。本发明取N的值为512，帧叠取N的1/2。

加窗：用可移动的有限长度窗口进行加权的方式来实现的，也就是用一定的窗函数来乘，加窗信号为：

S_W(n)＝S(n)*w(n)，

其中S(n)为分帧后的信号，n＝0，1…，N-1，N为帧的大小，w(n)为窗函数；

窗函数w(n)为：

步骤3.1.2：对每一个短时分析窗，通过FFT得到对应的频谱，并取平方；

步骤3.1.3：将将上述得到的频谱通过梅尔滤波器组得到Mel倒谱；

步骤3.1.4：在Mel频谱上面进行倒谱分析，得到语音MFCC特征；

步骤3.2：特征选择：

基于步骤3.1提取到的语音MFCC特征为帧级特征，将帧级特征转换为句子级特征，将句子级特征作为分类器的输入：

采用11种统计函数对提取到的语音特征进行处理，得到的统计特征分别为均值、最大值、最小值、方差、中值、标准差、均方根、极差、偏斜度、峰度、内四分极值；

将每个统计特征的MFCC特征向量进行平均，得到一个新的特征矩阵，其大小为M×11，MFCC特征表示为x_i，j，i＝1，2......M，j＝1，2......N，N＝11，M表示语音样本数，N表示特征维数；

降低特征维度大小，得到最优特征子集，将最优特征子集作为语音特征识别模型的输入；

通过构建SVM模型来评估单个输入特征和输出标签之间的相关性，进而实现关键特征的选取；

步骤3.3：建立基于模糊规则的决策级融合语音情感识别模型：

基于步骤3.2得到的结果，选择MFCC对应的统计特征均值、中值、均方根、内四分极值作为输入特征；

将基于模糊规则的决策级融合语音情感识别模型应用于语音情绪识别。

步骤4的实现方法为：

步骤4.1：建立基于模糊规则的决策级融合模型：

步骤4.1.1：模糊器：

分别将表情识别和语音情感识别的置信度转换为模糊变量S_v，j和S_s，j；模糊变量S_v，j和S_s，j对应融合后的模糊变量为S_f，j，j＝1，...，5，

S_v，j，S_s，j，S_f，j＝{none，little，base，entire，enough}，

其中模糊变量none表示相关性相当低，enough表示相关性高；

None，little，base，entire，enough为5个隶属度等级，其中模糊变量“none”表示相关性相当低，后续的隶属度等级对应的相关性递增，“enough”表示相关性高，

将P_v，P_s以及P_f划分为5个模糊集，对应的隶属函数分别为μ_v，μ_s和μ_f，μ_v定义如下：

其中，P_v，P_s，P_f分别为人脸表情识别、语音情感识别、以及融合后情感识别对应的概率矩阵，μ_v，μ_s，μ_f分别为其对应的隶属函数，p_v，i(i＝1，...n.)是样本被判断为某类情感的概率；n为样本数量；μ_v，j分别为S_j对应的隶属度函数；

步骤4.1.2：模糊推理：

根据模糊逻辑理论，模糊推理通过调用if-then规则，将输入的模糊集映射到输出的模糊集，两者对应的模糊集相同；

对模糊集进行数学上的定义，none定义为1，little定义为2，base为3，enough为4，entire定义为5；

将视觉模态和语音模态的权重分别设为w₁和w₂，两者的范围在[0，1]且和为1；

输入模糊变量S_v，j和S_s，j，由下式计算输出的模糊变量S_f，j：

S_f，j＝w₁S_v，j+w₂S_s，j，

其中w₂＝1-w₁，S_v，j，S_s，j，S_f，j∈{1，2，3，4，5}；

将w₁划分为下述区间：

[0，0.125)，[0.125，1/6)，(1/6，0.25)，(0.25，0.375)，(0.375，0.5)，(0.5，0.625)，(0.625，0.75)，(0.75，5/6)，(5/6，0.875)，(0.875，1]；

建立模糊规则之后，进行模糊推理，将模糊化前的变量输入到模糊器，通过隶属度函数得到相应的隶属度；

基于隶属度，与相应的模糊规则进行匹配，然后利用最大运算对每个模糊规则的输出进行累积，得到模糊器的总输出；

步骤4.1.3：去模糊：

采用重心法来实现去模糊化，通过下述公式来计算：

其中S_f，j为输出模糊变量，μ_f(S_f，j)为其对应的隶属函数。

本发明与现有技术相比具有如下优点：

本发明基于模糊规则的多层级决策融合策略主要解决了以下几个问题：

1、在多模态融合过程中存在模态权值分配的问题，固定权重分配方法广泛应用于多模态数据的决策级融合，与实际情况不一致。本发明设计出一种基于模糊规则的多层次决策融合策略，根据模态的贡献来分配模态权职；

2、分别将基于模糊规则的决策融合应用于语音情绪识别阶段和多模态-情绪识别阶段，以便于分配语音特征权值和模态权值；

3、该策略可以减少冗余数据，提高识别精度。同时，在面部识别性能较差的情况下，模糊规则的自然表现力得到很好地体现。

附图说明

图1为本发明实施例的视觉语音多模态情感识别模型图；

图2为本发明实施例的MFCC特征提取流程图；

图3为本发明实施例的基于SVM的语音特征选择图；

图4为本发明实施例的基于模糊规则的决策级融合语音情感识别模型图；

图5为本发明实施例的视觉下的面部表情识别模型图；

图6为本发明实施例的基于模糊规则的决策级融合模型结构图；

图7为本发明实施例的模糊规则表。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1所示，本发明所提供的基于模糊规则的多层次决策融合的情感识别方法，包括如下步骤：

步骤1、获取视听情感数据集；步骤2、建立视觉下面部表情识别模型；步骤3、建立基于模糊规则的决策级融合语音情感识别模型；步骤4、建立基于模糊规则的视觉和语音双模态情感识别模型。

如图2所示，是MFCC特征提取流程图，先对语音进行预加重、分帧、加窗。其中，预加重处理方式如下：

假设输入信号第m个采样点为x(m)，则对应的预加重公式为：

y(m)＝x(m)-μx(m-1)，μ＝0.97，

z变换之后得到对应的传递函数为：

H(z)＝1-μz^-1，

S_W(n)＝S(n)*w(n)，

其中S(n)为分帧后的信号，n＝0，1...，N-1，N为帧的大小。

本发明所用的是汉明窗，窗函数w(n)为：

对每一个短时分析窗，通过FFT得到对应的频谱，并取平方。将上述得到的频谱通过梅尔滤波器组得到Mel倒谱，在Mel频谱上面进行倒谱分析，得到语音MFCC特征(这里提取MFCC前30阶系数)。

如图3所示，是基于SVM的语音特征选择图。根据提取到的语音特征，此处为帧级特征，一般情况下需要将帧级特征转换为句子级特征作为分类器的输入。因此，本发明采用了11种统计函数对提取到的语音特征进行处理，得到的统计特征分别为均值、最大值、最小值、方差、中值、标准差、均方根、极差、偏斜度、峰度、内四分极值，然后将每个统计特征的MFCC特征向量进行平均，得到一个新的特征矩阵，其大小为M×11。MFCC特征表示为x_j，j，i＝1，2......M，j＝1，2......N，N＝11。语音样本数为M个，特征维数为11个。

本发明基于特征发散性采用了方差选择法对特征进行评分，另外，还采用了相关系数、互信息等指标进行特征选择，以及基于树的特征选择法。其中，(1)方差选择法通过计算各个特征的方差，剔除小于设定的阈值的特征，剔除特征值波动较小的特征。(2)相关系数衡量的是两个变量之间的相关程，取值范围在[-1，1]之间，-1表示完全负相关，+1表示完全正相关，0表示线性无关。(3)互信息选择法是评价定性自变量对定性因变量的相关性的。相应地，本发明中互信息法衡量的是语音特征与情感类别之间的相关性。(4)CART算法是一种二进制递归划分技术，可以在树构建过程中自动选择分类特征。CART的主要思想是将数据连续分割成两个子节点，直到根据一定的算法生成叶节点为止。综合以上4种指标，降低特征维度大小，得到最优特征子集，作为语音特征识别模型的输入。此外，通过构建SVM模型来评估单个输入特征和输出标签之间的相关性，进而实现关键特征的选取。

如图4所示，是基于模糊规则的决策级融合语音情感识别模型图。根据关键特征的选取结果，选择MFCC对应的统计特征均值、中值、均方根、内四分极值作为输入特征，将基于模糊规则的决策级融合应用于语音情绪识别。

如图5所示，是视觉下的面部表情识别模型图。该模型输入人脸面部表情图像，输出识别结果。情感分类结果包括：生气、厌恶、害怕、高兴、中性、悲伤、惊讶。首先，对人脸面部表情图像进行图像预处理，将面部表情图像与情感标签对应起来，建立训练集与测试集。接着，输入CNN模型前对面部表情图像进行图像增强处理，进入CNN模型进行特征识别，得到情感特征识别结果。在此，CNN模型由输入层、卷积层1、卷积层2、池化层1、卷积层3、池化层2、卷积层4、池化层3、全连接层1、全连接层2、输出层，依次连接组成。

如图6所示，是基于模糊规则的决策级融合模型结构图。具体包括步骤如下：

步骤1：建立模糊期。为了表达分类概率与情感标签之间的关系，分别将表情识别和语音情感识别的置信度转换为模糊变量S_v，j和S_s，j。模糊变量S_v，j和S_s，j对应融合后的模糊变量为S_f，j，j＝1，...，5，

S_v，j，S_s，j，S_f，j＝{none，little，base，entire，enough}，

None，little，base，entire，enough为5个隶属度等级，其中模糊变量“none”表示相关性相当低，后续的隶属度等级对应的相关性递增，“enough”表示相关性高。其中模糊变量“none”表示相关性相当低，相反地，“enough”表示相关性高，在此，将P_v，P_s以及P_f划分为5个模糊集，对应的隶属函数分别为μ_v，μ_s和μ_f，μ_v定义如下：

其中，P_v，P_s，P_f分别为人脸表情识别，语音情感识别，以及融合后情感识别对应的概率矩阵；μ_v，μ_s，μ_f分别为其对应的隶属函数；p_v，i(i＝1，...n.)是样本被判断为某类情感的概率；n为样本数量；μ_v，j分别为S_j对应的隶属度函数。

步骤2：模糊推理。根据模糊逻辑理论，模糊推理通过调用if-then规则，将输入的模糊集映射到输出的模糊集。在此，对模糊集进行数学上的定义，none定义为1，little定义为2，base为3，enough为4，entire为5。同时，视觉和语音模态的权重分别为w₁和w₂，两者的范围在[0，1]，且模态权重和为1；

输入模糊变量S_v，j和S_s，j，输出模糊变量S_f，j由下式计算：

S_f，j＝w₁S_v，j+w₂S_s，j，

其中w₂＝1-w₁，S_v，j，S_s，j，S_f，j∈{1，2，3，4，5}；例如，已知概率p_v，i和p_s，i通过隶属度函数转换为隶属度S_v，j，S_s，j。假设p_v，i为‘none’，p_s，i为‘little’，即S_v，j＝1，S_s，j＝2。当w₁＝0.2，w₂＝0.8时，根据上述公式可得S_f，j为1.6，基于四舍五入原则可知S_f，j＝2。同样，当w₁＝0.6和w₂＝0.4，S_f，j＝1。因此，可得到模糊规则为：if p_v，i为none，p_s，i为little，则p_f，i为little(w₁＝0.2，w₂＝0.8)；if p_v，i为none，p_s，i为little，则p_f，i为none(w₂＝0.6，w₂＝0.4)，对应的模糊规则表如图7所示。考虑到四舍五入原则对于S_f，j计算的影响，w_i划分为下述区间：[0，0.125)，[0.125，1/6)，(1/6，0.25)，(0.25，0.375)，(0.375，0.5)，(0.5，0.625)，(0.625，0.75)，(0.75，5/6)，(5/6，0.875)，(0.875，1]。

步骤3：去模糊。本发明采用了重心法来实现去模糊化，p_f，i可通过下述公式来计算：

本发明上述实施例，重点是通过模糊规则的多层次决策融合策略，根据模态的贡献来分配模态权值，实现基于视觉和语音双模态下的情感识别，改善情感识别率。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于模糊规则的多层次决策融合的情感识别方法，其特征在于，包括如下步骤：

步骤3：建立基于模糊规则的决策级融合语音情感识别模型；

2.如权利要求1所述的基于模糊规则的多层次决策融合的情感识别方法，其特征在于，步骤2包括如下步骤：

输入CNN模型前对面部表情图像进行图像增强处理，将增强处理后的面部表情图像输入到CNN模型中进行识别，得到情感特征识别结果；CNN模型由输入层、卷积层1、卷积层2、池化层1、卷积层3、池化层2、卷积层4、池化层3、全连接层1、全连接层2、输出层依次连接组成。

3.如权利要求1所述的基于模糊规则的多层次决策融合的情感识别方法，其特征在于，步骤3包括如下步骤：

步骤3.1：语音MFCC特征提取，具体的步骤如下：

步骤3.1.1：先对语音进行预加重、分帧、加窗；

其中，预加重中语音通过的数字滤波器为：

假设输入信号第m个采样点为x(m)，则对应的预加重公式为：

y(m)＝x(m)-μx(m-1)，μ＝0.97

z变换之后得到对应的传递函数为：

H(z)＝1-μz^-1

其中，μ为预加重系数。

S_W(n)＝S(n)*w(n)，

其中S(n)为分帧后的信号，n＝0，1...，N-1，N为帧的大小；w(n)为窗函数；

窗函数w(n)为：

步骤3.1.4：在Mel频谱上面进行倒谱分析，得到语音MFCC特征；

步骤3.2：特征选择：

4.如权利要求1所述的基于模糊规则的多层次决策融合的情感识别方法，其特征在于，步骤4包括如下步骤：

步骤4.1：建立基于模糊规则的决策级融合模型：

步骤4.1.1：模糊器：

S_v，j，S_s，j，S_f，j＝{none，little，base，entire，enough}，

其中模糊变量none表示相关性相当低，enough表示相关性高；

步骤4.1.2：模糊推理：

S_f，j＝w₁S_v，j+w₂S_s，j，

其中w₂＝1-w₁，S_v，j，S_s，j，S_f，j∈{1，2，3，4，5}；

将w₁划分为下述区间：

步骤4.1.3：去模糊：

采用重心法来实现去模糊化，通过下述公式来计算：