CN115273904A

CN115273904A - 一种基于多特征融合的愤怒情绪识别方法及装置

Info

Publication number: CN115273904A
Application number: CN202210873276.5A
Authority: CN
Inventors: 徐新民; 李洋; 华迎凯; 李健卫; 夏王浩
Original assignee: Jinhua Research Institute Of Zhejiang University; Zhejiang University ZJU
Current assignee: Jinhua Research Institute Of Zhejiang University; Zhejiang University ZJU
Priority date: 2022-07-22
Filing date: 2022-07-22
Publication date: 2022-11-01

Abstract

本发明公开了一种基于多特征融合的愤怒情绪识别方法及装置，该方法包括：采用梅尔频率倒谱系数MFCC和逆梅尔频率倒谱系数IMFCC作为愤怒情绪识别的语音特征；针对特征融合，在语音信号的低频段和高频段分别使用梅尔滤波器组和逆梅尔滤波器组，建立混合梅尔频率倒谱系数M‑MFCC；引入Gammatone倒谱系数GFCC；针对特征融合冗余，对各维特征的Fisher比从高到底进行排序，由M‑MFCC构建特征参数F‑MFCC，由M‑MFCC和GFCC构建特征参数F‑MGCC；使用卷积神经网络CNN来获取语音特征参数中空间维度的特征向量，使用多头自注意力机制和双向长短时记忆网络获取语音特征参数中时间维度的特征向量，利用Softmax进行分类，实现对愤怒情绪的识别。

Description

一种基于多特征融合的愤怒情绪识别方法及装置

技术领域

本发明涉及一种基于多特征融合的愤怒情绪识别方法及装置，属于人工智能、数字信号处理技术、检测技术领域。

背景技术

随着科学技术的进步和深度学习研究的深入，语音情感识别在生活中的应用逐渐广泛。语音是表达个人情感信息的最明显和最直接的方式之一，也是传递情绪的最精确和最具有多样性的媒介。语音情绪识别SER是人机交互领域中的一个新兴领域，已成为人工智能领域科学研究的热点。

愤怒情绪识别属于语音情绪识别的分支之一，拥有着广阔的应用前景。包括车载、医疗、安检等各个场景，具体可用于“路怒症”识别、精神类疾病的健康监测、人工智能音响等多种场景。

目前有的愤怒情绪识别方法有实验室模拟法、量表问卷调查法、生理测量法等，但由于检测设备复杂，无法及时更新愤怒识别系统中的算法参数。同时，现有的情绪识别所基于的数据集往往不包含噪音，与实际情绪识别环境存在差异，因而无法在实际环境中普遍使用。

发明内容

本发明的目的在于针对现有技术的不足，提出一种基于多特征融合的愤怒情绪识别方法，本发明提取表征愤怒情绪的语音特征，愤怒特征具有高鲁棒性、高泛化性，本发明方法提高了愤怒情绪识别的准确率。

本发明的目的是通过以下技术方案来实现的：

根据本说明书的第一方面，提供一种基于多特征融合的愤怒情绪识别方法，该方法包括以下步骤：

(1)采用梅尔频率倒谱系数MFCC和逆梅尔频率倒谱系数IMFCC作为愤怒情绪识别的语音特征，通过引入IMFCC弥补了MFCC特征不能很好表征愤怒高频信号的缺陷；

(2)针对特征融合，在语音信号的低频段和高频段分别使用梅尔滤波器组和逆梅尔滤波器组，建立混合梅尔频率倒谱系数M-MFCC；

(3)针对语音特征鲁棒性差的特点，引入Gammatone倒谱系数GFCC；

(4)针对特征融合冗余，根据每一阶特征参数在愤怒情绪识别中的贡献程度，对各维度特征的Fisher比从高到底进行排序，由M-MFCC构建特征参数F-MFCC，由M-MFCC和GFCC构建特征参数F-MGCC；

(5)使用卷积神经网络CNN来获取语音特征参数中空间维度的特征向量，使用多头自注意力机制Multi-headed Self-Attention和双向长短时记忆网络Bi-LSTM获取语音特征参数中时间维度的特征向量，利用Softmax进行分类，实现对愤怒情绪的识别。

进一步地，采用梅尔频率倒谱系数MFCC作为语音信号的相关特征，能够表征说话人情绪的同时，具备较强的抗噪能力，所述梅尔频率倒谱系数MFCC的获取方式包括：

对每条输入的语音信号进行预加重、分帧加窗和端点检测；

将每帧语音信号进行傅里叶变换FFT得到频域信号，获得分布在时间轴上不同时间窗内的频谱；

将频域信号通过梅尔滤波器组得到各帧对应不同滤波器的能量并取对数；

计算离散余弦变换DCT，得到梅尔频率倒谱系数MFCC，获得语音特征。

进一步地，梅尔频率倒谱系数MFCC在中高频区域频率波动相对缓慢，引入逆梅尔频率倒谱系数IMFCC用于弥补MFCC特征不能很好表征愤怒高频信号的缺陷，所述逆梅尔频率倒谱系数IMFCC的获取方式包括：

对每条输入的语音信号进行预加重、分帧加窗和端点检测；

将梅尔滤波器组进行翻转，使得其在高频段较为密集，从而在高频段有更好的频率分辨率；将频域信号通过翻转后的梅尔滤波器组得到各帧对应不同滤波器的能量并取对数；

对于语音信号的频率-功率谱，设置逆梅尔滤波器组最高频率为8000Hz，实现对高频特征的表征；

计算离散余弦变换DCT，得到逆梅尔频率倒谱系数IMFCC，获得语音特征。

进一步地，所述Gammatone倒谱系数GFCC的获取方式包括：

Gammatone倒谱系数GFCC有较强的抗噪声能力和语音追踪能力，能够兼顾语音中的清音和浊音，可以作为端点检测特征；

对每条输入的语音信号进行预加重、分帧加窗和端点检测；

对每帧语音信号进行快速傅里叶变换得到频域信号；

将频域信号通过Gammatone滤波器组得到各帧对应不同滤波器的能量并取对数，例如使用64个Gammatone滤波器；

Gammatone特征系数GF相互之间具有高度相关性，对Gammatone特征系数GF进行离散余弦变换DCT，从而减小了GF之间的相关性，最终得到Gammatone倒谱系数GFCC。

进一步地，所述混合梅尔频率倒谱系数M-MFCC的获取方式包括：

MFCC在1-4000Hz的低频段分辨率高，IMFCC在4000-8000Hz的高频段分辨率高；

梅尔滤波器组在指定的频谱区域范围内设置多个带通三角滤波器；

针对特征融合，在低频段和高频段分别使用12阶梅尔滤波器组和12阶逆梅尔滤波器组，对于MFCC的1-6阶系数和IMFCC的7-12阶系数进行拼接，得到整个频谱区域频率分辨率均满足要求的12阶混合梅尔频率倒谱系数M-MFCC。

进一步地，在语音信号处理过程中，往往会由于数据维度较高，产生大量冗余；针对特征融合冗余，利用Fisher比计算各维度特征对愤怒情绪识别贡献度的高低，实现有监督的降维；

使用等方差分析方法，将语音信号数据在空间维度上进行投影，使得同为愤怒和同为非愤怒情绪类别的特征点在多维空间中的各自所在的投影区域距离相对集中，愤怒情绪类别和非愤怒情绪类别的特征点在多维空间中的两个投影区域距离相对分散。

进一步地，重构泛化F-MFCC，包括：

对每条语音样本提取MFCC、IMFCC特征参数，计算出对应的Fisher比；

所有倒谱系数各阶的Fisher比值进行从高到低的排序；

选择排名最高的12维特征，并将该12维特征进行拼接，组合成为F-MFCC特征。

进一步地，重构泛化F-MGCC，包括：

对每条语音样本提取MFCC、IMFCC、GFCC特征参数，得到三个倒谱系数的Fisher比；

所有倒谱系数各阶的Fisher比值进行从高到低的排序；

选择排名最高的18维特征，并将该18维特征进行拼接，组合成为F-MGCC特征。

进一步地，构建用于愤怒情绪识别的多头自注意力机制Multi-headed Self-Attention和双向长短时记忆网络Bi-LSTM融合决策模型，包括：

利用卷积神经网络CNN来获取语音特征参数中的空间维度的特征向量；

利用Bi-LSTM结合Multi-headed Self-Attention来获取语音特征参数中的时间维度的特征向量；

将空间维度的特征向量和时间维度的特征向量进行拼接后，经过全连接层，利用Softmax函数完成愤怒情绪识别分类任务。

根据本说明书的第二方面，提供一种基于多特征融合的愤怒情绪识别装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，用于实现如第一方面所述的基于多特征融合的愤怒情绪识别方法。

本发明的有益效果：本发明语音识别中的愤怒情绪识别方法包含4个特征提取节点，流程清晰完整。由于MFCC特征不能较好表征高频信号，引入IMFCC对高频特征进行表征，从而对愤怒特征进行提取和放大。其次，针对特征鲁棒性，引入了GFCC。在特征融合方面，将12阶梅尔滤波器和12阶逆梅尔滤波器阶进行组合，分别对于0-4000Hz和4000-8000Hz语音信号进行提取，得到12阶混合梅尔频率倒谱系数M-MFCC。最后，通过Fisher比对MFCC、IMFCC、GFCC进行降维融合后，分别得到改进的F-MFCC和F-MGCC用于愤怒情绪识别，在RAVDESS和CASIA数据集上分别得到了93.83％和94.72％的准确率。

附图说明

图1是本发明实施例一提供的梅尔频率倒谱系数MFCC特征提取的流程图。

图2是本发明实施例二提供的Gammatone倒谱系数GFCC特征提取的流程图。

图3是本发明实施例三提供的混合梅尔频率倒谱系数M-MFCC特征提取的流程图。

图4是本发明实施例四提供的F-MFCC提取的流程图。

图5是本发明实施例五提供的F-MGCC提取的流程图。

图6是本发明实施例提供的基于多特征融合的愤怒情绪识别装置的结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本实施例中的技术方案进行清楚、完整地描述。除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

实施例一

如图1所示，在本实施例中，采用梅尔频率倒谱系数MFCC作为语音特征。

采用梅尔频率倒谱系数MFCC作为语音信号的相关特征，利用傅里叶变换将时域信号映射转换为频域信号的分析方法，特征能够表征说话人情绪的同时，具备较强的抗噪能力；

使用对数表达式来模拟人耳对不同频率的声音的非线性感知，先将线性频谱映射到能够反映人类听觉的梅尔非线性频谱中，然后转换到倒谱上；

具体地，对每条输入的语音信号进行预加重、分帧加窗和端点检测，得到s_i(n)，其中i表示第i帧；

将每帧语音信号进行傅里叶变换FFT得到频域信号：

计算梅尔滤波器组，其次将频谱通过各个梅尔滤波器，然后计算能量，最终取对数：

式中，k表示语音信号频域对应谱线，M为梅尔滤波器的数量，H_m(k)表示第m个梅尔滤波器的传递函数；

计算离散余弦变换DCT，得到倒谱：

式中，i表示第i帧信号，n表示MFCC系数阶数，n∈[12,16]。

由于梅尔滤波器在低频区滤波器分布较为密集，能够很好表征低频信号，但是愤怒频率往往较高。因此可以将梅尔滤波器组进行翻转，使得其在高频区域较为密集。通过对于愤怒信号的频率-功率分析，设置滤波器最高频率为8000Hz，实现对高频特征的表征。

实施例二

如图2所示，在本实施例中，针对其鲁棒性差的特点，引入Gammatone倒谱系数GFCC。Gammatone特征系数GF相互之间具有高度相关性，对特征系数GF进行离散余弦变换DCT，从而减小了GF之间的相关性，最终得到GFCC；

GFCC有较强的抗噪声能力和语音追踪能力，能够兼顾语音中的清音和浊音，可以作为端点检测特征；

具体地，对每条输入的语音信号进行预加重、分帧加窗和端点检测；

通过将每帧语音语音信号进行快速傅里叶转换，获得频域信息；

计算Gammatone滤波器组(简称为GT)，将频谱通过Gammatone滤波器组得到各个帧对应不同滤波器的能量，并取对数：

式中，A、f₀和

分别为滤波器增益、中心频率和初始相位，A取1，

取0。G为Gammatone滤波器的数量，取64。b通过等效矩形带宽ERB计算得到：

式中，N表示滤波器阶数，N＝4，ERB＝0.982b。

计算离散余弦变换DCT，得到倒谱：

式中，GTCC_i(m)表示第i帧第m阶GFCC系数，S_i(n)表示是经过第n个滤波器的取对数后的能量。N为Gammatone滤波器个数，M为GFCC系数阶数。

实施例三

如图3所示，在本实施例中，MFCC和IMFCC分别在低频、高频进行信号的表征。由于传统的梅尔滤波器组在频率低的区域散布稠密，而在频率高的区域散布稀少，可以利用梅尔滤波器和逆梅尔滤波器组进行组合，对于MFCC的1-6阶系数和IMFCC的7-12阶系数进行拼接，得到混合梅尔频率倒谱系数M-MFCC。

具体地，对每条输入的信号进行预加重、分帧加窗和端点检测；

通过将每帧语音信号进行快速傅里叶转换，获得频域信息；

在低频段(1-4000Hz)、高频段(4000-8000Hz)分别使用12阶梅尔滤波器组和12阶逆梅尔滤波器组；

将频谱通过各个梅尔滤波器，计算能量并取对数；

计算离散余弦变换DCT，产生混合MFCC特征，具有在高、低频段频率都能够进行较好表示的特性，得到12阶混合梅尔频率倒谱系数M-MFCC。

实施例四

如图4所示，在本实施例中，对于MFCC和GFCC采用拼接融合产生的数据维度较高，将导致大量冗余，通过Fisher比准则，能够实现有监督的降维，去除冗余特征，提高后续计算效率和准确率。

Fisher比使用等方差分析方法，将语音信号数据在空间维度上进行投影，使得同为愤怒和同为非愤怒情绪类别的特征点在多维空间中的各自所在的投影区域距离相对集中，愤怒情绪类别和非愤怒情绪类别的特征点在多维空间中的两个投影区域距离相对分散。

Fisher比能够衡量特征的贡献程度，针对各个维的某一特征，其Fisher比越大，表示该特征能够较好进行特征的区分，越能够更好识别愤怒情绪。根据Fisher比的大小进行语音特征的选取。

具体地，分别提取MFCC、IMFCC系数的12维特征；

计算出12阶MFCC和12阶IMFCC中的每一阶Fisher比。

根据不同MFCC、IMFCC中每一阶特征参数在愤怒情绪识别中的贡献程度，对各维特征的Fisher比从高到底进行排序。

将该12维特征进行拼接，选取MFCC中的第1、2、3、4、5、8、9阶，IMFCC中的第1、2、6、7、8阶，组成新的12阶F-MFCC特征。

实施例五

如图5所示，通过Fisher比对MFCC、IMFCC、GFCC进行降维融合后，分别得到改进的F-MFCC和F-MGCC用于愤怒情绪识别。

具体地，对每条语音样本提取MFCC、IMFCC、GFCC特征参数，得到三个倒谱系数的Fisher比；

将所有倒谱系数各阶的Fisher比值进行从高到低的排序，最后选择排名最高的18维特征；

将该18维特征进行拼接，组合成为F-MGCC特征。选取MFCC中的第1、2、3、4、5、8阶，IMFCC中的第1、2、6、7阶，GFCC中的第1、2、3、6、7、8、10、12阶组成新的18阶F-MGCC特征。

与前述基于多特征融合的愤怒情绪识别方法的实施例相对应，本发明还提供了基于多特征融合的愤怒情绪识别装置的实施例。

参见图6，本发明实施例提供的一种基于多特征融合的愤怒情绪识别装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，用于实现上述实施例中的基于多特征融合的愤怒情绪识别方法。

本发明基于多特征融合的愤怒情绪识别装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图6所示，为本发明基于多特征融合的愤怒情绪识别装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于多特征融合的愤怒情绪识别方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种基于多特征融合的愤怒情绪识别方法，其特征在于，包括以下步骤：

(1)采用梅尔频率倒谱系数MFCC和逆梅尔频率倒谱系数IMFCC作为愤怒情绪识别的语音特征，；

(3)针对语音特征鲁棒性差的特点，引入Gammatone倒谱系数GFCC；

2.如权利要求1所述的基于多特征融合的愤怒情绪识别方法，其特征在于，所述梅尔频率倒谱系数MFCC的获取方式包括：

对每条输入的语音信号进行预加重、分帧加窗和端点检测；

3.如权利要求1所述的基于多特征融合的愤怒情绪识别方法，其特征在于，所述逆梅尔频率倒谱系数IMFCC的获取方式包括：

对每条输入的语音信号进行预加重、分帧加窗和端点检测；

将梅尔滤波器组进行翻转，将频域信号通过翻转后的梅尔滤波器组得到各帧对应不同滤波器的能量并取对数；

4.如权利要求1所述的基于多特征融合的愤怒情绪识别方法，其特征在于，所述Gammatone倒谱系数GFCC的获取方式包括：

对每条输入的语音信号进行预加重、分帧加窗和端点检测；

对每帧语音信号进行快速傅里叶变换得到频域信号；

将频域信号通过Gammatone滤波器组得到各帧对应不同滤波器的能量并取对数；

对Gammatone特征系数GF进行离散余弦变换DCT，最终得到Gammatone倒谱系数GFCC。

5.如权利要求1所述的基于多特征融合的愤怒情绪识别方法，其特征在于，所述混合梅尔频率倒谱系数M-MFCC的获取方式包括：

针对特征融合，在低频段和高频段分别使用12阶梅尔滤波器组和12阶逆梅尔滤波器组，得到整个频谱区域频率分辨率均满足要求的混合梅尔频率倒谱系数M-MFCC。

6.如权利要求1所述的基于多特征融合的愤怒情绪识别方法，其特征在于，针对特征融合冗余，利用Fisher比计算各维度特征对愤怒情绪识别贡献度的高低，实现有监督的降维；

7.如权利要求1所述的基于多特征融合的愤怒情绪识别方法，其特征在于，重构泛化F-MFCC，包括：

所有倒谱系数各阶的Fisher比值进行从高到低的排序；

8.如权利要求1所述的基于多特征融合的愤怒情绪识别方法，其特征在于，重构泛化F-MGCC，包括：

所有倒谱系数各阶的Fisher比值进行从高到低的排序；

9.如权利要求1所述的基于多特征融合的愤怒情绪识别方法，其特征在于，构建用于愤怒情绪识别的多头自注意力机制Multi-headed Self-Attention和双向长短时记忆网络Bi-LSTM融合决策模型，包括：

10.一种基于多特征融合的愤怒情绪识别装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，其特征在于，所述处理器执行所述可执行代码时，用于实现如权利要求1-9中任一项所述的基于多特征融合的愤怒情绪识别方法。