CN110491416A

CN110491416A - 一种基于lstm和sae的电话语音情感分析与识别方法

Info

Publication number: CN110491416A
Application number: CN201910683508.9A
Authority: CN
Inventors: 李琪; 叶武剑; 刘怡俊; 王峰; 李学易
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2019-11-22
Anticipated expiration: 2039-07-26
Also published as: CN110491416B

Abstract

本发明公开了一种基于LSTM和SAE的电话语音情感分析与识别方法，首先对语音信息进行采样与量化、预加重、分帧、加窗等一系列预处理，随后对语音信息进行快速傅里叶变换以便于得到其频域特征，提取语音特征参数MFCC；本发明构建LSTM+SAE神经网络模型对所提取的MFCC特征参数进行训练，获得语音信号的深度特征信息，结合全连接层与softmax回归算法得到分类准确率，完成模型训练，最终将待测试的MFCC特征参数输入到训练完成的模型中，对电话语音进行情感分析，判断说话人情感。

Description

一种基于LSTM和SAE的电话语音情感分析与识别方法

技术领域

本发明涉及语音识别技术领域，具体涉及一种基于LSTM和SAE的电话语音情感分析与识别方法。

背景技术

随着社会的发展，语音已经成为了人们传递信息和表达自我感情的重要媒介，随着近几年来语音识别和深度学习人工智能方向技术的突破，语音信号也成为了即图像之后信息时代背景下的人与人之间思想沟通、感情交流、人机交互等基本又高效的途径，比如我们常用的语音通话和天猫精灵等智能家居人机交互工具。语音情感识别的研究对于增强计算机的智能化和人性化，开发新型人机环境，以及推动心理学等学科的发展，有着重要的现实意义，并最终产生很大经济效益和社会效益。

电话仍在人们日常交流中占有重要一环，随着人们对机器交互能力的要求越来越高，简单的电话语音内容的识别已经不能满足人们的要求，分析、识别和理解语音中的情感在实际应用中已经变得尤为重要，通过这一技术，可进一步提高客服服务质量，更加深入地理解客户需求，如果计算机能够通过分析人类语音，来判断说话人的具体情感，还可以有效防止电话诈骗。电话语言情感分析技术具有非常广阔的应用前景，它不仅可以应用于人机交互系统，还可以用于语音识别，增强语音识别的鲁棒性；或者用于说话人辨别，提高说话人辨别率。

现有技术中，中国专利CN109785863A公开了一种深度信念网络的语音情感识别方法，该方法将所述语音信号特征采用支持向量机进行语音情感的识别分类，具体步骤为：对语音信号进行预处理，随后所述预处理语音信号采用深度信念网络进行无监督的语音信号特征提取，获得语音信号特征；最后将所述语音信号特征采用支持向量机进行语音情感的识别分类，获得语音情感识别结果；但是该方法缺点为：DBN(深度信念网)在处理与时间相关的特征序列时容易遗漏部分信息，同时支持向量机更偏向于二分类，因此情感分析的结果可能会产生误差。

中国专利CN109767791A公开了一种针对呼叫中心通话的语音情绪识别及应用系统，提取语音信息并对语音信息进行预处理；随后语音关键词检测模块将所述语音特征分析子模块的语音数据识别为情感类关键词和主题类关键词，并获取情绪数据信息及所反应问题数据信息；随后通过情感模型集模块对通话者的情感状态进行动态的捕获及跟踪；最后进行情绪分类，判断待检测的通话中语音的情绪类别；但是该方法的缺点为：语音关键词检索模块构建所需要大量数据集，会耗费更多的人力物力，在效率方面不能比得上拥有特征学习能力的人工神经网络，且关键词作为分类的依据可能会产生较大误差，扰乱情感分析结果。

外国专利WO2016089929A1公开了一种交互式对话系统的情感类型分类方法，将事实或概要文件输入选择与输出语句相关联的情感类型代码，该算法根据事实或概要输入的特定组合选择情感类型。情绪分类算法可以是基于规则的，也可以是从机器学习中派生出来的。用户输入可以进一步指定为情绪分类算法的输入。该技术特别适用于智能手机等移动通信设备，其中的事实或配置文件输入可能来自对设备的各种功能集的使用，包括在线访问、文本或语音通信、调度功能等；但是该方法的缺点为：人机交互对话的输入较为繁琐，在人机匹配输入输出时可能会产生误差，同时采取的的情绪分类算法；无论是基于规则还是基于传统机器学习方法，在进一步提取语音信号的深度特征过程中有所欠缺，会降低情绪分类的准确率。

传统的语音情感识别领域的研究偏向于分析语音的声学统计特征，选用的数据集也是语音条目较少、语义也较简单的情感语音数据库，所以用于情感分析的声学模型不具备普遍性，同时因为统计特征常常使用线性判别分析法，导致分析结果的准确率低；后来虽然提出了一种利用深度信念网络来自动提取特征的方法，并且现有技术中采用过线性判别分类的方法，以及k最近邻法和支持向量机的方法，取得了60％-65％的识别率，但是问题仍然没有得到解决。

而且现有技术在应用电话情感分析过程中，采用传统的神经网络，在训练时，网络之间会作为一个整体进行训练，当训练集数据量较大时，会增加网络的训练时间，使网络的收敛速度变得更慢，有时候甚至会出现梯度消失或者梯度爆炸的现象；比如用随机初始化的方式来初始化网络参数，会导致网络更新时越往下误差校正信号越弱，网络会出现局部最优的现象。同时由于语音信号是一种和时间序列相关的数据，采用传统方法提取深度特征的时候往往会忽略时间序列的影响，所以导致电话语音情感分类的准确率低，影响分析结果。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于LSTM和SAE的电话语音情感分析与识别方法，该方法将语音识别技术与深度学习相结合，搭建LSTM+SAE网络模型作为分类器完成电话语音情感分类，从而对电话语音进行情感分析。

本发明的目的通过下述技术方案实现：

一种基于LSTM和SAE的电话语音情感分析与识别方法，其特征在于，包括下述步骤：

S1，语音信息采样与量化；

首先通过模数转换把模拟信号转化为数字化的语音信号；采样过程是按一定的频率，即每隔一小段时间，测得模拟信号的模拟量值；为保证声音不失真，采样频率在40kHz左右，满足奈奎斯特采样定律；量化就是将采样后的声音幅度划分成为多个幅度区间，将落入同一区间的采样样本量化为同一个值，量化实现了对模拟信号在幅度上的离散化处理；

S2，对语音信息进行预处理；

S2.1，预加重；使信号通过一个高通滤波器，目的是提升高频部分，使信号变的平坦，弥补人耳对高频部分的损失，从而减少信息的流失；

S2.2，分帧；语音信号在一个极短的时间内可以认为是平稳的，这个时间一般持续20～30ms，因此将语音分为一小段一小段来处理，每一段成为帧；为了避免相邻两帧的变化过大，因此会让两相邻帧之间有一段重叠区域，此重叠区域一般为每一帧长度的1/4或1/2；

S2.3，加窗；加窗是为了减少帧起始和结束的地方的信号不连续性问题，完成方法是将每一帧乘以hamming(海明)窗，假设分帧后的信号为S(n),n＝0,1,…,N-1，N为帧的数量，W(n)为hamming窗公式，那么乘上海明窗后H(n)＝S(n)*W(n)，公式如下所示：

W(n，a)＝(1-a)-a*cos[2πos[-1],0<＝n<＝N-1

一般情况下a取0.46；

S3，提取语音特征参数MFCC；

S3.1，快速傅里叶变换(FFT)；

因为信号在时域上的变换通常很难看出信号的特性，所以通过这一过程将它转换为频域上的能量分布来观察，分帧加窗后的各帧信号进行快速傅里叶变换从而得到各帧的频谱；快速傅里叶变换公式如下所示：

式中x(n)为输入的语音信号，N表示傅里叶变换的点数，N可以取512或1024；对分帧加窗后的各帧信号进行快速傅里叶变换从而得到各帧的频谱，并对语音信号的频谱取模平方从而得到语音信号的功率谱；

S3.2，Mel滤波器组；

将功率谱通过一组Mel尺度的三角形滤波器组，此步骤是为了对频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰；

S3.3，对数能量；

此步骤计算每个滤波器组输出的对数能量，每一帧的对数能量加上一帧的对数能量，使得每一帧基本的语音特征就多了一维，包括一个对数能量和剩下的倒频谱参数，其公式如下所示：

其中H_m(k)为三角滤波器的频率响应定义，x_a(k)为快速傅里叶变换得到的频谱，m为Mel滤波器组中滤波器的编号，M表示滤波器个数；

S3.4，离散余弦变换(DCT)；

此步骤为离散余弦变换(DCT)，最终得到MFCC系数，将上述对数能量带入离散余弦变换，求出L阶的参数，其中L阶指MFCC系数阶数，通常取12-16；M是三角滤波器个数；其公式如下所示：

S4，训练语音情感分类模型；

基于深度学习技术，训练人工神经网络来建立分类模型，利用划分完成的训练集中的MFCC语音特征系数作为神经网络的输入，利用验证集评估模型效果，防止出现过拟合，最终完成训练；

其中所述分类模型分为两个部分，分别为LSTM部分和SAE部分；LSTM-SAE模型首先由一个初始LSTM层构成，将从语音信息中提取出来的MFCC特征参数作为输入，输出的不仅仅存储初始网络层的信息，而且还存储任何先前的特征信息；然后将LSTM层的输出紧接着输入到可提取局部特征的SAE网络层中；采用核函数将所述语音信号特征的样本点映射到高维特征空间，获得空间线性可分的样本；最终所述分类模型根据所述空间线性可分的样本对所述语音信号特征进行逻辑判断，通过全连接层和softmax回归算法得到各个类别的概率分布；

S5，测试结果并进行情感分析；

提取待测试语音的MFCC特征参数，将其输入已经训练完成的LSTM-SAE模型中测试模型的预测能力，列表观察情感分类结果，最终根据输出的概率分布对待测语音进行情感的分析。

优选地，所述S4中的LSTM(长短期记忆网络)部分具体为：

LSTM是一个序列到序列的模型，LSTM层的输出是由记忆和当前时刻的输入决定的，以将LSTM最后一个时刻的输出作为特征向量的表示，也可综合考虑每个时刻的输出，LSTM(长短期记忆网络)的门控单元包括输入门、遗忘门和输出门；

LSTM网络以矢量的形式传递特征信息，从而保留了特征之间的语义与时序关系，通过在神经网络层的神经元间建立权连接方式，使隐藏层中间结果可进行循环利用，从而使网络中的信息能够持久化。

优选地，所述S4中的SAE(稀疏自动编码器)部分具体为：

SAE(Sparse AutoEncoder)神经网络是一个由多层稀疏自编码器组成的神经网络，采用softmax回归模型构建分类器来对SAE学习到的特征进行分类，构建一个包含多隐藏层与一个最终全连接层结合softmax激活函数的SAE网络模型。

优选地，所述softmax回归模型具体为：

softmax回归模型是logistic回归模型的一种拓展形式，可用来解决多分类问题；训练情感分析模型使用的损失函数为交叉熵损失函数，交叉熵就是用来判定实际的输出与期望的输出的接近程度，交叉熵与softmax回归一起使用，最终经过Softmax回归处理之后输出各类别的概率分布。

本发明与现有技术相比具有以下的有益效果：

(1)本发明引入LSTM+SAE这一模型，相比传统的深度信念网络，拥有两种不同网络结构的LSTM+SAE模型学习能力更强，LSTM网络在时间序列上对MFCC特征参数进行处理，稀疏自编码器与传统深度信念网络不同的是，自编码器的网络结构是对称的，中间含有多个隐藏层，并且中心层神经元是最少的，输入数据借助权值系数实现从高维向低维预测，最后结合全连接层和激活函数softmax输出概率分布，使得实验结果更加准确；

(2)本发明引入人工神经网络分类器这一模型，相比随后通过情感模型集模块对通话者的情感状态进行动态的捕获及跟踪，神经网络可以使用不同层次的卷积核对语音特征参数进行深度语音特征提取，LSTM网络层能够在时间序列上对语音特征参数进行处理，生成的矢量特征通过SAE可以提取深层次的语音特征，最后卷积层的输出将被汇集到一个较小的纬度，通过全连接层和softmax回归算法输出各个情感的概率分布，能够更加系统地观察和分析输入语音的情感特征，在深度学习与特征提取日益成熟的今天，本发明的效率更高，不用通过语音关键词检测，而是一种端到端的语音情感分类模型；MFCC语音特征参数包含语音信息的对数能量，通过Mel滤波器组尽量模仿人耳所能接收到的信息，其结果更具有参考价值；

(3)本发明采用人工神经网络作为语音情感分析模型，相比交互式对话系统的情感类型分类方法预测，神经网络模型能够提取语音的深度情感特征，更具有客观性，同时也会减少在人机匹配输入输出时所产生的误差；本发明输入获取更加快捷方便，只需要通过语音算法提取MFCC特征即可，实现一种自动情感分类模型，提高情感分析的可靠性，有效地避免了人机交互过程中，信息传输出现误差的情况；同时LSTM是一种特殊的RNN，用于处理语音信号这一种和时间序列相关的特征参数更加准确，有着更好的识别效果。因此LSTM+SAE网络作为分类器能够进一步提高情感分类的准确率。

附图说明

图1为本发明的流程示意图；

图2为本发明的LSTM-SAE网络模型结构示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1～2所示，一种基于LSTM和SAE的电话语音情感分析与识别方法，包括下述步骤：

步骤一，语音信息采样与量化；

首先要明确，语音信号的分析与处理本质上就是对原本语音信号进行离散化、数字化的处理；所以首先通过模数转换把模拟信号转化为数字化的语音信号；采样过程是按一定的频率，即每隔一小段时间，测得模拟信号的模拟量值；为保证声音不失真，采样频率在40kHz左右，满足奈奎斯特采样定律；量化就是将采样后的声音幅度划分成为多个幅度区间，将落入同一区间的采样样本量化为同一个值，量化实现了对模拟信号在幅度上的离散化处理；

步骤二，对语音信息进行预处理；

(1)预加重；使信号通过一个高通滤波器，目的是提升高频部分，使信号变的平坦，弥补人耳对高频部分的损失，从而减少信息的流失；

(2)分帧；语音信号在一个极短的时间内可以认为是平稳的，这个时间一般持续20～30ms，因此将语音分为一小段一小段来处理，每一段成为帧；为了避免相邻两帧的变化过大，因此会让两相邻帧之间有一段重叠区域，此重叠区域一般为每一帧长度的1/4或1/2；

(3)加窗；加窗是为了减少帧起始和结束的地方的信号不连续性问题，完成方法是将每一帧乘以hamming(海明)窗，假设分帧后的信号为S(n),n＝0,1,…,N-1，N为帧的数量，W(n)为hamming窗公式，那么乘上海明窗后H(n)＝S(n)*W(n)，公式如下所示：

W(n，a)＝(1-a)-a*cos[2πos[-1],0<＝n<＝N-1

一般情况下a取0.46；

步骤三，提取语音特征参数MFCC；

(1)快速傅里叶变换(FFT)；

(2)Mel滤波器组；

将功率谱通过一组Mel尺度的三角形滤波器组，此步骤是为了对频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰；这里一般设有20-40个(我们取26个)三角形滤波器；

(3)对数能量；

此步骤计算每个滤波器组输出的对数能量，每一帧的对数能量加上一帧的对数能量(定义：一帧内信号的平方和，再取以10为底的对数值，再乘以10)，使得每一帧基本的语音特征就多了一维，包括一个对数能量和剩下的倒频谱参数，其公式如下所示：

(4)离散余弦变换(DCT)；

步骤四，训练语音情感分类模型；

如图2所示，其中所述分类模型分为两个部分，分别为LSTM部分和SAE部分；LSTM-SAE模型首先由一个初始LSTM层构成，将从语音信息中提取出来的MFCC特征参数作为输入，输出的不仅仅存储初始网络层的信息，而且还存储任何先前的特征信息；然后将LSTM层的输出紧接着输入到可提取局部特征的SAE网络层中；采用核函数将所述语音信号特征的样本点映射到高维特征空间，获得空间线性可分的样本；最终所述分类模型根据所述空间线性可分的样本对所述语音信号特征进行逻辑判断，通过全连接层和softmax回归算法得到各个类别的概率分布。

所述LSTM(长短期记忆网络)部分具体为：

LSTM是一个序列到序列的模型，LSTM层的输出是由记忆和当前时刻的输入决定的，以将LSTM最后一个时刻的输出作为特征向量的表示，也可综合考虑每个时刻的输出，LSTM(长短期记忆网络)的门控单元包括输入门、遗忘门和输出门；此外，记忆单元(cell)也在LSTM网络中发挥着至关重要的作用；

LSTM网络以矢量的形式传递特征信息，从而保留了特征之间的语义与时序关系，通过在神经网络层的神经元间建立权连接方式，使隐藏层中间结果可进行循环利用，从而使网络中的信息能够持久化。正是由于LSTM神经网络对遗忘门、输入门、输出门及记忆单元的巧妙设置，使得该网络能够保留有用信息，从而一定程度上解决了长期依赖问题；因此其相比于别的神经网络更适合处理序列预测问题，我们将其应用在电话语音情感分析系统中,提升了语音分类的正确率。

所述SAE(稀疏自动编码器)部分具体为：

AutoEncoder(自编码)神经网络是一种无监督学习算法，其网络的输出值与输入值相同；传统的自编码神经网络共分为三层，分别为输入层、隐藏层和输出层，SAE(SparseAutoEncoder)神经网络是一个由多层稀疏自编码器组成的神经网络，采用softmax回归模型构建分类器来对SAE学习到的特征进行分类，构建一个包含多隐藏层与一个最终全连接层结合softmax激活函数的SAE网络模型。

LSTM-SAE模型解决多分类问题所用方法是设置n个输出节点，其中n为类别的个数。对于每一个样例，神经网络可以得到的一个n维数组作为输出结果。数组中的每一个维度(也就是每一个输出节点)对应一个类别。在理想情况下，如果一个样本属于类别k，那么这个类别所对应的输出节点的输出值应该为1，而其他节点的输出都为0。

其中，所述softmax回归模型具体为：

步骤五，测试结果并进行情感分析；

提取待测试语音的MFCC特征参数，将其输入已经训练完成的LSTM-SAE模型中测试模型的预测能力，列表观察情感分类结果，注意此步骤可以选取多段电话语音作为测试集来测试模型情感分类结果，由于测试集中的电话语音是未经过模型训练的，所以得到的结果更具有说服力，增加了模型应用的普遍性；最终根据输出的概率分布对待测语音进行情感的分析。

本发明将语音识别与深学习技术应用到电话语音情感分析过程中：首先对语音信号进行预处理，随后经过快速傅里叶变换、Mel滤波器组、对数能量计算、DCT变换等步骤提取语音特征参数MFCC；接下来构建LSTM+SAE模型，进一步提取语音片段的深度特征信息，结合全连接层与softmax回归算法得出不同情感的概率分布，从而构建出语音分类模型,用于对电话语音情感进行分析。

本发明引入LSTM+SAE这一模型，相比传统的深度信念网络，拥有两种不同网络结构的LSTM+SAE模型学习能力更强，LSTM网络在时间序列上对MFCC特征参数进行处理，稀疏自编码器与传统深度信念网络不同的是，自编码器的网络结构是对称的，中间含有多个隐藏层，并且中心层神经元是最少的，输入数据借助权值系数实现从高维向低维预测，最后结合全连接层和激活函数softmax输出概率分布，使得实验结果更加准确；

引入人工神经网络分类器这一模型，相比随后通过情感模型集模块对通话者的情感状态进行动态的捕获及跟踪，神经网络可以使用不同层次的卷积核对语音特征参数进行深度语音特征提取，LSTM网络层能够在时间序列上对语音特征参数进行处理，生成的矢量特征通过SAE可以提取深层次的语音特征，最后卷积层的输出将被汇集到一个较小的纬度，通过全连接层和softmax回归算法输出各个情感的概率分布，能够更加系统地观察和分析输入语音的情感特征，在深度学习与特征提取日益成熟的今天，本发明的效率更高，不用通过语音关键词检测，而是一种端到端的语音情感分类模型；MFCC语音特征参数包含语音信息的对数能量，通过Mel滤波器组尽量模仿人耳所能接收到的信息，其结果更具有参考价值；

采用人工神经网络作为语音情感分析模型，相比交互式对话系统的情感类型分类方法预测，神经网络模型能够提取语音的深度情感特征，更具有客观性，同时也会减少在人机匹配输入输出时所产生的误差；本发明输入获取更加快捷方便，只需要通过语音算法提取MFCC特征即可，实现一种自动情感分类模型，提高情感分析的可靠性，有效地避免了人机交互过程中，信息传输出现误差的情况；同时LSTM是一种特殊的RNN，用于处理语音信号这一种和时间序列相关的特征参数更加准确，有着更好的识别效果。因此LSTM+SAE网络作为分类器能够进一步提高情感分类的准确率。

上述为本发明较佳的实施方式，但本发明的实施方式并不受上述内容的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于LSTM和SAE的电话语音情感分析与识别方法，其特征在于，包括下述步骤：

S1，语音信息采样与量化；

首先通过模数转换把模拟信号转化为数字化的语音信号；采样过程是按一定的频率，即每隔一小段时间，测得模拟信号的模拟量值，为保证声音不失真，采样频率在40kHz左右，满足奈奎斯特采样定律；量化就是将采样后的声音幅度划分成为多个幅度区间，将落入同一区间的采样样本量化为同一个值，量化实现了对模拟信号在幅度上的离散化处理；

S2，对语音信息进行预处理；

W(n，a)＝(1-a)-a*cos[2πos[-1],0<＝n<＝N-1

一般情况下a取0.46；

S3，提取语音特征参数MFCC；

S3.1，快速傅里叶变换(FFT)；

S3.2，Mel滤波器组；

S3.3，对数能量；

S3.4，离散余弦变换(DCT)；

S4，训练语音情感分类模型；

S5，测试结果并进行情感分析；

2.根据权利要求1所述的基于LSTM和SAE的电话语音情感分析与识别方法，其特征在于，所述S4中的LSTM(长短期记忆网络)部分具体为：

3.根据权利要求1所述的基于LSTM和SAE的电话语音情感分析与识别方法，其特征在于，所述S4中的SAE(稀疏自动编码器)部分具体为：

4.根据权利要求3所述的基于LSTM和SAE的电话语音情感分析与识别方法，其特征在于，所述softmax回归模型具体为：