CN112735479B

CN112735479B - 语音情绪识别方法、装置、计算机设备和存储介质

Info

Publication number: CN112735479B
Application number: CN202110352926.7A
Authority: CN
Inventors: 李鹏; 黄文琦; 梁凌宇; 唐国亮; 衡星辰; 林志达
Original assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Current assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-07-06
Anticipated expiration: 2041-03-31
Also published as: CN112735479A

Abstract

本申请涉及一种语音情绪识别方法、装置、计算机设备和存储介质。所述方法包括：获取待识别的客户语音数据；通过对客户语音数据进行特征提取，得到语音特征集；对语音特征集中的语音特征进行组合拼接，得到客户语音数据对应的语音特征向量；通过训练好的语音情绪识别模型对语音特征向量进行识别，得到客户语音数据对应的语音情感类别；语音情绪识别模型包括卷积神经网络和长短期记忆网络。采用本方法能够提高语音情绪识别的准确性。

Description

语音情绪识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及语音处理技术领域，特别是涉及一种语音情绪识别方法、装置、计算机设备和存储介质。

背景技术

随着人工智能技术的发展，人机交互也越来越频繁；语音技术在人机交互中占据重要的角色，即语音技术渐渐成为信息传输中人机接口的关键技术。语音是人类表达信息的重要载体，通过语音不仅可以传递人类的语义信息，还可以传递情感信息。语音情感识别是一个综合模式识别、信号处理等多种学科的综合性技术，语音情感识别技术可以判断人类的当前情感，通过语音情感识别可以提高用户对人工智能的需求。

然而，目前的语音情绪识别通过基于深度学习的神经网络进行处理，对语音进行局部特征提取识别，得到对应的语音情绪类别，导致语音情绪识别的准确性低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够语音情绪识别的准确性的语音情绪识别方法、装置、计算机设备和存储介质。

一种语音情绪识别方法，所述方法包括：

获取待识别的客户语音数据；

通过对所述客户语音数据进行特征提取，得到语音特征集；

对所述语音特征集中的语音特征进行组合拼接，得到所述客户语音数据对应的语音特征向量；

通过训练好的语音情绪识别模型对所述语音特征向量进行识别，得到所述客户语音数据对应的语音情感类别；所述语音情绪识别模型包括卷积神经网络和长短期记忆网络。

在其中一个实施例中，所述对所述语音特征集中的语音特征进行组合拼接，得到所述客户语音数据对应的语音特征向量，包括：

将所述语音特征集中的梅尔倒谱系数参数、过零率、短时能量、谱平面和色谱图进行组合拼接，得到所述客户语音数据对应的语音特征向量。

在其中一个实施例中，所述通过训练好的语音情绪识别模型对所述语音特征向量进行识别，得到所述客户语音数据对应的语音情感类别，包括：

通过训练好的语音情绪识别模型的卷积神经网络和长短期记忆网络对所述语音特征向量进行卷积、递归处理，得到所述客户语音数据对应的语音情感类别。

在其中一个实施例中，所述语音情绪识别模型的训练，包括：

获取语音训练样本数据；

对所述语音训练样本数据进行特征提取，得到对应的语音样本特征集；

对各所述语音样本特征集中的语音特征进行组合拼接，得到各所述语音样本特征集对应的语音样本特征向量；

根据各所述语音样本特征向量训练构建的语音情绪识别模型中，直到所述语音情绪识别模型收敛，得到训练好的语音情绪识别模型。

在其中一个实施例中，所述获取语音训练样本数据，包括：

获取源语音样本数据；

对所述源语音样本数据进行转码处理，得到转码后的源语音样本数据；

获取所述源语音样本数据的标注信息；

根据所述标注信息对所述源语音样本数据进行切割，得到语音训练样本数据。

在其中一个实施例中，所述对所述源语音样本数据进行转码处理，得到转码后的源语音样本数据，包括：

转换所述源语音样本数据的比特位，得到目标比特位的源语音样本数据；其中，所述比特位小于所述目标比特位。

在其中一个实施例中，所述源语音样本数据是不同用户的对话语音数据，所述根据所述标注信息对所述语音样本数据进行切割，得到语音训练样本数据，包括：

以每个用户的每次对话起点为切割起点，并以每个用户的每次对话终点为切割终点对所述源语音样本数据进行切割，得到每个用户在每次对话的语音数据；

根据各所述语音数据确定语音训练样本数据。

一种语音情绪识别装置，所述装置包括：

获取模块，用于获取待识别的客户语音数据；

特征提取模块，用于通过对所述客户语音数据进行特征提取，得到语音特征集；

拼接模块，用于对所述语音特征集中的语音特征进行组合拼接，得到所述客户语音数据对应的语音特征向量；

识别模块，用于将所述语音特征向量输入至训练好的语音情绪识别模型中，得到所述客户语音数据对应的语音情感类别；所述语音情绪识别模型包括卷积神经网络和长短期记忆网络。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待识别的客户语音数据；

通过对所述客户语音数据进行特征提取，得到语音特征集；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待识别的客户语音数据；

通过对所述客户语音数据进行特征提取，得到语音特征集；

上述语音情绪识别方法、装置、计算机设备和存储介质，通过对获取的待识别的客户语音数据进行特征提取，得到语音特征集；通过对语音特征集中的语音特征进行组合拼接，得到客户语音数据对应的语音特征向量；通过基于卷积神经网络和长短期记忆网络融合得到的训练好的语音情绪识别模型对语音特征向量进行识别，得到客户语音数据对应的语音情感类别，通过组合拼接语音特征，以及融合卷积神经网络和长短期记忆网络来进行语音情绪识别，提高了语音情绪识别的准确性。

附图说明

图1为一个实施例中语音情绪识别方法的应用环境图；

图2为一个实施例中语音情绪识别方法的流程示意图；

图3为一个实施例中语音情绪识别模型的训练方法的流程示意图；

图4为一个实施例中语音情绪识别装置的结构框图；

图5为另一个实施例中语音情绪识别装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的语音情绪识别方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102从服务器104中获取待识别的客户语音数据；通过对客户语音数据进行特征提取，得到语音特征集；对语音特征集中的语音特征进行组合拼接，得到客户语音数据对应的语音特征向量；通过训练好的语音情绪识别模型对语音特征向量进行识别，得到客户语音数据对应的语音情感类别；语音情绪识别模型包括卷积神经网络和长短期记忆网络。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种语音情绪识别方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤202，获取待识别的客户语音数据。

其中，客户语音数据可以但不仅限于是电力客户语音数据。

具体地，从服务器中获取电力客服语音数据，电力客服语音数据中包括不同用户的对话语音数据，例如，包括坐席A与客户A之间的对话语音数据、坐席B与客户B之间的对话语音数据等；对电力客户语音数据进行转码处理，得到目标比特位的客服语音数据；以每个用户的每次对话起点为切割起点，并以每个用户的每次对话终点为切割终点对目标比特位的客服语音数据进行切割，得到每个用户在每次对话的语音数据，通过将客户语音数据进行转码处理，对语音数据进行消噪处理，提高了语音数据的音频质量。

步骤204，通过对客户语音数据进行特征提取，得到语音特征集。

其中，语音特征集中包括梅尔倒谱系数参数（Mel-Frequency CepstralCoefficients，MFCC）、谱平面、过零率、短时能量、色谱图等特征；谱平面为语谱图，谱平面的横坐标是时间，纵坐标是频率，坐标点值为语音数据能量，能量值的大小是通过颜色来表示的，颜色深，表示该点的语音能量越强；短时能量是一帧样点值的加权平方和；过零率（Zero Crossing Rate，ZCR）是指在每帧中，语音信号通过零点（从正变为负或从负变为正）的次数。

具体地，终端通过接口与调用语音信号处理库，对客户语音数据进行特征提取，得到客户语音数据中的MFCC参数、谱平面、过零率、短时能量、色谱图等语音特征，语音信号处理库可以但不仅限于librosa。

步骤206，对语音特征集中的语音特征进行组合拼接，得到客户语音数据对应的语音特征向量。

具体地，采用降维的方式对语音特征集中的语音特征按照预设的组合方式进行组合拼接，得到客户语音数据的特征向量；即将语音特征集中的梅尔倒谱系数参数、过零率、短时能量、谱平面和色谱图进行组合拼接，得到客户语音数据对应的语音特征向量。预设的组合方式可以但不仅限于对语音特征集中的梅尔倒谱系数参数、过零率、短时能量、谱平面和色谱图进行组合拼接；降维是指将高维空间的数据点映射到低维度的空间，通过降维处理，减少客户语音数据中的冗余信息所造成的误差，提高语音特征的精度。

步骤208，通过训练好的语音情绪识别模型对语音特征向量进行识别，得到客户语音数据对应的语音情感类别。

其中，语音情感类别包括正面情绪类别、负面情绪类别和中性情绪类别等。训练好的语音情绪识别模型中包括卷积神经网络和长短期记忆网络。

具体地，通过训练好的语音情绪识别模型的卷积神经网络和长短期记忆网络对语音特征向量进行卷积、递归处理，得到客户语音数据对应的语音情感类别。即通过卷积神经网络对输入的语音特征向量进行卷积处理后，得到卷积结果；将该卷积结果输入至长短期记忆网络中进行递归处理，通过语音情绪识别模型的全连接输出层输出客户语音数据的语音情感类别。

上述语音情绪识别方法中，通过对获取的待识别的客户语音数据进行特征提取，得到语音特征集；通过对语音特征集中的语音特征进行组合拼接，得到客户语音数据对应的语音特征向量；通过基于卷积神经网络和长短期记忆网络融合得到的训练好的语音情绪识别模型对语音特征向量进行识别，得到客户语音数据对应的语音情感类别，通过组合拼接语音特征，以及融合卷积神经网络和长短期记忆网络实现语音情绪识别，提高了语音情绪识别的准确性。

在一个实施例中，如图3所示，提供了一种语音情绪识别模型的训练方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤302，获取语音训练样本数据。

具体地，从本地服务器或者远程服务器中获取语音训练样本数据。

可选地，在一个实施例中通过获取源语音样本数据；对源语音样本数据进行转码处理，得到转码后的源语音样本数据；获取源语音样本数据的标注信息；根据标注信息对源语音样本数据进行切割，得到语音训练样本数据。

其中，源语音样本数据包括不同用户的对话语音数据；转码处理是指转换源语音样本数据的比特位，得到目标比特位的源语音样本数据；其中，比特位小于目标比特位。例如，获取的源语音样本数据的为8bit，进行转码处理转为16bit的源语音样本数据。根据标注信息对语音样本数据进行切割，得到语音训练样本数据，是指以每个用户的每次对话起点为切割起点，并以每个用户的每次对话终点为切割终点对源语音样本数据进行切割，得到每个用户在每次对话的语音数据；根据各语音数据确定语音训练样本数据。

具体地，指转换源语音样本数据的比特位，得到目标比特位的源语音样本数据；以每个用户的每次对话起点为切割起点，并以每个用户的每次对话终点为切割终点对源语音样本数据进行切割，得到每个用户在每次对话的语音数据和各语音数据对应的标签；标签可以是语音情感类别；根据各语音数据以及标签确定语音训练样本数据。

步骤304，对语音训练样本数据进行特征提取，得到对应的语音样本特征集。

具体地，终端通过接口与调用语音信号处理库，对客户语音数据进行特征提取，得到客户语音数据中的MFCC参数、谱平面、过零率、短时能量和色谱图等语音特征，即得到语音样本特征集；其中，将提取到的语音特征以二进制流的方式进行保存，便于语音数据的获取和节约存储空间，提高存储空间的利用率。

步骤306，对各语音样本特征集中的语音特征进行组合拼接，得到各语音样本特征集对应的语音样本特征向量。

具体地，采用降维的方式对各语音样本特征集中的语音特征按照预设的组合方式进行组合拼接，得到各语音样本特征集对应的语音样本特征向量。

步骤308，根据各语音样本特征向量训练构建的语音情绪识别模型中，直到语音情绪识别模型收敛，得到训练好的语音情绪识别模型。

具体地，将获取的各语音样本特征向量按照预设比例（例如，8：2）进行分割，得到训练集和测试集，对构建的语音情绪识别模型进行超参数配置，根据训练集对构建的语音情绪识别模型进行训练，并根据训练结果及时调参，直到语音情绪识别模型收敛，得到训练好的语音情绪识别模型。

可选地，在一个实施例中，预先构建的语音识别模型包括卷积神经网络（Convolutional Neural Network，CNN）和长短期记忆网络（Long Short Term Memory，LSTM）的组合模型、CNN模型、LSTM模型和支持向量机（SVM）模型，其中，在 1D-CNN 网络中采用卷积核大小为 3，每个窗口以 1 为步长在序列数据集矩阵中滑动，设置每个卷积层中的卷积核通道数为 64，该层中采用修正线性单元ReLU 函数为激活函数，而在最大池化层中以 3 为索引区域；最后接一层全连接降维然后用sigmoid做分类。应用一层LSTM，隐层128神经元，加入一层droupout为0.5的随机失活层对网络模型参数进行修剪，采用优化对每个参数实行自适应学习率更新。支持向量机是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。SVM模型是将实例表示为空间中的点，这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后，将新的实例映射到同一空间，并基于它们落在间隔的哪一侧来预测所属类别。

具体地，将获取的各语音样本特征向量按照预设比例（例如，8：2）进行分割，得到训练集和测试集，对构建的各语音情绪识别模型进行超参数配置，根据训练集对构建的CNN和LSTM的组合模型、CNN模型、LSTM模型和支持向量机（SVM）模型依次进行训练，并根据训练结果及时调参，直到语音情绪识别模型收敛，得到训练好的语音情绪识别模型，通过测试集对各训练好的语音情绪识别模型进行测试，根据测试结果从CNN和LSTM组合模型、CNN模型、LSTM模型和支持向量机（SVM）模型中确定准确性最高的目标模型，本实施例中得到的目标模型为CNN和LSTM的组合模型。

上述语音情绪识别模型的训练方法中，通过获取语音训练样本数据，对语音训练样本数据进行特征提取，得到对应的语音样本特征集，对各语音样本特征集中的语音特征进行组合拼接，得到各语音样本特征集对应的语音样本特征向量，根据各语音样本特征向量训练构建的语音情绪识别模型中，直到语音情绪识别模型收敛，得到训练好的语音情绪识别模型，通过对语音训练样本数据进行转码、切割和特征提取，得到语音特征集，通过组合拼接语音特征对构建的语音情绪识别模型进行训练，提高了语音情绪识别模型对语音情绪识别的准确性。

应该理解的是，虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-3中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种语音情绪识别装置，包括：获取模块402、特征提取模块404、拼接模块406和识别模块408，其中：

获取模块402，用于获取待识别的客户语音数据。

特征提取模块404，用于通过对客户语音数据进行特征提取，得到语音特征集。

拼接模块406，用于对语音特征集中的语音特征进行组合拼接，得到客户语音数据对应的语音特征向量。

识别模块408，用于将语音特征向量输入至训练好的语音情绪识别模型中，得到客户语音数据对应的语音情感类别；语音情绪识别模型包括卷积神经网络和长短期记忆网络。

上述语音情绪识别装置中，通过对获取的待识别的客户语音数据进行特征提取，得到语音特征集；通过对语音特征集中的语音特征进行组合拼接，得到客户语音数据对应的语音特征向量；通过基于卷积神经网络和长短期记忆网络融合得到的训练好的语音情绪识别模型对语音特征向量进行识别，得到客户语音数据对应的语音情感类别，通过组合拼接语音特征，以及融合卷积神经网络和长短期记忆网络实现语音情绪识别，提高了语音情绪识别的准确性。

在另一个实施例中，如图5所示，提供了一种语音情绪识别装置，除包括获取模块402、特征提取模块404、拼接模块406和识别模块408之外，还包括：训练模块410、转码模块412和切割模块414，其中：

在一个实施例中，拼接模块406还用于将语音特征集中的梅尔倒谱系数参数、过零率、短时能量、谱平面和色谱图进行组合拼接，得到客户语音数据对应的语音特征向量。

在一个实施例中，识别模块408还用于通过训练好的语音情绪识别模型的卷积神经网络和长短期记忆网络对语音特征向量进行卷积、递归处理，得到客户语音数据对应的语音情感类别。

在一个实施例中，获取模块402还用于获取语音训练样本数据。

在一个实施例中，特征提取模块404还用于对语音训练样本数据进行特征提取，得到对应的语音样本特征集。

在一个实施例中，拼接模块406还用于对各语音样本特征集中的语音特征进行组合拼接，得到各语音样本特征集对应的语音样本特征向量。

训练模块410，用于根据各语音样本特征向量训练构建的语音情绪识别模型中，直到语音情绪识别模型收敛，得到训练好的语音情绪识别模型。

在一个实施例中，获取模块402还用于获取源语音样本数据。

转码模块412，用于对源语音样本数据进行转码处理，得到转码后的源语音样本数据。

在一个实施例中，获取模块402还用于获取源语音样本数据的标注信息。

切割模块414，用于根据标注信息对源语音样本数据进行切割，得到语音训练样本数据。

在一个实施例中，转码模块412还用于转换源语音样本数据的比特位，得到目标比特位的源语音样本数据；其中，比特位小于目标比特位。

在一个实施例中，切割模块414还用于以每个用户的每次对话起点为切割起点，并以每个用户的每次对话终点为切割终点对源语音样本数据进行切割，得到每个用户在每次对话的语音数据。

在一个实施例中，训练模块410还用于根据各语音数据确定语音训练样本数据。

在一个实施例中，通过获取语音训练样本数据，对语音训练样本数据进行特征提取，得到对应的语音样本特征集，对各语音样本特征集中的语音特征进行组合拼接，得到各语音样本特征集对应的语音样本特征向量，根据各语音样本特征向量训练构建的语音情绪识别模型中，直到语音情绪识别模型收敛，得到训练好的语音情绪识别模型。

通过对获取的待识别的客户语音数据进行特征提取，得到语音特征集；通过对语音特征集中的语音特征进行组合拼接，得到客户语音数据对应的语音特征向量；通过基于卷积神经网络和长短期记忆网络融合得到的训练好的语音情绪识别模型对语音特征向量进行识别，得到客户语音数据对应的语音情感类别，通过组合拼接语音特征和融合卷积神经网络和长短期记忆网络得到语音情绪识别模型，实现语音情绪的识别，提高了语音情绪识别的准确性。

关于语音情绪识别装置的具体限定可以参见上文中对于语音情绪识别方法的限定，在此不再赘述。上述语音情绪识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种语音情绪识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待识别的客户语音数据；

通过对客户语音数据进行特征提取，得到语音特征集；

对语音特征集中的语音特征进行组合拼接，得到客户语音数据对应的语音特征向量；

通过训练好的语音情绪识别模型对语音特征向量进行识别，得到客户语音数据对应的语音情感类别；语音情绪识别模型包括卷积神经网络和长短期记忆网络。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

将语音特征集中的梅尔倒谱系数参数、过零率、短时能量、谱平面和色谱图进行组合拼接，得到客户语音数据对应的语音特征向量。

通过训练好的语音情绪识别模型的卷积神经网络和长短期记忆网络对语音特征向量进行卷积、递归处理，得到客户语音数据对应的语音情感类别。

获取语音训练样本数据；

对语音训练样本数据进行特征提取，得到对应的语音样本特征集；

对各语音样本特征集中的语音特征进行组合拼接，得到各语音样本特征集对应的语音样本特征向量；

根据各语音样本特征向量训练构建的语音情绪识别模型中，直到语音情绪识别模型收敛，得到训练好的语音情绪识别模型。

获取源语音样本数据；

对源语音样本数据进行转码处理，得到转码后的源语音样本数据；

获取源语音样本数据的标注信息；

根据标注信息对源语音样本数据进行切割，得到语音训练样本数据。

转换源语音样本数据的比特位，得到目标比特位的源语音样本数据；其中，比特位小于目标比特位。

以每个用户的每次对话起点为切割起点，并以每个用户的每次对话终点为切割终点对源语音样本数据进行切割，得到每个用户在每次对话的语音数据；

根据各语音数据确定语音训练样本数据。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待识别的客户语音数据；

通过对客户语音数据进行特征提取，得到语音特征集；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

获取语音训练样本数据；

获取源语音样本数据；

获取源语音样本数据的标注信息；

根据各语音数据确定语音训练样本数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音情绪识别方法，其特征在于，所述方法包括：

获取待识别的客户语音数据；

通过对所述客户语音数据进行特征提取，得到语音特征集；

通过训练好的语音情绪识别模型对所述语音特征向量进行识别，得到所述客户语音数据对应的语音情感类别；所述语音情绪识别模型包括卷积神经网络和长短期记忆网络；

所述对所述语音特征集中的语音特征进行组合拼接，得到所述客户语音数据对应的语音特征向量，包括：

采用降维的方式对语音特征集中的语音特征按照预设的组合方式进行组合拼接，得到所述客户语音数据对应的语音特征向量；所述语音特征集包括梅尔倒谱系数参数、过零率、短时能量、谱平面和色谱图。

2.根据权利要求1所述的方法，其特征在于，所述通过训练好的语音情绪识别模型对所述语音特征向量进行识别，得到所述客户语音数据对应的语音情感类别，包括：

3.根据权利要求1所述的方法，其特征在于，所述语音情绪识别模型的训练，包括：

获取语音训练样本数据；

根据各所述语音样本特征向量训练构建的语音情绪识别模型中，直到所述语音情绪识别模型收敛，得到训练好的语音情绪识别模型；

所述对各所述语音样本特征集中的语音特征进行组合拼接，得到各所述语音样本特征集对应的语音样本特征向量，包括：

采用降维的方式对各语音样本特征集中的语音特征按照预设的组合方式进行组合拼接，得到各所述语音样本特征集对应的语音样本特征向量；所述语音样本特征集包括梅尔倒谱系数参数、过零率、短时能量、谱平面和色谱图。

4.根据权利要求3所述的方法，其特征在于，所述获取语音训练样本数据，包括：

获取源语音样本数据；

获取所述源语音样本数据的标注信息；

5.根据权利要求4所述的方法，其特征在于，所述对所述源语音样本数据进行转码处理，得到转码后的源语音样本数据，包括：

6.根据权利要求4所述的方法，其特征在于，所述源语音样本数据是不同用户的对话语音数据，所述根据所述标注信息对所述语音样本数据进行切割，得到语音训练样本数据，包括：

根据各所述语音数据确定语音训练样本数据。

7.一种语音情绪识别装置，其特征在于，所述装置包括：

获取模块，用于获取待识别的客户语音数据；

拼接模块，用于对所述语音特征集中的语音特征进行组合拼接，得到所述客户语音数据对应的语音特征向量；还用于采用降维的方式对语音特征集中的语音特征按照预设的组合方式进行组合拼接，得到客户语音数据的特征向量；所述语音特征集包括梅尔倒谱系数参数、过零率、短时能量、谱平面和色谱图；

8.根据权利要求7所述的装置，其特征在于，所述识别模块还用于通过训练好的语音情绪识别模型的卷积神经网络和长短期记忆网络对所述语音特征向量进行卷积、递归处理，得到所述客户语音数据对应的语音情感类别。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。