CN111145786A

CN111145786A - 语音情感识别方法和装置、服务器、计算机可读存储介质

Info

Publication number: CN111145786A
Application number: CN201911300620.6A
Authority: CN
Inventors: 刘峰; 涂臻; 刘广志; 刘云峰
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2020-05-12

Abstract

本申请涉及一种语音情感识别方法和装置、服务器、计算机可读存储介质，包括：从原始音频帧序列中获取有效音频片段。对有效音频片段提取音频特征及文本特征，将有效音频片段的音频特征及文本特征，输入至预设语音情感识别模型中进行语音情感识别，得到原始音频帧序列的情感分类。不仅从原始音频帧序列中的有效音频片段中提取出文本特征，还提取出音频特征。然后，将所提取出的文本特征和音频特征同时一起输入至预设语音情感识别模型中进行处理，最终得到原始音频帧序列的情感分类。显然，对原始音频帧序列中的有效音频片段同时从文本特征和音频特征两个维度进行识别出情感分类，大大提高了所得到的情感分类的准确性。

Description

语音情感识别方法和装置、服务器、计算机可读存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种语音情感识别方法和装置、服务器、计算机可读存储介质。

背景技术

随着语音识别技术的发展，识别准确率不断提高，语音识别技术也被应用到越来越多的场景。通过语音不仅可以传递语义信息，还可以传递情感信息。因此，语音情感识别也是语音识别的一个重要组成部分，对语音的情感进行识别，有利于更全面地捕捉到语音的全部信息。但是，传统的语音情感识别技术对情感的识别准确率较低，因此，亟待解决传统的语速情感识别准确率较低的问题。

发明内容

本申请实施例提供一种语音情感识别方法、装置、服务器、计算机可读存储介质，可以提高语音情感识别的准确性。

一种语音情感识别方法，包括：

从原始音频帧序列中获取有效音频片段；

对所述有效音频片段提取音频特征及文本特征；

将所述有效音频片段的音频特征及文本特征，输入至预设语音情感识别模型中进行语音情感识别，得到所述原始音频帧序列的情感分类。

在其中一个实施例中，所述从原始音频帧序列中获取有效音频片段，包括：

对原始音频帧序列进行语音端点检测，将所述原始音频帧序列分割为有效音频片段和无效音频片段；

从所述原始音频帧序列分割后的有效音频片段和无效音频片段中，获取有效音频片段。

在其中一个实施例中，所述对所述有效音频片段提取音频特征及文本特征，包括：

将所述有效音频片段按照预设规则划分为多个音频单元；

对所述有效音频片段中的每个音频单元提取音频特征；

对所述有效音频片段中的每个音频单元进行文本标注，得到所述有效音频片段中的每个音频单元的文本序列；

对所述文本序列进行分词处理，得到所述有效音频片段中的每个音频单元的文本特征。

在其中一个实施例中，所述音频特征包括梅尔频率倒谱系数；

所述对所述有效音频片段中的每个音频单元提取音频特征，包括：

对所述有效音频片段中的每个音频单元经过快速傅里叶变换及梅尔滤波器组的处理，提取出梅尔频率倒谱系数；

所述将所述有效音频片段的音频特征及文本特征，输入至预设语音情感识别模型中进行语音情感识别，得到所述原始音频帧序列的情感分类，包括：

将所述有效音频片段的梅尔频率倒谱系数及文本特征，输入至预设语音情感识别模型中进行语音情感识别，得到所述原始音频帧序列的情感分类。

在其中一个实施例中，所述预设语音情感识别模型的生成过程包括：

从训练集中的原始音频帧序列中获取有效音频片段；

对所述有效音频片段提取音频特征及文本特征；

对所述有效音频片段进行情感标注，得到所述有效音频片段的情感标签；

将所述训练集中每一组所述有效音频片段的音频特征及文本特征、所述有效音频片段的情感标签，输入至卷积神经网络中进行训练，对所述卷积神经网络的参数进行调整，得到预设语音情感识别模型。

在其中一个实施例中，所述卷积神经网络包括双向长短期记忆网络层、子采样层、批量标准化BN层、最大池化层、全连接层及多分类器softmax层；

所述将所述训练集中每一组所述有效音频片段的音频特征及文本特征、所述有效音频片段的情感标签，输入至卷积神经网络中进行训练，对所述卷积神经网络的参数进行调整，得到预设语音情感识别模型，包括：

将所述训练集中每一组所述有效音频片段的音频特征及文本特征，输入至所述双向长短期记忆网络层进行卷积计算；

将所述双向长短期记忆网络层的输出，输入至所述子采样层进行子采样；

将所述子采样层的输出输入至所述BN层进行卷积计算；

将所述BN层的输出输入至所述最大池化层进行池化处理；

将所述最大池化层的输出输入至全连接层及softmax层进行处理，得到所述有效音频片段的情感分类及对应的概率；

获取最大的概率所对应的情感分类作为所述有效音频片段的情感分类，将所述有效音频片段的情感分类与所述有效音频片段的情感标签进行比较，根据比较结果对所述卷积神经网络的参数进行调整，直到对所述训练集中每一组所述有效音频片段完成训练，输出预设语音情感识别模型。

在其中一个实施例中，在所述将所述子采样层的输出输入至所述BN层进行卷积计算之后，包括：

将所述BN层的输出重复输入至所述双向长短期记忆网络层进行卷积计算；

将所述子采样层的输出输入至所述BN层进行卷积计算，所述重复次数小于设定阈值。

一种语音情感识别装置，包括：

有效音频片段获取模块，用于从原始音频帧序列中获取有效音频片段；

音频特征及文本特征提取模块，用于对所述有效音频片段提取音频特征及文本特征；

语音情感识别模块，用于将所述有效音频片段的音频特征及文本特征，输入至预设语音情感识别模型中进行语音情感识别，得到所述原始音频帧序列的情感分类。

一种服务器，包括存储器及处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如上方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上方法的步骤。

上述语音情感识别方法、装置、服务器、计算机可读存储介质，从原始音频帧序列中获取有效音频片段。对有效音频片段提取音频特征及文本特征，将有效音频片段的音频特征及文本特征，输入至预设语音情感识别模型中进行语音情感识别，得到原始音频帧序列的情感分类。不仅从原始音频帧序列中的有效音频片段中提取出文本特征，还提取出音频特征。然后，将所提取出的文本特征和音频特征同时一起输入至预设语音情感识别模型中进行处理，最终得到原始音频帧序列的情感分类。显然，对原始音频帧序列中的有效音频片段同时从文本特征和音频特征两个维度进行识别出情感分类，大大提高了所得到的情感分类的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中的应用场景示意图；

图2为一个实施例中语音情感识别方法的流程图；

图3为图2中对有效音频片段提取音频特征及文本特征方法的流程图；

图4为一个实施例中提取音频特征的流程图；

图5为一个实施例中预设语音情感识别模型的生成过程的流程图；

图6为一个实施例中卷积神经网络的结构框图；

图7为一个实施例中语音情感识别装置的结构框图；

图8为另一个实施例中语音情感识别装置的结构框图；

图9为一个实施例中服务器的内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。

如图1所示，为一个实施例中语速识别方法的应用环境示意图。该应用环境包括终端120及服务器140，终端120可以将所获取的原始音频帧序列，发送至服务器140，服务器140获取原始音频帧序列，从原始音频帧序列中获取有效音频片段，对有效音频片段提取音频特征及文本特征。将有效音频片段的音频特征及文本特征，输入至预设语音情感识别模型中进行语音情感识别，得到原始音频帧序列的情感分类。可以理解的是，上述终端120可以不限于是各种手机、电脑、可携带设备、录音设备等可以采集或存储音频的设备。

图2为一个实施例中语音情感识别方法的流程图，如图2所示，提供了一种语音情感识别方法，应用于服务器，包括步骤220至步骤260。

步骤220，从原始音频帧序列中获取有效音频片段。

终端将音频文件发送至服务器，服务器获取到音频文件之后，对音频文件进行预处理生成原始音频帧序列。其中，对音频文件进行预处理，包括将音频文件转码为统一采样率、采样位深、比特率和编码的音频格式，还对音频文件进行语音信号的数字化、语音信号的端点检测、预加重、加窗和分帧等。分帧一般采用交叠分段的方法，是为了使帧与帧之间平滑过渡，保持其连续性。前一帧和后一帧的交叠部分称为帧移，帧移与帧长的比值一般取为0-1/2。分帧是用可移动的有限长度窗口进行加权的方法来实现的，就是用一定的窗函数ω(n)来乘以帧信号s(n)，从而形成加窗语音信号Sω(n)＝s(n)×ω(n)。在加窗时一般采用汉明窗，采用汉明窗能够更好地增加语音帧间的连续性。

对音频文件进行预处理后就生成了原始音频帧序列，原始音频帧序列指的是将音频文件进行预处理后所生成的一帧一帧连续的音频帧，这些音频帧按照顺序排列就构成了音频帧序列。然后，对原始音频帧序列通过语音端点检测，切分出静音段和音频段。其中，静音段是指声音的分贝低于预设阈值的时间段，相应地，音频段是指声音的分贝高于或等于预设阈值的时间段。因为音频段中可能不仅收录了用户的语音，还收录了其他的背景声音或噪音、杂音等。因此，需要进一步对从音频段中提取出有效音频片段，其中，有效音频片段指的是从音频段中过滤了背景声音或噪音、杂音等之后所得的用户的语音片段。

步骤240，对有效音频片段提取音频特征及文本特征。

首先，对有效音频片段提取文本特征，具体可以采用ASR(Automatic SpeechRecognition)语音识别模块来对原始音频帧序列的有效音频片段提取文本特征。其中，ASR语音识别模块采用的是语音识别技术，语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。

然后，对有效音频片段提取音频特征，提取音频特征的过程就是把音频信号中具有辨识性的信息提取出来，然后把其他的无用的信息过滤，无用的信息包括背景噪声、杂音等。这里的音频特征包括过零率、短时能量、短时自相关函数、短时平均幅度差、短时平均幅度差、短时功率谱密度、谱熵、基频、共振峰及梅尔频率倒谱系数等。当然，本申请对此不作限定。

步骤260，将有效音频片段的音频特征及文本特征，输入至预设语音情感识别模型中进行语音情感识别，得到原始音频帧序列的情感分类。

其中，预设语音情感识别模型为预先经过训练集中大量的样本进行语音情感识别，所训练出的语音情感识别模型。在经过上述计算得到了原始音频帧序列中每个有效音频片段的音频特征及文本特征之后，将每个有效音频片段的音频特征及文本特征，输入至预设语音情感识别模型中进行语音情感识别，就得到了每个有效音频片段的情感分类及对应的概率。然后，模型可以筛选出概率最大的情感分类作为该有效音频片段的目标情感分类。最后，模型将原始音频帧序列中所包含的每个有效音频片段的目标情感分类，组成该原始音频帧序列的情感分类。

例如，原始音频帧序列包括有效音频片段1、有效音频片段2、有效音频片段3。其中，经过预设语音情感识别模型对有效音频片段1进行语音情感识别之后，得到情感类别为高兴，概率为80％；情感类别为苦恼，概率为50％。经过预设语音情感识别模型对有效音频片段2进行语音情感识别之后，得到情感类别为高兴，概率为90％；情感类别为厌恶，概率为60％。经过预设语音情感识别模型对有效音频片段3进行语音情感识别之后，得到情感类别为悲喜交集，概率为80％；情感类别为苦恼，概率为50％。则筛选出有效音频片段1的情感类别为高兴，筛选出有效音频片段2的情感类别为高兴，筛选出有效音频片段3的情感类别为悲喜交集。如此，则得出该原始音频帧序列的情感分类为高兴、悲喜交集。

本申请实施例中，从原始音频帧序列中获取有效音频片段。对有效音频片段提取音频特征及文本特征，将有效音频片段的音频特征及文本特征，输入至预设语音情感识别模型中进行语音情感识别，得到原始音频帧序列的情感分类。不仅从原始音频帧序列中的有效音频片段中提取出文本特征，还提取出音频特征。然后，将所提取出的文本特征和音频特征同时一起输入至预设语音情感识别模型中进行处理，最终得到原始音频帧序列的情感分类。显然，对原始音频帧序列中的有效音频片段同时从文本特征和音频特征两个维度进行识别出情感分类，大大提高了所得到的情感分类的准确性。

在一个实施例中，从原始音频帧序列中获取有效音频片段，包括：

对原始音频帧序列进行语音端点检测，将原始音频帧序列分割为有效音频片段和无效音频片段；

从原始音频帧序列分割后的有效音频片段和无效音频片段中，获取有效音频片段。

具体的，有效音频片段指的是从音频段中过滤了背景声音或噪音、杂音等之后所得的用户的语音片段。无效音频片段包括静音段及音频段中仅包含背景声音或噪音、杂音等的音频段。对原始音频帧序列进行语音端点检测，将原始音频帧序列分割为有效音频片段和无效音频片段。从原始音频帧序列分割后的有效音频片段和无效音频片段中，获取有效音频片段。

本申请实施例中，通过语音端点检测算法对原始音频帧序列进行预处理，不仅将静音段及音频段中仅包含背景声音或噪音、杂音等的音频段进行过滤，还对包含用户语音的片段进行过滤了背景声音或噪音、杂音等，最终得到有效音频片段。该有效音频片段是从音频段中过滤了背景声音或噪音、杂音等之后所得的用户的语音片段，所以对该有效音频片段进行后续处理，就避免混入不相干的噪音，可以更准确地识别出原始音频帧序列的语音情感。

在一个实施例中，如图3所示，对有效音频片段提取音频特征及文本特征，包括：

步骤320，将有效音频片段按照预设规则划分为多个音频单元。

具体的，对有效音频帧片段按照预设规则划分为多个音频单元。预设规则可以是限定每个音频单元所包括的音频帧的帧数，以及将有效音频帧片段进行划分的规则等。音频单元指的是对有效音频帧片段按照预设规则进行划分后，所得到的一个一个单独的音频帧序列，每个音频单元由多个连续的音频帧组成。例如，设定每个音频单元包括20帧音频帧，这样可以将有效音频帧片段的1-20帧划分为第一音频单元，将有效音频帧片段的21-40帧划分为第二音频单元，将有效音频帧片段的41-60帧划分为第三音频单元，如此依次进行划分，直到将有效音频帧片段全部划分。当然，本申请对划分的预设规则不作限定。

步骤340，对有效音频片段中的每个音频单元提取音频特征。

在将有效音频帧片段按照预设规则划分为多个音频单元之后，对每个音频单元提取音频特征。提取音频特征的过程就是把音频信号中具有辨识性的信息提取出来，然后把其他的无用的信息过滤，无用的信息包括背景噪声、杂音等。这里的音频特征包括过零率、短时能量、短时自相关函数、短时平均幅度差、短时平均幅度差、短时功率谱密度、谱熵、基频、共振峰及梅尔频率倒谱系数等。当然，本申请对此不作限定。

步骤360，对有效音频片段中的每个音频单元进行文本标注，得到有效音频片段中的每个音频单元的文本序列。

对原始音频帧序列中的每一段有效音频帧片段进行语音识别，得到所识别出的文本信息。然后，对训练集中的有效音频帧片段进行文本标注，得到有效音频帧片段的文本序列。

步骤380，对文本序列进行分词处理，得到有效音频片段中的每个音频单元的文本特征。

其中，文本特征包括词向量。对文本序列进行分词处理，得到有效音频片段中的每个音频单元的词向量。

本申请实施例中，将有效音频片段按照预设规则划分为多个音频单元，对有效音频片段中的每个音频单元提取音频特征。对有效音频片段中的每个音频单元进行文本标注，得到有效音频片段中的每个音频单元的文本序列，对文本序列进行分词处理，得到有效音频片段中的每个音频单元的文本特征。对有效音频片段的每个音频单元同时提取了音频特征及文本特征，便于后续将所提取出的文本特征和音频特征同时一起输入至预设语音情感识别模型中进行处理，最终得到原始音频帧序列的情感分类。

在一个实施例中，音频特征包括梅尔频率倒谱系数；

对有效音频片段中的每个音频单元提取音频特征，包括：

对有效音频片段中的每个音频单元经过快速傅里叶变换及梅尔滤波器组的处理，提取出梅尔频率倒谱系数；

将有效音频片段的音频特征及文本特征，输入至预设语音情感识别模型中进行语音情感识别，得到原始音频帧序列的情感分类，包括：

将有效音频片段的梅尔频率倒谱系数及文本特征，输入至预设语音情感识别模型中进行语音情感识别，得到原始音频帧序列的情感分类。

具体的，如图4所示，对连续语音进行预加重，然后再进行分帧，分帧是指将N个采样点集合成一个观测单位，即得到语音帧。通常情况下N的值为256或512，涵盖的时间约为20～30ms左右。且为了避免相邻两帧的变化过大，因此会让两相邻帧之间存在一段重叠区域。在分帧之后进行加窗处理，一般采用汉明窗进行加窗处理，采用汉明窗能够更好地增加音频帧间的连续性。

在加窗之后，进行快速傅里叶变换处理，将语音信号由时域转换到频域。再将转换至频域的语音信号输入至梅尔滤波器组进行滤波处理，对频谱进行平滑处理，并消除谐波的作用、突显语音信号的共振峰。最后，对语音信号进行对数运算和离散余弦变换即可得到MFCC特征，梅尔频率倒谱系数即为MFCC特征。MFCC特征一般由特征矩阵来进行表示。

本申请实施例中，对连续语音进行预加重、分帧、加窗、快速傅里叶变换及梅尔滤波器组等一系列处理，得到有效音频片段中的每个音频单元的MFCC特征。MFCC特征能够比较全面完整的体现语音的声学特征，文本特征能够比较全面完整的体现语音的语义特征，因此将有效音频片段的梅尔频率倒谱系数及文本特征，输入至预设语音情感识别模型中进行语音情感识别，所得到的原始音频帧序列的情感分类的准确率更高。

在一个实施例中，如图5所示，预设语音情感识别模型的生成过程包括：

步骤520，从训练集中的原始音频帧序列中获取有效音频片段。

终端将训练集中的音频文件发送至服务器，服务器获取到音频文件之后，对音频文件进行预处理生成原始音频帧序列。其中，对音频文件进行预处理，包括将音频文件转码为统一采样率、采样位深、比特率和编码的音频格式，还对音频文件进行语音信号的数字化、语音信号的端点检测、预加重、加窗和分帧等。分帧一般采用交叠分段的方法，是为了使帧与帧之间平滑过渡，保持其连续性。前一帧和后一帧的交叠部分称为帧移，帧移与帧长的比值一般取为0-1/2。分帧是用可移动的有限长度窗口进行加权的方法来实现的，就是用一定的窗函数ω(n)来乘以帧信号s(n)，从而形成加窗语音信号Sω(n)＝s(n)×ω(n)。在加窗时一般采用汉明窗，采用汉明窗能够更好地增加语音帧间的连续性。

步骤540，对有效音频片段提取音频特征及文本特征。

步骤560，对有效音频片段进行情感标注，得到有效音频片段的情感标签。

首先，通过人工或其他方式对训练集中的每个原始音频帧序列整体进行添加情感标签。然后将该原始音频帧序列整体的情感标签作为该原始音频帧序列所包含的每个有效音频片段的情感标签。例如，对原始音频帧序列1整体添加的情感标签为高兴，则为原始音频帧序列1所包含的有效音频片段1、有效音频片段2、有效音频片段3均添加情感标签为高兴。当然，还可以有其他的得到有效音频片段的情感标签的方法。本申请对此不做限定。

步骤580，将训练集中每一组有效音频片段的音频特征及文本特征、有效音频片段的情感标签，输入至卷积神经网络中进行训练，对卷积神经网络的参数进行调整，得到预设语音情感识别模型。

具体的，首先对卷积神经网络算法模型进行初始化，然后将训练集中每一组有效音频片段的音频特征及文本特征、有效音频片段的情感标签，输入至初始化的卷积神经网络算法模型中进行学习。经过学习后，该算法模型输出该有效音频片段所对应的情感分类。将该有效音频片段所对应的情感分类与该有效音频片段的情感标签进行比较，根据比较结果对该算法模型的初始参数进行调整，得到调整后的卷积神经网络算法模型。再将下一个有效音频片段的音频特征及文本特征、有效音频片段的情感标签作为下一组输入，输入至调整后的卷积神经网络算法模型进行训练，循环执行上述过程对调整后的卷积神经网络算法模型不断进行调整，直到对训练集中的每一个有效音频片段完成训练，输出预设语音情感识别模型。

本申请实施例中，因为，最终输出的预设语音情感识别模型，经过了训练集中的大量原始音频帧序列的训练，所以鲁棒性较好，能够适应不同用户不同的说话习惯，尤其在用户的情绪通过声学特征来进行体现的情况下的识别效果较好，大大提高了在实际场景中对原始音频帧序列进行语音情感识别的准确性。且采用训练出的预设语音情感识别模型应用在客服场景中，能够实时快速地识别出客服和用户的情感，及时对客服的服务质量进行监控和干预，提高客服的服务质量。

在一个实施例中，如图6所示，为一个实施例中卷积神经网络的架构图。其中，卷积神经网络包括双向长短期记忆网络层、子采样层、批量标准化BN层、最大池化层、全连接层及多分类器softmax层；

将训练集中每一组有效音频片段的音频特征及文本特征、有效音频片段的情感标签，输入至卷积神经网络中进行训练，对卷积神经网络的参数进行调整，得到预设语音情感识别模型，包括：

将训练集中每一组有效音频片段的音频特征及文本特征，输入至双向长短期记忆网络层进行卷积计算；

将双向长短期记忆网络层的输出，输入至子采样层进行子采样；

将子采样层的输出输入至BN层进行卷积计算；

将BN层的输出输入至最大池化层进行池化处理；

将最大池化层的输出输入至全连接层及softmax层进行处理，得到有效音频片段的情感分类及对应的概率；

获取最大的概率所对应的情感分类作为有效音频片段的情感分类，将有效音频片段的情感分类与有效音频片段的情感标签进行比较，根据比较结果对卷积神经网络的参数进行调整，直到对训练集中每一组有效音频片段完成训练，输出预设语音情感识别模型。

具体的，音频特征包括梅尔频率倒谱系数MFCC，文本特征包括词向量，词向量指的是每个词被表征为一个维度为d的向量。长短期记忆网络模型是指LSTM(Long Short-TermMemory)，是一种时间递归神经网络。双向长短期记忆网络模型包括前向长短期记忆网络模型和后向长短期记忆网络模型。

其中，LSTM包含前向LSTM和后向LSTM，是根据其读取方向的不同称其为前向LSTM和后向LSTM。前向LSTM正向读取该输入序列将每个词所在句子中左边的词计算表征为一个向量

同理利用反向LSTM反向读取该输入序列生成相应的表征该词在句子中后文特征的向量

在双向长短期记忆神经网络LSTM中，文本中一个词的向量表征h_t是对词向量进一步考虑了时序信息之后得到的新的向量，是更高层次的词向量。具体的，词的向量表征h_t是通过将词的前文和后文表征联合起来的，即

这种表征方法非常有效的将一个词在其语境中的信息表征出来，这种词表征方法可以应用到多种自然语言处理任务中。将训练集中每一组有效音频片段的音频特征及文本特征，输入至双向长短期记忆网络层进行卷积计算，将双向长短期记忆网络层的输出，输入至子采样层进行子采样，能够提升模型的训练和识别速度。

进一步，将子采样层的输出输入到BN层，能够加速模型的训练速度，防止模型出现过拟合，提升模型的泛化效果，在实际的标签识别中得到更好的效果。其中，BN(BatchNormalization，批量规范化)层，本质上是一个归一化网络层。

进一步，将BN层的输出输入至最大池化层进行池化处理，最大池化层的目的是获取最大值，具体为计算出每一帧音频帧的信息熵，将信息熵最大的音频帧提取出来。然后，将最大池化层的输出输入至全连接层及softmax层进行处理，得到有效音频片段的情感分类及对应的概率。

最后，获取最大的概率所对应的情感分类作为有效音频片段的情感分类，将有效音频片段的情感分类与有效音频片段的情感标签进行比较，根据比较结果对卷积神经网络的参数进行调整，直到对训练集中每一组有效音频片段完成训练，输出预设语音情感识别模型。

本申请实施例中，将训练集中每一组有效音频片段的音频特征及文本特征、有效音频片段的情感标签，输入至双向长短期记忆网络层、子采样层、批量标准化BN层、最大池化层、全连接层及多分类器softmax层中进行训练，对卷积神经网络的参数进行调整，得到预设语音情感识别模型。如此，经过大量样本进行训练出的预设语音情感识别模型的识别准确率较高，且鲁棒性较好，能够适应不同场景下的语音情感识别。

在一个实施例中，在将子采样层的输出输入至BN层进行卷积计算之后，包括：

将BN层的输出重复输入至双向长短期记忆网络层进行卷积计算；

将子采样层的输出输入至BN层进行卷积计算，重复次数小于设定阈值。

本申请实施例中，在将子采样层的输出输入至BN层进行卷积计算之后，可以重复将BN层的输出重复输入至双向长短期记忆网络层进行卷积计算，将双向长短期记忆网络层的输出，输入至子采样层进行子采样，将子采样层的输出输入至BN层进行卷积计算。在BN层进行卷积计算之后，将BN层的输出重复输入至双向长短期记忆网络层进行卷积计算、子采样层进行子采样及BN层进行卷积计算，且重复次数少于预设阈值。如此，重复输入至卷积神经网络中进行训练，可以进一步提高所训练出的神经网络的准确性。

在一个实施例中，如图7所示，提供了一种语音情感识别装置700，包括：

有效音频片段获取模块720，用于从原始音频帧序列中获取有效音频片段；

音频特征及文本特征提取模块740，用于对有效音频片段提取音频特征及文本特征；

语音情感识别模块760，用于将有效音频片段的音频特征及文本特征，输入至预设语音情感识别模型中进行语音情感识别，得到原始音频帧序列的情感分类。

在一个实施例中，有效音频片段获取模块720，还用于对原始音频帧序列进行语音端点检测，将原始音频帧序列分割为有效音频片段和无效音频片段；从原始音频帧序列分割后的有效音频片段和无效音频片段中，获取有效音频片段。

在一个实施例中，音频特征及文本特征提取模块740，还用于将有效音频片段按照预设规则划分为多个音频单元；对有效音频片段中的每个音频单元提取音频特征；对有效音频片段中的每个音频单元进行文本标注，得到有效音频片段中的每个音频单元的文本序列；对文本序列进行分词处理，得到有效音频片段中的每个音频单元的文本特征。

在一个实施例中，音频特征包括梅尔频率倒谱系数；音频特征及文本特征提取模块740，还用于对有效音频片段中的每个音频单元经过快速傅里叶变换及梅尔滤波器组的处理，提取出梅尔频率倒谱系数；

语音情感识别模块760，还用于将有效音频片段的梅尔频率倒谱系数及文本特征，输入至预设语音情感识别模型中进行语音情感识别，得到原始音频帧序列的情感分类。

在一个实施例中，如图8所示，提供了一种语音情感识别装置700，还包括：预设语音情感识别模型生成模块780，包括：

有效音频片段获取单元，用于从训练集中的原始音频帧序列中获取有效音频片段；

音频特征及文本特征提取单元，用于对有效音频片段提取音频特征及文本特征；

情感标注单元，用于对有效音频片段进行情感标注，得到有效音频片段的情感标签；

训练单元，用于将训练集中每一组有效音频片段的音频特征及文本特征、有效音频片段的情感标签，输入至卷积神经网络中进行训练，对卷积神经网络的参数进行调整，得到预设语音情感识别模型。

在一个实施例中，卷积神经网络包括双向长短期记忆网络层、子采样层、批量标准化BN层、最大池化层、全连接层及多分类器softmax层；

训练单元，还用于将训练集中每一组有效音频片段的音频特征及文本特征，输入至双向长短期记忆网络层进行卷积计算；将双向长短期记忆网络层的输出，输入至子采样层进行子采样；将子采样层的输出输入至BN层进行卷积计算；将BN层的输出输入至最大池化层进行池化处理；将最大池化层的输出输入至全连接层及softmax层进行处理，得到有效音频片段的情感分类及对应的概率；获取最大的概率所对应的情感分类作为有效音频片段的情感分类，将有效音频片段的情感分类与有效音频片段的情感标签进行比较，根据比较结果对卷积神经网络的参数进行调整，直到对训练集中每一组有效音频片段完成训练，输出预设语音情感识别模型。

在一个实施例中，训练单元，还用于将BN层的输出重复输入至双向长短期记忆网络层进行卷积计算；将双向长短期记忆网络层的输出，输入至子采样层进行子采样；将子采样层的输出输入至BN层进行卷积计算，重复次数小于设定阈值。

上述语音情感识别装置中各个模块的划分仅用于举例说明，在其他实施例中，可将语音情感识别装置按照需要划分为不同的模块，以完成上述语音情感识别装置的全部或部分功能。

图9为一个实施例中服务器的内部结构示意图。如图9所示，该服务器包括通过系统总线连接的处理器和存储器。其中，该处理器用于提供计算和控制能力，支撑整个服务器的运行。存储器可包括非易失性存储介质及内存储器。非易失性存储介质存储有操作系统和计算机程序。该计算机程序可被处理器所执行，以用于实现以下各个实施例所提供的一种语音情感识别方法。内存储器为非易失性存储介质中的操作系统计算机程序提供高速缓存的运行环境。该服务器可以是手机、平板电脑或者个人数字助理或穿戴式设备等。

本申请实施例中提供的语音情感识别装置中的各个模块的实现可为计算机程序的形式。该计算机程序可在终端或服务器上运行。该计算机程序构成的程序模块可存储在终端或服务器的存储器上。该计算机程序被处理器执行时，实现本申请实施例中所描述方法的步骤。

本申请实施例还提供了一种计算机可读存储介质。一个或多个包含计算机可执行指令的非易失性计算机可读存储介质，当计算机可执行指令被一个或多个处理器执行时，使得处理器执行语音情感识别方法的步骤。

一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行语音情感识别方法。

本申请实施例所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。合适的非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)，它用作外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音情感识别方法，其特征在于，包括：

从原始音频帧序列中获取有效音频片段；

对所述有效音频片段提取音频特征及文本特征；

2.根据权利要求1所述的方法，其特征在于，所述从原始音频帧序列中获取有效音频片段，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述有效音频片段提取音频特征及文本特征，包括：

将所述有效音频片段按照预设规则划分为多个音频单元；

对所述有效音频片段中的每个音频单元提取音频特征；

4.根据权利要求3所述的方法，其特征在于，所述音频特征包括梅尔频率倒谱系数；

5.根据权利要求1所述的方法，其特征在于，所述预设语音情感识别模型的生成过程包括：

从训练集中的原始音频帧序列中获取有效音频片段；

对所述有效音频片段提取音频特征及文本特征；

6.根据权利要求5所述的方法，其特征在于，所述卷积神经网络包括双向长短期记忆网络层、子采样层、批量标准化BN层、最大池化层、全连接层及多分类器softmax层；

将所述子采样层的输出输入至所述BN层进行卷积计算；

将所述BN层的输出输入至所述最大池化层进行池化处理；

7.根据权利要求6所述的方法，其特征在于，在所述将所述子采样层的输出输入至所述BN层进行卷积计算之后，包括：

8.一种语音情感识别装置，其特征在于，包括：

9.一种服务器，包括存储器及处理器，所述存储器中储存有计算机程序，其特征在于，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述的语音情感识别方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的语音情感识别方法的步骤。