CN110097894B

CN110097894B - 一种端到端的语音情感识别的方法和系统

Info

Publication number: CN110097894B
Application number: CN201910423250.9A
Authority: CN
Inventors: 滕炜; 倪俊辉; 孙佳伟; 席晓燕
Original assignee: Focus Technology Co Ltd
Current assignee: Focus Technology Co Ltd
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2021-06-11
Anticipated expiration: 2039-05-21
Also published as: CN110097894A

Abstract

本发明公开了一种端到端的语音情感识别的方法和系统，其特征在于，包括语音数据音素特征提取；语音数据倒谱特征提取；音素向量序列和倒谱特征以文件为单位进行对齐，作为输入，利用深度神经网络进行端到端的语音情感识别模型训练；模型部署时，针对任意输入的语音数据的重采样和有效语音段检测。使用上述特征提取流程和识别模型，可以针对语音数据端到端的进行识别，效率更高，预测更精准。

Description

一种端到端的语音情感识别的方法和系统

技术领域

本发明涉及语音情绪识别领域，特别是涉及一种端到端的的语音情感识别的方法和系统。

背景技术

计算机的语音情感识别能力是计算机情感智能的重要组成部分,是实现自然人机交互界面的关键前提。

真正意义上的语音情感识别相关研究最早出现在20世纪80年代中期，1985年Minsky教授提出“让计算机具有情感能力”的观点；90年代初期，麻省理工学院多媒体实验室构造了一个“情感编辑器”采集各种情感信号，初步识别情感,并做简单的反应；1999年，Moriyama提出语音和情感之间的线性关联模型，并据此在电子商务系统中建造出能够识别用户情感的图像采集系统语音界面。整体而言,语音情感识别研究在该时期仍旧处于初级阶段。语音情感识别的研究主要侧重于情感的声学特征分析这一方面。作为研究对象的情感语音样本也多表现为规模小、自然度低、语义简单等特点。

进入21世纪以来，随着计算机多媒体信息处理技术等研究领域的出现，语音情感识别研究被赋予了更多的迫切要求，发展步伐逐步加快。先后又有若干以情感计算为主题的会议和期刊被创立，并得到了世界范围内的注目，例如：始于2005年的AffectiveComputing and Intelligent Interaction双年会，始于2009年的INTERSPEECH EmotionChallenge年度竞赛以及始于2011年的International Audio/Visual Emotion Challengeand Workshop(AVEC)年度竞赛等。同时，越来越多的大学或科研机构也加入到语音情感识别研究的工作中来，例如：贝尔法斯特女王大学Cowie和Douglas-Cowie领导的情感语音小组；麻省理工大学Picard领导的媒体研究实验室；南加州大学Narayanan负责的语音情感组日内瓦大学Soberer领导的情绪研究实验室；以及清华大学人机交互与媒体集成研究所、模式识别国家重点实验室、浙江大学人工智能研究所和中国科学院语言研究所等。这些新兴力量的加入，使得语音情感识别研究工作在情感描述模型的引入、情感语音库的构建、情感特征分析等领域的各个方面都得到了发展。

近年来，随着计算机的普及和人工智能的迅速发展，传统低效的人机交互方式已经不能满足各种智能系统的需求。例如：对电话服务中心(call center)用户紧急程度的分拣。具体地，可通过及时发现负面情绪较为激烈的用户，并将他们的电话及时转接给人工客服，达到优化用户体验的目的；用于对汽车驾驶者的精神状态进行监控，从而在驾驶员疲劳的时候加以提醒，从而避免交通事故的发生；用于对抑郁症患者的情感变化进行跟踪，从而作为疾病诊断和治疗的依据。这些领域都迫切地要求以语音数据作为交互信息的载体，以其中的情绪信息作为机器交互逻辑的核心，更加智能的自然人机交互技术。

因此，需要一种端到端的语音情感识别的方法和系统，实时的对接各个领域的人机交互语音数据，从中提取用户的情绪信息，作为后端决策的核心依据。

发明内容

本发明所要解决的技术问题是克服现有技术的不足，提供一种端到端的语音情感识别的方法和系统。

为解决上述技术问题，本发明提出的技术方案是：一种端到端的语音情感识别的方法，其特征在于，包括如下步骤：

步骤一：从IEMOCAP数据集中抽取句子格式的语音数据(下文简称：句子语音数据)和情绪标签，其中句子语音数据是经拆分IEMOCAP数据集中的语音对话为单句语音，每个单句语音为一条语句数据；针对IEMOCAP数据集包含的5个对话，利用5-fold交叉验证方法处理句子语音数据，即依次选取IEMOCAP数据集的4个对话中的句子语音数据作为训练数据，剩下的1个对话中的句子语音数据作为测试数据，形成数据集；情绪标签选取开心、愤怒、中性、悲伤、沮丧以及激动；

其中，IEMOCAO数据集中的原始语音在抽取句子语音数据前，需先经过预处理提取有效语音片段，具体为：

步骤101，对接入系统的语音数据进行重采样，统一输入语音的采样频率；重采样的目标频率设置为16khz，多声道数据转单声道的过程始终提取左声道语音数据；

步骤102，对重采样后的语音数据进行有效语音段提取，过滤掉静音或噪声部分，具体包括：切分语音数据，借助开源工具webrtcvad判断每一帧是噪音帧还是有效帧；有效帧输出1，噪音帧输出0，将语音数据帧序列转换成0-1序列；通过设置一个滑动窗口(buf),来寻找有效语音段的起止点，当buf中的1状态达到整个buf的90％，就认为找到有效语音段的起点。，当buf中的0状态达到整个buf长度的90％，就认为找到有效语音段的结束点；

步骤二：句子语音数据的音素特征提取：使用pocketsphinx工具处理每条句子语音数据形成音素序列，经词嵌入模型训练得到音素嵌入模型，通过音素嵌入模型将音素序列转换成音素向量序列；统计音素向量序列长度，根据统计结果的集中范围，统一所有的音素向量序列长度；

步骤三：句子语音数据的对数梅尔倒谱特征提取：对句子语音数据做加窗分帧的预处理，然后经快速傅里叶变换和梅尔滤波处理获得句子语音数据在时频域上的梅尔倒谱图，对倒谱图求一阶差分值和二阶差分值，进而获得包含语音静态特征和动态特征的倒谱特征图；统计数据集中所有音频文件的帧数，根据帧数的集中范围，确定后续训练模型中池化层的边长参数；

步骤四：基于深度神经网络构建语音情绪识别模型，融合句子语音数据的音素特征和倒谱特征：采用双向长短记忆模型对句子语音数据对应的音素向量序列进行训练，提取音素向量序列中反映情绪的语调变化信息，以及音素向量序列对应的文本序列中所包含的反映情绪的语义信息；使用卷积神经网络模型对倒谱特征图进行特征提取；根据步骤二中统计的音素向量序列长度，确定双向长短记忆模型的时间步长，将两个模型输出的特征向量分别输入attention层，将得到的特征进行首尾连接，输入全连接层进行特征拟合；

步骤五：使用softmax函数：

对步骤四的输出进行归一化处理，得到语音数据在每种情绪类别的概率；对于长语音，这个结果就是一个情绪标签的列表，列表中的元素分别对应着按时间排序的有效语音段的情绪预测结果。

所述句子语音数据的音素特征提取过程具体包括：

步骤201：使用pocketsphinx工具获取句子语音数据的音素序列，具体过程为：对于句子语音数据集中任一语音数据,其对应的内容为一句话，表示为语句S＝X₁X₂X₃…X_n，其中X_i(1≤i≤n)是语句S中的单词；即：F(X_i)＝y_i1y_i2…y_ik(k∈N+)，其中F是映射函数，y_ij(1≤j≤k)即是单个英文音素，语句S对应的音素序列，记为F(S)＝P₁P₂P₃…P_q(q>＝n)，其中P_i(1≤i≤q)表示S中某个单词经映射函数计算得出的音素序列中的一个音素；完整的音素代号集合如表1所示，共包括42种音素类别：

表1

步骤202：基于词嵌入模型训练，构建音素嵌入模型，具体过程为：设置数据集合DS＝{}，基于每个语句S的音素序列，即F(S)＝P₁P₂P₃…P_q，按照从左到右的顺序，依次选择F(S)的一个音素P_i(1≤i≤q)作为中心音素，若1<i<q，则将音素组合(P_i，P_i-1)，(P_i，P_i+1)添加到DS中，若i＝1或i＝q，则分别将(P₁，P₂)，(P_q，P_q-1)添加到数据集合DS＝{}中；以数据集合DS作为数据集，输入至词嵌入模型中训练100轮，形成音素嵌入模型，修改词嵌入模型模型的权重矩阵为：输出层到隐层权重矩阵形状为42×100,隐层到输出层的权重矩阵形状为100×42，以保证模型输出的音素向量长度保持为100；

所述步骤三的句子语音数据的对数梅尔倒谱特征提取过程具体包括：

步骤301：根据公式(1)，对数据集中每条句子语音数据进行加窗分帧处理；其中，ω(n)表示窗口权重函数，N表示窗口长度；取窗口尺寸为20ms，窗口帧移取10ms；

步骤302：获取句子语音数据的静态特征：利用快速傅里叶变换，将分帧加窗后的每一帧语音转换为频谱图，并按照时间将所有频谱图拼接，形成声谱图；将声谱图通过Mel滤波器组进行Mel滤波后取对数得到log梅尔声谱图，梅尔滤波器的个数为40；

步骤303：获取句子语音数据的动态特征：针对经Mel滤波处理的log梅尔倒谱图，求解其一阶差分和二阶差分，将2个差分图与log梅尔倒谱图共同组成为最终的倒谱特征图；

所述步骤四中语音情绪识别模型构建及特征融合过程包括：

步骤401：采用双向长短记忆模型对句子语音数据对应的音素向量序列进行训练：针对任意句子语音数据S的音素向量序列F(S)＝P₁P₂P₃…P₁₀₀，其逆序序列为F‘(S)＝P₁₀₀P₉₉P₉₈…P₁将F(S)和F‘(S)按照从左到右的顺序分别输入到双向长短记忆模型的正向和逆向LSTM结构中，其中正向和逆向LSTM的隐层节点数设为64；将所有序列长度都截断或者补充至100，不足100的序列在末尾补充静音音素，所述静音音素对应的音素编号为SIL,双向长短记忆模型的时间步长同音素向量序列的长度一致，设置为100；

将正向和逆向LSTM的各个时间步的隐含层输出进行连接作为最终的音素特征向量序列，具体为F(S)和F‘(S)中同一音素P_i(1≤i≤100)在正向和逆向LSTM中对应的时间步的隐层输出分别为向量h_i和h′_i，二者的长度都为64，将h_i和h′_i首尾连接得到长度为128的音素特征向量Hi，重复上述步骤，得到S最终的音素特征向量序列L(S)＝H₁H₂H₃…H₁₀₀；

步骤402：采用卷积神经网络模型对倒谱图进行特征提取，提取过程主要分为卷积过程、池化过程，然后再进行时序特征提取；

步骤403：特征拟合：将步骤401输出的音素特征向量序列和步骤402输出的倒谱图帧间时序特征向量序列分别输入attention层，获取各特征序列中对声音情绪更关注的向量表征，并首尾连接输入全连接层进行特征拟合；

所述步骤402倒谱图特征提取过程包括：

步骤402-1：卷积过程：使用三层堆叠的卷积神经网络对倒谱特征图进行局部图像特征的提取，按照(高度H、宽度W、深度C)格式设置三层卷积层的卷积核的尺寸分别为(3,3,64),(3,3,128),(3,3,256)，滑动步长都为(1,1,1)，卷积之后得到特征图F∈R^N×10×256,其中N为语音的帧数，10和256是每一帧对应的特征向量维度和深度；

步骤402-2：池化过程：使用金字塔池化对卷积层的输出进行特征筛选，提取主要信息；选用单层池化层提取特征，将池化层的边长参数设置为400，池化的核尺寸和滑动步长同为(1,2,1)，最终得到的特征图F′∈R^400×10×256；

步骤402-3：时序特征提取：利用reshape函数将特征图调整成F″∈R^400×2560，将F″看做包含400帧的特征向量序列，每帧的特征向量长度为2560，即：F″＝f₁f₂f₃…f₄₀₀；将F″和它的逆序序列Fr″输入到双向长短期记忆模型中，时间步长为400，隐层节点数为64，输出倒谱图帧间时序特征向量序列L′(F)＝H′₁H′₂H′₃…H′₄₀₀，其中H′_i(1≤i≤400)长度是128，由f_i在双向长短期记忆模型的正向和逆向LSTM结构中对应时间步的隐层输出的向量连接而成；

所述步骤403中，所述特征拟合的具体流程：针对任意语句S的音素特征向量序列L(S)＝H₁H₂H₃…H₁₀₀，attention层的计算方法如下：

u_i＝tanh(W_ωH_i+b_ω) (公式2)

首先，将L(S)中的音素特征向量H_i输入线性层构成的隐含层，W_w和b_w分别为隐含层的权重矩阵和偏移向量，得到其隐含层表示u_i,如公式1所示；再求解u_i与核心音素表征u_w的相似度，u_w初始时随机初始化，最终的值由训练得到，并使用softmax函数进行归一化，得到描述向量H_i在L(S)中与情绪信息相关的程度的权重a_i，如公式2所示；结合a_i，计算H_i的加权和，如公式3所示，得到L(S)最终的注意力特征向量La(S)，其长度为128；

同理，对倒谱特征的特征向量序列L′(F)＝H′₁H′₂H′₃…H′₄₀₀进行上述操作，得到L'(F)最终的注意力特征向量La'(F)，其长度也是128；

最后，将La′(F)和La(S)首尾连接输入全连接层中进行拟合，全连接层的权重矩阵W_fc∈R^256╳6,即最终输出的向量score∈R⁶，表示模型对六种情绪类别的打分。

一种端到端的语音情感识别的系统，包括依次相连的数据集制作模块、模型训练模块、语音情绪识别模块；

所述数据集制作模块，用于抽取原始数据集中的句子语音数据和情绪标签，并提取句子语音的音素特征和倒谱特征；

所述模型训练模块以音素特征数据和倒谱特征数据作为输入，通过使用深度神经网络训练特征数据，构建语音情绪识别模型；

所述语音情绪识别模块用于对语音数据特征识别，并得到相应的语音情感识别结果；

根据提取的特征不同，所述数据集制作模块包含音素特征提取子模块和倒谱特征提取子模块；所述音素特征提取子模块，用于提取句子语音数据的音素特征，完成语音音素序列向音素向量序列的转换；所述倒谱特征提取子模块，用于提取句子语音数据的倒谱特征，完成从语音数据的频谱图到log梅尔声谱图的转换。

本发明所达到的有益效果:

(1)本发明使用了语音情绪识别领域认可度较高的倒谱特征，并添加了其一阶和二阶差分特征，能够充分的从能量变化的角度反映情绪信息，保证了系统识别情绪的基本精度；

(2)本发明综合考虑语音韵律变化和能量变化在语音情感识别的重要性，同时选用语音的音素特征和倒谱特征作为特征提取来源，通过特征拟合实现对两类特征数据的学习及训练，提高语音情感识别精度及准确率；

(3)本发明应用双向长短记忆模型自动提取音素序列和倒谱图的时序信息，精准地获得语音语义之间的上下关系，并结合金字塔池化使倒谱图和音素序列对齐，实现了端到端的模型训练，提高数据集使用合理性及训练结果的精确性。

附图说明

图1为本发明的示例性实施例中语音情绪识别系统的结构示意图；

图2为本发明的示例性实施例中原始语音的预处理流程示意图；

图3为本发明的示例性实施例的语音情绪识别方法的流程示意图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。

图1为本发明的示例性实施例的语音情绪识别系统的结构示意图，系统结构包括数据集制作模块、模型训练模块、语音情绪识别模块；

所述数据集制作模块，用于抽取原始数据集中的句子语音数据和情绪标签，并提取句子语音的音素特征和倒谱特征；根据提取的特征不同，该模块包含音素特征提取子模块和倒谱特征提取子模块；所述音素特征提取子模块，用于提取句子语音数据的音素特征，完成语音音素序列想音素向量序列的转换；所述倒谱特征提取子模块，用于提取句子语音数据的倒谱特征，完成从语音数据的频谱图到log梅尔声谱图的转换；

所述模型训练模块，以音素特征数据和倒谱特征数据作为输入，通过使用深度神经网络训练特征数据，构建语音情绪识别模型；

所述语音情绪识别模块，用于对语音数据特征识别，并得到相应的语音情感识别结果；

针对预输入语音情感识别系统的原始语音，需要经过如图2所示的加工处理流程，提取有效语音片段，具体流程有：

步骤101：对接入系统的语音数据进行重采样，统一输入语音的采样频率；重采样的目标频率设置为16khz，多声道数据转单声道的过程始终提取左声道语音数据。

步骤102：对重采样后的语音数据进行有效语音段提取，过滤掉静音或噪声部分，具体包括：切分语音数据，借助开源工具webrtcvad判断每一帧是噪音帧还是有效帧；有效帧输出1，噪音帧输出0，将语音数据帧序列转换成0-1序列；

由于噪声的存在，并不能直接按照序列0-1边界进行切分，而是通过设置一个滑动窗口(buf),来寻找有效语音段的起止点。当buf中的1状态达到整个buf的90％，就认为找到有效语音段的起点，当buf中的0状态达到整个buf长度的90％，就认为找到有效语音段的结束点。

步骤103：将有效语音数据输入语音情绪识别系统，经数据集制作、特征提取、模型训练，输出结果，语音情绪识别系统对语音数据的处理过程见图3；对于长语音，可能包含多个有效语音段，那么这个结果就是一个情绪标签的列表，列表中的元素分别对应着按时间排序的有效语音段的情绪预测结果。

图3为本发明的示例性实施例的语音情绪识别方法的流程示意图，步骤包括：

步骤S1：数据集制作模块从IEMOCAP数据集抽取开心(happy)、愤怒(angry)、中性、悲伤、沮丧、激动这6种语音数据及情绪标签，并将数据集中的对话拆分成单句，形成句子形式的语音数据(简称为：句子语音数据)；并利用5-fold交叉验证方法，依次选取IEMOCAP数据集的4个对话中的句子语音数据作为训练数据，剩下的1个对话中的句子语音数据作为测试数据，形成数据集；

原IEMOCAP数据集包含开心、愤怒、中性、悲伤、沮丧、激动、厌恶、恐惧、惊讶、无聊共10种情绪，鉴于于IEMCOAP数据集存在数据分布不均衡的问题，且数据集中开心、愤怒、中性、悲伤、沮丧以及激动相对厌恶、恐惧、惊讶、无聊出现频率更高，因此情绪标签选取开心、愤怒、中性、悲伤、沮丧以及激动。

步骤S2：句子语音数据的音素特征提取：使用pocketsphinx工具处理每条句子语音数据形成音素序列，再基于skip-gram词嵌入模型训练，构建音素嵌入模型，将音素序列转换成音素向量序列；统计音素向量序列长度，根据统计结果的集中范围，统一所有的音素向量序列长度并确定双向长短记忆模型的时间步长；

步骤201：使用pocketsphinx工具获取句子语音数据的音素序列，具体过程为：对于句子语音数据集中任一语音数据,其对应的内容为一句话，表示为语句S＝X₁X₂X₃…X_n，其中，X_i(1≤i≤n)是语句S中的单词；在语言学中，任意英文单词X_i都能映射为一个或多个音素组成的有序的音素序列，即：F(X_i)＝y_i1y_i2…y_ik(k∈N⁺)，其中F是映射函数，y_ij(1≤j≤k)即是单个英文音素，另外，对于不同的单词，k的取值不一定相同。因此语句S对应的音素序列，记为记为F(S)＝P₁P₂P₃…P_q(q>＝n)，其中P_i(1≤i≤q)表示S中某个单词经映射函数计算得出的音素序列中的一个音素；完整的音素代号集合如表1所示，共包括42种音素类别：

表1

步骤202：基于skip-gram词嵌入模型训练，构建音素嵌入模型，具体过程为：设置数据集合DS＝{}，基于每个语句S的音素序列，即F(S)＝P₁P₂P₃…P_q，按照从左到右的顺序，依次选择F(S)的一个音素P_i(1≤i≤q)作为中心音素，若1<i<q，则将音素组合(P_i，P_i-1)，(P_i，P_i+1)添加到DS中，若i＝1或i＝n，则分别将(P₁，P₂)，(P_q，P_q-1)添加到数据集合DS＝{}中；以数据集合DS作为数据集，输入至词嵌入模型中训练100轮，形成音素嵌入模型；

特别地，正常的词向量长度范围是100-500维左右，数据量比较大，嵌入对象比较多的情况下，可能会更长，由于英语音素类别总共有39种，额外添加“SIL-silence”、“+SPN+-Spoken Noise”、“+NSN+-Noise”，共针对42个音素进行嵌入，因此修改词嵌入模型模型的权重矩阵为：输出层到隐层权重矩阵形状为42×100,隐层到输出层的权重矩阵形状为100×42，以保证模型输出的音素向量长度保持为100，这样既能区分不同的音素，也有利于降低后续的特征提取模型参数；

步骤S3：句子语音数据的对数梅尔倒谱特征提取：对句子语音数据做加窗分帧的预处理，每一帧都提取倒谱特征得到功率谱，按照时间序列将帧功率图连接起来，然后经快速傅里叶变换和梅尔滤波处理获得句子语音数据在时频域上的梅尔倒谱图，对倒谱图求一阶差分值和二阶差分值，将倒谱图和差分数据组合成三通道的倒谱特征数据，如此求解所有句子语音数据集的倒谱特征；统计数据集中所有音频文件的帧数，根据帧数的集中范围，确定后续训练模型中池化层的边长参数；具体为

步骤301：根据公式(1)，对数据集中每条句子语音数据进行加窗分帧处理；其中，ω(n)表示窗口权重函数，N表示窗口长度。由于发声器官的惯性运动，语音信号在一小段时间内可视作近似不变，即语音信号具有短时平稳性，这一小段时间的长度通常取10～30ms。同时为了保证帧与帧之间能够平滑过渡，相邻两帧之间还要保持一定的重叠。这里针对使用的数据集，经过多次测试，发现取窗口尺寸为20ms，窗口帧移取10ms，模型泛化效果最好。

步骤302：获取句子语音数据的静态特征：利用快速傅里叶变换，将分帧加窗后的每一帧语音转换为频谱图，并按照时间将所有频谱图拼接，形成声谱图；将声谱图通过Mel滤波器组进行Mel滤波后取对数得到log梅尔声谱图，为了能够让后续情绪识别模型的卷积层充分的提取各帧的语音情绪特征，又不至于使模型的参数过多，影响模型的训练和识别的速度，经过多次调参，最终选用的梅尔滤波器的个数为40；

步骤S4：基于深度神经网络构建语音情绪识别模型，融合句子语音数据的音素特征和倒谱特征：采用双向长短记忆模型对句子语音数据对应的音素向量序列进行训练，提取音素向量序列中反映情绪的语调变化信息，以及音素向量序列对应的文本序列中所包含的反映情绪的语义信息；使用卷积神经网络模型对倒谱特征图进行特征提取；将两个模型输出的特征向量分别输入attention层，将得到的特征进行首尾连接，输入全连接层进行特征拟合；具体步骤为：

步骤401：采用双向长短记忆模型对句子语音数据对应的音素向量序列进行训练：针对任意句子语音数据S的音素向量序列F(S)＝P₁P₂P₃…P₁₀₀，其逆序序列为F‘(S)＝P₁₀₀P₉₉P₉₈…P₁，将F(S)和F'(S)按照从左到右的顺序分别输入到双向长短记忆模型的正向和逆向LSTM结构中，其中正向和逆向LSTM的隐层节点数设为64；由于音素向量序列的长度是变化的，而双向长短记忆模型的时间步长是固定的，经对数据集中音素向量序列的长度统计发现，95％以上的序列长度是100及以下的，经多次调试发现，如果既要充分保留音素向量序列中的情绪信息又不能影响计算效率，将所有序列长度保持在100是最佳，因此将音素向量序列截断或者补充至100，不足100的序列在末尾补充静音音素(对应的音素编号为SIL),双向长短记忆模型的时间步长同音素向量序列的长度一致，设置为100；

最终将正向和逆向LSTM的各个时间步的隐含层输出进行连接作为最终的音素特征向量序列，具体为：F(S)和F‘(S)中同一音素P_i(1≤i≤100)在正向和逆向LSTM中对应的时间步的隐层输出分别为向量h_i和h′_i，二者的长度都为64(同隐含层节点数)，将h_i和h′_i首尾连接得到长度为128的音素特征向量H_i，重复上述步骤，可得到S最终的音素特征向量序列L(S)＝H₁H₂H₃...H₁₀₀。

步骤402-1，卷积过程：使用三层堆叠的卷积神经网络对倒谱特征图进行局部图像特征的提取，按照(高度H、宽度W、深度C)格式设置三层卷积层的卷积核的尺寸分别为(3,3,64),(3,3,128),(3,3,256)，滑动步长都为(1,1,1)，卷积之后得到特征图F∈R^N×10×256,其中N为语音的帧数，10和256是每一帧对应的特征向量维度和深度；

尝试过2层的cnn，学到的特征对模型最终的识别精度贡献不如3层，而1层cnn特征抽取能力不如2层，也就不用考虑了；也尝试过更深层的cnn堆叠，但是最终识别精度并没有提升，徒增运算开销，故选用三层堆叠的卷积神经网络最佳。

步骤402-2，池化过程：使用金字塔池化对卷积层的输出进行特征筛选，提取主要信息；选用单层池化层提取特征，经统计数据集中所有音频文件的帧数，发现大部分集中在400帧左右，因此将池化层的边长参数设置为400，在固定输出的尺寸基础上，尽可能保存原始的帧间时序信息，池化的核尺寸和滑动步长同为(1,2,1)，最终得到的特征图F′∈R⁴⁰⁰ ^×10×256；

步骤402-3，时序特征提取：利用reshape函数将特征图调整成F″∈R^400×2560，将F″看做包含400帧的特征向量序列，每帧的特征向量长度为2560，即：F″＝f₁f₂f₃…f₄₀₀；将F″和它的逆序序列Fr″输入到双向长短期记忆模型中，时间步长为400，隐层节点数为64，最终输出倒谱图帧间时序特征向量序列L′(F)＝H′₁H′₂H′₃…H′₄₀₀，其中H_i'(1≤i≤400)长度是128，由f_i在双向长短期记忆模型的正向和逆向LSTM结构中对应时间步的隐层输出的向量连接而成；

步骤403：特征拟合：将步骤401输出的音素特征向量序列和步骤402输出的倒谱图帧间时序特征向量序列分别输入attention层，获取各特征序列中对声音情绪更关注的向量表征，并首尾连接(例如音素特征向量序列经过attention层的输出为向量P＝(p1,p2,...pn)；倒谱图帧间时序特征向量序列经过attention层的输出为向量Q＝(q1,q2,...qm)；那么首尾连接的意思就是concat(P,Q)＝(p1,p2..pn,q1,q2...qm))输入全连接层进行特征拟合；

针对任意语句S的音素特征向量序列L(S)＝H₁H₂H₃...H₁₀₀，attention层的计算方法如下：

u_i＝tanh(W_ωH_i+b_ω) (1)

首先，将L(S)中的音素特征向量H_i输入线性层构成的隐含层(W_w和b_w分别为隐含层的权重矩阵和偏移向量)，得到其隐含层表示u_i,如式(1)所示；再求解u_i与核心音素表征u_w的相似度(u_w初始时随机初始化，最终的值由训练得到)，并使用softmax函数进行归一化，得到描述向量H_i在L(S)中与情绪信息相关的程度的权重a_i，如式(2)所示；结合a_i，计算H_i的加权和，如式(3)所示，得到L(S)最终的注意力特征向量La(S)，其长度为128。

同理，对倒谱特征的特征向量序列L′(F)＝H′₁H′₂H′₃…H′₄₀₀进行上述操作，得到L'(F)最终的注意力特征向量La'(F)，其长度也是128。

最后，将La′(F)和La(S)首尾连接输入全连接层中进行拟合，全连接层的权重矩阵W_fc∈R^256╳6,即最终输出的向量score∈R⁶，表示模型对六种情绪类别的打分.

步骤S5：语音情绪识别模块利用softmax函数(公式5)对步骤S4输出进行归一化处理，得到语音数据在每种情绪类别的概率。

特别地，对于长语音，可能包含多个有效语音段，那么这个结果就是一个情绪标签的列表，列表中的元素分别对应着按时间排序的有效语音段的情绪预测结果。长语音中可能有多种情绪，未必是一个情绪标签可以表达的，而情绪标签列表可以反映其情绪变化，粒度更细也更合理。

本发明所达到的有益效果:

以上所述仅为本发明专利的一种实施例而已，并不用以限制本发明专利，凡在本发明专利的精神和原则之内所作的任何修改、等同替换和改进等，均以包含在本发明专利的保护范围之内。

Claims

1.一种端到端的语音情感识别的方法，其特征在于，包括如下步骤：

步骤一：从IEMOCAP数据集中抽取句子语音数据和情绪标签，其中句子语音数据是经拆分IEMOCAP数据集中的语音对话为单句语音，每个单句语音为一条语句数据；针对IEMOCAP数据集包含的5个对话，利用5-fold交叉验证方法处理句子语音数据，即依次选取IEMOCAP数据集的4个对话中的句子语音数据作为训练数据，剩下的1个对话中的句子语音数据作为测试数据，形成数据集；情绪标签选取开心、愤怒、中性、悲伤、沮丧以及激动；

其中，IEMOCAP 数据集中的原始语音在抽取句子语音数据前，需先经过预处理提取有效语音片段，具体为：

步骤102，对重采样后的语音数据进行有效语音段提取，过滤掉静音或噪声部分，具体包括：切分语音数据，借助开源工具webrtcvad判断每一帧是噪音帧还是有效帧；有效帧输出1，噪音帧输出0，将语音数据帧序列转换成0-1序列；通过设置一个滑动窗口buf,来寻找有效语音段的起止点，当buf中的1状态达到整个buf的90％，就认为找到有效语音段的起点，当buf中的0状态达到整个buf长度的90％，就认为找到有效语音段的结束点；

步骤五：使用softmax函数：

2.根据权利要求1所述的一种端到端的语音情感识别的方法，其特征在于，所述句子语音数据的音素特征提取过程具体包括：

步骤201：使用pocketsphinx工具获取句子语音数据的音素序列，具体过程为：对于句子语音数据集中任一语音数据,其对应的内容为一句话，表示为语句S＝X₁ X₂ X₃ … X_n，其中X_i(1≤i≤n)是语句S中的单词；即：F(X_i)＝y_i1 y_i2 … y_ik(k∈N+)，其中F是映射函数，y_ij(1≤j≤k)即是单个英文音素，语句S对应的音素序列，记为F(S)＝P₁ P₂ P₃ … P_q(q>＝n)，其中P_i(1≤i≤q)表示S中某个单词经映射函数计算得出的音素序列中的一个音素；完整的音素代号集合如表1所示，共包括42种音素类别：

表1

步骤202：基于词嵌入模型训练，构建音素嵌入模型，具体过程为：设置数据集合DS＝{}，基于每个语句S的音素序列，即F(S)＝P₁ P₂ P₃ … P_q，按照从左到右的顺序，依次选择F(S)的一个音素P_i(1≤i≤q)作为中心音素，若1<i<q，则将音素组合(P_i，P_i-1)，(P_i，P_i+1)添加到DS中，若i＝1或i＝q，则分别将(P₁，P₂)，(P_q，P_q-1)添加到数据集合DS＝{}中；以数据集合DS作为数据集，输入至词嵌入模型中训练100轮，形成音素嵌入模型，修改词嵌入模型模型的权重矩阵为：输出层到隐层权重矩阵形状为42×100,隐层到输出层的权重矩阵形状为100×42，以保证模型输出的音素向量长度保持为100。

3.根据权利要求1所述一种端到端的语音情感识别的方法，其特征在于，所述步骤三的句子语音数据的对数梅尔倒谱特征提取过程具体包括：

步骤303：获取句子语音数据的动态特征：针对经Mel滤波处理的log梅尔倒谱图，求解其一阶差分和二阶差分，将2个差分图与log梅尔倒谱图共同组成为最终的倒谱特征图。

4.根据权利要求1所述的一种端到端的语音情感识别的方法，其特征在于，所述步骤四中语音情绪识别模型构建及特征融合过程包括：

步骤401：采用双向长短记忆模型对句子语音数据对应的音素向量序列进行训练：针对任意句子语音数据S的音素向量序列F(S)＝P₁ P₂ P₃ … P₁₀₀，其逆序序列为F‘(S)＝P₁₀₀ P₉₉P₉₈ … P₁将F(S)和F‘(S)按照从左到右的顺序分别输入到双向长短记忆模型的正向和逆向LSTM结构中，其中正向和逆向LSTM的隐层节点数设为64；将所有序列长度都截断或者补充至100，不足100的序列在末尾补充静音音素，所述静音音素对应的音素编号为SIL,双向长短记忆模型的时间步长同音素向量序列的长度一致，设置为100；

将正向和逆向LSTM的各个时间步的隐含层输出进行连接作为最终的音素特征向量序列，具体为F(S)和F‘(S)中同一音素P_i(1≤i≤100)在正向和逆向LSTM中对应的时间步的隐层输出分别为向量h_i和h′_i，二者的长度都为64，将h_i和h′_i首尾连接得到长度为128的音素特征向量Hi，重复上述步骤，得到S最终的音素特征向量序列L(S)＝H₁ H₂ H₃ … H₁₀₀；

步骤403：特征拟合：将步骤401输出的音素特征向量序列和步骤402输出的倒谱图帧间时序特征向量序列分别输入attention层，获取各特征序列中对声音情绪更关注的向量表征，并首尾连接输入全连接层进行特征拟合。

5.根据权利要求4所述的一种端到端的语音情感识别的方法，其特征在于，所述步骤402倒谱图特征提取过程包括：

步骤402-3：时序特征提取：利用reshape函数将特征图调整成F″∈R^400×2560，将F″看做包含400帧的特征向量序列，每帧的特征向量长度为2560，即：F″＝f₁ f₂ f₃ … f₄₀₀；将F″和它的逆序序列Fr″输入到双向长短期记忆模型中，时间步长为400，隐层节点数为64，输出倒谱图帧间时序特征向量序列L′(F)＝H′₁ H′₂ H′₃ … H′₄₀₀，其中H′_i(1≤i≤400)长度是128，由f_i在双向长短期记忆模型的正向和逆向LSTM结构中对应时间步的隐层输出的向量连接而成。

6.根据权利要求5所述的一种端到端的语音情感识别的方法，其特征在于，所述步骤403中，特征拟合的具体流程：针对任意语句S的音素特征向量序列L(S)＝H₁ H₂ H₃ … H₁₀₀，attention层的计算方法如下：

u_i＝tanh(W_ωH_i+b_ω) (公式2)

首先，将L(S)中的音素特征向量H_i输入线性层构成的隐含层，W_w和b_w分别为隐含层的权重矩阵和偏移向量，得到其隐含层表示u_i,如公式2所示；再求解u_i与核心音素表征u_w的相似度，u_w初始时随机初始化，最终的值由训练得到，并使用softmax函数进行归一化，得到描述向量H_i在L(S)中与情绪信息相关的程度的权重a_i，如公式3所示；结合a_i，计算H_i的加权和，如公式4所示，得到L(S)最终的注意力特征向量La(S)，其长度为128；

同理，对倒谱特征的特征向量序列L′(F)＝H′₁ H′₂ H′₃ … H′₄₀₀进行上述操作，得到L'(F)最终的注意力特征向量La'(F)，其长度也是128；

7.一种根据权利要求1-6之一所述方法运行的端到端的语音情感识别的系统，其特征在于，包括依次相连的数据集制作模块、模型训练模块、语音情绪识别模块；

所述语音情绪识别模块用于对语音数据特征识别，并得到相应的语音情感识别结果。

8.根据权利要求7所述的一种端到端的语音情感识别的系统，其特征在于，根据提取的特征不同，所述数据集制作模块包含音素特征提取子模块和倒谱特征提取子模块；所述音素特征提取子模块，用于提取句子语音数据的音素特征，完成语音音素序列向音素向量序列的转换；所述倒谱特征提取子模块，用于提取句子语音数据的倒谱特征，完成从语音数据的频谱图到log梅尔声谱图的转换。