CN111508500A

CN111508500A - 一种语音情绪识别方法、系统、装置和存储介质

Info

Publication number: CN111508500A
Application number: CN202010304864.8A
Authority: CN
Inventors: 翟懿奎; 余翠琳; 柯琪锐; 梁艳阳; 陈家聪; 应自炉; 王天雷; 徐颖
Original assignee: Wuyi University
Current assignee: Wuyi University
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2020-08-07
Anticipated expiration: 2040-04-17
Also published as: CN111508500B

Abstract

本发明公开了一种语音情绪识别方法、系统、装置和存储介质，包括接收语音信号y(t)；把所述语音信号y(t)输入到情感识别网络前端，得到中间信号；把所述中间信号输入到情感识别网络后端。根据本发明实施例的语音情绪识别方法，至少具有如下技术效果:能够获取语音信号，再经过语音信号处理，提取语音的特征并归类，得到人们常见的6种基本情绪，分别为生气、厌恶、害怕、开心、伤心、和惊讶，从而达到提前识别病人的情绪，及时快速响应的技术效果。

Description

一种语音情绪识别方法、系统、装置和存储介质

技术领域

本发明涉及计算机语音处理领域，特别涉及一种语音情绪识别方法、系统、装置和存储介质。

背景技术

病人的心理状态变化通常会随疾病的发展变幻无常，医护人员无法及时准确有效的了解病人的情绪变化，从而无法及时实施精准的情绪治疗。因此，及时准确对大量病人的心理状态进行收集处理分析显得格外重要。目前在病人心理感知领域，特别是病人语音情绪识别方面还缺乏有效的技术手段。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种语音情绪识别方法、系统、装置和存储介质，所述语音情绪识别方法能对收集病人的语音信息，进行滤波、3D卷积模型提取语音的高级特征和基于注意力机制的滑动递归神经网络提取得到病人的心理状态。所述一种语音情绪识别系统、装置和存储介质应用所述语音情绪识别方法，可以是一个与病人聊天的机器人，及时掌握病人的情感信息的技术效果。

本发明提出一种语音情绪识别方法。包括：接收语音信号y(t)；把所述语音信号y(t)输入到能模拟人耳听觉的情感识别网络前端，得到中间信号；把所述中间信号输入到情感识别网络后端，识别人的情感。

根据本发明实施例的语音情绪识别方法，至少具有如下技术效果:能够获取语音信号，再经过语音信号处理，提取语音的特征并归类，得到人们常见的6 种基本情绪，分别为生气、厌恶、害怕、开心、伤心、和惊讶，从而达到提前识别病人的情绪，及时快速响应的技术效果。

根据本发明实施例的语音情绪识别方法，所述情感识别网络前端包括：把所述语音信号y(t)输入到Gammachirp听觉滤波器进行滤波，得到第一信号 s_g(n,t)；把所述第一信号s_g(n,t)进行希尔伯特变换，用于提权所述第一信号 s_g(n,t)包络，计算所述第一信号s_g(n,t)的瞬时幅度，得到第二信号。原始的语音信号y(t)经过所述情感识别网络前端处理后，能模拟人听觉器官的特征，将语音信号分解为耳蜗中声频分析仪的函数的声频成分，希尔伯特变换提取时间包络，联合频谱-时间调制处理，为后续的情感识别网络后端处理提供基础。

根据本发明实施例的语音情绪识别方法，所述，所述Gammachirp听觉滤波器的脉冲响应是：

其中，

f_n是第n个滤波器的中心频率，所述听觉滤波器的带宽是ERB_N(f_n)

Q_ear是大频率时的渐近滤波器质量，B_min是低频时的最小带宽。

At^a1-1exp(-2πw_fERB_N(f_n)t)服从伽马分布，A表示振幅项，a1是所述 Gammachirp听觉滤波器的幅度，w_f是所述Gammachirp听觉滤波器的阶数。 c₁ln(t)项是单调调频项，

是原始相位；

因此，所述第一信号：s_g(n,t)表示为，

s_g(n,t)＝g_c(n,t)*y(t),1≤n≤N，其中t是时域中的样本数，N是所述 Gammachirp听觉滤波器组中的通道数，*表示卷积。

根据本发明实施例的语音情绪识别方法，所述情感识别网络后端包括：把所述第二信号用3D卷积模型提取所述第二信号的高级特征，得到第三信号；把所述第三信号用基于注意力机制的滑动递归神经网络，对所述第三信号提取情感特征。

根据本发明实施例的语音情绪识别方法，所述3D卷积模型包括第一卷积层(Conv1)、第一池化层(Pool1)、第二卷积层(Conv2)、第二池化层(Pool2)、第三卷积层(Conv3)和第三池化层(Pool3)。输入和输出数据的数据格式设计为“D×H×W”，其中D，H和W是声音通道(深度)，调制通道(高度)和时间序列(宽度)，输入Conv1大小设置为32×9×6000，内核大小为2×2×4。为降低计算复杂度，Conv1的跨度设置为1×1×2，其他卷积层设置为1×1×1。每个卷积层都有归一化和线性整流函数(ReLU)操作。批处理规范化用于加速深度网络的训练；Conv2之前的第一个池化层(Pool1)的内核大小为2×2×1，步长为2×2×1(最大池操作)，第二个池化层(Pool2)的内核大小为2×2×2，跨度为2×2×2，并在Pool2上执行了频谱-时间池化操作；第三池层(Pool3) 的内核大小为2×1×2和步幅为2×1×2；每个池化层中的最大池化操作用于提取针对背景噪声的鲁棒特征，尤其是对于波形信号。这三个池化层将时间序列的输出大小减少了时间长度的20倍。三个卷积层的特征图分别是20、32和64。最后，在将张量的轴移置之后将其形状为750×4×2×64的Pool3输出，然后将其重塑为750×512的2D形状。

表一：3D卷积神经网络结构

层	输入尺寸	输出尺寸	内核大小	步长
					Conv1	3296000	3293000	224	112
Pool1	3293000	1643000	221	221
					Conv2	1643000	1643000	224	111
Pool2	1643000	821500	222	222
					Conv3	821500	821500	224	111
Pool3	821500	42750	212	212
					Reshape	42750	750*512

根据本发明实施例的语音情绪识别方法，所述基于注意力机制的滑动递归神经网络包括：滑动递归神经网络(SRNN)，用于连续提取短期序列的中间段级表示；双向LSTM(BLSTM)网络，信号序列首先被正向馈送到前向LSTM单元，然后被反向馈送到后向LSTM单元，得到多个滑动序列；注意力机制模型，计算每个所述滑动序列的注意力权重和加权和；使用ReLU作为激活函数，将非线性引入所述滑动递归神经网络；使用SoftMax函数来生成情绪状态分布。本发明使用了双向LSTM(BLSTM)网络，其中接收到的信号序列曾经被正向馈送到一个LSTM 单元，然后被反向馈送到另一个LSTM单元。前向LSTM以其原始顺序读取时间序列，并在每个时间步长生成隐藏状态fh(k,t)＝{(fh(k,1),...,fh(k,Z)}。类似地，后向LSTM以相反的顺序读取时间序列，并生成一系列隐藏状态 bh(k,t)＝{bh(k,Z),...,bh(k,1)}。前向和后向LSTM单元的最后状态携带整个源序列的信息。我们将前向和后向LSTM单元格的最后状态串联起来，以产生k个序列的h_k。h_k＝[fh(k,Z),bh(k,1)]每个隐藏状态h_k包含每个滑动窗口序列的信息。沿着窗口的不同帧的循环层的隐藏状态用于计算提取的特征。每个滑动窗口的该层的输出是每个滑动窗口中最后一个时间帧的单元状态向量。在每个滑动窗口进行处理后，我们将移动S个时间帧以计算具有有效填充的下一个滑动窗口。滑动窗口的数量L计算为

BLSTM在每个滑动窗口中的两个方向都有512 个隐藏单元。最后，创建一个形状为L×1024的新序列以放入注意力机制模型。在每个滑动序列中使用LSTM单元的相同参数，然后产生一个新的序列h。 h＝{h₁,...,h_L},h_k∈R^2D,1≤k≤L。

根据本发明实施例的语音情绪识别系统，包括：语音采集单元，用于接收语音信号y(t)；Gammachirp听觉滤波单元，用于计算所述第一信号s_g(n,t)；希尔伯特变换单元，用于提权所述第一信号s_g(n,t)包络；3D卷积单元，用于计算得到所述第三信号；基于注意力机制的滑动递归神经网络单元，用于生成情绪状态分布。

根据本发明实施例的语音情绪识别装置，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-6任一项所述的方法。

根据本发明实施例的一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1-6任一项所述的方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例的语音情绪识别方法的示意图；

图2为本发明实施例的情感识别网络前端示意图；

图3为本发明实施例的情感识别网络后端示意图；

图4为本发明实施例的3D卷积模型示意图；

图5为本发明实施例的基于注意力机制的滑动递归神经网络示意图；

图6为本发明实施例的语音情绪识别系统示意图。

附图标记：

语音采集单元601、

Gammachirp听觉滤波单元602、

希尔伯特变换单元603、

3D卷积单元604、

基于注意力机制的滑动递归神经网络单元605。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

参照图1，描述根据本发明实施例的语音情绪识别方法。包括：

S101：接收语音信号y(t)；

S102：把所述语音信号y(t)输入到能模拟人耳听觉的情感识别网络前端，得到中间信号；

S103：把所述中间信号输入到情感识别网络后端，识别人的情感。

描述根据本发明实施例的语音情绪识别方法，至少具有如下技术效果:能够获取语音信号，再经过语音信号处理，提取语音的特征并归类，得到人们常见的 6种基本情绪，分别为生气、厌恶、害怕、开心、伤心、和惊讶，从而达到提前识别病人的情绪，及时快速响应的技术效果。

参照图2，描述根据本发明实施例的语音情绪识别方法，所述情感识别网络前端包括：

S201：把所述语音信号y(t)输入到Gammachirp听觉滤波器进行滤波，得到第一信号s_g(n,t)；

S202：把所述第一信号s_g(n,t)进行希尔伯特变换，用于提权所述第一信号 s_g(n,t)包络，计算所述第一信号s_g(n,t)的瞬时幅度，得到第二信号。

原始的语音信号y(t)经过所述情感识别网络前端处理后，能模拟人听觉器官的特征，将语音信号分解为耳蜗中声频分析仪的函数的声频成分，希尔伯特变换提取时间包络，联合频谱-时间调制处理，为后续的情感识别网络后端处理提供基础。

参照图1，描述根据本发明实施例的语音情绪识别方法，所述Gammachirp 听觉滤波器的脉冲响应是：

其中，

是原始相位；

因此，所述所述第一信号：s_g(n,t)表示为，

参照图3，描述根据本发明实施例的语音情绪识别方法，所述情感识别网络后端包括：

S301：把所述第二信号用3D卷积模型提取所述第二信号的高级特征，得到第三信号；

S302：把所述第三信号用基于注意力机制的滑动递归神经网络，对所述第三信号提取情感特征。

参照图4，描述根据本发明实施例的语音情绪识别方法，所述3D卷积模型包括：

S401：第一卷积层(Conv1)；

S402：第一池化层(Pool1)；

S403：第二卷积层(Conv2)；

S404：第二池化层(Pool2)；

S405：第三卷积层(Conv3)；

S406：第三池化层(Pool3)

S407：重塑。

输入和输出数据的数据格式设计为“D×H×W”，其中D，H和W是声音通道(深度)，调制通道(高度)和时间序列(宽度)，输入Conv1大小设置为 32×9×6000，内核大小为2×2×4。为降低计算复杂度，Conv1的跨度设置为1 ×1×2，其他卷积层设置为1×1×1。每个卷积层都有归一化和线性整流函数(ReLU)操作。批处理规范化用于加速深度网络的训练；Conv2之前的第一个池化层(Pool1)的内核大小为2×2×1，步长为2×2×1(最大池操作)，第二个池化层(Pool2)的内核大小为2×2×2，跨度为2×2×2，并在Pool2上执行了频谱-时间池化操作；第三池层(Pool3)的内核大小为2×1×2和步幅为2×1 ×2；每个池化层中的最大池化操作用于提取针对背景噪声的鲁棒特征，尤其是对于波形信号。这三个池化层将时间序列的输出大小减少了时间长度的20倍。三个卷积层的特征图分别是20、32和64。最后，在将张量的轴移置之后将其形状为750×4×2×64的Pool3输出，然后将其重塑为750×512的2D形状。

表一：3D卷积神经网络结构

参照图5，描述根据本发明实施例的语音情绪识别方法，所述基于注意力机制的滑动递归神经网络包括：

S501：滑动递归神经网络(SRNN)，用于连续提取短期序列的中间段级表示；

S502：双向LSTM(BLSTM)网络，信号序列首先被正向馈送到前向LSTM单元，然后被反向馈送到后向LSTM单元，得到多个滑动序列；注意力机制模型，计算每个所述滑动序列的注意力权重和加权和；

S503：使用ReLU作为激活函数，将非线性引入所述滑动递归神经网络；

S504：使用SoftMax函数来生成情绪状态分布。

本发明使用了双向LSTM(BLSTM)网络，其中接收到的信号序列曾经被正向馈送到一个LSTM单元，然后被反向馈送到另一个LSTM单元。前向LSTM以其原始顺序读取时间序列，并在每个时间步长生成隐藏状态

fh(k,t)＝{(fh(k,1),...,fh(k,Z)}。类似地，后向LSTM以相反的顺序读取时间序列，并生成一系列隐藏状态bh(k,t)＝{bh(k,Z),...,bh(k,1)}。前向和后向LSTM单元的最后状态携带整个源序列的信息。我们将前向和后向LSTM单元格的最后状态串联起来，以产生k个序列的h_k。h_k＝[fh(k,Z),bh(k,1)]每个隐藏状态h_k包含每个滑动窗口序列的信息。沿着窗口的不同帧的循环层的隐藏状态用于计算提取的特征。每个滑动窗口的该层的输出是每个滑动窗口中最后一个时间帧的单元状态向量。在每个滑动窗口进行处理后，我们将移动S个时间帧以计算具有有效填充的下一个滑动窗口。滑动窗口的数量L计算为

BLSTM在每个滑动窗口中的两个方向都有512个隐藏单元。最后，创建一个形状为L×1024的新序列以放入注意力机制模型。在每个滑动序列中使用LSTM单元的相同参数，然后产生一个新的序列h。h＝{h₁,...,h_L},h_k∈R^2D,1≤k≤L。

参照图6，描述根据本发明实施例的语音情绪识别系统，包括：

语音采集单元601，用于接收语音信号y(t)；

Gammachirp听觉滤波单元602，用于计算所述第一信号s_g(n,t)；

希尔伯特变换单元603，用于提权所述第一信号s_g(n,t)包络；

3D卷积单元604，用于计算得到所述第三信号；

基于注意力机制的滑动递归神经网络单元605，用于生成情绪状态分布。

参照图1，描述根据本发明实施例的语音情绪识别装置，包括：至少一个处理器；

以及与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述第一实施例中任意一种语音情绪识别方法。

该装置可以是任意类型的智能终端，例如手机、平板电脑、个人计算机等。

处理器和存储器可以通过总线或者其他方式连接。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态性计算机可执行程序以及模块，如本发明实施例中的语音情绪识别构建方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行装置的各种功能应用以及数据处理，即实现上述任一方法实施例的一种语音情绪识别方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器中，当被所述一个或者多个处理器执行时，执行上述任意方法实施例中的一种语音情绪识别方法方法。

参照图1，描述根据本发明实施例的一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1-6任一项所述的方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

需要说明的是，本发明实施例的语音情绪识别装置，可以是一个应用语音情绪识别方法的机器人，所述机器人内安装了所述语音采集单元601、所述 Gammachirp听觉滤波单元602、所述希尔伯特变换单元603、所述3D卷积单元 604、所述基于注意力机制的滑动递归神经网络单元605。所述机器人能能够获取语音信号，再经过语音信号处理，提取语音的特征并归类，得到人们常见的6 种基本情绪，分别为生气、厌恶、害怕、开心、伤心、和惊讶，从而达到提前识别病人的情绪，及时快速响应的技术效果。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在所述技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种语音情绪识别方法，其特征在于，包括：

接收语音信号y(t)；

把所述语音信号y(t)输入到能模拟人耳听觉的情感识别网络前端，得到中间信号；

把所述中间信号输入到情感识别网络后端，识别人的情感。

2.根据权利要求1所述的一种语音情绪识别方法，其特征在于，所述情感识别网络前端包括：

把所述语音信号y(t)输入到Gammachirp听觉滤波器进行滤波，得到第一信号s_g(n,t)；

把所述第一信号s_g(n,t)进行希尔伯特变换，用于提取所述第一信号s_g(n,t)包络，计算所述第一信号s_g(n,t)的瞬时幅度，得到第二信号。

3.根据权利要求2所述的一种语音情绪识别方法，其特征在于，所述Gammachirp听觉滤波器的脉冲响应g_c是：

其中，

At^a1-1exp(-2πw_fERB_N(f_n)t)服从伽马分布，A表示振幅项，a1是所述Gammachirp听觉滤波器的幅度，w_f是所述Gammachirp听觉滤波器的阶数。c₁ln(t)项是单调调频项，

是原始相位；

因此，所述第一信号：s_g(n,t)表示为，

s_g(n,t)＝g_c(n,t)*y(t),1≤n≤N，其中t是时域中的样本数，N是所述Gammachirp听觉滤波器组中的通道数，*表示卷积。

4.根据权利要求2所述的一种语音情绪识别方法，其特征在于，所述情感识别网络后端包括：

把所述第二信号用3D卷积模型提取所述第二信号的高级特征，得到第三信号；

把所述第三信号用基于注意力机制的滑动递归神经网络，对所述第三信号提取情感特征。

5.根据权利要求1所述的一种语音情绪识别方法，其特征在于，所述3D卷积模型包括第一卷积层(Conv1)、第一池化层(Pool1)、第二卷积层(Conv2)、第二池化层(Pool2)、第三卷积层(Conv3)和第三池化层(Pool3)。

6.根据权利要求1所述的一种语音情绪识别方法，其特征在于，基于注意力机制的滑动递归神经网络包括：

滑动递归神经网络(SRNN)，用于连续提取短期序列的中间段级表示；

双向LSTM(BLSTM)网络，信号序列首先被正向馈送到前向LSTM单元，然后被反向馈送到后向LSTM单元，得到多个滑动序列；

注意力机制模型，计算每个所述滑动序列的注意力权重和加权和；

使用ReLU作为激活函数，将非线性引入所述滑动递归神经网络；

使用SoftMax函数来生成情绪状态分布。

7.一种语音情绪识别系统，其特征在于，包括：

语音采集单元，用于接收语音信号y(t)；

Gammachirp听觉滤波单元，用于计算所述第一信号s_g(n,t)；

希尔伯特变换单元，用于提权所述第一信号s_g(n,t)包络；

3D卷积单元，用于计算得到所述第三信号；

基于注意力机制的滑动递归神经网络单元，用于生成情绪状态分布。

8.一种语音情绪识别装置，其特征在于，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-6任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1-6任一项所述的方法。