CN114360584A

CN114360584A - 一种基于音素级的语音情感分层式识别方法及系统

Info

Publication number: CN114360584A
Application number: CN202111461421.0A
Authority: CN
Inventors: 陈炜东; 郭锴凌; 邢晓洁
Original assignee: Guangdong Bowei Intelligent Technology Co ltd; South China University of Technology SCUT
Current assignee: Guangdong Bowei Intelligent Technology Co ltd; South China University of Technology SCUT
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2022-04-15

Abstract

本发明公开一种基于音素级的语音情感分层式识别方法及系统，涉及智能语音处理技术。针对现有技术中情感识别效果较差的问题提出本方案，获取语音信号依次进行音素特征向量提取、字特征向量提取以及句子特征向量提取，最后识别出语音信息的情感分类；提取出的音素特征向量作为字特征向量提取的输入数据；提取出的字特征向量作为句子特征向量提取的输入数据；提取出的句子特征向量作为情感分类识别的输入数据。优点在于，充分考虑语音信号的特性，先以音素为单位对语音信号进行局部建模，随后以字为单位对音素特征进行局部建模，最后对所有的字特征进行全局建模，能有效提取出语音信号中的信息。使用深度学习模型，提高了对语音情感识别的准确率。

Description

一种基于音素级的语音情感分层式识别方法及系统

技术领域

本发明涉及智能语音处理技术，尤其涉及一种基于音素级的语音情感分层式识别方法及系统。

背景技术

人机交互系统伴随着计算机的发展而来，是人与计算机之间交流与通信的媒介。在人机交互的过程中让计算机知晓使用者的情绪，能让计算机的反馈更加人性化，拉近人与机器的距离。情感识别的目的就是赋予机器感受人类情绪的能力，能够让机器及时知晓人类的情绪从而做出相应的判断与反应，进而让机器的行为更贴近人类的行为，提高类人能力，具有非常大的科学价值。说话作为人类表达自我最直接的方式，语音信号中含有非常丰富的情感信息，基于语音的情感识别也成为了情感识别研究中的重点。

目前的研究做法使用机器学习或深度学习方法直接对整段语音信号进行处理。会导致模型的参数量与计算量较大，建模困难，效率低下。将所有语音帧特征拼接在一起后视为一张图像输入进识别系统，没有结合语音信号中天然的结构特性，忽略了语音信号中的局部特征，导致情感识别的效果较差。因此，有必要开发一种适合语音信号的高效建模方式进行情感识别。

发明内容

本发明目的在于提供一种基于音素级的语音情感分层式识别方法及系统，以解决上述现有技术存在的问题。

本发明所述一种基于音素级的语音情感分层式识别方法，获取语音信号并进行分帧后，依次进行音素特征向量提取、字特征向量提取以及句子特征向量提取，最后识别出原始语音信息的情感分类；

提取出的音素特征向量作为字特征向量提取的输入数据；

提取出的字特征向量作为句子特征向量提取的输入数据；

提取出的句子特征向量作为情感分类识别的输入数据。

对分帧后的每一帧语音信号进行短时傅里叶变换得到对应的特征向量。

通过音素强对齐得到语音信号中每一个音素的开始时间与结束时间，以及得到每一个字的开始时间与结束时间。

通过音素的开始时间与结束时间确定每一个音素所包含的帧，对每一个音素内所包含的帧的特征向量进行建模，随后通过平均池化得到对应的音素特征向量。

对特征向量进行建模是通过深度自注意力网络与平均池化完成，先对输入的特征向量进行线性变换，其数学公式为：

其中，X_f是构成某一个音素的所有帧的特征向量组成的c×n矩阵，W是维度为c×c的矩阵，b是c维的列向量，c是每一帧的特征向量的维度，n是该音素所包含的帧的数量，

是X_f经过线性变换后的特征矩阵；

计算特征矩阵

中每一个列向量之间的相关性，其数学公式为：

其中，W_a是维度为n×n的相关矩阵；

通过相关矩阵W_a计算注意力输出：

其中，X_a是一次自注意力计算的输出；

进行多次的自注意力计算并将多个X_ai输出拼接在一起，然后输入到一个线性变换层，得到深度自注意力网络最终的输出：

X_A＝concat(X_a1,X_a2,X_a3…X_aM)W_o；

其中，M为人为设定的自注意力计算次数，W_o是线性变换层的可学习参数，X_A是深度自注意力网络最终的输出矩阵；

通过平均池化，得到该音素的特征向量：

P＝meanpool(X_A)；

其中，meanpool(·)代表平均池化操作，P是c维的音素的特征向量。

通过字的开始时间与结束时间确定每一个字所包含的音素，并通过深度自注意力网络对每一个字中所包含的音素的特征向量进行建模，随后通过平均池化得到每一个字的特征向量，对输入特征向量实现进一步的特征提取与压缩。

对输入特征向量实现进一步的特征提取与压缩，其数学公式为：

其中Transformer(·)代表深度自注意力网络中的运算，

是构成某一个字的所有音素的特征向量组成的c×n₂矩阵，n₂是该字所包含的音素的数量，

是所述字级局部建模模块中的深度自注意力网络的输出；

通过平均池化，得到该字的特征向量：

其中，W是c维的字的特征向量；

通过深度自注意力网络对句子中所有的字的特征向量进行全局建模，随后通过平均池化得到该句子的特征向量，其数学公式为：

其中

是构成某一句子的所有字的特征向量组成的c×n₃矩阵，n₃是该句子所包含的字的数量，

是所述句子级局部建模模块中的深度自注意力网络的输出；

通过平均池化，得到该句子的特征向量：

其中，X_s是c维的句子的特征向量。

采用多层感知机神经网络进行情感分类识别，其数学表达形式如下：

第一个隐藏层与输入层的连接公式：

H₁＝Activation(W₁×X_s+b₁)；

其中Activation(·)是激活函数，W₁是维度为m₁×c的矩阵，m₁是第一个隐藏层的神经元个数，b₁是维度为m₁的列向量，H₁是第一个隐藏层的输出；

第一个隐藏层与第二个隐藏层之间的连接公式：

H₂＝Activation(W₂×H₁+b₂)；

其中，W₂是维度为m₂×m₁的矩阵，m₂是第二个隐藏层的神经元个数，b₂是维度为m₂的列向量，H₂是第二个隐藏层的输出；

第二个隐藏层与输出层之间的连接公式：

Y＝W₃×H₂+b₃；

其中，W₃是维度为m₃×m₂的矩阵，m₃是需要分类的情感类别数，b₃是维度为m₃的列向量，Y是多层感知机的输出。

所述深度自注意力网络在训练阶段准备不同情感标签的说话样本作为训练数据，进行音素特征向量提取、字特征向量提取、句子特征向量提取以及情感分类识别的运算训练；得到识别损失L；在训练的过程中最小化识别损失L，并把梯度回传到系统参数上，然后采用梯度下降法对系统参数进行更新；识别损失L的数学公式为：

其中，y_i是第i个样本的真实情感标签，

是系统的预测情感，i是总样本数的下标；

系统参数P0的更新公式为：

一种基于音素级的语音情感分层式识别系统，利用所述方法进行语音信息的情感分类。

本发明所述一种基于音素级的语音情感分层式识别方法及系统，其优点在于，充分考虑语音信号的特性，先以音素为单位对语音信号进行局部建模，随后以字为单位对音素特征进行局部建模，最后对所有的字特征进行全局建模，能有效提取出语音信号中的信息。使用深度学习模型，提高了对语音情感识别的准确率。

附图说明

图1是本发明所述一种基于音素级的语音情感分层式识别方法的流程示意图；

图2是本发明所述音素特征向量提取的流程示意图；

图3是本发明所述字特征向量提取的流程示意图；

图4是本发明所述句子特征向量提取的流程示意图。

具体实施方式

本发明所述一种基于音素级的语音情感分层式识别系统包括了依次信号连接的拾音模块、音素级局部建模模块、字级局部建模模块、句子级全局建模模块以及识别模块。音素级局部建模模块、字级局部建模模块、句子级全局建模模块以及识别模块均通过深度自注意力网络与平均池化完成特征提取运算。

所述语音情感分层式识别系统通过本发明所述一种基于音素级的语音情感分层式识别方法进行语音信息的情感分类。所述音素级局部建模模块对语音信号中的每一个音素进行局部建模，得到每一个音素的特征向量。所述字级局部建模模块对语音信号中的每一个字内的所有音素特征向量进行局部建模，得到每一个字的特征向量。所述句子级全局建模模块对语音信号中的所有字的特征向量进行全局建模，得到该句子的特征向量。所述识别模块对句子的特征向量进行识别，得到该句子所蕴含的情感信息。

本发明所述一种基于音素级的语音情感分层式识别方法如图1至图4所示，具体如下：所述音素级局部建模模块对输入的语音信号进行分帧并对每一帧语音信号进行短时傅里叶变换得到每一帧的特征向量，通过音素强对齐工具得到语音信号中每一个音素的开始时间与结束时间以及语音信号中每一个字的开始时间与结束时间。所述音素级局部建模模块通过音素的开始时间与结束时间确定每一个音素所包含的帧，并通过深度自注意力网络对每一个音素内所包含的帧的特征向量进行建模，随后通过平均池化得到每一个音素的特征向量，对原始输入特征进行了特征提取与压缩。

深度自注意力网络的数学表达形式如下：

先对输入特征进行线性变换，其数学公式为：

是X_f经过线性变换后的特征矩阵。

计算特征矩阵

中每一个列向量之间的相关性，其数学公式为：

其中，W_a是维度为n×n的相关矩阵。

通过相关矩阵W_a计算注意力输出：

其中，X_a是一次自注意力计算的输出。

进行多次的自注意力计算并将多个X_ai输出拼接在一起，然后输入进一个线性变换层，得到深度自注意力网络最终的输出。其数学公式为：

X_A＝concat(X_a1,X_a2,X_a3…X_aM)W_o

其中，M为人为设定的自注意力计算次数，W_o是线性变换层的可学习参数，X_A是深度自注意力网络最终的输出矩阵。

通过平均池化，得到该音素的特征向量：

P＝meanpool(X_A)；

进一步地，所述字级局部建模模块通过字的开始时间与结束时间确定每一个字所包含的音素，并通过深度自注意力网络对每一个字中所包含的音素的特征向量进行建模，随后通过平均池化得到每一个字的特征向量，对输入特征实现进一步的特征提取与压缩，其数学公式为：

其中Transformer(·)代表深度自注意力网络中的运算，

是所述字级局部建模模块中的深度自注意力网络的输出。

通过平均池化，得到该字的特征向量：

其中，W是c维的字的特征向量；

进一步地，所述句子级全局建模模块通过深度自注意力网络对句子中所有的字的特征向量进行全局建模，随后通过平均池化得到该句子的特征向量，其数学公式为：

其中

是所述句子级局部建模模块中的深度自注意力网络的输出。

通过平均池化，得到该句子的特征向量：

其中，X_s是c维的句子的特征向量。

进一步地，所述识别模块采用层数为3的多层感知机神经网络，其数学表达形式如下：

第一个隐藏层与输入层的连接公式：

H₁＝Activation(W₁×X_s+b₁)

其中，Activation(·)是激活函数，W₁是维度为m₁×c的矩阵，m₁是第一个隐藏层的神经元个数，b₁是维度为m₁的列向量，H₁是第一个隐藏层的输出。

隐藏层与隐藏层之间的连接公式：

H₂＝Activation(W₂×H₁+b₂)

其中，W₂是维度为m₂×m₁的矩阵，m₂是第二个隐藏层的神经元个数，b₂是维度为m₂的列向量，H₂是第二个隐藏层的输出。

最后一个隐藏层与输出层之间的连接公式：

Y＝W₃×H₂+b₃

进一步地，所述基于音素级的语音情感分层式识别方法、系统包括训练阶段和测试阶段。

进一步地，所述基于音素级的语音情感分层式识别方法、系统的训练阶段，准备不同情感标签的说话样本作为训练数据。然后同时训练所述的音素级局部建模模块、字级局部建模模块、句子级全局建模模块、识别模块。所有的训练样本依次输入音素级局部建模模块、字级局部建模模块、句子级全局建模模块、识别模块，得到识别损失L。在训练的过程中最小化识别损失L，并把梯度回传到系统参数上，然后采用梯度下降法对系统参数进行更新。识别损失L的数学公式为：

其中，y_i是第i个样本的真实情感标签，

是系统的预测情感，i是总样本数的下标。

系统参数P0的更新公式为：

对于本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.一种基于音素级的语音情感分层式识别方法，其特征在于，获取语音信号并进行分帧后，依次进行音素特征向量提取、字特征向量提取以及句子特征向量提取，最后识别出原始语音信息的情感分类；

提取出的音素特征向量作为字特征向量提取的输入数据；

提取出的字特征向量作为句子特征向量提取的输入数据；

提取出的句子特征向量作为情感分类识别的输入数据。

2.根据权利要求1所述一种基于音素级的语音情感分层式识别方法，其特征在于，对分帧后的每一帧语音信号进行短时傅里叶变换得到对应的特征向量。

3.根据权利要求2所述一种基于音素级的语音情感分层式识别方法，其特征在于，通过音素强对齐得到语音信号中每一个音素的开始时间与结束时间，以及得到每一个字的开始时间与结束时间。

4.根据权利要求3所述一种基于音素级的语音情感分层式识别方法，其特征在于，通过音素的开始时间与结束时间确定每一个音素所包含的帧，对每一个音素内所包含的帧的特征向量进行建模，随后通过平均池化得到对应的音素特征向量。

5.根据权利要求4所述一种基于音素级的语音情感分层式识别方法，其特征在于，对特征向量进行建模是通过深度自注意力网络与平均池化完成，先对输入的特征向量进行线性变换，其数学公式为：

是X_f经过线性变换后的特征矩阵；

计算特征矩阵

中每一个列向量之间的相关性，其数学公式为：

其中，W_a是维度为n×n的相关矩阵；

通过相关矩阵W_a计算注意力输出：

其中，X_a是一次自注意力计算的输出；

X_A＝concat(X_a1，X_a2，X_a3…X_aM)W_o；

通过平均池化，得到该音素的特征向量：

P＝meanpool(X_A)；

6.根据权利要求5所述一种基于音素级的语音情感分层式识别方法，其特征在于，通过字的开始时间与结束时间确定每一个字所包含的音素，并通过深度自注意力网络对每一个字中所包含的音素的特征向量进行建模，随后通过平均池化得到每一个字的特征向量，对输入特征向量实现进一步的特征提取与压缩。

7.根据权利要求6所述一种基于音素级的语音情感分层式识别方法，其特征在于，对输入特征向量实现进一步的特征提取与压缩，其数学公式为：

其中Transformer(·)代表深度自注意力网络中的运算，

是所述字级局部建模模块中的深度自注意力网络的输出；

通过平均池化，得到该字的特征向量：

其中，W是c维的字的特征向量；

其中

是所述句子级局部建模模块中的深度自注意力网络的输出；

通过平均池化，得到该句子的特征向量：

其中，X_s是c维的句子的特征向量。

8.根据权利要求7所述一种基于音素级的语音情感分层式识别方法，其特征在于，采用多层感知机神经网络进行情感分类识别，其数学表达形式如下：

第一个隐藏层与输入层的连接公式：

H₁＝Activation(W₁×X_s+b₁)；

其中，Activation(·)是激活函数，W₁是维度为m₁×c的矩阵，m₁是第一个隐藏层的神经元个数，b₁是维度为m₁的列向量，H₁是第一个隐藏层的输出；

第一个隐藏层与第二个隐藏层之间的连接公式：

H₂＝Activation(W₂×H₁+b₂)；

第二个隐藏层与输出层之间的连接公式：

Y＝W₃×H₂+b₃；

9.根据权利要求8所述一种基于音素级的语音情感分层式识别方法，其特征在于，所述深度自注意力网络在训练阶段准备不同情感标签的说话样本作为训练数据，进行音素特征向量提取、字特征向量提取、句子特征向量提取以及情感分类识别的运算训练；得到识别损失L；在训练的过程中最小化识别损失L，并把梯度回传到系统参数上，然后采用梯度下降法对系统参数进行更新；识别损失L的数学公式为：

其中，y_i是第i个样本的真实情感标签，

是系统的预测情感，i是总样本数的下标；

系统参数P0的更新公式为：

10.一种基于音素级的语音情感分层式识别系统，其特征在于，利用如权利要求1-9任一所述方法进行语音信息的情感分类。