CN110675860A

CN110675860A - 基于改进注意力机制并结合语义的语音信息识别方法及系统

Info

Publication number: CN110675860A
Application number: CN201910905808.7A
Authority: CN
Inventors: 曹叶文; 陈炜青; 王德强
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2020-01-10

Abstract

本公开提供了一种基于改进注意力机制并结合语义的语音信息识别方法及系统，对原始语音数据进行预处理，进行加窗分帧，并对每一帧提取声学特征；构建LSTM模型，通过改进注意力机制优化LSTM模型，将LSTM中的输出序列进行时域卷积，长度跨越单帧上的所有特征，让LSTM模型输出序列每一帧可以关联并利用到相邻帧的信息，得到语音通道信息特征；对于原始语音数据进行自动语音识别，得到对话的文本数据，对于得到的文本数据行进词向量化预处理，对于词向量化后的文本序列，用双层LSTM与全连接层得到高层深度学习特征，得到语义通道信息特征；融合语音通道信息特征和语义通道信息特征，得到最终语音识别结果。

Description

基于改进注意力机制并结合语义的语音信息识别方法及系统

技术领域

本公开属于语音信息处理以及机器学习的技术领域，涉及一种基于改进注意力机制并结合语义的语音信息识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

随着人工智能的发展、深度学习的应用以及计算机科学的不断进步，相关领域的应用也逐渐活跃起来。对于语音情感识别技术的研究与发展产生了巨大的推动力，促使其成为人工智能研究领域的非常重要的一个方向。自动语音情感识别技术的出现，弥补了普通语音识别技术中对于语音信息分析不足的缺点，可以在获得语音语义的信息之外，能够获得人的精神状态或情绪状态等信息。也是这个重要的原因，让语音情感识别技术越来越多的出现在各个领域的应用中。在电话服务中，可以很大的提高顾客满意度；在汽车驾驶中，可以有效的观测驾驶员的精神状态；在未来的安全监控系统中，可以对公共场所因为情绪失控发生的暴力情况进行有效的避免。因此，语音情感识别的研究是一件非常具有经济价值与社会价值的研究，其技术的发展与进步对于推动社会发展与和谐具有很大意义。

为了实现语音情感的自动识别，很多学者在机器学习算法方面做了大量的研究工作，如支持向量机，贝叶斯分类器和决策树等算法，但上述方法大部分使用语音的全局特征，虽然在语音情感识别上取得一定的效果，均忽略了语音信号是一种时序序列的特性，没有将情感在时序变化上的信息考虑在内。解决该矛盾的一个思路是循环神经网络(Recurrent neural network，RNN)中 Schnidhuber提出的长短时记忆神经网络(Long-Short Term Memory，LSTM)，通过门控机制解决传统RNN模型对长时时序序列处理能力有限的问题，同时克服了梯度消失问题使神经网络可以针对长时序列建模问题进行训练。

在使用LSTM进行语音情感识别的过程中，受神经翻译中注意力机制的启发。使用加权汇集策略，通过一串权重参数，从LSTM输出序列中学习得到每一帧输出的重要程度，然后进行合并。权重参数就是一个注意力分配的系数，给哪一帧输出多少注意力。

另外，传统的语音情感识别研究将语音和文本切割开来，分别讨论。语音中并不能完全体现完整的情感信息，语义中富含的情感信息无法得到充分利用，也是当前需要解决的问题。

发明内容

本公开为了解决上述问题，提出了一种基于改进注意力机制并结合语义的语音信息识别方法及系统，本公开在语音通道上，受神经机器翻译中注意机制思想的启发，通过改进的注意力机制，引入了一种新的加权汇集策略，专注于包含强烈情感特征的话语的特定部分，还同时考虑到了相邻时间帧对其输出的影响，具有更好的时间感受野。在语义通道上，结合自然语言处理中的文本情感识别，对语义信息进行分析。最后通过融合技术，将语音语义信息结合起来，能够很好地提高语音识别性能。

根据一些实施例，本公开采用如下技术方案：

一种基于改进注意力机制并结合语义的语音信息识别方法，包括以下步骤：

对原始语音数据进行预处理，进行加窗分帧，并对每一帧提取声学特征；

构建LSTM模型，通过改进注意力机制优化LSTM模型，将LSTM中的输出序列进行时域卷积，长度跨越单帧上的所有特征，让LSTM模型输出序列每一帧可以关联并利用到相邻帧的信息，得到语音通道信息特征；

对于原始语音数据进行自动语音识别，得到对话的文本数据，对于得到的文本数据行进词向量化预处理，对于词向量化后的文本序列，用双层LSTM与全连接层得到高层深度学习特征，得到语义通道信息特征；

融合语音通道信息特征和语义通道信息特征，得到最终语音识别结果。

作为可选择的实施方式，利用LSTM模型处理得到的声学特征。

通过维持一个细胞状态并使用三个加法门控制信息的遗忘、新增和输出，将反向传播的导数计算从原来的乘法形式变为累加形式，因此避免了梯度消失问题，使处理“长时依赖”问题变为可能。

作为可选择的实施方式，利用注意力机制对LSTM模型的输出进行加权汇集，通过权重学习到LSTM输出序列中每一时间帧的重要程度。即专注于包含强烈情感特征的话语的特定部分，然后对注意力机制进行改进，将LSTM中的输出序列进行时域卷积，长度跨越单帧上的所有特征，让LSTM输出序列每一帧可以关联并利用到相邻帧的信息。

相较于传统的Attention来说，改进的Attention不仅可以突出包含强烈情感特征的话语部分，还可以利用到相邻帧之间的信息，具有更好的时间感受野。通过改进的Attention对LSTM进行处理，最后得到语音通道高级特征。

作为可选择的实施方式，利用自动语音识别模型，从语言数据转化到对话的文本数据，对于每个话语的文本转录，使用预训练Glove模型嵌入，获得每个话语的向量，利用矩阵的方式表示语义信息，利用LSTM处理长序列的优势，并适量增加深度，使用双层LSTM对语义信息进行处理，随后经过全连接层得到语义通道的高层深度学习特征。

作为可选择的实施方式，融合语音通道信息特征和语义通道信息特征，得到最终语音识别结果的具体过程包括：

语音通道信息特征和语义通道信息特征串连得到融合特征，并对融合特征用全连接层进行操作，输出经过全连接层与Softmax层得到最后的情感分类结果，其最终的损失函数为多分类交叉熵函数，所有可训练参数的初始化准则为截断高斯分布，更新准则为梯度下降法。

一种基于改进注意力机制并结合语义的语音信息识别系统，包括：

语音通道信息特征提取模块，被配置为对原始语音数据进行预处理，进行加窗分帧，并对每一帧提取声学特征，构建LSTM模型，通过改进注意力机制优化LSTM模型，将LSTM中的输出序列进行时域卷积，长度跨越单帧上的所有特征，让LSTM模型输出序列每一帧可以关联并利用到相邻帧的信息，得到语音通道信息特征；

语义通道信息特征提取模块，被配置为对于原始语音数据进行自动语音识别，得到对话的文本数据，对于得到的文本数据行进词向量化预处理，对于词向量化后的文本序列，用双层LSTM与全连接层得到高层深度学习特征，得到语义通道信息特征；

融合模块，被配置为融合语音通道信息特征和语义通道信息特征，得到最终语音识别结果。

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的基于改进注意力机制并结合语义的语音信息识别方法。

一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的基于改进注意力机制并结合语义的语音信息识别方法。

与现有技术相比，本公开的有益效果为：

本公开基于改进注意力机制结合语义的语音情感识别方法，通过改进的注意力机制，不仅对含有情感色彩大的帧进行了突出，还同时考虑到了相邻时间帧对其输出的影响，具有更好的时间感受野。同时使用很少的参数就完成了情感识别性能的提升。另外融合语义信息，对原始语音进行了互补，方法巧妙。

本公开提取的结果能够具有语音感情信息，语音识别结果更加准确，具有广阔的应用前景，例如在电话服务中，可以获取顾客的情绪，更加准确的服务，很大的提高顾客满意度；在汽车驾驶中，可以有效的观测驾驶员的精神状态，帮助进行驾驶指导或警告；在未来的安全监控系统中，可以对公共场所因为情绪失控发生的暴力情况进行有效的避免。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是本实施例的流程图；

图2是改制注意力机制中加权值α_t在整段语音的作用；

图3(a)-(b)是IEMOCAP数据库下语音单通道对比准确率随训练时间变化的测试集结果图；

图4(a)-(b)是IEMOCAP数据库下语音，文本及融合对比准确率随训练时间变化的测试集结果图；

图5是IEMOCAP数据库下基于改进注意力机制结合语义的语音情感识别方法所得到的混淆矩阵。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例的基于改进注意力机制结合语义的语音情感识别方法。本发明使用IEMOCAP数据库来验证所提出的算法，具体包括以下步骤。

步骤1.对于IEMOCAP数据库进行训练集与测试集的划分。将整个数据库的前4个部分作为训练集，第5个部分作为测试集。本实施例只考虑IEMOCAP数据库中的4种情感，具体包括愤怒，快乐，中立和悲伤。

步骤2.语音通道上对原始语音数据进行分帧。在0.2秒窗口中计算特征，并以0.1秒步长和16kHz采样率移动它，保持最多100帧或大约10秒的输入，零填充额外信号。这是为了输入LSTM网络时保持数据大小的一致性。然后对处理后的序列进行声学特征提取，并以每个话语的(34，100)特征向量结束。其详细声学特征如下表1所示，其中[]内标注的是特征的维度：

表1语音特征集合表

步骤3.对于步骤2中的帧特征X＝(x₁,x₂,...,x_t)，x_t∈R^34×1,t＝1,2,...,100，将X中每一个列向量依次输入到LSTM网络中，对于时刻t的输入x_t经过LSTM神经网络得到h_t的计算过程如下：

遗忘门(Foget Gate)：如公式(1)所示

f_t＝σ(W_f*[h_t-1,x_t]+b_f) (1)

其

和

为LSTM网络遗忘门的连接权值和偏置，是可训练的。[h_t-1,x_t]表示向量h_t-1与向量x_t拼接，其中[h_t-1,xt]＝[h_t-1 ^Tx_t ^T]^T，x_t∈R^34×1,

σ(·)表示神经网络sigmoid激活函数，下同。

输入门(Input Gate)：如公式(2)，(3)所示

i_t＝σ(W_i·[h_t-1,x_t]+b_i) (2)

其中，

和是LSTM网络输入门连接权值，

和

为其偏置，是可训练的。tanh(·)表示神经网络tanh激活函数。

细胞状态更新(Cell State Update):如公式(4)所示

输出门(Output Gate)：如公式(5)、(6)所示

o_t＝σ(W_o·[h_t-1,x_t]+b_o) (5)

h_t＝o_t·tanh(C_t) (6)

其中，

和

为LSTM网络输出门连接权值与偏置，是可训练的。

它通过维持一个细胞状态并使用三个加法门控制信息的遗忘、新增和输出，将反向传播的导数计算从原来的乘法形式变为累加形式，因此避免了梯度消失问题，使处理“长时依赖”问题变为可能。其输出为输出门的

步骤4.进行时域卷积相关与加权汇集。首先使用传统的Attention机制处理 LSTM每一时间帧输出h_t，在每个时间帧t，计算注意力机制参数向量u和输出h_t之间的内积，其中向量u是可训练的。接着将Softmax函数应用于结果，以获得总和为1的帧的最终权重集，以此作为对最终话语所表达情感的贡献得分。其公式如下：

然后对传统的Attention进行改进，将第t帧的输出h_t进行时域卷积。可以理解为是考虑当前帧输出的同时利用了前后帧的信息，其中第t帧h_t有d₁个特征，即拥有t个向量

将h_t作为H的一个列向量，则有矩阵对于卷积运算，使用跨越所有d₁特征的2D内核

(宽度为k，步长为1，是可训练的)。首先，使用相同填充的方式samepadding，其中h_t零填充为h_t′，

t零填充至t′＝t+2，得到填充后的矩阵H₁，

若用

为相邻k帧内信息的集体映射，它可解释为该k帧的关联输出。用

表示的是列向量

的第q个特征，它由下式给出：

其中

是矩阵H₁中第t-j+1列中，第q个长度为d₁的列向量。K(i,j)表示卷积核中第i行，第j列的元素。

最后步骤4的输出特征为

步骤5.将通过已有的高准确率的自动语音识别模型，从语音数据转化到对话的文本数据。对于IEMOCAP来说，有现成的文本数据提供，直接对其进行使用。

步骤6.对于每个话语的文本转录，使用维度300的预训练Glove模型嵌入，以及最大单词序列长度500，以获得每个话语的(300，500)向量。这样就能把语义信息已矩阵的方式表示出来，即每个对话为W₁∈R^300×500。

步骤7.利用LSTM处理长序列的优势，并适量增加深度，使用双层LSTM对 W₁进行处理，随后经过全连接层，得到语义通道的高层深度学习特征z₁。

步骤8.对于特征

与特征

进行串连得到融合特征其中

的第i个元素为

并对用全连接层(激活函数为relu)进行操作得到

其中z′的第j个元素为其中权值矩阵W与偏置b都是可训练的。

步骤9.将步骤8的输出z′经过全连接层(激活函数为relu，输出维度为情感分类个数)与Softmax层得到最后的情感分类结果，其最终的损失函数为多分类交叉熵函数，所有可训练参数的初始化准则为截断高斯分布，更新准则为梯度下降法。

步骤10.训练整个情感识别网络，并对其性能进行综合测评，评价标准为加权准确性weighted accuracy，未加权准确性unweighted accuracy，以及分数F1，如公式(10-14)所示：

其中p_i为预测值，q_i为实际值，weighted accuracy是通常的准确度，其计算为所有示例的正确答案的一部分。

，其中

其中c为类别，其想法是仅在一个类中获取准确性，然后在所有类中平均这些值。

在二分类中，TP是预测为正，实际为正的数量；FP是预测为正，实际为负的数量；TN是预测为负，实际为负的数量；FN是预测为负，实际为正的数量， F1-Score是precision和recall的调和平均数。对于多分类来说，将n分类的评价拆成n个二分类的评价，计算每个二分类的F1 score，n个F1 score的平均值即为所用。

模型训练的超参数如下表2所示：

表2模型超参数表

参数	值
		学习率	0.0005
优化器	Adam
		批量大小	128
Dropout系数	0.5
		时域卷积核宽度k	3

对比实验：

为对比步骤4中改进注意力机制的优势，本发明在测试集上，将基于传统注意力机制的LSTM-Attention与传统LSTM-NoAttention做对比实验，如图3(a) -(b)是IEMOCAP数据库下语音单通道对比准确率随训练时间变化的测试集结果图；横轴为训练的epoch数，纵轴为识别准确率(weighted Accuracy)。可以发现单纯使用LSTM只能达到56.58％的带权重准确率。而使用本实施例的改进注意力机制，本实施例相较于传统LSTM-NoAttention和传统注意力机制的 LSTM-Attention分别有了5.48％和1.13％的带权重准确率weightedaccuracy提升。并在无权重准确率及F1分数上有6.25％，0.0847及0.025％，0.0137的提升。另外只需要增加少量的参数就有整体识别性能的提升。图2上部分是两个不同测试示例的对应语音原始波形，下部分是其获得的注意力权重(α_t)。获得的权重表明引入改进的注意力机制实现了基于RNN的情绪动态分类所需的两个特性。一个特性是信号中的静音帧被自动分配非常小的权重，非静音帧的权重相对较大，另一个特性是与相邻时间帧有关。所以，改进的注意力机制模型不仅仅关注能量，而且能够考虑不同语言部分的情感内容。

表3 IEMOCAP数据库上语音单通道对比识别性能：

通过表4可以理解到对于文本处理来说，LSTM还是具有自己的优势的，因此在结合文本通道时，选择Text-LSTM。图4(a)-(b)是IEMOCAP数据库下语音，文本及融合对比准确率随训练时间变化的测试集结果图。可以看到结合后的模型相较于语音单通道与文本单通道有了巨大的提升。带权重准确率 weighted accuracy分别提升了6.19％和2.43％。根据表5，明显的看出结合语音语义得到的巨大提升，相较于语音单通道无权重准确率与F1分数提高了12.75％和0.0703；相较于语义文本单通道提高了2.25％和0.0275。

图5为最终模型的混淆矩阵，其横坐标为预测的标签，纵坐标为真实标签，其颜色深度代表数据量的多少，颜色越深数据量越多。

表4 IEMOCAP数据库上语义文本单通道对比识别性能

表5 IEMOCAP数据库下语音，文本及融合对比识别性能

在融合特征时，语音通道高层特征的维度与语义通道高层特征的维度

所占比重对最后情感识别的性能也会产生影响。其对比性能如下表。

表6 IEMOCAP数据库下语音，文本融合维度权重对比识别性能

可以看出当d₁＝d₂时，其情感识别的性能最好。

综上所述，本实施例的基于改进注意力机制结合语义的语音情感识别方法，通过改进的注意力机制与语义方面的补充，大大提高了情感识别性能。而且不仅对含有情感色彩大的帧进行了突出，还同时考虑到了相邻时间帧对其输出的影响，具有更好的时间感受野。同时使用很少的参数就完成了情感识别性能的提升。另外结合语义也对语义中富含的情感信息充分利用，对于整体情感识别是有巨大帮助的。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/ 或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种基于改进注意力机制并结合语义的语音信息识别方法，其特征是：包括以下步骤：

2.如权利要求1所述的一种基于改进注意力机制并结合语义的语音信息识别方法，其特征是：利用LSTM模型处理得到的声学特征。

3.如权利要求1所述的一种基于改进注意力机制并结合语义的语音信息识别方法，其特征是：利用注意力机制对LSTM模型的输出进行加权汇集，通过权重学习到LSTM输出序列中每一时间帧的重要程度。即专注于包含强烈情感特征的话语的特定部分，然后对注意力机制进行改进，将LSTM中的输出序列进行时域卷积，长度跨越单帧上的所有特征，让LSTM输出序列每一帧可以关联并利用到相邻帧的信息。

4.如权利要求1所述的一种基于改进注意力机制并结合语义的语音信息识别方法，其特征是：利用自动语音识别模型，从语言数据转化到对话的文本数据，对于每个话语的文本转录，使用预训练Glove模型嵌入，获得每个话语的向量，利用矩阵的方式表示语义信息，利用LSTM处理长序列的优势，并适量增加深度，使用双层LSTM对语义信息进行处理，随后经过全连接层得到语义通道的高层深度学习特征。

5.如权利要求1所述的一种基于改进注意力机制并结合语义的语音信息识别方法，其特征是：融合语音通道信息特征和语义通道信息特征，得到最终语音识别结果的具体过程包括：

6.一种基于改进注意力机制并结合语义的语音信息识别系统，其特征是：包括：

7.一种计算机可读存储介质，其特征是：其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行权利要求1-5中任一项所述的基于改进注意力机制并结合语义的语音信息识别方法。

8.一种终端设备，其特征是：包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行权利要求1-5中任一项所述的基于改进注意力机制并结合语义的语音信息识别方法。