CN112489687A

CN112489687A - 一种基于序列卷积的语音情感识别方法及装置

Info

Publication number: CN112489687A
Application number: CN202011169102.8A
Authority: CN
Inventors: 陈海波; 其他发明人请求不公开姓名
Original assignee: DeepBlue AI Chips Research Institute Jiangsu Co Ltd
Current assignee: DeepBlue AI Chips Research Institute Jiangsu Co Ltd
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2021-03-12
Anticipated expiration: 2040-10-28
Also published as: CN112489687B

Abstract

本发明公开了一种基于序列卷积的语音情感识别方法及装置，该方法包括获取待识别的语音信息，对语音信息进行提取得到所述语音信息的描述子向量，将描述子向量输入到序列卷积模型，得到语音信息的序列，对语音信息的序列进行处理，得到语音信息的序列特征以及局部特征，根据语音信息的序列特征和局部特征识别所述语音信息的情感。通过并列地使用局部特征和序列特征的方式来进行语音情感特征的识别，区别于传统上单独地使用局部特征或在局部特征的基础上获得时序特征来进行情感的识别方式，可以提高识别准确率。同时使用序列卷积的步长的设置来实现语音情感识别中的跳帧，来减少信息的冗余性。

Description

一种基于序列卷积的语音情感识别方法及装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种基于序列卷积的语音情感识别方法及装置。

背景技术

语音情感识别的一个方案是采用卷积的方式提取局部特征，然后在时间维度上对得到的局部特征进行最大池化，最大池化后得到的特征便是神经网络所使用的语音序列的特征，最后利用该特征进行情感识别。这种方式得到的特征不具有时序特征。语音情感识别的另一方式就是将语音序列输入循环神经网络(一般使用LSTM等)，然后使用循环神经网络的输出得到该语音序列的特征。循环神经网络多使用长短时间记忆网络(LSTM)，该网络计算复杂，且对历史信息的掌握具有不可控性，当语音序列较长时，该网络可能丢失一些历史的记忆，进而影响对情感的识别。

发明内容

本发明实施例提供一种基于序列卷积的语音情感识别方法及装置，用以使得输出的语音序列的特征具有时序性，且提高语音情感识别的准确率。

第一方面，本发明实施例提供一种基于序列卷积的语音情感识别方法，包括：

获取待识别的语音信息；

对所述语音信息进行提取得到所述语音信息的描述子向量；

将所述描述子向量输入到序列卷积模型，得到所述语音信息的序列；

对所述语音信息的序列进行处理，得到所述语音信息的序列特征以及局部特征；

根据所述语音信息的序列特征和局部特征识别所述语音信息的情感。

上述技术方案中，通过并列地使用局部特征和序列特征的方式来进行语音情感特征的识别，区别于传统上单独地使用局部特征或在局部特征的基础上获得时序特征来进行情感的识别方式，可以提高识别准确率。同时使用序列卷积的步长的设置来实现语音情感识别中的跳帧，来减少信息的冗余性。

可选的，所述对所述语音信息进行提取得到所述语音信息的描述子向量，包括：

以预设时长的滑窗在所述语音信息上沿时间轴滑动，把所述语音信息切分为具有重叠部分的音频段，得到所述语音信息的描述子向量。

可选的，所述对所述语音信息的序列进行处理，得到所述语音信息的序列特征以及局部特征，包括：

将所述语音信息的序列进行矩阵分割，得到多个子序列；

将所述多个子序列分别提取特征并进行特征合并，得到所述语音信息的序列特征；

将所述多个子序列分别输入到第一激活函数后进行池化处理，得到所述语音信息的局部特征。

可选的，所述根据所述语音信息的序列特征和局部特征识别所述语音信息的情感，包括：

将所述语音信息的序列特征和局部特征进行联合后得到联合特征；

将所述联合特征输入到第二激活函数中，得到所述语音信息的情感概率；

根据所述语音信息的情感概率，将最大情感概率对应的情感确定为所述语音信息的情感。

可选的，所述将所述语音信息的序列特征和局部特征进行联合后得到联合特征，包括：

将所述语音信息的序列特征和局部特征进行链接，并对链接结果进行随机丢弃操作后，输入到全连接层得到所述联合特征。

第二方面，本发明实施例提供一种基于序列卷积的语音情感识别装置，包括：

获取单元，用于获取待识别的语音信息；

处理单元，用于对所述语音信息进行提取得到所述语音信息的描述子向量；将所述描述子向量输入到序列卷积模型，得到所述语音信息的序列；对所述语音信息的序列进行处理，得到所述语音信息的序列特征以及局部特征；根据所述语音信息的序列特征和局部特征识别所述语音信息的情感。

可选的，所述处理单元具体用于：

将所述语音信息的序列进行矩阵分割，得到多个子序列；

可选的，所述处理单元具体用于：

第三方面，本发明实施例还提供一种计算设备，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行上述基于序列卷积的语音情感识别方法。

第四方面，本发明实施例还提供一种计算机可读非易失性存储介质，包括计算机可读指令，当计算机读取并执行所述计算机可读指令时，使得计算机执行上述基于序列卷积的语音情感识别方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种系统架构的示意图；

图2为本发明实施例提供的一种基于序列卷积的语音情感识别方法的流程示意图；

图3为本发明实施例提供的一种基于序列卷积的语音情感识别装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种系统架构。如图1所示，该系统架构可以为服务器100，该服务器100可以包括处理器110、通信接口120和存储器130。

其中，通信接口120用于与终端设备进行通信，收发该终端设备传输的信息，实现通信。

处理器110是服务器100的控制中心，利用各种接口和线路连接整个服务器100的各个部分，通过运行或执行存储在存储器130内的软件程序/或模块，以及调用存储在存储器130内的数据，执行服务器100的各种功能和处理数据。可选地，处理器110可以包括一个或多个处理单元。

存储器130可用于存储软件程序以及模块，处理器110通过运行存储在存储器130的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器130可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据业务处理所创建的数据等。此外，存储器130可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

需要说明的是，上述图1所示的结构仅是一种示例，本发明实施例对此不做限定。

基于上述描述，图2详细的示出了本发明实施例提供的一种基于序列卷积的语音情感识别方法的流程，该流程可以由份认证的方法的装置执行，该装置可以为上述服务器或位于上述服务器内。

如图2所示，该流程具体包括：

步骤201，获取待识别的语音信息。

该语音信息可以是用户输入的语音信息，也可以是从其他设备采集的语音信息。例如语音信息可以为“我今天很高兴”、“我今天很不高兴”等等。

步骤202，对所述语音信息进行提取得到所述语音信息的描述子向量；将所述描述子向量输入到序列卷积模型，得到所述语音信息的序列。

对应获取的语音信息，可以以预设时长的滑窗在语音信息上沿时间轴滑动，把语音信息切分为具有重叠部分的音频段，得到语音信息的描述子向量。然后将描述子向量输入到序列卷积模型中，就可以得到该语音信息的序列，该序列卷积模型可以是预训练的。该预设时长可以依据经验设置。

具体的，可以使用OpenSmile等工具提取其低层描述子(Low Level Descriptor，LLD)。低层描述子从时长以毫秒为单位的语音帧中提取，表征短时音频特性。用固定时长的滑窗在音频上沿时间轴滑动，把音频在时间轴上切分为固定间隔，具有重叠部分的音频段，得到[S₁,S₂,…,S_t,…,S_T]，其中S_t∈Rⁿ是底层描述子向量，T为该向量序列长度，可以用矩阵S∈R^nxT表示该向量序列。

考虑一序列卷积模型c[m,x,y,z]，其中m表示特征映射个数，x<T，1≤y≤n为该序列卷积的卷积核的大小，z为该序列卷积的在特征和时间维度上的步长，于是S通过该序列卷积后可以得到：

其中

为m*b的矩阵，

符合

表示向上取整，这意味着若剩下的连续区域的长度小于x或y时，可以用0补充。定义

表示从行i到j、列u到v的S子矩阵，其元素

其中

表示第p个卷积核，其为行x、列y的矩阵，1≤p≤m，符号

表示对应位置元素相乘后再相加。

通过上述序列卷积模块，可以得到该语音信息的序列，该语音信息的序列具有时序性。

步骤203，对所述语音信息的序列进行处理，得到所述语音信息的序列特征以及局部特征。

当得到语音信息的序列之后，可以将语音信息的序列进行矩阵分割，得到多个子序列，将多个子序列分别提取特征并进行特征合并，得到语音信息的序列特征，最后将多个子序列分别输入到第一激活函数后进行池化处理，得到该语音信息的局部特征。该第一激活函数可以依据经验设置。

在具体实施过程中，本发明实施例借鉴准循环神经网络(Quasi-RecurrentNeuralNetwork，QRNN)的思想，将上述步骤中语音信息的序列中的每个序列元素，按顺序进行矩阵分割，例如这里取m为三的倍数，且将每个矩阵分为三个子矩阵，于是得到c^S的三个子序列：M¹、M²、M³。这里每个子序列M_i(i＝1,2,3)与序列c^S的长度相同，且每个序列的元素为(m/3)*(n-y+1)的矩阵。

然后就可以提取特征，具体如下：

Z＝tanh(M¹)；

F＝sigmoid(M²)；

O＝sigmoid(M³)。

再进行特征合并得到该语音信息的序列特征，也可以称为时序特征：

c_t＝F_t·h_t-1+(1-F_t)·Z_t；

h_t＝O_t·c_t；

这里1≤t≤a,符合·表示点积，得到序列特征h_a。

本发明实施例可以以下方式描述该语音序列的局部特征：分别将子序列M¹、M²、M³经过relu激活函数后，再对该结果进行特征维度的池化操作，最后进行时间维度上的最大池化，便得到L1,L2,L3，其中位置L_i(i＝1,2,3)为(m/3)*V的矩阵，其中数值V由池化操作决定。最后对三个矩阵进行相应位置元素求取最大值，便得局部特征L∈R^(m/3)xV。

步骤204，根据所述语音信息的序列特征和局部特征识别所述语音信息的情感。

得到语音信息的序列特征和局部特征之后，可以将语音信息的序列特征和局部特征进行联合后得到联合特征，将联合特征输入到第二激活函数中，得到语音信息的情感概率，再根据语音信息的情感概率，将最大情感概率对应的情感确定为语音信息的情感。其中进行联合时，可以将语音信息的序列特征和局部特征进行链接，并对链接结果进行随机丢弃操作后，输入到全连接层得到联合特征。该第二激活函数可以依据经验设置。

具体的，链接以上序列特征h_a和局部特征L，得到U∈R^(m/3)*(b+V)。对U进行Dropout操作后，将其输入到一个全链接层以学习得到联合特征。

将联合特征输入到最后输出层，该输出层以Softmax作为激活函数，输出该句音频数据属于每一类情感的概率。最大概率对应的情感类别即为本模型预测的情感类别。

本发明实施例提供的基于序列卷积的语音情感识别方法，充分利用序列卷积提取语音中携带的情感信息。其一利用序列卷积可以从语音特征的连续相邻若干帧提取丰富的局部信息，同时利用卷积中的步长来实现跳帧的目的，从而避免语音特征序列中携带信息的冗余性；其二利用序列卷积的有序性，同时使用准循环神经网络的思想，来获得语音序列的时序特征，这样带来两方面的益处，一方面是计算速度的提升，相比与传统的循环神经网络而言；另一方面是通过合理设置序列卷积窗口的大小以及步长，可以有效的控制历史信息，从而提高语音情感识别的准确率。

在本发明实施例中，获取待识别的语音信息，对语音信息进行提取得到所述语音信息的描述子向量，将描述子向量输入到序列卷积模型，得到语音信息的序列，对语音信息的序列进行处理，得到语音信息的序列特征以及局部特征，根据语音信息的序列特征和局部特征识别所述语音信息的情感。通过并列地使用局部特征和序列特征的方式来进行语音情感特征的识别，区别于传统上单独地使用局部特征或在局部特征的基础上获得时序特征来进行情感的识别方式，可以提高识别准确率。同时使用序列卷积的步长的设置来实现语音情感识别中的跳帧，来减少信息的冗余性。

基于相同的技术构思，图3示例性的示出了本发明实施例提供的一种基于序列卷积的语音情感识别装置的结构，该装置可以执行基于序列卷积的语音情感识别流程。

如图3所示，该装置具体包括：

获取单元301，用于获取待识别的语音信息；

处理单元302，用于对所述语音信息进行提取得到所述语音信息的描述子向量；将所述描述子向量输入到序列卷积模型，得到所述语音信息的序列；对所述语音信息的序列进行处理，得到所述语音信息的序列特征以及局部特征；根据所述语音信息的序列特征和局部特征识别所述语音信息的情感。

可选的，所述处理单元302具体用于：

将所述语音信息的序列进行矩阵分割，得到多个子序列；

可选的，所述处理单元302具体用于：

基于相同的技术构思，本发明实施例还提供了一种计算设备，包括：

存储器，用于存储程序指令；

处理器，用于调用存储器中存储的程序指令，按照获得的程序执行上述基于序列卷积的语音情感识别方法。

基于相同的技术构思，本发明实施例还提供了一种计算机可读非易失性存储介质，包括计算机可读指令，当计算机读取并执行计算机可读指令时，使得计算机执行上述基于序列卷积的语音情感识别方法。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于序列卷积的语音情感识别方法，其特征在于，包括：

获取待识别的语音信息；

对所述语音信息进行提取得到所述语音信息的描述子向量；将所述描述子向量输入到序列卷积模型，得到所述语音信息的序列；

2.如权利要求1所述的方法，其特征在于，所述对所述语音信息进行提取得到所述语音信息的描述子向量，包括：

3.如权利要求1所述的方法，其特征在于，所述对所述语音信息的序列进行处理，得到所述语音信息的序列特征以及局部特征，包括：

将所述语音信息的序列进行矩阵分割，得到多个子序列；

4.如权利要求1至3任一项所述的方法，其特征在于，所述根据所述语音信息的序列特征和局部特征识别所述语音信息的情感，包括：

5.如权利要求4所述的方法，其特征在于，所述将所述语音信息的序列特征和局部特征进行联合后得到联合特征，包括：

6.一种基于序列卷积的语音情感识别装置，其特征在于，包括：

获取单元，用于获取待识别的语音信息；

7.如权利要求6所述的装置，其特征在于，所述处理单元具体用于：

8.如权利要求6所述的装置，其特征在于，所述处理单元具体用于：

将所述语音信息的序列进行矩阵分割，得到多个子序列；

9.如权利要求6至8任一项所述的装置，其特征在于，所述处理单元具体用于：

10.如权利要求9所述的装置，其特征在于，所述处理单元具体用于：

11.一种计算设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行权利要求1至5任一项所述的方法。

12.一种计算机可读非易失性存储介质，其特征在于，包括计算机可读指令，当计算机读取并执行所述计算机可读指令时，使得计算机执行如权利要求1至5任一项所述的方法。