CN113113048B

CN113113048B - 语音情绪识别方法、装置、计算机设备及介质

Info

Publication number: CN113113048B
Application number: CN202110386156.8A
Authority: CN
Inventors: 王健宗; 张之勇; 程宁; 李泽远
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2023-03-10
Anticipated expiration: 2041-04-09
Also published as: CN113113048A

Abstract

本申请涉及一种语音情绪识别方法、装置、计算机设备及介质，其中方法包括：对待识别语音数据进行划分，得到至少两个待识别语音片段；基于特征识别网络对各个所述待识别语音片段进行识别，得到至少两个局部表征信息，每一所述待识别语音片段对应至少一个所述局部表征信息；基于特征学习网络对至少两个所述局部表征信息进行学习，得到全局表征信息；基于情绪识别网络对所述全局表征信息进行识别，得到目标情绪。采用本申请，可提高语音情绪识别的准确率。

Description

语音情绪识别方法、装置、计算机设备及介质

技术领域

本申请涉及计算机技术领域，主要涉及了一种语音情绪识别方法、装置、计算机设备及介质。

背景技术

随着深度学习的发展，基于深度学习的神经网络模型慢慢替代了传统方法来进行语音情绪的分类。神经网络需要大量的训练数据，每一训练数据在训练之前需进行标注。然后，每个标注人员对于同一条语音的标注结果往往存在一定的差异，从而难以提高语音情绪识别的准确率。

发明内容

本申请实施例提供了一种语音情绪识别方法、装置、计算机设备及介质，可提高语音情绪识别的准确率。

第一方面，本申请实施例提供一种语音情绪识别方法，其中：

对待识别语音数据进行划分，得到至少两个待识别语音片段；

基于特征识别网络对各个所述待识别语音片段进行识别，得到至少两个局部表征信息，每一所述待识别语音片段对应至少一个所述局部表征信息；

基于特征学习网络对至少两个所述局部表征信息进行学习，得到全局表征信息；

基于情绪识别网络对所述全局表征信息进行识别，得到目标情绪。

第二方面，本申请实施例提供一种语音情绪识别装置，其中：

划分单元，用于对待识别语音数据进行划分，得到至少两个待识别语音片段；

第一识别单元，用于基于特征识别网络对各个所述待识别语音片段进行识别，得到至少两个局部表征信息，每一所述待识别语音片段对应至少一个所述局部表征信息；

学习单元，用于基于特征学习网络对至少两个所述局部表征信息进行学习，得到全局表征信息；

第二识别单元，用于基于情绪识别网络对所述全局表征信息进行识别，得到目标情绪。

第三方面，本申请实施例提供一种计算机设备，包括处理器、存储器、通信接口以及一个或至少一个程序，其中，上述一个或至少一个程序被存储在上述存储器中，并且被配置由上述处理器执行，所述程序包括用于如第一方面中所描述的部分或全部步骤的指令。

第四方面，本申请实施例提供了一种计算机可读存储介质，其中，所述计算机可读存储介质存储计算机程序，其中，所述计算机程序使得计算机执行以实现如第一方面中所描述的部分或全部步骤。

实施本申请实施例，将具有如下有益效果：

采用了上述的语音情绪识别方法、装置、计算机设备及介质之后，先对待识别语音数据进行划分，得到至少两个待识别语音片段，再基于特征识别网络分别对各个待识别语音片段进行识别，得到至少两个局部表征信息。然后基于特征学习网络对至少两个局部表征信息进行学习，得到全局表征信息，基于情绪识别网络对全局表征信息进行识别，得到目标情绪。也就是说，通过特征识别网络、特征学习网络和情绪识别网络进行情绪识别，提高了获取目标情绪的准确率。且特征识别网络输入的是待识别语音片段，特征学习网络输入的是待识别语音片段的局部表征信息，也就是说，减少了情绪分析的粒度。特征学习网络得到的全局表征信息可携带局部表征信息中的隐层特征，可进一步提高获取目标情绪的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为本申请实施例提供的一种残差学习的结构示意图；

图2为本申请实施例提供的一种递归神经网络的结构示意图；

图3为本申请实施例提供的一种基于特征学习网络进行学习的流程示意图；

图4为本申请实施例提供的一种语音情绪识别方法的流程示意图；

图5为本申请实施例提供的一种语音情绪识别装置的结构示意图；

图6为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。根据本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例应用的网络架构包括服务器和电子设备。其中，电子设备可以是个人计算机(personal computer，PC)、笔记本电脑或智能手机，还可以是一体机、掌上电脑、平板电脑(pad)、智能电视播放终端、车载终端或便捷式设备等。PC端的电子设备，例如，一体机等，其操作系统可以包括但不限于Linux系统、Unix系统、Windows系列系统(例如，Windows xp、Windows 7等)、Mac OS X系统(苹果电脑的操作系统)等操作系统。移动端的电子设备，例如，智能手机等，其操作系统可以包括但不限于安卓系统、IOS(苹果手机的操作系统)、Window系统等操作系统。

服务器用于为电子设备提供服务。本申请实施例中的电子设备可以安装并运行应用程序，服务器可以是电子设备所安装的应用程序对应的服务器，为应用程序提供应用服务。其中，应用程序可以包含语音情绪识别程序，其应用程序的形式可以为单独集成的应用程序，或者为其它应用中嵌入的小程序，或者为网页上的系统等，在此不做限定。本申请实施例不限定电子设备和服务器的数量，服务器可同时为多个电子设备提供服务。服务器可以用独立的服务器或者多个服务器组成的服务器集群来实现。

本申请实施例提出的一种语音情绪识别方法，该方法可以由语音情绪识别装置执行，其中该装置可由软件和/或硬件实现，一般可集成在服务器中，本申请实施例以该方法应用在服务器为例进行举例说明，可提高语音情绪识别的准确率。

在介绍本申请实施例之前，首先介绍本申请实施例涉及的一些名词，其中：

(1)局部表征信息，用于描述语音数据中浅层的声音特征，可以理解为不需要深度分析得到的特征，例如，音量、响度、音色等。其中，音调用于描述声音的高低，与声波的频率有关，声波的频率越高，音调也越高。响度用于描述声音的强弱，与声波振动的幅度有关，声波振动幅度越大，响度越大。音色用于描述声音的特征，与声波的振动波形有关，或者说与声音的频谱结构有关，可通过音色进行人声识别。本申请对于获取局部表征信息的方法不做限定，可将语音数据进行处理，得到该语音数据的频谱图，从而根据该频谱图获取局部表征信息，或者根据前述或后述的特征识别网络进行获取等。

(2)全局表征信息，用于描述语音数据中深层的特征，可以理解为对局部表征信息进行深度分析得到的特征，或者，人可以理解的显性特征，例如，情绪、性格、年龄、性别等。表征信息可采用向量表示各种特征的概率。可以理解，朗朗笑声表达了愉快的情绪，而呻吟表达了痛苦的情绪等，通过语音数据可以判断和识别说话者的情绪。不同的情绪、性格、年龄、性别等表征信息对应的局部表征信息具有一定的规律性，从而可通过分析局部表征信息得到说话者的表征信息。本申请对于获取表征信息的方法不做限定，可通过统计各种类型的表征信息的局部表征信息，然后将说话者的局部表征信息进行对比，得到与该局部表征信息对应的目标局部表征信息，再将目标局部表征信息对应的表征信息作为说话者的表征信息。或者根据前述或后述的特征学习网络对特征学习网络得到的局部表征信息进行学习得到等。

(3)对比损失函数(probabilistic contrastive loss)，其形式可参照以下公式(1)，其中：

其中，x_t+k表示未来t+k时刻的语音片段，c_t表示当前时刻的语音片段，分子表示当前正确的语音序列，分母表示所有可能的语音序列，对比损失函数用于获取未来t+k时刻和当前时刻的语音片段之间的差异。

(4)噪声对比估计(noise contrastive estimation，NCE)损失函数，其本质是利用已知的概率密度函数来估计未知的概率密度函数，可用于优化现在和未来的互信息并进行假设和拟合，可以理解为NCE损失函数用于表示当前t时刻的信息和未来t+k时刻的信息之间的某种相关性，即相对熵。NCE损失函数L_N的计算可参照以下公式(2)，其中：

公式(2)可参照公式(1)的描述，x_t+k表示未来t+k时刻的语音片段，c_t表示当前时刻的语音片段。给定一个序列X＝{x₁，…，x_N}，从p(x_t+k|c_t)中获取一个正样本，从p(x_t+k)中获取N-1个负样本，将公式进一步优化，以概率形式写出可得到以下公式(3)，其中：

通过NCE损失函数对网络模型进行训练，可不断拉大的正负样本之间的差异，可提高训练效果。

(5)特征识别网络，用于提取语音数据的局部表征信息。特征识别网络可以包括深度残差网络(deep residual network，ResNet)，通过残差学习解决了深度网络的退化问题，可以训练出更深的网络。ResNet是参考了牛津大学计算机视觉组(visual geometrygroup，VGG)提出的VGG19网络，在其基础上进行了修改，并通过短路机制加入了残差单元。变化主要体现在ResNet直接使用步长(stride)等于2的卷积做下采样，并且用全局池化层(global average pool，GAP)替换了全连接层。ResNet的一个重要设计原则是：当卷积层输出的特征图(feature map)大小降低一半时，feature map的数量增加一倍，可保持网络层的复杂度。残差学习相比原始特征直接学习更容易，请参照图1，图1为本申请实施例提供的一种残差学习的结构示意图。如图1所示，对于一个堆积层结构(几层堆积而成)，当输入为x时，其学习到的特征记为H(x)。若希望可以学习到残差F(x)＝H(x)-x，则原始的学习特征是F(x)+x。当残差F(x)＝0时，就构成了一个恒等映射H(x)＝x，此时堆积层进行了恒等映射，至少网络性能不会下降。实际上残差不会为0，这也会使得堆积层在输入特征基础上学习到新的特征，从而拥有更好的性能。

(6)特征学习网络，用于根据之前的语音片段中的局部表征信息进行学习，得到基本信息中的隐层特征，从而能获取更为全面的表征信息。本申请将训练过程中特征识别网络提取得到的局部表征信息作为第一表征信息，将训练过程中特征学习网络预测得到的表征信息作为第二表征信息。第一表征信息是特征识别网络获得的信息，第一表征信息与特征识别网络的卷积核有关，包含局部特征的信息。第二表征信息在局部特征的基础上，加入了全局信息，第二表征信息相比第一表征信息而言，第二表征信息中可携带第一表征信息中的隐层特征，具有很好的全局表达能力。

特征学习网络可以包括递归神经网络(recurrent neural networks，RNNs)，用于根据之前的表征信息预测下一时刻的信息。具体可包括长短期记忆网络(long short termmemory network，LSTM)，可解决长时依赖问题。也就是说，可依据与当前预测点距离的信息，对预测点的信息进行预测。LSTM可参照图2中的矩形方框，被称为memory block(记忆块)，主要包含了遗忘门(forget gate，f_t)、输入门(input gate，i_t)、输出门(output gate，o_t)与一个记忆单元(cell)。方框内上方的那条水平线，被称为单元状态(cell state)，它就像一个传送带，可以控制信息传递给下一时刻。遗忘门、输入门和输出门均可用作为分类函数和激活函数的sigmoid层表示，每个sigmoid层输出一个在0到1之间的数字，这个数字为每个单元中应该通过的数据数量。更准确地说，如果这个值为0，意味着“不让任何数据通过”，如果这个值为1，则表示“让所有数据都通过”，从而可以选择性地让数据通过或丢弃。图2中的两个tanh层则分别对应cell的输入与输出。本申请对于特征学习网络中的cell数量不做限定，该cell的数量可以是2的幂次。可选的，特征学习网络包括4096个单元。

特征学习网络可包括线性自回归(autoregressive model，AR)模型，例如，AR(5)模型可采用x_t之前的x_t-5、x_t-4、x_t-3、x_t-2、x_t-1预测x_t，还可根据x_t-5、x_t-4、x_t-3、x_t-2、x_t-1预测x_t之后的x_t+1、x_t+2、x_t+3、x_t+4等。需要说明的是，预测未来的时刻与现有的时刻之间的差距越远，其预测的准确率越低。

本申请对于特征学习网络中用于预测的前项信息的数量不做限定，可以根据语音片段的数量进行确定，例如，当语音片段的数量为10时，可采用前5项预测后5项的信息。还可根据语音片段之间的相关性进行确定，例如，采用一句话中前项信息预测后项信息等。

(7)情绪识别网络，用于对输入的表征信息进行情绪分类，可包括全连接层(fullyconnected layers，FC)、与全连接层的输出层连接的激活函数和与激活函数的输出层连接的分类器。其中，全连接层本质就是由一个特征空间线性变换到另一个特征空间。如果说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间的话，全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用。在本申请实施例中，全连接层用于提取表征信息中有效信息。情绪识别网络中可包括至少两个全连接层，可提高提取表征信息的有效性，便于提高情绪识别网络的准确率。

神经网络中的每个神经元节点接受上一层神经元的输出值作为本神经元的输入值，并将输入值传递给下一层，输入层的神经元节点会将输入属性值直接传递给下一层(隐层或输出层)。在多层神经网络中，上层节点的输出和下层节点的输入之间具有一个函数关系，这个函数称为激活函数。简单来说，激活函数，并不是去激活什么，而是指如何把“激活的神经元的特征”通过函数把特征保留并映射出来，即负责将神经元的输入映射到输出端。

在本申请实施例中，激活函数可以是relu函数是常见的激活函数中的一种，激活函数f(x)的表达形式如以下公式(4)，其中：

f(x)＝max(0，x) (4)

从表达式可以看出relu函数用于取最大值。relu函数其实是分段线性函数，把所有的负值都变为0，而正值不变，这种操作被称为单侧抑制。也就是说，在输入是负值的情况下，它会输出0，那么神经元就不会被激活。这意味着同一时间只有部分神经元会被激活，从而使得网络很稀疏，进而对计算来说是非常有效率的。在本申请实施例中，激活函数用于将全连接层输出的情绪信息进行非线性映射，并输出给分类器。

分类器用于将激活函数输出的非线性映射的情绪信息进行分类，得到语音数据的情绪。需要说明的是，分类器中可得到各个情绪的概率值，从而基于各个情绪的概率值可确定语音数据的目标情绪。本申请对于各个情绪的概率值确定目标情绪的方法不做限定，可以选取最大的概率值对应的情绪作为目标情绪，或者将大于一个阈值的概率值对应的情绪均作为目标情绪。

本申请对于特征识别网络、特征学习网络和情绪识别网络的训练过程不做限定。其中，特征识别网络和情绪识别网络可使用公开的用于语音情感分类的数据集(例如，柏林数据集)进行训练。特征学习网络的学习方法可以基于对比预测编码(representationlearning with contrastive predictive coding，CPC)技术进行无监督学习。如图3所示，采用特征识别网络(如图3中的genc)获取语音数据中语音片段(如图3中的x_t、x_t+1、x_t+2、x_t+3、x_t+4)的第一表征信息(如图中的z_t、z_t+1、z_t+2、z_t+3、z_t+4)；再通过特征学习网络(如图3中的gar)根据之前的语音片段(如图3中的x_t-3、x_t-2、x_t-1)预测后面的语音特征，得到第二表征信息(如图3中的c_t)。然后采用上述的NCE对比损失函数计算，从而使用自回归模型和编码从高维的表征信息中学习到可表示信息，使用对比预测编码预测未来的隐变量信息。

在本申请实施例中，可预先将特征识别网络、特征学习网络和情绪识别网络，以及上述各个网络的训练集存储至服务器中，或者存储于区块链(Blockchain)网络上的一个区块中。其中，区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。可见，通过区块链分布式存储数据，在保证数据安全性的同时，可实现信息在不同平台之间的数据共享。

具体的，请参照图4，图4是本申请提供的一种语音情绪识别方法的流程示意图，包括如下步骤S401～S404，其中：

S401：对待识别语音数据进行划分，得到至少两个待识别语音片段。

本申请对于划分待识别语音片段的方法不做限定，可以将待识别语音数据进行语义划分，例如，将一句话划分为一个待识别语音片段，还可以将待识别语音数据划分为单帧的待识别语音片段等。

在一种可能的示例中，步骤S401包括：根据待识别语音数据的采样频率确定片段时长；根据片段时长对待识别语音数据进行划分，得到至少两个待识别语音片段。

其中，采样频率，也称为采样速度或者采样率，定义了每秒从连续信号中提取并组成离散信号的采样个数，它用赫兹(Hz)来表示。采样频率的倒数是采样周期或者叫作采样时间，它是采样之间的时间间隔。通俗的讲采样频率是指计算机每秒钟采集多少个信号样本。

片段时长为待识别语音片段的时间长度。本申请对于确定片段时长的方法不做限定，可以预先存储采样频率和片段时长之间的关联关系，该关联关系可以采用表格形式，也可以采用公式进行表达等。例如，采样频率为16000Hz，片段时长为50ms。

可以理解，在该示例中，根据待识别语音数据的采样频率确定片段时长，再根据片段时长对待识别语音数据进行划分得到待识别语音片段。也就是说，将待识别语音数据划分为单独的语音片段，数据的颗粒度较细，便于提高语音情绪识别的准确率。

需要说明的是，每一待识别语音片段可携带时间信息，或者携带标识待识别语音片段顺序的序号，可便于后续预测出后面的待识别语音片段的情绪。本申请实施例划分待识别语音片段的步骤，不包括加窗、预加重、快速傅里叶变换等预处理方式，可保留原本语音数据的特征，便于提高后续分析的准确率。

S402：基于特征识别网络对各个待识别语音片段进行识别，得到至少两个局部表征信息。

特征识别网络如前所述，用于提取待识别语音片段的局部表征信息。在本申请实施例中，每一待识别语音片段对应至少一个局部表征信息。

S403：基于特征学习网络对至少两个局部表征信息进行学习，得到全局表征信息。

特征学习网络如前所述，用于根据之前得到的待识别语音片段中的表征信息进行学习，得到表征信息中的隐层特征，从而能获取更为全面的表征信息。也就是说，将特征识别网络得到的待识别语音片段中的局部表征信息进行学习，得到局部表征信息中的隐层特征，也就是局部表征信息对应的全局表征信息，可提高特征识别的准确率。

本申请对于得到全局表征信息的方法不做限定，在一种可能的示例中，步骤S403包括以下步骤A1～A3，其中：

A1：确定待识别语音数据的场景信息，和/或待识别语音数据对应的说话者的基本信息。

其中，场景信息可包括时间和环境(例如，室内室外、雨天晴天)等。待识别数据对应的说话者的基本信息可包括说话者的年龄、性别、性格、健康状态等信息。场景信息和基本信息可通过预先输入的信息进行确定，或者基于特征识别网络进行确定。

在一种可能的示例中，步骤A1包括：基于特征识别网络对多个待识别语音片段进行识别，得到环境声音特征；根据环境声音特征确定待识别语音数据的场景信息；根据局部表征信息确定待识别语音数据对应的说话者的基本信息。

其中，环境声音特征用于描述环境中的声音特征，例如，环境噪声、说话者的人数、各个说话者的音量、响度、音色等。其中，环境噪声包括环境中除了人之外的声音，例如，雨声、虫鸣声、叫卖声、铃声、键盘声、鸣笛等，在此不做限定。

可以理解，特征识别网络能提取待识别语音片段的环境声音特征，该环境声音特征包括待识别语音数据对应的说话者的局部表征信息，还可包括待识别语音数据对应的环境的局部表征信息，从而可根据说话者的至少一个局部表征信息确定该说话者的基本信息，以及根据环境的局部表征信息确定待识别语音数据的场景信息。例如，可根据虫鸣声确定位于树或草丛周围，可根据鸣笛声确定位于马路附近，可根据叫卖声确定位于叫卖声对应的街道，可根据键盘声确定位于机房等。

A2：基于场景信息和/或基本信息对特征学习网络的网络参数进行调整，得到目标特征学习网络。

本申请对于调整网络参数的方法不做限定，可以预先基于不同的场景信息和\或说话者的基本信息，对特征学习网络进行训练，并得到各种场景信息和\或基本信息对应的预设网络参数。然后，在训练完成之后，可基于各种场景信息和\或基本信息对应的预设网络参数确定待识别语音数据的场景信息和\或基本信息对应的目标网络参数，从而基于该目标网络参数对特征学习网络进行调整，得到目标特征学习网络。

A3：基于目标特征学习网络对至少两个局部表征信息进行学习，得到至少一个全局表征信息。

可以理解，不同的时段和环境下，说话者的情绪可能随之变化。且不同的说话者之间的声音特征不同。在该示例中，基于待识别语音数据的场景信息和/或待识别语音数据对应的说话者的基本信息对特征学习网络的网络参数进行调整，得到目标特征学习网络。然后，基于目标特征学习网络对多个局部表征信息进行学习，得到至少一个全局表征信息。也就是说，基于场景信息和/或说话者的基本信息调整了特征学习网络的网络参数，提高了获取全局表征信息的准确率。

本申请对于目标特征学习网络的学习方法不做限定，在一种可能的示例中，步骤A3包括：根据预设数量将至少两个局部表征信息进行分组，得到至少两个局部表征信息组；基于目标特征学习网络对至少两个局部表征信息组进行学习，得到全局表征信息。

其中，预设数量为单次进行学习的局部表征信息的数量。本申请对于预设数量不做限定，可以是固定的数值，例如，5。或者可以依据局部表征信息的数量进行设置等。在一种可能的示例中，在步骤A3之前还包括：确定局部表征信息的片段时长；根据局部表征信息的数量和片段时长确定预设数量。

其中，片段时长可参照前述，在此不再赘述。可以理解，当根据局部表征信息的数量和片段时长确定分组的待识别语音片段的数量(即预设数量)时，可提高预设数量的准确率，便于提高获取全局表征信息的准确率。

需要说明的是，上述分组可将连续的局部表征信息对应的待识别语音片段分为一组，从而可依据前面的连续的局部表征信息去预测后面的全局表征信息，以使该全局表征信息携带了局部表征信息中的隐层特征，可进一步提高情绪识别网络的识别精度。

S404：基于情绪识别网络对全局表征信息进行识别，得到目标情绪。

在本申请实施例中，目标情绪为待识别语音数据对应的情绪。本申请对于识别目标情绪的方法不做限定，在一种可能的示例中，情绪识别网络包括全连接层、激活函数和分类器，步骤S404包括：基于全连接层提取全局表征信息中的有效表征信息；基于激活函数对有效表征信息进行非线性映射，得到至少两个子表征信息；基于分类器将至少两个子表征信息进行分类，得到各类情绪的概率值；以及根据各类情绪的概率值确定目标情绪。

其中，有效表征信息为全局表征信息中的有效信息。子表征信息为激活函数进行非线性映射得到的表征信息。概率值为各类情绪对应的概率。本申请对于各类情绪的概率值确定目标情绪的方法不做限定，可以选取各类情绪特征的概率值中的最大值对应的情绪，也可以将大于一个阈值的概率值对应的情绪均作为目标情绪等。

可以理解，在该示例中，先通过全连接层提取全局表征信息中的有效表征信息，再基于与全连接层的输出层连接的激活函数，对有效表征信息进行非线性映射，得到至少两个子表征信息。然后基于与激活函数连接的输出层连接的分类器对至少两个子表征信息进行分类，得到各个情绪的概率值，再根据各类情绪的概率值确定目标情绪，可提高获取目标情绪的准确率。

特征识别网络、特征学习网络和情绪识别网络的训练方法可参照前述，特征识别网络和情绪识别网络可使用公开的用于语音情感分类的数据集(例如，柏林数据集)进行训练。特征学习网络的训练可以基于对比预测编码技术和NCE对比损失函数进行无监督学习，在此不再赘述。

在图4所示的方法中，先对待识别语音数据进行划分，得到至少两个待识别语音片段，再基于特征识别网络分别对各个待识别语音片段进行识别，得到至少两个局部表征信息。然后基于特征学习网络对至少两个局部表征信息进行学习，得到全局表征信息，基于情绪识别网络对全局表征信息进行识别，得到目标情绪。也就是说，通过特征识别网络、特征学习网络和情绪识别网络进行情绪识别，提高了获取目标情绪的准确率。且特征识别网络输入的是待识别语音片段，特征学习网络输入的是待识别语音片段的局部表征信息，也就是说，减少了情绪分析的粒度。特征学习网络得到的全局表征信息可携带局部表征信息中的隐层特征，可进一步提高获取目标情绪的准确率。

上述详细阐述了本申请实施例的方法，下面提供了本申请实施例的装置。

与图4所示的实施例一致，请参照图5，图5是本申请提出的一种语音情绪识别装置的结构示意图，如图5所示，上述语音情绪识别装置500包括：

划分单元501用于对待识别语音数据进行划分，得到至少两个待识别语音片段；

第一识别单元502用于基于特征识别网络对各个所述待识别语音片段进行识别，得到至少两个局部表征信息，每一所述待识别语音片段对应至少一个所述局部表征信息；

学习单元503用于基于特征学习网络对至少两个所述局部表征信息进行学习，得到全局表征信息；

第二识别单元504用于基于情绪识别网络对所述全局表征信息进行识别，得到目标情绪。

在一个可能的示例中，所述语音情绪识别装置500还包括确定单元505，用于确定所述待识别语音数据的场景信息，和/或所述待识别语音数据对应的说话者的基本信息；根据所述场景信息和/或所述基本信息对所述特征学习网络的网络参数进行调整，得到目标特征学习网络；所述学习单元503具体用于基于所述目标特征学习网络对至少两个所述局部表征信息进行学习，得到全局表征信息。

在一个可能的示例中，所述确定单元505具体用于基于所述特征识别网络对所述待识别语音片段进行识别，得到环境声音特征；根据所述环境声音特征确定所述待识别语音数据的场景信息；根据所述局部表征信息确定所述待识别语音数据对应的说话者的基本信息。

在一个可能的示例中，所述学习单元503具体用于根据预设数量将至少两个所述局部表征信息进行分组，得到至少两个局部表征信息组；基于所述目标特征学习网络对至少两个所述局部表征信息组进行学习，得到全局表征信息。

在一个可能的示例中，所述确定单元505还用于确定所述局部表征信息的片段时长；根据所述局部表征信息的数量和所述片段时长确定所述预设数量。

在一个可能的示例中，所述划分单元501具体用于根据待识别语音数据的采样频率确定片段时长；根据所述片段时长对所述待识别语音数据进行划分，得到至少两个待识别语音片段。

在一个可能的示例中，所述情绪识别网络包括全连接层、激活函数和分类器，所述第二识别单元504具体用于基于所述全连接层提取所述全局表征信息中的有效表征信息；基于所述激活函数对所述有效表征信息进行非线性映射，得到至少两个子表征信息；基于所述分类器将所述子表征信息进行分类，得到各类情绪的概率值；根据所述各类情绪特征的概率值确定目标情绪。

该语音情绪识别装置500中各个单元执行详细过程可以参见前述方法实施例中的执行步骤，此处不在赘述。

与图4的实施例一致，请参照图6，图6是本申请实施例提供的一种计算机设备的结构示意图。如图6所示，该计算机设备600包括处理器610、存储器620、通信接口630以及一个或至少一个程序640。图5所示的存储单元503所实现的相关功能可通过存储器620来实现，图5所示的划分单元501、第一识别单元502、学习单元503、第二识别单元504和确定单元505所实现的相关功能可通过处理器610来实现。

上述一个或至少一个程序640被存储在上述存储器620中，并且被配置由上述处理器610执行，上述程序640包括用于执行以下步骤的指令：

在一个可能的示例中，在所述基于特征学习网络对至少两个所述局部表征信息进行学习，得到全局表征信息方面，所述程序640具体用于执行以下步骤的指令：

确定所述待识别语音数据的场景信息，和/或所述待识别语音数据对应的说话者的基本信息；

根据所述场景信息和/或所述基本信息对所述特征学习网络的网络参数进行调整，得到目标特征学习网络；

基于所述目标特征学习网络对至少两个所述局部表征信息进行学习，得到全局表征信息。

在一个可能的示例中，在所述确定所述待识别语音数据的场景信息，和/或所述待识别语音数据对应的说话者的基本信息方面，所述程序640具体用于执行以下步骤的指令：

基于所述特征识别网络对所述待识别语音片段进行识别，得到环境声音特征；

根据所述环境声音特征确定所述待识别语音数据的场景信息；

根据所述局部表征信息确定所述待识别语音数据对应的说话者的基本信息。

在一个可能的示例中，在所述基于所述目标特征学习网络对至少两个所述局部表征信息进行学习，得到全局表征信息方面，所述程序640具体用于执行以下步骤的指令：

根据预设数量将至少两个所述局部表征信息进行分组，得到至少两个局部表征信息组；

基于所述目标特征学习网络对至少两个所述局部表征信息组进行学习，得到全局表征信息。

在一个可能的示例中，在所述基于所述目标特征学习网络对至少两个所述局部表征信息进行学习，得到全局表征信息之前，所述程序640还用于执行以下步骤的指令：

确定所述局部表征信息的片段时长；

根据所述局部表征信息的数量和所述片段时长确定所述预设数量。

在一个可能的示例中，在所述对待识别语音数据进行划分，得到至少两个待识别语音片段方面，所述程序640具体用于执行以下步骤的指令：

根据待识别语音数据的采样频率确定片段时长；

根据所述片段时长对所述待识别语音数据进行划分，得到至少两个待识别语音片段。

在一个可能的示例中，所述情绪识别网络包括全连接层、激活函数和分类器，在所述基于情绪识别网络对所述全局表征信息进行识别，得到目标情绪方面，所述程序640具体用于执行以下步骤的指令：

基于所述全连接层提取所述全局表征信息中的有效表征信息；

基于所述激活函数对所述有效表征信息进行非线性映射，得到至少两个子表征信息；

基于所述分类器将所述子表征信息进行分类，得到各类情绪的概率值，以及根据所述各类情绪特征的概率值确定目标情绪。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于存储计算机程序，该计算机程序使得计算机执行以实现方法实施例中记载的任一方法的部分或全部步骤，计算机包括电子设备和服务器。

本申请实施例还提供一种计算机程序产品，计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，计算机程序可操作来使计算机执行以实现方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，计算机包括电子设备和服务器。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模式并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如至少一个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到至少一个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模式的形式实现。

集成的单元如果以软件程序模式的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。根据这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(read-only memory，ROM)、随机存取存储器(randomaccess memory，RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、ROM、RAM、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音情绪识别方法，其特征在于，包括：

基于情绪识别网络对所述全局表征信息进行识别，得到目标情绪；

其中，所述基于特征学习网络对至少两个所述局部表征信息进行学习，得到全局表征信息，包括：

2.根据权利要求1所述的方法，其特征在于，所述确定所述待识别语音数据的场景信息，和/或所述待识别语音数据对应的说话者的基本信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述目标特征学习网络对至少两个所述局部表征信息进行学习，得到全局表征信息，包括：

4.根据权利要求3所述的方法，其特征在于，在所述基于所述目标特征学习网络对至少两个所述局部表征信息进行学习，得到全局表征信息之前，所述方法还包括：

确定所述局部表征信息的片段时长；

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述对待识别语音数据进行划分，得到至少两个待识别语音片段，包括：

根据待识别语音数据的采样频率确定片段时长；

6.根据权利要求1-4中任一项所述的方法，其特征在于，所述情绪识别网络包括全连接层、激活函数和分类器，所述基于情绪识别网络对所述全局表征信息进行识别，得到目标情绪，包括：

7.一种语音情绪识别装置，其特征在于，包括：

第二识别单元，用于基于情绪识别网络对所述全局表征信息进行识别，得到目标情绪；

确定单元，用于确定所述待识别语音数据的场景信息，和/或所述待识别语音数据对应的说话者的基本信息；根据所述场景信息和/或所述基本信息对所述特征学习网络的网络参数进行调整，得到目标特征学习网络；

所述学习单元具体用于基于所述目标特征学习网络对至少两个所述局部表征信息进行学习，得到全局表征信息。

8.一种计算机设备，其特征在于，包括处理器、存储器、通信接口以及一个或至少一个程序，其中，所述一个或至少一个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行权利要求1-6任一项方法中的步骤的指令。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序使得计算机执行以实现权利要求1-6任一项所述的方法。