CN111357051A

CN111357051A - 语音情感识别方法、智能装置和计算机可读存储介质

Info

Publication number: CN111357051A
Application number: CN201980003195.6A
Authority: CN
Inventors: 李柏; 丁万; 黄东延; 熊友军
Original assignee: Ubtech Robotics Corp
Current assignee: Ubtech Robotics Corp
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2020-06-30
Anticipated expiration: 2039-12-24
Also published as: CN111357051B; WO2021127982A1

Abstract

本发明实施例公开了一种语音情感识别方法，包括：获取待识别语音数据，提取待识别语音数据的低层特征数据；将低层特征数据输入预训练的特征提取网络，获取待识别语音数据的高层特征数据，特征提取网络包括至少两层神经网络，其中一层神经网络为胶囊神经网络；将高层特征数据输入预训练的情感识别神经网络，根据情感识别神经网络的输出结果获取待识别语音数据的情感数据。本发明还公开了智能装置和计算机可读存储介质。本发明可以有效提升情感识别的准确性。

Description

语音情感识别方法、智能装置和计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及语音情感识别方法、智能装置和计算机可读存储介质。

背景技术

语音情感识别的主要任务是将蕴含在语音中的情感信息提取出来并识别出情感类别。传统的语音情感识别领域中常使用卷积神经网络和循环神经网络进行语音情感识别。但是卷积神经网络有两个致命的缺陷即平移不变性和池化层，这会导致有价值的信息丢失和识别率低。循环神经网络存在长距离信息记忆能力不高的问题。

发明内容

基于此，有必要针对上述问题，提出了一种语音情感识别方法、智能装置和计算机可读存储介质。

一种语音情感识别方法，所述方法包括：获取待识别语音数据，提取所述待识别语音数据的低层特征数据；将所述低层特征数据输入预训练的特征提取网络，获取所述待识别语音数据的高层特征数据，所述特征提取网络包括至少两层神经网络，其中一层神经网络为胶囊神经网络；将所述高层特征数据输入预训练的情感识别神经网络，识别所述待识别语音数据的情感数据。

一种智能装置，包括：获取模块，用于获取待识别语音数据，提取所述待识别语音数据的低层特征数据；特征提取模块，用于将所述低层特征数据输入预训练的特征提取网络，获取所述待识别语音数据的高层特征数据，所述特征提取网络包括至少两层神经网络，其中一层神经网络为胶囊神经网络；识别模块，用于将所述高层特征数据输入预训练的情感识别神经网络，根据所述情感识别神经网络的输出结果获取所述待识别语音数据的情感数据。

一种智能装置，包括：获取电路、处理器、存储器，所述处理器耦接所述存储器和所述获取电路，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序以实现如上所述的方法。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序能够被处理器执行以实现如上所述的方法。

采用本发明实施例，具有如下有益效果：

在提取待识别语音数据的低层特征数据后，将低层特征数据输入预训练的特征提取网络，获取待识别语音数据的高层特征数据，特征提取网络包括至少两层神经网络，其中一层为胶囊神经网络，胶囊网络可携带更多的特征信息，并且泛化能力出众，提取的高层信息中包括的特征信息更多，将包括更多特征信息的高层信息输入预训练的情感识别神经网络，使得情感识别神经网络输出的结果更加准确，从而根据情感识别神经网络的输出结果可以获取更准确的待识别语音数据的情感数据，可以有效提升情感识别的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1是本发明一个实施例中语音情感识别方法应用环境图；

图2是本发明提供的语音情感识别方法的第一实施例的流程示意图；

图3为胶囊神经网络的原理示意图；

图4是本发明提供的语音情感识别方法的第二实施例的流程示意图；

图5是本发明提供的语音情感识别方法的第三实施例的流程示意图；

图6是注意力机制的原理示意图；

图7是本发明提供的智能装置的第一实施例的结构示意图；

图8是本发明提供的智能装置的第二实施例的结构示意图；

图9是本发明提供的计算机可读存储介质的一实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

传统的语音情感识别领域中常使用卷积神经网络和循环神经网络进行语音情感识别。但是卷积神经网络有两个致命的缺陷即平移不变性和池化层，这会导致有价值的信息丢失和识别率低。循环神经网络存在长距离信息记忆能力不高的问题。

在本实施例中，为了解决上述问题，提供了语音情感识别方法，能够有效提升情感识别的准确性。

请参阅图1，图1是本发明一个实施例中语音情感识别方法应用环境图。参照图1，该语音情感识别方法应用于交互行为预测系统。该语音情感识别系统包括终端110和服务器120。终端110和服务器120通过网络连接，终端110具体可以是台式终端或移动终端，移动终端具体可以是手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端110用于获取待识别语音数据，服务器120用于提取待识别语音数据的低层特征数据；将低层特征数据输入预训练的特征提取网络，获取待识别语音数据的高层特征数据，特征提取网络包括至少两层神经网络，其中一层神经网络为胶囊神经网络；将高层特征数据输入预训练的情感识别神经网络，根据情感识别神经网络的输出结果获取待识别语音数据的情感数据。

请参阅图2，图2是本发明提供的语音情感识别方法的第一实施例的流程示意图。本发明提供的语音情感识别方法包括如下步骤：

S101：获取待识别语音数据，提取待识别语音数据的低层特征数据。

在一个具体的实施场景中，获取待识别语音数据。该待识别语音数据可以是用户现场录制的，也可以是从数据库中提取的，还可以是从某段音频中截取的。该待识别语音数据可以是由用户终端发送的或者是由智能终端主动获取的。

获取待识别语音数据后，提取待识别语音数据的低层特征数据，例如待识别语音数据的频率、振幅、时长、音调等等。可以通过工具软件获取待识别语音数据的低层特征数据，例如通过opensmile软件。opensmile是一款以命令行形式运行的工具，通过配置config文件，主要用于提取音频特征。

在其他实施场景中，还可以是将待识别语音数据输入预训练的低层特征提取神经网络，将低层特征提取神经网络的输出结果作为待识别语音数据的低层特征数据。

在其他实施场景中，还可以直接获取用户提供或者从数据库中获取低层特征数据。

S102：将低层特征数据输入预训练的特征提取网络，获取待识别语音数据的高层特征数据，特征提取网络包括至少两层神经网络，其中一层神经网络为胶囊神经网络。

在本实施场景中，将待识别语音数据的低层特征数据输入预训练的特征提取网络，获取待识别语音数据的高层特征数据。在本实施场景中，该高层特征数据为梅尔频率倒谱。梅尔频率倒谱(Mel-Frequency Cepstrum)是基于声音频率的非线性梅尔刻度(melscale)的对数能量频谱的线性变换。梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的，它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。梅尔频率倒谱系数(MFCC)广泛被应用于语音识别的功能。

在本实施场景中，特征提取网络包括至少两层神经网络，其中一层神经网络为胶囊神经网络，胶囊网络中每个神经元都是向量，这个向量不仅可表示数据的基本特征、还可以包括数据的很多细节特征，可携带更多的特征信息，并且泛化能力出众，很适合语音领域。因为语音特征都很细微，采用胶囊神经网络能更多地保留低层特征数据中的特征信息。

请参阅图3，图3为胶囊神经网络的原理示意图。

对于S_j的激活函数，我们采用squashing，所以胶囊的最终输出向量V_j长度在0到1之间。

其中，j是第j个capsule胶囊，V_j是第j个胶囊的输出向量，S_j是第j个胶囊的输入向量，||S_j||是S向量的模长。

对于一个胶囊来说，输入U_i和输出V_j都是向量。我们将前一层胶囊的输出U_i与变换矩阵W_ij相乘后转换成

然后根据权重C_ij计算加权和S_j。

其中C_ij需要利用b_ij计算，b_ij的更新即胶囊网络的核心，及动态路由算法。b_ij的更新公式就是：

及通过计算内积来改变b_ij，再改变C_ij。

在本实施场景中，将待识别语音数据的低层特征数据输入预训练的特征提取网络，获取待识别语音数据的梅尔频率倒谱，在其他实施场景中，还可以通过高通滤波、傅里叶变换、梅尔滤波器、散傅里叶反变换等计算获取待识别语音数据的梅尔频率倒谱。

S103：将高层特征数据输入预训练的情感识别神经网络，根据情感识别神经网络的输出结果获取待识别语音数据的情感数据。

在本实施场景中，将待识别语音数据的高层特征数据，例如梅尔频率倒谱输入预训练的情感识别神经网络，根据情感识别网络的输出结果获取待识别语音数据的情感数据。

在本实施场景中，需要对情感识别网络进行训练。准备多个训练高层特征数据，例如，准备多个梅尔频率倒谱，标注每个训练高层特征数据的情感数据。定义训练的情感识别神经网络的结构，可以定义情感识别神经网络的层数，例如2层，可以定义情感识别神经网络的类型，例如全连接神经网络，双向长短记忆神经网络等。定义训练的损失函数，以及定义终止条件，例如训练2000次后终止训练。将多个高层特征数据及其对应的情感数据输入情感识别神经网络进行训练。

在训练完成后，输入待识别语音数据的高层特征数据，根据情感识别网络的输出结果获取待识别语音数据的情感数据。

通过上述描述可知，本实施例在提取待识别语音数据的低层特征数据后，将低层特征数据输入预训练的特征提取网络，获取待识别语音数据的高层特征数据，特征提取网络包括至少两层神经网络，其中一层为胶囊神经网络，胶囊网络可携带更多的特征信息，并且泛化能力出众，提取的高层信息中包括的特征信息更多，将包括更多特征信息的高层信息输入预训练的情感识别神经网络，使得情感识别神经网络输出的结果更加准确，从而根据情感识别神经网络的输出结果可以获取更准确的待识别语音数据的情感数据，可以有效提升情感识别的准确性。

请参阅图4，图4是本发明提供的语音情感识别方法的第二实施例的流程示意图。本发明提供的语音情感识别方法包括如下步骤：

S201：获取待识别语音数据，提取待识别语音数据的低层特征数据。

在一个具体的实施场景中，本步骤与本发明提供的语音情感识别方法的第一实施例中的步骤S101基本一致，此处不再进行赘述。

S202：将低层特征数据输入预训练的特征提取网络，获取待识别语音数据的高层特征数据，特征提取网络包括至少两层神经网络，其中一层神经网络为胶囊神经网络，另一层为双向长短记忆神经网络。

在本实施场景中，将低层特征数据输入预训练的特征提取网络，特征提取网络包括一层卷积神经网络和一层胶囊神经网络。卷积神经网络(Convolutional NeuralNetworks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(FeedforwardNeural Networks)，是深度学习(deep learning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力，能够按其阶层结构对输入信息进行平移不变分类(shift-invariant classification)，因此也被称为“平移不变人工神经网络(Shift-Invariant Artificial Neural Networks,SIANN)”。

卷积神经网络仿造生物的视知觉(visual perception)机制构建，可以进行监督学习和非监督学习，其隐含层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化(grid-like topology)特征，例如像素和音频进行学习、有稳定的效果且对数据没有额外的特征工程(feature engineering)要求。

在本实施场景中，将待识别语音数据的低层特征数据输入卷积神经网络，获取待识别语音数据的中层特征数据，将待识别语音数据的中层特征数据输入胶囊神经网络，获取待识别语音数据的高层特征数据。胶囊网络中每个神经元都是向量，这个向量不仅可表示数据的基本特征、还可以包括数据的很多细节特征，可携带更多的特征信息，并且泛化能力出众，很适合语音领域。因为语音特征都很细微，采用胶囊神经网络能更多地保留低层特征数据中的特征信息。

S203：将高层特征数据输入预训练的情感识别神经网络，根据情感识别神经网络的输出结果获取待识别语音数据的情感数据。

在本实施场景中，本步骤与本发明提供的语音情感识别方法的第一实施例中的步骤S103基本一致，此处不再进行赘述。

通过上述描述可知，在本实施例中，本实施例在提取待识别语音数据的低层特征数据后，将低层特征数据输入卷积神经网络，获取待识别语音数据的中层特征数据，将待识别语音数据的高层特征数据输入胶囊神经网络，获取待识别语音数据的高层特征数据，胶囊网络可携带更多的特征信息，并且泛化能力出众，提取的高层信息中包括的特征信息更多，将包括更多特征信息的高层信息输入预训练的情感识别神经网络，使得情感识别神经网络输出的结果更加准确，从而根据情感识别神经网络的输出结果可以获取更准确的待识别语音数据的情感数据，可以有效提升情感识别的准确性。

请参阅图5，图5是本发明提供的语音情感识别方法的第三实施例的流程示意图。本发明提供的语音情感识别方法包括如下步骤：

S301：获取待识别语音数据，提取待识别语音数据的低层特征数据。

S302：将低层特征数据输入预训练的特征提取网络，获取待识别语音数据的高层特征数据，特征提取网络包括至少两层神经网络，其中一层神经网络为胶囊神经网络。

在一个具体的实施场景中，步骤S301-S302与本发明提供的语音情感识别方法的第一实施例中的步骤S101-S102基本一致，此处不再进行赘述。

S303：将高层特征数据输入预训练的情感识别神经网络，获取待识别语音数据的情感分类矩阵。

在本实施场景中，将高层特征数据输入预训练的情感识别神经网络，情感识别神经网络为双向长短记忆神经网络。双向长短记忆神经网络(Bidirectional Long Short-term Memory，BLSTM)在对当前语音帧进行判断时，不仅可以有效利用“历史”的语音信息，还可以利用“未来”的语音信息，这使得原始输入的语音特征能够得到更有效的挖掘，从而进行更加准确的决策。

将高层特征数据输入预训练的情感识别神经网络，情感识别神经网络输出待识别语音数据的情感分类矩阵。该情感分类矩阵的每个单元均为一个向量，每个向量均表示了待识别语音数据的部分特征。

S304：获取情感分类矩阵的权重矩阵，将权重矩阵与情感分类矩阵点乘，获取待识别语音数据的特征矩阵。

在本实施场景中，为了让神经网络可以记住更多信息，模型就会很复杂，然而受到计算能力的限制，不可能让网络无限扩大，就需要使用注意力机制，更多的关注有效的信息，从而简化模型，提升识别率。因此获取情感分类矩阵的权重矩阵，例如，通过对情感分类矩阵进行自注意力运算，获取情感分类矩阵的权重矩阵。将情感分类矩阵与其权重矩阵点乘，获取待识别语音数据的特征矩阵。

请参阅图6，图6是注意力机制的原理示意图。

注意力机制本质可以被描述为一个查询(query)到一系列(键key-值value)对的映射，基于这个本质也发展出很多变体，本发明采用self attention机制。它的解决方案是：

y_t＝f(x_t,A,B)

其中A,B是两个携带特征信息的矩阵，如果取A＝B＝X，那么我们就称为selfattention，它的意思是将X与原来的每个矩阵进行比较，最后算出y_t。

阶段一，通过计算每一个Q和各个K的相关性得到每个K对应V的权重系数，常用的计算机制和相似度函数有点积法，Cosine相似性法和神经网络MLP求值：

Sim(Q,K)＝Q·K_i

Sim(Q,K_i)＝MLP(Q,K_i)

阶段二，通过Softmax函数对权重进行归一化，可突出重要元素的权重，ai为权重系数。

阶段三，将权重ai与相应的键值V进行加权求和得到最终的注意力数值。

S305：根据特征矩阵获取待识别语音数据的情感数据。

在本实施场景中，将特征矩阵输入预设运算函数，获取待识别语音数据的各种情感的概率值，根据各种情感的概率值确定待识别语音数据的情感。

通过上述描述可知，在本实施例中，将高层数据输入预训练的情感识别神经网络，获取情感分类矩阵后，通过注意力算法获取该情感分类的权重矩阵，将情感分类矩阵与其权重矩阵点乘后获取待识别语音数据的特征矩阵，使用注意力机制，更多的关注有效的信息，从而简化模型，提升识别率。

请参阅图7，图7是本发明提供的智能装置的第一实施例的结构示意图。智能装置10包括获取模块11、特征提取模块12和识别模块13。获取模块11用于获取待识别语音数据，提取待识别语音数据的低层特征数据。特征提取模块12用于将低层特征数据输入预训练的特征提取网络，获取待识别语音数据的高层特征数据，特征提取网络包括至少两层神经网络，其中一层神经网络为胶囊神经网络。识别模块13用于将高层特征数据输入预训练的情感识别神经网络，识别待识别语音数据的情感数据。

通过上述描述可知，在本实施例中，获取模块获取待识别语音数据的低层特征数据，特征提取模块将低层特征数据输入预训练的特征提取网络，特征提取网络包括至少两层神经网络，其中一层为胶囊神经网络，胶囊网络可携带更多的特征信息，并且泛化能力出众，提取的高层信息中包括的特征信息更多，将包括更多特征信息的高层信息输入预训练的情感识别神经网络，使得情感识别神经网络输出的结果更加准确，可以有效提升情感识别的准确性。

请继续参阅图7。特征提取网络的至少两层神经网络中另一层神经网络为双向长短记忆神经网络。

识别模块13包括矩阵子模块131、权重子模块132、识别子模块133。矩阵子模块131用于将高层特征数据输入预训练的情感识别神经网络，获取待识别语音数据的情感分类矩阵。权重子模块132用于获取情感分类矩阵的权重矩阵，将权重矩阵与情感分类矩阵点乘，获取待识别语音数据的特征矩阵。识别子模块133用于根据特征矩阵获取待识别语音数据的情感。

权重子模块132对情感分类矩阵进行自注意力运算，获取情感分类矩阵的权重矩阵。

其中，情感识别神经网络为双向长短记忆神经网络。

识别模块13还包括函数子模块134，函数子模块134用于将特征矩阵输入预设运算函数，获取待识别语音数据的各种情感的概率值，根据各种情感的概率值确定待识别语音数据的情感。

其中，低层特征数据包括待识别语音数据的频率和振幅。

其中，高层特征数据包括待识别语音数据的梅尔频率倒谱。

获取模块11用于使用opensmile工具获取待识别语音数据的低层特征数据。

智能装置还包括训练模块14，训练模块14用于对情感识别神经网络进行训练。训练模块14包括准备子模块141、定义子模块142和输入子模块143。准备子模块141用于准备多个训练高层特征数据，标注每个训练高层特征数据的情感数据。定义子模块142用于定义训练的情感识别神经网络的结构、损失函数和终止条件。输入子模块143用于将多个高层特征数据及其对应的情感数据输入情感识别神经网络进行训练。

通过上述描述可知，在本实施例中智能装置的特征提取模块将低层特征数据输入预训练的特征提取网络，特征提取网络包括至少两层神经网络，其中一层为胶囊神经网络，胶囊网络可携带更多的特征信息，并且泛化能力出众，提取的高层信息中包括的特征信息更多，可以有效提升识别的准确率，识别模块通过注意力机制更多的关注有效的信息，从而简化模型，提升识别率。

请参阅图8，图8是本发明提供的智能装置的第二实施例的结构示意图。本发明提供的智能装置20包括获取电路21、处理器22和存储器23。处理器22耦接获取电路21和存储器23。存储器23中存储有计算机程序，处理器22在工作时执行该计算机程序以实现如图2、图4和图5所示的方法。详细的方法可参见上述，在此不再赘述。

通过上述描述可知，在本实施例中智能终端在提取待识别语音数据的低层特征数据后，将低层特征数据输入预训练的特征提取网络，获取待识别语音数据的高层特征数据，特征提取网络包括至少两层神经网络，其中一层为胶囊神经网络，胶囊网络可携带更多的特征信息，并且泛化能力出众，提取的高层信息中包括的特征信息更多，将包括更多特征信息的高层信息输入预训练的情感识别神经网络，使得情感识别神经网络输出的结果更加准确，从而可以有效提升情感识别的准确性。

请参阅图9，图9是本发明提供的计算机可读存储介质的一实施例的结构示意图。计算机可读存储介质30中存储有至少一个计算机程序31，计算机程序31用于被处理器执行以实现如图2、图4和图5所示的方法，详细的方法可参见上述，在此不再赘述。在一个实施例中，计算机可读存储介质30可以是终端中的存储芯片、硬盘或者是移动硬盘或者优盘、光盘等其他可读写存储的工具，还可以是服务器等等。

通过上述描述可知，在本实施例中计算机可读存储介质中存储的计算机程序可以用于在提取待识别语音数据的低层特征数据后，将低层特征数据输入预训练的特征提取网络，获取待识别语音数据的高层特征数据，特征提取网络包括至少两层神经网络，其中一层为胶囊神经网络，胶囊网络可携带更多的特征信息，并且泛化能力出众，提取的高层信息中包括的特征信息更多，将包括更多特征信息的高层信息输入预训练的情感识别神经网络，使得情感识别神经网络输出的结果更加准确，从而可以有效提升情感识别的准确性。

区别于现有技术，本发明提取待识别语音数据的低层特征数据，将低层特征数据输入包括胶囊神经网络的预训练的特征提取神经网络，获取待识别语音数据的高层特征数据，胶囊网络可携带更多的特征信息，并且泛化能力出众，提取的高层信息中包括的特征信息更多，将包括更多特征信息的高层信息输入预训练的情感识别神经网络，使得情感识别神经网络输出的结果更加准确，从而可以有效提升情感识别的准确性。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种语音情感识别方法，其特征在于，包括：

获取待识别语音数据，提取所述待识别语音数据的低层特征数据；

将所述低层特征数据输入预训练的特征提取网络，获取所述待识别语音数据的高层特征数据，所述特征提取网络包括至少两层神经网络，其中一层神经网络为胶囊神经网络；

将所述高层特征数据输入预训练的情感识别神经网络，根据所述情感识别神经网络的输出结果获取所述待识别语音数据的情感数据。

2.根据权利要求1所述的语音情感识别方法，其特征在于，所述至少两层神经网络还包括双向长短记忆神经网络。

3.根据权利要求1所述的语音情感识别方法，其特征在于，所述将所述高层特征数据输入预训练的情感识别神经网络，根据所述情感识别神经网络的输出结果获取所述待识别语音数据的情感数据的步骤，包括：

将所述高层特征数据输入预训练的情感识别神经网络，获取所述待识别语音数据的情感分类矩阵；

获取所述情感分类矩阵的权重矩阵，将所述权重矩阵与所述情感分类矩阵点乘，获取所述待识别语音数据的特征矩阵；

根据所述特征矩阵获取所述待识别语音数据的情感数据。

4.根据权利要求3所述的语音情感识别方法，其特征在于，所述获取所述情感分类矩阵的权重矩阵的步骤，包括：

对所述情感分类矩阵进行自注意力运算，获取所述情感分类矩阵的权重矩阵。

5.根据权利要求3所述的语音情感识别方法，其特征在于，

所述情感识别神经网络为双向长短记忆神经网络。

6.根据权利要求3所述的语音情感识别方法，其特征在于，所述根据所述特征矩阵获取所述待识别语音数据的情感数据的步骤，包括：

将所述特征矩阵输入预设运算函数，获取所述待识别语音数据的各种情感的概率值，根据所述各种情感的概率值确定所述待识别语音数据的情感。

7.根据权利要求1所述的语音情感识别方法，其特征在于，

所述低层特征数据包括所述待识别语音数据的频率和振幅；

所述高层特征数据包括所述待识别语音数据的梅尔频率倒谱。

8.根据权利要求1所述的语音情感识别方法，其特征在于，所述提取所述待识别语音数据的低层特征数据的步骤，包括：

使用opensmile工具获取所述待识别语音数据的低层特征数据。

9.根据权利要求1所述的语音情感识别方法，其特征在于，所述将所述高层特征数据输入预训练的情感识别神经网络的步骤之前，包括：

对所述情感识别神经网络进行训练；

所述对所述情感识别神经网络进行训练的步骤包括：

准备多个训练高层特征数据，标注每个所述训练高层特征数据的情感数据；

定义训练的情感识别神经网络的结构、损失函数和终止条件；

将所述多个高层特征数据及其对应的情感数据输入所述情感识别神经网络进行训练。

10.一种智能装置，其特征在于，包括：

获取模块，用于获取待识别语音数据，提取所述待识别语音数据的低层特征数据；

特征提取模块，用于将所述低层特征数据输入预训练的特征提取网络，获取所述待识别语音数据的高层特征数据，所述特征提取网络包括至少两层神经网络，其中一层神经网络为胶囊神经网络；

识别模块，用于将所述高层特征数据输入预训练的情感识别神经网络，识别所述待识别语音数据的情感数据。

11.根据权利要求10所述的智能装置，其特征在于，所述识别模块包括：

矩阵子模块，用于将所述高层特征数据输入预训练的情感识别神经网络，获取所述待识别语音数据的情感分类矩阵；

权重子模块，用于获取所述情感分类矩阵的权重矩阵，将所述权重矩阵与所述情感分类矩阵点乘，获取所述待识别语音数据的特征矩阵；

识别子模块，用于根据所述特征矩阵获取所述待识别语音数据的情感。

12.根据权利要求11所述的智能装置，其特征在于，

所述权重子模块对所述情感分类矩阵进行自注意力运算，获取所述情感分类矩阵的权重矩阵。

13.根据权利要求11所述的智能装置，其特征在于，

所述情感识别神经网络为双向长短记忆神经网络。

14.根据权利要求11所述的智能装置，其特征在于，所述识别模块还包括：

函数子模块，用于将所述特征矩阵输入预设运算函数，获取所述待识别语音数据的各种情感的概率值，根据所述各种情感的概率值确定所述待识别语音数据的情感。

15.根据权利要求10所述的智能装置，其特征在于，

所述低层特征数据包括所述待识别语音数据的频率和振幅；

16.根据权利要求10所述的智能装置，其特征在于，

所述获取模块用于使用opensmile工具获取所述待识别语音数据的低层特征数据。

17.根据权利要求10所述的智能装置，其特征在于，所述智能装置还包括：

训练模块，用于对所述情感识别神经网络进行训练；

所述训练模块包括：

准备子模块，用于准备多个训练高层特征数据，标注每个所述训练高层特征数据的情感数据；

定义子模块，用于定义训练的情感识别神经网络的结构、损失函数和终止条件；

输入子模块，用于将所述多个高层特征数据及其对应的情感数据输入所述情感识别神经网络进行训练。

18.一种智能装置，其特征在于，包括：获取电路、处理器、存储器，所述处理器耦接所述存储器和所述获取电路，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序以实现如权利要求1-9任一项所述的方法。

19.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序能够被处理器执行以实现如权利要求1-9任一项所述的方法。