CN114694686A

CN114694686A - 一种语音情绪识别的方法及装置

Info

Publication number: CN114694686A
Application number: CN202011583766.9A
Authority: CN
Inventors: 向李兴; 刘海波; 张翔; 卢鲤
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2022-07-01

Abstract

本申请公开了一种基于人工智能技术实现的语音情绪识别方法，本申请包括获取待识别语音所对应的语音特征信号；根据语音特征信号获取待识别文本；基于语音特征信号，通过语音分类模型获取语音分类结果；基于待识别文本，通过文本分类模型获取文本分类结果，其中，文本分类结果表示待识别语音的情绪类型；根据语音分类结果以及文本分类结果，确定待识别语音所对应的情绪识别结果。本申请还提供了一种语音情绪识别应用方法、相关装置、设备以及存储介质。本申请不但能够减少仅依靠语音数据进行情绪分类的标注数据，而且采能够在训练数据稀缺的情况下，仍然可以提升情绪识别的准确度。

Description

一种语音情绪识别的方法及装置

技术领域

本申请涉及人工智能领域，尤其涉及一种语音情绪识别的方法及装置。

背景技术

在移动互联网时代，用户可以通过语音进行远程沟通。而在远程沟通的过程中，通过识别并恰当响应语音内容和情绪来增强自然语言处理(Nature Language processing，NLP)算法，已成为人工智能(Artificial Intelligence，AI)系统的重要发展方向。

语音情绪识别是语音识别领域内的一个分值，目的在于找回从语音到文本转换过程中丢失的情绪信息。目前，可通过语音构造特征，例如，构造韵律学特征或者基于频谱的相关特征等，然后利用标注好的训练数据来训练一个分类器，这里的标注数据需要人工听一段语音，然后给出该语音对应的情绪类型。

然而，根据语音特征信号对说话人的情绪划分，需要大量的语音和标注数据对分类器进行训练，在数据标注的过程中，由于没有量化标准来区分是否“开心”，或者是否“难过”，因此，标注数据的准确度不高，导致分类器输出的情绪识别结果准确度较低。

发明内容

本申请实施例提供了一种语音情绪识别的方法及装置，综合语音分类结果和文本分类结果，对待识别语音的情绪进行识别，不但能够减少仅依靠语音数据进行情绪分类的标注数据，而且采用不同层面的语音识别方式，能够在训练数据稀缺的情况下，仍然可以提升情绪识别的准确度。

有鉴于此，本申请一方面提供一种语音情绪识别的方法，包括：

获取待识别语音所对应的语音特征信号；

根据语音特征信号获取待识别文本；

基于语音特征信号，通过语音分类模型获取语音分类结果，其中，语音分类结果表示待识别语音的起伏程度，语音分类结果为激动类型或低沉类型，且低沉类型的起伏程度低于激动类型的起伏程度；

基于待识别文本，通过文本分类模型获取文本分类结果，其中，文本分类结果表示待识别语音的情绪类型；

根据语音分类结果以及文本分类结果，确定待识别语音所对应的情绪识别结果。

本申请另一方面提供一种语音情绪识别应用方法，包括：

获取即时语音通信消息；

响应于对即时语音通信消息的消息内容转换操作，显示与即时语音通信消息对应的包含表情符号的文字消息，其中，表情符号通过对语音通信消息进行情绪识别而确定的。

本申请另一方面提供一种语音情绪识别装置，包括：

获取模块，用于获取待识别语音所对应的语音特征信号；

获取模块，还用于根据语音特征信号获取待识别文本；

获取模块，还用于基于语音特征信号，通过语音分类模型获取语音分类结果，其中，语音分类结果表示待识别语音的起伏程度，语音分类结果为激动类型或低沉类型，且低沉类型的起伏程度低于激动类型的起伏程度；

获取模块，还用于基于待识别文本，通过文本分类模型获取文本分类结果，其中，文本分类结果表示待识别语音的情绪类型；

确定模块，用于根据语音分类结果以及文本分类结果，确定待识别语音所对应的情绪识别结果。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，

获取模块，具体用于接收终端设备发送的待识别语音，其中，待识别语音包括N帧语音数据，N为大于或等于1的整数；

对待识别语音进行特征提取处理，得到语音特征信号，其中，语音特征信号包括N个信号特征，语音特征信号中的每个信号特征对应于一帧语音数据。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，待识别语音包括N帧语音数据，语音特征信号包括N个信号特征，每个信号特征对应于一帧语音数据，N为大于或等于1的整数；

获取模块，具体用于基于语音特征信号，通过语音分类模型获取语音分类结果，包括：

基于语音特征信号，通过语音分类模型所包括的卷积神经网络获取目标特征向量，其中，卷积神经网络包括卷积层、池化层以及隐层；

基于目标特征向量，通过语音分类模型所包括的时序神经网络获取目标分值；

根据目标分值确定语音分类结果。

获取模块，还用于获取历史语音所对应的历史语音特征信号，其中，历史语音为出现在待识别语音之前相邻的一个语音，历史语音包括M帧语音数据，历史语音特征信号包括M个信号特征，每个信号特征对应于一帧语音数据，M为大于或等于1的整数；

获取模块，还用于基于历史语音特征信号，通过语音分类模型所包括的卷积神经网络获取中间特征向量，其中，卷积神经网络包括卷积层、池化层以及隐层；

获取模块，还用于基于中间特征向量，通过语音分类模型所包括的时序神经网络获取历史分值；

确定模块，具体用于根据历史分值以及目标分值确定语音分类结果。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，语音情绪识别装置还包括生成模块；

获取模块，还用于获取P个表情符号，其中，P个表情符号为出现在待识别语音之前相邻的表情符号，或，P个表情符号为出现在待识别语音之后相邻的表情符号，P为大于或等于1的整数；

生成模块，用于根据P个表情符号的数量生成增益分值；

获取模块，具体用于根据增益分值以及目标分值确定语音分类结果。

获取模块，具体用于若目标分值在第一分值区间内，则确定语音分类结果为激动类型；

若目标分值在第二分值区间内，则确定语音分类结果为低沉类型，其中，低沉类型的起伏程度低于激动类型的起伏程度。

获取模块，具体用于基于待识别文本，通过文本分类模型获取文本分布概率，其中，文本分布概率包括K个第一概率值，且每个第一概率值对应于一个文本类型，K为大于1的整数；

根据文本分布概率确定目标概率值；

将目标概率值所对应的文本类型确定为文本分类结果。

获取模块，还用于根据历史语音特征信号获取历史待识别文本；

获取模块，还用于基于历史待识别文本，通过文本分类模型获取历史文本分布概率，其中，历史文本分布概率包括K个第二概率值，且每个第二概率值对应于一个文本类型；

获取模块，具体用于根据文本分布概率以及历史文本分布概率，生成更新后的文本分布概率；

根据更新后的文本分布概率确定目标概率值。

生成模块，用于根据P个表情符号的类型生成增益文本分布概率；

获取模块，具体用于根据文本分布概率以及增益文本分布概率，生成更新后的文本分布概率；

根据更新后的文本分布概率确定目标概率值。

确定模块，具体用于若语音分类结果为激动类型，且文本分类结果为高兴文本类型，则确定待识别语音所对应的情绪识别结果为高兴情绪类型；

若语音分类结果为低沉类型，且文本分类结果为高兴文本类型，则确定待识别语音所对应的情绪识别结果为无情绪类型。

确定模块，具体用于若语音分类结果为激动类型，且文本分类结果为生气文本类型，则确定待识别语音所对应的情绪识别结果为生气情绪类型；

若语音分类结果为低沉类型，且文本分类结果为生气文本类型，则确定待识别语音所对应的情绪识别结果为无情绪类型。

确定模块，具体用于若语音分类结果为激动类型，且文本分类结果为难过文本类型，则确定待识别语音所对应的情绪识别结果为无情绪类型；

若语音分类结果为低沉类型，且文本分类结果为难过文本类型，则确定待识别语音所对应的情绪识别结果为难过情绪类型。

确定模块，具体用于若语音分类结果为激动类型，且文本分类结果为中性文本类型，则确定待识别语音所对应的情绪识别结果为无情绪类型；

若语音分类结果为低沉类型，且文本分类结果为中性文本类型，则确定待识别语音所对应的情绪识别结果为无情绪类型。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，语音情绪识别装置还包括发送模块；

发送模块，用于在确定模块根据语音分类结果以及文本分类结果，确定待识别语音所对应的情绪识别结果之后，若情绪识别结果为高兴情绪类型，则向终端设备发送第一表情符号或第一提示文本，以使终端设备展示第一表情符号或第一提示文本；

发送模块，还用于若情绪识别结果为生气情绪类型，则向终端设备发送第二表情符号或第二提示文本，以使终端设备展示第二表情符号或第二提示文本；

发送模块，还用于若情绪识别结果为难过情绪类型，则向终端设备发送第三表情符号或第三提示文本，以使终端设备展示第三表情符号或第三提示文本。

本申请另一方面提供一种语音情绪识别装置，包括：

获取模块，用于获取即时语音通信消息；

显示模块，用于响应于对即时语音通信消息的消息内容转换操作，显示与即时语音通信消息对应的包含表情符号的文字消息，其中，表情符号通过对语音通信消息进行情绪识别而确定的。

显示模块，具体用于响应于对即时语音通信消息的消息内容转换操作，获取即时语音通信消息所对应的语音特征信号；

根据语音特征信号获取待识别文本；

基于语音特征信号，通过语音分类模型获取语音分类结果，其中，语音分类结果表示即时语音通信消息的起伏程度，语音分类结果为激动类型或低沉类型，且低沉类型的起伏程度低于激动类型的起伏程度；

基于待识别文本，通过文本分类模型获取文本分类结果，其中，文本分类结果表示即时语音通信消息的情绪类型；

根据语音分类结果以及文本分类结果，确定即时语音通信消息所对应的情绪识别结果；

根据即时语音通信消息所对应的情绪识别结果，生成与即时语音通信消息对应的包含表情符号的文字消息；

显示与即时语音通信消息对应的包含表情符号的文字消息。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，即时语音通信消息包括N帧语音数据，语音特征信号包括N个信号特征，每个信号特征对应于一帧语音数据，N为大于或等于1的整数；

显示模块，具体用于基于语音特征信号，通过语音分类模型所包括的卷积神经网络获取目标特征向量，其中，卷积神经网络包括卷积层、池化层以及隐层；

根据目标分值确定语音分类结果。

获取模块，还用于获取P个表情符号，其中，P个表情符号为出现在即时语音通信消息之前相邻的表情符号，或，P个表情符号为出现在即时语音通信消息之后相邻的表情符号，P为大于或等于1的整数；

获取模块，还用于根据P个表情符号的数量生成增益分值；

显示模块，具体用于根据增益分值以及目标分值确定语音分类结果。

显示模块，具体用于若语音分类结果为激动类型，且文本分类结果为高兴文本类型，则确定待识别语音所对应的情绪识别结果为高兴情绪类型；

若语音分类结果为低沉类型，且文本分类结果为高兴文本类型，则确定待识别语音所对应的情绪识别结果为无情绪类型；

若语音分类结果为激动类型，且文本分类结果为生气文本类型，则确定待识别语音所对应的情绪识别结果为生气情绪类型；

若语音分类结果为低沉类型，且文本分类结果为生气文本类型，则确定待识别语音所对应的情绪识别结果为无情绪类型；

若语音分类结果为激动类型，且文本分类结果为难过文本类型，则确定待识别语音所对应的情绪识别结果为无情绪类型；

若语音分类结果为低沉类型，且文本分类结果为难过文本类型，则确定待识别语音所对应的情绪识别结果为难过情绪类型；

若语音分类结果为激动类型，且文本分类结果为中性文本类型，则确定待识别语音所对应的情绪识别结果为无情绪类型；

显示模块，具体用于若情绪识别结果为高兴情绪类型，则显示第一表情符号；

若情绪识别结果为生气情绪类型，则显示第二表情符号；

若情绪识别结果为难过情绪类型，则显示第三表情符号。

获取模块，还用于在显示模块响应于对即时语音通信消息的消息内容转换操作，显示与即时语音通信消息对应的包含表情符号的文字消息之后，获取针对于表情符号的设置操作；

显示模块，还用于响应于针对于表情符号的设置操作，显示至少两个可选表情符号；

获取模块，还用于获取针对于目标表情符号的选择操作；

显示模块，还用于响应于针对于目标表情符号的选择操作，显示与即时语音通信消息对应的包含目标表情符号的文字消息。

本申请另一方面提供一种计算机设备，包括：存储器、处理器以及总线系统；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序，处理器用于根据程序代码中的指令执行上述各方面的方法；

总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。

本申请的另一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

本申请的另一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方面所提供的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种语音情绪识别的方法，首先获取待识别语音所对应的语音特征信号，然后基于语音特征信号，通过语音分类模型获取语音分类结果，其中，语音分类结果表示待识别语音的起伏程度，并且基于待识别文本，通过文本分类模型获取文本分类结果，其中，文本分类结果表示待识别语音的情绪类型，最后，结合语音分类结果以及文本分类结果，确定待识别语音所对应的情绪识别结果。通过上述方式，综合语音分类结果和文本分类结果，对待识别语音的情绪进行识别，不但能够减少仅依靠语音数据进行情绪分类的标注数据，而且采用不同层面的语音识别方式，能够在训练数据稀缺的情况下，仍然可以提升情绪识别的准确度。

附图说明

图1为本申请实施例中语音情绪识别系统的一个架构示意图；

图2为本申请实施例中语音情绪识别方法的一个流程示意图；

图3为本申请实施例中语音情绪识别方法的一个实施例示意图；

图4为本申请实施例中用户录音的一个界面示意图；

图5为本申请实施例中显示情绪识别结果的一个界面示意图；

图6为本申请实施例中语音分类模型的一个网络结构示意图；

图7为本申请实施例中基于历史语音显示情绪识别结果的一个界面示意图；

图8为本申请实施例中基于表情符号显示情绪识别结果的一个界面示意图；

图9为本申请实施例中基于表情符号显示情绪识别结果的另一个界面示意图；

图10为本申请实施例中文本分类模型的一个网络结构示意图；

图11为本申请实施例中基于高兴情绪类型显示表情符号和提示文本的界面示意图；

图12为本申请实施例中基于生气情绪类型显示表情符号和提示文本的界面示意图；

图13为本申请实施例中基于难过情绪类型显示表情符号和提示文本的界面示意图；

图14为本申请实施例中基于无情绪类型显示语音识别内容的一个界面示意图；

图15为本申请实施例中语音情绪识别方法的一个实施例示意图；

图16为本申请实施例中语音情绪识别装置的一个实施例示意图；

图17为本申请实施例中语音情绪识别装置的另一个实施例示意图；

图18为本申请实施例中服务器的一个结构示意图；

图19为本申请实施例中终端设备的一个结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

随着人工智能(artificial intelligence，AI)技术研究和进步，人工智能技术在越来越多的领域中得到应用，并发挥越来越重要的价值。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。

其中，语音技术(Speech Technology)是人工智能技术的一个重要分支，语音技术的关键技术有自动语音识别技术(Automatic Speech Recognition，ASR)和语音合成技术(Text To Speech)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

人类的语音中包含了许多信息，其中包括一个人想要通过语音传递的语义信息，语音所属的说话人身份信息，说话人所使用的语音信息，以及说话人的情绪信息。语音情绪识别是指通过计算机自动识别出说话人所说的语音中包含怎么样的情绪。语音中的情绪信息是反映人类情绪的一个十分重要的行为信号，同样一条语音内容，以不同的情绪说出来，其携带的语义可能存在较大偏差，因此，准确地理解说话人情绪能够提升使得人机交互更为自然和流利。

在一个应用场景中，用户A向用户B发送一段语音，但是用户B不方便直接听这段语音，因此，可以启动语音转写功能，将语音转换为待识别文本。为了在上述场景中让用户B能够更好地了解用户A在说这段语音时候的情绪，本申请提供了一种语音情绪识别的方法，可以将说话人的语音情绪用表情的形式展示出来，这样，即使用户B没有听语音，也能够了解用户A在说这段语音时候的情绪。

基于此，本申请提供的语音情绪识别方法可应用于图1所示的语音情绪识别系统，该方法应用于图1所示的语音情绪识别系统，如图所示，语音情绪识别系统包括服务器和终端设备，且客户端部署于终端设备上。本申请涉及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、掌上电脑、个人电脑、智能电视、智能手表等，但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。服务器和终端设备的数量也不做限制。

结合图1所示的架构，请参阅图2，图2为本申请实施例中语音情绪识别方法的一个流程示意图，如图所示，具体地：

在步骤S1中，用户A通过终端设备A发送一段语音，终端设备A将语音发送至服务器，服务器提取该语音的语音特征信号。

在步骤S2中，服务器将提取到的语音特征信号输入至训练好的语音分类模型。

在步骤S3中，通过语音分类模型输出语音分类结果，其中，语音分类结果表示待识别语音的起伏程度。

在步骤S4中，服务器对提取到的语音特征信号进行语音识别处理，由此生成该段语音对应的待识别文本。

在步骤S5中，服务器将待识别文本输入至训练好的文本分类模型。

在步骤S6中，通过文本分类模型输出文本分类结果，其中，文本分类结果表示待识别语音的情绪类型。

在步骤S7中，基于语音分类结果以及文本分类结果，确定待识别语音所对应的情绪识别结果。进一步地，服务器根据情绪识别结果生成相应的表情符号或提示文本，然后向终端设备B发送语音识别内容，语音识别内容包含语音对应的待识别文本，还包括表情符号或提示文本中的至少一种。

鉴于本申请涉及到一些专业术语，因此，下面将分别对这些专业术语进行介绍。

1、语音识别(speech recognition)：即机器通过识别和理解过程把语音信号转变为相应文本的技术，通常而言，识别出来的结果是一段纯文本。

2、语音特征(speech feature)：通过声学处理技术，将一段连续二进制表示的声学信号转换为特征向量表示的特征。

3、语音情绪识别(speech emotion recognition，SER)：机器通过语音信号，识别出该段语音中包含的情绪信息，这样才能让用户更完整地获取该段语音所包含的信息。通常而言，情绪可分为六个大类，分别为“高兴”、“难过”、“生气”、“恐惧”、“惊吓”以及“厌恶”。

4、文本分类(text classification)：文本分类类似于其他分类任务，是将一段文本提取特征之后，然后选择一个和特征最匹配的分类类别。在本申请中，文本分类是指文本情绪分类，即给一段文本选择一个最能表达的情绪。

5、卷积神经无网络(convolutional neural network，CNN)：是一种前馈神经网络，卷积神经网络由一个或多个卷积层和顶端的全连通层(对应经典的神经网络)组成，在图像和语音识别方面能够给出更好的效果。

6、长短期记忆(long short-term memory，LSTM)人工神经网络：是循环神经网络(Recurrent Neural Network，RNN)的一个变种，RNN在对一个时间序列进行处理的时候，容易存在梯度爆炸或者梯度消失的问题，LSTM通过增加一个细胞(cell)来解决这个问题，在cell中分别有输入门、遗忘门和输出门来决定上一个时刻哪些信息可以被输入、遗忘以及输出到下一个时刻。

7、快速文本分类器(fasttext)：是一种文本分类的神经网络算法模型，模型以连续文本作为输入，可以进行无监督训练得到文本的嵌入(embedding)表示，也可以接受有标注的训练数据进行有监督训练，从而对文本进行分类。

结合上述介绍，下面将对本申请中语音情绪识别的方法进行介绍，请参阅图3，本申请实施例中语音情绪识别方法的一个实施例包括：

101、获取待识别语音所对应的语音特征信号；

本实施例中，语音情绪识别装置获取用户通过终端设备发送的待识别语音，基于待识别语音提取对应的语音特征信号，其中，语音特征信号可以是梅尔频率倒谱系数(MelFrequency Cepstrum Coefficient，MFCC)特征、滤波器组能量(Filter Bank，FBank)特征、对数滤波器组能量(Log Filter Bank，logfbank)特征或者子带频谱质心(SubbandSpectrum Centroid，SSC)特征等。

为了便于理解，请参阅图4，图4为本申请实施例中用户录音的一个界面示意图，如图所示，以语音发送方为“用户A”，语音接收方为“用户B”为例，用户A在即时通讯应用中点击进入与“用户B”对话的界面，在该界面中提供了一个“按住说话”的模块，当用户A按住该模块时，可通过麦克风说话，由此输入待识别语音。

需要说明的是，语音情绪识别装置可部署于服务器，也可以部署于终端设备，还是可以部署于由服务器和终端设备构成的语音情绪识别系统，本申请以部署于服务器为例进行介绍，然而这不应理解为对本申请的限定。

102、根据语音特征信号获取待识别文本；

本实施例中，语音情绪识别装置可以将语音特征信号转换为相应的待识别文本，待识别文本为纯文本，例如，“我跟你说个事儿，我今天非常生气，真的，非常非常生气”。

具体地，语音识别也可以称为ASR，也就是将声音转化为文本的过程。语音识别可采用隐马尔可夫模型(Hidden Markov model，HMM)或者深度神经网络(Deep NeuralNetworks，DNN)输出相应的待识别文本。

103、基于语音特征信号，通过语音分类模型获取语音分类结果，其中，语音分类结果表示待识别语音的起伏程度，语音分类结果为激动类型或低沉类型，且低沉类型的起伏程度低于激动类型的起伏程度；

本实施例中，语音情绪识别装置将语音特征信号输入至训练好的语音分类模型，通过语音分类模型输出语音分类结果，语音分类结果包括激动类型和低沉类型。基于此，语音分类结果可表示待识别语音的起伏程度，起伏程度较大，即为激动类型，起伏程度较小，即为低沉类型。

具体地，将语音特征信号输入至语音分类模型，由语音分类模型输出目标分值，基于目标分值确定语音分类结果。其中，目标分值可以分布在一个连续区间，例如，从-1至1的一个区间，目标分值越大，情绪起伏越大，若目标分值在第一分值区间(如，[-1,0])内，则确定语音分类结果为激动类型，若目标分值在第二分值区间(如，[0,1])内，则确定语音分类结果为低沉类型。目标分值为0时，可以认为是低沉类型或激动类型，此处不做限定。

或者，目标分值可以分布在一个离散区间，例如，1或0，目标分值为1，则确定语音分类结果为激动类型，若目标分值为0，则确定语音分类结果为低沉类型。

104、基于待识别文本，通过文本分类模型获取文本分类结果，其中，文本分类结果表示待识别语音的情绪类型；

本实施例中，语音情绪识别装置将待识别文本输入至训练好的文本分类模型，通过文本分类模型输出文本分类结果，文本分类结果包括高兴文本类型、生气文本类型、难过文本类型以及中性文本类型。基于此，文本分类结果可表示待识别语音的情绪类型。

105、根据语音分类结果以及文本分类结果，确定待识别语音所对应的情绪识别结果。

本实施例中，语音情绪识别装置根据语音分类结果以及文本分类结果，可以确定待识别语音所对应的情绪识别结果，结合前述步骤中对语音分类结果和文本分类结果的描述，请参阅表1，表1为情绪识别结果与语音分类结果以及文本分类结果之间的一个关系示意。

表1

	激动类型	低沉类型
			高兴文本类型	高兴情绪类型	无情绪类型
生气文本类型	生气情绪类型	无情绪类型
			难过文本类型	无情绪类型	难过情绪类型
中性文本类型	无情绪类型	无情绪类型

由表1可见，基于语音分类结果以及文本分类结果，可以匹配得到对应的情绪识别结果。进一步地，结合情绪识别结果还可以生成相应的表情符号或者提示文本等。为了便于介绍，请参阅图5，图5为本申请实施例中显示情绪识别结果的一个界面示意图，如图5中(A)图所示，服务器对用户A发送的待识别语音进行识别之后，获取待识别文本为“我跟你说个事儿，我今天非常生气，真的，非常非常生气”，假设语音分类结果为激动类型，文本分类结果为生气文本类型，那么情绪识别结果为生气情绪类型，由此，得到语音识别内容不但包括待识别文本，还包括一个“生气”的表情符号。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，获取待识别语音所对应的语音特征信号，具体包括：

接收终端设备发送的待识别语音，其中，待识别语音包括N帧语音数据，N为大于或等于1的整数；

本实施例中，介绍了一种提取语音特征信号的方式。在服务器接收到终端设备发送的待识别语音之后，可进行分帧处理，即得到N帧语音数据，每帧语音数据可以为20毫秒或者30毫秒等，此处不做限定。针对每帧语音数据进行特征提取处理，即得到信号特征，N帧语音数据所对应的N帧信号特征构成语音特征信号。

具体地，以提取待识别语音的MFCC特征为例，待识别语音为连续语音。首先可以对待识别语音进行预加重，预加重可以在一定程度上弥补高频部分的损耗，保护了声道信息的完整性。接下来，对预加重之后的待识别语音进行分帧处理，进行分帧后对每一帧语音数据进行处理相当于对特征固定的持续信号进行处理，可以减少非稳态时变的影响。分帧后每一帧的起始段和末尾段会出现不连续的地方，从而导致与原始信号的误差越来越大。而加窗则可以使分帧后的信号变得相对连续，一般会选择使用汉明窗。

加窗之后采用快速傅里叶变化(fast Fourier transform，FFT)转化到频域，经过转化后可以得到语谱图。接下来取绝对值或平方值，然后使用梅尔滤波器组进行滤波，梅尔滤波器组的每个滤波器都具有三角滤波特性，这些滤波器都是等带宽的。对于滤波后的信号取对数，再进行离散余弦变换(Discrete Cosine Transform，DCT)，对DCT变换后的输出进行一个降维就可以得到最后的MFCC特征。

其次，本申请实施例中，提供了一种提取语音特征信号的方式，通过上述方式，对待识别语音进行特征提取，由此能够进行后续的语音处理，从而提升方案的可行性。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，待识别语音包括N帧语音数据，语音特征信号包括N个信号特征，每个信号特征对应于一帧语音数据，N为大于或等于1的整数；

基于语音特征信号，通过语音分类模型获取语音分类结果，具体包括：

根据目标分值确定语音分类结果。

本实施例中，介绍了一种基于语音分类模型输出目标分值的方式。由前述实施例可知，待识别语音包括N帧语音数据，对每帧语音数据进行特征提取后即可得到N个信号特征。将N个信号特征输入至卷积神经网络，由卷积神经网络输出目标特征向量，将目标特征向量输入至时序神经网络，通过时序神经网络输出目标分值。

具体地，为了便于理解，请参阅图6，图6为本申请实施例中语音分类模型的一个网络结构示意图，如图所示，语音分类模型包括卷积神经网络和时序神经网络两个部分，其中，卷积神经网络是一种前馈神经网络，卷积神经网络包括卷积层、池化层以及隐层，其中，卷积层可用于提取特征，池化层可用于选择特征，隐层可用于输出特征向量。假设卷积神经网络包括至少一个卷积网络，每个卷积网络包括卷积层和池化层。在得到N个信号特征之后，从中取出一个中心帧，即第t时刻的信号特征Xt，考虑到内容相关性，向左扩展L帧，比如向右扩展R帧，则输入特征序列为[Xt-L,…Xt,Xt+R]，即每一次输入是N个信号特征中的若干个信号特征，最后，通过隐层输出一个目标特征向量。然后按照时序先后，将目标特征向量依次输入至时序神经网络，然后每一帧语音数据所对应的特征向量的输出作为下一帧的输入，最后，将末尾一帧语音数据所对应的特征向量是输出作为全连接层的输入，经过softmax之后输出一个范围在[-1,1]之间的目标分值。

可以理解的是，目标分值越大，表示情绪起伏越大，目标分值为“1”时，语音分类结果为“激动类型”，目标分值为“0”时，语音分类结果为“低沉类型”。可选地，也可以将目标分值大于0，且小于等于1的情况确定为“激动类型”，将目标分值大于或等于-1，且小于0的情况确定为“低沉类型”。可选地，也可以采用其他的方式判定语音分类结果属于“激动类型”还是“低沉类型”。

可以理解的是，语音分类模型除了可以采用CNN和LSTM结合的网络结构，还可以仅采用CNN网络结构或者LSTM网络结构，又或者使用支持向量机(Support Vector Machine，SVM)等，此处不做限定。

其次，本申请实施例中，提供了一种基于语音分类模型输出目标分值的方式，通过上述方式，采用语音分类模型所包括的CNN网络可以提取语音特征信号的目标特征向量，采用语音分类模型所包括的LSTM网络可进一步对目标特征向量进行时序性的编码，加入时序对预测分值的影响，从而提升分值预测的准确性。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，还可以包括：

获取历史语音所对应的历史语音特征信号，其中，历史语音为出现在待识别语音之前相邻的一个语音，历史语音包括M帧语音数据，历史语音特征信号包括M个信号特征，每个信号特征对应于一帧语音数据，M为大于或等于1的整数；

基于历史语音特征信号，通过语音分类模型所包括的卷积神经网络获取中间特征向量，其中，卷积神经网络包括卷积层、池化层以及隐层；

基于中间特征向量，通过语音分类模型所包括的时序神经网络获取历史分值；

根据目标分值确定语音分类结果，可以包括：

根据历史分值以及目标分值确定语音分类结果。

本实施例中，介绍了一种基于多个语音得到语音分类结果的方式。如果语音接收方在待识别语音之前，还接收到同一个语音发送方发送的历史语音，则采用类似的方式，提取历史语音的特征，即得到历史语音特征信号，其中，历史语音特征信号包括M个信号特征，且每个信号特征对应于历史语音中的一帧语音数据。接下来，将历史语音特征信号输入至训练好的语音分类模型，通过语音分类模型输出历史语音所对应的历史分值。需要说明的是，语音分类模型基于历史语音特征信号预测历史分值的方式，与语音分类模型基于语音特征信号预测目标分值的方式类似，此处不做赘述。

为了便于理解，下面将以一个历史语音为例进行介绍，在实际应用中，还可以对多个历史语音分别计算对应的历史分值，此处不做限定。请参阅图7，图7为本申请实施例中基于历史语音显示情绪识别结果的一个界面示意图，如图所示，图中2秒的语音为历史语音，5秒的语音为待识别语音。首先，获取历史语音所对应的历史语音特征信号，然后将历史语音特征信号输入至语音分类模型，最后，由语音分类模型输出历史分值。类似地，首先，获取待识别语音所对应的语音特征信号，然后将语音特征信号输入至语音分类模型，最后，由语音分类模型输出目标分值。

在得到历史分值和目标分值之后，可以采用如下三种方式确定语音分类结果，下面将进行介绍。

一、基于最值确定语音分类结果；

以分值0作为分界线，在大于0的情况下，从历史分值和目标分值中确定最大值作为最值，在小于0的情况下，从历史分值和目标分值中确定最小值作为最值。假设历史分值为0.8，目标分值为1，那么最值为1，此时，语音分类结果为“激动类型”。假设历史分值为-1，目标分值为0.8，那么最值为-1，此时，语音分类结果为“低沉类型”。

二、基于平均值确定语音分类结果；

根据历史分值和目标分值计算平均值，假设历史分值为0.8，目标分值为1，那么最值为0.9，可认为语音分类结果为“激动类型”。

三、基于权重分配确定语音分类结果；

按照一定权重比例分配历史分值和目标分值的比重，假设历史分值的权重为0.2，目标分值的权重为0.8，且假设历史分值为0.8，目标分值为1，由此计算得到分值为0.2*0.8+0.8*1＝0.96，可认为语音分类结果为“激动类型”。

再次，本申请实施例中，提供了一种基于多个语音得到语音分类结果的方式，通过上述方式，结合用户在过去一段时间内发送的历史语音，可以获取用户在过去一段时间内累积的情绪信息，即得到历史分值，将历史分值和目标分值共同作为确定语音分类结果的依据，由此，有利于提升语音分类结果的准确度。

获取P个表情符号，其中，P个表情符号为出现在待识别语音之前相邻的表情符号，或，P个表情符号为出现在待识别语音之后相邻的表情符号，P为大于或等于1的整数；

根据P个表情符号的数量生成增益分值；

根据目标分值确定语音分类结果，可以包括：

根据增益分值以及目标分值确定语音分类结果。

本实施例中，介绍了一种基于表情符号得到语音分类结果的方式。如果语音接收方在待识别语音之前，还接收到同一个语音发送方发送的P个表情符号，则进一步获取P个表情符号的数量，即确定P值。其中，P个表情符号的类型均为激动类型的表情符号，例如，“大笑”的表情，“大哭”的表情符号，“生气”的表情符号等。因此，P值越大，增益分值越大。

示例性地，请参阅图8，图8为本申请实施例中基于表情符号显示情绪识别结果的一个界面示意图，如图所示，用户A发送待识别语音之前，还发送了1个“生气”的表情符号，当识别出“生气”的表情符号时，根据1个表情符号的数量生成增益分值，例如，增益分值为0.1。此外，获取待识别语音所对应的语音特征信号，然后将语音特征信号输入至语音分类模型，最后，由语音分类模型输出目标分值。

示例性地，请参阅图9，图9为本申请实施例中基于表情符号显示情绪识别结果的另一个界面示意图，如图所示，用户A发送待识别语音之后，还发送了2个“生气”的表情符号，当识别出“生气”的表情符号时，根据2个表情符号的数量生成增益分值，例如，增益分值为0.2。此外，获取待识别语音所对应的语音特征信号，然后将语音特征信号输入至语音分类模型，最后，由语音分类模型输出目标分值。

在得到增益分值和目标分值之后，将两者进行加和处理，如果加和之后的分值大于1，也按照分值为1进行识别，即确定语音分类结果为“激动类型”。

再次，本申请实施例中，提供了一种基于表情符号得到语音分类结果的方式，通过上述方式，结合用户在过去一段时间内发送的表情符号，可以获取用户在过去一段时间内累积的情绪信息，即得到增益分值，将增益分值和目标分值共同作为确定语音分类结果的依据，由此，有利于提升语音分类结果的准确度。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，根据目标分值确定语音分类结果，可以包括：

若目标分值在第一分值区间内，则确定语音分类结果为激动类型；

本实施例中，介绍了一种根据目标分值确定语音分类结果的方式。以分值区间为[-1,1]为例，根据分值区间设置第一分值区间和第二分值区间，例如，第一分值区间为大于0，且小于或等于1的区间，第二分值区间为大于或等于-1，且小于或等于0的区间。基于此，如果目标分值在第一分值区间内，则确定语音分类结果为激动类型，如果目标分值在第二分值区间内，则确定语音分类结果为低沉类型。

需要说明的是，第一分值区间和第二分值区间的范围可根据实际情况进行调整，上述例子仅为一个示意，不应理解为对本申请的限定。

再次，本申请实施例中，提供了一种根据目标分值确定语音分类结果的方式，通过上述方式，能够根据目标分值所在的分值区间，基于所在分值区间进一步确定语音分类结果，从而提升方案的可行性和可操作性。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，基于待识别文本，通过文本分类模型获取文本分类结果，可以包括：

基于待识别文本，通过文本分类模型获取文本分布概率，其中，文本分布概率包括K个第一概率值，且每个第一概率值对应于一个文本类型，K为大于1的整数；

根据文本分布概率确定目标概率值；

将目标概率值所对应的文本类型确定为文本分类结果。

本实施例中，介绍了一种基于文本分类模型获取文本分类结果的方式。将待识别语音转换为待识别文本之后，可以将待识别文本输入至训练好的文本分类模型，通过文本分类模型输出文本分布概率，其中，文本分布概率包括K个第一概率值。在本申请中，K可以设置为4，即文本分布概率可以表示为(a,b,c,d)，且a+b+c+d＝1。其中，a表示高兴文本类型所对应的第一概率值，b表示生气文本类型所对应的第一概率值，c表示难过文本类型所对应的第一概率值，d表示中性文本类型所对应的第一概率值，

根据文本分布概率(a,b,c,d)，可从中选择最大值作为目标概率值，例如，文本分布概率为(0.8,0.1,0.05,0.05)，那么目标概率值为0.8，因此，将目标概率值所对应的文本类型确定为文本分类结果，也就是将第一概率值0.8所对应的高兴文本类型作为文本分类结果。

具体地，文本分类模型可以是fasttext模型，为了便于理解，请参阅图10，图10为本申请实施例中文本分类模型的一个网络结构示意图，如图所示，x1,x2,...xT表示待识别文本中的n-gram向量，每个特征是词向量的平均值，这里使用全部的n-gram向量预测指定的类别，即输出文本分布概率。

可以理解的是，文本分类模型除了可以采用fasttext模型，还可以采用CNN模型或者LSTM模型，又或者使用来自转换双向编码器表示(Bidirection EncoderRepresentations from Transformers，BERT)模型等，此处不做限定。

其次，本申请实施例中，提供了一种基于文本分类模型获取文本分类结果的方式，通过上述方式，可以使用训练好的文本分类模型对待识别文本进行文本分类，由此提升方案的可行性，并且能够输出更加准确的文本分类结果。

根据历史语音特征信号获取历史待识别文本；

基于历史待识别文本，通过文本分类模型获取历史文本分布概率，其中，历史文本分布概率包括K个第二概率值，且每个第二概率值对应于一个文本类型；

根据文本分布概率确定目标概率值，可以包括：

根据文本分布概率以及历史文本分布概率，生成更新后的文本分布概率；

根据更新后的文本分布概率确定目标概率值。

本实施例中，介绍了一种基于多个语音得到文本分类结果的方式。如果语音接收方在待识别语音之前，还接收到同一个语音发送方发送的历史语音，则采用类似的方式，提取历史语音的特征，即得到历史语音特征信号，其中，历史语音特征信号包括M个信号特征，且每个信号特征对应于历史语音中的一帧语音数据。接下来，根据历史语音特征信号获取历史待识别文本，然后将历史待识别文本输入至训练好的文本分类模型，通过文本分类模型输出历史文本分布概率。需要说明的是，文本分类模型对历史待识别文本的预测方式，与文本分类模型对历史待识别文本的预测方式类似，此处不做赘述。

为了便于理解，下面将以一个历史语音为例进行介绍，在实际应用中，还可以对多个历史语音分别计算对应的历史文本分布概率，此处不做限定。首先，获取历史语音所对应的历史语音特征信号，然后根据历史语音特征信号获取历史待识别文本，再将历史待识别文本输入至文本分类模型，最后，由文本分类模型输出历史文本分布概率，其中，历史文本分布概率包括K个第二概率值。在本申请中，K可以设置为4，即文本分布概率可以表示为(x,y,z,r)，且x+y+z+r＝1。其中，x表示高兴文本类型所对应的第二概率值，y表示生气文本类型所对应的第二概率值，z表示难过文本类型所对应的第二概率值，r表示中性文本类型所对应的第二概率值。类似地，首先，获取语音所对应的语音特征信号，然后根据语音特征信号获取待识别文本，再将待识别文本输入至文本分类模型，最后，由文本分类模型输出文本分布概率。

在得到历史文本分布概率和文本分布概率之后，可以采用如下两种方式确定文本分类结果，下面将进行介绍。

一、基于最大值确定文本分类结果；

假设历史文本分布概率为(0.7,0.1,0.1,0.1)，文本分布概率为(0.1,0.8,0.1,0)，将历史文本分布概率和文本分布概率中，对应位置的最大值作为更新后的元素，因此，更新后的文本分布概率为(0.7,0.8,0.1,0.1)，于是确定目标概率值为0.8，因此，文本分类结果为生气文本类型。

可选地，还可以对更新后的文本分布概率进行归一化处理，使得更新后的文本分布概率中所有元素之和为1。

二、基于平均值确定文本分类结果；

假设历史文本分布概率为(0.7,0.1,0.1,0.1)，文本分布概率为(0.1,0.8,0.1,0)，将历史文本分布概率和文本分布概率中，对应位置的平均值作为更新后的元素，因此，更新后的文本分布概率为(0.4,0.45,0.1,0.05)，于是确定目标概率值为0.45，因此，文本分类结果为生气文本类型。

再次，本申请实施例中，提供了一种基于多个语音得到文本分类结果的方式，通过上述方式，结合用户在过去一段时间内发送的历史语音，可以获取用户在过去一段时间内累积的情绪信息，即得到历史文本分布概率，将历史文本分布概率和文本分布概率共同作为确定文本分类结果的依据，由此，有利于提升文本分类结果的准确度。

根据P个表情符号的类型生成增益文本分布概率；

根据文本分布概率确定目标概率值，可以包括：

根据文本分布概率以及增益文本分布概率，生成更新后的文本分布概率；

根据更新后的文本分布概率确定目标概率值。

本实施例中，介绍了一种基于多个表情符号得到文本分类结果的方式。如果语音接收方在待识别语音之前，还接收到同一个语音发送方发送的P个表情符号，则进一步获取P个表情符号的类型，根据P个表情符号的类型确定增益文本分布概率。其中，P个表情符号的类型包括高兴类型(例如，“大笑”的表情符号)、生气类型(例如，“生气”的表情符号)、难过类型(例如，“大哭”的表情符号)以及中性类型(例如，“咖啡”的表情符号或者“电脑”的表情符号)。

具体地，增益文本分布概率包括K个第三概率值。在本申请中，K可以设置为4，即增益文本分布概率率可以表示为(e,f,g,h)，且e+f+g+h＝1。其中，e表示高兴文本类型所对应的第三概率值，f表示生气文本类型所对应的第三概率值，g表示难过文本类型所对应的第三概率值，h表示中性文本类型所对应的第三概率值。

对于P个表情符号而言，每个对应类型的表情符号可增加一定的概率值，例如，检测到1个“大笑”的表情符号，则对应的概率值加0.1，即增益文本分布概率为(0.1,0,0,0)。又例如，检测到2个“大哭”的表情符号，则对应的概率值加0.3。即增益文本分布概率为(0,0,0.3,0)。

在得到增益文本分布概率和文本分布概率之后，可以直接对每个对应位置的元素进行加和处理，例如，文本分布概率为(0.1,0.8,0.1,0)，增益文本分布概率为(0.1,0,0,0)，基于此，得到更新后的文本分布概率为(0.2,0.8,0.1,0)，于是确定目标概率值为0.8，因此，文本分类结果为生气文本类型。

再次，本申请实施例中，提供了一种基于多个表情符号得到文本分类结果的方式，通过上述方式，结合用户在过去一段时间内发送的表情符号，可以获取用户在过去一段时间内累积的情绪信息，即得到增益文本分布概率，将增益文本分布概率和文本分布概率共同作为确定文本分类结果的依据，由此，有利于提升文本分类结果的准确度。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，根据语音分类结果以及文本分类结果，确定待识别语音所对应的情绪识别结果，可以包括：

若语音分类结果为激动类型，且文本分类结果为高兴文本类型，则确定待识别语音所对应的情绪识别结果为高兴情绪类型；

本实施例中，介绍了一种综合语音分类结果和文本分类结果判定情绪类型的方式。由前述实施例可知，语音分类结果可分为激动类型和低沉类型，基于此，如果文本分类结果为高兴文本类型，语音分类结果为激动类型，那么叠加高兴文本类型和激动类型，能够确定待识别语音所对应的情绪识别结果为高兴情绪类型。如果文本分类结果为高兴文本类型，语音分类结果为低沉类型，那么叠加高兴文本类型和低沉类型，能够确定待识别语音所对应的情绪识别结果为无情绪类型。

具体地，假设待识别语音经过识别之后，得到的待识别文本为“早上起来有肠粉吃，真开心”，如果用户用激动的语气说这句话，则确定待识别语音所对应的情绪识别结果为高兴情绪类型。如果用户用低沉的语气说这句话，则确定待识别语音所对应的情绪识别结果为无情绪类型。

进一步地，本申请实施例中，提供了一种综合语音分类结果和文本分类结果判定情绪类型的方式，通过上述方式，对于高兴文本类型而言，还需要考虑是否属于激动类型，两者都符合的情况下才认为情绪识别结果为高兴情绪类型，否则，则不判定为高兴情绪类型，采用“双重”判定能够提升情绪识别的准确度，由此提升方案的可靠性。

本实施例中，介绍了一种综合语音分类结果和文本分类结果判定情绪类型的方式。由前述实施例可知，语音分类结果可分为激动类型和低沉类型，基于此，如果文本分类结果为生气文本类型，语音分类结果为激动类型，那么叠加生气文本类型和激动类型，能够确定待识别语音所对应的情绪识别结果为生气情绪类型。如果文本分类结果为生气文本类型，语音分类结果为低沉类型，那么叠加生气文本类型和低沉类型，能够确定待识别语音所对应的情绪识别结果为无情绪类型。

具体地，假设待识别语音经过识别之后，得到的待识别文本为“为什么总是不回复我呀”，如果用户用激动的语气说这句话，则确定待识别语音所对应的情绪识别结果为生气情绪类型。如果用户用低沉的语气说这句话，则确定待识别语音所对应的情绪识别结果为无情绪类型。

进一步地，本申请实施例中，提供了一种综合语音分类结果和文本分类结果判定情绪类型的方式，通过上述方式，对于生气文本类型而言，还需要考虑是否属于激动类型，两者都符合的情况下才认为情绪识别结果为生气情绪类型，否则，则不判定为生气情绪类型，采用“双重”判定能够提升情绪识别的准确度，由此提升方案的可靠性。

本实施例中，介绍了一种综合语音分类结果和文本分类结果判定情绪类型的方式。由前述实施例可知，语音分类结果可分为激动类型和低沉类型，基于此，如果文本分类结果为难过文本类型，语音分类结果为激动类型，那么叠加难过文本类型和激动类型，能够确定待识别语音所对应的情绪识别结果为无情绪类型。如果文本分类结果为难过文本类型，语音分类结果为低沉类型，那么叠加难过文本类型和低沉类型，能够确定待识别语音所对应的情绪识别结果为难过情绪类型。

具体地，假设待识别语音经过识别之后，得到的待识别文本为“最近心情真的好差”，如果用户用激动的语气说这句话，则确定待识别语音所对应的情绪识别结果为无情绪类型。如果用户用低沉的语气说这句话，则确定待识别语音所对应的情绪识别结果为难过情绪类型。

进一步地，本申请实施例中，提供了一种综合语音分类结果和文本分类结果判定情绪类型的方式，通过上述方式，对于难过文本类型而言，还需要考虑是否属于激动类型，两者都符合的情况下才认为情绪识别结果为难过情绪类型，否则，则不判定为难过情绪类型，采用“双重”判定能够提升情绪识别的准确度，由此提升方案的可靠性。

本实施例中，介绍了一种综合语音分类结果和文本分类结果判定情绪类型的方式。由前述实施例可知，语音分类结果可分为激动类型和低沉类型，基于此，如果文本分类结果为中性文本类型，那么无论语音分类结果为激动类型还是低沉类型，都确定待识别语音所对应的情绪识别结果为无情绪类型。

具体地，假设待识别语音经过识别之后，得到的待识别文本为“我今天上午要去美术馆看展览”，无论用户用激动的语气还是低沉的语气说这句话，都确定待识别语音所对应的情绪识别结果为无情绪类型。

进一步地，本申请实施例中，提供了一种综合语音分类结果和文本分类结果判定情绪类型的方式，通过上述方式，对于中性文本类型而言，无论是否属于激动类型或者低沉类型，都判定为无情绪类型，采用“双重”判定能够提升情绪识别的准确度，由此提升方案的可靠性。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，根据语音分类结果以及文本分类结果，确定待识别语音所对应的情绪识别结果之后，还可以包括：

若情绪识别结果为高兴情绪类型，则向终端设备发送第一表情符号或第一提示文本，以使终端设备展示第一表情符号或第一提示文本；

若情绪识别结果为生气情绪类型，则向终端设备发送第二表情符号或第二提示文本，以使终端设备展示第二表情符号或第二提示文本；

若情绪识别结果为难过情绪类型，则向终端设备发送第三表情符号或第三提示文本，以使终端设备展示第三表情符号或第三提示文本。

本实施例中，介绍了一种基于情绪识别结果生成相应信息的方式。由前述实施例可知，如果语音情绪识别装置部署于服务器，则由服务器向终端设备发送表情符号或者提示文本，如果语音情绪识别装置部署于终端设备，则由终端设备直接生成表情符号或者提示文本，并展示该表情符号或提示文本。

为了便于理解，请参阅图11，图11为本申请实施例中基于高兴情绪类型显示表情符号和提示文本的界面示意图，假设情绪识别结果为高兴情绪类型，当用户触发语音转文本的功能时，可显示语音识别内容。示例性地，如图11中(A)图所示，语音识别内容包括待识别文本以及第一表情符号，待识别文本为“早上起来吃着美味烧烤的感觉好极了”，第一表情符号为“龇牙”的表情。示例性地，如图11中(B)图所示，语音识别内容包括待识别文本以及第一提示文本，待识别文本为“早上起来吃着美味烧烤的感觉好极了”，第一提示文本为“高兴”。由此，用户可了解到语音发送方“用户A”在说这段语音时的情绪是高兴的。

为了便于理解，请参阅图12，图12为本申请实施例中基于生气情绪类型显示表情符号和提示文本的界面示意图，假设情绪识别结果为生气情绪类型，当用户触发语音转文本的功能时，可显示语音识别内容。示例性地，如图12中(A)图所示，语音识别内容包括待识别文本以及第二表情符号，待识别文本为“跟你说话你也不回我，气死我了，哼”，第二表情符号为“愤怒”的表情。示例性地，如图12中(B)图所示，语音识别内容包括待识别文本以及第二提示文本，待识别文本为“跟你说话你也不回我，气死我了，哼”，第二提示文本为“生气”。由此，用户可了解到语音发送方“用户A”在说这段语音时的情绪是生气的。

为了便于理解，请参阅图13，图13为本申请实施例中基于难过情绪类型显示表情符号和提示文本的界面示意图，假设情绪识别结果为难过情绪类型，当用户触发语音转文本的功能时，可显示语音识别内容。示例性地，如图13中(A)图所示，语音识别内容包括待识别文本以及第三表情符号，待识别文本为“哎，不知为何，突然之间有种孤独的感觉”，第三表情符号为“难过”的表情。示例性地，如图13中(B)图所示，语音识别内容包括待识别文本以及第三提示文本，待识别文本为“哎，不知为何，突然之间有种孤独的感觉”，第三提示文本为“悲伤”。由此，用户可了解到语音发送方“用户A”在说这段语音时的情绪是悲伤的。

为了便于理解，请参阅图14，图14为本申请实施例中基于无情绪类型显示语音识别内容的一个界面示意图，假设情绪识别结果为无情绪类型，当用户触发语音转文本的功能时，可显示语音识别内容，且该语音识别内容仅包括待识别文本，且待识别文本为“今天跟我姐姐去了趟超市，买了很多新鲜水果，我怕放久了不新鲜，你晚上下班来我这拿些苹果和香蕉回去吧”。

其次，本申请实施例中，提供了一种基于情绪识别结果生成相应信息的方式，通过上述方式，对于不同的情绪识别结果可自动生成相应的反馈，例如，生成表情符号或者生成提示文本等，由此，语音接收方即使没有听语音，也可以了解语音所对应的文本内容以及说话人的情绪状态，从而提升了方案的实用性和灵活性。

结合上述介绍，下面将对本申请中语音情绪识别应用方法进行介绍，请参阅图15，本申请实施例中表情符号显示方法的一个实施例包括：

201、终端设备获取即时语音通信消息；

本实施例中，终端设备通过即时通讯应用获取即时语音通信消息，其中，即时语音通信消息表现为一段语音消息。

202、终端设备响应于对即时语音通信消息的消息内容转换操作，显示与即时语音通信消息对应的包含表情符号的文字消息，其中，表情符号通过对语音通信消息进行情绪识别而确定的。

本实施例中，终端设备接收用户对即时语音通信消息触发的内容转换操作，例如，点击“语音转换文本”的模块，由此，将即时语音通信消息转换为待识别文本，并基于即时语音通信消息提取对应的语音特征信号。

具体地，将语音特征信号输入至语音分类模型，由此输出获取语音分类结果，其中，语音分类结果表示待识别语音的起伏程度，语音分类结果为激动类型或低沉类型，且低沉类型的起伏程度低于激动类型的起伏程度。将待识别文本输入至文本分类模型，由此文本分类结果，其中，文本分类结果表示待识别语音的情绪类型。最后根据语音分类结果以及文本分类结果，确定待识别语音所对应的情绪识别结果。根据情绪识别结果确定对应的表情符号，结合待识别文本生成包含表情符号的文字消息。

需要说明的是，情绪识别的方式可参阅图3对应的各个实施例，此处不做赘述。

本申请实施例中，提供了一种语音情绪识别应用方法，通过上述方式，综合语音分类结果和文本分类结果，对待识别语音的情绪进行识别，不但能够减少仅依靠语音数据进行情绪分类的标注数据，而且采用不同层面的语音识别方式，能够在训练数据稀缺的情况下，仍然可以提升情绪识别的准确度。

可选地，在上述图15对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，终端设备响应于对即时语音通信消息的消息内容转换操作，显示与对应的包含表情符号的文字消息，具体包括：

终端设备响应于对即时语音通信消息的消息内容转换操作，获取即时语音通信消息所对应的语音特征信号；

终端设备根据语音特征信号获取待识别文本；

终端设备基于语音特征信号，通过语音分类模型获取语音分类结果，其中，语音分类结果表示即时语音通信消息的起伏程度，语音分类结果为激动类型或低沉类型，且低沉类型的起伏程度低于激动类型的起伏程度；

终端设备基于待识别文本，通过文本分类模型获取文本分类结果，其中，文本分类结果表示即时语音通信消息的情绪类型；

终端设备根据语音分类结果以及文本分类结果，确定即时语音通信消息所对应的情绪识别结果；

终端设备根据即时语音通信消息所对应的情绪识别结果，生成与即时语音通信消息对应的包含表情符号的文字消息；

终端设备显示与即时语音通信消息对应的包含表情符号的文字消息。

可选地，在上述图15对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，即时语音通信消息包括N帧语音数据，语音特征信号包括N个信号特征，每个信号特征对应于一帧语音数据，N为大于或等于1的整数；

终端设备基于语音特征信号，通过语音分类模型获取语音分类结果，可以包括：

终端设备基于语音特征信号，通过语音分类模型所包括的卷积神经网络获取目标特征向量，其中，卷积神经网络包括卷积层、池化层以及隐层；

终端设备基于目标特征向量，通过语音分类模型所包括的时序神经网络获取目标分值；

终端设备根据目标分值确定语音分类结果。

可选地，在上述图15对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，还可以包括：

终端设备获取P个表情符号，其中，P个表情符号为出现在即时语音通信消息之前相邻的表情符号，或，P个表情符号为出现在即时语音通信消息之后相邻的表情符号，P为大于或等于1的整数；

终端设备根据P个表情符号的数量生成增益分值；

终端设备根据目标分值确定语音分类结果，包括：

终端设备根据增益分值以及目标分值确定语音分类结果。

可选地，在上述图15对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，终端设备根据语音分类结果以及文本分类结果，确定即时语音通信消息所对应的情绪识别结果，可以包括：

若语音分类结果为激动类型，且文本分类结果为高兴文本类型，则终端设备确定待识别语音所对应的情绪识别结果为高兴情绪类型；

若语音分类结果为低沉类型，且文本分类结果为高兴文本类型，则终端设备确定待识别语音所对应的情绪识别结果为无情绪类型；

若语音分类结果为激动类型，且文本分类结果为生气文本类型，则终端设备确定待识别语音所对应的情绪识别结果为生气情绪类型；

若语音分类结果为低沉类型，且文本分类结果为生气文本类型，则终端设备确定待识别语音所对应的情绪识别结果为无情绪类型；

若语音分类结果为激动类型，且文本分类结果为难过文本类型，则终端设备确定待识别语音所对应的情绪识别结果为无情绪类型；

若语音分类结果为低沉类型，且文本分类结果为难过文本类型，则终端设备确定待识别语音所对应的情绪识别结果为难过情绪类型；

若语音分类结果为激动类型，且文本分类结果为中性文本类型，则终端设备确定待识别语音所对应的情绪识别结果为无情绪类型；

若语音分类结果为低沉类型，且文本分类结果为中性文本类型，则终端设备确定待识别语音所对应的情绪识别结果为无情绪类型。

需要说明的是，对即时语音通信消息进行处理的方式，与前述实施例中，对待识别语音的处理方式类似，故此处不做赘述。

可选地，在上述图15对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，终端设备显示与即时语音通信消息对应的包含表情符号的文字消息，具体包括：

若情绪识别结果为高兴情绪类型，则终端设备显示第一表情符号；

若情绪识别结果为生气情绪类型，则终端设备显示第二表情符号；

若情绪识别结果为难过情绪类型，则终端设备显示第三表情符号。

本实施例中，介绍了一种基于情绪识别结果显示相应表情符号的方式，终端设备可以基于情绪识别结果对应的具体情绪类型生成相应的表情符号。为了便于理解，请再次参阅图11中的(A)图，假设即时语音通信消息为“早上起来吃着美味烧烤的感觉好极了”，经过识别后显示与即时语音通信消息对应的包含第一表情符号的文字消息，第一表情符号为“龇牙”的表情。由此，用户可了解到语音发送方在说这段语音时的情绪是高兴的。

请再次参阅图12中的(A)图，假设即时语音通信消息为“跟你说话你也不回我，气死我了，哼”，经过识别后显示与即时语音通信消息对应的包含第二表情符号的文字消息，第二表情符号为“愤怒”的表情。由此，用户可了解到语音发送方在说这段语音时的情绪是生气的。

请再次参阅图13中的(A)图，假设即时语音通信消息为“哎，不知为何，突然之间有种孤独的感觉，经过识别后显示与即时语音通信消息对应的包含第三表情符号的文字消息，第三表情符号为“难过”的表情。由此，用户可了解到语音发送方在说这段语音时的情绪是悲伤的。

其次，本申请实施例中，提供了一种基于情绪识别结果显示相应表情符号的方式，通过上述方式，对于不同的情绪识别结果可自动生成相应的反馈，例如，生成表情符号或者生成提示文本等，由此，语音接收方即使没有听语音，也可以了解语音所对应的文本内容以及说话人的情绪状态，从而提升了方案的实用性和灵活性。

可选地，在上述图15对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，终端设备响应于对即时语音通信消息的消息内容转换操作，显示与即时语音通信消息对应的包含表情符号的文字消息之后，还可以包括：

终端设备获取针对于表情符号的设置操作；

终端设备响应于针对于表情符号的设置操作，显示至少两个可选表情符号；

终端设备获取针对于目标表情符号的选择操作；

终端设备响应于针对于目标表情符号的选择操作，显示与即时语音通信消息对应的包含目标表情符号的文字消息。

本实施例中，提供了一种用户自定义表情符号的方式，用户还可以根据自己的喜好或者习惯等，从至少两个可选表情符号中选择一个目标表情符号，基于此，文字消息中的原本的表情符号即更新为目标表情符号。

具体地，例如，表情符号为“愤怒”，当终端设备获取针对于表情符号的设置操作时，弹出一个表情符号的选择框，并在该选择框中显示至少两个可选表情符号，例如，愤怒表情1和愤怒表情2，假设默认的“愤怒”表情符号为愤怒表情1，用户选择愤怒表情2之后，即在文字消息显示愤怒表情2。

其次，本申请实施例中，提供了一种用户自定义表情符号的方式，通过上述方式，用户还可以根据个人喜好选择选择显示在文字消息中的表情符号，从而提升方案的灵活性。

结合前述实施例的介绍，利用本申请提供的语音情绪识别方法能够更加准确地识别出语音中携带的情绪信息，经过实验得到如图2所示的实验数据，请参阅表2。

表2

系统分类方式	纯语音分类	纯文本分类	结合语音文本分类
				准确率	77％	74％	93％

由表2可知，纯语音分类的准确率为77％，这是目前获取到最高的准确率，理论上数据越多效果还能有所提升，但获取语音分类的标注数据成本非常高，受成本限制，如果要达到90％这样的准确性几乎是不可行的。并且，如前述实施例所提到的情况，如果使用“高兴”的语气骂人，仅靠语音特征来分类的准确度是非常低的。综上，本申请提供的技术方案在低成本的情况下还具有高准确率。

下面对本申请中的语音情绪识别装置进行详细描述，请参阅图16，图16为本申请实施例中语音情绪识别装置的一个实施例示意图，语音情绪识别装置30包括：

获取模块301，用于获取待识别语音所对应的语音特征信号；

获取模块301，还用于根据语音特征信号获取待识别文本；

获取模块301，还用于基于语音特征信号，通过语音分类模型获取语音分类结果，其中，语音分类结果表示待识别语音的起伏程度，语音分类结果为激动类型或低沉类型，且低沉类型的起伏程度低于激动类型的起伏程度；

获取模块301，还用于基于待识别文本，通过文本分类模型获取文本分类结果，其中，文本分类结果表示待识别语音的情绪类型；

确定模块302，用于根据语音分类结果以及文本分类结果，确定待识别语音所对应的情绪识别结果。

可选地，在上述图16所对应的实施例的基础上，本申请实施例提供的语音情绪识别装置30的另一实施例中，

获取模块301，具体用于接收终端设备发送的待识别语音，其中，待识别语音包括N帧语音数据，N为大于或等于1的整数；

可选地，在上述图16所对应的实施例的基础上，本申请实施例提供的语音情绪识别装置30的另一实施例中，待识别语音包括N帧语音数据，语音特征信号包括N个信号特征，每个信号特征对应于一帧语音数据，N为大于或等于1的整数；

获取模块301，具体用于基于语音特征信号，通过语音分类模型获取语音分类结果，包括：

根据目标分值确定语音分类结果。

获取模块301，还用于获取历史语音所对应的历史语音特征信号，其中，历史语音为出现在待识别语音之前相邻的一个语音，历史语音包括M帧语音数据，历史语音特征信号包括M个信号特征，每个信号特征对应于一帧语音数据，M为大于或等于1的整数；

获取模块301，还用于基于历史语音特征信号，通过语音分类模型所包括的卷积神经网络获取中间特征向量，其中，卷积神经网络包括卷积层、池化层以及隐层；

获取模块301，还用于基于中间特征向量，通过语音分类模型所包括的时序神经网络获取历史分值；

确定模块302，具体用于根据历史分值以及目标分值确定语音分类结果。

可选地，在上述图16所对应的实施例的基础上，本申请实施例提供的语音情绪识别装置30的另一实施例中，语音情绪识别装置30还包括生成模块303；

获取模块301，还用于获取P个表情符号，其中，P个表情符号为出现在待识别语音之前相邻的表情符号，或，P个表情符号为出现在待识别语音之后相邻的表情符号，P为大于或等于1的整数；

生成模块303，用于根据P个表情符号的数量生成增益分值；

获取模块301，具体用于根据增益分值以及目标分值确定语音分类结果。

获取模块301，具体用于若目标分值在第一分值区间内，则确定语音分类结果为激动类型；

获取模块301，具体用于基于待识别文本，通过文本分类模型获取文本分布概率，其中，文本分布概率包括K个第一概率值，且每个第一概率值对应于一个文本类型，K为大于1的整数；

根据文本分布概率确定目标概率值；

将目标概率值所对应的文本类型确定为文本分类结果。

获取模块301，还用于根据历史语音特征信号获取历史待识别文本；

获取模块301，还用于基于历史待识别文本，通过文本分类模型获取历史文本分布概率，其中，历史文本分布概率包括K个第二概率值，且每个第二概率值对应于一个文本类型；

获取模块301，具体用于根据文本分布概率以及历史文本分布概率，生成更新后的文本分布概率；

根据更新后的文本分布概率确定目标概率值。

生成模块303，用于根据P个表情符号的类型生成增益文本分布概率；

获取模块301，具体用于根据文本分布概率以及增益文本分布概率，生成更新后的文本分布概率；

根据更新后的文本分布概率确定目标概率值。

确定模块302，具体用于若语音分类结果为激动类型，且文本分类结果为高兴文本类型，则确定待识别语音所对应的情绪识别结果为高兴情绪类型；

确定模块302，具体用于若语音分类结果为激动类型，且文本分类结果为生气文本类型，则确定待识别语音所对应的情绪识别结果为生气情绪类型；

确定模块302，具体用于若语音分类结果为激动类型，且文本分类结果为难过文本类型，则确定待识别语音所对应的情绪识别结果为无情绪类型；

确定模块302，具体用于若语音分类结果为激动类型，且文本分类结果为中性文本类型，则确定待识别语音所对应的情绪识别结果为无情绪类型；

可选地，在上述图16所对应的实施例的基础上，本申请实施例提供的语音情绪识别装置30的另一实施例中，语音情绪识别装置30还包括发送模块304；

发送模块304，用于在确定模块302根据语音分类结果以及文本分类结果，确定待识别语音所对应的情绪识别结果之后，若情绪识别结果为高兴情绪类型，则向终端设备发送第一表情符号或第一提示文本，以使终端设备展示第一表情符号或第一提示文本；

发送模块304，还用于若情绪识别结果为生气情绪类型，则向终端设备发送第二表情符号或第二提示文本，以使终端设备展示第二表情符号或第二提示文本；

发送模块304，还用于若情绪识别结果为难过情绪类型，则向终端设备发送第三表情符号或第三提示文本，以使终端设备展示第三表情符号或第三提示文本。

下面对本申请中的语音情绪识别装置进行详细描述，请参阅图17，图17为本申请实施例中语音情绪识别装置的一个实施例示意图，语音情绪识别装置40包括：

获取模块401，用于获取即时语音通信消息；

显示模块402，用于响应于对即时语音通信消息的消息内容转换操作，显示与即时语音通信消息对应的包含表情符号的文字消息，其中，表情符号通过对语音通信消息进行情绪识别而确定的。

可选地，在上述图17所对应的实施例的基础上，本申请实施例提供的语音情绪识别装置40的另一实施例中，

获取模块401，用于获取即时语音通信消息；

显示模块402，具体用于响应于对即时语音通信消息的消息内容转换操作，获取即时语音通信消息所对应的语音特征信号；

根据语音特征信号获取待识别文本；

显示与即时语音通信消息对应的包含表情符号的文字消息。

可选地，在上述图17所对应的实施例的基础上，本申请实施例提供的语音情绪识别装置40的另一实施例中，即时语音通信消息包括N帧语音数据，语音特征信号包括N个信号特征，每个信号特征对应于一帧语音数据，N为大于或等于1的整数；

显示模块402，具体用于基于语音特征信号，通过语音分类模型所包括的卷积神经网络获取目标特征向量，其中，卷积神经网络包括卷积层、池化层以及隐层；

根据目标分值确定语音分类结果。

获取模块401，还用于获取P个表情符号，其中，P个表情符号为出现在即时语音通信消息之前相邻的表情符号，或，P个表情符号为出现在即时语音通信消息之后相邻的表情符号，P为大于或等于1的整数；

获取模块401，还用于根据P个表情符号的数量生成增益分值；

显示模块402，具体用于根据增益分值以及目标分值确定语音分类结果。

显示模块402，具体用于若语音分类结果为激动类型，且文本分类结果为高兴文本类型，则确定待识别语音所对应的情绪识别结果为高兴情绪类型；

显示模块402，具体用于若情绪识别结果为高兴情绪类型，则显示第一表情符号；

若情绪识别结果为生气情绪类型，则显示第二表情符号；

若情绪识别结果为难过情绪类型，则显示第三表情符号。

获取模块401，还用于在显示模块402响应于对即时语音通信消息的消息内容转换操作，显示与即时语音通信消息对应的包含表情符号的文字消息之后，获取针对于表情符号的设置操作；

显示模块402，还用于响应于针对于表情符号的设置操作，显示至少两个可选表情符号；

获取模块401，还用于获取针对于目标表情符号的选择操作；

显示模块402，还用于响应于针对于目标表情符号的选择操作，显示与即时语音通信消息对应的包含目标表情符号的文字消息。

本申请提供的语音情绪识别装置可部署于服务器上，请参阅图18，图18是本申请实施例提供的一种服务器结构示意图，该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)522(例如，一个或一个以上处理器)和存储器532，一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器522可以设置为与存储介质530通信，在服务器500上执行存储介质530中的一系列指令操作。

服务器500还可以包括一个或一个以上电源526，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口558，和/或，一个或一个以上操作系统541，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图18所示的服务器结构。

本申请提供的语音情绪识别装置可部署于终端设备上，请参阅图19，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal DigitalAssistant，PDA)、销售终端设备(Point of Sales，POS)、车载电脑等任意终端设备，以终端设备为手机为例：

图19示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图19，手机包括：射频(Radio Frequency，RF)电路610、存储器620、输入单元630、显示单元640、传感器650、音频电路650、无线保真(wireless fidelity，WiFi)模块670、处理器680、以及电源690等部件。本领域技术人员可以理解，图19中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图19对手机的各个构成部件进行具体的介绍：

RF电路610可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器680处理；另外，将设计上行的数据发送给基站。通常，RF电路610包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路610还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器620可用于存储软件程序以及模块，处理器680通过运行存储在存储器620的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元630可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元630可包括触控面板631以及其他输入设备632。触控面板631，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板631上或在触控面板631附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板631可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器680，并能接收处理器680发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板631。除了触控面板631，输入单元630还可以包括其他输入设备632。具体地，其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元640可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元640可包括显示面板641，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板641。进一步的，触控面板631可覆盖显示面板641，当触控面板631检测到在其上或附近的触摸操作后，传送给处理器680以确定触摸事件的类型，随后处理器680根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图19中，触控面板631与显示面板641是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板631与显示面板641集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器650，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板641的亮度，接近传感器可在手机移动到耳边时，关闭显示面板641和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路650、扬声器661，传声器662可提供用户与手机之间的音频接口。音频电路650可将接收到的音频数据转换后的电信号，传输到扬声器661，由扬声器661转换为声音信号输出；另一方面，传声器662将收集的声音信号转换为电信号，由音频电路650接收后转换为音频数据，再将音频数据输出处理器680处理后，经RF电路610以发送给比如另一手机，或者将音频数据输出至存储器620以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块670可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图19示出了WiFi模块670，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器680是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器620内的软件程序和/或模块，以及调用存储在存储器620内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器680可包括一个或多个处理单元；可选的，处理器680可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器680中。

手机还包括给各个部件供电的电源690(比如电池)，可选的，电源可以通过电源管理系统与处理器680逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

上述实施例中由终端设备所执行的步骤可以基于该图19所示的终端设备结构。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如前述各个实施例描述的方法。

本申请实施例中还提供一种包括程序的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例描述的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音情绪识别的方法，其特征在于，包括：

获取待识别语音所对应的语音特征信号；

根据所述语音特征信号获取待识别文本；

基于所述语音特征信号，通过语音分类模型获取语音分类结果，其中，所述语音分类结果表示所述待识别语音的起伏程度，所述语音分类结果为激动类型或低沉类型，且所述低沉类型的起伏程度低于所述激动类型的起伏程度；

基于所述待识别文本，通过文本分类模型获取文本分类结果，其中，所述文本分类结果表示所述待识别语音的情绪类型；

根据所述语音分类结果以及所述文本分类结果，确定所述待识别语音所对应的情绪识别结果。

2.根据权利要求1所述的方法，其特征在于，所述待识别语音包括N帧语音数据，所述语音特征信号包括N个信号特征，每个信号特征对应于一帧语音数据，所述N为大于或等于1的整数；

所述基于所述语音特征信号，通过语音分类模型获取语音分类结果，包括：

基于所述语音特征信号，通过所述语音分类模型所包括的卷积神经网络获取目标特征向量，其中，所述卷积神经网络包括卷积层、池化层以及隐层；

基于所述目标特征向量，通过所述语音分类模型所包括的时序神经网络获取目标分值；

根据所述目标分值确定所述语音分类结果。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取历史语音所对应的历史语音特征信号，其中，所述历史语音为出现在所述待识别语音之前相邻的一个语音，所述历史语音包括M帧语音数据，所述历史语音特征信号包括M个信号特征，每个信号特征对应于一帧语音数据，所述M为大于或等于1的整数；

基于所述历史语音特征信号，通过所述语音分类模型所包括的卷积神经网络获取中间特征向量，其中，所述卷积神经网络包括卷积层、池化层以及隐层；

基于所述中间特征向量，通过所述语音分类模型所包括的时序神经网络获取历史分值；

所述根据所述目标分值确定所述语音分类结果，包括：

根据所述历史分值以及所述目标分值确定所述语音分类结果。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取P个表情符号，其中，所述P个表情符号为出现在所述待识别语音之前相邻的表情符号，或，所述P个表情符号为出现在所述待识别语音之后相邻的表情符号，所述P为大于或等于1的整数；

根据所述P个表情符号的数量生成增益分值；

所述根据所述目标分值确定所述语音分类结果，包括：

根据所述增益分值以及所述目标分值确定所述语音分类结果。

5.根据权利要求1所述的方法，其特征在于，所述基于所述待识别文本，通过文本分类模型获取文本分类结果，包括：

基于所述待识别文本，通过所述文本分类模型获取文本分布概率，其中，所述文本分布概率包括K个第一概率值，且每个第一概率值对应于一个文本类型，所述K为大于1的整数；

根据所述文本分布概率确定目标概率值；

将所述目标概率值所对应的文本类型确定为所述文本分类结果。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

根据所述历史语音特征信号获取历史待识别文本；

基于所述历史待识别文本，通过所述文本分类模型获取历史文本分布概率，其中，所述历史文本分布概率包括K个第二概率值，且每个第二概率值对应于一个文本类型；

所述根据所述文本分布概率确定目标概率值，包括：

根据所述文本分布概率以及所述历史文本分布概率，生成更新后的文本分布概率；

根据所述更新后的文本分布概率确定所述目标概率值。

7.根据权利要求5所述的方法，其特征在于，所述方法还包括：

根据所述P个表情符号的类型生成增益文本分布概率；

所述根据所述文本分布概率确定目标概率值，包括：

根据所述文本分布概率以及所述增益文本分布概率，生成更新后的文本分布概率；

根据所述更新后的文本分布概率确定所述目标概率值。

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述根据所述语音分类结果以及所述文本分类结果，确定所述待识别语音所对应的情绪识别结果，包括：

若所述语音分类结果为激动类型，且所述文本分类结果为高兴文本类型，则确定所述待识别语音所对应的情绪识别结果为高兴情绪类型；

若所述语音分类结果为低沉类型，且所述文本分类结果为高兴文本类型，则确定所述待识别语音所对应的情绪识别结果为无情绪类型；

若所述语音分类结果为激动类型，且所述文本分类结果为生气文本类型，则确定所述待识别语音所对应的情绪识别结果为生气情绪类型；

若所述语音分类结果为低沉类型，且所述文本分类结果为生气文本类型，则确定所述待识别语音所对应的情绪识别结果为无情绪类型；

若所述语音分类结果为激动类型，且所述文本分类结果为难过文本类型，则确定所述待识别语音所对应的情绪识别结果为无情绪类型；

若所述语音分类结果为低沉类型，且所述文本分类结果为难过文本类型，则确定所述待识别语音所对应的情绪识别结果为难过情绪类型；

若所述语音分类结果为激动类型，且所述文本分类结果为中性文本类型，则确定所述待识别语音所对应的情绪识别结果为无情绪类型；

若所述语音分类结果为低沉类型，且所述文本分类结果为中性文本类型，则确定所述待识别语音所对应的情绪识别结果为无情绪类型。

9.一种语音情绪识别应用方法，其特征在于，包括：

获取即时语音通信消息；

响应于对所述即时语音通信消息的消息内容转换操作，显示与所述即时语音通信消息对应的包含表情符号的文字消息，其中，所述表情符号通过对所述语音通信消息进行情绪识别而确定的。

10.根据权利要求9所述的语音情绪识别应用方法，其特征在于，所述响应于对所述即时语音通信消息的消息内容转换操作，显示与所述即时语音通信消息对应的包含表情符号的文字消息，包括：

响应于对所述即时语音通信消息的消息内容转换操作，获取所述即时语音通信消息所对应的语音特征信号；

根据所述语音特征信号获取待识别文本；

基于所述语音特征信号，通过语音分类模型获取语音分类结果，其中，所述语音分类结果表示所述即时语音通信消息的起伏程度，所述语音分类结果为激动类型或低沉类型，且所述低沉类型的起伏程度低于所述激动类型的起伏程度；

基于所述待识别文本，通过文本分类模型获取文本分类结果，其中，所述文本分类结果表示所述即时语音通信消息的情绪类型；

根据所述语音分类结果以及所述文本分类结果，确定所述即时语音通信消息所对应的情绪识别结果；

根据所述即时语音通信消息所对应的情绪识别结果，生成与所述即时语音通信消息对应的包含表情符号的文字消息；

显示与所述即时语音通信消息对应的包含表情符号的文字消息。

11.根据权利要求10所述的语音情绪识别应用方法，其特征在于，所述即时语音通信消息包括N帧语音数据，所述语音特征信号包括N个信号特征，每个信号特征对应于一帧语音数据，所述N为大于或等于1的整数；

根据所述目标分值确定所述语音分类结果。

12.根据权利要求11所述的语音情绪识别应用方法，其特征在于，所述方法还包括：

获取P个表情符号，其中，所述P个表情符号为出现在所述即时语音通信消息之前相邻的表情符号，或，所述P个表情符号为出现在所述即时语音通信消息之后相邻的表情符号，所述P为大于或等于1的整数；

根据所述P个表情符号的数量生成增益分值；

所述根据所述目标分值确定所述语音分类结果，包括：

13.根据权利要求9所述的语音情绪识别应用方法，其特征在于，所述根据所述语音分类结果以及所述文本分类结果，确定所述即时语音通信消息所对应的情绪识别结果，包括：

14.根据权利要求13所述的语音情绪识别应用方法，其特征在于，所述显示与所述即时语音通信消息对应的包含表情符号的文字消息，包括：

若所述情绪识别结果为所述高兴情绪类型，则显示第一表情符号；

若所述情绪识别结果为所述生气情绪类型，则显示第二表情符号；

若所述情绪识别结果为所述难过情绪类型，则显示第三表情符号。

15.根据权利要求9至14中任一项所述的语音情绪识别应用方法，其特征在于，所述响应于对所述即时语音通信消息的消息内容转换操作，显示与所述即时语音通信消息对应的包含表情符号的文字消息之后，所述方法还包括：

获取针对于所述表情符号的设置操作；

响应于所述针对于所述表情符号的设置操作，显示至少两个可选表情符号；

获取针对于目标表情符号的选择操作；

响应于所述针对于所述目标表情符号的选择操作，显示与所述即时语音通信消息对应的包含所述目标表情符号的文字消息。

16.一种语音情绪识别装置，其特征在于，包括：

获取模块，用于获取待识别语音所对应的语音特征信号；

所述获取模块，还用于根据所述语音特征信号获取待识别文本；

所述获取模块，还用于基于所述语音特征信号，通过语音分类模型获取语音分类结果，其中，所述语音分类结果表示所述待识别语音的起伏程度，所述语音分类结果为激动类型或低沉类型，且所述低沉类型的起伏程度低于所述激动类型的起伏程度；

所述获取模块，还用于基于所述待识别文本，通过文本分类模型获取文本分类结果，其中，所述文本分类结果表示所述待识别语音的情绪类型；

确定模块，用于根据所述语音分类结果以及所述文本分类结果，确定所述待识别语音所对应的情绪识别结果。

17.一种表情符号显示装置，其特征在于，包括：

获取模块，用于获取即时语音通信消息；

显示模块，用于响应于对所述即时语音通信消息的消息内容转换操作，显示与所述即时语音通信消息对应的包含表情符号的文字消息，其中，所述表情符号通过对所述语音通信消息进行情绪识别而确定的。

18.一种计算机设备，其特征在于，包括：存储器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，所述处理器用于根据程序代码中的指令执行权利要求1至15中任一项所述的方法；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

19.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至15中任一项所述的方法。