CN114298019A

CN114298019A - 情绪识别方法、装置、设备、存储介质、程序产品

Info

Publication number: CN114298019A
Application number: CN202111649280.5A
Authority: CN
Inventors: 杨占栋; 卢凌云; 张美伟; 李昱; 王全礼; 张晨
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-08

Abstract

本公开提供的一种情绪识别方法、装置、设备、存储介质、程序产品，涉及情绪识别技术，包括：获取语音通话数据，并将语音通话数据转换为文本通话数据；提取语音通话数据的音频特征，确定第一情绪信息；在文本通话数据中提取关键词，根据预设的情绪词典、关键词，确定第二情绪信息；对文本通话数据进行编码，利用预设的情绪分析模型确定第三情绪信息；根据第一、第二和第三情绪信息确定总情绪信息；将总情绪信息中与最大的概率值对应的情绪类别确定情绪类别。本方案，可通过分析语音通话数据的音频特征、文本通话数据的关键词、文本编码得到三种情绪信息，综合三种情绪信识别情绪。在用户咨询问题的过程中，可以提高情绪识别的准确性。

Description

情绪识别方法、装置、设备、存储介质、程序产品

技术领域

本公开涉及情绪识别技术，尤其涉及一种情绪识别方法、装置、设备、存储介质、程序产品。

背景技术

随着互联网技术的不断发展，越来越多的企业开始采用智能客服系统来辅助人工客服。智能客服系统可以提高客服的效率、降低人力成本。

现有技术中，对智能客服系统效果的评价主要依赖用户最后反馈的“非常满意”、“基本满意”等结果。

但是，现有的智能客服系统在用户咨询问题的过程中，不能及时有效的对用户的情绪进行准确的识别，进而影响了用户的服务体验。

发明内容

本公开提供了一种情绪识别方法、装置、设备、存储介质、程序产品，以解决现有的智能客服系统在用户咨询问题的过程中，不能及时有效的对用户的情绪进行准确的识别，进而影响了用户的服务体验的问题。

根据本公开第一方面，提供了一种情绪识别方法，包括：

获取语音通话数据，并将所述语音通话数据转换为文本通话数据；

提取所述语音通话数据的音频特征，根据所述音频特征确定第一情绪信息；

在所述文本通话数据中提取关键词，并根据预设的情绪词典、所述关键词，确定第二情绪信息；

对所述文本通话数据进行编码，得到文本编码，并利用预设的情绪分析模型确定所述文本编码的第三情绪信息；

根据所述第一情绪信息、所述第二情绪信息和所述第三情绪信息确定总情绪信息；其中，所述总情绪信息中包括与每个情绪类别对应的概率值；

将所述总情绪信息中与最大的概率值对应的情绪类别确定为所述语音通话数据的情绪类别。

根据本公开第二方面，提供了一种情绪识别装置，所述装置包括：获取单元，用于获取语音通话数据，并将所述语音通话数据转换为文本通话数据；

第一情绪信息确定单元，用于提取所述语音通话数据的音频特征，根据所述音频特征确定第一情绪信息；

第二情绪信息确定单元，用于在所述文本通话数据中提取关键词，并根据预设的情绪词典、所述关键词，确定第二情绪信息；

第三情绪信息确定单元，用于对所述文本通话数据进行编码，得到文本编码，并利用预设的情绪分析模型确定所述文本编码的第三情绪信息；

总情绪信息确定单元，用于根据所述第一情绪信息、所述第二情绪信息和所述第三情绪信息确定总情绪信息；其中，所述总情绪信息中包括与每个情绪类别对应的概率值；

情绪类别识别单元，用于将所述总情绪信息中与最大的概率值对应的情绪类别确定为所述语音通话数据的情绪类别。

根据本公开第三方面，提供了一种电子设备，包括存储器和处理器；其中，所述存储器，用于存储计算机程序；所述处理器，用于读取所述存储器存储的计算机程序，并根据所述存储器中的计算机程序执行如第一方面所述的一种情绪识别方法。

根据本公开第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如第一方面所述的一种情绪识别方法。

根据本公开第五方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时，实现如第一方面所述的一种情绪识别方法。

本公开提供的一种情绪识别方法、装置、设备、存储介质、程序产品，包括：获取语音通话数据，并将语音通话数据转换为文本通话数据；提取语音通话数据的音频特征，根据音频特征确定第一情绪信息；在文本通话数据中提取关键词，并根据预设的情绪词典、关键词，确定第二情绪信息；对文本通话数据进行编码，得到文本编码，并利用预设的情绪分析模型确定文本编码的第三情绪信息；根据第一情绪信息、第二情绪信息和第三情绪信息确定总情绪信息；其中，总情绪信息中包括与每个情绪类别对应的概率值；将总情绪信息中与最大的概率值对应的情绪类别确定为语音通话数据的情绪类别。本公开提供的方案，可以分别通过分析语音通话数据的音频特征、文本通话数据的关键词、文本编码得到三种情绪信息，综合三种情绪信息得到总情绪信息，并通过总情绪信息识别出语音通话数据的情绪类别。本方案可以实现在用户咨询问题的过程中，可以提高情绪识别的准确性，进而可以提升用户的服务体验。同时也可以有效地评估客服人员的服务水平。

附图说明

图1为本公开一示例性实施例示出的情绪识别方法的流程示意图；

图2为本公开另一示例性实施例示出的情绪识别方法的流程示意图；

图3为本公开一示例性实施例示出的情绪识别装置的结构图；

图4为本公开另一示例性实施例示出的情绪识别装置的结构图；

图5为本公开一示例性实施例示出的电子设备的结构图。

具体实施方式

客服行业是一个规模庞大的产业，根据2018年《中国智能客服行业研究报告》统计，中国目前大约有500万全职客服，人力成本加上硬件设备和基础设施的规模非常庞大。长久以来，对客服行业的降本增效一直是企业所追求的极致目标，但是业界对人工客服的需求仍然客观存在，人工客服也存在各种各样的问题，如何技术赋能客服行业，提升效率降低成本，同时优化客服体验，是目前所面临的主要问题。随着互联网技术的不断发展，越来越多的企业开始采用智能客服系统来辅助人工客服，为企业和用户之间建立一种更为高效、快速、有效的服务体系，这样不仅提高了客服的效率，还降低了人力成本，并且通过对用户对话的大数据进行分析，精准定位产品问题并加以解决，可以很好的提升用户体验，沉淀下来的海量数据也可以帮助智能客服做更精准的智能推荐、搜索、营销、持续优化服务体验等。现有技术中，对智能客服系统效果的评价主要依赖用户最后反馈的“非常满意”、“基本满意”等结果。

为了解决上述技术问题，本公开提供的方案中，可以分别通过分析语音通话数据的音频特征、文本通话数据的关键词、文本通话数据的文本编码得到三种情绪信息，综合三种情绪信息得到总情绪信息，并通过总情绪信息识别出语音通话数据的情绪类别。本方案可以实现在用户咨询问题的过程中，可以提高情绪识别的准确性，进而可以提升用户的服务体验。同时也可以有效地评估客服人员的服务水平。

图1为本公开一示例性实施例示出的情绪识别方法的流程示意图。

如图1所示，本实施例提供的情绪识别方法包括：

步骤101，获取语音通话数据，并将语音通话数据转换为文本通话数据。

其中，本公开提供的方法可以由具备计算能力的电子设备来执行，比如可以是计算机等设备。

该电子设备能够获取语音通话数据，并能够将语音通话数据转换为文本通话数据。

其中，语音通话数据可以为客服行业中的用户通话过程中的语音通话数据。

其中，可以通过自动语音识别技术(Automatic Speech Recognition，ASR)，将语音通话数据转换为文本通话数据。

其中，ASR是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。语音识别系统的性能大致取决于以下4类因素：识别词汇表的大小和语音的复杂性；语音信号的质量；单个说话人还是多说话人；硬件。

步骤102，提取语音通话数据的音频特征，根据音频特征确定第一情绪信息。

其中，第一情绪信息为根据提取的语音通话数据的音频特征确定的情绪信息。

具体的，音频特征向量比如可以包括以下几种音频特征：能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪声比(Harmonic to Noise Ratio，HNR)特征以及梅尔倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)特征。

可以提取语音通话数据的上述音频特征，提取方式见下述实施例中。

进一步的，对上述提取的音频特征进行融合，得到融合后的音频特征。

接着，可以利用预设网络对融合后的音频特征进行处理，得到第一情绪信息。比如，可以利用递归神经网络(Recursive Neural Network，RNN)方法对融合后的音频特征进行处理。其中，RNN是具有树状阶层结构且网络节点按其连接顺序对输入信息进行递归的人工神经网络，是深度学习算法之一。

步骤103，在文本通话数据中提取关键词，并根据预设的情绪词典、关键词，确定第二情绪信息。

具体的，首先对文本数据进行分词处理，使用工具将文本数据按照语义特性分成若干个词，例如使用jieba工具，jieba为一种中文分词库。其中，词是最小的能够独立活动的有意义的语言成分，将句子转为词的表示，就是中文分词。

接着，对分词进行去噪以及停用词处理，获取到分词中的关键词。

对关键词进行词嵌入向量计算，计算得出关键词的向量表现形式，即关键词向量。

其中，预设的情绪词典可以为根据实际情况预设设置的情绪词典。预设的情绪词典中可以包括多个情绪类别，比如“满意”、“基本满意”、“一般”、“投诉倾向”、“明确投诉”这五个情绪类别。每个情绪类别都有对应的情绪词典。

例如，预设的情绪词典为W_i，其中i∈C，C为具体的情绪类别，例如有：“满意”、“基本满意”、“一般”、“投诉倾向”、“明确投诉”五个情绪类别，则有五个类别的情绪词典。

可以分别计算关键词向量与各类别情绪词典的余弦相似度。

可以根据得到的预选相似度，确定第二情绪信息。

步骤104，对文本通话数据进行编码，得到文本编码，并利用预设的情绪分析模型确定文本编码的第三情绪信息。

具体的，首先可以通过预设方法将文本通话数据转换为向量形式。比如使用词向量(Word embedding)方法将文本通话数据转换为向量形式。其中，词向量又叫词嵌入式自然语言处理中的一组语言建模和特征学习技术的统称。从概念上讲，它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。

其中，可以利用注意力机制将文本通话数据的向量形式转化为文本编码。

其中，预设的情绪分析模型可以为softmax回归模型。

可以对文本编码进行softmax计算，得出各个情绪类别的各概率值，即第三情绪信息。

步骤105，根据第一情绪信息、第二情绪信息和第三情绪信息确定总情绪信息；其中，总情绪信息中包括与每个情绪类别对应的概率值。

具体的，可以结合第一情绪信息、第二情绪信息和第三情绪信息的内容，得到总情绪信息。比如，可以根据第一情绪信息、第二情绪信息和第三情绪信息中各情绪类别的概率值进行加权计算，得到总情绪信息。

步骤106，将总情绪信息中与最大的概率值对应的情绪类别确定为语音通话数据的情绪类别。

具体的，可以计算总情绪信息中与最大的概率值对应的情绪类别，并将该情绪类别确定为语音通话数据的情绪类别。

其中，情绪类别比如可以包括：“满意”、“基本满意”、“一般”、“投诉倾向”、“明确投诉”。

本公开提供的情绪识别方法，包括：获取语音通话数据，并将语音通话数据转换为文本通话数据；提取语音通话数据的音频特征，根据音频特征确定第一情绪信息；在文本通话数据中提取关键词，并根据预设的情绪词典、关键词，确定第二情绪信息；对文本通话数据进行编码，得到文本编码，并利用预设的情绪分析模型确定文本编码的第三情绪信息；根据第一情绪信息、第二情绪信息和第三情绪信息确定总情绪信息；其中，总情绪信息中包括与每个情绪类别对应的概率值；将总情绪信息中与最大的概率值对应的情绪类别确定为语音通话数据的情绪类别。本公开提供的方案，可以分别通过分析语音通话数据的音频特征、文本通话数据的关键词、文本编码得到三种情绪信息，综合三种情绪信息得到总情绪信息，并通过总情绪信息识别出语音通话数据的情绪类别。本方案可以实现在用户咨询问题的过程中，可以提高情绪识别的准确性，进而可以提升用户的服务体验。同时也可以有效地评估客服人员的服务水平。

图2为本公开另一示例性实施例示出的情绪识别方法的流程示意图。

如图2所示，本实施例提供的情绪识别方法包括：

步骤201，获取语音通话数据，并将语音通话数据转换为文本通话数据。

具体的，步骤201与步骤101的原理、实现方式类似，不再赘述。

步骤202，音频特征包括能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪声比特征以及梅尔倒谱系数特征；提取语音通话数据的音频特征；融合能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪声比特征以及梅尔倒谱系数特征，得到融合后的音频特征。

具体的，音频特征向量可包括以下几种音频特征：能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪声比特征以及梅尔倒谱系数特征。

其中，能量特征指的是语音通话数据的功率谱特征，可通过功率谱求和得到，公式如下：

其中，E表示能量特征的取值，k表示语音通话数据中数据帧的编号，j表示语音通话数据的频率点的编号，N表示语音通话数据中数据帧帧长，P表示功率谱的取值。

其中，发音帧数特征指的是语音通话数据内发音帧的数量大小，该发音帧的数量大小也可通过比例值来衡量。例如统计该语音通话数据内发音帧和不发音帧的数量分别为n₁和n₂，则发音帧数和不发音帧数的比例为r₁＝n₁/n₂，发音帧数和总帧数的比例为：r₂＝n₁/(n₁+n₂)。

其中，基音频率特征可采用基于线性预测编码(Linear Predictive Coding，LPC)误差信号的自相关函数的算法来提取。其中，LPC是主要用于音频信号处理与语音处理中根据线性预测模型的信息用压缩形式表示数字语音信号谱包络的工具。它是最有效的语音分析技术之一，也是低位速下编码方法高质量语音最有用的方法之一，它能够提供非常精确的语音参数预测。

基音频率特征可以包括基音频率和/或基音频率一阶差分。基音频率的算法流程可以如下：首先，计算发音帧x(k)的线性预测系数并计算线性预测估计信号

计算公式如下：

其中，a_k为发音帧x(k)的线性预测系数；p表示数据帧的数量；j表示数据帧的编号；x[k-j]为第k-j帧的发音帧；k表示数据帧的编号，且k＞p。

其中，可以通过实际语音抽样和线性预测抽样之间的均方误差最小化，求得一组最优的线性预测系数。

其次，计算误差信号

的自相关函数R(σ)＝∫e(k)e(k-σ)dk；其中，σ表示自相关函数的偏移量；k表示数据帧的编号；e(k)表示误差信号；

表示线性预测估计信号；x(k)表示发音帧。

然后，在对应基音频率为80-500HZ的偏移量范围内，寻找自相关函数的最大值，记录其对应的偏移量σ。

然后，计算基音频率f；计算公式为：f＝f_s/σ；其中，f_s为发音帧数据的采样频率。

其中，共振峰特征可采用基于线性预测的多项式求根的算法、谱包络法、倒谱法、LPC内插法、LPC求根法、希尔伯特变换法等方法来提取。

具体的，受舌头的位置和嘴唇形状的复合影响，发音器官由于振动会产生多个共振频率。实验研究显示，一个元音可以由三个共振峰表示。因此，提取的共振峰特征可以包括第一共振峰、第二共振峰和第三共振峰，以及该三个共振峰的一阶差分。

其中，谐波噪声比特征采用基于独立分量分析(Independent ComponentAnalysis，ICA)的算法来提取。其中，ICA是20世纪90年代发展起来的一种新的信号处理技术。基本的ICA是指从多个源信号的线性混合信号中分离出源信号的技术。除了已知源信号是统计独立外，无其他先验知识，ICA是伴随着盲信源问题而发展起来的，故又称盲分离。

其中，梅尔倒谱系数特征包括1-12阶梅尔倒谱系数以及1-12阶梅尔倒谱系数一阶差分，通用的梅尔倒谱系数特征提取过程包括：先对语音通话数据进行预加重、分帧和加窗；对每一个短时分析窗，通过快速傅立叶变换(Fast Fourier Transform，FFT)得到对应的频谱；将上面的频谱通过Mel滤波器组得到Mel频谱；在Mel频谱上面进行倒谱分析。

进一步的，对上述提取的能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪声比特征、梅尔倒谱系数特征进行融合。

可以利用特征组合方法，得到融合后的音频特征为：

其中，F表示融合后的音频特征；f₁表示能量特征；f₂表示发音帧数特征、f₃表示基音频率特征；f₄表示共振峰特征、f₅表示谐波噪声比特征、f₆表示梅尔倒谱系数特征；n表示特征向量的维度；1≤t≤n。

步骤203，利用预设的网络对融合后的音频特征进行处理，确定第一情绪信息。

比如，可以递归神经网络(Recursive Neural Network，RNN)方法对融合后的音频特征进行处理。

可选的，根据网络中的第一预设参数、第二预设参数、第一隐藏状态值、融合后的音频特征确定第二隐藏状态值；

其中，第一预设参数、第二预设参数、第一隐藏状态值可以为递归神经网络的初始化预设已知值。

具体公式如下：

h_t＝f_W(h_t-1，f_t)

其中，h_t-1为第一隐藏状态值，表示隐藏状态t-1时刻的状态，h_t为第二隐藏状态值，表示隐藏状态t时刻的状态，f_t为融合后的音频特征在t时刻的特征值，其中，

f_t＝(f_1t，f_2t，...f_6t)

f_W为已知参数的函数，例如：

f_W(h_t-1，f_t)＝tanh(W_hhh_t-1+W_fhf_t)

其中，W_hh为预设网络中的第一预设参数；W_fh为预设网络中的第二预设参数；f_t为融合后的音频特征在t时刻的特征值；tanh为双曲函数中的双曲正切函数。

根据上一刻的第一隐藏状态值、当前时刻的第二隐藏状态值确定总隐藏状态值；

具体的，可以通过递归计算，确定总隐藏状态值。

根据网络中的第三预设参数对语音通话数据的最后一个时刻的总隐藏状态值进行处理，得到情绪评价值；

可以根据网络中的第三预设参数对语音通话数据的隐藏状态值进行处理，得到每一时刻的情绪预测值，公式如下：

y_t＝W_hph_t

其中，其中，W_hp为预设网络中的第三预设参数；y_t为t时刻的情绪预测值；h_t为t时刻的隐藏状态值。

根据网络中的第三预设参数对语音通话数据的最后一个时刻的总隐藏状态值进行处理，得到情绪评价值y。

对情绪评价值进行回归计算，得到第一情绪信息。

具体的，可以对情绪评价值进行softmax回归计算，得出第一情绪信息，公式如下：

p₁＝softmax(y)

其中，y为情绪评价值；p₁为第一情绪信息。

其中，可以使用softmax回归模型进行回归计算。softmax回归模型是logistic回归模型在多分类问题上的推广，在多分类问题中，类标签y可以取两个以上的值。softmax回归模型对于诸如MNIST手写数字分类等问题是很有用的，该问题的目的是辨识10个不同的单个数字。softmax回归是有监督的，它也可与深度学习无监督学习方法进行结合。

步骤204，在文本通话数据中提取关键词，对关键词进行词嵌入向量计算，得到关键词的关键词向量。

具体的，首先对文本数据进行分词处理，使用工具将文本数据按照语义特性分成若干个词，例如使用jieba工具，

对关键词进行词嵌入向量计算，计算得出关键词的向量表现形式，即：

x₂＝(x₂₁，x₂₂,...,x_2i，...，x_2n)

其中，x₂表示关键词向量；x_2i表示向量值。

步骤205，根据预设的与各情绪类别对应的各情绪词典、各关键词向量，确定第二情绪信息。

可选的，根据预设的与各情绪类别对应的各情绪词典、各关键词向量，确定关键词向量与预设的与各情绪类别对应的各情绪词典的余弦相似度；

例如，预设的情绪词典为W_i，其中i∈C，C为具体的情绪类别，例如有：“满意”、“基本满意”、“一般”、“投诉倾向”、“明确投诉”五个情绪类别，则有五个类别的情绪词典。可以分别计算关键词向量与各类别情绪词典的余弦相似度，公式如下：

p_2i＝W_ix₂

其中，p_2i表示i情绪类别对应的情绪词典与关键词向量的余弦相似度；x₂表示关键词向量；W_i表示预设的情绪词典，其中i∈C，C为具体的情绪类别。

对各个余弦相似度进行矩阵的无穷范数计算，并根据计算结果确定第二情绪信息。

对上述计算的关键词向量与情绪词典的余弦相似度，进行矩阵的无穷范数进行计算，即：

p_2i′＝||p_2i||_∞

其中，p_2i表示i情绪类别对应的情绪词典与关键词向量的余弦相似度；p_2i′表示p_2i的矩阵的无穷范数计算结果。

可选的，将各个余弦相似度进行矩阵的无穷范数计算得到的计算结果相加，得到总和；

将各个余弦相似度进行矩阵的无穷范数计算得到的计算结果相加得到的总和，公式表示如下：

其中，p_2i′表示p_2i的矩阵的无穷范数计算结果；i∈C，C为具体的情绪类别；|C|表示情绪的类别数。

将各个余弦相似度进行矩阵的无穷范数计算得到的计算结果，与总和的比值，确定为第二情绪信息。

公式如下：

其中，p₂表示第二情绪信息；p_2i表示i情绪类别对应的情绪词典与关键词向量的余弦相似度；p_2i′表示p_2i的矩阵的无穷范数计算结果；i∈C，C为具体的情绪类别；|C|表示情绪的类别数；

表示将各个余弦相似度进行矩阵的无穷范数计算得到的计算结果相加得到的总和。

步骤206，对文本通话数据进行编码，得到文本编码，将文本编码输入至预设的情绪分析模型，得到文本通话数据属于各个情绪类别的各概率值；根据各个情绪类别的概率值确定第三情绪信息。

具体的，首先可以将文本通话数据转换为向量形式。比如使用词向量(Wordembedding)方法将文本通话数据转换为向量形式。其中，词向量又叫词嵌入式自然语言处理中的一组语言建模和特征学习技术的统称。从概念上讲，它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。具体的，多个词可以通过词向量的词嵌入的方式转化为词向量的拼接组合。如下所示：

x＝(x₁，x₂，...，x_i，...，x_n)

其中，x表示文本序列向量，为文本通话数据的向量表示；x₂表示词向量；n表示文本序列向量的长度。

可以对文本序列向量x进行双向长短词记忆模型(Bi-directional Long Short-Term Memory，BiLSTM)计算输之后，经过一个自注意力机制(self-attention)，其中，注意力机制可以使用缩放点积注意力机制(scaled dot-product attention)，公式如下所示：

其中，A表示自注意力机制输出的矩阵；Q表示查询向量；K表示键向量；V表示值向量；Q、K、V，都是通过BiLSTM计算得出的结果，再与权重数据相乘得到的；T为已知参数值；u为已知参数值。

其中，BiLSTM是由前向LSTM与后向LSTM组合而成。两者在自然语言处理任务中都常被用来建模上下文信息。其中，LSTM的全称是Long Short-Term Memory，它是RNN的一种。LSTM由于其设计的特点，非常适合用于对时序数据的建模，如文本数据。

其中，自注意力机制应用于自然语言处理中。

具体的，在使用自注意力之前，添加BiLSTM来转换底层的输入。注意力机制使用加权和来生成输出矢量，因此其表示能力受到限制。同时，BiLSTM擅长捕获序列的上下文信息，可以进一步提高注意力网络的表达能力。

经过一个自注意力机制后，使用一层最大池化(max pooling)去获取句子的表示q，即为文本编码，目的是在向量的每个维度上选择最大值以捕获最重要的特征。

其中，最大池化即取局部接受域中值最大的点。

具体的，情绪分析模型可以为softmax回归模型。

对文本编码q进行softmax计算，得出各个情绪类别的各概率值，得到第三情绪信息。公式如下：

p₃＝foftmax(q)

其中，p₃表示第三情绪信息；q表示文本编码。

步骤207，对第一情绪信息、第二情绪信息、第三情绪信息进行加权计算，得到总情绪信息。其中，总情绪信息中包括与每个情绪类别对应的概率值。

公式如下：

p＝γ₁p₁+γ₂p₂+γ₃p₃

其中，γ₁，γ₂，γ₃为已知的参数值，p₁为基于语音数据计算得出的第一情绪信息，p₂为基于关键词计算得出的第二情绪信息，p₃为基于文本编码计算的第三情绪信息。

步骤208，将总情绪信息中与最大的概率值对应的情绪类别确定为语音通话数据的情绪类别。

具体的，步骤208与步骤106的原理、实现方式类似，不再赘述。

图3为本公开一示例性实施例示出的情绪识别装置的结构图。

如图3所示，本公开提供的情绪识别装置300包括：

获取单元310，用于获取语音通话数据，并将语音通话数据转换为文本通话数据；

第一情绪信息确定单元320，用于提取语音通话数据的音频特征，根据音频特征确定第一情绪信息；

第二情绪信息确定单元330，用于在文本通话数据中提取关键词，并根据预设的情绪词典、关键词，确定第二情绪信息；

第三情绪信息确定单元340，用于对文本通话数据进行编码，得到文本编码，并利用预设的情绪分析模型确定文本编码的第三情绪信息；

总情绪信息确定单元350，用于根据第一情绪信息、第二情绪信息和第三情绪信息确定总情绪信息；其中，总情绪信息中包括与每个情绪类别对应的概率值；

情绪类别识别单元360，用于将总情绪信息中与最大的概率值对应的情绪类别确定为语音通话数据的情绪类别。

图4为本公开另一示例性实施例示出的情绪识别装置的结构图。

如图4所示，在上述实施例基础上，本公开提供的情绪识别装置400中，第一情绪信息确定单元320，包括：

特征提取模块321，用于音频特征包括能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪声比特征以及梅尔倒谱系数特征；融合能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪声比特征以及梅尔倒谱系数特征，得到融合后的音频特征；

第一情绪信息确定模块322，用于利用预设的网络对融合后的音频特征进行处理，确定第一情绪信息。

第一情绪信息确定模块322，具体用于根据网络中的第一预设参数、第二预设参数、第一隐藏状态值、融合后的音频特征确定第二隐藏状态值；

对情绪评价值进行回归计算，得到第一情绪信息。

第二情绪信息确定单元330，包括：

关键词向量确定模块331，用于对关键词进行词嵌入向量计算，得到关键词的关键词向量；

第二情绪信息确定模块332，用于根据预设的与各情绪类别对应的各情绪词典、各关键词向量，确定第二情绪信息。

第二情绪信息确定模块332，具体用于根据预设的与各情绪类别对应的各情绪词典、各关键词向量，确定关键词向量与预设的与各情绪类别对应的各情绪词典的余弦相似度；

第二情绪信息确定模块332，具体用于将各个余弦相似度进行矩阵的无穷范数计算得到的计算结果相加，得到总和；

第三情绪信息确定单元340，具体用于将文本编码输入至预设的情绪分析模型，得到文本通话数据属于各个情绪类别的各概率值；根据各个情绪类别的概率值确定第三情绪信息。

总情绪信息确定单元350，具体用于对第一情绪信息、第二情绪信息、第三情绪信息进行加权计算，得到总情绪信息。

图5为本公开一示例性实施例示出的电子设备的结构图。

如图5所示，本实施例提供的电子设备包括：

存储器501；

处理器502；以及

计算机程序；

其中，计算机程序存储在存储器501中，并配置为由处理器502执行以实现如上的任一种情绪识别方法。

本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，

计算机程序被处理器执行以实现如上的任一种情绪识别方法。

本实施例还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时，实现上述任一种情绪识别方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种情绪识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述音频特征包括能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪声比特征以及梅尔倒谱系数特征；

所述提取所述语音通话数据的音频特征，根据所述音频特征确定第一情绪信息，包括：

融合所述能量特征、所述发音帧数特征、所述基音频率特征、所述共振峰特征、所述谐波噪声比特征以及所述梅尔倒谱系数特征，得到融合后的音频特征；

利用预设的网络对所述融合后的音频特征进行处理，确定所述第一情绪信息。

3.根据权利要求2所述的方法，其特征在于，所述利用预设的网络对所述融合后的音频特征进行处理，确定所述第一情绪信息，包括：

根据所述网络中的第一预设参数、第二预设参数、第一隐藏状态值、所述融合后的音频特征确定第二隐藏状态值；

根据所述网络中的第三预设参数对所述语音通话数据的最后一个时刻的总隐藏状态值进行处理，得到情绪评价值；

对所述情绪评价值进行回归计算，得到所述第一情绪信息。

4.根据权利要求1所述的方法，其特征在于，所述根据预设的情绪词典、所述关键词，确定第二情绪信息，包括：

对所述关键词进行词嵌入向量计算，得到所述关键词的关键词向量；

根据预设的与各情绪类别对应的各情绪词典、各所述关键词向量，确定所述第二情绪信息。

5.根据权利要求4所述的方法，其特征在于，所述根据预设的与各情绪类别对应的各情绪词典、各所述关键词向量，确定所述第二情绪信息，包括：

根据预设的与各情绪类别对应的各情绪词典、各所述关键词向量，确定所述关键词向量与预设的与各所述情绪类别对应的各所述情绪词典的余弦相似度；

对各个所述余弦相似度进行矩阵的无穷范数计算，并根据计算结果确定第二情绪信息。

6.根据权利要求5所述的方法，其特征在于，所述根据计算结果确定第二情绪信息，包括：

将各个所述余弦相似度进行矩阵的无穷范数计算得到的计算结果相加，得到总和；

将各个所述余弦相似度进行矩阵的无穷范数计算得到的计算结果，与所述总和的比值，确定为第二情绪信息。

7.根据权利要求1所述的方法，其特征在于，所述利用预设的情绪分析模型确定所述文本编码的第三情绪信息，包括：

将所述文本编码输入至预设的情绪分析模型，得到所述文本通话数据属于各个情绪类别的各概率值；根据所述各个情绪类别的概率值确定所述第三情绪信息。

8.根据权利要求1所述的方法，其特征在于，所述根据所述第一情绪信息、所述第二情绪信息和所述第三情绪信息确定总情绪信息，包括：

对所述第一情绪信息、所述第二情绪信息、所述第三情绪信息进行加权计算，得到所述总情绪信息。

9.一种情绪识别装置，其特征在于，所述装置包括：

获取单元，用于获取语音通话数据，并将所述语音通话数据转换为文本通话数据；

10.一种电子设备，其特征在于，包括存储器和处理器；其中，

所述存储器，用于存储计算机程序；

所述处理器，用于读取所述存储器存储的计算机程序，并根据所述存储器中的计算机程序执行上述权利要求1-8任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现上述权利要求1-8任一项所述的方法。

12.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时，实现上述权利要求1-8任一项所述的方法。