CN112487824B

CN112487824B - 客服语音情感识别方法、装置、设备及存储介质

Info

Publication number: CN112487824B
Application number: CN202011302758.2A
Authority: CN
Inventors: 倪子凡; 王健宗; 程宁
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2024-05-14
Anticipated expiration: 2040-11-19
Also published as: CN112487824A

Abstract

本发明涉及人工智能领域，公开了一种客服语音情感识别方法、装置、设备及存储介质。一种客服语音情感识别方法包括：获取待识别的客服电销通话录音文件，将所述通话录音文件转译为文本数据；对所述文本数据进行数据预处理，得到目标文本；确定待提取的特征，基于所述待提取的特征对所述目标文本进行特征提取操作，得到特征语句；计算所述文本数据的整体语境情感得分，以及计算所述特征语句的局部情境情感得分，并基于所述整体语境情感得分和所述局部情境情感得分计算情感总得分；基于所述情感总得分确定所述通话录音的情感状态。本发明实现了对客服系统中客服人员服务态度的检测和识别的功能。

Description

客服语音情感识别方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种客服语音情感识别方法、装置、设备及存储介质。

背景技术

云通信是基于云计算技术理念和服务模式提供的企业级通讯服务，涵盖运营商业务中的短信和语音，互联网业务中的即时通讯IM、实时音视频、呼叫中心、云客服和企业融合通信UC。其中得益于AI技术与客服领域的紧密结合，传统行业中的客服人员大量重复枯燥的任务可以通过智能客服系统来完成。通过ASR对用户原话进行转译，通过NLP对用户原话进行意图匹配，再通过TTS将匹配意图的话术进行自动回复，实现与用户的多轮语音交互。在未来智能客服系统的发展空间将更加广阔。

现有技术中，在智能客服电销场景下客服系统一般采用智能质检的方式，而智能质检很多情况下只能检出文本中客服和用户对话中的违规点，而对客服态度差的情况很难识别，所以当前对客服通话态度的识别与检测并没有合适的解决方案。

发明内容

本发明的主要目的在于解决当前对客服通话态度的识别与检测没有合适的解决方案的问题。

本发明第一方面提供了一种客服语音情感识别方法，包括：

获取待识别的客服电销通话录音文件，将所述通话录音文件转译为文本数据；

对所述文本数据进行数据预处理，得到目标文本；

确定待提取的特征，基于所述待提取的特征对所述目标文本进行特征提取操作，得到特征语句；

计算所述文本数据的整体语境情感得分，以及计算所述特征语句的局部情境情感得分，并基于所述整体语境情感得分和所述局部情境情感得分计算情感总得分；

基于所述情感总得分确定所述通话录音的情感状态。

可选的，在本发明第一方面的第一种实现方式中，所述将所述通话录音文件转译为文本数据包括：

对所述通话录音文件中的语音信息进行降噪处理；

将经过降噪处理后的语音信息转化为文本数据。

可选的，在本发明第一方面的第二种实现方式中，所述对所述文本数据进行数据预处理，得到目标文本包括：

计算所述文本数据中的TF-IDF值集合，基于所述TF-IDF值集合提取所述文本数据的关键词集合；

计算所述关键词集合中的关键词的相关度指数和相似度指数；

基于所述相关度指数和相似度指数，从所述关键词集合中筛选出目标文本。

可选的，在本发明第一方面的第三种实现方式中，所述计算所述文本数据中的TF-IDF值集合还包括：

计算所述文本数据中单个词汇的词频和逆文档频率指数；

根据所述词频和逆文档频率指数计算TF-IDF值。

可选的，在本发明第一方面的第四种实现方式中，所述计算所述文本数据的整体语境情感得分包括：

对所述文本数据进行极性分析，并计算所述文本数据的情感极性指数；

基于所述情感极性指数计算所述文本数据的极性置信度指数，将所述极性置信度指数作为所述整体语境情感得分。

可选的，在本发明第一方面的第五种实现方式中，所述计算所述特征语句的局部情境情感得分包括：

基于预置情感词典对所述特征语句进行情感分析，得到情感分析结果；

根据所述情感分析结果，确定所述局部情境情感得分。

可选的，在本发明第一方面的第六种实现方式中，所述基于所述情感总得分确定所述通话录音的情感状态包括：

将所述情感总得分与预设情感状态标准区间集合中的标准区间进行比较，得到比较结果；

基于所述比较结果确定所述通话录音的情感状态。

本发明第二方面提供了一种客服语音情感识别装置，包括：

数据转译模块，用于获取待识别的客服电销通话录音文件，将所述通话录音文件转译为文本数据；

预处理模块，用于对所述文本数据进行数据预处理，得到目标文本；

特征提取模块，用于确定待提取的特征，基于所述待提取的特征对所述目标文本进行特征提取操作，得到特征语句；

情感识别模块，用于计算所述文本数据的整体语境情感得分，以及计算所述特征语句的局部情境情感得分，并基于所述整体语境情感得分和所述局部情境情感得分计算情感总得分；基于所述情感总得分确定所述通话录音的情感状态。

可选的，在本发明第二方面的第一种实现方式中，所述数据转译模块具体用于：

对所述通话录音文件中的语音信息进行降噪处理；

将经过降噪处理后的语音信息转化为文本数据。

可选的，在本发明第二方面的第二种实现方式中，所述预处理模块具体用于：

可选的，在本发明第二方面的第三种实现方式中，所述预处理模块具体用于：

计算所述文本数据中单个词汇的词频和逆文档频率指数；

根据所述词频和逆文档频率指数计算TF-IDF值；

可选的，在本发明第二方面的第四种实现方式中，所述情感识别模块具体用于：

可选的，在本发明第二方面的第五种实现方式中，所述情感识别模块具体用于：

根据所述情感分析结果，确定所述局部情境情感得分。

可选的，在本发明第二方面的第六种实现方式中，所述情感识别模块具体用于：

基于所述比较结果确定所述通话录音的情感状态。

本发明第三方面提供了一种客服语音情感识别设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述客服语音情感识别设备执行上述的客服语音情感识别方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的客服语音情感识别方法。

本发明提供的技术方案中，通过将通话录音文件转译为文本数据，对文本数据进行预处理后提取特征语句，分别计算文本数据的整体语境情感得分和计算特征语句的局部情境情感得分，最终根据整体语境情感得分和局部情境情感得分计算情感总得分，依据情感总得分确定情感状态，从而实现了对客服系统中客服人员服务态度的检测和识别的功能。

附图说明

图1为本发明实施例中客服语音情感识别方法的一个实施例示意图；

图2为本发明实施例中客服语音情感识别装置的一个实施例示意图；

图3为本发明实施例中客服语音情感识别设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种客服语音情感识别方法、装置、设备及存储介质，可以对客服系统中客服人员服务态度的检测和识别。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中客服语音情感识别方法的一个实施例包括：

101、获取待识别的客服电销通话录音文件，将所述通话录音文件转译为文本数据；

在本实施例中，当客服与用户进行沟通时，客服终端会记录客服人员与用户沟通的语音。客服电销通话录音文件保存于客服终端中，服务器向客服终端发送数据获取请求，客服终端响应请求，将客服电销通话录音文件发送到服务器中，服务器对所述录音文件中的语音信息进行降噪处理，之后调用讯飞接口将经过降噪处理后的语音信息转化为文本信息。

在服务器获取客服终端发送的待测通话的录音文件之前，需要根据预设的情感总得分范围，预先建立每个情感总得分与预设情感状态的对应关系，预设情感状态可以为：偏激、消极、中性、积极和友好。情感总得分与情感状态的对应关系如：情感总得分：-80~-50，偏激；情感总得分：-50~-20，消极；情感总得分：-20~30，中性；情感总得分：30~60，积极；情感总得分：60~90，友好。并且，情感总得分范围需大量数据统计，才能得到较为精确的范围。只有先建立情感总得分与情感状态的对应关系，才能在后续的具有语音情感识别的在线服务方法中，先通过计算通话录音的情感总得分，再根据预设的对应关系确定与该情感值对应的情感状态。

本实例中，所述101还包括以下步骤：

对所述通话录音文件中的语音信息进行降噪处理；

将经过降噪处理后的语音信息转化为文本数据。

降噪处理基于常见的降噪算法，其中主要分为了无监督语音降噪算法和有监督语音降噪算法。

无监督语音降噪算法包括谱减法、基于统计模型的方法、基于子空间等，其中谱减法将估计的噪声的功率谱并将其从嘈杂语音中减去，没有利用明确的语音模型，其性能在很大程度上取决于对干扰源的频谱跟踪的好坏，容易产生“无中生有”的噪声；基于统计模型的方法，语音增强问题归入到一个统计的估计框架中，如Wiener滤波、最小均方误差（MMSE）方和最大后验（MAP）法，一般需要假设语音信号和噪声信号是统计独立的，且服从特定分布，目前来说，模型参数的鲁棒估计还是一个比较困难的问题。基于子空间，假设干净的语音信号子空间和噪声子空间是正交的；这种子空间正交的假设在实际情况中，特别是短时的情冴下是非常不精确的。这类传统的降噪方法对平稳噪声的抑制效果比较显著，但是对于非平稳噪声，其往往不能得到很好的降噪效果。

有监督语音降噪算法包括基于模型的方法、深度神经网络类算法等，其中深度神经网络类算法，构造足够多的混响数据和对应干净数据进行MMSE或者其他标准下的训练得到模型。这类降噪方法对于非平稳噪声往往能得到更好的降噪效果。

在本实施例中采用这种无监督的语音降噪算法对通话录音文件中的语音信息进行了降噪处理。语音转译采用的是科大讯飞语音转译引擎，它在语音识别和多麦克风阵列语音信号处理领域内国际顶尖的技术实力，转译准确性较高。通过调用讯飞的接口将降噪处理的语音信息转化为文本信息。

102、对所述文本数据进行数据预处理，得到目标文本；

本实施例中，主要通过文本挖掘的方法进行数据的预处理，包括TF-IDF(termfrequency–inverse document frequency)计算、相关性分析、相似性计算。TF-IDF是一种用于信息检索与数据挖掘的常用加权技术，其中TF是词频，指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数的归一化，以防止它偏向长的文件；IDF是逆文本频率指数，是一个词语普遍重要性的度量，某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取以10为底的对数得到；TF-IDF技术用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

其中IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m，而其它类包含t的文档总数为k，显然所有包含t的文档数n=m+k，当m大的时候，n也大，按照IDF公式得到的IDF的值会小，就说明该词条t类别区分能力不强。但是实际上，如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征，这样的词条应该给它们赋予较高的权重，并选来作为该类文本的特征词以区别与其它类文档，这就是IDF的不足之处。

其中词频的计算方法的公式如下所示，在计算逆文档频率时需要一个语料库来模拟语言的使用环境，具体的逆文档频率计算公式如下所示。

如果一个词越常见，那么分母就越大，逆文档频率就越小越接近0。分母之所以要加1，是为了避免分母为0，即所有文档都不包含该词。log表示对得到的值取对数。

TF-IDF的计算公式参考公式三，可以看到，TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。所以，自动提取关键词的算法就很清楚了，就是计算出文档的每个词的TF-IDF值，然后按降序排列，取排在最前面的几个词。

在本实施例中通过上述计算TF-IDF的方法计算录音文本数据的TF-IDF集合，例如{0.3，0.12，0.16，0.24，0.08}，取其中TF-IDF为0.3和0.12对应的词作为关键词，例如关键词为“您好”，“感谢您”。

通过上述方法获得了关键词，下面可以对关键词做关联性分析，分析两个关联词之间的关系。本实施例中采用互信息（MI，Mutual Information）来衡量两个词的相关度，不同于相关系数，互信息并不局限于实值随机变量，它更加一般且决定着联合分布p(X,Y) 和分解的边缘分布的乘积 p(X)p(Y) 的相似程度。互信息的计算公式请参考如下公式：

其中MI越大，表示两个词之间的结合越紧密。当X,Y关联大时，MI(X,Y)大于0；当X与Y关系弱时，MI(X,Y)等于0；当MI(X,Y)小于0时，X与Y称为“互补关系”。

最后计算关键词之间的相似度，这边有多种方法可以去计算相似度，例如基于语义词典（Wordnet）的词汇相似度计算，通过调用python的工具包nltk，其中包含了wordnet词典。基于词汇的层次结构计算相似度。其中词汇相似度采用词汇所有语义相似度的最大值；再例如基于语料（Wikipedia）统计的词汇相似度计算，主要思想：利用英文维基百科语料库训练得到word-embedding（词向量），然后计算词汇相似度，分别采用了Word2vec和LDA训练得到词汇向量，具体方法包括：获取英文wikipedia数据；解压缩wikipedia数据，并利用WikiExtractor（Python 写的一个维基百科抽取器）抽取文本内容；提取文本内容；解压后将文本内容合并到一个文件中。还例如基于检索页面数量计算词汇相似度，根据google搜索返回的页面数量，利用WebJaccard计算相似度。

最后基于得到的关键词的相似度和相关度确定最终的目的关键词，本实施例中当关键词之间的相似度为[0,0.5)时，确定为弱相似关系，当相似度为[0.5,1]时确定为强相似关系；在选择关键词时选择MI>0，相似关系为弱相似关系的关键字作为目标文本。

103、确定待提取的特征，基于所述待提取的特征对所述目标文本进行特征提取操作，得到特征语句；

N-Gram是大词汇连续语音识别中常用的一种语言模型，对中文而言，称之为汉语语言模型。汉语语言模型利用上下文中相邻词间的搭配信息，可以实现到汉字的自动转换。汉语语言模型利用上下文中相邻词间的搭配信息，在需要把连续无空格的拼音、笔划，或代表字母或笔划的数字，转换成汉字串(即句子)时，可以计算出具有最大概率的句子，从而实现到汉字的自动转换，无需用户手动选择，避开了许多汉字对应一个相同的拼音(或笔划串，或数字串)的重码问题。该模型基于这样一种假设，第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。

本实例中为保证情感识别在智能客服电销应用的准确率，使用N-gram对电销语境下的短语进行捕捉，以充分保留语义语境。通过设定N-gram项参数确定待提取的特征，客服电销场景的特征有包括客户对客服语言的质疑，辱骂，排斥等表达客户情绪的短语，参数设定完成后N-gram根据待提取特征进行特征语句的提取与匹配。

104、计算所述文本数据的整体语境情感得分，以及计算所述特征语句的局部情境情感得分，并基于所述整体语境情感得分和所述局部情境情感得分计算情感总得分；

情感应该在语境中被理解，对语境理解越充分，对情感识别的准确率越高。从句子层面(局部语境)和文献层面(整体语境)两个层面来分析文本的情感。词汇库中某些词的情感表达在局部语境中计算，并参考整个语境来修正情感识别的结果。

在本实施例中，首先采用极性分析法来分析整个录音文档的情感极性，极性分析法就是对文档里的的情感词以及能够影响情感词是正向负向以及程度深浅的词语进行定义和打分，然后计算整个文档的极性置信度分数。例如指定情感词“开心”，基本得分为0.3；影响情感词是正向负向的词“不”，基本得分为0.1；程度深浅的词“非常”，基本得分为“0.2”，那么如果一篇录音文档的内容为“我感到非常不开心”，那么该文档的极性置信度分数即“开心”、“不”、“非常”的基本得分之和，即0.1+0.2+0.3=0.6，所以该录音文档的极性置信度分数为0.6，将所述的极性置信度分数作为整体语境情感得分，记为SS_W，其中SS_W的取值范围为[0,1]。

其次，在预置的情感词汇数据库的帮助下，在情感词典中对包含n-gram项的句子进行情感分析，得到局部上下文下的情感得分。本实施例中预置的情感词汇数据库为中文情感词库，采用已有的中文情感词库，构建一张情感词表，将处理后得到的单词依次与预先构建好的情感词表逐个对比筛选出对话内容的情感用词以及其情感得分(积极：0～1，消极：-1～0)，将所有的情感得分之和作为局部情境情感得分，记为SS_L，其中SS_L的取值范围为[0,1]。

最终结合整体语境情感得分SS_W与局部情境情感得分SS_L计算情感总得分SS，计算公式请参考以下公式：

105、基于所述情感总得分确定所述通话录音的情感状态。

本实施例中，通过将所述情感总得分与预设情感状态标准区间集合中的标准区间进行比较，从而确定通话录音的情感状态。其中预设情感状态可以为：偏激、消极、中性、积极和友好。情感状态标准区间集合可以为{“偏激”：[-1,-0.2),“消极”：[-0.2,0),“中性”：[0,0.2),“积极”：[0.2,0.5),“友好”：[0.5,1]}。当整体语境情感得分SS_W为0.3，局部情境情感得分SS_L为0.2，则计算得出情感总分SS为0.218，结合上述区间集合得到该通话录音的情感状态为积极。

本实施例中，将计算得到文本数据的整体语境情感得分与待测语句的局部语境情感得分之和作为情感总得分，从而通过总得分来确定情感状态，能够有效检测出客服系统中客服人员服务态度。

上面对本发明实施例中客服语音情感识别方法进行了描述，下面对本发明实施例中客服语音情感识别装置进行描述，请参阅图2，本发明实施例中客服语音情感识别装置一个实施例包括：

数据转译模块201，用于获取待识别的客服电销通话录音文件，将所述通话录音文件转译为文本数据；

预处理模块202，用于对所述文本数据进行数据预处理，得到目标文本；

特征提取模块203，用于确定待提取的特征，基于所述待提取的特征对所述目标文本进行特征提取操作，得到特征语句；

情感识别模块204，用于计算所述文本数据的整体语境情感得分，以及计算所述特征语句的局部情境情感得分，并基于所述整体语境情感得分和所述局部情境情感得分计算情感总得分；基于所述情感总得分确定所述通话录音的情感状态。

可选的，数据转译模块201还可以具体用于：

对所述通话录音文件中的语音信息进行降噪处理；

将经过降噪处理后的语音信息转化为文本数据。

可选的，预处理模块202还可以具体用于：

计算所述文本数据中单个词汇的词频和逆文档频率指数；

根据所述词频和逆文档频率指数计算TF-IDF值。

可选的，情感识别模块204还可以具体用于：

根据所述情感分析结果，确定所述局部情境情感得分。

可选的，情感识别模块204还可以具体用于：

基于所述比较结果确定所述通话录音的情感状态。

本发明实施例中，模块化的设计让客服语音情感识别装置各部位的硬件专注于某一功能的实现，最大化实现了硬件的性能，同时模块化的设计也降低了装置的模块之间的耦合性，更加方便维护。

上面图1和图2从模块化功能实体的角度对本发明实施例中的客服语音情感识别装置进行详细描述，下面从硬件处理的角度对本发明实施例中客服语音情感识别设备进行详细描述。

图3是本发明实施例提供的一种客服语音情感识别设备的结构示意图，该客服语音情感识别设备300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）310（例如，一个或一个以上处理器）和存储器320，一个或一个以上存储应用程序333或数据332的存储介质330（例如一个或一个以上海量存储设备）。其中，存储器320和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对客服语音情感识别设备300中的一系列指令操作。更进一步地，处理器310可以设置为与存储介质330通信，在客服语音情感识别设备300上执行存储介质330中的一系列指令操作。

客服语音情感识别设备300还可以包括一个或一个以上电源340，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口360，和/或，一个或一个以上操作系统331，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图3示出的客服语音情感识别设备结构并不构成对客服语音情感识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种客服语音情感识别设备，所述客服语音情感识别设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述客服语音情感识别方法的步骤。本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述客服语音情感识别方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种客服语音情感识别方法，其特征在于，所述客服语音情感识别方法包括：

对所述文本数据进行数据预处理，得到目标文本；

所述对所述文本数据进行数据预处理，得到目标文本包括：

基于所述相关度指数和相似度指数，从所述关键词集合中筛选出目标文本；

所述计算所述文本数据的整体语境情感得分包括：

基于所述情感极性指数计算所述文本数据的极性置信度指数，将所述极性置信度指数作为所述整体语境情感得分；

所述计算所述特征语句的局部情境情感得分包括：

根据所述情感分析结果，确定所述局部情境情感得分；

基于所述情感总得分确定所述通话录音的情感状态。

2.根据权利要求1所述的客服语音情感识别方法，其特征在于，所述将所述通话录音文件转译为文本数据包括：

对所述通话录音文件中的语音信息进行降噪处理；

将经过降噪处理后的语音信息转化为文本数据。

3.根据权利要求1所述的客服语音情感识别方法，其特征在于，所述计算所述文本数据中的TF-IDF值集合包括：

计算所述文本数据中单个词汇的词频和逆文档频率指数；

根据所述词频和逆文档频率指数计算TF-IDF值。

4.根据权利要求1所述的客服语音情感识别方法，其特征在于，所述基于所述情感总得分确定所述通话录音的情感状态包括：

基于所述比较结果确定所述通话录音的情感状态。

5.一种客服语音情感识别装置，执行如权利要求1-4中任意一项所述的客服语音情感识别方法，其特征在于，所述客服语音情感识别装置包括：

6.根据权利要求5所述的客服语音情感识别装置，其特征在于，所述数据转译模块具体用于：

对所述通话录音文件中的语音信息进行降噪处理；

将经过降噪处理后的语音信息转化为文本数据。

7.根据权利要求5所述的客服语音情感识别装置，其特征在于，所述预处理模块具体用于：

计算所述文本数据中单个词汇的词频和逆文档频率指数；

根据所述词频和逆文档频率指数计算TF-IDF值。

8.根据权利要求5所述的客服语音情感识别装置，其特征在于，所述情感识别模块具体用于：

基于所述比较结果确定所述通话录音的情感状态。

9.一种客服语音情感识别设备，其特征在于，所述客服语音情感识别设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述客服语音情感识别设备执行如权利要求1-4中任意一项所述的客服语音情感识别方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-4中任一项所述的客服语音情感识别方法。