CN111311327A

CN111311327A - 基于人工智能的服务评价方法、装置、设备及存储介质

Info

Publication number: CN111311327A
Application number: CN202010102176.3A
Authority: CN
Inventors: 顾艳梅; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2020-06-19
Also published as: WO2021164147A1

Abstract

本发明公开一种基于人工智能的服务评价方法、装置、设备及存储介质。该方法包括：获取服务过程中实时采集的待识别语音流；对所述待识别语音流进行身份识别，确定所述待识别语音流对应的目标身份信息；对所述待识别语音流进行文本分析，获取所述待识别语音流对应的文本分析结果；对所述待识别语音流进行情绪分析，获取所述待识别语音流对应的情绪分析结果；对所述待识别语音流对应的所述文本分析结果和所述情绪分析结果进行融合处理，获取所述目标身份信息对应的服务质量评分。该方法实现采用人工智能的技术手段实现对待识别语音流中说话人的服务质量进行客观分析，以保证获取的目标分析结果的客观性和准确性。

Description

基于人工智能的服务评价方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于人工智能的服务评价方法、装置、设备及存储介质。

背景技术

为了提升企业服务能力，充分满足客户的不同要求，企业建立相应的坐席中心，由坐席中心的坐席人员给客户提供相应的服务，以提高服务效率，避免客户到柜台办理业务存在的不便。由于坐席人员是连接客户与企业的重要纽带，坐席人员的服务质量很大程度上会影响客户对企业的满意度。当前企业内部对坐席人员的服务评价主要是根据客户对坐席人员的服务进行手动评分，客户是否评分以及具体评多少分均由客户主观决定，使得服务评价过程中客观性和准确率不高。

发明内容

本发明实施例提供一种基于人工智能的服务评价方法、装置、设备及存储介质，以解决当前服务评价过程中客观性和准确率不高的问题。

一种基于人工智能的服务评价方法，包括：

获取服务过程中实时采集的待识别语音流；

对所述待识别语音流进行身份识别，确定所述待识别语音流对应的目标身份信息；

对所述待识别语音流进行文本分析，获取所述待识别语音流对应的文本分析结果；

对所述待识别语音流进行情绪分析，获取所述待识别语音流对应的情绪分析结果；

对所述待识别语音流对应的所述文本分析结果和所述情绪分析结果进行融合处理，获取所述目标身份信息对应的服务质量评分。

一种基于人工智能的服务评价装置，包括：

待识别语音流获取模块，用于获取服务过程中实时采集的待识别语音流；

目标身份信息获取模块，用于对所述待识别语音流进行身份识别，确定所述待识别语音流对应的目标身份信息；

文本分析结果获取模块，用于对所述待识别语音流进行文本分析，获取所述待识别语音流对应的文本分析结果；

情绪分析结果获取模块，用于对所述待识别语音流进行情绪分析，获取所述待识别语音流对应的情绪分析结果；

服务质量评分获取模块，用于对所述待识别语音流对应的所述文本分析结果和所述情绪分析结果进行融合处理，获取所述目标身份信息对应的服务质量评分。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于人工智能的服务评价方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于人工智能的服务评价方法。

上述基于人工智能的服务评价方法、装置、设备及存储介质，通过对服务过程中实时采集的待识别语音流进行身份识别，以确定其对应的目标身份信息，从而实现对未知说话人对应的待识别语音流进行身份识别。通过对待识别语音流进行文本分析和情绪分析，分别获取文本分析结果和情绪分析结果，再对文本分析结果和情绪分析结果进行融合处理，获取目标身份信息对应的服务质量评分，以实现采用人工智能的技术手段实现对待识别语音流中说话人的服务质量进行客观分析，以保证获取的目标分析结果的客观性和准确性，避免人为主观评价的不足。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中基于人工智能的服务评价方法的一应用环境示意图；

图2是本发明一实施例中基于人工智能的服务评价方法的一流程图；

图3是本发明一实施例中基于人工智能的服务评价方法的另一流程图；

图4是本发明一实施例中基于人工智能的服务评价方法的另一流程图；

图5是本发明一实施例中基于人工智能的服务评价方法的另一流程图；

图6是本发明一实施例中基于人工智能的服务评价方法的另一流程图；

图7是本发明一实施例中基于人工智能的服务评价方法的另一流程图；

图8是本发明一实施例中基于人工智能的服务评价装置的一示意图；

图9是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的基于人工智能的服务评价方法，该基于人工智能的服务评价方法可应用如图1所示的应用环境中。具体地，该基于人工智能的服务评价方法应用在基于人工智能的服务评价系统中，该基于人工智能的服务评价系统包括如图1所示的客户端和服务器，客户端与服务器通过网络进行通信，用于对坐席人员给客户提供服务过程中采集的录音进行客观分析，以保证服务评价的客观性和准确性。其中，客户端又称为用户端，是指与服务器相对应，为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种基于人工智能的服务评价方法，该基于人工智能的服务评价方法应用在图1所示的服务器中，包括如下步骤：

S201：获取服务过程中实时采集的待识别语音流。

其中，待识别语音流是指进行服务评价所采用的语音流。该待识别语音流可以是坐席人员给客户提供服务过程中实时录制的语音流，具体是服务评价进行信息处理的对象。

作为一示例，坐席人员通过电话销售系统给客户提供服务，在服务过程中，电话销售系统上的录音模块实时采集坐席人员给客户提供服务过程中的待识别语音流，将该待识别语音流发送给服务评价系统或者存储在数据库中；相应地，服务评价系统的服务器可接收录音模块实时录制的待识别语音流，也可以从数据库中获取需要进行服务评价的待识别语音流，使得坐席人员的每一次服务均可采集到相应的待识别语音流并进行后续服务评价。

可以理解地，服务器获取坐席人员给客户提供服务过程中实时录制的待识别语音流并进行后续服务评价，使得其服务评价过程不受限于客户是否进行评分，保证用于进行服务评价的对象的完整性，保证服务评价过程的客观性和准确性。

S202：对待识别语音流进行身份识别，确定待识别语音流对应的目标身份信息。

其中，对待识别语音流进行身份识别是用于识别待识别语音流对应的说话人的身份。目标身份信息是基于待识别语音流识别出的说话人的身份信息。

作为一示例，对待识别语音流进行身份识别，确定待识别语音流对应的目标身份信息，具体可以包括如下步骤：对待识别语音流进行声纹特征提取，获取待识别声纹特征，将待识别声纹特征与数据库中每一坐席人员对应的标准声纹特征进行相似度计算，获取声纹相似度，将声纹相似度最大的标准声纹特征对应的身份信息确定为目标身份信息。其中，待识别声纹特征是采用预先训练好的声纹提取模型对待识别语音流进行声纹提取所获取的声纹特征。标准声纹特征是采用预先训练好的声纹提取模型对某一坐席人员的标准语音流进行声纹提取所获取的声纹特征。标准语音流是携带坐席人员的身份信息的语音流，使得所提取的标准声纹特征与坐席人员的身份信息相关联。该声纹提取模型可以是但不限于高斯混合模型。

可以理解地，服务器在获取服务过程中实时采集的待识别语音流之后，对待识别语音流进行身份识别，以确定该待识别语音流对应的目标身份信息，以实现机器分析该待识别语音流对应的目标身份信息，保证坐席人员对应的待识别语音流与其目标身份信息的一致性，可实现对未知身份的坐席人员进行身份识别。

S203：对待识别语音流进行文本分析，获取待识别语音流对应的文本分析结果。

其中，文本分析结果是用于对待识别语音流对应的文本内容进行分析所得到的反映服务质量的结果。

作为一示例，服务器可预先训练一用于分析文本内容对应的说话人情绪的文本分析模型，文本分析模型可以是采用神经网络模型对携带不同情绪标签的训练文本数据进行模型训练后获取的模型，可采用该文本分析模型对待识别语音流提取出的待识别文本信息进行情绪分析，以获取文本分析结果，其处理过程效率较高，其分析结果客观性较强。

S204：对待识别语音流进行情绪分析，获取待识别语音流对应的情绪分析结果。

其中，情绪分析结果是用于对待识别语音流进行情绪分析所获取的结果。作为一示例，服务评价系统中预先存储有语音情绪识别模型，该语音情绪识别模型是预先训练好的用于对语音流进行情绪识别的模型。服务器采用预先训练好的语音情绪识别模型对电话销售系统上的录音模块实时采集的待识别语音流进行情绪识别，其过程可通过机器实现，以保证识别出的目标分析结果的客观性和准确性。

S205：对待识别语音流对应的文本分析结果和情绪分析结果进行融合处理，获取目标身份信息对应的服务质量评分。

其中，服务质量评分是基于待识别语音流进行分析所确定的服务评分。对待识别语音流对应的文本分析结果和情绪分析结果进行融合处理是指将文本分析结果和情绪分析结果结合，获取可客观反应待识别语音流对应的坐席人员的服务质量的服务质量评分。

作为一示例，文本分析结果和情绪分析结果匀可以包括至少两种结果类型，如好评和差评，或者1星评分至5星评分等，服务评价系统预先存储不同文本分析结果和情绪分析结果对应的评分分值对照表。服务器在获取每一待识别语音流对应的文本分析结果和情绪分析结果之后，可基于该文本分析结果和情绪分析结果查询评分分值对照表，以确定其对应的服务质量评分，使得所获取的服务质量评分综合考虑待识别语音流对应的文本分析结果和情绪分析结果，有利于保障服务质量评分的客观性和准确性。

本实施例所提供的基于人工智能的服务评价方法中，通过对待识别语音流进行身份识别，以确定其对应的目标身份信息，从而实现对未知说话人对应的待识别语音流进行身份识别。通过对待识别语音流进行文本分析和情绪分析，分别获取文本分析结果和情绪分析结果，再对文本分析结果和情绪分析结果进行融合处理，获取目标身份信息对应的服务质量评分，以实现采用人工智能的技术手段实现对待识别语音流中说话人的服务质量进行客观分析，以保证获取的目标分析结果的客观性和准确性，避免人为主观评价的不足。

在一实施例中，在坐席人员给客户提供服务过程中，其可能采集到“嗯”、“好的”或者其他较简短的待识别语音流，这些较简短的待识别语音流在身份识别和情绪识别过程中，识别准确性较低，因此，在步骤S201之后，即在获取服务过程中实时采集的待识别语音流之后，基于人工智能的服务评价方法还包括：获取待识别语音流对应的语音时长，若语音时长大于时长阈值，则执行对待识别语音流进行身份识别，确定待识别语音流对应的目标身份信息。

其中，待识别语音流对应的语音时长是指待识别语音流对应的说话时长。作为一示例，该语音时长是坐席人员给客户提供服务过程中实时录制的待识别语音流对应的说话时长，是坐席人员给客户提供服务的服务时长。时长阈值是指预先设置的用于评估时长是否达到作为服务评价的对象的阈值。

本实施例中，服务器在获取服务过程中实时采集的待识别语音流后，需确定每一待识别语音流对应的语音时长，将该语音时长与系统预先设置的时长阈值进行比较；若语音时长大于时长阈值，则执行对待识别语音流进行身份识别，确定待识别语音流对应的目标身份信息及以后的步骤，即执行步骤S202-S205；若语音时长不大于时长阈值，则不执行执行对待识别语音流进行身份识别，确定待识别语音流对应的目标身份信息及以后的步骤，即不执行后续步骤S202-S205。

本实施例所提供的基于人工智能的服务评价方法中，只对语音时长大于时长阈值的待识别语音流进行后续的身份识别和情绪识别，以保证后续身份识别和情绪识别的准确性，避免语音时长较短的待识别语音流的识别结果不准确而影响服务评价；可以理解地，若待识别语音流的语音时长不大于时长阈值，则服务器不对该待识别语音流进行后续识别处理，可有效减少后续识别的数据量，提高后续识别的处理效率。

在一实施例中，步骤S202，即对待识别语音流进行身份识别，确定待识别语音流对应的目标身份信息，具体包括如下步骤：

S301：对待识别语音流进行特征提取，获取待识别语音流对应的MFCC特征和Pitch特征。

其中，MFCC(Mel-scale Frequency Cepstral Coefficients，梅尔倒谱系数)是在Mel标度频率域提取出来的倒谱参数，Mel标度描述了人耳频率的非线性特性，它与频率的关系可用下式近似表示

作为一示例，服务器在获取服务过程中实时采集的待识别语音流之后，对待识别语音流进行预加重、分帧、加窗、快速傅里叶变换、三角带通滤波器滤波、对数运算和离散余弦变换处理，以获取MFCC特征。

Pitch特征是与声音的基频fundamental frequency(F0)有关的特征，反应的是音高的信息，即声调。计算F0也被称为pitch detection algorithms(PDA)。作为一示例，系统预先存储有基音检测算法(Pitch detection algorithm)，该基音检测算法可以估计周期性信号的音高或基本频率，广泛地应用于语音信号与音乐信号中，算法可分为时域和频域两种方法。服务器在获取服务过程中实时采集的待识别语音流之后，采用预先存储的基音检测算法对待识别语音流进行特征提取，以获取Pitch特征。

在实际测试过程中，研发人员发现相同性别的人说话所形成的语音较难区分，若仅提取MFCC特征进行后续身份识别，可能使得其识别结果不够准确；因此，在对待识别语音流进行特征提取时，服务器不仅提取MFCC特征，还提取Pitch特征，Pitch特征可以较好地体现说话人的声调和韵律信息，使得同性之间的语音更有区分度，有助于提高后续基于待识别语音流提取的特征进行身份识别的准确性。

S302：对MFCC特征和Pitch特征进行拼接处理，获取目标特征向量。

其中，对MFCC特征和Pitch特征进行拼接处理是指将MFCC特征和Pitch特征所有维度进行拼接，以形成目标特征向量。目标特征向量是指MFCC特征和Pitch特征经过拼接处理后形成的特征向量。

作为一示例，服务器在对待识别语音流进行特征提取，获取32维的MFCC特征和32维的Pitch特征；再将32维的MFCC特征和32维的Pitch特征拼接形成64维度的目标特征向量，以使拼接之后的目标特征向量既包含MFCC特征的信息，又包含Pitch特征的信息，使得目标特征向量的信息量更大，更有助于提高后续身份识别的准确率。

S303：采用基于时延神经网络的身份特征识别模型对目标特征向量进行处理，获取身份特征信息，身份特征识别模型上设有用于对隐含层输入的特征进行均值和标准差计算的汇总池化层。

其中，基于时延神经网络的身份特征识别模型是预先采用时延神经网络对训练样本进行模型训练后得到的模型。其中，时延神经网络(Time-Delay Neural Network，简称TDNN)可适应语音信号中的动态时域变化，并且该结构参数较少，进行语音识别不需要预先将音标与音频在时间线上进行对齐，主要考虑时序信号的上下文信息，有助于保障识别结果的准确性和处理效率。训练样本包括训练语音和与训练语音相对应的说话人标签。

传统的TDNN包括输入层、第一隐含层、第二隐含层和输出层。本实施例中，预先根据服务评价系统的需求搭建输入层、第一隐含层、第二隐含层和输出层，并在第二隐含层与输出层之间搭建用于对隐含层输入的特征进行均值和标准差计算的汇总池化层(Stattistic Pooling)。该汇总池化层计算均值向量μ以及二阶统计量作为帧级特征h_t(t＝1,...,T)上的标准差向量σ，将标准差向量σ作为汇总池化层的输出，输出层的输入。其中，均值向量

标准差向量

⊙为同或运算符。

本实施例中，采用在第二隐含层与输出层之间设置有汇总池化层的时延神经网络训练所得的身份特征识别模型对目标特征向量进行处理，获取身份特征信息，使得汇总池化层可对目标特征向量经过第一隐含层和第二隐含层进行处理所获取的均值向量μ和标准差向量σ，以便在输出层对均值向量μ和标准差向量σ进行处理，以提取输出的身份特征信息的准确性。

S304：将身份特征信息与数据库中每一坐席人员对应的标准特征信息进行相似度计算，获取特征相似度，基于特征相似度确定待识别语音流对应的目标身份信息。

其中，数据库是用于存储服务评价过程中采用或生成的数据的数据库，该数据库与服务器相连，以使服务器可访问数据库。

标准特征信息是预先存储在数据库中的与坐席人员的身份标签相对应的特征信息。作为一示例，可预先将每一坐席人员对应的标准语音流输入到步骤S303中的基于时延神经网络的身份特征识别模型进行处理，以获取相应的标准特征信息，该标准特征信息与坐席人员对应的身份标签关联，可基于获取的标准特征信息进行后续的身份识别。

其中，特征相似度是指采用预先设置的相似度算法对身份特征信息和标准特征信息进行相似度计算所获得的具体值。作为一示例，该相似度算法包括但不限于余弦相似度算法。

其中，基于特征相似度确定待识别语音流对应的目标身份信息，是指从身份特征信息与数据库中至少一个标准特征信息分别进行相似度计算所获取的至少一个特征相似度中，基于特征相似度最大的一个标准特征信息对应的身份标签，确定为待识别语音流对应的目标身份信息。

本实施例所提供的基于人工智能的服务评价方法中，对待识别语音流提取出的MFCC特征和Pitch特征进行拼接处理，使得所获取的目标特征向量信息量更大，更有助于保障后续身份识别的准确性；采用基于时延神经网络的身份特征识别模型对目标特征向量进行处理，且身份特征识别模型上设有用于对隐含层输入的特征进行均值和标准差计算的汇总池化层，使得其处理过程充分考虑目标特征向量的上下文信息，且输出层对均值和标准差处理后的输出进行处理，既有助于保障识别结果的处理效率，又保障其识别结果的准确性。在基于身份特征信息与标准特征信息进行相似度计算，以根据特征相似度确定待识别语音流对应的目标身份信息，以保证目标身份信息确定的客观性。

在一实施例中，如图4所示，步骤S203，即对待识别语音流进行文本分析，获取待识别语音流对应的文本分析结果，具体包括如下步骤：

S401：采用语音识别模型对待识别语音流进行文本识别，获取待识别文本信息。

其中，语音识别模型是预先训练好的用于识别语音中文本内容的模型。作为一示例，该语音识别模型可以是预先采用训练语音数据和训练文本数据进行模型训练获取的用于识别语音中文本内容的语音静态解码网络，该语音静态解码网络在解码过程中将搜索空间全部展开，因此，其在文本识别时，解码速度快，采用该语音静态解码网络对待识别语音流进行文本识别，可快速获取对应的待识别文本信息。该待识别文本信息是从待识别语音流中识别出的文本内容。

S402：对待识别文本信息进行敏感词分析，获取敏感词分析结果。

其中，该敏感词分析结果是用于反映待识别文本信息中是否存在敏感词以及存在的敏感词对服务评价的影响的结果。

具体地，对待识别文本信息进行敏感词分析过程包括如下步骤：基于待识别文本信息查询敏感词库，获取待识别文本信息中的敏感词数量，根据敏感词数量确定敏感词分析结果。敏感词库中预先存储坐席人员在服务过程中的敏感词，以便在服务评价过程中对待识别文本信息进行敏感词分析，获取敏感词分析结果。

作为一示例，可基于敏感词数量与系统预先设置的第一数量阈值进行比较，确定敏感词分析结果。该第一数量阈值是预先设置的用于评估敏感词分析好坏结果的数值。作为另一示例，可基于敏感词数量查询敏感词分值表，确定敏感词分析结果。该敏感词分值表是预先存储的用于反应敏感词数量及对应的评分分值或评分结果的信息表。

S403：对待识别文本信息进行语气分析，获取语气分析结果。

其中，语气分析结果是用于反映待识别文本信息中说话人语气对应的分析结果。

具体地，对待识别文本信息进行语气分析包括如下步骤：采用语音分析器对待识别文本信息进行分析，获取识别语气，基于识别语气查询服务评价信息表，获取语气分析结果。其中，语气分析器(Tone Analyzer)是用于分析语言文字，以确定其中蕴含的语气的分析器。该语气分析器可以采用IBM的Watson语气分析器。该识别语气是采用语气分析器从待识别文本信息中识别出的说话人语气。服务评价信息表中预先存储不同评分标准及对应的情绪识别结果的对应关系，该评分标准包含多个与语气相关的评判条件，如语气平淡，无激情、语气僵硬，显示冷淡和以不屑、不满的语气向客户发出提问，例如“这个问题我刚才不是给您说过了吗？”和“您难道连这都需要我再解释吗？”等，服务器在采用语气分析器对待识别文本信息进行分析，确定识别语气之后，基于识别语气查询服务评价信息表，以获取相应的语气分析结果。

S404：基于敏感词分析结果和语气分析结果，获取待识别语音流对应的文本分析结果。

作为一示例，若敏感词分析结果和语气分析结果均为不同评价等级对应的分析结果，则可基于敏感词分析结果和语气分析结果查询系统预先存储的文本分析对照表，获取服务过程中实时采集的待识别语音流对应的文本分析结果。其中，文本分析对照表是系统预先设置的用于反映不同敏感词分析结果和语气分析结果的组合与分析结果之间对应关系的数据表，以便在确定敏感词分析结果和语气分析结果之后，可快速查表确定相应的文本分析结果。

作为另一示例，若敏感词分析结果和语气分析结果均为具体分值时，如敏感词分析结果为80分，而语气分析结果为76分时，可对敏感词分析结果和语气分析结果进行归一化处理，以获取敏感词归一化结果和语气归一化结果，以将有量纲表达式变为无量纲表达式；再采用文本分析加权算法对敏感词归一结果和语气归一化结果进行计算，获取服务过程中实时采集的待识别语音流对应的文本分析结果，使得文本分析结果可采用量化特征表示。例如，文本分析加权算法为P＝p1*w1+p2*w2，P为文本分析结果，p1为敏感词分析结果，w1为敏感词分析权重，p2为语气分析结果，w2为语气分析权重。该敏感词分析权重w1和语气分析权重w2为服务评价系统预先设置的权重。

本实施例所提供的基于人工智能的服务评价方法中，采用语音识别模型对待识别语音流进行文本识别，以将语音信息转换成文本信息，为后续进行敏感词和语气分析提供技术保障；再分析对待识别文本信息进行敏感词分析和语气分析，根据获取的敏感词分析结果和语气分析结果，确定待识别语音流对应的文本分析结果，使得文本分析结果综合考虑待识别文本信息中的敏感词和说话人语气这两个维度对服务质量进行评价，保障获取的文本分析结果的客观性和准确性。

在一实施例中，如图5所示，步骤S403，即采用语音情绪识别模型对待识别语音流分析，获取情绪分析结果，具体包括如下步骤：

S501：对待识别语音流进行语音分段，获取至少两个目标语音段。

其中，目标语音段是对待识别语音流进行分段所形成的语音片段。

作为一示例，服务器采用语音激活检测算法对待识别语音流进行检测，以检测待识别语音流中每一个停顿点对应的停顿时间，将停顿时间大于预设时长阈值的停顿点确定为语音分段点，基于语音分段点对待识别语音流进行语音分段，获取至少两个目标语音段，以便后续基于目标语音段进行后续的情绪识别和语速计算，为并行处理提供技术基础，且有助于保障后续分析处理的效率。

S502：采用语音情绪识别模型对每一目标语音段进行情绪识别，获取每一目标语音段对应的识别情绪。

其中，语音情绪识别模型是预先训练好用于识别语音中说话人情绪的模型。作为一示例，该语音情绪识别模型具体可以是PAD情感模型，该模型将为情感具有愉悦度、激活度和优势度3个维度，其中P代表愉悦度(Pleasure-displeasure)，表示个体情感状态的正负特性；A代表激活度(Arousal-nonarousal)，表示个体的神经生理激活水平；D代表优势度(Dominance-submissiveness)，表示个体对情景和他人的控制状态。识别情绪是采用语音情绪识别模型对每一目标语音段进行情绪识别所输出的结果。

S503：计算每一目标语音段对应的识别语速。

其中，目标语音段对应的识别语速是指目标语音段对应的说话字数和语音时长的商，用于反应单位时间内说话字数的多少。作为一示例，由于对待识别语音流进行文本分析时，已经采用语音识别模型对待识别语音流进行文本识别，获取整个待识别语音流对应的待识别文本信息，因此，在对待识别语音流进行语音分段时，可基于每一目标语音段中的第一帧数据和最后一帧数据对应的时间戳，确定语音时长；并基于第一帧数据和最后一帧数据对应的时间戳确定待识别文本信息中的相应位置，从而确定目标语音段对应的说话字数，以便利用说话字数与语音时长，确定每一目标语音段对应的识别语速。可以理解地，根据文本分析过程中获取的待识别文本信息，可快速计算目标语音段对应的识别语速，提高识别语速的获取效率。

一般来说，坐席人员在给客户提供服务过程中，若说话语速越快，则说明坐席人员越急躁，使得客户对坐席人员提供的服务的满意度越差，因此，坐席人员的说话语速可以作为评价其服务质量的一个情绪分析维度，所以需计算每一目标语音段对应的识别语速。

S504：基于至少两个目标语音段对应的识别语速和识别情绪，获取待识别语音流对应的情绪分析结果。

具体地，服务器可基于至少两个目标语音段对应的识别语速和识别情绪这两个情绪分析维度进行情绪分析，获取由至少两个目标语音段组成的待识别语音流对应的情绪分析结果，使得所获取的情绪分析结果更具有客观性和准确性。作为一示例，可以将至少两个目标语音段对应的识别语速和识别情绪分别转换为相应的分值，再进行加权处理，即可获取服务过程中实时采集的待识别语音流对应的情绪分析结果。

本实施例所提供的基于人工智能的服务评价方法中，通过将待识别语音流划分至少两个目标语音段，为后续分析至少两个目标语音段对应的语速变化和情绪变化提供技术基础。再对每一目标语音段进行分析，以确定其对应的识别语速和识别情绪，利用识别语速和识别情绪这两个维度数据对服务质量进行评价，保障获取的情绪分析结果的客观性和准确性。

在一实施例中，如图6所示，步骤S502，即采用语音情绪识别模型对每一目标语音段进行情绪识别，获取每一目标语音段对应的识别情绪，具体包括如下步骤：

S601：对每一目标语音段进行特征提取，获取目标语音段对应的语谱图特征和TEO特征。

其中，语谱图就是语音频谱图，是对有足够时间长度的时域信号进行处理进行处理所获得的一种频谱分析视图，语谱图的横坐标是时间，纵坐标是频率，坐标点值为语音数据能量。语谱图特征是基于语谱图提取的特征。

作为一示例，服务器在获取目标语音段后，基于目标语音段获取相应的语谱图；再对语谱图进行归一化处理，得到归一化后的语谱图灰度图像；然后，计算不同尺度、不同方向的Gabor图谱，并采用局部二值模式提取Gabor图谱的纹理特征；最后，将不同尺度、不同方向Gabor图谱提取到的局部二值模式对应的纹理特征进行级联，以获取相应的语谱图特征。该语谱图特征作为一种语音情感特征，相比传统的韵律特征、频域特征和音质特征，在进行情感识别时，情感识别结果更准确。

其中，TEO(Teager Energy Operator，即Teager能量算子)是一个非线性算子，能够跟踪信号的瞬时能量，是科学家H.M.Teager在研究非线性语音建模时，提出的一种简单的信号分析算法。TEO特征是采用TEO对目标语音段进行分析获取的基频特征，由于Teager能量算子的特性使得目标语音段所提取的TEO特征在噪声环境下具有较好的稳定性，提高其可区分度，因此，TEO特征的抗噪声性能良好。

S602：对语谱图特征和TEO特征进行拼接，获取目标语音段对应的目标识别特征。

其中，对语谱图特征和TEO特征进行拼接处理是指将语谱图特征和TEO特征的所有维度进行拼接，以形成目标识别特征。目标识别特征是指语谱图特征和TEO特征经过拼接处理后形成的特征。

作为一示例，服务器在对目标语音段进行特征提取时，可获取1024维的语谱图特征和20维的TEO特征；再将1024维的语谱图特征和20维的TEO特征拼接成1044维的目标识别特征，以使拼接之后的目标识别特征既包含语谱图特征的信息，又包含TEO特征的信息，使得目标识别特征的信息量更大，由于目标识别特征包含TEO特征的信息，使其在噪声环境下具有较好的稳定性，使得最终形成的目标识别特征也具有相应的抗噪声性能。有助于提高后续识别的准确性。

S603：采用语音情绪识别模型对每一目标语音段对应的目标识别特征进行情绪识别，获取每一目标语音段对应的识别情绪。

其中，语音情绪识别模型是预先训练好用于识别语音中说话人情绪的模型。作为一示例，预先训练语音情绪识别模型的过程包括如下步骤：(1)获取语音时长大于预设时长的原始语音，每一原始语音携带相应的情绪标签，其中，预设时长是采用语谱图进行特征处理的最小时长，原始语音的语音时长大于预设时间，可保证后续进行语谱图特征提取的可行性。(2)对原始语音进行特征提取，获取原始语音对应的语谱图特征和TEO特征，并将原始语音对应的语谱图特征和TEO特征拼接形成训练样本。该训练样本是指将原始语音对应的语谱图特征和TEO特征拼接后形成的训练特征，该训练特征与原始语音的情绪标签相对应。训练样本获取过程中的特征提取和特征拼接处理过程与上述步骤S602和S603一致，为避免重复，此处不一一赘述。(3)将训练样本输入到神经网络模型进行模型训练，以更新神经网络模型中的网络参数，从而获取语音情绪识别模型，该语音情绪识别模型的训练样本结合语谱图特征和TEO特征的信息，使其相比于传统的韵律特征、频域特征和音质特征，在进行情感识别时，情感识别结果更准确；而且，具备TEO特征的抗噪声性，使得后续采用语音情绪识别模型对目标识别特征进行情绪识别时，抗噪声性能良好，有助于提高出的识别情绪的准确性。

本实施例所提供的基于人工智能的服务评价方法中，在对每一目标语音段进行情绪识别时，对目标语音段提取出的语谱图特征和TEO特征进行拼接处理，使得所获取的目标识别特征的信息量更大，有助于保障后续情绪识别的准确性和抗噪声性。将目标语音段确定的目标识别特征输入语音情绪识别模型进行识别，可快速获取该目标语音段对应的识别情绪，使得所获取的识别情绪的准确性更高且抗噪声性更高。

在一实施例中，如图7所示，步骤S504，即基于至少两个目标语音段对应的识别语速和识别情绪，获取待识别语音流对应的情绪分析结果，具体包括如下步骤：

S701：基于当前目标语音段的识别语速、上一目标语音段的识别语速和当前目标语音段的识别情绪，获取当前目标语音段对应的目标情绪。

其中，当前目标语音段是指当前时刻需要进行分析的目标语音段。上一目标语音段是指对待识别语音流进行语音分段后的至少两个目标语音段中，在当前目标语音段之前的一个目标语音段。当前目标语音段对应的目标情绪是指综合考虑前后两个目标语音段的识别语速以及当前目标识别语音段对应的识别情绪，确定的用于进行后续分析的当前目标语音段对应的目标情绪。

作为一示例，上述步骤S701具体包括如下步骤：(1)若不存在上一目标语音段，则基于当前语音段对应的识别情绪，获取当前目标语音段对应的目标情绪。即当前目标语音段为第一个目标语音段，此时，若当前目标语音段为消极情绪，则当前目标语音段的目标情绪为消极情绪；若当前目标语音段为积极情绪，则当前目标语音段的目标情绪为积极情绪。(2)若存在上一目标语音段，则在当前目标语音段的识别语速大于上一目标语音段的识别语速，且当前目标语音段的识别情绪为消极情绪时，将当前目标语音段对应的目标情绪确定为为消极情绪。(2)若存在上一目标语音段，则在当前目标语音段的识别语速不大于上一目标语音段的识别语速时，或者在当前目标语音段的识别语速大于上一目标语音段的识别语速，且当前目标语音段的识别情绪为积极情绪时，将当前目标语音段对应的目标情绪为积极情绪。本示例中，只将目前目标语音段的识别语速比上一目标识别语音段稳步上升，且当前目标语音段的识别情绪为消极情绪时，才将该当前目标语音段的目标情绪确定为消极情绪，其他情绪均为积极情绪，使得所确定的目标情绪综合考虑识别情绪及语速等信息，有助于提高后续分析的准确性。

S702：基于至少两个当前目标语音段对应的目标情绪，获取待识别语音流对应的消极情绪数量。

一般来说，目标情绪可以是积极情绪和消极情绪，积极情绪是指积极的心理态度或状态对应的情绪，是一种良性、正向、稳定和建设性的心理状态对应的情绪，包括但不限于喜爱、开心、乐观、信任、可接受和惊喜等情绪。消极情绪是指在某种具体行为中，由外因或内因影响而产生的不利于继续完成工作或者正常的思考的情感，其与积极情绪相对，包括但不限于厌恶、讨厌、反对、不满、无视和蔑视等情绪。

在坐席人员给客户提供服务过程中，若通话过程中坐席人员的情绪为消极情绪，容易使得其说话时携带相应的消极情绪，影响客户对坐席人员的服务满意度，因此，在对坐席人员进行服务评价时，需考核坐席人员在给客户提供服务过程中是否传递消极情绪，故需统计每一待识别语音流对应的消极情绪数量。该消极情绪数量是指至少两个当前目标语音段的目标情绪为消极情绪的数量。

S703：基于待识别语音流对应的消极情绪数量，获取待识别语音流对应的情绪分析结果。

作为一示例，基于待识别语音流对应的消极情绪数量，获取待识别语音流对应的情绪分析结果，包括：若待识别语音流对应的消极情绪数量大于第二数量阈值，则获取的情绪分析结果为消极情绪；若待识别语音流对应的消极情绪数量不大于第二数量阈值，则获取的情绪分析结果为积极情绪。该第二数量阈值是预先设置的数值。

作为一示例，基于待识别语音流对应的消极情绪数量，获取待识别语音流对应的情绪分析结果，包括：基于待识别语音流对应的消极情绪数量计算消极情绪概率，若消极情绪概率大于预设概率阈值，则获取的情绪分析结果为消极情绪；若消极情绪概率不大于预设概率阈值，则获取的情绪分析结果为积极情绪。其中，消极情绪概率是指消极情绪数量与所有目标语音段的数量的比值。预设概率阈值是预先设置的概率值。

作为一示例，基于待识别语音流对应的消极情绪数量，获取待识别语音流对应的情绪分析结果，包括：基于待识别语音流对应的消极情绪数量查询情绪分值对照表，获取待识别语音流对应的情绪分析结果，该情绪分值对照表是用于存储不同消极情绪数量对应的情绪评分值的数据表。

本实施例所提供的基于人工智能的服务评价方法中，每一当前目标语音对应的目标情绪需综合考虑识别情绪和前后两个目标语音段的识别语速，有助于提高后续分析的准确性。依据至少两个当前目标语音段对应的目标情绪，确定待识别语音流对应的消极情绪数量，基于消极情绪数量获取情绪分析结果，使得其情绪分析结果综合考虑语速和消极情绪这两种影响服务质量的关键维度，有助于提高服务评价的客观性和准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种基于人工智能的服务评价装置，该基于人工智能的服务评价装置与上述实施例中基于人工智能的服务评价方法一一对应。如图8所示，该基于人工智能的服务评价装置包括待识别语音流获取模块801、目标身份信息获取模块802、文本分析结果获取模块803、情绪分析结果获取模块804和服务质量评分获取模块805。各功能模块详细说明如下：

待识别语音流获取模块801，用于获取服务过程中实时采集的待识别语音流。

目标身份信息获取模块802，用于对待识别语音流进行身份识别，确定待识别语音流对应的目标身份信息。

文本分析结果获取模块803，用于对待识别语音流进行文本分析，获取待识别语音流对应的文本分析结果。

情绪分析结果获取模块804，用于对待识别语音流进行情绪分析，获取待识别语音流对应的情绪分析结果。

服务质量评分获取模块805，用于对待识别语音流对应的文本分析结果和情绪分析结果进行融合处理，获取目标身份信息对应的服务质量评分。

优选地，在获取服务过程中实时采集的待识别语音流之后，基于人工智能的服务评价装置还包括：语音时长判断处理模块，用于获取待识别语音流对应的语音时长，若语音时长大于时长阈值，则执行对待识别语音流进行身份识别，确定待识别语音流对应的目标身份信息。

优选地，目标身份信息获取模块802包括：

语音流特征提取单元，用于对待识别语音流进行特征提取，获取待识别语音流对应的MFCC特征和Pitch特征。

目标特征向量获取单元，用于对MFCC特征和Pitch特征进行拼接处理，获取目标特征向量。

身份特征信息获取单元，用于采用基于时延神经网络的身份特征识别模型对目标特征向量进行处理，获取身份特征信息，身份特征识别模型上设有用于对隐含层输入的特征进行均值和标准差计算的汇总池化层。

目标身份信息获取单元，用于将身份特征信息与数据库中每一坐席人员对应的标准特征信息进行相似度计算，获取特征相似度，基于特征相似度确定待识别语音流对应的目标身份信息。

优选地，文本分析结果获取模块803包括：

文本信息获取单元，用于采用语音识别模型对待识别语音流进行文本识别，获取待识别文本信息。

敏感词分析结果获取单元，用于对待识别文本信息进行敏感词分析，获取敏感词分析结果。

语气分析结果获取单元，用于对待识别文本信息进行语气分析，获取语气分析结果。

文本分析结果获取单元，用于基于敏感词分析结果和语气分析结果，获取待识别语音流对应的文本分析结果。

优选地，情绪分析结果获取模块804包括：

目标语音段获取单元，用于对待识别语音流进行语音分段，获取至少两个目标语音段。

识别情绪获取单元，用于采用语音情绪识别模型对每一目标语音段进行情绪识别，获取每一目标语音段对应的识别情绪。

识别语速计算单元，用于计算每一目标语音段对应的识别语速。

情绪分析结果获取单元，用于基于至少两个目标语音段对应的识别语速和识别情绪，获取待识别语音流对应的情绪分析结果。

优选地，识别情绪获取单元包括：

语音段特征提取子单元，用于对每一目标语音段进行特征提取，获取目标语音段对应的语谱图特征和TEO特征。

目标识别特征获取子单元，用于对语谱图特征和TEO特征进行拼接，获取目标语音段对应的目标识别特征。

识别情绪获取子单元，用于采用语音情绪识别模型对每一目标语音段对应的目标识别特征进行情绪识别，获取每一目标语音段对应的识别情绪。

优选地，情绪分析结果获取单元包括：

目标情绪获取子单元，用于基于当前目标语音段的识别语速、上一目标语音段的识别语速和当前目标语音段的识别情绪，获取当前目标语音段对应的目标情绪。

消极情绪数量获取子单元，用于基于至少两个当前目标语音段对应的目标情绪，获取待识别语音流对应的消极情绪数量。

情绪分析结果获取子单元，用于基于待识别语音流对应的消极情绪数量，获取待识别语音流对应的情绪分析结果。

关于基于人工智能的服务评价装置的具体限定可以参见上文中对于基于人工智能的服务评价方法的限定，在此不再赘述。上述基于人工智能的服务评价装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行基于人工智能的服务评价方法过程中采用或生成的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于人工智能的服务评价方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中基于人工智能的服务评价方法，例如图2所示S201-S205，或者图2至图7中所示，为避免重复，这里不再赘述。或者，处理器执行计算机程序时实现基于人工智能的服务评价装置这一实施例中的各模块/单元的功能，例如图8所示的待识别语音流获取模块801、目标身份信息获取模块802、文本分析结果获取模块803、情绪分析结果获取模块804和服务质量评分获取模块805的功能，为避免重复，这里不再赘述。

在一实施例中，提供一计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中基于人工智能的服务评价方法，例如图2所示S201-S205，或者图2至图7中所示，为避免重复，这里不再赘述。或者，该计算机程序被处理器执行时实现上述基于人工智能的服务评价装置这一实施例中的各模块/单元的功能，例如图8所示的待识别语音流获取模块801、目标身份信息获取模块802、文本分析结果获取模块803、情绪分析结果获取模块804和服务质量评分获取模块805的功能，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于人工智能的服务评价方法，其特征在于，包括：

获取服务过程中实时采集的待识别语音流；

2.如权利要求1所述的基于人工智能的服务评价方法，其特征在于，在所述获取服务过程中实时采集的待识别语音流之后，所述基于人工智能的服务评价方法还包括：

获取所述待识别语音流对应的语音时长，若所述语音时长大于时长阈值，则执行所述对所述待识别语音流进行身份识别，确定所述待识别语音流对应的目标身份信息。

3.如权利要求1所述的基于人工智能的服务评价方法，其特征在于，所述对所述待识别语音流进行身份识别，确定所述待识别语音流对应的目标身份信息，包括：

对所述待识别语音流进行特征提取，获取所述待识别语音流对应的MFCC特征和Pitch特征；

对所述MFCC特征和所述Pitch特征进行拼接处理，获取目标特征向量；

采用基于时延神经网络的身份特征识别模型对所述目标特征向量进行处理，获取身份特征信息，所述身份特征识别模型上设有用于对隐含层输入的特征进行均值和标准差计算的汇总池化层；

将所述身份特征信息与数据库中每一坐席人员对应的标准特征信息进行相似度计算，获取特征相似度，基于所述特征相似度确定所述待识别语音流对应的目标身份信息。

4.如权利要求1所述的基于人工智能的服务评价方法，其特征在于，所述对所述待识别语音流进行文本分析，获取所述待识别语音流对应的文本分析结果，包括：

采用语音识别模型对所述待识别语音流进行文本识别，获取待识别文本信息；

对所述待识别文本信息进行敏感词分析，获取敏感词分析结果；

对所述待识别文本信息进行语气分析，获取语气分析结果；

基于所述敏感词分析结果和所述语气分析结果，获取所述待识别语音流对应的文本分析结果。

5.如权利要求1所述的基于人工智能的服务评价方法，其特征在于，所述对所述待识别语音流进行情绪分析，获取所述待识别语音流对应的情绪分析结果，包括：

对所述待识别语音流进行语音分段，获取至少两个目标语音段；

采用语音情绪识别模型对每一所述目标语音段进行情绪识别，获取每一所述目标语音段对应的识别情绪；

计算每一所述目标语音段对应的识别语速；

基于至少两个所述目标语音段对应的所述识别语速和所述识别情绪，获取所述待识别语音流对应的情绪分析结果。

6.如权利要求5所述的基于人工智能的服务评价方法，其特征在于，所述采用语音情绪识别模型对每一所述目标语音段进行情绪识别，获取每一所述目标语音段对应的识别情绪，包括：

对每一所述目标语音段进行特征提取，获取所述目标语音段对应的语谱图特征和TEO特征；

对所述语谱图特征和所述TEO特征进行拼接，获取所述目标语音段对应的目标识别特征；

采用语音情绪识别模型对每一所述目标语音段对应的目标识别特征进行情绪识别，获取每一所述目标语音段对应的识别情绪。

7.如权利要求5所述的基于人工智能的服务评价方法，其特征在于，所述基于至少两个所述目标语音段对应的所述识别语速和所述识别情绪，获取情绪分析结果，包括：

基于当前目标语音段的识别语速、上一目标语音段的识别语速和所述当前目标语音段的识别情绪，获取所述当前目标语音段对应的目标情绪；

基于至少两个所述当前目标语音段对应的目标情绪，获取所述待识别语音流对应的消极情绪数量；

基于所述待识别语音流对应的消极情绪数量，获取所述待识别语音流对应的情绪分析结果。

8.一种基于人工智能的服务评价装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于人工智能的服务评价方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于人工智能的服务评价方法。