CN111489736A

CN111489736A - 座席话术自动评分装置及方法

Info

Publication number: CN111489736A
Application number: CN202010280864.9A
Authority: CN
Inventors: 卢向华; 陈刚
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2020-08-04
Anticipated expiration: 2040-04-10
Also published as: CN111489736B

Abstract

本发明提供一种座席话术自动评分装置及方法，其特征在于，包括：语音采集模块以及话术评分模块，其中，话术评分模块具有：座席语音获取部；文本处理提取部，用于将座席语音处理为预处理词并进行提取得到对应该文本信息的文本特征；语音处理提取部，用于对座席语音进行提取得到对应该座席语音的时域特征以及频域特征；特征回归处理部，基于L1范数对文本特征、时域特征以及频域特征进行回归以及归一化并作为对应的特征权重；特征预测部，用于将文本特征、时域特征以及频域特征分别输入到预定数量个基分类器中进行预测从而得到预测结果；预测结果融合部，基于特征权重并通过主投票策略对预测结果进行融合从而得到融合预测结果；以及话术评分输出部。

Description

座席话术自动评分装置及方法

技术领域

本发明属于语音识别领域，涉及座席话术的自动评分，具体涉及一种基于多视图学习的座席话术自动评分装置及方法。

背景技术

在各类公司以及企业中，为了更好地向客户介绍产品、提供咨询以及回访售后等服务，通常会配备一定数量的话务员，通过及时与客户电话联系从而为客户提供更好服务体验。

无论是各企业需要了解话务员是否确实为客户提供了较好的应答服务，还是需要了解话务员的话术从而进行评定或是统计等管理，目前都只能用户评论以及定期抽查，根据相应结果对话务员的水平进行一个大致的评估。

然而，这类方法存在主观以及巧合等因素，导致企业对话务员的评估容易产生较多误差，难以准确而有效地对各个话务员的能力进行评定。同时，各个话务员也很难准确地对自身话术能力的好坏进行把控，不利于自我提升。

发明内容

为解决上述问题，提供一种能够自动对话务员的话术进行评判，从而有助于企业对话务员的管理以及话务员对于自身能力的提升的座席话术自动评分装置及方法，本发明采用了如下技术方案：

本发明提供了一种座席话术自动评分装置，其特征在于，包括：语音采集模块，用于采集话务员的座席语音；以及话术评分模块，与语音采集模块相通信连接，其中，话术评分模块具有：座席语音获取部，用于获取语音采集模块采集到的座席语音；文本处理提取部，用于将座席语音处理为预处理词并进行提取得到对应该文本信息的文本特征；语音处理提取部，用于对座席语音进行处理从而提取得到对应该座席语音的时域特征以及频域特征；特征回归处理部，基于L1范数对文本特征、时域特征以及频域特征进行回归以及归一化并作为对应的特征权重；特征预测部，用于将文本特征、时域特征以及频域特征分别输入到预定数量个基分类器中进行预测从而得到预测结果；预测结果融合部，基于特征权重并通过主投票策略对预测结果进行融合从而得到融合预测结果；以及话术评分输出部，将融合预测结果作为表示话务员话术好坏的话术语音评分进行输出。

本发明提供的座席话术自动评分装置，还可以具有这样的技术特征，其中，文本特征提取部具有：文本转换单元，用于将座席语音转换为文本信息；预处理单元，用于对文本信息进行至少包括分词、去噪的预处理得到多个预处理词；向量化单元，用于通过预设的word2vec模型对多个预处理词进行向量化得到相应的多个词向量；以及文本特征提取单元，将多个词向量输入预设的LSTM模型并将该LSTM模型中最后一个神经单元中最后一个隐含层的输出作为文本特征。

本发明提供的座席话术自动评分装置，还可以具有这样的技术特征，其中，语音处理提取部包括：语音转换单元，用于将座席语音转换为梅尔频率倒谱系数；

特征指标提取单元，基于梅尔频率倒谱系数进行特征及指标提取从而得到时域特征以及频域特征。

本发明提供的座席话术自动评分装置，还可以具有这样的技术特征，其中，基分类器通过如下步骤得到：特征获取步骤，对作为训练用数据的训练语音进行特征提取并得到包含对应该训练语音的文本特征、时域特征以及频域特征的训练用多视图特征；特征子集构建步骤，对训练用多视图特征进行概率抽样得到预定数量个训练用特征子集；基分类器构建步骤，基于每个训练用特征子集分别训练构建基分类器从而得到预订数量个基分类器。

本发明提供的座席话术自动评分装置，还可以具有这样的技术特征，其中，预定数量为10个。

本发明提供的座席话术自动评分装置，还可以具有这样的技术特征，其中，时域特征包括波形因子、脉冲因子、峭度、偏度、裕度因子和峰值。

本发明提供的座席话术自动评分装置，还可以具有这样的技术特征，其中，频域特征包括重心频率、均方频率、均方根频率、频率方差和频率标准差。

本发明还提供了一种座席话术自动评分方法，用于对采集得到的座席语音进行分析从而对话务员的话术进行评分，其特征在于，包括：座席语音获取步骤，获取座席语音；文本处理提取步骤，将座席语音处理为预处理词并进行提取得到对应该文本信息的文本特征；语音处理提取步骤，对座席语音进行处理从而提取得到对应该座席语音的时域特征以及频域特征；特征回归处理步骤，基于L1范数对文本特征、时域特征以及频域特征进行回归以及归一化并作为对应的特征权重；特征预测步骤，基于特征权重对文本特征、时域特征以及频域特征进行概率抽样得到预定数量个特征子集并分别输入到预定数量个基分类器中进行预测从而得到预测结果；预测结果融合步骤，通过主投票策略对预测结果进行融合从而得到融合预测结果；话术评分输出步骤，将融合预测结果作为表示话务员话术好坏的话术语音评分进行输出。

发明作用与效果

根据本发明的座席话术自动评分装置，由于话术评分模块具有文本处理提取部以及语音处理提取部，能够从文本分析以及语音时序分析两方面对话务员的座席语音进行特征提取，进一步通过多个基分类器预测以及预测结果融合部将预测结果进行融合从而得到最终的话术语音评分，因此，话术评分模块能够从用词、语调等多个方面对话务员的话术进行评定，从而全面、准确地评估各个话务员“如何说”和“说了什么”。通过本发明的座席话术自动评分装置，可以准确地得到话务员每一次在提供应答服务时相应的话术评分，从而可以基于该话术评分有效地对话务员的话术能力进行一个直观的统计，即方便了企业机构对话务员的管理，也方便了话务员根据评分对自身进行总结从而改善自身能力。

附图说明

图1是本发明实施例中座席话术自动评分装置的结构框图；

图2是本发明实施例中话术评分模块的结构框图；

图3是本发明实施例中话术评分模块的处理流程示意图；以及

图4是本发明实施例中话术评分过程的流程图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下结合实施例及附图对本发明的基于多视图学习的座席话术自动评分装置及方法作具体阐述。

<实施例>

图1是本发明实施例中座席话术自动评分装置的结构框图。

如图1所示，座席话术自动评分装置100包括语音采集模块101、话术评分模块102以及通信网络103。

其中，语音采集模块101通过通信网络103与话术评分模块102相通信连接。本实施例中，通信网络103可以为常规的局域网或是互联网。另外，语音采集模块101与话术评分模块102之间也可以直接通过数据线相通信连接。

本实施例中，座席话术自动评分装置100为一台由话务员持有的计算机中，用于对话务员在进行接听、解答等话务时的语音进行采集并进行话术评分。

语音采集模块101为一个麦克风，用于对话务员进行录音从而采集话务员的座席语音。

本实施例中，当话务员接听电话时语音采集模块101就会自动开始采集，而在话务员挂断后停止采集并将采集得到的一段语音作为座席语音。

话术评分模块102用于获取语音采集模块101采集的坐席语音并进行话术评分。本实施例中，话术评分模块102为预先设置在计算机中的处理程序。

图2是本发明实施例中话术评分模块的结构框图。

图3是本发明实施例中话术评分模块的处理流程示意图。

如图2及图3所示，话术评分模块102具有座席语音获取部21、文本处理提取部22、语音处理提取部23、特征回归处理部24、特征预测部25、预测结果融合部26、话术评分输出部27、通信部28以及控制部29。

其中，通信部28用于进行话术评分模块102的各个组成部分之间以及话术评分模块102与语音采集模块101之间的数据交换，控制部29存储有用于对语音采集模块101的各个组成部分的工作进行控制的计算机程序。

座席语音获取部21用于获取语音采集模块101采集到的座席语音。

本实施例中，座席语音获取部21通过通信部28相语音采集模块101发送语音获取请求，从而获取到语音采集模块101所采集的座席语音。在本发明其他方案中，也可以由语音采集模块101在每次采集完成后直接发送给话术评分模块102从而让座席语音获取部21获取。

另外，本实施例中，语音采集模块101所采集的原始的语音数据是话务员与客户的对话，因此在座席语音获取部21该语音数据时，还会通过常规的声纹识别方法(例如通过讯飞、百度语音等语音转写工具以及开源的API接口均可实现)，自动分离话务员与用户语音，最终只保留座席语音数据作为获取到的座席语音。

如图3所示，本实施例中会对座席语音获取部21获取到的座席语音进行多视图构建，即分别通过如下的文本处理提取部22以及语音处理提取部23对座席语音数据衍生出文本数据(通过语音转写得到)和序列数据(音频通过傅里叶变换得到)并进行特征提取。

文本处理提取部22用于将座席语音处理为预处理词并进行提取得到对应该文本信息的文本特征。

本实施例中，文本处理提取部22具有文本转换单元22a、预处理单元22b、向量化单元22c以及文本特征提取单元22d。

文本转换单元22a用于将座席语音转换为文本信息。

预处理单元22b用于对文本信息进行至少包括分词、去噪的预处理得到预处理词。

本实施例中，文本信息通过预处理单元22b进行分词形成多个词汇以及去噪从而去除多个词汇中无用的词汇，最终得到由多个词汇组成的预处理词。

向量化单元22c用于通过预设的word2vec模型对多个预处理词进行向量化得到相应的多个文本向量。

文本特征提取单元22d用于将文本向量输入预设的LSTM模型并将该LSTM模型中最后一个神经单元中最后一个隐含层的输出作为文本特征。

本实施例中，word2vec模型以及LSTM模型为常规的语言分析模型，LSTM模型采用了单层LSTM模型，其具有(1)embedding层(batch＝32，input_length＝500,dimention＝字典维度)；(2)LSTM层(隐含层神经元个数为128)；(3)softmax层(激活函数为sigmoid)，输出维度等于话术等级个数。

语音处理提取部23用于对座席语音进行处理从而提取得到对应该座席语音的时域特征以及频域特征。

本实施例中，语音处理提取部23具有语音转换单元23a以及特征指标提取单元23b。

语音转换单元23a用于将座席语音转换为梅尔频率倒谱系数。

特征指标提取单元23b基于梅尔频率倒谱系数进行特征及指标提取从而得到时域特征以及频域特征。

具体地，语音转换单元23a首先对连续语音数据做预加重(滤波)处理，然后分帧，加窗(增加帧左端和右端的连续性)，之后进行快速傅里叶变换，输入Mel(梅尔)频率滤波器组对频谱进行平滑化，并消除谐波，接着，特征指标提取单元23b计算每个滤波器组输出的对数能量，最后，经过离散余弦变换(DCT)得到MFCC系数。

本实施例中，时域特征包括波形因子、脉冲因子、峭度、偏度、裕度因子、峰值；频域特征包括重心频率、均方频率、均方根频率、频率方差、频率标准差。

特征回归处理部24基于L1范数(Lasso)对文本特征、时域特征以及频域特征进行回归以及归一化并作为对应的特征权重。

特征预测部25基于特征权重将文本特征、时域特征以及频域特征分别输入到预定数量个基分类器中进行预测从而得到预测结果。

本实施例中，此处所有特征合并后进行概率抽样，抽样权重为上一段中L-1回归系数归一化后得到的权重。

本实施例中，基分类器选取为XGBoost模型，需要通过预先进行训练构建得到，该训练构建过程包括如下步骤：

特征获取步骤，对作为训练用数据的训练语音进行特征提取并得到包含对应该训练语音的文本特征、时域特征以及频域特征的训练用多视图特征；

特征子集构建步骤，对训练用多视图特征进行概率抽样得到预定数量个训练用特征子集；

基分类器构建步骤，基于每个训练用特征子集分别训练构建基分类器从而得到预订数量个基分类器。

本实施例中，特征子集构建步骤中抽取了十个特征子集，特征抽取比例选择0.5，最终对应训练得到十个基分类器，使得最终的融合预测结果更稳定且准确。在本发明的其他方案中，特征子集的提取数量以及基分类器的构建数量也可以根据实际需求进行调整，特征抽取比例也可在(0,1)范围内进行调整。

预测结果融合部26通过主投票策略对预测结果进行融合从而得到融合预测结果。

本实施例中，预测结果融合部26对各个预测结果进行统计，并通过主投票策略将得票最多的预测结果作为融合预测结果。

话术评分输出部27将融合预测结果作为表示该话务员话术好坏的话术语音评分(即图3中所示的话术等级)进行输出。

本实施例中，话术评分输出部27可以将话术语音评分输出至计算机的显示模块，从而让话务员获知自身的话术好坏，更有目的性的进行纠正。

图4是本发明实施例中话术评分过程的流程图。

如图4所示，在话务员完成话务且语音采集模块101完成录音得到座席语音时，话术评分模块102就开始执行话术评分过程，该话术评分过程具体包括如下步骤：

步骤S1，座席语音获取部21获取语音采集模块101采集到的座席语音，然后进入步骤S2；

步骤S2，文本处理提取部22用于将座席语音处理为预处理词并进行提取得到对应该文本信息的文本特征，然后进入步骤S3；

步骤S3，语音处理提取部23用于对座席语音进行处理从而提取得到对应该座席语音的时域特征以及频域特征，然后进入步骤S4；

步骤S4，特征回归处理部24基于L1范数对文本特征、时域特征以及频域特征进行回归以及归一化并作为对应的特征权重，然后进入步骤S5；

步骤S5，特征预测部25用于将文本特征、时域特征以及频域特征分别输入到预定数量个基分类器中进行预测从而得到预测结果，然后进入步骤S6；

步骤S6，预测结果融合部26基于特征权重并通过主投票策略对预测结果进行融合从而得到融合预测结果，然后进入步骤S7；

步骤S7，话术评分输出部27将融合预测结果作为表示话务员话术好坏的话术语音评分进行输出，然后进入结束状态。

实施例作用与效果

根据本实施例提供的座席话术自动评分装置，由于话术评分模块具有文本处理提取部以及语音处理提取部，能够从文本分析以及语音时序分析两方面对话务员的座席语音进行特征提取，进一步通过多个基分类器预测以及预测结果融合部将预测结果进行融合从而得到最终的话术语音评分，因此，话术评分模块能够从用词、语调等多个方面对话务员的话术进行评定，从而全面、准确地评估各个话务员“如何说”和“说了什么”。通过本发明的座席话术自动评分装置，可以准确地得到话务员每一次在提供应答服务时相应的话术评分，从而可以基于该话术评分有效地对话务员的话术能力进行一个直观的统计，即方便了企业机构对话务员的管理，也方便了话务员根据评分对自身进行总结从而改善自身能力。

实施例中，在进行文本分析时，由于使用LSTM模型提取文本特征，有效捕捉了语境中的序列依赖关系，使得对文本信息的表征更加准确。

实施例中，由于在构建基分类器时，基于特征概率划分各个子特征并分别训练基分类器，使得构建的多个基分类器同时满足了准确性要求和多样性要求。此外，通过融合多个基分类器的预测结果作为评分也可以使得该评分更加准确和稳定。

多个分类器同时预测同一任务属于集成学习范畴，从统计学理论来讲，当基分类器的准确率满足一定条件时(预测准确率高于随机猜测的准确率期望值)，集成学习方法拥有比单个基分类器更高的预测能力和泛华能力。

实施例中，由于在MFCC特征基础上进一步提取了时频域特征，即、计算压缩成行之后的MFCC特征(取每个特征向量的标准差作为该特征点的代表，将MFCC矩阵压缩为一行)每一片段的均值、方差、波形特征等，这样最后得到的特征维度变低了，相当于降维，抽象出了长序列的波动规律。因此，使得原本维度很高的MFCC特征(几万，或者十几万)可以在保留语音特征的同时用于模型的学习。

进一步，由于提取的时域特征与频域特征包含了最常用的几个特征指标，因此更加全面、准确地刻画语音序列的波动、变化规律等，从而使得最终预测得到的话术语音评分与话务员的语气、语调等因素更具有关联性，能更好地表示话务员的话术能力。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

例如，上述实施例中，语音采集模块与话术评分模块设置在一个由话务员持有的计算机中，话术评分输出部将话术语音评分输出至计算机的显示模块从而让话务员确认。而在本发明其他方案中，还可以通过在机构中设置多个具有语音采集模块与话术评分模块102的计算机，并与一个管理服务器相通信连接，从而使得每个计算机中每次判定出的话术语音评分通过话术评分输出部输出至管理服务器，从而使得该管理服务器可以对每个话务员的话术语音评分进行统计以及管理，从而更好地判断各个话务员的话术能力以及服务能力。

Claims

1.一种座席话术自动评分装置，其特征在于，包括：

语音采集模块，用于采集话务员的座席语音；以及

话术评分模块，与所述语音采集模块相通信连接，

其中，所述话术评分模块具有：

座席语音获取部，用于获取语音采集模块采集到的所述座席语音；

文本处理提取部，用于将所述座席语音处理为预处理词并进行提取得到对应该文本信息的文本特征；

语音处理提取部，用于对所述座席语音进行处理从而提取得到对应该座席语音的时域特征以及频域特征；

特征回归处理部，基于L1范数对所述文本特征、所述时域特征以及所述频域特征进行回归以及归一化并作为对应的特征权重；

特征预测部，基于所述特征权重对所述文本特征、所述时域特征以及所述频域特征进行概率抽样得到预定数量个特征子集并分别输入到预定数量个基分类器中进行预测从而得到预测结果；

预测结果融合部，通过主投票策略对所述预测结果进行融合从而得到融合预测结果；以及

话术评分输出部，将所述融合预测结果作为表示所述话务员话术好坏的话术语音评分进行输出。

2.根据权利要求1所述的座席话术自动评分装置，其特征在于：

其中，所述文本特征提取部具有：

文本转换单元，用于将所述座席语音转换为文本信息；

预处理单元，用于对所述文本信息进行至少包括分词、去噪的预处理得到多个预处理词；

向量化单元，用于通过预设的word2vec模型对所述多个预处理词进行向量化得到相应的多个词向量；以及

文本特征提取单元，将所述多个词向量输入预设的LSTM模型并将该LSTM模型中最后一个神经单元中最后一个隐含层的输出作为所述文本特征。

3.根据权利要求1所述的座席话术自动评分装置，其特征在于：

其中，所述语音处理提取部包括：

语音转换单元，用于将所述座席语音转换为梅尔频率倒谱系数；

特征指标提取单元，基于所述梅尔频率倒谱系数进行特征提取从而得到所述时域特征以及所述频域特征。

4.根据权利要求1所述的座席话术自动评分装置，其特征在于：

其中，所述基分类器通过如下步骤得到：

特征子集构建步骤，对所述训练用多视图特征进行概率抽样得到预定数量个训练用特征子集；

基分类器构建步骤，基于每个所述训练用特征子集分别训练构建所述基分类器从而得到所述预订数量个基分类器。

5.根据权利要求4所述的座席话术自动评分装置，其特征在于：

其中，所述预定数量为10个。

6.根据权利要求1所述的座席话术自动评分装置，其特征在于：

其中，所述时域特征包括波形因子、脉冲因子、峭度、偏度、裕度因子和峰值。

7.根据权利要求1所述的座席话术自动评分装置，其特征在于：

其中，所述频域特征包括重心频率、均方频率、均方根频率、频率方差和频率标准差。

8.一种座席话术自动评分方法，用于对采集得到的座席语音进行分析从而对话务员的话术进行评分，其特征在于，包括：

座席语音获取步骤，获取所述座席语音；

文本处理提取步骤，将所述座席语音处理为预处理词并进行提取得到对应该文本信息的文本特征；

语音处理提取步骤，对所述座席语音进行处理从而提取得到对应该座席语音的时域特征以及频域特征；

特征回归处理步骤，基于L1范数对所述文本特征、所述时域特征以及所述频域特征进行回归以及归一化并作为对应的特征权重；

特征预测步骤，基于所述特征权重对所述文本特征、所述时域特征以及所述频域特征进行概率抽样得到预定数量个特征子集并分别输入到预定数量个基分类器中进行预测从而得到预测结果；

预测结果融合步骤，通过主投票策略对所述预测结果进行融合从而得到融合预测结果；

话术评分输出步骤，将所述融合预测结果作为表示所述话务员话术好坏的话术语音评分进行输出。