CN111475633B

CN111475633B - 基于座席语音的话术支持系统

Info

Publication number: CN111475633B
Application number: CN202010280824.4A
Authority: CN
Inventors: 卢向华; 陈刚
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2022-06-10
Anticipated expiration: 2040-04-10
Also published as: CN111475633A

Abstract

本发明提供一种基于座席语音的话术支持系统，其特征在于，包括：多个座席终端，由座席人员持有；以及分析服务器，其中，座席终端具有用于对座席人员在进行座席通话时的座席语音进行采集的语音采集部，分析服务器具有：话术标签预测部，基于预设的话术预测模型对座席语音进行预测并输出该座席语音所对应的话术标签以及该座席语音的置信度；语音样本分类部，根据话术标签将座席语音进行分类并形成多个语音样本集；样本获取部，从各个语音样本集获取代表性样本；语料库提取形成部，对代表性样本进行语料提取形成语料库；话术词句获取部，对语料库进行遍历并获取话术词句；话术支持库存储部，根据话术词句形成一个话术支持库。

Description

基于座席语音的话术支持系统

技术领域

本发明属于语音识别领域，具体涉及一种基于座席语音的话术支持系统。

背景技术

基于(智能)座席的语音营销模式日益盛行，并取得了对产品和服务良好地推销效果。基于座席的推销模式一大优点在于掌握(潜在)客户资料后，主动出击，因此极大地发掘、利用了客户资源。因此，在一些呼叫中心、电话客服等座席工作岗位中，往往会通过很多座席人员向客户提供呼叫、应答等话术服务，从而向客户提供产品介绍、咨询以及售后回访等服务。

在给定潜在客户名单后，座席人员能否成功地吸引客户下单/进店体验，很大程度上取决于座席人员的话术质量，例如，产品描述是否清晰准确，问答逻辑是否合理，是否充分了解并回应了客户需求，逼单、邀约力度是否过轻(重)，沟通技巧的运用是否熟练，流程规范性，业务知识掌握度等。因此，座席人员需要不断的对自身的话术能力进行改善，从而提供更高的话术质量。然而，座席人员很难对自身的话术能力进行一个准确的评估，需要话术支持来了解自身的话术能力并进行改善。

目前只能通过配备专门的话术支持专员，使其定期对座席人员进行话术培训，从而让座席人员通过从成功的话术(精英话术)中学习经验，便能提升自己的话术能力，从而增加营销绩效。然而，这种方式不仅会提高人力资源的成本，同时也非常的低效，即不能及时、全面地对座席人员的话术能力进行判断，也无法针对性地提升座席人员的话术能力，更不能随时为座席人员提供话术支持。

发明内容

为解决上述问题，提供一种能够自动形成话术支持库并从中获取话术语句为座席人员提供话术支持，从而让座席人员将话术语句作为提升自己话术质量的决策/参考依据的话术支持系统，本发明采用了如下技术方案：

本发明提供了一种基于座席语音的话术支持系统，其特征在于，包括：多个座席终端，由座席人员持有；以及分析服务器，与座席终端相通信连接，其中，座席终端具有用于对座席人员在进行座席通话时的座席语音进行采集的语音采集部以及用于将座席语音发送给分析服务器的终端侧通信部，分析服务器具有：座席语音存储部，存储有多个从各个座席终端接收到的座席语音；话术标签预测部，基于预设的话术预测模型依次对被存储的每个座席语音所对应的话术等级进行预测并输出该座席语音所对应的表示话术等级的话术标签以及该座席语音的置信度；语音样本分类部，根据话术标签将座席语音进行分类并形成与各个话术标签分别对应的多个语音样本集；样本获取部，分别从各个语音样本集获取置信度最高的前n个座席语音作为代表性样本；语料库提取形成部，对每个代表性样本进行语料提取并加总形成含有与每个话术等级相对应的多个语料的语料库；话术词句获取部，用于对语料库进行遍历并基于每个话术等级获取m个样本语料作为话术词句；话术支持库存储部，用于将话术词句以及相应的话术等级进行对应存储并形成一个话术支持库；话术支持词句获取部，基于座席终端发送的话术支持请求从话术支持库中获取相应的话术词句作为话术支持词句；以及服务侧通信部，用于将获取到的话术支持词句发送给座席终端从而为座席人员提供话术支持。

本发明提供的基于座席语音的话术支持系统，还可以具有这样的技术特征，其中，语料库提取形成部具有：文本转换单元，依次将每个代表性样本转换对应的文本信息；语料提取单元，用于对文本信息进行分词、分句以及提取主题词操作从而得到包含词、句子以及关键词的样本语料；向量化处理单元，用于对样本语料进行向量化；语料库构建单元，将所有样本语料按照每一类的话术标签分别进行加总形成语料库。

本发明提供的基于座席语音的话术支持系统，还可以具有这样的技术特征，其中，话术词句获取部采用模拟退火算法对语料库进行处理形成最优代表性子集，并将该最优代表性子集中的样本语料作为话术词句，最优代表性子集的训练目标为：

式中，x_i为第i个所述样本语料的向量，x_j为第j个所述样本语料的向量，m为设定的子集样本个数，T为所述语料库中所述样本语料的数量。

本发明提供的基于座席语音的话术支持系统，还可以具有这样的技术特征，其中，话术预测模型包括：输入模块，用于输入座席语音；多视图提取模块，用于对座席语音进行多视图特征提取并得到对应该座席语音的多视图特征；特征权重提取模块，基于L1范数对多视图特征进行回归以及归一化并得到对应每一个训练语音的特征权重；预测模块，包含预定数量个基分类器，分别用于对多视图特征进行预测并得到各自的中间预测结果；以及输出融合模块，基于特征权重并通过主投票策略对所有的中间预测结果进行融合从而得到预测概率。

本发明提供的基于座席语音的话术支持系统，还可以具有这样的技术特征，其中，预定数量个基分类器通过如下步骤构建得到：步骤S1，获取用于进行训练的训练语音；步骤S2，对训练语音进行多视图特征提取并得到对应该训练语音的训练用多视图特征；步骤S3，基于L1范数对训练用多视图特征进行回归以及归一化并得到对应每一个训练语音的特征权重；步骤S4，基于特征权重对训练用多视图特征进行概率抽样得到预定数量个训练用特征子集；步骤S5，基于每个训练用特征子集分别训练构建一个基分类器从而得到预订数量个基分类器。

本发明提供的基于座席语音的话术支持系统，还可以具有这样的技术特征，其中，多视图特征包括文本特征、时域特征以及频域特征，多视图提取模块具有：文本处理提取单元，用于将语音数据处理为预处理词并进行提取得到对应该文本信息的文本特征；以及语音处理提取单元，用于对语音数据进行处理从而提取得到对应该语音的时域特征以及频域特征。

本发明提供的基于座席语音的话术支持系统，还可以具有这样的技术特征，其中，文本处理提取单元包括：文本转换部分，用于将语音数据转换为文本信息；预处理部分，用于对文本信息进行至少包括分词、去噪的预处理得到多个预处理词；向量化部分，用于通过预设的word2vec模型对多个预处理词进行向量化得到相应的多个词向量；以及文本特征提取部分，将多个词向量输入预先基于标记样本训练得到的LSTM模型并将该LSTM模型中最后一个神经单元中最后一个隐含层的输出作为文本特征。

本发明提供的基于座席语音的话术支持系统，还可以具有这样的技术特征，其中，语音处理提取单元包括：语音转换部分，用于将语音数据转换为梅尔频率倒谱系数；以及特征指标提取部分，基于梅尔频率倒谱系数进行特征提取从而得到时域特征以及频域特征，时域特征包括波形因子、脉冲因子、峭度、偏度、裕度因子和峰值，频域特征包括重心频率、均方频率、均方根频率、频率方差和频率标准差。

本发明提供的基于座席语音的话术支持系统，还可以具有这样的技术特征，其中，座席人员具有各自的人员识别信息，座席终端还具有画面存储部以及输入显示部，分析服务器还具有话术等级判定部，画面存储部存储有话术支持画面，一旦语音采集部采集到座席语音，终端侧通信部就将该座席语音以及相应的人员识别信息作为话术支持请求发送给分析服务器，一旦接收到包含座席语音以及人员识别信息的话术支持请求，话术等级判定部就基于话术预测模型对接收到的座席语音进行预测并基于预测概率最大的话术标签判定该座席语音对应的话术等级作为人员话术等级，话术支持词句获取部从话术支持库中获取话术等级高于人员话术等级的所有话术词句作为话术支持词句，服务侧通信部根据人员识别信息将话术支持词句时发送给相应的座席终端，一旦接收到话术支持词句，输入显示部就显示话术支持画面并显示接收到的话术支持语句让座席人员查看。

本发明提供的基于座席语音的话术支持系统，还可以具有这样的技术特征，其中，座席人员具有各自的人员识别信息，座席终端还具有画面存储部以及输入显示部，画面存储部存储有话术请求画面，输入显示部显示话术请求画面让座席人员输入需要支持的话术等级作为请求话术等级，一旦座席人员确认了输入的请求话术等级，终端侧通信部就将该请求话术等级以及相应的人员识别信息作为话术支持请求发送给分析服务器，一旦接收到包含请求话术等级以及人员识别信息的话术支持请求，话术支持词句获取部从话术支持库中获取话术等级与请求话术等级相对应的所有话术词句作为话术支持词句，服务侧通信部根据人员识别信息将话术支持词句时发送给相应的座席终端，一旦接收到话术支持词句，输入显示部就在话术请求画面中根据请求话术等级对应地显示接收到的话术支持语句让座席人员查看。

发明作用与效果

根据本发明的基于座席语音的话术支持系统，由于分析服务器通过话术预测模型对所有存储的座席语音进行预测得到其对应各个话术等级的话术标签以及置信度，并根据话术标签对座席语音进行分类以及获取各个分类下的代表性样本，再对各个代表性样本进行语料提取形成语料库，因此在实现了基于座席语音抽取代表性语料的同时，还考虑了语料的准确性(高置信度)和多样性。进一步，还由于对语料库进行遍历得到话术词句，并基于该话术词句以及各个话术词句对应的话术等级对应存储为一个话术支持库，因此，座席终端可以通过该话术支持库获取座席人员所需的话术支持词句并为座席人员提供话术支持，使得座席人员可以根据这些词句对自身的话术进行改善。另外，由于分析服务器可以不断存储座席终端采集到的座席语音，并自动对话术支持库进行迭代更新，形成一个增强的闭环回路，因此本发明的话术支持系统不仅使得座席人员可以获取不同的词句，并且能随着时间获取到更具有代表性的词句，从而更好地根据这些词句对自身的话术能力的进行改善。

附图说明

图1是本发明实施例中基于座席语音的话术支持系统的结构框图；

图2是本发明实施例中分析服务器的结构框图；

图3是本发明实施例中话术预测模型的结构示意图；

图4是本发明实施例中基分类器的构建过程的流程图；

图5是本发明实施例中语料库提取形成部的结构框图；

图6是本发明实施例中座席终端的结构框图；以及

图7是本发明实施例中话术支持库的构建过程的流程图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下结合实施例及附图对本发明的基于多视图学习的基于座席语音的话术支持系统作具体阐述。

<实施例>

图1是本发明实施例中基于座席语音的话术支持系统的结构框图。

如图1所示，基于座席语音的话术支持系统100具有分析服务器101、多个座席终端102以及通信网络103。

其中，座席终端102分别有具有各自人员识别信息的座席人员持有，用于让座席人员通过该座席终端102进行包括呼叫应答、接线咨询等座席通话的座席工作。分析服务器101由服务商持有，用于对座席终端102发送的信息进行分析处理。分析服务器101通过通信网络分别与各个座席终端102相通信连接。

图2是本发明实施例中分析服务器的结构框图。

如图2所示，分析服务器101具有座席语音存储部11、话术标签预测部12、语音样本分类部13、样本获取部14、语料库提取形成部15、话术词句获取部16、话术支持库存储部17、话术等级判定部18、话术支持词句获取部19、服务侧通信部20以及控制上述各部的服务侧控制部21。

其中，服务侧通信部20用于进行分析服务器101的各个组成部分之间以及分析服务器101与座席终端102之间的数据交换，服务侧控制部21存储有用于对分析服务器101的各个组成部分的工作进行控制的计算机程序。

座席语音存储部11存储有所有从各个座席终端102接收到的座席语音。

本实施例中，座席语音为座席人员在进行座席通话时对该座席人员的录音，每个座席终端102采集到的座席语音都会发送给分析服务器101，并由座席语音存储部11进行存储。座席语音存储部11可以不断地获取到座席语音，并用于后续话术支持库的构建。

另外，本实施例中，座席语音存储部11在存储座席语音时，还对应地存储该座席语音的录音时间、语音编号以及被录音的座席人员的人员识别信息等相关信息。

另外，本实施例中，对座席通话进行录音时得到的原始语音可能是座席人员与客户之间的对话语音，因此分析服务器101在获取原始时(或是座席终端102在采集到原始语音时)，可以通过常规的声纹识别方法(例如通过讯飞、百度语音等语音转写工具以及开源的API接口均可实现)，自动分离座席人员与客户语音，最终只保留座席语音数据作为获取到的座席语音。

话术标签预测部12基于预设的话术预测模型40依次对被座席语音存储部11存储的每个座席语音所对应的话术等级进行预测并输出该座席语音所对应的话术标签以及置信度。

其中，话术等级为对座席语音的话术好坏进行评价的等级，每一个话术等级对应有一个相应的话术标签。在本实施例中，话术等级分为低级、中级以及高级，话术标签则有相应的三个标签。

图3是本发明实施例中话术预测模型的结构示意图。

如图3所示，话术预测模型40能够根据输入的座席语音输出该座席语音相对应的话术标签以及置信度，该话术预测模型40包括输入模块41、多视图提取模块42、特征权重提取模块43、预测模块44以及输出融合模块45。

输入模块41用于输入座席语音。

多视图提取模块42用于对座席语音进行多视图特征提取并得到对应该座席语音的多视图特征。

本实施例中，多视图特征为语音的文本特征、时域特征以及频域特征，多视图提取模块42具体包括文本处理提取单元42-1以及语音处理提取单元42-2。

文本处理提取单元42-1用于将语音数据处理为预处理词并进行提取得到对应该文本信息的文本特征。

本实施例中，文本处理提取部分42-1具有文本转换部分42-1a、预处理部分42-1b、向量化部分42-1c以及文本特征提取部分42-1d。

文本转换部分42-1a用于将座席语音转换为文本信息。

本实施例中，文本转换部分42-1a采用常规的语音识别技术(例如通过API调用百度语音等语音转写工具)将语音信息转换为文本信息。

预处理部分42-1b用于对文本信息进行至少包括分词、去噪的预处理得到预处理词。

本实施例中，预处理词通过预处理部分42-1b进行分词形成多个词汇以及去噪从而去除多个词汇中无用的词汇，最终得到由多个词汇组成的预处理词。

向量化部分42-1c用于通过预设的word2vec模型对多个预处理词进行向量化得到相应的多个文本向量。

文本特征提取部分42-1d用于将文本向量输入预设的LSTM模型并将该LSTM模型中最后一个神经部分中最后一个隐含层的输出作为文本特征。

本实施例中，LSTM模型预先基于标记样本，由类别标签监督，训练得到。

本实施例中，word2vec模型以及LSTM模型为常规的语言分析模型，LSTM模型采用了单层LSTM模型，其具有(1)embedding层(batch＝32，input_length＝500,dimention＝字典维度)；(2)LSTM层(隐含层神经元个数为128)；(3)softmax层(激活函数为sigmoid)，输出维度等于话术等级个数。

语音处理提取单元42-2用于对座席语音进行处理从而提取得到对应该座席语音的时域特征以及频域特征。

本实施例中，语音处理提取部42-2具有语音转换部分42-2a以及特征指标提取部分42-2b。

语音转换部分42-2a用于将座席语音转换为梅尔频率倒谱系数。

特征指标提取部分42-2b基于梅尔频率倒谱系数进行特征及指标提取从而得到时域特征以及频域特征。

具体地，语音转换部分42-2a首先对连续语音数据做预加重(滤波)处理，然后分帧，加窗(增加帧左端和右端的连续性)，之后进行快速傅里叶变换，输入Mel(梅尔)频率滤波器组对频谱进行平滑化，并消除谐波，接着，特征指标提取部分42-2b计算每个滤波器组输出的对数能量，最后，经过离散余弦变换(DCT)得到MFCC系数。

本实施例中，时域特征包括波形因子、脉冲因子、峭度、偏度、裕度因子、峰值；频域特征包括重心频率、均方频率、均方根频率、频率方差、频率标准差。

通过上述处理，即得到了每一个座席语音的文本特征、时域特征以及频域特征。

特征权重提取模块43基于L1范数(Lasso)对多视图特征进行回归以及归一化并得到对应每一个座席语音的特征权重。

预测模块44包含预定数量个基分类器，分别用于对多视图特征进行预测并得到各自的中间预测结果。

本实施例中，基分类器选取为XGBoost模型，每个基分类器都能够对多视图特征进行预测并分别输出各自预测出的中间预测结果，即每一个座席语音会被预测出预定数量个中间预测结果。

图4是本发明实施例中基分类器的构建过程的流程图。

如图4所示，基分类器的构建过程包括如下步骤：

步骤S1-1，获取训练语音。本实施例中，训练语音为事先准备且用于训练的座席语音。

步骤S1-2，对每一个训练语音进行多视图特征提取并得到对应该训练语音的训练用多视图特征。

步骤S1-3，基于L1范数(Lasso)对多视图特征进行回归以及归一化并得到对应每一个训练语音的特征权重。

本实施例中，上述步骤S1-2以及步骤S1-3的处理方法分别与多视图提取模块42以及特征权重提取模块43相同，在此不在赘述。

步骤S1-4，基于特征权重对训练用多视图特征进行概率抽样得到预定数量个训练用特征子集。

本实施例中，步骤S1-4中抽取了十个特征子集，特征抽取比例选择0.5，最终在步骤S1-5中对应训练得到十个基分类器，使得最终通过输出融合模块融合的预测结果更稳定且准确。在本发明的其他方案中，特征子集的提取数量以及基分类器的构建数量也可以根据实际需求进行调整，特征抽取比例也可在(0,1)范围内进行调整。

步骤S1-5，基于每个训练用特征子集分别训练构建一个基分类器从而得到预定数量个基分类器。

输出融合模块45基于特征权重对各个基分类器输出的中间预测结果进行融合。

本实施例中，中间预测结果为基分类器输出的对应各个话术等级的概率。在输出融合模块45对各个中间预测结果进行融合时：输出融合模块45会将座席语音被每个基分类器预测出的概率按话术等级进行分类并取平均值，从而得到该语音样本对应各个话术等级的平均概率，进一步取最大的概率作为该语音样本的置信度。例如三分类，一个语音样本通过两个基分类器在1-3类上的预测概率值(中间预测结果)分别是：基分类器一0.3,0.3,0.4；基分类器二0.2,0.2,0.6，那么，该语音样本的平均概率为0.25,0.25,0.5，其置信度为0.5。同时，若两个样本在1-3类上的平均概率值分别是：样本一0.3,0.3,0.4；样本二0.1,0.1,0.8，两个样本都被预测为第三类的话术等级，然而样本2的置信度更高。

语音样本分类部13用于根据话术标签将座席语音进行分类并形成与各个话术标签分别对应的多个语音样本集。

本实施例中，语音样本集与各个话术标签对应地划分为三个，即对应话术等级为低级的低级语音样本集、对应话术等级为中级的中级语音样本集以及对应话术等级为高级的高级语音样本集。每一个语音样本集包含有多个相应话术等级的座席语音以及各个座席语音的置信度。

样本获取部14用于分别从各个语音样本集中获取置信度最高的前n个座席语音作为代表性样本。

本实施例中，样本获取部14在从每一个语音样本集中获取代表性样本时，会将当前语音样本集中所有的座席语音按置信度由大至小地排序，进一步获取前n个座席语音作为代表性样本。

语料库提取形成部15用于对每个代表性样本进行语料提取并加总形成含有与每个话术等级相对应的多个语料的语料库。

图5是本发明实施例中语料库提取形成部的结构框图。

如图5所示，语料库提取形成部15具有文本转换单元15a、语料提取单元15b、向量化处理单元15c以及语料库构建单元15d。

文本转换单元15a用于依次将每个代表性样本转换对应的文本信息。

本实施例中，文本转换单元15a与文本转换部分42-1a的处理方式相同，在此不再赘述。

语料提取单元15b用于对文本信息进行分词、分句以及提取主题词操作从而得到包含词、句子以及主题词的样本语料。

本实施例中，语料提取单元15b的分词操作基于python3.6中的jieba分词器实现。分句操作的实现方式为：首先构建断句符号集合，包括“。，！？；”等；然后对文本进行逐字循环判断，符合断句条件，即拆分为一个句子。提取主题词操作则通过LDA模型提取文本信息中的主题词。

向量化处理单元15c用于对样本语料进行向量化。

本实施例中，向量化处理单元15c通过预设的word2vec模型完成向量化：在对词以及主题词进行向量化处理时，可以直接将词以及主题词输入word2vec模型并得到相应的词向量以及主题向量；在对句子进行向量化处理时，会先将对句子进行分词并获取到多个词，并采用word2vec模型得到所有词的词向量，进一步将该句子的所有词向量进行加总并取平均值得到句子的句子向量。

语料库构建单元15d用于将所有样本语料按照每一类话术标签分别进行加总形成语料库。

本实施例中，语料库分为总词库、总词句库以及总主题库，各个库中包含对应每一个代表性样本的词、句子以及主题词，同时这些词、句子以及主题词按照每个代表性样本所对应的话术标签进行了分类。

话术词句获取部16用于对语料库进行遍历并基于每个话术等级获取m个样本语料作为话术词句。

直接通过代表性样本转换得到的句子和词语所构成的语料库仍然包含很多噪声，不够聚焦，因此需要对语料库需要进一步提炼。本实施例中，话术词句获取部16获取的m个样本语料为基于语料库的每一个语料通过优化构建最优代表性子集，其分为最优代表性词语子集、最优代表性主题词子集以及最优代表性句子子集。

本实施例中，话术词句获取部16采用模拟退火算法进行最优代表性子集的提炼和优化，具体为：设定一个目标和集合，在迭代过程中不断更换集合中的对象(即词/主题词/句子)，并计算集合对象中的相似度之和。如果相似度之和越高则多样性越差，优化和迭代的目标就是让相似度指标尽量变小，直到达到收敛条件后停止迭代。因此，最优代表性子集训练目标为：

式中，x_i为第i个词向量/主题向量/句子向量，x_j为第j个词向量/主题向量/句子向量，m为每个子集中样本语料的个数，T为语料库中词/主题词/句子语料的数量。

本实施例中，收敛条件为前后两次迭代的min指标值之差不超过一个设定的阈值(一般为0.001)或者迭代次数达到设定的上限(迭代超过1000次后停止)。

本实施例中，基于总词库、总词句库以及总主题库，分别针对对应每个话术标签(即话术等级)的关键词/主题词/句子进行三次优化，在停止迭代后即可得到对应每个话术标签的最优代表性词语子集、最优代表性主题词子集以及最优代表性句子子集并作为话术词句。

话术支持库存储部17用于将话术词句以及相应的话术等级进行对应存储并形成一个话术支持库。

话术等级判定部18用于在服务侧通信部20接收到座席终端102发送的包含座席语音以及人员识别信息的话术支持请求时，基于话术预测模型对接收到的座席语音进行预测并根据输出的话术标签判定该座席语音对应的话术等级作为人员话术等级。

本实施例中，话术支持请求存在包含座席语音以及人员识别信息的话术支持请求(以下称为第一请求)以及包含请求话术等级以及人员识别信息的话术支持请求(以下称为第二请求)，仅当服务侧通信部20接收到第一请求时，话术等级判定部18才会对第一请求中的座席语音进行判定。

本实施例中，话术等级判定部18所使用的话术预测模型与话术标签预测部12所使用的话术预测模型40为同一个模型。当话术预测模型40输出预测结果后，话术等级判定部18就会判定出座席语音对应的话术标签，并将该话术标签对应的话术等级作为人员话术等级。

话术支持词句获取部19基于座席终端发送的话术支持请求从话术支持库中获取相应的话术词句作为话术支持词句。

本实施例中，话术支持词句获取部19会根据话术支持请求获取相应的话术词句：当话术支持请求为第一请求时，话术支持词句获取部19会基于话术等级判定部18判定出的人员话术等级，从话术支持库中获取话术等级高于人员话术等级的所有话术词句作为话术支持词句(以下称为第一支持词句)；当话术支持请求为第二请求时，话术支持词句获取部19会根据第二请求中的请求话术等级从话术支持库中获取话术等级与请求话术等级相对应的所有话术词句作为话术支持词句(以下称为第二支持词句)。

进一步，在话术支持词句获取部19获取到话术支持词句后，服务侧通信部20就会将该话术支持词句根据话术支持请求中的人员识别信息发送给相应的座席终端102。

座席人员在使用座席终端102前，需要先输入人员识别信息(即座席人员的工号、密码等识别信息)进行登录操作并暂存在座席终端102后，才能通过座席终端102进行座席工作。

图6是本发明实施例中座席终端的结构框图。

如图6所示，座席终端102包括语音采集部21、画面存储部22、输入显示部23、终端侧通信部24以及控制上述各部的终端侧控制部25。

其中，终端侧通信部24用于进行座席终端102的各个组成部分之间以及座席终端102与分析服务器101之间的数据交换，终端侧控制部25存储有用于对座席终端102的各个组成部分的工作进行控制的计算机程序。

语音采集部21为一个麦克风，用于在座席人员进行座席通话时进行录音，并形成座席语音。本实施例中，一旦语音采集部21采集到座席语音，终端侧通信部24就会将座席语音与存储的人员识别信息作为第一请求发送给分析服务器101。

画面存储部22中存储有话术支持画面以及话术请求画面。

话术支持画面用于在语音采集部21采集到座席语音后显示，并在该画面中显示从分析服务器101接收到的第一支持词句，从而让座席人员根据这些话术等级更高的词句对自身的话术进行改善。

话术请求画面用于在座席人员选择请求话术操作时显示并让座席人员输入需要请求的词句的话术等级，进一步在座席人员确认输入后显示从分析服务器101接收到的第二支持词句，从而让座席人员根据查询到的词句对自身的话术进行改善。

本实施例中，一旦座席人员确认了输入的话术等级(例如通过点击确认按钮)，终端侧通信部24就会将该话术等级作为请求话术等级并与存储的人员识别信息一起作为第二请求发送给分析服务器101。

输入显示部23用于显示上述画面，从而让座席人员通过这些画面完成相应的人机交互。

另外，座席终端102的画面存储部22还存储有其他常规的用于让座席人员进行座席工作的画面，在此不再赘述。

图7是本发明实施例中话术支持库的构建过程的流程图。

如图7所示，话术支持系统100的构建话术支持库的过程包括如下步骤：

步骤S2-1，从座席语音存储部11中获取用于构建话术支持库的座席语音，然后进入步骤S2-2；

步骤S2-2，话术标签预测部12基于话术预测模型依次对步骤S2-1获取的座席语音所对应的话术等级进行预测并输出该座席语音对应的话术标签以及置信度，然后进入步骤S2-3；

步骤S2-3，语音样本分类部13根据步骤S2-2预测的话术标签将步骤S2-1获取的座席语音进行分类并形成与各个话术标签分别对应的多个语音样本集，然后进入步骤S2-4；

步骤S2-4，样本获取部14分别从步骤S2-3分出的各个语音样本集中获取置信度最高的前n个座席语音作为代表性样本，然后进入步骤S2-5；

步骤S2-5，语料库提取形成部15对每个代表性样本进行语料提取并加总形成含有与每个话术等级相对应的多个语料的语料库，然后进入步骤S2-6；

步骤S2-6，话术词句获取部16用于对语料库进行遍历并基于每个话术等级获取m个样本语料作为话术词句，进一步由话术支持库存储部17将各个话术词句以及相应的话术等级进行对应存储并形成一个话术支持库，然后进入结束状态。

本实施例中，当上述话术支持库的构建过程结束并完成话术支持库的构建后，话术支持系统100就可以通过该话术支持库向座席人员提供话术支持。进一步，在实际应用中，当话术支持系统100运行一段时间后并且座席语音存储部11存储了足够多的新的座席语音后，话术支持系统100还可以重复上述过程并对话术支持库进行自动更新。

实施例作用与效果

根据本实施例提供的基于座席语音的话术支持系统，由于分析服务器通过话术预测模型对所有存储的座席语音进行预测得到其对应各个话术等级的话术标签以及置信度，并根据话术标签对座席语音进行分类以及获取各个分类下的代表性样本，再对各个代表性样本进行语料提取形成语料库，因此在实现了基于座席语音抽取代表性语料的同时，还考虑了语料的准确性(高置信度)和多样性。进一步，还由于对语料库进行遍历得到话术词句，并基于该话术词句以及各个话术词句对应的话术等级对应存储为一个话术支持库，因此，座席终端可以通过该话术支持库获取座席人员所需的话术支持词句并为座席人员提供话术支持，使得座席人员可以根据这些词句对自身的话术进行改善。另外，由于分析服务器可以不断存储座席终端采集到的座席语音，并自动对话术支持库进行迭代更新，形成一个增强的闭环回路，因此本发明的话术支持系统不仅使得座席人员可以获取不同的词句，并且能随着时间获取到更具有代表性的词句，从而更好地根据这些词句对自身的话术能力的进行改善。

实施例中，由于话术预测模型通过多视图提取模块提取座席语音的多视图特征，并通过特征权重提取模块基于多视图特征进行特征权重的提取，因此在将多视图特征输入预先构建的多个基分类器并输出中间预测结果时，可以通过输出融合模块基于特征权重对各个中间预测结果进行融合。通过这样的预测过程，可以准确且稳定地预测出座席语音所对应的话术等级。

进一步，实施例中，由于多视图特征包含文本特征、时域特征与频域特征，因此，话术评分模块能够从用词、语调等多个方面对座席语音的话术等级进行预测，从而全面、准确地评估各个座席语音中座席人员是“如何说”以及“说了什么”，最终得到更符合客观判断的话术等级以及置信度。

实施例中，由于在采集到座席人员的座席语音时，就通过分析服务器的话术等级判定部判定该座席语音对应的人员话术等级并由话术支持词句获取部获取从话术支持库中获取话术等级高于人员话术等级的话术支持词句，进一步通过座席终端在话术支持画面向座席人员提供话术支持词句，因此可以在座席人员每次结束座席通话时，就向座席人员提供话术能力更高的话术词句，从而便于话术人员每一次都进行自我总结以及自我提升。

实施例中，由于通过话术请求画面让话术人员输入请求话术等级并通过话术支持词句获取部获取相应话术等级的话术支持词句，进一步在话术请求画面中进行显示为座席人员提供话术支持，因此可以让座席人员根据自身的需要选择对应等级的话术进行查看，从而更便于话术人员根据这些词句对自身的话术进行总结以及提升。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

Claims

1.一种基于座席语音的话术支持系统，其特征在于，包括：

多个座席终端，由座席人员持有；以及

分析服务器，与所述座席终端相通信连接，

其中，所述座席终端具有用于对所述座席人员在进行座席通话时的座席语音进行采集的语音采集部以及用于将所述座席语音发送给所述分析服务器的终端侧通信部，

所述分析服务器具有：

座席语音存储部，存储有多个从各个所述座席终端接收到的座席语音；

话术标签预测部，基于预设的话术预测模型依次对被存储的每个所述座席语音所对应的话术等级进行预测并输出该座席语音所对应的表示所述话术等级的话术标签以及该座席语音的置信度；

语音样本分类部，根据所述话术标签将所述座席语音进行分类并形成与各个所述话术标签分别对应的多个语音样本集；

样本获取部，分别从各个所述语音样本集获取所述置信度最高的前n个座席语音作为代表性样本；

语料库提取形成部，对每个所述代表性样本进行语料提取并加总形成含有与每个所述话术等级相对应的多个语料的语料库；

话术词句获取部，用于对所述语料库进行遍历并基于每个话术等级获取m个样本语料作为话术词句；

话术支持库存储部，用于将所述话术词句以及相应的所述话术等级进行对应存储并形成一个话术支持库；

话术支持词句获取部，基于所述座席终端发送的话术支持请求从所述话术支持库中获取相应的话术词句作为话术支持词句；以及

服务侧通信部，用于将获取到的所述话术支持词句发送给所述座席终端从而为所述座席人员提供话术支持，

所述话术预测模型包括：

输入模块，用于输入所述座席语音；

多视图提取模块，用于对所述座席语音进行多视图特征提取并得到对应该座席语音的多视图特征；

特征权重提取模块，基于L1范数对所述多视图特征进行回归以及归一化并得到对应每一个训练语音的特征权重；

预测模块，包含预定数量个基分类器，分别用于对所述多视图特征进行预测并得到各自的中间预测结果；以及

输出融合模块，基于所述特征权重对所有的所述中间预测结果进行融合从而得到对应所述座席语音的所述话术标签以及所述置信度，

所述预定数量个基分类器通过如下步骤构建得到：

步骤S1，获取用于进行训练的训练语音；

步骤S2，对所述训练语音进行多视图特征提取并得到对应该训练语音的训练用多视图特征；

步骤S3，基于L1范数对所述训练用多视图特征进行回归以及归一化并得到对应每一个所述训练语音的特征权重；

步骤S4，基于所述特征权重对所述训练用多视图特征进行概率抽样得到预定数量个训练用特征子集；

步骤S5，基于每个所述训练用特征子集分别训练构建一个所述基分类器从而得到所述预定数量个基分类器，

所述多视图特征包括文本特征、时域特征以及频域特征，

所述多视图提取模块具有：

文本处理提取单元，用于将语音数据处理为预处理词并进行提取得到对应文本信息的文本特征；以及

语音处理提取单元，用于对所述语音数据进行处理从而提取得到对应该语音的时域特征以及频域特征，

所述语音处理提取单元包括：

语音转换部分，用于将所述语音数据转换为梅尔频率倒谱系数；以及

特征指标提取部分，基于所述梅尔频率倒谱系数进行特征提取从而得到所述时域特征以及所述频域特征，

所述时域特征包括波形因子、脉冲因子、峭度、偏度、裕度因子和峰值，

所述频域特征包括重心频率、均方频率、均方根频率、频率方差和频率标准差。

2.根据权利要求1所述的基于座席语音的话术支持系统，其特征在于：

其中，所述语料库提取形成部具有：

文本转换单元，依次将每个所述代表性样本转换对应的文本信息；

语料提取单元，用于对所述文本信息进行分词、分句以及提取主题词操作从而得到包含词、句子以及关键词的所述样本语料；

向量化处理单元，用于对所述样本语料进行向量化；

语料库构建单元，将所有样本语料按照每一类的所述话术标签分别进行加总形成语料库。

3.根据权利要求2所述的基于座席语音的话术支持系统，其特征在于：

其中，所述话术词句获取部采用模拟退火算法对所述语料库进行处理形成最优代表性子集，并将该最优代表性子集中的样本语料作为所述话术词句，所述最优代表性子集的训练目标为：

4.根据权利要求1所述的基于座席语音的话术支持系统，其特征在于：

其中，所述文本处理提取单元包括：

文本转换部分，用于将所述语音数据转换为文本信息；

预处理部分，用于对所述文本信息进行至少包括分词、去噪的预处理得到多个预处理词；

向量化部分，用于通过预设的word2vec模型对所述多个预处理词进行向量化得到相应的多个词向量；以及

文本特征提取部分，将所述多个词向量输入预先基于标记样本训练得到的LSTM模型并将该LSTM模型中最后一个神经单元中最后一个隐含层的输出作为所述文本特征。

5.根据权利要求1所述的基于座席语音的话术支持系统，其特征在于：

其中，所述座席人员具有各自的人员识别信息，

所述座席终端还具有画面存储部以及输入显示部，

所述分析服务器还具有话术等级判定部，

所述画面存储部存储有话术支持画面，

一旦所述语音采集部采集到所述座席语音，所述终端侧通信部就将该座席语音以及相应的人员识别信息作为所述话术支持请求发送给所述分析服务器，

一旦接收到包含所述座席语音以及所述人员识别信息的所述话术支持请求，所述话术等级判定部就基于所述话术预测模型对接收到的所述座席语音进行预测并根据输出的所述话术标签判定该座席语音对应的所述话术等级作为人员话术等级，

所述话术支持词句获取部从所述话术支持库中获取所述话术等级高于所述人员话术等级的所有所述话术词句作为所述话术支持词句，

所述服务侧通信部根据所述人员识别信息将所述话术支持词句时发送给相应的所述座席终端，

一旦接收到所述话术支持词句，所述输入显示部就显示所述话术支持画面并显示接收到的所述话术支持词句让所述座席人员查看。

6.根据权利要求1所述的基于座席语音的话术支持系统，其特征在于：

其中，所述座席人员具有各自的人员识别信息，

所述座席终端还具有画面存储部以及输入显示部，

所述画面存储部存储有话术请求画面，

所述输入显示部显示所述话术请求画面让所述座席人员输入需要支持的话术等级作为请求话术等级，

一旦所述座席人员确认了输入的所述请求话术等级，所述终端侧通信部就将该请求话术等级以及相应的人员识别信息作为所述话术支持请求发送给所述分析服务器，

一旦接收到包含所述请求话术等级以及所述人员识别信息的所述话术支持请求，所述话术支持词句获取部从所述话术支持库中获取所述话术等级与所述请求话术等级相对应的所有所述话术词句作为所述话术支持词句，

一旦接收到所述话术支持词句，所述输入显示部就在所述话术请求画面中根据所述请求话术等级对应地显示接收到的所述话术支持词句让所述座席人员查看。