CN104462600B

CN104462600B - 实现来电原因自动分类的方法及装置

Info

Publication number: CN104462600B
Application number: CN201410853688.8A
Authority: CN
Inventors: 何绵涛; 刘江; 王平华; 梅珂; 吴玲; 乔玉平; 李钊辉; 荣幸
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2014-12-31
Filing date: 2014-12-31
Publication date: 2018-04-17
Anticipated expiration: 2034-12-31
Also published as: CN104462600A

Abstract

本发明公开了一种实现来电原因自动分类的方法及装置，该方法包括：获取客户与座席的语音流；对所述客户与座席的语音流进行语音识别，得到对话文本；提取所述对话文本对应的语义标签信息；以所述语义标签信息作为索引，在来电原因索引库中进行搜索，得到与所述对话文本最接近的多个预估结果；基于分类模型对所述多个预估结果进行排序；根据排序结果确定来电原因结果。利用本发明，可以减轻座席的记忆负担和检索负担，提升来电原因记录的准确性和全面性。

Description

实现来电原因自动分类的方法及装置

技术领域

本发明涉及人工智能技术领域，具体涉及一种实现来电原因自动分类的方法及装置。

背景技术

随着呼叫中心业务的不断发展，客服服务总量越来越大，客户对服务的质量要求也越来越高。为了提升自身服务质量，呼叫中心要求座席记录每通电话的客户来电原因，从而实现客户需求的精准定位，以便后续的经营分析，优化业务办理流程，发现公司产品、营销案设计缺陷等。

目前，通话来电原因的记录主要通过座席根据客户的问题关联公司业务点进行来电原因归类点击。具体地，一通电话结束后，呼叫中心的座席系统会弹出一棵来电原因树，座席通过回忆总结本通电话客户的来电内容，层层点击选择树上来电原因节点记录客户的来电原因，但由于来电原因树体系复杂，通常运营商来电原因树的层级结构会达到八层左右，节点数通常也有数千个，座席在较短时间内选择来电原因，添加了太多主观性，普遍存在点击错误问题。如果一通来电中客户会涉及到多个问题，这样就给座席带来巨大的记忆负担，会出现来电原因点击不全问题。点击错误问题和点击不全问题，导致客户来电原因数据记录存在很大偏差，基础数据的偏差将直接导致运营分析结果的失真。此外，每通电话都要层层点击选择来电原因，影响座席的工作效率，降低单位时间内接听电话数量，增加呼叫中心的运营成本。

发明内容

本发明实施例提供一种实现来电原因自动分类的方法及装置，以减轻座席的记忆负担和检索负担，提升来电原因记录的准确性和全面性。

为此，本发明实施例提供如下技术方案：

一种实现来电原因自动分类的方法，包括：

获取客户与座席的语音流；

对所述客户与座席的语音流进行语音识别，得到对话文本；

提取所述对话文本的业务关键词及对应的语义标签信息，，所述语义标签信息包括业务关键词的词性、词类；

以所述语义标签信息作为索引，在来电原因索引库中进行搜索，得到与所述对话文本最接近的多个预估结果；

基于排序模型对所述多个预估结果进行排序，所述排序模型是基于相关度特征训练得到的，所述相关度特征用于反映语义解析结果与标注的来电原因的通话的相关度；

根据排序结果确定来电原因结果。

优选地，所述获取客户与座席的语音流包括：

直接从物理声卡中录音座席麦克风输入的语音流，得到座席的语音流；

设置虚拟声卡，通过对所述虚拟声卡上输出的客户的语音流进行录音，得到客户的语音流。

优选地，所述对所述客户与座席的语音流进行语音识别，得到对话文本包括：

利用预先结合各区域地方口音适配训练得到的声学模型和/或预先结合各区域地方口音适配训练得到的语言模型分别对所述客户与座席的语音流进行语音识别，得到各自对应的文本片段；

根据各文本片段对应的语音流的时间点，对所述文本片段进行合并，得到所述对话文本。

优选地，所述提取所述对话文本对应的语义标签信息包括：

抽取所述对话文本中的业务关键词；

对所述业务关键词进行词义消歧；

获取消歧后的业务关键词的语义标签信息。

优选地，所述根据排序结果确定来电原因结果包括：

选择排在首位的预估结果作为来电原因结果；或者

依次选择排在前面的多个预估结果进行显示，以使座席对显示的预估结果进行选择，并将座席选择的预估结果作为来电原因结果。

优选地，所述方法还包括：

向应用系统提交所述来电原因结果，以使所述应用系统保存所述来电原因结果。

一种实现来电原因自动分类的装置，包括：

语音获取模块，用于获取客户与座席的语音流；

语音识别模块，用于对所述客户与座席的语音流进行语音识别，得到对话文本；

信息提取模块，用于提取所述对话文本的业务关键词及对应的语义标签信息，所述语义标签信息包括业务关键词的词性、词类；

检索模块，用于以所述语义标签信息作为索引，在来电原因索引库中进行搜索，得到与所述对话文本最接近的多个预估结果；

排序模块，用于基于排序模型对所述多个预估结果进行排序，所述排序模型是基于相关度特征训练得到的，所述相关度特征用于反映语义解析结果与标注的来电原因的通话的相关度；

选择模块，用于根据排序结果确定来电原因结果。

优选地，所述语音获取模块包括：

座席语音流获取单元，用于直接从物理声卡中录音座席麦克风输入的语音流，得到座席的语音流；

客户语音流获取单元，用于通过对设置的虚拟声卡上输出的客户的语音流进行录音，得到客户的语音流。

优选地，所述语音识别模块包括：

识别单元，用于利用预先结合各区域地方口音适配训练得到的声学模型分别对所述客户与座席的语音流进行语音识别，得到各自对应的文本片段；

合并单元，用于根据所述识别单元得到的各文本片段对应的语音流的时间点，对所述文本片段进行合并，得到所述对话文本。

优选地，所述信息提取模块包括：

关键词抽取单元，用于抽取所述对话文本中的业务关键词；

规整单元，用于对所述业务关键词进行词义消歧；

语义标签获取单元，用于获取消歧后的业务关键词的语义标签信息。

优选地，所述选择模块将排在首位的预估结果作为来电原因结果；或者所述选择模块依次选择排在前面的多个预估结果进行显示，以使座席对显示的多个预估结果进行选择，并将座席选择的预估结果作为来电原因结果。

优选地，所述装置还包括：

提交模块，用于向应用系统提交所述来电原因结果，以使所述应用系统保存所述来电原因结果。

本发明实施例提供的实现来电原因自动分类的方法及装置，对客户与座席的语音流进行语音识别，得到对话文本；通过提取对话文本对应的语义标签信息；并以该语义标签信息作为索引，搜索得到与对话文本最接近的多个预估结果；然后基于分类模型对这些预估结果进行排序，并根据排序结果确定来电原因结果。一方面可以避免座席通过记忆造成来电原因的错选或者漏选，减轻座席的记忆负担和检索负担，并提升来电原因记录的准确性和全面性；另一方面可以缩短座席的通话处理时长，降低呼叫中心的运营成本。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例实现来电原因自动分类的方法的流程图；

图2是本发明实施例中排序模型的构建流程图；

图3是本发明实施例实现来电原因自动分类的装置的一种结构示意图；

图4是本发明实施例中信息提取模块的一种结构示意图；；

图5是本发明实施例中排序模型构建模块的一种结构示意图；

图6是本发明实施例实现来电原因自动分类的装置的另一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

如图1所示，是本发明实施例实现来电原因自动分类的方法的流程图，包括以下步骤：

步骤101，获取客户与座席的语音流。

具体地，可以通过对座席的客户端设备进行分声道实时录音，获取座席通道和客户通道的语音流，其中对于座席声道，可以直接从物理声卡中录音座席麦克风输入的语音流，客户声道语音流可以借助虚拟声卡中转获得，比如，在所述客户端设备上安装虚拟声卡驱动，通过配置虚拟声卡，将客户的语音流经过虚拟声卡中转，一方面输出到音频设备，另一方面可以从中转器上输出客户的语音流，然后对该客户的语音流进行录音，这样就完成客户和座席双通道的录音。当然，如果所述音频设备具有对外接口，也可以不用借助虚拟声卡，直接对音频设备输出的语音流进行录音。

步骤102，对所述客户与座席的语音流进行语音识别，得到对话文本。

需要说明的是，上述获取客户与座席的语音流及对所述语音流进行语音识别的过程可以是在每通通话结束后进行，也可以定时或定段进行，也可以是实时进行，对此本发明实施例不做限定。

具体地，如果实时进行，可以分别对客户语音流及座席语音流进行端点检测，得到多个语音片段，然后将每个语音片段进行语音识别，得到对应的文本片段，最后再根据各文本片段对应的语音流的时间点，对所述文本片段进行合并，得到所述对话文本。

上述语音识别的过程可以利用通用的语言模型和声学模型，采用现有的语音识别方法，对此本发明不做限定。特别地，为了进一步提高语音识别的准确度，在实际应用中，可以针对不同的应用区域，结合客户涉及的各地、各区域地方口音适配，来训练优化语音识别过程中所使用的声学模型和/或语言模型，具体地，可以在声学模型和语言模型的训练过程中使用大量该口音的样本进行训练。另外，还可以结合业务知识和热线服务范围，进行语言模型优化。

步骤103，提取所述对话文本对应的语义标签信息。

语义标签信息的提取可以概括为以下三个过程：

(1)抽取所述对话文本中的业务关键词。

比如，可以预先建立业务关键词表，对所述对话文本中的各文本片段进行分词，得到各分词单元，将各分词单元分别与业务关键词表中的业务关键词进行匹配，即可确定所述对话文本中的业务关键词。再比如，可以利用统计方法并结合上下文信息构建业务关键词树，其中，每个叶节点对应一个业务关键词，利用该业务关键词树及相应的查找策略，抽取得到所述对话文本中的业务关键词。

(2)对所述业务关键词进行词义消歧。

消歧的目的是对获得的业务关键词进行规整，比如，对其中包括的同义词、近义词等进行合并处理，以避免一些词义相近的关键词造成重复，并减少运算量，提高语义标签信息的抽取效率。

(3)获取消歧后的业务关键词的语义标签信息。

所述语义标签信息可以包括业务关键词的词性、词类等语义信息。具体地，可以预先采用统计方式，建立语义标签信息表，该语义标签信息表包括业务关键词及其对应的语义信息。通过查表即可得到消歧后的业务关键词的语义标签信息。

由于同一个关键词在不同的上下文环境中可能会有不同的词性、词类等语义信息，因此，为了进一步提高获取的各业务关键词的语义标签信息的准确性，还可以结合业务关键词的上下文，训练得到上下文相关的关键词网络模型，基于该模型确定各业务关键词的语义标签信息。关键词网络模型的训练可采用一些常规方式，对此本发明实施例不做限定。

步骤104，以所述语义标签信息作为索引，在来电原因索引库中进行搜索，得到与所述对话文本最接近的多个预估结果。

所述来电原因索引库是基于大数据挖掘构建的，该库的建立需要用户提供每个来电原因对应的原始通话数据，比如，每条来电原因对应200条左右的对话文本，对含有来电原因分类标签的对话文本进行语义抽取，建立来电原因索引库。

以业务关键词的词性、词类等语义标签信息作为搜索条件，在来电原因索引库中进行搜索，得到与当前对话文本最接近的n个来电原因预估结果，比如n的取值范围可以为50～200。

步骤105，基于排序模型对所述多个预估结果进行排序。

本发明实施例的排序模型，利用机器学习的方法学习出参数权重，实现基于统计的排序方法，对上述多个预估结果与本次对话文本之间的相关度进行排序。

排序模型的构建及基于排序模型对所述多个预估结果进行排序的具体过程将在后面详细描述。

步骤106，根据排序结果确定来电原因结果。

具体地，可以选择排在首位的预估结果作为来电原因结果。

当然，为了进一步保证选择的正确性，还可以由人工辅助来确定。比如，依次选择排在前面的多个预估结果进行显示，以使座席对显示的预估结果进行选择，即在显示界面上弹出本通电话的来电原因列表，并将座席选择的预估结果作为来电原因结果。

需要说明的是，在实际应用中，本发明实施例的方法还可以向应用系统(比如座席系统)提交所述来电原因结果，以使所述应用系统保存所述来电原因结果。

如图2所示，是本发明实施例中排序模型的构建流程图，，包括以下步骤：

步骤201，收集训练数据。

训练数据可以来自于海量的用户日志，也可以是由人工标注得到的训练数据。

步骤202，对所述训练数据进行来电原因标注，得到训练样本。

步骤203，对所述训练数据进行语义解析，得到语义解析结果。

步骤204，提取所述语义解析结果的相关度特征。

该相关度特征反映了语义解析结果与标注的来电原因的通话的相关度，具体可以是以下任意一种或多种：语义解析结果所能理解的词数、核心元素数、核心元素内容的热度。其中：所述词数表示所述语义解析结果与所述训练数据针对同一来电原因共同出现的词数；

所述核心元素数表示所述语义解析结果与所述训练数据针对同一来电原因共同出现的核心元素数；

所述核心元素内容的热度表示核心元素内容在来电原因通话下的热门程度。

当然，还可以有其它用于反映语义解析结果与标注的来电原因的通话的相关度的特征，对此本发明实施例不做限定。

步骤205，利用所述训练样本及所述相关度特征训练得到排序模型。

具体地，可以采用Learning To Rank(基于机器学习的排序方法，L2R)的方式，选择合适的算法训练模型，例如Ranking SVM(基于支持向量机的排序学习算法)、RankBoost、RankNet等。

本发明实施例中的排序模型可以采用包含大量用户实际说法的、覆盖多种意图和参数组合的大规模训练数据通过离线训练得到，该大规模数据能较为真实地反映客户语音流在语义方面的特征，从而使得该排序模型能够全面、准确地体现各语义解析结果与不同来电原因通话的相关度。

基于上述排序模型，在对所述多个预估结果进行排序时，可以将各预估结果的相关度特征与排序模型进行匹配计算，得到一个置信度得分。然后选择排置信度最高的预估结果作为来电原因结果；或者依次选择排在前面的多个预估结果进行显示，以使座席对显示的预估结果进行选择，并将座席选择的预估结果作为来电原因结果。

例如，假设来电原因索引库中来电原因有“充话费”、“加流量”、“改彩铃”等几种，每一种来电原因在通话中会涉及到一些不同的关键词，比如来电原因为“充话费”时，可能出现“欠费”、“银行卡”等关键词，这些关键词可以通过语音信号中的一些具体特征体现，构建排序模型时，提取这些特征，训练构建排序模型。不同的来电原因的特征参数是不一样的。在识别阶段，会对客户与座席的通话文本的这些特征进行提取，并将这些特征与每个来电原因的语义模型进行匹配，匹配度最高的即为第一候选来电原因，依次类推。比如客户与座席的通话文本中出现“话费”、“流量”、“银行卡”等关键词，那么提取出的特征参数与来电原因为“充话费”的模型匹配程度应该最高，作为来电原因第一候选，与“加流量”的模型匹配程度次高，作为第二候选。

可见，本发明实施例实现来电原因自动分类的方法，对获取的客户与座席的语音流进行语音识别，得到对话文本；通过提取对话文本对应的语义标签信息；并以该语义标签信息作为索引，搜索得到与对话文本最接近的多个预估结果；然后基于分类模型对这些预估结果进行排序，并根据排序结果确定来电原因结果。一方面可以避免座席通过记忆造成来电原因的错选或者漏选，减轻座席的记忆负担和检索负担，并提升来电原因记录的准确性和全面性；另一方面可以缩短座席的通话处理时长，降低呼叫中心的运营成本。

相应地，本发明实施例还提供一种实现来电原因自动分类的装置，如图3所示，是该装置的一种结构示意图。

在该实施例中，所述装置包括：

语音获取模块301，用于获取客户与座席的语音流；

语音识别模块302，用于对所述客户与座席的语音流进行语音识别，得到对话文本；

信息提取模块303，用于提取所述对话文本对应的语义标签信息；

检索模块304，用于以所述语义标签信息作为索引，在来电原因索引库300中进行搜索，得到与所述对话文本最接近的多个预估结果；

排序模块305，用于基于排序模型对所述多个预估结果进行排序；

选择模块306，用于根据排序结果确定来电原因结果。

需要说明的是，上述语音获取模块301获取客户与座席的语音流及语音识别模块302对所述语音流进行语音识别的过程可以是在每通通话结束后进行，也可以定时或定段进行，也可以是实时进行，对此本发明实施例不做限定。

比如，上述语音获取模块可以采用多种方式获取客户与座席的语音流，比如该模块可以包括：座席语音流获取单元和客户语音流获取单元。其中：

所述座席语音流获取单元用于直接从物理声卡中录音座席麦克风输入的语音流，得到座席的语音流；

所述客户语音流获取单元用于通过对设置的虚拟声卡上输出的客户的语音流进行录音，得到客户的语音流。

另外，上述语音识别模块302可以利用通用的语言模型和声学模型，采用现有的语音识别方法进行语音识别，对此本发明不做限定。特别地，为了进一步提高语音识别的准确度，在实际应用中，可以针对不同的应用区域，结合客户涉及的各地、各区域地方口音适配，来训练优化语音识别过程中所使用的声学模型和/或语言模型，比如，上述语音识别模块的一种具体结构包括：识别单元和合并单元。其中：

所述识别单元用于利用预先结合各区域地方口音适配训练得到的声学模型和/或预先结合各区域地方口音适配训练得到的语言模型分别对所述客户与座席的语音流进行语音识别，得到各自对应的文本片段；

所述合并单元用于根据所述识别单元得到的各文本片段对应的语音流的时间点，对所述文本片段进行合并，得到所述对话文本。

如图4所示，是本发明实施例中信息提取模块的一种结构示意图。

该信息提取模块包括：

关键词抽取单元401，用于抽取所述对话文本中的业务关键词；

规整单元402，用于对所述业务关键词进行词义消歧；

语义标签获取单元403，用于获取消歧后的业务关键词的语义标签信息。

上述选择模块306具体可以将排在首位的预估结果作为来电原因结果；或者依次选择排在前面的多个预估结果进行显示，以使座席对显示的多个预估结果进行选择，并将座席选择的预估结果作为来电原因结果。

需要说明的是，在实际应用中，所述排序模型可以采用离线的方式预先训练，具体可以由其它系统训练，也可以在本发明实施例的装置中设置相应的排序模型构建模块(未图示)来构建该排序模型。

如图5所示，是本发明实施例中排序模型构建模块的一种结构示意图。

所述排序模型构建模块包括：

训练数据获取单元501，用于收集训练数据。

标注单元502，用于对所述训练数据进行来电原因标注，，得到训练样本。

语义解析单元503，用于对所述训练数据进行语义解析，得到语义解析结果。

特征提取单元504，用于提取所述语义解析结果的相关度特征。所述相关度特征反映了语义解析结果与标注的来电原因的通话的相关度，具体可参照前面的描述。

训练单元505，用于利用所述训练样本及所述相关度特征训练得到排序模型。

上述各单元的功能的具体实现过程可以参见前面本发明方法实施例中的描述，在此不再赘述。

需要说明的是，为了进一步保证选择的正确性，还可以由人工辅助来确定。相应地，如图6所示，在本发明装置的另一实施例中，所述装置还可进一步包括：提交模块307，用于向应用系统提交所述来电原因结果，以使所述应用系统保存所述来电原因结果。

与现有技术相比，本发明实施例实现来电原因自动分类的装置具有以下优点：

(1)来电原因记录的准确性，融入语义特征的来电原因排序模型，来电原因识别准确率更高；

(2)来电原因记录的全面性，基于统计机器学习技术给出每通电话的多个来电原因，来电原因记录更加全面；

(3)来电原因记录的高效性，通过本发明的实时语音转写、实时来电原因识别等处理，实现来电原因自动给出，极大地减少了客服的工作量，提升效率。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及设备；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种实现来电原因自动分类的方法，其特征在于，包括：

获取客户与座席的语音流；

对所述客户与座席的语音流进行语音识别，得到对话文本；

提取所述对话文本的业务关键词及对应的语义标签信息，所述语义标签信息包括业务关键词的词性、词类；

根据排序结果确定来电原因结果。

2.根据权利要求1所述的方法，其特征在于，所述获取客户与座席的语音流包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述客户与座席的语音流进行语音识别，得到对话文本包括：

4.根据权利要求1所述的方法，其特征在于，所述提取所述对话文本对应的语义标签信息包括：

抽取所述对话文本中的业务关键词；

对所述业务关键词进行词义消歧；

获取消歧后的业务关键词的语义标签信息。

5.根据权利要求1所述的方法，其特征在于，所述根据排序结果确定来电原因结果包括：

选择排在首位的预估结果作为来电原因结果；或者

6.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：

7.一种实现来电原因自动分类的装置，其特征在于，包括：

语音获取模块，用于获取客户与座席的语音流；

选择模块，用于根据排序结果确定来电原因结果。

8.根据权利要求7所述的装置，其特征在于，所述语音获取模块包括：

9.根据权利要求7所述的装置，其特征在于，所述语音识别模块包括：

10.根据权利要求7所述的装置，其特征在于，所述信息提取模块包括：

关键词抽取单元，用于抽取所述对话文本中的业务关键词；

规整单元，用于对所述业务关键词进行词义消歧；

11.根据权利要求7所述的装置，其特征在于，

所述选择模块将排在首位的预估结果作为来电原因结果；或者

所述选择模块依次选择排在前面的多个预估结果进行显示，以使座席对显示的多个预估结果进行选择，并将座席选择的预估结果作为来电原因结果。

12.根据权利要求7至11任一项所述的装置，其特征在于，所述装置还包括：