CN111160017A

CN111160017A - 关键词抽取方法、话术评分方法以及话术推荐方法

Info

Publication number: CN111160017A
Application number: CN201911272272.6A
Authority: CN
Inventors: 唐文军; 贾晓谦; 王冉; 宋子岳
Original assignee: Beijing Wensi Haihui Jinxin Software Co Ltd
Current assignee: Beijing Wensi Haihui Jinxin Software Co Ltd
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2020-05-15
Anticipated expiration: 2039-12-12
Also published as: CN111160017B

Abstract

本申请涉及一种关键词抽取方法、装置、计算机设备和存储介质，将待处理文本数据输入至利用携带集合编码的序列标注样本训练得到的关键词抽取网络模型，能够通过标准关键词充分发掘上下文的语义相关性，提高了关键词抽取的准确率。本申请还提供一种话术评分方法、装置、计算机设备和存储介质，通过将待评分话术输入已训练的关键词抽取网络模型，能够针对不同业务场景，抽取出只具备业务相关的话术中的关键词，提高了话术评分的准确性。本申请还提供一种话术推荐方法、装置、计算机设备和存储介质，基于由训练好的关键词抽取网络模型得到的话术评分，结合用户意图向客户推荐话术，能够更具针对性推荐话术，提高应答话术的标准化程度。

Description

关键词抽取方法、话术评分方法以及话术推荐方法

技术领域

本申请涉及自然语言处理技术领域，特别是涉及关键词抽取方法、装置、计算机设备和存储介质与话术评分方法、装置、计算机设备和存储介质以及话术推荐方法、装置、计算机设备和存储介质。

背景技术

关键词是指能反映文本主题或者主要内容的词语。关键词提取是自然语言处理领域的一个重要的子任务。在信息检索中，准确的关键词提取可以大幅提升效率，在对话系统中，机器可以通过关键词来理解用户意图；在自动文摘、文本分类中，关键词的发现也非常有帮助。

传统的关键词抽取方法是按照一定的计算方法，对文本进行无监督的关键词抽取，由于计算方法的逻辑无法适应复杂多变的业务需求，使得在特定的业务场景下，关键词抽取的准确率较低。例如，在话术评分的业务场景下，关键词抽取的准确性会直接影响评分，采用传统的关键词抽取方法，抽取出的关键词往往不具备业务相关性，使得话术评分具有一定的随机性，准确率不高。

发明内容

基于此，有必要针对传统的关键词抽取方法存在的关键词抽取准确率不高的问题，提供一种更准确的关键词抽取方法、装置、计算机设备和存储介质与话术评分方法、装置、计算机设备和存储介质以及话术推荐方法、装置、计算机设备和存储介质。

一种关键词抽取方法，方法包括：

获取待处理文本数据；

将待处理文本数据输入至已训练的关键词抽取网络模型，得到关键词；

其中，已训练的关键词抽取网络模型采用下述方式构建：

获取训练语料样本数据，训练语料样本数据包括具有对应关系的标准话术和标准关键词；

对标准关键词进行分类处理、并将分类后的标准关键词归类至对应的数据集合；

获取数据集合对应的集合编码，基于集合编码，将标准话术处理成携带集合编码的序列标注样本；

获取初始ERNIE-BiLSTM-CRF关键词抽取网络模型，将携带集合编码的序列标注样本输入至初始ERNIE-BiLSTM-CRF关键词抽取网络模型；

基于所述携带集合编码的序列标注样本，训练初始ERNIE-BiLSTM-CRF关键词抽取网络模型，得到关键词抽取网络模型。

在其中一个实施例中，对标准关键词进行分类处理包括：

采用预设预训练模型对标准关键词进行语义向量编码，得到关键词语义向量；

获取关键词语义向量之间的语义相似度，根据语义相似度对标准关键词进行分类。

在其中一个实施例中，计算关键词语义向量之间的语义相似度，根据语义相似度对标准关键词进行分类包括：

采用局部敏感哈希算法和余弦相似度算法，计算关键词语义向量之间的语义相似度；

将语义相似度与预设相似度阈值进行比较，根据比较结果对标准关键词进行分类。

在其中一个实施例中，基于集合编码，将标准话术处理成携带集合编码的序列标注样本包括：

将标准话术与标准关键词进行匹配；

基于集合编码，为匹配出的标准话术中的关键词和非关键词添加对应的标注，得到携带集合编码的序列标注样本。

在其中一个实施例中，初始ERNIE-BiLSTM-CRF关键词抽取网络模型的数量至少为两个；初始ERNIE-BiLSTM-CRF关键词抽取网络模型的数量包括ERNIE网络单元、BiLSTM网络单元以及CRF网络单元；

基于携带集合编码的序列标注样本，训练初始ERNIE-BiLSTM-CRF关键词抽取网络模型，得到关键词抽取网络模型包括：

根据ERNIE网络单元对携带集合编码的序列标注样本进行语义编码，得到各序列标注样本对应的上下文词向量；

将上下文词向量输入至BiLSTM网络单元，得到上下文词向量的双向隐藏状态向量；

将双向隐藏状态向量进行拼接、并将拼接后的双向隐藏状态向量输入至CRF网络单元，得到各序列标注样本中关键词出现的概率值；

根据概率值，筛选出输出概率值最高的初始ERNIE-BiLSTM-CRF关键词抽取网络模型，得到关键词抽取网络模型。

一种关键词抽取装置，装置包括：

数据获取模块，用于获取待处理文本数据；

数据处理模块，用于将待处理文本数据输入至已训练的关键词抽取网络模型，得到关键词，其中，已训练的关键词抽取网络模型采用下述方式构建：获取训练语料样本数据，训练语料样本数据包括具有对应关系的标准话术和标准关键词，对标准关键词进行分类处理、并将分类后的标准关键词归类至对应的数据集合，获取数据集合对应的集合编码，基于集合编码，将标准话术处理成携带集合编码的序列标注样本，获取初始ERNIE-BiLSTM-CRF关键词抽取网络模型，将携带集合编码的序列标注样本输入至初始ERNIE-BiLSTM-CRF关键词抽取网络模型，基于携带集合编码的序列标注样本，训练初始ERNIE-BiLSTM-CRF关键词抽取网络模型，得到关键词抽取网络模型。

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述关键词抽取方法中的步骤。

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述关键词抽取方法中的步骤。

上述关键词抽取方法、装置、计算机设备和存储介质，将待处理文本数据输入至利用携带集合编码的序列标注样本训练得到的关键词抽取网络模型，使得通过该关键词抽取神经网络模型能够通过标准关键词充分发掘上下文的语义相关性，准确抽取出文本数据中的关键词，提高了关键词抽取的准确率。

一种话术评分方法，方法包括：

获取待评分话术，将待评分话术转换为字符序列；

将字符序列输入至已训练的关键词抽取网络模型，抽取字符序列中的关键词，得到抽取出的关键词对应的集合标记序列；

根据集合标记序列，统计命中集合数，确定待评分话术的关键词命中数；

根据关键词命中数，得到待评分话术的评分；

其中，已训练的关键词抽取网络模型为上述关键词抽取方法中的关键词抽取网络模型。

一种话术评分装置，装置包括：

话术处理模块，用于获取待评分话术，将待评分话术转换为字符序列；

数据处理模块，用于将字符序列输入至已训练的ERNIE-BiLSTM-CRF关键词抽取网络模型，抽取字符序列中的关键词，得到抽取出的关键词对应的集合标记序列，ERNIE-BiLSTM-CRF关键词抽取网络模型为上述关键词抽取方法中的关键词抽取网络模型；

关键词命中数确定模块，用于根据集合标记序列，统计命中集合数，确定待评分话术的关键词命中数；

评分模块，用于根据关键词命中数，得到待评分话术的评分。

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述话术评分方法中的步骤。

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述话术评分方法中的步骤。

上述话术评分方法、装置、计算机设备和存储介质以及话术推荐方法、装置、计算机设备和存储介质，通过将待评分话术输入已训练的关键词抽取网络模型，能够针对不同业务场景，抽取出只具备业务相关的话术中的关键词，也避免了只说关键词而不具备业务相关性的话术获得较高评分的现象发生，且将与关键词语义相似或相关的关键词都抽取到同一个数据集合，根据输出的抽取出的关键词对应的集合编码，确定关键词命中数进而计算话术评分，能够使识别出来的关键词具有一定的新词发现能力，避免关键词的漏抽或重复抽取，大大提高了话术评分的准确性。

一种话术推荐方法，方法包括：

获取用户话术，根据用户话术识别出用户意图；

根据用户意图，检索出与用户意图匹配的存量话术；

基于话术评分对存量话术进行排名；

筛选、并推送预设名次的存量话术；

其中，存量话术的评分采用如上述话术评分方法处理得到。

一种话术推荐装置，装置包括：

用户意图获取模块，用于获取用户话术，根据用户话术识别出用户意图；

话术匹配模块，用于根据用户意图，检索出与用户意图匹配的存量话术；

话术排名模块，用于获取存量话术的评分、并基于存量话术的评分对存量话术进行排名，存量话术的评分采用上述话术评分方法处理得到；

话术推荐模块，用于筛选、并推送预设名次的存量话术。

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述话术推荐方法中的步骤。

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述话术推荐方法中的步骤。

上述话术推荐方法、装置、计算机设备和存储介质，基于由训练好的关键词抽取网络模型得到的话术评分，结合用户意图向客户推荐话术，能够更具针对性推荐话术，提高应答话术的标准化程度。

附图说明

图1为一个实施例中关键词抽取方法、话术评分方法以及话术推荐方法的应用环境图；

图2为一个实施例中关键词抽取方法的流程示意图；

图3为另一个实施例中关键词抽取网络模型构建步骤的详细流程示意图；

图4为一个实施例中话术评分方法的流程示意图；

图5为一个实施例中话术推荐方法的流程示意图；

图6为一个实施例中关键词抽取装置的结构框图；

图7为一个实施例中话术评分装置的结构框图；

图8为另一个实施例中话术推荐装置的结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的关键词抽取方法，可以应用于如图1所示的应用环境中。具体的，可以是服务器104部署有训练好的关键词抽取模型，管理人员通过终端102上传待处理文本数据至服务器104，然后管理人员通过终端102向服务器发送关键词抽取请求，服务器104接收该请求，获取待处理文本数据，将待处理文本数据输入至已训练的关键词抽取网络模型，得到关键词。其中，关键词抽取网络模型采用下述方式构建：获取训练语料样本数据(训练语料样本数据包括具有对应关系的标准话术和标准关键词)，对标准关键词进行分类处理、并将分类后的标准关键词归类至对应的数据集合，获取数据集合对应的集合编码，基于集合编码，将标准话术处理成携带集合编码的序列标注样本，获取初始ERNIE-BiLSTM-CRF关键词抽取网络模型，将携带集合编码的序列标注样本输入至初始上述网络模型，采用梯度下降法调整模型参数，得到关键词抽取网络模型。其中，终端102通过网络与服务器104通过网络进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在其中一个实施例中，如图2所示，提供了一种关键词抽取方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

步骤S200，获取待处理文本数据。

待处理文本数据即指待抽取关键词的文本数据。具体实施时，可以是用户通过终端102上传待处理的文本数据至服务器104，并通过终端102发送关键词抽取请求至服务器104，服务器104接收该请求，获取待处理文本数据。具体实施时，待处理的文本数据可以是业务话术。

步骤S400，将待处理文本数据输入至已训练的关键词抽取网络模型，得到关键词。其中，已训练的关键词抽取网络模型采用下述方式构建：获取训练语料样本数据，训练语料样本数据包括具有对应关系的标准话术和标准关键词，对标准关键词进行分类处理、并将分类后的标准关键词归类至对应的数据集合，获取数据集合对应的集合编码，基于集合编码，将标准话术处理成携带集合编码的序列标注样本，获取初始ERNIE-BiLSTM-CRF关键词抽取网络模型，将携带集合编码的序列标注样本输入至初始ERNIE-BiLSTM-CRF关键词抽取网络模型，基于所述携带集合编码的序列标注样本，训练初始ERNIE-BiLSTM-CRF关键词抽取网络模型，得到关键词抽取网络模型。

当获取待处理文本数据之后，将待处理文本数据输入至训练的关键词抽取网络模型，通过该关键词抽取网络模型对待处理文本数据进行处理，得到关键词。

上述关键词抽取方法中，将待处理文本数据输入至利用携带集合编码的序列标注样本训练得到的关键词抽取网络模型，使得通过该关键词抽取神经网络模型能够通过标准关键词充分发掘上下文的语义相关性，准确抽取出文本数据中的关键词，提高了关键词抽取的准确率。

为进一步解释本申请提供的关键词抽取方法，下面将对关键词抽取网络模型的构建过程进行详细说明。应当理解的是，关键词抽取网络模型的构建过程是执行关键词抽取方法的前置动作，即关键词抽取网络模型可以是在执行关键词抽取方法之前即时生成的，也可以是预先就构建好的。具体的，构建关键词抽取网络模型包括以下步骤：

步骤S100，获取训练语料样本数据，训练语料样本数据包括具有对应关系的标准话术和标准关键词。

在实际应用中，管理人员会针对不同业务分别整理出包含具有对应关系的标准话术和关键词源数据，将该源数据作为关键词抽取网络模型的训练语料样本数据，管理人员通过终端102上传训练语料样本数据至服务器104，服务器104部署有初始关键词抽取网络模型，再通过终端102向服务器104发送模型训练指令，服务器104响应该指令，获取训练语料样本数据。

步骤S120，对标准关键词进行分类处理、并将分类后的标准关键词归类至对应的数据集合。

在获取训练语料样本数据之后，先抽取出训练语料样本数据中的标准关键词，然后，可以是通过向量空间模型对标准关键词进行语义相似度比较，对标准关键词进行分类，再将分类后的标准关键词归类至对应的数据集合，其中，数据集合事先随机赋予有对应的集合编码。具体的，数据集合可以是一个个用于存储关键词的槽位，槽位可赋予对应的具有唯一标识的槽位编码。例如，通过自动槽位编码，可将关键词“医疗费用”和“医药费”归类至同一个槽位1中，将关键词“赔付”和“赔偿”归类至槽位2中。

步骤S140，获取数据集合对应的集合编码，基于集合编码，将标准话术处理成携带集合编码的序列标注样本。

当完成对标准关键的分类后，需要对人工整理得到的标准话术中的关键词进行精确匹配，获取数据集合对应的集合编码，其中，集合编码是前期通过随机赋予得到的，然后基于集合编码，为匹配出的关键词添加携带集合编码的标注，从而将标准话术处理成携带集合编码的序列标注样本。具体的，可以将标准话术处理成BIO格式的序列标注样本。

步骤S160，获取初始ERNIE-BiLSTM-CRF关键词抽取网络模型，将携带集合编码的序列标注样本输入至初始ERNIE-BiLSTM-CRF关键词抽取网络模型。

在实际应用中，服务器104中部署有基于ERNIE-BiLSTM-CRF三层网络单元组成的初始关键词抽取网络模型，ERNIE网络单元是基于BERT模型的改进版本，其针对中文词汇级别的任务进行了优化，对中文实体及实体关系抽取具有更好的效果。模型主体结构和BERT模型相同，由12个编码器层组成，只是预训练参数方面和BERT存在差异。BiLSTM网络单元由正向和逆向两个LSTM构成，LSTM的遗忘门单元控制之前输入的序列信息的保留程度，输入门控制当前序列单元的影响程度。两个LSTM单元能够充分考虑正序和逆序信息，发掘上下文特征，生成两个隐状态向量，两个向量拼接得到最终的状态矩阵，保留上下文双向的序列的局部依赖信息。CRF(conditional random field，条件随机场)网络单元，内部应用多个特征函数来得出综合评分(即概率值)，该评分具有全局性；特征函数分为状态特征和转移特征，建立在序列节点上的特征函数为状态特征，建立在序列边界上的特征函数为转移特征。设观测序列X＝(X1,X2,X3)，输出标记序列Y＝(Y1,Y2,Y3)，Y1、Y2、Y3取值于(O,B-AV,I-AV)，则状态特征函数的一般形式为f(X,i,Y_i)，i为序列位置，在选择该节点路径时，该函数取值为1，否则为0；转移特征函数的一般形式为f(X,i,Y_i,Y_i-1)，考虑当前序列位置和前一个序列位置的情况，在满足一定条件时，函数值为1，否则为0；通过维特比动态路径规划算法，将状态特征和转移特征加权求和，分数最高的标注序列作为最终标记序列。CRF网络可以用于构造在给定一组输入随机变量的条件下,另一组输出随机变量的条件概率分布。通过三层网络单元的搭建，可以使模型根据标准话术中关键词出现的语义分布来定位实际话术中的关键词。当完成模型训练数据的处理，得到携带集合编码的序列标注样本之后，获取初始关键词抽取网络模型，将携带集合编码的序列标注样本作为输入数据输入至该模型中，以便模型能够抽取出该序列标注样本中的关键词，评估模型的关键词抽取效果。

步骤S180，基于携带集合编码的序列标注样本，训练初始ERNIE-BiLSTM-CRF关键词抽取网络模型，得到关键词抽取网络模型。

由于初始ERNIE-BiLSTM-CRF关键词抽取网络模型并不能快速且准确地抽取出序列标注样本数据中的关键词，因此，需要对模型的参数进行调整，以保证模型的关键词抽取的正确率。具体的，可以是通过梯度下降法，迭代微调ERNIE单元的Q、K、V的权重参数，及前馈神经网络权重参数，迭代更新BiLSTM中各LSTM单元的遗忘门、输入门、输出门的权重参数，迭代更新CRF单元中的转移特征和状态特征，直到收敛，然后，保存各单元中的模型参数信息，至此模型训练结束，得到关键词抽取网络模型。更具体的，可以是将携带集合编码的序列标注样本作为训练数据输入至多个初始初始ERNIE-BiLSTM-CRF关键词抽取网络模型，根据各模型的ERNIE网络单元对携带集合编码的序列标注样本进行语义编码，得到各序列标注样本对应的上下文词向量，再将上下文词向量输入至BiLSTM网络单元，BiLSTM网络单元通过充分挖掘序列标注样本中关键词的上下文信息，得到上下文词向量的双向隐藏状态向量(即正向隐藏状态向量和逆向隐藏状态向量)，再将双向隐藏状态向量进行拼接、并将拼接后的双向隐藏状态向量输入至CRF网络单元，得到各序列标注样本中关键词出现的概率值，根据概率值，筛选出输出概率值最高的初始ERNIE-BiLSTM-CRF关键词抽取网络模型，得到关键词抽取网络模型。本实施例中，训练得到的关键词抽取网络模型能够根据标准话术上下文序列及语义表征信息判断关键词对应的数据集合(槽位)，进而定位出关键词。

在其中一个实施例中，对标准关键词进行分类处理包括：步骤S122，采用预设预训练模型对标准关键词进行语义向量编码，得到关键词语义向量，获取关键词语义向量之间的语义相似度，根据语义相似度对标准关键词进行分类。

语义向量是将文本的符号表示转换为语义空间中的向量表示，其是现在量化比较语义的通用做法，这类方法通常都基于Harris的分布式假设，即在相似上下文中的词通常都有着相似的语义。本实施例中，标准关键词聚类是依据语义相似度作为判断标准，将关键词的语义向量通过向量空间模型进行语义相似度比较，逐一遍历每个关键词，将语义相近的同类词汇归类到同一个数据集合如槽位。具体的，可以是采用ERNIE预训练模型对标准关键词进行语义向量编码，得到关键词语义向量，获取关键词语义向量之间的语义相似度，如可以将语义相似度与预设相似度阈值进行比较，根据比较结果，对标准关键词进行分类。具体的，计算语义相似度的计算公式可以采用余弦相似度计算法。可以理解的是，在其他实施例中，相似度计算方法还可以是其他相似度算法。本实施例中，通过ERNIE预训练模型对标准关键词进行语义向量编码，完成标准关键词的分类，相较于BERT按字级别的抽取，ERNIE预训练模型可以使网络对于词级别的理解更加精准。

在其中一个实施例中，获取关键词语义向量之间的语义相似度，根据语义相似度对标准关键词进行分类包括：采用局部敏感哈希算法和余弦相似度算法，计算关键词语义向量之间的语义相似度，将语义相似度与预设相似度阈值进行比较，根据比较结果对标准关键词进行分类。

局部敏感哈希算法的基本思想是将原始数据空间中的两个相邻数据点通过相同的映射或投影变换后，这两个数据点在新的数据空间中仍然相邻的概率很大，而不相邻的数据点被映射到同一个桶(此处可理解为数据集合)的概率很小。也就是说，如果对原始数据进行一些hash(哈希)映射后，希望原先相邻的两个数据能够被hash到相同的桶内，具有相同的桶号。本实施例中，相似度匹配计算过程涉及局部敏感哈希技术，具体包括：通过hash functions(有多个哈希函数，是从某个哈希函数族中选出来的)将关键词语义向量哈希成一个“签名矩阵(Signature Matrix)”，这个签名矩阵可以直接理解为降维后的语义向量，然后，再通过局部敏感哈希算法把签名矩阵进行哈希运算，得到每个数据点对应的桶号。假设获取到一个新的数据点如一个关键词的语义向量，想找和这个关键词语义相近的同类关键词，那么把这个关键词对应的语义向量进行哈希运算，得到当前关键词所属的桶号，该桶号下的存量关键词就是和它相似的一些候选关键词，通过余弦相似度计算出这些词的相似度，然后，取相似度高于阈值的词汇作为该关键词的同类词汇，本实施例中，阈值设置为0.95。例如，设关键词“医疗费用”编码为词向量X＝[x1,x2,...,xn]，关键词“医药费”编码为词向量Y＝[y1,y2,...,yn]，则具体相似度计算公式如下：

将“医疗费用”的语义向量和“医药费”语义向量的相似度与0.95进行比较，若相似度超过0.95，则将两者归类至同一个数据集合中。本实施例中，结合局部敏感哈希算法和余弦相似度算法，计算语义相似度，通过hash function映射变换操作，将原始数据集合分成了多个子集合，将一个在超大集合内查找相邻元素的问题转化为在一个很小的集合内查找相邻元素的问题，大大降低计算量，提高数据处理速度。

在其中实施例中，基于集合编码，将标准话术处理成携带集合编码的序列标注样本包括：步骤S142，将标准话术与标准关键词进行匹配，基于集合编码，为匹配出的标准话术中的关键词和非关键词添加对应的标注，得到携带集合编码的序列标注样本。

本实施例中，序列标注样本的获取可以是对人工整理的标准话术中的关键词与标准关键词进行精确匹配，将匹配到的标准话术中的关键词的首字符标注为B-X，将匹配到的关键词的非首字符标注为I-X，其中X为该关键词隶属的集合编码(槽位编码)，将其余非关键词部分字符标注为O，形成标准的BIO序列标注格式样本，BIO序列标注格式样本携带集合编码。本实施例中，结合槽位及分好类的标准关键词，能够明确标准话术中的关键词隶属的集合编码，以便后续的处理中，能够通过对标准话术的上下文语境信息进行充分挖掘，快速定位出实际话术中上下文符合标准话术语境特点的关键词。

本申请提供的话术评分方法，也可以应用于如图1所示的应用环境中。用户需要对业务员的话术进行评分，评分依赖话术中关键词的命中数，因此，需要预先训练关键词抽取网络模型用于抽取话术中与业务相关的关键词，进而使用该模型抽取出关键词，统计业务员的关键词命中数进行评分。管理人员通过终端102上传待评分话术于服务器104，发送话术评分请求至服务器104，服务器104接收该话术评分请求，获取待评分话术，将待评分话术转换为字符序列，将字符序列输入至已训练的关键词抽取网络模型，抽取字符序列中的关键词，得到抽取出的关键词对应的集合标记序列，根据集合标记序列，统计命中集合数，确定待评分话术的关键词命中数，根据关键词命中数，得到待评分话术的评分。其中，终端102通过网络与服务器104通过网络进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在其中一个实施例中，如图4所示，提供了一种话术评分方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

步骤S600，获取待评分话术，将待评分话术转换为字符序列。

字符序列即字符串，字符串在存储上类似字符数组，其每一位的单个元素都是可以提取的。在实际应用中，待评分话术即为需要进行考核评分的业务员训练所得的话术，可通过抽取待评分话术中的关键词对业务员的话术进行评分。具体的，可通过关键词抽取网络网络模型定位出待评分话术中的关键词。

步骤S700，将字符序列输入至已训练的关键词抽取网络模型，抽取字符序列中的关键词，得到抽取出的关键词对应的集合标记序列。

将待评分的话术转换为字符序列后，输入字符序列至已训练的关键词抽取网络模型中，利用模型抽取出与业务相关的关键词。具体的，模型进行关键词抽取的过程是：首先，字符序列输入至ERNIE模型的第一层编码器，对每个汉字进行token编码、段编码、位置编码，将三种编码向量加和，依次进入第一层编码器的自注意力单元和前馈神经网络单元。由于每个输入话术句子有很多字符，所以实际运算中的表示是矩阵形式。然后，自注意力单元将输入的矩阵乘以三个权重矩阵，得到K、Q、V三个矩阵，通过注意力计算公式，得出最终的注意力矩阵。注意力计算公式如下：

因为采用的是多头注意力机制，这里的矩阵也是很多注意力头矩阵的拼接形式。自注意力层输出与初始嵌入矩阵进行加和归一化后，进入前馈神经网络，与隐藏层权重矩阵相乘得到输出矩阵，再经过加和归一化，输出进入下面11个编码器，循环进行上述过程，得到ERNIE模型的输出即矩阵序列。然后，将矩阵序列分别以正向和逆向循环输入LSTM单元，每一次输入会产生一个隐藏状态向量，最终将正向的隐藏状态向量集合和逆向的隐藏状态向量集合进行拼接得到状态矩阵。例如，设“您”、“好”两个汉字得到两个向量{hl0,hl1}，“好”、“您”得到两个向量{hr0,hr1}，则拼接后的状态矩阵：{[hl0,hr1],[hl1,hr0]}。状态矩阵经过一个全连接层，得到每个槽位标记的独立位置概率分布矩阵。该矩阵中每一槽位标记的概率即为CRF单元中对应该标记及位置的状态特征函数值，该状态矩阵进入CRF单元，依据维特比算法，按照输入可观察序列顺序依次计算各字符向量的状态特征函数值和转移特征函数值，其中第一个位置没有转移特征函数值，第二个位置开始对两种特征函数值做加权求和，取最大值作为下一步的可选路径，迭代计算每个位置条件下的得分，最终递推回去，取得分最高的路径对应的隐含状态路径输出，即输出定位出的关键词对应的集合标记序列，即包括集合编码及位置，数据集合以槽位为例，即输出槽位编码及位置。例如，关键词“基本”，按照关键词的首字符标注为B-X，关键词的非首字符标注为I-X，X为该关键词隶属的槽位编码，则模型抽取关键词“基本”，其输出为“基B-JB”“本I-JB”。

步骤S800，根据集合标记序列，统计命中集合数，确定待评分话术的关键词命中数。

如上述实施例所述，若某几个字符的输出的集合编码都是相同的，则表示上述字符共同隶属于某一个集合，如“基B-JB”“本I-JB”，槽位编码都是“JB”，则表示其属于一个槽位编码为“JB”的槽位，对于关键词“方案”，对应输出的为“方B-FA”，“案I-FA”，槽位编码都是“FA”，则表示其同属于槽位编码为“FA”的槽位。由此，可由关键词抽取网络模型输出的集合标记序列中的集合编码，去掉重复的集合编码，即统计命中的集合数，然后，由于每个关键词都对应到某个集合，因此，可将关键词命中数直接等同于命中的集合数。

步骤S900，根据关键词命中数，得到待评分话术的评分。

得到输入的待评分的话术的关键词命中数之后，则可以按照一定的计算规则，参照标准话术的中的关键词数量，计算话术的标准化程度得分，得到待评分话术的评分。

上述话术评分方法，通过将待评分话术输入已训练的关键词抽取网络模型，能够针对不同业务场景，抽取出只具备业务相关的话术中的关键词，也避免了只说关键词而不具备业务相关性的话术获得较高评分的现象发生，且将与关键词语义相似或相关的关键词都抽取到同一个数据集合，根据输出的抽取出的关键词对应的集合编码，确定关键词命中数进而计算话术评分，能够使识别出来的关键词具有一定的新词发现能力，避免关键词的漏抽或重复抽取，大大提高了话术评分的准确性。

本申请提供的话术评分方法，也可以应用于如图1所示的应用环境中。具体的，可以是管理人员通过终端102发送话术推荐请求至服务104，服务器104获取用户话术，根据用户话术识别出用户意图，根据用户意图，检索出与用户意图匹配的存量话术，基于话术评分对存量话术进行排名，筛选、并推送预设名次的存量话术，其中，存量话术的评分采用上述话术评分方法处理得到。其中，终端102通过网络与服务器104通过网络进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

如图5所示，提供了一种话术推荐方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

步骤S920，获取用户话术，根据用户话术识别出用户意图。

用户意图识别即指通过用户输入的query查询，获取用户需求。用户意图识别出本身也是一个分类问题。在实际应用中，可以是管理人员事先通过如上述关键词抽取方法中的关键词抽取网络模型，完成对历史训练话术的评分，并存储历史训练话术的评分。具体的，当接收到输入的用户话术时，获取用户话术，可采用机器学习方法如基于规则挖掘，基于Bayes、SVM等传统分类模型，根据用户话术上下文分析对话，识别出话术上层的用户意图。可以理解的是，在其他实施例中，还可以采用词表穷举法、规则解析法或深度学习方法对用户话术进行处理，识别出用户意图。

步骤S940，根据用户意图，检索出与用户意图匹配的存量话术。

存量话术即预先存在于数据库中的话术。当识别出用户意图后，根据识别出的用户意图，查找出历史训练话术中的与用户意图相匹配的应答话术即存量话术。如用户意图为咨询医药费用，则检索出与医药费用相关的存量话术。

步骤S960，获取存量话术的评分、并基于存量话术的评分对存量话术进行排名。

如上述实施例，当检索出与用户意图相匹配的存量话术后，获取匹配出的存量话术的评分，根据评分，对存量话术进行排名。具体，可以是包括获取存量话术(应答话术)与标准话术的评分(该评分采用上述话术评分方法处理得到)，然后按照评分高低对存量话术进行降序排列，得到预推荐的话术序列。可以理解的是，在其他实施例中，还可以按照评分高低对应答话术进行升序排列。

步骤S980，筛选、并推送预设名次的存量话术。

具体实施时，在根据评分对存量话术进行排序后，可筛选出排名在前N名的话术，并推送筛选出前N名的话术。本实施例中，通过应用关键词抽取网路能够根据用户输入的话术推荐评分较高的话术，提高应答话术的标准化程度。

上述话术推荐方法，基于由训练好的关键词抽取网络模型得到的话术评分，结合用户意图向客户推荐话术，能够更具针对性推荐话术，提高应答话术的标准化程度。

应该理解的是，虽然图2-6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在其中一个实施例中，如图6所示，提供了一种关键词抽取装置，包括：数据获取模块610以及数据处理模块620，其中：

数据获取模块610，用于获取待处理文本数据；

数据处理模块620，用于将所述待处理文本数据输入至已训练的关键词抽取网络模型，得到关键词，其中，已训练的关键词抽取网络模型采用下述方式构建：获取训练语料样本数据，训练语料样本数据包括具有对应关系的标准话术和标准关键词，对标准关键词进行分类处理、并将分类后的标准关键词归类至对应的数据集合，获取数据集合对应的集合编码，基于集合编码，将标准话术处理成携带集合编码的序列标注样本，获取初始ERNIE-BiLSTM-CRF关键词抽取网络模型，将携带集合编码的序列标注样本输入至初始ERNIE-BiLSTM-CRF关键词抽取网络模型，基于携带集合编码的序列标注样本，训练初始ERNIE-BiLSTM-CRF关键词抽取网络模型，得到关键词抽取网络模型。

在其中一个实施例中，数据处理模块620还用于采用预设预训练模型对标准关键词进行语义向量编码，得到关键词语义向量，获取关键词语义向量之间的语义相似度，根据语义相似度对标准关键词进行分类。

在其中一个实施例中，数据处理模块620还用于采用局部敏感哈希算法和余弦相似度算法，计算关键词语义向量之间的语义相似度，将语义相似度与预设相似度阈值进行比较，根据比较结果对标准关键词进行分类。

在其中一个实施例中，数据处理模块620还用于将标准话术与标准关键词进行匹配，基于集合编码，为匹配出的标准话术中的关键词和非关键词添加对应的标注，得到携带集合编码的序列标注样本。

在其中一个实施例中，初始ERNIE-BiLSTM-CRF关键词抽取网络模型的数量至少为两个；初始ERNIE-BiLSTM-CRF关键词抽取网络模型的数量包括ERNIE网络单元、BiLSTM网络单元以及CRF网络单元；数据处理模块620还用于根据ERNIE网络单元对携带集合编码的序列标注样本进行语义编码，得到各序列标注样本对应的上下文词向量，将上下文词向量输入至BiLSTM网络单元，得到上下文词向量的双向隐藏状态向量，将双向隐藏状态向量进行拼接、并将拼接后的双向隐藏状态向量输入至CRF网络单元，得到各序列标注样本中关键词出现的概率值，根据概率值，筛选出输出概率值最高的初始ERNIE-BiLSTM-CRF关键词抽取网络模型，得到关键词抽取网络模型。

在其中一个实施例中，如图7所示，提供了一种话术评分装置，包括：话术处理模块710、关键词抽取模块720、关键词命中数确定模块730和评分模块740，其中：

话术处理模块710，用于获取待评分话术，将待评分话术转换为字符序列。

关键词抽取模块720，用于将字符序列输入至已训练的ERNIE-BiLSTM-CRF关键词抽取网络模型，抽取字符序列中的关键词，得到抽取出的关键词对应的集合标记序列，ERNIE-BiLSTM-CRF关键词抽取网络模型为采用上述关键词抽取神经网络模型构建方法构建得到。

关键词命中数确定模块730，用于根据集合标记序列，统计命中集合数，确定待评分话术的关键词命中数。

评分模块740，用于根据关键词命中数，得到待评分话术的评分。

在其中一个实施例中，如图8所示，话术评分装置还包括话术推荐模块750，用于获取用户话术，根据用户话术识别出用户意图，根据用户意图，检索出与用户意图匹配的存量话术，获取存量话术的评分、并基于存量话术的评分对存量话术进行排名，筛选、并推送预设名次的存量话术。

在其中一个实施例中，如图7所示，提供了一种话术推荐装置，包括：用户意图获取模块810、话术匹配模块820、话术排名模块830以及话术推荐模块840，其中：

用户意图获取模块810，用于获取用户话术，根据用户话术识别出用户意图。

话术匹配模块820，用于根据用户意图，检索出与用户意图匹配的存量话术。

话术排名模块830，用于获取存量话术的评分、并基于存量话术的评分对存量话术进行排名，存量话术的评分采用上述话术评分方法处理得到。

话术推荐模块840，用于筛选、并推送预设名次的存量话术。

关于关键词抽取装置、话术评分装置和话术推荐装置的具体限定可以分别参见上文中对于关键词抽取方法、话术评分方法以及话术推荐方法的限定，在此不再赘述。上述关键词抽取装置、话术评分装置和话术推荐装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在其中一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练语料样本数据以及待评分话术数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种关键词抽取方法、话术评分方法以及话术推荐方法。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在其中一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述关键词抽取方法和话术评分方法中的步骤。

在其中一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述关键词抽取方法、话术评分方法以及话术推荐方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种关键词抽取方法，所述方法包括：

获取待处理文本数据；

将所述待处理文本数据输入至已训练的关键词抽取网络模型，得到关键词；

其中，所述已训练的关键词抽取网络模型采用下述方式构建：

获取训练语料样本数据，所述训练语料样本数据包括具有对应关系的标准话术和标准关键词；

对所述标准关键词进行分类处理、并将分类后的标准关键词归类至对应的数据集合；

获取所述数据集合对应的集合编码，基于所述集合编码，将所述标准话术处理成携带集合编码的序列标注样本；

获取初始ERNIE-BiLSTM-CRF关键词抽取网络模型，将所述携带集合编码的序列标注样本输入至所述初始ERNIE-BiLSTM-CRF关键词抽取网络模型；

基于所述携带集合编码的序列标注样本，训练所述初始ERNIE-BiLSTM-CRF关键词抽取网络模型，得到关键词抽取网络模型。

2.根据权利要求1所述的关键词抽取方法，其特征在于，所述对所述标准关键词进行分类处理包括：

采用预设预训练模型对所述标准关键词进行语义向量编码，得到关键词语义向量；

获取所述关键词语义向量之间的语义相似度，根据所述语义相似度对所述标准关键词进行分类。

3.根据权利要求2所述的关键词抽取方法，其特征在于，所述获取所述关键词语义向量之间的语义相似度，根据所述语义相似度对所述标准关键词进行分类包括：

采用局部敏感哈希算法和余弦相似度算法，计算所述关键词语义向量之间的语义相似度；

将所述语义相似度与预设相似度阈值进行比较，根据比较结果对所述标准关键词进行分类。

4.根据权利要求1所述的关键词抽取方法，其特征在于，所述基于所述集合编码，将所述标准话术处理成携带集合编码的序列标注样本包括：

将所述标准话术与所述标准关键词进行匹配；

基于所述集合编码，为匹配出的所述标准话术中的关键词和非关键词添加对应的标注，得到所述携带集合编码的序列标注样本。

5.根据权利要求1所述的关键词抽取方法，其特征在于，所述初始ERNIE-BiLSTM-CRF关键词抽取网络模型的数量至少为两个；所述初始ERNIE-BiLSTM-CRF关键词抽取网络模型的数量包括ERNIE网络单元、BiLSTM网络单元以及CRF网络单元；

所述基于所述携带集合编码的序列标注样本，训练所述初始ERNIE-BiLSTM-CRF关键词抽取网络模型，得到关键词抽取网络模型包括：

根据所述ERNIE网络单元对所述携带集合编码的序列标注样本进行语义编码，得到各序列标注样本对应的上下文词向量；

将所述上下文词向量输入至所述BiLSTM网络单元，得到所述上下文词向量的双向隐藏状态向量；

将所述双向隐藏状态向量进行拼接、并将拼接后的所述双向隐藏状态向量输入至所述CRF网络单元，得到各序列标注样本中关键词出现的概率值；

根据所述概率值，筛选出输出所述概率值最高的初始ERNIE-BiLSTM-CRF关键词抽取网络模型，得到关键词抽取网络模型。

6.一种话术评分方法，所述方法包括：

获取待评分话术，将所述待评分话术转换为字符序列；

将所述字符序列输入至已训练的关键词抽取网络模型，抽取所述字符序列中的关键词，得到抽取出的关键词对应的集合标记序列；

根据所述集合标记序列，统计命中集合数，确定所述待评分话术的关键词命中数；

根据所述关键词命中数，得到所述待评分话术的评分；

其中，所述已训练的关键词抽取网络模型为上述权利要求1至5中任一项所述的关键词抽取方法中的关键词抽取网络模型。

7.一种话术推荐方法，所述方法包括：

获取用户话术，根据所述用户话术识别出用户意图；

根据所述用户意图，检索出与所述用户意图匹配的存量话术；

获取所述存量话术的评分、并基于所述存量话术的评分对所述存量话术进行排名；

筛选、并推送预设名次的存量话术；

其中，所述存量话术的评分采用如上述权利要求6所述的话术评分方法处理得到。

8.一种关键词抽取装置，其特征在于，所述装置包括：

数据获取模块，用于获取待处理文本数据；

数据处理模块，用于将所述待处理文本数据输入至已训练的关键词抽取网络模型，得到关键词，其中，所述已训练的关键词抽取网络模型采用下述方式构建：获取训练语料样本数据，所述训练语料样本数据包括具有对应关系的标准话术和标准关键词，对所述标准关键词进行分类处理、并将分类后的标准关键词归类至对应的数据集合，获取所述数据集合对应的集合编码，基于所述集合编码，将所述标准话术处理成携带集合编码的序列标注样本，获取初始ERNIE-BiLSTM-CRF关键词抽取网络模型，将所述携带集合编码的序列标注样本输入至所述初始ERNIE-BiLSTM-CRF关键词抽取网络模型，基于所述携带集合编码的序列标注样本，训练所述初始ERNIE-BiLSTM-CRF关键词抽取网络模型，得到关键词抽取网络模型。

9.一种话术评分装置，其特征在于，所述装置包括：

话术处理模块，用于获取待评分话术，将所述待评分话术转换为字符序列；

数据处理模块，用于将所述字符序列输入至已训练的关键词抽取网络模型，抽取所述字符序列中的关键词，得到抽取出的关键词对应的集合标记序列，所述已训练的关键词抽取网络模型为上述权利要求1至5中任一项所述的关键词抽取方法中的关键词抽取模型；

关键词命中数确定模块，用于根据所述集合标记序列中的集合编码，统计命中集合数，确定所述待评分话术的关键词命中数；

评分模块，用于根据所述关键词命中数，得到所述待评分话术的评分。

10.一种话术推荐装置，其特征在于，所述装置包括：

用户意图获取模块，用于获取用户话术，根据所述用户话术识别出用户意图；

话术匹配模块，用于根据所述用户意图，检索出与所述用户意图匹配的存量话术；

话术排名模块，用于获取所述存量话术的评分、并基于所述存量话术的评分对所述存量话术进行排名，所述存量话术的评分采用上述权利要求6所述的话术评分方法处理得到；

话术推荐模块，用于筛选、并推送预设名次的存量话术。

11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。