CN112036188A

CN112036188A - 一种质检例句推荐的方法及装置

Info

Publication number: CN112036188A
Application number: CN202010787942.4A
Authority: CN
Inventors: 鲍志强; 黄研州; 余远铭
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2020-12-04

Abstract

本发明实施例提供了一种质检例句推荐的方法及装置，该方法包括获取对话文本，将对话文本的句子与质检例句库中的质检例句进行语义匹配，得到对话文本的句子与质检例句的匹配相似度，将与质检例句的匹配相似度大于阈值的句子确定为候选例句，并将候选例句发送给用户，以使用户根据需求从候选例句中选取质检例句存储到质检例句库中。通过把对话文本的句子与已有的质检例句进行语义匹配，得到匹配相似度，进而将匹配相似度大于阈值的句子确定为候选例句推荐给用户，使得用户根据需求选中候选例句存储到质检例句库中，从而实现了质检例句的自动增加，解决了人工编辑质检例句效率低的问题，提高了确定质检例句的效率。

Description

一种质检例句推荐的方法及装置

技术领域

本发明实施例涉及金融科技(Finteh)领域，尤其涉及一种质检例句推荐的方法及装置。

背景技术

随着计算机技术的发展，越来越多的技术应用在金融领域，传统金融业正在逐步向金融科技转变，但由于金融行业的安全性、实时性要求，也对技术提出的更高的要求。

对话务录音自动质检能够有效缓解人工抽样质检录音带来的质检效率低，覆盖面有限的问题。通过人工定义的质检项，系统能够自动识别录音中客服的表达是否合规。质检模型效果的好坏很大程度上依赖于质检项的例句数量和质量。但是质检例句需要提前人工编辑好，编辑质检例句需要对产品和业务常见问题比较熟悉，而且质检例句需要不断进行人工升级、新增质检例句来提高该质检项的准确率。由于人工编辑质检例句增加质检例句数量的方式效率低下，阻碍了智能质检系统的通用和推广。

综上，目前亟需一种质检例句推荐的方法，用以解决人工编辑质检例句效率低下的问题。

发明内容

本发明实施例提供了一种质检例句推荐的方法及装置，用以解决人工编辑质检例句效率低下的问题。

第一方面，本发明实施例提供了一种质检例句推荐的方法，包括：

获取对话文本；

将所述对话文本的句子与质检例句库中的质检例句进行语义匹配，得到所述对话文本的句子与所述质检例句的匹配相似度；

将与所述质检例句的匹配相似度大于阈值的句子确定为候选例句，并将所述候选例句发送给用户，以使所述用户根据需求从所述候选例句中选取质检例句存储到所述质检例句库中。

上述技术方案中，通过把对话文本的句子与已有的质检例句进行语义匹配，得到匹配相似度，进而将匹配相似度大于阈值的句子确定为候选例句推荐给用户，使得用户根据需求选中候选例句存储到质检例句库中，从而实现了质检例句的自动增加，解决了人工编辑质检例句效率低的问题，提高了确定质检例句的效率。

可选的，所述将所述对话文本的句子与质检例句库中的质检例句进行语义匹配，得到所述对话文本的句子与所述质检例句的匹配相似度，包括：

对所述对话文本的句子和所述质检例句分别进行分词并进行依存关系分析，得到所述对话文本的句子中包含的词的依存关系和所述质检例句中包含的词的依存关系；

对所述对话文本的句子中包含的词和所述质检例句中包含的词进行关键词识别并确定出所述关键词的权重值；

根据所述关键词的权重值，确定出所述对话文本的句子对应的关键词组和所述质检例句对应的关键词组；

根据所述对话文本的句子对应的关键词组和所述质检例句对应的关键词组，确定所述对话文本的句子与所述质检例句的匹配相似度。

上述技术方案中，通过先将对比文本的句子和质检例句进行关键词筛选，得到每个句子的关键词组，再确定两个句子的匹配相似度，可以提高匹配相似度的准确率，减少匹配相似度的计算量。

可选的，所述根据所述关键词的权重值，确定出所述对话文本的句子对应的关键词组和所述质检例句对应的关键词组，包括：

保留所述对话文本的句子中具有依存关系的每对关键词中权重值大的词，得到所述对话文本的句子对应的关键词组；

保留所述质检例句中具有依存关系的每对关键词中权重值大的词，得到所述质检例句对应的关键词组。

上述技术方案中，依据依存关系对关键词进行进一步的筛选，得到的关键词组，可以进一步提高匹配相似度的计算量，提高计算准确率。

可选的，所述根据所述对话文本的句子对应的关键词组和所述质检例句对应的关键词组，确定所述对话文本的句子与所述质检例句的匹配相似度，包括：

使用预训练好的词向量模型，将所述对话文本的句子对应的关键词组和所述质检例句对应的关键词组中的每个词语映射为词向量，得到所述对话文本的句子对应的词向量组和所述质检例句对应的词向量组；

将所述对话文本的句子对应的词向量组中每个词的词向量与所述质检例句对应的词向量组中的词向量进行相似度计算，得到所述对话文本的句子的每个词与所述质检例句的关联度；将所述质检例句对应的词向量组中每个词的词向量与所述对话文本的句子对应的词向量组中的词向量进行相似度计算，得到所述质检例句的每个词与所述对话文本的句子的关联度；

根据所述对话文本的句子的每个词与所述质检例句的关联度和所述质检例句的每个词与所述对话文本的句子的关联度，确定所述对话文本的句子与所述质检例句的匹配相似度。

上述技术方案中，通过将各关键词组中的词映射为词向量，进行相似度计算，并得到关联度，可以提高匹配相似度计算的准确率。

可选的，所述根据所述对话文本的句子的每个词与所述质检例句的关联度和所述质检例句的每个词与所述对话文本的句子的关联度，确定所述对话文本的句子与所述质检例句的匹配相似度，包括：

将所述对话文本的句子的每个词与所述质检例句的关联度相加求平均后得到所述对话文本的句子的关联度的平均值；将所述质检例句的每个词与所述对话文本的句子的关联度相加求平均后得到所述质检例句的关联度的平均值；

根据所述对话文本的句子的关联度的平均值和所述质检例句的关联度的平均值，确定所述对话文本的句子与所述质检例句的匹配相似度。

可选的，在所述将与所述质检例句的匹配相似度大于阈值的句子确定为候选例句之前，还包括：

对所述对话文本中的句子与所述质检例句的匹配相似度进行排序和去重。

第二方面，本发明实施例提供一种质检例句推荐的装置，包括：

获取单元，用于获取对话文本；

处理单元，用于将所述对话文本的句子与质检例句库中的质检例句进行语义匹配，得到所述对话文本的句子与所述质检例句的匹配相似度；将与所述质检例句的匹配相似度大于阈值的句子确定为候选例句，并将所述候选例句发送给用户，以使所述用户根据需求从所述候选例句中选取质检例句存储到所述质检例句库中。

可选的，所述处理单元具体用于：

可选的，所述处理单元还用于：

在所述将与所述质检例句的匹配相似度大于阈值的句子确定为候选例句之前，对所述对话文本中的句子与所述质检例句的匹配相似度进行排序和去重。

第三方面，本发明实施例提供一种计算设备，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行质检例句推荐的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行质检例句推荐的方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种系统架构的示意图；

图2为本发明实施例提供的一种质检例句推荐的方法的流程示意图；

图3为本发明实施例提供的一种质检例句推荐的装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种系统架构。如图1所示，该系统架构可以为服务器100，包括处理器110、通信接口120和存储器130。

其中，通信接口120用于与终端设备进行通信，收发该终端设备传输的信息，实现通信。

处理器110是服务器100的控制中心，利用各种接口和线路连接整个服务器100的各个部分，通过运行或执行存储在存储器130内的软件程序/或模块，以及调用存储在存储器130内的数据，执行服务器100的各种功能和处理数据。可选地，处理器110可以包括一个或多个处理单元。

存储器130可用于存储软件程序以及模块，处理器110通过运行存储在存储器130的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器130可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据业务处理所创建的数据等。此外，存储器130可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

需要说明的是，上述图1所示的结构仅是一种示例，本发明实施例对此不做限定。

基于上述描述，图2示例性的示出了本发明实施例提供的一种质检例句推荐的方法的流程，该流程可以由质检例句推荐的装置执行，该装置可以位于如图1所示服务器100内，也可以是该服务器100。

如图2所示，该流程具体步骤包括：

步骤201，获取对话文本。

在本发明实施例中，该对话文本可以是客服机器人与用户之间的对话文本，即为用户输入的对话文本，可以包括历史对话文本或者实时接收到的对话文本。获取对话文本的方式可以是从数据库中直接获取，也可以是从客服机器人与用户实时对话的过程中实时采集得到。其中，针对第一种方式，可以采集客服机器人与用户之间的对话文本，将采集到的对话文本存储到数据库中，当需要进行质检例句推荐时，就可以从数据库中拉取该对话文本。

步骤202，将所述对话文本的句子与质检例句库中的质检例句进行语义匹配，得到所述对话文本的句子与所述质检例句的匹配相似度。

在本发明实施例中，在确定对话文本的句子与质检例句的匹配相似度时，可以先对对话文本的句子和质检例句进行优化处理，具体可以为：首先对对话文本的句子和质检例句分别进行分词并进行依存关系分析，得到对话文本的句子中包含的词的依存关系和质检例句中包含的词的依存关系。然后对对话文本的句子中包含的词和质检例句中包含的词进行关键词识别并确定出关键词的权重值。并根据该关键词的权重值，确定出对话文本的句子对应的关键词组和质检例句对应的关键词组。最后根据对话文本的句子对应的关键词组和质检例句对应的关键词组，确定对话文本的句子与质检例句的匹配相似度。

其中，确定对话文本的句子的关键词组和质检例句的关键词组时可以保留对话文本的句子中具有依存关系的每对关键词中权重值大的词，得到对话文本的句子对应的关键词组。以及保留质检例句中具有依存关系的每对关键词中权重值大的词，得到质检例句对应的关键词组。例如，句子A＝“手动操作还款就行”，“手动”和“还款”具有依存关系，“操作”和“还款”具有依存关系，此时就可以保留“手动”和“还款”中权重值大的词，以及“操作”和“还款”中权重值大的词，放入到该句子A的关键词组中。

也就是说，可以先对质检例句或对话文本的句子进行分词，然后进行依存关系分析，得到各句子的依存关系。

例如，句子A＝“手动操作还款就行”，对该句子A进行分词，可以得到“手动、操作、还款、就行”四个词。再对这四个词进行依存关系分析，可以得到“手动、操作、就行”这三个词都与“还款”具有依存关系。因此就可以得到该句子A中每个词的依存关系。

将每个句子的词进行关键词识别和权重学习，获取每个关键词的权重值，将句子中有依存关系的每对关键词中保留权重值比较大的关键词。最后可以得到质检项例句和对话文本句子各自对应的关键词组，该关键词组可以通过列表的方式来实现。其中，确定关键词和关键词对应的权重值时，可以通过预训练的关键词识别模型来实现。

需要说明的是，本发明实施例还可以通过其它的方式来确定各句子的关键词组，例如，还可以对句子中的每个词进行语义角色分析，确定出句子中包含的词的语义角色，然后在确定关键词组时，可以保留句子中具有相同语义角色的关键词中权重值大的词，得到句子对应的关键词组。也就是说，对对话文本的句子进行语义角色分析，得到对话文本的句子中包含的词的语义角色。然后对对话文本的句子中包含的词进行关键词识别并确定出关键词的权重值。进而可以保留对话文本的句子中具有相同语义角色的关键词中权重值大的词，得到该对话文本的句子对应的关键词组。同理可以得到质检例句对应的关键词组。

在本发明实施例中，对句子进行语义角色分析时，可以将句子输入到语义角色识别模型来实现。该语义角色识别模型是可以使用根据语义角色标准标注的训练样本对序列标注模型进行训练得到的。具体的可以包括：

首先获取根据语义角色标准标注的训练样本，然后将训练样本中的句子进行预处理，再将预处理后的句子输入到预训练模型中，得到每个句子中包含的词的向量表示。最后将向量表示输入到序列标注模型中进行训练，得到语义角色识别模型。

在本发明实施例中，SRL(Semantic Role Labeling，语义角色标注)的任务就是以句子的谓词为中心，研究句子中各成分与谓词之间的关系，并且用语义角色来描述他们之间的关系，即针对句子中的(核心)谓词来确定其他论元以及其他论元的角色。SRL通常将句子的成分分为三类，分别为：谓词(REL)、核心论元(ArgN，N∈{0,1,2,3,4,5})以及语义附加词(ArgM-***)，其中谓词一般为动词或者形容词，核心论元表示跟这个谓词直接相关的论元，如这个谓词的施事(Arg0)以及受事(Arg1)等，语义附加词表示不与谓词直接相关的论元，可独立存在，例如时间(ArgM-TMP)、地点(ArgM-LOC)、目的(ArgM-PRP)、程度(ArgM-DGR)、范围(ArgM-EXT)等等。如“您现在可以搜索***公众号”通过SRL就可以判断出谓词是“搜索”，施事是“您”，受事是“***公众号”，时间为“现在”。

在具体训练的过程中，首先需要收集并根据SRL标注标准标注数据，得到训练样本D1。然后根据训练样本D1训练语义角色识别模型，模型可以采用基于BERT(BidirectionalEncoder Representations from Transformer，预训练模型)+LSTM(LongShort-Term Memory，长短期记忆网络)+CRF(Conditional Random Field，条件随机场)的序列标注模型，训练过程如下：

首先，对训练样本D1中的数据进行预处理，将两个句子进行字符级切分并转换为ID形式，句首置[CLS]标签，句末置[SEP]标签，同时将语料变为定长，对长度不够的句子用‘0’进行补齐，超过定长的进行截断。

其次，将预处理好的句子输入到预训练模型BERT中，得到句子中每个字的向量表示，然后将得到的向量表示输入到上层的LSTM+CRF模型中进行训练，得到语义角色识别模型。

当得到语义角色识别模型之后，就可以将对话文本中的句子和质检例句输入到该语义角色识别模型中进行识别，得到各句子的语义角色，进而可以确定出对话文本的句子对应的关键词组和质检例句对应的关键词组。

当得到对话文本的句子对应的关键词组和质检例句对应的关键词组之后，就可以使用预训练好的词向量模型，将对话文本的句子对应的关键词组和质检例句对应的关键词组中的每个词语映射为词向量，得到对话文本的句子对应的词向量组和质检例句对应的词向量组。然后将对话文本的句子对应的词向量组中每个词的词向量与质检例句对应的词向量组中的词向量进行相似度计算，得到对话文本的句子的每个词与质检例句的关联度；将质检例句对应的词向量组中每个词的词向量与对话文本的句子对应的词向量组中的词向量进行相似度计算，得到质检例句的每个词与对话文本的句子的关联度。最后可以根据对话文本的句子的每个词与质检例句的关联度和质检例句的每个词与对话文本的句子的关联度，确定对话文本的句子与质检例句的匹配相似度。本发明实施例中相似度计算可以为余弦相似度计算，也可以为其他相似度计算。词向量模型可以为Word2vec或Glove等词向量模型。

其中，确定对话文本的句子与质检例句的匹配相似度时，可以先将对话文本的句子的每个词与质检例句的关联度相加求平均后得到对话文本的句子的关联度的平均值，以及将质检例句的每个词与对话文本的句子的关联度相加求平均后得到质检例句的关联度的平均值。然后根据对话文本的句子的关联度的平均值和质检例句的关联度的平均值，确定对话文本的句子与质检例句的匹配相似度。

具体的，可以对话文本的句子对应的关键词组和质检例句对应的关键词组输入到预训练的词向量模型，获取各关键词组对应的词向量组，例如质检例句的词向量组为A＝(a₁,a₂,…,a_n)，对话文本的句子对应词向量组B＝(b₁,b₂,…,b_m)。将A中每个词向量分别和B中的所有向量求cos相似度，并分别取最大值如公式(1)：

从而可以得到质检例句中包含的词与对话文本的关联度x₁,x₂,…,x_n，同理得到对话文本句子中包含的词与质检例句的关联度y₁,y₂,…,y_m。

最后将质检例句和对话文本句子中包含的词关联度分别相加求平均后得到平均值：

其中，avg1是质检例句中包含的词的关联度的平均值，avg2为对话文本的句子中包含的词的关联度的平均值。

在依据这两个平均值可以的两个句子的匹配相似度，即sim＝(avg1+avg2)/2。

通过上述方式得到的匹配相似度，准确率高，效率高。

步骤203，将与所述质检例句的匹配相似度大于阈值的句子确定为候选例句，并将所述候选例句发送给用户。

将候选例句推送给用户后，用户可以根据需求从候选例句中选取质检例句存储到质检例句库中，进而增量将质检例句的数量，同时通过本发明得到的质检例句的质量高，进一步提高了质检机器人对该质检项检测判定的准确率。

需要说明的是，在确定候选例句之前，需要先对对话文本中的句子与质检例句的匹配相似度进行排序和去重。

具体的，将对话文本中的句子与质检例句的匹配相似度按照相似度的大小，从大到小进行排序，然后去掉重复的句子。例如有的对话文本中的句子与质检例句中的句子相同，这种句子是需要去掉的。

本发明实施例表明，获取对话文本，将对话文本的句子与质检例句库中的质检例句进行语义匹配，得到对话文本的句子与质检例句的匹配相似度，将与质检例句的匹配相似度大于阈值的句子确定为候选例句，并将候选例句发送给用户，以使用户根据需求从候选例句中选取质检例句存储到质检例句库中。通过把对话文本的句子与已有的质检例句进行语义匹配，得到匹配相似度，进而将匹配相似度大于阈值的句子确定为候选例句推荐给用户，使得用户根据需求选中候选例句存储到质检例句库中，从而实现了质检例句的自动增加，解决了人工编辑质检例句效率低的问题，提高了确定质检例句的效率。

基于相同的技术构思，图3示例性的示出了本发明实施例提供的一种质检例句推荐的装置，该装置可以执行质检例句推荐的方法的流程。

如图3所示，该装置包括：

获取单元301，用于获取对话文本；

处理单元302，用于将所述对话文本的句子与质检例句库中的质检例句进行语义匹配，得到所述对话文本的句子与所述质检例句的匹配相似度；将与所述质检例句的匹配相似度大于阈值的句子确定为候选例句，并将所述候选例句发送给用户，以使所述用户根据需求从所述候选例句中选取质检例句存储到所述质检例句库中。

可选的，所述处理单元302具体用于：

可选的，所述处理单元302还用于：

基于相同的技术构思，本发明实施例提供一种计算设备，包括：

存储器，用于存储程序指令；

基于相同的技术构思，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行质检例句推荐的方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种质检例句推荐的方法，其特征在于，包括：

获取对话文本；

2.如权利要求1所述的方法，其特征在于，所述将所述对话文本的句子与质检例句库中的质检例句进行语义匹配，得到所述对话文本的句子与所述质检例句的匹配相似度，包括：

3.如权利要求2所述的方法，其特征在于，所述根据所述关键词的权重值，确定出所述对话文本的句子对应的关键词组和所述质检例句对应的关键词组，包括：

4.如权利要求2所述的方法，其特征在于，所述根据所述对话文本的句子对应的关键词组和所述质检例句对应的关键词组，确定所述对话文本的句子与所述质检例句的匹配相似度，包括：

5.如权利要求4所述的方法，其特征在于，所述根据所述对话文本的句子的每个词与所述质检例句的关联度和所述质检例句的每个词与所述对话文本的句子的关联度，确定所述对话文本的句子与所述质检例句的匹配相似度，包括：

6.如权利要求1至5任一项所述的方法，其特征在于，在所述将与所述质检例句的匹配相似度大于阈值的句子确定为候选例句之前，还包括：

7.一种质检例句推荐的装置，其特征在于，包括：

获取单元，用于获取对话文本；

8.如权利要求7所述的装置，其特征在于，所述处理单元具体用于：

9.一种计算设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行权利要求1至6任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行权利要求1至6任一项所述的方法。