CN112506963B

CN112506963B - 一种面向多业务场景的服务机器人问题匹配方法

Info

Publication number: CN112506963B
Application number: CN202011319407.2A
Authority: CN
Inventors: 聂桂芝; 陆明名
Original assignee: Shanghai Ferly Digital Technology Co ltd
Current assignee: Shanghai Ferly Digital Technology Co ltd
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2022-09-09
Anticipated expiration: 2040-11-23
Also published as: CN112506963A

Abstract

本发明公开了一种面向多业务场景的服务机器人问题匹配方法，包括以下步骤：S110：服务机器人获取用户查询，将其与业务场景编号一起输入问题匹配系统；S120：所述问题匹配系统根据业务场景编号找到对应的问题库及索引；S130：借助搜索引擎初筛上述业务场景对应的问题库，得到最相似的N个问题；S140：利用所有业务场景共享的重排序模型，对所述N个问题进行重排序，输出排名第一的问题的QID给服务机器人；S150：服务机器人根据所述QID从答案库中找出合适的答案返回给用户。本发明提出的初筛和重排序“两步走”策略，兼具高性能和高准确率的优势。

Description

一种面向多业务场景的服务机器人问题匹配方法

技术领域

本发明属于自然语言处理领域，涉及一种相似度计算、问题匹配的方法。

背景技术

随着语音识别、机器视觉、语义理解等人工智能技术的不断发展，服务机器人取得了长足进步，智能化程度明显提升。此外，人们也逐渐体会到服务机器人给生活带来的便利，对其需求与日俱增。在技术和需求的双重驱动下，服务机器人已经应用在党建、政务、金融、医疗、教育等众多领域和业务场景，实现引导接待、自动问答、闲聊陪伴等多样化、复合型功能。

通常，为实现精准问答，服务机器人会为每个业务场景搭建一套问题匹配系统，通过匹配问题库中的相似问题，回答用户提问。但随着业务场景的不断扩张，问题匹配系统的数量也急剧增长，占用的运行资源越来越多，维护难度也不断提升。此外，由于单个业务场景的问题库规模都较小，缺乏充足的样本微调在语义理解方面当前最优的预训练模型，导致过拟合现象严重，缺乏良好的鲁棒性和泛化能力，极大限制了预训练模型在服务机器人问题匹配中的应用。

发明内容

为了解决现有技术存在的不足，本发明的目的是提供一种面向多业务场景的服务机器人问题匹配方法，建立一个统一的问题匹配系统，解决多个系统并存时资源消耗高、维护代价大等难题。并且通过初筛和重排序“两步走”的策略，使本发明兼具高性能和高准确率的优势。

为实现上述目的，本发明提供如下技术方案：

一种面向多业务场景的服务机器人问题匹配方法，包括以下步骤：

S110：服务机器人获取用户查询，将其与业务场景编号一起输入问题匹配系统；

S120：所述问题匹配系统根据业务场景编号找到对应的问题库及索引；

S130：借助搜索引擎初筛上述业务场景对应的问题库，得到最相似的N个问题；

S140：利用所有业务场景共享的重排序模型，对所述N个问题进行重排序，输出排名第一的问题的QID给服务机器人；

S150：服务机器人根据所述QID从答案库中找出合适的答案返回给用户。

步骤S120中，所述问题库采用倒排索引的方式建立词到问题列表的映射关系，用于步骤S130快速地筛选相似问题。

一个倒排索引由问题库中所有不重复的词构成，其中每个词都有一个包含该词的问题列表；每添加一个问题，倒排索引都会更新，以反应当前最新的词到问题列表的映射关系，过程如下：首先，使用分词器将问题按细粒度模式切分为各种可能的词；接着，遍历每个词，若倒排索引中已存在该词，则将当前问题追加到该词的问题列表，若倒排索引中不存在该词，则先在倒排索引中添加该词，再将当前问题添加到该词的问题列表；然后，更新搜索时所需的参数，包括问题库全部问题数N、词t的问题列表长度n(t)、词t的逆文档频率IDF(t)、新问题的长度dl和问题库所有问题的平均长度avgdl；其中，IDF(t)的计算方法如下：

步骤S130中，所述搜索引擎采用BM25算法计算用户查询和问题库中问题的相关性得分；以所述相关性得分为基础，选出得分最高的N个问题输入到步骤S140所述的重排序模型。

使用分词器将用户查询按智能模式进行切分，与倒排索引类似，也得到一组词；接着，依据用户查询分词结果，从倒排索引中取出相同的词及其问题列表；然后，采用BM25算法计算用户查询q和问题d的相关性得分Score(q，d)，公式如下：

上式中，用户查询q被切分为{q₁，...，q_m}共m个词；对于用户查询中第i个词q_i，从倒排索引相关参数中取出该词的逆文档频率IDF(q_i)，并统计该词在问题d中出现的次数，记为f_i；将IDF(q_i)和f_i代入上式，并联合问题d的长度dl和问题库所有问题的平均长度avgdl，计算出词q_i上的相关性得分；相加这些词上的相关性得分，最终得到用户查询q和问题d的相关性得分Score(q，d)；上式中k₁和b为调节因子；最后，按相关性得分由高到低排列上述过程中涉及的问题，选取前N个问题作为用户查询最相似的N个问题。

步骤S140中，所述重排序模型以BERT预训练模型为基础，在[CLS]的隐态向量之上添加一层全连接网络，输出用户查询和某个问题的相似度；重排序模型为各业务场景共享，通过从所有问题库中抽取出两两相似或不相似的二分类样本进行模型训练，使之具备多业务场景的适用性。

步骤S140中，所述重排序训练样本的类别根据QID确定；若两个问题QID相同，则为相似样本；若两个问题QID不同，则为不相似样本。再次利用步骤S130所述搜索引擎，检索每个问题与之最相似但QID不同的K个问题，以此构造不相似样本。

步骤S140中，所述问题和QID的映射关系在问题库添加新问题时指定，包括以下步骤：

S210：管理人员在问题库管理页面输入新问题，触发初筛和重排序流程，得到一组与新问题相似且QID各不相同的问题和QID列表，所述问题和QID列表按问题相似度由高到低排列；

S220：管理人员从返回的问题和QID列表中勾选出与新问题最相似的一个问题，将其QID与新问题关联在一起；

S230：若管理人员认为返回的问题和QID列表中没有与新问题相似的问题，则为新问题赋予一个新的QID，并将两者关联在一起；

S240：将新问题及其关联的QID一起添加到问题库中；

S250：问题库依据新问题更新索引，且当新问题累积到一定数量(可设置一般范围为(50-100))或则人为主动点击按钮操作等方式触发重排序模型的再次训练。

步骤S210的添加新问题时的初筛和重排序过程与步骤中，在初筛结果中各问题的QID互不相同，重排序输出各问题对的相似度。

本发明的有益效果是：提出一种面向多业务场景的服务机器人问题匹配方法，一方面通过初筛缩小相似问题搜索范围，提高系统响应速度；另一方面以预训练模型为基础构建的重排序模型，充分发挥预训练模型的优异性能，使问题匹配更准确。本发明提出的初筛和重排序“两步走”策略，兼具高性能和高准确率的优势。与只使用预训练模型的匹配方法相比，本发明规避了逐问题匹配耗时量大、效率低等不足，更具实用性。与只使用搜索引擎的匹配方法相比，本发明可以找出字词不同但语义相近的问题，适用范围更广，用户体验更优。此外，共享的重排序模型可以避免为每个业务场景部署一个模型，降低资源消耗和维护难度。而且，重排序训练样本取自各业务场景的问题库，能让模型有效学习各领域知识，进一步提高问题匹配的准确率。

附图说明

图1是本发明一实施例提供的服务机器人问题匹配方法的流程示意图；

图2是本发明一实施例提供的服务机器人重排序模型架构；

图3是本发明一实施例提供的服务机器人添加新问题的流程示意图。

具体实施方式

结合以下具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

本发明提供了一种面向多业务场景的服务机器人问题匹配方法，包括以下步骤：S110:服务机器人获取用户查询，将其与业务场景编号一起输入问题匹配系统。

S220:问题匹配系统根据业务场景编号找到对应的问题库及索引。各业务场景的问题库采用倒排索引的方式建立词到问题列表的映射关系，方便后续快速地筛选相似问题。

S130:借助搜索引擎初筛问题库，得到最相似的N个问题。搜索引擎采用BM25算法计算用户查询和问题库中问题的相关性得分。以此为基础，选出得分最高的N个问题输入到后续的重排序模型。

S140:利用所有业务场景共享的重排序模型，对这N个问题进行重排序，输出排名第一的问题的QID给服务机器人。重排序模型以BERT预训练模型为基础，在[CLS]的隐态向量之上添加一层全连接网络，输出用户查询和某个问题的相似度。重排序模型为各业务场景共享，通过从所有问题库中抽取出两两相似或不相似的二分类样本进行模型训练，使之具备多业务场景的适用性。

S150:服务机器人根据QID从答案库中找出合适的答案返回给用户。

可选地，若初筛结果中排名第一的问题与用户查询完全一致，跳过后续重排序流程，直接返回该问题的QID给服务机器人。

可选地，若重排序模型输出的N个问题与用户查询的相似度都低于0.5，认为用户查询超出问题库范围，直接让服务机器人告知用户答案不存在。

可选地，重排序模型训练样本的类别根据QID确定。若两个问题QID相同，则为相似样本；若两个问题QID不同，则为不相似样本。鉴于不相似样本空间巨大，为使重排序模型得到有效训练，再次利用步骤S130所述搜索引擎，检索每个问题与之最相似但QID不同的K个问题，以此构造不相似样本。

可选地，问题和QID的映射关系在问题库添加新问题时指定，添加新问题的步骤包括：

S210:管理人员在问题库管理页面输入新问题，触发初筛和重排序流程，得到一组与新问题相似且QID各不相同的问题和QID列表，列表按问题相似度由高到低排列；

S220:管理人员从返回的列表中勾选出与新问题最相似的一个问题，将其QID与新问题关联在一起；

S230:若管理人员认为返回的列表中没有与新问题相似的问题，则为新问题赋予一个新的QID，并将两者关联在一起；

S240:将新问题及其关联的QID一起添加到问题库中；

S250:问题库依据新问题更新索引，且当新问题累积到一定数量，一般范围为50-100，触发重排序模型的再次训练。

可选地，添加新问题时的初筛和重排序过程与匹配时的过程有所区别，具体表现在初筛结果中各问题的QID互不相同，重排序输出各问题对的相似度，而不只是排名第一的问题。

实施例

本发明实施例提出一种面向多业务场景的服务机器人问题匹配方法，如图1所示，包括以下步骤：

S120：问题匹配系统根据业务场景编号找到对应的问题库及索引；

S140：利用所有业务场景共享的重排序模型，对这N个问题进行重排序，输出排名第一的问题的QID给服务机器人；

S150：服务机器人根据QID从答案库中找出合适的答案返回给用户。

在本实施例步骤S120中，各业务场景的问题库采用倒排索引的方式建立词到问题列表的映射关系。具体而言，一个倒排索引由问题库中所有不重复的词构成，其中每个词都有一个包含该词的问题列表。每添加一个问题，倒排索引都会更新，以反应当前最新的词到问题列表的映射关系，过程大致如下：首先，使用IK Analyzer中文分词器将问题按细粒度模式切分为各种可能的词，比如“我是中国人”在细粒度模式下切分为“我”、“是”、“中国人”、“中国”和“国人”等词；接着，遍历每个词，若倒排索引中已存在该词，则将当前问题追加到该词的问题列表，若倒排索引中不存在该词，则先在倒排索引中添加该词，再将当前问题添加到该词的问题列表。然后，更新搜索时所需的一些参数，包括问题库全部问题数N、词t的问题列表长度n(t)、词t的逆文档频率IDF(t)、新问题的长度dl和问题库所有问题的平均长度avgdl。其中，IDF(t)的计算方法如下：

在本实施例步骤S130中，搜索引擎采用BM25算法计算用户查询和问题库中问题的相关性得分。以此为基础，选出得分最高的N个问题输入到重排序模型。具体过程如下：首先，使用IK Analyzer中文分词器将用户查询按智能模式进行切分，与倒排索引类似，也得到一组词，比如“我是中国人”在智能模式下切分为“我”、“是”和“中国人”等词；接着，依据用户查询分词结果，从倒排索引中取出相同的词及其问题列表。然后，采用BM25算法计算用户查询q和问题d的相关性得分Score(q，d)，公式如下：

上式中，用户查询q被切分为{q₁，...，q_m}共m个词。对于用户查询中第i个词q_i，从倒排索引相关参数中取出该词的逆文档频率IDF(q_i)，并统计该词在问题d中出现的次数，记为f_i。将IDF(q_i)和f_i代入上式，并联合问题d的长度dl和问题库所有问题的平均长度avgdl，计算出词qi上的相关性得分。相加这些词上的相关性得分，最终得到用户查询q和问题d的相关性得分Score(q，d)。特别地，上式中k₁和b为调节因子，通常设置为1.2和0.75。最后，按相关性得分由高到低排列上述过程中涉及的问题，选取前N个问题作为用户查询最相似的N个问题。

在本实施例步骤S140中，重排序模型以BERT预训练模型为基础，在[CLS]的隐态向量之上添加一层全连接网络，输出用户查询和某个问题的相似度，再根据相似度对这N个问题进行降序排列，最终选择排名第一的问题作为模型输出，如图2所示。重排序被设计成二分类任务，将问题库中任意两个问题构造为相似或不相似样本进行模型训练。具体而言，用户查询q和问题d分别被切分为个N字和M个字，拼接这两个句子，并在前、中、后位置添加[CLS]和[SEP]，得到BERT的输入序列：

{[CLS]，Tok1，...，TokN，[SEP]，Tok1，...，TokM，[SEP]}

BERT内部，首先将每个字w转换为向量表示E_w，包括词嵌入、段嵌入和位置嵌入三部分，这三部分相加即为字的向量表示。然后，经过12层双向编码网络，每个字被编码为d_h＝768维的隐态向量T_w。特别地，[CLS]的隐态向量记为C。在C的基础上，本实施例添加一层全连接网络，将C转换为一个2维向量o，即

o＝W^TC+b

其中，

为模型待训练参数。最后，经过一个softmax函数，生成用户查询q和问题d的不相似概率p₁和相似概率p₂：

特别地，p₁+p₂＝1。本实施例将p₂作为用户查询q和问题d的相似度，参与最终的排序操作。

在本实施例步骤S140中，重排序模型为各业务场景共享，通过从所有问题库中抽取出两两相似或不相似的二分类样本进行模型训练，使之具备多业务场景的适用性。具体而言，对于某一问题d，将与d具有相同QID的问题作为d的相似问题，而不相似问题的选取方法相对较多，常用的有随机选择K个不同QID的问题。但随机选择无法保证样本质量，对那些极易区分的两个问题，预训练模型本身已可很好地辨别，无需再行训练。为了增加任务难度，让预训练模型得到有效训练，本实施例使用步骤S130搜索引擎构造负样本。具体方法为利用搜索引擎检索问题库中与d字词高度相似的问题，从中选出QID与d不相同但排名靠前的K个问题作为d的不相似问题。

在本实施例中，若步骤S130初筛结果中排名第一的问题与用户查询完全一致，跳过后续重排序流程，直接返回该问题的QID给服务机器人。

在本实施例中，若步骤S140重排序模型输出的N个问题与用户查询的相似度都低于0.5，认为用户查询超出问题库范围，直接让服务机器人告知用户答案不存在。

在本实施例中，问题和QID的映射关系在问题库添加新问题时指定，如图3所示，包括以下步骤：

S210：管理人员在问题库管理页面输入新问题，触发初筛和重排序流程，得到一组与新问题相似且QID各不相同的问题和QID列表，列表按问题相似度由高到低排列；

S220：管理人员从返回的列表中勾选出与新问题最相似的一个问题，将其QID与新问题关联在一起；

S230：若管理人员认为返回的列表中没有与新问题相似的问题，则为新问题赋予一个新的QID，并将两者关联在一起；

S240：将新问题及其关联的QID一起添加到问题库中；

S250：问题库依据新问题更新索引，且当新问题累积到50-100个时，触发重排序模型的再次训练。

在本实施例步骤S210中，添加新问题时的初筛和重排序过程与步骤S130和S140有所区别，具体表现在初筛结果中各问题的QID互不相同，重排序输出各问题对的相似度，而不只是排名第一的问题。

本发明的保护内容不局限于以上实施例。在不背离本发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种面向多业务场景的服务机器人问题匹配方法，其特征在于，包括以下步骤：

S130：借助搜索引擎初筛上述业务场景对应的问题库，得到最相似的N个问题；所述搜索引擎采用BM25算法计算用户查询和问题库中问题的相关性得分；以所述相关性得分为基础，选出得分最高的N个问题输入到步骤S140重排序模型；

上式中，用户查询q被切分为{q₁，...，q_m}共m个词；对于用户查询中第i个词q_i，从倒排索引相关参数中取出该词的逆文档频率IDF(q_i)，并统计该词在问题d中出现的次数，记为f_i；将IDF(q_i)和f_i代入上式，并联合问题d的长度dl和问题库所有问题的平均长度avgdl，计算出词q_i上的相关性得分；相加这些词上的相关性得分，最终得到用户查询q和问题d的相关性得分Score(q，d)；上式中k₁和b为调节因子；最后，按相关性得分由高到低排列上述过程中涉及的问题，选取前N个问题作为用户查询最相似的N个问题；

S140：利用所有业务场景共享的重排序模型，对所述N个问题进行重排序，输出排名第一的问题的QID给服务机器人；步骤S140中，所述问题和QID的映射关系在问题库添加新问题时指定，包括以下步骤：

S210：管理人员在问题库管理页面输入新问题，触发初筛和重排序流程，得到一组与新问题相似且QID各不相同的问题和QID列表，所述问题和QID列表按问题相似度由高到低排列；添加新问题时的初筛和重排序过程与步骤中，在初筛结果中各问题的QID互不相同，重排序输出各问题对的相似度；

S240：将新问题及其关联的QID一起添加到问题库中；

S250：问题库依据新问题更新索引，当新问题积累到一定数量，设置范围为50-100或人为主动点击按钮操作方式触发重排序模型的再次训练；

2.根据权利要求1所述的方法，其特征在于，步骤S120中，所述问题库采用倒排索引的方式建立词到问题列表的映射关系，用于步骤S130快速地筛选相似问题。

3.根据权利要求2所述的方法，其特征在于，所述倒排索引由问题库中所有不重复的词构成，其中每个词都有一个包含该词的问题列表；每添加一个问题，倒排索引都会更新，以反应当前最新的词到问题列表的映射关系，过程如下：首先，使用分词器将问题按细粒度模式切分为各种可能的词；接着，遍历每个词，若倒排索引中己存在该词，则将当前问题追加到该词的问题列表，若倒排索引中不存在该词，则先在倒排索引中添加该词，再将当前问题添加到该词的问题列表；然后，更新搜索时所需的参数，包括问题库全部问题数N、词t的问题列表长度n(t)、词t的逆文档频率IDF(t)、新问题的长度dl和问题库所有问题的平均长度avgdl；其中，IDF(t)的计算方法如下：

4.根据权利要求1所述的方法，其特征在于，步骤S140中，所述重排序模型以BERT预训练模型为基础，在[CLS]的隐态向量之上添加一层全连接网络，输出用户查询和某个问题的相似度；重排序模型为各业务场景共享，通过从所有问题库中抽取出两两相似或不相似的二分类样本进行模型训练，使之具备多业务场景的适用性。

5.根据权利要求1所述的方法，其特征在于，步骤S140中，所述重排序训练样本的类别根据QID确定；若两个问题QID相同，则为相似样本；若两个问题QID不同，则为不相似样本。

6.根据权利要求1所述的方法，其特征在于，再次利用步骤S130所述搜索引擎，检索每个问题与之最相似但QID不同的K个问题，以此构造不相似样本。