CN112328755A

CN112328755A - 一种问答系统、问答机器人及其faq问答库召回方法

Info

Publication number: CN112328755A
Application number: CN202011037649.2A
Authority: CN
Inventors: 陈鑫; 肖龙源; 廖斌
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2021-02-05
Anticipated expiration: 2040-09-28
Also published as: CN112328755B

Abstract

本发明公开了一种问答系统、问答机器人及其FAQ问答库召回方法，其包括：获取FAQ问答库中的问答话术，问答话术包括一个以上问题和一个答案组成的问答对；对问答话术进行意图识别和命名实体识别，获取问答话术的意图识别结果和命名实体识别结果；将意图识别结果、命名实体识别结果、问答话术拼接形成三元组识别模板；获取访客问题，并对访客问题进行意图识别和命名实体识别，获取访客问题的意图识别结果和命名实体识别结果；将访客问题的意图识别结果和命名实体识别结果与三元组识别模板进行匹配，得到访客问题对应的问答话术，并将该问答话术中对应的答案返回给访客；采用该模板匹配的方式，与传统的语义相似度匹配相比，可以有效的提高FAQ的召回率。

Description

一种问答系统、问答机器人及其FAQ问答库召回方法

技术领域

本发明涉及智能客服技术领域，特别是一种问答系统、问答机器人及其FAQ问答库召回方法。

背景技术

问答系统处理的对象主要包括用户的问题以及答案。根据问题所属的知识领域，问答系统可分为面向限定域的问答系统、面向开放域的问答系统、以及面向常用问题集(Frequently Asked Questions,FAQ)的问答系统。依据答案来源，问答系统可分为基于结构化数据的问答系统如KBQA、基于文本的问答系统如机器阅读理解、以及基于问答对的问答系统如FAQ问答。

现有的FAQ召回方法通常采用相似问题匹配方案，即，对比访客问题与现有FAQ问答库中问题的相似度，得到与访客问题相似的标准问题，再根据FAQ问答库中的问答对，返回所述标准问题对应的标准答案，作为所述访客问题的答案。

常用的相似度匹配有两种方案：

一种是基于词袋模型(Bag of Words，简称BoW)，它是通过对句子进行分词处理，将所有词语装进一个袋子里，不考虑其词法和语序的问题，即每个词语都是独立的，把每一个单词都进行统计，同时计算每个单词出现的次数。但是，词袋模型不考虑文本中词与词之间的上下文关系，仅仅只考虑所有词的权重，而权重与词在文本中出现的频率有关。相似度匹配时，基于句子里面的词有哪些是相似或者相等的，通过累加权重来判断两句话是否相似。

另一种是训练一个语言模型，例如词向量模型word2vec，它是考虑词语位置关系的一种模型，通过大量语料的训练，将每一个词语映射到高维度的向量当中，通过求余弦的方式，判断两个词语之间的相似度。

但是，采用上述句子句意相似的方案，对相似度模型/相似度算法的准确率要求很高，且大多数时候容易召不回来。因为在机器的认知里，相似除了句意相似，句子的长度也会提供权重。当目标句和库里面相似的问题长度差距很大时，往往召不回来，且容易召到另一句。因此，现有技术中的FAQ召回方法召回率较低，且效率低下。

发明内容

本发明的主要目的在于提供了一种FAQ问答库召回方法，以及采用该召回方法的问答系统、问答机器人，旨在解决现有的FAQ问答库召回方法召回率低下的技术问题。

为实现上述目的，本发明提供了一种FAQ问答库召回方法，其包括以下步骤：

获取FAQ问答库中的问答话术，所述问答话术包括一个以上问题和一个答案组成的问答对；

对所述问答话术进行意图识别和命名实体识别，获取所述问答话术的意图识别结果和命名实体识别结果；

将所述意图识别结果、命名实体识别结果、问答话术拼接形成三元组识别模板；

获取访客问题，并对所述访客问题进行意图识别和命名实体识别，获取所述访客问题的意图识别结果和命名实体识别结果；

将所述访客问题的意图识别结果和命名实体识别结果与所述三元组识别模板进行匹配，得到所述访客问题对应的问答话术，并将该问答话术中对应的答案返回给访客。

优选的，所述三元组识别模板的拼接，进一步包括以下步骤：

获取所述意图识别结果、命名实体识别结果、问答话术中的键值对信息；

将所述键值对信息按照Json数据格式进行拼接，得到拼接数据；

将所述拼接数据存储在所述FAQ问答库中或者存储为Json文件。

进一步的，每个三元组识别模板中包括一个以上的意图识别结果、一个以上的命名实体识别结果、一个问答话术；将所述访客问题的意图识别结果和命名实体识别结果与所述三元组识别模板进行匹配时，匹配规则包括完全匹配规则和择一匹配规则，且所述完全匹配规则优先于所述择一匹配规则，当所述完全匹配规则不符合时，再进一步采用所述择一匹配规则。

优选的，所述择一匹配规则是指：

当所述访客问题的意图识别结果与所述三元组识别模板中的意图识别结果中的任一个相匹配，并且，当所述访客问题的命名实体识别结果与所述三元组识别模板中的命名实体识别结果中的任一个相匹配，则返回所述访客问题对应的问答话术；或者，

当所述访客问题的意图识别结果与所述三元组识别模板中的所有意图识别结果相匹配，并且，当所述访客问题的命名实体识别结果与所述三元组识别模板中的命名实体识别结果中的任一个相匹配，则返回所述访客问题对应的问答话术；或者，

当所述访客问题的意图识别结果与所述三元组识别模板中的意图识别结果中的任一个相匹配，并且，当所述访客问题的命名实体识别结果与所述三元组识别模板中的所有命名实体识别结果相匹配，则返回所述访客问题对应的问答话术。

优选的，所述完全匹配规则是指：

当所述访客问题的意图识别结果与所述三元组识别模板中的所有意图识别结果相匹配，并且，当所述访客问题的命名实体识别结果与所述三元组识别模板中的所有命名实体识别结果相匹配，则返回所述访客问题对应的问答话术。

优选的，对所述FAQ问答库中的问答话术进行意图识别，是根据所述FAQ问答库中的训练语料进行意图标签的标记；根据所述训练语料和对应的意图标签进行训练，得到意图识别分类器；将所述FAQ问答库中的问答话术输入训练好的意图识别分类器中，所述意图识别分类器返回所述问答话术的意图识别结果；对所述访客问题进行意图识别，是将所述访客问题输入训练好的意图识别分类器中，所述意图识别分类器返回所述访客问题的意图识别结果。

优选的，对所述问答话术进行命名实体识别，是根据所述FAQ问答库中的训练语料进行类别标签的标记；根据所述训练语料和对应的类别标签进行训练，得到命名实体识别模型；将所述FAQ问答库中的问答话术输入训练好的命名实体识别模型中，所述命名实体识别模型返回对应的类别标签，作为所述问答话术的意图识别结果；对所述访客问题进行命名实体识别，是将所述访客问题输入训练好的命名实体识别模型中，所述命名实体识别模型返回对应的类别标签，作为所述访客问题的意图识别结果。

与所述FAQ问答库召回方法相对应的，本发明提供一种问答系统，其包括：

FAQ问答库，用于存储问答话术，所述问答话术包括一个以上问题和一个答案组成的问答对；

意图识别模块，用于对所述问答话术或所述访客问题进行意图识别，获取所述问答话术或所述访客问题的意图识别结果；

命名实体识别模块，用于对所述问答话术或所述访客问题进行命名实体识别，获取所述问答话术或所述访客问题的命名实体识别结果；

模板拼接模块，用于将所述意图识别结果、命名实体识别结果、问答话术拼接形成三元组识别模板；

数据采集模块，用于获取访客问题；

答案召回模块，用于将所述访客问题的意图识别结果和命名实体识别结果与所述三元组识别模板进行匹配，得到所述访客问题对应的问答话术，并将该问答话术中对应的答案返回给访客。

此外，为实现上述目的，本发明还提供一种问答机器人，所述问答机器人包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的问答系统，所述问答系统被所述处理器执行时实现如上述任一项所述的FAQ问答库召回方法的步骤。

本发明的有益效果是：

(1)本发明通过对FAQ问答库中的问答话术进行意图识别和命名实体识别，将所述意图识别结果、命名实体识别结果、问答话术拼接形成三元组识别模板；回答访客问题时，将所述访客问题的意图识别结果和命名实体识别结果与所述三元组识别模板进行匹配，得到所述访客问题对应的问答话术，并将该问答话术中对应的答案返回给访客，采用模板匹配的方式，与传统的语义相似度匹配相比，可以有效的提高FAQ的召回率；

(2)本发明的识别模板不局限于仅一个意图识别结果和一个命名实体识别结果，而是可以多个意图识别结果和多个命名实体识别结果同时对应于一个问答话术，从而简化话术，且提高FAQ召回的效率。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种FAQ问答库召回方法，其包括以下步骤：

本实施例中，所述三元组识别模板的拼接，进一步包括以下步骤：

将所述拼接数据存储在所述FAQ问答库中或者存储为Json文件。

JSON(JavaScript Object Notation)一种轻量级的数据交换格式，具有良好的可读和便于快速编写的特性。可在不同平台之间进行数据交换。JSON采用兼容性很高的、完全独立于语言文本格式，同时也具备类似于C语言的习惯(包括C,C++,C#,Java,JavaScript,Perl,Python等)体系的行为。这些特性使JSON成为理想的数据交换语言。

本实施例中，每个三元组识别模板中包括一个以上的意图识别结果、一个以上的命名实体识别结果、一个问答话术。即，一个问答话术可以对应一个意图识别结果和一个命名实体识别结果，或者，一个问答话术对应多个意图识别结果和多个命名实体识别结果。

具体的，本实施例将所述访客问题的意图识别结果和命名实体识别结果与所述三元组识别模板进行匹配时，匹配规则包括完全匹配规则和择一匹配规则，具体包括以下匹配方案：

(1).当所述访客问题的意图识别结果与所述三元组识别模板中的意图识别结果中的任一个相匹配，并且，当所述访客问题的命名实体识别结果与所述三元组识别模板中的命名实体识别结果中的任一个相匹配，则返回所述访客问题对应的问答话术；

(2).当所述访客问题的意图识别结果与所述三元组识别模板中的所有意图识别结果相匹配，并且，当所述访客问题的命名实体识别结果与所述三元组识别模板中的命名实体识别结果中的任一个相匹配，则返回所述访客问题对应的问答话术；

(3).当所述访客问题的意图识别结果与所述三元组识别模板中的意图识别结果中的任一个相匹配，并且，当所述访客问题的命名实体识别结果与所述三元组识别模板中的所有命名实体识别结果相匹配，则返回所述访客问题对应的问答话术；

(4).当所述访客问题的意图识别结果与所述三元组识别模板中的所有意图识别结果相匹配，并且，当所述访客问题的命名实体识别结果与所述三元组识别模板中的所有命名实体识别结果相匹配，则返回所述访客问题对应的问答话术。

其中，匹配方案(1)、(2)、(3)采用择一匹配规则，匹配方案(4)采用完全匹配规则；且所述完全匹配规则优先于所述择一匹配规则，当所述完全匹配规则不符合时，再进一步采用所述择一匹配规则。

本实施例对所述FAQ问答库中的问答话术进行意图识别，是根据所述FAQ问答库中的训练语料进行意图标签的标记；根据所述训练语料和对应的意图标签进行训练，得到意图识别分类器；将所述FAQ问答库中的问答话术输入训练好的意图识别分类器中，所述意图识别分类器返回所述问答话术的意图识别结果；对所述访客问题进行意图识别，是将所述访客问题输入训练好的意图识别分类器中，所述意图识别分类器返回所述访客问题的意图识别结果。

本实施例中，对所述问答话术进行命名实体识别，是采用有监督的识别算法。具体的，是根据所述FAQ问答库中的训练语料进行类别标签的标记；根据所述训练语料和对应的类别标签进行训练，得到命名实体识别模型；将所述FAQ问答库中的问答话术输入训练好的命名实体识别模型中，所述命名实体识别模型返回对应的类别标签，作为所述问答话术的意图识别结果；对所述访客问题进行命名实体识别，是将所述访客问题输入训练好的命名实体识别模型中，所述命名实体识别模型返回对应的类别标签，作为所述访客问题的意图识别结果。

例如，适用于专利咨询的相关FAQ召回过程就可以通过如下步骤实现。

首先，通过意图识别和命名实体识别跑一遍FAQ问答库中的数据得到下表中的部分结果：

然后，再将意图识别结果和命名实体识别结果NER做拼接得到三元组识别模板，例如上表中的第一句，咨询专利流程#年费就是一个识别模板，每个识别模板有人工整理好的问答话术“专利超过年费缴费期限怎么办#应当在规定时间内补缴专利年费并补足滞纳金”。

下次访客来访时，先提取访客问题，例如“我有一件专利忘记缴纳年费怎么办？”先对该访客问题进行意图识别和命名实体识别，然后再去FAQ问答库中寻找对应的话术。

但如果采用传统的相似度匹配方法，“我有一件发明专利忘记缴纳年费，可以补缴吗？”和“专利超过年费缴费期限怎么办”这两句话是不相似的，但是回答的结果可以是一样的。传统相似句模型对这类长度不一，意思相同的句子召回太差。

与所述FAQ问答库召回方法相对应的，本发明还提供一种问答系统，其包括：

数据采集模块，用于获取访客问题；

其中，所述意图识别模块为基于深度学习算法的意图识别模块，采用深度学习算法的意图识别模块可以提高对于语句意图识别的自学习能力，无需手动对增加的语句进行设置算法，只需在应用前给模型足够的样本进行学习即可。在本发明的其他具体实施方式中，所述意图识别模块也可以为基于机器学习算法的意图识别模块，采用基于机器学习的意图识别算法可以节约算力，在针对较为简单的专家系统时采用基于机器学习的意图识别模块可以节约系统成本。

所述命名实体识别模块为基于长短期记忆人工神经网络与条件随机算法的命名实体识别模块。采用长短期记忆人工神经网络作为命名实体识别模块的基础，可以有效的降低对人力参与的需求度，只需要进行足够的样本学习就可以实现对模块的识别能力扩展。并且长短期记忆人工神经网络作为一种时间循环神经网络，其网络结构相对简单，在针对长期存在的专家系统时，可以有效的节约算力成本。

在本发明的其他具体实施方式中，所述命名实体识别模块也可以为基于神经卷积网络与条件随机算法的意图识别模块，采用神经卷积网络，其采用局部连接，减少了很多参数，并且采用的是权值共享，一组连接可以共享同一个权重，而不是每个连接有一个不同的权重，又减少了很多参数。同时，其采用下采样方式，可以进一步减少参数数量。同时神经卷积网络适用的范围更广，特征识别所需的参数数量更少。

其还可以是基于预训练的语言表征模型、长短期记忆人工神经网络与条件随机算法的意图识别模块。采用预训练的语言表征模型后可以充分利用大规模的单语语料，并且可以对一词多义进行建模。对于复杂语义的专家系统可以较好的适用。

本实施例中，还可以包括暂存模块，暂存模块则可以是服务器内的临时存储器，其可以是定期清理的存储装置，也可以是基于网络的云存储装置。

其中，FAQ问答库可以是设置在服务器存储设备内的问答库，也可以是基于云存储手段形成的问答库。意图识别模块和命名实体识别模块均为设置在例如问答系统的服务器的主机内，通过主机内的存储装置存储有实现算法及运行程序，当需要时进行执行程序并通过主机内的处理器进行运算得到结果。

所述问答机器人包括：手机、数码相机或平板电脑等具有语音交互功能或文本交互功能装置或设备，还可以是安装于智能终端内的智能客服应用程序等。所述问答机器人可包括存储器、处理器、输入单元、显示单元、电源等部件。

其中，存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据问答机器人的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器和输入单元对存储器的访问。

输入单元可用于接收输入的数字或字符或图像信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，本实施例的输入单元除了包括麦克风等语音输入装置，还可包括触敏表面(例如触摸显示屏)以及其他输入设备。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于问答系统实施例及问答机器人实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

并且，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种FAQ问答库召回方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的FAQ问答库召回方法，其特征在于：所述三元组识别模板的拼接，进一步包括以下步骤：

将所述拼接数据存储在所述FAQ问答库中或者存储为Json文件。

3.根据权利要求1所述的FAQ问答库召回方法，其特征在于：每个三元组识别模板中包括一个以上的意图识别结果、一个以上的命名实体识别结果、一个问答话术；将所述访客问题的意图识别结果和命名实体识别结果与所述三元组识别模板进行匹配时，匹配规则包括完全匹配规则和择一匹配规则，且所述完全匹配规则优先于所述择一匹配规则，当所述完全匹配规则不符合时，再进一步采用所述择一匹配规则。

4.根据权利要求3所述的FAQ问答库召回方法，其特征在于：所述择一匹配规则是指：

5.根据权利要求3所述的FAQ问答库召回方法，其特征在于：所述完全匹配规则是指：

6.根据权利要求1至5任一项所述的FAQ问答库召回方法，其特征在于：对所述FAQ问答库中的问答话术进行意图识别，是根据所述FAQ问答库中的训练语料进行意图标签的标记；根据所述训练语料和对应的意图标签进行训练，得到意图识别分类器；将所述FAQ问答库中的问答话术输入训练好的意图识别分类器中，所述意图识别分类器返回所述问答话术的意图识别结果；对所述访客问题进行意图识别，是将所述访客问题输入训练好的意图识别分类器中，所述意图识别分类器返回所述访客问题的意图识别结果。

7.根据权利要求1至5任一项所述的FAQ问答库召回方法，其特征在于：对所述问答话术进行命名实体识别，是根据所述FAQ问答库中的训练语料进行类别标签的标记；根据所述训练语料和对应的类别标签进行训练，得到命名实体识别模型；将所述FAQ问答库中的问答话术输入训练好的命名实体识别模型中，所述命名实体识别模型返回对应的类别标签，作为所述问答话术的意图识别结果；对所述访客问题进行命名实体识别，是将所述访客问题输入训练好的命名实体识别模型中，所述命名实体识别模型返回对应的类别标签，作为所述访客问题的意图识别结果。

8.一种问答系统，其特征在于，包括：

数据采集模块，用于获取访客问题；

9.一种问答机器人，其特征在于，所述问答机器人包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的问答系统，所述问答系统被所述处理器执行时实现如权利要求1至7任一项所述的FAQ问答库召回方法的步骤。