CN111858887B

CN111858887B - 一种机场服务的社区问答系统

Info

Publication number: CN111858887B
Application number: CN202010666708.6A
Authority: CN
Inventors: 张日崇; 张明辉; 张延钊; 张淑慧; 胡志元
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-07-13
Filing date: 2020-07-13
Publication date: 2022-09-20
Anticipated expiration: 2040-07-13
Also published as: CN111858887A

Abstract

本发明所实现的是一种机场服务的社区问答系统，通过设计输入模块，对用户输入信息依数据的流动方向从前到后设置的四个模块，依次是问题‑问题匹配模块，问题分类模块，问题‑答案匹配模块和可回答性判断模块，以及最终的信息输出模块的算法流程结构和输入输出架构，以及设立用于问题匹配和答案生成的问答对库和答案库两个数据库，实现一个能够应用于航空领域APP智能客服的社区问答系统，该系统能够基于多种文本信息处理的方法，利用一种新的信息检索模型，以利用非结构化的信息并回答用户个性化和流程化的问题。

Description

一种机场服务的社区问答系统

技术领域

本发明涉及自然语言处理领域，尤其涉及一种机场服务的社区问答系统。

背景技术

问答系统是信息检索和自然语言处理领域下的一个细分方向，主要目的是构建一个程序或系统，使其能够自动地回答人类提出的、以自然语言方式阐述的问题。目前，已经有一系列商业化较为成功的问答系统应用到了人们的日常生活中，例如以苹果Siri为代表的一系列智能语音助手，以及微软公司的跨平台人工智能机器人微软小冰等等。当前，机场服务领域的问答系统大多是基于知识图谱构建，这种系统可以较好地回答事实型问题，例如机场安检区位置，值机窗口开放时间等等，但是对于“丢了东西怎么办”这类流程型问题则无法回答。另外，基于知识图谱的问答系统需要通过结构化的信息构建图谱，使得数据的预处理成本较高。

本发明所实现的是一个应用于机场服务的社区问答系统。该系统是基于机场客服文档等非结构化的数据，从而能够以更低的处理成本利用更多的知识。此外，该系统针对的是机场服务相关的流程型问题，可以有效对当前主流问答系统起到功能补全的作用。本系统应用到航空助手app后，智能客服便能够回答更多个性化问题，而不仅仅是机械地罗列事实，从而更好地缓解人工客服的压力。

近年来，得益于民用航空领域相关产业的快速发展和中国经济的整体利好，航空旅客量在逐年持续、快速增加。与此同时，随着移动互联网的快速渗透以及相关民航服务的数字化，越来越多的旅客选择在手机上通过应用程序来进行购票、自助值机、在线选座、退改签等操作。相应地，各个航空管家app、航空助手app的用户量也在快速增加。但是，如此高速的用户增长带来了一系列问题，其中之一便是客户服务。受限于较高的人力成本，人工客服无法以和用户量相匹配的增速扩充，这就导致客服人员面临的业务压力日益增大。然而每名客服人员的接待能力是有限的，更大的客服访问量必然导致用户更长的等待时间，长此以往用户体验便无法保障。因此，引入智能客服，让计算机程序能够自动回答一部分用户的疑问，从而缓解人工客服的压力，便是一项势在必行的措施。

本发明旨在设计并实现一个能够应用于航空领域APP智能客服的社区问答系统，该系统能够基于多种文本信息处理的方法，并提出了一种新的信息检索模型，以利用非结构化的信息并回答用户个性化和流程化的问题。

发明内容

本发明所实现的是一种机场服务的社区问答系统，包括输入模块，对用户输入信息依数据的流动方向从前到后设置的四个模块，依次是问题-问题匹配模块，问题分类模块，问题-答案匹配模块和可回答性判断模块，以及最终的信息输出模块，并设立用于问题匹配和答案生成的问答对库和答案库两个数据库；

其中，数据处理模块将原始数据进行清理和重构，生成问题-答案库，用于问题-问题匹配模块；生成分类答案库，用于问题分类模块；生成未分类答案库，用于问题-答案匹配模块以回答无法被分类器分归类的问题；输入模块用于采集用户的问题并转化为可识别的文本，并将文本输入至所述问题-问题匹配模块采用TF-IDF向量相似度匹配的模型识别并回答常见问题，如果所述问题-问题匹配模块不能匹配成功，那么问题被送入随后的所述问题分类模块进行处理，否则则将匹配生成的答案发送至信息输出模块；

所述问题分类模块为分类器，通过分类器在已经建立的存储答案的数据库中得到针对输入问题的答案库，并将所述答案库输入至所述问题-答案匹配模块；

所述问题-答案匹配模块为利用Embedding Weighted BM25模型改进Okapi BM25算法的词频计算方式的分类器对输入的问题请求进行分类的模型，并得到匹配得分，将所述匹配得分和所述答案库输入所述可回答性判断模块；

所述可回答性判断模块，通过对所述Embedding Weighted BM25方法的匹配得分进行归一化、得分设置阈值操作，对于可以回答的问题，生成给出准确的答案，而对于超出系统知识的问题或是不相关的问题，则生成“不可回答”的判断，并向所述信息输出模块返回准确有效的答案。

所述问题-问题匹配模块的所述TF-IDF向量相似度匹配的模型的运算分为两个步骤：第一步是通过设置匹配得分机制，将新的问题与问答对库中的问题集合做匹配，根据设定阈值选择出与问题最相近的问题，大于阈值的匹配可以认为是两个问题匹配成功，可以共享同一个答案，小于阈值的匹配则可以认为是两个不同的问题，匹配不成功，不能共享同一个答案；第二步，对于匹配成功的问题直接提取出该问题在所述问答对库中的答案并返回答案，对于匹配不成功的问题，则将问题发送至所述问题分类模块。

所述问题分类模块的所述分类器的运算分为三个步骤：首先，将所述答案库分为多个类别，其中每类所包含的答案互不相同，其次，采用关键词匹配的方法将问题打上m个类标签，其中m≥1，所述关键词匹配的方法具体为：每类答案人工指定一系列关键词，如果这些词有在问题中出现那么该问题就可以打上这一类的标签，最后一步，把这m个类的答案作为该问题的答案库，输入到系统下一阶段的模型中进行后续的答案选择。

所述问题-答案匹配模块的所述Embedding Weighted BM25方法的匹配得分的具体计算方法为：

其中，q是问题的词语集合，idf是逆文档频率；k1、b是BM25算法的参数，在这里均取默认值；|d|是文档中词语的数量；avgdl是文档库的文档包含词语数的平均值，q'是q中词语的近义词构成的集合，且q'和q是不相交的集合，而定义：

δ(i,q)＝1 if i∈q；andδ(i,q)＝S(i,q)if i∈q

S(j,q)≈max(sim(j,m))with m∈(non-stop-words in q)

作为改进算法的核心，该函数可以看作是词频计算函数tf(d,i)的一个系数或是一种加权处理。

所述可回答性判断模块在模型的最后对匹配得分进行归一化处理的具体方法，是将每个回答的得分除以该回答对应的问题query的句长，归一化公式如下：

进而对得分设置阈值，从而拦截掉得分过低的回答，由于CQA问答系统下各个模块应用的是不同的模型，因此对于各个模块应分别设置单独的阈值，避免混在一起进行拦截。

技术效果：

实现一个能够应用于航空领域APP智能客服的社区问答系统，该系统能够基于多种文本信息处理的方法，并提出了一种新的信息检索模型，以利用非结构化的信息并回答用户个性化和流程化的问题。

附图说明

图1：系统整体架构

图2：问题-问题匹配模块流程

图3：问题分类模块流程

具体实施方式

为了实现上述发明目的，本发明所实现一种机场服务的社区问答系统，在系统架构上，整个系统包括输入输出模块以及依照数据的流动方向从前到后共有四个模块，依次是问题-问题匹配模块，问题分类模块，问题-答案匹配模块和可回答性判断模块。问题-问题匹配模块负责识别并回答常见问题，其优点是速度快、性能好，但是能够回答的问题有限。如果问题-问题匹配模块不能回答，那么问题被送入随后的部分进行正常的答案选择。问题分类模块是对于答案集合的处理程序，初步过滤掉和问题不相关的答案，缩小了问题-答案匹配时选择答案的范围，间接地提高了回答准确率。答案选择模块是我们提出的Embedding Weighted BM25模型。最后一个模块是可回答性判断模块，负责根据答案选择的得分对回答进行最终的过滤。返回得分满足阈值要求的答案，对于得分过低的答案则返回“不可回答”的结果。系统整体架构见图1:

数据处理

系统的正常运行依赖于数据库的构建。该系统的数据库包括问答对库和答案库。数据处理模块将原始数据进行清理和重构，生成问题-答案库，用于问题-问题匹配模块；生成分类答案库，用于问题分类模块；生成未分类答案库，用于问题-答案匹配模块以回答无法被分类器分归类的问题。数据处理包括两个部分。首先是基础的数据清洗，包括去掉空白字符、全角转半角、阿拉伯数字转中文数字、分词、去停用词以及利用文本中的“短答案”合成“长答案”。因为在某些情况下，按行划分答案颗粒度过于细小，并不能全面地回答用户的问题，因此需要我们上升一个层次，按段落构建一套颗粒度更大的答案集合并添加到答案库中。

问题-问题匹配

普通的基于信息检索和搜索引擎技术的答案选择是如下的模式：

新问题->已知答案

而另一种可行的模式是问题-问题匹配(Q-Q匹配)，如图2：

虽然这样做答案选择需要两个步骤，但是其实这两个步骤分别来看都更加简单、可靠。如前文所述，相较于问题-答案匹配，问题-问题匹配拥有更好的效果，而第二个步骤不需要系统进行计算，直接从我们的问答对库中检索对应的答案即可。理论上讲，只要问答对库覆盖的范围足够全面，用这种方法会有非常高的回答准确率。该模块另外一个非常重要的作用是提升系统的整体运行速度。在本文的上一小节中提到，我们的系统采用“串联”的方式整合。对于在该模块内匹配成功的问题query，没有必要在将其再输入到系统的后面部分，直接可以将模块的输出作为系统的输出返回。这样一来，由于问题query经过的模块数量大大降低，其响应速度便可以大幅提升。在实际商业环境中，每分钟都会有成百上千的问题query涌入系统，更高的QPS便意味着更好的服务质量，进而会间接地提升产品的用户满意度。

具体到实现层面，我们采用TF-IDF向量相似度匹配的模型做问题-问题匹配。如前文在对于TF-IDF文本匹配方法分析中所提到的，这样设计是考虑到TF-IDF文本匹配方法原理简单，计算快速，同时对于服务器资源占用较小，比较符合问题-问题匹配的应用场景和实际业务需求。算法整体可以分为两个部分，每一部分分别与上文步骤对应。第一步是将新的问题query与问答对库中的问题集合做匹配，选择出与问题query最相近的问题。第二步，直接提取出该问题在问答对库中的答案，返回即可。当然，有些问题query在问答对库里并不能找到答案，所以问题-问题匹配的得分需要设置阈值进行拦截和过滤。大于阈值的匹配可以认为是两个问题足够相近，可以共享同一个答案；小于阈值的匹配则可以认为是两个不同的问题，不能共享同一个答案。即便当前没有匹配成功的问题，也会在随后阶段进行问题-答案匹配(Q-A匹配)。

问题分类

问题分类不是一个单独的模型，而是答案选择的模型前的预处理程序。如果我们能够将问题按照一定的规律划分到不同的集合里，同时将答案库也按照同样的集合分类，并将它们对应起来，那么对于每个问题，其可能的答案集合就变成了答案库的子集，而不是答案库全集。这样以来，我们虽然缩小了Q-A匹配的时候选择答案的范围，但是事实上我们提高了答案选择模型效果的下限，进而间接地提高了回答准确率。问题分类模块流程如下：

问题分类的思路实现起来很简单，一共分为三个步骤。首先，将整体答案库分为n个类别，其中每类所包含的答案互不相同。其次，对于问题query，将其打上m个类标签，其中m≥1。打标签这个操作可以有多种实现方式，目前我们采用关键词匹配的方法：为每类答案人工指定一系列关键词，如果这些词有在问题query中出现那么该问题就可以打上这一类的标签。最后一步，把这m个类的答案作为该问题的答案库(该答案库为全部答案库的一个子集)，输入到系统下一阶段的模型中进行后续的答案选择。

问题-答案匹配模块

传统的BM25系列算法的弊端在于，由于词频计算方式无法识别近义词，导致正确答案的匹配得分过低。在以BM25为代表的一系列TF-IDF的衍生算法中，对于一个词语q和文档D来说，其词频tf(q,D)是q在D中的数量与D的规模之比。但是，如果把q替换成q的近义词q'，而且q'不在D中时，那么tf(q',D)则为0。这显然是不够合理的，因为在我们人类来看q'此时依然是和D有语义上的联系。所以我们需要对BM25算法中词频的计算方式作出调整，以适应近义词的情况。

本发明提出了Embedding Weighted BM25，将该对于词频计算方式的改进应用到Okapi BM25算法中，具体见下式：

其中，q是问题的词语集合，idf()是逆文档频率；k₁、b是BM25算法的参数，在这里均取默认值；|d|是文档中词语的数量；avgdl是文档库的文档包含词语数的平均值。q'是q中词语的近义词构成的集合，且q'和q是不相交的集合。下示两个公式是该改进算法的核心，该函数可以看作是词频计算函数tf(d,i)的一个系数或是一种加权处理。

δ(i,q)＝1 if i∈q；andδ(i,q)＝S(i,q)if i∈q

S(j,q)≈max(sim(j,m))with m∈(non-stop-words in q)

传统的词频计算方式是二进制的，如果单词i在文档d中，则词频tf(d,i)＝1，否则tf(d,i)＝0。而在上式中，当i∈q时该函数δ(i,q)的值为1，此时与BM25算法完全一致；当i∈q'时该函数δ(i,q)的值是一个0到1之间的数，具体数值和i与q中词语的相似程度有关。度量词语相似程度我们这里选用词向量余弦相似度模型。

可回答性判断

由于我们的CQA问答系统的应用场景是特殊的航空领域，而且该系统可能会与其它问答系统进行整合，因此我们对于问题的可回答性需要作出判断。对于可以回答的问题，系统应尽量给出准确的答案，而对于超出系统知识的问题或是不相关的问题，系统应返回“不可回答”的判断。这样的做法是考虑到商业环境中多个子系统整合时每个部分能各有侧重，从而提高回答准确率。

由于Embedding Weighted BM25方法的匹配得分是问题query中每个词得分之和，与query的长度呈线性关系，因此为了统一比较不同问题query之间的得分，我们需要在模型的最后对匹配得分进行归一化处理。具体来说，是将每个回答的得分除以该回答对应的问题query的句长。这种处理方法不会对同一问题query下的答案排序产生影响，但是在批量处理时能够使我们用统一的阈值拦截所有问题query的回答，从而进行可回答性判断。归一化公式如下：

具体到实现层面，我们当前所采用的方法是对得分设置阈值，从而拦截掉得分过低的回答。需要指出的是，由于CQA问答系统下各个模块应用的是不同的模型，因此对于各个模块应分别设置单独的阈值，避免混在一起进行拦截。具体的阈值会随着数据集的改变、问答系统内其它部分的调整以及客户需求的变化而需要做出相应的微调，从而保证系统各个模块充分发挥各自的作用，最终返回最为准确有效的答案。

Claims

1.一种机场服务的社区问答系统，其特征在于：包括输入模块，对用户输入信息依数据的流动方向从前到后设置的四个模块，依次是问题-问题匹配模块，问题分类模块，问题-答案匹配模块和可回答性判断模块，以及最终的信息输出模块，并设立用于问题匹配和答案生成的问答对库和答案库两个数据库；

所述可回答性判断模块，通过对所述Embedding Weighted BM25方法的匹配得分进行归一化、得分设置阈值操作，对于可以回答的问题，生成给出准确的答案，而对于超出系统知识的问题或是不相关的问题，则生成“不可回答”的判断，并向所述信息输出模块返回准确有效的答案；

δ(i，q)＝1 if i∈q；and δ(i，q)＝S(i，q)if i∈q'

S(j，q)≈max(sim(j，m))with m∈(non-stop-words in q)

作为改进算法的核心，该函数可以看作是词频计算函数tf(d,i)的一个系数或是一种加权处理；

2.如权利要求1所述一种机场服务的社区问答系统，其特征在于：所述问题-问题匹配模块的所述TF-IDF向量相似度匹配的模型的运算分为两个步骤：第一步是通过设置匹配得分机制，将新的问题与问答对库中的问题集合做匹配，根据设定阈值选择出与问题最相近的问题，大于阈值的匹配可以认为是两个问题匹配成功，可以共享同一个答案，小于阈值的匹配则可以认为是两个不同的问题，匹配不成功，不能共享同一个答案；第二步，对于匹配成功的问题直接提取出该问题在所述问答对库中的答案并返回答案，对于匹配不成功的问题，则将问题发送至所述问题分类模块。

3.如权利要求2所述一种机场服务的社区问答系统，其特征在于：所述问题分类模块的所述分类器的运算分为三个步骤：首先，将所述答案库分为多个类别，其中每类所包含的答案互不相同，其次，采用关键词匹配的方法将问题打上m个类标签，其中m≥1，所述关键词匹配的方法具体为：每类答案人工指定一系列关键词，如果这些词有在问题中出现那么该问题就可以打上这一类的标签，最后一步，把这m个类的答案作为该问题的答案库，输入到系统下一阶段的模型中进行后续的答案选择。