CN111090735B

CN111090735B - 一种基于知识图谱的智能问答方法的性能评价方法

Info

Publication number: CN111090735B
Application number: CN201911358818.XA
Authority: CN
Inventors: 王开业; 蒋登位; 崔斌; 谭启涛
Original assignee: Chengdu Aerospace Science And Industry Big Data Research Institute Co ltd
Current assignee: Chengdu Aerospace Science And Industry Big Data Research Institute Co ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2023-03-10
Anticipated expiration: 2039-12-25
Also published as: CN111090735A

Abstract

本发明涉及计算机应用技术领域，其目的在于提供一种基于知识图谱的智能问答方法及其性能评价方法。本发明公开了一种基于知识图谱的智能问答方法，其生成答案时的运行工作量更低；具体包括以下步骤：构建知识图谱；接收用户问题并将用户问题和知识图谱内的问题集分别进行向量化；将向量化后的用户问题与问题集中的问题分别进行相似度匹配，并得到多个语义相似度；将多个语义相似度排序，选择问题集中语义相似度最高的问题为命中问题；在知识图谱内检索出命中问题对应的命中答案，然后将命中答案形成完整的答案后输出。本发明还公开了一种智能问答方法的性能评价方法，其对智能问答方法性能的评价更为客观。

Description

一种基于知识图谱的智能问答方法的性能评价方法

技术领域

本发明涉及计算机应用技术领域，特别是涉及一种基于知识图谱的智能问答方法及其性能评价方法。

背景技术

智能问答系统是将积累的无序语料信息，进行有序和科学的整理，并建立基于知识的分类模型；这些分类模型可以指导新增加的语料咨询和服务信息，可有效节约人力资源、提高信息处理的自动性、降低网站运行成本。

但是，在使用现有技术过程中，发明人发现现有技术中至少存在如下问题：现有的智能问答方法中，得到用户问题对应的答案结果，需对用户问题进行分类，然后根据对用户问题分类的结果预先将答案模板定义好，最后通过检索出的答案放入预先定义好的答案模板中，如此造成生成答案时系统的运行工作量较高，影响问答速度。另外，现有智能问答方法的性能评价方法中，人为主观判断性能影响因素较大，不利于得到客观的评价结果。

发明内容

本发明旨在至少在一定程度上解决上述技术问题。

本发明公开了一种基于知识图谱的智能问答方法，包括以下步骤：

构建知识图谱；

接收用户问题，然后将用户问题和知识图谱内的问题集分别进行向量化；

将向量化后的用户问题与问题集中的问题分别进行相似度匹配，并得到多个语义相似度；

将多个语义相似度排序，选择问题集中语义相似度最高的问题为命中问题；

在知识图谱内检索出命中问题对应的命中答案，然后将命中答案利用深度学习中的编码-解码器和词嵌入形式形成完整的答案后输出。

优选地，用户问题和知识图谱内的问题集采用word2vec和bert模型进行向量化。

优选地，相似度匹配采用tf-idf文本相似度算法进行。

本发明还公开了一种智能问答方法的性能评价方法，包括如下步骤：

将用户问题及智能问答系统的判断结果转换为json字符串形式的问答对数据，然后将问答对数据存储到服务器中；

对存储到服务器中的问答对数据进行分类；

得到最终分类结果；

对最终分类结果进行计数求和；

得到将每一轮对话中的问题识别错误率FPR和服务满足率TPR；

建立DEA评价指标体系，然后将每一轮对话中的问题识别错误率FPR和服务满足率TPR纳入DEA评价指标体系中；

利用深度学习的后向传播方法对各指标的权重进行预测；

得到智能问答系统的综合性指标。

优选地，服务器采用ElasticSearch实现。

优选地，采用SVM分类算法对问答对数据进行分类，将问答对数据分为TP、FP、TN和FN四大类，其中TP表示问题识别和服务满足完全相同的个数；FP表示问题识别正确，但服务满足率差的个数；FN表示问题识别不正确，但服务满足率高的个数；TN表示问题识别不正确，且服务满足率差的个数。

问题识别错误率

服务满足率为

优选地，剔除无参考意义的指标和对各指标的权重进行预测之间，还包括以下步骤：

对指标做预处理，分析对系统性能评价不具备参考意义的指标，然后剔除无参考意义的指标。

优选地，在得到最终分类结果前，还包括以下步骤：

对存储到服务器中的问答对数据进行人工校验。

优选地，利用加权平均和作为智能问答系统的综合性指标，其计算公式为

其中，i为评价指标的个数，a_i为第i个评价指标权重，x为第i个评价指标的输入值。

本发明的有益效果是：

1)智能问答方法不需要对问题进行分类，生成答案时的运行工作量更低；具体来说，本实施例在接收用户问题后，先将用户问题和知识图谱内的问题集分别进行向量化；然后将向量化后的用户问题与问题集中的问题分别进行相似度匹配，并得到多个语义相似度；再选择问题集中语义相似度最高的问题为命中问题；最后在知识图谱内检索出命中问题对应的命中答案，将命中答案利用深度学习中的编码-解码器和词嵌入形式形成完整的答案后输出。在此过程中，由于采用深度学习中的编码-解码器来生成答案模板，再采用词嵌入方式，将由知识图谱内检索出的命中答案放置到自动生成的答案模板中，即可生成完整的答案，从而大大减少了运行工作量，同时也有效预防因为问题误分类导致的无法得到最终完整的答案等问题。

2)智能问答方法的性能评价方法中，对智能问答方法性能的评价更为客观；具体来说，本发明建立了DEA评价指标体系，DEA评价指标体系常用于对一个经济体的综合性能/效率进行评价，以此代替人为主观判断性能影响因素，可使智能问答方法的综合性能评价更加客观，更具备参考性。

具体实施方式

实施例1：

本实施例提供一种基于知识图谱的智能问答方法，包括以下步骤：

构建知识图谱。

具体地，知识图谱的构建方法如下：接收非结构化数据、半结构化数据和结构化数据，再对上述数据进行预处理，然后形成知识图谱。具体地，各种来源的数据按照格式可大体分为非结构化数据，如文本数据和PDF格式的数据等；半结构化的数据，如公司的财务报表等excel格式的表格等，还有存在数据库里的结构化数据。上述非结构化数据、半结构化数据和结构化数据的预处理方式各有不同。其中非结构化数据首先采用人工进行小规模标注，然后通过机器学习其表示特征来完成其余文本的信息抽取；对于半结构化数据，则主要采用包装器，通过kettle等大数据工具进行数据迁移和信息提取；而结构化数据，则通过图映射和D2R转换工具进行。完成后，在预处理阶段利用自然语言处理技术进行实体抽取，关系抽取和命名实体识别，最后通过知识融合和实体对齐等技术形成知识图谱。

接收用户问题，然后将用户问题和知识图谱内的问题集分别进行向量化。

将向量化后的用户问题与问题集中的问题分别进行相似度匹配，并得到多个语义相似度；具体地，相似度匹配采用tf-idf文本相似度算法进行。

将多个语义相似度排序，选择问题集中语义相似度最高的问题为命中问题，命中问题可替代用户问题。

在知识图谱内检索出命中问题对应的命中答案，然后将命中答案利用深度学习中的编码-解码器和词嵌入形式形成完整的答案，最后将完整的答案输出至用户。

传统的答案结果封装是采用对用户输入的问句进行分类，根据问题分类的结果预先将答案模板定义好，并通过检索出的答案放入预先定义好的答案模板中。

智能问答方法不需要对问题进行分类，生成答案时的运行工作量更低；具体来说，本实施例在接收用户问题后，先将用户问题和知识图谱内的问题集分别进行向量化；然后将向量化后的用户问题与问题集中的问题分别进行相似度匹配，并得到多个语义相似度；再选择问题集中语义相似度最高的问题为命中问题；最后在知识图谱内检索出命中问题对应的命中答案，将命中答案利用深度学习中的编码-解码器和词嵌入形式形成完整的答案后输出。在此过程中，由于采用深度学习中的编码-解码器来生成答案模板，再采用词嵌入方式，将由知识图谱内检索出的命中答案放置到自动生成的答案模板中，即可生成完整的答案，从而大大减少了运行工作量，同时也有效预防因为问题误分类导致的无法得到最终完整的答案等问题。

本实施例中，用户问题和知识图谱内的问题集采用word2vec和bert模型进行向量化。词语是人类的抽象总结，是符号形式的(比如中文、英文、拉丁文等等)，所以需要把他们转换成数值形式，或者说——嵌入到一个数学空间里，这种嵌入方式，就叫词嵌入(wordembedding)，而Word2vec，就是词嵌入(word embedding)的一种。Word2Vec是一种将文本中的词进行嵌入的方法，而所谓嵌入，就是将各个词使用一个定长的向量来表示。

具体地，BERT是第一个基于微调的表示模型，它在大量的句子级和标记级任务上实现了最先进的性能，优于许多特定于任务的结构的模型。通过把给定标记对应的标记嵌入、句子嵌入和位置嵌入求和来构造其输入表示。

采用word2vec和bert模型对词进行向量化可直接采用现有技术，此处不予赘述。

实施例2：

本实施例还提供了一种智能问答方法的性能评价方法，包括如下步骤：

将用户问题及智能问答系统的判断结果转换为json字符串形式的问答对数据，然后将问答对数据存储到服务器中。其中，智能问答系统的判断结果为用户向智能问答系统提问后，智能问答系统给出的答案；

具体地，服务器采用ElasticSearch实现；具体地，问答对数据存储在elasticsearch中的chatbot_dialogue中。Elasticsearch是面向文档型数据库，一条数据在这里就是一个文档，用json作为文档序列化的格式，在对评价指标计算时，更简化了对问题识别率等指标的计算。ElasticSearch提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索，稳定、可靠、快速、安装使用方便。

对存储到服务器中的问答对数据进行分类。

具体地，采用SVM分类算法对问答对数据进行分类，将问答对数据分为TP、FP、TN和FN四大类，其中TP表示问题识别和服务满足完全相同的个数；FP表示问题识别正确，但服务满足率差的个数；FN表示问题识别不正确，但服务满足率高的个数；TN表示问题识别不正确，且服务满足率差的个数。然后形成TP表、FP表、TN表和FN表；

可得到问答对数据的混淆矩阵，具体如下：

进行人工校验，以判断分类结果是否正确。

人工校验的具体步骤如下：在抽取训练集的时候，分别从问答对中随机抽取

(1)TP所对应的向量作为正集，FP，TN，FN所对应的向量作为负集；

(2)FP所对应的向量作为正集，TP，TN，FN所对应的向量作为负集；

(3)TN所对应的向量作为正集，TP，FP，FN所对应的向量作为负集；

(4)FN所对应的向量作为正集，TP，FP，TN所对应的向量作为负集；

使用这四个训练集分别进行训练，然后的得到四个训练结果文件。

在测试的时候，把对应的测试问答对分别利用这四个训练结果文件进行测试。最后每个测试都有一个结果f1(x)，f2(x)，f3(x)，f4(x)，于是最终的结果便是这四个值中最大的一个值作为问答对的最终分类结果。

得到最终分类结果。

对最终分类结果采用EXCEL统计函数进行计数求和。

得到将每一轮对话中的问题识别错误率FPR和服务满足率TPR；其中

TPR越大越好，FPR越小越好。

建立DEA评价指标体系，然后将每一轮对话中的问题识别错误率FPR和服务满足率TPR作为指标纳入DEA评价指标体系中。

其中，问题识别错误率FPR指标作为问题识别决策单元的输入指标纳入DEA评价指标体系中；服务满足率TPR指标作为输出指标纳入DEA评价指标体系中，整个DEA评价指标体系既包含了输入(或叫投入)指标，又包括了输出(或叫产出)指标。

具体地，DEA评价指标体系除了包括上述两个指标之外，还需纳入其他对智能问答系统性能有影响的其他指标。这些指标根据智能问答系统的建设要求可划分为若干个决策单元，每个决策单元可选择一个或多个指标。例如：某个智能问答系统选择了三个决策单元，分别为DMU₁、DMU₂、DMU₃；其中DMU₁为问题识别决策单元，选择的指标是FPR；DMU₂为对话轮数决策单元，选择的指标是MTN(多轮对话轮数)；DMU₃是相似问题推荐决策单元，选择的指标是(RCRSP)相似问题推荐点击率，则构建的DEA评价指标体系可表示为：

{FPR、MTN、RCRSP|TPR}每一个客户的每一轮会话都会计算出对应的FPR、MTN、RCRSP和TPR。

引入DEA线性规划约束公式，可对每一个指标的权重进行计算，其中TPR的权重默认为1。DEA线性规划约束公式如下：

minθ

其中θ为DMU_k(某一决策单元)的有效值，反映智能问答系统中DEA评价指标体系的合理程度。θ值越大，表明指标体系越合理。

通过该公式可计算出权重a_i，权重a_i表示通过线性组合重构一个有效的DMU(决策单元)时，第i个决策单元中指标所占的权重。若权重a_i的值小于0.9(0.9为经验值)，则从综合性指标体系中剔除该权重对应的指标。

对指标做预处理，分析对系统性能评价不具备参考意义的指标，然后剔除无参考意义的指标。具体地，不具备参考意义的指标即指权重a_i的值小于0.9时对应的指标。

具体地，通过DEA(数据包络分析)模型分析对系统性能评价不具备参考意义的指标，具体流程如下：

首先建立模型，即选择决策单元，这里的决策单元包括问题识别决策单元，对话轮数决策单元，客户满意度识别单元，相似问题推荐点击率识别单元；然后建立输入输出指标，其中问题识别决策单元的输入指标是问题识别率，对话轮数决策单元的输入指标是所有客户的平均对话轮数；客户满意度识别单元的输入指标是客户评价解决问题的答案数/答案总数；相似问题推荐点击率识别单元的输入指标是相似问题推荐点击率；然后选择DEA模型(DEA模型分为CCR模型和BCC模型。

CCR模型假设DMU处于固定规模报酬情形下，用来衡量总效率。固定规模报酬是所有DMU一起比较的效率评价。

BCC模型假设DMU处于变动规模报酬情形下，用来衡量纯技术和规模效率。变动规模报酬与条件相当的受评单位比较。

在本文中选择BCC模型，根据输入输出指标，可以对输出结果是否在有效前沿范围进行判断，如果在有效前沿面，则保留该指标作为智能问答系统的综合性能评价指标之一；若偏离有效前沿面，则删除该指标(在这个过程中，获得100％效率的一些单位被称为相对有效率单位，而另外的效率评分低于100％的单位被称为无效率单位。)；通过这种方法，对评价指标进行反复调整，最终可以使整个智能问答的综合性能评价更加合理和客观，避免主观臆断的行为。

利用深度学习的后向传播方法对各指标的权重进行预测。

具体地，各指标的权重是通过线性规划进行预测，DEA评价指标体系中的指标及其计算方式如下：

1.问题的识别率＝能识别出客户问题数/客户所有问题数

问题识别率是目前业内评价智能机器人比较常用的指标之一，它指的是智能客服机器人正确识别出客户的问题数量在所有问题数中的占比。当客户提出一个问题后，机器人会根据后台算法逻辑对该问题进行分析识别从而给出知识标准答案，这就算是问题识别正确了。这个指标也就是监控机器人从问题到答案的关联能力。

2.服务处理时间，为客户与机器人谈话时间、答案返回时间、读者是否采纳答案等所花费时间总和。

3.客户满意度＝客户评价解决问题的答案数/答案总数

客户是最终使用客服机器人的使用者，所以只有客户认可机器人的服务能力产品才算成功。这个指标主要受客户主观因素影响比较大，主要有两种方法进行数据调研：

①在机器人每回答一个问题的结束都设置一个评价小尾巴，客户对逐条问题都可以选择评价，并评价是否满意这条回答。这样做的好处是，通过大量的数据积累，可快速定位评分相对低的答案，然后回炉进行优化，以此往复，不断提升；比如支付宝就是采用这种方式；

②在整体机器人服务完成后弹出窗口进行调研，调研客户对整通机器人服务的完整感知，是否满意；这样的好处是没有那么频繁的骚扰客户，且评价具有整体性，但是对于具体的提升帮助不够明显。

4.服务满足率＝在机器人服务完成后不再需要人工服务且不再拨打热线的客户数/进入机器人的客户总数

“服务满足率”这个指标就是通过客户轨迹监控，客户在进入机器人服务以后，在一定时间内没有点击进入人工在线服务，且没有拨打人工热线服务的比例是多大。这个指标清晰直观的可以看到客户用脚投票的情况，也可以辅助的反映机器人的解答客户问题能力。

使用机器人最终是为了替代人力劳动，降低人工成本，因此监控客户在机器人上完整解决问题的比例，对于智能机器人客服而言，意义很重大。

5.相似问题推荐点击率＝点击推荐问题次数/问题总次数，根据客户问题，推荐了相似问题，其点击过相似问题的情况。

6.对话轮数＝所有客户平均对话轮数/20，对话轮数越少，问答效果越好；假定20轮是最满意的对话轮数。

DEA是一个线形规划模型，表示为产出对投入的比率。通过对一个特定单位的效率和一组提供相同服务的类似单位的绩效的比较，它试图使服务单位的效率最大化。在这个过程中，获得100％效率的一些单位被称为相对有效率单位，而另外的效率评分低于100％的单位被称为无效率单位。

预测出权重后，利用加权平均和作为智能问答系统的综合性指标。计算公式为

应当理解的是，综合性能指标的大小代表智能问答系统中所采用的指标评价体系越合理；因此，综合性能指标越大，表示这些指标对智能问答系统的性能影响越大，采用这些指标来对智能问答系统进行性能评价的效果越好。

本实施例建立了DEA评价指标体系，DEA评价指标体系常用于对一个经济体的综合性能/效率进行评价，本申请首次将经济学中的效率评价方法用于智能问答系统的各性能指标的相对性能评价，以此代替人为主观判断性能影响因素，可使智能问答方法的综合性能评价更加客观，更具备参考性。

以上所描述的多个实施例仅仅是示意性的，若涉及到作为分离部件说明的单元，其可以是或者也可以不是物理上分开的；若涉及到作为单元显示的部件，其可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

最后应说明的是，本发明不局限于上述可选的实施方式，任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制，本发明的保护范围应当以权利要求书中界定的为准，并且说明书可以用于解释权利要求书。

Claims

1.一种针对基于知识图谱的智能问答方法的性能评价方法，其特征在于：所述智能问答方法包括以下步骤：

构建知识图谱；

在知识图谱内检索出命中问题对应的命中答案，然后将命中答案利用深度学习中的编码-解码器和词嵌入形式形成完整的答案后输出；

所述性能评价方法包括如下步骤：

对存储到服务器中的问答对数据进行分类；

得到最终分类结果；

对最终分类结果进行计数求和；

得到将每一轮对话中的问题识别错误率FPR和服务满足率TPR；

利用深度学习的后向传播方法对各指标的权重进行预测；

得到智能问答系统的综合性指标。

2.根据权利要求1所述的一种智能问答方法的性能评价方法，其特征在于：服务器采用ElasticSearch实现。

3.根据权利要求1所述的一种智能问答方法的性能评价方法，其特征在于：采用SVM分类算法对问答对数据进行分类，将问答对数据分为TP、FP、TN和FN四大类，其中TP表示问题识别和服务满足完全相同的个数；FP表示问题识别正确，但服务满足率差的个数；FN表示问题识别不正确，但服务满足率高的个数；TN表示问题识别不正确，且服务满足率差的个数；问题识别错误率

服务满足率为

4.根据权利要求1所述的一种智能问答方法的性能评价方法，其特征在于：在建立DEA评价指标体系和对各指标的权重进行预测之间，还包括以下步骤：

5.根据权利要求1所述的一种智能问答方法的性能评价方法，其特征在于：在得到最终分类结果前，还包括以下步骤：

对存储到服务器中的问答对数据进行人工校验。

6.根据权利要求1所述的一种智能问答方法的性能评价方法，其特征在于：利用加权平均和作为智能问答系统的综合性指标，其计算公式为