CN111506721B

CN111506721B - 一种面向领域知识图谱的问答系统及构建方法

Info

Publication number: CN111506721B
Application number: CN202010321773.5A
Authority: CN
Inventors: 陈星�; 林章颖; 陈艺燕; 黄志明; 王毅
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2022-10-11
Anticipated expiration: 2040-04-22
Also published as: CN111506721A

Abstract

本发明涉及一种面向领域知识图谱的问答系统及构建方法，根据给定知识图谱中的三元组，基于设定模板生成问答对，然后对问答对中的问句进行分词处理以及向量化处理，得到每一个问答对中问句的词向量，并构建问答语料库；将用户输入的问句进行分词处理以及向量化处理，并计算用户输入的问句与问答对中的问句的相似度，选取相似度最高的前N个问答对的答案作为用户问句的答案，并反馈给用户。本发明能够在给定多种不同领域的知识图谱的情况下，自动生成不同领域的问答系统，比起限定好领域的问答系统，该系统更加灵活，给定不同的情景都能够自动生成问答系统，可复用性较高。

Description

一种面向领域知识图谱的问答系统及构建方法

技术领域

本发明涉及互联网搜索技术领域，特别是一种面向领域知识图谱的问答系统及构建方法。

背景技术

在当前的21世纪，互联网相关的产业以及应用迅速兴起，快速推动着网络时代的前进，随着微信、支付宝等软件不断发展，人们已经无法离开互联网生存，各种网站和应用程序每天都在推送不同的信息，人们不堪重负。因此，如何从这种复杂的信息中提取我们需要的有价值的信息逐渐成为一个问题。搜索引擎率先出现了。但是，传统意义上的搜索系统是根据用户提出的问题的关键词，在全网范围加以检索，根据关键词的相关性高低，返回成千上万的网页链接，网页无法直接挑选出结果，只是帮助筛选出相关的网页，需要用户自己逐个点击网页，并且从中挑选出自己需要的信息以及结果，效率较低，耗费时间，而且有些繁琐，无法直接一目了然地返回结果给用户。

因此，针对搜索引擎获取答案不够准确、耗费时间等问题，智能问答系统应运而生。两者不同的是，问答系统是一种更有针对性的服务系统。用户提问后，返回的数据不需要再次筛选，系统能够直接给出答案。问答系统的出现解决了搜索引擎缺乏目标性的问题。对于问答系统，它能够直接为用户显示出用户最需要的答案，比起搜索引擎显示的长篇大论，显然，问答系统能够让用户的查询更加快捷。

但是比起搜索引擎，问答系统背后需要一个强大而丰富的知识库的支撑。知识图谱可以作为支持问答系统操作的强大知识库。知识图谱是目前最受欢迎的智能问答系统知识源，由大量的结构化数据组成。并且其具有语义丰富、结构友好和知识质量精良等优点，直接推动了问答系统在行业领域的发展。将知识图谱与问答系统相结合，可以极大程度发挥知识图谱广泛的优势，并且借助这个优点，让问答系统的生成更为简单。

发明内容

有鉴于此，本发明的目的是提出一种面向领域知识图谱的问答系统及构建方法，能够在给定多种不同领域的知识图谱的情况下，自动生成不同领域的问答系统，比起限定好领域的问答系统，该系统更加灵活，给定不同的情景都能够自动生成问答系统，可复用性较高。

本发明采用以下方案实现：一种面向领域知识图谱的问答系统构建方法，包括以下步骤：

根据给定知识图谱中的三元组，基于设定模板生成问答对，然后对问答对中的问句进行分词处理以及向量化处理，得到每一个问答对中问句的词向量，并构建问答语料库；

将用户输入的问句进行分词处理以及向量化处理，并计算用户输入的问句与问答对中的问句的相似度，选取相似度最高的前N个问答对的答案作为用户问句的答案，并反馈给用户；

其中，N为大于等于1的自然数。

进一步地，所述的向量化处理具体为：将文本进行分布式的向量化表示，使用word2vec模型计算每一个问句所对应的词向量；所述问句为问答对中的问句或者为用户输入的问句。

进一步地，所述构建问答语料库具体为：

对每一个问答对，都存储以下内容：问句的五十维词向量，以及该问句所对应的答案；每一个问答对构造一个字典，形成语料库。

进一步地，在构造语料库的过程中，针对不同领域的知识图谱，根据三元组中的关系种类，人工再次添加不同的句式，以使构造的问答对能够覆盖尽可能多的提问情况。

进一步地，所述计算用户输入的问句与问答对中的问句的相似度具体为：通过计算两个问句之间的夹角的余弦值来判断两句话的相似度，余弦值越接近1，两个问句越相似，余弦值越接近0，两个问句越不相似。

本发明还提供了一种面向领域知识图谱的问答系统，包括输入模块、反馈模块、存储模块以及处理器；

所述输入模块用以接收用户输入的问句，所述反馈模块用以将搜索到的答案反馈给用户；所述存储模块中存储有能够给处理器运行的计算机程序，当处理器运行该计算机程序时，能够实现如上文所述的方法步骤。

其中，所述输入模块可以为键盘或语音输入模块等，所述反馈模块可以为显示屏或者语音播报模块等。处理器可以为电脑或智能手机。

本发明还提供了一种计算机可读存储介质，其上存储有能够被处理器运行的计算机程序，当处理器运行该计算机程序时，能够实现如上文所述的方法步骤。

与现有技术相比，本发明有以下有益效果：本发明能够在给定多种不同领域的知识图谱的情况下，自动生成不同领域的问答系统，比起限定好领域的问答系统，该系统更加灵活，给定不同的情景都能够自动生成问答系统，可复用性较高。

附图说明

图1为本发明实施例的方法流程示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供了一种面向领域知识图谱的问答系统构建方法，包括以下步骤：

其中，N为大于等于1的自然数。

为了预测人类有可能的提问方式，需要预先制定规则，事先生成有可能被提出的问题集，构造问答语料库。在用户输入问题时，只需要比对输入问题与语料库中问答对的相似度即可匹配到答案。

通过给定知识图谱，得到若干如<实体1，实体2，关系>的三元组。通过提取三元组中的关系信息，获得领域知识图谱中的各类关系，通过训练总结归纳的规则生成问句，如：<A,B,relation>最简单的问句就是“A的relation是什么？B”。问句可以看做是信息不全的三元组，对于给定的三元组<A,B,relation>，relation是有序集，那么一个问答对可以看做<A,？,relation>，问题的答案即为B。根据这个规律，本实施例先收集200句根据关系人工生成的问句，作为初始样本。分析初始样本的句子结构，通过不断地总结训练，得到能够广泛适应与绝大多数人类提问的规律的规则。经过分析人类语言提问的句子的句式，大部分的问句格式为：

A+修饰词+关系+谓词+疑问词？B；

经过整理人类的语言规律，归纳以下几种规则：

(1)根据疑问代词分为两种类型。

1)问事物、时间、处所和数量的主要有8个：谁、何、什么，哪儿、哪里，几时、几、多少。以集合X₁表示。X₁＝{什么，谁，何，哪儿，哪里，几时，几，多少}。

2)问方式、性状和原因的主要有8个：怎、怎么、怎的、怎样、怎么样、怎么着、如何、为什么。以集合X₂表示。X₂＝{怎，怎么，怎的，怎样，怎么样，怎么着，如何，为什么}。

(2)根据relation分为两种词性。

1)若relation为动词，问句规则设置为：

A/relation/X_i(i＝1,2)/？

A/relation/了/X_i(i＝1,2)/？

2)若relation为名词，问句规则设置为：

A/的/relation/是/X_i(i＝1,2)/？

A/有/X_i(i＝1,2)/relation/？

A/是/X_i(i＝1,2)/relation/？

通过设置问句规则，能够根据不同的关系生成多样化的问句，生成一个问答对语料库，丰富问句的复杂度，提高问答系统结果的准确率。

英文问句可以直接利用空格分词，因此相比于英文问答系统，中文问答系统需要多一个步骤将问句分词。本实施例使用分词工具对问答对处理。

在本实施例中，所述的向量化处理具体为：将文本进行分布式的向量化表示，使用word2vec模型计算每一个问句所对应的词向量；所述问句为问答对中的问句或者为用户输入的问句。

具体的，问句向量化表示需要使用词向量技术。词向量通俗地来讲，即是量化了难以表达的文字，通过把文字转化为数字，使文字能够被计算、推测。词向量技术相当于量化了无法表达的中文词语，用空间距离来体现两个词的相似性。

相似性越高的两个词，在空间上的距离也越接近；越无关的两个词，空间上的距离越远。词向量有两种表达方式，离散表示和分布式表示。离散表示相当于给每个词分配一个id，这导致该表示方法不显示单词和单词之间的关系。并且，维度过高，会导致离散表示困难。分布式表示将词语表达成为一个定长的连续向量，并不是根据词表大小改变特征空间大小，而是固定了特征空间的大小。与离散表示相比，分布式表示有以下几个优点：

(1)可以表达出词与词之间的关系，之间的关系即量化体现为“距离”，距离越近，词语的语义越接近，距离越远，词语越无关。

(2)给定的维度，每一维都有表达的意义，能够携带更多的信息。

纯文本信息无法用于计算，因此需要将文本向量化表示。本实施例中，在面向领域知识图谱的问答系统中，采用分布式表示来表示一个词，采用定长：50维向量表达一个中文字符,如公式(1)，即使用已经训练好的word2vec模型(中文词向量)计算每一个问句对应的词向量。通过word2vec模型，词义相近的词语用50维坐标表示后在空间中也相对更加接近，通过计算空间距离可以判断两个词的相似与否，将其应用于句子以计算每个句子的50维单词向量。

X＝(x₁,x₂,......,x₅₀) (1)

问句切词之后，每个词在word2vec模型中找到对应的向量。将word2vec模型(中文词向量)存入数据库，计算时通过连接数据库，查询得到词向量，快速计算不同问句的向量。

把一个句子每个词语对应维度的数值相加后除去本句分词个数n，得到该问句的五十维向量，如公式(2)。提前生成所有生成好的问句的向量，比起在输入问句时再计算向量比对，提前计算好每句的向量可以提高在查询时的速度，更快得到答案，因此在此处选择提前存储。

本实施例在处理问句向量化时还加入错误应对，例如有的词语在word2vec模型(中文词向量)中无法找到对应向量，应予以跳过，此时长度做n-1处理，略过该词，否则将导致错误答案。

在本实施例中，所述构建问答语料库具体为：

通过问句生成规则，构造每一个三元组对应的问句。由于基于规则生成问句必然无法涵盖所有的人类提问的情况，并且关系的种类多样化，因此，在本实施例中，在构造语料库的过程中，针对不同领域的知识图谱，根据三元组中的关系种类，人工再次添加不同的句式，以使构造的问答对能够覆盖尽可能多的提问情况。

本实施例将问句对应的答案一并存储，存储格式为：A+修饰词+关系+谓词+疑问词？B。将所有情况的问答对事先构造好。一个问句由一个五十维向量表示，匹配一个答案，成为一个字典，便于后文匹配输入问句答案的相关计算。例如，问答对“野苜蓿的原产地是什么？呼伦贝尔草原”的对应字典如下：

{'问句':'野/苜蓿/的/原产地/是/什么/？','0':0.070204,'1':-0.3994605,'2':0.4146743333333333,……，'49':0.044986000000000005,'对应答案':'呼伦贝尔草原'}。

当用户输入一个问句时，系统采用上文所述的分词技术与向量化技术，将输入问句用五十维向量表示。得到该问句的五十维向量后，使用该向量与事先生成的语料库进行相似度计算，获取相似度最高的N项问答对的答案，即为问答系统需要输出的答案。

在xoy坐标轴中，可以用两个向量之间的角度来计算余弦值。角度越小，余弦值越接近1，那么，两个向量的方向性更加一致且相似。相反，余弦值越接近零，角度越接近90度，表明两个向量不相似。提升到多维空间，距离越大，相似性越小。距离越小，相似性越大。由上述结论，可知，求得两句话的夹角之后，计算余弦值可以用来判断个体的相似度。在本实施例中，所述计算用户输入的问句与问答对中的问句的相似度具体为：通过计算两个问句之间的夹角的余弦值来判断两句话的相似度，余弦值越接近1，两个问句越相似，余弦值越接近0，两个问句越不相似。

具体的，设向量a用坐标(x₁,y₁)表示，向量b用坐标(x2,y2)表示。通过推理，得到在多维向量条件下的余弦相似度公式为(3)所示：

上式中的n表示本句的分词个数。通过计算输入问句的五十维向量，通过比对生成好的问答对语料库文件，与生成的问句的向量逐一计算余弦相似度，取相似度最大的前N项答案，即为获取的答案，输出答案。

本实施例还提供了一种面向领域知识图谱的问答系统，包括输入模块、反馈模块、存储模块以及处理器；

本实施例还提供了一种计算机可读存储介质，其上存储有能够被处理器运行的计算机程序，当处理器运行该计算机程序时，能够实现如上文所述的方法步骤。

本实施例通过给定农业领域triple(三元组)关系中文文档，即给定了农业领域的知识图谱。根据上文介绍的基于知识图谱的自动问答方法，本实施例实现了农业领域植物百科的知识问答系统。

本实施例将关系抽取看作是分类的过程，对于方法的评估标准本实施例选择准确(Precision)、召回率(Recall)和F1值这三个指标。针对某一具体关系类型的抽取结果，这三种指标的评价公式为：

通常情况下，准确率越高，结果是越好的。但是，不能仅仅通过判断算法的准确率是否优异。例如，在正负样本不平均，数据相差巨大的情况下，如果需要着重关注独特的样本数据小的事件，这样的小事件很容易被准确率计算忽略，从而无法得到我们需要的、关注的答案。在该问答系统中，系统的准确率是越高越好的。通过人工生成的200条问句与系统生成的答案进行比对，发现200条中有174条取得了正确的答案，剩下26条得出错误的答案，可以初步计算得，本实施例所构建的问答系统的准确率为87％。

召回率与准确度不同，召回率是检索出的相关文档数与检索出的文档总数的比率。通俗而言，准确率是指给出的结果有多少是正确的，召回率指的是正确的结果有多少被试验给出了。本次试验共生成问句15420条，人工生成200条，召回率200/15420＝1.297％。

F值是综合评价指标。P和R虽然没有必然联系，但是在大量的数据体现出来的结果中，可以看出来这两者其实是相互制约的。此时，分析就需要综合考虑两者的关系。该试验中，P＝0.87，R＝0.01297。计算可得，F1＝0.022446/0.88297＝0.25421＝2.54％。

可见，本实施例所构建的应答系统具有优异的性能。本实施例能够在给定多种不同领域的知识图谱的情况下，自动生成不同领域的问答系统，比起限定好领域的问答系统，该系统更加灵活，给定不同的情景都能够自动生成问答系统，可复用性较高。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种面向领域知识图谱的问答系统构建方法，其特征在于，包括以下步骤：

其中，N为大于等于1的自然数；

通过提取三元组中的关系信息，获得领域知识图谱中的各类关系，通过训练总结归纳的规则生成问句，问句看做是信息不全的三元组，对于给定的三元组<A,B,relation>，relation是有序集，那么一个问答对看做<A,？,relation>，问题的答案即为B；根据这个规律，先收集200句根据关系人工生成的问句，作为初始样本；分析初始样本的句子结构，通过总结训练，得到适应于人类提问的规律的规则；经过分析人类语言提问的句子的句式，问句格式为：

A+修饰词+关系+谓词+疑问词？B；

经过整理人类的语言规律，归纳以下几种规则：

(1)根据疑问代词分为两种类型；

1)问事物、时间、处所和数量的有8个：谁、何、什么，哪儿、哪里，几时、几、多少；以集合X₁表示：X₁＝{什么，谁，何，哪儿，哪里，几时，几，多少}；

2)问方式、性状和原因的有8个：怎、怎么、怎的、怎样、怎么样、怎么着、如何、为什么；以集合X₂表示：X₂＝{怎，怎么，怎的，怎样，怎么样，怎么着，如何，为什么}；

(2)根据relation分为两种词性；

1)若relation为动词，问句规则设置为：

A/relation/X_i(i＝1,2)/？

A/relation/了/X_i(i＝1,2)/？

2)若relation为名词，问句规则设置为：

A/的/relation/是/X_i(i＝1,2)/？

A/有/X_i(i＝1,2)/relation/？

A/是/X_i(i＝1,2)/relation/？

通过设置问句规则，能够根据不同的关系生成多样化的问句，生成一个问答对语料库；

所述计算用户输入的问句与问答对中的问句的相似度具体为：通过计算两个问句之间的夹角的余弦值来判断两句话的相似度，余弦值越接近1，两个问句越相似，余弦值越接近0，两个问句越不相似；

具体的，设向量a用坐标(x₁,y₁)表示，向量b用坐标(x₂,y₂)表示；通过推理，得到在多维向量条件下的余弦相似度公式为(3)所示：

通过计算输入问句的五十维向量，通过比对生成好的问答对语料库文件，与生成的问句的向量逐一计算余弦相似度，取相似度最大的前N项答案，即为获取的答案，输出答案。

2.根据权利要求1所述的一种面向领域知识图谱的问答系统构建方法，其特征在于，所述的向量化处理具体为：将文本进行分布式的向量化表示，使用word2vec模型计算每一个问句所对应的词向量；所述问句为问答对中的问句或者为用户输入的问句。

3.根据权利要求1所述的一种面向领域知识图谱的问答系统构建方法，其特征在于，所述构建问答语料库具体为：

4.根据权利要求3所述的一种面向领域知识图谱的问答系统构建方法，其特征在于，在构造语料库的过程中，针对不同领域的知识图谱，根据三元组中的关系种类，人工再次添加不同的句式，以使构造的问答对能够覆盖尽可能多的提问情况。

5.一种面向领域知识图谱的问答系统，其特征在于，包括输入模块、反馈模块、存储模块以及处理器；

所述输入模块用以接收用户输入的问句，所述反馈模块用以将搜索到的答案反馈给用户；所述存储模块中存储有能够给处理器运行的计算机程序，当处理器运行该计算机程序时，能够实现如权利要求1-4任一项所述的方法步骤。

6.一种计算机可读存储介质，其特征在于，其上存储有能够被处理器运行的计算机程序，当处理器运行该计算机程序时，能够实现如权利要求1-4任一项所述的方法步骤。