CN116561264A

CN116561264A - 一种基于知识图谱的智能问答系统的构建方法

Info

Publication number: CN116561264A
Application number: CN202310073610.3A
Authority: CN
Inventors: 孙圣力; 魏莹; 李青山
Original assignee: Beijing Guoxin Yunfu Technology Co ltd; Nanjing Boya Blockchain Research Institute Co ltd
Current assignee: Beijing Guoxin Yunfu Technology Co ltd; Nanjing Boya Blockchain Research Institute Co ltd
Priority date: 2023-02-07
Filing date: 2023-02-07
Publication date: 2023-08-08

Abstract

本发明公开了一种基于知识图谱的智能问答系统的构建方法，包括获取指定领域的知识库数据；识别数据中的实体、关系和属性，对数据进行建模；形成知识图谱；根据知识库数据自动生成问题集；识别问题中的实体、关系和属性；将问题与知识库进行对应；对问题做出解答。本发明针对指定的知识领域构建知识图谱，并基于知识图谱实现智能问答系统，从而实现特定领域的智能问答功能。本发明综合属性识别和实体识别的结果选择答案，提升了答案的准确率。

Description

一种基于知识图谱的智能问答系统的构建方法

技术领域

本发明涉及一种基于知识图谱的智能问答系统的构建方法，属于知识图谱技术领域。

背景技术

在大数据背景下，海量的数据支撑为人工智能的发展提供了保障。智能问答系统在人工智能领域有着很长的发展历史，自智能领域发展以来，各大科技公司前后推出了多款智能问答应用，为人们的生活带来了极大的便利。各大智能手机厂商都推出了自己的智能语音助手，如苹果的Siri、小米的小爱同学等；在许多广为人知的手机应用内，也嵌入了智能问答机器人，担当智能客服等身份。这些问答系统的出现显著降低了人力成本、提高了工作的效率。

与此同时，随着数据资源管理要求的不断提高，知识图谱的概念被提出，用以显式地描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。研究人员围绕该概念开展了大量的研究，基于知识图谱的智能问答系统（KBQA，Knowledge BaseQuestion Answering）的研究也由此展开，并在此后迎来了快速的发展。

KBQA的核心在于寻找问题背后的知识与知识库中三元组之间联系，因此，构建全面准确的知识图谱，正确地提取出问题中的实体和关系，将问题与知识库进行准确匹配，从答案集中选择最佳回答等流程均影响着智能问答系统的准确率。如何改善各个流程，提高智能问答系统的准确度，是需要重点考虑的问题。

早期基于知识图谱的智能问答系统主要针对小规模的专用知识库，使用的方法以语义分析为主，重点在于将自然语言形式的问题转换为指定的逻辑表达。目前主流的还有基于信息检索的研究方法，通过提取问题的特征并与知识库进行匹配。

基于数据集的差异，不同的问答系统采用的技术有所出入，但总体而言包括以下步骤：

1.构建数据集。针对指定领域的问答系统，其构建者需要通过爬虫等方式获取相关的数据，或从已有的数据持有者手中收集数据。在此基础上，根据数据集的特点进行分析和存储，并通过基础数据库构建问答数据集，该步骤是保障问答系统准确度的基石。

2.语义分析。在完成数据集构建的基础上，为使问答系统实现基本的功能，需要系统能够理解问句的含义并对问题做出正确的回答。因而对问句进行语义分析，抽取其中的知识模式并与数据集条目进行匹配，是问答系统的关键环节。

但在现有的在智能问答系统中，问答数据集很大程度上影响了系统的准确度，然而对于大部分知识领域而言，都不存在专业的问答数据库，因而问答数据集的构建成为了限制系统性能的重要因素。在大部分构建智能问答系统的技术中，获取问答数据集的方式多基于固定的语言模式，降低了提问的灵活性和系统的可用性。另一方面，由于语言表达的复杂多样，数据集存在冗余重复的问题，易对问题的语义分析和答案选择造成干扰。

发明内容

本发明的目的在于提供一种基于知识图谱的智能问答系统，以解决上述背景技术中提出的问题。

为实现上述目的，本发明采用的技术方案为：一种基于知识图谱的智能问答系统的构建方法，包括如下具体步骤，

步骤1，获得指定知识领域的基本数据，并根据数据内容构建知识图谱；

步骤2，通过大规模的中文问答数据集训练问答对生成模型，再将知识库中的数据输入至模型中，得到相应的问答数据集；

步骤3，基于问答数据集训练语义分析模型，利用语义分析模型对问句进行分析并从知识库中寻找问题的答案。

进一步的，所述步骤1的具体步骤如下：

步骤1.1，获取指定领域的知识库数据，获取方法至少包括从专业数据平台中获取、通过网络爬虫方式构造及通过基于大数据集的赛事获取；并对获取的数据进行预处理以将其转换为三元组的知识表达形式；

步骤1.2，对于已获取的知识库的数据，识别出其中的实体、关系及属性，并使用protégé对数据进行建模，使用OWL对数据进行语义层描述，从而从数据中构建知识图谱；

步骤1.3，根据前述步骤中形成的OWL描述文件，将将数据存入Neo4j图数据库中，从而以更直观的方式查看、查询及更改知识图谱。

进一步的，所述步骤1.2中，OWL具有三个基本概念，分别为类、个体和属性，其中属性又分为数据属性和对象属性，后者表示个体间的关系，这三个基本概念在protégé中分别对应于类、实例和槽；在对数据建模的过程中，首先需要通过对数据集的分析抽象出类和属性，同时根据OWL标准对属性之间的对称、相反关系、实例间的等价关系等进行补充描述，通过OWL对数据进行表达后，可以将数据抽取为Subject， Predicate， Object的三元组形式。

进一步的，所述步骤1.2中，需构建一个别名词典以获取实体识别的候选词，以便于后续更准确的进行实体识别。

进一步的，所述步骤1.3中，在后续的环节中，使用Cypher语言查询和修改数据库内容。

进一步的，所述步骤2包括如下具体步骤，

步骤2.1，从知识图谱中获取五元组形式的知识数据，

步骤2.2，使用大规模开放领域的问答数据集训练RNN网络；为训练RNN网络，首先需要获取大规模的中文问答数据库，在问答数据库中，对每条训练数据采取以下操作：对问句采用jieba分词，保留名词、动词和形容词作为问题关键词，随后使用问题关键字序列训练RNN模型；

步骤2.3，进行问句分析和回答，首先通过jieba分词对问题进行实体识别，在使用jieba进行语义分析的过程中，提取出问句中的名词，并使用知识库中的实体集合作为jieba分词的自定义词典，提高命名实体识别的准确度；

其次，对问题进行属性识别，在知识图谱中得到实体对应的属性，将问题与这些属性进行相似度比对，从而获取问题询问的具体属性或关系；

最终，根据实体识别和属性识别的结果选择答案，对于备选的三元组，采用如下公式进行排序：

；

其中，和分别表示实体识别和属性识别的得分，根据最终的选择最佳三元组进行回答。

进一步的，所述步骤2.2中，RNN模型的输入为上一步骤获取的问题关键字序列，记为，输出为自然语言问句序列；该模型首先使用基于RNN的编码器对输入序列进行编码，随后使用解码器对编码后的输出序列进行解码；其中编码器和解码器设计如下：

编码器：对于输入序列，用一个固定大小的向量表示每个关键字，编码器的功能是将这个序列映射到一个固定大小的编码；使用RNN模型来计算下列递归方程：；其中为LSTM计算单元，为该序列最终的编码隐藏状态向量；

解码器：解码器的作用是根据计算输出的自然语言问句序列的概率，其中的联合概率满足以下条件：

；

使用RNN解码器计算每个对应的：

；

其中为非线性函数，为RNN解码器的隐藏层；

最终选择在所有输出中产生概率最高的问题Q，作为由问题关键字QK生成的问题。

进一步的，所述步骤2.3中，为获取问题与属性之间的相似度，使用双向LSTM对问句和属性进行独立编码，得到其对应的语义向量，通过计算语义向量的余弦相似度表示问句与属性的相似度，具体如下：

问句或属性经过嵌入层将单词映射为固定维度的词向量，映射后的向量分别记为，在将词向量输入双向LSTM前进行如下处理：

定义基于单词语义相似度的注意力矩阵：

；

其中；

基于注意力矩阵以及参数矩阵计算矩阵：

；

其中，分别表示问句和属性的长度，表示词向量的维度；将和分别按行拼接至和后，输入双向LSTM中，对LSTM的输出取平均值后输入全连接层，得到最终的语义编码，使用该语义编码计算属性与问句间的余弦相似度。

与现有技术相比，本发明的有益效果是：本发明提出的一个通用性的问答数据集生成方案，基于大规模的开放领域中文问答数据库，训练出问答数据生成模型，再基于当前系统的数据集生成对应的问答数据集。该智能问答系统构建流程打破了缺乏问答数据集导致无法构建系统的限制，基于RNN的自然语言问句生成模型，生成问句的准确度比基于模板生成的问句准确度更高。同时，使用实体集合作为jieba分词的自定义词典，保障了实体识别的准确度。另一方面，还引入别名词典，确保在实体识别过程中获取了所有与问句相关的实体，降低了数据重复和冗余对问答系统准确度的影响。本发明能够综合属性识别和实体识别的结果选择答案，提升了答案的准确率。

附图说明

图1是本发明的系统构建流程图。

图2是本发明中使用BiLSTM进行语义编码的示意图。

图3是本发明中问答数据集构建准确度示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本实施例提出的一种基于知识图谱的智能问答系统的构建方法，采用NLPCC-ICCPOL 2016KBQA任务提供的知识库构建智能问答系统，其流程如图1所示，包括以下步骤：

步骤1，构建知识图谱：

步骤1.1，获取指定领域的知识库数据：知识库是智能问答系统的基石，一个全面而冗余度低的知识库对于智能问答系统而言是必需的，因此在正式搭建智能问答系统之前，获取指定领域的知识库数据是必要的。获取知识库数据的方法通常有多种，如从专业的数据平台中获取，通过网络爬虫等方式构造出所需的数据等。各类基于大数据集的赛事也提供了大量可靠的数据库，对于该类知识库，通常需要通过预处理将其转换为三元组的知识表达形式。值得注意的是，如前所述一个高效的知识库需要满足全面及冗余度低的特点。但数据获取阶段，由于尚未构建清晰的实体、属性、关系模型，因此在该阶段需要尽可能多地获取知识数据，对于可能出现的高冗余等问题将在后续环节进行处理。

步骤1.2，识别数据中的实体、关系和属性，对数据进行建模，对于已获取的知识库的数据，需要识别出其中的实体、关系、属性等，对数据进行建模，从而从数据中构建知识图谱。

在本实施例中，使用protégé对数据进行建模，使用OWL（Web Ontology Language）对数据进行语义层描述。OWL有三个基本概念，分别为类、个体和属性，其中属性又分为数据属性和对象属性，后者表示个体间的关系，这三个基本概念在protégé中分别对应于类、实例和槽。在对数据建模的过程中，首先需要通过对数据集的分析抽象出类和属性，同时根据OWL标准对属性之间的对称、相反关系、实例间的等价关系等进行补充描述。通过OWL对数据进行表达后，可以将数据抽取为（Subject， Predicate， Object）的三元组形式。

同时，为后续更准确的进行实体识别，需要构建一个别名词典以获取实体识别的候选词。

步骤1.3，根据实体、属性、关系构建知识图谱，并存入图数据库中。根据上述环节形成的OWL描述文件，将数据存入Neo4j图数据库中，从而以更直观的方式查看、查询、更改知识图谱。并且，在后续的环节中，使用Cypher语言查询和修改数据库内容。

步骤2，构建问答数据集。

步骤2.1，从知识图谱中获取五元组形式的知识数据。

如上所述，根据步骤三构建的OWL描述文件，知识均以RDF三元组的格式进行描述，每个三元组包含Subject, Predicate, Object三个部分，Subject和Object均为知识图谱中的实体，Predicate表示知识图谱中的属性或关系。

根据OWL描述，每个实体均有其对应的类或范围，取Subject和Object的类，将三元组数据扩充为五元组。对于给定的Predicate ，定义分别表示所在三元组的Subject，Subject所属类，Object及Object所属类。从而五元组可以使用表示。该步骤将从给定的五元组中抽取QKA对， QKA表示问题关键字和问题答案。QKA对的格式如（{}, ）。获取QKA对的规则如下：

对Predicate ，若关于在知识库中的条目是唯一的，则选择该条目对应的五元组生成QKA对。即所选取的五元组中的的组合，在知识库中有且只有一条数据与之相同。

步骤2.2，使用大规模开放领域的问答数据集训练RNN网络。

为训练RNN网络，首先需要获取大规模的中文问答数据库，数据库可采用wikiQA。在问答数据库中，对每条训练数据采取以下操作：对问句采用jieba分词，保留名词、动词和形容词作为问题关键词。随后使用问题关键字序列训练RNN模型。

本实施例提出的一个基于RNN的自然语言问句生成模型阐述如下，该模型的输入为上一步骤获取的问题关键字序列，记为，输出为自然语言问句序列。该模型首先使用基于RNN的编码器对输入序列进行编码，随后使用解码器对编码后的输出序列进行解码。其中编码器和解码器设计如下：

编码器：

对于输入序列，用一个固定大小的向量表示每个关键字，编码器的功能是将这个序列映射到一个固定大小的编码。

使用RNN模型来计算下列递归方程：；其中为LSTM计算单元，为该序列最终的编码隐藏状态向量。

解码器：

解码器的作用是根据计算输出的自然语言问句序列的概率，其中的联合概率满足以下条件：

；

使用RNN解码器计算每个对应的；

；

其中为非线性函数，为RNN解码器的隐藏层。

本实施例中，基于RNN的自然语言问句生成模型，生成问句的准确度比基于模板生成的问句准确度更高，如图3所示，使用BLEU得分比较生成的问句与原问句间的差异，同时为了更精确地说明模型的效果，采用人工测评的方式来判断生成问句的合理性。

步骤2.3，问句分析和回答。

步骤2.3.1，实体识别：

由于在问答系就能看统中，所涉及的实体均在知识库中，因此可以直接使用jieba分词对问题进行实体识别。在使用jieba进行语义分析的过程中，提取出问句中的名词，并使用知识库中的实体集合作为jieba分词的自定义词典，提高命名实体识别的准确度。

在获取问题中的实体集合后，对每个实体，在别名词典中查询其别名，并将别名加入该问题的实体集合中。

同时，利用常见的排序方法对实体进行排序，如根据实体名的TF-IDF值进行排序。

步骤2.3.2，对问题进行属性识别。

在获取问题的实体集合后，在知识图谱中得到实体对应的属性，将问题与这些属性进行相似度比对，从而获取问题询问的具体属性或关系。

为获取问题与属性之间的相似度，使用双向LSTM对问句和属性进行独立编码，得到其对应的语义向量，通过计算语义向量的余弦相似度表示问句与属性的相似度，具体如图2所示；

问句或属性经过嵌入层将单词映射为固定维度的词向量，映射后的向量分别记为。在将词向量输入双向LSTM前进行如下处理；

定义基于单词语义相似度的注意力矩阵：

；

其中。

基于注意力矩阵以及参数矩阵计算矩阵：

；

其中，分别表示问句和属性的长度，表示词向量的维度。将和分别按行拼接至和后，输入双向LSTM中，对LSTM的输出取平均值后输入全连接层，得到最终的语义编码。使用该语义编码计算属性与问句间的余弦相似度。

步骤2.3.3，对问题进行回答：

根据实体识别和属性识别的结果选择答案，对于备选的三元组，采用如下公式进行排序：

其中和分别表示实体识别和属性识别的得分。根据最终的选择最佳三元组进行回答。

对数据集中的问题进行语义分析，采用平均准确率(Precision Rate)、召回率(Recall Rate)和官方评测采用的平均F1值作为评价指标，实体识别和属性识别的准确度如表1所示。

	训练集	测试集
			实体识别准确率（%）	98.5	95.76
属性识别准确率（%）	94.96	91.87
			准确率（%）	83.02	79.90
召回率（%）	91.32	87.86
			平均F1值	0.8503	0.8281

应该注意的是，上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。

Claims

1.一种基于知识图谱的智能问答系统的构建方法，其特征在于：包括如下具体步骤，

2.根据权利要求1所述的基于知识图谱的智能问答系统的构建方法，其特征在于：所述步骤1的具体步骤如下：

3.根据权利要求2所述的基于知识图谱的智能问答系统的构建方法，其特征在于：所述步骤1.2中，OWL具有三个基本概念，分别为类、个体和属性，其中属性又分为数据属性和对象属性，后者表示个体间的关系，这三个基本概念在protégé中分别对应于类、实例和槽；在对数据建模的过程中，首先需要通过对数据集的分析抽象出类和属性，同时根据OWL标准对属性之间的对称、相反关系、实例间的等价关系等进行补充描述，通过OWL对数据进行表达后，可以将数据抽取为Subject， Predicate， Object的三元组形式。

4.根据权利要求2所述的基于知识图谱的智能问答系统的构建方法，其特征在于：所述步骤1.2中，需构建一个别名词典以获取实体识别的候选词，以便于后续更准确的进行实体识别。

5.根据权利要求2 所述的基于知识图谱的智能问答系统的构建方法，其特征在于：所述步骤1.3中，在后续的环节中，使用Cypher语言查询和修改数据库内容。

6.根据权利要求2 所述的基于知识图谱的智能问答系统的构建方法，其特征在于：所述步骤2包括如下具体步骤，

步骤2.1，从知识图谱中获取五元组形式的知识数据，

；

其中，和/>分别表示实体识别和属性识别的得分，根据最终的选择最佳三元组进行回答。

7.根据权利要求6所述的基于知识图谱的智能问答系统的构建方法，其特征在于：所述步骤2.2中，RNN模型的输入为上一步骤获取的问题关键字序列，记为，输出为自然语言问句序列/>；该模型首先使用基于RNN的编码器对输入序列进行编码，随后使用解码器对编码后的输出序列进行解码；其中编码器和解码器设计如下：

编码器：对于输入序列，用一个固定大小的向量表示每个关键字/>，编码器的功能是将这个序列/>映射到一个固定大小的编码；使用RNN模型来计算下列递归方程：/>；其中/>为LSTM计算单元，/>为该序列最终的编码隐藏状态向量；

解码器：解码器的作用是根据计算输出的自然语言问句序列/>的概率，其中/>的联合概率满足以下条件：

8.使用RNN解码器计算每个对应的/>：

；

其中为非线性函数，/>为RNN解码器的隐藏层；

9.根据权利要求6所述的基于知识图谱的智能问答系统的构建方法，其特征在于：所述步骤2.3中，为获取问题与属性之间的相似度，使用双向LSTM对问句和属性进行独立编码，得到其对应的语义向量，通过计算语义向量的余弦相似度表示问句与属性的相似度，具体如下：

定义基于单词语义相似度的注意力矩阵：

；

其中，；

基于注意力矩阵以及参数矩阵/>计算矩阵/>：

；

其中，分别表示问句和属性的长度，/>表示词向量的维度；将/>和/>分别按行拼接至/>和/>后，输入双向LSTM中，对LSTM的输出取平均值后输入全连接层，得到最终的语义编码，使用该语义编码计算属性与问句间的余弦相似度。