CN114490930A

CN114490930A - 一种基于知识图谱的文物问答系统与问答方法

Info

Publication number: CN114490930A
Application number: CN202210018753.XA
Authority: CN
Inventors: 贺小伟; 冯强
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2022-01-09
Filing date: 2022-01-09
Publication date: 2022-05-13

Abstract

一种基于知识图谱的文物问答系统与问答方法，构建基于文物数据的知识图谱、高频查询问题展示、构建常见问题模板；对输入问题进行词嵌入，基于BERT的预训练模型、BERT、BILSTM、CRF完成命名实体识别、关系抽取的过程，最终将相关实体与关系对应到问题查询模板，构建CQL查询语句，接着再去到NEO4J表示的知识图谱中查询相关结果进行返回，最终显示给用户。该系统能够让游客更加了解相关文物的背景等相关延伸信息，提升用户浏览的感受。

Description

一种基于知识图谱的文物问答系统与问答方法

技术领域

本发明属于知识图谱、自然语言处理技术领域，具体涉及一种基于知识图谱的文物问答系统与问答方法。

背景技术

现在，游客在观看博物馆展品时，某个文物的信息更多的是由导游来进行讲解。有导游时，导游也是一个一对多的状态，不能满足大家个性化的偏好。没有导游时，部分游客会觉得这个文物没什么意思，就是一个死东西。传统情况下，用户只能面向公共领域的搜索引擎进行问题搜索，但是展示的结果无关信息过多，也不能很好的准确关联到相关其它信息。而基于知识图谱的问答系统，用户在用自然语言提问搜索之后，返回的是本领域内最相关的，最准确的信息，使用户能更加方便且高效的获取到想要的信息，并扩展出更多的相关内容。而目前有关基于知识图谱的文物问答系统研究不是很多，这就成为了一个亟待解决的问题。

发明内容

为了克服上述现有技术的不足，本发明的目的是提供一种基于知识图谱的文物问答系统与问答方法。本系统首先通过网络爬虫技术将网络上与文物相关的信息爬取下来，然后进行数据整理，最终存储在NEO4J数据库中，形成文物领域的知识图谱；接着通过自然语言处理技术，用户以进行文字形式的提问，系统提取实体信息、关系信息后与常见问题模板进行匹配，生成CQL语句；接着用CQL语句从知识图谱中快速且准确的检索相关知识内容返回给用户，最终达形成一种基于知识图谱的文物问答系统与问答方法。

为了实现上述目的，本发明采用的技术方案是：

一种基于知识图谱的博物馆文物问答系统，包括以下组成：

交互前端模块；

构建文本预处理模块；

构建匹配问题模块；

构建知识图谱模块；

所述的文本预处理模块包括分词模板、词性标注模板、命名实体识别模板；

所述的匹配问题模块包括标注自然语言问句模板、关键部分替换模板、生成CQL语句模板；

所述知识图谱模块包括文物数据爬取模板、数据整理模板、NEO4J模板。

一种基于知识图谱的文物问答方法，包括以下步骤：

步骤一，从原始网页中下载所有非结构化的文本信息，利用爬虫、正则表达式等技术提取所关注的信息，构建成为JSON文件，然后进行数据清理，最后再人工检查一次，确保数据没有问题，最终整理成为<实体一, 关系, 实体二>的形式数据存储到NEO4J表示的知识图谱中；

步骤二，对用户输入的查询语句进行处理，基于BERT预训练模型的方式将文字表达为文本向量，最终再用基于BILSTM、CRF的模型架构完成命名实体识别与关系抽取的任务，至此已经得到了实体一、实体二、关系；

步骤三，由实体+关系的方式去构建构建常见问题模板；根究对应的问题模板生成CQL到NEO4J中查询内容，并返回给前端展示。

所述的对文物关系定义为：年代、产地、作者、作品、收藏地、好友、师徒、地址、家人、研究、藏品

所述的构建相关问句训练集，对其中实体、关系做标记，对问句使用BIO标记法进行标记。

所述的使用BERT完成word embeddings，讲文字转换成为数字向量。

所述的对嵌入之后的矩阵使用BiLSTM，包括：前向LSTM，每个词通过遗忘门和输入门完成对上文重要信息的融合‘后向LSTM，每个词通过遗忘门和输入门完成对下文重要信息的融合。’最终将前向与后向隐藏层表示的向量进行拼接融合。

所述的由于BiLSTM的输出有一些规则上本不允许的标注存在，将其输出作为CRF的输入从而将命名实体识别的规则加到序列标注过程中，以达到从所有输出结果中选取可能性最大的结果。

所述的JSON文件做以下处理，以备后序训练模型：

1）将所有实体、关系存储下来；

2）对所有实体与关系的组合构建问题模板，再把问句中的问答形式进行同义词替换等扩充，最终形成用于后序训练的问题数据集；

3）对上述产生的问题数据集按一定比例划分成为训练集与测试集。

所述的建立BERT+BiLSTM+CRF的命名实体识别模型，具体训练步骤如下：

一、BERT

1）给字编号； 2）从embedding向量字典中查询相应字符的向量； 3）从句子中获取字的位置向量； 4）将2）、3）两种的向量做加法； 5）使用自注意力机制获取每两个字符之间的距离结果； 6）使用多头注意力机制，重复计算N次步骤五，获得N个结果； 7）对六中的N结果进行拼接，再通过一个全连接层计算出最终结果； 8）对七中结果进行批归一化； 9）做残差链接，将四步中的向量与八步中的向量进行相加； 10）做一个前向传播网络，获得最终每个字符的字向量表示；

二、BiLSTM

将句子表示的向量矩阵输入前向LSTM，每个字符将得到融合上文信息的隐藏层向量表示，将句子表示的向量矩阵输入后向LSTM，每个字符将得到融合下文信息的隐藏层向量表示。最后将上下文的隐藏向量进行拼接，得到每个字符融合了上下文信息的向量表示；

三、CRF

将BiLSTM的输出向量经过CRF处理，得到概率最高的序列标注结果。

本发明的有益效果是：

鉴于当前文物领域相关信息散乱的环境下，本发明能有效地允许用户以自然表达文字的形式去获取相关知识信息；本发明通过自然语言处理技术能够有效地实现人类语言与计算机之间的沟通，使得用户不必具有专业的计算机语言能力也能查询到想要的信息；本发明提供了通过爬虫技术构建新知识图谱的流程与方法，先是爬取相关领域数据，接着做数据清晰，生成能够与NEO4J对应的数据形态；总的来说，本发明通过自然语言处理技术、知识图谱技术、爬虫技术，帮助文物相关领域人员可以从无到有构建知识图谱，也能通过构建好的知识图谱为用户快速且准确地提供文物信息，从而满足用户当前的兴趣，甚至激发跟过的兴趣，在文物领域具有一定的应用价值。

附图说明

图1为本发明的系统原理图。

具体实施方式

以下结合附图及实施例对本发明进一步说明。

如图1所示，一种基于知识图谱的博物馆文物问答系统，包括以下组成：

交互前端模块；

构建文本预处理模块；

构建匹配问题模块；

构建知识图谱模块；

构建基于文物数据的知识图谱、高频查询问题展示、构建常见问题模板；对输入问题进行词嵌入，基于BERT的预训练模型、BERT、BILSTM、CRF完成命名实体识别、关系抽取的过程，最终将相关实体与关系对应到问题查询模板，构建CQL查询语句，接着再去到NEO4J表示的知识图谱中查询相关结果进行返回，最终显示给用户。该系统能够让游客更加了解相关文物的背景等相关延伸信息，提升用户浏览的感受。

一种基于知识图谱的文物问答方法，包括以下步骤：

所述的使用BERT完成word embeddings，讲文字转换成为数字向量。

所述的JSON文件做以下处理，以备后序训练模型：

1）将所有实体、关系存储下来；

一、BERT

二、BiLSTM

三、CRF

Claims

1.一种基于知识图谱的博物馆文物问答系统，其特征在于，包括以下组成：

交互前端模块；

构建文本预处理模块；

构建匹配问题模块；

构建知识图谱模块；

2.一种基于知识图谱的文物问答方法，其特征在于，包括以下步骤：

3.根据权利要求1所述的一种基于知识图谱的文物问答方法，其特征在于，所述的对文物关系定义为：年代、产地、作者、作品、收藏地、好友、师徒、地址、家人、研究、藏品。

4.根据权利要求1所述的一种基于知识图谱的文物问答方法，其特征在于，所述的构建相关问句训练集，对其中实体、关系做标记，对问句使用BIO标记法进行标记。

5.根据权利要求1所述的一种基于知识图谱的文物问答方法，其特征在于，所述的使用BERT完成word embeddings，讲文字转换成为数字向量。

6.根据权利要求1所述的一种基于知识图谱的文物问答方法，其特征在于，所述的对嵌入之后的矩阵使用BiLSTM，包括：前向LSTM，每个词通过遗忘门和输入门完成对上文重要信息的融合‘后向LSTM，每个词通过遗忘门和输入门完成对下文重要信息的融合；’最终将前向与后向隐藏层表示的向量进行拼接融合。

7.根据权利要求1所述的一种基于知识图谱的文物问答方法，其特征在于，所述的由于BiLSTM的输出有一些规则上本不允许的标注存在，将其输出作为CRF的输入从而将命名实体识别的规则加到序列标注过程中，以达到从所有输出结果中选取可能性最大的结果。

8.根据权利要求1所述的一种基于知识图谱的文物问答方法，其特征在于，所述的JSON文件做以下处理，以备后序训练模型：

1）将所有实体、关系存储下来；

9.根据权利要求1所述的一种基于知识图谱的文物问答方法，其特征在于，所述的建立BERT+BiLSTM+CRF的命名实体识别模型，具体训练步骤如下：

一、BERT

二、BiLSTM

将句子表示的向量矩阵输入前向LSTM，每个字符将得到融合上文信息的隐藏层向量表示，将句子表示的向量矩阵输入后向LSTM，每个字符将得到融合下文信息的隐藏层向量表示；

最后将上下文的隐藏向量进行拼接，得到每个字符融合了上下文信息的向量表示；

三、CRF