CN111324691A

CN111324691A - 一种基于知识图谱的少数民族领域智能问答方法

Info

Publication number: CN111324691A
Application number: CN202010009114.8A
Authority: CN
Inventors: 刘爽; 李佳宜; 于玉海
Original assignee: Dalian Minzu University
Current assignee: Dalian Minzu University
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2020-06-23

Abstract

一种基于知识图谱的少数民族领域智能问答方法，属于基于人工智能的问答方法领域。技术方案步骤如下：根据实体类别之间的相关性进行图谱设计；根据图谱设计获取少数民族领域知识图谱构建的原始语料；进行原始语料的处理；构建知识图谱。有益效果:本发明所述的基于知识图谱的少数民族领域智能问答方法通过构建少数民族领域知识图谱，可以将相关数据进行整合、归化，可以将少数民族的相关知识更合理地运用到实际应用中，有利于民族文化的传播；再将知识图谱应用到智能问答中，有利于提高民族知识的检索效率和吸收效率。

Description

一种基于知识图谱的少数民族领域智能问答方法

技术领域

本发明属于基于人工智能的问答方法领域，尤其涉及基于知识图谱的问答方法和基于该方法的少数民族领域问答系统。

背景技术

近年中国是一个具有5000多年历史的多民族国家，56个民族以“大杂居，小聚居”的特点分布在我国各地，共同组成了中华大家庭。民族团结，共同进步，是一个国家软实力的标志，增强民族自信，提升国家认同，保证国家的长治久安，更加需要56个民族的共同努力。随着国家政策的导向和信息的传播，越来越多的民族相关知识被渐渐地积累起来，比如各大百科平台，关于民族的网站等等。但是这些信息所包含的知识并不是很全面，数据量也不是很充足，这就意味着数据的服务能力不足。因此，对少数民族领域相关的知识进行良好的整理和应用，让民族知识得到正确地传播与认识是当今民族领域重要的挑战。

近几年来，知识图谱技术引起了学者们的广泛关注，将知识图谱应用到实际应用中，如智能搜索，问答系统，推荐系统等，可以将互联网的信息，更加准确、高效地传达给人类。其中构建一个垂直领域的知识图谱智能问答系统，可以将该领域内零零散散的知识充分合理地整理到一起，形成一张大的语义网，可以让人更加直观、全面、准确地了解到该领域内的知识。

目前市面上存在的知识图谱大多数是通用领域的知识图谱，在民族领域方面上的数据含量较小，而基于民族垂直领域的图谱更是少之又少。所以，为了传播少数民族知识和弘扬少数民族文化，构建一种基于知识图谱的少数民族领域智能问答方法及系统是很有研究价值的。

发明内容

为了满足上述现有技术中的需求，本发明提供一种基于知识图谱的少数民族领域智能问答方法，该方法能够以知识图谱的形式存储和表现少数民族领域知识，将数据与数据之间建立起联系，提高检索效率；能够以自然语言交互问答的形式，为用户获取知识提供了便利，提高了用户体验。

技术方案如下：

一种少数民族领域知识图谱的构建方法，步骤如下：

S1、根据实体类别之间的相关性进行图谱设计；

S2、根据图谱设计获取少数民族领域知识图谱构建的原始语料；

S3、进行原始语料的处理；

S4、构建知识图谱。

进一步的，所述实体类别包括：民族中文名、别称、人口数、分布地区、语言、语族、语系、民族类别、文字、信仰、节日、建筑、图腾、日常饮食、饮食禁忌、服饰、历史人物、民族艺术，每个实体类别包含若干个实体。

进一步的，步骤S2中，根据图谱设计，通过爬虫方法从百科站点或垂直站点提取相关的结构化数据、半结构化数据、非结构化数据，然后对收集到的语料数据进行数据清洗。

进一步的，步骤S3中，使用基于深度学习的命名实体识别方法将部分结构化数据整理后保存，对部分文本数据进行知识抽取，然后将获得的数据进行重复性检测，并删除重复数据。

进一步的，步骤S4中，将步骤S3中整理好的数据，导入到图数据库Neo4j中，根据步骤S1中的设计原则创建实体节点和节点关系。

本发明还包括一种基于少数民族领域知识图谱的智能问答系统的构建方法，步骤如下：

S1、对用户的自然语言问句进行分析；

S2、对用户意图进行识别；

S3、生成回答语句。

进一步的，步骤S1中，对问句进行数据处理，利用词嵌入方法，将问句输入转换为词向量输入，然后通过自然语言处理的方法获取用户问句中包含的实体名称。

进一步的，步骤S2中，通过卷积神经网络将问句意图和知识库关系进行映射。

进一步的，步骤S3中，通过步骤S1得到的实体、步骤S2中得到的关系/属性，用cypher语言在neo4j图数据库中查找对应的实体或属性值，然后构建回答返回给用户。

本发明的有益效果是：

本发明所述的基于知识图谱的少数民族领域智能问答方法通过构建少数民族领域知识图谱，可以将相关数据进行整合、归化，可以将少数民族的相关知识更合理地运用到实际应用中，有利于民族文化的传播。再将知识图谱应用到智能问答中，有利于提高民族知识的检索效率和吸收效率。

附图说明

图1为本发明少数民族领域知识图谱构建框架图；

图2为本发明智能问答算法流程框架图；

图3为本发明生成回答语句流程框架图；

图4为本发明中数据库可视化效果图1；

图5为本发明中数据库可视化效果图2；

图6为本发明中网页可视化效果图。

具体实施方式

下面结合附图1-6对基于知识图谱的少数民族领域智能问答方法做进一步说明。

实施例1

本发明具体的实施主要分为两大模块：

模块一：构建少数民族领域知识图谱；

模块二：智能问答系统的功能实现；

对于模块一，提供了一种少数民族领域知识图谱的构建方法，包括如下步骤：

步骤1：图谱设计

设计少数民族领域图谱是构建应用过程中最重要的一步。经过对民族结构和现状分析，本发明设定该图谱中包含的实体类别包括：民族中文名、别称、人口数、分布地区、语言、语族、语系、民族类别、文字、信仰、节日、建筑、图腾、日常饮食、饮食禁忌、服饰、历史人物、民族艺术，每个实体类别包含多个实体。部分实体包含一些特定属性，如傣族泼水节的简介会当做泼水节这一实体节点的属性。根据实体类别之间的联系创建关系，如民族中文名和节日之间可创建三元组(傣族，民族节日，泼水节)。

步骤2：获取少数民族领域知识图谱构建的原始语料

根据图谱设计，从百科站点或垂直站点提取相关的结构化数据、半结构化数据、非结构化数据。这种方法主要是基于爬虫技术来实现和获取。然后，对收集到的语料数据进行数据清洗，如去掉一些特殊符号，重复词等。

步骤3：处理原始语料。

将一些结构化数据整理后保存，对一些文本数据进行知识抽取。这里使用到的技术方法主要为基于深度学习的命名实体识别技术。然后将获得的数据进行重复性检测，删除重复数据。

步骤4：构建知识图谱

将步骤3中整理好的数据，导入到图数据库Neo4j中，根据步骤1中的设计原则创建实体节点和节点关系。图中每个节点代表一个对象，节点之间的连线代表对象之间的关系，至此少数民族知识图谱创建完成。

对于模块二，提供了一种基于少数民族领域知识图谱的智能问答系统的构建方法，包括如下步骤：

步骤1：对用户的自然语言问句进行分析

首先对问句进行数据处理，涉及到分词、去停用词等数据处理操作，利用词嵌入技术，将问句输入转换为词向量输入，主要利用word2vec工具训练维基语料来完成。然后，通过自然语言处理的方法获取用户问句中包含的实体名称。

步骤2：用户意图识别

通过命名实体识别模型正确提取出问句中询问的实体之后，还需要理解用户问句的意图，其意图的具体表现就是实体的关系或属性，即需要进行问句意图和知识库关系的映射。一般情况下，用户问题通常是短文本，因此本项目将用户意图识别设定为短文本分类任务。主要使用的方法是卷积神经网络(CNN)。

步骤3：生成回答语句

知识图谱三元组的一般形式为(实体，关系，实体)或者是(实体，属性，属性值)。

步骤1中得到的结果就是元组的第一个元素——实体；

步骤2中进行的“用户意图识别”则三元组中的第二个元素——关系/属性；

得到三元组的这两个元素就可以用cypher语言在neo4j图数据库中进行查找对应的实体或属性值，然后构建回答返回给用户。

实施例2

由图1所示，一种少数民族领域知识图谱问答系统构建方法主要从五个方面进行构建。

步骤1：少数民族知识的架构设计；

步骤2：少数民族领域知识的获取；

步骤3：少数民族领域知识的融合；

步骤4：少数民族领域知识的存储；

步骤5：少数民族领域知识的智能问答；

下面将详细介绍每一步骤。

步骤1：根据少数民族知识的特点，从百科类网站、某些民族类网站经过信息对比，分析后，确定少数民族知识涉及的领域，将其规划统一，确定知识图谱中的实体类别，实体属性和实体关系。比如设定民族类，这一类别中包含56个民族和部分我国未识别民族。民族简介作为该民族的实体属性，民族实体会与其他实体创建关系，如(满族，使用语言，满语)、(满语，所属语系，阿尔泰语系)。

步骤2：以百科类网站和垂直网站为数据来源，其数据形式主要有三种：结构化数据、半结构化数据和非结构化数据。

对于结构化数据，直接将其暂存到数据列表中，以备后续使用。

对于半结构化数据，通过对百科网站数据以及相关民族类网站的页面进行分析，使用包装器爬取知识。主要是对网页结构化数据进行xpath解析，爬取过程中采用Python技术，使用了requests、lxml、pymongo、urllib等常用库。

对于非结构化数据，这种数据类型主要是一些自然语言的文本，需要经过命名实体识别技术将我们所需要的实体进行识别和提取。本项目中使用的方法是基于深度学习算法的模型。其中涉及到的人名，地名，机构名称等，可以使用jieba分词工具进行抽取，而一些特有的领域名词如食品名称，需要自己建立模型进行抽取。其主要方法为：

1、序列标记方法：采用BIO三元标记，BIO标注就是将每个元素标注为“B-X”、“I-X”或者“O”。其中，“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头，“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置，“O”表示不属于任何类型。比如，我们将X表示为食品名称(Food)，则BIO的三个标记为：

(1).B-Food：食品名词短语的开头；

(2).I-Food：食品名词短语的中间；

(3).O：不是食品名词短语；

2、模型搭建：使用的是一个基于Bi-LSTM+CRF的命名实体识别模型，本模型使用预训练字向量，作为embedding层输入，然后经过双向LSTM层进行编码，编码后加入dense层，最后送入CRF层进行序列标注。

步骤3：将得到的数据进行重复整理和筛选，去掉不符合设计原则以及重复的数据。将数据最后整理成结构化的json格式。

步骤4：使用Neo4j图数据库对获取的知识进行存储。Neo4j是一个原生的图数据库引擎，它存储了原生的图数据，因此，可以使用图结构的自然伸展特性来设计免索引邻近节点遍历的查询算法，即图的遍历算法设计。图的遍历是图数据结构所具有的独特算法，即从一个节点开始，根据其连接的关系，可以快速和方便地找出它的邻近节点。这种查找数据的方法并不受数据量的大小所影响，因为邻近查询始终查找的是有限的局部数据，不会对整个数据库进行搜索。所以，Neo4j具有非常高效的查询性能，相比于RDBMS可以提高数倍乃至数十倍的查询速度。而且查询速度不会因数据量的增长而下降，即数据库可以经久耐用，并且始终保持最初的活力。本项目中主要采用py2neo接口，利用Neo4j软件，构建知识图谱。常用语句有：

1).graph＝Graph(host＝'localhost',author＝('数据库名'，'连接数据库的密码')；

2).graph.create(node)#创建节点；

3).relationship＝Relationship(node1,'关系名称',node2)；#创建节点间的关系；graph.create(relationship)；

步骤5：由图2所示，少数民族领域知识的智能问答实现的步骤主要包括：

步骤(1)：对用户的自然语言问句进行分析；

步骤(2)：用户意图识别；

步骤(3)：生成回答语句；

步骤(1)：问句解析实际上就是使用自然语言处理的方法分析并理解用户输入的问题，使问句不但能被人理解，还可以让计算机理解。首先对问句进行数据处理，涉及到分词、去停用词等数据处理操作，比如将问句“满族使用的文字是什么？”，分解成“满族/使用/的/文字/是/什么/？”然后利用词嵌入技术，将问句中的每个词进行嵌入，即由词向量组成的问句代替自然语言的问句输入，主要利用word2vec工具训练维基语料来完成，采用词向量模型中的连续词袋模型CBOW进行词向量的训练。最后再进行命名实体识别及实体/问句关系抽取，实现对问句的语义解析。使用的模型是Bi-LSTM-CRF模型。

模型训练描述如下：

1).嵌入层：项目最初使用字向量，但是实验过程中出现了命名实体识别标注偏执及正确率低的现象，导致实验效果不好。经过分析，将字向量换成了词向量，经对比后发现效果提升较大。其原因可能是词包含的信息更多，对模型的辅助效果更明显。句子分词后，使每个词获得其对应的词向量，用词向量替换原句子中的词，形成新的句子作为输入，为保证训练效果，当句子太长时候要截断，句子太短时要填充，本项目使用的是0填充。

2).Bi-LSTM层：与传统LSTM不同，双向LSTM同时考虑了过去的特征(通过前向过程提取)和未来的特征(通过后向过程提取)。双向LSTM相当于两个LSTM，一个正向输入序列，一个反向输入序列，经过多次迭代输出LSTM网络的两个预测结果(正向，反向)，然后将两个预测结果拼接成一个长向量作为下一层的CRF层的输入。

3).CRF层：Bi-LSTM的输出为字符的每一个标签分值。CRF层可以为最后预测的标签添加一些约束来保证预测的标签是合法的。在训练数据训练过程中，这些约束可以通过CRF层自动学习到的。CRF中有转移特征，即它会考虑输出标签之间的顺序性，也会学习一些约束规则。

步骤(2)：通过命名实体识别模型正确提取出问句中询问的相关实体之后，还需要理解用户问句的意图，其意图的具体表现就是实体的关系或属性，即需要进行问句意图和知识库关系的映射。考虑用户问题通常是短文本，因此本项目将用户意图识别设定为短文本分类任务。

模型选择：短文本有其特点，局部信息可决定句子意图，比如像“满族使用的语言”与问句“满族的本民族语是什么？”，二者提问的方式不同，但是句子意图没有变，所以卷积神经网络(CNN)适用于短文本。

卷积神经网络(CNN)主要包括输入层、卷积层、池化层、全连接层。

a)输入层：对于模型的输入是由每个句子中的词的词向量组成的矩阵作为输入层的输入。词向量矩阵为N*K，其中K为词向量的长度，N为句子的长度。

b)卷积层：采用双通道2*3＝6个卷积核，卷积核大小为，卷积大小(n-gram)*词向量维度(embed)＝2*300＝600，一般卷积大小设2，3，4，5等。

使用公式为

c_i＝f(w·x_i：i+h-1+b) 公式(1)

c)池化层：池化层工作与卷积层大同小异，不同于卷积层将卷积核中数据相加；池化层的池化核将池化核中数据求平均或者是只保留最大值，实验中选择的池化操作方式是Max-over-time Pooling的方式，即将每个Feature Map向量中最大的一个值抽取出来，组成一个一维向量。

d)全连接层：全连接层的输入为池化操作后形成的多维向量，经过激活函数输出，再加上Dropout层防止过拟合。最后接一层全连接的softmax层，输出每个类别的概率。

e)单层CNN调参：

1.词向量维度：影响不大，动态预训练词向量>静态预训练词向量>随机初始化，word2vec比glove效果较好，词向量维度一般采用300。

2.卷积核尺寸：影响较大，一般取1-10。

3.卷积核个数:：影响比较大，选择100-600，最好接近600，默认600个卷积核数量。

4.激活函数：tanh>Iden>relu>sigmod。

5.polling池化：最大池化>平均池化和k-max池化。

6.防止过拟合：dropout设置0.3-0.5，不要超过0.5。

7.交叉验证。

步骤(3)：图3所示的为生成回答语句的过程。知识图谱三元组的表现形式为<实体，关系，实体>或者是<实体，属性，属性值>。根据“问句解析”这一步骤，抽取的“命名实体”就三元组的第一个元素——实体。根据“用户意图识别”这一步骤，得到是三元组中的第二个元素——关系/属性。得到三元组的这两个元素就可以用cypher语言在neo4j图数据库中进行查找对应的实体或属性值，然后构建回答返回给用户。

使用的cypher有：

1、MATCH(m:Nation)wherem.name＝'{0}'returnm.name,m.Nrename

#查询民族别称

2、MATCH(m:Nation)-[r:nation_words]->(n:N_words)wherem.name＝'{0}'

returnm.name,r.name,n.name

#民族与文字

3、MATCH(m:Nation)-[r:nation_buildings]->(n:N_buildings)wheren.name＝

'{0}'returnm.name,r.name,n.name

#建筑与民族

未经可视化的问答结果如下：

智能问答部分结果如下：

1、咨询人:傣族使用的语言

百科小民:傣族的民族语言为：傣(泰)语

2、满族

百科小民:满族了解一下：满族是个勤劳、勇敢、智慧的民族.也是一个善于博收外来文化并融汇创新的民族。在长期的历史发展中，形成富有民族特色的风俗文化，满族岁时风俗，多与汉族相近，但又保持着不少满族特色。满族人口总数为1068.2万人(2000年)，在中国55个少数民族中居第二位。满族有自己的语言、文字，东北地区的“白山黑水”是满族的故乡，清顺治元年(1644年)，清军入关，逐步统一全国，从此开始了满族贵族对全国的统治，辛亥革命之后，清廷覆亡。

3、咨询人:满族有什么别称吗

百科小民:满族的别称包括：满洲族,满人,旗人,八旗子弟

4、咨询人:满族民族属性

百科小民:满族的民族属性为：东北民族

5、咨询人:满语属于什么语族

百科小民:满语，这一语言所属语族为：满-通古斯语族

6、咨询人:满-通古斯语族属于什么语系

百科小民:满-通古斯语族，这一语族所属语系为：阿尔泰语系

最后经过可视化操作的结果图如图6所示。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种少数民族领域知识图谱的构建方法，其特征在于，步骤如下：

S1、根据实体类别之间的相关性进行图谱设计；

S3、进行原始语料的处理；

S4、构建知识图谱。

2.如权利要求1所述的少数民族领域知识图谱的构建方法，其特征在于，所述实体类别包括：民族中文名、别称、人口数、分布地区、语言、语族、语系、民族类别、文字、信仰、节日、建筑、图腾、日常饮食、饮食禁忌、服饰、历史人物、民族艺术，每个实体类别包含若干个实体。

3.如权利要求1所述的少数民族领域知识图谱的构建方法，其特征在于，步骤S2中，根据图谱设计，通过爬虫方法从百科站点或垂直站点提取相关的结构化数据、半结构化数据、非结构化数据，然后对收集到的语料数据进行数据清洗。

4.如权利要求3所述的少数民族领域知识图谱的构建方法，其特征在于，步骤S3中，使用基于深度学习的命名实体识别方法将部分结构化数据整理后保存，对部分文本数据进行知识抽取，然后将获得的数据进行重复性检测，并删除重复数据。

5.如权利要求4所述的少数民族领域知识图谱的构建方法，其特征在于，步骤S4中，将步骤S3中整理好的数据，导入到图数据库Neo4j中，根据步骤S1中的设计原则创建实体节点和节点关系。

6.一种基于少数民族领域知识图谱的智能问答系统的构建方法，其特征在于，步骤如下：

S1、对用户的自然语言问句进行分析；

S2、对用户意图进行识别；

S3、生成回答语句。

7.如权利要求6所述的基于少数民族领域知识图谱的智能问答系统的构建方法，其特征在于，步骤S1中，对问句进行数据处理，利用词嵌入方法，将问句输入转换为词向量输入，然后通过自然语言处理的方法获取用户问句中包含的实体名称。

8.如权利要求7所述的基于少数民族领域知识图谱的智能问答系统的构建方法，其特征在于，步骤S2中，通过卷积神经网络将问句意图和知识库关系进行映射。

9.如权利要求8所述的基于少数民族领域知识图谱的智能问答系统的构建方法，其特征在于，步骤S3中，通过步骤S1得到的实体、步骤S2中得到的关系/属性，用cypher语言在neo4j图数据库中查找对应的实体或属性值，然后构建回答返回给用户。