CN112667821A

CN112667821A - 基于百科数据的军事知识图谱构建和问答方法

Info

Publication number: CN112667821A
Application number: CN202011489243.8A
Authority: CN
Inventors: 路晓波; 张可新; 游若平
Original assignee: Beijing Huaruhuiyun Data Technology Co ltd
Current assignee: Beijing Duoying Shuzhi Technology Co.,Ltd.
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-04-16

Abstract

本发明公开了一种基于百科数据的军事知识图谱构建和问答方法，通过在知识图谱的构建过程中以百科数据作为数据源，过滤筛选军事类实体，丰富扩展实体，在问答过程中，采用基于答案排序的方法，在问句的实体识别阶段，添加实体名称的同义词，扩大筛选范围，保证返回结果的准确性。其优点是：在知识图谱构建阶段，使用开源的百科数据自动构建，不需要依赖专家知识，也不需要投入大量的人力物力；同时由于采用的百科数据的丰富性和及时性，能够保证构建的知识库信息丰富充足；在问答阶段，在基于答案排序的方法基础上，引入百科词条名称的同义词，扩充实体数量，采用多阶段处理的方法，保证结果更快更准确。

Description

基于百科数据的军事知识图谱构建和问答方法

技术领域

本发明属于人工智能中的自然语言处理技术领域，具体涉及基于百科数据的军事知识图谱构建和问答方法。

背景技术

问答是计算机与人类以自然语言的形式进行交流的一种方式，是人工智能领域的一个分支，在语义搜索、问答系统、智能客服、个性化推荐等互联网应用中占有重要地位。互联网的快速发展，导致网络上的信息量呈现出爆炸式增长的势头，准确的问答搜索方法显得尤为重要。2012年5月，谷歌首次提出知识图谱的概念，很快互联网巨头纷纷跟进，构建了自己的知识图谱，包括微软Probase、百度知心、搜狗知立方等，各个行业也在探索建立垂直领域的知识图谱。

传统的军事领域知识图谱，基本都是人工构建，人工构建知识体系是一个耗时、昂贵、高度技巧化的任务，并且构造的过程烦琐而枯燥，很容易出错。因此自动的从数据中学习知识体系具有重要的意义。百科数据是由成千上万的网络用户共同编辑得到的，其包含的知识范围非常广泛。由于百科知识是开放编辑的，因此知识的更新和新知识的添加都比较及时。典型的代表有百度百科、互动百科、Wikipedia等。

基于知识图谱的问答主要分为基于语义分析和基于答案排序的方法两类。绝大多数基于语义分析的知识图谱问答需要带有语义标注的问题集合作为训练数据。这类数据需要花费的时间和成本很高，而且要求标注人员对语义表示有一定程度的理解。基于答案排序的知识图谱问答将该任务看成一个信息检索任务，即给定输入问题Q和知识图谱KB，通过对KB中实体进行打分和排序，选择得分最高的实体或者实体集合作为答案输出。传统的基于答案排序的方法需要较强的约束条件，在普适性上又不如基于语义分析方法。

发明内容

本发明的目的在于提供一种基于百科数据的军事知识图谱构建和问答方法，它能够克服现有技术中存在的缺陷，在知识图谱的构建过程中以百科数据作为数据源，过滤筛选军事类实体，丰富扩展实体，在问答过程中，采用基于答案排序的方法，在问句的实体识别阶段，添加实体名称的同义词，扩大筛选范围，保证返回结果的准确性。

本发明的技术方案如下：基于百科数据的军事知识图谱构建和问答方法，包括如下步骤：

步骤1：爬取百科的分类数据，将上述的分类数据视作概念数据，将爬取后的分类数据添加到图数据库中，同时建立概念之间的从属关系；

步骤2：迭代批量读取、处理百科数据，所述的百科数据是百科词条的集合，提取出百科词条中的同一实体名称的多种表述，所述的同一实体名称的多种表述称之为同义词，将这些同义词添加到图数据库中，同时建立实体名称和它的同义词之间的关系；

步骤3：使用ElasticSearch创建扩展实体的搜索库，在ElasticSearch中，创建索引，配置中文分词引擎，将所有的百科数据导入ElasticSearch中，创建扩展实体的搜索库；

步骤4：解析处理百科数据，提取实体信息，添加更新同义词数据，采用规则和文本分类的方法过滤军事实体，添加更新军事类实体信息到图数据库中，建立实体与概念之间的关系，处理军事实体信息关联的扩展实体信息，搜索获取扩展实体信息，判断类别，添加扩展信息到图数据库，建立实体与拓展实体之间的关系；

步骤5：获取输入的实体查询或问句，解析查询语句，查询问句的同义词，通过实体识别获取问句的实体提及，扩展实体提及，解析出关系相关的关键词，匹配查询图数据库，计算问句与实体属性或关系词的相关度，返回排序最高并高于阈值的实体或属性信息。

所述的步骤1中所述的概念之间的从属关系包括下级概念与上级概念定义为SubClassOf，下级概念与上级概念有多对一和多对多的关系；所述的图数据库是NoSQL数据库的一种类型，它应用图形理论存储实体之间的关系信息。

所述的步骤2中百科数据的名称具有多种表述方式，对于百科数据解析处理出的多种表述方式，称之为同义词，将同义词的关系定义为synonym。

所述的步骤3中在ElasticSearch中创建的索引，包括以下三种方式：

方式一：将百科词条标题、统一名称、同义词、简介和信息框中的名称信息解析成不同的字段，添加到ElasticSearch中；

方式二：将百科词条标题、统一名称、同义词、简介和信息框中的名称信息解析成5个字段，添加到ElasticSearch中；

方式三：将百科词条标题、统一名称、同义词和信息框中的名称信息解析成一个字段，添加到ElasticSearch中。

所述的百科词条中的中文的默认分词方法采用ik_max_word方法，ik_max_word将文本做最细粒度的拆分。

所述的步骤4中具体流程包括如下：

(1)批量的读取百科数据，迭代处理，解析百科数据的多种表述，即同义词，更新添加到图数据库中，同时更新实体词和同义词的关系；

(2)过滤军事相关的百科词条，采用规则匹配和文本二分类的方法；

(3)将过滤后的百科词条进一步处理，整理成三元组的形式，添加到图数据库中；

(4)处理百科词条中存在标签类别信息，获取标签类别汇总终点的类别，建立百科词条和终点类别之间的关系，关系定义为InstanceOf；

(5)获取处理百科数据中infobox信息，这些信息是实体的属性信息或关系信息，通过规则的方法，过滤出实体的关系信息，关系信息关联的实体，称之为扩展实体；

(6)通过ElasticSearch库搜索或者互联网搜索的方法，获取扩展实体的详细信息，形成候选扩展实体集；

(7)通过计算比较实体与候选扩展实体集中的每个候选实体的相关度，获取可能性最高且大于指定阈值的候选扩展实体；

(8)判断扩展实体是否是军事相关，指定扩展实体的所属的类别，对于非军事类实体确定其类别为Entity；

(9)添加或更新扩展实体到图数据库，并建立扩展实体与实体的关系；

(10)建立扩展实体与其所属类别的关系，关系定义为InstanceOf。

所述的基于步骤(2)中百科数据判断是否是军事相关，所述过滤军事相关的百科词条采用的规则匹配和文本二分类方法步骤如下：

1)规则匹配，通过百科词条标签判断，利用百科词条中标签信息，比较标签与步骤1中构建的百科类别数据，凡是等于军事类别及其下属的子类别，均可以认为百科词条是军事类实体；

2)规则匹配，通过标题判断，判断标题是否包含军事的相关信息；

3)规则匹配，通过infobox信息框判断，通过判断infobox中的key、value是否包含军事信息判断；

4)文本分类，通过文本分类判断是否军事相关，这是个二分类，训练的数据来源于百科数据，一类是军事相关数据，一类是非军事数据，军事相关数据是应用步骤1)、步骤2)、步骤3)规则匹配后判断是军事的互动百科数据。

所述的步骤5中，问答的处理流程如下：

(1)获取用户输入，输入是实体查询或问答语句，统称为问句；

(2)查询图数据库中，用户输入语句的同义词表述信息；

(3)存在同义词表述，通过同义词表述关联到实际存在的实体名称，查询图数据库中，实际存在的实体信息直接返回；

(4)不存在同义词表述，使用实体识别的方法识别出用户输入问句的实体名称，这些实体名称称之为实体提及；

(5)通过大写、小写、首字母大写的方式，组合扩展识别出的实体提及的表述方式；

(6)对用户输入问句分词、排除掉实体提及词和停用词，保留的词可以认为是属性或关系相关的词，称之为关键词；

(7)组合扩展关键词的表述方式；

(8)通过图数据库，查询实体提及组合词的节点和一跳相关的实体节点；

(9)直接比较实体提及节点和属性或关系词是否有完全匹配的词，如果有匹配成功直接返回；

(10)通过计算用户输入问题与实体属性和关系词的相关度，获取最高的相关度的属性关联的属性值或关系关联的扩展实体，超过设定的阈值则返回。

本发明的有益效果在于：在知识图谱构建阶段，使用开源的百科数据自动构建，不需要依赖专家知识，也不需要投入大量的人力物力；同时由于采用的百科数据的丰富性和及时性，能够保证构建的知识库信息丰富充足；在问答阶段，在基于答案排序的方法基础上，引入百科词条名称的同义词，扩充实体数量，采用多阶段处理的方法，保证结果更快更准确。

附图说明

图1为本发明所提供的基于百科数据的军事知识图谱构建和问答方法的一种实施例的构建概念库的流程图；

图2为本发明所提供的基于百科数据的军事知识图谱构建和问答方法的一种实施例的构建同义词库的流程图；

图3为本发明所提供的基于百科数据的军事知识图谱构建和问答方法的一种实施例的构建ElasticSearch扩展实体搜索库的流程图；

图4为本发明所提供的基于百科数据的军事知识图谱构建和问答方法的一种实施例的构建知识图谱的流程图；

图5为本发明所提供的基于百科数据的军事知识图谱构建和问答方法的一种实施例的问答处理的流程图；

图6为本发明所提供的基于百科数据的军事知识图谱构建和问答方法的一种实施例的判断军事类实体的流程图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细说明。

基于百科数据的军事知识图谱构建和问答方法，包括如下步骤：

步骤1：爬取百科的类别数据，类别数据是百科类网站人工编辑维护，关于百科词条所属的类别的数据，百科词条可能属于多个类别，也可能没有添加类别。将上述的类别数据视作概念数据，将处理后的类别数据添加到图数据库中，同时建立概念之间的从属关系。所述的概念之间的从属关系包括下级概念与上级概念定义为SubClassOf的关系，下级概念与上级概念有多对一和多对多的关系。具体如图1所示。

其中的图数据库是NoSQL数据库的一种类型，它应用图形理论存储实体之间的关系信息。

步骤2：迭代批量读取、处理百科数据，所述的百科数据是百科词条的集合，提取出百科词条中的同一实体名称的多种表述，这些表述词称之为同义词，将这些同义词添加到图数据库中，同时建立实体词和它的同义词之间的关系。

其中，百科数据的名称通常会有多种表述方式，对于百科数据解析处理出的多种表述方式，称之为同义词。将同义词的关系定义为synonym。

步骤3：使用ElasticSearch创建扩展实体的搜索库，所述的ElasticSearch是一个基于Lucene的搜索服务器，作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。在ElasticSearch中，创建索引，配置中文分词引擎，将所有的百科数据导入ElasticSearch中，创建扩展实体的搜索库。

在ElasticSearch中创建的索引，包括以下三种方式：

其中，百科词条中的中文的默认分词方法采用ik_max_word方法。ik_max_word会将文本做最细粒度的拆分，比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国、中华人民、中华、华人、人民共和国、人民、共和国、大会堂、大会、会堂等词语。

步骤4：解析处理百科数据，提取实体信息，添加更新同义词数据，采用规则和文本分类的方法过滤军事实体，添加更新军事类实体信息到图数据库中，建立实体与概念之间的关系，处理军事实体信息关联的扩展实体信息，搜索获取扩展实体信息，判断类别，添加扩展信息到图数据库，建立实体与拓展实体之间的关系。

具体流程包括如下：

基于步骤(2)中百科数据判断是否是军事相关，所述过滤军事相关的百科词条采用的规则匹配和文本二分类方法步骤如下：

3)规则匹配，通过infobox判断，infobox是百科词条的“基本信息”部分，包含最重要的信息，通常是属性(key)和属性值(value)的形式(key：value)通过判断infobox中的属性(key)和属性值(value)是否包含军事信息判断；

4)文本分类，通过文本分类判断是否军事相关，这是个二分类，训练的数据来源于百科数据，一类是军事相关数据，一类是非军事数据，军事相关数据是应用步骤1)、步骤2)、步骤3)规则匹配后判断是军事的互动百科的百科词条数据，本实施例中的数据有18000条，非军事数据应用步骤1)、步骤2)、步骤3)规则匹配后判断不属于军事的互动百科的百科词条数据，并且排除掉没有标签的数据，从这些数据中，依据军事类的百科词条数量随机抽取18000条作为非军事类数据；

基于在步骤5中，问答的处理流程如下：

(1)获取用户输入,输入是实体查询或问答语句，统称为问句；

(2)查询图数据库中，用户输入语句的同义词表述信息；

(3)存在同义词表述，通过同义词表述关联到实际存在的实体名称。查询图数据库中，实际存在的实体信息直接返回；

(7)组合扩展关键词的表述方式；

可见，在本发明提供的方法中，通过处理提取百科数据中的实体信息，过滤出军事类实体和扩展实体，不需要人工介入和专家参与就可以构建通用的军事类知识图谱。通过对实体同义词的处理，加强了对查询问句中实体的识别，强化了问句的解析，能够应对用户输入的不确定性，获取更精确地答案。

实施例：

基于百科数据的军事知识图谱构建和问答方法，包括以下步骤：

步骤1：爬取、解析、处理百科的类别数据，这些类别数据可以视作概念数据，将处理后的类别数据添加到图数据库中，同时建立概念之间的从属关系。

步骤1中解析处理出的概念，下级概念与上级概念定义为SubClassOf的关系，下级概念与上级概念有多对一和多对多的关系。如概念“战争相关人物”即是“战争”的子概念，也是“人物”的子概念。

步骤2：迭代批量读取、处理百科数据，提取出百科词条中的同一实体名称的多种表述，这些表述词称之为同义词，将这些同义词添加到图数据库中，同时建立实体词和它的同义词之间的关系。

如图2所示，百科数据解析出的同义词：

步骤2中百科数据的名称通常会有多种表述方式，对于百科数据解析处理出的多种表述方式，称之为同义词。同义词定义的关系名称为synonym。

如“歼-20”的同义词有：“J-20，歼20，歼-20战斗机，J20战斗机，歼二十，歼20战机，歼20战斗机，丝带重歼，中国歼20，歼-20隐形战斗机，中国歼20隐形战机，歼二十战机，中国歼-20隐形战斗机，中国歼-20战斗机，新版歼20，中国J-20隐形飞机，j20，2015号歼-20，2017号歼-20，中国歼-20飞机，中国第5代战机歼-20等。

步骤3：在ElasticSearch中，创建索引，配置中文分词引擎，将所有的百科数据导入ElasticSearch中，创建扩展实体的搜索库。

如图3所示，步骤3中在ElasticSearch中创建了3种索引方式：

中文的默认分词方法采用ik_max_word方法。

如图4所示，构建知识图谱的流程如下：

(2)过滤军事相关的百科词条，采用规则匹配和文本二分类的方法。

基于步骤(2)中百科数据判断是否是军事相关：

如图6所示，步骤(2)中所述过滤军事类百科词条采用的规则匹配和文本二分类方法步骤如下：

1)规则匹配，通过百科词条标签判断，利用百科词条中标签信息，比较标签与步骤(1)中构建的百科类别数据，凡是等于军事类别及其下属的子类别，均可以认为百科词条是军事类实体；

2)规则匹配，通过标题判断，判断标题是否包含军事的相关信息。比如名称中包含“战争、战役、军事……”，这些规则可以断定百科词条是军事相关；

3)规则匹配，通过infobox信息框判断，通过判断infobox中的key、value是否包含军事信息判断。比如infobox中的信息有“军衔、服役年代、军区……”这类信息，可以断定百科词条是军事相关；

4)文本分类，通过文本分类判断是否军事相关，这是个二分类，训练的数据来源于百科数据，一类是军事相关数据，一类是非军事数据，军事相关数据来自于步骤1)、步骤2)、步骤3)规则匹配后判断是军事的数据，数据有18000条，非军事数据来自于步骤1)、步骤2)、步骤3)规则匹配后判断不属于军事数据，并且排除掉没有标签的数据，从这些数据中，随机抽取18000条作为非军事类数据；

(3)将过滤后的百科词条进一步处理，整理成三元组的形式，添加到图数据库中，图数据选用的是neo4j；

(5)获取处理百科数据中infobox信息，这些信息是实体的属性信息或关系信息，通过规则的方法，过滤出实体的关系信息，关系信息关联的实体，称之为扩展实体。Infobox中的信息包括两大类一是实体属性；二是实体关联的实体。实体属性主要是关联的值是原子值，原子值不是实体，比如“歼-20”这个实体的属性：“研发日期”是“1997年”。实体关联的实体是指关联的值同样是一个实体，例如“歼-20”的“总设计师”是“杨伟”，对于“杨伟”这样的实体就有必要获取他的详细信息；

(6)通过ElasticSearch库搜索或者互联网搜索的方法，获取扩展实体的详细信息，形成候选扩展实体集。对于百科数据丰富完整的情况，扩展实体可以直接通过搜索ElasticSearch来获取候选扩展实体集，互联网搜索是为了弥补ElasticSearch中数据不完整或者冷启动的问题，当ElasticSearch搜索不到候选扩展实体集时，可以通过互联网搜索下载到候选扩展实体集；

(7)通过计算比较实体与候选扩展实体集中的每个候选实体的相关度，获取可能性最高且大于指定阈值的候选扩展实体。计算候选扩展实体与实体的相关度，采用的是权重计算的方法，权重项包括候选扩展实体的名称相似度、关系词是否在其信息中、实体名称是否在其信息中、次序等，权重的调整会根据字符的长度、其他权重项值大小自由调整；

如图5所示，问答的处理流程如下：

(1)获取用户输入,输入是实体查询或问答语句，统称为问句。问句有两种情况：一种是直接查询实体信息，比如只是查询“歼-20”的信息，另一种是问句，比如问句是“歼-20是谁设计的？”，这种问句返回的应该是“杨伟”的实体信息；

(2)查询图数据库中，用户输入语句的同义词表述信息。这个步骤是为了处理输入的是查询实体的情况，比如查询“歼-20”；

(3)存在同义词表述，通过同义词表述关联到实际存在的实体名称。查询图数据库中，实际存在的实体信息直接返回。这种情况是为了处理用户输入实体名称不统一的情况，比如用户输入的问句是：“中国歼20”，通过同义词查询可以将“中国歼20”指向它们的统一名称“歼-20”；

(4)不存在同义词表述，使用实体识别的方法识别出用户输入问句的实体名称，这些实体名称称之为实体提及。基于答案排序的方法首要的是识别出问句中的实体，如用户输入“中国歼20的总设计师是谁？”，就要先识别出“中国歼20”这个实体，通过这个实体才能查询它的统一实体名称“歼-20”；

(5)通过大写、小写、首字母大写的方式，组合扩展识别出的实体提及的表述方式。有些实体名称会是英文名称，或者是英文的简写，用户输入比较随意比如“J20”和“j20”；

(6)对用户输入问句分词、排除掉实体提及词和停用词，保留的词可以认为是属性或关系相关的词，称之为关键词。如用户输入“中国歼20的总设计师是谁？”，排除掉“中国歼-20”和停用词后剩余的词就是“总设计师”，这就是关系查询的关键词；

(7)组合扩展关键词的表述方式。由于分词的原因，关键词可能会被拆分成多个词，通过组合将这多个词重新组合成一个完整的词；

(8)通过图数据库，查询实体提及组合词的节点和一跳相关的实体节点。在现实应用中，用户通常关心的是查询实体的信息、属性值，或者一跳内的关联实体的信息；

(9)直接比较实体提及节点和属性或关系词是否有完全匹配的词，如果有匹配成功直接返回。有些时候用户输入的问句关键词恰好和知识图谱中实体的关系词或属性词完全匹配，可以直接通过匹配的方式查询答案。比如用户输入问句：“中国歼20的总设计师是谁？”，关键词“总设计师”可以直接匹配出“杨伟”的信息；

(10)通过计算用户输入问题与实体属性和关系词的相关度，获取最高的相关度的属性关联的属性值或关系关联的扩展实体，超过设定的阈值则返回。用户输入的问句可以分解的关键词通常是不确定的，直接匹配关键词可能会失效，比如用户输入问句：“中国歼20是谁设计的？”，这种情况下，就需要计算问句与候选答案的相关度。

Claims

1.基于百科数据的军事知识图谱构建和问答方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于百科数据的军事知识图谱构建和问答方法，其特征在于：所述的步骤1中所述的概念之间的从属关系包括下级概念与上级概念定义为SubClassOf，下级概念与上级概念有多对一和多对多的关系；所述的图数据库是NoSQL数据库的一种类型，它应用图形理论存储实体之间的关系信息。

3.如权利要求1所述的基于百科数据的军事知识图谱构建和问答方法，其特征在于：所述的步骤2中百科数据的名称具有多种表述方式，对于百科数据解析处理出的多种表述方式，称之为同义词，将同义词的关系定义为synonym。

4.如权利要求1所述的基于百科数据的军事知识图谱构建和问答方法，其特征在于：所述的步骤3中在ElasticSearch中创建的索引，包括以下三种方式：

5.如权利要求4所述的基于百科数据的军事知识图谱构建和问答方法，其特征在于：所述的百科词条中的中文的默认分词方法采用ik_max_word方法，ik_max_word将文本做最细粒度的拆分。

6.如权利要求1所述的基于百科数据的军事知识图谱构建和问答方法，其特征在于：所述的步骤4中具体流程包括如下：

7.如权利要求6所述的基于百科数据的军事知识图谱构建和问答方法，其特征在于：所述的基于步骤(2)中百科数据判断是否是军事相关，所述过滤军事相关的百科词条采用的规则匹配和文本二分类方法步骤如下：

8.如权利要求1所述的基于百科数据的军事知识图谱构建和问答方法，其特征在于：所述的步骤5中，问答的处理流程如下：

(2)查询图数据库中，用户输入语句的同义词表述信息；

(7)组合扩展关键词的表述方式；