CN111309867A

CN111309867A - 一种知识库动态更新方法

Info

Publication number: CN111309867A
Application number: CN202010099740.0A
Authority: CN
Inventors: 张日崇; 袁红亮
Original assignee: Beihang University
Current assignee: Beijing Ruihang Zhizhen Technology Co ltd
Priority date: 2020-02-18
Filing date: 2020-02-18
Publication date: 2020-06-19
Anticipated expiration: 2040-02-18
Also published as: CN111309867B

Abstract

本发明公开了一种知识库动态更新方法，包括：数据获取、数据解析、实体对齐、数据融合，数据融合包括，将实体的相同属性以及含义相近属性进行合并，合并方法为：实体属性规范化以及实体属性融合，实体属性融合包括，单值型属性值对原有属性值进行覆盖；枚举型属性值包括新增、删除以及更新，进行删除操作时，记录实体每个数据源的枚举属性值，对比更新前后的枚举属性值集合，建立删除的属性值集合，将每个数据源删除的属性值分别添加到各自的删除的属性值集合中，集合全部数据源的更新结果，排除所述更新结果在所述删除的属性值集合中的值，得到属性最终值；本发明增加知识库的时效性与完整性，开放知识库数据的源头，为知识库打造自主学习能力。

Description

一种知识库动态更新方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种知识库动态更新方法。

背景技术

自然语言处理是时下比较热门的领域，而知识图谱作为自然语言处理的一项重要支撑技术，其知识库质量的好坏也将间接影响自然语言处理能力的高低。知识库好坏的一个重要指标在于图谱数据的更新，在现如今网络飞速发展的时代，每天各大媒体网站都会有不计其数的新闻推送，网站上的信息也在不断更新，而知识图谱的知识库依然停留在人为处理，节奏较慢的阶段。无法紧跟网络信息的增速，知识图谱的信息的时效性与完整度就无法得到合理的保障，其质量必然在不断的衰减。

现有知识图谱的构建流程一般为：原始数据获取、数据解析与清洗、实体对齐、知识融合、数据存储。以百科网站数据源为例，网站数据的获取一般使用现在流行的爬虫技术，通过爬虫技术能够很便利的获取网页信息，之后我们需要采取相应策略解析网页，以获取我们所需要的信息。由于每个网页为了页面渲染或者其他需求，可能会存在特殊字符，或者不同页面区域标点符号使用并不一致的情况，为了确保知识库信息格式的一致性与标准性，我们需要对这些初步解析的数据进行清洗。为了使知识库容纳尽量多的信息，我们需要从不同的来源，获取尽可能多的数据。这一举措可能造成的结果就是，不同数据源中对现实生活中同一事物的称谓可能存在不一致的情况。例如：人有别名、机构有简称、城市有别称，无论使用全称还是其他称谓，可能描述的都是同一个对象，如果不能有效的识别这些不同称谓所指向的同一对象，那么知识库的信息将会存在较大程度的冗余情况。另外，即便我们从不同数据源确认了描述同一对象的信息，信息的结构差异，或者不同来源信息正确性的差异，也会给知识融合造成极大的困扰。例如：北京航空航天大学在百度百科上有个属性“简称”，其值是“北航、BUAA”，而在互动百科上有个属性“别称”，其值也是“北航、BUAA”，两个描述的都是北航的别名属性，但是因为结构的差异，导致该属性无法有效的整合。之前，北航在百度百科上的外文名为“Beijing University of Aeronautics andAstronautics”，而在互动百科上的外文名为“Beihang University”，同样的属性但是不同的值，如何确定其正确性，也是多源数据融合的一大挑战。

信息是具有时效性的，北航的前任校长是怀进鹏，现在的校长是徐惠斌，如果知识图谱知识库没有及时更新，那么我们基于知识库做出的问答系统将会提供给我们错误的答案。我们以人作为例子分析一下时效的重要性。人存在众多成长的属性与变化的关系，人的年龄随着时间而增长、身高体重会变化、学历逐渐变高、社交逐渐变广且不断变化等等。我们无法使用静态的知识库去形容一个不断变化、不断成长的人。“自闭”的知识库，不是现实生活的需要，开放数据源，打通知识库构建的全流程是解决这一现象的着力点，一套完整的知识库动态更新流程亟待提出。

发明内容

为解决上述技术问题，本发明的目的在于提供了一种知识库动态更新方法，通过增加知识库的时效性与完整性，开放知识库数据的源头，打通从数据获取、解析清洗、实体对齐、数据融合、更新知识库的全部流程，为知识库提供自主学习能力。

为实现上述目的，本发明的技术方案如下：

一种知识库动态更新方法，包括：

步骤一、数据获取；

步骤二、数据解析；

步骤三、实体对齐，包括，相同实体描述信息的对齐，不同实体描述信息的区分；

步骤四、数据融合，包括，将所述实体的相同属性以及含义相近属性进行合并，包括：

实体属性规范化，对现有同义属性进行聚类，确定每个类簇的属性的规范属性名，创建规范化映射表；设定相似度阈值，对于新属性，若该属性与原有属性类簇的相似度超过阈值，将所述新属性添加到所述原有属性类簇，同时更新所述规范化映射表，对于没达到所述相似度阈值的新属性，保留属性名；

实体属性融合，单值型属性值对原有属性值进行覆盖；枚举型属性值包括新增、删除以及更新，进行枚举属性删除操作时，记录实体每个数据源的枚举属性值，对比更新前后的枚举属性值集合，建立删除的属性值集合，将每个数据源删除的属性值分别添加到各自的删除的属性值集合中，集合全部数据源的更新结果，排除所述更新结果在所述删除的属性值集合中的值，得到属性最终值。

进一步，所述步骤一中，数据获取包括选择数据源，根据所选择的数据源使用爬虫进行爬取，针对数据源的特点选择爬取策略。

进一步，所述步骤二中，数据解析包括对百科词条以及新闻信息进行解析，根据选择的所述数据源将其中的信息转化为结构化信息。

进一步，所述步骤三中，对于相同实体的描述信息，通过对比文本相似度来进行确定实体对象；在对不同实体描述信息进行区分时，对同名词条添加子名称。

进一步，所述的文本相似度，通过计算文本向量的夹角余弦得到。基于维基百科的语料库训练得到词向量，找到文本所包含词的词向量，加以拼接，得到文本向量，计算两个文本向量的夹角余弦得到相似度值。

本发明一种知识库动态更新方法，针对现有技术中手动构建知识库的方式节奏相对缓慢，各个步骤之间没有很好的衔接，并且知识库构建完成之后，基本没有对知识库的后续操作，知识库的信息保持相对静止的状态，即便有所变动也是小范围的人为纠正，知识库的信息没有时效性的保证。本发明提出对知识库中的不同数据源的实体进行实体对齐，在数据融合中对实体属性进行规范，对规范化的实体进行属性融合，避免在实体描述中出现冗余的情况，降低知识库冗余度、提高了知识库质量，同时避免了实体属性的泛滥。

附图说明

图1为本发明知识库数据动态更新流程图；

图2为本发明实施例百科词条页面更新记录图；

图3为本发明实施例词条infobox信息图；

图4为本发明实施例同名词条列表图；

图5为本发明实施例名称与子名称图；

图6为本发明实施例多源属性融合示意图。

具体实施方式

为了能够更加详尽地了解本发明实施例的特点与技术内容，下面结合附图对本发明实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本发明实施例。

为清楚地说明本实用新型的设计思想，下面结合实施例对本实用新型进行说明。

如图1所示，一种知识库动态更新方法，包括：

步骤一、数据获取；

步骤二、数据解析；

步骤四、数据融合，包括，将所述实体的相同属性以及含义相近属性进行合并，其中，合并方法为：

实体属性融合，单值型属性值对原有属性值进行覆盖；枚举型属性值包括新增、删除以及更新，进行删除操作时，记录实体每个数据源的枚举属性值，对比更新前后的枚举属性值集合，建立删除的属性值集合，将每个数据源删除的属性值分别添加到各自的删除的属性值集合中，集合全部数据源的更新结果，排除所述更新结果在所述删除的属性值集合中的值，得到属性最终值。

上述示例中，在获取原始数据时，作为知识库数据更新的源头，数据获取在整个更新流程中扮演着极为重要的角色。为了让知识库能够自动更新，爬虫技术必不可少。为了保证知识库信息的完整性与时效性，必须选择合适的数据源。互联网中的百科页面存在的词条覆盖面很广泛，但是由于其页面一般由人为编辑，而且为了保证正确性会有一段审核时间，更新周期相对较长。新闻网站最看重新闻的时效性，但是不同新闻网站关注的热点并不相同，无法面面俱到，而且新闻的真实性有待考证。

本实施例中使用爬虫技术获取数据，在进行爬取的过程中，需要选择合适的数据源。百科数据源，数据内容丰富广泛，数据获取难度低，无疑是首选的数据源，但是由于受到百科自身更新方式的限制，仅仅选择百科数据源还无法达到理想的知识库动态更新的效果；新闻页面更新及时，能够作为补充数据源，对百科页面的数据进行适当的补充，因此本实施例中采用百科数据源与新闻页面共同作为爬取的数据源。

其次，采取相应的爬取策略。爬虫能够定时取爬取网站的信息，但是已经爬取的信息不需要反复爬取。爬取策略的制定主要是为了解决增量更新的问题。要解决这个问题，需要从源网站的更新方式着手，根据源网站的更新方式采取相应的对策。

百科页面的每个词条都有各自的页面，每次词条更新都是对页面编辑，更改页面内容，词条的网址不会发生变化。新闻页面的更新主要是发布新的新闻信息，因此更新主要表现在产生了新的新闻页面，当然新闻列表页面添加新的新闻页面链接。我们可以根据这些信息来制定相应方案。

百科词条的编辑都会有相应的编辑记录，只需要获取词条编辑的最新记录与之前获取的时间进行对比，就可以判断该词条是否需要再次处理。如图2所示，展示的是百度百科词条页面与互动百科词条页面显示的词条最近更新时间，根据此信息能够十分方便的判断某个词条是否更新过，并据此采取不同的策略，方便过滤已经爬取过的页面，提高更新效率。

新闻页面与百科页面差别较大，没有类似便捷的方式，但是新闻页面会提供新闻列表板块，使用爬虫爬取信息时可以主要检测这个板块，及时获取最新发布的新闻链接。

选择数据源后，需要进行数据解析。百科词条页面有相对固定的排版方式，相较大段文本描述的信息，能够更为方便解析出所需的信息。如图3所示，图 3所展示的词条的infobox里面的信息，简洁明晰，而且包含该词条的大多数主要信息，Infobox中的信息格式与结构化数据基本一致，容易将其转化为所需的结构化信息。对于新闻信息而言，新闻通常为大段文本描述，需要将纯文本信息转化为结构化的信息，利用自然语言处理中的实体识别、关系抽取技术可以将纯文本转化为所需要的结构化信息。

在进行实体对齐步骤时，实体对齐包括两个任务，一、相同实体描述信息的对齐；二、不同实体描述信息的区分。现实生活中每个人都拥有姓名属性，我们习惯于通过姓名去识别一个人，但是一个人同样拥有别名、小名、昵称等代称。一般在正规场合对一个人的描述都是通过名称来指代这个人，但是也不乏在日常生活中我们讨论一个人时使用别称来指代这个人。人能够通过上下文识别两种描述对象指向同一实体，计算机需要根据对比文本相似度来通过文本描述确定其指向的实体对象。如图4、图5所示，以“黄鹤楼”为例，百科词条中存在众多同名词条，百科网站对同名词条做了相应的处理，通常为添加子名称，通过名称+子名称的方式可以避免误识别同名实体的情况。

对知识库的实体层面进行实体对齐后，对知识库的实体的属性需要进行处理。如图3所示，以“北京航空航天大学”为例，在百度百科上存在某属性“简称”，其值是“北航、BUAA”，而在互动百科上存在某属性“别称”，其值也是“北航、BUAA”，两者描述的都是北航的别名属性，若两数据源融合之后，两个属性都存在于同一实体描述中，明显冗余，所以应当将两个属性合并。而数据融合出问题容易导致实体属性的泛滥，对知识库而言，存在冗余的情况。

在进行数据融合处理时，将相同属性与含义相近属性合并是必须的处理，在本实施例中需要两步，一、对实体属性进行规范化；二、对规范化的实体进行属性融合。

实体属性规范化，属性规范的常用方法是对已经出现同义属性进行聚类，规定好每个类簇的属性的规范属性名，并依据此创建规范化映射表，之后实体的每个属性就能够通过规范化映射表进行规范化映射。此方法的缺陷是对于新出现的属性找不到规范化映射关系，因此需要设定相似度阈值，对于新出现的属性，如果该属性与原有属性类簇的相似度超过阈值，可以将新属性添加到原有属性类簇，同时更新规范化映射表，对于没达到阈值的属性，保留属性名。

实体属性融合，在属性名规范之后，可以直接使用字符串匹配完成属性对齐，接下来就可以开始属性值融合。属性一般存在单值与枚举值两种情况。在数据更新流程中，单值类型的属性值在确保新的值的可信度的情况下可以对原有属性值进行覆盖，但是枚举值的情况往往更为复杂。枚举值的属性可能发生新增、更新以及删除操作。对于单纯的新增操作，使用集合的并操作即可完成。但是属性的删除以及判断多数据源情况下枚举属性的某个值是否应该删除往往没那么容易，多数据源的情况下，可能存在由于信息收集不够充分，导致某个数据源的枚举属性不存在某个值时，直接判定该实体的该属性没有这个值，需要删除的情况发生。不同的数据源数据更新频率的差异也会导致某个来源枚举属性值已经删除，但是另外一个来源的却依旧保留的情况存在。如图4所示，在本实施例中，进行枚举属性删除操作时，首先，需要为实体的每个数据源记录其枚举属性值，通过更新前后的枚举属性值集合的对比，就能够快速判断哪些属性值已被删除。假定，某枚举属性的值，其百度百科来源的值更新前记为 a_baidu_before，更新后记为a_baidu_after，则使用a_baidu_before-a_baidu_after可表示已被删除的属性值集合，可记为a_baidu_delete。

其次，需要为实体每个枚举属性建立删除的属性值集合。将每个数据源删除的属性值分别添加到各自的属性删除集合中。即将a_baidu_before-a_baidu_after添加到a_history中。

最后，集合全部数据源的更新结果，并排除在删除集合中的值，即为属性最终值，操作可表示为a_baidu_after∪a_hudong_after∪a_wiki_after-a_history。

上述示例中，本发明一种知识库动态更新方法，针对现有技术中手动构建知识库的方式节奏相对缓慢，各个步骤之间没有很好的衔接，并且知识库构建完成之后，基本没有对知识库的后续操作，知识库的信息保持相对静止的状态，即便有所变动也是小范围的人为纠正，知识库的信息没有时效性的保证。本发明提出对知识库中的不同数据源的实体进行实体对齐，在数据融合中对实体属性进行规范，对规范化的实体进行属性融合，避免在实体描述中出现冗余的情况，降低知识库冗余度、提高了知识库质量，同时避免了实体属性的泛滥。

同时，本发明立足于已有知识库的基础之上，为现存的知识库开源，本发明提出实体对齐、数据融合的方法推动构建知识库，增加知识库的时效性与完整性，开放知识库数据的源头，打通从数据获取、解析清洗、实体对齐、数据融合、更新知识库的全部流程，为知识库打造自主学习能力。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种知识库动态更新方法，其特征在于，所述方法包括：

步骤一、数据获取；

步骤二、数据解析；

2.根据权利要求1所述的知识库动态更新方法，其特征在于，所述步骤一中，数据获取包括选择数据源，根据所选择的数据源使用爬虫进行爬取，针对数据源的特点选择爬取策略。

3.根据权利要求2所述的知识库动态更新方法，其特征在于，所述步骤二中，数据解析包括对百科词条以及新闻信息进行解析，根据选择的所述数据源将其中的信息转化为结构化信息。

4.根据权利要求1所述的知识库动态更新方法，其特征在于，所述步骤三中，对于相同实体的描述信息，通过对比文本相似度来进行确定实体对象；在对不同实体描述信息进行区分时，对同名词条添加子名称。