CN109657068B

CN109657068B - 面向智慧博物馆的文物知识图谱生成与可视化方法

Info

Publication number: CN109657068B
Application number: CN201811458454.8A
Authority: CN
Inventors: 张永飞; 李一睿; 李露
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2021-01-05
Anticipated expiration: 2038-11-30
Also published as: CN109657068A

Abstract

本发明公开一种面向智慧博物馆的文物知识图谱生成与可视化方法，包括：步骤1：针对文物导览的应用需求，设计文物知识图谱本体模型；步骤2：获取文物数据；步骤3：利用知识抽取工具抽取实体、属性、关系等信息。步骤4：将步骤3中的数据用知识图谱描述语言进行表示；步骤5：完成文物知识存储；步骤6：生成可视化的知识图谱以及交互界面。基于此方法，将现有的博物馆文物数据整理并生成动态且相互关联的文物知识图谱，并实现文物知识图谱的可视化展现与交互式浏览，能够更好的展示文物信息，帮助人们更充分的了解文物的相关知识。

Description

面向智慧博物馆的文物知识图谱生成与可视化方法

技术领域

本发明涉及知识图谱技术领域，更具体的说是涉及一种面向智慧博物馆的文物知识图谱生成与可视化方法。

背景技术

在知识图谱出现之前，往往会通过数据库的技术来满足人们查询文物的需求。虽然在顶层已经通过足够完善的封装，使得使用者不必了解数据库的查询语句便可以实现查询某一文物的目的。但是，这种方式也只是支持查询文物的名字，无法按照文物的某一个属性来查询，而且使用者并没有途径了解该文物与其他文物之间的关联关系。

随着人工智能的发展，越来越多开始关注到如何让计算机更好的组织、管理和理解互联网海量信息的能力，将这些信息转化成可以计算的知识，这也就推动了知识图谱相关领域的研究。知识图谱以图的方式来展现实体、事件及其之间的关系，知识图谱的存储和查询需要满足高效的存储模式和支持对大规模图数据的有效管理，实现对知识图谱中知识的高效查询。因为这种图的结构的复杂性，给存储和查询带来了挑战。

博物馆文物的数据量庞大，而且文物之间的相关性差异较大，如果能够获得文物和其他文物之间的关联关系，对于文物的爱好者能够更加直观地了解文物之间的关联关系具有很大的帮助；而对于非文物的爱好者，也可以通过条理清晰的文物关联关系，快速地获取文物知识，从而激发其对文物的兴趣。

因此，如何更好的展示文物信息，帮助使用者了解文物之间的关联关系是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种面向智慧博物馆的文物知识图谱生成与可视化方法，根据文物信息的展示需求构建本体模型，并基于此生成知识图谱，提供可视化功能，能够更好的展示文物信息，帮助人们更充分的了解文物的相关知识。

为了实现上述目的，本发明采用如下技术方案：

一种面向智慧博物馆的文物知识图谱生成与可视化方法，包括以下步骤：

步骤(1)：针对文物导览的应用需求，设计文物知识图谱本体模型；

步骤(2)：获取文物数据；

步骤(3)：基于步骤(1)设计的文物知识图谱本体模型和步骤(2)获取的文物数据，利用知识抽取工具抽取信息，所述信息包括：实体、关系和属性；

步骤(4)：将步骤(3)中的信息用知识图谱描述语言进行知识表示，得到知识图谱描述语言文件；

步骤(5)：文物知识存储；

步骤(6)：基于步骤(4)的知识图谱描述语言文件生成可视化的知识图谱并生成可视化用户交互界面。

优选的，在步骤(1)具体包括：

步骤(11)：针对文物导览的应用需求，通过分析使用者可能关心的文物信息或可能用来查询文物的信息，设计实体及其关系，确定知识图谱本体模型；其中，关系是指实体与实体之间的关联关系。

步骤(12)：根据步骤(11)确定的本体模型，按照任务需求，添加实体及其属性。

优选的，步骤(2)中获取文物数据的途径包括但不限于：直接从博物馆获取以及通过爬虫脚本从博物馆网站或者其他公开文物信息网站上获取等方法。

优选的，步骤(3)具体包括：

步骤(31)：利用分词工具或者正则表达式或者将二者结合起来进行文物知识抽取，将非结构化和半结构化的文物数据转为结构化数据；

步骤(32)：对步骤(31)处理后的结构化数据进行共指消解。

优选的，步骤(4)具体包括：编写生成知识图谱描述语言文件的脚本，利用该脚本文件对步骤(3)中的信息进行描述。

在这里需要说明的是，对于较小规模的知识图谱，可以先将数据存储到关系数据库中完成知识存储，再将关系数据库映射成虚拟RDF完成知识表示，由于已经进行了存储，此时可以跳过后面的步骤(5)。对于较大规模的知识图谱，则先利用知识图谱描述语言进行描述，例如：RDF语言，再将描述后的文物数据存储到关系数据库或者图数据库中，或者采用关系数据库与图数据库进行混合存储。

即在执行步骤(4)和步骤(5)时，需要根据知识图谱规模的大小来决定描述和存储步骤的先后顺序，以实现高效的存储。但实际上，对于大规模的知识图谱和小规模的知识图谱两种执行方式都是可行的。

优选的，知识图谱描述语言包括但不限于RDF、RDFs或OWL。

优选的，步骤(5)具体包括：

将抽取的文物数据存储到关系数据库或者图数据库中，或者采用关系数据库与图数据库进行混合存储。

优选的，步骤(6)所述可视化及交互界面至少包括但不限于：欢迎语和版本号、输入窗口、输出窗口、样例提示窗口和展示窗口；

其中，输入窗口接收查询语句，触发或者退出查询；

输出窗口展示查询返回的结果，即所查询文物的基本信息；

样例提示窗口为使用者提供查询指令的样例和相关提示；

展示窗口展示查询文物的知识图谱，具备人机交互功能。

经由上述的技术方案可知，与现有技术相比，本发明公开提供的一种面向智慧博物馆的文物知识图谱生成与可视化方法具有如下优点：

1、本发明将知识图谱技术应用到了博物馆文物这一领域。针对智慧博物馆文物导览应用需求，设计文物知识图谱本体模型，通过典型文物的数据获取、知识抽取与融合等，利用知识图谱描述语言进行知识表示和数据库进行知识存储，从而生成一个文物知识图谱。

2、本发明通过可视化的界面与使用者进行交互，使用者输入查询语句，点击查询按钮即可运行，并可以看到文物知识图谱的关联关系图。

综上所述，本发明提供的面向智慧博物馆的文物知识图谱生成与可视化方法能够更好的展示文物信息，帮助人们更充分的了解文物的相关知识，提高人们对文物和历史的兴趣，弘扬我们的民族文化。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的面向智慧博物馆的文物知识图谱生成与可视化方法的流程图；

图2为生成的知识图谱的关联关系图；

图3为可视化界面的布局设计图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见附图1，本发明实施例公开了一种面向智慧博物馆的文物知识图谱生成与可视化方法，具体包括如下步骤：

步骤(2)：获取文物数据；

步骤(5)：文物知识存储；这里是指对抽取到的文物信息进行存储。

具体方法流程为：先针对文物导览的需求设计本体模型，然后根据本体模型决定需要获取的文物数据，具体的，在本实例中可以利用爬虫脚本从博物馆网站上获取文物数据，利用知识抽取工具将非结构化和半结构化的数据转化成结构化的数据，知识表示和知识存储，本实例采用先将数据存储到关系数据库中，并通过映射工具构造一个虚拟的RDF完成知识表示，最后完成一个可视化的界面供用户交互使用。

其中，需要进行说明的是，该方法主要包括三个部分，文物数据的准备和获取、文物知识图谱生成以及可视化界面的构建，其中文物数据的准备和获取主要涉及到了步骤(1)和步骤(2)，知识图谱的生成主要涉及到步骤(3)、步骤(4)和步骤(5)，可视化界面构建涉及到步骤(6)。其中，涉及文物数据存储的步骤(5)如果在步骤(4)中知识表示的过程中已经完成了知识存储，则可以不再执行。

下面对各个步骤做进一步阐述。

首先，要确定文物知识图谱本体模型。针对预期的应用模式，文物名称是必须要有的一类实体，然后文物所处的朝代也是查询文物时经常需要了解的信息。一个文物一定属于某一朝代，而一个朝代也可能会包含多个文物，所以朝代也应当归为一类实体。同样，一个文物如果是通过考古发掘的途径获得的，应该也会有出土地信息；而同一个省或者市，可能也会出土多件文物，所以出土地也应该归为一类实体。最后，文物在制作之初，应该也是具有一定的用途的，同一个用途也可能对应多件文物，所以用途也应该归为一类实体，综上所述可以归纳出四种基本实体：文物、朝代、出土地和用途。

对于文物实体来说，除了已经归为实体的朝代、出土地和用途以外，其还应当具有文物编号、文物名和文物尺寸这几个属性。而对于朝代来讲，也应当具有朝代名，详细朝代属性。同样，出土地实体也应具有出土省份、详细地址和出土时间等这一系列属性，用途也应具有用途名这一属性。

然后根据所要爬取的文物的网站，针对之前建立的本体模型和该网站的结构编写爬虫脚本。然后对爬虫获取的数据先做一遍清洗，筛掉不符合当前需求的数据，比如以中国国家博物馆为例，直接按照网页编号递增地去遍历文物会爬到的外文的文物介绍，这些是需要清洗掉的脏数据。这里主要通过不同语言的编码值所处的范围不同，将非中文内容的文物信息从爬取的结果中删除。

信息抽取主要分为使用正则表达式进行抽取和通过分词工具进行抽取。因为文物的信息中有很多既定的描述规则，比如文物的叙述文本中经常会出现出土于……、于……出土或者收藏于……这样的语句，所以这些信息可以通过正则表达式设置规则进行抽取。而对于一些比较模糊的叙述，或者没有抽取成功的文物，则采用分词工具对目标文本进行分词以及词性标注。比如：出土地的信息往往就是分词结果中标注为地点名词的词。在这里使用的分词工具是THULAC词法分析工具，对输入的数据的词性完成标注。例如：抽取出土地中的出土省份属性的属性值，就只关注词性标注出来的地点信息即可。可能会有一部分数据中缺少省份信息，此时再按照其他的详细地址搜索到详细的省份信息将其补全即可。

本发明中使用的是先将数据存储到关系数据库中，再通过映射工具生成虚拟RDF完成知识表示。使用的映射工具是D2RQ。为了方便在后续通过D2RQ快速的建立映射表，在存储到数据库的时候，给每个实体独立建立一个表，各个表项为其下属的属性值。为了确定实体之间的关系，还要添加外键进行约束。D2RQ会根据各个表以及外键约束生成虚拟RDF。在D2RQ生成的mapping文件中，将其默认实体、关系等重新命名为方便后续查询的名字，最后就得到了我们想要的RDF来进行知识表示。

对于可视化的交互界面，首先需要提供支持交互的组件。这里是基于Python提供的可视化工具进行构建的。利用Python的Tkinter中的Entry控件来接收输入的查询语句，利用Tkinter中的Button控件来实现点击便可运行Entry中的查询语句，最后利用Tkinter中的Text控件来返回输出的查询结果。之后在这些的基础上，再添加一些其他的辅助控件，比如通过一些Message控件，告诉使用者何处应当输入查询语句，何处是结果返回的位置，以及欢迎语、当前版本号、查询实例等等。关联关系图通过Pyecharts将当前的三元组整理以后导入其中便可以生成文物知识图谱的关联关系图，如图2所示，展示在可视化界面的最右侧，可视化界面的结构如图3所示。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种面向智慧博物馆的文物知识图谱生成与可视化方法，其特征在于，包括以下步骤：

步骤（1）：针对文物导览的应用需求，设计文物知识图谱本体模型；

步骤（2）：获取文物数据；

步骤（3）：基于步骤（1）设计的文物知识图谱本体模型和步骤（2）获取的文物数据，利用知识抽取工具抽取信息，所述信息包括：实体、关系和属性；步骤（3）具体包括：

步骤（31）：利用分词工具或者正则表达式或者将二者结合起来进行文物知识抽取，将非结构化和半结构化的文物数据转为结构化数据；

步骤（32）：对步骤（31）处理后的结构化数据进行共指消解；

步骤（4）：将步骤（3）中的信息用知识图谱描述语言进行知识表示，得到知识图谱描述语言文件；

步骤（5）：文物知识存储；

步骤（6）：基于步骤（4）的知识图谱描述语言文件生成可视化的知识图谱，并生成可视化用户交互界面。

2.根据权利要求1所述的一种面向智慧博物馆的文物知识图谱生成与可视化方法，其特征在于，在步骤（1）具体包括：

步骤（11）：针对文物导览的应用需求，通过分析使用者可能关心的文物信息或可能用来查询文物的信息，设计实体及其关系，确定知识图谱本体模型；

步骤（12）：根据步骤（11）确定的本体模型，按照任务需求，添加实体及其属性。

3.根据权利要求2所述的一种面向智慧博物馆的文物知识图谱生成与可视化方法，其特征在于，步骤（2）中获取文物数据的途径包括但不限于：直接从博物馆获取以及通过爬虫脚本从博物馆网站或者其他公开文物信息网站上获取方法。

4.根据权利要求1所述的一种面向智慧博物馆的文物知识图谱生成与可视化方法，其特征在于，步骤（4）具体包括：编写生成知识图谱描述语言文件的脚本，利用该脚本文件对步骤（3）中的信息进行描述。

5.根据权利要求4所述的一种面向智慧博物馆的文物知识图谱生成与可视化方法，其特征在于，知识图谱描述语言包括但不限于RDF、RDFs或OWL。

6.根据权利要求1所述的一种面向智慧博物馆的文物知识图谱生成与可视化方法，其特征在于，步骤（5）具体包括：

7.根据权利要求1所述的一种面向智慧博物馆的文物知识图谱生成与可视化方法，其特征在于，步骤（6）所述可视化及交互界面至少包括但不限于：欢迎语和版本号、输入窗口、输出窗口、样例提示窗口和展示窗口；

其中，输入窗口接收查询语句，触发或者退出查询；

输出窗口展示查询返回的结果，即所查询文物的基本信息；

样例提示窗口为使用者提供查询指令的样例和相关提示；

展示窗口展示查询文物的知识图谱，具备人机交互功能。