CN115934969A - 一种不可移动文物风险评估知识图谱构建方法 - Google Patents
一种不可移动文物风险评估知识图谱构建方法 Download PDFInfo
- Publication number
- CN115934969A CN115934969A CN202310022929.3A CN202310022929A CN115934969A CN 115934969 A CN115934969 A CN 115934969A CN 202310022929 A CN202310022929 A CN 202310022929A CN 115934969 A CN115934969 A CN 115934969A
- Authority
- CN
- China
- Prior art keywords
- data
- ontology
- risk assessment
- cultural relic
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Abstract
本发明公开了一种不可移动文物风险评估知识图谱构建方法,包括本体模型设计、多源异构数据处理、不可移动文物风险评估领域RDF数据到图数据库的映射方法和基于Neo4J图数据库的领域知识图谱构建方法;采用图数据库的方式存储不可移动文物本体及风险评估信息,根据不可移动文物风险评估模型对领域本体建模方法——七步法进行改进,按照改进后的方法建立本体模型。本体模型构建完成后,根据本体模型和领域数据使用图数据库Neo4J构建不可移动文物风险评估领域知识图谱。
Description
技术领域
本发明涉及领域知识图谱构建方法研究领域,尤其涉及不可移动文物风险评估领域的知识图谱构建方法。
背景技术
不可移动文物风险评估涉及的多源异构数据具有种类多、分布范围广、数据量大、具有时间、空间等多维度的特性,这些特性导致数据管理的复杂度提高。因此需要一种集成方法来将分散的数据组织起来,对不可移动文物的各方面的风险因素进行描述。当进行风险分析时,能够为不可移动文物风险评估提供高效准确的数据支撑。随着知识图谱提出,很多数据集成平台都开始应用知识图谱来将原本没有联系的数据连通,将离散的数据整合在一起,从而提供更有价值的决策支持。因此基于上述原因,本发明提出一种不可移动文物风险评估知识图谱构建方法为不可移动文物风险评估
知识图谱(Knowledge Graph)的概念由谷歌在2012年正式提出,目的是实现更智能的搜索引擎。知识图谱本质上是一种叫做语义网络(Semantic Network)的知识库,即具有有向图结构的一个知识库,其中图的节点代表实体或概念,边代表实体/概念之间的各种语义关系。知识图谱分为通用知识图谱和领域知识图谱。通用知识图谱面向通用领域,主要包含大量的现实世界中的常识性知识,覆盖面广。领域知识图谱是面向某一领域的,由该领域的专业数据构成的行业知识库,对领域知识深度和知识准确性有着很高的要求。领域知识图谱具有很多不同的数据模式以适应不同的业务场景和使用人员。
构建领域知识图谱的方法主要有自顶向下、自底向上和混合方式三种。自顶向下的构建形式是在知识图谱构建初期先借助百科类网站等结构化数据源,从高品质数据中提取本体和模式信息,加入知识库。自底向上的构建形式在没有定义的组织结构的前提下,应用知识抽取技术,从数据源中不断提取更新概念和概念间的组织结构。自顶向下和自底向上混合的构建方式是在初期有预定义的本体或模式层,同时随着数据源的加入,数据源的组织结构可以对知识图谱模式层进行更新改进,从而提高知识图谱的完整性和可靠性。
发明内容
本发明针对不可移动文物风险评估工作中存在的文物风险数据种类繁多,关系复杂,不利于风险评估专家对文物风险进行评估的问题,提出了一种不可移动文物风险评估知识图谱构建方法。该方法基于不可移动文物风险领域领域知识,采用图数据库的方式存储不可移动文物本体及风险评估信息,根据不可移动文物风险评估模型对领域本体建模方法——七步法进行改进,按照改进后的方法建立本体模型。本体模型构建完成后,根据本体模型和领域数据使用图数据库Neo4J构建不可移动文物风险评估领域知识图谱。
本发明所提出的方法主要包括本体模型设计、多源异构数据处理、不可移动文物风险评估领域RDF数据到图数据库的映射方法和基于Neo4J图数据库的领域知识图谱构建方法,详细介绍如下:
本体模型设计:本体模型是知识图谱的概念模型,为后面不可移动文物风险评估领域知识图谱的构建提供数据的组织架构。本发明通过对七步法进行详细分析并结合不可移动文物风险评估领域特点,在七步法的基础上增加了本体评估和迭代的过程完善了七步法忽略内容更新和缺少科学管理和评价机制的缺陷。除此之外,本发明在本体构建过程中参考项目组中领域专家所给出的不可移动文物风险评估模型来进行本体的设计,从而降低具有较强主观性的问题。不可移动文物风险评估本体模型总共有八个步骤,分别是明确领域范围、考察复用现有本体的可能性、列出本体中重要术语、定义类与类之间的等级关系、定义类的属性及属性约束、本体实例化、本体评价、本体建立和迭代。本发明通过以上步骤,并使用Protégé本体建模工具对不可移动文物风险评估本体模型进行设计与实现。最终将本体模型以RDF格式进行保存。
多源异构数据处理:构建不可移动文物风险评估知识图谱所涉及的数据来源主要包括:网络数据、结构化数据、文本数据、实地采集数据。从这些数据源中获得的数据大部分格式比较混乱,不符合系统设定的规范,因此需要采用正则匹配、网页解析、数据规范化等手段进一步对数据进行提取、转换。文本数据通过关键字提取、正则匹配以及人工的方式,将文本数据中包含的相关数据进行提取,并保存为Excel表格的形式;网络数据主要包括如中国文化遗产研究院官网等包含不可移动文物数据的网站,通过网页解析技术对这些网站的内容进行数据的提取,将得到的内容以Excel表格的形式进行存储;对于结构化数据,我们根据不可移动文物风险评估领域专家提供的数据标准化规范对其进行标准化的处理。通过以上步骤,我们最终得到用于构建不可移动文物风险评估知识图谱的原始数据。
不可移动文物风险评估领域RDF数据到图数据库的映射方法:本步骤旨在将不可移动文物风险评估本体模型所生成的RDF数据,映射为Neo4J图数据库所能存储的属性图的格式。在建立好不可移动文物风险评估本体模型后,通常使用RDF文件进行存储。RDF数据使用三元组<主语,谓语,宾语>来表示不可移动文物风险评估知识图谱中节点之间的关系从而构成不可移动文物风险评估语义网络结构。
r=<s,p,o>
其中s表示不可移动文物网络结构的主语,p表示不可移动文物网络结构的谓语,o表示不可移动文物网络结构的宾语。
Neo4J采用属性图的方式进行存储。属性图由节点集合、关系集合、属性键值对集合、路径起点终点映射函数和标签组成。
G=<V,E,P,src,tgt,lbl>
其中,V为图数据库中节点集合;E为边集合;P为属性键值对集合;src、tgt和lbl都表示函数关系,分别表示为图中每条边都有一个起点,图中每条边都有一个终点,图模型中每一个节点/边都可以设置零个或多个标签来标识。
1)节点映射
S为RDF的主语集合,O为RDF的宾语集合。将S和O映射成V,且V中没有重复元素。将RDF文件中类的集合记为C,将RDF中的S和O中每个元素所属的类c(c∈C)映射为V中对应元素的标签lbl。
2)关系映射
本体中两个类之间的关系其实表现的就是这两个类所属的实例之间可能存在的关系,因此可以映射为Neo4j图数据库中的关系。因为本体中的类对应Neo4j中的标签,因此本体中的关系也就可以映射为这两个标签的节点之间可能存在的关系。
3)属性映射
在本体模型中,数据属性是对本体模型中类的特征的描述。可以直接对应到Neo4j节点的属性键值对P。
基于Neo4J图数据库的领域知识图谱构建方法:依据上述本体到Neo4j的映射规则,本发明将不可移动文物风险评估数据根据不可移动文物风险评估本体进行组织并存储到Neo4J图数据库中。
与现有技术相比,本发明具有以下特点:
1、将知识图谱引入不可移动文物风险评估领域,为风险评估工作提供了便捷高效的知识服务,提高评估效率。
2、本体模型构建方法在七步法的基础上进行改进,增加了本体评估和迭代的过程完善了七步法忽略内容更新和缺少科学管理和评价机制的缺陷。并在本体构建过程参考领域专家意见,从而降低具有较强主观性的问题。
3、使用Neo4J实现知识图谱的存储和可视化,为非专业人员提供直观友好的可视化界面。
附图说明
图1是本发明在七步法的基础上进行改进的领域本体建模方法流程。
图2是不可移动文物风险评估本体模型关系图。
图3是多源异构数据处理流程图。
图4是不可移动文物风险评估领域知识图谱可视化效果示例。
具体实施方式
本发明提出了一种不可移动文物风险评估知识图谱构建方法。该方法主要包括本体模型设计、多源异构数据处理、不可移动文物风险评估领域RDF数据到图数据库的映射方法和基于Neo4J图数据库的领域知识图谱构建方法。
下面结合具体实施对本发明提出的基不可移动文物风险评估知识图谱构建方法进行详细描述。
首先是本体模型设计,本发明通过对七步法进行详细分析并结合不可移动文物风险评估领域特点,在七步法的基础上增加了本体评估和迭代的过程完善了七步法忽略内容更新和缺少科学管理和评价机制的缺陷。除此之外,本发明在本体构建过程中参考项目组中领域专家所给出的不可移动文物风险评估模型来进行本体的设计,从而降低具有较强主观性的问题。本发明综合上述思想形成了一套不可移动文物风险领域本体建模方法,具体流程如图1所示。
1)明确领域范围
不可移动文物风险评估领域本体用于描述不可移动文物本体所涉及的各类风险指标和各个风险指标之间的关系,为不可移动文物的风险评估提供有效支撑。通过书籍、文献、网络资料和请教领域专家等途径获取相关领域信息,抽象出不可移动文物风险评估领域相关概念。从致灾因子危险性、承载体脆弱性、孕灾环境敏感性和防灾减灾能力这四个方面对不可移动文物进行风险情况描述并组织相关风险指标之间的关系。
2)考察复用现有本体的可能性
通过大量的调研工作发现,目前已存在的文物本体模型中大多是基于文物本身信息构建的,没有可用于不可移动文物风险评估领域的本体。因此,在不可移动文物风险评估领域本体构建过程中无法对现有本体模型进行复用。但是现有基于文物本体信息构建的文物本体模型,如从林炀平[9]设计的文物本体中借鉴了其对建筑、壁画本体的设计,从李永卉[10]设计的南朝陵墓石刻本体中借鉴了其对石刻文物的本体设计等。
3)列出本体中重要术语
通过参考现有文物本体模型和国家文物局发布的行业准则和文物数字化保护元数据标准规范征求意见稿等官方文献,获取不可移动文物领域术语;通过对数据进行分类分析,提取数据相关术语,并与领域专家讨论术语的规范性和必要性,术语提取结果如表1所示。
表1不可移动文物风险评估领域术语(主要)
4)定义类与类之间的等级关系
类是对事物的抽象,也可以理解为概念。类通常构成一个分类层次结构(子类-超类层次结构),其层次结构通常是一个is-a层次结构:子类是父类的一个实例。通过定义类之间的等级关系可以明确领域中的概念。在Protégé中,Thing类是所有类的父类,在Thing类下定义不可移动文物风险评估领域的类。本发明在类设计中将本体分为两个部分,第一部分描述不可移动文物及其基本信息,包括不可移动文物类、地区类、文物类型类等;第二部分描述风险指标信息,包括不可移动文物的致灾因子危险性类、承载体脆弱性类、孕灾环境敏感性类、防灾减灾能力类等。
5)定义类的属性及属性约束
仅定义类与类之间的等级关系还不能完全地描述不可移动文物风险评估领域知识,还需要通过定义类的属性及属性的约束来进行完善。本体中的属性有两种分别是对象属性和数据属性。对象属性用谓词连接两个对象(主语和宾语),而数据属性通过某种类型的属性数据描述某个对象。结合领域知识和风险评估模型,对领域本体中类的属性及属性约束进行定义。
6)本体实例化
构建本体模型最终的目的是将本体模型进行实际的应用,从而解决领域内的实际问题。因此需要结合领域数据来为不可移动文物风险评估本体中的类进行实例化。实例化本体既可以丰富本体内容,也可以利用实例评估本体的质量。
7)本体评价
本体评价主要分为两个方面:针对本体构建规范评价和领域专家评价。本体构建主要需要遵循以下基本原则:明确性和客观性、一致性、可扩展性、最小编码偏差、最小本体承诺。在针对本体构建规范评价时,需要根据以上基本原则对本体质量做出评价。领域专家评价是在本体实例化以后,在领域专家的指导下评估本体设计是否符合行业规范,是否满足解决问题的需求。
8)本体建立和迭代
根据上述步骤最终得到符合本体评价要求的不可移动文物风险评估领域本体模型,并将其应用于实际问题的解决。如果在使用过程中添加了新的术语或者需要对本体改动则需要进行本体的迭代。
根据上述方法步骤,使用Protégé工具完成了不可移动文物风险评估领域本体模型的构建。领域本体类间关系如图2所示。本体构建完成后将本体以RDF文件格式导出,在后续步骤中使用。
其次是对多源异构数据进行处理,得到用于构建不可移动文物风险评估知识图谱的原始数据,具体流程如图3所示。构建知识图谱所涉及的数据来源主要包括:网络数据、结构化数据、文本数据、实地采集数据。从这些数据源中获得的数据大部分格式比较混乱,不符合系统设定的规范,因此需要进一步对数据进行提取、转换,最终得到用于构建不可移动文物风险评估知识图谱的原始数据。其中文本数据通过关键字提取、正则匹配以及人工的方式,将文本数据中包含的相关数据进行提取,并保存为Excel表格的形式;网络数据主要包括如中国文化遗产研究院官网等包含不可移动文物数据的网站,通过网页解析技术对这些网站的内容进行数据的提取,将得到的内容以Excel表格的形式进行存储;一般情况下,结构化数据和实地采集数据本身就是以表格的形式存储,因此这类数据只需进行标准化处理即可。将上述异构数据提取为结构化数据之后,根据领域专家所提供的风险数据提取规则进行数据的提取与转换,从而得到用于构建不可移动文物风险评估知识图谱的原始数据。
最后是不可移动文物风险评估领域RDF数据到图数据库的映射和基于Neo4J图数据库的领域知识图谱构建。根据发明内容中所介绍的RDF数据到图数据库的映射规则将不可移动文物风险评估数据根据不可移动文物风险评估本体进行组织并存储到Neo4J图数据库中。首先,通过JaneAPI对存储不可移动文物风险评估本体的RDF文件进行读取,获得组成本体模型的全部三元组。然后读取不可移动文物风险评估数据并根据映射规则对数据进行组织。最后通过JDBC连接图数据库执行构建命令完成数据的存储。
完成知识图谱的构建后,可以在Web页面上查看知识图谱的节点关系图。目前只根据本发明的方法只将山西省的不可移动文物的风险数据进行构建,知识图谱包括170807个实体(其中包括不可移动文物实体3208个)和174135个关系。图4展示了知识图谱的部分视图,从图中可以清晰的看出不可移动文物各类风险所设计指标数据和各个指标数据之间的关系。
Claims (3)
1.一种不可移动文物风险评估知识图谱构建方法,其特征在于,包括本体模型设计、多源异构数据处理、不可移动文物风险评估领域RDF数据到图数据库的映射方法和基于Neo4J图数据库的领域知识图谱构建方法;具体实施过程如下,
本体模型设计:本体模型是知识图谱的概念模型,为不可移动文物风险评估领域知识图谱的构建提供数据的组织架构;通过对七步法进行详细分析并结合不可移动文物风险评估领域特点,在本体构建过程中参考项目组中领域专家所给出的不可移动文物风险评估模型来进行本体的设计;使用Protégé本体建模工具对不可移动文物风险评估本体模型进行设计与实现,将本体模型以RDF格式进行保存;
多源异构数据处理:构建不可移动文物风险评估知识图谱所涉及的数据来源包括:网络数据、结构化数据、文本数据、实地采集数据;采用正则匹配、网页解析、数据规范化对数据进行提取、转换,得到用于构建不可移动文物风险评估知识图谱的原始数据;
不可移动文物风险评估领域RDF数据到图数据库的映射方法:将不可移动文物风险评估本体模型所生成的RDF数据,映射为Neo4J图数据库所能存储的属性图的格式;建立不可移动文物风险评估本体模型后,使用RDF文件进行存储;RDF数据使用三元组<主语,谓语,宾语>来表示不可移动文物风险评估知识图谱中节点之间的关系从而构成不可移动文物风险评估语义网络结构;
r=<s,p,o>
其中s表示不可移动文物网络结构的主语,p表示不可移动文物网络结构的谓语,o表示不可移动文物网络结构的宾语;
Neo4J采用属性图的方式进行存储;属性图由节点集合、关系集合、属性键值对集合、路径起点终点映射函数和标签组成;
G=<V,E,P,src,tgt,lbl>
其中,V为图数据库中节点集合;E为边集合;P为属性键值对集合;src、tgt和lbl都表示函数关系,分别表示为图中每条边都有一个起点,图中每条边都有一个终点,图模型中每一个节点/边都可以设置零个或多个标签来标识;
1)节点映射
S为RDF的主语集合,O为RDF的宾语集合;将S和O映射成V,且V中没有重复元素;将RDF文件中类的集合记为C,将RDF中的S和O中每个元素所属的类c映射为V中对应元素的标签lbl;
2)关系映射
本体中两个类之间的关系其实表现的就是这两个类所属的实例之间可能存在的关系,映射为Neo4j图数据库中的关系;本体中的类对应Neo4j中的标签,本体中的关系就映射为这两个标签的节点之间可能存在的关系;
3)属性映射
在本体模型中,数据属性是对本体模型中类的特征的描述,直接对应到Neo4j节点的属性键值对P;
基于Neo4J图数据库的领域知识图谱构建方法:依据本体到Neo4j的映射规则,将不可移动文物风险评估数据根据不可移动文物风险评估本体进行组织并存储到Neo4J图数据库中。
2.根据权利要求1所述的一种不可移动文物风险评估知识图谱构建方法,其特征在于,不可移动文物风险评估本体模型总共有八个步骤,分别是明确领域范围、考察复用现有本体的可能性、列出本体中重要术语、定义类与类之间的等级关系、定义类的属性及属性约束、本体实例化、本体评价、本体建立和迭代。
3.根据权利要求1所述的一种不可移动文物风险评估知识图谱构建方法,其特征在于,文本数据通过关键字提取、正则匹配以及人工的方式,将文本数据中包含的相关数据进行提取,并保存为Excel表格的形式;网络数据包括不可移动文物数据的网站,通过网页解析技术对这些网站的内容进行数据的提取,将得到的内容以Excel表格的形式进行存储;对于结构化数据,根据不可移动文物风险评估领域专家提供的数据标准化规范对其进行标准化的处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310022929.3A CN115934969A (zh) | 2023-01-08 | 2023-01-08 | 一种不可移动文物风险评估知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310022929.3A CN115934969A (zh) | 2023-01-08 | 2023-01-08 | 一种不可移动文物风险评估知识图谱构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115934969A true CN115934969A (zh) | 2023-04-07 |
Family
ID=86654420
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310022929.3A Pending CN115934969A (zh) | 2023-01-08 | 2023-01-08 | 一种不可移动文物风险评估知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115934969A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117634894A (zh) * | 2024-01-25 | 2024-03-01 | 深圳市规划和自然资源数据管理中心(深圳市空间地理信息中心) | 生态环境风险评估方法、装置、电子设备及存储介质 |
-
2023
- 2023-01-08 CN CN202310022929.3A patent/CN115934969A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117634894A (zh) * | 2024-01-25 | 2024-03-01 | 深圳市规划和自然资源数据管理中心(深圳市空间地理信息中心) | 生态环境风险评估方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021196520A1 (zh) | 一种面向税务领域知识图谱的构建方法及系统 | |
CN107679221B (zh) | 面向减灾任务的时空数据获取与服务组合方案生成方法 | |
CN110781236A (zh) | 一种构建政务大数据治理体系的方法 | |
Hor et al. | A semantic graph database for BIM-GIS integrated information model for an intelligent urban mobility web application | |
EP3127020A1 (en) | Ontology mapping method and apparatus | |
WO2023124191A1 (zh) | 基于深度图匹配的医疗数据元自动化分类方法及系统 | |
CN110597870A (zh) | 一种企业关系挖掘方法 | |
CN112559766B (zh) | 一种法律知识图谱构建系统 | |
CN111026874A (zh) | 知识图谱的数据处理方法及服务器 | |
Cursi et al. | Linking external knowledge to heritage BIM | |
CN104699786A (zh) | 一种语义智能搜索的通信网络投诉系统 | |
Deng et al. | Transforming knowledge management in the construction industry through information and communications technology: A 15-year review | |
CN104268247A (zh) | 一种基于模糊层次分析的主数据归集方法 | |
CN107491476A (zh) | 一种适用于多种大数据管理系统的数据模型转换及查询分析方法 | |
Kricke et al. | Graph data transformations in Gradoop | |
CN115640406A (zh) | 一种基于多源异构大数据分析处理与知识图谱构建方法 | |
CN115934969A (zh) | 一种不可移动文物风险评估知识图谱构建方法 | |
Petermann et al. | Graph mining for complex data analytics | |
CN109558522A (zh) | 企业网络图的建立方法、装置和计算机可读存储介质 | |
Sen et al. | Toward developing data warehousing process standards: An ontology-based review of existing methodologies | |
CN115827885A (zh) | 一种运维知识图谱的构建方法、装置及电子设备 | |
Wang et al. | Construction of knowledge graph for internal control of financial enterprises | |
Awangga et al. | Ontology design based on data family planning field officer using OWL and RDF | |
Ge et al. | Petroleum exploration domain ontology-based knowledge integration and sharing system construction | |
CN112597315B (zh) | 一种基于SysML元模型本体的系统模型图谱构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |