CN114297410A - 一种面向应急物资管理的知识图谱技术的构建方法 - Google Patents
一种面向应急物资管理的知识图谱技术的构建方法 Download PDFInfo
- Publication number
- CN114297410A CN114297410A CN202210007129.XA CN202210007129A CN114297410A CN 114297410 A CN114297410 A CN 114297410A CN 202210007129 A CN202210007129 A CN 202210007129A CN 114297410 A CN114297410 A CN 114297410A
- Authority
- CN
- China
- Prior art keywords
- emergency
- data
- construction method
- knowledge
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种面向应急物资管理的知识图谱技术的构建方法,包括下列构建方法步骤:S1对原始数据集进行获取;S2对实体属性进行抽取;S3实现融合BERT的基于序列标注和依存句法分析的三元组抽取模型(B‑STDP);S4构建知识图谱;S5完成应急物资管理知识搜索系统的环境搭建、需求分析、整体架构设计、前端设计与开发。本发明通过在应急物资高效储存的基础上,考虑不同场景的需求,利用知识图谱构建技术对突发事件发生的情景下完善对应急物资的管理,为应急资源优化分类方法及元数据规范研究、突发事件及应急资源关联匹配技术、研究应急资源动态管理数据库构建提供了理论支撑,为应急事件查询应急资源与调度分配物资提升效率。
Description
技术领域
本发明涉及应急物资管理技术领域,具体为一种面向应急物资管理的知识图谱技术的构建方法。
背景技术
应急物资是指为应对严重自然灾害、事故灾难、公共卫生事件和社会安全事件等突发公共事件应急全过程中所必需的物资保障。建设应急物资以及应急资源管理平台,提升应急管理信息化水平,能够有效提高应对处置重大突发事件的能力,在保障人民群众生命财产安全、有力有序有效开展应急工作等方面能够发挥重要作用,对于推进国家应急管理体系和能力现代化具有重要意义。
传统的应急物资供给逻辑已显现出不适,为了更好地满足应急管理需要并支持现代化的实现,供给逻辑需要有所创新优化。因此需要研究一种面向应急物资管理的知识图谱技术的构建方法来解决上述问题。
发明内容
本发明的目的在于提供一种面向应急物资管理的知识图谱技术的构建方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种面向应急物资管理的知识图谱技术的构建方法,包括下列构建方法步骤:S1对原始数据集进行获取,已完成多源数据集的整合,使用爬虫工具对来源包括百度百科、MSDS数据库、应急管理局官方网站、各省市公开应急预案、突发事件案例等非结构化数据以及半结构化数据进行收集;S2对实体属性进行抽取,在应急领域的危险化学品分类中,对危险化学品的属性从百度百科中使用scrapy框架提取并构成三元组自动存入mongodb数据库;S3实现融合BERT的基于序列标注和依存句法分析的三元组抽取模型(B-STDP);S4构建知识图谱,将以上准备好的三元组数据用Cypher进行操作存入Neo4j数据库,并对不同类型的数据进行标注区分,整体数据排布以事件为中心进行扩散;S5完成应急物资管理知识搜索系统的环境搭建、需求分析、整体架构设计、前端设计与开发。
优选的,所述在步骤S3中,首先从MSDS库中把每一种危化品处置当中用到的应急物资抽取出来,应急物资类目采用应急物资分类编码标准中的数据,MSDS库本身是结构化的数据,结构化处理应急措施中具体使用的以自然语言形式存在的处置物资,然后根据非结构化数据的特点和BERT模型的优势,实现B-STDP模型,将非结构化文档中的三元组提取出来,以RDF数据格式进行存储。
优选的,所述在步骤S1中,采用非结构化数据来获取数据的来源,非结构化数据是没有预定义的、不完整或不规则的数据模型,在应急领域,应急物资的完整数据、包含应急物资的突发事件描述、历史应急事件的概况等信息,均由非结构化数据组成。
优选的,所述在步骤S2中,实体关系抽取模型主要由四个部分组成:数据获取、数据预处理、序列标注、实体关系联合抽取。
优选的,所述数据获取中含应急物资清单、突发事件事故调查报告、突发事件专项预案,采用基于Python的Scrapy框架实现网络爬虫爬取直接保存至Neo4j数据库,同时存入mongodb作为备份,数据预处理中爬取的数据文件中包含加密的pdf文件,将pdf转化为图片,再利用百度OCR技术将pdf文件内的数据识别出来,对爬取的数据进行过滤操作,以句子为单位进行人工标注操作,实体关系联合抽取中通过联合建模实体、关系之间的内在联系,缓解误差累积,为推荐系统、多轮自动问答系统、复杂信息检索等下游子任务提供有力的支持。
优选的,所述在步骤S4中,采用图数据库进行查询、删除、增加、更新等一系列操作,Neo4j数据库属于图数据库的一种,Neo4j作为图数据库的主要代表,其运行方式有两种:服务的方式,对外提供REST接口;嵌入式模式,数据以文件的形式存放在本地,可以直接对本地文件进行操作。
优选的,所述在步骤S4中,Cypher是一个描述性的图形查询语言,即Neo4j的查询语言,Cypher查询语句与结构化数据库中SQL查询语句作用类似,通过模式匹配来匹配图数据库中的节点和关系,也可以创建、更新和删除节点、关系和属性,一个完整的Cypher查询语句可以对图数据库中数据进行操作,通常包括MATCH关键字、WHERE关键字和RETURN关键字,Cypher的关键字可分为三类:读关键字、写关键字、通用关键字。
优选的,所述在步骤S5中,根据应急资源调度系统的需求,构建相关的知识图谱后,将多维的网络空间资源及其关联关系融合到系统中,利用搜索系统提供交互,在构建好的知识图谱中,每对实体间存在大量关系路径的信息,且每个实体都有对应的实体描述信息。
与现有技术相比,本发明的有益效果是:
(1)本发明在应急物资高效储存的基础上,考虑不同场景的需求,利用知识图谱构建技术对突发事件发生的情景下完善对应急物资的管理,为应急资源优化分类方法及元数据规范研究、突发事件及应急资源关联匹配技术、研究应急资源动态管理数据库构建提供了理论支撑,为应急事件查询应急资源与调度分配物资提升效率,同时对应急资源调度等工作有着重要的作用,具备实用价值,在其他知识图谱分类也将有较好的可复用性,具备最小时延化和最大效用化的优点;
(2)本发明实现一种融合BERT的基于序列标注和依存句法分析的三元组抽取模型,摒弃复杂冗余的算法模型,只考虑适用于含有大量非结构化数据的应急领域的数据,此模型在特定灾害情况下的应急物资调度与管理场景下,具有较高的社会价值和商业价值,在应急领域的工业级的任务中取得良好的效果。
附图说明
图1为本发明的构件方法步骤流程框图;
图2为本发明的知识图谱构建过程结构框图;
图3为本发明的危化品领域信息架构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
请参阅图1-3,本发明提供的一种实施例:一种面向应急物资管理的知识图谱技术的构建方法,包括下列构建方法步骤:S1对原始数据集进行获取,已完成多源数据集的整合,使用爬虫工具对来源包括百度百科、MSDS数据库、应急管理局官方网站、各省市公开应急预案、突发事件案例等非结构化数据以及半结构化数据进行收集;S2对实体属性进行抽取,在应急领域的危险化学品分类中,对危险化学品的属性从百度百科中使用scrapy框架提取并构成三元组自动存入mongodb数据库;S3实现融合BERT的基于序列标注和依存句法分析的三元组抽取模型(B-STDP);S4构建知识图谱,将以上准备好的三元组数据用Cypher进行操作存入Neo4j数据库,并对不同类型的数据进行标注区分,整体数据排布以事件为中心进行扩散;S5完成应急物资管理知识搜索系统的环境搭建、需求分析、整体架构设计、前端设计与开发。
进一步,使用Scrapy框架爬取半结构化形式的危化品百度百科数据并直接存入Neo4j图数据库中,将MSDS数据库中的实体属性抽取存入知识图谱,共计20543条记录,总共每个危化品实体对应其理化特性、毒理性、运输信息、废弃处置等属性。
进一步,使用python语言编写结构提取程序,手工校验结果,梳理各突发事件应急预案和查询专业领域资料,列出各领域信息架构图,主要为组织架构图,为补充抽取结果和日后做推理结果的分析做准备。
进一步,根据应急预案等非结构化数据所需构建的知识图谱主要包括地震领域、危险化学品领域、防汛领域、山洪领域,每个领域包含组织机构、成员与分组、组与职责、初期响应、全面响应等部分的三元组数据,从所有已预处理的相关文件资料中利用融合BERT的基于序列标注和依存句法分析的三元组抽取模型(B-STDP)抽取三元组。
进一步,将抽取好的三元组统一使用Cypher语言存入Neo4j数据库,图谱语义为突发事件涉及几种等级的响应,每种响应派出应急队伍,应急队伍包含的组织,组织的架构,负责的任务等信息,将错综复杂的关系梳理成图谱,便于后续关系的提取与推理。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
Claims (8)
1.一种面向应急物资管理的知识图谱技术的构建方法,其特征在于,包括下列构建方法步骤:
S1对原始数据集进行获取,已完成多源数据集的整合,使用爬虫工具对来源包括百度百科、MSDS数据库、应急管理局官方网站、各省市公开应急预案、突发事件案例等非结构化数据以及半结构化数据进行收集;
S2对实体属性进行抽取,在应急领域的危险化学品分类中,对危险化学品的属性从百度百科中使用scrapy框架提取并构成三元组自动存入mongodb数据库;
S3实现融合BERT的基于序列标注和依存句法分析的三元组抽取模型(B-STDP);
S4构建知识图谱,将以上准备好的三元组数据用Cypher进行操作存入Neo4j数据库,并对不同类型的数据进行标注区分,整体数据排布以事件为中心进行扩散;
S5完成应急物资管理知识搜索系统的环境搭建、需求分析、整体架构设计、前端设计与开发。
2.根据权利要求1所述的一种面向应急物资管理的知识图谱技术的构建方法,其特征在于:所述在步骤S3中,首先从MSDS库中把每一种危化品处置当中用到的应急物资抽取出来,应急物资类目采用应急物资分类编码标准中的数据,MSDS库本身是结构化的数据,结构化处理应急措施中具体使用的以自然语言形式存在的处置物资,然后根据非结构化数据的特点和BERT模型的优势,实现B-STDP模型,将非结构化文档中的三元组提取出来,以RDF数据格式进行存储。
3.根据权利要求1所述的一种面向应急物资管理的知识图谱技术的构建方法,其特征在于:所述在步骤S1中,采用非结构化数据来获取数据的来源,非结构化数据是没有预定义的、不完整或不规则的数据模型,在应急领域,应急物资的完整数据、包含应急物资的突发事件描述、历史应急事件的概况等信息,均由非结构化数据组成。
4.根据权利要求1所述的一种面向应急物资管理的知识图谱技术的构建方法,其特征在于:所述在步骤S2中,实体关系抽取模型主要由四个部分组成:数据获取、数据预处理、序列标注、实体关系联合抽取。
5.根据权利要求4所述的一种面向应急物资管理的知识图谱技术的构建方法,其特征在于:所述数据获取中含应急物资清单、突发事件事故调查报告、突发事件专项预案,采用基于Python的Scrapy框架实现网络爬虫爬取直接保存至Neo4j数据库,同时存入mongodb作为备份,数据预处理中爬取的数据文件中包含加密的pdf文件,将pdf转化为图片,再利用百度OCR技术将pdf文件内的数据识别出来,对爬取的数据进行过滤操作,以句子为单位进行人工标注操作,实体关系联合抽取中通过联合建模实体、关系之间的内在联系,缓解误差累积,为推荐系统、多轮自动问答系统、复杂信息检索等下游子任务提供有力的支持。
6.根据权利要求1所述的一种面向应急物资管理的知识图谱技术的构建方法,其特征在于:所述在步骤S4中,采用图数据库进行查询、删除、增加、更新等一系列操作,Neo4j数据库属于图数据库的一种,Neo4j作为图数据库的主要代表,其运行方式有两种:服务的方式,对外提供REST接口;嵌入式模式,数据以文件的形式存放在本地,可以直接对本地文件进行操作。
7.根据权利要求1所述的一种面向应急物资管理的知识图谱技术的构建方法,其特征在于:所述在步骤S4中,Cypher是一个描述性的图形查询语言,即Neo4j的查询语言,Cypher查询语句与结构化数据库中SQL查询语句作用类似,通过模式匹配来匹配图数据库中的节点和关系,也可以创建、更新和删除节点、关系和属性,一个完整的Cypher查询语句可以对图数据库中数据进行操作,通常包括MATCH关键字、WHERE关键字和RETURN关键字,Cypher的关键字可分为三类:读关键字、写关键字、通用关键字。
8.根据权利要求1所述的一种面向应急物资管理的知识图谱技术的构建方法,其特征在于:所述在步骤S5中,根据应急资源调度系统的需求,构建相关的知识图谱后,将多维的网络空间资源及其关联关系融合到系统中,利用搜索系统提供交互,在构建好的知识图谱中,每对实体间存在大量关系路径的信息,且每个实体都有对应的实体描述信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210007129.XA CN114297410A (zh) | 2022-01-05 | 2022-01-05 | 一种面向应急物资管理的知识图谱技术的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210007129.XA CN114297410A (zh) | 2022-01-05 | 2022-01-05 | 一种面向应急物资管理的知识图谱技术的构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114297410A true CN114297410A (zh) | 2022-04-08 |
Family
ID=80975116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210007129.XA Pending CN114297410A (zh) | 2022-01-05 | 2022-01-05 | 一种面向应急物资管理的知识图谱技术的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114297410A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115374332A (zh) * | 2022-09-06 | 2022-11-22 | 北京化工大学 | 一种应急救援资源检索方法、装置及设备 |
CN116028645A (zh) * | 2023-01-30 | 2023-04-28 | 正元地理信息集团股份有限公司 | 城市市政基础设施应急知识图谱确定方法、系统及设备 |
CN117131531A (zh) * | 2023-10-27 | 2023-11-28 | 四川省计算机研究院 | 基于Neo4j数据库的数据安全存储方法 |
WO2024065190A1 (en) * | 2022-09-27 | 2024-04-04 | Siemens Aktiengesellschaft | Method, system, apparatus, electronic device, and storage medium for creating knowledge graph in industrial field |
-
2022
- 2022-01-05 CN CN202210007129.XA patent/CN114297410A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115374332A (zh) * | 2022-09-06 | 2022-11-22 | 北京化工大学 | 一种应急救援资源检索方法、装置及设备 |
WO2024065190A1 (en) * | 2022-09-27 | 2024-04-04 | Siemens Aktiengesellschaft | Method, system, apparatus, electronic device, and storage medium for creating knowledge graph in industrial field |
CN116028645A (zh) * | 2023-01-30 | 2023-04-28 | 正元地理信息集团股份有限公司 | 城市市政基础设施应急知识图谱确定方法、系统及设备 |
CN116028645B (zh) * | 2023-01-30 | 2024-04-12 | 正元地理信息集团股份有限公司 | 城市市政基础设施应急知识图谱确定方法、系统及设备 |
CN117131531A (zh) * | 2023-10-27 | 2023-11-28 | 四川省计算机研究院 | 基于Neo4j数据库的数据安全存储方法 |
CN117131531B (zh) * | 2023-10-27 | 2024-01-02 | 四川省计算机研究院 | 基于Neo4j数据库的数据安全存储方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114297410A (zh) | 一种面向应急物资管理的知识图谱技术的构建方法 | |
Kalfoglou et al. | IF-Map: An ontology-mapping method based on information-flow theory | |
Hsu et al. | Information resources management in heterogeneous, distributed environments: A metadatabase approach | |
CN110019176B (zh) | 提高数据治理服务成功率的数据治理控制系统 | |
Vassiliadis et al. | Data warehouse process management | |
Vassiliadis et al. | Modeling ETL activities as graphs. | |
An et al. | Methodology for automatic ontology generation using database schema information | |
CN113392227A (zh) | 面向轨道交通领域的元数据知识图谱引擎系统 | |
CN112527774A (zh) | 数据中台搭建方法、系统及存储介质 | |
Neumayr et al. | Towards ontology-based OLAP: datalog-based reasoning over multidimensional ontologies | |
CN113076306A (zh) | 一种基于编目规则的数据资源自动归集方法与系统 | |
Chen et al. | Construction of spatiotemporal knowledge graph for emergency decision making | |
Pujolle et al. | Multidimensional database design from document-centric XML documents | |
Seligman et al. | A Metadata Resource to Promote Data Integration. | |
Wang et al. | An Ontology for Chinese Government Archives Knowledge Representation and Reasoning | |
Boulil et al. | Towards the definition of spatial data warehouses integrity constraints with spatial OCL | |
Ariyan et al. | A multidimensional data model with subcategories for flexibly capturing summarizability | |
CN117217412B (zh) | 一种基于资源化利用的无废城市建设管理系统 | |
Zhu et al. | A predicate-driven document filing system | |
King et al. | Enhancing database technology to better manage and exploit Partially Structured Data | |
Ravat et al. | Integrating Complex Data into a Data Warehouse. | |
He et al. | Resolving schematic discrepancy in the integration of entity-relationship schemas | |
Fan | Investigating a heterogeneous data integration approach for data warehousing | |
Hasselbring et al. | Research and practice in federated information systems | |
Martinez-Cruz et al. | An ontology to represent queries in fuzzy relational databases |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20221215 Address after: No. 6, Huayuan Road, Haidian District, Beijing 100095 Applicant after: Beijing tianzhihua Software System Technology Co.,Ltd. Applicant after: Fang Liping Applicant after: Chen Ming Address before: 19162, Xitucheng Road, Haidian District, Beijing Applicant before: Tian Yu |