CN116028645B - 城市市政基础设施应急知识图谱确定方法、系统及设备 - Google Patents
城市市政基础设施应急知识图谱确定方法、系统及设备 Download PDFInfo
- Publication number
- CN116028645B CN116028645B CN202310044599.8A CN202310044599A CN116028645B CN 116028645 B CN116028645 B CN 116028645B CN 202310044599 A CN202310044599 A CN 202310044599A CN 116028645 B CN116028645 B CN 116028645B
- Authority
- CN
- China
- Prior art keywords
- emergency
- municipal infrastructure
- entity
- text data
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000000605 extraction Methods 0.000 claims abstract description 91
- 238000010276 construction Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 25
- 238000002372 labelling Methods 0.000 claims description 18
- 230000007246 mechanism Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 14
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 9
- 230000004927 fusion Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000013507 mapping Methods 0.000 description 8
- 230000008520 organization Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 102100032202 Cornulin Human genes 0.000 description 2
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000009960 carding Methods 0.000 description 1
- 238000009833 condensation Methods 0.000 description 1
- 230000005494 condensation Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000002737 fuel gas Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012876 topography Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A30/00—Adapting or protecting infrastructure or their operation
- Y02A30/60—Planning or developing urban green infrastructure
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开城市市政基础设施应急知识图谱确定方法、系统及设备,涉及知识图谱构建技术领域,所述方法包括:获取目标数据;目标数据为待抽取城市市政基础设施应急文本数据;利用本体思想构建城市市政基础设施应急知识图谱模式层;将目标数据输入至实体识别模型中,得到识别应急实体后的应急文本数据;将识别应急实体后的应急文本数据输入至属性关系抽取模型中,得到多个初始抽取结果;初始抽取结果为待抽取城市市政基础设施应急文本数据中实体、实体对应的属性以及实体与属性的关系的数据组;将各初始抽取结果输入城市市政基础设施应急知识图谱模式层中,得到城市市政基础设施应急知识图谱。本发明提高了城市市政基础设施应急知识图谱的确定效率。
Description
技术领域
本发明涉及知识图谱构建技术领域,特别是涉及一种城市市政基础设施应急知识图谱确定方法、系统及设备。
背景技术
近年来,路面塌陷、井盖缺失、城市内涝等各类城市市政基础设施工程事件突发,对城市正常社会秩序和工作秩序产生了一定的影响。在城市市政基础设施应急领域中,城市道路、桥梁、隧道、轨道交通、供水、排水、燃气、热力、路灯、井盖、桥梁、环卫等安全事件的描述、实体之间的关联关系复杂多样,同时,应急响应的各个环节往往会产生多源、海量、异构数据信息,存在历史案例、应急预案、相关法律法规等数据骤增而应急知识缺乏系统梳理和有效组织的现状,造成相关信息资源整合困难,制约了城市市政基础设施调度应急预案管理能力,也为决策者对真实的危机状况做出准确判断提高了一定的难度。
在当前大数据背景下,缺少对城市市政基础设施应急知识的凝练与整合,而知识图谱作为人工智能在知识组织和表示方面发展的最新技术,建立了数据与知识之间的桥梁。以“实体-关系”、“属性-属性值”的符号形式描述物理世界中应急概念及其相互关系,是一种结构化的语义知识库,为海量、异构、动态数据的表达、组织、管理及利用提供一种非常有效方式,不仅能在不同城市市政基础设施知识点之间建立语义联系,还可快速、准确地实现城市市政基础设施信息关联搜索。
目前,应急知识图谱已广泛地应用于自然灾害、铁路调度、突发事件等领域,为指挥调度、辅助决策、应急风险识别等提供实用工具。城市市政基础设施应急领域知识图谱构建涵盖自然地理信息、法律法规、应急预案库、历史案例库等信息的应急管理知识体系,通过文本分析技术、深度学习技术自动抽取编制依据、组织体系和应急预案等多源异构的应急知识,并进一步关联组织机构、负责人、联系方式、值班值守等信息。形成城市市政基础设施应急知识图谱,从而构建更智能、更精细的城市市政基础设施应急知识管理系统,实现城市市政基础设施应急领域知识的可视化表达、应急预案推荐等创新应用,提高应对突发事件时应急辅助决策的智能化水平。
发明内容
本发明的目的是提供一种城市市政基础设施应急知识图谱确定方法、系统及设备,提高了城市市政基础设施应急知识图谱的确定效率。
为实现上述目的,本发明提供了如下方案:
一种城市市政基础设施应急知识图谱确定方法,所述方法包括:
获取目标数据;所述目标数据为待抽取城市市政基础设施应急文本数据;
利用本体的思想,构建城市市政基础设施应急知识图谱模式层;
将所述目标数据输入至实体识别模型中,得到识别应急实体后的应急文本数据;所述实体识别模型是基于BiLSTM-CRF网络构建的,所述BiLSTM-CRF网络包括双向长短记忆网络和条件随机场网络;
将所述识别应急实体后的应急文本数据输入至属性关系抽取模型中,得到多个初始抽取结果;所述初始抽取结果为所述待抽取城市市政基础设施应急文本数据中实体、实体对应的属性以及实体与属性的关系的数据组;所述属性关系抽取模型是基于注意力机制的卷积神经网络构建的;
根据各所述初始抽取结果和所述城市市政基础设施应急知识图谱模式层,确定城市市政基础设施应急知识图谱。
可选地,所述实体识别模型的训练过程,具体包括:
获取训练用城市市政基础设施应急文本数据集;
利用BIOES标注方法对所述训练用城市市政基础设施应急文本数据集中的实体进行标注,得到实体标注后的应急文本数据集;
以所述训练用城市市政基础设施应急文本数据集作为输入,以所述实体标注后的应急文本数据集作为输出,对所述BiLSTM-CRF网络进行训练,得到所述实体识别模型。
可选地,所述属性关系抽取模型的训练过程,具体包括:
利用BIOES标注方法对所述实体标注后的应急文本数据集进行各文本的属性和关系的标注,得到标注属性和关系后的应急文本数据集;
利用标注属性和关系后的应急文本数据集,对所述基于注意力机制的卷积神经网络进行训练,得到所述属性关系抽取模型。
可选地,根据各所述初始抽取结果和所述城市市政基础设施应急知识图谱模式层,确定城市市政基础设施应急知识图谱,具体包括:
利用聚类方法,将表示相同含义的实体所在的初始抽取结果进行融合,得到融合后的抽取结果;
将各融合后的抽取结果输入至所述城市市政基础设施应急知识图谱模式层中,得到所述城市市政基础设施应急知识图谱。
一种城市市政基础设施应急知识图谱确定系统,所述系统包括:
目标数据获取模块,用于获取目标数据;所述目标数据为待抽取城市市政基础设施应急文本数据;
模式层构建模块,用于利用本体的思想,构建城市市政基础设施应急知识图谱模式层;
第一抽取模块,用于将所述目标数据输入至实体识别模型中,得到识别应急实体后的应急文本数据;所述实体识别模型是基于BiLSTM-CRF网络构建的,所述BiLSTM-CRF网络包括双向长短记忆网络和条件随机场网络;
第二抽取模块,用于将所述识别应急实体后的应急文本数据输入至属性关系抽取模型中,得到多个初始抽取结果;所述初始抽取结果为所述待抽取城市市政基础设施应急文本数据中实体、实体对应的属性以及实体与属性的关系的数据组;所述属性关系抽取模型是基于注意力机制的卷积神经网络构建的;
知识图谱确定模块,用于根据各所述初始抽取结果和所述城市市政基础设施应急知识图谱模式层,确定城市市政基础设施应急知识图谱。
一种设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述所述的城市市政基础设施应急知识图谱确定方法。
可选地,所述存储器为可读存储介质。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开了一种城市市政基础设施应急知识图谱确定方法、系统及设备,对待抽取城市市政基础设施应急文本数据进行实体、属性和关系的抽取,将抽取后的应急文本数据输入预先建构的利城市市政基础设施应急知识图谱模式层中,得到城市市政基础设施应急知识图谱。其中,在抽取实体、属性和关系时采用的是三者联合抽取的手段,和现有的三者的单独抽取以及实体与关系的两者联合抽取相比,提高了抽取的效率,从而提高了城市市政基础设施应急知识图谱的确定效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的城市市政基础设施应急知识图谱确定方法流程示意图;
图2为卷积递归神经网络结构图;
图3为模式层本体概念分类示意图;
图4为模式层关系分类示意图;
图5为实体-关系、属性-属性值联合抽取流程图;
图6为部分实体R2RML映射原理图;
图7为BIOES标注方法示例图;
图8为AMCNN模型结构图;
图9为城市市政基础设施应急信息融合流程图;
图10为城市市政基础设施应急知识图谱构建流程图;
图11为本发明实施例2提供的城市市政基础设施应急知识图谱确定系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种城市市政基础设施应急知识图谱确定方法、系统及设备,旨在提高城市市政基础设施应急知识图谱的确定效率。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1
图1为本发明实施例1提供的城市市政基础设施应急知识图谱确定方法流程示意图。如图1所示,本实施例中的城市市政基础设施应急知识图谱确定方法,包括:
步骤101:获取目标数据;目标数据为待抽取城市市政基础设施应急文本数据。
步骤102:利用本体的思想,构建城市市政基础设施应急知识图谱模式层。
具体的,城市市政基础设施应急知识图谱模式层是对实体进行建模从而抽象出来的模式信息,包含城市市政基础设施应急领域内的概念、属性以及概念之间的关系。利用本体的思想构建城市市政基础设施应急知识图谱模式层,即对城市市政基础设施应急领域内概念及其关系的一种明确的、形式化、规范化的描述说明。
如图3所示,针对城市市政基础设施应急管理的特点,将本体概念分为通用概念和过程概念两类:通用概念包括人物、组织、时间、自然环境、基础设施和社会关系,过程概念包括事件、活动、交互和干预。城市城市市政基础设施应急管理领域本体模型的关系可以抽象为结构关系、空间关系、过程关系和逻辑关系。本体模型的关系分类如图4所示。
步骤103:将目标数据输入至实体识别模型中,得到识别应急实体后的应急文本数据;实体识别模型是基于BiLSTM-CRF网络构建的。
其中,BiLSTM-CRF网络包括双向长短记忆网络和条件随机场网络。
步骤104:将识别应急实体后的应急文本数据输入至属性关系抽取模型中,得到多个初始抽取结果;初始抽取结果为待抽取城市市政基础设施应急文本数据中实体、实体对应的属性以及实体与属性的关系的数据组;属性关系抽取模型是基于注意力机制的卷积神经网络构建的。
具体的,传统的知识图谱构建方法将实体识别和关系抽取当作两个独立的子任务,存在错误传播、信息冗余以及缺少任务依赖等问题,对信息抽取的效果产生了一定的影响。因此,如图5所示,基于深度学习的方法对实体和关系、实体属性和属性值联合建模,充分考虑实体与关系、属性与属性值之间的语义相关性,有效解决关系重叠问题,减少误差累积。同时,通过基于注意力机制的卷积神经网络(AMCNN)的自动学习能力,可以减少构建大规模语料库的人力耗费,实现多实体关系的自动抽取,提高知识抽取的整体效果,实现实体-关系、实体属性-属性值联合的信息抽取。
实体抽取:从文本数据集中自动识别出命名实体,其目的就是建立知识图谱中的“节点”。
关系抽取:从相关的语料中提取出实体之间的关联关系(边),将多个实体或概念联系起来,形成网状的知识结构。
属性抽取:将实体的属性值看作是一种特殊的实体,属性抽取实际上就是一种关系抽取。
步骤105:根据各初始抽取结果和城市市政基础设施应急知识图谱模式层,确定城市市政基础设施应急知识图谱。
具体的,城市市政基础设施应急文本数据为非结构化数据,即步骤103-步骤104是对城市市政基础设施应急数据中的非结构化数据进行实体、属性和关系的三者联合抽取的过程,而在实际的城市市政基础设施应急数据中,不仅包括非结构化数据,还包括结构化数据。例如:实际的城市市政基础设施应急数据包括:利用已有关系数据库提取的地形、地貌、河流、植被等自然地理信息数据,居民点、交通网、人口等基础数据,主要防护目标、重大危险源等重点对象数据以及组织体系等结构化数据表;通过网络爬虫技术采集的避难场所、救援物资、医院等应急救援数据,城市市政基础设施应急预案、历史案例,应急相关法律法规、专业文献资料、专业知识等非结构化文本与图片数据。
为了后续联合抽取的准确性,在实际操作时,可根据实际情况对获取的初始城市市政基础设施应急数据进行预处理(城市市政基础设施应急非结构化图片数据格式统一)。例如:将避难场所、救援物资、医院等应急救援数据,城市市政基础设施应急预案、历史案例,应急相关法律法规、专业文献资料、专业知识等非结构化图片数据内容进行处理,转换成文字信息。使用CTC卷积递归神经网络(CRNN-CTC)识别图像(即非结构化图片)中的序列式对象,如图2所示,网络结构由三个部分组成,自下到上包括卷积层、循环层和转录层。卷积层位于CRNN的底部,自动从每个输入图像中提取特征序列。然后,建立循环网络,对由卷积层输出的每帧特征序列进行预测。最后,采用CRNN顶部的转录层将循环层的预测结果转换为标签序列,并通过CTCloss损失函数进行联合训练。
其中,对于结构化数据的抽取可采用R2RML映射机制:通过R2RML映射机制建立关系数据库中概念与知识图谱中本体的对应关系,实现从数据库中自动抽取实体、属性及属性值。
以城市市政基础设施应急组织体系中的概念与概念间的逻辑关系为例,编写R2RML映射文档,包括3部分内容,输入内容为关系型数据库表及相应的属性列和元组行数据,中间部分为主要的逻辑关系定义,输出数据为通过映射产生的RDF数据集,以三元组的形式表示。部分实体R2RML映射原理图如图6所示。
作为一种可选的实施方式,实体识别模型的训练过程,具体包括:
获取训练用城市市政基础设施应急文本数据集。
利用BIOES标注方法对训练用城市市政基础设施应急文本数据集中的实体进行标注,得到实体标注后的应急文本数据集。
具体的,如图7所示,使用BIOES标注方法对文本中的词单独进行标记,提供了更多的实体标注信息B代表实体起始位置的字符标记,I代表实体中间位置的字符标记,O代表除实体外的普通字符标记,E代表实体结尾位置的字符标记,S表示单独字符表示一个实体含义。
以训练用城市市政基础设施应急文本数据集作为输入,以实体标注后的应急文本数据集作为输出,对BiLSTM-CRF网络进行训练,得到实体识别模型。
具体的,利用标注获得的词性作为BiLSTM-CRF网络模型部分输入,并进行模型训练。其中,双向长短记忆网络(Bi-directional Long Short-Term Memory,Bi-LSTM)模型用于提取句子特征,学习序列的上下文信息,条件随机场(Conditional Random Field,CRF)网络模型用于学习标签之间的依赖信息,通过学习数据集中标签之间的转移概率从而修正BiLSTM层的输出,保证预测标签的合理性,弥补了动词后接名词等近距离的约束条件缺陷。经过多轮训练后,选取训练精度最高(验证集精度高,损失值低)的模型作为实体识别模型,用于待抽取的应急文本资料的实体识别任务。
作为一种可选的实施方式,属性关系抽取模型的训练过程,具体包括:
利用BIOES标注方法对实体标注后的应急文本数据集进行各文本的属性和关系的标注,得到标注属性和关系后的应急文本数据集。
利用标注属性和关系后的应急文本数据集,对基于注意力机制的卷积神经网络进行训练,得到属性关系抽取模型。
其中,基于注意力机制的卷积神经网络的结构如图8所示。
作为一种可选的实施方式,步骤105,具体包括:
利用聚类方法,将表示相同含义的实体所在的初始抽取结果进行融合,得到融合后的抽取结果。
将各融合后的抽取结果输入至城市市政基础设施应急知识图谱模式层中,得到城市市政基础设施应急知识图谱。
具体的,经过信息抽取后的信息单元(即初始抽取结果)间的关系缺乏层次性和逻辑性,同时存在大量冗余甚至错误的信息碎片,通过信息融合将关于同一个实体或概念的多源描述信息融合起来,进行数据整合、消歧、加工、验证等,将孤立的知识图谱集成到一起。
实体匹配:城市市政基础设施应急领域中知识来源的多样性导致了同名、多名指代等问题,例如在各类文档中出现的“联系方式”就是特殊保障资源库中的“号码资源”。实体匹配一般采用无监督学习的层次聚类、相关性聚类方法将具有不同标识但表示真实世界中同一对象的实体进行语义消歧。
模式对齐:主要针对实体属性和属性值进行融合,对于多个异构数据源之间的实体,其属性可能存在不同的表达方式,如“年份”与“年代”,采用基于stacking等有监督的机器学习算法,根据匹配属性的记录特征,将数据源中指代同一实体的记录连接起来。
如图9所示,具体流程包括:
(1)数据预处理阶段:使用归一化手段对同一实体的不同描述形式进行统一化,包括语法正则化和数据正则化。
①语法正则化:语法匹配(例如:联系电话的表示方法,座机与手机)和综合属性(例如:家庭地址的表达方式,xx省xx市...)。
②数据正则化:移除空格等符号、输入错误类的拓扑错误以及用正式名称替换昵称和缩写等。
(2)分块:基于N-Grams的Hash函数分块方法在所有实体对中选出潜在匹配的记录作为候选项,并尽可能缩小候选项的大小。
(3)负载均衡:使用多次Map-Reduce操作均衡所有块中实体数目,从而保证分块对性能的提升程度。
(4)记录链接:包括实体相似度计算和属性相似度计算。
①实体相似度计算:使用聚类的方法如层次聚类,相关性聚类计算实体相似度
②属性相似度计算:采用基于stacking等有监督的机器学习算法,根据匹配属性的记录特征计算属性相似度。
(5)结果评估:计算准确率、召回率、F值以及计算时间等。
经过上述流程,城市市政基础设施应急知识图谱已经确定,然而在实际生活中,为了便于城市市政基础设施应急知识图谱的利用,需要对其进行存储和显示操作,且城市是处于不断变化的,需要及时对城市市政基础设施应急知识图谱进行更新。例如:
使用Neo4j图数据库的存储方式将三元组数据中的实体、属性部分存储为相应的节点,属性关系、语义关系存储为边,实现从概念、属性、实例等多个维度对城市市政基础设施应急领域知识图谱进行展示。
如图10所示,作为一种实施例,城市市政基础设施应急知识图谱构建流程包括:
(1)获取与处理城市市政基础设施应急数据
获取城市市政基础设施应急相关的原始资料与数据,包括现有关系数据库中提取的地形、地貌、河流、植被等自然地理信息数据,居民点、交通网、人口等基础数据,主要防护目标、重大危险源等重点对象数据以及组织体系等结构化数据表;通过网络爬虫技术采集避难场所、救援物资、医院等应急救援数据,城市市政基础设施应急预案、历史案例,应急相关法律法规、专业文献资料、专业知识等非结构化文本与图片数据。
(2)统一城市市政基础设施应急非结构化数据格式
将非结构化图片数据内容输入到CTC卷积递归神经网络(CRNN-CTC)中进行处理,转换成文字数据,统一非结构数据格式。
(3)检查数据质量、内容
检查已有数据的质量、格式、错别字等是否符合城市市政基础设施应急知识图谱构建要求,若不符合则需要重新对数据进行收集与整理,若符合要求则进行下一步。
(4)构建城市市政基础设施应急知识图谱模式层
完成城市市政基础设施应急数据处理后,需要对城市市政基础设施应急领域内概念及其关系的一种明确的、形式化、规范化的描述说明。针对城市城市市政基础设施应急管理的特点,将本体概念分为通用概念和过程概念两类:通用概念包括人物、组织、时间、自然环境、基础设施和社会关系,过程概念包括事件、活动、交互和干预;并将本体模型的关系抽象为空间关系、结构关系、逻辑关系和过程关系。
(5)城市市政基础设施应急信息抽取
在构建城市市政基础设施应急知识图谱模式层的同时,分别从城市市政基础设施应急关系数据库与文本数据中抽取信息单元。
结构化数据信息抽取:一般具有固定格式和显示结构,采用R2RML映射机制建立关系数据库中概念与知识图谱中本体的对应关系,实现从数据库中自动抽取自动抽取实体、属性及属性值。
非结构化数据信息抽取:基于深度学习的方法对实体和关系、实体属性和属性值联合建模,充分考虑实体与关系、属性与属性值之间的语义相关性,有效解决关系重叠问题,减少误差累积。同时,通过卷积神经网络(CNN)的自动学习能力,可以减少构建大规模语料库的人力耗费,实现多实体关系的自动抽取,提高知识抽取的整体效果,实现实体-关系、实体属性-属性值联合的信息抽取。
(6)检查信息抽取质量
信息抽取是构建知识图谱的基础技术,能够从大规模数据中获取结构化的实体、实体属性以及实体关系信息,信息抽取的质量直接影响到城市市政基础设施应急知识图谱构建的逻辑。若信息抽取质量不符合要求,则需要重新设计R2RML映射机制,训练深度学习网络模型等,若符合要求则进行信息融合。
(7)城市市政基础设施应急信息融合
经过信息抽取后的信息单元间的关系缺乏层次性和逻辑性,同时存在大量冗余甚至错误的信息碎片,通过信息融合将关于同一个实体或概念的多源描述信息融合起来,进行数据整合、消歧、加工、验证等,将孤立的知识图谱集成到一起。
(8)检查信息融合程度
信息融合是构建知识图谱的关键技术,解决存在数据质量如命名模糊、数据丢失、数据格式不统一等问题。若信息融合后仍存在实体不匹配,模式部对齐的情况,则需要重新融合实体与属性信息,若符合要求则进行知识加工。
(9)城市市政基础设施应急知识加工
经过信息融合完成了实体匹配及模式对齐,得到的一系列事实表达并不等同于知识,还需要对其进行知识加工获得结构化、网络化的知识体系,包括本体构建、知识推理和质量评估工作。
(10)城市市政基础设施应急知识存储
使用Neo4j图数据库的存储方式将三元组数据中的实体、属性部分存储为相应的节点,属性关系、语义关系存储为边。
(11)城市市政基础设施应急知识更新
城市市政基础设施应急领域在不断地更新相关信息资料,为了保障知识的时效性,有必要对已建立的知识图谱进行增量更新,包括新增或更新实体、关系、属性以及属性值。
(12)检查知识更新完成情况
及时检查知识更新完成情况有助于完整、准确地构建城市市政基础设施应急知识图谱,若知识更新后知识图谱结构或内容未发生相应地变化,则需要重新对数据进行检查,逐一进行信息抽取、信息融合、知识加工,知识存储以及知识更新工作,若符合要求则完成知识图谱更新。
实施例2
图11为本发明实施例2提供的城市市政基础设施应急知识图谱确定系统结构示意图。如图11所示,本实施例中的城市市政基础设施应急知识图谱确定系统,包括:
目标数据获取模块201,用于获取目标数据;目标数据为待抽取城市市政基础设施应急文本数据。
模式层构建模块202,用于利用本体的思想,构建城市市政基础设施应急知识图谱模式层。
第一抽取模块203,用于将目标数据输入至实体识别模型中,得到识别应急实体后的应急文本数据;实体识别模型是基于BiLSTM-CRF网络构建的,BiLSTM-CRF网络包括双向长短记忆网络和条件随机场网络。
第二抽取模块204,用于将识别应急实体后的应急文本数据输入至属性关系抽取模型中,得到多个初始抽取结果;初始抽取结果为待抽取城市市政基础设施应急文本数据中实体、实体对应的属性以及实体与属性的关系的数据组;属性关系抽取模型是基于注意力机制的卷积神经网络构建的。
知识图谱确定模块205,用于根据各初始抽取结果和城市市政基础设施应急知识图谱模式层,确定城市市政基础设施应急知识图谱。
实施例3
一种设备,包括:
一个或多个处理器。
存储装置,其上存储有一个或多个程序。
当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现如实施例1中的城市市政基础设施应急知识图谱确定方法。
作为一种可选的实施方式,存储器为可读存储介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (6)
1.一种城市市政基础设施应急知识图谱确定方法,其特征在于,所述方法包括:
获取目标数据;所述目标数据为待抽取城市市政基础设施应急文本数据;
利用本体的思想,构建城市市政基础设施应急知识图谱模式层;
将所述目标数据输入至实体识别模型中,得到识别应急实体后的应急文本数据;所述实体识别模型是基于BiLSTM-CRF网络构建的,所述BiLSTM-CRF网络包括双向长短记忆网络和条件随机场网络;
将所述识别应急实体后的应急文本数据输入至属性关系抽取模型中,得到多个初始抽取结果;所述初始抽取结果为所述待抽取城市市政基础设施应急文本数据中实体、实体对应的属性以及实体与属性的关系的数据组;所述属性关系抽取模型是基于注意力机制的卷积神经网络构建的;
根据各所述初始抽取结果和所述城市市政基础设施应急知识图谱模式层,确定城市市政基础设施应急知识图谱;
根据各所述初始抽取结果和所述城市市政基础设施应急知识图谱模式层,确定城市市政基础设施应急知识图谱,具体包括:
利用聚类方法,将表示相同含义的实体所在的初始抽取结果进行融合,得到融合后的抽取结果;
将各融合后的抽取结果输入至城市市政基础设施应急知识图谱模式层中,得到城市市政基础设施应急知识图谱。
2.根据权利要求1所述的城市市政基础设施应急知识图谱确定方法,其特征在于,所述实体识别模型的训练过程,具体包括:
获取训练用城市市政基础设施应急文本数据集;
利用BIOES标注方法对所述训练用城市市政基础设施应急文本数据集中的实体进行标注,得到实体标注后的应急文本数据集;
以所述训练用城市市政基础设施应急文本数据集作为输入,以所述实体标注后的应急文本数据集作为输出,对所述BiLSTM-CRF网络进行训练,得到所述实体识别模型。
3.根据权利要求2所述的城市市政基础设施应急知识图谱确定方法,其特征在于,所述属性关系抽取模型的训练过程,具体包括:
利用BIOES标注方法对所述实体标注后的应急文本数据集进行各文本的属性和关系的标注,得到标注属性和关系后的应急文本数据集;
利用标注属性和关系后的应急文本数据集,对所述基于注意力机制的卷积神经网络进行训练,得到所述属性关系抽取模型。
4.一种城市市政基础设施应急知识图谱确定系统,其特征在于,所述系统包括:
目标数据获取模块,用于获取目标数据;所述目标数据为待抽取城市市政基础设施应急文本数据;
模式层构建模块,用于利用本体的思想,构建城市市政基础设施应急知识图谱模式层;
第一抽取模块,用于将所述目标数据输入至实体识别模型中,得到识别应急实体后的应急文本数据;所述实体识别模型是基于BiLSTM-CRF网络构建的,所述BiLSTM-CRF网络包括双向长短记忆网络和条件随机场网络;
第二抽取模块,用于将所述识别应急实体后的应急文本数据输入至属性关系抽取模型中,得到多个初始抽取结果;所述初始抽取结果为所述待抽取城市市政基础设施应急文本数据中实体、实体对应的属性以及实体与属性的关系的数据组;所述属性关系抽取模型是基于注意力机制的卷积神经网络构建的;
知识图谱确定模块,用于根据各所述初始抽取结果和所述城市市政基础设施应急知识图谱模式层,确定城市市政基础设施应急知识图谱;
根据各所述初始抽取结果和所述城市市政基础设施应急知识图谱模式层,确定城市市政基础设施应急知识图谱,具体包括:
利用聚类方法,将表示相同含义的实体所在的初始抽取结果进行融合,得到融合后的抽取结果;
将各融合后的抽取结果输入至城市市政基础设施应急知识图谱模式层中,得到城市市政基础设施应急知识图谱。
5.一种设备,其特征在于,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至3中任意一项所述的城市市政基础设施应急知识图谱确定方法。
6.根据权利要求5所述的一种设备,其特征在于,所述存储器为可读存储介质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310044599.8A CN116028645B (zh) | 2023-01-30 | 2023-01-30 | 城市市政基础设施应急知识图谱确定方法、系统及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310044599.8A CN116028645B (zh) | 2023-01-30 | 2023-01-30 | 城市市政基础设施应急知识图谱确定方法、系统及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116028645A CN116028645A (zh) | 2023-04-28 |
CN116028645B true CN116028645B (zh) | 2024-04-12 |
Family
ID=86081151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310044599.8A Active CN116028645B (zh) | 2023-01-30 | 2023-01-30 | 城市市政基础设施应急知识图谱确定方法、系统及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116028645B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116541503B (zh) * | 2023-06-05 | 2023-12-08 | 北京建筑大学 | 一种燃气输配系统应急处置辅助决策系统 |
CN116681305B (zh) * | 2023-06-05 | 2024-04-26 | 中国标准化研究院 | 一种基于知识图谱的突发事件应急决策方法 |
CN116777223B (zh) * | 2023-07-31 | 2024-05-10 | 正元地理信息集团股份有限公司 | 一种城市地下管网安全综合风险评估方法及系统 |
CN117252449B (zh) * | 2023-11-20 | 2024-01-30 | 水润天府新材料有限公司 | 一种全透式排水低噪路面施工工艺及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111949779A (zh) * | 2020-07-29 | 2020-11-17 | 交控科技股份有限公司 | 基于知识图谱的轨道交通智能应答方法及系统 |
CN113177124A (zh) * | 2021-05-11 | 2021-07-27 | 北京邮电大学 | 一种垂直领域知识图谱构建方法及系统 |
CN113886596A (zh) * | 2021-09-23 | 2022-01-04 | 同济大学 | 基于城市要素和多灾害融合的韧性城市知识图谱构建方法 |
CN114297410A (zh) * | 2022-01-05 | 2022-04-08 | 田煜 | 一种面向应急物资管理的知识图谱技术的构建方法 |
CN114840685A (zh) * | 2022-04-26 | 2022-08-02 | 国网智能电网研究院有限公司 | 一种应急预案知识图谱构建方法 |
CN115098696A (zh) * | 2022-06-20 | 2022-09-23 | 广州市阿尔法软件信息技术有限公司 | 一种城市体检知识图谱的构建方法、装置及存储介质 |
CN115114455A (zh) * | 2022-07-04 | 2022-09-27 | 电子科技大学 | 一种基于本体的多粒度城市暴雨内涝知识图谱构建方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11334692B2 (en) * | 2017-06-29 | 2022-05-17 | International Business Machines Corporation | Extracting a knowledge graph from program source code |
US10679007B2 (en) * | 2018-08-30 | 2020-06-09 | Intelligent Fusion Technology, Inc. | Method and system for pattern discovery and real-time anomaly detection based on knowledge graph |
-
2023
- 2023-01-30 CN CN202310044599.8A patent/CN116028645B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111949779A (zh) * | 2020-07-29 | 2020-11-17 | 交控科技股份有限公司 | 基于知识图谱的轨道交通智能应答方法及系统 |
CN113177124A (zh) * | 2021-05-11 | 2021-07-27 | 北京邮电大学 | 一种垂直领域知识图谱构建方法及系统 |
CN113886596A (zh) * | 2021-09-23 | 2022-01-04 | 同济大学 | 基于城市要素和多灾害融合的韧性城市知识图谱构建方法 |
CN114297410A (zh) * | 2022-01-05 | 2022-04-08 | 田煜 | 一种面向应急物资管理的知识图谱技术的构建方法 |
CN114840685A (zh) * | 2022-04-26 | 2022-08-02 | 国网智能电网研究院有限公司 | 一种应急预案知识图谱构建方法 |
CN115098696A (zh) * | 2022-06-20 | 2022-09-23 | 广州市阿尔法软件信息技术有限公司 | 一种城市体检知识图谱的构建方法、装置及存储介质 |
CN115114455A (zh) * | 2022-07-04 | 2022-09-27 | 电子科技大学 | 一种基于本体的多粒度城市暴雨内涝知识图谱构建方法 |
Non-Patent Citations (1)
Title |
---|
"多源异构数据应急知识图谱构建与应用研究";李泽荃 等;《华北科技学院学报》;20201231;第17卷(第6期);第94-100页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116028645A (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116028645B (zh) | 城市市政基础设施应急知识图谱确定方法、系统及设备 | |
CN111428053B (zh) | 一种面向税务领域知识图谱的构建方法 | |
CN112347222B (zh) | 一种基于知识库推理的将非标准地址转换为标准地址的方法及系统 | |
CN109657074B (zh) | 基于地址树的新闻知识图谱构建方法 | |
CN113392986A (zh) | 一种基于大数据的公路桥梁信息抽取方法及管理养护系统 | |
CN114077674A (zh) | 一种电网调度知识图谱数据优化方法及系统 | |
CN114003791B (zh) | 基于深度图匹配的医疗数据元自动化分类方法及系统 | |
CN113434634A (zh) | 知识图谱构建方法、装置 | |
CN112948595B (zh) | 城市群运行状态知识图谱构建方法、系统及设备 | |
CN115330268A (zh) | 一种应对矿山灾难的综合性应急指挥方法及系统 | |
CN114138759B (zh) | 基于知识图谱推理的二次设备故障处理推送方法及系统 | |
CN116975256B (zh) | 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统 | |
CN112613611A (zh) | 一种基于知识图谱的税务知识库系统 | |
CN117875412A (zh) | 一种基于知识图谱构建计算机教育知识图谱的方法 | |
CN115495594A (zh) | 基于城市公共设施决策案例的知识图谱融合方法及系统 | |
CN116187812A (zh) | 基于地理知识的耕地资源可持续利用评价方法及系统 | |
CN114860891A (zh) | 一种智慧管网时空图谱构建的方法及装置 | |
CN118013825A (zh) | 多层级多类型城市时空协同设计方法、系统、终端和介质 | |
CN117217602A (zh) | 一种通用化及自动化的无人机任务效能评估指标构建方法 | |
CN116974799A (zh) | 一种基于知识图谱的照明系统的故障诊断方法及系统 | |
CN115827885A (zh) | 一种运维知识图谱的构建方法、装置及电子设备 | |
CN116304070A (zh) | 一种基于知识图谱构建的电网应急处置方案自动生成方法 | |
Luo et al. | Construction and application of knowledge graph for bridge inspection | |
Li et al. | Spatio-temporal data fusion techniques for modeling digital twin City | |
Zhu et al. | PlanGPT: Enhancing urban planning with tailored language model and efficient retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |