CN117993388A

CN117993388A - 一种基于工地施工标准的知识图谱构建方法

Info

Publication number: CN117993388A
Application number: CN202311845729.4A
Authority: CN
Inventors: 张文; 冯敏; 吴强; 朱纯; 李宾皑; 林波; 施红军; 郑伟华; 王玖凯; 赵智刚; 张斗发; 彭启伟; 罗旺; 郝小龙
Original assignee: State Grid Shanghai Electric Power Co Ltd; Nari Information and Communication Technology Co
Current assignee: State Grid Shanghai Electric Power Co Ltd; Nari Information and Communication Technology Co
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-05-07

Abstract

本申请涉及一种基于工地施工标准的知识图谱构建方法，涉及知识图谱技术领域，该方法包括以下步骤：服务器基于施工标准体系，利用自上而下的方式构建工地施工标准的施工标准模式层；基于命名实体识别模型，从工地施工标准文本中抽取与施工标准模式层中各层级对应的实体；基于施工标准模式层以及施工标准模式层对应的实体，获取实体‑关系‑实体数据元，再将数据元进行聚合形成施工标准知识图谱。本方案利用命名实体识别模型从大量施工标准博客信息以及施工标准文本中抽取工地施工标准的施工标准模式层各层级对应的实体，为施工标准知识图谱的构建打下坚实的基础。

Description

一种基于工地施工标准的知识图谱构建方法

技术领域

本申请涉及知识图谱技术领域，具体涉及一种工地施工标准的知识图谱构建方法。

背景技术

知识图谱语义表达能力丰富，采用实体-关系-实体的描述形式，使得不同来源、不同类型的知识都能以统一的形式表达与融合，易于计算机解析处理。目前，知识图谱主要分为通用知识图谱和行业知识图谱。在通用领域，德国莱比锡大学和曼海姆大学的科研人员从多种语言的维基百科中抽取结构化信息，构建了百科类知识图谱DBpedia。复旦大学知识工厂实验室通过抽取、清洗、融合中文百科知识中的文本数据，构建了CN-DBpedia中文通用知识图谱，供机器和人使用。除此之，百度、阿里等国内互联网公司也纷纷构建自己的通用知识图谱，这些通用知识图谱的出现，提升了搜索引擎的搜索速度以及搜索质量，并广泛应用于问答和聊天机器人领域。在金融、医疗、制造业等行业领域，各行各业基于本行业知识构建了行业知识图谱，提高了专业知识的利用能力，打破了行业内信息共享与复用的壁垒。

目前调研知识图谱构建主要包含技术有：1)数据施工标准模式层融合：概念合并，概念上下位关系合并，概念的属性合并，国内外研究学者在这些方面做出了很多贡献。国内知识图谱映射技术主要包括词典wordnet、结构和基于实例的方法，以及使用背景知识和以前的知识找到匹配结果输出。通常，两个相关知识图谱的匹配，输出是由匹配知识图谱概念之间的对应关系组成的知识图谱映射，知识图谱映射对于知识图谱演化和不同的信息集成是有用的，例如知识图谱集成。中国中南大学的Lily知识图谱映射系统在近几年发展较好。国外许多著名的大学和实验室都对知识图谱映射进行了相关的研究，已经开发出一些具体的映射系统和实现方法，如华盛顿大学研究的Glue系统的基于概念实例的方法，斯坦福大学的知识图谱代数方法，马里兰大学的语义消解方法，M.Andrew等提出的利用概念定义的方法，这两种研究虽然都使得实体信息能够在一定程度上进行共享与复用，但也各有一定的局限性。

发明内容

本申请提供一种基于工地施工标准的知识图谱构建方法，为了解决实体信息难以共享以及复用问题，本文提出结合自顶向下的工地施工标准的知识图谱的构建方法。

为实现上述目的，本申请提供以下方案：

第一方面，本申请提供了一种基于工地施工标准的知识图谱构建方法，所述方法包括以下步骤：所述基于施工标准体系，利用自上而下的方式构建工地施工标准的施工标准模式层；基于命名实体识别模型，从工地施工标准文本中抽取与所述施工标准模式层中各层级对应的实体；基于所述施工标准模式层以及所述施工标准模式层对应的实体，获取实体-关系-实体形式的数据元，再将所述数据元进行聚合形成施工标准知识图谱。

进一步的，所述基于施工标准体系，利用自上而下的方式构建工地施工标准的施工标准模式层，包括以下步骤：基于施工标准体系，获取所述施工标准体系中的各个类别；获取所述施工标准体系中的各个类别的概念以及各个类别之间的从属关系；基于所述施工标准体系中的各个类别、各个类别的概念以及各个类别构建工地施工标准的施工标准模式层。

进一步的，所述基于命名实体识别模型，从工地施工标准文本中抽取与所述施工标准模式层中各层级对应的实体，之前包括以下步骤：基于已标定的工地施工标准分析语句训练神经网络模型，获取命名实体识别模型。

进一步的，所述基于命名实体识别模型，从工地施工标准文本中抽取与所述施工标准模式层中各层级对应的实体，包括以下步骤：将工地施工标准文本中各中文字符经过字符编码，得到字符级别的词向量；基于所述词向量，利用BiLSTM网络层获取具有上下文关系的表示向量；基于所述表示向量，利用CRF网络层预测出工地施工标准测试语句的实体分类结果。

进一步的，所述BiLSTM网络层包括双向LSTM层，所述基于所述词向量，利用BiLSTM网络层获取具有上下文关系的表示向量，包括以下步骤：将所述词向量作为输入层分别输入所述双向LSTM层，获取与所述词向量的上文信息与下文信息；基于所述上文信息与下文信息，获取所述词向量的表示向量。

进一步的，所述基于所述表示向量，利用CRF网络层预测出工地施工标准测试语句的实体分类结果，之前包括以下步骤：将所述表示向量输入Attention层，从所述表示向量中进行特征提取，获取增强表示向量。

进一步的，基于所述表示向量，利用CRF网络层预测出工地施工标准测试语句的实体分类结果，包括以下步骤：将所述增强表示向量输入CRF网络层，得全局最优标签序列；利用维特比算法计算整体最大概率的一组标签序列，并将其确定为实体分类结果。

第二方面，本申请提供了一种基于工地施工标准的知识图谱构建装置，所述装置包括：

施工标准模式层构建模块，其用于基于施工标准体系，利用自上而下的方式构建工地施工标准的施工标准模式层；

实体填充模块，其用于基于命名实体识别模型，从工地施工标准文本中抽取与所述施工标准模式层中各层级对应的实体；

数据元聚合模块，其用于基于所述施工标准模式层以及所述施工标准模式层对应的实体，获取实体-关系-实体数据元，再将所述数据元进行聚合形成施工标准知识图谱。

进一步的，所述模型构建模块包括；

类别获取子模块，其用于基于施工标准体系，获取所述施工标准体系中的各个类别；

从属关系获取子模块，其用于获取所述施工标准体系中的各个类别的概念以及各个类别之间的从属关系；

构建子模块，其用于基于所述施工标准体系中的各个类别、各个类别的概念以及各个类别构建工地施工标准的施工标准模式层。

进一步的，所述实体填充模块还用于：基于已标定的工地施工标准分析语句训练神经网络模型，获取命名实体识别模型。

进一步的，所述实体填充模块包括：

词向量获取子模块，其用于将工地施工标准文本中各中文字符经过字符编码，得到字符级别的词向量；

表示向量获取子模块，其用于基于所述词向量，利用BiLSTM网络层获取具有上下文关系的表示向量；

预测子模块，其用于基于所述表示向量，利用CRF网络层预测出工地施工标准测试语句的实体分类结果。

进一步的，所述表示向量获取子模块，包括：

上下文信息获取单元，其用于将所述词向量作为输入层分别输入所述双向LSTM层，获取与所述词向量的上文信息与下文信息；表示向量生成单元，其用于基于所述上文信息与下文信息，获取所述词向量的表示向量。

进一步的，所述预测子模块还用于将所述表示向量输入Attention层，从所述表示向量中进行特征提取，获取增强表示向量。

进一步地，所述预测子模块还包括：

标签序列单元，其用于将所述增强表示向量输入CRF网络层，得全局最优标签序列；

计算单元，其用于利用维特比算法计算整体最大概率的一组标签序列，并将其确定为实体分类结果。

本申请提供的技术方案带来的有益效果包括：

本申请中服务器基于施工标准体系，利用自上而下的方式构建工地施工标准的施工标准模式层；基于命名实体识别模型，从工地施工标准文本中抽取与施工标准模式层中各层级对应的实体；基于施工标准模式层以及施工标准模式层对应的实体，获取实体-关系-实体数据元，再将数据元进行聚合形成施工标准知识图谱。本方案利用命名实体识别模型从大量施工标准博客信息以及施工标准文本中抽取工地施工标准的施工标准模式层各层级对应的实体，为施工标准知识图谱的构建打下坚实的基础。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中提供的基于工地施工标准的知识图谱构建方法的步骤流程图；

图2为本申请实施例中施工标准模式层方法的步骤流程图；

图3为本申请实施例中实体填充方法的步骤流程图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图对本申请的实施例作进一步详细说明。

本申请实施例提供一种基于工地施工标准的知识图谱构建方法，为达到上述技术效果，本申请的总体思路如下：

参见图1所示，一种基于工地施工标准的知识图谱构建方法，该方法包括以下步骤：

S1、基于施工标准体系，利用自上而下的方式构建工地施工标准的施工标准模式层；

可以理解的是，通用知识图谱由于其数据大多来源于网络、百科全书等，数据量大，大多采用自底向上的方式构建；行业知识图谱由于其数据具有一定的领域性，施工标准信息中蕴含大量施工标准领域的专业名词，具有一定的领域性，然而由于标准不一，描述不统一，工地施工标准信息中又有大量的不规范数据。

具体地，基于施工标准体系，获取施工标准体系中的各个类别；获取施工标准体系中的各个类别的概念以及各个类别之间的从属关系；基于施工标准体系中的各个类别、各个类别的概念以及各个类别构建工地施工标准的施工标准模式层。

施工标准体系主要分为施工现场条件标准以及各类工程施工标准；其中各类工程施工标准可以包括地基及桩基工程施工标准、结构工程施工标准、安装工程施工标准；其中：

施工现场条件标准包括施工现场质量管理条例以及质量责任制度、施工操作标准、施工组织方案以及施工质量目标；各类工程施工标准包括工程性能检测、工程质量记录、工程尺寸偏差以及工程观感质量。当工程施工标准为地基及桩基施工标准时，地基及桩基工程施工标准包括地基及桩基工程性能检测、地基及桩基工程质量记录、地基及桩基工程尺寸偏差以及地基及桩基工程观感质量。

具体地，将施工标准体系中的施工现场条件标准以及各类工程施工标准作为施工标准模式层的第一层，将工程性能检测、工程质量记录、工程尺寸偏差以及工程观感质量作为施工标准模式层的第二层，将第一层以及第二层的各类别自上而下组建施工标准模式层。

S2、基于命名实体识别模型，从工地施工标准文本中抽取与所述施工标准模式层中各层级对应的实体；

S3、基于施工标准模式层以及施工标准模式层对应的实体，获取实体-关系-实体数据元，再将数据元进行聚合形成施工标准知识图谱。

本申请实施例利用命名实体识别模型从大量施工标准博客信息以及施工标准文本中抽取工地施工标准的施工标准模式层各层级对应的实体，为工地施工标准知识图谱的构建打下坚实的基础。。

在一实施例中，步骤S1包括：

S101、基于施工标准体系，获取施工标准体系中的各个类别；

需要说明的是，施工标准体系主要分为施工现场条件标准以及各类工程施工标准，将施工现场条件标准以及各类工程施工标准确定为第一类别。

S102、获取施工标准体系中的各个类别的概念以及各个类别之间的从属关系；

其中工程施工标准中可以包括地基及桩基工程施工标准、结构工程施工标准、安装工程施工标准。

施工现场条件标准中的各类别包括施工现场质量管理条例以及质量责任制度、施工操作标准、施工组织方案以及施工质量目标；

工程施工标准的类别包括工程性能检测、工程质量记录、工程尺寸偏差以及工程观感质量。例如，当工程施工标准为地基及桩基施工标准时，地基及桩基工程施工标准的类别包括地基及桩基工程性能检测、地基及桩基工程质量记录、地基及桩基工程尺寸偏差以及地基及桩基工程观感质量。

S103、基于施工标准体系中的各个类别、各个类别的概念以及各个类别构建工地施工标准的施工标准模式层。

在一申请实施例中，步骤S2包括：

S201、将工地施工标准文本中各中文字符经过字符编码，得到字符级别的词向量；

S202、基于词向量，利用BiLSTM网络层获取具有上下文关系的表示向量；

LSTM的一种，指一类具有记忆单元的循环神经网络，由于其设计的特点，非常适合用于对时序数据的建模。每个LSTM单元由当前时刻的输入词、细胞状态、临时细胞状态、隐层状态、遗忘门、记忆门、输出门组成。它通过遗忘门遗忘不需要的信息，利用记忆门需要记忆的信息，从而将有用的信息保留，无用的信息被丢弃。因此，LSTM可以很好地捕捉到较长距离的依赖关系，然而LSTM只能编码从前到后的信息，无法得到从后到前的信息。在序列标注等任务中每个字的标签与上下文联系都很紧密，因此本方案采用BiLSTM模型进一步提升模型利用上下文信息的能力。

具体地，将词向量作为输入层分别输入BiLSTM网络层中的双向LSTM层，获取与词向量的上文信息与下文信息，基于上文信息与下文信息，获取词向量的表示向量。

S203、基于表示向量，利用CRF网络层预测出工地施工标准测试语句的实体分类结果。

其中，BiLSTM关注更多的是求出每一个输入对应的最大概率标签，将每一个标签看成独立的存在，没有考虑标签之间的依赖关系，这样有可能会导致不合理标签的出现。如命名实体开始标签应该为B，而识别出来以I开头的标签序列。为了避免类似情况出现，在Attention层后增加条件随机场CRF层，CRF层能够考虑到相邻标签之间的关系，从而获得全局最优标签序列。

一般地，输入序列X＝{x₁,x₂,…,x_n}对应的标签序列为Y＝{y₁,y₂,…,y_n}的评分如下式：

式中，A为转移矩阵；n为序列长度。

在输入序列x的条件下产生标记序列y的概率如下式：

训练过程中，p(y|x)的最大后验概率如下式：

式中，YX为输入序列X对应的所有可能的标签序列；

预测时，一般使用维特比算法计算整体最大概率的一组标签序列，

预测结果记为y*。

在本实施例中，采用BiLSTM模型可以进一步提升模型利用上下文信息的能力，从而提升命名实体识别模型对实体识别的准确率。

在一申请实施例中，基于已标定的工地施工标准分析语句训练神经网络模型，获取命名实体识别模型。

工地施工标准知识图谱的数据来源主要来自于已有的施工标准分析文档、领域行业网站等半结构数据，专业文献资料等非结构化数据。本文共提取了8655条施工标准分析语句进行命名实体识别模型训练，并将语料集以8∶1∶1的比例划分成训练集、测试集和验证集。数据标注是命名实体识别的基础，将数据标记成模型能够识别的格式，进而开展模型训练、评估等工作。

在一实施例中，基于表示向量，利用CRF网络层预测出工地施工标准测试语句的实体分类结果，之前包括以下步骤：

将表示向量输入Attention层，从表示向量中进行特征提取，获取增强表示向量。

当施工标准信息序列过长时，施工标准信息会被弱化，信息可能被丢失。针对此问题，本文引入注意力机制。Attention机制就像人在看图片时会快速定位关键信息，把握重要的信息，将有限的注意力集中在重点信息上从而防止信息丢失，快速获得有效信息。注意力机制主要包含查询(query)、键(key)、值(value)三要素，其本质可描述为查询(query)到一系列键值对(key-value)的映射。在本实施例中，Attention层可以是放缩点积注意力机制。

在本实施例中，考虑到自建的施工标准语料规模较少，使用一个Attention机制无法从多维度、多层次提取重要特征，特征提取效果弱。本文采用多头自注意力机制进行特征提取，以使得命名实体识别模型能够提取更加丰富的表达向量。

第二方面，基于与工地施工标准的知识图谱构建方法实时例相同的发明构思，本申请实施例提供一种工地施工标准的知识图谱构建的装置，该装置包括：

本方案利用命名实体识别模型从大量施工标准博客信息以及施工标准文本中抽取工地施工标准的施工标准模式层各层级对应的实体，为水务知识图谱的构建打下坚实的基础。

需要说明的是，本申请实施例提供的基于工地施工标准的知识图谱构建装置，其对应的技术问题、技术手段以及技术效果，从原理层面与基于工地施工标准的知识图谱构建方法的原理类似。

第二方面，本申请实施例提供一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器执行时实现第一方面提及的方法。

第三方面，本申请实施例提供一种电子设备，包括存储器和处理器，存储器上储存有在处理器上运行的计算机程序，该处理器执行计算机程序时实现第一方面提及的基于工地施工标准的知识图谱构建方法。

需要说明的是，在本申请中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于工地施工标准的知识图谱构建方法，其特征在于，所述方法包括以下步骤：

基于施工标准体系，利用自上而下的方式构建施工标准施工标准模式层；

基于命名实体识别模型，从工地施工标准文本中抽取与所述施工标准模式层中各层级对应的实体；

基于所述施工标准模式层以及所述施工标准模式层对应的实体，获取实体-关系-实体形式的数据元，再将所述数据元进行聚合形成施工标准知识图谱。

2.如权利要求1所述基于工地施工标准的知识图谱构建方法，其特征在于，所述基于施工标准体系，利用自上而下的方式构建工地施工标准的施工标准模式层，包括以下步骤：

基于施工标准体系，获取所述施工标准体系中的各个类别；

获取所述施工标准体系中的各个类别的概念以及各个类别之间的从属关系；

基于所述施工标准体系中的各个类别、各个类别的概念以及各个类别构建工地施工标准的施工标准模式层。

3.如权利要求1所述基于工地施工标准的知识图谱构建方法，其特征在于，所述基于命名实体识别模型，从工地施工标准文本中抽取与所述施工标准模式层中各层级对应的实体，之前包括以下步骤：

基于已标定的工地施工标准分析语句训练神经网络模型，获取命名实体识别模型。

4.如权利要求1所述基于工地施工标准的知识图谱构建方法，其特征在于，所述基于命名实体识别模型，从工地施工标准文本中抽取与所述施工标准模式层中各层级对应的实体，包括以下步骤：

将工地施工标准文本中各中文字符经过字符编码，得到字符级别的词向量；

基于所述词向量，利用BiLSTM网络层获取具有上下文关系的表示向量；

基于所述表示向量，利用CRF网络层预测出工地施工标准测试语句的实体分类结果。

5.如权利要求4所述基于工地施工标准的知识图谱构建方法，其特征在于，所述BiLSTM网络层包括双向LSTM层，所述基于所述词向量，利用BiLSTM网络层获取具有上下文关系的表示向量，包括以下步骤：

将所述词向量作为输入层分别输入所述双向LSTM层，获取与所述词向量的上文信息与下文信息；基于所述上文信息与下文信息，获取所述词向量的表示向量。

6.如权利要求5所述基于工地施工标准的知识图谱构建方法，其特征在于，所述基于所述表示向量，利用CRF网络层预测出工地施工标准测试语句的实体分类结果，之前包括以下步骤：

将所述表示向量输入Attention层，从所述表示向量中进行特征提取，获取增强表示向量。

7.如权利要求5所述基于工地施工标准的知识图谱构建方法，其特征在于，所述基于所述表示向量，利用CRF网络层预测出工地施工标准测试语句的实体分类结果，包括以下步骤：

将所述增强表示向量输入CRF网络层，得全局最优标签序列；

利用维特比算法计算整体最大概率的一组标签序列，并将其确定为实体分类结果。

8.一种基于工地施工标准的知识图谱构建装置，其特征在于，所述装置包括：

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。