CN110362693A

CN110362693A - 一种业扩工程图纸知识图谱构建方法

Info

Publication number: CN110362693A
Application number: CN201910672972.8A
Authority: CN
Inventors: 梁永昌
Original assignee: Guangdong Power Grid Co Ltd; Dongguan Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Dongguan Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2019-10-22

Abstract

本发明提供了一种业扩工程图纸知识图谱构建方法，该方法包括：S1，获取业扩工程图纸数据；S2，从业扩工程图纸数据中抽取目标实体；S3，根据目标实体构建频繁项集，得到指定类的实体组；S4，构建知识图谱中的节点，计算节点的之间的强度，得到业扩工程知识图谱。本发明针对大量工程图纸历史档案数据，从中提取出有效的目标实体，并将目标实体与工程要求构建为节点，建立不同目标实体之间的关系，从而形成业扩工程图纸知识图谱，为工程设计提供较为可靠的参考方案，提高生产效率。

Description

一种业扩工程图纸知识图谱构建方法

技术领域

本发明涉及知识图谱构建技术领域，尤其涉及一种业扩工程图纸知识图谱构建方法。

背景技术

随着人工智能技术的发展，知识图谱的研究和应用引起广泛关注。知识图谱的作用主要是将结构化以及非结构化数据构建成一个具有有向图结构的知识库，从而实现智能搜索或者推荐的功能。

在工业生产中，由于其复杂的生产环境，相比其他领域具有较强的专业性，在构建知识图谱时较为困难，特别是工程图纸的知识图谱的构建，因为工程图纸中往往会有各种器件图形以及标注，导致实体所在的文本信息不完备，背景知识不足、信息描述模糊。关系抽取困难，准确率低。目前尚未有比较完善的业扩工程图纸知识图谱，工程设计人员在进行设计时，往往需要花费大量的时间和精力去查阅海量的历史档案，浪费了大量的时间和人力成本。

发明内容

为了解决上述的缺点和不足，提出了一种针对业扩工程图纸的知识图谱构建方法。

本发明是通过以下技术方案得以实现：

一种业扩工程图纸知识图谱构建方法，包括以下步骤：

S1，获取业扩工程图纸数据；

S2，从业扩工程图纸数据中抽取目标实体；

S3，根据目标实体构建频繁项集，得到指定类的实体组；

S4，构建知识图谱中的节点，计算节点的之间的强度，得到业扩工程知识图谱。

可选的，所述步骤S1包括从大量业扩工程图纸历史档案中获取文本数据，形成业扩工程图纸数据。

可选的，所述步骤S2包括：

S2.1，明确需要抽取的实体类型，标注训练数据；

S2.2，采用自然语言处理的技术对所述训练数据集建立分词模型；

S2.3，从分词模型中抽取对应的目标实体。

可选的，所述步骤S3包括：

S3.1，采用seq2seq算法确定目标实体指定为类实体的频繁项集；

S3.2，根据所述的类实体的频繁项集，得到指定类的实体组。

可选的，所述步骤S4包括：

S4.1，将目标实体与工程要求相结合，构建知识图谱中的节点；

S4.2，计算每一节点之间的强度指标；

S4.3，根据节点之间的强度，确定各个实体之间的关联性，得到最终的业扩工程知识图谱。

采用上述技术方案后，本发明至少具备以下优点和有益效果：

1)本发明所述一种业扩工程图纸知识图谱构建方法能根据业扩工程图纸历史档案数据建立一个具有较强关联的业扩工程图纸知识图谱，为工程设计提供推荐方案，同时完善工程图纸的设计，提高了生产效率；

2)本发明所述一种业扩工程图纸知识图谱构建方法，步骤清晰，功能完善，可扩展性强，可以推广至其他图纸类知识图谱的构建中；

3)本发明所述一种业扩工程图纸知识图谱构建方法采用深度学习相关算法，能够建立较为稳定的实体模型。

附图说明

图1为本发明所述一种业扩工程图纸知识图谱构建方法的流程图；

图2为本发明所述一种业扩工程图纸知识图谱构建方法步骤S2的流程图；

图3为本发明所述一种业扩工程图纸知识图谱构建方法步骤S3的流程图；

图4为本发明所述一种业扩工程图纸知识图谱构建方法步骤S4的流程图；

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本申请作进一步详细说明。应当理解，此处所描述的具体实施实例仅用以解释本发明，并不限定本发明。基于本发明中的实例，相关技术人员在没有做出创造性劳动前所获得的所有其他实施实例，均属于本发明保护范围内。

实施实例1：

如图1所示，为本发明一种业扩工程图纸知识图谱构建方法的流程图。

基于大量业扩工程图纸数据，提出了一种为工程设计提供建议方案，完善设计方案，提高生产效率的业扩工程图纸知识图谱构建方法。

其方法包括以下步骤：

S1，获取文本数据，并对文本数据进行预处理，得到训练数据集；

S2，对所述训练数据集进行训练，得到目标实体模型；

S3，确定指定类实体的频繁项集，得到所述指定类的实体组；

S4，将所述目标实体以及工程要求作为知识图谱中的节点，得到业扩工程知识图谱。

针对大量历史工程图纸数据，从中提取有效的目标实体，并分析他们之间的关联性，从而形成知识图谱。

知识图谱旨在描述现实世界中存在的实体以及实体之间的关系，通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，为科学研究以及工业生产提供切实、有价值的参考。目前，随着人工智能技术的发展，已经广泛用于智能搜索、问答系统，专家系统以及个性化推荐等领域。但目前知识图谱在工程图纸上的应用还相对较少，从而导致工程设计人员在进行设计时，需要查阅大量的历史文档，因此通过知识图谱技术为工程设计人员提供一种参考设计方案，将大大提高设计效率。

本实施实例主要是针对电力系统设计等工程图纸数据进行实体抽取。首先需要获取大量的电力系统设计相关工程图纸历史档案数据，在此步骤之上，进行后续的分析操作过程。

如图2所示，为本发明所述一种业扩工程图纸知识图谱构建方法步骤S2的流程图。

S2，采用目前主流的自然语言处理技术进行分词，抽取目标实体。

分析电力系统工程图纸中相关的实体，例如电子元器件的符号、型号、参数或者相关描述，建立电力系统领域的词典并进行标注，确保专业词组能够被分词分出。使用相关自然语言处理工具，对文本数据进行分词、词性标注、命名实体标注。

所述步骤S2包括：

S2.1，明确需要抽取的实体类型，标注训练数据；

S2.3，从分词模型中抽取对应的目标实体。

如图3所示，为本发明所述一种业扩工程图纸知识图谱构建方法步骤S3的流程图。

S3，根据步骤2中抽取的电力系统设计中目标实体，采用seq2seq算法确定目标实体指定为类实体的频繁项集，所谓频繁项集是指在一系列集合中，具有的相同的元素在一定的阈值条件下，所形成的一个子集。根据这些频繁项集就可以计算集合之间的相似性，从而构建指定的实体组。

频繁项集主要指标是指可信度和兴趣度，可信度是指频繁项F与某项j的并集(即F{j})的支持度与频繁项集F的支持度的比值，兴趣度是指F{j}可信度与包含{j}的集合比率之间的差值。若兴趣度很高，则频繁项集F会促进j的存在，若兴趣度为负值，且频繁项集会抑制j的存在；若兴趣度为0则频繁项集对j无太大影响。频繁项集与某项j的关系就是关联规则。

所述步骤S3包括：

S3.2，根据所述的类实体的频繁项集，得到指定类的实体组。

seq2seq算法是一种通过的编码器，在本实例中主要采用循环神经网络将目标实体翻译成一种编码格式，并构建相应的频繁项集，通过频繁项集构建实体组之后在进行解码为对应的目标实体。

如图4所示，为本发明所述一种业扩工程图纸知识图谱构建方法步骤S4的流程图。

S4，构建知识图谱节点，通过计算节点之间的强度，训练关系型模型，从而得到知识图谱。

节点是图数据库的基本元素，表示一个实体记录，相当于关系数据库中的一条记录。节点一般可以包括多个属性和标签。关系是图数据库中的基本元素，当数据库中存在节点后，需要将节点连接起来构成图。关系用来连接两个节点，也称为图论的边(Edge)，起始端和结束端都必须是节点，关系不能从空发起，关系可以包含多个属性。

节点之间在原始强度的基础之上，不断通过优化算法计算新的强度，更新节点之间的关系，从而建立一个稳定的知识图。

所述步骤S4包括：

S4.2，计算每一节点之间的强度指标；

本发明所属技术领域的技术人员可以对所描述的具体实例做各种各样的修改或补充或采用类似的方法替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种业扩工程图纸知识图谱构建方法，其特征在于，包括以下步骤：

S1，获取业扩工程图纸数据；

S2，从业扩工程图纸数据中抽取目标实体；

S3，根据目标实体构建频繁项集，得到指定类的实体组；

2.根据权利要求1所述的业扩工程图纸知识图谱构建方法，其特征在于，所述步骤S1包括从大量业扩工程图纸历史档案中获取文本数据，形成业扩工程图纸数据。

3.根据权利要求1所述的业扩工程图纸知识图谱构建方法，其特征在于，所述步骤S2包括：

S2.1，明确需要抽取的实体类型，标注训练数据；

S2.3，从分词模型中抽取对应的目标实体。

4.根据权利要求1所述的业扩工程图纸知识图谱构建方法，其特征在于，所述步骤S3包括：

S3.2，根据所述的类实体的频繁项集，得到指定类的实体组。

5.根据权利要求1所述的业扩工程图纸知识图谱构建方法，其特征在于，所述步骤S4包括：

S4.2，计算每一节点之间的强度指标；