CN112883197B

CN112883197B - 一种用于封闭开关设备的知识图谱构建方法与系统

Info

Publication number: CN112883197B
Application number: CN202110188162.2A
Authority: CN
Inventors: 尹旷; 钟连宏; 陈曦; 方健; 喇元; 莫文雄; 王红斌; 覃煜
Original assignee: Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2023-02-07
Anticipated expiration: 2041-02-08
Also published as: CN112883197A

Abstract

本发明属于计算机及信息服务技术领域，涉及一种用于封闭开关设备的知识图谱构建方法与系统。本发明包括从封闭开关设备质量检验报告的扫描图像中识别文本数据；对识别出的设备描述的文字信息进行文本标注，标注出每句中描述设备属性的三元组关系(实体，关系，实体属性)；构建基于BERT的关系三元组抽取模型；基于训练好的三元组抽取模型，对测试样本进行关系抽取，获取描述设备属性的三元组关系，然后构建关系知识图谱，将测试样本的关系知识图谱与标准设备关系知识图谱进行比对，实现设备检验。本发明可广泛应用于扫描图像的文字提取、命名识别、关系抽取、知识图谱构建等领域。

Description

一种用于封闭开关设备的知识图谱构建方法与系统

技术领域

本发明属于计算机及信息服务技术领域，特别涉及对特定扫描图像的语义解析与知识图谱构建的方法和系统。

背景技术

知识图谱以结构化的形式描述客观世界中概念、实体及其之间的关系，已经成为结构化知识集成的重要任务。

封闭开关设备质量检验报告是对特定设备的检验报告，包括封闭开关设备的整体性能、零部件性能、运行性能等方面测试结果的综合报告。现阶段，封闭开关设备的质量检验报告的验收需要通过人工完成，耗费人力，而通过构造封闭开关设备质量的标准知识图谱，则可以自动化的方式完成设备检验报告的智能理解与自动验收。而该项技术的难点在于检验报告以非结构化的形式呈现，需要首先对其进行文字识别，再在语义层面上对其中的命名实体和关系进行抽取，进而构建知识图谱。

目前，构建知识图谱的关键性技术在于实体关系抽取，按照机器学习的方法对于语料库的不同需求大致可以分为三类：无监督关系抽取、有监督关系抽取和弱监督关系抽取。无监督关系抽取希望把相同关系的模版聚合起来，不需要人工标注的数据，自动地提取出来实体关系。有监督关系抽取是使用人工标注的语料进行训练，这种方法是目前取得效果最好的，但是需要大量的人力标注，费时费力。还有学者提出利用知识库回标文本自动获取大量的弱监督数据，但是准确率不高。

发明内容

本发明针对现有封闭开关设备质量检验的不足之处，提出了一种用于封闭开关设备的知识图谱构建方法与系统。

本发明对标准质量检验报告的扫描图像进行基于BERT(Bidirectional EncoderRepresentation from Transformers)的命名实体与实体关系抽取，从而构建标准封闭开关设备信息的知识图谱，再对测试样本进行关系抽取进行比对，从而实现设备合格性的检验。

本发明的技术方案为一种用于封闭开关设备的知识图谱构建方法，包括如下步骤：

步骤1，对标准封闭开关设备质量检验报告扫描图像进行光学文字识别，提取扫描图像中对设备描述的文字信息；

步骤2，对识别出的设备描述的文字信息进行文本标注，将一段话的所有子句直接拼接为一个句子，拼接的句子不超过N个字，超过的部分作为第二个句子，以句子为单位，标注出每句中描述设备属性的三元组关系(实体，关系，实体属性)；

步骤3，构建基于BERT的关系三元组抽取模型，所述三元组抽取模型包括针对封闭开关设备描述文本的关系抽取模型和实体识别模型，所述关系抽取用于抽取出文字信息中每个句子含义的所有关系，所述实体识别模型用于对每个句子与对应关系识别出实体和实体属性；

步骤4，对需要进行验证的开关设备质量检验报告扫描图像进行光学文字识别之后得到测试样本，基于训练好的三元组抽取模型，对测试样本进行关系抽取，获取描述设备属性的三元组关系，然后将实体和实体属性作为节点，关系作为边，形成图结构的关系知识图谱，并对标准封闭开关设备构建关系知识图谱，将测试样本的关系知识图谱与标准设备关系知识图谱进行比对，实现设备检验。

进一步的，步骤1的具体实现方式为，选取标准封闭开关设备的质量检验报告扫描图像一份，基于tesseract对扫描图像进行文字识别，选取其中描述开关设备的正文部分。

进一步的，三元组抽取模型的具体实现过程如下；

首先，进行关系抽取，输入步骤1得到的开关设备正文部分，基于中文预训练的BERT模型提取文字特征，所述BERT模型包括输入层和多个编码层；在BERT模型后面加一层全连接层，使用sigmoid函数作为损失函数，将关系抽取模型转化为分类任务，类别是针对封闭开关设备的所有需要检验的关系，得到关系抽取结果；

其次，输入关系抽取结果和步骤1的正文部分的拼接，基于BERT搭建一个实体识别模型，模型分为三层，第一层为相同的中文预训练BERT模型，第二层为全连接层，第三层为损失函数层，在损失函数部分加入关系损失和实体标识损失，损失函数均使用softmax函数，将实体识别任务转化为一个多标签分类模型，标签种类限定为“实体”、“实体属性”、“非实体”三种类型，输入句子通过实体识别模型得到每个字为实体或实体属性的概率，训练得到概率最大的类型为当前字的类型，然后将多个连续同为实体或者同为实体属性的字连成一个词。

进一步的，所述BERT模型的输入层的编码向量是3个嵌入特征的单位和，这三个嵌入特征是：1)词嵌入，即将词库长度向量映射为固定长度特征向量，词库为标注语料中所包含所有不同字的统计；2)位置嵌入，将每个字的位置信息编码成特征向量；3)分割嵌入，用于区分以逗号相隔的多个子句，即不同子句用不同编码表示，相同子句中的每个字用相同编码表示；

编码层由Multi-Head Self Attention和Feed-Forward network两个部分构成，Multi head self attention和Feed forward network之后都接了一层normalize归一化层，其中，Multi-Head Self Attention的计算过程为使用多个不同参数初始化的Attention相加得到，通过输入层编码向量的自注意实现单个句子的进一步编码，Attention计算公式为，

其中Q,K,V为输入层编码向量乘以权重W_Q,W_K,W_V分别得到的向量，代表对当前句子以三种不同方式进一步编码的向量，W_Q,W_K,W_V为随机初始化参数，d_k为预设常量参数；

经过Multi-Head Self Attention层后的编码向量输入Feed forward network层，该层为传统的两层前馈全连接网络，输出对当前句子的最终编码结果。

本发明还提供一种用于封闭开关设备的知识图谱构建系统，包括如下模块：

文字识别模块，用于对标准封闭开关设备质量检验报告扫描图像进行光学文字识别，提取扫描图像中对设备描述的文字信息；

数据标注模块，用于对识别出的设备描述的文字信息进行文本标注，将一段话的所有子句直接拼接为一个句子，拼接的句子不超过N个字，超过的部分作为第二个句子，以句子为单位，标注出每句中描述设备属性的三元组关系(实体，关系，实体属性)；

三元组抽取模型构建模块，用于构建基于BERT的关系三元组抽取模型，所述三元组抽取模型包括针对封闭开关设备描述文本的关系抽取模型和实体识别模型，所述关系抽取用于抽取出文字信息中每个句子含义的所有关系，所述实体识别模型用于对每个句子与对应关系识别出实体和实体属性；

样本测试模块，用于对需要进行验证的开关设备质量检验报告扫描图像进行光学文字识别之后得到测试样本，基于训练好的三元组抽取模型，对测试样本进行关系抽取，获取描述设备属性的三元组关系，然后将实体和实体属性作为节点，关系作为边，形成图结构的关系知识图谱，并对标准封闭开关设备构建关系知识图谱，将测试样本的关系知识图谱与标准设备关系知识图谱进行比对，实现设备检验。

进一步的，文字识别模块的具体实现方式为，选取标准封闭开关设备的质量检验报告扫描图像一份，基于tesseract对扫描图像进行文字识别，选取其中描述开关设备的正文部分。

进一步的，三元组抽取模型的具体实现过程如下；

本发明具有以下优点和有益效果：

1)模型可自动提取质检报告中的实体及属性；

2)模型的训练和使用分离：一个模型可用于多份质检报告；

3)模型可以用于封闭开关设备的自动验收；

本发明可广泛应用于扫描图像的文字提取、命名识别、关系抽取、知识图谱构建等领域。

附图说明

图1为本发明流程示意图；

图2为实例中封闭开关设备检验报告扫描图像；

图3为实例中抽取出的封闭开关设备的三元组关系；

图4为实例中获得的封闭开关设备知识图谱。

具体实施方式

本发明主要基于知识图谱构造方法，提出了一种用于封闭开关设备的知识图谱构建方法。通过本方法，可以实现质量检验报告扫描图像的知识抽取，完成封闭开关设备的自动验收。

本发明提供的方法能够使用计算机软件技术实现流程，参见图1。实施例以从一份封闭开关设备质量检验报告扫描图像知识抽取为例对本发明的流程进行一个具体的阐述，如下：

一种用于封闭开关设备的知识图谱构建方法，包括以下步骤：

步骤2，对识别出的设备描述的文字信息进行文本标注，将一段话的所有子句直接拼接为一个句子，拼接的句子不超过512个字，超过的部分作为第二个句子，以句子为单位，标注出每个句子中描述设备属性的(实体，关系，实体属性)三元组关系，例如(设备，高度，3米)；

进一步的，步骤2中对文字信息的标注关系应涵盖所有质量验收时需要检验的关系，并以json文件格式存储。

步骤3，构建基于BERT的关系三元组抽取模型，包括针对封闭开关设备描述文本的关系抽取模型和实体识别模型，所述关系抽取用于抽取出文字信息中每个句子含义的所有关系，所述实体识别模型用于对每个句子与对应关系识别出实体和实体属性；

进一步的，步骤3的具体实现方式如下，

将关系三元组抽取框架分为两个过程，第一个过程为关系抽取过程，识别出每个句子中含有的所有关系；第二个过程为实体识别过程，对每个句子与对应关系识别出三元组剩下的实体和实体属性。

首先，进行关系抽取，输入步骤1得到的开关设备正文部分，基于中文预训练的BERT模型提取文字特征，所述BERT模型包括输入层和编码层。

其中，BERT的输入层的编码向量是3个嵌入特征的单位和，这三个嵌入特征是：1)词嵌入，即将词库长度向量映射为固定长度特征向量，词库为标注语料中所包含所有不同字的统计；2)位置嵌入，将每个字的位置信息编码成特征向量；3)分割嵌入，用于区分以逗号相隔的多个子句，即不同子句用不同编码表示，相同子句中的每个字用相同编码表示；

编码层由Multi-Head Self Attention和Feed-Forward network两个部分构成，Multi head self attention和Feed forward network之后都接了一层normalize归一化层。其中，Multi-Head Self Attention的计算过程为使用多个不同参数初始化的Attention相加得到，通过输入层编码向量的自注意实现单个句子的进一步编码，Attention计算公式为，

其中Q,K,V为输入层编码向量乘以权重W_Q,W_K,W_V分别得到的向量，代表对当前句子以三种不同方式进一步编码的向量，W_Q,W_K,W_V为随机初始化参数，d_k为预设常量参数。

BERT中文预训练模型由一层输入层和12层编码层构成，在BERT模型后面加一层全连接层，使用sigmoid函数作为损失函数，将关系抽取模型转化为分类任务，类别是针对封闭开关设备的所有需要检验的关系，得到关系抽取结果；

其次，输入关系抽取结果和步骤1的正文部分的拼接，基于BERT搭建一个实体识别模型，模型分为三层，第一层为相同的中文预训练BERT模型，第二层为全连接层，第三层为损失函数层，在损失函数部分加入关系损失和实体标识损失，损失函数均使用softmax函数，将实体识别任务转化为一个多标签分类模型，标签种类限定为“实体”、“实体属性”、“非实体”三种类型，输入句子通过实体识别模型得到每个字为实体、实体属性或非实体的概率，训练得到概率最大的类型为当前字的类型，然后将多个连续同为实体或者同为实体属性的字连成一个词，如“设备”两个字为“实体”的概率最大、“3米”两个字为“实体属性”的概率最大；

训练过程采用分布训练的方式，首先训练关系抽取模型，然后训练实体识别模型，完成针对封闭开关设备的三元组关系抽取模型训练。

步骤4，基于训练好的三元组抽取模型，对测试样本(如图2所示，为需要进行验证的开关柜设备质量检验报告，这里的测试样本即为需要进行验证的开关设备质量检验报告扫描图像进行光学文字识别之后的样本)进行关系抽取，获取描述设备属性的三元组关系(如图3所示)，然后将实体和实体属性作为节点，关系作为边，形成图结构的关系知识图谱(如图4所示)，并对标准封闭开关设备构建关系知识图谱，将测试样本的关系知识图谱与标准设备关系知识图谱进行比对，实现设备检验。

进一步的，步骤4的具体实现方式如下，

首先取标准封闭开关设备的质量检验报告，利用训练好的三元组抽取模型对光学文字识别的结果进行三元组关系抽取，然后构建标准设备的关系知识图谱数据；取需要进行验证的开关柜设备质量检验报告进行三元组关系抽取，并构建测试样本的关系知识图谱，将两者进行比对，检验测试样本三元组的合格性，实现设备合格性的检验。

此外，本发明还提供一种用于封闭开关设备的知识图谱构建系统，包括以下模块：

样本测试模块，用于基于训练好的三元组抽取模型，对测试样本进行关系抽取，获取描述设备属性的三元组关系，然后将实体和实体属性作为节点，关系作为边，形成图结构的关系知识图谱，并对标准封闭开关设备构建关系知识图谱，将测试样本的关系知识图谱与标准设备关系知识图谱进行比对，实现设备检验。

各模块的具体实现和各步骤相对应，本实施例中不予撰述。

本文中所描述的具体实施例仅仅是对本发明作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种用于封闭开关设备的知识图谱构建方法，其特征在于，包括如下步骤：

步骤2，对识别出的设备描述的文字信息进行文本标注，将一段话的所有子句直接拼接为一个句子，拼接的句子不超过N个字，超过的部分作为第二个句子，以句子为单位，标注出每句中描述设备属性的三元组关系（实体，关系，实体属性）；

三元组抽取模型的具体实现过程如下；

其次，输入关系抽取结果和步骤1的正文部分的拼接，基于BERT搭建一个实体识别模型，模型分为三层，第一层为相同的中文预训练BERT模型，第二层为全连接层，第三层为损失函数层，在损失函数部分加入关系损失和实体标识损失，损失函数均使用softmax函数，将实体识别任务转化为一个多标签分类模型，标签种类限定为“实体”、“实体属性”、“非实体”三种类型，输入句子通过实体识别模型得到每个字为实体或实体属性的概率，训练得到概率最大的类型为当前字的类型，然后将多个连续同为实体或者同为实体属性的字连成一个词；

所述BERT模型的输入层的编码向量是3个嵌入特征的单位和，这三个嵌入特征是：1）词嵌入，即将词库长度向量映射为固定长度特征向量，词库为标注语料中所包含所有不同字的统计；2）位置嵌入，将每个字的位置信息编码成特征向量；3）分割嵌入，用于区分以逗号相隔的多个子句，即不同子句用不同编码表示，相同子句中的每个字用相同编码表示；

编码层由Multi-Head Self Attention和Feed-Forward network两个部分构成，Multihead self attention 和Feed forward network之后都接了一层normalize归一化层，其中，Multi-Head Self Attention的计算过程为使用多个不同参数初始化的Attention相加得到，通过输入层编码向量的自注意实现单个句子的进一步编码，Attention计算公式为，

其中Q,K,V为输入层编码向量乘以权重W_Q,W_K,W_V分别得到的向量，代表对当前句子以三种不同方式进一步编码的向量，W_Q,W_K,W_V为随机初始化参数，d _k为预设常量参数；

经过Multi-Head Self Attention层后的编码向量输入Feed forward network层，该层为传统的两层前馈全连接网络，输出对当前句子的最终编码结果；

2.如权利要求1所述的一种用于封闭开关设备的知识图谱构建方法，其特征在于：步骤1的具体实现方式为，选取标准封闭开关设备的质量检验报告扫描图像一份，基于tesseract 对扫描图像进行文字识别，选取其中描述开关设备的正文部分。

3.一种用于封闭开关设备的知识图谱构建系统，其特征在于，包括如下模块：

数据标注模块，用于对识别出的设备描述的文字信息进行文本标注，将一段话的所有子句直接拼接为一个句子，拼接的句子不超过N个字，超过的部分作为第二个句子，以句子为单位，标注出每句中描述设备属性的三元组关系（实体，关系，实体属性）；

三元组抽取模型的具体实现过程如下；

4.如权利要求3所述的一种用于封闭开关设备的知识图谱构建系统，其特征在于：文字识别模块的具体实现方式为，选取标准封闭开关设备的质量检验报告扫描图像一份，基于tesseract 对扫描图像进行文字识别，选取其中描述开关设备的正文部分。