CN113918512A

CN113918512A - 电网运行规则知识图谱构建系统及方法

Info

Publication number: CN113918512A
Application number: CN202111232176.6A
Authority: CN
Inventors: 汪旸; 程迪; 徐浩; 刘志成; 窦建中; 张梦雅; 姜涛; 张越; 余建明; 单连飞; 刘艳; 张连超
Original assignee: Beijing Kedong Electric Power Control System Co Ltd; Central China Grid Co Ltd
Current assignee: Beijing Kedong Electric Power Control System Co Ltd; Central China Grid Co Ltd
Priority date: 2021-10-22
Filing date: 2021-10-22
Publication date: 2022-01-11
Anticipated expiration: 2041-10-22
Also published as: CN113918512B

Abstract

本发明公开了电网运行规则知识图谱构建系统及方法，它的文档格式转换模块用于将电网运行规则原始文档转换为电网运行规则中间格式文档；文档特征抽取模块用于得到特征文件和未标注文件；文档标签标注模块用于得到模型训练的标签数据集；文档结构训练模块用于利用特征文件和已标注文本组成模型训练数据，利用模型训练数据训练深度学习神经网络模型；预测模块将预测结果生成文档结构树；文档信息存储模块构建电网运行规则知识图谱。本发明基于电网运行规则相关文档，构建电网运行规则知识图谱，并基于该知识图谱进行关键信息检索，通过知识图谱返回相关查询结果，减少工作人员直接查找相关文档在进行内容检索匹配所花费的时间。

Description

电网运行规则知识图谱构建系统及方法

技术领域

本发明涉及深度学习与电网调度检索技术领域，具体地指一种电网运行规则知识图谱构建系统及方法。

背景技术

在电网领域中，工作人员大多按照规约、细则、作业指导书、故障处置预案等文案内容进行电网业务处置，近年来，随着电网业务不断发展，电网运行规程数量日益增多，规程内容结构日益复杂，如此海量的运行规则为工作人员使用其处置电网业务带来巨大挑战，只有经验丰富的工作员才能快速定位规程要点，保证其实用性和使用效率。因此，亟需一种智能电网运行规程的建模方法，将电网运行规则知识化、可视化，提升其快速检索、查询效率。

现有技术为工作人员根据发生电网业务问题或需要检索的问题，首先判断应在何种运行规则中查询结果，在到相关的运行规则中进行具体问题的检索定位，该方法查询速度慢，对工作人员本身业务熟练度要求高，并且在运行规则内容检索时，不能通过智能语义理解进行模糊匹配，反馈给工作人员理想的答案。因此需要提供一个能降低电网工作人员检索难度，并提高其检索准确性的电网运行规则知识图谱。

发明内容

本发明的目的就是要提供一种电网运行规则知识图谱构建系统及方法，本发明基于电网运行规则相关文档，构建电网运行规则知识图谱，并基于该知识图谱进行关键信息检索，通过知识图谱返回相关查询结果，减少工作人员直接查找相关文档在进行内容检索匹配所花费的时间。

为实现此目的，本发明所设计的电网运行规则知识图谱构建系统及方法，其特征在于：它包括文档格式转换模块、文档特征抽取模块、文档标签标注模块、文档结构训练模块、预测模块和文档信息存储模块；

所述文档格式转换模块用于将电网运行规则原始文档转换为电网运行规则中间格式文档；

所述文档特征抽取模块用于提取电网运行规则中间格式文档中各段落的标签信息和标签属性，得到特征文件和未标注文件；

所述文档标签标注模块用于对未标注文件进行段落属性标注，首先根据中文文稿层次序号使用规范结合电网运行规则文档规范格式，确定未标注文件各段落属性标签类别，根据未标注文档中每个段落内容，通过人工判别段落应该对应所属类别方式进行标记，得到每个段落标签，构成模型训练的标签数据集，然后对电网运行规则中间格式文档依据中文文稿层次序号使用规范划分层级结构，并将标签类别和文档层级结构进行中文文稿层次序号使用规范下的映射；

文档结构训练模块用于利用特征文件和已标注文本组成模型训练数据，利用模型训练数据训练深度学习神经网络模型；

预测模块用于将待预测的特征文件输入到训练完成后的深度学习神经网络模型中预测其对应的标签类别信息，并根据标签类别信息以及文档层级结构划分映射关系，得到文档结构树；

文档信息存储模块用于利用文档结构树构建电网运行规则知识图谱，以文档结构树中各叶节点及非叶节点作为电网运行规则知识图谱中的实体部分，以文档结构树中各节点之间的映射关系作为电网运行规则知识图谱的映射关系成分。

本发明的有益效果：

1、本发明基于深度学习和知识图谱领域的相关技术，实现了电网运行规则文本的快速结构化提取和知识图谱构建及入库处理，节省了大量人工提取入库时间。

2、使用本发明的电网运行规则知识图谱进行电网运行规则信息检索时，不但能对关键词进行快速、准确信息定位，实现检索内容推送，同时基于文本相似度算法进行文本内容匹配，实现了文档的模糊搜索功能，能够更加全面的获取与检索内容意图相关的文本信息，并且能够获取到与检索关键词有关联的段落及文本内容，方便工作人员的查找与处置。

附图说明

图1为本发明的结构框图；

图2为本发明的电网运行规则知识图谱；

其中，1—文档格式转换模块、2—文档特征抽取模块、3—文档标签标注模块、4—文档结构训练模块、5—预测模块、6—文档信息存储模块、7—文档内容检索模块。

具体实施方式

以下结合附图和具体实施例对本发明作进一步的详细说明：

如图1所示的一种电网运行规则知识图谱构建系统及方法，它包括文档格式转换模块1、文档特征抽取模块2、文档标签标注模块3、文档结构训练模块4、预测模块5、文档信息存储模块6和文档内容检索模块7；

所述文档格式转换模块1用于将电网运行规则原始文档(包括但不限于Word文档、PDF文档等)转换为电网运行规则中间格式文档(HTML格式)；

所述文档特征抽取模块2用于利用python脚本程序提取电网运行规则中间格式文档中各段落的标签信息和标签属性(HTML文件标签信息和HTML文件标签的属性)，得到特征文件和未标注文件；

所述文档标签标注模块3用于对未标注文件进行段落属性标注，首先根据中文文稿层次序号使用规范结合电网运行规则文档规范格式，确定未标注文件各段落属性标签类别，根据未标注文档中每个段落内容，通过人工判别段落应该对应所属类别方式进行标记，得到每个段落标签，构成模型训练的标签数据集，然后对电网运行规则中间格式文档依据中文文稿层次序号使用规范划分层级结构，并将标签类别和文档层级结构进行中文文稿层次序号使用规范下的映射；

文档结构训练模块4用于利用特征文件和已标注文本组成模型训练数据，利用模型训练数据训练深度学习神经网络模型；

预测模块5用于将待预测的特征文件输入到训练完成后的深度学习神经网络模型中预测其对应的标签类别信息，并根据标签类别信息以及文档层级结构划分映射关系，得到文档结构树；

文档信息存储模块6用于利用文档结构树构建电网运行规则知识图谱，以文档结构树中各叶节点及非叶节点作为电网运行规则知识图谱中的实体部分，以文档结构树中各节点之间的映射关系作为电网运行规则知识图谱的映射关系成分，将构建的知识图谱存储于图数据库中以便文档检索。

文档内容检索模块7用于将关键词输入到电网运行规则知识图谱中，并利用RE2文本相似度匹配模型检索得到关键词对应的知识图谱中实体和关系。

上述技术方案中，所述文档格式转换模块1用于利用LibreOffice扩展包将电网运行规则原始文档转换为HTML格式的电网运行规则中间格式文档。

上述技术方案中，所述特征文件中特征包括段落是否居中、段落是否加粗、段落是否为列表、段落缩进距离、段落长度大小、段落名称、段落字体大小和段落开头是否为数字。

上述技术方案中，所述LibreOffice扩展包提供docx格式文档与HTML格式文档直接转换函数，通过上述格式的转换，docx格式的电网运行规则原始文档中每一段文本都用HTML格式的电网运行规则中间格式文档中的一个标签组表示，HTML格式的电网运行规则中间格式文档保留docx格式的电网运行规则原始文档中文本的属性信息，并以html标签属性的形式展现出来，用于后续的文档特征提取。

上述技术方案中，所述文档格式转换模块1还用于通过python的扩展库pdf2docx，将pdf格式的电网运行规则原始文档转换为docx格式的电网运行规则原始文档。

上述技术方案中，python脚本读取整个HTML文件在每个段落所在的标签组，按照定义好的特征，在标签组内的属性中查找对应的值，将找到的值按顺序写入文件中形成了特征文件，未标注文件即为每个段落对应的文本内容，在HTML文件中也在标签组内存放，可直接读取，单独存入文件，形成未标注文件。

所述文档特征抽取模块2根据对文本的手工规则处理经验以及统计，确定了包含“is_center”、“is_bold”、“is_list_item”、“name”、“text_indent”、“size”、“font_size”、“text_feature”等8类特征。以上8类特征中，“is_center”特征表示段落对齐方式，对应HTML格式文档中的“align”属性，对应值可选类别为：“left”、“right”、“center”；“is_bold”特征表示文字是否加粗，对应HTML格式文档中的“b”标签；“is_list_item”特征表示文本内容是否是列表形式展示，对应HTML格式文档中的“ol”、“ul”、“li”标签；“name”特征表示段落对应标签名称，对应HTML格式文档中的“p”、“h1”、“h2”、“h3”、“h4”、“h5”、“table”、“image”等标签；“text_indent”特征表示段落的缩进，对应HTML格式文档中“text-ident”属性值；“size”特征表示文本内容的字体大小，对应HTML格式文档中的“size”属性值；“font_size”特征表示元素尺寸，对应HTML格式文档中“style”属性的“font-size”值；“text_feature”特征表示原文档中一些特殊表示形式，例如“目录”、“第一章”、“表n”、“图n”、“附件”等，这些特殊表述形式可快速判定段落所属类别。所以将上述特征作为段落类别判定的有效特征。由于相邻段落间存在一定的依赖约束关系，所以可以把以上的文档解析问题建模为多特征(同时包含离散字符和连续数字)序列标注任务。

特征选取完成后，可将原文本中每个段落按照所选取的特征，进行特征提取，案例如下：

标题：“某某电网故障处置预案”，

提取的特征为集合为：{“is_center”:“True”,“is_bold”:“False”,“is_list_item”:“False”,“name”:“p”,“text_indent”:“0.0”,“size”:“6”,“font_size”:“22.0”,“text_feature”:“text”}；

一级标题：“1.检修期间电网运行方式”，

提取的特征集合为：{“is_center”:“True”,“is_bold”:“False”,“is_list_item”:“False”,“name”:“p”,“text_indent”:“0.0”,“size”:“4”,“font_size”:“16.0”,“text_feature”:“chapter”}；

正文内容：“3月，某某联络线正常运行，跨区跨省通道功率如下表所示”，提取的特征集合为：{“is_center”:“False”,“is_bold”:“False”,“is_list_item”:“False”,“name”:“p”,“text_indent”:“1.13”,“size”:“4”,“font_size”:“16.0”,“text_feature”:“text”}

经过上述特征提取后，可以将每一篇docx格式文档中所有段落的特征提取出来，形成基于整本文案的特征集和，用于后续深度学习模型训练时，模型输入的特征部分。

文档标签标注模块，主要将一篇docx文档中各段落添加标签，根据段落的内容不同，划分出29种类别的标签，包含：“header_text”、“chapter”、“h1”、“section”、“h2”、“item”、“h3”、“bracket_section”、“h4”、“circle”、“num”、“h5”、“bracket_num”、“circle_num”、“uppercase”、“lowercase”、“indent_chapter”、“indent_section”、“indent_bracket_section”、“indent_num”、“indent_bracket_num”、“indent_circle_num”、“indent_uppercase”、“indent_lowercase”、“text”、“image”、“table”、“list_auxiliary”、“annotation”。

本发明将文档划分为11个层级结构包括：“1级类别”、“2级类别”、“3级类别”、“4级类别”、“5级类别”、“6级类别”、“7级类别”、“8级类别”、“9级类别”、“特殊类别”、“通用类别”，各层级结构大小关系为：“1级类别”大于“2级类别”、“2级类别”大于“3级类别”、“3级类别”大于“4级类别”、“4级类别”大于“5级类别”、“5级类别”大于“6级类别”、“6级类别”大于“7级类别”、“7级类别”大于“8级类别”、“8级类别”大于“9级类别”、“9级类别”大于“特殊类别”、“特殊类别”大于“通用类别”。

不同的类别标签和文档的层级结构关系对应如下：

“1级类别”：“header_text”、“chapter”、“h1”；

“2级类别”：“section”、“h2”；

“3级类别”：“item”、“h3”；

“4级类别”：“bracket_section”、“h4”、“circle”；

“5级类别”：“num”、“h5”；

“6级类别”：“bracket_num”；

“7级类别”：“circle_num”；

“8级类别”：“uppercase”；

“9级类别”：“lowercase”；

“特殊类别”：“indent_chapter”、“indent_section”、“indent_bracket_section”、“indent_num”、“indent_bracket_num”、“indent_circle_num”、“indent_uppercase”、“indent_lowercase”；

“通用类别”：“text”、“image”、“table”、“list_auxiliary”、“annotation”。

对文档中段落标签标记过程中，部分案例标记如下：

标题：“某某电网故障处置预案”，

标记结果：{“label”:“header_text”}

一级标题：“1.检修期间电网运行方式”，

标记结果：{“label”:“chapter”}

正文内容：“3月，某某联络线正常运行，跨区跨省通道功率如下表所示”，

标记结果：{“label”:“text”}

经过上述文档标签标注后，可以得到整篇文档中每个段落的标签表示，在结合文档中每个段落提取出的特征集，就构成了用于模型训练的完整数据集，用于文档结构划分的模型训练，模型训练数据集样例如下：

[[“text”,“True”,“False”,“False”,“p”,“0.0”,“6”,“22.0”,“header_text”]

[“chapter”,“True”,“False”,“False”,“p”,“0.0”,“4”,“16.0”,“chapter”]

[“text”,“False”,“False”,“False”,“p”,“1.13”,“4”,“16.0”,“text”]]

用例中，前八列为特征数据，最后一列为标签数据。

上述技术方案中，所述文档结构训练模块4还用于对模型训练数据进行向量化，然后将向量化后的模型训练数据输入至深度学习神经网络模型，所述深度学习神经网络模型为双向长短期记忆网络和条件随机场模型(Bi-LSTM+CRF)，经过训练后，深度学习神经网络模型具备根据给定的文本段落特征，预测出正确的文本段落标签类别的能力。

上述技术方案中，所述预测模块5用于将待预测的特征文件经向量化处理后生成特征文件的向量化数据，将该数据输入至训练完成后的深度学习神经网络模型中，预测其对应的标签类别信息，根据标签类别与层级结构的对应关系，将得到的标签类别映射不同的层级结构上，最终使得文档中每个段落都能映射到对应的层级结构中，从而根据不同的层级结构得到文档结构树。

上述技术方案中，文档信息存储模块6用于以文档结构树中各叶节点及非叶节点作为电网运行规则知识图谱中的实体部分，以文档结构树中各节点之间的关系作为电网运行规则知识图谱的关系成分，在文档结构树中，高层级的类别与低等层级的类别相连，而不必通过逐级的方式进行连接，进而实现跨层级的连接方式，所以构成电网运行规则知识图谱的三元组通常由高层级类别指向低层级类别，实体部分的内容为文档不同段落内容成分，实体关系为被指向段落的所属类别。通过这种方式构建的电网运行规则知识图谱如图2所示。将构建的知识图谱存储于图数据库中以便文档检索。

上述技术方案中，文档信息存储模块6用于得到每个段落对应的层级后，在构建文档结构树时，设置根节点为root节点，所有节点的层级均小于根节点层级，设置一个指针指向根节点，遍历文本中各段落，将当前段落的层级与指针指向节点的层级进行比较，执行以下步骤：

A、如果指针指向节点为根节点，则插入当前段落为指针指向节点的子节点，同时将指针指向新插入节点，继续遍历下一段落；

B、如果当前段落层级小于指针指向节点的层级，则插入当前段落为指针指向节点的子节点，同时将指针指向新插入节点，继续遍历下一段落；

C、如果当前段落层级等于指针指向节点的层级，则插入当前段落为指针指向节点的兄弟节点，同时将指针指向新插入节点，继续遍历下一段落；

D、如果当前段落层级大于指针指向节点的层级，则将指针返回到当前指向节点的父节点，判断当前段落层级和指针指向节点层级大小关系以及指针指向层级；重复执行步骤A至步骤D，直至当前遍历段落插入成功。当遍历完毕后，所有段落将被插入到树中，形成文档结构树。

文档内容检索模块7主要负责进行输入关键词的精准搜索与模糊匹配功能，采用的RE2文本相似度匹配模型在充分考虑推理速度和匹配效果的基础上，充分融合了残差向量、初始字词嵌入向量、编码向量，大幅度简化了参数量和计算量，在文本匹配场景中效果突出，输入关键字经过RE2模型后，通过模型能够计算出与输入关键字意图相近的结果集，并根据相似程度进行打分处理，最后按照结果集的得分高低，顺序输出查询结果。

一种电网运行规则知识图谱构建方法，它包括如下步骤：

步骤1：将电网运行规则原始文档转换为电网运行规则中间格式文档；

步骤2：提取电网运行规则中间格式文档中各段落的标签信息和标签属性，得到特征文件和未标注文件；

步骤3：对未标注文件进行段落属性标注，首先根据中文文稿层次序号使用规范结合电网运行规则文档规范格式，确定未标注文件各段落属性标签类别，根据未标注文档中每个段落内容，通过人工判别段落应该对应所属类别方式进行标记，得到每个段落标签，构成模型训练的标签数据集，然后对电网运行规则中间格式文档依据中文文稿层次序号使用规范划分层级结构，并将标签类别和文档层级结构进行中文文稿层次序号使用规范下的映射；

步骤4：利用特征文件和已标注文本组成模型训练数据，利用模型训练数据训练深度学习神经网络模型；

步骤5：将待预测的特征文件输入到训练完成后的深度学习神经网络模型中预测其对应的标签类别信息，并根据标签类别信息以及文档层级结构划分映射关系，得到文档结构树；

步骤6：利用文档结构树构建电网运行规则知识图谱，以文档结构树中各叶节点及非叶节点作为电网运行规则知识图谱中的实体部分，以文档结构树中各节点之间的映射关系作为电网运行规则知识图谱的映射关系成分。

本说明书未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种电网运行规则知识图谱构建系统，其特征在于：它包括文档格式转换模块(1)、文档特征抽取模块(2)、文档标签标注模块(3)、文档结构训练模块(4)、预测模块(5)和文档信息存储模块(6)；

所述文档格式转换模块(1)用于将电网运行规则原始文档转换为电网运行规则中间格式文档；

所述文档特征抽取模块(2)用于提取电网运行规则中间格式文档中各段落的标签信息和标签属性，得到特征文件和未标注文件；

所述文档标签标注模块(3)用于对未标注文件进行段落属性标注，首先根据中文文稿层次序号使用规范结合电网运行规则文档规范格式，确定未标注文件各段落属性标签类别，根据未标注文档中每个段落内容，通过人工判别段落应该对应所属类别方式进行标记，得到每个段落标签，构成模型训练的标签数据集，然后对电网运行规则中间格式文档依据中文文稿层次序号使用规范划分层级结构，并将标签类别和文档层级结构进行中文文稿层次序号使用规范下的映射；

文档结构训练模块(4)用于利用特征文件和已标注文本组成模型训练数据，利用模型训练数据训练深度学习神经网络模型；

预测模块(5)用于将待预测的特征文件输入到训练完成后的深度学习神经网络模型中预测其对应的标签类别信息，并根据标签类别信息以及文档层级结构划分映射关系，得到文档结构树；

文档信息存储模块(6)用于利用文档结构树构建电网运行规则知识图谱，以文档结构树中各叶节点及非叶节点作为电网运行规则知识图谱中的实体部分，以文档结构树中各节点之间的映射关系作为电网运行规则知识图谱的映射关系成分。

2.根据权利要求1所述的电网运行规则知识图谱构建系统，其特征在于：它还包括文档内容检索模块(7)，文档内容检索模块(7)用于将关键词输入到电网运行规则知识图谱中，并利用RE2文本相似度匹配模型检索得到关键词对应的知识图谱中实体和关系。

3.根据权利要求1所述的电网运行规则知识图谱构建系统，其特征在于：所述文档格式转换模块(1)用于利用LibreOffice扩展包将电网运行规则原始文档转换为HTML格式的电网运行规则中间格式文档。

4.根据权利要求1所述的电网运行规则知识图谱构建系统，其特征在于：所述特征文件中特征包括段落是否居中、段落是否加粗、段落是否为列表、段落缩进距离、段落长度大小、段落名称、段落字体大小和段落开头是否为数字。

5.根据权利要求3所述的电网运行规则知识图谱构建系统，其特征在于：所述LibreOffice扩展包提供docx格式文档与HTML格式文档直接转换函数，通过上述格式的转换，docx格式的电网运行规则原始文档中每一段文本都用HTML格式的电网运行规则中间格式文档中的一个标签组表示，HTML格式的电网运行规则中间格式文档保留docx格式的电网运行规则原始文档中文本的属性信息，并以html标签属性的形式展现出来。

6.根据权利要求3或5所述的电网运行规则知识图谱构建系统，其特征在于：所述文档格式转换模块(1)还用于通过python的扩展库pdf2docx，将pdf格式的电网运行规则原始文档转换为docx格式的电网运行规则原始文档。

7.根据权利要求1所述的电网运行规则知识图谱构建系统，其特征在于：所述文档结构训练模块(4)还用于对模型训练数据进行向量化，然后将向量化后的模型训练数据输入至深度学习神经网络模型，所述深度学习神经网络模型为双向长短期记忆网络和条件随机场模型，经过训练后，深度学习神经网络模型具备根据给定的文本段落特征，预测出正确的文本段落标签类别的能力。

8.根据权利要求1所述的电网运行规则知识图谱构建系统，其特征在于：所述预测模块(5)用于将待预测的特征文件经向量化处理后生成特征文件的向量化数据，将该数据输入至训练完成后的深度学习神经网络模型中，预测其对应的标签类别信息，根据标签类别与层级结构的对应关系，将得到的标签类别映射不同的层级结构上，最终使得文档中每个段落都能映射到对应的层级结构中，从而根据不同的层级结构得到文档结构树。

9.根据权利要求1所述的电网运行规则知识图谱构建系统，其特征在于：文档信息存储模块(6)用于得到每个段落对应的层级后，在构建文档结构树时，设置根节点为root节点，所有节点的层级均小于根节点层级，设置一个指针指向根节点，遍历文本中各段落，将当前段落的层级与指针指向节点的层级进行比较，执行以下步骤：

D、如果当前段落层级大于指针指向节点的层级，则将指针返回到当前指向节点的父节点，判断当前段落层级和指针指向节点层级大小关系以及指针指向层级；重复执行步骤A至步骤D，直至当前遍历段落插入成功，当遍历完毕后，所有段落将被插入到树中，形成文档结构树。

10.一种电网运行规则知识图谱构建方法，其特征在于，它包括如下步骤：