CN113918512A - 电网运行规则知识图谱构建系统及方法 - Google Patents
电网运行规则知识图谱构建系统及方法 Download PDFInfo
- Publication number
- CN113918512A CN113918512A CN202111232176.6A CN202111232176A CN113918512A CN 113918512 A CN113918512 A CN 113918512A CN 202111232176 A CN202111232176 A CN 202111232176A CN 113918512 A CN113918512 A CN 113918512A
- Authority
- CN
- China
- Prior art keywords
- document
- paragraph
- operation rule
- grid operation
- power grid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 title abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 50
- 238000013135 deep learning Methods 0.000 claims abstract description 21
- 238000003062 neural network model Methods 0.000 claims abstract description 19
- 238000006243 chemical reaction Methods 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000002372 labelling Methods 0.000 claims abstract description 15
- 238000013507 mapping Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 238000007373 indentation Methods 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 2
- 238000013139 quantization Methods 0.000 claims description 2
- 239000013598 vector Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/116—Details of conversion of file system types or formats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了电网运行规则知识图谱构建系统及方法,它的文档格式转换模块用于将电网运行规则原始文档转换为电网运行规则中间格式文档;文档特征抽取模块用于得到特征文件和未标注文件;文档标签标注模块用于得到模型训练的标签数据集;文档结构训练模块用于利用特征文件和已标注文本组成模型训练数据,利用模型训练数据训练深度学习神经网络模型;预测模块将预测结果生成文档结构树;文档信息存储模块构建电网运行规则知识图谱。本发明基于电网运行规则相关文档,构建电网运行规则知识图谱,并基于该知识图谱进行关键信息检索,通过知识图谱返回相关查询结果,减少工作人员直接查找相关文档在进行内容检索匹配所花费的时间。
Description
技术领域
本发明涉及深度学习与电网调度检索技术领域,具体地指一种电网运行规则知识图谱构建系统及方法。
背景技术
在电网领域中,工作人员大多按照规约、细则、作业指导书、故障处置预案等文案内容进行电网业务处置,近年来,随着电网业务不断发展,电网运行规程数量日益增多,规程内容结构日益复杂,如此海量的运行规则为工作人员使用其处置电网业务带来巨大挑战,只有经验丰富的工作员才能快速定位规程要点,保证其实用性和使用效率。因此,亟需一种智能电网运行规程的建模方法,将电网运行规则知识化、可视化,提升其快速检索、查询效率。
现有技术为工作人员根据发生电网业务问题或需要检索的问题,首先判断应在何种运行规则中查询结果,在到相关的运行规则中进行具体问题的检索定位,该方法查询速度慢,对工作人员本身业务熟练度要求高,并且在运行规则内容检索时,不能通过智能语义理解进行模糊匹配,反馈给工作人员理想的答案。因此需要提供一个能降低电网工作人员检索难度,并提高其检索准确性的电网运行规则知识图谱。
发明内容
本发明的目的就是要提供一种电网运行规则知识图谱构建系统及方法,本发明基于电网运行规则相关文档,构建电网运行规则知识图谱,并基于该知识图谱进行关键信息检索,通过知识图谱返回相关查询结果,减少工作人员直接查找相关文档在进行内容检索匹配所花费的时间。
为实现此目的,本发明所设计的电网运行规则知识图谱构建系统及方法,其特征在于:它包括文档格式转换模块、文档特征抽取模块、文档标签标注模块、文档结构训练模块、预测模块和文档信息存储模块;
所述文档格式转换模块用于将电网运行规则原始文档转换为电网运行规则中间格式文档;
所述文档特征抽取模块用于提取电网运行规则中间格式文档中各段落的标签信息和标签属性,得到特征文件和未标注文件;
所述文档标签标注模块用于对未标注文件进行段落属性标注,首先根据中文文稿层次序号使用规范结合电网运行规则文档规范格式,确定未标注文件各段落属性标签类别,根据未标注文档中每个段落内容,通过人工判别段落应该对应所属类别方式进行标记,得到每个段落标签,构成模型训练的标签数据集,然后对电网运行规则中间格式文档依据中文文稿层次序号使用规范划分层级结构,并将标签类别和文档层级结构进行中文文稿层次序号使用规范下的映射;
文档结构训练模块用于利用特征文件和已标注文本组成模型训练数据,利用模型训练数据训练深度学习神经网络模型;
预测模块用于将待预测的特征文件输入到训练完成后的深度学习神经网络模型中预测其对应的标签类别信息,并根据标签类别信息以及文档层级结构划分映射关系,得到文档结构树;
文档信息存储模块用于利用文档结构树构建电网运行规则知识图谱,以文档结构树中各叶节点及非叶节点作为电网运行规则知识图谱中的实体部分,以文档结构树中各节点之间的映射关系作为电网运行规则知识图谱的映射关系成分。
本发明的有益效果:
1、本发明基于深度学习和知识图谱领域的相关技术,实现了电网运行规则文本的快速结构化提取和知识图谱构建及入库处理,节省了大量人工提取入库时间。
2、使用本发明的电网运行规则知识图谱进行电网运行规则信息检索时,不但能对关键词进行快速、准确信息定位,实现检索内容推送,同时基于文本相似度算法进行文本内容匹配,实现了文档的模糊搜索功能,能够更加全面的获取与检索内容意图相关的文本信息,并且能够获取到与检索关键词有关联的段落及文本内容,方便工作人员的查找与处置。
附图说明
图1为本发明的结构框图;
图2为本发明的电网运行规则知识图谱;
其中,1—文档格式转换模块、2—文档特征抽取模块、3—文档标签标注模块、4—文档结构训练模块、5—预测模块、6—文档信息存储模块、7—文档内容检索模块。
具体实施方式
以下结合附图和具体实施例对本发明作进一步的详细说明:
如图1所示的一种电网运行规则知识图谱构建系统及方法,它包括文档格式转换模块1、文档特征抽取模块2、文档标签标注模块3、文档结构训练模块4、预测模块5、文档信息存储模块6和文档内容检索模块7;
所述文档格式转换模块1用于将电网运行规则原始文档(包括但不限于Word文档、PDF文档等)转换为电网运行规则中间格式文档(HTML格式);
所述文档特征抽取模块2用于利用python脚本程序提取电网运行规则中间格式文档中各段落的标签信息和标签属性(HTML文件标签信息和HTML文件标签的属性),得到特征文件和未标注文件;
所述文档标签标注模块3用于对未标注文件进行段落属性标注,首先根据中文文稿层次序号使用规范结合电网运行规则文档规范格式,确定未标注文件各段落属性标签类别,根据未标注文档中每个段落内容,通过人工判别段落应该对应所属类别方式进行标记,得到每个段落标签,构成模型训练的标签数据集,然后对电网运行规则中间格式文档依据中文文稿层次序号使用规范划分层级结构,并将标签类别和文档层级结构进行中文文稿层次序号使用规范下的映射;
文档结构训练模块4用于利用特征文件和已标注文本组成模型训练数据,利用模型训练数据训练深度学习神经网络模型;
预测模块5用于将待预测的特征文件输入到训练完成后的深度学习神经网络模型中预测其对应的标签类别信息,并根据标签类别信息以及文档层级结构划分映射关系,得到文档结构树;
文档信息存储模块6用于利用文档结构树构建电网运行规则知识图谱,以文档结构树中各叶节点及非叶节点作为电网运行规则知识图谱中的实体部分,以文档结构树中各节点之间的映射关系作为电网运行规则知识图谱的映射关系成分,将构建的知识图谱存储于图数据库中以便文档检索。
文档内容检索模块7用于将关键词输入到电网运行规则知识图谱中,并利用RE2文本相似度匹配模型检索得到关键词对应的知识图谱中实体和关系。
上述技术方案中,所述文档格式转换模块1用于利用LibreOffice扩展包将电网运行规则原始文档转换为HTML格式的电网运行规则中间格式文档。
上述技术方案中,所述特征文件中特征包括段落是否居中、段落是否加粗、段落是否为列表、段落缩进距离、段落长度大小、段落名称、段落字体大小和段落开头是否为数字。
上述技术方案中,所述LibreOffice扩展包提供docx格式文档与HTML格式文档直接转换函数,通过上述格式的转换,docx格式的电网运行规则原始文档中每一段文本都用HTML格式的电网运行规则中间格式文档中的一个标签组表示,HTML格式的电网运行规则中间格式文档保留docx格式的电网运行规则原始文档中文本的属性信息,并以html标签属性的形式展现出来,用于后续的文档特征提取。
上述技术方案中,所述文档格式转换模块1还用于通过python的扩展库pdf2docx,将pdf格式的电网运行规则原始文档转换为docx格式的电网运行规则原始文档。
上述技术方案中,python脚本读取整个HTML文件在每个段落所在的标签组,按照定义好的特征,在标签组内的属性中查找对应的值,将找到的值按顺序写入文件中形成了特征文件,未标注文件即为每个段落对应的文本内容,在HTML文件中也在标签组内存放,可直接读取,单独存入文件,形成未标注文件。
所述文档特征抽取模块2根据对文本的手工规则处理经验以及统计,确定了包含“is_center”、“is_bold”、“is_list_item”、“name”、“text_indent”、“size”、“font_size”、“text_feature”等8类特征。以上8类特征中,“is_center”特征表示段落对齐方式,对应HTML格式文档中的“align”属性,对应值可选类别为:“left”、“right”、“center”;“is_bold”特征表示文字是否加粗,对应HTML格式文档中的“b”标签;“is_list_item”特征表示文本内容是否是列表形式展示,对应HTML格式文档中的“ol”、“ul”、“li”标签;“name”特征表示段落对应标签名称,对应HTML格式文档中的“p”、“h1”、“h2”、“h3”、“h4”、“h5”、“table”、“image”等标签;“text_indent”特征表示段落的缩进,对应HTML格式文档中“text-ident”属性值;“size”特征表示文本内容的字体大小,对应HTML格式文档中的“size”属性值;“font_size”特征表示元素尺寸,对应HTML格式文档中“style”属性的“font-size”值;“text_feature”特征表示原文档中一些特殊表示形式,例如“目录”、“第一章”、“表n”、“图n”、“附件”等,这些特殊表述形式可快速判定段落所属类别。所以将上述特征作为段落类别判定的有效特征。由于相邻段落间存在一定的依赖约束关系,所以可以把以上的文档解析问题建模为多特征(同时包含离散字符和连续数字)序列标注任务。
特征选取完成后,可将原文本中每个段落按照所选取的特征,进行特征提取,案例如下:
标题:“某某电网故障处置预案”,
提取的特征为集合为:{“is_center”:“True”,“is_bold”:“False”,“is_list_item”:“False”,“name”:“p”,“text_indent”:“0.0”,“size”:“6”,“font_size”:“22.0”,“text_feature”:“text”};
一级标题:“1.检修期间电网运行方式”,
提取的特征集合为:{“is_center”:“True”,“is_bold”:“False”,“is_list_item”:“False”,“name”:“p”,“text_indent”:“0.0”,“size”:“4”,“font_size”:“16.0”,“text_feature”:“chapter”};
正文内容:“3月,某某联络线正常运行,跨区跨省通道功率如下表所示”,提取的特征集合为:{“is_center”:“False”,“is_bold”:“False”,“is_list_item”:“False”,“name”:“p”,“text_indent”:“1.13”,“size”:“4”,“font_size”:“16.0”,“text_feature”:“text”}
经过上述特征提取后,可以将每一篇docx格式文档中所有段落的特征提取出来,形成基于整本文案的特征集和,用于后续深度学习模型训练时,模型输入的特征部分。
文档标签标注模块,主要将一篇docx文档中各段落添加标签,根据段落的内容不同,划分出29种类别的标签,包含:“header_text”、“chapter”、“h1”、“section”、“h2”、“item”、“h3”、“bracket_section”、“h4”、“circle”、“num”、“h5”、“bracket_num”、“circle_num”、“uppercase”、“lowercase”、“indent_chapter”、“indent_section”、“indent_bracket_section”、“indent_num”、“indent_bracket_num”、“indent_circle_num”、“indent_uppercase”、“indent_lowercase”、“text”、“image”、“table”、“list_auxiliary”、“annotation”。
本发明将文档划分为11个层级结构包括:“1级类别”、“2级类别”、“3级类别”、“4级类别”、“5级类别”、“6级类别”、“7级类别”、“8级类别”、“9级类别”、“特殊类别”、“通用类别”,各层级结构大小关系为:“1级类别”大于“2级类别”、“2级类别”大于“3级类别”、“3级类别”大于“4级类别”、“4级类别”大于“5级类别”、“5级类别”大于“6级类别”、“6级类别”大于“7级类别”、“7级类别”大于“8级类别”、“8级类别”大于“9级类别”、“9级类别”大于“特殊类别”、“特殊类别”大于“通用类别”。
不同的类别标签和文档的层级结构关系对应如下:
“1级类别”:“header_text”、“chapter”、“h1”;
“2级类别”:“section”、“h2”;
“3级类别”:“item”、“h3”;
“4级类别”:“bracket_section”、“h4”、“circle”;
“5级类别”:“num”、“h5”;
“6级类别”:“bracket_num”;
“7级类别”:“circle_num”;
“8级类别”:“uppercase”;
“9级类别”:“lowercase”;
“特殊类别”:“indent_chapter”、“indent_section”、“indent_bracket_section”、“indent_num”、“indent_bracket_num”、“indent_circle_num”、“indent_uppercase”、“indent_lowercase”;
“通用类别”:“text”、“image”、“table”、“list_auxiliary”、“annotation”。
对文档中段落标签标记过程中,部分案例标记如下:
标题:“某某电网故障处置预案”,
标记结果:{“label”:“header_text”}
一级标题:“1.检修期间电网运行方式”,
标记结果:{“label”:“chapter”}
正文内容:“3月,某某联络线正常运行,跨区跨省通道功率如下表所示”,
标记结果:{“label”:“text”}
经过上述文档标签标注后,可以得到整篇文档中每个段落的标签表示,在结合文档中每个段落提取出的特征集,就构成了用于模型训练的完整数据集,用于文档结构划分的模型训练,模型训练数据集样例如下:
[[“text”,“True”,“False”,“False”,“p”,“0.0”,“6”,“22.0”,“header_text”]
[“chapter”,“True”,“False”,“False”,“p”,“0.0”,“4”,“16.0”,“chapter”]
[“text”,“False”,“False”,“False”,“p”,“1.13”,“4”,“16.0”,“text”]]
用例中,前八列为特征数据,最后一列为标签数据。
上述技术方案中,所述文档结构训练模块4还用于对模型训练数据进行向量化,然后将向量化后的模型训练数据输入至深度学习神经网络模型,所述深度学习神经网络模型为双向长短期记忆网络和条件随机场模型(Bi-LSTM+CRF),经过训练后,深度学习神经网络模型具备根据给定的文本段落特征,预测出正确的文本段落标签类别的能力。
上述技术方案中,所述预测模块5用于将待预测的特征文件经向量化处理后生成特征文件的向量化数据,将该数据输入至训练完成后的深度学习神经网络模型中,预测其对应的标签类别信息,根据标签类别与层级结构的对应关系,将得到的标签类别映射不同的层级结构上,最终使得文档中每个段落都能映射到对应的层级结构中,从而根据不同的层级结构得到文档结构树。
上述技术方案中,文档信息存储模块6用于以文档结构树中各叶节点及非叶节点作为电网运行规则知识图谱中的实体部分,以文档结构树中各节点之间的关系作为电网运行规则知识图谱的关系成分,在文档结构树中,高层级的类别与低等层级的类别相连,而不必通过逐级的方式进行连接,进而实现跨层级的连接方式,所以构成电网运行规则知识图谱的三元组通常由高层级类别指向低层级类别,实体部分的内容为文档不同段落内容成分,实体关系为被指向段落的所属类别。通过这种方式构建的电网运行规则知识图谱如图2所示。将构建的知识图谱存储于图数据库中以便文档检索。
上述技术方案中,文档信息存储模块6用于得到每个段落对应的层级后,在构建文档结构树时,设置根节点为root节点,所有节点的层级均小于根节点层级,设置一个指针指向根节点,遍历文本中各段落,将当前段落的层级与指针指向节点的层级进行比较,执行以下步骤:
A、如果指针指向节点为根节点,则插入当前段落为指针指向节点的子节点,同时将指针指向新插入节点,继续遍历下一段落;
B、如果当前段落层级小于指针指向节点的层级,则插入当前段落为指针指向节点的子节点,同时将指针指向新插入节点,继续遍历下一段落;
C、如果当前段落层级等于指针指向节点的层级,则插入当前段落为指针指向节点的兄弟节点,同时将指针指向新插入节点,继续遍历下一段落;
D、如果当前段落层级大于指针指向节点的层级,则将指针返回到当前指向节点的父节点,判断当前段落层级和指针指向节点层级大小关系以及指针指向层级;重复执行步骤A至步骤D,直至当前遍历段落插入成功。当遍历完毕后,所有段落将被插入到树中,形成文档结构树。
文档内容检索模块7主要负责进行输入关键词的精准搜索与模糊匹配功能,采用的RE2文本相似度匹配模型在充分考虑推理速度和匹配效果的基础上,充分融合了残差向量、初始字词嵌入向量、编码向量,大幅度简化了参数量和计算量,在文本匹配场景中效果突出,输入关键字经过RE2模型后,通过模型能够计算出与输入关键字意图相近的结果集,并根据相似程度进行打分处理,最后按照结果集的得分高低,顺序输出查询结果。
一种电网运行规则知识图谱构建方法,它包括如下步骤:
步骤1:将电网运行规则原始文档转换为电网运行规则中间格式文档;
步骤2:提取电网运行规则中间格式文档中各段落的标签信息和标签属性,得到特征文件和未标注文件;
步骤3:对未标注文件进行段落属性标注,首先根据中文文稿层次序号使用规范结合电网运行规则文档规范格式,确定未标注文件各段落属性标签类别,根据未标注文档中每个段落内容,通过人工判别段落应该对应所属类别方式进行标记,得到每个段落标签,构成模型训练的标签数据集,然后对电网运行规则中间格式文档依据中文文稿层次序号使用规范划分层级结构,并将标签类别和文档层级结构进行中文文稿层次序号使用规范下的映射;
步骤4:利用特征文件和已标注文本组成模型训练数据,利用模型训练数据训练深度学习神经网络模型;
步骤5:将待预测的特征文件输入到训练完成后的深度学习神经网络模型中预测其对应的标签类别信息,并根据标签类别信息以及文档层级结构划分映射关系,得到文档结构树;
步骤6:利用文档结构树构建电网运行规则知识图谱,以文档结构树中各叶节点及非叶节点作为电网运行规则知识图谱中的实体部分,以文档结构树中各节点之间的映射关系作为电网运行规则知识图谱的映射关系成分。
本说明书未作详细描述的内容属于本领域专业技术人员公知的现有技术。
Claims (10)
1.一种电网运行规则知识图谱构建系统,其特征在于:它包括文档格式转换模块(1)、文档特征抽取模块(2)、文档标签标注模块(3)、文档结构训练模块(4)、预测模块(5)和文档信息存储模块(6);
所述文档格式转换模块(1)用于将电网运行规则原始文档转换为电网运行规则中间格式文档;
所述文档特征抽取模块(2)用于提取电网运行规则中间格式文档中各段落的标签信息和标签属性,得到特征文件和未标注文件;
所述文档标签标注模块(3)用于对未标注文件进行段落属性标注,首先根据中文文稿层次序号使用规范结合电网运行规则文档规范格式,确定未标注文件各段落属性标签类别,根据未标注文档中每个段落内容,通过人工判别段落应该对应所属类别方式进行标记,得到每个段落标签,构成模型训练的标签数据集,然后对电网运行规则中间格式文档依据中文文稿层次序号使用规范划分层级结构,并将标签类别和文档层级结构进行中文文稿层次序号使用规范下的映射;
文档结构训练模块(4)用于利用特征文件和已标注文本组成模型训练数据,利用模型训练数据训练深度学习神经网络模型;
预测模块(5)用于将待预测的特征文件输入到训练完成后的深度学习神经网络模型中预测其对应的标签类别信息,并根据标签类别信息以及文档层级结构划分映射关系,得到文档结构树;
文档信息存储模块(6)用于利用文档结构树构建电网运行规则知识图谱,以文档结构树中各叶节点及非叶节点作为电网运行规则知识图谱中的实体部分,以文档结构树中各节点之间的映射关系作为电网运行规则知识图谱的映射关系成分。
2.根据权利要求1所述的电网运行规则知识图谱构建系统,其特征在于:它还包括文档内容检索模块(7),文档内容检索模块(7)用于将关键词输入到电网运行规则知识图谱中,并利用RE2文本相似度匹配模型检索得到关键词对应的知识图谱中实体和关系。
3.根据权利要求1所述的电网运行规则知识图谱构建系统,其特征在于:所述文档格式转换模块(1)用于利用LibreOffice扩展包将电网运行规则原始文档转换为HTML格式的电网运行规则中间格式文档。
4.根据权利要求1所述的电网运行规则知识图谱构建系统,其特征在于:所述特征文件中特征包括段落是否居中、段落是否加粗、段落是否为列表、段落缩进距离、段落长度大小、段落名称、段落字体大小和段落开头是否为数字。
5.根据权利要求3所述的电网运行规则知识图谱构建系统,其特征在于:所述LibreOffice扩展包提供docx格式文档与HTML格式文档直接转换函数,通过上述格式的转换,docx格式的电网运行规则原始文档中每一段文本都用HTML格式的电网运行规则中间格式文档中的一个标签组表示,HTML格式的电网运行规则中间格式文档保留docx格式的电网运行规则原始文档中文本的属性信息,并以html标签属性的形式展现出来。
6.根据权利要求3或5所述的电网运行规则知识图谱构建系统,其特征在于:所述文档格式转换模块(1)还用于通过python的扩展库pdf2docx,将pdf格式的电网运行规则原始文档转换为docx格式的电网运行规则原始文档。
7.根据权利要求1所述的电网运行规则知识图谱构建系统,其特征在于:所述文档结构训练模块(4)还用于对模型训练数据进行向量化,然后将向量化后的模型训练数据输入至深度学习神经网络模型,所述深度学习神经网络模型为双向长短期记忆网络和条件随机场模型,经过训练后,深度学习神经网络模型具备根据给定的文本段落特征,预测出正确的文本段落标签类别的能力。
8.根据权利要求1所述的电网运行规则知识图谱构建系统,其特征在于:所述预测模块(5)用于将待预测的特征文件经向量化处理后生成特征文件的向量化数据,将该数据输入至训练完成后的深度学习神经网络模型中,预测其对应的标签类别信息,根据标签类别与层级结构的对应关系,将得到的标签类别映射不同的层级结构上,最终使得文档中每个段落都能映射到对应的层级结构中,从而根据不同的层级结构得到文档结构树。
9.根据权利要求1所述的电网运行规则知识图谱构建系统,其特征在于:文档信息存储模块(6)用于得到每个段落对应的层级后,在构建文档结构树时,设置根节点为root节点,所有节点的层级均小于根节点层级,设置一个指针指向根节点,遍历文本中各段落,将当前段落的层级与指针指向节点的层级进行比较,执行以下步骤:
A、如果指针指向节点为根节点,则插入当前段落为指针指向节点的子节点,同时将指针指向新插入节点,继续遍历下一段落;
B、如果当前段落层级小于指针指向节点的层级,则插入当前段落为指针指向节点的子节点,同时将指针指向新插入节点,继续遍历下一段落;
C、如果当前段落层级等于指针指向节点的层级,则插入当前段落为指针指向节点的兄弟节点,同时将指针指向新插入节点,继续遍历下一段落;
D、如果当前段落层级大于指针指向节点的层级,则将指针返回到当前指向节点的父节点,判断当前段落层级和指针指向节点层级大小关系以及指针指向层级;重复执行步骤A至步骤D,直至当前遍历段落插入成功,当遍历完毕后,所有段落将被插入到树中,形成文档结构树。
10.一种电网运行规则知识图谱构建方法,其特征在于,它包括如下步骤:
步骤1:将电网运行规则原始文档转换为电网运行规则中间格式文档;
步骤2:提取电网运行规则中间格式文档中各段落的标签信息和标签属性,得到特征文件和未标注文件;
步骤3:对未标注文件进行段落属性标注,首先根据中文文稿层次序号使用规范结合电网运行规则文档规范格式,确定未标注文件各段落属性标签类别,根据未标注文档中每个段落内容,通过人工判别段落应该对应所属类别方式进行标记,得到每个段落标签,构成模型训练的标签数据集,然后对电网运行规则中间格式文档依据中文文稿层次序号使用规范划分层级结构,并将标签类别和文档层级结构进行中文文稿层次序号使用规范下的映射;
步骤4:利用特征文件和已标注文本组成模型训练数据,利用模型训练数据训练深度学习神经网络模型;
步骤5:将待预测的特征文件输入到训练完成后的深度学习神经网络模型中预测其对应的标签类别信息,并根据标签类别信息以及文档层级结构划分映射关系,得到文档结构树;
步骤6:利用文档结构树构建电网运行规则知识图谱,以文档结构树中各叶节点及非叶节点作为电网运行规则知识图谱中的实体部分,以文档结构树中各节点之间的映射关系作为电网运行规则知识图谱的映射关系成分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111232176.6A CN113918512B (zh) | 2021-10-22 | 2021-10-22 | 电网运行规则知识图谱构建系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111232176.6A CN113918512B (zh) | 2021-10-22 | 2021-10-22 | 电网运行规则知识图谱构建系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113918512A true CN113918512A (zh) | 2022-01-11 |
CN113918512B CN113918512B (zh) | 2024-08-13 |
Family
ID=79242515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111232176.6A Active CN113918512B (zh) | 2021-10-22 | 2021-10-22 | 电网运行规则知识图谱构建系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113918512B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114780742A (zh) * | 2022-04-19 | 2022-07-22 | 中国水利水电科学研究院 | 一种灌区流量调度知识图谱问答系统构建与使用方法 |
CN116090560A (zh) * | 2023-04-06 | 2023-05-09 | 北京大学深圳研究生院 | 基于教材的知识图谱建立方法、装置及系统 |
CN116258282A (zh) * | 2023-05-12 | 2023-06-13 | 国网浙江省电力有限公司金华供电公司 | 一种基于云平台的智能电网资源调度分配方法 |
CN116304060A (zh) * | 2023-05-16 | 2023-06-23 | 北京拓普丰联信息科技股份有限公司 | 一种基于聚类构建通用词库的方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200153274A1 (en) * | 2018-11-13 | 2020-05-14 | Siemens Aktiengesellschaft | Distributed energy resource management system |
CN111930784A (zh) * | 2020-07-23 | 2020-11-13 | 南京南瑞信息通信科技有限公司 | 一种电网知识图谱构建方法及其系统 |
KR20210040862A (ko) * | 2020-03-31 | 2021-04-14 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 문서 타이틀 트리의 구축 방법, 장치, 전자기기, 저장매체 및 컴퓨터 프로그램 |
CN113177124A (zh) * | 2021-05-11 | 2021-07-27 | 北京邮电大学 | 一种垂直领域知识图谱构建方法及系统 |
-
2021
- 2021-10-22 CN CN202111232176.6A patent/CN113918512B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200153274A1 (en) * | 2018-11-13 | 2020-05-14 | Siemens Aktiengesellschaft | Distributed energy resource management system |
KR20210040862A (ko) * | 2020-03-31 | 2021-04-14 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 문서 타이틀 트리의 구축 방법, 장치, 전자기기, 저장매체 및 컴퓨터 프로그램 |
CN111930784A (zh) * | 2020-07-23 | 2020-11-13 | 南京南瑞信息通信科技有限公司 | 一种电网知识图谱构建方法及其系统 |
CN113177124A (zh) * | 2021-05-11 | 2021-07-27 | 北京邮电大学 | 一种垂直领域知识图谱构建方法及系统 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114780742A (zh) * | 2022-04-19 | 2022-07-22 | 中国水利水电科学研究院 | 一种灌区流量调度知识图谱问答系统构建与使用方法 |
CN114780742B (zh) * | 2022-04-19 | 2023-02-24 | 中国水利水电科学研究院 | 一种灌区流量调度知识图谱问答系统构建与使用方法 |
CN116090560A (zh) * | 2023-04-06 | 2023-05-09 | 北京大学深圳研究生院 | 基于教材的知识图谱建立方法、装置及系统 |
CN116258282A (zh) * | 2023-05-12 | 2023-06-13 | 国网浙江省电力有限公司金华供电公司 | 一种基于云平台的智能电网资源调度分配方法 |
CN116304060A (zh) * | 2023-05-16 | 2023-06-23 | 北京拓普丰联信息科技股份有限公司 | 一种基于聚类构建通用词库的方法、装置及电子设备 |
CN116304060B (zh) * | 2023-05-16 | 2023-08-25 | 北京拓普丰联信息科技股份有限公司 | 一种基于聚类构建通用词库的方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113918512B (zh) | 2024-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113918512B (zh) | 电网运行规则知识图谱构建系统及方法 | |
CN109145260B (zh) | 一种文本信息自动提取方法 | |
CN113342842A (zh) | 基于计量知识的语义查询方法、装置和计算机设备 | |
CN113168499A (zh) | 检索专利文档的方法 | |
CN112306494A (zh) | 一种基于卷积和循环神经网络的代码分类及聚类方法 | |
CN113196277A (zh) | 用于检索自然语言文档的系统 | |
CN113254507B (zh) | 一种数据资产目录智能构建盘点方法 | |
CN116737967A (zh) | 一种基于自然语言的知识图谱构建和完善系统及方法 | |
CN111191429A (zh) | 数据表格自动填充的系统和方法 | |
CN111857660B (zh) | 一种基于查询语句的情境感知api推荐方法及终端 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
CN117648093A (zh) | 基于大模型和自定制需求模板的rpa流程自动化生成方法 | |
CN117313850A (zh) | 一种信息抽取及知识图谱构建系统及方法 | |
CN116629258B (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及系统 | |
CN112988982A (zh) | 一种计算机比较空间的自主学习方法及系统 | |
CN110717014B (zh) | 一种本体知识库动态构建方法 | |
CN117473054A (zh) | 基于知识图谱的通用智能问答方法及装置 | |
CN115408506B (zh) | 联合语义解析和语义成分匹配的nl2sql的方法 | |
CN114840657A (zh) | 一种基于混合模式的api知识图谱自适应构建及智能问答方法 | |
CN113051920A (zh) | 命名实体识别方法、装置、计算机设备和存储介质 | |
CN112667666A (zh) | 一种基于N-gram的SQL运行时间预测方法及系统 | |
CN115204128A (zh) | 一种配置文件生成方法、装置和计算机可读存储介质 | |
CN112114812A (zh) | 一种应用于工业机器人编程语言的语法检查方法 | |
CN118132738B (zh) | 针对桥梁检评文本的抽取式问答方法 | |
CN117494806B (zh) | 基于知识图谱和大语言模型的关系抽取方法、系统及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |