CN111930774A - 一种电力知识图谱本体自动构建方法及系统 - Google Patents
一种电力知识图谱本体自动构建方法及系统 Download PDFInfo
- Publication number
- CN111930774A CN111930774A CN202010784161.XA CN202010784161A CN111930774A CN 111930774 A CN111930774 A CN 111930774A CN 202010784161 A CN202010784161 A CN 202010784161A CN 111930774 A CN111930774 A CN 111930774A
- Authority
- CN
- China
- Prior art keywords
- ontology
- model
- graph
- knowledge graph
- power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 59
- 238000004458 analytical method Methods 0.000 claims abstract description 19
- 238000005516 engineering process Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims abstract description 11
- 230000008569 process Effects 0.000 claims description 26
- 230000015654 memory Effects 0.000 claims description 21
- 238000007726 management method Methods 0.000 claims description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000008520 organization Effects 0.000 claims description 6
- 230000007547 defect Effects 0.000 claims description 5
- 238000012098 association analyses Methods 0.000 claims description 4
- 238000013139 quantization Methods 0.000 claims description 2
- 230000004927 fusion Effects 0.000 abstract description 9
- 238000000605 extraction Methods 0.000 abstract description 5
- 239000011159 matrix material Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Mathematical Physics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种电力知识图谱本体自动构建方法及系统,通过对多源关系型数据库SQL语言描述和表结构信息的分析,将电力系统各类应用的关系型数据库进行本体抽取与融合,形成电力本体候选集,利用基于图方法的本体聚类和消歧方法,形成本体图模型并自动更新本体及关系表达;根据不同业务需求,采用本体分层技术进行本体模型层级结构优化,将多个图模型进行融合形成具有分层描述功能的本体模型,充分利用了电力系统的数据结构与潜在知识连接,节约了大量的人力投入;能实现电力领域内本体的自动融合,构建的分层描述功能的本体模型将各类应用的知识进行统一表达,有助于进一步进行人工调整,大幅降低电力系统知识图谱构建的难度和复杂度。
Description
技术领域
本发明涉及电力技术领域,具体涉及一种电力知识图谱本体自动构建方法及系统。
背景技术
随着能源互联网的不断建设和发展,电力系统日常运行、监管、运维等不同业务部门所产生的电力数据规模已超过亿级并持续增长,不同业务部门信息系统之间存在专业壁垒凸显、跨专业流程不贯通、数据共享实时性不强、数据价值未充分挖掘等问题,而目前普遍采用的关系型数据库技术已无法支撑多源海量数据的存储、查询分析与应用。电力知识图谱是有效解决电力数据管理跨业务协同与信息共享能力不足、数据集成与访问效率受限、智能推理维度单一等问题的重要技术手段之一。本体模型作为一个知识图谱的骨架和基础,定义了领域概念集合以及集合在该领域所具有的特性、规律、关联关系等的一种层次结构化描述。电力知识图谱的本体构建是建立一个面向电力领域的本体模型,明确电力领域内概念、术语及其相互关联关系。
现有的领域本体自动化构建技术主要针对半结构或非结构化数据,通过自然语言处理和大量领域内语料知识的训练确定实体的定义和其关联关系,没有一套针对结构化数据(关系型数据库)的领域内本体自动化构建策略;由于电力系统知识专业性强且涉及业务范围广,且不同业务系统数据的命名规则、存储习惯等不尽相同,需要投入大量人员完成知识的整合和预处理工作,费时费力。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中电力系统知识图谱的本体自动构建复杂度高,费时费力的缺陷,从而提供一种电力知识图谱本体自动构建方法及系统。
为达到上述目的,本发明提供如下技术方案:
第一方面,本发明实施例提供一种电力知识图谱本体自动构建方法,包括如下步骤:
获取电力系统多源关系型数据库,并对多源数据结构进行关系解析,生成初始候选本体集;
对所述初始候选集候选依次进行本体聚类和本体消歧,更新本体及关系表达,生成知识模型本体;
基于业务需求,采用本体分层技术对知识模型本体分层,形成电力知识图谱的分层描述的本体模型。
在一实施例中,对多源数据结构进行关系解析,生成初始候选本体集的过程,包括:
获取所有预构建本体模型的结构化数据表的表名和主键名,针对每一张数据表的表名和主键名,基于中文文本分类训练文本集训练出的语料库作为初始语料库;在初始语料库基础上,添加自定义的电力专业词语及原始数据表中涉及到的专业词语,作为完善语的语料库;基于完善的语料库,对表名和主键名进行分词,并对分词统计结果进行排序,通过对比排序量化值,确定数据表名称或主键所抽象出的主本体名称;
识别每一张数据表中sheet名称,根据sheet名称判断该数据表是否存在SQLStatement,对于SQL Statement的数据表,解析其SQL语句,总结并判断外键描述模式,提取数据表外键名,生成主外键本体候选;对于无SQL Statement的数据表,提取数据表中的所有属性及各属性对应的行内容,根据数据内容与含有SQL语句的结构化数据表进行模式识别,判断主外键并生成表属性本体候选,结合生成的主本体,生成初始候选本体集;基于已构建的主外键本体候选,提取每张数据表所包含的属性信息并对比,将非重复的属性设置为该数据表主本体的属性。
在一实施例中,对所述初始候选本体集进行本体聚类的过程,包括:
将初始候选本体集,分别通过word2vec词向量模型训练和动态字符串距离计算的方法,进行词语相似度分析,再根据分词统计结果,进行唯一性和关联性分析,设置相似度、唯一性和关联性阈值,通过初始候选本体集内容的相似度、唯一性和关联性进行本体聚类,形成初始本体图模型。
在一实施例中,基于本体聚类的结果,将所有本体指称的候选本体作为图的节点,通过对节点进行拓展,并将其连接起来构成图模型,并采用PageRank和词频统计的消歧算法为本体指称选择出排序结果排名最高的本体名称,作为知识模型本体。
在一实施例中,所述采用消歧算法为本体候选集选择本体的策略包括:
对候选本体构成的图进行pagerank,从各个本体指称的候选本体集合中选择一个pagerank值最高的候选本体;或,
每次通过pagerank选择出得分最高的候选本体,将其选择为对应的本体指称的本体,并移除相应本体指称的其它候选本体,在剩下的子图中再次通过pagerank选择出得分最高的本体,选择为本体指称的对应本体,直到确认所有本体指称为止。
在一实施例中,基于业务需求,采用本体分层技术对知识模型本体分层,形成电力知识图谱的分层描述的本体模型的过程,包括:
根据知识模型本体中本体的相似度和关联度,将本体分为通用本体和特定业务本体,基于通用本体和特定业务本体构建由n个节点构成的图Gi=(Vi,Ei),i指不同业务范围的本体模型,形成多层权重图M,M的第i层对应于Gi;
每一层图单独构建完之后,将不同层之间的图进行连接优化,对不同层之间的同一个节点进行边的连接,通过权重计算和关联性分析,确定关联节点,最终形成电力知识图谱分层描述的本体模型。
在一实施例中,基于构建的电力知识图谱分层描述的本体模型,形成的电力管理应用层包括:
组织管理机构层,其涵盖设备全生命周期管理中所涉及到的所有组织管理机构,并按照网省、部门、班组和人员的从属结构定义本体模型;
设备基本信息层,其涵盖包含设备基本信息,同时将电网拓扑层、设备全生命周期管理层和管理时间层抽象为本体,关联至设备本体;
缺陷/故障事件层,其涵盖质量事件基本信息本体、事件描述和事件原因,同时将事件过程和处理流程分别定义为事件过程和处理流程事件知识图谱,描述质量事件的经过和质量事件的全部处理过程。
在一实施例中,所述电力知识图谱本体自动构建方法,还包括:
基于业务需求、功能需求和专家意见对电力知识图谱分层描述的本体模型进行优化改进。
第二方面,本发明实施例提供一种电力知识图谱本体自动构建系统,包括:初始候选本体集生成模块,用于获取电力系统多源关系型数据库,并对多源数据结构进行关系解析,生成初始候选本体集;
知识模型本体生成模块,用于对所述初始候选本体集依次进行本体聚类和本体消歧,更新本体及关系表达,生成知识模型本体;
分层描述的本体模型生成模块,用于基于业务需求,采用本体分层技术对知识模型本体分层,形成电力知识图谱的分层描述的本体模型。
在一实施中,所述电力知识图谱本体自动构建系统,还包括:
优化模块,用于基于业务需求、功能需求和专家意见对电力知识图谱分层描述的本体模型进行优化改进。
第三方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行本发明实施例第一方面的电力知识图谱本体自动构建方法。
第四方面,本发明实施例提供一种计算机设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行本发明实施例第一方面的电力知识图谱本体自动构建方法。
本发明技术方案,具有如下优点:
1、本发明提供的电力知识图谱本体自动构建方法及系统,通过对多源关系型数据库SQL语言描述和表结构信息的分析,将电力系统各类应用的关系型数据库进行本体抽取与融合,形成电力本体候选集,利用基于图方法的本体聚类和消歧方法,形成本体图模型并自动更新本体及关系表达;根据不同业务需求,采用本体分层技术进行本体模型层级结构优化,将多个图模型进行融合形成具有分层描述功能的本体模型,充分利用了电力系统的数据结构与潜在知识连接,节约了大量的人力投入;同时能实现电力领域内本体的自动融合,构建的分层描述功能的本体模型将各类应用的知识进行统一表达,有助于进一步进行人工调整,大幅降低电力系统知识图谱构建的难度和复杂度。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中提供的电力知识图谱本体自动构建方法的一个具体示例的工作流程图;
图2为本发明实施例中提供的另一电力知识图谱本体自动构建方法的一个具体示例的工作流程图;
图3为本发明实施例中电力知识图谱本体自动构建系统的一个具体示例的模块组成图;
图4为本发明实施例中电力知识图谱本体自动构建系统的另一个具体示例的模块组成图;
图5为本发明实施例提供的计算机设备一个具体示例的组成图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
本发明实施例提供一种电力知识图谱本体自动构建方法,如图1所示,包括如下步骤:
步骤S10:获取电力系统多源关系型数据库,并对多源数据结构进行关系解析,生成初始候选本体集。
本发明实施例中,首先,获取所有预构建本体模型的结构化数据表的表名和主键名,针对每一张数据表的表名和主键名,基于中文文本分类训练文本集训练出的语料库作为初始语料库;在初始语料库基础上,添加自定义的电力专业词语及原始数据表中涉及到的专业词语,作为完善语的语料库;基于完善的语料库,对表名和主键名进行分词,并对分词统计结果进行排序,通过对比排序量化值,确定数据表名称或主键所抽象出的主本体名称。
具体的,可以针对每一张数据表的表名,根据复旦大学提供的中文文本分类训练文本集约10000篇文本文档,训练中文语料库,由于在本体构建过程当中,许多专业性或业务性较强的词语更倾向于以一条完整的语句存在,而不需要精准分词,例如“所属变电站”,不需要拆分为“所属”和“变电站”,“主变压器”不需要拆分为“主”和“变压器”,因此,在得到的初始语料库基础上,添加自定义的电力专业词语及原始数据表中可能涉及到的专业词语,完善语料库。基于完善的语料库,对表名进行分词,例如“附表:xx公司电网设备供应商绩效评价结果(2018年第1期)”的数据表名被拆分为“附表,湖北,公司,电网,设备,供应,供应商,绩效,评价,绩效评价,结果,(2018,年,第,1,期,),0805”,根据TF-IDF与TextRank两种自然语言处理中经典的关键词提取算法,对分词结果进行排序,通过对比排序量化值,确定该表格名称所抽象出的本体名称。
然后,识别每一张数据表中sheet名称,根据sheet名称判断该数据表是否存在SQLStatement,对于SQL Statement的数据表,解析其SQL语句,总结并判断外键描述模式,提取数据表外键名,生成主外键本体候选;对于无SQL Statement的数据表,提取数据表中的所有属性及各属性对应的行内容,根据数据内容与含有SQL语句的结构化数据表进行模式识别,判断主外键并生成表属性本体候选,结合生成的主本体,生成初始候选本体集。为避免数据缺失及属性的不完整,基于已构建的主外键本体候选,提取每张数据表所包含的属性信息并对比,将非重复的属性设置为该数据表主本体的属性。在其他实施例中,也通过其他数据抽取方式获得的关系数据表结构及其数据,同样可以作为本发明实施例的数据输入,生成初始候选本体集。
步骤S20:对初始候选集候选依次进行本体聚类和本体消歧,更新本体及关系表达,生成知识模型本体。
本发明实施例对初始候选本体集进行本体聚类的过程,包括:将初始候选本体集,分别通过word2vec词向量模型训练和动态字符串距离计算的方法,进行词语相似度分析,再根据分词统计结果,进行唯一性和关联性分析,设置相似度、唯一性和关联性阈值,通过初始候选本体集内容的相似度、唯一性和关联性进行本体聚类,形成初始本体图模型。
其中,word2vec词向量模型训练通过CBOW(Continuous Bag of Words)和Skip-gram实现。CBOW的目标是根据上下文来预测当前词语的概率,且上下文所有的词对当前词出现概率的影响的权重是一样的,因此叫continuous bag-of-words模型。如在袋子中取词,取出数量足够的词就可以了,至于取出的先后顺序是无关紧要的;Skip-gram刚好相反:根据当前词语来预测上下文的概率。这两种方法都利用人工神经网络作为它们的分类算法。起初每个单词都是一个随机N维向量。经过训练之后,该算法利用CBOW或者Skip-gram的方法获得了每个单词的最优向量。
根据生成的本体候选词向量集,通过欧氏距离和余弦距离生成词向量距离模型,根据距离实现词向量聚类。多维空间的两点a(x1,1,x1,n)与b(x2,1,,x2,n)之间的欧氏距离为:
多维空间的两点a(x1,1,x1,n)与b(x2,1,,x2,n)之间的夹角余弦可以使用类似于夹角余弦的概念来衡量这两个样本点间的相似程度:
本发明实施例中,动态字符串距离计算的方法采用Levenshtein距离算法(仅以此算法作为举例,不以此为限),Levenshtein距离算法基本步骤可总结为:
(1)构造行数为m+1列数为n+1的矩阵,用来保存完成某个转换需要执行的操作的次数,将串s[1..n]转换到串t[1…m]所需要执行的操作次数为matrix[n][m]的值;
(2)初始化matrix第一行为0到n,第一列为0到m。Matrix[0][j]表示第1行第j-1列的值,这个值表示将串s[1…0]转换为t[1..j]所需要执行的操作的次数,显然将一个空字符串转换为一个长度为j的字符串,只需要j次的add操作,所以matrix[0][j]的值应该是j,其他值以此类推;
(3)检查每个从1到n的s[i]字符;
(4)检查每个从1到m的s[i]字符;
(5)将字符串s和字符串t的每一个字符进行两两比较,如果相等,则让cost为0,如果不等,则让cost为1;
(6)a.如果可以在k个操作里面将s[1..i-1]转换为t[1..j],就可以将s[i]移除,然后再做这k个操作,所以总共需要k+1个操作;
b.如果可以在k个操作内将s[1…i]转换为t[1…j-1],也就是说d[i,j-1]=k,就可以将t[j]加上s[1..i],这样总共就需要k+1个操作;
c.如果可以在k个步骤里面将s[1…i-1]转换为t[1…j-1],就可以将s[i]转换为t[j],使得满足s[1..i]==t[1..j],这样总共也需要k+1个操作,(该步骤考虑cost,是因为如果s[i]刚好等于t[j],那么就不需要再做替换操作,即可满足,如果不等,则需要再做一次替换操作,那么就需要k+1次操作)因为要取得最小操作的个数,最后还需要将这三种情况的操作个数进行比较,取最小值作为d[i,j]的值;d.重复执行3,4,5,6,最后的结果就在d[n,m]中。
定义两个字符串A和B间的Levenshtein距离为levA,B(a,b),其中a、b分别为字符串A、B的长度,而
本实施例进行本体消歧的过程,包括:基于本体聚类的结果,将所有本体指称的候选本体作为图的节点,通过对节点进行拓展,并将其连接起来构成图模型,并采用PageRank和词频统计的消歧算法为本体指称选择出排序结果排名最高的本体名称,作为知识模型本体。
具体的,基于图方法的本体消歧将生成的候选本体将作为点构建在消歧的图结构上,并将这些点连成图。对于该项目中某一类本体的指称集合M={m1,m2,m3,m4…,mk}中的任意本体指称Mi,存在一个候选本体列表Ci={ci1,ci2,ci3,…,cij},如果在pagelinks中存在直接从本体cij到本体cmn的链接,该链接视为长度为1的路径,表示为cij关联至cmn。如果存在本体cij到本体X的链接,以及本体X到本体cmn的链接,则意指cij到cmn之间存在长度为2的路径,表示为cij关联至X再关联至cmn,其中X为拓展得出的中间本体。为此,通过深度优先遍历全部本体候选集,找到从cij到cmn的所有路径,其中i≠m,且路经长度为1或2。最终这些路径将候选本体连接成图。
需要说明的是上述的长度可以为图遍历过程中的跳数,将本体视为节点,如果两节点直接关联,从一个节点遍历到另一个节点跳数为1,则二者之间长度为1;当遍历两个节点时存在中间节点,则跳数为2,二者之间长度为2。
最终产生的图模型为G=(V,E),其中V是所有候选本体以及拓展之后的中间本体的集合,E是不同本体指称候选本体之间的边或本体指称和中间本体的边的集合,任何两个候选本体之间的路径长度不超过2。本发明实施例之所以限制候选本体之间的距离,一方面是考虑到本体消歧的效率,每个候选本体经过一步拓展可能链接到上百相邻的候选本体,每个拓展出的相邻本体又可以进一步向外拓展,这样拓展到第三步,最终构成的图节点会非常多,将会影响接下来消歧步骤的效率;另一方面,考虑到本体关系的发散,候选本体之间的路径越长,相互之间的关联也就越弱。
在本发明实施例中,消歧算法使用两种策略为本体候选集选择本体,一种是对候选本体构成的图进行pagerank,从各个本体指称的候选本体集合中选择一个pagerank值最高的候选本体;另一种是每次通过pagerank选择出得分最高的候选本体,将其选择为对应的本体指称的本体,并移除相应本体指称的其它候选本体,在剩下的子图中再次通过pagerank选择出得分最高的本体,选择为本体指称的对应本体,直到确认所有本体指称为止。
步骤S30:基于业务需求,采用本体分层技术对知识模型本体分层,形成电力知识图谱的分层描述的本体模型。
本发明实施例,为清晰描述满足不同业务需求的本体模型,如PMS、调控云、缺陷事件图谱本体模型等,采用本体分层技术进行优化形成多层权重图,只对不同层之间的同一个节点进行边的连接,通过权重计算和关联性分析,确定关联节点,最终形成分层描述的本体模型。
具体的,根据知识模型本体中本体的相似度和关联度,将本体分为通用本体和特定业务本体,基于通用本体和特定业务本体构建由n个节点构成的图Gi=(Vi,Ei),i指不同业务范围的本体模型,形成多层权重图M,M的第i层对应于Gi;每一层图单独构建完之后,将不同层之间的图进行连接优化,对不同层之间的同一个节点进行边的连接,通过权重计算和关联性分析,确定关联节点,最终形成电力知识图谱分层描述的本体模型。
需要说明的是,本发明实施例是基于不同业务部门的数据源,生成面向各数据源的知识模型本体初始子本体模型;根据子本体模型中本体的相似度和关联度,将本体分为通用本体(高相似度和关联性)和特定业务本体。
针对知识模型本体分层,如果两个节点具有相同的度,那么这两个节点在结构上更相似,更进一步的,如果这两个节点的全部邻居节点也有相同的度,那这两个节点在结构上应该更相似。基于上述直观的概念,进行多层图和相应边的构建。
针对多层权重图的概念,每一层的图在构建的过程中,考虑的是不同层次的信息。对于由n个节点构成的图G=(V,E),其多层权重图定义为M,M的第k层均为一个有n个节点,C2n条带权边构成的图,边的权重计算如下
wk(u,v)=e-fk(u,v) (4)
其中的u,v均表示节点,边的权重均小于等于1,并且权重是两个节点结构相似性的一个反比,结构越接近,边的权重越大,就为之后进行遍历采样设定了偏向,会更倾向于采样结构相似性的节点,从而计算原始图的相似性。每一层图单独构建完之后,还需要将不同层之间的图进行连接。具体方式是,首先将每一层图中所包含的节点进行相似性和关联性比较,确定通用节点和特征节点;然后只对不同层之间的通用节点进行边的连接,边的权重计算如下:
其中,即在第k层与节点u的相连的权边中大于该层权边均值的个数,这个值描述了节点u在该层中与其他节点结构相似性的一个综合的强度。如果节点u在该层中有很多结构相似的节点,说明这一层不足以对u的结构做出充分的描述,所以Γk(u)会比较大,进而后续采样的话,会更倾向于跑到上一层。具体而言,可以只对不同层之间的同一个节点进行边的连接,通过权重计算和关联性分析,确定关联节点,最终形成分层描述的本体模型。
根据上述的图分层模型,对已构建的电力知识本体模型分层,可以形成:1)组织管理机构层:涵盖设备从规划、建设到投运、运维、检修、报废等全生命周期管理中所涉及到的所有组织管理机构,并按照网省、部门、班组和人员的从属结构定义本体模型;2)设备基本信息层:涵盖包含设备基本信息的设备本体、生产厂家、供应商、设备部件、设备部位等其他设备相关信息;同时,将电网拓扑层、设备全生命周期管理层和管理时间层抽象为本体,关联至设备本体;3)缺陷/故障事件层:涵盖质量事件基本信息本体、事件描述和事件原因;同时,将事件过程和处理流程分别定义为事件过程和处理流程事件知识图谱,描述质量事件的经过和质量事件从发现到登记、消缺、验收、检修、记录等全部处理过程等。
本发明实施例提供的电力知识图谱本体自动构建方法,通过对多源关系型数据库SQL语言描述和表结构信息的分析,将现有的电力系统各类应用的关系型数据库进行本体抽取与融合,形成电力本体候选集,利用基于图方法的本体聚类和消歧方法,形成本体图模型并自动更新本体及关系表达;根据不同业务需求,采用本体分层技术进行本体模型层级结构优化,将多个图模型进行融合形成具有分层描述功能的本体模型,充分利用了现有电力系统的数据结构与潜在知识连接,节约了大量的人力投入;能实现电力领域内本体的自动融合,构建的分层描述功能的本体模型将各类应用的知识进行统一表达,有助于进一步进行人工调整,大幅降低电力系统知识图谱构建的难度和复杂度。
在一实施例中,如图2所示,本发明实施例提供的电力知识图谱本体自动构建方法,在形成分层描述的本体模型的步骤之后还包括:
步骤S40:基于业务需求、功能需求和专家意见对电力知识图谱分层描述的本体模型进行优化改进。
该步骤是可以支持实现电力知识本体模型分层的可扩展性,主要为节点关联关系的优化,新数据本体的生成可通过重复数据结构关系解析和本体聚类消歧过程实现;新数据生成的本体融合至现有本体模型可通过重复本体分层过程实现,人工干预较少。
实施例2
本发明实施例提供一种基于电力知识图谱本体自动构建系统,如图3所示,包括:
初始候选本体集生成模块10,用于获取电力系统多源关系型数据库,并对多源数据结构进行关系解析,生成初始候选本体集。此模块执行实施例1中的步骤S10所描述的方法,在此不再赘述。
知识模型本体生成模块20,用于对所述初始候选本体集依次进行本体聚类和本体消歧,更新本体及关系表达,生成知识模型本体。此模块执行实施例1中的步骤S20所描述的方法,在此不再赘述。
分层描述的本体模型生成模块30,用于基于业务需求,采用本体分层技术对知识模型本体分层,形成电力知识图谱的分层描述的本体模型。此模块执行实施例1中的步骤S30所描述的方法,在此不再赘述。
在另一实施例中,如图4所示,电力知识图谱本体自动构建系统,还包括:
优化模块40,用于基于业务需求、功能需求和专家意见对电力知识图谱分层描述的本体模型进行优化改进。此模块执行实施例1中的步骤S40所描述的方法,在此不再赘述。
本发明实施例提供的电力知识图谱本体自动构建系统,通过对多源关系型数据库SQL语言描述和表结构信息的分析,将现有的电力系统各类应用的关系型数据库进行本体抽取与融合,形成电力本体候选集,利用基于图方法的本体聚类和消歧方法,形成本体图模型并自动更新本体及关系表达;根据不同业务需求,采用本体分层技术进行本体模型层级结构的优化,将多个图模型进行融合形成具有分层描述功能的本体模型,充分利用了现有电力系统的数据结构与潜在知识连接,节约了大量的人力投入;能实现电力领域内本体的自动融合,构建的分层描述功能的本体模型将各类应用的知识进行统一表达,有助于进一步进行人工调整,大幅降低电力系统知识图谱构建的难度和复杂度。
实施例3
本发明实施例提供一种计算机设备,如图5所示,该设备可以包括处理器51和存储器52,其中处理器51和存储器52可以通过总线或者其他方式连接,图5以通过总线连接为例。
处理器51可以为中央处理器(Central Processing Unit,CPU)。处理器51还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器52作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的对应的程序指令/模块。处理器51通过运行存储在存储器52中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例1中的电力知识图谱本体自动构建方法。
存储器52可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器51所创建的数据等。此外,存储器52可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器52可选包括相对于处理器51远程设置的存储器,这些远程存储器可以通过网络连接至处理器51。上述网络的实例包括但不限于互联网、企业内部网、企业内网、移动通信网及其组合。
一个或者多个模块存储在存储器52中,当被处理器51执行时,执行实施例1中的电力知识图谱本体自动构建方法。
上述计算机设备具体细节可以对应参阅实施例1中对应的相关描述和效果进行理解,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-StateDrive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (12)
1.一种电力知识图谱本体自动构建方法,其特征在于,包括如下步骤:
获取电力系统多源关系型数据库,并对多源数据结构进行关系解析,生成初始候选本体集;
对所述初始候选集候选依次进行本体聚类和本体消歧,更新本体及关系表达,生成知识模型本体;
基于业务需求,采用本体分层技术对知识模型本体分层,形成电力知识图谱的分层描述的本体模型。
2.根据权利要求1所述的电力知识图谱本体自动构建方法,其特征在于,对多源数据结构进行关系解析,生成初始候选本体集的过程,包括:
获取所有预构建本体模型的结构化数据表的表名和主键名,针对每一张数据表的表名和主键名,基于中文文本分类训练文本集训练出的语料库作为初始语料库;在初始语料库基础上,添加自定义的电力专业词语及原始数据表中涉及到的专业词语,作为完善语的语料库;基于完善的语料库,对表名和主键名进行分词,并对分词统计结果进行排序,通过对比排序量化值,确定数据表名称或主键所抽象出的主本体名称;
识别每一张数据表中sheet名称,根据sheet名称判断该数据表是否存在SQLStatement,对于SQL Statement的数据表,解析其SQL语句,总结并判断外键描述模式,提取数据表外键名,生成主外键本体候选;对于无SQL Statement的数据表,提取数据表中的所有属性及各属性对应的行内容,根据数据内容与含有SQL语句的结构化数据表进行模式识别,判断主外键并生成表属性本体候选,结合生成的主本体,生成初始候选本体集;基于已构建的主外键本体候选,提取每张数据表所包含的属性信息并对比,将非重复的属性设置为该数据表主本体的属性。
3.根据权利要求1所述的电力知识图谱本体自动构建方法,其特征在于,对所述初始候选本体集进行本体聚类的过程,包括:
将初始候选本体集,分别通过word2vec词向量模型训练和动态字符串距离计算的方法,进行词语相似度分析,再根据分词统计结果,进行唯一性和关联性分析,设置相似度、唯一性和关联性阈值,通过初始候选本体集内容的相似度、唯一性和关联性进行本体聚类,形成初始本体图模型。
4.根据权利要求3所述的电力知识图谱本体自动构建方法,其特征在于,进行本体消歧的过程,包括:
基于本体聚类的结果,将所有本体指称的候选本体作为图的节点,通过对节点进行拓展,并将其连接起来构成图模型,并采用PageRank和词频统计的消歧算法为本体指称选择出排序结果排名最高的本体名称,作为知识模型本体。
5.根据权利要求4所述的电力知识图谱本体自动构建方法,其特征在于,所述采用消歧算法为本体候选集选择本体的策略包括:
对候选本体构成的图进行pagerank,从各个本体指称的候选本体集合中选择一个pagerank值最高的候选本体;或,
每次通过pagerank选择出得分最高的候选本体,将其选择为对应的本体指称的本体,并移除相应本体指称的其它候选本体,在剩下的子图中再次通过pagerank选择出得分最高的本体,选择为本体指称的对应本体,直到确认所有本体指称为止。
6.根据权利要求3所述的电力知识图谱本体自动构建方法,其特征在于,基于业务需求,采用本体分层技术对知识模型本体分层,形成电力知识图谱的分层描述的本体模型的过程,包括:
根据知识模型本体中本体的相似度和关联度,将本体分为通用本体和特定业务本体,基于通用本体和特定业务本体构建由n个节点构成的图Gi=(Vi,Ei),i指不同业务范围的本体模型,形成多层权重图M,M的第i层对应于Gi;
每一层图单独构建完之后,将不同层之间的图进行连接优化,对不同层之间的同一个节点进行边的连接,通过权重计算和关联性分析,确定关联节点,最终形成电力知识图谱分层描述的本体模型。
7.根据权利要求6所述的电力知识图谱本体自动构建方法,其特征在于,基于构建的电力知识图谱分层描述的本体模型,形成的电力管理应用层包括:
组织管理机构层,其涵盖设备全生命周期管理中所涉及到的所有组织管理机构,并按照网省、部门、班组和人员的从属结构定义本体模型;
设备基本信息层,其涵盖包含设备基本信息,同时将电网拓扑层、设备全生命周期管理层和管理时间层抽象为本体,关联至设备本体;
缺陷/故障事件层,其涵盖质量事件基本信息本体、事件描述和事件原因,同时将事件过程和处理流程分别定义为事件过程和处理流程事件知识图谱,描述质量事件的经过和质量事件的全部处理过程。
8.根据权利要求1-7任一所述的电力知识图谱本体自动构建方法,其特征在于,还包括:
基于业务需求、功能需求和专家意见对电力知识图谱分层描述的本体模型进行优化改进。
9.一种电力知识图谱本体自动构建系统,其特征在于,包括:
初始候选本体集生成模块,用于获取电力系统多源关系型数据库,并对多源数据结构进行关系解析,生成初始候选本体集;
知识模型本体生成模块,用于对所述初始候选本体集依次进行本体聚类和本体消歧,更新本体及关系表达,生成知识模型本体;
分层描述的本体模型生成模块,用于基于业务需求,采用本体分层技术对知识模型本体分层,形成电力知识图谱的分层描述的本体模型。
10.根据权利要求9所述的电力知识图谱本体自动构建系统,其特征在于,还包括:
优化模块,用于基于业务需求、功能需求和专家意见对电力知识图谱分层描述的本体模型进行优化改进。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如权利要求1-8任一项所述的电力知识图谱本体自动构建方法。
12.一种计算机设备,其特征在于,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如权利要求1-8任一项所述的电力知识图谱本体自动构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010784161.XA CN111930774B (zh) | 2020-08-06 | 2020-08-06 | 一种电力知识图谱本体自动构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010784161.XA CN111930774B (zh) | 2020-08-06 | 2020-08-06 | 一种电力知识图谱本体自动构建方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111930774A true CN111930774A (zh) | 2020-11-13 |
CN111930774B CN111930774B (zh) | 2024-03-29 |
Family
ID=73307744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010784161.XA Active CN111930774B (zh) | 2020-08-06 | 2020-08-06 | 一种电力知识图谱本体自动构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111930774B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112434129A (zh) * | 2020-11-20 | 2021-03-02 | 内蒙古电力(集团)有限责任公司电力调度控制分公司 | 一种电网调度领域专业语料库生成方法及系统 |
CN112765361A (zh) * | 2021-01-12 | 2021-05-07 | 济南浪潮高新科技投资发展有限公司 | 服务于知识图谱的数据处理方法和系统 |
CN112948508A (zh) * | 2021-04-15 | 2021-06-11 | 平安科技(深圳)有限公司 | 基于多层关联知识图谱的信息预测方法、装置、设备及介质 |
CN113590846A (zh) * | 2021-09-24 | 2021-11-02 | 天津汇智星源信息技术有限公司 | 法律知识图谱构建方法及相关设备 |
CN113886482A (zh) * | 2021-12-07 | 2022-01-04 | 北京华云安信息技术有限公司 | 面向图数据库的数据自动入库方法、装置和设备 |
WO2023165271A1 (zh) * | 2022-03-01 | 2023-09-07 | 支付宝(杭州)信息技术有限公司 | 知识图谱的构建、和图计算 |
CN117520567A (zh) * | 2024-01-03 | 2024-02-06 | 卓世科技(海南)有限公司 | 基于知识图谱的大语言模型训练方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959461A (zh) * | 2018-06-15 | 2018-12-07 | 东南大学 | 一种基于图模型的实体链接方法 |
CN109033284A (zh) * | 2018-07-12 | 2018-12-18 | 国网福建省电力有限公司 | 基于知识图谱的电力信息运维系统数据库构建方法 |
CN110300018A (zh) * | 2019-05-30 | 2019-10-01 | 武汉大学 | 一种面向对象的电网信息物理系统层次化建模方法 |
CN110727741A (zh) * | 2019-09-29 | 2020-01-24 | 全球能源互联网研究院有限公司 | 一种电力系统的知识图谱构建方法及系统 |
CN110825721A (zh) * | 2019-11-06 | 2020-02-21 | 武汉大学 | 大数据环境下高血压知识库构建与系统集成方法 |
CN111400841A (zh) * | 2020-04-01 | 2020-07-10 | 贵州电网有限责任公司 | 一种集成多信息的电网时空多维图层模型构建方法 |
-
2020
- 2020-08-06 CN CN202010784161.XA patent/CN111930774B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959461A (zh) * | 2018-06-15 | 2018-12-07 | 东南大学 | 一种基于图模型的实体链接方法 |
CN109033284A (zh) * | 2018-07-12 | 2018-12-18 | 国网福建省电力有限公司 | 基于知识图谱的电力信息运维系统数据库构建方法 |
CN110300018A (zh) * | 2019-05-30 | 2019-10-01 | 武汉大学 | 一种面向对象的电网信息物理系统层次化建模方法 |
CN110727741A (zh) * | 2019-09-29 | 2020-01-24 | 全球能源互联网研究院有限公司 | 一种电力系统的知识图谱构建方法及系统 |
CN110825721A (zh) * | 2019-11-06 | 2020-02-21 | 武汉大学 | 大数据环境下高血压知识库构建与系统集成方法 |
CN111400841A (zh) * | 2020-04-01 | 2020-07-10 | 贵州电网有限责任公司 | 一种集成多信息的电网时空多维图层模型构建方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112434129A (zh) * | 2020-11-20 | 2021-03-02 | 内蒙古电力(集团)有限责任公司电力调度控制分公司 | 一种电网调度领域专业语料库生成方法及系统 |
CN112765361A (zh) * | 2021-01-12 | 2021-05-07 | 济南浪潮高新科技投资发展有限公司 | 服务于知识图谱的数据处理方法和系统 |
CN112948508A (zh) * | 2021-04-15 | 2021-06-11 | 平安科技(深圳)有限公司 | 基于多层关联知识图谱的信息预测方法、装置、设备及介质 |
WO2022217711A1 (zh) * | 2021-04-15 | 2022-10-20 | 平安科技(深圳)有限公司 | 基于多层关联知识图谱的信息预测方法、装置、设备及介质 |
CN112948508B (zh) * | 2021-04-15 | 2024-04-30 | 平安科技(深圳)有限公司 | 基于多层关联知识图谱的信息预测方法、装置、设备及介质 |
CN113590846A (zh) * | 2021-09-24 | 2021-11-02 | 天津汇智星源信息技术有限公司 | 法律知识图谱构建方法及相关设备 |
CN113886482A (zh) * | 2021-12-07 | 2022-01-04 | 北京华云安信息技术有限公司 | 面向图数据库的数据自动入库方法、装置和设备 |
CN113886482B (zh) * | 2021-12-07 | 2022-03-08 | 北京华云安信息技术有限公司 | 面向图数据库的数据自动入库方法、装置和设备 |
WO2023165271A1 (zh) * | 2022-03-01 | 2023-09-07 | 支付宝(杭州)信息技术有限公司 | 知识图谱的构建、和图计算 |
CN117520567A (zh) * | 2024-01-03 | 2024-02-06 | 卓世科技(海南)有限公司 | 基于知识图谱的大语言模型训练方法 |
CN117520567B (zh) * | 2024-01-03 | 2024-04-02 | 卓世科技(海南)有限公司 | 基于知识图谱的大语言模型训练方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111930774B (zh) | 2024-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111930774B (zh) | 一种电力知识图谱本体自动构建方法及系统 | |
CN109902165B (zh) | 基于马尔科夫逻辑网的智能交互式问答方法、系统、装置 | |
CN112612902A (zh) | 一种电网主设备的知识图谱构建方法及设备 | |
Mulwad et al. | Semantic message passing for generating linked data from tables | |
CN111428054A (zh) | 一种网络空间安全领域知识图谱的构建与存储方法 | |
Ferrara et al. | Data linking for the semantic web | |
CN106951558B (zh) | 一种基于深度搜索的税务智能咨询平台的数据处理方法 | |
CN111444348A (zh) | 知识图谱架构的构建与应用方法、系统及介质 | |
CN113112164A (zh) | 基于知识图谱的变压器故障诊断方法、装置及电子设备 | |
CN104699767B (zh) | 一种面向中文语言的大规模本体映射方法 | |
CN113434634A (zh) | 知识图谱构建方法、装置 | |
Ribeiro et al. | Strategies for combining Twitter users geo-location methods | |
CN112463981A (zh) | 一种基于深度学习的企业内部经营管理风险识别提取方法及系统 | |
Niu et al. | Scaling inference for markov logic via dual decomposition | |
CN111651447A (zh) | 一种智能建造全寿期数据处理分析管控系统 | |
Liu et al. | Ontology representation and mapping of common fuzzy knowledge | |
CN115757810A (zh) | 一种知识图谱标准本体构建方法 | |
Leng et al. | Automatic MEP knowledge acquisition based on documents and natural language processing | |
CN117010373A (zh) | 一种电力设备资产管理数据所属类别和组的推荐方法 | |
Kovács et al. | Conceptualization with incremental bron-kerbosch algorithm in big data architecture | |
Yin et al. | A deep natural language processing‐based method for ontology learning of project‐specific properties from building information models | |
CN112463974A (zh) | 知识图谱建立的方法和装置 | |
Ouaret et al. | AuMixDw: Towards an automated hybrid approach for building XML data warehouses | |
CN115204179A (zh) | 基于电网公共数据模型的实体关系预测的方法及装置 | |
Chen | English translation template retrieval based on semantic distance ontology knowledge recognition algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |