CN113254669B - 基于知识图谱的配电网cim模型信息补全方法及系统 - Google Patents
基于知识图谱的配电网cim模型信息补全方法及系统 Download PDFInfo
- Publication number
- CN113254669B CN113254669B CN202110658047.7A CN202110658047A CN113254669B CN 113254669 B CN113254669 B CN 113254669B CN 202110658047 A CN202110658047 A CN 202110658047A CN 113254669 B CN113254669 B CN 113254669B
- Authority
- CN
- China
- Prior art keywords
- path
- entity
- pra
- representing
- distribution network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000008569 process Effects 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims description 34
- 238000000605 extraction Methods 0.000 claims description 29
- 238000003066 decision tree Methods 0.000 claims description 27
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 14
- 150000001875 compounds Chemical class 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 230000001502 supplementing effect Effects 0.000 claims description 8
- 238000000354 decomposition reaction Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 abstract description 12
- 238000004880 explosion Methods 0.000 abstract description 4
- 238000005295 random walk Methods 0.000 abstract description 2
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/027—Frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Resources & Organizations (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Supply And Distribution Of Alternating Current (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种基于知识图谱的配电网CIM模型信息补全方法及系统,相比于CoR‑PRA方法中的随机游走策略,通过采用广度优先搜索策略进行路径搜索,降低了搜索空间,减小了路径特征爆炸的概率,搜索耗时更少,生成源实体子图和目标实体子图的效率更高;相比于CoR‑PRA方法提取单一图特征,通过提取源实体子图与目标实体子图之间的多种图特征,丰富了路径特征量,减小了识别结果对高质量数据集的依赖程度;通过对特征集只保留二值化特征的处理方式,避免了CoR‑PRA方法中路径特征需要较大计算量的概率计算过程。
Description
技术领域
本申请涉及配电网调度技术领域,尤其涉及一种基于知识图谱的配电网CIM模型信息补全方法。
背景技术
长期以来,各级电力系统对电网模型的维护是分散的,彼此之间无法共享,即使在同级应用系统之间,对电网模型的需求也各不相同,建模侧重点也不相同,为系统间信息交互带来了困难。为实现异构系统中信息的交互,国际电工委员会制定了IECC61970/61890标准,并定义公共信息模型(简称CIM模型,英文全称为Common Information Model)作为电力系统间模型转换的基础模型。
但是,即使如此,在实际场景中,由于工作人员维护不当或异构系统交互时机不当,配电网CIM模型存在拓扑信息缺失、属性信息缺失和模型拼接不完整的情况,导致基于CIM模型拓扑建模时出现拓扑建模不准确、设备参数不完整的问题。
发明内容
本申请提供了一种基于知识图谱的配电网CIM模型信息补全方法及系统,用于解决基于CIM模型拓扑建模时出现拓扑建模不准确、设备参数不完整的技术问题。
有鉴于此,本申请第一方面提供了一种基于知识图谱的配电网CIM模型信息补全方法,包括以下步骤:
S1、根据配电网设备以及各配电网设备之间联络的线路中提取出来的实体元素构建配电网CIM模型知识图谱;
S2、根据知识推理任务提取所述配电网CIM模型知识图谱中的源实体、推理关系和目标实体,从而构成推理关系三元组;
S3、基于广度优先搜索策略,根据所述源实体和所述目标实体分别进行路径搜索,从而生成源实体子图和目标实体子图;
S4、提取所述源实体子图和所述目标实体子图中的多种特征;
S5、对步骤S4中提取的多种特征进行二值化处理,对经二值化处理后的多种特征取并集,从而生成特征集;
S6、根据所述源实体和所述目标实体的映射关系以及所述特征集,生成特征矩阵;
S7、采用ID3决策树分类器对所述特征矩阵进行训练,并以所述源实体和所述目标实体的推理关系作为输出构建决策树模型;
S8、通过向所述决策树模型导入两个测试实体,从而判断是否能输出所述两个测试实体的预测推理关系,当上述判断为是时,则将所述预测推理关系补充至所述配电网CIM模型知识图谱中,从而补全所述配电网CIM模型知识图谱。
优选地,所述步骤S1具体包括:
S101、以配电网设备作为实体,以各配电网设备之间联络的线路作为关系,构建实体关系三元组;
S102、在CIM模型中提取所述实体的属性值作为尾实体,对所述实体关系三元组进行补充,生成知识图谱的三元组;
S103、根据所述知识图谱的三元组构建配电网CIM模型知识图谱。
优选地,所述步骤S1之后,所述步骤S2之前包括:
根据专家知识库在所述配电网CIM模型知识图谱中截取预定范围的知识图谱作为原始数据集。
优选地,所述步骤S3具体包括:
采用广度优先搜索策略以所述源实体为起点进行路径搜索,生成路径长度为预设路径长度阈值的源实体子图;采用广度优先搜索策略以所述目标实体为起点进行路径搜索,生成路径长度为所述预设路径长度阈值的目标实体子图。
优选地,所述步骤S4具体包括:根据所述源实体子图和所述目标实体子图提取类PRA路径特征、类PRA相似泛化路径特征、类PRA任意泛化路径特征、bigram路径特征、one-sided特征和one-sided比较特征。
优选地,所述类PRA路径特征的提取过程包括:
S401、假设所述源实体子图和所述目标实体子图中分别存在相应的所述源实体和所述目标实体到同一中间实体x的路径,则以该中间实体x作为链接节点生成所述源实体和所述目标实体之间的PRA全路径为,
公式1中,表示从源实体h出发抵达至目标实体t过程中所包含的所有实体集合;表示从源实体h出发抵达至目标实体t过程中所包含的所有路径类型集合;表示源实体h和目标实体t之间的PRA全路径;表示目标实体t出发抵达至中间实体x过程中所包含的所有路径类型集合;表示对进行路径方向翻转后的路径特征集合;xn表示第n个中间实体,n=1,2,...,n;表示第n个路径类型,路径类型由推理关系三元组决定;等效于图结构,具体为,
S402、根据所述源实体和所述目标实体之间的PRA全路径生成类PRA路径特征为,
相应的,所述类PRA相似泛化路径特征的提取过程包括:
S411、通过PRA算法获取各个实体间的路径;
S412、对经PRA算法获得的各个实体的路径进行张量分解,得出路径类型的向量空间;
S413、将步骤S402中得到的所述类PRA路径特征中的每个路径类型替换为所述路径类型的向量空间中的与其相似的路径类型,则生成类PRA相似泛化路径特征为,
公式4中,表示类PRA相似泛化路径特征;表示从源实体出发抵达至目标实体过程中使用相似路径类型代替对应路径类型的路径集合;表示类PRA路径特征中第x个的路径类型;表示与相对应的相似的路径类型,且在路径集合中只允许有一个;
相应的,所述类PRA任意泛化路径特征的提取过程包括:
S421、假设步骤S402中得到的所述类PRA路径特征中的每个路径类型在步骤S412中得到的所述向量空间中存在与路径类型相似的任意向量,且所述与路径类型相似的任意向量为任意值向量,则将该与路径类型相似的任意向量引至步骤S401中得出的所述类PRA路径特征中,得出类PRA任意泛化路径特征为,
相应的,所述bigram路径特征的提取过程包括:
S431、通过将所述源实体和所述目标实体分别增设标签以进行路径类型化,通过所述源实体和所述目标实体之间的PRA全路径得出下式为,
公式6中,@h@表示源实体的路径类型化,@t@表示目标实体的路径类型化;
相应的, one-sided特征的提取过程包括:
公式8中,表示来自源实体子图中的路径类型与首实体对的特征,表示来自源实体子图中的路径类型与尾实体对的特征,m=deg(h),deg(h)表示来自源实体子图中的实体的度;表示来自目标实体子图中的路径类型与首实体对的特征;表示来自目标实体子图中的路径类型与尾实体对的特征,n=det(t),det(t)表示来自目标实体子图中的实体的度;
相应的,one-sided比较特征的提取过程包括:
优选地,步骤S5具体包括:
S501、将所述类PRA路径特征、所述类PRA相似泛化路径特征、所述类PRA任意泛化路径特征、所述bigram路径特征、所述one-sided特征和所述one-sided比较特征均进行二值化处理,具体为,
S502、将步骤S501中二值化处理后的特征取并集,生成特征集,具体为,
公式13中,表示特征集,表示二值化后的类PRA路径特征,表示二值化后的类PRA相似泛化路径特征,表示二值化后的类PRA任意泛化路径特征,表示二值化后的bigram路径特征,表示二值化后的one-sided特征,表示二值化后的one-sided比较特征;
S503、以所述特征集为列,以所述源实体和对应的所述目标实体的映射关系为行,生成对应的特征矩阵为,
优选地,步骤S7中的所述ID3决策树分类器中的信息增益为,
公式16中,S表示训练集集合,c表示第c类样本,n表示第c样本的样本子集数量,p代表样本子集。
优选地,步骤S8之后还包括:
S9、将所述两个测试实体及其对应的预测推理关系以XML语句插至配电网CIM模型的XML文件中。
第二方面,本发明还提供了一种基于知识图谱的配电网CIM模型信息补全系统,包括:
构建模块,用于根据配电网设备以及各配电网设备之间联络的线路中提取出来的实体元素构建配电网CIM模型知识图谱;
实体提取模块,用于根据知识推理任务提取所述配电网CIM模型知识图谱中的源实体、推理关系和目标实体,从而构成推理关系三元组;
路径搜索模块,用于基于广度优先搜索策略,根据所述源实体和所述目标实体分别进行路径搜索,从而生成源实体子图和目标实体子图;
特征提取模块,用于对所述源实体子图和所述目标实体子图进行多种特征提取;
特征集模块,用于对所述特征提取模块提取的特征进行二值化处理,对经二值化处理后的多种特征取并集,从而生成特征集;
特征矩阵模块,用于根据所述源实体和所述目标实体的映射关系以及所述特征集,生成特征矩阵;
模型训练模块,用于采用ID3决策树分类器对所述特征矩阵进行训练,并以所述源实体和所述目标实体的推理关系作为输出构建决策树模型;
补全模块,用于通过向所述决策树模型导入两个测试实体,从而判断是否能输出所述两个测试实体的预测推理关系,还用于当上述判断为是时,则将所述预测推理关系补充至所述配电网CIM模型知识图谱中,从而补全所述配电网CIM模型知识图谱。
从以上技术方案可以看出,本申请实施例具有以下优点:
本发明通过采用广度优先搜索策略进行路径搜索,生成更加简单的源实体子图和目标实体子图创建特征空间,降低了搜索空间,抽取的特征量更多,耗时更少,相比于CoR-PRA方法中的随机游走策略,通过采用广度优先搜索策略进行路径搜索,降低了搜索空间,减小了路径特征爆炸的概率,抽取特征量更多,耗时更少;通过提取源实体子图与目标实体子图之间的多种图特征,丰富了路径特征量,减少了识别结果对高质量数据集的依赖程度;通过对特征集只保留二值化特征的处理方式,避免了路径特征中需要较大计算量的概率计算过程。
附图说明
图1为本申请实施例提供的一种基于知识图谱的配电网CIM模型信息补全方法的流程图;
图2为本申请实施例提供的一种基于知识图谱的配电网CIM模型信息补全系统的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
通过本发明人发现,在现有方案中的基于知识推理的主配网统一管理模型信息补全方法,其使用CoR-PRA方法对电网管理模型进行特征提取和链接预测,具体为,首先根据路径搜索算法以源实体节点和目标实体节点为起点生成路径长度小于某个阈值的路径集合;其次通过PRA计算路径特征的概率,将路径特征进行翻转后放入常量候选集中;然后根据概率计算结果生成候选的常量路径;最后对每一个可能的组合生成更长的路径特征候选集。依据特征候选集作为更新基础实现对未来态主网和配网的知识图谱进行更新。
但通过上述方案进行知识图谱更新,存在以下问题:
1)尽管CoR-PRA方法采用了随机游走策略来降低搜索空间,当PRA(Path RankingAlgorithm,路径排序算法)应用在关系丰富且连接稠密的知识图谱上时,依然会面临路径特征爆炸的问题,路径特征爆炸会导致特征量过多,计算量大,也有可能会导致知识图谱更新出现过拟合现象。
2)CoR-PRA搜索路径特征时进行概率计算,需要较大计算量。
3)CoR-PRA方法提取的特征较为单一,只有源实体节点和目标节点之间的路径特征,特征量过少,识别结果只能依赖高质量的数据集。
为此,请参见图1,本发明提供了一种基于知识图谱的配电网CIM模型信息补全方法,包括以下步骤:
S1、根据配电网设备以及各配电网设备之间联络的线路中提取出来的实体元素构建配电网CIM模型知识图谱;
S2、根据知识推理任务提取配电网CIM模型知识图谱中的源实体、推理关系和目标实体,从而构成推理关系三元组;
S3、基于广度优先搜索策略,根据源实体和目标实体分别进行路径搜索,从而生成源实体子图和目标实体子图;
S4、提取源实体子图和目标实体子图中的多种特征;
S5、对步骤S4中提取的多种特征进行二值化处理,对经二值化处理后的多种特征取并集,从而生成特征集;
S6、根据源实体和目标实体的映射关系以及特征集,生成特征矩阵;
S7、采用ID3决策树分类器对特征矩阵进行训练,并以源实体和目标实体的推理关系作为输出构建决策树模型;
需要说明的是,ID3决策树分类器, 即Iterative Dichotomiser 3决策树分类器,迭代二叉树3代,是Ross Quinlan发明的一种决策树算法。
S8、通过向决策树模型导入两个测试实体,从而判断是否能输出两个测试实体的预测推理关系,当上述判断为是时,则将预测推理关系补充至配电网CIM模型知识图谱中,从而补全配电网CIM模型知识图谱。
本发明通过采用广度优先搜索策略进行路径搜索,生成更加简单的源实体子图和目标实体子图创建特征空间,降低了搜索空间,抽取的特征量更多,耗时更少,相比于CoR-PRA方法中的随机游走策略,通过采用广度优先搜索策略进行路径搜索,降低了搜索空间,减小了路径特征爆炸的概率,抽取特征量更多,耗时更少;通过提取源实体子图与目标实体子图之间的多种图特征,丰富了路径特征量,减少了识别结果对高质量数据集的依赖程度;通过对特征集只保留二值化特征的处理方式,避免了路径特征中需要较大计算量的概率计算过程。
以下为本发明提供的一种基于知识图谱的配电网CIM模型信息补全方法的具体描述。
进一步地,在步骤S1中具体包括:
S101、以配电网设备作为实体,以各配电网设备之间联络的线路作为关系,构建实体关系三元组;
S102、在CIM模型中提取实体的属性值作为尾实体,对实体关系三元组进行补充,生成知识图谱的三元组;
假设存在一个配电网设备A,它的型号为LGJ-50,那么,配电网设备A为实体,型号代表属性,LGJ-50就是尾实体,需将该尾实体补充至实体关系三元组中,生成知识图谱的三元组。
S103、根据知识图谱的三元组构建配电网CIM模型知识图谱。
进一步地,步骤S1之后,步骤S2之前包括:
根据专家知识库在配电网CIM模型知识图谱中截取预定范围的知识图谱作为原始数据集。
需要说明的是,专家知识库包括专家过往进行的数据分析、逻辑判断的先验知识,例如:在配电网CIM模型中包含了大量设备,当需要进行电气的潮流计算时,通过专家知识库可以得出进行潮流计算需要哪些设备;或在进行关系推理时,可以将通过专家知识库得出将推理关系的范围由全部CIM模型缩减到部分CIM模型、由线路的全拓扑缩减到部分拓扑,减少数据量的同时减小了搜索空间。
通过对配电网CIM模型知识图谱进行适当的范围截取,可以减小搜索空间,避免冗余路径特征向量的生成。
进一步地,步骤S3具体包括:
采用广度优先搜索策略以源实体为起点进行路径搜索,生成路径长度为预设路径长度阈值的源实体子图;采用广度优先搜索策略以目标实体为起点进行路径搜索,生成路径长度为预设路径长度阈值的目标实体子图。
具体地,采用广度优先搜索策略以源实体为起点,以为路径长度阈值进行路径,生成源实体子图,以目标实体为起点,同样以为路径长度阈值生成目标实体子图,通过广度优先搜索策略减少无意义的路径特征,提升了路径搜索的效率。
为了进一步提升搜索效率,由于源实体子图和目标实体子图的搜索过程是一致的,如果在路径搜索过程中,某个中间实体对应的目标实体中有很多相同的路径类型连接着不同的实体节点,那么这个路径类型不会作为当前广度优先搜索路径中的一个路径特征,而是把当前中间实体当做源实体子图以及目标实体子图过程中的结束实体,并路径搜索终止。
进一步地,步骤S4具体包括:根据源实体子图和目标实体子图提取类PRA路径特征、类PRA相似泛化路径特征、类PRA任意泛化路径特征、bigram路径特征、one-sided特征和one-sided比较特征。
bigram路径特征也即二元模型路径特征、one-sided特征也即单侧特征,one-sided比较特征也即单侧比较特征,PRA(Path Ranking Algorithm)是一种将关系路径作为特征的推理算法。
可以理解的是,上述所提取的特征均是图论知识中关于图结构的特征,用于丰富路径特征量,避免特征量单一需要依赖大量高精度的数据集才能识别结果。
进一步地,类PRA路径特征的提取过程包括:
S401、假设源实体子图和目标实体子图中分别存在相应的源实体和目标实体到同一中间实体x的路径,则以该中间实体x作为链接节点生成源实体和目标实体之间的PRA全路径为,
公式1中,表示从源实体h出发抵达至目标实体t过程中所包含的所有实体集合;表示从源实体h出发抵达至目标实体t过程中所包含的所有路径类型集合;表示源实体h和目标实体t之间的PRA全路径;表示目标实体t出发抵达至中间实体x过程中所包含的所有路径类型集合;表示对进行路径方向翻转后的路径特征集合;xn表示第n个中间实体,n=1,2,...,n;表示第n个路径类型,路径类型由推理关系三元组决定;等效于图结构,具体为,
S402、根据源实体和目标实体之间的PRA全路径生成类PRA路径特征为,
需要说明的是,公式3为公式1的子集,因此,通过公式1容易得出公式3,同时,公式1中的路径量中没有实体节点量(但不包括源实体、目标实体以及中间实体);
相应的,类PRA相似泛化路径特征的提取过程包括:
S411、通过PRA算法获取各个实体间的路径;
S412、对经PRA算法获得的各个实体的路径进行张量分解,得出路径类型的向量空间;
需要说明的是,通过张量分解后得到路径类型的向量空间为本领域公知常识,在此不再赘述。
S413、将步骤S402中得到的类PRA路径特征中的每个路径类型替换为路径类型的向量空间中的与其相似的路径类型,则生成类PRA相似泛化路径特征为,
公式4中,表示类PRA相似泛化路径特征;表示从源实体出发抵达至目标实体过程中使用相似路径类型代替对应路径类型的路径集合;表示类PRA路径特征中第x个的路径类型;表示与相对应的相似的路径类型,且在路径集合中只允许有一个;
需要说明的是,为了减少特征提取时出现特征空间组合爆炸的情况,一次只允许用类似的关系替换一个关系;同时,在判断路径类型对应的相似路径类型中,需要根据两个路径特征向量在向量空间中的距离是否小于预设距离阈值来判定是否为相似路径类型,当上述判断为是时,即判定为相似路径类型,当上述判断为否时,则判定为非相似路径类型。
相应的,类PRA任意泛化路径特征的提取过程包括:
S421、假设步骤S402中得到的类PRA路径特征中的每个路径类型在步骤S412中得到的向量空间中存在与路径类型相似的任意向量,且与路径类型相似的任意向量为任意值向量,则将该与路径类型相似的任意向量引至步骤S401中得出的类PRA路径特征中,得出类PRA任意泛化路径特征为,
需要说明的是,路径类型相似的任意向量即为与路径类型在向量空间中的距离小于预设的距离阈值。
相应的,bigram路径特征的提取过程包括:
S431、通过将源实体和目标实体分别增设标签以进行路径类型化,通过源实体和目标实体之间的PRA全路径得出下式为,
公式6中,@h@表示源实体的路径类型化,@t@表示目标实体的路径类型化;
需要说明的是,实体和路径类型具有不同的性质,为了让实体具有路径类型的性质,则向实体上增设标签进行表示路径类型,以使得实体具有路径类型的性质。
需要说明的是,在广度优先搜索的过程中,会对实体进行实体或路径类型进行标记,例如:从实体A到实体B需要依次经过路径a、b、c,则按照经过的顺序,则相邻的路径类型为a和b相邻,b和c相邻。
相应的, one-sided特征的提取过程包括:
需要说明的是,在广度优先搜索的过程中,会对实体进行实体或路径类型进行标记,例如:从实体A到实体B需要依次经过路径a、b、c,则按照经过的顺序,则相邻的路径类型为a和b相邻,b和c相邻。
相应的, one-sided特征的提取过程包括:
公式8中,表示来自源实体子图中的路径类型与首实体对的特征,表示来自源实体子图中的路径类型与尾实体对的特征,m=deg(h),deg(h)表示来自源实体子图中的实体的度;表示来自目标实体子图中的路径类型与首实体对的特征;表示来自目标实体子图中的路径类型与尾实体对的特征,n=det(t),det(t)表示来自目标实体子图中的实体的度;表示源实体与第i个源实体相连的中间实体的one-side特征,表示为下式:
需要说明的是,在广度优先搜索过程中,可以将源实体子图和目标实体子图中的路径类型与尾实体对进行记录,其中,表示为源实体子图和目标实体子图中的尾实体和对应的路径类型,同时,记录过程也即one-sided特征提取的过程。
其中,度表示图中与节点关联的边的数量。
相应的,one-sided比较特征的提取过程包括:
进一步地,步骤S5具体包括:
S501、将类PRA路径特征、类PRA相似泛化路径特征、类PRA任意泛化路径特征、bigram路径特征、one-sided特征和one-sided比较特征均进行二值化处理,具体为,
S502、将步骤S501中二值化处理后的特征取并集,生成特征集,具体为,
公式13中,表示特征集,表示二值化后的类PRA路径特征,表示二值化后的类PRA相似泛化路径特征,表示二值化后的类PRA任意泛化路径特征,表示二值化后的bigram路径特征,表示二值化后的one-sided特征,表示二值化后的one-sided比较特征;
S503、以特征集为列,以源实体和对应的目标实体的映射关系为行,生成对应的特征矩阵为,
进一步地,步骤S7中的ID3决策树分类器中的信息增益为,
步骤S7中的ID3决策树分类器中的信息熵为,
公式16中,S表示训练集集合,c表示第c类样本,n表示第c样本的样本子集数量,p代表样本子集。
进一步地,步骤S8之后还包括:
S9、将两个测试实体及其对应的预测推理关系以XML语句插至配电网CIM模型的XML文件中。
另外,参见图2,以下为实现本发明提供的一种基于知识图谱的配电网CIM模型信息补全方法的系统,包括:
构建模块100,用于根据配电网设备以及各配电网设备之间联络的线路中提取出来的实体元素构建配电网CIM模型知识图谱;
实体提取模块200,用于根据知识推理任务提取配电网CIM模型知识图谱中的源实体、推理关系和目标实体,从而构成推理关系三元组;
路径搜索模块300,用于基于广度优先搜索策略,根据源实体和目标实体分别进行路径搜索,从而生成源实体子图和目标实体子图;
特征提取模块400,用于对源实体子图和目标实体子图进行多种特征提取;
特征集模块500,用于对特征提取模块提取的特征进行二值化处理,对经二值化处理后的多种特征取并集,从而生成特征集;
特征矩阵模块600,用于根据源实体和目标实体的映射关系以及特征集,生成特征矩阵;
模型训练模块700,用于采用ID3决策树分类器对特征矩阵进行训练,并以源实体和目标实体的推理关系作为输出构建决策树模型;
补全模块800,用于通过向决策树模型导入两个测试实体,从而判断是否能输出两个测试实体的预测推理关系,还用于当上述判断为是时,则将预测推理关系补充至配电网CIM模型知识图谱中,从而补全配电网CIM模型知识图谱。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.基于知识图谱的配电网CIM模型信息补全方法,其中,CIM模型为公共信息模型,其特征在于,包括以下步骤:
S1、根据配电网设备以及各配电网设备之间联络的线路中提取出来的实体元素构建配电网CIM模型知识图谱;
S2、根据知识推理任务提取所述配电网CIM模型知识图谱中的源实体、推理关系和目标实体,从而构成推理关系三元组;
S3、基于广度优先搜索策略,根据所述源实体和所述目标实体分别进行路径搜索,从而生成源实体子图和目标实体子图;
S4、提取所述源实体子图和所述目标实体子图中的多种特征;
S5、对步骤S4中提取的多种特征进行二值化处理,对经二值化处理后的多种特征取并集,从而生成特征集;
S6、根据所述源实体和所述目标实体的映射关系以及所述特征集,生成特征矩阵;
S7、采用ID3决策树分类器对所述特征矩阵进行训练,并以所述源实体和所述目标实体的推理关系作为输出构建决策树模型;
S8、通过向所述决策树模型导入两个测试实体,从而判断是否能输出所述两个测试实体的预测推理关系,当上述判断为是时,则将所述预测推理关系补充至所述配电网CIM模型知识图谱中,从而补全所述配电网CIM模型知识图谱。
2.根据权利要求1所述的基于知识图谱的配电网CIM模型信息补全方法,其特征在于,所述步骤S1具体包括:
S101、以配电网设备作为实体,以各配电网设备之间联络的线路作为关系,构建实体关系三元组;
S102、在CIM模型中提取所述实体的属性值作为尾实体,对所述实体关系三元组进行补充,生成知识图谱的三元组;
S103、根据所述知识图谱的三元组构建配电网CIM模型知识图谱。
3.根据权利要求1所述的基于知识图谱的配电网CIM模型信息补全方法,其特征在于,所述步骤S1之后,所述步骤S2之前包括:
根据专家知识库在所述配电网CIM模型知识图谱中截取预定范围的知识图谱作为原始数据集。
4.根据权利要求1所述的基于知识图谱的配电网CIM模型信息补全方法,其特征在于,所述步骤S3具体包括:
采用广度优先搜索策略以所述源实体为起点进行路径搜索,生成路径长度为预设路径长度阈值的源实体子图;采用广度优先搜索策略以所述目标实体为起点进行路径搜索,生成路径长度为所述预设路径长度阈值的目标实体子图。
5.根据权利要求2所述的基于知识图谱的配电网CIM模型信息补全方法,其特征在于,所述步骤S4具体包括:根据所述源实体子图和所述目标实体子图提取类PRA路径特征、类PRA相似泛化路径特征、类PRA任意泛化路径特征、bigram路径特征、one-sided特征和one-sided比较特征。
6.根据权利要求5所述的基于知识图谱的配电网CIM模型信息补全方法,其特征在于,所述类PRA路径特征的提取过程包括:
S401、假设所述源实体子图和所述目标实体子图中分别存在相应的所述源实体和所述目标实体到同一中间实体x的路径,则以该中间实体x作为链接节点生成所述源实体和所述目标实体之间的PRA全路径为,
公式1中,表示从源实体h出发抵达至目标实体t过程中所包含的所有实体集合;表示从源实体h出发抵达至目标实体t过程中所包含的所有路径类型集合;表示源实体h和目标实体t之间的PRA全路径;表示目标实体t出发抵达至中间实体x过程中所包含的所有路径类型集合;表示对进行路径方向翻转后的路径特征集合;xn表示第n个中间实体,n=1,2,...,n;表示第n个路径类型,路径类型由推理关系三元组决定;等效于图结构,具体为,
S402、根据所述源实体和所述目标实体之间的PRA全路径生成类PRA路径特征为,
相应的,所述类PRA相似泛化路径特征的提取过程包括:
S411、通过PRA算法获取各个实体间的路径;
S412、对经PRA算法获得的各个实体的路径进行张量分解,得出路径类型的向量空间;
S413、将步骤S402中得到的所述类PRA路径特征中的每个路径类型替换为所述路径类型的向量空间中的与其相似的路径类型,则生成类PRA相似泛化路径特征为,
公式4中,表示类PRA相似泛化路径特征;表示从源实体出发抵达至目标实体过程中使用相似路径类型代替对应路径类型的路径集合;表示类PRA路径特征中第x个的路径类型;表示与相对应的相似的路径类型,且在路径集合中只允许有一个;
相应的,所述类PRA任意泛化路径特征的提取过程包括:
S421、假设步骤S402中得到的所述类PRA路径特征中的每个路径类型在步骤S412中得到的所述向量空间中存在与路径类型相似的任意向量,且所述与路径类型相似的任意向量为任意值向量,则将该与路径类型相似的任意向量引至步骤S401中得出的所述类PRA路径特征中,得出类PRA任意泛化路径特征为,
相应的,所述bigram路径特征的提取过程包括:
S431、通过将所述源实体和所述目标实体分别增设标签以进行路径类型化,通过所述源实体和所述目标实体之间的PRA全路径得出下式为,
公式6中,@h@表示源实体的路径类型化,@t@表示目标实体的路径类型化;
相应的, one-sided特征的提取过程包括:
公式8中,表示来自源实体子图中的路径类型与首实体对的特征,表示来自源实体子图中的路径类型与尾实体对的特征,m=deg(h),deg(h)表示来自源实体子图中的实体的度;表示来自目标实体子图中的路径类型与首实体对的特征;表示来自目标实体子图中的路径类型与尾实体对的特征,n=det(t),det(t)表示来自目标实体子图中的实体的度;表示源实体与第i个源实体相连的中间实体的one-side特征,表示为下式:
相应的,one-sided比较特征的提取过程包括:
7.根据权利要求5所述的基于知识图谱的配电网CIM模型信息补全方法,其特征在于,步骤S5具体包括:
S501、将所述类PRA路径特征、所述类PRA相似泛化路径特征、所述类PRA任意泛化路径特征、所述bigram路径特征、所述one-sided特征和所述one-sided比较特征均进行二值化处理,具体为,
S502、将步骤S501中二值化处理后的特征取并集,生成特征集,具体为,
公式13中,表示特征集,表示二值化后的类PRA路径特征,表示二值化后的类PRA相似泛化路径特征,表示二值化后的类PRA任意泛化路径特征,表示二值化后的bigram路径特征,表示二值化后的one-sided特征,表示二值化后的one-sided比较特征;
S503、以所述特征集为列,以所述源实体和对应的所述目标实体的映射关系为行,生成对应的特征矩阵为,
9.根据权利要求1所述的基于知识图谱的配电网CIM模型信息补全方法,其特征在于,步骤S8之后还包括:
S9、将所述两个测试实体及其对应的预测推理关系以XML语句插至配电网CIM模型的XML文件中。
10.一种基于知识图谱的配电网CIM模型信息补全系统,其中,CIM模型为公共信息模型,其特征在于,包括:
构建模块,用于根据配电网设备以及各配电网设备之间联络的线路中提取出来的实体元素构建配电网CIM模型知识图谱;
实体提取模块,用于根据知识推理任务提取所述配电网CIM模型知识图谱中的源实体、推理关系和目标实体,从而构成推理关系三元组;
路径搜索模块,用于基于广度优先搜索策略,根据所述源实体和所述目标实体分别进行路径搜索,从而生成源实体子图和目标实体子图;
特征提取模块,用于对所述源实体子图和所述目标实体子图进行多种特征提取;
特征集模块,用于对所述特征提取模块提取的特征进行二值化处理,对经二值化处理后的多种特征取并集,从而生成特征集;
特征矩阵模块,用于根据所述源实体和所述目标实体的映射关系以及所述特征集,生成特征矩阵;
模型训练模块,用于采用ID3决策树分类器对所述特征矩阵进行训练,并以所述源实体和所述目标实体的推理关系作为输出构建决策树模型;
补全模块,用于通过向所述决策树模型导入两个测试实体,从而判断是否能输出所述两个测试实体的预测推理关系,还用于当上述判断为是时,则将所述预测推理关系补充至所述配电网CIM模型知识图谱中,从而补全所述配电网CIM模型知识图谱。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110658047.7A CN113254669B (zh) | 2021-06-15 | 2021-06-15 | 基于知识图谱的配电网cim模型信息补全方法及系统 |
PCT/CN2022/078964 WO2022262320A1 (zh) | 2021-06-15 | 2022-03-03 | 基于知识图谱的配电网cim模型信息补全方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110658047.7A CN113254669B (zh) | 2021-06-15 | 2021-06-15 | 基于知识图谱的配电网cim模型信息补全方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113254669A CN113254669A (zh) | 2021-08-13 |
CN113254669B true CN113254669B (zh) | 2021-10-19 |
Family
ID=77188099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110658047.7A Active CN113254669B (zh) | 2021-06-15 | 2021-06-15 | 基于知识图谱的配电网cim模型信息补全方法及系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113254669B (zh) |
WO (1) | WO2022262320A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254669B (zh) * | 2021-06-15 | 2021-10-19 | 广东电网有限责任公司湛江供电局 | 基于知识图谱的配电网cim模型信息补全方法及系统 |
CN116756327B (zh) * | 2023-08-21 | 2023-11-10 | 天际友盟(珠海)科技有限公司 | 基于知识推断的威胁情报关系抽取方法、装置和电子设备 |
CN117151445B (zh) * | 2023-11-01 | 2024-02-13 | 国网信息通信产业集团有限公司 | 一种电网调度知识图谱管理系统及其动态更新方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109063021A (zh) * | 2018-07-12 | 2018-12-21 | 浙江大学 | 一种能够编码关系语义多样性结构的知识图谱分布式表示方法 |
CN109710701A (zh) * | 2018-12-14 | 2019-05-03 | 浪潮软件股份有限公司 | 一种用于公共安全领域大数据知识图谱的自动化构建方法 |
WO2019144587A1 (zh) * | 2018-01-24 | 2019-08-01 | 平安医疗健康管理股份有限公司 | 融合医学知识及应用病例的动态知识图谱更新方法 |
CN111026875A (zh) * | 2019-11-26 | 2020-04-17 | 中国人民大学 | 一种基于实体描述和关系路径的知识图谱补全方法 |
CN112612902A (zh) * | 2020-12-23 | 2021-04-06 | 国网浙江省电力有限公司电力科学研究院 | 一种电网主设备的知识图谱构建方法及设备 |
CN112749339A (zh) * | 2021-01-18 | 2021-05-04 | 陕西师范大学 | 一种基于旅游知识图谱的旅游路线推荐方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190122111A1 (en) * | 2017-10-24 | 2019-04-25 | Nec Laboratories America, Inc. | Adaptive Convolutional Neural Knowledge Graph Learning System Leveraging Entity Descriptions |
CN109543043A (zh) * | 2018-05-10 | 2019-03-29 | 国网江西省电力有限公司信息通信分公司 | 一种基于知识图谱推理的电力通信大数据错误的自动监测方法 |
CN110955783B (zh) * | 2019-11-27 | 2023-03-14 | 广东电网有限责任公司 | 一种基于知识推理的主配网统一管理模型信息补全方法 |
CN112434171A (zh) * | 2020-11-26 | 2021-03-02 | 中山大学 | 一种基于强化学习的知识图谱推理补全方法及系统 |
CN112685570B (zh) * | 2020-12-15 | 2022-07-22 | 南京南瑞继保电气有限公司 | 一种基于多标签图的电网网架知识图谱的构建方法 |
CN113254669B (zh) * | 2021-06-15 | 2021-10-19 | 广东电网有限责任公司湛江供电局 | 基于知识图谱的配电网cim模型信息补全方法及系统 |
-
2021
- 2021-06-15 CN CN202110658047.7A patent/CN113254669B/zh active Active
-
2022
- 2022-03-03 WO PCT/CN2022/078964 patent/WO2022262320A1/zh unknown
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019144587A1 (zh) * | 2018-01-24 | 2019-08-01 | 平安医疗健康管理股份有限公司 | 融合医学知识及应用病例的动态知识图谱更新方法 |
CN109063021A (zh) * | 2018-07-12 | 2018-12-21 | 浙江大学 | 一种能够编码关系语义多样性结构的知识图谱分布式表示方法 |
CN109710701A (zh) * | 2018-12-14 | 2019-05-03 | 浪潮软件股份有限公司 | 一种用于公共安全领域大数据知识图谱的自动化构建方法 |
CN111026875A (zh) * | 2019-11-26 | 2020-04-17 | 中国人民大学 | 一种基于实体描述和关系路径的知识图谱补全方法 |
CN112612902A (zh) * | 2020-12-23 | 2021-04-06 | 国网浙江省电力有限公司电力科学研究院 | 一种电网主设备的知识图谱构建方法及设备 |
CN112749339A (zh) * | 2021-01-18 | 2021-05-04 | 陕西师范大学 | 一种基于旅游知识图谱的旅游路线推荐方法及系统 |
Non-Patent Citations (2)
Title |
---|
"Efficient and Expressive Knowledge Base Completion";Matt Gardner et al.;《Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing》;20150921;第1488-1498页 * |
"改进的Tucker分解知识图谱补全算法";陈恒 等;《数学的实践与认识》;20200831;第164-176页 * |
Also Published As
Publication number | Publication date |
---|---|
WO2022262320A1 (zh) | 2022-12-22 |
CN113254669A (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113254669B (zh) | 基于知识图谱的配电网cim模型信息补全方法及系统 | |
Hu et al. | Bipartite consensus for multi-agent systems on directed signed networks | |
Ljubić | Solving Steiner trees: Recent advances, challenges, and perspectives | |
CN113946461A (zh) | 一种故障根因分析的方法及装置 | |
Li et al. | Initialization strategies to enhancing the performance of genetic algorithms for the p-median problem | |
Steck et al. | Bayesian belief networks for data mining | |
US20140067808A1 (en) | Distributed Scalable Clustering and Community Detection | |
CN111932386A (zh) | 用户账号确定方法及装置、信息推送方法及装置、电子设备 | |
CN112800231B (zh) | 电力数据校验方法、装置、计算机设备和存储介质 | |
CN112052404A (zh) | 多源异构关系网络的群体发现方法、系统、设备及介质 | |
Wang et al. | GLASS: GNN with labeling tricks for subgraph representation learning | |
Farzad et al. | Multi-layer community detection | |
US20190146981A1 (en) | Large scale social graph segmentation | |
CN107729939A (zh) | 一种面向新增电网资源的cim模型扩展方法及装置 | |
CN115618249A (zh) | 一种基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法 | |
CN113312494A (zh) | 垂直领域知识图谱构建方法、系统、设备及存储介质 | |
CN112949748A (zh) | 基于图神经网络的动态网络异常检测算法模型 | |
CN115293919A (zh) | 面向社交网络分布外泛化的图神经网络预测方法及系统 | |
Yu et al. | Unsupervised euclidean distance attack on network embedding | |
CN110378543A (zh) | 离职风险预测方法、装置、计算机设备和存储介质 | |
CN108614932B (zh) | 基于边图的线性流重叠社区发现方法、系统及存储介质 | |
Han et al. | An efficient genetic algorithm for optimization problems with time-consuming fitness evaluation | |
CN116993043A (zh) | 一种电力设备故障溯源方法及装置 | |
CN104978382A (zh) | MapReduce平台上基于本地密度的聚类方法 | |
He et al. | Center‐augmented ℓ2‐type regularization for subgroup learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |