CN113254669B - 基于知识图谱的配电网cim模型信息补全方法及系统 - Google Patents

基于知识图谱的配电网cim模型信息补全方法及系统 Download PDF

Info

Publication number
CN113254669B
CN113254669B CN202110658047.7A CN202110658047A CN113254669B CN 113254669 B CN113254669 B CN 113254669B CN 202110658047 A CN202110658047 A CN 202110658047A CN 113254669 B CN113254669 B CN 113254669B
Authority
CN
China
Prior art keywords
path
entity
pra
representing
distribution network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110658047.7A
Other languages
English (en)
Other versions
CN113254669A (zh
Inventor
郑世明
黄园芳
段新辉
罗宗杰
吴莉琳
徐沛东
林荣秋
王志强
陈宇钊
赵永发
魏焱
徐达艺
王晓明
李玲
付振宇
吴超成
曹彦朝
文彬
李琦
李旺军
彭显刚
谢卓均
杨瑞锋
刘颖
张华煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhanjiang Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Zhanjiang Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhanjiang Power Supply Bureau of Guangdong Power Grid Co Ltd filed Critical Zhanjiang Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority to CN202110658047.7A priority Critical patent/CN113254669B/zh
Publication of CN113254669A publication Critical patent/CN113254669A/zh
Application granted granted Critical
Publication of CN113254669B publication Critical patent/CN113254669B/zh
Priority to PCT/CN2022/078964 priority patent/WO2022262320A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/027Frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Supply And Distribution Of Alternating Current (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于知识图谱的配电网CIM模型信息补全方法及系统,相比于CoR‑PRA方法中的随机游走策略,通过采用广度优先搜索策略进行路径搜索,降低了搜索空间,减小了路径特征爆炸的概率,搜索耗时更少,生成源实体子图和目标实体子图的效率更高;相比于CoR‑PRA方法提取单一图特征,通过提取源实体子图与目标实体子图之间的多种图特征,丰富了路径特征量,减小了识别结果对高质量数据集的依赖程度;通过对特征集只保留二值化特征的处理方式,避免了CoR‑PRA方法中路径特征需要较大计算量的概率计算过程。

Description

基于知识图谱的配电网CIM模型信息补全方法及系统
技术领域
本申请涉及配电网调度技术领域,尤其涉及一种基于知识图谱的配电网CIM模型信息补全方法。
背景技术
长期以来,各级电力系统对电网模型的维护是分散的,彼此之间无法共享,即使在同级应用系统之间,对电网模型的需求也各不相同,建模侧重点也不相同,为系统间信息交互带来了困难。为实现异构系统中信息的交互,国际电工委员会制定了IECC61970/61890标准,并定义公共信息模型(简称CIM模型,英文全称为Common Information Model)作为电力系统间模型转换的基础模型。
但是,即使如此,在实际场景中,由于工作人员维护不当或异构系统交互时机不当,配电网CIM模型存在拓扑信息缺失、属性信息缺失和模型拼接不完整的情况,导致基于CIM模型拓扑建模时出现拓扑建模不准确、设备参数不完整的问题。
发明内容
本申请提供了一种基于知识图谱的配电网CIM模型信息补全方法及系统,用于解决基于CIM模型拓扑建模时出现拓扑建模不准确、设备参数不完整的技术问题。
有鉴于此,本申请第一方面提供了一种基于知识图谱的配电网CIM模型信息补全方法,包括以下步骤:
S1、根据配电网设备以及各配电网设备之间联络的线路中提取出来的实体元素构建配电网CIM模型知识图谱;
S2、根据知识推理任务提取所述配电网CIM模型知识图谱中的源实体、推理关系和目标实体,从而构成推理关系三元组;
S3、基于广度优先搜索策略,根据所述源实体和所述目标实体分别进行路径搜索,从而生成源实体子图和目标实体子图;
S4、提取所述源实体子图和所述目标实体子图中的多种特征;
S5、对步骤S4中提取的多种特征进行二值化处理,对经二值化处理后的多种特征取并集,从而生成特征集;
S6、根据所述源实体和所述目标实体的映射关系以及所述特征集,生成特征矩阵;
S7、采用ID3决策树分类器对所述特征矩阵进行训练,并以所述源实体和所述目标实体的推理关系作为输出构建决策树模型;
S8、通过向所述决策树模型导入两个测试实体,从而判断是否能输出所述两个测试实体的预测推理关系,当上述判断为是时,则将所述预测推理关系补充至所述配电网CIM模型知识图谱中,从而补全所述配电网CIM模型知识图谱。
优选地,所述步骤S1具体包括:
S101、以配电网设备作为实体,以各配电网设备之间联络的线路作为关系,构建实体关系三元组;
S102、在CIM模型中提取所述实体的属性值作为尾实体,对所述实体关系三元组进行补充,生成知识图谱的三元组;
S103、根据所述知识图谱的三元组构建配电网CIM模型知识图谱。
优选地,所述步骤S1之后,所述步骤S2之前包括:
根据专家知识库在所述配电网CIM模型知识图谱中截取预定范围的知识图谱作为原始数据集。
优选地,所述步骤S3具体包括:
采用广度优先搜索策略以所述源实体为起点进行路径搜索,生成路径长度为预设路径长度阈值的源实体子图;采用广度优先搜索策略以所述目标实体为起点进行路径搜索,生成路径长度为所述预设路径长度阈值的目标实体子图。
优选地,所述步骤S4具体包括:根据所述源实体子图和所述目标实体子图提取类PRA路径特征、类PRA相似泛化路径特征、类PRA任意泛化路径特征、bigram路径特征、one-sided特征和one-sided比较特征。
优选地,所述类PRA路径特征的提取过程包括:
S401、假设所述源实体子图和所述目标实体子图中分别存在相应的所述源实体和所述目标实体到同一中间实体x的路径,则以该中间实体x作为链接节点生成所述源实体和所述目标实体之间的PRA全路径为,
Figure 438723DEST_PATH_IMAGE002
公式1
公式1中,
Figure 477086DEST_PATH_IMAGE003
表示从源实体h出发抵达至目标实体t过程中所包含的所有实体集合;
Figure 830838DEST_PATH_IMAGE004
表示从源实体h出发抵达至目标实体t过程中所包含的所有路径类型集合;
Figure 474309DEST_PATH_IMAGE005
表示源实体h和目标实体t之间的PRA全路径;
Figure 871792DEST_PATH_IMAGE006
表示目标实体t出发抵达至中间实体x过程中所包含的所有路径类型集合;
Figure 413763DEST_PATH_IMAGE007
表示对
Figure 492578DEST_PATH_IMAGE006
进行路径方向翻转后的路径特征集合;xn表示第n个中间实体,n=1,2,...,n;
Figure 52872DEST_PATH_IMAGE008
表示第n个路径类型,路径类型由推理关系三元组决定;
Figure 558940DEST_PATH_IMAGE009
等效于图结构,具体为,
Figure 588207DEST_PATH_IMAGE011
公式2
公式2中,
Figure 533029DEST_PATH_IMAGE012
表示为图结构,
Figure 695633DEST_PATH_IMAGE013
表示知识图谱中的实体关系三元组
Figure 638181DEST_PATH_IMAGE014
,h为实体关系三元组中的首实体,x1表示实体关系三元组中的尾实体,
Figure 138432DEST_PATH_IMAGE015
表示首实体和尾实体之间的路径类型;
S402、根据所述源实体和所述目标实体之间的PRA全路径生成类PRA路径特征为,
Figure 559049DEST_PATH_IMAGE016
公式3
公式3中,
Figure 844668DEST_PATH_IMAGE017
表示类PRA路径特征;
相应的,所述类PRA相似泛化路径特征的提取过程包括:
S411、通过PRA算法获取各个实体间的路径;
S412、对经PRA算法获得的各个实体的路径进行张量分解,得出路径类型的向量空间;
S413、将步骤S402中得到的所述类PRA路径特征中的每个路径类型替换为所述路径类型的向量空间中的与其相似的路径类型,则生成类PRA相似泛化路径特征为,
Figure 754856DEST_PATH_IMAGE018
公式4
公式4中,
Figure 680086DEST_PATH_IMAGE019
表示类PRA相似泛化路径特征;
Figure 717443DEST_PATH_IMAGE020
表示从源实体
Figure 44520DEST_PATH_IMAGE021
出发抵达至目标实体
Figure 391187DEST_PATH_IMAGE022
过程中使用相似路径类型代替对应路径类型的路径集合;
Figure 616763DEST_PATH_IMAGE023
表示类PRA路径特征中第x个的路径类型;
Figure 379183DEST_PATH_IMAGE024
表示与
Figure 623083DEST_PATH_IMAGE023
相对应的相似的路径类型,且在路径集合
Figure 911892DEST_PATH_IMAGE020
中只允许有一个
Figure 811715DEST_PATH_IMAGE024
相应的,所述类PRA任意泛化路径特征的提取过程包括:
S421、假设步骤S402中得到的所述类PRA路径特征中的每个路径类型在步骤S412中得到的所述向量空间中存在与路径类型相似的任意向量,且所述与路径类型相似的任意向量为任意值向量,则将该与路径类型相似的任意向量引至步骤S401中得出的所述类PRA路径特征中,得出类PRA任意泛化路径特征为,
Figure 440142DEST_PATH_IMAGE025
公式5
公式5中,any表示为与路径类型相似的任意向量,
Figure 289281DEST_PATH_IMAGE026
表示类PRA任意泛化路径特征,
Figure 915434DEST_PATH_IMAGE027
表示从源实体
Figure 364870DEST_PATH_IMAGE028
出发抵达至目标实体
Figure 469092DEST_PATH_IMAGE022
过程中使用与路径类型相似的任意向量代替对应的路径类型的路径集合;
相应的,所述bigram路径特征的提取过程包括:
S431、通过将所述源实体和所述目标实体分别增设标签以进行路径类型化,通过所述源实体和所述目标实体之间的PRA全路径得出下式为,
Figure 438316DEST_PATH_IMAGE029
公式6
公式6中,@h@表示源实体的路径类型化,@t@表示目标实体的路径类型化;
S432、将路径
Figure 297688DEST_PATH_IMAGE030
中每个相邻的路径类型创建bigram特征,从而得到bigram特征路径为,
Figure 906524DEST_PATH_IMAGE031
公式7
公式7中,
Figure 893065DEST_PATH_IMAGE032
表示bigram路径特征,
Figure 903747DEST_PATH_IMAGE033
表示路径
Figure 934020DEST_PATH_IMAGE034
中的路径类型的总数量;
相应的, one-sided特征的提取过程包括:
S442、将所述源实体子图和所述目标实体子图中的每个实体和对应的路径类型的映射关系
Figure 840271DEST_PATH_IMAGE035
的特征作为one-sided特征,从而得出one-sided特征为,
Figure 286296DEST_PATH_IMAGE036
公式8
公式8中,
Figure 479380DEST_PATH_IMAGE037
表示来自源实体子图中的路径类型与首实体对的特征,
Figure 431287DEST_PATH_IMAGE038
表示来自源实体子图中的路径类型与尾实体对的特征,m=deg(h),deg(h)表示来自源实体子图中的实体的度;
Figure 14715DEST_PATH_IMAGE039
表示来自目标实体子图中的路径类型与首实体对的特征;
Figure 326747DEST_PATH_IMAGE040
表示来自目标实体子图中的路径类型与尾实体对的特征,n=det(t),det(t)表示来自目标实体子图中的实体的度;
Figure 125070DEST_PATH_IMAGE041
表示源实体与第i个源实体相连的中间实体的one-side特征,
Figure 434829DEST_PATH_IMAGE041
表示为下式:
Figure 567870DEST_PATH_IMAGE042
公式9
公式9中,s代表源实体,
Figure 434326DEST_PATH_IMAGE043
则代表路径类型及路径类型的两端,i s 表示第i个与源实体相连的中间实体;
Figure 336423DEST_PATH_IMAGE044
表示目标实体与第j个目标实体相连的中间实体的one-side特征,
Figure 817083DEST_PATH_IMAGE044
表示为下式:
Figure 919643DEST_PATH_IMAGE045
公式10
公式10中,t表示目标实体,
Figure 839058DEST_PATH_IMAGE043
则代表路径类型及路径类型的两端,i t 表示第i个与目标实体相连的中间实体;
相应的,one-sided比较特征的提取过程包括:
S451、假设所述源实体和中间实体之间存在路径
Figure 533344DEST_PATH_IMAGE046
,且所述目标实体与中间实体y之间存在路径
Figure 997955DEST_PATH_IMAGE047
S452、通过对所述路径
Figure 105588DEST_PATH_IMAGE046
和所述路径
Figure 500798DEST_PATH_IMAGE047
进行路径搜索,当所述路径
Figure 862640DEST_PATH_IMAGE046
和所述路径
Figure 950682DEST_PATH_IMAGE047
存在相同的路径特征集合,则定义one-sided比较特征为,
Figure 280032DEST_PATH_IMAGE048
公式11。
优选地,步骤S5具体包括:
S501、将所述类PRA路径特征、所述类PRA相似泛化路径特征、所述类PRA任意泛化路径特征、所述bigram路径特征、所述one-sided特征和所述one-sided比较特征均进行二值化处理,具体为,
Figure 26402DEST_PATH_IMAGE049
公式12
公式12中,
Figure 695281DEST_PATH_IMAGE050
表示第i个特征表示,
Figure 16541DEST_PATH_IMAGE051
表示第i个特征二值化处理后的特征表示,
Figure 315410DEST_PATH_IMAGE052
表示空;
S502、将步骤S501中二值化处理后的特征取并集,生成特征集,具体为,
Figure 380318DEST_PATH_IMAGE053
公式13
公式13中,
Figure 903704DEST_PATH_IMAGE054
表示特征集,
Figure 881018DEST_PATH_IMAGE055
表示二值化后的类PRA路径特征,
Figure 184960DEST_PATH_IMAGE056
表示二值化后的类PRA相似泛化路径特征,
Figure 725663DEST_PATH_IMAGE057
表示二值化后的类PRA任意泛化路径特征,
Figure 916604DEST_PATH_IMAGE058
表示二值化后的bigram路径特征,
Figure 579667DEST_PATH_IMAGE059
表示二值化后的one-sided特征,
Figure 856058DEST_PATH_IMAGE060
表示二值化后的one-sided比较特征;
S503、以所述特征集为列,以所述源实体和对应的所述目标实体的映射关系为行,生成对应的特征矩阵为,
Figure 200452DEST_PATH_IMAGE061
公式14
公式14中,
Figure 760746DEST_PATH_IMAGE062
为源实体和对应的目标实体的映射关系的总数。
优选地,步骤S7中的所述ID3决策树分类器中的信息增益为,
Figure 76934DEST_PATH_IMAGE063
公式15
公式15中,
Figure 293151DEST_PATH_IMAGE064
表示训练集S中包含的样本数,
Figure 237974DEST_PATH_IMAGE065
表示训练集
Figure 590458DEST_PATH_IMAGE066
中包含的样本数,N表示特征,V表示总样本,v表示总样本中第v个样本;
步骤S7中的所述ID3决策树分类器中的信息熵为,
Figure 80476DEST_PATH_IMAGE067
公式16
公式16中,S表示训练集集合,c表示第c类样本,n表示第c样本的样本子集数量,p代表样本子集。
优选地,步骤S8之后还包括:
S9、将所述两个测试实体及其对应的预测推理关系以XML语句插至配电网CIM模型的XML文件中。
第二方面,本发明还提供了一种基于知识图谱的配电网CIM模型信息补全系统,包括:
构建模块,用于根据配电网设备以及各配电网设备之间联络的线路中提取出来的实体元素构建配电网CIM模型知识图谱;
实体提取模块,用于根据知识推理任务提取所述配电网CIM模型知识图谱中的源实体、推理关系和目标实体,从而构成推理关系三元组;
路径搜索模块,用于基于广度优先搜索策略,根据所述源实体和所述目标实体分别进行路径搜索,从而生成源实体子图和目标实体子图;
特征提取模块,用于对所述源实体子图和所述目标实体子图进行多种特征提取;
特征集模块,用于对所述特征提取模块提取的特征进行二值化处理,对经二值化处理后的多种特征取并集,从而生成特征集;
特征矩阵模块,用于根据所述源实体和所述目标实体的映射关系以及所述特征集,生成特征矩阵;
模型训练模块,用于采用ID3决策树分类器对所述特征矩阵进行训练,并以所述源实体和所述目标实体的推理关系作为输出构建决策树模型;
补全模块,用于通过向所述决策树模型导入两个测试实体,从而判断是否能输出所述两个测试实体的预测推理关系,还用于当上述判断为是时,则将所述预测推理关系补充至所述配电网CIM模型知识图谱中,从而补全所述配电网CIM模型知识图谱。
从以上技术方案可以看出,本申请实施例具有以下优点:
本发明通过采用广度优先搜索策略进行路径搜索,生成更加简单的源实体子图和目标实体子图创建特征空间,降低了搜索空间,抽取的特征量更多,耗时更少,相比于CoR-PRA方法中的随机游走策略,通过采用广度优先搜索策略进行路径搜索,降低了搜索空间,减小了路径特征爆炸的概率,抽取特征量更多,耗时更少;通过提取源实体子图与目标实体子图之间的多种图特征,丰富了路径特征量,减少了识别结果对高质量数据集的依赖程度;通过对特征集只保留二值化特征的处理方式,避免了路径特征中需要较大计算量的概率计算过程。
附图说明
图1为本申请实施例提供的一种基于知识图谱的配电网CIM模型信息补全方法的流程图;
图2为本申请实施例提供的一种基于知识图谱的配电网CIM模型信息补全系统的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
通过本发明人发现,在现有方案中的基于知识推理的主配网统一管理模型信息补全方法,其使用CoR-PRA方法对电网管理模型进行特征提取和链接预测,具体为,首先根据路径搜索算法以源实体节点和目标实体节点为起点生成路径长度小于某个阈值的路径集合;其次通过PRA计算路径特征的概率,将路径特征进行翻转后放入常量候选集中;然后根据概率计算结果生成候选的常量路径;最后对每一个可能的组合生成更长的路径特征候选集。依据特征候选集作为更新基础实现对未来态主网和配网的知识图谱进行更新。
但通过上述方案进行知识图谱更新,存在以下问题:
1)尽管CoR-PRA方法采用了随机游走策略来降低搜索空间,当PRA(Path RankingAlgorithm,路径排序算法)应用在关系丰富且连接稠密的知识图谱上时,依然会面临路径特征爆炸的问题,路径特征爆炸会导致特征量过多,计算量大,也有可能会导致知识图谱更新出现过拟合现象。
2)CoR-PRA搜索路径特征时进行概率计算,需要较大计算量。
3)CoR-PRA方法提取的特征较为单一,只有源实体节点和目标节点之间的路径特征,特征量过少,识别结果只能依赖高质量的数据集。
为此,请参见图1,本发明提供了一种基于知识图谱的配电网CIM模型信息补全方法,包括以下步骤:
S1、根据配电网设备以及各配电网设备之间联络的线路中提取出来的实体元素构建配电网CIM模型知识图谱;
S2、根据知识推理任务提取配电网CIM模型知识图谱中的源实体、推理关系和目标实体,从而构成推理关系三元组;
S3、基于广度优先搜索策略,根据源实体和目标实体分别进行路径搜索,从而生成源实体子图和目标实体子图;
S4、提取源实体子图和目标实体子图中的多种特征;
S5、对步骤S4中提取的多种特征进行二值化处理,对经二值化处理后的多种特征取并集,从而生成特征集;
S6、根据源实体和目标实体的映射关系以及特征集,生成特征矩阵;
S7、采用ID3决策树分类器对特征矩阵进行训练,并以源实体和目标实体的推理关系作为输出构建决策树模型;
需要说明的是,ID3决策树分类器, 即Iterative Dichotomiser 3决策树分类器,迭代二叉树3代,是Ross Quinlan发明的一种决策树算法。
S8、通过向决策树模型导入两个测试实体,从而判断是否能输出两个测试实体的预测推理关系,当上述判断为是时,则将预测推理关系补充至配电网CIM模型知识图谱中,从而补全配电网CIM模型知识图谱。
本发明通过采用广度优先搜索策略进行路径搜索,生成更加简单的源实体子图和目标实体子图创建特征空间,降低了搜索空间,抽取的特征量更多,耗时更少,相比于CoR-PRA方法中的随机游走策略,通过采用广度优先搜索策略进行路径搜索,降低了搜索空间,减小了路径特征爆炸的概率,抽取特征量更多,耗时更少;通过提取源实体子图与目标实体子图之间的多种图特征,丰富了路径特征量,减少了识别结果对高质量数据集的依赖程度;通过对特征集只保留二值化特征的处理方式,避免了路径特征中需要较大计算量的概率计算过程。
以下为本发明提供的一种基于知识图谱的配电网CIM模型信息补全方法的具体描述。
进一步地,在步骤S1中具体包括:
S101、以配电网设备作为实体,以各配电网设备之间联络的线路作为关系,构建实体关系三元组;
S102、在CIM模型中提取实体的属性值作为尾实体,对实体关系三元组进行补充,生成知识图谱的三元组;
假设存在一个配电网设备A,它的型号为LGJ-50,那么,配电网设备A为实体,型号代表属性,LGJ-50就是尾实体,需将该尾实体补充至实体关系三元组中,生成知识图谱的三元组。
S103、根据知识图谱的三元组构建配电网CIM模型知识图谱。
进一步地,步骤S1之后,步骤S2之前包括:
根据专家知识库在配电网CIM模型知识图谱中截取预定范围的知识图谱作为原始数据集。
需要说明的是,专家知识库包括专家过往进行的数据分析、逻辑判断的先验知识,例如:在配电网CIM模型中包含了大量设备,当需要进行电气的潮流计算时,通过专家知识库可以得出进行潮流计算需要哪些设备;或在进行关系推理时,可以将通过专家知识库得出将推理关系的范围由全部CIM模型缩减到部分CIM模型、由线路的全拓扑缩减到部分拓扑,减少数据量的同时减小了搜索空间。
通过对配电网CIM模型知识图谱进行适当的范围截取,可以减小搜索空间,避免冗余路径特征向量的生成。
进一步地,步骤S3具体包括:
采用广度优先搜索策略以源实体为起点进行路径搜索,生成路径长度为预设路径长度阈值的源实体子图;采用广度优先搜索策略以目标实体为起点进行路径搜索,生成路径长度为预设路径长度阈值的目标实体子图。
具体地,采用广度优先搜索策略以源实体
Figure 518411DEST_PATH_IMAGE068
为起点,以
Figure 266924DEST_PATH_IMAGE069
为路径长度阈值进行路径,生成源实体子图
Figure 286963DEST_PATH_IMAGE070
,以目标实体
Figure 400413DEST_PATH_IMAGE022
为起点,同样以
Figure 387960DEST_PATH_IMAGE069
为路径长度阈值生成目标实体子图
Figure 612268DEST_PATH_IMAGE071
,通过广度优先搜索策略减少无意义的路径特征,提升了路径搜索的效率。
为了进一步提升搜索效率,由于源实体子图和目标实体子图的搜索过程是一致的,如果在路径搜索过程中,某个中间实体
Figure 752394DEST_PATH_IMAGE072
对应的目标实体中有很多相同的路径类型
Figure 99062DEST_PATH_IMAGE073
连接着不同的实体节点,那么这个路径类型
Figure 246009DEST_PATH_IMAGE073
不会作为当前广度优先搜索路径中的一个路径特征,而是把当前中间实体
Figure 84128DEST_PATH_IMAGE072
当做源实体子图以及目标实体子图过程中的结束实体,并路径搜索终止。
进一步地,步骤S4具体包括:根据源实体子图和目标实体子图提取类PRA路径特征、类PRA相似泛化路径特征、类PRA任意泛化路径特征、bigram路径特征、one-sided特征和one-sided比较特征。
bigram路径特征也即二元模型路径特征、one-sided特征也即单侧特征,one-sided比较特征也即单侧比较特征,PRA(Path Ranking Algorithm)是一种将关系路径作为特征的推理算法。
可以理解的是,上述所提取的特征均是图论知识中关于图结构的特征,用于丰富路径特征量,避免特征量单一需要依赖大量高精度的数据集才能识别结果。
进一步地,类PRA路径特征的提取过程包括:
S401、假设源实体子图和目标实体子图中分别存在相应的源实体和目标实体到同一中间实体x的路径,则以该中间实体x作为链接节点生成源实体和目标实体之间的PRA全路径为,
Figure 265710DEST_PATH_IMAGE074
公式1
公式1中,
Figure 783279DEST_PATH_IMAGE003
表示从源实体h出发抵达至目标实体t过程中所包含的所有实体集合;
Figure 496152DEST_PATH_IMAGE004
表示从源实体h出发抵达至目标实体t过程中所包含的所有路径类型集合;
Figure 62262DEST_PATH_IMAGE075
表示源实体h和目标实体t之间的PRA全路径;
Figure 160668DEST_PATH_IMAGE006
表示目标实体t出发抵达至中间实体x过程中所包含的所有路径类型集合;
Figure 599871DEST_PATH_IMAGE007
表示对
Figure 783727DEST_PATH_IMAGE006
进行路径方向翻转后的路径特征集合;xn表示第n个中间实体,n=1,2,...,n;
Figure 153529DEST_PATH_IMAGE008
表示第n个路径类型,路径类型由推理关系三元组决定;
Figure 122753DEST_PATH_IMAGE076
等效于图结构,具体为,
Figure 982125DEST_PATH_IMAGE077
公式2
Figure 401080DEST_PATH_IMAGE078
表示为图结构,
Figure 371310DEST_PATH_IMAGE013
表示知识图谱中的实体关系三元组
Figure 381992DEST_PATH_IMAGE014
,h为实体关系三元组中的首实体,x1表示实体关系三元组中的尾实体,
Figure 162997DEST_PATH_IMAGE015
表示首实体和尾实体之间的路径类型;
S402、根据源实体和目标实体之间的PRA全路径生成类PRA路径特征为,
Figure 321446DEST_PATH_IMAGE079
公式3
公式3中,
Figure 846099DEST_PATH_IMAGE017
表示类PRA路径特征;
需要说明的是,公式3为公式1的子集,因此,通过公式1容易得出公式3,同时,公式1中的路径量中没有实体节点量(但不包括源实体、目标实体以及中间实体);
相应的,类PRA相似泛化路径特征的提取过程包括:
S411、通过PRA算法获取各个实体间的路径;
S412、对经PRA算法获得的各个实体的路径进行张量分解,得出路径类型的向量空间;
需要说明的是,通过张量分解后得到路径类型的向量空间为本领域公知常识,在此不再赘述。
S413、将步骤S402中得到的类PRA路径特征中的每个路径类型替换为路径类型的向量空间中的与其相似的路径类型,则生成类PRA相似泛化路径特征为,
Figure 976866DEST_PATH_IMAGE080
公式4
公式4中,
Figure 178040DEST_PATH_IMAGE019
表示类PRA相似泛化路径特征;
Figure 308939DEST_PATH_IMAGE020
表示从源实体
Figure 824234DEST_PATH_IMAGE028
出发抵达至目标实体
Figure 871824DEST_PATH_IMAGE022
过程中使用相似路径类型代替对应路径类型的路径集合;
Figure 991702DEST_PATH_IMAGE023
表示类PRA路径特征中第x个的路径类型;
Figure 796847DEST_PATH_IMAGE024
表示与
Figure 912571DEST_PATH_IMAGE023
相对应的相似的路径类型,且在路径集合
Figure 752351DEST_PATH_IMAGE020
中只允许有一个
Figure 46060DEST_PATH_IMAGE024
需要说明的是,为了减少特征提取时出现特征空间组合爆炸的情况,一次只允许用类似的关系
Figure 666397DEST_PATH_IMAGE024
替换一个关系;同时,在判断路径类型对应的相似路径类型中,需要根据两个路径特征向量在向量空间中的距离是否小于预设距离阈值来判定是否为相似路径类型,当上述判断为是时,即判定为相似路径类型,当上述判断为否时,则判定为非相似路径类型。
相应的,类PRA任意泛化路径特征的提取过程包括:
S421、假设步骤S402中得到的类PRA路径特征中的每个路径类型在步骤S412中得到的向量空间中存在与路径类型相似的任意向量,且与路径类型相似的任意向量为任意值向量,则将该与路径类型相似的任意向量引至步骤S401中得出的类PRA路径特征中,得出类PRA任意泛化路径特征为,
Figure 257915DEST_PATH_IMAGE081
公式5
公式5中,any表示为与路径类型相似的任意向量,
Figure 30831DEST_PATH_IMAGE026
表示类PRA任意泛化路径特征,
Figure 682392DEST_PATH_IMAGE027
表示从源实体
Figure 524446DEST_PATH_IMAGE028
出发抵达至目标实体
Figure 732704DEST_PATH_IMAGE022
过程中使用与路径类型相似的任意向量代替对应的路径类型的路径集合;
需要说明的是,路径类型相似的任意向量即为与路径类型在向量空间中的距离小于预设的距离阈值。
相应的,bigram路径特征的提取过程包括:
S431、通过将源实体和目标实体分别增设标签以进行路径类型化,通过源实体和目标实体之间的PRA全路径得出下式为,
Figure 547077DEST_PATH_IMAGE082
公式6
公式6中,@h@表示源实体的路径类型化,@t@表示目标实体的路径类型化;
需要说明的是,实体和路径类型具有不同的性质,为了让实体具有路径类型的性质,则向实体上增设标签进行表示路径类型,以使得实体具有路径类型的性质。
S432、将路径
Figure 431856DEST_PATH_IMAGE083
中每个相邻的路径类型创建bigram特征,从而得到bigram特征路径为,
Figure 532446DEST_PATH_IMAGE084
公式7
公式7中,
Figure 731347DEST_PATH_IMAGE085
表示bigram路径特征,
Figure 462542DEST_PATH_IMAGE086
表示路径
Figure 268955DEST_PATH_IMAGE087
中的路径类型的总数量;
需要说明的是,在广度优先搜索的过程中,会对实体进行实体或路径类型进行标记,例如:从实体A到实体B需要依次经过路径a、b、c,则按照经过的顺序,则相邻的路径类型为a和b相邻,b和c相邻。
相应的, one-sided特征的提取过程包括:
S442、将源实体子图和目标实体子图中的路径类型与尾实体对
Figure 23285DEST_PATH_IMAGE035
中的路径类型的总数量;
需要说明的是,在广度优先搜索的过程中,会对实体进行实体或路径类型进行标记,例如:从实体A到实体B需要依次经过路径a、b、c,则按照经过的顺序,则相邻的路径类型为a和b相邻,b和c相邻。
相应的, one-sided特征的提取过程包括:
S442、将源实体子图和目标实体子图中的路径类型与尾实体对
Figure 88193DEST_PATH_IMAGE088
公式8
公式8中,
Figure 424627DEST_PATH_IMAGE037
表示来自源实体子图中的路径类型与首实体对的特征,
Figure 588892DEST_PATH_IMAGE038
表示来自源实体子图中的路径类型与尾实体对的特征,m=deg(h),deg(h)表示来自源实体子图中的实体的度;
Figure 892835DEST_PATH_IMAGE039
表示来自目标实体子图中的路径类型与首实体对的特征;
Figure 246587DEST_PATH_IMAGE040
表示来自目标实体子图中的路径类型与尾实体对的特征,n=det(t),det(t)表示来自目标实体子图中的实体的度;
Figure 624479DEST_PATH_IMAGE041
表示源实体与第i个源实体相连的中间实体的one-side特征,
Figure 287541DEST_PATH_IMAGE041
表示为下式:
Figure 750883DEST_PATH_IMAGE042
公式9
公式9中,s代表源实体,
Figure 905397DEST_PATH_IMAGE043
则代表路径类型及路径类型的两端,i s 表示第i个与源实体相连的中间实体;
Figure 200112DEST_PATH_IMAGE044
表示目标实体与第j个目标实体相连的中间实体的one-side特征,
Figure 971759DEST_PATH_IMAGE044
表示为下式:
Figure 735447DEST_PATH_IMAGE045
公式10
公式10中,t表示目标实体,
Figure 617952DEST_PATH_IMAGE043
则代表路径类型及路径类型的两端,i t 表示第i个与目标实体相连的中间实体;
需要说明的是,在广度优先搜索过程中,可以将源实体子图和目标实体子图中的路径类型与尾实体对
Figure 32753DEST_PATH_IMAGE035
进行记录,其中,
Figure 788350DEST_PATH_IMAGE035
表示为源实体子图和目标实体子图中的尾实体和对应的路径类型,同时,记录过程也即one-sided特征提取的过程。
其中,度表示图中与节点关联的边的数量。
相应的,one-sided比较特征的提取过程包括:
S451、假设源实体和中间实体之间存在路径
Figure 226285DEST_PATH_IMAGE046
,且目标实体与中间实体y之间存在路径
Figure 974798DEST_PATH_IMAGE047
S452、通过对路径
Figure 181788DEST_PATH_IMAGE046
和路径
Figure 108287DEST_PATH_IMAGE047
进行路径搜索,当路径
Figure 95835DEST_PATH_IMAGE046
和路径
Figure 320143DEST_PATH_IMAGE047
存在相同的路径特征集合,则定义one-sided比较特征为,
Figure 457339DEST_PATH_IMAGE089
公式11。
需要说明的是,当路径
Figure 538427DEST_PATH_IMAGE046
和路径
Figure 764003DEST_PATH_IMAGE047
不存在相同的路径特征集合,则相应的one-sided比较特征为空。
进一步地,步骤S5具体包括:
S501、将类PRA路径特征、类PRA相似泛化路径特征、类PRA任意泛化路径特征、bigram路径特征、one-sided特征和one-sided比较特征均进行二值化处理,具体为,
Figure 854319DEST_PATH_IMAGE049
公式12
公式12中,
Figure 848951DEST_PATH_IMAGE050
表示第i个特征表示,
Figure 366520DEST_PATH_IMAGE051
表示第i个特征二值化处理后的特征表示,
Figure 763DEST_PATH_IMAGE052
表示空;
S502、将步骤S501中二值化处理后的特征取并集,生成特征集,具体为,
Figure 379923DEST_PATH_IMAGE090
公式13
公式13中,
Figure 681592DEST_PATH_IMAGE054
表示特征集,
Figure 370062DEST_PATH_IMAGE055
表示二值化后的类PRA路径特征,
Figure 491602DEST_PATH_IMAGE056
表示二值化后的类PRA相似泛化路径特征,
Figure 671523DEST_PATH_IMAGE057
表示二值化后的类PRA任意泛化路径特征,
Figure 890015DEST_PATH_IMAGE058
表示二值化后的bigram路径特征,
Figure 500119DEST_PATH_IMAGE059
表示二值化后的one-sided特征,
Figure 171271DEST_PATH_IMAGE060
表示二值化后的one-sided比较特征;
S503、以特征集为列,以源实体和对应的目标实体的映射关系为行,生成对应的特征矩阵为,
Figure 892234DEST_PATH_IMAGE091
公式14
公式14中,
Figure 902915DEST_PATH_IMAGE062
为源实体和对应的目标实体的映射关系的总数。
进一步地,步骤S7中的ID3决策树分类器中的信息增益为,
Figure 933188DEST_PATH_IMAGE092
公式15
公式15中,
Figure 842369DEST_PATH_IMAGE064
表示训练集S中包含的样本数,
Figure 553973DEST_PATH_IMAGE065
表示训练集
Figure 481478DEST_PATH_IMAGE066
中包含的样本数,N表示特征,V表示总样本,v表示总样本中第v个样本;
步骤S7中的ID3决策树分类器中的信息熵为,
Figure 620335DEST_PATH_IMAGE093
公式16
公式16中,S表示训练集集合,c表示第c类样本,n表示第c样本的样本子集数量,p代表样本子集。
进一步地,步骤S8之后还包括:
S9、将两个测试实体及其对应的预测推理关系以XML语句插至配电网CIM模型的XML文件中。
另外,参见图2,以下为实现本发明提供的一种基于知识图谱的配电网CIM模型信息补全方法的系统,包括:
构建模块100,用于根据配电网设备以及各配电网设备之间联络的线路中提取出来的实体元素构建配电网CIM模型知识图谱;
实体提取模块200,用于根据知识推理任务提取配电网CIM模型知识图谱中的源实体、推理关系和目标实体,从而构成推理关系三元组;
路径搜索模块300,用于基于广度优先搜索策略,根据源实体和目标实体分别进行路径搜索,从而生成源实体子图和目标实体子图;
特征提取模块400,用于对源实体子图和目标实体子图进行多种特征提取;
特征集模块500,用于对特征提取模块提取的特征进行二值化处理,对经二值化处理后的多种特征取并集,从而生成特征集;
特征矩阵模块600,用于根据源实体和目标实体的映射关系以及特征集,生成特征矩阵;
模型训练模块700,用于采用ID3决策树分类器对特征矩阵进行训练,并以源实体和目标实体的推理关系作为输出构建决策树模型;
补全模块800,用于通过向决策树模型导入两个测试实体,从而判断是否能输出两个测试实体的预测推理关系,还用于当上述判断为是时,则将预测推理关系补充至配电网CIM模型知识图谱中,从而补全配电网CIM模型知识图谱。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.基于知识图谱的配电网CIM模型信息补全方法,其中,CIM模型为公共信息模型,其特征在于,包括以下步骤:
S1、根据配电网设备以及各配电网设备之间联络的线路中提取出来的实体元素构建配电网CIM模型知识图谱;
S2、根据知识推理任务提取所述配电网CIM模型知识图谱中的源实体、推理关系和目标实体,从而构成推理关系三元组;
S3、基于广度优先搜索策略,根据所述源实体和所述目标实体分别进行路径搜索,从而生成源实体子图和目标实体子图;
S4、提取所述源实体子图和所述目标实体子图中的多种特征;
S5、对步骤S4中提取的多种特征进行二值化处理,对经二值化处理后的多种特征取并集,从而生成特征集;
S6、根据所述源实体和所述目标实体的映射关系以及所述特征集,生成特征矩阵;
S7、采用ID3决策树分类器对所述特征矩阵进行训练,并以所述源实体和所述目标实体的推理关系作为输出构建决策树模型;
S8、通过向所述决策树模型导入两个测试实体,从而判断是否能输出所述两个测试实体的预测推理关系,当上述判断为是时,则将所述预测推理关系补充至所述配电网CIM模型知识图谱中,从而补全所述配电网CIM模型知识图谱。
2.根据权利要求1所述的基于知识图谱的配电网CIM模型信息补全方法,其特征在于,所述步骤S1具体包括:
S101、以配电网设备作为实体,以各配电网设备之间联络的线路作为关系,构建实体关系三元组;
S102、在CIM模型中提取所述实体的属性值作为尾实体,对所述实体关系三元组进行补充,生成知识图谱的三元组;
S103、根据所述知识图谱的三元组构建配电网CIM模型知识图谱。
3.根据权利要求1所述的基于知识图谱的配电网CIM模型信息补全方法,其特征在于,所述步骤S1之后,所述步骤S2之前包括:
根据专家知识库在所述配电网CIM模型知识图谱中截取预定范围的知识图谱作为原始数据集。
4.根据权利要求1所述的基于知识图谱的配电网CIM模型信息补全方法,其特征在于,所述步骤S3具体包括:
采用广度优先搜索策略以所述源实体为起点进行路径搜索,生成路径长度为预设路径长度阈值的源实体子图;采用广度优先搜索策略以所述目标实体为起点进行路径搜索,生成路径长度为所述预设路径长度阈值的目标实体子图。
5.根据权利要求2所述的基于知识图谱的配电网CIM模型信息补全方法,其特征在于,所述步骤S4具体包括:根据所述源实体子图和所述目标实体子图提取类PRA路径特征、类PRA相似泛化路径特征、类PRA任意泛化路径特征、bigram路径特征、one-sided特征和one-sided比较特征。
6.根据权利要求5所述的基于知识图谱的配电网CIM模型信息补全方法,其特征在于,所述类PRA路径特征的提取过程包括:
S401、假设所述源实体子图和所述目标实体子图中分别存在相应的所述源实体和所述目标实体到同一中间实体x的路径,则以该中间实体x作为链接节点生成所述源实体和所述目标实体之间的PRA全路径为,
Figure 106759DEST_PATH_IMAGE002
公式1
公式1中,
Figure 750230DEST_PATH_IMAGE003
表示从源实体h出发抵达至目标实体t过程中所包含的所有实体集合;
Figure 147713DEST_PATH_IMAGE004
表示从源实体h出发抵达至目标实体t过程中所包含的所有路径类型集合;
Figure 876635DEST_PATH_IMAGE005
表示源实体h和目标实体t之间的PRA全路径;
Figure 17766DEST_PATH_IMAGE007
表示目标实体t出发抵达至中间实体x过程中所包含的所有路径类型集合;
Figure 578061DEST_PATH_IMAGE009
表示对
Figure DEST_PATH_IMAGE010
进行路径方向翻转后的路径特征集合;xn表示第n个中间实体,n=1,2,...,n;
Figure 412024DEST_PATH_IMAGE011
表示第n个路径类型,路径类型由推理关系三元组决定;
Figure 362663DEST_PATH_IMAGE013
等效于图结构,具体为,
Figure 307485DEST_PATH_IMAGE015
公式2
公式2中,
Figure DEST_PATH_IMAGE017
表示为图结构,
Figure 722286DEST_PATH_IMAGE019
表示知识图谱中的实体关系三元组(h,
Figure 727151DEST_PATH_IMAGE020
,x1),h为实体关系三元组中的首实体,x1表示实体关系三元组中的尾实体,
Figure 227403DEST_PATH_IMAGE020
表示首实体和尾实体之间的路径类型;
S402、根据所述源实体和所述目标实体之间的PRA全路径生成类PRA路径特征为,
Figure 648020DEST_PATH_IMAGE022
公式3
公式3中,
Figure 182906DEST_PATH_IMAGE023
表示类PRA路径特征;
相应的,所述类PRA相似泛化路径特征的提取过程包括:
S411、通过PRA算法获取各个实体间的路径;
S412、对经PRA算法获得的各个实体的路径进行张量分解,得出路径类型的向量空间;
S413、将步骤S402中得到的所述类PRA路径特征中的每个路径类型替换为所述路径类型的向量空间中的与其相似的路径类型,则生成类PRA相似泛化路径特征为,
Figure 188751DEST_PATH_IMAGE024
公式4
公式4中,
Figure 113981DEST_PATH_IMAGE026
表示类PRA相似泛化路径特征;
Figure 400606DEST_PATH_IMAGE027
表示从源实体
Figure 462103DEST_PATH_IMAGE028
出发抵达至目标实体
Figure DEST_PATH_IMAGE029
过程中使用相似路径类型代替对应路径类型的路径集合;
Figure 808771DEST_PATH_IMAGE030
表示类PRA路径特征中第x个的路径类型;
Figure 283614DEST_PATH_IMAGE031
表示与
Figure 311613DEST_PATH_IMAGE030
相对应的相似的路径类型,且在路径集合
Figure DEST_PATH_IMAGE032
中只允许有一个
Figure 617830DEST_PATH_IMAGE031
相应的,所述类PRA任意泛化路径特征的提取过程包括:
S421、假设步骤S402中得到的所述类PRA路径特征中的每个路径类型在步骤S412中得到的所述向量空间中存在与路径类型相似的任意向量,且所述与路径类型相似的任意向量为任意值向量,则将该与路径类型相似的任意向量引至步骤S401中得出的所述类PRA路径特征中,得出类PRA任意泛化路径特征为,
Figure 807503DEST_PATH_IMAGE034
公式5
公式5中,any表示为与路径类型相似的任意向量,
Figure 769642DEST_PATH_IMAGE035
表示类PRA任意泛化路径特征,
Figure DEST_PATH_IMAGE037
表示从源实体
Figure 398070DEST_PATH_IMAGE028
出发抵达至目标实体
Figure 699738DEST_PATH_IMAGE029
过程中使用与路径类型相似的任意向量代替对应的路径类型的路径集合;
相应的,所述bigram路径特征的提取过程包括:
S431、通过将所述源实体和所述目标实体分别增设标签以进行路径类型化,通过所述源实体和所述目标实体之间的PRA全路径得出下式为,
Figure 122629DEST_PATH_IMAGE038
公式6
公式6中,@h@表示源实体的路径类型化,@t@表示目标实体的路径类型化;
S432、将路径
Figure 509748DEST_PATH_IMAGE040
中每个相邻的路径类型创建bigram特征,从而得到bigram特征路径为,
Figure 941867DEST_PATH_IMAGE042
公式7
公式7中,
Figure 894779DEST_PATH_IMAGE044
表示bigram路径特征,
Figure 754151DEST_PATH_IMAGE046
表示路径
Figure 362987DEST_PATH_IMAGE047
中的路径类型的总数量;
相应的, one-sided特征的提取过程包括:
S442、将所述源实体子图和所述目标实体子图中的每个实体和对应的路径类型的映射关系
Figure 598796DEST_PATH_IMAGE049
的特征作为one-sided特征,从而得出one-sided特征为,
Figure 671794DEST_PATH_IMAGE050
公式8
公式8中,
Figure 702067DEST_PATH_IMAGE052
表示来自源实体子图中的路径类型与首实体对的特征,
Figure 928692DEST_PATH_IMAGE054
表示来自源实体子图中的路径类型与尾实体对的特征,m=deg(h),deg(h)表示来自源实体子图中的实体的度;
Figure 702613DEST_PATH_IMAGE056
表示来自目标实体子图中的路径类型与首实体对的特征;
Figure 630118DEST_PATH_IMAGE058
表示来自目标实体子图中的路径类型与尾实体对的特征,n=det(t),det(t)表示来自目标实体子图中的实体的度;
Figure 831292DEST_PATH_IMAGE060
表示源实体与第i个源实体相连的中间实体的one-side特征,
Figure 414720DEST_PATH_IMAGE061
表示为下式:
Figure 726753DEST_PATH_IMAGE063
公式9
公式9中,s代表源实体,
Figure DEST_PATH_IMAGE064
则代表路径类型及路径类型的两端,i s 表示第i个与源实体相连的中间实体;
Figure 774343DEST_PATH_IMAGE065
表示目标实体与第j个目标实体相连的中间实体的one-side特征,
Figure 84102DEST_PATH_IMAGE065
表示为下式:
Figure 217143DEST_PATH_IMAGE066
公式10
公式10中,t表示目标实体,
Figure DEST_PATH_IMAGE067
则代表路径类型及路径类型的两端,i t 表示第i个与目标实体相连的中间实体;
相应的,one-sided比较特征的提取过程包括:
S451、假设所述源实体和中间实体之间存在路径
Figure 332866DEST_PATH_IMAGE069
,且所述目标实体与中间实体y之间存在路径
Figure 234963DEST_PATH_IMAGE071
S452、通过对所述路径
Figure DEST_PATH_IMAGE072
和所述路径
Figure DEST_PATH_IMAGE073
进行路径搜索,当所述路径
Figure 840257DEST_PATH_IMAGE069
和所述路径
Figure DEST_PATH_IMAGE074
存在相同的路径特征集合,则定义one-sided比较特征为,
Figure DEST_PATH_IMAGE076
公式11。
7.根据权利要求5所述的基于知识图谱的配电网CIM模型信息补全方法,其特征在于,步骤S5具体包括:
S501、将所述类PRA路径特征、所述类PRA相似泛化路径特征、所述类PRA任意泛化路径特征、所述bigram路径特征、所述one-sided特征和所述one-sided比较特征均进行二值化处理,具体为,
Figure DEST_PATH_IMAGE077
公式12
公式12中,
Figure DEST_PATH_IMAGE078
表示第i个特征表示,
Figure DEST_PATH_IMAGE079
表示第i个特征二值化处理后的特征表示,
Figure DEST_PATH_IMAGE080
表示空;
S502、将步骤S501中二值化处理后的特征取并集,生成特征集,具体为,
Figure DEST_PATH_IMAGE081
公式13
公式13中,
Figure DEST_PATH_IMAGE083
表示特征集,
Figure DEST_PATH_IMAGE085
表示二值化后的类PRA路径特征,
Figure DEST_PATH_IMAGE086
表示二值化后的类PRA相似泛化路径特征,
Figure DEST_PATH_IMAGE088
表示二值化后的类PRA任意泛化路径特征,
Figure DEST_PATH_IMAGE090
表示二值化后的bigram路径特征,
Figure DEST_PATH_IMAGE092
表示二值化后的one-sided特征,
Figure DEST_PATH_IMAGE094
表示二值化后的one-sided比较特征;
S503、以所述特征集为列,以所述源实体和对应的所述目标实体的映射关系为行,生成对应的特征矩阵为,
Figure DEST_PATH_IMAGE095
公式14
公式14中,
Figure DEST_PATH_IMAGE096
为源实体和对应的目标实体的映射关系的总数。
8.根据权利要求1所述的基于知识图谱的配电网CIM模型信息补全方法,其特征在于,步骤S7中的所述ID3决策树分类器中的信息增益为,
Figure DEST_PATH_IMAGE098
公式15
公式15中,
Figure DEST_PATH_IMAGE099
表示训练集S中包含的样本数,
Figure DEST_PATH_IMAGE100
表示训练集Sv中包含的样本数,N表示特征,V表示总样本,v表示总样本中第v个样本;
步骤S7中的所述ID3决策树分类器中的信息熵为,
Figure DEST_PATH_IMAGE102
公式16
公式16中,S表示训练集集合,c表示第c类样本,n表示第c样本的样本子集数量,p代表样本子集。
9.根据权利要求1所述的基于知识图谱的配电网CIM模型信息补全方法,其特征在于,步骤S8之后还包括:
S9、将所述两个测试实体及其对应的预测推理关系以XML语句插至配电网CIM模型的XML文件中。
10.一种基于知识图谱的配电网CIM模型信息补全系统,其中,CIM模型为公共信息模型,其特征在于,包括:
构建模块,用于根据配电网设备以及各配电网设备之间联络的线路中提取出来的实体元素构建配电网CIM模型知识图谱;
实体提取模块,用于根据知识推理任务提取所述配电网CIM模型知识图谱中的源实体、推理关系和目标实体,从而构成推理关系三元组;
路径搜索模块,用于基于广度优先搜索策略,根据所述源实体和所述目标实体分别进行路径搜索,从而生成源实体子图和目标实体子图;
特征提取模块,用于对所述源实体子图和所述目标实体子图进行多种特征提取;
特征集模块,用于对所述特征提取模块提取的特征进行二值化处理,对经二值化处理后的多种特征取并集,从而生成特征集;
特征矩阵模块,用于根据所述源实体和所述目标实体的映射关系以及所述特征集,生成特征矩阵;
模型训练模块,用于采用ID3决策树分类器对所述特征矩阵进行训练,并以所述源实体和所述目标实体的推理关系作为输出构建决策树模型;
补全模块,用于通过向所述决策树模型导入两个测试实体,从而判断是否能输出所述两个测试实体的预测推理关系,还用于当上述判断为是时,则将所述预测推理关系补充至所述配电网CIM模型知识图谱中,从而补全所述配电网CIM模型知识图谱。
CN202110658047.7A 2021-06-15 2021-06-15 基于知识图谱的配电网cim模型信息补全方法及系统 Active CN113254669B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110658047.7A CN113254669B (zh) 2021-06-15 2021-06-15 基于知识图谱的配电网cim模型信息补全方法及系统
PCT/CN2022/078964 WO2022262320A1 (zh) 2021-06-15 2022-03-03 基于知识图谱的配电网cim模型信息补全方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110658047.7A CN113254669B (zh) 2021-06-15 2021-06-15 基于知识图谱的配电网cim模型信息补全方法及系统

Publications (2)

Publication Number Publication Date
CN113254669A CN113254669A (zh) 2021-08-13
CN113254669B true CN113254669B (zh) 2021-10-19

Family

ID=77188099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110658047.7A Active CN113254669B (zh) 2021-06-15 2021-06-15 基于知识图谱的配电网cim模型信息补全方法及系统

Country Status (2)

Country Link
CN (1) CN113254669B (zh)
WO (1) WO2022262320A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254669B (zh) * 2021-06-15 2021-10-19 广东电网有限责任公司湛江供电局 基于知识图谱的配电网cim模型信息补全方法及系统
CN116756327B (zh) * 2023-08-21 2023-11-10 天际友盟(珠海)科技有限公司 基于知识推断的威胁情报关系抽取方法、装置和电子设备
CN117151445B (zh) * 2023-11-01 2024-02-13 国网信息通信产业集团有限公司 一种电网调度知识图谱管理系统及其动态更新方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063021A (zh) * 2018-07-12 2018-12-21 浙江大学 一种能够编码关系语义多样性结构的知识图谱分布式表示方法
CN109710701A (zh) * 2018-12-14 2019-05-03 浪潮软件股份有限公司 一种用于公共安全领域大数据知识图谱的自动化构建方法
WO2019144587A1 (zh) * 2018-01-24 2019-08-01 平安医疗健康管理股份有限公司 融合医学知识及应用病例的动态知识图谱更新方法
CN111026875A (zh) * 2019-11-26 2020-04-17 中国人民大学 一种基于实体描述和关系路径的知识图谱补全方法
CN112612902A (zh) * 2020-12-23 2021-04-06 国网浙江省电力有限公司电力科学研究院 一种电网主设备的知识图谱构建方法及设备
CN112749339A (zh) * 2021-01-18 2021-05-04 陕西师范大学 一种基于旅游知识图谱的旅游路线推荐方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190122111A1 (en) * 2017-10-24 2019-04-25 Nec Laboratories America, Inc. Adaptive Convolutional Neural Knowledge Graph Learning System Leveraging Entity Descriptions
CN109543043A (zh) * 2018-05-10 2019-03-29 国网江西省电力有限公司信息通信分公司 一种基于知识图谱推理的电力通信大数据错误的自动监测方法
CN110955783B (zh) * 2019-11-27 2023-03-14 广东电网有限责任公司 一种基于知识推理的主配网统一管理模型信息补全方法
CN112434171A (zh) * 2020-11-26 2021-03-02 中山大学 一种基于强化学习的知识图谱推理补全方法及系统
CN112685570B (zh) * 2020-12-15 2022-07-22 南京南瑞继保电气有限公司 一种基于多标签图的电网网架知识图谱的构建方法
CN113254669B (zh) * 2021-06-15 2021-10-19 广东电网有限责任公司湛江供电局 基于知识图谱的配电网cim模型信息补全方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019144587A1 (zh) * 2018-01-24 2019-08-01 平安医疗健康管理股份有限公司 融合医学知识及应用病例的动态知识图谱更新方法
CN109063021A (zh) * 2018-07-12 2018-12-21 浙江大学 一种能够编码关系语义多样性结构的知识图谱分布式表示方法
CN109710701A (zh) * 2018-12-14 2019-05-03 浪潮软件股份有限公司 一种用于公共安全领域大数据知识图谱的自动化构建方法
CN111026875A (zh) * 2019-11-26 2020-04-17 中国人民大学 一种基于实体描述和关系路径的知识图谱补全方法
CN112612902A (zh) * 2020-12-23 2021-04-06 国网浙江省电力有限公司电力科学研究院 一种电网主设备的知识图谱构建方法及设备
CN112749339A (zh) * 2021-01-18 2021-05-04 陕西师范大学 一种基于旅游知识图谱的旅游路线推荐方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Efficient and Expressive Knowledge Base Completion";Matt Gardner et al.;《Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing》;20150921;第1488-1498页 *
"改进的Tucker分解知识图谱补全算法";陈恒 等;《数学的实践与认识》;20200831;第164-176页 *

Also Published As

Publication number Publication date
WO2022262320A1 (zh) 2022-12-22
CN113254669A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN113254669B (zh) 基于知识图谱的配电网cim模型信息补全方法及系统
Hu et al. Bipartite consensus for multi-agent systems on directed signed networks
Ljubić Solving Steiner trees: Recent advances, challenges, and perspectives
CN113946461A (zh) 一种故障根因分析的方法及装置
Li et al. Initialization strategies to enhancing the performance of genetic algorithms for the p-median problem
Steck et al. Bayesian belief networks for data mining
US20140067808A1 (en) Distributed Scalable Clustering and Community Detection
CN111932386A (zh) 用户账号确定方法及装置、信息推送方法及装置、电子设备
CN112800231B (zh) 电力数据校验方法、装置、计算机设备和存储介质
CN112052404A (zh) 多源异构关系网络的群体发现方法、系统、设备及介质
Wang et al. GLASS: GNN with labeling tricks for subgraph representation learning
Farzad et al. Multi-layer community detection
US20190146981A1 (en) Large scale social graph segmentation
CN107729939A (zh) 一种面向新增电网资源的cim模型扩展方法及装置
CN115618249A (zh) 一种基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法
CN113312494A (zh) 垂直领域知识图谱构建方法、系统、设备及存储介质
CN112949748A (zh) 基于图神经网络的动态网络异常检测算法模型
CN115293919A (zh) 面向社交网络分布外泛化的图神经网络预测方法及系统
Yu et al. Unsupervised euclidean distance attack on network embedding
CN110378543A (zh) 离职风险预测方法、装置、计算机设备和存储介质
CN108614932B (zh) 基于边图的线性流重叠社区发现方法、系统及存储介质
Han et al. An efficient genetic algorithm for optimization problems with time-consuming fitness evaluation
CN116993043A (zh) 一种电力设备故障溯源方法及装置
CN104978382A (zh) MapReduce平台上基于本地密度的聚类方法
He et al. Center‐augmented ℓ2‐type regularization for subgroup learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant