CN112800231A - 电力数据校验方法、装置、计算机设备和存储介质 - Google Patents

电力数据校验方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112800231A
CN112800231A CN202110349571.6A CN202110349571A CN112800231A CN 112800231 A CN112800231 A CN 112800231A CN 202110349571 A CN202110349571 A CN 202110349571A CN 112800231 A CN112800231 A CN 112800231A
Authority
CN
China
Prior art keywords
data
entity
cluster
detection data
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110349571.6A
Other languages
English (en)
Other versions
CN112800231B (zh
Inventor
郑楷洪
周尚礼
李胜
张文瀚
曾璐琨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southern Power Grid Digital Grid Research Institute Co Ltd
Original Assignee
Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southern Power Grid Digital Grid Research Institute Co Ltd filed Critical Southern Power Grid Digital Grid Research Institute Co Ltd
Priority to CN202110349571.6A priority Critical patent/CN112800231B/zh
Publication of CN112800231A publication Critical patent/CN112800231A/zh
Application granted granted Critical
Publication of CN112800231B publication Critical patent/CN112800231B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本申请涉及一种电力数据校验方法、装置、计算机设备和存储介质。所述方法包括:获取电力数据;根据所述电力数据和预设的标准数据得到检测数据,并根据所述检测数据构建知识图谱;所述知识图谱包含实体节点和实体相互关系,所述实体节点与所述检测数据相对应,所述实体相互关系为所述实体节点之间的关系;确定所述实体节点中的离群点,以及,根据所述实体相互关系确定所述实体节点中的关系异常点;通过去除所述离群点对应的电力数据和所述关系异常点对应的电力数据,得到校验后电力数据。采用本方法能够提高电力数据校验的准确率和效率。

Description

电力数据校验方法、装置、计算机设备和存储介质
技术领域
本申请涉及数据校验技术领域,特别是涉及一种电力数据校验方法、装置、计算机设备和存储介质。
背景技术
电力数据校验即针对输入的电力数据进行准确性校验。日常电力工作中采集到的电力数据极易受到噪声的影响,且存在数据缺失和数据不一致的情况,通过数据校验识别出存在这些问题的电力数据,可以及时对其进行预处理,便于执行进一步的数据分析活动。
传统的校验方法是根据预设的校验规则对电力数据进行校验,例如,可以设置单调性校验规则,对电力数据的趋势进行校验,还可以设置突变性校验规则,对数据的连续性和平滑性进行校验。
然而,随着大数据时代到来,一方面,电力数据复杂多变,导致传统的校验方法校验准确率降低,另一方面,面对海量的电力数据,传统的校验方法效率较低。
因此,目前的电力数据校验技术存在准确率和效率较低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高电力数据校验准确率和效率的电力数据校验方法、装置、计算机设备和存储介质。
一种电力数据校验方法,所述方法包括:
获取电力数据;
根据所述电力数据和预设的标准数据得到检测数据,并根据所述检测数据构建知识图谱;所述知识图谱包含实体节点和实体相互关系,所述实体节点与所述检测数据相对应,所述实体相互关系为所述实体节点之间的关系;
确定所述实体节点中的离群点,以及,根据所述实体相互关系确定所述实体节点中的关系异常点;
通过去除所述离群点对应的电力数据和所述关系异常点对应的电力数据,得到校验后电力数据。
在其中一个实施例中,所述确定所述实体节点中的离群点,包括:
对所述实体节点对应的检测数据进行聚类,得到检测数据聚类簇;
根据目标检测数据,确定所述检测数据聚类簇中的目标聚类簇;
统计所述目标检测数据与所述目标聚类簇之间的相似度;
若所述相似度小于预设的相似度阈值,则根据所述目标检测数据得到所述离群点。
在其中一个实施例中,所述检测数据聚类簇包括大簇和小簇,所述目标检测数据包括大簇数据和小簇数据;所述根据目标检测数据,确定所述检测数据聚类簇中的目标聚类簇,包括:
若所述目标检测数据为所述大簇数据,则所述目标聚类簇为所述目标检测数据所属的检测数据聚类簇;
若所述目标检测数据为所述小簇数据,则所述目标聚类簇为与所述目标检测数据最近的大簇。
在其中一个实施例中,所述若所述相似度小于预设的相似度阈值,则根据所述目标检测数据得到所述离群点,包括:
若所述相似度小于预设的相似度阈值、且所述目标检测数据为所述大簇数据,则将所述目标检测数据对应的实体节点作为所述离群点;
若所述相似度小于预设的相似度阈值、且所述目标检测数据为所述小簇数据,则将所述目标检测数据所属的检测数据聚类簇内的所有实体节点作为所述离群点。
在其中一个实施例中,所述根据所述实体相互关系确定所述实体节点中的关系异常点,包括:
统计所述实体相互关系之间的关系误差标准值;
统计所述实体相互关系之间的关系误差检测值;
若所述关系误差检测值大于所述关系误差标准值,则将所述实体相互关系所连接的头实体节点和尾实体节点作为所述关系异常点。
在其中一个实施例中,所述统计所述实体相互关系之间的关系误差标准值,包括:
获取至少一个关系三元组;所述关系三元组用于表征所述标准数据之间的实体相互关系;
根据预设的目标损失函数对每一个所述关系三元组进行训练,得到至少一个三元组关系式;
通过对所述至少一个三元组关系式求平均值,得到所述关系误差标准值。
在其中一个实施例中,所述根据所述电力数据和预设的标准数据得到检测数据,包括:
根据所述电力数据的实体类型,在标准知识图谱中查找标准实体节点;
获取所述标准实体节点对应的标准数据;
通过合并所述电力数据与所述标准数据,得到所述检测数据。
一种电力数据校验装置,所述装置包括:
获取模块,用于获取电力数据;
知识图谱构建模块,用于根据所述电力数据和预设的标准数据得到检测数据,并根据所述检测数据构建知识图谱;所述知识图谱包含实体节点和实体相互关系,所述实体节点与所述检测数据相对应,所述实体相互关系为所述实体节点之间的关系;
点搜索模块,用于确定所述实体节点中的离群点,以及,根据所述实体相互关系确定所述实体节点中的关系异常点;
点去除模块,用于通过去除所述离群点对应的电力数据和所述关系异常点对应的电力数据,得到校验后电力数据。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取电力数据;
根据所述电力数据和预设的标准数据得到检测数据,并根据所述检测数据构建知识图谱;所述知识图谱包含实体节点和实体相互关系,所述实体节点与所述检测数据相对应,所述实体相互关系为所述实体节点之间的关系;
确定所述实体节点中的离群点,以及,根据所述实体相互关系确定所述实体节点中的关系异常点;
通过去除所述离群点对应的电力数据和所述关系异常点对应的电力数据,得到校验后电力数据。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取电力数据;
根据所述电力数据和预设的标准数据得到检测数据,并根据所述检测数据构建知识图谱;所述知识图谱包含实体节点和实体相互关系,所述实体节点与所述检测数据相对应,所述实体相互关系为所述实体节点之间的关系;
确定所述实体节点中的离群点,以及,根据所述实体相互关系确定所述实体节点中的关系异常点;
通过去除所述离群点对应的电力数据和所述关系异常点对应的电力数据,得到校验后电力数据。
上述电力数据校验方法、装置、计算机设备和存储介质,通过获取电力数据,根据电力数据和预设的标准数据得到检测数据,并根据检测数据构建知识图谱,可以利用知识图谱来描述检测数据,以及检测数据之间的相互关系,并将待校验的电力数据与标准数据相比较,确定知识图谱实体节点中的离群点和关系异常点,并从电力数据中去除离群点对应的电力数据和关系异常点对应的电力数据,得到校验后电力数据,可以基于知识图谱中标准数据对应的实体节点,检测出电力数据实体节点中的离群点和关系异常点,并去除相应的电力数据,对电力数据的完整性和准确性进行校验,提高电力数据校验的准确率和效率。
附图说明
图1为一个实施例中电力数据校验方法的流程示意图;
图2为一个实施例中电力数据校验方法的离群点检测示意图;
图3为一个实施例中电力数据校验方法的知识图谱TransD校验示意图;
图4为一个实施例中基于电力知识图谱的电力数据校验方法的流程示意图;
图5为一个实施例中电力数据校验装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的电力数据校验方法,可以应用于终端或服务器。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图1所示,提供了一种电力数据校验方法,以该方法应用于服务器为例进行说明,包括以下步骤:
步骤S110,获取电力数据。
其中,电力数据可以为待检测的电能量数据、电压数据、电流数据等。
具体实现中,可以通过一个或多个终端采集电力数据,终端与服务器相通信,将采集到的电力数据传输至服务器。
步骤S120,根据电力数据和预设的标准数据得到检测数据,并根据检测数据构建知识图谱;知识图谱包含实体节点和实体相互关系,实体节点与检测数据相对应,实体相互关系为实体节点之间的关系。
其中,标准数据可以为正确的电力数据。
其中,检测数据可以为进行电力数据检测的数据。
具体实现中,可以预先获取标准数据库,在获取电力数据后,可以将电力数据与标准数据库中的标准数据相合并,组成检测数据集合。进一步地,还可以基于检测数据集合构建知识图谱,知识图谱中包含实体节点和实体相互关系,实体节点与检测数据相对应,可以为知识图谱中的各个节点,实体相互关系为实体节点之间的关系,可以为知识图谱中两个节点之间的连线。
实际应用中,可以根据输入电力数据的实体类型匹配知识图谱中的相应实体节 点,获取知识图谱数据库内的正确数据,将输入数据和图谱数据联合组成检测数据集
Figure 363926DEST_PATH_IMAGE001
。例如,可以根据标准数据库建立一个标准知识图谱,标准知识图谱 中的每一个节点对应标准数据库中的一个标准数据,包括标准数据的值和数据类型,在获 取到待检测的电力数据后,可以直接将电力数据与标准数据库相合并,组成检测数据集,并 生成知识图谱,还可以根据电力数据的类型在标准知识图谱中查找相匹配的节点,将电力 数据与相匹配节点数据相合并,组成检测数据集,例如,若电力数据为电能量数据,则可以 在标准知识图谱中查找所有电能量数据对应的节点,将待检测电力数据和所有电能量数据 相合并,组成检测数据集,并根据检测数据集生成一个知识图谱。
需要说明的是,在匹配知识图谱时,可以精确到某市某区的用电负荷节点,还可以按时间区分出夜间白天的峰谷电,以保证匹配到节点的准确度,而不是过于笼统的划为一个总的节点。
还需要说明的是,标准知识图谱可以为架构完整的电力领域知识图谱,标准知识图谱对应的标准数据库内可以包含大量准确的电力实体和电力关系数据。
步骤S130,确定实体节点中的离群点,以及,根据实体相互关系确定实体节点中的关系异常点。
其中,离群点可以为不属于聚类簇的点,或属于小聚类簇的点。
其中,关系异常点可以为节点之间关系参数超过标准值的点。
具体实现中,电力数据校验过程可以具体包括两部分,第一部分对于数据的属性数值进行校验,查找知识图谱中的离群点,第二部分对于数据间的相互关系进行校验,查找知识图谱中的关系异常点。
在第一部分对数据的属性数值进行校验过程中,可以首先对检测数据集采用K- Means(K均值)算法进行聚类。K-Means算法对于输入的样本集,可以按照样本的间距大小, 将样本集划分为K个簇,并使得簇内的点尽可能地密集,而不同簇的间距尽可能的大。如果 用数据表达式表示,假设簇划分为
Figure 298384DEST_PATH_IMAGE002
,则算法的目标为最小化平方误差
Figure 885224DEST_PATH_IMAGE003
Figure 639553DEST_PATH_IMAGE004
其中,
Figure 845406DEST_PATH_IMAGE005
为知识图谱中的各个实体节点,
Figure 634371DEST_PATH_IMAGE006
Figure 126532DEST_PATH_IMAGE005
Figure 633737DEST_PATH_IMAGE007
之间的欧氏距离,
Figure 377702DEST_PATH_IMAGE007
表示属于该簇的实体节点的均值,即质心,表达式可以为
Figure 21173DEST_PATH_IMAGE008
K-Means算法需要对
Figure 949814DEST_PATH_IMAGE003
的目标函数求得最优解,最优解越小则生成的结果簇也越 独立、紧凑,最终的效果也越好。
求解过程中,K-Means算法将每次迭代结果的均值作为下一次迭代的簇中心,使得收敛值逐步接近最优解,在求出一个合适的收敛值或者近似值时停止,但该收敛值有时可能是局部最优解。K-Means算法具体步骤如下:
步骤1:从检测数据集(样本数据集)
Figure 678736DEST_PATH_IMAGE009
中随机选取
Figure 226392DEST_PATH_IMAGE010
个数据样本,每个数据样本作 为一个初始质心:
Figure 989949DEST_PATH_IMAGE011
步骤2:对于剩下的数据,根据它们与各个质心的欧式距离,将其分配到与初始质心最近的簇;
步骤3:再次计算每个簇的质心,将每个簇内的数据对象平均值作为每个簇新的聚类中心;
步骤4:重复步骤2和步骤3,不断迭代进行计算,直到聚类结果趋于稳定,即所有的
Figure 823913DEST_PATH_IMAGE012
个质心向量都没有发生变化,然后输出簇划分
Figure 305709DEST_PATH_IMAGE013
聚类后,可以采用基于聚类的离群点检测进行处理,将不属于任何簇,或是单个聚类小簇定义为离群点。为了在检测出个体离群点的同时也能够检测出集体离群点,使得处理大规模电力数据时有更好地适应性和准确度,可以采用FindCBLOF(Find cluster baselocal outlier factor,寻找基于簇的局部离群因子)算法,FindCBLOF算法对数据中的各个样本计算基于簇的局部离群因子CBLOF(cluster base local outlier factor,基于簇的局部离群因子),离群度由该点所属簇的大小和该点与最近大簇的相似性的乘积计算得到。相比于基于簇的检测方法只比较单个对象,FindCBLOF算法在判定条件中结合了簇大小这一参数,还能够检测出由集体离群点构成的小簇。具体的算法过程如下:
步骤1:运用K-Means算法聚类算法来找出检测数据集
Figure 391477DEST_PATH_IMAGE009
中的簇,并将其按由大到 小进行降序排列。该算法建立在大部分数据均属于大簇的基础上,使用一个参数
Figure 9540DEST_PATH_IMAGE014
来区分 大簇和小簇。判定规则可以为,任何至少包含数据集中百分之
Figure 14405DEST_PATH_IMAGE014
数据点的簇都划分为“大 簇”,剩下的簇则划分为“小簇”;
步骤2:对于每个数据点计算CBLOF。对于属于大簇的点,它的CBLOF是簇大小和该点与簇的相似性乘积;对于属于小簇的点,它的CBLOF用小簇的大小和该点与最近的大簇的相似性的乘积。具体计算公式可以为
Figure 717919DEST_PATH_IMAGE015
其中,
Figure 404115DEST_PATH_IMAGE016
表示属于大簇的对象
Figure 814368DEST_PATH_IMAGE005
与大簇
Figure 193397DEST_PATH_IMAGE017
的相似性,
Figure 712103DEST_PATH_IMAGE018
表示属 于小簇的对象
Figure 936411DEST_PATH_IMAGE005
与距离最近的大簇
Figure 466749DEST_PATH_IMAGE019
的相似性。
步骤3:将每个点CBLOF依据其相似度进行升序排序,数据排序越靠前,则其是离群点的概率就越大。根据数据特性及其分布规则来设定一个合理的阈值,对于相似度小于该阈值的数据点,若其属于大簇,则将其划分为离群点,若其属于小簇,则将其所属的簇划为离群簇。
图2为一个实施例中电力数据校验方法的离群点检测示意图,对于图中的P点,根 据FindCBLOF算法可以计算得出,该点应为单个离群点。C1,C2两个簇包含的数据点众多,占 比大于参数
Figure 16679DEST_PATH_IMAGE014
,应当归为大簇。对于C3的几个数据点,尽管这三个数据点都极为接近,可以 组成一个小簇,但是因为该簇大小占比过小,小于参数
Figure 491523DEST_PATH_IMAGE014
,并且距离C1、C2这两个大簇较远, 所以根据FindCBLOF算法对大小簇的划分规则,C3所属的点也被划分为离群点。
通过确定实体节点中的离群点,检测数据集D中包含待校验电力数据和标准知识图谱数据,其中,标准知识图谱内存储的数据量远多于待校验电力数据,且均为正确数据,即聚类结果均归属于大簇,可以看作以标准知识图谱内的数据为标准进行数据校验,因此检测到的离群点数据则为待校验电力数据中的异常数据,该部分数据无法通过校验。
在第二部分对数据间的相互关系进行校验过程中,输入的电力数据中往往包含着各种复杂的联系,例如,某个用户的“用电负荷”与“用电总量”之间其实是存在着一定的关联,负荷的升高往往也会带动用电量的增加,而当其中一部分数据出现异常时,也往往会影响到与其有关联的数据,并在数据间的相互关系中暴露出来。因此,可以通过检测电力数据的关系三元组来校验具有复杂关系的数据组是否存在异常。知识图谱内除了包含实体节点内存储的大量数据,同时也包含了各个实体间准确的相互关系及其对应的运算逻辑,Trans系列算法作为知识图谱的表示学习方法,可以将知识图谱嵌入到一个连续的向量空间并且保留图谱中的关键信息。
不同类型的实体有不同的属性和作用,如果将全部实体都映射到同一空间,使用同一参数进行传递表示是不充分的。本质上应该如果是相似的实体,则应该具有相似的映射矩阵,反之则应该具有不相似的映射矩阵。相比之前的Trans系列模型,TransD算法不仅考虑到关系的多样性,也考虑到实体的多样性,为每个实体-关系对构造一个动态映射矩阵。TransD提供了一种灵活的样式来将实体表示投影到关系向量空间,具有较少的参数并且没有矩阵向量乘法。因此该算法在大规模知识图谱中应用难度较低。
在TransD模型中,每个命名的符号对象(实体和关系)由两个向量表示。第一个向 量捕捉实体(关系)的含义,另一个向量用于构造映射矩阵。例如,对于给定的三元组
Figure 785101DEST_PATH_IMAGE020
,其中,
Figure 169946DEST_PATH_IMAGE021
为头实体,
Figure 890777DEST_PATH_IMAGE022
为关系,
Figure 118496DEST_PATH_IMAGE023
为尾实体,三元组
Figure 950186DEST_PATH_IMAGE020
对应向量为
Figure 189538DEST_PATH_IMAGE024
,其中带下标
Figure 81270DEST_PATH_IMAGE025
表示投影向量。各向量维度分别为
Figure 530706DEST_PATH_IMAGE026
。对于每个三元组
Figure 166087DEST_PATH_IMAGE020
,我们设置两个映射矩阵
Figure 525524DEST_PATH_IMAGE027
来将实体从实体空间投影到关系空间,具体公式可以为
Figure 588158DEST_PATH_IMAGE028
Figure 524890DEST_PATH_IMAGE029
因此,映射矩阵是由实体和关系共同决定的,这种操作使得两个投影向量充分地 相互作用,因为它们的每个元素都能满足来自另一个向量的每个条目。当用一个恒等式初 始化每个映射矩阵时,将
Figure 698382DEST_PATH_IMAGE030
加入到
Figure 912326DEST_PATH_IMAGE031
Figure 145861DEST_PATH_IMAGE032
当中去。利用映射矩阵,可以定义投影后 的向量为
Figure 569889DEST_PATH_IMAGE033
得分函数可以为
Figure 547073DEST_PATH_IMAGE034
其中,需要强制约束各个参数
Figure 881102DEST_PATH_IMAGE035
在训练阶段,可以假设训练集中有
Figure 285539DEST_PATH_IMAGE036
个三元组,并用
Figure 931284DEST_PATH_IMAGE037
来表示第
Figure 712158DEST_PATH_IMAGE038
个三元组。每个三元组都有一个标签
Figure 697431DEST_PATH_IMAGE039
来指示该三元组为正
Figure 210452DEST_PATH_IMAGE040
或为负
Figure 281176DEST_PATH_IMAGE041
,正面样本和负面样本的三元组可以分别被表示为
Figure 662479DEST_PATH_IMAGE042
Figure 767838DEST_PATH_IMAGE043
。另一个需要处理的问题是知识图谱只包含正确的训练样本,而 不包含错误的样本,对于该问题,可以从知识图谱中获得
Figure 451761DEST_PATH_IMAGE044
并根据
Figure 275360DEST_PATH_IMAGE044
生成
Figure 200634DEST_PATH_IMAGE045
,具体方法如下
Figure 426079DEST_PATH_IMAGE046
Figure 280903DEST_PATH_IMAGE047
Figure 326219DEST_PATH_IMAGE048
来分别表示正确的三元组数据和相应的错误三元组数据。然后,可以将 目标损失函数定义为
Figure 49324DEST_PATH_IMAGE049
其中,
Figure 129276DEST_PATH_IMAGE050
Figure 155001DEST_PATH_IMAGE051
是分隔正确三元组和错误三元组的间距。可以利用 随机梯度下降法(SGD)来实现上述目标的最小化。为了加快收敛速度,避免过拟合,还可以 利用TransE模型的结果来初始化实体嵌入和关系嵌入,用单位矩阵初始化所有的转移矩 阵。
图3为一个实施例中电力数据校验方法的知识图谱TransD校验示意图,其中,每个 形状表示一个实体对出现在关系
Figure 687613DEST_PATH_IMAGE022
的三元组中。
Figure 214409DEST_PATH_IMAGE031
Figure 883288DEST_PATH_IMAGE032
分别是
Figure 142231DEST_PATH_IMAGE021
Figure 99823DEST_PATH_IMAGE023
的映射矩阵,
Figure 695889DEST_PATH_IMAGE052
Figure 219274DEST_PATH_IMAGE053
是投影向量,训练完成的投影向量满足下式
Figure 649119DEST_PATH_IMAGE054
在标准知识图谱内的正确数据通过训练以后都可以满足上式中近似相等的标准, 可以求出标准知识图谱中该近似值的平均值
Figure 359586DEST_PATH_IMAGE055
,作为是否满足三元关系的衡量标准,具体 公式可以为
Figure 900289DEST_PATH_IMAGE056
当待校验的三元组数据输入后,可以通过上述同样的TransD模型进行计算,得到 输出的检测值
Figure 606076DEST_PATH_IMAGE057
,若检测值
Figure 472401DEST_PATH_IMAGE058
,则表明三元组数据关系正常,若检测值
Figure 139006DEST_PATH_IMAGE059
,则表明输入的电力数据相互间关系误差远大于标准值,三元组的头实体和尾 实体为关系异常点,头实体和尾实体对应的电力数据属于异常数据。
步骤S140,通过去除离群点对应的电力数据和关系异常点对应的电力数据,得到校验后电力数据。
具体实现中,在确定离群点和关系异常点后,可以从电力数据中去除离群点和关系异常点,得到经过校验的电力数据。
需要说明的是,通过实体节点数据校验和实体相互关系校验相结合的方式,对输入的电力数据进行综合全面的准确性校验,排除其中可能存在的异常数据,由于是建立在一个完善准确的领域知识图谱的基础上,相比其他方法可以有更全面精确的校验效果。
上述电力数据校验方法,通过获取电力数据,根据电力数据和预设的标准数据得到检测数据,并根据检测数据构建知识图谱,可以利用知识图谱来描述检测数据,以及检测数据之间的相互关系,并将待校验的电力数据与标准数据相比较,确定知识图谱实体节点中的离群点和关系异常点,并从电力数据中去除离群点对应的电力数据和关系异常点对应的电力数据,得到校验后电力数据,可以基于知识图谱中标准数据对应的实体节点,检测出电力数据实体节点中的离群点和关系异常点,并去除相应的电力数据,对电力数据的完整性和准确性进行校验,提高电力数据校验的准确率和效率。
在一个实施例中,上述步骤S130,可以具体包括:
步骤S131,对实体节点对应的检测数据进行聚类,得到检测数据聚类簇;
步骤S132,根据目标检测数据,确定检测数据聚类簇中的目标聚类簇;
步骤S133,统计目标检测数据与目标聚类簇之间的相似度;
步骤S134,若相似度小于预设的相似度阈值,则根据目标检测数据得到离群点。
其中,目标检测数据可以为从全体检测数据中选取的一个目标数据。
其中,目标聚类簇可以为对目标检测数据计算CBLOF的聚类簇。
具体实现中,可以通过K-Means算法对检测数据集
Figure 748979DEST_PATH_IMAGE009
进行聚类,得到检测数据聚类 簇,使用参数
Figure 309273DEST_PATH_IMAGE014
来区分大簇和小簇,任何至少包含数据集中百分之
Figure 346499DEST_PATH_IMAGE014
数据点的簇可以被划分 为大簇,剩下的簇可以被划分为小簇。从检测数据集
Figure 500400DEST_PATH_IMAGE009
中选取一个目标检测数据,若目标检 测数据对应的实体节点属于大簇,则可以将目标检测数据所属的聚类簇确定为目标聚类 簇,若目标检测数据对应的实体节点属于小簇,则可以将与目标检测数据最近的大簇确定 为目标聚类簇。计算目标检测数据与目标聚类簇之间的相似度,并预先设置一个相似度阈 值,当相似度不小于相似度阈值时,可以判定目标检测数据对应的实体节点并非离群点,否 则,当相似度小于相似度阈值时,若目标检测数据对应的实体节点属于大簇,则可以将其划 分为离群点,若目标检测数据对应的实体节点属于小簇,则可以将其所述的聚类簇划分为 离群簇,离群簇内所有的实体节点均为离群点。
实际应用中,可以通过FindCBLOF算法来检测离群点,具体过程如下:
步骤1:运用K-Means算法聚类算法来找出检测数据集
Figure 648485DEST_PATH_IMAGE009
中的簇,并将其按由大到 小进行降序排列。该算法建立在大部分数据均属于大簇的基础上,使用一个参数
Figure 328865DEST_PATH_IMAGE014
来区分 大簇和小簇。判定规则可以为,任何至少包含数据集中百分之
Figure 536992DEST_PATH_IMAGE014
数据点的簇都划分为“大 簇”,剩下的簇则划分为“小簇”;
步骤2:对于每个数据点计算CBLOF。对于属于大簇的点,它的CBLOF是簇大小和该点与簇的相似性乘积;对于属于小簇的点,它的CBLOF用小簇的大小和该点与最近的大簇的相似性的乘积。具体计算公式可以为
Figure 178189DEST_PATH_IMAGE015
其中,
Figure 129965DEST_PATH_IMAGE016
表示属于大簇的对象
Figure 664851DEST_PATH_IMAGE005
与大簇
Figure 43880DEST_PATH_IMAGE017
的相似性,
Figure 172373DEST_PATH_IMAGE018
表示属 于小簇的对象
Figure 662260DEST_PATH_IMAGE005
与距离最近的大簇
Figure 317232DEST_PATH_IMAGE019
的相似性。
步骤3:将每个点CBLOF依据其相似度进行升序排序,数据排序越靠前,则其是离群点的概率就越大。根据数据特性及其分布规则来设定一个合理的阈值,对于相似度小于该阈值的数据点,若其属于大簇,则将其划分为离群点,若其属于小簇,则将其所属的簇划为离群簇。
本实施例中,通过对实体节点对应的检测数据进行聚类得到检测数据聚类簇,根据目标检测数据确定检测数据聚类簇中的目标聚类簇,统计目标检测数据与目标聚类簇之间的相似度,若相似度小于预设的相似度阈值,则根据目标检测数据得到离群点,可以检测出知识图谱中的单个离群点和小簇离群点,通过单个离群点和小簇离群点来确定电力数据中的异常数据,提高了电力数据校验的准确率和效率。
在一个实施例中,检测数据聚类簇包括大簇和小簇,目标检测数据包括大簇数据和小簇数据,上述步骤S132,可以具体包括:若目标检测数据为大簇数据,则目标聚类簇为目标检测数据所属的检测数据聚类簇;若目标检测数据为小簇数据,则目标聚类簇为与目标检测数据最近的大簇。
其中,大簇数据可以为大簇中实体节点对应的检测数据,小簇数据可以为小簇中实体节点对应的检测数据。
具体实现中,可以从检测数据集
Figure 601583DEST_PATH_IMAGE009
中选取一个目标检测数据,若目标检测数据对 应的实体节点属于大簇,目标检测数据为大簇数据,则可以将目标检测数据所属的聚类簇 确定为目标聚类簇,若目标检测数据对应的实体节点属于小簇,目标检测数据为小簇数据, 则可以将与目标检测数据最近的大簇确定为目标聚类簇。
本实施例中,通过若目标检测数据为大簇数据,则目标聚类簇为目标检测数据所属的检测数据聚类簇;若目标检测数据为小簇数据,则目标聚类簇为与目标检测数据最近的大簇,可以在检测出知识图谱中单个离群点的同时,还能检测出小簇离群点,通过单个离群点和小簇离群点来确定电力数据中的异常数据,不但可以提高电力数据校验的效率,还可以提高电力数据校验的准确率。
在一个实施例中,上述步骤S134,可以具体包括:若相似度小于预设的相似度阈值、且目标检测数据为大簇数据,则将目标检测数据对应的实体节点作为离群点;若相似度小于预设的相似度阈值、且目标检测数据为小簇数据,则将目标检测数据所属的检测数据聚类簇内的所有实体节点作为离群点。
具体实现中,可以计算目标检测数据与目标聚类簇之间的相似度,并预先设置一个相似度阈值,当相似度不小于相似度阈值时,可以判定目标检测数据对应的实体节点并非离群点,否则,当相似度小于相似度阈值时,若目标检测数据对应的实体节点属于大簇,则可以将其划分为离群点,若目标检测数据对应的实体节点属于小簇,则可以将其所述的聚类簇划分为离群簇,离群簇内所有的实体节点均为离群点。
本实施例中,通过若相似度小于预设的相似度阈值、且目标检测数据为大簇数据,则将目标检测数据对应的实体节点作为离群点;若相似度小于预设的相似度阈值、且目标检测数据为小簇数据,则将目标检测数据所属的检测数据聚类簇内的所有实体节点作为离群点,可以在检测出知识图谱中单个离群点的同时,还能检测出小簇离群点,通过单个离群点和小簇离群点来确定电力数据中的异常数据,不但可以提高电力数据校验的效率,还可以提高电力数据校验的准确率。
在一个实施例中,上述步骤S130,可以具体包括:
步骤S135,统计实体相互关系之间的关系误差标准值;
步骤S136,统计实体相互关系之间的关系误差检测值;
步骤S137,若关系误差检测值大于关系误差标准值,则将实体相互关系所连接的头实体节点和尾实体节点作为关系异常点。
其中,关系误差标准值可以为基于标准数据计算得到的关系误差的标准值。
其中,关系误差检测值可以为基于检测数据计算得到的关系误差的检测值。
具体实现中,可以通过TransD模型对标准数据集进行训练,来计算关系误差标准 值。可以假设训练集(标准数据集)中有
Figure 217372DEST_PATH_IMAGE036
个三元组,并用
Figure 510950DEST_PATH_IMAGE037
来表 示第
Figure 20429DEST_PATH_IMAGE038
个三元组。每个三元组都有一个标签
Figure 741260DEST_PATH_IMAGE039
来指示该三元组为正
Figure 578766DEST_PATH_IMAGE040
或为负
Figure 410456DEST_PATH_IMAGE041
,正面样本和负面样本的三元组可以分别被表示为
Figure 40021DEST_PATH_IMAGE042
Figure 931753DEST_PATH_IMAGE043
。用
Figure 256555DEST_PATH_IMAGE047
Figure 891936DEST_PATH_IMAGE048
来分别表示正确的三元组数据和相应的错误三元组 数据,目标损失函数可以定义为
Figure 376007DEST_PATH_IMAGE049
其中,
Figure 641903DEST_PATH_IMAGE050
Figure 516318DEST_PATH_IMAGE051
是分隔正确三元组和错误三元组的间距。可以利用 随机梯度下降法(SGD)来实现上述目标的最小化,对标准数据集进行训练,训练完成的投影 向量满足下式
Figure 752128DEST_PATH_IMAGE054
在标准数据集中求取该近似值的平均值
Figure 762809DEST_PATH_IMAGE055
,作为关系误差标准值,具体公式可以 为
Figure 996344DEST_PATH_IMAGE056
对于所有检测数据,可以采用上述同样方法进行计算,得到关系误差检测值
Figure 295739DEST_PATH_IMAGE057
, 若检测值
Figure 272922DEST_PATH_IMAGE058
,则表明三元组数据关系正常,若检测值
Figure 466006DEST_PATH_IMAGE059
,则表明输入 的电力数据相互间关系误差远大于标准值,三元组的头实体和尾实体为关系异常点,头实 体和尾实体对应的电力数据属于异常数据。
本实施例中,通过统计实体相互关系之间的关系误差标准值和关系误差检测值,若关系误差检测值大于关系误差标准值,则将实体相互关系所连接的头实体节点和尾实体节点作为关系异常点,可以基于关系误差来衡量电力数据之间关系成分的正确性,在关系误差检测值大于标准值时确定异常数据,提高电力数据校验的效率。
在一个实施例中,上述步骤S135,可以具体包括:获取至少一个关系三元组;关系三元组用于表征标准数据之间的实体相互关系;根据预设的目标损失函数对每一个关系三元组进行训练,得到至少一个三元组关系式;通过对至少一个三元组关系式求平均值,得到关系误差标准值。
具体实现中,可以获取标准数据集中的
Figure 870442DEST_PATH_IMAGE036
个三元组,并用
Figure 922712DEST_PATH_IMAGE037
来表示第
Figure 438007DEST_PATH_IMAGE038
个三元组,其中,
Figure 485597DEST_PATH_IMAGE060
为头实体,
Figure 60935DEST_PATH_IMAGE061
为关系,
Figure 334922DEST_PATH_IMAGE062
为尾实 体。每个三元组都有一个标签
Figure 653908DEST_PATH_IMAGE039
来指示该三元组为正
Figure 821584DEST_PATH_IMAGE040
或为负
Figure 567823DEST_PATH_IMAGE041
,正面样本 和负面样本的三元组可以分别被表示为
Figure 329105DEST_PATH_IMAGE042
Figure 186203DEST_PATH_IMAGE043
。用
Figure 225964DEST_PATH_IMAGE047
Figure 408683DEST_PATH_IMAGE048
来分别表示正确的三元组数据和相应的错误三元组 数据,目标损失函数可以定义为
Figure 391683DEST_PATH_IMAGE049
其中,
Figure 52471DEST_PATH_IMAGE050
Figure 194740DEST_PATH_IMAGE051
是分隔正确三元组和错误三元组的间距。可以利用 随机梯度下降法(SGD)来实现上述目标的最小化,对标准数据集进行训练,训练完成的投影 向量满足三元组关系式
Figure 282781DEST_PATH_IMAGE054
通过对标准数据集中
Figure 753077DEST_PATH_IMAGE036
个三元组求取三元组关系式,并计算平均值,可以得到关 系误差标准值,具体公式可以为
Figure 217556DEST_PATH_IMAGE056
本实施例中,通过获取至少一个关系三元组,根据预设的目标损失函数对每一个关系三元组进行训练得到至少一个三元组关系式,通过对至少一个三元组关系式求平均值得到关系误差标准值,可以对标准数据之间的相互关系进行量化,衡量电力数据之间关系成分的正确性,高效准确地检测出电力数据中的关系异常点,提高电力数据校验的效率。
在一个实施例中,上述步骤S120,可以具体包括:根据电力数据的实体类型,在标准知识图谱中查找标准实体节点;获取标准实体节点对应的标准数据;通过合并电力数据与标准数据,得到检测数据。
其中,实体类型可以为电力数据的数据类型,例如,可以为电能量数据、电压数据或电流数据。
其中,标准实体节点可以为标准知识图谱中的实体节点。
具体实现中,可以预先获取标准数据的数据库,数据库中记录有标准数据的值和数据类型,还可以基于标准数据库建立标准知识图谱。获取电力数据后,可以根据电力数据从标准知识图谱中筛选出符合预设条件的标准实体节点,将标准实体节点对应的数据作为标准数据,将电力数据和筛选得到的标准数据相合并,得到检测数据,基于检测数据构建新的知识图谱。
实际应用中,可以根据输入电力数据的实体类型匹配标准知识图谱中的相应实体 节点,获取知识图谱数据库内的正确数据,将输入数据和图谱数据联合组成数据集
Figure 214331DEST_PATH_IMAGE001
。例如,可以根据标准数据库建立一个标准知识图谱,标准知识图谱 中的每一个节点对应标准数据库中的一个标准数据,包括标准数据的值和数据类型,在获 取到待检测的电力数据后,可以根据电力数据的类型在标准知识图谱中查找相匹配的节 点,例如,若电力数据为电能量数据,则可以在标准知识图谱中查找所有电能量数据对应的 节点。在查找到相匹配的节点后,可以将待检测电力数据和标准知识图谱中相匹配节点对 应的标准数据相合并,组成检测数据集,并根据检测数据集生成一个知识图谱。
本实施例中,通过根据电力数据的实体类型在标准知识图谱中查找标准实体节点,获取标准实体节点对应的标准数据,通过合并电力数据与标准数据得到检测数据,由于知识图谱中标准实体节点的数据量远多于电力数据,且均为正确数据,聚类结果归属于大簇,基于检测数据中的标准数据进行电力数据校验,可以使电力数据校验具备较高的准确率和效率。
为了便于本领域技术人员深入理解本申请实施例,以下将结合一个具体示例进行说明。
图4为一个实施例中基于电力知识图谱的电力数据校验方法的流程示意图。
随着电力领域数字化、信息化程度的提高,各大电网企业对电力领域知识图谱的构建也逐步完善,电力领域知识图谱包含了大量的电能量数据及其相关的知识概念、相互联系、业务应用等信息,这些全面的电力知识信息可以帮助电力企业更好地处理电能量大数据,为业务决策和企业发展提供精准有效的指导。
本申请提出的电力数据校验方法借助于构建完善的专业领域电力知识图谱,电力数据校验过程具体可以分为两部分。
第一部分对于数据的属性数值进行校验,将输入数据类型与知识图谱对应的实体节点匹配,利用知识图谱在相应节点内存储的大量正确数据为标准数据簇,进行基于聚类的离群点检测,除了检测个体离群点,同时也能检测小簇中的集体离群点,先使用K-Means聚类算法,把原始数据集划分为多个簇,然后利用FindCBLOF算法定义离群点参数以合理区分大簇和小簇,再检测出各个离群点,这些点对应的数据则为异常数据,无法通过数据校验。
第二部分对于数据间的相互关系进行校验,知识图谱包含大量的实体节点和各个 实体节点间的相互关系,可以针对输入数据中复杂关系进行检测校验,知识图谱的表示学 习是通过设计映射函数来以一个低维向量来表示图谱数据的核心信息,即将知识图谱构建 成一个(头实体,关系,尾实体)形式的三元组,再通过映射函数将实体和关系分别以低维向 量来表示。采用Trans系列方法中的TransD算法来对输入数据进行处理,给定知识图谱
Figure 473274DEST_PATH_IMAGE020
,其中
Figure 430866DEST_PATH_IMAGE021
为头实体集合,
Figure 433457DEST_PATH_IMAGE023
为尾实体集合,
Figure 284738DEST_PATH_IMAGE022
为关系集合。然后将实体和关系在各自 的空间中表示为向量,使知识图谱中的每个三元组的实体向量和关系向量满足
Figure 980162DEST_PATH_IMAGE063
,如果三元组是正确的,则尾实体向量应该与头实体向量和关系向量的加和更 为接近,反之,如果三元组是错误的,则尾实体向量应该与头实体向量和关系向量的加和更 为远离,通过比较这两者距离,可以用来校验关系数据的正确性。
上述校验方法分两个部分对电力数据进行校验,一部分利用知识图谱实体节点属性数据进行基于聚类的离群点检测,来校验异常数据;另一部分利用知识图谱实体节点间的关系进行表示学习,来验证输入数据间相互关系的正确性。两方面校验结果综合在一起便能准确有效地针对海量复杂的电力大数据进行校验工作,在专业领域知识图谱的基础上,利用图数据库内存储的大量实体节点数据和实体关系数据,更为充分全面地校验海量输入数据的正确性,检测出其中的异常数据,帮助电力企业高效准确地处理电能量数据。
应该理解的是,虽然图1和图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1和图4中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种电力数据校验装置,包括:获取模块510、知识图谱构建模块520、点搜索模块530和点去除模块540,其中:
获取模块510,用于获取电力数据;
知识图谱构建模块520,用于根据所述电力数据和预设的标准数据得到检测数据,并根据所述检测数据构建知识图谱;所述知识图谱包含实体节点和实体相互关系,所述实体节点与所述检测数据相对应,所述实体相互关系为所述实体节点之间的关系;
点搜索模块530,用于确定所述实体节点中的离群点,以及,根据所述实体相互关系确定所述实体节点中的关系异常点;
点去除模块540,用于通过去除所述离群点对应的电力数据和所述关系异常点对应的电力数据,得到校验后电力数据。
在一个实施例中,上述点搜索模块530,包括:
聚类模块,用于对所述实体节点对应的检测数据进行聚类,得到检测数据聚类簇;
目标聚类簇确定模块,用于根据目标检测数据,确定所述检测数据聚类簇中的目标聚类簇;
相似度统计模块,用于统计所述目标检测数据与所述目标聚类簇之间的相似度;
离群点确定模块,用于若所述相似度小于预设的相似度阈值,则根据所述目标检测数据得到所述离群点。
在一个实施例中,上述目标聚类簇确定模块,还用于若所述目标检测数据为所述大簇数据,则所述目标聚类簇为所述目标检测数据所属的检测数据聚类簇;若所述目标检测数据为所述小簇数据,则所述目标聚类簇为与所述目标检测数据最近的大簇。
在一个实施例中,上述离群点确定模块,还用于若所述相似度小于预设的相似度阈值、且所述目标检测数据为所述大簇数据,则将所述目标检测数据对应的实体节点作为所述离群点;若所述相似度小于预设的相似度阈值、且所述目标检测数据为所述小簇数据,则将所述目标检测数据所属的检测数据聚类簇内的所有实体节点作为所述离群点。
在一个实施例中,上述点搜索模块530,还包括:
标准值计算模块,用于统计所述实体相互关系之间的关系误差标准值;
检测值计算模块,用于统计所述实体相互关系之间的关系误差检测值;
关系异常点确定模块,用于若所述关系误差检测值大于所述关系误差标准值,则将所述实体相互关系所连接的头实体节点和尾实体节点作为所述关系异常点。
在一个实施例中,上述标准值计算模块,还用于获取至少一个关系三元组;所述关系三元组用于表征所述标准数据之间的实体相互关系;根据预设的目标损失函数对每一个所述关系三元组进行训练,得到至少一个三元组关系式;通过对所述至少一个三元组关系式求平均值,得到所述关系误差标准值。
在一个实施例中,上述知识图谱构建模块520,还用于根据所述电力数据的实体类型,在标准知识图谱中查找标准实体节点;获取所述标准实体节点对应的标准数据;通过合并所述电力数据与所述标准数据,得到所述检测数据。
关于电力数据校验装置的具体限定可以参见上文中对于电力数据校验方法的限定,在此不再赘述。上述电力数据校验装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储电力数据校验数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种电力数据校验方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述一种电力数据校验方法的步骤。此处一种电力数据校验方法的步骤可以是上述各个实施例的一种电力数据校验方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述一种电力数据校验方法的步骤。此处一种电力数据校验方法的步骤可以是上述各个实施例的一种电力数据校验方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种电力数据校验方法,其特征在于,所述方法包括:
获取电力数据;
根据所述电力数据和预设的标准数据得到检测数据,并根据所述检测数据构建知识图谱;所述知识图谱包含实体节点和实体相互关系,所述实体节点与所述检测数据相对应,所述实体相互关系为所述实体节点之间的关系;
确定所述实体节点中的离群点,以及,根据所述实体相互关系确定所述实体节点中的关系异常点;
通过去除所述离群点对应的电力数据和所述关系异常点对应的电力数据,得到校验后电力数据。
2.根据权利要求1所述的方法,其特征在于,所述确定所述实体节点中的离群点,包括:
对所述实体节点对应的检测数据进行聚类,得到检测数据聚类簇;
根据目标检测数据,确定所述检测数据聚类簇中的目标聚类簇;所述目标检测数据为所述检测数据中的一个数据;
统计所述目标检测数据与所述目标聚类簇之间的相似度;
若所述相似度小于预设的相似度阈值,则根据所述目标检测数据得到所述离群点。
3.根据权利要求2所述的方法,其特征在于,所述检测数据聚类簇包括大簇和小簇,所述大簇为至少包含所述检测数据中百分之α个数据点的簇,所述小簇为包含少于所述检测数据中百分之α个数据点的簇,其中α为预设参数,所述目标检测数据包括大簇数据和小簇数据;所述根据目标检测数据,确定所述检测数据聚类簇中的目标聚类簇,包括:
若所述目标检测数据为所述大簇数据,则所述目标聚类簇为所述目标检测数据所属的检测数据聚类簇;
若所述目标检测数据为所述小簇数据,则所述目标聚类簇为与所述目标检测数据最近的大簇。
4.根据权利要求3所述的方法,其特征在于,所述若所述相似度小于预设的相似度阈值,则根据所述目标检测数据得到所述离群点,包括:
若所述相似度小于预设的相似度阈值、且所述目标检测数据为所述大簇数据,则将所述目标检测数据对应的实体节点作为所述离群点;
若所述相似度小于预设的相似度阈值、且所述目标检测数据为所述小簇数据,则将所述目标检测数据所属的检测数据聚类簇内的所有实体节点作为所述离群点。
5.根据权利要求1所述的方法,其特征在于,所述根据所述实体相互关系确定所述实体节点中的关系异常点,包括:
统计所述实体相互关系之间的关系误差标准值;
统计所述实体相互关系之间的关系误差检测值;
若所述关系误差检测值大于所述关系误差标准值,则将所述实体相互关系所连接的头实体节点和尾实体节点作为所述关系异常点。
6.根据权利要求5所述的方法,其特征在于,所述统计所述实体相互关系之间的关系误差标准值,包括:
获取至少一个关系三元组;所述关系三元组用于表征所述标准数据之间的实体相互关系;
根据预设的目标损失函数对每一个所述关系三元组进行训练,得到至少一个三元组关系式;
通过对所述至少一个三元组关系式求平均值,得到所述关系误差标准值。
7.根据权利要求1所述的方法,其特征在于,所述根据所述电力数据和预设的标准数据得到检测数据,包括:
根据所述电力数据的实体类型,在标准知识图谱中查找标准实体节点;
获取所述标准实体节点对应的标准数据;
通过合并所述电力数据与所述标准数据,得到所述检测数据。
8.一种电力数据校验装置,其特征在于,所述装置包括:
获取模块,用于获取电力数据;
知识图谱构建模块,用于根据所述电力数据和预设的标准数据得到检测数据,并根据所述检测数据构建知识图谱;所述知识图谱包含实体节点和实体相互关系,所述实体节点与所述检测数据相对应,所述实体相互关系为所述实体节点之间的关系;
点搜索模块,用于确定所述实体节点中的离群点,以及,根据所述实体相互关系确定所述实体节点中的关系异常点;
点去除模块,用于通过去除所述离群点对应的电力数据和所述关系异常点对应的电力数据,得到校验后电力数据。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202110349571.6A 2021-03-31 2021-03-31 电力数据校验方法、装置、计算机设备和存储介质 Active CN112800231B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110349571.6A CN112800231B (zh) 2021-03-31 2021-03-31 电力数据校验方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110349571.6A CN112800231B (zh) 2021-03-31 2021-03-31 电力数据校验方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN112800231A true CN112800231A (zh) 2021-05-14
CN112800231B CN112800231B (zh) 2021-07-20

Family

ID=75816129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110349571.6A Active CN112800231B (zh) 2021-03-31 2021-03-31 电力数据校验方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112800231B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113595240A (zh) * 2021-06-21 2021-11-02 深圳供电局有限公司 电力数据的检测方法、装置、设备及存储介质
CN114676266A (zh) * 2022-03-29 2022-06-28 建信金融科技有限责任公司 基于多层关系图谱的冲突识别方法、装置、设备及介质
CN114859796A (zh) * 2022-06-09 2022-08-05 中国第一汽车股份有限公司 一种车辆控制方法、电子设备及存储介质
CN115563477A (zh) * 2022-12-02 2023-01-03 南方电网数字电网研究院有限公司 谐波数据识别方法、装置、计算机设备和存储介质
CN116303480B (zh) * 2023-05-22 2023-08-04 新乡市万新电气有限公司 基于云计算的电能表误差校验方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214719A (zh) * 2018-11-02 2019-01-15 广东电网有限责任公司 一种基于人工智能的营销稽查分析的系统和方法
CN110399498A (zh) * 2019-07-15 2019-11-01 上海交通大学 一种电力变压器运行规范知识图谱构建方法
CN110689385A (zh) * 2019-10-16 2020-01-14 国网山东省电力公司信息通信公司 一种基于知识图谱的电力客服用户画像构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214719A (zh) * 2018-11-02 2019-01-15 广东电网有限责任公司 一种基于人工智能的营销稽查分析的系统和方法
CN110399498A (zh) * 2019-07-15 2019-11-01 上海交通大学 一种电力变压器运行规范知识图谱构建方法
CN110689385A (zh) * 2019-10-16 2020-01-14 国网山东省电力公司信息通信公司 一种基于知识图谱的电力客服用户画像构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
冯玉伟: "数据挖掘离群点检测算法及其在电力备故障检测中的应用", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》 *
吴超: "电力调度知识图谱中知识抽取系统的设计与实现", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113595240A (zh) * 2021-06-21 2021-11-02 深圳供电局有限公司 电力数据的检测方法、装置、设备及存储介质
CN113595240B (zh) * 2021-06-21 2024-01-19 深圳供电局有限公司 电力数据的检测方法、装置、设备及存储介质
CN114676266A (zh) * 2022-03-29 2022-06-28 建信金融科技有限责任公司 基于多层关系图谱的冲突识别方法、装置、设备及介质
CN114676266B (zh) * 2022-03-29 2024-02-27 建信金融科技有限责任公司 基于多层关系图谱的冲突识别方法、装置、设备及介质
CN114859796A (zh) * 2022-06-09 2022-08-05 中国第一汽车股份有限公司 一种车辆控制方法、电子设备及存储介质
CN115563477A (zh) * 2022-12-02 2023-01-03 南方电网数字电网研究院有限公司 谐波数据识别方法、装置、计算机设备和存储介质
CN116303480B (zh) * 2023-05-22 2023-08-04 新乡市万新电气有限公司 基于云计算的电能表误差校验方法

Also Published As

Publication number Publication date
CN112800231B (zh) 2021-07-20

Similar Documents

Publication Publication Date Title
CN112800231B (zh) 电力数据校验方法、装置、计算机设备和存储介质
WO2022110557A1 (zh) 一种台区户变关系异常诊断方法及装置
Wang et al. Unsupervised metric fusion over multiview data by graph random walk-based cross-view diffusion
Wu et al. Accurate Markov boundary discovery for causal feature selection
Gorban et al. Principal manifolds and graphs in practice: from molecular biology to dynamical systems
CN107480694B (zh) 基于Spark平台采用两次评价的加权选择集成三支聚类方法
CN110827921B (zh) 一种单细胞聚类方法、装置、电子设备及存储介质
WO2016205286A1 (en) Automatic entity resolution with rules detection and generation system
US8121967B2 (en) Structural data classification
CN109686402A (zh) 基于动态加权相互作用网络中关键蛋白质识别方法
CN110544047A (zh) 一种不良数据辨识方法
CN110796159A (zh) 基于k-means算法的电力数据分类方法及系统
Yu et al. 3D object representation learning: A set-to-set matching perspective
Gond et al. A survey of machine learning-based approaches for missing value imputation
Bai et al. On the effectiveness of out-of-distribution data in self-supervised long-tail learning
Iezzi A new method for adapting the k-means algorithm to text mining
Liu et al. A weight-incorporated similarity-based clustering ensemble method
CN115035966B (zh) 基于主动学习和符号回归的超导体筛选方法、装置及设备
Kuželka et al. Gaussian logic for predictive classification
CN108133234B (zh) 基于稀疏子集选择算法的社区检测方法、装置及设备
CN110502669A (zh) 基于n边dfs子图的轻量级无监督图表示学习方法及装置
CN112463964B (zh) 文本分类及模型训练方法、装置、设备及存储介质
CN113836707A (zh) 基于加速属性网络嵌入算法的电力系统社区探测方法和装置
Hai-Jun et al. Fuzzy entropy clustering using possibilistic approach
CN114971110A (zh) 一种根因组合确定的方法、相关装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: Room 86, room 406, No.1, Yichuang street, Zhongxin Guangzhou Knowledge City, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Southern Power Grid Digital Grid Research Institute Co.,Ltd.

Country or region after: China

Address before: Room 86, room 406, No.1, Yichuang street, Zhongxin Guangzhou Knowledge City, Huangpu District, Guangzhou City, Guangdong Province

Patentee before: Southern Power Grid Digital Grid Research Institute Co.,Ltd.

Country or region before: China

CP03 Change of name, title or address
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210514

Assignee: YANTAI DONGFANG WISDOM ELECTRIC Co.,Ltd.

Assignor: Southern Power Grid Digital Grid Research Institute Co.,Ltd.

Contract record no.: X2024980004116

Denomination of invention: Power data verification methods, devices, computer equipment, and storage media

Granted publication date: 20210720

License type: Common License

Record date: 20240409

Application publication date: 20210514

Assignee: WASION Group Ltd.

Assignor: Southern Power Grid Digital Grid Research Institute Co.,Ltd.

Contract record no.: X2024980004115

Denomination of invention: Power data verification methods, devices, computer equipment, and storage media

Granted publication date: 20210720

License type: Common License

Record date: 20240409

Application publication date: 20210514

Assignee: Guangzhou Weihong Intelligent Technology Co.,Ltd.

Assignor: Southern Power Grid Digital Grid Research Institute Co.,Ltd.

Contract record no.: X2024980004114

Denomination of invention: Power data verification methods, devices, computer equipment, and storage media

Granted publication date: 20210720

License type: Common License

Record date: 20240409

Application publication date: 20210514

Assignee: GUANGZHOU POWER ELECTRICAL TECHNOLOGY CO.,LTD.

Assignor: Southern Power Grid Digital Grid Research Institute Co.,Ltd.

Contract record no.: X2024980004113

Denomination of invention: Power data verification methods, devices, computer equipment, and storage media

Granted publication date: 20210720

License type: Common License

Record date: 20240409

EE01 Entry into force of recordation of patent licensing contract