CN110378358A - 一种配电网异构数据整合方法及系统 - Google Patents

一种配电网异构数据整合方法及系统 Download PDF

Info

Publication number
CN110378358A
CN110378358A CN201810369748.7A CN201810369748A CN110378358A CN 110378358 A CN110378358 A CN 110378358A CN 201810369748 A CN201810369748 A CN 201810369748A CN 110378358 A CN110378358 A CN 110378358A
Authority
CN
China
Prior art keywords
data sample
power distribution
distribution network
data
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810369748.7A
Other languages
English (en)
Inventor
谈元鹏
刘伟
陈海
赵明欣
苏剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
Original Assignee
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, China Electric Power Research Institute Co Ltd CEPRI filed Critical State Grid Corp of China SGCC
Priority to CN201810369748.7A priority Critical patent/CN110378358A/zh
Publication of CN110378358A publication Critical patent/CN110378358A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Evolutionary Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Educational Administration (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Water Supply & Treatment (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种配电网异构数据整合方法及系统,该方法包括:从原始配电网异构数据库中选取量测指标齐全的数据样本集;根据所述数据样本集进行生成式对抗网络训练,根据训练所得的新数据样本和原始配电网异构数据库生成扩大数据样本量后的新数据库;根据新数据库,通过聚类算法对原始配电网异构数据库中有量测指标缺失的数据样本进行修复,并根据修复后的原始配电网异构数据库输出配电网异构数据。能够实现对量测指标缺失数据样本的高效修复。

Description

一种配电网异构数据整合方法及系统
技术领域
本发明属于配电网数据质量管理领域,尤具体涉及一种配电网异构数据整合方法及系统。
背景技术
在现实生产实践中,由于各地电力公司、生产厂家与检测机构对配电网设备的检测条件不同,部分检测设备较为复杂昂贵,导致大多数配电网设备样本的检测指标并非完全相同。由于传统的配电网数据分析技术要求目标样本采用同种检测指标,这就导致来自不同电力公司、生产厂家与检测机构的部分样本与检测指标难以得到有效利用,对现有的配电网设备检测资源造成了极大浪费。同时,这种小样本情况也为配电网数据质量管理带来巨大挑战,使得传统的配电网数据分析方法效果不佳甚至失效。
发明内容
为了克服现有技术的缺陷,本发明的目的在于提出一种对缺少部分量测指标的数据样本进行高效修复的配电网异构数据整合方法及系统。
本发明提出了一种配电网异构数据整合方法,包括:
从原始配电网异构数据库中选取量测指标齐全的数据样本集;
根据所述数据样本集进行生成式对抗网络训练,根据训练所得的新数据样本和原始配电网异构数据库生成扩大数据样本量后的新数据库;
根据新数据库,通过聚类算法对原始配电网异构数据库中有量测指标缺失的数据样本进行修复,并根据修复后的原始配电网异构数据库输出配电网异构数据。
进一步地,所述根据所述数据样本集进行生成式对抗网络训练,根据训练所得的新数据样本和原始配电网异构数据库生成扩大数据样本量后的新数据库,包括:
根据所述数据样本集对生成模型和判别模型进行训练;
将预先构建的随机向量集输入至训练后的生成模型,得到新数据样本并更新判别模型;
将新数据样本输入至更新后的判别模型,判断新数据样本在更新后的判别模型上的判别率是否落在预设判别区间[0.5-c,0.5+c],若是,则将新数据样本加入原始配电网异构数据库形成新数据库;否则,将判别模型的判别误差反向传播至生成模型,将所述数据样本集输入至训练后的生成模型得到新数据样本并更新判别模型后,重新判断新数据样本在更新后的判别模型上的判别率是否落在预设判别区间;
所述c为预设的判别率阈值。
进一步地,所述生成模型如下式所示:
其中,G*为训练所得的生成模型,L为隐层神经元数量;为量测指标齐全的数据样本集中样本数量;βj为神经网络内第j个神经元外权;为神经网络内第i个神经元内权;zi∈RP,RP为随机向量集合,zi为随机向量;bj为神经网络内第j个神经元偏置值;f(·)为神经网络激活函数。
进一步地,所述判别模型如下所示:
其中,D(di)为判别模型,di为原始配电网异构数据库中的样本,L为隐层神经元数量;为量测指标齐全的数据样本集中样本数量;βj为神经网络内第j个神经元外权;ωi为神经网络内第i个神经元内权;bj为神经网络内第j个神经元偏置值;g(·)为神经网络激活函数。
进一步地,所述根据新数据库,通过聚类算法对原始配电网异构数据库中有量测指标缺失的数据样本进行修复,包括:
构建能够覆盖新数据库中所有数据样本点的有限覆盖集,并计算有限覆盖集中各个开覆盖区域的尖峰点;
对每个开覆盖区域中的数据样本点进行再分类,得到新数据库中所有数据样本点的分组结果;
根据新数据库中所有数据样本点的分组结果,对原始配电网异构数据库中含有缺失量测指标的数据样本点进行修复。
进一步地,构建能够覆盖新数据库中全体数据样本点的有限覆盖集,并计算有限覆盖集中各个开覆盖区域的尖峰点,包括:
将新数据库中的所有数据样本随机处理为若干个开覆盖区域,每个开覆盖区域中具有一个中心点,所述中心点属于新数据库;
根据每个中心点所在开覆盖区域中的数据样本和对应区域中的数据样本个数,得到每个开覆盖区域的尖峰点;
所有开覆盖区域构成有限覆盖集;所有尖峰点的集合构成尖峰点集。
进一步地,所述对每个开覆盖区域中的数据样本点进行再分类,得到新数据库中所有数据样本点的分组结果,包括:
以每个尖峰点为中心,依据相角顺时针次序建立数据样本点子集,每个子集中只包含1个数据样本点;
计算每个子集中的数据样本点与所有尖峰点之间的最短峰值距离;
若子集的数量大于1且两个位置相邻的子集的最短峰值距离的绝对值小于等于聚类阈值,则合并两个子集中的数据样本点为一个新子集,并计算新子集中的尖峰点以及新子集中数据样本点与尖峰点的最短峰值距离,直至子集的数量为1或两个位置相邻的子集的最短峰值距离的绝对值大于聚类阈值,得到新数据库中所有数据样本点的分组结果。
进一步地,所述新数据库中所有数据样本点的分组结果,对原始配电网异构数据库中含有缺失量测指标的数据样本点进行修复,包括:
计算含有缺失量测指标的样本点和与其在同一子集的数据样本点之间的欧几里得距离,并对欧几里得距离进行单位化;
根据单位化后的欧几里得距离,计算子集中所有量测指标完整的数据样本点的权重;
根据所述权重计算含有缺失量测指标的数据样本点的缺失量测指标值。
进一步地,按下式对所述欧几里得距离进行单位化:
式中,sj表示含有缺失量测指标的样本点和与其在同一子集的样本点j之间的欧几里得距离,pj表示欧几里得距离单位化后的值,n表示含有缺失量测指标的样本点所在的子集的样本点个数。
进一步地,根据单位化后的欧几里得距离,计算子集中所有量测指标完整的数据样本点的权重,包括:
根据单位化后的欧几里得距离,计算子集中所有量测指标完整的数据样本点的熵值;
根据样本点的熵值计算数据样本点的权重。
进一步地,按下式计算群组中每个量测指标完整的数据样本点的熵值:
hj=-pj ln pj
式中,hj表示样本点的熵值。
进一步地,按下式计算数据样本点的权重:
式中,wj表示样本点的权重。
进一步地,按下式计算含有缺失量测指标的数据样本点的缺失量测指标值:
式中,f表示计算出的含有缺失量测指标的数据样本点的缺失量测指标值,xj表示与含有缺失量测指标的数据样本点在同一子集的样本点j的与缺失量测指标对应的量测指标值。
进一步地,所述根据修复后的原始配电网异构数据库输出配电网异构数据,包括:
判断修复后的样本在更新后的判别模型上的判别率是否落在预设的判别区间,若是,则以样本修复后的原始配电网异构数据库作为配电网异构数据库并输出完整的配电网异构数据;否则,根据预设的缩减步长α缩减判别率阈值为c-α,并更新判别模型。
本发明还提出了一种配电网异构数据整合系统,包括:
选取模块,用于从原始配电网异构数据库中选取量测指标齐全的数据样本集;
训练模块,用于通过生成式对抗网络训练所述数据样本集;根据训练所得的新数据样本和原始配电网异构数据库生成扩大数据样本量后的新数据库;
修复模块,用于通过聚类算法对原始配电网异构数据库中有量测指标缺失的数据样本进行修复;
输出模块,用于根据修复后的原始配电网异构数据库输出配电网异构数据。
与最接近的现有技术比,本发明提供的技术方案具有以下有益效果:
本发明提供的配电网异构数据整合方法和系统,根据生成对抗网络对配电网异构数据样本进行训练扩大数据样本量,基于扩大数据样本量和原数据库能够实现对有指标指标缺失配电网异构数据的高效修复。
此外,根据修复后的配电网异构数据进行配电网设备的检测,有益于配电网数据质量管理水平的提高,有益于配电网数据分析效果的改善,助力配电网资产管理水平的精益提高。
附图说明
图1为一种配电网异构数据整合方法流程图;
图2为本发明实施例一种配电网异构数据整合方法流程图。
具体实施方式
为了进一步的阐述本发明的实施方式,下面结合附图对本发明做进一步详细的说明:
【实施例一】
图1为本发明一种配电网异构数据整合方法流程图,如图1所示,本发明提供的一种配电网异构数据整合方法,包括:
步骤S11、从原始配电网异构数据库中选取量测指标齐全的数据样本集;
步骤S12、根据数据样本集进行生成式对抗网络训练,根据训练所得的新数据样本和原始配电网异构数据库生成扩大数据样本量后的新数据库;
步骤S13、根据新数据库,通过聚类算法对原始配电网异构数据库中有量测指标缺失的数据样本进行修复,并根据修复后的原始配电网异构数据库输出配电网异构数据。
上述步骤S11的具体过程可以包括:
从原始配电网异构数据库中选取出各项量测指标均齐全的数据样本集其中,di表示原始配电网异构数据库中的数据样本,表示量测指标均齐全的数据样本数量,表示量测指标均齐全的数据样本数量。
上述步骤S12的具体过程可以包括:
步骤S121、根据所述数据样本集对生成模型(Generator Model,G-Model)和判别模型(Discriminator Model,D-Model)进行训练;
步骤S122、因为是首次向生成模型输入数据,因此需要将预先构建的随机向量集输入至训练后的生成模型,得到新数据样本并更新判别模型;
随机向量集zi∈RP,RP为由P维实数组成的随机向量集合,zi为随机向量集中的随机向量;
步骤S123、将新数据样本输入至更新后的判别模型,判断新数据样本在更新后的判别模型上的判别率是否落在预设判别区间[0.5-c,0.5+c]内,其中c为预设的判别率阈值,若落在判别区间内,表明生成模型G*收敛,则跳转至步骤S1024;否则跳转至步骤S1025;
步骤S124、将生成模型生成的M个新数据样本加入原始配电网异构数据库D,形成新数据库并转至步骤S13;
步骤S125、将判别模型D的判别误差反向传播至生成模型G*,将所述数据样本集输入至训练后的生成模型得到新数据样本并更新判别模型,然后返回至步骤S1023重新判断新数据样本在更新后的判别模型上的判别率是否落在预设判别区间。
步骤S121中,可以通过TensorFlow平台训练生成模型G*,使其满足:
其中,Dgen为生成模型G*生成的新数据样本;G*为训练后的生成模型;D(di)为判别模型;L为隐层神经元数量;为量测指标齐全的数据样本集中样本数量;βj为神经网络内第j个神经元外权;为神经网络内第i个神经元内权;zi∈RP,RP为P维由实数组成的随机向量集合,zi为随机向量;bj为神经网络内第j个神经元偏置值;f(·)为神经网络激活函数。
步骤S121中,还可以采用各项量测指标均齐全的数据样本集为输入,以0为输出,利用TensorFlow平台训练如下式的判别模型D(di):
其中,D(di)为训练后的判别模型,di为原始配电网异构数据库中的数据样本,L为隐层神经元数量;为量测指标齐全的数据样本集中样本数量;βj为神经网络内第j个神经元外权;ωi为神经网络内第i个神经元内权;bj为神经网络内第j个神经元偏置值;g(·)为神经网络激活函数。
步骤S122中,将预先构建的随机向量集输入至训练后的生成模型G*,得到M个新数据样本;以M个数据样本为输入,以1为输出;更新判别模型D。
上述步骤S13中,根据新数据库,通过聚类算法对原始配电网异构数据库中有量测指标缺失的数据样本进行修复的具体过程可以包括:
步骤S131、构建能够覆盖新数据库中所有数据样本点的有限覆盖集,并计算有限覆盖集中各个开覆盖区域的尖峰点;
步骤S132、对每个开覆盖区域中的数据样本点进行再分类,得到新数据库中所有数据样本点的分组结果;
步骤S133、根据新数据库中所有数据样本点的分组结果,对原始配电网异构数据库中含有缺失量测指标的数据样本点进行修复。
上述步骤S131的具体过程可以包括:
步骤S1311、将新数据库中的所有数据样本随机处理为若干个开覆盖区域Coveragei(d),每个开覆盖区域中具有一个中心点,所有中心点构成中心点集,中心点集属于新数据库;
步骤S1312、将每个中心点所在开覆盖区域中的数据样本之和除以对应区域中的数据样本个数,得到每个开覆盖区域的尖峰点;
步骤S1313、重复上述步骤,直至确定所有开覆盖区域和所有尖峰点,则输出包括所有开覆盖区域的有限覆盖集Coverage和包括所有尖峰点的尖峰点集Peaks。
将新数据库中的所有数据样本随机处理为若干个开覆盖区域可以采用本领域技术人员公知的现有技术或实施例三中的具体步骤。
中心点属于新数据库,尖峰点可以属于新数据库,也可能不属于新数据库,例如:某一开覆盖区域中的数据样本包括1、2、3和5(数据样本点为新数据库中的数据),通过步骤S1311得到中心点为3(属于新数据库),通过步骤S1312得到的尖峰点为2.75(不属于新数据库);又如:某一开覆盖区域中的数据样本包括2、4和6(数据样本点为新数据库中的数据)通过步骤S1311得到中心点为4(属于新数据库),通过步骤S1312得到的尖峰点为4(属于新数据库)。
上述步骤S132的具体过程包括:
步骤S1321、以每个尖峰点为中心,依据相角顺时针次序建立如下式的数据样本点子集,每个子集中只包含1个数据样本点;
ClusterSet={temp_seti|temp_seti∈Coverage,|temp_seti|=1,...
...temp_seti≠temp_setj,当i≠j}
式中,ClusterSet为子集,temp_seti、temp_setj分别为第i、j个数据样本点。
步骤S1322、计算每个子集中的数据样本点与所有尖峰点之间的最短峰值距离,如下式:
Di=min{Dist(dj,Peaks)|dj∈temp_seti};
式中,Dist(dj,Peaks)为第j个数据样本点与尖峰点集中某一尖峰点之间的最短峰值距离。
步骤S1323、若子集的数量大于1(|ClusterSet|>1)且两个位置相邻的子集的最短峰值距离的绝对值小于等于聚类阈值(max(|DDi-DDi+1|)≤k),则合并两个子集temp_seti和temp_seti+1中的数据样本点为一个新子集,按照数据样本点所对应的相角从小到大对新子集中的数据样本点进行排序,并返回至步骤S1322重新计算新子集中的尖峰点以及新子集中数据样本点与尖峰点的最短峰值距离;
若子集的数量为1或两个位置相邻的子集的最短峰值距离的绝对值大于聚类阈值,则得到新数据库中所有数据样本点的分组结果,即根据子集ClusterSet得到。
上述步骤S133具体过程可以包括:
步骤S1331、计算含有缺失量测指标的数据样本点d和与其在同一子集的数据样本点之间的欧几里得距离,记做并对欧几里得距离进行单位化;
步骤S1332、根据单位化后的欧几里得距离,计算子集中所有量测指标完整的数据样本点的权重;
步骤S1333、根据所述权重计算含有缺失量测指标的数据样本点的缺失量测指标值。
上述步骤S1331中,可以按下式对所述欧几里得距离进行单位化:
式中,sj表示含有缺失量测指标的样本点和与其在同一子集的样本点j之间的欧几里得距离,pj表示欧几里得距离单位化后的值,n表示含有缺失量测指标的样本点所在的子集的样本点个数。
上述步骤S1332的具体过程可以包括:
1)根据单位化后的欧几里得距离,可以按下式计算子集中所有量测指标完整的数据样本点的熵值:
hj=-pj ln pj
式中,hj表示样本点的熵值;;
2)根据样本点的熵值,可以按下式计算数据样本点的权重:
式中,wj表示样本点的权重。
上述步骤S1333中,可以按下式计算含有缺失量测指标的数据样本点的缺失量测指标值:
式中,f表示计算出的含有缺失量测指标的数据样本点的缺失量测指标值,xj表示与含有缺失量测指标的数据样本点在同一子集的样本点j的与缺失量测指标对应的量测指标值。
上述步骤S13中,根据修复后的原始配电网异构数据库输出配电网异构数据的具体过程可以包括:
判断修复后的样本在更新后的判别模型上的判别率是否落在预设的判别区间;
若是,则以样本修复后的原始配电网异构数据库作为配电网异构数据库并输出完整的配电网异构数据;否则,根据预设的缩减步长α缩减判别率阈值为c-α,并更新判别模型。
【实施例二】
基于相同的发明构思,本发明还提供了一种配电网异构数据整合系统,可以包括:
选取模块,用于从原始配电网异构数据库中选取量测指标齐全的数据样本集;
训练模块,用于通过生成式对抗网络训练所述数据样本集;根据训练所得的新数据样本和原始配电网异构数据库生成扩大数据样本量后的新数据库;
修复模块,用于通过聚类算法对原始配电网异构数据库中有量测指标缺失的数据样本进行修复;
输出模块,用于根据修复后的原始配电网异构数据库输出配电网异构数据。
其中,训练模块,具体用于:
根据所述数据样本集对生成模型和判别模型进行训练;
将预先构建的随机向量集输入至训练后的生成模型,得到新数据样本并更新判别模型;
将新数据样本输入至更新后的判别模型,判断新数据样本在更新后的判别模型上的判别率是否落在预设判别区间[0.5-c,0.5+c],若是,则将新数据样本加入原始配电网异构数据库形成新数据库;否则,将判别模型的判别误差反向传播至生成模型,将所述数据样本集输入至训练后的生成模型得到新数据样本并更新判别模型后,重新判断新数据样本在更新后的判别模型上的判别率是否落在预设判别区间;所述c为预设的判别率阈值。
训练模块的具体实施过程同实施例一。
其中,修复模块,具体用于:
构建能够覆盖新数据库中所有数据样本点的有限覆盖集,并计算有限覆盖集中各个开覆盖区域的尖峰点;
对每个开覆盖区域中的数据样本点进行再分类,得到新数据库中所有数据样本点的分组结果;
根据新数据库中所有数据样本点的分组结果,对原始配电网异构数据库中含有缺失量测指标的数据样本点进行修复。
修复模块的具体实施过程同实施例一。
其中,输出模块,具体用于:
判断修复后的样本在更新后的判别模型上的判别率是否落在预设的判别区间,若是,则以样本修复后的原始配电网异构数据库作为配电网异构数据库并输出完整的配电网异构数据;否则,根据预设的缩减步长α缩减判别率阈值为c-α,并更新判别模型。
【实施例三】
本发明在现有配电网数据库整合技术研究的基础上,提出一种基于生成对抗网络的配电网异构数据整合方法,如图2所示。具体包括以下步骤:
步骤1.读取配电网异构数据,建立数据库,并初始化参数,具体包括:
建立的数据库
初始化判别率阈值c=0.1,缩减步长a=0.0025;设定神经网络激活函数g和f为Sigmodal函数;初始化峰值聚类算法中的距离阈值R1=0.15,R2=0.15与聚类阈值k=3;初始化中心点集Centre=D;初始化有限覆盖尖峰点集Temp_Peaks={}。
步骤1为非必要步骤,可以在执行步骤2-5的过程中直接调用步骤1中预先设置好的参数。
步骤2.训练生成模型(Generator Model,G-Model)和判别模型(DiscriminatorModel,D-Model),具体包括:
从数据库中选取出各项量测指标均齐全的子样本集合其中,表示该子样本集合的样本数量,子样本集合进行生成式对抗网络训练,获得生成模型与判别模型。
步骤2.1采用各项量测指标均齐全的子样本集合为输入,以0为输出,利用TensorFlow平台初始化判别模型其中,L为隐层神经元数量;βj∈R为神经网络内第j个神经元外权;ωi∈RK为神经网络内第i个神经元内权;bj∈R为神经网络内第j个神经元偏置值;g(·):R→R为神经网络激活函数。
步骤2.2利用TensorFlow平台训练生成模型G*,使其满足:
其中,Dgen为生成模型G*新生成数据样本;L为隐层神经元数量;βj∈RK为神经网络内第j个神经元外权;为神经网络内第i个神经元内权;bj∈R为神经网络内第j个神经元偏置值;f(·):R→R为神经网络激活函数。进而,训练所得的生成模型G*可由随机向量集合生成M个数据样本。
步骤2.3采用各项量测指标均齐全的子样本集合为输入,以0为输出;采用生成模型G*生成M个数据样本为输入,以1为输出;训练学习并更新判别模型D。
步骤2.4判断生成模型G*所生成样本在判别模型D上的判别率是否落在在[0.5-c,0.5+c]之中。若条件成立,表明生成模型G*收敛,将生成的M个数据样本混入原始数据库D,记做数据库转入步骤3;反之,将判别模型D的判别误差反向传播,返回步骤2.2。
步骤3.建立有限覆盖集,采用峰值聚类算法对含有缺失信息的样本进行修复,具体包括:
步骤3.1采用一种计算成本极小的近似计算方法找到中心点周围区域的所有数据点,形成一个开覆盖。同理,寻找下一个开覆盖区域,直到开覆盖集合完成对全体数据样本构成的离散点集的覆盖为止。
步骤3.1.1:若中心点集不为空由中心点集中随机选取一个中心点d∈Centre;反之,前往步骤3.1.4。
步骤3.1.2:通过下式计算第i个开覆盖区域Coveragei(d):
Coveragei(d)={d′∈DD|Dist(d,d′)≤R1}
更新Temp_Peaks←{Temp_Peaks,d},i←i+1。
步骤3.1.3:更新中心点集Centre←CCentre{d′|Dist(d,d′)≤R2};计算尖峰点集Temp_Peaksi(d)=sum(d′|d′∈Coveragei(d))/|Coveragei(d)|,其中,|·|表示集合点元素数量;返回步骤3.1.1。
R1、R2均为聚类算法中预设的距离阈值,R1和R2均可以取值为0.15;
步骤3.1.4:返回Coveragei(d),Temp_Peaksi(d)。
输出有限覆盖集Coverage,尖峰点集Peaks。
步骤3.2对每个开覆盖内再分类并进行密度峰峰值距离计算,若相角顺序相近的子类峰值距离差值的绝对值大于阈值k或者总子聚类类数为1,则聚类终止。假设有限覆盖集Coveragei(d)中包含ni个数据样本点dj,计算密度峰峰值距离(即数据样本点与尖峰点的距离)Dist(dj,Temp_Peaksi(d));以尖峰点为中心依据相角顺序构造ni个类,且每个类仅包含1个样本点;若相角顺序相近的子类峰值距离差值的绝对值小于等于阈值k则将两类合并,计算新类的尖峰点,并重新计算密度峰峰值距离。按照上述操作,直至相角顺序相近的子类峰值距离差值的绝对值大于阈值k或者总子聚类类数为1,则迭代停止,输出聚类结果。
步骤3.2.1:依据相角顺时针次序建立子集:
步骤3.2.2:计算第j个数据样本点与尖峰点集中某一尖峰点之间的最短峰值距离Di=min{Dist(dj,Peaks)|dj∈temp_seti};
步骤3.2.3:若|ClusterSet|>1且max(|DDi-DDi+1|)≤k,则合并temp_seti与temp_seti+1,对子集重新排序,返回步骤3.2.2;反之,前往步骤3.2.4;
步骤3.2.4:得到再分类后的所有子集ClusterSet。
步骤3.3对数据进行峰值覆盖聚类后,利用与缺失量测指标的对象在同一个簇当中的数据对象的相应量测指标的加权值作为该量测指标的预测值。本课题引入信息论中熵值(Entropy)的概念,通过数据对象间的相似度来确定加权系数。对于任意缺失量测指标的数据样本点d,其所在的群组(又称簇)Coveragei(d)中包含ni个数据样本点基于聚类与信息熵的不完整数据填充算法主要步骤如下所示:
步骤3.3.1:计算数据样本点d与所在的群组数据样本点之间的欧几里得距离作为相似度,记做并将按式(3-3)进行单位化:
步骤3.3.2:计算每个完整数据对象的熵值:
hj=-pj ln pj (3-2)
计算每个对象的权重:
计算缺失量测指标的数据样本点d的缺失量测指标值:
其中,xj表示d所在的群组数据样本点的对应量测指标值,i=1,2,...,ni。记修复后的原始数据库为
步骤4.判断修复样本是否能够通过判别模型的识别验证。若未能通过,则依据缩减步长α缩减判别率阈值c为c-α,并返回步骤2.3;反之,前往步骤5。
步骤5.输出整合后的配电网数据库
【实施例四】
针对配电设备运行状态监测数据整合问题开展了数值仿真实验。所有试验均在Matlab 2012平台下进行,硬件设备参数为:CPUCoreTM i7 2.30GHz,RAM 8.00GB,Win8环境。采用N-Gram算法与基于反馈学习机制(Feedback Learning Mechanism)的聚类方法作为对照组,从修复精度以及修复时间两个方面来评价算法的性能表现。所采用数据为从配电管理SCADA(Supervisory Control And Data Acquisition)系统与馈线自动化FTU(Feeder Terminal Unit)系统各提取了某地区配电网中1574条对配电设备运行状态监测的量测数据。其中,量测数据主要包含箱式变压器的渗漏油、接地电阻以及油标油位等19项配用电常用信息,故障类别为3(含正常工作状态)。
表1 算法性能表现对比
由表1可知,基于生成对抗网络的配电网异构数据整合方法在修复时间稍逊于N-Gram算法,但在修复精度方面远胜于两个对照组。
具体实施时,基于生成对抗网络的配电网异构数据整合方法可行、有效,适用于配电网设备检测大数据的数据管理与分析业务,容易得到广大的电力系统规划、运行、检修相关工作人员的认可。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用于说明本发明的技术方案而非对其保护范围的限制,尽管参照上述实施例对本申请进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本申请后依然可对申请的具体实施方式进行种种变更、修改或者等同替换,但这些变更、修改或者等同替换,均在申请待批的权利要求保护范围之内。

Claims (15)

1.一种配电网异构数据整合方法,其特征在于,包括:
从原始配电网异构数据库中选取量测指标齐全的数据样本集;
根据所述数据样本集进行生成式对抗网络训练,根据训练所得的新数据样本和原始配电网异构数据库生成扩大数据样本量后的新数据库;
根据新数据库,通过聚类算法对原始配电网异构数据库中有量测指标缺失的数据样本进行修复,并根据修复后的原始配电网异构数据库输出配电网异构数据。
2.如权利要求1所述的配电网异构数据整合方法,其特征在于,所述根据所述数据样本集进行生成式对抗网络训练,根据训练所得的新数据样本和原始配电网异构数据库生成扩大数据样本量后的新数据库,包括:
根据所述数据样本集对生成模型和判别模型进行训练;
将预先构建的随机向量集输入至训练后的生成模型,得到新数据样本并更新判别模型;
将新数据样本输入至更新后的判别模型,判断新数据样本在更新后的判别模型上的判别率是否落在预设判别区间[0.5-c,0.5+c],若是,则将新数据样本加入原始配电网异构数据库形成新数据库;否则,将判别模型的判别误差反向传播至生成模型,将所述数据样本集输入至训练后的生成模型得到新数据样本并更新判别模型后,重新判断新数据样本在更新后的判别模型上的判别率是否落在预设判别区间;
所述c为预设的判别率阈值。
3.如权利要求2所述的配电网异构数据整合方法,其特征在于,所述生成模型如下式所示:
其中,G*为训练所得的生成模型,L为隐层神经元数量;为量测指标齐全的数据样本集中样本数量;βj为神经网络内第j个神经元外权;为神经网络内第i个神经元内权;zi∈RP,RP为随机向量集合,zi为随机向量;bj为神经网络内第j个神经元偏置值;f(·)为神经网络激活函数。
4.如权利要求2所述的配电网异构数据整合方法,其特征在于,所述判别模型如下所示:
其中,D(di)为判别模型,di为原始配电网异构数据库中的样本,L为隐层神经元数量;为量测指标齐全的数据样本集中样本数量;βj为神经网络内第j个神经元外权;ωi为神经网络内第i个神经元内权;bj为神经网络内第j个神经元偏置值;g(·)为神经网络激活函数。
5.如权利要求1所述的配电网异构数据整合方法,其特征在于,所述根据新数据库,通过聚类算法对原始配电网异构数据库中有量测指标缺失的数据样本进行修复,包括:
构建能够覆盖新数据库中所有数据样本点的有限覆盖集,并计算有限覆盖集中各个开覆盖区域的尖峰点;
对每个开覆盖区域中的数据样本点进行再分类,得到新数据库中所有数据样本点的分组结果;
根据新数据库中所有数据样本点的分组结果,对原始配电网异构数据库中含有缺失量测指标的数据样本点进行修复。
6.如权利要求5所述的配电网异构数据整合方法,其特征在于,构建能够覆盖新数据库中全体数据样本点的有限覆盖集,并计算有限覆盖集中各个开覆盖区域的尖峰点,包括:
将新数据库中的所有数据样本随机处理为若干个开覆盖区域,每个开覆盖区域中具有一个中心点;所有开覆盖区域构成有限覆盖集;
根据每个中心点所在开覆盖区域中的数据样本和对应区域中的数据样本个数,得到每个开覆盖区域的尖峰点;所有尖峰点的集合构成尖峰点集。
7.如权利要求5所述的配电网异构数据整合方法,其特征在于,所述对每个开覆盖区域中的数据样本点进行再分类,得到新数据库中所有数据样本点的分组结果,包括:
以每个尖峰点为中心,依据相角顺时针次序建立数据样本点子集,每个子集中只包含1个数据样本点;
计算每个子集中的数据样本点与所有尖峰点之间的最短峰值距离;
若子集的数量大于1且两个位置相邻的子集的最短峰值距离的绝对值小于等于聚类阈值,则合并两个子集中的数据样本点为一个新子集,并计算新子集中的尖峰点以及新子集中数据样本点与尖峰点的最短峰值距离,直至子集的数量为1或两个位置相邻的子集的最短峰值距离的绝对值大于聚类阈值,得到新数据库中所有数据样本点的分组结果。
8.如权利要求5所述的配电网异构数据整合方法,其特征在于,所述新数据库中所有数据样本点的分组结果,对原始配电网异构数据库中含有缺失量测指标的数据样本点进行修复,包括:
计算含有缺失量测指标的样本点和与其在同一子集的数据样本点之间的欧几里得距离,并对欧几里得距离进行单位化;
根据单位化后的欧几里得距离,计算子集中所有量测指标完整的数据样本点的权重;
根据所述权重计算含有缺失量测指标的数据样本点的缺失量测指标值。
9.如权利要求8所述的配电网异构数据整合方法,其特征在于,按下式对所述欧几里得距离进行单位化:
式中,sj表示含有缺失量测指标的样本点和与其在同一子集的样本点j之间的欧几里得距离,pj表示欧几里得距离单位化后的值,n表示含有缺失量测指标的样本点所在子集的样本点个数。
10.如权利要求8所述的配电网异构数据整合方法,其特征在于,根据单位化后的欧几里得距离,计算子集中所有量测指标完整的数据样本点的权重,包括:
根据单位化后的欧几里得距离,计算子集中所有量测指标完整的数据样本点的熵值;
根据样本点的熵值计算数据样本点的权重。
11.如权利要求10所述的配电网异构数据整合方法,其特征在于,按下式计算子集中每个量测指标完整的数据样本点的熵值:
hj=-pjlnpj
式中,hj表示样本点的熵值。
12.如权利要求11所述的配电网异构数据整合方法,其特征在于,按下式计算数据样本点的权重:
式中,wj表示样本点的权重。
13.如权利要求12所述的配电网异构数据整合方法,其特征在于,按下式计算含有缺失量测指标的数据样本点的缺失量测指标值:
式中,f表示计算出的含有缺失量测指标的数据样本点的缺失量测指标值,xj表示与含有缺失量测指标的数据样本点在同一子集的样本点j的与缺失量测指标对应的量测指标值。
14.如权利要求1所述的配电网异构数据整合方法,其特征在于,所述根据修复后的原始配电网异构数据库输出配电网异构数据,包括:
判断修复后的样本在更新后的判别模型上的判别率是否落在预设的判别区间,若是,则以样本修复后的原始配电网异构数据库作为配电网异构数据库并输出完整的配电网异构数据;否则,根据预设的缩减步长α缩减判别率阈值为c-α,并更新判别模型。
15.一种配电网异构数据整合系统,其特征在于,包括:
选取模块,用于从原始配电网异构数据库中选取量测指标齐全的数据样本集;
训练模块,用于通过生成式对抗网络训练所述数据样本集;根据训练所得的新数据样本和原始配电网异构数据库生成扩大数据样本量后的新数据库;
修复模块,用于通过聚类算法对原始配电网异构数据库中有量测指标缺失的数据样本进行修复;
输出模块,用于根据修复后的原始配电网异构数据库输出配电网异构数据。
CN201810369748.7A 2018-04-14 2018-04-14 一种配电网异构数据整合方法及系统 Pending CN110378358A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810369748.7A CN110378358A (zh) 2018-04-14 2018-04-14 一种配电网异构数据整合方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810369748.7A CN110378358A (zh) 2018-04-14 2018-04-14 一种配电网异构数据整合方法及系统

Publications (1)

Publication Number Publication Date
CN110378358A true CN110378358A (zh) 2019-10-25

Family

ID=68243065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810369748.7A Pending CN110378358A (zh) 2018-04-14 2018-04-14 一种配电网异构数据整合方法及系统

Country Status (1)

Country Link
CN (1) CN110378358A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126700A (zh) * 2019-12-25 2020-05-08 远景智能国际私人投资有限公司 用能预测方法、装置、设备及存储介质
CN111209713A (zh) * 2020-01-03 2020-05-29 长江存储科技有限责任公司 晶圆数据处理方法和装置
CN111708829A (zh) * 2020-06-19 2020-09-25 广州奥佳软件技术有限公司 一种异构数据整合方法及系统
CN112560981A (zh) * 2020-12-24 2021-03-26 北京百度网讯科技有限公司 生成对抗模型的训练方法、装置、设备、程序和存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126700A (zh) * 2019-12-25 2020-05-08 远景智能国际私人投资有限公司 用能预测方法、装置、设备及存储介质
CN111126700B (zh) * 2019-12-25 2023-09-15 远景智能国际私人投资有限公司 用能预测方法、装置、设备及存储介质
CN111209713A (zh) * 2020-01-03 2020-05-29 长江存储科技有限责任公司 晶圆数据处理方法和装置
CN111209713B (zh) * 2020-01-03 2023-08-18 长江存储科技有限责任公司 晶圆数据处理方法和装置
CN111708829A (zh) * 2020-06-19 2020-09-25 广州奥佳软件技术有限公司 一种异构数据整合方法及系统
CN112560981A (zh) * 2020-12-24 2021-03-26 北京百度网讯科技有限公司 生成对抗模型的训练方法、装置、设备、程序和存储介质
CN112560981B (zh) * 2020-12-24 2023-07-25 北京百度网讯科技有限公司 生成对抗模型的训练方法、装置、设备、程序和存储介质

Similar Documents

Publication Publication Date Title
CN105117602B (zh) 一种计量装置运行状态预警方法
CN102496069B (zh) 基于模糊层次分析法的电缆多状态安全运行评估方法
CN110378358A (zh) 一种配电网异构数据整合方法及系统
CN104200288B (zh) 一种基于因素与事件间相关关系识别的设备故障预测方法
Tomin et al. Machine learning techniques for power system security assessment
CN106055918A (zh) 一种电力系统负荷数据辨识及修复方法
CN109583520B (zh) 一种云模型与遗传算法优化支持向量机的状态评估方法
CN110488150A (zh) 一种基于多算法融合的故障智能诊断方法
CN111523778A (zh) 基于粒子群算法和梯度提升树的电网运行安全评估方法
An et al. A data-driven method for transient stability margin prediction based on security region
CN108053128A (zh) 一种基于elm和tf的电网暂态稳定快速评估方法
CN109829627A (zh) 一种基于集成学习方案的电力系统动态安全置信评估方法
CN110264116A (zh) 一种基于关系探索与回归树的电力系统动态安全评估方法
CN105406461B (zh) 一种配电网停电事件的负荷自适应动态监测方法
CN112464995A (zh) 一种基于决策树算法的电网配变故障诊断方法及系统
CN106569030A (zh) 一种电能计量异常诊断中的告警阈值寻优方法及装置
CN109613440A (zh) 电池的分级方法、装置、设备和存储介质
CN112241836B (zh) 一种基于增量学习的虚拟负荷主导参数辨识方法
Zheng et al. Real-time transient stability assessment based on deep recurrent neural network
CN113922412A (zh) 一种新能源多场站短路比全景化评估方法、系统、存储介质及计算设备
CN109726766A (zh) 一种基于集成决策树的电力系统在线动态安全评估方法
CN108320112A (zh) 一种确定设备健康状态的方法及装置
Ullah et al. Adaptive data balancing method using stacking ensemble model and its application to non-technical loss detection in smart grids
Chen et al. An economic operation analysis method of transformer based on clustering
CN109961160A (zh) 一种基于潮流参数的电网未来运行趋势预估方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination