CN110378358A

CN110378358A - 一种配电网异构数据整合方法及系统

Info

Publication number: CN110378358A
Application number: CN201810369748.7A
Authority: CN
Inventors: 谈元鹏; 刘伟; 陈海; 赵明欣; 苏剑
Original assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI
Current assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI
Priority date: 2018-04-14
Filing date: 2018-04-14
Publication date: 2019-10-25

Abstract

本发明提供了一种配电网异构数据整合方法及系统，该方法包括：从原始配电网异构数据库中选取量测指标齐全的数据样本集；根据所述数据样本集进行生成式对抗网络训练，根据训练所得的新数据样本和原始配电网异构数据库生成扩大数据样本量后的新数据库；根据新数据库，通过聚类算法对原始配电网异构数据库中有量测指标缺失的数据样本进行修复，并根据修复后的原始配电网异构数据库输出配电网异构数据。能够实现对量测指标缺失数据样本的高效修复。

Description

一种配电网异构数据整合方法及系统

技术领域

本发明属于配电网数据质量管理领域，尤具体涉及一种配电网异构数据整合方法及系统。

背景技术

在现实生产实践中，由于各地电力公司、生产厂家与检测机构对配电网设备的检测条件不同，部分检测设备较为复杂昂贵，导致大多数配电网设备样本的检测指标并非完全相同。由于传统的配电网数据分析技术要求目标样本采用同种检测指标，这就导致来自不同电力公司、生产厂家与检测机构的部分样本与检测指标难以得到有效利用，对现有的配电网设备检测资源造成了极大浪费。同时，这种小样本情况也为配电网数据质量管理带来巨大挑战，使得传统的配电网数据分析方法效果不佳甚至失效。

发明内容

为了克服现有技术的缺陷，本发明的目的在于提出一种对缺少部分量测指标的数据样本进行高效修复的配电网异构数据整合方法及系统。

本发明提出了一种配电网异构数据整合方法，包括：

从原始配电网异构数据库中选取量测指标齐全的数据样本集；

根据所述数据样本集进行生成式对抗网络训练，根据训练所得的新数据样本和原始配电网异构数据库生成扩大数据样本量后的新数据库；

根据新数据库，通过聚类算法对原始配电网异构数据库中有量测指标缺失的数据样本进行修复，并根据修复后的原始配电网异构数据库输出配电网异构数据。

进一步地，所述根据所述数据样本集进行生成式对抗网络训练，根据训练所得的新数据样本和原始配电网异构数据库生成扩大数据样本量后的新数据库，包括：

根据所述数据样本集对生成模型和判别模型进行训练；

将预先构建的随机向量集输入至训练后的生成模型，得到新数据样本并更新判别模型；

将新数据样本输入至更新后的判别模型，判断新数据样本在更新后的判别模型上的判别率是否落在预设判别区间[0.5-c，0.5+c]，若是，则将新数据样本加入原始配电网异构数据库形成新数据库；否则，将判别模型的判别误差反向传播至生成模型，将所述数据样本集输入至训练后的生成模型得到新数据样本并更新判别模型后，重新判断新数据样本在更新后的判别模型上的判别率是否落在预设判别区间；

所述c为预设的判别率阈值。

进一步地，所述生成模型如下式所示：

其中，G^*为训练所得的生成模型，L为隐层神经元数量；为量测指标齐全的数据样本集中样本数量；β_j为神经网络内第j个神经元外权；为神经网络内第i个神经元内权；z_i∈R^P，R^P为随机向量集合，z_i为随机向量；b_j为神经网络内第j个神经元偏置值；f(·)为神经网络激活函数。

进一步地，所述判别模型如下所示：

其中，D(d_i)为判别模型，d_i为原始配电网异构数据库中的样本，L为隐层神经元数量；为量测指标齐全的数据样本集中样本数量；β_j为神经网络内第j个神经元外权；ω_i为神经网络内第i个神经元内权；b_j为神经网络内第j个神经元偏置值；g(·)为神经网络激活函数。

进一步地，所述根据新数据库，通过聚类算法对原始配电网异构数据库中有量测指标缺失的数据样本进行修复，包括：

构建能够覆盖新数据库中所有数据样本点的有限覆盖集，并计算有限覆盖集中各个开覆盖区域的尖峰点；

对每个开覆盖区域中的数据样本点进行再分类，得到新数据库中所有数据样本点的分组结果；

根据新数据库中所有数据样本点的分组结果，对原始配电网异构数据库中含有缺失量测指标的数据样本点进行修复。

进一步地，构建能够覆盖新数据库中全体数据样本点的有限覆盖集，并计算有限覆盖集中各个开覆盖区域的尖峰点，包括：

将新数据库中的所有数据样本随机处理为若干个开覆盖区域，每个开覆盖区域中具有一个中心点，所述中心点属于新数据库；

根据每个中心点所在开覆盖区域中的数据样本和对应区域中的数据样本个数，得到每个开覆盖区域的尖峰点；

所有开覆盖区域构成有限覆盖集；所有尖峰点的集合构成尖峰点集。

进一步地，所述对每个开覆盖区域中的数据样本点进行再分类，得到新数据库中所有数据样本点的分组结果，包括：

以每个尖峰点为中心，依据相角顺时针次序建立数据样本点子集，每个子集中只包含1个数据样本点；

计算每个子集中的数据样本点与所有尖峰点之间的最短峰值距离；

若子集的数量大于1且两个位置相邻的子集的最短峰值距离的绝对值小于等于聚类阈值，则合并两个子集中的数据样本点为一个新子集，并计算新子集中的尖峰点以及新子集中数据样本点与尖峰点的最短峰值距离，直至子集的数量为1或两个位置相邻的子集的最短峰值距离的绝对值大于聚类阈值，得到新数据库中所有数据样本点的分组结果。

进一步地，所述新数据库中所有数据样本点的分组结果，对原始配电网异构数据库中含有缺失量测指标的数据样本点进行修复，包括：

计算含有缺失量测指标的样本点和与其在同一子集的数据样本点之间的欧几里得距离，并对欧几里得距离进行单位化；

根据单位化后的欧几里得距离，计算子集中所有量测指标完整的数据样本点的权重；

根据所述权重计算含有缺失量测指标的数据样本点的缺失量测指标值。

进一步地，按下式对所述欧几里得距离进行单位化：

式中，s_j表示含有缺失量测指标的样本点和与其在同一子集的样本点j之间的欧几里得距离，p_j表示欧几里得距离单位化后的值，n表示含有缺失量测指标的样本点所在的子集的样本点个数。

进一步地，根据单位化后的欧几里得距离，计算子集中所有量测指标完整的数据样本点的权重，包括：

根据单位化后的欧几里得距离，计算子集中所有量测指标完整的数据样本点的熵值；

根据样本点的熵值计算数据样本点的权重。

进一步地，按下式计算群组中每个量测指标完整的数据样本点的熵值：

h_j＝-p_j ln p_j

式中，h_j表示样本点的熵值。

进一步地，按下式计算数据样本点的权重：

式中，w_j表示样本点的权重。

进一步地，按下式计算含有缺失量测指标的数据样本点的缺失量测指标值：

式中，f表示计算出的含有缺失量测指标的数据样本点的缺失量测指标值，x_j表示与含有缺失量测指标的数据样本点在同一子集的样本点j的与缺失量测指标对应的量测指标值。

进一步地，所述根据修复后的原始配电网异构数据库输出配电网异构数据，包括：

判断修复后的样本在更新后的判别模型上的判别率是否落在预设的判别区间，若是，则以样本修复后的原始配电网异构数据库作为配电网异构数据库并输出完整的配电网异构数据；否则，根据预设的缩减步长α缩减判别率阈值为c-α，并更新判别模型。

本发明还提出了一种配电网异构数据整合系统，包括：

选取模块，用于从原始配电网异构数据库中选取量测指标齐全的数据样本集；

训练模块，用于通过生成式对抗网络训练所述数据样本集；根据训练所得的新数据样本和原始配电网异构数据库生成扩大数据样本量后的新数据库；

修复模块，用于通过聚类算法对原始配电网异构数据库中有量测指标缺失的数据样本进行修复；

输出模块，用于根据修复后的原始配电网异构数据库输出配电网异构数据。

与最接近的现有技术比，本发明提供的技术方案具有以下有益效果：

本发明提供的配电网异构数据整合方法和系统，根据生成对抗网络对配电网异构数据样本进行训练扩大数据样本量，基于扩大数据样本量和原数据库能够实现对有指标指标缺失配电网异构数据的高效修复。

此外，根据修复后的配电网异构数据进行配电网设备的检测，有益于配电网数据质量管理水平的提高，有益于配电网数据分析效果的改善，助力配电网资产管理水平的精益提高。

附图说明

图1为一种配电网异构数据整合方法流程图；

图2为本发明实施例一种配电网异构数据整合方法流程图。

具体实施方式

为了进一步的阐述本发明的实施方式，下面结合附图对本发明做进一步详细的说明：

【实施例一】

图1为本发明一种配电网异构数据整合方法流程图，如图1所示，本发明提供的一种配电网异构数据整合方法，包括：

步骤S11、从原始配电网异构数据库中选取量测指标齐全的数据样本集；

步骤S12、根据数据样本集进行生成式对抗网络训练，根据训练所得的新数据样本和原始配电网异构数据库生成扩大数据样本量后的新数据库；

步骤S13、根据新数据库，通过聚类算法对原始配电网异构数据库中有量测指标缺失的数据样本进行修复，并根据修复后的原始配电网异构数据库输出配电网异构数据。

上述步骤S11的具体过程可以包括：

从原始配电网异构数据库中选取出各项量测指标均齐全的数据样本集其中，d_i表示原始配电网异构数据库中的数据样本，表示量测指标均齐全的数据样本数量，表示量测指标均齐全的数据样本数量。

上述步骤S12的具体过程可以包括：

步骤S121、根据所述数据样本集对生成模型(Generator Model，G-Model)和判别模型(Discriminator Model，D-Model)进行训练；

步骤S122、因为是首次向生成模型输入数据，因此需要将预先构建的随机向量集输入至训练后的生成模型，得到新数据样本并更新判别模型；

随机向量集z_i∈R^P，R^P为由P维实数组成的随机向量集合，z_i为随机向量集中的随机向量；

步骤S123、将新数据样本输入至更新后的判别模型，判断新数据样本在更新后的判别模型上的判别率是否落在预设判别区间[0.5-c，0.5+c]内，其中c为预设的判别率阈值，若落在判别区间内，表明生成模型G^*收敛，则跳转至步骤S1024；否则跳转至步骤S1025；

步骤S124、将生成模型生成的M个新数据样本加入原始配电网异构数据库D，形成新数据库并转至步骤S13；

步骤S125、将判别模型D的判别误差反向传播至生成模型G^*，将所述数据样本集输入至训练后的生成模型得到新数据样本并更新判别模型，然后返回至步骤S1023重新判断新数据样本在更新后的判别模型上的判别率是否落在预设判别区间。

步骤S121中，可以通过TensorFlow平台训练生成模型G^*，使其满足：

其中，D_gen为生成模型G^*生成的新数据样本；G^*为训练后的生成模型；D(d_i)为判别模型；L为隐层神经元数量；为量测指标齐全的数据样本集中样本数量；β_j为神经网络内第j个神经元外权；为神经网络内第i个神经元内权；z_i∈R^P，R^P为P维由实数组成的随机向量集合，z_i为随机向量；b_j为神经网络内第j个神经元偏置值；f(·)为神经网络激活函数。

步骤S121中，还可以采用各项量测指标均齐全的数据样本集为输入，以0为输出，利用TensorFlow平台训练如下式的判别模型D(d_i)：

其中，D(d_i)为训练后的判别模型，d_i为原始配电网异构数据库中的数据样本，L为隐层神经元数量；为量测指标齐全的数据样本集中样本数量；β_j为神经网络内第j个神经元外权；ω_i为神经网络内第i个神经元内权；b_j为神经网络内第j个神经元偏置值；g(·)为神经网络激活函数。

步骤S122中，将预先构建的随机向量集输入至训练后的生成模型G^*，得到M个新数据样本；以M个数据样本为输入，以1为输出；更新判别模型D。

上述步骤S13中，根据新数据库，通过聚类算法对原始配电网异构数据库中有量测指标缺失的数据样本进行修复的具体过程可以包括：

步骤S131、构建能够覆盖新数据库中所有数据样本点的有限覆盖集，并计算有限覆盖集中各个开覆盖区域的尖峰点；

步骤S132、对每个开覆盖区域中的数据样本点进行再分类，得到新数据库中所有数据样本点的分组结果；

步骤S133、根据新数据库中所有数据样本点的分组结果，对原始配电网异构数据库中含有缺失量测指标的数据样本点进行修复。

上述步骤S131的具体过程可以包括：

步骤S1311、将新数据库中的所有数据样本随机处理为若干个开覆盖区域Coverage_i(d)，每个开覆盖区域中具有一个中心点，所有中心点构成中心点集，中心点集属于新数据库；

步骤S1312、将每个中心点所在开覆盖区域中的数据样本之和除以对应区域中的数据样本个数，得到每个开覆盖区域的尖峰点；

步骤S1313、重复上述步骤，直至确定所有开覆盖区域和所有尖峰点，则输出包括所有开覆盖区域的有限覆盖集Coverage和包括所有尖峰点的尖峰点集Peaks。

将新数据库中的所有数据样本随机处理为若干个开覆盖区域可以采用本领域技术人员公知的现有技术或实施例三中的具体步骤。

中心点属于新数据库，尖峰点可以属于新数据库，也可能不属于新数据库，例如：某一开覆盖区域中的数据样本包括1、2、3和5(数据样本点为新数据库中的数据)，通过步骤S1311得到中心点为3(属于新数据库)，通过步骤S1312得到的尖峰点为2.75(不属于新数据库)；又如：某一开覆盖区域中的数据样本包括2、4和6(数据样本点为新数据库中的数据)通过步骤S1311得到中心点为4(属于新数据库)，通过步骤S1312得到的尖峰点为4(属于新数据库)。

上述步骤S132的具体过程包括：

步骤S1321、以每个尖峰点为中心，依据相角顺时针次序建立如下式的数据样本点子集，每个子集中只包含1个数据样本点；

ClusterSet＝{temp_set_i|temp_set_i∈Coverage，|temp_set_i|＝1，...

...temp_set_i≠temp_set_j，当i≠j}

式中，ClusterSet为子集，temp_set_i、temp_set_j分别为第i、j个数据样本点。

步骤S1322、计算每个子集中的数据样本点与所有尖峰点之间的最短峰值距离，如下式：

D_i＝min{Dist(d_j，Peaks)|d_j∈temp_set_i}；

式中，Dist(d_j，Peaks)为第j个数据样本点与尖峰点集中某一尖峰点之间的最短峰值距离。

步骤S1323、若子集的数量大于1(|ClusterSet|＞1)且两个位置相邻的子集的最短峰值距离的绝对值小于等于聚类阈值(max(|DD_i-DD_i+1|)≤k)，则合并两个子集temp_set_i和temp_set_i+1中的数据样本点为一个新子集，按照数据样本点所对应的相角从小到大对新子集中的数据样本点进行排序，并返回至步骤S1322重新计算新子集中的尖峰点以及新子集中数据样本点与尖峰点的最短峰值距离；

若子集的数量为1或两个位置相邻的子集的最短峰值距离的绝对值大于聚类阈值，则得到新数据库中所有数据样本点的分组结果，即根据子集ClusterSet得到。

上述步骤S133具体过程可以包括：

步骤S1331、计算含有缺失量测指标的数据样本点d和与其在同一子集的数据样本点之间的欧几里得距离，记做并对欧几里得距离进行单位化；

步骤S1332、根据单位化后的欧几里得距离，计算子集中所有量测指标完整的数据样本点的权重；

步骤S1333、根据所述权重计算含有缺失量测指标的数据样本点的缺失量测指标值。

上述步骤S1331中，可以按下式对所述欧几里得距离进行单位化：

上述步骤S1332的具体过程可以包括：

1)根据单位化后的欧几里得距离，可以按下式计算子集中所有量测指标完整的数据样本点的熵值：

h_j＝-p_j ln p_j

式中，h_j表示样本点的熵值；；

2)根据样本点的熵值，可以按下式计算数据样本点的权重：

式中，w_j表示样本点的权重。

上述步骤S1333中，可以按下式计算含有缺失量测指标的数据样本点的缺失量测指标值：

上述步骤S13中，根据修复后的原始配电网异构数据库输出配电网异构数据的具体过程可以包括：

判断修复后的样本在更新后的判别模型上的判别率是否落在预设的判别区间；

若是，则以样本修复后的原始配电网异构数据库作为配电网异构数据库并输出完整的配电网异构数据；否则，根据预设的缩减步长α缩减判别率阈值为c-α，并更新判别模型。

【实施例二】

基于相同的发明构思，本发明还提供了一种配电网异构数据整合系统，可以包括：

其中，训练模块，具体用于：

根据所述数据样本集对生成模型和判别模型进行训练；

将新数据样本输入至更新后的判别模型，判断新数据样本在更新后的判别模型上的判别率是否落在预设判别区间[0.5-c，0.5+c]，若是，则将新数据样本加入原始配电网异构数据库形成新数据库；否则，将判别模型的判别误差反向传播至生成模型，将所述数据样本集输入至训练后的生成模型得到新数据样本并更新判别模型后，重新判断新数据样本在更新后的判别模型上的判别率是否落在预设判别区间；所述c为预设的判别率阈值。

训练模块的具体实施过程同实施例一。

其中，修复模块，具体用于：

修复模块的具体实施过程同实施例一。

其中，输出模块，具体用于：

【实施例三】

本发明在现有配电网数据库整合技术研究的基础上，提出一种基于生成对抗网络的配电网异构数据整合方法，如图2所示。具体包括以下步骤：

步骤1.读取配电网异构数据，建立数据库，并初始化参数，具体包括：

建立的数据库

初始化判别率阈值c＝0.1，缩减步长a＝0.0025；设定神经网络激活函数g和f为Sigmodal函数；初始化峰值聚类算法中的距离阈值R₁＝0.15，R₂＝0.15与聚类阈值k＝3；初始化中心点集Centre＝D；初始化有限覆盖尖峰点集Temp_Peaks＝{}。

步骤1为非必要步骤，可以在执行步骤2-5的过程中直接调用步骤1中预先设置好的参数。

步骤2.训练生成模型(Generator Model，G-Model)和判别模型(DiscriminatorModel，D-Model)，具体包括：

从数据库中选取出各项量测指标均齐全的子样本集合其中，表示该子样本集合的样本数量，子样本集合进行生成式对抗网络训练，获得生成模型与判别模型。

步骤2.1采用各项量测指标均齐全的子样本集合为输入，以0为输出，利用TensorFlow平台初始化判别模型其中，L为隐层神经元数量；β_j∈R为神经网络内第j个神经元外权；ω_i∈R^K为神经网络内第i个神经元内权；b_j∈R为神经网络内第j个神经元偏置值；g(·)：R→R为神经网络激活函数。

步骤2.2利用TensorFlow平台训练生成模型G^*，使其满足：

其中，D_gen为生成模型G^*新生成数据样本；L为隐层神经元数量；β_j∈R^K为神经网络内第j个神经元外权；为神经网络内第i个神经元内权；b_j∈R为神经网络内第j个神经元偏置值；f(·)：R→R为神经网络激活函数。进而，训练所得的生成模型G^*可由随机向量集合生成M个数据样本。

步骤2.3采用各项量测指标均齐全的子样本集合为输入，以0为输出；采用生成模型G^*生成M个数据样本为输入，以1为输出；训练学习并更新判别模型D。

步骤2.4判断生成模型G^*所生成样本在判别模型D上的判别率是否落在在[0.5-c，0.5+c]之中。若条件成立，表明生成模型G^*收敛，将生成的M个数据样本混入原始数据库D，记做数据库转入步骤3；反之，将判别模型D的判别误差反向传播，返回步骤2.2。

步骤3.建立有限覆盖集，采用峰值聚类算法对含有缺失信息的样本进行修复，具体包括：

步骤3.1采用一种计算成本极小的近似计算方法找到中心点周围区域的所有数据点，形成一个开覆盖。同理，寻找下一个开覆盖区域，直到开覆盖集合完成对全体数据样本构成的离散点集的覆盖为止。

步骤3.1.1：若中心点集不为空由中心点集中随机选取一个中心点d∈Centre；反之，前往步骤3.1.4。

步骤3.1.2：通过下式计算第i个开覆盖区域Coverage_i(d)：

Coverage_i(d)＝{d′∈DD|Dist(d，d′)≤R₁}

更新Temp_Peaks←{Temp_Peaks，d}，i←i+1。

步骤3.1.3：更新中心点集Centre←C_Centre{d′|Dist(d，d′)≤R₂}；计算尖峰点集Temp_Peaks_i(d)＝sum(d′|d′∈Coverage_i(d))/|Coverage_i(d)|，其中，|·|表示集合点元素数量；返回步骤3.1.1。

R₁、R₂均为聚类算法中预设的距离阈值，R₁和R₂均可以取值为0.15；

步骤3.1.4：返回Coverage_i(d)，Temp_Peaks_i(d)。

输出有限覆盖集Coverage，尖峰点集Peaks。

步骤3.2对每个开覆盖内再分类并进行密度峰峰值距离计算，若相角顺序相近的子类峰值距离差值的绝对值大于阈值k或者总子聚类类数为1，则聚类终止。假设有限覆盖集Coverage_i(d)中包含n_i个数据样本点d_j，计算密度峰峰值距离(即数据样本点与尖峰点的距离)Dist(d_j，Temp_Peaks_i(d))；以尖峰点为中心依据相角顺序构造n_i个类，且每个类仅包含1个样本点；若相角顺序相近的子类峰值距离差值的绝对值小于等于阈值k则将两类合并，计算新类的尖峰点，并重新计算密度峰峰值距离。按照上述操作，直至相角顺序相近的子类峰值距离差值的绝对值大于阈值k或者总子聚类类数为1，则迭代停止，输出聚类结果。

步骤3.2.1：依据相角顺时针次序建立子集：

步骤3.2.2：计算第j个数据样本点与尖峰点集中某一尖峰点之间的最短峰值距离D_i＝min{Dist(d_j，Peaks)|d_j∈temp_set_i}；

步骤3.2.3：若|ClusterSet|＞1且max(|DD_i-DD_i+1|)≤k，则合并temp_set_i与temp_set_i+1，对子集重新排序，返回步骤3.2.2；反之，前往步骤3.2.4；

步骤3.2.4：得到再分类后的所有子集ClusterSet。

步骤3.3对数据进行峰值覆盖聚类后，利用与缺失量测指标的对象在同一个簇当中的数据对象的相应量测指标的加权值作为该量测指标的预测值。本课题引入信息论中熵值(Entropy)的概念，通过数据对象间的相似度来确定加权系数。对于任意缺失量测指标的数据样本点d，其所在的群组(又称簇)Coverage_i(d)中包含n_i个数据样本点基于聚类与信息熵的不完整数据填充算法主要步骤如下所示：

步骤3.3.1：计算数据样本点d与所在的群组数据样本点之间的欧几里得距离作为相似度，记做并将按式(3-3)进行单位化：

步骤3.3.2：计算每个完整数据对象的熵值：

h_j＝-p_j ln p_j (3-2)

计算每个对象的权重：

计算缺失量测指标的数据样本点d的缺失量测指标值：

其中，x_j表示d所在的群组数据样本点的对应量测指标值，i＝1，2，...，n_i。记修复后的原始数据库为

步骤4.判断修复样本是否能够通过判别模型的识别验证。若未能通过，则依据缩减步长α缩减判别率阈值c为c-α，并返回步骤2.3；反之，前往步骤5。

步骤5.输出整合后的配电网数据库

【实施例四】

针对配电设备运行状态监测数据整合问题开展了数值仿真实验。所有试验均在Matlab 2012平台下进行，硬件设备参数为：CPUCore^TM i7 2.30GHz，RAM 8.00GB，Win8环境。采用N-Gram算法与基于反馈学习机制(Feedback Learning Mechanism)的聚类方法作为对照组，从修复精度以及修复时间两个方面来评价算法的性能表现。所采用数据为从配电管理SCADA(Supervisory Control And Data Acquisition)系统与馈线自动化FTU(Feeder Terminal Unit)系统各提取了某地区配电网中1574条对配电设备运行状态监测的量测数据。其中，量测数据主要包含箱式变压器的渗漏油、接地电阻以及油标油位等19项配用电常用信息，故障类别为3(含正常工作状态)。

表1 算法性能表现对比

由表1可知，基于生成对抗网络的配电网异构数据整合方法在修复时间稍逊于N-Gram算法，但在修复精度方面远胜于两个对照组。

具体实施时，基于生成对抗网络的配电网异构数据整合方法可行、有效，适用于配电网设备检测大数据的数据管理与分析业务，容易得到广大的电力系统规划、运行、检修相关工作人员的认可。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用于说明本发明的技术方案而非对其保护范围的限制，尽管参照上述实施例对本申请进行了详细的说明，所属领域的普通技术人员应当理解：本领域技术人员阅读本申请后依然可对申请的具体实施方式进行种种变更、修改或者等同替换，但这些变更、修改或者等同替换，均在申请待批的权利要求保护范围之内。

Claims

1.一种配电网异构数据整合方法，其特征在于，包括：

2.如权利要求1所述的配电网异构数据整合方法，其特征在于，所述根据所述数据样本集进行生成式对抗网络训练，根据训练所得的新数据样本和原始配电网异构数据库生成扩大数据样本量后的新数据库，包括：

根据所述数据样本集对生成模型和判别模型进行训练；

所述c为预设的判别率阈值。

3.如权利要求2所述的配电网异构数据整合方法，其特征在于，所述生成模型如下式所示：

4.如权利要求2所述的配电网异构数据整合方法，其特征在于，所述判别模型如下所示：

5.如权利要求1所述的配电网异构数据整合方法，其特征在于，所述根据新数据库，通过聚类算法对原始配电网异构数据库中有量测指标缺失的数据样本进行修复，包括：

6.如权利要求5所述的配电网异构数据整合方法，其特征在于，构建能够覆盖新数据库中全体数据样本点的有限覆盖集，并计算有限覆盖集中各个开覆盖区域的尖峰点，包括：

将新数据库中的所有数据样本随机处理为若干个开覆盖区域，每个开覆盖区域中具有一个中心点；所有开覆盖区域构成有限覆盖集；

根据每个中心点所在开覆盖区域中的数据样本和对应区域中的数据样本个数，得到每个开覆盖区域的尖峰点；所有尖峰点的集合构成尖峰点集。

7.如权利要求5所述的配电网异构数据整合方法，其特征在于，所述对每个开覆盖区域中的数据样本点进行再分类，得到新数据库中所有数据样本点的分组结果，包括：

8.如权利要求5所述的配电网异构数据整合方法，其特征在于，所述新数据库中所有数据样本点的分组结果，对原始配电网异构数据库中含有缺失量测指标的数据样本点进行修复，包括：

9.如权利要求8所述的配电网异构数据整合方法，其特征在于，按下式对所述欧几里得距离进行单位化：

式中，s_j表示含有缺失量测指标的样本点和与其在同一子集的样本点j之间的欧几里得距离，p_j表示欧几里得距离单位化后的值，n表示含有缺失量测指标的样本点所在子集的样本点个数。

10.如权利要求8所述的配电网异构数据整合方法，其特征在于，根据单位化后的欧几里得距离，计算子集中所有量测指标完整的数据样本点的权重，包括：

根据样本点的熵值计算数据样本点的权重。

11.如权利要求10所述的配电网异构数据整合方法，其特征在于，按下式计算子集中每个量测指标完整的数据样本点的熵值：

h_j＝-p_jlnp_j

式中，h_j表示样本点的熵值。

12.如权利要求11所述的配电网异构数据整合方法，其特征在于，按下式计算数据样本点的权重：

式中，w_j表示样本点的权重。

13.如权利要求12所述的配电网异构数据整合方法，其特征在于，按下式计算含有缺失量测指标的数据样本点的缺失量测指标值：

14.如权利要求1所述的配电网异构数据整合方法，其特征在于，所述根据修复后的原始配电网异构数据库输出配电网异构数据，包括：

15.一种配电网异构数据整合系统，其特征在于，包括：