CN112988728A

CN112988728A - 一种配电网数据清洗方法及装置

Info

Publication number: CN112988728A
Application number: CN202110324405.0A
Authority: CN
Inventors: 覃日升; 郭成; 李胜男; 段锐敏; 姜訸
Original assignee: Electric Power Research Institute of Yunnan Power Grid Co Ltd
Current assignee: Electric Power Research Institute of Yunnan Power Grid Co Ltd
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2021-06-18

Abstract

本申请提供了一种配电网数据清洗方法及装置。本申请提供的方法包括：对待处理区域内的电配电网数据对应的采集时刻进行排序，删除重复的采集时刻；如果任一采集时刻对应的配电网数据空缺，则对配电网数据进行填充处理；将填充处理后的配电网数据输入多个预先确定好的异常识别模型中，确定所有异常识别模型对应的识别结果；根据所有识别结果中占比最高的识别结果，确定填充处理后的配电网数据中的异常数据；如果异常数据与配电网数据的比值低于预设比值，则根据异常采集时刻前的采集时刻对应的配电网数据，确定预估准确数据，并将准确数据替换异常数据。本申请提供的方法提高了配电网数据清洗的准确性和可靠性。

Description

一种配电网数据清洗方法及装置

技术领域

本申请涉及电网技术领域，特别涉及一种配电网数据清洗方法及装置。

背景技术

随着用电负荷的增长，电网规模也不断扩大，为了资源浪费，统筹规划整个电网是十分有必要的。而对电网中的数据进行分析，并利用电压数据进行综合统筹决策。因此，数据的质量直接决定了决策的质量。

但是，通讯故障、测量元件故障，受到复杂电磁环境的干扰等原因都会造成数据的异常、噪声以及丢失等问题。这些带有瑕疵的数据无疑会影响决策的精确度。为了解决以上问题，需要对数据进行清洗，排除数据中明显有问题的数据，并对数据重新进行整理。目前，在对电网的数据进行清洗的过程中，往往采用固定的方法，导致对数据进行清洗的精确度不高。

基于此，目前亟需一种配电网数据清洗方法，用于解决现有技术中对配电网中的数据进行清洗，精确度不高的问题。

发明内容

本申请提供了一种配电网数据清洗方法及装置，可用于解决在现有技术中对配电网中的数据进行清洗，精确度不高的问题。

第一方面，本申请提供了一种配电网数据清洗方法，所述方法包括：

对待处理区域内的电配电网数据对应的采集时刻进行排序，删除重复的采集时刻；

如果任一采集时刻对应的配电网数据空缺，则对所述配电网数据进行填充处理；

将填充处理后的配电网数据输入多个预先确定好的异常识别模型中，确定所有异常识别模型对应的识别结果；一个异常识别模型对应一个识别结果；

根据所有识别结果中占比最高的识别结果，确定所述填充处理后的配电网数据中的异常数据；

如果所述异常数据与配电网数据的比值低于预设比值，则根据异常采集时刻前的采集时刻对应的配电网数据，确定预估准确数据，并将所述准确数据替换所述异常数据；所述异常采样时刻为异常数据对应的采样时刻。

结合第一方面，在第一方面的一种可实现方式中，对所述配电网数据进行填充处理，包括：

利用预设的标记数据，填充空缺的配电网数据。

结合第一方面，在第一方面的一种可实现方式中，将填充处理后的配电网数据输入多个预先确定好的异常识别模型中，确定所有异常识别模型对应的识别结果，包括：

将填充处理后的配电网数据输入第一异常识别模型中，获取所述第一异常识别模型通过Kmeans算法确定的第一识别结果；

将填充处理后的配电网数据输入第二异常识别模型中，获取所述第二异常识别模型通过Isolation Forest算法确定的第二识别结果；

将填充处理后的配电网数据输入第三异常识别模型中，获取所述第三异常识别模型通过Gaussian Mixture算法确定的第三识别结果。

结合第一方面，在第一方面的一种可实现方式中，所述方法还包括：如果所述异常数据与配电网数据的比值大于或等于预设比值，则根据所述异常采集时刻前的采集时刻对应的配电网数据以及所述异常采集时刻后的采集时刻对应的配电网数据以及，确定预估准确数据，并将所述准确数据替换所述异常数据。

结合第一方面，在第一方面的一种可实现方式中，所述配电网数据包括所述待处理区域内每一变压器对应的A相母线对地电压、B相母线对地电压、C相母线对地电压以及变压器中性点对地电压。

第二方面，本申请提供了一种配电网数据清洗装置，所述装置包括：

删除模块，用于对待处理区域内的电配电网数据对应的采集时刻进行排序，删除重复的采集时刻；

填充模块，用于如果任一采集时刻对应的配电网数据空缺，则对所述配电网数据进行填充处理；

确定模块，用于将填充处理后的配电网数据输入多个预先确定好的异常识别模型中，确定所有异常识别模型对应的识别结果；一个异常识别模型对应一个识别结果；以及根据所有识别结果中占比最高的识别结果，确定所述填充处理后的配电网数据中的异常数据；以及，如果所述异常数据与配电网数据的比值低于预设比值，则根据异常采集时刻前的采集时刻对应的配电网数据，确定预估准确数据，并将所述准确数据替换所述异常数据；所述异常采样时刻为异常数据对应的采样时刻。

结合第二方面，在第二方面的一种可实现方式中，所述填充模块，具体用于：

利用预设的标记数据，填充空缺的配电网数据。

结合第二方面，在第二方面的一种可实现方式中，所述确定模块，具体用于：

结合第二方面，在第二方面的一种可实现方式中，所述确定模块还用于：如果所述异常数据与配电网数据的比值大于或等于预设比值，则根据所述异常采集时刻前的采集时刻对应的配电网数据以及所述异常采集时刻后的采集时刻对应的配电网数据以及，确定预估准确数据，并将所述准确数据替换所述异常数据。

结合第二方面，在第二方面的一种可实现方式中，所述配电网数据包括所述待处理区域内每一变压器对应的A相母线对地电压、B相母线对地电压、C相母线对地电压以及变压器中性点对地电压。

本申请提供的方法，首先将重复采样时间进行删除，并对明显的空缺数据进行标记式填补，大大减少了对明显错误或者空缺数据的处理时间。本申请提供的方法，采用多种异常识别模型，通过占比高的识别结果确定配电网数据中的异常数据，提高了对异常数据的识别率，本申请提供的方法，提高了对配电网数据清洗的效率和准确率。

附图说明

图1为本申请实施例提供的一种配电网数据清洗方法的流程示意图；

图2为本申请实施例提供的一种清洗效果示意图；

图3为本申请实施例提供的一种配电网数据清洗装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

需要说明的是，在执行本申请实施例提供的方法之前，首先需要判断采集获取的配电网数据为数据流还是批量数据，如果是批量数据则继续执行本申请提供的配电网数据清洗方法，如果采集获取的配电网数据为数据流，则使用kafka代理下的端口输入，实现数据的读取操作，将数据先进行储存。

如图1所示，为本申请实施例提供的一种配电网数据清洗方法的流程示意图。本申请实施例提供的方法包括以下步骤：

步骤S101，对待处理区域内的电配电网数据对应的采集时刻进行排序，删除重复的采集时刻。

本申请实施例中，待处理区域内有多个变压器。每个变压器对应多个配电网数据。

具体的，配电网数据包括待处理区域内每一变压器对应的A相母线对地电压、B相母线对地电压、C相母线对地电压以及变压器中性点对地电压。

在执行本申请实施例提供的方法的过程中，有多个采集时刻，每个采集时刻对应多个配电网数据。

需要说明的是，本申请实施例提供的方法是基于Hadoop生态实现的，但是并不限于Hadoop生态，任何可以实现本申请实施例提供的方法的环境，都适用本申请提供的方法。

其中，由于数据的传输延迟，以及配电网数据采集现场的电磁干扰等原因，可能导致采集时刻重复，为了避免对同一配电网数据进行多次重复处理，需要删除其中的重复的采样时刻。

步骤S102，判断每一采集时刻对应的配电网数据是否有空缺，如果任一采集时刻对应的配电网数据空缺，则执行步骤S103，否则，执行步骤S104。

具体的，针对每一变压器，在每一个采样时刻，都对应有A相母线对地电压、B相母线对地电压、C相母线对地电压以及变压器中性点对地电压，这四类配电网数据。

步骤S103，对配电网数据进行填充处理。

针对任意一个采样时刻，如果四类配电网数据中任意一类数据出现空缺，则利用预设的标记数据，填充空缺的配电网数据。

本申请实施例中，可以采用多种预设标记数据，例如将“-2”作为预设标记数据。预设标记数据起到标记此配电网数据为空缺数据，在后续的数据处理过程中，便于检测到对应的空缺数据即可。

步骤S104，将填充处理后的配电网数据输入多个预先确定好的异常识别模型中，获取所有异常识别模型对应的识别结果。

一个异常识别模型对应一个识别结果。

本申请实施例，采用多种方法判断配电网数据是否为异常数据。

具体的，将填充处理后的配电网数据输入第一异常识别模型中，获取第一异常识别模型通过Kmeans算法确定的第一识别结果。

将填充处理后的配电网数据输入第二异常识别模型中，获取第二异常识别模型通过Isolation Forest算法确定的第二识别结果。

将填充处理后的配电网数据输入第三异常识别模型中，获取第三异常识别模型通过Gaussian Mixture算法确定的第三识别结果。

其中，利用第一异常识别模型确定第一识别结果时，在利用Kmeans算法确定的第一识别结果之前，需要对配电网数据进行规范化处理，具体的，采用以下方法进行规范化处理：

公式(1)中，zj是第j个规范化配电网数据；xj是第j个未规范化配电网数据；μi是第i列所有配电网数据的均值；σi是第i列所有配电网数据的标准差；M是所有列的集合；Ci是第i列所有元素的集合。

利用Kmeans算法确定的第一识别结果时，K的选取，按照常见馈线故障类型进行选择。

利用Isolation Forest算法确定的第二识别结果时，孤立树n的取值为256。

利用Gaussian Mixture算法确定的第三识别结果时，聚类数目为常见馈线故障类型的数目。

步骤S105，根据所有识别结果中占比最高的识别结果，确定填充处理后的配电网数据中的异常数据。

本申请至少提供了三种异常识别模型，即对于任意一个配电网数据，例如在2020年12月20日13点采集到的编号为001的变压器的A相母线对地电压会经过三个异常识别模型的判断。

判断结果采取投票规则，即假如第一识别结果判断此数据为正常数据，第二识别结果判断此数据为异常数据，第三识别结果判断此数据为正常数据，则对于2020年12月20日13点采集到的编号为001的变压器的A相母线对地电压，这个配电网数据而言，正常数据在所有是被结果中占比最高，因此此数据为正常数据。

通过以上的投票规则，采用多种方法对配电网数据进行判定，可以提高对异常数据的识别率，提高清洗精确度。

步骤S106，判断异常数据与配电网数据的比值是否低于预设比值，如果异常数据与配电网数据的比值低于预设比值，则执行步骤S107，否则，执行步骤S108。

本申请实施例中，预设比值可以根据实际需要进行调整，一种可行的预设比值为百分之二十。具体的，如果异常数据占配电网数据的比值低于百分之二十，则说明异常数据的比例并不高。

步骤S107，根据异常采集时刻前的采集时刻对应的配电网数据，确定预估准确数据，并将准确数据替换异常数据。

异常采样时刻为异常数据对应的采样时刻。

实际上，步骤S107即采用历史数据回归的方法，确定预估准确数据。具体的，采用以下方法执行：

y＝Az+B 公式(2)

公式(2)中，y是预估准确数据；z是配电网数据；A线性回归系数之一；B分别为线性回归系数之二。

为了方便理解步骤S107，下面通过一个例子进行阐述。例如某日13点的编号为003的变压器的B相母线对地电压为异常数据，则根据某日13点之前，多个编号为003的变压器的B相母线对地电压，确定正常的13点编号为003的变压器的B相母线对地电压。

步骤S108，根据异常采集时刻前的采集时刻对应的配电网数据以及异常采集时刻后的采集时刻对应的配电网数据以及，确定预估准确数据，并将准确数据替换异常数据。

需要说明的是，步骤S108即采用数据预测的方法确定预估准确数据。

在执行步骤S107或步骤S108之后，均需要对替换后的配电网数据利用经验模态分解方法对配电网数据进行去除噪声处理。

如图2所示，为本申请实施例提供的一种清洗效果示意图。根据图2可以看到，清洗后的配电网数据去除了异常数据，并且减少了数据的波动性，为下一步数据的分析排除了异常数据的干扰。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图3示例性示出了本申请实施例提供的一种配电网数据清洗装置的结构示意图。如图3所示，该装置具有实现上述配电网数据清洗的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以包括：删除模块301、填充模块302以及确定模块303。

删除模块301，用于对待处理区域内的电配电网数据对应的采集时刻进行排序，删除重复的采集时刻。

填充模块302，用于如果任一采集时刻对应的配电网数据空缺，则对配电网数据进行填充处理。

确定模块303，用于将填充处理后的配电网数据输入多个预先确定好的异常识别模型中，确定所有异常识别模型对应的识别结果。一个异常识别模型对应一个识别结果。以及根据所有识别结果中占比最高的识别结果，确定填充处理后的配电网数据中的异常数据。以及，如果异常数据与配电网数据的比值低于预设比值，则根据异常采集时刻前的采集时刻对应的配电网数据，确定预估准确数据，并将准确数据替换异常数据。异常采样时刻为异常数据对应的采样时刻。

可选的，填充模块302，具体用于：

利用预设的标记数据，填充空缺的配电网数据。

可选的，确定模块303，具体用于：

将填充处理后的配电网数据输入第一异常识别模型中，获取第一异常识别模型通过Kmeans算法确定的第一识别结果。

可选的，确定模块303还用于：如果异常数据与配电网数据的比值大于或等于预设比值，则根据异常采集时刻前的采集时刻对应的配电网数据以及异常采集时刻后的采集时刻对应的配电网数据以及，确定预估准确数据，并将准确数据替换异常数据。

可选的，配电网数据包括待处理区域内每一变压器对应的A相母线对地电压、B相母线对地电压、C相母线对地电压以及变压器中性点对地电压。

本申请提供的装置，首先将重复采样时间进行删除，并对明显的空缺数据进行标记式填补，大大减少了对明显错误或者空缺数据的处理时间。本申请提供的方法，采用多种异常识别模型，通过占比高的识别结果确定配电网数据中的异常数据，提高了对异常数据的识别率，本申请提供的方法，提高了对配电网数据清洗的效率和准确率。

本发明可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种配电网数据清洗方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，对所述配电网数据进行填充处理，包括：

利用预设的标记数据，填充空缺的配电网数据。

3.根据权利要求1所述的方法，其特征在于，将填充处理后的配电网数据输入多个预先确定好的异常识别模型中，确定所有异常识别模型对应的识别结果，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：如果所述异常数据与配电网数据的比值大于或等于预设比值，则根据所述异常采集时刻前的采集时刻对应的配电网数据以及所述异常采集时刻后的采集时刻对应的配电网数据以及，确定预估准确数据，并将所述准确数据替换所述异常数据。

5.根据权利要求1所述的方法，其特征在于，所述配电网数据包括所述待处理区域内每一变压器对应的A相母线对地电压、B相母线对地电压、C相母线对地电压以及变压器中性点对地电压。

6.一种配电网数据清洗装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述填充模块，具体用于：

利用预设的标记数据，填充空缺的配电网数据。

8.根据权利要求6所述的装置，其特征在于，所述确定模块，具体用于：

9.根据权利要求6所述的装置，其特征在于，所述确定模块还用于：如果所述异常数据与配电网数据的比值大于或等于预设比值，则根据所述异常采集时刻前的采集时刻对应的配电网数据以及所述异常采集时刻后的采集时刻对应的配电网数据以及，确定预估准确数据，并将所述准确数据替换所述异常数据。

10.根据权利要求6所述的装置，其特征在于，所述配电网数据包括所述待处理区域内每一变压器对应的A相母线对地电压、B相母线对地电压、C相母线对地电压以及变压器中性点对地电压。