CN114925053A

CN114925053A - 一种供热数据的预处理方法及装置

Info

Publication number: CN114925053A
Application number: CN202210547044.0A
Authority: CN
Inventors: 赵玉坤; 王晓儒; 贾永丽; 田冉; 宋军辉
Original assignee: Hebei Gongda Green Energy Technology Corp ltd
Current assignee: Hebei Gongda Green Energy Technology Corp ltd
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-08-19

Abstract

本发明提供一种供热数据的预处理方法及装置。该方法包括：获取供热系统中多个数据构成的供热数据集合；对供热数据集合中的多个数据进行特征分析，得到供热数据集合的数据特征，数据特征包括全距系数、标准差系数和偏态系数；基于数据特征，以及各数据特征在各预处理算法中对应的权重值，确定目标预处理算法；预处理算法包括多倍标准差法、拉依达准则法和四分位数法；其中，同一数据特征在不同预处理算法中对应的权重值不同；基于目标预处理算法，清洗供热数据集合中的异常数据，确定预处理后的供热数据集合。本发明能够提高供热数据的处理分析结果的合理性。

Description

一种供热数据的预处理方法及装置

技术领域

本发明涉及市政供热技术领域，尤其涉及一种供热数据的预处理方法及装置。

背景技术

城市集中供热系统是北方城市重要的基础设施，冬季能耗巨大，随着国家对节能降耗、大气雾霾治理、“双碳目标”等政策的实施，促进了城市集中供热系统信息化、自动化、智能化升级改造。

供热数据的处理分析是供热系统调控分析的重要过程，在该过程中，经常会出现个别数据值偏离预期，或严重偏离设备采集数据的中位数/平均值的情况，如果将这些异常数据与正常数据一起处理分析，可能会影响实验结果的正确性。如果对这些异常数据进行简单的区分，例如，大于或小于某一固定值直接删除，那么会对数据的处理分析结果产生影响，导致处理分析结果不合理。

发明内容

本发明提供了一种供热数据的预处理方法及装置，能够提高供热数据的处理分析结果的合理性。

第一方面，本发明提供了一种供热数据的预处理方法，包括：获取供热系统中多个数据构成的供热数据集合；对供热数据集合中的多个数据进行特征分析，得到供热数据集合的数据特征，数据特征包括全距系数、标准差系数和偏态系数；基于数据特征，以及各数据特征在各预处理算法中对应的权重值，确定目标预处理算法；预处理算法包括多倍标准差法、拉依达准则法和四分位数法；其中，同一数据特征在不同预处理算法中对应的权重值不同；基于目标预处理算法，清洗供热数据集合中的异常数据，确定预处理后的供热数据集合。

本发明提供一种供热数据的预处理方法，通过对供热数据集合进行特征分析，确定了全距系数、标准差系数和偏态系数等数据特征，由于全距系数、标准差系数和偏态系数等数据特征，可以表征供热数据集合的离散程度和偏倚程度，因此，本发明实施例可以基于表征供热数据集合的离散程度和偏倚程度的数据特征，在各预处理算法中，确定与其相匹配的目标预处理算法。从而使得供热数据集合的预处理过程考虑了供热数据集合的数据特征，即离散程度和偏倚程度，进而提高了供热数据的处理分析结果的合理性。

在一种可能的实现方式中，对供热数据集合中的多个数据进行特征分析，得到供热数据集合的数据特征，包括：确定供热数据集合最大值与最小值的差值为全距；将全距与供热数据集合中各数据的算数平均值的比值确定为全距系数；将供热数据集合的标准差与供热数据集合中各数据的算数平均值的比值确定为标准差系数；将供热数据集合的三阶中心距与供热数据集合的标准差的比值确定为偏态系数。

在一种可能的实现方式中，基于数据特征，以及各数据特征在各预处理算法中对应的权重值，确定目标预处理算法，包括：基于数据特征中各系数的取值，确定数据特征的数据特征值；基于数据特征的数据特征值，以及各数据特征在各预处理算法中对应的权重值，进行加权求和，得到各预处理算法的契合值，契合值用于表征各预处理算法与供热数据集合的契合程度；将契合值最高的预处理算法确定为目标预处理算法。

在一种可能的实现方式中，基于目标预处理算法，清洗供热数据集合中的异常数据，确定预处理后的供热数据集合，包括：基于目标预处理算法，以及供热数据集合，确定供热数据集合中异常数据的数量；基于异常数据的数量占供热数据集合中数据总数量的比例，确定供热数据集合的清洗方式；清洗方式包括直接删除异常数据、常量填充异常数据、均值填充异常数据或中位数填充异常数据；基于目标预处理算法和清洗方式，确定预处理后的供热数据集合。

在一种可能的实现方式中，基于异常数据的数量占供热数据集合中数据总数量的比例，确定供热数据集合的清洗方式，包括：若比例小于第一比例，则确定清洗方式为直接删除异常数据；若比例大于等于第一比例，且小于等于第二比例，则确定清洗方式为常量填充异常数据；若供热数据集合满足正态分布，且比例大于等于第二比例，则确定清洗方式为均值填充异常数据；供热数据集合满足正态分布表示标准差系数大于第一设定系数；若供热数据集合满足偏态分布，且比例大于等于第三比例，则确定清洗方式为中位数填充异常数据，供热数据集合满足偏态分布表示偏态系数大于第二设定系数；其中，第一比例小于第二比例，第二比例小于第三比例。

在一种可能的实现方式中，基于目标预处理算法，清洗供热数据集合中的异常数据，确定预处理后的供热数据集合，还包括：若目标预处理算法为多倍标准差法，则计算供热数据集合各数据的取值与各数据的算数平均值之间的差值的绝对值；将差值的绝对值大于k倍的标准差的数据，确定为供热数据集合的正常数据；其中，k为大于等于5的正整数。若目标预处理算法为拉依达准则法，则计算供热数据集合各数据的取值与各数据的算数平均值之间的差值的绝对值；将差值的绝对值小于等于m倍的标准差的数据，确定为供热数据集合的正常数据；其中m为大于等于3的正整数；若目标预处理算法为四分位数法，则将供热数据集合的各数据按从大到小的顺序进行排序，并将排序后的各数据等分为四部分，得到供热数据集合的上四分位数、中位数和下四分位数；将上四分位数和下四分位数之间的差值，确定为四分位距；将上四分位数与四分位距的1.5倍之和，确定为正常值区间的上边界；将下四分位数与四分位距的1.5倍之差，确定为正常值区间的下边界；基于正常值区间的上边界和下边界，确定为供热数据集合的正常数据。

在一种可能的实现方式中，供热数据集合包括以下其中一项：热用户的室温数据、供热系统中换热站机组的供水温度数据、回水温度数据、供水压力数据以及回水压力数据。

第二方面，本发明实施例提供了一种供热数据的预处理装置，包括：

通信模块，用于获取供热系统中多个数据构成的供热数据集合；

处理模块，用于对供热数据集合中的多个数据进行特征分析，得到供热数据集合的数据特征，数据特征包括全距系数、标准差系数和偏态系数；

处理模块，还用于基于数据特征，以及各数据特征在各预处理算法中对应的权重值，确定目标预处理算法；预处理算法包括多倍标准差法、拉依达准则法和四分位数法；其中，同一数据特征在不同预处理算法中对应的权重值不同；

处理模块，还用于基于目标预处理算法，清洗供热数据集合中的异常数据，确定预处理后的供热数据集合。

在一种可能的实现方式中，处理模块，具体用于确定供热数据集合最大值与最小值的差值为全距；将全距与供热数据集合中各数据的算数平均值的比值确定为全距系数；将供热数据集合的标准差与供热数据集合中各数据的算数平均值的比值确定为标准差系数；将供热数据集合的三阶中心距与供热数据集合的标准差的比值确定为偏态系数。

在一种可能的实现方式中，处理模块，具体用于基于数据特征中各系数的取值，确定数据特征的数据特征值；基于数据特征的数据特征值，以及各数据特征在各预处理算法中对应的权重值，进行加权求和，得到各预处理算法的契合值，契合值用于表征各预处理算法与供热数据集合的契合程度；将契合值最高的预处理算法确定为目标预处理算法。

在一种可能的实现方式中，处理模块，具体用于基于目标预处理算法，以及供热数据集合，确定供热数据集合中异常数据的数量；基于异常数据的数量占供热数据集合中数据总数量的比例，确定供热数据集合的清洗方式；清洗方式包括直接删除异常数据、常量填充异常数据、均值填充异常数据或中位数填充异常数据；基于目标预处理算法和清洗方式，确定预处理后的供热数据集合。

在一种可能的实现方式中，处理模块，具体用于若比例小于第一比例，则确定清洗方式为直接删除异常数据；若比例大于等于第一比例，且小于等于第二比例，则确定清洗方式为常量填充异常数据；若供热数据集合满足正态分布，且比例大于等于第二比例，则确定清洗方式为均值填充异常数据；供热数据集合满足正态分布表示标准差系数大于第一设定系数；若供热数据集合满足偏态分布，且比例大于等于第三比例，则确定清洗方式为中位数填充异常数据，供热数据集合满足偏态分布表示偏态系数大于第二设定系数；其中，第一比例小于第二比例，第二比例小于第三比例。

在一种可能的实现方式中，处理模块，具体用于若目标预处理算法为多倍标准差法，则计算供热数据集合各数据的取值与各数据的算数平均值之间的差值的绝对值；将差值的绝对值大于k倍的标准差的数据，确定为供热数据集合的正常数据；其中，k为大于等于5的正整数。若目标预处理算法为拉依达准则法，则计算供热数据集合各数据的取值与各数据的算数平均值之间的差值的绝对值；将差值的绝对值小于等于m倍的标准差的数据，确定为供热数据集合的正常数据；其中m为大于等于3的正整数；若目标预处理算法为四分位数法，则将供热数据集合的各数据按从大到小的顺序进行排序，并将排序后的各数据等分为四部分，得到供热数据集合的上四分位数、中位数和下四分位数；将上四分位数和下四分位数之间的差值，确定为四分位距；将上四分位数与四分位距的1.5倍之和，确定为正常值区间的上边界；将下四分位数与四分位距的1.5倍之差，确定为正常值区间的下边界；基于正常值区间的上边界和下边界，确定为供热数据集合的正常数据。

第三方面，本发明实施例提供了一种电子设备，其特征在于，所述电子设备包括存储器和处理器，该存储器存储有计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序执行如上述第一方面以及第一方面中任一种可能的实现方式所述方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上述第一方面以及第一方面中任一种可能的实现方式所述方法的步骤。

上述第二方面至第四方面中任一种实现方式所带来的技术效果可以参见第一方面对应实现方式所带来的技术效果，此处不再赘述。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种供热数据的预处理方法的流程示意图；

图2是本发明实施例提供的另一种供热数据的预处理方法的流程示意图；

图3是本发明实施例提供的另一种供热数据的预处理方法的流程示意图；

图4是本发明实施例提供的另一种供热数据的预处理方法的流程示意图；

图5是本发明实施例提供的一种供热数据的预处理装置的结构示意图；

图6是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

在本发明的描述中，除非另有说明，“/”表示“或”的意思，例如，A/B可以表示A或B。本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。此外，“至少一个”“多个”是指两个或两个以上。“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念，便于理解。

此外，本申请的描述中所提到的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块，而是可选的还包括其他没有列出的步骤或模块，或可选的还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明的附图通过具体实施例来进行说明。

如背景技术所述，目前存在供热数据中异常数据导致处理分析结果不合理的问题。

为解决上述技术问题，如图1所示，本发明实施例提供了一种供热数据的预处理方法，执行主体为预处理装置，该方法包括步骤S101-S104。

S101、获取供热系统中多个数据构成的供热数据集合。

在一些实施例中，供热数据集合包括以下其中一项：热用户的室温数据、供热系统中换热站机组的供水温度数据、回水温度数据、供水压力数据以及回水压力数据。

作为一种可能的实现方式，预处理装置可以记录设定时间段内的多个数据，以获取供热数据集合。

作为另一种可能的实现方式，预处理装置可以从存储器直接获取供热系统的多个数据，构成供热数据集合。

S102、对供热数据集合中的多个数据进行特征分析，得到供热数据集合的数据特征。

在一些实施例中，供热数据集合的数据特征用于表征供热数据集合的离散程度和偏倚程度。

其中，离散程度为供热数据集合中各数据的集中程度。供热数据集合中各数据的取值越集中，表示供热数据集合的离散程度越低。偏倚程度为供热数据集合中各数据的偏斜程度。

本申请实施例中，数据特征包括全距系数、标准差系数和偏态系数。

在一些实施例中，全距系数用于表征供热数据集合中各数据的离散程度。

作为一种可能的实现方式，预处理装置可以确定供热数据集合最大值与最小值的差值为全距；将全距与供热数据集合中各数据的算数平均值的比值确定为全距系数。

示例性的，预处理装置可以基于如下公式，确定全距系数。

其中，V_R为全距系数，R为供热数据集合的全距，全距为供热数据集合最大值与最小值的差值；

为供热数据集合中各数据的算数平均值。

在一些实施例中，标准差系数用于表征供热数据集合中各数据的离散程度。

作为一种可能的实现方式，预处理装置可以将供热数据集合的标准差与供热数据集合中各数据的算数平均值的比值确定为标准差系数。

示例性的，预处理装置可以基于如下公式，确定标准差系数。

其中，V_σ为标准差系数，σ为供热数据集合的标准差，

为供热数据集合中各数据的算数平均值。

在一些实施例中，偏态系数用于表征供热数据集合中各数据的偏倚程度。

作为一种可能的实现方式，预处理装置可以将供热数据集合的三阶中心距与供热数据集合的标准差的比值确定为偏态系数。

示例性的，预处理装置可以基于如下公式，确定偏态系数。

其中，S_k为偏态系数，μ₃为供热数据集合的3阶中心距，σ为供热数据集合的标准差。

在一些实施例中，数据特征还包括对称分布近似度。对称分布近似度用于表征供热数据集合中各数据在算数平均值两侧分布的对称程度。

S103、基于数据特征，以及各数据特征在各预处理算法中对应的权重值，确定目标预处理算法。

本申请实施例中，预处理算法包括多倍标准差法、拉依达准则法和四分位数法。

在一些实施例中，多倍标准差法基于切比雪夫不等式进行计算。示例性的，多倍标准差法的筛选标准可以为至少有(1-1/k*k)的数据落在k个标准差之内。其中，k是大于1的任意值。例如，如果供热数据集合中各数据符合正态分布，那么供热数据集合中的正常数据分布在(μ-3σ，μ+3σ)中的概率为0.9973，正常数据区域之外的异常数据应予剔除或修正。其中，σ为供热数据集合中各数据的标准差，μ为供热数据集合中各数据的期望。

在一些实施例中，切比雪夫不等式可以为如下形式：设X为供热数据集合中任意数据，供热数据集合中各数据的期望为μ，方差为σ2。对于任何实数k>0，存在

其中，P(|X-μ|≥kσ)为离期望μ的距离大于kσ的概率。

需要说明的是，对于供热数据的采集过程，需要根据特定设备或者特殊场景对采集到的数据进行预处理，剔除异常数据，提取出正常数据。在多倍标准差算法中，需要确定kσ的取值，也即k的取值，以尽量保证预处理后正常数据的比例，保证正常数据占比在95％以上。

而根据切比雪夫不等式，无论数据样本是否符合正态分布，数据分布的规律符合下面的情况：

1)所有数据中，至少有75％的数据位于平均数2个标准差范围内；

2)所有数据中，至少有88.9％的数据位于平均数3个标准差范围内；

3)所有数据中，至少有96％的数据位于平均数5个标准差范围内；

因此，在供热数据的预处理过程中，若采用多倍标准差算法，则应将k的取值设定为大于等于5。

在一些实施例中，拉依达准则法适用于符合正态分布或近似正态分布的供热数据处理。拉依达准则法测量次数充分大的场景。

示例性的，假设一组供热数据只存在随机误差，通过计算得到该组供热数据的标准偏差。基于该组供热数据取值的概率确定正常区间，将不属于正常区间的供热数据确定为异常数据。不属于正常区间的供热数据存在粗大误差，也即误差较大，因此，确定为异常数据。

拉伊达准则可以表述为如下方式：

若剩余误差|vb|＝|xb-x|>3σ，则确定xb存在粗大误差，将xb确定为异常数据；

若剩余误差|vb|＝|xb-x|≤3σ，则确定xb不存在粗大误差，将xb确定为正常数据；

其中，xb为该组供热数据中任一供热数据，x为该组供热数据的算术平均值，vb为剩余误差，σ为标准偏差。

在一些实施例中，四分位数法，也称箱型图法。箱型图为一种用作显示一组数据分散情况资料的统计图。四分位数法通过计算四分位值，计算出供热数据的上边界和下边界，异常数据为上边界和下边界之外的数据，正常数据为上边界和下边界之间的数据。

示例性的，假设存在一组供热数据，将该组供热数据按从大到小的顺序进行排序，并将排序后的各数据等分为四部分，得到该组供热数据的上四分位数Q3、中位数Q2和下四分位数Q1；将上四分位数Q3和下四分位数Q1之间的差值，确定为四分位距IQR；将上四分位数Q3与四分位距IQR的1.5倍之和确定为上边界；将下四分位数Q1与四分位距IQR的1.5倍之差，确定为下边界；基于上边界和下边界，确定该组供热数据的正常数据和异常数据。

本申请实施例中，同一数据特征在不同预处理算法中对应的权重值不同。

示例性的，全距系数在多倍标准差法中对应的权重值与在拉依达准则法中对应的权重值不同。

作为一种可能的实现方式，如图2所示，预处理装置可以基于步骤S1031-S1033确定目标预处理算法。

S1031、基于数据特征中各系数的取值，确定数据特征的数据特征值。

示例性的，全距系数的数据特征值可以基于如下方式计算。

若全距系数大于1，则确定全距系数的数据特征值为100，否则，确定全距系数的数据特征值为V_R×100。其中，V_R为全距系数。

又一示例性的，标准差系数的数据特征值可以基于如下方式计算。

若标准差系数大于1，则确定标准差系数的数据特征值为100。

若标准差系数小于等于1，则判断标准差系数是否小于0.5；若小于0.5，则确定标准差系数的数据特征值为80；否则，确定标准差系数的数据特征值为60。

又一示例性的，偏态系数的数据特征值可以基于如下方式计算。

若偏态系数的绝对值大于1，则确定偏态系数的数据特征值为100。

若偏态系数的绝对值小于等于1，则判断偏态系数是否小于0.5；若小于0.5，则确定偏态系数的数据特征值为0；否则，确定标准差系数的数据特征值为80。

又一示例性的，对称分布近似度的数据特征值可以基于如下方式计算。

若偏态系数的绝对值小于0.5，则确定偏态系数的数据特征值为100。否则，确定偏态系数的数据特征值为0。

S1032、基于数据特征的数据特征值，以及各数据特征在各预处理算法中对应的权重值，进行加权求和，得到各预处理算法的契合值。

本申请实施例中，契合值用于表征各预处理算法与供热数据集合的契合程度。

示例性的，预处理装置可以基于如下公式，确定各预处理算法的契合值，并将契合值最高的预处理算法确定为目标预处理算法；契合值用于表征各预处理算法与供热数据集合的契合程度；

S_i＝A₁×X_1i+A₂×X_2i+A₃×X_3i+A₄×X_4i；

其中，S_i为各预处理算法中第i个预处理算法的契合值，A₁为全距系数的数据特征值，X_1i为全距系数在第i个预处理算法中对应的权重值，A₂为标准差系数的数据特征值，X_2i为标准差系数在第i个预处理算法中对应的权重值，A₃为偏态系数的数据特征值，X_3i为偏态系数在第i个预处理算法中对应的权重值，A₄为供热数据集合的对称分布近似度的数据特征值，X_4i为对称分布近似度在第i个预处理算法中对应的权重值，其中，对称分布近似度与偏态系数成负相关。

S1033、将契合值最高的预处理算法确定为目标预处理算法。

在一些实施例中，在契合值最高的预处理算法存在两个或者三个时，也即，存在两个或者三个预处理算法的契合值相同，且均为最高值时，按多倍标准差法、拉依达准则法和四分位数法的顺序，确定目标预处理算法。

示例性的，若多倍标准差法和拉依达准则法的契合值相同，且大于四分位数法的契合值，则将多倍标准差法确定为目标预处理算法。

可以理解的是，契合值最高的预处理算法，表示该预处理算法与供热数据集合更加匹配，采用该预处理算法对供热数据集合进行预处理，能够适应供热数据集合的数据特征，即离散程度和偏倚程度，进而提高了供热数据的处理分析结果的合理性。

S104、基于目标预处理算法，清洗供热数据集合中的异常数据，确定预处理后的供热数据集合。

作为一种可能的实现方式，如图3所示，预处理装置可以基于步骤S1041-S1043，确定预处理后的供热数据集合。

S1041、基于目标预处理算法，以及供热数据集合，确定供热数据集合中异常数据的数量。

示例性的，预处理装置可以分别基于多倍标准差法、拉依达准则法和四分位数法，确定供热数据集合中正常数据和异常数据，之后，确定异常数据的数量。

S1042、基于异常数据的数量占供热数据集合中数据总数量的比例，确定供热数据集合的清洗方式。

清洗方式包括直接删除异常数据、常量填充异常数据、均值填充异常数据或中位数填充异常数据。

示例性的，预处理装置可以基于步骤A1-A4确定供热数据集合的清洗方式。

A1、若比例小于第一比例，则确定清洗方式为直接删除异常数据。

A2、若比例大于等于第一比例，且小于等于第二比例，则确定清洗方式为常量填充异常数据。其中，常量为供热数据集合中出现系数最多的数据。

A3、若供热数据集合满足正态分布，且比例大于等于第二比例，则确定清洗方式为均值填充异常数据。其中，均值可以为算数平均值。

其中，供热数据集合满足正态分布表示标准差系数大于第一设定系数。

A4、若供热数据集合满足偏态分布，且比例大于等于第三比例，则确定清洗方式为中位数填充异常数据。其中，中位数可以为供热数据集合中最大值与最小值的平均值。

供热数据集合满足偏态分布表示偏态系数大于第二设定系数；

其中，第一比例小于第二比例，第二比例小于第三比例。

例如，预处理装置可以基于表1确定供热数据集合的清洗方式。

表1

异常数据比例	0.1％以下	0.1％-1％	10％以上	10％以上且偏态分布
					清洗方式	直接删除	常量填充	均值填充	中位数填充

其中，第一比例为0.1％，第二比例为1％，第三比例为10％。

如此一来，预处理装置可以基于异常数据的数量占供热数据集合中数据总数量的比例，确定不同的清洗方式，在剔除异常数据的同时，保证了数据的有效性。

S1043、基于目标预处理算法和清洗方式，确定预处理后的供热数据集合。

作为一种可能的实现方式，若目标预处理算法为多倍标准差法，则计算供热数据集合各数据的取值与各数据的算数平均值之间的差值的绝对值；将差值的绝对值大于k倍的标准差的数据，确定为供热数据集合的正常数据；其中，k为大于等于5的正整数。

作为一种可能的实现方式，若目标预处理算法为拉依达准则法，则计算供热数据集合各数据的取值与各数据的算数平均值之间的差值的绝对值；将差值的绝对值小于等于m倍的标准差的数据，确定为供热数据集合的正常数据；其中m为大于等于3的正整数。

作为一种可能的实现方式，若目标预处理算法为四分位数法，则将供热数据集合的各数据按从大到小的顺序进行排序，并将排序后的各数据等分为四部分，得到供热数据集合的上四分位数、中位数和下四分位数；将上四分位数和下四分位数之间的差值，确定为四分位距；将上四分位数与四分位距的1.5倍之和，确定为正常值区间的上边界；将下四分位数与四分位距的1.5倍之差，确定为正常值区间的下边界；基于正常值区间的上边界和下边界，确定为供热数据集合的正常数据。

示例性的，假设供热数据集合为{2,2,3,2,2,1}，则目标预处理算法的确定过程如表2所示。

表2

基于表2可得，拉伊达准则法的契合值最高，为88。因此，预处理装置可以采用拉伊达准则法对供热数据集合{2,2,3,2,2,1}进行预处理。

又一示例性的，假设供热数据集合为{100,2,3,2,2,1}，则目标预处理算法的确定过程如表3所示。

表3

基于表3可得，多倍标准差法的契合值和四分位数法的契合值相同，均为100。因此，预处理装置可以采用多倍标准差法对供热数据集合{100,2,3,2,2,1}进行预处理。

又一示例性的，假设供热数据集合为{100,100,3,2,2,1}，则目标预处理算法的确定过程如表4所示。

表4

基于表4可得，四分位数法的契合值最高，为98。因此，预处理装置可以采用四分位数法对供热数据集合{100,100,3,2,2,1}进行预处理。

可选的，如图4所示，本发明实施例还提供了一种供热数据的预处理方法，该方法包括步骤S201-S203。

S201、获取预处理后的供热数据集合。

S202、计算预处理后的供热数据集合中各类数据的均值。

S203、基于预处理后的供热数据集合中各类数据的均值，验证预处理后的供热数据集合中各数据是否正常。

作为一种可能的实现方式，若热用户的室温数据的均值与设定室温之间的差值在设定范围内，则判断供水温度数据的均值与回水温度数据的均值之间的温差是否小于设定温差，若小于设定温差，则确定供水温度数据和回水温度数据的预处理过程正常，若大于等于设定温差，则确定供水温度数据和回水温度数据的预处理过程不正常。

作为另一种可能的实现方式，若供水温度数据的均值与回水温度数据的均值之间的温差小于设定温差，则判断热用户的室温数据的均值与设定室温之间的差值是否在设定范围内，若在，则确定热用户的室温数据的预处理过程正常，若不在，则确定热用户的室温数据的预处理过程不正常。

作为另一种可能的实现方式，若供水压力数据的均值与设定供水压力之间的差值在设定范围内，则判断供水压力数据的均值与回水压力数据的均值是否小于设定压差，若小于设定压差，则确定供水压力数据和回水压力数据的预处理过程正常，若大于等于设定压差，则确定供水压力数据和回水压力数据的预处理过程不正常。

如此一来，本发明实施例提供的供热数据的预处理方法，可以在对供热数据集合进行预处理后，对预处理后的供热数据集合中各数据进行验证，验证各数据的预处理过程是否正常，从而提高供热数据的预处理过程的准确度，使得基于预处理后的数据分析得到的处理分析结果更加合理。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

以下为本发明的装置实施例，对于其中未详尽描述的细节，可以参考上述对应的方法实施例。

图5示出了本发明实施例提供的一种供热数据的预处理装置的结构示意图，该预处理装置300包括通信模块301和处理模块302。

通信模块301，用于获取供热系统中多个数据构成的供热数据集合；

处理模块302，用于对供热数据集合中的多个数据进行特征分析，得到供热数据集合的数据特征，数据特征包括全距系数、标准差系数和偏态系数；

处理模块302，还用于基于数据特征，以及各数据特征在各预处理算法中对应的权重值，确定目标预处理算法；预处理算法包括多倍标准差法、拉依达准则法和四分位数法；其中，同一数据特征在不同预处理算法中对应的权重值不同；

处理模块302，还用于基于目标预处理算法，清洗供热数据集合中的异常数据，确定预处理后的供热数据集合。

在一种可能的实现方式中，处理模块302，具体用于确定供热数据集合最大值与最小值的差值为全距；将全距与供热数据集合中各数据的算数平均值的比值确定为全距系数；将供热数据集合的标准差与供热数据集合中各数据的算数平均值的比值确定为标准差系数；将供热数据集合的三阶中心距与供热数据集合的标准差的比值确定为偏态系数。

在一种可能的实现方式中，处理模块302，具体用于基于数据特征中各系数的取值，确定数据特征的数据特征值；基于数据特征的数据特征值，以及各数据特征在各预处理算法中对应的权重值，进行加权求和，得到各预处理算法的契合值，契合值用于表征各预处理算法与供热数据集合的契合程度；将契合值最高的预处理算法确定为目标预处理算法。

在一种可能的实现方式中，处理模块302，具体用于基于目标预处理算法，以及供热数据集合，确定供热数据集合中异常数据的数量；基于异常数据的数量占供热数据集合中数据总数量的比例，确定供热数据集合的清洗方式；清洗方式包括直接删除异常数据、常量填充异常数据、均值填充异常数据或中位数填充异常数据；基于目标预处理算法和清洗方式，确定预处理后的供热数据集合。

在一种可能的实现方式中，处理模块302，具体用于若比例小于第一比例，则确定清洗方式为直接删除异常数据；若比例大于等于第一比例，且小于等于第二比例，则确定清洗方式为常量填充异常数据；若供热数据集合满足正态分布，且比例大于等于第二比例，则确定清洗方式为均值填充异常数据；供热数据集合满足正态分布表示标准差系数大于第一设定系数；若供热数据集合满足偏态分布，且比例大于等于第三比例，则确定清洗方式为中位数填充异常数据，供热数据集合满足偏态分布表示偏态系数大于第二设定系数；其中，第一比例小于第二比例，第二比例小于第三比例。

在一种可能的实现方式中，处理模块302，具体用于若目标预处理算法为多倍标准差法，则计算供热数据集合各数据的取值与各数据的算数平均值之间的差值的绝对值；将差值的绝对值大于k倍的标准差的数据，确定为供热数据集合的正常数据；其中，k为大于等于5的正整数。若目标预处理算法为拉依达准则法，则计算供热数据集合各数据的取值与各数据的算数平均值之间的差值的绝对值；将差值的绝对值小于等于m倍的标准差的数据，确定为供热数据集合的正常数据；其中m为大于等于3的正整数；若目标预处理算法为四分位数法，则将供热数据集合的各数据按从大到小的顺序进行排序，并将排序后的各数据等分为四部分，得到供热数据集合的上四分位数、中位数和下四分位数；将上四分位数和下四分位数之间的差值，确定为四分位距；将上四分位数与四分位距的1.5倍之和，确定为正常值区间的上边界；将下四分位数与四分位距的1.5倍之差，确定为正常值区间的下边界；基于正常值区间的上边界和下边界，确定为供热数据集合的正常数据。

图6是本发明实施例提供的一种电子设备的结构示意图。如图6所示，该实施例的电子设备400包括：处理器401、存储器402以及存储在所述存储器402中并可在所述处理器401上运行的计算机程序403。所述处理器401执行所述计算机程序403时实现上述各方法实施例中的步骤，例如图1所示的步骤101至步骤104。或者，所述处理器401执行所述计算机程序403时实现上述各装置实施例中各模块/单元的功能，例如，图5所示的通信模块301和处理模块302的功能。

示例性的，所述计算机程序403可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器402中，并由所述处理器401执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序403在所述电子设备400中的执行过程。例如，所述计算机程序403可以被分割成图5所示的通信模块301和处理模块302。

所称处理器401可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器402可以是所述电子设备400的内部存储单元，例如电子设备400的硬盘或内存。所述存储器402也可以是所述电子设备400的外部存储设备，例如所述电子设备400上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器402还可以既包括所述电子设备400的内部存储单元也包括外部存储设备。所述存储器402用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述存储器402还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种供热数据的预处理方法，其特征在于，包括：

获取供热系统中多个数据构成的供热数据集合；

对所述供热数据集合中的多个数据进行特征分析，得到所述供热数据集合的数据特征，所述数据特征包括全距系数、标准差系数和偏态系数；

基于所述数据特征，以及各数据特征在各预处理算法中对应的权重值，确定目标预处理算法；所述预处理算法包括多倍标准差法、拉依达准则法和四分位数法；其中，同一数据特征在不同预处理算法中对应的权重值不同；

基于所述目标预处理算法，清洗所述供热数据集合中的异常数据，确定预处理后的供热数据集合。

2.根据权利要求1所述的供热数据的预处理方法，其特征在于，所述对所述供热数据集合中的多个数据进行特征分析，得到所述供热数据集合的数据特征，包括：

确定所述供热数据集合最大值与最小值的差值为全距；

将所述全距与所述供热数据集合中各数据的算数平均值的比值确定为所述全距系数；

将所述供热数据集合的标准差与所述供热数据集合中各数据的算数平均值的比值确定为所述标准差系数；

将所述供热数据集合的三阶中心距与所述供热数据集合的标准差的比值确定为所述偏态系数。

3.根据权利要求1所述的供热数据的预处理方法，其特征在于，所述基于所述数据特征，以及各数据特征在各预处理算法中对应的权重值，确定目标预处理算法，包括：

基于所述数据特征中各系数的取值，确定所述数据特征的数据特征值；

基于所述数据特征的数据特征值，以及各数据特征在各预处理算法中对应的权重值，进行加权求和，得到各预处理算法的契合值，所述契合值用于表征各预处理算法与所述供热数据集合的契合程度；

将契合值最高的预处理算法确定为所述目标预处理算法。

4.根据权利要求1所述的供热数据的预处理方法，其特征在于，所述基于所述目标预处理算法，清洗所述供热数据集合中的异常数据，确定预处理后的供热数据集合，包括：

基于所述目标预处理算法，以及所述供热数据集合，确定所述供热数据集合中异常数据的数量；

基于所述异常数据的数量占所述供热数据集合中数据总数量的比例，确定所述供热数据集合的清洗方式；所述清洗方式包括直接删除异常数据、常量填充异常数据、均值填充异常数据或中位数填充异常数据；

基于所述目标预处理算法和所述清洗方式，确定所述预处理后的供热数据集合。

5.根据权利要求4所述的供热数据的预处理方法，其特征在于，所述基于所述异常数据的数量占所述供热数据集合中数据总数量的比例，确定所述供热数据集合的清洗方式，包括：

若所述比例小于第一比例，则确定所述清洗方式为直接删除异常数据；

若所述比例大于等于第一比例，且小于等于第二比例，则确定所述清洗方式为常量填充异常数据；

若所述供热数据集合满足正态分布，且所述比例大于等于第二比例，则确定所述清洗方式为均值填充异常数据；所述供热数据集合满足正态分布表示所述标准差系数大于第一设定系数；

若所述供热数据集合满足偏态分布，且所述比例大于等于第三比例，则确定所述清洗方式为中位数填充异常数据，所述供热数据集合满足偏态分布表示所述偏态系数大于第二设定系数；

其中，所述第一比例小于所述第二比例，所述第二比例小于所述第三比例。

6.根据权利要求1所述的供热数据的预处理方法，其特征在于，所述基于所述目标预处理算法，清洗所述供热数据集合中的异常数据，确定预处理后的供热数据集合，还包括：

若所述目标预处理算法为多倍标准差法，则计算所述供热数据集合各数据的取值与各数据的算数平均值之间的差值的绝对值；将所述差值的绝对值大于k倍的标准差的数据，确定为所述供热数据集合的正常数据；其中，k为大于等于5的正整数；

若所述目标预处理算法为拉依达准则法，则计算所述供热数据集合各数据的取值与各数据的算数平均值之间的差值的绝对值；将所述差值的绝对值小于等于m倍的标准差的数据，确定为所述供热数据集合的正常数据；其中m为大于等于3的正整数；

若所述目标预处理算法为四分位数法，则将所述供热数据集合的各数据按从大到小的顺序进行排序，并将排序后的各数据等分为四部分，得到所述供热数据集合的上四分位数、中位数和下四分位数；将所述上四分位数和所述下四分位数之间的差值，确定为四分位距；将所述上四分位数与所述四分位距的1.5倍之和，确定为正常值区间的上边界；将所述下四分位数与所述四分位距的1.5倍之差，确定为正常值区间的下边界；基于所述正常值区间的上边界和下边界，确定为所述供热数据集合的正常数据。

7.根据权利要求1至6中任一项所述的供热数据的预处理方法，其特征在于，所述供热数据集合包括以下其中一项：热用户的室温数据、供热系统中换热站机组的供水温度数据、回水温度数据、供水压力数据以及回水压力数据。

8.一种供热数据的预处理装置，其特征在于，包括：

处理模块，用于对所述供热数据集合中的多个数据进行特征分析，得到所述供热数据集合的数据特征，所述数据特征包括全距系数、标准差系数和偏态系数；

处理模块，还用于基于所述数据特征，以及各数据特征在各预处理算法中对应的权重值，确定目标预处理算法；所述预处理算法包括多倍标准差法、拉依达准则法和四分位数法；其中，同一数据特征在不同预处理算法中对应的权重值不同；

处理模块，还用于基于所述目标预处理算法，清洗所述供热数据集合中的异常数据，确定预处理后的供热数据集合。

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，该存储器存储有计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序执行如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上的权利要求1至7中任一项所述方法的步骤。