CN112990330A

CN112990330A - 用户用能异常数据检测方法及设备

Info

Publication number: CN112990330A
Application number: CN202110326391.6A
Authority: CN
Inventors: 刘林青; 付文杰; 王晓甜; 马浩; 王立斌; 刘家丞
Original assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd; Marketing Service Center of State Grid Hebei Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd; Marketing Service Center of State Grid Hebei Electric Power Co Ltd
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2021-06-18
Anticipated expiration: 2041-03-26
Also published as: CN112990330B

Abstract

本申请提供了一种用户用能异常数据检测方法及设备，该方法包括：获取待检测样本，其中，待检测样本由待检测用户的用能数据生成；将待检测样本遍历孤立森林模型中的每棵孤立树，以确定待检测样本落在每棵孤立树中的子节点的高度，以及待检测样本与每棵孤立树的根节点中训练样本之间的距离；根据高度，确定待检测样本的高度异常分值；根据距离，确定待检测样本的密度异常分值；在高度异常分值和密度异常分值满足预设条件时，确定待检测用户的用能数据为异常数据。本申请能够提高用户用能异常数据的检测速度和精度。

Description

用户用能异常数据检测方法及设备

技术领域

本申请属于异常数据检测技术领域，更具体地说，是涉及一种用户用能异常数据检测方法及设备。

背景技术

在电网实际运行过程中,电力用户用能数据的质量对电力数据分析挖掘、用电客户准确定位、电网稳定运行都有着决定性的影响。为确保电力用户用能数据的准确性与完整性,需要对用能数据中的异常数据进行检测。

异常数据检测作为数据挖掘的重要环节，在电力大数据领域有着广泛而重要的应用。传统的异常检测算法依据数据分布进行异常点判断，如N-σ检测方法，其缺点在于需要构建合适的数据分布且无法满足海量数据检测的要求。近年来，基于机器学习方法的异常检测应用发展迅速，部分行业采用孤立森林(Isolation Forest，iForest)算法来解决异常数据检测问题，然而此类方法对数据局部异常不敏感、异常检测精度较低，不适用于10kV专变用户用能数据。

发明内容

本申请的目的在于提供一种用户用能异常数据检测方法及设备，以解决用户用能异常数据检测的精度低的问题。

本申请实施例的第一方面，提供了一种用户用能异常数据检测方法，包括：

获取待检测样本，其中，待检测样本由待检测用户的用能数据生成；

将待检测样本遍历孤立森林模型中的每棵孤立树，以确定待检测样本落在每棵孤立树中的子节点的高度，以及待检测样本与每棵孤立树的根节点中各训练样本之间的距离；其中，孤立森林模型经由多个选定用户的用能数据生成的训练样本训练，孤立森林模型包括多棵孤立树，每棵孤立树的根节点包括多个训练样本；

根据高度，确定待检测样本的高度异常分值；

根据距离，确定待检测样本的密度异常分值；

在高度异常分值和密度异常分值满足预设条件时，确定待检测用户的用能数据为异常数据。

本申请实施例的第二方面，提供了一种用户用能异常数据检测装置，包括：

数据获取模块，用于获取待检测样本和用户用能数据，并基于用户用能数据，生成原始数据集。

数据训练模块，用于基于原始数据集中的训练样本构建孤立森林模型。

数据处理模块，用于将待检测样本遍历孤立森林模型中的孤立树，并计算待检测样本的高度异常分值和密度异常分值。

数据判断模块，用于判断高度异常分值和密度异常分值是否满足预设条件，若是，则判断所述待检测用户的用能数据为异常数据，若否，则判断所述待检测用户的用能数据为正常数据。

本申请实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述用户用能异常数据检测方法的步骤。

本申请实施例的第四方面，提供了一种计算机可读存储介质，计算机存储介质存储有计算机程序，计算机程序被处理器执行时实现上述的用户用能异常数据检测方法的步骤。

本申请实施例提供的用户用能异常数据检测方法及设备的有益效果在于：通过将待检测样本遍历孤立森林模型中的每棵孤立树，得到待检测样本落在每棵孤立树中的子节点的高度，以及检测样本与每棵孤立树的根节点中训练样本之间的距离；其中，孤立森林模型经由多个选定用户的用能数据生成的训练样本训练，孤立森林模型中包括多棵孤立树，每棵孤立树的根节点包括多个训练样本；根据高度，确定待检测样本的高度异常分值；根据距离，确定待检测样本的密度异常分值；在高度异常分值和密度异常分值满足预设条件时，确定待检测用户的用能数据为异常数据。本申请相对于现有技术，考虑了异常数据点所处位置的密度，以及异常数据点周围的数据点的平均密度；将高度异常分值和密度异常分值相结合，对用户用能异常数据进行检测，改善了孤立森林算法检测局部异常点易失效的缺点，提高了用户用能异常数据检测的精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要的使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请一实施提供的用户用能异常数据检测方法的应用环境图；

图2为本申请一实施例提供的用户用能异常数据检测方法的流程图；

图3为本申请另一实施例提供的用户用能异常数据检测方法的流程图；

图4为本申请另一实施例提供的用户用能异常数据检测方法的流程图；

图5为本申请再一实施例提供的用户用能异常数据检测方法的流程图；

图6为本申请再一实施例提供的用户用能异常数据检测方法的流程图；

图7为本申请又一实施例提供的用户用能异常数据检测方法的流程图；

图8为本申请又一实施例提供的用户用能异常数据检测方法的流程图；

图9为本申请一实施例义工的用户用能异常数据检测装置的结构框图；

图10为本申请一实施例提供的电子设备的示意框图；

图11为本申请一实施示例中平均高度归一化的图像。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

异常数据检测作为数据挖掘的重要环节，在电力大数据领域有着广泛而重要的应用。在电力系统中，通过对用户用能异常数据分析，可以对偷电漏电等用户异常行为进行有效检测，同时也可以帮助排查电力系统运行故障，保证系统稳定安全运行。

用电信息采集系统采集并存储有大量专变用户的电量、负荷、电压、电流数据，不同用户同类型的数据量级差距大，常用的异常数据检测算法在识别10kV专变用户用能异常数据方面难以取得令人满意的效果。目前，部分行业采用孤立森林(iForest)算法来解决此类异常数据检测问题，然而，孤立森林算法对局部异常点不敏感，且 10kV专变用户用能数据的数据簇密度分布不均匀，应用孤立森林算法对该数据集进行异常点检测时，会出现某类用户数据簇中的异常点被临近正常数据点覆盖的情况，从而导致对10kV专变用户用能数据的异常检测失败。此外，工业还采用基于密度的LOF异常检测算法对局部异常点进行识别，但是此类算法需要遍历整个数据集以计算每个点的LOF值,不适用于数据量庞大的10kV专变用户用能数据。

本申请实施例通过将待检测样本遍历孤立森林模型中的每棵孤立树，得到待检测样本落在每棵孤立树中的子节点的高度，以及检测样本与每棵孤立树的根节点中训练样本之间的距离；其中，孤立森林模型经由多个选定用户的用能数据生成的训练样本训练，孤立森林模型中包括多棵孤立树，每棵孤立树的根节点包括多个训练样本；根据高度，确定待检测样本的高度异常分值；根据距离，确定待检测样本的密度异常分值；在高度异常分值和密度异常分值满足预设条件时，确定待检测用户的用能数据为异常数据。本申请相对于现有技术，考虑了异常数据点所处位置的密度，以及异常数据点周围的数据点的平均密度；将高度异常分值和密度异常分值相结合，对用户用能异常数据进行检测，改善了孤立森林算法检测局部异常点易失效的缺点，提高了用户用能异常数据检测的精度。

图1为本申请一实施提供的用户用能异常数据检测方法的应用环境图。本申请提供的用户用能异常数据检测方法，可以但不限于应用于如图1所示的应用环境中的电力系统。该电力系统包括电能表 11、用电信息存储设备12、电子设备13和终端14。

每个电能表11用于采集相应用户的用能数据，将用户的用能数据发送至用电信息存储设备12。用电信息存储设备12用于存储各用户的用能数据，例如。将各用户的用能数据存储到数据库中。电子设备13从用电信息存储设备12中获取用能数据，以得到待检测样本。电子设备13将待检测样本遍历孤立森林模型中的每棵孤立树，以确定待检测样本落在每棵孤立树中的子节点的高度，以及待检测样本与每棵孤立树的根节点中各训练样本之间的距离。其中，电子设备13 中的孤立森林模型经由多个选定用户的用能数据生成的训练样本训练，孤立森林模型包括多棵孤立树，每棵孤立树的根节点包括多个训练样本。电子设备13根据高度，确定待检测样本的高度异常分值；根据距离，确定所述待检测样本的密度异常分值。电子设备13在高度异常分值和密度异常分值满足预设条件时，确定待检测用户的用能数据为异常数据。电子设备13向用电信息存储设备12和/或终端14 发送异常提示消息，以提示用电信息存储设备12和/或终端14的用户，如电力系统的工作人员，对异常数据进行处理。其中，异常提示消息可以包括异常数据的用户标识、异常的用能数据等，不作限定。

其中，用电信息存储设备12和电子设备13可以为同一设备，也可以为不同的设备，在此不作限定。用电信息存储设备12和电子设备13可以包括但不限于独立服务器、多个服务器组成的服务器集群、台式计算机等。终端14可以包括但不限于台式计算机、笔记本电脑、平板电脑、手机、车载终端等。

在本申请的一个实施例中，如图2提供了一种用户用能异常数据检测方法的流程示意图。该方法包括：

S201：获取待检测样本，其中，待检测样本由待检测用户的用能数据生成。

在本实施例中，可以通过用电信息存储设备获取待检测样本，也可以直接通过用户电能表用电信息获取待检测样本，在此不作限定。其中待检测样本可以包括用户用电量和/或用电功率，待检测样本的个数可以是根据实际需求设定，在此均不做限定。

S202：将待检测样本遍历孤立森林模型中的每棵孤立树，以确定待检测样本落在每棵孤立树中的子节点的高度，以及待检测样本与每棵孤立树的根节点中各训练样本之间的距离。

在本实施例中，待检测样本与每棵孤立树的根节点中训练样本之间的距离可以为欧式距离、曼哈顿距离等，在此不做限定。

S203：根据高度，确定待检测样本的高度异常分值，根据距离，确定待检测样本的密度异常分值。

在本实施例中，待检测样本的高度异常分值的类型及计算方式，和待检测样本的密度异常分值的类型及计算方式，在此均不做限定。例如，可以通过计算待检测样本的高度平均值，作为其高度异常分值，也可以通过将待检测样本的高度按大小进行排序，取中间值作为其高度异常分值；可以通过计算待检测样本的距离平均值，作为其密度异常分值，也可以通过将待检测样本的距离按大小进行排序，取中间值作为其密度异常分值，还可以根据待检测样本的距离的倒数，计算其相对密度，通过相对密度计算其密度异常分值。

S204：在高度异常分值和密度异常分值满足预设条件时，确定待检测用户的用能数据为异常数据。

在本实施例中，预设条件的个数和类型可以根据实际需求进行选择，在此不作限定。例如，可以选择若高度异常分值和密度异常分值之和大于阈值，则确定待检测用户的用能数据为异常数据，也可以选择若高度异常分值小于阈值，同时密度异常分值大于阈值，则确定待检测用户的用能数据为异常数据。

本申请实施例通过将由待检测用户的用能数据生成的待检测样本遍历孤立森林模型中的每棵孤立树，确定待检测样本落在每棵孤立树中的子节点的高度，以及待检测样本与每棵孤立树的根节点中各训练样本之间的距离；根据高度，确定待检测样本的高度异常分值，根据距离，确定待检测样本的密度异常分值；当高度异常分值和密度异常分值满足预设条件时，确定待检测用户的用能数据为异常数据。本申请的实施例不仅考虑了待检测样本的高度，还考虑了待检测样本与各训练样本之间的距离，进一步增加了待检测样本的筛选条件，结合高度异常分值和密度异常分值，根据实际需求选择预设条件，能够更加灵活准确地判断出待检测用户的用能数据是否为异常数据。

图3为本申请另一实施例提供的用户用能异常数据检测方法流程示意图。在上述图2所示实施例的基础上，根据距离，确定待检测样本的密度异常分值，可以包括：

S301：针对每棵孤立树，从该孤立树的根节点中所有训练样本中，选取与待检测样本距离最近的k个训练样本，其中k为正整数，计算待检测样本与k个训练样本之间的平均距离的倒数，作为待检测样本在该孤立树中的相对密度。

在本实施例中，可以采用内部排序方法对上述距离进行排序并选取k个训练样本，也可以采用外部排序方法对上述距离进行排序并选取k个训练样本，在此不作限定。

S302：计算待检测样本在每棵孤立树中的相对密度的平均值，作为待检测样本的密度异常分值。

在已知待检测样本在该孤立树中的相对密度的基础上，使其遍历孤立森林模型中的每棵孤立树，计算相对密度的平均值，该平均值作为待检测样本的密度异常分值。

本实施例通过计算待检测样本与该孤立树中k个最近邻的训练样本之间的平均距离的倒数，作为待检测样本在该孤立树中的相对密度，使其遍历孤立森林模型中的每棵孤立树并计算相对密度的平均值，求取相对密度平均值可以直观反应相对密度的整体水平，使用能数据异常检测更加准确。

图4为本申请另一实施例提供的用户用能异常数据检测方法流程示意图。在上述图3所示实施例的基础上，根据待检测样本在每棵孤立树中的相对密度，确定检测样本的密度异常分值可以包括：

S401：计算待检测样本在该孤立树中的多个临近点的相对密度。

在本实施例中，临近点是指与待检测样本距离最近的或者距离小于预设阈值的训练样本。临近点的个数在此不作限定。每个临近点的相对密度的计算方式与S301至S302计算待检测样本的计算方式类似，在此不再赘述。

S402：基于多个临近点的相对密度，对待检测样本在该孤立树中的相对密度进行修正。

在本实施例中，对待检测样本的相对密度进行修正可以描述为

其中，D^*(X_test)代表修正后的相对密度，D(X_test)代表修正前的相对密度，D(X_i)代表第i个临近点的相对密度，j代表临近点的个数。

S403：计算待检测样本在每棵孤立树中的修正后的相对密度的平均值，作为待检测样本的密度分值。

本实施例通过利用待检测样本临近点的相对密度对待检测样本的相对密度进行修正，充分考虑了训练样本密度不均匀的情况，对待检测样本的相对密度进行修正，使计算结果更加精准。

图5为本申请再一实施例提供的用户用能异常数据检测方法流程示意图，在上述任一实施例的基础上，在所述高度异常分值和所述密度异常分值满足预设条件时，确定待检测用户的用能数据是否为异常数据，可以包括：

S501：基于预设权重，计算密度异常分值和高度异常分值的加权和，作为待检测样本的综合异常分值。

在本实施例中，预设权重数值的选取及选取标准随实际需求进行选择，在此不作限定。

S502：在综合异常分值小于或等于预设阈值时，确定待检测用户的用能数据为异常数据。

在本实施例中，预设阈值的大小及选取标准随实际需求进行选择，在此不作限定。

本实施例综合考虑待检测样本的密度异常分值和高度异常分值，根预设权重，计算密度异常分值和高度异常分值的加权和，根据实际情况，针对密度异常分值和高度异常分值选择不同的权重，因此能够使判断过程更加灵活，判断结果更加准确。

图6为本申请再一实施例提供的用户用能异常数据检测方法流程示意图，在上述任一实施例的基础上，根据高度，确定待检测样本的高度异常分值可以包括：

S601：将待检测样本落在每棵孤立树中的子节点的高度求均值，以得到待检测样本的平均高度。

S602：对平均高度进行归一化处理，以得到待检测样本的高度异常分值。

在基于平均高度已知的前提下，可以通过下述公式对平均高度进行归一化：

其中，S(X_test)为待检测样本的高度异常分值，E(H(X_test))为待检测样本的平均高度，c(n)为孤立森林模型中孤立树深度的平均值，

n为每棵孤立树的根节点中训练样本的数量， H(i)为调和数。

在本实施例中，通过对待检测样本的平均高度进行归一化处理，可以使数据结果更容易地收敛到最优解，提高了数据结果的精准度。

图7为本申请再一实施例提供的用户用能异常数据检测方法流程示意图，在上述任一实施例的基础上，该方法还可以包括：

S701：获取多个用户的用能数据。

在本实施例中，可以根据需求，选择不同的方法来获取用户的用能数据，在此不作限定。例如可以通过用电信息存储设备获取用户的用能数据，也可以通过直接测量用户电能表来获取用户的用能数据，还可以与主站建立通信，实时传输用电信息。

可选地，用能数据可以包括但不限于下述至少一项特征数据：用户用电量、有功功率、正向有功总电量、尖峰平谷时刻电量、ABC 三相有功功率、无功功率、ABC三相无功功率。

S702：基于多个用户的用能数据生成多个样本，以构成原始数据集，其中，样本与特征数据一一对应，每个样本包含一个特征数据。

在本实施例中，基于多个用户的用能数据生成多个样本后，可以通过规整数据格式、数据归一化处理、向量标准化处理等中的一项或多项进行预处理，构成原始数据集，在此不作限定。

样本与特征数据一一对应，一个特征数据即为一个样本。多个特征数据可以隶属于同一类型，例如：A户用电量和B户用电量均属于类型x，其中，A户用电量为一个特征数据，B户用电量为一个特征数据；又如，A户有功功率和B户有功功率以及C户用功功率均属于类型y，其中，A户用功功率和B户有功功率以及C户有功功率分别为一个特征数据。

S703：从原始数据集中随机选取同一类型的训练样本，根据选取到的训练样本生成t棵孤立树，以构建孤立森林模型，其中，t为正整数。

在本实施例中，可以采用并行处理的方式，一次生成t棵孤立树，也可以一次生成一棵孤立树，t次后得到t棵孤立树，其中，每棵孤立树中的训练样本可以相同也可以不同，在此均不做限定。

图8为本申请又一实施例提供的用户用能异常数据检测方法流程示意图，在上述图7所示的实施例基础上，每棵孤立树的生成过程可以包括：

S801：从原始数据集中随机选取n个同一类型的训练样本构成该孤立树的根节点。

在本实施例中，该孤立树根节点中包含的训练样本可以与其它孤立树的根节点中包含的训练样本相同也可以不同，在此不作限定。

S802：在该同一类型的特征数据x^(q)的值域范围内随机选择一个分割值p。

在本实施例中，x^(q)的值域范围可以依据全体训练样本中最大值与最小值的关系确定。

S803：根据分割值p对该孤立树的根节点中的n个训练样本进行划分，将满足x^(q)≤p的训练样本划分至根节点的左子节点，将满足 x^(q)>p的训练样本划分至根节点的右子节点。

在本实施例中，在根节点的基础上生成子节点，若训练样本中的特征数据x^(q)满足x^(q)≤p，则将该训练样本划分至根节点的左子节点，若训练样本中的特征数据x^(q)满足x^(q)>p，则将该训练样本划分至根节点的右子节点。

S804：对每个子节点进行迭代划分，若迭代划分后的孤立树高度达到预设高度，或迭代划分后新生成的子节点中只有一个训练样本或数值相同的多个训练样本时，停止迭代划分，以生成该孤立树。

在本实施例中，在上述步骤已完成的基础上，对子节点进行迭代划分：在该同一类型的特征数据的阈值范围内重新选取分割值，再次对已获得的子节点进行划分，当孤立树高度达到预设高度或迭代划分后新生成的子节点中只有一个训练样本或数值相同的多个训练样本时，停止迭代划分，生成该孤立树。

下面通过一个实施示例对上述的用户用能异常数据检测方法进行说明。在该实施示例中，孤立树及孤立森林模型的构建过程以及将待检测数据遍历孤立森林并确定出异常数据的过程如下所示，图11 所示部分为归一化函数S(X_test)的曲线图。该实施示例包括以下步骤：

步骤1、获取用电信息采集系统中10kV专变用户的各项用能数据，主要包括正向有功总电量、尖峰平谷时刻电量、有功功率、ABC 三相有功功率、无功功率、ABC三相无功功率，对采集到的用能数据进行预处理，包括规整数据格式、数据归一化处理，得到本申请需要的原始数据集。

其中，归一化方法采用Z-score方法，具体表达式为：

式中，X为处理后的样本，X'为采集到的原始样本，μ为X'的均值，σ 为X'的标准差。

步骤2、训练阶段。此阶段主要目的为从全体样本中随机采样构建孤立树及孤立森林。本申请的实施示例中用户用能异常数据检测方法训练阶段如下所示。具体包括：

步骤2.1、从原始数据集中随机抽取n个同一类型的训练样本 {X₁,X₂,…,X_n}作为孤立树的根节点，样本与特征一一对应，一个特征即为一个样本在该同一类型的特征数据x^(q)的值域范围内随机选择分割值p。

步骤2.11对选择的n个样本进行划分，将满足x^(q)≤p的样本放入根节点的左孩子节点，将x^(q)＞p的样本放入右孩子节点。

步骤2.12对每个子节点进行迭代划分，当树的高度达到限定高度或新生成的子结点中只有一个样本或数值相同的多个样本时终止迭代，生成一棵完整的孤立树，其高度的最小值为log₂n最大值为n- 1。由于异常样本的分布显著不同于正常的大多数样本分布差异，因此异常样本在分割过程易于被更早的划分，有更高概率位于高度更小的叶子节点中。

步骤2.2、重新随机抽取n个与步骤2.1类型相同的训练样本，按步骤2.11至2.12构建孤立树，重复该过程t次，得到含有t棵孤立树的孤立森林，每棵树之间相互独立，不含交叉节点。

步骤3、检测阶段。此阶段主要目的为将待检测的样本带入已训练好的模型中，结合高度异常分值与密度异常分值对待检测样本进行检测，并输出检测结果。本申请的实施示例中用户用能异常数据检测方法检测阶段如下所示。具体包括：

步骤3.1、将待测试样本X_test带入一棵孤立树中，按训练阶段得到的树的结构对样本进行划分，记录X_test经划分后落到的叶子节点高度H(X_test)。

步骤3.2、计算待检测样本X_test与该树根节点中n个训练样本的距离l(X_test,X_i)。步骤3.21、取距离X_test最近的k个点X₁,X₂,…X_k,定义 X_test的相对密度为：

步骤3.22、考虑到训练集样本密度不均匀，使用X_test临近点的相对密度对X_test的密度进行修正，具体表达式为：

其中D^*(X_test)为修正后的相对密度。

步骤3.3、将待检测样本X_test遍历孤立森林中所有孤立树，得到t 个高度值与密度值，并计算其均值得到E(H(X_test))与E(D^*(X_test))，具体表达式为：

步骤3.4、E(D^*(X_test))作为样本X_test最终的密度异常分值，对 E(H(X_test))进行归一化处理后作为样本X_test最终的高度异常分值，具体表达式为：

其中c(n)为给定样本数n时，孤立树深度的平均值，用来标准待检测样本的划分深度，具体表达式为：

其中H(i)为调和数，该值可以被估计为ln(i)+γ，γ为欧拉常数， γ≈0.57721。

归一化函数S(X_test)的图像如图11所示，当E(H(X_test))→n-1 时，此时X_test具有最长划分深度，S(X_test)→0，X_test被判定为正常；当E(H(X_test))→0时，X_test具有最短划分深度，S(X_test)→1，X_test被划分为异常。

步骤3.5、对于待检测样本X_test，其综合异常分值为：

Score(X_test)＝ω₁S(X_test)+ω₂E(D^*(X_test)) (10)

其中ω₁、ω₂为组合权重。

步骤3.6、设置异常检测阈值ε，若Score(X_test)<ε，则判断X_test为异常样本；若Score(X_test)≥ε，则判断X_test为正常样本。

综上，本申请实施示例改善了传统方法针对10kV专变电力用户用能数据无法同时满足检测局部异常点与拥有较快运行时间的局限性，实现对一种10kV电力专变用户用能异常数据的准确高效检测；本申请提供的技术方案改善了孤立森林算法检测局部异常点易失效的缺点，提高了异常数据检测的准确率；本申请提供的技术方案改善了异常检测-局部异常因子(LocalOutlierFactor，LOF)算法及深度学习计算量大，需要计算资源多的缺点，在保证检测准确度的前提下，优化算法复杂度，减小所需要处理的数据规模，使本申请在电力系统中具有良好的适用性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

图9为本申请一实施例提供的用户用能异常数据检测装置的结构框图。为了便于说明，仅示出了与本申请实施例相关的部分。如图 9，该装置包括：

数据获取模块100，用于获取待检测样本和用户用能数据，并基于用户用能数据，生成原始数据集。

数据训练模块200，用于基于原始数据集中的训练样本构建孤立森林模型。

数据处理模块300，用于将待检测样本遍历孤立森林模型中的孤立树，并计算待检测样本的高度异常分值和密度异常分值。

数据判断模块400，用于判断高度异常分值和密度异常分值是否满足预设条件，若是，则判断所述待检测用户的用能数据为异常数据，若否，则判断所述待检测用户的用能数据为正常数据。

本申请实施例通过获取待检测样本，其中，待检测样本由待检测用户的用能数据生成；将待检测样本遍历孤立森林模型中的每棵孤立树，以确定待检测样本落在每棵孤立树中的子节点的高度，以及待检测样本与每棵孤立树的根节点中各训练样本之间的距离；其中，孤立森林模型经由多个选定用户的用能数据生成的训练样本训练，孤立森林模型包括多棵孤立树，每棵孤立树的根节点包括多个训练样本；根据高度，确定待检测样本的高度异常分值；根据距离，确定待检测样本的密度异常分值；在高度异常分值和密度异常分值满足预设条件时，确定待检测用户的用能数据为异常数据。本发明实施例通过计算待检测样本与每棵孤立树的根节点中各训练样本之间的距离，从而确定待检测样本的密度异常分值，密度异常分值与高度异常分值结合，最终确定待检测用户的用能数据是否为异常数据，充分考虑了待检测样本与孤立树的根节点中各训练样本之间的关系，再与高度异常分值相结合，提高了检测结果的准确度。

可选的，可以利用待检测样本与孤立树的根节点中各训练样本之间距离倒数作为待检测样本的相对密度；

数据处理模块300，用于：

针对每棵孤立树，从该孤立树的根节点中所有训练样本中，选取与待检测样本距离最近的k个训练样本，其中，k为正整数，计算待检测样本与k个根节点之间的平均距离的倒数，作为待检测样本在该孤立树中的相对密度。

可选的，待检测样本的距离为包括欧式距离，数据处理模块300，用于：

计算待检测样本在该孤立树中的多个临近点的相对密度；

基于多个临近点的相对密度，对待检测样本在该孤立树中的相对密度进行修正；

计算待检测样本在每棵孤立树中的相对密度的平均值，作为待检测样本的密度分值，包括：计算待检测样本在每棵孤立树中的修正后的相对密度的平均值，作为待检测样本的密度分值。

可选的，对待检测样本的平均高度进行归一化处理；

数据处理模块300，用于：

通过对待检测样本的平均高度进行数据归一化处理，得到待检测样本的高度异常分值，其中，数据归一化可以表述为：

其中，S(X_test)为所述待检测样本的高度异常分值，E(H(X_test))为所述待检测样本的平均高度，c(n)为所述孤立森林模型中孤立树深度的平均值，

n为每棵孤立树的根节点中训练样本的数量，H(i)为调和数。

可选的，基于用户的用能数据生成多个样本以构成原始数据集，从原始数据集中选取训练样本，根据训练样本，生成孤立树：

数据获取模块100，用于：

获取多个用户的用能数据；其中，用能数据包括下述至少一项：用户用电量、有功功率、正向有功总电量、尖峰平谷时刻电量、ABC 三相有功功率、无功功率、ABC三相无功功率等；

基于多个用户的用能数据生成多个样本，以构成原始数据集，其中，样本与所述用户一一对应，每个样本包含m个特征，特征与用能数据的类型一一对应；

从原始数据集中随机选取训练样本，根据选取到的训练样本生成 t棵孤立树，以构建孤立森林模型，其中，t为正整数；

从原始数据集中选取待检测样本。

可选的，孤立森林模型经由多个选定用户的用能数据生成的训练样本训练，孤立森林模型包括多棵孤立树，每棵孤立树的根节点包括多个训练样本；

数据训练模块200，用于：

从原始数据集中随机选取n个训练样本构成该孤立树的根节点；

在m个特征随机选择一个特征记为特征x^(q)，并在特征x^(q)的值域范围内随机选择一个分割值p；

根据分割值p对该孤立树的根节点中的n个训练样本进行划分，将满足x^(q)≤p的训练样本划分至根节点中的左子节点，将满足 x^(q)>p的训练样本划分至根节点的右子节点；

对每个子节点进行迭代划分，若迭代划分后的孤立树高度达到预设高度，或迭代划分后新生成的子节点中只有一个训练样本或数值相同的多个训练样本时，停止迭代划分，以生成该孤立树。

本实施例提供的用户用能异常数据检测装置，可用于执行上述的方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

参见图10，图10为本发明一实施例提供的电子设备的示意框图。如图10所示的本实施例中的电子设备1000可以包括但不限于下述至少一项：一个或多个处理器1001、一个或多个输入设备1002、一个或多个输出设备1003及一个或多个存储器1004。上述处理器1001、输入设备1002、则输出设备1003及存储器1004通过通信总线1005 完成相互间的通信。存储器1004用于存储计算机程序，计算机程序包括程序指令。处理器1001用于执行存储器1004存储的程序指令。

应当理解，在本发明实施例中，所称处理器1001可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备1002可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等，输出设备1003可以包括显示器(LCD等)、扬声器等。

该存储器1004可以包括只读存储器和随机存取存储器，并向处理器1001提供指令和数据。存储器1004的一部分还可以包括非易失性随机存取存储器。例如，存储器1004还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器1001、输入设备 1002、输出设备1003可执行本发明实施例提供的方法实施例所描述的实现方式，在此不再赘述。

在本发明的另一实施例中提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令被处理器执行时实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM， Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

计算机可读存储介质可以是前述任一实施例的终端的内部存储单元，例如终端的硬盘或内存。计算机可读存储介质也可以是终端的外部存储设备，例如终端上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，计算机可读存储介质还可以既包括终端的内部存储单元也包括外部存储设备。计算机可读存储介质用于存储计算机程序及终端所需的其他程序和数据。计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

Claims

1.一种用户用能异常数据检测方法，其特征在于，包括：

获取待检测样本，所述待检测样本由待检测用户的用能数据生成；将所述待检测样本遍历孤立森林模型中的每棵孤立树，以确定所述待检测样本落在每棵孤立树中的子节点的高度，以及所述待检测样本与每棵孤立树的根节点中各训练样本之间的距离；所述孤立森林模型经由多个选定用户的用能数据生成的训练样本训练，所述孤立森林模型包括多棵孤立树，每棵孤立树的根节点包括多个训练样本；根据所述高度，确定所述待检测样本的高度异常分值；根据所述距离，确定所述待检测样本的密度异常分值；在所述高度异常分值和所述密度异常分值满足预设条件时，确定所述待检测用户的用能数据为异常数据。

2.如权利要求1所述的一种用户用能异常数据检测方法，其特征在于，所述根据所述距离，确定所述待检测样本的密度分值，包括：

针对每棵孤立树，从该孤立树的根节点中所有训练样本中，选取与所述待检测样本距离最近的k个训练样本，其中所述k为正整数，计算所述待检测样本与k个训练样本之间的平均距离的倒数，作为所述待检测样本在该孤立树中的相对密度；

计算所述待检测样本在每棵孤立树中的相对密度的平均值，作为所述待检测样本的密度异常分值。

3.如权利要求2所述的一种用户用能异常数据检测方法，其特征在于，在计算所述待检测样本在该孤立树中的相对密度之后，所述方法还包括：

计算所述待检测样本在该孤立树中的多个临近点的相对密度；

基于所述多个临近点的相对密度，对所述待检测样本在该孤立树中的相对密度进行修正；

计算所述待检测样本在每棵孤立树中的修正后的相对密度的平均值，作为所述待检测样本的密度分值。

4.如权利要求1所述的一种用户用能异常数据检测方法，其特征在于，所述在所述高度异常分值和所述密度异常分值满足预设条件时，确定所述待检测用户的用能数据为异常数据，包括：

基于预设权重，计算所述密度异常分值和所述高度异常分值的加权和，作为所述待检测样本的综合异常分值；

在所述综合异常分值小于或等于预设阈值时，确定所述待检测用户的用能数据为异常数据。

5.如权利要求1所述的一种用户用能异常数据检测方法，其特征在于，所述根据所述高度，确定所述待检测样本的高度异常分值，包括：

将所述待检测样本落在每棵孤立树中的子节点的高度求均值，以得到所述待检测样本的平均高度；

对所述平均高度进行归一化处理，以得到所述待检测样本的高度异常分值。

6.如权利要求5所述的一种用户用能异常数据检测方法，其特征在于，所述对所述平均高度进行归一化处理，以得到所述待检测样本的高度异常分值，包括：

通过下述公式对所述平均高度进行归一化处理，以得到所述待检测样本的高度异常分值：

n为每棵孤立树的根节点中训练样本的数量，H(i)为调和数。

7.如权利要求1-6任一项所述的一种用户用能异常数据检测方法，其特征在于，所述方法还包括：

获取多个用户的用能数据；其中，所述用能数据包括下述至少一项特征数据：用户用电量、有功功率、正向有功总电量、尖峰平谷时刻电量、ABC三相有功功率、无功功率、ABC三相无功功率；

基于所述多个用户的用能数据生成多个样本，以构成原始数据集，其中，所述样本与所述特征数据一一对应，每个样本包含一个特征数据；

从所述原始数据集中随机选取同一类型的训练样本，根据选取到的训练样本生成t棵孤立树，以构建所述孤立森林模型，其中，t为正整数；

所述获取待检测样本，包括：

从所述原始数据集中选取所述待检测样本，所述待检测样本与所述训练样本的类型相同。

8.如权利要求7所述的一种用户用能异常数据检测方法，其特征在于，每棵孤立树的生成过程包括：

从所述原始数据集中随机选取n个同一类型的训练样本构成该孤立树的根节点；

在该同一类型的特征数据x^(q)的值域范围内随机选择一个分割值p；

根据所述分割值p对该孤立树的根节点中的n个训练样本进行划分，将满足x^(q)≤p的训练样本划分至根节点中的左子节点，将满足x^(q)>p的训练样本划分至根节点的右子节点；

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述方法步骤。

10.一种计算可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述方法的步骤。