CN116089846B

CN116089846B - 一种基于数据聚类的新能源结算数据异常检测与预警方法

Info

Publication number: CN116089846B
Application number: CN202310341305.8A
Authority: CN
Inventors: 张艳玲; 罗卫
Original assignee: Beijing Zhiyi Yangfan Technology Co ltd
Current assignee: Zhongsheng Smart Energy Technology (Zhejiang) Co.,Ltd.
Priority date: 2023-04-03
Filing date: 2023-04-03
Publication date: 2023-07-25
Anticipated expiration: 2043-04-03
Also published as: CN116089846A

Abstract

本发明涉及数据处理技术领域，具体涉及一种基于数据聚类的新能源结算数据异常检测与预警方法，包括：将企业每个历史时期的新能源结算数据划分为多个区间；获取企业每个数据属性的影响程度值以及每个区间的每个数据属性的波动特征，进一步得到每个区间的综合波动特征；根据每个区间的综合波动特征获取每个区间的初始K距离邻域，进一步获取每个区间的初始离散程度值；根据每个区间的初始离散程度值获取企业的新能源处理能力向量；根据所有企业的新能源处理向量对所有企业进行层次聚类，获取每个层次类别的每个数据属性的波动范围，根据波动范围进行当前时期新能源结算数据的异常检测。本发明异常检测结果更加准确。

Description

一种基于数据聚类的新能源结算数据异常检测与预警方法

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于数据聚类的新能源结算数据异常检测与预警方法。

背景技术

构建以新能源为主体的新型电力系统、建设全国统一电力市场，是保障国家能源安全、实现可持续发展、推动碳达峰、碳中和目标的重大决策部署。其中新能源既是新型电力系统的主体，也是全国统一电力市场的主要参与方，还是碳交易中绿色价值体现。因此，新能源是构建“碳-电”协同的新型电力系统核心枢纽，新能源是否健康可持续发展，直接关乎新型电力系统、全国统一电力市场和碳市场能否平稳起步与高效融合。因此在双碳目标下构建新能源结算数智化管理平台十分重要。

在新能源结算数智化管理平台中其中有一个重要的功能为新能源结算数据的异常检测并进行实时预警。在异常的新能源结算数据监测过程中，传统方法往往是根据新能源结算数据的异常分布来获取的，通过人为的设定新能源结算数据的波动范围来获取每个新能源结算数据的异常程度，并根据该异常程度值进行异常预警。而由于不同企业的新能源结算数据分布不同，若仅根据人为经验设置新能源结算数据的各个数据属性波动范围，会造成较大的异常检测的误差。

发明内容

本发明提供一种基于数据聚类的新能源结算数据异常检测与预警方法，以解决现有的问题。

本发明的一种基于数据聚类的新能源结算数据异常检测与预警方法采用如下技术方案：

本发明一个实施例提供了一种基于数据聚类的新能源结算数据异常检测与预警方法，该方法包括以下步骤：

采集每个企业当前时期的新能源结算数据以及历史时期的新能源结算数据；对任意一个企业，获取企业的新能源处理能力向量，包括：

将企业任意一个历史时期的新能源结算数据的时间点作为横坐标，新能源处理量作为纵坐标构建一个数据序列曲线；对每个数据序列曲线进行分割得到趋势序列，根据趋势序列获取区间分段点，将每个历史时期的新能源结算数据划分为多个区间；

获取企业所有历史时期的新能源结算数据中每个数据属性的影响程度值；根据所有历史时期以及当前时期每个区间每个数据属性获取每个区间的每个数据属性的波动特征；根据每个数据属性的影响程度值以及每个区间的每个属性的波动特征获取每个区间的综合波动特征；

根据每个区间的综合波动特征获取每个区间的初始K距离邻域；根据每个区间的初始距离邻域对每个区间内的数据进行异常因子检测，获取每个区间内每个数据的局部异常因子值以及异常数据点；将每个区间内排除异常数据点后的所有数据的局部异常因子值的均值作为每个区间的初始离散程度值；根据每个区间的初始离散程度值对每个区间的K距离邻域进行调整，获取每个区间的新能源处理能力；

根据企业所有区间的新能源处理能力获取企业的新能源处理能力向量；

根据所有企业的新能源处理向量对所有企业进行层次聚类，得到多个层次类别；根据每个层次类别中包含的企业获取每个层次类别的每个数据属性的波动范围；

根据每个数据属性的波动范围对企业当前时期的新能源结算数据进行异常检测。

优选的，所述根据趋势序列获取区间分段点，将每个历史时期的新能源结算数据划分为多个区间，包括的具体步骤如下：

通过对趋势序列中所有前后相邻数据点的斜率差进行线性归一化，若前后相邻数据点的斜率差归一化后的数值大于斜率差阈值，将前一个数据点在数据序列曲线中对应的数据点作为数据序列曲线的区间分段点，将数据序列曲线中第一个数据点和最后一个数据点都作为区间分段点；

将所有数据序列曲线的所有区间分段点进行排列，计算相邻区间分段点在趋势序列中对应两个数据点的斜率差的绝对值作为相邻区间分段点的差距，将差距小于区间分段点阈值的相邻区间分段点中第二个区间分段点作为最终的区间分段点；根据所有最终的区间分段点将每个历史时期的新能源结算数据划分为多个区间。

优选的，所述影响程度值的表达式为：

式中为第/>个数据属性的影响程度值；/>表示一个企业历史时期的新能源结算数据的数据属性的个数；/>表示所有历史时期的新能源结算数据中数据的个数；/>表示第/>个数据属性中第/>个数据值；/>表示第/>个数据属性的数据值均值；/>表示第/>个数据属性中第/>个数据值；/>表示第/>个数据属性的数据值均值。

优选的，所述根据所有历史时期以及当前时期每个区间每个数据属性获取每个区间的每个数据属性的波动特征，包括的具体步骤如下：

将时间作为横坐标，将数据属性的值作为纵坐标，根据企业历史时期每个区间的每个数据属性对应的所有历史数据构造属性数据分布曲线，将企业当前时期数据对应区间的对应数据属性与历史数据对应区间的对应数据属性结合构成属性数据分布曲线/>，计算/>和/>的DTW距离，作为企业对应区间对应数据属性的DTW距离；

根据企业每个区间所有数据属性的DWT距离，对每个区间每个数据属性的DWT距离进行线性归一化，将归一化后的值作为对应区间对应数据属性的波动特征。

优选的，所述综合波动特征的表达式为：

其中为第/>个区间内新能源结算数据的综合波动特征；/>表示新能源结算数据的第/>个数据属性的影响程度值；/>表示新能源结算数据第/>个区间的第/>个数据属性的波动特征；/>表示新能源结算数据的数据属性的个数。

优选的，所述初始K距离邻域的表达式：

式中为第/>个区间内新能源结算数据对应的初始/>距离邻域；/>为第/>个区间内新能源结算数据的综合波动特征；/>为距离邻域超参数；/>表示向下取整函数；norm()为归一化函数。

优选的，所述根据每个区间的初始离散程度值对每个区间的K距离邻域进行调整，获取每个区间的新能源处理能力，包括的具体步骤如下：

根据企业每个区间的初始离散程度值获取每个区间的调整程度值；所述调整程度值的表达式为：

式中为第/>个区间内的调整程度值，/>表示第/>个区间的初始离散程度值；/>表示所有区间中初始离散程度值的最大值；

根据调整程度值对每个区间的初始K距离邻域进行调整，具体为：

其中为第/>个区间调整后的K距离邻域；/>为第/>个区间内的调整程度值；/>为第/>个区间的初始/>距离邻域；

根据所有区间调整后的K距离邻域进行局部异常因子检测，获取每个区间调整后的离散程度值作为每个区间的新能源处理能力。

优选的，所述根据企业所有区间的新能源处理能力获取企业的新能源处理能力向量，包括的具体步骤如下：

对所有企业的所有区间的新能源处理能力进行线性归一化处理；将企业的每个区间的归一化后的新能源处理能力作为区间内每个时间点的新能源处理能力；以时间点为横轴，新能源处理能力为纵轴，绘制每个企业的新能源处理能力曲线；将所有企业中区间个数最多的企业的新能源处理能力曲线作为标准曲线，根据标准曲线中的区间的范围对其他所有企业的新能源处理能力曲线重新进行区间划分；将新的区间中所有时间点的新能源处理能力的均值作为新的区间的第一新能源处理能力；将每个企业所有新的区间的第一新能源处理能力构成每个企业的新能源处理能力向量。

优选的，所述根据每个层次类别中包含的企业获取每个层次类别的每个数据属性的波动范围，包括的具体步骤如下：

将每个层次类别包含的所有企业的同一个数据属性的最大值作为每个层次类别中对应数据属性的波动范围上限值；将每个层次类别包含的所有企业的同一个数据属性的最小值作为每个层次类别中对应数据属性的波动范围下限值；根据所述波动范围上限值以及所述波动范围下限值得到每个层次类别中对应数据属性的波动范围。

本发明的技术方案的有益效果是：在传统的异常检测和预警过程中，根据企业自身的每个年度的新能源结算数据获取其对新能源的处理能力的变化，无法判断出企业是否达到其最大的新能源处理能力，若仅根据此进行异常检测和预警，会造成企业在自己的新能源处理能力范围内引起异常预警，进而造成较大的误差。本发明中根据不同企业的历史新能源结算数据的趋势特征对采集的新能源计算数据进行区间的划分，并根据新能源结算数据中的各个数据属性之间的关联性获取每个数据属性的影响程度值。根据当前时期的新能源结算数据与历史时期的新能源结算数据之间的差异来获取波动特征，并根据波动特征和影响程度值自适应获取LOF局部异常因子检测算法中的初始距离邻域值，进而获取每个区间的新能源处理能力。本发明中综合考虑不同区间内的新能源处理能力之间的变化情况对初始距离邻域值进行调整，进而获取更加准确的新能源处理能力，避免仅获取局部最优新能源处理能力的缺点。根据层次聚类的思想，根据新能源处理能力对所有企业进行层次聚类，获取同一层次下企业的新能源结算数据的各个数据属性的波动范围，避免了传统的仅根据人为经验设置新能源结算数据的各个数据属性波动范围，造成较大的异常检测的误差的缺点，使得异常检测结果更加准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种基于数据聚类的新能源结算数据异常检测与预警方法的步骤流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种基于数据聚类的新能源结算数据异常检测与预警方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种基于数据聚类的新能源结算数据异常检测与预警方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种基于数据聚类的新能源结算数据异常检测与预警方法的步骤流程图，该方法包括以下步骤：

S001．采集新能源结算数据。

在搭建的新能源结算数智化管理平台中获取不同企业当前时期的新能源结算数据，并且根据对应的企业名称获取相应的历史时期的新能源结算数据。其中本发明实施例中新能源结算数据包括日期（根据一年进行划分）、企业名称、发电能源类型、上网电量、新能源处理量、补助电量等，本发明实施例不过多赘述，在其他实施例中实施人员具体实施情况而定。本发明实施例将新能源结算数据简称为新能源结算数据。

S002．对历史时期的新能源结算数据进行区间划分。

需要说明的是，在异常的新能源结算数据监测过程中，传统方法往往是根据新能源结算数据的异常分布来获取的，通过人为的设定新能源结算数据的波动范围来获取每个新能源结算数据的异常程度，并根据该异常程度值进行异常预警。而由于不同企业的新能源结算数据分布不同，若仅根据人为经验设置新能源结算数据的波动范围，会造成较大的异常检测的误差，影响平台预警。因此为了获取不同企业的新能源结算数据的波动范围，本发明实施例基于层次聚类算法，对不同企业的能源处理能力进行层次划分，并根据不同层次的企业下的新能源处理能力自适应获取该层次的新能源处理能力的波动范围。

需要进一步说明的是，对于不同企业来说，不同企业的新能源处理能力表征着企业自身发电量的多少，例如对于垃圾发电项目的企业来说，表征着该企业垃圾处理量的多少。其中能源处理能力的大小用于对企业进行层次聚类时不同层次的划分。因此本发明实施例通过采集的新能源结算数据进行能源处理能力的量化。由于不同时期的企业的对能源处理能力不同，例如对于不同的季度来说，企业在不同的季度的对垃圾处理量不同，垃圾发电量与季节温度有关，为了对能源处理能力进行量化，首先需要根据历史新能源结算数据进行区间的划分。

在本发明实施例中，根据历史新能源结算数据进行区间划分的具体的过程为：

对采集的一个企业的历史时期的新能源结算数据进行数据序列曲线的构建（以一年的新能源结算数据作为一条数据序列曲线构建，因此存在多条数据序列曲线），其中横坐标为时间点，纵坐标为新能源处理量。对一条数据序列曲线进行STL时间序列分割算法处理，获取该条数据序列曲线的趋势序列（其中STL时间序列分割算法为公知技术，在本发明实施例中不再赘述）。

需要说明的是，STL算法的输出为趋势序列、周期序列和残差序列，其中由于周期序列是去除趋势分布后获取的周期大小，而本发明实施例是需要根据新能源结算数据的变化趋势分析来获取一年中，新能源结算数据的“季度”变化，因此本发明实施例采用趋势序列进行区间划分，根据趋势序列中相邻数据点之间的趋势分布变化来进行区间的划分，从而将整个年度的新能源结算数据划分多个“季度”，也即多个区间。需要进一步说明的是，得到的趋势序列中每个数据点和数据序列曲线中每个数据点是一一对应的。

在本发明实施例中，根据趋势序列对数据序列曲线进行区间的划分，通过计算前后数据点的斜率差的方式选取区间分段点，具体为：

通过对趋势序列中所有前后相邻数据点的斜率差进行线性归一化，若前后相邻数据点的斜率差归一化后的数值大于斜率差阈值，则将前一个数据点在数据序列曲线中对应的数据点作为区间分段点，将数据序列曲线中第一个数据点和最后一个数据点都作为区间分段点。在本发明实施例中，斜率差阈值/>，在其他实施例中，实施人员可根据需要设置斜率差阈值/>的值。

同理，对所有历史时期的新能源结算数据对应的多个数据序列曲线进行区间的划分（一年的新能源结算数据对应一条数据序列曲线），获取每个数据序列曲线的区间分段点。

需要说明的是，为了获取符合总趋势的区间划分，还需判断多个数据序列曲线的区间分段点是否合并。

在本发明实施例中，将所有数据序列曲线的区间分段点进行排列，计算相邻区间分段点之间的差距，对于差距小于区间分段点阈值的相邻区间分段点中第一个区间分段点去除，即不再作为区间分段点。将所有剩余的区间分段点（包含数据序列曲线第一个数据点和最后一个数据点）作为当前企业的每一年的区间分段点。在本发明实施例中，区间分段点差阈值为10，在其他实施例中，实施人员可根据需要设置区间分段点差阈值的值。需要说明的是，相邻区间分段点之间的差距为此两个区间分段点在趋势序列中对应两个数据点的斜率的差值的绝对值。

根据区间分段点的将当前企业每一年的新能源结算数据划分成不同的区间。同理，对每个企业每一年的新能源结算数据进行区间划分。

至此，完成了历史时期的新能源结算数据的区间划分。

S003．获取每个区间新能源结算数据的综合波动特征。

需要说明的是，为了量化每个企业在不同区间的新能源处理能力，需要进行层次聚类。根据不同区间的离散程度值的变化来表征每个企业在整个年度的新能源处理能力。为了获取每个区间的离散程度值，本发明实施例采用自适应第距离邻域的局部异常因子检测算法对每个区间的离散程度值进行量化，每个区间的离散程度值与算法中第/>距离邻域有关，若/>的选取不当，会使得离散程度值量化不准确，进而造成企业的新能源处理能力量化出现误差。

需要进一步说明的是，由于不同区间之间新能源结算数据的波动程度不同，即企业的在每年的不同时期企业对于新能源处理情况不同，因此在计算区间自适应的值大小时，根据区间内新能源结算数据各个属性之间波动特征进行获取初始的/>值大小。其中波动特征表征着新能源结算数据的数据属性的敏感程度，若当前时刻的数据的分布变化对历史数据的分布变化影响较大则对应的该数据属性更加敏感，若新能源结算数据的敏感程度越大，则表明新能源结算数据变化越频繁，则对应的需要设置的距离邻域大小设置较小才获取准确的局部异常因子值。为了设置恰当的K，需要获取不同企业历史时期每个区间内新能源结算数据综合波动特征。

在本发明实施例中，首先计算每个数据属性的影响程度值，来表征不同数据属性对整个新能源结算数据变化的影响程度，具体过程为：

首先对历史时期的新能源结算数据建立坐标系，其中该坐标系的横坐标为数据的日期时间，纵坐标为新能源处理量。

在一个企业历史时期所有的新能源结算数据中，以第个数据属性为例计算波动程度。由于不同的数据属性对新能源结算数据的波动程度的影响不同，例如新能源结算数据中垃圾处理量与发电量之间呈现极大的关联性，垃圾处理量与补助电量也呈现极大的关联性，因此对于新能源结算数据中，数据属性中的垃圾处理量的波动变化对新能源结算数据的整体波动变化影响较大。因此本发明实施例根据数据属性之间的关联性作为其波动程度的影响程度值。根据其中第/>个数据属性的影响程度值/>的计算表达式为：

式中，表示一个企业历史时期的新能源结算数据的数据属性的个数；/>表示所有历史时期的新能源结算数据中数据的个数；/>表示第/>个数据属性中第/>个数据值；/>表示第/>个数据属性的数据值均值；/>表示第/>个数据属性中第/>个数据值；/>表示第/>个数据属性的数据值均值。

对所有数据属性的影响程度值进行函数进行归一化。如此得到了一个企业历史时期所有数据属性的影响程度值。

计算每个企业每个区间单个数据属性的波动特征，具体为：

在获取一个企业历史时期新能源结算数据每个数据属性的影响程度值之后，通过计算区间内的各个数据属性的波动特征作为该区间内的新能源结算数据的综合波动特征，进而根据该综合特征获取初始的值的大小。本发明实施例中通过每个数据属性的当前时期数据的分布与历史数据的分布之间的差异程度来表征每个数据属性的波动特征，若差异程度越大，则表明当前时期的数据波动特征较大。其中一个企业的历史时期的新能源结算数据的第/>个区间中第/>个数据属性的波动特征/>的获取过程为：

根据一个企业历史时期第个区间的第/>个数据属性对应的所有历史数据构造属性数据分布曲线/>（横坐标为时间，纵坐标为第/>个数据属性值），类似操作将该企业当前时期数据第/>个区间的第/>个数据属性与历史数据第/>个区间的第/>个数据属性结合构成属性数据分布曲线/>（其中，若区间内数据点的横坐标相同，则将相同横坐标的数据属性值的均值作为新的数据点构造分布曲线），对数据分布曲线/>和/>进行DTW动态时间规整算法，获取两条数据分布曲线的DTW距离，作为该企业第/>个区间第i个数据属性的DWT距离，通过DTW距离的大小来表征对应数据属性的当前时期数据的分布与历史数据的分布之间的差异程度。

根据该企业第个区间所有数据属性的DWT距离，对第/>个区间第i个数据属性的DWT距离进行线性归一化，将归一化后的值作为第/>个区间第i个数据属性的波动特征/>。

同理，获取每个企业每个区间每个数据属性的波动特征。

计算一个企业每个区间中多个数据属性的综合影响下的新能源结算数据的综合波动特征，具体为：

第个区间内新能源结算数据的综合波动特征/>为：

其中表示新能源结算数据的第/>个数据属性的影响程度值；/>表示新能源结算数据第/>个区间的第/>个数据属性的波动特征；/>表示新能源结算数据的数据属性的个数；每个区间的新能源结束数据的综合波动特征值受到新能源结算数据的对应区间内各个数据属性之间综合影响，并且受到各个数据的数据属性的影响程度值有关，数据属性的影响程度值越大，则表明该数据属性的波动特征的变化对综合波动特征影响越大。

同理，获取每个企业每个区间内新能源结算数据的综合波动特征。

S004．获取距离邻域以及每个区间的离散程度值。

第个区间内新能源结算数据对应的初始/>距离邻域的计算表达式为：

式中为第/>个区间内新能源结算数据的综合波动特征；/>为距离邻域超参数，可根据新能源结算数据中数据的数量级确定，本发明实施例中/>=10；/>表示向下取整函数；norm()为归一化函数，用于对/>进行归一化。

同理，获取每个区间内新能源结算数据对应的初始距离邻域。

根据获取的每个区间内初始距离邻域对新能源结算数据坐标系中该区间内的数据点进行LOF局部异常因子检测。计算坐标系中该区间内所有数据点局部异常因子值，当局部异常因子值大于1时，数据点为异常数据点。

本发明实施例将每个企业一个区间内数据点排除异常数据点后的所有数据点的局部异常因子值的均值作为该区间内的初始离散程度值。

由于在量化企业的新能源处理能力，若仅对企业的单个区间进行分析离散程度值，会陷入局部最小值，即对应若仅根据单个区间量化新能源处理能力，会使得出现新能源处理能力在部分区间内未达到最高，并且使得计算的每个区间的离散程度值计算发生错误，因此本发明实施例根据多个区间内离散程度值之间的差异进行分析，即根据多个区间内之间的离散程度值的差异进行分析，获取对应区间内的距离邻域内调整程度值。其中对应的/>距离邻域内的调整程度值与区间之间的离散程度值的差距有关，第/>个区间内的调整程度值/>的计算表达式为：

式中，表示第/>个区间的初始离散程度值；/>表示所有区间中初始离散程度值的最大值。其中不同区间的初始离散程度值差异越大，则表明该区间的新能源处理能力还未达到饱和，则对应的在调整离散程度值时，即对应的为在调整距离邻域大小时，需要使得更多数据点加入到局部异常因子值的计算中使得进行LOF局部异常因子检测过程中的值，进而使得计算的数据点更加的离散，新能源处理能力变化范围更广，则对应的设置的距离邻域值需要设置的更大。

则对应的根据计算得到的第个区间内的调整程度值对初始的/>距离邻域的调整后的/>的计算表达式为：

其中为第/>个区间内的调整程度值，/>越大，表明第/>个区间与其他区间之间的差异越大，则表明第/>个区间还未达到新能源处理能力的饱和值，因此需要调整的距离邻域越大。

根据重新调整后的各个区间的调整后的距离邻域进行LOF局部异常因子检测，进而获取调整后的离散程度值。其中离散程度值越大，表明企业的新能源处理能力越大。因此本发明实施例后续根据量化的企业新能源处理能力（即离散程度值）进行层次聚类分析。

至此，获取了获取距离邻域以及区间的离散程度值，实现了新能源处理能力的量化。

需要说明的是，本发明实施例中根据不同企业的历史新能源结算数据的趋势特征对采集的新能源计算数据进行区间的划分，并根据新能源结算数据中的各个数据属性之间的关联性获取每个数据属性的影响程度值。根据当前时期的新能源结算数据与历史时期的新能源结算数据之间的差异来获取波动特征，并根据波动特征和影响程度值自适应获取LOF局部异常因子检测算法中的初始距离邻域值，进而获取每个企业每个区间的新能源处理能力。本发明实施例中综合考虑不同区间内的新能源处理能力之间的变化情况对初始距离邻域值进行调整，进而获取更加准确的新能源处理能力，避免仅获取局部最优新能源处理能力的缺点。

S005．获取同一层次类别中新能源结算数据的各个数据属性的波动范围。

需要说明的是，步骤S004获取了各个企业的不同区间的新能源处理能力，为了获取企业的新能源结算数据的波动范围，可对各个企业的新能源处理能力进行层次聚类，将各个企业划分为不同层次的企业，其中每一层级的企业的新能源处理能力基本相似。此时可根据同一层级的企业的新能源结算数据的波动范围获取该层次的各个数据属性的波动范围。

在本发明实施例中，对所有企业的所有区间的新能源处理能力进行线性归一化处理。

将企业的每个区间的归一化后的新能源处理能力作为区间内每个时间点的新能源处理能力，如此得到企业的新能源处理能力曲线（时间点为横轴，新能源处理能力为纵轴）。将所有企业中区间个数最多的企业的新能源处理能力曲线作为标准曲线，根据标准曲线中的区间的范围对其他所有企业的新能源处理能力曲线重新进行区间划分。将新的区间中所有时间点的新能源处理能力的均值作为新的区间的第一新能源处理能力。将每个企业所有新的区间的第一新能源处理能力构成每个企业的新能源处理能力向量。

设置层次聚类阈值，根据所有企业的新能源处理能力向量进行AGNES层次聚类，得到企业层次聚类结果。每个层次类别中包含多个企业。在本发明实施例中，层次聚类阈值，AGNES层次聚类过程中的层次最大值为10，在其他实施例中，实施人员可根据需要设置层次聚类阈值T的值以及层次最大值，需要说明的是，在进行层次聚类时，据每个企业的新能源处理能力向量之间的余弦相似度进行合并。

对于第层次类别而言，其新能源处理能力基本相同，因此本发明实施例根据第/>个层次类别中所有企业的新能源结算数据的各个数据属性的范围值进行计算，进而获取第层次类别的新能源结算数据的各个数据属性的波动范围。其中第/>个层次类别包含的所有企业的同一个数据属性的最大值作为第/>个层次类别中对应数据属性的波动范围上限值，将第/>个层次类别包含的所有企业的同一个数据属性的最小值作为第/>个层次类别中对应数据属性的波动范围下限值，波动范围上限值以及波动范围下限值构成第/>个层次类别中对应数据属性的波动范围。

同理，获取每个层次类别的每个数据属性的波动范围。

至此，实现了根据企业量化的新能源处理能力进行层次聚类，获取了同一层次下企业的新能源结算数据的各个数据属性的波动范围。

需要说明的是，本发明实施例结合层次聚类的思想，根据新能源处理能力对所有企业进行层次聚类，获取同一层次下企业的新能源结算数据的各个数据属性的波动范围，避免了传统的仅根据人为经验设置新能源结算数据的各个数据属性波动范围，造成较大的异常检测的误差的缺点，使得后续检测结果更加准确。

S006．根据每个层次类别的各个数据属性的波动范围进行企业的当前时期的新能源结算数据的异常检测。

判断企业在当前时期下的新能源结算数据的各个数据属性的值是否在该企业所属的层次类别的各个数据属性的波动范围内，若在波动范围内，则不进行数据预警，若在波动范围外，则为异常数据。

通过以上步骤，完成了新能源结算数据的异常检测和预警。

本发明实施例根据不同企业的历史新能源结算数据的趋势特征对采集的新能源计算数据进行区间的划分，并根据新能源结算数据中的各个数据属性之间的关联性获取每个数据属性的影响程度值。根据当前时期的新能源结算数据与历史时期的新能源结算数据之间的差异来获取波动特征，并根据波动特征和影响程度值自适应获取LOF局部异常因子检测算法中的初始距离邻域值，进而获取每个区间的新能源处理能力。本发明实施例中综合考虑不同区间内的新能源处理能力之间的变化情况对初始距离邻域值进行调整，进而获取更加准确的新能源处理能力，避免仅获取局部最优新能源处理能力的缺点。根据层次聚类的思想，根据新能源处理能力对所有企业进行层次聚类，获取同一层次下企业的新能源结算数据的各个数据属性的波动范围，避免了传统的仅根据人为经验设置新能源结算数据的各个数据属性波动范围，造成较大的异常检测的误差的缺点，使得异常检测结果更加准确。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于数据聚类的新能源结算数据异常检测与预警方法，其特征在于，该方法包括以下步骤：

根据每个数据属性的波动范围对企业当前时期的新能源结算数据进行异常检测；

所述影响程度值的表达式为：

式中为第/>个数据属性的影响程度值；/>表示一个企业历史时期的新能源结算数据的数据属性的个数；/>表示所有历史时期的新能源结算数据中数据的个数；/>表示第/>个数据属性中第/>个数据值；/>表示第/>个数据属性的数据值均值；/>表示第/>个数据属性中第/>个数据值；/>表示第/>个数据属性的数据值均值；

所述根据每个区间的初始离散程度值对每个区间的K距离邻域进行调整，获取每个区间的新能源处理能力，包括的具体步骤如下：

2.根据权利要求1所述的一种基于数据聚类的新能源结算数据异常检测与预警方法，其特征在于，所述根据趋势序列获取区间分段点，将每个历史时期的新能源结算数据划分为多个区间，包括的具体步骤如下：

3.根据权利要求1所述的一种基于数据聚类的新能源结算数据异常检测与预警方法，其特征在于，所述根据所有历史时期以及当前时期每个区间每个数据属性获取每个区间的每个数据属性的波动特征，包括的具体步骤如下：

将时间作为横坐标，将数据属性的值作为纵坐标，根据企业历史时期每个区间的每个数据属性对应的所有历史数据构造属性数据分布曲线，将企业当前时期数据对应区间的对应数据属性与历史数据对应区间的对应数据属性结合构成属性数据分布曲线/>，计算和/>的DTW距离，作为企业对应区间对应数据属性的DTW距离；

4.根据权利要求1所述的一种基于数据聚类的新能源结算数据异常检测与预警方法，其特征在于，所述综合波动特征的表达式为：

5.根据权利要求1所述的一种基于数据聚类的新能源结算数据异常检测与预警方法，其特征在于，所述初始K距离邻域的表达式：

6.根据权利要求1所述的一种基于数据聚类的新能源结算数据异常检测与预警方法，其特征在于，所述根据企业所有区间的新能源处理能力获取企业的新能源处理能力向量，包括的具体步骤如下：

7.根据权利要求1所述的一种基于数据聚类的新能源结算数据异常检测与预警方法，其特征在于，所述根据每个层次类别中包含的企业获取每个层次类别的每个数据属性的波动范围，包括的具体步骤如下：