CN111950620A

CN111950620A - 基于DBSCAN和K-means算法的用户筛选方法

Info

Publication number: CN111950620A
Application number: CN202010788081.1A
Authority: CN
Inventors: 徐波; 张富强; 孙东磊; 李雪亮; 赵龙; 刘晓明; 徐沈智
Original assignee: State Grid Corp of China SGCC; State Grid Energy Research Institute Co Ltd; Economic and Technological Research Institute of State Grid Shandong Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Energy Research Institute Co Ltd; Economic and Technological Research Institute of State Grid Shandong Electric Power Co Ltd
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2020-11-17

Abstract

本发明公开了一种基于DBSCAN和K‑means算法的用户筛选方法，包括步骤：获取待分析行业中若干用户负荷曲线样本；通过DBSCAN算法剔除所述样本中的异常样本，获得处理后的样本；通过改进的K‑means方法对所述处理后的样本进行聚类获得聚类结果；根据所述聚类结果，确定并输出典型用户。本发明结合DBSCAN和改进K‑means两种算法的优势，提出聚类用户筛选方法，对待研究的行业的用户负荷曲线的数据样本进行筛选聚类，从而确定典型用户，对各类用户数据挖掘分析，便于电网企业准确把握用户对用电服务的差异化需求的用户筛选，实现制定针对性的分类用户电网调控政策。

Description

基于DBSCAN和K-means算法的用户筛选方法

技术领域

本发明涉及电力分析技术领域，具体涉及一种基于DBSCAN和K-means算法的用户筛选方法。

背景技术

电力需求侧管理通过需求侧资源优化配置，实现系统安全水平和运行效益的优化提升。随着负荷用电形势日趋多元化、以及配电侧电动汽车、储能及新能源发电等分布式资源的快速发展，电力需求侧管理资源特性各异、高度分散，对系统级的需求侧资源综合协调优化技术提出了越来越高的要求，受技术条件限制，传统的电力需求侧优化管理技术难以实现整体效益最优和分布式资源的精准管理。

随着电动汽车、工业过程负荷、云计算负荷、温控负荷等新型具有柔性调节能力的负荷的大量接入，用户在用电行为特征方面的多元性突显。高度分散的用户需求响应特性各异，需要基于大数据分析技术对数据采集终端采集到的实时负荷数据进行多元用户行为分析。

有鉴于此，亟需提供一种基于对各类用户数据挖掘分析，准确把握用户对用电服务的差异化需求的用户筛选方法。

发明内容

为了解决上述技术问题，本发明所采用的技术方案是提供了一种基于DBSCAN和K-means算法的用户筛选方法，包括以下步骤：

获取待分析行业中若干用户负荷曲线的样本；通过DBSCAN算法剔除所述样本中的异常样本，获得处理后的样本；通过改进的K-means方法对所述处理后的样本进行聚类获得聚类结果；根据所述聚类结果，确定并输出典型用户。

在上述方法中，以日负荷曲线为特征量进行聚类形成聚类样本。

在上述方法中，对负荷曲线进行归一化处理。

在上述方法中，所述通过DBSCAN算法剔除所述数据样本中的异常样本具体包括以下步骤：

设置搜索半径ε和最小对象数目Nminpts，系统将搜索空间中每个对象在搜索半径ε范围内覆盖的其他对象的数量与预先设置的最小对象数目Nminpts进行比较，将数量大于最小对象数目的对象划分为核心点，将数量等于Nminpts的对象划分为边界点，数量小于Nminpts的对象归为噪声点，聚类得到的噪声点即为异常样本，从而剔除这些异常样本，获得处理后的样本。

在上述方法中，所述通过改进的K-means方法对所述处理后的样本进行聚类获得聚类结果具体包括以下步骤：

利用切比雪夫距离对欧氏距离进行处理后的样本的内部加权，用归一化处理来消除欧氏距离对噪声点和离群点敏感，使得数据对象能够更科学地划分到所属的聚类集中。

定义处理后的样本点间的距离函数为：

式中，X＝{x₁,x₂,…x_n}，x_i＝{x_i1,x_i2,…x_im}，其中，n为样本数据的个数，m为每个样本的维数。

再通过改进的K-means算法进行聚类，具体流程如下：

A1、随机选择第一个初始簇质心；

A2、计算数据集X中每个点到最近已选出的簇质心的距离；

A3、选择相异度较大的点，作为下一个簇质心；

A4、若已选出k个簇质心，则进行步骤A5，否则，重复步骤A2；

A5、测量剩余样本点其到每个簇质心的距离，并把它归到最近的质心所在的簇；

A6、重新计算已经得到的各个簇的质心；

A7、重复步骤A5—A6，直到k个质心不再发生变化。

本发明结合DBSCAN和改进K-means两种算法的优势，提出聚类用户筛选方法，对待研究的行业的用户负荷曲线的数据样本进行筛选聚类，从而确定典型用户，对各类用户数据挖掘分析，便于电网企业准确把握用户对用电服务的差异化需求的用户筛选，实现制定针对性的分类用户电网调控政策。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的方法流程图。

具体实施方式

下面结合具体实施方式和说明书附图对本发明做出详细的说明。

如图1所示，本发明提供了一种基于DBSCAN和K-means算法的用户筛选方法，包括以下步骤：

S1、获取待分析行业中若干用户负荷曲线的样本；

本实施例，通过选取待研究的行业，从行业中随机选取若干用户，以日负荷曲线为特征量形成样本，从而选取该行业最具代表性的用户进行负荷特性分析。

聚类是按相似程度的高低，依次将数据归并为多个类的过程。同一类中数据相似性较高，不同类中的数据有明显的差异性。现有的聚类算法大体可分为：划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。

本实施例，为了消除样本幅值差异对聚类结果的影响，在进行聚类前对数据样本进行归一化处理。

S2、通过DBSCAN算法剔除所述数据样本中的异常样本，获得处理后的聚类样本。

本实施例，通过DBSCAN算法剔除所述数据样本中的异常样本具体包括以下步骤：

本算法主要涉及2个参数：搜索半径ε和最小对象数目Nminpts。因此，设置搜索半径ε和最小对象数目Nminpts，系统将搜索空间中每个对象在搜索半径ε范围内覆盖的其他对象的数量与预先设置的最小对象数目Nminpts进行比较，将数量大于最小对象数目的对象划分为核心点，将数量等于Nminpts的对象划分为边界点，数量小于Nminpts的对象归为噪声点。聚类得到的噪声点即为异常样本，从而剔除这些异常样本，获得处理后的样本。

S3、通过改进的K-means方法对所述处理后的样本进行聚类获得聚类结果；具体包括以下步骤：

定义处理后的样本点间的距离函数为：

再通过改进的K-means算法进行聚类，具体流程如下：

A1、随机选择第一个初始簇质心；

A2、计算数据集X中每个点到最近已选出的簇质心的距离；

A3、选择相异度较大的点，作为下一个簇质心；

A4、若已选出k个簇质心，则进行步骤A5，否则，重复步骤A2；

A6、重新计算已经得到的各个簇的质心；

A7、重复步骤A5—A6，直到k个质心不再发生变化。

S4、根据步骤S3聚类结果，确定并输出典型用户；选择改进的K-means方法进行聚类后的获得的各个簇的质心作为典型用户。

本发明中，在聚类算法中，K-means算法是一种最流行的、应用最广泛的一种聚类算法，因为它易于实现和计算效率高的特点，受到了很多研究者的青睐。

但是，K-means算法对孤立点、离群点极其敏感，并易受噪声影响。典型风光出力场景与噪声在各时段具有较大差异，在向量空间中的分布存在较明显的密度差异，需要从样本集中剔除这些异常样本，提取典型样本曲线。DBSCAN(Density Based SpatialClustering of Applicationswith Noise)是一种典型的基于密度的聚类算法，能够自动滤去偏离较大的噪声点，适用于异常样本的识别。本发明结合DBSCAN和改进K-means两种算法的优势，提出聚类用户筛选方法，对待研究的行业的用户负荷曲线的数据样本进行筛选聚类，从而确定典型用户，对各类用户数据挖掘分析，便于电网企业准确把握用户对用电服务的差异化需求的用户筛选，实现制定针对性的分类用户电网调控政策。

本发明不局限于上述最佳实施方式，任何人应该得知在本发明的启示下作出的结构变化，凡是与本发明具有相同或相近的技术方案，均落入本发明的保护范围之内。

Claims

1.一种基于DBSCAN和K-means算法的典型用户筛选方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于DBSCAN和K-means算法的用户筛选方法，其特征在于，以日负荷曲线为特征量进行聚类形成聚类样本。

3.如权利要求2所述的基于DBSCAN和K-means算法的用户筛选方法，其特征在于，对负荷曲线进行归一化处理。

4.如权利要求1-3任意所述的基于DBSCAN和K-means算法的用户筛选方法，其特征在于，所述通过DBSCAN算法剔除所述数据样本中的异常样本具体包括以下步骤：

5.如权利要求1所述的基于DBSCAN和K-means算法的用户筛选方法，其特征在于，所述通过改进的K-means方法对所述处理后的样本进行聚类获得聚类结果具体包括以下步骤：

定义处理后的样本点间的距离为：

式中，X＝{x₁,x₂,...x_n}，x_i＝{x_i1,x_i2,…x_im}，其中，n为样本数据的个数，m为每个样本的维数。

再通过改进的K-means算法进行聚类，具体流程如下：

A1、随机选择第一个初始簇质心；

A2、计算数据集X中每个点到最近已选出的簇质心的距离；

A3、选择相异度较大的点，作为下一个簇质心；

A4、若已选出k个簇质心，则进行步骤A5，否则，重复步骤A2；

A6、重新计算已经得到的各个簇的质心；

A7、重复步骤A5—A6，直到k个质心不再发生变化。