CN107358368A

CN107358368A - 一种面向电力用户细分的鲁棒k‑means聚类方法

Info

Publication number: CN107358368A
Application number: CN201710599773.XA
Authority: CN
Inventors: 杨名; 李强; 罗海波; 刘琪琛
Original assignee: State Grid Sichuan Electric Power Co Ltd
Current assignee: State Grid Sichuan Electric Power Co Ltd
Priority date: 2017-07-21
Filing date: 2017-07-21
Publication date: 2017-11-17
Anticipated expiration: 2037-07-21
Also published as: CN107358368B

Abstract

本发明公开了一种面向电力用户细分的鲁棒k‑means聚类方法，包括以下步骤，步骤1：提取电力公司任意一组数据集，进行数据标准化处理，所述数据集由多个簇组成；步骤2：提取标准化处理以后的数据集，计算数据集中样本间的相异度；步骤3：提取步骤2中数据集中样本间的相异度，使用改进的MaxMin初始化方法选择初始聚类中心，确定聚类中心的数量和类型；步骤4：根据步骤3中聚类中心的数量和类型，自动的分裂或合并簇。本发明所要解决的技术问题是电力部门通过对用户档案进行主观判断进行归类，并不能实现对用户准确、快速、细致的归类，但是本发明所提出的新颖、鲁棒的k‑means聚类方法可以解决这一缺点。

Description

一种面向电力用户细分的鲁棒k-means聚类方法

技术领域

本发明涉及一种电力用户细分方法，具体涉及一种面向电力用户细分的鲁棒k-means聚类方法。

背景技术

电力作为最基本的生活、生产能源，用电客户类型非常复杂而丰富。传统模式下，电力部门是通过对用户档案进行主观判断进行归类。该方法由于人力成本和人工理解深度的限制，并不能实现对用户准确、快速、细致的归类。

发明内容

本发明所要解决的技术问题是电力部门通过对用户档案进行主观判断进行归类，但是人力成本和人工理解深度的限制，并不能实现对用户准确、快速、细致的归类，目的在于提供一种面向电力用户细分的鲁棒k-means聚类方法，解决电力部门不能实现对用户准确、快速、细致的归类的问题。

本发明通过下述技术方案实现：

一种面向电力用户细分的鲁棒k-means聚类方法，包括以下步骤，步骤1：提取电力公司任意一组数据集，进行数据标准化处理，所述数据集由多个簇组成；步骤2：提取标准化处理以后的数据集，计算数据集中样本间的相异度；步骤3：提取步骤2中数据集中样本间的相异度，使用改进的MaxMin初始化方法选择初始聚类中心，确定聚类中心的数量和类型；步骤4：根据步骤3中聚类中心的数量和类型，自动的分裂或合并簇。本发明所要解决的技术问题是电力部门通过对用户档案进行主观判断进行归类，但是人力成本和人工理解深度的限制，并不能实现对用户准确、快速、细致的归类，但是本发明所提出的新颖、鲁棒的k-means聚类方法可以解决这一缺点。此方法通过对海量用户信息进行关键聚类信息识别以进行自动的聚类处理。所述数据集由多个簇组成，这是为了后续的解释方便，做了一个自定义；聚类分析作为一个广受欢迎的数据分析和数据挖掘技术，旨在将一组数据对象按相似性分成若干簇，使得同一个簇内的数据对象尽可能相似，不同簇内的对象尽可能相异。

所述步骤1中标准化处理的方法包括最大最小规范化、z-score规范化和小数定标规范化。标准化处理可以去除数据中的空缺和冗余，保证所得结果准确有效。

所述步骤2中，计算数据集中样本间的相异度，当数据样本属性为数值型，采用欧氏距离计算数据样本间的相异度；当数据样本属性为混合类型，采用公式(1)计算数据样本间的相异度： (1)其中，x_i和x_j是两个数据样本；k是数据样本的维度，即属性个数；d(x_i,m,x_j,m)是数据样本x_i和x_j在第m维上的相异度；δ_m是第m维的指示项，当x_i,m或x_j,m缺失，或者x_i,m＝x_j,m＝0，且变量m是非对称二元变量，则指示项δ_m＝0，否则，指示项δ_m＝1。对数据所有维度进行判断，保证准确。

所述步骤3中改进的MaxMin初始化方法选择初始聚类中心，包括以下子步骤：S401：假设一个n个对象的数据集X，选择离所有对象的均值最近的对象作为第一个聚类中心m₁；如此做可以避免对初始聚类中心的选择敏感，避免选择不同的初始聚类中心将导致不同的聚类结果。

S402：对于其余的对象，计算每个对象和已选定的簇中心之间的最小距离，min_dist(x_p)＝min{||x_p-m_s||²}(2)其中，x_p是未被选作簇中心的对象，m_s表示已经被选定的簇中心；S403：选择具有最大的最小距离的对象作为下一个簇中心，这样选择可以最大程度保证两个簇之间差异最大化，m_i＝arg max{min_dist(x_p)}(3)其中，m_i表示临时簇中心；

S404：令ε＝1/2×min_dist(m_i)，寻找到m_i的距离小于ε的所有对象，N_ε(m_i)＝{x_p:||x_p-m_i||²≤ε}(4)S405：选择离N_ε(m_i)的均值最近的对象，更新簇中心，更新簇中心可以最大程度避免簇中心偏移， (5)当m_i没改变，继续第六步；否则，返回到S404；S406：重复S403-S405，直到k个聚类中心被选定。

所述步骤4中，自动分裂簇包括以下子步骤：S501：计算平均簇间差异：(6)m_i和m_j表示聚类中心，表示聚类中心对的个数；S502：对于每个簇，计算簇内差异d_intra＝max{||m_i-x_p||²}+min{||m_i-x_p||²}计算簇间和簇内差异，为后续簇的合并和分解做准备，(7)m_i和m_j分别表示第i个簇的簇中心和第j个簇的簇中心，x_p表示簇内的对象；S503：当簇内差异簇被分裂成两个簇，为了得到鲁棒的和可靠的聚类结果，两个初始簇中心用改进的MaxMin初始化方法选择，使用MaxMin最大程度保证两个初始簇中心符合原有标准；S504：更新簇中心和簇的数目k；S505：当簇的数目k没改变，停止；否则，返回到第一步。如果最大簇内差异大于最小簇间差异，则簇被分裂成两个簇，这样可以保证簇内差异最小化。

所述步骤4中，自动合并簇包括以下子步骤：S601：计算平均簇间差异m_i和m_j表示聚类中心，表示聚类中心对的个数；S602：对于每个簇中心，计算簇间差异d_inter＝||m_i-m_j||²(8)m_i和m_j分别表示第i个簇的簇中心和第j个簇的簇中心；S603：当簇间差异簇被合并；S604：更新簇中心和簇的数目k；S605：当簇的数目k没改变，停止；否则，返回到第一步。如果最小簇间差异小于最大簇内差异，则簇被合并，这样可以保证簇间差异最大化。

本发明与现有技术相比，具有如下的优点和有益效果：

1、本发明一种面向电力用户细分的鲁棒k-means聚类方法，克服了传统k-means算法对电力用户初始聚类中心选择敏感的问题，使用改进的MaxMin初始化方法更好地选择电力用户初始聚类中心，使得电力用户聚类结果更可靠；克服了传统k-means算法对用户事先指定的聚类数目敏感的问题，新算法可以自动地分裂和合并簇，最终得到合适的簇，使得电力用户聚类结果更可靠；

2、本发明一种面向电力用户细分的鲁棒k-means聚类方法，能够更好地选择电力用户初始聚类中心，对电力用户初始聚类中心的选择不敏感；可以自动地分裂和合并簇；

3、本发明一种面向电力用户细分的鲁棒k-means聚类方法，对聚类数目的设置不再需要依赖用户的经验；聚类结果更可靠，准确率更高；算法对参数值的选择不敏感，算法鲁棒性好。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明算法流程图；

图2为本发明初始聚类中心选择子流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

如图1-2所示：

实施例1

本发明一种面向电力用户细分的鲁棒k-means聚类方法，包括以下步骤，步骤1：提取电力公司任意一组数据集，进行数据标准化处理，所述数据集由多个簇组成；步骤2：提取标准化处理以后的数据集，计算数据集中样本间的相异度；步骤3：提取步骤2中数据集中样本间的相异度，使用改进的MaxMin初始化方法选择初始聚类中心，确定聚类中心的数量和类型；步骤4：根据步骤3中聚类中心的数量和类型，自动的分裂或合并簇。

所述步骤1中标准化处理的方法包括最大最小规范化、z-score规范化和小数定标规范化。

所述步骤2中，计算数据集中样本间的相异度，当数据样本属性为数值型，采用欧氏距离计算数据样本间的相异度；当数据样本属性为混合类型，采用公式(1)计算数据样本间的相异度：

其中，x_i和x_j是两个数据样本；k是数据样本的维度，即属性个数；d(x_i,m,x_j,m)是数据样本x_i和x_j在第m维上的相异度；δ_m是第m维的指示项，当x_i,m或x_j,m缺失，或者x_i,m＝x_j,m＝0，且变量m是非对称二元变量，则指示项δ_m＝0，否则，指示项δ_m＝1。

所述步骤3中改进的MaxMin初始化方法选择初始聚类中心，包括以下子步骤：

S401：假设一个n个对象的数据集X，选择离所有对象的均值最近的对象作为第一个聚类中心m₁；

S402：对于其余的对象，计算每个对象和已选定的簇中心之间的最小距离，

min_dist(x_p)＝min{||x_p-m_s||²} (2)

其中，x_p是未被选作簇中心的对象，m_s表示已经被选定的簇中心；

S403：选择具有最大的最小距离的对象作为下一个簇中心，

m_i＝arg max{min_dist(x_p)} (3)

其中，m_i表示临时簇中心；

S404：令ε＝1/2×min_dist(m_i)，寻找到m_i的距离小于ε的所有对象，

N_ε(m_i)＝{x_p：||x_p-m_i||²≤ε} (4)

S405：选择离N_ε(m_i)的均值最近的对象，更新簇中心，

当m_i没改变，继续第六步；否则，返回到S404；

S406：重复S403-S405，直到k个聚类中心被选定。

所述步骤4中，自动分裂簇包括以下子步骤：

S501：计算平均簇间差异：

m_i和m_j表示聚类中心，表示聚类中心对的个数；

S502：对于每个簇，计算簇内差异d_intra＝max{||m_i-x_p||²}+min{||m_i-x_p||²} (7)

m_i和m_j分别表示第i个簇的簇中心和第j个簇的簇中心，x_p表示簇内的对象；

S503：当簇内差异簇被分裂成两个簇，S504：更新簇中心和簇的数目k；

S505：当簇的数目k没改变，停止；否则，返回到第一步。

实施例2

一种面向电力用户细分的鲁棒k-means聚类方法，包括以下步骤，步骤1：提取电力公司任意一组数据集，进行数据标准化处理，所述数据集由多个簇组成；步骤2：提取标准化处理以后的数据集，计算数据集中样本间的相异度；步骤3：提取步骤2中数据集中样本间的相异度，使用改进的MaxMin初始化方法选择初始聚类中心，确定聚类中心的数量和类型；步骤4：根据步骤3中聚类中心的数量和类型，自动的分裂或合并簇。

min_dist(x_p)＝min{||x_p-m_s||²} (2)

S403：选择具有最大的最小距离的对象作为下一个簇中心，

m_i＝arg max{min_dist(x_p)} (3)

其中，m_i表示临时簇中心；

N_ε(m_i)＝{x_p：||x_p-m_i||²≤ε} (4)

S405：选择离N_ε(m_i)的均值最近的对象，更新簇中心，

当m_i没改变，继续第六步；否则，返回到S404；

S406：重复S403-S405，直到k个聚类中心被选定。

所述步骤4中，自动合并簇包括以下子步骤：

S601：计算平均簇间差异

m_i和m_j表示聚类中心，表示聚类中心对的个数；

S602：对于每个簇中心，计算簇间差异d_inter＝||m_i-m_j||² (8)

m_i和m_j分别表示第i个簇的簇中心和第j个簇的簇中心；

S603：当簇间差异簇被合并；

S604：更新簇中心和簇的数目k；

S605：当簇的数目k没改变，停止；否则，返回到第一步。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向电力用户细分的鲁棒k-means聚类方法，其特征在于：包括以下步骤，

步骤1：提取电力公司任意一组数据集，进行数据标准化处理，所述数据集由多个簇组成；

步骤2：提取标准化处理以后的数据集，计算数据集中样本间的相异度；

步骤3：提取步骤2中数据集中样本间的相异度，使用改进的MaxMin初始化方法选择初始聚类中心，确定聚类中心的数量和类型；

步骤4：根据步骤3中聚类中心的数量和类型，自动的分裂或合并簇。

2.根据权利要求1所述的一种面向电力用户细分的鲁棒k-means聚类方法，其特征在于：所述步骤1中标准化处理的方法包括最大最小规范化、z-score规范化和小数定标规范化。

3.根据权利要求1所述的一种面向电力用户细分的鲁棒k-means聚类方法，其特征在于：所述步骤2中，计算数据集中样本间的相异度，当数据样本属性为数值型，采用欧氏距离计算数据样本间的相异度；当数据样本属性为混合类型，采用公式(1)计算数据样本间的相异度：

<mrow> <mi>d</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <msub> <mi>&delta;</mi> <mi>m</mi> </msub> <mi>d</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>x</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <msub> <mi>&delta;</mi> <mi>m</mi> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

4.根据权利要求1所述的一种面向电力用户细分的鲁棒k-means聚类方法，其特征在于：所述步骤3中改进的MaxMin初始化方法选择初始聚类中心，包括以下子步骤：

min_dist(x_p)＝min{||x_p-m_s||²} (2)

S403：选择具有最大的最小距离的对象作为下一个簇中心，

m_i＝argmax{min_dist(x_p)} (3)

其中，m_i表示临时簇中心；

N_ε(m_i)＝{x_p:||x_p-m_i||²≤ε} (4)

S405：选择离N_ε(m_i)的均值最近的对象，更新簇中心，

<mrow> <msub> <mi>m</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>arg</mi> <mi> </mi> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mo>{</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mi>p</mi> </msub> <mo>-</mo> <msub> <mover> <mi>N</mi> <mo>&OverBar;</mo> </mover> <mi>&epsiv;</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>m</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>}</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

当m_i没改变，继续第六步；否则，返回到S404；

S406：重复S403-S405，直到k个聚类中心被选定。

5.根据权利要求1所述的一种面向电力用户细分的鲁棒k-means聚类方法，其特征在于：所述步骤4中，自动分裂簇包括以下子步骤：

S501：计算平均簇间差异：

m_i和m_j表示聚类中心，表示聚类中心对的个数；

S505：当簇的数目k没改变，停止；否则，返回到第一步。

6.根据权利要求1所述的一种面向电力用户细分的鲁棒k-means聚类方法，其特征在于：所述步骤4中，自动合并簇包括以下子步骤：

S601：计算平均簇间差异

m_i和m_j表示聚类中心，表示聚类中心对的个数；

S602：对于每个簇中心，计算簇间差异d_inter＝||m_i-m_j||² (8)

m_i和m_j分别表示第i个簇的簇中心和第j个簇的簇中心；

S603：当簇间差异簇被合并；

S604：更新簇中心和簇的数目k；

S605：当簇的数目k没改变，停止；否则，返回到第一步。