CN113111924A

CN113111924A - 电力客户分类方法及装置

Info

Publication number: CN113111924A
Application number: CN202110327796.1A
Authority: CN
Inventors: 周李京; 周建宏; 喻娴; 侯晓
Original assignee: Bangdao Technology Co Ltd
Current assignee: Bangdao Technology Co Ltd
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2021-07-13

Abstract

本发明提供一种电力客户分类方法及装置，该方法包括：计算每个待分类电力客户的任一特征指标与上一次获取的每个聚类中心的该特征指标之间的距离，将该特征指标对应的距离与该特征指标的权重相乘；将每个待分类电力客户的所有特征指标相对于每个聚类中心对应的权重相乘结果相加，获取每个待分类电力客户与每个聚类中心之间的距离；将与每个待分类电力客户之间的距离最近的聚类中心的类别作为每个待分类电力客户的类别，对每个聚类中心进行更新，直到满足预设终止条件，将最后一次的聚类结果作为最终分类结果。本发明考虑各特征指标的重要程度，准确获取分类结果；且适用于待分类电力客户的特征指标密度差异大和分布不均匀的情况，鲁棒性好。

Description

电力客户分类方法及装置

技术领域

本发明涉及数据挖掘技术领域，尤其涉及一种电力客户分类方法及装置。

背景技术

客户分类是基于大数据技术以客户的特征指标作为依据对客户进行分类的一种方法。不仅可以根据客户的类别评估客户的价值，为信贷服务提供参考依据，还可以根据客户的类别制定相应的营销策略。

现有的基于大数据的客户分类方法可分为两类，有标签的客户分类方法和无标签的客户分类方法。若训练样本(客户的特征指标)已进行了标注，则可以直接对分类器进行训练，获取客户分类模型。若训练样本为无标签，通常需要按照专家打分或者基于模型的方式对客户的行为指标进行打分后再进行分类。

上述客户分类方法存在专家或人工干涉，不能保证分类结果的客观正确性，很难满足在电力大数据高维度场景下的客户分类。而且客户的行为指标种类多和数量大，人工标注或分析时，不仅工作量大，还容易引起标度专家反感和判断混乱，导致标注不准确，使得训练模型的性能差，进而导致分类结果不准确。

现有技术还采用传统K-means(K均值)聚类算法对客户进行分类，但是电力客户的特征指标数据分布密度不均衡，直接采用传统K-means聚类算法，会造成高密度小群瓜分低密度大群的现象，难以保证分类的准确性。

发明内容

本发明提供一种电力客户分类方法及装置，用以解决现有技术中标注的工作量大和标注准确性低，以及存在高密度小群瓜分低密度大群的现象，导致分类准确性低的缺陷，实现自动对客户进行准确分类。

本发明提供一种电力客户分类方法，包括：

计算每个待分类电力客户的任一特征指标与上一次获取的每个聚类中心的该特征指标之间的距离，并将该特征指标对应的距离与该特征指标的权重相乘；其中，所述待分类电力客户的特征指标与所述待分类电力客户的用电信息相关；

将每个待分类电力客户的所有特征指标相对于每个聚类中心对应的权重相乘结果相加，获取所述每个待分类电力客户与每个聚类中心之间的距离；

将与每个待分类电力客户之间的距离最近的聚类中心的类别作为每个待分类电力客户的类别，对每个聚类中心进行更新，直到满足预设终止条件，并将最后一次的聚类结果作为所述待分类电力客户的最终分类结果。

根据本发明提供的一种电力客户分类方法，在所述将该特征指标对应的距离与该特征指标的权重相乘之前，还包括：

将所有待分类电力客户的特征指标作为样本，将所有待分类电力客户在预设时段的用电量作为样本标签，对机器学习模型进行训练；

将训练后的机器学习模型的参数作为所述待分类电力客户的特征指标的权重。

根据本发明提供的一种电力客户分类方法，所述将所有待分类电力客户的特征指标作为样本，将所有待分类电力客户在预设时段的用电量作为样本标签，对机器学习模型进行训练，包括：

基于因子分析方法对每个待分类电力客户的特征指标进行降维；

将所有待分类电力客户的降维后的特征指标作为所述样本，将所有待分类电力客户在预设时段的用电量作为所述样本标签，对所述机器学习模型进行训练。

根据本发明提供的一种电力客户分类方法，每个待分类电力客户与每个聚类中心之间的距离的计算公式为：

其中，dist(C_p·x_i)为第i个待分类电力客户到第p个聚类中心的距离，h为第i个待分类电力客户的特征指标的总数量，x_ij为第i个待分类电力客户的第j个特征指标，w_j为i个待分类电力客户的第j个特征指标的权重，c_pj为第p个聚类中心的第j个特征指标。

根据本发明提供的一种电力客户分类方法，所述对每个聚类中心进行更新，直到满足预设终止条件，包括：

计算每个类别对应的待分类电力客户的特征指标的标准差，获取每个类别对应的标准差；

将每个类别对应的待分类电力客户的数量与所有待分类电力客户的总数量相除；

将每个类别对应的标准差与每个类别对应的相除结果相乘；

将所有类别对应的相乘结果相加，获取所有类别对应的聚类准则函数值；

若所述聚类准则函数值小于预设阈值，则停止对每个聚类中心进行更新；

若所述聚类准则函数值不小于所述预设阈值，则继续对每个聚类中心进行更新。

根据本发明提供的一种电力客户分类方法，所述计算每个类别对应的待分类电力客户的特征指标的标准差，包括：

根据每个类别对应的所有待分类电力客户的任一特征指标生成该特征指标的集合，并计算该特征指标的集合的标准差；

将该特征指标的集合的标准差与该特征指标的权重相乘；

将每个特征指标对应的权重相乘结果相加，获取每个类别对应的待分类电力客户的特征指标的标准差。

根据本发明提供的一种电力客户分类方法，所述聚类准则函数值的计算公式为：

其中，ε为所述聚类准则函数值，N为所有待分类电力客户的总数量，K为所述类别的数量，N_p为第p个类别的待分类电力客户的数量，δ_p为第p个类别对应的待分类电力客户的特征指标的标准差。

本发明还提供一种电力客户分类装置，包括：

计算模块，用于计算每个待分类电力客户的任一特征指标与上一次获取的每个聚类中心的该特征指标之间的距离，并将该特征指标对应的距离与该特征指标的权重相乘；其中，所述待分类电力客户的特征指标与所述待分类电力客户的用电信息相关；

获取模块，用于将每个待分类电力客户的所有特征指标相对于每个聚类中心对应的权重相乘结果相加，获取所述每个待分类电力客户与每个聚类中心之间的距离；

分类模块，用于将与每个待分类电力客户之间的距离最近的聚类中心的类别作为每个待分类电力客户的类别，对每个聚类中心进行更新，直到满足预设终止条件，并将最后一次的聚类结果作为所述待分类电力客户的最终分类结果。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述电力客户分类方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述电力客户分类方法的步骤。

本发明提供的电力客户分类方法及装置，通过根据每个特征指标的权重，对每个待分类电力客户的每个特征指标对应的距离进行加权相加，获取所述每个待分类电力客户与每个聚类中心之间的距离，并将与每个待分类电力客户之间的距离最近的聚类中心的类别作为每个待分类电力客户的类别，不仅通过增加权重的方式，充分考虑每个特征指标的重要程度，使得分类结果更加准确；还可以实现在待分类电力客户的特征指标密度差异大，且分布不均匀情况下，也能对待分类电力客户进行自动准确的分类，具有较好的鲁棒性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的电力客户分类方法的流程示意图之一；

图2是本发明提供的电力客户分类方法的流程示意图之二；

图3是本发明提供的电力客户分类装置的结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1描述本发明的一种电力客户分类方法，包括：步骤101，计算每个待分类电力客户的任一特征指标与上一次获取的每个聚类中心的该特征指标之间的距离，并将该特征指标对应的距离与该特征指标的权重相乘；其中，所述待分类电力客户的特征指标与所述待分类电力客户的用电信息相关；

其中，待分类电力客户为各电力企业中需要进行分类的电力客户，通过电力客户的类别可以获取各待分类电力客户的价值，以为电力企业申请信贷提供依据。

可选地，待分类电力客户可以是通过客户集中研讨和客户调研获取，也可以是从电力管理系统的数据库中获取，本实施例不限于获取待分类电力客户的方式。

获取各待分类电力客户的特征指标后，需要对数据进行清洗等预处理。可以采用ETL(Extract-Transform-Load，数据仓库技术)对获取的数据进行清洗和处理，获取处理后的待分类电力客户的特征指标。

每个特征指标均与待分类电力客户的用电信息相关，每个待分类电力客户的特征指标为多个。本实施例不限于特征指标的数量。

可选地，待分类电力客户的特征指标包括待分类电力客户的基本信息、用电缴费情况、经营能力、发展潜力和用电行为。本实施例不限于待分类电力客户的特征指标的内容。

用电缴费情况包括待分类电力客户的户龄、分期结算情况、缴费方式、高耗能情况、电压等级和负荷性质，本实施例不对用电缴费情况的内容作具体限定。

经营能力包括用电现状、复工复产情况和行业情况，本实施例不对经营能力的内容作具体限定。

发展潜力包括增容情况、减容情况和用电趋势，本实施例不对发展潜力的内容作具体限定。

用电行为包括是违约用电信息和窃电信息，本实施例不对用电行为的内容作具体限定。其中，违约用电信息可以是违约用电的次数或违约用电的频次等，本实施不对此作具体的限定。

上述特征指标综合多种类型与用电相关的特征指标，能够全面体现用户现有的生产运行能力、电能消耗、未来发展的潜力价值等，便于提高分类的精度。

综上待分类电力客户的特征指标可以是数值型和/或非数值型。因此在对待分类电力客户分类之前，需要对非数值型特征指标进行处理。

可选地，非数值型特征指标的处理方式可以为，采用独立热编码将非数值型特征指标转换为数值型特征指标。

或对非数值型特征指标进行评分，如，将非数值型特征指标与预先存储的非数值型特征指标进行比较，根据比较结果确定非数值型特征指标的评分。本实施例不限于对非数值型特征指标的处理方式。

其中，聚类中心的数量可以根据实际需求预先设定。在上一次为初始聚类的情况下，上一次获取的聚类中心为从待分类电力客户中选择获取。在上一次不为初始聚类的情况下，上一次获取的聚类中心为上一聚类后根据每个类别的待分类电力客户的特征指标计算获取。

可选地，每个特征指标的权重的获取方式为，基于权重分析法获取或基于机器学习算法获取。本实施例不限于权重的获取方式。

由于每个特征指标表示的含义和在分类过程中的重要程度不同，因此对分类结果的影响不同。传统K-means聚类算法直接根据每个待分类电力客户的特征指标获取每个待分类电力客户的分类结果，会造成高密度小群瓜分低密度大群的现象，难以保证分类的准确性。

为了提高分类的准确性，本实施对传统K-means聚类算法进行了改进。

可选地，对于每个待分类电力客户的任一特征指标，先计算该特征指标与每个聚类中心的该特征指标之间的距离。其中，距离公式可以为欧式距离或马氏距离等。然后，再将该特征指标对应的距离和该特征指标的权重相乘，获取该特征指标相对于每个聚类中心对应的权重相乘结果。

本实施例通过为每个特征指标对应的距离赋予权重因子，充分考虑每个特征指标的重要性，使得分类结果更加准确。

步骤102，将每个待分类电力客户的所有特征指标相对于每个聚类中心对应的权重相乘结果相加，获取所述每个待分类电力客户与每个聚类中心之间的距离；

具体地，获取到每个特征相对于每个聚类中心对应的权重相乘结果后，可以将每个待分类电力客户的所有特征指标相对于每个聚类中心对应的权重相乘结果相加，以获取每个待分类电力客户与每个聚类中心之间的距离。

步骤103，将与每个待分类电力客户之间的距离最近的聚类中心的类别作为每个待分类电力客户的类别，对每个聚类中心进行更新，直到满足预设终止条件，并将最后一次的聚类结果作为所述待分类电力客户的最终分类结果。

具体地，对于任一待分类电力客户，获取该待分类电力客户与每个聚类中心之间的距离后，可以将该待分类电力客户与每个聚类中心之间的距离进行比较，获取与该待分类电力客户之间的距离最近的聚类中心，将距离最近的聚类中心的类别作为该待分类电力客户的类别。

在获取到所有待分类电力客户的类别后，可以根据每个类别的待分类电力客户的特征指标，对每个聚类中心进行更新，并重复上述的聚类过程。

可选地，更新方式为计算每个类别中待分类电力客户的每个特征指标的平均值，可以获取更新后的每个聚类中心。

可选地，在每次迭代更新前，需要判断是否满足预设终止条件，如果满足预设终止条件，则停止更新；若不满足预设终止条件，则继续对每个聚类中心进行更新，直到满足预设终止条件。其中，预设终止条件可以是迭代次数达到第一预设值或更新后的任一类别的聚类中心与上一次获取的该类别的聚类中心之间的差值小于第二预设值等。本实施例不限于预设终止条件的内容。

可选地，第一预设值和第二预设值可以根据实际需求进行设置，如，第二预设值可以是1e-4。

若满足预设终止条件，则将最后一次的聚类结果作为待分类电力客户的最终分类结果。

现有技术中，通常基于专业的知识背景主观对客户进行分类或者给出基于某种价值计算规则对客户进行分类，忽略了各特征指标之间的关联性以及潜在的价值信息，导致分类效果差和实用性低。并且基于人工参与的客户分类方法很难适用于数以千万计的大数据背景下的计算框架。且电力数据的价值密度相对较低且信息巨大。

而本实施例提出的电力客户分类方法不仅可以获取更加准确的分类结果，还适用于电力客户的特征指标的密度差异大，且分布不均匀的情况下，具有较好的鲁棒性。

本实施例通过根据每个特征指标的权重，对每个待分类电力客户的每个特征指标对应的距离进行加权相加，获取所述每个待分类电力客户与每个聚类中心之间的距离，并将与每个待分类电力客户之间的距离最近的聚类中心的类别作为每个待分类电力客户的类别，不仅通过增加权重的方式，充分考虑每个特征指标的重要程度，使得分类结果更加准确；还可以实现在待分类电力客户的特征指标密度差异大，且分布不均匀情况下，也能对待分类电力客户进行自动准确的分类，具有较好的鲁棒性。

在上述实施例的基础上，本实施例中在所述将该特征指标对应的距离与该特征指标的权重相乘之前，还包括：将所有待分类电力客户的特征指标作为样本，将所有待分类电力客户在预设时段的用电量作为样本标签，对机器学习模型进行训练；将训练后的机器学习模型的参数作为所述待分类电力客户的特征指标的权重。

其中，机器学习算法为LightGBM(Light Gradient Boosting Machine，轻量级梯度提升机)模型等，本实施例不限于机器学习的类型。

LightGBM模型是一个实现梯度提升决策树算法的框架，支持高效率的并行训练，并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点。因此，采用LightGBM模型可以准确快速获取每个特征指标的权重。

由于用户的用电量越多，客户的价值更高，对电力企业的发展更加有力。因此，可以根据所有待分类电力客户的特征指标和所有待分类电力客户在预设时段的用电量对LightGBM模型进行训练，直到满足LightGBM模型的预设终止条件，然后，将最后一次训练后的LightGBM模型的参数作为待分类电力客户的特征指标的权重。其中，预设时段可以根据实际需求进行设置，如，一个月。

在LightGBM模型建模过程中，可以结合贝叶斯算法对LightGBM模型进行参数进行调整。通过设定不同的随机种子调整训练样本集合作为LightGBM模型的输入，并通过训练多个子模型以增加LightGBM模型输出结果的稳定与准确性，从而使得训练的LightGBM模型具有良好的性能。

在LightGBM模型的训练过程中，可以使用MAPE(Mean Absolute PercentageError，平均绝对百分比误差)对LightGBM模型进行评价。

其中，LightGBM模型中每个子模型的评价函数为：

其中，M_l为第l个子模型的MAPE值，

为第l个子模型输出的第i个待分类电力客户的用电量预测值，y_i为第i个待分类电力客户的用电量的实际值，N为待分类电力客户的总数量。

根据每个子模型的MAPE值确定每个子模型的输出的权重，根据将所有子模型对应的权重与其输出值加权相加获取LightGBM模型最终的输出，计算公式为：

其中，

为LightGBM模型输出的第i个待分类电力客户的用电量预测值，M_sum为所有子模型的MAPE值的相加结果。

现有技术基于AHP(AnalyticHierarchy Process，层次分析法)对无标签数据的属性权重进行打分。通过AHP得出得分判断矩阵，确定各指标权重，最终参考各指标数据分布情况设计分数区间与具体指标权重获取客户的评分。同时利用逻辑回归建模定量分析得到客户的评分，通过融合这两种策略得到最终的评分。然后将客户的评分按分数分段，依次设置不同的等级区间，获取各客户的类别。

还有部分现有技术采用人工标注的训练集，然后采用随机森林对有标签数据进行训练，然后进行预测分类，再把得到的有优质客户标签的数据用于逻辑回归算法的输入，最终输出每个优质客户属于高价值客户的概率值，然后使用四分位法对每个优质客户概率值大小进行划分，确定每个优质客户的类别。

上述现有技术中AHP是基于对各个特征指标的重要性进行主观排序，然后经过一系列矩阵运算确定各个特征指标的权重。在计算过程中存在主观性，难以保证获取的特征指标的权重具有较好的可靠性和准确性。

另外，逻辑回归为有监督学习算法，其输入的训练数据需要手动按照规则预先设定标签。若在标记的过程汇总出错，则会导致训练结果存在严重误差，分类结果不准确。且若特征指标过多，如，超过9个，则人工标注的工作量很大，易引起标度专家反感和判断混乱。

本实施例通过LightGBM模型可以根据每个特征指标对用电量的影响程度自动确定每个特征指标的权重，有效降低专家打分的主观影响，减少额外工作量的同时更具有可解释的理论依据，使得获取的权重更加客观准确。且本实施例中采用无监督的聚类算法自动获取每个待分类电力客户的类别，减少人工标注的工作量的误差，提高分类的准确性和效率。

在上述实施例的基础上，本实施例中所述将所有待分类电力客户的特征指标作为样本，将所有待分类电力客户在预设时段的用电量作为样本标签，对机器学习模型进行训练，包括：基于因子分析方法对每个待分类电力客户的特征指标进行降维；将所有待分类电力客户的降维后的特征指标作为所述样本，将所有待分类电力客户在预设时段的用电量作为所述样本标签，对所述机器学习模型进行训练。

其中，因子分析法是一种多元统计分析方法，核心思想是数据变换与降维，先把错综复杂的变量综合成少数主要因子，再进行问题解释或综合评价它可用少量潜在因子解释原始变量大部分信息因子分析的出发点是原始变量的相关矩阵。同时在计算过程中，自动对特征指标进行降维，可以消除主观因素，提供更加客观的结果。

由于待分类用户的特征指标存在各种噪声数据，影响分类的准确性。如图2所示，为了消除影响分类结果的数据，本实施例采用因子分析法，从待分类用户的特征指标中提取出对客户分类有效的特征指标。

在对每个待分类电力客户的特征指标进行降维之前，先对每个待分类电力客户的任一特征指标进行标准化处理，以使每个待分类电力客户的该特征指标的变化范围在同一量级上，消除每个待分类电力客户的该特征指标之间的量纲关系。标准化处理后每个特征指标均具有均值为0，方差为1的特点。

其中，每个待分类电力客户的任一特征指标的标准化处理的计算公式为：

其中，x_ij为第i个待分类电力客户的第j个特征指标，

为第i个待分类电力客户的第j个特征指标的标准化处理结果，

和

分别为所有待分类电力客户的第j个特征指标的平均值和标准差。

在降维过程中，可以将每个待分类电力客户的标准化处理后的特征指标表示为X＝{X₁,X₁,…,X_q}，其中，X∈R^N×q，其中，N为待分类电力客户的总数量，q为每个待分类电力客户的特征指标的数量。假设，需要从q个特征指标中提取h个潜在因子表示客户的价值，则可以用线性组合模型表示，公式为：

线性组合模型的矩阵表示形式为：

X＝αf+θ；

其中：

其中，f为降维后的公共因子，即每个待分类电力客户的降维后的特征指标，表示对每个待分类电力客户的特征指标的信息压缩；α表示因子载荷矩阵，其绝对值表示公共因子与各原始特征指标之间的依赖程度，其值越大相关性越大，如，α_mn(m＝1,2,…,q；n＝1,2,…,h)为公共因子f_n和X_m之间的关联程度；X表示每个待分类电力客户的原始的特征指标，θ₁为特殊因子仅与X₁相关。

其中，因子分析方法建模过程为，对待分类电力客户的特征指标进行因子分析得到协方差矩阵为：

其中，c_i,j＝cov(X_i,X_j)的协方差。

利用特征方程(λE-C)＝0计算协方差矩阵C的特征值λ_n，E为单位矩阵，并对非零特征根排序λ_n≥λ₃≥…≥λ_q≥0，相应的单位正交化特征向量e_n(n＝1,2,…,q)。假设h＜q，则待分类电力客户的特征指标的协方矩阵的主成分因子分析的载荷矩阵α为：

本实施例通过因子分析法，挖掘与客户分类相关的指标，剔除冗余的噪声数据，挖掘表潜在的有效的特征指标，为客户分类提供更加合理的数据依据，有效提高分类的准确性。

在上述各实施例的基础上，本实施例中每个待分类电力客户与每个聚类中心之间的距离的计算公式为：

具体地，本实施例为每个待分类电力客户的任一特征指标到每个聚类中心的该特征指标距离赋予不同的权重，通过增加权重的方式实现在待分类电力客户的特征指标的大小密度不均时，也能对待分类电力客户进行准确分类。

在上述各实施例的基础上，本实施例中所述对每个聚类中心进行更新，直到满足预设终止条件，包括：计算每个类别对应的待分类电力客户的特征指标的标准差，获取每个类别对应的标准差；将每个类别对应的待分类电力客户的数量与所有待分类电力客户的总数量相除；将每个类别对应的标准差与每个类别对应的相除结果相乘；将所有类别对应的相乘结果相加，获取所有类别对应的聚类准则函数值；若所述聚类准则函数值小于预设阈值，则停止对每个聚类中心进行更新；若所述聚类准则函数值不小于所述预设阈值，则继续对每个聚类中心进行更新。

具体地，在对每个聚类中心进行更新之前，需要判断迭代是否满足预设终止条件。

可选地，首先计算每个类别对应的待分类电力客户的特征指标的标准差。由于每个待分类电力客户包括多个特征指标，则计算每个类别对应的待分类电力客户的特征指标的标准差的方式可以是，将每个待分类电力客户的所有特征指标和特征指标的权重加权相加后，再计算每个类别对应的待分类电力客户的特征指标的标准差。

或计算每个类别对应的待分类电力客户的每个特征指标的标准差，在将每个类别对应的待分类电力客户的所有特征指标的标准差进行融合，获取每个类别对应的待分类电力客户的特征指标的标准差。本实施例不限于计算每个类别对应的待分类电力客户的特征指标的标准差的方式。

然后，计算每个类别对应的待分类电力客户的数量与所有待分类电力客户的总数量之间的比值，将其作为每个类别对应的权重。

将所有类别对应的权重与所有类别对应的待分类电力客户的特征指标的标准差进行加权相加，获取所有类别对应的聚类准则函数值。

将所有类别对应的聚类准则函数值和预设阈值进行比较，若聚类准则函数值小于预设阈值，则停止更新；若聚类准则函数值不小于预设阈值，则继续对每个聚类中心进行更新，并重复上述聚类过程。

本实施例根据每个类别中待分类电力客户的数量和所有待分类电力客户的总数量之间的比值，确定每个类别对应的标准差的贡献度，并根据各个类别对应的标准差和每个类别中待分类电力客户的数量，获取聚类准则函数值，可以有效降低高密度小类瓜分稀疏大类的风险。可以使得类内的待分类电力客户尽可能靠近聚类中心。

在上述实施例的基础上，本实施例中所述计算每个类别对应的待分类电力客户的特征指标的标准差，包括：根据每个类别对应的所有待分类电力客户的任一特征指标生成该特征指标的集合，并计算该特征指标的集合的标准差；将该特征指标的集合的标准差与该特征指标的权重相乘；将每个特征指标对应的权重相乘结果相加，获取每个类别对应的待分类电力客户的特征指标的标准差。

具体地，本实施例中计算每个类别对应的待分类电力客户的特征指标的标准差的方式为，对于每个类别对应的待分类电力客户的任一特征指标，计算该特征指标的标准差，并计算该特征指标的标准差与该特征指标的权重的相乘结果，通过这种方式获取每个类别对应的待分类电力客户的所有特征指标对应的相乘结果。然后，将所有特征指标对应的相乘结果，获取每个类别对应的待分类电力客户的特征指标的标准差。

本实施例通过根据每个特征指标的重要性程度为每个特征指标的权重相乘结果赋予不同的权重，充分考虑不同特征指标的标准差对每个类别对应的待分类电力客户的特征指标的标准差的影响，使得获取的每个类别对应的待分类电力客户的特征指标的标准差的可解释性更强，使得聚类结果的准确性更高。

在上述实施例的基础上，本实施例中所述聚类准则函数值的计算公式为：

其中，任一类别对应的待分类电力客户的特征指标的标准差可以使得该类别内的每个待分类电力客户与该类别的聚类中心的距离尽可能地小，其作用与传统的聚类准则函数中各个类的误差平方值的综合起到的作用是类似的。

其中，

可以根据每个类别的待分类电力客户的数量，确定每个类别的标准差的贡献度，比值越大，贡献度越大，为其赋予的权重越大。

通过本实施例的计算聚类准则函数值的方式可以进一步降低高密度小类瓜分稀疏大类的风险，提高分类的准确性。

本实施例中采用聚类算法对待分类电力客户进行分类的步骤包括：

步骤1，初始初始化。令当前时刻t＝0，随机选择K个样本点作为初始聚类中心

其中，

为t＝0时的第P个聚类中心；

步骤2，计算每个待分类电力客户到每个聚类中心的距离，将与每个待分类电力客户之间的距离最近的聚类中心的类别作为每个待分类电力客户的类别，构成聚类结果集C^t；

步骤3，根据聚类结果集，计算当前每个类别的待分类电力客户的任一特征指标的均值，将其作为新的聚类中心的该特征指标，计算公式为

新的聚类中心为

其中，u_p,a为对于任一特征指标，第P个类别的第a个待分类电力客户的该特征指标，l为第P个类别的待分类电力客户的数量；

步骤4，若新的聚类中心与上一次的聚类中心之间的差值小于预设值、迭代次数大于预设次数，或聚类准则函数值小于预设阈值，则停止迭代更新，否则，令t＝t+1，返回步骤2；

步骤5，将最后一次聚类结果作为待分类电力客户的分类结果。

下面对本发明提供的客户装置进行描述，下文描述的电力客户分类装置与上文描述的电力客户分类方法可相互对应参照。

如图3所示，本实施例提供一种电力客户分类装置，该装置包括计算模块301、获取模块302和分类模块303，其中：

计算模块301用于计算每个待分类电力客户的任一特征指标与上一次获取的每个聚类中心的该特征指标之间的距离，并将该特征指标对应的距离与该特征指标的权重相乘；其中，所述待分类电力客户的特征指标与所述待分类电力客户的用电信息相关；

获取各待分类电力客户的特征指标后，需要对数据进行清洗等预处理。可以采用ETL对获取的数据进行清洗和处理，获取处理后的待分类电力客户的特征指标。

每个特征指标均与待分类电力客户的用电量相关，每个待分类电力客户的特征指标为多个。本实施例不限于特征指标的数量。

可选地，非数值型特征指标的处理方式可以为，采用独立热编码将非数值型特征指标转换为数值型特征指标。或对非数值型特征指标进行评分。本实施例不限于对非数值型特征指标的处理方式。

获取模块302用于将每个待分类电力客户的所有特征指标相对于每个聚类中心对应的权重相乘结果相加，获取所述每个待分类电力客户与每个聚类中心之间的距离；

分类模块303用于将与每个待分类电力客户之间的距离最近的聚类中心的类别作为每个待分类电力客户的类别，对每个聚类中心进行更新，直到满足预设终止条件，并将最后一次的聚类结果作为所述待分类电力客户的最终分类结果。

可选地，在每次迭代更新前，需要判断是否满足预设终止条件，如果满足预设终止条件，则停止更新；若不满足预设终止条件，则继续对每个聚类中心进行更新，直到满足预设终止条件。其中，预设终止条件可以是迭代次数达到第一预设值或更新后的任一类别的聚类中心与上一次获取的该类别的聚类中心之间的差值小于第二预设值等。本实施例不限于预设终止条件的内容。第一预设值和第二预设值可以根据实际需求进行设置。

在上述实施例的基础上，本实施例中还包括训练模块，用于将所有待分类电力客户的特征指标作为样本，将所有待分类电力客户在预设时段的用电量作为样本标签，对机器学习模型进行训练；将训练后的机器学习模型的参数作为所述待分类电力客户的特征指标的权重。

在上述实施例的基础上，本实施例中训练模块，还用于基于因子分析方法对每个待分类电力客户的特征指标进行降维；将所有待分类电力客户的降维后的特征指标作为所述样本，将所有待分类电力客户在预设时段的用电量作为所述样本标签，对所述机器学习模型进行训练。

在上述各实施例的基础上，本实施例中分类模块具体用于：计算每个类别对应的待分类电力客户的特征指标的标准差，获取每个类别对应的标准差；将每个类别对应的待分类电力客户的数量与所有待分类电力客户的总数量相除；将每个类别对应的标准差与每个类别对应的相除结果相乘；将所有类别对应的相乘结果相加，获取所有类别对应的聚类准则函数值；若所述聚类准则函数值小于预设阈值，则停止对每个聚类中心进行更新；若所述聚类准则函数值不小于所述预设阈值，则继续对每个聚类中心进行更新。

在上述实施例的基础上，本实施例中分类模块还用于：根据每个类别对应的所有待分类电力客户的任一特征指标生成该特征指标的集合，并计算该特征指标的集合的标准差；将该特征指标的集合的标准差与该特征指标的权重相乘；将每个特征指标对应的权重相乘结果相加，获取每个类别对应的待分类电力客户的特征指标的标准差。

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信。处理器401可以调用存储器403中的逻辑指令，以执行电力客户分类方法，该方法包括：计算每个待分类电力客户的任一特征指标与上一次获取的每个聚类中心的该特征指标之间的距离，并将该特征指标对应的距离与该特征指标的权重相乘；其中，所述待分类电力客户的特征指标与所述待分类电力客户的用电信息相关；将每个待分类电力客户的所有特征指标相对于每个聚类中心对应的权重相乘结果相加，获取所述每个待分类电力客户与每个聚类中心之间的距离；将与每个待分类电力客户之间的距离最近的聚类中心的类别作为每个待分类电力客户的类别，对每个聚类中心进行更新，直到满足预设终止条件，并将最后一次的聚类结果作为所述待分类电力客户的最终分类结果。

此外，上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的电力客户分类方法，该方法包括：计算每个待分类电力客户的任一特征指标与上一次获取的每个聚类中心的该特征指标之间的距离，并将该特征指标对应的距离与该特征指标的权重相乘；其中，所述待分类电力客户的特征指标与所述待分类电力客户的用电信息相关；将每个待分类电力客户的所有特征指标相对于每个聚类中心对应的权重相乘结果相加，获取所述每个待分类电力客户与每个聚类中心之间的距离；将与每个待分类电力客户之间的距离最近的聚类中心的类别作为每个待分类电力客户的类别，对每个聚类中心进行更新，直到满足预设终止条件，并将最后一次的聚类结果作为所述待分类电力客户的最终分类结果。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的电力客户分类方法，该方法包括：计算每个待分类电力客户的任一特征指标与上一次获取的每个聚类中心的该特征指标之间的距离，并将该特征指标对应的距离与该特征指标的权重相乘；其中，所述待分类电力客户的特征指标与所述待分类电力客户的用电信息相关；将每个待分类电力客户的所有特征指标相对于每个聚类中心对应的权重相乘结果相加，获取所述每个待分类电力客户与每个聚类中心之间的距离；将与每个待分类电力客户之间的距离最近的聚类中心的类别作为每个待分类电力客户的类别，对每个聚类中心进行更新，直到满足预设终止条件，并将最后一次的聚类结果作为所述待分类电力客户的最终分类结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种电力客户分类方法，其特征在于，包括：

2.根据权利要求1所述的电力客户分类方法，其特征在于，在所述将该特征指标对应的距离与该特征指标的权重相乘之前，还包括：

3.根据权利要求2所述的电力客户分类方法，其特征在于，所述将所有待分类电力客户的特征指标作为样本，将所有待分类电力客户在预设时段的用电量作为样本标签，对机器学习模型进行训练，包括：

4.根据权利要求1-3任一所述的电力客户分类方法，其特征在于，每个待分类电力客户与每个聚类中心之间的距离的计算公式为：

5.根据权利要求1-3任一所述的电力客户分类方法，其特征在于，所述对每个聚类中心进行更新，直到满足预设终止条件，包括：

将每个类别对应的标准差与每个类别对应的相除结果相乘；

6.根据权利要求5所述的电力客户分类方法，其特征在于，所述计算每个类别对应的待分类电力客户的特征指标的标准差，包括：

将该特征指标的集合的标准差与该特征指标的权重相乘；

7.根据权利要求5所述的电力客户分类方法，其特征在于，所述聚类准则函数值的计算公式为：

8.一种电力客户分类装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述电力客户分类方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述电力客户分类方法的步骤。