CN110795560A

CN110795560A - 一种电网用电客户的细分方法及系统

Info

Publication number: CN110795560A
Application number: CN201911001336.9A
Authority: CN
Inventors: 唐海国; 龚汉阳; 齐飞; 朱吉然; 邓威; 彭涛; 张帝; 张志丹; 康童
Original assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Hunan Electric Power Co Ltd; State Grid Hunan Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Hunan Electric Power Co Ltd; State Grid Hunan Electric Power Co Ltd
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2020-02-14

Abstract

本发明公开了一种电网用电客户的细分方法及系统，通过采集电网用电客户的历史用电数据，对历史用电数据进行标准化处理，根据优化文本内容和优化文本词语计算电网用电客户的可信度特征和重要性特征，通过LDA主题模型对优化文本内容和优化文本词语进行建模计算，从而获得主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率，并基于随机森林模型，建立用户细分模型实现对电网用电客户的分类，解决了现有技术对电网用电客户分类结果的准确度不高的技术问题，通过对电网用电客户的历史用电数据进行LDA主题模型计算，能精准提取历史用电数据的语义特征，大大提高了对电网用电客户进行细分的准确性。

Description

一种电网用电客户的细分方法及系统

技术领域

本发明涉及用户数据深度挖掘分析领域，特别涉及一种电网用电客户的细分方法及系统。

背景技术

目前在对电网用电客户进行分类时，往往是使用用电客户的历史用电数据训练一定的分类模型，如随机树模型、支持向量机模型等，后续再通过这些分类模型来对电网用电客户进行分类。然而，现有技术基于电网用电客户的历史用电数据训练分类模型时，缺乏深度挖掘历史用电数据的语义特征，从而使得建立的分类模型准确性不高，进一步使得基于该分类模型的电网用电客户分类结果的准确度也不高。

发明内容

本发明提供的一种电网用电客户的细分方法及系统，解决了现有技术由于缺乏深度挖掘历史用电数据的语义特征，从而使得对电网用电客户分类结果的准确度不高的技术问题。

为解决上述技术问题，本发明提出的一种电网用电客户的细分方法包括：

采集电网用电客户的历史用电数据；

对历史用电数据进行标准化处理，获得标准化用户数据,标准化用户数据至少包括优化文本内容和优化文本词语；

根据优化文本内容和优化文本词语计算电网用电客户的可信度特征和重要性特征；

通过LDA主题模型对优化文本内容和优化文本词语进行建模计算，从而获得主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率，并根据主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率计算困惑度；

基于随机森林模型，利用电网用电客户的可信度特征、电网用电客户的重要性特征以及主题分布概率，建立用户细分模型；

根据用户细分模型，对电网用电客户进行分类。

进一步地，对历史用电数据进行标准化处理，获得标准化用户数据包括：

对历史用电数据进行冗余和数据变换处理，获得预处理数据；

对预处理数据进行z-score标准化处理，从而获得标准化用户数据,标准化用户数据至少包括优化文本内容和优化文本词语。

进一步地，根据优化文本内容和优化文本词语计算电网用电客户的可信度特征的计算公式具体为：

根据优化文本内容和优化文本词语计算用户重要性特征的计算公式具体为：

其中，Reliability_i表示第i条标准化用户数据对应的可信度特征，z_money_i表示第i条标准化用户数据对应的电费数，z_weiyue_i表示第i条标准化用户数据对应的违约次数，z_time_i表示第i条标准化用户数据对应的抄表周期，verify_i表示第i条标准化用户数据对应的用户状态，Important_i表示第i条标准化用户数据对应的重要性特征,z_dianyuan_i表示第i条标准化用户数据对应的电源数,z_hetong_i表示第i条标准化用户数据对应的合同时长,z_tousu_i表示第i条标准化用户数据对应的投诉次数。

进一步地，根据主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率计算困惑度的计算公式具体为：

D＝{op_word₁,…,op_word_M}

pyonghu_i＝(p_i,1,…,p_i,k)(1≤i≤M)

其中，perplexity(D)表示困惑度,M表示电网用电客户数目,D表示所有标准化用户数据对应的优化文本词语的集合，op_word_i表示第i条标准化用户数据对应的优化文本词语，op_n_i表示第i条标准化用户数据对应的优化文本词语的数量，p(z_j|op_doc_i)表示第i条标准化用户数据对应的优化文本内容中第j个主题出现的概率,p(op_word_i|z_j)表示第j个主题中第i条标准化用户数据对应的优化文本词语出现的概率,K为预设的主题数目，p(op_word_i)表示第i条标准化用户数据对应的优化文本内容中优化文本词语的概率,pyonghu_i表示第i条标准化用户数据对应的主题分布概率，且p_i,1,…,p_i,k分别为z₁,…,z_k主题的概率。

进一步地，基于随机森林模型，利用电网用电客户的可信度特征、电网用电客户的重要性特征以及主题分布概率，建立用户细分模型包括：

基于电网用电客户的可信度特征、电网用电客户的重要性特征以及主题分布概率，构建用户细分特征向量；

将电网用电客户的可信度特征、电网用电客户的重要性特征以及优化文本内容中预设LAD主题的分布概率作为随机森林模型的输入特征，并使用十折交叉验证的网格搜索算法计算基于CART决策树的随机森林模型的最优参数；

基于随机森林模型，利用最优参数以及用户细分特征向量，建立用户细分模型。

进一步地，历史用电数据包括电网用电客户的个人信息、归属台区、电源类别、电费信息、合同时长、抄表周期、停电次数、投诉记录中的一个或多个数据。

本发明提出的一种电网用电客户的细分系统包括：

存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行所述计算机程序时实现上述电网用电客户的细分方法的步骤。

与现有技术相比，本发明的优点在于：

本发明提供的电网用电客户的细分方法及系统，通过采集电网用电客户的历史用电数据，对历史用电数据进行标准化处理，获得标准化用户数据,标准化用户数据至少包括优化文本内容和优化文本词语，根据优化文本内容和优化文本词语计算电网用电客户的可信度特征和重要性特征，通过LDA主题模型对优化文本内容和优化文本词语进行建模计算，从而获得主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率，并根据主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率计算困惑度，基于随机森林模型，利用电网用电客户的可信度特征、电网用电客户的重要性特征以及主题分布概率，建立用户细分模型以及根据用户细分模型，对电网用电客户进行分类，解决了现有技术由于缺乏深度挖掘历史用电数据的语义特征，从而使得对电网用电客户分类结果的准确度不高的技术问题，通过对电网用电客户的历史用电数据进行LDA主题模型计算，能精准提取历史用电数据的语义特征，从而精准建立用于对电网用电客户进行细分的用户细分模型，大大提高了对电网用电客户进行细分的准确性，有利于实现用电精准营销。

附图说明

图1是本发明实施例一的电网用电客户的细分方法的流程图；

图2是本发明实施例二的电网用电客户的细分方法的流程图；

图3是本发明实施例的电网用电客户的细分系统框图。

附图标记：

10、存储器；20、处理器。

具体实施方式

为了便于理解本发明，下文将结合说明书附图和较佳的实施例对本发明作更全面、细致地描述，但本发明的保护范围并不限于以下具体的实施例。

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

实施例一

参照图1，本发明实施例一提供的电网用电客户的细分方法，包括：

步骤S101，采集电网用电客户的历史用电数据；

步骤S102，对历史用电数据进行标准化处理，获得标准化用户数据,标准化用户数据至少包括优化文本内容和优化文本词语；

步骤S103，根据优化文本内容和优化文本词语计算电网用电客户的可信度特征和重要性特征；

步骤S104，通过LDA主题模型对优化文本内容和优化文本词语进行建模计算，从而获得主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率，并根据主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率计算困惑度；

步骤S105，基于随机森林模型，利用电网用电客户的可信度特征、电网用电客户的重要性特征以及主题分布概率，建立用户细分模型；

步骤S106，根据用户细分模型，对电网用电客户进行分类。

本发明实施例提供的电网用电客户的细分方法，通过采集电网用电客户的历史用电数据，对历史用电数据进行标准化处理，获得标准化用户数据,标准化用户数据至少包括优化文本内容和优化文本词语，根据优化文本内容和优化文本词语计算电网用电客户的可信度特征和重要性特征，通过LDA主题模型对优化文本内容和优化文本词语进行建模计算，从而获得主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率，并根据主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率计算困惑度，基于随机森林模型，利用电网用电客户的可信度特征、电网用电客户的重要性特征以及主题分布概率，建立用户细分模型以及根据用户细分模型，对电网用电客户进行分类，解决了现有技术由于缺乏深度挖掘历史用电数据的语义特征，从而使得对电网用电客户分类结果的准确度不高的技术问题，通过对电网用电客户的历史用电数据进行LDA主题模型计算，能精准提取历史用电数据的语义特征，从而精准建立用于对电网用电客户进行细分的用户细分模型，大大提高了对电网用电客户进行细分的准确性，有利于实现用电精准营销。

本发明实施例的电网用电客户的细分方法，属于用户数据深度挖掘分析领域，细分用电客户等级，起到提升服务质量的作用。本发明实施例具有思路清晰，算法简便，工作量较少，执行效率高的特点；本发明实施例利用电网公司数据平台上收集用户信息数据，并对文本内容进行冗余处理、数据变换处理，从而获得优化文本内容以及优化文本内容词组，统计优化文本内容词语的数量，并利用z-score标准化电力数据计算用户可信度特征以及重要性程度，对优化文本内容分布概率计算困惑度，进一步构建用户特征向量，通过用户可信度特征、用户行为特征、优化文本内容中预设LAD主题的分布概率作为随机森林模型的输入特征以建立用户细分模型，本发明深入挖掘了电力数据中文本语义信息达到客户细分的目的。

具体地，本实施例一方面充分考虑了电网用电客户的可信度特征和重要性特征，另一方面通过对历史用电数据进行语义识别，能获得主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率，从而能精准提取历史用电数据的语义特征，进一步使得基于随机森林模型，利用电网用电客户的可信度特征、电网用电客户的重要性特征以及主题分布概率，能建立用于对电网用电客户进行细分的用户细分模型，大大提高了对电网用电客户进行细分的准确性，有利于实现用电精准营销。

实施例二

参照图2，本发明实施例二提供的电网用电客户的细分方法包括：

步骤S201，采集电网用电客户的历史用电数据。

具体地，本实施例假设从H省电网公司数据平台上收集部分用户信息数据，所述用户数据包括个人信息、归属台区、电源类别、电费信息、合同时长、抄表周期、停电次数、投诉记录；

优选地，本实施例的历史用电数据具体为：

yonghu{name_i,verify_i,taiqu_i,dianyuan_i,money_i,hetong_i,time_i,weiyue_i,tousu_i}(1≤i≤M)

其中，M为用户数，i为用户编号，name_i为姓名，verify_i为用户状态，taiqu_i为台区，dianyuan_i为电源相数，money_i为交费金额，hetong_i为合同时长，time_i为抄表周期，weiyue_i为违约次数，tousu_i为投诉次数；

本实施例中的人工标注过程具体是通过国网大数据平台来对用户状态进行评定，verify_i表示该用户是否正常用电，若正常，则verify_i为1，否则verify_i为0，通过此项举措能减少对于数据量，使分析效率提高。

步骤S202，对历史用电数据进行冗余和数据变换处理，获得预处理数据。

步骤S203，对预处理数据进行z-score标准化处理，从而获得标准化用户数据,标准化用户数据至少包括优化文本内容和优化文本词语。

具体地，本实施例首先通过对历史用电数据进行冗余和数据变换处理，从而获得预处理数据，然后对预处理数据进行z-score(standard score，标准分数)标准化处理，从而获得z-score标准化用户数据,标准化用户数据至少包括优化文本内容和优化文本词语。本实施例的z-score标准化用户数据具体为：

z_yonghu_i{op_doc_i,op_word_i,op_n_i,verify_i,taiqu_i,z_dianyuan_i,z_money_i,z_hetong_i,z_time_i,z_cishu_i,z_tousu_i}(1≤i≤M)

其中，op_doc_i为优化文本内容,op_word_i为优化文本词语,op_n_i为优化文本词语的数量，verify_i为z_socre标准化用户状态，z_dianyuan_i为z_socre标准化电源数,z_money_i为z_socre标准化电费数,z_hetong_i为z_socre标准化合同时长,z_time_i为z_socre标准化抄表周期数,z_weiyue_i为z_socre标准化违约次数,z_tousu_i为z_socre标准化投诉次数。

步骤S204，根据优化文本内容和优化文本词语计算电网用电客户的可信度特征和重要性特征。

具体地，根据优化文本内容和优化文本词语计算电网用电客户的可信度特征的计算公式具体为：

本发明实施例利用可信度特征是为了确定该用户的投诉行为可信任程度，重要性特征是该用户对于电力公司的重要性，因此在可信度和重要性上对客户进行细分。

步骤S205，通过LDA主题模型对优化文本内容和优化文本词语进行建模计算，从而获得主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率，并根据主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率计算困惑度。

具体地，本实施例根据主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率计算困惑度的计算公式具体为：

D＝{op_word₁,…,op_word_M}

pyonghu_i＝(p_i,1,…,p_i,k)(1≤i≤M)

其中，perplexity(D)表示困惑度,M表示电网用电客户数目,D表示所有标准化用户数据对应的优化文本词语的集合，op_word_i表示第i条标准化用户数据对应的优化文本词语，op_n_i表示第i条标准化用户数据对应的优化文本词语的数量，p(z_j|op_doc_i)表示第i条标准化用户数据对应的优化文本内容中第j个主题出现的概率,p(op_word_i|z_j)表示第j个主题中第i条标准化用户数据对应的优化文本词语出现的概率,K为困惑最小时的主题个数，p(op_word_i)表示第i条标准化用户数据对应的优化文本内容中优化文本词语的概率,pyonghu_i表示第i条标准化用户数据对应的主题分布概率，且p_i,1,…,p_i,k分别为z₁,…,z_k主题的概率。

本发明实施例计算困惑度的目的是为了得到电力用户关于投诉类文本中出现的词语概率，确定该用户投诉的偏好，加强对客户的细分。

步骤S206，基于电网用电客户的可信度特征、电网用电客户的重要性特征以及主题分布概率，构建用户细分特征向量。

具体地，本实施例的用户细分特征向量具体为：

cyonghu_i＝(p_i,1,…,p_i,k,Reliability_i,Important_i)(1≤i≤M)

其中，M为用户数，p_i,1,…,p_i,k分别为z₁,…,z_k主题的概率，Reliability_i为用户可信度特征，Important_i为用户重要性特征。

步骤S207，将电网用电客户的可信度特征、电网用电客户的重要性特征以及优化文本内容中预设LAD主题的分布概率作为随机森林模型的输入特征，并使用十折交叉验证的网格搜索算法计算基于CART决策树的随机森林模型的最优参数。

步骤S208，基于随机森林模型，利用最优参数以及用户细分特征向量，建立用户细分模型。

具体地，本实施例将电网用电客户的可信度特征、电网用电客户的重要性特征以及优化文本内容中预设LAD主题的分布概率作为随机森林模型的输入特征，使用10折交叉验证的网格搜索算法计算基于CART(Classification And Regression Tree，分类与回归树)决策树的随机森林模型的最优参数，然后基于随机森林模型，利用最优参数以及用户细分特征向量，建立用户细分模型，并根据人工标注的用户数据进行训练得到最终用户细分模型，以此达到客户细分的目的。

本实施例中的最优参数指的对所有得到特征进行十折交叉验证中，用到的数据是训练集中的所有数据。本实施例将训练集的所有数据平均划分成十份，取第十份作为验证集，余下的九份作为交叉验证的训练集，从而得出每个特征值的最优参数。

步骤S209，根据用户细分模型，对电网用电客户进行分类。

综上，本发明公开了一种基于文字识别和随机森林的重要用电客户细分方法，其中，从电网公司数据平台上收集用户信息数据，并对文本内容进行冗余处理、数据变换处理，从而获得优化文本内容以及优化文本词语，统计优化文本词语的数量，并利用z-score标准化电力数据计算用户可信度特征以及重要性程度，对优化文本内容分布概率计算困惑度，进一步构建用户特征向量，通过用户可信度特征、用户行为特征、优化文本内容中预设LAD主题的分布概率作为随机森林模型的输入特征以建立用户细分模型，对用户进行细分，同时也精准营销，提高了营销精确性。

本实施例将电网用电客户的可信度特征、电网用电客户的重要性特征以及优化文本内容中预设LAD主题的分布概率作为随机森林模型的输入特征，一方面充分考虑了电网用电客户的可信度特征和重要性特征，另一方面，通过对历史用电数据进行语义识别，能获得主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中优化文本词语的分布概率，从而能精准提取历史用电数据的语义特征，进而使得将电网用电客户的可信度特征、电网用电客户的重要性特征以及优化文本内容中预设LAD主题的分布概率作为随机森林模型的输入特征，以及基于随机森林模型，利用最优参数以及用户细分特征向量，能建立用于对电网用电客户进行细分的用户细分模型，大大提高了对电网用电客户进行细分的准确性，有利于实现用电精准营销。

参照图3，本发明实施例提出的电网用电客户的细分系统，包括：

存储器10、处理器20以及存储在存储器10上并可在处理器20上运行的计算机程序，其中，处理器20执行计算机程序时实现本实施例提出的电网用电客户的细分方法的步骤。

本实施例的电网用电客户的细分系统的具体工作过程和工作原理可参照本实施例中的电网用电客户的细分方法的工作过程和工作原理。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种电网用电客户的细分方法，其特征在于，所述方法包括：

采集电网用电客户的历史用电数据；

对所述历史用电数据进行标准化处理，获得标准化用户数据,所述标准化用户数据至少包括优化文本内容和优化文本词语；

根据所述优化文本内容和优化文本词语计算电网用电客户的可信度特征和重要性特征；

通过LDA主题模型对所述优化文本内容和优化文本词语进行建模计算，从而获得主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中所述优化文本词语的分布概率，并根据所述主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中所述优化文本词语的分布概率计算困惑度；

基于随机森林模型，利用所述电网用电客户的可信度特征、所述电网用电客户的重要性特征以及所述主题分布概率，建立用户细分模型；

根据所述用户细分模型，对电网用电客户进行分类。

2.根据权利要求1所述的电网用电客户的细分方法，其特征在于，对所述历史用电数据进行标准化处理，获得标准化用户数据包括：

对所述历史用电数据进行冗余和数据变换处理，获得预处理数据；

对所述预处理数据进行z-score标准化处理，从而获得标准化用户数据,所述标准化用户数据至少包括优化文本内容和优化文本词语。

3.根据权利要求2所述的电网用电客户的细分方法，其特征在于，根据所述优化文本内容和优化文本词语计算电网用电客户的可信度特征的计算公式具体为：

根据所述优化文本内容和优化文本词语计算所述用户重要性特征的计算公式具体为：

4.根据权利要求3所述的电网用电客户的细分方法，其特征在于，根据所述主题分布概率、优化文本内容中预设LAD主题的分布概率以及LAD主题中所述优化文本词语的分布概率计算困惑度的计算公式具体为：

D＝{op_word₁,…,op_word_M}

pyonghu_i＝(p_i,1,…,p_i,k)(1≤i≤M)

5.根据权利要求4所述的电网用电客户的细分方法，其特征在于，基于随机森林模型，利用所述电网用电客户的可信度特征、所述电网用电客户的重要性特征以及所述主题分布概率，建立用户细分模型包括：

基于所述电网用电客户的可信度特征、所述电网用电客户的重要性特征以及所述主题分布概率，构建用户细分特征向量；

将所述电网用电客户的可信度特征、所述电网用电客户的重要性特征以及所述优化文本内容中预设LAD主题的分布概率作为随机森林模型的输入特征，并使用十折交叉验证的网格搜索算法计算基于CART决策树的随机森林模型的最优参数；

基于所述随机森林模型，利用所述最优参数以及所述用户细分特征向量，建立用户细分模型。

6.根据权利要求5所述的电网用电客户的细分方法，其特征在于，所述历史用电数据包括电网用电客户的个人信息、归属台区、电源类别、电费信息、合同时长、抄表周期、停电次数、投诉记录中的一个或多个数据。

7.一种电网用电客户的细分系统，其特征在于，所述系统包括：

存储器(10)、处理器(20)以及存储在存储器(10)上并可在处理器(20)上运行的计算机程序，所述处理器(20)执行所述计算机程序时实现上述权利要求1至6任一所述方法的步骤。