CN112417308A

CN112417308A - 一种基于电力大数据的用户画像标签生成方法

Info

Publication number: CN112417308A
Application number: CN202011496283.5A
Authority: CN
Inventors: 杨迪; 吕云彤; 冀明; 耿泉峰; 李牧
Original assignee: Marketing Service Center of State Grid Hebei Electric Power Co Ltd
Current assignee: Marketing Service Center of State Grid Hebei Electric Power Co Ltd
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2021-02-26

Abstract

本发明公开了一种基于电力大数据的用户画像标签生成方法，利用大数据处理技术生成用户特性标签的,用户特性标签通过分析用户的特征诉求指标利用大数据算法模型生成；大数据处理技术的基础数据库构型围绕客户诉求构建，将电力95598、电力内网外网、手机APP、微信公众号线、营业厅意见簿等渠道的意见和咨询数据流导入基础数据库作为标签数据原始来源，通过数据分析以标签的形式对客户进行标记。本发明能够整合公司多种来源数据，依托大数据分析技术，建立多维度、立体化的客户画像，通过标签对客户深层次行为特征进行描述。

Description

一种基于电力大数据的用户画像标签生成方法

技术领域

本发明涉及一种用户标签生成方法，尤其是一种基于电力大数据的用户画像标签生成方法。

背景技术

大数据技术的发展为电力企业的对客户的准确辨识提供了技术支撑，为制定针对性的用户服务策略提供了技术支持，这对于未来提高电力用户体验非常关键。随着售电侧开放，一个多方参与的售电市场即将形成，给传统供电企业带来新的考验。客户对电力企业的品牌印象会随着企业角色、职能的转变发生变化，品牌形象处于垄断型的国企及服务型事业单位的交叉口，供电企业应主动出击，掌握新形势下的客户需求，不断推动服务升级，促进服务品牌形象的全面提升。目前电力企业对电力用户的了解存在两方面问题：一是缺乏完整的电力用户描述，营销系统内用户以用户编号为主体，联系方式为用户的一个属性，且一户一般为一个联系方式，而95598系统内以客户拨打95598电话为主体，且和营销系统内的单个用户的为多对一关系，因此两者无法实现精准对应。二是缺乏对电力用户基于其基本属性、社会属性、价值属性、服务记录等全生命周期的全方位信息进行分类方法，无法为新型客户管理模式提供数据支撑。

发明内容

本发明要解决的技术问题是提供一种基于电力大数据的用户画像标签生成方法。

为实现上述目的，本发明所采用的技术方案如下：

一种基于电力大数据的用户画像标签生成方法，该方法利用大数据处理技术生成用户特性标签的,用户特性标签通过分析用户的特征诉求指标利用大数据算法模型生成；大数据处理技术的基础数据库构型围绕客户诉求构建，将电力95598、电力内网外网、手机APP、微信公众号线、营业厅意见簿等渠道的意见和咨询数据流导入基础数据库作为标签数据原始来源，通过数据分析以标签的形式对客户进行标记。

作为本发明的一种优选技术方案，构建特征诉求指标的数据库，此数据库包含如下子数据库分支：包括电网建设诉求特征指标子数据库、供电质量诉求特征指标子数据库、故障抢修诉求特征指标子数据库、营业诉求特征指标子数据库、服务诉求特征指标子数据库。

作为本发明的一种优选技术方案，所述电网建设诉求特征指标子数据库包括：施工合规性、电网设施建设与施工不规范、农网改造不及时、占地赔偿对等性、噪音污染。

作为本发明的一种优选技术方案，所述供电质量诉求特征指标子数据库包括：频繁停电、频繁停电、低电压、电能质量异常、无故停电、未按计划停送电。

作为本发明的一种优选技术方案：所述故障抢修诉求特征指标子数据库包括：抢修服务态度差、抢修质量不高、抢修超时限。

作为本发明的一种优选技术方案，所述营业诉求特征指标子数据库包括：抄表错误及欠费停电不通知、复电不及、表计线路、业扩报装超时限、其他类。

作为本发明的一种优选技术方案，所述服务诉求特征指标子数据库包括：服务人员态度冷漠、行为不规范、营业厅及收费网点管理不规范。

作为本发明的一种优选技术方案，所述大数据算法模型包括线性回归模型，利用回归分析确定两种或两种以上变量间相互依赖的定量关系；所述大数据算法模型包括Logistic回归模型，根据现有数据对分类边界建立回归公式并以此进行分类，回归最佳拟合；所述大数据算法模型包括决策树模型，通过训练数据构建决策树，对未知的数据进行分类；所述大数据算法模型包括聚类分析模型，基于距离进行非层次聚类，在最小化误差函数的基础上将数据划分为预定的类数K，采用距离作为相似性的评价指标；所述大数据算法模型还包括神经网络模型。

采用上述技术方案所产生的有益效果在于：本发明能够实现对电力客户的准确的特征识别，方便企业制定针对性的服务策略来提高客户服务满意度。本发明能够整合公司多种来源数据，依托大数据分析技术，建立多维度、立体化的客户画像，通过标签对客户深层次行为特征进行描述，为电力同类型的客户提供个性化服务，打造以客户标签为核心的新型客户管理模式提供数据支撑。

具体实施方式

实施例1

本实施例涉及一种基于电力大数据的用户画像标签生成方法，该方法利用大数据处理技术生成用户特性标签的,用户特性标签通过分析用户的特征诉求指标利用大数据算法模型生成；大数据处理技术的基础数据库构型围绕客户诉求构建，将电力95598、电力内网外网、手机APP、微信公众号线、营业厅意见簿等渠道的意见和咨询数据流导入基础数据库作为标签数据原始来源，通过数据分析以标签的形式对客户进行标记。

特征诉求指标的数据库需要首先得到构建，其包含如下子数据库分支：包括电网建设诉求特征指标子数据库、供电质量诉求特征指标子数据库、故障抢修诉求特征指标子数据库、营业诉求特征指标子数据库、服务诉求特征指标子数据库；其中，电网建设诉求特征指标子数据库包括：施工合规性、电网设施建设与施工不规范、农网改造不及时、占地赔偿对等性、噪音污染；供电质量诉求特征指标子数据库包括：频繁停电、频繁停电、低电压、电能质量异常、无故停电、未按计划停送电；故障抢修诉求特征指标子数据库包括：抢修服务态度差、抢修质量不高、抢修超时限；营业诉求特征指标子数据库包括：抄表错误及欠费停电不通知、复电不及、表计线路、业扩报装超时限、其他类；服务诉求特征指标子数据库包括：服务人员态度冷漠、行为不规范、营业厅及收费网点管理不规范。

大数据算法模型可以有诸多交叉运用选项，包括线性回归模型，利用回归分析确定两种或两种以上变量间相互依赖的定量关系；所述大数据算法模型包括Logistic回归模型，根据现有数据对分类边界建立回归公式并以此进行分类，回归最佳拟合；所述大数据算法模型包括决策树模型，通过训练数据构建决策树，对未知的数据进行分类；所述大数据算法模型包括聚类分析模型，基于距离进行非层次聚类，在最小化误差函数的基础上将数据划分为预定的类数K，采用距离作为相似性的评价指标。

实施例2

线性回归模型的构建步骤包括：搜集数据：系统搜集研究对象有关特征量的大量历史数据；由于回归分析是建立在大量的数据基础之上的定量分析方法，历史数据的数量及其准确性都直接影响到回归分析的结果；

设定回归方程：以大量的历史数据为基础，分析其间的关系，根据自变量与因变量之间所表现出来的规律设定回归方程；设定回归方程是回归分析法的关键，选择最优模型进行回归方程的设定是运用回归分析法进行预测的基础；

确定回归系数：将已知数据代入设定的回归方程，并用最小二乘法原则计算出回归系数，确定回归方程；

进行相关性检验：相关性检验是指对已确定的回归方程能够代表自变量与因变量之间相关关系的可靠性进行检验，有R检验、t检验和F检验三种方法；

进行预测，并确定置信区间：通过相关性检验后，利用已确定的回归方程进行预测；在进行单点预测的同时给出该单点预测值的置信区间。

实施例3

Logistic回归模型根据现有数据对分类边界建立回归公式并以此进行分类，回归即最佳拟合；Logistic回归模型的构建步骤包括：A、逻辑回归架构设置：1)每个回归系数初始化为1；2)重复R次；3)计算整个数据集的梯度；4)使用步长x梯度更新回归系数的向量；5)返回回归系数；B、逻辑回归算法流程设置：收集数据:采用信息化方法收集数据；准备数据:由于需要进行距离计算，要求数据类型为数值型，对数据进行结构化格式转换；分析数据：基于数据用途导向对数据进行分析；训练算法：设置训练的目的为找到最佳的分类回归系数；测试算法：训练步骤完成测试算法的可行性和执行速率；使用算法：首先一些数据，并将其转换成对应的结构化数值，接着基于训练好的回归系数对这些数值进行回归计算，完成归类回归判定类别。

Logistic回归模型，Logistic回归模型作为一种传统的统计模型，对变量是否服从正态分布没有要求，自变量可以是连续或非连续性的，对于因变量非连续性的信用风险的等级划分最合适，即使信用风险与其他相关因素之间不存在线性关系，我们也可以进行研宄，可以运用对借款人未来违约概率的测算，灵活性较强，具有非常现实的经济意义。Logistic回归模型，在数据完整的情况下，可以使用于各种违约率的测算。

基于因变量的个数，以及Logistic回归模型不要求自变量服从正态分布，本文选取有序Logistic回归模型，假设因变量有M类，通过拟合M-1个因变量的回归模型：

其中，Y表示企业信用属于某一等级的概率，X_i表示自变量的第i个指标。由于有序Logistic回归模型属于累计函数，对进行赋值，得出累计Logist模型：

Logit(P_i)＝ln[P(y≤j)/P(y≥j+1)]＝a_i+bX (2)

其中，a代表第i个自变量对应的模型的截距，b表示一组与X对应的回归系数。

根据模型输出输出的结果，从参数估计里得出截距项a和系数项b，当Y等于一个特定的值时可以求出Y＝j发生的概率：

对于模型中自变量来的系数b的解释为：

当b＝0时，自变量X对于Y没有影响；

当b＞0时，P(y＞j)较大，而P(y＜j)比较小，当X增大时，会提高选择较高级别的可能性，而降低选择较低级别的可能性(假定模型中的j＝l为最低级别)。

当b＜0时，P(y＜j)比较大，而P(y＞j)较小，当X增大时，会降低选择较高级别的可能性，而提高选择较低接别的可能性。

由于Logistic回归属于累计回归函数，用b的反对数来反映累计概率比：

若b＞0时，exp(-b)＜l，即X每增加一个单位，累计概率就会减少，选择等级高的可能性就会加大。

若b＜0时，exp(-b)＞l，即X每增加一个单位，累计概率就会增加，选择等级高的可能性就会降低。

由于因变量涉及到有序的多分类变量，选用有序Logistic回归，然而有序Logistic回归，模型是一个累积回归函数，模型估计出的概率为累积概率，得出累计概率比来检测各个自变量的效应的大小。

Logistic回归模型的设计方面，本发明利用有序Logistic回归分析债券的信用风险，在结合实际的影响因素，提出一定的预设，找出可能的影响因素，由于因素繁多，各个变量之间可能存在相关性，为提高模型的准确性，首先要对变量进行因子分析处理，采用降维的方法提取出成份因子，由此去除变量之间的相关性，最后合并进行有序Logistic回归。第一步，对选取的具有代表性的指标数据进行降维，采取最大方差法，观测自变量累积概率和特征值大小得出主成份，分析旋转矩阵和旋转载荷将自变量归类到主成份中，并给主成份进行命名，并从成份系数得分中得出主成份因子和各个自变量之间的关系。第二步，指标因素进行因子分析后，得出主成份因子并命名和提取。第三步，对前两步得出的主成份因子进行整合，通过有序Logistic回归分析，得出数据标签特性。

实施例4

决策树模型通过训练数据构建决策树，对未知的数据进行分类；决策树模型的构建步骤包括：①开始，所有记录看作一个节点；遍历每个变量的每一种分割方式，找到最好的分割点；②分割成两个节点N₁和N₂；③对N₁和N₂分别继续执行2-3步，直到每个节点足够“纯”为止；其中，决策树的变量数据包括：①数字型：变量类型是整数或浮点数，用“>＝”，“>”,“<”或“<＝”作为分割条件；排序后，利用已有的分割情况优化分割算法的时间复杂度；②名称型：同构于编程语言中的枚举类型，变量只能重有限的选项中选取，使用“＝”来分割。

决策构造主要分为两步：1.决策树的生成，决策树的生成过程就是根据训练样本集的数据构造决策树的过程。通常，训练样本集都是按照实际需求，根据实际的历史数据生成的、具有综合性的、可以应用到数据分析处理中的数据集。2.决策树的剪支，决策树的剪支实际上就是对生成的上一层决策树的校正过程，它的剪枝过程就是利用测试样本集的数据验证生成决策树的过程里形成的规则是否准确，剪掉对分类有影响的分支。通常，是用测试样本集的各个元组都去验证形成的规则，看其预测结果是否准确，如果这个分支的准确度太低，就剪除这个分支。决策树模型的生成，训练样本集里的数据作为生成决策树的输入数据，决策树模型就是最终的输出结果，决策树模型中的任何一个决策节点都代表着一个子集中的数据元组的决策属性，决策属性的不同取值决定着决策树的分支，而叶子节点则表示的是各个类的分布。通常在决策树的生成过程中，用椭圆来表示叶子节点，用矩形代表中间节点，分支则表示上方决策属性的不同取值。生成决策树主要由以下步骤完成：(1)参考实际情况结合数据经处理后得到的特征来处理训练样本集中的数据，按照用户的需求去选取决策属性和类别标识属性(2)选取所有决策属性里辨识能力最强的决策属性作决策树的决策节点。其中，在决策树生成的过程里，第一个决策节点的属性在全部决策属性中辨识能力最强，称其为决策树的根节点。(3)按照决策节点属性的不同取值来划分训练样本集，可以得到若干个子集。子集的个数由决策属性的取值个数决定。(4)对(3)中得到的各个子集，反复进行以上两步，直至最后得到的子集至少符合以下条件中的一个：条件一：子集中的全部元组是同一类别；条件二：最后得到的子集经过了全部的决策属性；条件三：该子集中数据的余下决策属性已经完全一致，这些余下的决策属性不能对子集的进一步划分产生影响。(5)生成叶子节点；对符合条件一的子集产生的叶子节点，由这个子集元组的类别就可以得到类别标识。对符合条件二、三的子集产生的叶子节点，选择该子集的元组中最具有代表性的特征作为类别标识，通常都是选取元组数目较多的类别作为类别标识。利用以上所述的步骤，就可以获得对训练样本进行分类的决策树。决策树模型的任何一个从根节点出发到其下叶子节点的分支都能够获得一条用于识别数据元组类型的规则。

决策树模型的应用，在电力系统中,由于多种监控设备相继投入使用,对不同时间采集到的数据更新速度很快,其中包括当前和过去一段时间内的有效数据,面对庞大的数据，必须用数据挖掘工具对其进行细致分析。一般情况下，数据分类可以分为两个步骤：首先,依照训练集,寻找到正确的可用于映射函数H:f(x)。c表示的模型；接下来,通过训练后得到的函数模型预测数据的类别。具体步骤就是:数据中心—决策树分类器—分类结果。决策树处理数据的流每一棵决策树都可以看作是一个类别分类器,它能够通过数据训练对数据进行递归的划分,最终使每个子集所包含的类别全属于某一类别或者其中的某一类别占压倒性的大多数。决策树的每个非终端节点都会含有一个分割点,也就是数据属性的测试点,它决定了数据将被如何划分。

实施例5

聚类分析模型基于距离进行非层次聚类，在最小化误差函数的基础上将数据划分为预定的类数K，采用距离作为相似性的评价指标，认为两个对象的距离越近，其相似度就越大；所述聚类分析模型的构建步骤包括：从数据中选择k个对象作为初始聚类中心；计算每个聚类对象到聚类中心的距离并以此为基础进行数据划分；再次计算每个聚类中心；计算标准测度函数，之道达到最大迭代次数，则停止，否则，继续操作；其中，K的确定与层次聚类结合，首先采用层次凝聚算法决定结果粗的数目，并找到一个初始聚类，然后用迭代重定位来改进该聚类；其中，初始质心的选取：①多次运行，每次使用一组不同的随机初始质心，然后选取具有最小SSE的簇集；②取一个样本，并使用层次聚类技术对它聚类，从层次聚类中提取K个簇，并用这些簇的质心作为初始质心；③取所有点的质心作为第一个点，然后，对于每个后继初始质心，选择离已经选取过的初始质心最远的点；对于距离度量不管是采用欧式距离还是采用余弦相似度，簇的质心都是其均值；其中，距离的度量方法包括：基于余弦的欧几里得距离度量法，欧几里得距离度量会受指标不同单位刻度的影响，需要先进行标准化，同时距离越大个体间差异越大；空间向量余弦夹角的相似度度量不会受指标刻度的影响，余弦值落于区间[-1,1]，值越大，差异越小；其中，算法停止条件为，目标函数达到最优或者达到最大的迭代次数即可终止；当采用欧式距离时，目标函数为最小化对象到其簇质心的距离的平方和；当采用余弦相似度时，目标函数为最大化对象到其簇质心的余弦相似度和。

实施例6

神经网络模型，通过模仿人脑神经网络结构和功能，可以协同处理大规模分布式存储信息和并行信息，ANN本质上是对人脑的简化和抽象化模拟。ANN具有对非线性系统由任意近似的能力，可以通过自我学习、自我调整，对网络内部节点之间的相互连接关系进行处理，不断的调整模型参数来适应外部环境的变化，最终实现信息的学习和自适应功能。神经网络突出优点是能够处理大规模系统的并行分布问题，动态响应速度快，学习记忆功能强。这些优点归功于ANN自身的网络的拓扑和节点的处理能力。ANN作为一个并行系统，依靠简单的神经元结构和节点处理功能，使得网络的运算速度很快。神经网络主要有以下几个特点：(1)联想记忆能力强和容错性好，ANN神经元机构及连接方式决定了其具有的联想记忆特点。记忆信息通过节点分布式方式存储在神经元间的权值系数里。如果发生记忆信息模糊或者坏损，通常对神经网络也不会产生严重影响，因此系统抗噪性和容错性强，在误差容许范围内，训练神经网络样本还能够帮助处理有数据残缺的历史资料。(2)并行性强，神经网络由无数单一神经元构成，虽然单一神经元结构简单、功能单一，但是组成网络就可以进行大量并行运算，信息处理能力增强。(3)非线性强，神经网络最主要特点就是对非线性系统具有任意的近似能力，其输入与输出端口的外部特性保持高度非线性，能够处理复杂的逻辑运算和非线性问题，ANN一般应用三层神经网络近似地表达非线性连续函数。(4)自学习性强，可以对神经网络进行学习与训练，即使外部环境多变复杂，神经网络也能自动调整网络拓扑和连接方式，以适应多变的外部环境，使得输出效果更逼近实际。

神经元数学表达式在一个神经元及网络中地位十分重要，神经网络能否具有记忆学习能力除了与网络非线性复杂连接结构有关，更重要的是取决于自身的传递函数。为了区别于自动控制理论并突出该函数的作用，在此将神经网络传递函数命名为启动函数，主要作用如下：(1)启动输入对输出的函数控制；(2)转换输入信号和输出信号；(3)对于无穷大的输入，可以实现限幅输出作用。启动函数通常是非线性函数。常见的启动函数类型有：阈值型、线性型、S型。

(1)阈值型传递函数将任意输入信号根据性质不同输出为0或1的幅值，函数表现为单位阶跃特性。此时，人工神经元的输入-输出表达式为：

(2)分段线性型启动转移函数中，网络的输出等于加权输入加上偏差值，函数的输入-输出表达式为：

A＝f(W*P+b)＝W*P+b

(3)S型S型启动函数将任意输入幅值限制到(0，1)区域内，在该范围函数单调可微，常用的S型函数为指数函数或双曲正切函数。函数的输入-输出表达式为：

根据神经元连接方式不同，神经网络可分为两种：无反馈的前向网络及相互结合型。前向网络包括输入层、中间层和输出层3部分，中间层可内含多层，但是每层的神经元映射前一层的输出。对于结合型网络，神经元之间是互联的，这样信息可以在神经元之间反复得到学习和训练，最终输入信号渐渐趋于某一稳定状态。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明权利要求保护的范围之内。

Claims

1.一种基于电力大数据的用户画像标签生成方法，其特征在于：该方法利用大数据处理技术生成用户特性标签的,用户特性标签通过分析用户的特征诉求指标利用大数据算法模型生成；大数据处理技术的基础数据库构型围绕客户诉求构建，将电力95598、电力内网外网、手机APP、微信公众号线、营业厅意见簿等渠道的意见和咨询数据流导入基础数据库作为标签数据原始来源，通过数据分析以标签的形式对客户进行标记。

2.根据权利要求1所述的一种基于电力大数据的用户画像标签生成方法，其特征在于：构建特征诉求指标的数据库，此数据库包含如下子数据库分支：包括电网建设诉求特征指标子数据库、供电质量诉求特征指标子数据库、故障抢修诉求特征指标子数据库、营业诉求特征指标子数据库、服务诉求特征指标子数据库。

3.根据权利要求1所述的一种基于电力大数据的用户画像标签生成方法，其特征在于：所述电网建设诉求特征指标子数据库包括：施工合规性、电网设施建设与施工不规范、农网改造不及时、占地赔偿对等性、噪音污染。

4.根据权利要求1所述的一种基于电力大数据的用户画像标签生成方法，其特征在于：所述供电质量诉求特征指标子数据库包括：频繁停电、频繁停电、低电压、电能质量异常、无故停电、未按计划停送电。

5.根据权利要求1所述的一种基于电力大数据的用户画像标签生成方法，其特征在于：所述故障抢修诉求特征指标子数据库包括：抢修服务态度差、抢修质量不高、抢修超时限。

6.根据权利要求1所述的一种基于电力大数据的用户画像标签生成方法，其特征在于：所述营业诉求特征指标子数据库包括：抄表错误及欠费停电不通知、复电不及、表计线路、业扩报装超时限、其他类。

7.根据权利要求1所述的一种基于电力大数据的用户画像标签生成方法，其特征在于：所述服务诉求特征指标子数据库包括：服务人员态度冷漠、行为不规范、营业厅及收费网点管理不规范。

8.根据权利要求1所述的一种基于电力大数据的用户画像标签生成方法，其特征在于：所述大数据算法模型包括线性回归模型，利用回归分析确定两种或两种以上变量间相互依赖的定量关系；所述大数据算法模型包括Logistic回归模型，根据现有数据对分类边界建立回归公式并以此进行分类，回归最佳拟合；所述大数据算法模型包括决策树模型，通过训练数据构建决策树，对未知的数据进行分类；所述大数据算法模型包括聚类分析模型，基于距离进行非层次聚类，在最小化误差函数的基础上将数据划分为预定的类数K，采用距离作为相似性的评价指标；所述大数据算法模型还包括神经网络模型。