CN112529630A - 一种电力用户多维度信息化标签系统的构建方法 - Google Patents
一种电力用户多维度信息化标签系统的构建方法 Download PDFInfo
- Publication number
- CN112529630A CN112529630A CN202011496235.6A CN202011496235A CN112529630A CN 112529630 A CN112529630 A CN 112529630A CN 202011496235 A CN202011496235 A CN 202011496235A CN 112529630 A CN112529630 A CN 112529630A
- Authority
- CN
- China
- Prior art keywords
- user
- data
- regression
- model
- dimensional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 35
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 33
- 230000004069 differentiation Effects 0.000 claims abstract description 19
- 238000012360 testing method Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 19
- 238000007477 logistic regression Methods 0.000 claims description 16
- 238000003066 decision tree Methods 0.000 claims description 15
- 238000000611 regression analysis Methods 0.000 claims description 15
- 230000006399 behavior Effects 0.000 claims description 13
- 238000012417 linear regression Methods 0.000 claims description 10
- 238000005259 measurement Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000007621 cluster analysis Methods 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 6
- 230000005611 electricity Effects 0.000 claims description 6
- 238000000691 measurement method Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000005054 agglomeration Methods 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000010224 classification analysis Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000004445 quantitative analysis Methods 0.000 claims description 3
- 238000011084 recovery Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/06—Electricity, gas or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- Evolutionary Biology (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Pure & Applied Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Operations Research (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
Abstract
本发明公开了一种电力用户多维度信息化标签系统及其构建方法,首先通过分析用户的特征指标生成用户特性标签;并为用户特性标签设置用户维度和诉求维度,用户维度设置三组用户坐标,诉求维度面向用户诉求建立差异化指标;然后以建立多维度、立体化的用户画像为数据结构导向构建大数据算法模型,构建以用户标签为核心的信息化数据平台,对用户深层次行为特征进行描述,以准确识别电力客的特征户和为同类型电力用户提供差异化服务。本发明基于用户标签概念进行系统构建,使得能够采用自然语言方式描述对象特征的方法,可以用于对象的定性描述,为个性化服务提供支持。
Description
技术领域
本发明涉及电力信息化技术领域,尤其是一种基于用户信息化标签和用户画像的电力信息化系统及其构建方法。
背景技术
随着售电侧开放,一个多方参与的售电市场即将形成,给传统供电企业带来新的考验。用户对电力企业的品牌印象会随着企业角色、职能的转变发生变化,品牌形象处于垄断型的国企及服务型事业单位的交叉口,供电企业应主动出击,掌握新形势下的用户需求,不断推动服务升级,促进服务品牌形象的全面提升。
大数据技术的发展为电力企业的对用户的准确辨识提供了技术支撑,为制定针对性的用户服务策略提供了技术支持,这对于未来提高电力用户体验非常关键。
目前电力企业对电力用户的了解存在两方面问题:一是缺乏完整的电力用户描述,营销系统内用户以用户编号为主体,联系方式为用户的一个属性,且一户一般为一个联系方式,而95598系统内以用户拨打95598电话为主体,且和营销系统内的单个用户的为多对一关系,因此两者无法实现精准对应。二是缺乏对电力用户基于其基本属性、社会属性、价值属性、服务记录等全生命周期的全方位信息进行分类方法,难于为新型用户管理模式提供数据支撑。
发明内容
本发明要解决的技术问题是提供一种电力用户多维度信息化标签系统的构建方法。
为解决上述技术问题,本发明所采取的技术方案如下。
一种电力用户多维度信息化标签系统的构建方法,包括如下实施步骤:
步骤⑴,通过分析用户的特征指标生成用户特性标签;并为用户特性标签设置用户维度和诉求维度,其中,用户维度设置三组用户坐标:用户目标、 用户行为、用户需求,并对三组用户坐标进行数据栅格化处理,以体现用户目标、 用户行为、用户需求的差异;诉求维度面向用户诉求建立差异化指标:包括运维诉求差异化指标、故障诉求差异化指标、网建诉求差异化指标、 供电稳定性诉求差异化指标、用电服务诉求差异化指标;
步骤⑵,以建立多维度、立体化的用户画像为数据结构导向构建大数据算法模型,构建以用户标签为核心的信息化数据平台,对用户深层次行为特征进行描述,以准确识别电力客的特征户和为同类型电力用户提供差异化服务。
作为本发明的一种优选技术方案,所述特征指标包括:电费回收率、及时缴费指数、预收结转率、主动缴费系数、缴费方式、不配合程度、费控停电策略情况、违约行为、窃电行为。
作为本发明的一种优选技术方案,所述大数据算法模型包括线性回归模型、Logistic回归模型、决策树模型、神经网络模型、聚类分析模型、分类分析模型。
作为本发明的一种优选技术方案,所述用户特性标签包括政府官员、第一至第N信用等级用户、电量骤降用户、高潜在投诉倾向用户;其中,N为信用等级数目。
作为本发明的一种优选技术方案,所述用户特性标签为高潜在投诉倾向用户时,对应的特征指标还包括用户基本信息、用电信息、以往投诉信息;其特性标签的输出数据还包括用户投诉概率。
作为本发明的一种优选技术方案,所述用户投诉概率为接下来一个月的投诉概率、接下来二个月的投诉概率、接下来三个月的投诉概率,三者或三者择一。
相关性检验是指对已确定的回归方程能够代表自变量与因变量之间相关关系的可靠性进行检验,有 ③确定回归系数:将已知数据代入设定的回归方程,并用最小二乘法原则计算出回归系数,确定回归方程;④进行相关性检验: 以大量的历史数据为基础,分析其间的关系,根据自变量与因变量之间所表现出来的规律设定回归方程;设定回归方程是回归分析法的关键,选择最优模型进行回归方程的设定是运用回归分析法进行预测的基础; 系统搜集研究对象有关特征量的大量历史数据;由于回归分析是建立在大量的数据基础之上的定量分析方法,历史数据的数量及其准确性都直接影响到回归分析的结果;②设定回归方程: 作为本发明的一种优选技术方案,所述大数据算法模型为线性回归模型,利用回归分析确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法;其表达形式为y = w'x+e,e为误差服从均值为0的正态分布;线性回归模型的构建步骤包括:①搜集数据:R检验、t检验和F通过相关性检验后,利用已确定的回归方程进行预测;在进行单点预测的同时给出该单点预测值的置信区间。 检验三种方法;⑤进行预测,并确定置信区间:
作为本发明的一种优选技术方案,所述大数据算法模型为Logistic回归模型,根据现有数据对分类边界建立回归公式并以此进行分类,回归即最佳拟合;Logistic回归模型的构建步骤包括:A、逻辑回归架构设置:1)每个回归系数初始化为1;2)重复R次;3)计算整个数据集的梯度;4)使用步长x梯度更新回归系数的向量;5)返回回归系数;B、逻辑回归算法流程设置:收集数据: 采用信息化方法收集数据;准备数据: 由于需要进行距离计算,要求数据类型为数值型,对数据进行结构化格式转换;分析数据: 基于数据用途导向对数据进行分析;训练算法: 设置训练的目的为找到最佳的分类回归系数;测试算法: 训练步骤完成测试算法的可行性和执行速率;使用算法: 首先一些数据,并将其转换成对应的结构化数值,接着基于训练好的回归系数对这些数值进行回归计算,完成归类回归判定类别。
作为本发明的一种优选技术方案,所述大数据算法模型为决策树模型,通过训练数据构建决策树,对未知的数据进行分类;决策树模型的构建步骤包括:①开始,所有记录看作一个节点;遍历每个变量的每一种分割方式,找到最好的分割点;②分割成两个节点N1和N2;③对N1和N2分别继续执行2-3步,直到每个节点足够“纯”为止;其中,决策树的变量数据包括:①数字型:变量类型是整数或浮点数,用“>=”,“>”,“<”或“<=”作为分割条件;排序后,利用已有的分割情况优化分割算法的时间复杂度;②名称型:同构于编程语言中的枚举类型,变量只能重有限的选项中选取,使用“=”来分割。
作为本发明的一种优选技术方案,所述大数据算法模型为聚类分析模型,基于距离进行非层次聚类,在最小化误差函数的基础上将数据划分为预定的类数K,采用距离作为相似性的评价指标,认为两个对象的距离越近,其相似度就越大;所述聚类分析模型的构建步骤包括:从数据中选择k个对象作为初始聚类中心;计算每个聚类对象到聚类中心的距离并以此为基础进行数据划分;再次计算每个聚类中心;计算标准测度函数,之道达到最大迭代次数,则停止,否则,继续操作;其中,K的确定与层次聚类结合,首先采用层次凝聚算法决定结果粗的数目,并找到一个初始聚类,然后用迭代重定位来改进该聚类;其中,初始质心的选取:①多次运行,每次使用一组不同的随机初始质心,然后选取具有最小SSE的簇集;②取一个样本,并使用层次聚类技术对它聚类,从层次聚类中提取K个簇,并用这些簇的质心作为初始质心;③取所有点的质心作为第一个点,然后,对于每个后继初始质心,选择离已经选取过的初始质心最远的点;对于距离度量不管是采用欧式距离还是采用余弦相似度,簇的质心都是其均值;其中,距离的度量方法包括:基于余弦的欧几里得距离度量法,欧几里得距离度量会受指标不同单位刻度的影响,需要先进行标准化,同时距离越大个体间差异越大;空间向量余弦夹角的相似度度量不会受指标刻度的影响,余弦值落于区间[-1,1],值越大,差异越小;其中,算法停止条件为,目标函数达到最优或者达到最大的迭代次数即可终止;当采用欧式距离时,目标函数为最小化对象到其簇质心的距离的平方和;当采用余弦相似度时,目标函数为最大化对象到其簇质心的余弦相似度和。
采用上述技术方案所产生的有益效果在于:本发明基于用户标签概念进行系统构建,使得能够采用自然语言方式描述对象特征的方法,可以用于对象的定性描述,为个性化服务提供支持。本发明能够实现对电力用户的准确的特征识别,方便企业制定针对性的服务策略来提高用户服务满意度。本发明能够整合公司多种来源数据,依托大数据分析技术,建立多维度、立体化的用户画像,通过标签对用户深层次行为特征进行描述,为电力同类型的用户提供个性化服务,打造以用户标签为核心的新型用户管理模式提供数据支撑。在数据库和数据模型的构建上,本发明通过设置正交化线性空间数据的分布结构,实现了对电力用户的多维度、交互式、全方位开放式描述,形成了立体标签,并兼容各种扩展端口,为电力信息化系统的构建奠定了基础。
具体实施方式
以下实施例详细说明了本发明。本发明所使用的各种原料及各项设备均为常规市售产品,均能够通过市场购买直接获得。
在以下实施例的描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
实施例1、多维度信息化标签系统
首先通过分析用户的特征指标生成用户特性标签;并为用户特性标签设置用户维度和诉求维度,其中,用户维度设置三组用户坐标:用户目标、 用户行为、用户需求,并对三组用户坐标进行数据栅格化处理,以体现用户目标、 用户行为、用户需求的差异;诉求维度面向用户诉求建立差异化指标:包括运维诉求差异化指标、故障诉求差异化指标、网建诉求差异化指标、 供电稳定性诉求差异化指标、用电服务诉求差异化指标;特征指标设置为:电费回收率、及时缴费指数、预收结转率、主动缴费系数、缴费方式、不配合程度、费控停电策略情况、违约行为、窃电行为;用户特性标签包括政府官员、第一至第N信用等级用户、电量骤降用户、高潜在投诉倾向用户;其中,N为信用等级数目;当用户特性标签为高潜在投诉倾向用户时,对应的特征指标还包括用户基本信息、用电信息、以往投诉信息;其特性标签的输出数据还包括用户投诉概率,用户投诉概率为接下来一个月的投诉概率、接下来二个月的投诉概率、接下来三个月的投诉概率,三者或三者择一。
然后以建立多维度、立体化的用户画像为数据结构导向构建大数据算法模型,构建以用户标签为核心的信息化数据平台,对用户深层次行为特征进行描述,以准确识别电力客的特征户和为同类型电力用户提供差异化服务;其中,大数据算法模型包括线性回归模型、Logistic回归模型、决策树模型、神经网络模型、聚类分析模型、分类分析模型。
实施例2、线性回归模型
相关性检验是指对已确定的回归方程能够代表自变量与因变量之间相关关系的可靠性进行检验,有 ③确定回归系数:将已知数据代入设定的回归方程,并用最小二乘法原则计算出回归系数,确定回归方程;④进行相关性检验: 以大量的历史数据为基础,分析其间的关系,根据自变量与因变量之间所表现出来的规律设定回归方程;设定回归方程是回归分析法的关键,选择最优模型进行回归方程的设定是运用回归分析法进行预测的基础; 系统搜集研究对象有关特征量的大量历史数据;由于回归分析是建立在大量的数据基础之上的定量分析方法,历史数据的数量及其准确性都直接影响到回归分析的结果;②设定回归方程: 大数据算法模型为线性回归模型时,利用回归分析确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法;其表达形式为y = w'x+e,e为误差服从均值为0的正态分布;线性回归模型的构建步骤包括:①搜集数据:R检验、t检验和F通过相关性检验后,利用已确定的回归方程进行预测;在进行单点预测的同时给出该单点预测值的置信区间。 检验三种方法;⑤进行预测,并确定置信区间:
实施例3、Logistic回归模型
大数据算法模型为Logistic回归模型时,根据现有数据对分类边界建立回归公式并以此进行分类,回归即最佳拟合;Logistic回归模型的构建步骤包括:A、逻辑回归架构设置:1)每个回归系数初始化为1;2)重复R次;3)计算整个数据集的梯度;4)使用步长x梯度更新回归系数的向量;5)返回回归系数;B、逻辑回归算法流程设置:收集数据: 采用信息化方法收集数据;准备数据: 由于需要进行距离计算,要求数据类型为数值型,对数据进行结构化格式转换;分析数据: 基于数据用途导向对数据进行分析;训练算法: 设置训练的目的为找到最佳的分类回归系数;测试算法: 训练步骤完成测试算法的可行性和执行速率;使用算法: 首先一些数据,并将其转换成对应的结构化数值,接着基于训练好的回归系数对这些数值进行回归计算,完成归类回归判定类别。
实施例4、决策树模型
大数据算法模型为决策树模型时,通过训练数据构建决策树,对未知的数据进行分类;决策树模型的构建步骤包括:①开始,所有记录看作一个节点;遍历每个变量的每一种分割方式,找到最好的分割点;②分割成两个节点N1和N2;③对N1和N2分别继续执行2-3步,直到每个节点足够“纯”为止;其中,决策树的变量数据包括:①数字型:变量类型是整数或浮点数,用“>=”,“>”,“<”或“<=”作为分割条件;排序后,利用已有的分割情况优化分割算法的时间复杂度;②名称型:同构于编程语言中的枚举类型,变量只能重有限的选项中选取,使用“=”来分割。
实施例5、聚类分析模型
大数据算法模型为聚类分析模型时,基于距离进行非层次聚类,在最小化误差函数的基础上将数据划分为预定的类数K,采用距离作为相似性的评价指标,认为两个对象的距离越近,其相似度就越大;所述聚类分析模型的构建步骤包括:从数据中选择k个对象作为初始聚类中心;计算每个聚类对象到聚类中心的距离并以此为基础进行数据划分;再次计算每个聚类中心;计算标准测度函数,之道达到最大迭代次数,则停止,否则,继续操作;其中,K的确定与层次聚类结合,首先采用层次凝聚算法决定结果粗的数目,并找到一个初始聚类,然后用迭代重定位来改进该聚类;其中,初始质心的选取:①多次运行,每次使用一组不同的随机初始质心,然后选取具有最小SSE的簇集;②取一个样本,并使用层次聚类技术对它聚类,从层次聚类中提取K个簇,并用这些簇的质心作为初始质心;③取所有点的质心作为第一个点,然后,对于每个后继初始质心,选择离已经选取过的初始质心最远的点;对于距离度量不管是采用欧式距离还是采用余弦相似度,簇的质心都是其均值;其中,距离的度量方法包括:基于余弦的欧几里得距离度量法,欧几里得距离度量会受指标不同单位刻度的影响,需要先进行标准化,同时距离越大个体间差异越大;空间向量余弦夹角的相似度度量不会受指标刻度的影响,余弦值落于区间[-1,1],值越大,差异越小;其中,算法停止条件为,目标函数达到最优或者达到最大的迭代次数即可终止;当采用欧式距离时,目标函数为最小化对象到其簇质心的距离的平方和;当采用余弦相似度时,目标函数为最大化对象到其簇质心的余弦相似度和。
本发明的硬件实现,可以直接采用现有的智能设备,包括但不限于工控机、PC机、智能手机、手持单机、落地式单机等。其输入设备优选采用屏幕键盘,其数据存储和计算模块采用现有的存储器、计算器、控制器,其内部通信模块采用现有的通信端口和协议,其远程通信采用现有的gprs网络、万维互联网等。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种电力用户多维度信息化标签系统的构建方法,其特征在于:该方法包括如下实施步骤:
步骤⑴,通过分析用户的特征指标生成用户特性标签;并为用户特性标签设置用户维度和诉求维度,其中,用户维度设置三组用户坐标:用户目标、 用户行为、用户需求,并对三组用户坐标进行数据栅格化处理,以体现用户目标、 用户行为、用户需求的差异;诉求维度面向用户诉求建立差异化指标:包括运维诉求差异化指标、故障诉求差异化指标、网建诉求差异化指标、 供电稳定性诉求差异化指标、用电服务诉求差异化指标;
步骤⑵,以建立多维度、立体化的用户画像为数据结构导向构建大数据算法模型,构建以用户标签为核心的信息化数据平台,对用户深层次行为特征进行描述,以准确识别电力客的特征户和为同类型电力用户提供差异化服务。
2.根据权利要求1所述的一种电力用户多维度信息化标签系统的构建方法,其特征在于:所述特征指标包括:电费回收率、及时缴费指数、预收结转率、主动缴费系数、缴费方式、不配合程度、费控停电策略情况、违约行为、窃电行为。
3.根据权利要求1所述的一种电力用户多维度信息化标签系统的构建方法,其特征在于:所述用户特性标签包括政府官员、第一至第N信用等级用户、电量骤降用户、高潜在投诉倾向用户;其中,N为信用等级数目。
4.根据权利要求3所述的一种电力用户多维度信息化标签系统的构建方法,其特征在于:所述用户特性标签为高潜在投诉倾向用户时,对应的特征指标还包括用户基本信息、用电信息、以往投诉信息;其特性标签的输出数据还包括用户投诉概率。
5.根据权利要求4所述的一种电力用户多维度信息化标签系统的构建方法,其特征在于:所述用户投诉概率为接下来一个月的投诉概率、接下来二个月的投诉概率、接下来三个月的投诉概率,三者或三者择一。
6.根据权利要求1所述的一种电力用户多维度信息化标签系统的构建方法,其特征在于:所述大数据算法模型包括线性回归模型、Logistic回归模型、决策树模型、神经网络模型、聚类分析模型、分类分析模型。
7.根据权利要求1所述的一种电力用户多维度信息化标签系统的构建方法,其特征在于:所述大数据算法模型为线性回归模型,利用回归分析确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法;其表达形式为y = w'x+e,e为误差服从均值为0的正态分布;线性回归模型的构建步骤包括:①搜集数据: 系统搜集研究对象有关特征量的大量历史数据;由于回归分析是建立在大量的数据基础之上的定量分析方法,历史数据的数量及其准确性都直接影响到回归分析的结果;②设定回归方程: 以大量的历史数据为基础,分析其间的关系,根据自变量与因变量之间所表现出来的规律设定回归方程;设定回归方程是回归分析法的关键,选择最优模型进行回归方程的设定是运用回归分析法进行预测的基础; ③确定回归系数:将已知数据代入设定的回归方程,并用最小二乘法原则计算出回归系数,确定回归方程;④进行相关性检验: 相关性检验是指对已确定的回归方程能够代表自变量与因变量之间相关关系的可靠性进行检验,有R检验、t检验和F检验三种方法;⑤进行预测,并确定置信区间: 通过相关性检验后,利用已确定的回归方程进行预测;在进行单点预测的同时给出该单点预测值的置信区间。
8.根据权利要求1所述的一种电力用户多维度信息化标签系统的构建方法,其特征在于:所述大数据算法模型为Logistic回归模型,根据现有数据对分类边界建立回归公式并以此进行分类,回归即最佳拟合;Logistic回归模型的构建步骤包括:A、逻辑回归架构设置:1)每个回归系数初始化为1;2)重复R次;3)计算整个数据集的梯度;4)使用步长x梯度更新回归系数的向量;5)返回回归系数;B、逻辑回归算法流程设置:收集数据: 采用信息化方法收集数据;准备数据: 由于需要进行距离计算,要求数据类型为数值型,对数据进行结构化格式转换;分析数据: 基于数据用途导向对数据进行分析;训练算法: 设置训练的目的为找到最佳的分类回归系数;测试算法: 训练步骤完成测试算法的可行性和执行速率;使用算法: 首先一些数据,并将其转换成对应的结构化数值,接着基于训练好的回归系数对这些数值进行回归计算,完成归类回归判定类别。
9.根据权利要求1所述的一种电力用户多维度信息化标签系统的构建方法,其特征在于:所述大数据算法模型为决策树模型,通过训练数据构建决策树,对未知的数据进行分类;决策树模型的构建步骤包括:①开始,所有记录看作一个节点;遍历每个变量的每一种分割方式,找到最好的分割点;②分割成两个节点N1和N2;③对N1和N2分别继续执行2-3步,直到每个节点足够“纯”为止;其中,决策树的变量数据包括:①数字型:变量类型是整数或浮点数,用“>=”,“>”,“<”或“<=”作为分割条件;排序后,利用已有的分割情况优化分割算法的时间复杂度;②名称型:同构于编程语言中的枚举类型,变量只能重有限的选项中选取,使用“=”来分割。
10.根据权利要求1所述的一种电力用户多维度信息化标签系统的构建方法,其特征在于:所述大数据算法模型为聚类分析模型,基于距离进行非层次聚类,在最小化误差函数的基础上将数据划分为预定的类数K,采用距离作为相似性的评价指标,认为两个对象的距离越近,其相似度就越大;所述聚类分析模型的构建步骤包括:从数据中选择k个对象作为初始聚类中心;计算每个聚类对象到聚类中心的距离并以此为基础进行数据划分;再次计算每个聚类中心;计算标准测度函数,之道达到最大迭代次数,则停止,否则,继续操作;其中,K的确定与层次聚类结合,首先采用层次凝聚算法决定结果粗的数目,并找到一个初始聚类,然后用迭代重定位来改进该聚类;其中,初始质心的选取:①多次运行,每次使用一组不同的随机初始质心,然后选取具有最小SSE的簇集;②取一个样本,并使用层次聚类技术对它聚类,从层次聚类中提取K个簇,并用这些簇的质心作为初始质心;③取所有点的质心作为第一个点,然后,对于每个后继初始质心,选择离已经选取过的初始质心最远的点;对于距离度量不管是采用欧式距离还是采用余弦相似度,簇的质心都是其均值;其中,距离的度量方法包括:基于余弦的欧几里得距离度量法,欧几里得距离度量会受指标不同单位刻度的影响,需要先进行标准化,同时距离越大个体间差异越大;空间向量余弦夹角的相似度度量不会受指标刻度的影响,余弦值落于区间[-1,1],值越大,差异越小;其中,算法停止条件为,目标函数达到最优或者达到最大的迭代次数即可终止;当采用欧式距离时,目标函数为最小化对象到其簇质心的距离的平方和;当采用余弦相似度时,目标函数为最大化对象到其簇质心的余弦相似度和。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011496235.6A CN112529630A (zh) | 2020-12-17 | 2020-12-17 | 一种电力用户多维度信息化标签系统的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011496235.6A CN112529630A (zh) | 2020-12-17 | 2020-12-17 | 一种电力用户多维度信息化标签系统的构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112529630A true CN112529630A (zh) | 2021-03-19 |
Family
ID=75001016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011496235.6A Pending CN112529630A (zh) | 2020-12-17 | 2020-12-17 | 一种电力用户多维度信息化标签系统的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112529630A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113298385A (zh) * | 2021-05-26 | 2021-08-24 | 上海晓途网络科技有限公司 | 一种用户管理方法、装置、电子设备及存储介质 |
CN113554241A (zh) * | 2021-09-02 | 2021-10-26 | 国网山东省电力公司泰安供电公司 | 一种基于用户用电投诉行为的用户分层方法及预测方法 |
CN115759236A (zh) * | 2022-12-30 | 2023-03-07 | 北京德风新征程科技有限公司 | 模型训练方法、信息发送方法、装置、设备和介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106651424A (zh) * | 2016-09-28 | 2017-05-10 | 国网山东省电力公司电力科学研究院 | 基于大数据技术的电力用户画像建立与分析方法 |
CN108764663A (zh) * | 2018-05-15 | 2018-11-06 | 广东电网有限责任公司信息中心 | 一种电力客户画像生成管理的方法及系统 |
CN108764984A (zh) * | 2018-05-17 | 2018-11-06 | 国网冀北电力有限公司电力科学研究院 | 一种基于大数据的电力用户画像构建方法及系统 |
CN109165763A (zh) * | 2018-06-13 | 2019-01-08 | 广西电网有限责任公司电力科学研究院 | 一种95598客服工单的潜在被投诉的评估方法及装置 |
CN111353792A (zh) * | 2020-05-25 | 2020-06-30 | 广东电网有限责任公司惠州供电局 | 一种可视化展现与数据分析的客户画像系统 |
-
2020
- 2020-12-17 CN CN202011496235.6A patent/CN112529630A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106651424A (zh) * | 2016-09-28 | 2017-05-10 | 国网山东省电力公司电力科学研究院 | 基于大数据技术的电力用户画像建立与分析方法 |
CN108764663A (zh) * | 2018-05-15 | 2018-11-06 | 广东电网有限责任公司信息中心 | 一种电力客户画像生成管理的方法及系统 |
CN108764984A (zh) * | 2018-05-17 | 2018-11-06 | 国网冀北电力有限公司电力科学研究院 | 一种基于大数据的电力用户画像构建方法及系统 |
CN109165763A (zh) * | 2018-06-13 | 2019-01-08 | 广西电网有限责任公司电力科学研究院 | 一种95598客服工单的潜在被投诉的评估方法及装置 |
CN111353792A (zh) * | 2020-05-25 | 2020-06-30 | 广东电网有限责任公司惠州供电局 | 一种可视化展现与数据分析的客户画像系统 |
Non-Patent Citations (5)
Title |
---|
CUZUR: "K-Means聚类算法的实现", 《CSDN》 * |
刁洪祥: "《商业信息收集与处理》", 30 November 2019, 湖南科学技术出版社 * |
刘燕: "《大数据分析与数据挖掘技术研究》", 31 July 2020, 中国原子能出版社 * |
片刻: "【机器学习实战】第5章Logistic回归", 《BBSMAX》 * |
马亮等: "基于客户画像的客户诉求管理", 《电力需求侧管理》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113298385A (zh) * | 2021-05-26 | 2021-08-24 | 上海晓途网络科技有限公司 | 一种用户管理方法、装置、电子设备及存储介质 |
CN113554241A (zh) * | 2021-09-02 | 2021-10-26 | 国网山东省电力公司泰安供电公司 | 一种基于用户用电投诉行为的用户分层方法及预测方法 |
CN113554241B (zh) * | 2021-09-02 | 2024-04-26 | 国网山东省电力公司泰安供电公司 | 一种基于用户用电投诉行为的用户分层方法及预测方法 |
CN115759236A (zh) * | 2022-12-30 | 2023-03-07 | 北京德风新征程科技有限公司 | 模型训练方法、信息发送方法、装置、设备和介质 |
CN115759236B (zh) * | 2022-12-30 | 2024-01-12 | 北京德风新征程科技股份有限公司 | 模型训练方法、信息发送方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Glauner et al. | The challenge of non-technical loss detection using artificial intelligence: A survey | |
CN112529630A (zh) | 一种电力用户多维度信息化标签系统的构建方法 | |
Al-Otaibi et al. | Feature construction and calibration for clustering daily load curves from smart-meter data | |
Zhang et al. | Unsupervised detection of abnormal electricity consumption behavior based on feature engineering | |
Bian et al. | Abnormal detection of electricity consumption of user based on particle swarm optimization and long short term memory with the attention mechanism | |
Zhang | Design of a sports culture data fusion system based on a data mining algorithm | |
CN109858728A (zh) | 基于分行业用电特性分析的负荷预测方法 | |
CN109146707A (zh) | 基于大数据分析的电力用户分析方法、装置及电子设备 | |
CN109685567A (zh) | 一种基于卷积神经网络和模糊聚类的用电客户画像新方法 | |
CN108572988A (zh) | 一种房产评估数据生成方法和装置 | |
CN115375205A (zh) | 一种用水用户画像的确定方法、装置及设备 | |
CN115759393A (zh) | 基于集成学习的累积负荷基线预测方法 | |
CN112417308A (zh) | 一种基于电力大数据的用户画像标签生成方法 | |
CN113946686A (zh) | 电力营销知识图谱构建方法及系统 | |
CN116011633B (zh) | 区域燃气用量预测方法、系统、设备及物联网云平台 | |
Yu et al. | Research on situational perception of power grid business based on user portrait | |
Wang et al. | Computer supported data-driven decisions for service personalization: a variable-scale clustering method | |
Onile et al. | A comparative study on graph-based ranking algorithms for consumer-oriented demand side management | |
Liu et al. | Brand digital marketing under intranet security control based on the machine learning classification algorithm | |
CN109636057A (zh) | 基于改进人工免疫系统的链接预测方法及存储介质 | |
CN105160065A (zh) | 基于拓扑关系的遥感信息相似度评价方法 | |
Zhang et al. | Dynamic time warp-based clustering: Application of machine learning algorithms to simulation input modelling | |
CN113935819A (zh) | 核算异常特征提取方法 | |
Wang et al. | Power load forecasting using data mining and knowledge discovery technology | |
Baur et al. | Explainability and interpretability in electric load forecasting using machine learning techniques–A review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210319 |