CN117455529A - 基于大数据技术的用户用电特征画像构建方法及系统 - Google Patents
基于大数据技术的用户用电特征画像构建方法及系统 Download PDFInfo
- Publication number
- CN117455529A CN117455529A CN202311401104.9A CN202311401104A CN117455529A CN 117455529 A CN117455529 A CN 117455529A CN 202311401104 A CN202311401104 A CN 202311401104A CN 117455529 A CN117455529 A CN 117455529A
- Authority
- CN
- China
- Prior art keywords
- data
- user
- tag
- similarity
- clusters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005611 electricity Effects 0.000 title claims abstract description 100
- 238000005516 engineering process Methods 0.000 title claims abstract description 40
- 238000010276 construction Methods 0.000 title claims abstract description 21
- 230000006399 behavior Effects 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000007405 data analysis Methods 0.000 claims abstract description 37
- 238000012216 screening Methods 0.000 claims abstract description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 52
- 230000006870 function Effects 0.000 claims description 52
- 238000005065 mining Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 21
- 238000003064 k means clustering Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 15
- 238000007621 cluster analysis Methods 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 10
- 230000002159 abnormal effect Effects 0.000 claims description 7
- 238000013075 data extraction Methods 0.000 claims description 6
- 238000011524 similarity measure Methods 0.000 claims description 6
- 230000005856 abnormality Effects 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 5
- 230000003068 static effect Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 10
- 238000000605 extraction Methods 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000007418 data mining Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000010248 power generation Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000000952 spleen Anatomy 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Strategic Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Economics (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Probability & Statistics with Applications (AREA)
- Tourism & Hospitality (AREA)
- Primary Health Care (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于大数据技术的用户用电特征画像构建方法及系统,方法包括获取用电数据;按照预先建立的标签体系,从用电数据中提取得到用电特征数据;将用电特征数据输入预先建立的电力数据分析模型,筛选出目标用户并制定决策方案。本发明的用户用电特征画像构建方法可以在用户群体划分、差异化供电服务或针对性营销服务配置中的应用,用户用电特征画像可以反映不同用户各种用电行为的特征,通过标签反映画像的基本特征,对不同维度和种类的电力用户数据进行数据信息特征提取,实现对不同电力用户行为数据的分析,电力企业可以根据得到的用电特征画像快速了解用户行为偏好,对目标用户进行筛选并制定决策方案,通过采取有针对性的措施以达到预期目标。
Description
技术领域
本发明属于电力用户画像分析技术领域,具体涉及一种基于大数据技术的用户用电特征画像构建方法及系统。
背景技术
随着智能电网的不断建设发展,电网信息化程度不断提高,电力部门的信息集成系统采集了较为详细的用户电力信息,积累了海量的用电数据,这些数据之间也具有一定的相关性与相似性,与此同时,用户对电力服务质量提出了高要求。在此背景下,如何充分利用现有数据资源,深入挖掘用户的潜在需求,改善供电服务质量,增强用户黏性,对电网公司的未来发展至关重要。
电力用户画像分析建立在海量用电数据的基础上,以电力用户为主体,通过对用户个人特征及用户用电行为数据进行信息挖掘,从用户特征出发,赋予用户画像标签,分析不同用户的用电行为差异特征,进而挖掘用户行为的差异,为电力公司智能化管理提供理论依据。
虽然,用户画像已成为当前的一个热门技术,但是目前针对电力用户画像的研究还很缺乏。大多数文献在分析电力用户数据时,主要集中在用户用电特征聚类,而未将用户画像、电力用户用电数据、处理分析与应用连接在一起,因此,用户用电信息数据的价值还没有被充分运用,难以发挥提升电力用户能效的作用,从而支撑电网侧用户服务业务指导与决策。
发明内容
本发明的目的在于针对上述现有技术中的问题,提供一种基于大数据技术的用户用电特征画像构建方法及系统,以电力用户数据资源为基础,以大数据的电力标签挖掘技术为手段,构建出的用户用电特征画像可以更精准地分析用户行为。
为了实现上述目的,本发明有如下的技术方案:
第一方面,提供一种基于大数据技术的用户用电特征画像构建方法,包括:
获取用电数据;
按照预先建立的标签体系,从用电数据中提取得到用电特征数据;
将用电特征数据输入预先建立的电力数据分析模型,筛选出目标用户并制定决策方案。
作为一种优选的方案,在所述获取用电数据的步骤中,将用电数据分为用户属性数据和用户行为数据,所述用户属性数据为用户静态特征数据,所述用户行为数据包括用户动态特征及动态变化趋势数据,并按照属于用户属性数据还是用户行为数据对应从不同的信息系统数据库中获取用电数据。
作为一种优选的方案,在所述按照预先建立的标签体系,从用电数据中提取得到用电特征数据的步骤中,按照用户基本信息、行为特征和兴趣偏好形成标签体系的一级主题,再在每个一级主题下划分出若干个标签分类,形成二级主题,每个二级主题的标签分类下再由若干个数据标签组成;依据标签体系建立标签库,得到用户基本信息标签、行为特征标签和兴趣偏好标签,按照用户基本信息标签、行为特征标签和兴趣偏好标签从用电数据中对应提取得到用电特征数据。
作为一种优选的方案,在所述将用电特征数据输入预先建立的电力数据分析模型,筛选出目标用户并制定决策方案的步骤中,所述电力数据分析模型基于改进K-means聚类算法分析标签库中的数据,在聚类个数确定的情况下,采用最大最小距离算法来选取聚类中心,从而将相近特质的电力用户进行聚类,构建得到不同用户簇别,形成用户综合画像并对结果完成可视化呈现。
作为一种优选的方案,所述改进K-means聚类算法的聚类分析过程包括:
构造数据簇相似度函数W,用来衡量数据簇内所有数据元的相似性;
用Kmax,Kmin表示聚类数K取值的最大值与最小值;
用Intra(i)表示数据簇内的所有数据元的相似度;
用Inter(i,j)表示两个数据簇之间的相似度;
C代表一个数据的集合,该集合中有n个需要进行聚类分析的数据;
Ci与Cj代表聚类的两个簇;
ni与nj代表两个聚类簇中的数据总数;
R(s,t)表示两个数据之间相似性度量结果;
根据聚类的要求:数据簇类间相似度最小,类内相似度最大,则得到W存在一个最小值,而W达到最小值时所对应的K值即为最优聚类数Kbest,满足Kmin≤Kbest≤Kmax;
数据簇相似度函数W的表达式如下:
其中:
作为一种优选的方案,在所述将用电特征数据输入预先建立的电力数据分析模型,筛选出目标用户并制定决策方案的步骤中,采用Apriori算法对数据标签进行特征挖掘,将挖掘过程提取到的关联规则生成推理标签存储至标签库;所述Apriori算法采用递归的方法来发现频繁项集,并计算每一频繁项集的支持度和置信度,使用支持度Dsupp及置信度Dconf来度量所提取的关联规则;
通过推理算法使用频繁项集和关联规则主动生成内部具有关联性的多个标签集合。
作为一种优选的方案,所述推理算法选择梯形函数作为隶属度函数来衡量标签属性,梯形函数的表达式如下:
式中,A(x)为数据标签属性为正常的隶属度函数值;x为数值类数据的值;a1为正常阈值的90%;a2为正常阈值的110%;
数据标签属性为异常的隶属度函数为:
B(x)=1-A(x)
式中,B(x)为数据标签属性“异常”的隶属度函数值。
第二方面,提供一种所述基于大数据技术的用户用电特征画像构建方法在用户群体划分、差异化供电服务或针对性营销服务配置中的应用。
第三方面,提供一种基于大数据技术的用户用电特征画像构建系统,包括:
用电数据获取模块,用于获取用电数据;
标签数据提取模块,用于按照预先建立的标签体系,从用电数据中提取得到用电特征数据;
数据分析模块,用于将用电特征数据输入预先建立的电力数据分析模型,筛选出目标用户并制定决策方案。
作为一种优选的方案,所述标签数据提取模块按照用户基本信息、行为特征和兴趣偏好形成标签体系的一级主题,再在每个一级主题下划分出若干个标签分类,形成二级主题,每个二级主题的标签分类下再由许多数据标签组成;依据标签体系建立标签库,得到用户基本信息标签、行为特征标签和兴趣偏好标签,按照用户基本信息标签、行为特征标签和兴趣偏好标签从用电数据中对应提取得到用电特征数据。
作为一种优选的方案,所述数据分析模块将用电特征数据输入预先建立的电力数据分析模型时,所述电力数据分析模型基于改进K-means聚类算法分析标签库中的数据,在聚类个数确定的情况下,采用最大最小距离算法来选取聚类中心,从而将相近特质的电力用户进行聚类,构建得到不同用户簇别,形成用户综合画像并对结果完成可视化呈现;
所述改进K-means聚类算法的聚类分析过程包括:
构造数据簇相似度函数W,用来衡量数据簇内所有数据元的相似性;
用Kmax,Kmin表示聚类数K取值的最大值与最小值;
用Intra(i)表示数据簇内的所有数据元的相似度;
用Inter(i,j)表示两个数据簇之间的相似度;
C代表一个数据的集合,该集合中有n个需要进行聚类分析的数据;
Ci与Cj代表聚类的两个簇;
ni与nj代表两个聚类簇中的数据总数;
R(s,t)表示两个数据之间相似性度量结果;
根据聚类的要求:数据簇类间相似度最小,类内相似度最大,则得到W存在一个最小值,而W达到最小值时所对应的K值即为最优聚类数Kbest,满足Kmin≤Kbest≤Kmax;
数据簇相似度函数W的表达式如下:
其中:
作为一种优选的方案,所述数据分析模块采用Apriori算法对数据标签进行特征挖掘,将挖掘过程提取到的关联规则生成推理标签存储至标签库;所述Apriori算法采用递归的方法来发现频繁项集,并计算每一频繁项集的支持度和置信度,使用支持度Dsupp及置信度Dconf来度量所提取的关联规则;
通过推理算法使用频繁项集和关联规则主动生成内部具有关联性的多个标签集合;
所述推理算法选择梯形函数作为隶属度函数来衡量标签属性,梯形函数的表达式如下:
式中,A(x)为数据标签属性为正常的隶属度函数值;x为数值类数据的值;a1为正常阈值的90%;a2为正常阈值的110%;
数据标签属性为异常的隶属度函数为:
B(x)=1-A(x)
式中,B(x)为数据标签属性“异常”的隶属度函数值。
第四方面,提供一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述的处理器执行所述的计算机程序时实现所述基于大数据技术的用户用电特征画像构建方法。
第五方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述的计算机程序被处理器执行时实现所述基于大数据技术的用户用电特征画像构建方法。
相较于现有技术,本发明的第一方面至少具有如下的有益效果:
本发明基于大数据技术对电力用户的用电数据进行获取,以电力用户的用电数据资源为基础,按照预先建立的标签体系,从用电数据中提取得到用电特征数据,得到的用户用电特征画像可以反映不同用户各种用电行为的特征。本发明通过标签反映画像的基本特征,对不同维度和种类的电力用户数据进行数据信息特征提取,并将用电特征数据输入预先建立的电力数据分析模型,实现对不同电力用户行为数据的分析,电力企业可以根据得到的用电特征画像快速了解用户行为偏好,对目标用户进行筛选并制定决策方案,通过采取有针对性的措施以达到预期目标,进而提升电力企业服务质量与供电质量。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1本发明实施例基于大数据技术的用户用电特征画像构建系统的总体框架设计示意图;
图2本发明实施例用户用电特征画像标签体系示意图;
图3本发明实施例基于大数据技术的用户用电特征画像构建方法流程图;
图4本发明实施例改进K-means聚类算法的流程图;
图5本发明实施例Apriori算法挖掘关联规则的流程图;
图6本发明实施例基于推理机制的标签集合生成示意图;
图7本发明实施例用户用电特征画像示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请的实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
本发明实施例提出一种基于大数据技术的用户用电特征画像构建方法,从用户基本信息、行为特征与兴趣偏好3个维度建立用户用电特征画像标签体系,基于大数据的电力标签挖掘技术,构建了用户用电特征画像,并给出了用户用电特征画像的应用。
请参阅图3,本发明实施例基于大数据技术的用户用电特征画像构建方法包括以下步骤:
S1.获取用电数据;
S2.按照预先建立的标签体系,从用电数据中提取得到用电特征数据;
S3.将用电特征数据输入预先建立的电力数据分析模型,筛选出目标用户并制定决策方案。
在一种可能的实施方式中,步骤S1在获取用电数据时,以某省电力用户的数据作为主要研究对象为例,用户的用电测量原始数据非常多且相对比较分散,必须经过筛选才能应用到实际中。本发明实施例对原始数据进行剔除或者补充操作等相关预处理之后,形成相关数据集,并进一步将用户数据分为用户属性数据和用户行为数据。其中,用户属性数据,主要涉及静态数据,包括姓名、性别、年龄、归属地、用户类别、用电类型、电压等级、行业类别等信息。用户行为数据,主要涉及用户动态特征及动态变化趋势,主要包括用户的用电行为、缴费行为、诉求行为、发电行为、用电量、用电趋势、用电风险、停电次数、缴费时间、缴费频次、缴费渠道偏好、发电量、发电异常、投诉频度、交互频度、用户评价等用户行为产生的数据。以上用户属性数据和用户行为数据具体分布在电力公司不同的信息系统数据库当中,例如,用户属性数据在营销业务应用系统中,用户诉求内容在95598用户服务系统中,电量使用情况在用电信息采集系统中,缴费信息在一体化缴费平台中。
部分用户的用电数据来源如表1所示:
表1用户用电数据来源
标签是基于用户数据提炼出来的精确代表用户形象特征的关键词。给电力用户行为贴“标签”属于构建用户用电特征画像的重要工作,一部分标签是依据电力用户的行为数据直接获取得到的,电力用户的行为数据包含立户年限、用电量、支付数据、诉求数据等;另一部分是通过数据分析和一定规则获取,比如,问题处理容忍度、支付习惯、偏好等。
在一种可能的实施方式中,步骤S2中按照基本信息、行为特征和兴趣偏好这三个维度对电力用户相关数据进行分类,形成电力用户标签体系的一级主题,同时每个一级主题下面又划分出若干个标签分类,形成二级主题,每个标签分类下再由许多标签指标组成,整个标签体逻辑严谨、层次分明,依据此标签体系建立标签库,包括用户基本信息标签、行为特征标签和兴趣偏好标签,本发明实施例的用户用电特征画像标签体系如图2所示。
用户用电特征画像是反映用户各种行为的特征,通过标签反映画像的基本特征。对不同维度和种类的电力用户数据信息进行数据信息特征提取,利用数据挖掘算法构建电力数据分析模型,实现对不同电力用户行为数据的分析,分析结果通过标签画像应用层输出。电力企业可以根据该画像快速了解用户行为偏好,筛选出具有价值的数据和用户,从而精准定位目标用户,采取有针对性的措施以达到预期目标,提升电力企业服务质量与供电质量。
在一种可能的实施方式中,步骤S3将用电特征数据输入预先建立的电力数据分析模型时,在电力数据分析模型构建中会运用到不少关键技术,本发明主要基于大数据的电力标签挖掘技术,包括聚类分析技术和关联分析,对用户用电行为进行建模分析。
(1)基于改进K-means聚类算法的挖掘分析技术
请参阅图4,聚类算法适用于电力这类具有大量数据的行业,将相近特质的电力用户进行聚类,构建不同用户簇别,进一步形成用户综合画像及可视化结果呈现。利用大数据分析技术中的改进的K-means聚类算法,分析用户用电特征画像标签库中的数据,在聚类个数确定的情况下,采用最大最小距离算法来选取聚类中心,避免聚类中心随机选取造成的聚类不稳定情况,相比于传统K-means聚类算法,改进的K-means聚类算法聚类准确率更高。
构造数据簇相似度函数W,用来衡量数据簇内所有数据元的相似性。用Kmax,Kmin表示聚类数K取值的最大值与最小值;用Intra(i)来表示数据簇内的所有数据元的相似度;用Inter(i,j)来表示两个数据簇之间的相似度,C代表一个数据的集合,该集合中有n个需要进行聚类分析的数据;Ci与Cj代表聚类的两个簇;ni与nj代表两个聚类簇中的数据总数;R(s,t)表示两个数据之间相似性度量结果。根据聚类的要求:数据簇类间相似度最小,类内相似度最大。可以得到W存在一个最小值,而W达到最小值时所对应的K值即为最优聚类数Kbest,则Kmin≤Kbest≤Kmax。因此,数据簇相似度函数W计算由公式(1)得出。
其中:
(2)基于关联规则的用户画像特征挖掘
1)关联规则挖掘
开展电力用户的基础标签之间的关联规则分析,采用Apriori算法对用户行为数据标签进行深度的特征挖掘,并将此挖掘过程中的提取到的关联规则生成推理标签存储至标签库。
Apriori算法是最具影响力的挖掘频繁项集的经典算法之一,其采用递归的方法来发现频繁项集,并计算每一频繁项集的支持度和置信度,通常使用支持度Dsupp及置信度Dconf来度量所提取的关联规则。最小支持度DMin-supp和最小置信度DMin-conf是根据具体的数据挖掘需要人为定义的阈值。关联规则挖掘的目标就是从属性案例库中获取大于设定的DMin-supp和DMin-conf的全部关联规则。
Apriori算法具体流程如图5所示。其中,支持度是指被定义数据集中包含该项集的记录所占的比例,过程中对不满足支持度的进行剔除。
2)基于推理机制的标签集合生成
推理机制由规则集和推理算法组成,通过对频繁项集和关联规则进行处理,来达到将标签间关联规则与多标签学习算法相结合的目的。处理的思路是:使用这些频繁项集和关联规则主动生成内部具有关联性的多个标签集合。其中,推理算法对系统的整体性能影响不大,其性能主要取决于关联规则的质量。本发明实施例将关联规则应用于推理系统中以提高数据挖掘质量,以获得更好的效果,推理机制的工作流程图如图6所示。
选择梯形函数作为隶属度函数,以衡量标签属性,即:
在公式(4)中,A(x)为数据标签属性“正常”的隶属度函数值;x为数值类数据的值;a1为正常阈值的90%;a2为正常阈值的110%。
数据标签属性为“异常”的隶属度函数为
B(x)=1-A(x) (5)
在公式(5)中,B(x)为数据标签属性“异常”的隶属度函数值。
首先,将频繁项集的基础数据标签按一定的比例随机划分为训练集及测试集,并基于训练集进行关联规则挖掘,之后利用挖掘出的规则为推理系统提供支持,对测试样本集进行推理,最后形成推理标签。若需要对推理结果得到的标签进行优化,则可对规则挖掘过程中人为设置的最小置信度及最小支持度进行调整,或者更改训练集与测试集的比例。
本发明的另一实施例还提出一种所述基于大数据技术的用户用电特征画像构建方法在用户群体划分、差异化供电服务或针对性营销服务配置中的应用,具体如下:
(1)细分用户群体,实现精准信息推送。根据用户标签画像,细分电力用户群体,将用户标签划分为政要、企业、大电量和高危等特殊服务群体;交费量大、用电行为优质等正向标签户;长期欠费、违约用电和窃电等负向标签户;以地市区域划分的属地用户以及敏感用户等。针对不同服务群体定向推送通知、建议等,保证用户在第一时间获取服务消息。
(2)促进差异化供电服务,提高用户满意度。通过用户画像,电力公司看到用户标签后,就可以快速了解用户在历史数据中和电力公司发生的交互情况,包括用户的历史用电量,历史欠费情况,历史诉求情况及用户脾性等,及时调整适合用户的态度和服务策略,尽可能为用户提供优质的服务。
(3)帮助品牌推广,提高营销成效。根据用户画像系统提示,对特定用户开展针对性营销,提高营销成功率,避免用户反感。在电力用户服务中,对各类别用户进行针对性营销服务配置,既提高用户满意与用电感知,又提升电力企业服务质量与供电质量。
为了验证本发明实施例提出的技术方案,基于电力大数据平台实现了用户用电特征画像系统构建,系统运行环境及配置见表2。
表2系统运行环境及配置
运行环境及配置 | 属性 |
操作系统 | CentOS 7.6 |
CPU | Intel Xeon E312xx*20 |
内存 | 32GB |
硬盘 | 300GB |
网络 | 千兆以太网 |
JDK | 1.8 |
中间件 | TOMCAT 8.0 |
Hive | 3.1.2 |
ES | 8.6.1 |
Hbase | 2.4.6 |
MYSQL | 5.7 |
以国网某省电力使用区域居民用户为例进行方案验证,将用户用电特征分成四类标签,分别是用电属性、履约能力、用电行为、交易行为,覆盖了用电用户所需要的强相关信息,通过用户用电特征画像可全面了解用电用户行为习惯,为电力公司决策提供依据。用户用电特征画像如图7所示。
本发明另一实施例还提供一种基于大数据技术的用户用电特征画像构建系统,包括:
用电数据获取模块,用于获取用电数据;
标签数据提取模块,用于按照预先建立的标签体系,从用电数据中提取得到用电特征数据;
数据分析模块,用于将用电特征数据输入预先建立的电力数据分析模型,筛选出目标用户并制定决策方案。
在一种可能的实施方式中,标签数据提取模块按照用户基本信息、行为特征和兴趣偏好形成标签体系的一级主题,再在每个一级主题下划分出若干个标签分类,形成二级主题,每个二级主题的标签分类下再由许多数据标签组成;依据标签体系建立标签库,得到用户基本信息标签、行为特征标签和兴趣偏好标签,按照用户基本信息标签、行为特征标签和兴趣偏好标签从用电数据中对应提取得到用电特征数据。
在一种可能的实施方式中,数据分析模块将用电特征数据输入预先建立的电力数据分析模型时,电力数据分析模型基于改进K-means聚类算法分析标签库中的数据,在聚类个数确定的情况下,采用最大最小距离算法来选取聚类中心,从而将相近特质的电力用户进行聚类,构建得到不同用户簇别,形成用户综合画像并对结果完成可视化呈现。
进一步的,改进K-means聚类算法的聚类分析过程包括:
构造数据簇相似度函数W,用来衡量数据簇内所有数据元的相似性;
用Kmax,Kmin表示聚类数K取值的最大值与最小值;
用Intra(i)表示数据簇内的所有数据元的相似度;
用Inter(i,j)表示两个数据簇之间的相似度;
C代表一个数据的集合,该集合中有n个需要进行聚类分析的数据;
Ci与Cj代表聚类的两个簇;
ni与nj代表两个聚类簇中的数据总数;
R(s,t)表示两个数据之间相似性度量结果;
根据聚类的要求:数据簇类间相似度最小,类内相似度最大,则得到W存在一个最小值,而W达到最小值时所对应的K值即为最优聚类数Kbest,满足Kmin≤Kbest≤Kmax;
数据簇相似度函数W的表达式如下:
其中:
在一种可能的实施方式中,数据分析模块采用Apriori算法对数据标签进行特征挖掘,将挖掘过程提取到的关联规则生成推理标签存储至标签库;Apriori算法采用递归的方法来发现频繁项集,并计算每一频繁项集的支持度和置信度,使用支持度Dsupp及置信度Dconf来度量所提取的关联规则;
通过推理算法使用频繁项集和关联规则主动生成内部具有关联性的多个标签集合;
推理算法选择梯形函数作为隶属度函数来衡量标签属性,梯形函数的表达式如下:
式中,A(x)为数据标签属性为正常的隶属度函数值;x为数值类数据的值;a1为正常阈值的90%;a2为正常阈值的110%;
数据标签属性为异常的隶属度函数为:
B(x)=1-A(x)
式中,B(x)为数据标签属性“异常”的隶属度函数值。
请参阅图1,在一种可能的实施方式中,本发明实施例基于大数据技术的用户用电特征画像构建系统的总体框架,可以由6个部分组成:数据源层、数据源采集层、数据存储与处理层、数据分析与服务层、业务应用层和终端层。各层之间的通信和交互,通过良好定义的接口变得清晰和可控,使不同部分的组件可独立开发、测试和部署。
①数据源层
是指采集的数据源头,主要指电力系统内部业务系统,同时还包括互联网、政府官网等外部公开数据。
②数据采集层
是指将用于产生标签的源数据从数据源采集至电力大数据平台数据缓存区的过程。
③数据存储与处理层
将收集到的数据通过kettle从数据源导入到hive中,并对数据进行清洗、合并、转换等操作,以便后续处理和分析。
④数据分析与服务层
基于统计分析、数据挖掘、机器学习等方法进行数据分析,将分析出的结果以RESTAPI方式对外提供数据服务。
⑤业务应用层
提供可视化的标签应用,包括:标签体系、群体特征和审批管理等功能。
⑥终端层
可通过桌面终端、移动终端及相关的数据接口平台开展用户分类、运营推广等应用。
本发明实施例通过建立用户用电特征画像标签体系,并采用大数据的电力标签挖掘技术,对用户行为进行挖掘分析,构建用户用电特征用户画像,电力企业单位可以更精准地分析用户行为,针对性地提供服务,有利于其服务水平增长,提升用户服务工作水平。
本发明另一实施例还提出一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述的处理器执行所述的计算机程序时实现所述基于大数据技术的用户用电特征画像构建方法。
本发明另一实施例还提出一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述的计算机程序被处理器执行时实现所述基于大数据技术的用户用电特征画像构建方法。
所述计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。为了便于说明,以上内容仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该计算机可读存储介质是非暂时性的,可以存储在各种电子设备形成的存储装置当中,能够实现本发明实施例方法记载的执行过程。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (14)
1.一种基于大数据技术的用户用电特征画像构建方法,其特征在于,包括:
获取用电数据;
按照预先建立的标签体系,从用电数据中提取得到用电特征数据;
将用电特征数据输入预先建立的电力数据分析模型,筛选出目标用户并制定决策方案。
2.根据权利要求1所述基于大数据技术的用户用电特征画像构建方法,其特征在于,在所述获取用电数据的步骤中,将用电数据分为用户属性数据和用户行为数据,所述用户属性数据为用户静态特征数据,所述用户行为数据包括用户动态特征及动态变化趋势数据,并按照属于用户属性数据还是用户行为数据对应从不同的信息系统数据库中获取用电数据。
3.根据权利要求1所述基于大数据技术的用户用电特征画像构建方法,其特征在于,在所述按照预先建立的标签体系,从用电数据中提取得到用电特征数据的步骤中,按照用户基本信息、行为特征和兴趣偏好形成标签体系的一级主题,再在每个一级主题下划分出若干个标签分类,形成二级主题,每个二级主题的标签分类下再由若干个数据标签组成;依据标签体系建立标签库,得到用户基本信息标签、行为特征标签和兴趣偏好标签,按照用户基本信息标签、行为特征标签和兴趣偏好标签从用电数据中对应提取得到用电特征数据。
4.根据权利要求3所述基于大数据技术的用户用电特征画像构建方法,其特征在于,在所述将用电特征数据输入预先建立的电力数据分析模型,筛选出目标用户并制定决策方案的步骤中,所述电力数据分析模型基于改进K-means聚类算法分析标签库中的数据,在聚类个数确定的情况下,采用最大最小距离算法来选取聚类中心,从而将相近特质的电力用户进行聚类,构建得到不同用户簇别,形成用户综合画像并对结果完成可视化呈现。
5.根据权利要求4所述基于大数据技术的用户用电特征画像构建方法,其特征在于,所述改进K-means聚类算法的聚类分析过程包括:
构造数据簇相似度函数W,用来衡量数据簇内所有数据元的相似性;
用Kmax,Kmin表示聚类数K取值的最大值与最小值;
用Intra(i)表示数据簇内的所有数据元的相似度;
用Inter(i,j)表示两个数据簇之间的相似度;
C代表一个数据的集合,该集合中有n个需要进行聚类分析的数据;
Ci与Cj代表聚类的两个簇;
ni与nj代表两个聚类簇中的数据总数;
R(s,t)表示两个数据之间相似性度量结果;
根据聚类的要求:数据簇类间相似度最小,类内相似度最大,则得到W存在一个最小值,而W达到最小值时所对应的K值即为最优聚类数Kbest,满足Kmin≤Kbest≤Kmax;
数据簇相似度函数W的表达式如下:
其中:
6.根据权利要求3所述基于大数据技术的用户用电特征画像构建方法,其特征在于,在所述将用电特征数据输入预先建立的电力数据分析模型,筛选出目标用户并制定决策方案的步骤中,采用Apriori算法对数据标签进行特征挖掘,将挖掘过程提取到的关联规则生成推理标签存储至标签库;所述Apriori算法采用递归的方法来发现频繁项集,并计算每一频繁项集的支持度和置信度,使用支持度Dsupp及置信度Dconf来度量所提取的关联规则;
通过推理算法使用频繁项集和关联规则主动生成内部具有关联性的多个标签集合。
7.根据权利要求6所述基于大数据技术的用户用电特征画像构建方法,其特征在于,所述推理算法选择梯形函数作为隶属度函数来衡量标签属性,梯形函数的表达式如下:
式中,A(x)为数据标签属性为正常的隶属度函数值;x为数值类数据的值;a1为正常阈值的90%;a2为正常阈值的110%;
数据标签属性为异常的隶属度函数为:
B(x)=1-A(x)
式中,B(x)为数据标签属性“异常”的隶属度函数值。
8.一种如权利要求1至7中任意一项所述基于大数据技术的用户用电特征画像构建方法在用户群体划分、差异化供电服务或针对性营销服务配置中的应用。
9.一种基于大数据技术的用户用电特征画像构建系统,其特征在于,包括:
用电数据获取模块,用于获取用电数据;
标签数据提取模块,用于按照预先建立的标签体系,从用电数据中提取得到用电特征数据;
数据分析模块,用于将用电特征数据输入预先建立的电力数据分析模型,筛选出目标用户并制定决策方案。
10.根据权利要求9所述基于大数据技术的用户用电特征画像构建系统,其特征在于,所述标签数据提取模块按照用户基本信息、行为特征和兴趣偏好形成标签体系的一级主题,再在每个一级主题下划分出若干个标签分类,形成二级主题,每个二级主题的标签分类下再由许多数据标签组成;依据标签体系建立标签库,得到用户基本信息标签、行为特征标签和兴趣偏好标签,按照用户基本信息标签、行为特征标签和兴趣偏好标签从用电数据中对应提取得到用电特征数据。
11.根据权利要求10所述基于大数据技术的用户用电特征画像构建系统,其特征在于,所述数据分析模块将用电特征数据输入预先建立的电力数据分析模型时,所述电力数据分析模型基于改进K-means聚类算法分析标签库中的数据,在聚类个数确定的情况下,采用最大最小距离算法来选取聚类中心,从而将相近特质的电力用户进行聚类,构建得到不同用户簇别,形成用户综合画像并对结果完成可视化呈现;
所述改进K-means聚类算法的聚类分析过程包括:
构造数据簇相似度函数W,用来衡量数据簇内所有数据元的相似性;
用Kmax,Kmin表示聚类数K取值的最大值与最小值;
用Intra(i)表示数据簇内的所有数据元的相似度;
用Inter(i,j)表示两个数据簇之间的相似度;
C代表一个数据的集合,该集合中有n个需要进行聚类分析的数据;
Ci与Cj代表聚类的两个簇;
ni与nj代表两个聚类簇中的数据总数;
R(s,t)表示两个数据之间相似性度量结果;
根据聚类的要求:数据簇类间相似度最小,类内相似度最大,则得到W存在一个最小值,而W达到最小值时所对应的K值即为最优聚类数Kbest,满足Kmin≤Kbest≤Kmax;
数据簇相似度函数W的表达式如下:
其中:
12.根据权利要求10所述基于大数据技术的用户用电特征画像构建系统,其特征在于,所述数据分析模块采用Apriori算法对数据标签进行特征挖掘,将挖掘过程提取到的关联规则生成推理标签存储至标签库;所述Apriori算法采用递归的方法来发现频繁项集,并计算每一频繁项集的支持度和置信度,使用支持度Dsupp及置信度Dconf来度量所提取的关联规则;
通过推理算法使用频繁项集和关联规则主动生成内部具有关联性的多个标签集合;
所述推理算法选择梯形函数作为隶属度函数来衡量标签属性,梯形函数的表达式如下:
式中,A(x)为数据标签属性为正常的隶属度函数值;x为数值类数据的值;a1为正常阈值的90%;a2为正常阈值的110%;
数据标签属性为异常的隶属度函数为:
B(x)=1-A(x)
式中,B(x)为数据标签属性“异常”的隶属度函数值。
13.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于:所述的处理器执行所述的计算机程序时实现如权利要求1至7中任意一项所述基于大数据技术的用户用电特征画像构建方法。
14.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述的计算机程序被处理器执行时实现如权利要求1至7中任意一项所述基于大数据技术的用户用电特征画像构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311401104.9A CN117455529A (zh) | 2023-10-26 | 2023-10-26 | 基于大数据技术的用户用电特征画像构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311401104.9A CN117455529A (zh) | 2023-10-26 | 2023-10-26 | 基于大数据技术的用户用电特征画像构建方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117455529A true CN117455529A (zh) | 2024-01-26 |
Family
ID=89584838
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311401104.9A Pending CN117455529A (zh) | 2023-10-26 | 2023-10-26 | 基于大数据技术的用户用电特征画像构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117455529A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118014664A (zh) * | 2024-04-08 | 2024-05-10 | 易联云计算(杭州)有限责任公司 | 一种用户画像构建方法及报警阈值自适应设置方法 |
CN118378131A (zh) * | 2024-06-21 | 2024-07-23 | 山东欧通信息科技有限公司 | 智能电表数据分析与异常检测方法及系统 |
-
2023
- 2023-10-26 CN CN202311401104.9A patent/CN117455529A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118014664A (zh) * | 2024-04-08 | 2024-05-10 | 易联云计算(杭州)有限责任公司 | 一种用户画像构建方法及报警阈值自适应设置方法 |
CN118014664B (zh) * | 2024-04-08 | 2024-08-02 | 易联云计算(杭州)有限责任公司 | 一种用户画像构建方法及报警阈值自适应设置方法 |
CN118378131A (zh) * | 2024-06-21 | 2024-07-23 | 山东欧通信息科技有限公司 | 智能电表数据分析与异常检测方法及系统 |
CN118378131B (zh) * | 2024-06-21 | 2024-09-20 | 山东欧通信息科技有限公司 | 智能电表数据分析与异常检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Input feature selection method based on feature set equivalence and mutual information gain maximization | |
CN117455529A (zh) | 基于大数据技术的用户用电特征画像构建方法及系统 | |
CN106022508A (zh) | 预测线上理财平台的用户邀请好友行为的方法和装置 | |
Akerkar | Advanced data analytics for business | |
Akhondzadeh-Noughabi et al. | Mining the dominant patterns of customer shifts between segments by using top-k and distinguishing sequential rules | |
Seret et al. | A new knowledge-based constrained clustering approach: Theory and application in direct marketing | |
Ma et al. | Class-imbalanced learning on graphs: A survey | |
CN116468460A (zh) | 基于人工智能的消费金融客户画像识别系统及其方法 | |
Meng et al. | Fine-grained job salary benchmarking with a nonparametric dirichlet process–based latent factor model | |
CN112632275B (zh) | 基于个人文本信息的人群聚类数据处理方法、装置及设备 | |
Babar et al. | Real-time fake news detection using big data analytics and deep neural network | |
Sharma et al. | Importance of Big Data in financial fraud detection | |
Liu et al. | Improved RFM model for customer segmentation using hybrid meta-heuristic algorithm in medical IoT applications | |
Alabdulkarim et al. | Exploring Sentiment Analysis on Social Media Texts | |
US20230245144A1 (en) | System for identifying and predicting trends | |
Pham et al. | Predictive analysis of the supply chain management using machine learning approaches: Review and taxonomy | |
Chang et al. | Multitask Active Learning for Graph Anomaly Detection | |
Zhao et al. | Detecting fake reviews via dynamic multimode network | |
Jin et al. | Technology prospecting for high tech companies through patent mining | |
Morris | A comparison of methodologies for classification of administrative records quality for census enumeration | |
Karami et al. | Estimating topic exposure for under-represented users on social media | |
Noughabi et al. | How can we explore patterns of customer segments' structural changes? A sequential rule mining approach | |
Park et al. | Advanced technologies in blockchain, machine learning, and Big Data | |
Guo et al. | A personal credit forecasting method based on improved isolation random forest | |
Bochkaryov et al. | Application of the ensemble clustering algorithm in solving the problem of segmentation of users taking into account their loyalty |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |