CN111179016A - 一种售电套餐推荐方法、设备及存储介质 - Google Patents

一种售电套餐推荐方法、设备及存储介质 Download PDF

Info

Publication number
CN111179016A
CN111179016A CN201911146466.1A CN201911146466A CN111179016A CN 111179016 A CN111179016 A CN 111179016A CN 201911146466 A CN201911146466 A CN 201911146466A CN 111179016 A CN111179016 A CN 111179016A
Authority
CN
China
Prior art keywords
algorithm
data
steps
user
xgboost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911146466.1A
Other languages
English (en)
Other versions
CN111179016B (zh
Inventor
张庭玉
储方诚
朱海东
郝浩
李鹏
刘子良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guodian Nanjing Automation Co Ltd
Original Assignee
Guodian Nanjing Automation Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guodian Nanjing Automation Co Ltd filed Critical Guodian Nanjing Automation Co Ltd
Priority to CN201911146466.1A priority Critical patent/CN111179016B/zh
Publication of CN111179016A publication Critical patent/CN111179016A/zh
Application granted granted Critical
Publication of CN111179016B publication Critical patent/CN111179016B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Abstract

本发明公开了一种售电套餐推荐方法、设备及存储介质,包括步骤:根据用户年度申报量特征将该用户归类到对应的簇中,将用户相关特征输入到预先建立的对应该簇的售电套餐推荐模型中,得到适用于用户的套餐;所述售电套餐推荐模型是通过改进的XGBoost算法以及筛选过的输入特征集预先建立的;所述改进的XGBoost算法是通过遗传算法得到XGBoost算法的最佳参数组合,进而得到改进的XGBoost算法。本发明能够智能推荐售电套餐。

Description

一种售电套餐推荐方法、设备及存储介质
技术领域
本发明涉及电力系统技术领域,具体涉及一种售电套餐推荐方法、设备及存储介质。
背景技术
售电公司为了能够在电力现货市场的竞争中取得优势,售电公司通过套餐的形式向用户提供售电业务及增值服务。然而,随着签约用户的增多,合同信息的累积,用户需求的差异化,套餐的种类也会越来越多。面对种类繁多的套餐,如何智能地在已有套餐中匹配最合适的一款套餐推荐给客户显得至关重要。针对售电套餐的个性化匹配问题,通过数据挖掘技术为电力用户推送合理的套餐是提升已有用户粘性和吸引新用户的有效方式。
基于大数据分析的智能售电套餐个性化匹配方法不仅解决了售电公司在营销时的信息过载问题,而且能够在用户没有明确选择的套餐种类时,帮助他们发现感兴趣的套餐,或者智能优化现有用户的套餐。
套餐的智能推荐是在用户数量和套餐种类越来越多的情况下,商家能够帮助用户迅速匹配合适套餐,也能将合适套餐信息推荐给用户。近年来,推荐系统的发展在各个领域取得了巨大的商业价值和使用效果。电信运营商通过大量历史用户消费记录,分析用户消费行为,为用户推荐合适的电信话费套餐。在电子商务领域,无论是淘宝这种网络零售商还是沃尔玛超市,都会通过历史购买记录进行精准推荐,引导用户进行消费。餐饮行业也会根据用户的饮食习惯、消费行为、历史评价为用户推荐套餐,吸引潜在用户。在影音娱乐领域,优酷、爱奇艺、豆瓣、FM等在线视频和音乐提供商,都通过个性化推荐用户感兴趣的多媒体信息,从而改善了用户体验,使得自身用户量快速增长。
然而,在电力行业,随着电力市场竞争的加剧,海量的客户信息和种类繁多的售电套餐给售电公司带来了营销形式上的挑战,也给用户带来了套餐匹配和选择的困难。因此,个性化、智能化的售电套餐推荐对于售电公司来说显得尤其重要,亟需通过数据挖掘技术构建基于电力客户消费行为的售电套餐智能推荐模型,根据用户行为结果,动态分析用户需求,实时、主动地为用户推荐适合的售电套餐产品。
发明内容
为解决现有技术中的不足,本发明提供一种售电套餐推荐方法、设备及存储介质,解决了电力市场售电套餐无法智能推荐的问题。
为了实现上述目标,本发明采用如下技术方案:一种基于改进XGBoost算法的售电套餐推荐方法,包括步骤:
根据用户年度申报量特征将该用户归类到对应的簇中,将用户相关特征输入到预先建立的对应该簇的售电套餐推荐模型中,得到适用于用户的套餐;
所述售电套餐推荐模型是通过改进的XGBoost算法以及筛选过的输入特征集预先建立的;所述改进的XGBoost算法是通过遗传算法得到XGBoost算法的最佳参数组合,将所述最佳参数组合作为XGBoost算法的输入参数进而得到改进的XGBoost算法。
进一步的,所述簇的个数确定方法包括步骤:
根据预设的迭代聚类数目K的取值范围,分别进行K-means聚类后得到平均轮廓系数和代价函数,以K为横坐标,平均轮廓系数和代价函数为纵坐标,绘制两个折线图,统计轮廓系数曲线和代价函数曲线的变化幅度最小处的K值,如果两个K值相同确定此K值为最佳聚类数目,如果两个K值不同,取两个K 值的平均值并向上取整的值作为最佳的聚类中心数目。
进一步的,所述输入特征集筛选方法包括步骤:
针对每一个簇,利用XGBoost算法建立售电套餐推荐模型,模型输入为:对用户历史样本数据进行预处理得到的用户样本数据;模型输出为:套餐类型、分类准确率以及特征重要性排序结果,删除重要性小于设定值的特征,确定最终输入特征集。
进一步的,所述用户历史样本数据包括:电力系统数据库中提取设定时段内有交易记录的所有电力客户的详细数据。
进一步的,预处理包括:数据清洗、数据变换和数据计算;
所述数据变换包括离散特征数据编码和连续特征数据归一化处理;
离散特征数据编码具体为:对离散型的数据进行one_hot编码,one_hot编码是用N位状态寄存器来对N个状态进行编码;
连续特征数据归一化处理,具体为:对原始连续特征数据进行线性变换,使结果值映射到[0,1]之间,转换公式为
Figure BDA0002282337990000031
max为样本中某类数据最大值,min为样本中某类数据最小值,xm为样本某类数据原始值,xm *为样本某类数据映射值。
进一步的,所述通过遗传算法得到XGBoost算法的最佳参数组合,进而得到改进的XGBoost算法,具体为:
设置XGBoost算法固定参数和需要用遗传算法进行寻优的XGBoost参数;
根据需要用遗传算法进行寻优的XGBoost参数设置遗传算法的运行参数;
初始化遗传算法种群,采用实数编码对个体进行编码,将个体对应的值代入XGBoost算法,计算XGBoost的目标函数作为遗传算法的适应度函数,计算每个个体对应的适应度值;
开始迭代,对初始父代种群中每个个体进行遗传操作,包括轮盘赌选择、均匀交叉、高斯近似变异,形成新的子代种群,并将子代种群各个体代入XGBoost 算法计算个体对应的适应度值;之后按改进的精英保留策略选择M个精英保留,替换适应度值低的个体,每一次迭代,如果当前最优解更优与当前全局最优,那么更新全局最优解;
迭代直到满足终止条件,输出最优适应度值和对应个体,该个体即为最佳的参数组合。
进一步的,改进的精英保留策略,具体为:先进行选择、交叉、变异,之后将父代和子代先进行合并,之后再从合并的种群中选择适应度值最优的前M 个个体进行保留。
进一步的,所述固定参数包括:提升boosting种类、采用softmax作为目标函数、套餐种类个数,寻优的XGBoost参数包括:收缩步长、树的最大深度、最小叶子权重、节点分裂所需的最小损失函数下降值、训练模型的子样本占整个样本集合的比例、在建立树时对特征采样的比例、权重的L2正则化项、权重的L1正则化项、迭代次数。
设置遗传算法的运行参数包括:设置遗传算法初始种群数量P;根据需要寻优的参数个数设置每个个体基因数N,基因初始值在参数范围内按参数类型要求随机生成;设置遗传算法迭代次数T,设置精英保留个体数M;设置遗传算法的交叉概率Pc,设置变异概率Pm。
一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据前述的基于改进XGBoost算法的售电套餐推荐方法中的任一方法。
一种计算设备,包括,
一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据前述的基于改进XGBoost算法的售电套餐推荐方法中的任一方法的指令。
本发明所达到的有益效果:遗传算法改进的XGBoost算法能够使得营销人员只需输入某用户的相关数据,就能智能预测该用户最合适的套餐,从而快速的从海量套餐中选取套餐推荐给用户,节省大量时间和精力;
本发明通过遗传(Ga)算法对XGBoost算法进行改进。本发明使用的Ga 算法采用改进的精英保留策略,原始的精英保留策略是种群在进化过程中,保留当前父代中最优个体,不进行交叉变异而直接复制到下一代中,这个过程存在如果最优个体参与交叉变异可能结果更优的问题。本发明先进行选择、交叉、变异,之后将父代和子代先进行合并,之后再从合并的种群中选择适应度值最优的前几个个体进行保留;这样保证精英个体被保留下来,避免导致当前群体中的精英个体在下一代群体中发生丢失,或者未参与交叉变异被淘汰的情况。改进的精英保留算法使Ga算法能够跳出局部最优,使其具有全局寻优能力,从而能够找到XGBoost算法的目标函数最小值,得到最优参数组合,最终智能设置XGBoost模型参数,避免了繁琐计算。
附图说明
图1是本发明实施例中的一种方法流程图;
图2是本发明实施例中的一种Ga_XGBoost实现流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,一种基于改进XGBoost算法的售电套餐推荐方法,包括以下步骤:
步骤1,从电力系统数据库中获取原始用户数据,对获取的原始用户数据进行数据预处理;
从电力系统数据库中提取设定时段(比如前一年,前半年)内有交易记录的所有电力客户的详细数据,包括用户基础信息,用电信息、交易信息和用户画像信息。
基础信息:包括用户名称或编号、联系方式;
用电信息:包括设定时段内的用户每日日负荷、电压等级(如220V,10KV)、用户用电性质(一般分为大工业用电、农业生产用电、一般工商业及其他用电用于区分大中小用户)、设定时段内每月月度实际电量;
交易信息:包括用户月度计划网购用电量(交易前计划预估的电量,一般都有填写,若没有可以根据历史数据在预处理时预测一个值补充填写)、用户月度申报量(实际交易的电量)、用户年度申报量、是否通过微信公众平台签约、是否办理增值服务、用户年预计用电量、所用套餐名称或者编号;
用户画像信息:包括信用指数、风险指数、交易指数等。
数据预处理包括数据清洗、数据变换、数据计算;
由于数据是真实场景下获取,并不完整,不能直接应用于实验训练,因此要对数据进行预处理。
数据清洗是指,包括去除原始用户数据样本中的空值和缺失值;去除重复数据和异常数据;修改数据格式使其统一;
数据计算,包括:对每日负荷画曲线图,分析找到每日负荷高于设定值的时间段,以及设定时段内每天最高负荷值的均值;若某用户没有交易前计划预估的电量,根据历史数据预测一个值补充填写;
数据变换是指,对数据进行规范化,主要包括离散特征数据编码和连续特征数据归一化处理等;
离散特征数据一般是指数值型或类别数据。对离散型的数据进行one_hot 编码,one_hot编码是用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候只有一位有效,是离散变量作为二进制向量的表示。例如是否办理增值服务,由于有“是”、“否”两种值,那么one_hot 编码为“是”编码10,“否”编码01;如用电性质一般分为大工业用电、农业生产用电、一般工商业及其他用电,那么N为3,可以编码大工业用电100、农业生产用电010、一般工商业及其他用电001。那么一个用户[办理了增值业务,属于大工业用电],那么编码为[10100]。为了消除连续数据间的不同量纲的影响,对数据进行归一化处理,进行min-max标准化,对原始数据进行线性变换,使结果值映射到[0,1]之间,转换公式为
Figure BDA0002282337990000061
max为样本中某类数据最大值,min为样本中某类数据最小值,xm为样本某类数据原始值,xm *为样本某类数据映射值。
步骤2,根据用户的用户年度申报量,利用K-means聚类算法将相似用户年度申报量的用户聚成一类,将原始用户数据分成K个不同的簇;
由于用户数据较大,为了将用户分类范围进行缩小,首先对用户进行聚类,得到用户适合套餐所在的大致范围。选取用户年度申报量作为K-means算法的聚类特征,对用户进行聚类。K-means算法是经典的聚类算法,算法以数据对象之间的距离作为聚类标准,即数据对象之间距离越小则表示这类数据拥有较高的相似度,距离越大则作用相反。
K-means算法的具体步骤是:
1)随机选择K个聚类中心,聚类特征为样本数据中的上一年用户年度申报量;
2)假设有n个样本X={x1,x2,…xi,...,xn},i=1,2…,n,n为样本总数,每个样本xi到第k个聚类中心的欧式距离
Figure BDA0002282337990000071
并将其分到距离最小的聚类中心所对应的类中,Ck0表示第k个簇的中心点;
3)针对每个簇Ck,重新计算目前簇内用户年度申报量的平均值
Figure BDA0002282337990000072
作为新的聚类中心,
Figure BDA0002282337990000073
表示属于第Ck个簇的样本个数,并计算代价函数,代价函数是所有簇中所有对象xi与中心点的误差的平方和,定义为
Figure BDA0002282337990000074
4)重复步骤2)和3)直到代价函数收敛或者达到迭代次数,则迭代过程结束,本次聚类过程结束。此时输出最终结果的代价函数,并计算最终聚类结果的平均轮廓系数。
将用户年度申报量相似的用户分到同一个簇中,假设一共有n个用户,进行K-means聚类,为了更好地确定合适的聚类个数K,使用平均轮廓系数和代价函数并绘制折线图确定。轮廓系数是簇的密集与分散程度的反应,单个用户的轮廓系数的公式为:Si=(bi-ai)/max(ai,bi),其中i表示第i个用户,即第 i个样本,ai是第i个用户到它属于的簇中其他用户的距离的平均数,bi是第i个用户到它相邻最近的一簇内的所有其他用户的距离的平均数。最终,平均轮廓系数就是将所有用户的轮廓系数求平均。设置迭代聚类数目K的取值范围2-10,以K为横坐标,平均轮廓系数和代价函数为纵坐标,绘制两个折线图,统计轮廓系数曲线和代价函数曲线的变化幅度最小处的K值,如果两个K值相同确定此K值为最佳聚类数目,如果两个K值不同,取两个K值的平均值并向上取整的值作为最佳的聚类中心数目Ko。最终将n条数据分为Ko个簇,簇内用户用户年度申报量相似。
步骤3,针对每一个簇内的样本数据,利用XGBoost算法进行样本数据特征重要性排序,删除重要性较小的特征,确定最终输入特征集。
由于目前的特征集较大,涉及到的特征较多,需要进行特征选择,找到更加适合的特征作为模型输入。
具体过程为:
(1)针对每一个簇,利用XGBoost算法建立售电套餐推荐模型,此时 XGBoost的参数根据经验设定,模型输入为:步骤1中预处理的历史数据,包括样本特征;样本特征包括:每日负荷高于设定值的时间段,每天最高负荷值的均值,电压等级,用户用电性质、每月月度实际电量;用户月度计划网购用电量,用户月度申报量,用户年度申报量,是否通过微信公众平台签约,是否办理增值服务,用户年预计用电量;信用指数、风险指数、交易指数等;
模型输出为:套餐类型、分类准确率以及特征重要性排序结果,删除重要性小的特征,确定最终输入特征集;
(2)利用XGBoost进行训练建模,输出模型的套餐类型和分类准确率及各特征对应权值排序,分析筛选重要的特征,得到最终的输入特征集。
步骤4,基于遗传算法对XGBoost算法的参数进行参数优化,得到XGBoost 算法的最佳参数组合,进而利用Ga_XGBoost算法建立最终的售电套餐推荐模型;
由于XGBoost算法涉及到各种参数的调整,并且参数组合的选取对模型的分类性能影响较大,传统的参数寻优方法主要是利用穷举法进行参数“试凑”实验,得到最大或最小的目标函数,具有很大不确定性,且需要花费大量人力和时间,工作量繁琐。本发明通过遗传(Ga)算法对XGBoost算法进行改进。本发明使用的Ga算法采用改进的精英保留策略,原始的精英保留策略是种群在进化过程中,保留当前父代中最优个体,不进行交叉变异而直接复制到下一代中,这个过程存在如果最优个体参与交叉变异可能结果更优的问题。本发明先进行选择、交叉、变异,之后将父代和子代先进行合并,之后再从合并的种群中选择适应度值最优的前几个个体进行保留。这样保证精英个体被保留下来,避免导致当前群体中的精英个体在下一代群体中发生丢失,或者未参与交叉变异被淘汰的情况。改进的精英保留策略使Ga算法能够跳出局部最优,使其具有全局寻优能力,从而能够找到XGBoost算法的目标函数最小值,得到最优参数组合,最终智能设置XGBoost模型参数。
Ga_XGBoost实现流程图如图2。
具体过程为:
(1)首先确定XGBoost需要智能优化的参数,以及这些参数的设置范围。通过分析套餐智能推荐的需求,设置XGBoost算法固定参数如下表1,XGBoost算法的固定参数包括:提升boosting种类、采用softmax作为目标函数(XGBoost算法中的内容)、套餐种类个数,需要用Ga算法进行寻优的XGBoost参数如下表2,包括收缩步长、树的最大深度、最小叶子权重、节点分裂所需的最小损失函数下降值、训练模型的子样本占整个样本集合的比例、在建立树时对特征采样的比例、权重的L2正则化项、权重的L1正则化项、迭代次数;
(2)根据需要用Ga算法进行寻优的XGBoost参数设置遗传算法的运行参数,主要包括设置Ga算法初始种群数量P为30;根据表2需要寻优的参数个数设置每个个体基因数N为9,基因初始值在参数范围内按参数类型要求随机生成;设置Ga迭代次数T为100,精英保留个体数M为10;设置遗传算法的交叉概率Pc为0.8,变异概率Pm为0.2;
(3)初始化遗传算法种群,采用实数编码对个体进行编码,将个体对应的值代入XGBoost算法,计算XGBoost的目标函数作为Ga算法的适应度函数,计算每个个体对应的适应度值;
(4)开始迭代,对初始父代种群中每个个体进行遗传操作,包括轮盘赌选择、均匀交叉、高斯近似变异,形成新的子代种群,并将子代种群各个体代入 XGBoost算法计算个体对应的适应度值;之后按改进精英保留策略选择M个精英保留,替换适应度值低的个体,每一次迭代,如果当前最优解更优与当前全局最优,那么更新全局最优解;
(5)迭代直到满足终止条件,输出最优适应度值和对应个体,该个体即为最佳的参数组合。
表1 XGBoost算法可以确定的参数
参数名 参数设置 参数含义
booster gbtree 提升boosting种类,这里使用树模型
objective multi:softmax 采用softmax作为目标函数
num_class 套餐类别数量 套餐种类个数
表2需要通过Ga寻优的参数
Figure BDA0002282337990000101
Figure BDA0002282337990000111
将上述得到的最佳参数组合设置到XGBoost算法中,即基于Ga_XGBoost 算法以及最终输入特征集重新建立套餐推荐分类模型,并对模型进行评估,得到准确的套餐推荐模型,每个簇都得到一个套餐推荐模型;
步骤5,根据某一个用户的用户年度申报量特征将该用户归类到对应的簇中,输入用户相关属性到训练好的对应该簇的套餐推荐模型中,智能地得到适用于用户的套餐。
用户相关属性包括:每日负荷高于设定值的时间段,每天最高负荷值的均值,电压等级,用户用电性质、每月月度实际电量;用户月度计划网购用电量,用户月度申报量,用户年度申报量,是否通过微信公众平台签约,是否办理增值服务,用户年预计用电量;信用指数、风险指数、交易指数等。
一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行上述任一一种基于改进XGBoost算法的售电套餐推荐方法。
一种计算设备,包括,一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行上述任一一种基于改进XGBoost算法的售电套餐推荐方法的指令。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/ 或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种基于改进XGBoost算法的售电套餐推荐方法,其特征在于:包括步骤:
根据用户年度申报量特征将该用户归类到对应的簇中,将用户相关特征输入到预先建立的对应该簇的售电套餐推荐模型中,得到适用于用户的套餐;
所述售电套餐推荐模型是通过改进的XGBoost算法以及筛选过的输入特征集预先建立的;所述改进的XGBoost算法是通过遗传算法得到XGBoost算法的最佳参数组合,将所述最佳参数组合作为XGBoost算法的输入参数进而得到改进的XGBoost算法。
2.根据权利要求1所述的一种基于改进XGBoost算法的售电套餐推荐方法,其特征是:所述簇的个数确定方法包括步骤:
根据预设的迭代聚类数目K的取值范围,分别进行K-means聚类后得到平均轮廓系数和代价函数,以K为横坐标,平均轮廓系数和代价函数为纵坐标,绘制两个折线图,统计轮廓系数曲线和代价函数曲线的变化幅度最小处的K值,如果两个K值相同确定此K值为最佳聚类数目,如果两个K值不同,取两个K值的平均值并向上取整的值作为最佳的聚类中心数目。
3.根据权利要求1所述的一种基于改进XGBoost算法的售电套餐推荐方法,其特征是:所述输入特征集筛选方法包括步骤:
针对每一个簇,利用XGBoost算法建立售电套餐推荐模型,模型输入为:对用户历史样本数据进行预处理得到的用户样本数据;模型输出为:套餐类型、分类准确率以及特征重要性排序结果,删除重要性小于设定值的特征,确定最终输入特征集。
4.根据权利要求3所述的一种基于改进XGBoost算法的售电套餐推荐方法,其特征是:所述用户历史样本数据包括:电力系统数据库中提取设定时段内有交易记录的所有电力客户的详细数据。
5.根据权利要求3所述的一种基于改进XGBoost算法的售电套餐推荐方法,其特征是:预处理包括:数据清洗、数据变换和数据计算;
所述数据变换包括离散特征数据编码和连续特征数据归一化处理;
离散特征数据编码具体为:对离散型的数据进行one_hot编码,one_hot编码是用N位状态寄存器来对N个状态进行编码;
连续特征数据归一化处理,具体为:对原始连续特征数据进行线性变换,使结果值映射到[0,1]之间,转换公式为
Figure FDA0002282337980000021
max为样本中某类数据最大值,min为样本中某类数据最小值,xm为样本某类数据原始值,xm *为样本某类数据映射值。
6.根据权利要求1所述的一种基于改进XGBoost算法的售电套餐推荐方法,其特征是:所述通过遗传算法得到XGBoost算法的最佳参数组合,进而得到改进的XGBoost算法,具体为:
设置XGBoost算法固定参数和需要用遗传算法进行寻优的XGBoost参数;
根据需要用遗传算法进行寻优的XGBoost参数设置遗传算法的运行参数;
初始化遗传算法种群,采用实数编码对个体进行编码,将个体对应的值代入XGBoost算法,计算XGBoost的目标函数作为遗传算法的适应度函数,计算每个个体对应的适应度值;
开始迭代,对初始父代种群中每个个体进行遗传操作,包括轮盘赌选择、均匀交叉、高斯近似变异,形成新的子代种群,并将子代种群各个体代入XGBoost算法计算个体对应的适应度值;之后按改进的精英保留策略选择M个精英保留,替换适应度值低的个体,每一次迭代,如果当前最优解更优与当前全局最优,那么更新全局最优解;
迭代直到满足终止条件,输出最优适应度值和对应个体,该个体即为最佳的参数组合。
7.根据权利要求6所述的一种基于改进XGBoost算法的售电套餐推荐方法,其特征是:改进的精英保留策略,具体为:先进行选择、交叉、变异,之后将父代和子代先进行合并,之后再从合并的种群中选择适应度值最优的前M个个体进行保留。
8.根据权利要求6所述的一种基于改进XGBoost算法的售电套餐推荐方法,其特征是:所述固定参数包括:提升boosting种类、采用softmax作为目标函数、套餐种类个数,寻优的XGBoost参数包括:收缩步长、树的最大深度、最小叶子权重、节点分裂所需的最小损失函数下降值、训练模型的子样本占整个样本集合的比例、在建立树时对特征采样的比例、权重的L2正则化项、权重的L1正则化项、迭代次数。
设置遗传算法的运行参数包括:设置遗传算法初始种群数量P;根据需要寻优的参数个数设置每个个体基因数N,基因初始值在参数范围内按参数类型要求随机生成;设置遗传算法迭代次数T,设置精英保留个体数M;设置遗传算法的交叉概率Pc,设置变异概率Pm。
9.一种存储一个或多个程序的计算机可读存储介质,其特征在于:所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1至8所述的基于改进XGBoost算法的售电套餐推荐方法中的任一方法。
10.一种计算设备,其特征在于:包括,
一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1至8所述的基于改进XGBoost算法的售电套餐推荐方法中的任一方法的指令。
CN201911146466.1A 2019-11-21 2019-11-21 一种售电套餐推荐方法、设备及存储介质 Active CN111179016B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911146466.1A CN111179016B (zh) 2019-11-21 2019-11-21 一种售电套餐推荐方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911146466.1A CN111179016B (zh) 2019-11-21 2019-11-21 一种售电套餐推荐方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111179016A true CN111179016A (zh) 2020-05-19
CN111179016B CN111179016B (zh) 2023-09-22

Family

ID=70655442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911146466.1A Active CN111179016B (zh) 2019-11-21 2019-11-21 一种售电套餐推荐方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111179016B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950622A (zh) * 2020-08-10 2020-11-17 中国平安人寿保险股份有限公司 基于人工智能的行为预测方法、装置、终端及存储介质
CN112633421A (zh) * 2021-03-09 2021-04-09 国网江西综合能源服务有限公司 一种用户异常用电行为检测方法及装置
CN113052505A (zh) * 2021-04-30 2021-06-29 中国银行股份有限公司 基于人工智能的跨境文旅推荐方法、装置和设备
CN113159398A (zh) * 2021-04-01 2021-07-23 国网内蒙古东部电力有限公司 用电量预测方法、装置以及电子设备
CN113409166A (zh) * 2021-08-19 2021-09-17 国网江西综合能源服务有限公司 基于XGBoost模型的用户异常用电行为检测方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389713A (zh) * 2015-10-15 2016-03-09 南京大学 基于用户历史数据的移动流量套餐推荐算法
CN106296260A (zh) * 2016-07-24 2017-01-04 国家电网公司 一种互联网环境下电力用户套餐推荐方法
CN106845731A (zh) * 2017-02-20 2017-06-13 重庆邮电大学 一种基于多模型融合的潜在换机用户发现方法
CN107767238A (zh) * 2017-11-18 2018-03-06 东北电力大学 一种基于电力交易用户最优特征子集的售电套餐推荐方法
CN108446964A (zh) * 2018-03-30 2018-08-24 中南大学 一种基于移动流量dpi数据的用户推荐方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389713A (zh) * 2015-10-15 2016-03-09 南京大学 基于用户历史数据的移动流量套餐推荐算法
CN106296260A (zh) * 2016-07-24 2017-01-04 国家电网公司 一种互联网环境下电力用户套餐推荐方法
CN106845731A (zh) * 2017-02-20 2017-06-13 重庆邮电大学 一种基于多模型融合的潜在换机用户发现方法
CN107767238A (zh) * 2017-11-18 2018-03-06 东北电力大学 一种基于电力交易用户最优特征子集的售电套餐推荐方法
CN108446964A (zh) * 2018-03-30 2018-08-24 中南大学 一种基于移动流量dpi数据的用户推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙毅: "面向售电侧改革的用户分层聚类与套餐推荐方法" *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950622A (zh) * 2020-08-10 2020-11-17 中国平安人寿保险股份有限公司 基于人工智能的行为预测方法、装置、终端及存储介质
CN111950622B (zh) * 2020-08-10 2023-08-15 中国平安人寿保险股份有限公司 基于人工智能的行为预测方法、装置、终端及存储介质
CN112633421A (zh) * 2021-03-09 2021-04-09 国网江西综合能源服务有限公司 一种用户异常用电行为检测方法及装置
CN113159398A (zh) * 2021-04-01 2021-07-23 国网内蒙古东部电力有限公司 用电量预测方法、装置以及电子设备
CN113159398B (zh) * 2021-04-01 2023-10-24 国网内蒙古东部电力有限公司 用电量预测方法、装置以及电子设备
CN113052505A (zh) * 2021-04-30 2021-06-29 中国银行股份有限公司 基于人工智能的跨境文旅推荐方法、装置和设备
CN113409166A (zh) * 2021-08-19 2021-09-17 国网江西综合能源服务有限公司 基于XGBoost模型的用户异常用电行为检测方法及装置

Also Published As

Publication number Publication date
CN111179016B (zh) 2023-09-22

Similar Documents

Publication Publication Date Title
CN111179016B (zh) 一种售电套餐推荐方法、设备及存储介质
Alkhayrat et al. A comparative dimensionality reduction study in telecom customer segmentation using deep learning and PCA
CN112070125A (zh) 一种基于孤立森林学习的不平衡数据集的预测方法
CN107391582B (zh) 基于上下文本体树计算用户偏好相似度的信息推荐方法
CN112153426B (zh) 一种内容账号管理方法、装置、计算机设备及存储介质
CN108921602B (zh) 一种基于集成神经网络的用户购买行为预测方法
CN111967971B (zh) 银行客户数据处理方法及装置
CN113836310B (zh) 知识图谱驱动的工业品供应链管理方法和系统
CN115115265A (zh) 一种基于rfm模型的消费者评估方法、装置及介质
CN111209469A (zh) 一种个性化推荐方法、装置、计算机设备及存储介质
CN115130811A (zh) 电力用户画像的建立方法、装置及电子设备
CN111275485A (zh) 基于大数据分析的电网客户等级划分方法、系统、计算机设备及存储介质
CN112163781A (zh) 基于多维度指标聚类的园区用电群体生命周期评价方法
CN113326432A (zh) 一种基于决策树与推荐方法的模型优选方法
CN113327132A (zh) 多媒体推荐方法、装置、设备及存储介质
CN117436679A (zh) 一种元宇宙资源匹配方法及其系统
CN111967521A (zh) 跨境活跃用户识别方法及装置
CN116048912A (zh) 一种基于弱监督学习的云服务器配置异常识别方法
CN117194966A (zh) 对象分类模型的训练方法和相关装置
CN114997959A (zh) 一种电子智造产品营销推荐方法
CN114741592A (zh) 一种基于多模型融合的产品推荐方法、设备及介质
CN111984842B (zh) 银行客户数据处理方法及装置
CN108573264A (zh) 一种基于新型蜂群聚类算法的家居行业潜在客户识别方法
CN111291904B (zh) 偏好预测方法、装置及计算机设备
CN115982634A (zh) 应用程序分类方法、装置、电子设备及计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant