CN115829683A

CN115829683A - 一种基于逆奖赏学习优化的电力积分商品推荐方法及系统

Info

Publication number: CN115829683A
Application number: CN202211501888.8A
Authority: CN
Inventors: 孟巍; 郭腾炫; 刘昳娟; 张东宁; 宗振国; 王艳玫; 李静; 杜艳
Original assignee: State Grid Corp of China SGCC; Marketing Service Center of State Grid Shandong Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Marketing Service Center of State Grid Shandong Electric Power Co Ltd
Priority date: 2022-11-28
Filing date: 2022-11-28
Publication date: 2023-03-21

Abstract

本发明公开了一种基于逆奖赏学习优化的电力积分商品推荐方法及系统，包括：建立潜在客户挖掘模型，根据待预测用户的历史积分兑换记录，预测用户进行积分兑换的概率，确定潜在积分兑换用户；利用三维评分推荐算法计算当前用户对未评分商品的感兴趣程度，结合遗忘曲线，计算当前用户对未评分商品的偏好程度；根据当前用户对未评分商品的偏好程度，通过逆奖赏反馈学习方法不断调整推荐策略，将推荐成功率高的商品替代推荐成功率低的商品，生成商品推荐列表。本发明在商品推荐方面，将传统推荐算法与逆强化学习相结合，融合两者的优势，引入时间因素以及用户行为因素对用户偏好的影响，既提升了算法的推荐精度，也提升了用户的满意度。

Description

一种基于逆奖赏学习优化的电力积分商品推荐方法及系统

技术领域

本发明涉及智能用电技术领域，尤其涉及一种基于逆奖赏学习优化的电力积分商品推荐方法及系统。

背景技术

近几年，国家电网有限公司的互联网+供电服务创新模式迅速发展，线上业务办理渠道日益丰富，如掌上电力、电e宝、e充电等APP和彩虹营业厅、国网平台、车联网、95598网站等公司自有的线上渠道，多种渠道的功能和数据日益完善，用户注册规模日益庞大。随着智能电网技术的迅猛发展、电力用户数量的持续增加以及电力信息的爆发式增长，如何基于当前海量数据实现信息挖掘并优化电力服务，已成为国网公司的研究热点。其中，为了深化“互联网+”思维在供电服务中的应用，电力系统衍生出电力积分商城，通过实施电力积分计划，基于积分商品兑换模式提高电力用户预缴电费的积极性与主动性，逐步形成“先购电、后用电”的消费理念，进一步加快电费资金回笼速度。但是，由于电力用户数量庞大，商品数量众多，如何为用户进行商品推荐，这不仅关系到用户的体验，同时也影响着商城的可发展性。

目前，推荐算法在实际中已得到了广泛的应用，尤其是协同过滤推荐算法的广泛应用，取得了巨大的经济价值。然而，电力积分商品推荐算法往往局限于用户的个人偏好和历史选择，且难以适应捕捉用户行为兑换趋向变化信息，因而极易导致推荐模型陷入局部最优。现有的相关电力积分商城推荐算法存在两个问题，一是不能很好的判断用户的“购买”意愿，对系统的推荐资源造成了一定的浪费；二是无法根据用户的兴趣和行为变化做出及时的反应，因此，降低了算法的推荐效果，导致用户兑换推荐商品的成功率降低。

发明内容

为解决上述现有技术的不足，本发明提供了一种基于逆奖赏学习优化的电力积分商品推荐方法及系统，通过构建潜在客户挖掘模型，筛选潜在积分兑换用户，利用三维评分推荐算法针对不同用户实现兑换商品推荐，采用逆奖赏反馈学习优化商品推荐策略，根据用户历史兑换记录形成逆奖赏塑性函数，指引下次推荐行为，提高电力积分商品推荐的准确性与成功率。

第一方面，本公开提供了一种基于逆奖赏学习优化的电力积分商品推荐方法：

一种基于逆奖赏学习优化的电力积分商品推荐方法，包括：

建立潜在客户挖掘模型，根据待预测用户的历史积分兑换记录，预测用户进行积分兑换的概率，确定潜在积分兑换用户；

利用三维评分推荐算法计算当前用户对未评分商品的感兴趣程度，结合遗忘曲线，计算当前用户对未评分商品的偏好程度；

根据当前用户对未评分商品的偏好程度，通过逆奖赏反馈学习方法不断调整推荐策略，将推荐成功率高的商品替代推荐成功率低的商品，生成商品推荐列表。

进一步的技术方案，所述潜在客户挖掘模型的构建，具体步骤包括：

对用户进行聚类，获得不同的用户群体；

针对每一类用户获取有积分且有商品兑换记录的正样本用户的最相关特征数据，还获取有积分且没有商品兑换记录的负样本用户的最相关特征数据；

采用逻辑回归算法，以正样本用户的最相关特征数据、负样本用户的最相关特征数据、以及积分兑换与否标签作为训练集数据，建立潜在客户预测模型。

进一步的技术方案，所述对用户进行聚类，获得不同的用户群体，具体步骤包括：

基于积分兑换用户的评价指标，对用户采用聚类方式进行分类；

对每一类用户的历史积分兑换记录，采用基于互信息的特征选择方法进行最相关特征选择。

进一步的技术方案，所述历史积分兑换记录，包括：用户积分累积余额、用户积分兑换信息、用户积分兑换时间、用户积分兑换次数、用户积分兑换频率和最后一次积分兑换行为发生时间到当前时间的时间间隔。

进一步的技术方案，采用基于互信息的特征选择方法进行最相关特征选择是指，选取互信息最大的前k个特征作为该类用户最相关特征。

进一步的技术方案，所述确定潜在积分兑换用户是指，将积分兑换的概率大于设定阈值的用户视为潜在的积分兑换用户。

进一步的技术方案，所述三维评分推荐算法是指，根据确定的潜在积分兑换用户，将时间因素引入到商品偏好程度的预测中，构建构建用户-商品-时间的三维评分矩阵。

进一步的技术方案，所述利用三维评分推荐算法计算当前用户对未评分商品的感兴趣程度，具体步骤包括；

基于传统的协同过滤方法计算商场已有商品之间的相似度，构建商品相似度矩阵；

利用商品相似度矩阵获得与当前用户未评分商品最为相似的已评分商品，同时将所述已评分商品的时间刻度赋予所述未评分商品，构建用户-商品-时间的三维评分矩阵；

根据当前用户和其他用户在不同时间刻度下对同一已评分商品的评分，计算当前用户与其他用户之间的兴趣相似度；

根据兴趣相似度程度高且对当前用户未评分商品进行过评分的其他用户与当前用户的兴趣相似度，计算当前用户对未评分商品的感兴趣程度。

进一步的技术方案，所述根据当前用户对未评分商品的偏好程度，通过逆奖赏反馈学习方法不断调整推荐策略，是指：

根据当前用户对未评分商品的偏好程度，将为评分商品进行由大到小的排序，筛选前2N个商品，结合基于上次推荐获取的商品推荐成功率的逆奖赏塑性函数，调整所述2N个商品的次序。

进一步的技术方案，所述逆奖赏塑性函数的构建，具体步骤包括：

根据被推荐未评分商品的用户数量与选择兑换该未评分商品的用户数量的比值，计算本次推荐商品的商品推荐率；

基于全体用户本次推荐获取的调整概率，采用逆强化学习构建下次推荐商品的逆奖赏塑性函数。

第二方面，本公开提供了一种基于逆奖赏学习优化的电力积分商品推荐系统，包括：

潜在客户挖掘模块，其被配置为，建立潜在客户挖掘模型，根据待预测用户的历史积分兑换记录，预测用户进行积分兑换的概率，确定潜在积分兑换用户；

商品推荐模块，其被配置为，利用三维评分推荐算法计算当前用户对未评分商品的感兴趣程度，结合遗忘曲线，计算当前用户对未评分商品的偏好程度；

商品推荐优化模块，其被配置为，根据当前用户对未评分商品的偏好程度，通过逆奖赏反馈学习方法不断调整推荐策略，将推荐成功率高的商品替代推荐成功率低的商品，生成商品推荐列表。

第三方面，本公开还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述方法的步骤。

第四方面，本公开还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述方法的步骤。

以上一个或多个技术方案存在以下有益效果：

1、本公开提出了一种基于逆奖赏学习优化的电力积分商品推荐方法，通过潜客挖掘模型来判断用户是否会有积分兑换行为，使推荐工作更具有针对性，同时，通过构建逆奖赏学习模型，既考虑到了用户兴趣随时间变化的问题，同时也考虑到历次推荐和选择对用户当前选择意向的影响。

2、本公开提出了一种基于逆奖赏学习优化的电力积分商品推荐方法，在商品推荐方面，将传统推荐算法与逆强化学习相结合，融合两者的优势，并引入时间因素以及用户行为因素对用户偏好的影响，既提升了算法的推荐精度，也提升了用户的满意度。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例所述推荐方法的整体流程图；

图2为本发明实施例所述潜在客户挖掘的流程图；

图3为本发明实施例所述三维评分流程图；

图4为本发明实施例所述推荐反馈流程图；

图5为本发明实施例中参数ε和λ对F_measure的影响；

图6为本发明实施例所述方法在积分商城数据集上的命中准确率。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

本实施例提供了一种基于逆奖赏学习优化的电力积分商品推荐方法：

如图1所示，一种基于逆奖赏学习优化的电力积分商品推荐方法，包括：

作为一个或多个实施例，如图2所示，所述潜在客户挖掘模型的构建，具体步骤包括：

对用户进行聚类，获得不同的用户群体；

针对每一类用户获取有积分且曾用积分兑换过商品的正样本用户的最相关特征数据，还获取有积分且未用积分兑换过商品的负样本用户的最相关特征数据；

应理解的，针对不同的用户群体，在潜在客户预测最相关特征信息数据的基础上选取相应的数据组成实验用的数据集，并将处理后的信息按照4:1的比例分为训练集和测试集，用于对模型的训练和测试。

模型训练采用逻辑回归的方法，用户进行积分兑换的概率设为P，则

其中f可以表示成w^Tx的形式，即w^Tx＝U^T*X+W^T*Y+A^T*T，U、W、A满足的条件是U＝(u₁,u₂,…,u_m)，W＝(w₁,…,w_n)，A＝(a₁,…,a_p)，U、W、A均为参数向量，X、Y、T表示所获得的n个最相关特征数据，主要包含用户的基本特征数据、偏好特征数据以及线索特征数据，参数向量初始值可以进行人工设置，通过实验结果进行调整。

作为一个或多个实施例，所述对用户进行聚类，获得不同的用户群体，具体步骤包括：

应理解的，用户兑换积分的多维评价指标形式如下：

其中，α和β为时序特征向量，分别表示用户的年积分兑换量时间序列数据和月积分兑换量时间序列数据，i′表示用户，V_D表示用户数据。

作为一个或多个实施例，所述基于积分兑换用户的评价指标，对用户采用聚类方式进行分类，具体步骤包括：

积分兑换用户的评价指标，包括：积分兑换用户的年积分兑换量和月积分兑换量；

采集积分兑换用户的年积分兑换量和月积分兑换量；

采用模糊C均值算法对年积分兑换用户进行聚类，得到r个簇；

采用模糊C均值算法对月积分兑换用户进行聚类，得到s个簇；

将用户分为r×s个类。

作为一个或多个实施例，所述历史积分兑换记录，包括：用户积分累积余额、用户积分兑换信息、用户积分兑换时间、用户积分兑换次数、用户积分兑换频率和最后一次积分兑换行为发生时间到当前时间的时间间隔。

作为一个或多个实施例，采用基于互信息的特征选择方法进行最相关特征选择，是选取互信息最大的前k个特征作为该类用户最相关特征。

应理解的，最相关特征的选择计算公式如下：

其中，P(X＝x_i,Y＝y_i)表示x_i和y_i同时出现在整个数据集中的概率，在本算法中x_i表示各个特征，y_i表示积分是否兑换。

作为一个或多个实施例，所述确定潜在积分兑换用户是指，将积分兑换的概率大于设定阈值的用户视为潜在的积分兑换用户。

作为一个或多个实施例，所述三维评分推荐算法是指，根据确定的潜在积分兑换用户，将时间因素引入到商品偏好程度的预测中，构建构建用户-商品-时间的三维评分矩阵。

作为一个或多个实施例，如图3所示，所述利用三维评分推荐算法计算当前用户对未评分商品的感兴趣程度，具体步骤包括：

根据兴趣相似度程度高且对当前用户未评分商品已评分的其他用户与当前用户的兴趣相似度，计算当前用户对未评分商品的感兴趣程度。

应理解的，将时间因素引入到商品偏好程度的预测中，具体计算公式如下：

p(u,i)＝0.318×(T₀-T_ui)^-0.125 (4)

其中，p(u,i)表示用户u对项目i的偏好程度，取值范围介于0～0.318之间，T₀表示当前推荐的时间点，T_ui表示用户u选择项目i的时间点，T₀-T_ui表示两者之间的天数。

计算商品之间的相似度，具体计算公式如下：

上式表示商品A和商品B的相似度，β_i是权重参数，∑β_i＝1，可以根据实际情况以及训练情况进行调整；a_i和b_i分别表示项目A和B的相同属性取值。

上述根据当前用户和其他用户在不同时间刻度下对同一已评分商品的评分，计算当前用户与其他用户之间的兴趣相似度，具体计算公式如下：

使用逻辑回归函数做权重函数，对不同时间刻度赋予不同的权重，公式如下：

使用加权的皮尔逊相关相似性计算用户的兴趣相似度，公式如下：

式中L(t_i)即为公式(6)，u和v表示用户，R_u,i表示用户u对项目i的评分，

和

分别表示用户u和用户v打分的平均分，I_u,v表示用户u和用户v共同的评分项，通过数据查询即可获得。

上述计算当前用户对未评分商品的感兴趣程度，具体计算公式如下：

p(u,x)＝∑_{v∈S(u,k′)∩N(x)}sim(u,v) (8)

其中，S(u,k′)表示和用户u兴趣相似的前K个用户，N(x)表示对项目x有过评分的用户集合，sim(u,v)表示用户u和用户v之间的兴趣相似度。

作为一个或多个实施例，如图4所示，所述根据当前用户对未评分商品的偏好程度，通过逆奖赏反馈学习方法不断调整推荐策略，是指：

作为一个或多个实施例，所述逆奖赏塑性函数的构建，具体步骤包括：

应理解的，根据当前用户对未评分商品的偏好程度，通过逆奖赏反馈学习方法不断调整推荐策略，具体计算公式如下：

其中，ε的最优值依据实验数据集的不同而不同，取值范围[0,1]，G_u ^k+1(x,x′)为由前k次推荐获取的对第k+1次推荐的逆向奖赏塑形函数。

针对每位用户的具体偏好，生成各自的逆奖赏塑形函数，具体计算公式如下：

其中，G_u ^k+1(x,x′)为用户u对其推荐列表的逆向奖赏塑形函数；项目x和项目x′均存在于用户u的2N个推荐项目中；L(t_i)^-1表示时间因子影响函数，由公式(6)进行计算，时间距离最近的兑换趋向其比例越高；λ为比例调节因子，介于0和1之间，用以调整全部用户的兑换项目成功率对用户u的影响；f_i(x)表示用户u在第i次推荐中选择项目x的认知函数，表示用户选择的个人偏好，保障小部分群体用户的选择项目即使在整体人群中被兑换的后验概率较低，但仍然会被群体趋势所湮灭；

其中，认知函数f(x)采用以下函数表示：

基于第k次推荐获取的项目推荐成功率的逆向奖赏函数，反馈至推荐算法，调节用户u第k+1次推荐，对其2N个项目的推荐列表重新排序。

其中，p^k(y＝1|x)表示所有用户在第k次推荐中，被推荐项目x并选择项目x的统计概率，φ为奖励阈值函数，当项目x的推荐成功率高于x′到达一定阈值时，对相关用户进行推荐项目调整。

本次推荐商品的商品推荐率p^k(y＝1|x)，具体计算公式如下：

其中，y＝1表示选择x项目，N_x ^k表示项目x推荐给所有用户的总体数量，n_x ^k表示项目x推荐给所有用户的数量后，用户选择兑换商品x的数量。

为了验证本公开所述基于逆奖赏学习优化的电力积分商品推荐方法的有效性，在本实施例中，采用国网某电力公司电力积分商品平台的数据加以验证，其中，时间跨度为2017年至2019年，提取的平台数据集中包含11200多名用户以及480件商品信息。

验证实验分为两部分，一部分是潜在客户挖掘模型实验，另一部分是推荐算法对比实验，推荐实验所选的标准有准确率(Precision)和综合评价指标F_measure，推荐方式采用TopN推荐，公式如下：

公式(14)中R(u)表示用户u实际的操作资源，Rec(u)表示推荐算法为用户u生成的推荐列表；公式(15)是综合评价指标F_measure，反映的是推荐系统整体的推荐效果，其中precision是准确率，Recall是召回率。

1.潜在客户挖掘模型实验具体步骤如下：

A.提取用户信息。首先对电力积分商城数据进行挖掘，对相关数据进行分析和提炼，确定能够影响用户进行积分兑换行为的关键信息，确立相应的数据库关系表以方便数据查询工作。需要提取的用户信息包含两大部分，分别是用户的基础信息以及积分相关信息，基础信息包括商城会员ID、年龄、用电地址等，积分相关信息包括兑换商品信息、兑换时间、收藏和浏览商品记录、积分余额等。

B.进行初始化聚类。采用多维聚类组合的方式对用户进行分类。模糊C均值算法选取的基础信息和积分信息总共30种，采用模糊C均值方法，初始化聚类数目c＝3，模糊程度系数m＝2，得到9个用户群体。

C.在步骤B的基础上采用互信息选取相关特征。对于各个用户群体，本次实验设定的最相关特征数为7。以其中一类用户举例，用户选取其中相关度最高的特征信息有年龄、用户绑定用电客户数、积分支付次数、最后兑换积分时间间隔、收藏和浏览商品数、当前积分余额、积分兑换频度，在选取这些相关特征的基础上对样本库中的相应用户数据进行处理作为实验用的数据集，将处理后的数据按照4:1的比例划分为训练集和测试集，用于对模型的训练和测试，处理方式如表1所示。

表1潜在客户挖掘所需信息表

D.通过逻辑回归算法进行相应的模型训练，利用Sigmoid函数计算目标用户进行兑换的概率，计算公式详见公式(1)，其中，f＝U^T*X+W^T*Y+A^T*T，U、W、A满足的条件是U＝(u₁,u₂,u₃)，W＝(w₁,w₂,w₃)，A＝(a₁,a₂,a₃)，X、Y、T满足的条件是X＝(x₁,x₂,x₃)，(t₁,X)为用户的基本特征，Y＝(y₁)，(t₂,t₃,y₁)为用户的行为偏好特征向量，其中，T＝(t₁,t₂,t₃)为线索特征向量，通过Sigmoid函数来计算目标用户进行积分兑换的可能性。当概率超过0.5时，则该用户被认为是潜在积分商品兑换的客户。

E.对于其他用户群体同样采取上述操作，针对不同用户群体，分别抽取五份样本数据用于潜客挖掘模型的训练，并在测试集中进行相应的测试，取平均值作为实验结果。对于经典的logistics模型，从总体数据集中随机抽取9份数据进行训练，并测试潜客挖掘的效果，结果汇总如表2所示。

表2不同维度的潜客挖掘准确率

维度数量	准确率
		4	约58％～62％
6	约63％～70％
		8	约69％～78％
10	约70％～79％
		12	约70％～78％

表2展现的是相同数据集在不同的维度数量下潜客挖掘的整体准确率。从表中的数据可以得看出，随着用于潜客挖掘模型数据量的不断增加，潜客挖掘的准确率呈现先升高后平稳的趋势，可以看出，在本次实验数据集中维度的最优取值为10。

2.推荐方法对比实验具体步骤如下：

通过潜客挖掘可以获得具有潜在积分商品兑换的用户群体，针对这一部分群体，进行推荐实验，实验采用的数据信息包括商品的属性信息，包括标签、季节、类别等，用户评价信息，通过对真实数据集进行抽样，选择其中80％的数据作为训练集，20％数据作为测试集。

在电力积分商品平台数据中抽取表3数据用于计算公式(5)，为便于研究，β₁和β₂设定为0.5，在计算用户兴趣相似度时K的取值设定为30。

表3商品部分信息表

采用TopN方式为用户进行推荐，不同用户群体以及推荐算法所生成的最优推荐列表长度N是不一样的，在最优的条件下，图5展示的是在积分商城数据集中参数ε和参数λ对F_measure的影响，在积分商城数据集中ε＝0.7能取得最优的推荐效果，当λ＝0.3时推荐的效果最好。

在以上结果的基础上，选用CFA算法、TTLMF以及经典的基于用户的协同过滤算法UBCF为对比算法，按时间顺序产生7次推荐，即式(13)中k＝6。准确率对比结果如图6所示。

上述对比实验选用的是目前比较新颖的推荐算法和经典的协同过滤推荐算法，一定程度上能够反映当前算法在电力积分商城上的表现，由图6可以看出，本公开所述方案的综合评价指标F_measure高于上述三种对比算法，即，本公开所提出的推荐方法在电力积分商品平台数据集上的表现要优于所对比的推荐算法，因此具有一定的实用性。

实施例二

本实施例提供了一种基于逆奖赏学习优化的电力积分商品推荐系统，包括：

商品推荐模块，其被配置为，利用三维评分推荐算法，结合遗忘曲线，计算当前用户对未评分商品的偏好程度；

商品推荐优化模块，其被配置为，利用当前用户对未评分商品的偏好程度，通过逆奖赏反馈学习方法不断调整推荐策略，生成商品推荐列表。

实施例三

本实施例提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成如上所述的融合多粒度数据和近邻数据的跨媒体检索方法中的步骤。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成如上所述的一种基于逆奖赏学习优化的电力积分商品推荐方法中的步骤。

以上实施例二至四中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于逆奖赏学习优化的电力积分商品推荐方法，其特征是，包括：

2.如权利要求1所述的一种基于逆奖赏学习优化的电力积分商品推荐方法，其特征是，所述潜在客户挖掘模型的构建，具体步骤包括：

对用户进行聚类，获得不同的用户群体；

3.如权利要求2所述的一种基于逆奖赏学习优化的电力积分商品推荐方法，其特征是，所述对用户进行聚类，获得不同的用户群体，具体步骤包括：

4.如权利要求1所述的一种基于逆奖赏学习优化的电力积分商品推荐方法，其特征是，所述三维评分推荐算法是指，根据确定的潜在积分兑换用户，将时间因素引入到商品偏好程度的预测中，构建构建用户-商品-时间的三维评分矩阵。

5.如权利要求1所述的一种基于逆奖赏学习优化的电力积分商品推荐方法，其特征是，所述利用三维评分推荐算法计算当前用户对未评分商品的感兴趣程度，具体步骤包括；

6.如权利要求1所述的一种基于逆奖赏学习优化的电力积分商品推荐方法，其特征是，所述根据当前用户对未评分商品的偏好程度，通过逆奖赏反馈学习方法不断调整推荐策略，是指：

7.如权利要求6所述的一种基于逆奖赏学习优化的电力积分商品推荐方法，其特征是，所述逆奖赏塑性函数的构建，具体步骤包括：

8.一种基于逆奖赏学习优化的电力积分商品推荐系统，其特征是，包括：

9.一种电子设备，其特征是：包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成如权利要求1-7中任一项所述的一种基于逆奖赏学习优化的电力积分商品推荐方法的步骤。

10.一种计算机可读存储介质，其特征是：用于存储计算机指令，所述计算机指令被处理器执行时，完成如权利要求1-7中任一项所述的一种基于逆奖赏学习优化的电力积分商品推荐方法的步骤。