CN117952675A - 一种权益产品动态发放方法、系统、装置及存储介质 - Google Patents
一种权益产品动态发放方法、系统、装置及存储介质 Download PDFInfo
- Publication number
- CN117952675A CN117952675A CN202410353421.6A CN202410353421A CN117952675A CN 117952675 A CN117952675 A CN 117952675A CN 202410353421 A CN202410353421 A CN 202410353421A CN 117952675 A CN117952675 A CN 117952675A
- Authority
- CN
- China
- Prior art keywords
- feature
- equity
- product
- inventory
- verification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012795 verification Methods 0.000 claims abstract description 85
- 238000012216 screening Methods 0.000 claims abstract description 24
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 238000004140 cleaning Methods 0.000 claims abstract description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 37
- 238000003066 decision tree Methods 0.000 claims description 28
- 230000008901 benefit Effects 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 23
- 238000007637 random forest analysis Methods 0.000 claims description 23
- 230000006399 behavior Effects 0.000 claims description 17
- 238000011156 evaluation Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 230000001174 ascending effect Effects 0.000 claims description 3
- 230000001932 seasonal effect Effects 0.000 claims description 3
- 230000010365 information processing Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于信息处理技术领域,具体涉及一种权益产品动态发放方法、系统、装置及存储介质。所述方法包括:获取用户信息及库存权益产品信息;对用户信息及库存权益产品信息进行数据清洗和预处理,得到第一特征集合;对第一特征集合进行筛选,确定最优特征子集;构建同一权益产品核销概率预测模型;将库存权益产品分为不同的发放等级,并将库存权益产品匹配到相应的发放等级中;使用核销概率预测模型对不同的发放等级的核销概率进行预测,得到同一权益产品在不同过期时间段下被用户核销的概率;对核销概率进行排序,根据排序结果,从发放等级中取出库存向用户发放。本发明通过动态发放策略,解决了现有技术中无法充分利用即将过期的产品等问题。
Description
技术领域
本发明属于信息处理技术领域,具体涉及一种权益产品动态发放方法、系统、装置及存储介质。
背景技术
权益产品,例如包括折扣券等。商家以提供交易满减、折扣券等方式构建起自身的权益体系,实现客户黏性和品牌价值的提升。目前,商家提前支付购买权益产品,通过权益下发平台向用户发放权益产品已成为一种常见的方式,但权益产品通常都会设定有效期限,且各个权益产品的有效期不同。如果库存的权益产品在有效期内没有被充分使用或销售,那么一旦过期,这些未使用的权益产品将变成商家的损失,导致资金风险增加。同时,对于用户来说,权益产品过期也会带来一定的损失。
因此,商家需要仔细评估权益产品的市场需求、用户活跃度,以制定合理的库存和有效期策略,在权益产品有效期截止前及时发放给用户,避免过多的过期损失。
发明内容
为了克服现有技术中的问题,本发明提出了一种权益产品动态发放方法、系统、装置及存储介质。
本发明解决上述技术问题的技术方案如下:
第一方面,本发明提供了一种权益产品动态发放方法,包括以下步骤:
获取用户信息及库存权益产品信息;
对用户信息及库存权益产品信息进行数据清洗和预处理,得到第一特征集合;
对第一特征集合进行筛选,确定最优特征子集;基于最优特征子集,构建同一权益产品核销概率预测模型,并对所述同一权益产品核销概率预测模型进行训练,得到训练好的同一权益产品核销概率预测模型;
将库存权益产品分为不同的发放等级,并将库存权益产品匹配到相应的发放等级中;
使用核销概率预测模型对不同的发放等级中库存权益产品的核销概率进行预测;
对核销概率进行排序,根据排序结果,从发放等级中取出库存权益产品,向用户发放。
进一步地,所述第一特征集合包括权益产品特征信息、用户特征信息、交易特征信息、核销特征信息及用户行为特征信息;
所述权益产品特征信息包括权益产品面值、权益产品有效期及权益产品发放量;
所述用户特征信息包括用户ID、所在地区、性别及年龄;
所述交易特征信息包括购买数量、交易金额、消费频率、交易时间、首次交易时间、交易次数、交易时间与权益产品过期时间的差值、交易时间的季节性、评价;
所述核销特征信息包括核销时间、首次核销时间、核销次数、核销间隔、是否被核销、核销时间与权益产品过期时间的差值、核销时间的季节性、核销所在地区、核销权重、交易金额与核销时间交叉特征、用户消费频率与核销次数的交叉特征;
用户行为特征信息包括权益产品偏好权重。
进一步地,对第一特征集合进行筛选,确定最优特征子集具体包括:
通过XGBoost算法计算第一特征集合中特征的重要性,得出每个特征的重要性分数,按照得分从高到低的顺序排列特征;
通过随机森林算法计算第一特征数据集合中特征的重要性,得到每个特征的贡献值,按照贡献值从高到低的顺序排列特征;
通过联合比较XGBoost算法中特征重要性分数大于第一阈值的特征变量与随机森林算法中贡献值大于第二阈值的特征变量,取其交集得到二者共同选出的原始特征集;
基于共同选出的原始特征集,利用SFS前向选择,得到最终的最优特征子集。
进一步地,通过XGBoost算法计算第一特征集合中的特征重要性,得出每个特征的重要性分数,包括:
对于第一特征集合中的每个特征,遍历所有分裂点,计算分裂后的左右子节点的一阶导数和二阶导数的和;
根据Gain得分公式,计算分裂所带来的增益;
选择增益最大的分裂点作为最佳分裂点,用于决策树节点的分裂;
所述Gain得分的具体公式为:
;
其中,G L为分裂后左子节点上的一阶导数之和,G R为分裂后右子节点上的一阶导数之和;H L为左子节点二阶导数之和,H R为右子节点上的二阶导数之和;λ是正则化项的权重,正则化项帮助防止过拟合,通过调整λ的值平衡模型的复杂度;γ是控制树在进行分裂时的最小增益阈值;当进行节点分裂时,只有当分裂节点的增益大于γ时才会进行分裂。
进一步地,通过随机森林算法计算第一特征数据集合中特征的重要性,得到每个特征的贡献值,按照贡献值从高到低的顺序排列特征,包括:
采用基尼指数计算每个特征的贡献值:
;
其中,GI a表示分枝前的基尼指数,Z表示Z个类别,p az表示类别z在节点a中的权重,即从节点a中随机抽取两个样本,计算其类别标记不一致的概率;
对于特征j,其在节点a上基尼指数变化量通过计算该特征在该节点分枝前的基尼指数与分枝后基尼指数的差求得:
;
其中,VIM ja表示特征j在节点a上的基尼指数变化值,GI a表示分枝前的基尼指数,GI l和GIr则为节点a分枝后的两个新节点的基尼指数;
特征j在决策树i中出现在节点集合M中,则求得特征j在第i颗决策树上的基尼指数变化量:
;
其中,VIM ij表示特征j在第i颗决策树上的基尼指数变化量;
在随机森林中有b颗决策树,则特征j的总基尼指数变化量为:
;
其中,VIM j表示特征j的总基尼指数变化量;
第j特征贡献量归一化以后的值为特征j的贡献量,计算方法如下:
;
其中,表示特征j的总基尼指数变化量的归一化值,c表示总共有c个;
根据上述方法能获取到特征重要性,并完成特征重要性由高到低的排序。
进一步地,基于最优特征子集,构建同一权益产品核销概率预测模型,包括:
构建目标函数;
对于包含n个样本m个特征的数据集D,模型采用K次迭代的结果为输出结果;
;
对于输入x i,输出的具体公式为:
;
;
上式中,R指具体的叶子结点;是第i个样本x i的预测值,即同一权益产品核销概率的预测值;x i是一个包含m个特征值的向量,表示输入的特征,为筛选后的16个最优特征;K为模型中使用的决策树的数量,即迭代的数量;F是CART决策树结构集合;q为样本映射到叶子节点的树结构;T为每颗树的叶子节点的数量;w为叶节点的权重,即实数分数;R指具体的叶子节点,f k代表一颗树,其对应独立的树的结构q和权重w,/>为样本x i在第k颗树上的预测值;/>为函数;/>为对特征向量x的打分;
构建 XGBoost 模型时,根据目标函数最小化的原则寻找最优参数,以建立最优模型;优化后的目标函数obj如下:
;
损失函数L:
;
其中,正则化项:
;
上式中,y i是第i个样本的实际值,即同一权益产品核销概率的实际值;和/>分别控制正则化项的权重和复杂度。
进一步地,将库存权益产品匹配到相应的发放等级中,具体包括:获取权益产品下的库存产品,根据库存产品的过期时间和当前时间计算出时间间隔,该时间间隔即为权益剩余过期时间,以权益剩余过期时间为维度,将其对应到发放等级中,并记录每个等级包括权益产品标识、库存数量、每个库存产品的权益剩余过期时间,同时按照权益剩余过期时间对库存产品进行升序排序。
第二方面,本发明还提供了一种权益产品动态发放系统,包括:
数据获取模块,获取用户信息及库存权益产品信息;
数据预处理模块,用于对用户信息及库存权益产品信息进行数据清洗和预处理,得到第一特征集合;
用于对第一特征集合进行筛选,确定最优特征子集;基于最优特征子集,构建同一权益产品核销概率预测模型,并对所述同一权益产品核销概率预测模型进行训练,得到训练好的同一权益产品核销概率预测模型;
权益分级模块,用于将库存权益产品分为不同的发放等级,并将库存权益产品匹配到相应的发放等级中;
权益池匹配模块,用于使核销概率预测模型对不同的发放等级的核销概率进行预测,得到同一权益产品在不同过期时间段下被用户核销的概率;对核销概率进行排序;
权益发放模块用于根据排序结果,从发放等级中取出库存权益产品,向用户发放。
第三方面,本发明还提供了权益产品动态发放装置,其包括:处理器、存储器以及程序;所述程序存储在所述存储器中,所述处理器调用存储器存储的程序,以执行第一方面中任一实施例所述的权益产品动态发放方法。
第四方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行第一方面中任一实施例所述的所述权益产品动态发放方法。
与现有技术相比,本发明具有如下技术效果:
(1)在本发明中,将权益产品过期时间与用户需求和行为模式相结合,通过动态发放策略,预测同一权益产品在不同过期时间段下被用户核销的概率,把核销概率最高的库存权益产品发放给目标用户,能够更有效地提升核销效率,可降低权益产品过期带来的风险,有效减少商家和用户的损失;
(2)在本发明中,利用XGBoost算法、随机森林算法和SFS序列前向选择筛选得到特征,XGBoost算法采用梯度提升的方式,能够更精确地评估每个特征对模型预测能力的贡献;随机森林算法则基于袋装集成学习,给出特征的相对重要性排序;结合这两种算法的结果,可以更全面、准确地评估特征的重要性;SFS序列前向选择算法通过不断筛选和组合特征,能够快速找到一个最优的特征子集。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明的方法流程示意图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的技术方案的具体实施方式、结构、特征及其功效,详细说明如下。一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。除非另有定义,本发明所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
在本发明的一个实施例中,参照图1,提供了一种权益产品动态发放方法,具体包括以下步骤:
步骤100.获取用户信息及库存权益产品信息;
步骤200.对用户信息及库存权益产品信息进行数据清洗和预处理,得到第一特征集合;
步骤300.对第一特征集合进行筛选,确定最优特征子集;基于最优特征子集,构建同一权益产品核销概率预测模型,并对所述同一权益产品核销概率预测模型进行训练,得到训练好的同一权益产品核销概率预测模型;
步骤400.将库存权益产品分为不同的发放等级,并将库存权益产品匹配到相应的发放等级中;
步骤500.使用核销概率预测模型对不同的发放等级中库存权益产品的核销概率进行预测;
步骤600.对核销概率进行排序,根据排序结果,从发放等级中取出库存权益产品,向用户发放。
下面对上述各个步骤进行详细展开:
步骤100.获取用户信息及库存权益产品信息。
接收用户权益下发请求,根据下发请求得到用户标识、权益产品标识及权益下发数量;根据用户标识确定用户信息,根据权益产品标识确定库存权益产品信息;
通过用户信息和库存权益产品信息,获取交易数据、核销数据、用户行为数据;所述用户行为数据包括用户页面浏览、停留时间、点击量、访问次数、用户搜索,在用户操作平台时会将用户行为数据存储在数据库中,可提取用户指定时间段内的数据,用于分析用户权益偏好。
步骤200.将用户信息及库存权益产品信息进行数据清洗和预处理,得到第一特征集合。
在一些实施例中,本步骤可以包括以下步骤:
步骤210.对所述库存权益产品信息、用户信息、交易数据、核销数据、用户行为数据进行数据清洗和预处理,所述数据清洗和预处理包括对数据去重、缺失值、异常值处理,使数据标准化,确保数据的完整性和准确性。
通过Z-Score(标准分数)对数据标准化处理,将每个特征的值减去该特征的均值,再除以该特征的标准差。这样处理后的特征具有均值为0,标准差为1的分布。对应每个特征x,其Z-Score标准化后得到的数据的计算公式如下:
;
其中,x是原始特征值,μ是该特征的均值,σ是该特征的标准差。
Z-Score 将数据标准化的优点:使用Z-Score标准化可以消除特征之间的尺度差异,提高模型性能和准确性,处理异常值,并提供可解释性较强的数据分布。
步骤220. 通过用户行为数据,确定用户对各权益产品的偏好权重。
用户行为数据包括用户页面浏览、停留时间、点击量、访问次数、用户搜索。在相关技术领域,通过用户行为分析用户偏好有着成熟的技术方案,本实施例不具体阐述。
步骤230. 对所述数据预处理后,可获取第一特征集合。
第一特征集合可以提供更多关于用户的信息,从而更准确地预测权益产品的核销情况,具体第一特征集合如表1所示。
表1第一特征集合表
步骤300.对所述第一特征集合进行特征筛选,确定最优特征子集;并基于最优特征子集,构建同一权益产品核销概率预测模型,并对所述同一权益产品核销概率预测模型进行训练,得到训练好的同一权益产品核销概率预测模型。
在一些实施例中,本步骤可以包括以下步骤:
步骤310.对所述第一特征集合进行特征筛选,确定最优特征子集。
特征筛选是利用XGBoost算法、随机森林算法、SFS序列前向选择筛选得到筛选结果;具体地,本发明通过联合比较XGBoost算法中特征重要性分数大于0.03%的变量与随机森林算法重要性评分大于0.03的变量,取其交集得到二者共同选出的特征变量,再将之与SFS序列前向选择的结果取并集,得到最终筛选结果,即最优特征子集。
在本实施例中,步骤310具体包括以下子步骤:
步骤311.通过XGBoost算法计算第一特征集合中特征的重要性,得出每个特征的重要性分数,按照得分从高到低的顺序排列特征。
计算每个特征的重要性得分,本发明使用XGBoost的Gain特征重要性计算方法,Gain得分是通过计算特征在决策树节点分裂中的增益来衡量其重要性。因此,Gain得分可以帮助识别哪些特征对模型的预测能力有更大的贡献。
Gain得分的具体公式为:
;
其中:G L为分裂后左子节点上的一阶导数之和,G R为分裂后右子节点上的一阶导数之和;H L为左子节点二阶导数之和,H R为右子节点上的二阶导数之和;λ是正则化项的权重,正则化项可以帮助防止过拟合,通过调整λ的值可以平衡模型的复杂度;γ是控制树在进行分裂时的最小增益阈值。当进行节点分裂时,只有当分裂节点的增益大于γ时才会进行分裂,这个参数可以防止过度分裂,控制决策树的生长。
计算每个特征的Gain得分,具体步骤如下:
对于第一特征集合中的每个特征,遍历所有分裂点,计算分裂后的左右子节点的一阶导数和二阶导数的和;
根据上述Gain得分的具体公式,计算分裂所带来的增益;
选择增益最大的分裂点作为最佳分裂点,用于决策树节点的分裂。
通过计算每个特征的Gain得分,XGBoost能够确定特征对于模型的贡献程度,从而进行更好的特征选择。
步骤312.通过随机森林算法计算第一特征数据集合中特征的重要性,得到每个特征的贡献值,按照贡献值从高到低的顺序排列特征。
随机森林中包含很多决策树,计算每个特征在每一颗决策树上所做的贡献值,然后取平均值,所述平均值即为该特征的贡献值大小。
本实施例中,将特征重要性评分用VIM表示,将基尼指数(Gini)用GI表示,第一特征据集共有28个特征,5个类别,即权益产品特征、用户特征、交易特征、核销特征、用户行为特征,现要计算每个特征x j的基尼指数评分VIM j,即第j个特征在随机森林所有决策树中节点分裂不纯度的平均改变量。
在具体实施例中,步骤312包括:
步骤3120.采用基尼指数计算每个特征的贡献值:
;
其中,GI a表示分枝前的基尼指数,Z表示Z个类别,p az表示类别z在节点a中的权重,即从节点a中随机抽取两个样本,计算其类别标记不一致的概率。
步骤3121.对于特征j,其在节点a上基尼指数变化量可以通过计算该特征在该节点分枝前的基尼指数与分枝后基尼指数的差求得:
;
其中,VIM ja表示特征j在节点a上的基尼指数变化值,GI a表示分枝前的基尼指数,GI l和GIr则为节点a分枝后的两个新节点的基尼指数。
步骤3122.特征j在决策树i中出现在节点集合M中,则可以求得特征j在第i颗决策树上的基尼指数变化量:
;
其中,VIM ij表示特征j在第i颗决策树上的基尼指数变化量;
步骤3123.在随机森林中有b颗决策树,则特征j的总基尼指数变化量为:
;
其中,VIM j表示特征j的总基尼指数变化量;
步骤3124.第j特征贡献量归一化以后的值为特征j的贡献量,计算方法如下:
;
其中,表示特征j的总基尼指数变化量的归一化值,c表示总共有c个特征。
步骤3125.根据上述方法能够获取到特征重要性,并完成特征重要性由高到低的排序。
步骤313.通过联合比较XGBoost算法中特征重要性分数大于第一阈值的特征变量与随机森林算法中贡献值大于第二阈值的特征变量,取其交集得到二者共同选出的原始特征集。
其中,第一阈值为0.03%,第二阈值为0.03。重要性分数阈值根据实际情况合理设置,主要目的是可以选择根据得分保留一定比例或数量的高重要性特征,此发明不进行限制。
步骤314.SFS(Sequential Forward Selection)前向选择,从步骤313得到的原始特征集中选取一个特征,将其添加到特征子集中,在每次迭代中计算特征子集Ft的性能,并选择性能评估指标最佳的特征f t作为新增特征,不断重复这个过程,直到得到最优特征子集。
具体步骤:
基于从步骤313得到的原始特征集;
设置初始子集,初始时,特征子集为空,即特征子集F t= {},并定义一个评估函数;该评估函数为现有技术,如分类准确率,这里不再赘述,评估函数在此部分的主要作用为筛选特征集合,评估出特征子集性能指标的优劣。
在第t次迭代中,从原始特征集中选择一个特征f t加入特征集合,并利用评估函数进行评估特征子集的性能;若评估指标达到预设要求,则将该特征保留在特征集合中,特征f t作为新增特征,加入到特征子集中;反之,则移除该特征;所有原始特征集中的特征均处理完毕后,输出最终最优特征子集;
;
上式中,Ft-1表示第t-1次迭代特征子集,Ft表示第t次迭代特征子集。
筛选后的16个最优特征子集包括:权益产品面值、权益产品有效期、消费频率、交易金额、交易时间、交易时间与权益产品过期时间的差值、核销时间、核销次数、核销间隔、是否被核销、核销时间与权益产品过期时间的差值、核销时间的季节性、核销所在地区、交易金额与核销时间交叉信息、权益产品偏好权重、用户消费频率与核销次数的交叉信息。
在本实施例中,利用XGBoost算法、随机森林和SFS序列前向选择筛选得到特征相比仅使用随机森林或XGBoost算法进行特征筛选,能够提高特征的重要性评估准确性和稳定性,从而选择出更具预测能力的特征子集。进一步地,更准确的特征重要性评估:XGBoost算法和随机森林都能够提供特征重要性评估,但它们的计算方式有所不同。XGBoost算法采用梯度提升的方式,能够更精确地评估每个特征对模型预测能力的贡献;随机森林则基于集成学习,给出特征的相对重要性排序。结合这两种算法的结果,可以更全面、准确地评估特征的重要性。更稳定的特征子集筛选:SFS序列前向选择算法通过不断筛选和组合特征,能够快速找到一个最优的特征子集。与仅使用随机森林或XGBoost算法相比,SFS算法结合了特征之间的相关性信息,能够更稳定地选择具有预测能力的特征子集。
步骤320.构建同一权益产品核销概率预测模型。
最优特征子集的80%作为训练集对所述同一权益产品核销概率预测模型进行训练,剩余的20%作为测试集。上述为常见的训练集和测试集比例选择,训练集和测试集的比例应该根据具体问题和数据集的大小进行合理选择,本实施例不做强制限制。
本实施例中,基于XGBoost建立同一权益产品核销概率预测模型,XGBoost是一种基于梯度提升树的算法,它优化了目标函数,通过迭代训练多个决策树,并得到最终的预测结果,与传统的梯度提升算法(GBDT)相比,XGBoost具有更好的泛化能力和准确性。
本步骤中包括:构建同一权益产品核销概率预测模型的目标函数;
对于包含n个样本m个特征的数据集D,模型采用K次迭代的结果为输出结果。
;
上式中,R表示具体的叶子节点;
对于输入x i,输出的具体公式为:
;
;
上式中,是x i个样本的预测值,即同一权益产品核销概率的预测值;x i是一个包含m个特征值的向量,表示输入的特征,为筛选后的16个最优特征;K为模型中使用的决策树的数量,即迭代的数量,K的取值可以控制模型的复杂度和泛化能力,需要通过交叉验证等方法选择合适的树的数量以达到最佳的预测性能;F是CART决策树结构集合;q为样本映射到叶子节点的树结构;T为每颗树的叶子节点的数量;w为叶节点的权重,即实数分数;f k代表一颗树,其对应独立的树的结构q和权重w,/>为样本x i在第k颗树上的预测值;/>为函数;/>为对特征向量x的打分;q(x)是指将特征向量x映射到叶子节点的树结构。
构建 XGBoost 模型时,需要根据目标函数最小化的原则寻找最优参数,以建立最优模型;优化后的目标函数obj如下:
;
损失函数L:
;
其中,正则化项:
;
上式中,y i是第i个样本的实际值,即同一权益产品核销概率的实际值;T是第K颗决策树的叶子节点的个数,和/>分别控制正则化项的权重和复杂度。
在优化目标函数时,要同时考虑损失函数和正则化项,通过迭代的方式逐步优化模型参数,得到最终的同一权益产品核销概率预测模型。
步骤330.预测核销概率模型性能指标,本发明使用均方根误差(RMSE)、调整决定系数(AdjustedR2)、平均相对误差(MRE)和5%误差准确率这四项指标作为模型评估标准。
通过使用这四项指标进行模型评估,可以全面评估模型的预测性能、拟合优度和准确性,具体的评估方法和参数可以根据具体的问题和数据进行选择和调整。
本实施例使用的各指标计算公式如下:
(1)均方根误差:
;
其中:n是样本数量,y i是第i个样本的实际值,是第i个样本的预测值。
(2)调整决定系数:
调整决定系数越接近1表示模型拟合效果越好。然而,决定系数存在一个问题,即随着模型添加更多的自变量,决定系数会自然上升,这可能不完全代表模型的真实表现,因为模型的复杂度也增加了。因此,为了避免过度拟合和比较具有不同自变量个数的模型,引入了调整决定系数(Adjusted R-squared)。调整决定系数考虑了模型使用的自变量数量,通过惩罚过多自变量对模型的复杂度进行调整,它的公式如下:
;
其中:n是样本数量,p是模型中使用的自变量数量,R 2是普通决定系数。
(3)平均相对误差:
;
其中:y i是第i个样本的实际值,即同一权益产品核销概率的实际值;是第i个样本的预测值,即同一权益产品核销概率的预测值;n是样本数量。MRE的值越小,表示预测值与真实值的相对误差越小,模型的预测准确性越高。
(4)5%误差准确率:
5%误差准确率是指模型在预测值与真实值之间的相对误差小于等于5%的样本占总样本数的比例。这个指标用于衡量模型的精确度和准确度,越高表示模型的预测准确率越高,其计算公式为:
。
步骤400.将库存权益产品分为不同的发放等级,并将库存权益产品匹配到相应的发放等级中。
建立权益发放等级:将库存产品权益剩余过期时间划分为10天内、10天至1个月、1个月至3个月、3个月以上四个时间段,四个时间段分别对应A、B、C、D四个发放等级。即A等级对应10天内,B等级对应11天至1个月以内,C等级对应1个月以上至3个月以内,D等级对应3个月以上。权益发放规则为A等级>B等级>C等级>D等级,即A等级对应的库存产品最先过期且优先发放。值得说明的是,时间段可以根据实际情况进行设置,本发明实施例对此不加以限制。
权益产品匹配发放等级:获取权益产品下的库存产品,根据库存产品的过期时间和当前时间计算出时间间隔,该时间间隔即为权益剩余过期时间,以权益剩余过期时间为维度,将其对应到上述四个发放等级中,并记录每个等级包括权益产品标识、库存数量、每个库存产品的权益剩余过期时间,同时按照权益剩余过期时间对库存产品进行升序排序。可能存在某个等级没有库存产品的情况,例如,库存产品的有效期比较集中,但这并不会影响核销率的计算和权益的发放。
步骤500.使用核销概率预测模型对不同的发放等级中库存权益产品的核销概率进行预测。
根据权益下发请求可以得到(或生成)用户标识和权益产品标识,依据标识获取平台中库存权益产品信息、用户信息、交易数据、核销数据、用户行为数据,生成新样本,确保输入模型的数据经过处理且输入模型的数据特征与16个最优特征子集一致;输入到构建的同一权益产品核销概率预测模型中,得到相应的预测结果。
具体的,包括:
步骤a:A等级中的权益产品最优特征子集输入同一权益产品核销概率预测模型进行预测,得到在 A等级中同一权益产品核销的概率;
步骤b:B等级中的权益产品最优特征子集输入同一权益产品核销概率预测模型进行预测,得到在 B等级中同一权益产品核销概率;
步骤c:C等级中的权益产品最优特征子集输入同一权益产品核销概率预测模型进行预测,得到在C等级中同一权益产品核销概率;
步骤d:D等级中的权益产品最优特征子集输入同一权益产品核销概率预测模型进行预测,得到在D等级中同一权益产品核销概率;
步骤e:基于上述a、b、c、d四步,得到四个发放等级对应的用户核销概率,对核销概率进行排序;其中,根据核销概率正序排序。
步骤600.对核销概率进行排序,根据排序结果,从发放等级中取出库存权益产品,向用户发放。
根据下发请求得到权益下发数量N,根据排序依次从发放等级中取N个库存,可能存在某个等级没有库存产品的情况,此时依次获取,直到取到N个库存,即为与用户匹配度最高的库存权益产品。
示例:A等级中同一权益产品核销概率10%、B等级中同一权益产品核销概率70%、C等级中同一权益产品核销概率50%、D等级中同一权益产品核销概率25%,核销概率正序排序B等级>C等级>D等级>A等级,用户权益下发请求数量为5。B等级对应11天至1个月以内核销概率高,优先从B等级取出5个库存,此时可能存在无库存或库存不足的情况,如果B等级库存不足,通过C等级填充,以此类推,直到取到N个库存。
基于同样的发明构思,本发明实施例还提供了一种用于实现上述所涉及的一种权益产品动态发放方法的一种权益产品动态发放系统。该系统所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个系统实施例中的具体限定可以参见上文中对于一种权益产品动态发放方法的限定,在此不再赘述。
在一个实施例中,提供了一种权益产品动态发放系统,包括数据获取模块、数据预处理模块、核销概率预测模块、权益池匹配模块、权益下发模块、数据展示模块。
数据获取模块,获取用户信息及库存权益产品信息。
具体的,系统接收用户权益下发请求,根据下发请求得到用户标识、权益产品标识、权益下发数量;根据用户标识确定用户信息,根据权益产品标识确定产品信息;用于获取平台中库存权益产品信息、用户信息、交易数据、核销数据、用户行为数据;其中,用户信息在目标用户第一次访问平台或使用平台时生成的信息;用户行为数据包括用户页面浏览、停留时间、点击量、访问次数、用户搜索,这些关键信息在用户操作平台时会被存储在数据库中,可提取用户指定时间段内的数据,用于分析用户权益偏好。
数据预处理模块,用于对用户信息及库存权益产品信息进行数据清洗和预处理,得到第一特征集合。
核销概率预测模块,用于对第一特征集合进行筛选,确定最优特征子集;基于最优特征子集,构建同一权益产品核销概率预测模型,并对所述同一权益产品核销概率预测模型进行训练,得到训练好的同一权益产品核销概率预测模型;其中,同一权益产品核销概率预测模型用于预测同一权益产品在不同过期时间段下被用户核销的概率,此概率反映了购买后核销的可能性。
权益分级模块,用于将库存权益产品分为不同的发放等级,并将库存权益产品匹配到相应的发放等级中。
权益池匹配模块,用于使核销概率预测模型对不同的发放等级的核销概率进行预测,得到同一权益产品在不同过期时间段下被用户核销的概率;对核销概率进行排序。
权益发放模块用于根据排序结果,从发放等级中取出库存权益产品,向用户发放。
在本发明的实施例中,还提供了一种权益产品动态发放装置,其包括:处理器、存储器以及程序;程序存储在存储器中,处理器调用存储器存储的程序,以执行上述的一种权益产品动态发放方法。
在本发明的实施例中,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行上述的一种权益产品动态发放方法。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种权益产品动态发放方法,其特征在于,包括以下步骤:
获取用户信息及库存权益产品信息;对所获取的用户信息及库存权益产品信息进行数据清洗和预处理,得到第一特征集合;
对所述第一特征集合进行筛选,确定最优特征子集;基于最优特征子集,构建同一权益产品核销概率预测模型,并对所述同一权益产品核销概率预测模型进行训练,得到训练好的同一权益产品核销概率预测模型;
将库存权益产品分为不同的发放等级,并将库存权益产品匹配到相应的发放等级中;使用核销概率预测模型对不同的发放等级中库存权益产品的核销概率进行预测;对所述核销概率进行排序,根据排序结果,从发放等级中取出库存权益产品,向用户发放。
2.根据权利要求1所述的一种权益产品动态发放方法,其特征在于,所述第一特征集合包括权益产品特征信息、用户特征信息、交易特征信息、核销特征信息及用户行为特征信息;
所述权益产品特征信息包括权益产品面值、权益产品有效期及权益产品发放量;
所述用户特征信息包括用户ID、所在地区、性别及年龄;
所述交易特征信息包括购买数量、交易金额、消费频率、交易时间、首次交易时间、交易次数、交易时间与权益产品过期时间的差值、交易时间的季节性、评价;
所述核销特征信息包括核销时间、首次核销时间、核销次数、核销间隔、是否被核销、核销时间与权益产品过期时间的差值、核销时间的季节性、核销所在地区、核销权重、交易金额与核销时间交叉特征、用户消费频率与核销次数的交叉特征;
用户行为特征信息包括权益产品偏好权重。
3.根据权利要求2所述的一种权益产品动态发放方法,其特征在于,对所述第一特征集合进行筛选,确定最优特征子集具体包括:
通过XGBoost算法计算第一特征集合中特征的重要性,得出每个特征的重要性分数,按照得分从高到低的顺序排列特征;
通过随机森林算法计算第一特征数据集合中特征的重要性,得到每个特征的贡献值,按照贡献值从高到低的顺序排列特征;
通过联合比较XGBoost算法中特征重要性分数大于第一阈值的特征变量与随机森林算法中贡献值大于第二阈值的特征变量,取其交集得到二者共同选出的原始特征集;
基于共同选出的原始特征集,利用SFS前向选择,得到最终的最优特征子集。
4.根据权利要求3所述的一种权益产品动态发放方法,其特征在于,通过XGBoost算法计算第一特征集合中的特征重要性,得出每个特征的重要性分数,包括:
对于第一特征集合中的每个特征,遍历所有分裂点,计算分裂后的左右子节点的一阶导数和二阶导数的和;
根据Gain得分公式,计算分裂所带来的增益;
选择增益最大的分裂点作为最佳分裂点,用于决策树节点的分裂;
所述Gain得分的具体公式为:
;
其中,G L为分裂后左子节点上的一阶导数之和,G R为分裂后右子节点上的一阶导数之和;H L为左子节点二阶导数之和,H R为右子节点上的二阶导数之和;λ是正则化项的权重;γ是控制树在进行分裂时的最小增益阈值;当进行节点分裂时,只有当分裂节点的增益大于γ时才会进行分裂。
5.根据权利要求4所述的一种权益产品动态发放方法,其特征在于,通过随机森林算法计算第一特征数据集合中特征的重要性,得到每个特征的贡献值,按照贡献值从高到低的顺序排列特征,包括:
采用基尼指数计算每个特征的贡献值:
;
其中,GI a表示分枝前的基尼指数,Z表示Z个类别,p az表示类别z在节点a中的权重,即从节点a中随机抽取两个样本,计算其类别标记不一致的概率;
对于特征j,其在节点a上基尼指数变化量通过计算该特征在该节点分枝前的基尼指数与分枝后基尼指数的差求得:
;
其中,VIM ja表示特征j在节点a上的基尼指数变化值,GI a表示分枝前的基尼指数,GI l和GIr则为节点a分枝后的两个新节点的基尼指数;
特征j在决策树i中出现在节点集合M中,则求得特征j在第i颗决策树上的基尼指数变化量:
;
其中,VIM ij表示特征j在第i颗决策树上的基尼指数变化量;
在随机森林中有b颗决策树,则特征j的总基尼指数变化量为:
;
其中,VIM j表示特征j的总基尼指数变化量;
第j特征贡献量归一化以后的值为特征j的贡献量,计算方法如下:
;
其中,表示特征j的总基尼指数变化量的归一化值,c表示总共有c个;
根据上述方法能获取到特征重要性,并完成特征重要性由高到低的排序。
6.根据权利要求5所述的一种权益产品动态发放方法,其特征在于,基于最优特征子集,构建同一权益产品核销概率预测模型,包括:
构建目标函数;
对于包含n个样本m个特征的数据集D,模型采用K次迭代的结果为输出结果;
;
对于输入x i,输出的具体公式为:
;
;
上式中,R指具体的叶子结点;是第i个样本x i的预测值,即同一权益产品核销概率的预测值;x i是一个包含m个特征值的向量,表示输入的特征,为筛选后的16个最优特征;K为模型中使用的决策树的数量,即迭代的数量;F是CART决策树结构集合;q为样本映射到叶子节点的树结构;T为每颗树的叶子节点的数量;w为叶节点的权重,即实数分数;R指具体的叶子节点;/>为函数;/>为对特征向量x的打分;f k代表一颗树,其对应独立的树的结构q和权重w,/>为样本x i在第k颗树上的预测值;
构建 XGBoost 模型时,根据目标函数最小化的原则寻找最优参数,以建立最优模型;优化后的目标函数obj如下:
;
损失函数L:
;
其中,正则化项:
;
上式中,y i是第i个样本的实际值,即同一权益产品核销概率的实际值;和/>分别控制正则化项的权重和复杂度。
7.根据权利要求1所述的一种权益产品动态发放方法,其特征在于,将库存权益产品匹配到相应的发放等级中,具体包括:获取权益产品下的库存产品,根据库存产品的过期时间和当前时间计算出时间间隔,该时间间隔即为权益剩余过期时间,以权益剩余过期时间为维度,将其对应到发放等级中,并记录每个等级包括权益产品标识、库存数量、每个库存产品的权益剩余过期时间,同时按照权益剩余过期时间对库存产品进行升序排序。
8.一种权益产品动态发放系统,其特征在于,包括:
数据获取模块,获取用户信息及库存权益产品信息;
数据预处理模块,用于对用户信息及库存权益产品信息进行数据清洗和预处理,得到第一特征集合;
用于对第一特征集合进行筛选,确定最优特征子集;基于最优特征子集,构建同一权益产品核销概率预测模型,并对所述同一权益产品核销概率预测模型进行训练,得到训练好的同一权益产品核销概率预测模型;
权益分级模块,用于将库存权益产品分为不同的发放等级,并将库存权益产品匹配到相应的发放等级中;
权益池匹配模块,用于使核销概率预测模型对不同的发放等级的核销概率进行预测,得到同一权益产品在不同过期时间段下被用户核销的概率;对核销概率进行排序;
权益发放模块用于根据排序结果,从发放等级中取出库存权益产品,向用户发放。
9.一种权益产品动态发放装置,其特征在于,其包括:处理器、存储器以及程序;所述程序存储在所述存储器中,所述处理器调用存储器存储的程序,以执行权利要求1-7任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行权利要求1-7中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410353421.6A CN117952675A (zh) | 2024-03-27 | 2024-03-27 | 一种权益产品动态发放方法、系统、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410353421.6A CN117952675A (zh) | 2024-03-27 | 2024-03-27 | 一种权益产品动态发放方法、系统、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117952675A true CN117952675A (zh) | 2024-04-30 |
Family
ID=90794701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410353421.6A Pending CN117952675A (zh) | 2024-03-27 | 2024-03-27 | 一种权益产品动态发放方法、系统、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117952675A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110992091A (zh) * | 2019-11-28 | 2020-04-10 | 支付宝(杭州)信息技术有限公司 | 一种基于分类模型评估投放权益的方法和装置 |
CN113176761A (zh) * | 2021-04-28 | 2021-07-27 | 西安电子科技大学 | 基于机器学习的多特征薄板零件质量预测与工艺参数优化 |
CN113933334A (zh) * | 2021-10-13 | 2022-01-14 | 北京工商大学 | 一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法 |
CN116308505A (zh) * | 2022-12-23 | 2023-06-23 | 车主邦(北京)科技有限公司 | 资源分配方法、装置、存储介质和计算机设备 |
CN116894689A (zh) * | 2023-07-11 | 2023-10-17 | 北京永辉科技有限公司 | 预估优惠券活动商品销量增量的方法、介质及电子设备 |
CN117745349A (zh) * | 2023-12-22 | 2024-03-22 | 广州市禾赢文化传播有限公司 | 一种基于用户特征的个性化推券方法及系统 |
CN117764227A (zh) * | 2023-12-05 | 2024-03-26 | 哈尔滨天源石化工程设计有限责任公司 | 一种用于加油站的客户流失预测装置 |
-
2024
- 2024-03-27 CN CN202410353421.6A patent/CN117952675A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110992091A (zh) * | 2019-11-28 | 2020-04-10 | 支付宝(杭州)信息技术有限公司 | 一种基于分类模型评估投放权益的方法和装置 |
CN113176761A (zh) * | 2021-04-28 | 2021-07-27 | 西安电子科技大学 | 基于机器学习的多特征薄板零件质量预测与工艺参数优化 |
CN113933334A (zh) * | 2021-10-13 | 2022-01-14 | 北京工商大学 | 一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法 |
CN116308505A (zh) * | 2022-12-23 | 2023-06-23 | 车主邦(北京)科技有限公司 | 资源分配方法、装置、存储介质和计算机设备 |
CN116894689A (zh) * | 2023-07-11 | 2023-10-17 | 北京永辉科技有限公司 | 预估优惠券活动商品销量增量的方法、介质及电子设备 |
CN117764227A (zh) * | 2023-12-05 | 2024-03-26 | 哈尔滨天源石化工程设计有限责任公司 | 一种用于加油站的客户流失预测装置 |
CN117745349A (zh) * | 2023-12-22 | 2024-03-22 | 广州市禾赢文化传播有限公司 | 一种基于用户特征的个性化推券方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108564286B (zh) | 一种基于大数据征信的人工智能金融风控授信评定方法和系统 | |
Huang et al. | Winner determination for risk aversion buyers in multi-attribute reverse auction | |
US20230377037A1 (en) | Systems and methods for generating gradient-boosted models with improved fairness | |
CN109711955B (zh) | 基于当前订单的差评预警方法、系统、黑名单库建立方法 | |
CN114049155B (zh) | 基于大数据分析的营销运营方法、系统 | |
CN110766428A (zh) | 一种数据价值评估系统以及方法 | |
CN112613953A (zh) | 一种商品选品方法、系统及计算机可读存储介质 | |
JP2011253534A (ja) | 最適価格学習 | |
CN112508684B (zh) | 一种基于联合卷积神经网络的催收风险评级方法及系统 | |
Jiang et al. | [Retracted] Research on Intelligent Prediction Method of Financial Crisis of Listed Enterprises Based on Random Forest Algorithm | |
Gyamerah et al. | Long‐Term Exchange Rate Probability Density Forecasting Using Gaussian Kernel and Quantile Random Forest | |
Kotova | The theoretical and methodological basis of startups valuation | |
CN115841345A (zh) | 跨境大数据智能化分析方法、系统以及存储介质 | |
CN117952675A (zh) | 一种权益产品动态发放方法、系统、装置及存储介质 | |
CN113177733B (zh) | 基于卷积神经网络的中小微企业数据建模方法及系统 | |
CN117252677A (zh) | 信贷额度确定方法和装置、电子设备及存储介质 | |
CN114926208A (zh) | 一种用于产品改进策略制定的用户需求数据分析方法及系统 | |
CN111639989B (zh) | 商品推荐方法和可读存储介质 | |
CN114548620A (zh) | 物流准时保业务推荐方法、装置、计算机设备和存储介质 | |
Zu et al. | A multi-factor customer classification evaluation model | |
CN113706195B (zh) | 一种基于两阶段组合的在线消费行为预测方法及系统 | |
CN112862602B (zh) | 一种用户请求的确定方法及存储介质、电子装置 | |
Lee et al. | A hybrid machine learning approach for customer loyalty prediction | |
Madhumita et al. | Health Insurance Premium Prediction using Blockchain Technology and Random Forest Regression Algorithm | |
Barr | Predicting Credit Union Customer Churn Behavior Using Decision Trees, Logistic Regression, and Random Forest Models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |