CN111899063A

CN111899063A - 一种考虑顾客消费行为和偏好的生鲜农产品在线推荐方法

Info

Publication number: CN111899063A
Application number: CN202010556428.XA
Authority: CN
Inventors: 何勇; 陈静
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2020-11-06
Anticipated expiration: 2040-06-17

Abstract

本发明公开了一种考虑顾客消费行为和偏好的生鲜农产品在线推荐方法，包括如下步骤(1)数据分析与预处理；(2)构建基于隐语义和行为序列效用的生鲜农产品效用函数；(3)构建遍历购买周期的生鲜农产品选择模型；(4)采用梯度下降法求解构建的生鲜农产品选择模型；(5)利用召回率(Recall)和精度(Precision)评估预测效果。本发明可有效体现生鲜农产品季节性特征和顾客对农产品的兴趣偏好特征因素，充分考虑了顾客选择行为和用户产品特征，经过实验证明了本发明相较于其他方法具有更佳的预测效果。

Description

一种考虑顾客消费行为和偏好的生鲜农产品在线推荐方法

技术领域

本发明涉及生鲜电商领域，特别涉及一种考虑顾客消费行为和偏好的生鲜农产品在线推荐方法。

背景技术

随着农产品流通环节中的冷链物流技术的发展、电商模式的不断优化，生鲜电商的用户粘性和消费习惯逐步养成，电商已经成为不可或缺的生鲜产品购买渠道。生鲜农产品具有易逝性，须在季节内销售完毕，否则会产生大量的滞销造成浪费，与此同时，高损耗与复杂的供应流通环节造成的高昂的运营成本也是目前生鲜电商发展所遇到的瓶颈之一。因此，结合大数据、人工智能等技术，通过分析生鲜电商平台周期内的用户购买行为，实时、精准地预测用户需求，对于生鲜电商实现个性化推荐和精准营销，合理规划生鲜农产品库存与供应，提高生鲜电商平台营运效率，具有重要意义。

目前已有的在线产品推荐方法，包括基于协同过滤的推荐方法、基于内容的推荐方法和基于关联规则挖掘的推荐方法等个性化推荐算法，以及使用了特征工程和模型融合的在线购买预测方法等，广泛用于电商领域。随着生鲜电商的发展，生鲜农产品的精准推荐逐步成为发展生鲜电商的服务重点。对生鲜农产品实现精准推荐，一方面需要体现出农产品特征因素，如产地、价格、品类、品牌等因素，以及顾客针对生鲜农产品各项特征的消费偏好，另一方面需要考虑到生鲜农产品的季节性特征，研究购买周期内的顾客在线消费行为，设计更适用于农产品的推荐方案，从而进一步提升模型预测的精度。

现有的商品推荐方法运用到生鲜农产品领域中，无法体现农产品特征和顾客对农产品的消费偏好因素，因此，本发明对现有方法进行改进，引入产品的购买周期，对顾客在周期内的消费行为进行建模，同时融合隐语义模型，将生鲜农产品的先验特征纳入效用函数，建立一种应用于生鲜电商领域的农产品在线推荐方法。

发明内容

发明目的：为解决大数据背景下的生鲜电商农产品精准预测问题，本发明提供一种考虑顾客消费行为和偏好的生鲜农产品在线推荐方法。

技术方案：一种考虑顾客消费行为和偏好的生鲜农产品在线推荐方法，包括如下步骤：

(1)数据分析与预处理；

(2)构建基于隐语义和行为序列效用的生鲜农产品效用函数；

(3)构建遍历购买周期的生鲜农产品选择模型；

(4)采用梯度下降法求解构建的生鲜农产品选择模型；

(5)利用召回率(Recall)和精度(Precision)评估预测效果。

具体的，所述步骤(1)具体包括如下步骤：

(1.1)所有的用户构成的用户集合U表示为U＝{u₁,u₂,u₃,…}，所有的商品构成的商品集合I表示为I＝{i₁,i₂,i₃,…}，一个购买周期s表示一个用户在一定时间范围内经过对比和选择并最终产生购买行为的过程，表示为一个三元组s＝(u,sq,i_b)，其中u∈U，表示该购买周期的用户；sq＝{i_b1,i_b2,i_b3……}表示用户在该购买周期内的商品操作序列，i_b∈sq表示用户在此次购买周期中经过比较和选择之后最终购买的商品；所有购买周期的集合记为S＝{s₁,s₂,s₃,……}，

(1.2)去除低频生鲜产品，整理为用户在选购过程中对于生鲜产品的历史行为序列；

(1.3)采用启发式方法进行一个购买周期的划分，以用户每次的购买行为为分割点向前搜索，如果搜索的操作记录小于设定的阙值，则归为一个购买周期，获得在不同购买周期的用户行为序列；

(1.4)对各个购买周期内生鲜产品的频次和位次进行降序排序和统计分析，以频次和位次作为构建序列效用函数；

(1.5)对数据集进行划分，按比例将数据分为训练集与测试集，针对训练集，学习到预测模型M；针对测试集，在已知u和sequence的情况下，对任意待预测周期s′，利用预测模型预测最有可能购买的农产品，作为预测的结果，推荐给特定的用户。

进一步的，所述步骤(2)中构建用户u在周期s内购买商品i的效用函数的具体方法是：

(2.1)定义w_s,u,i用来量化用户对生鲜产品的购买意愿，表示用户i在购买周期s内对生鲜产品i的效用值，对于用户的部分效用，表示为代表用户的潜在因子向量p_u与代表生鲜商品的潜在因子向量q_i的内积,如下所示：

w_s,u,i1＝p_u ^Tq_i

其中，p_u ^T表示矩阵p_u的转置。用户的偏好与商品特征越契合，即商品越符合用户的选择习惯，则其内积w越大；相反，商品越不符合用户的选择偏好，其效用值w就越小；

(2.2)用户在购买生鲜产品时的消费行为序列会体现用户的购买偏好，具体表现为商品在购买周期中出现的频率(frequency)和点击与购买的时间间隔(recency)两种因素，因此设计用户i在选择序列效用函数f(s,i)对购买周期s内的全部商品效用进行预估，作为生鲜农产品效用函数的第二部分，综合频率和时间间隔两个因素，给出f(s,i)的具体表现形式：

其中，将购买周期s中用户的操作序列sq按照时间排序，其长度为N，sq从起始至结束各个位置分别编号为1，2，…，N，假定生鲜商品i出现的位置组成集合p(s.i)，k是在此购买周期内出现的位置，通过计算不同生鲜产品的f(s,i)，将得到购买周期s内用户u关于其浏览、操作、购买的所有生鲜农产品的消费行为序列效用函数，进行排序学习，作为用户效用函数的第二部分：

w_s,u,i2＝f(s,i)

使用参数α调节潜在因子效用和行为序列效用的权重，获得用户u在周期s内购买商品i的效用后，在实施例中将会对α进行敏感度分析：

w_s,u,i＝αp_u ^Tq_i+(1-α)f(s,i)。

进一步的，步骤(3)中所述构建遍历购买周期的生鲜农产品选择模型具体是：在获得不同用户在周期s内购买生鲜产品i的效用函数的基础上，构建所有备选商品i和用户当前购买产品i_b之间的选择模型(损失函数)，其优化目标是遍历所有的购买周期S，使得最终购买得生鲜产品和其余备选产品的效用差最小。该模型将所有备选商品都考虑进模型中，具有更好的预测精度。

将效用函数代入到选择模型中，展开为：

其中，

是用来防止过拟合的正则化项，λ需根据应用场景反复实验得到。

进一步的，步骤(4)中所述采用梯度下降法求解构建的生鲜农产品选择模型的具体方法是：上述步骤中建立的生鲜农产品选择模型，采用梯度下降法求解，对p_u和q_i进行交替优化，获得使预测误差最小的预测结果。首先对p_u和q_i分别进行求导，得：

其中

对p_u和q_i进行交替优化，即：

其中，η表示步长，可通过实验迭代过程动态调整。

模型在迭代后获得用户和生鲜产品的特征矩阵(p_u,q_i)，两者相乘可得到用户对生鲜产品的偏好程度(效用)。对于任意用户u，待预测周期s′中商品i的效用值w_s′,u,i＝αp_u ^Tq_i+(1-α)f(s,i)最高的商品，即为该用户在此购买周期内最有可能购买的商品，作为预测的结果进行推荐。该模型一方面考虑了生鲜产品的季节性特征，选择在特定购买周期内进行预测和推荐，通过隐语义模型思想挖掘生鲜商品的复杂特征，较符合生鲜商品相较于其他类商品的特殊性。此外，相较于传统的单一模型，该模型包含基于隐语义模型的效用和基于用户在线选择序列的效用两部分，融合了顾客针对生鲜商品的选择行为信息和产品特征偏好，一方面可以缓解产品数据和用户数据稀疏性造成的冷启动问题，另一方面该模型对购买周期内的全部商品进行比较，进一步提高了预测的精度。

进一步的，所述步骤(5)中，在测试集中，按照基于隐语义和选择序列的生鲜产品选择模型计算出的效用值，选取产品效用最高的Top3生鲜农产品作为推荐结果。选取机器学习评测指标中的召回率(Recall)和精度(Precision)作为衡量此模型效果的指标，其公式分别为：

其中，TP为预测购买的生鲜产品数量，FP为预测购买而实际未被购买的生鲜产品数量(误报)，FN为预测没有被购买而实际被购买的生鲜产品数量(漏报)。

为了验证所提出模型的预测效果，本文选择了基于用户的K近邻(KNN)、梯度提升决策树(GBDT)、逻辑回归(LR)三种方法进行对比实验，分别比较其召回率(Recall)和精度(Precision)的结果。

有益效果：与现有技术方法相比，本发明结合农产品季节性特征等因素，引入产品的购买周期，对顾客在周期内的选择行为进行建模，同时融合隐语义模型，将生鲜农产品的先验特征纳入效用函数，从而解决顾客关于生鲜农产品实时偏好和真实购买意图的理解问题，实现农产品的精准推荐。

附图说明

图1是本发明考虑顾客消费行为和偏好的生鲜农产品在线购买推荐方法的实施流程图；

图2是购买生鲜产品频次及位次排名统计分析图，其中图2(a)是购买生鲜产品频次排名统计分析图，其中图2(b)是购买生鲜产品位次排名统计分析图；

图3是基于隐语义模型的用户-产品效用矩阵示意图；

图4是召回率和精度有关参数α敏感性分析图，其中图4(a)是精度随α变动分析图，其中图4(b)是召回率随α变动分析图；

图5是本发明生鲜农产品推荐方法与其他方法预测效果结果对比图，其中图5(a)是本发明生鲜农产品推荐方法与其他方法精度对比情况，其中图5(b)是本发明生鲜农产品推荐方法与其他方法召回率对比情况。

具体实施方式

下文结合说明书附图和实施例对本发明的技术方案作更全面、细致地描述。

本发明以阿里天池大赛网站关于生鲜类产品的用户与商品数据为基础，构造适用于生鲜农产品在线购买推荐方法的实施例。数据集总共分为三大部分：第一部分是是用户对商品的历史行为，可能的行为包括点击(click)、购买(buy)、加入购物车(add-to-cart)、收藏(add-to-favorite)；第二部分是用户特征数据；第三部分是生鲜农产品特征数据。

一种基于顾客选择行为分析的生鲜农产品在线购买推荐方法，其实施流程如图1所示。其一，采集数据，进行数据分析与预处理；其二，构建基于隐语义和行为序列效用的生鲜农产品效用函数；其三，构建遍历购买周期的生鲜农产品选择模型；其四，采用梯度下降法求解构建的生鲜农产品选择模型；其五，利用召回率(Recall)和精度(Precision)评估预测效果。

步骤1：数据分析与预处理

所有的用户构成的用户集合U表示为U＝{u₁,u₂,u₃,…}，所有的商品构成的商品集合I表示为I＝{i₁,i₂,i₃,…}。

由于生鲜产品具有季节性特征，因此研究特定周期的用户购买行为将更加精准地指导商家进行预测。一个购买周期s表示一个用户在一定时间范围内经过对比和选择并最终产生购买行为的过程，可以表示为一个三元组s＝(u,sq,i_b)，其中u∈U，表示该购买周期的用户；sq＝{i_b1,i_b2,i_b3……}表示用户在该购买周期内的商品操作序列，i_b∈sq表示用户在此次购买周期中经过比较和选择之后最终购买的商品。所有购买周期的集合记为S＝{s₁,s₂,s₃,……}。采用启发式方法进行一个购买周期的划分，以用户每次的购买行为为分割点向前搜索，如果搜索的操作记录小于设定的阙值，则归为一个购买周期，获得在不同购买周期的用户行为序列，例如{a,b,b,b,a,c,d,a,a}。

以阿里天池大赛下关于生鲜类产品的用户与商品数据为例，原始数据样例如下表所示，数据分析与处理步骤包括去除低频数据、对生鲜产品购买周期进行划分、对生鲜产品的频次(Frequency)和位次(Recency)进行统计分析、对数据集进行划分四项操作。

(1.1)为缓解冷启动问题，首先去除出现次数小于100的低频生鲜产品，则其余的生鲜产品约占10％，整理为用户在选购过程中对于生鲜产品的历史行为序列。

(1.2)采用启发式方法进行一个购买周期的划分，生鲜产品与其他商品不同，用户一般会在有需求的当天搜索并挑选产品下单，通过统计计算出平均购买周期为2.15h，因此设定阙值为2小时，以用户每次的购买行为点为分割点向前搜索，如果搜索的操作记录小于2小时，则归为一个购买周期，该方法可获得在不同购买周期的用户行为序列，为使模型更加准确，去除用户行为记录数小于5的购买周期。处理后的部分数据示例如下：

(1.3)对各个购买周期内生鲜产品的频次(Frequency)和位次(Recency)进行降序排序和统计分析，分析结果如图2所示。结果显示被购买的生鲜产品多位于频次和位次排名靠前的位置，验证了以频次和位次作为构建序列效用函数的影响因素的可行性。

(1.4)对数据集进行划分，按照70％和30％的比例，分为训练集与测试集。针对训练集，学习到预测模型M；针对测试集，在已知u和sequence的情况下，对任意待预测周期s′,利用预测模型预测最有可能购买的农产品，作为预测的结果，推荐给特定的用户。

步骤2：构建基于隐语义函数和行为序列效用的生鲜农产品效用函数。

首先，定义w_s,u,i用来量化用户对生鲜产品的购买意愿，表示用户i在购买周期s内对生鲜产品i的效用值，借鉴隐语义模型(latent factor model)的思想，将商品对于用户的部分效用，表示为代表用户的潜在因子向量p_u与代表生鲜商品的潜在因子(品类、产地、品牌、价格等)向量q_i的内积,如下所示：

w_s,u,i1＝p_u ^Tq_i

用户的偏好与商品特征越契合，即商品越符合用户的选择习惯，则其内积w越大；相反，商品越不符合用户的选择偏好，其效用值w就越小。

其次，用户在购买生鲜产品时的消费行为序列会体现用户的购买偏好，具体表现为商品在购买周期中出现的频率(frequency)和点击与购买的时间间隔(recency)两种因素。因此设计用户选择序列效用函数f(s,i)对购买周期s内的全部商品效用进行预估，作为生鲜农产品效用函数的第二部分，具体分析如下。

(2.1)商品在购买周期中出现的频率(frequency)。一个商品在一段购买周期序列内出现的次数越高，那么其被购买的可能性越大。例如，购买周期的商品点击序列为{a，a，b，b，a，a，a，a}，那么用户购买商品a的可能性应该高于购买商品b的可能性.

(2.2)点击与购买的时间间隔(recency)。在一个购买周期中，用户最近点击的商品更有可能被选择。假定一个购买周期的点击序列为{a,a,a,b,c,a,b,b,b,b}，那么商品b的购买概率应该高于商品a。因为在经过对比a，b，c之后，用户将重点放在了商品b上。

综合频率和时间间隔两个因素，给出f(s,i)的具体表现形式：

其中，将购买周期s中用户的操作序列sq按照时间排序，其长度为N，sq从起始至结束各个位置分别编号为1，2，…，N，假定生鲜商品i出现的位置组成集合p(s.i)，k是在此购买周期内出现的位置。通过计算不同生鲜产品的f(s,i)，将得到购买周期s内用户u关于其浏览、操作、购买的所有生鲜农产品的消费行为序列效用函数，进行排序学习，作为用户效用函数的第二部分。

w_s,u,i2＝f(s,i)

使用参数α调节潜在因子效用和行为序列效用的权重，获得用户u在周期s内购买商品i的效用后，在实施例中将会对α进行敏感度分析。

w_s,u,i＝αp_u ^Tq_i+(1-α)f(s,i)

根据发明内容步骤(2)的生鲜农产品效用函数构建方法，借鉴隐语义模型(LFM)思想并融合用户历史行为序列效用，构建效用函数w_s,u,i＝αp_u ^Tq_i+(1-α)f(s,i)，α值分别设置为0，0.2，0.4，0.6，0.8，1.0分别进行实验。为便于理解，附图3种给出了LFM模型的示意图，用户关于商品的偏好矩阵R(user-class)可以通过P(user-class)矩阵和Q(class-item)矩阵相乘得到，乘积越大表明该生鲜产品越符合用户的偏好。

步骤3：构建遍历购买周期的生鲜农产品选择模型。

为将所有备选商品考虑进模型中，在获得不同用户在周期s内购买生鲜产品i的效用函数后，构建所有备选商品和用户当前购买商品之间的选择模型(最优化损失函数)，其优化目标是遍历所有的购买周期，使购买商品和其余备选商品的效用差最小:

此模型为用户购买周期内所有候选商品和当前购买商品之间建立的选择模型，展开为：

其中，

步骤4：采用梯度下降法求解构建的生鲜农产品选择模型。

采用梯度下降法求解，对p_u和q_i进行交替优化，得：

其中，η表示步长，指示函数

根据发明内容步骤(4)部分的方法，选取步长η＝0.02，设置正则化参数λ_u＝λ_i＝0.01，实验的运行环境为Intel(R)Core(TM)i5-5200U CPU@2.20GHz RAM:8G，在Anaconda环境下利用python3.7编程语言和Numpy工具包编写梯度下降算法求解无约束非线性规划模型。按照基于隐语义和选择序列的生鲜产品选择模型计算出的效用值，选取产品效用最高的Top3生鲜产品作为预测结果，推荐给特定的用户。

步骤5：利用召回率(Recall)和精度(Precision)评估预测效果。

在测试集中，按照基于隐语义和选择序列的生鲜产品选择模型计算出的效用值，选取产品效用最高的Top3生鲜农产品作为推荐结果。选取机器学习评测指标中的召回率(Recall)和精度(Precision)作为衡量此模型效果的指标，其公式分别为：

首先对效用函数的参数α进行敏感性分析，在α分别取值0，0.2，0.4，0.6，0.8，1.0的情形下进行Top3生鲜产品的购买预测实验，实验结果如图4所示，可看出在α＝0.6时精度和召回率最高，预测效果最佳，因此在对比实验中将α设置成0.6。

选取下列三种机器学习方法与本发明所提出的生鲜农产品推荐方法，使用发明内容步骤(5)中提出的评测指标进行对比，具体介绍如下：

(1)基于用户的K近邻(KNN)。首先使用协同过滤(User-based)的方法，根据顾客购买的产品计算出顾客间的相似度。接着在测试集中根据顾客的相似度，推断每个生鲜产品被购买的概率，按照概率的高低衡量产品被购买的可能性。

(2)梯度提升决策树(GBDT)。GBDT的思想是在每一轮的迭代中，使用损失函数对于模型的负梯度方向的信息来对当前模型进行更新，使损失函数最小，获得最佳的预测结果，可用于分类和回归。为与本实验提出方法做出有效对比，使用frequency和recency作为特征，将购买周期内计算概率最大的生鲜产品最为预测的商品。

(3)逻辑回归(Logistics Regression)。逻辑回归也是一种用于解决二分类问题的机器学习方法。本实验使用frequency和recency作为特征，具体地，使用购买频次和相对购买频次作为frequency特征，使用商品在用户选择序列中最后出现的位次和相对位次作为recency特征，将购买周期内可能性最大的商品作为预测商品。

通过将所建立的生鲜农产品选择模型(FPCM)与所选的对比方法(KNN、GBDT、LR)进行对比，同样在Anaconda环境下使用python3.7语言和Sklearn工具包实现KNN、GBDT、LR这3种对比模型，得到预测准确性对比结果如图5所示。可以看出，KNN的预测效果较差，这可能是由于生鲜产品在同一购买周期内的高度相似性；使用frequency和recency作为特征，LR和GBDT具有相对较好的预测效果；本发明中提出的方法，结合了序列效用函数和隐语义效用函数的生鲜农产品选择模型，由于其考虑了所有周期内商品以及操作频率和时间间隔两点因素，在所有指标中具有最佳的表现效果。

各位技术人员须知：虽然本发明已按照上述具体实施方式做了描述，但是本发明的发明思想并不仅限于此发明，任何运用本发明思想的改装，都将纳入本专利专利权保护范围内。

Claims

1.一种考虑顾客消费行为和偏好的生鲜农产品在线推荐方法，其特征在于，包括如下步骤：

(1)数据分析与预处理；

(2)构建基于隐语义和行为序列效用的生鲜农产品效用函数；

(3)构建遍历购买周期的生鲜农产品选择模型；

(4)采用梯度下降法求解构建的生鲜农产品选择模型；

(5)利用召回率(Recall)和精度(Precision)评估预测效果。

2.根据权利要求1所述的考虑顾客消费行为和偏好的生鲜农产品在线推荐方法，其特征在于，所述步骤(1)具体包括如下步骤：

(1.1)所有的用户构成的用户集合U表示为U＝{u₁,u₂,u₃,…}，所有的商品构成的商品集合I表示为I＝{i₁,i₂,i₃,…}，一个购买周期s表示一个用户在一定时间范围内经过对比和选择并最终产生购买行为的过程，表示为一个三元组s＝(u,sq,i_b)，其中u∈U，表示该购买周期的用户；

表示用户在该购买周期内的商品操作序列，i_b∈sq表示用户在此次购买周期中经过比较和选择之后最终购买的商品；所有购买周期的集合记为S＝{s₁,s₂,s₃,……}，

3.根据权利要求1所述的考虑顾客消费行为和偏好的生鲜农产品在线推荐方法，其特征在于，所述步骤(2)中构建用户u在周期s内购买商品i的效用函数的具体方法是：

w_s,u,i＝αp_u ^Tq_i+(1-α)f(s,i)。

4.根据权利要求1所述的考虑顾客消费行为和偏好的生鲜农产品在线推荐方法，其特征在于，步骤(3)中所述构建遍历购买周期的生鲜农产品选择模型具体是：为将所有备选商品考虑进模型中，在获得不同用户在周期s内购买生鲜产品i的效用函数后，构建所有备选商品和用户当前购买商品之间的选择模型，即最优化损失函数，其优化目标是遍历所有的购买周期，使购买商品和其余备选商品的效用差最小：

其中，

5.根据权利要求1所述的考虑顾客消费行为和偏好的生鲜农产品在线推荐方法，其特征在于，步骤(4)中所述采用梯度下降法求解构建的生鲜农产品选择模型的具体方法是：上述步骤中建立的生鲜农产品选择模型，采用梯度下降法求解，对p_u和q_i进行交替优化，得：

其中，η表示步长，指示函数

模型在迭代后获得用户和生鲜产品的特征矩阵(p_u,q_i)，两者相乘可得到用户对生鲜产品的偏好程度(效用)。对于任意用户u，待预测周期s′中商品i的效用值w_s′,u,i＝αp_u ^Tq_i+(1-α)f(s,i)最高的商品，即为该用户在此购买周期内最有可能购买的商品，作为预测的结果进行推荐。

6.根据权利要求1所述的考虑顾客消费行为和偏好的生鲜农产品在线推荐方法，其特征在于，所述步骤(5)中，在测试集中，按照基于隐语义和选择序列的生鲜产品选择模型计算出的效用值，选取产品效用最高的Top3生鲜农产品作为推荐结果。选取机器学习评测指标中的召回率(Recall)和精度(Precision)作为衡量此模型效果的指标，其公式分别为：

其中，TP为预测购买的生鲜产品数量，FP为预测购买而实际未被购买的生鲜产品数量，即误报，FN为预测没有被购买而实际被购买的生鲜产品数量，即漏报。