CN111612583B

CN111612583B - 一种基于聚类的个性化导购系统

Info

Publication number: CN111612583B
Application number: CN202010426595.2A
Authority: CN
Inventors: 马汉达; 戴季国
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2024-03-19
Anticipated expiration: 2040-05-19
Also published as: CN111612583A

Abstract

本发明涉及电子商务技术领域，特别涉及一种利用商品属性和用户历史评分数据等信息向目标用户提供个性化推荐的导购系统。包括数据收集模块、行为量化模块、商品类别筛选模块、矩阵填充模块、用户聚类模块和生成推荐模块；数据收集模块用于收集商品属性和用户行为数据；行为量化模块用于量化用户的操作行为；商品类别筛选模块用于对所有商品进行类别的筛选；矩阵填充模块利用朴素贝叶斯算法进行矩阵填充，初步预测出未操作商品的评分；用户聚类模块利用基于密度划分准则的二分K均值算法，为用户进行聚类；生成推荐模块，用于将推荐的结果呈现给用户。本发明解决了现有技术中存在的导购系统推荐准确率低的问题。

Description

一种基于聚类的个性化导购系统

技术领域

本发明涉及电子商务技术领域，特别涉及一种利用商品属性和用户历史评分数据等信息向目标用户提供个性化推荐的导购系统。

背景技术

导购网站商品量巨大且商品更新迅速，用户挑选出喜爱的商品需要耗费很多的时间和精力，利用推荐系统来解决类似问题显得刻不容缓。现有的导购推荐系统主要采用平均数、众数等默认值去填充稀疏的评分矩阵，缺乏对导购网站个性化特点的利用，导致用户相似度计算质量不高，推荐准确率偏低。另外，现有的导购推荐系统为了加快在线计算速度，大都采用划分聚类算法对用户进行聚类，虽然划分聚类算法时间复杂度较低，但对簇的形状不敏感且极易陷入局部最优解，进而在邻居用户查找过程中引入错误的邻居用户，导致推荐准确率的下降。

发明内容

为了解决现有技术中存在的导购系统推荐准确率低的问题，本发明提出了一个包含商品类别筛选、矩阵填充、用户聚类和生成推荐的个性化推荐导购系统。

为实现上述发明目的，本发明提供如下技术方案：

一种基于聚类的个性化导购系统，导购系统包括数据收集模块、行为量化模块、商品类别筛选模块、矩阵填充模块、用户聚类模块和生成推荐模块；所述数据收集模块用于收集商品属性和用户行为数据；所述行为量化模块用于量化用户的操作行为；所述商品类别筛选模块用于对所有商品进行类别的筛选；所述矩阵填充模块利用朴素贝叶斯算法进行矩阵填充，初步预测出未操作商品的评分；所述用户聚类模块利用基于密度划分准则的二分K均值算法，为用户进行聚类；所述生成推荐模块，用于将推荐的结果呈现给用户。

进一步地，上述数据收集模块中商品属性包括商品名称、分类、品牌、价格、产地，用户行为数据包括点赞、购买和收藏，所述用户行为数据通过web日志挖掘、Javascript页面标记进行收集。

进一步地，上述行为量化模块通过数据收集模块得到用户行为数据，love，purchase，collect分别表示点赞、购买、收藏；并将这些数据量化为用户评分，用户评分等级定义为scoreSet＝{score_i,j}，score_i,j＝1，2，3，4，5；

利用公式1计算用户对商品的喜好程度：

score_i,j＝a×love_i,j+b×purchase_i,j+c×collect_i,j (1)

其中，i和j分别代表用户的ID和商品的ID，love_i,j，purchase_i,j，collect_i,j的取值为0或1，a，b，c是一组常数，分别代表用户各种行为的权重，购买的权重大于收藏，收藏的权重大于点赞；

利用公式2计算用户评分值：

表示新的用户评分值；/>表示历史评分值的最大值；表示更新之后的评分尺度的最大值；round函数表示就近取整，将评分数据映射到1～5分之内。

进一步地，上述矩阵填充模块利用朴素贝叶斯算法进行矩阵填充的方法，用商品属性作为朴素贝叶斯的特征，将多级评分预测转化成多元分类，具体方法如下：

假设现有m个类别，分别为C₁、C₂、...、C_m，另有多个对象，每个对象有n项特征，分别为F₁，F₂，...，F_n，朴素贝叶斯分类算法需要计算出目标对象属于各个分类的概率，将目标对象归入概率最大的分类当中，具体计算方法如公式3所示：

P(C|F₁F₂...F_n)＝P(F₁F₂...F_n|C)P(C)/P(F₁F₂...F_n) (3)

由于P(F₁F₂...F_n)对于所有的类别取值都是相同的，因此公式3右半部分可以直接简化成：

P(F₁F₂...F_n|C)P(C)

朴素贝叶斯分类基于这样一个假设，即假设所有特征都彼此独立，所以上述式子可以进一步转化成：

P(F₁|C)P(F₂|C)...P(F_n|C)P(C)

P(C)和每一个P(F_n|C)都可以从训练数据集中统计获取，通过上述式子算出各个类别C的对应概率，将目标对象归入概率最大的分类中；

将数据收集模块收集的商品属性作为贝叶斯分类中的特征，用户评分等级取1到5，将5个级别的评分作为5个分类，将多级评分预测转化成5元分类模型，通过5元分类模型，分别计算出用户给商品打出不同分数的概率，概率最大的类对应的分数，就是预测出的评分，利用贝叶斯分类算法得到初步的预测评分之后，将该评分填入稀疏的评分矩阵，充实的评分矩阵，有利于提高推荐效果。

进一步地，上述生成推荐模块包括个性化推荐模块，所述个性化推荐使用贝叶斯分类方法填充之后的用户评分矩阵作为输入，利用基于密度划分准则的二分K均值算法，对用户进行聚类，得到K个簇和聚类中心：[center₁,center₂,...,center_k]，计算目标用户与K个聚类中心的距离，得到距离的集合[distance₁,distance₂,...,distance_k]，从所有距离中找到最小的距离distance_min，将用户u并入distance_min对应的簇中，再在该簇内遍历查找出多个邻居用户，找到目标用户所在簇内寻找最近邻居，利用Mahout提供的接口完成最后的协同过滤推荐。

进一步地，上述生成推荐模块还包括热门推荐模块，所述热门推荐模块是从导购系统中所有用户购买商品的记录中分析出一段时间内销量较高的商品，将这些商品以热门推荐列表的形式展示出来。

本发明有以下有益效果：针对用户关注的几个大类分别进行推荐，不仅提高推荐的精准度，而且减小了评分矩阵的数量级，提高了运算速度；解决现有聚类技术中对簇的形状不敏感且极易陷入局部最优解，进而在邻居用户查找过程中引入错误的邻居用户，导致推荐准确率的下降问题；本发明的用户聚类模块，通过多次迭代执行后，聚类准确率提升至89％，相对于用“sse最小化准则”作为划分准则的K均值算法的72％的准确率，提升了17个百分点。

附图说明

图1为本发明的系统结构示意图；

图2为本发明的用户聚类模块聚类方法流程图。

具体实施方式

下面结合附图对本发明作进一步描述。

本发明为一种基于聚类的个性化导购系统，如图1所示为本发明的系统结构示意图，包括数据收集模块、行为量化模块、商品类别筛选模块、矩阵填充模块、用户聚类模块和生成推荐模块；所述数据收集模块用于收集商品属性和用户行为数据；所述行为量化模块用于量化用户的操作行为；所述商品类别筛选模块用于对所有商品进行类别的筛选；所述矩阵填充模块利用朴素贝叶斯算法进行矩阵填充，初步预测出未操作商品的评分；所述用户聚类模块利用基于密度划分准则的二分K均值算法，为用户进行聚类；所述生成推荐模块，用于将推荐的结果呈现给用户。

进一步地，上述数据收集模块中商品属性包括商品名称、分类、品牌、价格、产地，商品属性的收集是为了将商品属性作为贝叶斯算法的特征，用于初步的评分预测以填充稀疏的评分矩阵。用户行为数据包括点赞、购买和收藏，用户操作行为收集方式有两种，一种是web日志挖掘，另一种是Javascript页面标记两种方法。导购系统中的用户行为大都是鼠标点击行为，无法通过web服务器获知。因此，本发明优选JavaScript页面标记的方式，记录用户行为。

进一步地，上述行为量化模块通过数据收集模块得到用户行为数据，love，purchase，collect分别表示点赞、购买、收藏；并将这些数据量化为用户评分，用户评分等级定义为scoreSet＝{scorei,j}，scorei,j＝1，2，3，4，5；

利用公式1计算用户对商品的喜好程度：

score_i,j＝a×love_i,j+b×purchase_i,j+c×collect_i,j (1)

利用公式2计算用户评分值：

表示新的用户评分值；/>表示历史评分值的最大值；表示更新之后的评分尺度的最大值；round函数表示就近取整，将评分数据映射到1～5分之内。有了用户ID、商品ID以及用户评分，就可以构建用户评分矩阵，进而实行推荐。

进一步地，在商品类别筛选模块中，由于不同类别商品间的可比性并不高，且用户在某一时间不可能关注全部类别的商品，因此在推荐之前，可以先对所有商品进行类别的筛选，针对用户关注的几个大类分别进行推荐。这样不仅提高了推荐的精准度，而且减小了评分矩阵的数量级，提高了运算速度。在商品属性表Itemlist中给每一条商品记录加上分类字段，所有的商品都有二级分类，比如一级分类是”鞋”，该字段用于商品类别的筛选。二级分类有[“跑步鞋”,“皮鞋”,“拖鞋”...]等，该字段作为商品属性，用作矩阵填充过程中朴素贝叶斯算法中的特征。

P(C|F₁F₂...F_n)＝P(F₁F₂...F_n|C)P(C)/P(F₁F₂...F_n) (3)

P(F₁F₂...F_n|C)P(C)

P(F₁|C)P(F₂|C)...P(F_n|C)P(C)

进一步地，如图2所示，用户聚类模块利用基于密度划分准则的二分K均值算法，用户进行聚类，包括如下步骤：

1)初始化点数阈值M和变化量阈值δ，其中，M表示核心点邻域内至少应包含的点的个数，即核心点邻域内包含的点数必须大于或等于M，δ代表SSE(误差平方和)的变化量阈值；

2)计算数据集P的邻域半径R，其中，数据集P＝{p(1)，p(2)…p(n)}；

3)利用最大最小距离方法选择数据集的初始聚类中心；

4)将数据集划分成两个子簇，即利用步骤3的两个初始聚类中心，执行二分K均值算法，将数据集划分成两个簇；

5)判断SSE的变化量是否小于δ，如果小于δ，转步骤7)，否则，转步骤6)；其中SSE为误差平方和(sum ofthe squared errors):

其中k是簇的个数，c_i是第i个簇的聚类中心，x是数据点，S_i是第i个簇中所有数据点的集合，d是距离函数；

6)选择可进一步划分的簇，即利用参数M和R对每一个簇遍历执行dbscan算法，得到所有簇可以划分成的子簇数目，将子簇最多的簇作为二分K均值算法进一步划分的簇；转步骤3；

7)完成聚类。

进一步地，上述数据生成推荐模块包括个性化推荐模块，个性化推荐使用贝叶斯分类方法填充之后的用户评分矩阵作为输入，利用基于密度划分准则的二分K均值算法，对用户进行聚类，得到K个簇和聚类中心：[center₁,center₂,...,center_k]，计算目标用户与K个聚类中心的距离，得到距离的集合[distance₁,distance₂,...,distance_k]，从所有距离中找到最小的距离distance_min，将用户u并入distance_min对应的簇中，再在该簇内遍历查找出多个邻居用户，找到目标用户所在簇内寻找最近邻居，利用Mahout提供的接口完成最后的协同过滤推荐，Mahout提供的接口主要有DataModel、UserSimilarity、UserNeighborhood和Recommender等接口。

进一步地，上述数据生成推荐模块还包括热门推荐模块，所述热门推荐模块是从所有用户购买商品的记录中分析出一段时间内销量较高的商品，将这些商品以热门推荐列表的形式展示出来。

Claims

1.一种基于聚类的个性化导购系统，其特征在于，所述导购系统包括数据收集模块、行为量化模块、商品类别筛选模块、矩阵填充模块、用户聚类模块和生成推荐模块；所述数据收集模块用于收集商品属性和用户行为数据；所述商品属性包括商品名称、分类、品牌、价格、产地；所述行为量化模块用于量化用户的操作行为；所述商品类别筛选模块用于对所有商品进行类别的筛选；所述矩阵填充模块利用朴素贝叶斯算法进行矩阵填充，初步预测出未操作商品的评分；所述用户聚类模块利用基于密度划分准则的二分K均值算法，为用户进行聚类；所述生成推荐模块，用于将推荐的结果呈现给用户；

用户聚类模块利用基于密度划分准则的二分K均值算法，为用户进行聚类，包括如下步骤：

步骤1、初始化点数阈值M和变化量阈值δ，其中，M表示核心点邻域内至少应包含的点的个数，即核心点邻域内包含的点数必须大于或等于M，δ代表SSE的变化量阈值，SSE为误差平方和；

其中，k是簇的个数，c_i是第i个簇的聚类中心，x是数据点，S_i是第i个簇中所有数据点的集合，d是距离函数；

步骤2、计算数据集P的邻域半径R，其中，数据集P＝{p(1)，p(2)…p(n)}；

步骤3、利用最大最小距离方法选择数据集的初始聚类中心；

步骤4、将数据集划分成两个子簇，即利用步骤3的两个初始聚类中心，执行二分K均值算法，将数据集划分成两个簇；

步骤5、判断SSE的变化量是否小于δ，如果小于δ，转步骤7，否则，转步骤6；

步骤6、选择可进一步划分的簇，即利用参数M和R对每一个簇遍历执行dbscan算法，得到所有簇可以划分成的子簇数目，将子簇最多的簇作为二分K均值算法进一步划分的簇；转步骤3；

步骤7、完成聚类。

2.如权利要求1所述的基于聚类的个性化导购系统，其特征在于，所述数据收集模块中用户行为数据包括点赞、购买和收藏，所述用户行为数据通过web日志挖掘、Javascript页面标记进行收集。

3.如权利要求1所述的基于聚类的个性化导购系统，其特征在于，所述行为量化模块通过数据收集模块得到用户行为数据，love，purchase，collect分别表示点赞、购买、收藏；并将这些数据量化为用户评分，用户评分等级定义为scoreSet＝{score_i,j}，score_i,j＝1，2，3，4，5；

利用公式1计算用户对商品的喜好程度：

score_i,j＝a×love_i,j+b×purchase_i,j+c×collect_i,j (1)

利用公式2计算用户评分值：

表示新的用户评分值；/>表示历史评分值的最大值；/>表示更新之后的评分尺度的最大值；round函数表示就近取整，将评分数据映射到1～5分之内。

4.如权利要求1所述的基于聚类的个性化导购系统，其特征在于，所述矩阵填充模块利用朴素贝叶斯算法进行矩阵填充的方法，用商品属性作为朴素贝叶斯的特征，将多级评分预测转化成多元分类，具体方法如下：

P(C|F₁F₂...F_n)＝P(F₁F₂...F_n|C)P(C)/P(F₁F₂...F_n) (3)

P(F₁F₂...F_n|C)P(C)

P(F₁|C)P(F₂|C)...P(F_n|C)P(C)

将数据收集模块收集的商品属性作为贝叶斯分类中的特征，用户评分等级取1到5，将5个级别的评分作为5个分类，将多级评分预测转化成5元分类模型，通过5元分类模型，分别计算出用户给商品打出不同分数的概率，概率最大的类对应的分数，就是预测出的评分，利用贝叶斯分类算法得到初步的预测评分之后，将该评分填入稀疏的评分矩阵。

5.如权利要求1所述的基于聚类的个性化导购系统，其特征在于，所述生成推荐模块包括个性化推荐模块，所述个性化推荐使用贝叶斯分类方法填充之后的用户评分矩阵作为输入，利用基于密度划分准则的二分K均值算法，对用户进行聚类，得到K个簇和聚类中心：[center₁,center₂,...,center_k]，计算目标用户与K个聚类中心的距离，得到距离的集合[distance₁,distance₂,...,distance_k]，从所有距离中找到最小的距离distance_min，将用户u并入distance_min对应的簇中，再在该簇内遍历查找出多个邻居用户，找到目标用户所在簇内寻找最近邻居，利用Mahout提供的接口完成最后的协同过滤推荐。

6.如权利要求1所述的基于聚类的个性化导购系统，其特征在于，所述生成推荐模块还包括热门推荐模块，所述热门推荐模块是从导购系统中所有用户购买商品的记录中分析出一段时间内销量较高的商品，将这些商品以热门推荐列表的形式展示出来。