CN111612583B - 一种基于聚类的个性化导购系统 - Google Patents
一种基于聚类的个性化导购系统 Download PDFInfo
- Publication number
- CN111612583B CN111612583B CN202010426595.2A CN202010426595A CN111612583B CN 111612583 B CN111612583 B CN 111612583B CN 202010426595 A CN202010426595 A CN 202010426595A CN 111612583 B CN111612583 B CN 111612583B
- Authority
- CN
- China
- Prior art keywords
- module
- user
- recommendation
- data
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000011159 matrix material Substances 0.000 claims abstract description 30
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 28
- 238000013480 data collection Methods 0.000 claims abstract description 17
- 238000012216 screening Methods 0.000 claims abstract description 16
- 238000011002 quantification Methods 0.000 claims abstract description 11
- 230000006399 behavior Effects 0.000 claims description 30
- 238000000034 method Methods 0.000 claims description 13
- 238000007635 classification algorithm Methods 0.000 claims description 6
- 238000013145 classification model Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 238000005065 mining Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005429 filling process Methods 0.000 description 1
- 239000010985 leather Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0641—Shopping interfaces
- G06Q30/0643—Graphical representation of items or shoppers
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及电子商务技术领域,特别涉及一种利用商品属性和用户历史评分数据等信息向目标用户提供个性化推荐的导购系统。包括数据收集模块、行为量化模块、商品类别筛选模块、矩阵填充模块、用户聚类模块和生成推荐模块;数据收集模块用于收集商品属性和用户行为数据;行为量化模块用于量化用户的操作行为;商品类别筛选模块用于对所有商品进行类别的筛选;矩阵填充模块利用朴素贝叶斯算法进行矩阵填充,初步预测出未操作商品的评分;用户聚类模块利用基于密度划分准则的二分K均值算法,为用户进行聚类;生成推荐模块,用于将推荐的结果呈现给用户。本发明解决了现有技术中存在的导购系统推荐准确率低的问题。
Description
技术领域
本发明涉及电子商务技术领域,特别涉及一种利用商品属性和用户历史评分数据等信息向目标用户提供个性化推荐的导购系统。
背景技术
导购网站商品量巨大且商品更新迅速,用户挑选出喜爱的商品需要耗费很多的时间和精力,利用推荐系统来解决类似问题显得刻不容缓。现有的导购推荐系统主要采用平均数、众数等默认值去填充稀疏的评分矩阵,缺乏对导购网站个性化特点的利用,导致用户相似度计算质量不高,推荐准确率偏低。另外,现有的导购推荐系统为了加快在线计算速度,大都采用划分聚类算法对用户进行聚类,虽然划分聚类算法时间复杂度较低,但对簇的形状不敏感且极易陷入局部最优解,进而在邻居用户查找过程中引入错误的邻居用户,导致推荐准确率的下降。
发明内容
为了解决现有技术中存在的导购系统推荐准确率低的问题,本发明提出了一个包含商品类别筛选、矩阵填充、用户聚类和生成推荐的个性化推荐导购系统。
为实现上述发明目的,本发明提供如下技术方案:
一种基于聚类的个性化导购系统,导购系统包括数据收集模块、行为量化模块、商品类别筛选模块、矩阵填充模块、用户聚类模块和生成推荐模块;所述数据收集模块用于收集商品属性和用户行为数据;所述行为量化模块用于量化用户的操作行为;所述商品类别筛选模块用于对所有商品进行类别的筛选;所述矩阵填充模块利用朴素贝叶斯算法进行矩阵填充,初步预测出未操作商品的评分;所述用户聚类模块利用基于密度划分准则的二分K均值算法,为用户进行聚类;所述生成推荐模块,用于将推荐的结果呈现给用户。
进一步地,上述数据收集模块中商品属性包括商品名称、分类、品牌、价格、产地,用户行为数据包括点赞、购买和收藏,所述用户行为数据通过web日志挖掘、Javascript页面标记进行收集。
进一步地,上述行为量化模块通过数据收集模块得到用户行为数据,love,purchase,collect分别表示点赞、购买、收藏;并将这些数据量化为用户评分,用户评分等级定义为scoreSet={scorei,j},scorei,j=1,2,3,4,5;
利用公式1计算用户对商品的喜好程度:
scorei,j=a×lovei,j+b×purchasei,j+c×collecti,j (1)
其中,i和j分别代表用户的ID和商品的ID,lovei,j,purchasei,j,collecti,j的取值为0或1,a,b,c是一组常数,分别代表用户各种行为的权重,购买的权重大于收藏,收藏的权重大于点赞;
利用公式2计算用户评分值:
表示新的用户评分值;/>表示历史评分值的最大值;表示更新之后的评分尺度的最大值;round函数表示就近取整,将评分数据映射到1~5分之内。
进一步地,上述矩阵填充模块利用朴素贝叶斯算法进行矩阵填充的方法,用商品属性作为朴素贝叶斯的特征,将多级评分预测转化成多元分类,具体方法如下:
假设现有m个类别,分别为C1、C2、...、Cm,另有多个对象,每个对象有n项特征,分别为F1,F2,...,Fn,朴素贝叶斯分类算法需要计算出目标对象属于各个分类的概率,将目标对象归入概率最大的分类当中,具体计算方法如公式3所示:
P(C|F1F2...Fn)=P(F1F2...Fn|C)P(C)/P(F1F2...Fn) (3)
由于P(F1F2...Fn)对于所有的类别取值都是相同的,因此公式3右半部分可以直接简化成:
P(F1F2...Fn|C)P(C)
朴素贝叶斯分类基于这样一个假设,即假设所有特征都彼此独立,所以上述式子可以进一步转化成:
P(F1|C)P(F2|C)...P(Fn|C)P(C)
P(C)和每一个P(Fn|C)都可以从训练数据集中统计获取,通过上述式子算出各个类别C的对应概率,将目标对象归入概率最大的分类中;
将数据收集模块收集的商品属性作为贝叶斯分类中的特征,用户评分等级取1到5,将5个级别的评分作为5个分类,将多级评分预测转化成5元分类模型,通过5元分类模型,分别计算出用户给商品打出不同分数的概率,概率最大的类对应的分数,就是预测出的评分,利用贝叶斯分类算法得到初步的预测评分之后,将该评分填入稀疏的评分矩阵,充实的评分矩阵,有利于提高推荐效果。
进一步地,上述生成推荐模块包括个性化推荐模块,所述个性化推荐使用贝叶斯分类方法填充之后的用户评分矩阵作为输入,利用基于密度划分准则的二分K均值算法,对用户进行聚类,得到K个簇和聚类中心:[center1,center2,...,centerk],计算目标用户与K个聚类中心的距离,得到距离的集合[distance1,distance2,...,distancek],从所有距离中找到最小的距离distancemin,将用户u并入distancemin对应的簇中,再在该簇内遍历查找出多个邻居用户,找到目标用户所在簇内寻找最近邻居,利用Mahout提供的接口完成最后的协同过滤推荐。
进一步地,上述生成推荐模块还包括热门推荐模块,所述热门推荐模块是从导购系统中所有用户购买商品的记录中分析出一段时间内销量较高的商品,将这些商品以热门推荐列表的形式展示出来。
本发明有以下有益效果:针对用户关注的几个大类分别进行推荐,不仅提高推荐的精准度,而且减小了评分矩阵的数量级,提高了运算速度;解决现有聚类技术中对簇的形状不敏感且极易陷入局部最优解,进而在邻居用户查找过程中引入错误的邻居用户,导致推荐准确率的下降问题;本发明的用户聚类模块,通过多次迭代执行后,聚类准确率提升至89%,相对于用“sse最小化准则”作为划分准则的K均值算法的72%的准确率,提升了17个百分点。
附图说明
图1为本发明的系统结构示意图;
图2为本发明的用户聚类模块聚类方法流程图。
具体实施方式
下面结合附图对本发明作进一步描述。
本发明为一种基于聚类的个性化导购系统,如图1所示为本发明的系统结构示意图,包括数据收集模块、行为量化模块、商品类别筛选模块、矩阵填充模块、用户聚类模块和生成推荐模块;所述数据收集模块用于收集商品属性和用户行为数据;所述行为量化模块用于量化用户的操作行为;所述商品类别筛选模块用于对所有商品进行类别的筛选;所述矩阵填充模块利用朴素贝叶斯算法进行矩阵填充,初步预测出未操作商品的评分;所述用户聚类模块利用基于密度划分准则的二分K均值算法,为用户进行聚类;所述生成推荐模块,用于将推荐的结果呈现给用户。
进一步地,上述数据收集模块中商品属性包括商品名称、分类、品牌、价格、产地,商品属性的收集是为了将商品属性作为贝叶斯算法的特征,用于初步的评分预测以填充稀疏的评分矩阵。用户行为数据包括点赞、购买和收藏,用户操作行为收集方式有两种,一种是web日志挖掘,另一种是Javascript页面标记两种方法。导购系统中的用户行为大都是鼠标点击行为,无法通过web服务器获知。因此,本发明优选JavaScript页面标记的方式,记录用户行为。
进一步地,上述行为量化模块通过数据收集模块得到用户行为数据,love,purchase,collect分别表示点赞、购买、收藏;并将这些数据量化为用户评分,用户评分等级定义为scoreSet={scorei,j},scorei,j=1,2,3,4,5;
利用公式1计算用户对商品的喜好程度:
scorei,j=a×lovei,j+b×purchasei,j+c×collecti,j (1)
其中,i和j分别代表用户的ID和商品的ID,lovei,j,purchasei,j,collecti,j的取值为0或1,a,b,c是一组常数,分别代表用户各种行为的权重,购买的权重大于收藏,收藏的权重大于点赞;
利用公式2计算用户评分值:
表示新的用户评分值;/>表示历史评分值的最大值;表示更新之后的评分尺度的最大值;round函数表示就近取整,将评分数据映射到1~5分之内。有了用户ID、商品ID以及用户评分,就可以构建用户评分矩阵,进而实行推荐。
进一步地,在商品类别筛选模块中,由于不同类别商品间的可比性并不高,且用户在某一时间不可能关注全部类别的商品,因此在推荐之前,可以先对所有商品进行类别的筛选,针对用户关注的几个大类分别进行推荐。这样不仅提高了推荐的精准度,而且减小了评分矩阵的数量级,提高了运算速度。在商品属性表Itemlist中给每一条商品记录加上分类字段,所有的商品都有二级分类,比如一级分类是”鞋”,该字段用于商品类别的筛选。二级分类有[“跑步鞋”,“皮鞋”,“拖鞋”...]等,该字段作为商品属性,用作矩阵填充过程中朴素贝叶斯算法中的特征。
进一步地,上述矩阵填充模块利用朴素贝叶斯算法进行矩阵填充的方法,用商品属性作为朴素贝叶斯的特征,将多级评分预测转化成多元分类,具体方法如下:
假设现有m个类别,分别为C1、C2、...、Cm,另有多个对象,每个对象有n项特征,分别为F1,F2,...,Fn,朴素贝叶斯分类算法需要计算出目标对象属于各个分类的概率,将目标对象归入概率最大的分类当中,具体计算方法如公式3所示:
P(C|F1F2...Fn)=P(F1F2...Fn|C)P(C)/P(F1F2...Fn) (3)
由于P(F1F2...Fn)对于所有的类别取值都是相同的,因此公式3右半部分可以直接简化成:
P(F1F2...Fn|C)P(C)
朴素贝叶斯分类基于这样一个假设,即假设所有特征都彼此独立,所以上述式子可以进一步转化成:
P(F1|C)P(F2|C)...P(Fn|C)P(C)
P(C)和每一个P(Fn|C)都可以从训练数据集中统计获取,通过上述式子算出各个类别C的对应概率,将目标对象归入概率最大的分类中;
将数据收集模块收集的商品属性作为贝叶斯分类中的特征,用户评分等级取1到5,将5个级别的评分作为5个分类,将多级评分预测转化成5元分类模型,通过5元分类模型,分别计算出用户给商品打出不同分数的概率,概率最大的类对应的分数,就是预测出的评分,利用贝叶斯分类算法得到初步的预测评分之后,将该评分填入稀疏的评分矩阵,充实的评分矩阵,有利于提高推荐效果。
进一步地,如图2所示,用户聚类模块利用基于密度划分准则的二分K均值算法,用户进行聚类,包括如下步骤:
1)初始化点数阈值M和变化量阈值δ,其中,M表示核心点邻域内至少应包含的点的个数,即核心点邻域内包含的点数必须大于或等于M,δ代表SSE(误差平方和)的变化量阈值;
2)计算数据集P的邻域半径R,其中,数据集P={p(1),p(2)…p(n)};
3)利用最大最小距离方法选择数据集的初始聚类中心;
4)将数据集划分成两个子簇,即利用步骤3的两个初始聚类中心,执行二分K均值算法,将数据集划分成两个簇;
5)判断SSE的变化量是否小于δ,如果小于δ,转步骤7),否则,转步骤6);其中SSE为误差平方和(sum ofthe squared errors):
其中k是簇的个数,ci是第i个簇的聚类中心,x是数据点,Si是第i个簇中所有数据点的集合,d是距离函数;
6)选择可进一步划分的簇,即利用参数M和R对每一个簇遍历执行dbscan算法,得到所有簇可以划分成的子簇数目,将子簇最多的簇作为二分K均值算法进一步划分的簇;转步骤3;
7)完成聚类。
进一步地,上述数据生成推荐模块包括个性化推荐模块,个性化推荐使用贝叶斯分类方法填充之后的用户评分矩阵作为输入,利用基于密度划分准则的二分K均值算法,对用户进行聚类,得到K个簇和聚类中心:[center1,center2,...,centerk],计算目标用户与K个聚类中心的距离,得到距离的集合[distance1,distance2,...,distancek],从所有距离中找到最小的距离distancemin,将用户u并入distancemin对应的簇中,再在该簇内遍历查找出多个邻居用户,找到目标用户所在簇内寻找最近邻居,利用Mahout提供的接口完成最后的协同过滤推荐,Mahout提供的接口主要有DataModel、UserSimilarity、UserNeighborhood和Recommender等接口。
进一步地,上述数据生成推荐模块还包括热门推荐模块,所述热门推荐模块是从所有用户购买商品的记录中分析出一段时间内销量较高的商品,将这些商品以热门推荐列表的形式展示出来。
Claims (6)
1.一种基于聚类的个性化导购系统,其特征在于,所述导购系统包括数据收集模块、行为量化模块、商品类别筛选模块、矩阵填充模块、用户聚类模块和生成推荐模块;所述数据收集模块用于收集商品属性和用户行为数据;所述商品属性包括商品名称、分类、品牌、价格、产地;所述行为量化模块用于量化用户的操作行为;所述商品类别筛选模块用于对所有商品进行类别的筛选;所述矩阵填充模块利用朴素贝叶斯算法进行矩阵填充,初步预测出未操作商品的评分;所述用户聚类模块利用基于密度划分准则的二分K均值算法,为用户进行聚类;所述生成推荐模块,用于将推荐的结果呈现给用户;
用户聚类模块利用基于密度划分准则的二分K均值算法,为用户进行聚类,包括如下步骤:
步骤1、初始化点数阈值M和变化量阈值δ,其中,M表示核心点邻域内至少应包含的点的个数,即核心点邻域内包含的点数必须大于或等于M,δ代表SSE的变化量阈值,SSE为误差平方和;
其中,k是簇的个数,ci是第i个簇的聚类中心,x是数据点,Si是第i个簇中所有数据点的集合,d是距离函数;
步骤2、计算数据集P的邻域半径R,其中,数据集P={p(1),p(2)…p(n)};
步骤3、利用最大最小距离方法选择数据集的初始聚类中心;
步骤4、将数据集划分成两个子簇,即利用步骤3的两个初始聚类中心,执行二分K均值算法,将数据集划分成两个簇;
步骤5、判断SSE的变化量是否小于δ,如果小于δ,转步骤7,否则,转步骤6;
步骤6、选择可进一步划分的簇,即利用参数M和R对每一个簇遍历执行dbscan算法,得到所有簇可以划分成的子簇数目,将子簇最多的簇作为二分K均值算法进一步划分的簇;转步骤3;
步骤7、完成聚类。
2.如权利要求1所述的基于聚类的个性化导购系统,其特征在于,所述数据收集模块中用户行为数据包括点赞、购买和收藏,所述用户行为数据通过web日志挖掘、Javascript页面标记进行收集。
3.如权利要求1所述的基于聚类的个性化导购系统,其特征在于,所述行为量化模块通过数据收集模块得到用户行为数据,love,purchase,collect分别表示点赞、购买、收藏;并将这些数据量化为用户评分,用户评分等级定义为scoreSet={scorei,j},scorei,j=1,2,3,4,5;
利用公式1计算用户对商品的喜好程度:
scorei,j=a×lovei,j+b×purchasei,j+c×collecti,j (1)
其中,i和j分别代表用户的ID和商品的ID,lovei,j,purchasei,j,collecti,j的取值为0或1,a,b,c是一组常数,分别代表用户各种行为的权重,购买的权重大于收藏,收藏的权重大于点赞;
利用公式2计算用户评分值:
表示新的用户评分值;/>表示历史评分值的最大值;/>表示更新之后的评分尺度的最大值;round函数表示就近取整,将评分数据映射到1~5分之内。
4.如权利要求1所述的基于聚类的个性化导购系统,其特征在于,所述矩阵填充模块利用朴素贝叶斯算法进行矩阵填充的方法,用商品属性作为朴素贝叶斯的特征,将多级评分预测转化成多元分类,具体方法如下:
假设现有m个类别,分别为C1、C2、...、Cm,另有多个对象,每个对象有n项特征,分别为F1,F2,...,Fn,朴素贝叶斯分类算法需要计算出目标对象属于各个分类的概率,将目标对象归入概率最大的分类当中,具体计算方法如公式3所示:
P(C|F1F2...Fn)=P(F1F2...Fn|C)P(C)/P(F1F2...Fn) (3)
由于P(F1F2...Fn)对于所有的类别取值都是相同的,因此公式3右半部分可以直接简化成:
P(F1F2...Fn|C)P(C)
朴素贝叶斯分类基于这样一个假设,即假设所有特征都彼此独立,所以上述式子可以进一步转化成:
P(F1|C)P(F2|C)...P(Fn|C)P(C)
P(C)和每一个P(Fn|C)都可以从训练数据集中统计获取,通过上述式子算出各个类别C的对应概率,将目标对象归入概率最大的分类中;
将数据收集模块收集的商品属性作为贝叶斯分类中的特征,用户评分等级取1到5,将5个级别的评分作为5个分类,将多级评分预测转化成5元分类模型,通过5元分类模型,分别计算出用户给商品打出不同分数的概率,概率最大的类对应的分数,就是预测出的评分,利用贝叶斯分类算法得到初步的预测评分之后,将该评分填入稀疏的评分矩阵。
5.如权利要求1所述的基于聚类的个性化导购系统,其特征在于,所述生成推荐模块包括个性化推荐模块,所述个性化推荐使用贝叶斯分类方法填充之后的用户评分矩阵作为输入,利用基于密度划分准则的二分K均值算法,对用户进行聚类,得到K个簇和聚类中心:[center1,center2,...,centerk],计算目标用户与K个聚类中心的距离,得到距离的集合[distance1,distance2,...,distancek],从所有距离中找到最小的距离distancemin,将用户u并入distancemin对应的簇中,再在该簇内遍历查找出多个邻居用户,找到目标用户所在簇内寻找最近邻居,利用Mahout提供的接口完成最后的协同过滤推荐。
6.如权利要求1所述的基于聚类的个性化导购系统,其特征在于,所述生成推荐模块还包括热门推荐模块,所述热门推荐模块是从导购系统中所有用户购买商品的记录中分析出一段时间内销量较高的商品,将这些商品以热门推荐列表的形式展示出来。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010426595.2A CN111612583B (zh) | 2020-05-19 | 2020-05-19 | 一种基于聚类的个性化导购系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010426595.2A CN111612583B (zh) | 2020-05-19 | 2020-05-19 | 一种基于聚类的个性化导购系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111612583A CN111612583A (zh) | 2020-09-01 |
CN111612583B true CN111612583B (zh) | 2024-03-19 |
Family
ID=72200388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010426595.2A Active CN111612583B (zh) | 2020-05-19 | 2020-05-19 | 一种基于聚类的个性化导购系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111612583B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112184379A (zh) * | 2020-09-29 | 2021-01-05 | 浙江得油信息科技有限公司 | 一种车船用油品网购系统 |
CN112819533A (zh) * | 2021-01-29 | 2021-05-18 | 深圳脉腾科技有限公司 | 信息推送方法、装置、电子设备及存储介质 |
CN114418700A (zh) * | 2022-01-24 | 2022-04-29 | 中国工商银行股份有限公司 | 产品推荐方法、装置、设备和介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108154380A (zh) * | 2017-04-28 | 2018-06-12 | 华侨大学 | 基于大规模评分数据对用户进行商品在线实时推荐的方法 |
WO2020073534A1 (zh) * | 2018-10-12 | 2020-04-16 | 平安科技(深圳)有限公司 | 基于重聚类的推送方法、装置、计算机设备及存储介质 |
-
2020
- 2020-05-19 CN CN202010426595.2A patent/CN111612583B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108154380A (zh) * | 2017-04-28 | 2018-06-12 | 华侨大学 | 基于大规模评分数据对用户进行商品在线实时推荐的方法 |
WO2020073534A1 (zh) * | 2018-10-12 | 2020-04-16 | 平安科技(深圳)有限公司 | 基于重聚类的推送方法、装置、计算机设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
戴季国.基于用户聚类的个性化推荐算法在导购网站中的应用.硕士电子期刊.2019,2019年(第05期),1-29. * |
Also Published As
Publication number | Publication date |
---|---|
CN111612583A (zh) | 2020-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111612583B (zh) | 一种基于聚类的个性化导购系统 | |
CN107833117B (zh) | 一种考虑标签信息的贝叶斯个性化排序推荐方法 | |
CN110555717A (zh) | 基于用户行为特征挖掘用户潜在购买商品和品类的方法 | |
CN106445988A (zh) | 一种大数据的智能处理方法和系统 | |
CN102254043A (zh) | 一种基于语义映射的服装图像检索方法 | |
CN111737418B (zh) | 搜索词和商品的相关性预测方法、设备和存储介质 | |
CN112100512A (zh) | 一种基于用户聚类和项目关联分析的协同过滤推荐方法 | |
CN106897911A (zh) | 一种基于用户和物品的自适应个性化推荐方法 | |
CN117391247A (zh) | 一种基于深度学习的企业风险等级预测方法及系统 | |
CN104298787A (zh) | 一种基于融合策略的个性化推荐方法及装置 | |
CN108563690A (zh) | 一种基于面向对象聚类的协同过滤推荐方法 | |
CN103778206A (zh) | 一种网络服务资源的提供方法 | |
CN113326432A (zh) | 一种基于决策树与推荐方法的模型优选方法 | |
CN114357307B (zh) | 一种基于多维度特征的新闻推荐方法 | |
CN115840853A (zh) | 一种基于知识图谱和图注意力网络的课程推荐系统 | |
CN113591947A (zh) | 基于用电行为的电力数据聚类方法、装置和存储介质 | |
CN114418602B (zh) | 一种基于需求预测的在线零售商产品库存决策方法和系统 | |
KR102358357B1 (ko) | 시장규모추정장치 및 그 동작 방법 | |
CN117272130A (zh) | 一种基于特征选择去偏的推荐系统点击预测的方法 | |
Li et al. | An improved genetic-XGBoost classifier for customer consumption behavior prediction | |
CN115713390A (zh) | 一种基于用户交易数据的鞋类流行趋势的预测推荐方法及系统 | |
CN117194966A (zh) | 对象分类模型的训练方法和相关装置 | |
CN113762415A (zh) | 一种基于神经网络的汽车金融产品智能匹配方法和系统 | |
CN113723551A (zh) | 一种麻雀算法优化模糊聚类的推荐方法 | |
CN114298118A (zh) | 一种基于深度学习的数据处理方法、相关设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |