CN114708056A - 一种基于模糊对象语言概念格聚类的个性化商品推荐方法 - Google Patents
一种基于模糊对象语言概念格聚类的个性化商品推荐方法 Download PDFInfo
- Publication number
- CN114708056A CN114708056A CN202210226888.5A CN202210226888A CN114708056A CN 114708056 A CN114708056 A CN 114708056A CN 202210226888 A CN202210226888 A CN 202210226888A CN 114708056 A CN114708056 A CN 114708056A
- Authority
- CN
- China
- Prior art keywords
- language
- concept
- clustering
- user
- users
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于模糊对象语言概念格聚类的个性化商品推荐方法,按照如下步骤进行:用户行为数据数据采集与处理,将收集到的数据初始化成模糊对象语言形式背景;构造模糊对象语言概念及概念格;寻找聚类原因;进行层次聚类;将层次聚类的结果与原因相对应;得到所需要的概念与层次,完成聚类;根据聚类结果采用Top‑N推荐为用户推荐商品。可以寻找到层次聚类局部最优层次的同时优化概念构造问题。
Description
技术领域
本发明属于数据挖掘和智能信息处理技术,尤其是一种基于模糊对象语言概念格聚类的个性化商品推荐方法。
背景技术
聚类是根据样本本身的特性寻找其他与之类似的样本,从而达成将所有样本分类的目的,因此,聚类往往作为其他任务的数据预处理步骤。随着互联网技术的不断发展,电商平台逐渐成为人们购买不同商品的网上购物平台,依据不同用户的行为数据分析确定不同用户的喜好,可以更好的为用户提供个性化服务。
在所有聚类方法中,基于层次的聚类方法是由最细的粒度开始,将每个样本都初始化为一个簇,最终将所有样本合为一个簇。这种方法可以有效表示出簇的层次结构,但是计算层次结构的复杂度高,不易发现局部最优层次是这种方法的主要缺陷。为了发现簇的真实数量,提出了用于层次聚类算法的有效性指标框架,这是一种寻找层次聚类中最优层次的一种有效方式,然而,由于其较低的可解释性,在医疗、交通、生物医学、金融等领域中却无法应用。在亲和聚类算法中,由MapReduce框架提出一种新的适合层次聚类问题的高效分布式算法,极大的提升了在大数据环境下层次聚类的运行速度与表现,从一定程度上缓解了层次聚类中所存在的问题。金子坤对于目前已经存在的基于电商平台的智能推荐方法进行了研究,并分析这些推荐算法所面临的问题与应对方法。Rafael等应用用户评论数据,基于软聚类方法,探讨数据表示并将其应用于软聚类推荐方法中。
形式概念分析(FCA)作为一种基于形式背景的概念层次分析方法,其核心数据结构概念格可以有效的考虑到数据间的结构关系,并且每个概念本身实质上就是一种聚类结论,其中外延表示其聚类结果,而内涵则表示为其产生这种聚类结果的聚类原因。在这种角度上讨论,以概念格作为聚类的基础,不仅可以可视化出所有概念的泛化与特化关系,而且外延与内涵的协调统一性使得这种聚类方式可解释性很强。此外,为了解决构造概念的复杂程度较高的问题,作者结合层次聚类的方法,对象集位于聚类之中,从而可以更快的构造概念,建立了概念格与层次聚类的一种联系。在商品推荐过程中,面对着大量的语言值数据,将这些数据转化为数值会造成信息损失,从而降低个性化商品推荐的准确率,因此需要对其直接进行处理。Pei等人在FCA的基础上,研究了语言值集的层次结构,通过语言值刻画对象的适合度,进一步研究了语言值的推理。Zou等人利用语言术语集,将其融入概念格,并将其应用于知识约简以及语言值推理等任务。
但是,现有的概念格聚类算法存在无法将对象集完全划分开的问题,层次聚类算法还存在无法选择局部最优层次以及将其应用于商品推荐中的算法复杂度过高的问题。此外,由于概念格仍然不能在个性化商品推荐时处理语言值信息,容易在信息转化中产生信息损失。
发明内容
本发明是为了解决现有技术所存在的上述技术问题,提供一种基于模糊对象语言概念格聚类的个性化商品推荐模型。
本发明的技术解决方案是:一种基于模糊对象语言概念格聚类的个性化商品推荐方法,按照如下步骤进行:
A用户行为数据采集与预处理:
A1.设定用户的语言术语集为S={sα|α=-τ,…,-1,0,1,…,τ},商品(特征)集为L={l1,l2,…,ln},用户(样本)集为U={X1,X2,…,Xm},所述n为商品总个数,m为用户总个数;
A2.收集用户Xp使用语言值sα描述商品lq的语言概念语言概念集为对任意用户的语言概念偏好值集为 初始化用户集U与语言概念集的模糊对象语言形式背景作为商品推荐数据集,λ∈[0,1]为用户与语言概念间的信任度水平,为用户集U到语言概念集的模糊二元关系,即
B.寻找聚类原因:
C.进行层次聚类:
C1.将每一个用户作为一个单独的簇;
C2.构造用户间的相似度矩阵M:
任意两个用户Xp,Xo之间的余弦相似度如下:
其中,K(Xp,Xo)表示模糊对象Xp和Xo的高斯径向基核函数,K(Xp,Xp)表示模糊对象Xp与自身的高斯径向基核函数,K(Xo,Xo)表示模糊对象Xo与自身的高斯径向基核函数;
C3.寻找最近的两个用户,并将它们合成一个簇C;对于存在多个用户的簇C,求出簇C中所有对象在xij上的均值,确定质心ce:
C4.重复步骤C2与C3,直至所有用户存在于一个簇中或者根据电商设定阈值停止;
D.层次聚类结果与原因相对应:
E.得到层次聚类→模糊对象语言概念格:通过检查簇中的用户X,使其与BΔ相对应,从而得到电商所需要的簇;
F.得到模糊对象语言概念格→层次聚类:通过模糊对象语言概念的指引,可以获得概念所对应的层次以及簇的个数。
G.根据同个簇中已知用户的行为为未知用户推荐Top-N相应商品。
本发明将用户的语言值数据融入概念格,并求得高维空间中样本间的相似程度,提出基于模糊对象语言概念格聚类的个性化商品推荐方法。该方法不仅可以缓解层次聚类的缺陷,通过聚类原因的选择提升层次聚类的可解释性,而且可以为概念格聚类方法的概念选择与概念构造提供了指导性的意见。
附图说明
图4为本发明实施例基于层次聚类方法的外延聚类分析的结构图。
具体实施方式
以商品推荐为例,本发明的基于模糊对象语言概念格聚类的个性化商品推荐方法按照如下步骤进行:
A数据采集与预处理:
A1.设定用户的语言术语集为S={sα|α=-τ,…,-1,0,1,…,τ},当τ=1时,语言术语集S={s-1=不好,s0=一般,s1=好}用来描述用户对商品1、商品2和商品3的语言值偏好信息,分别用a,b,c表示商品1、商品2和商品3,商品集L={a,b,c},用户集U={X1,X2,X3,X4,X5}表示五个用户;
A2.收集用户Xp使用语言值sα描述商品a,b,c的语言概念则语言概念集初始化用户集U与语言概念集的模糊对象语言形式背景作为训练集,λ∈[0,1]为用户与语言概念间的信任度水平,阈值T=0.5,为用户集U到语言概念集的模糊二元关系,即 具体见表1,表2;
C1.将每一个用户作为一个单独的簇;
C2.构造用户间的相似度矩阵M:
任意两个用户Xp,Xo之间的余弦相似度如下:
其中,K(Xp,Xo)表示模糊对象Xp和Xo的高斯径向基核函数,K(Xp,Xp)表示模糊对象Xp与自身的高斯径向基核函数,K(Xo,Xo)表示模糊对象Xo与自身的高斯径向基核函数;
C3.寻找最近的两个用户,并将它们合成一个簇C。对于存在多个用户的簇C,我们可以求出簇C中所有用户在xij上的均值,确定质心ce:
C4.重复C2与C3,直至所有用户存在于一个簇中或者根据电商设定阈值停止;
当阈值h=1时,对相似度矩阵M分析可知,由于用户x2与用户x5的相似度也为1,因此初始将样本分为4个簇,即({x2,x5},{x1},{x3},{x4}),此时可以将相似度矩阵M按照阈值转化为布尔矩阵M1如下:
当阈值h=0.961时,对相似度矩阵M分析可知,由于用户x3与用户x4的相似度为0.961,因此用户x3与用户x4合为一个簇,即({x2,x5},{x1},{x3,x4}),此时可以将相似度矩阵M1按照阈值转化为布尔矩阵M2如下:
计算用户x3与用户x4的质心如下:
由此计算用户x1与ce1的相似度如下:
由于用户x1与用户x2和用户x5的相似度为0.882,因此,将用户x1与用户x2和用户x5划分为一个簇,即({x1,x2,x5},{x3},{x4});
当阈值h=0.831时,所有用户可以划分为同一个簇,即({x1,x2,x3,x4,x5}),此时可以将相似度矩阵M2按照阈值转化为布尔矩阵M3如下。
E.得到所需概念(层次聚类→模糊对象语言概念格):通过检查簇中的用户X,使其与BΔ相对应,从而得到我们所需要的簇;
F.得到所需层次(模糊对象语言概念格→层次聚类):通过模糊对象语言概念的指引,可以获得概念所对应的层次以及簇的个数。
Claims (1)
1.一种基于模糊对象语言概念格聚类的个性化商品推荐方法,按照如下步骤进行:
A用户行为数据采集与预处理:
A1.设定用户的语言术语集为S={sα|α=-τ,…,-1,0,1,…,τ},商品集为L={l1,l2,…,ln},用户集为U={X1,X2,…,Xm},所述n为商品总个数,m为用户总个数;
A2.收集用户Xp使用语言值sα描述商品lq的语言概念Xp∈U,lq∈L,语言概念集为对任意用户的语言概念偏好值集为 xij∈[0,1],,初始化用户集U与语言概念集的模糊对象语言形式背景作为商品推荐数据集,λ∈[0,1]为用户与语言概念间的信任度水平,为用户集U到语言概念集的模糊二元关系,即
B.寻找聚类原因:
C.进行层次聚类:
C1.将每一个用户作为一个单独的簇;
C2.构造用户间的相似度矩阵M:
任意两个用户Xp,Xo之间的余弦相似度如下:
其中,K(Xp,Xo)表示模糊对象Xp和Xo的高斯径向基核函数,K(Xp,Xp)表示模糊对象Xp与自身的高斯径向基核函数,K(Xo,Xo)表示模糊对象Xo与自身的高斯径向基核函数;
C3.寻找最近的两个用户,并将它们合成一个簇C;对于存在多个用户的簇C,求出簇C中所有对象在xij上的均值,确定质心ce:
C4.重复步骤C2与C3,直至所有用户存在于一个簇中或者根据电商设定阈值停止;
D.层次聚类结果与原因相对应:
E.得到层次聚类→模糊对象语言概念格:通过检查簇中的用户X,使其与BΔ相对应,从而得到电商所需要的簇;
F.得到模糊对象语言概念格→层次聚类:通过模糊对象语言概念的指引,可以获得概念所对应的层次以及簇的个数。
G.根据同个簇中已知用户的行为为未知用户推荐Top-N相应商品。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210226888.5A CN114708056A (zh) | 2022-03-08 | 2022-03-08 | 一种基于模糊对象语言概念格聚类的个性化商品推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210226888.5A CN114708056A (zh) | 2022-03-08 | 2022-03-08 | 一种基于模糊对象语言概念格聚类的个性化商品推荐方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114708056A true CN114708056A (zh) | 2022-07-05 |
Family
ID=82168907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210226888.5A Pending CN114708056A (zh) | 2022-03-08 | 2022-03-08 | 一种基于模糊对象语言概念格聚类的个性化商品推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114708056A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116756431A (zh) * | 2023-08-14 | 2023-09-15 | 西南石油大学 | 不完备形式背景下基于近似概念的信息或物品推荐方法 |
-
2022
- 2022-03-08 CN CN202210226888.5A patent/CN114708056A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116756431A (zh) * | 2023-08-14 | 2023-09-15 | 西南石油大学 | 不完备形式背景下基于近似概念的信息或物品推荐方法 |
CN116756431B (zh) * | 2023-08-14 | 2023-10-31 | 西南石油大学 | 不完备形式背景下基于近似概念的信息或物品推荐方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hssina et al. | A comparative study of decision tree ID3 and C4. 5 | |
Maillo et al. | Fast and scalable approaches to accelerate the fuzzy k-nearest neighbors classifier for big data | |
Xie et al. | Factorization machine based service recommendation on heterogeneous information networks | |
Gabbay et al. | Isolation forests and landmarking-based representations for clustering algorithm recommendation using meta-learning | |
Shaukat et al. | An analysis of blessed Friday sale at a retail store using classification models | |
Lamirel et al. | An overview of the history of Science of Science in China based on the use of bibliographic and citation data: a new method of analysis based on clustering with feature maximization and contrast graphs | |
Domingues et al. | Using contextual information from topic hierarchies to improve context-aware recommender systems | |
CN114708056A (zh) | 一种基于模糊对象语言概念格聚类的个性化商品推荐方法 | |
Xu et al. | Sample selection-based hierarchical extreme learning machine | |
Yuan et al. | Systematic investigation of keywords selection and processing strategy on search engine forecasting: A case of tourist volume in Beijing | |
Shi et al. | Topical network embedding | |
Yuan et al. | A discriminative shapelets transformation for time series classification | |
Daradkeh et al. | Lifelong machine learning for topic modeling based on hellinger distance | |
Kurniawan et al. | On machine learning technique selection for classification | |
Zhao et al. | A cost-sensitive meta-learning classifier: SPFCNN-Miner | |
Kaur | An approach for sentiment analysis using Gini index with random forest classification | |
Omar et al. | Big data cloud-based recommendation system using NLP techniques with machine and deep learning | |
Cheng et al. | BHONEM: Binary high-order network embedding methods for networked-guarantee loans | |
Wang et al. | Content-based weibo user interest recognition | |
Delianidi et al. | A graph-based method for session-based recommendations | |
He et al. | A hybrid method to measure distribution consistency of mixed-attribute datasets | |
Menendez | Clustering: finding patterns in the darkness | |
Mazid et al. | Input space reduction for rule based classification | |
Yechuri et al. | Semantic Web Mining for Analyzing Retail Environment Using Word2Vec and CNN-FK. | |
Sureja et al. | Hyper-tuned Swarm Intelligence Machine Learning-based Sentiment Analysis of Social Media |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |