CN107122390B - 基于用户群组的推荐系统构建方法 - Google Patents

基于用户群组的推荐系统构建方法 Download PDF

Info

Publication number
CN107122390B
CN107122390B CN201710125609.5A CN201710125609A CN107122390B CN 107122390 B CN107122390 B CN 107122390B CN 201710125609 A CN201710125609 A CN 201710125609A CN 107122390 B CN107122390 B CN 107122390B
Authority
CN
China
Prior art keywords
user
attribute
users
data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710125609.5A
Other languages
English (en)
Other versions
CN107122390A (zh
Inventor
朱素平
张玮
唐志燕
杨弢
刘晓敏
袁媛
曹晓光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wasu Media & Network Co ltd
Original Assignee
Wasu Media & Network Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wasu Media & Network Co ltd filed Critical Wasu Media & Network Co ltd
Priority to CN201710125609.5A priority Critical patent/CN107122390B/zh
Publication of CN107122390A publication Critical patent/CN107122390A/zh
Application granted granted Critical
Publication of CN107122390B publication Critical patent/CN107122390B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了基于用户群组的推荐系统构建方法,具体包括如下步骤:101)数据划分步骤:对用户各类数据进行分类;102)组内分类步骤:在步骤101)后,对用户所属的类别集合中的每一个用户使用决策树进行进一步分类;103)推荐栏目步骤:根据步骤101)的类别和步骤102)的分类,使用基于用户的协同过滤方法,向用户推荐栏目;本发明提供了一种设计合理,推送精准的基于用户群组的推荐系统构建方法。

Description

基于用户群组的推荐系统构建方法
技术领域
本发明涉及互联网电视节目领域,更具体的说,它涉及用于基于用户群组的推荐系统构建方法。
背景技术
目前的推荐包括基于内容的推荐、协同过滤推荐(基于用户的协同过滤推荐和基于项目的协同过滤推荐)。基于内容的推荐可以很好的解决冷启动的问题并且兼顾内容本身的属性,向用户推荐其感兴趣的相似内容;协同过滤推荐利用集体智慧的方法向用户推荐产品。但由于用户具有社区性,具有明显地趋同性,目前在广电行业急需进行基于群组的推荐产品,来提高用户的体验。
发明内容
本发明克服了现有技术的不足,提供了一种处理效率高,具有社区性,明显地趋同性的基于用户群组的推荐系统构建方法,从而更符合现在用户的体验的需求。
本发明的技术方案如下:
基于用户群组的推荐系统构建方法,具体包括如下步骤:
101)数据划分步骤:对用户属性特征数据采用Kmeans方法进行聚类划分用户所属类别,得到用户所属的类别集合,根据用户的栏目点播详单、栏目表、评分表来划分出用户的栏目点播偏好集,根据用户的点播详单、评分表来划分出用户资产点播偏好集;所述Kmeans是通过不断地取离种子点最近均值的方法来获取数据的聚集;
102)组内分类步骤:在步骤101)后,对用户所属的类别集合中的每一个用户,结合用户的栏目点播偏好集,使用决策树对用户所属的类别进行进一步分类;
103)推荐栏目步骤:根据步骤101)对聚类划分用户所属类别和步骤102)分类后用户进一步的分组类别,使用基于用户的协同过滤方法,向用户推荐栏目,所述栏目会兼顾栏目和资产的归属关系,依据步骤102)中的用户的栏目点播偏好集对推荐的资产集进行组内重排。
进一步的,所述步骤101)中Kmeans方法具体包括如下步骤:
201)选取聚类质心点步骤:随机选择9个聚类质心点为{ctk1,ctk2,…,ctk9};
202)用户归类步骤:对每一个用户属性特征数据进行判定其应该属于的类,判定公式(a)如下:
Figure BDA0001238435830000021
其中:=符号是用后面的内容的式子来定义前面的标识,ct(i)代表样本与9个类中最近的那个类,ct(i)是9个类中的一个,ctkj为质心点,所述质心点是对属于同一个类的样本中心点的猜测;
203)重新确定质心点步骤:根据步骤202)对于每一个聚类质心进行重新计算具体公式(b):
Figure BDA0001238435830000022
其中j标识为所要计算的具体质心点,其中k表示用户数,即样本数;
重新计算后,回到步骤202),直到收敛,即质心不再发生变化而结束。
进一步的,所述步骤102)中决策树的具体步骤如下:
301)获取信息增益的步骤:通过如下公式(c)获得栏目点播偏好集中所有属性划分数据集D所得的信息增益;
Figure BDA0001238435830000031
其中A为某一属性,设置A有k各不同的值,则使用属性A可将数据集D划分为{S1,S2,…,Sk};pi(i=1,2,…,m)表示第i个类别属性在样本中出现的频率;Gain(A)表示使用属性A进行划分前后的信息熵的变化,Entropy(D)表示按照类标签对训练数据集D进行划分得到的信息熵,EntropyA(D)表示按照属性A对D进行划分,得到的信息熵;
302)分裂信息和信息增益率步骤:根据步骤301)得到的数据,再使用如下公式计算各个属性的分裂信息公式(d)和信息增益率公式(e);
Figure BDA0001238435830000033
Figure BDA0001238435830000034
其中Split(A)表示分裂信息,是用来衡量属性A用来分裂数据的广度和均匀程度;GainRatio(A)表示信息增益率,Gain(A)表示使用属性A进行划分前后的信息熵的变化;
303)选择分裂节点步骤:根据步骤302)选择出信息增益率取值最大的属性作为分裂节点;
304)确定决策树步骤:反复递归调用步骤301)、步骤302)、步骤303),获得不同的分裂节点,最终获得决策树。
进一步的,所述步骤103)的用户的协同过滤方法具体步骤如下:
401)获取相似度步骤:使用余弦相似度方法来获取用户的相似度,具体公式(f):
Figure BDA0001238435830000041
对于给定的用户u和v,N(u)表示用户u感兴趣的商品集合,N(v)表示用户v感兴趣的商品集合;
402)推荐产品步骤:根据如下公式(g)来获取用户最感兴趣的topN产品,并推送给用户:
Figure BDA0001238435830000042
其中p(u,i)表示用户u对物品i的感兴趣程度,S(u,K)表示和用户u兴趣最接近的K个用户,N(i)表示对物品i有过行为的用户集合,wuv表示用户u和用户v的兴趣相似度,rvi表示用户v对物品i的感兴趣程度。
进一步的,所述组内重排,为优先推荐其所属栏目偏好的资产,然后再按照喜好程度进行降序排列。
本发明相比现有技术优点在于:本发明设计合理,推送精准。通过Kmeans方法进行聚类,产生了具有社区性,明显地趋同性的分组类别。本发明使用信息增益、分裂信息和信息增益率来提高过得的决策树的合理性,并通过协同过滤推荐来使用户获得更据针对性的节目单。
附图说明
图1为本发明基于用户群组的推荐系统构建方法的处理流程图。
具体实施方式
下面通过具体实施例,并结合附图,对本发明的技术方案作进一步的具体说明。应当理解,本发明的实施并不局限于下面的实施例,对本发明所做的任何形式上的变通和/或改变都将落入本发明保护范围。
如图1所示,基于用户群组的推荐系统构建方法,主要涉及的数据包括用户属性特征集U={u1,u2,…,uk},栏目点播偏好集T={t1,t2,…,tm},用户资产点播偏好集Item={it1,it2,…,itp}。用户属性特征集从用户画像表中抽取相关维度,主要包括入网账龄、设备使用年限、用户年龄、信用额度、投诉等级、咨询等级等;栏目点播偏好集主要从用户的栏目点播详单以及栏目表、评分表进行计算后得出;用户资产点播偏好集主要从用户的点播详单、评分表进行计算后得出。
具体处理包括如下步骤:
101)数据划分步骤:对用户属性特征集U={u1,u2,…,uk}采用Kmeans方法进行聚类划分用户所属类别,主要分为9组类别,从而得到用户所属的类别集合Cluster={ct0,ct1,…,ct8},根据用户的栏目点播详单、栏目表、评分表来划分出用户的栏目点播偏好集,根据用户的点播详单、评分表来划分出用户资产点播偏好集。其中所述Kmeans是通过不断地取离种子点最近均值的方法来获取数据的聚集。所述Kmeans达到输入:用户属性特征集U={u1,u2,…,uk};就能输出:聚类后的类标集合Cluster={ct1,ct2,…,ct9}。所述Kmeans方法具体包括如下步骤:
201)选取聚类质心点步骤:随机选择9个聚类质心点为{ctk1,ctk2,…,ctk9};
202)用户归类步骤:对每一个用户属性特征数据进行判定其应该属于的类,判定公式(a)如下:
Figure BDA0001238435830000051
其中:=符号是用后面的内容的式子来定义前面的标识,ct(i)代表样本与9个类中最近的那个类,ct(i)是9个类中的一个,ctkj为质心点,所述质心点是对属于同一个类的样本中心点的猜测;
203)重新确定质心点步骤:根据步骤202)对于每一个聚类质心进行重新计算具体公式(b):
Figure BDA0001238435830000061
其中j标识为所要计算的具体质心点,其中k表示用户数,即样本数;回到步骤202),直到收敛即质心不再发生变化而结束,输出聚类后的类标集合Cluster={ct1,ct2,…,ct9}。
102)组内分类步骤:在步骤101)后,对用户所属的类别集合即对cti(cti∈Cluster)中的每一个用户,结合用户资产点播偏好集,使用决策树对用户所属的类别进行进一步分类,得到Classifier={cf0,cf1,…,cf8}。
所述决策树的具体步骤如下:
301)获取信息增益的步骤:通过如下公式(c)获得所有属性划分数据集D所得的信息增益;
Figure BDA0001238435830000062
其中A为某一属性,设置A有k各不同的值,则使用属性A可将数据集D划分为{S1,S2,…,Sk};pi(i=1,2,…,m)表示第i个类别属性在样本中出现的频率;Gain(A)表示使用属性A进行划分前后的信息熵的变化,Entropy(D)表示按照类标签对训练数据集D进行划分得到的信息熵,EntropyA(D)表示按照属性A对D进行划分,得到的信息熵;
302)分裂信息和信息增益率步骤:根据步骤301)得到的数据,再使用如下公式计算各个属性的分裂信息公式(d)和信息增益率公式(e);
Figure BDA0001238435830000064
Figure BDA0001238435830000071
其中Split(A)表示分裂信息,是用来衡量属性A用来分裂数据的广度和均匀程度;GainRatio(A)表示信息增益率,Gain(A)表示使用属性A进行划分前后的信息熵的变化;
303)选择分裂节点步骤:根据步骤302)选择出信息增益率取值最大的属性作为分裂节点;
304)确定决策树步骤:反复递归调用步骤301)、步骤302)、步骤303),获得不同的分裂节点,最终获得决策树。
103)推荐栏目步骤:根据步骤101)对聚类划分用户所属类别和步骤102)分类后用户进一步的分组类别(cti,cfj)(i=0,1,…,8;j=0,1,…,8),其中cti∈Cluster;cfj∈Classifier,使用基于用户的协同过滤方法,向用户推荐top10栏目,则最终向每个用户推荐的资产集为CFR={cfr1,cfr2,…,cfr10};所述栏目会兼顾栏目和资产的归属关系,依据步骤102)中的用户资产点播偏好集对推荐的资产集进行组内重排,即为优先推荐其所属栏目偏好的资产,然后再按照喜好程度进行降序排列。
所述用户的协同过滤方法具体步骤如下:
401)获取相似度步骤:使用余弦相似度方法来获取用户的相似度,具体公式(f):
Figure BDA0001238435830000072
对于给定的用户u和v,N(u)表示用户u感兴趣的商品集合,N(v)表示用户v感兴趣的商品集合;
402)推荐产品步骤:根据如下公式(g)来获取用户最感兴趣的topN产品,并推送给用户:
Figure BDA0001238435830000081
其中p(u,i)表示用户u对物品i的感兴趣程度,S(u,K)表示和用户u兴趣最接近的K个用户,N(i)表示对物品i有过行为的用户集合,wuv表示用户u和用户v的兴趣相似度,rvi表示用户v对物品i的感兴趣程度。
以上所述的实施例只是本发明的一种较佳的方案,并非对本发明作任何形式上的限制,在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

Claims (1)

1.基于用户群组的推荐系统构建方法,其特征在于,具体包括如下步骤:
101)数据划分步骤:对用户属性特征数据采用Kmeans方法进行聚类划分用户所属类别,得到用户所属的类别集合,根据用户的栏目点播详单、栏目表、评分表来划分出用户的栏目点播偏好集,根据用户的点播详单、评分表来划分出用户资产点播偏好集;所述Kmeans是通过不断地取离种子点最近均值的方法来获取数据的聚集;
102)组内分类步骤:在步骤101)后,对用户所属的类别集合中的每一个用户,结合用户的栏目点播偏好集,使用决策树对用户所属的类别进行进一步分类;
103)推荐栏目步骤:根据步骤101)对聚类划分用户所属类别和步骤102)分类后用户进一步的分组类别,使用基于用户的协同过滤方法,向用户推荐栏目,所述栏目会兼顾栏目和资产的归属关系,依据步骤102)中的用户的栏目点播偏好集对推荐的资产集进行组内重排;
所述步骤101)中Kmeans方法具体包括如下步骤:
201)选取聚类质心点步骤:随机选择9个聚类质心点为{ctk1,ctk2,…,ctk9};
202)用户归类步骤:对每一个用户属性特征数据进行判定其应该属于的类,判定公式(a)如下:
Figure FDA0002543376640000011
其中:=符号是用后面的内容的式子来定义前面的标识,ct(i)代表样本与9个类中最近的那个类,ct(i)是9个类中的一个,ctkj为质心点,所述质心点是对属于同一个类的样本中心点的猜测;
203)重新确定质心点步骤:根据步骤202)对于每一个聚类质心进行重新计算具体公式(b):
Figure FDA0002543376640000021
其中j标识为所要计算的具体质心点,其中k表示用户数,即样本数;
重新计算后,回到步骤202),直到收敛,即质心不再发生变化而结束;
所述步骤102)中决策树的具体步骤如下:
301)获取信息增益的步骤:通过如下公式(c)获得栏目点播偏好集中所有属性划分数据集D所得的信息增益;
Figure FDA0002543376640000022
其中A为某一属性,设置A有k个 不同的值,则使用属性A可将数据集D划分为{S1,S2,…,Sk};pi(i=1,2,…,m)表示第i个类别属性在样本中出现的频率;Gain(A)表示使用属性A进行划分前后的信息熵的变化,Entropy(D)表示按照类标签对训练数据集D进行划分得到的信息熵,EntropyA(D)表示按照属性A对D进行划分,得到的信息熵;
302)分裂信息和信息增益率步骤:根据步骤301)得到的数据,再使用如下公式计算各个属性的分裂信息公式(d)和信息增益率公式(e);
Figure FDA0002543376640000023
Figure FDA0002543376640000024
其中Split(A)表示分裂信息,是用来衡量属性A用来分裂数据的广度和均匀程度;GainRatio(A)表示信息增益率,Gain(A)表示使用属性A进行划分前后的信息熵的变化;
303)选择分裂节点步骤:根据步骤302)选择出信息增益率取值最大的属性作为分裂节点;
304)确定决策树步骤:反复递归调用步骤301)、步骤302)、步骤303),获得不同的分裂节点,最终获得决策树;
所述步骤103)的用户的协同过滤方法具体步骤如下:
401)获取相似度步骤:使用余弦相似度方法来获取用户的相似度,具体公式(f):
Figure FDA0002543376640000031
对于给定的用户u和v,N(u)表示用户u感兴趣的商品集合,N(v)表示用户v感兴趣的商品集合;
402)推荐产品步骤:根据如下公式(g)来获取用户最感兴趣的topN产品,并推送给用户:
Figure FDA0002543376640000032
其中p(u,i)表示用户u对物品i的感兴趣程度,S(u,K)表示和用户u兴趣最接近的K个用户,N(i)表示对物品i有过行为的用户集合,wuv表示用户u和用户v的兴趣相似度,rvi表示用户v对物品i的感兴趣程度;
所述组内重排,为优先推荐其所属栏目偏好的资产,然后再按照喜好程度进行降序排列。
CN201710125609.5A 2017-03-04 2017-03-04 基于用户群组的推荐系统构建方法 Active CN107122390B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710125609.5A CN107122390B (zh) 2017-03-04 2017-03-04 基于用户群组的推荐系统构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710125609.5A CN107122390B (zh) 2017-03-04 2017-03-04 基于用户群组的推荐系统构建方法

Publications (2)

Publication Number Publication Date
CN107122390A CN107122390A (zh) 2017-09-01
CN107122390B true CN107122390B (zh) 2020-09-25

Family

ID=59717931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710125609.5A Active CN107122390B (zh) 2017-03-04 2017-03-04 基于用户群组的推荐系统构建方法

Country Status (1)

Country Link
CN (1) CN107122390B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107622326B (zh) * 2017-09-13 2021-02-09 创新先进技术有限公司 用户分类、可用资源预测方法、装置及设备
CN107818344B (zh) * 2017-10-31 2020-01-07 深圳壹账通智能科技有限公司 用户行为进行分类和预测的方法和系统
CN108109089A (zh) * 2017-12-15 2018-06-01 华中师范大学 一种教育可计算方法
CN108681581A (zh) * 2018-05-11 2018-10-19 重庆工商职业学院 一种就业数据的协同过滤方法及系统
CN108961071B (zh) * 2018-06-01 2023-07-21 中国平安人寿保险股份有限公司 自动预测组合业务收益的方法及终端设备
CN110457557A (zh) * 2019-07-29 2019-11-15 甘肃梦农物联网科技有限公司 一种自动标记行为数据的智慧城市网络管理方法
CN110807527B (zh) * 2019-09-30 2023-11-14 北京淇瑀信息科技有限公司 一种基于客群筛选的额度调整方法、装置和电子设备
CN112348583B (zh) * 2020-11-04 2022-12-06 贝壳技术有限公司 用户偏好生成方法与生成系统
CN114154079A (zh) * 2021-12-06 2022-03-08 中电万维信息技术有限责任公司 一种融合置信度的信任影响群组推荐方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070239554A1 (en) * 2006-03-16 2007-10-11 Microsoft Corporation Cluster-based scalable collaborative filtering
CN101535944A (zh) * 2005-08-15 2009-09-16 谷歌公司 基于集的相似性的可扩展用户聚类
CN103886003A (zh) * 2013-09-22 2014-06-25 天津思博科科技发展有限公司 一种协同过滤处理器
CN106228398A (zh) * 2016-07-20 2016-12-14 武汉斗鱼网络科技有限公司 基于c4.5决策树算法的特定用户挖掘系统及其方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101535944A (zh) * 2005-08-15 2009-09-16 谷歌公司 基于集的相似性的可扩展用户聚类
US20070239554A1 (en) * 2006-03-16 2007-10-11 Microsoft Corporation Cluster-based scalable collaborative filtering
CN103886003A (zh) * 2013-09-22 2014-06-25 天津思博科科技发展有限公司 一种协同过滤处理器
CN106228398A (zh) * 2016-07-20 2016-12-14 武汉斗鱼网络科技有限公司 基于c4.5决策树算法的特定用户挖掘系统及其方法

Also Published As

Publication number Publication date
CN107122390A (zh) 2017-09-01

Similar Documents

Publication Publication Date Title
CN107122390B (zh) 基于用户群组的推荐系统构建方法
Kumar et al. A movie recommender system: Movrec
KR100997541B1 (ko) 신상품 추천문제 해결을 위한 내용기반 필터링과 협업 필터링을 혼합한 사용자 프로파일 기반 이미지 추천 방법 및 장치
US20090259606A1 (en) Diversified, self-organizing map system and method
US20090287687A1 (en) System and method for recommending venues and events of interest to a user
CN104731958B (zh) 一种面向用户需求倾向的云制造服务推荐方法
Selke et al. Pushing the boundaries of crowd-enabled databases with query-driven schema expansion
US8903822B2 (en) Apparatus and method for measuring contents similarity based on feedback information of ranked user and computer readable recording medium storing program thereof
CN103559622A (zh) 基于特征的协同过滤推荐方法
CN107590232B (zh) 一种基于网络学习环境的资源推荐系统及方法
US10387915B2 (en) Digital magazine recommendations by topic
CN104866554B (zh) 一种基于社会化标注的个性化搜索方法及系统
CN104572982B (zh) 基于问题引导的个性化推荐方法及系统
US8838435B2 (en) Communication processing
CN108334592A (zh) 一种基于内容与协同过滤相结合的个性化推荐方法
CN107895303B (zh) 一种基于ocean模型的个性化推荐的方法
CN108629010A (zh) 一种基于主题和服务组合信息的web服务推荐方法
Bahamonde et al. Power structure in Chilean news media
CN107016589A (zh) 推荐产品的确定方法及装置
CN102521420A (zh) 基于偏好模型的社会化过滤方法
Gupta et al. A framework for a recommendation system based on collaborative filtering and demographics
CN111914079A (zh) 一种基于用户标签的话题推荐方法及系统
CN108920647A (zh) 基于谱聚类的低秩矩阵填充top-n推荐方法
Nasery et al. Polimovie: a feature-based dataset for recommender systems
CN108647985B (zh) 一种物品推荐方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant