CN107103488B - 基于协同过滤算法和聚类算法的卷烟消费研判方法 - Google Patents

基于协同过滤算法和聚类算法的卷烟消费研判方法 Download PDF

Info

Publication number
CN107103488B
CN107103488B CN201710121176.6A CN201710121176A CN107103488B CN 107103488 B CN107103488 B CN 107103488B CN 201710121176 A CN201710121176 A CN 201710121176A CN 107103488 B CN107103488 B CN 107103488B
Authority
CN
China
Prior art keywords
consumer
cigarette
characteristic
algorithm
preference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710121176.6A
Other languages
English (en)
Other versions
CN107103488A (zh
Inventor
茅斯佳
苏建康
李剑
强韶军
李霓彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Company Jiangsu Tobacco Co ltd
Original Assignee
Changzhou Company Jiangsu Tobacco Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Company Jiangsu Tobacco Co ltd filed Critical Changzhou Company Jiangsu Tobacco Co ltd
Priority to CN201710121176.6A priority Critical patent/CN107103488B/zh
Publication of CN107103488A publication Critical patent/CN107103488A/zh
Application granted granted Critical
Publication of CN107103488B publication Critical patent/CN107103488B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于协同过滤算法和聚类算法的卷烟消费研判方法,包括以下步骤:1)样本采集;采集样本消费者对卷烟各品规的偏好度;2)特征采集:选取多个用户特征信息的特征值构建消费者特征向量,得到消费者特征矩阵;选取多个商品特征信息的特征值构建卷烟特征向量,得到卷烟特征矩阵;3)聚类:运用K‑means++算法对消费者和卷烟进行聚类;4)计算偏好度:通过协同过滤算法获得消费者对各品规卷烟的偏好度。本发明运用K‑means++算法将消费者和卷烟聚类,再运用协同过滤算法的思想对某消费者对某卷烟的偏好度进行测算,进而通过样本消费者的偏好度,预测个体消费者的消费需求。

Description

基于协同过滤算法和聚类算法的卷烟消费研判方法
技术领域
本发明涉及烟草销售领域,尤其是一种基于协同过滤算法和K-means++聚类算法相结合的的卷烟消费研判方法,以对个体消费者的消费需求进行研判。
背景技术
卷烟具有价值性和危害性并存的“双重属性”,这决定了烟草行业必须施行国家烟草专卖制度。但是经济与社会的发展,烟草行业的市场化要求不断提高,计划与市场的天平不断向市场倾斜。为了更加真实把握市场需求,生产更加适销对路的产品,进行更加科学的货源投放,国家局战略性地提出了开展市场需求预测工作。从2003年以来,需求预测探索的步伐从未间断,企业对需求预测重要性的认识不断加深,需求预测准确率不断提高。需求预测已成为真实把握市场,灵敏反应市场的重要工具,在工业企业生产、商业企业满足市场的过程中发挥着越来越重要作用。通过对创新卷烟市场需求预测的研究,进一步提高卷烟市场需求预测水平,从而推动“按需组织货源”的市场化进程。
卷烟商品市场需求预测是烟草企业营销活动的重要一环。之前的需求预测大多集中在区域消费总量的研判,缺乏对个体消费者的需求研判;之前的需求预测是全品规总量的预测,缺少对分品牌分品规需求的预测;之前的需求研判是基于历史销售数据的研判,缺少对未来多变消费环境的适变能力。目前,国内在卷烟产品个体消费者需求预测方法方面的研究甚少。所以,研究一种简便、快捷、真实、公平、低成本的能够从消费者层面,获取消费者对卷烟产品接受程度的反馈信息的方法,已成为同领域技术人员关注的问题。
发明内容
本发明要解决的技术问题是:提出一种基于协同过滤算法和聚类算法的卷烟消费研判方法,通过对消费者信息和商品信息的挖掘,利用邻居集合的卷烟偏好,对个体消费者进行需求研判。
本发明所采用的技术方案为:一种基于协同过滤算法和聚类算法的卷烟消费研判方法,包括以下步骤:
1)样本采集;通过样本消费者的浏览记录、点赞情况、查询频繁度、购买记录以及注册时填报的卷烟偏好,获得样本消费者对卷烟各品规的偏好度;
2)特征采集:选取多个用户特征信息的特征值构建消费者特征向量,得到消费者特征矩阵;选取多个商品特征信息的特征值构建卷烟特征向量,得到卷烟特征矩阵;
3)聚类:运用K-means++算法分别对样本消费者和卷烟进行聚类,并计算各类类中心的偏好度;
4)相似度计算:根据所聚消费者类别,计算目标消费者和所属类中心的相似度;根据所聚卷烟类别,计算目标卷烟品规和所属类中心的相似度;
5)偏好度计算:基于协同过滤思想,计算user-based的偏好度和item-based的偏好度,整合两种路径所得的偏好度,得到需求研判值。
进一步的说,本发明所述的步骤3)中,通过K-means++聚类算法对消费者和卷烟进行聚类的步骤包括:
A、先从输入的数据点集合中随机选择一个点作为第一聚类中心;
B、对于数据集中的每一个点,计算它与最近聚类中心的距离D(x);
C、选择另一个新的数据点作为新的聚类中心;
D、重复步骤B和步骤C,直到k个中心被选择出来;
E、利用这k个初始的聚类中心来运行标准的k-means算法。
再进一步的说,本发明所述的步骤4)中,计算研判目标与所属类中心的相似度,运用余弦距离计算公式,计算研判目标与所属类中心的距离,以距离大小推测相似度大小。
再进一步的说,本发明所述的步骤5)中,根据协同过滤中user-based思想,结合计算所得相似度,计算目标消费者对目标品规user-based偏好度;根据协同过滤中item-based思想,结合计算所得相似度,计算目标消费者对目标品规item-based偏好度。
本发明的有益效果是:通过将协同过滤算法和K-means++聚类算法相结合,运用K-means++的方法将消费者和卷烟聚类,再运用协同过滤算法的思想对某消费者对某卷烟的偏好度进行两种算法的测算,整合两种算法所得的偏好度,进而通过目标消费者的偏好度预测目标消费者的消费需求。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是本发明的原理流程框图。
具体实施方式
现在结合附图和优选实施例对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
如图1所示的一种基于协同过滤算法和聚类算法的卷烟消费研判方法,具体包括以下步骤:
第一步,使用卷烟消费者APP,通过消费者浏览记录、点赞情况、查询频繁度、购买记录以及注册时填报的卷烟偏好,计算样本卷烟消费者(用i表示)对各品规(用j表示)的偏好度,即Rij=(ri1,ri2,…,rij,…);
第二步,采集用户特征信息,选取p个特征值构建消费者特征向量,本实施例中即为消费者特征矩阵USERi=(Ui1,Ui2,…Uip);
第三步,汇总商品特征信息,选取q个特征值构建卷烟特征向量,本实施例中即为卷烟特征矩阵ITEMj=(Ij1,Ij2,…Ijq);
第四步,运用K-means++算法对消费者和卷烟进行聚类,消费者聚集成X个类,卷烟聚集成Y个类,对每个类中的每位消费者的特征值取平均,可得第x类消费者类中心偏好度为:
Rcx=Average(Rij)=(rcx_1,rcx_2,…,rcx_j,…)
对每个类中的每个品规的特征值取平均,可得第y类卷烟类中心偏好度为:
Rcy=Average(Rij)=(rcy_1,rcy_2,…,rcy_i,…)
第五步,计算类中每位个体消费者i和消费者类中心Ci的距离Ki,其中Ci=(Ci1,Ci2,…,Cip)。根据余弦距离计算公式,可得Ki:
Figure BDA0001237094320000041
第六步,计算类中每种个体卷烟j和卷烟类中心Cj的距离Kj,其中Cj=(Cj1,Cj2,…,Cjq)。
根据余弦距离计算公式,可得Kj:
Figure BDA0001237094320000042
第七步,根据协同过滤中user-based的思想,某未知偏好消费者的商品偏好情况,可由其所属类中心的品规偏好情况,结合该目标消费者与类中心的相似度计算得到。由第四步和第五步所得数据,计算第i个消费者对所有卷烟的user-based rating值为:
rijub=rcx_j×Ki
即Rijub=(ri1ub,ri2ub,…,rijub,…)
=(rcx_1×Ki,rcx_2×Ki,…,rcx_j×Ki,…)
第八步,根据协同过滤中item-based的思想,由第四步和第六步所得数据,计算所有消费者对第j个卷烟的item-based rating值为:
rijib=rcy_i×Kj
即Rijib=(ri1ib,ri2ib,…,rijib,…)
=(rcy_1×Kj,rcy_2×Kj,…,rcy_j×Kj,…)
第九步,将根据user-based和item-based计算的rating值求平均,得到某消费者i对某品规卷烟j的偏好程度为:
Figure BDA0001237094320000051
据此,可将rij看作是消费者i对品规卷烟j需求的研判值。最后,结合投放总量,可求出需求绝对量的研判值。
以上说明书中描述的只是本发明的具体实施方式,各种举例说明不对本发明的实质内容构成限制,所属技术领域的普通技术人员在阅读了说明书后可以对以前所述的具体实施方式做修改或变形,而不背离本发明的实质和范围。

Claims (1)

1.一种基于协同过滤算法和聚类算法的卷烟消费研判方法,其特征在于包括以下步骤:
1)样本采集;通过样本消费者的浏览记录、点赞情况、查询频繁度、购买记录以及注册时填报的卷烟偏好,获得样本消费者对卷烟各品规的偏好度;
2)特征采集:选取多个用户特征信息的特征值构建消费者特征向量,得到消费者特征矩阵;选取多个商品特征信息的特征值构建卷烟特征向量,得到卷烟特征矩阵;
3)聚类:运用K-means++算法分别对样本消费者和卷烟进行聚类,并计算各类类中心的偏好度;
步骤包括:
A、先从输入的数据点集合中随机选择一个点作为第一聚类中心;
B、对于数据集中的每一个点,计算它与最近聚类中心的距离D(x);
C、选择另一个新的数据点作为新的聚类中心;原则是:D(x)较大的点,被选取作为聚类中心的概率较大;
D、重复步骤B和步骤C,直到k个中心被选择出来;
E、利用这k个初始的聚类中心来运行标准的k-means算法;
4)相似度计算:根据所聚消费者类别,运用余弦距离计算公式,计算目标消费者与所属类中心的距离,以距离大小获得目标消费者与所属类中心的相似度大小;根据所聚卷烟类别,运用余弦距离计算公式,计算目标卷烟品规与所属类中心的距离,以距离大小获得目标卷烟品规与所属类中心的相似度大小;
5)偏好度计算:根据协同过滤中user-based思想,结合计算所得相似度,计算目标消费者对目标品规user-based偏好度;根据协同过滤中item-based思想,结合计算所得相似度,计算目标消费者对目标品规item-based偏好度;
将根据user-based和item-based计算的偏好度求平均,得到某消费者i对某品规卷烟j的偏好程度rij,据此,rij是消费者i对品规卷烟j需求的研判值。
CN201710121176.6A 2017-03-02 2017-03-02 基于协同过滤算法和聚类算法的卷烟消费研判方法 Active CN107103488B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710121176.6A CN107103488B (zh) 2017-03-02 2017-03-02 基于协同过滤算法和聚类算法的卷烟消费研判方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710121176.6A CN107103488B (zh) 2017-03-02 2017-03-02 基于协同过滤算法和聚类算法的卷烟消费研判方法

Publications (2)

Publication Number Publication Date
CN107103488A CN107103488A (zh) 2017-08-29
CN107103488B true CN107103488B (zh) 2021-05-18

Family

ID=59675518

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710121176.6A Active CN107103488B (zh) 2017-03-02 2017-03-02 基于协同过滤算法和聚类算法的卷烟消费研判方法

Country Status (1)

Country Link
CN (1) CN107103488B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109345318B (zh) * 2018-10-29 2021-06-25 南京大学 一种基于dtw-lasso-谱聚类的消费者聚类方法
CN111275459A (zh) * 2020-01-20 2020-06-12 山东烟草研究院有限公司 一种基于消费者建模的卷烟品牌推荐算法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609523A (zh) * 2012-02-10 2012-07-25 上海视畅信息科技有限公司 基于物品分类和用户分类的协同过滤推荐算法
CN102780920A (zh) * 2011-07-05 2012-11-14 上海奂讯通信安装工程有限公司 电视节目推荐方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6389372B1 (en) * 1999-06-29 2002-05-14 Xerox Corporation System and method for bootstrapping a collaborative filtering system
CN102968506A (zh) * 2012-12-14 2013-03-13 北京理工大学 一种基于扩展特征向量的个性化协同过滤推荐方法
CN103412948B (zh) * 2013-08-27 2017-10-24 北京交通大学 基于聚类的协同过滤的商品推荐方法及系统
CN104298772A (zh) * 2014-10-29 2015-01-21 吴健 一种优化近邻选择的协同过滤推荐方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102780920A (zh) * 2011-07-05 2012-11-14 上海奂讯通信安装工程有限公司 电视节目推荐方法及系统
CN102609523A (zh) * 2012-02-10 2012-07-25 上海视畅信息科技有限公司 基于物品分类和用户分类的协同过滤推荐算法

Also Published As

Publication number Publication date
CN107103488A (zh) 2017-08-29

Similar Documents

Publication Publication Date Title
Lin et al. Mining of skyline patterns by considering both frequent and utility constraints
Han et al. Category role aided market segmentation approach to convenience store chain category management
CN106600302A (zh) 基于Hadoop的商品推荐系统
CN103886001A (zh) 一种个性化商品推荐系统
CN104951446A (zh) 大数据处理方法及平台
CN109859004A (zh) 一种基于历史数据的商品推荐方法及系统
Yang et al. SMAA-PO: project portfolio optimization problems based on stochastic multicriteria acceptability analysis
CN103995882A (zh) 基于MapReduce的概率频繁项集挖掘方法
JP2017536604A5 (zh)
Meng et al. Intelligent salary benchmarking for talent recruitment: A holistic matrix factorization approach
CN109767032A (zh) 一种基于数据分析的企业财务运营数字化管理优化系统
Hemalatha Market basket analysis–a data mining application in Indian retailing
Tamilselvi et al. An overview of data mining techniques and applications
CN107103488B (zh) 基于协同过滤算法和聚类算法的卷烟消费研判方法
CN106846088A (zh) 一种快消品电商网站的商品推荐方法
Guo et al. A consumer behavior prediction model based on multivariate real-time sequence analysis
CN108694234A (zh) 一种基于改进协同过滤算法的服务推荐模型
CN114723535A (zh) 一种基于供应链与知识图谱的物品推荐方法、设备及介质
Yu Precision Marketing Optimization Model of e-Commerce Platform Based on Collaborative Filtering Algorithm
CN102231158B (zh) 一种数据集推荐方法和系统
CN104462480B (zh) 基于典型性的评论大数据挖掘方法
WO2009006028A2 (en) Explaining changes in measures thru data mining
Parikh et al. E-Commerce recommendation system usingAssociation rule mining and clustering
Wang et al. Feature fusion recommendation algorithm based on collaborative filtering
CN109583712B (zh) 一种数据指标分析方法及装置、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant