CN112381559A - 一种基于非监督机器学习算法的烟草零售商细分方法 - Google Patents

一种基于非监督机器学习算法的烟草零售商细分方法 Download PDF

Info

Publication number
CN112381559A
CN112381559A CN202011094537.0A CN202011094537A CN112381559A CN 112381559 A CN112381559 A CN 112381559A CN 202011094537 A CN202011094537 A CN 202011094537A CN 112381559 A CN112381559 A CN 112381559A
Authority
CN
China
Prior art keywords
model
tobacco
retailer
machine learning
learning algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011094537.0A
Other languages
English (en)
Inventor
孔繁博
高冉
耿云涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Co Ltd
Original Assignee
Inspur Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Co Ltd filed Critical Inspur Software Co Ltd
Priority to CN202011094537.0A priority Critical patent/CN112381559A/zh
Publication of CN112381559A publication Critical patent/CN112381559A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明特别涉及一种基于非监督机器学习算法的烟草零售商细分方法。该基于非监督机器学习算法的烟草零售商细分方法,利用非监督性机器学习算法,根据烟草市场的特点建立聚类任务模型,将烟草零售商的相关指标作为模型的读取指标,对模型进行训练得到优化模型,最终优化模型根据训练数据的相关指标,自动判别零售商的归属类别,从而实现对烟草零售商的细分。基于非监督机器学习算法的烟草零售商细分方法,通过运用机器学习等大数据解决方案,为地市烟草局提供了科学有效的烟草零售商的分类管理方法,解决了各地市烟草零售商的规模参差不齐,数量庞大,难以有效分类管理的瓶颈。

Description

一种基于非监督机器学习算法的烟草零售商细分方法
技术领域
本发明涉及机器学习与数据挖掘技术领域,特别涉及一种基于非监督机器学习算法的烟草零售商细分方法。
背景技术
在当下的烟草市场中,由于各地市零售商的规模参差不齐,数量且非常的庞大,以及各地市零售商所销售烟草品牌和规格都存在一定的差异,这些因素给各地市烟草局在管理零售商方面带来诸多的挑战。
根据传统经验,地市烟草局通常根据零售商的地域分布或者其他相对片面的单一属性进行分类管理。但是,采用这种传统的方式进行划分和管理零售商,在一定程度上忽略了零售商的其他重要属性和信息。
为了解决解决各地市烟草零售商的规模参差不齐,数量庞大,难以有效分类管理的瓶颈,本发明提出了一种基于非监督机器学习算法的烟草零售商细分方法。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的基于非监督机器学习算法的烟草零售商细分方法。
本发明是通过如下技术方案实现的:
一种基于非监督机器学习算法的烟草零售商细分方法,其特征在于:利用非监督性机器学习算法,根据烟草市场的特点建立聚类任务模型,将烟草零售商的相关指标作为模型的读取指标,对模型进行训练得到优化模型,最终优化模型根据训练数据的相关指标,自动判别零售商的归属类别,从而实现对烟草零售商的细分。
该基于非监督机器学习算法的烟草零售商细分方法,具体包括以下步骤:
第一步、数据获取
根据实际零售户情况添加任务到平台中为模型后期添加训练数据集,先选择规定零售商的存在销售记录的时间范围及入网日期,再选择参与聚类任务的指标,即用户期望根据哪些影响指标来为零售商进行细分归类;
第二步、数据预处理
根据第一步中用户所添加的参与聚类任务的指标自动从数据库抓取满足条件的零售客户的指标数据;
第三步、模型训练
调用大数据平台中的分布式计算引擎Spark对经过预处理后的零售户的指标数据进行处理,构建聚类任务模型,并利用零售户数据对聚类任务模型进行训练,使之趋于稳定;
第四步、模型结果展示
利用大数据平台分布计算引擎Spark将训练后的聚类任务模型的计算结果作为最优值返回插入到集群数据库中,采用散点图来展现聚类任务模型对零售户档位计算的分布情况。
所述第一步中,针对烟草市场为卷烟指标构建权重参数,用户能够针对特定参与训练的指标的重要性进行合理安排指标权重。
为了适应烟草市场零售户规模参差不齐的问题,所述第一步中,引入切夫雪比不等式的方法通过构建离群参考系数的概念来优化模型。
所述第二步中,构建离群模型系数;针对获得的零售商数据,聚类任务模型自动将零售户数据分为离群极值零售户和非离群极值零售户。
所述第二步中,将非离群极值零售户的每一个指标进行数据标准化预处理,标准化后的训练数据再次根据用户添加的任务指标权重进行指标加权预处理。
所述聚类任务模型使用聚类分析方法中的k-means(k-均值)算法来计算零售户的分类标签,首先将非离群极值零售户的指标数据参与算法训练,聚类任务模型趋于稳定后,将离群极值零售户的指标数据作为特殊值再次整合并参与到稳定后的聚类任务模型中,配合离群模型系数即可观察离群极值零售户在不同情况下的模拟分类结果,从而实现对聚类任务模型细分结果的调整。
对所述聚类任务模型的计算结果,即零售户的分类标签,进行排序,将高档位的标签赋予给高销售量的零售户。
本发明的有益效果是:该基于非监督机器学习算法的烟草零售商细分方法,通过运用机器学习等大数据解决方案,为地市烟草局提供了科学有效的烟草零售商的分类管理方法,解决了各地市烟草零售商的规模参差不齐,数量庞大,难以有效分类管理的瓶颈。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1为本发明基于非监督机器学习算法的烟草零售商细分方法示意图。
具体实施方式
为了使本技术领域的人员更好的理解本发明中的技术方案,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚,完整的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
非监督类型的机器学习技术中的聚类分析方法在目前市场领域中多用于处理顾客细分问题,可以有效的解决客户在分类问题中忽略参考其他重要信息的问题。如果仅仅将机器学习算法简单的应用到烟草零售商分类问题中,即无法实际解决例如烟草零售商规模参差不齐,烟草市场中评价指标权重不同等针对烟草市场特殊存在的业务问题。当务之急是根据国内烟草市场的特殊需求和瓶颈,利用当下现有的大数据,机器学习等技术构建符合烟草市场要求的聚类任务分析模型。
该基于非监督机器学习算法的烟草零售商细分方法,利用非监督性机器学习算法,根据烟草市场的特点建立聚类任务模型,将烟草零售商的相关指标作为模型的读取指标,对模型进行训练得到优化模型,最终优化模型根据训练数据的相关指标,自动判别零售商的归属类别,从而实现对烟草零售商的细分。
该基于非监督机器学习算法的烟草零售商细分方法,具体包括以下步骤:
第一步、数据获取
根据实际零售户情况添加任务到平台中为模型后期添加训练数据集,先选择规定零售商的存在销售记录的时间范围及入网日期,再选择参与聚类任务的指标,即用户期望根据哪些影响指标来为零售商进行细分归类;
目前常用的指标为零售商特定时间范围内的月均销售量与月均销售额数据,算法支持多达10个指标参与模型训练,用户可以自由选择参与训练的模型指标。
所述第一步中,针对烟草市场为卷烟指标构建权重参数,用户能够针对特定参与训练的指标的重要性进行合理安排指标权重。
为了适应烟草市场零售户规模参差不齐的问题,所述第一步中,引入切夫雪比不等式的方法通过构建离群参考系数的概念来优化模型。
第二步、数据预处理
根据第一步中用户所添加的参与聚类任务的指标自动从数据库抓取满足条件的零售客户的指标数据;
与传统聚类算法不同的地方是,所述第二步中,构建离群模型系数;针对获得的零售商数据,聚类任务模型自动将零售户数据分为离群极值零售户和非离群极值零售户。
所述第二步中,将非离群极值零售户的每一个指标进行数据标准化预处理,标准化后的训练数据再次根据用户添加的任务指标权重进行指标加权预处理。
由于在预处理环节对零售户数据的离群极值问题经过特殊优化,所以聚类任务模型的计算结果相对稳定,并且通常计算结果零售户档位中的零售户数量呈金字塔形式分布,该结果得到了烟草市场的一致认同。该零售户分档方式实现了烟草市场对零售户的管理初衷,同时也提高了分类模型自身的可解释性。
第三步、模型训练
调用大数据平台中的分布式计算引擎Spark对经过预处理后的零售户的指标数据进行处理,构建聚类任务模型,并利用零售户数据对聚类任务模型进行训练,使之趋于稳定;
传统kmeans算法对分类结果具有不稳定的,无法实现微调的弊端,即当数据中存在较大或较小的极值时候,kmeans算法在迭代初期选择的支心由于是随机的缘故,导致算法的最终分类结果非常不稳定。针对此问题,所述聚类任务模型使用聚类分析方法中的k-means(k-均值)算法来计算零售户的分类标签,首先将非离群极值零售户的指标数据参与算法训练,聚类任务模型趋于稳定后,将离群极值零售户的指标数据作为特殊值再次整合并参与到稳定后的聚类任务模型中,配合离群模型系数即可观察离群极值零售户在不同情况下的模拟分类结果,从而实现对聚类任务模型细分结果的调整。
传统kmeans算法对训练数据所得到的分类标签是无序并且计算结果的可解释性相对较低,对所述聚类任务模型的计算结果,即零售户的分类标签,进行排序,将高档位的标签赋予给高销售量的零售户。
第四步、模型结果展示
利用大数据平台分布计算引擎Spark将训练后的聚类任务模型的计算结果作为最优K值返回插入到集群数据库中;
采用散点图来展现聚类任务模型对零售户档位计算的分布情况。因为散点图可以有效的展示数值型数据的分布,并且因为每个不同分类档位的零售户被使用不同颜色进行标准,散点图可以在一定程度上直观的反映模型自身的有效性。
以上所述的实施例,只是本发明具体实施方式的一种,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (8)

1.一种基于非监督机器学习算法的烟草零售商细分方法,其特征在于:利用非监督性机器学习算法,根据烟草市场的特点建立聚类任务模型,将烟草零售商的相关指标作为模型的读取指标,对模型进行训练得到优化模型,最终优化模型根据训练数据的相关指标,自动判别零售商的归属类别,从而实现对烟草零售商的细分。
2.根据权利要求1所述的基于非监督机器学习算法的烟草零售商细分方法,其特征在于,具体包括以下步骤:
第一步、数据获取
根据实际零售户情况添加任务到平台中为模型后期添加训练数据集,先选择规定零售商的存在销售记录的时间范围及入网日期,再选择参与聚类任务的指标,即用户期望根据哪些影响指标来为零售商进行细分归类;
第二步、数据预处理
根据第一步中用户所添加的参与聚类任务的指标自动从数据库抓取满足条件的零售客户的指标数据;
第三步、模型训练
调用大数据平台中的分布式计算引擎Spark对经过预处理后的零售户的指标数据进行处理,构建聚类任务模型,并利用零售户数据对聚类任务模型进行训练,使之趋于稳定;
第四步、模型结果展示
利用大数据平台分布计算引擎Spark将训练后的聚类任务模型的计算结果作为最优值返回插入到集群数据库中,采用散点图来展现聚类任务模型对零售户档位计算的分布情况。
3.根据权利要求2所述的基于非监督机器学习算法的烟草零售商细分方法,其特征在于:所述第一步中,针对烟草市场为卷烟指标构建权重参数,用户能够针对特定参与训练的指标的重要性进行合理安排指标权重。
4.根据权利要求3所述的基于非监督机器学习算法的烟草零售商细分方法,其特征在于:为了适应烟草市场零售户规模参差不齐的问题,所述第一步中,引入切夫雪比不等式的方法通过构建离群参考系数的概念来优化模型。
5.根据权利要求4所述的基于非监督机器学习算法的烟草零售商细分方法,其特征在于:所述第二步中,构建离群模型系数;针对获得的零售商数据,聚类任务模型自动将零售户数据分为离群极值零售户和非离群极值零售户。
6.根据权利要求5所述的基于非监督机器学习算法的烟草零售商细分方法,其特征在于:所述第二步中,将非离群极值零售户的每一个指标进行数据标准化预处理,标准化后的训练数据再次根据用户添加的任务指标权重进行指标加权预处理。
7.根据权利要求6所述的基于非监督机器学习算法的烟草零售商细分方法,其特征在于:所述聚类任务模型使用聚类分析方法中的k-means算法来计算零售户的分类标签,首先将非离群极值零售户的指标数据参与算法训练,聚类任务模型趋于稳定后,将离群极值零售户的指标数据作为特殊值再次整合并参与到稳定后的聚类任务模型中,配合离群模型系数即可观察离群极值零售户在不同情况下的模拟分类结果,从而实现对聚类任务模型细分结果的调整。
8.根据权利要求7所述的基于非监督机器学习算法的烟草零售商细分方法,其特征在于:对所述聚类任务模型的计算结果,即零售户的分类标签,进行排序,将高档位的标签赋予给高销售量的零售户。
CN202011094537.0A 2020-10-14 2020-10-14 一种基于非监督机器学习算法的烟草零售商细分方法 Pending CN112381559A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011094537.0A CN112381559A (zh) 2020-10-14 2020-10-14 一种基于非监督机器学习算法的烟草零售商细分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011094537.0A CN112381559A (zh) 2020-10-14 2020-10-14 一种基于非监督机器学习算法的烟草零售商细分方法

Publications (1)

Publication Number Publication Date
CN112381559A true CN112381559A (zh) 2021-02-19

Family

ID=74581433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011094537.0A Pending CN112381559A (zh) 2020-10-14 2020-10-14 一种基于非监督机器学习算法的烟草零售商细分方法

Country Status (1)

Country Link
CN (1) CN112381559A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408626A (zh) * 2021-06-22 2021-09-17 浙江省烟草公司宁波市公司 商户分类方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104883278A (zh) * 2014-09-28 2015-09-02 北京匡恩网络科技有限责任公司 一种利用机器学习对网络设备进行分类的方法
CN106779835A (zh) * 2016-12-12 2017-05-31 章哲成 一种基于零售户的卷烟品牌市场竞争力测定方法
CN107256332A (zh) * 2017-05-24 2017-10-17 上海交通大学 基于眼动数据的脑电实验评估系统及方法
CN107423742A (zh) * 2016-05-23 2017-12-01 中兴通讯股份有限公司 人群流量的确定方法及装置
CN109657712A (zh) * 2018-12-11 2019-04-19 浙江工业大学 一种基于Spark改进的K-Means算法的电商餐饮数据分析方法
CN109993582A (zh) * 2019-04-01 2019-07-09 东北大学 一种基于rfmca模型的多指标客户细分方法
CN110866782A (zh) * 2019-11-06 2020-03-06 中国农业大学 一种客户分类方法、系统以及电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104883278A (zh) * 2014-09-28 2015-09-02 北京匡恩网络科技有限责任公司 一种利用机器学习对网络设备进行分类的方法
CN107423742A (zh) * 2016-05-23 2017-12-01 中兴通讯股份有限公司 人群流量的确定方法及装置
CN106779835A (zh) * 2016-12-12 2017-05-31 章哲成 一种基于零售户的卷烟品牌市场竞争力测定方法
CN107256332A (zh) * 2017-05-24 2017-10-17 上海交通大学 基于眼动数据的脑电实验评估系统及方法
CN109657712A (zh) * 2018-12-11 2019-04-19 浙江工业大学 一种基于Spark改进的K-Means算法的电商餐饮数据分析方法
CN109993582A (zh) * 2019-04-01 2019-07-09 东北大学 一种基于rfmca模型的多指标客户细分方法
CN110866782A (zh) * 2019-11-06 2020-03-06 中国农业大学 一种客户分类方法、系统以及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
庞夫星: "基于聚类分析的烟草行业客户细分研究", 《中国优秀硕士学位论文全文数据库 经济与管理科学辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408626A (zh) * 2021-06-22 2021-09-17 浙江省烟草公司宁波市公司 商户分类方法

Similar Documents

Publication Publication Date Title
Stummer et al. Innovation diffusion of repeat purchase products in a competitive market: An agent-based simulation approach
AU2010202163B2 (en) System and method for top-down performance optimization using elasticity modeling
CN111178624B (zh) 一种新产品需求预测的方法
US20140129298A1 (en) System and Method for Multi-Dimensional Average-Weighted Banding Status and Scoring
CN109377260A (zh) 面向服装行业的用户行为分析系统
CN106504029A (zh) 一种基于客户群体行为分析的加油站销量预测方法
US20030097292A1 (en) System and method for stability analysis of profitability of target markets for goods or services
Sánchez-Pérez et al. You’re the only one, or simply the best. Hotels differentiation, competition, agglomeration, and pricing
CN109300039A (zh) 基于人工智能和大数据进行智能产品推荐的方法及系统
Yilmaz et al. Synthetic demand data generation for individual electricity consumers: Generative Adversarial Networks (GANs)
CN110826886A (zh) 一种基于聚类算法和主成分分析的电力客户画像构建方法
CN111986027A (zh) 基于人工智能的异常交易处理方法、装置
Sun et al. Using improved RFM model to classify consumer in big data environment
CN116739217A (zh) 一种基于供应链大数据平台的零售管理方法及系统
CN112381559A (zh) 一种基于非监督机器学习算法的烟草零售商细分方法
Yang et al. Modelling the emergence of spatial patterns of economic activity
CN113988945A (zh) 一种面向多维数据趋势精准营销的管理系统
Alexiou et al. The geography of online retail behaviour
CN113469598A (zh) 智慧供应链系统及服务器平台
Yue et al. Peer effects of income in consumption
CN110532266A (zh) 一种数据处理的方法和装置
CN112232945B (zh) 一种确定个人客户授信的方法及装置
CN114723503A (zh) 一种基于产业链数据的市场分析方法及系统
CN109299971B (zh) 一种随机分布下的最优面包供货方法及系统
Kooreman et al. A discrete choice model with social interactions: an analysis of high school teen behavior

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210219

RJ01 Rejection of invention patent application after publication