CN112115129A

CN112115129A - 一种基于机器学习的零售终端样本抽样方法

Info

Publication number: CN112115129A
Application number: CN202010972202.8A
Authority: CN
Inventors: 周凯
Original assignee: Inspur Software Co Ltd
Current assignee: Inspur Software Co Ltd
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2020-12-22
Anticipated expiration: 2040-09-16
Also published as: CN112115129B

Abstract

本发明公开一种基于机器学习的零售终端样本抽样方法，涉及数据处理技术领域，其包括：采集某区域零售终端的零售户基本信息及销售数据；基于零售户的基本信息及销售数据，设定阈值，清洗去除异常零售户；根据所采集的零售户基本信息及销售数据，选取既有特征或自定义特征；基于机器学习算法，根据零售户的既有特征或自定义特征，确定样本分层数；基于零售户的销售数据，获取购进量，确定每层样本量并随机抽样得出样本列表；将清洗后的零售户划分为样本零售户组和非样本零售户组，以每一样本零售户为质心，计算同层其余零售户与该样本零售户的距离，选定多个替换样本并存储于替换样本库。本发明可以提高分层的准确性和分析的鲁棒性。

Description

一种基于机器学习的零售终端样本抽样方法

技术领域

本发明涉及数据处理技术领域，具体的说是一种基于机器学习的零售终端样本抽样方法。

背景技术

随着现代零售终端的不断发展，客户数和客户质量越来越高，利用好这些数据的价值就能得到对市场环境的清醒洞察，从而便于企业进一步有效制定营销手段、进行货品精准投放、指导现代终端客户合理布局等策略。但是零售客户众多，信息量庞大且信息内容参差不齐，分析起来较为困难，而对部分优质客户的分析便能还原出整体的市场状态，所以，如何从庞大的零售客户中选出优质样本显得尤为重要。

目前对于零售终端样本选取的方法中，大多还是使用简单随机抽样方法或分层抽样方法。使用简单随机抽样方法将会忽略样本的特殊性，存在数据代表性不足的缺点，分层抽样方法虽然弥补了简单随机抽样方法的缺点，但分层的合理性严重影响着分析结果的正确性，依然存在较大的改进空间。故需要结合样本较为全面的特征，开发一整套样本抽样与维护的方法，从而能在一个较为准确的起点开展对市场状况的分析。

发明内容

本发明为了克服现有零售终端样本抽样方法存在的数据代表性不足、分层可靠性较低等不足，提供一种基于机器学习的零售终端样本抽样方法。

本发明的一种基于机器学习的零售终端样本抽样方法，解决上述技术问题采用的技术方案如下：

一种基于机器学习的零售终端样本抽样方法，该方法包括如下内容：

S1、数据采集阶段：采集某区域零售终端的零售户基本信息及销售数据；

S2、数据清洗阶段：基于零售户的基本信息及销售数据，设定阈值，对零售户进行清洗，去除异常零售户；

S3、特征选取阶段：根据所采集的零售户基本信息及销售数据，选取既有特征或自定义特征；

S4、数据分层阶段：基于机器学习算法，根据零售户的既有特征或自定义特征，确定样本分层数；

S5、样本选取阶段：基于零售户的销售数据，获取该零售户的购进量，进而确定每层样本量并随机抽样得出样本列表；

S6、替换样本预备阶段：将经过数据清洗阶段的零售户划分为样本零售户组和非样本零售户组，以每一样本零售户为质心，计算与该样本零售户同一分层下所有零售户与该样本零售户的距离，选定多个替换样本并存储于替换样本库。

可选的，在步骤S1的数据采集阶段，

某区域的零售终端选取可支持线上销售的设备，包括但不限于电脑和手机；

零售户的基本信息及销售数据包括且不限于零售户的档位、类型、区域、销售笔数、销量、销额、期末库存、购进量各信息。

可选的，在步骤S2的数据清洗阶段，根据步骤S1采集的零售户基本信息及销售数据，对对各项销售指标设定阈值，根据设定的阈值，过滤去掉销售数据异常的零售户。

可选的，在步骤S3的特征选取阶段，

所述既有特征是基于所采集零售户基本信息及销售数据直接得到的特征数据，包括且不限于包括销量、结余库存、销售笔数、销售金额、在线时长；

所述自定义特征是基于所采集零售户基本信息及销售数据人工计算或总结得到的特征数据，包括且不限于包括存销比、扫码集中度、时间拟合度。

可选的，在步骤S4的数据分层阶段，基于K-Means算法或神经网络算法，对既有特征或自定义特征进行归一化操作，去除奇异值，加速收敛过程，确定样本分层数。

可选的，在步骤S5的样本选取阶段，将经过数据清洗阶段的零售户作为总体样本量按比例分配至各层，对各层零售户分别确定样本量，然后基于规则在每层中进行样本选取，其中，样本选取规则可采用等距随机抽样或简单随机抽样。

可选的，每个样本的替换样本须与该样本属于同一层，各样本的替换样本可以重复，但是进行替换后该替换样本不可再次替换，保证样本库的互异性。

可选的，当增加样本或进行样本替换后应与原样本列表进行对比，偏离度需满足一定误差范围。

本发明的一种基于机器学习的零售终端样本抽样方法，与现有技术相比具有的有益效果是：

本发明在考虑了异常零售户的基础上，对零售户既有维度和自定义维度选定的特征基于机器学习算法进行分层，达到科学均衡的分层分组，并且提高了分层的准确性，对每层进行样本选定，并对选定的样本预备替换样本库，提高分析的鲁棒性。

具体实施方式

为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白，以下结合具体实施例，对本发明的技术方案进行清楚、完整的描述。

实施例一：

本实施例提出一种基于机器学习的零售终端样本抽样方法，其包括数据采集、数据清洗、特征选取、数据分层、样本选取、替换样本预备六个阶段。

S1、数据采集阶段：采集某区域零售终端的零售户基本信息及销售数据。

在步骤S1的数据采集阶段，

所采集的区域可以自行选定，如华东、华中、华北等地区，也可选定山东、江苏、广西等省市；

零售终端选取可支持线上销售的设备，包括但不限于电脑和手机；

S2、数据清洗阶段：基于零售户的基本信息及销售数据，设定阈值，对零售户进行清洗，去除异常零售户。

在步骤S2的数据清洗阶段，根据步骤S1采集的零售户基本信息及销售数据，对对各项销售指标设定阈值，根据设定的阈值，过滤去掉销售数据异常的零售户。

S3、特征选取阶段：根据所采集的零售户基本信息及销售数据，选取既有特征或自定义特征。

既有特征是基于所采集零售户基本信息及销售数据直接得到的特征数据，包括且不限于包括销量、结余库存、销售笔数、销售金额、在线时长；

自定义特征是基于所采集零售户基本信息及销售数据人工计算或总结得到的特征数据，包括且不限于包括存销比、扫码集中度、时间拟合度。

S4、数据分层阶段：基于机器学习算法，根据零售户的既有特征或自定义特征，确定样本分层数。

在步骤S4的数据分层阶段，采用的机器学习算法为K-Means算法或神经网络算法，K-Means算法或神经网络算法对零售户的既有特征或自定义特征进行归一化操作，去除奇异值，并加速收敛过程，确定样本分层数。

S5、样本选取阶段：基于零售户的销售数据，获取该零售户的购进量，进而确定每层样本量并随机抽样得出样本列表。

在步骤S5的样本选取阶段，将经过数据清洗阶段的零售户作为总体样本量按比例分配至各层，对各层零售户分别确定样本量，然后基于规则在每层中进行样本选取，其中，样本选取规则可采用等距随机抽样或简单随机抽样。

在步骤S6的替换样本预备阶段，在进行样本替换时，每个样本的替换样本须与该样本属于同一层，各样本的替换样本可以重复，但是进行替换后该替换样本不可再次替换，从而保证样本库的互异性。

另外，需要注意的时，当增加样本或进行样本替换后应与原样本列表进行对比，偏离度需满足一定误差范围。

基于上述内容，本实施例结合云POS机零售终端对山东省进行年度存量分析的样本抽样实例对本发明进行详细说明。

(一)数据采集阶段：采集山东省的云POS机零售终端的零售户基本信息及销售数据，包括且不限于零售户的档位、类型、区域、销售笔数、销量、销额、期末库存、购进量各信息。

(二)数据清洗阶段：设定过滤条件，过滤去掉销售数据异常的零售户。如以存销比为例，存销比＝库存值/销量，自定义的将存销比大于3.5的期末库存设定为3.5*销量，将单号为空、商品编号为空、成本单价大于10000的销售单及入库单过滤，将1分钟内连续扫码超8笔以及单笔卷烟规格超10条的销售单过滤。

(三)特征选取阶段：根据所采集的零售户基本信息及销售数据，选取既有特征或自定义特征。既有特征包括且不限于包括销量、结余库存、销售笔数、销售金额、在线时长；自定义特征包括且不限于包括存销比、扫码集中度、时间拟合度。需要注意的是，零售户的基本信息中可能包含对自身规模及档位的划分，如“大、中、小”、“食杂店、烟酒店、超市、“便利店”等，这些描述自身规模及档位的信息应该与既有特征、自定义特征进行组合并选优，从而确定样本的最终特征。

(四)数据分层阶段：根据确定的既有特征或自定义特征，具体选择购销比、档位、区域、类型、库存值为特征的零售户进行K-Means聚类，基于代价函数进行多次迭代，得出代价函数减小幅度变弱的拐点作为样本分层数。

(五)样本选取阶段：基于零售户的销售数据，获取该零售户的购进量，进而确定每层样本量并随机抽样得出样本列表。本实施例由于零售终端对于零售户的购进量能有较准确的统计，故基于零售户购进量进行样本分层数量的确定，其中，有效零售户数量为N，在置信水平1-α的情况下，样本误差不超过

，则样本规模n可由下式表示：

其中，n为最终计算得到的应抽取样本数量；N为进行抽样计算的零售户数，此处为有效零售户数；σ²为购进量方差；

为正态分布在

处分位数；

为购进量误差量，此处用抽样误差乘以所有零售户购进量均值得出：

M_i为i层零售户数量，σ_i为i层客户购进量标准差，如此可得各分层所需样本量。最后基于样本量在各层内等距抽样得出样本列表。

(六)替换样本预备阶段：将经过数据清洗阶段的零售户划分为样本零售户组和非样本零售户组，以每一样本零售户为质心，计算与该样本零售户同一分层下所有零售户与该样本零售户的距离，选取距离最小的P个零售户作为备选样本。其中，样本中较小体量分层的零售户设置3个备选样本，中等体量分层的零售户样本设置5个备选样本，较大体量分层的零售户样本设置8个备选样本。当需要进行样本替换时，基于与样本的距离依次替换，距离越小，替换优先级越高，替换后的样本不允许重复。有时也需要进行样本新增处理，样本替换和新增后引入变异系数校验，变异系数定义为样本数据的标准差除以均值，对于较小、中等、较大体量分层的零售户样本变异系数差异需分别小于4％、6％和8％。

综上可知，采用本发明的一种基于机器学习的零售终端样本抽样方法，可以提高样本的可靠性，使得样本选取更加科学均衡，并且分层准确性更高，可以进行样本替换，提高了鲁棒性。

以上应用具体个例对本发明的原理及实施方式进行了详细阐述，这些实施例只是用于帮助理解本发明的核心技术内容。基于本发明的上述具体实施例，本技术领域的技术人员在不脱离本发明原理的前提下，对本发明所作出的任何改进和修饰，皆应落入本发明的专利保护范围。

Claims

1.一种基于机器学习的零售终端样本抽样方法，其特征在于,该方法包括如下内容：

2.根据权利要求1所述的一种基于机器学习的零售终端样本抽样方法，其特征在于，在步骤S1的数据采集阶段，

3.根据权利要求2所述的一种基于机器学习的零售终端样本抽样方法，其特征在于，在步骤S2的数据清洗阶段，根据步骤S1采集的零售户基本信息及销售数据，对对各项销售指标设定阈值，根据设定的阈值，过滤去掉销售数据异常的零售户。

4.根据权利要求3所述的一种基于机器学习的零售终端样本抽样方法，其特征在于，在步骤S3的特征选取阶段，

5.根据权利要求4所述的一种基于机器学习的零售终端样本抽样方法，其特征在于，在步骤S4的数据分层阶段，基于K-Means算法或神经网络算法，对既有特征或自定义特征进行归一化操作，去除奇异值，加速收敛过程，确定样本分层数。

6.根据权利要求5所述的一种基于机器学习的零售终端样本抽样方法，其特征在于，在步骤S5的样本选取阶段，将经过数据清洗阶段的零售户作为总体样本量按比例分配至各层，对各层零售户分别确定样本量，然后基于规则在每层中进行样本选取，其中，样本选取规则可采用等距随机抽样或简单随机抽样。

7.根据权利要求6所述的一种基于机器学习的零售终端样本抽样方法，其特征在于，每个样本的替换样本须与该样本属于同一层，各样本的替换样本可以重复，但是进行替换后该替换样本不可再次替换，保证样本库的互异性。

8.根据权利要求7所述的一种基于机器学习的零售终端样本抽样方法，其特征在于，当增加样本或进行样本替换后应与原样本列表进行对比，偏离度需满足一定误差范围。