CN112669070A

CN112669070A - 一种预测门店销售量进行拓店的方法

Info

Publication number: CN112669070A
Application number: CN202011592723.7A
Authority: CN
Inventors: 张玥; 胡军
Original assignee: Shanghai Xiaoling Network Technology Co ltd
Current assignee: Shanghai Xiaoling Network Technology Co ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-16

Abstract

本发明的一种预测门店销售量进行拓店的方法，获取目标门店列表，通过地图平台API采集相关门店原始数据，并对原始数据去重后与线下采集数据进行结合，对目标门店数据和目标门店一定区域内的门店信息和数据进行收集，对收集的数据进行处理后建立预测模型，根据预测模型预测门店销量。使用随机森林算法对数据训练和验证，并进行调参；算法会随机将有销量的数据分为训练集和验证集，预先设定好参数区间，模型会根据设定的参数区间进行梯度调参，并挑选出在训练集上表现最好的一组参数作为模型参数，可以方便快速的对模型进行训练，且前期数据采集比较简单，不需要高近似度的同类型门店作为对比，预测更加方便，结果也较为准确。

Description

一种预测门店销售量进行拓店的方法

技术领域

本发明属于门店管理技术领域，具体来说是一种预测门店销售量进行拓店的方法。

背景技术

目前来说，为了获取线下零售店的具体销量或销量范围，通常有两种方法，一种是通过人工采集数据，通常需要投入较多时间和金钱；一种是通过其他门店数据利用算法进行预测，通常需要比较大量的数据，且要求较高的店铺间相似度。

要收集如此多门店的数据需要很高的人工已经时间投入；店铺数据集质量和数量通常不足以支持根据店铺相似度使用算法预测。

发明内容

1.发明要解决的技术问题

本发明的目的在于解决现有的门店销量预测成本高且要求复杂的问题。

2.技术方案

为达到上述目的，本发明提供的技术方案为：

本发明的一种预测门店销售量进行拓店的方法，获取目标门店列表，通过地图平台API采集相关门店原始数据，并对原始数据去重后与线下采集数据进行结合，对目标门店数据和目标门店一定区域内的门店信息和数据进行收集，对收集的数据进行处理后建立预测模型，根据预测模型预测门店销量。

优选的，所述方法具体包括如下步骤：

S100、一次采集数据；

S200、一次数据整理；

S300、二次采集数据；

S400、二次数据整理；

S500、数据分析；

S600、数据线下采集；

S700、建立模型；

S800、模型预测。

优选的，所述步骤S100中，采集数据具体为根据客户提供的目标门店关键字，通过地图平台API采集相关门店原始数据，原始数据包含：门店名称、门店地址、门店所在省市区、门店经纬度。

优选的，所述步骤S200中的一次数据整理具体为整理客户提供的门店清单，根据门店名称和地址完善经纬度和省市区等信息；将客户提供门店清单与地图平台采集门店清单合并，并去重；对同一城市任意两家门店的距离进行计算，挑出距离在200米以内的门店组；通过对挑出的门店组的门店名和门店地址的重复字符进行统计，并标记；筛选门店名重复字符或门店地址重复字符占比较高的进行人工确认。

优选的，所述步骤S300中二次采集数据具体为根据步骤S200去重后的门店清单为最终清单，根据最终清单进行数据的二次采集，采集数据包括门店经纬度、门店周边1km范围内住宅、交通、商业、学校信息和门店周边2km范围内住宅、交通、商业、学校信息。

优选的，所述步骤S400中的二次数据整理具体为根据门店名称和经营类型对门店进行分类、计算门店到门店所在区中心和市中心的距离、计算门店周边2km内所有其它门店的数量。

优选的，所述步骤S500中的数据分析具体为根据步骤S400获取的信息计算门店人流量。

优选的，所述步骤S600中数据线下采集具体为根据采集门店数量，20％的数量用于采集有销量的门店，80％的数量用于采集没有销量的门店；门店筛选使用随机的方法，采集信息包含：

门店状态、门店面积、收银台数量、发水品类货架节数、沐浴露品类货架节数、牙膏品类货架节数、洗护品类货架节数、个人护理品类货架节数。

优选的，所述步骤S700中的建立模型具体为包括如下步骤：

S710、数据准备，数据准备具体分为：

对于数值型的数据，进行归一化处理，防止因为部分数据的偏差对该特征产生较大影响；

对于文本型的数据，进行one-hot-encoding，使之可以量化；

对各参数统计缺失比例，对于缺失在60％以上的参数进行丢弃；

对于缺失数值变量，根据数据集该变量的均值去进行填补；

对于缺失分类变量，根据数据集该变量的众数去进行填补；

根据客户需求，将门店销量转换为区间；

S720、建立模型；

S730、筛选数据集，对二次整理后的数据集使用K-Means算法进行聚类；计算每个数据点离自己从属的聚类中心的相对距离，并设定阈值，筛选出可训练的数据集；

S740、数据集分类，对于筛选出来的数据集，根据是否有销量标签进行二次分类，有销量的数据作为训练集和验证集，无销量的数据作为预测集；

S750、模型训练，使用随机森林算法对数据训练和验证，并进行调参；算法会随机将有销量的数据分为训练集和验证集，预先设定好参数区间，模型会根据设定的参数区间进行梯度调参，并挑选出在训练集上表现最好的一组参数作为模型参数。

优选的，所述步骤S800中的模型预测具体为用训练好的模型对其余数据进行预测，预测每个门店的销量区间并与门店清单进行匹配，选择销售预期符合要求的作为拓店对象。

3.有益效果

采用本发明提供的技术方案，与现有技术相比，具有如下有益效果：

附图说明

图1为本发明的一种预测门店销售量进行拓店的方法的流程图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述，附图中给出了本发明的若干实施例，但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例，相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

需要说明的是，当元件被称为“固设于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件；当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件；本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同；本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明；本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

实施例1

参照附图1，本实施例的一种预测门店销售量进行拓店的方法，获取目标门店列表，通过地图平台API采集相关门店原始数据，并对原始数据去重后与线下采集数据进行结合，对目标门店数据和目标门店一定区域内的门店信息和数据进行收集，对收集的数据进行处理后建立预测模型，根据预测模型预测门店销量。使用随机森林算法对数据训练和验证，并进行调参；算法会随机将有销量的数据分为训练集和验证集，预先设定好参数区间，模型会根据设定的参数区间进行梯度调参，并挑选出在训练集上表现最好的一组参数作为模型参数，可以方便快速的对模型进行训练，且前期数据采集比较简单，不需要高近似度的同类型门店作为对比，预测更加方便，结果也较为准确。

方法具体包括如下步骤：

S100、一次采集数据；

S200、一次数据整理；

S300、二次采集数据；

S400、二次数据整理；

S500、数据分析；

S600、数据线下采集；

S700、建立模型；

S800、模型预测。

所述步骤S100中，采集数据具体为根据客户提供的目标门店关键字，通过地图平台API采集相关门店原始数据，原始数据包含：门店名称、门店地址、门店所在省市区、门店经纬度。

所述步骤S200中的一次数据整理具体为整理客户提供的门店清单，根据门店名称和地址完善经纬度和省市区等信息；将客户提供门店清单与地图平台采集门店清单合并，并去重；对同一城市任意两家门店的距离进行计算，挑出距离在200米以内的门店组；通过对挑出的门店组的门店名和门店地址的重复字符进行统计，并标记；筛选门店名重复字符或门店地址重复字符占比较高的进行人工确认。

所述步骤S300中二次采集数据具体为根据步骤S200去重后的门店清单为最终清单，根据最终清单进行数据的二次采集，采集数据包括门店经纬度、门店周边1km范围内住宅、交通、商业、学校信息和门店周边2km范围内住宅、交通、商业、学校信息；具体为：

门店名称，门店地址，门店经纬度，进店人次，门店所在区中心经纬度，门店所在市中心经纬度，门店周边1km住宅区数量，门店周边2km住宅区数量，门店周边1km地铁站数量，门店周边2km地铁站数量，门店周边1km公交车站数量，门店周边2km公交车站数量，门店周边1km幼儿园和小学数量，门店周边2km幼儿园和小学数量，门店周边1km中学数量，门店周边2km中学数量，门店周边1km大学数量，门店周边2km大学数量，门店周边1km肯德基数量，门店周边2km肯德基数量，门店周边1km商业建筑数量，门店周边2km商业建筑数量。

所述步骤S400中的二次数据整理具体为根据门店名称和经营类型对门店进行分类、计算门店到门店所在区中心和市中心的距离、计算门店周边2km内所有其它门店的数量。

门店周边住宅区数量的多少直接影响门店周边的人流量；

门店周边地铁站和公交车数量的多少，意味着门店周边交通的方便与否，对于大型综合超市，周边交通方便与否直接影响该门店覆盖范围；同时周边交通方便与否也会影响周边住户的多少；

幼儿园、小学和中学，通常是住宅区的配套机构，教育机构的完善，通常意味着社区的成熟，也会影响周边住户的多少；

大学周边的门店，往往客户类型特征比较鲜明，经营品类会比较集中，管理成本和损耗成本可能会比较低；

计算门店周边2km各种门店的数量，是确认门店周边是否已形成一个成熟的商圈；门店周边其他门店变多，一方面可能会降低门店营业额，但往往也意味着周边社区的成熟。

所述步骤S500中的数据分析具体为根据步骤S400获取的信息计算门店人流量。

所述步骤S600中数据线下采集具体为根据采集门店数量，20％的数量用于采集有销量的门店，80％的数量用于采集没有销量的门店；门店筛选使用随机的方法，采集信息包含：

所述步骤S700中的建立模型具体为包括如下步骤：

S710、数据准备，数据准备具体分为：

对于文本型的数据，进行one-hot-encoding，使之可以量化；

对于缺失数值变量，根据数据集该变量的均值去进行填补；

对于缺失分类变量，根据数据集该变量的众数去进行填补；

根据客户需求，将门店销量转换为区间；

S720、建立模型；

所述步骤S800中的模型预测具体为用训练好的模型对其余数据进行预测，预测每个门店的销量区间并与门店清单进行匹配，选择销售预期符合要求的作为拓店对象。

以上所述实施例仅表达了本发明的某种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制；应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围；因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种预测门店销售量进行拓店的方法，其特征在于：获取目标门店列表，通过地图平台API采集相关门店原始数据，并对原始数据去重后与线下采集数据进行结合，对目标门店数据和目标门店一定区域内的门店信息和数据进行收集，对收集的数据进行处理后建立预测模型，根据预测模型预测门店销量。

2.根据权利要求1所述的一种预测门店销售量进行拓店的方法，其特征在于，所述方法具体包括如下步骤：

S100、一次采集数据；

S200、一次数据整理；

S300、二次采集数据；

S400、二次数据整理；

S500、数据分析；

S600、数据线下采集；

S700、建立模型；

S800、模型预测。

3.根据权利要求1所述的一种预测门店销售量进行拓店的方法，其特征在于：所述步骤S100中，采集数据具体为根据客户提供的目标门店关键字，通过地图平台API采集相关门店原始数据，原始数据包含：门店名称、门店地址、门店所在省市区、门店经纬度。

4.根据权利要求1所述的一种预测门店销售量进行拓店的方法，其特征在于：所述步骤S200中的一次数据整理具体为整理客户提供的门店清单，根据门店名称和地址完善经纬度和省市区等信息；将客户提供门店清单与地图平台采集门店清单合并，并去重；对同一城市任意两家门店的距离进行计算，挑出距离在200米以内的门店组；通过对挑出的门店组的门店名和门店地址的重复字符进行统计，并标记；筛选门店名重复字符或门店地址重复字符占比较高的进行人工确认。

5.根据权利要求4所述的一种预测门店销售量进行拓店的方法，其特征在于：所述步骤S300中二次采集数据具体为根据步骤S200去重后的门店清单为最终清单，根据最终清单进行数据的二次采集，采集数据包括门店经纬度、门店周边1km范围内住宅、交通、商业、学校信息和门店周边2km范围内住宅、交通、商业、学校信息。

6.根据权利要求2所述的一种预测门店销售量进行拓店的方法，其特征在于：所述步骤S400中的二次数据整理具体为根据门店名称和经营类型对门店进行分类、计算门店到门店所在区中心和市中心的距离、计算门店周边2km内所有其它门店的数量。

7.根据权利要求6所述的一种预测门店销售量进行拓店的方法，其特征在于：所述步骤S500中的数据分析具体为根据步骤S400获取的信息计算门店人流量。

8.根据权利要求2所述的一种预测门店销售量进行拓店的方法，其特征在于：所述步骤S600中数据线下采集具体为根据采集门店数量，20％的数量用于采集有销量的门店，80％的数量用于采集没有销量的门店；门店筛选使用随机的方法，采集信息包含：

9.根据权利要求2所述的一种预测门店销售量进行拓店的方法，其特征在于，所述步骤S700中的建立模型具体为包括如下步骤：

S710、数据准备，数据准备具体分为：

对于文本型的数据，进行one-hot-encoding，使之可以量化；

对于缺失数值变量，根据数据集该变量的均值去进行填补；

对于缺失分类变量，根据数据集该变量的众数去进行填补；

根据客户需求，将门店销量转换为区间；

S720、建立模型；

10.根据权利要求9所述的一种预测门店销售量进行拓店的方法，其特征在于：所述步骤S800中的模型预测具体为用训练好的模型对其余数据进行预测，预测每个门店的销量区间并与门店清单进行匹配，选择销售预期符合要求的作为拓店对象。