CN113538021A

CN113538021A - 一种商场门店存续预测机器学习算法

Info

Publication number: CN113538021A
Application number: CN202010272542.XA
Authority: CN
Inventors: 王泽铭; 徐辰晨; 孙文龙; 王盛; 张函; 柏林森
Original assignee: Shanghai Bingsheng Technology Co ltd
Current assignee: Shanghai Bingsheng Technology Co ltd
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2021-10-22
Anticipated expiration: 2040-04-09
Also published as: CN113538021B

Abstract

本发明公开了一种，一种商场门店存续预测机器学习算法，包括如下步骤：1)采集数据；2)原始数据和数据处理；3)指标计算算法；4)评价标准；5)模型训练；6)结果分析；7)总结。本发明属于商场门店存续预测技术领域，具体是一种商场门店存续预测机器学习算法，通过建立了一个基于商场大数据的机器学习框架，用以预测商场中门店存续情况，从而辅助商场经营者进行科学合理的决策；基于商场大数据，使用数据驱动的方式自动生成门店存续预测，此方式可以简化门店评价体系，并且有利于弱化甚至最终消除商场经营者主观判断带来的偏差；相对于简单的对指标的排序，机器学习算法能够综合门店各项经营指标，将F1‑score提高14.8％。

Description

一种商场门店存续预测机器学习算法

技术领域

本发明属于商场门店存续预测技术领域，具体是指一种商场门店存续预测机器学习算法。

背景技术

目前，大多数商场在经营过程中可以采集每个门店的客流、销售额、租金、门店面积、是否继续经营等数据，但是这些数据并没有得到充分地利用，例如，购物商场在选择租户、调整租金、优化场内业态分布、以及优化店铺位置时，往往是依照商场经营者以往的经营经验来进行决策。依据人的经营经验进行的决策可能会在经营者经验不足或者有个人利益冲突时造成决策偏差，从而对商场的经营造成不利的影响。

发明内容

针对上述情况，为克服现有技术的缺陷，本发明提供一种商场门店存续预测机器学习算法，通过建立了一个基于商场大数据的机器学习框架，用以预测商场中门店存续情况，从而辅助商场经营者进行科学合理的决策；基于商场大数据，使用数据驱动的方式自动生成门店存续预测，此方式可以简化门店评价体系，并且有利于弱化甚至最终消除商场经营者主观判断带来的偏差；相对于简单的对指标的排序，机器学习算法能够综合门店各项经营指标，将F1-score提高14.8％。

本发明采取的技术方案如下：本发明一种商场门店存续预测机器学习算法，包括如下步骤：

1)采集数据：采集每个门店的客流、销售额、租金、门店面积、门店续存等数据；

2)原始数据和数据处理：将采集的数据进行记录；

其中，如果门店数据在历经一个月以上的时间跨度后还未录入系统，那么门店续存就为否，即关店；在原始数据里，会遇到缺失某些天的销售额、客流等数据的情况，所以在数据处理中，我们使用已有的销售额、客流，通过时间序列算法预测该天的销售额、客流，并进行记录；

3)指标计算算法：使用步骤2中记录的数据计算出4个商场经营中的重要指标，根据上述计算方法，我们可以得到今年售租比、去年售租比、今年客租比、去年客租比、销售增长率、客流增长率，再加上去年平均日销售额、今年平均日销售额、今年平均日客流、去年平均日客流，共有10个指标；

4)评价标准：为了衡量算法预测的准确度，我们使用了精确率、召回率、和F1-score这三个标准；

精确率用以预测关店的样本中有多少是真正关店的样本，其定义为：

其中，P为精确率，TP表示将真正关店样本预测为关店，FP表示将未关店样本预测为关店；

召回率R是真正关店的样本中有多少是预测关店的样本，其定义为：

其中，TP表示将真正关店样本预测为关店，FP表示将真正关店样本预测为开店；

人们通常使用精确率P和召回率R这两个指标，来评价二分类模型的分析效果，但是当这两个指标发生冲突时，我们很难在模型之间进行比较，F1-score是统计学中用来衡量二分类模型精确度的一种指标，是精确率和召回率的调和平均数，兼顾了分类模型的精确率和召回率，精确率和召回率较小的那个将会决定F1-score结果，即具有短板效应，可以避免出现一个指标过高而另外一个指标过低的情况，因此主要使用F1-score作为评价指标的定义为：

5)模型训练：选取20组数据分别进行划分，随机选取70％作为训练集，30％作为测试集，根据10个指标分别利用逻辑回归、SVM、随机森林、xgboost、GBDT五种机器学习算法在训练集进行训练，同时在测试集上查看召回率、精确率和F1-score；我们利用Python的第三方模块Sklearn和xgboost对逻辑回归、SVM、随机森林、GBDT、xgboost五种算法进行训练，此外，在各种模型中，还有许多参数(比如随机森林中的决策树个数)需要设定，且参数的设定对模型的结果起至关重要的作用，因此我们通过Sklearn中的GridSearchCV网格搜索寻找每个模型的最优参数；

6)结果分析：通过对销售额增长率、客流增长率、售租比等指标进行由小到大进行排序，可以用来预测门店存续情况，根据20家广场的每年平均换店率，我们将13％选取为预测关店的比率，这里将这一系列对指标排序来进行预测的算法统称为排序算法；对于机器学习算法，我们采用多次随机试验的平均结果来反映模型的效果，我们重复20次模型训练过程，并将测试集上面的精确率、召回率F1-score求平均，与使用单一指标预测存续进行比较；

7)总结：我们提出的一种商场门店存续预测机器学习算法，在这个算法中，输入的特征为商场门店近两年的销售额、租金、客流、面积、以及门店存续情况，测试了使用逻辑回归、SVM、随机森林、xgboost、GBDT五种机器学习算法来预测门店存续状况，与使用单一指标预测存续相比，xgboost、GBDT、随机森林的精确率较高，逻辑回归、SVM、随机森林的召回率较高，综合来看随机森林的效果最好，对于机器学习算法而言，不同特征之间可能存在强关联，接下来可以考虑采取特征工程进行降维，现有样本在应用机器学习算法时，存在样本不平均问题，可以考虑使用过采样、欠采样等方法解决。

进一步地，步骤3)所述的重要指标为销售额增长率、客流增长率、售租比和客租比。

进一步地，步骤3)所述的销售额增长率为今年平均日销售额与去年平均日销售额的差除以去年平均日销售额。

进一步地，步骤3)所述的售租比为平均日销售额除以日租金。

进一步地，步骤3)所述的售租比为平均日客流除以日租金。

采用上述结构本发明取得的有益效果如下：本方案一种商场门店存续预测机器学习算法，通过建立了一个基于商场大数据的机器学习框架，用以预测商场中门店存续情况，从而辅助商场经营者进行科学合理的决策；基于商场大数据，使用数据驱动的方式自动生成门店存续预测，此方式可以简化门店评价体系，并且有利于弱化甚至最终消除商场经营者主观判断带来的偏差；相对于简单的对指标的排序，机器学习算法能够综合门店各项经营指标，将F1-score提高14.8％。

附图说明

图1为本发明商场门店存续预测机器学习算法的学习框架。

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明商场门店存续预测机器学习算法，本发明一种商场门店存续预测机器学习算法，包括如下步骤：

2)原始数据和数据处理：将采集的数据进行记录；

步骤3)所述的重要指标为销售额增长率、客流增长率、售租比和客租比。

步骤3)所述的销售额增长率为今年平均日销售额与去年平均日销售额的差除以去年平均日销售额。

步骤3)所述的售租比为平均日销售额除以日租金。

步骤3)所述的售租比为平均日客流除以日租金。

实施例1

本发明商场门店存续预测机器学习算法，本发明一种商场门店存续预测机器学习算法，包括如下步骤：

2)原始数据和数据处理：原始数据来自于10个省市20个广场约5000个门店的经营面积、租金、销售和客流数据(见表1)，如果门店数据在历经一个月以上的时间跨度后还未录入系统，那么该门店就被标记为关店；

表1:门店数据样例

在原始数据里，会遇到缺失某些天的销售、客流等数据的情况。所以在数据处理中，我们使用已有的销售、客流数据，通过时间序列算法预测该天的销售、客流，并在上表中补齐；

3)指标计算算法：使用表1中的门店销售额、客流、面积、租金等基础数据，我们计算了4个商场经营中的重要指标，分别是：

销售增长率：今年平均日销售与去年平均日销售的差除以去年平均日销售；

客流增长率：今年平均日客流与去年平均日客流的差除以去年平均日客流；

售租比：售租比是平均日销售除以日租金；

客租比：售租比是平均日客流除以日租金；

根据上述计算方法，我们可以得到今年售租比、去年售租比、今年客租比、去年客租比、销售增长率、客流增长率，再加上去年平均日销售、今年平均日销售、今年平均日客流、去年平均日客流，共有10个指标；

人们通常使用精确率P和召回率R这两个指标，来评价二分类模型的分析效果，但是当这两个指标发生冲突时，我们很难在模型之间进行比较，F1-score是统计学中用来衡量二分类模型精确度的一种指标，是精确率和召回率的调和平均数，兼顾了分类模型的精确率和召回率，精确率和召回率较小的那个将会决定F1-score结果，即具有短板效应，可以避免出现一个指标过高而另外一个指标过低的情况，因此主要使用F1-score作为评价指标，的定义为：

6)结果分析：通过对销售额增长率、客流增长率、售租比等指标进行由小到大进行排序，可以用来预测门店存续情况，根据20家广场的每年平均换店率，我们将13％选取为预测关店的比率，这里将这一系列对指标排序来进行预测的算法统称为排序算法；对于机器学习算法，我们采用多次随机试验的平均结果来反映模型的效果，我们重复20次模型训练过程，并将测试集上面的精确率、召回率F1-score求平均，与使用单一指标预测存续进行比较，结果如表2所示：

表2:各种算法的精确率、召回率、F1-Score

其中*表示排序算法中的各项指标最大值，^表示机器学习算法中各项指标的最大值。从表2中可以发现，SVM的F1-score仅为10％左右，且精确率过低，因此不考虑用SVM算法进行存续预测。xgboost和GBDT的F1-score在26％左右，略高于单独使用平均得分和客流增长率。二者相比之下，xgboost的精确率较高，GBDT的召回率较高，综合来看这两种算法的效果较好，但是和随机森林相比有一定差距。逻辑回归和随机森林的F1-score均超过使用单一指标预测存续的结果，但是逻辑回归更加偏重召回率。相比之下随机森林较好地平衡了精确率和召回率的关系，且精确率，召回率，F1-score均超过使用单一指标排序预测存续的结果，因此综合来看随机森林的效果最好。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

以上对本发明及其实施方式进行了描述，这种描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.一种商场门店存续预测机器学习算法，其特征在于，包括如下步骤：

2)原始数据和数据处理：将采集的数据进行记录；

2.根据权利要求1所述的一种商场门店存续预测机器学习算法，其特征在于，步骤3)所述的重要指标为销售额增长率、客流增长率、售租比和客租比。

3.根据权利要求1所述的一种商场门店存续预测机器学习算法，其特征在于，步骤3)所述的销售额增长率为今年平均日销售额与去年平均日销售额的差除以去年平均日销售额。

4.根据权利要求1所述的一种商场门店存续预测机器学习算法，其特征在于，步骤3)所述的售租比为平均日销售额除以日租金。

5.根据权利要求1所述的一种商场门店存续预测机器学习算法，其特征在于，步骤3)所述的售租比为平均日客流除以日租金。