CN114169933A

CN114169933A - 基于多维数据的门店智能选址推荐方法及系统

Info

Publication number: CN114169933A
Application number: CN202111501258.6A
Authority: CN
Inventors: 沈秋英; 曹骏; 张文韬; 朱静怡; 庄文兵; 刘柳; 张恒超; 王之阳; 王波; 曲照言; 王聪
Original assignee: Suzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Current assignee: Suzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2022-03-11

Abstract

基于多维数据的门店智能选址推荐方法及系统，通过采集构建指标所需要的数据并对数据进行清洗融合，构建企业选址指标并根据所采集数据为每个指标赋值，构建机器学习模型以及在训练机器学习模型后，输入需要被判定的用电场所GIS地理数据以及其对应的指标数据，反复进行迭代直到前后两次输出的概率值相差在所设定阈值以内得到最终选址结果。本方法使用了区域内完整的电力大数据，以及市场公开全量的第三方数据作为融合，可以对相同客群的品牌门店进行跨地域，多点的横向比较，解决机器学习中样本不足问题，量化选址策略，大大提升选址效率，节约企业选址成本与人工成本。

Description

基于多维数据的门店智能选址推荐方法及系统

技术领域

本发明属于电力大数据处理技术领域，具体涉及基于多维数据的门店智能选址推荐方法及系统。

背景技术

一个好的选址，是线下门店运营成功的第一步。目前企业普遍通过选址经理线下走访考察，人为收集信息。这种方式效率低，精准度不高，而且收集成本高昂。最后收集的信息经过专家打分评估，决策团队只能靠主观意义判断，试错成本高。针对选址场景重点关注的人流量、消费能力、同业竞品分析、租金成本、行业生态和区位交通等指标，行业缺少有效，权威的数据做支撑。而电力数据具有可信度高、时效性强、连续性好、覆盖面广等特点，通过与工商、GIS区位交通和配套等数据进行深度融合，在企业经营选址决策方面有巨大的潜力。

企业前期的选址更多的是一种试错和积累的过程，需要定期复盘，推演哪家门店位置选得好，好在哪里，哪家门店位置选的不好，哪里不好。通过不断的复盘，内化企业选址能力，逐渐找到企业最适合的选址逻辑。理论上，有相同客群的品牌门店在位置上也会趋同，就像麦当劳的周边大概率会有肯德基一样。

发明内容

为解决现有技术中存在的不足，本发明的目的在于，提供基于多维数据的门店智能选址推荐方法及系统。

本发明采用如下的技术方案：

基于多维数据的门店智能选址推荐方法，包括以下步骤：

步骤1，采集门店选址指标所需要的数据并对数据进行清洗融合；

步骤2，根据步骤2采集的数据构建企业选址指标并根据所采集数据为每个指标赋值；

步骤3，构建机器学习模型；

步骤4，对步骤3构建的机器学习模型进行训练后，输入需要被判定的用电场所GIS地理数据以及其对应的指标数据，反复进行迭代直到前后两次输出的概率值相差在所设定阈值以内得到最终选址结果。

在步骤1中，构建指标所需要的数据包括电力数据、工商数据、用电场所GIS地理数据和其他数据；电力数据包括企业账户数量、居民账户数量、月度用电量、正常用电入住标识；

工商数据包括企业名称、成立时间、企业经营状态、所属行业，所属产业；企业经营状态包括存续、在业、吊销、注销、迁入、迁出、停业、清算；

所选取的企业均为营业时间超过2年的企业；

用电场所GIS地理数据包括用电企业GIS地理数据、用电办公地GIS地理数据、用电居住地GIS地理数据、所选区域内小区数量、交通，医院配套数量；

其他数据包括用电场所楼价数据、用电场所租金信息。

在步骤2中，所构建的指标包括“人流量”、“消费能力”、“用工成本”、“租金成本”、“同业店面数量”、“写字楼数量”、“小区数量”、“交通”、“基础设施”、“环保要求”以及“选址效果”；

“人流量”：指在所选择用电场所GIS地理数据范围内1天内每平方米的人口密度平均值；当人流量大于10为高；5-9为中；小于5为低；

“消费能力”：指在所选择用电场所GIS地理数据范围内24小时内用电地区每个用户花费的电费；大于50元为高，25-49元为中，小于25元为低；

“用工成本”：指在所选择用电场所GIS地理数据范围内每平方米内的人均时薪，大于100元为高，50-99元为中，小于55元为低；

“租金成本”：指在所选择用电场所GIS地理数据范围内每个商业住房或居民住房的月租金，大于4000元为高，2000-3999元为中，小于2000元为低；

“同业店面数量”：指在所选择用电场所GIS地理数据范围内每平方米内属于同一行业的店面最大数量；

“写字楼数量”：指在所选择用电场所GIS地理数据范围内每平方米内所存在写字楼总数量；

“小区数量”：指在所选择用电场所GIS地理数据范围内每平方米内存在的小区总数量；

“交通”：指在所选择用电场所GIS地理数据范围内中是否存在公交车站与地铁站，是否有对主要道路进行划分；如果上述三项都存在，则为“好”；存在任意两项为“中”；存在任意一项为“差”；

“基础设施”：指在所选择用电场所GIS地理数据范围内中是否存在学校、医院、文体活动中心、邮电中心、办公楼、住宅区、商业服务中心；如果存在任意5项以上，则为“好”；存在任意3-4项，则为“中”；小于3项则为“差”；

“环保要求”：指政府部门是否对所选择用电场所GIS地理数据范围内指定了环保方面的要求，包括垃圾分类、因环保问题不合格而限制企业发展；

“选址效果”：指在所选择用电场所GIS地理数据范围内的企业选择该地址的成功率；如果企业每平方米的年利润达到20万以上则为成功，否则为失败。

人口密度平均值通过对电力数据进行智能计算获得，可选取的智能计算方法包括神经网络、K-Means、DBSCAN以及概率模型。

所选择用电场所GIS地理数据至少涵盖五平方米的范围。

在输入至机器学习模型时，将指标中的“高”转化为数字“3”，“中”转化为数字“2”，“低”转化为数字“1”；

“成功”转化为数字“1”，“失败”转化为数字“0”；

“好”转化为数字3，“中”转化为数字2，“差”转化为数字1。

在步骤3中，机器学习模型为由m棵回归树构成的回归树群。

机器学习模型具体构建方法如下：

步骤3.1，构建拥有m棵回归树的回归树群；

步骤3.2，构建回归树群的目标函数；

该目标函数满足以下关系式：

其中，m为所有回归树的个数，T_j表示第j棵回归树的节点总数，n表示指标数据总数，

表示第j-1棵回归树判定结果

与第j棵回归树判定结果y_j的损失值；当j＝1时，

表示实际数据与当前回归树判定结果的损失值；l表示损失函数，可选用对数损失函数，平方损失函数或指数损失函数，每棵回归树可选用不同的损失函数；g_j和h_j分别为第j棵回归树损失函数的第一阶导数与第二阶导数；γ为超因子数，T_j表示第j棵回归树的节点总数；x_i表示第i条原始数据；f_t表示第j棵回归树第t个节点的交叉熵函数；

步骤3.3，将采集到的数据输入至构建好的回归树群中进行训练。

交叉熵函数满足以下关系式：

f_t(x_i)＝-x_ilog(x_i)-(1-x_i)log(1-x_i)

展示层提供用户交互，用户浏览GIS地理信息，选择感兴趣的用电区域，并将所对应的GIS数据上传至应用层。而应用层模块接收到这些信息，经过计算，将是否成功开店的概率显示的界面上；同时展示层还显示竞品店面等选址信息供用户做横向比较；

应用层模块接收展示层用户传来的GIS数据，通过提取相关指标数据、构建指标、赋值指标、训练机器学习模型计算每个指标的概率，计算所选GIS对应地区的选址成功开率。

应用层还包括数据采集与清洗模块、指标构建模块、机器学习模型构建模块；

数据采集与清洗模块采集电力数据、工商数据、用电场所GIS地理数据和其他数据，并对这些数据进行清洗融合；

指标构建模块根据数据采集与清洗模块得到的数据构建企业选址指标并根据所采集数据为每个指标赋值；

机器学习模型构建模块构建本发明所要使用的机器学习模型并对该模型进行训练；

应用层模块接收展示层用户传来的GIS选择数据，数据采集模块将对应的相关指标数据提取出来。

回归树群的目标函数为：

表示上一棵回归树判定结果与第j棵回归树判定结果的损失值；当j＝1时，

表示实际数据与当前回归树判定结果的损失值；l表示损失函数，可选用对数损失函数，平方损失函数或指数损失函数，每棵回归树可选用不同的损失函数；g_j和h_j分别为第j棵回归树损失函数的第一阶导数与第二阶导数；f(x_i)表示；γ为超因子数，根据实际情况进行设置用于控制本函数的复杂程度，T_j表示第j棵回归树的节点总数；x_i表示第i条指标数据；f_t表示第j棵回归树第t个节点的交叉熵函数。

本发明的有益效果在于，与现有技术相比，本发明：

1、根据企业选址场景所关注的重要特征指标和成熟的样本案例，对提取的指标经过科学分析加工后，通过机器学习的方法，为企业选址提供决策依据；本发明所提出的机器学习方法可以仅使用少量数据进行训练便可准确判定出选址结果；

2、本方法使用了区域内完整的电力大数据，以及市场公开全量的第三方数据做为融合，可以对相同客群的品牌门店进行跨地域，多点的横向比较，解决机器学习中样本不足问题，量化选址策略，大大提升选址效率，节约企业选址成本与人工成本；

3、本方法充分利用电力数据具有可信度高、时效性强、连续性好、覆盖面广等特点，通过与市场公开的其它数据源深度融合，能充分提取构建企业选址最核心的特征指标。

附图说明

图1为本发明基于多维数据的门店智能选址推荐方法的具体流程图。

具体实施方式

下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本申请的保护范围。

基于多维数据的门店智能选址推荐方法，其流程图如图1所示，包括以下步骤：

本领域的技术人员可根据实际情况进行数据的采集与清洗和融合，本发明在此处给出的仅为一优选实施例；

构建门店选址指标所需要的数据包括电力数据、工商数据、用电场所GIS地理数据和其他数据；电力数据包括企业账户数量、居民账户数量、月度用电量、正常用电入住标识；

本发明中的企业为零售、餐饮业企业，所选取的企业均为营业时间超过2年的企业；

其他数据包括用电场所楼价数据、用电场所租金信息；

在本实施例中，使用NLP技术中的实体提取和关键词提取方法对政策中提到的地域、企业名称等进行提取与匹配。同时利用NLP的分词等技术，将企业注册地址或电力数据中的装机用能地址提到楼层、门牌号等信息。

本领域的技术人员可根据实际情况构建企业选址指标并对指标进行赋值，本发明在此处给出的仅为一优选实施例；

在本实施例中，所构建的指标如下：

“人流量”：指在所选择用电场所GIS地理数据范围内1天内每平方米的人口密度平均值，该人口密度通过对电力数据进行智能计算获得；本领域的技术人员可选取的智能计算方法包括神经网络、K-Means、DBSCAN以及概率模型；当人流量大于10为高；5-9为中；小于5为低；

“环保要求”：指政府部门是否对所选择用电场所GIS地理数据范围内指定了环保方面的要求，如垃圾分类、因环保问题不合格而限制企业发展；

“选址效果”：指在所选择用电场所GIS地理数据范围内的企业选择该地址的成功率；如果企业每平方米的年利润达到20万以上则为成功，否则为失败；

本实施例中，所选择用电场所GIS地理数据至少涵盖五平方米的范围；

本实施例所使用数据中的任意3个企业指标对应的指标数据如表1所示：

表1：随机选择的3个企业的选址效果以及其所在用电地区的指标数据

在输入至机器学习模型时，将语义评估信息“高”转化为数字“3”，“中”转化为数字“2”，“低”转化为数字“1”；

“成功”转化为数字“1”，“失败”转化为数字“0”；

“好”转化为数字3，“中”转化为数字2，“差”转化为数字1；

步骤3，构建机器学习模型；

本领域的技术人员可以根据实际情况选择机器学习模型，如分类树、卷积神经网络，本发明所提供的机器学习模型仅为一优选实施例，其优势是可以在训练数据稀少的情况下进行训练并能够准确地输出判定概率；机器学习模型为由m棵回归树构成的改进回归树群。

具体构建方法如下：

步骤3.1，构建拥有m棵回归树的回归树群，本领域的技术人员可以根据实际情况选择回归树的个数；

步骤3.2，构建回归树群的目标函数；

本领域的技术人员可以根据实际情况选择回归树的目标函数，本实施例提供的仅为一种最佳选择，该目标函数满足以下关系式：

表示实际数据与当前回归树判定结果的损失值；l表示损失函数，可选用对数损失函数，平方损失函数或指数损失函数，每棵回归树可选用不同的损失函数；g_j和h_j分别为第j棵回归树损失函数的第一阶导数与第二阶导数；f(x_i)表示；γ为超因子数，根据实际情况进行设置用于控制本函数的复杂程度；x_i表示第i条指标数据；f_t表示第j棵回归树第t个节点的交叉熵函数，本领域的技术人员可以根据实际情况进行选择，在本发明中，交叉函数满足以下关系式：

f_t(x_i)＝-x_ilog(x_i)-(1-x_i)log(1-x_i)

步骤3.3，将采集到的数据输入至构建好的回归树群中进行训练；

步骤4，对步骤3构建的机器学习模型进行训练后，输入需要被判定的用电场所GIS地理数据以及其对应的指标数据，反复进行迭代直到前后两次输出的概率值相差在所设定阈值以内，即得到选址结果；

在本实施例中，所设定的阈值为0.05。

步骤5，将输出结果进行展示，供用户决策参考；

本发明还公开了所对应的基于多维数据的门店智能选址推荐系统，包括展示层与应用层；

展示层提供用户交互，用户浏览GIS地理信息，选择感兴趣的用电区域，并将所对应的GIS数据上传至应用层。而应用层模块接收到这些信息，经过计算，将是否成功开店的概率显示的界面上。同时展示层还显示竞品店面等选址信息供用户做横向比较；

应用层模块接收展示层用户传来的GIS数据，通过提取相关指标数据、构建指标、赋值指标、训练机器学习模型计算每个指标的概率，计算所选GIS对应地区的选址成功开率；

具体地，应用层还包括数据采集与清洗模块、指标构建模块、机器学习模型构建模块；

机器学习模型构建模块构建本发明所要使用的机器学习模型并对该模型进行训练，具体地，本发明中的机器学习模型构建模块通过构建回归树群用于训练，回归树群的目标函数为：

其中，

表示实际数据与当前回归树判定结果的损失值；l表示损失函数，可选用对数损失函数，平方损失函数或指数损失函数，每棵回归树可选用不同的损失函数；g_j和h_j分别为第j棵回归树损失函数的第一阶导数与第二阶导数；f(x_i)表示；γ为超因子数，根据实际情况进行设置用于控制本函数的复杂程度，T_j表示第j棵回归树的节点总数；x_i表示第i条原始数据；f_t表示第j棵回归树第t个节点的交叉熵函数，本领域的技术人员可以根据实际情况进行选择，在本发明中，交叉函数满足以下关系式：

f_t(x_i)＝-x_ilog(x_i)-(1-x_i)log(1-x_i)

本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述，但是本领域技术人员应该理解，以上实施示例仅为本发明的优选实施方案，详尽的说明只是为了帮助读者更好地理解本发明精神，而并非对本发明保护范围的限制，相反，任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims

1.基于多维数据的门店智能选址推荐方法，其特征在于，所述基于多维数据的门店智能选址推荐方法包括以下步骤：

步骤3，构建机器学习模型；

2.根据权利要求1所述的基于多维数据的门店智能选址推荐方法，其特征在于，

在所述步骤1中，门店选址指标所需要的数据包括电力数据、工商数据、用电场所GIS地理数据和其他数据；电力数据包括企业账户数量、居民账户数量、月度用电量、正常用电入住标识；

所选取的企业均为营业时间超过2年的企业；

其他数据包括用电场所楼价数据、用电场所租金信息。

3.根据权利要求1或2所述的基于多维数据的门店智能选址推荐方法，其特征在于，

在所述步骤2中，所构建的指标包括“人流量”、“消费能力”、“用工成本”、“租金成本”、“同业店面数量”、“写字楼数量”、“小区数量”、“交通”、“基础设施”、“环保要求”以及“选址效果”；

4.根据权利要求3所述的基于多维数据的门店智能选址推荐方法，其特征在于，

所述人口密度平均值通过对电力数据进行智能计算获得，可选取的智能计算方法包括神经网络、K-Means、DBSCAN以及概率模型。

5.根据权利要求3所述的基于多维数据的门店智能选址推荐方法，其特征在于，

所选择用电场所GIS地理数据至少涵盖五平方米的范围。

6.根据权利要求3所述的基于多维数据的门店智能选址推荐方法，其特征在于，

“成功”转化为数字“1”，“失败”转化为数字“0”；

7.根据权利要求1所述的基于多维数据的门店智能选址推荐方法，其特征在于，

在所述步骤3中，机器学习模型为由m棵回归树构成的回归树群。

8.根据权利要求1或7所述的基于多维数据的门店智能选址推荐方法，其特征在于，

所述机器学习模型具体构建方法如下：

步骤3.1，构建拥有m棵回归树的回归树群；

步骤3.2，构建回归树群的目标函数；

该目标函数满足以下关系式：

表示第j-1棵回归树判定结果

与第j棵回归树判定结果y_j的损失值；当j＝1时，

9.根据权利要求8所述的基于多维数据的门店智能选址推荐方法，其特征在于，

所述交叉熵函数满足以下关系式：

f_t(x_i)＝-x_ilog(x_i)-(1-x_i)log(1-x_i)。

10.基于权利要求1-9任意一项所述的基于多维数据的门店智能选址推荐方法的门店智能选址推荐系统，包括展示层与应用层，其特征在于，

展示层提供用户交互，用户浏览GIS地理信息，选择感兴趣的用电区域，并将所对应的GIS数据上传至应用层；而应用层模块接收到这些信息，经过计算，将是否成功开店的概率显示在界面上；同时展示层还显示竞品店面选址信息供用户做横向比较；

应用层接收展示层用户传来的GIS数据，通过提取相关指标数据、构建指标、赋值指标、训练机器学习模型计算每个指标的概率，计算所选GIS对应地区的选址成功开率。

11.根据权利要求10所述的一种基于电力数据的企业选址评估方法的企业选址评估系统，其特征在于，

所述应用层还包括数据采集与清洗模块、指标构建模块、机器学习模型构建模块；

所述数据采集与清洗模块采集电力数据、工商数据、用电场所GIS地理数据和其他数据，并对这些数据进行清洗融合；

所述指标构建模块根据数据采集与清洗模块得到的数据构建企业选址指标并根据所采集数据为每个指标赋值；

所述机器学习模型构建模块构建本发明所要使用的机器学习模型并对该模型进行训练；

所述应用层接收展示层用户传来的GIS选择数据，数据采集模块将对应的相关指标数据提取出来。