CN110019568B - 基于空间聚类的选址方法、装置、计算机设备及存储介质 - Google Patents

基于空间聚类的选址方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110019568B
CN110019568B CN201910295425.2A CN201910295425A CN110019568B CN 110019568 B CN110019568 B CN 110019568B CN 201910295425 A CN201910295425 A CN 201910295425A CN 110019568 B CN110019568 B CN 110019568B
Authority
CN
China
Prior art keywords
demand
city
characteristic data
industry
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910295425.2A
Other languages
English (en)
Other versions
CN110019568A (zh
Inventor
洪晶
陈宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Hexun Huagu Information Technology Co ltd
Original Assignee
Shenzhen Hexun Huagu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Hexun Huagu Information Technology Co ltd filed Critical Shenzhen Hexun Huagu Information Technology Co ltd
Priority to CN201910295425.2A priority Critical patent/CN110019568B/zh
Publication of CN110019568A publication Critical patent/CN110019568A/zh
Application granted granted Critical
Publication of CN110019568B publication Critical patent/CN110019568B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Abstract

本发明公开了一种基于空间聚类的选址方法、装置、计算机设备及存储介质,方法包括:针对目标城市,建立体系化的各类属性的网格特征数据M;从网格特征数据M中提取出:行业特征数据M1,用户特征数据M2;针对特征数据M1和特征数据M2,建立空间聚类模型,将上述两种模型进行映射,将需求量高于供应量的小区筛选为候选地址小区。该基于空间聚类的选址方法、装置、计算机设备及存储介质,将空间将城市网格空间特征和城市网格商业特征融为一体进行聚集分析,刻画出某一细分市场的供需关系,精确洞察不同类型的商业项目的选址聚集情况,输出选址数量辅以决策。

Description

基于空间聚类的选址方法、装置、计算机设备及存储介质
技术领域
本发明涉及大数据应用技术领域,尤其涉及一种采用城市网格的基于大数据空间聚类的商业项目选址方法、装置、计算机设备及存储介质。
背景技术
商业项目在进驻一个全新的城市时需要进行大量的线下调研,传统商业拓展方法主要靠人脉、靠人工获取相关信息,而其中区域选址是企业制定经营目标和经营战略的重要依据,事关企业成败。现有选址技术大致可分为传统选址和大数据选址两类。
传统选址如开展问卷调查、线下走访,了解意向位置周边的客流、交通、消费能力、消费品级、政府政策、行业竞品、周边产品等相关信息,综合分析对企业的利弊,择优选址。
大数据选址的优势之一是利用企业自身所能获取到的数据信息,通过对区域的人口、经济、消费、客户画像、交通、竞品等因素进行分析,辅助商业选址决策;优势之二是大数据算法的技术研究和应用研究越来越成熟,比如空间聚类方法是一个比较大的多维数据集中根据距离的度量找出簇或稠密区域,对于提取大型空间数据库中有用的信息和知识提供了有效手段,因此在商业应用中具有十分重要的现实意义。
空间聚类研究主要集中在算法研究上,目前存在两种情况,一种是从事GIS理论研究方法和技术工具研究的场景,大多数根据空间对象的地理坐标进行聚类,即只考虑对象的空间邻近性,而不考虑对象属性特征的相似性;另一种场景是直接运用传统聚类分析方法,根据属性特征集进行分析,忽视了对象的空间邻近性。
发明内容
本发明的实施例提供了一种基于空间聚类的选址方法、装置、计算机设备及存储介质,旨在解决现有的大数据选址时,采用GIS或传统聚类分析方法仅考虑地理位置或属性特征导致结果不准确的问题。
为达到上述目的,本发明所提出的技术方案为:
第一方面,本发明提供了一种基于空间聚类的选址方法,其包括以下步骤:
针对目标城市,以城市网格GID为粒度,构建城市网格为主键的网格画像数据,建立城市网格知识图谱,建立体系化的各类属性的网格特征数据M;
从网格特征数据M中提取出:行业特征数据M1,所述行业特征数据M1反应该行业的现状,用户特征数据M2,所述用户特征数据M2反应该行业的用户需求现状;
针对特征数据M1,建立空间聚类模型,确定目标城市该行业聚集结果,获得城市的n个该行业位置聚集小区,计算每个小区的店铺数量的均值,基于均值细分为高度聚集、中度聚集、轻度聚集、无聚集四类;
针对特征数据M2,建立空间聚类模型,确定目标城市该行业需求聚集结果,获得城市的m个需求位置聚集小区,计算每个小区的用户数量的均值,基于均值细分为高度需求、中度需求、轻度需求、无需求四类;以及
将步骤“针对特征数据M1,建立空间聚类模型,确定目标城市该行业聚集结果,获得城市的n个该行业位置聚集小区,计算每个小区的店铺数量的均值,基于均值细分为高度聚集、中度聚集、轻度聚集、无聚集四类”和步骤“针对特征数据M2,建立空间聚类模型,确定目标城市该行业需求聚集结果,获得城市的m个需求位置聚集小区,计算每个小区的用户数量的均值,基于均值细分为高度需求、中度需求、轻度需求、无需求四类”进行映射,将需求量高于供应量的小区筛选为候选地址小区。
第二方面,本发明的实施例公开了一种选址的装置,其包括:
城市网格特征数据构建单元,用于针对目标城市,以城市网格GID为粒度,构建城市网格为主键的网格画像数据,建立城市网格知识图谱,建立体系化的各类属性的网格特征数据M;
行业特征数据和用户特征数据提取单元,用于从网格特征数据M中提取出:行业特征数据M1,所述行业特征数据M1反应该行业的现状,用户特征数据M2,所述用户特征数据M2反应该行业的用户需求现状;
行业特征数据空间聚类模型建立单元,用于针对特征数据M1,建立空间聚类模型,确定目标城市该行业聚集结果,获得城市的n个该行业位置聚集小区,计算每个小区的店铺数量的均值,基于均值细分为高度聚集、中度聚集、轻度聚集、无聚集四类;
用户特征数据空间聚类模型建立单元,用于针对特征数据M2,建立空间聚类模型,确定目标城市该行业需求聚集结果,获得城市的m个需求位置聚集小区,计算每个小区的用户数量的均值,基于均值细分为高度需求、中度需求、轻度需求、无需求四类;以及
映射单元,用于将步骤“针对特征数据M1,建立空间聚类模型,确定目标城市该行业聚集结果,获得城市的n个该行业位置聚集小区,计算每个小区的店铺数量的均值,基于均值细分为高度聚集、中度聚集、轻度聚集、无聚集四类”和步骤“针对特征数据M2,建立空间聚类模型,确定目标城市该行业需求聚集结果,获得城市的m个需求位置聚集小区,计算每个小区的用户数量的均值,基于均值细分为高度需求、中度需求、轻度需求、无需求四类”进行映射,将需求量高于供应量的小区筛选为候选地址小区。
第三方面,本发明的实施例公开了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如上任一项所述的基于空间聚类的选址方法。
第四方面,本发明的实施例还公开了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现如上任一项所述的基于空间聚类的选址方法。
与现有技术相比,本发明的实施例提供了一种基于空间聚类的选址方法、装置、计算机设备及存储介质,将空间将城市网格空间特征和城市网格商业特征融为一体进行聚集分析,刻画出某一细分市场的供需关系,精确洞察不同类型的商业项目的选址聚集情况,输出选址数量辅以决策。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于空间聚类的选址方法的流程图;
图2为本发明实施例提供的基于空间聚类的选址方法的子流程图;
图3为本发明实施例提供的商业选址装置的示意性简图;
图4为本发明实施例提供的计算机设备的示意性框图;以及
图5为本发明的实施例提供的空间聚类的选址方法的聚类算法特征属性表格。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅附图1,附图1为本发明实施例提供的基于空间聚类的选址方法的流程图,以下以早教行业的应用为例进行阐述,该基于空间聚类的选址方法包括以下步骤:
实施例一,本发明提供了一种基于空间聚类的选址方法,其包括以下步骤:
步骤S101,针对目标城市,以城市网格GID为粒度,构建城市网格为主键的网格画像数据,建立城市网格知识图谱,建立体系化的各类属性的网格特征数据M。例如,利用Geohash技术,将江苏省苏州市内区域划分以Geohash6位编码为粒度的13215个网格。
步骤S102,从网格特征数据M中提取出:行业特征数据M1,所述行业特征数据M1反应该行业的现状,用户特征数据M2,所述用户特征数据M2反应该行业的用户需求现状。领域知识图谱的意义在于从“微观”到“中观”再到“宏观”,知识图谱侧重于表达实体、概念之间的语义关联,这些语义关联大多是静态的、显性的、客观的、明确的。网格知识图谱严格意义上来说指的是“领域知识图谱”,里面均是和该领域相关的实体和概念,以大望路温特莱网格为例,如下知识图谱可以从广度、深度和粒度这三个维度进行展示。市网格画像维度包括网格基本属性、网格资源属性、网格人口属性这三大类,如附图5所示。
步骤S103,针对特征数据M1,建立空间聚类模型,确定目标城市该行业聚集结果,获得城市的n个该行业位置聚集小区,计算每个小区的店铺数量的均值,基于均值细分为高度聚集、中度聚集、轻度聚集、无聚集四类;
步骤S104,针对特征数据M2,建立空间聚类模型,确定目标城市该行业需求聚集结果,获得城市的m个需求位置聚集小区,计算每个小区的用户数量的均值,基于均值细分为高度需求、中度需求、轻度需求、无需求四类;以及
步骤S105,将步骤S102“针对特征数据M1,建立空间聚类模型,确定目标城市该行业聚集结果,获得城市的n个该行业位置聚集小区,计算每个小区的店铺数量的均值,基于均值细分为高度聚集、中度聚集、轻度聚集、无聚集四类”和步骤S103“针对特征数据M2,建立空间聚类模型,确定目标城市该行业需求聚集结果,获得城市的m个需求位置聚集小区,计算每个小区的用户数量的均值,基于均值细分为高度需求、中度需求、轻度需求、无需求四类”进行映射,将需求量高于供应量的小区筛选为候选地址小区。其他映射规则如下:当需求等于供应时,推荐度为中;当需求低于供应时,推荐度为低;此外,当无聚集和无需求时,暂定为低。
请参阅图2,所述步骤S102“针对特征数据M1,建立空间聚类模型,确定目标城市该行业聚集结果,获得城市的n个该行业位置聚集小区,计算每个小区的店铺数量的均值,基于均值细分为高度聚集、中度聚集、轻度聚集、无聚集四类”和步骤S103“针对特征数据M2,建立空间聚类模型,确定目标城市该行业需求聚集结果,获得城市的m个需求位置聚集小区,计算每个小区的用户数量的均值,基于均值细分为高度需求、中度需求、轻度需求、无需求四类”均采用Kmeans聚类算法,所述Kmeans聚类算法包括以下步骤:
步骤S102a,选取K个点作为质心;基于步骤102的城市网格数据,提取出早教行业特征数据,主要字段为,利用优化后的Kmeans聚类算法,得到最佳分类n=20,即建议候选早教选址数量为20以及这20个聚集区域的质心点
步骤S102b,计算剩余的点到质心的距离并将点归到最近的质心所在的类;计算每类的早教机构规模的均值,并对每类早教聚集程度进行划分。
步骤S102c,重新计算各类的质心;
步骤S102d,重复进行步骤“计算剩余的点到质心的距离并将点归到最近的质心所在的类和重新计算各类的质心”直至新质心与原质心的距离小于指定阈值或达到迭代上限:基于步骤S102的城市网格数据,提取出早教家庭特征数据,主要字段为,利用优化后的Kmeans聚类算法,得到最佳分类m=173;计算每类的早教家庭规模的均值,并对每类早教聚集程度进行划分。
步骤S102e,利用肘部法则得到不同K值的成本函数值,根据成本函数值得到最优分类值。
在本实施例中,所述步骤S102b“计算剩余的点到质心的距离并将点归到最近的质心所在的类”中距离计算公式为球面计算公式。
其中,所述步骤S105“将步骤“针对特征数据M1,建立空间聚类模型,确定目标城市该行业聚集结果,获得城市的n个该行业位置聚集小区,计算每个小区的店铺数量的均值,基于均值细分为高度聚集、中度聚集、轻度聚集、无聚集四类”和步骤“针对特征数据M2,建立空间聚类模型,确定目标城市该行业需求聚集结果,获得城市的m个需求位置聚集小区,计算每个小区的用户数量的均值,基于均值细分为高度需求、中度需求、轻度需求、无需求四类”进行映射,将需求量高于供应量的小区筛选为候选地址小区”之后还包括:
基于历史客流的时序模型预测候选地址小区白天时段、夜间时段的客流量的步骤S106。
其中,所述步骤S101“针对目标城市,以城市网格GID为粒度,构建城市网格为主键的网格画像数据,建立城市网格知识图谱,建立体系化的各类属性的网格特征数据M”中网格画像的维度包括:网格基本属性、网格资源属性和网格人口属性。
请再次参阅图3,本发明的实施例公开了一种选址的装置100,其包括:
城市网格特征数据构建单元101,用于针对目标城市,以城市网格GID为粒度,构建城市网格为主键的网格画像数据,建立城市网格知识图谱,建立体系化的各类属性的网格特征数据M;
行业特征数据和用户特征数据提取单元102,用于从网格特征数据M中提取出:行业特征数据M1,所述行业特征数据M1反应该行业的现状,用户特征数据M2,所述用户特征数据M2反应该行业的用户需求现状;
行业特征数据空间聚类模型建立单元103,用于针对特征数据M1,建立空间聚类模型,确定目标城市该行业聚集结果,获得城市的n个该行业位置聚集小区,计算每个小区的店铺数量的均值,基于均值细分为高度聚集、中度聚集、轻度聚集、无聚集四类;
用户特征数据空间聚类模型建立单元104,用于针对特征数据M2,建立空间聚类模型,确定目标城市该行业需求聚集结果,获得城市的m个需求位置聚集小区,计算每个小区的用户数量的均值,基于均值细分为高度需求、中度需求、轻度需求、无需求四类;以及
映射单元105,用于将步骤“针对特征数据M1,建立空间聚类模型,确定目标城市该行业聚集结果,获得城市的n个该行业位置聚集小区,计算每个小区的店铺数量的均值,基于均值细分为高度聚集、中度聚集、轻度聚集、无聚集四类”和步骤“针对特征数据M2,建立空间聚类模型,确定目标城市该行业需求聚集结果,获得城市的m个需求位置聚集小区,计算每个小区的用户数量的均值,基于均值细分为高度需求、中度需求、轻度需求、无需求四类”进行映射,将需求量高于供应量的小区筛选为候选地址小区。
其中,所述的行业特征数据空间聚类模型建立单元和用户特征数据空间聚类模型建立单元103均包括:
质心选取单元1031,用于选取K个点作为质心;
计算单元1032,用于计算剩余的点到质心的距离并将点归到最近的质心所在的类;
重新计算单元1033,用于重新计算各类的质心,并重复进行步骤“计算剩余的点到质心的距离并将点归到最近的质心所在的类和重新计算各类的质心”直至新质心与原质心的距离小于指定阈值或达到迭代上限:
成本函数计算单元1034,用于利用肘部法则得到不同K值的成本函数值,根据成本函数值得到最优分类值。
于另一实施例中,该选址的装置100还包括:
流量预测单元106,用于基于历史客流的时序模型预测候选地址小区白天时段、夜间时段的客流量。
请再次参阅图4,图4为本发明的实施例提供的一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现基于空间聚类的选址方法:步骤S101,针对目标城市,以城市网格GID为粒度,构建城市网格为主键的网格画像数据,建立城市网格知识图谱,建立体系化的各类属性的网格特征数据M。步骤S102,从网格特征数据M中提取出:行业特征数据M1,所述行业特征数据M1反应该行业的现状,用户特征数据M2,所述用户特征数据M2反应该行业的用户需求现状。步骤S103,针对特征数据M1,建立空间聚类模型,确定目标城市该行业聚集结果,获得城市的n个该行业位置聚集小区,计算每个小区的店铺数量的均值,基于均值细分为高度聚集、中度聚集、轻度聚集、无聚集四类;骤S104,针对特征数据M2,建立空间聚类模型,确定目标城市该行业需求聚集结果,获得城市的m个需求位置聚集小区,计算每个小区的用户数量的均值,基于均值细分为高度需求、中度需求、轻度需求、无需求四类;以及步骤S105,将步骤S102和步骤S103进行映射,将需求量高于供应量的小区筛选为候选地址小区。
该计算机设备为终端,其中,终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。
参阅图4,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种基于空间聚类的选址方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行以下步骤:
步骤S101,针对目标城市,以城市网格GID为粒度,构建城市网格为主键的网格画像数据,建立城市网格知识图谱,建立体系化的各类属性的网格特征数据M。例如,利用Geohash技术,将江苏省苏州市内区域划分以Geohash6位编码为粒度的13215个网格。
步骤S102,从网格特征数据M中提取出:行业特征数据M1,所述行业特征数据M1反应该行业的现状,用户特征数据M2,所述用户特征数据M2反应该行业的用户需求现状。领域知识图谱的意义在于从“微观”到“中观”再到“宏观”,知识图谱侧重于表达实体、概念之间的语义关联,这些语义关联大多是静态的、显性的、客观的、明确的。网格知识图谱严格意义上来说指的是“领域知识图谱”,里面均是和该领域相关的实体和概念,以大望路温特莱网格为例,如下知识图谱可以从广度、深度和粒度这三个维度进行展示。市网格画像维度包括网格基本属性、网格资源属性、网格人口属性这三大类,如附图5所示。
步骤S103,针对特征数据M1,建立空间聚类模型,确定目标城市该行业聚集结果,获得城市的n个该行业位置聚集小区,计算每个小区的店铺数量的均值,基于均值细分为高度聚集、中度聚集、轻度聚集、无聚集四类;
步骤S104,针对特征数据M2,建立空间聚类模型,确定目标城市该行业需求聚集结果,获得城市的m个需求位置聚集小区,计算每个小区的用户数量的均值,基于均值细分为高度需求、中度需求、轻度需求、无需求四类;以及
步骤S105,将步骤S102“针对特征数据M1,建立空间聚类模型,确定目标城市该行业聚集结果,获得城市的n个该行业位置聚集小区,计算每个小区的店铺数量的均值,基于均值细分为高度聚集、中度聚集、轻度聚集、无聚集四类”和步骤S103“针对特征数据M2,建立空间聚类模型,确定目标城市该行业需求聚集结果,获得城市的m个需求位置聚集小区,计算每个小区的用户数量的均值,基于均值细分为高度需求、中度需求、轻度需求、无需求四类”进行映射,将需求量高于供应量的小区筛选为候选地址小区。
请参阅图2,所述步骤S102“针对特征数据M1,建立空间聚类模型,确定目标城市该行业聚集结果,获得城市的n个该行业位置聚集小区,计算每个小区的店铺数量的均值,基于均值细分为高度聚集、中度聚集、轻度聚集、无聚集四类”和步骤S103“针对特征数据M2,建立空间聚类模型,确定目标城市该行业需求聚集结果,获得城市的m个需求位置聚集小区,计算每个小区的用户数量的均值,基于均值细分为高度需求、中度需求、轻度需求、无需求四类”均采用Kmeans聚类算法,所述Kmeans聚类算法包括以下步骤:
步骤S102a,选取K个点作为质心;基于步骤102的城市网格数据,提取出早教行业特征数据,主要字段为,利用优化后的Kmeans聚类算法,得到最佳分类n=20,即建议候选早教选址数量为20以及这20个聚集区域的质心点。
步骤S102b,计算剩余的点到质心的距离并将点归到最近的质心所在的类;计算每类的早教机构规模的均值,并对每类早教聚集程度进行划分。
步骤S102c,重新计算各类的质心。
步骤S102d,重复进行步骤“计算剩余的点到质心的距离并将点归到最近的质心所在的类和重新计算各类的质心”直至新质心与原质心的距离小于指定阈值或达到迭代上限:基于步骤S102的城市网格数据,提取出早教家庭特征数据,主要字段为,利用优化后的Kmeans聚类算法,得到最佳分类m=173;计算每类的早教家庭规模的均值,并对每类早教聚集程度进行划分。
步骤S102e,利用肘部法则得到不同K值的成本函数值,根据成本函数值得到最优分类值。
其中,所述步骤S105“将步骤“针对特征数据M1,建立空间聚类模型,确定目标城市该行业聚集结果,获得城市的n个该行业位置聚集小区,计算每个小区的店铺数量的均值,基于均值细分为高度聚集、中度聚集、轻度聚集、无聚集四类”和步骤“针对特征数据M2,建立空间聚类模型,确定目标城市该行业需求聚集结果,获得城市的m个需求位置聚集小区,计算每个小区的用户数量的均值,基于均值细分为高度需求、中度需求、轻度需求、无需求四类”进行映射,将需求量高于供应量的小区筛选为候选地址小区”之后还包括:
基于历史客流的时序模型预测候选地址小区白天时段、夜间时段的客流量的步骤S106。
与现有技术相比,本发明的实施例提供了一种基于空间聚类的选址方法、装置、计算机设备及存储介质,将空间将城市网格空间特征和城市网格商业特征融为一体进行聚集分析,刻画出某一细分市场的供需关系,精确洞察不同类型的商业项目的选址聚集情况,输出选址数量辅以决策。
此外,该实施例中Kmeans聚类算法进行有效优化,优化之一将传统的欧氏距离改进为球面距离,用于发现凸面形状的簇,簇与簇之间区别较为明显,且簇大小相近,这样更适合基于地理位置的聚类;优化之二针对kmeans的无监督算法的特点,利用肘部法则求解最优聚类数量,主要涉及到以成本函数最小化为目标的最优解问题,成本函数是各个类畸变程度之和,输出一个分类K值选取的建议。
本实施例的选址的装置具有以下有益效果:
选址高效性:计算方面,极光离线计算主要是用MapReduce设计,对实时性要求较高的计算主要用Spark技术,以求得资源和时效两方面要求的平衡;
该装置的前端使用一款优秀的JS框架:AngularJS,还结合了echarts等工具,极大丰富了数据的展示方式;
该装置可广泛应用于商圈选址、便利店选址、餐饮业选址、健身房选址等其他领域商业选址需求。
该装置将早教行业均值和早教家庭均值修改为密度或饱和度,更符合业务需求。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
上述内容,仅为本发明的较佳实施例,并非用于限制本发明的实施方案,本领域普通技术人员根据本发明的主要构思和精神,可以十分方便地进行相应的变通或修改,故本发明的保护范围应以权利要求书所要求的保护范围为准。

Claims (10)

1.一种基于空间聚类的选址方法,其特征在于,包括以下步骤:
针对目标城市,以城市网格GID为粒度,构建城市网格为主键的网格画像数据,建立城市网格知识图谱,建立体系化的各类属性的网格特征数据M;
从网格特征数据M中提取出:行业特征数据M1,所述行业特征数据M1反应该行业的现状,用户特征数据M2,所述用户特征数据M2反应该行业的用户需求现状;
针对特征数据M1,建立空间聚类模型,确定目标城市该行业聚集结果,获得城市的n个该行业位置聚集小区,计算每个小区的店铺数量的均值,基于均值细分为高度聚集、中度聚集、轻度聚集、无聚集四类;
针对特征数据M2,建立空间聚类模型,确定目标城市该行业需求聚集结果,获得城市的m个需求位置聚集小区,计算每个小区的用户数量的均值,基于均值细分为高度需求、中度需求、轻度需求、无需求四类;以及
将步骤“针对特征数据M1,建立空间聚类模型,确定目标城市该行业聚集结果,获得城市的n个该行业位置聚集小区,计算每个小区的店铺数量的均值,基于均值细分为高度聚集、中度聚集、轻度聚集、无聚集四类”和步骤“针对特征数据M2,建立空间聚类模型,确定目标城市该行业需求聚集结果,获得城市的m个需求位置聚集小区,计算每个小区的用户数量的均值,基于均值细分为高度需求、中度需求、轻度需求、无需求四类”进行映射,将需求量高于供应量的小区筛选为候选地址小区。
2.如权利要求1所述的基于空间聚类的选址方法,其特征在于,所述步骤“针对特征数据M1,建立空间聚类模型,确定目标城市该行业聚集结果,获得城市的n个该行业位置聚集小区,计算每个小区的店铺数量的均值,基于均值细分为高度聚集、中度聚集、轻度聚集、无聚集四类”和步骤“针对特征数据M2,建立空间聚类模型,确定目标城市该行业需求聚集结果,获得城市的m个需求位置聚集小区,计算每个小区的用户数量的均值,基于均值细分为高度需求、中度需求、轻度需求、无需求四类”均采用Kmeans聚类算法,所述Kmeans聚类算法包括以下步骤:
选取K个点作为质心;
计算剩余的点到质心的距离并将点归到最近的质心所在的类;
重新计算各类的质心;
重复进行步骤“计算剩余的点到质心的距离并将点归到最近的质心所在的类和重新计算各类的质心”直至新质心与原质心的距离小于指定阈值或达到迭代上限:
利用肘部法则得到不同K值的成本函数值,根据成本函数值得到最优分类值。
3.如权利要求2所述的基于空间聚类的选址方法,其特征在于,所述步骤“计算剩余的点到质心的距离并将点归到最近的质心所在的类”中距离计算公式为球面计算。
4.如权利要求1所述的基于空间聚类的选址方法,其特征在于,所述步骤“将步骤“针对特征数据M1,建立空间聚类模型,确定目标城市该行业聚集结果,获得城市的n个该行业位置聚集小区,计算每个小区的店铺数量的均值,基于均值细分为高度聚集、中度聚集、轻度聚集、无聚集四类”和步骤“针对特征数据M2,建立空间聚类模型,确定目标城市该行业需求聚集结果,获得城市的m个需求位置聚集小区,计算每个小区的用户数量的均值,基于均值细分为高度需求、中度需求、轻度需求、无需求四类”进行映射,将需求量高于供应量的小区筛选为候选地址小区”之后还包括:
基于历史客流的时序模型预测候选地址小区白天时段、夜间时段的客流量的步骤。
5.如权利要求1所述的基于空间聚类的选址方法,其特征在于,所述步骤“针对目标城市,以城市网格GID为粒度,构建城市网格为主键的网格画像数据,建立城市网格知识图谱,建立体系化的各类属性的网格特征数据M”中网格画像的维度包括:网格基本属性、网格资源属性和网格人口属性。
6.一种选址的装置,其特征在于,包括:
城市网格特征数据构建单元,用于针对目标城市,以城市网格GID为粒度,构建城市网格为主键的网格画像数据,建立城市网格知识图谱,建立体系化的各类属性的网格特征数据M;
行业特征数据和用户特征数据提取单元,用于从网格特征数据M中提取出:行业特征数据M1,所述行业特征数据M1反应该行业的现状,用户特征数据M2,所述用户特征数据M2反应该行业的用户需求现状;
行业特征数据空间聚类模型建立单元,用于针对特征数据M1,建立空间聚类模型,确定目标城市该行业聚集结果,获得城市的n个该行业位置聚集小区,计算每个小区的店铺数量的均值,基于均值细分为高度聚集、中度聚集、轻度聚集、无聚集四类;
用户特征数据空间聚类模型建立单元,用于针对特征数据M2,建立空间聚类模型,确定目标城市该行业需求聚集结果,获得城市的m个需求位置聚集小区,计算每个小区的用户数量的均值,基于均值细分为高度需求、中度需求、轻度需求、无需求四类;以及
映射单元,用于将步骤“针对特征数据M1,建立空间聚类模型,确定目标城市该行业聚集结果,获得城市的n个该行业位置聚集小区,计算每个小区的店铺数量的均值,基于均值细分为高度聚集、中度聚集、轻度聚集、无聚集四类”和步骤“针对特征数据M2,建立空间聚类模型,确定目标城市该行业需求聚集结果,获得城市的m个需求位置聚集小区,计算每个小区的用户数量的均值,基于均值细分为高度需求、中度需求、轻度需求、无需求四类”进行映射,将需求量高于供应量的小区筛选为候选地址小区。
7.如权利要求6所述的选址的装置,其特征在于,所述的行业特征数据空间聚类模型建立单元和用户特征数据空间聚类模型建立单元均包括:
质心选取单元,用于选取K个点作为质心;
计算单元,用于计算剩余的点到质心的距离并将点归到最近的质心所在的类;
重新计算单元,用于重新计算各类的质心,并重复进行步骤“计算剩余的点到质心的距离并将点归到最近的质心所在的类和重新计算各类的质心”直至新质心与原质心的距离小于指定阈值或达到迭代上限:
成本函数计算单元,用于利用肘部法则得到不同K值的成本函数值,根据成本函数值得到最优分类值。
8.如权利要求6所述的选址的装置,其特征在于,还包括:
流量预测单元,用于基于历史客流的时序模型预测候选地址小区白天时段、夜间时段的客流量。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的基于空间聚类的选址方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现如权利要求1至5任一项所述的基于空间聚类的选址方法。
CN201910295425.2A 2019-04-12 2019-04-12 基于空间聚类的选址方法、装置、计算机设备及存储介质 Active CN110019568B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910295425.2A CN110019568B (zh) 2019-04-12 2019-04-12 基于空间聚类的选址方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910295425.2A CN110019568B (zh) 2019-04-12 2019-04-12 基于空间聚类的选址方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110019568A CN110019568A (zh) 2019-07-16
CN110019568B true CN110019568B (zh) 2022-03-11

Family

ID=67191279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910295425.2A Active CN110019568B (zh) 2019-04-12 2019-04-12 基于空间聚类的选址方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110019568B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110503463B (zh) * 2019-08-08 2022-06-24 江苏荣泽信息科技股份有限公司 一种基于连锁业态的门店选址规划方法
CN110856186B (zh) * 2019-11-19 2023-04-07 北京联合大学 一种无线网络知识图谱的构建方法及系统
CN112836060B (zh) * 2019-11-25 2023-11-24 中国科学技术信息研究所 一种科技创新数据的图谱构建方法及装置
CN111144693B (zh) * 2019-11-27 2023-08-22 中建科技有限公司 一种城市公厕选址的决策方法、装置和计算机可读存储介质
CN111383051B (zh) * 2020-03-02 2023-05-30 杭州比智科技有限公司 实体对象的选址方法、装置、计算设备及计算机存储介质
CN111866896B (zh) * 2020-07-17 2023-02-28 中国联合网络通信集团有限公司 基站位置确定方法、装置、设备以及存储介质
CN111985576B (zh) * 2020-09-02 2023-11-03 南宁师范大学 基于决策树的店铺选址方法
CN112990976A (zh) * 2021-03-29 2021-06-18 华南理工大学 基于开源数据挖掘的商业网点选址方法、系统、设备及介质
CN112989143A (zh) * 2021-04-12 2021-06-18 上海交通大学 一种基于geohash地址编码的客群洞察方法
CN113064953B (zh) * 2021-04-21 2023-08-22 湖南天河国云科技有限公司 基于邻居信息聚合的区块链地址聚类方法及装置
CN113239198B (zh) * 2021-05-17 2023-10-31 中南大学 一种地铁客流预测方法、装置及计算机存储介质
CN115860810B (zh) * 2023-02-07 2023-06-06 广州数说故事信息科技有限公司 一种行业品牌城市开店策略动态监测方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103839118A (zh) * 2014-03-24 2014-06-04 中国科学院生态环境研究中心 一种选址方法和装置
CN104965920A (zh) * 2015-07-08 2015-10-07 百度在线网络技术(北京)有限公司 用于确定目标地址的方法和装置
CN105138668A (zh) * 2015-09-06 2015-12-09 中山大学 基于poi数据的城市商业中心与零售业态集聚区识别方法
CN105516928A (zh) * 2016-01-15 2016-04-20 中国联合网络通信有限公司广东省分公司 一种基于位置人群特征的位置推荐方法和系统
CN106384250A (zh) * 2016-09-13 2017-02-08 百度在线网络技术(北京)有限公司 一种选址方法及装置
CN106651392A (zh) * 2016-12-07 2017-05-10 中国联合网络通信集团有限公司 一种智能商业选址方法、装置及系统
CN107291918A (zh) * 2017-06-28 2017-10-24 武汉大学 一种兴趣点poi同位模式的可视化挖掘方法
CN108009677A (zh) * 2017-11-29 2018-05-08 黑龙江鑫联华信息股份有限公司 一种选址方法
CN108537391A (zh) * 2018-04-25 2018-09-14 哈尔滨工业大学 一种基于出租车轨迹数据的出租车停靠站设置优化方法
CN108984561A (zh) * 2017-06-01 2018-12-11 华为技术有限公司 选址方法及设备
CN109345130A (zh) * 2018-10-12 2019-02-15 深圳市和讯华谷信息技术有限公司 商业选址的方法、装置、计算机设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103839118A (zh) * 2014-03-24 2014-06-04 中国科学院生态环境研究中心 一种选址方法和装置
CN104965920A (zh) * 2015-07-08 2015-10-07 百度在线网络技术(北京)有限公司 用于确定目标地址的方法和装置
CN105138668A (zh) * 2015-09-06 2015-12-09 中山大学 基于poi数据的城市商业中心与零售业态集聚区识别方法
CN105516928A (zh) * 2016-01-15 2016-04-20 中国联合网络通信有限公司广东省分公司 一种基于位置人群特征的位置推荐方法和系统
CN106384250A (zh) * 2016-09-13 2017-02-08 百度在线网络技术(北京)有限公司 一种选址方法及装置
CN106651392A (zh) * 2016-12-07 2017-05-10 中国联合网络通信集团有限公司 一种智能商业选址方法、装置及系统
CN108984561A (zh) * 2017-06-01 2018-12-11 华为技术有限公司 选址方法及设备
CN107291918A (zh) * 2017-06-28 2017-10-24 武汉大学 一种兴趣点poi同位模式的可视化挖掘方法
CN108009677A (zh) * 2017-11-29 2018-05-08 黑龙江鑫联华信息股份有限公司 一种选址方法
CN108537391A (zh) * 2018-04-25 2018-09-14 哈尔滨工业大学 一种基于出租车轨迹数据的出租车停靠站设置优化方法
CN109345130A (zh) * 2018-10-12 2019-02-15 深圳市和讯华谷信息技术有限公司 商业选址的方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于复杂网络聚类的最优选址模型;戴技才 等;《地理科学》;20130228;第33卷(第2期);143-148 *

Also Published As

Publication number Publication date
CN110019568A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
CN110019568B (zh) 基于空间聚类的选址方法、装置、计算机设备及存储介质
Zhong et al. Detecting the dynamics of urban structure through spatial network analysis
Yan et al. A multi-parameter approach to automated building grouping and generalization
Wise et al. Regionalisation tools for the exploratory spatial analysis of health data
WO2020258905A1 (zh) 一种信息推送方法和装置
Kim Identifying the structure of cities by clustering using a new similarity measure based on smart card data
Lin et al. Using geographically weighted regression to solve the areal interpolation problem
CN111191040A (zh) 城市运行知识图谱构建方法、装置和计算机设备
CN110298687B (zh) 一种区域吸引力评估方法及设备
US20180276242A1 (en) System and Method For Efficient Geospatial Indexing
CN108038734B (zh) 基于点评数据的城市商业设施空间分布探测方法及系统
CN111125294B (zh) 一种空间关系的知识图谱数据模型表示方法及系统
US10444062B2 (en) Measuring and diagnosing noise in an urban environment
Basaraner et al. A structure recognition technique in contextual generalisation of buildings and built-up areas
Shi et al. Capturing urban recreational hotspots from GPS data: A new framework in the lens of spatial heterogeneity
CN116503098B (zh) 共享车辆车站的挖掘方法、装置、计算机设备和存储介质
CN112860831A (zh) 处理、展现城管事件的gis点位的方法、系统
Dmowska et al. Mapping changes in spatial patterns of racial diversity across the entire United States with application to a 1990–2000 period
Idrees et al. Spatial data mining, spatial data warehousing, and spatial olap
CN115687517A (zh) 时空数据的存储方法、装置、数据库引擎和存储介质
Lin et al. A local polycategorical approach to areal interpolation
CN111144612B (zh) 一种加油站位置点预测方法、装置、存储介质及终端
Mete Geospatial Big Data Analytics for Sustainable Smart Cities
Li et al. A multi‐scale partitioning and aggregation method for large volumes of buildings considering road networks association constraints
KR102241221B1 (ko) 관심 지역공간의 세분화 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant