CN107688955A - 一种基于自适应dbscan密度聚类的城市商业圈群簇划分方法 - Google Patents
一种基于自适应dbscan密度聚类的城市商业圈群簇划分方法 Download PDFInfo
- Publication number
- CN107688955A CN107688955A CN201610638258.3A CN201610638258A CN107688955A CN 107688955 A CN107688955 A CN 107688955A CN 201610638258 A CN201610638258 A CN 201610638258A CN 107688955 A CN107688955 A CN 107688955A
- Authority
- CN
- China
- Prior art keywords
- city
- retail shop
- clustering
- clusterings
- dbscan
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Entrepreneurship & Innovation (AREA)
- Probability & Statistics with Applications (AREA)
- Remote Sensing (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于自适应DBSCAN密度聚类的城市商业圈群簇划分方法,包括以下步骤:1)对所有城市的某一种类所有商铺求1‑最邻近距离,求得全局DBSCAN聚类半径εG,并计算全体城市所含该类商铺数量分布的上四分位数Q;2)获取城市Ci的所有该类商铺的经纬度数据;3)判断该城市的该类商铺数量是否大于Q家。若大于则单独计算该城市商铺聚类半径εi,MinPts=1进行DBSCAN密度聚类;否则用全局聚类半径εG,MinPts=1进行DBSCAN密度聚类。本发明针对商铺数量规模不同的城市,进行不同的商业圈群簇聚类划分策略,提高了地理位置聚类划分结果的鲁棒性,有效地反映了某一种类商铺在不同城市的商业圈布局特点,有利于后续推荐系统发掘用户行为关于地理位置的兴趣点变化。
Description
技术领域
本发明涉及数据挖掘与计算机技术领域,特别是涉及一种基于自适应DBSCAN密度聚类的城市商业圈群簇划分方法。
背景技术
推荐系统的设计越来越注重于寻找用户的兴趣点(POI,Point Of Interest)变化,比如音乐应用会关注用户们不同的乐曲类型偏好;新闻网站会关注他们对不同种类新闻的爱好;还有电商平台会收集客户们对哪些商品具有关注度,等等。推荐系统期望能尽可能准确地摸索出用户们的兴趣点变化,从而使推荐结果尽可能地满足用户们的需求。
如今,基于位置服务(LBS,Location Based Service)已广泛应用于人们的日常工作与生活之中。我们使用手机拍摄的照片、发送的社交网络信息,以及行车导航记录仪的实时数据等等,都带有地理经纬度信息。过去,用户分析的推荐系统设计往往从用户数据库中的历史行为分析着手,强调了用户与商品的关联关系。而现在随着海量数据被收集和公开,时空数据相结合的社交网络,更大程度上强调了用户之间的交互性。用户们的地理位置数据,同样能够反映了他们在行为模式上关于地理位置的兴趣点变化。
专利201310126829.1将微博用户带有地理信息的签到数据,投影到固定增量的格网划分地图上,存在弊端:因为不同规模的城市往往具有截然不同的城市规划设计,这种固定增量的格网划分方法只能适用于一种类型的城市,而且在反映用户行为在地理位置上的跳变模式中,最终的划分结果缺乏鲁棒性。
发明内容
为了克服现有技术中地理位置数据的群簇聚类划分效果的鲁棒性较差的不足,本发明提供一种鲁棒性较好、聚类划分效果良好的基于自适应DBSCAN密度聚类的城市商业圈群簇划分方法。
本发明解决其技术问题所采用的技术方案如下:
一种基于自适应DBSCAN密度聚类的城市商业圈群簇划分方法,包括如下步骤:
S1:对所有城市的某一种类所有商铺求1-最邻近距离,求得全局DBSCAN聚类半径εG,并计算全体城市所含该类商铺数量分布的上四分位数Q;
S2:获取城市Ci的所有该类商铺的经纬度数据;
S3:判断该城市的该类商铺数量是否大于Q家,若大于则单独计算该城市商铺聚类半径εi,MinPts=1进行DBSCAN密度聚类;否则用全局聚类半径εG,MinPts=1进行DBSCAN密度聚类。
进一步,所述步骤S1中,1-最邻近距离即计算同类商铺中每个商铺距离其周围其他商铺的最近距离,将这些距离从小到大排列,作1-最邻近距离曲线,取曲线上的拐点处的距离值作为全局DBSCAN聚类半径εG。
再进一步,所述步骤S1中,计算全体城市该类商铺数量分布的上四分位数方法。针对同类商铺而言,由于不同商铺数量规模的城市数量city_count与商铺数量restaurant_count存在幂律关系(city_count~restaurant_count-c,c∈R+),一般认为商铺数量较多的城市,相对来说他们的城市规划比较成熟,其商业圈布局相对比较复杂,需要对这些大型城市区单独进行聚类划分。因此要用一个适当的阈值用来区分两类不同规模的城市。根据统计学上的四分位数计算方法和已知商铺数量规模的城市,计算城市所含该类商铺数量分布的上四分位数Q,作为区分城市规模的阈值。
所述步骤S2中,选取需要聚类划分的城市对象Ci,获取该城市范围下的所有该类商铺的经纬度信息。
所述步骤S3根据步骤S1计算的阈值,判断该城市下的该类商铺数量是否大于Q家,如果其商铺数量大于Q家,则单独对该城市范围下的所有该类商铺使用类似步骤S1的聚类半径求法,求得该城市DBSCAN聚类半径εi,并MinPts 1=对该城市下的此类商铺进行聚类划分;反之,则根据全局聚类半径εG,MinPts=1进行聚类划分。
在所述步骤S3的商铺商业圈群簇聚类划分过程中,由于不需要考虑噪声点的影响,所有商铺坐标均需要被聚类到某个群簇,所以聚类划分过程中MinPts≡1。
本发明的技术构思为:鉴于现有技术的缺陷,本发明提出一种基于自适应DBSCAN密度聚类的城市商业圈群簇划分方法,根据不同规模的城市自适应寻找聚类半径,进行城市商业圈群簇的密度聚类划分,提高了地理划分的鲁棒性,同时能够较好地提取出用户行为在地理位置上的跳变模式。
本发明的有益效果为:根据城市的同类商铺数量规模,通过设置合理的阈值,将城市分为两类。大型城市使用自适应聚类半径进行聚类划分商业圈群簇,其余的城市使用全局聚类半径进行聚类划分。最终的聚类划分效果尽可能地保留了不同城市独有的商业圈布局特点,有利于后续推荐系统发掘用户行为关于地理位置的兴趣点变化,达到了实际应用的鲁棒性要求。
附图说明
图1为本发明实施例的基于自适应DBSCAN密度聚类的城市商业圈群簇划分方法的流程图;
图2为本发明实施例的1-最邻近距离曲线图;
图3为本发明实施例的城市North Las Vegas的同类商铺(餐馆)商业圈群簇聚类划分效果图。
具体实施方式
下面结合附图对本发明做进一步说明。
参照图1~图3,一种基于自适应DBSCAN密度聚类的城市商业圈群簇划分方法,本发明使用yelp官方公开的数据集进行同类商铺(餐馆)商业圈群簇的聚类划分,原始数据记录了各个餐馆的地理位置信息。以本实例研究yelp平台的餐馆为例,其地理位置数据包括餐馆的名称、所在的城市与州,和所在的经纬度等信息。
本发明包括以下步骤:
S1:对所有城市的所有餐馆求1-最邻近距离,求得全局DBSCAN聚类半径εG,并计算全体城市所含餐馆数量分布的上四分位数Q;
S2:获取城市Ci的所有餐馆的经纬度数据;
S3:判断该城市的餐馆数量是否大于Q家,若大于则单独计算该城市餐馆聚类半径εi,MinPts=1进行DBSCAN密度聚类;否则用全局聚类半径εG,MinPts=1进行DBSCAN密度聚类。
所述步骤S1中的1-最邻近距离,即计算每个餐馆距离其周围其他餐馆的最近距离。将这些距离从小到大排列,作1-最邻近距离曲线如图2所示,取其中的拐点处的距离值(图上虚线所示的横坐标距离值0.006955058195°)作为全局DBSCAN聚类半径εG。
所述步骤S1中的关于计算城市餐馆数量分布的上四分位数方法。由于不同餐馆数量规模的城市数量city_count与餐馆数量restaurant_count存在幂律(Power Lows)关系(city_count~restaurant_count-c,c∈R+),一般认为餐馆数量较多的城市相对来说,他们的城市规划比较成熟,其商业圈布局相对比较复杂,需要将这些大型城市区分开单独进行聚类划分。因此要用一个适当的阈值用来区分两类不同规模的城市。根据统计学上的四分位数计算方法和已知餐馆数量规模的城市,计算城市所含餐馆数量分布的上四分位数Q,作为区分城市规模的阈值。
所述步骤S2中,选取需要聚类划分的城市对象Ci,获取该城市范围下的所有餐馆经纬度信息。
所述步骤S3根据步骤S1计算的阈值,判断该城市下的餐馆数量是否大于Q家。如果其餐馆数量大于Q家,则单独对该城市范围下的所有餐馆使用类似步骤S1的聚类半径求法,求得该城市DBSCAN聚类半径εi,并MinPts=1对该城市下的餐馆进行聚类划分;反之,则根据全局聚类半径εG,MinPts=1进行聚类划分。如图3所示为最终效果图,城市North LasVegas的餐馆商业圈群簇效果图,由图可知该城市的餐馆可分为15个餐馆商业圈群簇。
在所述步骤S3的餐馆商业圈群簇聚类划分过程中,由于不需要考虑噪声点的影响,所有餐馆坐标均需要被聚类到某个群簇,所以聚类划分过程中MinPts≡1。
如上所述为本发明在yelp餐饮平台中的餐馆商业圈群簇聚类划分的实施例介绍,本发明根据城市餐馆数量规模,通过设置合理的阈值,将城市分为两类。大型城市使用自适应聚类半径进行聚类划分商业圈群簇,其余的城市使用全局聚类半径进行聚类划分。最终的聚类划分效果有效地反映了城市的商业圈布局特点,有利于后续推荐系统发掘用户关于地理位置的兴趣点变化。对发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。
Claims (6)
1.一种基于自适应DBSCAN密度聚类的城市商业圈群簇划分方法,其特征在于:所述方法包括如下步骤:
S1:对所有城市的某一种类所有商铺求1-最邻近距离,求得全局DBSCAN聚类半径εG,并计算全体城市所含该类商铺数量分布的上四分位数Q;
S2:获取城市Ci的所有该类商铺的经纬度数据;
S3:判断该城市的该类商铺数量是否大于Q家,若大于则单独计算该城市商铺聚类半径εi,MinPts=1进行DBSCAN密度聚类;否则用全局聚类半径εG,MinPts=1进行DBSCAN密度聚类。
2.如权利要求1所述的一种基于自适应DBSCAN密度聚类的城市商业圈群簇划分方法,其特征在于:所述步骤S1中,1-最邻近距离即针对所有城市的同类商铺,计算每个商铺距离其周围其他商铺的最近距离,将这些距离从小到大排列,作1-最邻近距离曲线,取曲线上的拐点处的距离值作为全局DBSCAN聚类半径εG。
3.如权利要求1或2所述的一种基于自适应DBSCAN密度聚类的城市商业圈群簇划分方法,其特征在于:所述步骤S1中,根据统计学上的四分位数计算方法和已知商铺数量规模的城市,计算城市所含该类商铺数量分布的上四分位数Q,作为区分城市规模的阈值。
4.如权利要求1或2所述的一种基于自适应DBSCAN密度聚类的城市商业圈群簇划分方法,其特征在于:所述步骤S2中,选取需要聚类划分的城市对象Ci,获取该城市范围下的所有该类商铺的经纬度信息。
5.如权利要求1或2所述的一种基于自适应DBSCAN密度聚类的城市商业圈群簇划分方法,其特征在于:所述步骤S3根据步骤S1计算的阈值,判断该城市下的该类商铺数量是否大于Q家,如果其商铺数量大于Q家,则单独对该城市范围下的所有该类商铺使用类似步骤S1的聚类半径求法,求得该城市DBSCAN聚类半径εi,并MinPts=1对该城市下的此类商铺进行聚类划分;反之,则根据全局聚类半径εG,MinPts=1进行聚类划分。
6.如权利要求5所述的一种基于自适应DBSCAN密度聚类的城市商业圈群簇划分方法,其特征在于:在所述步骤S3的同类商铺商业圈群簇聚类划分过程中,由于所有商铺坐标均需要被聚类到某个群簇,所以聚类划分过程中MinPts≡1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610638258.3A CN107688955A (zh) | 2016-08-03 | 2016-08-03 | 一种基于自适应dbscan密度聚类的城市商业圈群簇划分方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610638258.3A CN107688955A (zh) | 2016-08-03 | 2016-08-03 | 一种基于自适应dbscan密度聚类的城市商业圈群簇划分方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107688955A true CN107688955A (zh) | 2018-02-13 |
Family
ID=61151111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610638258.3A Pending CN107688955A (zh) | 2016-08-03 | 2016-08-03 | 一种基于自适应dbscan密度聚类的城市商业圈群簇划分方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107688955A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108664995A (zh) * | 2018-04-18 | 2018-10-16 | 宁波工程学院 | 基于DBScan的多粒度城市公共自行车调度方法及系统 |
CN110149347A (zh) * | 2019-06-18 | 2019-08-20 | 中国刑事警察学院 | 利用拐点半径实现动态自适应聚类的网络入侵检测方法 |
CN110298371A (zh) * | 2018-03-22 | 2019-10-01 | 北京京东尚科信息技术有限公司 | 数据聚类的方法和装置 |
CN110473201A (zh) * | 2019-09-10 | 2019-11-19 | 江南大学 | 一种刹车片表面缺陷的自动检测方法及装置 |
WO2019242356A1 (zh) * | 2018-06-22 | 2019-12-26 | 阿里巴巴集团控股有限公司 | 一种检测店铺位置正确性的方法及装置 |
CN111767356A (zh) * | 2020-06-24 | 2020-10-13 | 中电科华云信息技术有限公司 | 基于场所物理位置密度聚类划分区域的方法 |
CN112800304A (zh) * | 2021-01-08 | 2021-05-14 | 上海海事大学 | 一种基于聚类的微博水军团体检测方法 |
CN114661393A (zh) * | 2022-03-01 | 2022-06-24 | 重庆邮电大学 | 基于流动人口数据特征聚类的城市集聚效应可视分析方法 |
-
2016
- 2016-08-03 CN CN201610638258.3A patent/CN107688955A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298371A (zh) * | 2018-03-22 | 2019-10-01 | 北京京东尚科信息技术有限公司 | 数据聚类的方法和装置 |
CN108664995A (zh) * | 2018-04-18 | 2018-10-16 | 宁波工程学院 | 基于DBScan的多粒度城市公共自行车调度方法及系统 |
WO2019242356A1 (zh) * | 2018-06-22 | 2019-12-26 | 阿里巴巴集团控股有限公司 | 一种检测店铺位置正确性的方法及装置 |
CN110149347A (zh) * | 2019-06-18 | 2019-08-20 | 中国刑事警察学院 | 利用拐点半径实现动态自适应聚类的网络入侵检测方法 |
CN110149347B (zh) * | 2019-06-18 | 2021-07-09 | 中国刑事警察学院 | 利用拐点半径实现动态自适应聚类的网络入侵检测方法 |
CN110473201A (zh) * | 2019-09-10 | 2019-11-19 | 江南大学 | 一种刹车片表面缺陷的自动检测方法及装置 |
CN111767356A (zh) * | 2020-06-24 | 2020-10-13 | 中电科华云信息技术有限公司 | 基于场所物理位置密度聚类划分区域的方法 |
CN112800304A (zh) * | 2021-01-08 | 2021-05-14 | 上海海事大学 | 一种基于聚类的微博水军团体检测方法 |
CN114661393A (zh) * | 2022-03-01 | 2022-06-24 | 重庆邮电大学 | 基于流动人口数据特征聚类的城市集聚效应可视分析方法 |
CN114661393B (zh) * | 2022-03-01 | 2024-03-22 | 重庆邮电大学 | 基于流动人口数据特征聚类的城市集聚效应可视分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107688955A (zh) | 一种基于自适应dbscan密度聚类的城市商业圈群簇划分方法 | |
EP3522495B1 (en) | Method and device for determining areas of interest based on geolocation data | |
US20210385610A1 (en) | Determining geofence based on user locations | |
US8458173B2 (en) | Computer-implemented methods and systems for multi-level geographic query | |
JP2015521327A (ja) | モバイルアプリケーションのユーザの関心プロファイル | |
US9730028B2 (en) | Systems and methods to identify home addresses of mobile devices | |
CN111723959B (zh) | 区域的划分方法、装置、存储介质及电子装置 | |
CN106537384B (zh) | 使用指示用户位置的数据的逆向ip数据库 | |
CN106416313A (zh) | 识别与无线网络接入点相关联的实体 | |
JP2015512104A (ja) | 経験上のエキスパートを判断する及び質問をルーティングするシステム及び方法 | |
CN107395680B (zh) | 店铺群信息推送和输出方法及装置、设备 | |
KR102240545B1 (ko) | 지리적 위치의 속성 정보를 결정하기 위한 방법 및 디바이스 | |
WO2011088239A2 (en) | Location filtering using mobile country code | |
CN103631888B (zh) | 基于位置的多数据源的数据搜索方法和装置 | |
MX2012008170A (es) | Gestion de una base de datos de ubicacion para sistema de posicionamiento basado en red. | |
CN106341471A (zh) | 用于位置服务的周边目标地理信息获取和搜索方法 | |
CN103500217A (zh) | 兴趣区域的识别服务的提供方法和系统 | |
US20140011513A1 (en) | Mobile Device Location Estimation Using Operational Data of a Wireless Network | |
CN109211259A (zh) | 轨迹路线的显示方法、装置、终端及存储介质 | |
CN109982257A (zh) | 确定移动用户归属区域的方法、装置、系统 | |
KR20140056828A (ko) | 사용자 단말을 이용한 유동 인구 분석 장치, 방법 및 컴퓨터 판독 가능한 기록 매체 | |
CN110348896A (zh) | 划分地理网格的方法、商圈确定方法及设备 | |
WO2017000817A1 (zh) | 获取数据之间的匹配关系的方法和装置 | |
CN111881573B (zh) | 一种基于城市内涝风险评估的人口空间分布模拟方法及装置 | |
CN104679765B (zh) | 区域范围确定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180213 |