CN112613530A - 基于自适应密度聚类算法的小区住户识别方法和系统 - Google Patents

基于自适应密度聚类算法的小区住户识别方法和系统 Download PDF

Info

Publication number
CN112613530A
CN112613530A CN202011321582.5A CN202011321582A CN112613530A CN 112613530 A CN112613530 A CN 112613530A CN 202011321582 A CN202011321582 A CN 202011321582A CN 112613530 A CN112613530 A CN 112613530A
Authority
CN
China
Prior art keywords
cell
user
density
longitude
latitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011321582.5A
Other languages
English (en)
Other versions
CN112613530B (zh
Inventor
韦强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Si Tech Information Technology Co Ltd
Original Assignee
Beijing Si Tech Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Si Tech Information Technology Co Ltd filed Critical Beijing Si Tech Information Technology Co Ltd
Priority to CN202011321582.5A priority Critical patent/CN112613530B/zh
Publication of CN112613530A publication Critical patent/CN112613530A/zh
Application granted granted Critical
Publication of CN112613530B publication Critical patent/CN112613530B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Remote Sensing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于自适应密度聚类算法的小区住户识别方法和系统,方法包括:基于DBSCAN算法构建密度聚类模型;将宽带用户的经纬度数据输入密度聚类模型中,计算得到初始小区聚类结果和初始核心宽带用户点;将初始核心宽带用户点标注于地图上,并与真实小区边界进行对比;根据对比结果和地图比例尺确定密度聚类模型的密度半径参数;根据预设的邻域密度阈值初始范围进行自适应调节,遍历得到小区核心宽带用户经纬度。通过本发明的技术方案,消除了传统人工方法产生的误差和无法定位问题,能够通过自适应调节得到目标小区的核心宽带住户,提高了目标数据的定位精确性,提高了针对空间区域进行定向营销活动的精准性。

Description

基于自适应密度聚类算法的小区住户识别方法和系统
技术领域
本发明涉及地理信息计算技术领域,尤其涉及一种基于自适应密度聚类算法的小区住户识别方法和一种基于自适应密度聚类算法的小区住户识别系统。
背景技术
针对用户的电信营销活动已经从传统的广泛撒网方式,转化为时间和空间上的精准化操作,时间上的精准性是指实时的个性化精准化推荐,而空间上的精准性是指能够将用户定位在更精确的范围内,从而充分高效利用该精确范围内的资源对用户开展营销活动。当前,时间维度上的精准化营销技术已经发展的较为成熟,主流的技术也已被广泛应用,主要是将基于机器学习或深度学习算法的各种推荐模型运用在实际营销场景中,但基于空间的精准化营销技术还未形成较为成熟的方法,现有的位置营销也大都基于人工划定范围开展,效率较低,且不利于高质量营销活动开展。
传统的空间层面的营销技术通过两种手段开展,第一个是通过仪器测量各小区或单位的位置边界,然后在测量的边界范围内开展定向营销活动,第二个是基于以往在各区域的营销经验,人为划定网格进行定向营销,但根据实际的营销效果反馈,两种方式均存在如下问题:
1.对于目标数据,即指定区域的位置坐标和根据位置坐标计算识别的营销目标对象,人为因素会导致上传一定量的假数据和大量误差数据;
2.仪器测量和人工划定的区域边界范围太过固定,导致营销对象识别圈定不灵活,妨碍了精准化营销活动的开展。
发明内容
针对上述问题,本发明提供了一种基于自适应密度聚类算法的小区住户识别方法和系统,通过基于DBSCAN(Density-Based Spatial Clustering of Applications withNoise,基于密度的噪声应用空间聚类)算法构建的密度聚类模型,将初始聚类结果与地图真实小区边界进行对比确定密度聚类模型的密度半径参数,以该密度半径参数自适应调节密度聚类模型的邻域密度阈值,遍历得到小区核心宽带用户经纬度,在此基础上还能扩展得到密度半径范围以内的小区非核心宽带用户,从而得到目标小区的全量住户,提高了目标数据的定位精确性,提高了针对空间区域进行定向营销活动的精准性。
为实现上述目的,本发明提供了一种基于自适应密度聚类算法的小区住户识别方法,包括:基于DBSCAN算法构建密度聚类模型;将宽带用户的经纬度数据输入所述密度聚类模型中,计算得到初始小区聚类结果和初始核心宽带用户点;将所述初始核心宽带用户点标注于地图上,并与真实小区边界进行对比;根据对比结果和所述地图比例尺确定所述密度聚类模型的密度半径参数;根据预设的邻域密度阈值初始范围进行自适应调节,遍历得到小区核心宽带用户经纬度。
在上述技术方案中,优选地,所述根据预设的邻域密度阈值初始范围进行自适应调节,遍历得到小区核心宽带用户经纬度具体包括:根据确定的所述密度半径参数,在所述密度聚类模型中遍历循环输入预设的所述邻域密度阈值初始范围中的值;在遍历循环过程中,若所述密度聚类模型输出的小区宽带用户经纬度聚类结果为多个簇,则将所述邻域密度阈值加一并进入下一循环;若所述密度聚类模型输出的小区宽带用户经纬度聚类结果为空,则将所述邻域密度阈值减一并进入下一循环;若所述密度聚类模型输出的小区宽带用户经纬度聚类结果为单个簇,则将结束循环,并以当前邻域密度阈值下聚类结果簇中的用户作为小区核心宽带用户,以得到小区核心宽带用户点的经纬度。
在上述技术方案中,优选地,基于自适应密度聚类算法的小区住户识别方法还包括:以所述小区核心宽带用户点的邻域半径的圆的集合范围作为当前小区的实际地理范围。
在上述技术方案中,优选地,基于自适应密度聚类算法的小区住户识别方法还包括:根据所述小区核心宽带用户经纬度计算得到目标小区中心位置点;以所述目标小区中心位置点为圆心向外扩展预设量经纬度的区域,并圈定扩展区域内除核心宽带用户外的其他用户作为待筛选用户;依次计算每个所述待筛选用户与每个所述小区核心宽带用户之间的距离;若一待筛选用户与所有的所述小区核心宽带用户之间的距离均小于所述密度半径参数,则将该待筛选用户作为小区非核心宽带用户;若一待筛选用户与任一所述小区核心宽带用户之间的距离大于所述密度半径参数,则将该待筛选用户作为非目标小区用户;输出所述小区核心宽带用户和所述小区非核心宽带用户作为目标小区全量住户。
在上述技术方案中,优选地,所述依次计算每个所述待筛选用户与每个所述小区核心宽带用户之间的距离具体包括:基于所述待筛选用户与所述小区核心宽带用户的经纬度,利用二分查找算法依次计算所述待筛选用户与每个所述小区核心宽带用户之间的距离。
本发明还提出一种基于自适应密度聚类算法的小区住户识别系统,应用如上述技术方案中任一项提出的基于自适应密度聚类算法的小区住户识别方法,包括:模型构建模块,用于基于DBSCAN算法构建密度聚类模型;初始聚类模块,用于将宽带用户的经纬度数据输入所述密度聚类模型中,计算得到初始小区聚类结果和初始核心宽带用户点;标注对比模块,用于将所述初始核心宽带用户点标注于地图上,并与真实小区边界进行对比;半径确定模块,用于根据对比结果和所述地图比例尺确定所述密度聚类模型的密度半径参数;用户识别模块,用于根据预设的邻域密度阈值初始范围进行自适应调节,并遍历得到小区核心宽带用户经纬度。
在上述技术方案中,优选地,所述用户识别模块具体用于:根据确定的所述密度半径参数,在所述密度聚类模型中遍历循环输入预设的所述邻域密度阈值初始范围中的值;在遍历循环过程中,若所述密度聚类模型输出的小区宽带用户经纬度聚类结果为多个簇,则将所述邻域密度阈值加一并进入下一循环;若所述密度聚类模型输出的小区宽带用户经纬度聚类结果为空,则将所述邻域密度阈值减一并进入下一循环;若所述密度聚类模型输出的小区宽带用户经纬度聚类结果为单个簇,则将结束循环,并以当前邻域密度阈值下聚类结果簇中的用户作为小区核心宽带用户,以得到小区核心宽带用户点的经纬度。
在上述技术方案中,优选地,以所述小区核心宽带用户点的邻域半径的圆的集合范围作为当前小区的实际地理范围。
在上述技术方案中,优选地,基于自适应密度聚类算法的小区住户识别系统还包括:中心确定模块,用于根据所述小区核心宽带用户经纬度计算得到目标小区中心位置点;区域扩展模块,用于以所述目标小区中心位置点为圆心向外扩展预设量经纬度的区域,并圈定扩展区域内除核心宽带用户外的其他用户作为待筛选用户;距离计算模块,用于依次计算每个所述待筛选用户与每个所述小区核心宽带用户之间的距离;用户筛选模块,在一待筛选用户与所有的所述小区核心宽带用户之间的距离均小于所述密度半径参数时,将该待筛选用户作为小区非核心宽带用户,在一待筛选用户与任一所述小区核心宽带用户之间的距离大于所述密度半径参数时,将该待筛选用户作为非目标小区用户;住户输出模块,用于输出所述小区核心宽带用户和所述小区非核心宽带用户作为目标小区全量住户。
在上述技术方案中,优选地,所述距离计算模块具体用于:基于所述待筛选用户与所述小区核心宽带用户的经纬度,利用二分查找算法依次计算所述待筛选用户与每个所述小区核心宽带用户之间的距离。
与现有技术相比,本发明的有益效果为:通过基于DBSCAN算法构建的密度聚类模型,将初始聚类结果与地图真实小区边界进行对比确定密度聚类模型的密度半径参数,以该密度半径参数自适应调节密度聚类模型的邻域密度阈值,遍历得到小区核心宽带用户经纬度,在此基础上还能扩展得到密度半径范围以内的小区非核心宽带用户,从而得到目标小区的全量住户,提高了目标数据的定位精确性,提高了针对空间区域进行定向营销活动的精准性。
附图说明
图1为本发明一种实施例公开的基于自适应密度聚类算法的小区住户识别方法的流程示意图;
图2为本发明又一种实施例公开的基于自适应密度聚类算法的小区住户识别方法的流程示意图;
图3为本发明一种实施例公开的密度聚类模型划分小区住户的效果示意图;
图4为本发明一种实施例公开的基于自适应密度聚类算法的小区住户识别系统的示意框图。
图中,各组件与附图标记之间的对应关系为:
11、模型构建模块;12、初始聚类模块;13、标注对比模块;14、半径确定模块;15、用户识别模块;16、中心确定模块;17、区域扩展模块;18、距离计算模块;19、用户筛选模块;20、住户输出模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
如图1所示,根据本发明提供的一种基于自适应密度聚类算法的小区住户识别方法,包括:基于DBSCAN算法构建密度聚类模型;将宽带用户的经纬度数据输入密度聚类模型中,计算得到初始小区聚类结果和初始核心宽带用户点;将初始核心宽带用户点标注于地图上,并与真实小区边界进行对比;根据对比结果和地图比例尺确定密度聚类模型的密度半径参数;根据预设的邻域密度阈值初始范围进行自适应调节,遍历得到小区核心宽带用户经纬度。
在该实施例中,通过基于DBSCAN算法构建的密度聚类模型,将初始聚类结果与地图真实小区边界进行对比确定密度聚类模型的密度半径参数,以该密度半径参数自适应调节密度聚类模型的邻域密度阈值,遍历得到小区核心宽带用户经纬度,从而得到目标小区的核心宽带住户,提高了目标数据的定位精确性,提高了针对空间区域进行定向营销活动的精准性。
具体地,DBSCAN算法是比较有代表性的基于密度的聚类算法,该算法的目标是将足够高密度的核心点划分成簇,并能在具有噪声的空间数据库中发现任意形状的簇。算法的核心思想是从某个核心点出发,不断向密度可达的区域扩张,从而得到一个包含核心点和边界点的最大化区域,区域中任意两点密度相连。该算法能发现任意形状的簇,聚类结果几乎不依赖于结点遍历顺序,能够有效剔除噪声点。
该算法的伪代码如下所示:
算法:DBSCAN,一种基于密度的聚类算法
输入:
D:一个包含n个对象的数据集
ε:半径参数
MinPts:领域密度阀值
输出:基于密度的簇的集合
方法:
Figure BDA0002793101740000061
基于上述DBSCAN算法构建的密度聚类模型,在对小区住户进行识别过程中,首先针对宽带用户的经纬度数据进行初步聚类,输入数据为归属于各小区的宽带用户MR经纬度数据,设置密度半径参数和邻域密度阈值为初始参数,密度聚类模型输出初始聚类结果,并通过在地图上标注初始核心宽带用户点,与真实的小区边界进行对比,从而通过计算确定密度聚类模型针对目标小区的密度半径参数。在此基础上,针对该目标小区,通过对密度聚类模型的邻域密度阈值在邻域密度阈值初始范围内进行自适应调节,得到小区核心宽带用户经纬度。
如图2所示,在上述实施例中,优选地,根据预设的邻域密度阈值初始范围进行自适应调节,遍历得到小区核心宽带用户经纬度具体包括:根据确定的密度半径参数,在密度聚类模型中遍历循环输入预设的邻域密度阈值初始范围中的值;在遍历循环过程中,若密度聚类模型输出的小区宽带用户经纬度聚类结果为多个簇,则将邻域密度阈值加一并进入下一循环;若密度聚类模型输出的小区宽带用户经纬度聚类结果为空,则将邻域密度阈值减一并进入下一循环;若密度聚类模型输出的小区宽带用户经纬度聚类结果为单个簇,则将结束循环,并以当前邻域密度阈值下聚类结果簇中的用户作为小区核心宽带用户,以得到小区核心宽带用户点的经纬度。
比如,以密度半径参数eps=0.0001(折算约100米)不变,选择邻域密度阈值min_samples的初始范围设置为500至2,将min_samples从200开始进行模型聚类,如果该小区宽带用户经纬度聚类结果为多个簇,则将min_samples加1,如果该小区宽带用户经纬度聚类结果为空,则将min_samples减1,再次重新聚类,如此循环,直到聚类结果为一个簇,跳出循环。此时输出的聚类结果即为居住在该小区的核心宽带住户的MR经纬度,优选地,以小区核心宽带用户点的邻域半径的圆的集合范围作为当前小区的实际地理范围。
如图3所示,在上述实施例中,优选地,基于自适应密度聚类算法的小区住户识别方法还包括:根据小区核心宽带用户经纬度计算得到目标小区中心位置点;以目标小区中心位置点为圆心向外扩展预设量经纬度的区域,并圈定扩展区域内除核心宽带用户外的其他用户作为待筛选用户;依次计算每个待筛选用户与每个小区核心宽带用户之间的距离;若一待筛选用户与所有的小区核心宽带用户之间的距离均小于密度半径参数,则将该待筛选用户作为小区非核心宽带用户;若一待筛选用户与任一小区核心宽带用户之间的距离大于密度半径参数,则将该待筛选用户作为非目标小区用户;输出小区核心宽带用户和小区非核心宽带用户作为目标小区全量住户。
在上述实施例中,优选地,依次计算每个待筛选用户与每个小区核心宽带用户之间的距离具体包括:基于待筛选用户与小区核心宽带用户的经纬度,利用二分查找算法依次计算待筛选用户与每个小区核心宽带用户之间的距离。
具体地,针对目标小区,在已经计算出的该小区核心宽带住户MR点中基于经度和纬度计算出中心位置点,再基于该中心位置点在经度和纬度方向上往外延伸经纬度0.015,圈定该范围内所有非核心宽带用户作为待筛选用户;基于二分查找算法依次计算各待筛选用户MR点跟每个小区核心宽带用户MR点的距离,当与某个核心宽带用户点的经度和纬度之差均小于密度半径参数eps时,将该待筛选用户标注为居住在该小区的非核心宽带用户(除核心宽带住户外的其他用户),其与小区核心宽带用户共同构成目标小区全量住户。
如图4所示,本发明还提出一种基于自适应密度聚类算法的小区住户识别系统,应用如上述实施例中任一项提出的基于自适应密度聚类算法的小区住户识别方法,包括:模型构建模块11,用于基于DBSCAN算法构建密度聚类模型;初始聚类模块12,用于将宽带用户的经纬度数据输入密度聚类模型中,计算得到初始小区聚类结果和初始核心宽带用户点;标注对比模块13,用于将初始核心宽带用户点标注于地图上,并与真实小区边界进行对比;半径确定模块14,用于根据对比结果和地图比例尺确定密度聚类模型的密度半径参数;用户识别模块15,用于根据预设的邻域密度阈值初始范围进行自适应调节,并遍历得到小区核心宽带用户经纬度。
在该实施例中,该基于自适应密度聚类算法的小区住户识别系统,应用上述实施例中任一项提出的基于自适应密度聚类算法的小区住户识别方法,通过基于DBSCAN算法构建的密度聚类模型,将初始聚类结果与地图真实小区边界进行对比确定密度聚类模型的密度半径参数,以该密度半径参数自适应调节密度聚类模型的邻域密度阈值,遍历得到小区核心宽带用户经纬度,从而得到目标小区的核心宽带住户,提高了目标数据的定位精确性,提高了针对空间区域进行定向营销活动的精准性。
在上述实施例中,优选地,用户识别模块15具体用于:根据确定的密度半径参数,在密度聚类模型中遍历循环输入预设的邻域密度阈值初始范围中的值;在遍历循环过程中,若密度聚类模型输出的小区宽带用户经纬度聚类结果为多个簇,则将邻域密度阈值加一并进入下一循环;若密度聚类模型输出的小区宽带用户经纬度聚类结果为空,则将邻域密度阈值减一并进入下一循环;若密度聚类模型输出的小区宽带用户经纬度聚类结果为单个簇,则将结束循环,并以当前邻域密度阈值下聚类结果簇中的用户作为小区核心宽带用户,以得到小区核心宽带用户点的经纬度。
在上述实施例中,优选地,以小区核心宽带用户点的邻域半径的圆的集合范围作为当前小区的实际地理范围。
在上述实施例中,优选地,基于自适应密度聚类算法的小区住户识别系统还包括:中心确定模块16,用于根据小区核心宽带用户经纬度计算得到目标小区中心位置点;区域扩展模块17,用于以目标小区中心位置点为圆心向外扩展预设量经纬度的区域,并圈定扩展区域内除核心宽带用户外的其他用户作为待筛选用户;距离计算模块18,用于依次计算每个待筛选用户与每个小区核心宽带用户之间的距离;用户筛选模块19,在一待筛选用户与所有的小区核心宽带用户之间的距离均小于密度半径参数时,将该待筛选用户作为小区非核心宽带用户,在一待筛选用户与任一小区核心宽带用户之间的距离大于密度半径参数时,将该待筛选用户作为非目标小区用户;住户输出模块20,用于输出小区核心宽带用户和小区非核心宽带用户作为目标小区全量住户。
在上述实施例中,优选地,距离计算模块18具体用于:基于待筛选用户与小区核心宽带用户的经纬度,利用二分查找算法依次计算待筛选用户与每个小区核心宽带用户之间的距离。
在上述实施例中,基于自适应密度聚类算法的小区住户识别系统中的各个模块,对应采用上述实施例中基于自适应密度聚类算法的小区住户识别方法实现其功能,具体实现方法在此不再赘述。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于自适应密度聚类算法的小区住户识别方法,其特征在于,包括:
基于DBSCAN算法构建密度聚类模型;
将宽带用户的经纬度数据输入所述密度聚类模型中,计算得到初始小区聚类结果和初始核心宽带用户点;
将所述初始核心宽带用户点标注于地图上,并与真实小区边界进行对比;
根据对比结果和所述地图比例尺确定所述密度聚类模型的密度半径参数;
根据预设的邻域密度阈值初始范围进行自适应调节,遍历得到小区核心宽带用户经纬度。
2.根据权利要求1所述的基于自适应密度聚类算法的小区住户识别方法,其特征在于,所述根据预设的邻域密度阈值初始范围进行自适应调节,遍历得到小区核心宽带用户经纬度具体包括:
根据确定的所述密度半径参数,在所述密度聚类模型中遍历循环输入预设的所述邻域密度阈值初始范围中的值;
在遍历循环过程中,若所述密度聚类模型输出的小区宽带用户经纬度聚类结果为多个簇,则将所述邻域密度阈值加一并进入下一循环;
若所述密度聚类模型输出的小区宽带用户经纬度聚类结果为空,则将所述邻域密度阈值减一并进入下一循环;
若所述密度聚类模型输出的小区宽带用户经纬度聚类结果为单个簇,则将结束循环,并以当前邻域密度阈值下聚类结果簇中的用户作为小区核心宽带用户,以得到小区核心宽带用户点的经纬度。
3.根据权利要求2所述的基于自适应密度聚类算法的小区住户识别方法,其特征在于,还包括:
以所述小区核心宽带用户点的邻域半径的圆的集合范围作为当前小区的实际地理范围。
4.根据权利要求1或3所述的基于自适应密度聚类算法的小区住户识别方法,其特征在于,还包括:
根据所述小区核心宽带用户经纬度计算得到目标小区中心位置点;
以所述目标小区中心位置点为圆心向外扩展预设量经纬度的区域,并圈定扩展区域内除核心宽带用户外的其他用户作为待筛选用户;
依次计算每个所述待筛选用户与每个所述小区核心宽带用户之间的距离;
若一待筛选用户与所有的所述小区核心宽带用户之间的距离均小于所述密度半径参数,则将该待筛选用户作为小区非核心宽带用户;
若一待筛选用户与任一所述小区核心宽带用户之间的距离大于所述密度半径参数,则将该待筛选用户作为非目标小区用户;
输出所述小区核心宽带用户和所述小区非核心宽带用户作为目标小区全量住户。
5.根据权利要求4所述的基于自适应密度聚类算法的小区住户识别方法,其特征在于,所述依次计算每个所述待筛选用户与每个所述小区核心宽带用户之间的距离具体包括:
基于所述待筛选用户与所述小区核心宽带用户的经纬度,利用二分查找算法依次计算所述待筛选用户与每个所述小区核心宽带用户之间的距离。
6.一种基于自适应密度聚类算法的小区住户识别系统,应用如权利要求1至5中任一项所述的基于自适应密度聚类算法的小区住户识别方法,其特征在于,包括:
模型构建模块,用于基于DBSCAN算法构建密度聚类模型;
初始聚类模块,用于将宽带用户的经纬度数据输入所述密度聚类模型中,计算得到初始小区聚类结果和初始核心宽带用户点;
标注对比模块,用于将所述初始核心宽带用户点标注于地图上,并与真实小区边界进行对比;
半径确定模块,用于根据对比结果和所述地图比例尺确定所述密度聚类模型的密度半径参数;
用户识别模块,用于根据预设的邻域密度阈值初始范围进行自适应调节,并遍历得到小区核心宽带用户经纬度。
7.根据权利要求6所述的基于自适应密度聚类算法的小区住户识别系统,其特征在于,所述用户识别模块具体用于:
根据确定的所述密度半径参数,在所述密度聚类模型中遍历循环输入预设的所述邻域密度阈值初始范围中的值;
在遍历循环过程中,若所述密度聚类模型输出的小区宽带用户经纬度聚类结果为多个簇,则将所述邻域密度阈值加一并进入下一循环;
若所述密度聚类模型输出的小区宽带用户经纬度聚类结果为空,则将所述邻域密度阈值减一并进入下一循环;
若所述密度聚类模型输出的小区宽带用户经纬度聚类结果为单个簇,则将结束循环,并以当前邻域密度阈值下聚类结果簇中的用户作为小区核心宽带用户,以得到小区核心宽带用户点的经纬度。
8.根据权利要求6所述的基于自适应密度聚类算法的小区住户识别系统,其特征在于,以所述小区核心宽带用户点的邻域半径的圆的集合范围作为当前小区的实际地理范围。
9.根据权利要求6所述的基于自适应密度聚类算法的小区住户识别系统,其特征在于,还包括:
中心确定模块,用于根据所述小区核心宽带用户经纬度计算得到目标小区中心位置点;
区域扩展模块,用于以所述目标小区中心位置点为圆心向外扩展预设量经纬度的区域,并圈定扩展区域内除核心宽带用户外的其他用户作为待筛选用户;
距离计算模块,用于依次计算每个所述待筛选用户与每个所述小区核心宽带用户之间的距离;
用户筛选模块,在一待筛选用户与所有的所述小区核心宽带用户之间的距离均小于所述密度半径参数时,将该待筛选用户作为小区非核心宽带用户,在一待筛选用户与任一所述小区核心宽带用户之间的距离大于所述密度半径参数时,将该待筛选用户作为非目标小区用户;
住户输出模块,用于输出所述小区核心宽带用户和所述小区非核心宽带用户作为目标小区全量住户。
10.根据权利要求9所述的基于自适应密度聚类算法的小区住户识别系统,其特征在于,所述距离计算模块具体用于:
基于所述待筛选用户与所述小区核心宽带用户的经纬度,利用二分查找算法依次计算所述待筛选用户与每个所述小区核心宽带用户之间的距离。
CN202011321582.5A 2020-11-23 2020-11-23 基于自适应密度聚类算法的小区住户识别方法和系统 Active CN112613530B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011321582.5A CN112613530B (zh) 2020-11-23 2020-11-23 基于自适应密度聚类算法的小区住户识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011321582.5A CN112613530B (zh) 2020-11-23 2020-11-23 基于自适应密度聚类算法的小区住户识别方法和系统

Publications (2)

Publication Number Publication Date
CN112613530A true CN112613530A (zh) 2021-04-06
CN112613530B CN112613530B (zh) 2024-08-02

Family

ID=75225631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011321582.5A Active CN112613530B (zh) 2020-11-23 2020-11-23 基于自适应密度聚类算法的小区住户识别方法和系统

Country Status (1)

Country Link
CN (1) CN112613530B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115438138A (zh) * 2022-11-09 2022-12-06 北京市城市规划设计研究院 就业中心识别方法、装置、电子设备及存储介质
CN115526221A (zh) * 2022-04-19 2022-12-27 荣耀终端有限公司 一种定位异常检测和处理方法及相关设备

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110055212A1 (en) * 2009-09-01 2011-03-03 Cheng-Fa Tsai Density-based data clustering method
CN105243148A (zh) * 2015-10-25 2016-01-13 西华大学 一种基于签到数据的时空轨迹相似性度量方法及系统
CN106251026A (zh) * 2016-08-16 2016-12-21 南京信息工程大学 基于pdbscan算法的雷电临近趋势预报方法
CN107563443A (zh) * 2017-09-05 2018-01-09 云南大学 一种自适应的半监督密度聚类方法及系统
CN107766808A (zh) * 2017-09-30 2018-03-06 北京泓达九通科技发展有限公司 道路网络空间中车辆对象移动轨迹聚类的方法及系统
CN109615932A (zh) * 2018-10-17 2019-04-12 中国电子科技集团公司第二十八研究所 一种基于外接圆检测的船舶常见锚泊区边界自动提取方法
WO2020052152A1 (zh) * 2018-09-13 2020-03-19 深圳壹账通智能科技有限公司 用户常驻地判断方法、装置、设备及计算机可读存储介质
CN110958044A (zh) * 2019-12-02 2020-04-03 东南大学 基于密度聚类的非正交多址接入用户聚类方法
CN111144452A (zh) * 2019-12-11 2020-05-12 重庆邮电大学 一种基于信令数据和聚类算法的移动用户出行链提取方法
CN111190984A (zh) * 2019-12-30 2020-05-22 上海炬宏信息技术有限公司 职住地提取方法、装置及计算机可读存储介质
CN111767356A (zh) * 2020-06-24 2020-10-13 中电科华云信息技术有限公司 基于场所物理位置密度聚类划分区域的方法
US20200336400A1 (en) * 2019-04-22 2020-10-22 Oath Inc. Efficient Density Based Geo Clustering

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110055212A1 (en) * 2009-09-01 2011-03-03 Cheng-Fa Tsai Density-based data clustering method
CN105243148A (zh) * 2015-10-25 2016-01-13 西华大学 一种基于签到数据的时空轨迹相似性度量方法及系统
CN106251026A (zh) * 2016-08-16 2016-12-21 南京信息工程大学 基于pdbscan算法的雷电临近趋势预报方法
CN107563443A (zh) * 2017-09-05 2018-01-09 云南大学 一种自适应的半监督密度聚类方法及系统
CN107766808A (zh) * 2017-09-30 2018-03-06 北京泓达九通科技发展有限公司 道路网络空间中车辆对象移动轨迹聚类的方法及系统
WO2020052152A1 (zh) * 2018-09-13 2020-03-19 深圳壹账通智能科技有限公司 用户常驻地判断方法、装置、设备及计算机可读存储介质
CN109615932A (zh) * 2018-10-17 2019-04-12 中国电子科技集团公司第二十八研究所 一种基于外接圆检测的船舶常见锚泊区边界自动提取方法
US20200336400A1 (en) * 2019-04-22 2020-10-22 Oath Inc. Efficient Density Based Geo Clustering
CN110958044A (zh) * 2019-12-02 2020-04-03 东南大学 基于密度聚类的非正交多址接入用户聚类方法
CN111144452A (zh) * 2019-12-11 2020-05-12 重庆邮电大学 一种基于信令数据和聚类算法的移动用户出行链提取方法
CN111190984A (zh) * 2019-12-30 2020-05-22 上海炬宏信息技术有限公司 职住地提取方法、装置及计算机可读存储介质
CN111767356A (zh) * 2020-06-24 2020-10-13 中电科华云信息技术有限公司 基于场所物理位置密度聚类划分区域的方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
BAO LEI: "A DBSCAN based Algorithm for Ship Spot Area Detection in AIS Trajectory Data", 《MATEC WEB OF CONFERENCES》, pages 1 - 4 *
MADHURI DEBNATH等: "K-DBSCAN: Identifying Spatial Clusters with Differing Density Levels", 《2015 INTERNATIONAL WORKSHOP ON DATA MINING WITH INDUSTRIAL APPLICATIONS》, pages 51 - 60 *
史新颖: "面向灾害应急的手机信令数据快速聚类及受灾人口计算方法", 《中国优秀硕士学位论文全文数据库:工程科技Ⅰ辑》, no. 2020, pages 026 - 145 *
欧阳知雨: "基于密度的聚类分析在船舶交通监管中的应用研究", 《中国优秀硕士学位论文全文数据库:工程科技Ⅱ辑》, no. 2020, pages 034 - 1289 *
秦佳睿等: "自适应局部半径的DBSCAN聚类算法", 《小型微型计算机系统》, vol. 39, no. 10, pages 2186 - 2190 *
陆南昌等: "基于密度聚类和凹包算法的5G网络重点场景规划研究", 《中国新通信》, no. 09, pages 46 - 47 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115526221A (zh) * 2022-04-19 2022-12-27 荣耀终端有限公司 一种定位异常检测和处理方法及相关设备
CN115526221B (zh) * 2022-04-19 2023-10-24 荣耀终端有限公司 一种定位异常检测和处理方法及相关设备
CN115438138A (zh) * 2022-11-09 2022-12-06 北京市城市规划设计研究院 就业中心识别方法、装置、电子设备及存储介质
CN115438138B (zh) * 2022-11-09 2023-04-07 北京市城市规划设计研究院 就业中心识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112613530B (zh) 2024-08-02

Similar Documents

Publication Publication Date Title
Wu et al. Modified data-driven framework for housing market segmentation
CN111464938A (zh) 定位方法、装置、电子设备和计算机可读存储介质
CN109241846A (zh) 遥感影像的时空变化估测方法、装置与存储介质
CN104715127B (zh) 一种投诉热点区域识别方法及系统
CN112613530A (zh) 基于自适应密度聚类算法的小区住户识别方法和系统
CN106326923B (zh) 一种顾及位置重复和密度峰值点的签到位置数据聚类方法
CN114501530B (zh) 基于深度强化学习的天线参数的确定方法和装置
CN101873605B (zh) 一种网络规划中自适应传播环境分类方法
CN108540988A (zh) 一种场景划分方法及装置
CN109936820B (zh) 一种用户终端定位方法及装置
CN107330734A (zh) 基于Co‑location模式和本体的商业地址选择方法
CN112954623B (zh) 一种基于手机信令大数据的居民入住率估算方法
CN116437291B (zh) 一种基于手机信令的文化圈规划方法和系统
CN107179525A (zh) 一种基于泰森多边形的克里金插值的位置指纹构建方法
CN108627798A (zh) 基于线性判别分析和梯度提升树的wlan室内定位算法
CN114926098A (zh) 基于移动定位数据的城乡生活圈快速划定方法及其系统
CN117251989A (zh) 一种气象站点的碳水通量信息确定方法、系统及电子设备
CN105992146A (zh) 定位数据生成方法及装置
CN113141570A (zh) 地下场景定位方法、装置、计算设备及计算机存储介质
CN106993296A (zh) 终端的性能评估方法及装置
CN117314198B (zh) 历史文化街区功能更新综合分析方法及系统
CN108647189B (zh) 一种识别用户人群属性的方法及装置
CN103500530A (zh) 基于道路网空间分布的自动初始比例尺地图制图方法
CN112887909B (zh) 一种基于Wi-Fi信号的室内定位方法
CN109255433A (zh) 一种基于相似性的社区检测的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant