CN110633337B - 一种特征区域确定方法及装置,电子设备 - Google Patents

一种特征区域确定方法及装置,电子设备 Download PDF

Info

Publication number
CN110633337B
CN110633337B CN201810570163.1A CN201810570163A CN110633337B CN 110633337 B CN110633337 B CN 110633337B CN 201810570163 A CN201810570163 A CN 201810570163A CN 110633337 B CN110633337 B CN 110633337B
Authority
CN
China
Prior art keywords
candidate
geographic
geographical
block
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810570163.1A
Other languages
English (en)
Other versions
CN110633337A (zh
Inventor
郭飞翔
殷超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201810570163.1A priority Critical patent/CN110633337B/zh
Publication of CN110633337A publication Critical patent/CN110633337A/zh
Application granted granted Critical
Publication of CN110633337B publication Critical patent/CN110633337B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0204Market segmentation
    • G06Q30/0205Location or geographical consideration

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开的实施例涉及一种特征区域确定方法,属于计算机技术领域,解决现有技术中存在的确定特征区域准确率低下的问题。本公开的实施例公开的特征区域确定方法包括:获取目标地理区域内的若干地理区块,及所述地理区块的地理位置信息;根据获取的历史数据,确定所述若干地理区块中的候选地理区块及所述候选地理区块的属性信息;根据所述候选地理区块的所述地理位置信息和所述属性信息,确定候选地理区块密集区域;根据对所述候选地理区块密集区域内分布的所述候选地理区块进行聚类得到的聚类结果,确定特征区域。本公开实施例公开的特征区域确定方法,有助于提升确定特征区域的准确性。

Description

一种特征区域确定方法及装置,电子设备
技术领域
本公开的实施例涉及计算机技术领域,特别是涉及一种特征区域确定方法及装置,电子设备。
背景技术
在根据地区进行经营活动的应用场景中,根据地区的不同采取差异化的经营策略是非常常见的。因此,根据具体业务需求,确定与所述具体业务需求匹配的特征区域,是首先需要解决的问题。通常,把在一定的范围内的区域中相比于其他范围,这个范围中的区域在某些方面表现比较特殊,我们把在某些方面表现比较特殊的区域,称为特征区域,而其中的某些方面根据具体业务需求确定。现有技术中,通常通过人工调查,结合城市的行政区域划分确定特征区域,难免引入由于人的主观因素导致的不准确和行政区域划分与经营与区划分不匹配导致的不准确的问题。
发明内容
本公开的实施例提供一种特征区域确定方法,有助于提升特征区域确定的准确性。
为了解决上述问题,第一方面,本公开实施例提供了一种特征区域确定方法包括:
获取目标地理区域内的若干地理区块,及所述地理区块的地理位置信息;
根据获取的历史数据,确定所述若干地理区块中的候选地理区块及所述候选地理区块的属性信息;
根据所述候选地理区块的所述地理位置信息和所述属性信息,确定候选地理区块密集区域;
根据对所述候选地理区块密集区域内分布的所述候选地理区块进行聚类得到的聚类结果,确定特征区域。
第二方面,本公开实施例提供了一种特征区域确定装置,包括:
地理区块及地理位置信息获取模块,用于获取目标地理区域内的若干地理区块,及所述地理区块的地理位置信息;
候选地理区块及属性确定模块,用于根据获取的历史数据,确定所述若干地理区块中的候选地理区块及所述候选地理区块的属性信息;
候选地理区块密集区域确定模块,用于根据所述候选地理区块的所述地理位置信息和所述属性信息,确定候选地理区块密集区域;
特征区域确定模块,用于根据对所述候选地理区块密集区域内分布的所述候选地理区块进行聚类得到的聚类结果,确定特征区域。
第三方面,本公开实施例还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本公开实施例所述的特征区域确定方法。
第四方面,本公开实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本公开实施例公开的特征区域确定方法的步骤。
本公开的实施例公开的特征区域确定方法,通过获取目标地理区域内的若干地理区块,及所述地理区块的地理位置信息;然后,根据获取的历史数据,确定所述若干地理区块中的候选地理区块及所述候选地理区块的属性信息;根据所述候选地理区块的所述地理位置信息和所述属性信息,确定候选地理区块密集区域;根据对所述候选地理区块密集区域内分布的所述候选地理区块进行聚类得到的聚类结果,确定特征区域,解决了现有技术中的确定特征区域方法存在的准确率低下的问题。本公开实施例公开的特征区域确定方法通过结合历史数据自动确定与需求方给定的属性信息匹配的特征区域,有助于提升特征区域确定的准确性。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例一的特征区域确定方法流程图;
图2是本公开实施例二的特征区域确定方法流程图;
图3是本公开实施例二的订单价格基于地理区块的分布密度函数示意图;
图4是本公开实施例二的地理区块矩阵示意图;
图5是本公开实施例二的目标地理区域中地理区块分布示意图;
图6是图4所述的地理区块矩阵对应的峰度矩阵示意图;
图7是二值化峰度矩阵示意图;
图8是候选地理区块提取矩阵示意图;
图9是通过图8所示的候选地理区块提取矩阵提取的图5所示的目标地理区域中的候选地理区块分布示意图;
图10是本公开实施例三的特征区域确定装置结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
实施例一
本实施例公开了一种特征区域确定方法,如图1所示,该方法包括:步骤110至步骤140。
步骤110,获取目标地理区域内的若干地理区块,及所述地理区块的地理位置信息。
具体实施时,首先需要获取目标地理区域内的地理区块。所述地理区块对应地图上目标地理区域内一定范围的地理区域。在本公开的一些具体实施例中,可以按照预设地理区块尺寸,将目标地理区域(如某一城市)的地图,划分为相邻的行列排布的多个矩形区域,每个矩形区域对应一个地理区块。或者,按照预设地理区块尺寸,将目标地理区域划分为六边形地理区块。然后,按照预设规则为每个地理区块设置唯一的标识。
还可以通过对某一目标区域内的地理位置经纬度坐标进行geohash编码,然后将相同的geohash编码对应的地理位置坐标所在区域,划分为一个地理区块。
然后,进一步确定所述地理区块的地理位置信息。具体实施时,所述地理区块的地理位置可以为所述地理区块的几何中心,所述地理区块的地理位置信息则为所述几何中心的经纬度坐标;所述地理区块的地理位置还可以为所述地理区块的左上角或右上角等一个固定点,所述地理区块的地理位置信息则为所述固定点的经纬度坐标。
以通过地理位置经纬度坐标进行geohash编码,以进行地理区块划分举例,详细说明特征区域确定方法。本实施例中的地理区块标识为该地理区块内的经纬度位置坐标对应的哈希编码。
步骤120,根据获取的历史数据,确定所述若干地理区块中的候选地理区块及所述候选地理区块的属性信息。
在本公开的一些实施例中,获取预设时间段内的包含地理位置信息的历史数据,如历史订单数据、用户历史行为数据等。然后,根据每条所述历史数据中包括的地理位置信息,确定所述历史数据发生的地理区块,即将每条历史数据映射到相应的地理区块中。最后,根据每个地理区块内映射的历史数据,确定个地理区块的属性信息。所述属性信息根据具体业务需求确定,是确定特征区域时需要输入的属性信息。本公开的一些实施例中,假设需要确定高低客单价、住宅、写字楼的特征区域,则所述属性信息包括价格信息和/或建筑物类型信息,如高客单价住宅、高客单价写字楼、低客单价住宅、低客单价写字楼。
通过对每个地理区块内映射的历史数据进行统计分析,可以确定每个地理区块的属性信息。如确定每个地理区块属于高客单价住宅、高客单价写字楼、低客单价住宅、低客单价写字楼中的哪一类别。
步骤130,根据所述候选地理区块的所述地理位置信息和所述属性信息,确定候选地理区块密集区域。
在本公开的一些实施例中,首先,以所述若干地理区块按照地理位置分别对应的一个矩阵元素,确定目标地理区域对应的地理区块矩阵,所述地理区块矩阵的大小与目标地理区域匹配,将所述地理区块矩阵中的每个矩阵元素的元素值设置为初始值,如0。然后,将通过每个候选地理区块的属性信息确定并修改所述地理区块矩阵中相应矩阵元素的元素值。例如,目标地理区域的左上角地理区块作为地理区块矩阵的第一行第一列的矩阵元素。之后,根据每个候选地理区块的所述属性信息设置与所述候选地理区块对应的矩阵元素的元素值,例如,将每个属性信息类别定义为一个数值,将所述数值设置为相应矩阵元素的元素值。对于不是候选地理区块的地理区块,可以将其对应的矩阵元素的元素值设置为0
通过滑动窗口,对所述窗口内的地理区块矩阵区域进行卷积运算,确定滑动过程中每个窗口位置对应的地理区块矩阵区域的峰度。然后,滑动过程中每个窗口位置对应的地理区块矩阵区域的峰度,确定峰度矩阵。进一步的,将所述峰度矩阵进行二值化处理,然后,对二值化处理后的峰度矩阵,进行膨胀处理,得到地理区块提取矩阵。通过地理区块提取矩阵提取所述地理区块矩阵中的候选地理区块密集区域。峰度是对抽样构成的分布的峰值是否突兀或是平坦的描述,如果峰度值较大,说明从对应的窗口区域内的地理区块的属性值分布趋于一致,反之,说明从对应的窗口区域内的地理区块的属性值分布变化较大。对于本公开实施例中的地理区块矩阵,峰度值小表示各种类型属性的地理区块分布混乱,该滑动窗口对应的图像区域不具备代表性,在后续处理过程中应该被滤除。
步骤140,根据对所述候选地理区块密集区域分布的所述候选地理区块进行聚类得到的聚类结果,确定特征区域。
候选地理区块密集区域中通常会分布忧多个地理区块,因此,在确定了候选地理区块密集区域之后,通过基于候选地理区块的地理位置信息,对所述候选地理区块密集区域分布的所述候选地理区块进行聚类,得到地理区块簇,然后,进一步的根据地理区块簇的分布信息,对地理区块簇进行初步筛选。最后,对于筛选得到的符合条件的地理区块簇,进一步根据该地理区块簇中包括的候选地理区块的属性信息等数据,设置地理区块簇的属性信息,并将所述地理区块簇中包括的候选地理区块所覆盖的区域作为特征区域。
本公开的实施例公开的特征区域确定方法,通过获取目标地理区域内的若干地理区块,及所述地理区块的地理位置信息;然后,根据获取的历史数据,确定所述若干地理区块中的候选地理区块及所述候选地理区块的属性信息;根据所述候选地理区块的所述地理位置信息和所述属性信息,确定候选地理区块密集区域;根据对所述候选地理区块密集区域内分布的所述候选地理区块进行聚类得到的聚类结果,确定特征区域,解决了现有技术中的确定特征区域方法存在的准确率低下的问题。本公开实施例公开的特征区域确定方法结合历史数据自动确定与需求方给定的属性信息匹配的特征区域,有助于提升特征区域确定的准确性。
实施例二
本实施例公开了一种特征区域确定方法,如图2所示,该方法包括:步骤210至步骤250。
步骤210,获取目标地理区域内的若干地理区块,及所述地理区块的地理位置信息。
本实施例中,以通过对地理位置进行geohash编码进行地理区块划分,以获取若干地理区块举例,详细说明特征区域的确定方法。
本实施例具体实施时,获取目标地理区域内的若干地理区块,及所述地理区块的地理位置信息采用以下方案。
通过对某一目标区域内的地理位置经纬度坐标进行geohash编码,然后将相同的geohash编码对应的地理位置坐标所在区域,划分为一个地理区块。例如,对某一目标区域内的地理位置经纬度坐标进行7位geohash编码,则地图上约150米*150米范围内的地理位置坐标将对应相同的geohash编码,则可以将地图上约150米*150米范围作为一个地理区块,通过geohash编码对相应的地理区块进行标识。
然后,以所述地理区块的几何中心作为所述地理区块的中心地理位置。
本公开实施例中所述的特征区域为与业务需求匹配的一定范围的地理区域,该地理区域中可以包括一个或多个地理区块。其中,地理区块的属性信息与业务需求匹配。具体而言,本公开实施例中所述的特征区域为属性信息与业务需求匹配的一个或多个地理区块构成的区域。
步骤220,获取包括地理位置信息的历史数据。
在本公开的实施例中,业务需求包括但不限于以下任意一项或多项:确定用户高点击率特征区域、确定用户低点击率特征区域、确定高浏览量低购买率特征区域、确定高客单价写字楼特征区域、确定低客单价写字楼特征区域、确定高客单价住宅特征区域和确定低客单价住宅特征区域。本实施例中,以业务需求包括:确定高客单价写字楼特征区域、确定低客单价写字楼特征区域、确定高客单价住宅特征区域和确定低客单价住宅特征区域举例,详细说明特征区域确定方法的具体技术方案。相应的,本实施例中,地理区块的属性信息包括:价格信息和/或建筑物类型信息,例如,所述属性信息可以包括:高客单价住宅、高客单价写字楼、低客单价住宅、低客单价写字楼。因此,在本实施例中,获取的历史数据为历史订单数据,如外卖订单数据。所述历史订单数据至少包括订单单价和订单地址信息(如送餐地址)。为了提升确定的特征区域的准确性,可以选择最近一段时间(如六个月)的历史订单数据。其中,所述送餐地址包括送餐地址的经纬度坐标。
步骤230,根据获取的历史数据,确定所述若干地理区块中的候选地理区块及所述候选地理区块的属性信息。
具体实施时,根据获取的历史数据,确定所述若干地理区块中的候选地理区块及所述候选地理区块的属性信息,包括:根据获取的所述历史数据包含的地理位置信息,将所述历史数据映射到相应的地理区块;对映射有历史数据的所述地理区块进行密度聚类,确定地理区块簇;将数据分布集中的所述地理区块簇中的地理区块,确定为候选地理区块;根据所述候选地理区块中映射的所述历史数据,确定相应候选地理区块的属性信息。
具体实施时,每条历史数据中都包括地理位置信息。具体到本实施例中,每条历史订单数据都包括经纬度坐标,通过对所述历史订单数据的送餐地址的经纬度坐标进行7位geohash编码,将每条历史订单数据映射到相应的geohash编码标识的候选地理区块中。
之后,对映射有历史数据的所述候选地理区块进行密度聚类,如通过DBSCAN算法基于地理位置信息进行聚类,确定地理区块簇。然后,根据预设地理区块分布条件识别噪声地理区块,最后,将除噪声地理区块外的其他地理区块作为候选地理区块。例如,对于聚类得到的地理区块簇,如果与簇中心的距离在450以上,则认为该地理区块为噪声地理区块。
之后,对于每个候选地理区块,进一步确定其属性信息。
候选地理区块的属性信息包括多种类别,每种类别的属性信息包括至少一个维度的信息。具体实施时,所述根据所述候选地理区块中映射的所述历史数据,确定相应候选地理区块的属性信息,包括:根据所述候选地理区块中映射的所述历史数据,确定所述候选地理区块的所述至少一个维度的信息;对所述至少一个维度的信息通过预设离散化阈值进行离散化处理,确定所述至少一个维度的信息的离散化信息值;根据所述至少一个维度的信息的离散化信息值,确定所述候选地理区块的属性信息。
具体到本实施例而言,候选地理区块的属性信息包括:高客单价住宅、高客单价写字楼、低客单价住宅、低客单价写字楼四种类别的属性信息,每种类别的属性信息包括:价格信息(即高客单价或低客单价)和住宅类型(即住宅或写字楼)两个维度的信息。具体到本实施例中,需要根据所述候选地理区块中映射的所述历史数据,确定相应候选地理区块的高客单价住宅、高客单价写字楼、低客单价住宅、低客单价写字楼四种类别的属性信息。
因此,具体实施时,首先需要根据所述候选地理区块中映射的所述历史数据,确定相应候选地理区块的价格信息和住宅类型。
在本实施例中,住宅类型通过计算候选地理区块的住宅和写字楼占比确定。首先,根据历史订单数据,确定每条订单数据对应的地址类别属性。其中,地址类别属性包括:写字楼、住宅。例如,某条历史订单数据的送餐地址的地址类别属性为“写字楼”,则该条历史订单数据对应的地址类别属性为“写字楼”。最后,统计每个候选地理区块中地址类别属性为“写字楼”的历史订单数据数量,以确定相应候选地理区块的写字楼占比;以及,统计每个候选地理区块中地址类别属性为“住宅”的历史订单数据数量,以确定相应候选地理区块的住宅占比。
在本公开的一些实施例中,可以通过如表1所示候选地理区块住宅写字楼占比表存储地理区块的住宅类型信息。例如,以每个候选地理区块的地理区块标识作为行索引,以住宅占比和写字楼占比作为列索引,构建候选地理区块住宅写字楼占比表。所述候选地理区块住宅写字楼占比表至少包括以下信息:地理区块标识、经度坐标、纬度坐标、住宅占比和写字楼占比。
地理区块标识 经度坐标 纬度坐标 写字楼占比 住宅占比
geohash1 xxxxxxxx yyyyyyyy 0.2 0.7
geohash2 xxxxxxxx yyyyyyy 0.8 0.2
表1,候选地理区块住宅写字楼占比表
在本实施例中,价格信息为每个候选地理区块中映射的历史订单数据的平均订单单价。
然后,对所述至少一个维度的信息通过预设离散化阈值进行离散化处理,确定所述至少一个维度的信息的离散化信息值。
具体实施时,所述至少一个维度的信息如果为连续值,则需要进行离散化处理。在对所述至少一个维度的信息通过预设离散化阈值进行离散化处理之前,首先需要确定离散化阈值。在本公开的一些实施例中,可以通过历史数据表现确定某一维度的信息的离散化阈值。如本实施例中的住宅类型信息离散化阈值。在本公开的另一些实施例中,需要根据历史数据确定某一维度的信息的离散化阈值,如本实施例中的价格信息离散化阈值。其中,根据历史数据确定指定维度的信息的离散化阈值包括:根据所述候选地理区块中映射的所述历史数据指定维度的信息,确定所述指定维度的信息基于候选地理区块的正态分布函数;根据所述正态分布函数确定去中心处理的边界值,并将所述边界值作为所述指定维度信息的离散化阈值;其中,所述指定维度为信息动态变化的维度。
具体到本实施例而言,由于订单价格是动态变化的,根据数据的历史表现无法准确确定离散化阈值,需要通过根据历史数据计算确定离散化阈值。例如,根据映射到每个候选地理区块内的历史订单数据的订单单价,确定相应地理区块对应的平均订单单价,根据所有候选地理区块的平均订单单价和映射到该候选地理区块的历史订单数据数量,拟合得到最符合正态分布的分布密度函数,如图3所示。所述分布密度函数的横坐标为平均订单单价,纵坐标为平均订单单价为相应数值的候选地理区块数量。
最后,根据分布密度函数确定去除中心a%的订单单价平均值,得到的订单单价平均值边界值作为划分高低客单价的标准,即将去中心的订单单价平均值下边界值作为低客单价阈值,将去中心的订单单价平均值上边界值作为高客单价阈值。例如,本实施例中,a%根据数据历史表现确定,本实施例中a%=50%,低客单价阈值为25,高客单价阈值为45。根据分布密度函数可以得出,大部分候选地理区块的平均订单单价分布在分布密度函数中心一定范围内,而这大部分候选地理区块在构成特征区域时是不具备代表性的,因此,需要进行去中心处理,以确定高客单价阈值和低客单价阈值,用于选择具有代表性的候选地理区块。
确定了离散化阈值之后,对所述至少一个维度的信息通过确定的离散化阈值进行离散化处理,确定所述至少一个维度的信息的离散化信息值。
具体到实施例而言,住宅类型信息可以通过预设阈值进行离散化处理。例如,表1中geohash1对应的候选地理区块的写字楼占比为“0.2”,住宅占比为“0.7”,该块的住宅占比大于预设占比阈值(如0.5),则geohash1对应的候选地理区块的属性为住宅,即geohash1对应的候选地理区块的写字楼属性为“0”,住宅属性为“1”;表1中geohash2对应的候选地理区块的写字楼占比为“0.8”,住宅占比为“0.2”,该块的住宅占比大于预设占比阈值(如0.5),则geohash2对应的候选地理区块的属性为写字楼,即geohash2对应的候选地理区块的写字楼属性为“1”,住宅属性为“0”。然后,可以将候选地理区块的住宅信息通过表2存储。
地理区块标识 经度坐标 纬度坐标 写字楼 住宅
geohash1 xxxxxxxx yyyyyyyy 0 1
geohash2 xxxxxxxx yyyyyyy 1 0
表2,候选地理区块住宅信息表
对价格信息通过确定的离散化阈值进行离散化处理时,对于平均订单单价低于低客单价阈值的候选地理区块,低客单价维度的离散化信息值为“1”,高客单价维度的离散化信息值为“0”;对于平均订单单价高于高客单价阈值的候选地理区块,低客单价维度的离散化信息值为“0”,高客单价维度的离散化信息值为“1”。在本公开的一些实施例中,可以通过如表3所示高低客单价区分表存储候选地理区块的价格信息。例如,以每个候选地理区块的地理区块标识作为行索引,以高客单价、低客单价信息值作为列索引,构建高低客单价区分表。在本公开的一些实施例中,所述高低客单价区分表中还包括相应地理区块标识对应的地理区块的中心经纬度坐标。
地理区块标识 经度坐标 纬度坐标 高客单价 低客单价
geohash1 xxxxxxxx yyyyyyyy 1 0
geohash2 xxxxxxxx yyyyyyy 0 1
表3,候选地理区块高低客单价区分表
在本公开的一个实施例中,所述根据所述正态分布函数确定去中心处理的边界值,并将所述边界值作为所述指定维度信息的离散化阈值之后,还包括:根据所述至少一个维度的信息和所述离散化阈值,滤除不满足特征区域条件的所述候选地理区块。例如,在对价格维度的信息通过确定的离散化阈值进行离散化处理时,如果某一候选地理区块的平均订单单价高于低客单价阈值且低于高客单价阈值,则确定该候选地理区块在价格分布方面没有特点,不适合作为特征区域,因此,将该候选地理区块过滤掉,不再用于确定特征区域。通过对候选地理区块的属性信息包括的指定维度信息进行离散化处理,可以减小运算量和提升确定的特征区域的准确性。
最后,根据所述至少一个维度的信息的离散化信息值,确定所述候选地理区块的属性信息。
具体到本实施例而言,将候选地理区块高低客单价区分表和地理区块住宅信息表,基于地理区块标识进行关联合并,得到候选地理区块属性表。所述候选地理区块属性表至少包括:地理区块标识、经度坐标、纬度坐标、地理区块属性,其中,所述地理区块属性至少包括以下四种属性:高客单价住宅、低客单价住宅、高客单价写字楼、低客单价写字楼。
在本公开的一些实施例中,可以通过候选地理区块属性表存储地理区块的属性信息。例如,将地理区块标识作为地理区块属性表的行标识,将地理区块的属性信息作为列索引,构建候选地理区块属性表。具体实施时,可以将候选地理区块属性表中的每个类别的属性信息分别定义为不同的数值,例如:将高客单价住宅定义为1、将低客单价住宅定义为2、高客单价写字楼定义为3、低客单价写字楼定义为4。
然后,确定候选地理区块高低客单价区分表和地理区块住宅写字楼占比表中地理区块标识的交集,作为候选地理区块属性表中包括的地理区块标识;进一步根据每个地理区块标识在候选地理区块高低客单价区分表中对应的价格信息、该地理区块标识在候选地理区块住宅信息表中对应的住宅类型信息,确定该地理区块标识对应的属性类别。
例如,表3中geohash1对应的候选地理区块的价格信息为“高客单价”,表2中geohash1对应的候选地理区块的住宅类型为“住宅”,则geohash1对应的候选地理区块的属性信息为“高客单价住宅”。再例如,表3中geohash2对应的候选地理区块的价格信息为“低客单价”,表2中geohash2对应的候选地理区块的住宅类型为“写字楼”,则geohash1对应的候选地理区块的属性信息为“低客单价写字楼”。
经过关联合并,得到的候选地理区块属性表可以如下表所示。
地理区块标识 经度坐标 纬度坐标 属性信息
geohash1 xxxxxxxx yyyyyyyy 1:高客单价住宅
geohash2 xxxxxxxx yyyyyyy 4:低客单价写字楼
表4,候选地理区块属性表
步骤240,根据所述候选地理区块的所述地理位置信息和所述属性信息,确定候选地理区块密集区域。
具体实施时,根据所述候选地理区块的所述地理位置信息和所述属性信息,确定候选地理区块密集区域,包括:根据候选地理区块的地理位置信息确定各个候选地理区块在所述目标地理区域对应的地理区块矩阵中对应的矩阵元素;根据所述候选地理区块的所述属性信息确定相应矩阵元素的元素值;将所述元素值作为像素值,结合图像处理技术对所述地理区块矩阵进行处理,确定所述候选地理区块密集区域。
本公开的实施例中,每个地理区块标识对应一个指定大小的地理范围。具体到本实施例而言,地理区块标识为7位的geohash编码,则每个地理区块代表的是地图上约150米*150米的区域。因此,本公开具体实施时,可以将每个候选地理区块看做二维矩阵中的一个矩阵元素,可以确定一个与所述目标地理区域对应的地理区块矩阵,然后,将所述候选地理区块属性信息,作为该候选地理区块对应的矩阵元素的元素值,将其他地理区块对应的矩阵元素的元素值设置为0,得到地理区块矩阵。
例如:首先,创建一个地理区块矩阵,所述地理区块矩阵的大小与目标地理区域中包括的地理区块数量匹配,所述目标地理区域中包括的每个地理区块按照排列位置对应所述地理区块矩阵中的一个矩阵元素。假设,目标地理区域的左上角为候选地理区块,则将该候选地理区块对应到所述地理区块矩阵的第一行第一列的矩阵元素。然后,初始化地理区块矩阵,将所述地理区块矩阵的每个矩阵元素的元素值初始化为0。之后,根据候选地理区块的属性信息,设置每个候选地理区块对应的矩阵元素的元素值,其中,候选地理区块对应的矩阵元素的元素值区别于其他地理区块对应的矩阵元素的元素值。例如,将高客单价住宅、将低客单价住宅、高客单价写字楼、低客单价写字楼定义为不同数值,可以生成如图4所示的地理区块矩阵。
在本公开的一些实施例中,所述将所述元素值作为像素值,结合图像处理技术对所述地理区块矩阵进行处理,确定所述候选地理区块密集区域的步骤,包括:通过滑动窗口对所述地理区块矩阵进行峰度卷积运算,确定所述地理区块矩阵对应的峰度矩阵;对所述峰度矩阵进行二值化处理,确定二值化峰度矩阵;对所述二值化峰度矩阵进行膨胀处理,确定候选地理区块提取矩阵;根据所述候选地理区块提取矩阵提取的所述地理区块矩阵中相应矩阵元素对应的候选地理区块,组成候选地理区块密集区域。
在通过滑动窗口对所述地理区块矩阵进行峰度卷积运算,确定所述地理区块矩阵对应的峰度矩阵时,首选确定地理区块矩阵。在本公开的一些实施例中,地理区块矩阵的矩阵元素的元素值为与相应矩阵元素对应的候选地理区块的属性信息。在通过滑动窗口对所述地理区块矩阵进行峰度卷积运算,确定所述地理区块矩阵对应的峰度矩阵时,以地理区块矩阵为基,以预设尺寸(如5*5)的全1矩阵作为核,即滑动的窗口,通过滑动所述窗口,对所述窗口覆盖的矩阵区域进行峰度卷积运算,得到窗口滑动过程中覆盖的每个矩阵区域的峰度。例如,将所述地理区块矩阵作为一幅如图5所示的图像,图像中的每一个像素点对应一个矩阵元素,通过公式
Figure BDA0001685554570000141
计算窗口覆盖的图像的峰度值,其中,n为窗口覆盖的像素个数,xi为第i点像素值,
Figure BDA0001685554570000142
为窗口内的平均像素值,δ为样本的标准差。实际图像处理过程中,通过全1矩阵对所述地理区块矩阵进行滑动扫描,确定所述地理区块矩阵的多个子阵,并计算每个子阵的峰度,从而得到所述地理区块对应的峰度矩阵。所述峰度矩阵中元素为相应矩阵区域的峰度值,具体到本实施例中,所述峰度矩阵中元素对应滑动所述窗口时,所述窗口的每个位置覆盖的25个地理区块的峰度值。如图6所示,峰度矩阵中第二行第二列的元素的元素值0.17为图5的图像矩阵中第二行第二列至第六行第六列的元素对应的25个地理区块的峰度值。
之后,对所述峰度矩阵进行二值化处理,确定二值化峰度矩阵。本实施例中,将峰度矩阵中峰度最大值的0.5倍,作为划分二值化阈值,并根据所述二值化阈值将峰度矩阵转为二值化峰度矩阵,如图7所示。
接下来,对所述二值化峰度矩阵进行膨胀处理,确定所述地理区块矩阵对应的候选地理区块提取矩阵。首先采用与所述窗口尺寸匹配的膨胀核(如3*3)对二值化峰度矩阵进行膨胀处理,得到与地理区块矩阵尺寸匹配的候选地理区块提取矩阵,如图8所示。候选地理区块提取矩阵中的元素与所述地理区块矩阵中的矩阵元素对应。
最后,根据所述候选地理区块提取矩阵提取所述地理区块矩阵中相应矩阵元素对应的候选地理区块,组成如图9所示的所述目标地理区域中的候选地理区块密集区域。即提取与所述候选地理区块提取矩阵中值为1的矩阵元素对应的所述地理区块矩阵中的候选地理区块,组成候选地理区块密集区域。本公开实施例借鉴图像处理的思想,通过基于候选地理区块的地理位置信息和属性信息生成不同属性的候选地理区块分布的矩阵,然后通过结合图像处理技术进一步对矩阵进行处理,提取候选地理区块分布密集区域。
步骤250,根据对所述候选地理区块密集区域内分布的所述候选地理区块进行聚类得到的聚类结果,确定特征区域。
具体实施时,所述根据对所述候选地理区块密集区域内分布的所述候选地理区块进行聚类得到的聚类结果,确定特征区域,包括:根据候选地理区块的地理位置信息,对所述候选地理区块密集区域分布的所述候选地理区块进行聚类,确定候选地理区块簇;根据所述候选地理区块簇中包括的所述候选地理区块的所述属性信息,确定相应候选地理区块簇对应的属性信息;将所述候选地理区块簇包括的所述候选地理区块构成的地理区域,作为所述目标地理区域内与所述属性信息匹配的特征区域。
在结合图像处理技术,提取到分布密集的候选地理区块之后,进一步的,基于地理位置信息,对所述分布密集的候选地理区块进行聚类,确定候选地理区块簇。例如,采用DBSCAN算法进行聚类。然后,对于聚类得到的候选地理区块簇,可以根据据所述候选地理区块簇中包括的所述候选地理区块的所述属性信息,确定相应候选地理区块簇对应的属性信息。例如,将所述候选地理区块簇中包括的最大候选地理区块属性信息类别,作为该候选地理区块簇的属性信息类别。具体到本实施例而言,如果候选地理区块簇1中包括50个候选地理区块,其中,有30个候选地理区块的属性信息为“高客单价住宅”,则候选地理区块簇1的属性信息为“高客单价住宅”。然后,将所述候选地理区块簇1包括的所述50个候选地理区块构成的地理区域,作为所述目标地理区域内与所述属性信息(即高客单价住宅)匹配的特征区域。
在本公开的一些实施例中,所述将所述候选地理区块簇包括的所述候选地理区块构成的地理区域,作为所述目标地理区域内与所述属性信息匹配的特征区域之前,还包括:根据预设簇标准对所述候选地理区块簇进行筛选,滤除不符合预设簇标准的所述候选地理区块簇;其中,所述预设簇标准包括以下任意一项或多项:所述候选地理区块簇的面积、所述候选地理区块簇内具有不同属性信息的候选地理区块的数量差异、具有不同属性信息的所述候选地理区块簇之间的距离。
具体到本实施例中,由于7位geohash块的大小大约是150米*150米的范围,所以可以利用geohash块数来判定所述候选地理区块簇的面积大小,然后,根据业务方面设置的所述候选地理区块簇的面积标准,如:所述候选地理区块簇包括的地理区块数量在5~70块之间,滤除面积过大(如包括的地理区块大于70个)或过小(如包括的地理区块小于5个)的所述候选地理区块簇。
再例如,当预设簇标准包括具有不同属性信息的所述候选地理区块簇之间的距离时,如果所述预设簇标准设置为:两个不同属性的候选地理区块簇的最近点之间的距离大于4*150米,则根据不同属性的候选地理区块簇的最近点之间的距离,滤除距离小于或等于4*150米的所述候选地理区块簇。
又例如,当预设簇标准包括所述候选地理区块簇内具有不同属性信息的候选地理区块的数量差异时,如果所述预设簇标准设置为:所述候选地理区块簇内具有不同属性信息的候选地理区块的数量差异小于50%,则对于每个候选地理区块簇,判断该地理区块簇中包括的两个最大类别的数量,当数量差异大于或等于其中最大类别候选地理区块的数量的50%,则滤除该候选地理区块簇。
本公开的实施例公开的特征区域确定方法,通过获取目标地理区域内的若干地理区块,及所述地理区块的地理位置信息;然后,根据获取的历史数据,确定所述若干地理区块中的候选地理区块及所述候选地理区块的属性信息;根据所述候选地理区块的所述地理位置信息和所述属性信息,确定候选地理区块密集区域;根据对所述候选地理区块密集区域内分布的所述候选地理区块进行聚类得到的聚类结果,确定特征区域,解决了现有技术中的确定特征区域方法存在的准确率低下的问题。本公开实施例公开的特征区域确定方法通过结合历史数据和图像处理技术自动确定与需求方给定的属性信息匹配的特征区域,有效提升了确定的特征区域的准确性。
进一步的,本公开的实施例公开的特征区域确定方法,通过根据所述候选地理区块簇的面积、所述候选地理区块簇内具有不同属性信息的候选地理区块的数量差异、具有不同属性信息的所述候选地理区块簇之间的距离等条件,对候选地理区块的聚类结果进行进一步筛选,可以有效滤除区分度不高的候选地理区块簇,使得保留的作为特征区域的地理区块簇特征更鲜明。
实施例三
本实施例公开的一种特征区域确定装置,如图10所示,所述装置包括:
地理区块及地理位置信息获取模块1010,用于获取目标地理区域内的若干地理区块,及所述地理区块的地理位置信息;
候选地理区块及属性确定模块1020,用于根据获取的历史数据,确定所述若干地理区块中的候选地理区块及所述候选地理区块的属性信息;
候选地理区块密集区域确定模块1030,用于根据所述候选地理区块的所述地理位置信息和所述属性信息,确定候选地理区块密集区域;
特征区域确定模块1040,用于根据对所述候选地理区块密集区域内分布的所述候选地理区块进行聚类得到的聚类结果,确定特征区域。
在本公开的一些实施例中,所述候选地理区块密集区域确定模块1030进一步用于:
根据候选地理区块的地理位置信息确定各个候选地理区块在所述目标地理区域对应的地理区块矩阵中对应的矩阵元素;
根据所述候选地理区块的所述属性信息确定相应矩阵元素的元素值;
将所述元素值作为像素值,结合图像处理技术对所述地理区块矩阵进行处理,确定所述候选地理区块密集区域。
在本公开的一些实施例中,将所述元素值作为像素值,结合图像处理技术对所述地理区块矩阵进行处理,确定所述候选地理区块密集区域进一步包括:
通过滑动窗口对所述地理区块矩阵进行峰度卷积运算,确定所述地理区块矩阵对应的峰度矩阵;
对所述峰度矩阵进行二值化处理,确定二值化峰度矩阵;
对所述二值化峰度矩阵进行膨胀处理,确定候选地理区块提取矩阵;
根据所述候选地理区块提取矩阵提取的所述地理区块矩阵中相应矩阵元素对应的候选地理区块,组成候选地理区块密集区域。
在本公开的一些实施例中,所述特征区域确定模块1040进一步用于:
根据候选地理区块的地理位置信息,对所述候选地理区块密集区域分布的所述候选地理区块进行聚类,确定候选地理区块簇;
根据所述候选地理区块簇中包括的所述候选地理区块的所述属性信息,确定相应候选地理区块簇对应的属性信息;
将所述候选地理区块簇包括的所述候选地理区块构成的地理区域,作为所述目标地理区域内与所述属性信息匹配的特征区域。
在本公开的另一些实施例中,所述特征区域确定模块1040进一步还用于:
根据预设簇标准对所述候选地理区块簇进行筛选,滤除不符合预设簇标准的所述候选地理区块簇;
其中,所述预设簇标准包括以下任意一项或多项:所述候选地理区块簇的面积、所述候选地理区块簇内具有不同属性信息的候选地理区块的数量差异、具有不同属性信息的所述候选地理区块簇之间的距离。
在本公开的一些实施例中,所述候选地理区块及属性确定模块1020进一步用于:
根据获取的所述历史数据包含的地理位置信息,将所述历史数据映射到相应的地理区块;
对映射有历史数据的所述地理区块进行密度聚类,确定地理区块簇;
将数据分布集中的所述地理区块簇中的地理区块,确定为候选地理区块;
根据所述候选地理区块中映射的所述历史数据,确定相应候选地理区块的属性信息。
在本公开的一些实施例中,所述属性信息包括至少一个维度的信息,所述根据所述候选地理区块中映射的所述历史数据,确定相应候选地理区块的属性信息,包括:
根据所述候选地理区块中映射的所述历史数据,确定所述候选地理区块的所述至少一个维度的信息;
对所述至少一个维度的信息通过预设离散化阈值进行离散化处理,确定所述至少一个维度的信息的离散化信息值;
根据所述至少一个维度的信息的离散化信息值,确定所述候选地理区块的属性信息。
在本公开的又一些实施例中,所述对所述至少一个维度的信息通过预设离散化阈值进行离散化处理,确定所述至少一个维度的信息的离散化信息值之前,还包括:
根据所述候选地理区块中映射的所述历史数据指定维度的信息,确定所述指定维度的信息基于候选地理区块的正态分布函数;
根据所述正态分布函数确定去中心处理的边界值,并将所述边界值作为所述指定维度信息的离散化阈值;其中,所述指定维度为信息动态变化的维度。
在本公开的一些实施例中,所述根据所述正态分布函数确定去中心处理的边界值,并将所述边界值作为所述指定维度信息的离散化阈值的之后,还包括:
根据所述至少一个维度的信息和所述离散化阈值,滤除不满足特征区域条件的所述候选地理区块。
在本公开的一些实施例中,所述属性信息包括价格信息和/或建筑物类型信息。
本公开的实施例公开的特征区域确定装置,通过获取目标地理区域内的若干地理区块,及所述地理区块的地理位置信息;然后,根据获取的历史数据,确定所述若干地理区块中的候选地理区块及所述候选地理区块的属性信息;根据所述候选地理区块的所述地理位置信息和所述属性信息,确定候选地理区块密集区域;根据对所述候选地理区块密集区域内分布的所述候选地理区块进行聚类得到的聚类结果,确定特征区域,解决了现有技术中的确定特征区域方法存在的准确率低下的问题。本公开实施例公开的特征区域确定装置结合历史数据和图像处理技术自动确定与需求方给定的属性信息匹配的特征区域,有助于提升特征区域确定的准确性。
本公开的一些实施例公开的特征区域确定装置,通过根据所述候选地理区块簇的面积、所述候选地理区块簇内具有不同属性信息的候选地理区块的数量差异、具有不同属性信息的所述候选地理区块簇之间的距离等条件,对候选地理区块的聚类结果进行进一步筛选,可以有效滤除区分度不高的候选地理区块簇,使得保留的作为特征区域的地理区块簇特征更鲜明。
本公开实施例所提供的特征区域确定装置可以用以执行上述任一实施例公开的特征区域确定方法,具体实施方法和相关概念可以参考对于以上的特征区域确定方法的描述,在此不再赘述。相应的,还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本公开实施例一和实施例二所述的特征区域确定方法。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。
另一方面,还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开实施例一和实施例二所述的特征区域确定方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本公开提供的一种特征区域确定方法及装置进行了详细介绍,本文中应用了具体个例对本公开的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本公开的方法及其核心思想;同时,对于本领域的一般技术人员,依据本公开的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本公开的限制。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

Claims (20)

1.一种特征区域确定方法,其特征在于,包括:
获取目标地理区域内的若干地理区块,及所述地理区块的地理位置信息;
根据获取的历史数据,确定所述若干地理区块中的候选地理区块及所述候选地理区块的属性信息;
根据所述候选地理区块的所述地理位置信息和所述属性信息,确定候选地理区块密集区域;
根据对所述候选地理区块密集区域内分布的所述候选地理区块进行聚类得到的聚类结果,确定特征区域;
所述根据所述候选地理区块的所述地理位置信息和所述属性信息,确定候选地理区块密集区域的步骤,包括:
根据候选地理区块的地理位置信息确定各个候选地理区块在所述目标地理区域对应的地理区块矩阵中对应的矩阵元素;
根据所述候选地理区块的所述属性信息确定相应矩阵元素的元素值;
将所述元素值作为像素值,结合图像处理技术对所述地理区块矩阵进行处理,确定所述候选地理区块密集区域。
2.根据权利要求1所述的方法,其特征在于,所述将所述元素值作为像素值,结合图像处理技术对所述地理区块矩阵进行处理,确定所述候选地理区块密集区域的步骤,包括:
通过滑动窗口对所述地理区块矩阵进行峰度卷积运算,确定所述地理区块矩阵对应的峰度矩阵;
对所述峰度矩阵进行二值化处理,确定二值化峰度矩阵;
对所述二值化峰度矩阵进行膨胀处理,确定候选地理区块提取矩阵;
根据所述候选地理区块提取矩阵提取的所述地理区块矩阵中相应矩阵元素对应的候选地理区块,组成候选地理区块密集区域。
3.根据权利要求1所述的方法,其特征在于,所述根据对所述候选地理区块密集区域内分布的所述候选地理区块进行聚类得到的聚类结果,确定特征区域的步骤,包括:
根据候选地理区块的地理位置信息,对所述候选地理区块密集区域分布的所述候选地理区块进行聚类,确定候选地理区块簇;
根据所述候选地理区块簇中包括的所述候选地理区块的所述属性信息,确定相应候选地理区块簇对应的属性信息;
将所述候选地理区块簇包括的所述候选地理区块构成的地理区域,作为所述目标地理区域内与所述属性信息匹配的特征区域。
4.根据权利要求3所述的方法,其特征在于,所述将所述候选地理区块簇包括的所述候选地理区块构成的地理区域,作为所述目标地理区域内与所述属性信息匹配的特征区域的步骤之前,还包括:
根据预设簇标准对所述候选地理区块簇进行筛选,滤除不符合预设簇标准的所述候选地理区块簇;
其中,所述预设簇标准包括以下任意一项或多项:所述候选地理区块簇的面积、所述候选地理区块簇内具有不同属性信息的候选地理区块的数量差异、具有不同属性信息的所述候选地理区块簇之间的距离。
5.根据权利要求1所述的方法,其特征在于,所述根据获取的历史数据,确定所述若干地理区块中的候选地理区块及所述候选地理区块的属性信息的步骤,包括:
根据获取的所述历史数据包含的地理位置信息,将所述历史数据映射到相应的地理区块;
对映射有历史数据的所述地理区块进行密度聚类,确定地理区块簇;
将数据分布集中的所述地理区块簇中的地理区块,确定为候选地理区块;
根据所述候选地理区块中映射的所述历史数据,确定相应候选地理区块的属性信息。
6.根据权利要求5所述的方法,其特征在于,所述属性信息包括至少一个维度的信息,所述根据所述候选地理区块中映射的所述历史数据,确定相应候选地理区块的属性信息的步骤,包括:
根据所述候选地理区块中映射的所述历史数据,确定所述候选地理区块的所述至少一个维度的信息;
对所述至少一个维度的信息通过预设离散化阈值进行离散化处理,确定所述至少一个维度的信息的离散化信息值;
根据所述至少一个维度的信息的离散化信息值,确定所述候选地理区块的属性信息。
7.根据权利要求6所述的方法,其特征在于,所述对所述至少一个维度的信息通过预设离散化阈值进行离散化处理,确定所述至少一个维度的信息的离散化信息值的步骤之前,还包括:
根据所述候选地理区块中映射的所述历史数据指定维度的信息,确定所述指定维度的信息基于候选地理区块的正态分布函数;
根据所述正态分布函数确定去中心处理的边界值,并将所述边界值作为所述指定维度信息的离散化阈值;其中,所述指定维度为信息动态变化的维度。
8.根据权利要求7所述的方法,其特征在于,所述根据所述正态分布函数确定去中心处理的边界值,并将所述边界值作为所述指定维度信息的离散化阈值的步骤之后,还包括:
根据所述至少一个维度的信息和所述离散化阈值,滤除不满足特征区域条件的所述候选地理区块。
9.根据权利要求1所述的方法,其特征在于,所述属性信息包括价格信息和/或建筑物类型信息。
10.一种特征区域确定装置,其特征在于,包括:
地理区块及地理位置信息获取模块,用于获取目标地理区域内的若干地理区块,及所述地理区块的地理位置信息;
候选地理区块及属性确定模块,用于根据获取的历史数据,确定所述若干地理区块中的候选地理区块及所述候选地理区块的属性信息;
候选地理区块密集区域确定模块,用于根据所述候选地理区块的所述地理位置信息和所述属性信息,确定候选地理区块密集区域;
特征区域确定模块,用于根据对所述候选地理区块密集区域内分布的所述候选地理区块进行聚类得到的聚类结果,确定特征区域;
所述候选地理区块密集区域确定模块进一步用于:
根据候选地理区块的地理位置信息确定各个候选地理区块在所述目标地理区域对应的地理区块矩阵中对应的矩阵元素;
根据所述候选地理区块的所述属性信息确定相应矩阵元素的元素值;
将所述元素值作为像素值,结合图像处理技术对所述地理区块矩阵进行处理,确定所述候选地理区块密集区域。
11.根据权利要求10所述的装置,其特征在于,所述将所述元素值作为像素值,结合图像处理技术对所述地理区块矩阵进行处理,确定所述候选地理区块密集区域,进一步包括:
通过滑动窗口对所述地理区块矩阵进行峰度卷积运算,确定所述地理区块矩阵对应的峰度矩阵;
对所述峰度矩阵进行二值化处理,确定二值化峰度矩阵;
对所述二值化峰度矩阵进行膨胀处理,确定候选地理区块提取矩阵;
根据所述候选地理区块提取矩阵提取的所述地理区块矩阵中相应矩阵元素对应的候选地理区块,组成候选地理区块密集区域。
12.根据权利要求10所述的装置,其特征在于,所述特征区域确定模块进一步用于:
根据候选地理区块的地理位置信息,对所述候选地理区块密集区域分布的所述候选地理区块进行聚类,确定候选地理区块簇;
根据所述候选地理区块簇中包括的所述候选地理区块的所述属性信息,确定相应候选地理区块簇对应的属性信息;
将所述候选地理区块簇包括的所述候选地理区块构成的地理区域,作为所述目标地理区域内与所述属性信息匹配的特征区域。
13.根据权利要求12所述的装置,其特征在于,所述特征区域确定模块进一步还用于:
根据预设簇标准对所述候选地理区块簇进行筛选,滤除不符合预设簇标准的所述候选地理区块簇;
其中,所述预设簇标准包括以下任意一项或多项:所述候选地理区块簇的面积、所述候选地理区块簇内具有不同属性信息的候选地理区块的数量差异、具有不同属性信息的所述候选地理区块簇之间的距离。
14.根据权利要求10所述的装置,其特征在于,所述候选地理区块及属性确定模块进一步用于:
根据获取的所述历史数据包含的地理位置信息,将所述历史数据映射到相应的地理区块;
对映射有历史数据的所述地理区块进行密度聚类,确定地理区块簇;
将数据分布集中的所述地理区块簇中的地理区块,确定为候选地理区块;
根据所述候选地理区块中映射的所述历史数据,确定相应候选地理区块的属性信息。
15.根据权利要求14所述的装置,其特征在于,所述属性信息包括至少一个维度的信息,所述根据所述候选地理区块中映射的所述历史数据,确定相应候选地理区块的属性信息,包括:
根据所述候选地理区块中映射的所述历史数据,确定所述候选地理区块的所述至少一个维度的信息;
对所述至少一个维度的信息通过预设离散化阈值进行离散化处理,确定所述至少一个维度的信息的离散化信息值;
根据所述至少一个维度的信息的离散化信息值,确定所述候选地理区块的属性信息。
16.根据权利要求15所述的装置,其特征在于,所述对所述至少一个维度的信息通过预设离散化阈值进行离散化处理,确定所述至少一个维度的信息的离散化信息值之前,还包括:
根据所述候选地理区块中映射的所述历史数据指定维度的信息,确定所述指定维度的信息基于候选地理区块的正态分布函数;
根据所述正态分布函数确定去中心处理的边界值,并将所述边界值作为所述指定维度信息的离散化阈值;其中,所述指定维度为信息动态变化的维度。
17.根据权利要求16所述的装置,其特征在于,所述根据所述正态分布函数确定去中心处理的边界值,并将所述边界值作为所述指定维度信息的离散化阈值的之后,还包括:
根据所述至少一个维度的信息和所述离散化阈值,滤除不满足特征区域条件的所述候选地理区块。
18.根据权利要求10所述的装置,其特征在于,所述属性信息包括价格信息和/或建筑物类型信息。
19.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9任意一项所述的特征区域确定方法。
20.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至9任意一项所述的特征区域确定方法的步骤。
CN201810570163.1A 2018-06-05 2018-06-05 一种特征区域确定方法及装置,电子设备 Active CN110633337B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810570163.1A CN110633337B (zh) 2018-06-05 2018-06-05 一种特征区域确定方法及装置,电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810570163.1A CN110633337B (zh) 2018-06-05 2018-06-05 一种特征区域确定方法及装置,电子设备

Publications (2)

Publication Number Publication Date
CN110633337A CN110633337A (zh) 2019-12-31
CN110633337B true CN110633337B (zh) 2021-07-09

Family

ID=68966153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810570163.1A Active CN110633337B (zh) 2018-06-05 2018-06-05 一种特征区域确定方法及装置,电子设备

Country Status (1)

Country Link
CN (1) CN110633337B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139137B (zh) * 2020-01-19 2022-05-03 北京三快在线科技有限公司 确定poi坐标的方法、装置、存储介质及电子设备
CN113822690A (zh) * 2020-10-19 2021-12-21 北京沃东天骏信息技术有限公司 广告转化量确定方法、装置及相关设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104167092A (zh) * 2014-07-30 2014-11-26 北京市交通信息中心 一种确定出租车上下客热点区域中心的方法以及装置
CN105824840A (zh) * 2015-01-07 2016-08-03 阿里巴巴集团控股有限公司 一种用于区域标签管理的方法及装置
JP2016152044A (ja) * 2015-02-16 2016-08-22 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 目標位置を確定するための方法及び装置
CN107070961A (zh) * 2016-09-30 2017-08-18 阿里巴巴集团控股有限公司 基于地理位置数据的热点区域确定方法及装置
CN107203523A (zh) * 2016-03-16 2017-09-26 阿里巴巴集团控股有限公司 一种确定地理位置的属性信息的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104167092A (zh) * 2014-07-30 2014-11-26 北京市交通信息中心 一种确定出租车上下客热点区域中心的方法以及装置
CN105824840A (zh) * 2015-01-07 2016-08-03 阿里巴巴集团控股有限公司 一种用于区域标签管理的方法及装置
JP2016152044A (ja) * 2015-02-16 2016-08-22 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 目標位置を確定するための方法及び装置
CN107203523A (zh) * 2016-03-16 2017-09-26 阿里巴巴集团控股有限公司 一种确定地理位置的属性信息的方法及装置
CN107070961A (zh) * 2016-09-30 2017-08-18 阿里巴巴集团控股有限公司 基于地理位置数据的热点区域确定方法及装置

Also Published As

Publication number Publication date
CN110633337A (zh) 2019-12-31

Similar Documents

Publication Publication Date Title
Hecht et al. Automatic identification of building types based on topographic databases–a comparison of different data sources
Fonseca Clustering in the field of social sciences: That is your choice
WO2018103718A1 (zh) 应用推荐的方法、装置及服务器
CN110827924B (zh) 基因表达数据的聚类方法、装置、计算机设备及存储介质
KR20100039773A (ko) 신상품 추천문제 해결을 위한 내용기반 필터링과 협업 필터링을 혼합한 사용자 프로파일 기반 이미지 추천 방법 및 장치
CN109461053B (zh) 多推荐渠道的动态分流方法、电子装置及存储介质
CN108182253A (zh) 用于生成信息的方法和装置
CN110633337B (zh) 一种特征区域确定方法及装置,电子设备
CN109685573A (zh) 一种商圈数据的处理方法、装置、电子设备和存储介质
CN109271555B (zh) 信息聚类方法、系统、服务器及计算机可读存储介质
Scrucca Clustering multivariate spatial data based on local measures of spatial autocorrelation
CN113379269A (zh) 多因素空间聚类的城市商业功能区划方法、装置及介质
CN112583900A (zh) 云计算的数据处理方法及相关产品
CN114547386A (zh) 基于Wi-Fi信号的定位方法、装置,以及电子设备
CN112000761A (zh) 数据分析方法及装置、电子设备、计算机可读存储介质
CN110717787A (zh) 一种用户的分类方法及装置
CN112491999B (zh) 一种数据上报方法及装置
CN113469019B (zh) 一种景观图像特征值计算方法、装置、设备及存储介质
CN108346287A (zh) 基于影响因素分析的交通流量序列模式匹配方法
CN114359506A (zh) 一种户型对比及解析户型对比结果的方法和装置
CN109635057B (zh) 用电业务处理方法、装置、计算机设备和存储介质
CN112148945A (zh) 一种异常房源信息的识别方法
Lloyd et al. Surface models and the spatial structure of population variables: Exploring smoothing effects using Northern Ireland grid square data
Dudeni-Tlhone et al. Clustering of housing and household patterns using 2011 population census
CN111241483B (zh) 基于云平台的资源价值评估处理方法和相关产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant