CN109376761A - 一种地址标识及其经纬度的挖掘方法及装置 - Google Patents

一种地址标识及其经纬度的挖掘方法及装置 Download PDF

Info

Publication number
CN109376761A
CN109376761A CN201811064084.XA CN201811064084A CN109376761A CN 109376761 A CN109376761 A CN 109376761A CN 201811064084 A CN201811064084 A CN 201811064084A CN 109376761 A CN109376761 A CN 109376761A
Authority
CN
China
Prior art keywords
latitude
address
longitude
longitude information
final
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811064084.XA
Other languages
English (en)
Other versions
CN109376761B (zh
Inventor
朱静雅
朱青祥
李�诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201811064084.XA priority Critical patent/CN109376761B/zh
Publication of CN109376761A publication Critical patent/CN109376761A/zh
Priority to PCT/CN2019/095106 priority patent/WO2020052338A1/zh
Application granted granted Critical
Publication of CN109376761B publication Critical patent/CN109376761B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种地址标识及其经纬度的挖掘方法即装置,涉及导航定位技术领域。所述方法,包括:获取用以挖掘地址标识及其经纬度的原始数据;获取所述原始数据中的地址标识,以及与所述地址标识对应的经纬度信息;针对对应多个经纬度信息的地址标识,通过聚类算法确定所述地址标识对应的最终经纬度信息。解决了现有的获取地址标识及其经纬度方案人力运营成本较大,准确性以及实时性不高的技术问题。取得了降低地址标识及其经纬度的挖掘人力成本,同时提高挖掘得到的地址标识及其最终经纬度信息的时效性以及准确性的有益效果。

Description

一种地址标识及其经纬度的挖掘方法及装置
技术领域
本发明涉及导航定位技术领域,具体涉及一种地址标识及其经纬度的挖掘方法及装置。
背景技术
随着移动互联网技术的发展和智能手机应用的普及,人们对于导航定位的速度、精度和场景适应性的要求也越来越高,而且大多公司业务中存在大量的定位需求。在实际应用中,一般可以采用道路名称、门牌号等等地址标识对实体场所进行标号区分,而通过获取地址标识的位置信息,则可以辅助定位能力提升到地址标识级别。在现有的技术中,对于如何获取地址标识及其经纬度,地图类商家和其他O2O(Online To Offline,线上到线下)公司一般采用如下的方式:
地图类商家,如在线地图或者电子地图等商家一般采用人力实采的方式获取地址标识及其经纬度,定期地花费人力去各个街道录入;而O2O公司则多直接采用地图类商家提供的定位服务。
但是对于第一种方式需要耗费巨大的人力运营成本,而且由于面积大参与人员多,容易出现错误,导致精度不高;对于第二种方式则太过于依赖地图类商家提供的服务,且无法保证准确性和实时性。
发明内容
本发明提供一种地址标识及其经纬度的挖掘方法、装置、电子设备及可读存储介质,以部分或全部解决现有技术中地址标识及其经纬度的挖掘过程相关的上述问题。
依据本发明的第一方面,提供了一种地址标识及其经纬度的挖掘方法,包括:
获取用以挖掘地址标识及其经纬度的原始数据;所述原始数据包括兴趣点数据和/或用户原创内容行为数据;
获取所述原始数据中的地址标识,以及与所述地址标识对应的经纬度信息;
针对对应多个经纬度信息的地址标识,通过聚类算法确定所述地址标识对应的最终经纬度信息。
根据本发明的第二方面,提供了一种地址标识及其经纬度的挖掘装置,包括:
原始数据获取模块,用于获取用以挖掘地址标识及其经纬度的原始数据;所述原始数据包括兴趣点数据和/或用户原创内容行为数据;
数据挖掘模块,用于获取所述原始数据中的地址标识,以及与所述地址标识对应的经纬度信息;
最终经纬度信息确认模块,用于针对对应多个经纬度信息的地址标识,通过聚类算法确定所述地址标识对应的最终经纬度信息。
根据本发明的第三方面,提供了一种电子设备,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现前述的地址标识及其经纬度的挖掘方法。
根据本发明的第四方面,提供了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如前述的地址标识及其经纬度的挖掘方法。
根据本发明的一种地址标识及其经纬度的挖掘方法,可以获取用以挖掘地址标识及其经纬度的原始数据;获取所述原始数据中的地址标识,以及与所述地址标识对应的经纬度信息;针对对应多个经纬度信息的地址标识,通过聚类算法确定所述地址标识对应的最终经纬度信息。由此取得了降低地址标识及其经纬度的挖掘人力成本,同时提高挖掘得到的地址标识及其最终经纬度信息的时效性以及准确性的有益效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种地址标识及其经纬度的挖掘方法的步骤流程图;
图2示出了根据本发明一个实施例的一种地址标识及其经纬度的挖掘方法的步骤流程图;
图3示出了根据本发明一个实施例的一种密度聚类示意图;
图4示出了根据本发明一个实施例的一种地址标识及其经纬度的挖掘装置的结构示意图;以及
图5示出了根据本发明一个实施例的一种地址标识及其经纬度的挖掘装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
详细介绍本发明实施例提供的一种地址标识及其经纬度的挖掘方法。
参照图1,示出了本发明实施例中的一种地址标识及其经纬度的挖掘方法的步骤流程图。
步骤110,获取用以挖掘地址标识及其经纬度的原始数据。
在实际应用中,外卖平台、在线评价网站、在线购物平台等等用户或商家可以进行输入信息、评价等的平台可以记录用户的兴趣点(POI,Point of Interest)数据和/或用户原创内容(UGC,User Generated Content)行为数据。其中,POI数据也可以叫做"Point ofInformation",即"信息点"。POI数据可以包括但不限于名称、地址、经度、纬度、类别等。在电子地图上一般用气泡图标来表示POI,像电子地图上的景点、政府机构、公司、商场、饭馆等,都是POI。UGC的概念最早起源于互联网领域,即用户将自己原创的内容通过互联网平台进行展示或者提供给其他用户。UGC并不是某一种具体的业务,而是一种用户使用互联网的新方式,即由原来的以下载为主变成下载和上传并重。随着互联网运用的发展,网络用户的交互作用得以体现,用户既是网络内容的浏览者,也是网络内容的创造者。在本发明实施例中的UGC行为数据可以包括但不限于用户原创内容对应的任何数据,例如更改的状态、发表的日志、发布的照片、发布的评价、报错的行为数据、新增的行为数据,等等。而且报错的行为数据具体可以包括但不限于针对地址,和/或针对某一地址所对应的经纬度信息的报错,而且新增的行为数据也可以包括但不限于新增地址,和/或新增针对某一地址的经纬度信息,等等。
因此,在本发明实施例中,可以通过任何可用方式获取用以挖掘地址标识及其经纬度的原始数据,而且原始数据具体包含的内容也可以根据需求进行预先设置,对此本发明实施例不加以限定。
可选地,在本申请实施例中,原始数据可以包括但不限于兴趣点数据和/或用户原创内容行为数据。
例如,以美团点评平台为例,美团点评平台包含有大量的用户,因此具有大量POI数据包含的地址和经纬度,及大量用户新增和报错等行为中带来的地址和经纬度。因此则可以从美团点评平台中大量用户的POI数据和UGC行为数据中挖掘出地址与经纬度。那么此时则可以该平台中的POI数据和/或UGC行为数据作为原始数据。当然,在本发明实施例中,可以根据需求设置原始数据的具体来源以及获取渠道,对此本发明实施例不加以限定。
步骤120,获取所述原始数据中的地址标识,以及与所述地址标识对应的经纬度信息。
如前述,获取的原始数据中可以包含地址、经度、维度等数据,而在地址中一般可以具体到省、市、区/县、乡镇、村、街道以及门牌号,等等。因此,在本发明实施例中,在获取得到原始数据之后,则可以进一步获取所述原始数据中的地址标识,以及与所述地址标识对应的经纬度信息。具体的可以通过任何可用方法获取原始数据中的地址标识,以及与所述地址标识对应的经纬度信息,对此本发明实施例不加以限定。
其中的地址标识可以包括道路名称以及门牌号,当然还可以包括国家名称、省份名称、市级名称、区级名称、县级名称、乡镇级名称、村级名称中的一个或多个,具体的可以根据需求进行预先设置,对此本发明实施例不加以限定。经纬度信息可以包括相应地址标识对应的经度和/或维度。
步骤130,针对对应多个经纬度信息的地址标识,通过聚类算法确定所述地址标识对应的最终经纬度信息。
在实际应用中,不同的用户或者是同一用户在不同时刻都可以对同样的地址标识设置经纬度信息。因此同一地址标识可能对应多个经纬度信息,而且多个经纬度信息可以是不完全相同,那么则无法准确确定该地址标识对应的准确的经纬度信息。因此,在本发明实施例中,对于对应多个经纬度信息的地址标识,则可以通过聚类算法确定所述地址标识对应的最终经纬度信息。在本发明实施例中,可以通过任何一种聚类算法确定各地址标识对应的最终经纬度信息,具体的可以根据需求进行预先设置,对此本发明实施例不加以限定。例如,可以采用K-Means(K均值)聚类、均值漂移聚类、基于密度的聚类、用高斯混合模型的最大期望聚类、凝聚层次聚类以及图团体检测(Graph Community Detection)聚类,等等中的任意一种。
当然,在本发明实施例中,对于对应一个经纬度信息的地址标识,则可以直接以该经纬度信息作为相应地址标识的最终经纬度信息。
在本发明实施例中,通过获取用以挖掘地址标识及其经纬度的原始数据;获取所述原始数据中的地址标识,以及与所述地址标识对应的经纬度信息;针对对应多个经纬度信息的地址标识,通过聚类算法确定所述地址标识对应的最终经纬度信息。从而降低了获取地址标识及其经纬度的人力成本,同时提高了时效性。
实施例二
详细介绍本发明实施例提供的一种地址标识及其经纬度的挖掘方法。
参照图2,示出了本发明实施例中的一种地址标识及其经纬度的挖掘方法的步骤流程图。
步骤210,获取用以挖掘地址标识及其经纬度的原始数据。
步骤220,获取所述原始数据中的地址经纬度数据;所述地址经纬度数据包括地址数据,经纬度数据,以及地址与经纬度的对应关系。
如前述,在实际应用中原始数据中一般可以包括地址,经纬度等数据,而且经纬度数据一般是某一地点的经纬度数据,同时还可以基于地址描述各地点,因此同一地点的地址数据以及经纬度数据之间存在对应关系。因此,在本发明实施例中,可以获取所述原始数据中的地址经纬度数据。其中,地址经纬度数据包括地址数据,经纬度数据,以及地址与经纬度的对应关系。
步骤230,基于地理知识库,对所述地址数据进行结构化处理,并取结构化后的道路名称以及门牌号作为与所述地址数据对应的地址标识;所述地理知识库中包括地理信息实体库,以及各所述地理信息实体之间的关系。
其中地理信息实体库中可以包括不同的国家名称、省份名称、城市名称、县区名称、乡镇名称、道路名称,等等。例如上海市、北京市、成都市等的城市,长宁区、华阴县等的区县,安化路,长安街,朱雀大街等的道路名称。各地理信息实体之间的关系可以包括不同等级的地理信息实体之间的包含关系,或者是从属关系,等等。诸如“上海市”是“长宁区”的父亲,“长宁区”是“安化路”的父亲等。
在本发明实施例中,则可以基于地理知识库,对获取得到的地址数据进行结构化处理。例如,对于地址数据“长宁区安化路492号德必易园”,经结构化处理后为“长宁区”,“安化路”,“492号”,“德必易园”,且分别对应的类型为“区县”,“道路”,“门牌号”,“地标”。
对于结构化处理后的地址数据,则可以准确获取地址数据中的道路名称以及门牌号,那么则可以取结构化后地址数据中的道路名称以及门牌号作为相应地址数据对应的地址标识。例如,对于上述的地址数据“长宁区安化路492号德必易园”,取结构化后地址数据中的道路名称以及门牌号作为相应地址数据对应的地址标识,则可以得到其地址标识为“安化路492号”。
步骤240,基于所述地址与经纬度的对应关系,将与所述地址数据对应的经纬度数据作为与所述地址标识对应的经纬度信息。
在确定了地址数据对应的地址标识之后,则可以进一步基于地址与经纬度的对应关系,将与相应的地址数据对应的经纬度数据作为与相应的地址标识对应的经纬度信息。
例如,假设基于地址与经纬度的对应关系,上述的地址数据“长宁区安化路492号德必易园”对应的经纬度数据包括(经度1,维度1)、(经度2,维度2),那么则可以得到该地址数据的地址标识“安化路492号”所对应的经纬度信息为(经度1,维度1)、(经度2,维度2)。
步骤250,基于对应多个经纬度信息的地址标识,则根据第一距离阈值以及第一样本阈值,采用密度聚类算法对所述多个经纬度信息进行聚类,得到至少一个聚类簇。
在实际应用中,由于层次聚类算法和划分式聚类算法往往只能发现凸形的聚类簇。为了弥补这一缺陷,发现各种任意形状的聚类簇,因此开发出基于密度的聚类算法。这类算法认为,在整个样本空间点中,各聚类簇是由一群的稠密样本点组成的,而这些稠密样本点被低密度区域(噪声)分割,而算法的目的就是要过滤低密度区域,发现稠密样本点。那么在本发明实施例中,由于可以通过经纬度坐标点表征各经纬度信息,而且通过聚类簇中包含的经纬度坐标点的多少即可以确定地址标识所对应的各个经纬度信息的准确度。因此,在本发明实施例中,考虑到密度聚类算法的准确性以及可操作性更高,优选地可以针对对应多个经纬度信息的地址标识,通过密度聚类算法确定所述地址标识对应的最终经纬度信息。
其中的密度聚类算法可以为DBSCAN(Densit-based Spatial Clustering ofApplication with Noise,具有噪声的基于密度的聚类方法),OPTICS(Ordering PointingTo Identify the Cluster Structure),DENCLUE等任意一种密度聚类算法。
例如,可以通过密度聚类算法对同一地址标识对应的多个经纬度信息进行聚类,得到至少一个聚类簇,然后可以从各个聚类簇中选择出最大簇,进而可以最大簇中包含的经纬度信息的平均值作为相应地址标识的最终经纬度信息。
基于密度的聚类算法,也即密度聚类算法一般假定类别可以通过样本分布的紧密程度决定。同一类别的样本,他们之间的紧密相连的,也就是说,在该类别任意样本周围不远处一定有同类别的样本存在。通过将紧密相连的样本划为一类,这样就得到了一个聚类类别。通过将所有各组紧密相连的样本划为各个不同的类别,则我们就得到了最终的所有聚类类别结果。
以DBSCAN密度聚类算法为例,DBSCAN密度聚类算法是基于一组邻域来描述样本集的紧密程度的,参数(∈,MinPts)用来描述邻域的样本分布紧密程度。其中,∈描述了某一样本的邻域距离阈值,也即第一距离阈值,MinPts描述了某一样本的距离为∈的邻域中样本个数的阈值,也即第一样本阈值。
假设样本集是D=(x1,x2,...,xm),则DBSCAN具体的密度描述定义如下:
1)∈邻域:对于xj∈D,其∈邻域包含样本集D中与xj的距离不大于∈的子样本集,即N∈(xj)={xi∈D|distance(xi,xj)≤∈},这个子样本集的个数记为|N∈(xj)|。
2)核心对象:对于任一样本xj∈D,如果其∈邻域对应的N∈(xj)至少包含MinPts个样本,即如果|N∈(xj)|≥MinPts,则xj是核心对象。
3)密度直达:如果xi位于xj的∈邻域中,且xj是核心对象,则称xi由xj密度直达。反之不一定成立,即此时不能说xj由xi密度直达,除非且xi也是核心对象。
4)密度可达:对于xi和xj,如果存在样本序列p1,p2,...,pT,满足p1=xi,pT=xj,且pt+1由pt密度直达,则称xj由xi密度可达。也就是说,密度可达满足传递性。此时序列中的传递样本p1,p2,...,pT-1均为核心对象,因为只有核心对象才能使其他样本密度直达。密度可达也不满足对称性,这个可以由密度直达的不对称性得出。
5)密度相连:对于xi和xj,如果存在核心对象样本xk,使xi和xj均由xk密度可达,则称xi和xj密度相连。密度相连关系是满足对称性的。
如图3可以很容易理解上述定义,假设图中的MinPts=5,其中每个带有箭头的线段起点所在的样本都是核心对象,因为其∈邻域至少有5个样本。其他的样本则是非核心对象。所有核心对象密度直达的样本在以相应核心对象为中心的超球体内,如果不在超球体内,则不能密度直达。图中用带有箭头的线段连起来的核心对象组成了密度可达的样本序列。在这些密度可达的样本序列的∈邻域内所有的样本相互都是密度相连的。
如果基于对应多个经纬度信息的地址标识,则根据第一距离阈值以及第一样本阈值,采用DBSCAN密度聚类算法对所述多个经纬度信息进行聚类,得到至少一个聚类簇。此时上述的样本集D=(x1,x2,...,xm)中包含的样本则为一个地址标识对应的多个经纬度信息。其中第一距离阈值以及第一样本阈值的具体取值可以根据需求进行预先设置,对此本发明实施例不加以限定。对于每个地址标识所关联的经纬度信息,其在地图上均可显示,并可计算各个经纬度信息之间的距离。如图3所示,一个地址标识对应多个经纬度信息,图3中的一个样本点对应一个经纬度信息,经DBSCAN密度聚类后,一个地址标识对应的多个经纬度点可能聚成至少一个聚类簇。如图3则得到两个聚类簇,分别为左右两侧两个连续的有向线段所连接的核心对象对应的超球体构成的聚类簇。
步骤260,从所述至少一个聚类簇中选定最大簇。
很明显,最大簇所包含的经纬度信息对于相应的地址标识更为准确,因此在本发明实施例中,可以从经密度聚类得到的至少一个聚类簇中选定最大簇,以确定相应地址标识的最终经纬度信息。具体的可以任何可用方法选定出最大簇,对此本发明实施例不加以限定。
例如,可以包含的核心对象的数量最多的聚类簇作为最大簇,或者是以包含的样本点数量最多,也即包含的经纬度信息最多的聚类簇作为最大簇,等等。
可选地,在本发明实施例中,所述步骤260进一步可以包括:
子步骤261,以所述聚类簇中包含的经纬度信息数量最多的一个聚类簇作为所述最大簇。
优选地,在本发明实施例中,可以一地址标识对应的至少一个聚类簇中包含的经纬度信息数量最多的一个聚类簇作为相应地址标识对应的最大簇。
例如,对于图3所示的一个地址标识的经纬度信息的聚类效果图。其中的每个样本点对应一个经纬度信息,可以看出其中左侧的聚类簇中包含的经纬度信息数量最多,那么则可以该聚类簇作为相应地址标识对应的最大簇。
步骤270,对所述最大簇中的经纬度信息取平均,得到平均后的经纬度数值作为所述地址标识对应的最终经纬度信息。
在确认了地址标识对应的最大簇之后,则可以进一步对相应的最大簇中的经纬度信息取平均,得到平均后的经纬度数值作为相应地址标识对应的最终经纬度信息。如前述,聚类簇中的每个样本点对应一个样本,而本发明实施例中的样本即为经纬度信息,因此聚类簇中的一个样本点对应一个经纬度信息。那么此时可以将最大簇中的每个样本点对应的经纬度信息取平均,得到平均后的经纬度数值作为所述地址标识对应的最终经纬度信息。具体的可以将最大簇中的各个样本点对应的经纬度信息中经度信息取平均,同时将各个样本点对应的经纬度信息中纬度信息取平均,进而以平均后的经度值以及纬度值,构建得到相应地址标识对应的最终经纬度信息。
步骤280,获取所述地址标识对应的最大簇中包含的经纬度信息的第一数量,以及所述地址标识对应的最终经纬度信息与所述地址标识对应的道路之间的第一距离。
在实际应用中,经上述步骤可以批量得到的大量地址标识的最终经纬度信息。但是各个最终经纬度信息与相应地址标识的匹配程度并不能确定。而且在定位服务等需要用到地址标识以及相应的最终经纬度信息时,如果定位服务的精度要求较高,而返回的地址标识以及相应的最终经纬度信息可能无法达到相应的经度要求。因此,在本发明实施例中,为了避免上述问题,可以进一步确定各个地址标识以及相应的最终经纬度信息的置信度。具体的可以基于地址标识对应的最大簇中包含的经纬度信息的第一数量,以及相应地址标识对应的最终经纬度信息与相应地址标识对应的道路之间的第一距离,确定相应地址标识及其最终经纬度信息的置信度。
那么首先需要获取所述地址标识对应的最大簇中包含的经纬度信息的第一数量,以及所述地址标识对应的最终经纬度信息与所述地址标识对应的道路之间的第一距离。
其中,在本发明实施例中可以通过任何可用方法获取地址标识对应的最大簇中包含的经纬度信息的第一数量,以及地址标识对应的最终经纬度信息与相应的地址标识对应的道路之间的第一距离。例如,最大簇中每个样本点对应一个经纬度信息,因此可以统计最大簇中样本点的数量,进而得到最大簇中包含的经纬度信息的第一数量。在电子地图中获取地址标识对应的最终经纬度信息所对应的坐标点到相应的地址标识对应的道路之间的垂直距离作为第一距离;等等。
步骤290,根据所述第一数量以及所述第一距离,确定所述地址标识与所述最终经纬度信息的置信度。
在获取得到第一数量以及第一距离之后,则可以根据第一数量以及第一距离,确定相应的地址标识与其最终经纬度信息的置信度。其中,置信度可以用于表征相应的地址标识与其最终经纬度信息的准确度。而且,第一数量以及第一距离与置信度之间的对应关系可以根据需求进行预先设置,对此本发明实施例不加以限定。例如,可以设置第一数量与置信度成正比关系,且第一距离与置信度成反比关系,此时置信度的取值越大,则说明相应地址标识及其最终经纬度信息的准确度越高;当然也可以设置第一数量与置信度成反比关系,且第一距离与置信度成正比关系,此时置信度的取值越小,则说明相应地址标识及其最终经纬度信息的准确度越高;等等。
可选地,在本发明实施例中,所述步骤290进一步可以包括:
子步骤291,根据所述第一距离以及预设基础分值和预设距离阈值,确定所述地址标识与所述最终经纬度信息的初始分值。
其中的预设基础分值以及预设距离阈值都可以根据需求进行预先设置,对此本发明实施例不加以限定。而且,第一距离以及预设基础分值和预设距离阈值与初始分值的映射关系也可以根据需求或经验等进行预先设置,对此本发明实施例也不加以限定。
子步骤292,根据所述第一数量确定所述地址标识与所述最终经纬度信息的惩罚损失分值。
在实际应用中,如果地址标识对应的最大簇中包含经纬度信息越多,则说明由该最大簇中包含的经纬度信息确认得到的相应地址标识的最终经纬度信息的准确度越高,反正则越低。因此,在本发明实施例中,为了提高最终得到的置信度的准确性,还可以进一步基于相应地址标识对应的最大簇中所包含的经纬度信息的第一数量,确认相应地址标识及其最终经纬度信息的惩罚损失分值。其中,第一数量与惩罚损失分值之间的对应关系可以根据需求或者是经验等进行预先设置,对此本发明实施例不加以限定。例如,可以设置第一数量与惩罚损失分值呈线性反比关系,等等。
子步骤293,基于所述预设基础分值、所述初始分值以及所述惩罚损失分值,确定所述地址标识与所述最终经纬度信息的置信度。
在确定了惩罚损失分值之后,则可以基于预设基础分值、所述初始分值以及所述惩罚损失分值,确定相应地址标识及其最终经纬度信息的置信度。其中,置信度与预设基础分值、初始分值以及惩罚损失分值之间的对应关系可以根据需求或者是经验等进行预先设置,对此本发明实施例不加以限定。
可选地,在本发明实施例中,可以根据公式
C=baseScore+(1-D/threshold)^2*(100-baseScore)-cntLossScore,确定所述地址标识与所述最终经纬度信息的置信度;其中,C表示所述地址标识与所述最终经纬度信息的置信度,baseScore表示预设基础分值,D表示所述第一距离,threshold表示预设距离阈值,cntLossScore表示基于所述第一数量的惩罚损失分值;当所述第一距离大于预设距离阈值时,所述(1-D/threshold)的取值为0。
在本发明实施例中,可以设置置信度的取值为百分制,且取值越大则说明相应地址标识及其最终经纬度信息的准确度越高。根据经验则可以根据公式C=baseScore+(1-D/threshold)^2*(100-baseScore)-cntLossScore,确定所述地址标识与所述最终经纬度信息的置信度。其中,baseScore、threshold,以及cntLossScore的具体取值均可以根据需求进行预设设置,对此本发明实施例不加以限定。而且,如果地址标识对应的第一距离大于预设距离阈值,则说明该地址标识的最终经纬度信息距离其所属道路较远,偏差较大,此时则可以直接设置上述公式中的(1-D/threshold)的取值为0,从而降低该地址标识及其最终经纬度信息的置信度。
根据上述公式可以看出,此时初始分值与第一距离以及预设基础分值和预设距离阈值之间的对应关系为:
InitialScore=(1-D/threshold)^2*(100-baseScore),其中InitialScore为初始分值,此时是取(1-D/threshold)的平方值计算初始分值,在实际应用中也可以取(1-D/threshold)的N次方计算初始分值,其中的N可以根据需求或经验等进行预先设置,对此本发明实施例不加以限定。
可选地,根据实际生产中的经验,为了能够比较好将置信度映射到100分的区间内,且能较好的反应地址标识及其最终经纬度的可信度,在本发明实施例中,可以设置所述预设基础分值为35;所述预设距离阈值为500米;当所述第一数量小于等于3时,所述惩罚损失分值为20,当所述第一数量大于3且小于等于6时,所述惩罚损失分值为10,当所述第一数量大于6且小于等于10时,所述惩罚损失分值为5,当所述第一数量大于10时,所述惩罚损失分值为0。
可选地,在本发明实施例中,还包括:
步骤2110,当接收到定位服务请求时,根据所述定位服务请求的精度要求,以及所述地址标识与所述最终经纬度信息的置信度,对所述定位服务请求进行定位服务响应。
在本发明实施例中,在确定了各地址标识及其最终经纬度信息的置信度之后,则可以基于置信度,将各地址标识及其最终经纬度信息进行应用。比如定位服务,当接收到定位服务请求时,则可以根据所述定位服务请求的精度要求,以及所述地址标识与所述最终经纬度信息的置信度,对所述定位服务请求进行定位服务响应。例如,如果定位服务请求的精度要求很高的话,就只使用置信度非常高的地址标识及其最终经纬度信息,对所述定位服务请求进行定位服务响应;而如果定位服务请求的精度要求不高,则可以宽泛一些。
其中,定位服务请求的精度要求与置信度之间的对应关系可以根据需求进行预先设置,对此本发明实施例不加以限定。例如,可以在设置精度要求时,直接设置精度要求的内容为要求置信度在预设分数以上;或者设置不同的精度要求等级,而不同的精度要求等级又分别对应于不同的置信度取值范围,等等。
步骤2120,根据所述地址标识与所述最终经纬度信息的置信度,对所述最终经纬度信息对应商户的地址进行调整。
另外,在本发明实施例中,还可以基于置信度校准各商户的地址。例如,对于某一经纬度信息对应的商户,可以根据以该经纬度作为最终经纬度信息的地址标识的置信度取值大小,考虑是否将商户的地址更改为此经纬度信息对应的地址标识。具体的可以根据需求预先设置一置信度阈值,当地址标识及其最终经纬度信息的置信度的取值大于等于该置信度阈值,则可以将相应商户的地址中的地址标识部分更改为此最终经纬度信息对应的地址标识,或者可以提示商户将相应商户的地址中的地址标识更部分改为此最终经纬度信息对应的地址标识,并由商户决定最终是否更改;否则不更改或者不进行提示。
步骤2130,根据调整后的商户地址以及所述商户地址与道路的关系,更新所述地理知识库。
在本发明实施例中,在基于置信度对商户的地址进行调整之后,为了避免后续在确定该商户的地址时出现错误,可以根据调整后的商户地址以及所述商户地址与道路的关系,更新所述地理知识库。具体的可以将地理知识库中记录的相应商户与其调整前的地址之间对应关系取消或者删除,而将调整后的商户地址与相应商户的对应关系,以及商户地址与道路的关系,记录至地理知识库中。
例如,假设在地理知识库中记录有商户A所在地址为“长宁区安化路492号”,可以看出此时商户A属于“安化路”,而基于上述的置信度调整后的商户A所在地址为“长宁区安贞路500号”,那么此时则可以将地理知识库中的商户A与“长宁区安化路492号”的对应关系取消或删除,而将商户A地址更新为“长宁区安贞路500号”。
在本发明实施例中,通过获取用以挖掘地址标识及其经纬度的原始数据;所述原始数据包括兴趣点数据和/或用户原创内容行为数据;获取所述原始数据中的地址标识,以及与所述地址标识对应的经纬度信息;针对对应多个经纬度信息的地址标识,通过聚类算法确定所述地址标识对应的最终经纬度信息。从而降低了获取地址标识及其经纬度的人力成本,同时提高了时效性。
其次,在本发明实施例中,还可以获取所述原始数据中的地址经纬度数据;所述地址经纬度数据包括地址数据,经纬度数据,以及地址与经纬度的对应关系;基于地理知识库,对所述地址数据进行结构化处理,并取结构化后的道路名称以及门牌号作为与所述地址数据对应的地址标识;所述地理知识库中包括地理信息实体库,以及各所述地理信息实体之间的关系;基于所述地址与经纬度的对应关系,将与所述地址数据对应的经纬度数据作为与所述地址标识对应的经纬度信息。从而进一步提高了地址标识及其经纬度的挖掘效率。
再次,在本发明实施例中,还可以基于对应多个经纬度信息的地址标识,则根据第一距离阈值以及第一样本阈值,采用密度聚类算法对所述多个经纬度信息进行聚类,得到至少一个聚类簇;从所述至少一个聚类簇中选定最大簇;对所述最大簇中的经纬度信息取平均,得到平均后的经纬度数值作为所述地址标识对应的最终经纬度信息。并且,以所述聚类簇中包含的经纬度信息数量最多的一个聚类簇作为所述最大簇。从而提高确定的最终经纬度信息的准确度。
而且,在本发明实施例中,还可以获取所述地址标识对应的最大簇中包含的经纬度信息的第一数量,以及所述地址标识对应的最终经纬度信息与所述地址标识对应的道路之间的第一距离;根据所述第一数量以及所述第一距离,确定所述地址标识与所述最终经纬度信息的置信度。并且,根据所述第一距离以及预设基础分值和预设距离阈值,确定所述地址标识与所述最终经纬度信息的初始分值;根据所述第一数量确定所述地址标识与所述最终经纬度信息的惩罚损失分值;基于所述预设基础分值、所述初始分值以及所述惩罚损失分值,确定所述地址标识与所述最终经纬度信息的置信度。。从而可以进一步确定各地址标识及其最终经纬度信息的准确性。
另外,在本发明实施例中,当接收到定位服务请求时,根据所述定位服务请求的精度要求,以及所述地址标识与所述最终经纬度信息的置信度,对所述定位服务请求进行定位服务响应;根据所述地址标识与所述最终经纬度信息的置信度,对所述最终经纬度信息对应商户的地址进行调整;根据调整后的商户地址以及所述商户地址与道路的关系,更新所述地理知识库。从而基于置信度将挖掘得到的地址标识与所述最终经纬度信息进行应用,同时提高地理知识库的时效性以及准确性。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
实施例三
详细介绍本发明实施例提供的一种地址标识及其经纬度的挖掘装置。
参照图4,示出了本发明实施例中一种地址标识及其经纬度的挖掘装置的结构示意图。具体包括:
原始数据获取模块310,用于获取用以挖掘地址标识及其经纬度的原始数据。
可选地,在本申请实施例中,所述原始数据包括兴趣点数据和/或用户原创内容行为数据。
数据挖掘模块320,用于获取所述原始数据中的地址标识,以及与所述地址标识对应的经纬度信息。
最终经纬度信息确认模块330,用于针对对应多个经纬度信息的地址标识,通过密度聚类算法确定所述地址标识对应的最终经纬度信息。
在本发明实施例中,通过获取用以挖掘地址标识及其经纬度的原始数据;获取所述原始数据中的地址标识,以及与所述地址标识对应的经纬度信息;针对对应多个经纬度信息的地址标识,通过密度聚类算法确定所述地址标识对应的最终经纬度信息。从而降低了获取地址标识及其经纬度的人力成本,同时提高了时效性。
实施例四
详细介绍本发明实施例提供的一种地址标识及其经纬度的挖掘装置。
参照图5,示出了本发明实施例中一种地址标识及其经纬度的挖掘装置的结构示意图。具体包括:
原始数据获取模块410,用于获取用以挖掘地址标识及其经纬度的原始数据。
数据挖掘模块420,用于获取所述原始数据中的地址标识,以及与所述地址标识对应的经纬度信息。
其中,所述数据挖掘模块420,进一步可以包括:
数据挖掘子模块421,用于获取所述原始数据中的地址经纬度数据;所述地址经纬度数据包括地址数据,经纬度数据,以及地址与经纬度的对应关系。
结构化处理子模块422,用于基于地理知识库,对所述地址数据进行结构化处理,并取结构化后的道路名称以及门牌号作为与所述地址数据对应的地址标识;所述地理知识库中包括地理信息实体库,以及各所述地理信息实体之间的关系。
经纬度信息确认子模块423,用于基于所述地址与经纬度的对应关系,将与所述地址数据对应的经纬度数据作为与所述地址标识对应的经纬度信息。
最终经纬度信息确认模块430,用于针对对应多个经纬度信息的地址标识,通过聚类算法确定所述地址标识对应的最终经纬度信息。
其中,所述最终经纬度信息确认模块430,进一步可以包括:
密度聚类子模块431,用于基于对应多个经纬度信息的地址标识,则根据第一距离阈值以及第一样本阈值,采用密度聚类算法对所述多个经纬度信息进行聚类,得到至少一个聚类簇。
最大簇确定子模块432,用于从所述至少一个聚类簇中选定最大簇。
可选地,在本发明实施例中,所述最大簇确定子模块432,还用于以所述聚类簇中包含的经纬度信息数量最多的一个聚类簇作为所述最大簇。
最终经纬度信息获取子模块433,用于对所述最大簇中的经纬度信息取平均,得到平均后的经纬度数值作为所述地址标识对应的最终经纬度信息。
置信度数据获取模块440,用于获取所述地址标识对应的最大簇中包含的经纬度信息的第一数量,以及所述地址标识对应的最终经纬度信息与所述地址标识对应的道路之间的第一距离。
置信度确定模块450,用于根据所述第一数量以及所述第一距离,确定所述地址标识与所述最终经纬度信息的置信度。
可选地,在本发明实施例中,所述置信度确定模块450,进一步可以包括:
初始分值确定子模块,用于根据所述第一距离以及预设基础分值和预设距离阈值,确定所述地址标识与所述最终经纬度信息的初始分值;
损失分值确定子模块,用于根据所述第一数量确定所述地址标识与所述最终经纬度信息的惩罚损失分值;
置信度确定子模块,用于基于所述预设基础分值、所述初始分值以及所述惩罚损失分值,确定所述地址标识与所述最终经纬度信息的置信度。
可选地,在本发明实施例中,所述装置还可以包括:
定位服务响应模块,用于当接收到定位服务请求时,根据所述定位服务请求的精度要求,以及所述地址标识与所述最终经纬度信息的置信度,对所述定位服务请求进行定位服务响应。
商户地址调整模块,用于根据所述地址标识与所述最终经纬度信息的置信度,对所述最终经纬度信息对应商户的地址进行调整。
地理知识库更新模块,用于根据调整后的商户地址以及所述商户地址与道路的关系,更新所述地理知识库。
本发明实施例还提供了一种电子设备,其特征在于,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述的地址标识及其经纬度的挖掘方法。
本发明实施例还提供了一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述的地址标识及其经纬度的挖掘方法。
在本发明实施例中,通过获取用以挖掘地址标识及其经纬度的原始数据;所述原始数据包括兴趣点数据和/或用户原创内容行为数据;获取所述原始数据中的地址标识,以及与所述地址标识对应的经纬度信息;针对对应多个经纬度信息的地址标识,通过聚类算法确定所述地址标识对应的最终经纬度信息。从而降低了获取地址标识及其经纬度的人力成本,同时提高了时效性。
其次,在本发明实施例中,还可以获取所述原始数据中的地址经纬度数据;所述地址经纬度数据包括地址数据,经纬度数据,以及地址与经纬度的对应关系;基于地理知识库,对所述地址数据进行结构化处理,并取结构化后的道路名称以及门牌号作为与所述地址数据对应的地址标识;所述地理知识库中包括地理信息实体库,以及各所述地理信息实体之间的关系;基于所述地址与经纬度的对应关系,将与所述地址数据对应的经纬度数据作为与所述地址标识对应的经纬度信息。从而进一步提高了地址标识及其经纬度的挖掘效率。
再次,在本发明实施例中,还可以基于对应多个经纬度信息的地址标识,则根据第一距离阈值以及第一样本阈值,采用密度聚类算法对所述多个经纬度信息进行聚类,得到至少一个聚类簇;从所述至少一个聚类簇中选定最大簇;对所述最大簇中的经纬度信息取平均,得到平均后的经纬度数值作为所述地址标识对应的最终经纬度信息。并且,以所述聚类簇中包含的经纬度信息数量最多的一个聚类簇作为所述最大簇。从而提高确定的最终经纬度信息的准确度。
而且,在本发明实施例中,还可以获取所述地址标识对应的最大簇中包含的经纬度信息的第一数量,以及所述地址标识对应的最终经纬度信息与所述地址标识对应的道路之间的第一距离;根据所述第一数量以及所述第一距离,确定所述地址标识与所述最终经纬度信息的置信度。并且,根据所述第一距离以及预设基础分值和预设距离阈值,确定所述地址标识与所述最终经纬度信息的初始分值;根据所述第一数量确定所述地址标识与所述最终经纬度信息的惩罚损失分值;基于所述预设基础分值、所述初始分值以及所述惩罚损失分值,确定所述地址标识与所述最终经纬度信息的置信度。。从而可以进一步确定各地址标识及其最终经纬度信息的准确性。
另外,在本发明实施例中,当接收到定位服务请求时,根据所述定位服务请求的精度要求,以及所述地址标识与所述最终经纬度信息的置信度,对所述定位服务请求进行定位服务响应;根据所述地址标识与所述最终经纬度信息的置信度,对所述最终经纬度信息对应商户的地址进行调整;根据调整后的商户地址以及所述商户地址与道路的关系,更新所述地理知识库。从而基于置信度将挖掘得到的地址标识与所述最终经纬度信息进行应用,同时提高地理知识库的时效性以及准确性。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的地址标识及其经纬度的挖 设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (18)

1.一种地址标识及其经纬度的挖掘方法,其特征在于,包括:
获取用以挖掘地址标识及其经纬度的原始数据;
获取所述原始数据中的地址标识,以及与所述地址标识对应的经纬度信息;
针对对应多个经纬度信息的地址标识,通过聚类算法确定所述地址标识对应的最终经纬度信息。
2.根据权利要求1所述的方法,其特征在于,所述获取所述原始数据中的地址标识,以及与所述地址标识对应的经纬度信息的步骤,包括:
获取所述原始数据中的地址经纬度数据;所述地址经纬度数据包括地址数据,经纬度数据,以及地址与经纬度的对应关系;
基于地理知识库,对所述地址数据进行结构化处理,并取结构化后的道路名称以及门牌号作为与所述地址数据对应的地址标识;所述地理知识库中包括地理信息实体库,以及各所述地理信息实体之间的关系;
基于所述地址与经纬度的对应关系,将与所述地址数据对应的经纬度数据作为与所述地址标识对应的经纬度信息。
3.根据权利要求1所述的方法,其特征在于,所述针对对应多个经纬度信息的地址标识,通过聚类算法确定所述地址标识对应的最终经纬度信息的步骤,包括:
基于对应多个经纬度信息的地址标识,则根据第一距离阈值以及第一样本阈值,采用密度聚类算法对所述多个经纬度信息进行聚类,得到至少一个聚类簇;
从所述至少一个聚类簇中选定最大簇;
对所述最大簇中的经纬度信息取平均,得到平均后的经纬度数值作为所述地址标识对应的最终经纬度信息。
4.根据权利要求3所述的方法,其特征在于,所述从所述至少一个聚类簇中选定最大簇的步骤,包括:
以所述聚类簇中包含的经纬度信息数量最多的一个聚类簇作为所述最大簇。
5.根据权利要求3所述的方法,其特征在于,在所述对于对应多个经纬度信息的地址标识,基于密度聚类算法确定所述地址标识对应的最终经纬度信息的步骤之后,还包括:
获取所述地址标识对应的最大簇中包含的经纬度信息的第一数量,以及所述地址标识对应的最终经纬度信息与所述地址标识对应的道路之间的第一距离;
根据所述第一数量以及所述第一距离,确定所述地址标识与所述最终经纬度信息的置信度。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一数量以及所述第一距离,确定所述地址标识与所述最终经纬度信息的置信度的步骤,包括:
根据所述第一距离以及预设基础分值和预设距离阈值,确定所述地址标识与所述最终经纬度信息的初始分值;
根据所述第一数量确定所述地址标识与所述最终经纬度信息的惩罚损失分值;
基于所述预设基础分值、所述初始分值以及所述惩罚损失分值,确定所述地址标识与所述最终经纬度信息的置信度。
7.根据权利要求5所述的方法,其特征在于,在所述根据所述第一数量以及所述第一距离,确定所述地址标识与所述最终经纬度信息的置信度的步骤之后,还包括:
当接收到定位服务请求时,根据所述定位服务请求的精度要求,以及所述地址标识与所述最终经纬度信息的置信度,对所述定位服务请求进行定位服务响应;
根据所述地址标识与所述最终经纬度信息的置信度,对所述最终经纬度信息对应商户的地址进行调整;
根据调整后的商户地址以及所述商户地址与道路的关系,更新所述地理知识库。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述原始数据包括兴趣点数据和/或用户原创内容行为数据。
9.一种地址标识及其经纬度的挖掘装置,其特征在于,包括:
原始数据获取模块,用于获取用以挖掘地址标识及其经纬度的原始数据;
数据挖掘模块,用于获取所述原始数据中的地址标识,以及与所述地址标识对应的经纬度信息;
最终经纬度信息确认模块,用于针对对应多个经纬度信息的地址标识,通过聚类算法确定所述地址标识对应的最终经纬度信息。
10.根据权利要求9所述的装置,其特征在于,所述数据挖掘模块,包括:
数据挖掘子模块,用于获取所述原始数据中的地址经纬度数据;所述地址经纬度数据包括地址数据,经纬度数据,以及地址与经纬度的对应关系;
结构化处理子模块,用于基于地理知识库,对所述地址数据进行结构化处理,并取结构化后的道路名称以及门牌号作为与所述地址数据对应的地址标识;所述地理知识库中包括地理信息实体库,以及各所述地理信息实体之间的关系;
经纬度信息确认子模块,用于基于所述地址与经纬度的对应关系,将与所述地址数据对应的经纬度数据作为与所述地址标识对应的经纬度信息。
11.根据权利要求9所述的装置,其特征在于,所述最终经纬度信息确认模块,包括:
密度聚类子模块,用于基于对应多个经纬度信息的地址标识,则根据第一距离阈值以及第一样本阈值,采用密度聚类算法对所述多个经纬度信息进行聚类,得到至少一个聚类簇;
最大簇确定子模块,用于从所述至少一个聚类簇中选定最大簇;
最终经纬度信息获取子模块,用于对所述最大簇中的经纬度信息取平均,得到平均后的经纬度数值作为所述地址标识对应的最终经纬度信息。
12.根据权利要求11所述的装置,其特征在于,所述最大簇确定子模块,还用于以所述聚类簇中包含的经纬度信息数量最多的一个聚类簇作为所述最大簇。
13.根据权利要求11所述的装置,其特征在于,还包括:
置信度数据获取模块,用于获取所述地址标识对应的最大簇中包含的经纬度信息的第一数量,以及所述地址标识对应的最终经纬度信息与所述地址标识对应的道路之间的第一距离;
置信度确定模块,用于根据所述第一数量以及所述第一距离,确定所述地址标识与所述最终经纬度信息的置信度。
14.根据权利要求13所述的装置,其特征在于,所述置信度确定模块,包括:
初始分值确定子模块,用于根据所述第一距离以及预设基础分值和预设距离阈值,确定所述地址标识与所述最终经纬度信息的初始分值;
损失分值确定子模块,用于根据所述第一数量确定所述地址标识与所述最终经纬度信息的惩罚损失分值;
置信度确定子模块,用于基于所述预设基础分值、所述初始分值以及所述惩罚损失分值,确定所述地址标识与所述最终经纬度信息的置信度。
15.根据权利要求13所述的装置,其特征在于,还包括:
定位服务响应模块,用于当接收到定位服务请求时,根据所述定位服务请求的精度要求,以及所述地址标识与所述最终经纬度信息的置信度,对所述定位服务请求进行定位服务响应;
商户地址调整模块,用于根据所述地址标识与所述最终经纬度信息的置信度,对所述最终经纬度信息对应商户的地址进行调整;
地理知识库更新模块,用于根据调整后的商户地址以及所述商户地址与道路的关系,更新所述地理知识库。
16.根据权利要求9-15任一项所述的装置,其特征在于,所述原始数据包括兴趣点数据和/或用户原创内容行为数据。
17.一种电子设备,其特征在于,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-8中的任一项所述的地址标识及其经纬度的挖掘方法。
18.一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1-8中的任一项所述的地址标识及其经纬度的挖掘方法。
CN201811064084.XA 2018-09-12 2018-09-12 一种地址标识及其经纬度的挖掘方法及装置 Active CN109376761B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811064084.XA CN109376761B (zh) 2018-09-12 2018-09-12 一种地址标识及其经纬度的挖掘方法及装置
PCT/CN2019/095106 WO2020052338A1 (zh) 2018-09-12 2019-07-08 地址标识及其经纬度挖掘

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811064084.XA CN109376761B (zh) 2018-09-12 2018-09-12 一种地址标识及其经纬度的挖掘方法及装置

Publications (2)

Publication Number Publication Date
CN109376761A true CN109376761A (zh) 2019-02-22
CN109376761B CN109376761B (zh) 2021-01-22

Family

ID=65404481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811064084.XA Active CN109376761B (zh) 2018-09-12 2018-09-12 一种地址标识及其经纬度的挖掘方法及装置

Country Status (2)

Country Link
CN (1) CN109376761B (zh)
WO (1) WO2020052338A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348679A (zh) * 2019-06-03 2019-10-18 菜鸟智能物流控股有限公司 物流处理方法、装置、电子设备和存储介质
CN110648043A (zh) * 2019-07-26 2020-01-03 深圳壹账通智能科技有限公司 基于地址信息的分析方法、装置、电子设备及存储介质
WO2020052338A1 (zh) * 2018-09-12 2020-03-19 北京三快在线科技有限公司 地址标识及其经纬度挖掘
CN111563630A (zh) * 2020-05-11 2020-08-21 圆通速递有限公司 基于地址经纬度聚类的物流服务网点布局方法和系统
CN112184102A (zh) * 2020-09-14 2021-01-05 深圳市睿搏科技集团有限公司 一种跨境电商订单尾程物流自动分配的方法
CN112308280A (zh) * 2019-08-02 2021-02-02 菜鸟智能物流控股有限公司 物流调度管理方法、装置、电子设备和存储介质
CN113568951A (zh) * 2021-07-30 2021-10-29 拉扎斯网络科技(上海)有限公司 一种数据挖掘、处理方法和装置,存储介质和电子设备
CN113570107A (zh) * 2021-06-08 2021-10-29 众能联合数字技术有限公司 一种用于工程租赁场景的工程项目地址定位方法
CN113704640A (zh) * 2021-08-09 2021-11-26 北京三快在线科技有限公司 用户常驻地址的预测方法、装置、电子设备及存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627184B (zh) * 2020-05-08 2023-09-26 北京京东振世信息技术有限公司 数据处理方法和装置
CN112380906B (zh) * 2020-10-19 2024-05-31 上汽通用五菱汽车股份有限公司 一种基于行车数据确定用户住址的方法
CN114170455A (zh) * 2021-11-18 2022-03-11 北京锐安科技有限公司 一种物体聚集方法、装置、电子设备及存储介质
CN116095601B (zh) * 2022-05-30 2023-10-20 荣耀终端有限公司 基站小区cell特征库更新方法及相关装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8401771B2 (en) * 2008-07-22 2013-03-19 Microsoft Corporation Discovering points of interest from users map annotations
US20130165143A1 (en) * 2011-06-24 2013-06-27 Russell Ziskind Training pattern recognition systems for determining user device locations
CN104077308A (zh) * 2013-03-28 2014-10-01 阿里巴巴集团控股有限公司 一种物流服务范围确定方法及装置
CN104572955A (zh) * 2014-12-29 2015-04-29 北京奇虎科技有限公司 一种基于聚类确定poi名称的系统及方法
CN104793224A (zh) * 2014-01-21 2015-07-22 中国移动通信集团设计院有限公司 一种gps定位纠偏方法及装置
CN106534392A (zh) * 2015-09-10 2017-03-22 阿里巴巴集团控股有限公司 一种定位信息采集方法、定位方法及装置
CN107622061A (zh) * 2016-07-13 2018-01-23 阿里巴巴集团控股有限公司 一种确定地址唯一性的方法、装置及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441088A (zh) * 2007-11-23 2009-05-27 吴玉先 定位方法及定位装置
CN104050196B (zh) * 2013-03-15 2017-09-15 阿里巴巴集团控股有限公司 一种兴趣点数据冗余检测方法及装置
US11562040B2 (en) * 2014-09-25 2023-01-24 United States Postal Service Methods and systems for creating and using a location identification grid
CN107547633B (zh) * 2017-07-27 2021-09-03 腾讯科技(深圳)有限公司 一种用户常驻点的处理方法、装置和存储介质
CN108271120B (zh) * 2017-12-22 2020-04-24 阿里巴巴集团控股有限公司 目标区域及目标用户的确定方法、装置及设备
CN109376761B (zh) * 2018-09-12 2021-01-22 北京三快在线科技有限公司 一种地址标识及其经纬度的挖掘方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8401771B2 (en) * 2008-07-22 2013-03-19 Microsoft Corporation Discovering points of interest from users map annotations
US20130165143A1 (en) * 2011-06-24 2013-06-27 Russell Ziskind Training pattern recognition systems for determining user device locations
CN104077308A (zh) * 2013-03-28 2014-10-01 阿里巴巴集团控股有限公司 一种物流服务范围确定方法及装置
CN104793224A (zh) * 2014-01-21 2015-07-22 中国移动通信集团设计院有限公司 一种gps定位纠偏方法及装置
CN104572955A (zh) * 2014-12-29 2015-04-29 北京奇虎科技有限公司 一种基于聚类确定poi名称的系统及方法
CN106534392A (zh) * 2015-09-10 2017-03-22 阿里巴巴集团控股有限公司 一种定位信息采集方法、定位方法及装置
CN107622061A (zh) * 2016-07-13 2018-01-23 阿里巴巴集团控股有限公司 一种确定地址唯一性的方法、装置及系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020052338A1 (zh) * 2018-09-12 2020-03-19 北京三快在线科技有限公司 地址标识及其经纬度挖掘
CN110348679A (zh) * 2019-06-03 2019-10-18 菜鸟智能物流控股有限公司 物流处理方法、装置、电子设备和存储介质
CN110648043A (zh) * 2019-07-26 2020-01-03 深圳壹账通智能科技有限公司 基于地址信息的分析方法、装置、电子设备及存储介质
CN112308280A (zh) * 2019-08-02 2021-02-02 菜鸟智能物流控股有限公司 物流调度管理方法、装置、电子设备和存储介质
CN111563630A (zh) * 2020-05-11 2020-08-21 圆通速递有限公司 基于地址经纬度聚类的物流服务网点布局方法和系统
CN112184102A (zh) * 2020-09-14 2021-01-05 深圳市睿搏科技集团有限公司 一种跨境电商订单尾程物流自动分配的方法
CN113570107A (zh) * 2021-06-08 2021-10-29 众能联合数字技术有限公司 一种用于工程租赁场景的工程项目地址定位方法
CN113568951A (zh) * 2021-07-30 2021-10-29 拉扎斯网络科技(上海)有限公司 一种数据挖掘、处理方法和装置,存储介质和电子设备
CN113704640A (zh) * 2021-08-09 2021-11-26 北京三快在线科技有限公司 用户常驻地址的预测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2020052338A1 (zh) 2020-03-19
CN109376761B (zh) 2021-01-22

Similar Documents

Publication Publication Date Title
CN109376761A (zh) 一种地址标识及其经纬度的挖掘方法及装置
US9733094B2 (en) Hybrid road network and grid based spatial-temporal indexing under missing road links
Kounadi Assessing the quality of OpenStreetMap data
CN106463056A (zh) 用于高度定制的交互式移动地图的解决方案
Avila et al. SUSSING MERGER TREES: the influence of the halo finder
US10871378B2 (en) Detecting changes in map data based on device location data
CN109215372A (zh) 路网信息更新方法、装置及设备
CN102609517B (zh) 一种矢量地图在线式综合服务方法及其系统
CN109387215B (zh) 路线推荐方法和装置
KR20170047189A (ko) 위치 기반 정보의 서버 제어 타일링을 위한 기술
May et al. Using signposts for navigation in large graphs
WO2019001223A1 (zh) 极速地理GeoHash聚类方法
US11402232B2 (en) Off-viewport location indications for digital mapping
CN111597279A (zh) 基于深度学习的信息预测方法及相关设备
US11898852B2 (en) Location calibration based on movement path and map objects
EP3819789A2 (en) Method, apparatus, device and storage medium for map retrieval test
US20210311971A1 (en) Geocoding methods and systems of correcting latitude and longitude of a point of interest
CN110046210B (zh) 地图信息更新方法、装置、电子设备和存储介质
KR20220139431A (ko) 개선된 병합 및 안정적인 피처 아이덴티티를 지원하는 토폴로지 베이스모델
CN114820960B (zh) 构建图谱的方法、装置、设备和介质
Zhang et al. Enrichment of topographic road database for the purpose of routing and navigation
CN112597174B (zh) 地图更新方法、装置、电子设备和计算机可读介质
CN115100231A (zh) 一种区域边界的确定方法和装置
CN108286984A (zh) 一种地图区域信息的更新方法和装置、及混合导航系统
WO2010109500A1 (en) System for controlling geographic information systems (gis), and relevant method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant