CN111198912A - 一种地址数据处理方法及其装置 - Google Patents

一种地址数据处理方法及其装置 Download PDF

Info

Publication number
CN111198912A
CN111198912A CN201811378806.9A CN201811378806A CN111198912A CN 111198912 A CN111198912 A CN 111198912A CN 201811378806 A CN201811378806 A CN 201811378806A CN 111198912 A CN111198912 A CN 111198912A
Authority
CN
China
Prior art keywords
address data
address
data
standard
structured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811378806.9A
Other languages
English (en)
Inventor
郑华飞
谢朋峻
李林琳
司罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811378806.9A priority Critical patent/CN111198912A/zh
Publication of CN111198912A publication Critical patent/CN111198912A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种地址数据处理方法及其装置,所述方法包括:将多个数据源的地址数据转换为结构化地址数据;将结构化地址数据按照标准模式转换为标准地址数据,其中,标准模式包括构成标准地址数据的各个字段以及各个字段对应的数据类型。采用本申请,可将多个数据源的地址数据转换为同一格式的地址数据,以便于对地址数据统一管理。

Description

一种地址数据处理方法及其装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种地址数据处理方法及其装置。
背景技术
政府部门为了完成基础信息采集工作,需要将实有人口、实有房屋、实有单位映射到地址上。按照以往的方法,政府部门会发动基层人员采用人工采集的方式来确定地址,随后将地址手动输入到数据库中。这种方式的缺点是显而易见的:人工采集成本高,数据更新周期长,容易存在纰漏(比如,缺少经纬度等),并且数据覆盖有限,检索召回率低。举例来说,某省公安厅发动全省警力耗费两年仅采集维护了7000万标准地址。
而随着互联网的兴起,人们经常利用互联网提供便利,例如,可利用购物网站/APP进行购物,利用导航网站/APP进行导航,利用点评网站/APP搜索商家,而这些网站/应用包含大量的地址信息。
基于此,可以考虑借助于互联网来解决这一问题,也就是说,利用互联网数据来完善地址数据库。这种方式不仅可以有效补充地址数据库,还降低了人力成本。但是来自多个数据源的地址数据格式均不相同,如何将多个数据源的地址数据转换为统一格式的地址数据是目前急需解决的技术难点。
发明内容
本申请的主要目的在于提供一种地址数据处理方法及其装置,旨在解决以上提到的多个数据源的格式转换的问题。
本申请的示例性实施例提供一种地址数据处理方法,所述方法包括:将多个数据源的地址数据转换为结构化地址数据;将结构化地址数据按照标准模式转换为标准地址数据,其中,标准模式包括构成标准地址数据的各个字段以及各个字段对应的数据类型。
本申请的另一示例性实施例提供一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被执行时实现上述方法。
本申请的另一示例性实施例提供一种地址数据处理装置,所述装置包括处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:将多个数据源的地址数据转换为结构化地址数据;将结构化地址数据按照标准模式转换为标准地址数据,其中,标准模式包括构成标准地址数据的各个字段以及各个字段对应的数据类型。
本申请的另一示例性实施例提供一种地址数据处理方法,所述方法包括:接收来自用户的地址请求;通过根据从地址请求获取的地址数据搜索地址数据库,获取与所述地址数据对应的标准地址数据,其中,所述地址数据库包括按照标准模式生成的多个标准地址数据。
本申请示例性实施例采用的上述至少一个技术方案能够达到以下有益效果:
本申请的示例性实施例的地址数据处理方法,可将多个数据源的地址数据转换为同一格式的地址数据,以便于对地址数据统一管理。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请的示例性实施例的地址数据处理系统的场景图;
图2是根据本申请的示例性实施例的地址数据处理方法的示意图;
图3是根据本申请的示例性实施例的地址数据处理系统的框架图;
图4是本申请的示例性实施例的地址数据处理装置的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在介绍本申请的示例性实施例前,为了方便本领域技术人员更好的理解本申请,首先对本申请中涉及的术语进行解释。
多源异构地址数据是指来自多个数据源并且格式各不相同的地址数据,在本申请中,多源异构地址数据包括但不限于人工采集的地址数据以及来自不同APP的地址数据,例如,购物类APP的收发货地址,导航类APP的导航地址。
模式(schema)是指数据库对象的集合,所谓的数据库对象包括各种对象,例如,表、视图、存储过程、索引等。应注意,数据库中可包括不同的schema,通常利用用户名称命名schema,例如,在本申请中的购物地址schema、导航地址schema以及官方地址schema。
地址数据库是指存储地址数据的仓库,可利用输入的地址信息(也称作地址片段)在地址数据库中查询,最终可返回完整的地址信息,例如,当输入“阿里巴巴”时,地址数据库可返回“浙江省杭州市余杭区文一西路969号阿里巴巴西溪园区”。
地址查询(地址Query)是指输入至地址数据库以查询完整地址信息的地址片段。
根据本申请的示例性实施例,为了能够利用互联网数据来完善已有的地址数据库,并对不同来源的地址数据均执行规范化处理,使得不同来源的地址数据格式统一,具体来说,可将多个数据源的地址数据转换为标准地址数据,所述标准地址数据是指标准化的结构化地址数据;利用标准地址数据建立地址数据库。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1是示出应用于本申请的示例性实施例的地址数据处理的场景图。如图1所示,所述数据处理系统包括作为数据提供方的服务器组100和处理服务器组100提供的数据的服务器200。应注意,所述数据处理系统还可包括其它装置,例如,通信基站,但为了避免由于公知的方法、过程、组件和电路来模糊本实施例,在此将省略与本发明的构思无关的部件。
虽然在图1中示出的服务器组100可包括服务器101、服务器102和服务器103,而服务器200的数量为一个,但应注意服务器的数量仅为示例性的,在实际使用中用户可根据需求增加服务器的数量。
服务器101至103可将存储在各自数据库中的地址数据发送到服务器200,其中,不同服务器发送的地址数据可能会由于存储格式的不同导致地址数据的格式各不相同。因此,服务器200在接收到来自服务器101至103的地址数据后,可根据本申请的示例性实施例的地址数据处理方法对地址数据进行处理。
为了更清楚地描述根据本申请的示例性的地址数据处理方法,以下将参照图2详细说明根据本申请的示例性的地址数据处理方法。
图2示出了根据本申请的示例性实施例的地址数据处理方法的流程图。所述方法可由图1中的服务器200执行。
在执行步骤S210之前,所述方法可获取来自多个数据源的地址数据,具体来说,所述方法可根据数据源的不同采用不同方式获取地址数据,例如,针对来自不同APP的地址数据,可利用不同APP的应用程序编程接口(Application Programming Interface,API)来爬取预定区域内的POI数据,而针对上门采集的地址数据,可通过访问存储这些地址的数据库来获取地址数据。随后,所述方法继续执行步骤S210。
在步骤S210,将多个数据源的地址数据转换为结构化地址数据。其中,所述多个数据源的地址数据可以是如图1中所示出的服务器101至103所提供的数据,多个数据源提供的地址数据的格式各不相同。以下面的表1为例,表1中包括三种不同Schema存储的地址数据。
Figure BDA0001871412780000051
表1
如表1所示,按照第一Schema、第二Schema和第三Schema提供的三种地址数据的表示方式完全不同,即使表示同一地址,地址数据也不相同,其中,第一Schema可以指示购物类APP中所存储的地址数据,所述地址数据为了便于迅速分发快递通常会包括邮编信息;第二Schema可以指示导航类APP所存储的地址数据,导航类数据会对地址划分兴趣点(Pointof Interest,POI)以便进行数据分析,因此,导航类数据通常会包括POI信息;第三Schema可以指示上门采集的数据,这类数据对地址的详细程度要求较高,因此通常会包括例如具体门牌号等信息。由上可知,由于地址数据在多个数据源中的作用不同,所以地址数据包含的信息量不同,此外,多个数据源在不同的数据库中的数据格式也不同。
基于此,所述方法可对接收到的地址数据根据来源不同按照不同方式执行筛选。例如,针对购物类APP,可仅保留预定时间段(例如,365天)内的订单中存在的地址数据,随后,可筛除海外以及虚拟类目订单中包括的地址数据,最后筛除带有“电联”、“短信”、“代收”等协助配送的信息。
在步骤S210中,可利用各种序列标注模型对多个数据源的地址数据执行命名实体识别,从而生成结构化地址数据,其中,所述序列标注模型包括但不限于条件随机场算法(conditional random field algorithm,CRF)、隐马尔可夫模型(Hidden Markov Model,HMM)等。例如,可将表1中以第一Schema存储的地址数据转换为“prov=四川省city=成都市district=武侯区town=桂溪街道road=天府大道subRoad=天府二街poi=希顿国广场poiLabel=GARDEN subPoi=项目部”。
随后,在步骤S220中,将结构化地址数据按照标准Schema转换为标准地址数据,其中,标准Schema包括构成标准地址数据的各个字段以及各个字段对应的数据类型。也就是说,在将结构化地址数据转换为标准地址数据之前,可预先确定标准地址数据包含的地址参数,其中,在本申请中,所述地址参数可被称作字段,随后根据预先确定的字段,生成标准Schema。最后,可将结构化地址数据按照标准Schema存储,例如,标准Schema可包括表2中示出的字段。
字段 字段值
prov
city 地级市
district 县区
town 街道/乡镇
community 社区/村
road 道路
subRoad 辅路
roadNo 门牌号
subRoadNo 辅路门牌号
poi 兴趣点
subPoi 子兴趣点
houseNo 楼栋号
cellNo 单元号
floorNo 楼层号
roomNo 房间号
表2
在对地址数据执行处理的过程中,可存在不同来源的地址数据可能表示同一地址的情况。针对这种情况,可对多个数据源的地址数据执行互补去重操作,其中,所述互补去重操作是指同一地址的多个数据源的地址数据经过其处理后最终仅保留一条地址信息最完整的地址数据。举例来说,购物类APP提供的地址数据缺少POI信息和经纬度信息,导航类APP提供的地址数据缺少邮编信息和乡镇地址信息,而上门收集的地址信息缺少POI信息、邮编信息、经纬度信息等信息,则在对购物类APP提供的某一地址数据执行处理后,生成标准地址数据,如果接收到来自导航类APP提供的针对同一地址的导航地址数据后,可利用导航地址数据对标准地址数据中缺少的字段(例如,邮编地址和乡镇地址信息)进行补充,从而完善标准地址数据,同时删除导航地址数据。
也就是说,在对某一地址数据按照标准Schema转换成标准地址数据后,若其它数据源提供该地址的地址数据,则在接收到其它数据源的地址数据后利用其它数据源提供的地址数据对标准地址数据中缺少的字段进行补充,同时删除其它数据源的关于该地址的地址数据。若接收到的地址数据与标准地址数据不是同一地址的数据,则将接收的地址数据按照如上所述的方法转换为标准地址数据。
根据本申请的示例性实施例,所述方法还可包括利用标准地址数据生成地址数据库。也就是说,将按照标准Schema转换的标准地址数据存储在同一数据库中,从而形成地址数据库。
根据本申请的示例性实施例,在接收到来自用户的地址请求后,可对地址请求中包含的地址信息进行结构化解析,从而得到结构化地址数据,随后,利用结构化地址数据搜索地址数据库,并返回完整的标准地址数据。举例来说,当用户输入“一环路北一段实验外国语学校”后,对“一环路北一段实验外国语学校”执行结构化解析,解析结果为“road=一环路北一段poi=实验外国语学校”,例如,解析结果搜索地址数据库,获得与其对应的标准地址数据“四川省成都市金牛区一环路北一段134号成都市实验外国语学校”,还可根据标准Schema的格式,返回POI类型为“科教文化服务;学校;中学”以及经纬度信息“104.048082,30.684744”和邮件信息“610036”。
为了更好地提供检索服务,还可进一步利用模糊检索方式对地址请求进行检索。例如,可在对地址请求可中包含的地址信息进行结构化解析,随后对解析获得的各个字段进行组合,利用组合字段对地址数据库进行检索,从而获得与组合字段对应的标准地址数据。最后,可利用与组合字段对应的权重值按照公式1生成检索分数,随后利用检索分数对标准地址数据进行排序,其中,公式1如下所示:
Figure BDA0001871412780000081
其中,G表示标准地址数据的检索分数,hit_w表示标准地址数据中所包含的字段的权重,m表示标准地址数据中所包含的字段的个数。group_w表示预定的组合字段的权重,也就是说,根据本申请的示例性实施例的方法可预先设置多种字段组合方式,随后,分别对所述多种字段组合方式分别赋予权重,这样,在对某一标准地址数据计算检索分数时,可先确定该标准地址数据对应的字段组合方式,随后确定该字段组合方式对应的权重值,后面可对应以下表3分别计算每个字段对应的权重值。举例来说,当地址请求为“poi=复旦大学&prov=上海&city=上海&road=邯郸路&roadNo=220号”时,可确定字段组合方式为“prov+city+road+roadNo+poi”。
随后,根据本申请示例性实施例,可按照如下表3对标准Schema中的各个字段赋予权重值。在利用字段对地址数据库进行检索的过程中,可采用单字检索(例如,分别对“复旦大学”中的每个字进行检索)或者可采用多字检索(例如,对“复旦大学”进行检索)。
Figure BDA0001871412780000091
表3
举例来说,在利用“复旦大学”对地址数据库进行检索的过程中,若某一标准地址数据中包括“复旦大学”,则通过表3确定该标准地址数据的权重值为0.2。
根据本申请的示例性实施例,提供一种地址数据处理方法,所述方法包括:接收来自用户的地址请求;通过根据从地址请求获取的地址数据搜索地址数据库,获取与所述地址数据对应的标准地址数据,其中,所述地址数据库包括按照标准模式生成的多个标准地址数据。
可选地,通过根据从地址请求获取的地址数据搜索地址数据库,获取与所述地址数据对应的标准地址数据包括:通过对地址请求中包含的地址信息进行结构化解析,获取与所述地址信息对应的结构化地址数据;利用所述结构化地址数据搜索地址数据库,获取与所述地址数据对应的标准地址数据。
综上所述,本申请的示例性实施例的地址数据处理方法可将多个数据源的地址数据转换为同一格式的地址数据,便于对地址数据的统一管理。更进一步地,利用同一格式的标准地址数据生成地址数据库,这样可方便用户执行地址数据检索以及地址数据分析。更进一步地,可根据标准Schema对Schema中的每个字段以及字段组合设置权重,并可按照检索分数向用户提供检索结果,这样可向用户提供分析后的检索结果,使得检索更加人性化。
下面将参照图3进一步描述根据本申请的示例性实施例的地址数据处理系统的框架图。虽然在图3中示出,数据源包括购物类网站/APP、导航类网站/APP、点评类网站/APP以及人力采集的数据源,但是本领域技术人员应理解本申请适用于可获取地址数据的所有数据源,包括但不限于自各种应用对应的服务器的地址数据、来自各种网站对应的服务器的地址数据以及上门采集的地址数据。
如图3所示,可将多个数据源的地址数据执行数据标准化处理,其中,所述数据标准化处理包括将购物类网站/APP、导航类网站/APP、点评类网站/APP以及人力采集的数据源的地址数据转换为结构化地址数据,随后将结构化地址数据按照标准Schema转换为标准地址数据,其中,标准Schema包括构成标准地址数据的各个字段以及各个字段对应的数据类型。
在此过程中,可确定多个数据源的地址数据是否是表示同一地址的地址数据,若是,则可利用其它数据源的地址数据对已有的标准地址数据中缺少的字段进行补充,也就是说,可对标准地址数据执行互补操作,从而生成包括标准地址数据的地址数据库。
随后,可通过所述地址数据库获取用户所需的地址,例如,用户在输入地址请求后,可对所述地址请求执行结构化分析,随后利用结构化地址数据来搜索地址数据库。
为了更清楚地明白本申请的示例性实施例的发明构思,以下将参照图4描述本申请的示例性实施例的地址数据处理装置的框图。本领域普通技术人员将理解:图4中的装置仅示出了与本示例性实施例相关的组件,所述装置中还包括除了图4中示出的组件之外的通用组件。
图4示出本申请的示例性实施例的地址数据处理装置的框图。参考图4,在硬件层面,该装置包括处理器、内部总线和计算机可读存储介质,其中,所述计算机可读存储介质包括易失性存储器和非易失性存储器。处理器从非易失性存储器中读取对应的计算机程序然后运行。当然,除了软件实现方式之外,本申请并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
具体来说,所述处理器执行以下操作:将多个数据源的地址数据转换为结构化地址数据;将结构化地址数据按照标准模式转换为标准地址数据,其中,标准模式包括构成标准地址数据的各个字段以及各个字段对应的数据类型。
可选地,所述处理器在实现步骤将多个数据源的地址数据转换为结构化地址数据包括:通过对多个数据源的地址数据执行命名实体识别,将多个数据源的地址数据转换为结构化地址数据。
可选地,所述处理器在实现步骤将结构化地址数据按照标准模式Schema转换为标准地址数据后还包括:确定接收的地址数据与标准地址数据是否是同一地址的数据;若是,则利用所述地址数据对标准地址数据中的字段进行补充。
可选地,所述处理器在实现步骤利用所述地址数据对标准地址数据中的字段进行补充包括:将所述地址数据转换为结构化地址数据;利用所述结构化地址数据对标准地址数据中的空缺字段进行补充。
可选地,若接收的地址数据与标准地址数据不是同一地址的数据,所述处理器可将接收的地址数据转换为标准地址数据。
可选地,所述处理器在实现步骤生成标准格式的结构化地址数据作为标准地址数据后还包括:利用标准地址数据生成地址数据库。
可选地,所述处理器在实现步骤在利用标准地址数据生成地址数据库后还包括:接收来自用户的地址请求;通过对地址请求中包含的地址信息进行结构化解析,获取与所述地址信息对应的结构化地址数据;利用所述结构化地址数据搜索地址数据库,确定标准地址数据。
可选地,所述处理器在实现步骤利用结构化地址数据搜索地址数据库确定标准地址数据包括:利用结构化地址数据中包含的字段所构成的多种字段组合对地址数据库进行检索,获取与所述多种字段组合对应的多个标准地址数据。
可选地,所述处理器在实现步骤获取与所述多种字段组合对应的标准地址数据后包括:根据与所述多个标准地址数据分别对应的检索分数,对所述多个标准地址数据进行排序,其中,所述检索分数是通过每个字段组合的权重值以及字段组合中的每个字段的权重值确定的。
可选地,所述处理器在实现步骤在将多个数据源的地址数据转换为结构化地址数据前还包括:获取多个数据源的地址数据;对多个数据源的数据根据数据源进行数据有效性筛选。
综上所述,本申请的示例性实施例的地址数据处理装置可将多个数据源的地址数据转换为同一格式的地址数据,便于对地址数据的统一管理。更进一步地,利用同一格式的标准地址数据生成地址数据库,这样可方便用户执行地址数据检索以及地址数据分析。更进一步地,可根据标准Schema对Schema中的每个字段以及字段组合设置权重,并可按照检索分数向用户提供检索结果,这样可向用户提供分析后的检索结果,使得检索更加人性化。
需要说明的是,实施例1所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤21和步骤22的执行主体可以为设备1,步骤23的执行主体可以为设备2;又比如,步骤21的执行主体可以为设备1,步骤22和步骤23的执行主体可以为设备2;等等。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (14)

1.一种地址数据处理方法,其特征在于,包括:
将多个数据源的地址数据转换为结构化地址数据;
将结构化地址数据按照标准模式转换为标准地址数据,其中,标准模式包括构成标准地址数据的各个字段以及各个字段对应的数据类型。
2.如权利要求1所述的方法,其特征在于,将多个数据源的地址数据转换为结构化地址数据包括:
通过对多个数据源的地址数据执行命名实体识别,将多个数据源的地址数据转换为结构化地址数据。
3.如权利要求1所述的方法,其特征在于,在将结构化地址数据按照标准模式转换为标准地址数据后还包括:
确定接收的地址数据与标准地址数据是否是同一地址的数据;
若是,则利用所述地址数据对标准地址数据中的字段进行补充。
4.如权利要求3所述的方法,其特征在于,利用所述地址数据对标准地址数据中的字段进行补充包括:
将所述地址数据转换为结构化地址数据;
利用所述结构化地址数据对标准地址数据中的空缺字段进行补充。
5.如权利要求3所述的方法,其特征在于,还包括:
若接收的地址数据与标准地址数据不是同一地址的数据,则将接收的地址数据转换为标准地址数据。
6.如权利要求1所述的方法,其特征在于,生成标准格式的结构化地址数据作为标准地址数据后还包括:
利用标准地址数据生成地址数据库。
7.如权利要求6所述的方法,其特征在于,在利用标准地址数据生成地址数据库后还包括:
接收来自用户的地址请求;
通过对地址请求中包含的地址信息进行结构化解析,获取与所述地址信息对应的结构化地址数据;
利用所述结构化地址数据搜索地址数据库,确定标准地址数据。
8.如权利要求7所述的方法,其特征在于,利用结构化地址数据搜索地址数据库确定标准地址数据包括:
利用结构化地址数据中包含的字段所构成的多种字段组合对地址数据库进行检索,获取与所述多种字段组合对应的多个标准地址数据。
9.如权利要求8所述的方法,其特征在于,获取与所述多种字段组合对应的标准地址数据后包括:
根据与所述多个标准地址数据分别对应的检索分数,对所述多个标准地址数据进行排序,其中,所述检索分数是通过每个字段组合的权重值以及字段组合中的每个字段的权重值确定的。
10.如权利要求1所述的方法,其特征在于,在将多个数据源的地址数据转换为结构化地址数据前还包括:
获取多个数据源的地址数据;
对所述多个数据源的地址数据根据数据源进行数据有效性筛选。
11.如权利要求1所述的方法,其特征在于,所述多个数据源的地址数据包括来自各种应用对应的服务器的地址数据、来自各种网站对应的服务器的地址数据以及上门采集的地址数据。
12.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被执行时实现权利要求1至11中的任一权利要求所述的方法。
13.一种地址数据处理方法,其特征在于,包括:
接收来自用户的地址请求;
通过根据从地址请求获取的地址数据搜索地址数据库,获取与所述地址数据对应的标准地址数据,其中,所述地址数据库包括按照标准模式生成的多个标准地址数据。
14.如权利要求13所述的方法,其特征在于,通过根据从地址请求获取的地址数据搜索地址数据库,获取与所述地址数据对应的标准地址数据包括:
通过对地址请求中包含的地址信息进行结构化解析,获取与所述地址信息对应的结构化地址数据;
利用所述结构化地址数据搜索地址数据库,获取与所述地址数据对应的标准地址数。
CN201811378806.9A 2018-11-19 2018-11-19 一种地址数据处理方法及其装置 Pending CN111198912A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811378806.9A CN111198912A (zh) 2018-11-19 2018-11-19 一种地址数据处理方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811378806.9A CN111198912A (zh) 2018-11-19 2018-11-19 一种地址数据处理方法及其装置

Publications (1)

Publication Number Publication Date
CN111198912A true CN111198912A (zh) 2020-05-26

Family

ID=70746021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811378806.9A Pending CN111198912A (zh) 2018-11-19 2018-11-19 一种地址数据处理方法及其装置

Country Status (1)

Country Link
CN (1) CN111198912A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112015829A (zh) * 2020-08-28 2020-12-01 北京星天地信息科技有限公司 一种一标三实数据的管理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012125950A1 (en) * 2011-03-17 2012-09-20 Mastercard International Incorporated Systems and methods for creating standardized street addresses from raw address data
US20130139044A1 (en) * 2011-11-28 2013-05-30 Google Inc. System and method for obtaining a structured address by geocoding unstructured address information
WO2016107352A1 (zh) * 2014-12-29 2016-07-07 北京奇虎科技有限公司 确定poi名称、确定poi信息有效性的系统和方法
CN106156145A (zh) * 2015-04-13 2016-11-23 阿里巴巴集团控股有限公司 一种地址数据的管理方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012125950A1 (en) * 2011-03-17 2012-09-20 Mastercard International Incorporated Systems and methods for creating standardized street addresses from raw address data
US20130139044A1 (en) * 2011-11-28 2013-05-30 Google Inc. System and method for obtaining a structured address by geocoding unstructured address information
WO2016107352A1 (zh) * 2014-12-29 2016-07-07 北京奇虎科技有限公司 确定poi名称、确定poi信息有效性的系统和方法
CN106156145A (zh) * 2015-04-13 2016-11-23 阿里巴巴集团控股有限公司 一种地址数据的管理方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112015829A (zh) * 2020-08-28 2020-12-01 北京星天地信息科技有限公司 一种一标三实数据的管理方法及系统

Similar Documents

Publication Publication Date Title
US11550826B2 (en) Method and system for generating a geocode trie and facilitating reverse geocode lookups
Mello et al. MASTER: A multiple aspect view on trajectories
WO2020228706A1 (zh) 基于围栏地址的坐标数据处理方法、装置和计算机设备
US11698261B2 (en) Method, apparatus, computer device and storage medium for determining POI alias
US11526769B2 (en) Encoding knowledge graph entries with searchable geotemporal values for evaluating transitive geotemporal proximity of entity mentions
CN110019616B (zh) 一种poi现势状态获取方法及其设备、存储介质、服务器
US20170010123A1 (en) Hybrid road network and grid based spatial-temporal indexing under missing road links
CN109101474B (zh) 一种地址聚合的方法、包裹聚合的方法以及设备
US11861516B2 (en) Methods and system for associating locations with annotations
US20160275196A1 (en) Semantic search apparatus and method using mobile terminal
CN107590123B (zh) 车载中地点上下文指代消解方法及装置
CN110263117B (zh) 一种用于确定兴趣点poi数据的方法与装置
CN105701193A (zh) 一种交通大数据动态信息快速搜索方法及其应用
US20180260473A1 (en) Full text retrieving and matching method and system based on lucene custom lexicon
Almendros-Jiménez et al. Integrating and querying OpenStreetMap and linked geo open data
CN111488409A (zh) 一种城市地址库构建方法、检索方法及装置
CN109101512B (zh) 法律数据库的构建方法、法律数据查询方法及装置
Wagenpfeil et al. Graph codes-2d projections of multimedia feature graphs for fast and effective retrieval
Liao et al. Fusing geographic information into latent factor model for pick-up region recommendation
Chatterjee et al. SAGEL: smart address geocoding engine for supply-chain logistics
CN111198912A (zh) 一种地址数据处理方法及其装置
CN111125216B (zh) 数据导入Phoenix的方法及装置
CN115495545A (zh) 一种电网运行全景模型检索方法及电子设备、存储介质
CN114513550A (zh) 一种地理位置信息的处理方法、装置及电子设备
CN113626729A (zh) 兴趣点信息的确定方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200526