CN106156145A - 一种地址数据的管理方法和装置 - Google Patents

一种地址数据的管理方法和装置 Download PDF

Info

Publication number
CN106156145A
CN106156145A CN201510172985.0A CN201510172985A CN106156145A CN 106156145 A CN106156145 A CN 106156145A CN 201510172985 A CN201510172985 A CN 201510172985A CN 106156145 A CN106156145 A CN 106156145A
Authority
CN
China
Prior art keywords
address
date
management apparatus
address date
structuring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510172985.0A
Other languages
English (en)
Inventor
吴保华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510172985.0A priority Critical patent/CN106156145A/zh
Priority to PCT/CN2016/077297 priority patent/WO2016165538A1/zh
Publication of CN106156145A publication Critical patent/CN106156145A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种地址数据的管理方法和装置,该方法包括:地址管理装置获得用户输入的原始地址数据;所述地址管理装置确定包括多个地址类型的结构化地址格式;所述地址管理装置将所述原始地址数据转换为符合所述结构化地址格式的结构化地址数据,所述结构化地址数据包括对应多个地址类型的地址数据。本申请实施例中,通过设置包括多个地址类型的结构化地址格式,并生成符合结构化地址格式的结构化地址数据,从而生成规范化、标准化的地址数据,解决无法对文本地址进行规范化的问题,并能够判断不同文本地址间的异同性,能够识别文本地址的相关归属。

Description

一种地址数据的管理方法和装置
技术领域
本申请涉及通信技术领域,尤其涉及一种地址数据的管理方法和装置。
背景技术
在电子商务网站和物流系统中产生了大量文本地址,这些文本地址的输入格式和地址元素因用户而不同。例如,用户A输入的文本地址只包括门牌号信息,用户B输入的文本地址只包括POI(Point of Interest,兴趣点)信息,用户C输入的文本地址包括错误的区县或门牌号信息。这些文本地址缺乏规范化、标准化,无法判断不同文本地址间的异同性,无法识别文本地址的相关归属。其中,地址元素是指文本地址中的各级元素,如省、市、区、开发区、镇、路、POI等。POI可以是一栋房子、一个商铺、一个邮筒、一个公交站等。
发明内容
本申请实施例提供一种地址数据的管理方法和装置,以生成规范化、标准化的地址数据,从而解决无法对文本地址进行规范化的问题。
本申请实施例提供一种地址数据的管理方法,所述方法包括以下步骤:
地址管理装置获得用户输入的原始地址数据;
所述地址管理装置确定包括多个地址类型的结构化地址格式;
所述地址管理装置将所述原始地址数据转换为符合所述结构化地址格式的结构化地址数据,所述结构化地址数据包括对应多个地址类型的地址数据。
所述地址管理装置将所述原始地址数据转换为符合所述结构化地址格式的结构化地址数据,具体包括:
所述地址管理装置基于多个地址类型对原始地址数据进行预处理;
所述地址管理装置基于多个地址类型对预处理后的地址数据进行切分;
所述地址管理装置基于多个地址类型对切分后地址数据进行补全校验;
所述地址管理装置对补全校验后的地址数据进行规范化处理,以得到符合所述结构化地址格式的结构化地址数据。
所述地址管理装置基于多个地址类型对原始地址数据进行预处理的过程,具体包括:
所述地址管理装置从所述原始地址数据中筛选出未对应所述多个地址类型的地址数据,从所述原始地址数据中删除当前筛选的地址数据,并将所述原始地址数据中存在的非规范格式的地址数据转换为规范格式的地址数据。
所述地址管理装置基于多个地址类型对预处理后的地址数据进行切分的过程,具体包括:
所述地址管理装置获得所述多个地址类型对应的分词器词典,利用所述多个地址类型对应的分词器词典切分出对应所述多个地址类型的地址数据。
所述地址管理装置基于多个地址类型对切分后地址数据进行补全校验的过程,具体包括:
所述地址管理装置校验切分后地址数据是否已经包含对应所述多个地址类型的地址数据;如果否,则所述地址管理装置确定切分后地址数据中不包含的地址类型,并基于历史数据补全所述地址类型的地址数据。
所述地址管理装置对补全校验后的地址数据进行规范化处理的过程,具体包括:所述地址管理装置利用拼音相似度算法对补全校验后的地址数据进行规范化处理;和/或,所述地址管理装置利用基于概率检索模型的兴趣点POI规范化算法对补全校验后的地址数据进行规范化处理。
本申请实施例提供一种地址管理装置,所述地址管理装置具体包括:
获得模块,用于获得用户输入的原始地址数据;
确定模块,用于确定包括多个地址类型的结构化地址格式;
处理模块,用于将所述原始地址数据转换为符合所述结构化地址格式的结构化地址数据,所述结构化地址数据包括对应多个地址类型的地址数据。
所述处理模块包括:预处理子模块,用于基于多个地址类型对原始地址数据进行预处理;切分子模块,用于基于多个地址类型对预处理后的地址数据进行切分;补全子模块,用于基于多个地址类型对切分后地址数据进行补全校验;规范化子模块,用于对补全校验后的地址数据进行规范化处理,以得到符合所述结构化地址格式的结构化地址数据。
所述预处理子模块,具体用于从原始地址数据中筛选出未对应所述多个地址类型的地址数据,从原始地址数据中删除当前筛选的地址数据,并将原始地址数据中存在的非规范格式的地址数据转换为规范格式的地址数据。
所述切分子模块,具体用于获得多个地址类型对应的分词器词典,利用多个地址类型对应的分词器词典切分出对应所述多个地址类型的地址数据。
所述补全子模块,具体用于校验切分后的地址数据是否已经包含对应所述多个地址类型的地址数据;如果否,则确定切分后的地址数据中不包含的地址类型,并基于历史数据补全所述地址类型的地址数据。
所述规范化子模块,具体用于利用拼音相似度算法对补全校验后的地址数据进行规范化处理;和/或,利用基于概率检索模型的兴趣点POI规范化算法对补全校验后的地址数据进行规范化处理。
与现有技术相比,本申请实施例至少具有以下优点:本申请实施例中,通过设置包括多个地址类型的结构化地址格式,并生成符合结构化地址格式的结构化地址数据,从而生成规范化、标准化的地址数据,解决无法对文本地址进行规范化的问题,并能够判断不同文本地址间的异同性,能够识别文本地址的相关归属。具体的,通过对海量历史文本地址中的地址数据进行识别和提取,通过学习的方式从中学习出地址数据之间的知识和规则,并将学习的知识和规则对漏写地址数据进行补全、对错误地址数据进行校验,对非规范地址数据进行规范化处理,重新生成一条分级的结构化地址数据。
附图说明
为了更加清楚地说明本申请实施例的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本申请实施例的这些附图获得其他的附图。
图1是本申请实施例一提供的一种地址数据的管理方法流程示意图;
图2是本申请实施例二提供的一种地址管理装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
针对现有技术中存在的问题,本申请实施例一提供一种地址数据的管理方法,如图1所示,该地址数据的管理方法具体可以包括以下步骤:
步骤101,地址管理装置获得用户输入的原始地址数据。
本申请实施例中,地址管理装置内可以配置整合模块,整合模块用于将各方地址数据源进行整合,生成唯一的key(密钥),并装入文本地址库。其中,文本地址库中的针对一个key的地址数据,即用户输入的原始地址数据。
步骤102,地址管理装置确定包括多个地址类型的结构化地址格式。
其中,结构化地址格式中包括的多个地址类型具体包括但不限于以下之一或者任意组合:省、市、区县、乡镇(街道办)、开发区、主路、主路门牌号、支路、支路门牌号、标志性POI(楼盘等)、幢、单元(楼层)、房间号等。
步骤103,地址管理装置将原始地址数据转换为符合结构化地址格式的结构化地址数据,该结构化地址数据包括对应多个地址类型的地址数据。
例如,在地址管理装置生成的符合结构化地址格式的结构化地址数据中,可以包括对应于省的地址数据、对应于市的地址数据、对应于区县的地址数据、对应于乡镇(街道办)、对应于开发区的地址数据、对应于主路的地址数据、对应于主路门牌号的地址数据、对应于支路的地址数据、对应于支路门牌号的地址数据、对应于标志性POI(楼盘等)的地址数据、对应于幢的地址数据、对应于单元(楼层)的地址数据、对应于房间号的地址数据等。
本申请实施例中,地址管理装置将原始地址数据转换为符合结构化地址格式的结构化地址数据的过程,具体包括但不限于:地址管理装置基于多个地址类型对原始地址数据进行预处理;之后,地址管理装置基于多个地址类型对预处理后的地址数据进行切分;之后,地址管理装置基于多个地址类型对切分后地址数据进行补全校验;之后,地址管理装置对补全校验后的地址数据进行规范化处理,以得到符合结构化地址格式的结构化地址数据。
本申请实施例中,地址管理装置基于多个地址类型对原始地址数据进行预处理的过程,具体包括:地址管理装置从原始地址数据中筛选出未对应多个地址类型的地址数据,从原始地址数据中删除当前筛选的地址数据,并将原始地址数据中存在的非规范格式的地址数据转换为规范格式的地址数据。
本申请实施例中,地址管理装置内可以配置预处理模块,由该预处理模块从原始地址数据中筛选出未对应多个地址类型的地址数据,并从原始地址数据中删除当前筛选的地址数据。进一步的,由该预处理模块将原始地址数据中存在的非规范格式的地址数据转换为规范格式的地址数据。
其中,由于用户输入的原始地址数据是用户填写的,具有随意性,因此原始地址数据中会包含对应多个地址类型的地址数据,如河北省、保定市等地址数据,原始地址数据中也会包含未对应多个地址类型的地址数据,如话费充值信息、虚拟游戏点卡信息等,这些未对应多个地址类型的地址数据是需要进行数据清洗的。基于此,预处理模块从原始地址数据中筛选出未对应多个地址类型的地址数据,并从原始地址数据中删除当前筛选的地址数据。
其中,由于用户输入的原始地址数据是用户填写的,具有随意性,因此原始地址数据中会存在非规范格式的地址数据。如英文;数字写为全角;非香港、澳门、台湾地区的地址存在繁体地址现象;香港、澳门、台湾地区的地址存在简体地址现象;门牌号的地址存在中文现象(如二十号);以数字命名的道路名出现数字现象(如文2路)等。基于此,预处理模块将原始地址数据中存在的非规范格式的地址数据转换为规范格式的地址数据。其中,规范格式的地址数据包括但不限于:英文、数字的全角更改为半角;大陆地址一律规范格式为简体中文;港澳台地区的地址一律规范格式为繁体中文;道路名一律规范格式为中文;门牌号、房间号等一律规范格式为数字。
本申请实施例中,地址管理装置基于多个地址类型对预处理后的地址数据进行切分的过程,具体包括但不限于如下方式:地址管理装置获得多个地址类型对应的分词器词典,并利用该多个地址类型对应的分词器词典将预处理后的地址数据切分出对应于这多个地址类型的地址数据。例如,基于多个地址类型对应的分词器词典,地址管理装置可以将预处理后的地址数据切分出对应于省的地址数据、对应于市的地址数据、对应于区县的地址数据、对应于乡镇(街道办)、对应于开发区的地址数据、对应于主路的地址数据、对应于主路门牌号的地址数据、对应于支路的地址数据、对应于支路门牌号的地址数据、对应于标志性POI(楼盘等)的地址数据、对应于幢的地址数据、对应于单元(楼层)的地址数据、对应于房间号的地址数据等。
本申请实施例中,地址管理装置内可以配置切分模块,由该切分模块获得多个地址类型对应的分词器词典,并利用该多个地址类型对应的分词器词典将预处理后的地址数据切分出对应于这多个地址类型的地址数据。
其中,分词器词典包括但不限于:省、市、区县词典;乡镇词典;工业区词典;村庄词典;街道词典;高校词典;社区标准词典;社区自学习词典。
其中,在切分模块利用分词器词典将预处理后的地址数据切分出对应于多个地址类型的地址数据的过程中,则相应的切分算法具体包括:前向有限状态最大匹配算法,其切分规则包括:基于关键字切分,如:镇,街,路,公司,大厦,中学,门牌号,社区详细地址(幢、单元、房间号)等。进一步的,相应的切分流程具体包括:省、市、区切分:采用基于省市区词典初始化的分词器切割详细地址,若切分后的省、市、区与原始的省、市、区字段不同,则替换,并减少后续切分误差,保留剩余地址。乡镇(工业区)切分:采用基于乡镇(工业区)词典初始化分词器(以市为单元共362个)切分上一步的剩余地址;若分词器切分失败则切分详细地址;若仍切分失败则采用乡镇规则切分,并标记后续处理。道路切分:与乡镇(工业区)切分流程类似,只是采用乡镇词典初始化362个道路分词器。门牌号切分:采用相应的切分规则进行切分。社区(楼盘)切分:采用社区词典初始化社区分词器(以市为单元共362个),切分上一步的剩余地址;若分词器切分失败则切分详细地址;若切分出两个社区元素,则字串长度最大的作为社区元素;若仍切分失败则采用自学习词典的分词器切分详细地址;若仍切分失败则采用社区规则切分,并将采用自学习词典或社区规则切分的社区标记后续处理。社区内详细地址切分(幢、单元、房间号):采用相应的切分规则进行切分。
本申请实施例中,地址管理装置基于多个地址类型对切分后地址数据进行补全校验的过程,具体包括但不限于:地址管理装置校验切分后地址数据是否已经包含对应所有多个地址类型的地址数据;如果否,则地址管理装置确定切分后的地址数据中不包含的地址类型,并基于历史数据补全该地址类型的地址数据;如果是,则地址管理装置不需要补全相应的地址数据。
例如,当地址管理装置基于多个地址类型切分出对应于省的地址数据、对应于区县的地址数据、对应于开发区的地址数据、对应于主路的地址数据、对应于主路门牌号的地址数据、对应于支路的地址数据、对应于支路门牌号的地址数据、对应于单元(楼层)的地址数据时,则:地址管理装置校验出切分后的地址数据未包含对应所有多个地址类型的地址数据,并基于历史数据补全对应于市的地址数据、对应于乡镇(街道办)、对应于标志性POI(楼盘等)的地址数据、对应于幢的地址数据、对应于房间号的地址数据。
本申请实施例中,地址管理装置内可以配置补全校验模块,由该补全校验模块校验切分后地址数据是否已经包含对应所有多个地址类型的地址数据;如果否,则确定切分后的地址数据中不包含的地址类型,并基于历史数据补全该地址类型的地址数据;如果是,则不需要补全相应的地址数据。
其中,地址数据中存在大量非正确的地址数据,如正确地址数据:杭州市文二路391号西湖国际科技大厦B座2楼小邮局,而用户填写如下非标准或不正确的地址数据:杭州市文二路391号2楼小邮局;杭州市文二路西湖国际科技大厦B座2楼小邮局;杭州市文二路380号西湖国际科技大厦B座2楼小邮局。基于上述情况,补全校验模块在地址数据处理过程中,对上述情况进行处理,在切分后的地址数据的门牌号或社区字段进行补全与校正。
其中,基于结构地址标准库,则可以将结构地址标准库中的每条地址数据采用相应的切分算法进行结构化为:市+区县+道路+门牌号+社区。统计以上5个字段都完全的地址频次。筛选地址频次大于3的地址。统计市+区县+道路+门牌号下每个社区的使用频次,并保留频次最大的市+区县+道路+门牌号+社区,并将其加入结构地址标准库中。或者,基于结构地址标准库,则可以将结构地址标准库中的每条地址数据采用相应的切分算法进行结构化为:市+道路+门牌号+社区。统计以上4个字段都完全的地址频次。筛选地址频次大于等于1的地址。统计市+道路+门牌号下每个社区的使用频次,并保留频次最大的市+道路+门牌号+社区,并将其加入结构地址标准库中。
基于结构地址标准库,则在地址数据的补全与校正过程中,假设市+区县+道路+门牌号下仅有一个社区,针对每一条已结构化的地址数据,如果社区字段为null(空)或者为规则切分或者为自学习词典分词器切分,则可以从结构地址标准库中查询市+区县+道路+门牌号为key的社区,并补全或者校正社区字段。进一步的,基于结构地址标准库,假设市+区县+道路+社区下仅有一个门牌号,针对每一条已结构化的地址数据,如果门牌号为null或者为规则切分或者为自学习词典分词器切分,则可以从结构地址标准库中查询市+区县+道路+社区为key的门牌号,并补全或者校正门牌号字段。
本申请实施例中,地址管理装置对补全校验后的地址数据进行规范化处理的过程,具体包括但不限于如下方式:地址管理装置利用拼音相似度算法对补全校验后的地址数据进行规范化处理;和/或,地址管理装置利用基于概率检索模型的POI规范化算法对补全校验后的地址数据进行规范化处理。
本申请实施例中,地址管理装置内可以配置规范化模块,规范化模块利用拼音相似度算法对补全校验后的地址数据进行规范化处理;和/或,利用基于概率检索模型的POI规范化算法对补全校验后的地址数据进行规范化处理。
其中,用户填写的地址数据中存在大量的地址数据的简称、缩写、错别字、谐音等非规范现象。如标准地址数据为西湖国际科技大厦,非规范化的地址数据为西湖国际(缩写);标准地址数据为浙江大学第一附属医院,非规范化的地址数据为浙大一附院(简称);标准地址数据为古墩路,非规范化的地址数据为古吨路(谐音);标准地址数据为保淑路,非规范化的地址数据为保椒路(错别字)。虽然在地址结构化过程中能够将这些地址数据切分出来,但由于多名称现象在地址坐标标注及后续的地址数据分析中存在很大的困难和弊端,因此,规范化模块需要对非规范化的地址数据进行规范化处理。
进一步的,规范化模块对非规范化的地址数据进行规范化处理的算法包括但不限于:拼音相似度算法、基于概率检索模型的POI规范化算法。
针对拼音相似度算法:规范化模块将非规范化的地址数据和规范化的地址数据转换为拼音,计算相似距离(如最小编辑距离),并将高于阈值且相似度最高的规范化的地址数据作为非规范化的地址数据的标准化地址数据。
针对基于概率检索模型的POI规范化算法,规范化模块将识别出来的类POI进行bigram(二元语法)切分,然后对于同时出现在类POI和候选标准POI中的bigram,累加每个bigram的估值,各bigram的估值的和就是候选标准POI与类POI的相关性度量。进一步的,计算出候选POI的相关性得分,并对这些POI得分进行从大到小的排序,筛选出POI类型、POI的区县与地址类型以及地址对应的区县相符的且得分最大的POI,即为规范POI。
为了实现上述过程,可以采用如下的BM25(二元独立模型)计算公式:
S = Σ i ∈ Q log ( r i + 0.5 ) / ( R - r i + 0.5 ) ( n i - r i + 0.5 ) / ( N - n i - R + r i + 0.5 ) * k + 1 K + 1 * w I
K = k ( ( 1 - b ) + b * dl avdl )
I = ( 1 - b ) + b * index i avg _ index i
w = 0.35 index i < 0.333 0.5 0.333 &le; index i < 0.66 0.15 index i &GreaterEqual; 0.66
其中,上述四个公式的相关参数说明如下所示:
相关POI 不相关POI POI数量
bi=1 ri ni-ri ni
bi=0 R-ri (N-R)-(ni-ri) N-ni
POI个数 R N-R N
进一步的,S:候选POI的相关性得分;N:一个城市或者区县的POI数量;R:与类POI具有两个相同的bigram且jaccard(相似性系数)相似度大于0.4的相关POI数量;ni:为包含bigram bi的POI数量;dl:当前候选标准POI中的bigram个数;avdl:平均每个候选标准POI包含的bigram个数;ri:为ni中的相关POI数量;indexi:bi在当前POI中出现的位置次序;avgindexi:bi在包含其的POI中出现的平均位置次序;k,b:为自由调节参数,根据经验k设置为:1.2,b设置为0.75;K,I:为公式中的临时变量。
与现有技术相比,本申请实施例至少具有以下优点:本申请实施例中,通过设置包括多个地址类型的结构化地址格式,并生成符合结构化地址格式的结构化地址数据,从而生成规范化、标准化的地址数据,解决无法对文本地址进行规范化的问题,并能够判断不同文本地址间的异同性,能够识别文本地址的相关归属。具体的,通过对海量历史文本地址中的地址数据进行识别和提取,通过学习的方式从中学习出地址数据之间的知识和规则,并将学习的知识和规则对漏写地址数据进行补全、对错误地址数据进行校验,对非规范地址数据进行规范化处理,重新生成一条分级的结构化地址数据。
基于与上述方法同样的申请构思,本申请实施例中还提供了一种地址管理装置,如图2所示,所述地址管理装置具体包括:
获得模块11,用于获得用户输入的原始地址数据;
确定模块12,用于确定包括多个地址类型的结构化地址格式;
处理模块13,用于将所述原始地址数据转换为符合所述结构化地址格式的结构化地址数据,所述结构化地址数据包括对应多个地址类型的地址数据。
其中,所述处理模块13具体包括:预处理子模块131,用于基于多个地址类型对原始地址数据进行预处理;切分子模块132,用于基于多个地址类型对预处理后的地址数据进行切分;补全子模块133,用于基于多个地址类型对切分后地址数据进行补全校验;规范化子模块134,用于对补全校验后的地址数据进行规范化处理,以得到符合所述结构化地址格式的结构化地址数据。
所述预处理子模块131,具体用于从原始地址数据中筛选出未对应所述多个地址类型的地址数据,从原始地址数据中删除当前筛选的地址数据,并将原始地址数据中存在的非规范格式的地址数据转换为规范格式的地址数据。
所述切分子模块132,具体用于获得多个地址类型对应的分词器词典,利用多个地址类型对应的分词器词典切分出对应多个地址类型的地址数据。
所述补全子模块133,具体用于校验切分后的地址数据是否已经包含对应所述多个地址类型的地址数据;如果否,则确定切分后的地址数据中不包含的地址类型,并基于历史数据补全所述地址类型的地址数据。
所述规范化子模块134,具体用于利用拼音相似度算法对补全校验后的地址数据进行规范化处理;和/或,利用基于概率检索模型的兴趣点POI规范化算法对补全校验后的地址数据进行规范化处理。
其中,本申请装置的各个模块可以集成于一体,也可以分离部署。上述模块可以合并为一个模块,也可以进一步拆分成多个子模块。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上公开的仅为本申请的几个具体实施例,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (12)

1.一种地址数据的管理方法,其特征在于,所述方法包括以下步骤:
地址管理装置获得用户输入的原始地址数据;
所述地址管理装置确定包括多个地址类型的结构化地址格式;
所述地址管理装置将所述原始地址数据转换为符合所述结构化地址格式的结构化地址数据,所述结构化地址数据包括对应多个地址类型的地址数据。
2.如权利要求1所述的方法,其特征在于,所述地址管理装置将所述原始地址数据转换为符合所述结构化地址格式的结构化地址数据,具体包括:
所述地址管理装置基于多个地址类型对原始地址数据进行预处理;
所述地址管理装置基于多个地址类型对预处理后的地址数据进行切分;
所述地址管理装置基于多个地址类型对切分后地址数据进行补全校验;
所述地址管理装置对补全校验后的地址数据进行规范化处理,以得到符合所述结构化地址格式的结构化地址数据。
3.如权利要求2所述的方法,其特征在于,所述地址管理装置基于多个地址类型对原始地址数据进行预处理的过程,具体包括:
所述地址管理装置从所述原始地址数据中筛选出未对应所述多个地址类型的地址数据,从所述原始地址数据中删除当前筛选的地址数据,并将所述原始地址数据中存在的非规范格式的地址数据转换为规范格式的地址数据。
4.如权利要求2所述的方法,其特征在于,所述地址管理装置基于多个地址类型对预处理后的地址数据进行切分的过程,具体包括:
所述地址管理装置获得所述多个地址类型对应的分词器词典,利用所述多个地址类型对应的分词器词典切分出对应所述多个地址类型的地址数据。
5.如权利要求2所述的方法,其特征在于,所述地址管理装置基于多个地址类型对切分后地址数据进行补全校验的过程,具体包括:
所述地址管理装置校验切分后地址数据是否已经包含对应所述多个地址类型的地址数据;如果否,则所述地址管理装置确定切分后地址数据中不包含的地址类型,并基于历史数据补全所述地址类型的地址数据。
6.如权利要求2所述的方法,其特征在于,所述地址管理装置对补全校验后的地址数据进行规范化处理的过程,具体包括:
所述地址管理装置利用拼音相似度算法对补全校验后的地址数据进行规范化处理;和/或,所述地址管理装置利用基于概率检索模型的兴趣点POI规范化算法对补全校验后的地址数据进行规范化处理。
7.一种地址管理装置,其特征在于,所述地址管理装置具体包括:
获得模块,用于获得用户输入的原始地址数据;
确定模块,用于确定包括多个地址类型的结构化地址格式;
处理模块,用于将所述原始地址数据转换为符合所述结构化地址格式的结构化地址数据,所述结构化地址数据包括对应多个地址类型的地址数据。
8.如权利要求7所述的地址管理装置,其特征在于,所述处理模块包括:
预处理子模块,用于基于多个地址类型对原始地址数据进行预处理;
切分子模块,用于基于多个地址类型对预处理后的地址数据进行切分;
补全子模块,用于基于多个地址类型对切分后地址数据进行补全校验;
规范化子模块,用于对补全校验后的地址数据进行规范化处理,以得到符合所述结构化地址格式的结构化地址数据。
9.如权利要求8所述的地址管理装置,其特征在于,
所述预处理子模块,具体用于从原始地址数据中筛选出未对应所述多个地址类型的地址数据,从原始地址数据中删除当前筛选的地址数据,并将原始地址数据中存在的非规范格式的地址数据转换为规范格式的地址数据。
10.如权利要求8所述的地址管理装置,其特征在于,
所述切分子模块,具体用于获得多个地址类型对应的分词器词典,利用多个地址类型对应的分词器词典切分出对应所述多个地址类型的地址数据。
11.如权利要求8所述的地址管理装置,其特征在于,
所述补全子模块,具体用于校验切分后的地址数据是否已经包含对应所述多个地址类型的地址数据;如果否,则确定切分后的地址数据中不包含的地址类型,并基于历史数据补全所述地址类型的地址数据。
12.如权利要求8所述的地址管理装置,其特征在于,
所述规范化子模块,具体用于利用拼音相似度算法对补全校验后的地址数据进行规范化处理;和/或,利用基于概率检索模型的兴趣点POI规范化算法对补全校验后的地址数据进行规范化处理。
CN201510172985.0A 2015-04-13 2015-04-13 一种地址数据的管理方法和装置 Pending CN106156145A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510172985.0A CN106156145A (zh) 2015-04-13 2015-04-13 一种地址数据的管理方法和装置
PCT/CN2016/077297 WO2016165538A1 (zh) 2015-04-13 2016-03-25 一种地址数据的管理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510172985.0A CN106156145A (zh) 2015-04-13 2015-04-13 一种地址数据的管理方法和装置

Publications (1)

Publication Number Publication Date
CN106156145A true CN106156145A (zh) 2016-11-23

Family

ID=57127145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510172985.0A Pending CN106156145A (zh) 2015-04-13 2015-04-13 一种地址数据的管理方法和装置

Country Status (2)

Country Link
CN (1) CN106156145A (zh)
WO (1) WO2016165538A1 (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107656913A (zh) * 2017-09-30 2018-02-02 百度在线网络技术(北京)有限公司 地图兴趣点地址提取方法、装置、服务器和存储介质
CN108664973A (zh) * 2018-03-28 2018-10-16 北京捷通华声科技股份有限公司 文本处理方法和装置
CN108683677A (zh) * 2018-05-23 2018-10-19 国政通科技股份有限公司 地址信息的详细化判断
CN108733810A (zh) * 2018-05-21 2018-11-02 北京神州泰岳软件股份有限公司 一种地址数据匹配方法及装置
CN109255564A (zh) * 2017-07-13 2019-01-22 菜鸟智能物流控股有限公司 一种取件点地址推荐方法及装置
CN110334162A (zh) * 2019-05-09 2019-10-15 德邦物流股份有限公司 地址识别方法及装置
CN110765280A (zh) * 2019-10-22 2020-02-07 京东数字科技控股有限公司 地址识别方法和装置
CN110874442A (zh) * 2018-08-31 2020-03-10 阿里巴巴集团控股有限公司 处理信息的方法、装置、设备和介质
WO2020057432A1 (zh) * 2018-09-17 2020-03-26 阿里巴巴集团控股有限公司 地址的标准化方法、装置、存储介质及计算机终端
CN111198912A (zh) * 2018-11-19 2020-05-26 阿里巴巴集团控股有限公司 一种地址数据处理方法及其装置
CN111198981A (zh) * 2018-11-19 2020-05-26 阿里巴巴集团控股有限公司 查询方法、设备、系统及存储介质
CN111274802A (zh) * 2018-11-19 2020-06-12 阿里巴巴集团控股有限公司 一种地址数据的有效性判断方法及其装置
WO2020168750A1 (zh) * 2019-02-18 2020-08-27 平安科技(深圳)有限公司 一种地址信息标准化方法、装置、计算机设备及存储介质
CN112001172A (zh) * 2020-08-25 2020-11-27 杭州橙鹰数据技术有限公司 识别方法及装置
CN112100161A (zh) * 2019-09-17 2020-12-18 上海寻梦信息技术有限公司 数据处理方法及系统、电子设备及存储介质

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628811B (zh) * 2018-04-10 2022-04-12 北京京东尚科信息技术有限公司 地址文本的匹配方法和装置
CN110895651B (zh) * 2018-08-23 2024-02-02 京东科技控股股份有限公司 地址标准化处理方法、装置、设备及计算机可读存储介质
CN111488409A (zh) * 2019-01-25 2020-08-04 阿里巴巴集团控股有限公司 一种城市地址库构建方法、检索方法及装置
CN111723165B (zh) * 2019-03-18 2024-06-11 阿里巴巴集团控股有限公司 地址兴趣点确定方法、装置及系统
CN110414186B (zh) * 2019-06-20 2023-06-30 创新先进技术有限公司 数据资产切分校验方法以及装置
CN110837930B (zh) * 2019-11-07 2023-09-19 腾讯科技(深圳)有限公司 一种选址方法、装置、设备及存储介质
CN110866083B (zh) * 2019-12-04 2023-11-07 国网浙江省电力有限公司 一种电力标准结构化地址库的地址稽核方法
CN113111652B (zh) * 2020-01-13 2024-02-13 阿里巴巴集团控股有限公司 数据处理方法、装置及计算设备
CN112052672A (zh) * 2020-08-28 2020-12-08 丰图科技(深圳)有限公司 基于地址文本的单元区域识别方法、装置和计算机设备
CN112199458A (zh) * 2020-09-23 2021-01-08 北京睿企信息科技有限公司 基于大数据的地址分级标准方法
CN114841153B (zh) * 2022-03-22 2024-05-31 浪潮卓数大数据产业发展有限公司 一种地址切分的更新方法及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719128A (zh) * 2009-12-31 2010-06-02 浙江工业大学 一种基于模糊匹配的中文地理编码确定方法
CN101996247A (zh) * 2010-11-10 2011-03-30 百度在线网络技术(北京)有限公司 地址数据库的建构方法及装置
CN102955833A (zh) * 2011-08-31 2013-03-06 深圳市华傲数据技术有限公司 一种通讯地址识别、标准化的方法
CN103440311A (zh) * 2013-08-27 2013-12-11 深圳市华傲数据技术有限公司 一种地名实体识别的方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9697301B2 (en) * 2010-08-19 2017-07-04 International Business Machines Corporation Systems and methods for standardization and de-duplication of addresses using taxonomy
CN102955832B (zh) * 2011-08-31 2015-11-25 深圳市华傲数据技术有限公司 一种通讯地址识别、标准化的系统
CN103473289A (zh) * 2013-08-30 2013-12-25 深圳市华傲数据技术有限公司 一种通信地址补全的装置及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719128A (zh) * 2009-12-31 2010-06-02 浙江工业大学 一种基于模糊匹配的中文地理编码确定方法
CN101996247A (zh) * 2010-11-10 2011-03-30 百度在线网络技术(北京)有限公司 地址数据库的建构方法及装置
CN102955833A (zh) * 2011-08-31 2013-03-06 深圳市华傲数据技术有限公司 一种通讯地址识别、标准化的方法
CN103440311A (zh) * 2013-08-27 2013-12-11 深圳市华傲数据技术有限公司 一种地名实体识别的方法及系统

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255564A (zh) * 2017-07-13 2019-01-22 菜鸟智能物流控股有限公司 一种取件点地址推荐方法及装置
CN107656913A (zh) * 2017-09-30 2018-02-02 百度在线网络技术(北京)有限公司 地图兴趣点地址提取方法、装置、服务器和存储介质
CN108664973A (zh) * 2018-03-28 2018-10-16 北京捷通华声科技股份有限公司 文本处理方法和装置
CN108733810A (zh) * 2018-05-21 2018-11-02 北京神州泰岳软件股份有限公司 一种地址数据匹配方法及装置
CN108733810B (zh) * 2018-05-21 2021-02-05 鼎富智能科技有限公司 一种地址数据匹配方法及装置
CN108683677A (zh) * 2018-05-23 2018-10-19 国政通科技股份有限公司 地址信息的详细化判断
CN110874442A (zh) * 2018-08-31 2020-03-10 阿里巴巴集团控股有限公司 处理信息的方法、装置、设备和介质
WO2020057432A1 (zh) * 2018-09-17 2020-03-26 阿里巴巴集团控股有限公司 地址的标准化方法、装置、存储介质及计算机终端
CN111198912A (zh) * 2018-11-19 2020-05-26 阿里巴巴集团控股有限公司 一种地址数据处理方法及其装置
CN111198981A (zh) * 2018-11-19 2020-05-26 阿里巴巴集团控股有限公司 查询方法、设备、系统及存储介质
CN111274802A (zh) * 2018-11-19 2020-06-12 阿里巴巴集团控股有限公司 一种地址数据的有效性判断方法及其装置
CN111274802B (zh) * 2018-11-19 2023-04-18 阿里巴巴集团控股有限公司 一种地址数据的有效性判断方法及其装置
WO2020168750A1 (zh) * 2019-02-18 2020-08-27 平安科技(深圳)有限公司 一种地址信息标准化方法、装置、计算机设备及存储介质
CN110334162A (zh) * 2019-05-09 2019-10-15 德邦物流股份有限公司 地址识别方法及装置
CN110334162B (zh) * 2019-05-09 2021-11-09 德邦物流股份有限公司 地址识别方法及装置
CN112100161A (zh) * 2019-09-17 2020-12-18 上海寻梦信息技术有限公司 数据处理方法及系统、电子设备及存储介质
CN110765280A (zh) * 2019-10-22 2020-02-07 京东数字科技控股有限公司 地址识别方法和装置
CN112001172A (zh) * 2020-08-25 2020-11-27 杭州橙鹰数据技术有限公司 识别方法及装置

Also Published As

Publication number Publication date
WO2016165538A1 (zh) 2016-10-20

Similar Documents

Publication Publication Date Title
CN106156145A (zh) 一种地址数据的管理方法和装置
WO2020147488A1 (zh) 异常群体识别方法及装置
CN107544982B (zh) 文本信息处理方法、装置及终端
CN104750798B (zh) 一种应用程序的推荐方法和装置
US20120290509A1 (en) Training Statistical Dialog Managers in Spoken Dialog Systems With Web Data
CN106126751A (zh) 一种具有时间适应性的分类方法及装置
CN108153824B (zh) 目标用户群体的确定方法及装置
CN113535974B (zh) 诊断推荐方法及相关装置、电子设备、存储介质
CN110096573B (zh) 一种文本解析方法及装置
CN102023984B (zh) 甄别重复实体数据的方法和装置
CN110597870A (zh) 一种企业关系挖掘方法
CN103577989A (zh) 一种基于产品识别的信息分类方法及信息分类系统
CN104484380A (zh) 个性化搜索方法及装置
CN106815265B (zh) 裁判文书的搜索方法及装置
CN104731958A (zh) 一种面向用户需求倾向的云制造服务推荐方法
CN103714086A (zh) 用于生成非关系数据库的模式的方法和设备
CN103744889A (zh) 一种用于对问题进行聚类处理的方法与装置
Mo et al. Efficient ordering heuristics in binary decision diagram–based fault tree analysis
CN110222194A (zh) 基于自然语言处理的数据图表生成方法和相关装置
CN109582906A (zh) 数据可靠度的确定方法、装置、设备和存储介质
CN104951478A (zh) 信息处理方法和信息处理装置
CN104199938A (zh) 基于rss的农用土地信息发送方法和系统
CN113220908A (zh) 知识图谱的匹配方法和装置
CN105912602A (zh) 一种基于实体属性的真值发现方法
CN109977131A (zh) 一种房型匹配系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161123

RJ01 Rejection of invention patent application after publication