CN106055650A - 地址标准化方法和装置 - Google Patents

地址标准化方法和装置 Download PDF

Info

Publication number
CN106055650A
CN106055650A CN201610378657.0A CN201610378657A CN106055650A CN 106055650 A CN106055650 A CN 106055650A CN 201610378657 A CN201610378657 A CN 201610378657A CN 106055650 A CN106055650 A CN 106055650A
Authority
CN
China
Prior art keywords
address
normalized
participle
key word
standardized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610378657.0A
Other languages
English (en)
Inventor
张锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Longrise Technology Co Ltd
Original Assignee
Shenzhen Longrise Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Longrise Technology Co Ltd filed Critical Shenzhen Longrise Technology Co Ltd
Priority to CN201610378657.0A priority Critical patent/CN106055650A/zh
Publication of CN106055650A publication Critical patent/CN106055650A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种地址标准化方法,所述方法包括:当获取到待标准化地址时,从所述待标准化地址中提取关键词;根据所述关键词划分所述待标准化地址,得到所述待标准化地址的地址分词;将所述地址分词与预设地址库进行对比,得到对比结果;根据所述对比结果补全所述待标准化地址,使所述待标准化地址转化成标准化地址。本发明还公开了一种地址标准化装置。本发明实现了将由于用户书写习惯或者某些地区存在同名等现象所导致的通讯地址不规范或者不标准的地址转化为标准化形式的地址,提高了通讯地址处理的精确度和通讯地址处理的效率。

Description

地址标准化方法和装置
技术领域
本发明涉及通讯地址技术领域,尤其涉及一种地址标准化方法和装置。
背景技术
通讯地址技术的应用领域非常广泛,与人们的日常生活也息息相关,如邮政领域的信件往来需要对通讯地址进行识别和处理、地理编码系统中首先需对通讯地址进行标准化、银行业务系统中需对地址数据进行存储、识别、更新等处理。通讯地址技术还可用于网络、电子商务、电子地图等等。
通讯地址的不规范或者不标准,将会给人们带来诸多的不便。例如:由于用户地址的不规范,邮政系统需要投入大量的人力和物力去解决如何识别正确的、标准的通讯地址,否则将会造成错误投递、重复投递的情况,而随着邮政业务数据的增长,这种投入将相应地进行扩大,这种情况对邮政系统来说将难以承受。银行业务系统中也存在着用户地址的不规范问题,倘若银行业务系统没有对用户地址进行标准化的处理(事实上很多银行业务系统确实没有对用户地址进行标准化处理,用户地址的录入和更新都是人为的进行操作),随着业务系统的数据量增大,不同数据库的不兼容性,银行业务系统将面临着处理速度较慢、效率低下,业务系统数据混乱的现象,很容易造成客户的损失和流失。因此,将通讯地址标准化,使其转化为地理信息服务的基础成果,为大众的生产生活提供支撑,已成为一项迫切的需要。
发明内容
本发明的主要目的在于提供一种地址标准化方法和装置,旨在解决现有通讯地址不规范或者不标准导致通讯地址处理精确度低,以及处理效率低下的问题。
为实现上述目的,本发明提供的一种地址标准化方法,所述地址标准化方法包括:
当获取到待标准化地址时,从所述待标准化地址中提取关键词;
根据所述关键词划分所述待标准化地址,得到所述待标准化地址的地址分词;
将所述地址分词与预设地址库进行对比,得到对比结果;
根据所述对比结果补全所述待标准化地址,使所述待标准化地址转化成标准化地址。
优选地,所述当获取到待标准化地址时,从所述待标准化地址中提取关键词的步骤之后,还包括:
确定所述关键词的优先级;
所述将所述地址分词与预设地址库进行对比,得到对比结果的步骤包括:
根据所述关键词的优先级的高低确定所述地址分词的优先级高低;
按照所述地址分词的优先级高低依次将所述地址分词与所述预设地址库进行对比,得到对比结果。
优选地,所述根据所述关键词划分所述待标准化地址,得到所述待标准化地址的地址分词的步骤之后,还包括:
解析所述地址分词,确定所述地址分词是否完全划分;
若所述地址分词中存在未完全划分的地址分词,则根据预设补全规则补全所述未完全划分的地址分词,再次划分所述未完全划分的地址分词。
优选地,所述当获取到待标准化地址时,从所述待标准化地址中提取关键词的步骤包括:
当获取到待标准化地址时,对所述待标准化地址进行预处理,得到预处理后的待标准化地址;
在所述预处理后的待标准化地址中提取所述待标准化地址的关键词。
优选地,所述根据所述对比结果补全所述待标准化地址,使所述待标准化地址转化成标准化地址的步骤之后,还包括:
对所述标准化地址进行分类,将属于同一类别的地址存储于同一个文件夹中。
此外,为实现上述目的,本发明还提供一种地址标准化装置,所述地址标准化装置包括:
提取模块,用于当获取到待标准化地址时,从所述待标准化地址中提取关键词;
划分模块,用于根据所述关键词划分所述待标准化地址,得到所述待标准化地址的地址分词;
对比模块,用于将所述地址分词与预设地址库进行对比,得到对比结果;
补全模块,用于根据所述对比结果补全所述待标准化地址,使所述待标准化地址转化成标准化地址。
优选地,所述地址标准化装置还包括:
确定模块,用于确定所述关键词的优先级;
所述对比模块包括:
确定单元,用于根据所述关键词的优先级的高低确定所述地址分词的优先级高低;
对比单元,用于按照所述地址分词的优先级高低依次将所述地址分词与所述预设地址库进行对比,得到对比结果。
优选地,所述地址标准化装置还包括:
解析模块,用于解析所述地址分词,确定所述地址分词是否完全划分;
所述补全模块,还用于若所述地址分词中存在未完全划分的地址分词,则根据预设补全规则补全所述未完全划分的地址分词,再次划分所述未完全划分的地址分词。
优选地,所述提取模块包括:
预处理单元,用于当获取到待标准化地址时,对所述待标准化地址进行预处理,得到预处理后的待标准化地址;
提取单元,用于在所述预处理后的待标准化地址中提取所述待标准化地址的关键词。
优选地,所述地址标准化装置还包括:
分类模块,用于对所述标准化地址进行分类,将属于同一类别的地址存储于同一个文件夹中。
本发明通过当获取到待标准化地址时,根据所述待标准化地址中的关键词划分所述待标准化地址,以得到所述待标准化地址的地址分词,并将所述地址分词与预设地址库进行对比,根据对比结果补全所述待标准化地址,以得到标准化地址。实现了将由于用户书写习惯或者某些地区存在同名等现象所导致的通讯地址不规范或者不标准的地址转化为标准化形式的地址,提高了通讯地址处理的精确度和通讯地址处理的效率。
附图说明
图1为本发明地址标准化方法的第一实施例的流程示意图;
图2为本发明地址标准化方法的第二实施例的流程示意图;
图3为本发明地址标准化方法的第三实施例的流程示意图;
图4为本发明地址标准化装置的第一实施例的功能模块示意图;
图5为本发明地址标准化装置的第二实施例的功能模块示意图;
图6为本发明实施例中对比模块的一种功能模块示意图;
图7为本发明地址标准化装置的第三实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种地址标准化方法。
参照图1,图1为本发明地址标准化方法第一实施例的流程示意图。
在本实施例中,所述地址标准化方法包括:
步骤S10,当获取到待标准化地址时,从所述待标准化地址中提取关键词;
当获取到待标准化的地址时,解析所述待标准化地址,从所述待标准化地址中提取关键词。需要说明的是,所述关键词为所述待标准化地址中具有代表性的词,包括省级关键词、地区级关键词、县级关键词、乡级关键词、村级关键词、街巷名关键词、住宅小区关键词、门楼地址关键词和兴趣点关键词。其中,所述省级关键词包括但不限于市(直辖市)、省、市(省会)、自治区和特别行政区;所述地区级关键词包括但不限于地区、盟、自治州和(地级)市;所述县级关键词包括但不限于县、自治州、旗、自治旗和(市辖)区;所述乡级关键词包括但不限于乡、镇和街道办;所述村级关键词包括但不限于村、庄、屯和里;所述街巷名关键词包括但不限于路、大道、道、大街、街、巷、胡同、条和里;所述住宅小区关键词包括但不限于区、园、村、坊、庄、居、寓、苑、小区、弄和公寓;所述门楼地址关键词包括但不限于号、号楼、楼、宿舍、斋、馆和堂;所述兴趣点关键词包括但不限于大厦、广场、饭店、中心、大楼、楼、场、广场、馆、酒店、局和城。
如当所获取待标准化地址为“河北唐山市路北区丽景逸翠园1号楼202室”,则解析所述待表标准化地址,得到的关键词为“市、区、园、楼和室”。
步骤S20,根据所述关键词划分所述待标准化地址,得到所述待标准化地址的地址分词;
当得到所述待标准化地址的关键词时,根据所述关键词划分所述待标准化地址,得到所述待标准化地址的地址分词。当得到所述待标准化地址“河北唐山市路北区丽景逸翠园1号楼202室”的关键词“市、区、园、楼和室”时,根据所述关键词关键词为“市、区、园、楼和室”划分所述待标准化地址,得到所述待标准化地址的地址分词为“河北唐山市”、“路北区”、“丽景逸翠园”、“1号楼”和“202室”。
进一步地,所述步骤S20之后,还包括:
步骤a,解析所述地址分词,确定所述地址分词是否完全划分;
步骤b,若所述地址分词中存在未完全划分的地址分词,则根据预设补全规则补全所述未完全划分的地址分词,再次划分所述未完全划分的地址分词。
进一步地,当得到所述待标准化的地址分词时,解析所述待标准化的地址分词,确定所述待标准化的地址分词是否全部已经完全划分。若所述待标准化的地址分词存在未完全划分的地址分词,则表明所述未完全划分的地址分词中缺少对应的关键词,则根据预设补全规则补全所述未完全划分的地址分词,以再次划分所述未完全划分的地址分词。如当得到的地址分词为“河北唐山市”时,确定所述“河北唐山市”的地址分词属于未完全划分的地址分词,则按照预设补全规则补全所述未完全划分的地址分词“河北唐山市”,得到补全之后的地址分词为“河北省唐山市”,并重新在所述“河北省唐山市”的地址分词中提取关键词“省”和“市”,得到对应的不能再划分的地址分词为“河北省”和“唐山市”。其中,所述预设补全规则为通过一般的地级市的命名规则去判断该地址分词是否需要补充对应的关键词。如“深圳南山区”,则按照预设补全规则补全后得到的是“深圳市南山区”。
若所述地址分词中未存在未完全划分的地址分词,即全部地址分词都已完全划分,则执行步骤S30。
步骤S30,将所述地址分词与预设地址库进行对比,得到对比结果;
步骤S40,根据所述对比结果补全所述待标准化地址,使所述待标准化地址转化成标准化地址。
当得到所述待标准化地址的地址分词时,根据所述地址分词与预设地址库进行对比,得到对比结果。所述预设地址库中存储有大量的地址数据。如当得到的地址分词为“河北唐山市”、“路北区”、“丽景逸翠园”、“1号楼”和“202室”时,将所述地址分词“河北唐山市”、“路北区”、“丽景逸翠园”、“1号楼”和“202室”与预设地址库中的地址进行对比,得到的对比结果为地址分词“河北唐山市”应为“河北省唐山市”,所述“路北区”和所述“丽景逸翠园”之间少了“建华东道”,所述“1号楼”和所述“202室”之间少了“2单元”。
根据所述对比结果确定所述待标准化地址缺少的地址分词,将所述待标准化地址所缺少的地址分词补充至所述待标准化地址中,以补全所述待标准化地址,使所述待标准化地址转化成标准化地址。如根据所述对比结果补全所述待标准化地址“河北唐山市路北区丽景逸翠园1号楼202室”,得到标准化地址为“河北省唐山市路北区建华东道丽景逸翠园1号楼2单元202室”。
本实施例通过当获取到待标准化地址时,根据所述待标准化地址中的关键词划分所述待标准化地址,以得到所述待标准化地址的地址分词,并将所述地址分词与预设地址库进行对比,根据对比结果补全所述待标准化地址,以得到标准化地址。实现了将由于用户书写习惯或者某些地区存在同名等现象所导致的通讯地址不规范或者不标准的地址转化为标准化形式的地址,提高了通讯地址处理的精确度和通讯地址的处理效率。
参照图2,图2为本发明地址标准化方法的第二实施例的流程示意图,基于第一实施例提出本发明地址标准化方法的第二实施例。
在本实施例中,所述地址标准化方法还包括:
步骤S50,确定所述关键词的优先级;
当得到所述待标准化地址的关键词时,确定所述关键词的优先级。需要说明的是,所述关键词的优先级根据国家行政区域划分标准确定,即根据国家行政区域的大小确定。如确定所述省级关键词为一级关键词,所述地区级关键词为二级关键词,所述县级关键词为三级关键词,所述乡级关键词为四级关键词,所述村级关键词为五级关键词,所述街巷名关键词、所述住宅小区关键词、所述门楼地址关键词、所述兴趣点关键词为六级关键词。其中,所述一级关键词的优先级高于二级关键词,所述二级关键词的优先级高于三级关键词,以此类推,其余的在此不再赘述。需要说明的是,所述待标准化地址并不会包括所有级别的关键词,如可能不包括三级关键词,也可能不包括五级关键词等。如确定所述“河北唐山市”为二级关键词,所述“路北区”为三级关键词,所述“丽景逸翠园”、所述“1号楼”和“202室”为六级关键词。
所述步骤S30包括:
步骤S31,根据所述关键词的优先级的高低确定所述地址分词的优先级高低;
当确定所述待标准化地址的关键词的优先级后,根据所述关键词的优先级的高低确定所述地址分词的优先级的高低。如确定所述“河北唐山市”为二级关键词,所述“路北区”为三级关键词,所述“丽景逸翠园”、所述“1号楼”和“202室”为六级关键词后,则确定所述“河北唐山市”的优先级高于所述“路北区”的优先级,所述“路北区”的优先级高于所述“丽景逸翠园”、所述“1号楼”和“202室”的优先级。
步骤S32,按照所述地址分词的优先级高低依次将所述地址分词与所述预设地址库进行对比,得到对比结果。
当确定所述地址分词的优先级的高低后,按照所述地址分词的优先级的高低依次将所述地址分词与所述预设地址库进行对比,即先将优先级最高的地址分词与所述预设地址库进行对比,在所述预设地址库中除去不属于所述优先级最高的地址分词的地址,得到第一地址库,然后再将次优先级的地址分词与所述第一地址库进行对比,在所述预设地址库中除去不属于所述次优先级的地址分词的地址,得到第二地址库,以此类推,直到将所述地址分词对比完毕。如先将“河北唐山市”与所述预设地址库进行对比,在预设地址库中筛选出只包含“河北省唐山市”的地址库,作为第一地址库;其次将“路北区”与第一地址库进行对比,在第一地址库筛选出只包含“河北省唐山市路北区”的第二地址库;再者将“丽景逸翠园”、“1号楼”和“202室”与第二地址库进行对比,得到对比结果,即得到所述待标准化地址中所缺少的地址分词。
本实施例通过根据键词的优先级的高低确定所述地址分词的优先级高低,然后按照地址分词的优先级的高低依次将所述地址分词与所述预设地址库进行对比,使所述待标准化地址转化成标准化地址。提高了所述待标准化地址转化成标准化地址的效率。
参照图3,图3为本发明地址标准化方法的第三实施例的流程示意图,基于第一实施例提出本发明地址标准化方法的第三实施例。
在本实施例中,所述地址标准化方法还包括:
步骤S60,对所述标准化地址进行分类,将属于同一类别的地址存储于同一个文件夹中。
当使所述待标准化地址转化成标准化地址后,对所述标准化地址进行分类,将属于同一类别的地址存储于同一文件夹中。如将属于广东省的地址存储于广东省文件夹中,将属于广东省深圳市的地址存储于广东省文件夹中的深圳市的一级子文件夹中,将属于广东省深圳市南山区的地址存储于深圳市的一级子文件夹中的二级子文件夹中。需要说明的是,并不需要对所述标准化地址进行过于详细的分类,为了防止过于累赘,一般省级文件夹下面只会存在三个子文件夹。
进一步地,所述步骤S10还包括:
步骤d,当获取到待标准化地址时,对所述待标准化地址进行预处理,得到预处理后的待标准化地址;
步骤e,在所述预处理后的待标准化地址中提取所述待标准化地址的关键词。
进一步地,当获取到待标准化地址时,对所述待标准化地址进行预处理,即删除所述待标准化地址中多余的空格,将所述待标准化地址所包含的数字或者字母的全角字符转换为半角字符,以得到预处理后的待标准化地址。当得到预处理后的待标准化地址时,在所述预处理后的待标准化地址中提取所述待标准化地址的关键词。
本实施例通过对所述标准化地址进行分类,将属于同一类别的地址存储于同一个文件夹中,实现了对繁多的地址数据的有效管理。
本发明进一步提供一种地址标准化装置。
参照图4,图4为本发明地址标准化装置的第一实施例的功能模块示意图。
在本实施例中,所述地址标准化装置包括:
提取模块10,用于当获取到待标准化地址时,从所述待标准化地址中提取关键词;
当获取到待标准化的地址时,解析所述待标准化地址,从所述待标准化地址中提取关键词。需要说明的是,所述关键词为所述待标准化地址中具有代表性的词,包括省级关键词、地区级关键词、县级关键词、乡级关键词、村级关键词、街巷名关键词、住宅小区关键词、门楼地址关键词和兴趣点关键词。其中,所述省级关键词包括但不限于市(直辖市)、省、市(省会)、自治区和特别行政区;所述地区级关键词包括但不限于地区、盟、自治州和(地级)市;所述县级关键词包括但不限于县、自治州、旗、自治旗和(市辖)区;所述乡级关键词包括但不限于乡、镇和街道办;所述村级关键词包括但不限于村、庄、屯和里;所述街巷名关键词包括但不限于路、大道、道、大街、街、巷、胡同、条和里;所述住宅小区关键词包括但不限于区、园、村、坊、庄、居、寓、苑、小区、弄和公寓;所述门楼地址关键词包括但不限于号、号楼、楼、宿舍、斋、馆和堂;所述兴趣点关键词包括但不限于大厦、广场、饭店、中心、大楼、楼、场、广场、馆、酒店、局和城。
如当所获取待标准化地址为“河北唐山市路北区丽景逸翠园1号楼202室”,则解析所述待表标准化地址,得到的关键词为“市、区、园、楼和室”。
划分模块20,用于根据所述关键词划分所述待标准化地址,得到所述待标准化地址的地址分词;
当得到所述待标准化地址的关键词时,根据所述关键词划分所述待标准化地址,得到所述待标准化地址的地址分词。当得到所述待标准化地址“河北唐山市路北区丽景逸翠园1号楼202室”的关键词“市、区、园、楼和室”时,根据所述关键词关键词为“市、区、园、楼和室”划分所述待标准化地址,得到所述待标准化地址的地址分词为“河北唐山市”、“路北区”、“丽景逸翠园”、“1号楼”和“202室”。
进一步地,所述地址标准化装置还包括:
解析模块,用于解析所述地址分词,确定所述地址分词是否完全划分;
补全模块40,用于若所述地址分词中存在未完全划分的地址分词,则根据预设补全规则补全所述未完全划分的地址分词,再次划分所述未完全划分的地址分词。
进一步地,当得到所述待标准化的地址分词时,解析所述待标准化的地址分词,确定所述待标准化的地址分词是否全部已经完全划分。若所述待标准化的地址分词存在未完全划分的地址分词,则表明所述未完全划分的地址分词中缺少对应的关键词,则根据预设补全规则补全所述未完全划分的地址分词,以再次划分所述未完全划分的地址分词。如当得到的地址分词为“河北唐山市”时,确定所述“河北唐山市”的地址分词属于未完全划分的地址分词,则按照预设补全规则补全所述未完全划分的地址分词“河北唐山市”,得到补全之后的地址分词为“河北省唐山市”,并重新在所述“河北省唐山市”的地址分词中提取关键词“省”和“市”,得到对应的不能再划分的地址分词为“河北省”和“唐山市”。其中,所述预设补全规则为通过一般的地级市的命名规则去判断该地址分词是否需要补充对应的关键词。如“深圳南山区”,则按照预设补全规则补全后得到的是“深圳市南山区”。
若所述地址分词中未存在未完全划分的地址分词,即全部地址分词都已完全划分,则执行对比模块30。
对比模块30,用于将所述地址分词与预设地址库进行对比,得到对比结果;
补全模块40,用于根据所述对比结果补全所述待标准化地址,使所述待标准化地址转化成标准化地址。
当得到所述待标准化地址的地址分词时,根据所述地址分词与预设地址库进行对比,得到对比结果。所述预设地址库中存储有大量的地址数据。如当得到的地址分词为“河北唐山市”、“路北区”、“丽景逸翠园”、“1号楼”和“202室”时,将所述地址分词“河北唐山市”、“路北区”、“丽景逸翠园”、“1号楼”和“202室”与预设地址库中的地址进行对比,得到的对比结果为地址分词“河北唐山市”应为“河北省唐山市”,所述“路北区”和所述“丽景逸翠园”之间少了“建华东道”,所述“1号楼”和所述“202室”之间少了“2单元”。
根据所述对比结果确定所述待标准化地址缺少的地址分词,将所述待标准化地址所缺少的地址分词补充至所述待标准化地址中,以补全所述待标准化地址,使所述待标准化地址转化成标准化地址。如根据所述对比结果补全所述待标准化地址“河北唐山市路北区丽景逸翠园1号楼202室”,得到标准化地址为“河北省唐山市路北区建华东道丽景逸翠园1号楼2单元202室”。
本实施例通过当获取到待标准化地址时,根据所述待标准化地址中的关键词划分所述待标准化地址,以得到所述待标准化地址的地址分词,并将所述地址分词与预设地址库进行对比,根据对比结果补全所述待标准化地址,以得到标准化地址。实现了将由于用户书写习惯或者某些地区存在同名等现象所导致的通讯地址不规范或者不标准的地址转化为标准化形式的地址,提高了通讯地址处理的精确度和通讯地址的处理效率。
参照图5,图5为本发明地址标准化装置的第二实施例的功能模块示意图,基于第一实施例提出本发明地址标准化装置的第二实施例。
在本实施例中,所述地址标准化装置还包括:
确定模块50,用于确定所述关键词的优先级;
当得到所述待标准化地址的关键词时,确定所述关键词的优先级。需要说明的是,所述关键词的优先级根据国家行政区域划分标准确定,即根据国家行政区域的大小确定。如确定所述省级关键词为一级关键词,所述地区级关键词为二级关键词,所述县级关键词为三级关键词,所述乡级关键词为四级关键词,所述村级关键词为五级关键词,所述街巷名关键词、所述住宅小区关键词、所述门楼地址关键词、所述兴趣点关键词为六级关键词。其中,所述一级关键词的优先级高于二级关键词,所述二级关键词的优先级高于三级关键词,以此类推,其余的在此不再赘述。需要说明的是,所述待标准化地址并不会包括所有级别的关键词,如可能不包括三级关键词,也可能不包括五级关键词等。如确定所述“河北唐山市”为二级关键词,所述“路北区”为三级关键词,所述“丽景逸翠园”、所述“1号楼”和“202室”为六级关键词。
参照图6,图6为本发明实施例中对比模块的一种功能模块示意图。
所述对比模块30包括:
确定单元31,用于根据所述关键词的优先级的高低确定所述地址分词的优先级高低;
当确定所述待标准化地址的关键词的优先级后,根据所述关键词的优先级的高低确定所述地址分词的优先级的高低。如确定所述“河北唐山市”为二级关键词,所述“路北区”为三级关键词,所述“丽景逸翠园”、所述“1号楼”和“202室”为六级关键词后,则确定所述“河北唐山市”的优先级高于所述“路北区”的优先级,所述“路北区”的优先级高于所述“丽景逸翠园”、所述“1号楼”和“202室”的优先级。
对比单元32,用于按照所述地址分词的优先级高低依次将所述地址分词与所述预设地址库进行对比,得到对比结果。
当确定所述地址分词的优先级的高低后,按照所述地址分词的优先级的高低依次将所述地址分词与所述预设地址库进行对比,即先将优先级最高的地址分词与所述预设地址库进行对比,在所述预设地址库中除去不属于所述优先级最高的地址分词的地址,得到第一地址库,然后再将次优先级的地址分词与所述第一地址库进行对比,在所述预设地址库中除去不属于所述次优先级的地址分词的地址,得到第二地址库,以此类推,直到将所述地址分词对比完毕。如先将“河北唐山市”与所述预设地址库进行对比,在预设地址库中筛选出只包含“河北省唐山市”的地址库,作为第一地址库;其次将“路北区”与第一地址库进行对比,在第一地址库筛选出只包含“河北省唐山市路北区”的第二地址库;再者将“丽景逸翠园”、“1号楼”和“202室”与第二地址库进行对比,得到对比结果,即得到所述待标准化地址中所缺少的地址分词。
本实施例通过根据键词的优先级的高低确定所述地址分词的优先级高低,然后按照地址分词的优先级的高低依次将所述地址分词与所述预设地址库进行对比,使所述待标准化地址转化成标准化地址。提高了所述待标准化地址转化成标准化地址的效率。
参照图7,图7为本发明地址标准化装置的第三实施例的功能模块示意图,基于第一实施例提出本发明地址标准化装置的第三实施例。
在本实施例中,所述地址标准化装置还包括:
分类模块60,用于对所述标准化地址进行分类,将属于同一类别的地址存储于同一个文件夹中。
当使所述待标准化地址转化成标准化地址后,对所述标准化地址进行分类,将属于同一类别的地址存储于同一文件夹中。如将属于广东省的地址存储于广东省文件夹中,将属于广东省深圳市的地址存储于广东省文件夹中的深圳市的一级子文件夹中,将属于广东省深圳市南山区的地址存储于深圳市的一级子文件夹中的二级子文件夹中。需要说明的是,并不需要对所述标准化地址进行过于详细的分类,为了防止过于累赘,一般省级文件夹下面只会存在三个子文件夹。
进一步地,所述提取模块10包括:
预处理单元,用于当获取到待标准化地址时,对所述待标准化地址进行预处理,得到预处理后的待标准化地址;
提取单元,用于在所述预处理后的待标准化地址中提取所述待标准化地址的关键词。
进一步地,当获取到待标准化地址时,对所述待标准化地址进行预处理,即删除所述待标准化地址中多余的空格,将所述待标准化地址所包含的数字或者字母的全角字符转换为半角字符,以得到预处理后的待标准化地址。当得到预处理后的待标准化地址时,在所述预处理后的待标准化地址中提取所述待标准化地址的关键词。
本实施例通过对所述标准化地址进行分类,将属于同一类别的地址存储于同一个文件夹中,实现了对繁多的地址数据的有效管理。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种地址标准化方法,其特征在于,所述地址标准化方法包括:
当获取到待标准化地址时,从所述待标准化地址中提取关键词;
根据所述关键词划分所述待标准化地址,得到所述待标准化地址的地址分词;
将所述地址分词与预设地址库进行对比,得到对比结果;
根据所述对比结果补全所述待标准化地址,使所述待标准化地址转化成标准化地址。
2.如权利要求1所述的地址标准化方法,其特征在于,所述当获取到待标准化地址时,从所述待标准化地址中提取关键词的步骤之后,还包括:
确定所述关键词的优先级;
所述将所述地址分词与预设地址库进行对比,得到对比结果的步骤包括:
根据所述关键词的优先级的高低确定所述地址分词的优先级高低;
按照所述地址分词的优先级高低依次将所述地址分词与所述预设地址库进行对比,得到对比结果。
3.如权利要求1所述的地址标准化方法,其特征在于,所述根据所述关键词划分所述待标准化地址,得到所述待标准化地址的地址分词的步骤之后,还包括:
解析所述地址分词,确定所述地址分词是否完全划分;
若所述地址分词中存在未完全划分的地址分词,则根据预设补全规则补全所述未完全划分的地址分词,再次划分所述未完全划分的地址分词。
4.如权利要求1所述的地址标准化方法,其特征在于,所述当获取到待标准化地址时,从所述待标准化地址中提取关键词的步骤包括:
当获取到待标准化地址时,对所述待标准化地址进行预处理,得到预处理后的待标准化地址;
在所述预处理后的待标准化地址中提取所述待标准化地址的关键词。
5.如权利要求1至4任一项所述的地址标准化方法,其特征在于,所述根据所述对比结果补全所述待标准化地址,使所述待标准化地址转化成标准化地址的步骤之后,还包括:
对所述标准化地址进行分类,将属于同一类别的地址存储于同一个文件夹中。
6.一种地址标准化装置,其特征在于,所述地址标准化装置包括:
提取模块,用于当获取到待标准化地址时,从所述待标准化地址中提取关键词;
划分模块,用于根据所述关键词划分所述待标准化地址,得到所述待标准化地址的地址分词;
对比模块,用于将所述地址分词与预设地址库进行对比,得到对比结果;
补全模块,用于根据所述对比结果补全所述待标准化地址,使所述待标准化地址转化成标准化地址。
7.如权利要求6所述的地址标准化装置,其特征在于,所述地址标准化装置还包括:
确定模块,用于确定所述关键词的优先级;
所述对比模块包括:
确定单元,用于根据所述关键词的优先级的高低确定所述地址分词的优先级高低;
对比单元,用于按照所述地址分词的优先级高低依次将所述地址分词与所述预设地址库进行对比,得到对比结果。
8.如权利要求6所述的地址标准化装置,其特征在于,所述地址标准化装置还包括:
解析模块,用于解析所述地址分词,确定所述地址分词是否完全划分;
所述补全模块,还用于若所述地址分词中存在未完全划分的地址分词,则根据预设补全规则补全所述未完全划分的地址分词,再次划分所述未完全划分的地址分词。
9.如权利要求6所述的地址标准化装置,其特征在于,所述提取模块包括:
预处理单元,用于当获取到待标准化地址时,对所述待标准化地址进行预处理,得到预处理后的待标准化地址;
提取单元,用于在所述预处理后的待标准化地址中提取所述待标准化地址的关键词。
10.如权利要求6至9任一项所述的地址标准化装置,其特征在于,所述地址标准化装置还包括:
分类模块,用于对所述标准化地址进行分类,将属于同一类别的地址存储于同一个文件夹中。
CN201610378657.0A 2016-05-31 2016-05-31 地址标准化方法和装置 Pending CN106055650A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610378657.0A CN106055650A (zh) 2016-05-31 2016-05-31 地址标准化方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610378657.0A CN106055650A (zh) 2016-05-31 2016-05-31 地址标准化方法和装置

Publications (1)

Publication Number Publication Date
CN106055650A true CN106055650A (zh) 2016-10-26

Family

ID=57171711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610378657.0A Pending CN106055650A (zh) 2016-05-31 2016-05-31 地址标准化方法和装置

Country Status (1)

Country Link
CN (1) CN106055650A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777300A (zh) * 2016-12-30 2017-05-31 深圳市华傲数据技术有限公司 基础地址库构建方法及系统
CN107145577A (zh) * 2017-05-08 2017-09-08 上海东方网络金融服务有限公司 地址标准化方法、装置、存储介质及计算机
CN108683677A (zh) * 2018-05-23 2018-10-19 国政通科技股份有限公司 地址信息的详细化判断
CN108874769A (zh) * 2018-05-16 2018-11-23 深圳开思时代科技有限公司 配件名称标准化方法及装置、电子设备和介质
CN109033086A (zh) * 2018-08-03 2018-12-18 银联数据服务有限公司 一种地址解析、匹配的方法及装置
CN109299402A (zh) * 2018-07-23 2019-02-01 广州都市圈网络科技有限公司 基于要素预分段的地址匹配方法
CN109614396A (zh) * 2018-12-17 2019-04-12 广东电网有限责任公司 一种地址数据结构化与规范化的清理方法
CN109815498A (zh) * 2019-01-25 2019-05-28 深圳市小赢信息技术有限责任公司 一种中文地址标准化方法、装置及电子设备
CN109872098A (zh) * 2018-12-12 2019-06-11 平安科技(深圳)有限公司 基于车险保单配送的物流地址解析方法及计算机设备
CN110019472A (zh) * 2017-12-15 2019-07-16 深圳市丰巢科技有限公司 一种地址数据匹配方法及智能终端
CN110209755A (zh) * 2019-06-13 2019-09-06 苏州思必驰信息科技有限公司 Poi导航地址的扩展方法及系统
CN110895651A (zh) * 2018-08-23 2020-03-20 北京京东金融科技控股有限公司 地址标准化处理方法、装置、设备及计算机可读存储介质
CN110909110A (zh) * 2018-09-17 2020-03-24 阿里巴巴集团控股有限公司 地址的标准化方法、装置、存储介质及处理器
CN110968654A (zh) * 2018-09-29 2020-04-07 阿里巴巴集团控股有限公司 文本数据的地址类目确定方法、设备以及系统
WO2020168750A1 (zh) * 2019-02-18 2020-08-27 平安科技(深圳)有限公司 一种地址信息标准化方法、装置、计算机设备及存储介质
CN112231431A (zh) * 2020-12-11 2021-01-15 江苏苏宁银行股份有限公司 一种异常地址识别方法、设备和计算机可读存储介质
CN112613319A (zh) * 2019-09-18 2021-04-06 杭州联保致新科技有限公司 一种车辆配件名称自动标准化方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120317135A1 (en) * 2011-06-13 2012-12-13 International Business Machines Corporation Mitigation of data leakage in a multi-site computing infrastructure
CN103440312A (zh) * 2013-08-27 2013-12-11 深圳市华傲数据技术有限公司 一种通信地址查询邮政编码的系统及终端
CN105022748A (zh) * 2014-04-28 2015-11-04 北京图盟科技有限公司 一种运单地址分级方法及装置
CN105224622A (zh) * 2015-09-22 2016-01-06 中国搜索信息科技股份有限公司 面向互联网的地名地址提取与标准化方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120317135A1 (en) * 2011-06-13 2012-12-13 International Business Machines Corporation Mitigation of data leakage in a multi-site computing infrastructure
CN103440312A (zh) * 2013-08-27 2013-12-11 深圳市华傲数据技术有限公司 一种通信地址查询邮政编码的系统及终端
CN105022748A (zh) * 2014-04-28 2015-11-04 北京图盟科技有限公司 一种运单地址分级方法及装置
CN105224622A (zh) * 2015-09-22 2016-01-06 中国搜索信息科技股份有限公司 面向互联网的地名地址提取与标准化方法

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777300A (zh) * 2016-12-30 2017-05-31 深圳市华傲数据技术有限公司 基础地址库构建方法及系统
CN107145577A (zh) * 2017-05-08 2017-09-08 上海东方网络金融服务有限公司 地址标准化方法、装置、存储介质及计算机
CN110019472A (zh) * 2017-12-15 2019-07-16 深圳市丰巢科技有限公司 一种地址数据匹配方法及智能终端
CN108874769A (zh) * 2018-05-16 2018-11-23 深圳开思时代科技有限公司 配件名称标准化方法及装置、电子设备和介质
CN108683677A (zh) * 2018-05-23 2018-10-19 国政通科技股份有限公司 地址信息的详细化判断
CN109299402A (zh) * 2018-07-23 2019-02-01 广州都市圈网络科技有限公司 基于要素预分段的地址匹配方法
CN109033086A (zh) * 2018-08-03 2018-12-18 银联数据服务有限公司 一种地址解析、匹配的方法及装置
CN110895651B (zh) * 2018-08-23 2024-02-02 京东科技控股股份有限公司 地址标准化处理方法、装置、设备及计算机可读存储介质
CN110895651A (zh) * 2018-08-23 2020-03-20 北京京东金融科技控股有限公司 地址标准化处理方法、装置、设备及计算机可读存储介质
CN110909110A (zh) * 2018-09-17 2020-03-24 阿里巴巴集团控股有限公司 地址的标准化方法、装置、存储介质及处理器
CN110909110B (zh) * 2018-09-17 2023-05-30 阿里巴巴集团控股有限公司 地址的标准化方法、装置、存储介质及处理器
CN110968654A (zh) * 2018-09-29 2020-04-07 阿里巴巴集团控股有限公司 文本数据的地址类目确定方法、设备以及系统
CN110968654B (zh) * 2018-09-29 2023-10-20 阿里巴巴集团控股有限公司 文本数据的地址类目确定方法、设备以及系统
CN109872098A (zh) * 2018-12-12 2019-06-11 平安科技(深圳)有限公司 基于车险保单配送的物流地址解析方法及计算机设备
CN109614396A (zh) * 2018-12-17 2019-04-12 广东电网有限责任公司 一种地址数据结构化与规范化的清理方法
CN109815498A (zh) * 2019-01-25 2019-05-28 深圳市小赢信息技术有限责任公司 一种中文地址标准化方法、装置及电子设备
WO2020168750A1 (zh) * 2019-02-18 2020-08-27 平安科技(深圳)有限公司 一种地址信息标准化方法、装置、计算机设备及存储介质
CN110209755A (zh) * 2019-06-13 2019-09-06 苏州思必驰信息科技有限公司 Poi导航地址的扩展方法及系统
CN110209755B (zh) * 2019-06-13 2021-06-18 思必驰科技股份有限公司 Poi导航地址的扩展方法及系统
CN112613319A (zh) * 2019-09-18 2021-04-06 杭州联保致新科技有限公司 一种车辆配件名称自动标准化方法和装置
CN112231431B (zh) * 2020-12-11 2021-03-23 江苏苏宁银行股份有限公司 一种异常地址识别方法、设备和计算机可读存储介质
CN112231431A (zh) * 2020-12-11 2021-01-15 江苏苏宁银行股份有限公司 一种异常地址识别方法、设备和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN106055650A (zh) 地址标准化方法和装置
CN103501374B (zh) 电话簿排序方法及装置、终端
CN103368992B (zh) 一种信息推送方法及装置
CN102104635B (zh) 一种更新互联网协议ip地址库的方法和装置
CN106021336A (zh) 一种对批量地址信息进行自动行政区划划分的方法
CN102752336B (zh) 基于地理位置服务的ugc的共享方法及系统
CN103473238B (zh) 配送地址定位系统及方法
CN105045911A (zh) 一种用于用户进行标记的标签生成方法及设备
CN106874287B (zh) 一种兴趣点 poi 地址编码的处理方法及装置
KR102068788B1 (ko) 사용자 타겟 서비스를 제공하는 서버 및 그 서비스 제공방법
CN101537411A (zh) 分拣规划优化
CN102904941B (zh) 一种网络访问速度信息的处理、显示的方法和装置
CN101483669A (zh) 基于家庭网关的社区信息发布方法和系统
CN101464894A (zh) 数据查询方法和系统
CN101984422A (zh) 一种容错文本查询的方法和设备
CN105468632B (zh) 一种地理编码方法及装置
CN108415708A (zh) 应用程序安装包大小的处理方法、装置、设备和存储介质
CN103189885A (zh) 服务器、信息管理方法、信息管理程序以及记录该程序的计算机可读取的记录介质
CN109408781A (zh) 一种基于行政区划的寄递地址编码方法
CN106886517A (zh) 业务选址方法、装置以及系统
CN106934004A (zh) 一种基于地域特征向用户推荐文章的方法和装置
CN106453062A (zh) 一种应用通知的管理方法及终端
CN104506394A (zh) 一种移动互联网流量统计方法和系统
CN109145307B (zh) 用户画像识别方法、推送方法、装置、设备和存储介质
US20090144230A1 (en) Address list generation system and method employing a geographical buffer zone

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 518057 Shenzhen Software Park, Nanshan District high tech Industrial Park, Guangdong, China,, 6 401-402

Applicant after: Yongxing Shenzhen Polytron Technologies Inc

Address before: 518057 Shenzhen Software Park, Nanshan District high tech Industrial Park, Guangdong, China,, 6 401-402

Applicant before: Shenzhen Longrise Technology Co., Ltd.

COR Change of bibliographic data
RJ01 Rejection of invention patent application after publication

Application publication date: 20161026

RJ01 Rejection of invention patent application after publication