CN103473289A - 一种通信地址补全的装置及方法 - Google Patents

一种通信地址补全的装置及方法 Download PDF

Info

Publication number
CN103473289A
CN103473289A CN2013103866891A CN201310386689A CN103473289A CN 103473289 A CN103473289 A CN 103473289A CN 2013103866891 A CN2013103866891 A CN 2013103866891A CN 201310386689 A CN201310386689 A CN 201310386689A CN 103473289 A CN103473289 A CN 103473289A
Authority
CN
China
Prior art keywords
address
completion
text
unit
mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013103866891A
Other languages
English (en)
Inventor
王国印
贾西贝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huaao Data Technology Co Ltd
Original Assignee
Shenzhen Huaao Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huaao Data Technology Co Ltd filed Critical Shenzhen Huaao Data Technology Co Ltd
Priority to CN2013103866891A priority Critical patent/CN103473289A/zh
Publication of CN103473289A publication Critical patent/CN103473289A/zh
Priority to PCT/CN2014/084610 priority patent/WO2015027837A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/48Message addressing, e.g. address format or anonymous messages, aliases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种通信地址补全的装置,该装置包括:地址文本预处理单元,地址切分与标注单元;地址补全单元。地址补全单元包含地址解析器。本发明还提供一种通信地址补全的方法,该方法包括:对输入的地址文本进行预处理,包括删除多余的空格、将数字或字母的全角字符转换为半角字符;对地址文本进行地址切分形成地址序列,并将地址序列标注上对应的地址类别;根据地址索引文件,获得最相似的标准地址,进而将地址文本进行补全。本发明能实现地址补全后精确的标准化结果,满足用户的随意性输入,并免去了人工输入完整通信地址的繁琐过程,提高用户体验。

Description

一种通信地址补全的装置及方法
技术领域
 本发明涉及通信地址领域,尤其涉及一种通信地址补全的装置及方法。
背景技术
随着电子商务的突飞猛进和物流行业的信息化,使得人们在足不出户的情况下完成购物和邮寄物品,大大节约了时间和金钱成本。电子商务和物流行业都离不开通信地址(又称为通讯地址,简称为地址)和邮编,这些数据都需要用户提供,然而在实际中用户并不能完全记得完整的通信地址或者只会输入部分地址简称。为了解决这一问题,当前一些电子商务网站或者物流公司会在地址输入时提供下拉菜单让用户进行选择,这种固定选择一般也就是给到地市级地址为止,其他部分还是需要用户自己手工进行输入。
上述这种提示的方法过于繁琐,且提示结果不全面,无法满足用户输入的随意性,所以需要实现一种对用户输入地址文本进行补全的办法,将用户随意性输入的地址补全为标准化的通信地址,方便用户输入,并使得输入结果精确。
当前使用的通讯地址使用模式主要有两种:以道路为中心定位的地址,常见的地址构造规则如下:省级行政区+地级行政区+县级行政区+道路+门牌号+建筑物名+房间号。如:广东省深圳市南山区高新南环路29号留学生创业大厦2208室。此种地址描述模式常见于电子地图中,如百度地图,谷歌地图等;以行政区划为中心地位的地址,常见的地址构造规则如下:省级行政区+地级行政区+县级行政区+乡/镇/街道+居(村)委会+小区/自然村。如:广东省深圳市宝安区西乡街道流塘居委会宝民花园。此种地址描述模式常见于政府部门,如民政局等。
发明内容
为此,本发明为了解决上述缺陷之一。
因而,本发明提供一种通信地址补全的装置及方法,通过对输入地址文本进行预处理后进行地址切分和标注,并生成Query语句进行地址解析,检索获得最相似的标准地址并进行地址补全,从而实现了地址补全后精确的标准化结果,满足用户的随意性输入,并免去了人工输入完整通信地址的繁琐过程,提高用户体验。
所以,本发明一个实施例提供一种通信地址补全的装置,该装置包括:
地址文本预处理单元,用于:
将输入的地址文本进行预处理,包括删除多余的空格、将数字或字母的全角字符转换为半角字符;
地址切分与标注单元,用于:
将经过地址文本预处理单元处理后的地址文本切分成地址序列,并将地址序列标注上对应的地址类别;
地址补全单元,用于:
根据地址索引文件,获得最相似的标准地址,进而将地址文本进行补全。
在本发明一个实施例中,所述装置包括:所述地址切分与标注单元预先建立地址元数据库,获取地址文本预处理单元处理后的地址文本进行地址切分;
所述地址序列标注上对应的地址类别为地名所对应的地名等级值。
优选地,所述装置还包括:将切分好的地址序列标注上其所有可能的地址等级。
优选地,所述地址补全单元包括一个地址解析器。
在本发明一个实施例中,所述地址补全单元包括:所述地址补全单元将标注好的地址文本生成Query语句;
所述地址解析器获得Query语句并进行解析,根据地址索引文件检索获得最相似的标准地址。
优选地,所述地址补全单元还包括:所述地址补全单元生成Query语句以半角引号把地址序列中的地址元数据括起来。
本发明另一个实施例提供一种通信地址补全的方法,该方法包括以下步骤:
对输入的地址文本进行预处理,包括删除多余的空格、将数字或字母的全角字符转换为半角字符;
对地址文本进行地址切分形成地址序列,并将地址序列标注上对应的地址类别;
根据地址索引文件,获得最相似的标准地址,进而将地址文本进行补全。
在本发明一个实施例中,地址补全包括地址解析;所述地址补全将所述标注地址生成Query语句;所述地址解析获得Query语句并进行解析,然后根据地址索引文件检索获得最相似的标准地址。本发明通过对输入地址文本进行预处理后进行地址切分和标注,并生成Query语句进行地址解析,检索获得最相似的标准地址并进行地址补全,从而实现了地址补全后精确的标准化结果,满足用户的随意性输入,并免去了人工输入完整通信地址的繁琐过程,提高用户体验。
附图说明
图1是本发明实施例实现的一种通信地址补全的装置的示意图。
图2是本发明实施例实现的一种通信地址补全的方法程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
本发明提供一种通信地址补全的装置及方法,通过对输入地址文本进行预处理后进行地址切分和标注,并生成Query语句进行地址解析,检索获得最相似的标准地址并进行地址补全,从而实现了地址补全后精确的标准化结果,满足用户的随意性输入,并免去了人工输入完整通信地址的繁琐过程,提高用户体验。
如图1是本发明实施例实现的一种通信地址补全的装置的示意图,该装置包括地址文本预处理单元10,地址切分与标注单元20,地址解析器30和地址补全单元40。
在本发明一个实施中,地址文本预处理单元10获得输入的地址文本,并对所获取的地址文本进行预处理,预处理包括删除多余的空格和将数字或字母转换成半角字符。
在本发明一个实施中,地址切分与标注单元20获得地址文本预处理单元10中处理后的地址文本。地址切分与标注单元20预先建立地址元数据库,地址切分与标注单元20根据地址元数据将上述地址文本进行切分,切分结果为地址元数据对应的地址序列。
在本发明一个实施中,地址切分与标注单元20采用以下地名类别定义,如下表1所示: 
Figure 2013103866891100002DEST_PATH_IMAGE002
表1:地名类别定义表。
地名切分与标注单元20根据表1的定义将上述地名序列标注上对应的地名类别,地名切分与标注单元20标注的地名类别为地名序列所有可能存在的地名等级。地名切分与标注单元20以半角引号把地址序列中的地址元数据括起来并生成Query语句发送给地址补全单元40,地址补全单元40接收到地名切分与标注单元20的Query语句后发送给地址解析器30,地址解析器30接收Query语句并进行解析,地址解析器30预先建立地址索引文件,并将解析后的地名序列在地址索引文件中进行检索获得最相似的标准地址发送给地址补全单元40,地址补全单元40接收到地址切分与地址解析器30发来的标准地址补全地址文本。
本发明另一个实施例提供一种通信地址补全的方法,如图2所示是该方法的具体流程示意图,具体为以下步骤:
步骤S110:对输入的地址文本进行预处理,包括删除多余的空格、将数字或字母的全角字符转换为半角字符。
步骤S120:对地址文本进行地址切分形成地址序列,并将地址序列标注上对应的地址类别。步骤S120获得步骤S110处理后的地址文本,步骤S120根据预先建立的地址元数据库将获得的地址文本进行切分,切分结果为地址元数据对应的地址序列。
在本发明一个实施例中,地址标注根据上表1所定义的地名类别将地址序列进行标注,标注结果为地址序列对应的地名类别,并标注出地址序列所有可能存在的的地名等级。
步骤S130:根据地址索引文件,获得最相似的标准地址,进而将地址文本进行补全。
在本发明一个实施例中,地址补全包括步骤地址解析,地址补全将上述标注地址生成Query语句并发送给地址解析步骤,地址解析获得Query语句并进行解析,然后根据地址索引文件检索获得最相似的标准地址,然后将标准地址反馈给地址补全步骤,地址补全步骤根据标准地址进行地址文本的补全。本发明通过对输入地址文本进行预处理后进行地址切分和标注,并生成Query语句进行地址解析,检索获得最相似的标准地址并进行地址补全,从而实现了地址补全后精确的标准化结果,满足用户的随意性输入,并免去了人工输入完整通信地址的繁琐过程,提高用户体验。

Claims (8)

1.一种通信地址补全的装置,其特征在于,该装置包括:
地址文本预处理单元,用于:
将输入的地址文本进行预处理,包括删除多余的空格、将数字或字母的全角字符转换为半角字符;
地址切分与标注单元,用于:
将经过地址文本预处理单元处理后的地址文本切分成地址序列,并将地址序列标注上对应的地址类别;
地址补全单元,用于:
根据地址索引文件,获得最相似的标准地址,进而将地址文本进行补全。
2.根据权利要求1所述的装置,其特征在于,所述装置包括:
所述地址切分与标注单元预先建立地址元数据库,获取地址文本预处理单元处理后的地址文本进行地址切分;
所述地址序列标注上对应的地址类别为地名所对应的地名等级值。
3.根据权利要求1或2所述的装置,其特征在于,所述装置还包括:
将切分好的地址序列标注上其所有可能的地址等级。
4.根据权利要求1所述的装置,其特征在于,所述地址补全单元包括一个地址解析器。
5.根据权利要求1或4所述的装置,其特征在于,所述地址补全单元包括:
所述地址补全单元将标注好的地址文本生成Query语句;
所述地址解析器获得Query语句并进行解析,根据地址索引文件检索获得最相似的标准地址。
6.根据权利要求4或5所述的装置,其特征在于,所述地址补全单元还包括:
所述地址补全单元生成Query语句以半角引号把地址序列中的地址元数据括起来。
7.一种通信地址补全的方法,其特征在于,该方法包括以下步骤:
对输入的地址文本进行预处理,包括删除多余的空格、将数字或字母的全角字符转换为半角字符;
对地址文本进行地址切分形成地址序列,并将地址序列标注上对应的地址类别;
根据地址索引文件,获得最相似的标准地址,进而将地址文本进行补全。
8.根据权利要求7所述的方法,其特征在于,所述地址补全包括地址解析;
所述地址补全将所述标注地址生成Query语句;
所述地址解析获得Query语句并进行解析,然后根据地址索引文件检索获得最相似的标准地址。
CN2013103866891A 2013-08-30 2013-08-30 一种通信地址补全的装置及方法 Pending CN103473289A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2013103866891A CN103473289A (zh) 2013-08-30 2013-08-30 一种通信地址补全的装置及方法
PCT/CN2014/084610 WO2015027837A1 (zh) 2013-08-30 2014-08-18 一种通信地址补全的装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013103866891A CN103473289A (zh) 2013-08-30 2013-08-30 一种通信地址补全的装置及方法

Publications (1)

Publication Number Publication Date
CN103473289A true CN103473289A (zh) 2013-12-25

Family

ID=49798137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013103866891A Pending CN103473289A (zh) 2013-08-30 2013-08-30 一种通信地址补全的装置及方法

Country Status (2)

Country Link
CN (1) CN103473289A (zh)
WO (1) WO2015027837A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015027837A1 (zh) * 2013-08-30 2015-03-05 深圳市华傲数据技术有限公司 一种通信地址补全的装置及方法
CN105468791A (zh) * 2016-01-05 2016-04-06 北京信息科技大学 一种基于互动问答社区-百度知道的地理位置实体的完整性表达方法
WO2016127904A1 (zh) * 2015-02-13 2016-08-18 阿里巴巴集团控股有限公司 文本地址处理方法及装置
CN106033460A (zh) * 2015-03-19 2016-10-19 阿里巴巴集团控股有限公司 地址数据处理方法及装置
WO2016165538A1 (zh) * 2015-04-13 2016-10-20 阿里巴巴集团控股有限公司 一种地址数据的管理方法和装置
CN106709065A (zh) * 2017-01-19 2017-05-24 国家电网公司 一种地址信息标准化处理方法及装置
CN106777300A (zh) * 2016-12-30 2017-05-31 深圳市华傲数据技术有限公司 基础地址库构建方法及系统
CN107025232A (zh) * 2016-01-29 2017-08-08 阿里巴巴集团控股有限公司 物流系统中地址信息的处理方法及装置
CN107609406A (zh) * 2017-08-09 2018-01-19 南京邮电大学 一种基于地理编码的快递地址加密方法
CN110826318A (zh) * 2019-10-14 2020-02-21 浙江数链科技有限公司 物流信息识别的方法、设备、计算机设备和存储介质
CN113569564A (zh) * 2021-07-30 2021-10-29 拉扎斯网络科技(上海)有限公司 一种地址信息的处理、显示方法和装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10373103B2 (en) 2015-11-11 2019-08-06 International Business Machines Corporation Decision-tree based address-station matching
CN109145095B (zh) * 2017-06-16 2024-03-29 贵州小爱机器人科技有限公司 地名信息匹配方法、信息匹配方法、装置及计算机设备
CN111522901B (zh) * 2020-03-18 2023-10-20 大箴(杭州)科技有限公司 文本中地址信息的处理方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110010423A1 (en) * 2009-07-08 2011-01-13 Xobni Corporation Systems and Methods to Provide Assistance During Address Input
CN102955833A (zh) * 2011-08-31 2013-03-06 深圳市华傲数据技术有限公司 一种通讯地址识别、标准化的方法
CN103440312A (zh) * 2013-08-27 2013-12-11 深圳市华傲数据技术有限公司 一种通信地址查询邮政编码的系统及终端

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101276327B (zh) * 2007-03-27 2010-06-23 富士通株式会社 地址识别装置
CN102298585B (zh) * 2010-06-24 2016-01-13 高德软件有限公司 一种地址切分及级别标注方法和地址切分及级别标注装置
CN102073724A (zh) * 2011-01-11 2011-05-25 深圳市络道科技有限公司 一种中文地址自动归户识别系统及方法
CN102750351A (zh) * 2012-06-11 2012-10-24 迪尔码国际营销服务(北京)有限公司 基于规则的地址信息匹配方法
CN103473289A (zh) * 2013-08-30 2013-12-25 深圳市华傲数据技术有限公司 一种通信地址补全的装置及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110010423A1 (en) * 2009-07-08 2011-01-13 Xobni Corporation Systems and Methods to Provide Assistance During Address Input
CN102955833A (zh) * 2011-08-31 2013-03-06 深圳市华傲数据技术有限公司 一种通讯地址识别、标准化的方法
CN103440312A (zh) * 2013-08-27 2013-12-11 深圳市华傲数据技术有限公司 一种通信地址查询邮政编码的系统及终端

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015027837A1 (zh) * 2013-08-30 2015-03-05 深圳市华傲数据技术有限公司 一种通信地址补全的装置及方法
WO2016127904A1 (zh) * 2015-02-13 2016-08-18 阿里巴巴集团控股有限公司 文本地址处理方法及装置
CN106033460A (zh) * 2015-03-19 2016-10-19 阿里巴巴集团控股有限公司 地址数据处理方法及装置
WO2016165538A1 (zh) * 2015-04-13 2016-10-20 阿里巴巴集团控股有限公司 一种地址数据的管理方法和装置
CN105468791B (zh) * 2016-01-05 2019-11-15 北京信息科技大学 一种基于互动问答社区-百度知道的地理位置实体的完整性表达方法
CN105468791A (zh) * 2016-01-05 2016-04-06 北京信息科技大学 一种基于互动问答社区-百度知道的地理位置实体的完整性表达方法
CN107025232A (zh) * 2016-01-29 2017-08-08 阿里巴巴集团控股有限公司 物流系统中地址信息的处理方法及装置
CN106777300A (zh) * 2016-12-30 2017-05-31 深圳市华傲数据技术有限公司 基础地址库构建方法及系统
CN106709065A (zh) * 2017-01-19 2017-05-24 国家电网公司 一种地址信息标准化处理方法及装置
CN106709065B (zh) * 2017-01-19 2020-08-04 国家电网公司 一种地址信息标准化处理方法及装置
CN107609406A (zh) * 2017-08-09 2018-01-19 南京邮电大学 一种基于地理编码的快递地址加密方法
CN110826318A (zh) * 2019-10-14 2020-02-21 浙江数链科技有限公司 物流信息识别的方法、设备、计算机设备和存储介质
CN113569564A (zh) * 2021-07-30 2021-10-29 拉扎斯网络科技(上海)有限公司 一种地址信息的处理、显示方法和装置
CN113569564B (zh) * 2021-07-30 2024-03-19 拉扎斯网络科技(上海)有限公司 一种地址信息的处理、显示方法和装置

Also Published As

Publication number Publication date
WO2015027837A1 (zh) 2015-03-05

Similar Documents

Publication Publication Date Title
CN103473289A (zh) 一种通信地址补全的装置及方法
CN103440312B (zh) 一种通信地址查询邮政编码的系统及终端
EP2570974B1 (en) Automatic crowd sourcing for machine learning in information extraction
CN108984650B (zh) 计算机可读记录介质及计算机设备
CN106874287B (zh) 一种兴趣点 poi 地址编码的处理方法及装置
CN110019617B (zh) 地址标识的确定方法和装置、存储介质、电子装置
CN102622592A (zh) 一种基于云技术的名片识别方法
WO2015143970A1 (zh) 一种基于二维码的信息采集系统及其方法
US20150186455A1 (en) Systems and methods for automatic electronic message annotation
CN102955833A (zh) 一种通讯地址识别、标准化的方法
CN105677661A (zh) 一种检测社交媒体重复数据的方法
CN102955832A (zh) 一种通讯地址识别、标准化的系统
CN103533169A (zh) 一种基于移动终端电子名片的字段定位链接方法
CN104598510A (zh) 一种事件触发词识别方法及装置
CN114241501B (zh) 影像文档处理方法、装置及电子设备
CN103838763A (zh) 目标文件生成系统及方法
CN106446270A (zh) 一种分类方法及装置
CN110046352A (zh) 地址标准化方法及装置
CN103514214B (zh) 数据查询方法及装置
CN105120045A (zh) 根据新增联系人姓名的备注信息创建通讯录的方法及装置
CN105320714A (zh) 内容检索和标注信息主动服务的交互式检索方法
JP4217132B2 (ja) コミュニティ位置インデックスサーバ
CN113343652A (zh) 文本处理方法、装置、设备及介质
CN111221975B (zh) 一种字段提取方法、装置及计算机存储介质
CN113536781A (zh) 地址识别方法及装置、可读存储介质、终端

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20131225