CN106202028A - 一种地址信息识别方法及装置 - Google Patents

一种地址信息识别方法及装置 Download PDF

Info

Publication number
CN106202028A
CN106202028A CN201510218230.XA CN201510218230A CN106202028A CN 106202028 A CN106202028 A CN 106202028A CN 201510218230 A CN201510218230 A CN 201510218230A CN 106202028 A CN106202028 A CN 106202028A
Authority
CN
China
Prior art keywords
address
membership relation
chained list
region
rank
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510218230.XA
Other languages
English (en)
Other versions
CN106202028B (zh
Inventor
任巨伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Feizhu Network Technology Co.,Ltd.
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510218230.XA priority Critical patent/CN106202028B/zh
Publication of CN106202028A publication Critical patent/CN106202028A/zh
Priority to HK17104990.3A priority patent/HK1231587A1/zh
Application granted granted Critical
Publication of CN106202028B publication Critical patent/CN106202028B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明实施例公开了一种地址信息识别方法及装置,其中,方法包括:根据预先构造的地址单元的数据结构表,解析待识别的地址信息的字符串得到地址链和后缀字符串;根据预先建立的行政区域的从属关系链表,判断所述地址链的区域从属关系是否正确;当所述地址链的区域从属关系正确时,查看所述后缀字符串是否包含预设的后缀关键字;如果是,确定地址信息是有效的;否则,确定地址信息是无效的;当所述地址链的区域从属关系不正确时,则确定地址信息为无效的。本发明对地址信息进行了解析,进而对每个部分进行了识别,识别方式简单可靠,能够提高识别效率和识别准确度。

Description

一种地址信息识别方法及装置
技术领域
本发明涉及数据处理领域,特别是涉及一种地址信息识别方法及装置。
背景技术
目前有许多领域需要用到地址信息,地址信息的准确与否直接影响到业务的成功与否;例如在网络交易平台中,如果买家地址信息填写有误,将导致货物无法送达至买家,进而直接影响收货交款业务。另外,如果买家退货给卖家,而卖家地址信息填写有误,同样导致货物无法返回给卖家,进而直接影响退款退货业务。无论是买家地址信息还是卖家地址信息,只有有效的地址信息才能保证物流通畅,保证交易成功完成。
地址信息主要由国家行政区域部分和详细地址部分构成,国家行政区域部分包括国家、省、市、区、县等行政区划信息,详细地址部分一般包括具体到路、街道、小区、乡、镇、村和门牌号等位置信息。很多领域都采用下拉选项和详细地址两部分方式管理地址信息,当用户在填写地址信息时,先按照下拉选项中各级别的可选项来选择具体的区划信息,再在详细地址部分填写具体的位置信息。
现阶段的地址信息识别方式主要是通过下拉选项方式引导用户填写,保证下拉选项部分的信息是有效的,但其忽略了详细地址部分的位置信息,实际应用中往往是由于详细地址部分的位置信息有误导致业务受到影响。另外,在一些应用场景下,没有下拉选项的引导,用户会直接输入地址信息,在这种场景下不会对地址信息进行识别,更加无法保证地址信息的有效,对业务影响较大。
在这种市场需求的环境下,有限状态机识别方式应运而生,有限状态机识别原理可参见图1,每个有限状态机都有一个起始状态、一个终止状态以及若干中间状态,每两个状态间弧线上都带有状态转换条件。当一条地址信息从起始状态经过若干中间状态进入终点状态时,则识别出这条地址信息是有效的,否则识别出这条信息是无效的。
但这种有限状态机识别方式有以下缺点:一方面,对于撰写不规范的地址信息,如不携带省、市、区等关键字的地址信息,再例如,携带地标建筑、医院、酒店等公共场所名称的地址信息,该方式均无法有效识别。另一方面,状态间的转换需要大量的字符串匹配操作,识别过程耗时较长。
发明内容
为了解决上述技术问题,本发明提供了一种地址信息识别方法及装置,通过对地址信息的解析得到地址链和后缀字符串,为后续的识别打好基础,先对地址链进行判断,以识别地址信息的区域从属关系是否正确;在区域从属关系正确的情况下,进而识别后缀字符串是否有效,通过对地址信息中两部分信息的识别以保证识别的准确性和时效性。
一方面,本发明提供了一种地址信息识别方法,所述方法包括:
根据预先构造的地址单元的数据结构表,解析待识别的地址信息的字符串得到地址链和后缀字符串;所述数据结构表是基于国家行政区划信息构造的地址单元的数据结构表;
根据预先建立的行政区域的从属关系链表,判断所述地址链的区域从属关系是否正确;所述从属关系链表是基于国家行政区划信息建立的行政区域级别从属关系链表;
当所述地址链的区域从属关系正确时,查看所述后缀字符串是否包含预设的后缀关键字;如果是,确定地址信息是有效的;否则,确定地址信息是无效的;
当所述地址链的区域从属关系不正确时,则确定地址信息为无效的。
可选的,所述根据预先建立的行政区域的从属关系链表,判断所述地址链的区域从属关系是否正确,具体包括:
根据预先建立的行政区域从属关系链表,按照级别由高到低的正向匹配方式,判断所述地址链里的区域从属关系是否正确;所述从属关系链表是基于国家行政区划信息,按照行政区域级别由高到低的方式建立的正向级别从属关系链表。
可选的,所述根据预先建立的行政区域的从属关系链表,判断所述地址链的区域从属关系是否正确,具体包括:
根据预先建立的行政区域从属关系链表,按照级别由低到高的逆向匹配方式,判断所述地址链里的区域从属关系是否正确;所述从属关系链表是基于国家行政区划信息,按照行政区域级别由低到高的方式建立的逆向级别从属关系链表。
可选的,所述逆向级别从属关系链表包括:
相邻级别的逆向级别从属关系链表和跨级别的逆向级别从属关系链表。
可选的,所述判断所述地址链的区域从属关系是否正确,具体包括:
判断所述地址链里第一个地址单元是否为直辖市;
如果是,根据预先建立的行政区域的从属关系链表以及所述地址链中的前两个地址单元,判断所述地址链的区域从属关系是否正确;
否则,根据预先建立的行政区域的从属关系链表以及所述地址链中的前三个地址单元,判断所述地址链的区域从属关系是否正确。
可选的,当所述地址链的区域从属关系正确时,在执行所述查看所述后缀字符串是否包含预设的后缀关键字步骤之前,所述方法还包括:
对所述后缀字符串进行去重处理,以去掉所述后缀字符串中与所述地址链中信息相同的部分;
判断去重后的后缀字符串的长度是否大于预设阈值;如果是,则执行所述查看所述后缀字符串是否包含预设的后缀关键字的步骤。
可选的,当查看所述后缀字符串不包含预设的后缀关键字时,所述方法还包括:
判断所述后缀字符串是否包含预设的垃圾关键字;如果是,则确定地址信息是无效的;否则,确定地址信息是有效的。
可选的,所述数据结构表是基于字典树的结构,将国家行政区划信息中的地址单元按照单字拆开的方式构造生成的地址单元的字典树。
另一方面,本发明提供了一种地址信息识别装置,其特征在于,所述装置包括:
地址信息解析单元,用于根据预先构造的地址单元的数据结构表,解析待识别的地址信息的字符串得到地址链和后缀字符串;所述数据结构表是基于国家行政区划信息构造的地址单元的数据结构表;
从属关系判断单元,用于根据预先建立的行政区域的从属关系链表,判断所述地址链的区域从属关系是否正确;所述从属关系链表是基于国家行政区划信息建立的行政区域级别从属关系链表;如果是,进入第一查看单元;否则,进入第二确定单元;
第一查看单元,用于查看所述后缀字符串是否包含预设的后缀关键字;如果是,进入第一确定单元;否则,进入第二确定单元;
所述第一确定单元,用于确定地址信息是有效的;
所述第二确定单元,用于确定地址信息是无效的。
可选的,所述区域从属关系判断单元具体用于:
根据预先建立的行政区域从属关系链表,按照级别由高到低的正向匹配方式,判断所述地址链里的区域从属关系是否正确;所述从属关系链表是基于国家行政区划信息,按照行政区域级别由高到低的方式建立的正向级别从属关系链表。
可选的,所述区域从属关系判断单元具体用于:
根据预先建立的行政区域从属关系链表,按照级别由低到高的逆向匹配方式,判断所述地址链里的区域从属关系是否正确;所述从属关系链表是基于国家行政区划信息,按照行政区域级别由低到高的方式建立的逆向级别从属关系链表。
可选的,所述逆向级别从属关系链表包括:
相邻级别的逆向级别从属关系链表和跨级别的逆向级别从属关系链表。
可选的,所述区域从属关系判断单元,包括:
第一判断子单元,用于判断所述地址链里第一个地址单元是否为直辖市;如果是,进入第二判断子单元;否则,第三判断子单元;
第二判断子单元,用于根据预先建立的行政区域的从属关系链表以及所述地址链中的前两个地址单元,判断所述地址链的区域从属关系是否正确;
第三判断子单元,用于根据预先建立的行政区域的从属关系链表以及所述地址链中的前三个地址单元,判断所述地址链的区域从属关系是否正确。
可选的,所述装置还包括:
去重处理单元,用于对所述后缀字符串进行去重处理,以去掉所述后缀字符串中与所述地址链中信息相同的部分;
长度判断单元,用于判断去重后的后缀字符串的长度是否大于预设阈值;如果是,进入所述第一查看单元。
可选的,所述装置还包括:
第二查看单元,用于在所述第一查看单元查看出后缀字符串不包含预设的后缀关键字时,查看后缀字符串是否包含预设的垃圾关键字;如果是,进入第二确定单元;否则,进入第一确定单元。
可选的,所述数据结构表是基于字典树的结构,将国家行政区划信息中的地址单元按照单字拆开的方式构造生成的地址单元的字典树。
由上述技术方案可以看出,与现有技术相比,本发明具有如下有益效果:
本发明首先根据预先构造的地址单元的数据结构表,解析待识别的地址信息的字符串得到地址链和后缀字符串;其中,数据结构表是基于国家行政区划信息构造的地址单元的数据结构表;然后,根据预先建立的行政区域的从属关系链表,判断所述地址链的区域从属关系是否正确;其中,从属关系链表是基于国家行政区划信息建立的行政区域级别从属关系链表;这样,先判断出地址信息中的国家行政区域部分的内容是否正确;如果从属关系不正确,那么可以直接确定地址信息是无效的;如果从属关系是正确的,那么继续对后缀字符串部分进行识别,具体是通过查看所述后缀字符串是否包含预设的后缀关键字;如果是,确定地址信息是有效的;否则,确定地址信息是无效的。本发明通过对地址信息的解析为后续的两部分识别打好基础,一部分是基于从属关系链表对区域从属关系的识别,识别过程简单;另一部分是基于预设的后缀关键字对详细地址信息的识别,即是关键字匹配的识别方式,匹配过程简单;通过这两部分相结合的识别方式,既能保证对地址信息的完整识别保证其准确性,又能保证识别效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术的有限状态机的识别方法的原理图;
图2为本发明提供的一种地址信息识别方法实施例1的流程图;
图3为本发明提供的基于Trie树构造的地址单元数据结构表的示意图;
图4为本发明提供的一种地址信息识别方法实施例2的流程图;
图5为本发明提供的一种地址信息识别方法实施例3的流程图;
图6为本发明提供的一种地址信息识别装置实施例1的结构图;
图7为本发明提供的一种地址信息识别装置实施例2的结构图;
图8为本发明提供的一种地址信息识别装置实施例3的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图2,图2为本发明提供的一种地址信息识别方法实施例1的流程图,由图2可知,该方法包括以下步骤:
S201,根据预先构造的地址单元的数据结构表,解析待识别的地址信息的字符串得到地址链和后缀字符串;所述数据结构表是基于国家行政区划信息构造的地址单元的数据结构表。
地址单元是指基于国家行政划分信息提取的,用于表征独立地域信息的单元。地址单元可以通过以下方式生成,包括:
先将国家行政区划信息进行区域分割,再对分割的单元进行归一化,以去除行政区划后缀(如“省、市、区、县”等后缀字),以得到地址单元。
举例说明,例1,国家行政区划信息为:北京市市辖区东城区东华门街道办事处;区划分割以及归一化得到“北京东城东华门街道”;例2,国家行政区划信息为:“广东省清远市连山壮族瑶族自治县福堂镇”,区划分割以及归一化为:“广东清远连山福堂镇”。
地址单元的数据结构表可以采用任意类型的结构来生成,例如可以采用哈希表结构、字典树(Trie树)等。发明人发现Trie树结构的遍历性能较高,那么为了提高识别效率,在具体实现时,上述数据结构表可以是基于字典树的结构,将国家行政区划信息中的地址单元按照单字拆开的方式构造生成的地址单元的字典树。下面对基于Trie树结构构造数据结构表的方法进行说明。
首先,按照单字拆开的方式将地址单元拆成单字,然后,将一个单独的字作为一个节点来构造整个树,且每个节点上携带有地址单元是否终止的标识。例如:参见图3,图3是基于Trie树结构构造的地址单元的的数据结构表的示意图,在图3中仅以6个地址单元为例来展示对应的数据结构表,具体的6个地址单元为“山西、山东、山东庙街、太原、太原街、蒙古”,每个地址单元均被拆成单字,每个字作为一个节点,在每个节点里的“0”或“1”是用于标识地址单元是否终止,在图3中用“0”标识地址单元没有终止,用“1”标识地址单元终止,在实际应用中也可以通过其他方式来进行标识。
上述S101就是基于预先构造的地址单元的数据结构表,来解析待识别的地址信息的字符串得到地址链和后缀字符串;地址链用于表征地址信息中的区划信息;后缀字符串是地址信息中除去地址链后剩余的字符串;在具体实现时,基于预先构造的地址单元的数据结构表,按照最长匹配原则解析地址信息的字符串得到地址单元,所有地址单元按照原始位置关系组合成地址链。
举例说明,例如:“山东省烟台市蓬莱市蓬达望阁楼5楼3059”,解析到的地址链为:“山东烟台蓬莱”,后缀字符串为“蓬达望阁楼5楼3059”。再例如:“北京市朝阳区东三环中路32号”解析到的地址链为:“北京朝阳”,后缀字符串为“东三环中路32号”。
完成S201之后,进入S202步骤。
S202,根据预先建立的行政区域的从属关系链表,判断所述地址链的区域从属关系是否正确;所述从属关系链表是基于国家行政区划信息建立的行政区域级别从属关系链表。
发明人首先提供了一种方式来是实现S202,第一种方式:根据预先建立的行政区域从属关系链表,按照级别由高到低的正向匹配方式,判断所述地址链里的区域从属关系是否正确;所述从属关系链表是基于国家行政区划信息,按照行政区域级别由高到低的方式建立的正向级别从属关系链表。
考虑到中国地理环境复杂,行政区域从属关系复杂,一个地址单元的下级地址可能有多个,例如:河北省的下级地址有33个市、108个县;再例如:山东省的下级地址有17个市、139个县或区。发明人又提供了一种方式来实现S202,以提高区域从属关系识别效率。
第二种方式:根据预先建立的行政区域从属关系链表,按照级别由低到高的逆向匹配方式,判断所述地址链里的区域从属关系是否正确;所述从属关系链表是基于国家行政区划信息,按照行政区域级别由低到高的方式建立的逆向级别从属关系链表。
另外,发明人还考虑到用户输入地址信息的一些常规习惯,如跨级别的地址信息,如用户经常会漏掉中间级别的区划信息,如漏掉市级别、漏掉区级别,例如,“陕西省宝鸡市金台区陈仓园北金色花园小区”用户一般会写成“陕西省金台区陈仓园北金色花园小区”,漏掉了中间级别的“宝鸡市”或者“陕西省宝鸡市陈仓园北金色花园小区”,漏掉了中间级别的“金台区”;针对用户输入的此类地址信息,为了进一步提高区域从属关系的识别效率,发明人还提供了更好的方案,在第二种方式中,所述逆向级别从属关系链表包括:相邻级别的逆向级别从属关系链表和跨级别的逆向级别从属关系链表。
举例说明,例如:“北京东城东华门街道”可构造成“东华门街道—>东城—>北京,东华门街道—>北京(跨级别从属关系链表),东城—>北京”三个逆向从属关系链。此外,对于一个地址单元可能出现在多个辖区中的情况,则针对一个地址单元可以构造多重关系链表,例如:“安徽芜湖镜湖北京路街道”和“山东日照东港北京路街道”都含有“北京路街道”,因此,可以构造“北京路街道—>镜湖—>芜湖—>安徽”和“北京路街道—>东港—>日照—>山东”。
下面对上述“按照级别由低到高的逆向匹配方式,判断所述地址链里的区域从属关系是否正确”的实现过程进行举例说明。
例如:地址链为“辽宁沈阳和平太原街”,按照级别由低到高的逆向匹配方式具体为:先判断“沈阳”是否隶属于“辽宁”,再判断“和平区”是否属于“沈阳”,最后判断“太原街”是否属于“和平区”,只有所有从属关系正确才可以认为是正确的从属关系。整个判断过程是基于地址链中的地址单元位置顺序,再按照级别由低到高的逆向方式进行判断。
另外,考虑到中国关于市级设置了直辖市,对于直辖市的区划信息,其下级地址单位只是区、县等,对于非直辖市的区划信息,其包括省、市、区、县等,为了进一步提高区域从属关系的识别效率,发明人还提供了一种实现方式,第三种方式,包括:
判断所述地址链里第一个地址单元是否为直辖市;
如果是,根据预先建立的行政区域的从属关系链表以及所述地址链中的前两个地址单元,判断所述地址链的区域从属关系是否正确;
否则,根据预先建立的行政区域的从属关系链表以及所述地址链中的前三个地址单元,判断所述地址链的区域从属关系是否正确。
目前中国有4个直辖市,分别为北京市、上海市、天津市、重庆市;那么在具体实现时,仅需要判断地址链里的级别最高的单元,即,第一个地址单元是否为上述四个直辖市中任一个。在按照第三种方式实现S202时,可以采用上述第一种方式或上述第二种方式来判断区域从属关系是否正确。
完成S202之后,当所述地址链的区域从属关系正确时,进入S203步骤;当所述地址链的区域从属关系不正确时,进入S205步骤。
S203,查看所述后缀字符串是否包含预设的后缀关键字;如果是,进入S204;否则,进入S205。
S204,确定地址信息是有效的。S205,确定地址信息是无效的。
在这里,预设的后缀关键字是通过预先统计合法地址信息中的标志性的字。一般情况下,先统计合法地址的标志性字出现的频率,将出现频率较高的字设置为预设的后缀关键字,如:“号、栋、室、路、弄、苑……等”。在具体实现时,将这些预设的后缀关键字组合成一个预设的关键字集合,那么在实现S203时,将所述后缀字符串与预设的关键字集合进行文本遍历,以确定所述后缀字符串是否包含预设的关键字;如果按照集合中字的顺序进行遍历,只要确定出后缀字符串包含了一个预设的关键字,就可以停止遍历。
另外,发明人结合用户撰写地址信息的习惯,在大量地址信息数据的统计规律的基础上,统计得到一个阈值可以作为区分后缀字符串正确与否的判断阈值,进一步地,发明人在上述实施例1的基础上,还提供了另一种更优化的实现方案。
参见图4,图4为本发明提供的一种地址信息识别方法实施例2的流程图;图4的方案是在图2方案的基础上,增加了如下步骤:
在执行S201和S202,完成S202之后,当所述地址链的区域从属关系正确时,进入执行S206步骤;当所述地址链的区域从属关系不正确时,进入S205。
S206,对所述后缀字符串进行去重处理,以去掉所述后缀字符串中与所述地址链中信息相同的部分。
这里的去重处理主要是为了解决在实际应用中,用户重复输入区划信息以至于后缀字符串中还会包含区划信息,进而影响后续识别效果的问题。
在完成S206时,进入S207。
S207,判断去重后的后缀字符串的长度是否大于预设阈值;如果是,进入S203以及进入S204或S205。
另外,发明人在上述实施例2的基础上,还提供了另一种更优化的实现方案。
参见图5,图5为本发明提供的一种地址信息识别方法实施例3的流程图;图5的方案是在图4方案的基础上,增加了如下步骤:
在执行S203判断结果为是时,进入S208。
S208,判断所述后缀字符串是否包含预设的垃圾关键字;如果是,进入S205,否则,进入S204。
这里的预设的垃圾关键字是通过统计错误地址信息中频繁出现的垃圾关键字。需要说明的是,在各个方案中各步骤的序列号并不直接决定步骤的执行顺序,而是根据上下文逻辑关系来决定步骤的执行顺序。
通过上述实施例可以看出,本发明基于国家区划信息建立的数据结构表来对地址信息进行划分得到地址链和后缀字符串,接着采用两重识别方式,既识别表征区划信息的地址链,又识别表征具体位置信息的后缀字符串,保证了识别完整性提高了精确度,且地址链从属关系的识别和后缀字符串的识别均是字符串查找过程,实现过程简单快速,使得识别效率较高;另外,在后缀字符串的识别,可以利用预设的后缀关键字,还可以结合后缀字符串的长度,也还可以结合预设的垃圾关键字对后缀字符串的有效性进行准确识别。因此,本发明能够提高地址信息识别的效率和准确性。
上文是对本发明提供的地址信息识别方法进行了说明,下面对本发明提供的地址信息识别装置进行说明。
参见图6,图6是本发明提供的一种地址信息识别装置实施例1的结构图,所述装置包括:
地址信息解析单元601,用于根据预先构造的地址单元的数据结构表,解析待识别的地址信息的字符串得到地址链和后缀字符串;所述数据结构表是基于国家行政区划信息构造的地址单元的数据结构表;
从属关系判断单元602,用于根据预先建立的行政区域的从属关系链表,判断所述地址链的区域从属关系是否正确;所述从属关系链表是基于国家行政区划信息建立的行政区域级别从属关系链表;如果是,进入第一查看单元603;否则,进入第二确定单元605;
第一查看单元603,用于查看所述后缀字符串是否包含预设的后缀关键字;如果是,进入第一确定单元604;否则,进入第二确定单元605;
所述第一确定单元604,用于确定地址信息是有效的;
所述第二确定单元605,用于确定地址信息是无效的。
优选的,所述区域从属关系判断单元具体用于:
根据预先建立的行政区域从属关系链表,按照级别由高到低的正向匹配方式,判断所述地址链里的区域从属关系是否正确;所述从属关系链表是基于国家行政区划信息,按照行政区域级别由高到低的方式建立的正向级别从属关系链表。
优选的,所述区域从属关系判断单元具体用于:
根据预先建立的行政区域从属关系链表,按照级别由低到高的逆向匹配方式,判断所述地址链里的区域从属关系是否正确;所述从属关系链表是基于国家行政区划信息,按照行政区域级别由低到高的方式建立的逆向级别从属关系链表。
优选的,所述逆向级别从属关系链表包括:
相邻级别的逆向级别从属关系链表和跨级别的逆向级别从属关系链表。
优选的,所述区域从属关系判断单元,包括:
第一判断子单元,用于判断所述地址链里第一个地址单元是否为直辖市;如果是,进入第二判断子单元;否则,第三判断子单元;
第二判断子单元,用于根据预先建立的行政区域的从属关系链表以及所述地址链中的前两个地址单元,判断所述地址链的区域从属关系是否正确;
第三判断子单元,用于根据预先建立的行政区域的从属关系链表以及所述地址链中的前三个地址单元,判断所述地址链的区域从属关系是否正确。
优选的,所述数据结构表是基于字典树的结构,将国家行政区划信息中的地址单元按照单字拆开的方式构造生成的地址单元的字典树。
参见图7,图7的方案是在图6方案的基础上还包括:
去重处理单元606,用于对所述后缀字符串进行去重处理,以去掉所述后缀字符串中与所述地址链中信息相同的部分;
长度判断单元607,用于判断去重后的后缀字符串的长度是否大于预设阈值;如果是,进入所述第一查看单元503。
参见图8,图8的方案是在图7方案的基础上还包括:第二查看单元608,用于在所述第一查看单元查看出后缀字符串不包含预设的后缀关键字时,查看后缀字符串是否包含预设的垃圾关键字;如果是,进入第二确定单元605;否则,进入第一确定单元604。
这里需要说明的是,图8相比图7的方案增加的单元也可以直接增加到图6所示的方案以生成优选方案。
通过上述实施例可以看出,本发明基于国家区划信息建立的数据结构表来对地址信息进行划分得到地址链和后缀字符串,接着采用两重识别方式,既识别表征区划信息的地址链,又识别表征具体位置信息的后缀字符串,保证了识别完整性提高了精确度,且地址链从属关系的识别和后缀字符串的识别均是字符串查找过程,实现过程简单快速,使得识别效率较高;另外,在后缀字符串的识别,可以利用预设的后缀关键字,还可以结合后缀字符串的长度,也还可以结合预设的垃圾关键字对后缀字符串的有效性进行准确识别。因此,本发明能够提高地址信息识别的效率和准确性。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备)执行本发明各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本发明的优选实施方式,并非用于限定本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (16)

1.一种地址信息识别方法,其特征在于,所述方法包括:
根据预先构造的地址单元的数据结构表,解析待识别的地址信息的字符串得到地址链和后缀字符串;所述数据结构表是基于国家行政区划信息构造的地址单元的数据结构表;
根据预先建立的行政区域的从属关系链表,判断所述地址链的区域从属关系是否正确;所述从属关系链表是基于国家行政区划信息建立的行政区域级别从属关系链表;
当所述地址链的区域从属关系正确时,查看所述后缀字符串是否包含预设的后缀关键字;如果是,确定地址信息是有效的;否则,确定地址信息是无效的;
当所述地址链的区域从属关系不正确时,则确定地址信息为无效的。
2.根据权利要求1所述的方法,其特征在于,所述根据预先建立的行政区域的从属关系链表,判断所述地址链的区域从属关系是否正确,具体包括:
根据预先建立的行政区域从属关系链表,按照级别由高到低的正向匹配方式,判断所述地址链里的区域从属关系是否正确;所述从属关系链表是基于国家行政区划信息,按照行政区域级别由高到低的方式建立的正向级别从属关系链表。
3.根据权利要求1所述的方法,其特征在于,所述根据预先建立的行政区域的从属关系链表,判断所述地址链的区域从属关系是否正确,具体包括:
根据预先建立的行政区域从属关系链表,按照级别由低到高的逆向匹配方式,判断所述地址链里的区域从属关系是否正确;所述从属关系链表是基于国家行政区划信息,按照行政区域级别由低到高的方式建立的逆向级别从属关系链表。
4.根据权利要求3所述的方法,其特征在于,所述逆向级别从属关系链表包括:
相邻级别的逆向级别从属关系链表和跨级别的逆向级别从属关系链表。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述判断所述地址链的区域从属关系是否正确,具体包括:
判断所述地址链里第一个地址单元是否为直辖市;
如果是,根据预先建立的行政区域的从属关系链表以及所述地址链中的前两个地址单元,判断所述地址链的区域从属关系是否正确;
否则,根据预先建立的行政区域的从属关系链表以及所述地址链中的前三个地址单元,判断所述地址链的区域从属关系是否正确。
6.根据权利要求1所述的方法,其特征在于,当所述地址链的区域从属关系正确时,在执行所述查看所述后缀字符串是否包含预设的后缀关键字步骤之前,所述方法还包括:
对所述后缀字符串进行去重处理,以去掉所述后缀字符串中与所述地址链中信息相同的部分;
判断去重后的后缀字符串的长度是否大于预设阈值;如果是,则执行所述查看所述后缀字符串是否包含预设的后缀关键字的步骤。
7.根据权利要求1或6所述的方法,其特征在于,当查看所述后缀字符串不包含预设的后缀关键字时,所述方法还包括:
判断所述后缀字符串是否包含预设的垃圾关键字;如果是,则确定地址信息是无效的;否则,确定地址信息是有效的。
8.根据权利要求1所述的方法,其特征在于,所述数据结构表是基于字典树的结构,将国家行政区划信息中的地址单元按照单字拆开的方式构造生成的地址单元的字典树。
9.一种地址信息识别装置,其特征在于,所述装置包括:
地址信息解析单元,用于根据预先构造的地址单元的数据结构表,解析待识别的地址信息的字符串得到地址链和后缀字符串;所述数据结构表是基于国家行政区划信息构造的地址单元的数据结构表;
从属关系判断单元,用于根据预先建立的行政区域的从属关系链表,判断所述地址链的区域从属关系是否正确;所述从属关系链表是基于国家行政区划信息建立的行政区域级别从属关系链表;如果是,进入第一查看单元;否则,进入第二确定单元;
第一查看单元,用于查看所述后缀字符串是否包含预设的后缀关键字;如果是,进入第一确定单元;否则,进入第二确定单元;
所述第一确定单元,用于确定地址信息是有效的;
所述第二确定单元,用于确定地址信息是无效的。
10.根据权利要求9所述的装置,其特征在于,所述区域从属关系判断单元具体用于:
根据预先建立的行政区域从属关系链表,按照级别由高到低的正向匹配方式,判断所述地址链里的区域从属关系是否正确;所述从属关系链表是基于国家行政区划信息,按照行政区域级别由高到低的方式建立的正向级别从属关系链表。
11.根据权利要求9所述的装置,其特征在于,所述区域从属关系判断单元具体用于:
根据预先建立的行政区域从属关系链表,按照级别由低到高的逆向匹配方式,判断所述地址链里的区域从属关系是否正确;所述从属关系链表是基于国家行政区划信息,按照行政区域级别由低到高的方式建立的逆向级别从属关系链表。
12.根据权利要求11所述的装置,其特征在于,所述逆向级别从属关系链表包括:
相邻级别的逆向级别从属关系链表和跨级别的逆向级别从属关系链表。
13.根据权利要求9所述的装置,其特征在于,所述区域从属关系判断单元,包括:
第一判断子单元,用于判断所述地址链里第一个地址单元是否为直辖市;如果是,进入第二判断子单元;否则,第三判断子单元;
第二判断子单元,用于根据预先建立的行政区域的从属关系链表以及所述地址链中的前两个地址单元,判断所述地址链的区域从属关系是否正确;
第三判断子单元,用于根据预先建立的行政区域的从属关系链表以及所述地址链中的前三个地址单元,判断所述地址链的区域从属关系是否正确。
14.根据权利要求9所述的装置,其特征在于,所述装置还包括:
去重处理单元,用于对所述后缀字符串进行去重处理,以去掉所述后缀字符串中与所述地址链中信息相同的部分;
长度判断单元,用于判断去重后的后缀字符串的长度是否大于预设阈值;如果是,进入所述第一查看单元。
15.根据权利要求9或14所述的装置,其特征在于,所述装置还包括:
第二查看单元,用于在所述第一查看单元查看出后缀字符串不包含预设的后缀关键字时,查看后缀字符串是否包含预设的垃圾关键字;如果是,进入第二确定单元;否则,进入第一确定单元。
16.根据权利要求9所述的装置,其特征在于,所述数据结构表是基于字典树的结构,将国家行政区划信息中的地址单元按照单字拆开的方式构造生成的地址单元的字典树。
CN201510218230.XA 2015-04-30 2015-04-30 一种地址信息识别方法及装置 Active CN106202028B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510218230.XA CN106202028B (zh) 2015-04-30 2015-04-30 一种地址信息识别方法及装置
HK17104990.3A HK1231587A1 (zh) 2015-04-30 2017-05-18 種地址信息識別方法及裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510218230.XA CN106202028B (zh) 2015-04-30 2015-04-30 一种地址信息识别方法及装置

Publications (2)

Publication Number Publication Date
CN106202028A true CN106202028A (zh) 2016-12-07
CN106202028B CN106202028B (zh) 2019-10-11

Family

ID=57458475

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510218230.XA Active CN106202028B (zh) 2015-04-30 2015-04-30 一种地址信息识别方法及装置

Country Status (2)

Country Link
CN (1) CN106202028B (zh)
HK (1) HK1231587A1 (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038090A (zh) * 2017-12-26 2018-05-15 北京明朝万达科技股份有限公司 一种文本地址的处理方法和装置
CN108509441A (zh) * 2017-02-24 2018-09-07 菜鸟智能物流控股有限公司 一种地址有效性分类器的训练及其验证方法和相关装置
CN108985672A (zh) * 2017-06-01 2018-12-11 北京京东尚科信息技术有限公司 信息输出方法和装置
CN110019617A (zh) * 2017-12-05 2019-07-16 腾讯科技(深圳)有限公司 地址标识的确定方法和装置、存储介质、电子装置
CN110348730A (zh) * 2019-07-04 2019-10-18 创新奇智(南京)科技有限公司 风险用户判断方法及其系统、电子设备
CN110765773A (zh) * 2019-10-31 2020-02-07 北京金堤科技有限公司 地址数据获取方法以及装置
CN111680500A (zh) * 2020-06-10 2020-09-18 深圳前海微众银行股份有限公司 地址识别方法、装置、设备与计算机可读存储介质
CN112529484A (zh) * 2019-09-17 2021-03-19 北京京东振世信息技术有限公司 站点匹配方法及系统
CN112579713A (zh) * 2019-09-29 2021-03-30 中国移动通信集团辽宁有限公司 地址识别方法、装置、计算设备及计算机存储介质
CN112632213A (zh) * 2020-12-03 2021-04-09 大箴(杭州)科技有限公司 地址信息标准化方法及装置、电子设备、存储介质
CN112749169A (zh) * 2021-01-20 2021-05-04 北京明略昭辉科技有限公司 地址树构建方法、地址规划规范方法、装置和电子设备
CN113656450A (zh) * 2021-07-12 2021-11-16 大箴(杭州)科技有限公司 地址处理方法及装置、电子设备、存储介质
CN114820096A (zh) * 2021-01-29 2022-07-29 上海寻梦信息技术有限公司 一种异常订单识别方法、系统、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6575376B2 (en) * 2001-02-16 2003-06-10 Sybase, Inc. System with improved methodology for providing international address validation
JP2007080137A (ja) * 2005-09-16 2007-03-29 Hitachi Software Eng Co Ltd 住所データのマッチング方法および装置
CN101350013A (zh) * 2007-07-18 2009-01-21 北京灵图软件技术有限公司 一种地理信息的搜索方法和系统
CN102306161A (zh) * 2011-07-22 2012-01-04 浙江百世技术有限公司 多区域重复性检测的方法和设备
CN102750351A (zh) * 2012-06-11 2012-10-24 迪尔码国际营销服务(北京)有限公司 基于规则的地址信息匹配方法
CN103914544A (zh) * 2014-04-03 2014-07-09 浙江大学 一种基于地址特征词的多层次快速中文地址匹配方法
CN104317938A (zh) * 2014-10-31 2015-01-28 北京国双科技有限公司 网页链接有效性验证方法及装置
CN104375992A (zh) * 2013-08-12 2015-02-25 中国移动通信集团浙江有限公司 一种地址匹配的方法和装置
CN104537062A (zh) * 2014-12-29 2015-04-22 北京牡丹电子集团有限责任公司数字电视技术中心 一种地址信息抽取方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6575376B2 (en) * 2001-02-16 2003-06-10 Sybase, Inc. System with improved methodology for providing international address validation
JP2007080137A (ja) * 2005-09-16 2007-03-29 Hitachi Software Eng Co Ltd 住所データのマッチング方法および装置
CN101350013A (zh) * 2007-07-18 2009-01-21 北京灵图软件技术有限公司 一种地理信息的搜索方法和系统
CN102306161A (zh) * 2011-07-22 2012-01-04 浙江百世技术有限公司 多区域重复性检测的方法和设备
CN102750351A (zh) * 2012-06-11 2012-10-24 迪尔码国际营销服务(北京)有限公司 基于规则的地址信息匹配方法
CN104375992A (zh) * 2013-08-12 2015-02-25 中国移动通信集团浙江有限公司 一种地址匹配的方法和装置
CN103914544A (zh) * 2014-04-03 2014-07-09 浙江大学 一种基于地址特征词的多层次快速中文地址匹配方法
CN104317938A (zh) * 2014-10-31 2015-01-28 北京国双科技有限公司 网页链接有效性验证方法及装置
CN104537062A (zh) * 2014-12-29 2015-04-22 北京牡丹电子集团有限责任公司数字电视技术中心 一种地址信息抽取方法及系统

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509441A (zh) * 2017-02-24 2018-09-07 菜鸟智能物流控股有限公司 一种地址有效性分类器的训练及其验证方法和相关装置
CN108985672A (zh) * 2017-06-01 2018-12-11 北京京东尚科信息技术有限公司 信息输出方法和装置
CN110019617B (zh) * 2017-12-05 2022-05-20 腾讯科技(深圳)有限公司 地址标识的确定方法和装置、存储介质、电子装置
CN110019617A (zh) * 2017-12-05 2019-07-16 腾讯科技(深圳)有限公司 地址标识的确定方法和装置、存储介质、电子装置
CN108038090A (zh) * 2017-12-26 2018-05-15 北京明朝万达科技股份有限公司 一种文本地址的处理方法和装置
CN110348730A (zh) * 2019-07-04 2019-10-18 创新奇智(南京)科技有限公司 风险用户判断方法及其系统、电子设备
CN112529484A (zh) * 2019-09-17 2021-03-19 北京京东振世信息技术有限公司 站点匹配方法及系统
CN112579713A (zh) * 2019-09-29 2021-03-30 中国移动通信集团辽宁有限公司 地址识别方法、装置、计算设备及计算机存储介质
CN112579713B (zh) * 2019-09-29 2023-11-21 中国移动通信集团辽宁有限公司 地址识别方法、装置、计算设备及计算机存储介质
CN110765773A (zh) * 2019-10-31 2020-02-07 北京金堤科技有限公司 地址数据获取方法以及装置
CN111680500A (zh) * 2020-06-10 2020-09-18 深圳前海微众银行股份有限公司 地址识别方法、装置、设备与计算机可读存储介质
CN111680500B (zh) * 2020-06-10 2023-07-14 深圳前海微众银行股份有限公司 地址识别方法、装置、设备与计算机可读存储介质
CN112632213A (zh) * 2020-12-03 2021-04-09 大箴(杭州)科技有限公司 地址信息标准化方法及装置、电子设备、存储介质
CN112749169A (zh) * 2021-01-20 2021-05-04 北京明略昭辉科技有限公司 地址树构建方法、地址规划规范方法、装置和电子设备
CN114820096A (zh) * 2021-01-29 2022-07-29 上海寻梦信息技术有限公司 一种异常订单识别方法、系统、电子设备及存储介质
CN113656450A (zh) * 2021-07-12 2021-11-16 大箴(杭州)科技有限公司 地址处理方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
HK1231587A1 (zh) 2017-12-22
CN106202028B (zh) 2019-10-11

Similar Documents

Publication Publication Date Title
CN106202028A (zh) 一种地址信息识别方法及装置
CN107656913B (zh) 地图兴趣点地址提取方法、装置、服务器和存储介质
CN108628811B (zh) 地址文本的匹配方法和装置
WO2016165538A1 (zh) 一种地址数据的管理方法和装置
EP3282666A1 (en) Address matching-based risk identification method and device
CN109033086A (zh) 一种地址解析、匹配的方法及装置
CN103678708B (zh) 一种识别预设地址的方法及装置
CN102955833B (zh) 一种通讯地址识别、标准化的方法
CN103902701B (zh) 一种数据存储系统和存储方法
CN105630938A (zh) 一种智能问答系统
CN107704512A (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
CN108509569A (zh) 企业画像的生成方法、装置、电子设备以及存储介质
CN104537062A (zh) 一种地址信息抽取方法及系统
CN110019617B (zh) 地址标识的确定方法和装置、存储介质、电子装置
WO2021189977A1 (zh) 地址编码方法、装置、计算机设备及计算机可读存储介质
CN103473289A (zh) 一种通信地址补全的装置及方法
CN101984422A (zh) 一种容错文本查询的方法和设备
CN102955832A (zh) 一种通讯地址识别、标准化的系统
CN107220442A (zh) 一种用于pcb的差分过孔对检测工具
CN108111526A (zh) 一种基于异常whois信息的非法网站挖掘方法
CN107025232A (zh) 物流系统中地址信息的处理方法及装置
CN106021556A (zh) 地址信息处理方法及装置
CN106874384A (zh) 一种异构地址标准转换及匹配方法
CN106155998A (zh) 一种数据处理方法及装置
CN102521713B (zh) 数据处理装置和数据处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1231587

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211109

Address after: Room J01, mezzanine, building 5, No. 969, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Patentee after: Zhejiang Feizhu Network Technology Co.,Ltd.

Address before: Cayman Islands Grand Cayman capital building, a four storey No. 847 mailbox

Patentee before: ALIBABA GROUP HOLDING Ltd.

TR01 Transfer of patent right