CN105022748A - 一种运单地址分级方法及装置 - Google Patents

一种运单地址分级方法及装置 Download PDF

Info

Publication number
CN105022748A
CN105022748A CN201410174568.5A CN201410174568A CN105022748A CN 105022748 A CN105022748 A CN 105022748A CN 201410174568 A CN201410174568 A CN 201410174568A CN 105022748 A CN105022748 A CN 105022748A
Authority
CN
China
Prior art keywords
word segmentation
result
segmentation result
address
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410174568.5A
Other languages
English (en)
Other versions
CN105022748B (zh
Inventor
周强
刘超
翁楚昊
吴克贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Autonavi Software Co Ltd
Original Assignee
Beijing Mapabc Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mapabc Technology Co Ltd filed Critical Beijing Mapabc Technology Co Ltd
Priority to CN201410174568.5A priority Critical patent/CN105022748B/zh
Publication of CN105022748A publication Critical patent/CN105022748A/zh
Application granted granted Critical
Publication of CN105022748B publication Critical patent/CN105022748B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明涉及地址分级处理技术领域,尤其涉及一种运单地址分级方法及装置,用以解决现有技术中针对特定的运单中的地址,可能会对一些常用地名错分,降低分词成功率,不利于后续根据分级结果查找坐标的问题,所述方法包括:接收运单地址并进行规范化处理,得到用户地址;对所述用户地址进行分词,并对分词结果赋予词性;根据所述分词结果和对应词性,分别确定所述分词结果是否为行政区划、道路/兴趣点POI、楼栋单元号,若是,则记录本次处理结果;否则,将所述分词结果作为描述性信息;遍历所述分词结果,将处理后的分词结果重新组合为完整运单地址。<pb pnum="1" />

Description

一种运单地址分级方法及装置
技术领域
本发明涉及地址分级处理技术领域,尤其涉及一种运单地址分级方法及装置。
背景技术
现有的地址信息在社会活动中无处不在,如同人类生活不可缺少的空气和水一样。据统计,80%的信息与空间有关系,而关系的主要纽带就是地址信息。这些信息几乎涉及到了所有政府部门、企事业单位和社会公众,如公安户籍、民政地名、国土地籍、工商税务法人单位、综合部门统计信息等等,无不包含着地址信息。
目前,尽管这些地址描述信息已经实现了数字化,但由于缺少空间定位,故而影响了管理的效率,制约了专题信息之间的沟通和集成使用。只有将这些地址信息转换成空间坐标,专题信息才能与地理信息叠加,才能利用GIS软件的可视化和空间分析功能辅助用户应用。
目前已有一些实现地址匹配的方法,针对符合标准描述的地址信息,例如“北京市海淀区北太平路16号”采用城市名+区名+道路名+门牌号码的表述方式。而实际情况是,在地址描述中存在着各种各样的表达方式,例如“北京市五棵松中国人民解放军总医院”、“北京市石景山区国际雕塑公园”、“北京市石景山区永乐小区”、“北京市丰台区总部基地11区19号楼”等,在很多的地址信息中人们更习惯于采用单位名、标志地物名称等来进行描述。同时在国内大多数城市的实际情况中,存在大量的地址没有标准门牌号码的情况。由此,对于表述不规范、一致性差的地址信息,采用上述方法很难对地址信息进行有效地匹配和空间定位。
现有的构建地址数据库技术存在若干缺陷。现有的地址数据库在建构时只是利用词典、词表、后缀关键字列表和人工总结的方式将接收到的地址数据分词后分类入地址数据库,其往往是通过人工来适应接收到的地址数据,举例说明:若接收到的地址为“中关村大街南100号”时,其首先通过词典、词表、后缀关键字列表,进行分词,如,后缀关键字列表可能是:“街”、“道”、“路”、“号”等,那么在遇到如“街”、“道”、“路”、“号”等关键字时,即在关键字后进行分词,举例说明:若接收到的地址为“中关村大街南100号”,则通过后缀关键字列表,将该地址分词为“中关村大街”、“南”、“100号”;在分词结束后,再通过人工适应的方式,为分词后的地址信息加入属性,其属性标注顺序为:道路名-方位名-门牌名,如在“中关村大街”中加入属性为道路名、“南”加入方位名、“100号”中加入属性为门牌名。然而,若接收到的地址为“中关村大街100号南”,除通过上述分词将其分为“中关村大街”、“100号”、“南”后,还要为该分词后的地址信息添加新的属性标注顺序为:道路名-门牌名-方位名,并对该分词后的地址加入属性,如在“中关村大街”中加入属性为道路名、“100号”中加入属性为门牌名、“南”加入方位名。
上述的地址数据建构方法,因要不断的加入新的属性标注顺序,从而导致处理过程较为复杂,效率较低,另外,只是通过词典、词表、后缀关键词的方式进行分词,会导致分词准确率较低。
进一步的,针对特定的运单中的地址来说,由于希望根据用户输入的运单地址名称获取相应的坐标,名称的随意组合,可能会带来大量的搜索结果,排重困难,而且运单地址一般都是跟地名相关的,都遵循一定的规则的,如果使用统计进行处理,可能会对一些常用地名错分,降低分词成功率,不利于后续根据分级结果查找坐标。
发明内容
本发明实施例提供一种运单地址分级方法及装置,用以解决现有技术中针对特定的运单中的地址,可能会对一些常用地名错分,降低分词成功率,不利于后续根据分级结果查找坐标的问题。
本发明实施例提供一种运单地址分级方法,该方法包括:
接收运单地址并进行规范化处理,得到用户地址;
对所述用户地址进行分词,并对分词结果赋予词性;
根据所述分词结果和对应词性,分别确定所述分词结果是否为行政区划、道路/兴趣点POI、楼栋单元号,若是,则记录本次处理结果;否则,将所述分词结果作为描述性信息;
遍历所述分词结果,将处理后的分词结果重新组合为完整运单地址。
所述分别确定所述分词结果是否为行政区划、道路/兴趣点POI、楼栋单元号,包括:
在预先设定的分词词典中分别查询所述分词结果是否有对应行政区划、道路/兴趣点POI、楼栋单元号记载内容。
所述方法还包括:
若所述分词词典中查询所述分词结果没有对应行政区划记载内容,则以行政区划规则处理所述分词,并对处理后的结果再次在所述分词词典中查询所述分词结果是否有对应行政区划记载内容,若是,记录本次处理结果;否则,继续下列步骤;
在所述分词词典中查询所述分词结果是否有对应道路/兴趣点POI记载内容,若是,则记录本次处理结果;否则,以道路/兴趣点POI规则处理所述分词,并对处理后的结果再次在所述分词词典中查询所述分词结果是否有对应道路/兴趣点POI记载内容,若是,记录本次处理结果;否则,继续下列步骤;
在所述分词词典中查询所述分词结果是否有对应楼栋单元号记载内容。
所述对所述用户地址进行分词,并对分词结果赋予词性,包括:
对所述用户地址与预先设定的分词词典进行匹配,根据正向最大匹配进行分词;并对匹配成功的所述分词结果给定不同的类别作为所述分词结果的词性。
所述分词词典根据如下方式设定:
获取地图数据库中原始名称行政区划、道路、POI名称并归类,将同一类所述名称归类为所述分词词典的一个词性;
将所述名称、对应词性编译后形成所述分词词典。
所述接收运单地址并进行规范化处理,得到用户地址,包括:
接收输入的运单地址,并去除其中无效字符,按照省、市、区县的方式拼接成一个符合用户书写习惯的用户地址。
另一方面,本发明实施例提供一种运单地址分级装置,所述装置包括:
规范化处理模块,用于接收运单地址并进行规范化处理,得到用户地址;
分词模块,用于对所述用户地址进行分词,并对分词结果赋予词性;
地址分级模块,用于根据所述分词结果和对应词性,分别确定所述分词结果是否为行政区划、道路/兴趣点POI、楼栋单元号,若是,则记录本次处理结果;否则,将所述分词结果作为描述性信息;
组合模块,用于将处理后的分词结果重新组合为完整运单地址。
所述地址分级模块,用于在预先设定的分词词典中分别查询所述分词结果是否有对应行政区划、道路/兴趣点POI、楼栋单元号记载内容。
所述分词模块,用于对所述用户地址与预先设定的分词词典进行匹配,根据正向最大匹配进行分词;并对匹配成功的所述分词结果给定不同的类别作为所述分词结果的词性。
所述地址分级模块,包括:
行政区划子模块,用于在预先设定的分词词典中查询所述分词结果是否有对应行政区划记载内容,如无,则以行政区划规则处理所述分词,并对处理后的结果再次在所述分词词典中查询所述分词结果是否有对应行政区划记载内容,若是,记录本次处理结果;
道路/POI子模块,用于在预先设定的分词词典中查询所述分词结果是否有对应道路/兴趣点POI记载内容,若是,则记录本次处理结果;否则,以道路/兴趣点POI规则处理所述分词,并对处理后的结果再次在所述分词词典中查询所述分词结果是否有对应道路/兴趣点POI记载内容,若是,记录本次处理结果;
楼栋单元号子模块,用于在所述分词词典中查询所述分词结果是否有对应楼栋单元号记载内容。
本发明实施例通过接收运单地址并进行规范化处理,得到用户地址;对所述用户地址进行分词,并对分词结果赋予词性;根据所述分词结果和对应词性,分别确定所述分词结果是否为行政区划、道路/兴趣点POI、楼栋单元号,若是,则记录本次处理结果;否则,将所述分词结果作为描述性信息;遍历所述分词结果,将处理后的分词结果重新组合为完整运单地址。由于采用了基于规则和统计的地址分级,使得后续根据名称找坐标的效率极大提高,对一些常用地名增加了分词成功率,对于后续根据分级结果查找坐标有很大的帮助,降低了搜索的次数,从而提高后续环节的处理效率和搜索效果。
附图说明
图1为本发明实施例1提供的运单地址分级方法流程图;
图2为本发明实施例4提供的运单地址分级装置结构示意图;
图3为本发明实施例5提供的地址分级模块43结构示意图。
具体实施方式
本发明实施例通过接收运单地址并进行规范化处理,得到用户地址;对所述用户地址进行分词,并对分词结果赋予词性;根据所述分词结果和对应词性,分别确定所述分词结果是否为行政区划、道路/兴趣点POI、楼栋单元号,若是,则记录本次处理结果;否则,将所述分词结果作为描述性信息;遍历所述分词结果,将处理后的分词结果重新组合为完整运单地址。通过对用户输入地址习惯的分析,统计出运单地址书写的规则,在对用户地址进行基本分词的基础上,利用统计的规则,再次进行分级处理,将分词后的相关词条重新组合成一个有意义的词条,减少后续的搜索量。由于采用了基于规则和统计的地址分级,使得后续根据名称找坐标的效率极大提高,降低了搜索的次数,从而提高后续环节的处理效率和搜索效果。
下面结合说明书附图对本发明实施例作进一步详细描述。
实施例1
如图1所示,为本发明实施例1提供的运单地址分级方法流程图,包括以下步骤:
S101:接收运单地址并进行规范化处理,得到用户地址;
S102:对用户地址进行分词,并对分词结果赋予词性;
S103:根据分词结果和对应词性,分别确定分词结果是否为行政区划、道路/兴趣点POI、楼栋单元号,若是,则记录本次处理结果;否则,将分词结果作为描述性信息;
S104:遍历分词结果,将处理后的分词结果重新组合为完整运单地址。
可选地,分别确定分词结果是否为行政区划、道路/兴趣点POI、楼栋单元号,包括:在预先设定的分词词典中分别查询分词结果是否有对应行政区划、道路/兴趣点POI、楼栋单元号记载内容。
这里,若分词词典中查询分词结果没有对应行政区划记载内容,则以行政区划规则处理分词,并对处理后的结果再次在分词词典中查询分词结果是否有对应行政区划记载内容,若是,记录本次处理结果;否则,继续下列步骤;
在分词词典中查询分词结果是否有对应道路/兴趣点POI记载内容,若是,则记录本次处理结果;否则,以道路/兴趣点POI规则处理分词,并对处理后的结果再次在分词词典中查询分词结果是否有对应道路/兴趣点POI记载内容,若是,记录本次处理结果;否则,继续下列步骤;
在分词词典中查询分词结果是否有对应楼栋单元号记载内容。
可选地,对用户地址进行分词,并对分词结果赋予词性,包括:
对用户地址与预先设定的分词词典进行匹配,根据正向最大匹配进行分词;并对匹配成功的分词结果给定不同的类别作为分词结果的词性。
可选地,分词词典根据如下方式设定:
获取地图数据库中原始名称行政区划、道路、POI名称并归类,将同一类名称归类为分词词典的一个词性;
将名称、对应词性编译后形成分词词典。
可选地,接收运单地址并进行规范化处理,得到用户地址,包括:
接收输入的运单地址,并去除其中无效字符,按照省、市、区县的方式拼接成一个符合用户书写习惯的用户地址。
本发明实施例中,通过接收运单地址并进行规范化处理,得到用户地址;对用户地址进行分词,并对分词结果赋予词性;根据分词结果和对应词性,分别确定分词结果是否为行政区划、道路/兴趣点POI、楼栋单元号,若是,则记录本次处理结果;否则,将分词结果作为描述性信息;遍历分词结果,将处理后的分词结果重新组合为完整运单地址。通过对用户输入地址习惯的分析,统计出运单地址书写的规则,在对用户地址进行基本分词的基础上,利用统计的规则,再次进行分级处理,将分词后的相关词条重新组合成一个有意义的词条,减少后续的搜索量。由于采用了基于规则和统计的地址分级,使得后续根据名称找坐标的效率极大提高,降低了搜索的次数,从而提高后续环节的处理效率和搜索效果。
下面,列举一个具体的实施例对本发明实施例进行图像处理的方法作进一步说明。
实施例2
本发明实施例2提供一种运单地址分级方法流程图,包括以下步骤:
S201:对于接收到的用户的运单地址进行基本的规范化处理,去除部分无效字符。无效字符包括感叹号、冒号、电话号码、旺旺号码、网址等。同时,还需要对运单地址进行转半角、去除不允许的空格、去除括号等操作,目的在于将运单地址规范化,形成比较符合习惯的运单地址。
之后,将运单地址按照省、市、区县的方式拼接成一个符合用户书写习惯的地址。例如,可以如如下的运单地址:北京北京市海淀区苏州街3号大恒科技大厦南座18层。
S202:构建分词词典。这里集合地图数据中已有行政区划、POI、placename、道路等数据,根据其给定的分级,设置相应的词性。例如“湖北”这个词,数据中认为是省,那么就给定词性S。对于多个词性的,例如,“北京”在数据中既是省又是市,那个其在分词词典中就是一个组合词性。这里的词性,就是对中文不同的词,给定不同的类别,后续据此给定地址级别。
分词词典是预先设定的,构建基本流程如下:
从地图数据库母库抽取原始名称行政区划、POI等,例如,POI:健翔园,给定120302,据此将之对应到词典的一个词性,例如P。
对于道路名称,直接从道路数据抽取名称、别名,然后给定词性,例如:R。
对于阿拉伯、中文数字,以及特殊汉字,例如“单元”,“楼栋“、“层“等,单独给定词性。
给定词性后,将名称、词性编译成二进制文件,供后续使用。
S203:对用户地址运用词典,结合正向最大匹配进行基本分词、对每个词给定词性。所谓正向最大匹配,就是从词典中找出尽可能长的词条与现有的运单地址进行匹配。
S204:对于行政区划,主要是依据词性进行基本判定。当一个词存在多个词性的时候,结合人工分析数据、统计等的规则,考虑前一个行政级别,最终筛选出现相关词性,给定行政区划。例如,“北京北京市”,经过处理,“北京”选择省级别,“北京市”选择市级别。
S205:当基本的行政区划已经判定完成,接着就需要考虑道路。如果道路,可以直接分出来,直接定级即可。如果没有,则逐词合并。在合并的时候,考虑一些规则,例如,遇到”大道“、”大街“等,则可以考虑给定道路词性,然后将分成此种类型路。对大量运单进行切分,然后进行必要的统计,根据最终统计结果,集合部分人工验证,进而确定该规则是否具有普适性。不断迭代最终完善对未登录道路的识别。
对于POI的判定,也是类似,首先基于对现有的POI数据进行必要关键字的统计,结合高德数据制作规范,总结出一定POI关键字,给定POI词性,然后采用跟跟道路相似的方法进行必要的统计,迭代完善POI识别。
当无法识别成道路、POI等,通常会给出一定的描述性词,例如“对面”、“旁边”等,并据此进行描写信息的判定。
完成上述判定,则进入下一个环境。
S206:当上述步骤成立,找到部分道路、POI、村、开发区等,接下来看看是不是可以往楼栋号、单元号等靠拢,借助数字和一定的关键字,例如“楼、栋”等,给定相关级别。
循环上述步骤,直到所有的词性循环完毕,分级结束。
将分级之后的运单分词地址重新组合,可以得到新的运单地址。
进一步来说,在分级的过程也会有些普遍的规则,需要自始至终坚持的。例如,我们一般认为运单地址表达的空间范围,会越来越小,这样通常出现了乡镇,再出现市的概率就比较小了。例如,“北京市海淀区北京市海淀医院”这个地址中,就需要将“北京市海淀医院”作为一个整体,因为“海淀区”已经出现了。类似的规则,在不断的分级统计中,逐步完善规则。
当然,利用规则的时候,有些词难以处理,例如,“水泥路”通常是描述信息,但是有些地方就有这样的路名,那么对于这样的词,我们通常需要强制消歧义的办法解决,即在规定城市给定词性为路,其他地方则作为描述信息对待。
本实施例中,利用恰当规则合并词条,通过设计巧妙的词性来识别众多没有添加到词典的行政区划、道路、POI等,使得无需穷举词条,实现新词的发现;利用统计的方法来实现规则总结以及后续词条词条分析,促进分级效果稳步提升。由于采用了基于规则和统计的地址分级,使得后续根据名称找坐标的效率极大提高,降低了搜索的次数,从而提高后续环节的处理效率和搜索效果。
实施例3
本发明实施例3提供一个具体的用户运单地址分级方案,具体如下:
假设用户有如下运单地址:
北京市海淀区苏州街3号大恒科技大厦。
那么分级过程描述如下:
采用正向最大匹配进行基本分词,结果如下:北京市/AB 海淀区/D 苏州街/R 3号/W 大恒/Z 科技大厦/C;
进行基本行政区划判定,根据我们总结的规则,用户通常将行政区划涵盖的范围从大到小,这样可以确定如下词条:“北京市”、“海淀区”,类似还可以确定乡镇、村、社区等。
对于道路的确定,主要参考词性,然后结合规则,比如路一般是以“道”、“街”结尾等,对下文进行基本判定,然后确定词条,这样就可以确定词条:“苏州街”。
对于门牌号、单元号、楼栋号的确定,主要参考的是其前一个词条的类型确定。对于其他的暂时无法确认的类型,通常都是以描述信息对待。二次利用词频统计进行词条分析,然后进行修正。
可以得到一个完整而准确的运单地址。
基于同一发明构思,本发明实施例中还提供了一种与图像处理方法对应的图像处理装置,由于该装置解决问题的原理与本发明实施例图像处理方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
实施例4
如图2所示,为本发明实施例4提供的运单地址分级装置结构示意图,包括:
规范化处理模块41,用于接收运单地址并进行规范化处理,得到用户地址;
分词模块42,用于对用户地址进行分词,并对分词结果赋予词性;
地址分级模块43,用于根据分词结果和对应词性,分别确定分词结果是否为行政区划、道路/兴趣点POI、楼栋单元号,若是,则记录本次处理结果;否则,将分词结果作为描述性信息;
组合模块44,用于将处理后的分词结果重新组合为完整运单地址。
可选地,上述地址分级模块43,用于在预先设定的分词词典中分别查询分词结果是否有对应行政区划、道路/兴趣点POI、楼栋单元号记载内容。
可选地,上述分词模块42,用于对用户地址与预先设定的分词词典进行匹配,根据正向最大匹配进行分词;并对匹配成功的分词结果给定不同的类别作为分词结果的词性。
实施例5
如图3所示,上述运单地址分级装置中的地址分级模块43,进一步包括:
行政区划子模块431,用于在预先设定的分词词典中查询分词结果是否有对应行政区划记载内容,如无,则以行政区划规则处理分词,并对处理后的结果再次在分词词典中查询分词结果是否有对应行政区划记载内容,若是,记录本次处理结果;
道路/POI子模块432,用于在预先设定的分词词典中查询分词结果是否有对应道路/兴趣点POI记载内容,若是,则记录本次处理结果;否则,以道路/兴趣点POI规则处理分词,并对处理后的结果再次在分词词典中查询分词结果是否有对应道路/兴趣点POI记载内容,若是,记录本次处理结果;
楼栋单元号子模块433,用于在分词词典中查询分词结果是否有对应楼栋单元号记载内容。
本实施例中,通过接收运单地址并进行规范化处理,得到用户地址;对用户地址进行分词,并对分词结果赋予词性;根据分词结果和对应词性,分别确定分词结果是否为行政区划、道路/兴趣点POI、楼栋单元号,若是,则记录本次处理结果;否则,将分词结果作为描述性信息;遍历分词结果,将处理后的分词结果重新组合为完整运单地址。由于采用了基于规则和统计的地址分级,使得后续根据名称找坐标的效率极大提高,对一些常用地名增加了分词成功率,对于后续根据分级结果查找坐标有很大的帮助,降低了搜索的次数,从而提高后续环节的处理效率和搜索效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种运单地址分级方法,其特征在于,该方法包括:
接收运单地址并进行规范化处理,得到用户地址;
对所述用户地址进行分词,并对分词结果赋予词性;
根据所述分词结果和对应词性,分别确定所述分词结果是否为行政区划、道路/兴趣点POI、楼栋单元号,若是,则记录本次处理结果;否则,将所述分词结果作为描述性信息;
遍历所述分词结果,将处理后的分词结果重新组合为完整运单地址。
2.如权利要求1所述的方法,其特征在于,所述分别确定所述分词结果是否为行政区划、道路/兴趣点POI、楼栋单元号,包括:
在预先设定的分词词典中分别查询所述分词结果是否有对应行政区划、道路/兴趣点POI、楼栋单元号记载内容。
3.如权利要求2所述的方法,其特征在于,所述方法还包括:
若所述分词词典中查询所述分词结果没有对应行政区划记载内容,则以行政区划规则处理所述分词,并对处理后的结果再次在所述分词词典中查询所述分词结果是否有对应行政区划记载内容,若是,记录本次处理结果;否则,继续下列步骤;
在所述分词词典中查询所述分词结果是否有对应道路/兴趣点POI记载内容,若是,则记录本次处理结果;否则,以道路/兴趣点POI规则处理所述分词,并对处理后的结果再次在所述分词词典中查询所述分词结果是否有对应道路/兴趣点POI记载内容,若是,记录本次处理结果;否则,继续下列步骤;
在所述分词词典中查询所述分词结果是否有对应楼栋单元号记载内容。
4.如权利要求1所述的方法,其特征在于,所述对所述用户地址进行分词,并对分词结果赋予词性,包括:
对所述用户地址与预先设定的分词词典进行匹配,根据正向最大匹配进行分词;并对匹配成功的所述分词结果给定不同的类别作为所述分词结果的词性。
5.如权利要求2~4任一所述的方法,其特征在于,所述分词词典根据如下方式设定:
获取地图数据库中原始名称行政区划、道路、POI名称并归类,将同一类所述名称归类为所述分词词典的一个词性;
将所述名称、对应词性编译后形成所述分词词典。
6.如权利要求1所述的方法,其特征在于,所述接收运单地址并进行规范化处理,得到用户地址,包括:
接收输入的运单地址,并去除其中无效字符,按照省、市、区县的方式拼接成一个符合用户书写习惯的用户地址。
7.一种运单地址分级装置,其特征在于,所述装置包括:
规范化处理模块,用于接收运单地址并进行规范化处理,得到用户地址;
分词模块,用于对所述用户地址进行分词,并对分词结果赋予词性;
地址分级模块,用于根据所述分词结果和对应词性,分别确定所述分词结果是否为行政区划、道路/兴趣点POI、楼栋单元号,若是,则记录本次处理结果;否则,将所述分词结果作为描述性信息;
组合模块,用于将处理后的分词结果重新组合为完整运单地址。
8.如权利要求7所述的装置,其特征在于,所述地址分级模块,用于在预先设定的分词词典中分别查询所述分词结果是否有对应行政区划、道路/兴趣点POI、楼栋单元号记载内容。
9.如权利要求7或8所述的装置,其特征在于,所述分词模块,用于对所述用户地址与预先设定的分词词典进行匹配,根据正向最大匹配进行分词;并对匹配成功的所述分词结果给定不同的类别作为所述分词结果的词性。
10.如权利要求7所述的装置,其特征在于,所述地址分级模块,包括:
行政区划子模块,用于在预先设定的分词词典中查询所述分词结果是否有对应行政区划记载内容,如无,则以行政区划规则处理所述分词,并对处理后的结果再次在所述分词词典中查询所述分词结果是否有对应行政区划记载内容,若是,记录本次处理结果;
道路/POI子模块,用于在预先设定的分词词典中查询所述分词结果是否有对应道路/兴趣点POI记载内容,若是,则记录本次处理结果;否则,以道路/兴趣点POI规则处理所述分词,并对处理后的结果再次在所述分词词典中查询所述分词结果是否有对应道路/兴趣点POI记载内容,若是,记录本次处理结果;
楼栋单元号子模块,用于在所述分词词典中查询所述分词结果是否有对应楼栋单元号记载内容。
CN201410174568.5A 2014-04-28 2014-04-28 一种运单地址分级方法及装置 Active CN105022748B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410174568.5A CN105022748B (zh) 2014-04-28 2014-04-28 一种运单地址分级方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410174568.5A CN105022748B (zh) 2014-04-28 2014-04-28 一种运单地址分级方法及装置

Publications (2)

Publication Number Publication Date
CN105022748A true CN105022748A (zh) 2015-11-04
CN105022748B CN105022748B (zh) 2019-05-07

Family

ID=54412730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410174568.5A Active CN105022748B (zh) 2014-04-28 2014-04-28 一种运单地址分级方法及装置

Country Status (1)

Country Link
CN (1) CN105022748B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426351A (zh) * 2015-11-11 2016-03-23 中国建设银行股份有限公司 一种客户地址信息的分词处理方法和系统
CN106055650A (zh) * 2016-05-31 2016-10-26 深圳市永兴元科技有限公司 地址标准化方法和装置
CN106708898A (zh) * 2015-11-17 2017-05-24 方正国际软件(北京)有限公司 一种展现建筑结构的方法及装置
CN106875264A (zh) * 2017-03-31 2017-06-20 北京京东尚科信息技术有限公司 订单信息管理方法、装置和订单分拣系统
CN106934409A (zh) * 2015-12-29 2017-07-07 优信拍(北京)信息科技有限公司 一种数据匹配方法及装置
CN107220240A (zh) * 2017-06-06 2017-09-29 深圳中泓在线股份有限公司 微博微信文本中地名识别方法
CN107341144A (zh) * 2017-06-15 2017-11-10 云程科技股份有限公司 一种通过分词形式规范企业名称的方法
CN108038090A (zh) * 2017-12-26 2018-05-15 北京明朝万达科技股份有限公司 一种文本地址的处理方法和装置
CN109344263A (zh) * 2018-08-01 2019-02-15 昆明理工大学 一种地址匹配方法
CN109359200A (zh) * 2018-10-11 2019-02-19 北京国信达数据技术有限公司 地名地址数据智能解析系统
CN110019617A (zh) * 2017-12-05 2019-07-16 腾讯科技(深圳)有限公司 地址标识的确定方法和装置、存储介质、电子装置
CN110209755A (zh) * 2019-06-13 2019-09-06 苏州思必驰信息科技有限公司 Poi导航地址的扩展方法及系统
CN110852620A (zh) * 2019-11-12 2020-02-28 上海德启信息科技有限公司 物流订单的处理方法及装置、电子设备、存储介质
CN111325022A (zh) * 2018-11-28 2020-06-23 北京京东尚科信息技术有限公司 识别层级地址的方法和装置
CN111427977A (zh) * 2019-01-10 2020-07-17 阿里巴巴集团控股有限公司 电子眼数据的处理方法及装置
CN111460057A (zh) * 2019-01-22 2020-07-28 阿里巴巴集团控股有限公司 Poi坐标确定方法、装置与设备
CN111767722A (zh) * 2019-06-20 2020-10-13 北京京东尚科信息技术有限公司 一种分词方法和装置
CN112069273A (zh) * 2020-08-13 2020-12-11 丰图科技(深圳)有限公司 地址文本的分类方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101122900A (zh) * 2007-09-25 2008-02-13 中兴通讯股份有限公司 一种分词系统及方法
JP2008065594A (ja) * 2006-09-07 2008-03-21 Fuji Xerox Co Ltd 文書変換装置及びコンピュータのプログラム
CN101882163A (zh) * 2010-06-30 2010-11-10 中国科学院地理科学与资源研究所 一种基于匹配规则的模糊中文地址地理赋值方法
CN101996247A (zh) * 2010-11-10 2011-03-30 百度在线网络技术(北京)有限公司 地址数据库的建构方法及装置
CN103186524A (zh) * 2011-12-30 2013-07-03 高德软件有限公司 一种地名识别方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008065594A (ja) * 2006-09-07 2008-03-21 Fuji Xerox Co Ltd 文書変換装置及びコンピュータのプログラム
CN101122900A (zh) * 2007-09-25 2008-02-13 中兴通讯股份有限公司 一种分词系统及方法
CN101882163A (zh) * 2010-06-30 2010-11-10 中国科学院地理科学与资源研究所 一种基于匹配规则的模糊中文地址地理赋值方法
CN101996247A (zh) * 2010-11-10 2011-03-30 百度在线网络技术(北京)有限公司 地址数据库的建构方法及装置
CN103186524A (zh) * 2011-12-30 2013-07-03 高德软件有限公司 一种地名识别方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵阳阳等: "地址要素识别机制的地名地址分词算法", 《测绘科学》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426351B (zh) * 2015-11-11 2019-01-25 中国建设银行股份有限公司 一种客户地址信息的分词处理方法和系统
CN105426351A (zh) * 2015-11-11 2016-03-23 中国建设银行股份有限公司 一种客户地址信息的分词处理方法和系统
CN106708898A (zh) * 2015-11-17 2017-05-24 方正国际软件(北京)有限公司 一种展现建筑结构的方法及装置
CN106708898B (zh) * 2015-11-17 2021-03-19 方正国际软件(北京)有限公司 一种展现建筑结构的方法及装置
CN106934409A (zh) * 2015-12-29 2017-07-07 优信拍(北京)信息科技有限公司 一种数据匹配方法及装置
CN106055650A (zh) * 2016-05-31 2016-10-26 深圳市永兴元科技有限公司 地址标准化方法和装置
CN106875264A (zh) * 2017-03-31 2017-06-20 北京京东尚科信息技术有限公司 订单信息管理方法、装置和订单分拣系统
CN107220240A (zh) * 2017-06-06 2017-09-29 深圳中泓在线股份有限公司 微博微信文本中地名识别方法
CN107341144A (zh) * 2017-06-15 2017-11-10 云程科技股份有限公司 一种通过分词形式规范企业名称的方法
CN110019617A (zh) * 2017-12-05 2019-07-16 腾讯科技(深圳)有限公司 地址标识的确定方法和装置、存储介质、电子装置
CN110019617B (zh) * 2017-12-05 2022-05-20 腾讯科技(深圳)有限公司 地址标识的确定方法和装置、存储介质、电子装置
CN108038090A (zh) * 2017-12-26 2018-05-15 北京明朝万达科技股份有限公司 一种文本地址的处理方法和装置
CN109344263A (zh) * 2018-08-01 2019-02-15 昆明理工大学 一种地址匹配方法
CN109344263B (zh) * 2018-08-01 2022-07-19 昆明理工大学 一种地址匹配方法
CN109359200A (zh) * 2018-10-11 2019-02-19 北京国信达数据技术有限公司 地名地址数据智能解析系统
CN111325022B (zh) * 2018-11-28 2023-11-03 北京京东振世信息技术有限公司 识别层级地址的方法和装置
CN111325022A (zh) * 2018-11-28 2020-06-23 北京京东尚科信息技术有限公司 识别层级地址的方法和装置
CN111427977A (zh) * 2019-01-10 2020-07-17 阿里巴巴集团控股有限公司 电子眼数据的处理方法及装置
CN111427977B (zh) * 2019-01-10 2023-12-19 阿里巴巴集团控股有限公司 电子眼数据的处理方法及装置
CN111460057A (zh) * 2019-01-22 2020-07-28 阿里巴巴集团控股有限公司 Poi坐标确定方法、装置与设备
CN111460057B (zh) * 2019-01-22 2023-06-27 阿里巴巴集团控股有限公司 Poi坐标确定方法、装置与设备
CN110209755A (zh) * 2019-06-13 2019-09-06 苏州思必驰信息科技有限公司 Poi导航地址的扩展方法及系统
CN111767722A (zh) * 2019-06-20 2020-10-13 北京京东尚科信息技术有限公司 一种分词方法和装置
CN110852620A (zh) * 2019-11-12 2020-02-28 上海德启信息科技有限公司 物流订单的处理方法及装置、电子设备、存储介质
CN110852620B (zh) * 2019-11-12 2024-03-05 上海德启信息科技有限公司 物流订单的处理方法及装置、电子设备、存储介质
CN112069273A (zh) * 2020-08-13 2020-12-11 丰图科技(深圳)有限公司 地址文本的分类方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN105022748B (zh) 2019-05-07

Similar Documents

Publication Publication Date Title
CN105022748A (zh) 一种运单地址分级方法及装置
CN102395965B (zh) 用于在数据库中搜索对象的方法
CN107145577A (zh) 地址标准化方法、装置、存储介质及计算机
CN109815498A (zh) 一种中文地址标准化方法、装置及电子设备
CN105701104B (zh) 一种基于地理信息的三维数据引擎系统
CN103514235B (zh) 一种增量码库的建立方法和装置
CN101350013A (zh) 一种地理信息的搜索方法和系统
CN106470216A (zh) 一种基于信息共享、交互的内容管理系统
CN106202207A (zh) 一种基于HBase‑ORM的索引及检索系统
CN103186524A (zh) 一种地名识别方法和装置
CN102089761A (zh) 自动发现受欢迎的地标
US20140372458A1 (en) Systems and Methods for Mapping Nodes of Disconnected Graphs
CN105528372A (zh) 一种地址搜索方法和设备
CN110990520B (zh) 一种地址编码方法、装置、电子设备和存储介质
CN110019617B (zh) 地址标识的确定方法和装置、存储介质、电子装置
WO2014088765A1 (en) Systems and methods for matching similar geographic objects
CN107729610B (zh) 一种基于网络游记的旅游推荐线路图生成方法
CN111382138B (zh) Poi数据处理方法、装置、设备及介质
CN103076894A (zh) 一种用于根据对象标识信息构建输入词条的方法与设备
CN105159885A (zh) 一种兴趣点名称的识别方法和装置
Lei Geospatial data conflation: A formal approach based on optimization and relational databases
Belcastro et al. Parallel extraction of Regions‐of‐Interest from social media data
Kumar et al. Adversarial adaptation of scene graph models for understanding civic issues
Yu et al. Automatic geospatial data conflation using semantic web technologies
Cheng et al. Quickly locating POIs in large datasets from descriptions based on improved address matching and compact qualitative representations

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160608

Address after: 102200 Beijing City, Changping District science and Technology Park No. 8 Changsheng Road B1 block 1-5

Applicant after: AUTONAVI SOFTWARE Co.,Ltd.

Address before: 100080, Haidian District, Suzhou Street, No. 14, floor 1402, room 3, Beijing

Applicant before: BEIJING MAPABC Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200509

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 102200, No. 8, No., Changsheng Road, Changping District science and Technology Park, Beijing, China. 1-5

Patentee before: AUTONAVI SOFTWARE Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221201

Address after: 102299 floor 1-5, block B1, 18 Changsheng Road, science and Technology Park, Changping District, Beijing

Patentee after: AUTONAVI SOFTWARE Co.,Ltd.

Address before: 310052 room 508, 5th floor, building 4, No. 699 Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee before: Alibaba (China) Co.,Ltd.

TR01 Transfer of patent right