CN103440312B - 一种通信地址查询邮政编码的系统及终端 - Google Patents

一种通信地址查询邮政编码的系统及终端 Download PDF

Info

Publication number
CN103440312B
CN103440312B CN201310377867.4A CN201310377867A CN103440312B CN 103440312 B CN103440312 B CN 103440312B CN 201310377867 A CN201310377867 A CN 201310377867A CN 103440312 B CN103440312 B CN 103440312B
Authority
CN
China
Prior art keywords
address
postcode
user
inquiry
mailing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310377867.4A
Other languages
English (en)
Other versions
CN103440312A (zh
Inventor
王国印
贾西贝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huaao Data Technology Co Ltd
Original Assignee
Shenzhen Huaao Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huaao Data Technology Co Ltd filed Critical Shenzhen Huaao Data Technology Co Ltd
Priority to CN201310377867.4A priority Critical patent/CN103440312B/zh
Publication of CN103440312A publication Critical patent/CN103440312A/zh
Priority to PCT/CN2014/084607 priority patent/WO2015027835A1/zh
Application granted granted Critical
Publication of CN103440312B publication Critical patent/CN103440312B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24558Binary matching operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Computational Linguistics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种通信地址查询邮政编码的系统,该系统包括通信地址输入子系统和邮政编码查询子系统;所述地址输入子系统通过对用户输入文本进行实时提示,用户根据提示列表地址确定待查询的通信地址;所述邮政编码查询子系统将待查询的通信地址进行标准化并检索出最接近的标准化通信地址,同时返回该标准化通信地址对应的邮政编码。本发明通过帮助用户输入提示,使得查询格式更加自由;基于命名实体识别技术能够标识出用户输入地址元数据的级别,从而实现地址的逐级查询,同时对通信地址进行补全,使得查询结果更加精确,另外用户还可以将查询结果以二维码的方式获取,或者链接地图进行定位。另外,本发明还提供一种通信地址查询邮政编码的终端。

Description

一种通信地址查询邮政编码的系统及终端
技术领域
本发明涉及邮政编码查询领域,尤其涉及一种通信地址查询邮政编码的系统及终端。
背景技术
随着电子商务的突飞猛进和物流行业的信息化,使得人们在足不出户的情况下完成购物和邮寄物品,大大节约了时间和金钱成本。电子商务和物流行业都离不开通信地址(又称为通讯地址,简称为地址)和邮编,这些数据都需要用户提供,当前一些电子商务网站和物流行业的主要的做法如下:让用户手工输入完整的地址和地址对应的邮编;通过下拉列表提供省,省下面地级市和地级市下面的区县,这些比较固定的地址让用户选择,余下的地址和邮编由用户手工输入;保留用户输入的地址和邮编,方便下次再次使用,即如果本次输入的地址和邮编之前已经有了一份,直接选中,就避免了让用户重复输入。
上述做法主要存在的问题如下:很多情况下用户未必知道自己输入的地址对应的邮编;由于基于拼音的输入法和汉语本身存在的缺陷(汉字存在多音字,多个汉字拥有相同的读音,多数基于拼音的输入法都是基于统计的语言模型),再加上地址中存在的一些生僻字的原因会导致输入的地址存在错别字;由于地名存在别名现象,即同一个地名有多种叫法,例如“广东省”的别名有“广东”和“粤”,因此他们识别不了对同一个地名的不同描述;有些情况下用户无法输入完整的地址,当输入的时候一脸茫然和无助;由于地址存在变更和搜集不完全的问题,这些网站的数据往往得不到更新。
当前一些其他的网站能够解决第一个问题,即帮助用户得到地址对应的邮编。但是他们往往采用数据库技术来实现的系统,对于低于区县级别的地址,往往采用字串模糊查询(like %XXX%)的方式参与检索,由于性能的原因此种方式对于大数据量的查询效率很差。另外基于数据库实现的查询使得用户的输入格式和内容受到了很大的限制,比如:
用户首先选择省级行政区(包括省、特别行政区、自治区和直辖市)的名字,其次是选择地级行政区(包括地级市、自治州、地区和盟)级别的名字,然后再县级行政区(包括市辖区、县、旗、特区、林区、自治县和自治旗等)级别的名字,最后用户输入乡镇级别及村庄道路等。查询的输入过程非常机械。
另外基于数据库的查询模式,要求地址格式全部满足四级,即省级,地级市级,区县级,然后是其他具体地址。但是并不是所有的地址都满足此种情况,例如直辖市下和省与直辖县或省直辖县级市之间就没有地级市级,一些特殊的地级市没有区县级,如广东省中山市、广东省东莞市、海南省三亚市、海南省三沙市、甘肃省嘉峪关市;他们的解决办法,起个其他的名字代替,例如“直辖区县”, “市辖区”,“省直辖县”等,但是查询的结果中一般也包含这些非真正地址的数据。
所以需要一种实现帮助用户输入提示,给出完整的参考地址,并将待查询地址进行标准化的精确查询邮政编码的系统。
发明内容
为此,本发明为了解决上述缺陷之一。
因而,本发明提供一种通信地址查询邮政编码的系统及终端,通过帮助用户输入提示,使得查询格式更加自由;基于命名实体识别技术能够标识出用户输入地址元数据的级别,从而实现地址的逐级查询,同时对通信地址进行补全,使得查询结果更加精确,另外用户还可以将查询结果以二维码的方式获取,或者链接地图进行定位。
所以,本发明一个实施例提供一种通信地址查询邮政编码的系统,该系统包括通信地址输入子系统和邮政编码查询子系统;所述地址输入子系统通过对用户输入文本进行实时提示,用户根据提示列表地址确定待查询的通信地址;所述邮政编码查询子系统将待查询的通信地址进行标准化并检索出最接近的标准化通信地址,同时返回该标准化通信地址对应的邮政编码。
优选地,所述确定待查询的通信地址还可以包括:用户可以不选择提示列表中的地址,仅根据用户输入文本确定待查询的通信地址。
所述实时提示包括:随着用户输入本文的每一次增加来自动改变提示内容;
所述提示内容的实现步骤具体为:获取当前用户输入的地址文本并进行预处理,删除多余的空格;进行地址切分获得地址元数据,并标注所有的地址等级;通过地名实体识别获得最终的地名实体标注序列,并生成Query查询语句;检索索引地址文件,获得提示列表地址内容。
优选地,所述预处理还包括:将数字或字母的全角字符转换为半角字符;所述预处理过程中字典采用基于双数组的Trie树数据结构进行存储。
所述提示列表地址包括:获得的提示列表地址根据最接近的标准地址按降序排列。
所述将待查询的通信地址进行标准化包括以下具体步骤:获取用户确定的待查询通信地址并进行预处理;进行地址切分获得地址元数据,并标注所有的地址等级;通过地名实体识别获得最终的地名实体标注序列,并生成Query查询语句;解析Query查询语句并检索索引文件与之比对,获得最接近的通信地址;进行地址补全生成标准化通信地址,并返回该标准化通信地址对应的邮政编码。
优选地,所述对应的邮政编码根据标注地址的最低地址等级值来确定。
所述返回该标准化通信地址对应的邮政编码还可以包括:选择确定的邮政编码查询结果,用户可以获取地图定位;或通过二维码将邮政编码查询结果发送到移动终端设备上。
优选地,所述地址切分采用二元模型的分词方法;所述命名实体识别技术识别出地名实体标注结果中每一个地名元数据最可能的地址等级。
本发明另一个实施例提供一种通信地址查询邮政编码的终端,所述终端包括:用户输入提示单元和邮政编码查询单元,其中,所述用户输入提示单元,用以实时提示用户输入并接收用户最终确定的待查询通信地址;所述邮政编码查询单元,用以检索出与待查询通信地址最接近的标准化通信地址,并接收与该标准化通信地址对应的邮政编码。本发明通过帮助用户输入提示,使得查询格式更加自由;基于命名实体识别技术能够标识出用户输入地址元数据的级别,从而实现地址的逐级查询,同时对通信地址进行补全,使得查询结果更加精确,另外用户还可以将查询结果以二维码的方式获取,或者链接地图进行定位。
附图说明
图1是本发明实施例实现的一种通信地址查询邮政编码的系统的流程示意图。
图2是本发明实施例实现的地址输入子系统的详细流程示意图。
图3是本发明实施例实现的地址输入子系统的详细流程示意图。
图4是本发明实施例实现的邮政编码查询子系统中地址补全的实例示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
本发明提供的一种通信地址查询邮政编码的系统及终端,通过帮助用户输入提示,使得查询格式更加自由;基于命名实体识别技术能够标识出用户输入地址元数据的级别,从而实现地址的逐级查询,同时对通信地址进行补全,使得查询结果更加精确,另外用户还可以将查询结果以二维码的方式获取,或者链接地图进行定位。
如图1是本发明实施例实现的一种通信地址查询邮政编码的系统的流程示意图,该系统包括通信地址输入子系统和邮政编码查询子系统,具体包括以下步骤:步骤S110:地址输入子系统通过对用户输入文本进行实时提示,用户根据提示列表地址确定待查询的通信地址。
步骤S110的详细流程如图2所示,具体为:步骤S111:获取用户输入的地址文本,并对获取的地址文本进行预处理操作,预处理主要包括将数字或字母的全角转换成半角字符以及删除多余空格等。
本输入提示随着用户输入本文的每一次增加来自动改变提示内容,同时亦可以省去实时提示,用户可以在地址输入提示系统中直接输入其要查询的通信地址文本,如果选择实时提示,那么获得的提示列表地址是根据最接近的标准地址按降序排列的。
步骤S112:将地址文本进行地址切分。
由于全文索引采用的分词方式是二元模型,也就是说索引里最长的汉语词长为2,中文地名的长度一般多数超过2,把识别出来的每一个确定的地址元数据,生成PhraseQuery查询语法来过滤掉相邻两个地址元数据中前一个地址元数据最后一个字和后一个地址元数据第一个字组成的词。例如用户输入的文本:广东省深圳市,经过地名识别后,构造的PhraseQuery查询语法为:“广东省” “深圳市”,即将每一个地名元数据用半角的双引号括起来。这样就可以过滤掉“省深”两字构成的词所带来的查询结果,大大提高精确率。
基于字典的分词通常有正向(从左向右)匹配和逆向(从右向左)匹配。通常情况下逆向匹配比正向匹配切分错误率低一半,对于解决交叉歧义有优势,交叉歧义定义为:ABC三个连续汉字,AB和BC均可以成为词;一般情况下汉语中BC组成词的概率更大些。地址切分是基于地址元数据字典采用逆向最大匹配算法从右到左扫描用户输入的地址文本,来实现地址的切分,为了提高搜索的速度,字典采用基于双数组(Double Array)的Trie树数据结构来存储。
步骤S113:进行地址标注。
在本步骤中需要使用地址元数据,这些数据可以从维基百科和国家统计局有关中国行政区划的地址元数据,以及通过地址切分和识别技术从完整的通信地址中获得。地址元数据包含的数据主要有:省级行政区名(包括省、自治区、直辖市和特别行政区)、地级行政区名(地级市、自治州、地区、盟)、县级行政区名(包含市辖区、县级市、县、自治县、旗、自治旗、特区和林区)、乡级行政区名(包括乡、镇、街道、苏木、区公所),其他地址数据(包括道路名、村庄名、小区名、建筑物名和广场名)等。
地址元数据字典应包含地名的各种别名,其格式定义为:地址元数据字典由多行构成,每一行成为一个词条(Term),每一个Term应该包含地名和地名对应的地址等级(level),其中地名为key,地址等级为key的属性或value。地址元数据字典每一个Term包含2项,即地名和地名对应的地址等级(level),他们之间用半角的分号“;”隔开,有的地名包含多个地址等级(比如一些标准版地址的别名也是其他标准版地址的别名),不同的地级等级之间用半角的逗号“,”隔开。人们在书写地址的时候通常的格式有如下几种:
省级行政区→地级行政区→县级行政区→乡级行政区→其他(此格式经常用在互联网中的地址),例如:安徽省阜阳市太和县关集镇陈桥村委会胡小寨村;
省级行政区→县级行政区→乡级行政区→其他(当县级行政区为县级市、县、自治县、旗、自治旗、特区和林区,可以省略地级行政区,此格式经常用在身份证上),例如:安徽省太和县关集镇陈桥村委会胡小寨村;
省级行政区→地级行政区→乡级行政区→其他(此格式主要是用在地级行政区下没有县级行政区的情况,如广东省中山市、广东省东莞市、海南省三亚市、海南省三沙市、甘肃省嘉峪关市),例如:广东省东莞市樟木头镇九明村;
省级行政区→地级行政区→县级行政区→其他,例如:广东省深圳市南山区高新南环路29号留学生创业大厦;
省级行政区→县级行政区→其他(此格式主要用在直辖市下的地址,或者没有地级市的地址,如海南省除了三亚市、三沙市和海口市之外全是省直辖县级市或者省直辖县),例如:上海市浦东新区南京西路1500号。据以上5点,为了处理上的方便,一般将地址划分为5个等级,如下表1所示:
地址等级 行政区域 举例
一级 省、自治区、直辖市、特别行政区 广东省,内蒙古自治区、上海市、香港特别行政区
二级 地级市、直辖市辖区、地区、自治州、盟、县级市、县、自治县、旗、自治旗、特区、林区 深圳市、浦东新区、大兴安岭地区、恩施土家族苗族自治州、锡林郭勒盟、桐城市、太和县、长白朝鲜族自治县、科尔沁左翼后旗、鄂伦春自治旗 、六枝特区、神农架林区
三级 地级市辖区 南山区
四级 乡、民族乡、镇、街道、苏木、道路 赵集乡,徐塘羌族乡、关集镇、粤海街道、达日罕乌拉苏木、深南大道
五级 村庄、小区、建筑物、广场、编号、未识别的地名 流塘村、海怡东方花园、留学生创业大厦、万达广场、天干、序号等
表1:地址等级五级分级模型。
为了处理方便,level的值按照地址等级依次设置为1,2,3,4,0。即“1”代表地址等级为一级,“2”代表地址等级为二级,“3”代表地址等级为三级,“4”代表地址等级为四级,“0”代表地址等级为五级。
地址等级可以从地址元数据字典中每一个地名的属性中获得,若被切分的出来的地址不存在于字典中,则说明此地址是未被识别的地址,其地址等级标注为0级。
步骤S114:进行地名实体识别。
由于地名存在别名,加上人们在表达信息时,通常使用最简化原则,即使用地名的简称(别名)来描述地名,以及表达的随意性(省略地址中高级别的地名,常见的有缺省省级的地名等)和输入任意一级别地址或者很短的地址片段希望能得到一个近似的结果或提示等,这就要求有强大的地址识别的能力,这就是本步骤要实现的。地名实体识别是识别出地名实体标注结果中每一个地名最可能的地址等级,例如一条地址序列:“广东深圳宝安西乡”的全称是“广东省深圳市宝安区西乡街道”;其经过切分和标注之后的结果为:“广东(1)深圳(2,4) 宝安(3) 西乡(2,4)”;其正确的标注序列为:“广东(1) 深圳(2) 宝安(3) 西乡(4)”。本系统采用动态规划算法加上回溯(Viterbi算法)求出概率最大的标注序列,Viterbi算法中的观察值和状态均为地址等级,此时算法成为一阶马尔科夫过程。
地名实体识别包括2部分,一部分是通过Viterbi算法的获得最优的地址等级标注序列的处理流程,另一部分是根据上下文的知识,校正不满足规则的最优标注等级序列,使得识别结果更加精准。Viterbi算法的描述如下:
包含一个初始状态值:, 其中 是地址级别为i的初始概率。Pi内的值依据经验或先验知识设定,其内的每个值大小遵循如下原则:地址行政级别越高对应的初始概率越高,如省级的初始概率大于地市级的。
举例来说明上述算法的实现。依据先验知识构建Viterbi算法的概率模型,Pi和A可取以下初始值:
Pi={0.05,0.45,0.25,0.15,0.1};
A = {{0.05, 0.45, 0.25, 0.15, 0.10};
{0.05, 0.23, 0.45, 0.17, 0.10};
{0.05, 0.18, 0.25, 0.30, 0.22};
{0.05, 0.35, 0.05, 0.05, 0.50};
{0.05, 0.30, 0.15, 0.05, 0.45}}。
如输入的地址为:“广东深圳宝安西乡”,经过所述的地址切、地址标注处理之后可得到以下四种标注结果序列:“广东(1) 深圳(2) 宝安(3) 西乡(4)”、“广东(1) 深圳(2)宝安(3) 西乡(2)”、“广东(1) 深圳(4) 宝安(3) 西乡(4)”、“广东(1) 深圳(4) 宝安(3)西乡(2)”。根据维特比(Viterbi)算法,我们可得知四种标注状态的权值:
1.广东(1) 深圳(2) 宝安(3) 西乡(4);P = 0.030375;
2.广东(1) 深圳(2) 宝安(3) 西乡(2);P = 0.0030375;
3.广东(1) 深圳(4) 宝安(3) 西乡(4);P = 0.001125;
4.广东(1) 深圳(4) 宝安(3) 西乡(2);P = 1.125E-4。
概率最大的标注序列为第一种标注状况。因此动态规划算法输出的结果也是第一种标注状态“广东(1) 深圳(2) 宝安(3) 西乡(4)”。
在该模型和算法下解决不了一个地级市辖区的别名和县或县级市的别名相同的情况,例如“太和县”(隶属安徽省阜阳市)和“太和区”(隶属辽宁省锦州市),它们的别名都为“太和”,但是他们属于不同的地址等级级别。当出现“阜阳(市)太和”和“锦州(市)太和”时,依据算法和概率模型此时的“太和”标注在第三极地址级别上概率最大,解决此类问题要根据其上文的地址名称判断其地址级别是“2”或“3”,诸如此类作为特殊情况进行标注序列的校正。举例如下:
输入的地址为:“河北石家庄平山古月”,标注的地址序列为:“河北(1,2,4) 石家庄(2,4) 平山(2,3,4) 古月(4)”,此标注序列中每一个地址的标注等级解释为:“河北”可以是“河北省”的别名,也可以是天津市的“河北区”的别名,也可以是“河北乡”的别名;“石家庄”可以是“石家庄市”和“石家庄镇”的别名;“平山”可以是“平山县”或“平山区”或“平山镇”的别名。
最优的标注序列为:“河北(1) 石家庄(2) 平山(3) 古月(4)”。
根据上下文校正之后的标注序列为:“河北(1) 石家庄(2) 平山(2) 古月(4)”,因为此时的“平山”是“平山县”。
由此可以看出当一个地级市辖区的别名和县或者县级市别名相同的时候,被标注为三级地址的所属地级市是否它的直接前驱地址,如果不是进行校正。为了方便上下文的规则采用上述相反规则的方式存储,即记录别名为县或县级市所属地级市的别名为上下文,例如(太和→阜阳)。因此当满足此上下文时,修改标注的等级,不满足时不做任何修改。
与此同时还存在二级地址和四级地址同名的情况,主要出现在县级市或县的别名和乡镇的别名同名情况,由于四级地址可以在一个完整的地址中连续出现多次,因此有时候会把二级地址标注在四级上。此时也要根据上下文进行判别,来修订标注的序列。举例如下:
输入的地址为:“黑龙江黑河五大连池新发乡和民村”,最优的标注序列为:“黑龙江(1) 黑河(2) 五大连池(4) 新发乡(4) 和民村(0)”,此时的“五大连池”被标注在第四级地址级别上,实际上它是一个县级市。
根据上下文校正之后的标注序列为:“黑龙江(1) 黑河(2) 五大连池(2) 新发乡(4) 和民村(0)”,和区县拥有相同别名的解决方案类似,对于乡镇和县同名的情况,系统保留的规则是别名为县或县级市所属地级市的别名为上下文,例如(五大连池→黑河)。因此当满足此上下文时,修改标注的等级,不满足时不做任何修改。
因此对于一些特殊情况,同时提供一个机制对最佳标注序列根据上下文进行校正,处理的方法是根据地址上下文消除因别名带来的歧义(一个别名对应多个地址等级)。这样得出的结果更准确一些。
步骤S120:邮政编码查询子系统将待查询的通信地址进行标准化并检索出最接近的标准化通信地址,同时返回该标准化通信地址对应的邮政编码。
在邮政编码查询子系统中需要建立地址查询邮编的索引文件,该索引文件是由很多个文档(Document)构成,每一个文档包含的字段有:地址(Address)域,一条完整的标准地址;邮编(ZIPcode)域,和完整的标准地址相关联的邮政编码;地址的最低等级(Level)域,地址中最低级别地址的行政区划级别。其中地址的最低等级域(Level Field)包含的数据值如下:
省级行政区级(包括省、自治区、直辖市和特别行政区),用province表示;
地级行政区级(包括地级市、自治州、地区、盟、直辖市辖区),用city表示;
县级行政区级(包括市辖区、县、旗、特区、林区、自治县和自治旗等),用district表示;
乡级行政区级(包括乡、镇、街道、苏木、区公所),用town表示;
低于乡级行政区级,用all表示。
一个地址文本,其对应的最低地址等级域的值计算如下:
首先对地址文本做预处理,预处理包括删除多余的空格,全角字符转换成半角字符;
其次是地址切分和地址标注;
接着是地址命名实体识别,获取最终的地名实体标注序列。
然后根据规则计算出此地址文本的最低地址等级的值,其规则定义如下:
标注序列中地址等级定义如下:
1 > 2 >3 > 4 > 0,即一级地址 ﹥ 二级地址 ﹥ 三级地址 ﹥ 四级地址 ﹥ 五级地址;
当标注序列中最低地址等级为五级地址时,返回0;
否则当标注序列中最低的地址等级为四级,且个数超过1个的时候,直接返回0;
否则当标注序列中二级地址的个数超过2个或三级地址的个数超过1个或三级地址的个数加上二级地址的个数的和超过2的时候,直接返回4;
否则当标注序列中最低的地址等级恰好是连续2个二级地址时,直接返回3;
否则当标注序列中最低的地址等级为四级,且个数恰好为1个的时候,若此四级地址为道路则返回0否则返回4;
其他的情况,返回最低的地址等级;
将最低地址等级映射到最低地址等级域的值:1→province;2→city;3→district;4→town;0→all。
步骤S120的详细流程示意图如图3所示,具体为:
步骤S121:获取用户确定的待查询通信地址并进行预处理。
由于在地址输入子系统中,可能存在用户选择自己输入的地址文本,不采用该系统提供的输入提示功能,那么有必要对用户确认的待查询通信地址进行预处理,预处理过程和内容和地址输入子系统中一样。
步骤S122:进行地址切分获得地址元数据,并标注所有的地址等级。
步骤S123:通过地名实体识别获得最终的地名实体标注序列,并生成Query查询语句。
步骤S124:解析Query查询语句并检索索引文件与之比对,获得最接近的通信地址。
步骤S125:进行地址补全生成标准化通信地址,并返回该标准化通信地址对应的邮政编码。
邮政编码查询子系统的各个步骤与地址输入子系统的各个步骤很相似,唯一不同的在于邮政编码查询子系统需要对通信地址进行补全,所以邮政编码查询子系统的步骤S121到S124步骤具体实现过程参照地址输入子系统中的具体实现流程,在这主要将地址补全过程进行阐述,具体如下:
当用户提交查询请求后,系统会返回查询的结果,并把与用户输入的地址文本最相似的地址排在第一位。由于参考数据搜集的不是太全,加上每年都有新增的建筑,道路,小区等,还有一些行政区划的变更等等,使得排在第一位置上的地址中区县位置之后的地址和用户输入的地址有出入,本系统采用地址补全技术,对最相似的返回结果进行改造,使得更接近用户的要求。
地址补全是根据用户的输入来完善查询结果的技术,使得结果更贴近用户的需求。地址补全主要用在某一级别的地址很难搜集全,而且新增量比较大,主要集中在四级和五级地址上。地址补全的条件时用户输入的地址文本其地址级别的顺序是正常的,即不存在一二三级地址出现在四级或者五级地址之后。识别出用户输入的地址级别中四级地址及以后的部分,拼接到搜索结果最相似的那条地址中三级地址之后。地址补全实例如图4所示。
在步骤S125中,对应的邮政编码根据标注地址的最低地址等级值来确定,最终返回该标准化通信地址对应的邮政编码还可以选择确定的邮政编码查询结果,用户可以获取地图定位或通过二维码将邮政编码查询结果发送到移动终端设备上。
本发明另一个实施例提供一种通信地址查询邮政编码的终端,所述终端包括:用户输入提示单元和邮政编码查询单元,其中,所述用户输入提示单元,用以实时提示用户输入并接收用户最终确定的待查询通信地址;所述邮政编码查询单元,用以检索出与待查询通信地址最接近的标准化通信地址,并接收与该标准化通信地址对应的邮政编码。本发明通过帮助用户输入提示,使得查询格式更加自由;基于命名实体识别技术能够标识出用户输入地址元数据的级别,从而实现地址的逐级查询,同时对通信地址进行补全,使得查询结果更加精确,另外用户还可以将查询结果以二维码的方式获取,或者链接地图进行定位。

Claims (9)

1.一种通信地址查询邮政编码的系统,其特征在于,该系统包括通信地址输入子系统和邮政编码查询子系统;
所述地址输入子系统通过对用户输入文本进行实时提示,用户根据提示列表地址确定待查询的通信地址;
所述实时提示包括:随着用户输入本文的每一次增加来自动改变提示内容;
所述提示内容的实现步骤具体为:获取当前用户输入的地址文本并进行预处理,删除多余的空格;采用逆向最大匹配算法扫描用户输入的地址文本,进行地址切分,获得地址元数据,并标注所有的地址等级;通过地名实体识别获得最终的地名实体标注序列,并生成Query查询语句;检索索引地址文件,获得提示列表地址内容;
所述邮政编码查询子系统将待查询的通信地址进行标准化并检索出最接近的标准化通信地址,同时返回该标准化通信地址对应的邮政编码。
2.根据权利要求1所述的系统,其特征在于,所述确定待查询的通信地址还包括:
用户不选择提示列表中的地址,仅根据用户输入文本确定待查询的通信地址。
3.根据权利要求1所述的系统,其特征在于,所述预处理还包括:
将数字或字母的全角字符转换为半角字符;所述预处理过程中字典采用基于双数组的Trie树数据结构进行存储。
4.根据权利要求1所述的系统,其特征在于,所述提示列表地址包括:获得的提示列表地址根据最接近的标准地址按降序排列。
5.根据权利要求1所述的系统,其特征在于,所述将待查询的通信地址进行标准化包括以下具体步骤:
获取用户确定的待查询通信地址并进行预处理;
进行地址切分获得地址元数据,并标注所有的地址等级;
通过地名实体识别获得最终的地名实体标注序列,并生成Query查询语句;
解析Query查询语句并检索索引文件与之比对,获得最接近的通信地址;
进行地址补全生成标准化通信地址,并返回该标准化通信地址对应的邮政编码。
6.根据权利要求1所述的系统,其特征在于,所述对应的邮政编码根据标注地址的最低地址等级值来确定。
7.根据权利要求5所述的系统,其特征在于,所述返回该标准化通信地址对应的邮政编码还包括:
选择确定的邮政编码查询结果,进行地图定位;
或通过二维码将邮政编码查询结果发送到移动终端设备上。
8.根据权利要求1或5所述的系统,其特征在于,所述地址切分采用二元模型的分词方法;通过命名实体识别技术识别出地名实体标注结果中每一个地名元数据最可能的地址等级。
9.一种通信地址查询邮政编码的终端,其特征在于,所述终端包括用户输入提示单元和邮政编码查询单元;所述用户输入提示单元,用以实时提示用户输入并接收用户最终确定的待查询通信地址;所述邮政编码查询单元,用以检索出与待查询通信地址最接近的标准化通信地址,并接收与该标准化通信地址对应的邮政编码;
所述实时提示包括:随着用户输入本文的每一次增加来自动改变提示内容;
所述提示内容的实现步骤具体为:获取当前用户输入的地址文本并进行预处理,删除多余的空格;采用逆向最大匹配算法扫描用户输入的地址文本,进行地址切分,获得地址元数据,并标注所有的地址等级;通过地名实体识别获得最终的地名实体标注序列,并生成Query查询语句;检索索引地址文件,获得提示列表地址内容。
CN201310377867.4A 2013-08-27 2013-08-27 一种通信地址查询邮政编码的系统及终端 Active CN103440312B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310377867.4A CN103440312B (zh) 2013-08-27 2013-08-27 一种通信地址查询邮政编码的系统及终端
PCT/CN2014/084607 WO2015027835A1 (zh) 2013-08-27 2014-08-18 一种通信地址查询邮政编码的系统及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310377867.4A CN103440312B (zh) 2013-08-27 2013-08-27 一种通信地址查询邮政编码的系统及终端

Publications (2)

Publication Number Publication Date
CN103440312A CN103440312A (zh) 2013-12-11
CN103440312B true CN103440312B (zh) 2019-01-22

Family

ID=49694005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310377867.4A Active CN103440312B (zh) 2013-08-27 2013-08-27 一种通信地址查询邮政编码的系统及终端

Country Status (2)

Country Link
CN (1) CN103440312B (zh)
WO (1) WO2015027835A1 (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440312B (zh) * 2013-08-27 2019-01-22 深圳市华傲数据技术有限公司 一种通信地址查询邮政编码的系统及终端
CN103473289A (zh) * 2013-08-30 2013-12-25 深圳市华傲数据技术有限公司 一种通信地址补全的装置及方法
CN103914569B (zh) * 2014-04-24 2018-09-07 百度在线网络技术(北京)有限公司 输入提示方法、装置及字典树模型的创建方法、装置
CN104156415B (zh) * 2014-07-31 2017-04-12 沈阳锐易特软件技术有限公司 解决医疗数据标准编码对照问题的映射处理系统及方法
CN104200369B (zh) * 2014-08-27 2019-12-31 北京京东尚科信息技术有限公司 一种确定商品配送范围的方法和装置
CN106326233B (zh) * 2015-06-18 2019-10-11 菜鸟智能物流控股有限公司 地址提示方法及装置
CN105069056B (zh) * 2015-07-24 2018-02-06 湖北文理学院 基于字符串匹配的身份证住址信息解析方法及系统
CN106469372B (zh) * 2015-08-14 2020-06-12 菜鸟智能物流控股有限公司 一种地址映射方法及装置
CN105224522A (zh) * 2015-09-29 2016-01-06 小米科技有限责任公司 地理位置信息识别方法及装置
CN105653060A (zh) * 2015-12-30 2016-06-08 浙江慧脑信息科技有限公司 一种多功能地址输入方法
CN107025232A (zh) * 2016-01-29 2017-08-08 阿里巴巴集团控股有限公司 物流系统中地址信息的处理方法及装置
CN105975099B (zh) * 2016-04-28 2020-02-04 百度在线网络技术(北京)有限公司 输入法的实现方法和装置
CN106055650A (zh) * 2016-05-31 2016-10-26 深圳市永兴元科技有限公司 地址标准化方法和装置
CN106777377A (zh) * 2017-02-09 2017-05-31 辛国臣 物流单号生成方法及装置
CN108256718B (zh) * 2017-05-04 2022-04-29 平安科技(深圳)有限公司 保单服务任务分配方法、装置、计算机设备和存储设备
CN109033225A (zh) * 2018-06-29 2018-12-18 福州大学 中文地址识别系统
CN109344254B (zh) * 2018-09-20 2020-12-18 鼎富智能科技有限公司 一种地址信息分类方法及装置
CN110334162B (zh) * 2019-05-09 2021-11-09 德邦物流股份有限公司 地址识别方法及装置
CN112100161B (zh) * 2019-09-17 2021-05-28 上海寻梦信息技术有限公司 数据处理方法及系统、电子设备及存储介质
CN110688851B (zh) * 2019-09-26 2023-07-28 亿企赢网络科技有限公司 一种提取地址文本的关键信息的方法、装置及介质
CN112528174A (zh) * 2020-11-27 2021-03-19 暨南大学 基于知识图谱和多重匹配的地址修整补全方法及应用
CN113569564B (zh) * 2021-07-30 2024-03-19 拉扎斯网络科技(上海)有限公司 一种地址信息的处理、显示方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339638A (zh) * 2007-07-03 2009-01-07 周磊 一种订购平台的商品配送范围与收货地址自动匹配的方法和系统
CN102737060A (zh) * 2011-04-14 2012-10-17 商业对象软件有限公司 地理编码应用中的模糊搜索
CN102955833A (zh) * 2011-08-31 2013-03-06 深圳市华傲数据技术有限公司 一种通讯地址识别、标准化的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440312B (zh) * 2013-08-27 2019-01-22 深圳市华傲数据技术有限公司 一种通信地址查询邮政编码的系统及终端

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339638A (zh) * 2007-07-03 2009-01-07 周磊 一种订购平台的商品配送范围与收货地址自动匹配的方法和系统
CN102737060A (zh) * 2011-04-14 2012-10-17 商业对象软件有限公司 地理编码应用中的模糊搜索
CN102955833A (zh) * 2011-08-31 2013-03-06 深圳市华傲数据技术有限公司 一种通讯地址识别、标准化的方法

Also Published As

Publication number Publication date
WO2015027835A1 (zh) 2015-03-05
CN103440312A (zh) 2013-12-11

Similar Documents

Publication Publication Date Title
CN103440312B (zh) 一种通信地址查询邮政编码的系统及终端
CN102955833B (zh) 一种通讯地址识别、标准化的方法
CN103440311A (zh) 一种地名实体识别的方法及系统
CN103473289A (zh) 一种通信地址补全的装置及方法
CN102395965B (zh) 用于在数据库中搜索对象的方法
CN103186524B (zh) 一种地名识别方法和装置
CN106528526B (zh) 一种基于贝叶斯分词算法的中文地址语义标注方法
CN102955832B (zh) 一种通讯地址识别、标准化的系统
CN100573506C (zh) 一种自然语言表达动态交通信息的时空融合方法
CN108369582B (zh) 一种地址纠错方法及终端
CN109657074B (zh) 基于地址树的新闻知识图谱构建方法
CN110909170B (zh) 兴趣点知识图谱构建方法、装置、电子设备及存储介质
CN106874287B (zh) 一种兴趣点 poi 地址编码的处理方法及装置
CN109344263B (zh) 一种地址匹配方法
CN102419778A (zh) 一种挖掘查询语句子话题并聚类的信息搜索方法
CN109145073A (zh) 一种基于分词算法的地址解析方法及装置
CN112528174A (zh) 基于知识图谱和多重匹配的地址修整补全方法及应用
CN107908627A (zh) 一种多语言的地图poi 搜索系统
CN107463711A (zh) 一种数据的标签匹配方法及装置
CN112364113A (zh) 一种地址纠错方法及系统
CN116414823A (zh) 一种基于分词模型的地址定位方法和装置
CN115630648A (zh) 面向人机对话的地址要素解析方法、系统与计算机可读介质
CN101661463B (zh) 文字输入过程中的自动校对方法
CN109271625B (zh) 一种汉语地名的拼音拼写规范化方法
CN116414824A (zh) 行政区划信息识别和标准化处理的方法、装置及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: 518057 2203/2204, Building 1, Huide Building, North Station Community, Minzhi Street, Longhua District, Shenzhen, Guangdong Province

Patentee after: SHENZHEN AUDAQUE DATA TECHNOLOGY Ltd.

Address before: 518057 Rooms 713, 715 and 716, 7/F, Software Building, No. 9, High-tech Middle Road, High-tech Zone, Nanshan District, Shenzhen, Guangdong Province

Patentee before: SHENZHEN AUDAQUE DATA TECHNOLOGY Ltd.

CP02 Change in the address of a patent holder