CN108572948A - 门牌信息的处理方法及装置 - Google Patents
门牌信息的处理方法及装置 Download PDFInfo
- Publication number
- CN108572948A CN108572948A CN201710151165.2A CN201710151165A CN108572948A CN 108572948 A CN108572948 A CN 108572948A CN 201710151165 A CN201710151165 A CN 201710151165A CN 108572948 A CN108572948 A CN 108572948A
- Authority
- CN
- China
- Prior art keywords
- doorplate
- information
- suffix
- target
- prefix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Abstract
本发明公开了一种门牌信息的处理方法及装置。其中,该方法包括:对预定的门牌信息集合中的门牌信息进行分词处理,得到分词结果;根据分词结果从门牌信息集合中提取出具有相同格式的门牌信息,其中,具有相同格式的门牌信息包括:道路名、门牌号前缀和门牌号后缀;计算具有相同格式的门牌信息中每个道路名下的每个门牌号前缀模板所对应的门牌号后缀出现的次数,其中,门牌号前缀模板是根据门牌号前缀的字符串类型得到的模板;使用门牌统计信息对目标门牌信息中异常的门牌号前缀和/或门牌号后缀进行修正,其中,门牌统计信息包括:具有对应关系的次数、与计算次数时使用的门牌号后缀、门牌号前缀模板和道路名。
Description
技术领域
本发明涉及通信领域,具体而言,涉及一种门牌信息的处理方法及装置。
背景技术
门牌号的应用领域主要在地图行业,因此目前的门牌号的识别技术还是在基于关键词搜索和人工校验的方式,关键词检索包括了基于门牌号后缀的字符串检查和门牌中是否有数字信息检查,然后通过人工经验的方式总结匹配规则。
相关技术中的门牌号识别方式,非常依赖于人工经验,且覆盖面小,无法针对不同门牌号(例如,全国上百万道路的门牌号)命名方式做到有效的正式识别,比如,上海很多门牌号叫弄、支弄。还有一些门牌号是以村组、段、两、道这种不常见和非人工经验可以总结出的门牌后缀。同时在一个道路里也会出现包括数字、字母、中文的混合门牌号信息,这些都加大了人工校验的成本和难度。
针对相关技术中由于门牌号命名方式多样导致的门牌号指示的地址不准确的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例中提供了一种门牌信息的处理方法及装置,以至少解决由于门牌号命名方式多样导致的门牌号指示的地址不准确的问题的技术问题。
根据本发明实施例的一个方面,提供了一种门牌信息的处理方法,包括:对预定的门牌信息集合中的门牌信息进行分词处理,得到分词结果;根据所述分词结果从所述门牌信息集合中提取出具有相同格式的门牌信息,其中,所述具有相同格式的门牌信息包括:道路名、门牌号前缀和门牌号后缀;计算所述具有相同格式的门牌信息中每个所述道路名下的每个门牌号前缀模板所对应的所述门牌号后缀出现的次数,其中,所述门牌号前缀模板是根据所述门牌号前缀的字符串类型得到的模板;使用门牌统计信息对目标门牌信息中异常的门牌号前缀和/或门牌号后缀进行修正,其中,所述门牌统计信息包括:具有对应关系的所述次数、与计算所述次数时使用的所述门牌号后缀、所述门牌号前缀模板和所述道路名。
根据本发明实施例的另一方面,还提供了一种门牌信息的处理装置,包括:分词单元,用于对预定的门牌信息集合中的门牌信息进行分词处理,得到分词结果;提取单元,用于根据所述分词结果从所述门牌信息集合中提取出具有相同格式的门牌信息,其中,所述具有相同格式的门牌信息包括:道路名、门牌号前缀和门牌号后缀;计算单元,用于计算所述具有相同格式的门牌信息中每个所述道路名下的每个所述门牌号前缀模板所对应的所述门牌号后缀出现的次数,其中,所述门牌号前缀模板是根据所述门牌号前缀的字符串类型得到的模板;修正单元,用于使用门牌统计信息对目标门牌信息中异常的门牌号前缀和/或门牌号后缀进行修正,其中,所述门牌统计信息包括:具有对应关系的所述次数、与计算所述次数时使用的所述门牌号后缀、所述门牌号前缀模板和所述道路名。
在本发明实施例中,采用根据预定的门牌信息集合的统计结果对目标门牌信息中异常的门牌号前缀和/或门牌号后缀进行修正的方式,根据预定的门牌信息集合中的门牌信息的分词结果,从预定的门牌信息集合中提取出具有相同格式的门牌信息,根据具有相同格式的门牌信息获取门牌统计信息,并使用门牌统计信息对目标门牌信息中异常的门牌号前缀和/或门牌号后缀进行修正,达到了对门牌信息进行识别并修正的目的,从而实现了提高门牌信息处理效率的技术效果,进而解决了由于门牌号命名方式多样导致的门牌号指示的地址不准确的问题的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的门牌信息的处理方法的硬件环境的示意图;
图2是根据本发明实施例的一种可选的门牌信息的处理方法的流程图;
图3是根据本发明实施例的一种可选道路门牌号规范化自动检测方法的流程图;
图4是根据本发明实施例的一种可选的门牌信息的处理装置的示意图;
以及
图5是根据本发明实施例的一种终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种门牌信息的处理方法实施例。
可选地,在本实施例中,上述门牌信息的处理方法可以应用于如图1所示的由服务器102和终端104所构成的硬件环境中。如图1所示,服务器102通过网络与终端104进行连接,上述网络包括但不限于:广域网、城域网或局域网,终端104并不限定于PC、手机、平板电脑等。本发明实施例的门牌信息的处理方法可以由服务器102来执行,也可以由终端104来执行,还可以是由服务器102和终端104共同执行。其中,终端104执行本发明实施例的门牌信息的处理方法也可以是由安装在其上的客户端来执行。
图2是根据本发明实施例的一种可选的门牌信息的处理方法的流程图,如图2所示,该方法可以包括以下步骤:
步骤S202,对预定的门牌信息集合中的门牌信息进行分词处理,得到分词结果;
步骤S204,根据分词结果从门牌信息集合中提取出具有相同格式的门牌信息,其中,具有相同格式的门牌信息包括:道路名、门牌号前缀和门牌号后缀;
步骤S206,计算具有相同格式的门牌信息中每个道路名下的每个门牌号前缀模板所对应的门牌号后缀出现的次数,其中,门牌号前缀模板是根据门牌号前缀的字符串类型得到的模板;
步骤S208,使用门牌统计信息对目标门牌信息中异常的门牌号前缀和/或门牌号后缀进行修正,其中,门牌统计信息包括:具有对应关系的次数、与计算次数时使用的门牌号后缀、门牌号前缀模板和道路名。
通过上述步骤S202至步骤S208,根据预定的门牌信息集合中的门牌信息的分词结果,从预定的门牌信息集合中提取出具有相同格式的门牌信息,根据具有相同格式的门牌信息获取门牌统计信息,并使用门牌统计信息对目标门牌信息中异常的门牌号前缀和/或门牌号后缀进行修正,可以解决了由于门牌号命名方式多样导致的门牌号指示的地址不准确的问题的技术问题,进而达到自动对门牌信息进行修正,提高门牌信息处理效率的技术效果。
在步骤S202提供的技术方案中,预定的门牌信息集合可以是从运单地址集合中获取到的,运单地址可以是邮寄地址、送餐地址、送货地址等。在获取预定的门牌信息集合时,可以基于运单地址包含的其他信息(例如,省、市、区等)将相同道路名下的运单地址汇聚到一起,从汇集后的运单地址中获取预定的门牌信息集合,也可以根据预设的门牌信息模板对运单地址进行匹配,获取运单地址中包含的门牌信息。上述运单地址可以由预定的客户端中获取到,也可以从预设的数据库中获取到。预定的门牌信息集合可以是获取到的预定周期内的门牌信息所构成的集合,预设周期可以根据需要进行设定或修改,例如,一天、一周、一个月、一个季度,也可以是几天、几个周、几个月、几个季度等。上述仅是一种示例,对于预定门牌信息集合及其获取方式,本实施例中对此不做任何限定。
可选地,在本实施例中,在对预定的门牌信息集合中的门牌信息进行分词处理时,可以采用已有的分词工具(例如,开源版本的ICTCLAS)进行分词。
在步骤S202提供的技术方案中,在得到分词结果以后,可以根据分词结果从门牌信息集合中提取出具有相同格式的门牌信息。由于预定的门牌信息集合中的门牌信息的表述方式可能不规范,使得得到的分词结果中的分词的表述方式也不规范,因此,在提取具有相同格式的门牌信息时,对门牌信息集合中的门牌信息的表述方式进行规范化处理。可以是直接对预定的门牌信息集合中的门牌信息进行规范化处理,也可以是对分词以后的分析结果中包含的分词进行规范化处理。例如,在门牌信息集合中的门牌信息包括中文数字的情况下,将中文数字都转化为阿拉伯数字,其中,分词结果包括中文数字。在门牌信息集合中的门牌信息包括英文字母的情况下,将英文字母的格式都转化为大写格式或小写格式,其中,分词结果包括英文字母。具体转化为大写格式还是小写格式,可以根据需要进行限定,对此不做任何限定。例如,门牌信息为知春路甲四十五-a号,包括中文数字四十五,以及英文字母a,可以将门牌信息转化为知春路甲45-A号(规范化格式为将英文字母的格式转化为大写格式的情况,小写的情况于此类似)。
可选地,在本实施例中,在对门牌信息的表述方式进行规范化处理后,根据门牌信息的格式从转化后的门牌信息集合中具有相同格式的门牌信息:根据分词结果,提取出转化后的门牌信息中的道路名;使用预定的前缀模板(可以有一种或多种形式)匹配提取的门牌信息,得到门牌信息中的核心字符串,得到的核心字符串,也就是门牌信息的门牌号前缀;将转化后的门牌信息中除道路名、核心字符串以外的剩余字符串,设置为门牌号后缀,在转化后的门牌信息仅包括道路名和核心字符串时,将门牌号后缀设置为空。得到道路名、门牌号前缀和门牌号后缀以后,也就提取出了具有相同格式的门牌信息。
具体地,在本实施例中,将门牌号分成前缀部分(同前述门牌号前缀)和后缀部分(同前述门牌号后缀),前缀可以是有具体门牌号表针含义的部分,如,门牌号为“甲45号”,那么“甲45”就是这个门牌号的核心字符串即为前缀,“号”就是后缀部分。对于一个门牌号,其尾部不包含前缀部分五种类型的最长子串,被认定为门牌号后缀部分,常见的有“号”、“号院”、“弄”。
对于门牌号前缀,前缀部分的模版类型(同前述预定的前缀模板)可以有一种或多种。在确定门牌号前缀时,根据模版类型依次匹配除了门牌信息中除道路名以外的剩余字符串,根据能够与模板类型匹配的字符串,确定门牌号前缀。
例如,前缀部分的模版类型(同前述预定的前缀模板)可以有五种,分别是:数字类型,用NUM表示;字母类型,用ALPH表示;中文的“甲乙丙丁”类型,用CN_TIME表示,标点符号类型,用PUNC表示;连接符类型,用LINK表示。对于门牌号“甲45号”,“甲”为中文的“甲乙丙丁”类型,“A”为数字类型,可以与前缀模板类型相匹配,而“号”属于任意一种模板类型,因此,确定门牌号前缀为“甲45”。
对于门牌号后缀,只按上述规则进行门牌号后缀的提取,保留原始的后缀。如果一个门牌号没有符合条件的后缀部分,则属于门牌号缺失,后缀为空。
在步骤S206提供的技术方案中,在提取出具有相同格式的门牌信息后,可以计算具有相同格式的门牌信息中每个道路名下的每个门牌号前缀模板所对应的门牌号后缀出现的次数,其中,门牌号前缀模板是根据门牌号前缀的字符串类型得到的模板。这里,计算的上述次数、与计算次数时使用的门牌号后缀、门牌号前缀模板和道路名之间具有对应关系,这里的对应关系可以是:计算的次数为:预定道路名下预定门牌号前缀模板对应的预定门牌号后缀出现的次数。
对于门牌号前缀模板,可以根据门牌号前缀的字符串类型,得到门牌号前缀模板:根据门牌号前缀的字符串,可以逐字节得到前缀的模版类型,将得到的各个字节的前缀的模版类型按照预定规则相连,得到门牌号前缀模板。
下面以前述五种前缀部分的模版类型为例进行说明。例如,门牌号前缀“15A”中“15”为数字类型,用NUM表示;“A”为字母类型,用ALPH表示。可以通过“_”将相邻的模板链接,因此“15A”对应的门牌号前缀模版是“NUM_ALPH”。
可选地,在本实施例中,根据已经提取的具有相同格式的门牌信息,按照道路进行分组合并,即,相同省市区道路下的所有门牌号模板汇聚到一起。在每个道路下的门牌号分组中,按照门牌号前缀模版类型进行划分,统计得到每一个门牌号后缀的出现次数,同时也记录一条道路中所有门牌号后缀的出现次数(不按门牌号前缀进行划分),存储的数据结构可以为{道路1:{门牌号前缀模版类型1:{门牌号后缀1:count1,门牌号后缀2:count2}},其中,count1和count2分别表示在当前道路门牌号前缀模版类型下的门牌号后缀的统计次数,以及,{道路1:{门牌号后缀1:count3,门牌号后缀2:count4},其中,count3和count4分别表示在当前道路下的门牌号后缀的统计次数。
具体结合以下示例进行说明。如表1和表2所示,
表1门牌信息统计表1
表2门牌信息统计表2
根据统计,道路名称为“知春路”下的门牌号前缀有:30-A、甲35、48,与门牌号前缀“30-A”对应的前缀模板类型为CN_TIME_LINK_ALPH,与门牌号前缀“30-A”对应的门牌号后缀中,“号”出现的次数为10,“号院”出现的次数为2,“弄”出现的次数为1;与门牌号前缀“甲35”对应的前缀模板类型为CN_TIME_NUM,与门牌号前缀“甲35”对应的门牌号后缀中,“号”出现的次数为10,“弄”出现的次数为1;与门牌号前缀“48”对应的前缀模板类型为NUM,与门牌号前缀“48”对应的门牌号后缀中,“号”出现的次数为10。则存储的数据结构为{知春路:{CN_TIME_LINK_ALPH:{号:10,号院:2,弄:1},{CN_TIME_NUM:{号:10,弄:1},{NUM:{号:10}},以及{知春路:{号:30,号院:2,弄:2}}。
道路名称为“和平路”下的门牌号前缀有:甲16、28A、50,与门牌号前缀“甲16”对应的前缀模板类型为ALPH_NUM,与门牌号前缀“甲16”对应的门牌号后缀中,“号”出现的次数为12,“号院”出现的次数为2;与门牌号前缀“28A”对应的前缀模板类型为NUM_ALPH,与门牌号前缀“28A”对应的门牌号后缀中,“号”出现的次数为23,“弄”出现的次数为15;与门牌号前缀“50”对应的前缀模板类型为NUM,与门牌号前缀“50”对应的门牌号后缀中,“号院”出现的次数为10。则存储的数据结构为{和平路:{ALPH_NUM:{号:12,号院:2},{NUM_ALPH:{号:13,弄:15},{NUM:{号院:10}},以及{和平路:{号:25,号院:12,弄:15}}。
在计算具有相同格式的门牌信息中每个道路名下的每个门牌号前缀模板所对应的门牌号后缀出现的次数时,还可以计算具有相同格式的门牌信息中门牌号前缀模版类型相同的门牌号前缀所对应的门牌号后缀以及门牌号后缀出现次数。
在对具有相同格式的门牌信息中每个道路名下的每个门牌号前缀模板所对应的门牌号后缀出现的次数进行计算后,可以对计算结果进行统计(统计结果的格式可以是道路名、道路下的门牌号前缀模板类型、与门牌号前缀模板类型对应的门牌号后缀以及门牌号后缀的出现次数),并按照预定数据格式进行存储,以便于对异常的门牌号前缀和/或门牌号后缀进行修正。
在步骤S208提供的技术方案中,目标门牌信息可以是前述门牌信息集合中的门牌信息,也可以是待处理的地址信息中的门牌信息。在对目标门牌信息中异常的门牌号前缀和/或门牌号后缀进行修正之前,可以先从门牌信息集合中获取目标门牌信息,或者,从待处理的地址信息中获取目标门牌信息。
可选地,在本实施例中,获取到目标门牌信息以后,可以通过以下步骤来从目标门牌信息中查找出异常的门牌号前缀:从门牌统计信息中获取与目标门牌信息中的道路名相同的目标道路名;判断门牌号前缀模板集合中是否存在与第一门牌号前缀模板具有包含关系的第二门牌号前缀模板,其中,第一门牌号前缀模板是根据目标门牌信息中的门牌号前缀的字符串类型得到的模板,门牌号前缀模板集合中的门牌号前缀模板是根据门牌统计信息中目标道路名下的门牌号前缀的字符串类型得到的模板;在判断出门牌号前缀模板集合中存在与第一门牌号前缀模板具有包含关系的第二门牌号前缀模板时,确定目标门牌信息中的门牌号前缀为异常的门牌号前缀。由于第一门牌号前缀模板与第二门牌号前缀模板具有包含关系,但是并不相同,由此可以确定第一门牌号前缀模板存在异常。
可选地,上述包含关系可以是第一门牌号前缀模板中包含第二门牌号前缀模板,或者,第二门牌号前缀模板中包含第一门牌号前缀模板。
例如,目标门牌信息为“知春路甲28号”,其门牌号前缀为“甲48”,该门牌号前缀所对应的门牌号前缀模板为“CN_TIME_NUM”,预定的门牌信息集合中的门牌信息为“知春路甲-28号”,其门牌号前缀为“甲-48”,该门牌号前缀所对应的门牌号前缀模板为“CN_TIME_LINK_NUM”,由于“CN_TIME_LINK_NUM”包含“CN_TIME_NUM”,因此,门牌号前缀模板集合中的第二门牌号前缀模板(“CN_TIME_LINK_NUM”)包含第一门牌号前缀模板(“CN_TIME_NUM”)。
又例如,目标门牌信息为“知春路甲-28号”,其门牌号前缀为“甲-48”,该门牌号前缀所对应的门牌号前缀模板为“CN_TIME_LINK_NUM”,预定的门牌信息集合中的门牌信息为“知春路甲28号”,其门牌号前缀为“甲48”,该门牌号前缀所对应的门牌号前缀模板为“CN_TIME_NUM”,由于“CN_TIME_LINK_NUM”包含“CN_TIME_NUM”,因此,第一门牌号前缀模板(“CN_TIME_LINK_NUM”)包含门牌号前缀模板集合中的第二门牌号前缀模板(“CN_TIME_NUM”)。
可选地,在本实施例中,可以按照第二门牌号前缀模板对异常的门牌号前缀中的字符串进行修正,得到修正后的门牌号前缀,其中,根据修正后的门牌号前缀的字符串类型得到的门牌号前缀模板为第二门牌号前缀模板。例如,对于前述目标门牌信息“知春路甲28号”的门牌号前缀“甲28”,将其修正为“甲-28”。
可选地,在本实施例中,获取到目标门牌信息以后,可以通过以下步骤来从目标门牌信息中查找出异常的门牌号后缀:在目标门牌信息中的门牌号后缀为空时,确定目标门牌信息中的门牌号后缀为异常的门牌号后缀;在目标门牌信息中的门牌号后缀不为空、且门牌号前缀模板集合中存在与第一门牌号前缀模板具有包含关系的第二门牌号前缀模板或存在第一门牌号前缀模板相同的第三门牌号前缀模板时,判断目标道路名下的第二门牌号前缀模板或第三门牌号前缀模板所对应的门牌号后缀中是否存在与目标门牌信息中的门牌号后缀相同的门牌号后缀;在判断出不存在与目标门牌信息中的门牌号后缀相同的门牌号后缀时,确定目标门牌信息中的门牌号后缀为异常的门牌号后缀。
例如,目标门牌信息为“知春路甲28”,门牌号前缀为“甲28”,门牌号后缀为空,确定目标门牌信息“知春路甲28”的门牌号后缀为异常的门牌号后缀。又例如,目标门牌信息为“知春路甲28道”,门牌号前缀为“甲28”,对应的门牌号前缀模板为“CN_TIME_NUM”,门牌号后缀为“道”,确定门牌号前缀模板集合中存在为“CN_TIME_NUM”的门牌号前缀模板或者包含“CN_TIME_NUM”的门牌号前缀模板或者包含在“CN_TIME_NUM”中的门牌号前缀模板,但是确定的门牌号前缀模板所对应的门牌号后缀中没有“道”,则确定目标门牌信息“知春路甲28道”中的门牌号后缀为异常的门牌号后缀。
可选地,在本实施例中,对于目标门牌信息中异常的门牌号后缀,可以采用如下方式进行修正:将目标门牌信息中异常的门牌号后缀修改为门牌统计信息中的目标门牌号后缀,其中,门牌统计信息中目标门牌号后缀所属的目标道路名与目标门牌信息中异常的门牌号后缀所属的道路名相同。
具体地,在确定目标门牌信息中异常的门牌号后缀之后,可以根据目标门牌信息的道路名与门牌统计信息中的道路名进行匹配,这里的匹配可以是逐个匹配,也可以是按照预定查找算法从门牌统计信息中的道路名进行查找,确定是否存在与目标门牌信息的道路名相同的道路名,若有,则确定与目标门牌信息中异常的门牌号后缀所属的道路名相匹配的门牌统计信息中的目标道路名;确定属于目标道路名的目标门牌号后缀,将目标门牌信息中异常的门牌号后缀修正为门牌统计信息中的目标门牌号后缀。
通过道路名匹配的方式将目标门牌信息中异常的门牌号后缀修改为门牌统计信息中的目标门牌号后缀,由于同一道路名下的门牌号后缀相对固定,因此,可以提高异常的门牌号后缀修正的准确性。
可选地,在本实施例中,在使用门牌统计信息对目标门牌信息中异常的门牌号前缀和/或门牌号后缀进行修正之后,还可以在接收到输入的地址信息时主动显示提示,提示的信息可以包括用于提醒输入的地址信息存在错误的信息,还可以包括门牌统计信息中用于对异常的门牌号前缀和/或门牌号后缀进行修正的门牌号前缀和/或门牌号后缀。
具体结合以下示例进行说明,在接收到输入的地址信息是“知春路甲28道”时,由于该地址包括目标门牌信息中异常的门牌号后缀“道”,可以在输入界面内提示输入的地址可能存在错误,同时提示输入的地址是否为“知春路甲28号”。
作为一种可选的方案,通过以下步骤来从目标门牌信息中查找出异常的门牌号前缀:
S1,从门牌统计信息中获取与目标门牌信息中的道路名相同的目标道路名;
S2,判断门牌号前缀模板集合中是否存在与第一门牌号前缀模板具有包含关系的第二门牌号前缀模板,其中,第一门牌号前缀模板是根据目标门牌信息中的门牌号前缀的字符串类型得到的模板,门牌号前缀模板集合中的门牌号前缀模板是根据门牌统计信息中目标道路名下的门牌号前缀的字符串类型得到的模板;
S3,在判断出门牌号前缀模板集合中存在与第一门牌号前缀模板具有包含关系的第二门牌号前缀模板时,确定目标门牌信息中的门牌号前缀为异常的门牌号前缀。
通过本发明实施例的上述技术方案,根据获取的门牌统计信息对目标门牌信息中的门牌号前缀进行判断,查找出目标门牌信息中异常的门牌号前缀,便于对目标门牌信息进行自动化分析,提高了目标门牌信息中异常的门牌号前缀的查找效率。
可选地,在本实施例中,使用门牌统计信息对目标门牌信息中异常的门牌号前缀进行修正包括:
S1,按照第二门牌号前缀模板对异常的门牌号前缀中的字符串进行修正,得到修正后的门牌号前缀,其中,根据修正后的门牌号前缀的字符串类型得到的门牌号前缀模板为第二门牌号前缀模板。
通过本发明实施例的上述技术方案,按照第二门牌号前缀模板对异常的门牌号前缀中的字符串进行修正,由于是根据门牌号前缀模板集合中的门牌号前缀模板对异常的门牌号前缀进行修正,无需经过复杂的处理过程,并且门牌号前缀模板集合中的门牌号前缀模板与已有的门牌信息对应,可信度高,因此,提高了异常的门牌号前缀中的字符串修正的效率以及准确性。
可选地,在本实施例中,可以通过以下步骤来从目标门牌信息中查找出异常的门牌号后缀:
S1,在目标门牌信息中的门牌号后缀为空时,确定目标门牌信息中的门牌号后缀为异常的门牌号后缀;
S2,在目标门牌信息中的门牌号后缀不为空、且门牌号前缀模板集合中存在与第一门牌号前缀模板具有包含关系的第二门牌号前缀模板或存在第一门牌号前缀模板相同的第三门牌号前缀模板时,判断目标道路名下的第二门牌号前缀模板或第三门牌号前缀模板所对应的门牌号后缀中是否存在与目标门牌信息中的门牌号后缀相同的门牌号后缀;在判断出不存在与目标门牌信息中的门牌号后缀相同的门牌号后缀时,确定目标门牌信息中的门牌号后缀为异常的门牌号后缀。
通过本发明实施例的上述技术方案,根据门牌号前缀模板集合中的门牌号前缀模板所对应的门牌号后缀对存门牌号后缀是否异常进行判断,由于门牌号前缀模板集合中的门牌号前缀模板与已有的门牌信息对应,可信度高,因此,提高了异常的门牌号后缀判定的正确率。
作为一种可选的方案,使用门牌统计信息对目标门牌信息中异常的门牌号后缀进行修正包括:
将目标门牌信息中异常的门牌号后缀修改为门牌统计信息中的目标门牌号后缀,其中,门牌统计信息中目标门牌号后缀所属的目标道路名与目标门牌信息中异常的门牌号后缀所属的道路名相同。
可选地,在本实施例中,将目标门牌信息中异常的门牌号后缀修改为门牌统计信息中的目标门牌号后缀包括以下至少之一:
S1,在门牌号前缀模板集合中存在与第一门牌号前缀模板具有包含关系的第二门牌号前缀模板或存在第一门牌号前缀模板相同的第三门牌号前缀模板时,将目标门牌信息中异常的门牌号后缀修改为门牌统计信息中的目标门牌号后缀,其中,目标门牌号后缀为目标道路名下的第二门牌号前缀模板或第三门牌号前缀模板所对应的出现次数最多的门牌号后缀;
S2,在门牌号前缀模板集合中不存在与第一门牌号前缀模板具有包含关系的第二门牌号前缀模板、且不存在第一门牌号前缀模板相同的第三门牌号前缀模板、且目标门牌信息中异常的门牌号后缀为空时,将目标门牌信息中异常的门牌号后缀修改为门牌统计信息中的目标门牌号后缀,其中,目标门牌号后缀为门牌统计信息中目标道路名下的出现次数最多的门牌号后缀,门牌统计信息还包括:每个道路名下的每个门牌号后缀出现的次数。
通过本发明实施例的上述技术方案,根据获取的门牌统计信息对目标门牌信息中的门牌号后缀进行判断,查找出目标门牌信息中异常的门牌号后缀,便于对目标门牌信息进行自动化分析,提高了目标门牌信息中异常的门牌号后缀的查找效率。
作为一种可选的方案,根据分词结果从门牌信息集合中提取出具有相同格式的门牌信息包括:
S1,在门牌信息集合中的门牌信息包括中文数字的情况下,将中文数字都转化为阿拉伯数字,其中,分词结果包括中文数字;
S2,在门牌信息集合中的门牌信息包括英文字母的情况下,将英文字母的格式都转化为大写格式或小写格式,其中,分词结果包括英文字母;
S3,将转化后的门牌信息中的核心字符串设置为门牌号前缀,且在转化后的门牌信息中存在除道路名和核心字符串之外的剩余字符串时,将剩余字符串设置为门牌号后缀,在转化后的门牌信息仅包括道路名和核心字符串时,将门牌号后缀设置为空,其中,根据核心字符串的字符串类型所得到的模板属于预设门牌号前缀模板集合中的一个门牌号前缀模板。
通过本发明实施例的上述技术方案,对门牌信息集合中的门牌信息进行规范化处理,并分别确定门牌信息中的道路名、门牌号前缀和门牌号后缀,进而提取出具有相同格式的门牌信息,通过规范化处理以及核心字符串的字符串类型与门牌号前缀模板之间对应关系提取门牌信息,提高了门牌信息提取的准确性以及效率。
作为一种可选的方案,在使用门牌统计信息对目标门牌信息中异常的门牌号前缀和/或门牌号后缀进行修正之前,还包括以下至少之一:
从门牌信息集合中获取目标门牌信息;
从待处理的地址信息中获取目标门牌信息。
通过本发明实施例的上述技术方案,门牌信息集合和/或待处理的地址信息中获取目标门牌信息,可以实现对门牌信息集合和/或待处理的地址信息中异常的门牌信息进行处理,提高目标门牌信息集合获取的灵活性。
作为一种可选的方案,在使用门牌统计信息对目标门牌信息中异常的门牌号前缀和/或门牌号后缀进行修正之后,还包括:
S1,在接收到输入的地址信息包括目标门牌信息中异常的门牌号前缀和/或门牌号后缀时,显示提示信息,其中,提示信息用于提示门牌统计信息中用于对异常的门牌号前缀和/或门牌号后缀进行修正的门牌号前缀和/或门牌号后缀。
通过本发明实施例的上述技术方案,在接收到输入的地址信息包括目标门牌信息中异常的门牌号前缀和/或门牌号后缀时,显示提示信息,可以避免输入的地址信息可能存在的错误,减少了地址信息错误的可能性,提高用户体验。
本发明还提供了一种优选实施例,该优选实施例中所提供的门牌信息的处理方法可以应用于包含门牌号模版提取模块、门牌号前缀树构建模块、道路门牌号规范化自动检测模块的终端或者服务器,下面集合上述模块对该门牌信息的处理方法进行说明。
门牌号模版提取模块,是根据应用地址切分技术对运单地址中的门牌号部分生成相应的模版。首先对门牌号进行中文数字到阿拉伯数字的归一化,并且将英文字母统一归一化成大写。然后,将门牌号分成前缀和后缀部分,前缀是指有具体门牌号表针含义的部分。前缀部分的模版类型有五种:分别是数字类型用NUM表示、字母类型用ALPH表示、中文的“甲乙丙丁”类型用CN_TIME、标点符号类型用PUNC表示、连接符类型用LINK表示。根据门牌号前缀字符串,可以逐字节得到前缀的模版类型,通过“_”将相邻的模板链接。对于一个门牌号,其尾部不包含前缀部分五种类型的最长子串,被认定为门牌号后缀部分,常见的有“号”、“号院”、“弄”,对于门牌号后缀,当前模块只按上述规则进行门牌号后缀的提取,保留原始的后缀。如果一个门牌号没有符合条件的后缀部分,则属于门牌号缺失,在道路门牌号规范化自动检测模块中将进行补全。
道路门址库构建模块,根据已经提取的门牌号模版,按照道路进行分组合并,即,相同省市区道路下的所有门牌号模板汇聚到一起。在每个道路下的门牌号分组中按照门牌号前缀模版类型进行划分,统计得到每一个门牌号后缀的出现次数,同时,也记录下一条道路中所有门牌号后缀的出现次数(不按门牌号前缀进行划分),存储的数据结构为{道路1:{门牌号前缀1:{门牌号后缀1:count1,门牌号后缀2:count2}}。count1和count2分别表示在当前道路门牌前缀下的门牌号后缀的统计次数。
对于道路门址库构建模块,输入数据为运单地址(字符串),道路门址库构建模块对运单地址的处理过程如下:
1)解析运单地址,保留包含门牌号的运单数据;
2)对门牌号进行中文数字到阿拉伯数字的归一化,将门牌号中的英文字母转成大写格式;
3)对门牌号进行模版提取,将门牌号划分成门牌号前缀跟门牌号后缀两部分,按照定义好的数字(NUM)、字母(ALPH)、中文的“甲乙丙丁”(CN_TIME)、标点符号(LINK)、连接符(PUNC)五种类型对门牌号前缀进行模版生成,则得到门牌号的前缀模版和门牌号后缀;
4)基于门牌号模版提取结果,按照道路名、门牌号前缀模版对门牌号后缀进行统计整理,同时统计每条道路出现的所有门牌号后缀的概率(不考虑前缀类型),生成道路门址库。
道路门牌号规范化自动检测模块,根据已经构建的道路门址库,对运单的门牌号进行规范化,对缺失门牌进行门牌后缀的自动补全。对于每一个的运单门牌号,首先进行中文数字到阿拉伯数字的归一化,并且将英文字母统一归一化成大写,然后进行门牌号模版提取,分别得到门牌号前缀模版和门牌号后缀,按照道路名和门牌号前缀模版,从道路门址库中得到对应的出现概率最高的门牌号后缀,作为该条道路下这一个前缀模版的规范化门牌号后缀。如果这个门牌号前缀模版在门址库中没有出现过,并且其无门牌号后缀,则用这条道路中出现概率最高的门牌号后缀对这个门牌号进行后缀补全,如果其带有门牌号后缀,则保留原始的门牌号后缀。
对于道路门牌号规范化自动检测模块,输入数据为运单地址(字符串),道路门址库,道路门牌号规范化自动检测模块对运单地址的处理过程如下:
1)解析运单地址,保留包含门牌号的运单数据;
2)对门牌号进行中文数字到阿拉伯数字的归一化,将门牌号中的英文字母转成大写格式;
3)对门牌号进行模版提取,将门牌号划分成门牌号前缀跟门牌号后缀两部分,按照定义好的数字(NUM)、字母(ALPH)、中文的“甲乙丙丁”(CN_TIME)、标点符号(LINK)、连接符(PUNC)五种类型对门牌号前缀进行模版生成,则得到门牌号的前缀模版和门牌号后缀;
4)根据得到的当前运单地址的道路名和门牌号前缀模版,从已有的道路门址库中找到出现概率最大的门牌号后缀,从而对当前的门牌号进行规范化,如果该道路下这个门牌号前缀模版在门址库中没有出现过,并且其没有后缀,则用门址库中该道路下出现频率最高的门牌号后缀进行门牌补全,如果有后缀,则保留原有后缀。
图3是根据本发明实施例的一种可选道路门牌号规范化自动检测方法的流程图,如图3所示,该流程包括如下步骤:
步骤S302,输入原始运单数据。
步骤S304,进行地址解析,保留包含门牌号的运单数据。
步骤S306,进行地址解析,保留包含门牌号的运单数据。
步骤S308,进行门牌号模版提取,得到门牌号前缀模版和门牌号后缀。
步骤S310,按道路名、门牌号前缀模版进行门牌号后缀统计,生成道路门址库。
步骤S312,根据已有道路门址库,对道路门牌号进行归一化,对缺失的门牌号进行补全。
步骤S314,得到规范化的道路门牌号。
通过本发明实施例的上述技术方案,在海量运单数据的技术上,直接对全国所有运单中的道路门牌号进行模式识别,可以能够有效的检测道路门牌规范化的信息,极大的提高了门牌信息验证的准确率和覆盖率,保证了道路门牌号的规范化的地域差异和丰富完整性。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述门牌信息的处理方法的门牌信息的处理装置。图4是根据本发明实施例的一种可选的门牌信息的处理装置的示意图,如图4所示,该装置可以包括:
分词单元402,用于对预定的门牌信息集合中的门牌信息进行分词处理,得到分词结果;
提取单元404,用于根据分词结果从门牌信息集合中提取出具有相同格式的门牌信息,其中,具有相同格式的门牌信息包括:道路名、门牌号前缀和门牌号后缀;
计算单元406,用于计算具有相同格式的门牌信息中每个道路名下的每个门牌号前缀模板所对应的门牌号后缀出现的次数,其中,门牌号前缀模板是根据门牌号前缀的字符串类型得到的模板;
修正单元408,用于使用门牌统计信息对目标门牌信息中异常的门牌号前缀和/或门牌号后缀进行修正,其中,门牌统计信息包括:具有对应关系的次数、与计算次数时使用的门牌号后缀、门牌号前缀模板和道路名。
需要说明的是,该实施例中的分词单元402可以用于执行本申请实施例1中的步骤S202,提取单元404可以用于执行本申请实施例1中的步骤S204,该实施例中的计算单元406可以用于执行本申请实施例1中的步骤S206,该实施例中的修正单元408可以用于执行本申请实施例1中的步骤S208。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
通过上述模块,可以解决了由于门牌号命名方式多样导致的门牌号指示的地址不准确的问题的技术问题,进而达到提高门牌信息处理效率的技术效果。
可选地,在本实施例中,预定的门牌信息集合可以是从运单地址集合中获取到的,运单地址可以是邮寄地址、送餐地址、送货地址等。在获取预定的门牌信息集合时,可以基于运单地址包含的其他信息(例如,省、市、区等)将相同道路名下的运单地址汇聚到一起,从汇集后的运单地址中获取预定的门牌信息集合,也可以根据预设的门牌信息模板对运单地址进行匹配,获取运单地址中包含的门牌信息。上述运单地址可以由预定的客户端中获取到,也可以从预设的数据库中获取到。预定的门牌信息集合可以是获取到的预定周期内的门牌信息所构成的集合,预设周期可以根据需要进行设定或修改,例如,一天、一周、一个月、一个季度,也可以是几天、几个周、几个月、几个季度等。上述仅是一种示例,对于预定门牌信息集合及其获取方式,本实施例中对此不做任何限定。
可选地,在本实施例中,在对预定的门牌信息集合中的门牌信息进行分词处理时,可以采用已有的分词工具(例如,开源版本的ICTCLAS)进行分词。
可选地,在本实施例中,在得到分词结果以后,可以根据分词结果从门牌信息集合中提取出具有相同格式的门牌信息。由于预定的门牌信息集合中的门牌信息的表述方式可能不规范,使得得到的分词结果中的分词的表述方式也不规范,因此,在提取具有相同格式的门牌信息时,对预定的门牌信息集合中的门牌信息的表述方式进行规范化处理。可以是直接对预定的门牌信息集合中的门牌信息进行规范化处理,也可以是对分词以后的分析结果中包含的分词进行规范化处理。例如,在门牌信息集合中的门牌信息包括中文数字的情况下,将中文数字都转化为阿拉伯数字,其中,分词结果包括中文数字。在门牌信息集合中的门牌信息包括英文字母的情况下,将英文字母的格式都转化为大写格式或小写格式,其中,分词结果包括英文字母。具体转化为大写格式还是小写格式,可以根据需要进行限定,对此不做任何限定。例如,门牌信息为知春路甲四十五-a号,包括中文数字四十五,以及英文字母a,可以将门牌信息转化为知春路甲45-A号(规范化格式为将英文字母的格式转化为大写格式的情况,小写的情况于此类似)。
可选地,在本实施例中,在对门牌信息的表述方式进行规范化处理后,根据门牌信息的格式从转化后的门牌信息集合中具有相同格式的门牌信息:根据分词结果,提取出转化后的门牌信息中的道路名;使用预定的前缀模板(可以有一种或多种形式)匹配提取的门牌信息,得到门牌信息中的核心字符串,得到的核心字符串,也就是门牌信息的门牌号前缀;将转化后的门牌信息中除道路名、核心字符串以外的剩余字符串,设置为门牌号后缀,在转化后的门牌信息仅包括道路名和核心字符串时,将门牌号后缀设置为空。得到道路名、门牌号前缀和门牌号后缀以后,也就提取出了具有相同格式的门牌信息
具体地,在本实施例中,将门牌号分成前缀部分(同前述门牌号前缀)和后缀部分(同前述门牌号后缀),前缀可以是有具体门牌号表针含义的部分,如,门牌号为“甲45号”,那么“甲45”就是这个门牌号的核心字符串即为前缀,“号”就是后缀部分。对于一个门牌号,其尾部不包含前缀部分五种类型的最长子串,被认定为门牌号后缀部分,常见的有“号”、“号院”、“弄”。
对于门牌号前缀,前缀部分的模版类型(同前述预定的前缀模板)可以有一种或多种。在确定门牌号前缀时,根据模版类型依次匹配除了门牌信息中除道路名以外的剩余字符串,根据能够与模板类型匹配的字符串,确定门牌号前缀。
例如,前缀部分的模版类型(同前述预定的前缀模板)可以有五种,分别是:数字类型,用NUM表示;字母类型,用ALPH表示;中文的“甲乙丙丁”类型,用CN_TIME表示,标点符号类型,用PUNC表示;连接符类型,用LINK表示。对于门牌号“甲45号”,“甲”为中文的“甲乙丙丁”类型,“A”为数字类型,可以与前缀模板类型相匹配,而“号”属于任意一种模板类型,因此,确定门牌号前缀为“甲45”。
对于门牌号后缀,只按上述规则进行门牌号后缀的提取,保留原始的后缀。如果一个门牌号没有符合条件的后缀部分,则属于门牌号缺失,后缀为空。
在本实施例中,可以计算具有相同格式的门牌信息中每个道路名下的每个门牌号前缀模板所对应的门牌号后缀出现的次数,其中,门牌号前缀模板是根据门牌号前缀的字符串类型得到的模板。这里,计算的上述次数、与计算次数时使用的门牌号后缀、门牌号前缀模板和道路名之间具有对应关系,这里的对应关系可以是:计算的次数为:预定道路名下预定门牌号前缀模板对应的预定门牌号后缀出现的次数。
对于门牌号前缀模板,可以根据门牌号前缀的字符串类型,得到门牌号前缀模板:根据门牌号前缀的字符串,可以逐字节得到前缀的模版类型,将得到的各个字节的前缀的模版类型按照预定规则相连,得到门牌号前缀模板。
下面以前述五种前缀部分的模版类型为例进行说明。例如,门牌号前缀“15A”中“15”为数字类型,用NUM表示;“A”为字母类型,用ALPH表示。可以通过“_”将相邻的模板链接,因此“15A”对应的门牌号前缀模版是“NUM_ALPH”。
可选地,在本实施例中,根据已经提取的具有相同格式的门牌信息,按照道路进行分组合并,即,相同省市区道路下的所有门牌号模板汇聚到一起。在每个道路下的门牌号分组中,按照门牌号前缀模版类型进行划分,统计得到每一个门牌号后缀的出现次数,同时也记录一条道路中所有门牌号后缀的出现次数(不按门牌号前缀进行划分),存储的数据结构可以为{道路1:{门牌号前缀模版类型1:{门牌号后缀1:count1,门牌号后缀2:count2}},其中,count1和count2分别表示在当前道路门牌号前缀模版类型下的门牌号后缀的统计次数,以及,{道路1:{门牌号后缀1:count3,门牌号后缀2:count4},其中,count3和count4分别表示在当前道路下的门牌号后缀的统计次数。
在计算具有相同格式的门牌信息中每个道路名下的每个门牌号前缀模板所对应的门牌号后缀出现的次数时,还可以计算具有相同格式的门牌信息中门牌号前缀模版类型相同的门牌号前缀所对应的门牌号后缀以及门牌号后缀出现次数。
在对具有相同格式的门牌信息中每个道路名下的每个门牌号前缀模板所对应的门牌号后缀出现的次数进行计算后,可以对计算结果进行统计(统计结果的格式可以是道路名、道路下的门牌号前缀模板类型、与门牌号前缀模板类型对应的门牌号后缀以及门牌号后缀的出现次数),并按照预定数据格式进行存储,以便于对异常的门牌号前缀和/或门牌号后缀进行修正。
在本实施例中,目标门牌信息可以是前述门牌信息集合中的门牌信息,也可以是待处理的地址信息中的门牌信息。在对目标门牌信息中异常的门牌号前缀和/或门牌号后缀进行修正之前,可以先从门牌信息集合中获取目标门牌信息,或者,从待处理的地址信息中获取目标门牌信息。
可选地,在本实施例中,获取到目标门牌信息以后,可以通过以下步骤来从目标门牌信息中查找出异常的门牌号前缀:从门牌统计信息中获取与目标门牌信息中的道路名相同的目标道路名;判断门牌号前缀模板集合中是否存在与第一门牌号前缀模板具有包含关系的第二门牌号前缀模板,其中,第一门牌号前缀模板是根据目标门牌信息中的门牌号前缀的字符串类型得到的模板,门牌号前缀模板集合中的门牌号前缀模板是根据门牌统计信息中目标道路名下的门牌号前缀的字符串类型得到的模板;在判断出门牌号前缀模板集合中存在与第一门牌号前缀模板具有包含关系的第二门牌号前缀模板时,确定目标门牌信息中的门牌号前缀为异常的门牌号前缀。由于第一门牌号前缀模板与第二门牌号前缀模板具有包含关系,但是并不相同,由此可以确定第一门牌号前缀模板存在异常
可选地,上述包含关系可以是第一门牌号前缀模板中包含第二门牌号前缀模板,或者,第二门牌号前缀模板中包含第一门牌号前缀模板。
例如,目标门牌信息为“知春路甲28号”,其门牌号前缀为“甲48”,该门牌号前缀所对应的门牌号前缀模板为“CN_TIME_NUM”,预定的门牌信息集合中的门牌信息为“知春路甲-28号”,其门牌号前缀为“甲-48”,该门牌号前缀所对应的门牌号前缀模板为“CN_TIME_LINK_NUM”,由于“CN_TIME_LINK_NUM”包含“CN_TIME_NUM”,因此,门牌号前缀模板集合中的第二门牌号前缀模板(“CN_TIME_LINK_NUM”)包含第一门牌号前缀模板(“CN_TIME_NUM”)。
又例如,目标门牌信息为“知春路甲-28号”,其门牌号前缀为“甲-48”,该门牌号前缀所对应的门牌号前缀模板为“CN_TIME_LINK_NUM”,预定的门牌信息集合中的门牌信息为“知春路甲28号”,其门牌号前缀为“甲48”,该门牌号前缀所对应的门牌号前缀模板为“CN_TIME_NUM”,由于“CN_TIME_LINK_NUM”包含“CN_TIME_NUM”,因此,第一门牌号前缀模板(“CN_TIME_LINK_NUM”)包含门牌号前缀模板集合中的第二门牌号前缀模板(“CN_TIME_NUM”)。
可选地,在本实施例中,可以按照第二门牌号前缀模板对异常的门牌号前缀中的字符串进行修正,得到修正后的门牌号前缀,其中,根据修正后的门牌号前缀的字符串类型得到的门牌号前缀模板为第二门牌号前缀模板。例如,对于前述目标门牌信息“知春路甲28号”的门牌号前缀“甲28”,将其修正为“甲-28”。
可选地,在本实施例中,获取到目标门牌信息以后,可以通过以下步骤来从目标门牌信息中查找出异常的门牌号后缀:在目标门牌信息中的门牌号后缀为空时,确定目标门牌信息中的门牌号后缀为异常的门牌号后缀;在目标门牌信息中的门牌号后缀不为空、且门牌号前缀模板集合中存在与第一门牌号前缀模板具有包含关系的第二门牌号前缀模板或存在第一门牌号前缀模板相同的第三门牌号前缀模板时,判断目标道路名下的第二门牌号前缀模板或第三门牌号前缀模板所对应的门牌号后缀中是否存在与目标门牌信息中的门牌号后缀相同的门牌号后缀;在判断出不存在与目标门牌信息中的门牌号后缀相同的门牌号后缀时,确定目标门牌信息中的门牌号后缀为异常的门牌号后缀。
例如,目标门牌信息为“知春路甲28”,门牌号前缀为“甲28”,门牌号后缀为空,确定目标门牌信息“知春路甲28”的门牌号后缀为异常的门牌号后缀。又例如,目标门牌信息为“知春路甲28道”,门牌号前缀为“甲28”,对应的门牌号前缀模板为“CN_TIME_NUM”,门牌号后缀为“道”,确定门牌号前缀模板集合中存在为“CN_TIME_NUM”的门牌号前缀模板或者包含“CN_TIME_NUM”的门牌号前缀模板或者包含在“CN_TIME_NUM”中的门牌号前缀模板,但是确定的门牌号前缀模板所对应的门牌号后缀中没有“道”,则确定目标门牌信息“知春路甲28道”中的门牌号后缀为异常的门牌号后缀。
可选地,在本实施例中,对于目标门牌信息中异常的门牌号后缀,可以采用如下方式进行修正:将目标门牌信息中异常的门牌号后缀修改为门牌统计信息中的目标门牌号后缀,其中,门牌统计信息中目标门牌号后缀所属的目标道路名与目标门牌信息中异常的门牌号后缀所属的道路名相同。
具体地,在确定目标门牌信息中异常的门牌号后缀之后,可以根据目标门牌信息的道路名与门牌统计信息中的道路名进行匹配,这里的匹配可以是逐个匹配,也可以是按照预定查找算法从门牌统计信息中的道路名进行查找,确定是否存在与目标门牌信息的道路名相同的道路名,若有,则确定与目标门牌信息中异常的门牌号后缀所属的道路名相匹配的门牌统计信息中的目标道路名;确定属于目标道路名的目标门牌号后缀,将目标门牌信息中异常的门牌号后缀修正为门牌统计信息中的目标门牌号后缀。
通过道路名匹配的方式将目标门牌信息中异常的门牌号后缀修改为门牌统计信息中的目标门牌号后缀,由于同一道路名下的门牌号后缀相对固定,因此,可以提高异常的门牌号后缀修正的准确性。
可选地,在本实施例中,在使用门牌统计信息对目标门牌信息中异常的门牌号前缀和/或门牌号后缀进行修正之后,还可以在接收到输入的地址信息时主动显示提示,提示的信息可以包括用于提醒输入的地址信息存在错误的信息,还可以包括门牌统计信息中用于对异常的门牌号前缀和/或门牌号后缀进行修正的门牌号前缀和/或门牌号后缀。
具体结合以下示例进行说明,在接收到输入的地址信息是“知春路甲28道”时,由于该地址包括目标门牌信息中异常的门牌号后缀“道”,可以在输入界面内提示输入的地址可能存在错误,同时提示输入的地址是否为“知春路甲28号”。
作为一种可选的方案,该门牌信息的处理装置还包括:
(1)第一查找单元,用于通过以下步骤来从目标门牌信息中查找出异常的门牌号前缀:从门牌统计信息中获取与目标门牌信息中的道路名相的目标道路名;相同的目标道路名;判断门牌号前缀模板集合中是否存在与第一门牌号前缀模板具有包含关系的第二门牌号前缀模板,其中,第一门牌号前缀模板是根据目标门牌信息中的门牌号前缀的字符串类型得到的模板,门牌号前缀模板集合中的门牌号前缀模板是根据门牌统计信息中目标道路名下的门牌号前缀的字符串类型得到的模板;在判断出门牌号前缀模板集合中存在与第一门牌号前缀模板具有包含关系的第二门牌号前缀模板时,确定目标门牌信息中的门牌号前缀为异常的门牌号前缀。
通过本发明实施例的上述技术方案,根据获取的门牌统计信息对目标门牌信息中的门牌号前缀进行判断,查找出目标门牌信息中异常的门牌号前缀,便于对目标门牌信息进行自动化分析,提高了目标门牌信息中异常的门牌号前缀的查找效率。
可选地,在本实施例中,修正单元408,还用于按照第二门牌号前缀模板对异常的门牌号前缀中的字符串进行修正,得到修正后的门牌号前缀,其中,根据修正后的门牌号前缀的字符串类型得到的门牌号前缀模板为第二门牌号前缀模板。
通过本发明实施例的上述技术方案,按照第二门牌号前缀模板对异常的门牌号前缀中的字符串进行修正,由于是根据门牌号前缀模板集合中的门牌号前缀模板对异常的门牌号前缀进行修正,无需经过复杂的处理过程,并且门牌号前缀模板集合中的门牌号前缀模板与已有的门牌信息对应,可信度高,因此,提高了异常的门牌号前缀中的字符串修正的效率以及准确性。
可选地,在本实施例中,该门牌信息的处理装置还包括:
(1)第二查找单元,用于通过以下步骤来从目标门牌信息中查找出异常的门牌号后缀:在目标门牌信息中的门牌号后缀为空时,确定目标门牌信息中的门牌号后缀为异常的门牌号后缀;在目标门牌信息中的门牌号后缀不为空、且门牌号前缀模板集合中存在与第一门牌号前缀模板具有包含关系的第二门牌号前缀模板或存在第一门牌号前缀模板相同的第三门牌号前缀模板时,判断目标道路名下的第二门牌号前缀模板或第三门牌号前缀模板所对应的门牌号后缀中是否存在与目标门牌信息中的门牌号后缀相同的门牌号后缀;在判断出不存在与目标门牌信息中的门牌号后缀相同的门牌号后缀时,确定目标门牌信息中的门牌号后缀为异常的门牌号后缀。
通过本发明实施例的上述技术方案,根据门牌号前缀模板集合中的门牌号前缀模板所对应的门牌号后缀对存门牌号后缀是否异常进行判断,由于门牌号前缀模板集合中的门牌号前缀模板与已有的门牌信息对应,可信度高,因此,提高了异常的门牌号后缀判定的正确率。
作为一种可选的方案,修正单元408包括:
(1)修改模块,用于将目标门牌信息中异常的门牌号后缀修改为门牌统计信息中的目标门牌号后缀,其中,门牌统计信息中目标门牌号后缀所属的目标道路名与目标门牌信息中异常的门牌号后缀所属的道路名相同。
可选地,在本实施例中,修改模块,还可以用于通过以下至少之一将目标门牌信息中异常的门牌号后缀修改为门牌统计信息中的目标门牌号后缀:
在门牌号前缀模板集合中存在与第一门牌号前缀模板具有包含关系的第二门牌号前缀模板或存在第一门牌号前缀模板相同的第三门牌号前缀模板时,将目标门牌信息中异常的门牌号后缀修改为门牌统计信息中的目标门牌号后缀,其中,目标门牌号后缀为目标道路名下的第二门牌号前缀模板或第三门牌号前缀模板所对应的出现次数最多的门牌号后缀;
在门牌号前缀模板集合中不存在与第一门牌号前缀模板具有包含关系的第二门牌号前缀模板、且不存在第一门牌号前缀模板相同的第三门牌号前缀模板、且目标门牌信息中异常的门牌号后缀为空时,将目标门牌信息中异常的门牌号后缀修改为门牌统计信息中的目标门牌号后缀,其中,目标门牌号后缀为门牌统计信息中目标道路名下的出现次数最多的门牌号后缀,门牌统计信息还包括:每个道路名下的每个门牌号后缀出现的次数。
通过本发明实施例的上述技术方案,根据获取的门牌统计信息对目标门牌信息中的门牌号后缀进行判断,查找出目标门牌信息中异常的门牌号后缀,便于对目标门牌信息进行自动化分析,提高了目标门牌信息中异常的门牌号后缀的查找效率。
作为一种可选的方案,提取单元404包括:
(1)转化模块,用于在门牌信息集合中的门牌信息包括中文数字的情况下,将中文数字都转化为阿拉伯数字,其中,分词结果包括中文数字;在门牌信息集合中的门牌信息包括英文字母的情况下,将英文字母的格式都转化为大写格式或小写格式,其中,分词结果包括英文字母;
(2)设置模块,用于将转化后的门牌信息中的核心字符串设置为门牌号前缀,且在转化后的门牌信息中存在除道路名和核心字符串之外的剩余字符串时,将剩余字符串设置为门牌号后缀,在转化后的门牌信息仅包括道路名和核心字符串时,将门牌号后缀设置为空,其中,其中,根据核心字符串的字符串类型所得到的模板属于预设门牌号前缀模板集合中的一个门牌号前缀模板。
通过本发明实施例的上述技术方案,对门牌信息集合中的门牌信息进行规范化处理,并分别确定门牌信息中的道路名、门牌号前缀和门牌号后缀,进而提取出具有相同格式的门牌信息,通过规范化处理以及核心字符串的字符串类型与门牌号前缀模板之间对应关系提取门牌信息,提高了门牌信息提取的准确性以及效率。
作为一种可选的方案,该门牌信息的处理装置还包括:
(1)获取单元,用于在使用门牌统计信息对目标门牌信息中异常的门牌号前缀和/或门牌号后缀进行修正之前,从门牌信息集合中获取目标门牌信息;和/或,从待处理的地址信息中获取目标门牌信息。
通过本发明实施例的上述技术方案,门牌信息集合和/或待处理的地址信息中获取目标门牌信息,可以实现对门牌信息集合和/或待处理的地址信息中异常的门牌信息进行处理,提高目标门牌信息集合获取的灵活性。
作为一种可选的方案,该门牌信息的处理装置还包括:
(1)显示单元,用于在使用门牌统计信息对目标门牌信息中异常的门牌号前缀和/或门牌号后缀进行修正之后,在接收到输入的地址信息包括目标门牌信息中异常的门牌号前缀和/或门牌号后缀时,显示提示信息,其中,提示信息用于提示门牌统计信息中用于对异常的门牌号前缀和/或门牌号后缀进行修正的门牌号前缀和/或门牌号后缀。
通过本发明实施例的上述技术方案,在接收到输入的地址信息包括目标门牌信息中异常的门牌号前缀和/或门牌号后缀时,显示提示信息,可以避免输入的地址信息可能存在的错误,减少了地址信息错误的可能性,提高用户体验。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
实施例3
根据本发明实施例,还提供了一种用于实施上述门牌信息的处理方法的服务器或终端。
图5是根据本发明实施例的一种终端的结构框图,如图5所示,该终端可以包括:一个或多个(图中仅示出一个)处理器502、存储器504、以及传输装置506(如上述实施例中的发送装置),如图5所示,该终端还可以包括输入输出设备508。
其中,存储器504可用于存储软件程序以及模块,如本发明实施例中的门牌信息的处理方法和装置对应的程序指令/模块,处理器502通过运行存储在存储器204内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的门牌信息的处理方法。存储器504可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器504可进一步包括相对于处理器502远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置506用于经由一个网络接收或者发送数据,还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置506包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置506为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
其中,具体地,存储器504用于存储应用程序。
处理器502可以通过传输装置506调用存储器504存储的应用程序,以执行下述步骤:
对预定的门牌信息集合中的门牌信息进行分词处理,得到分词结果;
根据分词结果从门牌信息集合中提取出具有相同格式的门牌信息,其中,具有相同格式的门牌信息包括:道路名、门牌号前缀和门牌号后缀;
计算具有相同格式的门牌信息中每个道路名下的每个门牌号前缀模板所对应的门牌号后缀出现的次数,其中,门牌号前缀模板是根据门牌号前缀的字符串类型得到的模板;
使用门牌统计信息对目标门牌信息中异常的门牌号前缀和/或门牌号后缀进行修正,其中,门牌统计信息包括:具有对应关系的次数、与计算次数时使用的门牌号后缀、门牌号前缀模板和道路名。
采用本发明实施例,提供了一种门牌信息处理的方案。根据预定的门牌信息集合的统计结果对目标门牌信息中异常的门牌号前缀和/或门牌号后缀进行修正的方式,达到了自动对门牌号指示的地址进行修正的目的,从而实现了提高门牌信息处理效率的技术效果,进而解决了由于门牌号命名方式多样导致的门牌号指示的地址不准确的问题的技术问题。
可选地,本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图5所示的结构仅为示意,终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile InternetDevices,MID)、PAD等终端设备。图5其并不对上述电子装置的结构造成限定。例如,终端还可包括比图5中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图5所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例4
本发明的实施例中还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行门牌信息的处理方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
S1,对预定的门牌信息集合中的门牌信息进行分词处理,得到分词结果;
S2,根据分词结果从门牌信息集合中提取出具有相同格式的门牌信息,其中,具有相同格式的门牌信息包括:道路名、门牌号前缀和门牌号后缀;
S3,计算具有相同格式的门牌信息中每个道路名下的每个门牌号前缀模板所对应的门牌号后缀出现的次数,其中,门牌号前缀模板是根据门牌号前缀的字符串类型得到的模板;
S4,使用门牌统计信息对目标门牌信息中异常的门牌号前缀和/或门牌号后缀进行修正,其中,门牌统计信息包括:具有对应关系的次数、与计算次数时使用的门牌号后缀、门牌号前缀模板和道路名。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:
通过以下步骤来从目标门牌信息中查找出异常的门牌号前缀:
S1,从门牌统计信息中获取与目标门牌信息中的道路名相同的目标道路名;
S2,判断门牌号前缀模板集合中是否存在与第一门牌号前缀模板具有包含关系的第二门牌号前缀模板,其中,第一门牌号前缀模板是根据目标门牌信息中的门牌号前缀的字符串类型得到的模板,门牌号前缀模板集合中的门牌号前缀模板是根据门牌统计信息中目标道路名下的门牌号前缀的字符串类型得到的模板;
S3,在判断出门牌号前缀模板集合中存在与第一门牌号前缀模板具有包含关系的第二门牌号前缀模板时,确定目标门牌信息中的门牌号前缀为异常的门牌号前缀。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:
使用门牌统计信息对目标门牌信息中异常的门牌号前缀进行修正包括:
S1,按照第二门牌号前缀模板对异常的门牌号前缀中的字符串进行修正,得到修正后的门牌号前缀,其中,根据修正后的门牌号前缀的字符串类型得到的门牌号前缀模板为第二门牌号前缀模板。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:
通过以下步骤来从目标门牌信息中查找出异常的门牌号后缀:
S1,在目标门牌信息中的门牌号后缀为空时,确定目标门牌信息中的门牌号后缀为异常的门牌号后缀;
S2,在目标门牌信息中的门牌号后缀不为空、且门牌号前缀模板集合中存在与第一门牌号前缀模板具有包含关系的第二门牌号前缀模板或存在第一门牌号前缀模板相同的第三门牌号前缀模板时,判断目标道路名下的第二门牌号前缀模板或第三门牌号前缀模板所对应的门牌号后缀中是否存在与目标门牌信息中的门牌号后缀相同的门牌号后缀;在判断出不存在与目标门牌信息中的门牌号后缀相同的门牌号后缀时,确定目标门牌信息中的门牌号后缀为异常的门牌号后缀。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:
使用门牌统计信息对目标门牌信息中异常的门牌号后缀进行修正包括:
S1,将目标门牌信息中异常的门牌号后缀修改为门牌统计信息中的目标门牌号后缀,其中,门牌统计信息中目标门牌号后缀所属的目标道路名与目标门牌信息中异常的门牌号后缀所属的道路名相同。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:
将目标门牌信息中异常的门牌号后缀修改为门牌统计信息中的目标门牌号后缀包括以下至少之一:
S1,在门牌号前缀模板集合中存在与第一门牌号前缀模板具有包含关系的第二门牌号前缀模板或存在第一门牌号前缀模板相同的第三门牌号前缀模板时,将目标门牌信息中异常的门牌号后缀修改为门牌统计信息中的目标门牌号后缀,其中,目标门牌号后缀为目标道路名下的第二门牌号前缀模板或第三门牌号前缀模板所对应的出现次数最多的门牌号后缀;
S2,在门牌号前缀模板集合中不存在与第一门牌号前缀模板具有包含关系的第二门牌号前缀模板、且不存在第一门牌号前缀模板相同的第三门牌号前缀模板、且目标门牌信息中异常的门牌号后缀为空时,将目标门牌信息中异常的门牌号后缀修改为门牌统计信息中的目标门牌号后缀,其中,目标门牌号后缀为门牌统计信息中目标道路名下的出现次数最多的门牌号后缀,门牌统计信息还包括:每个道路名下的每个门牌号后缀出现的次数。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:
根据分词结果从门牌信息集合中提取出具有相同格式的门牌信息包括:
S1,在门牌信息集合中的门牌信息包括中文数字的情况下,将中文数字都转化为阿拉伯数字,其中,分词结果包括中文数字;
S2,在门牌信息集合中的门牌信息包括英文字母的情况下,将英文字母的格式都转化为大写格式或小写格式,其中,分词结果包括英文字母;
S3,将转化后的门牌信息中的核心字符串设置为门牌号前缀,且在转化后的门牌信息中存在除道路名和核心字符串之外的剩余字符串时,将剩余字符串设置为门牌号后缀,在转化后的门牌信息仅包括道路名和核心字符串时,将门牌号后缀设置为空,其中,根据核心字符串的字符串类型所得到的模板属于预设门牌号前缀模板集合中的一个门牌号前缀模板。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:
在使用门牌统计信息对目标门牌信息中异常的门牌号前缀和/或门牌号后缀进行修正之前,还包括以下至少之一:
S1,从门牌信息集合中获取目标门牌信息;
S2,从待处理的地址信息中获取目标门牌信息。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:
在使用门牌统计信息对目标门牌信息中异常的门牌号前缀和/或门牌号后缀进行修正之后,还包括:
S1,在接收到输入的地址信息包括目标门牌信息中异常的门牌号前缀和/或门牌号后缀时,显示提示信息,其中,提示信息用于提示门牌统计信息中用于对异常的门牌号前缀和/或门牌号后缀进行修正的门牌号前缀和/或门牌号后缀。
可选地,本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例,本实施例在此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (18)
1.一种门牌信息的处理方法,其特征在于,包括:
对预定的门牌信息集合中的门牌信息进行分词处理,得到分词结果;
根据所述分词结果从所述门牌信息集合中提取出具有相同格式的门牌信息,其中,所述具有相同格式的门牌信息包括:道路名、门牌号前缀和门牌号后缀;
计算所述具有相同格式的门牌信息中每个所述道路名下的每个门牌号前缀模板所对应的所述门牌号后缀出现的次数,其中,所述门牌号前缀模板是根据所述门牌号前缀的字符串类型得到的模板;
使用门牌统计信息对目标门牌信息中异常的门牌号前缀和/或门牌号后缀进行修正,其中,所述门牌统计信息包括:具有对应关系的所述次数、与计算所述次数时使用的所述门牌号后缀、所述门牌号前缀模板和所述道路名。
2.根据权利要求1所述的方法,其特征在于,通过以下步骤来从所述目标门牌信息中查找出所述异常的门牌号前缀:
从所述门牌统计信息中获取与所述目标门牌信息中的道路名相同的目标道路名;
判断门牌号前缀模板集合中是否存在与第一门牌号前缀模板具有包含关系的第二门牌号前缀模板,其中,所述第一门牌号前缀模板是根据所述目标门牌信息中的门牌号前缀的字符串类型得到的模板,所述门牌号前缀模板集合中的门牌号前缀模板是根据所述门牌统计信息中所述目标道路名下的门牌号前缀的字符串类型得到的模板;
在判断出所述门牌号前缀模板集合中存在与所述第一门牌号前缀模板具有包含关系的所述第二门牌号前缀模板时,确定所述目标门牌信息中的门牌号前缀为所述异常的门牌号前缀。
3.根据权利要求2所述的方法,其特征在于,使用所述门牌统计信息对目标门牌信息中所述异常的门牌号前缀进行修正包括:
按照所述第二门牌号前缀模板对所述异常的门牌号前缀中的字符串进行修正,得到修正后的门牌号前缀,其中,根据所述修正后的门牌号前缀的字符串类型得到的门牌号前缀模板为所述第二门牌号前缀模板。
4.根据权利要求2所述的方法,其特征在于,通过以下步骤来从所述目标门牌信息中查找出所述异常的门牌号后缀:
在所述目标门牌信息中的门牌号后缀为空时,确定所述目标门牌信息中的门牌号后缀为所述异常的门牌号后缀;
在所述目标门牌信息中的门牌号后缀不为空、且所述门牌号前缀模板集合中存在与所述第一门牌号前缀模板具有包含关系的所述第二门牌号前缀模板或存在所述第一门牌号前缀模板相同的第三门牌号前缀模板时,判断所述目标道路名下的所述第二门牌号前缀模板或所述第三门牌号前缀模板所对应的门牌号后缀中是否存在与所述目标门牌信息中的门牌号后缀相同的门牌号后缀;在判断出不存在与所述目标门牌信息中的门牌号后缀相同的门牌号后缀时,确定所述目标门牌信息中的门牌号后缀为所述异常的门牌号后缀。
5.根据权利要求1或2所述的方法,其特征在于,使用所述门牌统计信息对目标门牌信息中所述异常的门牌号后缀进行修正包括:
将所述目标门牌信息中所述异常的门牌号后缀修改为所述门牌统计信息中的目标门牌号后缀,其中,所述门牌统计信息中所述目标门牌号后缀所属的目标道路名与所述目标门牌信息中所述异常的门牌号后缀所属的道路名相同。
6.根据权利要求5所述的方法,其特征在于,将所述目标门牌信息中所述异常的门牌号后缀修改为所述门牌统计信息中的目标门牌号后缀包括以下至少之一:
在所述门牌号前缀模板集合中存在与所述第一门牌号前缀模板具有包含关系的所述第二门牌号前缀模板或存在所述第一门牌号前缀模板相同的第三门牌号前缀模板时,将所述目标门牌信息中所述异常的门牌号后缀修改为所述门牌统计信息中的目标门牌号后缀,其中,所述目标门牌号后缀为所述目标道路名下的所述第二门牌号前缀模板或所述第三门牌号前缀模板所对应的出现次数最多的门牌号后缀;
在所述门牌号前缀模板集合中不存在与所述第一门牌号前缀模板具有包含关系的所述第二门牌号前缀模板、且不存在所述第一门牌号前缀模板相同的第三门牌号前缀模板、且所述目标门牌信息中异常的门牌号后缀为空时,将所述目标门牌信息中所述异常的门牌号后缀修改为所述门牌统计信息中的目标门牌号后缀,其中,所述目标门牌号后缀为所述门牌统计信息中所述目标道路名下的出现次数最多的门牌号后缀,所述门牌统计信息还包括:每个所述道路名下的每个所述门牌号后缀出现的次数。
7.根据权利要求1至4中任一项所述的方法,其特征在于,根据所述分词结果从所述门牌信息集合中提取出具有相同格式的门牌信息包括:
在所述门牌信息集合中的门牌信息包括中文数字的情况下,将所述中文数字都转化为阿拉伯数字,其中,所述分词结果包括所述中文数字;
在所述门牌信息集合中的门牌信息包括英文字母的情况下,将所述英文字母的格式都转化为大写格式或小写格式,其中,所述分词结果包括所述英文字母;
将转化后的所述门牌信息中的核心字符串设置为所述门牌号前缀,且在所述转化后的所述门牌信息中存在除所述道路名和所述核心字符串之外的剩余字符串时,将所述剩余字符串设置为所述门牌号后缀,在所述转化后的所述门牌信息仅包括所述道路名和所述核心字符串时,将所述门牌号后缀设置为空,其中,根据所述核心字符串的字符串类型所得到的模板属于预设门牌号前缀模板集合中的一个门牌号前缀模板。
8.根据权利要求1至4中任一项所述的方法,其特征在于,在使用门牌统计信息对目标门牌信息中所述异常的门牌号前缀和/或门牌号后缀进行修正之前,还包括以下至少之一:
从所述门牌信息集合中获取所述目标门牌信息;
从待处理的地址信息中获取所述目标门牌信息。
9.根据权利要求1至4中任一项所述的方法,其特征在于,在使用门牌统计信息对目标门牌信息中所述异常的门牌号前缀和/或门牌号后缀进行修正之后,还包括:
在接收到输入的地址信息包括所述目标门牌信息中所述异常的门牌号前缀和/或门牌号后缀时,显示提示信息,其中,所述提示信息用于提示所述门牌统计信息中用于对所述异常的门牌号前缀和/或门牌号后缀进行修正的门牌号前缀和/或门牌号后缀。
10.一种门牌信息的处理装置,其特征在于,包括:
分词单元,用于对预定的门牌信息集合中的门牌信息进行分词处理,得到分词结果;
提取单元,用于根据所述分词结果从所述门牌信息集合中提取出具有相同格式的门牌信息,其中,所述具有相同格式的门牌信息包括:
道路名、门牌号前缀和门牌号后缀;
计算单元,用于计算所述具有相同格式的门牌信息中每个所述道路名下的每个门牌号前缀模板所对应的所述门牌号后缀出现的次数,其中,所述门牌号前缀模板是根据所述门牌号前缀的字符串类型得到的模板;
修正单元,用于使用门牌统计信息对目标门牌信息中异常的门牌号前缀和/或门牌号后缀进行修正,其中,所述门牌统计信息包括:具有对应关系的所述次数、与计算所述次数时使用的所述门牌号后缀、所述门牌号前缀模板和所述道路名。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
第一查找单元,用于通过以下步骤来从所述目标门牌信息中查找出所述异常的门牌号前缀:从所述门牌统计信息中获取与所述目标门牌信息中的道路名相的目标道路名;相同的目标道路名;判断门牌号前缀模板集合中是否存在与第一门牌号前缀模板具有包含关系的第二门牌号前缀模板,其中,所述第一门牌号前缀模板是根据所述目标门牌信息中的门牌号前缀的字符串类型得到的模板,所述门牌号前缀模板集合中的门牌号前缀模板是根据所述门牌统计信息中所述目标道路名下的门牌号前缀的字符串类型得到的模板;在判断出所述门牌号前缀模板集合中存在与所述第一门牌号前缀模板具有包含关系的所述第二门牌号前缀模板时,确定所述目标门牌信息中的门牌号前缀为所述异常的门牌号前缀。
12.根据权利要求11所述的装置,其特征在于,所述修正单元,还用于按照所述第二门牌号前缀模板对所述异常的门牌号前缀中的字符串进行修正,得到修正后的门牌号前缀,其中,根据所述修正后的门牌号前缀的字符串类型得到的门牌号前缀模板为所述第二门牌号前缀模板。
13.根据权利要求11所述的装置,其特征在于,所述装置还包括:
第二查找单元,用于通过以下步骤来从所述目标门牌信息中查找出所述异常的门牌号后缀:在所述目标门牌信息中的门牌号后缀为空时,确定所述目标门牌信息中的门牌号后缀为所述异常的门牌号后缀;
在所述目标门牌信息中的门牌号后缀不为空、且所述门牌号前缀模板集合中存在与所述第一门牌号前缀模板具有包含关系的所述第二门牌号前缀模板或存在所述第一门牌号前缀模板相同的第三门牌号前缀模板时,判断所述目标道路名下的所述第二门牌号前缀模板或所述第三门牌号前缀模板所对应的门牌号后缀中是否存在与所述目标门牌信息中的门牌号后缀相同的门牌号后缀;在判断出不存在与所述目标门牌信息中的门牌号后缀相同的门牌号后缀时,确定所述目标门牌信息中的门牌号后缀为所述异常的门牌号后缀。
14.根据权利要求10或11所述的装置,其特征在于,所述修正单元包括:
修改模块,用于将所述目标门牌信息中所述异常的门牌号后缀修改为所述门牌统计信息中的目标门牌号后缀,其中,所述门牌统计信息中所述目标门牌号后缀所属的目标道路名与所述目标门牌信息中所述异常的门牌号后缀所属的道路名相同。
15.根据权利要求14所述的装置,其特征在于,所述修改模块,还用于通过以下至少之一将所述目标门牌信息中所述异常的门牌号后缀修改为所述门牌统计信息中的目标门牌号后缀:
在所述门牌号前缀模板集合中存在与所述第一门牌号前缀模板具有包含关系的所述第二门牌号前缀模板或存在所述第一门牌号前缀模板相同的第三门牌号前缀模板时,将所述目标门牌信息中所述异常的门牌号后缀修改为所述门牌统计信息中的目标门牌号后缀,其中,所述目标门牌号后缀为所述目标道路名下的所述第二门牌号前缀模板或所述第三门牌号前缀模板所对应的出现次数最多的门牌号后缀;
在所述门牌号前缀模板集合中不存在与所述第一门牌号前缀模板具有包含关系的所述第二门牌号前缀模板、且不存在所述第一门牌号前缀模板相同的第三门牌号前缀模板、且所述目标门牌信息中异常的门牌号后缀为空时,将所述目标门牌信息中所述异常的门牌号后缀修改为所述门牌统计信息中的目标门牌号后缀,其中,所述目标门牌号后缀为所述门牌统计信息中所述目标道路名下的出现次数最多的门牌号后缀,所述门牌统计信息还包括:每个所述道路名下的每个所述门牌号后缀出现的次数。
16.根据权利要求10至13中任一项所述的装置,其特征在于,所述提取单元包括:
转化模块,用于在所述门牌信息集合中的门牌信息包括中文数字的情况下,将所述中文数字都转化为阿拉伯数字,其中,所述分词结果包括所述中文数字;在所述门牌信息集合中的门牌信息包括英文字母的情况下,将所述英文字母的格式都转化为大写格式或小写格式,其中,所述分词结果包括所述英文字母;
设置模块,用于将转化后的所述门牌信息中的核心字符串设置为所述门牌号前缀,且在所述转化后的所述门牌信息中存在除所述道路名和所述核心字符串之外的剩余字符串时,将所述剩余字符串设置为所述门牌号后缀,在所述转化后的所述门牌信息仅包括所述道路名和所述核心字符串时,将所述门牌号后缀设置为空,其中,其中,根据所述核心字符串的字符串类型所得到的模板属于预设门牌号前缀模板集合中的一个门牌号前缀模板。
17.根据权利要求10至13中任一项所述的装置,其特征在于,所述装置还包括:
获取单元,用于在使用所述门牌统计信息对目标门牌信息中所述异常的门牌号前缀和/或门牌号后缀进行修正之前,从所述门牌信息集合中获取所述目标门牌信息;和/或,从待处理的地址信息中获取所述目标门牌信息。
18.根据权利要求10至13中任一项所述的装置,其特征在于,所述装置还包括:
显示单元,用于在使用所述门牌统计信息对目标门牌信息中所述异常的门牌号前缀和/或门牌号后缀进行修正之后,在接收到输入的地址信息包括所述目标门牌信息中所述异常的门牌号前缀和/或门牌号后缀时,显示提示信息,其中,所述提示信息用于提示所述门牌统计信息中用于对所述异常的门牌号前缀和/或门牌号后缀进行修正的门牌号前缀和/或门牌号后缀。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710151165.2A CN108572948B (zh) | 2017-03-14 | 2017-03-14 | 门牌信息的处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710151165.2A CN108572948B (zh) | 2017-03-14 | 2017-03-14 | 门牌信息的处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108572948A true CN108572948A (zh) | 2018-09-25 |
CN108572948B CN108572948B (zh) | 2021-05-11 |
Family
ID=63578526
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710151165.2A Active CN108572948B (zh) | 2017-03-14 | 2017-03-14 | 门牌信息的处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108572948B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710628A (zh) * | 2018-12-29 | 2019-05-03 | 深圳道合信息科技有限公司 | 信息处理方法及装置、系统、计算机及可读存储介质 |
CN113405550A (zh) * | 2020-03-17 | 2021-09-17 | 百度在线网络技术(北京)有限公司 | 空间定位方法、装置、设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070033089A1 (en) * | 2005-08-04 | 2007-02-08 | Microsoft Corporation | User interface and geo-parsing data structure |
CN104572992A (zh) * | 2015-01-06 | 2015-04-29 | 武汉工程大学 | 基于多约束推理的互联网地理位置信息规范化方法 |
CN105224610A (zh) * | 2015-09-08 | 2016-01-06 | 方正国际软件有限公司 | 一种地址比较的方法及设备 |
CN105447002A (zh) * | 2014-08-07 | 2016-03-30 | 北京四维图新科技股份有限公司 | 一种点门牌数据补充处理方法及装置 |
CN105740257A (zh) * | 2014-12-09 | 2016-07-06 | 朗新科技股份有限公司 | 标准地名地址库建立方法及系统 |
-
2017
- 2017-03-14 CN CN201710151165.2A patent/CN108572948B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070033089A1 (en) * | 2005-08-04 | 2007-02-08 | Microsoft Corporation | User interface and geo-parsing data structure |
CN105447002A (zh) * | 2014-08-07 | 2016-03-30 | 北京四维图新科技股份有限公司 | 一种点门牌数据补充处理方法及装置 |
CN105740257A (zh) * | 2014-12-09 | 2016-07-06 | 朗新科技股份有限公司 | 标准地名地址库建立方法及系统 |
CN104572992A (zh) * | 2015-01-06 | 2015-04-29 | 武汉工程大学 | 基于多约束推理的互联网地理位置信息规范化方法 |
CN105224610A (zh) * | 2015-09-08 | 2016-01-06 | 方正国际软件有限公司 | 一种地址比较的方法及设备 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710628A (zh) * | 2018-12-29 | 2019-05-03 | 深圳道合信息科技有限公司 | 信息处理方法及装置、系统、计算机及可读存储介质 |
CN109710628B (zh) * | 2018-12-29 | 2023-12-26 | 深圳巨湾科技有限公司 | 信息处理方法及装置、系统、计算机及可读存储介质 |
CN113405550A (zh) * | 2020-03-17 | 2021-09-17 | 百度在线网络技术(北京)有限公司 | 空间定位方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108572948B (zh) | 2021-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110502608B (zh) | 基于知识图谱的人机对话方法及人机对话装置 | |
CN110245716A (zh) | 样本标注审核方法及装置 | |
CN108416003A (zh) | 一种图片分类方法和装置、终端、存储介质 | |
CN103368992A (zh) | 一种信息推送方法及装置 | |
CN110263009A (zh) | 日志分类规则的生成方法、装置、设备及可读存储介质 | |
CN104133765B (zh) | 网络活动的测试用例发送方法及测试用例服务器 | |
CN107590291A (zh) | 一种图片的搜索方法、终端设备及存储介质 | |
CN106815226A (zh) | 文本匹配方法和装置 | |
CN107818491A (zh) | 电子装置、基于用户上网数据的产品推荐方法及存储介质 | |
CN107958078A (zh) | 信息生成方法和装置 | |
CN107978189A (zh) | 一种习题的智能推送方法、系统及终端设备 | |
CN107291675B (zh) | 一种行业信息分类编码管理系统和方法 | |
CN108319888A (zh) | 视频类型的识别方法及装置、计算机终端 | |
CN107679213A (zh) | 一种习题搜索方法、系统及终端设备 | |
CN115391439B (zh) | 文档数据导出方法、装置、电子设备和存储介质 | |
CN110221960A (zh) | 生成测试用例的方法及装置、计算机设备、存储介质 | |
CN112906361A (zh) | 文本数据的标注方法和装置、电子设备和存储介质 | |
CN109284367A (zh) | 用于处理文本的方法和装置 | |
CN110457704B (zh) | 目标字段的确定方法、装置、存储介质及电子装置 | |
CN106649210A (zh) | 一种数据转换方法及装置 | |
CN114638501A (zh) | 一种业务数据处理方法、装置、计算机设备及存储介质 | |
CN113626624B (zh) | 一种资源识别方法和相关装置 | |
CN111625567A (zh) | 数据模型匹配方法、装置、计算机系统及可读存储介质 | |
CN108572948A (zh) | 门牌信息的处理方法及装置 | |
CN113032524A (zh) | 商标侵权识别方法、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |