CN112417179A - 地址处理方法及装置 - Google Patents

地址处理方法及装置 Download PDF

Info

Publication number
CN112417179A
CN112417179A CN202011323032.7A CN202011323032A CN112417179A CN 112417179 A CN112417179 A CN 112417179A CN 202011323032 A CN202011323032 A CN 202011323032A CN 112417179 A CN112417179 A CN 112417179A
Authority
CN
China
Prior art keywords
field
address
standard
matched
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011323032.7A
Other languages
English (en)
Inventor
宋焱
张芹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Chengying Data Technology Co ltd
Original Assignee
Hangzhou Chengying Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Chengying Data Technology Co ltd filed Critical Hangzhou Chengying Data Technology Co ltd
Priority to CN202011323032.7A priority Critical patent/CN112417179A/zh
Publication of CN112417179A publication Critical patent/CN112417179A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/387Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书提供地址处理方法及装置,其中,地址处理方法包括:获取待处理地址,其中,所述待处理地址包括基础字段以及至少一个参考字段,所述基础字段为所述待处理地址指向的最小地域范围信息的字段,所述参考字段为所述待处理地址中除所述基础字段外的指向其他层级地域范围信息的字段;将所述基础字段以及至少一个参考字段与预先建立的地址树中至少两个层级的标准字段进行匹配,确定所述待处理地址对应的目标标准地址。上述方法不需要对待处理地址进行分词,只需将待处理地址中的字段与预先建立的地址树中的标准字段进行匹配,便可以得到待处理地址对应的目标标准地址,降低了地址处理的复杂程度,进而提高了地址处理的效率。

Description

地址处理方法及装置
技术领域
本说明书涉及数据处理技术领域,特别涉及地址处理方法及装置。
背景技术
地址编码是一种可以将复杂多变的地址映射成计算机能识别的标准化编码的技术,在物流配送、定位导航等领域有广泛的应用。但现有的地址大多数是不规则的地址或者有层级缺失的地址,很难按照统一的规则进行地址编码,或者即使可以进行地址编码,生成的标准化编码可能是不准确的。因此,亟需一种可以对地址进行处理,以使得处理后的地址便于进行地址编码的方法。
现有技术中,可以预先建立分词词典、地址分级词典和常见地址缩略词替代词典三个预设词典,基于该预设词典对待处理地址进行处理,得到分词结果,将该分词结果与标准地址库进行匹配,将与该分词结果相似度最高的标准地址确定为对待处理地址处理后的处理地址。
但上述方法需要先对待处理地址进行分词,再进行相似度匹配,操作比较复杂,使得地址处理的效率较低。
发明内容
有鉴于此,本说明书实施例提供了一种地址处理方法。本说明书同时涉及一种地址处理装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种地址处理方法,包括:
获取待处理地址,其中,所述待处理地址包括基础字段以及至少一个参考字段,所述基础字段为所述待处理地址指向的最小地域范围信息的字段,所述参考字段为所述待处理地址中除所述基础字段外的指向其他层级地域范围信息的字段;
将所述基础字段以及至少一个参考字段与预先建立的地址树中至少两个层级的标准字段进行匹配,确定所述待处理地址对应的目标标准地址。
可选地,所述将所述基础字段以及至少一个参考字段与预先建立的地址树中至少两个层级的标准字段进行匹配,确定所述待处理地址对应的目标标准地址,包括:
将所述基础字段以及至少一个参考字段与预先建立的地址树中至少两个层级的标准字段进行匹配,确定所述基础字段对应的第一目标标准字段,以及所述至少一个参考字段对应的第二目标标准字段;
根据第一目标标准字段和至少一个所述第二目标标准字段,确定所述目标标准地址。
可选地,所述地址树中包括M个层级,且所述M为大于1的正整数,所述标准字段的长度为N,且所述N为大于0的正整数,所述将所述基础字段以及至少一个参考字段与预先建立的地址树中至少两个层级的标准字段进行匹配,包括:
将所述待处理地址中第一个字符的位置确定为待匹配字段的开始位置和结束位置;
将位于所述开始位置和所述结束位置之内的字符确定为所述待匹配字段;
将所述待匹配字段与所述地址树中第i层级的标准字段进行匹配,其中,所述i为大于0且小于或等于M的正整数;
若匹配成功,且所述待匹配字段中不包括所述基础字段的字符,将所述第i层级中与所述待匹配字段匹配的标准字段确定为所述待处理地址中所述目标参考字段对应的第二目标标准字段,其中,所述目标参考字段为所述至少一个参考字段中的任一参考字段;
获取所述待处理地址中以所述待匹配字段中第一个字符为起点,长度为N的目标字段;
若所述目标字段与所述第i层级中与所述待匹配字段匹配的标准字段相同,将所述目标字段在所述待处理地址中最后一个字符的下一个字符的位置重新确定为待匹配字段的开始位置和结束位置;
将位于所述开始位置和所述结束位置之内的字符重新确定为待匹配字段,令i=i+1,返回执行将所述待匹配字段与所述地址树中第i层级的标准字段进行匹配的步骤,直至确定所述基础字段对应的第一目标标准字段。
可选地,所述方法还包括:
若所述目标字段与所述第i层级中与所述待匹配字段匹配的标准字段不相同,将所述待匹配字段在所述待处理地址中最后一个字符的下一个字符的位置重新确定为待匹配字段的开始位置和结束位置;
将位于所述开始位置和所述结束位置之内的字符重新确定为待匹配字段,令i=i+1,返回执行将所述待匹配字段与所述地址树中第i层级的标准字段进行匹配的步骤,直至确定所述基础字段对应的第一目标标准字段。
可选地,所述方法还包括:
若匹配成功,且所述待匹配字段中不包括所述至少一个参考字段的字符,将所述第i层级中与所述待匹配字段匹配的标准字段确定为所述基础字段对应的第一目标标准字段。
可选地,所述方法还包括:
若匹配失败,且所述待匹配字段中不包括所述待处理地址的最后一个字符,将所述待匹配字段在所述待处理地址中最后一个字符的下一个字符的位置重新确定为待匹配字段的结束位置;
将位于所述开始位置和所述结束位置之内的字符重新确定为待匹配字段,返回执行将所述待匹配字段与所述地址树中第i层级的标准字段进行匹配的步骤,直至确定所述基础字段对应的第一目标标准字段。
可选地,所述方法还包括:
若匹配失败,且所述待匹配字段中包括所述待处理地址的最后一个字符,生成层级缺失标记,其中,所述层级缺失标记中包括所述第i层级的层级标识;
将所述待匹配字段中第一个字符的位置重新确定为开始位置和结束位置;
将位于所述开始位置和所述结束位置之内的字符重新确定为待匹配字段,令i=i+1,返回执行将所述待匹配字段与所述地址树中第i层级的标准字段进行匹配的步骤,直至确定所述基础字段对应的第一目标标准字段。
可选地,根据第一目标标准字段和至少一个所述第二目标标准字段,确定所述目标标准地址,包括:
获取生成的至少一个层级缺失标记;
确定所述至少一个层级缺失标记中包括的层级标识对应的缺失层级,得到至少一个缺失层级;
从所述地址树中确定所述至少一个缺失层级对应的缺失标准字段;
按照所述第一目标标准字段、至少一个所述第二目标标准字段和至少一个所述缺失标准字段分别对应的层级之间的层级结构,对所述第一目标标准字段、至少一个所述第二目标标准字段和至少一个所述缺失标准字段进行排序组合,得到所述目标标准地址。
可选地,所述从所述地址树中确定所述至少一个缺失层级对应的缺失标准字段,包括:
若所述缺失层级的数量为多个,将所述多个缺失层级中层级最低的缺失层级作为目标缺失层级;
从所述地址树中查询所述目标缺失层级的下一个层级;
基于所述目标缺失层级的下一个层级对应的目标标准字段,从所述地址树中确定所述目标缺失层级的缺失标准字段;
将所述目标缺失层级从所述多个缺失层级中删除,得到缺失层级组;
将所述缺失层级组中层级最低的缺失层级重新作为目标缺失层级,返回执行从所述地址树中查询所述目标缺失层级的下一个层级的步骤,直至所述缺失层级组中不存在缺失层级。
可选地,所述根据第一目标标准字段和至少一个所述第二目标标准字段,确定所述目标标准地址,包括:
按照所述第一目标标准字段和至少一个所述第二目标标准字段分别对应的层级之间的层级结构,对所述第一目标标准字段和至少一个所述第二目标标准字段进行排序组合,得到所述目标标准地址。
可选地,所述方法还包括:
获取多个标准地址,其中,每个标准地址包括至少两个层级的标准字段;
按照每个标准地址中的层级,基于所述多个标准地址的标准字段建立所述地址树。
根据本说明书实施例的第二方面,提供了一种地址处理装置,包括:
获取模块,用于获取待处理地址,其中,所述待处理地址包括基础字段以及至少一个参考字段,所述基础字段为所述待处理地址指向的最小地域范围信息的字段,所述参考字段为所述待处理地址中除所述基础字段外的指向其他层级地域范围信息的字段;
确定模块,用于将所述基础字段以及至少一个参考字段与预先建立的地址树中至少两个层级的标准字段进行匹配,确定所述待处理地址对应的目标标准地址。
根据本说明书实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
获取待处理地址,其中,所述待处理地址包括基础字段以及至少一个参考字段,所述基础字段为所述待处理地址指向的最小地域范围信息的字段,所述参考字段为所述待处理地址中除所述基础字段外的指向其他层级地域范围信息的字段;
将所述基础字段以及至少一个参考字段与预先建立的地址树中至少两个层级的标准字段进行匹配,确定所述待处理地址对应的目标标准地址。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述地址处理方法的步骤。
本说明书提供的地址处理方法,获取待处理地址,其中,所述待处理地址包括基础字段以及至少一个参考字段,所述基础字段为所述待处理地址指向的最小地域范围信息的字段,所述参考字段为所述待处理地址中除所述基础字段外的指向其他层级地域范围信息的字段;将所述基础字段以及至少一个参考字段与预先建立的地址树中至少两个层级的标准字段进行匹配,确定所述待处理地址对应的目标标准地址。上述方法不需要对待处理地址进行分词,只需将待处理地址中的参考字段和基础字段与预先建立的地址树中的标准字段进行匹配,便可以得到待处理地址对应的目标标准地址,降低了地址处理的复杂程度,进而提高了地址处理的效率。
附图说明
图1是本说明书一实施例提供的一种地址处理方法的流程图;
图2是本说明书一实施例提供的一种建立地址树的流程图;
图3是本说明书一实施例提供的另一种地址处理方法的流程图;
图4是本说明书一实施例提供的一种地址树的示意图;
图5是本说明书一实施例提供的一种应用于物流配送领域的地址处理方法的处理流程图;
图6是本说明书一实施例提供的一种地址处理装置的结构示意图;
图7是本说明书一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
Trie树:Trie树也叫字典树,又称单词查找树或键树。它是一个树形结构,专门用来处理字符串匹配的数据结构,用来解决在一组字符串集合中快速查找某个字符串的问题。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高,利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的。
最大匹配算法:最大匹配算法主要包括正向最大匹配算法、逆向最大匹配算法、双向匹配算法等。其主要原理都是切分出单字串,然后和词库进行比对,如果是一个词就记录下来,否则通过增加或者减少一个单字,继续比较,一直还剩下一个单字则终止,如果该单字串无法切分,则作为未登录处理。
在本说明书中,提供了一种地址处理方法,本说明书同时涉及一种地址处理装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本说明书一实施例提供的一种地址处理方法的流程图,具体包括以下步骤:
步骤102,获取待处理地址,其中,所述待处理地址包括基础字段以及至少一个参考字段,所述基础字段为所述待处理地址指向的最小地域范围信息的字段,所述参考字段为所述待处理地址中除所述基础字段外的指向其他层级地域范围信息的字段。
作为一种示例,假设待处理地址包括省、市、街道和小区共四个层级,且小区是这四个层级中最小地域范围,因此小区这一层级对应的字段为基础字段,省、市和街道对应的字段则为参考字段。
在本申请实施例中,获取的待处理地址中需要包括基础字段,由于基础字段可以锁定最小的地域范围,且基础字段上一层级通常是固定的,因此,基于基础字段向更高的层级反推,可以确定待处理地址中所有层级的字段。对于存在层级缺失的待处理地址,可以将待处理地址补全,便于后续使用。
步骤104,将所述基础字段以及至少一个参考字段与预先建立的地址树中至少两个层级的标准字段进行匹配,确定所述待处理地址对应的目标标准地址。
在实施中,将待处理地址中的字段与地址树中的标准字段进行匹配,可以实现待处理地址中字段的标准化,得到规则的目标标准地址,便于进行地址编码,进而便于后续使用。
作为一种示例,本步骤中字段之间的匹配可以使用最大匹配算法。具体的,可以使用最大匹配算法中的正向最大匹配算法、逆向最大匹配算法或双向匹配算法等,本申请实施例对此不作限定。
作为一种示例,地址树可以为Trie树、后缀树、Trie图、后缀数组等各种数据结构,本申请实施例对此不作限定。
作为一种示例,地址树可以是在步骤102之前预先建立的,也可以是在本步骤之前建立的,本申请实施例对此不作限定。
在实施中,建立地址树的具体实现可以包括:获取多个标准地址,其中,每个标准地址包括至少两个层级的标准字段;按照每个标准地址中的层级,基于所述多个标准地址的标准字段建立所述地址树。
本实施例中,仅以地址树为Trie树为例对建立地址树的实现方式进行描述。
在一些实施例中,可以从地址字典中获取标准地址,假设地址字典中每个标准地址包括省、市、区、街道、小区、楼号等多个层级,可以建立一个包括多个层级的Trie树。在该Trie树中,第一层级树节点为各省份节点、第二层级树节点为各市节点、第三层级树节点为各区节点、第四层级树节点为各街道节点、......,以此类推,可以得到多个层级。
具体地,对于地址字典中的参考标准地址,将该参考标准地址从Trie树的第一层级开始遍历,若第一层级包括该参考标准地址中省级的字段,则继续将参考标准地址中市级的字段与第二层级树节点进行匹配,依次循环,直到将地址字典中的标准地址均存储至该Trie树中。若第一层级不包括该参考标准地址中省级的字段,则在第一层级新建一个树节点,该树节点的字段为该参考标准地址中省级的字段。然后继续讲参考标准地址中市级的字段与第二层级树节点进行匹配,依次循环,直到将地址字典中的标准地址均存储至该Trie树中。
作为一种示例,地址树中树节点的字段可以以key:value的形式进行存储。其中,key表示树节点对应的字段的标准全程,value表示树节点对应的字段的简称。例如,假设该树节点对应的字段为A省,A省的简称为A,则key可以为A省,value为A。
另外,在将参考标准地址中的字段与地址树参考层级的树节点进行匹配时,可以按照key,value的顺序进行匹配,将参考标准地址中的字段的key和value分别与参考层级的树节点的key和value进行匹配,如果key和value均不匹配,则将该参考标准地址中的字段与该参考层级的下一个树节点进行匹配。
作为一种示例,参见图2,以地址树包括省、市、区和街道四个层级为例,图2为本申请实施例示出的一种建立地址树的流程图。
步骤202,开始建立四级地址树。
步骤204,判断地址字典中的标准地址是否全部存储至地址树中,若是,执行步骤206,若否,执行步骤208。
步骤206,确定地址树建立完成。
步骤208,将参考标准地址中省级的字段与地址树中省级的树节点进行匹配,若匹配成功,则执行步骤210,若匹配失败,则执行步骤212。
步骤210,将参考标准地址中市级的字段与地址树中市级的树节点进行匹配,若匹配成功,则执行步骤214,若匹配失败,则执行步骤216。
步骤212,在地址树中省级新建一个树节点,该树节点的字段为该参考标准地址中省级的字段。
步骤214,将参考标准地址中区级的字段与地址树中区级的树节点进行匹配,若匹配成功,则执行步骤218,若匹配失败,则执行步骤220。
步骤216,在地址树中市级新建一个树节点,该树节点的字段为该参考标准地址中市级的字段。
步骤218,将参考标准地址中街道级的字段与地址树中街道级的树节点进行匹配,若匹配成功,则将参考标准地址的下一个标准地址重新确定为参考标准地址,返回执行步骤204,若匹配失败,则执行步骤222。
步骤220,在地址树中区级新建一个树节点,该树节点的字段为该参考标准地址中区级的字段。
步骤222,在地址树中街道级新建一个树节点,该树节点的字段为该参考标准地址中街道级的字段。
上述步骤202-步骤222仅是以地址树包括四个层级为例对建立地址树的过程进行描述。在实施中,通过上述方式,可以建立包括任意数量个层级的地址树,本申请实施例对此不作限定。
在实施中,将所述基础字段以及至少一个参考字段与预先建立的地址树中至少两个层级的标准字段进行匹配,确定所述待处理地址对应的目标标准地址的具体实现可以包括:将所述基础字段以及至少一个参考字段与预先建立的地址树中至少两个层级的标准字段进行匹配,确定所述基础字段对应的第一目标标准字段,以及所述至少一个参考字段对应的第二目标标准字段;根据第一目标标准字段和至少一个所述第二目标标准字段,确定所述目标标准地址。
也就是说,可以将待处理地址中的基础字段与地址树中的标准字段进行匹配,得到基础字段对应的第一目标标准字段,以及将至少一个参考字段与地址树中的标准字段进行匹配,得到至少一个参考字段对应的第二目标标准字段,然后根据第一标准字段和至少一个第二标准字段得到待处理地址的目标标准地址。
在一些实施例中,所述地址树中包括M个层级,且所述M为大于1的正整数,所述标准字段的长度为N,且所述N为大于0的正整数。将所述基础字段以及至少一个参考字段与预先建立的地址树中至少两个层级的标准字段进行匹配的具体实现可以包括:
将所述待处理地址中第一个字符的位置确定为待匹配字段的开始位置和结束位置;将位于所述开始位置和所述结束位置之内的字符确定为所述待匹配字段;将所述待匹配字段与所述地址树中第i层级的标准字段进行匹配,其中,所述i为大于0且小于或等于M的正整数;若匹配成功,且所述待匹配字段中不包括所述基础字段的字符,将所述第i层级中与所述待匹配字段匹配的标准字段确定为所述待处理地址中所述目标参考字段对应的第二目标标准字段,其中,所述目标参考字段为所述至少一个参考字段中的任一参考字段;获取所述待处理地址中以所述待匹配字段中第一个字符为起点,长度为N的目标字段;若所述目标字段与所述第i层级中与所述待匹配字段匹配的标准字段相同,将所述目标字段在所述待处理地址中最后一个字符的下一个字符的位置重新确定为待匹配字段的开始位置和结束位置;将位于所述开始位置和结束位置之内的字符重新确定为待匹配字段,令i=i+1,返回执行将所述待匹配字段与所述地址树中第i层级的标准字段进行匹配的步骤,直至确定所述基础字段对应的第一目标标准字段。
需要说明的是,i是从1开始取值的。
也就是说,可以将第一个字符的位置确定为开始位置和结束位置,则位于开始位置和结束位置之内的字符为该第一个字符,可以将该第一个字符作为待匹配字段,然后将待匹配字段与地址树中第i层级的标准字段进行匹配,若匹配成功,并且该待匹配字段不是基础字段,则可以将该第i层级中与该待匹配字段匹配的标准字段确定为待处理地址中目标参考字段对应的第二目标标准字段。并且,虽然待匹配字段与标准字段匹配成功,但待匹配字段不一定是待处理地址中第i层级的所有字段,因此,需要从待处理地址中获取以该待匹配字段中第一个字符为起点,长度为N的目标字段,若目标字段与第i层级中与待匹配字段匹配的标准字段相同,则可以将该目标字段在待处理地址中最后一个字符的下一个字符的位置重新确定为待匹配字段的开始位置和结束位置,将开始位置和结束位置之内的字符重新确定为待匹配字段,并令i=i+1,返回执行将所述待匹配字段与所述地址树中第i层级的标准字段进行匹配的步骤,即下一次字段匹配就不需要再匹配待处理地址中目标字段内的字符,而是将重新确定的待匹配字段与第i+1层级的标准字段进行匹配,直到确定基础字段对应的第一目标标准字段,可以认为已经为待处理地址中每个字段匹配到对应的目标标准字段,可以结束匹配。
作为一种示例,将待处理地址中第一个字符的位置确定为开始位置和结束位置,则待匹配字段为该第一个字符,将该第一个字符与地址树中第一层级的标准字段进行匹配,若第一层级的标准字段中包括与该第一个字符匹配的标准字段,则确定匹配成功,并且可以确定该第一个字符不是基础字段的字符,可以将第一层级中与该待匹配字段匹配的标准字段确定为第一个参考字段对应的第二目标标准字段。并且,可以以第一个字符为起点,长度为N的目标字段,将该目标字段与该第二目标标准字段比较,若该目标字段与该第二目标标准字段相同,则可以将待处理地址中第N+1个字符的位置确定为开始位置和结束位置,并将第N+1个字符重新确定为待匹配字段,将重新确定的待匹配字段与第二层级的标准字段进行匹配,并按照上述步骤继续执行,直到确定基础字段对应的第一目标标准字段。
在一些实施例中,若所述目标字段与所述第i层级中与所述待匹配字段匹配的标准字段不相同,可以将所述待匹配字段在所述待处理地址中最后一个字符的下一个字符的位置重新确定为待匹配字段的开始位置和结束位置;将位于所述开始位置和所述结束位置之内的字符重新确定为待匹配字段,令i=i+1,返回执行将所述待匹配字段与所述地址树中第i层级的标准字段进行匹配的步骤,直至确定所述基础字段对应的第一目标标准字段。
也就是说,若目标字段与第i层级中与待匹配字段匹配的标准字段不同,说明待处理地址中该第i层级的字段可能不规则,为了避免将待处理地址中第i+1层级的字符漏掉,因此,可以将待匹配字段在待处理地址中最后一个字符的下一个字符的位置重新确定为待匹配字段的开始位置和结束位置,将开始位置和结束位置之内的字符重新确定为待匹配字段,并令i=i+1,返回执行将所述待匹配字段与所述地址树中第i层级的标准字段进行匹配的步骤,即下一次字段匹配就不需要再匹配待处理地址中与第i层级的标准地址匹配的待匹配字段内的字符,而是将重新确定的待匹配字段与第i+1层级的标准字段进行匹配,直到确定基础字段对应的第一目标标准字段,可以认为已经为待处理地址中每个字段匹配到对应的目标标准字段,可以结束匹配。
继续上述示例,若目标字段与该第二目标标准字段不相同,则可以将该待处理地址中第二个字符的位置确定为开始位置和结束位置,并将第二个字符重新确定为待匹配字段,将重新确定的待匹配字段与第二层级的标准字段进行匹配,并按照上述示例的步骤继续执行,直到确定基础字段对应的第一目标标准字段。
在一些实施例中,将待匹配字段与标准字段进行匹配的过程中,若匹配成功,且所述待匹配字段中不包括所述至少一个参考字段的字符,将所述第i层级中与所述待匹配字段匹配的标准字段确定为所述基础字段对应的第一目标标准字段。
也就是说,如果匹配成功,且待匹配字段中包括基础字段中的字符,可以将第i层级中与该待匹配字段匹配的标准字段确定为所述基础字段对应的第一目标标准字段。
作为一种示例,若待匹配字段包括待处理地址中后三个字符,且待匹配字段与第三层级的标准字段匹配成功,则可以将第三层级中与该后三个字符匹配的标准字段确定为该基础字段对应的第一目标标准字段。
在一些实施例中,将待匹配字段与标准字段进行匹配的过程中,若匹配失败,且所述待匹配字段中不包括所述待处理地址的最后一个字符,将所述待匹配字段在所述待处理地址中最后一个字符的下一个字符的位置重新确定为待匹配字段的结束位置;将位于所述开始位置和所述结束位置之内的字符重新确定为待匹配字段,返回执行将所述待匹配字段与所述地址树中第i层级的标准字段进行匹配的步骤,直至确定所述基础字段对应的第一目标标准字段。
作为一种示例,假设待处理地址包括六个字符,待匹配字段包括第四个字符和第五个字符,若匹配失败,且待匹配字段不包括待处理地址中最后一个字符,可以将第六个字符的位置确定为结束位置,即将第四个字符、第五个字符和第六个字符重新确定为待匹配字段,继续返回执行将待匹配字段与第i层级的标准字段进行匹配的步骤,直到确定基础字段对应的第一目标标准字段。
在一些实施例中,将待匹配字段与标准字段进行匹配的过程中,若匹配失败,且所述待匹配字段中包括所述待处理地址的最后一个字符,生成层级缺失标记,其中,所述层级缺失标记中包括所述第i层级的层级标识;将所述待匹配字段中第一个字符的位置重新确定为开始位置和结束位置;将位于所述开始位置和所述结束位置之内的字符重新确定为待匹配字段,令i=i+1,返回执行将所述待匹配字段与所述地址树中第i层级的标准字段进行匹配的步骤,直至确定所述基础字段对应的第一目标标准字段。
作为一种示例,假设待处理地址包括六个字符,且待匹配字段包括第四个字符、第五个字符和第六个字符,若匹配失败,可以确定待匹配字段包括待处理地址中最后一个字符,在这种情况下,可以认为该待处理地址中缺失第i层级的字段,可以生成层级缺失标记,并且在层级缺失标记中包括第i层级的层级标识,如此,在后续补全待处理地址时,可以基于层级标识从地址树中获取标准地址。然后将第五个字符的位置重新确定为开始位置和结束位置,并将第五个字符与第i+1层级的标准地址进行匹配,返回执行相关步骤,直到确定基础字段对应的第一目标标准字段。
本申请实施例中,在匹配失败的情况下,可以生成层级缺失标记,用于标记待处理地址缺失的层级,便于后续对缺失层级的字段进行补全,提高了确定的目标标准地址的标准化程度,且便于后续使用。
在一种可能的实现方式中,根据第一目标标准字段和至少一个所述第二目标标准字段,确定所述目标标准地址的具体实现可以包括:获取生成的至少一个层级缺失标记;确定所述至少一个层级缺失标记中包括的层级标识对应的缺失层级,得到至少一个缺失层级;从所述地址树中确定所述至少一个缺失层级对应的缺失标准字段;按照所述第一目标标准字段、至少一个所述第二目标标准字段和至少一个所述缺失标准字段分别对应的层级之间的层级结构,对所述第一目标标准字段、至少一个所述第二目标标准字段和至少一个所述缺失标准字段进行排序组合,得到所述目标标准地址。
也就是说,在待处理地址中存在层级缺失的情况下,可以在字段匹配过程中生成的至少一个层级缺失标记,每个层级缺失标记中包括层级标识,基于层级标识可以确定至少一个缺失层级,然后从地址树中确定至少一个缺失层级对应的缺失标准字段。由于第一目标标准字段、至少一个第二目标标准字段和至少一个缺失标准字段是与不同的层级对应的,因此,可以按照各个字段对应的层级对第一目标标准字段、至少一个第二目标标准字段和至少一个缺失标准字段进行排序组合,进而得到待处理地址的目标标准地址。
作为一种示例,假设层级缺失标记中包括的层级标识为2,则可以确定缺失层级为第二层级,从地址树中确定该待处理地址中第二层级对应的缺失标准字段。假设第一目标标准字段对应的层级为第四层级,至少一个第二目标标准字段对应的层级为第一层级和第三层级,则可以将对应第一层级的第二目标标准字段排在第一位,将缺失标准字段排在第二位,将对应第三层级的第二标准字段排在第三位,将第一目标标准字段排在第四位,如此可以得到目标标准地址。
示例性地,假设第一目标标准字段为D街道,至少一个第二目标标准字段包括A省和C区。假设层级缺失标记中包括的层级标识为2,则可以确定缺失层级为市级,假设从地址树中确定该待处理地址中市级对应的缺失标准字段为B市。假设D街道对应的层级为街道级,A省对应的层级为省级,C区对应的层级为区级,则可以将A省排在第一位,将B市排在第二位,将C区排在第三位,将D街道排在第四位,则可以得到目标标准地址A省B市C区D街道。
在一些实施例中,从所述地址树中确定所述至少一个缺失层级对应的缺失标准字段的具体实现可以包括:若所述缺失层级的数量为多个,将所述多个缺失层级中层级最低的缺失层级作为目标缺失层级;从所述地址树中查询所述目标缺失层级的下一个层级;基于所述目标缺失层级的下一个层级对应的目标标准字段,从所述地址树中确定所述目标缺失层级的缺失标准字段;将所述目标缺失层级从所述多个缺失层级中删除,得到缺失层级组;将所述缺失层级组中层级最低的缺失层级重新作为目标缺失层级,返回执行从所述地址树中查询所述目标缺失层级的下一个层级的步骤,直至所述缺失层级组中不存在缺失层级。
以缺失层级的数量为两个为例,假设缺失层级为第三层级和第四层级,可以先将第四层级作为目标缺失层级,从地址树中查询目标缺失层级的下一个层级,即第五层级。获取待处理地址中第五层级对应的目标标准地址,从地址树中获取第四层级对应的缺失标准字段,然后将第四层级从两个缺失层级中删除,得到缺失层级组,此时确实层级组中仅包括第三层级,则将第三层级重新作为目标缺失层级,从地址树中查询重新确定的目标缺失层级的下一个层级,得到第四层级,获取待处理地址中第四层级对应的目标标准地址,此时,第四层级对应的缺失标准字段即为第四层级对应的目标标准地址,然后从地址树中确定目标缺失层级对应的缺失标准字段,即确定第三层级对应的缺失标准字段。再将第三层级从缺失层级组中删除,则缺失层级组中不存在缺失层级,说明已经将待处理地址中缺失层级的缺失标准字段全部补全。
在另一种可能的实现方式中,根据第一目标标准字段和至少一个所述第二目标标准字段,确定所述目标标准地址的具体实现可以包括:按照所述第一目标标准字段和至少一个所述第二目标标准字段分别对应的层级之间的层级结构,对所述第一目标标准字段和至少一个所述第二目标标准字段进行排序组合,得到所述目标标准地址。
也就是说,若待处理地址不存在层级缺失,由于第一目标标准字段和至少一个第二目标标准字段是与不同的层级对应的,因此,可以按照各个字段对应的层级对第一目标标准字段和至少一个第二目标标准字段进行排序组合,进而可以得到待处理地址的目标标准地址。
作为一种示例,假设地址树中标准地址的层级为三个层级,第一目标标准字段对应的层级为第三层级,至少一个第二目标标准字段对应的层级为第一层级和第二层级,则可以将对应第一层级的第二目标标准字段排在第一位,将对应第二层级的第二标准字段排在第二位,将第一目标标准字段排在第三位,如此可以得到目标标准地址。
本说明书提供的地址处理方法,获取待处理地址,其中,所述待处理地址包括基础字段以及至少一个参考字段,所述基础字段为所述待处理地址指向的最小地域范围信息的字段,所述参考字段为所述待处理地址中除所述基础字段外的指向其他层级地域范围信息的字段;将所述基础字段以及至少一个参考字段与预先建立的地址树中至少两个层级的标准字段进行匹配,确定所述待处理地址对应的目标标准地址。上述方法不需要对待处理地址进行分词,只需将待处理地址中的参考字段和基础字段与预先建立的地址树中的标准字段进行匹配,便可以得到待处理地址对应的目标标准地址,降低了地址处理的复杂程度,进而提高了地址处理的效率。
图3示出了根据本说明书一实施例提供的另一种地址处理方法的流程图,具体可以包括如下步骤:
步骤302,获取多个标准地址,其中,每个标准地址包括四个层级的标准字段。
在实施中,可以从地址字典中获取多个标准地址。
需要说明的是,本申请对标准地址中层级的数量不进行限制,在本实施例中,仅以标准地址包括四个层级为例对本申请提供的地址处理方法进行说明。
步骤304,按照每个标准地址中的层级,基于所述多个标准地址的标准字段建立地址树。
其中,该地址树中每个层级的标准字段可以包括至少一个字符,且除根节点之外的每个节点对应的层级包括至少两个标准字段。
例如,参见图4,图4为一示例性实施例示出的一种地址树的示意图。由图4可知,该地址树包括四个层级。第一层级为省级,可以包括A省、B省等;第二层级为市级,可以包括A市、B市、C市、D市等,并且A市和B市为属于A省的市,C市和D市为属于B省的市;第三层级为区级,可以包括A区、B区、C区、D区、E区、F区、G区和H区等,且A区和B区为属于A市的区,C区和D区为属于B市的区,E区和F区为属于C市的区,G区和H区为属于D市的区;第四层级为街道级,可以包括A街道、B街道、C街道、D街道等,且A街道为属于A区的街道,B街道为属于B区的街道,C街道为属于C区的街道,D街道为属于D区的街道。
步骤306,获取待处理地址,其中,所述待处理地址包括基础字段和两个参考字段。
其中,该基础字段是待处理地址指向的最小地域范围信息的字段,该参考字段为待处理地址中除基础字段外的指向其他层级地域范围信息的字段。
作为一种示例,基础字段可以为街道级对应的字段,其他三个参考字段分别可以为省级、市级和区级三个层级对应的字段。在本实施例中,该待处理地址包括三个层级,分别为省、市和街道四个层级。
例如,假设待处理地址为A省BD街道,则A省为省级对应的参考字段,B为市级对应的参考字段,D街道为街道级对应的参考字段,可以看出,该待处理地址缺少一个层级的字段。
需要说明的是,本实施例对待处理地址包括的层级的数量不进行限制,在本实施例中,仅以待处理地址包括三个层级为例对本申请提供的地址处理方法进行说明。
步骤308,将所述待处理地址包括的第一个字符的位置确定为开始位置和结束位置。
继续上述举例,将待处理地址中A所在的位置确定为开始位置和结束位置。
步骤310,将位于开始位置和结束位置之内的字符确定为待匹配字段。
继续上述举例,将A确定为待匹配字段。
步骤312,将该待匹配字段与地址树中第i层级的标准字段进行匹配,若匹配成功,则执行步骤314,若匹配失败,则执行步骤330。
作为一种示例,由于本实施例中,地址树中的标准地址包括四个层级,则i大于0且小于或等于4。
继续上述举例,假设i为1,则将A分别和第一层级中的A省、B省进行匹配。
步骤314,判断待匹配字段中包括的字符,若待匹配字段中不包括基础字段的字符,执行步骤316,若待匹配字段中不包括两个参考字段的字符,执行步骤328。
步骤316,将该第一层级中与该待匹配字段匹配的标准字段确定为该待处理地址中目标参考字段对应的第二目标标准字段。
作为一种示例,可以将待匹配字段中包括的字符所处的参考字段确定为目标参考字段。
继续上述举例,假设A和A省匹配成功,且A不是待处理地址中基础字段包括的字符,可以将A省确定为待处理地址中省级的参考字段A省对应的第二目标标准字段。
步骤318,获取待处理地址中以第一个字符为起点,长度为N的目标字段。
其中,N为大于0的正整数。例如,在本实施例中,N可以为2。
继续上述举例,将待处理地址中第一个字符和第二个字符A省确定为目标字段。
步骤320,若目标字段与与该待匹配字段匹配的标准字段相同,将目标字段中最后一个字符的下一个字符的位置重新确定为待匹配字段的开始位置和结束位置。
继续上述举例,目标字段A省与与该待匹配字段A匹配的标准字段A省相同,则开始下一层级的匹配,并将目标字段A省中最后一个字符A的下一个位置即B对应的位置重新确定为待匹配字段的开始位置和结束位置。
步骤322,将位于开始位置和结束位置之内的字符重新确定为待匹配字段,令i=i+1,返回执行步骤312,直至确定基础字段对应的第一目标标准字段。
继续上述举例,可以将B确定为待匹配字段,返回执行步骤312,若i=1,则将B与第二层级的标准字段进行匹配。
步骤324,若目标字段与与该待匹配字段匹配的标准字段不相同,将待匹配字段在待处理地址中最后一个字符的下一个字符的位置重新确定为待匹配字段的开始位置和结束位置。
例如,假设待处理地址为ABD街道,待匹配字段为A,目标字段为AB,与待匹配字段匹配的标准字段为A省,可以确定目标字段AB与A省不相同,则将A的下一个字符即B的位置重新确定为待匹配字段的开始位置和结束位置。
步骤326,将位于开始位置和结束位置之内的字符重新确定为待匹配字段,令i=i+1,返回执行步骤312,直至确定所述基础字段对应的第一目标标准字段。
例如,可以将B确定为待匹配字段,返回执行步骤312,若i=1,则将B与第二层级的标准字段进行匹配。
步骤328,将第i层级中与待匹配字段匹配的标准字段确定为基础字段对应的第一标准字段。
也就是说,若匹配成功,且待匹配字段中均是基础字段的字符,则可以认为已经为基础字段匹配到了标准字段,则可以将与待匹配字段匹配的标准字段确定为第一标准字段。
步骤330,若待匹配字段中不包括待处理地址的最后一个字符,执行步骤332,若待匹配字段包括待处理的最后一个字符,执行步骤336。
步骤332,将待匹配字段在待处理地址中最后一个字符的下一个字符的位置重新确定为待匹配字段的结束位置。
例如,以待处理地址为A省B市D街道E小区,待匹配字段包括D街,则可以将字符“道”对应的位置重新确定为待匹配字段的结束位置。
步骤334,将位于开始位置和结束位置之内的字符重新确定为待匹配字段,返回执行步骤312,直至确定所述基础字段对应的第一目标标准字段。
继续步骤332的举例,可以将D街道重新确定为待匹配字段,然后将D街道继续与第i层级的标准地址进行匹配。
步骤336,生成层级缺失标记,该层级缺失标记中包括第i层级的层级标识。
步骤338,将待匹配字段中第一个字符的位置重新确定为开始位置和结束位置。
继续步骤334的举例,可以将D的位置重新确定为开始位置和结束位置。
步骤340,将位于开始位置和结束位置之内的字符重新确定为待匹配字段,令i=i+1,返回执行步骤312,直至确定所述基础字段对应的第一目标标准字段。
例如,将D重新确定为待匹配字段,返回执行步骤312,假设i为3,则将D与第四层级的标准地址进行匹配。
步骤342,若已经获取基础字段对应的第一目标标准字段,获取生成的至少一个层级缺失标记。
例如,待处理地址为A省C区E小区,则可以确定生成了两个层级缺失标记。
步骤344,确定至少一个层级缺失标记中包括的层级标识对应的缺失层级,得到至少一个缺失层级。
继续上述步骤342的举例,可以确定缺失层级为市级和街道级。
步骤346,若缺失层级的数量为多个,将多个缺失层级中层级最低的缺失层级作为目标缺失层级。
例如,可以将街道级作为目标缺失层级。
步骤348,从地址树中查询目标缺失层级的下一个层级;
例如,街道级的下一个层级可以为小区级。
步骤350,基于目标缺失层级的下一个层级对应的目标标准字段,从地址树中确定目标缺失层级的缺失标准字段;
例如,可以获取待处理地址中小区级对应的目标标准字段,假设为E小区,可以从地址树中查询E小区上一个层级的树节点,将该树节点对应的字段确定为目标缺失层级的缺失标准字段,即确定街道级的缺失标准字段。
步骤352,将目标缺失层级从多个缺失层级中删除,得到缺失层级组;
继续步骤342的举例,将街道级从多个缺失层级中删除,可以得到缺失层级组,该缺失层级组中包括市级。
步骤354,将缺失层级组中层级最低的缺失层级重新作为目标缺失层级。
例如,继续步骤342的举例,将市级作为目标缺失层级,返回执行步骤348,即从地址树中查询市级的下一个层级,继续执行后续步骤,直至将所有缺失层级的字段全部补充完成。
如此,可以将待处理地址中缺失的字段补齐,并将待处理地址转换为标准的目标标准地址,便于后续进行地址编码。
步骤356,判断缺失层级组中是否存在缺失层级,若是,返回执行步骤348,若否,执行步骤358。
步骤358,按照第一目标标准字段、至少一个第二目标标准字段和至少一个缺失标准字段分别对应的层级之间的层级结构,对第一目标标准字段、至少一个第二目标标准字段和至少一个缺失标准字段进行排序组合,得到目标标准地址。
本说明书提供的地址处理方法,获取待处理地址,其中,所述待处理地址包括基础字段以及至少一个参考字段,所述基础字段为所述待处理地址指向的最小地域范围信息的字段,所述参考字段为所述待处理地址中除所述基础字段外的指向其他层级地域范围信息的字段;将所述基础字段以及至少一个参考字段与预先建立的地址树中至少两个层级的标准字段进行匹配,确定所述待处理地址对应的目标标准地址。上述方法不需要对待处理地址进行分词,只需将待处理地址中的参考字段和基础字段与预先建立的地址树中的标准字段进行匹配,便可以得到待处理地址对应的目标标准地址,降低了地址处理的复杂程度,进而提高了地址处理的效率。
下述结合附图5,以本说明书提供的地址处理方法在物流配送领域的应用为例,对所述地址处理方法进行进一步说明。其中,图5示出了本说明书一实施例提供的一种应用于物流配送领域的地址处理方法的处理流程图,具体包括以下步骤:
步骤502,获取多个标准地址,其中,每个标准地址包括四个层级的标准字段。
在实施中,可以从地址字典中获取多个标准地址。
需要说明的是,本申请对标准地址中层级的数量不进行限制,在本实施例中,仅以标准地址包括四个层级为例对本申请提供的地址处理方法进行说明。
步骤504,按照每个标准地址中的层级,基于所述多个标准地址的标准字段建立地址树。
其中,该地址树中每个层级的标准字段可以包括至少一个字符,且除根节点之外的每个节点对应的层级包括至少两个标准字段。
例如,参见图4,图4为一示例性实施例示出的一种地址树的示意图。由图4可知,该地址树包括四个层级。第一层级为省级,可以包括A省、B省等;第二层级为市级,可以包括A市、B市、C市、D市等,并且A市和B市为属于A省的市,C市和D市为属于B省的市;第三层级为区级,可以包括A区、B区、C区、D区、E区、F区、G区和H区等,且A区和B区为属于A市的区,C区和D区为属于B市的区,E区和F区为属于C市的区,G区和H区为属于D市的区;第四层级为街道级,可以包括A街道、B街道、C街道、D街道等,且A街道为属于A区的街道,B街道为属于B区的街道,C街道为属于C区的街道,D街道为属于D区的街道。
步骤506,获取待处理地址,其中,所述待处理地址包括基础字段和两个参考字段。
例如,假设待处理地址为A省B市D街道,则A省为省级对应的参考字段,B市为市级对应的参考字段,D街道为街道级对应的参考字段,可以看出,该待处理地址缺少一个层级的字段。
需要说明的是,本实施例对待处理地址包括的层级的数量不进行限制,在本实施例中,仅以待处理地址包括三个层级为例对本申请提供的地址处理方法进行说明。
步骤508,将所述待处理地址包括的第一个字符的位置确定为开始位置和结束位置。
继续上述举例,将A所在的位置确定为开始位置和结束位置。
步骤510,获取位于开始位置和结束位置之内的第一个字符。
步骤512,将第一个字符与地址树中第一层级的标准字段进行匹配。
例如,将A分别和A省、B省进行匹配。
步骤514,若匹配成功,将与第一个字符匹配的标准字段确定为第二目标标准字段。
例如,假设A和A省匹配成功,可以将地址树中的A省确定为待处理地址中省级的参考字段对应的第二目标标准字段。
步骤516,获取以第一个字符的位置为起点,长度为2的目标字段,则目标字段包括第一个字符和第二个字符。
例如,假设地址树中层级的标准字段的长度为2,则可以从待处理地址中获取目标字段A省。
步骤518,若目标字段与第二目标标准字段相同,将第三个字符的位置确定为重新确定的开始位置和结束位置。
例如,目标字段A省与目标标准字段A省相同,则开始下一级的匹配,并且将省的下一个字符的位置即B对应的位置确定为待匹配字段的开始位置和结束位置。
步骤520,获取第三个字符。
步骤522,将第三个字符与地址树中第二层级的标准字段进行匹配。
例如,将第三个字符B与地址树中第二层级的A市、B市、C市、D市进行匹配。
步骤524,若匹配不成功,则将第四个字符的位置确定为结束位置,获取开始位置和结束位置之间的字符作为待匹配字段。
例如,将第四个字符“市”的位置确定为结束位置,并获取B市作为待匹配字段。
步骤526,若匹配成功,将与该待匹配字段匹配成功的第二层级的标准字段确定为第二目标标准字段。
例如,将地址树中的B市确定为与待处理地址中市级的参考字段对应的第二目标标准字段。
步骤528,获取以第三个字符的位置为起点,长度为2的目标字段,则目标字段包括第三个字符和第四个字符。
例如,假设地址树中层级的标准字段的长度为2,则可以从待处理地址中获取目标字段B市。
步骤530,若目标字段与第二目标标准字段相同,将第五个字符的位置确定为重新确定的开始位置和结束位置。
例如,目标字段B市与目标标准字段B市相同,则开始下一级的匹配,并且将市的下一个字符的位置即D对应的位置确定为待匹配字段的开始位置和结束位置。
步骤532,获取位于开始位置和结束位置之内的第五个字符。
步骤534,将第五个字符与地址树中第三层级的标准字段进行匹配。
例如,将第五个字符D与地址树中第三层级的标准字段A区、B区、C区、D区、E区、F区、G区和H区进行匹配。
步骤536,若匹配不成功,且第五个字符不是待处理地址的最后一个字符,将第六个字符的位置重新确定为结束位置。
步骤538,获取位于开始位置和结束位置之内的第五个字符和第六个字符,作为待匹配字段。
步骤540,将重新确定的待匹配字段与地址树中第三层级的标准字段进行匹配。
例如,将D街与地址树中第三层级的标准字段A区、B区、C区、D区、E区、F区、G区和H区进行匹配。
步骤542,若匹配不成功,且待匹配字段中不包括待处理地址的最后一个字符,将第七个字符的位置重新确定为结束位置。
步骤544,获取位于开始位置和结束位置之内的第五个字符、第六个字符和第七个字符,作为待匹配字段。
步骤546,将重新确定的待匹配字段与地址树中第三层级的标准字段进行匹配。
例如,将D街道与地址树中第三层级的标准字段A区、B区、C区、D区、E区、F区、G区和H区进行匹配。
步骤548,若匹配失败,生成层级缺失标记,该缺失标记中包括第三层级的层级标识。
例如,生成层级缺失标记,该层级缺失标记中包括层级标识“区”,说明该待处理地址缺失区级的字段。
步骤550,将第五个字符的位置重新确定为开始位置和结束位置。
步骤552,将第五个字符与地址树中第四层级的标准字段进行匹配。
例如,将D分别和A街道、B街道、C街道、D街道等进行匹配。
步骤554,若匹配失败,将第六个字符的位置确定为结束位置。
步骤556,获取第五个字符和第六个字符作为重新确定的待匹配字段。
例如,获取D街作为待匹配字段。
步骤558,将重新确定的待匹配字段与地址树中第四层级的标准字段进行匹配。
例如,将D街分别和A街道、B街道、C街道、D街道等进行匹配。
步骤560,若匹配失败,将第七个字符的位置确定为结束位置。
步骤562,获取第五个字符、第六个字符和第七个字符,作为重新确定的待匹配字段。
例如,获取D街道作为待匹配字段。
步骤564,将该重新确定的待匹配字段与地址树中第四层级的标准字段进行匹配。
例如,将D街道分别和A街道、B街道、C街道、D街道等进行匹配。
步骤566,若匹配成功,且待匹配字段中包括待处理地址的最后一个字符,则将第四层级中与该重新确定的待匹配字段匹配的标准字段作为基础字段对应的第一目标标准字段。
例如,将地址树中的D街道作为待匹配地址中街道级的基础字段对应的第一目标标准字段。
步骤568,获取层级缺失标记,并确定层级缺失标记中包括的层级标识对应的缺失层级。
例如,层级缺失标记中包括的层级标识对应的缺失层级为市级。
步骤570,从地址树中查询缺失层级的下一个层级。
例如,从地址树中查询可以得到市级的下一个层级为街道级。
步骤572,获取待处理地址中街道级对应的第一目标标准字段。
例如,第一目标标准字段为D街道。
步骤574,从地址树中获取第一目标标准字段上一层极的标准字段,将获取的标准字段作为缺失层级的缺失标准字段。
例如,由图4可以看出,D街道的上一层级的标准字段为D区,则该待处理地址中区级的目标标准字段为D区。
步骤576,按照层级将第一目标标准字段、第二目标标准字段和缺失标准字段进行排序组合,得到待处理地址的目标标准地址。
例如,将省级对应的第二目标标准字段A省排在第一位,将市级对应的第二目标标准字段B市排在第二位,将区级对应的缺失标准字段D区排在第三位,将街道级对应的第一目标标准字段D街道排在第四位,如此,可以得到待处理地址的目标标准地址A省B市D区D街道。
本说明书提供的地址处理方法,获取待处理地址,其中,所述待处理地址包括基础字段以及至少一个参考字段,所述基础字段为所述待处理地址指向的最小地域范围信息的字段,所述参考字段为所述待处理地址中除所述基础字段外的指向其他层级地域范围信息的字段;将所述基础字段以及至少一个参考字段与预先建立的地址树中至少两个层级的标准字段进行匹配,确定所述待处理地址对应的目标标准地址。上述方法不需要对待处理地址进行分词,只需将待处理地址中的参考字段和基础字段与预先建立的地址树中的标准字段进行匹配,便可以得到待处理地址对应的目标标准地址,降低了地址处理的复杂程度,进而提高了地址处理的效率。
与上述方法实施例相对应,本说明书还提供了地址处理装置实施例,图6示出了本说明书一实施例提供的一种地址处理装置的结构示意图。如图6所示,该装置包括:
获取模块602,用于获取待处理地址,其中,所述待处理地址包括基础字段以及至少一个参考字段,所述基础字段为所述待处理地址指向的最小地域范围信息的字段,所述参考字段为所述待处理地址中除所述基础字段外的指向其他层级地域范围信息的字段;
确定模块604,用于将所述基础字段以及至少一个参考字段与预先建立的地址树中至少两个层级的标准字段进行匹配,确定所述待处理地址对应的目标标准地址
可选地,所述确定模块604用于:
将所述基础字段以及至少一个参考字段与预先建立的地址树中至少两个层级的标准字段进行匹配,确定所述基础字段对应的第一目标标准字段,以及所述至少一个参考字段对应的第二目标标准字段;
根据第一目标标准字段和至少一个所述第二目标标准字段,确定所述目标标准地址。
可选地,所述确定模块604用于:
所述地址树中包括M个层级,且所述M为大于1的正整数,所述标准字段的长度为N,且所述N为大于0的正整数,将所述待处理地址中第一个字符的位置确定为待匹配字段的开始位置和结束位置;
将位于所述开始位置和所述结束位置之内的字符确定为所述待匹配字段;
将所述待匹配字段与所述地址树中第i层级的标准字段进行匹配,其中,所述i为大于0且小于或等于M的正整数;
若匹配成功,且所述待匹配字段中不包括所述基础字段的字符,将所述第i层级中与所述待匹配字段匹配的标准字段确定为所述待处理地址中所述目标参考字段对应的第二目标标准字段,其中,所述目标参考字段为所述至少一个参考字段中的任一参考字段;
获取所述待处理地址中以所述待匹配字段中第一个字符为起点,长度为N的目标字段;
若所述目标字段与所述第i层级中与所述待匹配字段匹配的标准字段相同,将所述目标字段在所述待处理地址中最后一个字符的下一个字符的位置重新确定为待匹配字段的开始位置和结束位置;
将位于所述开始位置和所述结束位置之内的字符重新确定为待匹配字段,令i=i+1,返回执行将所述待匹配字段与所述地址树中第i层级的标准字段进行匹配的步骤,直至确定所述基础字段对应的第一目标标准字段。
可选地,所述确定模块604还用于:
若所述目标字段与所述第i层级中与所述待匹配字段匹配的标准字段不相同,将所述待匹配字段在所述待处理地址中最后一个字符的下一个字符的位置重新确定为待匹配字段的开始位置和结束位置;
将位于所述开始位置和所述结束位置之内的字符重新确定为待匹配字段,令i=i+1,返回执行将所述待匹配字段与所述地址树中第i层级的标准字段进行匹配的步骤,直至确定所述基础字段对应的第一目标标准字段。
可选地,所述确定模块604还用于:
若匹配成功,且所述待匹配字段中不包括所述至少一个参考字段的字符,将所述第i层级中与所述待匹配字段匹配的标准字段确定为所述基础字段对应的第一目标标准字段。
可选地,所述确定模块604还用于:
若匹配失败,且所述待匹配字段中不包括所述待处理地址的最后一个字符,将所述待匹配字段在所述待处理地址中最后一个字符的下一个字符的位置重新确定为待匹配字段的结束位置;
将位于所述开始位置和所述结束位置之内的字符重新确定为待匹配字段,返回执行将所述待匹配字段与所述地址树中第i层级的标准字段进行匹配的步骤,直至确定所述基础字段对应的第一目标标准字段。
可选地,所述确定模块604还用于:
若匹配失败,且所述待匹配字段中包括所述待处理地址的最后一个字符,生成层级缺失标记,其中,所述层级缺失标记中包括所述第i层级的层级标识;
将所述待匹配字段中第一个字符的位置重新确定为开始位置和结束位置;
将位于所述开始位置和所述结束位置之内的字符重新确定为待匹配字段,令i=i+1,返回执行将所述待匹配字段与所述地址树中第i层级的标准字段进行匹配的步骤,直至确定所述基础字段对应的第一目标标准字段。
可选地,所述确定模块604用于:
获取生成的至少一个层级缺失标记;
确定所述至少一个层级缺失标记中包括的层级标识对应的缺失层级,得到至少一个缺失层级;
从所述地址树中确定所述至少一个缺失层级对应的缺失标准字段;
按照所述第一目标标准字段、至少一个所述第二目标标准字段和至少一个所述缺失标准字段分别对应的层级之间的层级结构,对所述第一目标标准字段、至少一个所述第二目标标准字段和至少一个所述缺失标准字段进行排序组合,得到所述目标标准地址。
可选地,所述确定模块604用于:
若所述缺失层级的数量为多个,将所述多个缺失层级中层级最低的缺失层级作为目标缺失层级;
从所述地址树中查询所述目标缺失层级的下一个层级;
基于所述目标缺失层级的下一个层级对应的目标标准字段,从所述地址树中确定所述目标缺失层级的缺失标准字段;
将所述目标缺失层级从所述多个缺失层级中删除,得到缺失层级组;
将所述缺失层级组中层级最低的缺失层级重新作为目标缺失层级,返回执行从所述地址树中查询所述目标缺失层级的下一个层级的步骤,直至所述缺失层级组中不存在缺失层级。
可选地,所述确定模块604用于:
按照所述第一目标标准字段和至少一个所述第二目标标准字段分别对应的层级之间的层级结构,对所述第一目标标准字段和至少一个所述第二目标标准字段进行排序组合,得到所述目标标准地址。
可选地,所述确定模块604还用于:
获取多个标准地址,其中,每个标准地址包括至少两个层级的标准字段;
按照每个标准地址中的层级,基于所述多个标准地址的标准字段建立所述地址树。
本说明书提供的地址处理方法,获取待处理地址,其中,所述待处理地址包括基础字段以及至少一个参考字段,所述基础字段为所述待处理地址指向的最小地域范围信息的字段,所述参考字段为所述待处理地址中除所述基础字段外的指向其他层级地域范围信息的字段;将所述基础字段以及至少一个参考字段与预先建立的地址树中至少两个层级的标准字段进行匹配,确定所述待处理地址对应的目标标准地址。上述方法不需要对待处理地址进行分词,只需将待处理地址中的字段与预先建立的地址树中的标准字段进行匹配,便可以得到待处理地址对应的目标标准地址,降低了地址处理的复杂程度,进而提高了地址处理的效率。
上述为本实施例的一种地址处理装置的示意性方案。需要说明的是,该地址处理装置的技术方案与上述的地址处理方法的技术方案属于同一构思,地址处理装置的技术方案未详细描述的细节内容,均可以参见上述地址处理方法的技术方案的描述。
图7示出了根据本说明书一个实施例提供的一种计算设备700的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接,数据库750用于保存数据。
计算设备700还包括接入设备740,接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图7所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备700可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备700还可以是移动式或静止式的服务器。
其中,处理器720用于执行如下计算机可执行指令:
获取待处理地址,其中,所述待处理地址包括基础字段以及至少一个参考字段,所述基础字段为所述待处理地址指向的最小地域范围信息的字段,所述参考字段为所述待处理地址中除所述基础字段外的指向其他层级地域范围信息的字段;
将所述基础字段以及至少一个参考字段与预先建立的地址树中至少两个层级的标准字段进行匹配,确定所述待处理地址对应的目标标准地址。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的地址处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述地址处理方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于:
获取待处理地址,其中,所述待处理地址包括基础字段以及至少一个参考字段,所述基础字段为所述待处理地址指向的最小地域范围信息的字段,所述参考字段为所述待处理地址中除所述基础字段外的指向其他层级地域范围信息的字段;
将所述基础字段以及至少一个参考字段与预先建立的地址树中至少两个层级的标准字段进行匹配,确定所述待处理地址对应的目标标准地址。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的地址处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述地址处理方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书并不受所描述的动作顺序的限制,因为依据本说明书,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (14)

1.一种地址处理方法,其特征在于,所述方法包括:
获取待处理地址,其中,所述待处理地址包括基础字段以及至少一个参考字段,所述基础字段为所述待处理地址指向的最小地域范围信息的字段,所述参考字段为所述待处理地址中除所述基础字段外的指向其他层级地域范围信息的字段;
将所述基础字段以及至少一个参考字段与预先建立的地址树中至少两个层级的标准字段进行匹配,确定所述待处理地址对应的目标标准地址。
2.如权利要求1所述的地址处理方法,其特征在于,所述将所述基础字段以及至少一个参考字段与预先建立的地址树中至少两个层级的标准字段进行匹配,确定所述待处理地址对应的目标标准地址,包括:
将所述基础字段以及至少一个参考字段与预先建立的地址树中至少两个层级的标准字段进行匹配,确定所述基础字段对应的第一目标标准字段,以及所述至少一个参考字段对应的第二目标标准字段;
根据第一目标标准字段和至少一个所述第二目标标准字段,确定所述目标标准地址。
3.如权利要求2所述的地址处理方法,其特征在于,所述地址树中包括M个层级,且所述M为大于1的正整数,所述标准字段的长度为N,且所述N为大于0的正整数,所述将所述基础字段以及至少一个参考字段与预先建立的地址树中至少两个层级的标准字段进行匹配,包括:
将所述待处理地址中第一个字符的位置确定为待匹配字段的开始位置和结束位置;
将位于所述开始位置和所述结束位置之内的字符确定为所述待匹配字段;
将所述待匹配字段与所述地址树中第i层级的标准字段进行匹配,其中,所述i为大于0且小于或等于M的正整数;
若匹配成功,且所述待匹配字段中不包括所述基础字段的字符,将所述第i层级中与所述待匹配字段匹配的标准字段确定为所述待处理地址中所述目标参考字段对应的第二目标标准字段,其中,所述目标参考字段为所述至少一个参考字段中的任一参考字段;
获取所述待处理地址中以所述待匹配字段中第一个字符为起点,长度为N的目标字段;
若所述目标字段与所述第i层级中与所述待匹配字段匹配的标准字段相同,将所述目标字段在所述待处理地址中最后一个字符的下一个字符的位置重新确定为待匹配字段的开始位置和结束位置;
将位于所述开始位置和所述结束位置之内的字符重新确定为待匹配字段,令i=i+1,返回执行将所述待匹配字段与所述地址树中第i层级的标准字段进行匹配的步骤,直至确定所述基础字段对应的第一目标标准字段。
4.如权利要求3所述的地址处理方法,其特征在于,所述方法还包括:
若所述目标字段与所述第i层级中与所述待匹配字段匹配的标准字段不相同,将所述待匹配字段在所述待处理地址中最后一个字符的下一个字符的位置重新确定为待匹配字段的开始位置和结束位置;
将位于所述开始位置和所述结束位置之内的字符重新确定为待匹配字段,令i=i+1,返回执行将所述待匹配字段与所述地址树中第i层级的标准字段进行匹配的步骤,直至确定所述基础字段对应的第一目标标准字段。
5.如权利要求3所述的地址处理方法,其特征在于,所述方法还包括:
若匹配成功,且所述待匹配字段中不包括所述至少一个参考字段的字符,将所述第i层级中与所述待匹配字段匹配的标准字段确定为所述基础字段对应的第一目标标准字段。
6.如权利要求3所述的地址处理方法,其特征在于,所述方法还包括:
若匹配失败,且所述待匹配字段中不包括所述待处理地址的最后一个字符,将所述待匹配字段在所述待处理地址中最后一个字符的下一个字符的位置重新确定为待匹配字段的结束位置;
将位于所述开始位置和所述结束位置之内的字符重新确定为待匹配字段,返回执行将所述待匹配字段与所述地址树中第i层级的标准字段进行匹配的步骤,直至确定所述基础字段对应的第一目标标准字段。
7.如权利要求3所述的地址处理方法,其特征在于,所述方法还包括:
若匹配失败,且所述待匹配字段中包括所述待处理地址的最后一个字符,生成层级缺失标记,其中,所述层级缺失标记中包括所述第i层级的层级标识;
将所述待匹配字段中第一个字符的位置重新确定为开始位置和结束位置;
将位于所述开始位置和所述结束位置之内的字符重新确定为待匹配字段,令i=i+1,返回执行将所述待匹配字段与所述地址树中第i层级的标准字段进行匹配的步骤,直至确定所述基础字段对应的第一目标标准字段。
8.如权利要求7所述的地址处理方法,其特征在于,所述根据第一目标标准字段和至少一个所述第二目标标准字段,确定所述目标标准地址,包括:
获取生成的至少一个层级缺失标记;
确定所述至少一个层级缺失标记中包括的层级标识对应的缺失层级,得到至少一个缺失层级;
从所述地址树中确定所述至少一个缺失层级对应的缺失标准字段;
按照所述第一目标标准字段、至少一个所述第二目标标准字段和至少一个所述缺失标准字段分别对应的层级之间的层级结构,对所述第一目标标准字段、至少一个所述第二目标标准字段和至少一个所述缺失标准字段进行排序组合,得到所述目标标准地址。
9.如权利要求8所述的地址处理方法,其特征在于,所述从所述地址树中确定所述至少一个缺失层级对应的缺失标准字段,包括:
若所述缺失层级的数量为多个,将所述多个缺失层级中层级最低的缺失层级作为目标缺失层级;
从所述地址树中查询所述目标缺失层级的下一个层级;
基于所述目标缺失层级的下一个层级对应的目标标准字段,从所述地址树中确定所述目标缺失层级的缺失标准字段;
将所述目标缺失层级从所述多个缺失层级中删除,得到缺失层级组;
将所述缺失层级组中层级最低的缺失层级重新作为目标缺失层级,返回执行从所述地址树中查询所述目标缺失层级的下一个层级的步骤,直至所述缺失层级组中不存在缺失层级。
10.如权利要求2-6中任一项所述的地址处理方法,其特征在于,所述根据第一目标标准字段和至少一个所述第二目标标准字段,确定所述目标标准地址,包括:
按照所述第一目标标准字段和至少一个所述第二目标标准字段分别对应的层级之间的层级结构,对所述第一目标标准字段和至少一个所述第二目标标准字段进行排序组合,得到所述目标标准地址。
11.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取多个标准地址,其中,每个标准地址包括至少两个层级的标准字段;
按照每个标准地址中的层级,基于所述多个标准地址的标准字段建立所述地址树。
12.一种地址处理装置,其特征在于,包括:
获取模块,用于获取待处理地址,其中,所述待处理地址包括基础字段以及至少一个参考字段,所述基础字段为所述待处理地址指向的最小地域范围信息的字段,所述参考字段为所述待处理地址中除所述基础字段外的指向其他层级地域范围信息的字段;
确定模块,用于将所述基础字段以及至少一个参考字段与预先建立的地址树中至少两个层级的标准字段进行匹配,确定所述待处理地址对应的目标标准地址。
13.一种计算设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现下述方法:
获取待处理地址,其中,所述待处理地址包括基础字段以及至少一个参考字段,所述基础字段为所述待处理地址指向的最小地域范围信息的字段,所述参考字段为所述待处理地址中除所述基础字段外的指向其他层级地域范围信息的字段;
将所述基础字段以及至少一个参考字段与预先建立的地址树中至少两个层级的标准字段进行匹配,确定所述待处理地址对应的目标标准地址。
14.一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现权利要求1至11任意一项所述地址处理方法的步骤。
CN202011323032.7A 2020-11-23 2020-11-23 地址处理方法及装置 Pending CN112417179A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011323032.7A CN112417179A (zh) 2020-11-23 2020-11-23 地址处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011323032.7A CN112417179A (zh) 2020-11-23 2020-11-23 地址处理方法及装置

Publications (1)

Publication Number Publication Date
CN112417179A true CN112417179A (zh) 2021-02-26

Family

ID=74778350

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011323032.7A Pending CN112417179A (zh) 2020-11-23 2020-11-23 地址处理方法及装置

Country Status (1)

Country Link
CN (1) CN112417179A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113656450A (zh) * 2021-07-12 2021-11-16 大箴(杭州)科技有限公司 地址处理方法及装置、电子设备、存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050018683A1 (en) * 2003-07-21 2005-01-27 Zhao Yigiang Q. IP address storage technique for longest prefix match
CN101719128A (zh) * 2009-12-31 2010-06-02 浙江工业大学 一种基于模糊匹配的中文地理编码确定方法
US20150052124A1 (en) * 2013-08-13 2015-02-19 Mapquest, Inc. Systems and methods for processing search queries utilizing hierarchically organized data
CN106557574A (zh) * 2016-11-23 2017-04-05 广东电网有限责任公司佛山供电局 基于树结构的目标地址匹配方法和系统
CN107748778A (zh) * 2017-10-20 2018-03-02 浪潮软件股份有限公司 一种提取地址的方法及装置
JP2018101244A (ja) * 2016-12-20 2018-06-28 ソフトバンク株式会社 データクレンジングシステム、データクレンジング方法及びデータクレンジングプログラム
CN108959244A (zh) * 2018-06-07 2018-12-07 北京京东尚科信息技术有限公司 地址分词的方法和装置
CN109299469A (zh) * 2018-10-29 2019-02-01 复旦大学 一种在长文本中识别复杂住址的方法
CN109815498A (zh) * 2019-01-25 2019-05-28 深圳市小赢信息技术有限责任公司 一种中文地址标准化方法、装置及电子设备
CN110569239A (zh) * 2019-09-19 2019-12-13 圆通速递有限公司 一种快递包裹地址标准化的方法和系统
US10810258B1 (en) * 2018-01-04 2020-10-20 Amazon Technologies, Inc. Efficient graph tree based address autocomplete and autocorrection

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050018683A1 (en) * 2003-07-21 2005-01-27 Zhao Yigiang Q. IP address storage technique for longest prefix match
CN101719128A (zh) * 2009-12-31 2010-06-02 浙江工业大学 一种基于模糊匹配的中文地理编码确定方法
US20150052124A1 (en) * 2013-08-13 2015-02-19 Mapquest, Inc. Systems and methods for processing search queries utilizing hierarchically organized data
CN106557574A (zh) * 2016-11-23 2017-04-05 广东电网有限责任公司佛山供电局 基于树结构的目标地址匹配方法和系统
JP2018101244A (ja) * 2016-12-20 2018-06-28 ソフトバンク株式会社 データクレンジングシステム、データクレンジング方法及びデータクレンジングプログラム
CN107748778A (zh) * 2017-10-20 2018-03-02 浪潮软件股份有限公司 一种提取地址的方法及装置
US10810258B1 (en) * 2018-01-04 2020-10-20 Amazon Technologies, Inc. Efficient graph tree based address autocomplete and autocorrection
CN108959244A (zh) * 2018-06-07 2018-12-07 北京京东尚科信息技术有限公司 地址分词的方法和装置
CN109299469A (zh) * 2018-10-29 2019-02-01 复旦大学 一种在长文本中识别复杂住址的方法
CN109815498A (zh) * 2019-01-25 2019-05-28 深圳市小赢信息技术有限责任公司 一种中文地址标准化方法、装置及电子设备
CN110569239A (zh) * 2019-09-19 2019-12-13 圆通速递有限公司 一种快递包裹地址标准化的方法和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113656450A (zh) * 2021-07-12 2021-11-16 大箴(杭州)科技有限公司 地址处理方法及装置、电子设备、存储介质

Similar Documents

Publication Publication Date Title
CN109885576B (zh) 一种哈希表创建方法及系统、计算设备及存储介质
US9235651B2 (en) Data retrieval apparatus, data storage method and data retrieval method
CN108846133B (zh) 基于b-m树的区块链存储结构、b-m树建立算法及查找算法
CN111868710B (zh) 搜索大规模非结构化数据的随机提取森林索引结构
CN107153647B (zh) 进行数据压缩的方法、装置、系统和计算机程序产品
CN106326475B (zh) 一种高效的静态哈希表实现方法及系统
US20230161822A1 (en) Fast and accurate geomapping
US11106708B2 (en) Layered locality sensitive hashing (LSH) partition indexing for big data applications
WO2018161548A1 (zh) 一种基于二值码字典树的搜索方法
CN107330094B (zh) 动态存储键值对的布鲁姆过滤器树结构及键值对存储方法
CN107357843B (zh) 基于数据流结构的海量网络数据查找方法
CN112256821B (zh) 中文地址补全的方法、装置、设备及存储介质
CN114691721A (zh) 图数据的查询方法、装置、电子设备及存储介质
CN105357247A (zh) 基于分层云对等网络的多维属性云资源区间查找方法
CN112417179A (zh) 地址处理方法及装置
CN105912696A (zh) 一种基于对数归并的dns索引创建方法及查询方法
CN108304384B (zh) 拆词方法及设备
CN107807976A (zh) Ip归属地查询方法和装置
CN111723092A (zh) 数据处理方法及装置
CN109657108B (zh) 一种域名资产数据存储和查询方法和系统
Kniesburges et al. Hashed Patricia Trie: Efficient longest prefix matching in peer-to-peer systems
KR101587756B1 (ko) 블룸 필터 선-검색을 이용한 스트링 정보 검색 장치 및 방법
CN111984807B (zh) 一种内容筛选存储方法及系统
CN116304253B (zh) 数据存储方法、数据检索方法和识别相似视频的方法
CN111460314B (zh) 一种基于三角子图划分的社交网络子图嵌入方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination