CN112115214A

CN112115214A - 地址标准化方法、地址标准化装置和电子设备

Info

Publication number: CN112115214A
Application number: CN201910535039.6A
Authority: CN
Inventors: 刘志玲; 党亚瑞; 李莉
Original assignee: Sino Credit Information Technology Beijing Co ltd
Current assignee: Sino Credit Information Technology Beijing Co ltd
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2020-12-22
Anticipated expiration: 2039-06-20
Also published as: CN112115214B

Abstract

公开了一种地址标准化方法、地址标准化装置和电子设备。该地址标准化方法包括：获取基于标准行政区域地址的地址查询树；基于最小熵的最大正向模糊匹配将地址字符串划分为多个地址词；基于所述地址查询树针对所述多个地址词中的每个地址词确定至少一个地址序列；以及，基于所述至少一个地址序列中最长的地址序列获得所述地址字符串对应的标准地址。这样，实现了地址标准化的健壮性和容错性。

Description

地址标准化方法、地址标准化装置和电子设备

技术领域

本申请涉及数据处理技术领域，且更为具体地，涉及一种地址标准化方法、地址标准化装置和电子设备。

背景技术

随着社会信息化速度的加快，地址信息作为用户的重要信息之一，在多的领域中得到广泛的应用。

具体地，地址匹配技术不仅在数字城市建设、快递行业有日益增长的需求，同时在信贷申请反欺诈领域中也有越来越重要的应用。

由于我国地址填写和/或书写的不规范性(例如，各种简写、缩写情况)及多样性(例如，城市化快速发展导致地址名称的变化)，在进行地址匹配之前，需要对地址进行标准化。

但是，目前的地址标准化方法由于受到上述地址的不规范性和多样性的影响，常常无法很好地应用。

因此，期望提供改进的地址标准化方法。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种地址标准化方法、地址标准化装置和电子设备，其能够基于最小熵的最大正向模糊匹配将地址字符串划分为多个地址词并基于地址查询树从该多个地址词确定标准地址，实现了地址标准化的健壮性和容错性。

根据本申请的一个方面，提供了一种地址标准化方法，包括：获取基于标准行政区域地址的地址查询树；基于最小熵的最大正向模糊匹配将地址字符串划分为多个地址词；基于所述地址查询树针对所述多个地址词中的每个地址词确定至少一个地址序列；以及，基于所述至少一个地址序列中最长的地址序列获得所述地址字符串对应的标准地址。

在上述地址标准化方法中，基于最小熵的最大正向模糊匹配将地址字符串划分为多个地址词包括：针对所述地址字符串中的第一字符及将所述第一字符递增一个字符获得的第一字符串，通过模糊查询获取所述第一字符串在地址库中的命中地址集以及与所述命中地址集中的地址数目对应的地址熵；确定所述地址熵是否满足预定条件；响应于所述地址熵满足预定条件，基于所述第一字符串确定第一地址词；以及，针对所述地址字符串中除所述第一字符串外的其它字符，重复以上步骤以获得多个地址词。

在上述地址标准化方法中，所述预定条件包括所述地址熵对应的所述命中地址集中的地址数目为零。

在上述地址标准化方法中，响应于所述地址熵满足预定条件，基于所述第一字符串确定第一地址词包括：响应于所述地址熵满足预定条件，所述地址熵对应的所述命中地址集中的地址数目不为零的所有字符串按照所述地址数目和字符串长度排列；以及，将地址数目最小且字符串长度最长的字符串确定为所述第一地址词。

在上述地址标准化方法中，所述预定条件包括所述第一字符串的长度大于或者等于预定阈值。

在上述地址标准化方法中，基于所述地址查询树针对所述多个地址词中的每个地址词确定至少一个地址序列包括：针对所述多个地址词的每个地址词，确定当前地址词与下一地址词的地址词本身、上级地址词和上上级地址词是否匹配；响应于所述当前地址词与所述下一地址词的上级地址词匹配，确定所述地址序列为所述当前地址词和下一地址词；响应于所述当前地址词与所述下一地址词的上上级地址词匹配，确定所述地址序列为所述当前地址词和所述下一地址词的上级地址词和所述下一地址词；响应于所述当前地址词与所述下一地址词的地址词本身匹配，确定所述地址序列为所述下一地址词；以及，在其它情况下，确定所述当前地址词和下一地址词为不同地址序列。

在上述地址标准化方法中，基于所述至少一个地址序列中最长的地址序列获得所述地址字符串对应的标准地址包括：将所述至少一个地址序列中最长的地址序列确定为所述地址字符串对应的标准地址；以及，将所述地址字符串中所述最长的地址序列之后的字符串作为所述地址字符串对应的非标准地址。

根据本申请的另一方面，提供了一种地址标准化装置，包括：查询树获取单元，用于获取基于标准行政区域地址的地址查询树；地址词划分单元，用于基于最小熵的最大正向模糊匹配将地址字符串划分为多个地址词；地址序列确定单元，用于基于所述地址查询树针对所述多个地址词中的每个地址词确定至少一个地址序列；以及，标准地址获得单元，用于基于所述至少一个地址序列中最长的地址序列获得所述地址字符串对应的标准地址。

在上述地址标准化装置中，所述地址词划分单元包括：地址熵计算子单元，用于针对所述地址字符串中的第一字符及将所述第一字符递增一个字符获得的第一字符串，通过模糊查询获取所述第一字符串在地址库中的命中地址集以及与所述命中地址集中的地址数目对应的地址熵；地址熵确定子单元，用于确定所述地址熵是否满足预定条件；地址词确定子单元，用于响应于所述地址熵满足预定条件，基于所述第一字符串确定第一地址词；以及，所述地址熵计算子单元、所述地址熵确定子单元和所述地址词确定子单元针对所述地址字符串中除所述第一字符串外的其它字符，重复执行各自的步骤以获得多个地址词。

在上述地址标准化装置中，所述预定条件包括所述地址熵对应的所述命中地址集中的地址数目为零。

在上述地址标准化装置中，所述地址词确定子单元用于：响应于所述地址熵满足预定条件，所述地址熵对应的所述命中地址集中的地址数目不为零的所有字符串按照所述地址数目和字符串长度排列；以及，将地址数目最小且字符串长度最长的字符串确定为所述第一地址词。

在上述地址标准化装置中，所述预定条件包括所述第一字符串的长度大于或者等于预定阈值。

在上述地址标准化装置中，所述地址序列确定单元包括：匹配确定子单元，用于针对所述多个地址词的每个地址词，确定当前地址词与下一地址词的地址词本身、上级地址词和上上级地址词是否匹配；以及，序列分配子单元，用于：响应于所述当前地址词与所述下一地址词的上级地址词匹配，确定所述地址序列为所述当前地址词和下一地址词；响应于所述当前地址词与所述下一地址词的上上级地址词匹配，确定所述地址序列为所述当前地址词和所述下一地址词的上级地址词和所述下一地址词；响应于所述当前地址词与所述下一地址词的地址词本身匹配，确定所述地址序列为所述下一地址词；以及，在其它情况下，确定所述当前地址词和下一地址词为不同地址序列。

在上述地址标准化装置中，所述标准地址获得单元包括：标准地址获得子单元，用于将所述至少一个地址序列中最长的地址序列确定为所述地址字符串对应的标准地址；以及，非标准地址获得子单元，用于将所述地址字符串中所述最长的地址序列之后的字符串作为所述地址字符串对应的非标准地址。

根据本申请的再一方面，提供了一种电子设备，包括：处理器；以及，存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的地址标准化方法。

根据本申请的又一方面，提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的地址标准化方法。

与现有技术相比，本申请提供的地址标准化方法、地址标准化装置和电子设备能够基于最小熵的最大正向模糊匹配将地址字符串划分为多个地址词，并基于地址查询树从该多个地址词确定标准地址，这样，能够对地址的简写、误写等情况进行标准化处理，从而实现了地址标准化的健壮性和容错性。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1图示了根据本申请实施例的地址标准化方法的流程图。

图2图示了根据本申请实施例的地址标准化方法的示意性切词过程的流程图。

图3图示了根据本申请实施例的地址标准化方法的示意性地址序列生成过程的流程图。

图4图示了根据本申请实施例的地址标准化装置的框图。

图5图示了根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

如上所述，我国目前的地址信息通常包含三个层次，即行政区级别、道路/小区级别和楼栋/门牌级别。

并且，通常基于行政区级别的地址标准化方法不能很好的处理类似于简写(例如，呼和浩特市简称为呼市)，或者误写(例如：广州省珠海市香洲区)等情况。

对于以上技术问题，本申请的基本构思是首先基于最小熵的最大正向模糊匹配将地址字符串划分为多个地址词，然后对于所述多个地址词通过基于标准行政区域地址的地址查询树来确定作为标准地址的地址序列。

具体地，本申请提供的地址标准化方法、地址标准化装置和电子设备首先获取基于标准行政区域地址的地址查询树，然后基于最小熵的最大正向模糊匹配将地址字符串划分为多个地址词，再基于所述地址查询树针对所述多个地址词中的每个地址词确定至少一个地址序列，最后基于所述至少一个地址序列中最长的地址序列获得所述地址字符串对应的标准地址。

这样，能够对地址的简写、误写等情况进行标准化处理，从而实现了地址标准化的健壮性和容错性。

值得注意的是，本申请提供的地址标准化方法、地址标准化装置和电子设备并不限定所处理的地址字符串的字符类型，例如，所述地址字符串可以是中文字符，也可以是其它语言的字符，都可以通过本申请提供的地址标准化方法、地址标准化装置和电子设备进行标准化处理。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性方法

图1图示了根据本申请实施例的地址标准化方法的流程图。

如图1所示，根据本申请实施例的地址标准化方法包括：S110，获取基于标准行政区域地址的地址查询树；S120，基于最小熵的最大正向模糊匹配将地址字符串划分为多个地址词；S130，基于所述地址查询树针对所述多个地址词中的每个地址词确定至少一个地址序列；以及S140，基于所述至少一个地址序列中最长的地址序列获得所述地址字符串对应的标准地址。

在步骤S110中，获取基于标准行政区域地址的地址查询树。具体地，可以根据国家统计局公布的标准行政区域地址建立地址查询树。并且，为了便于应用，可以针对每个行政区域设置编号，例如，“安徽省”设置为编号1、“安庆市”设置为编号为2、等等。

另外，对于所述地址查询树中的每个行政区域地址，所述地址查询树进一步包括其上级地址和上上级地址，并且，所述上级地址和所述上上级地址也可以通过地址编号表示。也就是，根据针对每个行政区域设置的地址编号，找到每个地址的上级编号和上上级编号。由于我国行政区域地址的最高一级即为省级地址，因此设置省级地址的上级地址编号为0，而省级地址的上上级地址编号为空。以下表1示出了地址查询树的示例。

【表1】

地址编号	上级地址编号	上上级地址编号	地址
				1	0		安徽省
2	1	0	安庆市
				3	2	1	大观区
4	3	2	德宽路街道
				5	3	2	海口镇
6	2	1	怀宁县
				7	6	2	高河镇

另外，为了清晰地表示各个行政区域之间的层级，在地址查询树中可以进一步包括地址层级。以下表2示出了包含地址层级的地址查询树的示例。

【表2】

在步骤S120中，基于最小熵的最大正向模糊匹配将地址字符串划分为多个地址词。也就是说，为了获得准确的标准化地址，需要对于整个地址字符串进行切词。

在本申请实施例中，整个切词过程由内外两层循环构成，其中，外层循环遍历整个地址字符串，而内层循环以外层循环指向的字符为出发点，逐个增加字符进行模糊匹配直至达到停止条件。

具体地，设置外部循环的遍历指针首先指向所述地址字符串的最左侧地址，开始内部循环。

所述内部循环包括：

1)从内部循环的遍历指针指向的字符开始，初始化为所述地址字符串的最左侧字符，首先选出第一个字符，采用模糊查询的方法查找该字符在地址库中的命中地址集，并记录该集合所对应的地址熵。

2)增加一个字符继续查找其命中地址集，并记录该集合所对应的地址熵。

这里，命中地址集标示该字符串可能对应的地址集，定义该集合的地址熵为所述命中地址集中的地址数目，这意味着其表示确定唯一地址的混乱程度。例如，字符串“呼伦”通过模糊查询命中的地址集为{“呼伦贝尔市”，“呼伦街道”，“呼伦苏木”}，那么定义该字符串对应的地址熵为3。这里，本领域技术人员可以理解，所述地址熵也可以为其它形式，例如-log(1/3)。地址熵度量了该字符串确定地址的混乱程度，如果地址熵为1，则该字符串可以唯一地确定一个地址，地址熵越大，能够唯一确定一个地址的可能性越小。

3)重复递增字符串的步骤，直至满足停止条件。这里，停止条件可以为命中地址集为空，也就是，所述字符串不能够通过模糊查询命中地址库中的任意一个地址。

此外，由于所要划分的地址词对应于一个地址名称，通常地址词的字符串长度不会太长。因此，为了提高切词的精确性，可以进一步设置字符串长度的长度阈值，即，如果字符串长度大于或等于预定阈值，则停止该内部循环。

4)确定切词位置以及对应的命中地址集。这里，在上述停止条件为命中地址集为空的情况下，当前满足所述停止条件的字符串应该排除在外，因此，参与确定地址词的字符串应该是所有命中地址集不为空的字符串。并且，针对所有字符串，例如，可以按照地址熵的升序排列，并且按照字符串长度的降序排列，选择第一个字符串作为切词位置。

5)将内部循环的遍历指针指向所述切词位置后面的字符。

然后，重复上述内部循环的步骤，直到完成所有切词。

因此，在根据本申请实施例的地址标准化方法中，基于最小熵的最大正向模糊匹配将地址字符串划分为多个地址词包括：针对所述地址字符串中的第一字符及将所述第一字符递增一个字符获得的第一字符串，通过模糊查询获取所述第一字符串在地址库中的命中地址集以及与所述命中地址集中的地址数目对应的地址熵；确定所述地址熵是否满足预定条件；响应于所述地址熵满足预定条件，基于所述第一字符串确定第一地址词；以及，针对所述地址字符串中除所述第一字符串外的其它字符，重复以上步骤以获得多个地址词。

此外，在根据本申请实施例的地址标准化方法中，所述预定条件包括所述地址熵对应的所述命中地址集中的地址数目为零。

并且，在上述地址标准化方法中，响应于所述地址熵满足预定条件，基于所述第一字符串确定第一地址词包括：响应于所述地址熵满足预定条件，所述地址熵对应的所述命中地址集中的地址数目不为零的所有字符串按照所述地址数目和字符串长度排列；以及，将地址数目最小且字符串长度最长的字符串确定为所述第一地址词。

另外，在根据本申请实施例的地址标准化方法中，所述预定条件包括所述第一字符串的长度大于或者等于预定阈值。

如图2所示，所述切词过程包括：

在步骤S210中，针对所述地址字符串中的第一字符及将所述第一字符递增一个字符获得的第一字符串，通过模糊查询获取所述第一字符串在地址库中的命中地址集以及与所述命中地址集中的地址数目对应的地址熵。

在步骤S220中，确定所述地址熵是否为零。

在步骤S230中，响应于所述地址熵为零，将地址熵不为零的所有第一字符串按照地址熵的升序和字符串长度的降序排序。

在步骤S240中，将所述序列中的首个字符串确定为第一地址词。

在步骤S250中，针对所述地址字符串中除所述第一字符串外的其它字符，重复以上步骤以获得多个地址词。

例如，针对地址字符串“广州市珠海市香洲区路桥北街12号”，首先，遍历指针指向字符“广”，从该字符开始内部循环：

对于字符串“广”，通过模糊查询，在地址库中命中138条记录，那么所述字符串“广”的地址熵为138；

增加一个字符，得到字符串“广州”，通过模糊查询，在地址库中命中2条记录，那么所述字符串“广州”的地址熵为2；

增加一个字符，得到字符串“广州市”，通过模糊查询，在地址库中命中1条记录，那么所述字符串“广州市”的地址熵为1；

增加一个字符，得到字符串“广州市珠”，通过模糊查询，在地址库中命中0条记录，那么所述字符串“广州市珠”的地址熵为0，停止内部循环。

接下来，对得到的所有地址熵不为0的字符串序列，按照对应的地址熵的升序，字符串长度的降序排列，得到序列：“广州市”、“广州”、“广”，则可以确定切词位置在“广州市”后面，得到词“广州市”；

然后，内部循环的遍历指针指向“广州市”后面的字符“珠”，重复上述过程，得到切词列表：“广州市”，“珠海市”，“香洲区”，“路桥”，“北街”，“1”，“2”，“号”。

在步骤S130中，基于所述地址查询树针对所述多个地址词中的每个地址词确定至少一个地址序列。

具体地，由于在所述地址查询树中包括每个地址词对应的行政区域地址及其上级地址和上上级地址，可以通过相邻地址词之间的行政区域地址匹配来确定地址序列。

并且，在本申请实施例中，所述地址查询树可以包括行政区域地址的地址词本身，也可以包括其地址编号，因此，可以通过地址编号的匹配来确定行政区域地址的匹配。

具体的匹配逻辑可以为：

1)如果当前词与下一个词对应的上级地址词匹配，则当前词和下一个词在同一个地址序列中，对应的地址序列为(当前词，下一个词)；

2)如果当前词与下一个词对应的上上级地址词匹配，则当前词和下一个词在同一个地址序列中，对应的地址序列为(当前词，下一个词的上级地址词，下一个词)；

3)如果当前词与下一个词匹配，则当前词和下一个词在同一个地址序列中，对应的地址序列为(下一个词)；

4)在其他情况下，两个词分属不同的地址序列。

也就是，在根据本申请实施例的地址标准化方法中，基于所述地址查询树针对所述多个地址词中的每个地址词确定至少一个地址序列包括：针对所述多个地址词的每个地址词，确定当前地址词与下一地址词的地址词本身、上级地址词和上上级地址词是否匹配；响应于所述当前地址词与所述下一地址词的上级地址词匹配，确定所述地址序列为所述当前地址词和下一地址词；响应于所述当前地址词与所述下一地址词的上上级地址词匹配，确定所述地址序列为所述当前地址词和所述下一地址词的上级地址词和所述下一地址词；响应于所述当前地址词与所述下一地址词的地址词本身匹配，确定所述地址序列为所述下一地址词；以及，在其它情况下，确定所述当前地址词和下一地址词为不同地址序列。

如图3所示，所述地址序列生成过程包括：

在步骤S310中，针对所述多个地址词的每个地址词，获取当前地址词的地址编号及其下一地址词的地址编号，以及所述下一地址词的上级地址词的地址编号和上上级地址词的地址编号。

在步骤S320中，分别将所述当前地址词的地址编号与所述下一地址词的地址编号，以及所述下一地址词的上级地址词的地址编号和上上级地址词的地址编号匹配。

在步骤S330中，响应于所述当前地址词的地址编号与所述下一地址词的上级地址词的地址编号匹配，确定所述地址序列为{当前地址词的地址编号；下一地址词的地址编号}。

在步骤S340中，响应于所述当前地址词的地址编号与所述下一地址词的上上级地址词的地址编号匹配，确定所述地址序列为{当前地址词的地址编号；下一地址词的上级地址词的地址编号；下一地址词的地址编号}。

在步骤S350中，响应于所述当前地址词的地址编号与所述下一地址词的地址编号匹配，确定所述地址序列为{下一地址词的地址编号}。

在步骤S360中，响应于以上条件均不满足，确定所述地址序列为{当前地址词的地址编号}，{下一地址词的地址编号}。

以之前所述的切词结果“广州市”，“珠海市”，“香洲区”，“路桥”，“北街”，“1”，“2”，“号”为例。

第一个词“广州市”，第一个地址序列初始化为{“广州市”}

其对应的地址集为：

地址编号	上级地址编号	上上级地址编号	地址层级	地址
					4976	4836	0	2	广州市

下一个词“珠海市”，对应的地址集为：

地址编号	上级地址编号	上上级地址编号	地址层级	地址
					6691	4836	0	2	珠海市

根据上述判断逻辑，当前词和下一个词分属不同的地址序列，因此得到第一个地址序列{“广州市”}，且停止更新，得到第二个地址序列{珠海市}；

对于第二个词“珠海市”，当前待更新地址序列{“珠海市”}，

其下一个词“香洲区”对应的地址集为：

地址编号	上级地址编号	上上级地址编号	地址层级	地址
					6703	6691	4836	3	香洲区

根据前述逻辑，二者为同一个地址序列，因此第二个地址序列更新为{“珠海市”；“香洲区”}

对于第三个词“香洲区”，当前待更新地址序列为{“珠海市”；“香洲区”}

其下一个词对应的地址集为：

地址编号	上级地址编号	上上级地址编号	地址层级	地址
					10862	10858	10760	4	路桥乡

根据前述逻辑，二者不在同一个地址序列，因此第二个地址序列停止更新，得到第三个地址序列{“路桥乡”}

对于第四个词“北街”，当前待更新地址序列为{“路桥乡”}

其下一个词对应的地址集为：

地址编号	上级地址编号	上上级地址编号	地址层级	地址
					132	129	2	4	菱北街道
409	407	321	4	城北街道
					608	606	477	4	泉北街道
698	693	664	4	城北街道
					……	……	……	……	……

根据前述逻辑，二者不在同一个地址序列，因此第三个地址序列停止更新，得到第四个地址序列{“菱北街道”}；{“城北街道”}；……

第五、六个地址集均为空，跳过：

“1”：

地址编号	上级地址编号	上上级地址编号	地址层级	地址

“2”：

地址编号	上级地址编号	上上级地址编号	地址层级	地址

经判断，第七个地址集同样为单独的地址序列。

“号”：

最后，得到地址序列如下：

{“广州市”}

{“珠海市”；“香洲区”}

{“路桥乡”}

{“菱北街道”}；{“城北街道”}；……

{}

{“下西号乡”},{“马号乡”},……

在步骤S140中，基于所述至少一个地址序列中最长的地址序列获得所述地址字符串对应的标准地址。

也就是，将最长的地址序列作为所述地址字符串对应的标准地址，并且，所述最长的地址序列最后一个词可以作为标准行政区域与非标准行政区域的分界词。

因此，在根据本申请实施例的地址标准化方法中，基于所述至少一个地址序列中最长的地址序列获得所述地址字符串对应的标准地址包括：将所述至少一个地址序列中最长的地址序列确定为所述地址字符串对应的标准地址；以及，将所述地址字符串中所述最长的地址序列之后的字符串作为所述地址字符串对应的非标准地址。

例如，上述实例中的最长的地址序列为{“珠海市”；“香洲区”}，则标准化后的行政区级地址为：广东省-珠海市-香洲区，且非行政区级地址为：“路桥北街12号”。

如果出现多个最长地址序列，选取地址层级最大的最长地址序列作为最后的标准化的地址序列。

示例性装置

图4图示了根据本申请实施例的地址标准化装置的框图。

如图4所示，根据本申请实施例的地址标准化装置400包括：查询树获取单元410，用于获取基于标准行政区域地址的地址查询树；地址词划分单元420，用于基于最小熵的最大正向模糊匹配将地址字符串划分为多个地址词；地址序列确定单元430，用于基于所述查询树获取单元410所获取的地址查询树针对所述地址词划分单元420所划分的多个地址词中的每个地址词确定至少一个地址序列；以及，标准地址获得单元440，用于基于所述地址序列确定单元430所确定的所述至少一个地址序列中最长的地址序列获得所述地址字符串对应的标准地址。

在一个示例中，在上述地址标准化装置400中，所述地址词划分单元420包括：地址熵计算子单元，用于针对所述地址字符串中的第一字符及将所述第一字符递增一个字符获得的第一字符串，通过模糊查询获取所述第一字符串在地址库中的命中地址集以及与所述命中地址集中的地址数目对应的地址熵；地址熵确定子单元，用于确定所述地址熵是否满足预定条件；地址词确定子单元，用于响应于所述地址熵满足预定条件，基于所述第一字符串确定第一地址词；以及，所述地址熵计算子单元、所述地址熵确定子单元和所述地址词确定子单元针对所述地址字符串中除所述第一字符串外的其它字符，重复执行各自的步骤以获得多个地址词。

在一个示例中，在上述地址标准化装置400中，所述预定条件包括所述地址熵对应的所述命中地址集中的地址数目为零。

在一个示例中，在上述地址标准化装置400中，所述地址词确定子单元用于：响应于所述地址熵满足预定条件，所述地址熵对应的所述命中地址集中的地址数目不为零的所有字符串按照所述地址数目和字符串长度排列；以及，将地址数目最小且字符串长度最长的字符串确定为所述第一地址词。

在一个示例中，在上述地址标准化装置400中，所述预定条件包括所述第一字符串的长度大于或者等于预定阈值。

在一个示例中，在上述地址标准化装置400中，所述地址序列确定单元430包括：匹配确定子单元，用于针对所述多个地址词的每个地址词，确定当前地址词与下一地址词的地址词本身、上级地址词和上上级地址词是否匹配；以及，序列分配子单元，用于：响应于所述当前地址词与所述下一地址词的上级地址词匹配，确定所述地址序列为所述当前地址词和下一地址词；响应于所述当前地址词与所述下一地址词的上上级地址词匹配，确定所述地址序列为所述当前地址词和所述下一地址词的上级地址词和所述下一地址词；响应于所述当前地址词与所述下一地址词的地址词本身匹配，确定所述地址序列为所述下一地址词；以及，在其它情况下，确定所述当前地址词和下一地址词为不同地址序列。

在一个示例中，在上述地址标准化装置400中，所述标准地址获得单元440包括：标准地址获得子单元，用于将所述至少一个地址序列中最长的地址序列确定为所述地址字符串对应的标准地址；以及，非标准地址获得子单元，用于将所述地址字符串中所述最长的地址序列之后的字符串作为所述地址字符串对应的非标准地址。

这里，本领域技术人员可以理解，上述地址标准化装置400中的各个单元和模块的具体功能和操作已经在上面参考图1到图3的地址标准化方法的描述中得到了详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的地址标准化装置400可以实现在各种终端设备中，例如用于数字城市建设的服务器等。在一个示例中，根据本申请实施例的地址标准化装置400可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该地址标准化装置400可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该地址标准化装置400同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该地址标准化装置400与该终端设备也可以是分立的设备，并且该地址标准化装置400可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示例性电子设备

下面，参考图5来描述根据本申请实施例的电子设备。

图5图示了根据本申请实施例的电子设备的框图。

如图5所示，电子设备10包括一个或多个处理器11和存储器12。

处理器13可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的地址标准化方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如地址查询树、地址词、地址序列等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

该输入装置13可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括标准地址等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图5中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的地址标准化方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的地址标准化方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种地址标准化方法，包括：

获取基于标准行政区域地址的地址查询树；

基于最小熵的最大正向模糊匹配将地址字符串划分为多个地址词；

基于所述地址查询树针对所述多个地址词中的每个地址词确定至少一个地址序列；以及

基于所述至少一个地址序列中最长的地址序列获得所述地址字符串对应的标准地址。

2.根据权利要求1所述的地址标准化方法，其中，基于最小熵的最大正向模糊匹配将地址字符串划分为多个地址词包括：

针对所述地址字符串中的第一字符及将所述第一字符递增一个字符获得的第一字符串，通过模糊查询获取所述第一字符串在地址库中的命中地址集以及与所述命中地址集中的地址数目对应的地址熵；

确定所述地址熵是否满足预定条件；

响应于所述地址熵满足预定条件，基于所述第一字符串确定第一地址词；以及

针对所述地址字符串中除所述第一字符串外的其它字符，重复以上步骤以获得多个地址词。

3.根据权利要求2所述的地址标准化方法，其中，所述预定条件包括所述地址熵对应的所述命中地址集中的地址数目为零。

4.根据权利要求3所述的地址标准化方法，其中，响应于所述地址熵满足预定条件，基于所述第一字符串确定第一地址词包括：

响应于所述地址熵满足预定条件，所述地址熵对应的所述命中地址集中的地址数目不为零的所有字符串按照所述地址数目和字符串长度排列；以及

将地址数目最小且字符串长度最长的字符串确定为所述第一地址词。

5.根据权利要求2所述的地址标准化方法，其中，所述预定条件包括所述第一字符串的长度大于或者等于预定阈值。

6.根据权利要求1所述的地址标准化方法，其中，基于所述地址查询树针对所述多个地址词中的每个地址词确定至少一个地址序列包括：

针对所述多个地址词的每个地址词，确定当前地址词与下一地址词的地址词本身、上级地址词和上上级地址词是否匹配；

响应于所述当前地址词与所述下一地址词的上级地址词匹配，确定所述地址序列为所述当前地址词和下一地址词；

响应于所述当前地址词与所述下一地址词的上上级地址词匹配，确定所述地址序列为所述当前地址词和所述下一地址词的上级地址词和所述下一地址词；

响应于所述当前地址词与所述下一地址词的地址词本身匹配，确定所述地址序列为所述下一地址词；以及

在其它情况下，确定所述当前地址词和下一地址词为不同地址序列。

7.根据权利要求1所述的地址标准化方法，其中，基于所述至少一个地址序列中最长的地址序列获得所述地址字符串对应的标准地址包括：

将所述至少一个地址序列中最长的地址序列确定为所述地址字符串对应的标准地址；以及

将所述地址字符串中所述最长的地址序列之后的字符串作为所述地址字符串对应的非标准地址。

8.一种地址标准化装置，包括：

查询树获取单元，用于获取基于标准行政区域地址的地址查询树；

地址词划分单元，用于基于最小熵的最大正向模糊匹配将地址字符串划分为多个地址词；

地址序列确定单元，用于基于所述地址查询树针对所述多个地址词中的每个地址词确定至少一个地址序列；以及

标准地址获得单元，用于基于所述至少一个地址序列中最长的地址序列获得所述地址字符串对应的标准地址。

9.根据权利要求8所述的地址标准化装置，其中，所述地址词划分单元包括：

地址熵计算子单元，用于针对所述地址字符串中的第一字符及将所述第一字符递增一个字符获得的第一字符串，通过模糊查询获取所述第一字符串在地址库中的命中地址集以及与所述命中地址集中的地址数目对应的地址熵；

地址熵确定子单元，用于确定所述地址熵是否满足预定条件；

地址词确定子单元，用于响应于所述地址熵满足预定条件，基于所述第一字符串确定第一地址词；以及

所述地址熵计算子单元、所述地址熵确定子单元和所述地址词确定子单元针对所述地址字符串中除所述第一字符串外的其它字符，重复执行各自的步骤以获得多个地址词。

10.根据权利要求8所述的地址标准化装置，其中，所述地址序列确定单元包括：

匹配确定子单元，用于针对所述多个地址词的每个地址词，确定当前地址词与下一地址词的地址词本身、上级地址词和上上级地址词是否匹配；

序列分配子单元，用于：

11.根据权利要求8所述的地址标准化装置，其中，所述标准地址获得单元包括：

标准地址获得子单元，用于将所述至少一个地址序列中最长的地址序列确定为所述地址字符串对应的标准地址；以及

非标准地址获得子单元，用于将所述地址字符串中所述最长的地址序列之后的字符串作为所述地址字符串对应的非标准地址。

12.一种电子设备，包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-8中任一项所述的地址标准化方法。