CN117076590A

CN117076590A - 地址标准化方法、装置、计算机设备及可读存储介质

Info

Publication number: CN117076590A
Application number: CN202311026736.1A
Authority: CN
Inventors: 张玉霞; 刘玲; 王丽虹; 王朋飞; 刘欢
Original assignee: Ping An Bank Co Ltd
Current assignee: Ping An Bank Co Ltd
Priority date: 2023-08-15
Filing date: 2023-08-15
Publication date: 2023-11-17

Abstract

本申请公开了一种地址标准化方法、装置、计算机设备及可读存储介质。方法包括：根据地址库中的地址构建字典树；构建基于字典树的AC自动机；获取待匹配的地址字符，根据所述AC自动机对所述待匹配的地址字符按照预设规则进行拆分和匹配，得到输出结果。本申请对地址构建字典树并使用AC自动机完成地址标准化，大幅度地提升地址元素匹配的速度。对银行等各业务场景的地址进行有效清理和输出，提高地址信息在营销、反欺诈等领域的应用价值。

Description

地址标准化方法、装置、计算机设备及可读存储介质

技术领域

本申请涉及数据处理领域，尤其涉及一种地址标准化方法、装置、计算机设备及可读存储介质。

背景技术

在银行等各类场景中，地址信息是一项常见的用户信息，如户籍地址、单位地址、寄卡地址等等。地址是一个连接广大的人、物、事的关键桥梁，这类信息对于客户画像、精准营销、风控反欺诈等工作有着非常重要的意义。然而在实际应用中，用户地址信息往往不规范，作为典型的非结构化信息，地址数据如何被有效识别与精确计算存在着以下无法回避的问题：

我国的地址标准化发展起步较晚，各界人士缺乏地址标准化的需求和意识。同时，由于中国地理面积巨大，人口众多，由于历史和环境原因，导致各个地市命名并不规范，难以总结出一个具有通用性的地址模型。从各行业采集来的地址数据，因应用目的不同，而导致数据格式多样，描地名命名方式不统一，地址描述的详细程度各异，整个行业缺乏公共的可参考的地名数据库。另外，中文属于表意文字，不但存在相同的词语在不同的情景下表示不同地址要素的含义，而且也存在不同中文词语表示同一地名的情况，例如，人们习惯称呼为“XX路XX号”，而有的人就只称呼“XX金融中心”，但是实际上两者表示同一地址位置。同时中文地址要素之间没有明显的分隔符，这增加了对地址元素的识别难度。因此，急需一种对各类地址进行标准化的方法。

发明内容

基于此，有必要针对上述问题，提出一种地址标准化方法、装置、计算机设备及可读存储介质，能够对地址信息进行标准化。

第一方面，本申请提供一种地址标准化方法，所述方法包括：

根据地址库中的地址构建字典树；

构建基于字典树的AC自动机；

获取待匹配的地址字符，根据所述AC自动机对所述待匹配的地址字符按照预设规则进行拆分和匹配，得到输出结果。

在一些实施例中，所述地址库包括行政区地址库和其它等级地址库；

所述根据地址库中的地址构建字典树，包括：

将所述行政区地址库和所述其它等级地址库中的每个地址拆分为第一地址和第二地址，所述第一地址包括地址名称，所述第二地址包括所述地址名称和关键词；

将所述第一地址和所述第二地址按照字典序进行字典树的构建。

在一些实施例中，所述字典树的每个结点具有以下三种状态中的一种：转移成功且可输出、转移成功但不可输出、转移失败。

在一些实施例中，所述字典树为双数组字典树，双数组包括base数组和check数组，所述base数组用于存储所述字典树的各个结点当前的状态信息以进行字符状态转移，所述check数组用于验证地址字符是否由同一个状态转移而来。

在一些实施例中，所述构建基于字典树的AC自动机，包括：

补充字典树的每个结点的状态信息，设置地址匹配失败时跳转的匹配路径；

增加fail数组，将所述fail数组中状态信息相同的索引进行关联，以将整个字典树中的状态信息关联。

在一些实施例中，所述根据所述AC自动机对所述待匹配的地址字符按照预设规则进行拆分和匹配，包括：

根据所述AC自动机对所述待匹配的地址字符进行拆分，得到多个地址片段；

根据多个地址片段进行匹配，得到输出结果，所述输出结果为地址补充最全的结果。

第二方面，本申请还提供一种地址标准化装置，所述装置包括：

字典树构建模块，用于根据地址库中的地址构建字典树；

AC自动机构建模块，用于构建基于字典树的AC自动机；

处理模块，用于获取待匹配的地址字符，根据所述AC自动机对所述待匹配的地址字符按照预设规则进行拆分和匹配，得到输出结果。

所述字典树构建模块具体用于：

第三方面，本申请实施例还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如第一方面任一项所述地址标准化方法的步骤。

第四方面，本申请实施例还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如第一方面任一项所述地址标准化方法的步骤。

采用本申请实施例，至少具有如下有益效果：

本申请实施例根据地址库中的地址构建字典树；构建基于字典树的AC自动机；获取待匹配的地址字符，根据AC自动机对待匹配的地址字符按照预设规则进行拆分和匹配，得到输出结果。通过对地址构建字典树并使用AC自动机完成地址标准化，大幅度地提升地址元素匹配的速度。对银行等各业务场景的地址进行有效清理和输出，提高地址信息在营销、反欺诈等领域的应用价值。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为本申请一个实施例中地址标准化方法的流程示意图；

图2为本申请一个实施例中步骤S110的流程示意图；

图3为本申请一个实施例中构建字典树的示意图；

图4为本申请一个实施例中步骤S120的流程示意图；

图5为本申请一个实施例中步骤S130的流程示意图；

图6为本申请一个实施例中步骤S132的示意图；

图7为本申请一个实施例中计算机设备的内部结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

我国的地址标准化发展起步较晚，各界人士缺乏地址标准化的需求和意识。同时，由于中国地理面积巨大，人口众多，由于历史和环境原因，导致各个地市命名并不规范。但随着国内空间地理信息资源的开发和地理信息系统技术的研究与应用，各地政府部门已经开始逐步规范地名、地址的管理和使用，国内不少企业和研究机构也逐步开展了地址模型方面的研究。如某些地图软件也开放了相关的地址查询服务，提供海量的基础地址数据库供广大学者进行地址库的研究。但在地址标准化的方面还存在诸多的问题。

(1)从社会层面来看，现有的地址模型难以涵盖所有的中文地址。国家统计局除了对县及县以上的行政地址名称有相关的约定之外，其它各等级的地址元素(包括县、乡、镇、居委会、村等)命名都带有很强的随意性，因此难以总结出一个具有通用性的地址模型。

(2)从行业背景来看，从各行业采集来的地址数据，因应用目的不同，而导致数据格式多样，描地名命名方式不统一，地址描述的详细程度各异，整个行业缺乏公共的可参考的地名数据库。

(3)从技术层面来看，中文属于表意文字。不但存在相同的词语在不同的情景下表示不同地址要素的含义，而且也存在不同中文词语表示同一地名的情况，例如，人们习惯称呼为“XX路XX号”，而有的人就只称呼“XX金融中心”，但是实际上两者表示同一地址位置。同时中文地址要素之间没有明显的分隔符，这增加了对地址元素的识别难度。

基于上述问题，本申请提供了一种地址标准化方法、装置、计算机设备及可读存储介质，能够基于字典树和AC自动机对地址进行标准化，进而对银行等各业务场景的地址进行有效清理和输出，提高地址信息在营销、反欺诈等领域的应用价值。

本申请的AC自动机通过将Trie树(即字典树)和状态跳转转移相结合，将要处理的地址字符串进行分词后得到一个词向量，从而将字符串预处理为确定有限状态自动机，使得扫描文本一遍就能结束。确定有限状态自动机是为研究有限内存的计算过程和某些语言类而抽象出的一种计算模型。有限状态自动机拥有有限数量的状态，每个状态可以迁移到零个或多个状态，根据输入的字符串决定执行哪个状态的迁移。有限状态自动机可以表示为一个有向图。

AC自动机按照顺序依次匹配输入的文本字符，根据输入的文本字符来发生响应并且进行状态转移。其转移状态主要分为以下三种：

(1)按照输入字符成功转移到下一个Trie树结点，但该结点不是可输出结点。

(2)按照输入字符成功转移到下一个Trie树结点，且该结点是可输出结点。

(3)按照输入字符转移失败，当前结点的子结点中不符合转移条件。

AC算法中将Trie树和转移失败规则跳转表都压缩到success数组、failure数组和output数组三个核心数组之中。success数组记录了字符串在匹配过程中，接收字符之后，成功转移到另一个状态的规则。failure数组记录了各个结点中在不可顺着字符串转移的前提下，进行字符回调的规则。output数组记录了整个Trie树中，在成功状态转移和失败状态转移的过程中，命中的模式字符串。

本申请实施例中，AC自动机在地址标准化中的应用主要是：使用AC自动机对地址标准化，即从中文地址本身的信息中，尽可能地提取出完整的地址信息。首先对各个输入的地址进行分词，然后将单条地址切分后放入到字典库，然后将各个词都组织到Trie树的每个结点，当地址和地址库进行匹配的时候，根据匹配到的中文地址信息，反馈出中文地址中的不同地址片段的词性。在地址中常见的实词有名词、形容词、数词，虚词有介词、副词、连词、助词等。

第一方面，本申请实施例提供了一种地址标准化方法。图1为本申请一个实施例中地址标准化方法的流程示意图。请参照图1，在一些实施例中，该地址标准化方法包括：

S110：根据地址库中的地址构建字典树。

在一些实施例中，可以通过Python爬虫技术从网站爬取地址库。地址库包括行政区地址库和其它等级地址库。行政区地址库包括“XX省”、“XX市”、“XX区”，其它等级地址库包括“XX县”、“XX乡”、“XX镇”、“XX居委会”、“XX村”等。爬取地址库后，根据地址库中的地址构建地址字典树。

本申请的字典树在每个结点状态(State)中，增加了命中状态emits和失败转移状态failure。其初始结点状态如下：

State＝{depth＝0，failure＝null，emit＝null，success＝null，index＝0}

其中，depth表明了字符在Trie树中的深度或者层数；failure表明了当前状态匹配失败后，该状态能转移的前一个的节点状态位置；emit表明了当前状态支持输出的字符串，输出值是下标集合，每个下标指定了中文地址元素在字典树中的索引位置，整个emits构成output数组。success表明了当前状态匹配成功后的所有下一个可选结点状态，index表明了当前词的状态的唯一编码，index状态编码确定了该字符在base数组和check数组中的对应的下标位置。

图2为本申请一个实施例中步骤S110的流程示意图。请参照图2，在一些实施例中，步骤S110具体包括：

S111：将行政区地址库和其它等级地址库中的每个地址拆分为第一地址和第二地址，第一地址包括地址名称，所述第二地址包括地址名称和关键词；

S112：将第一地址和第二地址按照字典序进行字典树的构建。

其中，关键词指的是“省”、“市”、“区”、“县”等。将行政区地址库和其它等级地址库中的每个地址拆分为地址名称和地址名称+关键词两部分。例如，“广东省深圳市”会被拆分为“广东”、“深圳”和“省”、“市”。其中，“广东”和“深圳”为地址名称，“省”、“市”为关键词。

将拆开的地址名称和地址名称+关键词两部分通过元素的字典顺序进行排序，排完序之后按照字典序依次进行Trie树的构建。整个构建过程按照深度优先顺序进行插入，各个结点中基于State的success属性，按字典序构建出字典树的成功匹配状态。由于success属性的底层数据结构采用红黑树的TreeMap实现，可以快速的实现字典序的排序和查找定位，完成Trie树的构建。

图3为本申请一个实施例中构建字典树的示意图。请参照图3，以“路北/街道/D”、“武汉/市/B”、“武汉/路/F”、“武汉路北/社区/E”等8个地址举例说明。

其中，D、B、F、E等字母表示地址层级，具体地：

A表示“省”、“自治区”、“直辖市”。

B表示“市”、“自治州”、“州”。

C表示“区”、“新区”、“自治区”、“县”、“自治县”。

D表示“乡”、“镇”、“街道”、“街道办”。

E表示“村”、“屯”、“新村”、“社区”。

F表示“路”、“街”、“巷”、“大街”、“大道”、“公路”、“国道”等。

G表示“号”。

H表示“小区”、“大厦”、“广场”、“大楼”、“公司”、“饭店”“公寓”、“酒店”。

I表示“栋”、“幢”。

J表示“单元”。

K表示“楼”、“层”。

L表示“室”、“舍”、“房”。

“L”之后还可以有更多的字母来表示不同的地址层级，本申请实施例在此不再赘述。

将8个地址中的“地址名称”和“地址名称+关键词”按照字典序进行排序，得到图3中(a)所示。排完序之后按照字典序依次进行Trie树的构建，完成图3中(b)所示的Trie树的构建。其中0结点表示根节点，带有阴影的结点表示可输出结点，即匹配成功的结点，其他结点表示不可输出结点，即匹配失败的结点。例如，结点9匹配的是“路北”，(a)中有该地址，匹配成功，因此结点9为可输出结点。再例如，结点10匹配的是“路北街”，(a)中无该地址，匹配失败，因此结点10为不可输出结点。

在一些实施例中，字典树为双数组字典树，双数组包括base数组和check数组。其中，base数组用于存储字典树的各个结点当前的状态信息以进行字符状态转移，check数组用于验证地址字符是否由同一个状态转移而来。在构建字典树的过程中，从根结点开始，根据success属性确定下层属性的兄弟结点的所有字符编码状态。采用深度优先顺序遍历Trie树，依次地读取各个字符的State，在读取的过程中维护base和check两个数组，期间每次插入一个结点，都会修改这两个数组。

S120：构建基于字典树的AC自动机。

在一些实施例中，完成Trie树的构建之后，下一步需要构建基于字典树的AC自动机。图4为本申请一个实施例中步骤S120的流程示意图。请参照图4，构建基于字典树的AC自动机，具体包括：

S121：补充字典树的每个结点的状态信息，设置地址匹配失败时跳转的匹配路径；

S122：增加fail数组，将fail数组中状态信息相同的索引进行关联，以将整个字典树中的状态信息关联。

具体地，完成基于双数组的Trie树的构建之后，补充Trie树的每个结点State中的failure属性，指明地址匹配失败时跳转的匹配路径。匹配失败表示该路径不通，无输出，无返回。地址匹配失败时跳转的匹配路径是指沿着字典树向下搜索，找到匹配的进行输出。在base和check双数组的基础上，增加fail数组，将fail数组中的相同State中的index下标关联起来，从而将整个Trie树中的failure属性关联。增加了fail数组之后，可以根据每个结点State中的index快速地定位到上级跳转路径的索引中。也就是说，在Trie树中的匹配中，不是依次返回下一个State的引用，而是返回State中具体的index，利用下标Index，成功匹配的情况下可以按照Success表(也就是base数组和check数组)转移，失败匹配的时候可以按照fail数组来实现跳转，跳转到failure所指引的合适位置。

上述状态转移过程就是一个广度优先搜索过程，利用队列维护整个过程的搜索顺序。利用父结点的失败者状态减少整个匹配失败的快速跳转，一步一步的完善各个子结点整个匹配失败的状态转移。

S130：获取待匹配的地址字符，根据AC自动机对待匹配的地址字符按照预设规则进行拆分和匹配，得到输出结果。

在一些实施例中，获取待匹配的地址字符，待匹配的地址字符为需要标准化的字符串，例如“武汉邮科院”。“武汉邮科院”缺少行政区，是不标准的地址信息，因此需要对其进行标准化。

图5为本申请一个实施例中步骤S130的流程示意图。请参照图5，在一些实施例中，根据AC自动机对待匹配的地址字符按照预设规则进行拆分和匹配，包括：

S131：根据AC自动机对待匹配的地址字符进行拆分，得到多个地址片段；

S132：根据多个地址片段进行匹配，得到输出结果，输出结果为地址补充最全的结果。

以输入的待匹配的地址字符为“武汉邮科院”为例，通过AC自动机拆分后，会得到地址片段：“武汉/市/B”、“武汉/路/F”、“邮科院/U”。需要说明的是，得到的地址片段实际上取决于中国的地址库，也就是说对于“武汉”来说，在中国只存在“武汉市”和“武汉路”这两个真实地址，不存在其他地址。

图6为本申请一个实施例中步骤S132的示意图。请参照图6，根据这几个地址片段“武汉/市/B”、“武汉/路/F”、“邮科院/U”进行匹配，会以最长前缀匹配的思路输出匹配的所有地址，即输出的匹配地址中，地址补充的最全的那个。因此，最后得到的标准化地址为“武汉市邮科院”或“武汉路邮科院”。

在一些实施例中，若输入的待匹配的地址字符为“武汉市邮科院”，则通过AC自动机拆分后只会得到“武汉/市/B”和“邮科院/U”两个地址片段。本申请实施例将同一个地址片段拆分为两份，一份是地址名称，一份是“地址名称+关键词”，可以很好地解决地址片段关键词缺失和错误等问题。

在一些实施例中，如果只是匹配了部分地址名称，将输出地址名称下的所有符合条件等级的地址要素。以“武汉邮科院”为例，如果只匹配了“武汉”这个地址名称，将会输出“武汉市”和“武汉路”。

结合上述，本申请实施例的地址标准化方法，在基于地址预处理的基础上，对地址构建Trie树并使用AC自动机完成地址标准化，不仅通过状态转移生成最优地址输出，还压缩了地址字典的内存构建开销(这是字典树的特性，采用字典树搜索都会压缩存储内存)，大幅度地提升地址元素匹配的速度。对银行等各业务场景的地址进行有效清理和输出，提高地址信息在营销、反欺诈等领域的应用价值。

第二方面，本申请实施例还提供了一种地址标准化装置，包括：

字典树构建模块，用于根据地址库中的地址构建字典树；

AC自动机构建模块，用于构建基于字典树的AC自动机；

处理模块，用于获取待匹配的地址字符，根据AC自动机对待匹配的地址字符按照预设规则进行拆分和匹配，得到输出结果。

第三方面，本申请实施例还提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行如第一方面任一项所述地址标准化方法的步骤。

图7为本申请一个实施例中计算机设备的内部结构图。请参照图7，在一些实施例中，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现如上任一项地址标准化方法的步骤。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行如上任一项地址标准化方法的步骤。本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

第四方面，本申请实施例还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行如第一方面任一项所述地址标准化方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种地址标准化方法，其特征在于，所述方法包括：

根据地址库中的地址构建字典树；

构建基于字典树的AC自动机；

2.根据权利要求1所述的地址标准化方法，其特征在于，所述地址库包括行政区地址库和其它等级地址库；

所述根据地址库中的地址构建字典树，包括：

3.根据权利要求2所述的地址标准化方法，其特征在于，所述字典树的每个结点具有以下三种状态中的一种：转移成功且可输出、转移成功但不可输出、转移失败。

4.根据权利要求1所述的地址标准化方法，其特征在于，所述字典树为双数组字典树，双数组包括base数组和check数组，所述base数组用于存储所述字典树的各个结点当前的状态信息以进行字符状态转移，所述check数组用于验证地址字符是否由同一个状态转移而来。

5.根据权利要求4所述的地址标准化方法，其特征在于，所述构建基于字典树的AC自动机，包括：

6.根据权利要求1所述的地址标准化方法，其特征在于，所述根据所述AC自动机对所述待匹配的地址字符按照预设规则进行拆分和匹配，包括：

7.一种地址标准化装置，其特征在于，所述装置包括：

字典树构建模块，用于根据地址库中的地址构建字典树；

AC自动机构建模块，用于构建基于字典树的AC自动机；

8.根据权利要求7所述的地址标准化装置，其特征在于，所述地址库包括行政区地址库和其它等级地址库；

所述字典树构建模块具体用于：

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述地址标准化方法的步骤。

10.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述地址标准化方法的步骤。