CN115618867A

CN115618867A - 地址纠错方法、装置、计算机设备和存储介质

Info

Publication number: CN115618867A
Application number: CN202211324065.2A
Authority: CN
Inventors: 王亮; 房效亮
Original assignee: Zhongke Xingtu Digital Earth Hefei Co ltd
Current assignee: Zhongke Xingtu Digital Earth Hefei Co ltd
Priority date: 2022-10-27
Filing date: 2022-10-27
Publication date: 2023-01-17

Abstract

本申请涉及一种地址纠错方法、装置、计算机设备和存储介质。该方法包括：获取待纠错地址文本；对待纠错地址文本进行分词，得到地址词语集，地址词语集中包括多个地址词语；对各地址词语进行拼音转换，得到地址词语集对应的地址拼音文本；根据各地址词语从候选标准地址库中查找得到多个匹配的第一标准地址，组成第一标准地址集；根据地址拼音文本从候选标准地址库中查找得到多个匹配的第二标准地址，组成第二标准地址集；获取第一标准地址集和第二标准地址集中相同的标准地址，得到第三标准地址，组成第三标准地址集；将待纠错地址文本分别与各第三标准地址进行相似度比对，得到目标标准地址文本。采用本方法能够提高地址纠错的准确度。

Description

地址纠错方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种地址纠错方法、装置、计算机设备和存储介质。

背景技术

在快递、110、120等行业中，都是由用户提供地址后进行不同的服务，由于用户提供的地址大部分都是不完整的，可能大部分用户提供的地址都只是小区、楼号、门牌号，无法确定位置不说，这时候对于记录人员的要求就比较高了，要对所有地址都有所知道，但大部分记录人员是不会知道所有地址的详细，在记录地址时录入的信息可能是错别字或是多音字，或是在记录时候需要用户提供详细的字，会浪费许多时间，对于老年人也是不友好的，可能无法表达详细。而这时不准确的地址对于执行人员造成的困扰是不可避免的，可能造成的结果会非常严重。

发明内容

基于此，有必要针对上述技术问题，提供一种地址纠错方法、装置、计算机设备和存储介质，能够有效地避免因为不完整的地址文本或者缺失部分信息的地址文本无法准确地识别到匹配的地址，提高地址纠错的准确度。

一种地址纠错方法，该方法包括：

获取待纠错地址文本；

对待纠错地址文本进行分词，得到对应的地址词语集，地址词语集中包括多个地址词语；

对各地址词语进行拼音转换，得到地址词语集对应的地址拼音文本；

根据各地址词语从候选标准地址库中查找得到多个匹配的第一标准地址，组成第一标准地址集；

根据地址拼音文本从候选标准地址库中查找得到多个匹配的第二标准地址，组成第二标准地址集；

获取第一标准地址集和第二标准地址集中相同的标准地址，得到第三标准地址，组成第三标准地址集；

将待纠错地址文本分别与第三标准地址集中的各第三标准地址进行相似度比对，得到待纠错地址文本对应的目标标准地址文本。

在其中一个实施例中，对待纠错地址文本进行分词，得到对应的地址词语集，地址词语集中包括多个地址词语，包括：获取分词算法，通过分词算法对待纠错地址文本进行分词，得到多个地址词语，组成地址词语集。

在其中一个实施例中，根据各地址词语从候选标准地址库中查找得到多个匹配的第一标准地址，组成第一标准地址集，包括：获取候选标准地址库，候选标准地址库包括多个候选标准地址，各候选标准地址关联有对应的候选标准地址词语索引，候选标准地址词语索引表示各候选标准地址的组成词语之间的关联关系，根据各地址词语从候选标准地址库中各候选标准地址关联的候选标准地址词语索引，确定匹配的多个第一标准地址，得到第一标准地址集。

在其中一个实施例中，根据各地址词语从候选标准地址库中各候选标准地址关联的候选标准地址词语索引，确定匹配的多个第一标准地址，得到第一标准地址集，包括：从各地址词语中确定至少一个当前地址词语，根据至少一个当前地址词语确定候选标准地址词语索引中匹配的目标组成词语，根据关联关系确定目标组成词语对应的关联组成词语，得到匹配的多个第一标准地址，得到第一标准地址集。

在其中一个实施例中，根据地址拼音文本从候选标准地址库中查找得到多个匹配的第二标准地址，组成第二标准地址集，包括：获取候选标准地址库，候选标准地址库包括多个候选标准地址，各候选标准地址关联有对应的候选标准地址拼音，对地址拼音文本与各候选标准地址拼音进行拼音相似度计算，得到拼音相似度值，根据拼音相似度值从候选标准地址库中确定与地址拼音文本匹配的多个第二标准地址，组成第二标准地址集。

在其中一个实施例中，各地址词语关联有地址词语词性，第三标准地址关联有各标准地址词语对应的标准地址词语词性，将待纠错地址文本分别与第三标准地址集中的各第三标准地址进行相似度比对，得到待纠错地址文本对应的目标标准地址文本，包括：根据各地址词语词性与各第三标准地址对应的标准地址词语词性，计算得到待纠错地址文本与各第三标准地址对应的词语词性匹配度，将待纠错地址文本分别与第三标准地址集中的各第三标准地址进行地址相似度比对，得到待纠错地址文本与各第三标准地址对应的地址相似度，根据词语词性匹配度和地址相似度从第三标准地址集中确定待纠错地址文本对应的目标标准地址文本。

在其中一个实施例中，上述方法还包括：根据待纠错地址文本和目标标准地址文本确定地址纠错数据，地址纠错数据是待纠错地址文本相比目标标准地址文本出现缺失或者错误的地址数据，将地址纠错数据和目标标准地址文本发送至用户设备，使得用户设备展示待纠错地址文本对应的目标标准地址和地址纠错数据。

一种地址纠错装置，该装置包括：

获取模块，用于获取待纠错地址文本；

分词模块，用于对待纠错地址文本进行分词，得到对应的地址词语集，地址词语集中包括多个地址词语；

转换模块，用于对各地址词语进行拼音转换，得到地址词语集对应的地址拼音文本；

第一查找模块，用于根据各地址词语从候选标准地址库中查找得到多个匹配的第一标准地址，组成第一标准地址集；

第二查找模块，用于根据地址拼音文本从候选标准地址库中查找得到多个匹配的第二标准地址，组成第二标准地址集；

比较模块，用于获取第一标准地址集和第二标准地址集中相同的标准地址，得到第三标准地址，组成第三标准地址集；

生成模块，用于将待纠错地址文本分别与第三标准地址集中的各第三标准地址进行相似度比对，得到待纠错地址文本对应的目标标准地址文本。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待纠错地址文本；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待纠错地址文本；

上述地址纠错方法、装置、计算机设备和存储介质，对待纠错地址文本进行分词，得到多个地址词语，获取每个地址词语对应的拼音，得到待纠错地址文本对应的地址拼音文本，通过各地址词语和地址拼音文本分别去候选标准地址库中查找到匹配的标准地址，得到第一标准地址集和第二标准地址集，这样，从候选标准地址库中大量的标准地址中筛选到小范围的第一标准地址集和第二标准地址集，通过地址词语与拼音同时比对，可以避免待纠错地址文本中出现错别字、多音字等造成无法进行地址纠错的情况。

进一步地，更加缩小标准地址匹配范围，获取第一标准地址集和第二标准地址集中相同标准地址，得到第三标准地址集，为了提高地址纠错准确度，再将待纠错地址文本与第三标准地址集中的第三标准地址进行地址相似度计算，得到最终的目标标准地址文本，能够有效地避免因为不完整的地址文本或者缺失部分信息的地址文本无法准确地识别到匹配的地址，提高地址纠错的准确度。

附图说明

图1为一个实施例中地址纠错方法的应用环境图；

图2为一个实施例中地址纠错方法的流程示意图；

图3为一个实施例中待纠错地址文本分词步骤的流程示意图；

图4为一个实施例中第一标准地址集生成步骤的流程示意图；

图5为一个实施例中第一标准地址获取步骤的流程示意图；

图6为一个实施例中第二标准地址集生成步骤的流程示意图；

图7为一个实施例中目标标准地址文本生成步骤的流程示意图；

图8为一个实施例中地址纠错方法的流程示意图；

图9为一个实施例中地址纠错装置的结构框图；

图10为一个实施例中计算机设备的内部结构图；

图11为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的地址纠错方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

具体地，终端102获取待纠错地址文本后，将待纠错地址文本发送至服务器104，服务器104对待纠错地址文本进行分词，得到对应的地址词语集，地址词语集中包括多个地址词语，对各地址词语进行拼音转换，得到地址词语集对应的地址拼音文本，根据各地址词语从候选标准地址库中查找得到多个匹配的第一标准地址，组成第一标准地址集，根据地址拼音文本从候选标准地址库中查找得到多个匹配的第二标准地址，组成第二标准地址集，获取第一标准地址集和第二标准地址集中相同的标准地址，得到第三标准地址，组成第三标准地址集，将待纠错地址文本分别与第三标准地址集中的各第三标准地址进行相似度比对，得到待纠错地址文本对应的目标标准地址文本。最后，服务器104将目标标准地址文本返回至终端102。

在另一个实施例中，终端102获取待纠错地址文本对待纠错地址文本进行分词，得到对应的地址词语集，地址词语集中包括多个地址词语，对各地址词语进行拼音转换，得到地址词语集对应的地址拼音文本，根据各地址词语从候选标准地址库中查找得到多个匹配的第一标准地址，组成第一标准地址集，根据地址拼音文本从候选标准地址库中查找得到多个匹配的第二标准地址，组成第二标准地址集，获取第一标准地址集和第二标准地址集中相同的标准地址，得到第三标准地址，组成第三标准地址集，将待纠错地址文本分别与第三标准地址集中的各第三标准地址进行相似度比对，得到待纠错地址文本对应的目标标准地址文本。

在一个实施例中，如图2所示，提供了一种地址纠错方法，以该方法应用于图1中的终端或服务器为例进行说明，包括以下步骤：

步骤202，获取待纠错地址文本。

其中，待纠错地址文本可以是完整的地名地址，也可以是不完整的地名地址或者缺失的地名地址或者出现错别字或者多音字的地名地址，待纠错地址文本可以通过相关应用中用户输入得到，也可以是接收地名地址包，从地名地址包中获取待纠错地址文本。在一些实施例中，待纠错地址文本可以是快递单上的地址，或者是政府单位提供的服务需要地址，例如，110或者120，通过情况下，这些用户提供的地址大部分都是不完整的，或者缺失的，可以将这些地址确定为待纠错地址文本。

步骤204，对待纠错地址文本进行分词，得到对应的地址词语集，地址词语集中包括多个地址词语。

其中，在得到待纠错地址文本后，对待纠错地址文本进行分词，得到组成待纠错地址文本的各个地址词语，组成对应的地址词语集。也就是说，地址词语集是组成待纠错地址文本的各地址词语的集合。

具体地，可以通过分词算法对待纠错地址文本进行分割，得到各地址词语，组成地址此语句集，分词算法例如Jieba分词算法。或者由于待纠错地址文本是词语与词语之间组成的，可以根据词语与词语之间的搭配习惯、或者待纠错地址文本的句法结构进行分割，得到多个地址词语，组成地址词语集。

在另一些实施例中，由于地址文本是一些比较特殊的词语组成的，因此可以借助地名地址词典对待纠错地址文本进行分词，避免一些专用地名、或者专属地址被分割开，导致后续地址纠错准确度受到影响。

步骤206，对各地址词语进行拼音转换，得到地址词语集对应的地址拼音文本。

其中，在得到各地址词语后，对各地址词语进行拼音转换，得到地址词语集对应的地址拼音文本。这里的拼音转换就是将地址词语转换成拼音。

例如，各地址词语为：北京市、朝阳区、十里河，对各地址词语进行拼音转换得到地址拼音文本为：bei jin shi chao yang qu shi li he。

步骤208，根据各地址词语从候选标准地址库中查找得到多个匹配的第一标准地址，组成第一标准地址集。

具体地，可以根据各地址词语从候选标准地址库中获取多个匹配的第一标准地址，候选标准地址库中包括多个候选标准地址，每个候选标准地址关联有对应的标准地址词语集，标准地址词语集中的各标准地址词语具有关联性，可以通过其中一个标准地址词语查找到关联的其他标准地址词语。

因此，可以根据各地址词语中的一个或者多个地址词语从候选标准地址库中查找匹配的第一标准地址，得到第一标准地址集。

例如，各地址词语为：北京市、清华大学，可以根据北京市和清华大学这两个词语查找到第一标准地址为：北京市海淀区清华大学和北京市海淀区双清路30号，由这个两个第一标准地址组成第一标准地址集中。

也就是说，第一标准地址是通过各地址词语从候选标准地址库中进行匹配得到的，第一标准地址对应的标准地址词语与各地址词语相匹配。

步骤210，根据地址拼音文本从候选标准地址库中查找得到多个匹配的第二标准地址，组成第二标准地址集。

具体地，可以根据地址拼音文本从候选标准地址库中获取多个匹配的第二标准地址，得到第二标准地址集，可以避免由于地址词语出现多音字、错别字的情况出现，导致地址纠错准确率低，因此，还可以通过待纠错地址文本对应的地址拼音文本再次进行匹配。

其中，候选标准地址库中各候选标准地址都关联有对应的候选标准地址拼音文本，可以根据地址拼音文本与各候选标准地址拼音文本的匹配度来确定多个匹配的第二标准地址，组成第二标准地址集。具体可以是，将地址拼音文本分别与各候选标准地址拼音文本进行匹配度计算，得到对应的地址拼音文本匹配度，将地址拼音文本匹配度大于匹配度预支的候选标准地址拼音文本都确定为第二标准地址，得到第二标准地址集。

也就是说，这里的第二标准地址是通过待纠错地址文本对应的地址拼音文本从候选标准地址库中进行匹配得到的，第二标准地址对应的标准地址拼音文本与地址拼音文本之间的匹配度达到预设匹配度阈值。

步骤212，获取第一标准地址集和第二标准地址集中相同的标准地址，得到第三标准地址，组成第三标准地址集。

其中，通过待纠错地址文本的各地址词语和地址拼音文本从候选标准地址库中筛选出第一标准地址集合第二标准地址集，缩小待纠错地址文本的匹配范围，从小范围候选标准地址中查找最匹配的标准地址，提高地址纠错的效率以及准确度。

具体地，在得到第一标准地址集和第二标准地址集后，对第一标准地址集和第二标准地址集进行交集，获取第一标准地址集和第二标准地址集中相同含义的标准地址，确定为第三标准地址，组成第三标准地址集。

其中，第二标准地址集中的第二标准地址都关联有对应的中文标准地址，因此，可以通过比较第一标准地址集中各第一标准地址和第二标准地址关联的中文标准地址，确定相同的标准地址，得到第三标准地址，组成第三标准地址集。

步骤214，将待纠错地址文本分别与第三标准地址集中的各第三标准地址进行相似度比对，得到待纠错地址文本对应的目标标准地址文本。

具体地，在得到第三标准地址集后，将待纠错地址文本分别与第三标准地址集中的各第三标准地址进行相似度比对，得到各第三标准地址对应的相似度值，比较各相似度值和相似度阈值，将相似度值大于相似度阈值的第三标准地址确定为待纠错地址文本对应的目标标准地址文本。

也就是说，在得到第三标准地址集后，为了保证地址纠错的准确度，需要对第三标准地址集中的各标准地址与待纠错地址文本进行相似度比对，进一步提升地址纠错的准确度，保证待纠错地址文本能够准确地找到标准的地址文本。

上述地址纠错方法中，对待纠错地址文本进行分词，得到多个地址词语，获取每个地址词语对应的拼音，得到待纠错地址文本对应的地址拼音文本，通过各地址词语和地址拼音文本分别去候选标准地址库中查找到匹配的标准地址，得到第一标准地址集和第二标准地址集，这样，从候选标准地址库中大量的标准地址中筛选到小范围的第一标准地址集和第二标准地址集，通过地址词语与拼音同时比对，可以避免待纠错地址文本中出现错别字、多音字等造成无法进行地址纠错的情况。

在一个实施例中，如图3所示，对待纠错地址文本进行分词，得到对应的地址词语集，地址词语集中包括多个地址词语，包括：

步骤302，获取分词算法。

步骤304，通过分词算法对待纠错地址文本进行分词，得到多个地址词语，组成地址词语集。

其中，可以通过分词算法对待纠错地址文本进行分词，分词算法可以是Jieba分词算法。具体地，获取分词算法，如Jieba算法，使用分词算法对待纠错地址文本进行分词，得到组成待纠错地址文本的各地址词语，得到地址词语集。

例如，待纠错地址文本为：广东省广州市天河区林和西路合景小区，使用分词算法进行分词，得到多个地址词语为：广东省、广州市、天河区、林和西路、合景小区，由这些词组成地址词语集。

在一个实施例中，如图4所示，根据各地址词语从候选标准地址库中查找得到多个匹配的第一标准地址，组成第一标准地址集，包括：

步骤402，获取候选标准地址库，候选标准地址库包括多个候选标准地址，各候选标准地址关联有对应的候选标准地址词语索引，候选标准地址词语索引表示各候选标准地址的组成词语之间的关联关系。

步骤404，根据各地址词语从候选标准地址库中各候选标准地址关联的候选标准地址词语索引，确定匹配的多个第一标准地址，得到第一标准地址集。

其中，获取候选标准地址库，候选标准地址库包括多个候选标准地址，各候选标准地址关联有对应的候选标准地址索引，所谓候选标准地址索引是用来描述组成候选标准地址的各词语之间的关联关系，可以通过候选标准地址的一个组成词语就能够匹配的另外组成词语，例如，合景小区这个组成词语，可以关联出林和西路、天河区、广州市、广东省这几个组成词语。

也就是说，在得到待纠错地址文本的各地址词语后，可以借助各地址词语中的一个或多个地址词语，从候选标准地址库中的各候选标准地址关联的候选标准地址词语索引，确定匹配的多个第一标准地址，得到第一标准地址集。候选标准地址词语索引中描述了各候选标准地址的组成词语之间的关联关系，因此，通过一个或多个地址词语和关联关系确定出匹配的第一标准地址，其实这也是一种倒排索引的方式。

在一个实施例中，如图5所示，根据各地址词语从候选标准地址库中各候选标准地址关联的候选标准地址词语索引，确定匹配的多个第一标准地址，得到第一标准地址集，包括：

步骤502，从各地址词语中确定至少一个当前地址词语。

步骤504，根据至少一个当前地址词语确定候选标准地址词语索引中匹配的目标组成词语。

步骤506，根据关联关系确定目标组成词语对应的关联组成词语，得到匹配的多个第一标准地址，得到第一标准地址集。

其中，候选标准地址词语索引中记载了候选标准地址的各组成词语之间的关联关系，例如，广东省-广州市-天河区-林和西路-合景小区，这几个组成词语之间进行了绑定，组成了广东省广州市天河区林和西路合景小区这个候选标准小区对应的候选标准地址词语索引。

具体地，从待纠错地址文本的各地址词语中确定至少一个当前地址词语，可以随机确定，也可以依次将各地址词语确定为当前地址词语。进一步地，再根据当前地址词语确定候选标准地址词语索引中匹配的目标组成词语。其实就是去确定候选标准地址词语索引中与当前地址词语相同的目标组成词语。最后，根据候选标准地址词语索引中各组成词语之间的关联关系，获取目标组成词语关联的关联组成词语，根据目标组成词语与关联组成词语得到第一标准地址。

在一个实施例中，如图6所示，根据地址拼音文本从候选标准地址库中查找得到多个匹配的第二标准地址，组成第二标准地址集，包括：

步骤602，获取候选标准地址库，候选标准地址库包括多个候选标准地址，各候选标准地址关联有对应的候选标准地址拼音。

步骤604，对地址拼音文本与各候选标准地址拼音进行拼音相似度计算，得到拼音相似度值。

步骤606，根据拼音相似度值从候选标准地址库中确定与地址拼音文本匹配的多个第二标准地址，组成第二标准地址集。

其中，通过待纠错地址文本对应的地址拼音文本从候选标准地址库中查找出匹配的第二标准地址，具体可以是，获取候选标准地址库，候选标准地址库包括多个候选标准地址，各候选标准地址关联有对应的候选标准地址拼音。

进一步地，将地址拼音文本与各候选标准地址的候选标准地址拼音进行相似度计算，得到拼音相似度值，比较拼音相似度值与拼音相似度阈值，将拼音相似度值大于拼音相似度阈值的候选标准地址确定为第二标准地址。

在一个实施例中，如图7所示，各地址词语关联有地址词语词性，第三标准地址关联有各标准地址词语对应的标准地址词语词性，将待纠错地址文本分别与第三标准地址集中的各第三标准地址进行相似度比对，得到待纠错地址文本对应的目标标准地址文本，包括：

步骤702，根据各地址词语词性与各第三标准地址对应的标准地址词语词性，计算得到待纠错地址文本与各第三标准地址对应的词语词性匹配度。

步骤704，将待纠错地址文本分别与第三标准地址集中的各第三标准地址进行地址相似度比对，得到待纠错地址文本与各第三标准地址对应的地址相似度。

步骤706，根据词语词性匹配度和地址相似度从第三标准地址集中确定待纠错地址文本对应的目标标准地址文本。

其中，为了提高地址纠错的准确性，可以通过各地址词语关联的地址词语词性对第三标准地址集进行筛选，地址词语词性是地址词语所属的词性，例如，形容词、名词、地名、数词等。

具体地，待纠错地址文本的各地址词语关联有对应的地址词语词性，获取第三标准地址集中各第三标准地址对应的标准地址词语词性，将各地址词语词性与各标准地址词语词性进行比对，得到待纠错地址文本与各第三标准地址对应的词语词性匹配度。

进一步地，将待纠错地址文本分别与第三标准地址集中的各第三标准地址进行地址相似度计算，得到待纠错地址文本与各第三标准地址对应的地址相似度。

最后，根据词语词性匹配度和地址相似度确定目标标准地址文本，具体可以是，获取词语词性匹配度对应的第一预设权重和地址相似度对应的第二预设权重，根据词语词性匹配度和第一预设权重、地址相似度与第二预设权重计算得到对应的目标匹配度值，通过目标匹配度值从第三标准地址集中确定待纠错地址文本对应的目标标准地址文本。

在一个实施例中，如图8所示，上述方法还包括：

步骤802，根据待纠错地址文本和目标标准地址文本确定地址纠错数据，地址纠错数据是待纠错地址文本相比目标标准地址文本出现缺失或者错误的地址数据。

步骤804，将地址纠错数据和目标标准地址文本发送至用户设备，使得用户设备展示待纠错地址文本对应的目标标准地址和地址纠错数据。

其中，在得到目标标准地址文本后，可以通过目标标准地址文本与待纠错地址文本进行比较，得到待纠错地址文本中缺失的地址数据或者出现错误的地址数据，即地址纠错数据，可以通过地址纠错数据简单明了地知道待纠错地址文本中出现缺失或者错误的地址数据。

具体地，通过比较待纠错地址文本和目标标准地址文本确定待纠错地址文本中出现缺失或者错误的地址数据，得到地址纠错数据。进一步地，将地址纠错数据和目标标准地址文本发送至用户设备，用户设备接收到地址纠错数据和目标标准地址文本后，展示地址纠错数据和目标标准地址文本，告知用户输入待纠错地址文本时，漏了哪些重要的地址信息，避免下次输入地址文本时再出现这种情况。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图9所示，提供了一种地址纠错装置900，包括：获取模块902、分词模块904、转换模块906、第一查找模块908、第二查找模块910、比较模块912和生成模块914，其中：

获取模块902，用于获取待纠错地址文本。

分词模块904，用于对待纠错地址文本进行分词，得到对应的地址词语集，地址词语集中包括多个地址词语。

转换模块906，用于对各地址词语进行拼音转换，得到地址词语集对应的地址拼音文本。

第一查找模块908，用于根据各地址词语从候选标准地址库中查找得到多个匹配的第一标准地址，组成第一标准地址集。

第二查找模块910，用于根据地址拼音文本从候选标准地址库中查找得到多个匹配的第二标准地址，组成第二标准地址集。

比较模块912，用于获取第一标准地址集和第二标准地址集中相同的标准地址，得到第三标准地址，组成第三标准地址集。

生成模块914，用于将待纠错地址文本分别与第三标准地址集中的各第三标准地址进行相似度比对，得到待纠错地址文本对应的目标标准地址文本。

在一个实施例中，分词模块904获取分词算法，通过分词算法对待纠错地址文本进行分词，得到多个地址词语，组成地址词语集。

在一个实施例中，第一查找模块908获取候选标准地址库，候选标准地址库包括多个候选标准地址，各候选标准地址关联有对应的候选标准地址词语索引，候选标准地址词语索引表示各候选标准地址的组成词语之间的关联关系，根据各地址词语从候选标准地址库中各候选标准地址关联的候选标准地址词语索引，确定匹配的多个第一标准地址，得到第一标准地址集。

在一个实施例中，第一查找模块908从各地址词语中确定至少一个当前地址词语，根据至少一个当前地址词语确定候选标准地址词语索引中匹配的目标组成词语，根据关联关系确定目标组成词语对应的关联组成词语，得到匹配的多个第一标准地址，得到第一标准地址集。

在一个实施例中，第二查找模块910获取候选标准地址库，候选标准地址库包括多个候选标准地址，各候选标准地址关联有对应的候选标准地址拼音，对地址拼音文本与各候选标准地址拼音进行拼音相似度计算，得到拼音相似度值，根据拼音相似度值从候选标准地址库中确定与地址拼音文本匹配的多个第二标准地址，组成第二标准地址集。

在一个实施例中，各地址词语关联有地址词语词性，第三标准地址关联有各标准地址词语对应的标准地址词语词性，生成模块914根据各地址词语词性与各第三标准地址对应的标准地址词语词性，计算得到待纠错地址文本与各第三标准地址对应的词语词性匹配度，将待纠错地址文本分别与第三标准地址集中的各第三标准地址进行地址相似度比对，得到待纠错地址文本与各第三标准地址对应的地址相似度，根据词语词性匹配度和地址相似度从第三标准地址集中确定待纠错地址文本对应的目标标准地址文本。

在一个实施例中，地址纠错装置900根据待纠错地址文本和目标标准地址文本确定地址纠错数据，地址纠错数据是待纠错地址文本相比目标标准地址文本出现缺失或者错误的地址数据，将地址纠错数据和目标标准地址文本发送至用户设备，使得用户设备展示待纠错地址文本对应的目标标准地址和地址纠错数据。

关于地址纠错装置的具体限定可以参见上文中对于地址纠错方法的限定，在此不再赘述。上述地址纠错装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储候选标准地址库。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种地址纠错方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种地址纠错方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10或图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：获取待纠错地址文本，对待纠错地址文本进行分词，得到对应的地址词语集，地址词语集中包括多个地址词语，对各地址词语进行拼音转换，得到地址词语集对应的地址拼音文本，根据各地址词语从候选标准地址库中查找得到多个匹配的第一标准地址，组成第一标准地址集，根据地址拼音文本从候选标准地址库中查找得到多个匹配的第二标准地址，组成第二标准地址集，获取第一标准地址集和第二标准地址集中相同的标准地址，得到第三标准地址，组成第三标准地址集，将待纠错地址文本分别与第三标准地址集中的各第三标准地址进行相似度比对，得到待纠错地址文本对应的目标标准地址文本。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取分词算法，通过分词算法对待纠错地址文本进行分词，得到多个地址词语，组成地址词语集。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取候选标准地址库，候选标准地址库包括多个候选标准地址，各候选标准地址关联有对应的候选标准地址词语索引，候选标准地址词语索引表示各候选标准地址的组成词语之间的关联关系，根据各地址词语从候选标准地址库中各候选标准地址关联的候选标准地址词语索引，确定匹配的多个第一标准地址，得到第一标准地址集。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：从各地址词语中确定至少一个当前地址词语，根据至少一个当前地址词语确定候选标准地址词语索引中匹配的目标组成词语，根据关联关系确定目标组成词语对应的关联组成词语，得到匹配的多个第一标准地址，得到第一标准地址集。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取候选标准地址库，候选标准地址库包括多个候选标准地址，各候选标准地址关联有对应的候选标准地址拼音，对地址拼音文本与各候选标准地址拼音进行拼音相似度计算，得到拼音相似度值，根据拼音相似度值从候选标准地址库中确定与地址拼音文本匹配的多个第二标准地址，组成第二标准地址集。

在一个实施例中，各地址词语关联有地址词语词性，第三标准地址关联有各标准地址词语对应的标准地址词语词性，处理器执行计算机程序时还实现以下步骤：根据各地址词语词性与各第三标准地址对应的标准地址词语词性，计算得到待纠错地址文本与各第三标准地址对应的词语词性匹配度，将待纠错地址文本分别与第三标准地址集中的各第三标准地址进行地址相似度比对，得到待纠错地址文本与各第三标准地址对应的地址相似度，根据词语词性匹配度和地址相似度从第三标准地址集中确定待纠错地址文本对应的目标标准地址文本。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据待纠错地址文本和目标标准地址文本确定地址纠错数据，地址纠错数据是待纠错地址文本相比目标标准地址文本出现缺失或者错误的地址数据，将地址纠错数据和目标标准地址文本发送至用户设备，使得用户设备展示待纠错地址文本对应的目标标准地址和地址纠错数据。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取待纠错地址文本，对待纠错地址文本进行分词，得到对应的地址词语集，地址词语集中包括多个地址词语，对各地址词语进行拼音转换，得到地址词语集对应的地址拼音文本，根据各地址词语从候选标准地址库中查找得到多个匹配的第一标准地址，组成第一标准地址集，根据地址拼音文本从候选标准地址库中查找得到多个匹配的第二标准地址，组成第二标准地址集，获取第一标准地址集和第二标准地址集中相同的标准地址，得到第三标准地址，组成第三标准地址集，将待纠错地址文本分别与第三标准地址集中的各第三标准地址进行相似度比对，得到待纠错地址文本对应的目标标准地址文本。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种地址纠错方法，所述方法包括：

获取待纠错地址文本；

对所述待纠错地址文本进行分词，得到对应的地址词语集，所述地址词语集中包括多个地址词语；

对各所述地址词语进行拼音转换，得到所述地址词语集对应的地址拼音文本；

根据各所述地址词语从候选标准地址库中查找得到多个匹配的第一标准地址，组成第一标准地址集；

根据所述地址拼音文本从所述候选标准地址库中查找得到多个匹配的第二标准地址，组成第二标准地址集；

获取所述第一标准地址集和所述第二标准地址集中相同的标准地址，得到第三标准地址，组成第三标准地址集；

将所述待纠错地址文本分别与所述第三标准地址集中的各所述第三标准地址进行相似度比对，得到所述待纠错地址文本对应的目标标准地址文本。

2.根据权利要求1所述的方法，其特征在于，所述对所述待纠错地址文本进行分词，得到对应的地址词语集，所述地址词语集中包括多个地址词语，包括：

获取分词算法；

通过所述分词算法对所述待纠错地址文本进行分词，得到多个地址词语，组成地址词语集。

3.根据权利要求1所述的方法，其特征在于，所述根据各所述地址词语从候选标准地址库中查找得到多个匹配的第一标准地址，组成第一标准地址集，包括：

获取候选标准地址库，所述候选标准地址库包括多个候选标准地址，各所述候选标准地址关联有对应的候选标准地址词语索引，所述候选标准地址词语索引表示各所述候选标准地址的组成词语之间的关联关系；

根据各所述地址词语从候选标准地址库中各所述候选标准地址关联的候选标准地址词语索引，确定匹配的多个第一标准地址，得到第一标准地址集。

4.根据权利要求3所述的方法，其特征在于，所述根据各所述地址词语从候选标准地址库中各所述候选标准地址关联的候选标准地址词语索引，确定匹配的多个第一标准地址，得到第一标准地址集，包括：

从各所述地址词语中确定至少一个当前地址词语；

根据至少一个所述当前地址词语确定所述候选标准地址词语索引中匹配的目标组成词语；

根据所述关联关系确定所述目标组成词语对应的关联组成词语，得到匹配的多个第一标准地址，得到第一标准地址集。

5.根据权利要求1所述的方法，其特征在于，所述根据所述地址拼音文本从所述候选标准地址库中查找得到多个匹配的第二标准地址，组成第二标准地址集，包括：

获取候选标准地址库，所述候选标准地址库包括多个候选标准地址，各所述候选标准地址关联有对应的候选标准地址拼音；

对所述地址拼音文本与各所述候选标准地址拼音进行拼音相似度计算，得到拼音相似度值；

根据所述拼音相似度值从所述候选标准地址库中确定与所述地址拼音文本匹配的多个第二标准地址，组成第二标准地址集。

6.根据权利要求1所述的方法，其特征在于，所述各地址词语关联有地址词语词性，所述第三标准地址关联有各标准地址词语对应的标准地址词语词性，所述将所述待纠错地址文本分别与所述第三标准地址集中的各所述第三标准地址进行相似度比对，得到所述待纠错地址文本对应的目标标准地址文本，包括：

根据各所述地址词语词性与各所述第三标准地址对应的标准地址词语词性，计算得到所述待纠错地址文本与各所述第三标准地址对应的词语词性匹配度；

将所述待纠错地址文本分别与所述第三标准地址集中的各所述第三标准地址进行地址相似度比对，得到所述待纠错地址文本与各所述第三标准地址对应的地址相似度；

根据所述词语词性匹配度和所述地址相似度从所述第三标准地址集中确定所述待纠错地址文本对应的目标标准地址文本。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述待纠错地址文本和所述目标标准地址文本确定地址纠错数据，所述地址纠错数据是所述待纠错地址文本相比所述目标标准地址文本出现缺失或者错误的地址数据；

将所述地址纠错数据和所述目标标准地址文本发送至用户设备，使得所述用户设备展示所述待纠错地址文本对应的目标标准地址和地址纠错数据。

8.一种地址纠错装置，其特征在于，所述装置包括：

获取模块，用于获取待纠错地址文本；

分词模块，用于对所述待纠错地址文本进行分词，得到对应的地址词语集，所述地址词语集中包括多个地址词语；

转换模块，用于对各所述地址词语进行拼音转换，得到所述地址词语集对应的地址拼音文本；

第一查找模块，用于根据各所述地址词语从候选标准地址库中查找得到多个匹配的第一标准地址，组成第一标准地址集；

第二查找模块，用于根据所述地址拼音文本从所述候选标准地址库中查找得到多个匹配的第二标准地址，组成第二标准地址集；

比较模块，用于获取所述第一标准地址集和所述第二标准地址集中相同的标准地址，得到第三标准地址，组成第三标准地址集；

生成模块，用于将所述待纠错地址文本分别与所述第三标准地址集中的各所述第三标准地址进行相似度比对，得到所述待纠错地址文本对应的目标标准地址文本。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。