CN113779370A

CN113779370A - 一种地址检索方法和装置

Info

Publication number: CN113779370A
Application number: CN202011211319.0A
Authority: CN
Inventors: 李司钤
Original assignee: Beijing Jingdong Zhenshi Information Technology Co Ltd
Current assignee: Beijing Jingdong Zhenshi Information Technology Co Ltd
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2021-12-10
Anticipated expiration: 2040-11-03
Also published as: CN113779370B

Abstract

本发明公开了一种地址检索方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：根据查询地址，检索得到与查询地址对应的地址集合；对地址集合中的地址进行分析，该分析包括文本相似度分析，还包括空间相似度分析、语义理解分析中的至少一者；根据对地址集合中的地址的分析结果，从地址集合中选出作为最优检索结果的地址以输出。该实施方式能够考虑地址之间的空间关系、地址层级可能不连贯等因素影响，综合空间、文本、语义理解方面对检索结果进行分析，更全面地评估检索得到的地址的可靠性，并避免受到地址中特殊信息的干扰，可以从检索结果中得到可信度更高的地址，从而提高地址检索的准确度。

Description

一种地址检索方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种地址检索方法和装置。

背景技术

在地址检索的过程中，给定一条地址，通过检索数据库中全部记录来获取一条与查询最相似的记录，从而获取该查询地址的坐标、类别等信息。由于检索的策略问题、多数据源或数据本身的错误，可能导致上述检索过程出现错误匹配的情况，这个问题很难完全避免，为解决上述问题，现有方案对地址信息的检索往往停留在文本处理层面，仅通过文本层面对地址检索的准确性进行评估。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

由于受到地址中一些数字或者非常少见的POI(兴趣点)等特殊信息的干扰，导致检索最终返回的地址和查询地址偏差较大；由于未考虑空间关系，很难全面评估检索的可靠性；由于实际情况中查询地址的层级关系可能是不连贯的，仅通过文本层面处理对语义的理解有严重影响。

发明内容

有鉴于此，本发明实施例提供一种地址检索方法和装置，能够考虑地址之间的空间关系、地址层级可能不连贯等因素影响，综合空间、文本、语义理解方面对检索结果进行分析，更全面地评估检索得到的地址的可靠性，并避免受到地址中特殊信息的干扰，可以从检索结果中得到可信度更高的地址，从而提高地址检索的准确度。

为实现上述目的，根据本发明实施例的一个方面，提供了一种地址信息的检索方法。

一种地址检索方法，包括：根据查询地址，检索得到与所述查询地址对应的地址集合；对所述地址集合中的地址进行分析，所述分析包括文本相似度分析，还包括空间相似度分析、语义理解分析中的至少一者；根据对所述地址集合中的地址的分析结果，从所述地址集合中选出作为最优检索结果的地址以输出。

可选地，对所述地址集合中的地址进行所述空间相似度分析，包括：通过预设算法，确定所述地址集合中的地址的空间分布；根据所述地址集合中的地址的空间分布，确定所述地址集合中的地址的空间相似度。

可选地，利用空间聚类算法，确定所述地址集合中的地址的空间分布，所述空间分布包括不超过设定数目的聚类簇；所述根据所述地址集合中的地址的空间分布，确定所述地址集合中的地址的空间相似度，包括：根据所述地址集合中的地址所属的聚类簇的聚类半径，确定所述地址集合中的地址的空间相似度。

可选地，对所述地址集合中的地址进行所述语义理解分析，包括：利用地址语义理解模型，对所述地址集合中的地址进行语义理解，以确定所述地址集合中的地址与所述查询地址相匹配的地址层级；从所述地址集合中的地址与所述查询地址中，选出除所述相匹配的地址层级之外的地址信息；基于选出的地址信息，计算所述地址集合中的地址的理解准确度，所述理解准确度用于衡量所述地址集合中的地址与所述查询地址之间的相关性。

可选地，所述语义理解包括正向语义理解、逆向语义理解，所述相匹配的地址层级包括正向匹配的地址层级、逆向匹配的地址层级；所述基于选出的地址信息，计算所述地址集合中的地址的理解准确度，包括：基于所述地址集合中的地址与所述查询地址中，除所述正向匹配的地址层级之外的第一地址信息，计算所述地址集合中的地址的正向理解准确度，所述正向理解准确度用于衡量所述地址集合中的地址与所述查询地址在正向上的相关性；基于所述地址集合中的地址与所述查询地址中，除所述逆向匹配的地址层级之外的第二地址信息，计算所述地址集合中的地址的逆向理解准确度，所述逆向理解准确度用于衡量所述地址集合中的地址与所述查询地址在逆向上的相关性；根据所述正向理解准确度和所述逆向理解准确度，计算所述地址集合中的地址的理解准确度。

可选地，基于所述第一地址信息计算得到正向皮尔逊相关系数，作为所述正向理解准确度；基于所述第二地址信息计算得到逆向皮尔逊相关系数，作为所述逆向理解准确度；根据所述正向理解准确度和所述逆向理解准确度的加权和，得到所述地址集合中的地址的理解准确度。

可选地，所述根据对所述地址集合中的地址的分析结果，从所述地址集合中选出作为最优检索结果的地址以输出，包括：从所述分析结果中得到所述地址集合中的地址的参数集，所述参数集包括文本相似度，还包括空间相似度、理解准确度中的至少一者；基于得到的所述参数集构建逻辑回归模型，通过所述逻辑回归模型，计算所述地址集合中的地址的可信度；选出所述地址集合中所述可信度最高的一个或多个地址，作为所述最优检索结果的地址以输出。

根据本发明实施例的另一方面，提供了一种地址检索装置。

一种地址检索的装置，包括：地址查询模块，用于根据查询地址，检索得到与所述查询地址对应的地址集合；地址分析模块，用于对所述地址集合中的地址进行分析，所述分析包括文本相似度分析，还包括空间相似度分析、语义理解分析中的至少一者；最优检索结果输出模块，用于根据对所述地址集合中的地址的分析结果，从所述地址集合中选出作为最优检索结果的地址以输出。

可选地，所述地址分析模块通过如下方式对所述地址集合中的地址进行所述空间相似度分析：通过预设算法，确定所述地址集合中的地址的空间分布；根据所述地址集合中的地址的空间分布，确定所述地址集合中的地址的空间相似度。

可选地，所述地址分析模块利用空间聚类算法，确定所述地址集合中的地址的空间分布，所述空间分布包括不超过设定数目的聚类簇；所述地址分析模块包括空间相似度确定子模块，用于：根据所述地址集合中的地址所属的聚类簇的聚类半径，确定所述地址集合中的地址的空间相似度。

可选地，所述地址分析模块通过如下方式对所述地址集合中的地址进行所述语义理解分析：利用地址语义理解模型，对所述地址集合中的地址进行语义理解，以确定所述地址集合中的地址与所述查询地址相匹配的地址层级；从所述地址集合中的地址与所述查询地址中，选出除所述相匹配的地址层级之外的地址信息；基于选出的地址信息，计算所述地址集合中的地址的理解准确度，所述理解准确度用于衡量所述地址集合中的地址与所述查询地址之间的相关性。

可选地，所述语义理解包括正向语义理解、逆向语义理解，所述相匹配的地址层级包括正向匹配的地址层级、逆向匹配的地址层级；所述地址分析模块包括地址理解准确度计算子模块，用于：基于所述地址集合中的地址与所述查询地址中，除所述正向匹配的地址层级之外的第一地址信息，计算所述地址集合中的地址的正向理解准确度，所述正向理解准确度用于衡量所述地址集合中的地址与所述查询地址在正向上的相关性；基于所述地址集合中的地址与所述查询地址中，除所述逆向匹配的地址层级之外的第二地址信息，计算所述地址集合中的地址的逆向理解准确度，所述逆向理解准确度用于衡量所述地址集合中的地址与所述查询地址在逆向上的相关性；根据所述正向理解准确度和所述逆向理解准确度，计算所述地址集合中的地址的理解准确度。

可选地，所述地址理解准确度计算子模块还用于：基于所述第一地址信息计算得到正向皮尔逊相关系数，作为所述正向理解准确度；基于所述第二地址信息计算得到逆向皮尔逊相关系数，作为所述逆向理解准确度；根据所述正向理解准确度和所述逆向理解准确度的加权和，得到所述地址集合中的地址的理解准确度。

可选地，所述最优检索结果输出模块还用于：从所述分析结果中得到所述地址集合中的地址的参数集，所述参数集包括文本相似度，还包括空间相似度、理解准确度中的至少一者；基于得到的所述参数集构建逻辑回归模型，通过所述逻辑回归模型，计算所述地址集合中的地址的可信度；选出所述地址集合中所述可信度最高的一个或多个地址，作为所述最优检索结果的地址以输出。

根据本发明实施例的又一方面，提供了一种电子设备。

一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现本发明实施例所提供的地址检索方法。

根据本发明实施例的又一方面，提供了一种计算机可读介质。

一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明实施例所提供的地址检索方法。

上述发明中的一个实施例具有如下优点或有益效果：根据查询地址，检索得到与查询地址对应的地址集合；对地址集合中的地址进行分析，该分析包括文本相似度分析，还包括空间相似度分析、语义理解分析中的至少一者；根据对地址集合中的地址的分析结果，从地址集合中选出作为最优检索结果的地址以输出。能够考虑地址之间的空间关系、地址层级可能不连贯等因素影响，综合空间、文本、语义理解方面对检索结果进行分析，更全面地评估检索得到的地址的可靠性，并避免受到地址中特殊信息的干扰，可以从检索结果中得到可信度更高的地址，从而提高地址检索的准确度。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明一个实施例的地址检索方法的主要步骤示意图；

图2是根据本发明一个实施例的地址检索的流程示意图；

图3是根据本发明实施例的地址检索装置的主要模块的示意图；

图4是本发明实施例可以应用于其中的示例性系统架构图；

图5是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明一个实施例的地址检索方法的主要步骤示意图。

如图1所示，本发明一个实施例的地址检索方法主要包括如下的步骤S101至步骤S103。

步骤S101：根据查询地址，检索得到与查询地址对应的地址集合。

其中，查询地址即用户输入的需要查询的地址，也可以称为检索项，可以通过检索数据库中全部记录来获取与检索项相似记录，以得到上述地址集合。

步骤S102：对地址集合中的地址进行分析，该分析包括文本相似度分析，还包括空间相似度分析、语义理解分析中的至少一者。

对地址集合中的地址进行文本相似度分析时，可以结合查询地址与地址集合中的地址的文本匹配程度，计算地址集合中的地址的得分，由该得分得到该地址的文本相似度，具体在下文还将详细介绍。

对地址集合中的地址进行空间相似度分析，可以包括：通过预设算法，确定地址集合中的地址的空间分布；根据地址集合中的地址的空间分布，确定地址集合中的地址的空间相似度。

可以利用空间聚类算法，确定地址集合中的地址的空间分布，空间分布包括不超过设定数目的聚类簇，本发明实施例的上述预设算法不仅限于空间聚类算法，还可以采用其他聚类算法或直接计算地址之间欧式距离的算法来确定该空间分布。

根据地址集合中的地址的空间分布，确定地址集合中的地址的空间相似度，可以包括：根据地址集合中的地址所属的聚类簇的聚类半径，确定地址集合中的地址的空间相似度。例如，将密度聚类中的聚类半径参数设置为500m(米)，对所有召回结果(即地址集合)中每条地址进行密度聚类，若最终的聚类簇只有一个，则继续将聚类半径设置为400m并进行密度聚类，以此类推，直到聚类簇出现两个或者聚类半径减到100m，则停止聚类。最终的聚类半径大小可以表示一个分值，即地址的空间相似度。聚类半径越小则说明召回结果越集中，空间相似度越高。

对地址集合中的地址进行语义理解分析，可以包括：利用地址语义理解模型，对地址集合中的地址进行语义理解，以确定地址集合中的地址与查询地址相匹配的地址层级；从地址集合中的地址与查询地址中，选出除相匹配的地址层级之外的地址信息；基于选出的地址信息，计算地址集合中的地址的理解准确度，理解准确度用于衡量地址集合中的地址与查询地址之间的相关性。

语义理解可以包括正向语义理解、逆向语义理解，相匹配的地址层级可以包括正向匹配的地址层级、逆向匹配的地址层级。正向语义理解即对地址从前向后进行语义理解，逆向语义理解即对地址从后向前进行语义理解。正向匹配的地址层级即按照地址正向匹配时所匹配到的层级，逆向匹配的地址层级即按照地址逆向匹配时所匹配到的层级。例如：“北京市大兴区亦庄经济开发区上海沙龙”和“北京市大兴区五环到六环之间上海沙龙”，正向语义理解只理解到了“大兴区”这个层级，即二者按地址层级正向匹配只有正向第一个层级“北京市”和第二个层级“大兴区”是一致的。而逆向语义理解只理解到了“上海沙龙”这个层级，即二者按地址层级逆向匹配只有逆向第一个层级“上海沙龙”是一致的。

基于选出的地址信息，计算地址集合中的地址的理解准确度，可以包括：基于地址集合中的地址与查询地址中，除正向匹配的地址层级之外的第一地址信息，计算地址集合中的地址的正向理解准确度，正向理解准确度用于衡量地址集合中的地址与查询地址在正向上的相关性；基于地址集合中的地址与查询地址中，除逆向匹配的地址层级之外的第二地址信息，计算地址集合中的地址的逆向理解准确度，逆向理解准确度用于衡量地址集合中的地址与查询地址在逆向上的相关性；根据正向理解准确度和逆向理解准确度，计算地址集合中的地址的理解准确度。

其中，按照地址层级关系，将地址集合中的地址与查询地址在正向上进行逐层对比，对于二者不一致的部分，将其称为第一地址信息。第一地址信息包括来源于地址集合中地址的地址信息(例如上例的“亦庄经济开发区上海沙龙”)和来源于查询地址的地址信息(例如上例的“五环到六环之间上海沙龙”)。

同理，按照地址层级关系，将地址集合中的地址与查询地址在逆向上进行逐层对比，对于二者不一致的部分，将其称为第二地址信息。第二地址信息也来源于地址集合中地址和查询地址二者，例如对于上例，第二地址信息包括“北京市大兴区亦庄经济开发区”和“北京市大兴区五环到六环之间”。

可以基于第一地址信息计算得到正向皮尔逊相关系数，作为正向理解准确度，以及基于第二地址信息计算得到逆向皮尔逊相关系数，作为逆向理解准确度，最后根据正向理解准确度和逆向理解准确度的加权和，得到地址集合中的地址的理解准确度。

根据皮尔逊相关系数的计算原理：假设有两个变量X X(x1,x2,x3......)、Y(y1,y2,y3......)，那么两个变量间的皮尔逊相关系数可以通过如下公式计算：

可以按照上述计算原理来计算正向皮尔逊相关系数和逆向皮尔逊相关系数，以计算正向皮尔逊相关系数为例，本发明实施例的第一地址信息中，来源于地址集合中地址的地址信息可以记作X(x1,x2,x3......)，x1,x2,x3......是每个字(汉字是单字；字母与数字不分开)的概率值；来源于查询地址的地址信息可以记作Y(y1,y2,y3......)，y1,y2,y3......是每个字(汉字是单字，字母与数字不分开)的概率值。上述的每个字可以提前用构建好的语言模型计算概率值，以作为变量(x1,x2,x3......、y1,y2,y3......)的值，再代入到皮尔逊相关系数的计算原理的公式中，计算出正向皮尔逊相关系数。逆向皮尔逊相关系数的计算方式类似，不再赘述。

计算地址集合中的地址的理解准确度可以通过如下方式计算：总系数＝w3×正向皮尔逊相关系数+w4×逆向皮尔逊相关系数，其中，w3和w4为权重，该权重通过训练得到，关于权重训练将在下文介绍，总系数即为地址的理解准确度。

步骤S103：根据对地址集合中的地址的分析结果，从地址集合中选出作为最优检索结果的地址以输出。

具体地，可以从分析结果中得到地址集合中的地址的参数集，该参数集包括文本相似度，还可以包括空间相似度、理解准确度中的至少一者；基于得到的参数集构建逻辑回归模型，通过逻辑回归模型，计算地址集合中的地址的可信度；选出地址集合中可信度最高的一个或多个地址，作为最优检索结果的地址以输出。

基于得到的参数集构建的逻辑回归模型的形式可以是对参数集中参数加权求和，每个参数有对应的权重。

可以预先通过梯度下降法，利用训练样本，训练本发明实施例的逻辑回归模型以及地址语义理解模型，得到参数集中参数的权重以及正向、逆向皮尔逊相关系数的权重，根据需要，逻辑回归模型以及地址语义理解模型可以一起训练。

图2是根据本发明一个实施例的地址检索的流程示意图。

本发明的一个实施例中，给定一条查询地址(即检索项)，进行文本层面的匹配，可以通过调整搜索引擎的配置来控制检索召回地址数，将返回的多条地址作为与查询地址对应的地址集合。例如，搜索“北京市大兴区上海沙龙”，搜索引擎会召回“北京经济技术开发区上海沙龙16-1-901”、“北京旭东嘉园上海沙龙22号楼3A06”、“北京上海沙龙11-1-901西门”等等。这是文本层面的粗排。

现有技术对地址的检索不考虑空间关系，本发明实施例通过确定地址集合中的地址的空间相似度，来分析与查询地址对应的地址集合在空间中的分布情况来评估检索结果。一般情况下，同一区域内的地址命名都较为类似，由此反推，检索的所有召回结果在空间内的分布也比较密集。如果在数据库中，与给定查询地址相似的地址比较少，或者给定查询地址本身有错误，就有可能通过地址中并不是非常重要的信息匹配得到结果，例如“北京市大兴区亦庄大厦1609”，地址本身不详，“大厦”的权重远不及“1609”，所以极有可能匹配到“北京市大兴区亦庄朝林广场1609”、“北京市大兴区亦庄京东大厦”等和查询项(即查询地址)看起来很不相关的结果。本发明实施例提出一个先验条件：如果给定查询地址包含的信息不全，那么所有查询结果在空间范围内的分布也应该比较零散。基于这个先验条件，加上检索得到的全部结果地址都含有坐标信息，对地址集合中的地址的空间分布进行分析，以确定地址集合中的地址的空间相似度。

分析空间分布有计算欧式距离等多种方法，可选地，本发明实施例利用密度聚类(dbscan)算法，将地址集合中的所有地址进行空间聚类。在密度聚类中，设定不同等级的参数半径(即聚类半径)，按照参数半径由大到小的顺序，对地址集合中的地址进行聚类。在聚类结果中的聚类簇数目符合设定的聚类停止条件的情况下，判定空间聚类停止。停止聚类的条件为聚类结果中聚类簇数目符合设定的数目，或者参数半径达到设定的最小等级。

除了考虑空间分布，不排除有些地区POI点分布较为零散，有可能所有检索结果中只有前一两条是正确的，甚至只有第一条是正确的。因此本发明实施例还结合检索项和检索结果(即地址集合中的地址)之间的文本匹配程度，计算地址集合中的地址的得分，作为该地址的文本相似度。计算地址集合中地址的文本相似度的前提是将地址向量化，具体地，利用自定义分词器将地址分词，计算每一个词项在当前地址中的词频和在全体召回文档中的逆文档频(或称逆文档频率)。将该词频和逆文档频的乘积作为该词项的权重，将一条地址中所有的词项权重加起来得到该地址的得分，也就是该条地址的文本相似度，这一过程即为图2的基于词频文本相似度评估过程。

上述地址向量化的方式与地址的整体检索过程中的量化方式是类似的，此处的检索过程是指根据检索项(即查询地址)检索得到与查询地址对应的地址集合的过程。只不过在检索过程中，词语的逆文档频是针对数据库全体记录的，即在检索过程中，搜索引擎里会提前存储一条一条的文档，存储的时候先将每条文档拆分成词项，并计算每个词项的词频(即词项在文档中出现的次数)和逆文档频(即该词语在多少篇文档中出现过的次数的倒数)，然后通过搜索引擎根据查询项(即检索项)，召回了若干条相关的文档，召回结果相对于数据库中其余的记录，与查询记录更加相近。而在通过计算文本相似度进一步评估召回结果时，使用同样算法计算局部权重，具体地，对召回的每条结果拆分出词项，计算每个词项在这些召回结果中的文档频和逆文档频，该逆文档频即为局部权重，通过计算局部权重可以放大召回文档之间的差异，利用每一个词项在当前地址中的词频和在全体召回文档中的逆文档频的乘积作为该词项的权重，重新给每个召回结果打分，该分数等于该召回结果(该条地址)中所有词项权重之和，即该地址的文本相似度。

本发明实施例还通过构建双向地址语义理解程度模型，对与查询地址对应的地址集合中的地址进行语义理解，本发明实施例的双向地址语义理解程度模型是对上述地址集合中的地址进行双向地址语义理解(包括正向语义理解和逆向语义理解)的一种地址语义理解模型(地址语义理解模型是指对地址进行语义理解的模型)。遍历检索结果，对地址集合中的每一条结果，按照地址层级关系，与查询地址进行逐层对比，分析有多少个地址层级是一致的，对于地址中余下的不一致的部分，基于相关性原理，以汉字或字符为单位，计算它们之间的皮尔逊相关系数。两个变量之间的相关系数越高，从一个变量去预测另一个变量的精确度就越高。例如，“北京市大兴区亦庄经济开发区上海沙龙16-1-901”和“北京市大兴区亦庄经济开发区上海沙龙22号楼3A06”，通过正向匹配，两条地址到小区的名字都是一致的，说明对搜索结果(即召回结果)理解到了小区层面。其中不一致的部分作为第一地址信息，为“16-1-901”和“22号楼3A06”，将其拆分为“16”、“1”“901”和“22”、“号”、“楼”、“3A06”，分别将每个字用已经构建好的语言模型计算了概率值作为变量的值，代入到皮尔逊相关系数的计算公式中，计算结果为正向语义理解准确度。其中，语言模型用于计算每个词项的概率，本发明实施例的语言模型可以采用通用的可以计算词项的概率的语言模型，例如基于马尔科夫假设的语言模型。

由于地址是有层级关系的，因此对地址的语义理解其实就是地址层级的解析程度。实际情况中给定查询地址的层级关系可能是不连贯的，这会严重影响对地址的理解。例如：地址中只写“北京市上海沙龙四号楼”，导致和“北京市大兴区荣华街道上海沙龙三号楼二单元”只有“北京”对应得上这种情况，为了避免这种情况，本发明实施例采用双向校验机制，即除了对地址进行正向语义理解，还进行逆向语义理解，去掉地址中“三号楼二单元”等门址信息的冗余项后，从小区开始往前再匹配一遍，去掉两条地址相同的部分，将不相同的部分为“北京市”和“北京市大兴区荣华街道”，作为第二地址信息。以汉字或字符为单位将其拆分，分别将每个字用已经构建好的语言模型计算了概率值作为变量的值，代入到皮尔逊相关系数的计算公式中，计算结果为逆向语义理解准确度。

地址集合中的地址的理解准确度为上述正向理解准确度和逆向理解准确度的加权和。

综合以上空间相似度、文本相似度、语义理解准确度的分析，基于这三个参数构建逻辑回归模型，并对该三个参数赋予权重，来计算地址集合中的地址的可信度，将其中可信度最高的一个或多个地址作为最优的检索结果并输出(即图2中归一化过程)。

逻辑回归模型计算公式如下：

h(x)＝w0*spatial_similarity+w1*text_similarity+w2*semantic_comprehension+b

其中，h(x)表示地址的可信度，spatial_similarity表示空间相似度；text_similarity表示文本相似度；semantic_comprehension表示语义理解准确度，即对地址的理解准确度；b为偏置项；w0、w1、w2分别表示空间相似度、文本相似度、语义理解准确度的权重系数(或称权重)，权重系数、偏置项等模型参数的值通过训练逻辑回归模型确定。

图3是根据本发明一个实施例的地址检索装置的主要模块示意图。

如图3所示，本发明一个实施例的地址检索装置300主要包括：地址检索模块301、地址分析模块302、最优检索结果输出模块303。

地址查询模块301，用于根据查询地址，检索得到与查询地址对应的地址集合；

地址分析模块302，用于对地址集合中的地址进行分析，该分析包括文本相似度分析，还包括空间相似度分析、语义理解分析中的至少一者；

最优检索结果输出模块303，用于根据对地址集合中的地址的分析结果，从地址集合中选出作为最优检索结果的地址以输出。

地址分析模块302可以通过如下方式对地址集合中的地址进行空间相似度分析：通过预设算法，确定地址集合中的地址的空间分布；根据地址集合中的地址的空间分布，确定地址集合中的地址的空间相似度。

具体可以利用空间聚类算法，确定地址集合中的地址的空间分布，空间分布包括不超过设定数目的聚类簇。

地址分析模块302可以包括空间相似度确定子模块，用于：根据所述地址集合中的地址所属的聚类簇的聚类半径，确定所述地址集合中的地址的空间相似度。

地址分析模块302可以通过如下方式对所述地址集合中的地址进行所述语义理解分析：利用地址语义理解模型，对所述地址集合中的地址进行语义理解，以确定所述地址集合中的地址与所述查询地址相匹配的地址层级；从所述地址集合中的地址与所述查询地址中，选出除所述相匹配的地址层级之外的地址信息；基于选出的地址信息，计算所述地址集合中的地址的理解准确度，所述理解准确度用于衡量所述地址集合中的地址与所述查询地址之间的相关性。

语义理解可以包括正向语义理解、逆向语义理解，所述相匹配的地址层级包括正向匹配的地址层级、逆向匹配的地址层级。

地址分析模块302可以包括地址理解准确度计算子模块，用于：基于所述地址集合中的地址与所述查询地址中，除所述正向匹配的地址层级之外的第一地址信息，计算所述地址集合中的地址的正向理解准确度，所述正向理解准确度用于衡量所述地址集合中的地址与所述查询地址在正向上的相关性；基于所述地址集合中的地址与所述查询地址中，除所述逆向匹配的地址层级之外的第二地址信息，计算所述地址集合中的地址的逆向理解准确度，所述逆向理解准确度用于衡量所述地址集合中的地址与所述查询地址在逆向上的相关性；根据所述正向理解准确度和所述逆向理解准确度，计算所述地址集合中的地址的理解准确度。

地址理解准确度计算子模块还可以用于：基于第一地址信息计算得到正向皮尔逊相关系数，作为所述正向理解准确度；基于所述第二地址信息计算得到逆向皮尔逊相关系数，作为所述逆向理解准确度；根据所述正向理解准确度和所述逆向理解准确度的加权和，得到所述地址集合中的地址的理解准确度。

最优检索结果输出模块303具体可以用于：从所述分析结果中得到所述地址集合中的地址的参数集，所述参数集包括文本相似度，还包括空间相似度、理解准确度中的至少一者；基于得到的所述参数集构建逻辑回归模型，通过所述逻辑回归模型，计算所述地址集合中的地址的可信度；选出所述地址集合中所述可信度最高的一个或多个地址，作为所述最优检索结果的地址以输出。

另外，在本发明实施例中地址检索装置的具体实施内容，在上面地址检索方法中已经详细说明了，故在此重复内容不再说明。

图4示出了可以应用本发明实施例的地址检索方法或地址检索装置的示例性系统架构400。

如图4所示，系统架构400可以包括终端设备401、402、403，网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备401、402、403通过网络404与服务器405交互，以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器405可以是提供各种服务的服务器，例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的地址检索方法一般由服务器405执行，相应地，地址检索装置一般设置于服务器405中。

应该理解，图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图5，其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统500的结构示意图。图5示出的终端设备或服务器仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括地址检索模块、地址分析模块、最优检索结果输出模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，地址检索模块还可以被描述为“用于根据查询地址，检索得到与查询地址对应的地址集合的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：根据查询地址，检索得到与所述查询地址对应的地址集合；对所述地址集合中的地址进行分析，所述分析包括文本相似度分析，还包括空间相似度分析、语义理解分析中的至少一者；根据对所述地址集合中的地址的分析结果，从所述地址集合中选出作为最优检索结果的地址以输出。

根据本发明实施例的技术方案，根据查询地址，检索得到与查询地址对应的地址集合；对地址集合中的地址进行分析，该分析包括文本相似度分析，还包括空间相似度分析、语义理解分析中的至少一者；根据对地址集合中的地址的分析结果，从地址集合中选出作为最优检索结果的地址以输出。能够考虑地址之间的空间关系、地址层级可能不连贯等因素影响，综合空间、文本、语义理解方面对检索结果进行分析，更全面地评估检索得到的地址的可靠性，并避免受到地址中特殊信息的干扰，可以从检索结果中得到可信度更高的地址，从而提高地址检索的准确度。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种地址检索方法，其特征在于，包括：

根据查询地址，检索得到与所述查询地址对应的地址集合；

对所述地址集合中的地址进行分析，所述分析包括文本相似度分析，还包括空间相似度分析、语义理解分析中的至少一者；

根据对所述地址集合中的地址的分析结果，从所述地址集合中选出作为最优检索结果的地址以输出。

2.根据权利要求1所述的方法，其特征在于，对所述地址集合中的地址进行所述空间相似度分析，包括：

通过预设算法，确定所述地址集合中的地址的空间分布；

根据所述地址集合中的地址的空间分布，确定所述地址集合中的地址的空间相似度。

3.根据权利要求2所述的方法，其特征在于，利用空间聚类算法，确定所述地址集合中的地址的空间分布，所述空间分布包括不超过设定数目的聚类簇；

所述根据所述地址集合中的地址的空间分布，确定所述地址集合中的地址的空间相似度，包括：

根据所述地址集合中的地址所属的聚类簇的聚类半径，确定所述地址集合中的地址的空间相似度。

4.根据权利要求1所述的方法，其特征在于，对所述地址集合中的地址进行所述语义理解分析，包括：

利用地址语义理解模型，对所述地址集合中的地址进行语义理解，以确定所述地址集合中的地址与所述查询地址相匹配的地址层级；

从所述地址集合中的地址与所述查询地址中，选出除所述相匹配的地址层级之外的地址信息；

基于选出的地址信息，计算所述地址集合中的地址的理解准确度，所述理解准确度用于衡量所述地址集合中的地址与所述查询地址之间的相关性。

5.根据权利要求4所述的方法，其特征在于，所述语义理解包括正向语义理解、逆向语义理解，所述相匹配的地址层级包括正向匹配的地址层级、逆向匹配的地址层级；

所述基于选出的地址信息，计算所述地址集合中的地址的理解准确度，包括：

基于所述地址集合中的地址与所述查询地址中，除所述正向匹配的地址层级之外的第一地址信息，计算所述地址集合中的地址的正向理解准确度，所述正向理解准确度用于衡量所述地址集合中的地址与所述查询地址在正向上的相关性；

基于所述地址集合中的地址与所述查询地址中，除所述逆向匹配的地址层级之外的第二地址信息，计算所述地址集合中的地址的逆向理解准确度，所述逆向理解准确度用于衡量所述地址集合中的地址与所述查询地址在逆向上的相关性；

根据所述正向理解准确度和所述逆向理解准确度，计算所述地址集合中的地址的理解准确度。

6.根据权利要求5所述的方法，其特征在于，

基于所述第一地址信息计算得到正向皮尔逊相关系数，作为所述正向理解准确度；

基于所述第二地址信息计算得到逆向皮尔逊相关系数，作为所述逆向理解准确度；

根据所述正向理解准确度和所述逆向理解准确度的加权和，得到所述地址集合中的地址的理解准确度。

7.根据权利要求1所述的方法，其特征在于，所述根据对所述地址集合中的地址的分析结果，从所述地址集合中选出作为最优检索结果的地址以输出，包括：

从所述分析结果中得到所述地址集合中的地址的参数集，所述参数集包括文本相似度，还包括空间相似度、理解准确度中的至少一者；

基于得到的所述参数集构建逻辑回归模型，通过所述逻辑回归模型，计算所述地址集合中的地址的可信度；

选出所述地址集合中所述可信度最高的一个或多个地址，作为所述最优检索结果的地址以输出。

8.一种地址检索的装置，其特征在于，包括：

地址查询模块，用于根据查询地址，检索得到与所述查询地址对应的地址集合；

地址分析模块，用于对所述地址集合中的地址进行分析，所述分析包括文本相似度分析，还包括空间相似度分析、语义理解分析中的至少一者；

最优检索结果输出模块，用于根据对所述地址集合中的地址的分析结果，从所述地址集合中选出作为最优检索结果的地址以输出。

9.根据权利要求8所述的装置，其特征在于，所述地址分析模块通过如下方式对所述地址集合中的地址进行所述空间相似度分析：

通过预设算法，确定所述地址集合中的地址的空间分布；

10.根据权利要求8所述的装置，其特征在于，所述地址分析模块通过如下方式对所述地址集合中的地址进行所述语义理解分析：

11.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

12.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。