CN115470307A

CN115470307A - 一种地址匹配方法及装置

Info

Publication number: CN115470307A
Application number: CN202211075866.XA
Authority: CN
Inventors: 陈丽红; 刘伟棠; 陈立力; 周明伟
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2022-09-02
Filing date: 2022-09-02
Publication date: 2022-12-13

Abstract

本发明实施例公开一种地址匹配方法及装置，可以应用于地理信息数据处理领域，用于解决现有技术中地址匹配准确度低的问题。方法包括：获取待匹配地址；根据预存词库，对待匹配地址进行分词，得到第一地址元素；预存词库包括通过命名实体识别模型提取所述待匹配地址的第二地址元素、以及基础分词词库；对第一地址元素进行地址标准化处理，获得标准化的待匹配地址；从预设数据库中匹配出标准化的待匹配地址的目标地址。该方法可以实现准确识别待匹配地址的第一地址元素，对第一地址元素进行地址标准化处理后可以提高从预设数据库中匹配到待匹配地址的目标地址的准确度。

Description

一种地址匹配方法及装置

技术领域

本发明涉及数据处理领域，尤其涉及一种地址匹配方法及装置。

背景技术

地址信息是社会发展中必不可少的资源，在医疗、公安等许多行业中都有着重要的应用价值。通过对地址数据做进一步转换，获取其对应的空间数据，在地理信息数据处理领域，这一过程被称为地址匹配。例如，用户将一个待匹配地址输入终端设备，终端设备将该地址与预设数据库中的地址进行匹配并返回对应的经纬度坐标，从而可在地图上定位到该地址。

目前，不规范的地址数据以及不精准的地址分词使得地址匹配的准确率往往较低。地址元素错误、地址元素模糊以及地址元素缺失等问题，给地址匹配任务造成了不小的阻碍。例如，待匹配地址为“折江省台州市黄岩区头陀镇振兴路6号头陀商场”，其中，地址元素“浙江省”被写错为“折江省”，属于地址元素错误。再例如，待匹配地址为“浙江省台州市头陀镇振兴路附近头陀商场”，其中，地址元素“振兴路附近”的地址指向不明确，属于地址元素模糊问题。再例如，待匹配地址为“浙江省黄岩区头陀镇振兴路6号头陀商场”，其中，待匹配地址中缺少地级地址元素“台州市”，属于地址元素缺失。再例如，地址为“江苏省南京市六合区竹镇镇东后街5号竹镇镇民族小学”，其中地址元素“竹镇镇”可能被错误分词为“竹镇”，导致地址匹配准确率低。

发明内容

本发明实施例提供一种地址匹配方法及装置，通过预存词库对待匹配地址进行分词以优化地址分词过程，以及通过至少一个预设策略结合的地址匹配方法以优化地址匹配的过程，解决现有技术中地址匹配的准确率较低的问题。

第一方面，本发明实施例提供一种数据处理方法，所述方法包括：获取待匹配地址；根据预存词库，对所述待匹配地址进行分词，得到第一地址元素；所述预存词库包括通过命名实体识别模型提取所述待匹配地址的第二地址元素、以及基础分词词库；对所述第一地址元素进行地址标准化处理，获得标准化的待匹配地址；从预设数据库中匹配出所述标准化的待匹配地址的目标地址。

上述方案中，通过基础分词词库、以及命名实体识别模型提取待匹配地址的第二地址元素构建的预存词库，可以优化对待匹配地址的分词过程，使得分词得到的第一地址元素更准确。此外，对第一地址元素进行地址标准化处理有利于地址匹配，从而可提高地址匹配的准确率。

可选的，根据预存词库，对所述待匹配地址进行分词之前，还包括：将所述待匹配地址编码，获得所述待匹配地址的特征信息；将待匹配地址的特征信息解码，获得所述第二地址元素。

采用编码过程以及解码过程，可以获取待匹配地址中的上下文语义信息，使得提取的待匹配地址的第二地址元素更为准确，从而提高地址匹配的准确率。

可选的，所述第一地址元素包括以下内容中任一种或任多种：省级元素；和，地级元素；和，区级元素或县级元素；和，街道级元素或镇级元素或乡级元素；和，村委会级元素或居委会级元素；和，道路级元素或组级元素；和，路号级元素或组号级元素；和，兴趣点元素；和，楼栋号级元素；和，单元号级元素；和，楼层号级元素；和，房间号级元素。

可选的，所述对所述第一地址元素进行地址标准化处理，获得标准化的待匹配地址，包括：根据行政区划元素标准，遍历所述第一地址元素，将所述第一地址元素中非标准化的元素映射为标准化的元素；根据所述标准化的元素、所述基础分词词库中的层级回溯映射关系、以及层级追踪映射关系，获得所述标准化的待匹配地址。

上述方案中，在对第一地址元素进行地址标准化处理中，通过层级回溯映射以及层级追踪映射，可解决因待匹配地址的地址元素缺失导致地址匹配准确度低的问题，从而可提高地址匹配的准确度。

可选的，所述标准化的待匹配地址包括第一详细地址和第一兴趣点；所述从预设数据库中匹配出所述标准化的待匹配地址的目标地址，包括：根据所述标准化的待匹配地址的行政区划字段，从所述预设数据库中筛选出至少一个第二详细地址和至少一个第二兴趣点，所述第二详细地址与所述第二兴趣点对应；将所述第二详细地址与所述第一详细地址匹配；若匹配结果非空，确定所述第一兴趣点与所述第二兴趣点的第一相似度；若所述第一相似度大于第一阈值，将所述第二详细地址和第二兴趣点作为所述目标地址；或者，将所述第一兴趣点与所述第二兴趣点匹配；若匹配结果非空，确定所述第二详细地址与所述第一详细地址的第二相似度；若所述第二相似度大于第二阈值，将所述第二详细地址和第二兴趣点作为所述目的地址。

通过采用上述行政区划字段先从预设数据库中进行一轮筛选，可以滤除大量预设数据库中的不相关数据，有助于减少后续匹配过程的计算量。

可选的，若所述第一相似度小于等于第一阈值，或者，若所述第二相似度小于等于第二阈值，或者，若所述第一兴趣点与所述第二兴趣点匹配结果为空，所述从预设数据库中匹配出所述标准化的待匹配地址的目标地址，还包括：对所述第一兴趣点分词，根据分词后的词确定所述第一兴趣点的关键词；将所述关键词与所述至少一个第二兴趣点匹配，若匹配结果为非空，确定所述第二详细地址与所述第一详细地址的第三相似度；若所述第三相似度大于第三阈值，将所述第二详细地址和第二兴趣点作为所述目的地址。

通过获取第一兴趣点的关键词，利用关键词进行筛选，又可以进一步的有效过滤部分数据，进而可以进一步减少后续匹配计算量。

可选的，若所述第三相似度小于等于第三阈值，或者，若所述关键词与所述至少一个第二兴趣点匹配结果为空，所述从预设数据库中匹配出所述标准化的待匹配地址的目标地址，还包括：分别确定所述第一详细地址与所述至少一个第二详细地址的第四相似度，以及分别确定所述第一兴趣点与所述至少一个第二兴趣点的第五相似度，将所述第四相似度与所述第五相似度进行加权计算得到第六相似度。根据所述第六相似度中最大的相似度，确定对应的所述第二详细地址和所述第二兴趣点，将所述第二详细地址和第二兴趣点作为所述目的地址。

基于上述方案，通过使用至少一个预设策略结合的层级地址匹配方法，可有效减少地址匹配过程中的相似度计算量。

第二方面，本发明实施例提供了一种地址匹配装置，该地址匹配装置包括：获取单元，用于获取待匹配地址；处理单元，对所述待匹配地址进行分词，得到第一地址元素；以及对所述第一地址元素进行地址标准化处理，获得标准化的待匹配地址；以及从预设数据库中匹配出所述标准化的待匹配地址的目标地址。

可选的，所述处理单元，具体用于将所述待匹配地址编码，获得所述待匹配地址的特征信息；将待匹配地址的特征信息解码，获得所述第二地址元素。

可选的，所述第一地址元素包括以下任一种或任多种：省级元素；和，地级元素；和，区级元素或县级元素；和，街道级元素或镇级元素或乡级元素；和，村委会级元素或居委会级元素；和，道路级元素或组级元素；和，路号级元素或组号级元素；和，兴趣点元素；和，楼栋号级元素；和，单元号级元素；和，楼层号级元素；和，房间号级元素。

可选的，所述处理单元，具体用于根据行政区划元素标准，遍历所述第一地址元素，将所述第一地址元素中非标准化的元素映射为标准化的元素；根据所述标准化的元素、所述基础分词词库中的层级回溯映射关系、以及层级追踪映射关系，获得所述标准化的待匹配地址。

可选的，所述标准化的待匹配地址包括第一详细地址和第一兴趣点；所述处理单元，具体用于根据所述标准化的待匹配地址的行政区划字段，从所述预设数据库中筛选出至少一个第二详细地址和至少一个第二兴趣点，所述第二详细地址与所述第二兴趣点对应；将所述第二详细地址与所述第一详细地址匹配；若匹配结果非空，确定所述第一兴趣点与所述第二兴趣点的第一相似度；若所述第一相似度大于第一阈值，将所述第二详细地址和第二兴趣点作为所述目标地址；或者，将所述第一兴趣点与所述第二兴趣点匹配；若匹配结果非空，确定所述第二详细地址与所述第一详细地址的第二相似度；若所述第二相似度大于第二阈值，将所述第二详细地址和第二兴趣点作为所述目的地址。

可选的，若所述第一相似度小于等于第一阈值，或者，若所述第二相似度小于等于第二阈值，或者，若所述第一兴趣点与所述第二兴趣点匹配结果为空，所述处理单元，具体用于对所述第一兴趣点分词，根据分词后的词确定所述第一兴趣点的关键词；将所述关键词与所述至少一个第二兴趣点匹配，若匹配结果为非空，确定所述第二详细地址与所述第一详细地址的第三相似度；若所述第三相似度大于第三阈值，将所述第二详细地址和第二兴趣点作为所述目的地址。

可选的，若所述第三相似度小于等于第三阈值，或者，若所述关键词与所述至少一个第二兴趣点匹配结果为空，所述处理单元，具体用于分别确定所述第一详细地址与所述至少一个第二详细地址的第四相似度，以及分别确定所述第一兴趣点与所述至少一个第二兴趣点的第五相似度，将所述第四相似度与所述第五相似度进行加权计算得到第六相似度。根据所述第六相似度中最大的相似度，确定对应的所述第二详细地址和所述第二兴趣点，将所述第二详细地址和第二兴趣点作为所述目的地址。

第三方面，本发明实施例提供了一种计算设备，包括至少一个处理器以及至少一个存储器，其中，所述存储器存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器执行上述第一方面任一所述的地址匹配方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述存储介质存储有程序，当所述程序在计算机上运行时，使得计算机实现执行上述第一方面任意所述的地址匹配方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种构建基础分词词库的方法流程示意图；

图2为本发明实施例提供的一种地址匹配方法的方法流程示意图；

图3为本发明实施例提供的一种构建扩充词库的方法流程示意图；

图4为本发明实施例提供的一种至少一个预设策略结合的层级地址匹配方法的方法流程示意图；

图5为本发明实施例提供的一种地址匹配装置结构图；

图6为本发明实施例提供的一种计算设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

以下，对本发明实施例中的部分用语进行解释说明。需要说明的是，这些解释是为了便于本领域技术人员理解，并不是对本申请所要求的保护范围构成限定。

1)行政区划

行政区划是国家为便于行政管理而分级划分的区域。因此，行政区划亦称行政区域。本发明实施例中，行政区划被划分为五个层级，包括省级行政区、地级行政区、县级行政区、乡级行政区以及村级行政区。

其中，省级行政区为一级行政区，或称为国家一级行政区，是指直属中央政府管辖的行政区划。省级行政区包括省、直辖市、自治区以及特别行政区。地级行政区为二级行政区，由一级行政区管辖。地级行政区包括地级市、地区、自治州、盟。县级行政区为三行政区，是行政地位与县相同的行政区，包括市辖区、县级市、县、自治县、旗、自治旗、特区、林区。乡级行政区为四级行政区，是行政地位与乡相同的行政区，包括街道、镇、乡、民族乡、苏木、民族苏木、县辖区。村级行政区为五级行政区，包括行政村以及居委会，为中国行政体系中最小的基层自治单位，其管理机构为村民委员会。为避免与地理概念的村庄、村落和自然村落的混淆，具有地方政治含义的村民委员会的辖区范围，常称为行政村。一般情况下，一个行政村管理若干个自然村或一个行政村管理一个自然村，然而当一个自然村规模较大时，为了管理方便，这个自然村会被划分为几个行政村。

2)行政区划元素

行政区划元素包括行政区划元素的名称以及行政区划元素所属层级。从上述五个层级的行政区划中获取的行政区划元素也分为五个层级。其中，第一级行政区划元素为省级行政区划元素，第二级行政区划元素为地级行政区划元素，第三级行政区划元素为区级行政区划元素或县级行政区划元素，第四级行政区划元素为街道级行政区划元素或镇级行政区划元素或乡级行政区划元素，第五级行政区划元素为村级行政区划元素或居委会级行政区划元素。

例如，行政区划元素为“杭州市”，其所属层级为地级。再例如，行政区划元素为“陕西省”，其所属层级为省级。

3)地址元素

地址元素指提取地址中的所有元素，包括行政区划元素(第一级行政区划元素、第二级行政区划元素、第三级行政区划元素、第四级行政区划元素、第五级行政区划元素)、道路级元素或组级元素、路号级元素或组号级元素、兴趣点元素、楼栋号级元素、单元号级元素、楼层号级元素和房间号级元素中的一个或几个。

其中，当一个行政村管理若干个自然村时，将自然村进行分组，称自然村所属组为组级元素，称自然村所属组的组号为组号级元素。兴趣点(Point Of Interest，POI)指地图上任何非地理意义的有意义的点。在地理信息系统中，一个兴趣点可代表一栋大厦、一家商铺、一处景点、一栋房子或一个公交站等。例如，“万达广场”是兴趣点。再例如，“浦东银行”也是兴趣点。

在对待匹配地址进行地址匹配前，需对待匹配地址进行分词。可通过预存词库对待匹配地址进行精确分词。其中，预存词库包括基础分词词库和包括第二地址元素的扩充词库。

如图1所示，为本发明实施例提供的一种构建基础分词词库的方法流程示意图。该方法包括以下步骤：

步骤101，根据全国行政区划数据获取行政区划元素。

本发明实施例中，通过中华人民共和国国家统计局的官方网址，获取全国行政区划数据，将全国行政区划数据中的行政区划元素加入基础分词词库。

步骤102，移除主特征词得到行政区划元素的名称的缩略词。

本发明实施例中，通过移除行政区划元素的名称的主特征词得到对应行政区划元素缩略词。主特征词包括但不限于“省”、“市”“区”、“县”、“乡”、“镇”、“街道”、“村”以及“居委会”等词。

以行政区划元素是“浙江省”为例，通过移除主特征词“省”，得到对应行政区划元素缩略词“浙江”。

步骤103，建立行政区划元素映射表，完成基础分词词库构建。

本发明实施例中，行政区划元素映射表包括别名标准化映射表、层级追踪映射表以及层级回溯映射表，请参阅表1。表1表示了行政区划元素映射表的设置及其示例。

表1行政区划元素映射表

具体的，别名标准化映射表(alias_to_standard)记录了行政区划元素的名称和与其对应的行政区划元素的别名之间的映射关系。行政区划元素的别名包括但不限于行政区划元素的名称的简写、别称以及缩略词。例如，行政区划元素“上海市”的简写为“沪”，别称为“申”，缩略词为“上海”。在一种可能的实现方式中，可以根据网络检索得到部分行政区划元素的名称的简写、别称以及缩略词，由此建立别名标准化映射表。

层级追踪映射表(name_to_hierarchical)记录前四级行政区划元素和其所属的行政区划层级之间的映射关系。例如，行政区划元素“台州市”会被映射为“地级”。再例如，行政区划元素“上海市”会被映射为“省级”。

基于层级追踪映射表，建立层级回溯映射表。层级回溯映射表包含三个子表，分别为第二级行政区划元素映射子表(city_to_province)、第三级行政区划元素映射子表(district_to_city)以及第四级行政区划元素映射子表(town_to_district)。第二级行政区划元素映射子表(city_to_province)记录第二级行政区划元素和其所属第一级行政区划元素之间的映射关系。例如，第二级行政区划元素“台州市”会被映射为其所属第一级行政区划元素“浙江省”。第三级行政区划元素映射子表(district_to_city)记录第三级行政区划元素和其所属第二级行政区划元素之间的映射关系。例如，第三级行政区划元素“黄岩区”会被映射为其所属第二级行政区划元素“台州市”。第四级行政区划元素映射子表(town_to_district)记录第四级行政区划元素和其所属第三级行政区划元素之间的映射关系。例如，第四级行政区划元素“头陀镇”会被映射为其所属第三级行政区划元素“黄岩区”。值得注意的是，存在同名情况时，同名的行政区划元素不会被添加至层级回溯映射表。例如，“城关镇”在很多城市都有，例如“天津市武清区城关镇”、“安徽省蚌埠市五河县城关镇”、“甘肃省陇南市武都区城关镇”，故无法确定行政区划元素“城关镇”所属的上一级行政区划元素。因此，行政区划元素“城关镇”不会被添加至层级回溯映射表。

层级回溯映射表的映射优先级为：第四级行政区划元素映射子表(town_to_district)的映射高于第三级行政区划元素映射子表(district_to_city)的映射，第三级行政区划元素映射子表(district_to_city)的映射高于第二级行政区划元素映射子表(city_to_province)的映射。

应当说明的是，建立的行政区划元素映射表不仅用于基础分词词库的构建，也会用于后续对待匹配地址进行标准化处理，具体可参见下述相关介绍，此处不再赘述。

如图2所示，为本发明实施例提供的一种地址匹配方法的方法流程示意图。该方法包括以下步骤：

步骤201，获取待匹配地址。

本发明实施例中，获取用户输入的待匹配地址。其中，待匹配地址可以是文本格式，或者也可以是其它可能的格式。在下文的介绍中，以待匹配地址是文本格式为例介绍。

步骤202，根据预存词库，对所述待匹配地址进行分词，得到第一地址元素。

本发明实施例中，预存词库包括基础分词词库和包括第二地址元素的扩充词库。基础分词词库的构建过程已经在上述介绍，在此不再赘述。扩充词库可参见下述图3的介绍，此处不再赘述。根据预存词库，对所述待匹配地址进行分词，得到第一地址元素。

其中，分词指将句子、段落、文章这种长文本，分解为以字词为单位的数据结构，方便后续的处理分析工作。分词之后，文本原本的语义将被拆分到在更加精细化的各个独立词汇中，词汇的结构比长文本简单，对于计算机而言，更容易理解和分析，所以，分词往往是自然语言处理的第一步。对于英文文本，句子中的词汇可以通过空格很容易得进行划分，但中文没有明显的词语划分标志，所以需要通过专门的方法进行分词。

在一种可能的实现方式中，使用结巴(Jieba)分词模型来进行分词。结巴分词内置中文默认词典，因此支持对中文进行分词处理。结巴分词模型配置有函数接口。通过函数接口，将预存词库添加到结巴分词的词库中。通过这种方式可以使结巴分词提取出其默认词库中没有的词汇，提高分词准确率。

如下示例性的示出了一种将预存词库添加到结巴分词模型的词库的方式。使用jieba.load_userdict(file_name)语句实现将预存词库添加到结巴分词模型的词库，其中，参数file_name是预存词库的文件名。

将预存词库添加到结巴分词模型的词库后，对待匹配地址进行分词，得到第一地址元素。其中，在结巴分词中添加预存词库有利于对待匹配地址进行更准确分词。以待匹配地址是“江苏省南京市六合区竹镇镇仕林路1号六合竹镇民族中学”为例，若不在结巴分词中添加预存词库，结巴分词将很难识别处理“竹镇镇”这类特殊的词，因此，很有可能将待匹配地址错误分词为“江苏省”、“南京市”、“六合区”、“竹镇”、“镇仕林路”、“1号”、“六合竹镇民族中学”。然而，通过在结巴分词中添加预存词库，可使结巴分词提取出默认词库中没有的词汇。通过上述介绍预存词库中的扩充词库可知，扩充词库可正确识别出“竹镇镇”这类特殊的词。由此，基于预存词库，上述待匹配地址可被成功分词为“江苏省”、“南京市”、“六合区”、“竹镇镇”、“仕林路”、“1号”、“六合竹镇民族中学”。

步骤203，对所述第一地址元素进行地址标准化处理，获得标准化的待匹配地址。

本发明实施例中，地址标准化处理包括行政区划元素标准化以及行政区划元素补齐。

行政区划元素标准化指遍历第一地址元素，并对其做标准化处理。标准化处理包括进行别名标准化映射、层级追踪映射以及层级回溯映射。具体的，首先通过别名标准化映射表(alias_to_standard)将非标准的行政区划元素的名称，也即行政区划元素的别名，映射为标准的行政区划元素的名称。关于别名标准化映射表的建立可参见前述相关介绍，此处不再赘述。在地址匹配中，通过建立别名标准化映射表可以解决因待匹配地址含有地名缩略词、地名简写而导致匹配准确度低的问题。例如，待匹配地址为“浙江省台州市椒江区白云山南台州市人民政府”，其中“白云山南”属于行政区划元素的别名，单从“白云山南”两字无法判断其所属行政区划级别，因此，需将“白云山南”依照别名标准化映射表映射为“白云山南路”，获得的标准化的待匹配地址即为“浙江省台州市椒江区白云山南路台州市人民政府”。进一步，通过层级追踪映射表(name_to_hierarchical)得到标准化后的前四级行政区划元素所属行政区划层级，并将其记录。

行政区划元素补齐指依照层级回溯映射表，按映射优先级顺序，对第一地址元素中的行政区划元素进行行政区划元素层级回溯。关于层级回溯映射表可参见前述相关介绍，此处不再赘述。在地址匹配中，通过层级回溯映射表可以解决因待匹配地址的行政区划元素缺失而导致匹配准确度低的问题。例如，待匹配地址为“浙江省椒江区白云山南路台州市人民政府”，缺少第二级区划元素。通过层级回溯映射表，可根据第三级行政区划元素“椒江区”映射得到该待匹配地址所属第二级行政区为“台州市”，由此获得的标准化的待匹配地址即为“浙江省台州市椒江区白云山南路台州市人民政府”。

在步骤203中，获得标准化的待匹配地址，例如可以将该地址分为七个字段。第一字段由第一级行政区划元素构成；第二字段由第二级行政区划元素构成；第三字段由第三级行政区划元素构成；第四字段由第四级行政区划元素构成；第五字段由第五级行政区划元素构成；第六字段为兴趣点字段，由兴趣点元素记录而成；第七字段为详细地址字段，由地址中去除行政区划字段和兴趣点字段后的剩余地址元素构成。称前五个字段为行政区划字段。值得注意的是，标准化的待匹配地址可不含有第五字段。

以标准化的待匹配地址是“浙江省台州市黄岩区头陀镇振兴路与洪屿路交叉口往西1号正斌超市”为例，将该地址划分字段为：行政区划字段“浙江省”“台州市”“黄岩区”“头陀镇”、兴趣点字段“正斌超市”、详细地址字段“洪屿路交叉口往西1号”。

步骤204，从预设数据库中匹配出所述标准化的待匹配地址的目标地址。

在一种可能的实现方式中，根据至少一个预设策略结合的层级地址匹配方法，从预设数据库中匹配出所述标准化的待匹配地址的目标地址。

图3为本发明实施例提供的一种基于命名实体识别模型构建扩充词库的方法流程示意图。该方法包括以下步骤：

步骤301，搭建命名实体识别模型。

命名实体识别(Named Entity Recognition，NER)是指识别具有特定意义的实体，主要包括人名、地名、机构名、专有名词等字。目前，基于深度学习的命名实体识别方法被广泛应用于命名实体识别模型。对于待匹配地址，应用命名实体识别技术获取其所包含的地址元素。将上述识别出的待匹配地址的地址元素称为第二地址元素。由第二地址元素构成扩充词库。

在一种可能实现的方式中，采用编码器-解码器模型来搭建命名实体识别模型。编码器指将数据从一种形式转换为另一种形式，可用于数据压缩或数据的特征提取。解码器用于将上述被编码的信息恢复到其原来形式。其中，可使用哪吒(NEZHA)模型作为编码器。哪吒模型是一个中文预训练语言模型，在基于变换器的双向编码器表示技术模型(Bidirectional Encoder Representations from Transformers，BERT)的基础上进行多处优化。可使用条件随机场(Conditional Random Fields，CRF)模型作为解码器。CRF模型是一种判别式概率模型，常用于标注或分析序列资料，如自然语言文字。

步骤302，编码器对待匹配地址编码，获得表征向量。

在一种可能实现的方式中，哪吒模型先获取待匹配地址的初始嵌入向量。初始嵌入向量包括词嵌入(WordPiece Embedding)向量、位置嵌入(Position Embedding)向量以及分割嵌入(Segment Embedding)向量。词嵌入是指将单词划分成一组有限的公共子词单元，能在单词的有效性和字符的灵活性之间取得一个折中的平衡。位置嵌入是指将单词的位置信息编码，位置嵌入是向模型中引入单词位置关系的至关重要的一环。分割嵌入用于区分两个句子。其中，位置嵌入向量采用相对位置编码的方式得到，计算公式如下：

其中，a_ij为向量，位置i为二维坐标(i，j)中i的值，位置j为二维坐标(i，j)中j的值，d_z为每个头的隐藏层嵌入维度。

获取初始嵌入向量后，哪吒模型学习输入的待匹配地址中蕴含的深度语义信息，输出表征向量。特征向量是指编码器提取输入的待匹配地址的特征后将特征进行向量化。

步骤303，解码器对表征向量解码，获得第二地址元素并构建扩充词库。

在一种可能实现的方式中，将表征向量输入CRF模型。CRF模型对表征向量进行解码，得到待匹配地址的地址元素，也即第二地址元素。

以待匹配地址是“江苏省南京市六合区竹镇镇仕林路1号六合竹镇民族中学”为例，通过命名实体识别模型可获得第二地址元素，包括：行政区划元素“江苏省”“南京市”“六合区”“竹镇镇”、道路级元素“仕林路”、路号级元素“1号”、以及兴趣点元素“六合竹镇民族中学”。

通过上述步骤301至303，可以获得扩充词库。

图4为本发明实施例提供的一种至少一个预设策略结合的层级地址匹配方法的方法流程示意图，为了便于方案的说明，下文中均以标准化的待匹配地址是“浙江省台州市黄岩区头陀镇振兴路与洪屿路交叉口往西1号正斌超市”为例，该方法包括以下步骤：

步骤401，行政区划字段筛选。

在预设数据库中筛选出与标准化的待匹配地址的行政区划字段一致的地址，得到筛选地址。

在本发明实施例中，预设数据库由经过地址标准化处理后的全国地址构成，全国地址可从互联网中收集。其中，地址标准化处理后的全国地址中包含地址所对应的经纬度坐标信息。关于对全国地址进行地址标准化处理的实现方式可参见前述对待匹配地址进行地址标准化处理的实现方式，此处不再赘述。

具体的，本例中标准化的待匹配地址的行政区划字段为：“浙江省”“台州市”“黄岩区”“头陀镇”。在预设数据库筛选出上述行政区划字段一致的地址数据，得到筛选地址。筛选地址可以是一条地址也可以是多条地址，包括预设数据库中“浙江省台州市黄岩区头陀镇”下所有的地址。

步骤402，根据第一匹配策略进行地址匹配，判断匹配结果是否为空。若匹配结果非空，则执行步骤403，匹配结果为空，则执行步骤404。

在本发明实施例中，第一匹配策略指将标准化的待匹配地址的详细地址字段与筛选地址的详细地址字段进行匹配。若匹配结果非空，则返回符合匹配的地址并执行步骤403。符合匹配的地址可以是一条地址也可以是多条地址，因为在同一详细地址字段对应的兴趣点字段可能有多个。若匹配结果为空，则执行步骤404。

或者，第一匹配策略也指将标准化的待匹配地址的兴趣点字段与筛选地址的兴趣点字段进行匹配。若匹配结果非空，则返回符合匹配的地址并执行步骤403。符合匹配的地址可以是一条地址也可以是多条地址，因为在同一兴趣点字段对应的详细地址字段可能有多个。若匹配结果为空，则执行步骤404。

此处以第一匹配策略对详细地址字段进行匹配为例，将待匹配地址的详细地址字段“振兴路与洪屿路交叉口往西1号”与筛选地址的详细地址字段进行匹配。若匹配结果非空，则返回符合匹配的地址并执行步骤403。符合匹配的地址可以是一条地址也可以是多条地址。举例来说，筛选地址中可能有一条或多条地址的详细地址字段也为“振兴路与洪屿路交叉口往西1号”，因为此详细地址字段所代表的建筑可能包含很多兴趣点。若匹配结果为空，则执行步骤404。

此处以第一匹配策略对兴趣点字段进行匹配为例，将待匹配地址的兴趣点字段“正斌超市”与筛选地址的兴趣点字段进行匹配。若匹配结果非空，则返回符合匹配的地址并执行步骤403。符合匹配的地址可以是一条地址也可以是多条地址。举例来说，在筛选地址中，“正斌超市”可能有多家，因此，同一个兴趣点字段“正斌超市”所对应的详细地址可能有多条。若匹配结果为空，则执行步骤404。

步骤403，判断第一相似度中的最大值是否大于设定的第一阈值或第二相似度中的最大值是否大于设定的第二阈值。若第一相似度中的最大值大于设定的第一阈值或第二相似度中的最大值大于设定的第二阈值，则执行步骤407。若第一相似度中的最大值小于等于设定的第一阈值或第二相似度中的最大值小于等于设定的第二阈值，则执行步骤404。

若步骤402是将标准化的待匹配地址的详细地址字段与筛选地址的详细地址字段进行匹配，在返回符合匹配的地址后，计算标准化的待匹配地址的兴趣点字段与符合匹配的地址的兴趣点字段的相似度，称之为第一相似度。第一相似度有多种计算方式，例如可采用编辑距离来计算相似度。编辑距离(Edit Distance，ED)，是指将一个字符串转化为另一个字符串所需的最少操作数。编辑距离很直接的从字面上反映了两个文本间的差异程度，即两个文本越相似，其编辑距离就越小。第一相似度可包含一个计算值或多个计算值。判断第一相似度中的最大值是否大于设定的第一阈值τ₁。阈值τ₁可根据情况人为设定。当第一相似度中的最大值大于设定的第一阈值τ₁，执行步骤407。当第一相似度中的最大值小于等于设定的第一阈值τ₁，执行步骤404。

若步骤402是将标准化的待匹配地址的兴趣点字段与筛选地址的兴趣点字段进行匹配，在返回符合匹配的地址后，计算标准化的待匹配地址的详细地址字段与符合匹配的地址的详细地址字段的相似度，称之为第二相似度。第一相似度有多种计算方式，例如可采用编辑距离来计算相似度。关于编辑距离的内容可参见上述介绍，此处不再赘述。第二相似度可包含一个计算值或多个计算值。判断第二相似度中的最大值是否大于设定的第二阈值τ₂。阈值τ₂可根据情况人为设定。当第二相似度中的最大值大于设定的第二阈值τ₂时，则执行步骤407。当第二相似度中的最大值小于等于设定的第二阈值τ₂，则执行步骤404。

步骤404，进行第二匹配策略地址匹配，判断匹配结果是否为空。若匹配结果非空，则执行步骤405，匹配结果为空，则执行步骤406。

在本发明实施例中，第二匹配策略指关键词匹配。具体的，利用结巴分词对待匹配地址的兴趣点进行分词，得到切分词语列表，计算每个词语的词频-逆文档频度(TermFrequency-Inverse Document Frequency，TF-IDF)。选取TF-IDF值最大的词语为关键词。在步骤401中得到的筛选地址检索包含上述获得的关键词的地址。若匹配结果非空，则执行步骤405，匹配结果为空，则执行步骤406。

其中，词频-逆文档频度技术是一种用于资讯检索与文本挖掘的常用加权技术，可以用来评估一个词语对于一个文件的重要程度。其中，文件可以指一段文本或一个文档集或语料库中的一个文档。在词频-逆文档频度技术中，词语的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。其中，词频(TermFrequency，TF)指某一个特定的词语在该文件中出现的频率，计算公式如下：

逆文档频率(Inverse Document Frequency，IDF)指一个词语普遍重要性的度量，频率的大小与这个词语的常见程度成反比，计算方法是语料库的文档总数除以语料库中包含该词语的文档数量，再将得到的商取对数。计算公式如下：

如果一个词比较少见，但是在文章中多次出现，那么这个词很可能就反映了这篇文章的特性，正是所需要的关键词。将一个词的TF值与IDF值相乘，可得到此词的TF-IDF值。当某个词对文本或文章的重要性越高，它的TF-IDF值就越大。所以，排在最前面的词，就是这个文本或这篇文章的关键词。

举例来说，利用结巴分词对待匹配地址的兴趣点字段“正斌超市”进行分词，得到切分词语列表。切分词语列表包括“正斌”与“超市”两个词。计算每个词语的词频-逆文档频度，选取TF-IDF值最大的词语为关键词。对于兴趣点字段“正斌超市”，其关键词为“正斌”。在步骤401中得到的筛选地址检索包含“正斌”关键词的地址。若匹配结果非空，则执行步骤405。例如，有可能检索到兴趣点为“正斌商超”的地址。若匹配结果为空，则执行步骤406。

步骤405，判断第三相似度中的最大值是否大于设定的第三阈值。若第三相似度中的最大值大于设定的第三阈值，则执行步骤407。若第三相似度中的最大值小于等于设定的第三阈值，则执行步骤406。

计算标准化的待匹配地址的详细地址字段与符合匹配的地址的详细地址字段的相似度，称之为第三相似度。第三相似度有多种计算方式，例如可采用编辑距离来计算相似度。关于编辑距离的内容可参见上述介绍，此处不再赘述。第三相似度可包含一个计算值或多个计算值。判断第三相似度中的最大值是否大于设定的第三阈值τ₃。阈值τ₃可根据情况人为设定。当第三相似度中的最大值大于设定的第三阈值τ₃时，则执行步骤407。当第三相似度中的最大值小于或等于设定的第三阈值τ₃，则执行步骤406。

步骤406，进行第三匹配策略地址匹配。

在本发明实施例中，第三匹配策略指同时计算标准的待匹配地址的详细地址字段与在步骤401中得到的筛选地址的详细地址字段的第四相似度以及标准的待匹配地址的兴趣点字段与在步骤401中得到的筛选地址的兴趣点字段的第五相似度的加权值，称此加权值为第六相似度。第六相似度的计算公式为：

其中，len(a)为详细地址字段的长度；len(p)为兴趣点字段的长度；sim_address为详细地址字段的第四相似度；sim_poi为兴趣点字段的第五相似度；该步骤中，相似度有多种计算方式，例如可采用编辑距离来计算相似度。经该步骤匹配后，选择第六相似度中的最大值对应的地址作为匹配结果。

举例来说，分别将待匹配地址的详细地址字段“振兴路与洪屿路交叉口往西1号”与筛选地址中的所有详细地址字段进行相似度匹配，获得第四相似度，将待匹配地址的兴趣点字段“正斌超市”与筛选地址中的所有兴趣点字段进行相似度匹配，获得第五相似度。将第四相似度与第五相似度加权得到第六相似度，将第六相似度中对的最大值对应的地址作为匹配结果。

步骤407，输出匹配结果。

将匹配结果作为待匹配地址的目标地址输出。本例中，输出待匹配地址“浙江省台州市黄岩区头陀镇振兴路与洪屿路交叉口往西1号正斌超市”的目标地址。

基于上述同样的发明构思，本发明实施例还提供一种地址匹配装置，该装置可执行上述发明方法实施例中的方法。本发明实施例提供的一种地址匹配装置的结构可参见图5。地址匹配装置500包括获取单元501和处理单元502。其中，获取单元501用于获取待匹配地址；处理单元502用于对所述待匹配地址进行分词，得到第一地址元素；以及对所述第一地址元素进行地址标准化处理，获得标准化的待匹配地址；以及从预设数据库中匹配出所述标准化的待匹配地址的目标地址。

有关上述获取单元501和处理单元502更详细的描述可以参考图2所示的方法实施例中相关描述直接得到，此处不再一一赘述。

基于相同的技术构思，本发明实施例还提供了一种计算设备，如图6所示，计算设备600包括至少一个处理器601，以及与至少一个处理器连接的存储器602，本发明实施例中不限定处理器601与存储器602之间的具体连接介质，图6中处理器601和存储器602之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。

在本发明实施例中，存储器602存储有可被至少一个处理器601执行的指令，至少一个处理器601通过执行存储器602存储的指令，可以执行前述的地址匹配方法中所包括的步骤。

其中，处理器601是计算设备的控制中心，可以利用各种接口和线路连接计算设备的各个部分，通过运行或执行存储在存储器602内的指令以及调用存储在存储器602内的数据，从而实现数据处理。可选的，处理器601可包括一个或多个处理单元，处理器601可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理下发指令。可以理解的是，上述调制解调处理器也可以不集成到处理器601中。在一些实施例中，处理器601和存储器602可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器601可以是通用处理器，例如中央处理器(Central Processing Unit，CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合数据处理方法实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器602作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器602可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器602是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本发明实施例中的存储器602还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

基于相同的技术构思，本发明实施例还提供了一种计算机可读存储介质，其存储有可由计算设备执行的计算机程序，当所述程序在所述计算设备上运行时，使得所述计算设备执行上述地址匹配方法的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的保护范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种地址匹配方法，其特征在于，包括：

获取待匹配地址；

根据预存词库，对所述待匹配地址进行分词，得到第一地址元素；所述预存词库包括通过命名实体识别模型提取所述待匹配地址的第二地址元素、以及基础分词词库；

对所述第一地址元素进行地址标准化处理，获得标准化的待匹配地址；

从预设数据库中匹配出所述标准化的待匹配地址的目标地址。

2.如权利要求1所述的方法，其特征在于，所述根据预存词库，对所述待匹配地址进行分词之前，还包括：

将所述待匹配地址编码，获得所述待匹配地址的特征信息；

将所述待匹配地址的特征信息解码，获得所述第二地址元素。

3.如权利要求1所述的方法，其特征在于，所述对所述第一地址元素进行地址标准化处理，获得标准化的待匹配地址，包括：

根据行政区划元素标准，遍历所述第一地址元素，将所述第一地址元素中非标准化的元素映射为标准化的元素；

根据所述标准化的元素、所述基础分词词库中的层级回溯映射关系、以及层级追踪映射关系，获得所述标准化的待匹配地址。

4.如权利要求1所述的方法，其特征在于，所述标准化的待匹配地址包括第一详细地址和第一兴趣点；

所述从预设数据库中匹配出所述标准化的待匹配地址的目标地址，包括：

根据所述标准化的待匹配地址的行政区划字段，从所述预设数据库中筛选出至少一个第二详细地址和至少一个第二兴趣点，所述第二详细地址与所述第二兴趣点对应；

将所述第二详细地址与所述第一详细地址匹配；若匹配结果非空，确定所述第一兴趣点与所述第二兴趣点的第一相似度；若所述第一相似度大于第一阈值，将所述第二详细地址和第二兴趣点作为所述目标地址；或者，

将所述第一兴趣点与所述第二兴趣点匹配；若匹配结果非空，确定所述第二详细地址与所述第一详细地址的第二相似度；若所述第二相似度大于第二阈值，将所述第二详细地址和第二兴趣点作为所述目的地址。

5.如权利要求4所述的方法，其特征在于，若所述第一相似度小于等于第一阈值，或者，若所述第二相似度小于等于第二阈值，或者，若所述第一兴趣点与所述第二兴趣点匹配结果为空，所述从预设数据库中匹配出所述标准化的待匹配地址的目标地址，还包括：

对所述第一兴趣点分词，根据分词后的词确定所述第一兴趣点的关键词；

将所述关键词与所述至少一个第二兴趣点匹配，若匹配结果为非空，确定所述第二详细地址与所述第一详细地址的第三相似度；若所述第三相似度大于第三阈值，将所述第二详细地址和第二兴趣点作为所述目的地址。

6.如权利要求5所述的方法，其特征在于，若所述第三相似度小于等于第三阈值，或者，若所述关键词与所述至少一个第二兴趣点匹配结果为空，所述从预设数据库中匹配出所述标准化的待匹配地址的目标地址，还包括：

确定所述第一详细地址与所述至少一个第二详细地址的第四相似度，以及确定所述第一兴趣点与所述至少一个第二兴趣点的第五相似度，将所述第四相似度与所述第五相似度进行加权计算得到第六相似度；

根据所述第六相似度中最大的相似度，确定对应的所述第二详细地址和所述第二兴趣点，将所述第二详细地址和第二兴趣点作为所述目的地址。

7.一种地址匹配装置，其特征在于，包括：

获取单元，用于获取待匹配地址；

处理单元，对所述待匹配地址进行分词，得到第一地址元素；以及对所述第一地址元素进行地址标准化处理，获得标准化的待匹配地址；以及从预设数据库中匹配出所述标准化的待匹配地址的目标地址。

8.一种计算设备，其特征在于，包括至少一个处理器以及至少一个存储器，其中，所述存储器存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器执行权利要求1至6任一权利要求所述的方法。

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，当所述程序在计算机上运行时，使得计算机实现执行权利要求1至6任一项所述的方法。