CN116955855B

CN116955855B - 一种低成本跨地域地址解析模型构建方法及系统

Info

Publication number: CN116955855B
Application number: CN202311180963.XA
Authority: CN
Inventors: 辛颖梅; 胡玉伟; 郑雪原; 江锡强; 孙洁晶; 张家宝
Original assignee: Nanjing Skytech Technology Co ltd
Current assignee: Nanjing Skytech Technology Co ltd
Priority date: 2023-09-14
Filing date: 2023-09-14
Publication date: 2023-11-24
Anticipated expiration: 2043-09-14
Also published as: CN116955855A

Abstract

本申请涉及地址解析技术领域，提供一种低成本跨地域地址解析模型构建方法及系统，在获取源域地址数据和目标域地址数据后，采用主动学习和迁移学习形成多轮数据选取策略，根据地址数据的差异性和不确定性，对目标域地址数据进行筛选，从而在获取源域地址解析模型后通过多种类型的数据对模型进行多轮的迭代训练，提升模型学习到更多目标域地址新知识的能力，增强地址模型的解析性能，从不确定性和差异性两方面考虑地址数据特点，使选取的数据更具有代表性。同时减少需要进行标注的数据数量，解决了因地址数据标注工作量大和标注过程需要地理先验知识而导致的跨地域地址解析模型获取成本高的技术问题。

Description

一种低成本跨地域地址解析模型构建方法及系统

技术领域

本申请涉及地址解析技术领域，尤其涉及一种低成本跨地域地址解析方法及系统。

背景技术

地址是一种能够标识人或物所处地理位置的基础数据，随着智慧城市建设和社会治理水平的提高，地址已成为地图导航、物流配送等诸多领域开展业务的重要支撑数据，因此地址解析的效果对于地址能否被有效地利用起着非常重要的作用。

地址解析是指对地址进行结构化处理，获取地址要素及其类型的过程。典型的地址解析方法通过基于规则解析地址文本实现，该类方法需要事先建立地址特征词典，地址解析过程的适应性较差，因此基于规则的地址解析方法逐渐被深度学习方法所取代。

深度学习能够通过模型自动学习地址文本的语义信息和地址要素间的层级关系，不需要事先建立地址特征词典，并且在处理地址解析问题时表现出良好的效果。但相对于基于规则的方法，深度学习模型在训练过程中需要大量的标注数据，导致标注的工作量很大。此外，地址数据具有地域特点，标注过程中需要一定的地理先验知识，这些都会增加地址解析模型的获取成本。

不同地域间的地址数据既存在差异性，也具有较强的相关性，因此可以通过迁移学习的方式，充分利用源域带标签地址数据，将源域地址数据中的相关知识迁移到目标域中，从而大幅降低跨地域地址解析模型获取时对目标域地址数据的需求，提升对已有标签数据的利用程度，有力提升了模型的性能和应用价值。

目前，在对地址解析模型进行迁移学习过程中的数据选取主要是通过随机选取目标域数据或通过人为观察，将目标域与源域存在差异的数据选取出来，然后用于目标域模型的训练。这种方式选取的数据具有较大的盲目性和主观性，造成训练数据质量不高，标注成本大幅提升。

主动学习作为一种数据选择策略，通过选取信息量高、对学习任务贡献大的无标签样本进行标注，能够大幅降低标注过程的数据量，有助于模型学习到新知识，因此广泛用于文本处理和图像分析的多种任务中。

综上所述，如何利用源域地址数据蕴含的知识，基于主动学习方式选取与源域存在差异化的数据，通过对目标域中极少量代表性数据的标注，以低成本的方式获得跨地域的地址解析模型是深度学习领域重点关注的问题。

发明内容

本申请提供一种低成本跨地域地址解析模型构建方法及系统，以解决地址解析模型获取成本高的问题。

根据本申请实施例的第一方面，提供一种低成本跨地域地址解析模型构建方法，包括：获取地址数据集，所述地址数据集包括源域数据集和目标域数据集；所述源域数据集包括多条已被标注的源域地址数据，所述目标域数据集包括多条未被标注的目标域地址数据；根据所述源域地址数据训练获取地址解析模型，并通过所述地址解析模型解析所述目标域地址数据，以获取所述目标域地址数据的解析结果和特征表示；

根据所述目标域地址数据的差异性和不确定性获取至少两条目标域待标注数据，包括：基于所述目标域地址数据的特征词，对所述目标域地址数据聚类，获得多个地址簇；从多个所述地址簇内根据数据规模选取至少两个采样簇，并根据地址文本长度在每个所述采样簇中选取候选待标注数据；所述采样簇的数量小于所述地址簇的数量；获取所述候选待标注数据的令牌熵；根据所述令牌熵，选取所述采样簇中熵值最大的所述候选待标注数据，以获得所述目标域待标注数据；根据所述目标域待标注数据，更新所述目标域地址数据；

获取所述目标域待标注数据的标签信息，以得到目标域标注数据；根据标注数据集迭代训练所述地址解析模型，并通过训练后的所述地址解析模型解析所述目标域地址数据；所述标注数据集包括已被标注的所述源域地址数据和带有标签信息的所述目标域标注数据；若所述地址解析模型满足预设终止条件，则输出迭代训练后的所述地址解析模型。

在一种可行的实施方式中，所述基于所述目标域地址数据的特征词，对所述目标域地址数据聚类，获得多个地址簇，包括：对多条所述目标域地址数据中的文本数据执行分词处理，以获取多条所述目标域地址数据的分词结果和特征词；将所述特征词相同的所述目标域地址数据聚集到一起，以获取所述地址簇。

在一种可行的实施方式中，所述从多个所述地址簇内根据数据规模选取至少两个采样簇，并根据地址文本长度在每个所述采样簇中选取候选待标注数据，包括：获取所述地址簇中地址数据的地址文本长度和多个所述地址簇的数据规模；根据多个所述地址簇的数据规模，对多个所述地址簇进行降序排列，以形成第一地址簇集合；选取所述第一地址簇集合中排在前列的至少两个所述地址簇作为采样簇；获取所述采样簇中地址文本长度最大的地址数据，以作为所述候选待标注数据。

在一种可行的实施方式中，所述从多个所述地址簇内根据数据规模选取至少两个采样簇，还包括：根据所述采样簇，更新所述第一地址簇集合；若所述第一地址簇集合中所述地址簇的数量小于待采样数量，则更新每个所述采样簇的数据规模；所述待采样数量为单轮选取所述采样簇的数量，所述待采样数量大于或等于2；根据每个所述采样簇更新后的数据规模，对多个所述采样簇进行降序排列，以形成采样簇集合；将所述第一地址簇集合中剩余的所述地址簇与所述采样簇集合组合，以获取第二地址簇集合；所述第一地址簇集合中剩余的所述地址簇位于所述采样簇集合前；在所述第二地址簇集合中选取待采样数量且排在前列的地址簇作为所述采样簇。

在一种可行的实施方式中，所述获取所述候选待标注数据的令牌熵，包括：对所述候选待标注数据中字符的特征表示进行归一化处理，获得所述候选待标注数据内单个字符的概率分布；按照所述概率分布计算所述候选待标注数据内单个字符的信息熵；基于所述信息熵计算所述候选待标注数据的令牌熵。

在一种可行的实施方式中，所述根据标注数据集迭代训练所述地址解析模型，包括：组合所述源域地址数据和所述目标域标注数据，以获取所述标注数据集；根据所述标注数据集训练所述地址解析模型，以获取所述标注数据集对应的解析结果；所述解析结果为所述标注数据集中每条数据根据分类概率获得的标签；根据所述标注数据集中的标签信息和所述解析结果，计算所述地址解析模型对应的模型损失；基于所述模型损失，迭代训练优化所述地址解析模型。

在一种可行的实施方式中，所述目标域数据集还包括多条目标域测试数据，在所述通过训练后的所述地址解析模型解析所述目标域地址数据之前，所述方法还包括：利用所述多条目标域测试数据对本次迭代训练前和本次迭代训练后的所述地址解析模型分别进行测试，以获取第一解析准确度和第二解析准确度；所述第一解析准确度包括历史迭代训练后模型的解析准确度，所述第二解析准确度包括本次迭代训练后模型的解析准确度；若所述第二解析准确度大于所述第一解析准确度，通过所述标注数据集继续迭代训练所述地址解析模型。

在一种可行的实施方式中，所述预设终止条件包括迭代次数到达预设迭代上限和/或获取的目标域待标注数据的数量满足预设数量。

根据本申请实施例的第二方面，提供一种低成本跨地域地址解析模型构建系统，包括：

获取单元，用于获取地址数据；以及，获取目标域待标注数据的标签信息，以得到目标域标注数据；

生成单元，用于根据源域地址数据训练获取地址解析模型，并通过所述地址解析模型解析目标域地址数据，以获取所述目标域地址数据的解析结果和特征表示；以及，根据标注数据集迭代训练所述地址解析模型；所述标注数据集包括已被标注的源域地址数据和带有标签信息的目标域标注数据；

筛选单元，用于根据所述目标域地址数据的差异性和不确定性获取至少两条目标域待标注数据，包括：基于所述目标域地址数据的特征词，对所述目标域地址数据聚类，获得多个地址簇；从多个所述地址簇内根据数据规模选取至少两个采样簇，并根据地址文本长度在每个所述采样簇中选取候选待标注数据；所述采样簇的数量小于所述地址簇的数量；获取所述候选待标注数据的令牌熵；根据所述令牌熵，选取所述采样簇中熵值最大的所述候选待标注数据，以获得所述目标域待标注数据；根据所述目标域待标注数据，更新所述目标域地址数据；

验证单元，用于通过训练后的所述地址解析模型解析所述目标域地址数据；以及，若所述地址解析模型满足预设终止条件，则输出迭代训练后的所述地址解析模型。

由以上技术方案可知，本申请提供一种低成本跨地域地址解析模型构建方法及系统，在获取源域地址数据和目标域地址数据后，采用迁移学习和主动学习多轮选取数据的策略，通过地址数据的差异性和不确定性，对目标域地址数据进行筛选，从而在获取一个地址解析模型后通过多种类型的数据对模型进行多轮的迭代训练，提升模型学习到更多地址新知识的能力，增强地址模型的解析性能，从不确定性和差异性两方面考虑地址数据特点，使选取的数据更具有代表性。同时减少需要进行标注的数据数量，解决地址解析模型构建时标注数量大，模型构建成本高的问题。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中一种低成本跨地域地址解析模型构建方法的流程图；

图2为本申请实施例中一种地址数据筛选策略的流程图；

图3为本申请实施例中一种地址解析模型训练过程的流程图；

图4为本申请实施例中另一种地址数据筛选策略的流程图；

图5为本申请实施例中另一种低成本跨地域地址解析模型构建方法的流程图；

图6为本申请实施例中一种低成本跨地域地址解析模型构建系统的结构示意图。

具体实施方式

下面将详细地对实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的装置和方法的示例。

地址作为一种社会基础数据资源，能够标识人和物品的所处地理位置，是诸如地图导航、物流配送等领域中不可或缺的重要支撑数据。由于汉语语言的特点，中文地址为非结构化的自然语言，缺乏规范性的地址结构与分隔方式，因此若想采用计算机、服务器等电子设备对地址进行操作时，需要进行地址解析，从而获得相应的地址要素。

地址解析是指对地址进行结构化处理，获取地址要素及其类型的过程。在实际应用过程中，地址解析可包含地址分割和地址要素类型确定两项工作，其中地址分隔是将地址拆分为具有独立地址语义的地址要素，地址要素类型确定则是获取各地址要素所属的地址层级。

在一些实施例中，地址解析方法包括基于规则解析地址文本，但此种方法需要预先设置规则库和地址特征词典，且在解析过程中依赖于规则库和词典的完备性，对词典中的未录入词或歧义词的识别概率低。

深度学习作为一种通用性较强的技术，在计算机的图像识别、文本识别等领域中均有大量应用。由于中文地址解析与中文自然语言处理有很大相似性，通过深度学习构建解析模型，自动学习地址文本的语义信息和地址要素间的层级关系，可以克服基于规则解析地址文本时需要事先建立地址特征词典的不足，在处理地址解析问题时获得较好的效果。

但训练深度学习模型需要大量的标注数据，人工标注的工作量很大。同时，地址是具有地域特点的数据，不同地域间地址命名习惯存在一定的区别，标注过程中需要一定的地理先验知识，这些都会增加地址数据的标注成本，进而使得训练深度学习模型的成本较高。

由于不同地域间的地址数据既有差异性，也有较强的相关性，因此可通过迁移学习的方式，对源域带标签地址数据的充分利用，将源域地址数据中的相关知识迁移到目标域中，能够大幅降低跨地域地址解析模型获取时对目标域地址数据的需求，有力提升对已有标签数据的利用程度。

为了提高跨地域的地址解析模型的效果，需要从目标域中选取数据，通常采用随机选取或者人为观察发现目标域与源域地址之间的差异。然而，这种方式选取的数据具有较大的盲目性和主观性，造成训练数据质量不高，标注成本大幅提升。

主动学习作为一种数据选择策略，通过选取信息量高、对学习任务贡献大的无标签样本加以标注，能够大幅降低标注过程的数据量，有助于模型学习到新知识，因此广泛用于文本处理和图像分析的多种任务中。

综上所述，为了解决训练地址解析模型的过程中标注数据成本较高的问题，本申请实施例提供一种低成本跨地域地址解析模型构建方法和系统，通过结合迁移学习和主动学习的方式，对地址解析模型进行构建，如图1和图5所示，所述方法包括：

S110：获取地址数据。

在本申请的实施例中，获取源地域带有标签的地址数据和目标地域待解析的无标签的地址数据。

应当理解的是，源域地址数据中的标签信息是地址文本中的地址要素对应的层级信息。在训练模型的过程中，标签信息作为监督信息指导模型训练，因此标签信息也是对应的地址文本通过模型生成的理想输出。

在部分实施例中，为了降低模型的获取成本，需要控制迁移学习过程中目标地域数据的标注数量，示例性的，每轮次打标签地址数据的数量n和地址解析模型的最大迭代轮数c _max，其中n可为固定值，例如10条、20条、25条等；而c _max的大小也可为固定值，例如10轮、20轮等。

S120：利用源域地址数据训练获取地址解析模型，并通过地址解析模型解析目标域地址数据，以获取目标域地址数据的解析结果和特征表示。

首先，为了能够解析目标域地址数据，需要获取一个地址解析模型。在本申请实施例中，通过将源域地址数据中的地址信息作为输入，源域地址数据中与地址信息对应的标签信息作为监督信息，使用BiLSTM-CRF网络结构作为地址解析模型进行训练。

通过BiLSTM-CRF网络对源域数据的地址文本进行解析，获取解析结果并与地址文本对应的标签信息进行对比获取损失，进而迭代训练至地址解析模型能够较为精确的对源域地址数据中的地址信息进行标注。应当理解的是，通过源域地址数据训练得到的地址解析模型在解析源域地址数据中的地址信息时能够获得很好的解析效果，但由于源域地址数据中地址信息与目标域地址数据中地址信息存在地域差别，且中文地址中不同地域的地址命名习惯存在差异，例如，在不同城市的地址中描述道路可以用“路”或“弄”。因此利用源域地址数据训练得到的地址解析模型对目标域地址数据解析时的效果通常受限，需要通过后续处理提高地址解析模型解析目标域地址数据的效果。

利用地址解析模型对目标域地址数据进行解析，能够获取解析结果和特征表示。由于地址解析的作用是对中文地址文本进行结构化处理，因此地址解析模型输出的信息为地址文本的地址要素的层级信息。特征表示是指地址数据经过当前的地址解析模型进行前向传播计算时模型隐藏层输出的特征映射，以BiLSTM-CRF网络训练的模型为例，特征表示为对应于BiLSTM的模型输出。

S130：根据目标域地址数据的差异性和不确定性获取至少两条目标域待标注数据。

在将目标域地址数据进行解析后，可根据目标域地址数据的差异性和不确定性，对目标域地址数据进行筛选，以主动学习的方式从其中获取具有代表性的一组数据。

在部分实施例中，筛选获取的目标域待标注数据的数量与S110步骤中的每轮次打标签地址数据的数量n相同，筛选目标域待标注数据的轮次与地址解析模型的最大迭代轮数c _max相同。

在部分实施例中，从目标域地址数据中筛选出来的作为目标域待标注数据的地址信息，会在目标域地址数据中删除，以减少后续迭代过程中重复选取同样的目标域地址数据。

S140：获取目标域待标注数据的标签信息，以得到目标域标注数据。

当从目标域地址数据中筛选出目标域待标注数据后，可通过接收用户输入信息的方式获取与目标域待标注数据相对应的标签信息，从而获取目标域标注数据。应当理解的是，获取到的目标域待标注数据的标签信息，与源域地址数据中的标签信息的作用相同，都是用于提供地址文本中的地址要素对应的层级信息。

从目标域地址数据中筛选获取目标域待标注数据，目的是为了将目标域地址数据与源域数据存在差异性的部分数据筛选出来，通过对地址解析模型的再次训练，让模型学习到数据中的新知识。

S150：根据标注数据集迭代训练地址解析模型，并通过训练后的地址解析模型解析目标域地址数据。

其中，标注数据集包括已被标注的源域地址数据和带有标签信息的目标域待标注数据。

示例性的，以S120步骤中训练模型的方式，将源域地址数据和目标域待标注数据中的地址信息作为输入，源域地址数据和目标域待标注数据中的标签信息作为监督信息，对地址解析模型进行迭代训练，从而更新地址解析模型。应用迭代训练后的地址解析模型解析目标域地址数据，获取目标域地址数据中任一条数据的解析结果。

在部分实施例中，获得新一轮的迭代训练后的地址解析模型后，利用目标域的测试数据进行测试，得到新的地址解析模型对于测试数据的召回率。通过与历史迭代训练后的模型的解析效果进行对比，得到经过本轮迭代的地址解析模型的解析准效果的提升情况。

S160：若地址解析模型满足预设终止条件，则输出迭代训练后的地址解析模型。

通过预设终止条件，能够获得在满足标注成本控制条件下的目标域的地址解析模型。

示例性的，若地址解析模型未满足预设终止条件，此时需要循环执行上述S130至S150的步骤以多轮获取目标域待标注数据，并通过新增的目标域待标注数据加入至标注数据集中对地址解析模型进行多轮训练，以获取解析效果不断提升的地址解析模型。在部分实施例中，预设终止条件可包括最大迭代轮数，例如最大迭代轮数可设为10轮，当经过10轮迭代后，模型迭代终止，输出迭代训练后的地址解析模型。最大迭代轮数可通过获取地址数据时一同获取的最大迭代轮数c _max来获取。

预设终止条件可包括迭代次数到达预设迭代上限和/或获取的目标域待标注数据的数量满足预设数量，其中预设迭代上限即为最大迭代轮数c _max，获取的目标域待标注数据的预设数量为c _max×n。

应当理解的是，本申请中对于c _max的具体数值不做限制，但c _max受到n、目标域地址数据数量和训练成本的影响。即，当确定目标域地址数据的数量和训练成本后，即可确定c _max和n的具体数值，且c _max和n呈反比，当c _max的具体数值越大，n的具体数值就越小；当c _max的具体数值越小，n的具体数值越大。

由以上实施方式可知，所述方法通过迁移学习和主动学习的方式对地址解析模型进行训练，实现跨地域获取相应的地址解析模型，以减少机器学习过程中需要标注的数量，进而降低模型构建的成本。

在本申请的实施例中，根据地址数据的差异性和不确定性进行数据的筛选过程即是主动学习的过程，如图2和图4所示，根据目标域地址数据的差异性和不确定性获取目标域待标注数据，包括：

S210：基于目标域地址数据的特征词，对目标域地址数据聚类，获得多个地址簇。

示例性的，可对多条目标域地址数据中的文本数据执行分词处理，以获取多条目标域地址数据对应的分词结果和特征词。

分词处理可通过中文地址分词方法进行实现，示例性的，本申请中的中文地址分词方法可根据名为一种基于无监督学习的中文地址分词方法及系统的发明中的方法进行实现，本申请中不做赘述。

而在分词完成后，可通过特征词间的差异性，对目标域地址数据进行聚类处理，例如，可提取特征词相同的目标域地址数据，以获取地址簇。示例性的，将特征词相同的目标域地址数据整合在一起形成多个地址簇，每个地址簇对应的特征词都存在区别。在部分实施例中，不同特征词对应的地址簇共同组成一个地址簇集合，便于后续步骤中在地址簇集合中提取出不同的地址簇进行数据的选取。

需要说明的是，根据特征词获取地址簇以及后续根据地址簇的数据规模获取采样簇的过程即是通过目标域地址数据的差异性对地址数据进行筛选的过程。

下表1中列举一种对地址数据聚类后地址簇的生成情况。

表1 目标域地址数据聚类结果

；

S220：根据多个地址簇的数据规模选取至少两个采样簇，并根据地址文本长度在每个采样簇中选取候选待标注数据。

根据地址簇在地址簇集合中的数据规模选取采样簇，且采样簇的数量小于地址簇的数量。需要说明的是，使采样簇的数量小于地址簇的数量，是为了在单轮采样中，选取的数据更具代表性，控制具有相同特征数据的重复采样，从而能以更小的成本标注数据。在获取采样簇后，由于每个采样簇中的地址数据的数据量存在差异，因此可根据地址文本长度的差异，提取候选待标注数据。示例性的，可在采样簇中选取地址文本长度最大的地址数据作为候选待标注数据，若一个采样簇中地址文本长度最大的地址数据的数量为多个，则将采样簇中地址文本长度最大的多个地址数据作为候选的待标注数据。应当理解的是，地址文本长度可通过检测地址数据的字符串长度进行获取。

在本申请的一些实施例中，选取采样簇以及提取候选待标注数据可包括：

S221：获取地址簇中地址数据的地址文本长度和多个地址簇的数据规模。

通过遍历等手段确定每个地址簇的数据规模，以及每个地址簇中每个地址数据的地址文本长度。示例性的，每个地址簇的数据规模可通过统计每个地址簇中的地址数据的数据量进行获取，而地址数据对应的地址文本长度可通过统计地址数据内包含的字符串的长度进行获取。

S222：根据多个地址簇的数据规模，对多个地址簇进行降序排列，以形成第一地址簇集合。

在获取到每个地址簇的数据规模后，对地址簇进行降序排序，即数据规模最大的地址簇位于首位，数据规模最小的地址簇位于末尾。当存在数据规模相同的地址簇时，可根据地址簇中地址文本长度最大的地址数据进行排列划分。排序完成后的所有地址簇共同组合形成第一地址簇集合，因此第一地址簇集合中的地址簇按数据规模由大至小的顺序排列。

S223：选取第一地址簇集合中排在前列的至少两个地址簇作为采样簇。

在排列完成的第一地址簇集合中选取数据规模最大的至少两个地址簇作为采样簇，即选取第一地址簇集合中排在前列的至少两个地址簇作为采样簇。示例性的，在选取采样簇时，可按照第一地址簇集合的排列顺序进行选取。在部分实施例中，采样簇的数量与每轮待打标签地址数据的数量n相同，即选取n个数据规模最大的地址簇作为采样簇。

将地址簇集合中未被本轮选为采样簇的地址簇形成一个新的地址簇集合。在循环选取的过程中，新一轮采样簇都是在新的地址簇集合中进行选取，避免一个地址数据被重复选取。

由于多轮选取采样簇的过程中存在待采样的地址簇数量大于第一地址簇集合中剩余的地址簇数量的情况，因此在部分实施例中，从多个地址簇内根据数据规模选取至少两个采样簇，还包括：

在获取采样簇并根据采样簇更新第一地址簇集合后，对第一地址簇集合中的地址簇数量进行判断，若地址簇的数量小于待采样数量n，则更新所有的采样簇的数据规模。而后再通过所有采样簇更新后的数据规模进行降序排列，并与第一地址簇集合中剩余的地址簇组合，形成第二地址簇集合，以进行后续的采样簇选取过程，在第二地址簇集合中选取待采样数量n且排在前列的地址簇作为采样簇。其中，待采样数量为单轮选取采样簇的数量，在第二地址簇集合中，来自于第一地址簇集合的地址簇排在更新后的采样簇前。

应当理解的是，以每轮待采样数量n=10为例，当更新后的第一地址簇集合中的地址簇数量小于10时，则需要更新被选取的地址簇的数量规模并重新进行降序排列，以获取第二地址簇集合。第二地址簇集合中的地址簇数量与通过步骤S222获取的第一地址簇集合数量相同，但由于第二地址簇集合中地址簇的数据规模与第一地址簇集合中地址簇的数据规模不同，因此两者中地址簇的排列顺序不同。

在获取第二地址簇集合后，在选取采样簇时，选取第二地址簇集合中排在前列的n个所述地址簇作为采样簇。

进一步的，若在后续迭代过程中，第二地址簇集合中的地址簇数量小于待采样数量，此时可通过上述方法更新从第二地址簇集合中选取的采样簇的数据规模，并进行降序排列，以与第二地址簇集合中的剩余地址簇组成第三地址簇集合，并进行后续的采样簇选取过程。本申请中地址簇集合的生成次数可为多次，本申请对于地址簇集合的生成次数不做限制。

S224：获取采样簇中地址文本长度最大的地址数据，以作为候选待标注数据。

在每个采样簇中选取候选的待标注数据时，是通过对比不同地址数据间地址文本长度来获取。示例性的，首先通过地址文本长度，对每个采样簇中的地址数据进行降序排列，即地址文本长度由大到小顺序排列，当地址文本长度相同时，可并列放置。而后通过选取排列在首位的地址数据作为候选的待标注数据。以采样簇的数量为n个为例，由于同一采样簇中地址文本长度相同的地址数据都会作为候选的待标注数据，因此候选的待标注数据的数量大于或等于n个。

S230：获取候选待标注数据的令牌熵。

获取令牌熵的过程可包括对候选待标注数据中字符的特征表示执行归一化处理，获得候选待标注数据内单个字符的概率分布；按照概率分布计算候选待标注数据内单个字符的信息熵；基于信息熵计算候选待标注数据的令牌熵。

应当理解的是，获取令牌熵，并基于令牌熵选取待标注数据即是考虑地址数据对当前轮获得的地址解析模型的不确定性进行数据筛选的过程。

首先对候选待标注数据中的每个字符的特征表示都进行归一化处理，从而获取单个字符的概率分布，示例性的，概率分布可通过下式进行获取：

；

其中，X为待标注数据，x _i为待标注数据中的任一字符，i为不超过X含有字符数量的任一正整数，为第k轮迭代的地址解析模型预测的X中的字符/>的概率分布，/>为第k轮迭代的地址解析模型预测的X中的字符/>的特征表示。

而后通过概率分布计算待标注数据内单个字符的信息熵，公式如下：

；

其中，H(x _i)为X中任一字符x _i的信息熵，Z为模型对待标注数据单个字符预测的类别总量，为第k轮迭代的地址解析模型预测的X中的字符/>属于类别z的概率。

最后通过每个字符的信息熵，计算获取待标注数据整体的令牌熵，公式如下：

；

其中，H(X)为令牌熵，T为X含有的字符数量。

S240：根据令牌熵，选取采样簇中熵值最大的候选待标注数据，以获得目标域待标注数据。

在计算得到不同的候选待标注数据的令牌熵后，即可通过不同的熵值大小对候选待标注数据进行筛选。示例性的，可通过令牌熵的熵值大小，将每个采样簇中的候选待标注数据分别进行降序排列，并在每个采样簇中分别选取一个熵值最大的候选待标注数据，以获取目标域待标注数据。

需要说明的是，目标域待标注数据的个数与采样簇的个数相同，且每个采样簇都对应采集一条目标域待标注数据。

S250：根据目标域待标注数据，更新目标域地址数据。

由于目标域待标注数据是从目标域地址数据中筛选得到的，目标域待标注数据是目标域地址数据中的一部分。为了防止同一条目标域中的数据被选取和标注两次，需要在目标域地址数据中删除已被采样的地址数据，从而能减少标注成本及获得更丰富的数据信息。

上述方法，是通过主动学习的方式，在目标域地址数据中筛选获取具有代表性的目标域待标注数据，进而通过丰富目标域待标注数据的标签信息，来更新训练模型的数据集合，提高模型的效果。

在部分实施例中，如图3所示，对地址解析模型进行训练的过程包括：

S310：组合源域地址数据和目标域标注数据，以获取标注数据集。

在获取到目标域标注数据后，将源域地址数据和目标域标注数据组合形成一个数据集合，该数据集合即为标注数据集。

在进行多轮循环获取目标域待标注数据后，将每轮循环中获取的目标域标注数据都与源域地址数据组合，以形成一个数据集合。应当理解的是，在目标域地址数据中筛选获取目标域待标注数据后，会将目标域地址数据中与目标域待标注数据对应的内容进行删除，因此每轮循环获取的目标域待标注数据都存在区别。

S320：将标注数据集输入至地址解析模型，以获取标注数据集对应的解析结果。

将标注数据集中每条地址数据都输入至地址解析模型中，使地址解析模型对标注数据集进行解析，以获取对应的解析结果，在部分实施例中，解析结果为标注数据集中每条数据根据分类概率获得的标签。

S330：根据标注数据集中的标签信息和解析结果，计算地址解析模型对应的模型损失。

根据解析结果和标注数据集中对应的标签信息，获取地址解析模型的模型损失，示例性的，可通过地址解析模型的输出与对应的标注数据集中的标签信息进行对比，获取输出与标签信息间的相似度，通过相似度可获取每个标注数据集中地址数据的的损失情况。

S340：基于模型损失，迭代训练优化地址解析模型。

在获取模型损失后，再利用标注数据集对地址解析模型进行训练优化，以通过标注数据集优化地址解析模型的参数，使地址解析模型能够更精准的对目标域地址数据进行解析。

应当理解的是，本步骤中所述迭代训练为将同一组标注数据集多次输入至地址解析模型中进行训练，即本步骤中所述迭代训练的次数为在一轮S130至S150步骤中，对地址解析模型的训练次数，因此在本申请部分实施例中，对地址解析模型的最大训练次数可为最大迭代轮数与单轮迭代数量的乘积。

通过上述方法能够对地址解析模型进行优化，提高地址解析模型的解析准确度，增加地址解析模型的训练效果，从而提高地址解析模型的构建效率。

为了验证通过上述方法获取的地址解析模型的可靠性，还可在构建地址模型过程中，通过一些方法获取对比模型，而后对同样的目标域测试数据进行测试，以验证不同模型的解析准确度。示例性的，可将通过S120步骤中根据源域数据集内的源域地址数据训练得到的模型作为第一对比模型，再将第一对比模型根据随机多轮选取N条目标域待标注数据进行迭代训练后的模型作为第二对比模型，在源域数据集和目标域数据集相同的情况下，第一对比模型由于未使用目标域的数据进行训练，因此没有学习到目标域与源域之间存在差异的地址知识，因此地址模型解析的效果较差，准确度在10%以下，而通过引入目标域地址数据的训练而获得的地址解析模型，其效果得到大幅提升，第二对比模型的解析准确度则可在95%左右，而通过本申请中的低成本跨地域地址解析模型构建方法获取的地址解析模型，解析准确度则可达到98%以上，因此本申请中的方法的有效性得到了验证。

基于上述低成本跨地域地址解析模型构建方法，本申请中还提供一种低成本跨地域地址解析模型构建系统600，如图6所示，包括：

获取单元610，用于获取地址数据；以及，获取目标域待标注数据的标签信息，以得到目标域标注数据。示例性的，获取单元610可通过外接设备获取用户输入的地址数据以及目标域待标注数据的标签信息，也可通过与智能设备或存储设备连接，例如计算机、服务器等电子设备以及硬盘、U盘等存储设备，来获取地址数据和目标域待标注数据的标签信息。

生成单元620，用于根据源域地址数据训练获取地址解析模型，并通过地址解析模型解析目标域地址数据，以获取目标域地址数据的解析结果和特征表示；以及，根据标注数据集迭代训练地址解析模型；标注数据集包括已被标注的源域地址数据和带有标签信息的目标域标注数据。示例性的，生成单元620能够通过地址数据构建地址解析模型，且还能够通过数据对模型进行训练。

筛选单元630，根据目标域地址数据的差异性和不确定性获取至少两条目标域待标注数据，包括：基于目标域地址数据的特征词，对目标域地址数据聚类，获得多个地址簇；从多个地址簇内根据数据规模选取至少两个采样簇，并根据地址文本长度在每个采样簇中选取候选待标注数据；采样簇的数量小于地址簇的数量；获取候选待标注数据的令牌熵；根据令牌熵，选取采样簇中熵值最大的候选待标注数据，以获得目标域待标注数据；根据目标域待标注数据，更新目标域地址数据。筛选单元630通过主动学习的方式对目标域地址数据进行筛选，来获取目标域待标注数据，便于生成单元通过更新训练数据的方式迭代训练地址解析模型。

验证单元640，用于通过训练后的地址解析模型解析目标域地址数据；以及，若地址解析模型满足预设终止条件，则输出迭代训练后的地址解析模型。验证单元640则是能够对地址解析模型进行验证，当预设终止条件为最大迭代轮数时，还用于判断地址解析模型的当前迭代轮数，若解析准确度不再提升或满足预设终止条件，则输出迭代训练后的地址解析模型。

在部分实施例中，所述低成本跨地域地址解析模型构建系统600还可包括一个交互端，获取单元610通过交互端与智能设备、存储设备等连接，验证单元640通过交互端则可将训练完成的地址解析模型输出，以便于地址解析模型的后续应用。

本发明实施例提供的一种低成本跨地域地址解析模型构建方法及系统，在获取源域地址数据和目标域地址数据后，采用主动学习和迁移学习多轮选取数据的策略，通过地址数据的差异性和不确定性，对目标域地址数据进行筛选，通过多种类型的数据的选取以及对模型进行多轮的迭代训练，提升模型学习到更多地址新知识的能力，增强地址模型的解析性能，从不确定性和差异性两方面考虑地址数据特点，使选取的数据更具有代表性。同时减少需要标注的数据数量，有效地解决了地址解析模型构建时标注数量大，模型构建成本高的问题。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举若干系统的单元权利要求中，这些系统中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

Claims

1.一种低成本跨地域地址解析模型构建方法，其特征在于，包括：

获取地址数据集，所述地址数据集包括源域数据集和目标域数据集；所述源域数据集包括多条已被标注的源域地址数据，所述目标域数据集包括多条未被标注的目标域地址数据；

根据所述源域地址数据训练获取地址解析模型，并通过所述地址解析模型解析所述目标域地址数据，以获取所述目标域地址数据的解析结果和特征表示；

获取所述目标域待标注数据的标签信息，以得到目标域标注数据；

根据标注数据集迭代训练所述地址解析模型，并通过训练后的所述地址解析模型解析所述目标域地址数据；所述标注数据集包括已被标注的所述源域地址数据和带有标签信息的所述目标域标注数据；

若所述地址解析模型满足预设终止条件，则输出迭代训练后的所述地址解析模型；

其中，所述从多个所述地址簇内根据数据规模选取至少两个采样簇，并根据地址文本长度在每个所述采样簇中选取候选待标注数据，包括：

获取所述地址簇中地址数据的所述地址文本长度和多个所述地址簇的所述数据规模；

根据多个所述地址簇的数据规模，对多个所述地址簇进行降序排列，以形成第一地址簇集合；

若所述第一地址簇集合中所述地址簇的数量大于或等于待采样数量，在所述第一地址簇集合中选取待采样数量且排在前列的所述地址簇作为所述采样簇，所述待采样数量为单轮选取所述采样簇的数量，所述待采样数量大于或等于2；根据选取的所述采样簇，更新所述第一地址簇集合；

若所述第一地址簇集合中所述地址簇的数量小于所述待采样数量，则更新每个所述采样簇的数据规模；根据每个所述采样簇更新后的数据规模，对多个所述采样簇进行降序排列并和所述第一地址簇集合中剩余的所述地址簇组合，以获取第二地址簇集合，所述第一地址簇集合中剩余的所述地址簇位于数据规模更新后的所述采样簇前；在所述第二地址簇集合中选取所述待采样数量且排在前列的地址簇作为所述采样簇；根据选取的所述采样簇，更新所述第二地址簇集合；

获取所述采样簇中所述地址文本长度最大的地址数据，以作为所述候选待标注数据。

2.根据权利要求1所述的低成本跨地域地址解析模型构建方法，其特征在于，所述基于所述目标域地址数据的特征词，对所述目标域地址数据聚类，获得多个地址簇，包括：

对多条所述目标域地址数据中的文本数据执行分词处理，以获取多条所述目标域地址数据的分词结果和特征词；

将所述特征词相同的所述目标域地址数据聚集到一起，以获取所述地址簇。

3.根据权利要求1所述的低成本跨地域地址解析模型构建方法，其特征在于，所述获取所述候选待标注数据的令牌熵，包括：

对所述候选待标注数据中字符的特征表示进行归一化处理，获得所述候选待标注数据内单个字符的概率分布；

按照所述概率分布计算所述候选待标注数据内单个字符的信息熵；

基于所述信息熵计算所述候选待标注数据的令牌熵。

4.根据权利要求1所述的低成本跨地域地址解析模型构建方法，其特征在于，所述根据标注数据集迭代训练所述地址解析模型，包括：

组合所述源域地址数据和所述目标域标注数据，以获取所述标注数据集；

根据所述标注数据集训练所述地址解析模型，以获取所述标注数据集对应的解析结果；所述解析结果为所述标注数据集中每条数据根据分类概率获得的标签；

根据所述标注数据集中的标签信息和所述解析结果，计算所述地址解析模型对应的模型损失；

基于所述模型损失，迭代训练优化所述地址解析模型。

5.根据权利要求4所述的低成本跨地域地址解析模型构建方法，其特征在于，所述目标域数据集还包括多条目标域测试数据，在所述通过训练后的所述地址解析模型解析所述目标域地址数据之前，所述方法还包括：

利用所述多条目标域测试数据对本次迭代训练前和本次迭代训练后的所述地址解析模型分别进行测试，以获取第一解析准确度和第二解析准确度；所述第一解析准确度包括历史迭代训练后模型的解析准确度，所述第二解析准确度包括本次迭代训练后模型的解析准确度；

若所述第二解析准确度大于所述第一解析准确度，通过所述标注数据集继续迭代训练所述地址解析模型。

6.根据权利要求1-5任一项所述的低成本跨地域地址解析模型构建方法，其特征在于，所述预设终止条件包括迭代次数到达预设迭代上限和/或获取的目标域待标注数据的数量满足预设数量。

7.一种低成本跨地域地址解析模型构建系统，其特征在于，包括：

生成单元，用于：

根据源域地址数据训练获取地址解析模型，并通过所述地址解析模型解析目标域地址数据，以获取所述目标域地址数据的解析结果和特征表示；以及，根据标注数据集迭代训练所述地址解析模型；所述标注数据集包括已被标注的源域地址数据和带有标签信息的目标域标注数据；

筛选单元，用于：

所述筛选单元，还用于：获取所述地址簇中地址数据的所述地址文本长度和多个所述地址簇的所述数据规模；

获取所述采样簇中所述地址文本长度最大的地址数据，以作为所述候选待标注数据；

验证单元，用于：

通过训练后的所述地址解析模型解析所述目标域地址数据；以及，若所述地址解析模型满足预设终止条件，则输出迭代训练后的所述地址解析模型。