CN114064269A

CN114064269A - 一种地址匹配方法、装置及终端设备

Info

Publication number: CN114064269A
Application number: CN202111265854.9A
Authority: CN
Inventors: 王国伟; 朱红坤; 贺光华; 李奇隆
Original assignee: Chongqing Chuannan Environmental Protection Technology Co ltd
Current assignee: Chongqing Chuannan Environmental Protection Technology Co ltd
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2022-02-18

Abstract

本发明适用于地理信息处理技术领域，提供了一种地址匹配方法、装置及终端设备，方法包括构建并训练获得地址匹配模型，地址匹配模型包括实体词语判断分模型和预测实体词语最高父级分模型；通过地址匹配模型提取用户输入的待处理地址数据，获得与待处理地址数据对应的地址元素及其元素类别；根据地址元素以及元素类别构建数据库查询语句；通过数据库查询语句在地址数据库进行地址匹配，匹配成功时根据匹配结果完善待处理地址数据输出用户地址信息。通过本发明可以提高地址匹配方法工作效率。

Description

一种地址匹配方法、装置及终端设备

技术领域

本发明涉及地理信息处理技术领域，尤其涉及一种地址匹配方法、装置及终端设备。

背景技术

地址匹配是将文字性的描述地址与其空间的地理位置坐标建立起对应关系的过程，是线上服务到线下服务实现中的重要环节。

而现有方案遵循传统文本匹配流程，既对用户输入的地址数据进行自然语言处理，又对数据库中抽取的标准地址数据进行相关自然语言的处理，其中，自然语言处理操作使得地址匹配的工作效率低，同时还在处理过程中占用大量的主存与计算资源。

发明内容

本发明的主要目的在于提出一种地址匹配方法、装置及终端设备，以解决现有的地址匹配方法工作效率低、占用大量的主存与计算资源的问题。

为实现上述目的，本发明实施例第一方面提供一种地址匹配方法，包括：

构建并训练获得地址匹配模型，所述地址匹配模型包括实体词语判断分模型和预测实体词语最高父级分模型；

通过所述地址匹配模型提取用户输入的待处理地址数据，获得与所述待处理地址数据对应的地址元素及其元素类别；

根据所述地址元素以及所述元素类别构建数据库查询语句；

通过所述数据库查询语句在地址数据库进行地址匹配，匹配成功时根据匹配结果完善所述待处理地址数据输出用户地址信息。

结合本发明第一方面，本发明第一实施方式中，匹配失败时，根据所述待处理地址数据的地址等级结构进行地址合法性验证。

结合本发明第一方面，本发明第二实施方式中，构建并训练获得地址匹配模型，包括：

获取原始历史地址数据，并构建原始历史地址数据的地址等级结构；

根据所述地址等级结构对所述原始历史地址数据进行特定分词处理，获得分词数据，所述特定分词处理包括数字分词处理；

对所述分词数据进行标签标定，并使用标签标定后的数据训练初始地址匹配模型获得所述地址匹配模型，所述初始地址匹配模型包括初始实体词语判断分模型和初始预测实体词语最高父级分模型。

结合本发明第一方面第二实施方式，本发明第三实施方式中，所述标签标定包括基于所述分词数据的实体词语标签标定和基于所述分词数据的最高父级类别标签标定；

所述初始实体词语判断分模型判断所述分词数据中的每个词语是否为实体词语；所述初始预测实体词语最高父级分模型预测所述分词数据中每个词语的最高父级类别；

所述使用标签标定后的数据训练初始地址匹配模型获得所述地址匹配模型，包括：

根据所述分词数据的实体词语标签标定和所述初始实体词语判断分模型的判断结果计算第一级LOSS值；

根据所述分词数据的最高父级类别标签标定和所述初始预测实体词语最高父级分模型的预测结果计算第二级LOSS值；

通过所述第一级LOSS值和所述第二级LOSS值计算所述初始地址匹配模型的LOSS损失函数；

根据所述LOSS损失函数的值检测所述初始地址匹配模型是否训练完成，并以训练完成时的初始地址匹配模型的参数输出所述地址匹配模型。

结合本发明第一方面第二实施方式，本发明第四实施方式中，所述根据所述地址等级结构对所述原始历史地址数据进行特定分词处理，获得分词数据，包括：

用名称实体识别模型和正则化挑选模型处理原始历史地址数据，获得地址层级词典；

通过地址层级词典对所述原始历史地址数据进行特定的分词工作。

结合本发明第一方面第四实施方式，本发明第五实施方式中，还包括：

通过用户地址信息和合法新增地址更新地址层级词典。

结合本发明第一方面第二实施方式，本发明第六实施方式中，所述对所述分词数据进行标签标定，包括：

对分词数据中的每个词语进行正则化初次标定、弱监督学习的数据标签二次标定；

检测所述正则化初次标定、弱监督学习的数据标签二次标定的正确性；

在正则化初次标定、弱监督学习的数据标签二次标定的不同时进行三次标定。

本发明实施例第二方面提供了一种地址匹配装置，包括：

地址匹配模型获取模块，用于构建并训练获得地址匹配模型，所述地址匹配模型包括实体词语判断分模型和预测实体词语最高父级分模型；

数据处理模块，用于通过所述地址匹配模型提取用户输入的待处理地址数据，获得与所述待处理地址数据对应的地址元素及其元素类别；

查询语句构建模块，用于根据所述地址元素以及所述元素类别构建数据库查询语句；

地址匹配模块，用于通过所述数据库查询语句在地址数据库进行地址匹配，匹配成功时根据匹配结果完善所述待处理地址数据输出用户地址信息。

本发明实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序，上述处理器执行上述计算机程序时实现如上第一方面所提供的方法的步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现如上第一方面所提供的方法的步骤。

本发明实施例提出一种地址匹配方法，对用户侧的地址数据，即待处理地址数据进行自然语言处理，提高地址匹配的工作效率，同时降低其占用的计算资源。并且，本发明实施例中地址匹配模型，通过实体词判别和实体词语最高父级预测，有助于提取待处理地址数据的关键的地址元素，增加地址匹配的准确性和效率。

附图说明

图1为本发明实施例提供的地址匹配方法的实现流程示意图；

图2为图1中步骤S101的详细实现流程示意图；

图3为本发明实施例提供的地址匹配装置的组成结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本文中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身并没有特定的意义。因此，"模块"与"部件"可以混合地使用。

如图1所示，本发明实施例提供一种地址匹配方法，用于实现用户输入的初始地址，即待处理地址数据，和地址数据库中的标准地理地址之间的精确匹配。在实际应用中，完成地址匹配之后，可以对当前用户添加其地址信息，使得线上服务或线下服务的服务质量提高，示例性的，可以为基于用户的地址信息，为用户定制服务推荐，或者提供上门服务等。

图1中，本发明实施例提供的地址匹配方法包括但不限于如下步骤：

S101、构建并训练获得地址匹配模型；

在本发明实施例中，地址匹配模型包括实体词语判断分模型和预测实体词语最高父级分模型。实体词语判断分模型可以判断目标是否为实体词语，预测实体词语最高父级分模型可以判断目标的最高父级的类别。

S102、通过所述地址匹配模型提取用户输入的待处理地址数据，获得与所述待处理地址数据对应的地址元素及其元素类别。

在上述步骤S101中，实体词语为地址名，而每个地址名对应一个级别，如学校、街道、城市、省市，其级别分别对应为一级、二级、三级、四级。则上述步骤S102所获得的地址元素及其元素类别，对应的为实体词语及实体词语级别。

S103、根据所述地址元素以及所述元素类别构建数据库查询语句。

S104、通过所述数据库查询语句在地址数据库进行地址匹配，匹配成功时根据匹配结果完善所述待处理地址数据输出用户地址信息。

上述步骤S103和步骤S104数据库匹配过程，地址数据库中存储的数据为标准地理地址。

在一个实施例中，匹配失败时，根据所述待处理地址数据的地址等级结构进行地址合法性验证。其中，地址合法性验证用于验证用户输入的地址数据是符合正常地址表述。

如图2所示，本发明实施例还示出了上述步骤S101中地址匹配模型的构建及训练过程，其包括如下步骤：

S1011、获取原始历史地址数据，并构建原始历史地址数据的地址等级结构。

在本发明实施例中，原始历史地址数据从全国标准地址数据库中抽取，而地址等级结构依赖现有的全国省市区等级结构数据进行查询及构建。

在实际应用中，各地址数据库中的数据通常为半结构化的数据，即数据的前半部分是结构化数据，如省份、城市等，而行政区为单独的数据列；数据的后半部分是无结构化的数据。

S1012、根据所述地址等级结构对所述原始历史地址数据进行特定分词处理，获得分词数据。

在上述步骤S1012中，特定分词处理包括数字分词处理，在一个实施例中，数字分词处理为，对地址数据中出现的“数字+单字”或者“数字+双字”的内容进行完整的分词。例如：“xx村八区”分词后应该分为“xx村”，“八区”。而不是“xx村”,“八”，“区”。

通过上述步骤，避免了原始历史地址数据中的数字影响地址匹配模型对相关地址语义的理解。在实际应用中，若当分词把数字单独提出，则数字原本对应的地址元素将失去含义，并且，当地址中存在多个数字时，将数字单独分出会更加影响地址匹配模型的准确性。

在一个实施例中，特定分词处理的处理过程为：

用名称实体识别模型和正则化挑选模型处理原始历史地址数据，获得地址层级词典。

其中，名称实体识别模型为自然语言处理中使用的模型，可以对原始历史地址数据，即全国标准地址数据库中的标准地址进行地址实体识别。正则化挑选模型用于筛选出用户定义的词语，如本发明实施例中，特定分词处理为数字分词处理，因此，用户定义的词语应为“数据+单字”或者“数字+双字”等。

在一个实施例中，还可以对地址层级词典进行更新，包括：

通过用户地址信息和合法新增地址更新地址层级词典。

S1013、对所述分词数据进行标签标定，并使用标签标定后的数据训练初始地址匹配模型获得所述地址匹配模型，所述初始地址匹配模型包括初始实体词语判断分模型和初始预测实体词语最高父级分模型。

在上述步骤S1013中，所述标签标定包括基于所述分词数据的实体词语标签标定和基于所述分词数据的最高父级类别标签标定；

所述初始实体词语判断分模型判断所述分词数据中的每个词语是否为实体词语；所述初始预测实体词语最高父级分模型预测所述分词数据中每个词语的最高父级类别。

需要说明的是，每个词语具体的最高父级类别根据父类特征矩阵获得，父类特征矩阵来源于原始历史地址数据的地址元素集合，详细地说，是对每一个地址元素集合求取其内每个元素的词向量，把上述各个集合中的词向量求取平均值后作为最高父级类别所对应的词向量，输出父类特征矩阵。

其中，标签标定的详细过程为：

在本发明实施例中，首先，分词数据的标签标定是基于分词数据中的每一个词语进行的，其次，正则化初次标定主要利用正则化规则对每一个分词进行判定，弱监督学习的数据标签二次标定在检验上一步正则化初次标定的正确性的同时，再次对分词数据进行标签标定工作。

对于标签标定后的分词数据，包括两行标签列，一行标签表示词语是否是实体词语，另一行标签列表示相关实体词语的类别。示例性的，本发明实施例中用标签中O表示Other，即该词语并不是一个实体词语，无法找到其最高父级类别。而B表示Begin，表示这是一个实体词语的开始，这个词语可以寻找到最终的父类，具体的最高父级类别根据父类特征矩阵获得。

则上述步骤S1013中，使用标签标定后的数据训练初始地址匹配模型获得所述地址匹配模型，包括：

示例性的，上述步骤中LOSS损失函数的计算公式可以为：

loss_comb为LOSS损失函数，LOSS₁为第一级LOSS值，LOSS₂为第二级LOSS值，ɑ和β分别为第一级LOSS值和第二级LOSS值的计算权重。

在本发明实施例中，初始地址匹配模型的初始实体词语判断分模型包括用户输入层、编码器和softmax层，其中，编码器为Bi-LSTM(Bidirection-Long short-termmemory)网络，softmax层输出判断结果。初始地址匹配模型的初始预测实体词语最高父级分模型包括用户输入层、编码器和由父类特征矩阵集合组成的特征矩阵，其中，特征矩阵输出预测结果。

本发明实施例所示出的地址匹配模型的构建及训练过程中，使用了全国标准地址数据库中的数据作为训练集，扩大了地址匹配模型的应用范围，同时，使用的初始实体词语判断分模型和初始预测实体词语最高父级分模型，以及基于分词数据的实体词语标签标定和基于分词数据的最高父级类别标签标定，构成一个槽填充方案，解决了因地理元素文本相似而导致的模型误判问题。

如图3所示，本发明实施例还提供一种地址匹配装置30，包括：

地址匹配模型获取模块31，用于构建并训练获得地址匹配模型，所述地址匹配模型包括实体词语判断分模型和预测实体词语最高父级分模型；

数据处理模块32，用于通过所述地址匹配模型提取用户输入的待处理地址数据，获得与所述待处理地址数据对应的地址元素及其元素类别；

查询语句构建模块33，用于根据所述地址元素以及所述元素类别构建数据库查询语句；

地址匹配模块34，用于通过所述数据库查询语句在地址数据库进行地址匹配，匹配成功时根据匹配结果完善所述待处理地址数据输出用户地址信息。

本发明实施例还提供一种终端设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上述实施例中所述的地址匹配方法中的各个步骤。

本发明实施例还提供一种存储介质，所述存储介质为计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上述实施例中所述的地址匹配方法中的各个步骤。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种地址匹配方法，其特征在于，包括：

根据所述地址元素以及所述元素类别构建数据库查询语句；

2.如权利要求1所述的地址匹配方法，其特征在于，匹配失败时，根据所述待处理地址数据的地址等级结构进行地址合法性验证。

3.如权利要求1所述的地址匹配方法，其特征在于，构建并训练获得地址匹配模型，包括：

4.如权利要求3所述的地址匹配方法，其特征在于，所述标签标定包括基于所述分词数据的实体词语标签标定和基于所述分词数据的最高父级类别标签标定；

5.如权利要求3所述的地址匹配方法，其特征在于，所述根据所述地址等级结构对所述原始历史地址数据进行特定分词处理，获得分词数据，包括：

6.如权利要求5所述的地址匹配方法，其特征在于，还包括：

通过用户地址信息和合法新增地址更新地址层级词典。

7.如权利要求3所述的地址匹配方法，其特征在于，所述对所述分词数据进行标签标定，包括：

8.一种地址匹配装置，其特征在于，包括：

9.一种终端设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1至7任一项所述的地址匹配方法中的各个步骤。

10.一种存储介质，所述存储介质为计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至7任一项所述的地址匹配方法中的各个步骤。