CN112528664B

CN112528664B - 基于多任务联合学习与地址层级结构知识的地址匹配方法

Info

Publication number: CN112528664B
Application number: CN202110159689.2A
Authority: CN
Inventors: 毛星亮; 李芳芳; 路毅恒; 徐雪松
Original assignee: Hunan University of Technology
Current assignee: Hunan University of Technology
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-04-27
Anticipated expiration: 2041-02-05
Also published as: CN112528664A

Abstract

本发明涉及一种基于多任务联合学习与地址层级结构知识的地址匹配方法，具体包括如下步骤：S1：输入地址对；S2：地址对进入共享地址特征抽取网络；地址对进入地址要素标注网络，经标注后得到第一分词结果，第一分词结果进入地址要素识别网络；S3：共享地址特征经进入地址要素识别网络，经分词后，得到第二分词结果，第二分词结果与第一分词结果比对；用于判断第二分词结果是否符合第一分词结果和地址要素层级顺序，若不符合，重新调整共享地址特征；S4：调整后的共享地址特征进入地址匹配网络，用于判断输入的地址对是否匹配；S5：输出匹配结果。本发明将地址层级要素识别任务与地址匹配任务联合起来学习，从而提升模型的性能。

Description

基于多任务联合学习与地址层级结构知识的地址匹配方法

技术领域

本发明涉及基于多任务联合学习与地址层级结构知识的地址匹配方法。

背景技术

地址匹配是将需要查询的非结构化的地址与数据库中标准的地址进行匹配，以便将随意的地址转换为标准的地理坐标，从而在地图上进行定位，关键问题是判别两个地址文本是否匹配，涉及到对应的地址层级结构要素的对比。地址要素是指省、市、区、街道等地址实体的名字（如深圳市）。以往的方法主要集中于基于复杂的规则的字符串匹配和基于机器学习或深度学习模型的浅层语义匹配，忽略了地址特有的地址层级结构信息。

传统方法通常基于逐个字符来判别字符串相似性，如使用欧式距离与余弦距离衡量地址匹配程度，有时为了考虑地址层级结构的关系，需要人工设计复杂的规则去识别地址的层级要素，从而提高地址匹配的精度。最近虽然使用了机器学习方法，但只提取了地址的浅层语义，有些漏掉了其真实的含义，对于那些字符重复率高但实际意义不同的地址对很容易判断错误。比如“深圳市南山区南山街道向南村六坊24号501”与“深圳市南山区南山街道向南社区0150号”会被误判成匹配的地址。

现有的方法主要分为两种，一是基于人工规则的匹配方式，部分考虑了地址层级结构，但是规则的设计耗费了大量人力物力，而且只适用于特定的情况，精度较低，另一种是基于机器学习与深度学习的方式，虽然一定程度上克服了人工设计规则，但是都忽略了地址层级结构信息。

最近随着深度学习与自然语言处理的快速发展，越来越多的方法被用于地理学科。深度学习是一种端到端的处理方法，因此极大程度地缓解了人工设计规则的问题。深度学习模型可以自动捕获有意义且深层次的语义特征，因此一些端到端的方法被提出来去判断字符串相似性。如2020年林玥等人使用增强型顺序推理深度学习模型ESIM（EnhancedLSTM for Language Inference，用于语言推理的增强型LSTM）从局部和整体推断地址是否匹配，并通过实验证明这是一种判断地址匹配的有效方法，然而他们忽略了如何使模型学习到地址层级信息。

发明内容

本发明的目的是提供一种基于多任务联合学习与地址层级结构知识的地址匹配方法，能使模型学习到地址层级信息，本发明从深度学习中的多任务学习的角度出发，仿照人类判别地址匹配的过程，将地址要素识别任务与地址匹配任务联合起来学习，同时把地址层级结构知识融入到神经网络中进行训练，从而提升模型的性能。

为达到上述目的而采用了一种基于多任务联合学习与地址层级结构知识的地址匹配方法，具体包括如下步骤：

S1：输入地址对；

S2：所述地址对进入共享地址特征抽取网络作为共享地址特征；所述地址对进入基于分词特征的地址要素标注网络，所述地址对经基于分词特征的地址要素标注网络标注后得到第一分词结果，所述第一分词结果具有地址要素的层级划分结果，所述第一分词结果进入地址要素识别网络；

S3：所述共享地址特征经抽取进入所述地址要素识别网络，经所述地址要素识别网络分词后，得到第二分词结果，所述第二分词结果在所述地址要素识别网络中，与所述第一分词结果的地址要素层级划分结果和先验的地址层级结构知识中的地址要素层级顺序比对；用于判断第二分词结果是否符合第一分词结果的地址要素层级划分结果和先验的地址层级结构知识中的地址要素层级顺序，若不符合，重新调整共享地址特征抽取网络中的共享地址特征和地址要素识别网络自身，直至抽取的共享地址特征经所述地址要素识别网络分词后，符合第一分词结果的地址要素层级划分结果和先验的地址层级结构知识中的地址要素层级顺序；

S4：调整后的共享地址特征进入地址匹配网络，用于判断输入的地址对是否匹配；

S5：输出匹配结果。

作为本发明基于多任务联合学习与地址层级结构知识的地址匹配方法进一步的改进，所述先验的地址层级结构知识中的地址要素层级顺序包括：地址要素所描述的行政区域按所属级别由大到小排列，如：省位于市区之前，市区位于街道之前。

作为本发明基于多任务联合学习与地址层级结构知识的地址匹配方法进一步的改进，所述地址匹配网络结构为全连接层和Relu激活函数，用于判断输入的地址对是否表示同一地理位置。

作为本发明基于多任务联合学习与地址层级结构知识的地址匹配方法进一步的改进，所述基于分词特征的地址要素标注网络的训练方式为：

S2.1：对已有的带有地址要素标注的原始文本语料进行数据增强，增强方法为，按照5%-10%的比例随机删除表示省市区的地址要素，按照10%-15%的比例删除“省”、“市”、“区”、“街道”、“社区”、“村”字符；

S2.2：使用jieba分词工具对原始文本语料中的地址进行分词，将分词信息进行编码，其编码方式如下公式：

其中，x为当前词w中的某一个字；将分词后的编码信息映射为向量，并与Word2Vec算法中Skip-gram模型训练的原始文本语料中地址的词向量进行拼接，共同作为地址要素标注网络的输入；

S2.3，使用增强后的语料和拼接后的向量训练地址要素标注网络，所述地址要素标注网络为BiLSTM-CRF深度学习模型，然后把训练好的地址要素标注网络用于地址对的地址要素标注。

作为本发明基于多任务联合学习与地址层级结构知识的地址匹配方法进一步的改进，共享地址特征抽取网络抽取共享地址特征的步骤如下：

S3.1：使用RCNN中的Bi-LSTM来分别提取地址对中当前地址要素的上下文信息，将当前地址要素上文的地址要素、下文的地址要素以及自身结合起来作为当前地址要素的表示；

S3.2：使用RCNN中的最大池化操作找到地址对中潜在语义信息，然后经过全连接层，得到共享地址特征。

作为本发明基于多任务联合学习与地址层级结构知识的地址匹配方法进一步的改进，基于地址层级结构知识的地址要素识别网络识别方法如下：

S4.1：先验的地址层级结构知识编码方法如下：

其中，

表示当前模型预测值与损失值之间的关系；

表示地址中所识别出的地址要素个数，

表示第

个地址要素的预测标签值；当预测的地址要素的层级顺序不符合先验的地址层级结构知识中的地址要素层级顺序的逻辑时，损失值就会增加；

S4.2：使用全连接层进一步提取与地址要素相关的特征，并结合CRF层进行地址要素识别。

作为本发明基于多任务联合学习与地址层级结构知识的地址匹配方法进一步的改进，地址匹配网络训练方式如下：

S4.3：对共享地址特征抽取网络中的共享地址特征，使用全连接层和Relu激活函数进行地址匹配二分类。

作为本发明基于多任务联合学习与地址层级结构知识的地址匹配方法进一步的改进，共享地址特征抽取网络包括：

循环结构层，其接受上层输入的地址特征；

池化层，其接受循环结构层转换的地址特征；

特征提取层，其接受池化层输入的地址特征，并转换为可抽取的地址特征，并抽取至地址匹配网络和地址要素识别网络。

本发明提出基于地址层级结构知识与地址层级结构要素识别的多任务学习方法来提升地址匹配的性能。首先训练出一个地址层级结构要素识别的预训练模型，识别出地址的层级结构要素，然后将地址层级结构要素识别任务与地址匹配判别任务进行联合学习。另外，本发明将外部的地址层级结构知识融入到神经网络中，使模型更好地学习到地址层级结构要素之间的关系。

本发明提出的方法使用了多任务联合的深度学习模型，可以有效学习到不同地址层级结构之间的以及全局的语义信息。我们不仅考虑到地址整体的关系，还结合了地址对层级结构之间的对应关系，因此取得了更好的效果。

附图说明

图1为实施例的整体流程示意图。

图2为基于多任务联合的地址匹配深度学习方法主要步骤流程示意图。

图3为网络融合示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、 “上”、“下”、 “左”、 “右”、 “竖直”、“水平”、 “内”、 “外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制；术语“第一”、 “第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性；此外，除非另有明确的规定和限定，术语“安装”、 “相连”、 “连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

图1-3示出了一种基于多任务联合学习与地址层级结构知识的地址匹配方法，具体包括如下步骤：

S1：输入地址对；

S5：输出匹配结果。

在本实施例中，所述先验的地址层级结构知识中的地址要素层级顺序包括：地址要素所描述的行政区域按所属级别由大到小排列，如省位于市区之前，市区位于街道之前。

在本实施例中，所述地址匹配网络结构为全连接层和Relu激活函数，用于判断输入的地址对是否表示同一地理位置。

在本实施例中，所述基于分词特征的地址要素标注网络的训练方式为：

其中，x为当前词w中的某一个字；将分词后的编码信息映射为向量，并与Word2Vec算法中Skip-gram模型训练的原始文本语料中地址的词向量进行拼接，共同作为输入地址要素标注网络的输入。

在本实施例中，共享地址特征抽取网络抽取共享地址特征的步骤如下：

在本实施例中，基于地址层级结构知识的地址要素识别网络识别方法如下：

S4.1：先验的地址层级结构知识编码方法如下：

其中，

表示当前模型预测值与损失值之间的关系；

表示地址中所识别出的地址要素个数，

表示第

在本实施例中，地址匹配网络训练方式如下：

在本实施例中，共享地址特征抽取网络包括：

循环结构层，其接受上层输入的地址特征；

池化层，其接受循环结构层转换的地址特征；

实施例2

图1为实施例的整体流程示意图。

图2为基于多任务联合的地址匹配深度学习方法主要步骤流程示意图，示出了基于多任务联合的地址匹配深度学习方法及其步骤。

如表1，“深圳市福永街龙腾阁1巷2502”与“宝安区福永街道白石厦社区德丰路龙腾阁一巷2号”表示同一地理位置（对应标签为1），“深圳市南山区南山街道向南村六坊24号501”与“深圳市南山区南山街道向南社区0150号”表示不同的地理位置（对应标签为0）。

表1. 深圳地址匹配数据集的样例

注：地址要素是指“长沙市”、“岳麓区”、“100栋”、“1010室”等表示地址的实体。

1.1 基于分词特征的地址要素标注网络

现有的地址文本语料缺乏地址要素的标注，为了对大量的无标注的地址文本的地址要素进行标注，本发明使用Bi-LSTM（Bi-directional Long Short-Term Memory，双向长短时记忆网络)与CRF（Conditional Random Field，条件随机场）相结合的方式对地址要素进行标注。同时在训练模型时融入地址文本的分词信息。

地址要素标注的具体步骤：

步骤一：对已有的少量的带有地址要素标注的语料进行数据增强，具体的数据增强方式为：按照5%-10%的比例随机删除表示省市区的地址要素，按照10%-15%的比例删除“省”、“市”、“区”等字符。

步骤二：将分词特征进行编码，使用jieba分词工具对原始地址进行分词，并将分词信息按照如下公式进行编码，其中，x为当前词w中的某一个字。将分词后的编码信息映射为向量，并与Word2Vec算法中Skip-gram模型训练的原始文本的词向量进行拼接，共同作为模型的输入。如“深圳市宝安区福永街道白石厦社区”分词后为“深圳市/宝安区/福永街道/白石厦社区”，编码后为“0 1 2/0 1 2/0 1 1 2/0 1 1 1 2”。

步骤三：使用增强后的语料训练和融入分词信息的词向量训练BiLSTM-CRF深度学习模型，然后对地址文本的地址要素进行标注。

优点：数据增强的方法相比于人工标注地址文本的地址要素，使用BiLSTM-CRF深度学习模型进行标注，不仅可以节省大量的人力物力，而且可以提高语料自动标注的准确度，此外，融入分词信息可以使模型获取更多的地址信息，提升模型的精度。

1.2 基于地址要素识别与地址匹配的多任务学习网络

1.2.1 共享地址特征提取网络

使用RCNN（Recurrent Convolutional Neural Network，循环卷积神经网络）提取地址文本共享特征的步骤如下：

步骤一：使用RCNN中的Bi-LSTM来分别提取当前地址要素的上下文信息，将当前地址要素上文的地址要素、下文的地址要素以及自身结合起来作为当前地址要素的表示。如在“深圳市盐田区海山街道田东社区梧桐路1051号A栋”中，“盐田区”由上文的“深圳”、下文的“海山街道”以及其自己共同表示。

步骤二：使用RCNN中的最大池化操作找到地址文本中最重要的潜在语义信息。然后经过全连接层得到地址文本的共享地址特征。

优点：RCNN适合对地址的层级结构进行建模，考虑了相邻地址要素的信息，同时也从全局提取整个地址的信息。

1.2.2 基于地址层级结构知识的地址要素识别网络

基于地址层级结构知识的地址要素识别的步骤如下：

步骤一：将地址层级结构知识进行编码融入到地址要素识别网络训练过程中，具体编码方式如下：

其中，

表示当前模型预测值与损失值之间的关系，

表示地址中所识别出的地址要素个数，

表示第

个地址要素的预测标签值。当预测的地址要素的层级顺序不符合地址文本的逻辑时，损失值就会增加。具体是指地址要素所描述的行政区域按所属级别由大到小排列，如：地址文本应该满足省位于市区之前，市区位于街道之前的层级顺序。

步骤二：使用全连接层进一步提取与地址要素相关的特征，并结合CRF层进行地址要素识别。

优点：通过引入先验的地址层级结构知识，增强模型判断地址要素之间关系的能力，同时加速模型收敛速度。

1.2.3 地址匹配网络

地址匹配的步骤如下：

步骤一：根据共享地址特征抽取网络抽取的特征，使用全连接层和Relu激活函数对地址匹配进行二分类。

优点：使用全连接层和Relu激活函数进一步从全局提取与地址匹配最相关的深层特征，从而判别地址对是否匹配。

1.2.4 网络融合

步骤一：如图3，训练地址匹配任务的同时引入地址要素识别任务，通过参数共享的方式同时训练两个任务。

优点：通过参数共享的方式，在训练地址匹配任务的同时引入地址要素实体识别任务，可以使地址匹配任务学习到不同地址要素之间的关系，从而使地址匹配模型更加有效。通过地址匹配与地址要素识别的联合学习，平衡两个任务中的噪音，将模型注意力集中在地址匹配的同时捕捉到地址层级结构信息，从而减小模型在地址匹配任务上的过拟合风险。

本发明的有益效果如下：

（1）首先，地址数据集中的地址层级要素是未标注的，本发明找出了这些地址要素。其次，识别地址要素与判别地址匹配属于两个不同任务，本发明选择了有效的方式对两个任务进行学习。因此本发明从深度学习中的多任务学习的角度出发，仿照人类判别地址匹配的过程，将地址层级要素识别任务与地址匹配任务联合起来学习，同时把地址层级结构知识融入到神经网络中进行训练，从而提升模型的性能

（2）本发明提出地址要素识别与地址匹配多任务联合学习模型，从而融入以往模型都忽略的关键的地址层级结构信息。

（3）通过预先训练模型识别地址要素，解决大量无标注地址数据的利用问题。

（4）将外部的地址层级结构知识融入到地址要素识别网络中以加强地址匹配模型的性能。

（5）通过实验对比，本发明的模型优于现有的方法，在深圳地址匹配数据集上f1值达到98.8，达到目前最好效果。而且在数据集较少的情况下，仍然可以取得较高的精度。

表2 地址匹配模型效果的对比

编号	方法	准确率	F1值
				1	Jaro相似性 + RF(Random Forest,随机森林)	93.0	89.0
2	Jaro相似性 + SVM(Support Vector Machine,支持向量机)	96.0	84.0
				3	Word2Vec + RF	89.0	89.0
4	Word2Vec +SVM	87.0	84.0
				5	Word2Vec + ESIM	97.0	97.0
6	Word2Vec + Transformer	97.1	97.2
				7	Word2Vec + RCNN	97.8	97.8
8	Word2Vec + RCNN + Multi + Language rlue	98.8	98.8

如表2，本发明对比了其它主流的地址匹配方法，从而验证本发明模型的有效性。本发明选择Word2Vec训练地址文本的词向量。

Jaro相似性用于测量地址记录之间的字符串相关性，其考虑了字符串长度以及字符串匹配的字符数。

随机森林是经典的用于分类的集成学习算法，包含多棵决策树，多棵决策树的结果共同决定了其最终结果，可以产生更高的准确度。

支持向量机是用于分类的有监督学习方法，其目标是最大化分类间隔，从而增强模型的鲁棒性，对于低维不可分的数据，可以通过软间隔或者核变换进行处理，其中核变换是将数据从低维空间映射到高维空间，从而实现数据可分。

ESIM是经典的基于交互的文本匹配深度学习模型，其精细地设计序列式推断结构，考虑局部推断和全局推断，当时在斯坦福自然语言推理（SNLI）数据集取得了最好效果。Yue Lin使用ESIM在地址对之间进行局部推断，然后综合该局部推断以进行全局预测，也取得了较好的效果。

Transformer模型与之前存在的序列到序列模型不同，它并不使用循环神经网络，而是完全依赖于自注意力机制，同时使用位置编码来补充序列的位置信息，因此可以高效地并行运行，当时在多项任务上取得最好的效果。

本发明提出基于地址层级结构知识与地址要素识别的多任务学习方法来提升地址匹配的性能。首先训练出一个地址要素识别的预训练模型，识别出地址要素，然后将地址要素识别任务与地址匹配判别任务进行联合学习。另外，本发明将外部的地址层级结构知识融入到神经网络中，使模型更好地学习到地址要素之间的关系。

本发明提出的方法使用了多任务联合的深度学习模型，可以有效学习到不同地址层级结构之间的以及全局的语义信息。本发明不仅考虑到地址整体的关系，还结合了地址对层级结构之间的对应关系，因此取得了更好的效果。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围之内。

Claims

1.一种基于多任务联合学习与地址层级结构知识的地址匹配方法，其特征是，具体包括如下步骤：

S1：输入地址对；

S3：所述共享地址特征经抽取进入所述地址要素识别网络，经所述地址要素识别网络分词后，得到第二分词结果，所述第二分词结果在所述地址要素识别网络中，与所述第一分词结果的地址要素层级划分结果和先验的地址层级结构知识中的地址要素层级顺序比对；判断第二分词结果是否符合第一分词结果的地址要素层级划分结果和先验的地址层级结构知识中的地址要素层级顺序，若不符合，重新调整共享地址特征抽取网络中的共享地址特征和地址要素识别网络自身，直至抽取的共享地址特征经所述地址要素识别网络分词后，符合第一分词结果的地址要素层级划分结果和先验的地址层级结构知识中的地址要素层级顺序；

S5：输出匹配结果；

S1中：基于分词特征的地址要素标注网络标注地址要素的具体步骤：

步骤一：输入的地址对进入地址要素标注网络；

步骤二：将分词特征进行编码，使用jieba分词工具对输入的地址对进行分词，并将分词信息按照如下公式进行编码，其中，x为当前词w中的某一个字，将分词后的编码信息映射为向量，并与地址对的词向量进行拼接，共同作为地址要素标注网络的输入，其编码方式如下公式：