CN113592037A

CN113592037A - 一种基于自然语言推断的地址匹配方法

Info

Publication number: CN113592037A
Application number: CN202110985403.6A
Authority: CN
Inventors: 杨伊态; 陈胜鹏; 付卓; 李颖; 王敬佩; 蒋米敏
Original assignee: Wuda Geoinformatics Co ltd
Current assignee: Wuda Geoinformatics Co ltd
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2021-11-02
Anticipated expiration: 2041-08-26
Also published as: CN113592037B

Abstract

本发明涉及一种基于自然语言推断的地址匹配方法，包括：S1.输入标准地址库的标准地址集，通过自动构造训练样本模块生成训练样本集，使用训练样本集训练地址匹配模型。S2.将待匹配地址输入预处理模型，得到待匹配地址对中关键地址与标准地址的词向量。S3.使用自然语言推断网络推断标准地址词向量与关键地址词向量之间的匹配值，排序并选择匹配值最大的标准地址作为匹配结果，如果匹配结果大于阈值则输出匹配结果，否则输出空值。与本发明的有益效果是：通过训练样本构造模块自动构建训练样本集，相比于现有的方法，减少了构建训练样本成本；通过预处理及自然语言推断的地址匹配方法，提高了模型对地址语义的理解，从而提升了匹配方法的性能。

Description

一种基于自然语言推断的地址匹配方法

技术领域

本发明涉及自然语言处理领域，尤其涉及一种基于自然语言推断的地址匹配方法。

背景技术

在城市服务的实际场景中，描述同一个目的地的地址，由于地址的不完整性、别名等原因，用户输入的地址与标准地址库中存储的地址往往不一致。地址匹配的目标就是判断用户输入的非标准地址与标准地址库中存储的标准地址是否指向同一个地址，为下游服务提供支持。

已有的地址匹配方法主要有四类。

第一类是基于关键词搜索的地址匹配，方法是将用户输入的地址通过关键词查找，从标准地址库中匹配出对应的标准地址。这类方法的特点是匹配效率较高，但准确率非常低。

第二类是构建人工规则的地址匹配，方法是基于领域知识构建匹配规则，根据匹配规则匹配非标准地址与标准地址是否指向同一地址。这类方法的特点是匹配效率较高，准确率较高，但规则繁琐，人工成本高，泛化能力差。

第三类是基于统计概率机器学习模型的地址匹配方法，方法是先构建统计特征和训练样本，然后模型通过训练样本学习模型参数。这类方法的特点是相较第一类与第二类泛化能力更好。但因为对地址语义理解的不够充分，准确率仍有不足。现有的地址匹配方法如基于距离的地址匹配，基于空间坐标与中文信息的地址匹配，基于地理要素层级识别的地址匹配大多属于第二类与第三类方法。

第四类是基于深度学习的地址匹配方法，方法是构建多层神经网络，通过训练样本学习网络参数。这类方法相较前三类，准确率更高。如基于语义识别的地址匹配，基于知识图谱的地址匹配，基于多任务学习的地址匹配。但现有的方法需要消耗大量人工成本做标注样本，且对地址语义的提取仍有不足，准确率有待提高。

发明内容

针对上述问题，本发明提出了一种基于自然语言推断的地址匹配方法，相较于已有的方法，减少了构建训练样本成本，提高了匹配准确率。

本发明所要解决的技术问题为：判断和识别用户输入的非标准地址与标准地址库的标准地址是否指向同一目的地。

本发明为此，提供一种基于自然语言推断的地址匹配方法，包括以下步骤：

构建地址匹配模型，所述地址匹配模型包括预训练模型和地址推断模型；

训练所述地址匹配模型，具体为：

S11：获取标准地址库，得到标准地址集；

S12：输入标准地址集至训练样本构造模块，生成训练样本集；

S13：将训练样本集输入至地址匹配模型，根据训练样本学习地址匹配模型参数，得到训练完成的地址匹配模型；

使用训练完成的地址匹配模型作推断，具体如下：

S21：输入待匹配地址对至预测样本构造模块，生成预测样本对；所述待匹配地址对的格式为：[关键地址,标准地址1,标准地址2,...标准地址n]；

S22：将预测样本对输入至所述预训练模型，得到样本的词向量；

S23：样本的词向量进入地址推断模型，得到标准地址与关键地址的匹配值；

S24：将每个标准地址与关键地址的匹配值排序，选择匹配值最大的标准地址作为输出结果；

S25：若输出结果的匹配值大于预设的阈值，则显示匹配成功，并输出结果；否则显示匹配失败，输出空值。

进一步地，步骤S11中，所述标准地址集包含多个标准地址；标准地址由地理要素构成，包括：行政地理要素和详细地理要素；行政地理要素包括：省、市、区、街道、社区和行政编码；详细地理要素包括：小区、楼栋和门牌号。

步骤S12，生成训练样本集的具体过程为：

S121：随机替换一个标准地址中的某个地理要素，得到替换后的地址，并将替换后的地址标签记为0或1；其中1表示与输入的标准地址指向同一目的地，0表示与输入的标准地址为不同的目的地；

替换地理要素共11种方式，其中替换省、市、区、街道、社区、小区、楼栋、门牌号这8种，替换地址的标签设置为0；替换行政编码分为两种情况，一种为替换行政编码并删除小区、楼栋、门牌号详细地理要素，这种替换地址的标签设置为0；另一种为替换行政编码但其他地理要素不做更改，这种替换地址的标签设置为1；还有一种替换地理要素方式为不做任何处理，即标准地址与替换地址完全相同，这种替换地址的标签设置为1；

S122：从9种地址标签为0的替换地址中随机选择1个，并按照两种不同的规则随机删除0至3个替换地址中的地理要素，分别生成对应规则下的1个候选关键地址，记为a ₁₁,a ₁₂；其中，a ₁₁表示9种地址标签为0的替换地址中，在第一种规则下生成的候选关键地址；a ₁₂表示9种地址标签为0的替换地址中，在第二种规则下生成的候选关键地址；

从两种地址标签为1的替换地址中，随机选择1个，并按照两种规则随机删除0至3个替换地址中的地理要素，分别生成对应规则下的1个候选关键地址，记为b ₁₁,b ₁₂；其中，b ₁₁表示两种地址标签为1的替换地址中，在第一种规则下生成的候选关键地址；b ₁₂表示两种地址标签为1的替换地址中，在第二种规则下生成的候选关键地址；

其中，删除的地理要素，不包含已经被替换过的地理要素；

两种不同的规则具体为：

第一种：如果随机删除的0至3个地理要素，不包含小区、楼栋以及门牌号，则删除地理要素后的地址标签保持不变；

第二种：如果随机删除的0至3个地理要素，包含小区、楼栋以及门牌号，则删除地理要素后的地址标签标记为0；

S123：从a ₁₁,a ₁₂,b ₁₁,b ₁₂中随机选择1个标签为1的地址，作为关键地址，并与输入的标准地址一起，作为正样本；从a ₁₁,a ₁₂,b ₁₁,b ₁₂中随机选择1个标签为0的地址，作为关键地址，并与输入的标准地址一起，作为负样本；所述训练样本集由所述正样本和所述负样本组成。

进一步地，步骤S13中训练地址匹配模型的具体过程为：

S131：将训练样本集输入至地址匹配模型，由地址匹配模型作推断，得到训练样本的推断标签；

S132：判断推断标签与训练样本集已经构造的标签是否一致，确定损失值，使用梯度下降法修改模型参数，并减小损失值；

S133：通过多次循环训练地址匹配模型，获得推断标签与训练样本已经构造标签之间损失值最小的模型，即得到训练完成的地址匹配模型。

进一步地，步骤S21中，所述预测样本构造模块，用于将待匹配地址对中每一个标准地址分别与关键地址进行组合，生成预测样本对；所述预测样本对的格式为：[关键地址，标准地址1]，[关键地址，标准地址2]，...,[关键地址，标准地址n]。

进一步地，步骤S22具体为：

S221：将预测样本对中的关键地址和标准地址分割成字，得到关键地址字列表和标准地址字列表；

S222：将关键地址字列表与标准地址字列表分别输入至分词器，分别得到关键地址的字编码与位置编码、标准地址字编码与位置编码；

S223：将关键地址的字编码与位置编码、标准地址字编码与位置编码输入至bert模型，分别得到关键地址词向量和标准地址词向量；所述样本的词向量即为关键地址词向量和标准地址词向量。

步骤S23具体为：

S231：将关键地址词向量和标准地址词向量同时输入至Bi-LSTM神经网络，得到关键地址的隐层状态向量

与标准地址的隐层状态向量

；

S232：通过对齐操作，得到关键地址与标准地址的相似权重矩阵E；

S233：利用得到的相似权重矩阵E，对标准地址隐藏状态向量

加权求和，得到关键地址相似向量

；利用得到的相似权重矩阵E，对关键地址的隐层状态向量

加权求和，得到标准地址相似向量

；

S234：将关键地址的隐层状态向量

与相似向量

做减法与乘法，并做软对齐，得到关键地址信息增强向量M _k；将标准地址的隐层状态向量

与相似向量

做减法与乘法，并做软对齐，得到标准地址信息增强向量M _s；

S235：将关键地址信息增强向量M _k和标准地址信息增强向量M _s分别输入至第二个Bi-LSTM神经网络，分别得到关键地址匹配向量V _k和标准地址匹配向量V _s；

S236：将关键地址匹配向量V _k和标准地址匹配向量V _s，均分别通过最大池化和平均池化，得到关键地址最大池化向量V _k,max、关键地址平均池化向量V _k,avg、标准地址最大池化向量V _s,max、标准地址平均池化向量V _s,avg；并将四个池化向量进行拼接，得到地址匹配信息向量V=[V _k,max,V _k,avg,V _s,max,V _s,avg]；

S237：将地址匹配信息向量V输入到全连接层，并通过归一化指数函数SOFTMAX得到最终标准地址与关键地址的匹配值；所述全连接层包含两个全连接神经网络，两网络间的激活函数为tanh激活函数；

本发明提供的有益效果是：相较于传统的基于人工规则的地址匹配方法，精确度更高，泛化能力更好。相较于基于统计概率机器学习模型的地址匹配方法以及其他基于深度学习的地址匹配方法，能够根据标准地址库自动构建训练样本，减少人工成本；使用bert预训练模型以及自然语言推断模型，能够更深层的提取地址语义，提高地址匹配的精确度。

附图说明

图1是本发明基于自然语言推断的地址匹配方法的示意图；

图2是本发明训练样本集构造过程示意图；

图3是使用训练完成的地址匹配模型作推断的流程示意图；

图4是使用预训练模型示意图；

图5是地址推断模型使用示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地描述。

请参考图1，图1是本发明基于自然语言推断的地址匹配方法的示意图；

一种基于自然语言推断的地址匹配方法，包括以下：

训练所述地址匹配模型，具体为：

S11：获取标准地址库，得到标准地址集；

本发明中，所述标准地址集包含多个标准地址；标准地址由地理要素构成，包括：行政地理要素和详细地理要素；行政地理要素包括：省、市、区、街道、社区和行政编码；详细地理要素包括：小区、楼栋和门牌号；

作为一种实施例，标准地址如：广东省深圳市南山区南山街道荔湾社区前海路0199号恒立心海湾花园2栋C1204；标准地址中包括了省、市、区、街道、社区、行政编码、小区、楼栋和门牌号这些地理要素。

请参考图2，图2是训练样本集构造过程示意图；

步骤S12，生成训练样本集的具体过程为：

对应图2中，标准地址为：广东省深圳市南山区南山街道荔湾社区前海路0199号恒立心海湾花园2栋C1204；

替换省行政地理要素的替换地址1为：湖北省深圳市南山区南山街道荔湾社区前海路0199号恒立心海湾花园2栋C1204，标签为0；

替换市行政地理要素的替换地址2为：广东省广州市南山区南山街道荔湾社区前海路0199号恒立心海湾花园2栋C1204，标签为0；

依次对照图2，直至替换门牌号地理要素的替换地址8为：广东省深圳市南山区南山街道荔湾社区前海路0199号恒立心海湾花园5栋C2104，标签为0；

对应的，替换行政编码的地理要素有两种；

替换行政编码并删除小区楼栋、门牌号详细地理要素的替换地址9为：广东省深圳市南山区南山街道荔湾社区前海路2000号，标签为0；

替换行政编码但其他地理要素不做更改的替换地址10为：广东省深圳市南山区南山街道荔湾社区前海路2000号恒立心海湾花园2栋C1204，标签为1；

最后还包括没有作任何更改的替换地址：广东省深圳市南山区南山街道荔湾社区前海路0199号恒立心海湾花园2栋C1204，标签为1；

其中，删除的地理要素，不包含已经被替换过的地理要素；

两种不同的规则具体为：

请参照图2，本发明实施例中，从8个替换结果中随机选择1个替换地址，为替换地址6：广东省深圳市南山区南山街道荔湾社区前海路0199号中海阳光玫瑰园2栋C1204，标签为0；从2个替换结果中随机选择1个替换地址，为替换地址11（即通过不做任何更改生成的替换地址）：广东省深圳市南山区南山街道荔湾社区前海路0199号恒立心海湾花园2栋C1204，标签为1；

从替换地址6和替换地址11中，随机删除0~3个地理要素，得到a ₁₁,a ₁₂,b ₁₁,b ₁₂分别对应为：深圳市南山区荔湾社区中海阳光玫瑰园2栋C1204，标签为0、南山区南山街道荔湾社区恒立心海湾花园5栋C1204，标签为1、深圳市南山区荔湾社区前中海阳光玫瑰园C1204，标签为0、深圳市南山区荔湾社区恒立心海湾花园5栋1204，标签为0；

请参照图2，最终的训练样本即为：正样本，包括关键地址、标准地址和标签。关键地址：南山区南山街道荔湾社区恒立心海湾花园5栋C1204，标准地址：广东省深圳市南山区南山街道荔湾社区前海路0199号恒立心海湾花园2栋C1204，标签：1；负样本，包括关键地址、标准地址和标签。关键地址：深圳市南山区荔湾社区前中海阳光玫瑰园C1204，标准地址：广东省深圳市南山区南山街道荔湾社区前海路0199号恒立心海湾花园2栋C1204，标签：0。

使用以上所述方法，将多个标准地址生成的多个训练样本集合在一起，生成最终的训练样本集；

最终的训练样本即为：正样本，包括关键地址、标准地址和标签。关键地址：南山区南山街道荔湾社区恒立心海湾花园5栋C1204，标准地址：广东省深圳市南山区南山街道荔湾社区前海路0199号恒立心海湾花园2栋C1204，标签：1；负样本，包括关键地址、标准地址和标签。关键地址：深圳市南山区荔湾社区前中海阳光玫瑰园C1204，标准地址：广东省深圳市南山区南山街道荔湾社区前海路0199号恒立心海湾花园2栋C1204，标签：0。

步骤S13中训练地址匹配模型的具体过程为：

需要特别说明的是，S133中的使用地址匹配模型做推断，与后文“使用地址匹配模型做推断”中的模型推断过程一致，具体过程在后文部分说明。

两者的区别在于，一个是训练过程，一个是使用过程，只不过在训练过程，模型推断的结果会和训练样本标签比对，然后模型通过比对结果学习参数。而在使用（推断）过程，模型推断的结果直接当做结果输出。

请参考图3，图3是使用训练完成的地址匹配模型作推断的流程示意图；

参考图3，使用训练完成的地址匹配模型作推断，具体如下：

S21：输入待匹配地址对至预测样本构造模块，生成预测样本对；所述待匹配地址对的格式为：[关键地址,标准地址1,标准地址2,...标准地址n]；步骤S21中，所述预测样本构造模块，用于将待匹配地址对中每一个标准地址分别与关键地址进行组合，生成预测样本对；所述预测样本对的格式为：[关键地址，标准地址1]，[关键地址，标准地址2]，...,[关键地址，标准地址n]。

请参考图4，图4是使用预训练模型示意图；

步骤S22具体为：

举例说明如下：

关键地址：深圳市南山区荔湾社区恒立心海湾花园2栋C单元1204；

关键地址字列表：【深，圳，市，南，山，区，荔，湾，社，区，恒，立，心，海，湾，花，园，2，栋，C，单，元，1，2，0，4】

标准地址：广东省深圳市南山区南山街道荔湾社区前海路0199号恒立心海湾花园2栋C1204；

标准地址字列表：【广，东，省，深，圳，市，南，山，区，南，山，街，道，荔，湾，社，区，前，海，路，0，1，9，9，号，恒，立，心，海，湾，花，园，2，栋，C，1，2，0，4】；

举例说明如下：

关键地址字列表：【深，圳，市，南，山，区，荔，湾，社，区，恒，立，心，海，湾，花，园，2，栋，C，单，元，1，2，0，4】；

关键地址字编码：【3918, 1766, 2356, 1298, 2255, 1277, 5775, 3968, 4852,1277, 2608, 4989, 2552, 3862, 3968, 5709, 1736, 123, 3406, 145, 1296, 1039,122, 123, 121, 125】；

关键地址位置编码：【0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25】；

标准地址字编码：【2408, 691, 4689, 3918, 1766, 2356, 1298, 2255, 1277,1298, 2255, 6125, 6887, 5775, 3968, 4852, 1277, 1184, 3862, 6662, 121, 122,130, 130, 1384, 2608, 4989, 2552, 3862, 3968, 5709, 1736, 123, 3406, 145,122, 123, 121, 125】；

标准地址位置编码：【0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14,15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,34, 35, 36, 37, 38】；

本发明中的分词器为哈工大公开的Chinese-bert-wwm-ext Bert（BidirectionalEncoder Representation from Transformers，即双向Transformer的Encoder）预训练模型，分词方法为bert模型中的分词功能。

Bert模型能够同时综合字义与字序，将字转换为数字化的向量。Chinese-bert-wwm-ext Bert使用大规模中文语料进行训练，输出的数字化向量能够比较好的反映对应字的含义。

请参考图5，图5是地址推断模型使用示意图；

步骤S23具体为：

与标准地址的隐层状态向量

；

对齐操作即：

,

表示关键地址隐层状态向量中第i个字的向量，

表示标准地址隐层状态向量中第j个字的向量，i为从0到关键地址字数，j为1到标准地址字数。

S233：利用得到的相似权重矩阵E，对标准地址隐藏状态向量

加权求和，得到关键地址相似向量

；利用得到的相似权重矩阵E，对关键地址的隐层状态向量

加权求和，得到标准地址相似向量

；两个相似向量的计算公式如下：

其中l _s代表标准地址的字数，l _K代表关键地址的字数，e _ij代表相似权重矩阵E中第i行第j列的数值。e _im,e _mj同理可得。

S234：将关键地址的隐层状态向量

与相似向量

做减法与乘法，并做软对齐，得到标准地址信息增强向量M _s；具体如下式：

平均池化与最大池化公式如下所示，其中V _k,i表示关键地址匹配向量V _k中的第i个向量。

S237：将地址匹配信息向量V输入到全连接层，并通过归一化指数函数SOFTMAX得到最终标准地址与关键地址的匹配值；所述全连接层包含两个全连接神经网络，两网络间的激活函数为tanh激活函数；SOFTMAX函数输出的匹配值在0到1之间；

S25：若输出结果的匹配值大于预设的阈值，则显示匹配成功，并输出匹配值；否则显示匹配失败，输出空值。其中预设的阈值范围为0~1，可调，默认为0.5。

本发明的有益效果是：相较于传统的基于人工规则的地址匹配方法，精确度更高，泛化能力更好。相较于基于统计概率机器学习模型的地址匹配方法以及其他基于深度学习的地址匹配方法，能够根据标准地址库自动构建训练样本，减少人工成本；使用bert预训练模型以及自然语言推断模型，能够更深层的提取地址语义，提高地址匹配的精确度。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。