CN115455315B

CN115455315B - 一种基于对比学习的地址匹配模型训练方法

Info

Publication number: CN115455315B
Application number: CN202211408063.1A
Authority: CN
Inventors: 杨伊态; 刘高; 陈胜鹏; 付卓; 许继伟; 韩小乐
Original assignee: Geospace Information Technology Co ltd
Current assignee: Geospace Information Technology Co ltd
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2023-04-07
Anticipated expiration: 2042-11-10
Also published as: CN115455315A

Abstract

本发明适用于地址匹配技术领域，提供一种基于对比学习的地址匹配模型训练方法，包括：步骤A1、建立训练样本集；步骤A2、遍历训练样本，将待匹配地址对用BERT模型处理，得到两个待匹配地址向量和两个统一地址向量；步骤A3、生成四组向量组，针对每个向量组，输入至ESIM模型得到当前向量组的相似度；步骤A4、计算总损失分数；步骤A5、使用梯度下降法修改模型参数，减少总损失分数；步骤A6、对训练样本多轮遍历；步骤A7、选择匹配正确率最高的参数版本作为最终训练好的地址匹配模型。本发明在训练模型时加入对比学习，能够拉近编码器对同类数据的编码距离，且增加不同类数据的编码距离，从而提高了模型地址匹配的准确率。

Description

一种基于对比学习的地址匹配模型训练方法

技术领域

本发明属于地址匹配技术领域，尤其涉及一种基于对比学习的地址匹配模型训练方法。

背景技术

地址是城市治理系统的关键要素之一。在城市管理系统中，存储的文本统一地址要素齐全，结构规律有序，而实际业务中收集的待匹配文本地址通常地址要素不完整且结构多样化。地址匹配，就是输入待匹配文本地址，从存储的统一地址库中匹配出对应的文本统一地址。

如虚拟非标准地址“阳光市沙滩区美丽庄园A201”，地址库中其对应的虚拟标准地址为“白露省阳光市沙滩区长江街道汉江社区希望街1号美丽庄园A栋201”。

已有的地址匹配方法主要分为两类。

第一类是单地址对匹配的方法。单地址对匹配的方法主要解决一对一，即一个待匹配地址与一个统一地址是否匹配的问题。这类方法通过设计机器学习算法或神经网络模型，判断输入的地址对是否匹配。如基于文本向量相似度的地址匹配方法、基于深度学习的地址匹配方法等。但是如果系统地址库中有100万条统一地址，基于单地址对匹配的方法，需要将待匹配地址与每一条存储的统一地址匹配，即需要匹配100万次，在可接受的响应时间内难以满足实际业务。因此基于单地址对匹配的方法难以解决一对多，即一个待匹配地址与多个统一地址匹配的问题。

第二类是多地址对匹配方法。这类方法主要解决一对多，即一个待匹配地址与多个统一地址匹配的问题。已有的方法有两种，第一种是通过设计的简单规则或算法，待匹配地址直接与所有统一地址比较，然后选出匹配分数最高的统一地址作为匹配结果，如基于编辑距离的地址匹配方法。这类方法响应快，但匹配准确率较低。第二种是先使用相对简单的规则或算法从地址库中召回少部分相似度较高的统一地址，然后使用相对复杂的算法或模型对待匹配地址和召回的统一地址一一匹配，最后选出匹配分数最高的统一地址。这种方法在满足响应时间的同时，准确率也较高，但需要先使用样本集训练模型。而在实际业务中，构建训练样本集的人工开销大，且很难获取足够的训练样本。

为此，申请号202211076531.X公开了一种基于召回-排序的地址匹配方法，通过使用召回-排序的方式，先从地址库中使用ES模糊搜索召回K个可能匹配的统一地址，再使用匹配模型对K个统一地址计算与待匹配地址的相似度，输出相似度最高的统一地址作为匹配结果，能够在保证匹配准确率较高的基础上，提高了匹配效率。但是该申请在模型的训练阶段，直接是通过计算统一地址与待匹配地址的相似度进行排序，输出相似度最高的统一地址。但这种计算方式没有充分挖掘语义特征，对于差异较为模糊的文本区分困难，因此匹配准确率仍有待提高。

发明内容

鉴于上述问题，本发明的目的在于提供一种基于对比学习的地址匹配模型训练方法，旨在解决现有样本训练的地址匹配模型训练匹配准确率仍有待提高的技术问题。

本发明采用如下技术方案：

所述基于对比学习的地址匹配模型训练方法，包括下述步骤：

步骤A1、建立训练样本集，样本格式为[待匹配地址，统一地址，标记],按比例将训练样本集分为训练样本和验证样本；

步骤A2、遍历训练样本，其中待匹配地址和统一地址组成待匹配地址对，将待匹配地址对用BERT模型处理，得到两个待匹配地址向量和两个统一地址向量；

步骤A3、将待匹配地址向量和统一地址向量进行一一组合，得到四组向量组，针对每个向量组，输入至ESIM模型得到当前向量组的相似度；

步骤A4、根据得到的四个相似度以及训练样本的标记数值，计算得到四个交叉熵损失值，然后计算两个待匹配地址向量的KL散度损失值以及两个统一地址向量的KL散度损失值，最后计算总损失分数；

步骤A5、使用梯度下降法修改模型参数，减少总损失分数；

步骤A6、对训练样本多轮遍历，每完成一次遍历，使用验证样本验证地址匹配模型的匹配正确率，对于每条验证样本，如果总损失分数大于设置阈值，则输出的匹配结果为1，否则输出的匹配结果为0；如果输出的匹配结果与标记数值一致，则表示匹配正确，否则为匹配错误；

步骤A7、选择匹配正确率最高的参数版本作为最终训练好的地址匹配模型。

进一步的，所述步骤A2的具体过程如下：

A21、对于每一个待匹配地址对，将其中的待匹配地址以及统一地址均分割成字，得到待匹配地址字列表和统一地址字列表；

A22、使用BERT模型的分词器，将待匹配地址字列表和统一地址字列表分别转换为待匹配地址字编码和统一地址字编码；

A23、将待匹配地址字编码和统一地址字编码均分两次输入BERT模型，BERT模型每次随机去掉部分神经单元，最后得到两个待匹配地址向量和两个统一地址向量。

进一步的，所述步骤A3中，两个待匹配地址向量以及两个统一地址向量中均任选其一进行组合，得到四组向量组。

进一步的，步骤A4中，总损失分数计算式如下：

其中，loss1~loss4是四个交叉熵损失值，

是权重,

是两个待匹配地址向量的KL散度损失值，

是两个统一地址向量的KL散度损失值。

进一步的，步骤A6中，总损失分数的设置阈值为0.5。

本发明的有益效果是：本发明在模型训练过程中，通过将待匹配地址对中的待匹配地址以及统一地址分别两次输入至BERT模型，得到两个待匹配地址向量和两个统一地址向量，任一待匹配地址向量和统一地址向量组成一组向量组，在计算总损失分数时，计算四组向量的交叉熵损失值的均值，得到匹配地址对之间相似度差异。而对于两个待匹配地址向量，是同类数据，计算KL散度损失值，同理也计算两个统一地址向量的KL散度损失值，以拉近同类数据的编码距离，最后计算得到的总损失分数，匹配和不匹配的待匹配地址对最后计算的总损失分数结果差异更明显；本发明训练模型阶段加入对比学习，相较于已有的基于召回-排序的地址匹配方法，明显提高了对文本间模糊特征的识别能力，从而提高了模型地址匹配的准确率。

附图说明

图1是本发明实施例提供的基于对比学习的地址匹配模型训练方法流程图；

图2是本发明实施例提供的BERT模型处理示意图；

图3是本发明实施例提供的计算总损失分数示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

如图1所示，本实施例提供的基于对比学习的地址匹配模型训练方法，包括下述步骤：

步骤A1、建立训练样本集，样本格式为[待匹配地址，统一地址，标记],按比例将训练样本集分为训练样本和验证样本。

本步骤主要实现构造训练样本集，通过收集历史样本数据，生成包含正样本和负样本的训练样本集。具体过程如下：

A11、首先输入历史样本数据集。历史样本中每一条数据的格式为[待匹配地址，统一地址]。其中待匹配地址是业务收集到的地址，统一地址是其在地址库中对应的统一地址。

A12、然后根据历史样本数据集中的每条历史样本，模糊查询ES统一地址库，得到匹配数值最高的前K个统一地址。ES是指Elasticsearch搜索引擎数据库。ES在城市治理大数据领域中的应用非常普遍，是大数据平台对外提供查询的重要组成部分之一。使用历史样本的待匹配地址在ES统一地址库中做模糊查询。通过模糊查询，模糊查询的方式设置为fuzzy。如果查询结果为空，则返回空值。如果查询结果少于K个，则返回所有查询结果；如果查询结果多于K个，则返回查询结果的前K个，即返回相似度最高的K个统一地址。

当然如果ES中没有地址库，则需要先将地址库批量同步到ES中。

A13、基于ES模糊查询返回的结果，构建训练样本数据。

本实施例需要构造训练样本集，其样本格式为[待匹配地址，统一地址，标记],其中待匹配地址和统一地址均为历史样本中待匹配地址和统一地址，标记的值有{0,1}两种，其中0表示不匹配，1表示匹配。

如果查询结果为空值，则只生成正样本，正样本的格式为[待匹配地址，统一地址,1]。其中的待匹配地址为历史样本中的待匹配地址，统一地址也是历史样本中的统一地址。

如果查询结果不为空值，则返回相似度最高的前K个统一地址并与历史样本中的统一地址分别比对，判断是否完全一致。

最后将这K个统一地址与历史样本中的统一地址分别比对，比对是否完全一致。若不存在完全一致的统一地址，则同样只生成正样本。如果返回结果中的统一地址与历史样本均不一致，说明没查询正确的统一地址，还是只生成正样本。若存在完全一致的统一地址，则生成一条正样本，同时对于每条不一致的统一地址，对应生成一条负样本，负样本的格式为[待匹配地址，统一地址,0]，共计生成一条正样本和K-1条负样本。

也就是说，每条历史样本都会生成一条正样本的训练样本。而根据查询结果，对于每一条与历史样本中的统一地址不一致的返回结果std_addr_x，都会生成一条负样本的训练样本，负样本的结构为：[待匹配地址，统一地址, 0]，其中的待匹配地址为历史样本中的待匹配地址，统一地址为返回结果std_addr_x。共计生成一条正样本和K-1条负样本。

A14、收集所有由历史样本生成的正样本和负样本，作为训练样本集。将训练样本集按比例分为训练样本和验证样本。比如通过9:1或其他比例划分，训练样本和验证样本本质是相同的，只是用途不同。

步骤A2、遍历训练样本，其中待匹配地址和统一地址组成待匹配地址对，将待匹配地址对用BERT模型处理，得到两个待匹配地址向量和两个统一地址向量。

本步骤对待匹配地址使用BERT模型生成待匹配地址向量，共有两个，假设分别为待匹配地址向量一key_encoder1，待匹配地址向量二key_encoder2。对统一地址做同样的操作，得到两个统一地址向量，假设分别为统一地址向量一std_encoder1，统一地址向量二std_encoder2。BERT模型能够同时综合字义与字序，将字转换为数字化的向量。Chinese-BERT-wwm-extBERT使用大规模中文语料进行训练，输出的数字化向量能够比较好的反映对应字的含义。

结合图2所示，本步骤具体过程如下：

A21、对于每一个待匹配地址对，将其中的待匹配地址以及统一地址均分割成字，得到待匹配地址字列表和统一地址字列表。

对于每一个待匹配地址对，将其中的待匹配地址分割成字，得到待匹配地址字列表。同理得到统一地址字列表。

比如：

待匹配地址“阳光市沙滩区美丽庄园A201”

待匹配地址字列表：[阳,光,市,沙,滩,区,美,丽,庄,园,A,2,0,1]；

统一地址“白露省阳光市沙滩区长江街道汉江社区希望街1号美丽庄园A栋301”；

统一地址字列表：[白,露,省,阳,光,市,沙,滩,区,长,江,街,道,汉,江,社,区,希,望,街,1,号,美,丽,庄,园A,栋,3,0,1]。

A22、使用BERT模型的分词器，将待匹配地址字列表和统一地址字列表分别转换为待匹配地址字编码和统一地址字编码。

本步骤BERT模型为Chinese-BERT-wwm-extBERT（Bidirectional EncoderRepresentation from Transformers）预训练模型。

比如：

待匹配地址字列表:[阳,光,市,沙,滩,区,美,丽,庄,园,A,2,0,1]；

转换为待匹配地址字编码为：[101, 7345, 1045, 2356, 3763, 4013, 1277,5401, 714, 2411, 1736, 143, 123, 121, 122, 102],其中101是特殊字符[‘CLS’]的编码，102是特殊字符[‘SEP’]的编码。对于每一个子列表的地址向量，都会以编码“101”开头，编码“102”结尾。

统一地址字列表：[白,露,省,阳,光,市,沙,滩,区,长,江,街,道,汉,江,社,区,希,望,街,1,号,美,丽,庄,园A,栋,3,0,1]

统一地址字编码为：[101, 4635, 7463, 4689, 7345, 1045, 2356, 3763,4013, 1277, 7270, 3736, 6125, 6887, 3727, 3736, 4852, 1277, 2361, 3307, 6125,122, 1384, 5401, 714, 2411, 1736, 143, 3406, 124, 121, 122, 102]。

将待匹配地址字编码第一次输入BERT模型，得到待匹配地址向量一key_encoder1，图示中记为K1，然后输入同一待匹配地址字编码到BERT模型，得到待匹配地址向量二key_encoder2，图示中记为K2。同理，可以得到统一地址向量一std_encoder1，统一地址向量二std_encoder2。

由于Bert模型中有4个dropout层，dropout层会根据预设的值，比如设定随机失活比例，每次随机拿掉部分神经单元。因此即使两次输入同一地址字编码，Bert模型两次生成的地址向量也会不同。本实施例设定随机失活比例为0.1，即每次随机失活10%的神经单元。

步骤A3、将待匹配地址向量和统一地址向量进行一一组合，得到四组向量组，针对每个向量组，输入至ESIM模型得到当前向量组的相似度。

结合图3所示，两个待匹配地址向量以及两个统一地址向量中均任选其一进行组合，得到四组向量组。将四个向量组成四个组合，分别是[key_encoder1，std_encoder1]，[key_encoder1，std_encoder2]，[key_encoder2，std_encoder1]，[key_encoder2，std_encoder2]。图示中，两个待匹配地址向量分别为K1、K2，两个统一地址向量分别为S1、S2。

对于相似度计算，以向量组[key_encoder1，std_encoder1]为例。

A31、将待匹配地址向量key_encode1与统一地址向量std_encoder1同时输入到第一Bi-LSTM（双向长短期记忆神经网络）模型中，得到待匹配地址的隐层状态向量

与统一地址的隐层状态向量

。

A32、通过对齐操作，得到待匹配地址与统一地址的相似权重矩阵E。

A33、利用得到的相似权重矩阵E，对统一地址隐层状态向量

加权求和，得到待匹配地址相似向量

，以及对待匹配地址隐层状态向量

加权求和，得到待匹配地址相似向量

。

A34、计算待匹配地址信息增强向量

以及统一地址信息增强向量

；这里

表示哈达玛积。

A35、将

和

均输入至第二Bi-LSTM（双向长短期记忆神经网络）模型，得到待匹配地址匹配向量

以及统一地址匹配向量

。

A36、将

分别通过最大池化和平均池化相应得到待匹配地址最大池化向量

和待匹配地址平均池化向量

；将

分别通过最大池化和平均池化相应得到统一地址最大池化向量

和统一地址平均池化向量

；将得到的四个池化向量拼接，得到地址匹配信息向量

。

A37、将地址匹配信息向量V输入到全连接层，并通过归一化指数函数得到匹配值，即待匹配地址对的相似度res1。同理可以计算到另三组向量组的相似度res2、res3、res4。

步骤A4、根据得到的四个相似度以及训练样本的标记数值，计算得到四个交叉熵损失值，然后计算两个待匹配地址向量的KL散度损失值以及两个统一地址向量的KL散度损失值，最后计算总损失分数。

比如对于相似度res1,计算交叉熵损失值loss1。

如果输出的相似度res1 = [0.8, 0.2]，标记数值为1，即匹配,则其one-hot形式为[0,1]，交叉熵损失值为loss1 =-log0.2,约为0.699。如果标记为0，即不匹配，则其one-hot形式为[1,0]则其交叉熵损失值为loss=-log0.8，约为0.097。同理对res2、res3、res4分别计算交叉熵损失值为loss2、loss3、loss4。

对于待匹配地址向量key_encoder1、key_encoder2，计算KL散度损失值

。KL散度损失值能够衡量两个概率分布之间的相似性，KL散度损失值公式如下：

其中

是key_encoder1的概率分布，

是key_encoder2的概率分布。公式中前一项是KL(K1||K2)散度，后一项是KL(K2||K1)散度，（KL(K1||K2)与KL(K2||K1)的值不一样。本步骤中计算KL散度使用的是pytorch框架提供的KL散度损失函数函数F.kl_div。同理可计算得到统一地址向量std_encoder1、std_encoder2的KL散度损失值

。

计算总损失分数：

其中，loss1~loss4是四个交叉熵损失值，

是权重，本实施例为1,

是两个待匹配地址向量的KL散度损失值，

是两个统一地址向量的KL散度损失值。

步骤A5、使用梯度下降法修改模型参数，减少总损失分数。

梯度下降法是一个一阶最优化算法，使用梯度下降法找到一个函数的局部极小值，必须向函数上当前点对应梯度（或者是近似梯度）的反方向的规定步长距离点进行迭代搜索。梯度下降法为现有方法，这里不赘述。

步骤A6、对训练样本多轮遍历，每完成一次遍历，使用验证样本验证地址匹配模型的匹配正确率，对于每条验证样本，如果总损失分数大于设置阈值，则输出的匹配结果为1，否则输出的匹配结果为0；如果输出的匹配结果与标记数值一致，则表示匹配正确，否则为匹配错误。

在训练地址匹配模型时，需要多轮遍历训练样本，对于遍历后模型输出的训练样本匹配结果，通过计算损失值和梯度下降法修改模型参数，降低损失值。然后参数修改后地址匹配模型处理每条验证样本，根据输出的总损失分数与设置阈值比较，确定最终输出匹配结果是1或0，相应表示匹配正确或错误。进而可以得出每个参数版本的地址匹配模型的匹配正确率。本实施例中，匹配的设置阈值为0.5。

最后选择最高匹配正确率的参数版本，作为最终地址匹配模型的参数，得到训练好的地址匹配模型。

至此通过上述步骤即完成了地址匹配模型训练。

在应用地址匹配模型时，对于输入待匹配地址Key_Addr，首先使用ES的模糊查询召回相似度最高的前K个统一地址，然后将查询结果与待匹配地址转换为多个待匹配地址对，作为召回结果；将K个待匹配地址对输入至地址匹配模型，得到K个总损失分数，最后对于K个待匹配地址对按总损失分数从大到小排序，选择总损失分数最大的待匹配地址对作为最终匹配结果。如果最终匹配结果的总损失分数小于或等于0.5，则输出最终匹配结果的统一地址，并显示匹配失败。如果最终匹配结果总损失分数大于0.5，则输出最终匹配结果的统一地址，并显示匹配成功。

综上，本发明提出一种基于对比学习的地址匹配模型训练方法，在训练模型时加入对比学习，相较于已有的地址匹配方法，能够拉近编码器对同类数据的编码距离，且增加不同类数据的编码距离，从而提高了模型地址匹配的准确率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于对比学习的地址匹配模型训练方法，其特征在于，所述方法包括下述步骤：

步骤A1、建立训练样本集，样本格式为[待匹配地址，统一地址，标记],按比例将训练样本集分为训练样本和验证样本，标记的值有{0,1}两种，其中0表示不匹配，1表示匹配；

步骤A3、将待匹配地址向量和统一地址向量进行一一组合，得到四组向量组，针对每个向量组，输入至ESIM模型得到当前向量组的相似度，其中所述一一组合具体为：从两个待匹配地址向量以及两个统一地址向量中均任选其一进行组合，得到四组向量组；

步骤A5、使用梯度下降法修改模型参数，减少总损失分数；

步骤A7、选择匹配正确率最高的参数版本作为最终训练好的地址匹配模型；

其中，所述步骤A2的具体过程如下：

2.如权利要求1所述基于对比学习的地址匹配模型训练方法，其特征在于，所述步骤A3中，两个待匹配地址向量以及两个统一地址向量中均任选其一进行组合，得到四组向量组。

3.如权利要求2所述基于对比学习的地址匹配模型训练方法，其特征在于，步骤A4中，总损失分数计算式如下：

其中，loss1~loss4是四个交叉熵损失值，

是权重,

是两个待匹配地址向量的KL散度损失值，

是两个统一地址向量的KL散度损失值。

4.如权利要求3所述基于对比学习的地址匹配模型训练方法，其特征在于，步骤A6中，总损失分数的设置阈值为0.5。