CN115455315B - 一种基于对比学习的地址匹配模型训练方法 - Google Patents

一种基于对比学习的地址匹配模型训练方法 Download PDF

Info

Publication number
CN115455315B
CN115455315B CN202211408063.1A CN202211408063A CN115455315B CN 115455315 B CN115455315 B CN 115455315B CN 202211408063 A CN202211408063 A CN 202211408063A CN 115455315 B CN115455315 B CN 115455315B
Authority
CN
China
Prior art keywords
address
matched
matching
model
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211408063.1A
Other languages
English (en)
Other versions
CN115455315A (zh
Inventor
杨伊态
刘高
陈胜鹏
付卓
许继伟
韩小乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Geospace Information Technology Co ltd
Original Assignee
Geospace Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Geospace Information Technology Co ltd filed Critical Geospace Information Technology Co ltd
Priority to CN202211408063.1A priority Critical patent/CN115455315B/zh
Publication of CN115455315A publication Critical patent/CN115455315A/zh
Application granted granted Critical
Publication of CN115455315B publication Critical patent/CN115455315B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于地址匹配技术领域,提供一种基于对比学习的地址匹配模型训练方法,包括:步骤A1、建立训练样本集;步骤A2、遍历训练样本,将待匹配地址对用BERT模型处理,得到两个待匹配地址向量和两个统一地址向量;步骤A3、生成四组向量组,针对每个向量组,输入至ESIM模型得到当前向量组的相似度;步骤A4、计算总损失分数;步骤A5、使用梯度下降法修改模型参数,减少总损失分数;步骤A6、对训练样本多轮遍历;步骤A7、选择匹配正确率最高的参数版本作为最终训练好的地址匹配模型。本发明在训练模型时加入对比学习,能够拉近编码器对同类数据的编码距离,且增加不同类数据的编码距离,从而提高了模型地址匹配的准确率。

Description

一种基于对比学习的地址匹配模型训练方法
技术领域
本发明属于地址匹配技术领域,尤其涉及一种基于对比学习的地址匹配模型训练方法。
背景技术
地址是城市治理系统的关键要素之一。在城市管理系统中,存储的文本统一地址要素齐全,结构规律有序,而实际业务中收集的待匹配文本地址通常地址要素不完整且结构多样化。地址匹配,就是输入待匹配文本地址,从存储的统一地址库中匹配出对应的文本统一地址。
如虚拟非标准地址“阳光市沙滩区美丽庄园A201”,地址库中其对应的虚拟标准地址为“白露省阳光市沙滩区长江街道汉江社区希望街1号美丽庄园A栋201”。
已有的地址匹配方法主要分为两类。
第一类是单地址对匹配的方法。单地址对匹配的方法主要解决一对一,即一个待匹配地址与一个统一地址是否匹配的问题。这类方法通过设计机器学习算法或神经网络模型,判断输入的地址对是否匹配。如基于文本向量相似度的地址匹配方法、基于深度学习的地址匹配方法等。但是如果系统地址库中有100万条统一地址,基于单地址对匹配的方法,需要将待匹配地址与每一条存储的统一地址匹配,即需要匹配100万次,在可接受的响应时间内难以满足实际业务。因此基于单地址对匹配的方法难以解决一对多,即一个待匹配地址与多个统一地址匹配的问题。
第二类是多地址对匹配方法。这类方法主要解决一对多,即一个待匹配地址与多个统一地址匹配的问题。已有的方法有两种,第一种是通过设计的简单规则或算法,待匹配地址直接与所有统一地址比较,然后选出匹配分数最高的统一地址作为匹配结果,如基于编辑距离的地址匹配方法。这类方法响应快,但匹配准确率较低。第二种是先使用相对简单的规则或算法从地址库中召回少部分相似度较高的统一地址,然后使用相对复杂的算法或模型对待匹配地址和召回的统一地址一一匹配,最后选出匹配分数最高的统一地址。这种方法在满足响应时间的同时,准确率也较高,但需要先使用样本集训练模型。而在实际业务中,构建训练样本集的人工开销大,且很难获取足够的训练样本。
为此,申请号202211076531.X公开了一种基于召回-排序的地址匹配方法,通过使用召回-排序的方式,先从地址库中使用ES模糊搜索召回K个可能匹配的统一地址,再使用匹配模型对K个统一地址计算与待匹配地址的相似度,输出相似度最高的统一地址作为匹配结果,能够在保证匹配准确率较高的基础上,提高了匹配效率。但是该申请在模型的训练阶段,直接是通过计算统一地址与待匹配地址的相似度进行排序,输出相似度最高的统一地址。但这种计算方式没有充分挖掘语义特征,对于差异较为模糊的文本区分困难,因此匹配准确率仍有待提高。
发明内容
鉴于上述问题,本发明的目的在于提供一种基于对比学习的地址匹配模型训练方法,旨在解决现有样本训练的地址匹配模型训练匹配准确率仍有待提高的技术问题。
本发明采用如下技术方案:
所述基于对比学习的地址匹配模型训练方法,包括下述步骤:
步骤A1、建立训练样本集,样本格式为[待匹配地址,统一地址,标记],按比例将训练样本集分为训练样本和验证样本;
步骤A2、遍历训练样本,其中待匹配地址和统一地址组成待匹配地址对,将待匹配地址对用BERT模型处理,得到两个待匹配地址向量和两个统一地址向量;
步骤A3、将待匹配地址向量和统一地址向量进行一一组合,得到四组向量组,针对每个向量组,输入至ESIM模型得到当前向量组的相似度;
步骤A4、根据得到的四个相似度以及训练样本的标记数值,计算得到四个交叉熵损失值,然后计算两个待匹配地址向量的KL散度损失值以及两个统一地址向量的KL散度损失值,最后计算总损失分数;
步骤A5、使用梯度下降法修改模型参数,减少总损失分数;
步骤A6、对训练样本多轮遍历,每完成一次遍历,使用验证样本验证地址匹配模型的匹配正确率,对于每条验证样本,如果总损失分数大于设置阈值,则输出的匹配结果为1,否则输出的匹配结果为0;如果输出的匹配结果与标记数值一致,则表示匹配正确,否则为匹配错误;
步骤A7、选择匹配正确率最高的参数版本作为最终训练好的地址匹配模型。
进一步的,所述步骤A2的具体过程如下:
A21、对于每一个待匹配地址对,将其中的待匹配地址以及统一地址均分割成字,得到待匹配地址字列表和统一地址字列表;
A22、使用BERT模型的分词器,将待匹配地址字列表和统一地址字列表分别转换为待匹配地址字编码和统一地址字编码;
A23、将待匹配地址字编码和统一地址字编码均分两次输入BERT模型,BERT模型每次随机去掉部分神经单元,最后得到两个待匹配地址向量和两个统一地址向量。
进一步的,所述步骤A3中,两个待匹配地址向量以及两个统一地址向量中均任选其一进行组合,得到四组向量组。
进一步的,步骤A4中,总损失分数计算式如下:
Figure 316826DEST_PATH_IMAGE001
其中,loss1~loss4是四个交叉熵损失值,
Figure 51564DEST_PATH_IMAGE002
是权重,
Figure 866592DEST_PATH_IMAGE003
是两个待匹配地址向量的KL散度损失值,
Figure 977767DEST_PATH_IMAGE004
是两个统一地址向量的KL散度损失值。
进一步的,步骤A6中,总损失分数的设置阈值为0.5。
本发明的有益效果是:本发明在模型训练过程中,通过将待匹配地址对中的待匹配地址以及统一地址分别两次输入至BERT模型,得到两个待匹配地址向量和两个统一地址向量,任一待匹配地址向量和统一地址向量组成一组向量组,在计算总损失分数时,计算四组向量的交叉熵损失值的均值,得到匹配地址对之间相似度差异。而对于两个待匹配地址向量,是同类数据,计算KL散度损失值,同理也计算两个统一地址向量的KL散度损失值,以拉近同类数据的编码距离,最后计算得到的总损失分数,匹配和不匹配的待匹配地址对最后计算的总损失分数结果差异更明显;本发明训练模型阶段加入对比学习,相较于已有的基于召回-排序的地址匹配方法,明显提高了对文本间模糊特征的识别能力,从而提高了模型地址匹配的准确率。
附图说明
图1是本发明实施例提供的基于对比学习的地址匹配模型训练方法流程图;
图2是本发明实施例提供的BERT模型处理示意图;
图3是本发明实施例提供的计算总损失分数示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
如图1所示,本实施例提供的基于对比学习的地址匹配模型训练方法,包括下述步骤:
步骤A1、建立训练样本集,样本格式为[待匹配地址,统一地址,标记],按比例将训练样本集分为训练样本和验证样本。
本步骤主要实现构造训练样本集,通过收集历史样本数据,生成包含正样本和负样本的训练样本集。具体过程如下:
A11、首先输入历史样本数据集。历史样本中每一条数据的格式为[待匹配地址,统一地址]。其中待匹配地址是业务收集到的地址,统一地址是其在地址库中对应的统一地址。
A12、然后根据历史样本数据集中的每条历史样本,模糊查询ES统一地址库,得到匹配数值最高的前K个统一地址。ES是指Elasticsearch搜索引擎数据库。ES在城市治理大数据领域中的应用非常普遍,是大数据平台对外提供查询的重要组成部分之一。使用历史样本的待匹配地址在ES统一地址库中做模糊查询。通过模糊查询,模糊查询的方式设置为fuzzy。如果查询结果为空,则返回空值。如果查询结果少于K个,则返回所有查询结果;如果查询结果多于K个,则返回查询结果的前K个,即返回相似度最高的K个统一地址。
当然如果ES中没有地址库,则需要先将地址库批量同步到ES中。
A13、基于ES模糊查询返回的结果,构建训练样本数据。
本实施例需要构造训练样本集,其样本格式为[待匹配地址,统一地址,标记],其中待匹配地址和统一地址均为历史样本中待匹配地址和统一地址,标记的值有{0,1}两种,其中0表示不匹配,1表示匹配。
如果查询结果为空值,则只生成正样本,正样本的格式为[待匹配地址,统一地址,1]。其中的待匹配地址为历史样本中的待匹配地址,统一地址也是历史样本中的统一地址。
如果查询结果不为空值,则返回相似度最高的前K个统一地址并与历史样本中的统一地址分别比对,判断是否完全一致。
最后将这K个统一地址与历史样本中的统一地址分别比对,比对是否完全一致。若不存在完全一致的统一地址,则同样只生成正样本。如果返回结果中的统一地址与历史样本均不一致,说明没查询正确的统一地址,还是只生成正样本。若存在完全一致的统一地址,则生成一条正样本,同时对于每条不一致的统一地址,对应生成一条负样本,负样本的格式为[待匹配地址,统一地址,0],共计生成一条正样本和K-1条负样本。
也就是说,每条历史样本都会生成一条正样本的训练样本。而根据查询结果,对于每一条与历史样本中的统一地址不一致的返回结果std_addr_x,都会生成一条负样本的训练样本,负样本的结构为:[待匹配地址,统一地址, 0],其中的待匹配地址为历史样本中的待匹配地址,统一地址为返回结果std_addr_x。共计生成一条正样本和K-1条负样本。
A14、收集所有由历史样本生成的正样本和负样本,作为训练样本集。将训练样本集按比例分为训练样本和验证样本。比如通过9:1或其他比例划分,训练样本和验证样本本质是相同的,只是用途不同。
步骤A2、遍历训练样本,其中待匹配地址和统一地址组成待匹配地址对,将待匹配地址对用BERT模型处理,得到两个待匹配地址向量和两个统一地址向量。
本步骤对待匹配地址使用BERT模型生成待匹配地址向量,共有两个,假设分别为待匹配地址向量一key_encoder1,待匹配地址向量二key_encoder2。对统一地址做同样的操作,得到两个统一地址向量,假设分别为统一地址向量一std_encoder1,统一地址向量二std_encoder2。BERT模型能够同时综合字义与字序,将字转换为数字化的向量。Chinese-BERT-wwm-extBERT使用大规模中文语料进行训练,输出的数字化向量能够比较好的反映对应字的含义。
结合图2所示,本步骤具体过程如下:
A21、对于每一个待匹配地址对,将其中的待匹配地址以及统一地址均分割成字,得到待匹配地址字列表和统一地址字列表。
对于每一个待匹配地址对,将其中的待匹配地址分割成字,得到待匹配地址字列表。同理得到统一地址字列表。
比如:
待匹配地址“阳光市沙滩区美丽庄园A201”
待匹配地址字列表:[阳,光,市,沙,滩,区,美,丽,庄,园,A,2,0,1];
统一地址“白露省阳光市沙滩区长江街道汉江社区希望街1号美丽庄园A栋301”;
统一地址字列表:[白,露,省,阳,光,市,沙,滩,区,长,江,街,道,汉,江,社,区,希,望,街,1,号,美,丽,庄,园A,栋,3,0,1]。
A22、使用BERT模型的分词器,将待匹配地址字列表和统一地址字列表分别转换为待匹配地址字编码和统一地址字编码。
本步骤BERT模型为Chinese-BERT-wwm-extBERT(Bidirectional EncoderRepresentation from Transformers)预训练模型。
比如:
待匹配地址字列表:[阳,光,市,沙,滩,区,美,丽,庄,园,A,2,0,1];
转换为待匹配地址字编码为:[101, 7345, 1045, 2356, 3763, 4013, 1277,5401, 714, 2411, 1736, 143, 123, 121, 122, 102],其中101是特殊字符[‘CLS’]的编码,102是特殊字符[‘SEP’]的编码。对于每一个子列表的地址向量,都会以编码“101”开头,编码“102”结尾。
统一地址字列表:[白,露,省,阳,光,市,沙,滩,区,长,江,街,道,汉,江,社,区,希,望,街,1,号,美,丽,庄,园A,栋,3,0,1]
统一地址字编码为:[101, 4635, 7463, 4689, 7345, 1045, 2356, 3763,4013, 1277, 7270, 3736, 6125, 6887, 3727, 3736, 4852, 1277, 2361, 3307, 6125,122, 1384, 5401, 714, 2411, 1736, 143, 3406, 124, 121, 122, 102]。
A23、将待匹配地址字编码和统一地址字编码均分两次输入BERT模型,BERT模型每次随机去掉部分神经单元,最后得到两个待匹配地址向量和两个统一地址向量。
将待匹配地址字编码第一次输入BERT模型,得到待匹配地址向量一key_encoder1,图示中记为K1,然后输入同一待匹配地址字编码到BERT模型,得到待匹配地址向量二key_encoder2,图示中记为K2。同理,可以得到统一地址向量一std_encoder1,统一地址向量二std_encoder2。
由于Bert模型中有4个dropout层,dropout层会根据预设的值,比如设定随机失活比例,每次随机拿掉部分神经单元。因此即使两次输入同一地址字编码,Bert模型两次生成的地址向量也会不同。本实施例设定随机失活比例为0.1,即每次随机失活10%的神经单元。
步骤A3、将待匹配地址向量和统一地址向量进行一一组合,得到四组向量组,针对每个向量组,输入至ESIM模型得到当前向量组的相似度。
结合图3所示,两个待匹配地址向量以及两个统一地址向量中均任选其一进行组合,得到四组向量组。将四个向量组成四个组合,分别是[key_encoder1,std_encoder1],[key_encoder1,std_encoder2],[key_encoder2,std_encoder1],[key_encoder2,std_encoder2]。图示中,两个待匹配地址向量分别为K1、K2,两个统一地址向量分别为S1、S2。
对于相似度计算,以向量组[key_encoder1,std_encoder1]为例。
A31、将待匹配地址向量key_encode1与统一地址向量std_encoder1同时输入到第一Bi-LSTM(双向长短期记忆神经网络)模型中,得到待匹配地址的隐层状态向量
Figure 926131DEST_PATH_IMAGE005
与统一地址的隐层状态向量
Figure 35033DEST_PATH_IMAGE006
A32、通过对齐操作,得到待匹配地址与统一地址的相似权重矩阵E。
A33、利用得到的相似权重矩阵E,对统一地址隐层状态向量
Figure 334427DEST_PATH_IMAGE006
加权求和,得到待匹配地址相似向量
Figure 921397DEST_PATH_IMAGE007
,以及对待匹配地址隐层状态向量
Figure 989848DEST_PATH_IMAGE005
加权求和,得到待匹配地址相似向量
Figure 329038DEST_PATH_IMAGE008
A34、计算待匹配地址信息增强向量
Figure 53411DEST_PATH_IMAGE009
以及统一地址信息增强向量
Figure 240810DEST_PATH_IMAGE010
;这里
Figure 163767DEST_PATH_IMAGE011
表示哈达玛积。
A35、将
Figure 676787DEST_PATH_IMAGE012
Figure 888457DEST_PATH_IMAGE013
均输入至第二Bi-LSTM(双向长短期记忆神经网络)模型,得到待匹配地址匹配向量
Figure 879547DEST_PATH_IMAGE014
以及统一地址匹配向量
Figure 913800DEST_PATH_IMAGE015
A36、将
Figure 332143DEST_PATH_IMAGE014
分别通过最大池化和平均池化相应得到待匹配地址最大池化向量
Figure 765530DEST_PATH_IMAGE016
和待匹配地址平均池化向量
Figure 560310DEST_PATH_IMAGE017
;将
Figure 457859DEST_PATH_IMAGE015
分别通过最大池化和平均池化相应得到统一地址最大池化向量
Figure 47104DEST_PATH_IMAGE018
和统一地址平均池化向量
Figure 233365DEST_PATH_IMAGE019
;将得到的四个池化向量拼接,得到地址匹配信息向量
Figure 828907DEST_PATH_IMAGE020
A37、将地址匹配信息向量V输入到全连接层,并通过归一化指数函数得到匹配值,即待匹配地址对的相似度res1。同理可以计算到另三组向量组的相似度res2、res3、res4。
步骤A4、根据得到的四个相似度以及训练样本的标记数值,计算得到四个交叉熵损失值,然后计算两个待匹配地址向量的KL散度损失值以及两个统一地址向量的KL散度损失值,最后计算总损失分数。
比如对于相似度res1,计算交叉熵损失值loss1。
如果输出的相似度res1 = [0.8, 0.2],标记数值为1,即匹配,则其one-hot形式为[0,1],交叉熵损失值为loss1 =-log0.2,约为0.699。如果标记为0,即不匹配,则其one-hot形式为[1,0]则其交叉熵损失值为loss=-log0.8,约为0.097。同理对res2、res3、res4分别计算交叉熵损失值为loss2、loss3、loss4。
对于待匹配地址向量key_encoder1、key_encoder2,计算KL散度损失值
Figure 518646DEST_PATH_IMAGE021
。KL散度损失值能够衡量两个概率分布之间的相似性,KL散度损失值公式如下:
Figure 809950DEST_PATH_IMAGE022
其中
Figure 14666DEST_PATH_IMAGE023
是key_encoder1的概率分布,
Figure 885670DEST_PATH_IMAGE024
是key_encoder2的概率分布。公式中前一项是KL(K1||K2)散度,后一项是KL(K2||K1)散度,(KL(K1||K2)与KL(K2||K1)的值不一样。本步骤中计算KL散度使用的是pytorch框架提供的KL散度损失函数函数F.kl_div。同理可计算得到统一地址向量std_encoder1、std_encoder2的KL散度损失值
Figure 695494DEST_PATH_IMAGE025
计算总损失分数:
Figure 892120DEST_PATH_IMAGE026
其中,loss1~loss4是四个交叉熵损失值,
Figure 321483DEST_PATH_IMAGE002
是权重,本实施例为1,
Figure 261758DEST_PATH_IMAGE003
是两个待匹配地址向量的KL散度损失值,
Figure 722826DEST_PATH_IMAGE004
是两个统一地址向量的KL散度损失值。
步骤A5、使用梯度下降法修改模型参数,减少总损失分数。
梯度下降法是一个一阶最优化算法,使用梯度下降法找到一个函数的局部极小值,必须向函数上当前点对应梯度(或者是近似梯度)的反方向的规定步长距离点进行迭代搜索。梯度下降法为现有方法,这里不赘述。
步骤A6、对训练样本多轮遍历,每完成一次遍历,使用验证样本验证地址匹配模型的匹配正确率,对于每条验证样本,如果总损失分数大于设置阈值,则输出的匹配结果为1,否则输出的匹配结果为0;如果输出的匹配结果与标记数值一致,则表示匹配正确,否则为匹配错误。
在训练地址匹配模型时,需要多轮遍历训练样本,对于遍历后模型输出的训练样本匹配结果,通过计算损失值和梯度下降法修改模型参数,降低损失值。然后参数修改后地址匹配模型处理每条验证样本,根据输出的总损失分数与设置阈值比较,确定最终输出匹配结果是1或0,相应表示匹配正确或错误。进而可以得出每个参数版本的地址匹配模型的匹配正确率。本实施例中,匹配的设置阈值为0.5。
步骤A7、选择匹配正确率最高的参数版本作为最终训练好的地址匹配模型。
最后选择最高匹配正确率的参数版本,作为最终地址匹配模型的参数,得到训练好的地址匹配模型。
至此通过上述步骤即完成了地址匹配模型训练。
在应用地址匹配模型时,对于输入待匹配地址Key_Addr,首先使用ES的模糊查询召回相似度最高的前K个统一地址,然后将查询结果与待匹配地址转换为多个待匹配地址对,作为召回结果;将K个待匹配地址对输入至地址匹配模型,得到K个总损失分数,最后对于K个待匹配地址对按总损失分数从大到小排序,选择总损失分数最大的待匹配地址对作为最终匹配结果。如果最终匹配结果的总损失分数小于或等于0.5,则输出最终匹配结果的统一地址,并显示匹配失败。如果最终匹配结果总损失分数大于0.5,则输出最终匹配结果的统一地址,并显示匹配成功。
综上,本发明提出一种基于对比学习的地址匹配模型训练方法,在训练模型时加入对比学习,相较于已有的地址匹配方法,能够拉近编码器对同类数据的编码距离,且增加不同类数据的编码距离,从而提高了模型地址匹配的准确率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于对比学习的地址匹配模型训练方法,其特征在于,所述方法包括下述步骤:
步骤A1、建立训练样本集,样本格式为[待匹配地址,统一地址,标记],按比例将训练样本集分为训练样本和验证样本,标记的值有{0,1}两种,其中0表示不匹配,1表示匹配;
步骤A2、遍历训练样本,其中待匹配地址和统一地址组成待匹配地址对,将待匹配地址对用BERT模型处理,得到两个待匹配地址向量和两个统一地址向量;
步骤A3、将待匹配地址向量和统一地址向量进行一一组合,得到四组向量组,针对每个向量组,输入至ESIM模型得到当前向量组的相似度,其中所述一一组合具体为:从两个待匹配地址向量以及两个统一地址向量中均任选其一进行组合,得到四组向量组;
步骤A4、根据得到的四个相似度以及训练样本的标记数值,计算得到四个交叉熵损失值,然后计算两个待匹配地址向量的KL散度损失值以及两个统一地址向量的KL散度损失值,最后计算总损失分数;
步骤A5、使用梯度下降法修改模型参数,减少总损失分数;
步骤A6、对训练样本多轮遍历,每完成一次遍历,使用验证样本验证地址匹配模型的匹配正确率,对于每条验证样本,如果总损失分数大于设置阈值,则输出的匹配结果为1,否则输出的匹配结果为0;如果输出的匹配结果与标记数值一致,则表示匹配正确,否则为匹配错误;
步骤A7、选择匹配正确率最高的参数版本作为最终训练好的地址匹配模型;
其中,所述步骤A2的具体过程如下:
A21、对于每一个待匹配地址对,将其中的待匹配地址以及统一地址均分割成字,得到待匹配地址字列表和统一地址字列表;
A22、使用BERT模型的分词器,将待匹配地址字列表和统一地址字列表分别转换为待匹配地址字编码和统一地址字编码;
A23、将待匹配地址字编码和统一地址字编码均分两次输入BERT模型,BERT模型每次随机去掉部分神经单元,最后得到两个待匹配地址向量和两个统一地址向量。
2.如权利要求1所述基于对比学习的地址匹配模型训练方法,其特征在于,所述步骤A3中,两个待匹配地址向量以及两个统一地址向量中均任选其一进行组合,得到四组向量组。
3.如权利要求2所述基于对比学习的地址匹配模型训练方法,其特征在于,步骤A4中,总损失分数计算式如下:
Figure DEST_PATH_IMAGE001
其中,loss1~loss4是四个交叉熵损失值,
Figure 816027DEST_PATH_IMAGE002
是权重,
Figure DEST_PATH_IMAGE003
是两个待匹配地址向量的KL散度损失值,
Figure 467719DEST_PATH_IMAGE004
是两个统一地址向量的KL散度损失值。
4.如权利要求3所述基于对比学习的地址匹配模型训练方法,其特征在于,步骤A6中,总损失分数的设置阈值为0.5。
CN202211408063.1A 2022-11-10 2022-11-10 一种基于对比学习的地址匹配模型训练方法 Active CN115455315B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211408063.1A CN115455315B (zh) 2022-11-10 2022-11-10 一种基于对比学习的地址匹配模型训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211408063.1A CN115455315B (zh) 2022-11-10 2022-11-10 一种基于对比学习的地址匹配模型训练方法

Publications (2)

Publication Number Publication Date
CN115455315A CN115455315A (zh) 2022-12-09
CN115455315B true CN115455315B (zh) 2023-04-07

Family

ID=84295541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211408063.1A Active CN115455315B (zh) 2022-11-10 2022-11-10 一种基于对比学习的地址匹配模型训练方法

Country Status (1)

Country Link
CN (1) CN115455315B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115935245B (zh) * 2023-03-10 2023-05-26 吉奥时空信息技术股份有限公司 一种政务热线案件自动分类分拨方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10839156B1 (en) * 2019-01-03 2020-11-17 Amazon Technologies, Inc. Address normalization using deep learning and address feature vectors
CN114417022B (zh) * 2022-03-30 2022-06-28 阿里巴巴(中国)有限公司 模型训练方法、数据处理方法及其装置
CN114936627A (zh) * 2022-05-25 2022-08-23 吉奥时空信息技术股份有限公司 一种改进的分节推断地址匹配方法
CN115099359A (zh) * 2022-07-12 2022-09-23 平安科技(深圳)有限公司 基于人工智能的地址识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN115455315A (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
CN110619051B (zh) 问题语句分类方法、装置、电子设备及存储介质
CN106909611B (zh) 一种基于文本信息抽取的酒店自动匹配方法
CN108763215B (zh) 一种基于地址分词的地址存储方法、装置及计算机设备
CN114092742B (zh) 一种基于多角度的小样本图像分类装置和方法
CN111651474B (zh) 一种自然语言至结构化查询语言的转换方法及系统
CN107239450B (zh) 基于交互上下文处理自然语言方法
CN115455315B (zh) 一种基于对比学习的地址匹配模型训练方法
CN113592037B (zh) 一种基于自然语言推断的地址匹配方法
CN114676353B (zh) 一种基于分节推断的地址匹配方法
CN109344263A (zh) 一种地址匹配方法
CN112287093B (zh) 基于半监督学习和Text-to-SQL模型的自动问答系统
CN109949174A (zh) 一种异构社交网络用户实体锚链接识别方法
CN114936627A (zh) 一种改进的分节推断地址匹配方法
CN116737922A (zh) 一种游客在线评论细粒度情感分析方法和系统
CN116956930A (zh) 一种融合规则和学习模型的短文本信息提取方法及系统
CN117010373A (zh) 一种电力设备资产管理数据所属类别和组的推荐方法
CN113342982B (zh) 融合RoBERTa和外部知识库的企业行业分类方法
CN115795060A (zh) 一种基于知识增强的实体对齐方法
CN112417149B (zh) 一种基于多任务学习的标题生成方法
CN115146635A (zh) 一种基于领域知识增强的地址分节方法
CN115168548B (zh) 一种基于召回-排序的地址匹配方法
CN115203589A (zh) 基于Trans-dssm模型的向量搜索方法及系统
CN114064269A (zh) 一种地址匹配方法、装置及终端设备
CN114297408A (zh) 一种基于级联二进制标注框架的关系三元组抽取方法
CN112784838A (zh) 一种基于局部敏感哈希网络的汉明ocr识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant