CN113592037A - 一种基于自然语言推断的地址匹配方法 - Google Patents

一种基于自然语言推断的地址匹配方法 Download PDF

Info

Publication number
CN113592037A
CN113592037A CN202110985403.6A CN202110985403A CN113592037A CN 113592037 A CN113592037 A CN 113592037A CN 202110985403 A CN202110985403 A CN 202110985403A CN 113592037 A CN113592037 A CN 113592037A
Authority
CN
China
Prior art keywords
address
standard
key
matching
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110985403.6A
Other languages
English (en)
Other versions
CN113592037B (zh
Inventor
杨伊态
陈胜鹏
付卓
李颖
王敬佩
蒋米敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuda Geoinformatics Co ltd
Original Assignee
Wuda Geoinformatics Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuda Geoinformatics Co ltd filed Critical Wuda Geoinformatics Co ltd
Priority to CN202110985403.6A priority Critical patent/CN113592037B/zh
Publication of CN113592037A publication Critical patent/CN113592037A/zh
Application granted granted Critical
Publication of CN113592037B publication Critical patent/CN113592037B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于自然语言推断的地址匹配方法,包括:S1.输入标准地址库的标准地址集,通过自动构造训练样本模块生成训练样本集,使用训练样本集训练地址匹配模型。S2.将待匹配地址输入预处理模型,得到待匹配地址对中关键地址与标准地址的词向量。S3.使用自然语言推断网络推断标准地址词向量与关键地址词向量之间的匹配值,排序并选择匹配值最大的标准地址作为匹配结果,如果匹配结果大于阈值则输出匹配结果,否则输出空值。与本发明的有益效果是:通过训练样本构造模块自动构建训练样本集,相比于现有的方法,减少了构建训练样本成本;通过预处理及自然语言推断的地址匹配方法,提高了模型对地址语义的理解,从而提升了匹配方法的性能。

Description

一种基于自然语言推断的地址匹配方法
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于自然语言推断的地址匹配方法。
背景技术
在城市服务的实际场景中,描述同一个目的地的地址,由于地址的不完整性、别名等原因,用户输入的地址与标准地址库中存储的地址往往不一致。地址匹配的目标就是判断用户输入的非标准地址与标准地址库中存储的标准地址是否指向同一个地址,为下游服务提供支持。
已有的地址匹配方法主要有四类。
第一类是基于关键词搜索的地址匹配,方法是将用户输入的地址通过关键词查找,从标准地址库中匹配出对应的标准地址。这类方法的特点是匹配效率较高,但准确率非常低。
第二类是构建人工规则的地址匹配,方法是基于领域知识构建匹配规则,根据匹配规则匹配非标准地址与标准地址是否指向同一地址。这类方法的特点是匹配效率较高,准确率较高,但规则繁琐,人工成本高,泛化能力差。
第三类是基于统计概率机器学习模型的地址匹配方法,方法是先构建统计特征和训练样本,然后模型通过训练样本学习模型参数。这类方法的特点是相较第一类与第二类泛化能力更好。但因为对地址语义理解的不够充分,准确率仍有不足。现有的地址匹配方法如基于距离的地址匹配,基于空间坐标与中文信息的地址匹配,基于地理要素层级识别的地址匹配大多属于第二类与第三类方法。
第四类是基于深度学习的地址匹配方法,方法是构建多层神经网络,通过训练样本学习网络参数。这类方法相较前三类,准确率更高。如基于语义识别的地址匹配,基于知识图谱的地址匹配,基于多任务学习的地址匹配。但现有的方法需要消耗大量人工成本做标注样本,且对地址语义的提取仍有不足,准确率有待提高。
发明内容
针对上述问题,本发明提出了一种基于自然语言推断的地址匹配方法,相较于已有的方法,减少了构建训练样本成本,提高了匹配准确率。
本发明所要解决的技术问题为:判断和识别用户输入的非标准地址与标准地址库的标准地址是否指向同一目的地。
本发明为此,提供一种基于自然语言推断的地址匹配方法,包括以下步骤:
构建地址匹配模型,所述地址匹配模型包括预训练模型和地址推断模型;
训练所述地址匹配模型,具体为:
S11:获取标准地址库,得到标准地址集;
S12:输入标准地址集至训练样本构造模块,生成训练样本集;
S13:将训练样本集输入至地址匹配模型,根据训练样本学习地址匹配模型参数,得到训练完成的地址匹配模型;
使用训练完成的地址匹配模型作推断,具体如下:
S21:输入待匹配地址对至预测样本构造模块,生成预测样本对;所述待匹配地址对的格式为:[关键地址,标准地址1,标准地址2,...标准地址n];
S22:将预测样本对输入至所述预训练模型,得到样本的词向量;
S23:样本的词向量进入地址推断模型,得到标准地址与关键地址的匹配值;
S24:将每个标准地址与关键地址的匹配值排序,选择匹配值最大的标准地址作为输出结果;
S25:若输出结果的匹配值大于预设的阈值,则显示匹配成功,并输出结果;否则显示匹配失败,输出空值。
进一步地,步骤S11中,所述标准地址集包含多个标准地址;标准地址由地理要素构成,包括:行政地理要素和详细地理要素;行政地理要素包括:省、市、区、街道、社区和行政编码;详细地理要素包括:小区、楼栋和门牌号。
步骤S12,生成训练样本集的具体过程为:
S121:随机替换一个标准地址中的某个地理要素,得到替换后的地址,并将替换后的地址标签记为0或1;其中1表示与输入的标准地址指向同一目的地,0表示与输入的标准地址为不同的目的地;
替换地理要素共11种方式,其中替换省、市、区、街道、社区、小区、楼栋、门牌号这8种,替换地址的标签设置为0;替换行政编码分为两种情况,一种为替换行政编码并删除小区、楼栋、门牌号详细地理要素,这种替换地址的标签设置为0;另一种为替换行政编码但其他地理要素不做更改,这种替换地址的标签设置为1;还有一种替换地理要素方式为不做任何处理,即标准地址与替换地址完全相同,这种替换地址的标签设置为1;
S122:从9种地址标签为0的替换地址中随机选择1个,并按照两种不同的规则随机删除0至3个替换地址中的地理要素,分别生成对应规则下的1个候选关键地址,记为a 11,a 12;其中,a 11表示9种地址标签为0的替换地址中,在第一种规则下生成的候选关键地址;a 12表示9种地址标签为0的替换地址中,在第二种规则下生成的候选关键地址;
从两种地址标签为1的替换地址中,随机选择1个,并按照两种规则随机删除0至3个替换地址中的地理要素,分别生成对应规则下的1个候选关键地址,记为b 11,b 12;其中,b 11表示两种地址标签为1的替换地址中,在第一种规则下生成的候选关键地址;b 12表示两种地址标签为1的替换地址中,在第二种规则下生成的候选关键地址;
其中,删除的地理要素,不包含已经被替换过的地理要素;
两种不同的规则具体为:
第一种:如果随机删除的0至3个地理要素,不包含小区、楼栋以及门牌号,则删除地理要素后的地址标签保持不变;
第二种:如果随机删除的0至3个地理要素,包含小区、楼栋以及门牌号,则删除地理要素后的地址标签标记为0;
S123:从a 11,a 12,b 11,b 12中随机选择1个标签为1的地址,作为关键地址,并与输入的标准地址一起,作为正样本;从a 11,a 12,b 11,b 12中随机选择1个标签为0的地址,作为关键地址,并与输入的标准地址一起,作为负样本;所述训练样本集由所述正样本和所述负样本组成。
进一步地,步骤S13中训练地址匹配模型的具体过程为:
S131:将训练样本集输入至地址匹配模型,由地址匹配模型作推断,得到训练样本的推断标签;
S132:判断推断标签与训练样本集已经构造的标签是否一致,确定损失值,使用梯度下降法修改模型参数,并减小损失值;
S133:通过多次循环训练地址匹配模型,获得推断标签与训练样本已经构造标签之间损失值最小的模型,即得到训练完成的地址匹配模型。
进一步地,步骤S21中,所述预测样本构造模块,用于将待匹配地址对中每一个标准地址分别与关键地址进行组合,生成预测样本对;所述预测样本对的格式为:[关键地址,标准地址1],[关键地址,标准地址2],...,[关键地址,标准地址n]。
进一步地,步骤S22具体为:
S221:将预测样本对中的关键地址和标准地址分割成字,得到关键地址字列表和标准地址字列表;
S222:将关键地址字列表与标准地址字列表分别输入至分词器,分别得到关键地址的字编码与位置编码、标准地址字编码与位置编码;
S223:将关键地址的字编码与位置编码、标准地址字编码与位置编码输入至bert模型,分别得到关键地址词向量和标准地址词向量;所述样本的词向量即为关键地址词向量和标准地址词向量。
步骤S23具体为:
S231:将关键地址词向量和标准地址词向量同时输入至Bi-LSTM神经网络,得到关 键地址的隐层状态向量
Figure 486805DEST_PATH_IMAGE001
与标准地址的隐层状态向量
Figure 158570DEST_PATH_IMAGE002
S232:通过对齐操作,得到关键地址与标准地址的相似权重矩阵E;
S233:利用得到的相似权重矩阵E,对标准地址隐藏状态向量
Figure 681955DEST_PATH_IMAGE003
加权求和,得到关 键地址相似向量
Figure 111800DEST_PATH_IMAGE004
;利用得到的相似权重矩阵E,对关键地址的隐层状态向量
Figure 291108DEST_PATH_IMAGE005
加权求和, 得到标准地址相似向量
Figure 566232DEST_PATH_IMAGE006
S234:将关键地址的隐层状态向量
Figure 209703DEST_PATH_IMAGE007
与相似向量
Figure 482552DEST_PATH_IMAGE004
做减法与乘法,并做软对齐,得 到关键地址信息增强向量M k ;将标准地址的隐层状态向量
Figure 211474DEST_PATH_IMAGE008
与相似向量
Figure 290288DEST_PATH_IMAGE009
做减法与乘法,并 做软对齐,得到标准地址信息增强向量M s
S235:将关键地址信息增强向量M k 和标准地址信息增强向量M s 分别输入至第二个Bi-LSTM神经网络,分别得到关键地址匹配向量V k 和标准地址匹配向量V s
S236:将关键地址匹配向量V k 和标准地址匹配向量V s ,均分别通过最大池化和平均池化,得到关键地址最大池化向量V k,max 、关键地址平均池化向量V k,avg 、标准地址最大池化向量V s,max 、标准地址平均池化向量V s,avg ;并将四个池化向量进行拼接,得到地址匹配信息向量V=[V k,max ,V k,avg ,V s,max ,V s,avg ];
S237:将地址匹配信息向量V输入到全连接层,并通过归一化指数函数SOFTMAX得到最终标准地址与关键地址的匹配值;所述全连接层包含两个全连接神经网络,两网络间的激活函数为tanh激活函数;
本发明提供的有益效果是:相较于传统的基于人工规则的地址匹配方法,精确度更高,泛化能力更好。相较于基于统计概率机器学习模型的地址匹配方法以及其他基于深度学习的地址匹配方法,能够根据标准地址库自动构建训练样本,减少人工成本;使用bert预训练模型以及自然语言推断模型,能够更深层的提取地址语义,提高地址匹配的精确度。
附图说明
图1是本发明基于自然语言推断的地址匹配方法的示意图;
图2是本发明训练样本集构造过程示意图;
图3是使用训练完成的地址匹配模型作推断的流程示意图;
图4是使用预训练模型示意图;
图5是地址推断模型使用示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地描述。
请参考图1,图1是本发明基于自然语言推断的地址匹配方法的示意图;
一种基于自然语言推断的地址匹配方法,包括以下:
构建地址匹配模型,所述地址匹配模型包括预训练模型和地址推断模型;
训练所述地址匹配模型,具体为:
S11:获取标准地址库,得到标准地址集;
本发明中,所述标准地址集包含多个标准地址;标准地址由地理要素构成,包括:行政地理要素和详细地理要素;行政地理要素包括:省、市、区、街道、社区和行政编码;详细地理要素包括:小区、楼栋和门牌号;
作为一种实施例,标准地址如:广东省深圳市南山区南山街道荔湾社区前海路0199号恒立心海湾花园2栋C1204;标准地址中包括了省、市、区、街道、社区、行政编码、小区、楼栋和门牌号这些地理要素。
S12:输入标准地址集至训练样本构造模块,生成训练样本集;
请参考图2,图2是训练样本集构造过程示意图;
步骤S12,生成训练样本集的具体过程为:
S121:随机替换一个标准地址中的某个地理要素,得到替换后的地址,并将替换后的地址标签记为0或1;其中1表示与输入的标准地址指向同一目的地,0表示与输入的标准地址为不同的目的地;
替换地理要素共11种方式,其中替换省、市、区、街道、社区、小区、楼栋、门牌号这8种,替换地址的标签设置为0;替换行政编码分为两种情况,一种为替换行政编码并删除小区、楼栋、门牌号详细地理要素,这种替换地址的标签设置为0;另一种为替换行政编码但其他地理要素不做更改,这种替换地址的标签设置为1;还有一种替换地理要素方式为不做任何处理,即标准地址与替换地址完全相同,这种替换地址的标签设置为1;
对应图2中,标准地址为:广东省深圳市南山区南山街道荔湾社区前海路0199号恒立心海湾花园2栋C1204;
替换省行政地理要素的替换地址1为:湖北省深圳市南山区南山街道荔湾社区前海路0199号恒立心海湾花园2栋C1204,标签为0;
替换市行政地理要素的替换地址2为:广东省广州市南山区南山街道荔湾社区前海路0199号恒立心海湾花园2栋C1204,标签为0;
依次对照图2,直至替换门牌号地理要素的替换地址8为:广东省深圳市南山区南山街道荔湾社区前海路0199号恒立心海湾花园5栋C2104,标签为0;
对应的,替换行政编码的地理要素有两种;
替换行政编码并删除小区楼栋、门牌号详细地理要素的替换地址9为:广东省深圳市南山区南山街道荔湾社区前海路2000号,标签为0;
替换行政编码但其他地理要素不做更改的替换地址10为:广东省深圳市南山区南山街道荔湾社区前海路2000号恒立心海湾花园2栋C1204,标签为1;
最后还包括没有作任何更改的替换地址:广东省深圳市南山区南山街道荔湾社区前海路0199号恒立心海湾花园2栋C1204,标签为1;
S122:从9种地址标签为0的替换地址中随机选择1个,并按照两种不同的规则随机删除0至3个替换地址中的地理要素,分别生成对应规则下的1个候选关键地址,记为a 11,a 12;其中,a 11表示9种地址标签为0的替换地址中,在第一种规则下生成的候选关键地址;a 12表示9种地址标签为0的替换地址中,在第二种规则下生成的候选关键地址;
从两种地址标签为1的替换地址中,随机选择1个,并按照两种规则随机删除0至3个替换地址中的地理要素,分别生成对应规则下的1个候选关键地址,记为b 11,b 12;其中,b 11表示两种地址标签为1的替换地址中,在第一种规则下生成的候选关键地址;b 12表示两种地址标签为1的替换地址中,在第二种规则下生成的候选关键地址;
其中,删除的地理要素,不包含已经被替换过的地理要素;
两种不同的规则具体为:
第一种:如果随机删除的0至3个地理要素,不包含小区、楼栋以及门牌号,则删除地理要素后的地址标签保持不变;
第二种:如果随机删除的0至3个地理要素,包含小区、楼栋以及门牌号,则删除地理要素后的地址标签标记为0;
请参照图2,本发明实施例中,从8个替换结果中随机选择1个替换地址,为替换地址6:广东省深圳市南山区南山街道荔湾社区前海路0199号中海阳光玫瑰园2栋C1204,标签为0;从2个替换结果中随机选择1个替换地址,为替换地址11(即通过不做任何更改生成的替换地址):广东省深圳市南山区南山街道荔湾社区前海路0199号恒立心海湾花园2栋C1204,标签为1;
从替换地址6和替换地址11中,随机删除0~3个地理要素,得到a 11,a 12,b 11,b 12分别对应为:深圳市南山区荔湾社区中海阳光玫瑰园2栋C1204,标签为0、南山区南山街道荔湾社区恒立心海湾花园5栋C1204,标签为1、深圳市南山区荔湾社区前中海阳光玫瑰园C1204,标签为0、深圳市南山区荔湾社区恒立心海湾花园5栋1204,标签为0;
S123:从a 11,a 12,b 11,b 12中随机选择1个标签为1的地址,作为关键地址,并与输入的标准地址一起,作为正样本;从a 11,a 12,b 11,b 12中随机选择1个标签为0的地址,作为关键地址,并与输入的标准地址一起,作为负样本;所述训练样本集由所述正样本和所述负样本组成。
请参照图2,最终的训练样本即为:正样本,包括关键地址、标准地址和标签。关键地址:南山区南山街道荔湾社区恒立心海湾花园5栋C1204,标准地址:广东省深圳市南山区南山街道荔湾社区前海路0199号恒立心海湾花园2栋C1204,标签:1;负样本,包括关键地址、标准地址和标签。关键地址:深圳市南山区荔湾社区前中海阳光玫瑰园C1204,标准地址:广东省深圳市南山区南山街道荔湾社区前海路0199号恒立心海湾花园2栋C1204,标签:0。
使用以上所述方法,将多个标准地址生成的多个训练样本集合在一起,生成最终的训练样本集;
最终的训练样本即为:正样本,包括关键地址、标准地址和标签。关键地址:南山区南山街道荔湾社区恒立心海湾花园5栋C1204,标准地址:广东省深圳市南山区南山街道荔湾社区前海路0199号恒立心海湾花园2栋C1204,标签:1;负样本,包括关键地址、标准地址和标签。关键地址:深圳市南山区荔湾社区前中海阳光玫瑰园C1204,标准地址:广东省深圳市南山区南山街道荔湾社区前海路0199号恒立心海湾花园2栋C1204,标签:0。
S13:将训练样本集输入至地址匹配模型,根据训练样本学习地址匹配模型参数,得到训练完成的地址匹配模型;
步骤S13中训练地址匹配模型的具体过程为:
S131:将训练样本集输入至地址匹配模型,由地址匹配模型作推断,得到训练样本的推断标签;
S132:判断推断标签与训练样本集已经构造的标签是否一致,确定损失值,使用梯度下降法修改模型参数,并减小损失值;
S133:通过多次循环训练地址匹配模型,获得推断标签与训练样本已经构造标签之间损失值最小的模型,即得到训练完成的地址匹配模型。
需要特别说明的是,S133中的使用地址匹配模型做推断,与后文“使用地址匹配模型做推断”中的模型推断过程一致,具体过程在后文部分说明。
两者的区别在于,一个是训练过程,一个是使用过程,只不过在训练过程,模型推断的结果会和训练样本标签比对,然后模型通过比对结果学习参数。而在使用(推断)过程,模型推断的结果直接当做结果输出。
请参考图3,图3是使用训练完成的地址匹配模型作推断的流程示意图;
参考图3,使用训练完成的地址匹配模型作推断,具体如下:
S21:输入待匹配地址对至预测样本构造模块,生成预测样本对;所述待匹配地址对的格式为:[关键地址,标准地址1,标准地址2,...标准地址n];步骤S21中,所述预测样本构造模块,用于将待匹配地址对中每一个标准地址分别与关键地址进行组合,生成预测样本对;所述预测样本对的格式为:[关键地址,标准地址1],[关键地址,标准地址2],...,[关键地址,标准地址n]。
S22:将预测样本对输入至所述预训练模型,得到样本的词向量;
请参考图4,图4是使用预训练模型示意图;
步骤S22具体为:
S221:将预测样本对中的关键地址和标准地址分割成字,得到关键地址字列表和标准地址字列表;
举例说明如下:
关键地址:深圳市南山区荔湾社区恒立心海湾花园2栋C单元1204;
关键地址字列表:【深,圳,市,南,山,区,荔,湾,社,区,恒,立,心,海,湾,花,园,2,栋,C,单,元,1,2,0,4】
标准地址:广东省深圳市南山区南山街道荔湾社区前海路0199号恒立心海湾花园2栋C1204;
标准地址字列表:【广,东,省,深,圳,市,南,山,区,南,山,街,道,荔,湾,社,区,前,海,路,0,1,9,9,号,恒,立,心,海,湾,花,园,2,栋,C,1,2,0,4】;
S222:将关键地址字列表与标准地址字列表分别输入至分词器,分别得到关键地址的字编码与位置编码、标准地址字编码与位置编码;
举例说明如下:
关键地址字列表:【深,圳,市,南,山,区,荔,湾,社,区,恒,立,心,海,湾,花,园,2,栋,C,单,元,1,2,0,4】;
关键地址字编码:【3918, 1766, 2356, 1298, 2255, 1277, 5775, 3968, 4852,1277, 2608, 4989, 2552, 3862, 3968, 5709, 1736, 123, 3406, 145, 1296, 1039,122, 123, 121, 125】;
关键地址位置编码:【0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25】;
标准地址字列表:【广,东,省,深,圳,市,南,山,区,南,山,街,道,荔,湾,社,区,前,海,路,0,1,9,9,号,恒,立,心,海,湾,花,园,2,栋,C,1,2,0,4】;
标准地址字编码:【2408, 691, 4689, 3918, 1766, 2356, 1298, 2255, 1277,1298, 2255, 6125, 6887, 5775, 3968, 4852, 1277, 1184, 3862, 6662, 121, 122,130, 130, 1384, 2608, 4989, 2552, 3862, 3968, 5709, 1736, 123, 3406, 145,122, 123, 121, 125】;
标准地址位置编码:【0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14,15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,34, 35, 36, 37, 38】;
本发明中的分词器为哈工大公开的Chinese-bert-wwm-ext Bert(BidirectionalEncoder Representation from Transformers,即双向Transformer的Encoder)预训练模型,分词方法为bert模型中的分词功能。
S223:将关键地址的字编码与位置编码、标准地址字编码与位置编码输入至bert模型,分别得到关键地址词向量和标准地址词向量;所述样本的词向量即为关键地址词向量和标准地址词向量。
Bert模型能够同时综合字义与字序,将字转换为数字化的向量。Chinese-bert-wwm-ext Bert使用大规模中文语料进行训练,输出的数字化向量能够比较好的反映对应字的含义。
S23:样本的词向量进入地址推断模型,得到标准地址与关键地址的匹配值;
请参考图5,图5是地址推断模型使用示意图;
步骤S23具体为:
S231:将关键地址词向量和标准地址词向量同时输入至Bi-LSTM神经网络,得到关 键地址的隐层状态向量
Figure 788266DEST_PATH_IMAGE001
与标准地址的隐层状态向量
Figure 497596DEST_PATH_IMAGE002
S232:通过对齐操作,得到关键地址与标准地址的相似权重矩阵E;
对齐操作即:
Figure 448234DEST_PATH_IMAGE010
,
Figure 330739DEST_PATH_IMAGE011
表示关键地址隐层状态向量中第i个字的向量,
Figure 620907DEST_PATH_IMAGE012
表示标准地址隐层状态向量中第j个字的向量,i为从0到关键地址字数,j为1到标准地址字 数。
S233:利用得到的相似权重矩阵E,对标准地址隐藏状态向量
Figure 563455DEST_PATH_IMAGE003
加权求和,得到关 键地址相似向量
Figure 1389DEST_PATH_IMAGE004
;利用得到的相似权重矩阵E,对关键地址的隐层状态向量
Figure 359689DEST_PATH_IMAGE005
加权求和, 得到标准地址相似向量
Figure 832259DEST_PATH_IMAGE006
;两个相似向量的计算公式如下:
Figure 945709DEST_PATH_IMAGE013
其中l s 代表标准地址的字数,l K 代表关键地址的字数,e ij 代表相似权重矩阵E中第i行第j列的数值。e im ,e mj 同理可得。
S234:将关键地址的隐层状态向量
Figure 870939DEST_PATH_IMAGE007
与相似向量
Figure 32930DEST_PATH_IMAGE004
做减法与乘法,并做软对齐,得 到关键地址信息增强向量M k ;将标准地址的隐层状态向量
Figure 94427DEST_PATH_IMAGE014
与相似向量
Figure 378778DEST_PATH_IMAGE015
做减法与乘法,并 做软对齐,得到标准地址信息增强向量M s ;具体如下式:
Figure 728988DEST_PATH_IMAGE016
Figure 756987DEST_PATH_IMAGE017
S235:将关键地址信息增强向量M k 和标准地址信息增强向量M s 分别输入至第二个Bi-LSTM神经网络,分别得到关键地址匹配向量V k 和标准地址匹配向量V s
S236:将关键地址匹配向量V k 和标准地址匹配向量V s ,均分别通过最大池化和平均池化,得到关键地址最大池化向量V k,max 、关键地址平均池化向量V k,avg 、标准地址最大池化向量V s,max 、标准地址平均池化向量V s,avg ;并将四个池化向量进行拼接,得到地址匹配信息向量V=[V k,max ,V k,avg ,V s,max ,V s,avg ];
平均池化与最大池化公式如下所示,其中V k,i 表示关键地址匹配向量V k 中的第i个向量。
Figure 938569DEST_PATH_IMAGE018
Figure 62996DEST_PATH_IMAGE019
S237:将地址匹配信息向量V输入到全连接层,并通过归一化指数函数SOFTMAX得到最终标准地址与关键地址的匹配值;所述全连接层包含两个全连接神经网络,两网络间的激活函数为tanh激活函数;SOFTMAX函数输出的匹配值在0到1之间;
S24:将每个标准地址与关键地址的匹配值排序,选择匹配值最大的标准地址作为输出结果;
S25:若输出结果的匹配值大于预设的阈值,则显示匹配成功,并输出匹配值;否则显示匹配失败,输出空值。其中预设的阈值范围为0~1,可调,默认为0.5。
本发明的有益效果是:相较于传统的基于人工规则的地址匹配方法,精确度更高,泛化能力更好。相较于基于统计概率机器学习模型的地址匹配方法以及其他基于深度学习的地址匹配方法,能够根据标准地址库自动构建训练样本,减少人工成本;使用bert预训练模型以及自然语言推断模型,能够更深层的提取地址语义,提高地址匹配的精确度。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于自然语言推断的地址匹配方法,其特征在于:包括以下:
构建地址匹配模型,所述地址匹配模型包括预训练模型和地址推断模型;
训练所述地址匹配模型,具体为:
S11:获取标准地址库,得到标准地址集;
S12:输入标准地址集至训练样本构造模块,生成训练样本集;
S13:将训练样本集输入至地址匹配模型,根据训练样本学习地址匹配模型参数,得到训练完成的地址匹配模型;
使用训练完成的地址匹配模型作推断,具体如下:
S21:输入待匹配地址对至预测样本构造模块,生成预测样本对;所述待匹配地址对的格式为:[关键地址,标准地址1,标准地址2,...标准地址n];
S22:将预测样本对输入至所述预训练模型,得到样本的词向量;
S23:样本的词向量进入地址推断模型,得到标准地址与关键地址的匹配值;
S24:将每个标准地址与关键地址的匹配值排序,选择匹配值最大的标准地址作为输出结果;
S25:若输出结果的匹配值大于预设的阈值,则显示匹配成功,并输出结果;否则显示匹配失败,输出空值。
2.如权利要求1所述的一种基于自然语言推断的地址匹配方法,其特征在于:步骤S11中,所述标准地址集包含多个标准地址;标准地址由地理要素构成,包括:行政地理要素和详细地理要素;行政地理要素包括:省、市、区、街道、社区和行政编码;详细地理要素包括:小区、楼栋和门牌号。
3.如权利要求1所述的一种基于自然语言推断的地址匹配方法,其特征在于:步骤S12,生成训练样本集的具体过程为:
S121:随机替换一个标准地址中的某个地理要素,得到替换后的地址,并将替换后的地址标签记为0或1;其中1表示与输入的标准地址指向同一目的地,0表示与输入的标准地址为不同的目的地;
替换地理要素共11种方式,其中替换省、市、区、街道、社区、小区、楼栋、门牌号这8种,替换地址的标签设置为0;替换行政编码分为两种情况,一种为替换行政编码并删除小区、楼栋、门牌号详细地理要素,这种替换地址的标签设置为0;另一种为替换行政编码但其他地理要素不做更改,这种替换地址的标签设置为1;还有一种替换地理要素方式为不做任何处理,即标准地址与替换地址完全相同,这种替换地址的标签设置为1;
S122:从9种地址标签为0的替换地址中随机选择1个,并按照两种不同的规则随机删除0至3个替换地址中的地理要素,分别生成对应规则下的1个候选关键地址,记为a 11,a 12;其中,a 11表示9种地址标签为0的替换地址中,在第一种规则下生成的候选关键地址;a 12表示9种地址标签为0的替换地址中,在第二种规则下生成的候选关键地址;
从两种地址标签为1的替换地址中,随机选择1个,并按照两种规则随机删除0至3个替换地址中的地理要素,分别生成对应规则下的1个候选关键地址,记为b 11,b 12;其中,b 11表示两种地址标签为1的替换地址中,在第一种规则下生成的候选关键地址;b 12表示两种地址标签为1的替换地址中,在第二种规则下生成的候选关键地址;
其中,删除的地理要素,不包含已经被替换过的地理要素;
两种不同的规则具体为:
第一种:如果随机删除的0至3个地理要素,不包含小区、楼栋以及门牌号,则删除地理要素后的地址标签保持不变;
第二种:如果随机删除的0至3个地理要素,包含小区、楼栋以及门牌号,则删除地理要素后的地址标签标记为0;
S123:从a 11,a 12,b 11,b 12中随机选择1个标签为1的地址,作为关键地址,并与输入的标准地址一起,作为正样本;从a 11,a 12,b 11,b 12中随机选择1个标签为0的地址,作为关键地址,并与输入的标准地址一起,作为负样本;所述训练样本集由所述正样本和所述负样本组成。
4.如权利要求1所述的一种基于自然语言推断的地址匹配方法,其特征在于:步骤S13中训练地址匹配模型的具体过程为:
S131:将训练样本集输入至地址匹配模型,由地址匹配模型作推断,得到训练样本的推断标签;
S132:判断推断标签与训练样本集已经构造的标签是否一致,确定损失值,使用梯度下降法修改模型参数,并减小损失值;
S133:通过多次循环训练地址匹配模型,获得推断标签与训练样本已经构造标签之间损失值最小的模型,即得到训练完成的地址匹配模型。
5.如权利要求1所述的一种基于自然语言推断的地址匹配方法,其特征在于:步骤S21中,所述预测样本构造模块,用于将待匹配地址对中每一个标准地址分别与关键地址进行组合,生成预测样本对;所述预测样本对的格式为:[关键地址,标准地址1],[关键地址,标准地址2],...,[关键地址,标准地址n]。
6.如权利要求1所述的一种基于自然语言推断的地址匹配方法,其特征在于:步骤S22具体为:
S221:将预测样本对中的关键地址和标准地址分割成字,得到关键地址字列表和标准地址字列表;
S222:将关键地址字列表与标准地址字列表分别输入至分词器,分别得到关键地址的字编码与位置编码、标准地址字编码与位置编码;
S223:将关键地址的字编码与位置编码、标准地址字编码与位置编码输入至bert模型,分别得到关键地址词向量和标准地址词向量;所述样本的词向量即为关键地址词向量和标准地址词向量。
7.如权利要求6所述的一种基于自然语言推断的地址匹配方法,其特征在于:步骤S23具体为:
S231:将关键地址词向量和标准地址词向量同时输入至Bi-LSTM神经网络,得到关键地 址的隐层状态向量
Figure 480923DEST_PATH_IMAGE001
与标准地址的隐层状态向量
Figure 335746DEST_PATH_IMAGE002
S232:通过对齐操作,得到关键地址与标准地址的相似权重矩阵E;
S233:利用得到的相似权重矩阵E,对标准地址隐藏状态向量
Figure 115484DEST_PATH_IMAGE003
加权求和,得到关键地 址相似向量
Figure 510693DEST_PATH_IMAGE004
;利用得到的相似权重矩阵E,对关键地址的隐层状态向量
Figure 325065DEST_PATH_IMAGE005
加权求和,得到 标准地址相似向量
Figure 85211DEST_PATH_IMAGE006
S234:将关键地址的隐层状态向量
Figure 352244DEST_PATH_IMAGE007
与相似向量
Figure 551144DEST_PATH_IMAGE004
做减法与乘法,并做软对齐,得到关 键地址信息增强向量M k ;将标准地址的隐层状态向量
Figure 154776DEST_PATH_IMAGE008
与相似向量
Figure 148140DEST_PATH_IMAGE009
做减法与乘法,并做软 对齐,得到标准地址信息增强向量M s
S235:将关键地址信息增强向量M k 和标准地址信息增强向量M s 分别输入至第二个Bi-LSTM神经网络,分别得到关键地址匹配向量V k 和标准地址匹配向量V s
S236:将关键地址匹配向量V k 和标准地址匹配向量V s ,均分别通过最大池化和平均池化,得到关键地址最大池化向量V k,max 、关键地址平均池化向量V k,avg 、标准地址最大池化向量V s,max 、标准地址平均池化向量V s,avg ;并将四个池化向量进行拼接,得到地址匹配信息向量V=[V k,max ,V k,avg ,V s,max ,V s,avg ];
S237:将地址匹配信息向量V输入到全连接层,并通过归一化指数函数SOFTMAX得到最终标准地址与关键地址的匹配值;所述全连接层包含两个全连接神经网络,两网络间的激活函数为tanh激活函数。
CN202110985403.6A 2021-08-26 2021-08-26 一种基于自然语言推断的地址匹配方法 Active CN113592037B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110985403.6A CN113592037B (zh) 2021-08-26 2021-08-26 一种基于自然语言推断的地址匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110985403.6A CN113592037B (zh) 2021-08-26 2021-08-26 一种基于自然语言推断的地址匹配方法

Publications (2)

Publication Number Publication Date
CN113592037A true CN113592037A (zh) 2021-11-02
CN113592037B CN113592037B (zh) 2023-11-24

Family

ID=78239989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110985403.6A Active CN113592037B (zh) 2021-08-26 2021-08-26 一种基于自然语言推断的地址匹配方法

Country Status (1)

Country Link
CN (1) CN113592037B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114461943A (zh) * 2022-04-14 2022-05-10 中国测绘科学研究院 基于深度学习的多源poi语义匹配方法、装置及其存储介质
CN114676353A (zh) * 2022-05-25 2022-06-28 武大吉奥信息技术有限公司 一种基于分节推断的地址匹配方法
CN114911909A (zh) * 2022-06-08 2022-08-16 北京青萌数海科技有限公司 结合深度卷积网络和注意力机制的地址匹配方法以及装置
CN115168548A (zh) * 2022-09-05 2022-10-11 吉奥时空信息技术股份有限公司 一种基于召回-排序的地址匹配方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684440A (zh) * 2018-12-13 2019-04-26 北京惠盈金科技术有限公司 基于层级标注的地址相似度度量方法
CN109960795A (zh) * 2019-02-18 2019-07-02 平安科技(深圳)有限公司 一种地址信息标准化方法、装置、计算机设备及存储介质
CN110377686A (zh) * 2019-07-04 2019-10-25 浙江大学 一种基于深度神经网络模型的地址信息特征抽取方法
CN110569322A (zh) * 2019-07-26 2019-12-13 苏宁云计算有限公司 地址信息解析方法、装置、系统及数据获取方法
CN111625732A (zh) * 2020-05-25 2020-09-04 鼎富智能科技有限公司 地址匹配方法及装置
US10796104B1 (en) * 2019-07-03 2020-10-06 Clinc, Inc. Systems and methods for constructing an artificially diverse corpus of training data samples for training a contextually-biased model for a machine learning-based dialogue system
CN112528664A (zh) * 2021-02-05 2021-03-19 湖南工商大学 基于多任务联合学习与地址层级结构知识的地址匹配方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684440A (zh) * 2018-12-13 2019-04-26 北京惠盈金科技术有限公司 基于层级标注的地址相似度度量方法
CN109960795A (zh) * 2019-02-18 2019-07-02 平安科技(深圳)有限公司 一种地址信息标准化方法、装置、计算机设备及存储介质
US10796104B1 (en) * 2019-07-03 2020-10-06 Clinc, Inc. Systems and methods for constructing an artificially diverse corpus of training data samples for training a contextually-biased model for a machine learning-based dialogue system
CN110377686A (zh) * 2019-07-04 2019-10-25 浙江大学 一种基于深度神经网络模型的地址信息特征抽取方法
CN110569322A (zh) * 2019-07-26 2019-12-13 苏宁云计算有限公司 地址信息解析方法、装置、系统及数据获取方法
CN111625732A (zh) * 2020-05-25 2020-09-04 鼎富智能科技有限公司 地址匹配方法及装置
CN112528664A (zh) * 2021-02-05 2021-03-19 湖南工商大学 基于多任务联合学习与地址层级结构知识的地址匹配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋子辉;: "自然语言理解的中文地址匹配算法", 遥感学报, no. 04 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114461943A (zh) * 2022-04-14 2022-05-10 中国测绘科学研究院 基于深度学习的多源poi语义匹配方法、装置及其存储介质
CN114461943B (zh) * 2022-04-14 2022-08-26 中国测绘科学研究院 基于深度学习的多源poi语义匹配方法、装置及其存储介质
CN114676353A (zh) * 2022-05-25 2022-06-28 武大吉奥信息技术有限公司 一种基于分节推断的地址匹配方法
CN114911909A (zh) * 2022-06-08 2022-08-16 北京青萌数海科技有限公司 结合深度卷积网络和注意力机制的地址匹配方法以及装置
CN114911909B (zh) * 2022-06-08 2023-01-10 北京青萌数海科技有限公司 结合深度卷积网络和注意力机制的地址匹配方法以及装置
CN115168548A (zh) * 2022-09-05 2022-10-11 吉奥时空信息技术股份有限公司 一种基于召回-排序的地址匹配方法
CN115168548B (zh) * 2022-09-05 2022-11-22 吉奥时空信息技术股份有限公司 一种基于召回-排序的地址匹配方法

Also Published As

Publication number Publication date
CN113592037B (zh) 2023-11-24

Similar Documents

Publication Publication Date Title
CN113592037B (zh) 一种基于自然语言推断的地址匹配方法
CN108536679B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN111783419B (zh) 地址相似度计算方法、装置、设备和存储介质
CN110298042A (zh) 基于Bilstm-crf与知识图谱影视实体识别方法
CN112527938A (zh) 基于自然语言理解的中文poi匹配方法
CN111753189A (zh) 一种少样本跨模态哈希检索共同表征学习方法
CN110619051B (zh) 问题语句分类方法、装置、电子设备及存储介质
CN111104802B (zh) 一种地址信息文本的提取方法及相关设备
CN111444968A (zh) 一种基于注意力融合的图像描述生成方法
CN112528639B (zh) 对象识别方法和装置、存储介质及电子设备
CN114443827A (zh) 基于预训练语言模型的局部信息感知对话方法及系统
CN114676353B (zh) 一种基于分节推断的地址匹配方法
CN111680512A (zh) 命名实体识别模型、电话总机转接分机方法及系统
CN116682144B (zh) 一种基于多层次跨模态差异调和的多模态行人重识别方法
CN112561876A (zh) 基于图像的池塘和水库的水质检测方法及系统
CN114780777B (zh) 基于语义增强的跨模态检索方法及装置、存储介质和终端
CN116484024A (zh) 一种基于知识图谱的多层次知识库构建方法
CN114936627A (zh) 一种改进的分节推断地址匹配方法
CN113312498B (zh) 用无向图嵌入知识图谱的文本信息抽取方法
CN113569814A (zh) 一种基于特征一致性的无监督行人重识别方法
CN112085540A (zh) 基于人工智能技术的广告智能推送系统及方法
CN112434512A (zh) 一种结合上下文语境的新词确定方法及装置
CN116522165A (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN113626537B (zh) 一种面向知识图谱构建的实体关系抽取方法及系统
CN114398886A (zh) 一种基于预训练的地址提取和标准化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 430000 Wuda science and Technology Park, Jiangxia Avenue, Miaoshan District, Donghu Development Zone, Wuhan City, Hubei Province

Applicant after: Geospace Information Technology Co.,Ltd.

Address before: 430000 Wuda science and Technology Park, Jiangxia Avenue, Miaoshan District, Donghu Development Zone, Wuhan City, Hubei Province

Applicant before: WUDA GEOINFORMATICS Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant