CN113592037A - 一种基于自然语言推断的地址匹配方法 - Google Patents
一种基于自然语言推断的地址匹配方法 Download PDFInfo
- Publication number
- CN113592037A CN113592037A CN202110985403.6A CN202110985403A CN113592037A CN 113592037 A CN113592037 A CN 113592037A CN 202110985403 A CN202110985403 A CN 202110985403A CN 113592037 A CN113592037 A CN 113592037A
- Authority
- CN
- China
- Prior art keywords
- address
- standard
- key
- matching
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 239000013598 vector Substances 0.000 claims abstract description 114
- 238000010276 construction Methods 0.000 claims abstract description 12
- 238000011176 pooling Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000007781 pre-processing Methods 0.000 abstract 2
- 238000012163 sequencing technique Methods 0.000 abstract 1
- 244000183278 Nephelium litchi Species 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 241000109294 Rosa suffulta Species 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 235000015742 Nephelium litchi Nutrition 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 210000000582 semen Anatomy 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 101000654676 Homo sapiens Semaphorin-6B Proteins 0.000 description 1
- 102100032796 Semaphorin-6B Human genes 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于自然语言推断的地址匹配方法,包括:S1.输入标准地址库的标准地址集,通过自动构造训练样本模块生成训练样本集,使用训练样本集训练地址匹配模型。S2.将待匹配地址输入预处理模型,得到待匹配地址对中关键地址与标准地址的词向量。S3.使用自然语言推断网络推断标准地址词向量与关键地址词向量之间的匹配值,排序并选择匹配值最大的标准地址作为匹配结果,如果匹配结果大于阈值则输出匹配结果,否则输出空值。与本发明的有益效果是:通过训练样本构造模块自动构建训练样本集,相比于现有的方法,减少了构建训练样本成本;通过预处理及自然语言推断的地址匹配方法,提高了模型对地址语义的理解,从而提升了匹配方法的性能。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于自然语言推断的地址匹配方法。
背景技术
在城市服务的实际场景中,描述同一个目的地的地址,由于地址的不完整性、别名等原因,用户输入的地址与标准地址库中存储的地址往往不一致。地址匹配的目标就是判断用户输入的非标准地址与标准地址库中存储的标准地址是否指向同一个地址,为下游服务提供支持。
已有的地址匹配方法主要有四类。
第一类是基于关键词搜索的地址匹配,方法是将用户输入的地址通过关键词查找,从标准地址库中匹配出对应的标准地址。这类方法的特点是匹配效率较高,但准确率非常低。
第二类是构建人工规则的地址匹配,方法是基于领域知识构建匹配规则,根据匹配规则匹配非标准地址与标准地址是否指向同一地址。这类方法的特点是匹配效率较高,准确率较高,但规则繁琐,人工成本高,泛化能力差。
第三类是基于统计概率机器学习模型的地址匹配方法,方法是先构建统计特征和训练样本,然后模型通过训练样本学习模型参数。这类方法的特点是相较第一类与第二类泛化能力更好。但因为对地址语义理解的不够充分,准确率仍有不足。现有的地址匹配方法如基于距离的地址匹配,基于空间坐标与中文信息的地址匹配,基于地理要素层级识别的地址匹配大多属于第二类与第三类方法。
第四类是基于深度学习的地址匹配方法,方法是构建多层神经网络,通过训练样本学习网络参数。这类方法相较前三类,准确率更高。如基于语义识别的地址匹配,基于知识图谱的地址匹配,基于多任务学习的地址匹配。但现有的方法需要消耗大量人工成本做标注样本,且对地址语义的提取仍有不足,准确率有待提高。
发明内容
针对上述问题,本发明提出了一种基于自然语言推断的地址匹配方法,相较于已有的方法,减少了构建训练样本成本,提高了匹配准确率。
本发明所要解决的技术问题为:判断和识别用户输入的非标准地址与标准地址库的标准地址是否指向同一目的地。
本发明为此,提供一种基于自然语言推断的地址匹配方法,包括以下步骤:
构建地址匹配模型,所述地址匹配模型包括预训练模型和地址推断模型;
训练所述地址匹配模型,具体为:
S11:获取标准地址库,得到标准地址集;
S12:输入标准地址集至训练样本构造模块,生成训练样本集;
S13:将训练样本集输入至地址匹配模型,根据训练样本学习地址匹配模型参数,得到训练完成的地址匹配模型;
使用训练完成的地址匹配模型作推断,具体如下:
S21:输入待匹配地址对至预测样本构造模块,生成预测样本对;所述待匹配地址对的格式为:[关键地址,标准地址1,标准地址2,...标准地址n];
S22:将预测样本对输入至所述预训练模型,得到样本的词向量;
S23:样本的词向量进入地址推断模型,得到标准地址与关键地址的匹配值;
S24:将每个标准地址与关键地址的匹配值排序,选择匹配值最大的标准地址作为输出结果;
S25:若输出结果的匹配值大于预设的阈值,则显示匹配成功,并输出结果;否则显示匹配失败,输出空值。
进一步地,步骤S11中,所述标准地址集包含多个标准地址;标准地址由地理要素构成,包括:行政地理要素和详细地理要素;行政地理要素包括:省、市、区、街道、社区和行政编码;详细地理要素包括:小区、楼栋和门牌号。
步骤S12,生成训练样本集的具体过程为:
S121:随机替换一个标准地址中的某个地理要素,得到替换后的地址,并将替换后的地址标签记为0或1;其中1表示与输入的标准地址指向同一目的地,0表示与输入的标准地址为不同的目的地;
替换地理要素共11种方式,其中替换省、市、区、街道、社区、小区、楼栋、门牌号这8种,替换地址的标签设置为0;替换行政编码分为两种情况,一种为替换行政编码并删除小区、楼栋、门牌号详细地理要素,这种替换地址的标签设置为0;另一种为替换行政编码但其他地理要素不做更改,这种替换地址的标签设置为1;还有一种替换地理要素方式为不做任何处理,即标准地址与替换地址完全相同,这种替换地址的标签设置为1;
S122:从9种地址标签为0的替换地址中随机选择1个,并按照两种不同的规则随机删除0至3个替换地址中的地理要素,分别生成对应规则下的1个候选关键地址,记为a 11,a 12;其中,a 11表示9种地址标签为0的替换地址中,在第一种规则下生成的候选关键地址;a 12表示9种地址标签为0的替换地址中,在第二种规则下生成的候选关键地址;
从两种地址标签为1的替换地址中,随机选择1个,并按照两种规则随机删除0至3个替换地址中的地理要素,分别生成对应规则下的1个候选关键地址,记为b 11,b 12;其中,b 11表示两种地址标签为1的替换地址中,在第一种规则下生成的候选关键地址;b 12表示两种地址标签为1的替换地址中,在第二种规则下生成的候选关键地址;
其中,删除的地理要素,不包含已经被替换过的地理要素;
两种不同的规则具体为:
第一种:如果随机删除的0至3个地理要素,不包含小区、楼栋以及门牌号,则删除地理要素后的地址标签保持不变;
第二种:如果随机删除的0至3个地理要素,包含小区、楼栋以及门牌号,则删除地理要素后的地址标签标记为0;
S123:从a 11,a 12,b 11,b 12中随机选择1个标签为1的地址,作为关键地址,并与输入的标准地址一起,作为正样本;从a 11,a 12,b 11,b 12中随机选择1个标签为0的地址,作为关键地址,并与输入的标准地址一起,作为负样本;所述训练样本集由所述正样本和所述负样本组成。
进一步地,步骤S13中训练地址匹配模型的具体过程为:
S131:将训练样本集输入至地址匹配模型,由地址匹配模型作推断,得到训练样本的推断标签;
S132:判断推断标签与训练样本集已经构造的标签是否一致,确定损失值,使用梯度下降法修改模型参数,并减小损失值;
S133:通过多次循环训练地址匹配模型,获得推断标签与训练样本已经构造标签之间损失值最小的模型,即得到训练完成的地址匹配模型。
进一步地,步骤S21中,所述预测样本构造模块,用于将待匹配地址对中每一个标准地址分别与关键地址进行组合,生成预测样本对;所述预测样本对的格式为:[关键地址,标准地址1],[关键地址,标准地址2],...,[关键地址,标准地址n]。
进一步地,步骤S22具体为:
S221:将预测样本对中的关键地址和标准地址分割成字,得到关键地址字列表和标准地址字列表;
S222:将关键地址字列表与标准地址字列表分别输入至分词器,分别得到关键地址的字编码与位置编码、标准地址字编码与位置编码;
S223:将关键地址的字编码与位置编码、标准地址字编码与位置编码输入至bert模型,分别得到关键地址词向量和标准地址词向量;所述样本的词向量即为关键地址词向量和标准地址词向量。
步骤S23具体为:
S232:通过对齐操作,得到关键地址与标准地址的相似权重矩阵E;
S234:将关键地址的隐层状态向量与相似向量做减法与乘法,并做软对齐,得
到关键地址信息增强向量M k ;将标准地址的隐层状态向量与相似向量做减法与乘法,并
做软对齐,得到标准地址信息增强向量M s ;
S235:将关键地址信息增强向量M k 和标准地址信息增强向量M s 分别输入至第二个Bi-LSTM神经网络,分别得到关键地址匹配向量V k 和标准地址匹配向量V s ;
S236:将关键地址匹配向量V k 和标准地址匹配向量V s ,均分别通过最大池化和平均池化,得到关键地址最大池化向量V k,max 、关键地址平均池化向量V k,avg 、标准地址最大池化向量V s,max 、标准地址平均池化向量V s,avg ;并将四个池化向量进行拼接,得到地址匹配信息向量V=[V k,max ,V k,avg ,V s,max ,V s,avg ];
S237:将地址匹配信息向量V输入到全连接层,并通过归一化指数函数SOFTMAX得到最终标准地址与关键地址的匹配值;所述全连接层包含两个全连接神经网络,两网络间的激活函数为tanh激活函数;
本发明提供的有益效果是:相较于传统的基于人工规则的地址匹配方法,精确度更高,泛化能力更好。相较于基于统计概率机器学习模型的地址匹配方法以及其他基于深度学习的地址匹配方法,能够根据标准地址库自动构建训练样本,减少人工成本;使用bert预训练模型以及自然语言推断模型,能够更深层的提取地址语义,提高地址匹配的精确度。
附图说明
图1是本发明基于自然语言推断的地址匹配方法的示意图;
图2是本发明训练样本集构造过程示意图;
图3是使用训练完成的地址匹配模型作推断的流程示意图;
图4是使用预训练模型示意图;
图5是地址推断模型使用示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地描述。
请参考图1,图1是本发明基于自然语言推断的地址匹配方法的示意图;
一种基于自然语言推断的地址匹配方法,包括以下:
构建地址匹配模型,所述地址匹配模型包括预训练模型和地址推断模型;
训练所述地址匹配模型,具体为:
S11:获取标准地址库,得到标准地址集;
本发明中,所述标准地址集包含多个标准地址;标准地址由地理要素构成,包括:行政地理要素和详细地理要素;行政地理要素包括:省、市、区、街道、社区和行政编码;详细地理要素包括:小区、楼栋和门牌号;
作为一种实施例,标准地址如:广东省深圳市南山区南山街道荔湾社区前海路0199号恒立心海湾花园2栋C1204;标准地址中包括了省、市、区、街道、社区、行政编码、小区、楼栋和门牌号这些地理要素。
S12:输入标准地址集至训练样本构造模块,生成训练样本集;
请参考图2,图2是训练样本集构造过程示意图;
步骤S12,生成训练样本集的具体过程为:
S121:随机替换一个标准地址中的某个地理要素,得到替换后的地址,并将替换后的地址标签记为0或1;其中1表示与输入的标准地址指向同一目的地,0表示与输入的标准地址为不同的目的地;
替换地理要素共11种方式,其中替换省、市、区、街道、社区、小区、楼栋、门牌号这8种,替换地址的标签设置为0;替换行政编码分为两种情况,一种为替换行政编码并删除小区、楼栋、门牌号详细地理要素,这种替换地址的标签设置为0;另一种为替换行政编码但其他地理要素不做更改,这种替换地址的标签设置为1;还有一种替换地理要素方式为不做任何处理,即标准地址与替换地址完全相同,这种替换地址的标签设置为1;
对应图2中,标准地址为:广东省深圳市南山区南山街道荔湾社区前海路0199号恒立心海湾花园2栋C1204;
替换省行政地理要素的替换地址1为:湖北省深圳市南山区南山街道荔湾社区前海路0199号恒立心海湾花园2栋C1204,标签为0;
替换市行政地理要素的替换地址2为:广东省广州市南山区南山街道荔湾社区前海路0199号恒立心海湾花园2栋C1204,标签为0;
依次对照图2,直至替换门牌号地理要素的替换地址8为:广东省深圳市南山区南山街道荔湾社区前海路0199号恒立心海湾花园5栋C2104,标签为0;
对应的,替换行政编码的地理要素有两种;
替换行政编码并删除小区楼栋、门牌号详细地理要素的替换地址9为:广东省深圳市南山区南山街道荔湾社区前海路2000号,标签为0;
替换行政编码但其他地理要素不做更改的替换地址10为:广东省深圳市南山区南山街道荔湾社区前海路2000号恒立心海湾花园2栋C1204,标签为1;
最后还包括没有作任何更改的替换地址:广东省深圳市南山区南山街道荔湾社区前海路0199号恒立心海湾花园2栋C1204,标签为1;
S122:从9种地址标签为0的替换地址中随机选择1个,并按照两种不同的规则随机删除0至3个替换地址中的地理要素,分别生成对应规则下的1个候选关键地址,记为a 11,a 12;其中,a 11表示9种地址标签为0的替换地址中,在第一种规则下生成的候选关键地址;a 12表示9种地址标签为0的替换地址中,在第二种规则下生成的候选关键地址;
从两种地址标签为1的替换地址中,随机选择1个,并按照两种规则随机删除0至3个替换地址中的地理要素,分别生成对应规则下的1个候选关键地址,记为b 11,b 12;其中,b 11表示两种地址标签为1的替换地址中,在第一种规则下生成的候选关键地址;b 12表示两种地址标签为1的替换地址中,在第二种规则下生成的候选关键地址;
其中,删除的地理要素,不包含已经被替换过的地理要素;
两种不同的规则具体为:
第一种:如果随机删除的0至3个地理要素,不包含小区、楼栋以及门牌号,则删除地理要素后的地址标签保持不变;
第二种:如果随机删除的0至3个地理要素,包含小区、楼栋以及门牌号,则删除地理要素后的地址标签标记为0;
请参照图2,本发明实施例中,从8个替换结果中随机选择1个替换地址,为替换地址6:广东省深圳市南山区南山街道荔湾社区前海路0199号中海阳光玫瑰园2栋C1204,标签为0;从2个替换结果中随机选择1个替换地址,为替换地址11(即通过不做任何更改生成的替换地址):广东省深圳市南山区南山街道荔湾社区前海路0199号恒立心海湾花园2栋C1204,标签为1;
从替换地址6和替换地址11中,随机删除0~3个地理要素,得到a 11,a 12,b 11,b 12分别对应为:深圳市南山区荔湾社区中海阳光玫瑰园2栋C1204,标签为0、南山区南山街道荔湾社区恒立心海湾花园5栋C1204,标签为1、深圳市南山区荔湾社区前中海阳光玫瑰园C1204,标签为0、深圳市南山区荔湾社区恒立心海湾花园5栋1204,标签为0;
S123:从a 11,a 12,b 11,b 12中随机选择1个标签为1的地址,作为关键地址,并与输入的标准地址一起,作为正样本;从a 11,a 12,b 11,b 12中随机选择1个标签为0的地址,作为关键地址,并与输入的标准地址一起,作为负样本;所述训练样本集由所述正样本和所述负样本组成。
请参照图2,最终的训练样本即为:正样本,包括关键地址、标准地址和标签。关键地址:南山区南山街道荔湾社区恒立心海湾花园5栋C1204,标准地址:广东省深圳市南山区南山街道荔湾社区前海路0199号恒立心海湾花园2栋C1204,标签:1;负样本,包括关键地址、标准地址和标签。关键地址:深圳市南山区荔湾社区前中海阳光玫瑰园C1204,标准地址:广东省深圳市南山区南山街道荔湾社区前海路0199号恒立心海湾花园2栋C1204,标签:0。
使用以上所述方法,将多个标准地址生成的多个训练样本集合在一起,生成最终的训练样本集;
最终的训练样本即为:正样本,包括关键地址、标准地址和标签。关键地址:南山区南山街道荔湾社区恒立心海湾花园5栋C1204,标准地址:广东省深圳市南山区南山街道荔湾社区前海路0199号恒立心海湾花园2栋C1204,标签:1;负样本,包括关键地址、标准地址和标签。关键地址:深圳市南山区荔湾社区前中海阳光玫瑰园C1204,标准地址:广东省深圳市南山区南山街道荔湾社区前海路0199号恒立心海湾花园2栋C1204,标签:0。
S13:将训练样本集输入至地址匹配模型,根据训练样本学习地址匹配模型参数,得到训练完成的地址匹配模型;
步骤S13中训练地址匹配模型的具体过程为:
S131:将训练样本集输入至地址匹配模型,由地址匹配模型作推断,得到训练样本的推断标签;
S132:判断推断标签与训练样本集已经构造的标签是否一致,确定损失值,使用梯度下降法修改模型参数,并减小损失值;
S133:通过多次循环训练地址匹配模型,获得推断标签与训练样本已经构造标签之间损失值最小的模型,即得到训练完成的地址匹配模型。
需要特别说明的是,S133中的使用地址匹配模型做推断,与后文“使用地址匹配模型做推断”中的模型推断过程一致,具体过程在后文部分说明。
两者的区别在于,一个是训练过程,一个是使用过程,只不过在训练过程,模型推断的结果会和训练样本标签比对,然后模型通过比对结果学习参数。而在使用(推断)过程,模型推断的结果直接当做结果输出。
请参考图3,图3是使用训练完成的地址匹配模型作推断的流程示意图;
参考图3,使用训练完成的地址匹配模型作推断,具体如下:
S21:输入待匹配地址对至预测样本构造模块,生成预测样本对;所述待匹配地址对的格式为:[关键地址,标准地址1,标准地址2,...标准地址n];步骤S21中,所述预测样本构造模块,用于将待匹配地址对中每一个标准地址分别与关键地址进行组合,生成预测样本对;所述预测样本对的格式为:[关键地址,标准地址1],[关键地址,标准地址2],...,[关键地址,标准地址n]。
S22:将预测样本对输入至所述预训练模型,得到样本的词向量;
请参考图4,图4是使用预训练模型示意图;
步骤S22具体为:
S221:将预测样本对中的关键地址和标准地址分割成字,得到关键地址字列表和标准地址字列表;
举例说明如下:
关键地址:深圳市南山区荔湾社区恒立心海湾花园2栋C单元1204;
关键地址字列表:【深,圳,市,南,山,区,荔,湾,社,区,恒,立,心,海,湾,花,园,2,栋,C,单,元,1,2,0,4】
标准地址:广东省深圳市南山区南山街道荔湾社区前海路0199号恒立心海湾花园2栋C1204;
标准地址字列表:【广,东,省,深,圳,市,南,山,区,南,山,街,道,荔,湾,社,区,前,海,路,0,1,9,9,号,恒,立,心,海,湾,花,园,2,栋,C,1,2,0,4】;
S222:将关键地址字列表与标准地址字列表分别输入至分词器,分别得到关键地址的字编码与位置编码、标准地址字编码与位置编码;
举例说明如下:
关键地址字列表:【深,圳,市,南,山,区,荔,湾,社,区,恒,立,心,海,湾,花,园,2,栋,C,单,元,1,2,0,4】;
关键地址字编码:【3918, 1766, 2356, 1298, 2255, 1277, 5775, 3968, 4852,1277, 2608, 4989, 2552, 3862, 3968, 5709, 1736, 123, 3406, 145, 1296, 1039,122, 123, 121, 125】;
关键地址位置编码:【0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25】;
标准地址字列表:【广,东,省,深,圳,市,南,山,区,南,山,街,道,荔,湾,社,区,前,海,路,0,1,9,9,号,恒,立,心,海,湾,花,园,2,栋,C,1,2,0,4】;
标准地址字编码:【2408, 691, 4689, 3918, 1766, 2356, 1298, 2255, 1277,1298, 2255, 6125, 6887, 5775, 3968, 4852, 1277, 1184, 3862, 6662, 121, 122,130, 130, 1384, 2608, 4989, 2552, 3862, 3968, 5709, 1736, 123, 3406, 145,122, 123, 121, 125】;
标准地址位置编码:【0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14,15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,34, 35, 36, 37, 38】;
本发明中的分词器为哈工大公开的Chinese-bert-wwm-ext Bert(BidirectionalEncoder Representation from Transformers,即双向Transformer的Encoder)预训练模型,分词方法为bert模型中的分词功能。
S223:将关键地址的字编码与位置编码、标准地址字编码与位置编码输入至bert模型,分别得到关键地址词向量和标准地址词向量;所述样本的词向量即为关键地址词向量和标准地址词向量。
Bert模型能够同时综合字义与字序,将字转换为数字化的向量。Chinese-bert-wwm-ext Bert使用大规模中文语料进行训练,输出的数字化向量能够比较好的反映对应字的含义。
S23:样本的词向量进入地址推断模型,得到标准地址与关键地址的匹配值;
请参考图5,图5是地址推断模型使用示意图;
步骤S23具体为:
S232:通过对齐操作,得到关键地址与标准地址的相似权重矩阵E;
S233:利用得到的相似权重矩阵E,对标准地址隐藏状态向量加权求和,得到关
键地址相似向量;利用得到的相似权重矩阵E,对关键地址的隐层状态向量加权求和,
得到标准地址相似向量;两个相似向量的计算公式如下:
其中l s 代表标准地址的字数,l K 代表关键地址的字数,e ij 代表相似权重矩阵E中第i行第j列的数值。e im ,e mj 同理可得。
S234:将关键地址的隐层状态向量与相似向量做减法与乘法,并做软对齐,得
到关键地址信息增强向量M k ;将标准地址的隐层状态向量与相似向量做减法与乘法,并
做软对齐,得到标准地址信息增强向量M s ;具体如下式:
S235:将关键地址信息增强向量M k 和标准地址信息增强向量M s 分别输入至第二个Bi-LSTM神经网络,分别得到关键地址匹配向量V k 和标准地址匹配向量V s ;
S236:将关键地址匹配向量V k 和标准地址匹配向量V s ,均分别通过最大池化和平均池化,得到关键地址最大池化向量V k,max 、关键地址平均池化向量V k,avg 、标准地址最大池化向量V s,max 、标准地址平均池化向量V s,avg ;并将四个池化向量进行拼接,得到地址匹配信息向量V=[V k,max ,V k,avg ,V s,max ,V s,avg ];
平均池化与最大池化公式如下所示,其中V k,i 表示关键地址匹配向量V k 中的第i个向量。
S237:将地址匹配信息向量V输入到全连接层,并通过归一化指数函数SOFTMAX得到最终标准地址与关键地址的匹配值;所述全连接层包含两个全连接神经网络,两网络间的激活函数为tanh激活函数;SOFTMAX函数输出的匹配值在0到1之间;
S24:将每个标准地址与关键地址的匹配值排序,选择匹配值最大的标准地址作为输出结果;
S25:若输出结果的匹配值大于预设的阈值,则显示匹配成功,并输出匹配值;否则显示匹配失败,输出空值。其中预设的阈值范围为0~1,可调,默认为0.5。
本发明的有益效果是:相较于传统的基于人工规则的地址匹配方法,精确度更高,泛化能力更好。相较于基于统计概率机器学习模型的地址匹配方法以及其他基于深度学习的地址匹配方法,能够根据标准地址库自动构建训练样本,减少人工成本;使用bert预训练模型以及自然语言推断模型,能够更深层的提取地址语义,提高地址匹配的精确度。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于自然语言推断的地址匹配方法,其特征在于:包括以下:
构建地址匹配模型,所述地址匹配模型包括预训练模型和地址推断模型;
训练所述地址匹配模型,具体为:
S11:获取标准地址库,得到标准地址集;
S12:输入标准地址集至训练样本构造模块,生成训练样本集;
S13:将训练样本集输入至地址匹配模型,根据训练样本学习地址匹配模型参数,得到训练完成的地址匹配模型;
使用训练完成的地址匹配模型作推断,具体如下:
S21:输入待匹配地址对至预测样本构造模块,生成预测样本对;所述待匹配地址对的格式为:[关键地址,标准地址1,标准地址2,...标准地址n];
S22:将预测样本对输入至所述预训练模型,得到样本的词向量;
S23:样本的词向量进入地址推断模型,得到标准地址与关键地址的匹配值;
S24:将每个标准地址与关键地址的匹配值排序,选择匹配值最大的标准地址作为输出结果;
S25:若输出结果的匹配值大于预设的阈值,则显示匹配成功,并输出结果;否则显示匹配失败,输出空值。
2.如权利要求1所述的一种基于自然语言推断的地址匹配方法,其特征在于:步骤S11中,所述标准地址集包含多个标准地址;标准地址由地理要素构成,包括:行政地理要素和详细地理要素;行政地理要素包括:省、市、区、街道、社区和行政编码;详细地理要素包括:小区、楼栋和门牌号。
3.如权利要求1所述的一种基于自然语言推断的地址匹配方法,其特征在于:步骤S12,生成训练样本集的具体过程为:
S121:随机替换一个标准地址中的某个地理要素,得到替换后的地址,并将替换后的地址标签记为0或1;其中1表示与输入的标准地址指向同一目的地,0表示与输入的标准地址为不同的目的地;
替换地理要素共11种方式,其中替换省、市、区、街道、社区、小区、楼栋、门牌号这8种,替换地址的标签设置为0;替换行政编码分为两种情况,一种为替换行政编码并删除小区、楼栋、门牌号详细地理要素,这种替换地址的标签设置为0;另一种为替换行政编码但其他地理要素不做更改,这种替换地址的标签设置为1;还有一种替换地理要素方式为不做任何处理,即标准地址与替换地址完全相同,这种替换地址的标签设置为1;
S122:从9种地址标签为0的替换地址中随机选择1个,并按照两种不同的规则随机删除0至3个替换地址中的地理要素,分别生成对应规则下的1个候选关键地址,记为a 11,a 12;其中,a 11表示9种地址标签为0的替换地址中,在第一种规则下生成的候选关键地址;a 12表示9种地址标签为0的替换地址中,在第二种规则下生成的候选关键地址;
从两种地址标签为1的替换地址中,随机选择1个,并按照两种规则随机删除0至3个替换地址中的地理要素,分别生成对应规则下的1个候选关键地址,记为b 11,b 12;其中,b 11表示两种地址标签为1的替换地址中,在第一种规则下生成的候选关键地址;b 12表示两种地址标签为1的替换地址中,在第二种规则下生成的候选关键地址;
其中,删除的地理要素,不包含已经被替换过的地理要素;
两种不同的规则具体为:
第一种:如果随机删除的0至3个地理要素,不包含小区、楼栋以及门牌号,则删除地理要素后的地址标签保持不变;
第二种:如果随机删除的0至3个地理要素,包含小区、楼栋以及门牌号,则删除地理要素后的地址标签标记为0;
S123:从a 11,a 12,b 11,b 12中随机选择1个标签为1的地址,作为关键地址,并与输入的标准地址一起,作为正样本;从a 11,a 12,b 11,b 12中随机选择1个标签为0的地址,作为关键地址,并与输入的标准地址一起,作为负样本;所述训练样本集由所述正样本和所述负样本组成。
4.如权利要求1所述的一种基于自然语言推断的地址匹配方法,其特征在于:步骤S13中训练地址匹配模型的具体过程为:
S131:将训练样本集输入至地址匹配模型,由地址匹配模型作推断,得到训练样本的推断标签;
S132:判断推断标签与训练样本集已经构造的标签是否一致,确定损失值,使用梯度下降法修改模型参数,并减小损失值;
S133:通过多次循环训练地址匹配模型,获得推断标签与训练样本已经构造标签之间损失值最小的模型,即得到训练完成的地址匹配模型。
5.如权利要求1所述的一种基于自然语言推断的地址匹配方法,其特征在于:步骤S21中,所述预测样本构造模块,用于将待匹配地址对中每一个标准地址分别与关键地址进行组合,生成预测样本对;所述预测样本对的格式为:[关键地址,标准地址1],[关键地址,标准地址2],...,[关键地址,标准地址n]。
6.如权利要求1所述的一种基于自然语言推断的地址匹配方法,其特征在于:步骤S22具体为:
S221:将预测样本对中的关键地址和标准地址分割成字,得到关键地址字列表和标准地址字列表;
S222:将关键地址字列表与标准地址字列表分别输入至分词器,分别得到关键地址的字编码与位置编码、标准地址字编码与位置编码;
S223:将关键地址的字编码与位置编码、标准地址字编码与位置编码输入至bert模型,分别得到关键地址词向量和标准地址词向量;所述样本的词向量即为关键地址词向量和标准地址词向量。
7.如权利要求6所述的一种基于自然语言推断的地址匹配方法,其特征在于:步骤S23具体为:
S232:通过对齐操作,得到关键地址与标准地址的相似权重矩阵E;
S234:将关键地址的隐层状态向量与相似向量做减法与乘法,并做软对齐,得到关
键地址信息增强向量M k ;将标准地址的隐层状态向量与相似向量做减法与乘法,并做软
对齐,得到标准地址信息增强向量M s ;
S235:将关键地址信息增强向量M k 和标准地址信息增强向量M s 分别输入至第二个Bi-LSTM神经网络,分别得到关键地址匹配向量V k 和标准地址匹配向量V s ;
S236:将关键地址匹配向量V k 和标准地址匹配向量V s ,均分别通过最大池化和平均池化,得到关键地址最大池化向量V k,max 、关键地址平均池化向量V k,avg 、标准地址最大池化向量V s,max 、标准地址平均池化向量V s,avg ;并将四个池化向量进行拼接,得到地址匹配信息向量V=[V k,max ,V k,avg ,V s,max ,V s,avg ];
S237:将地址匹配信息向量V输入到全连接层,并通过归一化指数函数SOFTMAX得到最终标准地址与关键地址的匹配值;所述全连接层包含两个全连接神经网络,两网络间的激活函数为tanh激活函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110985403.6A CN113592037B (zh) | 2021-08-26 | 2021-08-26 | 一种基于自然语言推断的地址匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110985403.6A CN113592037B (zh) | 2021-08-26 | 2021-08-26 | 一种基于自然语言推断的地址匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113592037A true CN113592037A (zh) | 2021-11-02 |
CN113592037B CN113592037B (zh) | 2023-11-24 |
Family
ID=78239989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110985403.6A Active CN113592037B (zh) | 2021-08-26 | 2021-08-26 | 一种基于自然语言推断的地址匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113592037B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114461943A (zh) * | 2022-04-14 | 2022-05-10 | 中国测绘科学研究院 | 基于深度学习的多源poi语义匹配方法、装置及其存储介质 |
CN114676353A (zh) * | 2022-05-25 | 2022-06-28 | 武大吉奥信息技术有限公司 | 一种基于分节推断的地址匹配方法 |
CN114911909A (zh) * | 2022-06-08 | 2022-08-16 | 北京青萌数海科技有限公司 | 结合深度卷积网络和注意力机制的地址匹配方法以及装置 |
CN115168548A (zh) * | 2022-09-05 | 2022-10-11 | 吉奥时空信息技术股份有限公司 | 一种基于召回-排序的地址匹配方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109684440A (zh) * | 2018-12-13 | 2019-04-26 | 北京惠盈金科技术有限公司 | 基于层级标注的地址相似度度量方法 |
CN109960795A (zh) * | 2019-02-18 | 2019-07-02 | 平安科技(深圳)有限公司 | 一种地址信息标准化方法、装置、计算机设备及存储介质 |
CN110377686A (zh) * | 2019-07-04 | 2019-10-25 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
CN110569322A (zh) * | 2019-07-26 | 2019-12-13 | 苏宁云计算有限公司 | 地址信息解析方法、装置、系统及数据获取方法 |
CN111625732A (zh) * | 2020-05-25 | 2020-09-04 | 鼎富智能科技有限公司 | 地址匹配方法及装置 |
US10796104B1 (en) * | 2019-07-03 | 2020-10-06 | Clinc, Inc. | Systems and methods for constructing an artificially diverse corpus of training data samples for training a contextually-biased model for a machine learning-based dialogue system |
CN112528664A (zh) * | 2021-02-05 | 2021-03-19 | 湖南工商大学 | 基于多任务联合学习与地址层级结构知识的地址匹配方法 |
-
2021
- 2021-08-26 CN CN202110985403.6A patent/CN113592037B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109684440A (zh) * | 2018-12-13 | 2019-04-26 | 北京惠盈金科技术有限公司 | 基于层级标注的地址相似度度量方法 |
CN109960795A (zh) * | 2019-02-18 | 2019-07-02 | 平安科技(深圳)有限公司 | 一种地址信息标准化方法、装置、计算机设备及存储介质 |
US10796104B1 (en) * | 2019-07-03 | 2020-10-06 | Clinc, Inc. | Systems and methods for constructing an artificially diverse corpus of training data samples for training a contextually-biased model for a machine learning-based dialogue system |
CN110377686A (zh) * | 2019-07-04 | 2019-10-25 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
CN110569322A (zh) * | 2019-07-26 | 2019-12-13 | 苏宁云计算有限公司 | 地址信息解析方法、装置、系统及数据获取方法 |
CN111625732A (zh) * | 2020-05-25 | 2020-09-04 | 鼎富智能科技有限公司 | 地址匹配方法及装置 |
CN112528664A (zh) * | 2021-02-05 | 2021-03-19 | 湖南工商大学 | 基于多任务联合学习与地址层级结构知识的地址匹配方法 |
Non-Patent Citations (1)
Title |
---|
宋子辉;: "自然语言理解的中文地址匹配算法", 遥感学报, no. 04 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114461943A (zh) * | 2022-04-14 | 2022-05-10 | 中国测绘科学研究院 | 基于深度学习的多源poi语义匹配方法、装置及其存储介质 |
CN114461943B (zh) * | 2022-04-14 | 2022-08-26 | 中国测绘科学研究院 | 基于深度学习的多源poi语义匹配方法、装置及其存储介质 |
CN114676353A (zh) * | 2022-05-25 | 2022-06-28 | 武大吉奥信息技术有限公司 | 一种基于分节推断的地址匹配方法 |
CN114911909A (zh) * | 2022-06-08 | 2022-08-16 | 北京青萌数海科技有限公司 | 结合深度卷积网络和注意力机制的地址匹配方法以及装置 |
CN114911909B (zh) * | 2022-06-08 | 2023-01-10 | 北京青萌数海科技有限公司 | 结合深度卷积网络和注意力机制的地址匹配方法以及装置 |
CN115168548A (zh) * | 2022-09-05 | 2022-10-11 | 吉奥时空信息技术股份有限公司 | 一种基于召回-排序的地址匹配方法 |
CN115168548B (zh) * | 2022-09-05 | 2022-11-22 | 吉奥时空信息技术股份有限公司 | 一种基于召回-排序的地址匹配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113592037B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113592037B (zh) | 一种基于自然语言推断的地址匹配方法 | |
CN108536679B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
CN111783419B (zh) | 地址相似度计算方法、装置、设备和存储介质 | |
CN110298042A (zh) | 基于Bilstm-crf与知识图谱影视实体识别方法 | |
CN112527938A (zh) | 基于自然语言理解的中文poi匹配方法 | |
CN111753189A (zh) | 一种少样本跨模态哈希检索共同表征学习方法 | |
CN110619051B (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
CN111104802B (zh) | 一种地址信息文本的提取方法及相关设备 | |
CN111444968A (zh) | 一种基于注意力融合的图像描述生成方法 | |
CN112528639B (zh) | 对象识别方法和装置、存储介质及电子设备 | |
CN114443827A (zh) | 基于预训练语言模型的局部信息感知对话方法及系统 | |
CN114676353B (zh) | 一种基于分节推断的地址匹配方法 | |
CN111680512A (zh) | 命名实体识别模型、电话总机转接分机方法及系统 | |
CN116682144B (zh) | 一种基于多层次跨模态差异调和的多模态行人重识别方法 | |
CN112561876A (zh) | 基于图像的池塘和水库的水质检测方法及系统 | |
CN114780777B (zh) | 基于语义增强的跨模态检索方法及装置、存储介质和终端 | |
CN116484024A (zh) | 一种基于知识图谱的多层次知识库构建方法 | |
CN114936627A (zh) | 一种改进的分节推断地址匹配方法 | |
CN113312498B (zh) | 用无向图嵌入知识图谱的文本信息抽取方法 | |
CN113569814A (zh) | 一种基于特征一致性的无监督行人重识别方法 | |
CN112085540A (zh) | 基于人工智能技术的广告智能推送系统及方法 | |
CN112434512A (zh) | 一种结合上下文语境的新词确定方法及装置 | |
CN116522165A (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN113626537B (zh) | 一种面向知识图谱构建的实体关系抽取方法及系统 | |
CN114398886A (zh) | 一种基于预训练的地址提取和标准化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 430000 Wuda science and Technology Park, Jiangxia Avenue, Miaoshan District, Donghu Development Zone, Wuhan City, Hubei Province Applicant after: Geospace Information Technology Co.,Ltd. Address before: 430000 Wuda science and Technology Park, Jiangxia Avenue, Miaoshan District, Donghu Development Zone, Wuhan City, Hubei Province Applicant before: WUDA GEOINFORMATICS Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |