CN112528664B - 基于多任务联合学习与地址层级结构知识的地址匹配方法 - Google Patents
基于多任务联合学习与地址层级结构知识的地址匹配方法 Download PDFInfo
- Publication number
- CN112528664B CN112528664B CN202110159689.2A CN202110159689A CN112528664B CN 112528664 B CN112528664 B CN 112528664B CN 202110159689 A CN202110159689 A CN 202110159689A CN 112528664 B CN112528664 B CN 112528664B
- Authority
- CN
- China
- Prior art keywords
- address
- network
- word segmentation
- hierarchy
- shared
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000011218 segmentation Effects 0.000 claims abstract description 70
- 238000002372 labelling Methods 0.000 claims abstract description 34
- 238000000605 extraction Methods 0.000 claims abstract description 21
- 239000013598 vector Substances 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 17
- 238000013136 deep learning model Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 5
- 238000013519 translation Methods 0.000 claims description 3
- 230000014616 translation Effects 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 description 8
- 230000006872 improvement Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000007637 random forest analysis Methods 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 150000003839 salts Chemical class 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241001412225 Firmiana simplex Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于多任务联合学习与地址层级结构知识的地址匹配方法,具体包括如下步骤:S1:输入地址对;S2:地址对进入共享地址特征抽取网络;地址对进入地址要素标注网络,经标注后得到第一分词结果,第一分词结果进入地址要素识别网络;S3:共享地址特征经进入地址要素识别网络,经分词后,得到第二分词结果,第二分词结果与第一分词结果比对;用于判断第二分词结果是否符合第一分词结果和地址要素层级顺序,若不符合,重新调整共享地址特征;S4:调整后的共享地址特征进入地址匹配网络,用于判断输入的地址对是否匹配;S5:输出匹配结果。本发明将地址层级要素识别任务与地址匹配任务联合起来学习,从而提升模型的性能。
Description
技术领域
本发明涉及基于多任务联合学习与地址层级结构知识的地址匹配方法。
背景技术
地址匹配是将需要查询的非结构化的地址与数据库中标准的地址进行匹配,以便将随意的地址转换为标准的地理坐标,从而在地图上进行定位,关键问题是判别两个地址文本是否匹配,涉及到对应的地址层级结构要素的对比。地址要素是指省、市、区、街道等地址实体的名字(如深圳市)。以往的方法主要集中于基于复杂的规则的字符串匹配和基于机器学习或深度学习模型的浅层语义匹配,忽略了地址特有的地址层级结构信息。
传统方法通常基于逐个字符来判别字符串相似性,如使用欧式距离与余弦距离衡量地址匹配程度,有时为了考虑地址层级结构的关系,需要人工设计复杂的规则去识别地址的层级要素,从而提高地址匹配的精度。最近虽然使用了机器学习方法,但只提取了地址的浅层语义,有些漏掉了其真实的含义,对于那些字符重复率高但实际意义不同的地址对很容易判断错误。比如“深圳市南山区南山街道向南村六坊24号501”与“深圳市南山区南山街道向南社区0150号”会被误判成匹配的地址。
现有的方法主要分为两种,一是基于人工规则的匹配方式,部分考虑了地址层级结构,但是规则的设计耗费了大量人力物力,而且只适用于特定的情况,精度较低,另一种是基于机器学习与深度学习的方式,虽然一定程度上克服了人工设计规则,但是都忽略了地址层级结构信息。
最近随着深度学习与自然语言处理的快速发展,越来越多的方法被用于地理学科。深度学习是一种端到端的处理方法,因此极大程度地缓解了人工设计规则的问题。深度学习模型可以自动捕获有意义且深层次的语义特征,因此一些端到端的方法被提出来去判断字符串相似性。如2020年林玥等人使用增强型顺序推理深度学习模型ESIM(EnhancedLSTM for Language Inference,用于语言推理的增强型LSTM)从局部和整体推断地址是否匹配,并通过实验证明这是一种判断地址匹配的有效方法,然而他们忽略了如何使模型学习到地址层级信息。
发明内容
本发明的目的是提供一种基于多任务联合学习与地址层级结构知识的地址匹配方法,能使模型学习到地址层级信息,本发明从深度学习中的多任务学习的角度出发,仿照人类判别地址匹配的过程,将地址要素识别任务与地址匹配任务联合起来学习,同时把地址层级结构知识融入到神经网络中进行训练,从而提升模型的性能。
为达到上述目的而采用了一种基于多任务联合学习与地址层级结构知识的地址匹配方法,具体包括如下步骤:
S1:输入地址对;
S2:所述地址对进入共享地址特征抽取网络作为共享地址特征;所述地址对进入基于分词特征的地址要素标注网络,所述地址对经基于分词特征的地址要素标注网络标注后得到第一分词结果,所述第一分词结果具有地址要素的层级划分结果,所述第一分词结果进入地址要素识别网络;
S3:所述共享地址特征经抽取进入所述地址要素识别网络,经所述地址要素识别网络分词后,得到第二分词结果,所述第二分词结果在所述地址要素识别网络中,与所述第一分词结果的地址要素层级划分结果和先验的地址层级结构知识中的地址要素层级顺序比对;用于判断第二分词结果是否符合第一分词结果的地址要素层级划分结果和先验的地址层级结构知识中的地址要素层级顺序,若不符合,重新调整共享地址特征抽取网络中的共享地址特征和地址要素识别网络自身,直至抽取的共享地址特征经所述地址要素识别网络分词后,符合第一分词结果的地址要素层级划分结果和先验的地址层级结构知识中的地址要素层级顺序;
S4:调整后的共享地址特征进入地址匹配网络,用于判断输入的地址对是否匹配;
S5:输出匹配结果。
作为本发明基于多任务联合学习与地址层级结构知识的地址匹配方法进一步的改进,所述先验的地址层级结构知识中的地址要素层级顺序包括:地址要素所描述的行政区域按所属级别由大到小排列,如:省位于市区之前,市区位于街道之前。
作为本发明基于多任务联合学习与地址层级结构知识的地址匹配方法进一步的改进,所述地址匹配网络结构为全连接层和Relu激活函数,用于判断输入的地址对是否表示同一地理位置。
作为本发明基于多任务联合学习与地址层级结构知识的地址匹配方法进一步的改进,所述基于分词特征的地址要素标注网络的训练方式为:
S2.1:对已有的带有地址要素标注的原始文本语料进行数据增强,增强方法为,按照5%-10%的比例随机删除表示省市区的地址要素,按照10%-15%的比例删除“省”、“市”、“区”、“街道”、“社区”、“村”字符;
S2.2:使用jieba分词工具对原始文本语料中的地址进行分词,将分词信息进行编码,其编码方式如下公式:
其中,x为当前词w中的某一个字;将分词后的编码信息映射为向量,并与Word2Vec算法中Skip-gram模型训练的原始文本语料中地址的词向量进行拼接,共同作为地址要素标注网络的输入;
S2.3,使用增强后的语料和拼接后的向量训练地址要素标注网络,所述地址要素标注网络为BiLSTM-CRF深度学习模型,然后把训练好的地址要素标注网络用于地址对的地址要素标注。
作为本发明基于多任务联合学习与地址层级结构知识的地址匹配方法进一步的改进,共享地址特征抽取网络抽取共享地址特征的步骤如下:
S3.1:使用RCNN中的Bi-LSTM来分别提取地址对中当前地址要素的上下文信息,将当前地址要素上文的地址要素、下文的地址要素以及自身结合起来作为当前地址要素的表示;
S3.2:使用RCNN中的最大池化操作找到地址对中潜在语义信息,然后经过全连接层,得到共享地址特征。
作为本发明基于多任务联合学习与地址层级结构知识的地址匹配方法进一步的改进,基于地址层级结构知识的地址要素识别网络识别方法如下:
S4.1:先验的地址层级结构知识编码方法如下:
S4.2:使用全连接层进一步提取与地址要素相关的特征,并结合CRF层进行地址要素识别。
作为本发明基于多任务联合学习与地址层级结构知识的地址匹配方法进一步的改进,地址匹配网络训练方式如下:
S4.3:对共享地址特征抽取网络中的共享地址特征,使用全连接层和Relu激活函数进行地址匹配二分类。
作为本发明基于多任务联合学习与地址层级结构知识的地址匹配方法进一步的改进,共享地址特征抽取网络包括:
循环结构层,其接受上层输入的地址特征;
池化层,其接受循环结构层转换的地址特征;
特征提取层,其接受池化层输入的地址特征,并转换为可抽取的地址特征,并抽取至地址匹配网络和地址要素识别网络。
本发明提出基于地址层级结构知识与地址层级结构要素识别的多任务学习方法来提升地址匹配的性能。首先训练出一个地址层级结构要素识别的预训练模型,识别出地址的层级结构要素,然后将地址层级结构要素识别任务与地址匹配判别任务进行联合学习。另外,本发明将外部的地址层级结构知识融入到神经网络中,使模型更好地学习到地址层级结构要素之间的关系。
本发明提出的方法使用了多任务联合的深度学习模型,可以有效学习到不同地址层级结构之间的以及全局的语义信息。我们不仅考虑到地址整体的关系,还结合了地址对层级结构之间的对应关系,因此取得了更好的效果。
附图说明
图1为实施例的整体流程示意图。
图2为基于多任务联合的地址匹配深度学习方法主要步骤流程示意图。
图3为网络融合示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、 “上”、“下”、 “左”、 “右”、 “竖直”、“水平”、 “内”、 “外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制;术语“第一”、 “第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性;此外,除非另有明确的规定和限定,术语“安装”、 “相连”、 “连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
图1-3示出了一种基于多任务联合学习与地址层级结构知识的地址匹配方法,具体包括如下步骤:
S1:输入地址对;
S2:所述地址对进入共享地址特征抽取网络作为共享地址特征;所述地址对进入基于分词特征的地址要素标注网络,所述地址对经基于分词特征的地址要素标注网络标注后得到第一分词结果,所述第一分词结果具有地址要素的层级划分结果,所述第一分词结果进入地址要素识别网络;
S3:所述共享地址特征经抽取进入所述地址要素识别网络,经所述地址要素识别网络分词后,得到第二分词结果,所述第二分词结果在所述地址要素识别网络中,与所述第一分词结果的地址要素层级划分结果和先验的地址层级结构知识中的地址要素层级顺序比对;用于判断第二分词结果是否符合第一分词结果的地址要素层级划分结果和先验的地址层级结构知识中的地址要素层级顺序,若不符合,重新调整共享地址特征抽取网络中的共享地址特征和地址要素识别网络自身,直至抽取的共享地址特征经所述地址要素识别网络分词后,符合第一分词结果的地址要素层级划分结果和先验的地址层级结构知识中的地址要素层级顺序;
S4:调整后的共享地址特征进入地址匹配网络,用于判断输入的地址对是否匹配;
S5:输出匹配结果。
在本实施例中,所述先验的地址层级结构知识中的地址要素层级顺序包括:地址要素所描述的行政区域按所属级别由大到小排列,如省位于市区之前,市区位于街道之前。
在本实施例中,所述地址匹配网络结构为全连接层和Relu激活函数,用于判断输入的地址对是否表示同一地理位置。
在本实施例中,所述基于分词特征的地址要素标注网络的训练方式为:
S2.1:对已有的带有地址要素标注的原始文本语料进行数据增强,增强方法为,按照5%-10%的比例随机删除表示省市区的地址要素,按照10%-15%的比例删除“省”、“市”、“区”、“街道”、“社区”、“村”字符;
S2.2:使用jieba分词工具对原始文本语料中的地址进行分词,将分词信息进行编码,其编码方式如下公式:
其中,x为当前词w中的某一个字;将分词后的编码信息映射为向量,并与Word2Vec算法中Skip-gram模型训练的原始文本语料中地址的词向量进行拼接,共同作为输入地址要素标注网络的输入。
S2.3,使用增强后的语料和拼接后的向量训练地址要素标注网络,所述地址要素标注网络为BiLSTM-CRF深度学习模型,然后把训练好的地址要素标注网络用于地址对的地址要素标注。
在本实施例中,共享地址特征抽取网络抽取共享地址特征的步骤如下:
S3.1:使用RCNN中的Bi-LSTM来分别提取地址对中当前地址要素的上下文信息,将当前地址要素上文的地址要素、下文的地址要素以及自身结合起来作为当前地址要素的表示;
S3.2:使用RCNN中的最大池化操作找到地址对中潜在语义信息,然后经过全连接层,得到共享地址特征。
在本实施例中,基于地址层级结构知识的地址要素识别网络识别方法如下:
S4.1:先验的地址层级结构知识编码方法如下:
S4.2:使用全连接层进一步提取与地址要素相关的特征,并结合CRF层进行地址要素识别。
在本实施例中,地址匹配网络训练方式如下:
S4.3:对共享地址特征抽取网络中的共享地址特征,使用全连接层和Relu激活函数进行地址匹配二分类。
在本实施例中,共享地址特征抽取网络包括:
循环结构层,其接受上层输入的地址特征;
池化层,其接受循环结构层转换的地址特征;
特征提取层,其接受池化层输入的地址特征,并转换为可抽取的地址特征,并抽取至地址匹配网络和地址要素识别网络。
实施例2
图1为实施例的整体流程示意图。
图2为基于多任务联合的地址匹配深度学习方法主要步骤流程示意图,示出了基于多任务联合的地址匹配深度学习方法及其步骤。
如表1,“深圳市福永街龙腾阁1巷2502”与“宝安区福永街道白石厦社区德丰路龙腾阁一巷2号”表示同一地理位置(对应标签为1),“深圳市南山区南山街道向南村六坊24号501”与“深圳市南山区南山街道向南社区0150号”表示不同的地理位置(对应标签为0)。
表1. 深圳地址匹配数据集的样例
注:地址要素是指“长沙市”、“岳麓区”、“100栋”、“1010室”等表示地址的实体。
1.1 基于分词特征的地址要素标注网络
现有的地址文本语料缺乏地址要素的标注,为了对大量的无标注的地址文本的地址要素进行标注,本发明使用Bi-LSTM(Bi-directional Long Short-Term Memory,双向长短时记忆网络)与CRF(Conditional Random Field,条件随机场)相结合的方式对地址要素进行标注。同时在训练模型时融入地址文本的分词信息。
地址要素标注的具体步骤:
步骤一:对已有的少量的带有地址要素标注的语料进行数据增强,具体的数据增强方式为:按照5%-10%的比例随机删除表示省市区的地址要素,按照10%-15%的比例删除“省”、“市”、“区”等字符。
步骤二:将分词特征进行编码,使用jieba分词工具对原始地址进行分词,并将分词信息按照如下公式进行编码,其中,x为当前词w中的某一个字。将分词后的编码信息映射为向量,并与Word2Vec算法中Skip-gram模型训练的原始文本的词向量进行拼接,共同作为模型的输入。如“深圳市宝安区福永街道白石厦社区”分词后为“深圳市/宝安区/福永街道/白石厦社区”,编码后为“0 1 2/0 1 2/0 1 1 2/0 1 1 1 2”。
步骤三:使用增强后的语料训练和融入分词信息的词向量训练BiLSTM-CRF深度学习模型,然后对地址文本的地址要素进行标注。
优点:数据增强的方法相比于人工标注地址文本的地址要素,使用BiLSTM-CRF深度学习模型进行标注,不仅可以节省大量的人力物力,而且可以提高语料自动标注的准确度,此外,融入分词信息可以使模型获取更多的地址信息,提升模型的精度。
1.2 基于地址要素识别与地址匹配的多任务学习网络
1.2.1 共享地址特征提取网络
使用RCNN(Recurrent Convolutional Neural Network,循环卷积神经网络)提取地址文本共享特征的步骤如下:
步骤一:使用RCNN中的Bi-LSTM来分别提取当前地址要素的上下文信息,将当前地址要素上文的地址要素、下文的地址要素以及自身结合起来作为当前地址要素的表示。如在“深圳市盐田区海山街道田东社区梧桐路1051号A栋”中,“盐田区”由上文的“深圳”、下文的“海山街道”以及其自己共同表示。
步骤二:使用RCNN中的最大池化操作找到地址文本中最重要的潜在语义信息。然后经过全连接层得到地址文本的共享地址特征。
优点:RCNN适合对地址的层级结构进行建模,考虑了相邻地址要素的信息,同时也从全局提取整个地址的信息。
1.2.2 基于地址层级结构知识的地址要素识别网络
基于地址层级结构知识的地址要素识别的步骤如下:
步骤一:将地址层级结构知识进行编码融入到地址要素识别网络训练过程中,具体编码方式如下:
其中,表示当前模型预测值与损失值之间的关系,表示地址中所
识别出的地址要素个数,表示第个地址要素的预测标签值。当预测的地址要素的层
级顺序不符合地址文本的逻辑时,损失值就会增加。具体是指地址要素所描述的行政区域
按所属级别由大到小排列,如:地址文本应该满足省位于市区之前,市区位于街道之前的层
级顺序。
步骤二:使用全连接层进一步提取与地址要素相关的特征,并结合CRF层进行地址要素识别。
优点:通过引入先验的地址层级结构知识,增强模型判断地址要素之间关系的能力,同时加速模型收敛速度。
1.2.3 地址匹配网络
地址匹配的步骤如下:
步骤一:根据共享地址特征抽取网络抽取的特征,使用全连接层和Relu激活函数对地址匹配进行二分类。
优点:使用全连接层和Relu激活函数进一步从全局提取与地址匹配最相关的深层特征,从而判别地址对是否匹配。
1.2.4 网络融合
步骤一:如图3,训练地址匹配任务的同时引入地址要素识别任务,通过参数共享的方式同时训练两个任务。
优点:通过参数共享的方式,在训练地址匹配任务的同时引入地址要素实体识别任务,可以使地址匹配任务学习到不同地址要素之间的关系,从而使地址匹配模型更加有效。通过地址匹配与地址要素识别的联合学习,平衡两个任务中的噪音,将模型注意力集中在地址匹配的同时捕捉到地址层级结构信息,从而减小模型在地址匹配任务上的过拟合风险。
本发明的有益效果如下:
(1)首先,地址数据集中的地址层级要素是未标注的,本发明找出了这些地址要素。其次,识别地址要素与判别地址匹配属于两个不同任务,本发明选择了有效的方式对两个任务进行学习。因此本发明从深度学习中的多任务学习的角度出发,仿照人类判别地址匹配的过程,将地址层级要素识别任务与地址匹配任务联合起来学习,同时把地址层级结构知识融入到神经网络中进行训练,从而提升模型的性能
(2)本发明提出地址要素识别与地址匹配多任务联合学习模型,从而融入以往模型都忽略的关键的地址层级结构信息。
(3)通过预先训练模型识别地址要素,解决大量无标注地址数据的利用问题。
(4)将外部的地址层级结构知识融入到地址要素识别网络中以加强地址匹配模型的性能。
(5)通过实验对比,本发明的模型优于现有的方法,在深圳地址匹配数据集上f1值达到98.8,达到目前最好效果。而且在数据集较少的情况下,仍然可以取得较高的精度。
表2 地址匹配模型效果的对比
编号 | 方法 | 准确率 | F1值 |
1 | Jaro相似性 + RF(Random Forest,随机森林) | 93.0 | 89.0 |
2 | Jaro相似性 + SVM(Support Vector Machine,支持向量机) | 96.0 | 84.0 |
3 | Word2Vec + RF | 89.0 | 89.0 |
4 | Word2Vec +SVM | 87.0 | 84.0 |
5 | Word2Vec + ESIM | 97.0 | 97.0 |
6 | Word2Vec + Transformer | 97.1 | 97.2 |
7 | Word2Vec + RCNN | 97.8 | 97.8 |
8 | Word2Vec + RCNN + Multi + Language rlue | 98.8 | 98.8 |
如表2,本发明对比了其它主流的地址匹配方法,从而验证本发明模型的有效性。本发明选择Word2Vec训练地址文本的词向量。
Jaro相似性用于测量地址记录之间的字符串相关性,其考虑了字符串长度以及字符串匹配的字符数。
随机森林是经典的用于分类的集成学习算法,包含多棵决策树,多棵决策树的结果共同决定了其最终结果,可以产生更高的准确度。
支持向量机是用于分类的有监督学习方法,其目标是最大化分类间隔,从而增强模型的鲁棒性,对于低维不可分的数据,可以通过软间隔或者核变换进行处理,其中核变换是将数据从低维空间映射到高维空间,从而实现数据可分。
ESIM是经典的基于交互的文本匹配深度学习模型,其精细地设计序列式推断结构,考虑局部推断和全局推断,当时在斯坦福自然语言推理(SNLI)数据集取得了最好效果。Yue Lin使用ESIM在地址对之间进行局部推断,然后综合该局部推断以进行全局预测,也取得了较好的效果。
Transformer模型与之前存在的序列到序列模型不同,它并不使用循环神经网络,而是完全依赖于自注意力机制,同时使用位置编码来补充序列的位置信息,因此可以高效地并行运行,当时在多项任务上取得最好的效果。
本发明提出基于地址层级结构知识与地址要素识别的多任务学习方法来提升地址匹配的性能。首先训练出一个地址要素识别的预训练模型,识别出地址要素,然后将地址要素识别任务与地址匹配判别任务进行联合学习。另外,本发明将外部的地址层级结构知识融入到神经网络中,使模型更好地学习到地址要素之间的关系。
本发明提出的方法使用了多任务联合的深度学习模型,可以有效学习到不同地址层级结构之间的以及全局的语义信息。本发明不仅考虑到地址整体的关系,还结合了地址对层级结构之间的对应关系,因此取得了更好的效果。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围之内。
Claims (8)
1.一种基于多任务联合学习与地址层级结构知识的地址匹配方法,其特征是,具体包括如下步骤:
S1:输入地址对;
S2:所述地址对进入共享地址特征抽取网络作为共享地址特征;所述地址对进入基于分词特征的地址要素标注网络,所述地址对经基于分词特征的地址要素标注网络标注后得到第一分词结果,所述第一分词结果具有地址要素的层级划分结果,所述第一分词结果进入地址要素识别网络;
S3:所述共享地址特征经抽取进入所述地址要素识别网络,经所述地址要素识别网络分词后,得到第二分词结果,所述第二分词结果在所述地址要素识别网络中,与所述第一分词结果的地址要素层级划分结果和先验的地址层级结构知识中的地址要素层级顺序比对;判断第二分词结果是否符合第一分词结果的地址要素层级划分结果和先验的地址层级结构知识中的地址要素层级顺序,若不符合,重新调整共享地址特征抽取网络中的共享地址特征和地址要素识别网络自身,直至抽取的共享地址特征经所述地址要素识别网络分词后,符合第一分词结果的地址要素层级划分结果和先验的地址层级结构知识中的地址要素层级顺序;
S4:调整后的共享地址特征进入地址匹配网络,用于判断输入的地址对是否匹配;
S5:输出匹配结果;
S1中:基于分词特征的地址要素标注网络标注地址要素的具体步骤:
步骤一:输入的地址对进入地址要素标注网络;
步骤二:将分词特征进行编码,使用jieba分词工具对输入的地址对进行分词,并将分词信息按照如下公式进行编码,其中,x为当前词w中的某一个字,将分词后的编码信息映射为向量,并与地址对的词向量进行拼接,共同作为地址要素标注网络的输入,其编码方式如下公式:
步骤三:地址要素标注网络对输入的地址对的地址要素进行标注,输出第一分词结果。
2.按照权利要求1所述的基于多任务联合学习与地址层级结构知识的地址匹配方法,其特征是,所述先验的地址层级结构知识中的地址要素层级顺序包括:地址要素所描述的行政区域按所属级别由大到小排列。
3.按照权利要求1所述的基于多任务联合学习与地址层级结构知识的地址匹配方法,其特征是,所述地址匹配网络结构为全连接层和Relu激活函数,用于判断输入的地址对是否表示同一地理位置。
4.按照权利要求1所述的基于多任务联合学习与地址层级结构知识的地址匹配方法,其特征是,所述基于分词特征的地址要素标注网络的训练方式为:
S2.1:对已有的带有地址要素标注的原始文本语料进行数据增强,增强方法为,按照5%-10%的比例随机删除表示省市区的地址要素,按照10%-15%的比例删除“省”、“市”、“区”、“街道”、“社区”、“村”字符;
S2.2:使用jieba分词工具对原始文本语料中的地址进行分词,将分词信息进行编码,其编码方式如下公式:
其中,x为当前词w中的某一个字;将分词后的编码信息映射为向量,并与Word2Vec算法中Skip-gram模型训练的原始文本语料中地址的词向量进行拼接,共同作为地址要素标注网络的输入;
S2.3,使用增强后的语料和拼接后的向量训练地址要素标注网络,所述地址要素标注网络为BiLSTM-CRF深度学习模型,然后把训练好的地址要素标注网络用于地址对的地址要素标注。
5.按照权利要求1所述的基于多任务联合学习与地址层级结构知识的地址匹配方法,其特征是,共享地址特征抽取网络抽取共享地址特征的步骤如下:
S3.1:使用RCNN中的Bi-LSTM来分别提取地址对中当前地址要素的上下文信息,将当前地址要素上文的地址要素、下文的地址要素以及自身结合起来作为当前地址要素的表示;
S3.2:使用RCNN中的最大池化操作找到地址对中潜在语义信息,然后经过全连接层,得到共享地址特征。
7.按照权利要求1所述的基于多任务联合学习与地址层级结构知识的地址匹配方法,其特征是,地址匹配网络训练方式如下:
S4.3:对共享地址特征抽取网络中的共享地址特征,使用全连接层和Relu激活函数进行地址匹配二分类。
8.按照权利要求1所述的基于多任务联合学习与地址层级结构知识的地址匹配方法,其特征是,共享地址特征抽取网络包括:
循环结构层,其接受上层输入的地址特征;
池化层,其接受循环结构层转换的地址特征;
特征提取层,其接受池化层输入的地址特征,并转换为可抽取的地址特征,并抽取至地址匹配网络和地址要素识别网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110159689.2A CN112528664B (zh) | 2021-02-05 | 2021-02-05 | 基于多任务联合学习与地址层级结构知识的地址匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110159689.2A CN112528664B (zh) | 2021-02-05 | 2021-02-05 | 基于多任务联合学习与地址层级结构知识的地址匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112528664A CN112528664A (zh) | 2021-03-19 |
CN112528664B true CN112528664B (zh) | 2021-04-27 |
Family
ID=74975502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110159689.2A Active CN112528664B (zh) | 2021-02-05 | 2021-02-05 | 基于多任务联合学习与地址层级结构知识的地址匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112528664B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113592037B (zh) * | 2021-08-26 | 2023-11-24 | 吉奥时空信息技术股份有限公司 | 一种基于自然语言推断的地址匹配方法 |
CN114911909B (zh) * | 2022-06-08 | 2023-01-10 | 北京青萌数海科技有限公司 | 结合深度卷积网络和注意力机制的地址匹配方法以及装置 |
CN116894973B (zh) * | 2023-07-06 | 2024-05-03 | 北京长木谷医疗科技股份有限公司 | 一种基于集成学习的髋关节病变智能自标注方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299402A (zh) * | 2018-07-23 | 2019-02-01 | 广州都市圈网络科技有限公司 | 基于要素预分段的地址匹配方法 |
CN111104802A (zh) * | 2019-12-11 | 2020-05-05 | 中国平安财产保险股份有限公司 | 一种地址信息文本的提取方法及相关设备 |
TW202020746A (zh) * | 2018-11-19 | 2020-06-01 | 美商谷歌有限責任公司 | 多任務遞迴神經網路 |
CN111475742A (zh) * | 2019-01-24 | 2020-07-31 | 北京京东尚科信息技术有限公司 | 一种地址提取方法和装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011047299A2 (en) * | 2009-10-15 | 2011-04-21 | Binja Inc. | Mobile local search platform |
US9524526B2 (en) * | 2012-04-17 | 2016-12-20 | International Business Machines Corporation | Disambiguating authors in social media communications |
CN110781393A (zh) * | 2019-10-23 | 2020-02-11 | 中南大学 | 基于图模型和膨胀卷积神经网络的交通事件要素抽取算法 |
CN111324696B (zh) * | 2020-02-19 | 2023-03-14 | 腾讯科技(深圳)有限公司 | 实体抽取方法、实体抽取模型的训练方法、装置及设备 |
CN111309915B (zh) * | 2020-03-03 | 2022-09-13 | 爱驰汽车有限公司 | 联合学习的自然语言训练方法、系统、设备及存储介质 |
CN111444298B (zh) * | 2020-03-19 | 2022-10-14 | 浙江大学 | 一种基于兴趣点知识图谱预训练的地址匹配算法 |
CN111666954A (zh) * | 2020-06-05 | 2020-09-15 | 北京联合大学 | 一种显著区域的联合学习提取方法及系统 |
-
2021
- 2021-02-05 CN CN202110159689.2A patent/CN112528664B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299402A (zh) * | 2018-07-23 | 2019-02-01 | 广州都市圈网络科技有限公司 | 基于要素预分段的地址匹配方法 |
TW202020746A (zh) * | 2018-11-19 | 2020-06-01 | 美商谷歌有限責任公司 | 多任務遞迴神經網路 |
CN111475742A (zh) * | 2019-01-24 | 2020-07-31 | 北京京东尚科信息技术有限公司 | 一种地址提取方法和装置 |
CN111104802A (zh) * | 2019-12-11 | 2020-05-05 | 中国平安财产保险股份有限公司 | 一种地址信息文本的提取方法及相关设备 |
Non-Patent Citations (1)
Title |
---|
基于优化多尺度线形算子的视网膜血管自动分割方法研究;刘亮;《中国优秀硕士学位论文全文数据库 医药卫生科技辑》;20200615;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112528664A (zh) | 2021-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112528664B (zh) | 基于多任务联合学习与地址层级结构知识的地址匹配方法 | |
CN111783419B (zh) | 地址相似度计算方法、装置、设备和存储介质 | |
CN113283551B (zh) | 多模态预训练模型的训练方法、训练装置及电子设备 | |
CN110298042A (zh) | 基于Bilstm-crf与知识图谱影视实体识别方法 | |
CN106022300B (zh) | 基于级联深度学习的交通标志识别方法和系统 | |
WO2018196561A1 (zh) | 应用的标签信息生成方法、装置及存储介质 | |
CN103412888B (zh) | 一种兴趣点识别方法和装置 | |
CN103970733B (zh) | 一种基于图结构的中文新词识别方法 | |
CN101520783B (zh) | 基于图像内容的关键词搜索方法和装置 | |
CN107577702B (zh) | 一种社交媒体中交通信息的辨别方法 | |
CN111191051B (zh) | 一种基于中文分词技术的应急知识图谱的构建方法及系统 | |
CN112527933A (zh) | 一种基于空间位置和文本训练的中文地址关联方法 | |
CN110705292B (zh) | 一种基于知识库和深度学习的实体名称提取方法 | |
CN110956044A (zh) | 一种基于注意力机制的司法场景用文案输入识别分类方法 | |
CN111680506A (zh) | 数据库表的外键映射方法、装置、电子设备和存储介质 | |
CN109299469A (zh) | 一种在长文本中识别复杂住址的方法 | |
CN110910175A (zh) | 一种旅游门票产品画像生成方法 | |
CN106227836B (zh) | 基于图像与文字的无监督联合视觉概念学习系统及方法 | |
CN113609892A (zh) | 深度学习与景区知识图谱融合的手写诗词识别方法 | |
CN105389303B (zh) | 一种异源语料自动融合方法 | |
CN113282754A (zh) | 针对新闻事件的舆情检测方法、装置、设备和存储介质 | |
CN106897274B (zh) | 一种跨语种的点评复述方法 | |
Shaharabany et al. | Similarity maps for self-training weakly-supervised phrase grounding | |
CN113761137B (zh) | 一种提取地址信息的方法及装置 | |
CN115438141B (zh) | 一种基于知识图谱模型的信息检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |