CN114911909A - 结合深度卷积网络和注意力机制的地址匹配方法以及装置 - Google Patents
结合深度卷积网络和注意力机制的地址匹配方法以及装置 Download PDFInfo
- Publication number
- CN114911909A CN114911909A CN202210643386.2A CN202210643386A CN114911909A CN 114911909 A CN114911909 A CN 114911909A CN 202210643386 A CN202210643386 A CN 202210643386A CN 114911909 A CN114911909 A CN 114911909A
- Authority
- CN
- China
- Prior art keywords
- address
- text
- layer
- vector
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种结合深度卷积网络和注意力机制的地址匹配方法以及地址匹配装置,属于人工智能技术领域,方法包括:输入待匹配的第一地址文本和第二地址文本;训练地址语义提取模型;通过地址语义提取模型,将地址文本逐字转化为文本向量;训练包括输入层、卷积层、池化层和输出层深度卷积神经网络模型;将文本向量输入至输入层,在输入层中引入注意力机制,获取交互关系特征矩阵,对文本向量和关系特征矩阵进行叠加;在卷积层中定义卷积核,对文本向量沿文本方向进行卷积;在池化层中引入注意力机制,对卷积后的向量进行池化处理,输出输出向量;在输出层中,建立逻辑回归模型,判断两个输出向量是否匹配,输出两个地址文本是否匹配的结果。
Description
技术领域
本申请属于人工智能技术领域,具体涉及一种结合深度卷积网络和注意力机制的地址匹配方法以及地址匹配装置。
背景技术
地址匹配作为地址解析研究方向的重要部分,其基本任务形式就是在输入两条地址文本时,判断两者描述的是否为同一地点。地址的描述性文本具有表达多样化、不规范、字符串长度不固定等特征,在不考虑模糊地址、错误地址的情况下,每一条地址文本都应对应到地图上一个确定的空间位置,然而同一个空间位置却有可能对应多种不同的地址描述。因此,进行地址匹配通常是地址数据预处理、地点关联查询、推荐、以及其他空间数据挖掘任务的基础技术。目前主流的地址匹配技术,包括基于文本相似性、基于地址要素解析、基于深度学习三大类。
当出现字面几乎没有重叠、但是指向同一地点的地址文本时,上述的基于文本相似性和基于地址要素解析的方法基本都无法正确识别。随着城市大数据的快速发展,可以看到越来越多地出现没有标准结构、表达方式各异的地址数据。为了解决上述问题,近年来的相关研究开始考虑地址语义,并引入深度学习的方法进行地址匹配。
但是目前的相关研究主要还是依靠自然语言分词+词嵌入提取语义+输出模型的流程,在有限的训练数据内,地址文本的语义信息难以得到充分的挖掘利用,地址语义理解和匹配能力不足。另外,简单通用的输出模型对于地址匹配的准确性不足,还需要通过建立针对性的深度神经网络结构进行提升。
发明内容
本申请实施例的目的是提供一种结合深度卷积网络和注意力机制的地址匹配方法及地址匹配装置,能够解决现有的地址匹配方法在有限的训练数据内,地址文本的语义信息难以得到充分的挖掘利用,存在地址语义理解能力和匹配能力不足的问题。
为了解决上述技术问题,本申请是这样实现的:
第一方面,本申请实施例提供了一种结合深度卷积网络和注意力机制的地址匹配方法,包括:
输入待匹配的第一地址文本和第二地址文本;
训练地址语义提取模型;
通过地址语义提取模型,将第一地址文本逐字转化为第一文本向量,将第二地址文本逐字转化为第二文本向量;
训练结合注意力机制的深度卷积神经网络模型,其中,深度卷积神经网络模型包括输入层、卷积层、池化层和输出层;
将第一文本向量和第二文本向量输入至输入层,在输入层中引入注意力机制,获取第一文本向量和第二文本向量之间的交互关系特征矩阵,对第一文本向量和第一关系特征矩阵、第二文本向量和第二关系特征矩阵进行叠加,进入卷积层;
在卷积层中定义卷积核,对第一文本向量和第二文本向量沿文本方向进行卷积,在文本两侧分别使用0做填充处理,进入池化层;
在池化层中引入注意力机制,对卷积后的向量进行池化处理,输出第一输出向量和第二输出向量,进入输出层;
在输出层中,建立逻辑回归模型,判断第一输出向量和第二输出向量是否匹配,输出第一地址文本和第二地址文本是否匹配的结果。
可选地,训练地址语义提取模型,具体包括:
收集地址文本语料库;
利用地址文本语料库,对BERT预训练模型进行微调训练,得到地址语义提取模型。
可选地,对BERT预训练模型进行微调训练,具体为:
利用逐层解冻策略、逐层衰减学习率策略和倾斜三角学习率策略对BERT预训练模型进行微调训练。
可选地,训练结合注意力机制的深度卷积神经网络模型,具体包括:
搭建结合注意力机制的深度卷积神经网络模型;
构建地址匹配样本库,地址匹配样本库包括多个地址匹配样本,每个地址匹配样本包括两条地址文本和两条地址文本是否指向同一地点的标记;
利用地址匹配样本库对深度卷积神经网络模型进行训练。
可选地,在输入层中引入注意力机制,获取第一文本向量和第二文本向量之间的交互关系特征矩阵,包括:
定义输入注意力矩阵,其中,输入注意力矩阵用于表示第一地址文本中的各个文字与第二地址文本中的各个文字之间的相似程度;
定义权重矩阵;
根据输入注意力矩阵和权重矩阵得到交互关系特征矩阵。
可选地,对卷积后的向量进行池化处理,包括:
定义与卷积后的向量相关的池化注意力矩阵;
根据池化注意力矩阵得到权重特征;
根据权重特征对卷积后的向量对进行池化计算。
第二方面,本申请实施例提供了一种结合深度卷积网络和注意力机制的地址匹配装置,包括:
第一输入模块,用于输入待匹配的第一地址文本和第二地址文本;
第一训练模块,用于训练地址语义提取模型;
提取模块,用于通过地址语义提取模型,将第一地址文本逐字转化为第一文本向量,将第二地址文本逐字转化为第二文本向量;
第二训练模块,用于训练结合注意力机制的深度卷积神经网络模型,其中,深度卷积神经网络模型包括输入层、卷积层、池化层和输出层;
第二输入模块,用于将第一文本向量和第二文本向量输入至输入层,在输入层中引入注意力机制,获取第一文本向量和第二文本向量之间的交互关系特征矩阵,对第一文本向量和第一关系特征矩阵、第二文本向量和第二关系特征矩阵进行叠加,进入卷积层;
卷积模块,用于在卷积层中定义卷积核,对第一文本向量和第二文本向量沿文本方向进行卷积,在文本两侧分别使用0做填充处理,进入池化层;
池化模块,用于在池化层中引入注意力机制,对卷积后的向量进行池化处理,输出第一输出向量和第二输出向量,进入输出层;
输出模块,用于在输出层中,建立逻辑回归模型,判断第一输出向量和第二输出向量是否匹配,输出第一地址文本和第二地址文本是否匹配的结果。
可选地,第一训练模块具体包括:
收集子模块,用于收集地址文本语料库;
微调子模块,用于利用地址文本语料库,对BERT预训练模型进行微调训练,得到地址语义提取模型。
可选地,微调子模块具体用于:
利用逐层解冻策略、逐层衰减学习率策略和倾斜三角学习率策略对BERT预训练模型进行微调训练。
可选地,第二训练模块具体包括:
搭建子模块,用于搭建结合注意力机制的深度卷积神经网络模型;
样本子模块,用于构建地址匹配样本库,地址匹配样本库包括多个地址匹配样本,每个地址匹配样本包括两条地址文本和两条地址文本是否指向同一地点的标记;
训练子模块,用于利用地址匹配样本库对深度卷积神经网络模型进行训练。
可选地,第二输入模块包括:
第一定义子模块,用于定义输入注意力矩阵,其中,输入注意力矩阵用于表示第一地址文本中的各个文字与第二地址文本中的各个文字之间的相似程度;
第二定义子模块,用于定义权重矩阵;
第一处理子模块,用于根据输入注意力矩阵和权重矩阵得到交互关系特征矩阵。
可选地,池化模块包括:
第三定义子模块,用于定义与卷积后的向量相关的池化注意力矩阵;
第二处理子模块,用于根据池化注意力矩阵得到权重特征;
计算子模块,用于根据权重特征对卷积后的向量对进行池化计算。
在本申请实施例中,通过结合注意力机制的深度卷积神经网络模型,通过卷积网络的结构来提取语义特征,并使用注意力机制做进一步的特征处理与匹配,充分的挖掘利用地址文本的语义信息,提升地址语义的理解效果,并获得更好的匹配效果。
附图说明
图1是本申请实施例提供的一种结合深度卷积网络和注意力机制的地址匹配方法的流程示意图;
图2是本申请实施例提供的一种地址匹配算法的结构示意图;
图3是本申请实施例提供的一种结合深度卷积网络和注意力机制的地址匹配装置的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例、参照附图做进一步说明。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的结合深度卷积网络和注意力机制的地址匹配方法进行详细地说明。
实施例一
参照图1,示出了本申请实施例提供的一种结合深度卷积网络和注意力机制的地址匹配方法的流程示意图。
参照图2,示出了本申请实施例提供的一种地址匹配算法的结构示意图。
本申请提供的一种结合深度卷积网络和注意力机制的地址匹配方法,包括:
S101:输入待匹配的第一地址文本和第二地址文本。
其中,在生活中较为常见的地址文本格式有省市区名、路名等。
进一步地,本申请实施例对于地址文本的格式不作限定,可以更好地适应城市大数据的快速发展,更好地应对没有标准结构、表达方式各异的地址数据的出现。
S102:训练地址语义提取模型。
其中,地址语义提取模型用于提取地址文本中的语义特征,以便于后续的分析。
可选地,步骤S102可以由子步骤S1021至S1022来完成。
S1021:收集地址文本语料库。
其中,地址文本语料库可以利用互联网爬虫技术获得,也可以由测试工作人员手动输入获得,本申请实施例对于地址文本语料库的具体收集方式不作限定。
S1022:利用地址文本语料库,对BERT预训练模型进行微调训练,得到地址语义提取模型。
其中,BERT的全称为Bidirectional Encoder Representation fromTransformers,是一种目前常见的预训练的语言表征模型。
可选地,对BERT预训练模型进行微调训练,具体可以为:利用逐层解冻策略、逐层衰减学习率策略和倾斜三角学习率策略对BERT预训练模型进行微调训练。
其中,逐层解冻策略具体是指在微调训练过程中,首先解冻模型的最后一层,即只有最后一层的网络参数进行更新训练,其它层参数冻结不变,进行第一个训练周期;之后增加解冻下一层网络参数,此时最后一层仍然保持解冻状态,进行第二个训练周期,更新所有已解冻层的参数;以此类推直到完成指定的训练周期数、或者其他停止条件。
其中,逐层衰减学习率策略具体是指在微调训练过程中,不同的层级应用不同的学习率。其中较高层采用较大的学习率,并设置学习率逐层衰减系数,自上而下逐层降低学习率。
其中,倾斜三角学习率策略具体是指在微调训练过程中,设置初始学习率、学习率上升周期、最大学习率、学习率衰减周期、最小学习率,从而随着模型迭代次数增加,学习率在短时间内增加,然后逐渐降低。
需要说明的是,引入BERT预训练模型,使用地址文本语料库进行微调训练,结合逐层解冻、逐层衰减学习率、倾斜三角学习率等策略更新参数,充分理解地址文本中的语义信息并将其向量化,可以解决了现有技术往往依赖分词效果,并且语义理解不充分的问题。
S103:通过地址语义提取模型,将第一地址文本逐字转化为第一文本向量,将第二地址文本逐字转化为第二文本向量。
其中,第一地址文本的长度为L1,第二地址文本的长度为L2,第一文本向量的维度为d×L1,第二文本向量的维度为d×L2,d为人为定义的超参数,表示地址语义提取模型的维度数。
S104:训练结合注意力机制的深度卷积神经网络模型。
其中,深度卷积神经网络模型用于处理地址文本信息,得到输出特征,判断地址文本是否匹配。
其中,深度卷积神经网络模型包括输入层、卷积层、池化层和输出层,卷积层和池化层可以组合并多次堆叠,形成深度神经网络结构。
可选地,步骤S104可以由子步骤S1041至S1043来完成。
S1041:搭建结合注意力机制的深度卷积神经网络模型。
S1042:构建地址匹配样本库,地址匹配样本库包括多个地址匹配样本,每个地址匹配样本包括两条地址文本和两条地址文本是否指向同一地点的标记。
其中,上述的两条地址文本是否指向同一地点的标记可以为1或者0。1代表两条地址指向同一地点,即两者匹配,而0代表两条地址不匹配。
S1043:利用地址匹配样本库对深度卷积神经网络模型进行训练。
S105:将第一文本向量和第二文本向量输入至输入层,在输入层中引入注意力机制,获取第一文本向量和第二文本向量之间的交互关系特征矩阵,对第一文本向量和第一关系特征矩阵、第二文本向量和第二关系特征矩阵进行叠加,进入卷积层。
其中,第一文本向量可以表示为Input0,第二文本向量可以表示为Input1。
可选地,对于第一文本向量和第二文本向量中较短的文本向量可以使用0做填充处理,保证第一文本向量和第二文本向量的维度都为d×s,其中,s=max(L0,L1)。
可选地,步骤S105可以包括子步骤S1051至S1053。
S1051:定义输入注意力矩阵,其中,输入注意力矩阵用于表示第一地址文本中的各个文字与第二地址文本中的各个文字之间的相似程度。
其中,输入注意力矩阵A的维度为,其中s×s,其中的元素Ai,j表示第一个句子中的第i个字与第二个句子中第j个字的相似程度,即Ai,j=MatchScore(Input0[:,i],Input1[:,j])。
进一步地,有关相似程度的定义,可以引入地址语法结构调整后的欧氏距离,即首先对两条地址语句进行语法解析和层级划分,将地址语句划分为省、市、区、路、建筑、其他细节共六个层级,若待计算两个字属于同一层级,则MatchScore(x,y)=1/(1+|x-y|),其中|x-y|表示两个向量的欧氏距离;若待计算的两个字不属于同一层级,则
S1052:定义权重矩阵。
第一权重矩阵W0和第二权重矩阵W1的维度为d×s。第一权重矩阵W0和第二权重矩阵W1的值模型训练过程中学习得到。
S1053:根据输入注意力矩阵和权重矩阵得到交互关系特征矩阵。
其中,可以通过F0=W0·AT和F1=W1·A计算得到第一交互关系特征矩阵F0和第二交互关系特征矩阵F1。
进一步地,将Input0和F0、Input1和F1进行叠加,得到第一地址文本和第二地址文本特征表示,并进入后续的卷积层。
S106:在卷积层中定义卷积核,对第一文本向量和第二文本向量沿文本方向进行卷积,在文本两侧分别使用0做填充处理,进入池化层。
其中,卷积核的窗口大小为d×w,经过在文本两侧分别使用0做填充处理后,卷积之后的向量维度将变成d×(s+w-1)。
S107:在池化层中引入注意力机制,对卷积后的向量进行池化处理,输出第一输出向量和第二输出向量,进入输出层。
其中,第一输出向量可以表示为Output0,第二输出向量可以表示为Output1。
其中,池化层可以有多层,最后一个池化层的窗口大小定义为s+w-1,从而保证最终输出的向量维度为1×d,而深度网络中其他的池化层窗口大小均为w,使得池化后的结果维度保持为d×s。
可选地,步骤S107可以包括子步骤S1071至S1073。
S1071:定义与卷积后的向量相关的池化注意力矩阵。
其中,利用与输入层中相似的处理方法,得到池化注意力矩阵A。
S1072:根据池化注意力矩阵得到权重特征。
其中,可以分别对池化注意力矩阵A的行、列求和,得到权重特征a0,i=∑A[i,:]和a1,i=∑A[:,i]。
S1073:根据权重特征对卷积后的向量对进行池化计算。
S108:在输出层中,建立逻辑回归模型,判断第一输出向量和第二输出向量是否匹配,输出第一地址文本和第二地址文本是否匹配的结果。
可选地,匹配结果为1或者0,1代表两条地址指向同一地点,即两者匹配,而0代表两条地址不匹配。
可选地,匹配结果也可以直接为“匹配”或者“不匹配”。
在本申请实施例中,通过结合注意力机制的深度卷积神经网络模型,通过卷积网络的结构来提取语义特征,并使用注意力机制做进一步的特征处理与匹配,充分的挖掘利用地址文本的语义信息,提升地址语义的理解效果,并获得更好的匹配效果。
实施例二
参照图3,示出了本申请实施例提供的一种结合深度卷积网络和注意力机制的地址匹配装置30的结构示意图。
地址匹配装置30,包括:
第一输入模块301,用于输入待匹配的第一地址文本和第二地址文本;
第一训练模块302,用于训练地址语义提取模型;
提取模块303,用于通过地址语义提取模型,将第一地址文本逐字转化为第一文本向量,将第二地址文本逐字转化为第二文本向量;
第二训练模块304,用于训练结合注意力机制的深度卷积神经网络模型,其中,深度卷积神经网络模型包括输入层、卷积层、池化层和输出层;
第二输入模块305,用于将第一文本向量和第二文本向量输入至输入层,在输入层中引入注意力机制,获取第一文本向量和第二文本向量之间的交互关系特征矩阵,对第一文本向量和第一关系特征矩阵、第二文本向量和第二关系特征矩阵进行叠加,进入卷积层;
卷积模块306,用于在卷积层中定义卷积核,对第一文本向量和第二文本向量沿文本方向进行卷积,在文本两侧分别使用0做填充处理,进入池化层;
池化模块307,用于在池化层中引入注意力机制,对卷积后的向量进行池化处理,输出第一输出向量和第二输出向量,进入输出层;
输出模块308,用于在输出层中,建立逻辑回归模型,判断第一输出向量和第二输出向量是否匹配,输出第一地址文本和第二地址文本是否匹配的结果。
可选地,第一训练模块302具体包括:
收集子模块3021,用于收集地址文本语料库;
微调子模块3022,用于利用地址文本语料库,对BERT预训练模型进行微调训练,得到地址语义提取模型。
可选地,微调子模块3022具体用于:利用逐层解冻策略、逐层衰减学习率策略和倾斜三角学习率策略对BERT预训练模型进行微调训练。
可选地,第二训练模块304具体包括:
搭建子模块3041,用于搭建结合注意力机制的深度卷积神经网络模型;
样本子模块3042,用于构建地址匹配样本库,地址匹配样本库包括多个地址匹配样本,每个地址匹配样本包括两条地址文本和两条地址文本是否指向同一地点的标记;
训练子模块3043,用于利用地址匹配样本库对深度卷积神经网络模型进行训练。
可选地,第二输入模块305包括:
第一定义子模块3051,用于定义输入注意力矩阵,其中,输入注意力矩阵用于表示第一地址文本中的各个文字与第二地址文本中的各个文字之间的相似程度;
第二定义子模块3052,用于定义权重矩阵;
第一处理子模块3053,用于根据输入注意力矩阵和权重矩阵得到交互关系特征矩阵。
可选地,池化模块307包括:
第三定义子模块3071,用于定义与卷积后的向量相关的池化注意力矩阵;
第二处理子模块3072,用于根据池化注意力矩阵得到权重特征;
计算子模块3073,用于根据权重特征对卷积后的向量对进行池化计算。
本申请实施例提供的地址匹配装置30能够实现上述方法实施例中实现的各个过程,为避免重复,这里不再赘述。
在本申请实施例中,通过结合注意力机制的深度卷积神经网络模型,通过卷积网络的结构来提取语义特征,并使用注意力机制做进一步的特征处理与匹配,充分的挖掘利用地址文本的语义信息,提升地址语义的理解效果,并获得更好的匹配效果。
本申请实施例中的虚拟装置可以是装置,也可以是终端中的部件、集成电路、或芯片。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (10)
1.一种结合深度卷积网络和注意力机制的地址匹配方法,其特征在于,包括:
输入待匹配的第一地址文本和第二地址文本;
训练地址语义提取模型;
通过所述地址语义提取模型,将所述第一地址文本逐字转化为第一文本向量,将所述第二地址文本逐字转化为第二文本向量;
训练结合注意力机制的深度卷积神经网络模型,其中,所述深度卷积神经网络模型包括输入层、卷积层、池化层和输出层;
将所述第一文本向量和所述第二文本向量输入至所述输入层,在所述输入层中引入注意力机制,获取所述第一文本向量和所述第二文本向量之间的交互关系特征矩阵,对所述第一文本向量和第一关系特征矩阵、所述第二文本向量和第二关系特征矩阵进行叠加,进入所述卷积层;
在所述卷积层中定义卷积核,对所述第一文本向量和所述第二文本向量沿文本方向进行卷积,在文本两侧分别使用0做填充处理,进入所述池化层;
在所述池化层中引入注意力机制,对卷积后的向量进行池化处理,输出第一输出向量和第二输出向量,进入所述输出层;
在所述输出层中,建立逻辑回归模型,判断所述第一输出向量和所述第二输出向量是否匹配,输出所述第一地址文本和所述第二地址文本是否匹配的结果。
2.根据权利要求1所述的地址匹配方法,其特征在于,所述训练地址语义提取模型,具体包括:
收集地址文本语料库;
利用所述地址文本语料库,对BERT预训练模型进行微调训练,得到所述地址语义提取模型。
3.根据权利要求2所述的地址匹配方法,其特征在于,所述对BERT预训练模型进行微调训练,具体为:
利用逐层解冻策略、逐层衰减学习率策略和倾斜三角学习率策略对所述BERT预训练模型进行微调训练。
4.根据权利要求1所述的地址匹配方法,其特征在于,所述训练结合注意力机制的深度卷积神经网络模型,具体包括:
搭建结合注意力机制的所述深度卷积神经网络模型;
构建地址匹配样本库,所述地址匹配样本库包括多个地址匹配样本,每个所述地址匹配样本包括两条地址文本和所述两条地址文本是否指向同一地点的标记;
利用所述地址匹配样本库对所述深度卷积神经网络模型进行训练。
5.根据权利要求1所述的地址匹配方法,其特征在于,所述在所述输入层中引入注意力机制,获取所述第一文本向量和所述第二文本向量之间的交互关系特征矩阵,包括:
定义输入注意力矩阵,其中,所述输入注意力矩阵用于表示所述第一地址文本中的各个文字与所述第二地址文本中的各个文字之间的相似程度;
定义权重矩阵;
根据所述输入注意力矩阵和所述权重矩阵得到所述交互关系特征矩阵。
6.根据权利要求1所述的地址匹配方法,其特征在于,所述对卷积后的向量进行池化处理,包括:
定义与所述卷积后的向量相关的池化注意力矩阵;
根据所述池化注意力矩阵得到权重特征;
根据所述权重特征对所述卷积后的向量对进行池化计算。
7.一种结合深度卷积网络和注意力机制的地址匹配装置,其特征在于,包括:
第一输入模块,用于输入待匹配的第一地址文本和第二地址文本;
第一训练模块,用于训练地址语义提取模型;
提取模块,用于通过所述地址语义提取模型,将所述第一地址文本逐字转化为第一文本向量,将所述第二地址文本逐字转化为第二文本向量;
第二训练模块,用于训练结合注意力机制的深度卷积神经网络模型,其中,所述深度卷积神经网络模型包括输入层、卷积层、池化层和输出层;
第二输入模块,用于将所述第一文本向量和所述第二文本向量输入至所述输入层,在所述输入层中引入注意力机制,获取所述第一文本向量和所述第二文本向量之间的交互关系特征矩阵,对所述第一文本向量和第一关系特征矩阵、所述第二文本向量和第二关系特征矩阵进行叠加,进入所述卷积层;
卷积模块,用于在所述卷积层中定义卷积核,对所述第一文本向量和所述第二文本向量沿文本方向进行卷积,在文本两侧分别使用0做填充处理,进入所述池化层;
池化模块,用于在所述池化层中引入注意力机制,对卷积后的向量进行池化处理,输出第一输出向量和第二输出向量,进入所述输出层;
输出模块,用于在所述输出层中,建立逻辑回归模型,判断所述第一输出向量和所述第二输出向量是否匹配,输出所述第一地址文本和所述第二地址文本是否匹配的结果。
8.根据权利要求7所述的地址匹配装置,其特征在于,所述第一训练模块具体包括:
收集子模块,用于收集地址文本语料库;
微调子模块,用于利用所述地址文本语料库,对BERT预训练模型进行微调训练,得到所述地址语义提取模型。
9.根据权利要求8所述的地址匹配装置,其特征在于,所述微调子模块具体用于:
利用逐层解冻策略、逐层衰减学习率策略和倾斜三角学习率策略对所述BERT预训练模型进行微调训练。
10.根据权利要求7所述的地址匹配装置,其特征在于,所述第二训练模块具体包括:
搭建子模块,用于搭建结合注意力机制的所述深度卷积神经网络模型;
样本子模块,用于构建地址匹配样本库,所述地址匹配样本库包括多个地址匹配样本,每个所述地址匹配样本包括两条地址文本和所述两条地址文本是否指向同一地点的标记;
训练子模块,用于利用所述地址匹配样本库对所述深度卷积神经网络模型进行训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210643386.2A CN114911909B (zh) | 2022-06-08 | 2022-06-08 | 结合深度卷积网络和注意力机制的地址匹配方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210643386.2A CN114911909B (zh) | 2022-06-08 | 2022-06-08 | 结合深度卷积网络和注意力机制的地址匹配方法以及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114911909A true CN114911909A (zh) | 2022-08-16 |
CN114911909B CN114911909B (zh) | 2023-01-10 |
Family
ID=82771374
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210643386.2A Active CN114911909B (zh) | 2022-06-08 | 2022-06-08 | 结合深度卷积网络和注意力机制的地址匹配方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114911909B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377686A (zh) * | 2019-07-04 | 2019-10-25 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
CN110442856A (zh) * | 2019-06-14 | 2019-11-12 | 平安科技(深圳)有限公司 | 一种地址信息标准化方法、装置、计算机设备及存储介质 |
CN111444298A (zh) * | 2020-03-19 | 2020-07-24 | 浙江大学 | 一种基于兴趣点知识图谱预训练的地址匹配算法 |
CN111767936A (zh) * | 2019-11-07 | 2020-10-13 | 北京沃东天骏信息技术有限公司 | 地址相似性的检测方法和装置 |
CN111881677A (zh) * | 2020-07-28 | 2020-11-03 | 武汉大学 | 基于深度学习模型的地址匹配算法 |
CN112052668A (zh) * | 2020-08-13 | 2020-12-08 | 丰图科技(深圳)有限公司 | 地址文本识别模型的训练方法、地址的预测方法及装置 |
CN112528664A (zh) * | 2021-02-05 | 2021-03-19 | 湖南工商大学 | 基于多任务联合学习与地址层级结构知识的地址匹配方法 |
CN112527938A (zh) * | 2020-12-17 | 2021-03-19 | 安徽迪科数金科技有限公司 | 基于自然语言理解的中文poi匹配方法 |
CN112559658A (zh) * | 2020-12-08 | 2021-03-26 | 中国科学技术大学 | 一种地址匹配方法及装置 |
WO2021164200A1 (zh) * | 2020-02-20 | 2021-08-26 | 齐鲁工业大学 | 一种基于深度分层编码的智能语义匹配方法和装置 |
CN113326267A (zh) * | 2021-06-24 | 2021-08-31 | 中国科学技术大学智慧城市研究院(芜湖) | 基于倒排索引和神经网络算法的地址匹配方法 |
CN113592037A (zh) * | 2021-08-26 | 2021-11-02 | 武大吉奥信息技术有限公司 | 一种基于自然语言推断的地址匹配方法 |
CN114298228A (zh) * | 2021-12-30 | 2022-04-08 | 杭州电子科技大学 | 一种基于数据预处理的地址文本信息相关性学习方法 |
-
2022
- 2022-06-08 CN CN202210643386.2A patent/CN114911909B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442856A (zh) * | 2019-06-14 | 2019-11-12 | 平安科技(深圳)有限公司 | 一种地址信息标准化方法、装置、计算机设备及存储介质 |
CN110377686A (zh) * | 2019-07-04 | 2019-10-25 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
CN111767936A (zh) * | 2019-11-07 | 2020-10-13 | 北京沃东天骏信息技术有限公司 | 地址相似性的检测方法和装置 |
WO2021164200A1 (zh) * | 2020-02-20 | 2021-08-26 | 齐鲁工业大学 | 一种基于深度分层编码的智能语义匹配方法和装置 |
CN111444298A (zh) * | 2020-03-19 | 2020-07-24 | 浙江大学 | 一种基于兴趣点知识图谱预训练的地址匹配算法 |
CN111881677A (zh) * | 2020-07-28 | 2020-11-03 | 武汉大学 | 基于深度学习模型的地址匹配算法 |
CN112052668A (zh) * | 2020-08-13 | 2020-12-08 | 丰图科技(深圳)有限公司 | 地址文本识别模型的训练方法、地址的预测方法及装置 |
CN112559658A (zh) * | 2020-12-08 | 2021-03-26 | 中国科学技术大学 | 一种地址匹配方法及装置 |
CN112527938A (zh) * | 2020-12-17 | 2021-03-19 | 安徽迪科数金科技有限公司 | 基于自然语言理解的中文poi匹配方法 |
CN112528664A (zh) * | 2021-02-05 | 2021-03-19 | 湖南工商大学 | 基于多任务联合学习与地址层级结构知识的地址匹配方法 |
CN113326267A (zh) * | 2021-06-24 | 2021-08-31 | 中国科学技术大学智慧城市研究院(芜湖) | 基于倒排索引和神经网络算法的地址匹配方法 |
CN113592037A (zh) * | 2021-08-26 | 2021-11-02 | 武大吉奥信息技术有限公司 | 一种基于自然语言推断的地址匹配方法 |
CN114298228A (zh) * | 2021-12-30 | 2022-04-08 | 杭州电子科技大学 | 一种基于数据预处理的地址文本信息相关性学习方法 |
Non-Patent Citations (3)
Title |
---|
张航: "基于BERT预训练模型的中文地址解析和匹配方法研究", 《中国优秀硕士学位论文全文数据库基础科学辑》 * |
徐流畅: "预训练深度学习架构下的语义地址匹配与语义空间融合模型研究", 《中国博士学位论文全文数据库基础科学辑》 * |
陈健鹏等: "混合神经网络模型与注意力机制的地址匹配算法", 《计算机工程与科学》 * |
Also Published As
Publication number | Publication date |
---|---|
CN114911909B (zh) | 2023-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113641820B (zh) | 基于图卷积神经网络的视角级文本情感分类方法及系统 | |
CN113239186B (zh) | 一种基于多依存关系表示机制的图卷积网络关系抽取方法 | |
CN108874878A (zh) | 一种知识图谱的构建系统及方法 | |
CN107220506A (zh) | 基于深度卷积神经网络的乳腺癌风险评估分析系统 | |
CN106570148A (zh) | 一种基于卷积神经网络的属性抽取方法 | |
CN112905801B (zh) | 基于事件图谱的行程预测方法、系统、设备及存储介质 | |
CN108664512B (zh) | 文本对象分类方法及装置 | |
CN112100401B (zh) | 面向科技服务的知识图谱构建方法、装置、设备及存储介质 | |
CN110851176B (zh) | 一种自动构造并利用伪克隆语料的克隆代码检测方法 | |
CN110287292B (zh) | 一种裁判量刑偏离度预测方法及装置 | |
CN112215013A (zh) | 一种基于深度学习的克隆代码语义检测方法 | |
CN112463989B (zh) | 一种基于知识图谱的信息获取方法及系统 | |
CN117151222B (zh) | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 | |
CN114722820A (zh) | 基于门控机制和图注意力网络的中文实体关系抽取方法 | |
CN111400494A (zh) | 一种基于GCN-Attention的情感分析方法 | |
CN107609055A (zh) | 基于深层主题模型的文本图像多模态检索方法 | |
CN113742396A (zh) | 一种对象学习行为模式的挖掘方法及装置 | |
CN114065769B (zh) | 情感原因对抽取模型的训练方法、装置、设备及介质 | |
CN115204171A (zh) | 基于超图神经网络的文档级事件抽取方法及系统 | |
CN112417267A (zh) | 一种用户行为分析方法、装置、计算机设备及存储介质 | |
CN115437952A (zh) | 一种基于深度学习的语句级软件缺陷检测方法 | |
CN115965020A (zh) | 一种面向广域地理信息知识图谱构建的知识抽取方法 | |
CN110110137A (zh) | 一种确定音乐特征的方法、装置、电子设备及存储介质 | |
CN111382333B (zh) | 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法 | |
CN117010373A (zh) | 一种电力设备资产管理数据所属类别和组的推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |