CN114911909B - 结合深度卷积网络和注意力机制的地址匹配方法以及装置 - Google Patents

结合深度卷积网络和注意力机制的地址匹配方法以及装置 Download PDF

Info

Publication number
CN114911909B
CN114911909B CN202210643386.2A CN202210643386A CN114911909B CN 114911909 B CN114911909 B CN 114911909B CN 202210643386 A CN202210643386 A CN 202210643386A CN 114911909 B CN114911909 B CN 114911909B
Authority
CN
China
Prior art keywords
layer
address
text
training
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210643386.2A
Other languages
English (en)
Other versions
CN114911909A (zh
Inventor
陈逸舟
张丹
熊晓菁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qingmeng Shuhai Technology Co ltd
Original Assignee
Beijing Qingmeng Shuhai Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qingmeng Shuhai Technology Co ltd filed Critical Beijing Qingmeng Shuhai Technology Co ltd
Priority to CN202210643386.2A priority Critical patent/CN114911909B/zh
Publication of CN114911909A publication Critical patent/CN114911909A/zh
Application granted granted Critical
Publication of CN114911909B publication Critical patent/CN114911909B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种结合深度卷积网络和注意力机制的地址匹配方法以及地址匹配装置,属于人工智能技术领域,方法包括:输入待匹配的第一地址文本和第二地址文本;训练地址语义提取模型;通过地址语义提取模型,将地址文本逐字转化为文本向量;训练包括输入层、卷积层、池化层和输出层深度卷积神经网络模型;将文本向量输入至输入层,在输入层中引入注意力机制,获取交互关系特征矩阵,对文本向量和关系特征矩阵进行叠加;在卷积层中定义卷积核,对文本向量沿文本方向进行卷积;在池化层中引入注意力机制,对卷积后的向量进行池化处理,输出输出向量;在输出层中,建立逻辑回归模型,判断两个输出向量是否匹配,输出两个地址文本是否匹配的结果。

Description

结合深度卷积网络和注意力机制的地址匹配方法以及装置
技术领域
本申请属于人工智能技术领域,具体涉及一种结合深度卷积网络和注意力机制的地址匹配方法以及地址匹配装置。
背景技术
地址匹配作为地址解析研究方向的重要部分,其基本任务形式就是在输入两条地址文本时,判断两者描述的是否为同一地点。地址的描述性文本具有表达多样化、不规范、字符串长度不固定等特征,在不考虑模糊地址、错误地址的情况下,每一条地址文本都应对应到地图上一个确定的空间位置,然而同一个空间位置却有可能对应多种不同的地址描述。因此,进行地址匹配通常是地址数据预处理、地点关联查询、推荐、以及其他空间数据挖掘任务的基础技术。目前主流的地址匹配技术,包括基于文本相似性、基于地址要素解析、基于深度学习三大类。
当出现字面几乎没有重叠、但是指向同一地点的地址文本时,上述的基于文本相似性和基于地址要素解析的方法基本都无法正确识别。随着城市大数据的快速发展,可以看到越来越多地出现没有标准结构、表达方式各异的地址数据。为了解决上述问题,近年来的相关研究开始考虑地址语义,并引入深度学习的方法进行地址匹配。
但是目前的相关研究主要还是依靠自然语言分词+词嵌入提取语义+输出模型的流程,在有限的训练数据内,地址文本的语义信息难以得到充分的挖掘利用,地址语义理解和匹配能力不足。另外,简单通用的输出模型对于地址匹配的准确性不足,还需要通过建立针对性的深度神经网络结构进行提升。
发明内容
本申请实施例的目的是提供一种结合深度卷积网络和注意力机制的地址匹配方法及地址匹配装置,能够解决现有的地址匹配方法在有限的训练数据内,地址文本的语义信息难以得到充分的挖掘利用,存在地址语义理解能力和匹配能力不足的问题。
为了解决上述技术问题,本申请是这样实现的:
第一方面,本申请实施例提供了一种结合深度卷积网络和注意力机制的地址匹配方法,包括:
输入待匹配的第一地址文本和第二地址文本;
训练地址语义提取模型;
通过地址语义提取模型,将第一地址文本逐字转化为第一文本向量,将第二地址文本逐字转化为第二文本向量;
训练结合注意力机制的深度卷积神经网络模型,其中,深度卷积神经网络模型包括输入层、卷积层、池化层和输出层;
将第一文本向量和第二文本向量输入至输入层,在输入层中引入注意力机制,获取第一文本向量和第二文本向量之间的交互关系特征矩阵,对第一文本向量和第一关系特征矩阵、第二文本向量和第二关系特征矩阵进行叠加,进入卷积层;
在卷积层中定义卷积核,对第一文本向量和第二文本向量沿文本方向进行卷积,在文本两侧分别使用0做填充处理,进入池化层;
在池化层中引入注意力机制,对卷积后的向量进行池化处理,输出第一输出向量和第二输出向量,进入输出层;
在输出层中,建立逻辑回归模型,判断第一输出向量和第二输出向量是否匹配,输出第一地址文本和第二地址文本是否匹配的结果。
可选地,训练地址语义提取模型,具体包括:
收集地址文本语料库;
利用地址文本语料库,对BERT预训练模型进行微调训练,得到地址语义提取模型。
可选地,对BERT预训练模型进行微调训练,具体为:
利用逐层解冻策略、逐层衰减学习率策略和倾斜三角学习率策略对BERT预训练模型进行微调训练。
可选地,训练结合注意力机制的深度卷积神经网络模型,具体包括:
搭建结合注意力机制的深度卷积神经网络模型;
构建地址匹配样本库,地址匹配样本库包括多个地址匹配样本,每个地址匹配样本包括两条地址文本和两条地址文本是否指向同一地点的标记;
利用地址匹配样本库对深度卷积神经网络模型进行训练。
可选地,在输入层中引入注意力机制,获取第一文本向量和第二文本向量之间的交互关系特征矩阵,包括:
定义输入注意力矩阵,其中,输入注意力矩阵用于表示第一地址文本中的各个文字与第二地址文本中的各个文字之间的相似程度;
定义权重矩阵;
根据输入注意力矩阵和权重矩阵得到交互关系特征矩阵。
可选地,对卷积后的向量进行池化处理,包括:
定义与卷积后的向量相关的池化注意力矩阵;
根据池化注意力矩阵得到权重特征;
根据权重特征对卷积后的向量对进行池化计算。
第二方面,本申请实施例提供了一种结合深度卷积网络和注意力机制的地址匹配装置,包括:
第一输入模块,用于输入待匹配的第一地址文本和第二地址文本;
第一训练模块,用于训练地址语义提取模型;
提取模块,用于通过地址语义提取模型,将第一地址文本逐字转化为第一文本向量,将第二地址文本逐字转化为第二文本向量;
第二训练模块,用于训练结合注意力机制的深度卷积神经网络模型,其中,深度卷积神经网络模型包括输入层、卷积层、池化层和输出层;
第二输入模块,用于将第一文本向量和第二文本向量输入至输入层,在输入层中引入注意力机制,获取第一文本向量和第二文本向量之间的交互关系特征矩阵,对第一文本向量和第一关系特征矩阵、第二文本向量和第二关系特征矩阵进行叠加,进入卷积层;
卷积模块,用于在卷积层中定义卷积核,对第一文本向量和第二文本向量沿文本方向进行卷积,在文本两侧分别使用0做填充处理,进入池化层;
池化模块,用于在池化层中引入注意力机制,对卷积后的向量进行池化处理,输出第一输出向量和第二输出向量,进入输出层;
输出模块,用于在输出层中,建立逻辑回归模型,判断第一输出向量和第二输出向量是否匹配,输出第一地址文本和第二地址文本是否匹配的结果。
可选地,第一训练模块具体包括:
收集子模块,用于收集地址文本语料库;
微调子模块,用于利用地址文本语料库,对BERT预训练模型进行微调训练,得到地址语义提取模型。
可选地,微调子模块具体用于:
利用逐层解冻策略、逐层衰减学习率策略和倾斜三角学习率策略对BERT预训练模型进行微调训练。
可选地,第二训练模块具体包括:
搭建子模块,用于搭建结合注意力机制的深度卷积神经网络模型;
样本子模块,用于构建地址匹配样本库,地址匹配样本库包括多个地址匹配样本,每个地址匹配样本包括两条地址文本和两条地址文本是否指向同一地点的标记;
训练子模块,用于利用地址匹配样本库对深度卷积神经网络模型进行训练。
可选地,第二输入模块包括:
第一定义子模块,用于定义输入注意力矩阵,其中,输入注意力矩阵用于表示第一地址文本中的各个文字与第二地址文本中的各个文字之间的相似程度;
第二定义子模块,用于定义权重矩阵;
第一处理子模块,用于根据输入注意力矩阵和权重矩阵得到交互关系特征矩阵。
可选地,池化模块包括:
第三定义子模块,用于定义与卷积后的向量相关的池化注意力矩阵;
第二处理子模块,用于根据池化注意力矩阵得到权重特征;
计算子模块,用于根据权重特征对卷积后的向量对进行池化计算。
在本申请实施例中,通过结合注意力机制的深度卷积神经网络模型,通过卷积网络的结构来提取语义特征,并使用注意力机制做进一步的特征处理与匹配,充分的挖掘利用地址文本的语义信息,提升地址语义的理解效果,并获得更好的匹配效果。
附图说明
图1是本申请实施例提供的一种结合深度卷积网络和注意力机制的地址匹配方法的流程示意图;
图2是本申请实施例提供的一种地址匹配算法的结构示意图;
图3是本申请实施例提供的一种结合深度卷积网络和注意力机制的地址匹配装置的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例、参照附图做进一步说明。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的结合深度卷积网络和注意力机制的地址匹配方法进行详细地说明。
实施例一
参照图1,示出了本申请实施例提供的一种结合深度卷积网络和注意力机制的地址匹配方法的流程示意图。
参照图2,示出了本申请实施例提供的一种地址匹配算法的结构示意图。
本申请提供的一种结合深度卷积网络和注意力机制的地址匹配方法,包括:
S101:输入待匹配的第一地址文本和第二地址文本。
其中,在生活中较为常见的地址文本格式有省市区名、路名等。
进一步地,本申请实施例对于地址文本的格式不作限定,可以更好地适应城市大数据的快速发展,更好地应对没有标准结构、表达方式各异的地址数据的出现。
S102:训练地址语义提取模型。
其中,地址语义提取模型用于提取地址文本中的语义特征,以便于后续的分析。
可选地,步骤S102可以由子步骤S1021至S1022来完成。
S1021:收集地址文本语料库。
其中,地址文本语料库可以利用互联网爬虫技术获得,也可以由测试工作人员手动输入获得,本申请实施例对于地址文本语料库的具体收集方式不作限定。
S1022:利用地址文本语料库,对BERT预训练模型进行微调训练,得到地址语义提取模型。
其中,BERT的全称为Bidirectional Encoder Representation fromTransformers,是一种目前常见的预训练的语言表征模型。
可选地,对BERT预训练模型进行微调训练,具体可以为:利用逐层解冻策略、逐层衰减学习率策略和倾斜三角学习率策略对BERT预训练模型进行微调训练。
其中,逐层解冻策略具体是指在微调训练过程中,首先解冻模型的最后一层,即只有最后一层的网络参数进行更新训练,其它层参数冻结不变,进行第一个训练周期;之后增加解冻下一层网络参数,此时最后一层仍然保持解冻状态,进行第二个训练周期,更新所有已解冻层的参数;以此类推直到完成指定的训练周期数、或者其他停止条件。
其中,逐层衰减学习率策略具体是指在微调训练过程中,不同的层级应用不同的学习率。其中较高层采用较大的学习率,并设置学习率逐层衰减系数,自上而下逐层降低学习率。
其中,倾斜三角学习率策略具体是指在微调训练过程中,设置初始学习率、学习率上升周期、最大学习率、学习率衰减周期、最小学习率,从而随着模型迭代次数增加,学习率在短时间内增加,然后逐渐降低。
需要说明的是,引入BERT预训练模型,使用地址文本语料库进行微调训练,结合逐层解冻、逐层衰减学习率、倾斜三角学习率等策略更新参数,充分理解地址文本中的语义信息并将其向量化,可以解决了现有技术往往依赖分词效果,并且语义理解不充分的问题。
S103:通过地址语义提取模型,将第一地址文本逐字转化为第一文本向量,将第二地址文本逐字转化为第二文本向量。
其中,第一地址文本的长度为L1,第二地址文本的长度为L2,第一文本向量的维度为d×L1,第二文本向量的维度为d×L2,d为人为定义的超参数,表示地址语义提取模型的维度数。
S104:训练结合注意力机制的深度卷积神经网络模型。
其中,深度卷积神经网络模型用于处理地址文本信息,得到输出特征,判断地址文本是否匹配。
其中,深度卷积神经网络模型包括输入层、卷积层、池化层和输出层,卷积层和池化层可以组合并多次堆叠,形成深度神经网络结构。
可选地,步骤S104可以由子步骤S1041至S1043来完成。
S1041:搭建结合注意力机制的深度卷积神经网络模型。
S1042:构建地址匹配样本库,地址匹配样本库包括多个地址匹配样本,每个地址匹配样本包括两条地址文本和两条地址文本是否指向同一地点的标记。
其中,上述的两条地址文本是否指向同一地点的标记可以为1或者0。1代表两条地址指向同一地点,即两者匹配,而0代表两条地址不匹配。
S1043:利用地址匹配样本库对深度卷积神经网络模型进行训练。
S105:将第一文本向量和第二文本向量输入至输入层,在输入层中引入注意力机制,获取第一文本向量和第二文本向量之间的交互关系特征矩阵,对第一文本向量和第一关系特征矩阵、第二文本向量和第二关系特征矩阵进行叠加,进入卷积层。
其中,第一文本向量可以表示为Input0,第二文本向量可以表示为Input1
可选地,对于第一文本向量和第二文本向量中较短的文本向量可以使用0做填充处理,保证第一文本向量和第二文本向量的维度都为d×s,其中,s=max(L0,L1)。
可选地,步骤S105可以包括子步骤S1051至S1053。
S1051:定义输入注意力矩阵,其中,输入注意力矩阵用于表示第一地址文本中的各个文字与第二地址文本中的各个文字之间的相似程度。
其中,输入注意力矩阵A的维度为,其中s×s,其中的元素Ai,j表示第一个句子中的第i个字与第二个句子中第j个字的相似程度,即Ai,j=MatchScore(Input0[:,i],Input1[:,j])。
进一步地,有关相似程度的定义,可以引入地址语法结构调整后的欧氏距离,即首先对两条地址语句进行语法解析和层级划分,将地址语句划分为省、市、区、路、建筑、其他细节共六个层级,若待计算两个字属于同一层级,则MatchScore(x,y)=1/(1+|x-y|),其中|x-y|表示两个向量的欧氏距离;若待计算的两个字不属于同一层级,则
Figure BDA0003683121510000091
S1052:定义权重矩阵。
第一权重矩阵W0和第二权重矩阵W1的维度为d×s。第一权重矩阵W0和第二权重矩阵W1的值模型训练过程中学习得到。
S1053:根据输入注意力矩阵和权重矩阵得到交互关系特征矩阵。
其中,可以通过F0=W0·AT和F1=W1·A计算得到第一交互关系特征矩阵F0和第二交互关系特征矩阵F1
进一步地,将Input0和F0、Input1和F1进行叠加,得到第一地址文本和第二地址文本特征表示,并进入后续的卷积层。
S106:在卷积层中定义卷积核,对第一文本向量和第二文本向量沿文本方向进行卷积,在文本两侧分别使用0做填充处理,进入池化层。
其中,卷积核的窗口大小为d×w,经过在文本两侧分别使用0做填充处理后,卷积之后的向量维度将变成d×(s+w-1)。
S107:在池化层中引入注意力机制,对卷积后的向量进行池化处理,输出第一输出向量和第二输出向量,进入输出层。
其中,第一输出向量可以表示为Output0,第二输出向量可以表示为Output1
其中,池化层可以有多层,最后一个池化层的窗口大小定义为s+w-1,从而保证最终输出的向量维度为1×d,而深度网络中其他的池化层窗口大小均为w,使得池化后的结果维度保持为d×s。
可选地,步骤S107可以包括子步骤S1071至S1073。
S1071:定义与卷积后的向量相关的池化注意力矩阵。
其中,利用与输入层中相似的处理方法,得到池化注意力矩阵A。
S1072:根据池化注意力矩阵得到权重特征。
其中,可以分别对池化注意力矩阵A的行、列求和,得到权重特征a0,i=∑A[i,:]和a1,i=∑A[:,i]。
S1073:根据权重特征对卷积后的向量对进行池化计算。
其中,具体的计算过程可以是将对应的词向量乘上权重并求和,即
Figure BDA0003683121510000101
Figure BDA0003683121510000102
其中,表示
Figure BDA0003683121510000103
第i和句子第r个词池化后的向量,
Figure BDA0003683121510000104
表示第i和句子第r个词卷积后、池化前的向量,i∈{0,1},j=1,2,…,s。
S108:在输出层中,建立逻辑回归模型,判断第一输出向量和第二输出向量是否匹配,输出第一地址文本和第二地址文本是否匹配的结果。
可选地,匹配结果为1或者0,1代表两条地址指向同一地点,即两者匹配,而0代表两条地址不匹配。
可选地,匹配结果也可以直接为“匹配”或者“不匹配”。
在本申请实施例中,通过结合注意力机制的深度卷积神经网络模型,通过卷积网络的结构来提取语义特征,并使用注意力机制做进一步的特征处理与匹配,充分的挖掘利用地址文本的语义信息,提升地址语义的理解效果,并获得更好的匹配效果。
实施例二
参照图3,示出了本申请实施例提供的一种结合深度卷积网络和注意力机制的地址匹配装置30的结构示意图。
地址匹配装置30,包括:
第一输入模块301,用于输入待匹配的第一地址文本和第二地址文本;
第一训练模块302,用于训练地址语义提取模型;
提取模块303,用于通过地址语义提取模型,将第一地址文本逐字转化为第一文本向量,将第二地址文本逐字转化为第二文本向量;
第二训练模块304,用于训练结合注意力机制的深度卷积神经网络模型,其中,深度卷积神经网络模型包括输入层、卷积层、池化层和输出层;
第二输入模块305,用于将第一文本向量和第二文本向量输入至输入层,在输入层中引入注意力机制,获取第一文本向量和第二文本向量之间的交互关系特征矩阵,对第一文本向量和第一关系特征矩阵、第二文本向量和第二关系特征矩阵进行叠加,进入卷积层;
卷积模块306,用于在卷积层中定义卷积核,对第一文本向量和第二文本向量沿文本方向进行卷积,在文本两侧分别使用0做填充处理,进入池化层;
池化模块307,用于在池化层中引入注意力机制,对卷积后的向量进行池化处理,输出第一输出向量和第二输出向量,进入输出层;
输出模块308,用于在输出层中,建立逻辑回归模型,判断第一输出向量和第二输出向量是否匹配,输出第一地址文本和第二地址文本是否匹配的结果。
可选地,第一训练模块302具体包括:
收集子模块3021,用于收集地址文本语料库;
微调子模块3022,用于利用地址文本语料库,对BERT预训练模型进行微调训练,得到地址语义提取模型。
可选地,微调子模块3022具体用于:利用逐层解冻策略、逐层衰减学习率策略和倾斜三角学习率策略对BERT预训练模型进行微调训练。
可选地,第二训练模块304具体包括:
搭建子模块3041,用于搭建结合注意力机制的深度卷积神经网络模型;
样本子模块3042,用于构建地址匹配样本库,地址匹配样本库包括多个地址匹配样本,每个地址匹配样本包括两条地址文本和两条地址文本是否指向同一地点的标记;
训练子模块3043,用于利用地址匹配样本库对深度卷积神经网络模型进行训练。
可选地,第二输入模块305包括:
第一定义子模块3051,用于定义输入注意力矩阵,其中,输入注意力矩阵用于表示第一地址文本中的各个文字与第二地址文本中的各个文字之间的相似程度;
第二定义子模块3052,用于定义权重矩阵;
第一处理子模块3053,用于根据输入注意力矩阵和权重矩阵得到交互关系特征矩阵。
可选地,池化模块307包括:
第三定义子模块3071,用于定义与卷积后的向量相关的池化注意力矩阵;
第二处理子模块3072,用于根据池化注意力矩阵得到权重特征;
计算子模块3073,用于根据权重特征对卷积后的向量对进行池化计算。
本申请实施例提供的地址匹配装置30能够实现上述方法实施例中实现的各个过程,为避免重复,这里不再赘述。
在本申请实施例中,通过结合注意力机制的深度卷积神经网络模型,通过卷积网络的结构来提取语义特征,并使用注意力机制做进一步的特征处理与匹配,充分的挖掘利用地址文本的语义信息,提升地址语义的理解效果,并获得更好的匹配效果。
本申请实施例中的虚拟装置可以是装置,也可以是终端中的部件、集成电路、或芯片。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种结合深度卷积网络和注意力机制的地址匹配方法,其特征在于,包括:
输入待匹配的第一地址文本和第二地址文本;
训练地址语义提取模型;
通过所述地址语义提取模型,将所述第一地址文本逐字转化为第一文本向量,将所述第二地址文本逐字转化为第二文本向量;
训练结合注意力机制的深度卷积神经网络模型,其中,所述深度卷积神经网络模型包括输入层、卷积层、池化层和输出层;
将所述第一文本向量和所述第二文本向量输入至所述输入层,在所述输入层中引入注意力机制,获取所述第一文本向量和所述第二文本向量之间的交互关系特征矩阵,对所述第一文本向量和第一关系特征矩阵、所述第二文本向量和第二关系特征矩阵进行叠加,进入所述卷积层;
在所述卷积层中定义卷积核,对所述第一文本向量和所述第二文本向量沿文本方向进行卷积,在文本两侧分别使用0做填充处理,进入所述池化层;
在所述池化层中引入注意力机制,对卷积后的向量进行池化处理,输出第一输出向量和第二输出向量,进入所述输出层;
在所述输出层中,建立逻辑回归模型,判断所述第一输出向量和所述第二输出向量是否匹配,输出所述第一地址文本和所述第二地址文本是否匹配的结果。
2.根据权利要求1所述的地址匹配方法,其特征在于,所述训练地址语义提取模型,具体包括:
收集地址文本语料库;
利用所述地址文本语料库,对BERT预训练模型进行微调训练,得到所述地址语义提取模型。
3.根据权利要求2所述的地址匹配方法,其特征在于,所述对BERT预训练模型进行微调训练,具体为:
利用逐层解冻策略、逐层衰减学习率策略和倾斜三角学习率策略对所述BERT预训练模型进行微调训练;
其中,逐层解冻策略具体是指在微调训练过程中,首先解冻模型的最后一层,即只有最后一层的网络参数进行更新训练,其它层参数冻结不变,进行第一个训练周期;之后增加解冻下一层网络参数,此时最后一层仍然保持解冻状态,进行第二个训练周期,更新所有已解冻层的参数;以此类推直到完成指定的训练周期数、或者其他停止条件;
逐层衰减学习率策略具体是指在微调训练过程中,不同的层级应用不同的学习率,较高层采用较大的学习率,并设置学习率逐层衰减系数,自上而下逐层降低学习率;
倾斜三角学习率策略具体是指在微调训练过程中,设置初始学习率、学习率上升周期、最大学习率、学习率衰减周期和最小学习率,从而随着模型迭代次数增加,学习率在短时间内增加,然后逐渐降低。
4.根据权利要求1所述的地址匹配方法,其特征在于,所述训练结合注意力机制的深度卷积神经网络模型,具体包括:
搭建结合注意力机制的所述深度卷积神经网络模型;
构建地址匹配样本库,所述地址匹配样本库包括多个地址匹配样本,每个所述地址匹配样本包括两条地址文本和所述两条地址文本是否指向同一地点的标记;
利用所述地址匹配样本库对所述深度卷积神经网络模型进行训练。
5.根据权利要求1所述的地址匹配方法,其特征在于,所述在所述输入层中引入注意力机制,获取所述第一文本向量和所述第二文本向量之间的交互关系特征矩阵,包括:
定义输入注意力矩阵,其中,所述输入注意力矩阵用于表示所述第一地址文本中的各个文字与所述第二地址文本中的各个文字之间的相似程度;
定义权重矩阵;
根据所述输入注意力矩阵和所述权重矩阵得到所述交互关系特征矩阵。
6.根据权利要求1所述的地址匹配方法,其特征在于,所述对卷积后的向量进行池化处理,包括:
定义与所述卷积后的向量相关的池化注意力矩阵;
根据所述池化注意力矩阵得到权重特征;
根据所述权重特征对所述卷积后的向量对进行池化计算。
7.一种结合深度卷积网络和注意力机制的地址匹配装置,其特征在于,包括:
第一输入模块,用于输入待匹配的第一地址文本和第二地址文本;
第一训练模块,用于训练地址语义提取模型;
提取模块,用于通过所述地址语义提取模型,将所述第一地址文本逐字转化为第一文本向量,将所述第二地址文本逐字转化为第二文本向量;
第二训练模块,用于训练结合注意力机制的深度卷积神经网络模型,其中,所述深度卷积神经网络模型包括输入层、卷积层、池化层和输出层;
第二输入模块,用于将所述第一文本向量和所述第二文本向量输入至所述输入层,在所述输入层中引入注意力机制,获取所述第一文本向量和所述第二文本向量之间的交互关系特征矩阵,对所述第一文本向量和第一关系特征矩阵、所述第二文本向量和第二关系特征矩阵进行叠加,进入所述卷积层;
卷积模块,用于在所述卷积层中定义卷积核,对所述第一文本向量和所述第二文本向量沿文本方向进行卷积,在文本两侧分别使用0做填充处理,进入所述池化层;
池化模块,用于在所述池化层中引入注意力机制,对卷积后的向量进行池化处理,输出第一输出向量和第二输出向量,进入所述输出层;
输出模块,用于在所述输出层中,建立逻辑回归模型,判断所述第一输出向量和所述第二输出向量是否匹配,输出所述第一地址文本和所述第二地址文本是否匹配的结果。
8.根据权利要求7所述的地址匹配装置,其特征在于,所述第一训练模块具体包括:
收集子模块,用于收集地址文本语料库;
微调子模块,用于利用所述地址文本语料库,对BERT预训练模型进行微调训练,得到所述地址语义提取模型。
9.根据权利要求8所述的地址匹配装置,其特征在于,所述微调子模块具体用于:
利用逐层解冻策略、逐层衰减学习率策略和倾斜三角学习率策略对所述BERT预训练模型进行微调训练;
其中,逐层解冻策略具体是指在微调训练过程中,首先解冻模型的最后一层,即只有最后一层的网络参数进行更新训练,其它层参数冻结不变,进行第一个训练周期;之后增加解冻下一层网络参数,此时最后一层仍然保持解冻状态,进行第二个训练周期,更新所有已解冻层的参数;以此类推直到完成指定的训练周期数、或者其他停止条件;
逐层衰减学习率策略具体是指在微调训练过程中,不同的层级应用不同的学习率,较高层采用较大的学习率,并设置学习率逐层衰减系数,自上而下逐层降低学习率;
倾斜三角学习率策略具体是指在微调训练过程中,设置初始学习率、学习率上升周期、最大学习率、学习率衰减周期和最小学习率,从而随着模型迭代次数增加,学习率在短时间内增加,然后逐渐降低。
10.根据权利要求7所述的地址匹配装置,其特征在于,所述第二训练模块具体包括:
搭建子模块,用于搭建结合注意力机制的所述深度卷积神经网络模型;
样本子模块,用于构建地址匹配样本库,所述地址匹配样本库包括多个地址匹配样本,每个所述地址匹配样本包括两条地址文本和所述两条地址文本是否指向同一地点的标记;
训练子模块,用于利用所述地址匹配样本库对所述深度卷积神经网络模型进行训练。
CN202210643386.2A 2022-06-08 2022-06-08 结合深度卷积网络和注意力机制的地址匹配方法以及装置 Active CN114911909B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210643386.2A CN114911909B (zh) 2022-06-08 2022-06-08 结合深度卷积网络和注意力机制的地址匹配方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210643386.2A CN114911909B (zh) 2022-06-08 2022-06-08 结合深度卷积网络和注意力机制的地址匹配方法以及装置

Publications (2)

Publication Number Publication Date
CN114911909A CN114911909A (zh) 2022-08-16
CN114911909B true CN114911909B (zh) 2023-01-10

Family

ID=82771374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210643386.2A Active CN114911909B (zh) 2022-06-08 2022-06-08 结合深度卷积网络和注意力机制的地址匹配方法以及装置

Country Status (1)

Country Link
CN (1) CN114911909B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377686A (zh) * 2019-07-04 2019-10-25 浙江大学 一种基于深度神经网络模型的地址信息特征抽取方法
CN111444298A (zh) * 2020-03-19 2020-07-24 浙江大学 一种基于兴趣点知识图谱预训练的地址匹配算法
CN111767936A (zh) * 2019-11-07 2020-10-13 北京沃东天骏信息技术有限公司 地址相似性的检测方法和装置
CN111881677A (zh) * 2020-07-28 2020-11-03 武汉大学 基于深度学习模型的地址匹配算法
CN112528664A (zh) * 2021-02-05 2021-03-19 湖南工商大学 基于多任务联合学习与地址层级结构知识的地址匹配方法
CN112527938A (zh) * 2020-12-17 2021-03-19 安徽迪科数金科技有限公司 基于自然语言理解的中文poi匹配方法
CN112559658A (zh) * 2020-12-08 2021-03-26 中国科学技术大学 一种地址匹配方法及装置
WO2021164200A1 (zh) * 2020-02-20 2021-08-26 齐鲁工业大学 一种基于深度分层编码的智能语义匹配方法和装置
CN113326267A (zh) * 2021-06-24 2021-08-31 中国科学技术大学智慧城市研究院(芜湖) 基于倒排索引和神经网络算法的地址匹配方法
CN113592037A (zh) * 2021-08-26 2021-11-02 武大吉奥信息技术有限公司 一种基于自然语言推断的地址匹配方法
CN114298228A (zh) * 2021-12-30 2022-04-08 杭州电子科技大学 一种基于数据预处理的地址文本信息相关性学习方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442856B (zh) * 2019-06-14 2023-09-26 平安科技(深圳)有限公司 一种地址信息标准化方法、装置、计算机设备及存储介质
CN112052668A (zh) * 2020-08-13 2020-12-08 丰图科技(深圳)有限公司 地址文本识别模型的训练方法、地址的预测方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377686A (zh) * 2019-07-04 2019-10-25 浙江大学 一种基于深度神经网络模型的地址信息特征抽取方法
CN111767936A (zh) * 2019-11-07 2020-10-13 北京沃东天骏信息技术有限公司 地址相似性的检测方法和装置
WO2021164200A1 (zh) * 2020-02-20 2021-08-26 齐鲁工业大学 一种基于深度分层编码的智能语义匹配方法和装置
CN111444298A (zh) * 2020-03-19 2020-07-24 浙江大学 一种基于兴趣点知识图谱预训练的地址匹配算法
CN111881677A (zh) * 2020-07-28 2020-11-03 武汉大学 基于深度学习模型的地址匹配算法
CN112559658A (zh) * 2020-12-08 2021-03-26 中国科学技术大学 一种地址匹配方法及装置
CN112527938A (zh) * 2020-12-17 2021-03-19 安徽迪科数金科技有限公司 基于自然语言理解的中文poi匹配方法
CN112528664A (zh) * 2021-02-05 2021-03-19 湖南工商大学 基于多任务联合学习与地址层级结构知识的地址匹配方法
CN113326267A (zh) * 2021-06-24 2021-08-31 中国科学技术大学智慧城市研究院(芜湖) 基于倒排索引和神经网络算法的地址匹配方法
CN113592037A (zh) * 2021-08-26 2021-11-02 武大吉奥信息技术有限公司 一种基于自然语言推断的地址匹配方法
CN114298228A (zh) * 2021-12-30 2022-04-08 杭州电子科技大学 一种基于数据预处理的地址文本信息相关性学习方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于BERT预训练模型的中文地址解析和匹配方法研究;张航;《中国优秀硕士学位论文全文数据库基础科学辑》;20220315(第3期);全文 *
混合神经网络模型与注意力机制的地址匹配算法;陈健鹏等;《计算机工程与科学》;20220531;第44卷(第5期);全文 *
预训练深度学习架构下的语义地址匹配与语义空间融合模型研究;徐流畅;《中国博士学位论文全文数据库基础科学辑》;20210115(第1期);全文 *

Also Published As

Publication number Publication date
CN114911909A (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
CN113641820B (zh) 基于图卷积神经网络的视角级文本情感分类方法及系统
CN111444340A (zh) 文本分类和推荐方法、装置、设备及存储介质
CN111737476A (zh) 文本处理方法、装置、计算机可读存储介质及电子设备
CN112905801B (zh) 基于事件图谱的行程预测方法、系统、设备及存储介质
CN106855853A (zh) 基于深度神经网络的实体关系抽取系统
CN109885824A (zh) 一种层次的中文命名实体识别方法、装置及可读存储介质
CN108664512B (zh) 文本对象分类方法及装置
CN115393692A (zh) 基于生成式预训练语言模型的联想文本到图像生成方法
CN112100401B (zh) 面向科技服务的知识图谱构建方法、装置、设备及存储介质
CN114816497B (zh) 基于bert预训练模型的链接生成方法
US11948078B2 (en) Joint representation learning from images and text
CN111967267B (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN109300128A (zh) 基于卷积神经网隐含结构的迁移学习图像处理方法
CN110674642B (zh) 一种用于含噪稀疏文本的语义关系抽取方法
CN113312498B (zh) 用无向图嵌入知识图谱的文本信息抽取方法
CN117094325B (zh) 水稻病虫害领域命名实体识别方法
CN113505583A (zh) 基于语义决策图神经网络的情感原因子句对提取方法
CN111382333B (zh) 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法
CN114911909B (zh) 结合深度卷积网络和注意力机制的地址匹配方法以及装置
CN117010373A (zh) 一种电力设备资产管理数据所属类别和组的推荐方法
CN114357166B (zh) 一种基于深度学习的文本分类方法
CN116340507A (zh) 一种基于混合权重和双通道图卷积的方面级情感分析方法
CN110377753A (zh) 基于关系触发词与gru模型的关系抽取方法及装置
CN113836308B (zh) 网络大数据长文本多标签分类方法、系统、设备及介质
CN115934966A (zh) 基于遥感影像推荐信息的自动标注方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant