CN113326267B - 基于倒排索引和神经网络算法的地址匹配方法 - Google Patents
基于倒排索引和神经网络算法的地址匹配方法 Download PDFInfo
- Publication number
- CN113326267B CN113326267B CN202110702288.7A CN202110702288A CN113326267B CN 113326267 B CN113326267 B CN 113326267B CN 202110702288 A CN202110702288 A CN 202110702288A CN 113326267 B CN113326267 B CN 113326267B
- Authority
- CN
- China
- Prior art keywords
- address
- standard
- vector
- matching
- addresses
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 25
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 18
- 230000007246 mechanism Effects 0.000 claims abstract description 13
- 238000004364 calculation method Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 47
- 230000011218 segmentation Effects 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 4
- 239000013589 supplement Substances 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于倒排索引和神经网络算法的地址匹配方法,包括:构建Trie地址树;构建索引结构;索引匹配;构建基于神经网络算法的地址语义表达模型;构建基于孪生网络的地址语义相似度模型;对待匹配地址和标准地址集Ai中的每一个地址进行相似度计算,获取到与待匹配标准地址的相似度,设定相似度阈值,查找到符合阈值的标准地址。其构建了基于语法结构信息的倒排索引机制,减少了匹配次数,节约了匹配时间;也构造了基于注意力机制和Bi‑LSTM‑CNN结合的深度神经网络地址语义表达模型,提升了匹配的准确度;还构造了基于孪生网络的地址相似度模型,将地址匹配任务转化为基于地址语义相似度任务,创新了匹配方式。
Description
技术领域
本发明涉及一种基于倒排索引和神经网络算法的地址匹配方法。
背景技术
中文地名地址的规范化在智慧城市建设中起到至关重要的作用。传统的地名地址规范技术常采用基于字符串相似度或者规则库的方法,与整个标准库进行一对一匹配。一般来说地址匹配分为以下两种:一种是对单一非标准地址的匹配,这类方法主要基于字符串和规则库处理为主;另一种是基于标准库下的地址匹配,这类方法主要基于文本统计特征的方法为主,如支持向量机、最长公共子串、编辑距离等。
但是,现有的这两种方法均存在一定的问题。对于规则库来说,由于中文地址信息的整体结构非常复杂,规则对于处理错乱或缺失的地址显示出一定的局限性;而基于统计特征的方法虽然一定程度上规避了地址结构复杂带来的问题,但标准地址库的建立难度大。同时,此方法对于具有复杂结构,或者包含冗余信息的地址难以规范,主要原因在于其缺乏对地址的语义理解,不能有效提取地址的语义特征。此外,地名地址匹配通常采用一对一方式,对于标准地址库中百万级数据量,逐个匹配的方式会耗费大量的计算资源和时间。
发明内容
本发明的目的是提供一种基于倒排索引和神经网络算法的地址匹配方法,该地址匹配方法构建了基于语法结构信息的倒排索引机制,减少了匹配次数,节约了匹配时间;同时,也构造了基于注意力机制和Bi-LSTM-CNN结合的深度神经网络地址语义表达模型,提升了匹配的准确度;更进一步的,还构造了基于孪生网络的地址相似度模型,将地址匹配任务转化为基于地址语义相似度任务,创新了匹配方式。
为了实现上述目的,本发明提供了一种基于倒排索引和神经网络算法的地址匹配方法,包括:
步骤1、构建Trie地址树;
步骤2、构建索引结构;
步骤3、索引匹配;
步骤4、构建基于神经网络算法的地址语义表达模型;
步骤5、构建基于孪生网络的地址语义相似度模型;
步骤6、对待匹配地址和标准地址集Ai中的每一个地址进行相似度计算,获取到与待匹配标准地址的相似度,设定相似度阈值,查找到符合阈值的标准地址。
优选地,在步骤1中,对于覆盖路径为A-B-C-D-E、符合地名地址表达规范的标准地址无需进行匹配;对于其余丢失部分信息的待匹配地址,则进入后续步骤的匹配。
优选地,在步骤2中,根据Trie地址树对标准地址库中的地址分词,得到每个地址的A、B、C、D、E、F结构;其中,A至F为地址的语法结构,除去A至F外的地址信息为语义结构;
根据标准地址的A至F语法信息结构构建倒排索引,其中,标准地址来源于规范合格的地址数据。
优选地,在步骤3中,对倒排索引检索结构中候选标准地址中的语法结构信息赋予唯一ID,将该语法结构拆分成多个索引关键词;其中,索引关键词的范围从分词结果A至F中获取,并且,每一个索引关键词至少关联一个ID;
待比对地址语法结构被拆分成多个检索词,检索词与索引关键词进行匹配得到所对应的ID集合,形成候选标准地址集;
具体的,对待匹配的地址,根据Trie地址树提取A、B、C、D、E、F结构,依次按照关键词的顺序F、E、D、C、B、A,查找对应的标准地址;若关键词F从标准库中查找对应的标准地址集Af,利用步骤4中基于地址语义表达的方法进行地址匹配;若没有查找到Af,则根据关键词E从标准库中查找对应的标准地址集Ae,利用步骤4中基于地址语义表达的方法进行地址匹配,若没有查找到Ae,则依次按照顺序进行查找,直至找到对应的标准地址集Ai,其中,i取值范围为a至f。
优选地,步骤4中包括嵌入阶段、Bi-LSTM阶段、CNN阶段和Attention阶段。
优选地,在嵌入阶段将中文地址转化为向量的形式,即将输入地址映射成为固定m×n的矩阵;采用Jieba的分词算法,并且加载自定义分词语料库,其中,分词语料库的构建根据城市地名和地址的特殊性,补充Jieba分词对未识别名称的正确分词;
具体的,地址A由N个词组成,即A={a1,a2,...,aN},对于地址A中的每个词,可以从词向量字典中查找到词向量;其中,V是词表的个数,dw是词表的维度;词向量字典Dw通过学习获得,词向量的维度dw根据需求设置;由此,地址A中的词ai的向量是:ei=DwVi,其中,Vi是一个长度为|V|的向量,其值在ei处为1,其余处为0;此时,地址A的向量可表示为e={e1,e2,...,eT}。
优选地,在Bi-LSTM阶段使用双向LSTM提取地址特征信息,以保证完整提取地址的语义表示。
优选地,在CNN阶段将整体的数据局部化,在每一个局部数据中利用卷积核函数提取特征,随后重构所有的碎片化特征,在目标函数的指导下实现对数据整体信息的提取。
优选地,在Attention阶段利用Attention机制表征地址的语义信息,以通过分配不同的权重来使语义向量表示更丰富的语义信息;其中,
定义H是包含[h1,h2,...,hT]的输入向量,本阶段输入向量由CNN和Bi-LSTM阶段的加权输出而得,T是句子的长度,相关公式如下:
A'=tanh(H)
α=softmax(WTA')
A”=HαT
其中,dW是词向量的维度,W是通过训练获得,WT是其转置,A”经过Attention阶段之后的向量表示;
最终的每个地址向量的表示为:
其中,矩阵每一个行向量相加得到最终向量。
优选地,步骤5中,在提出的基于神经网络算法的地址语义表征模型基础之上,通过曼哈顿距离计算地址之间的相似度;其中,
定义Aleft=(Al 1,Al 2,...,Al n)和Aright=(Ar 1,Ar 2,...,Ar n)分别是通过Attention之后的地址向量表示,那么Aleft和Aright的曼哈顿距离可以表示为:
使用sigmoid函数预测最终的相似度y值
y=sigmoid(Md)
根据上述技术方案,本发明首先利用Trie树构建标准地址树,对标准库中的标准地址进行分词形成语法结构和语义结构信息,利用索引机制构建基于语法结构信息的倒排索引结构。接着,使用该标准树对待匹配地址进行分词,基于分词结果查询标准地址库,匹配生成地址对,运用Bi-LSTM和CNN神经网络算法模型对地址对进行表征,并在整合两个通道的信息后引入注意力语言机制,补充上下文的相关信息,以此进一步提高语义表征的准确性。最后,对表征信息计算相应的曼哈顿距离,得到地址对中地址的相似度信息。
本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1是本发明中孪生网络模型整体架构图;
图2是本发明中针对地址要素提取构建的Trie语法树;
图3是几类常见地址形式及覆盖路径示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
在本发明中,在未作相反说明的情况下,包含在术语中的方位词仅代表该术语在常规使用状态下的方位,或为本领域技术人员理解的俗称,而不应视为对该术语的限制。
参见图1至图3,本发明提供一种基于倒排索引和神经网络算法的地址匹配方法,包括:
步骤1、构建Trie地址树;
步骤2、构建索引结构;
步骤3、索引匹配;
步骤4、构建基于神经网络算法的地址语义表达模型;
步骤5、构建基于孪生网络的地址语义相似度模型;
步骤6、对待匹配地址和标准地址集Ai中的每一个地址进行相似度计算,获取到与待匹配标准地址的相似度,设定相似度阈值,查找到符合阈值的标准地址。
具体的,在步骤1中,对于覆盖路径为A-B-C-D-E、符合地名地址表达规范的标准地址无需进行匹配;对于其他几类丢失部分信息的地址,属于待匹配地址。需要使用下文所述语义模型对其进行匹配。
在步骤2中,构建索引结构,根据Trie地址树对标准地址库中的地址分词,得到每个地址的A、B、C、D、E、F结构;其中,A至F为地址的语法结构,除去A至F外的地址信息为语义结构;
根据标准地址的A至F语法信息结构构建倒排索引,其中,根据标准地址的A-F语法信息结构构建倒排索引,标准地址的来源于规范合格的地址数据。
在步骤3中,索引匹配,对倒排索引检索结构中候选标准地址中的语法结构信息赋予唯一ID,将该语法结构拆分成多个索引关键词;其中,索引关键词的范围从分词结果A至F中获取,并且,每一个索引关键词至少关联一个ID;
待比对地址语法结构被拆分成多个检索词,检索词与索引关键词进行匹配得到所对应的ID集合,形成候选标准地址集;
具体的匹配流程:对待匹配的地址,根据Trie地址树提取A、B、C、D、E、F结构,依次按照关键词的顺序F、E、D、C、B、A,查找对应的标准地址。其流程是,若关键词F从标准库中查找对应的标准地址集Af,利用步骤4中基于地址语义表达的方法进行地址匹配;若没有查找到Af,则根据关键词E从标准库中查找对应的标准地址集Ae,利用步骤4中基于地址语义表达的方法进行地址匹配,若没有查找到Ae,则依次按照顺序进行查找,直至找到对应的标准地址集Ai(其中i取值范围为a-f之间)。
步骤4中,构建基于神经网络算法的地址语义表达模型,主要分为下列几个阶段:嵌入阶段、Bi-LSTM阶段、CNN阶段和Attention阶段。
具体的,在嵌入阶段将中文地址转化为向量的形式,即将输入地址映射成为固定m×n的矩阵。中文地址实际上是一种特殊的中文语言描述,中文的词没有形式上的分界符。在进行词嵌入之前,需要对地址进行分词。而中文地址的分词特殊在于,本发明更注重将地名地址分成各类地址要素,每个地址要素相当于中文分词中的词。因而,采用Jieba的分词算法,并且加载自定义分词语料库,其中,分词语料库的构建根据城市地名和地址的特殊性,补充Jieba分词对未识别名称的正确分词;
假设地址A是由N个词组成,即A={a1,a2,...,aN},对于地址A中的每个词,可以从词向量字典中查找到词向量;其中,V是词表的个数,dw是词表的维度;词向量字典Dw通过学习获得,词向量的维度dw根据需求设置;故地址A中的词ai的向量是:ei=DwVi,其中,Vi是一个长度为|V|的向量,其值在ei处为1,其余处为0;这样,地址A的向量可表示为e={e1,e2,...,eT}。
LSTM神经网络模型是基于RNN改进而来的,单向的LSTM只能解决一个方向上的信息,无法处理双向信息。基于此,在Bi-LSTM阶段使用双向LSTM提取地址特征信息,这样保证了中文地址2个方向的信息都能获取到,更加完整的提取地址的语义表示。
卷积神经网络CNN在计算机视觉领域取得不错的效果,其卷积核池化的过程实际上是一个特征提取的过程。CNN的总体思想是将整体的数据局部化,在每一个局部数据中利用卷积核函数提取特征,随后重构所有的碎片化特征,在目标函数的指导下实现对数据整体信息的提取。
地址文本具有多地名性和层次性,即是有一连串的地理实体组成的文本。如“XX省(省)XX市(市)XX区(区县)XX路X号(街路巷)XXXX座X楼(POI)”。中文描述地址的不同层级的变化和CNN窗口的应用场景吻合。基于此,采用基于CNN的核心卷积形式对地址层级数据进行特征提取。
在Attention阶段,按照中文描述地址的习惯,习惯将有意义的词,或者具体地址的词放在前面进行表述,因此应该对每个词赋予不同的权重。在这一部分,本发明提出利用Attention机制表征地址的语义信息,以通过分配不同的权重来使语义向量表示更丰富的语义信息。
定义H是包含[h1,h2,...,hT]的输入向量,本阶段输入向量由CNN和Bi-LSTM阶段的加权输出而得,T是句子的长度,相关公式说明如下:
A'=tanh(H)
α=softmax(WTA')
A”=HαT
其中,dW是词向量的维度,W是通过训练获得,WT是其转置,A”经过Attention阶段之后的向量表示。
那么最终的每个地址向量的表示为:
其中,矩阵每一个行向量相加得到最终向量。
在步骤5中,构建如图所示基于孪生网络的地址语义相似度模型,在提出的基于神经网络算法的地址语义表征模型基础之上,通过曼哈顿距离计算地址之间的相似度。定义Aleft=(Al 1,Al 2,...,Al n)和Aright=(Ar 1,Ar 2,...,Ar n)分别是通过Attention之后的地址向量表示,那么Aleft和Aright的曼哈顿距离可以表示为:
使用sigmoid函数预测最终的相似度y值
y=sigmoid(Md)。
步骤6中,对待匹配地址和标准地址集Ai中的每一个地址进行相似度计算,获取到与待匹配标准地址的相似度,设定相似度阈值,查找到符合阈值的标准地址。
通过上述技术方案,首先,利用Trie树构建标准地址树,对标准库中的标准地址进行分词形成语法结构和语义结构信息,利用索引机制构建基于语法结构信息的倒排索引结构。接着,使用该标准树对待匹配地址进行分词,基于分词结果查询标准地址库,匹配生成地址对,运用Bi-LSTM和CNN神经网络算法模型对地址对进行表征,并在整合两个通道的信息后引入注意力语言机制,补充上下文的相关信息,以此进一步提高语义表征的准确性。最后,对表征信息计算相应的曼哈顿距离,得到地址对中地址的相似度信息。
由此可见,本发明提出利用Trie标准地址树对地址分词,将地址拆分为语法结构和语义结构,构建基于语法结构信息的倒排索引机制,对标准地址初筛,减少了匹配次数,节约了匹配时间;基于对地址文本内涵的理解,利用深度神经网络算法模型,构造基于注意力机制和Bi-LSTM-CNN结合的深度神经网络地址语义表达模型,提升了匹配的准确度。进一步的,还创新了匹配方式,在提出的神经网络地址语义表达模型基础上,构造基于孪生网络的地址相似度模型,将地址匹配任务转化为基于地址语义相似度任务,实现了地址的匹配。
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。
Claims (3)
1.一种基于倒排索引和神经网络算法的地址匹配方法,其特征在于,包括:
步骤1、构建Trie地址树;
步骤2、构建索引结构;
步骤3、索引匹配;
步骤4、构建基于神经网络算法的地址语义表达模型;
步骤5、构建基于孪生网络的地址语义相似度模型;
步骤6、对待匹配地址和标准地址集Ai中的每一个地址进行相似度计算,获取到与待匹配标准地址的相似度,设定相似度阈值,查找到符合阈值的标准地址;
在步骤2中,根据Trie地址树对标准地址库中的地址分词,得到每个地址的A、B、C、D、E、F结构;其中,A至F为地址的语法结构,除去A至F外的地址信息为语义结构;
根据标准地址的A至F语法信息结构构建倒排索引,其中,标准地址来源于规范合格的地址数据;
在步骤3中,对倒排索引检索结构中候选标准地址中的语法结构信息赋予唯一ID,将该语法结构拆分成多个索引关键词;其中,索引关键词的范围从分词结果A至F中获取,并且,每一个索引关键词至少关联一个ID;
待比对地址语法结构被拆分成多个检索词,检索词与索引关键词进行匹配得到所对应的ID集合,形成候选标准地址集;
具体的,对待匹配的地址,根据Trie地址树提取A、B、C、D、E、F结构,依次按照关键词的顺序F、E、D、C、B、A,查找对应的标准地址;若关键词F从标准库中查找对应的标准地址集Af,利用步骤4中基于地址语义表达的方法进行地址匹配;若没有查找到Af,则根据关键词E从标准库中查找对应的标准地址集Ae,利用步骤4中基于地址语义表达的方法进行地址匹配,若没有查找到Ae,则依次按照顺序进行查找,直至找到对应的标准地址集Ai,其中,i取值范围为a至f;
步骤4中包括嵌入阶段、Bi-LSTM阶段、CNN阶段和Attention阶段;
在嵌入阶段将中文地址转化为向量的形式,即将输入地址映射成为固定m×n的矩阵;采用Jieba的分词算法,并且加载自定义分词语料库,其中,分词语料库的构建根据城市地名和地址的特殊性,补充Jieba分词对未识别名称的正确分词;
具体的,地址A由N个词组成,即A={a1,a2,...,aN},对于地址A中的每个词,可以从词向量字典Dw∈Rdw|V|中查找到词向量;其中,V是词表的个数,dw是词表的维度;词向量字典Dw通过学习获得,词向量的维度dw根据需求设置;由此,地址A中的词ai的向量是:ei=DwVi,其中,Vi是一个长度为|V|的向量,其值在ei处为1,其余处为0;此时,地址A的向量可表示为e={e1,e2,...,eT};
在Bi-LSTM阶段使用双向LSTM提取地址特征信息,以保证完整提取地址的语义表示;
在CNN阶段将整体的数据局部化,在每一个局部数据中利用卷积核函数提取特征,随后重构所有的碎片化特征,在目标函数的指导下实现对数据整体信息的提取;
在Attention阶段利用Attention机制表征地址的语义信息,以通过分配不同的权重来使语义向量表示更丰富的语义信息;其中,
定义H是包含[h1,h2,...,hT]的输入向量,本阶段输入向量由CNN和Bi-LSTM阶段的加权输出而得,T是句子的长度,相关公式如下:
A'=tanh(H)
α=softmax(WTA')
A”=HαT
其中,H∈Rdw×T,dW是词向量的维度,W是通过训练获得,WT是其转置,A”经过Attention阶段之后的向量表示;
最终的每个地址向量的表示为:
其中,矩阵每一个行向量相加得到最终向量。
2.根据权利要求1所述的基于倒排索引和神经网络算法的地址匹配方法,其特征在于,在步骤1中,对于覆盖路径为A-B-C-D-E、符合地名地址表达规范的标准地址无需进行匹配;对于其余丢失部分信息的待匹配地址,则进入后续步骤的匹配。
3.根据权利要求1所述的基于倒排索引和神经网络算法的地址匹配方法,其特征在于,步骤5中,在提出的基于神经网络算法的地址语义表征模型基础之上,通过曼哈顿距离计算地址之间的相似度;其中,
定义Aleft=(Al 1,Al 2,...,Al n)和Aright=(Ar 1,Ar 2,...,Ar n)分别是通过Attention之后的地址向量表示,其中Al 1,Al 2,...,Al n表示地址Aleft中包含的N个词在经过Attention之后的向量表达形式,Ar 1,Ar 2,...,Ar n表示地址Aright中包含的N个词在经过Attention之后的向量表达形式,那么Aleft和Aright的曼哈顿距离可以表示为:
使用sigmoid函数预测最终的相似度y值
y=sigmoid(Md)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110702288.7A CN113326267B (zh) | 2021-06-24 | 2021-06-24 | 基于倒排索引和神经网络算法的地址匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110702288.7A CN113326267B (zh) | 2021-06-24 | 2021-06-24 | 基于倒排索引和神经网络算法的地址匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113326267A CN113326267A (zh) | 2021-08-31 |
CN113326267B true CN113326267B (zh) | 2023-08-08 |
Family
ID=77424493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110702288.7A Active CN113326267B (zh) | 2021-06-24 | 2021-06-24 | 基于倒排索引和神经网络算法的地址匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113326267B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113987114B (zh) * | 2021-09-17 | 2023-04-07 | 上海燃气有限公司 | 一种基于语义分析的地址匹配方法、装置和电子设备 |
CN114693396A (zh) * | 2022-02-28 | 2022-07-01 | 广州华多网络科技有限公司 | 地址信息匹配方法及其装置、设备、介质、产品 |
CN114461943B (zh) * | 2022-04-14 | 2022-08-26 | 中国测绘科学研究院 | 基于深度学习的多源poi语义匹配方法、装置及其存储介质 |
CN114911909B (zh) * | 2022-06-08 | 2023-01-10 | 北京青萌数海科技有限公司 | 结合深度卷积网络和注意力机制的地址匹配方法以及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102945249A (zh) * | 2012-10-10 | 2013-02-27 | 北京邮电大学 | 一种策略规则匹配查询树生成方法、匹配方法及装置 |
CN103198079A (zh) * | 2012-01-06 | 2013-07-10 | 北大方正集团有限公司 | 相关搜索的实现方法和装置 |
CN108427714A (zh) * | 2018-02-02 | 2018-08-21 | 北京邮电大学 | 基于机器学习的房源重复记录识别方法及系统 |
CN109101493A (zh) * | 2018-08-01 | 2018-12-28 | 东北大学 | 一种基于对话机器人的智能购房助手 |
CN110019575A (zh) * | 2017-08-04 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 对地理地址进行标准化的方法和装置 |
CN111783419A (zh) * | 2020-06-12 | 2020-10-16 | 上海东普信息科技有限公司 | 地址相似度计算方法、装置、设备和存储介质 |
CN111881677A (zh) * | 2020-07-28 | 2020-11-03 | 武汉大学 | 基于深度学习模型的地址匹配算法 |
CN112527938A (zh) * | 2020-12-17 | 2021-03-19 | 安徽迪科数金科技有限公司 | 基于自然语言理解的中文poi匹配方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100257174A1 (en) * | 2009-04-02 | 2010-10-07 | Matthew Dino Minuti | Method for data compression utilizing pattern-analysis and matching means such as neural networks |
US20200311844A1 (en) * | 2019-03-27 | 2020-10-01 | Uber Technologies, Inc. | Identifying duplicate user accounts in an identification document processing system |
-
2021
- 2021-06-24 CN CN202110702288.7A patent/CN113326267B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103198079A (zh) * | 2012-01-06 | 2013-07-10 | 北大方正集团有限公司 | 相关搜索的实现方法和装置 |
CN102945249A (zh) * | 2012-10-10 | 2013-02-27 | 北京邮电大学 | 一种策略规则匹配查询树生成方法、匹配方法及装置 |
CN110019575A (zh) * | 2017-08-04 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 对地理地址进行标准化的方法和装置 |
CN108427714A (zh) * | 2018-02-02 | 2018-08-21 | 北京邮电大学 | 基于机器学习的房源重复记录识别方法及系统 |
CN109101493A (zh) * | 2018-08-01 | 2018-12-28 | 东北大学 | 一种基于对话机器人的智能购房助手 |
CN111783419A (zh) * | 2020-06-12 | 2020-10-16 | 上海东普信息科技有限公司 | 地址相似度计算方法、装置、设备和存储介质 |
CN111881677A (zh) * | 2020-07-28 | 2020-11-03 | 武汉大学 | 基于深度学习模型的地址匹配算法 |
CN112527938A (zh) * | 2020-12-17 | 2021-03-19 | 安徽迪科数金科技有限公司 | 基于自然语言理解的中文poi匹配方法 |
Non-Patent Citations (1)
Title |
---|
高速包分类协处理器及网络平台研究;郑裕峰;《中国博士学位论文全文数据库 (信息科技辑)》(第3期);I139-5 * |
Also Published As
Publication number | Publication date |
---|---|
CN113326267A (zh) | 2021-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113326267B (zh) | 基于倒排索引和神经网络算法的地址匹配方法 | |
CN111611361B (zh) | 抽取式机器智能阅读理解问答系统 | |
CN107562812B (zh) | 一种基于特定模态语义空间建模的跨模态相似性学习方法 | |
CN109829104B (zh) | 基于语义相似度的伪相关反馈模型信息检索方法及系统 | |
WO2020062770A1 (zh) | 一种领域词典的构建方法、装置、设备及存储介质 | |
CN110727839B (zh) | 自然语言查询的语义解析 | |
US10289717B2 (en) | Semantic search apparatus and method using mobile terminal | |
CN110309268B (zh) | 一种基于概念图的跨语言信息检索方法 | |
Heck et al. | Leveraging knowledge graphs for web-scale unsupervised semantic parsing | |
US20120130705A1 (en) | Text segmentation with multiple granularity levels | |
CN110532328B (zh) | 一种文本概念图构造方法 | |
JP5605583B2 (ja) | 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム | |
CN106537370A (zh) | 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统 | |
CN111597314A (zh) | 推理问答方法、装置以及设备 | |
CN111985228B (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
JP2022024102A (ja) | 検索モデルのトレーニング方法、目標対象の検索方法及びその装置 | |
CN110263325A (zh) | 中文分词系统 | |
CN113761890B (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
CN112163425A (zh) | 基于多特征信息增强的文本实体关系抽取方法 | |
CN117076653B (zh) | 基于思维链及可视化提升上下文学习知识库问答方法 | |
CN110765755A (zh) | 一种基于双重选择门的语义相似度特征提取方法 | |
CN112036178A (zh) | 一种配网实体相关的语义搜索方法 | |
CN107316062A (zh) | 一种改进的面向领域的命名实体消歧方法 | |
CN113535897A (zh) | 一种基于句法关系和意见词分布的细粒度情感分析方法 | |
CN101470701A (zh) | 支持基于有限状态机的语义规则的文本分析器及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Building 5, Wuhu Science and Technology Industrial Park, Wuhu City, Anhui Province, 241000 Applicant after: Yangtze River delta information intelligence Innovation Research Institute Address before: 241000 Wuhu Intelligent Collaborative Innovation Center Applicant before: Institute of smart city University of science and technology of China (Wuhu) |
|
GR01 | Patent grant | ||
GR01 | Patent grant |