CN113326267B

CN113326267B - 基于倒排索引和神经网络算法的地址匹配方法

Info

Publication number: CN113326267B
Application number: CN202110702288.7A
Authority: CN
Inventors: 陈剑; 陈健鹏; 佘祥荣
Original assignee: Yangtze River Delta Information Intelligence Innovation Research Institute
Current assignee: Yangtze River Delta Information Intelligence Innovation Research Institute
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2023-08-08
Anticipated expiration: 2041-06-24
Also published as: CN113326267A

Abstract

本发明公开了一种基于倒排索引和神经网络算法的地址匹配方法，包括：构建Trie地址树；构建索引结构；索引匹配；构建基于神经网络算法的地址语义表达模型；构建基于孪生网络的地址语义相似度模型；对待匹配地址和标准地址集Ai中的每一个地址进行相似度计算，获取到与待匹配标准地址的相似度，设定相似度阈值，查找到符合阈值的标准地址。其构建了基于语法结构信息的倒排索引机制，减少了匹配次数，节约了匹配时间；也构造了基于注意力机制和Bi‑LSTM‑CNN结合的深度神经网络地址语义表达模型，提升了匹配的准确度；还构造了基于孪生网络的地址相似度模型，将地址匹配任务转化为基于地址语义相似度任务，创新了匹配方式。

Description

基于倒排索引和神经网络算法的地址匹配方法

技术领域

本发明涉及一种基于倒排索引和神经网络算法的地址匹配方法。

背景技术

中文地名地址的规范化在智慧城市建设中起到至关重要的作用。传统的地名地址规范技术常采用基于字符串相似度或者规则库的方法，与整个标准库进行一对一匹配。一般来说地址匹配分为以下两种：一种是对单一非标准地址的匹配，这类方法主要基于字符串和规则库处理为主；另一种是基于标准库下的地址匹配，这类方法主要基于文本统计特征的方法为主，如支持向量机、最长公共子串、编辑距离等。

但是，现有的这两种方法均存在一定的问题。对于规则库来说，由于中文地址信息的整体结构非常复杂，规则对于处理错乱或缺失的地址显示出一定的局限性；而基于统计特征的方法虽然一定程度上规避了地址结构复杂带来的问题，但标准地址库的建立难度大。同时，此方法对于具有复杂结构，或者包含冗余信息的地址难以规范，主要原因在于其缺乏对地址的语义理解，不能有效提取地址的语义特征。此外，地名地址匹配通常采用一对一方式，对于标准地址库中百万级数据量，逐个匹配的方式会耗费大量的计算资源和时间。

发明内容

本发明的目的是提供一种基于倒排索引和神经网络算法的地址匹配方法，该地址匹配方法构建了基于语法结构信息的倒排索引机制，减少了匹配次数，节约了匹配时间；同时，也构造了基于注意力机制和Bi-LSTM-CNN结合的深度神经网络地址语义表达模型，提升了匹配的准确度；更进一步的，还构造了基于孪生网络的地址相似度模型，将地址匹配任务转化为基于地址语义相似度任务，创新了匹配方式。

为了实现上述目的，本发明提供了一种基于倒排索引和神经网络算法的地址匹配方法，包括：

步骤1、构建Trie地址树；

步骤2、构建索引结构；

步骤3、索引匹配；

步骤4、构建基于神经网络算法的地址语义表达模型；

步骤5、构建基于孪生网络的地址语义相似度模型；

步骤6、对待匹配地址和标准地址集Ai中的每一个地址进行相似度计算，获取到与待匹配标准地址的相似度，设定相似度阈值，查找到符合阈值的标准地址。

优选地，在步骤1中，对于覆盖路径为A-B-C-D-E、符合地名地址表达规范的标准地址无需进行匹配；对于其余丢失部分信息的待匹配地址，则进入后续步骤的匹配。

优选地，在步骤2中，根据Trie地址树对标准地址库中的地址分词，得到每个地址的A、B、C、D、E、F结构；其中，A至F为地址的语法结构，除去A至F外的地址信息为语义结构；

根据标准地址的A至F语法信息结构构建倒排索引，其中，标准地址来源于规范合格的地址数据。

优选地，在步骤3中，对倒排索引检索结构中候选标准地址中的语法结构信息赋予唯一ID，将该语法结构拆分成多个索引关键词；其中，索引关键词的范围从分词结果A至F中获取，并且，每一个索引关键词至少关联一个ID；

待比对地址语法结构被拆分成多个检索词，检索词与索引关键词进行匹配得到所对应的ID集合，形成候选标准地址集；

具体的，对待匹配的地址，根据Trie地址树提取A、B、C、D、E、F结构，依次按照关键词的顺序F、E、D、C、B、A，查找对应的标准地址；若关键词F从标准库中查找对应的标准地址集A_f，利用步骤4中基于地址语义表达的方法进行地址匹配；若没有查找到A_f，则根据关键词E从标准库中查找对应的标准地址集A_e，利用步骤4中基于地址语义表达的方法进行地址匹配，若没有查找到A_e，则依次按照顺序进行查找，直至找到对应的标准地址集A_i，其中，i取值范围为a至f。

优选地，步骤4中包括嵌入阶段、Bi-LSTM阶段、CNN阶段和Attention阶段。

优选地，在嵌入阶段将中文地址转化为向量的形式，即将输入地址映射成为固定m×n的矩阵；采用Jieba的分词算法，并且加载自定义分词语料库，其中，分词语料库的构建根据城市地名和地址的特殊性，补充Jieba分词对未识别名称的正确分词；

具体的，地址A由N个词组成，即A＝{a₁,a₂,...,a_N}，对于地址A中的每个词，可以从词向量字典中查找到词向量；其中，V是词表的个数，d^w是词表的维度；词向量字典D^w通过学习获得，词向量的维度d^w根据需求设置；由此，地址A中的词a_i的向量是：e_i＝D^wVⁱ，其中，Vⁱ是一个长度为|V|的向量，其值在e_i处为1，其余处为0；此时，地址A的向量可表示为e＝{e₁,e₂,...,e_T}。

优选地，在Bi-LSTM阶段使用双向LSTM提取地址特征信息，以保证完整提取地址的语义表示。

优选地，在CNN阶段将整体的数据局部化，在每一个局部数据中利用卷积核函数提取特征，随后重构所有的碎片化特征，在目标函数的指导下实现对数据整体信息的提取。

优选地，在Attention阶段利用Attention机制表征地址的语义信息，以通过分配不同的权重来使语义向量表示更丰富的语义信息；其中，

定义H是包含[h₁,h₂,...,h_T]的输入向量，本阶段输入向量由CNN和Bi-LSTM阶段的加权输出而得，T是句子的长度，相关公式如下：

A'＝tanh(H)

α＝softmax(W^TA')

A”＝Hα^T

其中，d^W是词向量的维度，W是通过训练获得，W^T是其转置，A”经过Attention阶段之后的向量表示；

最终的每个地址向量的表示为：

其中，矩阵每一个行向量相加得到最终向量。

优选地，步骤5中，在提出的基于神经网络算法的地址语义表征模型基础之上，通过曼哈顿距离计算地址之间的相似度；其中，

定义A^left＝(A^l ₁,A^l ₂,...,A^l _n)和A^right＝(A^r ₁,A^r ₂,...,A^r _n)分别是通过Attention之后的地址向量表示，那么A^left和A^right的曼哈顿距离可以表示为：

使用sigmoid函数预测最终的相似度y值

y＝sigmoid(Md)

根据上述技术方案，本发明首先利用Trie树构建标准地址树，对标准库中的标准地址进行分词形成语法结构和语义结构信息，利用索引机制构建基于语法结构信息的倒排索引结构。接着，使用该标准树对待匹配地址进行分词，基于分词结果查询标准地址库，匹配生成地址对，运用Bi-LSTM和CNN神经网络算法模型对地址对进行表征，并在整合两个通道的信息后引入注意力语言机制，补充上下文的相关信息，以此进一步提高语义表征的准确性。最后，对表征信息计算相应的曼哈顿距离，得到地址对中地址的相似度信息。

本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1是本发明中孪生网络模型整体架构图；

图2是本发明中针对地址要素提取构建的Trie语法树；

图3是几类常见地址形式及覆盖路径示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

在本发明中，在未作相反说明的情况下，包含在术语中的方位词仅代表该术语在常规使用状态下的方位，或为本领域技术人员理解的俗称，而不应视为对该术语的限制。

参见图1至图3，本发明提供一种基于倒排索引和神经网络算法的地址匹配方法，包括：

步骤1、构建Trie地址树；

步骤2、构建索引结构；

步骤3、索引匹配；

步骤4、构建基于神经网络算法的地址语义表达模型；

步骤5、构建基于孪生网络的地址语义相似度模型；

具体的，在步骤1中，对于覆盖路径为A-B-C-D-E、符合地名地址表达规范的标准地址无需进行匹配；对于其他几类丢失部分信息的地址，属于待匹配地址。需要使用下文所述语义模型对其进行匹配。

在步骤2中，构建索引结构，根据Trie地址树对标准地址库中的地址分词，得到每个地址的A、B、C、D、E、F结构；其中，A至F为地址的语法结构，除去A至F外的地址信息为语义结构；

根据标准地址的A至F语法信息结构构建倒排索引，其中，根据标准地址的A-F语法信息结构构建倒排索引，标准地址的来源于规范合格的地址数据。

在步骤3中，索引匹配，对倒排索引检索结构中候选标准地址中的语法结构信息赋予唯一ID，将该语法结构拆分成多个索引关键词；其中，索引关键词的范围从分词结果A至F中获取，并且，每一个索引关键词至少关联一个ID；

具体的匹配流程：对待匹配的地址，根据Trie地址树提取A、B、C、D、E、F结构，依次按照关键词的顺序F、E、D、C、B、A，查找对应的标准地址。其流程是，若关键词F从标准库中查找对应的标准地址集A_f，利用步骤4中基于地址语义表达的方法进行地址匹配；若没有查找到A_f，则根据关键词E从标准库中查找对应的标准地址集A_e，利用步骤4中基于地址语义表达的方法进行地址匹配，若没有查找到A_e，则依次按照顺序进行查找，直至找到对应的标准地址集A_i(其中i取值范围为a-f之间)。

步骤4中，构建基于神经网络算法的地址语义表达模型，主要分为下列几个阶段：嵌入阶段、Bi-LSTM阶段、CNN阶段和Attention阶段。

具体的，在嵌入阶段将中文地址转化为向量的形式，即将输入地址映射成为固定m×n的矩阵。中文地址实际上是一种特殊的中文语言描述，中文的词没有形式上的分界符。在进行词嵌入之前，需要对地址进行分词。而中文地址的分词特殊在于，本发明更注重将地名地址分成各类地址要素，每个地址要素相当于中文分词中的词。因而，采用Jieba的分词算法，并且加载自定义分词语料库，其中，分词语料库的构建根据城市地名和地址的特殊性，补充Jieba分词对未识别名称的正确分词；

假设地址A是由N个词组成，即A＝{a₁,a₂,...,a_N}，对于地址A中的每个词，可以从词向量字典中查找到词向量；其中，V是词表的个数，d^w是词表的维度；词向量字典D^w通过学习获得，词向量的维度d^w根据需求设置；故地址A中的词a_i的向量是：e_i＝D^wVⁱ，其中，Vⁱ是一个长度为|V|的向量，其值在e_i处为1，其余处为0；这样，地址A的向量可表示为e＝{e₁,e₂,...,e_T}。

LSTM神经网络模型是基于RNN改进而来的，单向的LSTM只能解决一个方向上的信息，无法处理双向信息。基于此，在Bi-LSTM阶段使用双向LSTM提取地址特征信息，这样保证了中文地址2个方向的信息都能获取到，更加完整的提取地址的语义表示。

卷积神经网络CNN在计算机视觉领域取得不错的效果，其卷积核池化的过程实际上是一个特征提取的过程。CNN的总体思想是将整体的数据局部化，在每一个局部数据中利用卷积核函数提取特征，随后重构所有的碎片化特征，在目标函数的指导下实现对数据整体信息的提取。

地址文本具有多地名性和层次性，即是有一连串的地理实体组成的文本。如“XX省(省)XX市(市)XX区(区县)XX路X号(街路巷)XXXX座X楼(POI)”。中文描述地址的不同层级的变化和CNN窗口的应用场景吻合。基于此，采用基于CNN的核心卷积形式对地址层级数据进行特征提取。

在Attention阶段，按照中文描述地址的习惯，习惯将有意义的词，或者具体地址的词放在前面进行表述，因此应该对每个词赋予不同的权重。在这一部分，本发明提出利用Attention机制表征地址的语义信息，以通过分配不同的权重来使语义向量表示更丰富的语义信息。

定义H是包含[h₁,h₂,...,h_T]的输入向量，本阶段输入向量由CNN和Bi-LSTM阶段的加权输出而得，T是句子的长度，相关公式说明如下：

A'＝tanh(H)

α＝softmax(W^TA')

A”＝Hα^T

其中，d^W是词向量的维度，W是通过训练获得，W^T是其转置，A”经过Attention阶段之后的向量表示。

那么最终的每个地址向量的表示为：

其中，矩阵每一个行向量相加得到最终向量。

在步骤5中，构建如图所示基于孪生网络的地址语义相似度模型，在提出的基于神经网络算法的地址语义表征模型基础之上，通过曼哈顿距离计算地址之间的相似度。定义A^left＝(A^l ₁,A^l ₂,...,A^l _n)和A^right＝(A^r ₁,A^r ₂,...,A^r _n)分别是通过Attention之后的地址向量表示，那么A^left和A^right的曼哈顿距离可以表示为：

使用sigmoid函数预测最终的相似度y值

y＝sigmoid(Md)。

步骤6中，对待匹配地址和标准地址集Ai中的每一个地址进行相似度计算，获取到与待匹配标准地址的相似度，设定相似度阈值，查找到符合阈值的标准地址。

通过上述技术方案，首先，利用Trie树构建标准地址树，对标准库中的标准地址进行分词形成语法结构和语义结构信息，利用索引机制构建基于语法结构信息的倒排索引结构。接着，使用该标准树对待匹配地址进行分词，基于分词结果查询标准地址库，匹配生成地址对，运用Bi-LSTM和CNN神经网络算法模型对地址对进行表征，并在整合两个通道的信息后引入注意力语言机制，补充上下文的相关信息，以此进一步提高语义表征的准确性。最后，对表征信息计算相应的曼哈顿距离，得到地址对中地址的相似度信息。

由此可见，本发明提出利用Trie标准地址树对地址分词，将地址拆分为语法结构和语义结构，构建基于语法结构信息的倒排索引机制，对标准地址初筛，减少了匹配次数，节约了匹配时间；基于对地址文本内涵的理解，利用深度神经网络算法模型，构造基于注意力机制和Bi-LSTM-CNN结合的深度神经网络地址语义表达模型，提升了匹配的准确度。进一步的，还创新了匹配方式，在提出的神经网络地址语义表达模型基础上，构造基于孪生网络的地址相似度模型，将地址匹配任务转化为基于地址语义相似度任务，实现了地址的匹配。

以上结合附图详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

1.一种基于倒排索引和神经网络算法的地址匹配方法，其特征在于，包括：

步骤1、构建Trie地址树；

步骤2、构建索引结构；

步骤3、索引匹配；

步骤4、构建基于神经网络算法的地址语义表达模型；

步骤5、构建基于孪生网络的地址语义相似度模型；

步骤6、对待匹配地址和标准地址集Ai中的每一个地址进行相似度计算，获取到与待匹配标准地址的相似度，设定相似度阈值，查找到符合阈值的标准地址；

在步骤2中，根据Trie地址树对标准地址库中的地址分词，得到每个地址的A、B、C、D、E、F结构；其中，A至F为地址的语法结构，除去A至F外的地址信息为语义结构；

根据标准地址的A至F语法信息结构构建倒排索引，其中，标准地址来源于规范合格的地址数据；

在步骤3中，对倒排索引检索结构中候选标准地址中的语法结构信息赋予唯一ID，将该语法结构拆分成多个索引关键词；其中，索引关键词的范围从分词结果A至F中获取，并且，每一个索引关键词至少关联一个ID；

具体的，对待匹配的地址，根据Trie地址树提取A、B、C、D、E、F结构，依次按照关键词的顺序F、E、D、C、B、A，查找对应的标准地址；若关键词F从标准库中查找对应的标准地址集A_f，利用步骤4中基于地址语义表达的方法进行地址匹配；若没有查找到A_f，则根据关键词E从标准库中查找对应的标准地址集A_e，利用步骤4中基于地址语义表达的方法进行地址匹配，若没有查找到A_e，则依次按照顺序进行查找，直至找到对应的标准地址集A_i，其中，i取值范围为a至f；

步骤4中包括嵌入阶段、Bi-LSTM阶段、CNN阶段和Attention阶段；

在嵌入阶段将中文地址转化为向量的形式，即将输入地址映射成为固定m×n的矩阵；采用Jieba的分词算法，并且加载自定义分词语料库，其中，分词语料库的构建根据城市地名和地址的特殊性，补充Jieba分词对未识别名称的正确分词；

具体的，地址A由N个词组成，即A＝{a₁,a₂,...,a_N}，对于地址A中的每个词，可以从词向量字典D^w∈R^dw|V|中查找到词向量；其中，V是词表的个数，d^w是词表的维度；词向量字典D^w通过学习获得，词向量的维度d^w根据需求设置；由此，地址A中的词a_i的向量是：e_i＝D^wVⁱ，其中，Vⁱ是一个长度为|V|的向量，其值在e_i处为1，其余处为0；此时，地址A的向量可表示为e＝{e₁,e₂,...,e_T}；

在Bi-LSTM阶段使用双向LSTM提取地址特征信息，以保证完整提取地址的语义表示；

在CNN阶段将整体的数据局部化，在每一个局部数据中利用卷积核函数提取特征，随后重构所有的碎片化特征，在目标函数的指导下实现对数据整体信息的提取；

在Attention阶段利用Attention机制表征地址的语义信息，以通过分配不同的权重来使语义向量表示更丰富的语义信息；其中，

A'＝tanh(H)

α＝softmax(W^TA')

A”＝Hα^T

其中，H∈R^dw×T，d^W是词向量的维度，W是通过训练获得，W^T是其转置，A”经过Attention阶段之后的向量表示；

最终的每个地址向量的表示为：

其中，矩阵每一个行向量相加得到最终向量。

2.根据权利要求1所述的基于倒排索引和神经网络算法的地址匹配方法，其特征在于，在步骤1中，对于覆盖路径为A-B-C-D-E、符合地名地址表达规范的标准地址无需进行匹配；对于其余丢失部分信息的待匹配地址，则进入后续步骤的匹配。

3.根据权利要求1所述的基于倒排索引和神经网络算法的地址匹配方法，其特征在于，步骤5中，在提出的基于神经网络算法的地址语义表征模型基础之上，通过曼哈顿距离计算地址之间的相似度；其中，

定义A^left＝(A^l ₁,A^l ₂,...,A^l _n)和A^right＝(A^r ₁,A^r ₂,...,A^r _n)分别是通过Attention之后的地址向量表示，其中A^l ₁,A^l ₂,...,A^l _n表示地址A^left中包含的N个词在经过Attention之后的向量表达形式，A^r ₁,A^r ₂,...,A^r _n表示地址A^right中包含的N个词在经过Attention之后的向量表达形式，那么A^left和A^right的曼哈顿距离可以表示为：

使用sigmoid函数预测最终的相似度y值

y＝sigmoid(Md)。