CN107577744A

CN107577744A - 非标地址自动匹配模型、匹配方法以及模型建立方法

Info

Publication number: CN107577744A
Application number: CN201710753110.9A
Authority: CN
Inventors: 奚雪峰; 邹恩岑; 曾诚; 吴宏杰; 陆悠; 王磊; 崔志明
Original assignee: Suzhou University of Science and Technology
Current assignee: Suzhou University of Science and Technology
Priority date: 2017-08-28
Filing date: 2017-08-28
Publication date: 2018-01-12

Abstract

本发明涉及一种非标地址自动匹配模型，包括采用哈希表结构的标准地址词典数据模块和非标地址匹配模块，所述标准地址词典数据模块包括一组Key‑Value对；所述Key为标准地址关键词，所述Value为该标准地址对应的一组词向量的数据表；所述词向量为步长为1、窗长为2的地址字符串；且后一个地址字符串是将前一个地址字符串作为基并在其维度上增加一构成。本发明减少了地址匹配所需人工成本；打通各非标地址系统间的信息孤岛，形成顺畅的地址搜索网络，为各非标地址系统间转换和地址统一，贡献巨大的价值。为公安提供了更加可靠的地址匹配基础平台、基本步骤和数据，实现了非标地址匹配从无到有的技术空白。

Description

非标地址自动匹配模型、匹配方法以及模型建立方法

技术领域

本发明涉及一种非标地址自动匹配模型以及匹配方法，还涉及到该模型的建立方法；属于地理信息技术领域。

背景技术

近些年，随着我国智慧城市建设进程的快速发展，门市楼牌的地址管理在发展中起到的作用越来越大。尤其是公安部门，在日常业务里，最常用的就是地址信息。然而由于当前社会面存在着多样的地址信息，如自来水公司的用户登记地址、燃气公司的用户登记地址、有线电视用户地址、被盘查人员登记地址等，从而在户籍地址，报警地址，案发地址等地址中，出现了多样性的地址表述，即地址信息表述不唯一。例如，同样的一个地址，在自来水公司用户地址中被表述为“千灯美景园34#(原1-14#)604”，在被盘查人员登记地址中可能表述为“江苏省昆山市千灯镇美景园34幢604室”，而在户籍地址中却表述为“昆山市千灯镇美景园34幢604室”。

显然，上述每类地址数据集自成体系而又彼此独立，形成孤立的数据集合体(简称数据体，又称信息孤岛),数据体间彼此之间没有直接转换的通道。地址信息表述不唯一，导致了不同来源的信息无法连通，相关业务无法上图，情报研判难以深入，发现重点人员轨迹困难，预测重大事件成效不显著，整合数据资源不充分等一系列问题。针对上述问题，构建一个标准化的地址库，然后将其它地址统一映射到该标准地址库中，是一种可行的方法。我们把上述各类地址定义为“非标地址”，把构建的标准化地址库中的地址则称为“标准地址”。

因此，某市公安局开展了地址标准化建设，首期完成了第一阶段90多万条的公安标准地址库建设。但是从社会各界收集到的海量非标地址，如何与标准地址进行匹配，存在着以下几点问题：(1)数据量大，从而带来人工检索比对的困难；(2)由于地址之间语义级相似度的存在，已经无法采用简单的字符串匹配检索方式，实现地址映射匹配。

发明内容

本发明所要解决的技术问题是，克服现有技术的缺点，提供一种非标地址匹配的模型以及匹配方法，为日后提高地址匹配算法精度和速度提供基础平台、基本步骤和数据。解决公安非标地址匹配从无到有的问题。另外，本发明还涉及到该模型的建立方法。

为了解决以上技术问题，本发明提供一种非标地址自动匹配模型，其特征在于包括采用哈希表结构的标准地址词典数据模块和非标地址匹配模块，所述标准地址词典数据模块包括一组Key-Value对；所述Key为标准地址关键词，所述Value为该标准地址对应的一组词向量的数据表；所述词向量为步长为1、窗长为2的地址字符串；且后一个地址字符串是将前一个地址字符串作为基并在其维度上增加一构成。

本发明进一步限定的技术特征为：所述非标地址匹配模块包括数据清洗模块、提取地址关键词模块、地址淘选模块、非标地址词向量切割模块以及非标与标准地址相似度计算模块。

进一步的，本发明还包括数据结果验证模块。

本发明还涉及一种非标地址自动匹配模型的建立方法，其特征在于包括以下几个步骤：

第一步、向标准地址词典数据结构中输入原始标准地址数据；

第二步、标准地址数据集清洗，去除不必要的数据，保留地址数据；

第三步、提取每条标准地址中的关键词；

第四步、将标准地址转换成词向量；

第五步、以标准地址关键词为Key，标准地址词向量为Value，使用哈希表结构建立标准地址词典。

进一步的，所述标准地址至少包括空间地址数据、经纬度信息。

本发明还涉及一种非标地址自动匹配模型的匹配方法，其特征在于包括以下几个步骤：

第一步、向非标地址匹配模块输入原始非标地址数据；

第二步、原始数据清洗；

第三步、提取非标地址中的关键词；

第四步、地址淘选，在标准地址词典中通过非标地址关键词查找标准地址数据，缩小非标地址在标准地址集合中的搜索范围；

第五步、将淘选后的标准地址转换成词向量；

第六步、非标地址词向量a与淘选后的标准地址词向量b进行相似度计算；

第七步、筛选出与非标地址最相似的一组标准地址，结果按照相似度由高到低排序。

本发明进一步限定的技术方案为：在第三步中，非标准地址的提取是采用步长为1、窗长为2的词向量切分法来分割提取关键词。

第四步中，淘选子模块查询标准地址词典得到淘选地址数据集；如果得到的数据集数量大于15000或数据集为空，则需再次淘选。在标准地址词典中查找关键词得到多个淘选地址数据集并选择包含地址数目最小的非空地址集。

在第六步中：首先，将非标地址词向量基与淘选后的标准地址词向量基并集成合并基；其次，将非标地址词向量a与淘选后的标准地址词向量b转换至合并基组成的合并向量空间c中；最后，将非标地址词向量a和标准地址词向量b之间进行余弦相似度计算，其计算公式为：

记向量a＝(x1,x2,…,xn)，向量b＝(y1,y2,…,yn)，代入上述公式得到a与b之间的余弦相似度如公式如下：

本发明的有益效果是：本发明根据公安提供的非标地址数据集和标准地址数据集，通过分析问题需求，为非标地址匹配问题建立模型，制定问题解决的步骤，提出求解问题基本方法和求解精度。大大提高地址匹配算法精度和速度；减少了地址匹配所需人工成本；打通各非标地址系统间的信息孤岛，形成顺畅的地址搜索网络，为各非标地址系统间转换和地址统一，贡献巨大的价值。为公安提供了更加可靠的地址匹配基础平台、基本步骤和数据，实现了非标地址匹配从无到有的技术空白。

附图说明

图1为本发明哈希标准地址词典数据结构示意图。

图2为非标地址自动匹配模型框图。

具体实施方式

实施例1

本实施例是基于实验数据集为95万条标准地址样本集和1.6万条非标准地址样本集，该非标准地址样本集由某自来水厂提供，已采用人工众包的方法，标注过其对应的标准地址。本实施例的目标是完成这1.6万条非标准地址到95万条标准地址的匹配。本实施例使用计算服务器为8核Intel Xeon E5-2640 V2,2.00GHz处理器，128G内存。软件配置为Ubuntu 16.04 LTS，Java JDK 1.8.0。

如图1-2所示：本发明提供一种非标地址自动匹配模型，包括采用哈希表结构的标准地址词典数据模块和非标地址匹配模块，所述标准地址词典数据模块包括一组Key-Value对；所述Key为标准地址关键词，所述Value为该标准地址对应的一组词向量的数据表；所述词向量为步长为1、窗长为2的地址字符串；且后一个地址字符串是将前一个地址字符串作为基并在其维度上增加一构成。

第三步、提取每条标准地址中的关键词；

第四步、将标准地址转换成词向量；

第五步、以标准地址关键词为Key，标准地址词向量为Value，使用哈希表结构建立标准地址词典。所述标准地址至少包括空间地址数据、经纬度信息；包括但不限于邮政编码数据，门牌号数据等。

本实施例选择使用步长为1，窗长为2的词向量切分法来分割地址字符串，切割出的两字字符串作为向量的基，每切割出作为基的字符串一次，就在向量的这一维上增加一，以此方法构成词向量。

例如：地址“玉山镇柏庐南路1126号”中，分割后的词向量的基为：玉山，山镇，镇柏，柏庐，庐南，南路，路1，11，12，26，6号，号，共12维。构成的词向量为：(1,1,1,1,1,1,1,1,1,1,1,1)(玉山，山镇，镇柏，柏庐，庐南，南路，路1，11，12，26，6号，号)；

系统将提取的关键词作为Key，包含整条地址的词向量的数组表ArrayList作为Value，加入到哈希表中。若新加入的地址具有和已存在的Key-Value具有相同的Key，则需与原有Key-Value对合并对应Value的内容。

地址淘选是通过算法将原先1个非标地址与95万的标准地址匹配的问题，缩小为1个非标地址与15000以内个标准地址匹配的问题。本实施例使用经验的淘选方法：

(1)地址淘选的前模块会提取非标地址的前两个字作为关键词，淘选子模块查询标准地址词典得到淘选地址数据集；

(2)如果得到的数据集数量大于15000或数据集为空，则需再次淘选；

(3)步长为1，窗长为2的词向量切分法来分割地址字符串作为关键词；

(4)在字典中查找关键词得到多个淘选地址数据集并选择包含地址数目最小的非空地址集。

以非标地址字符串分割后的词向量记为向量a，标准地址分割后的词向量记为b，a和b由于各自的基不同，所在的向量空间不同，需要换算至相同的向量空间。模块程序提取a和b两向量基的并集，构成合并基，将a、b两向量转换到合并基所组成的新的合并向量空间中。

设向量a基的集合为：

A＝{a1,a2,…,ai,c1,c2,…,ci}，

向量b基的集合为：

B＝{b1,b2,…,bi,c1,c2,…,ci}，

则a与b的合并基集合为：

C＝A∪B＝{a1,a2,…,ai,b1,b2,…,bi,c1,c2,…,ci}；

例如，非标地址“柏庐南路1126#”的基集合为：

A＝{柏庐，庐南，南路，路1，11，12，26，6#，#}，

标准地址“玉山镇柏庐南路1126号”基的集合为：

B＝{玉山，山镇，镇柏，柏庐，庐南，南路，路1，11，12，26，6号，号}；

对上述两组集合取并集，得到的合并基为：

C＝{玉山，山镇，镇柏，柏庐，庐南，南路，路1，11，12，26，6号，号，6#，#}，合并基共14维。

非标地址“柏庐南路1126#”变换为合并基后的词向量和对应的基为：

a＝(0,0,0,1,1,1,1,1,1,1,0,0,1,1)

(玉山，山镇，镇柏，柏庐，庐南，南路，路1，11，12，26，6号，号，6#，#)

地址“玉山镇柏庐南路1126号”变换为共同基后的词向量和对应的基为：

b＝(1,1,1,1,1,1,1,1,1,1,1,1,0,0)

(玉山，山镇，镇柏，柏庐，庐南，南路，路1，11，12，26，6号，号，6#，#)；

则非标地址词向量a与标准地址词向量b之间的使用余弦相似公式计算相似度，如公式2.1所示。

记向量a＝(x₁,x₂,…,x_n)，向量b＝(y₁,y₂,…,y_n)，代入公式2.1，得到a与b之间的余弦相似度如公式2.2所示：

本模型匹配实验的准确性指标由正确率Accuracy，精度Precision，召回率Recall和F1值反映。在非标地址匹配中，设TP为模块匹配正确的地址数量，设FP为模块匹配错误的地址数量，设TN为模块找到的匹配地址在实际情况下无标准地址，设FN为0。

准确率如公式3.1所示：

精确率如公式3.2所示：

召回率如公式3.3所示：

F1值如公式3.4所示：

各项实验经过调试得到结果。系统运行速度指标实验结果如表1所示。地址淘选准确性实验结果如表2所示。相似度计算准确性实验结果如表3所示。

表1系统运行速度指标

表2地址淘选算法准确性度量指标

表3相似度计算准确性度量指标

(1)系统运行速度指标分析

如表2所示，方法一：步长为1窗长为2的词向量切割方法搭配余弦相似算法，生成95万标准地址哈希字典的学习时间为13.70秒，学习时间较短。对比方法二：步长为1窗长为1的计算方法学习时间为9.99秒，说明方法二步长的步长减少，实际减少了程序相关的子字符串计算和循环操作，使得学习时间变短。方法一的查找时间为725.53秒，说明1.6万非标地址匹配时间为12分钟左右，系统每秒可为23条非标地址作标准地址匹配。方法二的查找时间为587.15秒短于方法一所用时间，其实质是因为减小窗长引起了向量空间维度的重叠，将原本应属于不同维度的向量基合并到了一起，向量空间维度的降低使得查找范围缩小，查找时间缩短，但准确率和精确率会严重降低。

(2)地址淘选算法准确性度量指标分析

如表2所示，地址淘选的准确率和精确率分别为89.69％和89.53％，表明基于经验的地址淘选方法具有一定的准确性，但是方法的准确性和精度并未达到可供实际事物使用的程度，科学合理的设计和选择地址淘选的方法将能较大提升系统准确性。F1值为94.48％说明该经验淘选的方法在具有一定的可用性。

(3)相似度计算准确性度量指标分析

如表3所示，方法一：步长为1窗长为2的词向量切割方法搭配余弦相似算法，所得结果的准确率和精确率分别为93.16％和90.99％，对比方法二：步长为1窗长为1的计算方法的准确率和精确率44.76％和27.20％，可知增加词向量切割窗长可大幅提高准确率和精确率。窗长为1时计算两个词向量的相似度，原本应为不同维度的向量基互相产生重叠，使得向量空间的维度减少，最终导致准确度和精确度严重下降。而方法一增加一个窗长长度，使得向量空间的各向量基保持在自己的维度上，不会互相重叠和影响，因而能得到较高的准确率和精确率。方法一的F1值为95.28％说明参数的该相似度计算方法在具有一定的可用性，而方法二的F1值仅为42.77％说明该参数的相似度计算方法可用性很低。

除上述实施例外，本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案，均落在本发明要求的保护范围。

Claims

1.非标地址自动匹配模型，其特征在于包括采用哈希表结构的标准地址词典数据模块和非标地址匹配模块，所述标准地址词典数据模块包括一组Key-Value对；所述Key为标准地址关键词，所述Value为该标准地址对应的一组词向量的数据表；所述词向量为步长为1、窗长为2的地址字符串；且后一个地址字符串是将前一个地址字符串作为基并在其维度上增加一构成。

2.根据权利要求1所述的非标地址自动匹配模型，其特征在于：所述非标地址匹配模块包括数据清洗模块、提取地址关键词模块、地址淘选模块、非标地址词向量切割模块以及非标与标准地址相似度计算模块。

3.根据权利要求1所述的非标地址自动匹配模型，其特征在于：还包括数据结果验证模块。

4.一种非标地址自动匹配模型的建立方法，其特征在于包括以下几个步骤：

第三步、提取每条标准地址中的关键词；

第四步、将标准地址转换成词向量；

5.根据权利要求4所述非标地址自动匹配模型的建立方法，其特征在于：所述标准地址至少包括空间地址数据、经纬度信息。

6.一种非标地址自动匹配模型的匹配方法，其特征在于包括以下几个步骤：

第一步、向非标地址匹配模块输入原始非标地址数据；

第二步、原始数据清洗；

第三步、提取非标地址中的关键词；

第五步、将淘选后的标准地址转换成词向量；

7.根据权利要求6所述非标地址自动匹配模型的匹配方法，其特征在于：在第三步中，非标准地址的提取是采用步长为1、窗长为2的词向量切分法来分割提取关键词。

8.根据权利要求6所述非标地址自动匹配模型的匹配方法，其特征在于：第四步中，淘选子模块查询标准地址词典得到淘选地址数据集；如果得到的数据集数量大于15000或数据集为空，则需再次淘选。

9.根据权利要求6所述非标地址自动匹配模型的匹配方法，其特征在于：在第四步中，在标准地址词典中查找关键词得到多个淘选地址数据集并选择包含地址数目最小的非空地址集。

10.根据权利要求6所述非标地址自动匹配模型的匹配方法，其特征在于：在第六步中：

首先，将非标地址词向量基与淘选后的标准地址词向量基并集成合并基；

其次，将非标地址词向量a与淘选后的标准地址词向量b转换至合并基组成的合并向量空间c中；

最后，将非标地址词向量a和标准地址词向量b之间进行余弦相似度计算，其计算公式为：；

记向量a=(x1, x2,…,xn)，向量b=(y1, y2, …, yn)，代入上述公式得到a与b之间的余弦相似度如公式如下：

<mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mi>&theta;</mi> <mo>=</mo> <mfrac> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>&CenterDot;</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msqrt> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <msqrt> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msup> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow> </mfrac> <mo>.</mo> </mrow>。