CN105045880A

CN105045880A - 一种不同数据源的兴趣点的模糊匹配方法

Info

Publication number: CN105045880A
Application number: CN201510430517.9A
Authority: CN
Inventors: 郭文忠; 陈羽中; 於志勇; 赵水源
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2015-07-22
Filing date: 2015-07-22
Publication date: 2015-11-11
Anticipated expiration: 2035-07-22
Also published as: CN105045880B

Abstract

本发明涉及一种不同数据源的兴趣点的模糊匹配方法，包括以下步骤：1、分别从两个不同的网站中采集兴趣点数据构成数据集A、B；2、提取名称完全匹配的兴趣点配对形成数据样本，通过数据样本计算平均位置偏差并确定匹配范围；3、分别从数据集A、B中取待匹配点和待匹配集；4、对待匹配点和待匹配集中所有兴趣点的名称进行逐级地址分词，然后通过地址词典过滤名称中的地址信息；5、采用KMP算法对待匹配点和待匹配集中每个兴趣点进行匹配，通过匹配率判断兴趣点是否相同；6、同理，对数据集A中的其他兴趣点，在数据集B中找出与其匹配的兴趣点。该方法有利于精确匹配不同数据源的兴趣点数据，过滤重复的数据。

Description

一种不同数据源的兴趣点的模糊匹配方法

技术领域

本发明涉及字符串模糊匹配技术领域，特别涉及一种不同数据源的兴趣点的模糊匹配方法。

背景技术

随着大数据时代的到来，智慧城市服务项目受到了许多国内外学者的关注。数以百万的用户提供了大量的兴趣点数据及签到数据，这些数据为智慧城市服务项目提供了数据源。但是不同源提供的兴趣点数据存在重复的可能，导致数据库存储时产生冗余，并且可能影响计算结果的准确性。不同数据源的兴趣点数据的经纬度采用的是不同的标准，所以很难通过兴趣点的经纬度直接对相同的兴趣点进行匹配，进而需要一种方法来匹配不同数据源的兴趣点数据。

发明内容

本发明的目的在于提供一种不同数据源的兴趣点的模糊匹配方法，该方法有利于精确匹配不同数据源的兴趣点数据，过滤重复的数据。

为实现上述目的，本发明的技术方案是：一种不同数据源的兴趣点的模糊匹配方法，包括以下步骤：

步骤S1：分别从两个不同的网站中采集兴趣点数据，其中包括兴趣点的名称、地址、经度、纬度信息，构成数据集A和数据集B；

步骤S2：从所述数据集A、B中找出名称完全匹配的兴趣点配对形成数据样本，计算数据样本中所有配对的兴趣点之间的位置偏差，所述位置偏差包括两兴趣点之间的偏差距离和偏差角度；去噪处理后，计算平均位置偏差，包括平均偏差距离和平均偏差角度，并确定匹配范围；

步骤S3：取数据集A中的一个兴趣点作为待匹配点，根据步骤S2获得的平均偏差距离d、平均偏差角度o，找出数据集B中所有在待匹配点匹配范围内的兴趣点组成待匹配集；

步骤S4：对地址分词字段建立逐级的父子关系，并根据地址分词字段之间的关系对所述待匹配点的地址进行逐级地址分词，并采用地址分词得到的地址字段形成临时的地址词典，然后通过所述临时的地址词典过滤待匹配点和待匹配集中所有兴趣点的名称中的地址信息；

步骤S5：基于已过滤掉地址信息的名称，采用KMP算法对待匹配点和待匹配集中每个兴趣点进行匹配，当某个兴趣点使匹配率最大且所述匹配率大于设定值时，则判定该兴趣点与待匹配点属于同一个兴趣点；

步骤S6：对数据集A中的其他兴趣点，按步骤S3~S5的方法，在数据集B中找出与其匹配的兴趣点。

进一步的，所述待匹配点匹配范围为：以与待匹配点偏差的距离为平均偏差距离d、偏差的角度为平均偏差角度o的点为中心，以匹配半径r为半径的圆。

进一步的，步骤S2中，形成数据样本并确定平均位置偏差和匹配范围的方法为：

步骤S201：找出所述数据集A、B中名称完全匹配的兴趣点，配对形成数据样本集合{TS(a₁,b₁),TS(a₂,b₂),…,TS(a_i,b_i),…,TS(a_n,b_n)}，TS(a_i,b_i)表示第i个完全匹配对，即数据集A的兴趣点a_i与数据集B的兴趣点b_i的名称完全匹配，i∈{1,2,…,n}，n为集合长度；

步骤S202：对每个完全匹配对TS(a_i,b_i)求a_i与b_i之间的偏差距离和偏差角度，得到与数据样本集合对应的偏差距离集合{d₁,d₂,…,d_i,…,d_n}和偏差角度集合{o₁,o₂,…,o_i,…,o_n}，d_i表示a_i与b_i之间的偏差距离，o_i表示a_i与b_i之间的偏差角度；计算方法如下：

上式中，lat(a_i)、lat(b_i)分别为兴趣点a_i、b_i的纬度，lon(a_i)、lon(b_i)分别为兴趣点a_i、b_i的经度，R为地球半径；

上式中，R_j为极半径；

步骤S203：分别去除所述偏差距离集合和偏差角度集合的噪声点，得到去噪后的偏差距离集合{d_p|p∈D}和去噪后的偏差角度集合{o_q|q∈O}，其中D为所述偏差距离集合中非噪声点的下标的集合，O为所述偏差角度集合中非噪声点的下标的集合，保留下标同时存在于集合D和集合O中的偏差距离和偏差角度，形成处理后的偏差距离集合{d_j|j∈N}和处理后的偏差角度集合{o_j|j∈N}，其中N=D∩O，即为同时存在于集合D和集合O中的下标集合；

步骤S204：求取处理后的偏差距离集合的平均偏差距离d和处理后的偏差角度集合的平均偏差角度o，所述平均偏差距离d和平均偏差角度o确定了匹配范围的中心，求取处理后的偏差距离集合中两两距离差，最大的距离差r即为匹配范围的匹配半径，计算方法为：

上式中，d_j∈{d_j|j∈N}，o_j∈{o_j|j∈N}，len(N)表示下标集合N的长度，x、y∈N且x≠y。

进一步的，在步骤S203中，采用3倍均方差法去除所述偏差距离集合和偏差角度集合的噪声点，计算方法为：

上式中，当AP_i大于0时，则d_i为所述偏差距离集合的噪声点，去除；

上式中，当BP_i大于0时，则o_i为所述偏差角度集合的噪声点，去除。

进一步的，步骤S4中，进行逐级地址分词的方法如下：

步骤S401：地址分词字段包括省级字段F1、市级字段F2、县区级字段F3、乡镇级字段F3、社区级字段F4和路级字段F5；

令F2从属父级别F1；F3从属父级别F1、F2；F4从属父级别F1、F2、F3；F5从属父级别F1、F2、F3、F4；F6从属父级别F1、F2、F3、F4、F5，从而建立地址分词字段之间的父子关系；

步骤S402：对兴趣点的地址执行F1级别的分词操作，分出省级的地址字段，然后依次执行F2、F3、F4、F5、F6级别的分词操作，依次分出市级、县区级、乡镇级、社区级和路级的地址字段，若某级别不存在，则继续进行下一级别的分词操作。

本发明的有益效果是将兴趣点的名称和地址相结合，提出了一种对不同数据源的兴趣点数据进行模糊匹配的方法，该方法修正了位置偏差并去除了兴趣点名称中的地址干扰，能够精确匹配不同数据源的兴趣点数据，过滤重复的兴趣点，具有很强的实用性和广阔的应用前景。

附图说明

图1是本发明实施例的实现流程图。

图2是本发明实施例中确定平均位置偏差和匹配范围的流程图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细说明。

本发明将兴趣点地址和名称相结合，通过不同数据源的兴趣点名称和地址进行模糊匹配。由于不同数据源的兴趣点位置偏差较大，进行大范围搜索耗时太多，所以需要缩小匹配范围，进一步的，由于一些兴趣点名称包含地址信息，而一些兴趣点名称不包含地址信息，使得匹配率较低，所以需要去除兴趣点名称中的地址干扰。本发明通过处理位置偏差和地址干扰对不同数据源的兴趣点进行匹配。

本发明为一种不同数据源的兴趣点的模糊匹配方法，如图1所示，包括以下步骤：

步骤S1：分别从两个不同的网站中采集兴趣点数据，其中包括兴趣点的名称、地址、经度、纬度等信息，构成数据集A和数据集B。

步骤S2：从所述数据集A、B中找出名称完全匹配的兴趣点配对形成数据样本，计算数据样本中所有配对的兴趣点之间的位置偏差，所述位置偏差包括两兴趣点之间的偏差距离和偏差角度；去噪处理后，计算平均位置偏差，包括平均偏差距离和平均偏差角度，并确定匹配范围。所述待匹配点匹配范围为：以与待匹配点偏差的距离为平均偏差距离d、偏差的角度为平均偏差角度o的点为中心，以匹配半径r为半径的圆。如图2所示，形成数据样本并确定平均位置偏差和匹配范围的具体方法为：

步骤S201：找出所述数据集A、B中名称完全匹配的兴趣点，配对形成数据样本集合{TS(a₁,b₁),TS(a₂,b₂),…,TS(a_i,b_i),…,TS(a_n,b_n)}，TS(a_i,b_i)表示第i个完全匹配对，即数据集A的兴趣点a_i与数据集B的兴趣点b_i的名称完全匹配，i∈{1,2,…,n}，n为集合长度。

上式中，lat(a_i)、lat(b_i)分别为兴趣点a_i、b_i的纬度，lon(a_i)、lon(b_i)分别为兴趣点a_i、b_i的经度，R为地球半径6378.137；

上式中，lat(a_i)、lat(b_i)分别为兴趣点a_i、b_i的纬度，lon(a_i)、lon(b_i)分别为兴趣点a_i、b_i的经度，R为地球半径6378.137，R_j为极半径6356.725。

步骤S203：分别采用3倍均方差法去除所述偏差距离集合和偏差角度集合的噪声点，得到去噪后的偏差距离集合{d_p|p∈D}和去噪后的偏差角度集合{o_q|q∈O}，其中D为所述偏差距离集合中非噪声点的下标的集合，O为所述偏差角度集合中非噪声点的下标的集合，保留下标同时存在于集合D和集合O中的偏差距离和偏差角度，形成处理后的偏差距离集合{d_j|j∈N}和处理后的偏差角度集合{o_j|j∈N}，其中N=D∩O，即为同时存在于集合D和集合O中的下标集合。

例如，去噪得到的偏差距离集合为{d₁,d₂,d₄,…,d_p,…}，去噪得到的偏差角度集合{o₁,o₄,o₅,…,o_q,…}，然后扫描两个集合，保留下标同时存在的偏差距离和偏差角度，形成处理后的偏差距离集合{d₁,d₄,…,d_j,…}和处理后的偏差角度集合{o₁,o₄,…,o_j,…}，其中下标集合N为{1,4,…,j,…}。

在本实施例中，采用3倍均方差法去除所述偏差距离集合和偏差角度集合的噪声点的计算方法为：

步骤S3：取数据集A中的一个兴趣点作为待匹配点，根据步骤S2获得的平均偏差距离d、平均偏差角度o，找出数据集B中所有在待匹配点匹配范围内的兴趣点组成待匹配集。

步骤S4：对地址分词字段建立逐级的父子关系，并根据地址分词字段之间的关系对所述待匹配点的地址进行逐级地址分词，并采用地址分词得到的地址字段形成临时的地址词典，然后通过所述临时的地址词典过滤待匹配点和待匹配集中所有兴趣点的名称中的地址信息。

具体的，进行逐级地址分词的方法如下：

步骤S401：地址分词字段包括省级字段F1、市级字段F2、县区级字段F3、乡镇级字段F3、社区级字段F4和路级字段F5，如：

F1=[省，直辖市]

F2=[市]

F3=[区，县]

F4=[街道，镇，乡]

F5=[社区，村，小区，大厦，里，弄，园，支弄，一区，二区，西里，公寓，宾馆，市场，广场，饭店，花园，特区，中心，西区，一里，二里，三里，四里，五里，寺，苑]

F6=[路，街，巷，头条，二条，三条]；

步骤S402：对兴趣点的地址执行F1级别的分词操作，分出省级的地址字段，然后依次执行F2、F3、F4、F5、F6级别的分词操作，依次分出市级、县区级、乡镇级、社区级和路级的地址字段，若某级别不存在，则继续进行下一级别的分词操作；如待匹配点A的地址为“福建省福州市宝龙城市广场”，则分词结果为“福建省”、“福州市”、“宝龙城市广场”。

本发明是先通过对一个兴趣点的地址信息进行分词，如上例所述分词后得到“福建省”、“福州市”、“宝龙城市广场”，这几个词形成临时的地址词典，假设待匹配点A的名称为“肯德基(宝龙城市广场)”，这时候根据分词结果可将名称中的地址信息去除，得到“肯德基”，而待匹配集中的兴趣点B的名称为“肯德基”，地址信息去除后名称不变。这里表述的地址词典对于不同兴趣点是不一样的，并不是标准存在的，而是根据该兴趣点的地址分离出来的。因为如果采用标准的地址词典集合，每次兴趣点的名称去除地址信息的过程需要遍历整个地址词典集合，耗时太多。所以采取临时形成的地址词典。

步骤S5：基于已过滤掉地址信息的名称，采用KMP算法对待匹配点和待匹配集中每个兴趣点进行匹配，当某个兴趣点使匹配率最大且所述匹配率大于设定值时，则判定该兴趣点与待匹配点属于同一个兴趣点。KMP算法的核心在于对于每一个模式串会事先计算出模式串的内部匹配信息，在匹配失败时最大的移动模式串，以减少匹配次数，其计算方法为在已经匹配的模式串子串中，找出最长的相同的前缀和后缀，然后移动使它们重叠。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种不同数据源的兴趣点的模糊匹配方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种不同数据源的兴趣点的模糊匹配方法，其特征在于，所述待匹配点匹配范围为：以与待匹配点偏差的距离为平均偏差距离d、偏差的角度为平均偏差角度o的点为中心，以匹配半径r为半径的圆。

3.根据权利要求2所述的一种不同数据源的兴趣点的模糊匹配方法，其特征在于，步骤S2中，形成数据样本并确定平均位置偏差和匹配范围的方法为：

上式中，R_j为极半径；

4.根据权利要求3所述的一种不同数据源的兴趣点的模糊匹配方法，其特征在于，在步骤S203中，采用3倍均方差法去除所述偏差距离集合和偏差角度集合的噪声点，计算方法为：

5.根据权利要求1所述的一种不同数据源的兴趣点的模糊匹配方法，其特征在于，步骤S4中，进行逐级地址分词的方法如下：