CN104699818B

CN104699818B - 一种多源异构的多属性poi融合方法

Info

Publication number: CN104699818B
Application number: CN201510133728.6A
Authority: CN
Inventors: 李霖; 邢小雨; 周冬波; 朱海红; 蒋敏; 王维
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2015-03-25
Filing date: 2015-03-25
Publication date: 2016-03-02
Anticipated expiration: 2035-03-25
Also published as: CN104699818A

Abstract

本发明公开了一种多源异构的多属性POI融合方法，首先从POI数据源A、B处获得需要进行融合的数据集，并分别对两异构属性的数据集进行去重处理；分别遍历两数据集中的每个POI，在遵循属性相似度计算规则的前提下，计算各POI每个属性的相似度，得到属性相似度矩阵；求解加权多属性POI相似度向量；计算POI相似度向量中各分量的最大值Max，并与阈值T进行比较；对代表同一地理实体的POI进行不同属性项的增加、同一属性项属性值的合并。该方法通过属性对整体的重要性及影响程度不同，差异化的考虑POI的各不同类型属性，更符合POI融合的实际操作，能够显著提高POI自动融合的准确率和效率。

Description

一种多源异构的多属性POI融合方法

技术领域

本发明属于电子地图的数据处理与数据融合技术领域，尤其涉及一种多源异构的多属性POI(PointOfInterest，兴趣点)融合方法。

背景技术

随着互联网、移动通信、移动定位以及智能移动终端的普及与应用，位置服务已成为提高出行能力、构建智慧型的公众服务、实现智能交通等的重要基础支撑。理论上来说世界上的一切人、事物、事件均可通过相应的定位系统、传感网、互联网、通信网等泛在网络被赋予准确的时间和空间戳印，在实时动态获取位置坐标、位置属性、位置关系、位置时间特征等多源异构信息的基础上，通过歧义消除、信息融合等处理，建立语义关系一致、统一时空地理关联的位置服务地图，将在公众位置服务、政府部门决策、舆情态势感知、人群行为特性分析、流行病预测等方面发挥越来越重要的作用。

POI作为在位置服务地图中表达地理实体及其位置信息(位置坐标、位置属性、位置关系、位置时间特征)的重要载体，已随着位置服务的发展成为一个重要的研究方向。国内外的相关学者围绕POI的获取、志愿者POI的结构化处理、POI的属性表达、POI信息的融合、POI的显示等方面进行了研究，取得了大量的研究成果，有的相关工作也申请了专利。

不同来源的POI信息不仅在数据结构上、组织形式等方面存在差异，而且各自的信息内容、完善和丰富程度、侧重点、覆盖范围等方面也存在较大的差异。如何实现来源不同的POI信息的融合，获得逻辑一致的、结构相同的、内容更丰富的、覆盖范围更广的POI信息，进而实现数据复用，已成为急需解决的问题。

目前在POI信息融合方面国内外研究者提出的解决方案大致有如下几种：基于Ontology的技术；基于空间属性的技术；基于非空间属性的技术；基于空间和非空间属性相结合的技术。但是通过分析这些技术和方法，会发现目前已有的方法尚存在以下缺陷：

缺陷1、虽然基于空间和非空间属性相结合的技术克服了单一基于空间属性或者单一基于非空间属性技术的不足，更加全面的考虑了POI的不同属性，但是，在POI信息的融合过程中，不同属性的重要性及对整体的影响是不同的，现有的公开发表的研究成果中并没有提出一种能够合理的依据不同属性重要性的进行融合方法。

缺陷2、在融合的过程中所使用的数据默认都有至少一个的正例匹配数，但是这在现实情况中是不能保证的。例如，在一个POI来源的数据集中含有某POI，但是在另外的POI来源的数据集中并不一定有代表相同地理实体的POI。现有的方法没有考虑这种情况会对融合、参数的确定等方面产生的影响。

发明内容

为了解决上述问题，本发明提出了一种多源异构的多属性POI融合方法，通过针对不同的属性类型使用不同的属性相似度计算方法，建立属性相似度矩阵；通过使用属性的权重向量有区别的对待POI的不同属性，建立了基于不同属性权重的融合模型；通过使用属性相似度矩阵和属性的权重向量的乘积获得POI相似度向量，以更加符合实际情况的方式确定各参数及阈值。实践表明，本方法能够达到较好的融合效率和准确率，并且原理简单、实现方便，是一种更切合实际的POI融合方法。

本发明所采用的技术方案是：一种多源异构的多属性POI融合方法，其特征在于，包括以下步骤：

步骤1：确定需要进行POI融合的空间范围，从POI数据源A、B处获得需要进行融合的数据集D_A、D_B，并分别对两异构属性的数据集进行去重处理；

步骤2：分别遍历D_A、D_B中的每个POI，在遵循属性相似度计算规则的前提下，计算各POI每个属性的相似度s_ij，得到属性相似度矩阵

所述的属性相似度计算规则为：如果一个属性在第一个数据集中有而在第二个数据集中没有或者在第一个数据集中没有而在第二个数据集中有，则该属性的相似度s_ij就记为0；如果一个属性在两个数据集中均存在，则按照属性相似度计算公式进行相似度计算；

步骤3：求解加权多属性POI相似度向量

步骤4：令D_A中的POI数据为P_A，D_B中的POI数据为P_B，计算POI相似度向量中各分量的最大值Max，并与阈值T进行比较；

步骤5：当Max≥T时，表示P_A和P_B是代表同一地理实体的POI，对P_A和P_B进行不同属性项的增加、同一属性项属性值的合并；否则不做任何处理。

作为优选，步骤2中所述的属性的相似度，根据属性类型分为空间属性相似度、无序标称属性相似度、层次结构属性相似度、描述性属性相似度；四类属性相似度的计算公式分别为：

(1)空间属性相似度s_ij，空间属性是指POI的经度和纬度属性，相似度计算公式如下：

s_ij＝2^-dist；

dist = \sqrt{{(x_{i} - x_{j})}^{2} + {(y_{i} - y_{j})}^{2}};

其中，x_i、x_j为POI的经度；y_i、y_j为POI的纬度；dist为两POI的欧几里得距离；

(2)无序标称属性相似度s_ij，无序标称属性是指无程度差别或次序的由字符串组成的属性(如POI名称、地址等属性)，相似度计算公式如下：

s_{ij} = \frac{1}{3} (\frac{| N_{1}^{'} |}{| N_{1} |} + \frac{| N_{2}^{'} |}{| N_{2} |} + \frac{| N_{1}^{'} | - T_{1, 2}}{2 | N_{1}^{'} |});

其中，N₁、N₂为两字符串的长度；N′₁、N′₂为两字符串中相同字符的数目；T_1,2为两个字符串中需要进行字符替换的数目；

(3)层次结构属性相似度s_ij，层次结构属性是指具有层次结构关系的属性(如POI类别属性)，属性值可以是某一层的值或者不同层的值之间的组合，相似度计算公式如下：

s_{ij} = \frac{Σ_{i = 1}^{n} V_{1} \times V_{2}}{\sqrt{Σ_{i = 1}^{n} v_{1}^{2}} \times \sqrt{Σ_{i = 1}^{n} v_{2}^{2}}};

其中，V₁、V₂为层次结构属性的概念向量；n为向量的维数；

(4)描述性属性相似度s_ij，描述性属性是指具有某一中心表达思想的自然语言或类似自然语言描述性的属性(如POI的评论、用户提示、推荐信息等属性)，相似度计算公式如下：

s_{ij} = \frac{1}{2} [KLD (V_{1} | | M) + KLD (V_{2} | | M)];

其中，KLD(V₁||M)、KLD(V₂||M)为两向量的相对熵；V₁、V₂为两描述性属性的主题特征向量。

作为优选，步骤2中所述的属性相似度矩阵的计算方法为，分别计算两数据集中POI的个数及每个POI有多少个属性；对比两个属性，如果两数据集中POI的属性个数相等，则该数值即为属性相似度矩阵的行数；如果两数据集中POI的属性个数不相等，则选择数量较小的一个数值作为属性相似度矩阵的行数；其计算公式如下：

其中，k为数据集D_A中的第k个POI；i为数据集D_A中POI的第i个属性；j为数据集D_B中的第j个POI；s_ij为数据集D_A中的第k个POI的第i个属性与第D_B中的第j个POI的相对应的属性相似度；n为数据集D_A、D_B中POI的属性个数的最小值；m为数据集D_B中POI的总数。

作为优选，步骤3中所述的加权多属性POI相似度向量的计算公式如下：

s_{v}^{k} = (\begin{matrix} s_{v 1}^{k}, & s_{v 2}^{k} . . ., & s_{vm}^{k} \end{matrix}) = (\begin{matrix} a_{1}^{k}, & a_{1}^{k} . . ., & a_{n}^{k} \end{matrix}) \cdot S_{ij}^{k};

其中，k为数据集D_A中的第k个POI；为数据集D_A中的第k个POI与D_B中的第1个POI的相似度；m为数据集D_B中POI的总数；为数据集D_A中的第k个POI的第1个属性的权重；n为数据集D_A中POI的属性的总数；权重向量向量各分量代表各个属性在POI融合过程中对整体的影响程度和重要性，也即各个属性的权重。

作为优选，所述的权重向量通过专家打分法、信息量权重法或回归权重法取得。

作为优选，步骤5中所述的不同属性项是指只出现在一个数据集中的属性，将该属性及属性值作为融合后POI的一个属性及属性值；所述的同一属性项是指出现在两个数据集中的属性，将该属性的属性值进行合并作为融合后POI的该属性的属性值。

本发明的技术方案通过差异化的考虑POI的不同属性，体现了在多属性POI融合过程中不同属性对整体的重要性、影响程度的不同；通过针对不同的属性提出了相应的属性相似度计算方法，可以更加准确衡量不同属性之间的相似度；通过使用属性相似度矩阵和属性的权重向量的乘积获得POI相似度向量，舍弃了两个来源不同的POI数据集中至少有一个匹配的正例数的假设，这种情况更符合实际的POI融合的操作。除此之外，实施本发明的技术方案在POI融合过程中只需要人工确定一个阈值即可，极大地提高了生产效率，大大的节省了人力成本，这种POI融合方法相对于传统的人工融合、更新POI数据的模式而言，是一种突破和创新。

附图说明

图1：为本发明实施例的流程示意图；

图2：为本发明实施例的属性相似度矩阵的计算流程。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种多源异构的多属性POI融合方法，包括以下步骤：

由于POI是不同地理实体的表示，所以在进行POI信息融合时，首先需要考虑POI表示的地理实体的空间范围，该空间范围应为某一城市、某一城市的辖区、或者是某一条道路周边一定缓冲区范围内等代表面状的区域，例如本实施例选择的是湖北省武汉市洪山区作为进行POI融合的空间范围。

分别从POI数据源A、B处获得该空间范围中的所有POI。要进行多源数据的融合，就需要不同的数据源，也就是POI信息的提供商，可以是两个、三个或者多个数据源，如果是三个或多个数据源，可以先进行两两的融合，直到最后还是可以认为是两个数据源。获取数据集的方法可以使用各POI提供商提供的API也可以使用爬虫工具进行自动提取，例如本实施例选择的是百度地图的POI和Google地图的POI，通过使用各自的API，获得了两个数据集D_{POI_BaiDu_original}、D_{POI_Google_original}。

对两数据集进行去重处理。由于查询数据的原因或者数据提供商的原因，从数据源获得的POI数据集可能会有重复的POI数据即两条不同的POI数据代表的是同一地理实体，这会给后面的计算带来误差，因此需要对数据集中重复的POI进行去重处理。例如本实施例选择对使用API得到的两数据集(D_{POI_BaiDu_original}、D_{POI_Google_original})进行去重，之后得到D_{POI_BaiDu}、D_{POI_Google}两个没有重复POI的数据集。

步骤2：分别遍历D_{POI_BaiDu}、D_{POI_Google}中的每个POI，在遵循属性相似度计算规则的前提下，计算各POI每个属性的相似度s_ij，得到属性相似度矩阵

属性相似度计算规则如下：如果一个属性在第一个数据集中有而在第二个数据集中没有或者在第一个数据集中没有而在第二个数据集中有，则该属性的相似度s_ij就记为0；如果一个属性在两个数据集中均存在，则按照属性相似度计算公式进行相似度计算。

请见图2，为属性相似度的计算流程图，其中属性的相似度计算公式根据属性类型不同分为空间属性相似度、无序标称属性相似度、层次结构属性相似度、描述性属性相似度；

s_ij＝2^-dist

dist = \sqrt{{(x_{i} - x_{j})}^{2} + {(y_{i} - y_{j})}^{2}}

其中，x_i、x_j为POI的经度；y_i、y_j为POI的纬度；dist为两POI的欧几里得距离。

s_{ij} = \frac{1}{3} (\frac{| N_{1}^{'} |}{| N_{1} |} + \frac{| N_{2}^{'} |}{| N_{2} |} + \frac{| N_{1}^{'} | - T_{1, 2}}{2 | N_{1}^{'} |})

其中，N₁、N₂为两字符串的长度；N′₁、N′₂为两字符串中相同字符的数目；T_1,2为两个字符串中需要进行字符替换的数目。

s_{ij} = \frac{Σ_{i = 1}^{n} V_{1} \times V_{2}}{\sqrt{Σ_{i = 1}^{n} v_{1}^{2}} \times \sqrt{Σ_{i = 1}^{n} v_{2}^{2}}};

其中，V₁、V₂为层次结构属性的概念向量；n为向量的维数。

s_{ij} = \frac{1}{2} [KLD (V_{1} | | M) + KLD (V_{2} | | M)]

属性相似度矩阵计算。分别计算两数据集中POI的个数及每个POI有多少个属性；对比两个属性，如果两数据集中POI的属性个数相等，则该数值即为属性相似度矩阵的行数；如果两数据集中POI的属性个数不相等，则选择数量较小的一个数值作为属性相似度矩阵的行数。例如本实施例中D_{POI_BaiDu}中有7680个POI，每个POI有ID、名称、地址、省份、城市、类型、空间(经度、纬度)共7个属性；D_{POI_Google}中有6469个POI，每个POI有名称、地址、类型、电话号码、空间(经度、纬度)共5个属性；则属性相似度矩阵的行数就为5，属性相似度矩阵为：

S_{ij}^{k} = (\begin{matrix} 0.14 & 0.92 & . . . & 0.24 \\ 0.22 & 0.76 & . . . & 0.66 \\ 0.1 & 0.44 & . . . & 0.82 \\ 0 & 0 & . . . & 0 \\ 0.41 & 0.96 & . . . & 0.14 \end{matrix});

步骤3：求解加权多属性POI相似度向量本发明实施例通过属性的权重向量乘以矩阵得到加权的多属性POI相似度向量计算公式如下：

s_{v}^{k} = (\begin{matrix} s_{v 1}^{k}, & s_{v 2}^{k} . . ., & s_{vm}^{k} \end{matrix}) = (\begin{matrix} a_{1}^{k}, & a_{1}^{k} . . ., & a_{n}^{k} \end{matrix}) \cdot S_{ij}^{k}

其中，该向量中各分量代表第一个数据集D_A中第k个POI与第二个数据集D_B中所有POI的相似度；m为数据集D_B中POI的总数；为数据集D_A中的第k个POI的第1个的权重；n为数据集D_A中POI的属性的总数。属性的权重向量可以通过专家打分、信息量权重、回归权重等多种方法取得，例如本实施例通过使用回归权重方法得到名称、地址、类别、电话号码、空间属性(经度、纬度)的权重向量为(0.48，0.27，0.09，0，0.16)，各分量代表各个属性在POI融合过程中对整体的影响程度和重要性。

步骤4：判断向量中的各分量的最大值Max并与设定的阈值T进行对比。向量中的分量的最大值代表第一个数据集中第k个POI(P_{POI_BaiDu})与第二个数据集中相似度最大的POI(P_{POI_Google})，即P_{POI_BaiDu}、P_{POI_Google}代表同一地理实体的可能性最大，将该相似度值Max与设定的阈值T进行比较，如果Max≥T则表示两个POI代表同一地理实体，对P_{POI_BaiDu}和P_{POL_Google}进行不同属性项的增加、同一属性项属性值的合并；如果Max＜T则表示两个POI代表不同的地理实体，则不做任何处理。例如本实施例选择T＝0.8。

其中不同属性项的增加是指只出现在一个数据集中的属性，将该属性及属性值作为融合后POI的一个属性及属性值；同一属性项属性值的合并是指出现在两个数据集中的属性，将该属性值取自两个POI或者是数值型属性的平均值作为融合后POI的该属性的属性值。例如本实施例通过融合后得到的POI有ID、名称、地址、省份、城市、类型、电话号码、空间属性(经度、纬度)等共8个属性，属性值也更加丰富，其中POI的ID、省份、城市、电话号码属性是不同属性项，属性值由原属性值取得；名称、地址、空间属性(经度、纬度)是同一属性项，属性值取自两POI的属性值或者是数值型属性的平均值。

本实施例的融合前POI的属性及属性值为：

本实施例的融合后POI的属性及属性值为：

{

"ID":"6563045",

"名称":"中百超市彭刘杨路店；中百超市(彭刘杨路店)",

"地址":"洪山区彭刘杨路74号；洪山区彭刘杨路76号附近",

"省份":"湖北",

"城市":"武汉",

"电话":"021-88865860",

"类型":"购物服务，超市",

"经度":"114.244756",

"纬度":"30.579205"

}

本实施例通过使用属性相似度矩阵和属性的权重向量的乘积获得POI相似度向量，舍弃了两个来源不同的POI数据集中至少有一个匹配的正例数的假设，这种情况更符合实际的POI融合的操作。本实施例在POI融合过程中只需要人工确定一个阈值即可，极大地提高了生产效率，大大的节省了人力成本，这种POI融合方法相对于传统的人工融合、更新POI数据的模式而言，是一种突破和创新。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种多源异构的多属性POI融合方法，其特征在于，包括以下步骤：

所述的属性相似度，根据属性类型分为空间属性相似度、无序标称属性相似度、层次结构属性相似度、描述性属性相似度；四类属性相似度的计算公式分别为：

s_ij＝2^-dist；

d i s t = \sqrt{{(x_{i} - x_{j})}^{2} + {(y_{i} - y_{j})}^{2}};

(2)无序标称属性相似度s_ij，无序标称属性是指无程度差别或次序的由字符串组成的属性，相似度计算公式如下：

s_{i j} = \frac{1}{3} (\frac{| N_{1}^{'} |}{| N_{1} |} + \frac{| N_{2}^{'} |}{| N_{2} |} + \frac{| N_{1}^{'} | - T_{1, 2}}{2 | N_{1}^{'} |});

(3)层次结构属性相似度s_ij，层次结构属性是指具有层次结构关系的属性，属性值可以是某一层的值或者不同层的值之间的组合，相似度计算公式如下：

s_{i j} = \frac{Σ_{i = 1}^{n} V_{1} \times V_{2}}{\sqrt{Σ_{i = 1}^{n} v_{1}^{2}} \times \sqrt{Σ_{i = 1}^{n} v_{2}^{2}}};

(4)描述性属性相似度s_ij，描述性属性是指具有某一中心表达思想的自然语言或类似自然语言描述性的属性，相似度计算公式如下：

s_{i j} = \frac{1}{2} [K L D (V_{1} | | M) + K L D (V_{2} | | M)];

其中，KLD(V₁||M)、KLD(V₂||M)为两向量的相对熵；V₁、V₂为两描述性属性的主题特征向量；

步骤3：求解加权多属性POI相似度向量

2.根据权利要求1所述的多源异构的多属性POI融合方法，其特征在于：步骤2中所述的属性相似度矩阵的计算方法为，分别计算两数据集中POI的个数及每个POI有多少个属性；对比两个属性，如果两数据集中POI的属性个数相等，则该数值即为属性相似度矩阵的行数；如果两数据集中POI的属性个数不相等，则选择数量较小的一个数值作为属性相似度矩阵的行数；其计算公式如下：

S_{i j}^{k} = (\begin{matrix} s_{11} & K & s_{1 m} \\ M & O & M \\ s_{n 1} & L & s_{n m} \end{matrix});

3.根据权利要求1所述的多源异构的多属性POI融合方法，其特征在于：步骤3中所述的加权多属性POI相似度向量的计算公式如下：

s_{v}^{k} = (s_{v 1}^{k}, s_{v 2}^{k} L, s_{v m}^{k}) = (a_{1}^{k}, a_{1}^{k} L, a_{n}^{k}) \cdot S_{i j}^{k};

4.根据权利要求3所述的多源异构的多属性POI融合方法，其特征在于：所述的权重向量通过专家打分法、信息量权重法或回归权重法取得。

5.根据权利要求1所述的多源异构的多属性POI融合方法，其特征在于：步骤5中所述的不同属性项是指只出现在一个数据集中的属性，将该属性及属性值作为融合后POI的一个属性及属性值；所述的同一属性项是指出现在两个数据集中的属性，将该属性的属性值进行合并作为融合后POI的该属性的属性值。