CN103646109B

CN103646109B - 一种基于机器学习的空间数据匹配方法

Info

Publication number: CN103646109B
Application number: CN201310726445.3A
Authority: CN
Inventors: 张翔; 艾廷华; 赵羲; 杨敏
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2013-12-25
Filing date: 2013-12-25
Publication date: 2017-01-25
Anticipated expiration: 2033-12-25
Also published as: CN103646109A

Abstract

本发明涉及一种基于机器学习的空间数据匹配方法，包括四个步骤：1）自动生成匹配训练样本，2）通过机器学习建立分类器模型及其参数，3）应用分类器模型对输入空间数据进行目标匹配，4）顾及逻辑和领域约束对匹配结果的过滤和改善。其中机器学习采用以空间目标的位置、大小、形状和方位等多种指标作为特征提取。具有如下优点：可避免量纲标准化和多指标加权中的主观任意性，匹配精度较加权平均方法更高；匹配模型基于样本数据学习建立，数据的自适应性较高；建立模型的典型样本数量少，可大规模应用；利用空间数据的内在几何信息，无需额外属性信息，使用准入性低。

Description

一种基于机器学习的空间数据匹配方法

技术领域

本发明属于地理信息处理技术领域，特别是涉及一种基于机器学习的空间数据匹配方法。

背景技术

空间数据集成融合是目前地理信息应用的一项触发技术，在整个地理信息处理、加工、分析、挖掘中处于核心地位，其中的关键技术问题在于多源空间数据的目标匹配。目标匹配的常见应用包括：空间数据增量式更新、多重表达数据库、多尺度空间分析、跨数据库一致性维护、VGI数据质量评价、跨数据库属性传输与数据增强等。然而，由于空间数据采集的数学基础、精度、建库目的以及对数据细节的概括化简程度等不同，多源空间数据在目标级别上进行匹配十分困难，具有较大不确定性。

现有的数据匹配方法有两个层次，第一个层次是从空间参考系上对空间数据进行统一，比如通过重新投影或者进行基准面的转换，如使用Helmert七参数，或Molodensky-Badekas十参数变换等，来对空间数据的数学基础进行统一，可认为是对空间数据的整体配准、定位。然而，该层次的配准较为粗糙，并不能完全解决上述目标级别的匹配问题：在空间数据的数学基础统一后仍然存在大量目标级别的空间位移，不能简单通过位置关系进行匹配，对空间数据的集成融合带来极大困难。

第二个层次的匹配是直接操作空间目标，通过除位置信息外的其他信息对不同数据源的目标间的相似性进行评估，从而得到目标匹配结果。这类目标匹配方法所使用的相似性指标主要分为空间几何（包括位置、角度、形状、拓扑等）、语义和上下文关系指标。

基于语义的匹配方法依赖空间数据库的属性信息，而当前大多数测绘数据，无论是官方、商业或众包地理数据（如OpenStreetMap等），其属性信息采集或内容不完善，或分布不均一，或质量参差不齐，这使得语义匹配方法在实际应用中有较大局限性。

上述方法中在涉及多个相似性指标时必须在系统的某个时刻将多指标进行融合，并最终决定在何种指标相似性主导下得到匹配结论。然而，上述方法在多目标决策中一般采用加权平均，专家定权这种较为传统的手段进行处理，使得多指标决策问题往往没有得到较好解决。问题的核心在于，不同指标的量纲标准化（normalization）以及权重确定存在极大的主观任意性，导致匹配结果并非最优。此外，基于单一相似性指标的方法不能解决复杂情况下的目标匹配问题。因此，有必要研发更加合理的方法来解决匹配中的多指标决策问题。

发明内容

本发明主要针对上述不足之处，提供一种基于机器学习的空间数据匹配方法，在多源空间数据目标匹配中克服单一指标匹配精度低，多指标决策中的量纲标准化和权重确定中的主观任意性问题。

本发明通过以下技术方案达到上述目标：

一种基于机器学习的空间数据匹配方法，其特征在于，定义两个待匹配的两个空间数据集，分别记作：目标集合D={d_i}，0≤i≤n,和集合G={g_j}，0≤j≤m；这两个集合中形成的所有关系属于这两个集合的笛卡尔乘积：

r_ij=<d_i,g_j>∈D×G，

具体包括以下步骤：

步骤1，根据输入数据生成训练样本数据：即从两个待匹配的两个空间数据集分别进行随机采样数据，构成两个随机采样子数据集；根据两个两个随机采样子数据集建立正确匹配目标对数据库和错误匹配目标对数据库：并根据建立的正确匹配目标对数据库和错误匹配目标对数据库建立训练样本模式TP={(f₁,c₁),...,(f_n,c_n)}，其中f_i(1≤i≤n)为样本集合中第i个样本的特征向量，c_i为该样本的分类类别，取值为匹配或不匹配；c_i取值为匹配的类别定义为正样本TP⁺；c_i取值为不匹配的类别定义为负样本TP-；

步骤2，基于机器学习建立匹配模型：即针对步骤1中简历的训练样本模式TP进行机器学习，来建立一个分类器函数g:D×G→C；其中，C={匹配，不匹配}，亦即样本目标对的分类类别集合；所述分类器函数g的匹配结果为两种，即匹配和不匹配；

步骤3，将两个待匹配的两个空间数据集中的目标两两进行任意组合，形成目标对<d_i,g_j>的集合，然后计算每对目标的特征向量，并输入已建立的分类器模型，通过分类器算法计算得到初步匹配结果；

步骤4，根据逻辑约束条件，对步骤3中的初步匹配结果进行过滤与改善后结束；

所述逻辑约束条件指匹配结果中出现明显不合逻辑的多对多匹配结果，其规则为：合理的多对多匹配形式为m:n，其中m为多对多匹配中包含的d_i的数目，n为g_j的数目，条件m≠n必须满足；若出现了多对多的匹配关系，而m和n是相等的，即判定为违反了逻辑约束条件，应把该类多对多关系分解为多个一对一匹配关系；

在上述的一种基于机器学习的空间数据匹配方法，所述步骤1中，针对待匹配的两个空间数据集中，考虑所有潜在匹配关系集合，应属于D×G的子集，故任意目标对r_ij被归结为C={匹配,不匹配}两种类别；同时，对r_ij可提取其n维特征向量（即目标对的多种相似性指标），记作模式(r_ij;f_k|f_k1,...,f_kn)。根据模式在n维特征空间中的分布，可将r_ij标记为一个特定类别c_k∈C，此为目标匹配问题的模式分类定义，该定义下目标匹配的关键在于找到合适的映射函数g:D×G→C，以实现从输入模式(r_ij;f_k)到类别c_k的映射，从而获得匹配结果。

在上述的一种基于机器学习的空间数据匹配方法，所述的步骤1包括以下子步骤：

步骤1.1，建立正确匹配目标对数据库：在待匹配的两个数据集中通过样本匹配模块进行初步匹配，并从中选取无二义性的匹配对来建立正样本库：TP⁺={(f_k,c_k)|c_k=匹配}，其中无二义性用匹配候选集中位置和面积相似度最高或者唯一的匹配对来表示；具体是通过计算d_i和g_j之间的位置LocSim和大小SizeSim相似性来建立正样本库；具体的，每个匹配目标d_i有多个候选匹配目标g_j，对于每对目标<d_i,g_j>，计算LocSim(d_i,g_j)*|1-SizeSim(d_i,g_j)|,选择计算结果最小的<d_i,g_j>，认为其相似度最高，并记录在正样本库TP⁺中；

步骤1.2，建立错误匹配目标对数据库：除了步骤1.1中的正样本TP⁺，还必须建立负样本TP-={(f_k,c_k)|c_k=不匹配},负样本集由落入当前匹配目标g_j一定范围内的非正样本构成：{<d_i,g_j>|g_j∈TP⁺,dist(d_i,g_j)≤d_T}，其中d_T为距离阈值，大小设置为两个匹配数据集中目标间最小距离的均值加两倍标准差；

步骤1.3，导出训练样本模式TP：定义f_k为目标对的相似性指标向量，包括目标间的距离、大小、形状、方位的相似性；分别对正负样本中每一对目标关系r_ij，计算d_i和g_j的多种相似性，得出关于r_ij的特征向量f_k，最终合并导出为训练样本集TP。

在上述的一种基于机器学习的空间数据匹配方法，所述步骤1.3中，特征向量包括四个相似性指标，其具体步骤如下：

相似性指标一：位置相似性，

所述位置相似性定义为构成r_ij的两个目标中心点的欧式距离,计算公式如下：

LocSim (d_{i}, g_{j}) = \sqrt{{({cnt}_{x} (d_{i}) - {cnt}_{x} (g_{j}))}^{2} + {({cnt}_{y} (d_{i}) - {cnt}_{y} (g_{j}))}^{2}}

式一

其中cnt_x和cnt_y分别表示平面坐标系下多边形中心点的X坐标和Y坐标。

相似性指标二：大小相似性，

所述大小相似性定义为构成r_ij的两个目标间的面积比，计算公式如下：

SizeSim(d_i,g_j)=Area(d_i)/Area(g_j) 式二

当SizeSim越接近1时，两个目标大小相似；反之亦反；

相似性指标三：形状相似性，

采用形状指数来计算多边形的形状：

ShapeIndex (p_{i}) = \frac{Perimeter (P_{i})}{2 * \sqrt{π * Area (P_{i})}}

式三

其中p_i代表任意多边形，p_i能够带匹配目标d_i或g_j；形状指数用来描述多边形目标的复杂度或紧凑度：当指标接近于1时，表示该形状接近圆形，当指标大于1时，指标越高形状越复杂；采用形状指数的比率来衡量形状相似性：

ShapeSim(d_i,g_j)=ShapeIndex(d_i)/ShapeIndex(g_j) 式四

当ShapeSim接近于1时，表示两个多边形具有相似的形状复杂度。

相似性指标四：方位相似性，首先描述多边形方向，采用多边形边加权统计方法计算多边形方向；具体算法为：遍历多边形的每一条边，计算其对应的方位角，对范围在0°-180°的一个计数器进行投票，票数根据该方向的边长进行加权，最后选出计数器中票数最高的角度作为多边形的主方向；

方位相似性根据上述多边形主方向间的偏差定义，其计算方法如下：

\{\begin{matrix} Dev (d_{i}, g_{j}) = | WSW (d_{i}) - WSW (g_{j}) |, \\ Dev (d_{i}, g_{j}) = π - Dev (d_{i}, g_{j}), if Dev (d_{i}, g_{j}) > π / 2 \end{matrix}

式五

其中WSW为边加权统计方法函数，输入为任意多边形，返回多边形的主方向，取值0-π。

在上述的一种基于机器学习的空间数据匹配方法，所述步骤1.3中，导出为训练样本集TP的具体方法是：

步骤1.31，对于每个g_j∈TP⁺，在空间数据库中查询所有满足dist(d_i,g_j)≤d_T条件的d_i，并将d_i加入集合D_C；

步骤1.32，对于每个d_i∈D_C，根据目标对<d_i,g_j>计算其多种相似性关系，即r_ij的特征向量f_k；

步骤1.33，如果目标对<d_i,g_j>∈TP⁺，则赋c_k为匹配，反之赋c_k为不匹配；

步骤1.34，建立r_ij，f_k和c_k三元组，存储于匹配样本库TP中。

在上述的一种基于机器学习的空间数据匹配方法，所述的步骤2采用基于概率的贝叶斯分类器模型进行机器学习。

本发明的优点在于：1、采用机器学习算法，可避免主观任意性较强的量纲标准化和指标加权问题，匹配精度较加权平均方法更高（试验结果见具体实施方式）；2、匹配模型及其参数通过对样本数据学习建立，数据的自适应性较高；此外，建立模型的典型样本数量少，具有可大规模应用的优势；3、无需额外属性信息，利用空间数据的内在几何信息，可提取目标对的多种特征，使用准入性低；此外，在提供额外属性信息时，也可加入该信息来进一步提高匹配精度；4、该发明提供一种框架式目标匹配方案，不限制空间数据类型，适用于点、线、面、体多种表达的匹配问题；并可处理复杂的多对多匹配关系和不确定性匹配关系。

附图说明

图1是本发明的总体流程示意图。

图2是多边形形状相似性计算中的形状指数计算示意图。

图3是多边形方向相似性计算中的方向计算示意图。

图4是机器学习分类模型的分类边界示意图。

图5是本发明实施例初步匹配结果图。

图6是初步匹配结果过滤与改善示意图。

具体实施方式

下面结合具体实施例，对本发明的技术方案作进一步描述，但本发明的保护范围并不仅限于此：

如图1所示，一种基于机器学习的空间数据匹配方法，包括对输入地形图数据采样并建立匹配学习的训练样本，通过机器学习建立自动匹配的分类器模型，应用已建立的分类器对未匹配空间数据进行匹配，匹配结果过滤和改善四大过程。

1.建立匹配学习的训练样本包括如下三个步骤：

步骤1.1，通过样本匹配模块自动建立正样本TP⁺={(f_k,c_k)|c_k=匹配}：本实施例通过计算d_i和g_j之间的位置LocSim和大小SizeSim相似性（式(1)和(2)）来建立正样本库。具体的，每个匹配目标d_i有多个候选匹配目标g_j，对于每对目标<d_i,g_j>，计算LocSim(d_i,g_j)*|1-SizeSim(d_i,g_j)|,选择计算结果最小的<d_i,g_j>，认为其相似度最高，并记录在正样本库TP⁺中；

步骤1.2-1.3中的负样本建立，目标对r_ij的特征提取以及样本库TP的导出由计算机程序自动实现，其过程描述如下：

1）对于每个g_j∈TP⁺，在空间数据库中查询所有满足dist(d_i,g_j)≤d_T条件的d_i，并将d_i加入集合D_C；

2）对于每个d_i∈D_C，根据目标对<d_i,g_j>计算其多种相似性关系，即r_ij的特征向量f_k；

3）如果目标对<d_i,g_j>∈TP⁺，则赋c_k为匹配，反之赋c_k为不匹配；

4）建立r_ij，f_k和c_k三元组，存储于匹配样本库TP中。

上述计算程序中所涉及的d_T为建立负样本时用以控制距离的阈值，本实施例中使用60m地面距离；另外需控制样本数据在待匹配数据中所占的比例，本实施例中自动生成的匹配样本不超过的待匹配目标的1/10。

上述计算程序中提及的多种相似性关系（即特征向量f_k），是后续分类器模型学习和分类的根本依据，在本实施例中具体包括多边形目标的位置、大小、形状和方位相似性，对于每一种相似性的计算分别描述如下：

1)位置相似性：位置相似性定义为构成r_ij的两个目标中心点的欧式距离,计算公式如下：

LocSim (d_{i}, g_{j}) = \sqrt{{({cnt}_{x} (d_{i}) - {cnt}_{x} (g_{j}))}^{2} + {({cnt}_{y} (d_{i}) - {cnt}_{y} (g_{j}))}^{2}} - - - (1)

2）大小相似性：大小相似性定义为构成r_ij的两个目标间的面积比，计算公式如下：

SizeSim(d_i,g_j)=Area(d_i)/Area(g_j) (2)

当SizeSim越接近1时，两个目标大小相似；反之亦反。

3）形状相似性：多边形的几何形状不存在统一完整的定义，不同的度量方法描述形状不同的方面，本实施例中使用形状指数（Shape Index）来计算多边形的形状：

ShapeIndex (p_{i}) = \frac{Perimeter (P_{i})}{2 * \sqrt{π * Area (P_{i})}} - - - (3)

其中p_i代表任意多边形（可以是带匹配目标d_i或g_j）。形状指数可用来描述多边形目标的复杂度（或紧凑度）：当指标接近于1时，表示该形状接近圆形，当指标大于1时，指标越高形状越复杂（如图2所示）。本实施例中的形状相似性计算为形状指数的比率：

ShapeSim(d_i,g_j)=ShapeIndex(d_i)/ShapeIndex(g_j) (4)

4）方位相似性：首先描述多边形方向，本发明中采用Duchêne等（2003）提出的多边形“边加权统计方法”（WSW）计算多边形方向。具体算法为：遍历多边形的每一条边，计算其对应的方位角，对范围在0°-180°的一个计数器进行投票，票数根据该方向的边长进行加权，比如，当该边的角度为32°，边长为4时，在计数器的32刻度处计4票，以此类推，直到所有边都完成该投票过程，最后选出计数器中票数最高的角度作为多边形的主方向。图3所示为计算得出的多边形主方向用粗线表示。

\{\begin{matrix} Dev (d_{i}, g_{j}) = | WSW (d_{i}) - WSW (g_{j}) |, \\ Dev (d_{i}, g_{j}) = π - Dev (d_{i}, g_{j}), if Dev (d_{i}, g_{j}) > π / 2 \end{matrix} - - - (5)

其中WSW为上述“边加权统计方法”函数，输入为任意多边形，返回多边形的主方向，取值0-π。

2.通过机器学习建立自动匹配的分类器模型：

根据发明内容所述，建立分类器模型可用的机器学习算法包括CART，ID3，C4.5，贝叶斯分类器（NB）以及支持向量机（SVM）等。如图4所示，其基本方法是在特征空间中找到训练样本的分类边界。本实施例中以贝叶斯分类器NB为例，结合匹配任务的术语，来阐明机器学习分类的基本方法原理。

贝叶斯分类算法是一种概率算法，其核心原理是任意输入目标对r_ij的分类类别c_k条件依赖于其特征向量(f_k|f_k1,...,f_kn)。NB是其中一种朴素的概率分类算法，它假设特征向量中的各项特征f_ki在特定的类别c_k下是条件独立的。例如，在c_k=不匹配条件下，目标对的大小是否相似事件与形状是否相似事件是概率无关的。形式上，通用的匹配模型用条件概率模型来描述：

P(C|F₁,...,F_n) (6)

上述表达式表明一个目标对所属类别c_k取决于事件F₁到F_n同时发生的概率，不对F₁,...,F_n是否为独立事件进行任何假设。根据贝叶斯定理，式(6)可写为：

P (C | F_{1}, . . ., F_{n}) = \frac{P (F_{1}, . . ., F_{n} | C) P (C)}{P (F_{1}, . . ., F_{n})} - - - (7)

根据NB的条件独立性假设，式(7)的分子中第一项可展开为：

\begin{matrix} P (F_{1}, . . ., F_{n} | C) = P (C) P (F_{1} | C) . . . P (F_{n} | C) \\ = P (C) Π_{i = 1}^{n} P (F_{i} | C) \end{matrix} - - - (8)

因此，NB分类器的概率模型可定义为：

P (C | F_{1}, . . ., F_{n}) = \frac{1}{Z} P (C) Π_{i = 1}^{n} P (F_{i} | C) - - - (9)

其中Z仅仅依赖于F₁,...,F_n，故为常量。由于NB方法对输入模式(f₁,...,f_n)的分类取决于使后验概率最大化的那个c_k，在分类时Z可以忽略不计，即最大似然法。该NB模型特别适合于通过机器学习来建立概率模型及其参数：式（9）中的条件概率密度P(F_i=f_i|C=c_k)通过匹配样本数据进行自动估计，P(C=c_k)通过样本中的正负样本的比率来计算，如P(C=匹配)=匹配样本数/(匹配样本数+不匹配样本数)。NB方法不容易因为特征向量的维数n的提高而呈指数增长，使得该学习算法具有伸缩性强的优势。

具体而言，本实施例中采用正态核函数（normal kernel）从训练样本中分别估计类别条件概率密度分布（class-conditional density distribution）。举例说明，在本实施例中，分类类别为2个（匹配、不匹配），特征向量为4维（位置、大小、形状、方向），在学习的时候，针对所有样本数据，对两类（匹配和不匹配）的条件概率P(F_i|C)进行独立估计，总共得到8个概率密度分布（如P(位置|匹配)，P(方向|不匹配)等），从而建立的分类器模型的具体参数。

表1为本实施例中训练样本的部分数据：

ID(d_i)	ID(g_j)	LocSim	SizeSim	ShapeSim	OrieDiff	class
							7715	2252	3.61	0.3334	1.0664	85	NoMatch
7715	2253	0.96	0.3351	1.0663	9	Matched
							7715	2254	3.69	0.3819	1.0601	81	NoMatch
7716	1858	3.28	0.3882	1.0157	1	NoMatch
							7716	1861	2.92	0.3344	1.0284	87	NoMatch
7716	1862	4.72	0.3045	1.0251	89	NoMatch
							7716	1863	0.7	0.3896	1.0152	1	Matched
7716	1864	4.35	0.3301	1.0248	1	NoMatch
							7717	2723	0.52	0.3321	1.0347	86	Matched
7718	2402	3.11	0.2025	1.0239	0	NoMatch
							7718	2403	4.42	0.2203	1.0319	3	NoMatch
7718	2547	0.38	0.3349	1.0358	1	Matched
							7719	2280	2.08	0.2406	1.0791	8	NoMatch
7722	2176	5.55	0.0901	0.8387	13	NoMatch
							7725	2501	0.43	0.4672	1.0367	0	Matched
7725	2502	3.94	0.9026	1.0947	73	NoMatch
							7725	2503	5.11	0.4832	0.9279	18	NoMatch
7726	2400	4.56	0.7759	1.1665	85	NoMatch
							7727	3155	1.29	0.2531	0.9938	7	Matched
7727	3157	5.23	0.227	0.9868	77	NoMatch
							7728	1868	4.62	0.1888	0.9469	90	NoMatch
7728	1869	1.54	0.2978	1.0035	4	Matched
							7731	2325	2.14	0.226	1.0947	82	NoMatch
7731	2326	2.07	0.3143	1.1087	52	NoMatch
							7733	3195	2.01	0.2221	1.1404	88	NoMatch
7733	3196	1.29	0.2226	1.1317	3	Matched
							7735	2808	4.71	0.2158	1.0939	21	NoMatch
7736	2101	1.96	0.2906	1.0316	1	Matched
							…	…	…	…	…	…	…

其中Matched表示匹配样本，NoMatch表示不匹配样本；在进行模型训练阶段的输入数据中明显反应出多对多匹配样本。

3.应用已建立的分类器对未匹配空间数据进行匹配：

NB的分类形式定义如下：

classify (f_{1}, . . ., f_{n}) = \arg \max_{c_{k}} P (C = c_{k}) Π_{i = 1}^{n} P (F_{i} = f_{i} | C = c_{k}) - - - (10)

式(10)描述了任意一个模式(r_ij;f_k)如何为分类为一个具体的类c_k（即匹配或不匹配）。举例而言，对于一个未知类别的目标对r_ij，已知其4维特征向量f_k,分别对c₁=匹配和c₂=不匹配查询通过机器学习建立的类别条件概率密度分布，获得具体的P(F_i=f_i|C=c_k)概率，然后将同一类别的概率（本例为4个）相乘再乘以P(C=c_k),即可获得一个计算值，如果c₁下对应的值较高，则认为该目标对r_ij为c₁（即匹配关系），反之就不是匹配关系。

根据“两类”分类问题的特性，p(c1)+p(c2)=1，可将式(10)中的计算值归算为0-1之间的匹配概率。表2为NB分类器的部分匹配结果：

上表中的类别概率中大于0.5的类别被认定为分类器的初步匹配结果，本实施例中的部分匹配结果如图5所示。

4.初步匹配结果过滤和改善：

在发明内容中提到的初步匹配结果中可能存在不符合逻辑结果，或者根据领域知识可以追加的匹配结果，在此作具体说明。

逻辑约束条件指匹配结果中出现明显不合逻辑的多对多匹配结果。其规则为：合理的多对多匹配形式为m:n，条件（m≠n）必须满足。如果出现了多对多的匹配关系，而m和n是相等的，即判定为违反了上述逻辑约束条件，应把该类多对多关系分解为多个一对一匹配关系。

如图6所示，d1，d2和g3，g4产生了三对配对(d1,g3)，(d2,g4)和(d2,g3)，其中一个配对关系必然是错误的。针对这种情况，必须把连接孤立目标（即图6中的d1和g4）的匹配关系保留，而去掉多余的一条连接（即d2和g3），操作上将该连接的匹配概率设为0，不匹配概率设为1.0，从而获得最优匹配结果。

领域约束条件主要用于控制多比例尺数据的匹配上，在待匹配数据的采集比例尺不同，且没有其他更新数据源时，较小比例尺数据的每一个目标必须有一个较大比例尺目标与之匹配，不论其匹配概率如何。举例说明，如果d1和g2的匹配概率为0.352，从而被机器学习的分类器模型判定为不匹配。但由于较小比例尺目标g2只有d1唯一一个备选的匹配目标，根据该领域约束条件，需强行使d1和g2匹配起来（即将该目标对的匹配概率设置为1.0），这样可进一步提高匹配精度。

对本方法的匹配精度进行评价，结果表明NB分类器产生的初步匹配结果的精度接近85%，经过过滤和改善后的匹配精度可达88%。同时，本实施例进行了对比试验，使用同样的相似性指标，通过加权平均这种线性模型获得的匹配概率只有不到62%。可见本发明在目标匹配问题中指标标准化和权重确定方面得到实质性的提升。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于机器学习的空间数据匹配方法，其特征在于，定义两个待匹配的两个空间数据集，分别记作：目标集合D＝{d_i}，0≤i≤n,和集合G＝{g_j}，0≤j≤m；这两个集合中形成的所有关系属于这两个集合的笛卡尔乘积：

r_ij＝<d_i,g_j>∈D×G，

具体包括以下步骤：

步骤1，根据输入数据生成训练样本数据：即从两个待匹配的两个空间数据集分别进行随机采样数据，构成两个随机采样子数据集；根据两个随机采样子数据集建立正确匹配目标对数据库和错误匹配目标对数据库：并根据建立的正确匹配目标对数据库和错误匹配目标对数据库建立训练样本集TP＝{(f₁,c₁),...,(f_n,c_n)}，其中f_i(1≤i≤n)为样本集合中第i个样本的特征向量，c_i为该样本的分类类别，取值为匹配或不匹配；c_i取值为匹配的类别定义为正样本TP⁺；c_i取值为不匹配的类别定义为负样本TP^-；

步骤1包括以下子步骤：

步骤1.1，建立正确匹配目标对数据库：在待匹配的两个数据集中通过样本匹配模块进行初步匹配，并从中选取无二义性的匹配对来建立正样本库：TP⁺＝{(f_k,c_k)|c_k＝匹配}，其中无二义性用匹配候选集中位置和面积相似度最高或者唯一的匹配对来表示；具体是通过计算d_i和g_j之间的位置LocSim和大小SizeSim相似性来建立正样本库；具体的，每个匹配目标d_i有多个候选匹配目标g_j，对于每对目标<d_i,g_j>，计算LocSim(d_i,g_j)*|1-SizeSim(d_i,g_j)|,选择计算结果最小的<d_i,g_j>，认为其相似度最高，并记录在正样本库TP⁺中；

步骤1.2，建立错误匹配目标对数据库：除了步骤1.1中的正样本TP⁺，还必须建立负样本TP^-＝{(f_k,c_k)|c_k＝不匹配},负样本集由落入当前匹配目标g_j一定范围内的非正样本构成：其中d_T为距离阈值，大小设置为两个匹配数据集中目标间最小距离的均值加两倍标准差；

步骤1.3，导出训练样本集TP：定义f_k为目标对的相似性指标向量，包括目标间的距离、大小、形状、方位的相似性；分别对正负样本中每一对目标关系r_ij，计算d_i和g_j的多种相似性，得出关于r_ij的特征向量f_k，最终合并导出为训练样本集TP；

步骤2，基于机器学习建立匹配模型：即针对步骤1中建立的训练样本集TP进行机器学习，来建立一个分类器函数g:D×G→C；其中，C＝{匹配，不匹配}，亦即样本目标对的分类类别集合；所述分类器函数g的匹配结果为两种，即匹配和不匹配；

所述逻辑约束条件指匹配结果中出现明显不合逻辑的多对多匹配结果，其规则为：合理的多对多匹配形式为m:n，其中m为多对多匹配中包含的d_i的数目，n为g_j的数目，条件m≠n必须满足；若出现了多对多的匹配关系，而m和n是相等的，即判定为违反了逻辑约束条件，应把多对多匹配关系分解为多个一对一匹配关系。

2.根据权利要求1所述的一种基于机器学习的空间数据匹配方法，其特征在于，所述步骤1中，针对待匹配的两个空间数据集中，考虑所有潜在匹配关系集合，应属于D×G的子集，故任意目标对r_ij被归结为C＝{匹配,不匹配}两种类别；同时，对r_ij可提取其n维特征向量，记作模式(r_ij；f_k|f_k1,...,f_kn)；根据模式在n维特征空间中的分布，将r_ij标记为一个特定类别c_k∈C，此为目标匹配问题的模式分类定义，该定义下目标匹配的关键在于找到合适的映射函数g:D×G→C，以实现从输入模式(r_ij；f_k)到类别c_k的映射，从而获得匹配结果。

3.根据权利要求2所述的一种基于机器学习的空间数据匹配方法，其特征在于，所述步骤1.3中，特征向量包括四个相似性指标，其具体步骤如下：

相似性指标一：位置相似性，

其中cnt_x和cnt_y分别表示平面坐标系下多边形中心点的X坐标和Y坐标；

相似性指标二：大小相似性，

SizeSim(d_i,g_j)＝Area(d_i)/Area(g_j) 式二

当SizeSim越接近1时，两个目标大小相似；反之亦反；

相似性指标三：形状相似性，

采用形状指数来计算多边形的形状：

其中p_i代表任意多边形，p_i是待匹配目标d_i或g_j；形状指数用来描述多边形目标的复杂度或紧凑度：当形状指数接近于1时，表示该形状接近圆形，当形状指数大于1时，形状指数越高形状越复杂；采用形状指数的比率来衡量形状相似性：

ShapeSim(d_i,g_j)＝ShapeIndex(d_i)/ShapeIndex(g_j) 式四

当ShapeSim接近于1时，表示两个多边形具有相似的形状复杂度；

4.根据权利要求3所述的一种基于机器学习的空间数据匹配方法，其特征在于，所述步骤1.3中，导出为训练样本集TP的具体方法是：

步骤1.34，建立r_ij，f_k和c_k三元组，存储于训练样本集TP中。

5.根据权利要求1所述的一种基于机器学习的空间数据匹配方法，其特征在于，所述的步骤2采用基于概率的贝叶斯分类器模型进行机器学习。