CN103646109B - 一种基于机器学习的空间数据匹配方法 - Google Patents

一种基于机器学习的空间数据匹配方法 Download PDF

Info

Publication number
CN103646109B
CN103646109B CN201310726445.3A CN201310726445A CN103646109B CN 103646109 B CN103646109 B CN 103646109B CN 201310726445 A CN201310726445 A CN 201310726445A CN 103646109 B CN103646109 B CN 103646109B
Authority
CN
China
Prior art keywords
matching
target
similarity
data
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310726445.3A
Other languages
English (en)
Other versions
CN103646109A (zh
Inventor
张翔
艾廷华
赵羲
杨敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201310726445.3A priority Critical patent/CN103646109B/zh
Publication of CN103646109A publication Critical patent/CN103646109A/zh
Application granted granted Critical
Publication of CN103646109B publication Critical patent/CN103646109B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning

Abstract

本发明涉及一种基于机器学习的空间数据匹配方法,包括四个步骤:1)自动生成匹配训练样本,2)通过机器学习建立分类器模型及其参数,3)应用分类器模型对输入空间数据进行目标匹配,4)顾及逻辑和领域约束对匹配结果的过滤和改善。其中机器学习采用以空间目标的位置、大小、形状和方位等多种指标作为特征提取。具有如下优点:可避免量纲标准化和多指标加权中的主观任意性,匹配精度较加权平均方法更高;匹配模型基于样本数据学习建立,数据的自适应性较高;建立模型的典型样本数量少,可大规模应用;利用空间数据的内在几何信息,无需额外属性信息,使用准入性低。

Description

一种基于机器学习的空间数据匹配方法
技术领域
本发明属于地理信息处理技术领域,特别是涉及一种基于机器学习的空间数据匹配方法。
背景技术
空间数据集成融合是目前地理信息应用的一项触发技术,在整个地理信息处理、加工、分析、挖掘中处于核心地位,其中的关键技术问题在于多源空间数据的目标匹配。目标匹配的常见应用包括:空间数据增量式更新、多重表达数据库、多尺度空间分析、跨数据库一致性维护、VGI数据质量评价、跨数据库属性传输与数据增强等。然而,由于空间数据采集的数学基础、精度、建库目的以及对数据细节的概括化简程度等不同,多源空间数据在目标级别上进行匹配十分困难,具有较大不确定性。
现有的数据匹配方法有两个层次,第一个层次是从空间参考系上对空间数据进行统一,比如通过重新投影或者进行基准面的转换,如使用Helmert七参数,或Molodensky-Badekas十参数变换等,来对空间数据的数学基础进行统一,可认为是对空间数据的整体配准、定位。然而,该层次的配准较为粗糙,并不能完全解决上述目标级别的匹配问题:在空间数据的数学基础统一后仍然存在大量目标级别的空间位移,不能简单通过位置关系进行匹配,对空间数据的集成融合带来极大困难。
第二个层次的匹配是直接操作空间目标,通过除位置信息外的其他信息对不同数据源的目标间的相似性进行评估,从而得到目标匹配结果。这类目标匹配方法所使用的相似性指标主要分为空间几何(包括位置、角度、形状、拓扑等)、语义和上下文关系指标。
基于语义的匹配方法依赖空间数据库的属性信息,而当前大多数测绘数据,无论是官方、商业或众包地理数据(如OpenStreetMap等),其属性信息采集或内容不完善,或分布不均一,或质量参差不齐,这使得语义匹配方法在实际应用中有较大局限性。
上述方法中在涉及多个相似性指标时必须在系统的某个时刻将多指标进行融合,并最终决定在何种指标相似性主导下得到匹配结论。然而,上述方法在多目标决策中一般采用加权平均,专家定权这种较为传统的手段进行处理,使得多指标决策问题往往没有得到较好解决。问题的核心在于,不同指标的量纲标准化(normalization)以及权重确定存在极大的主观任意性,导致匹配结果并非最优。此外,基于单一相似性指标的方法不能解决复杂情况下的目标匹配问题。因此,有必要研发更加合理的方法来解决匹配中的多指标决策问题。
发明内容
本发明主要针对上述不足之处,提供一种基于机器学习的空间数据匹配方法,在多源空间数据目标匹配中克服单一指标匹配精度低,多指标决策中的量纲标准化和权重确定中的主观任意性问题。
本发明通过以下技术方案达到上述目标:
一种基于机器学习的空间数据匹配方法,其特征在于,定义两个待匹配的两个空间数据集,分别记作:目标集合D={di},0≤i≤n,和集合G={gj},0≤j≤m;这两个集合中形成的所有关系属于这两个集合的笛卡尔乘积:
rij=<di,gj>∈D×G,
具体包括以下步骤:
步骤1,根据输入数据生成训练样本数据:即从两个待匹配的两个空间数据集分别进行随机采样数据,构成两个随机采样子数据集;根据两个两个随机采样子数据集建立正确匹配目标对数据库和错误匹配目标对数据库:并根据建立的正确匹配目标对数据库和错误匹配目标对数据库建立训练样本模式TP={(f1,c1),...,(fn,cn)},其中fi(1≤i≤n)为样本集合中第i个样本的特征向量,ci为该样本的分类类别,取值为匹配或不匹配;ci取值为匹配的类别定义为正样本TP+;ci取值为不匹配的类别定义为负样本TP-;
步骤2,基于机器学习建立匹配模型:即针对步骤1中简历的训练样本模式TP进行机器学习,来建立一个分类器函数g:D×G→C;其中,C={匹配,不匹配},亦即样本目标对的分类类别集合;所述分类器函数g的匹配结果为两种,即匹配和不匹配;
步骤3,将两个待匹配的两个空间数据集中的目标两两进行任意组合,形成目标对<di,gj>的集合,然后计算每对目标的特征向量,并输入已建立的分类器模型,通过分类器算法计算得到初步匹配结果;
步骤4,根据逻辑约束条件,对步骤3中的初步匹配结果进行过滤与改善后结束;
所述逻辑约束条件指匹配结果中出现明显不合逻辑的多对多匹配结果,其规则为:合理的多对多匹配形式为m:n,其中m为多对多匹配中包含的di的数目,n为gj的数目,条件m≠n必须满足;若出现了多对多的匹配关系,而m和n是相等的,即判定为违反了逻辑约束条件,应把该类多对多关系分解为多个一对一匹配关系;
在上述的一种基于机器学习的空间数据匹配方法,所述步骤1中,针对待匹配的两个空间数据集中,考虑所有潜在匹配关系集合,应属于D×G的子集,故任意目标对rij被归结为C={匹配,不匹配}两种类别;同时,对rij可提取其n维特征向量(即目标对的多种相似性指标),记作模式(rij;fk|fk1,...,fkn)。根据模式在n维特征空间中的分布,可将rij标记为一个特定类别ck∈C,此为目标匹配问题的模式分类定义,该定义下目标匹配的关键在于找到合适的映射函数g:D×G→C,以实现从输入模式(rij;fk)到类别ck的映射,从而获得匹配结果。
在上述的一种基于机器学习的空间数据匹配方法,所述的步骤1包括以下子步骤:
步骤1.1,建立正确匹配目标对数据库:在待匹配的两个数据集中通过样本匹配模块进行初步匹配,并从中选取无二义性的匹配对来建立正样本库:TP+={(fk,ck)|ck=匹配},其中无二义性用匹配候选集中位置和面积相似度最高或者唯一的匹配对来表示;具体是通过计算di和gj之间的位置LocSim和大小SizeSim相似性来建立正样本库;具体的,每个匹配目标di有多个候选匹配目标gj,对于每对目标<di,gj>,计算LocSim(di,gj)*|1-SizeSim(di,gj)|,选择计算结果最小的<di,gj>,认为其相似度最高,并记录在正样本库TP+中;
步骤1.2,建立错误匹配目标对数据库:除了步骤1.1中的正样本TP+,还必须建立负样本TP-={(fk,ck)|ck=不匹配},负样本集由落入当前匹配目标gj一定范围内的非正样本构成:{<di,gj>|gj∈TP+,dist(di,gj)≤dT},其中dT为距离阈值,大小设置为两个匹配数据集中目标间最小距离的均值加两倍标准差;
步骤1.3,导出训练样本模式TP:定义fk为目标对的相似性指标向量,包括目标间的距离、大小、形状、方位的相似性;分别对正负样本中每一对目标关系rij,计算di和gj的多种相似性,得出关于rij的特征向量fk,最终合并导出为训练样本集TP。
在上述的一种基于机器学习的空间数据匹配方法,所述步骤1.3中,特征向量包括四个相似性指标,其具体步骤如下:
相似性指标一:位置相似性,
所述位置相似性定义为构成rij的两个目标中心点的欧式距离,计算公式如下:
LocSim ( d i , g j ) = ( cnt x ( d i ) - cnt x ( g j ) ) 2 + ( cnt y ( d i ) - cnt y ( g j ) ) 2 式一
其中cntx和cnty分别表示平面坐标系下多边形中心点的X坐标和Y坐标。
相似性指标二:大小相似性,
所述大小相似性定义为构成rij的两个目标间的面积比,计算公式如下:
SizeSim(di,gj)=Area(di)/Area(gj) 式二
当SizeSim越接近1时,两个目标大小相似;反之亦反;
相似性指标三:形状相似性,
采用形状指数来计算多边形的形状:
ShapeIndex ( p i ) = Perimeter ( P i ) 2 * &pi; * Area ( P i ) 式三
其中pi代表任意多边形,pi能够带匹配目标di或gj;形状指数用来描述多边形目标的复杂度或紧凑度:当指标接近于1时,表示该形状接近圆形,当指标大于1时,指标越高形状越复杂;采用形状指数的比率来衡量形状相似性:
ShapeSim(di,gj)=ShapeIndex(di)/ShapeIndex(gj) 式四
当ShapeSim接近于1时,表示两个多边形具有相似的形状复杂度。
相似性指标四:方位相似性,首先描述多边形方向,采用多边形边加权统计方法计算多边形方向;具体算法为:遍历多边形的每一条边,计算其对应的方位角,对范围在0°-180°的一个计数器进行投票,票数根据该方向的边长进行加权,最后选出计数器中票数最高的角度作为多边形的主方向;
方位相似性根据上述多边形主方向间的偏差定义,其计算方法如下:
Dev ( d i , g j ) = | WSW ( d i ) - WSW ( g j ) | , Dev ( d i , g j ) = &pi; - Dev ( d i , g j ) , if Dev ( d i , g j ) > &pi; / 2 式五
其中WSW为边加权统计方法函数,输入为任意多边形,返回多边形的主方向,取值0-π。
在上述的一种基于机器学习的空间数据匹配方法,所述步骤1.3中,导出为训练样本集TP的具体方法是:
步骤1.31,对于每个gj∈TP+,在空间数据库中查询所有满足dist(di,gj)≤dT条件的di,并将di加入集合DC
步骤1.32,对于每个di∈DC,根据目标对<di,gj>计算其多种相似性关系,即rij的特征向量fk
步骤1.33,如果目标对<di,gj>∈TP+,则赋ck为匹配,反之赋ck为不匹配;
步骤1.34,建立rij,fk和ck三元组,存储于匹配样本库TP中。
在上述的一种基于机器学习的空间数据匹配方法,所述的步骤2采用基于概率的贝叶斯分类器模型进行机器学习。
本发明的优点在于:1、采用机器学习算法,可避免主观任意性较强的量纲标准化和指标加权问题,匹配精度较加权平均方法更高(试验结果见具体实施方式);2、匹配模型及其参数通过对样本数据学习建立,数据的自适应性较高;此外,建立模型的典型样本数量少,具有可大规模应用的优势;3、无需额外属性信息,利用空间数据的内在几何信息,可提取目标对的多种特征,使用准入性低;此外,在提供额外属性信息时,也可加入该信息来进一步提高匹配精度;4、该发明提供一种框架式目标匹配方案,不限制空间数据类型,适用于点、线、面、体多种表达的匹配问题;并可处理复杂的多对多匹配关系和不确定性匹配关系。
附图说明
图1是本发明的总体流程示意图。
图2是多边形形状相似性计算中的形状指数计算示意图。
图3是多边形方向相似性计算中的方向计算示意图。
图4是机器学习分类模型的分类边界示意图。
图5是本发明实施例初步匹配结果图。
图6是初步匹配结果过滤与改善示意图。
具体实施方式
下面结合具体实施例,对本发明的技术方案作进一步描述,但本发明的保护范围并不仅限于此:
如图1所示,一种基于机器学习的空间数据匹配方法,包括对输入地形图数据采样并建立匹配学习的训练样本,通过机器学习建立自动匹配的分类器模型,应用已建立的分类器对未匹配空间数据进行匹配,匹配结果过滤和改善四大过程。
1.建立匹配学习的训练样本包括如下三个步骤:
步骤1.1,通过样本匹配模块自动建立正样本TP+={(fk,ck)|ck=匹配}:本实施例通过计算di和gj之间的位置LocSim和大小SizeSim相似性(式(1)和(2))来建立正样本库。具体的,每个匹配目标di有多个候选匹配目标gj,对于每对目标<di,gj>,计算LocSim(di,gj)*|1-SizeSim(di,gj)|,选择计算结果最小的<di,gj>,认为其相似度最高,并记录在正样本库TP+中;
步骤1.2-1.3中的负样本建立,目标对rij的特征提取以及样本库TP的导出由计算机程序自动实现,其过程描述如下:
1)对于每个gj∈TP+,在空间数据库中查询所有满足dist(di,gj)≤dT条件的di,并将di加入集合DC
2)对于每个di∈DC,根据目标对<di,gj>计算其多种相似性关系,即rij的特征向量fk
3)如果目标对<di,gj>∈TP+,则赋ck为匹配,反之赋ck为不匹配;
4)建立rij,fk和ck三元组,存储于匹配样本库TP中。
上述计算程序中所涉及的dT为建立负样本时用以控制距离的阈值,本实施例中使用60m地面距离;另外需控制样本数据在待匹配数据中所占的比例,本实施例中自动生成的匹配样本不超过的待匹配目标的1/10。
上述计算程序中提及的多种相似性关系(即特征向量fk),是后续分类器模型学习和分类的根本依据,在本实施例中具体包括多边形目标的位置、大小、形状和方位相似性,对于每一种相似性的计算分别描述如下:
1)位置相似性:位置相似性定义为构成rij的两个目标中心点的欧式距离,计算公式如下:
LocSim ( d i , g j ) = ( cnt x ( d i ) - cnt x ( g j ) ) 2 + ( cnt y ( d i ) - cnt y ( g j ) ) 2 - - - ( 1 )
其中cntx和cnty分别表示平面坐标系下多边形中心点的X坐标和Y坐标。
2)大小相似性:大小相似性定义为构成rij的两个目标间的面积比,计算公式如下:
SizeSim(di,gj)=Area(di)/Area(gj) (2)
当SizeSim越接近1时,两个目标大小相似;反之亦反。
3)形状相似性:多边形的几何形状不存在统一完整的定义,不同的度量方法描述形状不同的方面,本实施例中使用形状指数(Shape Index)来计算多边形的形状:
ShapeIndex ( p i ) = Perimeter ( P i ) 2 * &pi; * Area ( P i ) - - - ( 3 )
其中pi代表任意多边形(可以是带匹配目标di或gj)。形状指数可用来描述多边形目标的复杂度(或紧凑度):当指标接近于1时,表示该形状接近圆形,当指标大于1时,指标越高形状越复杂(如图2所示)。本实施例中的形状相似性计算为形状指数的比率:
ShapeSim(di,gj)=ShapeIndex(di)/ShapeIndex(gj) (4)
当ShapeSim接近于1时,表示两个多边形具有相似的形状复杂度。
4)方位相似性:首先描述多边形方向,本发明中采用Duchêne等(2003)提出的多边形“边加权统计方法”(WSW)计算多边形方向。具体算法为:遍历多边形的每一条边,计算其对应的方位角,对范围在0°-180°的一个计数器进行投票,票数根据该方向的边长进行加权,比如,当该边的角度为32°,边长为4时,在计数器的32刻度处计4票,以此类推,直到所有边都完成该投票过程,最后选出计数器中票数最高的角度作为多边形的主方向。图3所示为计算得出的多边形主方向用粗线表示。
方位相似性根据上述多边形主方向间的偏差定义,其计算方法如下:
Dev ( d i , g j ) = | WSW ( d i ) - WSW ( g j ) | , Dev ( d i , g j ) = &pi; - Dev ( d i , g j ) , if Dev ( d i , g j ) > &pi; / 2 - - - ( 5 )
其中WSW为上述“边加权统计方法”函数,输入为任意多边形,返回多边形的主方向,取值0-π。
2.通过机器学习建立自动匹配的分类器模型:
根据发明内容所述,建立分类器模型可用的机器学习算法包括CART,ID3,C4.5,贝叶斯分类器(NB)以及支持向量机(SVM)等。如图4所示,其基本方法是在特征空间中找到训练样本的分类边界。本实施例中以贝叶斯分类器NB为例,结合匹配任务的术语,来阐明机器学习分类的基本方法原理。
贝叶斯分类算法是一种概率算法,其核心原理是任意输入目标对rij的分类类别ck条件依赖于其特征向量(fk|fk1,...,fkn)。NB是其中一种朴素的概率分类算法,它假设特征向量中的各项特征fki在特定的类别ck下是条件独立的。例如,在ck=不匹配条件下,目标对的大小是否相似事件与形状是否相似事件是概率无关的。形式上,通用的匹配模型用条件概率模型来描述:
P(C|F1,...,Fn) (6)
上述表达式表明一个目标对所属类别ck取决于事件F1到Fn同时发生的概率,不对F1,...,Fn是否为独立事件进行任何假设。根据贝叶斯定理,式(6)可写为:
P ( C | F 1 , . . . , F n ) = P ( F 1 , . . . , F n | C ) P ( C ) P ( F 1 , . . . , F n ) - - - ( 7 )
根据NB的条件独立性假设,式(7)的分子中第一项可展开为:
P ( F 1 , . . . , F n | C ) = P ( C ) P ( F 1 | C ) . . . P ( F n | C ) = P ( C ) &Pi; i = 1 n P ( F i | C ) - - - ( 8 )
因此,NB分类器的概率模型可定义为:
P ( C | F 1 , . . . , F n ) = 1 Z P ( C ) &Pi; i = 1 n P ( F i | C ) - - - ( 9 )
其中Z仅仅依赖于F1,...,Fn,故为常量。由于NB方法对输入模式(f1,...,fn)的分类取决于使后验概率最大化的那个ck,在分类时Z可以忽略不计,即最大似然法。该NB模型特别适合于通过机器学习来建立概率模型及其参数:式(9)中的条件概率密度P(Fi=fi|C=ck)通过匹配样本数据进行自动估计,P(C=ck)通过样本中的正负样本的比率来计算,如P(C=匹配)=匹配样本数/(匹配样本数+不匹配样本数)。NB方法不容易因为特征向量的维数n的提高而呈指数增长,使得该学习算法具有伸缩性强的优势。
具体而言,本实施例中采用正态核函数(normal kernel)从训练样本中分别估计类别条件概率密度分布(class-conditional density distribution)。举例说明,在本实施例中,分类类别为2个(匹配、不匹配),特征向量为4维(位置、大小、形状、方向),在学习的时候,针对所有样本数据,对两类(匹配和不匹配)的条件概率P(Fi|C)进行独立估计,总共得到8个概率密度分布(如P(位置|匹配),P(方向|不匹配)等),从而建立的分类器模型的具体参数。
表1为本实施例中训练样本的部分数据:
ID(di) ID(gj) LocSim SizeSim ShapeSim OrieDiff class
7715 2252 3.61 0.3334 1.0664 85 NoMatch
7715 2253 0.96 0.3351 1.0663 9 Matched
7715 2254 3.69 0.3819 1.0601 81 NoMatch
7716 1858 3.28 0.3882 1.0157 1 NoMatch
7716 1861 2.92 0.3344 1.0284 87 NoMatch
7716 1862 4.72 0.3045 1.0251 89 NoMatch
7716 1863 0.7 0.3896 1.0152 1 Matched
7716 1864 4.35 0.3301 1.0248 1 NoMatch
7717 2723 0.52 0.3321 1.0347 86 Matched
7718 2402 3.11 0.2025 1.0239 0 NoMatch
7718 2403 4.42 0.2203 1.0319 3 NoMatch
7718 2547 0.38 0.3349 1.0358 1 Matched
7719 2280 2.08 0.2406 1.0791 8 NoMatch
7722 2176 5.55 0.0901 0.8387 13 NoMatch
7725 2501 0.43 0.4672 1.0367 0 Matched
7725 2502 3.94 0.9026 1.0947 73 NoMatch
7725 2503 5.11 0.4832 0.9279 18 NoMatch
7726 2400 4.56 0.7759 1.1665 85 NoMatch
7727 3155 1.29 0.2531 0.9938 7 Matched
7727 3157 5.23 0.227 0.9868 77 NoMatch
7728 1868 4.62 0.1888 0.9469 90 NoMatch
7728 1869 1.54 0.2978 1.0035 4 Matched
7731 2325 2.14 0.226 1.0947 82 NoMatch
7731 2326 2.07 0.3143 1.1087 52 NoMatch
7733 3195 2.01 0.2221 1.1404 88 NoMatch
7733 3196 1.29 0.2226 1.1317 3 Matched
7735 2808 4.71 0.2158 1.0939 21 NoMatch
7736 2101 1.96 0.2906 1.0316 1 Matched
其中Matched表示匹配样本,NoMatch表示不匹配样本;在进行模型训练阶段的输入数据中明显反应出多对多匹配样本。
3.应用已建立的分类器对未匹配空间数据进行匹配:
NB的分类形式定义如下:
classify ( f 1 , . . . , f n ) = arg max c k P ( C = c k ) &Pi; i = 1 n P ( F i = f i | C = c k ) - - - ( 10 )
式(10)描述了任意一个模式(rij;fk)如何为分类为一个具体的类ck(即匹配或不匹配)。举例而言,对于一个未知类别的目标对rij,已知其4维特征向量fk,分别对c1=匹配和c2=不匹配查询通过机器学习建立的类别条件概率密度分布,获得具体的P(Fi=fi|C=ck)概率,然后将同一类别的概率(本例为4个)相乘再乘以P(C=ck),即可获得一个计算值,如果c1下对应的值较高,则认为该目标对rij为c1(即匹配关系),反之就不是匹配关系。
根据“两类”分类问题的特性,p(c1)+p(c2)=1,可将式(10)中的计算值归算为0-1之间的匹配概率。表2为NB分类器的部分匹配结果:
上表中的类别概率中大于0.5的类别被认定为分类器的初步匹配结果,本实施例中的部分匹配结果如图5所示。
4.初步匹配结果过滤和改善:
在发明内容中提到的初步匹配结果中可能存在不符合逻辑结果,或者根据领域知识可以追加的匹配结果,在此作具体说明。
逻辑约束条件指匹配结果中出现明显不合逻辑的多对多匹配结果。其规则为:合理的多对多匹配形式为m:n,条件(m≠n)必须满足。如果出现了多对多的匹配关系,而m和n是相等的,即判定为违反了上述逻辑约束条件,应把该类多对多关系分解为多个一对一匹配关系。
如图6所示,d1,d2和g3,g4产生了三对配对(d1,g3),(d2,g4)和(d2,g3),其中一个配对关系必然是错误的。针对这种情况,必须把连接孤立目标(即图6中的d1和g4)的匹配关系保留,而去掉多余的一条连接(即d2和g3),操作上将该连接的匹配概率设为0,不匹配概率设为1.0,从而获得最优匹配结果。
领域约束条件主要用于控制多比例尺数据的匹配上,在待匹配数据的采集比例尺不同,且没有其他更新数据源时,较小比例尺数据的每一个目标必须有一个较大比例尺目标与之匹配,不论其匹配概率如何。举例说明,如果d1和g2的匹配概率为0.352,从而被机器学习的分类器模型判定为不匹配。但由于较小比例尺目标g2只有d1唯一一个备选的匹配目标,根据该领域约束条件,需强行使d1和g2匹配起来(即将该目标对的匹配概率设置为1.0),这样可进一步提高匹配精度。
对本方法的匹配精度进行评价,结果表明NB分类器产生的初步匹配结果的精度接近85%,经过过滤和改善后的匹配精度可达88%。同时,本实施例进行了对比试验,使用同样的相似性指标,通过加权平均这种线性模型获得的匹配概率只有不到62%。可见本发明在目标匹配问题中指标标准化和权重确定方面得到实质性的提升。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (5)

1.一种基于机器学习的空间数据匹配方法,其特征在于,定义两个待匹配的两个空间数据集,分别记作:目标集合D={di},0≤i≤n,和集合G={gj},0≤j≤m;这两个集合中形成的所有关系属于这两个集合的笛卡尔乘积:
rij=<di,gj>∈D×G,
具体包括以下步骤:
步骤1,根据输入数据生成训练样本数据:即从两个待匹配的两个空间数据集分别进行随机采样数据,构成两个随机采样子数据集;根据两个随机采样子数据集建立正确匹配目标对数据库和错误匹配目标对数据库:并根据建立的正确匹配目标对数据库和错误匹配目标对数据库建立训练样本集TP={(f1,c1),...,(fn,cn)},其中fi(1≤i≤n)为样本集合中第i个样本的特征向量,ci为该样本的分类类别,取值为匹配或不匹配;ci取值为匹配的类别定义为正样本TP+;ci取值为不匹配的类别定义为负样本TP-
步骤1包括以下子步骤:
步骤1.1,建立正确匹配目标对数据库:在待匹配的两个数据集中通过样本匹配模块进行初步匹配,并从中选取无二义性的匹配对来建立正样本库:TP+={(fk,ck)|ck=匹配},其中无二义性用匹配候选集中位置和面积相似度最高或者唯一的匹配对来表示;具体是通过计算di和gj之间的位置LocSim和大小SizeSim相似性来建立正样本库;具体的,每个匹配目标di有多个候选匹配目标gj,对于每对目标<di,gj>,计算LocSim(di,gj)*|1-SizeSim(di,gj)|,选择计算结果最小的<di,gj>,认为其相似度最高,并记录在正样本库TP+中;
步骤1.2,建立错误匹配目标对数据库:除了步骤1.1中的正样本TP+,还必须建立负样本TP-={(fk,ck)|ck=不匹配},负样本集由落入当前匹配目标gj一定范围内的非正样本构成: 其中dT为距离阈值,大小设置为两个匹配数据集中目标间最小距离的均值加两倍标准差;
步骤1.3,导出训练样本集TP:定义fk为目标对的相似性指标向量,包括目标间的距离、大小、形状、方位的相似性;分别对正负样本中每一对目标关系rij,计算di和gj的多种相似性,得出关于rij的特征向量fk,最终合并导出为训练样本集TP;
步骤2,基于机器学习建立匹配模型:即针对步骤1中建立的训练样本集TP进行机器学习,来建立一个分类器函数g:D×G→C;其中,C={匹配,不匹配},亦即样本目标对的分类类别集合;所述分类器函数g的匹配结果为两种,即匹配和不匹配;
步骤3,将两个待匹配的两个空间数据集中的目标两两进行任意组合,形成目标对<di,gj>的集合,然后计算每对目标的特征向量,并输入已建立的分类器模型,通过分类器算法计算得到初步匹配结果;
步骤4,根据逻辑约束条件,对步骤3中的初步匹配结果进行过滤与改善后结束;
所述逻辑约束条件指匹配结果中出现明显不合逻辑的多对多匹配结果,其规则为:合理的多对多匹配形式为m:n,其中m为多对多匹配中包含的di的数目,n为gj的数目,条件m≠n必须满足;若出现了多对多的匹配关系,而m和n是相等的,即判定为违反了逻辑约束条件,应把多对多匹配关系分解为多个一对一匹配关系。
2.根据权利要求1所述的一种基于机器学习的空间数据匹配方法,其特征在于,所述步骤1中,针对待匹配的两个空间数据集中,考虑所有潜在匹配关系集合,应属于D×G的子集,故任意目标对rij被归结为C={匹配,不匹配}两种类别;同时,对rij可提取其n维特征向量,记作模式(rij;fk|fk1,...,fkn);根据模式在n维特征空间中的分布,将rij标记为一个特定类别ck∈C,此为目标匹配问题的模式分类定义,该定义下目标匹配的关键在于找到合适的映射函数g:D×G→C,以实现从输入模式(rij;fk)到类别ck的映射,从而获得匹配结果。
3.根据权利要求2所述的一种基于机器学习的空间数据匹配方法,其特征在于,所述步骤1.3中,特征向量包括四个相似性指标,其具体步骤如下:
相似性指标一:位置相似性,
所述位置相似性定义为构成rij的两个目标中心点的欧式距离,计算公式如下:
其中cntx和cnty分别表示平面坐标系下多边形中心点的X坐标和Y坐标;
相似性指标二:大小相似性,
所述大小相似性定义为构成rij的两个目标间的面积比,计算公式如下:
SizeSim(di,gj)=Area(di)/Area(gj) 式二
当SizeSim越接近1时,两个目标大小相似;反之亦反;
相似性指标三:形状相似性,
采用形状指数来计算多边形的形状:
其中pi代表任意多边形,pi是待匹配目标di或gj;形状指数用来描述多边形目标的复杂度或紧凑度:当形状指数接近于1时,表示该形状接近圆形,当形状指数大于1时,形状指数越高形状越复杂;采用形状指数的比率来衡量形状相似性:
ShapeSim(di,gj)=ShapeIndex(di)/ShapeIndex(gj) 式四
当ShapeSim接近于1时,表示两个多边形具有相似的形状复杂度;
相似性指标四:方位相似性,首先描述多边形方向,采用多边形边加权统计方法计算多边形方向;具体算法为:遍历多边形的每一条边,计算其对应的方位角,对范围在0°-180°的一个计数器进行投票,票数根据该方向的边长进行加权,最后选出计数器中票数最高的角度作为多边形的主方向;
方位相似性根据上述多边形主方向间的偏差定义,其计算方法如下:
其中WSW为边加权统计方法函数,输入为任意多边形,返回多边形的主方向,取值0-π。
4.根据权利要求3所述的一种基于机器学习的空间数据匹配方法,其特征在于,所述步骤1.3中,导出为训练样本集TP的具体方法是:
步骤1.31,对于每个gj∈TP+,在空间数据库中查询所有满足dist(di,gj)≤dT条件的di,并将di加入集合DC
步骤1.32,对于每个di∈DC,根据目标对<di,gj>计算其多种相似性关系,即rij的特征向量fk
步骤1.33,如果目标对<di,gj>∈TP+,则赋ck为匹配,反之赋ck为不匹配;
步骤1.34,建立rij,fk和ck三元组,存储于训练样本集TP中。
5.根据权利要求1所述的一种基于机器学习的空间数据匹配方法,其特征在于,所述的步骤2采用基于概率的贝叶斯分类器模型进行机器学习。
CN201310726445.3A 2013-12-25 2013-12-25 一种基于机器学习的空间数据匹配方法 Active CN103646109B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310726445.3A CN103646109B (zh) 2013-12-25 2013-12-25 一种基于机器学习的空间数据匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310726445.3A CN103646109B (zh) 2013-12-25 2013-12-25 一种基于机器学习的空间数据匹配方法

Publications (2)

Publication Number Publication Date
CN103646109A CN103646109A (zh) 2014-03-19
CN103646109B true CN103646109B (zh) 2017-01-25

Family

ID=50251322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310726445.3A Active CN103646109B (zh) 2013-12-25 2013-12-25 一种基于机器学习的空间数据匹配方法

Country Status (1)

Country Link
CN (1) CN103646109B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10902026B2 (en) 2014-11-27 2021-01-26 Longsand Limited Block classified term
CN104618459A (zh) * 2015-01-13 2015-05-13 北京中交兴路车联网科技有限公司 数据模型的自动采集方法及系统
CN105867305B (zh) * 2016-05-13 2018-06-12 南京航空航天大学 基于加工特征的复杂结构件数控加工状态实时监控方法
CN106202379A (zh) * 2016-07-09 2016-12-07 兰州交通大学 一种基于空间场景相似性的匹配查询方法
CN105955230B (zh) * 2016-07-19 2020-05-12 南京航空航天大学 基于Unity 3D的智能制造车间的实时监控方法
CN106777302B (zh) * 2016-12-30 2020-10-09 深圳市华傲数据技术有限公司 空间地理坐标的转换方法及装置
CN106886578B (zh) * 2017-01-23 2020-10-16 武汉翼海云峰科技有限公司 一种数据列映射方法及系统
CN107133562B (zh) * 2017-03-17 2021-05-14 华南理工大学 一种基于极限学习机的手势识别方法
CN108664497B (zh) * 2017-03-30 2020-11-03 大有秦鼎(北京)科技有限公司 数据匹配的方法和装置
CN109272003A (zh) * 2017-07-17 2019-01-25 华东师范大学 一种消除深度学习模型中未知错误的方法与装置
CN109344741A (zh) * 2018-09-11 2019-02-15 中国科学技术大学 一种基于振动信号的地形分类方法
CN109871458A (zh) * 2019-02-01 2019-06-11 南京泛在地理信息产业研究院有限公司 一种基于综合管线的路灯专业管线空间数据误差校正方法
CN111339153A (zh) * 2020-02-21 2020-06-26 海南随手电子商务有限公司 匹配用户信息的方法及装置、存储介质、处理器
CN111460513B (zh) * 2020-04-27 2021-02-02 南京邮电大学 一种基于相似度分箱的空间点集数据隐私保护匹配的方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103390057A (zh) * 2013-07-26 2013-11-13 国家测绘地理信息局卫星测绘应用中心 一种历史信息的空间化建模存储方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101472452B1 (ko) * 2010-11-17 2014-12-17 한국전자통신연구원 멀티미디어 데이터 검색 방법, 장치 및 패턴인식 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103390057A (zh) * 2013-07-26 2013-11-13 国家测绘地理信息局卫星测绘应用中心 一种历史信息的空间化建模存储方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Characterization and detection of building patterns in cartographic data:two algorithms;Xiang Zhang et al;《In Joint International Conference on Theory, Data Handling and Modelling in GeoSpatial Information》;20101231;第261-266页 *
Pattern Classification Approaches to Matching Building Polygons at Multiple Scales;Xiang Zhang et al;《ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences》;20120825;第19-24页 *

Also Published As

Publication number Publication date
CN103646109A (zh) 2014-03-19

Similar Documents

Publication Publication Date Title
CN103646109B (zh) 一种基于机器学习的空间数据匹配方法
Zouhal et al. An evidence-theoretic k-NN rule with parameter optimization
CN106897568A (zh) 病历结构化的处理方法和装置
Rahman et al. Discretization of continuous attributes through low frequency numerical values and attribute interdependency
CN106021990A (zh) 一种将生物基因以特定的性状进行分类与自我识别的方法
CN109165672A (zh) 一种基于渐进式学习的集成分类方法
Leung et al. Relating random vector and random finite set estimation in navigation, mapping, and tracking
CN110704652A (zh) 基于多重注意力机制的车辆图像细粒度检索方法及装置
Chen et al. Hypothesis testing for populations of networks
CN108764280A (zh) 一种基于症状向量的医学数据处理方法和系统
Zhang et al. A dynamic interval-valued intuitionistic fuzzy sets applied to pattern recognition
CN107610120B (zh) 一种多尺度建筑物面实体匹配方法及系统
CN114332172A (zh) 一种基于协方差矩阵改进的激光点云配准方法
Cai A Metropolis-Hastings Robbins-Monro algorithm for maximum likelihood nonlinear latent structure analysis with a comprehensive measurement model
US20220164648A1 (en) Clustering method based on self-discipline learning sdl model
Le et al. Multiple distribution data description learning method for novelty detection
CN106203469A (zh) 一种基于有序模式的图分类方法
CN115563312A (zh) 一种药物-疾病-靶点三元组靶点实体补全方法及应用
CN109523143B (zh) 一种基于多粒度计算的土地评价方法
Aouati Localization of vectors-patterns in the problems of parametric classification with the purpose of increasing its accuracy
CN111931119A (zh) 一种组合模式的快速稳定圆最优拟合方法
Ma et al. Image segmentation based on a hybrid immune memetic algorithm
Mousavi A New Clustering Method Using Evolutionary Algorithms for Determining Initial States, and Diverse Pairwise Distances for Clustering
Meng et al. Multi-feature fusion: a driver-car matching model based on curve comparison
CN112884023A (zh) 一种系统进化移植分区的社区发现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant