一种基于ACAD的异源异构数据的整合系统及其工作方法
技术领域
本发明涉及数据整合领域,尤其涉及基于ACAD的针对异源异构数据的整合方法。
背景技术
数字城市是数字地球在城市建设与管理领域的具体体现,是数字地球的重要节点,建设数字城市是社会发展的必然趋势。近些年来,随着“数字城市”的快速建设和发展,越来越多全局的、一致的、完整的数据信息被需要,这种数据需要从各个机构(即异源)保存的异构(对同种物体以不同结构形态呈现)数据中进行提取、清洗、转换,最后装载到一个统一标准的结构中。现在国内大多城市都已经建立了基础地理信息数据库,辅助城市规划、应急指挥、公共服务等城市管理工作,并加快了“数字城市”建设的步伐,但是目前缺乏高效、快速、低成本的数据建库方法及其更新机制。
具体来说:随着ACAD在地理制图中的广泛运用,上述中的异源异构数据给ACAD操作人员带来了极为繁重的工作量,使得对异源异构数据的整合变得极为繁琐;其在大幅提升了人工的劳动强度的同时,具有着极低的工作效率和极高的错误率。
这样,如何在减少人工操作量的同时,结合ACAD对异源异构数据进行有效的规范化的整合成为了本领域技术人员亟待解决的技术问题。
发明内容
本发明针对以上问题,提出了一种整合方式简单、高效,操作人员的劳动强度低,且整合后准确率极高的基于ACAD的异源异构数据的整合系统及其工作方法。
本发明的技术方案为:所述整合系统移植于所述ACAD中,用于对原始数据进行整合,所述整合系统包括输入模块、规则库模块、预处理模块、查找模块和替换模块;
所述输入模块用于向所述规则库模块中输入预处理规则、点规则、线规则、文字规则和标准数据,并用于向查找模块中输入目标数据和目标数据的误差允许范围;
所述规则库模块用于储存预处理规则、点规则、线规则、文字规则和标准数据;
所述预处理模块用于调用规则库模块中的预处理规则,并对原始数据进行预处理;
所述查找模块用于查找与输入的目标数据结构一致或在目标数据的误差允许范围内的同构数据;
所述替换模块用于调用规则库模块中的标准数据,并对查找模块中找出的同构数据进行替换。
所述规则库模块包括预处理规则模块、点规则模块、线规则模块和文字规则模块,所述标准数据分为标准点数据、标准线数据和标准文字数据。
按以下步骤进行工作:
1)、打开原始地图:人工通过ACAD打开由若干原始数据组成的原始地图;
2)、设置预处理规则:人工通过输入模块在预处理规则模块中输入预处理规则;
3)、预处理:整合系统通过预处理模块根据预处理规则对原始数据进行预处理;
4)、设置标准数据:人工通过输入模块在点规则模块、线规则模块或文字规则模块中输入点规则、线规则、文字规则和若干标准数据;
5)、设置目标数据:
5.1)、判断标准数据是否全部选取完毕:是,则进入步骤9);否,则进入步骤5.2);
5.2)、选取标准数据:人工在步骤4)中设置的若干标准数据中选取一标准数据,并按照点规则、线规则或文字规则确定与该标准数据表示同一物体的若干种结构形态的原始数据;
5.3)、确定目标数据:根据同一种结构形态的原始数据确定目标数据及该目标数据的允许误差范围,并由人工完成若干目标数据的记录;
5.4)、判断目标数据是否全部选取完毕:是,则进入步骤5.1);否,则进入步骤5.5);
5.5)、选取目标数据:人工在步骤5.3)中确定的若干目标数据中选取一目标数据;
5.6)、输入目标数据:人工通过输入模块在查找模块中输入目标数据;
6)、查找同构数据:整合系统通过查找模块在原始数据中查找与目标数据结构一致或在目标数据的误差允许范围内的若干同构数据,并对若干同构数据进行标示;
7)、数据替换:整合系统通过替换模块将同构数据替换为标准数据;
8)、返回步骤5.4);
9)、数据储存:人工通过ACAD储存由若干标准数据组成的标准地图;完毕。
本发明主要解决了外形相似结构不同的数据的匹配、查找、替换的方法。鉴于ACAD在地理制图的广泛应用,我们将此方法在ACAD平台中开发了相应的整理系统,通过整理代替了通过人眼识别作业的操作过程,快速准确的运算解决了编图过程中人工提取大量异构数据的复杂问题,大大的提高了生产效率同时减少了生产成本。鉴于ACAD强大的区域搜索能力,在算法的移植过程中重写了区域搜索算法,提高了运算速度。
具体的说:
一、由于本案的整套流程中将“查找同构数据”和“数据替换”这两步最为费时费力、工作量最大的步骤通过整合系统自行操作,从而大幅的降低了人工的劳动强度及人力资源成本。
二、本案步骤5)中由人工按照预先制定的点/线/文字规则对目标点/线/文字数据进行确定,从而有效确保了匹配的精确性及准确率。
三、本案的逻辑清晰、步骤有序,以简单、高效的方式对异源异构的数据完成整合,并同时完成与ACAD的结合,具有极佳的实用性和发展前景。
附图说明
图1是本发明的结构框图,
图2是本发明的工作流程图,
图3是本发明中点规则的应用效果图,
图4是本发明中线规则的应用效果图一,
图5是本发明中线规则的应用效果图二,
图6是本发明中线规则的应用效果图三;
图7是本发明中文字规则的应用效果图。
具体实施方式
本发明如图1-7所示,所述整合系统移植于所述ACAD中(由于本案中的整合系统为一套单独的算法系统,而在本案中该整合系统仅应用于ACAD中,因此,此处的移植亦表应用的意思),用于对原始数据进行整合,所述整合系统包括输入模块、规则库模块、预处理模块、查找模块和替换模块;
所述输入模块用于向所述规则库模块中输入预处理规则、点规则、线规则、文字规则和标准数据,并用于向查找模块中输入目标数据和目标数据的误差允许范围;
所述规则库模块用于储存预处理规则、点规则、线规则、文字规则和标准数据;
所述预处理模块用于调用规则库模块中的预处理规则,并对原始数据进行预处理;
所述查找模块用于查找与输入的目标数据结构一致或在目标数据的误差允许范围内的同构数据;
所述替换模块用于调用规则库模块中的标准数据,并对查找模块中找出的同构数据进行替换。
所述规则库模块包括预处理规则模块、点规则模块、线规则模块和文字规则模块,所述标准数据分为标准点数据、标准线数据和标准文字数据。
按以下步骤进行工作:
1)、打开原始地图:人工通过ACAD打开由若干原始数据组成的原始地图;
2)、设置预处理规则:人工通过输入模块在预处理规则模块中输入预处理规则;
3)、预处理:整合系统通过预处理模块根据预处理规则对原始数据进行预处理;
在作业过程中我们发现DWG数据文件中存在这大量的冗余数据,这些数据往往会影响算法的最终结果,进而降低了工作效率。预处理规则库就是用与、或、非等算法计算冗余数据,主要分为如下几个方面:
一、非结构线数据过滤:过滤规则包括实体的基本、空间关系等方法过滤。如陡坎的方向短线长度固定且一端与多段线相连,通过这样的规则可以过滤掉方向短线。
二、重叠实体过滤:对于相同空间结构的点、线、文字需删除多余的数据。
三、伪节点及悬挂修复。
4)、设置标准数据:人工通过输入模块在点规则模块、线规则模块或文字规则模块中输入点规则、线规则、文字规则和若干标准数据;
5)、设置目标数据:
5.1)、判断标准数据是否全部选取完毕:是,则进入步骤9);否,则进入步骤5.2);
5.2)、选取标准数据:人工在步骤4)中设置的若干标准数据中选取一标准数据,并按照点规则、线规则或文字规则确定与该标准数据表示同一物体的若干种结构形态的原始数据;
5.3)、确定目标数据:根据同一种结构形态的原始数据确定目标数据及该目标数据的允许误差范围,并由人工完成若干目标数据的记录;
5.4)、判断目标数据是否全部选取完毕:是,则进入步骤5.1);否,则进入步骤5.5);
5.5)、选取目标数据:人工在步骤5.3)中确定的若干目标数据中选取一目标数据;
5.6)、输入目标数据:人工通过输入模块在查找模块中输入目标数据;
6)、查找同构数据:整合系统通过查找模块在原始数据中查找与目标数据结构一致或在目标数据的误差允许范围内的若干同构数据,并对若干同构数据进行标示;
7)、数据替换:整合系统通过替换模块将同构数据替换为标准数据;
8)、返回步骤5.4);
9)、数据储存:人工通过ACAD储存由若干标准数据组成的标准地图;完毕。
由于本案中标准数据可分为标准点数据、标准线数据和标准文字数据,因此,目标数据也将分为目标点数据、目标线数据和目标文字数据。而上述步骤5.2)-步骤5.3)为由人工按照点规则、线规则或文字规则确定与标准数据匹配(即上文中所记载的“表示同一物体”)的若干目标数据。下面,对利用点/线/文字规则分别进行目标点/线/文字数据的匹配的过程进行具体说明:
一、关于点规则:
如图3所示(标准线数据位于目标线数据下方),目标点数据的匹配主要是通过计算每个数据的长度、结构类型、角度信息、允许误差范围来进行。本案中为了提高匹配效率而制定了“严格匹配”和“非严格匹配”两种方案, 根据实体尺度、角度等信息和相对尺度信息去匹配拾取范围中的信息,若全部匹配则作为目标点数据。
此外,当匹配完成后在进行步骤7)数据替换时,需提取目标点数据的定位点及角度数据。
二、关于线规则:
目前,由于原始数据中的线数据通常可分为点类型(主要是圆、弧、点、块、线的结构中心等类型)、线类型(就是线的首末点类型,这里我们把离目标点距离比较近的为近端点和比较远为远端点分别定义为“近搜索点”和“远搜索点”)和组合类型(点类型和线类型的组合),因此本案也在线规则模块中建立了三套线规则:
针对点类型:如图4所示(标准线数据位于目标线数据下方),通过拾取点类型信息,进行搜索,将设定的距离及允许误差范围作为搜索条件,按相邻关系拾取所有的点并组合成一条直线;
针对线类型:如图5所示(标准线数据位于目标线数据下方),通过拾取一条线,根据设定线的设定要求,根据线的两端搜索“近搜索点”,然后通过“远搜索点”去搜索下一个满足“搜索条件”的“远搜索点”的“近搜索点”,如此所有直至完成,然后将结果合并成一条直线;
针对组合类型:如图6所示(标准线数据位于目标线数据下方),组合类型的搜索可能包含多种点类型、多种线类型或者点和线交织的类型,本文通过拾取一个周期的类型集合进行搜索,方法也是以上两种搜索的组合类型。
三、关于文字规则:
如图7所示(标准线数据位于目标线数据下方),对于散状分布的文字往往具有字体信息、角度信息和分布信息这三种相同的规律,本案通过对上述三种信息完成对目标文字数据的匹配。