CN107656950A - 一种为企业异构数据源系统消除重复记录的方法 - Google Patents

一种为企业异构数据源系统消除重复记录的方法 Download PDF

Info

Publication number
CN107656950A
CN107656950A CN201611208774.9A CN201611208774A CN107656950A CN 107656950 A CN107656950 A CN 107656950A CN 201611208774 A CN201611208774 A CN 201611208774A CN 107656950 A CN107656950 A CN 107656950A
Authority
CN
China
Prior art keywords
data
heterogeneous
database
data source
integrated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611208774.9A
Other languages
English (en)
Inventor
林殷
吴方才
朱雪松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Space Star Technology (beijing) Co Ltd
Original Assignee
Space Star Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Space Star Technology (beijing) Co Ltd filed Critical Space Star Technology (beijing) Co Ltd
Priority to CN201611208774.9A priority Critical patent/CN107656950A/zh
Publication of CN107656950A publication Critical patent/CN107656950A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/256Integrating or interfacing systems involving database management systems in federated or virtual databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Abstract

一种为企业异构数据源系统消除重复记录的方法,该系统包括:数据仓库、集成数据层和应用接口。使得异构数据库减少相似重复记录数量,从而提高数据源以及企业异构数据集成系统中数据的质量。

Description

一种为企业异构数据源系统消除重复记录的方法
【技术领域】
本发明属于知识管理与数据集成技术领域。
【背景技术】
随着大数据时代的到来和知识经济的深入发展,企业、研究所等研发和生产机构愈发重视对知识的管理,实施了许多信息化软件,并产生了大量的数据,分别存储于不同的数据库中。而相对独立、缺乏组织的知识难以发挥充分的价值,因此需要通过对异构数据库的集成将这些资源进行有效的整合。
这些数据库具有系统异构、结构异构等特点,称为异构数据库。常规的集成方法多采取定制的方式,对现有的异构数据库进行集成,且要求在集成之前,完成对这些数据库结构的读取工作,为后期构建检索语句提供基础,此步骤是实现集成方法的重要部分。而当用户提出新的需求时,则需要人工对平台进行维护和改进,是一个漫长而复杂的过程。当前也存在一些支持用户导入和管理数据库的集成方法,但是,这些集成方法只能够实现初步的集成,在集成检索中向用户返回最基本的检索字段,当用户对知识详细内容和结构有进一步需求时,往往采取自动获取数据库关联表的方式向用户返回一些可能相关的信息,而这些信息往往具有准确度低、缺乏组织等特点。
在各类企事业单位中,由于开发时间不同,往往存在许多异构的运行于不同软硬件平台上的信息管理系统,由于采用不同的数据库开发技术,造成这些系统的数据库彼此独立,各个数据库系统之间无法融合与共享。随着互联网的不断发展与普及,企事业单位间信息交流的需求日益迫切,这就需要把不同数据源的异构数据库融合集成起来。因此,如何消除来自于不同异构数据库的相似重复数据则是需要解决的技术问题。
【发明内容】
为了解决现有技术中的上述问题,本发明提出了一种为企业异构数据源系统消除重复记录的方法。
本发明采用的技术方案如下:
一种为企业异构数据源系统消除重复记录的方法,包括:数据仓库、集成数据层和应用接口;
底层的各个异构数据源构成了系统的数据仓库;
集成数据层封装了异构数据库集成系统的业务逻辑;
各种应用程序和对应的访问接口构成了系统的应用接口;
集成数据层是实现异构数据库中数据转换的核心,目的是访问各个数据源,集成数据源信息,协调各数据源间信息;集成数据层在各局部数据提供的共享数据的基础之上建立一个全局的虚拟视图,并不存储实际的数据;具体包括:元数据DB、元数据管理器、综合包装器、中介器、应用层访问统一接口、异构数据库统一接口;
元数据DB用于储存各异构数据库的元数据库信息;
元数据管理器用于制定集成系统的全局模式与局部数据库的模式之间的转换规则;
中介器用于异构数据库的注册、公共模型的生成和全局查询请求的接收;
综合包装器用于实现数据位置和访问的透明,对异构的数据进行包装;
集成数据层对外提供了两个统一接口,即应用层访问统一接口和底层异构数据库访问接口;其功能是屏蔽各数据库的差异,提供数据的透明访问,使得使用者无需知道数据的数据源模式及具体的物理位置等信息,只需通过系统定义的与具体数据源无关的SQL语句进行访问;
根据异构数据源的特点,对异构数据源中重复记录消除的步骤具体包括如下:
第一步:根据实际情况进行需求分析,选择元数据DB中储存的各异构数据库的元数据库信息;
第二步:根据所述元数据库信息制定消除规则,以方便随后采用自动化消除和人工筛选相结合的方式对异构数据源进行消除;
第三步:根据数据仓库的共享数据要求,提取局部数据库的模式,根据异构数据源数据模式之间的关联关系查找相似的元数据库信息,并分别映射到异构数据源中相应的数据,并将其存储于临时数据库中;
第四步:根据数据仓库的数据库规范及数据格式要求,对临时数据库中的数据记录进行转换,使之符合数据仓库的标准;
第六步:利用消除规则,采用自动化消除清洗数据仓库中的相似重复记录。
优选地,中介器由三个组件构成,包括:异构数据注册模块、查询规划模块和结果合并过滤模块;异构数据注册模块的主要功能是:在共享数据注册阶段,负责公共模型的建立以及异构数据库的共享注册;查询规划模块的主要功能是:在数据集成阶段,将客户端提交的基于全局数据库的标准查询分解成针对各个异构数据库的子查询,并提交到相应的包装器;结果合并过滤模块的主要功能是:将各异构数据库查询返回的XML文档进行合并,形成完整统一的查询结果,反馈至客户端浏览器。
优选地,综合包装器由智能更新模块、查询结果转换模块和数据库操作模块三个组件构成;智能更新模块采用spring框架的quartz任务定时的扫描由不同的异构数据库上传的XML描述文档,通过解析这些XML文档,实现数据自动更新;查询结果转换模块负责将SQL查询的结果转换为XML文档;数据库操作模块负责连接后台各个异构数据库,包括初始化数据库连接、分配连接、封装数据库基本操作、关闭连接的功能。
优选地,自动化消除清洗步骤包括选择特定属性,对其进行排序,排序后的记录两两进行比对匹配,如果构成相似重复记录,则将该记录对合并。
本发明的有益效果包括:减少相似重复记录数量,从而提高数据源以及企业异构数据集成系统中数据的质量。
【附图说明】
此处所说明的附图是用来提供对本发明的进一步理解,构成本申请的一部分,但并不构成对本发明的不当限定,在附图中:
图1是本发明中异构数据库智能集成系统框架图;
图2是本发明方法的流程图。
【具体实施方式】
下面将结合附图以及具体实施例来详细说明本发明,其中的示意性实施例以及说明仅用来解释本发明,但并不作为对本发明的限定。
参见附图1,Web服务集成中间件系统体系自下而上包括数据仓库、集成数据层和应用接口。其中,底层的各个异构数据源构成了系统的数据仓库;集成数据层采用中间件技术,封装了异构数据库集成系统的业务逻辑;各种应用程序和对应的访问接口构成了系统的应用接口。
该系统采用B/S模式,构成了客户/服务器三层架构。采用这种设计有以下几种优势:安装升级方便;易扩展维护;可移植性强可靠性强;数据智能更新快。
集成数据层是实现异构数据库中数据转换的核心,目的是访问各个数据源,集成数据源信息,协调各数据源间信息。集成数据层在各局部数据提供的共享数据的基础之上建立一个全局的虚拟视图,并不存储实际的数据。具体包括:元数据DB、元数据管理器、综合包装器、中介器、应用层访问统一接口、异构数据库统一接口,下面分别对各模块加以介绍。
元数据DB负责储存各异构数据库的元数据库信息。元数据库信息包括注册信息、连接信息URL、各元数据库用户与全局用户的匹配关系、模式映射信息、访问策略信息等。元数据DB支撑整个系统的运行。
元数据管理器负责制定集成系统的全局模式与局部数据库的模式之间的转换规则。
中介器负责异构数据库的注册、公共模型的生成和全局查询请求的接收。中介器由三个组件构成,包括:异构数据注册模块、查询规划模块和结果合并过滤模块。其中,异构数据注册模块的主要功能是:在共享数据注册阶段,负责公共模型的建立以及异构数据库的共享注册;查询规划模块的主要功能是:在数据集成阶段,将客户端提交的基于全局数据库的标准查询分解成针对各个异构数据库的子查询,并提交到相应的包装器;结果合并过滤模块的主要功能是:将各异构数据库查询返回的XML文档进行合并,形成完整统一的查询结果,反馈至客户端浏览器。
综合包装器的功能是实现数据位置和访问的透明,对异构的数据进行包装。综合包装器由智能更新模块、查询结果转换模块和数据库操作模块三个组件构成。智能更新模块采用spring框架的quartz任务定时的扫描由不同的异构数据库上传的XML描述文档,通过解析这些XML文档,实现数据自动更新,从而保证抽象数据表的有效性、实时性、智能性。查询结果转换模块负责将SQL查询的结果转换为XML文档。数据库操作模块负责连接后台各个异构数据库,包括初始化数据库连接、分配连接、封装数据库基本操作、关闭连接等功能。
集成数据层对外提供了两个统一接口,即应用层访问统一接口和底层异构数据库访问接口。其功能是屏蔽各数据库的差异,提供数据的透明访问,使得使用者无需知道数据的数据源模式及具体的物理位置等信息,只需通过系统定义的与具体数据源无关的SQL语句进行访问。
参见附图2,其是本发明一种企业异构数据库智能集成方法的流程图。
数据注册阶段
由中介器中的注册管理器来完成,主要任务是完成对各异构数据源在集成数据层中的注册,选择集成的内容(共享的表和字段)和访问的权限,并建立数据库集成的模型。在这个阶段,主要有各异构数据库管理员和集成系统管理员两类角色参与,他们的主要任务如下:各异构数据库管理员:主要完成登录数据集成系统,选择数据库中共享的内容,对共享的数据的访问权限进行设定。选择自己欲注册的数据库类型,向集成系统管理员注册信息,如数据库主机名、IP地址、用户名、密码。
数据集成系统管理员:主要审核各注册的异构数据源,确定访问权限和集成内容。由集成数据层建立共享的公共模型,并收集各注册的数据库信息。
系统运行阶段
此阶段的主要任务是接受用户提出的查询请求并对请求做出相应的解答。
根据异构数据源的特点,对异构数据源中重复记录消除的步骤具体包括如下:
第一步:根据实际情况进行需求分析,选择元数据DB中储存的各异构数据库的元数据库信息;
第二步:根据所述元数据库信息制定消除规则,以方便随后采用自动化消除和人工筛选相结合的方式对异构数据源进行消除;
第三步:根据数据仓库的共享数据要求,提取局部数据库的模式,根据异构数据源数据模式之间的关联关系查找相似的元数据库信息,并分别映射到异构数据源中相应的数据,并将其存储于临时数据库中;
第四步:根据数据仓库的数据库规范及数据格式要求,对临时数据库中的数据记录进行转换,使之符合数据仓库的标准;
第五步:利用消除规则,采用自动化消除清洗数据仓库中的相似重复记录。
通过上述方法,本发明的方案使得减少相似重复记录数量,从而提高数据源以及企业异构数据集成系统中数据的质量。
以上所述仅是本发明的较佳实施方式,故凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰,均包括于本发明专利申请范围内。

Claims (4)

1.一种为企业异构数据源系统消除重复记录的方法,该系统包括:数据仓库、集成数据层和应用接口;
底层的各个异构数据源构成了系统的数据仓库;
集成数据层封装了异构数据库集成系统的业务逻辑;
各种应用程序和对应的访问接口构成了系统的应用接口;
集成数据层是实现异构数据库中数据转换的核心,目的是访问各个数据源,集成数据源信息,协调各数据源间信息;集成数据层在各局部数据提供的共享数据的基础之上建立一个全局的虚拟视图,并不存储实际的数据;具体包括:元数据DB、元数据管理器、综合包装器、中介器、应用层访问统一接口、异构数据库统一接口;
元数据DB用于储存各异构数据库的元数据库信息;
元数据管理器用于制定集成系统的全局模式与局部数据库的模式之间的转换规则;
中介器用于异构数据库的注册、公共模型的生成和全局查询请求的接收;
综合包装器用于实现数据位置和访问的透明,对异构的数据进行包装;
集成数据层对外提供了两个统一接口,即应用层访问统一接口和底层异构数据库访问接口;其功能是屏蔽各数据库的差异,提供数据的透明访问,使得使用者无需知道数据的数据源模式及具体的物理位置等信息,只需通过系统定义的与具体数据源无关的SQL语句进行访问;
根据异构数据源的特点,对异构数据源中重复记录消除的步骤具体包括如下:
第一步:根据实际情况进行需求分析,选择元数据DB中储存的各异构数据库的元数据库信息;
第二步:根据所述元数据库信息制定消除规则,以方便随后采用自动化消除和人工筛选相结合的方式对异构数据源进行消除;
第三步:根据数据仓库的共享数据要求,提取局部数据库的模式,根据异构数据源数据模式之间的关联关系查找相似的元数据库信息,并分别映射到异构数据源中相应的数据,并将其存储于临时数据库中;
第四步:根据数据仓库的数据库规范及数据格式要求,对临时数据库中的数据记录进行转换,使之符合数据仓库的标准;
第五步:利用消除规则,采用自动化消除清洗数据仓库中的相似重复记录。
2.根据权利要求1所述的方法,中介器由三个组件构成,包括:异构数据注册模块、查询规划模块和结果合并过滤模块;异构数据注册模块的主要功能是:在共享数据注册阶段,负责公共模型的建立以及异构数据库的共享注册;查询规划模块的主要功能是:在数据集成阶段,将客户端提交的基于全局数据库的标准查询分解成针对各个异构数据库的子查询,并提交到相应的包装器;结果合并过滤模块的主要功能是:将各异构数据库查询返回的XML文档进行合并,形成完整统一的查询结果,反馈至客户端浏览器。
3.根据权利要求1所述的方法,综合包装器由智能更新模块、查询结果转换模块和数据库操作模块三个组件构成;智能更新模块采用spring框架的quartz任务定时的扫描由不同的异构数据库上传的XML描述文档,通过解析这些XML文档,实现数据自动更新;查询结果转换模块负责将SQL查询的结果转换为XML文档;数据库操作模块负责连接后台各个异构数据库,包括初始化数据库连接、分配连接、封装数据库基本操作、关闭连接的功能。
4.根据权利要求1所述的方法,自动化消除清洗步骤包括选择特定属性,对其进行排序,排序后的记录两两进行比对匹配,如果构成相似重复记录,则将该记录对合并。
CN201611208774.9A 2016-12-23 2016-12-23 一种为企业异构数据源系统消除重复记录的方法 Pending CN107656950A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611208774.9A CN107656950A (zh) 2016-12-23 2016-12-23 一种为企业异构数据源系统消除重复记录的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611208774.9A CN107656950A (zh) 2016-12-23 2016-12-23 一种为企业异构数据源系统消除重复记录的方法

Publications (1)

Publication Number Publication Date
CN107656950A true CN107656950A (zh) 2018-02-02

Family

ID=61127466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611208774.9A Pending CN107656950A (zh) 2016-12-23 2016-12-23 一种为企业异构数据源系统消除重复记录的方法

Country Status (1)

Country Link
CN (1) CN107656950A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112749171A (zh) * 2021-02-08 2021-05-04 国网山东省电力公司德州供电公司 一种跨系统的非侵入式数据采集技术

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5903887A (en) * 1997-09-15 1999-05-11 International Business Machines Corporation Method and apparatus for caching result sets from queries to a remote database in a heterogeneous database system
JP2000132435A (ja) * 1998-10-29 2000-05-12 Hitachi Ltd 異種データベース管理システム間のデータ整合処理装置
CN101083656A (zh) * 2007-07-05 2007-12-05 上海交通大学 基于数据流技术的多源异构数据集成系统
CN103179203A (zh) * 2013-03-12 2013-06-26 南京信息工程大学 在异构自治系统间实时共享数据的系统
CN104008135A (zh) * 2014-05-07 2014-08-27 南京邮电大学 一种多源异构数据库融合系统及其数据查询方法
CN106127305A (zh) * 2016-06-17 2016-11-16 中国科学院信息工程研究所 一种针对多源异构数据的异源间相似性度量方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5903887A (en) * 1997-09-15 1999-05-11 International Business Machines Corporation Method and apparatus for caching result sets from queries to a remote database in a heterogeneous database system
JP2000132435A (ja) * 1998-10-29 2000-05-12 Hitachi Ltd 異種データベース管理システム間のデータ整合処理装置
CN101083656A (zh) * 2007-07-05 2007-12-05 上海交通大学 基于数据流技术的多源异构数据集成系统
CN103179203A (zh) * 2013-03-12 2013-06-26 南京信息工程大学 在异构自治系统间实时共享数据的系统
CN104008135A (zh) * 2014-05-07 2014-08-27 南京邮电大学 一种多源异构数据库融合系统及其数据查询方法
CN106127305A (zh) * 2016-06-17 2016-11-16 中国科学院信息工程研究所 一种针对多源异构数据的异源间相似性度量方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李龙凤: "基于WebService数据智能集成技术的研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112749171A (zh) * 2021-02-08 2021-05-04 国网山东省电力公司德州供电公司 一种跨系统的非侵入式数据采集技术

Similar Documents

Publication Publication Date Title
CN106844485A (zh) 一种企业异构数据库智能集成的系统及方法
CN107656951B (zh) 一种同步异构数据库系统中实时数据的方法
CN103064875B (zh) 一种服务化空间数据分布式查询方法
CN100573528C (zh) 数字博物馆网格及其构造方法
CN104008135A (zh) 一种多源异构数据库融合系统及其数据查询方法
CN113392227B (zh) 面向轨道交通领域的元数据知识图谱引擎系统
CN100594497C (zh) 一种实现网络查询缓存的系统和查询方法
CN109344223A (zh) 一种基于云计算技术的建筑信息模型管理系统及方法
CN102254022A (zh) 一种面向多数据类型信息资源元数据的共享方法
CN103336813A (zh) 一种基于中间件架构的物联网数据集成管理方案
CN101251852B (zh) 面向领域的Web数据集成系统和方法
CN111625510A (zh) 一种基于云映射的多源数据共享系统及方法
CN102841889A (zh) 一种基于orm架构的高效数据库访问的实现方法及装置
CN107368588A (zh) 一种异构资源同构化方法及装置
CN110008296A (zh) 一种快速搭建地理信息数据应用的系统和方法
CN105550351B (zh) 旅客行程数据即席查询系统及方法
US8392358B2 (en) Temporal extent considerations in reporting on facts organized as a dimensionally-modeled fact collection
KR100417569B1 (ko) 메타데이터 교환표준을 이용한 분산 이종 데이터베이스검색방법
CN107656950A (zh) 一种为企业异构数据源系统消除重复记录的方法
CN107229672A (zh) 一种针对SolrCloud的大数据SQL查询方法及系统
Geng Design of heterogeneous data integration and sharing system for coastal international trade
CN108241651A (zh) 一种用于保证异构数据库系统中数据集成完整性的系统
CN110019466A (zh) 基于元数据的大数据集成系统
Mangisengi et al. A framework for supporting interoperability of data warehouse islands using XML
Guo Design and Implementation of Travel Website Based on Java Web

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 101399 No. 2 East Airport Road, Shunyi Airport Economic Core Area, Beijing (1st, 5th and 7th floors of Industrial Park 1A-4)

Applicant after: Zhongke Star Map Co., Ltd.

Address before: 101399 Building 1A-4, National Geographic Information Technology Industrial Park, Guomen Business District, Shunyi District, Beijing

Applicant before: Space Star Technology (Beijing) Co., Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180202