CN102902750A - 一种通用的数据抽取转换方法 - Google Patents

一种通用的数据抽取转换方法 Download PDF

Info

Publication number
CN102902750A
CN102902750A CN2012103496071A CN201210349607A CN102902750A CN 102902750 A CN102902750 A CN 102902750A CN 2012103496071 A CN2012103496071 A CN 2012103496071A CN 201210349607 A CN201210349607 A CN 201210349607A CN 102902750 A CN102902750 A CN 102902750A
Authority
CN
China
Prior art keywords
extraction
data
rule
information
definition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012103496071A
Other languages
English (en)
Inventor
周秀强
崔永生
吕亚伟
曹苗苗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Co Ltd
Original Assignee
Langchao Qilu Software Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Langchao Qilu Software Industry Co Ltd filed Critical Langchao Qilu Software Industry Co Ltd
Priority to CN2012103496071A priority Critical patent/CN102902750A/zh
Publication of CN102902750A publication Critical patent/CN102902750A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种通用的数据抽取转换方法,通过分析各类数据抽取处理规则及调度方法,总结出数据抽取处理的公共特征,然后,采用数据结构、抽取规则、抽取计划分别进行定义管理、源表数据字典定义、目标表结构设置、抽取规则设置、抽取计划设置,每类都可以灵活的设置相应的参数,用二维关系表记录数据结构、抽取规则、计划的信息,并作为元数据信息供其他服务或接口使用,提供数据全过程的血缘分析,用户界面采用具有业务含义的中文信息展现给使用者,采用业务与技术的低耦合,减少使用者对专业技术人员的依赖,满足业务人员在简单了解数据库知识的情况下,做出符合需求的复杂业务逻辑数据处理。

Description

一种通用的数据抽取转换方法
技术领域
本系统涉及一种计算机应用技术领域,具体的说是一种通用的数据抽取转换方法。 
背景技术
目前我国各个领域的基础数据都已经完善,各业务系统积累了大量数据,蕴藏了丰富的信息资源,数据利用方面的需求日益增多。数据挖掘、决策支持日益兴起,如何从海量数据中挖掘出有价值的数据,如何有效应对业务需求的变化带来的数据处理规则变化,是软件公司和客户急于解决的问题。目前实现数据抽取转换的方式有很多,如:直接写脚本处理数据、ETL软件产品,但无论是写脚本还是ETL产品,都无法避免需要专业技术人员进行数据加载与维护,对业务需求的变更不能及时响应,并且对技术人员要求非常高,不但要懂技术同时需要对业务很熟。因此,需要一套比较科学的方法及方法帮助软件公司及客户适应快速变化的需求,快速的完成数据抽取处理,实现业务人员(客户)自行加载业务、自行维护需求,提高技术对业务变化的响应能力。传统数据抽取处理方法几乎都是面向技术人员使用,业务人员提出需求,技术人员理解需求后做相应的数据抽取处理。技术人员需要既懂业务有懂技术,对技术人员要求比较高,且对于需求的变动不能及时做出反映。 
通用的数据抽取处理方法实现了与行业(业务)的无关性,其重点转向了对业务需求变化的管理,其系统功能的关注重点也随之转向了提供支持业务变化的服务,通过这些方法提供的功能,加载和实现各类业务的处理和加工。实现业务人员(客户)自行加载业务、自行维护需求,提高技术对业务变化的响应能力。 
发明内容
本发明的目的是提供一种通用的适合非技术人员使用的数据抽取转换方法。 
根据目前数据应用领域的应用规模及应用内容分析,随着信息技术不断的发展,将来的数据应用会不断的增加,因此技术架构必须重点考虑整个系统的跨平台性、安全性、可靠性、灵活性、稳定性及易管理性,同时技术架构应该有非常好的可扩展能力,并符合整个项目的建设原则和技术要求。 
本发明是按以下方式实现的,通过分析各类数据抽取处理加载及调度方法,总结出数据抽取处理的公共特征,采用数据结构、抽取规则、抽取计划分别进行定义管理的方式,进行源表数据字典定义、目标表结构设置、抽取规则设置、抽取计划设置,其中, 
数据字典定义:定义源数据所在的数据库信息、表信息、字段信息、表及字段的业务含义各元数据信息;
目标表结构设置:用来定义数据抽取处理后的结果表,包括:基本信息、索引信息、表及字段的业务含义各元数据信息;
抽取规则设置:使用拖拽方式实现抽取规则,其中需要用到的源表信息、目标表信息、规则信息均用业务语言描述,抽取规则设置内容包括:查询组件、修改组件、删除组件、扩展组件、血缘分析;引导抽取规则设置包括以下内容:
1)新建规则信息,设置内容包括:抽取类型、规则名称、规则描述、规则备注;
2)参数维护,维护整个规则的参数,定义的参数,在所有组件中都能使用,参数内容包括:参数名称、显示名称、参数描述、参数值类型、参数长度、备注;
3)抽取规则组件定义,根据业务需求逻辑规则,选择并定义多个抽取组件,组件信息包括:组件类型、组件名称、组件描述、是否已校验、是否使用、备注;
4)规则校验,定义完成抽取规则组件后,验证规则的正确性,优化提示;
抽取计划设置:抽取计划分为手动和自动抽取计划,自动抽取可自定义抽取频率,满足通常用到的各种抽取计划;
以上抽取转换过程都是通过二维关系表方式来存储,采用本地元数据管理方式,将业务加载过程中的字典、结构、规则、计划内容沉淀为元数据,每一步的元数据为下一步提供信息支撑,具体步骤如下:
1)准备数据库环境
在数据库中创建1个表空间和用户,如下表
用户/密码 表空间 表空间大小
根据实际情况设定 cqgj_dat 200M
2)部署系统应用
1.在建立的用户下导入已整理好的数据;
2.获得系统程序:CQGJ;
3.按默认选项创建域:cqgj _domain;
4.启动startWebLogic.cmd,进入weblogic控制台:包括:
创建连接池cqgjpool,用户名/密码: 
创建数据源,如cqgj_ds,注意JNDIName应为cqgj_ds,使用cqgjpool接池;
5.选择WebApplicationModules,选择cqgj应用进行部署。
本发明的有益效果是:本系统基于J2EE技术设计实现,采用ORACLE 9I及以上数据库和BEA WEBLOGIC SERVER 8.1中间件软件开发而成, 
方法实现可持续的支撑能力。自行加载业务、自行维护需求;发挥客户各部门的主动性和积极性,提高技术对业务变化的响应能力。具体内容包括:数据字典定义、目标表结构定义、抽取规则、抽取计划、血缘分析。
元数据管理:方法采用本地话元数据管理,业务加载过程中的字典、结构、规则、计划内容沉淀为元数据,每一步的元数据为下一步提供信息支撑。 
方法建设原则:通用的数据抽取转换方法满足行业(业务)的无关性,需求变化的实现与技术开发隔离,客户及业务人员可自行加载、自行维护。业务人员通过方法,可自行加载和实现各类业务需求(无须技术人员编码实现业务需求)。以所见即所得的形式加载和维护业务需求;全过程的元数据管理方法,为业务、管理、技术提供注释。 
具体实施方式
通过分析各类数据抽取处理加载及调度方法,总结出数据抽取处理的公共特征。采用数据结构、抽取规则、抽取计划分别进行定义管理的方式,进行源表数据字典定义、目标表结构设置、抽取规则设置、抽取计划设置如下四部分,其中, 
(1)数据字典定义:定义源数据所在的数据库信息、表信息、字段信息、表及字段的业务含义等元数据信息;
(2)目标表结构设置:用来定义数据抽取处理后的结果表,主要包括:基本信息、索引信息、表及字段的业务含义等元数据信息;
(3)抽取规则设置:使用拖拽方式实现抽取规则,其中需要用到的源表信息、目标表信息、规则信息等均用业务语言描述。抽取规则设置主要内容包括:查询组件、修改组件、删除组件、扩展组件、血缘分析等;
通过向导的方式,引导抽取规则设置的逐步完成。分为以下几个步骤:
1)新建规则信息,主要设置内容包括:抽取类型、规则名称、规则描述、规则备注;
2)参数维护,维护整个规则的参数,定义的参数,在所有组件中都可以使用,参数内容包括:参数名称、显示名称、参数描述、参数值类型、参数长度、备注;
3)抽取规则组件定义,根据业务需求逻辑规则,选择并定义多个抽取组件,组件信息包括:组件类型、组件名称、组件描述、是否已校验、是否使用、备注;
4)规则校验,定义完成抽取规则组件后,验证规则的正确性,优化提示;
(4)抽取计划设置:抽取计划分为手动和自动抽取计划,自动抽取可自定义抽取频率,满足通常用到的各种抽取计划。
上述都是通过二维关系表方式来存储,采用本地元数据管理方式,将业务加载过程中的字典、结构、规则、计划内容沉淀为元数据,每一步的元数据为下一步提供信息支撑。 
实施例: 
一、数据结构(数据字典、目标表结构):
1、数据库信息定义
增加 修改 删除
系统类型 系统业务名称 数据路类型 数据库实例名称 数据库用户名 数据库密码(加密后 数据库类型 数据库连接字符串 是否有效 来源类型 备注
                     
                     
                     
                     
2、表信息定义
增加 修改 删除
系统类别:    
表名:    
显示名称:    
业务含义:    
描述:    
是否显示:    
是否可用:    
备注:    
3、字段信息定义
增加 修改 删除
字段名称 字段业务名称 业务含义 字段描述 主键标志 字段类型 字段长度 小数位 是否可为空 是否可用 序号
                     
                     
                     
                     
                     
二、抽取规则:
1、抽取规则
Figure 810698DEST_PATH_IMAGE001
    2、查询组件
Figure 20121034960711000021
3、更新组件
   4、删除组件
Figure 505487DEST_PATH_IMAGE005
   三、抽取计划
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (1)

1.一种通用的数据抽取转换方法, 其特征在于通过分析各类数据抽取处理加载及调度方法,总结出数据抽取处理的公共特征,采用数据结构、抽取规则、抽取计划分别进行定义管理的方式,进行源表数据字典定义、目标表结构设置、抽取规则设置、抽取计划设置,其中,
数据字典定义:定义源数据所在的数据库信息、表信息、字段信息、表及字段的业务含义各元数据信息;
目标表结构设置:用来定义数据抽取处理后的结果表,包括:基本信息、索引信息、表及字段的业务含义各元数据信息;
抽取规则设置:使用拖拽方式实现抽取规则,其中需要用到的源表信息、目标表信息、规则信息均用业务语言描述,抽取规则设置内容包括:查询组件、修改组件、删除组件、扩展组件、血缘分析;引导抽取规则设置包括以下内容:
1)新建规则信息,设置内容包括:抽取类型、规则名称、规则描述、规则备注;
2)参数维护,维护整个规则的参数,定义的参数,在所有组件中都能使用,参数内容包括:参数名称、显示名称、参数描述、参数值类型、参数长度、备注;
3)抽取规则组件定义,根据业务需求逻辑规则,选择并定义多个抽取组件,组件信息包括:组件类型、组件名称、组件描述、是否已校验、是否使用、备注;
4)规则校验,定义完成抽取规则组件后,验证规则的正确性,优化提示;
抽取计划设置:抽取计划分为手动和自动抽取计划,自动抽取可自定义抽取频率,满足通常用到的各种抽取计划;
以上抽取转换过程都是通过二维关系表方式来存储,采用本地元数据管理方式,将业务加载过程中的字典、结构、规则、计划内容沉淀为元数据,每一步的元数据为下一步提供信息支撑,具体步骤如下:
1)准备数据库环境
在数据库中创建1个表空间和用户,如下表
用户/密码 表空间 表空间大小 根据实际情况设定 cqgj_dat 200M
2)部署系统应用
①在建立的用户下导入已整理好的数据;
②获得系统程序:CQGJ;
③按默认选项创建域:cqgj _domain;
④启动startWebLogic.cmd,进入weblogic控制台:包括:
创建连接池cqgjpool,用户名/密码: 
创建数据源,如cqgj_ds,注意JNDIName应为cqgj_ds,使用cqgjpool接池;
⑤选择WebApplicationModules,选择cqgj应用进行部署。
CN2012103496071A 2012-09-20 2012-09-20 一种通用的数据抽取转换方法 Pending CN102902750A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012103496071A CN102902750A (zh) 2012-09-20 2012-09-20 一种通用的数据抽取转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012103496071A CN102902750A (zh) 2012-09-20 2012-09-20 一种通用的数据抽取转换方法

Publications (1)

Publication Number Publication Date
CN102902750A true CN102902750A (zh) 2013-01-30

Family

ID=47574982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012103496071A Pending CN102902750A (zh) 2012-09-20 2012-09-20 一种通用的数据抽取转换方法

Country Status (1)

Country Link
CN (1) CN102902750A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473360A (zh) * 2013-09-26 2013-12-25 浪潮齐鲁软件产业有限公司 一种大数据智能抽取的管理方法
CN103942245A (zh) * 2014-02-19 2014-07-23 浪潮软件股份有限公司 基于元数据的数据抽取方法
CN103970880A (zh) * 2014-05-17 2014-08-06 白崇明 分布式多点数据抽取方法
CN104239100A (zh) * 2014-09-11 2014-12-24 浪潮软件集团有限公司 一种通用数据处理方法
CN104778236A (zh) * 2015-04-02 2015-07-15 上海烟草集团有限责任公司 一种基于元数据的etl实现方法及系统
CN105608149A (zh) * 2015-12-19 2016-05-25 广西师范学院 基于关系数据库的数据空间的访问方法
CN105868521A (zh) * 2015-12-14 2016-08-17 乐视网信息技术(北京)股份有限公司 数据信息处理方法及装置
CN105893603A (zh) * 2016-04-22 2016-08-24 广州精点计算机科技有限公司 一种基于etl的字段级别血统分析方法及装置
CN106682153A (zh) * 2016-12-23 2017-05-17 山东浪潮商用系统有限公司 一种基于数据建模及实现数据增量的数据抽取工具
CN106815268A (zh) * 2015-12-01 2017-06-09 中广核工程有限公司 海量非结构化电子文件的结构化处理方法及系统
CN106886535A (zh) * 2015-12-16 2017-06-23 大唐软件技术股份有限公司 一种适配多种数据源的数据抽取方法和装置
CN108304464A (zh) * 2017-12-26 2018-07-20 北京明略软件系统有限公司 一种数据清洗的方法及装置
CN109739893A (zh) * 2018-12-28 2019-05-10 上海连尚网络科技有限公司 一种元数据管理方法、设备及计算机可读介质
CN111124427A (zh) * 2019-11-13 2020-05-08 山东中磁视讯股份有限公司 一种抽取和集成数据的方法、系统及设备
CN111309792A (zh) * 2019-12-31 2020-06-19 中国电子科技集团公司第二十八研究所 一种覆盖复杂异构情况的数据抽取转换方法
CN112328667A (zh) * 2020-07-17 2021-02-05 四川长宁天然气开发有限责任公司 一种基于数据血缘的页岩气田地面工程数字化移交方法
CN112654977A (zh) * 2018-07-19 2021-04-13 起元技术有限责任公司 发布到数据仓库
CN112668929A (zh) * 2021-01-08 2021-04-16 上海振华重工(集团)股份有限公司 用于自动化码头的生产作业性能指标系统及其统计方法
CN112685383A (zh) * 2020-12-25 2021-04-20 山东众阳健康科技集团有限公司 一种基于规则组件的业务规则批量生成方法及系统
CN113535844A (zh) * 2021-09-15 2021-10-22 山东耕元数据科技有限公司 一种数据汇聚方法及系统
CN114911861A (zh) * 2022-07-15 2022-08-16 山东中联佳裕软件股份有限公司 公共卫生服务项目数据质控系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101308561A (zh) * 2008-03-04 2008-11-19 曾益坤 异构电子商务集成系统及方法
CN101364240A (zh) * 2008-10-14 2009-02-11 杭州华三通信技术有限公司 元数据管理方法及装置
CN102054025A (zh) * 2010-12-01 2011-05-11 北京中交通信科技有限公司 交通信息资源整合处理方法及系统
US20120166484A1 (en) * 2009-07-22 2012-06-28 Mcgregor Carlolyn Patricia System, method and computer program for multi-dimensional temporal data mining

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101308561A (zh) * 2008-03-04 2008-11-19 曾益坤 异构电子商务集成系统及方法
CN101364240A (zh) * 2008-10-14 2009-02-11 杭州华三通信技术有限公司 元数据管理方法及装置
US20120166484A1 (en) * 2009-07-22 2012-06-28 Mcgregor Carlolyn Patricia System, method and computer program for multi-dimensional temporal data mining
CN102054025A (zh) * 2010-12-01 2011-05-11 北京中交通信科技有限公司 交通信息资源整合处理方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
卢晓露: "数据集成平台的研究与实现", 《中国优秀硕士学位论文数据库 信息科技辑》 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473360A (zh) * 2013-09-26 2013-12-25 浪潮齐鲁软件产业有限公司 一种大数据智能抽取的管理方法
CN103942245A (zh) * 2014-02-19 2014-07-23 浪潮软件股份有限公司 基于元数据的数据抽取方法
CN103970880A (zh) * 2014-05-17 2014-08-06 白崇明 分布式多点数据抽取方法
CN103970880B (zh) * 2014-05-17 2018-12-18 白崇明 分布式多点数据抽取方法
CN104239100A (zh) * 2014-09-11 2014-12-24 浪潮软件集团有限公司 一种通用数据处理方法
CN104778236A (zh) * 2015-04-02 2015-07-15 上海烟草集团有限责任公司 一种基于元数据的etl实现方法及系统
CN106815268A (zh) * 2015-12-01 2017-06-09 中广核工程有限公司 海量非结构化电子文件的结构化处理方法及系统
CN105868521A (zh) * 2015-12-14 2016-08-17 乐视网信息技术(北京)股份有限公司 数据信息处理方法及装置
CN106886535A (zh) * 2015-12-16 2017-06-23 大唐软件技术股份有限公司 一种适配多种数据源的数据抽取方法和装置
CN105608149A (zh) * 2015-12-19 2016-05-25 广西师范学院 基于关系数据库的数据空间的访问方法
CN105893603B (zh) * 2016-04-22 2019-06-04 广东精点数据科技股份有限公司 一种基于etl的字段级别血统分析方法及装置
CN105893603A (zh) * 2016-04-22 2016-08-24 广州精点计算机科技有限公司 一种基于etl的字段级别血统分析方法及装置
CN106682153A (zh) * 2016-12-23 2017-05-17 山东浪潮商用系统有限公司 一种基于数据建模及实现数据增量的数据抽取工具
CN108304464A (zh) * 2017-12-26 2018-07-20 北京明略软件系统有限公司 一种数据清洗的方法及装置
CN112654977A (zh) * 2018-07-19 2021-04-13 起元技术有限责任公司 发布到数据仓库
US11893036B2 (en) 2018-07-19 2024-02-06 Ab Initio Technology Llc Publishing to a data warehouse
CN109739893A (zh) * 2018-12-28 2019-05-10 上海连尚网络科技有限公司 一种元数据管理方法、设备及计算机可读介质
CN111124427A (zh) * 2019-11-13 2020-05-08 山东中磁视讯股份有限公司 一种抽取和集成数据的方法、系统及设备
CN111309792A (zh) * 2019-12-31 2020-06-19 中国电子科技集团公司第二十八研究所 一种覆盖复杂异构情况的数据抽取转换方法
CN111309792B (zh) * 2019-12-31 2023-12-08 中国电子科技集团公司第二十八研究所 一种覆盖复杂异构情况的数据抽取转换方法
CN112328667B (zh) * 2020-07-17 2023-09-08 四川长宁天然气开发有限责任公司 一种基于数据血缘的页岩气田地面工程数字化移交方法
CN112328667A (zh) * 2020-07-17 2021-02-05 四川长宁天然气开发有限责任公司 一种基于数据血缘的页岩气田地面工程数字化移交方法
CN112685383A (zh) * 2020-12-25 2021-04-20 山东众阳健康科技集团有限公司 一种基于规则组件的业务规则批量生成方法及系统
CN112668929A (zh) * 2021-01-08 2021-04-16 上海振华重工(集团)股份有限公司 用于自动化码头的生产作业性能指标系统及其统计方法
CN112668929B (zh) * 2021-01-08 2023-12-22 上海振华重工(集团)股份有限公司 用于自动化码头的生产作业性能指标系统及其统计方法
CN113535844B (zh) * 2021-09-15 2021-12-07 山东耕元数据科技有限公司 一种数据汇聚方法及系统
CN113535844A (zh) * 2021-09-15 2021-10-22 山东耕元数据科技有限公司 一种数据汇聚方法及系统
CN114911861A (zh) * 2022-07-15 2022-08-16 山东中联佳裕软件股份有限公司 公共卫生服务项目数据质控系统

Similar Documents

Publication Publication Date Title
CN102902750A (zh) 一种通用的数据抽取转换方法
CN108027833B (zh) 用于创建结构化数据语言查询的方法
CN110795509A (zh) 一种数据仓库的指标血缘关系图的构建方法、装置和电子设备
CN103810212A (zh) 一种数据库索引的自动创建方法及系统
US10706030B2 (en) Utilizing artificial intelligence to integrate data from multiple diverse sources into a data structure
CN103678339A (zh) 数据回流、关系型数据库中的数据访问方法及系统
CN110020358B (zh) 用于生成动态页面的方法和装置
CN106503274A (zh) 一种数据整合与搜索方法及服务器
CN103455335A (zh) 一种多级分类的Web实现方法
CN110807016A (zh) 一种应用于金融业务的数据仓库构建方法、装置和电子设备
CN104008107A (zh) 运维知识库的实现方法
CN107945092A (zh) 用于审计领域的大数据综合管理方法及系统
CN110795478A (zh) 一种应用于金融业务的数据仓库更新方法、装置和电子设备
CN106557307A (zh) 业务数据的处理方法及处理系统
CN102819589A (zh) 一种基于etl的数据优化方法及设备
CN104766240A (zh) 电子银行业务数据处理系统及方法
CN114444465A (zh) 信息抽取方法、装置、设备及存储介质
CN102955739A (zh) 一种提高性能测试脚本重用率的方法
US20160162814A1 (en) Comparative peer analysis for business intelligence
CN101908063A (zh) 一种通用的报表查询工具
Chies-Santos et al. The nature of faint fuzzies from the kinematics of NGC 1023
CN105574145A (zh) 一种现代家庭档案电子化管理方法和系统
CN112182080A (zh) 数据集成系统和基于数据集成系统的数据处理方法
Zhang et al. The research and design of SQL processing in a data-mining system based on MapReduce
CN116127086B (zh) 基于科技文献资源的地理科学数据需求分析方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130130

WD01 Invention patent application deemed withdrawn after publication