CN101814072A - 一种实现数据加载的系统及方法 - Google Patents

一种实现数据加载的系统及方法 Download PDF

Info

Publication number
CN101814072A
CN101814072A CN200910046362A CN200910046362A CN101814072A CN 101814072 A CN101814072 A CN 101814072A CN 200910046362 A CN200910046362 A CN 200910046362A CN 200910046362 A CN200910046362 A CN 200910046362A CN 101814072 A CN101814072 A CN 101814072A
Authority
CN
China
Prior art keywords
data
conversion
database
code
meant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910046362A
Other languages
English (en)
Inventor
高建强
秦克明
孙圭宁
高念高
朱利峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Triman Information & Technology Co Ltd
Original Assignee
Shanghai Triman Information & Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Triman Information & Technology Co Ltd filed Critical Shanghai Triman Information & Technology Co Ltd
Priority to CN200910046362A priority Critical patent/CN101814072A/zh
Publication of CN101814072A publication Critical patent/CN101814072A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明揭示了一种实现数据加载的系统及方法,本发明提供了对错误数据的鉴别功能,在对外部数据抽取后还对其中的错误数据作出标注并另行存储;另外,还对不符合标准的数据进行转化,使之符合标准化,最终将整合后的数据加载于相应数据库。经过对错误数据的鉴别和对非标准的数据进行标准化后,较大的提高了加载后的数据的可靠度和准确度。

Description

一种实现数据加载的系统及方法
技术领域
本发明涉及数据交换领域,特别涉及一种实现数据加载的系统及方法。
背景技术
数据仓库是一个独立的数据环境,需要通过抽取过程将数据从联机事务处理环境、外部数据源和脱机的数据存储介质导入到数据仓库中;在技术上,主要涉及到关联、转换、增量、调度和监控等几个方面。
以上的过程就是数据加载技术。
发明内容
本发明的目的是提供一种实现数据加载的系统及方法,提高数据加载的效率和数据的可靠度。
一方面,本发明提供一种实现数据加载的方法,包括以下步骤:
a、根据预定的规则抽取业务部门的数据;
b、解析所述步骤a抽取的数据,对其中的问题数据作出标注并单独存储;
c、将不符合预定标准的数据转换为标准数据;
d、将所述步骤b解析的正常的数据和所述步骤c转换的数据一并加载于综合数据库中。
所述步骤a包括以下步骤:
a1、建立前置交换服务器,根据预定的规则将数据从业务部门抽取到前置交换服务器;
a2、建立数据中心数据库,将数据从前置服务器抽取到数据中心数据库。
所述步骤b包括以下步骤:
b1、在数据抽取到所述数据中心数据库的过程中,对错误数据作出标注并转移到问题数据库中;
b2、将所述步骤b1的数据整合进入综合数据库后,对综合数据库中的数据进行校验,将校验出的问题数据记录到所述问题数据库中。
所述步骤c中的数据转换包括字符集的转换、数据格式规范化转换、代码转换以及值转换。
所述字符集的转换是指不同字符集统一为一种字符集的转换,包括字符编码的转换、数据库字符集的转换、中文字符编码集合转换;所述数据格式规范化转换是指对源数据中的不同数据格式转换为统一的数据格式,包括数据类型、格式转换、以及度量单位转换;所述代码转换是指把不符合标准的代码替换为标准的代码;所述值转换是指特殊数据项的数据替换以及数据项的拆分和合并转换。
另一方面,本发明还提供一种实现数据加载的系统,包括:
数据控制单元,与所述系统各模块连接,用以抽取数据并整合控制数据;
问题数据库,所述数据控制单元从业务部门抽取数据并对其中的错误数据作出标注并转移到所述问题数据库中;
综合数据库,所述数据控制单元将不符合预定标准的数据转换为标准数据并连同其他正常的数据加载于所述综合数据库。
所述系统还包括前置交换服务器和数据中心数据库,根据预定的规则将数据从业务部门抽取到前置交换服务器,并进一步将数据从前置服务器抽取到数据中心数据库。
在数据抽取到所述数据中心数据库的过程中,对错误数据作出标注并转移到问题数据库中;数据整合进入综合数据库后,对综合数据库中的数据进行校验,将校验出的问题数据记录到所述问题数据库中。
所述数据控制单元将不符合预定标准的数据转换为标准数据,具体包括字符集的转换、数据格式规范化转换、代码转换以及值转换。
所述字符集的转换是指不同字符集统一为一种字符集的转换,包括字符编码的转换、数据库字符集的转换、中文字符编码集合转换;所述数据格式规范化转换是指对源数据中的不同数据格式转换为统一的数据格式,包括数据类型、格式转换、以及度量单位转换;所述代码转换是指把不符合标准的代码替换为标准的代码;所述值转换是指特殊数据项的数据替换以及数据项的拆分和合并转换。
采用本发明所述的一种实现数据加载的系统及方法,本发明提供了对错误数据的鉴别功能,在对外部数据抽取后还对其中的错误数据作出标注并另行存储;另外,还对不符合标准的数据进行转化,使之符合标准化,最终将整合后的数据加载于相应数据库。经过对错误数据的鉴别和对非标准的数据进行标准化后,较大的提高了加载后的数据的可靠度和准确度。
附图说明
图1是本发明所述方法的流程图;
图2是本发明所述系统的原理示意图。
具体实施方式
下面结合附图和实施例进一步说明本发明的技术方案,本实施例以加载企业诚信数据库来说明。
参见图1,图1是本发明所述方法的流程图100,包括:
101、抽取数据到前置交换服务器;
在企业业务部门的前置机上,通过前置机系统的数据抽取设计器定义好抽取的规则以及简单转换的规则,把数据从业务部门抽取到前置交换服务器上。抽取过程中对数据格式、代码等进行转换。
102、抽取数据到数据中心数据库;
数据中心交换平台通过数据抽取设计器定义好从前置机往数据中心数据库接口层的抽取规则,把数据从前置交换服务器中抽取数据到数据中心数据库中。
数据抽取设计器能够支持当前各种数据库类型,用户可根据业务需求定义挂接的应用系统种类,数据项等。数据抽取设计器通过数据抽取设计工具可以在平台上不断挂接新的应用系统,只修改相应的参数,而不需要修改程序。
103、对错误数据作出标注并转移到问题数据库中;
该步骤称之为数据清洗,数据清洗是在抽取出来的业务数据中找出问题数据,并把这些问题数据标注问题原因后转移到问题数据库中。
数据的清洗在两个步骤中进行:首先在数据整合进入数据中心数据库的过程中,将错误数据过滤并转移到问题库中;其次在数据整合进入综合数据库后,对综合数据库中的数据进行校验,通过共享数据集成平台的数据校验器校验出问题数据并记录到问题数据库中。
104、转化数据为标准数据;
对不符合企业诚信数据库(综合数据库)标准的数据进行转换;具体包括以下内容:
字符集的转换:不同字符集统一为一种字符集的转换,包括字符编码的转换、数据库字符集的转换、中文字符编码集合转换。
数据格式规范化转换:对源数据中的不同数据格式转换为企业诚信数据库统一的数据格式。包括数据类型、格式等转换、以及度量单位转换。
代码转换:把与企业诚信数据库代码标准不符合的代码替换为标准的代码。
值转换:包括特殊数据项的数据替换以及数据项的拆分和合并转换。
105、整合数据并存储于综合数据库。
根据存储设计,把整合完成的数据按照存储的规则装载到综合数据库不同的存储区域中。
另外,本发明还具有交换监控功能,其能对数据库运行状态进行监控,对数据更新状况进行监控,可以显示指定时间段的各业务数据更新情况。并且还能对抽取质量进行监控,包括每天抽取的数据是否正确、有无运行、抽取是否及时、错误信息展现。
参见图2,图2是本发明所述系统的原理示意图200,包括:
数据控制单元50,与所述系统各模块连接,用以抽取数据并整合控制数据;
问题数据库30,所述数据控制单元50从业务部门抽取数据并对其中的错误数据作出标注并转移到所述问题数据库30中;
综合数据库40,所述数据控制单元50将不符合预定标准的数据转换为标准数据并连同其他正常的数据加载于所述综合数据库40。
所述系统还包括前置交换服务器10和数据中心数据库20,根据预定的规则将数据从业务部门抽取到前置交换服务器10,并进一步将数据从前置交换服务器10抽取到数据中心数据库20。
在数据抽取到所述数据中心数据库20的过程中,对错误数据作出标注并转移到问题数据库30中;数据整合进入综合数据库40后,对综合数据库40中的数据进行校验,将校验出的问题数据记录到所述问题数据库30中。
所述数据控制单元50将不符合预定标准的数据转换为标准数据,具体包括字符集的转换、数据格式规范化转换、代码转换以及值转换。
所述字符集的转换是指不同字符集统一为一种字符集的转换,包括字符编码的转换、数据库字符集的转换、中文字符编码集合转换;所述数据格式规范化转换是指对源数据中的不同数据格式转换为统一的数据格式,包括数据类型、格式转换、以及度量单位转换;所述代码转换是指把不符合标准的代码替换为标准的代码;所述值转换是指特殊数据项的数据替换以及数据项的拆分和合并转换。
需要说明的是,本发明所述的系统和所述的方法在原理以及实现过程中基本相同或类似,故在此不再赘述。
本技术领域中的普通技术人员应当认识到,以上的实施例仅是用来说明本发明,而并非用作为对本发明的限定,只要在本发明的实质精神范围内,对以上实施例的变化、变型都将落在本发明的权利要求书范围内。

Claims (10)

1.一种实现数据加载的方法,其特征在于,包括以下步骤:
a、根据预定的规则抽取业务部门的数据;
b、解析所述步骤a抽取的数据,对其中的问题数据作出标注并单独存储;
c、将不符合预定标准的数据转换为标准数据;
d、将所述步骤b解析的正常的数据和所述步骤c转换的数据一并加载于综合数据库中。
2.如权利要求1所述的方法,其特征在于,所述步骤a包括以下步骤:
a1、建立前置交换服务器,根据预定的规则将数据从业务部门抽取到前置交换服务器;
a2、建立数据中心数据库,将数据从前置服务器抽取到数据中心数据库。
3.如权利要求2所述的方法,其特征在于,所述步骤b包括以下步骤:
b1、在数据抽取到所述数据中心数据库的过程中,对错误数据作出标注并转移到问题数据库中;
b2、将所述步骤b1的数据整合进入综合数据库后,对综合数据库中的数据进行校验,将校验出的问题数据记录到所述问题数据库中。
4.如权利要求3所述的方法,其特征在于,所述步骤c中的数据转换包括字符集的转换、数据格式规范化转换、代码转换以及值转换。
5.如权利要求4所述的方法,其特征在于,所述字符集的转换是指不同字符集统一为一种字符集的转换,包括字符编码的转换、数据库字符集的转换、中文字符编码集合转换;所述数据格式规范化转换是指对源数据中的不同数据格式转换为统一的数据格式,包括数据类型、格式转换、以及度量单位转换;所述代码转换是指把不符合标准的代码替换为标准的代码;所述值转换是指特殊数据项的数据替换以及数据项的拆分和合并转换。
6.一种实现数据加载的系统,其特征在于,包括:
数据控制单元,与所述系统各模块连接,用以抽取数据并整合控制数据;
问题数据库,所述数据控制单元从业务部门抽取数据并对其中的错误数据作出标注并转移到所述问题数据库中;
综合数据库,所述数据控制单元将不符合预定标准的数据转换为标准数据并连同其他正常的数据加载于所述综合数据库。
7.如权利要求6所述的系统,其特征在于,所述系统还包括前置交换服务器和数据中心数据库,根据预定的规则将数据从业务部门抽取到前置交换服务器,并进一步将数据从前置服务器抽取到数据中心数据库。
8.如权利要求6所述的系统,其特征在于,在数据抽取到所述数据中心数据库的过程中,对错误数据作出标注并转移到问题数据库中;数据整合进入综合数据库后,对综合数据库中的数据进行校验,将校验出的问题数据记录到所述问题数据库中。
9.如权利要求8所述的系统,其特征在于,所述数据控制单元将不符合预定标准的数据转换为标准数据,具体包括字符集的转换、数据格式规范化转换、代码转换以及值转换。
10.如权利要求9所述的方法,其特征在于,所述字符集的转换是指不同字符集统一为一种字符集的转换,包括字符编码的转换、数据库字符集的转换、中文字符编码集合转换;所述数据格式规范化转换是指对源数据中的不同数据格式转换为统一的数据格式,包括数据类型、格式转换、以及度量单位转换;所述代码转换是指把不符合标准的代码替换为标准的代码;所述值转换是指特殊数据项的数据替换以及数据项的拆分和合并转换。
CN200910046362A 2009-02-19 2009-02-19 一种实现数据加载的系统及方法 Pending CN101814072A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910046362A CN101814072A (zh) 2009-02-19 2009-02-19 一种实现数据加载的系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910046362A CN101814072A (zh) 2009-02-19 2009-02-19 一种实现数据加载的系统及方法

Publications (1)

Publication Number Publication Date
CN101814072A true CN101814072A (zh) 2010-08-25

Family

ID=42621329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910046362A Pending CN101814072A (zh) 2009-02-19 2009-02-19 一种实现数据加载的系统及方法

Country Status (1)

Country Link
CN (1) CN101814072A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722582A (zh) * 2012-06-07 2012-10-10 陈浩 基于逆向清理的数据整合系统及方法
CN104462082A (zh) * 2013-09-12 2015-03-25 深圳中科金证科技有限公司 一种基于数据仓库的医疗数据整合方法及系统
CN104572944A (zh) * 2014-12-29 2015-04-29 芜湖乐锐思信息咨询有限公司 一种大数据加载系统
CN104765806A (zh) * 2015-04-01 2015-07-08 国家电网公司 营销客户基础信息不规范的自动处理技术
CN105550163A (zh) * 2015-12-10 2016-05-04 国云科技股份有限公司 一种适用于云平台资源监控的数据转换器实现方法
CN107729556A (zh) * 2017-11-08 2018-02-23 山东浪潮云服务信息科技有限公司 一种业务数据归档方法和系统
CN113364590A (zh) * 2021-06-07 2021-09-07 重庆高新技术产业研究院有限责任公司 一种面向多类型企业生产过程数据的区块链加密方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722582A (zh) * 2012-06-07 2012-10-10 陈浩 基于逆向清理的数据整合系统及方法
CN102722582B (zh) * 2012-06-07 2015-04-15 陈浩 基于逆向清理的数据整合系统及方法
CN104462082A (zh) * 2013-09-12 2015-03-25 深圳中科金证科技有限公司 一种基于数据仓库的医疗数据整合方法及系统
CN104462082B (zh) * 2013-09-12 2017-11-17 深圳中科金证科技有限公司 一种基于数据仓库的医疗数据整合方法及系统
CN104572944A (zh) * 2014-12-29 2015-04-29 芜湖乐锐思信息咨询有限公司 一种大数据加载系统
CN104765806A (zh) * 2015-04-01 2015-07-08 国家电网公司 营销客户基础信息不规范的自动处理技术
CN104765806B (zh) * 2015-04-01 2018-09-18 国家电网公司 营销客户基础信息不规范的自动处理技术
CN105550163A (zh) * 2015-12-10 2016-05-04 国云科技股份有限公司 一种适用于云平台资源监控的数据转换器实现方法
CN107729556A (zh) * 2017-11-08 2018-02-23 山东浪潮云服务信息科技有限公司 一种业务数据归档方法和系统
CN113364590A (zh) * 2021-06-07 2021-09-07 重庆高新技术产业研究院有限责任公司 一种面向多类型企业生产过程数据的区块链加密方法

Similar Documents

Publication Publication Date Title
CN101814072A (zh) 一种实现数据加载的系统及方法
US20070152047A1 (en) Product managing system and method using rfid technology
CN102750350B (zh) 监控系统及方法
CN105808653B (zh) 一种基于用户标签系统的数据处理方法及装置
CN102567297A (zh) 数据转换装置和数据转换方法
CN109299074B (zh) 一种基于模板化数据库视图的数据校验方法及系统
CN101814075A (zh) 一种信息资源目录系统及其查询方法
CN104462082A (zh) 一种基于数据仓库的医疗数据整合方法及系统
CN102156744A (zh) 一种内存话单剔重方法
CN109800133A (zh) 一种统一监控告警的方法、一站式监控告警平台及系统
CN112416904A (zh) 电力数据规范化处理方法及装置
CN106161193A (zh) 一种邮件处理方法、装置和系统
CN108073705B (zh) 一种分布式海量数据聚合采集方法
CN107291938A (zh) 订单查询系统及方法
CN104750814B (zh) 基于多传感器的多元异构数据流自动入库方法
CN116089431A (zh) 数据仓库的数据处理方法、装置、电子设备和存储介质
CN107015802A (zh) 一种通用基础存储框架及存储方法
CN116821106A (zh) 一种企业数据数字治理系统及方法
CN105512829A (zh) 基于webservice协议的卡片价值多维度成本归集方法
CN115658968A (zh) 业务数据造数方法、装置、电子设备及可读存储介质
JP3982470B2 (ja) 車両管理情報提供システム及び方法並びに車両管理情報提供用プログラム
CN112527785A (zh) 数据补录方法、装置、电子设备及存储介质
CN113760907A (zh) 一种数据库中数据唯一性标识方法
JP2015138478A (ja) 障害保守運用システムと障害保守運用方法
CN112446673A (zh) 一种商标变更判断方法、系统、设备及可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20100825