CN104933098A - 一种基于消除重复记录的数据清洗平台设计方法 - Google Patents
一种基于消除重复记录的数据清洗平台设计方法 Download PDFInfo
- Publication number
- CN104933098A CN104933098A CN201510281346.8A CN201510281346A CN104933098A CN 104933098 A CN104933098 A CN 104933098A CN 201510281346 A CN201510281346 A CN 201510281346A CN 104933098 A CN104933098 A CN 104933098A
- Authority
- CN
- China
- Prior art keywords
- data
- metadata
- class
- record
- component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000013461 design Methods 0.000 title claims abstract description 10
- 238000004140 cleaning Methods 0.000 title abstract description 7
- 230000008030 elimination Effects 0.000 title abstract description 6
- 238000003379 elimination reaction Methods 0.000 title abstract description 6
- 238000012544 monitoring process Methods 0.000 claims abstract description 4
- 238000013459 approach Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000011161 development Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000009931 harmful effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于消除重复记录的数据清洗平台设计方法,其具体实现过程为:创建消除重复记录组件元数据类、元数据界面类、元数据控制类;元数据类内聚元数据界面类、元数据控制类;配置元数据类的基本信息;将元数据类、元数据界面类和元数据控制类放入一个文件夹中;修改设计器的配置文件,增加相关组件模型的信息;从设计器组件中拖取去除重复记录组件模型,将需要处理的数据作为输入,组件在除去重复记录后,进行数据更新;监控端接收数据后,将其分配至一个执行引擎中运行;执行引擎反馈执行结果。该一种基于消除重复记录的数据清洗平台设计方法与现有技术相比,有效降低整个数据清洗的成本,提高数据清洗的工作效率。
Description
技术领域
本发明涉及数据清洗技术领域,具体地说是实用性强、基于消除重复记录的数据清洗平台设计方法。
背景技术
随着信息技术的快速发展,各个领域都在每时每刻以惊人的速度产生出各式各样的规模巨大的数据信息,人类也在工作生活的方方面面接触到越来越多的数据信息。然而,人类对数据信息理解的匮乏与数据爆炸的趋势显得并不对称,人类在努力将数据信息转化为有利信息知识的同时,也面临着大数据之中夹杂的“脏数据”的挑战,对原始数据源的清洗,将其转化为可被理解利用的目标数据源,成为了人类理解数据过程中尤为重要的一步。
“脏数据”会对建立的数据仓库系统造成不良影响,扭曲从数据中获得的信息,影响数据仓库的运行效果,进一步影响数据挖掘效能,最终影响决策管理。因此,为了使数据仓库系统中的记录更准确、一致,消除重复数据就变得很重要,所以数据预处理工作是相当必要的。数据清洗作为数据预处理的一个重要环节,在数据仓库构建过程中占据重要位置。
数据清洗:如填充缺失数据、消除噪声数据等,主要是通过分析“脏数据”的产生原因和存在形式,利用现有的数据挖掘手段和方法去清洗“脏数据”,将“脏数据”转化为满足数据质量要求或应用要求的数据,从而提高数据集的质量,满足现阶段数据分析的需求。
基于此,现提供一种可解决上述问题、基于消除重复记录的数据清洗平台设计方法。该方法通过设计独立的运行消除重复数据组件,从而使得清洗平台具有独立的操作语义和元数据描述,包括了数据清洗流程中的所有操作方式,如数据检验、数据转换、数据处理、流程控制等等。从而降低整个数据清洗的成本,提高数据清洗的工作效率,而且能消除简单的重复劳动过程,提高生产率。
发明内容
本发明的技术任务是针对以上不足之处,提供一种实用性强、基于消除重复记录的数据清洗平台设计方法。
一种基于消除重复记录的数据清洗平台设计方法,其具体实现过程为:
创建消除重复记录组件元数据类,
创建消除重复记录组件元数据界面类;
创建消除重复记录组件元数据控制类;
元数据类内聚元数据界面类、元数据控制类,负责对两个类进行初始化;
配置元数据类的基本信息,该基本信息包括名称、XML 标签和类型编号;
将元数据类、元数据界面类和元数据控制类放入一个文件夹中,同时将该文件夹放置在设计器的文件夹中;
修改设计器的配置文件,增加相关组件模型的信息,该信息包括类名、包名、图标文件路径;
从设计器组件中拖取去除重复记录组件模型,将需要处理的数据作为输入,组件在除去重复记录后,进行数据更新;
监控端接收数据后,将其分配至一个执行引擎中运行;
执行引擎反馈执行结果。
所述元数据类实现核心方法,方法的实现思路为:
首先获取输入数据行的字段名和值;
然后生成Object列表,并遍历输入数据的数据项;
将第一个数据项放入列表,再将剩下的数据项与列表中的数据项的值进行比较:如果数据项中字段的值与列表中数据项的值一样,则判断为重复数据,将不存储至列表中,否则就作为不重复的数据存入列表中;
遍历完后,最后将列表中的数据作为输出数据。
所述元数据界面类继承自BaseStepDialog类,实现了showDialog方法,负责呈现模型组件的界面,是模型组件与用户进行数据交互的接口。
所述元数据控制类,继承自BaseStepMgr 类,实现了BaseStepMgr 中的方法,用以控制界面的调用和数据的输出。
本发明的一种基于消除重复记录的数据清洗平台设计方法,具有以下优点:
该发明的一种基于消除重复记录的数据清洗平台设计方法通过设计重复数据消除组件,使得整个数据清洗平台具有以下特点:开发效率高、运行可靠性高,开发成本低,灵活性高,可复用性高,良好的扩展性等。可以最大化的满足目前的数据清洗需求,同时减少了软件开发的难度,减少了开发人员的重复劳动;实用性强,适用范围广泛,易于推广。
附图说明
附图1为本发明的实现流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
本发明的提供一种基于消除重复记录的数据清洗平台设计方法,本方法利用 MDA 技术,通过定义统一、准确、完整的模型,由相应的平台便可自动生成所需要的系统模块和代码,就可以在数据处理过程中将问题域、业务逻辑过程、具体实现相分离,完成数据处理过程,从而极大的降低工作人员的编码时间,使其将更多的精力用在功能需求的设计、数据模型的建立和数据清洗的逻辑流程设计上,这不仅能降低整个数据清洗的成本,提高数据清洗的工作效率,而且能消除简单的重复劳动过程,提高生产率。
基于消除重复记录的组件是组成设计器的基本业务单元,组件的功能直接反应了数据清洗的功能,而组件的创建也是很容易进行的。如附图1所示,该方法的具体实现过程为:
创建消除重复记录组件元数据类UniqueRowsMeta,该类继承自BaseStepMeta类。该类实现核心方法processRow,方法的实现思路为:首先获取输入数据行的字段名和值;然后生成Object列表,并遍历输入数据的数据项,将第一个数据项放入列表,再将剩下的数据项与列表中的数据项的值进行比较,如果数据项中字段的值与列表中数据项的值一样,则判断为重复数据,将不存储至列表中,否则就作为不重复的数据存入列表中;遍历完后,最后将列表中的数据作为输出数据。
创建消除重复记录组件元数据界面类UniqueRowsDialog,该类继承自BaseStepDialog类。该类实现了核心的showDialog方法,showDialog负责呈现模型组件的界面,是模型组件与用户进行数据交互的接口。
创建消除重复记录组件元数据控制类UniqueRowsMgr,该类继承自BaseStepMgr类。该类主要实现了BaseStepMgr中的方法,用以控制界面的调用和数据的输出。
UniqueRowsMeta内聚了UniqueRowsDialog类对象UniqueRowsMgr类对象,实现了init方法,负责对两个类进行初始化。
配置UniqueRowsMeta的基本信息,如名称、XML标签和类型编号等。
将UniqueRowsMeta类、UniqueRowsDialog类和UniqueRowsMgr 类放入一个文件夹中,同时将该文件夹放置在设计器的plugin文件夹中。
修改设计器的配置文件,增加相关组件模型的信息,如类名、包名、图标文件路径。
从设计器组件中拖取去除重复记录组件模型,将需要处理的数据作为输入,组件在除去重复记录后,进行数据更新。
监控端接收数据后,将其分配至一个执行引擎中运行。
执行引擎反馈执行结果。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的一种基于消除重复记录的数据清洗平台设计方法的权利要求书的且任何所属技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。
Claims (4)
1.一种基于消除重复记录的数据清洗平台设计方法,其特征在于其具体实现过程为:
创建消除重复记录组件元数据类,
创建消除重复记录组件元数据界面类;
创建消除重复记录组件元数据控制类;
元数据类内聚元数据界面类、元数据控制类,负责对两个类进行初始化;
配置元数据类的基本信息,该基本信息包括名称、XML 标签和类型编号;
将元数据类、元数据界面类和元数据控制类放入一个文件夹中,同时将该文件夹放置在设计器的文件夹中;
修改设计器的配置文件,增加相关组件模型的信息,该信息包括类名、包名、图标文件路径;
从设计器组件中拖取去除重复记录组件模型,将需要处理的数据作为输入,组件在除去重复记录后,进行数据更新;
监控端接收数据后,将其分配至一个执行引擎中运行;
执行引擎反馈执行结果。
2.根据权利要求1所述的一种基于消除重复记录的数据清洗平台设计方法,其特征在于:所述元数据类实现核心方法,方法的实现思路为:
首先获取输入数据行的字段名和值;
然后生成Object列表,并遍历输入数据的数据项;
将第一个数据项放入列表,再将剩下的数据项与列表中的数据项的值进行比较:如果数据项中字段的值与列表中数据项的值一样,则判断为重复数据,将不存储至列表中,否则就作为不重复的数据存入列表中;
遍历完后,最后将列表中的数据作为输出数据。
3.根据权利要求2所述的一种基于消除重复记录的数据清洗平台设计方法,其特征在于:所述元数据界面类继承自BaseStepDialog类,实现了showDialog方法,负责呈现模型组件的界面,是模型组件与用户进行数据交互的接口。
4.根据权利要求2所述的一种基于消除重复记录的数据清洗平台设计方法,其特征在于:所述元数据控制类,继承自BaseStepMgr 类,实现了BaseStepMgr 中的方法,用以控制界面的调用和数据的输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510281346.8A CN104933098A (zh) | 2015-05-28 | 2015-05-28 | 一种基于消除重复记录的数据清洗平台设计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510281346.8A CN104933098A (zh) | 2015-05-28 | 2015-05-28 | 一种基于消除重复记录的数据清洗平台设计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104933098A true CN104933098A (zh) | 2015-09-23 |
Family
ID=54120266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510281346.8A Pending CN104933098A (zh) | 2015-05-28 | 2015-05-28 | 一种基于消除重复记录的数据清洗平台设计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104933098A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202580A (zh) * | 2016-08-29 | 2016-12-07 | 江苏数加数据科技有限责任公司 | 基于etl数据仓库技术实现的双公示生产数据采集系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090282392A1 (en) * | 2008-05-12 | 2009-11-12 | Expressor Software | Method and system for debugging data integration applications with reusable synthetic data values |
CN102135995A (zh) * | 2011-03-17 | 2011-07-27 | 新太科技股份有限公司 | 一种etl数据清洗设计方法 |
WO2012051389A1 (en) * | 2010-10-15 | 2012-04-19 | Expressor Software | Method and system for developing data integration applications with reusable semantic types to represent and process application data |
CN102508706A (zh) * | 2011-11-18 | 2012-06-20 | 北京航空航天大学 | 一种多源数据集成平台及其构建方法 |
CN103077192A (zh) * | 2012-12-24 | 2013-05-01 | 中标软件有限公司 | 一种数据处理方法及其系统 |
-
2015
- 2015-05-28 CN CN201510281346.8A patent/CN104933098A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090282392A1 (en) * | 2008-05-12 | 2009-11-12 | Expressor Software | Method and system for debugging data integration applications with reusable synthetic data values |
WO2012051389A1 (en) * | 2010-10-15 | 2012-04-19 | Expressor Software | Method and system for developing data integration applications with reusable semantic types to represent and process application data |
CN102135995A (zh) * | 2011-03-17 | 2011-07-27 | 新太科技股份有限公司 | 一种etl数据清洗设计方法 |
CN102508706A (zh) * | 2011-11-18 | 2012-06-20 | 北京航空航天大学 | 一种多源数据集成平台及其构建方法 |
CN103077192A (zh) * | 2012-12-24 | 2013-05-01 | 中标软件有限公司 | 一种数据处理方法及其系统 |
Non-Patent Citations (1)
Title |
---|
石砾: "基于模型驱动的数据清洗平台的设计和实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202580A (zh) * | 2016-08-29 | 2016-12-07 | 江苏数加数据科技有限责任公司 | 基于etl数据仓库技术实现的双公示生产数据采集系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104679488B (zh) | 一种流程定制开发平台及流程定制开发方法 | |
CN105389402B (zh) | 一种面向大数据的etl方法和装置 | |
CN106649100A (zh) | 一种自动化测试方法及系统 | |
CA2548334A1 (en) | An apparatus for migration and conversion of software code from any source platform to any target platform | |
CN105700888A (zh) | 一种基于jbpm工作流引擎的可视化快速开发平台 | |
CN104778124A (zh) | 一种软件应用自动化测试方法 | |
CN104461743A (zh) | 资源和配置的自动生成装置和方法 | |
CN103914307A (zh) | 一种基于可复用库的交互界面快速实现方法 | |
CN103903086A (zh) | 一种基于业务模型驱动的管理信息系统开发方法及系统 | |
CN104750606A (zh) | 一种基于反射的自动化测试方法 | |
CN111061743B (zh) | 数据加工方法、装置和电子设备 | |
CN104090995B (zh) | 一种ABAQUS轮胎模型中rebar单元网格的自动生成方法 | |
CN104035766A (zh) | 基于覆盖率测试的android系统裁剪方法 | |
CN110334001A (zh) | 一种批量自动生成回声测试的方法和装置 | |
CN104933098A (zh) | 一种基于消除重复记录的数据清洗平台设计方法 | |
CN106776275B (zh) | 一种基于分组复用的测试流程自动生成方法 | |
CN102541592A (zh) | 一种通信设备及其软件升级的方法 | |
CN104899042A (zh) | 一种嵌入式机器视觉检测程序开发方法及系统 | |
CN108132802B (zh) | 一种配置模型在系统开发中的应用方法 | |
CN104750482B (zh) | 一种构建基于MapReduce的动态脚本执行引擎的方法 | |
CN103150251A (zh) | 一种智能获取自动化测试对象的方法 | |
CN105045698A (zh) | 使用python的matplotlib分析芯片验证进度的方法 | |
CN105608160A (zh) | 一种分布式大数据分析方法 | |
CN112199075B (zh) | 一种基于微服务智能信息处理方法及框架系统 | |
CN115237469A (zh) | 一种基于云服务源码的多模式架构逆向解析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150923 |