CN111581202A - 大数据交换系统 - Google Patents
大数据交换系统 Download PDFInfo
- Publication number
- CN111581202A CN111581202A CN202010492504.5A CN202010492504A CN111581202A CN 111581202 A CN111581202 A CN 111581202A CN 202010492504 A CN202010492504 A CN 202010492504A CN 111581202 A CN111581202 A CN 111581202A
- Authority
- CN
- China
- Prior art keywords
- data
- layer
- cleaning
- checking
- format
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004140 cleaning Methods 0.000 claims abstract description 39
- 238000012217 deletion Methods 0.000 claims description 15
- 230000037430 deletion Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 238000000034 method Methods 0.000 claims description 11
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 238000013499 data model Methods 0.000 claims description 5
- 208000018910 keratinopathic ichthyosis Diseases 0.000 claims description 4
- 230000014759 maintenance of location Effects 0.000 claims description 4
- 238000002360 preparation method Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 4
- 230000000295 complement effect Effects 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 2
- 230000007547 defect Effects 0.000 description 2
- 238000000586 desensitisation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000010926 purge Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- GKQPCPXONLDCMU-CCEZHUSRSA-N lacidipine Chemical compound CCOC(=O)C1=C(C)NC(C)=C(C(=O)OCC)C1C1=CC=CC=C1\C=C\C(=O)OC(C)(C)C GKQPCPXONLDCMU-CCEZHUSRSA-N 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000000699 topical effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及大数据交换系统,该系统包括ODS数据原始层、DWD数据清洗明细层、DWS数据汇总层、DM数据集市层以及ST数据应用层,和传统的数据交换平台相比,本发明提供了多种数据清洗规则,对原始数据进行清洗,同时保留原始数据进行备份,从而得到可适用于任一方使用的有效数据,消除了传统模式下数据交换后无法直接使用的问题。
Description
技术领域
本发明涉及数据交换,具体涉及一种大数据交换系统。
背景技术
数据交换平台是提供客户接入端软件部署在每个应用系统的前置机上,实现数据交换平台和各信息系统的有机结合,在客户接入端实现数据的自动提取与转换,同时支持手工录入与审核数据。它是一个为不同数据库、不同数据格式之间,进行数据交换而提供服务的平台。它要解决企业、政府机构在不同信息库间信息数据无法自由转换的问题。
现有平台的主要缺陷在于:由于各机构上传的数据格式不统一,使得交换后的数据实用性较低,第三方无法对该交换数据进行直接使用,只能使用一些与自己数据类型相同的数据,从而极大的限制了数据交换的有效性。
发明内容
本发明的目的在于克服现有技术的不足,提供一种大数据交换系统,对交换的数据进行格式清洗,使其适用于任意一方使用,从而提高了交换数据的有效性。
本发明的目的是通过以下技术方案来实现的:
一种大数据交换系统,该系统包括ODS数据原始层、DWD数据清洗明细层、DWS数据汇总层、DM数据集市层以及ST数据应用层;
所述ODS数据原始层是数据仓库原始准备区,为DWD数据清洗明细层提供基础原始数据;
所述DWD数据清洗明细层为DWS数据汇总层提供来源明细数据,进行清洗转换;
所述DWS数据汇总层为DM数据集市层提供细粒度数据,根据DWD数据清洗明细层数据按各个维度进行粗粒度汇总聚合;
所述DM数据集市层是根据DWS数据汇总层数据按照各种维度或多种维度组合把需要查询的一些事实字段进行汇总统计并作为单独的列进行存储;
所述ST数据应用层面向用户应用和分析需求面向最终结果用户。
进一步的,所述ODS数据原始层从业务系统增量抽取原始数据,原始数据的保留时间由业务需求决定、原始数据可分表进行周期存储、原始数据不做清洗转换与业务系统数据模型保持一致、按主题逻辑划分。
进一步的,所述清洗转换的规则包括:
非空检核:要求字段为非空的情况下,需要对该字段数据进行检核;
主键重复:多个业务系统中同类数据经过清洗后,在同一保存时,为保证主键唯一性,需要进行检核工作;
非法代码清洗、非法值清洗:非法代码问题包括非法代码、代码与数据标准不一致等,非法值包括取值错误、格式错误、多余字符、乱码,需根据具体情况进行校核及修正;
数据格式检核:通过检查表中属性值的格式是否正确来衡量其准确性,如时间格式、币种格式、多与字符、乱码。
记录数检核:指各个系统相关数据之间的数据总数检核。
进一步的,所述清洗转换还包括一个缺失值清洗,其步骤如下:
1)、确定缺失值范围:按照缺失比例和字段重要性,分别制定策略:
重要性高,缺失率低:通过计算进行填充;通过经验或知识估计;
重要性高,缺失率高:尝试从其他渠道取数补全;使用其他字段通过计算获取;
重要性低,缺失率低:不做处理或简单填充;
重要性低,缺失率高:去掉该字段;
2)、去掉不需要的字段,将不需要的字段直接删掉即可;
3)、填充缺失内容,某些缺失值可以进行填充,方法包括:以业务知识或经验推测填充缺失值;或以同一指标的计算结果(均值、中位数、众数等)填充缺失值;或以不同指标的计算结果填充缺失值。
4)、格式内容清洗,包括时间、日期、数值、全半角、显示格式不一致的清洗,以及内容中有不该存在的字符。
进一步的,所述用户应用和分析需求包括前端报表、分析图表、KPI、仪表盘、OLAP、专题分析。
本发明的有益效果是:和传统的数据交换平台相比,本发明提供了多种数据清洗规则,对原始数据进行清洗,同时保留原始数据进行备份,从而得到可适用于任一方使用的有效数据,消除了传统模式下数据交换后无法直接使用的问题。
附图说明
图1为本发明系统分层结构示意图。
具体实施方式
下面结合具体实施例进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
参考图1所示,一种大数据交换系统,该系统包括ODS数据原始层、DWD数据清洗明细层、DWS数据汇总层、DM数据集市层以及ST数据应用层。为方便描述以下分别简称为ODS层、DWD层、DWS层、DM层以及ST层。
ODS数据原始层是数据仓库原始准备区,为DWD数据清洗明细层提供基础原始数据;
DWD数据清洗明细层为DWS数据汇总层提供来源明细数据,进行清洗转换;
DWS数据汇总层为DM数据集市层提供细粒度数据,根据DWD数据清洗明细层数据按各个维度进行粗粒度汇总聚合;
DM数据集市层是根据DWS数据汇总层数据按照各种维度或多种维度组合把需要查询的一些事实字段进行汇总统计并作为单独的列进行存储;
ST数据应用层面向用户应用和分析需求面向最终结果用户。
ODS数据原始层:
功能:ODS层是数据仓库原始准备区,为DWD层提供基础原始数据,可减少对业务系统的影响;
建模方式及原则:从业务系统增量抽取、保留时间由业务需求决定、可分表进行周期存储、数据不做清洗转换与业务系统数据模型保持一致、按主题逻辑划分;
DWD数据清洗明细层:
功能:为DWS层提供来源明细数据,经行清洗转换,包括不限于维度转代理键、身份证清洗(脱敏)、会员注册来源清晰、字段合并、空值处理、脏数据处理、IP清洗转换、账号余额清洗、资金来源清洗等;
脱敏策略:采用AES128加密方式,BASE64转码的方式对身份证号码和手机号码进行加密。将JAVA编译后的程序写成UDF在进行转换时,直接调用UDF函数;
加密UDF:encudf;
解密UDF: decudf;
DWS数据汇总层:
功能:为DM层提供细粒度数据,DWS;DWS是根据DWD层数据按各个维度进行粗粒度汇总聚合,包括不限于按地区,时间,来源,类型等进行汇合 ;
建模方式及原则:聚合、汇总增加派生事实;关联其它主题的事实表,DWS层可能会跨主题域;DWS保持高粒度汇总数据;数据模型可能采用反范式设计,合并信息等;
DM数据集市层:
功能:可以是一些宽表,是根据DWS层数据按照各种维度或多种维度组合把需要查询的一些事实字段进行汇总统计并作为单独的列进行存储;满足一些特定查询、数据挖掘应用;应用集市数据存储。(主要根据各个项目系统想要展示的特殊定制指标进行相应汇总统计);
建模方式及原则:尽量减少数据访问时计算,优化检索;维度建模,星型模型;事实拉宽,度量预先计算;分表存储;
ST数据应用层:
功能:ST层面向用户应用和分析需求,包括前端报表、分析图表、KPI、仪表盘、OLAP、专题等分析,面向最终结果用户;适合作OLAP、报表模型,包括不限于ROLAP,MOLAP;根据DWS层经过聚合汇总统计后的粗粒度事实表;
建模方式及原则:保持数据量小;维度建模,星形模型;各位维度代理键+度量;增加数据业务日期字段,支持数据重跑;不分表存储。
作为一种优选实施例,ODS数据原始层从业务系统增量抽取原始数据,原始数据的保留时间由业务需求决定、原始数据可分表进行周期存储、原始数据不做清洗转换与业务系统数据模型保持一致、按主题逻辑划分。
作为一种优选实施例,清洗转换的规则包括:
非空检核:要求字段为非空的情况下,需要对该字段数据进行检核;
主键重复:多个业务系统中同类数据经过清洗后,在同一保存时,为保证主键唯一性,需要进行检核工作;
非法代码清洗、非法值清洗:非法代码问题包括非法代码、代码与数据标准不一致等,非法值包括取值错误、格式错误、多余字符、乱码,需根据具体情况进行校核及修正;
数据格式检核:通过检查表中属性值的格式是否正确来衡量其准确性,如时间格式、币种格式、多与字符、乱码。
记录数检核:指各个系统相关数据之间的数据总数检核。
作为一种优选实施例,清洗转换还包括一个缺失值清洗,其步骤如下:
1)、确定缺失值范围:按照缺失比例和字段重要性,分别制定策略:
重要性高,缺失率低:通过计算进行填充;通过经验或知识估计;
重要性高,缺失率高:尝试从其他渠道取数补全;使用其他字段通过计算获取;
重要性低,缺失率低:不做处理或简单填充;
重要性低,缺失率高:去掉该字段;
2)、去掉不需要的字段,将不需要的字段直接删掉即可;
3)、填充缺失内容,某些缺失值可以进行填充,方法包括:以业务知识或经验推测填充缺失值;或以同一指标的计算结果(均值、中位数、众数等)填充缺失值;或以不同指标的计算结果填充缺失值。
4)、格式内容清洗,包括时间、日期、数值、全半角、显示格式不一致的清洗,以及内容中有不该存在的字符。某些内容可能值包括一部分字符,比如身份证是数字+字母,中国人姓名是汉字。最典型的就是头、尾、中间的空格,也可能出现姓名中存在数字符号、身份证中出现汉字等问题。这种情况下,需要以半自动校验半人工方式来找出可能存在的问题,并去除不需要的字符。
还包括一个逻辑错误清洗,主要包含去重、去除不合理值、修正矛盾内容、非需求数据清洗几个步骤。
原则:把不要的字段删了。如果数据量没有大到不删除字段就没有办法处理的程度,那么能不删的字段尽量不删。
最后本发明还提供一个关联性验证,如果数据多个来源,那么有必要进行关联性验证。
作为一种优选实施例,用户应用和分析需求包括前端报表、分析图表、KPI、仪表盘、OLAP、专题分析。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (5)
1.一种大数据交换系统,其特征在于,该系统包括ODS数据原始层、DWD数据清洗明细层、DWS数据汇总层、DM数据集市层以及ST数据应用层;
所述ODS数据原始层是数据仓库原始准备区,为DWD数据清洗明细层提供基础原始数据;
所述DWD数据清洗明细层为DWS数据汇总层提供来源明细数据,进行清洗转换;
所述DWS数据汇总层为DM数据集市层提供细粒度数据,根据DWD数据清洗明细层数据按各个维度进行粗粒度汇总聚合;
所述DM数据集市层是根据DWS数据汇总层数据按照各种维度或多种维度组合把需要查询的一些事实字段进行汇总统计并作为单独的列进行存储;
所述ST数据应用层面向用户应用和分析需求面向最终结果用户。
2.根据权利要求1所述的大数据交换系统,其特征在于,所述ODS数据原始层从业务系统增量抽取原始数据,原始数据的保留时间由业务需求决定、原始数据可分表进行周期存储、原始数据不做清洗转换与业务系统数据模型保持一致、按主题逻辑划分。
3.根据权利要求2所述的大数据交换系统,其特征在于,所述清洗转换的规则包括:
非空检核:要求字段为非空的情况下,需要对该字段数据进行检核;
主键重复:多个业务系统中同类数据经过清洗后,在同一保存时,为保证主键唯一性,需要进行检核工作;
非法代码清洗、非法值清洗:非法代码问题包括非法代码、代码与数据标准不一致等,非法值包括取值错误、格式错误、多余字符、乱码,需根据具体情况进行校核及修正;
数据格式检核:通过检查表中属性值的格式是否正确来衡量其准确性,如时间格式、币种格式、多与字符、乱码;
记录数检核:指各个系统相关数据之间的数据总数检核。
4.根据权利要求3所述的大数据交换系统,其特征在于,所述清洗转换还包括一个缺失值清洗,其步骤如下:
1)、确定缺失值范围:按照缺失比例和字段重要性,分别制定策略:
重要性高,缺失率低:通过计算进行填充;通过经验或知识估计;
重要性高,缺失率高:尝试从其他渠道取数补全;使用其他字段通过计算获取;
重要性低,缺失率低:不做处理或简单填充;
重要性低,缺失率高:去掉该字段;
2)、去掉不需要的字段,将不需要的字段直接删掉即可;
3)、填充缺失内容,某些缺失值可以进行填充,方法包括:以业务知识或经验推测填充缺失值;或以同一指标的计算结果(均值、中位数、众数等)填充缺失值;或以不同指标的计算结果填充缺失值;
4)、格式内容清洗,包括时间、日期、数值、全半角、显示格式不一致的清洗,以及内容中有不该存在的字符。
5.根据权利要求4所述的大数据交换系统,其特征在于,所述用户应用和分析需求包括前端报表、分析图表、KPI、仪表盘、OLAP、专题分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010492504.5A CN111581202A (zh) | 2020-06-03 | 2020-06-03 | 大数据交换系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010492504.5A CN111581202A (zh) | 2020-06-03 | 2020-06-03 | 大数据交换系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111581202A true CN111581202A (zh) | 2020-08-25 |
Family
ID=72111341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010492504.5A Pending CN111581202A (zh) | 2020-06-03 | 2020-06-03 | 大数据交换系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111581202A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112202954A (zh) * | 2020-09-21 | 2021-01-08 | 广西越知网络股份有限公司 | 一种电子名片发布方法 |
CN112965975A (zh) * | 2021-02-22 | 2021-06-15 | 上海明略人工智能(集团)有限公司 | 一种数据处理方法及系统 |
CN113077227A (zh) * | 2021-03-16 | 2021-07-06 | 北京明略软件系统有限公司 | 企业信息门户群聊数量处理方法、装置和电子设备 |
CN113362018A (zh) * | 2021-05-25 | 2021-09-07 | 北京明略软件系统有限公司 | 一种会议时长的处理方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150254255A1 (en) * | 2014-03-06 | 2015-09-10 | Tata Consultancy Services Limited | Primary and foreign key relationship identification with metadata analysis |
CN109669934A (zh) * | 2018-12-11 | 2019-04-23 | 江苏瑞中数据股份有限公司 | 一种切合电力客服业务的数据仓库系统及其构建方法 |
CN109739922A (zh) * | 2019-01-10 | 2019-05-10 | 江苏徐工信息技术股份有限公司 | 一种工业数据智能分析系统 |
CN110232098A (zh) * | 2019-04-22 | 2019-09-13 | 汇通达网络股份有限公司 | 一种基于数据治理及血缘关系设计的数据仓库系统 |
CN110515931A (zh) * | 2019-07-02 | 2019-11-29 | 电子科技大学 | 一种基于随机森林算法的电容型设备缺陷预测方法 |
-
2020
- 2020-06-03 CN CN202010492504.5A patent/CN111581202A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150254255A1 (en) * | 2014-03-06 | 2015-09-10 | Tata Consultancy Services Limited | Primary and foreign key relationship identification with metadata analysis |
CN109669934A (zh) * | 2018-12-11 | 2019-04-23 | 江苏瑞中数据股份有限公司 | 一种切合电力客服业务的数据仓库系统及其构建方法 |
CN109739922A (zh) * | 2019-01-10 | 2019-05-10 | 江苏徐工信息技术股份有限公司 | 一种工业数据智能分析系统 |
CN110232098A (zh) * | 2019-04-22 | 2019-09-13 | 汇通达网络股份有限公司 | 一种基于数据治理及血缘关系设计的数据仓库系统 |
CN110515931A (zh) * | 2019-07-02 | 2019-11-29 | 电子科技大学 | 一种基于随机森林算法的电容型设备缺陷预测方法 |
Non-Patent Citations (2)
Title |
---|
"数据清洗规则" * |
国家知识产权局审查业务管理部组织编写: "《专利分析数据处理实物手册》", 上海科学技术出版社, pages: 107 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112202954A (zh) * | 2020-09-21 | 2021-01-08 | 广西越知网络股份有限公司 | 一种电子名片发布方法 |
CN112965975A (zh) * | 2021-02-22 | 2021-06-15 | 上海明略人工智能(集团)有限公司 | 一种数据处理方法及系统 |
CN113077227A (zh) * | 2021-03-16 | 2021-07-06 | 北京明略软件系统有限公司 | 企业信息门户群聊数量处理方法、装置和电子设备 |
CN113362018A (zh) * | 2021-05-25 | 2021-09-07 | 北京明略软件系统有限公司 | 一种会议时长的处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111581202A (zh) | 大数据交换系统 | |
Gao et al. | Big data validation and quality assurance--issuses, challenges, and needs | |
CA2701046C (en) | Analysis of a system for matching data records | |
EP2909747B1 (en) | Characterizing data sources in a data storage system | |
US8150888B2 (en) | Automatic elimination of functional dependencies between columns | |
CN113010506B (zh) | 一种多源异构水环境大数据管理系统 | |
US8484157B2 (en) | Compensating for unbalanced hierarchies when generating OLAP queries from report specifications | |
Woodall et al. | A classification of data quality assessment and improvement methods | |
CN110647512B (zh) | 一种数据存储和分析方法、装置、设备和可读介质 | |
WO2018097846A1 (en) | Edge store designs for graph databases | |
US10445370B2 (en) | Compound indexes for graph databases | |
US20210026894A1 (en) | Branch threading in graph databases | |
CN111159161A (zh) | 基于etl规则的数据质量监控及预警系统和方法 | |
Wagner et al. | Db3f & df-toolkit: The database forensic file format and the database forensic toolkit | |
Manjunath et al. | Analysis of data quality aspects in datawarehouse systems | |
US9507764B2 (en) | Computerised data entry form processing | |
Kvet et al. | Concept of temporal data retrieval: Undefined value management | |
Shahbaz | Data mapping for data warehouse design | |
US20180349443A1 (en) | Edge store compression in graph databases | |
CN108268462B (zh) | 一种关系完整性的数据质量检测系统 | |
US20180144060A1 (en) | Processing deleted edges in graph databases | |
US8166050B2 (en) | Temporally-aware evaluative score | |
US7139690B2 (en) | Object-level conflict detection in an object-relational database system | |
Badovinac | Defining data quality in bibliographic and authority records: A case study of the COBISS. SI system | |
CN108073624B (zh) | 业务数据处理系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200825 |
|
RJ01 | Rejection of invention patent application after publication |