CN110019467A - 针对社保信息的大数据整合系统 - Google Patents
针对社保信息的大数据整合系统 Download PDFInfo
- Publication number
- CN110019467A CN110019467A CN201711240706.5A CN201711240706A CN110019467A CN 110019467 A CN110019467 A CN 110019467A CN 201711240706 A CN201711240706 A CN 201711240706A CN 110019467 A CN110019467 A CN 110019467A
- Authority
- CN
- China
- Prior art keywords
- layer
- data
- database
- synchrodata
- business transaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010354 integration Effects 0.000 title claims abstract description 36
- 230000001360 synchronised effect Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000007423 decrease Effects 0.000 claims description 2
- 238000004140 cleaning Methods 0.000 abstract description 5
- 230000003068 static effect Effects 0.000 description 9
- 238000007689 inspection Methods 0.000 description 7
- 238000000034 method Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013481 data capture Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 208000037975 work-related injury Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/252—Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种针对社保信息的大数据整合系统,该系统包括:业务交易数据库层、同步数据层、数据清洗与整合层、公共数据库层以及报表展现层;其中,所述业务交易数据库层由五大保险的业务交易数据库组成;所述同步数据层从所述业务交易数据库层建立五险的同步数据;所述数据清洗与整合层对所述同步数据层的数据进行处理;所述公共数据库层由五险通用公共数据库与专用数据库组成;所述报表展现层用于实现基本信息查询及趋势预测等应用,为领导决策提供有力的支持。本发明方案利用基于Oracle数据库的数据整合工具,针对社保领域的数据质量问题,采用分层模型,解决了各信息孤岛多源异构数据的清洗与整合,实现了五险公共数据仓库的建立。
Description
技术领域
本发明属于大数据整合技术领域,涉及一种针对社保信息的大数据整合系统。
背景技术
我国社会保险管理信息系统作为金保工程的两大核心系统之一,为养老保险、失业保险、医疗保险、工伤保险和生育保险等五大险种提供了信息化管理。
由于劳动保障信息化建设进程前后不一,导致各信息系统的分块建设,从而形成了信息孤岛的现状,即:五大保险的数据不能共享,造成了无法满足大城市管理和服务参保大众的需要。
为了提升劳动保障服务能力,加强五险系统之间的数据共享,整合发行量超过200万张的劳动保障IC卡,对五险数据进行清洗整合,建立公共数据仓库势在必行,而建立一个合理有效的数据清洗整合系统是数据清洗整合的关键。
发明内容
本发明目的在于提供一种针对社保信息的大数据整合系统,为了克服由于信息化建设进程的前后不一致导致五大业务子系统之间数据的不一致,以至于五大保险的数据不能共享的问题,利用基于Oracle数据库的数据整合工具,针对社保领域的数据质量问题,采用分层模型,有效地解决了各信息孤岛多源异构数据的清洗与整合,实现了五险公共数据仓库的建立。
为解决上述技术问题,本发明采用如下的技术方案:一种针对社保信息的大数据整合系统,该系统包括:业务交易数据库层、同步数据层、数据清洗与整合层、公共数据库层以及报表展现层;其中,所述业务交易数据库层由五大保险的业务交易数据库组成;所述同步数据层从所述业务交易数据库层建立五险的同步数据;所述数据清洗与整合层对所述同步数据层的数据进行处理;所述公共数据库层由五险通用公共数据库与专用数据库组成;所述报表展现层用于实现基本信息查询及趋势预测等应用,为领导决策提供有力的支持。
进一步地,所述业务交易数据库层包含了目前已创建的五大保险的业务交易数据库,主要进行业务的办理。
进一步地,所述同步数据层用于建立五险的同步数据,将需要进行抽取和整合的数据指标同步到本层中,以减少由于抽取和整合计算导致的业务交易数据库性能下降。
进一步地,所述数据清洗与整合层主要完成对所述同步数据层中的数据进行抽取、转换,并将数据加载到所述公共数据库层。
进一步地,所述公共数据库层包括五险通用的公共数据库以及五大保险专用的数据库,达到通用属性的统一和各险种特色数据的存储。
本发明与现有技术相比具有以下的有益效果:
本发明方案针对由于信息化建设进程的前后不一致导致五大业务子系统之间数据的不一致,以至于五大保险的数据不能共享的问题,利用基于Oracle数据库的数据整合工具,针对社保领域的数据质量问题,采用分层模型,解决了各信息孤岛多源异构数据的清洗与整合,实现了五险公共数据仓库的建立,加强了五险子系统之间的数据共享。
附图说明
图1是针对社保信息的大数据整合系统的整体框架图。
图2是针对社保信息的大数据整合系统中ZC01表的数据整合模型图。
具体实施方式
下面结合附图及具体实施例对本发明进行更加详细与完整的说明。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。
参照图1,本发明的一种针对社保信息的大数据整合系统,该系统包括:业务交易数据库层、同步数据层、数据清洗与整合层、公共数据库层以及报表展现层。
其中,所述业务交易数据库层包含了目前已创建的五大保险的业务交易数据库,主要功能是进行业务的办理;所述同步数据层用于建立五险的同步数据,将需要进行抽取和整合的数据指标同步到本层中,以减少由于抽取和整合计算导致的业务交易数据库性能下降;同时本层的数据也可提供对外服务。本层的同步数据由Oracle的数据同步工具ODI完成,并通过此工具来确保数据同步的高效性和准确性。
所述数据清洗与整合层主要完成对所述同步数据层中的数据进行抽取、转换,并将数据加载到所述公共数据库层;所述公共数据库层包括五险通用的公共数据库以及五大保险专用的数据库,达到通用属性的统一和各险种特色数据的存储;所述报表展现层用于实现基本信息查询及趋势预测等应用,为领导决策提供有力的支持。
本发明以PC服务器作为硬件平台,采用Oracle 10g作为公共数据库的数据管理平台,基于Oracle的ETL工具ODI(Oracle Data Integrator)作为社保数据清洗和整合的平台。
Oracle Data Integrator属于Oracle融合中间件产品系列,它能够实现异构程度日益增加的环境中的数据集成。它是一个基于Java的应用程序,可以使用数据库来执行基于集合的数据集成任务,也可以将该功能扩展到多种数据库平台以及Oracle数据库。
1、同步数据层的实现
同步数据层的功能是把需要进行抽取和整合的五险数据指标同步到同步库中,通过ODI的数据同步机制CDC(Changed Data Capture)来捕获变化的数据,并协助应用程序处理变化的数据。CDC包括以下技术:
触发器(trigger),在ODI中创建触发器,通过触发器跟踪数据的变化;日志(logs),ODI可以从数据库日志中获得数据的变化;时间戳(timestamp),在数据表中加入时间戳,ODI在加载数据时通过比对记录和时间戳过滤有问题的记录;序列号(sequencenumber),如果数据集中的记录是按序列号有序排列的,那么ODI可以过滤加载过程中的有质量问题的记录。
2、数据清洗整合层的实现
数据清洗整合层的功能是将同步数据库中的数据进行抽取、转换,加载到公共数据库。数据整合是由Oracle的数据集成工具ODI实现的,将数据的清洗与整合相结合,使用检查知识模块(CKM)中的流控制技术(flow control)进行动态数据检查(dynamic datacheck)确保数据的一致性,把动态检查过程中发现的问题数据存放到error表中,待处理后通过ODI接口(interface)回收(recycle)到公共库中。
1)数据清洗
数据清洗包括三个阶段,第一阶段是在数据应用层(数据源层)进行数据清洗,第二阶段是在数据转换层(ETL层)进行数据清洗,第三阶段是在目标层(公共数据仓库层)进行数据清洗。在数据源层,采用检查知识模块(CKM)对数据进行静态控制(staticcontrol),检查的内容包括:键(keys),参照完整性(references),条件(conditions);在ETL层,采用动态流控制(flow control)在接口中对数据进行控制,动态流控制的作用是检查脏数据,并将其存放到errors表中,待业务人员更正后将其同步到目标数据表;目标数据层采用静态控制(static control),通过接口和包对数据质量进行控制,并通过ODI的检查知识模块(CKM)对五险系统进行数据一致性检查,对存在的脏数据,如拼写错误,缩写错误,空值,缺省值,内嵌值,重复记录等采用静态数据检查(static data check)方式,通过设置业务规则和约束控制数据的一致性。
(1)设置去除重复记录的约束(deduplication rules)
设置主键(primary keys):通过设置主键来检查是否存在重复记录,并检查出重复记录的数量,若有重复记录则删除,目的是阻止重复记录。
设置变更键(alternate keys);
设置索引(unique indexes)。
(2)设置参照规则(reference rules)
单一约束Simple:columnA=columnB;
复杂约束columnA=function(columnB,columnC)。
(3)设置有效性规则
通过设置条件(conditions)来同步数据,若该列的数据不满足所设置的条件则抽取被拒绝,而错误的记录将被放置到error表中,这些错误记录由设计人员和业务人员检查改正后被抽取到同步数据层中。只有满足条件的数据才能进入同步层,对于满足条件的记录则直接通过ODI同步到同步数据层中。
2)数据整合
通过ODI将各业务系统中的数据整合到公共数据仓库中,即实现数据的ETL(抽取,转换,加载)过程;参照图2,以公共数据仓库的个人五险映射表(ZC01)为例介绍数据整合过程;ZC01表的数据整合过程如下:
第一步:通过对医保数据库的个人基本信息表(AC01),个人参保信息表(AC02),医疗保险参保人员基本信息表(KC01)三张表中的个人编码字段(AAC001)相连接后就可以提取出参加医疗保险的个人编码。其中,AC01中的公民身份证字段(AAC002)不允许为空值,AC02中的险种类别字段(AAE140)指定了参加的保险的类别,医保的编号为3,故该字段值为3。同样的道理,可以利用AC01,AC02,KC01三张表提取出参加其他保险的个人编码。
第二步:将提取出来的各个险种编码插入到ZC01中的相应的字段,对ZC01中的个人内码字段(ZAC001)则可以采用序列解决。
第三步:在ODI(Oracle designer integrator)工具中,创建一个接口(ZC01),通过执行该接口进行数据整合,将各数据源的个人基本信息表的数据整合到公共数据库中的表ZC01中。
3、公共数据库层的实现
当业务数据整合到公共数据库后,仍然存在一部分的脏数据,这是正常的,因此公共数据库中的数据的清洗也十分重要,通过ODI的静态控制机制(static control)进行静态数据检查(static data check)发现问题数据并放置到error表中,待处理后再返回到公共数据库中。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.针对社保信息的大数据整合系统,其特征在于,所述系统包括:业务交易数据库层、同步数据层、数据清洗与整合层、公共数据库层以及报表展现层;其中,所述业务交易数据库层由五大保险的业务交易数据库组成;所述同步数据层从所述业务交易数据库层建立五险的同步数据;所述数据清洗与整合层对所述同步数据层的数据进行处理;所述公共数据库层由五险通用公共数据库与专用数据库组成;所述报表展现层用于实现基本信息查询及趋势预测等应用,为领导决策提供有力的支持。
2.根据权利要求1所述的针对社保信息的大数据整合系统,其特征在于,所述业务交易数据库层包含了目前已创建的五大保险的业务交易数据库,主要进行业务的办理。
3.根据权利要求1所述的针对社保信息的大数据整合系统,其特征在于,所述同步数据层用于建立五险的同步数据,将需要进行抽取和整合的数据指标同步到本层中,以减少由于抽取和整合计算导致的业务交易数据库性能下降。
4.根据权利要求1所述的针对社保信息的大数据整合系统,其特征在于,所述数据清洗与整合层主要完成对所述同步数据层中的数据进行抽取、转换,并将数据加载到所述公共数据库层。
5.根据权利要求1所述的针对社保信息的大数据整合系统,其特征在于,所述公共数据库层包括五险通用的公共数据库以及五大保险专用的数据库,达到通用属性的统一和各险种特色数据的存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711240706.5A CN110019467A (zh) | 2017-12-01 | 2017-12-01 | 针对社保信息的大数据整合系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711240706.5A CN110019467A (zh) | 2017-12-01 | 2017-12-01 | 针对社保信息的大数据整合系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110019467A true CN110019467A (zh) | 2019-07-16 |
Family
ID=67186540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711240706.5A Pending CN110019467A (zh) | 2017-12-01 | 2017-12-01 | 针对社保信息的大数据整合系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110019467A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460052A (zh) * | 2020-04-09 | 2020-07-28 | 内蒙古工业大学 | 一种基于监察数据关联分析的低保资金监督方法与系统 |
CN111627472A (zh) * | 2020-06-03 | 2020-09-04 | 南京企立科技有限公司 | 一种新一代信息化社保分析整合平台及其应用方法 |
-
2017
- 2017-12-01 CN CN201711240706.5A patent/CN110019467A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460052A (zh) * | 2020-04-09 | 2020-07-28 | 内蒙古工业大学 | 一种基于监察数据关联分析的低保资金监督方法与系统 |
CN111460052B (zh) * | 2020-04-09 | 2021-10-01 | 内蒙古工业大学 | 一种基于监察数据关联分析的低保资金监督方法与系统 |
CN111627472A (zh) * | 2020-06-03 | 2020-09-04 | 南京企立科技有限公司 | 一种新一代信息化社保分析整合平台及其应用方法 |
CN111627472B (zh) * | 2020-06-03 | 2021-05-07 | 南京企立科技有限公司 | 一种新一代信息化社保分析整合平台及其应用方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107391653B (zh) | 一种分布式NewSQL数据库系统及图片数据储存方法 | |
EP2608074B1 (en) | Systems and methods for merging source records in accordance with survivorship rules | |
Aboutorabiª et al. | Performance evaluation of SQL and MongoDB databases for big e-commerce data | |
US8103704B2 (en) | Method for database consolidation and database separation | |
US7617198B2 (en) | Generation of XML search profiles | |
US20110145210A1 (en) | System and Method for Managing One or More Databases | |
CN106599043A (zh) | 用于多级数据库的中间件和多级数据库系统 | |
CN111259004B (zh) | 一种存储引擎中数据索引的方法以及相关装置 | |
Junghanns et al. | Cypher-based graph pattern matching in Gradoop | |
CN102279873A (zh) | 对数据、模式,以及应用程序的统一并发变更 | |
US20150039600A1 (en) | Extensible person container | |
KR101400214B1 (ko) | Hybrid C 인터페이스를 지원하는 장치 | |
US7617206B1 (en) | Method for analyzing status of specialized tank files which store and handle large objects | |
CN105426373A (zh) | 一种数据库同步方法与设备 | |
He et al. | Stylus: a strongly-typed store for serving massive RDF data | |
CN113934750A (zh) | 基于编译方式的数据血缘关系分析方法 | |
CN110019467A (zh) | 针对社保信息的大数据整合系统 | |
CN115145943A (zh) | 多数据源元数据快速比对方法、系统、设备和存储介质 | |
Tsai et al. | Data Partitioning and Redundancy Management for Robust Multi-Tenancy SaaS. | |
Kvet et al. | Master index access as a data tuple and block locator | |
US20200409939A1 (en) | Systems and methods for scalable database technology | |
CN116578614A (zh) | 一种管道设备的数据管理方法、系统、介质及设备 | |
CN108959591A (zh) | 数据库与区块链集成的方法、系统、设备及存储介质 | |
CN110716976A (zh) | 基于两种交互场景的分布式数据访问及存储系统 | |
CN113642032B (zh) | 基于集合运算的资源授权方法及资源授权系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190716 |