CN107169070A - 一种基于大数据的社保指标仓库的构建系统及其方法 - Google Patents

一种基于大数据的社保指标仓库的构建系统及其方法 Download PDF

Info

Publication number
CN107169070A
CN107169070A CN201710316297.6A CN201710316297A CN107169070A CN 107169070 A CN107169070 A CN 107169070A CN 201710316297 A CN201710316297 A CN 201710316297A CN 107169070 A CN107169070 A CN 107169070A
Authority
CN
China
Prior art keywords
data
module
social security
index
warehouse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710316297.6A
Other languages
English (en)
Inventor
郭斌
吕宁
王敏虾
郑开泳
郝树伟
宋喆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DAREWAY SOFTWARE Co Ltd
Original Assignee
DAREWAY SOFTWARE Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DAREWAY SOFTWARE Co Ltd filed Critical DAREWAY SOFTWARE Co Ltd
Priority to CN201710316297.6A priority Critical patent/CN107169070A/zh
Publication of CN107169070A publication Critical patent/CN107169070A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明具体涉及一种基于大数据的社保指标仓库的构建系统及其方法,属于大数据应用技术领域。目的是利用大数据处理技术和分布式存储技术构建一种准确的、定时更新的以立方体结构存储组织的多维统计指标库,构建系统由数据源模块、业务数据采集模块、数据预处理模块、指标计算模块、指标元数据存储模块、数据存储模块、数据查询展示模块六部分组成。构建方法基于上述构建系统实现。本发明以社保业务数据为数据源,利用大数据处理技术和分布式存储技术构建一种准确、定时增量更新的指标数据仓库,能够进行快速的指标多维分析查询。

Description

一种基于大数据的社保指标仓库的构建系统及其方法
技术领域
本发明具体涉及一种基于大数据的社保指标仓库的构建系统及其方法,属于大数据应用技术领域。
背景技术
目前,在大数据时代背景下,社保家底数据如征缴企业养老保险基金金额、社保覆盖人口比例等的统计分析面临挑战。社保的大量数据处于分散存储状态,存在信息孤岛现象,社保统计信息服务决策、服务管理、服务社会的巨大潜力尚未开发;基于数据库的统计查询、人工多口径信息提取等手段落后,导致统计数据客观性、真实性、便捷性存在问题
随着信息化技术的不断发展,社会保险系统已经积累了大量的业务数据。通过收集、整理、挖掘、利用社保业务数据,构建社保统计指标,实现从多个角度或者从不同的考察范围来观察某一指标或多个指标,进行分析对比,找出这些指标间隐藏的内在关系,并预测这些指标的发展趋势,为社会保险改革决策提供科学的依据。是深化大数据在社会保险服务应用的有效手段。
联机分析处理(OLAP)是一种将原始数据转化为可从多视角观察数据的软件技术。OLAP的主要工作就是将数据仓库中的数据转换到多维数据结构中,并且对上述多维数据结构执行有效且非常复杂的多维查询。
传统的数据仓库一般采用集中式结构化存储方式,单节点运行计算,配置起来比较简单。然而社保统计指标的重要数据来源就是社保业务数据,社保业务数据普遍分散在各个社保领域(养老、医疗)的业务数据库中,加之社保业务数据具有地域分布广、涉及系统多、数据规模大、结构较松散等问题。往往要对多张数据表中成千上万条数据进行综合查询,传统数据仓库的性能越来越难以满足这类复杂的查询需求,且随着数据量的积累,数据仓库扩容将是一个巨大的问题。
对海量社保数据的多维查询分析,查询速度是评价系统性能的关键因素。当前国内外关于大数据联机分析处理的研究成果多种多样,但是针对社保应用海量数据实现的分布式多维分析系统不多见。普遍是通过优化计算策略、查询操作方法来实现多维分析效率的提升。
发明内容
本发明为了解决上述问题,提供一种社保大数据指标仓库的构建方法及系统。系统以社保业务数据为数据源,利用大数据处理技术和分布式存储技术构建一种准确的、定时更新的以立方体结构存储组织的多维统计指标库,并提供指标快速查询和展示功能。
本方法和系统将指标构建分为数据采集阶段和指标仓库构建阶段。
数据采集阶段,分为批量导入和变更同步两个部分。批量导入是将分散于各地市的社保业务数据按照设计的组织原则,一次性经过抽取、转换,整合到统一的过程库(基于HBase数据库),完成从业务数据库到业务过程数据库的初始批量导入;变更同步阶段,在各个业务数据库中配置Oracle Streams,分析Redo日志,将包含业务数据库变更操作的消息分发到Oracle高级队列,然后将变更消息转换成消息流,利用Apache Storm将变更数据同步到业务过程数据库HBase中。保证整合后的业务过程数据库的实时性和准确性。
指标仓库构建阶段。基于开源大数据引擎Kylin,借助Hive工具加载数据,按照多维分析模型定义的事实表、维表、事实表和维表的连接关系,进行多维指标立方的预计算,并以立方体组织形式将数据保存到指标库中(基于HBase数据库)。设置指标计算周期,定时自动执行增量数据的指标立方体构建。
本方法及系统提供的查询展示功能包括,根据多维查询请求,解析多维数据模型信息及Kylin引擎识别的查询语句,实现快速从指标仓库中获取数据,并按需求的方式将结果展示。
为了实现上述目的,本发明采用如下的技术方案:
基于大数据的社保指标仓库的构建系统,包括:
社保业务数据库,为社保指标仓库的计算提供原始数据来源,为数据的变更同步提供增量变更消息流;
业务数据采集模块,用于完成从业务数据到社保业务过程数据的批量导入和变更同步;
数据预处理模块,用于对数据格式、类型、表结构等进行转换处理,将数据转为Apache Kylin(一种大数据分布式计算引擎)计算所支持的数据模式;
指标计算模块,用于定义、调度、执行指标计算任务,根据设置的计算周期,自动定时执行指标计算;
指标元数据存储模块,用于存储社保指标数据模型相关信息,指标立方体构建信息;
社保数据存储模块,为社保业务过程数据和社保指标仓库数据提供分布式存储支持,构建社保业务过程库和社保指标仓库;
数据查询展示模块,用于定义查询需求及执行查询,并将结果展示。
所述社保业务数据库,包括Redo日志分析模块,AQ模块(Advanced Queue,即高级队列);
所述Redo日志分析模块,基于Oracle Streams技术,用于分析业务数据库中的Redo日志,产生变更消息发送到AQ模块存储;
所述AQ模块,是一种Oracle数据库提供的消息队列,接受和临时存储Redo日志分析模块发送的变更消息流;
所述业务数据采集模块,包括批量导入模块、变更同步模块;
所述批量导入模块,用于加载各地市的业务数据库中的数据,将数据批量导入到分布式存储的业务过程数据库中,并创建数据表索引,提高数据查询等操作效率;
所述变更同步模块,用于将业务数据库中自批量导入以后变更的数据实时同步到过程库中。Storm增量拓扑接收高级队列(AQ)中的变更消息流,对其进行解析,将变更数据同步到过程库中。并进行相应的数据表索引更新。实现从业务数据库到业务过程库的变更同步;
所述数据预处理模块,包括Hive与过程库HBase整合模块,数据转换模块。
所述Hive与过程库HBase整合模块,用于创建Hive外表,与过程库HBase数据库中的表相关联,实现Hive从HBase中实时读取数据,且Hive对外表的操作会同时更新到HBase对应的表中。指标数据计算基于Kylin实现的,Kylin支持从Hive中查询数据,需要搭建Kylin查询HBase数据的桥梁;
所述数据转换模块,用于进行数据类型、数据格式、数据取值的转换、抽取、表连接等。根据社保统计指标需求,实现对其所需业务数据的预处理转换。社保业务数据存在结构松散,数据噪声多等问题,Kylin进行指标预计算对数据格式、表结构等有一定的要求,通过该模块实现相应的数据预处理工作;
所述指标计算模块,包括多维数据模型定义模块,指标计算任务调度模块,指标计算任务池;
所述多维数据模型定义模块,根据社保统计指标的不同分析主题模块,定义相应的多维数据模型,包括数据源(事实表、维表、事实表与维表连接关系)的定义,以及统计指标、指标维度、聚合函数的定义,每一个数据模型对应一个指标计算任务;
社保指标仓库不同的主题模块包括:
参保人员情况(具体包括新增参保人数、减少的参保人数、参保总人数等)、
享受待遇情况(具体包括领取待遇人次,领取待遇减少人次等)、
社保基金收入情况(具体又包括收入总额、单位缴费额、个人缴付额、财政缴费额、划入医疗个人账户金额、划入养老个人账户金额等)、
社保基金支出情况(总支出,统筹支出、个人账户支出等)等。
分析的角度包括:时间(年度、季度、月度等);地区(省级、市级、区级等)、人员属性(年龄、人群、人员类别、人员状态等)、单位属性(单位性质、经济类型、所属产业等)、业务属性(险种、发放类别、医疗支出[医疗统筹类别、疾病类别]、工伤[伤残等级、工伤类别]等)。
结合分析的主题模型和业务数据特点,各个主题模块分别包括以下数据模型:
参保人员情况(参保人数数据模型、参保变动数据模型)、
享受待遇情况(参保待遇数据模型)、
社保基金收入情况(职工基金收入数据模型、居民基金收入数据模型、医疗个人账户收入数据模型、养老个人账户收入数据模型)、
社保基金支出情况(医疗支出立方体、生育支出立方体、失业支出立方体、养老支出立方体、医疗个人账户支出立方体、养老个人账户支出立方体等)
所述计算任务调度模块,根据数据模型定义模块中关于立方体模型的定义,添加指标数据计算任务,配置各个任务计算周期。定时执行指标计算任务,启动Kylin大数据计算引擎,进行相应的各维度组合下的指标值的计算,以数据立方的组织方式存储到HBase数据库中;
所述指标计算任务池,包含大量数据模型立方体计算任务,每一个计算任务对应社保不同的统计主题模块,并且每一个计算任务包括主题模块下的所有立方体数据模型作业,被配置为一个定时的调度作业。以实现变更数据的计算;
所述指标元数据信息存储模块,存储社保指标数据模型相关信息,指标立方体构建信息;
所述社保数据存储模块,包括社保业务过程数据库和社保指标数据仓库;
所述社保过程数据库,是一种分布式存储的HBase数据库,用于将大规模业务数据库中的数据分布式存储,为分布式计算提供基础,为社保指标数据仓库的构建提供实时数据支持;
所述社保指标立方体仓库,是一种分布式存储的HBase数据库,也是本方法及系统构建的目标数据库;社保指标仓库是一种涵盖所有社保统计指标的各个维度的数据直观展现;
所述数据查询展示模块,包括查询定义模块,查询模块,结果展示模块;
所述查询定义模块,从指标元数据模块获取数据仓库信息,定义要查询的指标、维度、过滤条件及查询结果展示形式。结果展示形式包括表格、饼图、柱状图、折线图几类;
所述数据查询模块,将查询需求解析为相应的查询语句。通过Kylin接口,执行数据查询任务,返回查询结果;
所述结果展示模块,将查询结果通过相应的展示组件呈现。
本发明提供的基于大数据的社保指标仓库的构建方法,包括以下步骤:
步骤201,配置业务数据采集模块,抽取分散在各个社保业务数据库中的数据,整合集中到基于分布式存储的业务过程数据库中,为进行社保指标仓库的构建提供数据支持;
步骤202,完成业务过程数据库的初始批量导入后,在业务数据库配置OracleStreams实现Redo日志分析,捕获增量变更消息到AQ高级队列中存储;
步骤203,配置业务数据采集模块,构建运行Storm增量拓扑。Storm拓扑接受来自高级队列中的变更消息,将变更数据同步到业务历程数据库,并更新索引表,保证业务过程库的一致性和实时性;
步骤204,配置数据预处理模块,添加数据转换任务。数据预处理模块中的Hive与HBase整合模块建立过程库HBase到Hive的外表,实现从Hive实时读取过程库HBase表数据。数据预处理模块中的数据转换模块根据配置信息建立Hive视图,实现数据类型、格式转换及多表连接等数据预处理;
步骤205,配置指标计算模块,完成指标数据模型定义,并通过作业调度模块执行和作业定义相匹配的指标计算任务池中的任务,完成从社保业务过程库到社保指标仓库的计算。元数据存储模块保存相应的数据模型、指标计算信息;指标立方体的预计算是基于Kylin大数据引擎实现的,Kylin支持大规模数据立方的快速计算;
步骤206,完成指标仓库的构建后,可以进行快速的OLAP查询分析。从指标元数据存储模块中获取已构建指标立方体相关信息,定义多维分析需求。解析查询需求,从指标仓库中预计算好的数据中执行查询,将查询结果返回给展示模块,展示模块根据需求配置进行结果展示。
本发明实现的有益效果
本发明提供了基于社会保障业务数据的社保统计指标立方体的仓库的构建方法及系统。具体是将地区分布广、涉及系统多、数据规模大、数据噪声多、结构较松散的社保业务数据,进行清洗、转换、整合等处理,集中到基于分布式存储的社保指标仓库中。实现了数据的有效汇聚整合,提高了数据之间的关联性,保证了社保统计信息的质量和时效。为社保数据服务决策、服务管理、服务社会提供支持。能够实现快速多角度分析问题,为制作报表、分析报告等提供有价值的数据信息。
附图说明
图1为本发明的一种社保大数据指标仓库的快速构建方法及系统的架构图;
图2为本发明的一种社保大数据指标仓库构建方法及系统的初始化流程图。
具体实施方式
下面结合附图对本发明的具体实施方式进行说明:
本发明提供了一种基于大数据的社保指标仓库的构建系统及构建方法。
一种社保大数据指标仓库的构建系统,如图1所示,由数据源模块101(包括Redo日志分析模块,AQ模块)、业务数据采集模块102(包括批量导入模块,变更同步模块)、数据预处理模块103(Hive与HBase整合模块,数据转换模块)、指标计算模块104(包括数据模型定义模块、任务调度模块、指标计算任务池)、指标元数据存储模块105、数据存储模块106(包括社保业务过程数据库,社保指标立方体数据仓库)、数据查询展示模块107(包括查询定义模块,数据查询模块,结果展示模块)六部分组成;
数据源模块101,即社保业务数据库,主要为业务数据采集模块提供数据抽取来源,同时为数据的增量计算提供变更消息;数据源模块101的功能通过业务数据库数据、Redo日志分析模块1011以及AQ模块1012共同完成;Redo日志分析模块1011主要负责分析Redo日志,捕获业务数据库数据更新操作,生成相应的变更消息发送至AQ模块;AQ模块1012主要负责临时存储来自Redo日志分析模块产生的变更消息,为业务变更同步模块提供变更消息流。
业务数据采集模块102,主要负责从各地市的业务数据库中抽取数据并导入到分布式存储的业务过程数据库中,为构建社保指标仓库提供分布式化存储的数据来源;业务数据采集模块102的功能通过批量导入模块1021、变更同步模块1022共同完成;批量导入模块1021主要负责将社保业务数据库中的数据一次性初始导入社保业务过程数据库;变更同步模块主要负责接收AQ模块1012中的变更消息,并进行解析转化应用到社保业务过程数据库中,实现从社保业务数据库到社保业务过程数据库的数据变更同步。
数据预处理模块103,主要负责实现Hive查询过程库HBase中的数据,并对数据类型、格式、内容、表结构等进行转换。数据预处理模块103的功能通过Hive与HBase整合模块1031、数据转换模块1032共同完成;Hive与HBase整合模块1031,主要负责创建Hive外表,与过程库HBase数据库中的表相关联,实现Hive从HBase中实时读取数据,且Hive对外表的操作会同时更新到HBase对应的表中。为Kylin通过Hive查询数据提供桥梁。数据转换模块1032,用于进行数据类型、数据格式、数据取值的转换、抽取、表连接等,以满足Kylin计算需求。
指标计算模块104,主要负责指标计算任务的定义和调度,进行指标仓库的构建。指标计算模块104通过数据模型定义模块1041、任务调度模块1042、指标计算任务池1043共同完成;数据模型定义模块1041对应各个社保主题,定义相应的数据模型,包括事实表、维表的定义、维度、度量、聚合函数的设置。任务调度模块1042根据数据模型定义模块中关于立方体模型的定义,添加指标数据计算任务,配置各个任务计算周期。定时执行指标计算任务。指标计算任务池1043,主要负责整合所有的计算任务,供任务调度模块调度运行。
指标元数据存储模块105,主要负责存储数据模型、指标构建模型等元数据信息,为指标仓库管理、数据查询展示模块提供信息目录。
社保数据存储模块106,主要负责将社保业务过程数据库1061和社保指标立方体数据库1062进行分布式存储,为海量社保大数据提供了良好的数据存储安全保障机制,同时提高了数据仓库数据存储的横向扩展能力。
数据查询展示模块107,包括查询定义模块1071、查询模块1072、结果展示模块1073,主要提供查询界面,列出可查询数据,进行查询需求的定义和结果展示形式定义,并按要求执行查询,以需求的形式展示查询结果。
一种社保大数据指标仓库的构建方法与系统,如图2所示,它包括以下步骤:
步骤201,配置业务数据采集模块102中的批量导入模块1021,抽取分散在各个社保业务数据库中的数据,整合集中到基于分布式存储的业务过程数据库中,为进行社保指标仓库的构建提供数据支持;
步骤202,完成业务过程数据库的批量导入后,在业务数据库配置Oracle Streams实现Redo日志分析,捕获增量变更消息到AQ高级队列中存储;
步骤203,配置业务数据采集模块102中的变更同步模块1022,构建运行Storm增量拓扑。Storm拓扑接受来自高级队列中的变更消息,将变更数据同步到业务历程数据库,并更新索引表,保证过程库的一致性和实时性;
步骤204,配置数据预处理模块,添加数据转换任务。Hive与HBase整合模块1031建立过程库HBase到Hive的外表,实现从Hive实时读取过程库HBase表数据。转换模块1032根据配置信息建立Hive视图,实现数据类型、格式转换及多表连接等数据预处理;
步骤205,配置指标计算模块,完成指标数据模型定义,并通过作业调度模块执行和作业定义相匹配的指标计算任务池中的任务,完成从业务历程库到社保指标仓库的计算。元数据存储模块保存相应的数据模型、指标计算信息;指标立方体的预计算是基于Kylin大数据引擎实现的,Kylin支持大规模数据立方的快速计算;
步骤206,完成指标仓库的构建后,可以进行快速的OLAP查询分析。数据查询定义模块1061从指标元数据中获取已构建指标立方体相关信息,定义多维分析需求提交给数据查询模块1062,数据查询模块解析需求,从指标仓库预计算好的数据中获取查询结果返回给展示模块,展示模块根据需求配置进行结果展示。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (5)

1.一种基于大数据的社保指标仓库的构建系统,其特征在于,所述构建系统包括:
社保业务数据库,用于为构建社保指标仓库提供数据来源,同时为过程库的数据持续更新提供增量消息;
业务数据采集模块,用于完成将业务数据一次性批量导入到社保业务过程数据库,以及数据从社保业务数据库到社保业务过程数据库的变更同步;
数据预处理模块,用于完成数据的转换、整合,将数据处理为指标计算所需要的数据模式;
所述数据预处理模块,包括Hive与过程库HBase整合模块、数据转换模块;
所述Hive与过程库HBase整合模块,用于创建Hive外表,与过程库HBase数据库中的表相关联,实现Hive从HBase中实时读取数据,且Hive对外表的操作同时更新到HBase对应的表中;
所述数据转换模块,用于进行数据类型、数据格式、数据取值的转换、抽取、表结构的转换;
指标计算模块,用于定义、调度、执行指标计算任务,根据设置的任务执行时间,定时自动执行计算任务,完成从社保业务过程数据到社保指标数据转换整合,并将处理结果存储到社保指标数据仓库;
所述指标计算模块,包括多维数据模型定义模块、指标计算任务调度模块、指标计算任务池;
所述多维数据模型定义模块,用于根据社保统计指标的不同主题模块,定义相应的多维数据模型,包括数据源、统计指标、指标维度、聚合函数的定义;
所述计算任务调度模块,用于根据数据模型定义模块中关于立方体模型的定义,添加指标数据计算任务,配置各个任务计算周期,定时执行指标计算任务,启动Kylin大数据计算引擎,进行
相应的各维度组合下的指标值的计算,以数据立方的组织方式存储到HBase数据库中;
所述指标计算任务池,包括数据模型立方体计算任务,每一个计算任务对应社保不同的统计主题模块,并且每一个计算任务被配置为一个定时的调度作业;
指标元数据存储模块,用于存储社保指标数据模型相关信息,指标立方体构建信息;
社保数据存储模块,用于为社保业务过程数据、社保指标仓库提供分布式存储支持,构建社保指标立方体数据仓库;
所述社保数据存储模块,包括社保业务过程数据库、社保指标仓库;
所述社保业务过程数据库,是一种分布式存储的HBase数据库,用于将业务数据库中的数据分布式存储,为分布式计算提供基础,为社保指标数据仓库的构建提供实时数据支持;
所述社保指标立方体数据仓库,是一种分布式存储的HBase数据库,涵盖所有社保统计指标的各个维度的数据直观展现;
数据查询展示模块,用于进行社保统计指标的多维查询展示,基于社保指标仓库,实现快速多维分析。
2.如权利要求1所述的基于大数据的社保指标仓库的构建系统,其特征在于,所述社保业务数据库,包括Redo日志分析模块、AQ模块;
所述Redo日志分析模块,用于分析业务数据库中的Redo日志,产生增量变更消息发送到AQ模块;
所述AQ模块,是一种Oracle数据库提供的消息队列,用于接受和临时存储Redo日志分析模块发送的增量变更消息流。
3.如权利要求1所述的基于大数据的社保指标仓库的构建系统,其特征在于,所述业务数据采集模块,包括批量导入模块和变更同步模块;
所述批量导入模块,用于将分散于各地市的社保业务数据库中的数据,批量导入到分布式存储的社保业务过程数据库中,完成社保过程数据的初始化;
所述变更同步模块,用于将业务数据库中自批量导入以后变更的数据实时同步到过程库中,Storm增量拓扑接收高级队列中的变更消息流,对其进行解析,将变更数据同步到过程库中,并进行相应的数据表索引更新,实现从业务数据库到业务过程库的变更同步。
4.如权利要求1所述的基于大数据的社保指标仓库的构建系统,其特征在于,所述数据查询展示模块,包括查询定义模块、查询模块、结果展示模块,
所述查询定义模块,用于从指标元数据模块获取数据仓库信息,定义要查询的指标、维度、过滤条件及查询结果展示形式,结果展示形式包括表格、饼图、柱状图、折线图;
所述数据查询模块,用于将查询需求解析为相应的查询语句,通过Kylin接口,执行数据查询任务,返回查询结果;
所述结果展示模块,用于将查询结果通过相应的展示组件呈现。
5.一种基于大数据的社保指标仓库的构建方法,其特征在于,所述方法包括以下步骤:
步骤201,配置业务数据采集模块中的批量导入模块,将分散在各个社保业务数据库中的数据批量导入到基于分布式存储的业务过程数据库中,为进行社保指标仓库的构建提供数据支持;
步骤202,完成业务过程数据库的批量导入后,在业务数据库配置Oracle Streams实现Redo日志分析,捕获增量变更消息到高级队列中存储;
步骤203,配置业务数据采集模块中的变更同步模块,构建运行Storm增量拓扑,Storm拓扑接受来自高级队列中的变更消息,将变更数据同步到业务历程数据库,并更新索引表,保证过程库的一致性和实时性;
步骤204,配置数据转换模块,添加数据转换任务,建立过程库HBase到Hive的外表,实现从Hive实时读取过程库HBase表数据,转换模块根据配置信息建立Hive视图,实现数据类型、格式转换及多表连接等数据预处理;
步骤205,配置指标计算模块,完成指标数据模型定义,并通过作业调度模块执行和作业定义相匹配的指标计算任务池中的任务,完成从业务历程库到社保指标仓库的计算,元数据存储模块保存相应的数据模型、指标计算信息;基于Kylin大数据引擎实现指标立方体的预计算;
步骤206,完成指标仓库的构建后,进行快速的OLAP查询分析,查询定义模块从指标元数据中获取已构建指标立方体相关信息,定义多维分析需求。数据查询模块解析需求,从指标仓库中预计算好的数据中获取查询结果返回给展示模块,展示模块根据需求配置进行结果展示。
CN201710316297.6A 2017-05-08 2017-05-08 一种基于大数据的社保指标仓库的构建系统及其方法 Pending CN107169070A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710316297.6A CN107169070A (zh) 2017-05-08 2017-05-08 一种基于大数据的社保指标仓库的构建系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710316297.6A CN107169070A (zh) 2017-05-08 2017-05-08 一种基于大数据的社保指标仓库的构建系统及其方法

Publications (1)

Publication Number Publication Date
CN107169070A true CN107169070A (zh) 2017-09-15

Family

ID=59813199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710316297.6A Pending CN107169070A (zh) 2017-05-08 2017-05-08 一种基于大数据的社保指标仓库的构建系统及其方法

Country Status (1)

Country Link
CN (1) CN107169070A (zh)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107784098A (zh) * 2017-10-24 2018-03-09 百味云科技股份有限公司 实时数据仓库平台
CN108182204A (zh) * 2017-12-12 2018-06-19 链家网(北京)科技有限公司 基于房产交易多维度数据的数据查询的处理方法及装置
CN108376143A (zh) * 2018-01-11 2018-08-07 上海跬智信息技术有限公司 一种新型的olap预计算模型及生成预计算结果的方法
CN108427711A (zh) * 2018-01-31 2018-08-21 北京三快在线科技有限公司 实时数据仓库、实时数据处理方法、电子设备及存储介质
CN108446317A (zh) * 2018-02-07 2018-08-24 链家网(北京)科技有限公司 一种房产交易可视化流数据同步方法及装置
CN108573348A (zh) * 2018-04-18 2018-09-25 鑫涌算力信息科技(上海)有限公司 金融指标分布式计算方法及其系统
CN108681589A (zh) * 2018-05-15 2018-10-19 口碑(上海)信息技术有限公司 基于指标体系的结构化查询语言指令生成方法及装置
CN109446246A (zh) * 2018-08-29 2019-03-08 星云海数字科技股份有限公司 一种实时数据化报表系统及生成方法
CN109635042A (zh) * 2018-12-07 2019-04-16 厦门铅笔头信息科技有限公司 Oltp与olap一体化的汽车金融大数据系统
CN109753507A (zh) * 2018-12-29 2019-05-14 上海跬智信息技术有限公司 基于NoSQL类数据库的OLAP实现系统构建方法、实现系统及实现方法
CN109800225A (zh) * 2018-12-24 2019-05-24 北京奇艺世纪科技有限公司 业务指标的获取方法、装置、服务器及计算机可读存储介质
CN109829009A (zh) * 2018-12-28 2019-05-31 北京邮电大学 可配置的异构数据实时同步并可视化的系统及方法
CN109829831A (zh) * 2018-12-26 2019-05-31 杭州茂财网络技术有限公司 社保数据查询系统、方法及存储介质
CN109947811A (zh) * 2017-11-29 2019-06-28 北京京东金融科技控股有限公司 通用特征库生成方法及装置、存储介质、电子设备
CN110134667A (zh) * 2019-04-26 2019-08-16 北京百分点信息科技有限公司 一种基于大数据技术的人口基础数据库
CN110148440A (zh) * 2019-03-29 2019-08-20 北京汉博信息技术有限公司 一种医疗信息查询方法
CN110427438A (zh) * 2019-07-30 2019-11-08 中国工商银行股份有限公司 数据处理方法及其装置、电子设备和介质
CN110795440A (zh) * 2019-09-05 2020-02-14 连连银通电子支付有限公司 一种更新指标的方法及装置
CN110866019A (zh) * 2018-08-10 2020-03-06 雅座在线(北京)科技发展有限公司 一种可更新准实时bi分析系统
CN110968592A (zh) * 2019-12-06 2020-04-07 深圳前海环融联易信息科技服务有限公司 元数据采集方法、装置、计算机设备及计算机可读存储介质
CN111125103A (zh) * 2019-12-18 2020-05-08 北京明略软件系统有限公司 一种数据处理方法、装置及计算机可读存储介质
CN111506660A (zh) * 2020-04-21 2020-08-07 瑞纳智能设备股份有限公司 一种热网实时数据仓系统
CN111522872A (zh) * 2020-04-26 2020-08-11 山东健康医疗大数据有限公司 一种基于指标配置的数据可视化的方法
CN111813777A (zh) * 2020-07-02 2020-10-23 上海微亿智造科技有限公司 Olap自动创建并写入mq数据的方法及系统
CN112182031A (zh) * 2020-10-12 2021-01-05 浙江大华技术股份有限公司 数据查询方法及装置、存储介质、电子装置
CN112236761A (zh) * 2018-06-27 2021-01-15 国际商业机器公司 数据立方体的动态增量更新
CN112328705A (zh) * 2020-11-03 2021-02-05 成都中科大旗软件股份有限公司 支持任意配置周期的任务调度方法
CN112508439A (zh) * 2020-12-18 2021-03-16 威海天鑫现代服务技术研究院有限公司 一种数据分析方法、系统、计算机设备和存储介质
CN112883021A (zh) * 2021-03-05 2021-06-01 北京维科维众科技发展有限公司 一种处理互联网营销跨渠道数据实时生成智能简报的系统
CN113111061A (zh) * 2021-03-25 2021-07-13 浙江省科技信息研究院 一种基于多维分析的数据处理系统
CN114116842A (zh) * 2021-11-25 2022-03-01 上海柯林布瑞信息技术有限公司 多维医疗数据实时获取方法、装置、电子设备及存储介质
CN114647716A (zh) * 2022-05-13 2022-06-21 天津南大通用数据技术股份有限公司 一种泛化数据仓库

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104111996A (zh) * 2014-07-07 2014-10-22 山大地纬软件股份有限公司 基于hadoop平台的医保门诊大数据抽取系统及方法
CN104750855A (zh) * 2015-04-16 2015-07-01 成都睿峰科技有限公司 一种大数据存储优化方法和装置
CN106126604A (zh) * 2016-06-20 2016-11-16 华南理工大学 一种基于分布式数据仓库的社保数据联机分析处理系统
CN106230907A (zh) * 2016-07-22 2016-12-14 华南理工大学 一种社保大数据可视化方法及系统
CN106326457A (zh) * 2016-08-29 2017-01-11 山大地纬软件股份有限公司 基于大数据的人社人员档案袋数据库的构建方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104111996A (zh) * 2014-07-07 2014-10-22 山大地纬软件股份有限公司 基于hadoop平台的医保门诊大数据抽取系统及方法
CN104750855A (zh) * 2015-04-16 2015-07-01 成都睿峰科技有限公司 一种大数据存储优化方法和装置
CN106126604A (zh) * 2016-06-20 2016-11-16 华南理工大学 一种基于分布式数据仓库的社保数据联机分析处理系统
CN106230907A (zh) * 2016-07-22 2016-12-14 华南理工大学 一种社保大数据可视化方法及系统
CN106326457A (zh) * 2016-08-29 2017-01-11 山大地纬软件股份有限公司 基于大数据的人社人员档案袋数据库的构建方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王炜: "挖掘社保大数据 支撑社保大发展", 《山东人力资源和社会保障》 *

Cited By (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107784098A (zh) * 2017-10-24 2018-03-09 百味云科技股份有限公司 实时数据仓库平台
CN109947811A (zh) * 2017-11-29 2019-06-28 北京京东金融科技控股有限公司 通用特征库生成方法及装置、存储介质、电子设备
CN108182204A (zh) * 2017-12-12 2018-06-19 链家网(北京)科技有限公司 基于房产交易多维度数据的数据查询的处理方法及装置
WO2019019573A1 (zh) * 2018-01-11 2019-01-31 上海跬智信息技术有限公司 一种新型的olap预计算模型及生成预计算结果的方法
CN108376143A (zh) * 2018-01-11 2018-08-07 上海跬智信息技术有限公司 一种新型的olap预计算模型及生成预计算结果的方法
CN108427711A (zh) * 2018-01-31 2018-08-21 北京三快在线科技有限公司 实时数据仓库、实时数据处理方法、电子设备及存储介质
CN108427711B (zh) * 2018-01-31 2019-09-17 北京三快在线科技有限公司 实时数据仓库、实时数据处理方法、电子设备及存储介质
CN108446317A (zh) * 2018-02-07 2018-08-24 链家网(北京)科技有限公司 一种房产交易可视化流数据同步方法及装置
CN108573348A (zh) * 2018-04-18 2018-09-25 鑫涌算力信息科技(上海)有限公司 金融指标分布式计算方法及其系统
CN108573348B (zh) * 2018-04-18 2021-01-01 鑫涌算力信息科技(上海)有限公司 金融指标分布式计算方法及其系统
CN108681589A (zh) * 2018-05-15 2018-10-19 口碑(上海)信息技术有限公司 基于指标体系的结构化查询语言指令生成方法及装置
CN112236761B (zh) * 2018-06-27 2023-12-22 勤达睿公司 数据立方体的动态增量更新
CN112236761A (zh) * 2018-06-27 2021-01-15 国际商业机器公司 数据立方体的动态增量更新
CN110866019A (zh) * 2018-08-10 2020-03-06 雅座在线(北京)科技发展有限公司 一种可更新准实时bi分析系统
CN109446246A (zh) * 2018-08-29 2019-03-08 星云海数字科技股份有限公司 一种实时数据化报表系统及生成方法
CN109635042A (zh) * 2018-12-07 2019-04-16 厦门铅笔头信息科技有限公司 Oltp与olap一体化的汽车金融大数据系统
CN109800225A (zh) * 2018-12-24 2019-05-24 北京奇艺世纪科技有限公司 业务指标的获取方法、装置、服务器及计算机可读存储介质
CN109829831A (zh) * 2018-12-26 2019-05-31 杭州茂财网络技术有限公司 社保数据查询系统、方法及存储介质
CN109829009A (zh) * 2018-12-28 2019-05-31 北京邮电大学 可配置的异构数据实时同步并可视化的系统及方法
CN109829009B (zh) * 2018-12-28 2021-05-25 北京邮电大学 可配置的异构数据实时同步并可视化的系统及方法
CN109753507A (zh) * 2018-12-29 2019-05-14 上海跬智信息技术有限公司 基于NoSQL类数据库的OLAP实现系统构建方法、实现系统及实现方法
CN110148440B (zh) * 2019-03-29 2023-06-30 北京汉博信息技术有限公司 一种医疗信息查询方法
CN110148440A (zh) * 2019-03-29 2019-08-20 北京汉博信息技术有限公司 一种医疗信息查询方法
CN110134667B (zh) * 2019-04-26 2021-08-10 北京百分点科技集团股份有限公司 一种基于大数据技术的人口基础数据库
CN110134667A (zh) * 2019-04-26 2019-08-16 北京百分点信息科技有限公司 一种基于大数据技术的人口基础数据库
CN110427438A (zh) * 2019-07-30 2019-11-08 中国工商银行股份有限公司 数据处理方法及其装置、电子设备和介质
CN110795440A (zh) * 2019-09-05 2020-02-14 连连银通电子支付有限公司 一种更新指标的方法及装置
CN110968592A (zh) * 2019-12-06 2020-04-07 深圳前海环融联易信息科技服务有限公司 元数据采集方法、装置、计算机设备及计算机可读存储介质
CN110968592B (zh) * 2019-12-06 2023-11-21 深圳前海环融联易信息科技服务有限公司 元数据采集方法、装置、计算机设备及计算机可读存储介质
CN111125103A (zh) * 2019-12-18 2020-05-08 北京明略软件系统有限公司 一种数据处理方法、装置及计算机可读存储介质
CN111506660A (zh) * 2020-04-21 2020-08-07 瑞纳智能设备股份有限公司 一种热网实时数据仓系统
CN111506660B (zh) * 2020-04-21 2023-03-31 瑞纳智能设备股份有限公司 一种热网实时数据仓系统
CN111522872A (zh) * 2020-04-26 2020-08-11 山东健康医疗大数据有限公司 一种基于指标配置的数据可视化的方法
CN111813777B (zh) * 2020-07-02 2021-04-06 上海微亿智造科技有限公司 Olap自动创建并写入mq数据的方法及系统
CN111813777A (zh) * 2020-07-02 2020-10-23 上海微亿智造科技有限公司 Olap自动创建并写入mq数据的方法及系统
CN112182031A (zh) * 2020-10-12 2021-01-05 浙江大华技术股份有限公司 数据查询方法及装置、存储介质、电子装置
CN112182031B (zh) * 2020-10-12 2023-06-13 浙江大华技术股份有限公司 数据查询方法及装置、存储介质、电子装置
CN112328705B (zh) * 2020-11-03 2023-10-24 成都中科大旗软件股份有限公司 支持任意配置周期的任务调度方法
CN112328705A (zh) * 2020-11-03 2021-02-05 成都中科大旗软件股份有限公司 支持任意配置周期的任务调度方法
CN112508439A (zh) * 2020-12-18 2021-03-16 威海天鑫现代服务技术研究院有限公司 一种数据分析方法、系统、计算机设备和存储介质
CN112883021A (zh) * 2021-03-05 2021-06-01 北京维科维众科技发展有限公司 一种处理互联网营销跨渠道数据实时生成智能简报的系统
CN113111061A (zh) * 2021-03-25 2021-07-13 浙江省科技信息研究院 一种基于多维分析的数据处理系统
CN114116842A (zh) * 2021-11-25 2022-03-01 上海柯林布瑞信息技术有限公司 多维医疗数据实时获取方法、装置、电子设备及存储介质
CN114116842B (zh) * 2021-11-25 2023-05-19 上海柯林布瑞信息技术有限公司 多维医疗数据实时获取方法、装置、电子设备及存储介质
CN114647716A (zh) * 2022-05-13 2022-06-21 天津南大通用数据技术股份有限公司 一种泛化数据仓库

Similar Documents

Publication Publication Date Title
CN107169070A (zh) 一种基于大数据的社保指标仓库的构建系统及其方法
Velt et al. Entrepreneurial ecosystem research: Bibliometric mapping of the domain
CN106326457B (zh) 基于大数据的人社人员档案袋数据库的构建方法及系统
CN104573231A (zh) 基于bim的智慧楼宇系统和方法
CN110276977B (zh) 一种公交站点匹配方法、装置、设备及可读存储介质
Liao et al. Applying crowdsourcing techniques in urban planning: A bibliometric analysis of research and practice prospects
CN111026801A (zh) 一种辅助保险类电商运营快速决策工作的方法及系统
CN102013049A (zh) 基于虚拟组织的kpi指标分析方法及统计分析系统
CN107526836A (zh) 基于大数据的银行零售存款业务数据分析系统及方法
Simkoko Managing international construction projects for competence development within local firms
CN102346901A (zh) 一种互联网药品交易主体信用评估系统及其方法
CN109189865A (zh) 项目数据的综合分析系统及方法
Shangodoyin et al. The role of statistics in national development with reference to Botswana and Nigeria statistical systems
Nazarov et al. Building technology and predictive analytics models in the SAP analytic cloud digital service
Aghimien et al. A review of the application of data mining for sustainable construction in Nigeria
CN101807218B (zh) 基于异构网络的土地格局演替仿真系统
CN116128213A (zh) 一种产业链图谱构建及分析方法和系统
CN112256681A (zh) 一种空管数字化指标应用系统及方法
CN107845042A (zh) 一种国有土地上房屋征收监管系统
CN116959249A (zh) 基于cim的城市信息管理平台及方法
CN103345485B (zh) 一种大型主机平台动态报表自动生成方法及系统
Gunawan et al. Knowledge management study in data warehouse
Chen et al. More than just pandas: Urgent research needed on China's native plant biodiversity
Shermukhamedov et al. STATISTICAL DATA PROCESSING IN THE DIGITAL ECONOMY.
CN110019432A (zh) 针对读者行为信息的海量数据分析及可视化系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zhang Shidong

Inventor after: Yan Zhongmin

Inventor after: Guo Bin

Inventor after: Shang Meng

Inventor after: Wang Minxia

Inventor before: Guo Bin

Inventor before: Lv Ning

Inventor before: Wang Minxia

Inventor before: Zheng Kaiyong

Inventor before: Hao Shuwei

Inventor before: Song Zhe

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170915