CN106126604A - 一种基于分布式数据仓库的社保数据联机分析处理系统 - Google Patents
一种基于分布式数据仓库的社保数据联机分析处理系统 Download PDFInfo
- Publication number
- CN106126604A CN106126604A CN201610452790.6A CN201610452790A CN106126604A CN 106126604 A CN106126604 A CN 106126604A CN 201610452790 A CN201610452790 A CN 201610452790A CN 106126604 A CN106126604 A CN 106126604A
- Authority
- CN
- China
- Prior art keywords
- data
- result
- layer
- inquiry
- social security
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000004458 analytical method Methods 0.000 title claims abstract description 33
- 230000008569 process Effects 0.000 title claims abstract description 30
- 238000003860 storage Methods 0.000 claims abstract description 35
- 238000009825 accumulation Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000002776 aggregation Effects 0.000 claims description 10
- 238000004220 aggregation Methods 0.000 claims description 10
- 230000006837 decompression Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 239000012141 concentrate Substances 0.000 claims description 3
- 235000013399 edible fruits Nutrition 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 2
- 230000003252 repetitive effect Effects 0.000 claims description 2
- 230000004044 response Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 3
- 239000010931 gold Substances 0.000 description 3
- 229910052737 gold Inorganic materials 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000005553 drilling Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- GKQPCPXONLDCMU-CCEZHUSRSA-N lacidipine Chemical compound CCOC(=O)C1=C(C)NC(C)=C(C(=O)OCC)C1C1=CC=CC=C1\C=C\C(=O)OC(C)(C)C GKQPCPXONLDCMU-CCEZHUSRSA-N 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于分布式数据仓库的社保数据联机分析处理系统,包括与多维分析服务器进行交互的展示层;对MDX语句进行解析,并使用解析后的语句执行查询计算的维度层;对聚集结果的缓存进行管理的星状层;负责接收星状层发出的SQL语句,在数据仓库中执行,并将结果返回的存储层。本发明系统的数据仓库通过分布式文件系统实现,而分布式文件系统集群由云计算平台统一管理,实现资源的负载均衡。系统通过功能上的多层分发,实现了对存储海量数据的分布式数据仓库的统一查询接口,以类似JDBC的查询方式,完成对于数据立方体多个维度的操作。
Description
技术领域
本发明涉及联机分析处理和分布式存储领域,尤其是指一种基于分布式数据仓库的社保数据联机分析处理系统。
背景技术
随着信息化技术的不断发展完善,政府、企业等机构累积产生了大量业务数据,如何从这类数据中提取有用信息,便于判断形势,对未来发展作出决策,成为决策者关心的重要问题。企业级别的系统应用往往达到了TB、PB甚至更高的数据量,而对于决策者而言,重要的决策参考信息常常就被淹没在其中。目前十分通用的做法是,从海量数据中提炼出有助于决策分析的数据信息,存放到数据变动相对较小的数据仓库中,作为对海量数据进行筛选后的数据环境。再基于数据仓库的数据,进行联机分析处理,得到相关的决策信息。我国的社会保障信息化管理虽然经过多年的发展完善,但当下对五种社会保障信息系统的管理,仍然很难与其他现有独立系统有效交互,更不用说直接进行操作。事务同步和数据共享程度较低,明显影响劳动和社会保障信息的使用效率。
联机分析处理(OLAP)是一个将原始数据转化为贴近用户所理解的业务维度的,提供从各种可能地视角观察信息的软件技术,便于分析师、管理者和执行者来快速、一致、交互地访问数据。OLAP的功能特点是提供动态多维的分析整合企业数据,支持终端用户分析和定位活动,包括各个维度的计算和建模应用,通过层次结构和成员进行趋势分析,对子集切片细致查看,钻取到更深的层次,旋转到新的维度进行可见的区域比较等。
传统的数据仓库一般采用集中式结构化数据存储方式,单节点运行计算,配置起来比较简单,对结构化数据的处理速度也比较快,同时,受服务器硬件性能的影响也比较大。但是在社保数据应用中,往往要对多张数据表中成千上万条数据进行综合查询,传统数据仓库的性能越来越难以满足这类复杂的查询需求。随着数据量的积累,数据仓库迟早会有需要扩容的时候,而传统数据仓库由于采用集中式存储方式,扩容的代价是巨大的,往往需要将原有存储介质整体替换。
对于数据仓库的查询,往往是对海量数据的范围查询,并不需要太高的实时性,对于查询任务的处理也可以分批次进行,因此数据仓库系统特别适合使用分布式数据解决方案。
对海量社保数据的多维查询分析,查询速度是评价系统性能的关键因素,针对多维立方体查询的优化,有几个比较常见的优化方法:存储过程,索引技术,物化视图。存储过程对针对特定的查询创建查询语句群,将语句经过编译优化并存储在数据库中,以此来优化查询效率,但是在分布式文件系统中,很少见有对于存储过程、索引技术的支持,这些技术对于分布式文件系统也并不适用。而物化视图则是一种典型的用空间换取时间的方法,通过建立实体视图达到减少表连接消耗时间的目的,在本文所依据项目中,由于涉及到多种社会保障服务,为每个服务建立物化视图将会带来时间信息、地理信息等方面的巨大冗余,因此这种方法也是不尽如人意的。
根据数据存储方式,联机分析处理可以分为三类:关系型OLAP、多维OLAP、混合型OLAP:
关系型OLAP将数据存储在关系数据库中,就像传统数据表一样,不同的是,它还会定义一批实视图,与业务数据一同存储在数据库中,这与传统关系型数据库只存储视图的定义结构截然不同。这样做的原因在于定义使用频率比较高,计算量比较大的查询作为实视图可以很大程度上减少查询所需要的耗时。
多维OLAP将多维数据在物理上存储为多维数组格式,因此也被成为物理OLAP。而关系型OLAP主要通过一些中间软件实现立方体,被称为虚拟OLAP。
混合型OLAP目前为止尚没有一个完全清晰的定义,但是显然,它不是单纯的将ROLAP和MOLAP组合起来,应当结合具体的业务逻辑,将两种OLAP的优点有机地组合起来。
内存数据库系统是指将数据库的全部或大部分数据放在内存中的数据库系统,内存数据库中数据是常驻内存,处理前不需要从磁盘读取数据,处理后也不需要将结果写回磁盘,节省了磁盘I/O的时间,一般都具有很高的查询性能,适合要求快速响应的系统。本发明针对的海量社保数据无法完全存储在内存当中,但针对社保数据对五险一金操作比较多的特性,我们从海量社保数据中提取出常见的如医疗金、失业金、养老金等类目的数据模型,将这些常用模型用NoSQL内存数据库作为存储空间,使其常驻内存,实现对常用业务数据的快速存取。
当前国内外关于大数据联机分析处理的研究成果多种多样,但至今未见针对社保应用海量数据实现的多级分布式的联机分析处理方法及系统。针对海量社保数据,研究一个真正实用、可靠的数据统计分析方法及系统,保证实际应用中社保数据存储的可靠性、查询的实时性是本发明的重点。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于分布式数据仓库的社保数据联机分析处理系统,针对海量社保数据,能够快速响应查询请求,提升查询效率。
为实现上述目的,本发明所提供的技术方案,如下:
一种基于分布式数据仓库的社保数据联机分析处理系统,从上至下划分为4层,包括:
展示层,是用户与多维分析服务器进行交互的层次,将分析计算的结果展现给用户,而该展示层主要通过前端工具提供服务,通过查询接口得到多维分析结果,其实现的查询接口,在建立连接时,能够像注册JDBC驱动一样注册连接驱动,通过通用接口Connection加载指定的OLAP驱动,随后获取连接,获取连接后,通过创建声明对象执行查询得到结果;
维度层,主要对MDX语句进行解析,并使用解析后的语句执行查询计算;一个MDX查询在得到最终结果之前,往往需要经过数次迭代求值计算,并对每次的计算结果汇总处理;在该维度层中,首先,计算结果集中每个轴包含的成员列表,再计算需要聚集计算的单元格,最后将聚集计算请求批量提交到星状层;MDX查询结果能够在维度层中缓存,如果用户需要对查询结果作进一步操作,系统就不需要重新处理完整的查询请求,能够直接在维度层中缓存的查询结果基础上进行处理,得到新的查询结果,从而提高解析查询的效率;
星状层,主要对聚集结果的缓存进行管理;该星状层处理维度层发出的提取聚集结果请求,在收到请求后,首先在缓存的聚集结果中搜索,如果请求结果存在,或缓存中现有结果能够经过计算后生成请求对应的结果,就能够直接从缓存中提取或者计算生成结果;如果不能通过缓存提供请求结果,则将请求转化为SQL查询,提交给存储层处理;星状层获得存储层的计算结果后,再将结果加入缓存;
存储层,负责接收星状层发出的SQL语句,在数据仓库中执行,并将结果返回给星状层;存储层作为永久存储,以数据仓库为基础,拥有全部的业务数据;作为高速缓存的NoSQL内存数据库,则存储着常用的社保业务数据。
所述存储层使用了嵌套型的列式存储方式,构造了一个基于列的索引树,能够将同一列的重复数据进行压缩,查询时读取以压缩格式存储的每一列数据,并消耗CPU解压数据;列式查询对于重复率高的数据列能够快速跳过,对于海量社保数据的查询能够大幅减少查询消耗时间;通过对社保海量数据按关键列进行分区存储的优化方法,还能够进一步提高查询命中率,增强海量数据查询的实时性。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明结合多种数据分析模型的优点,提出一种基于分布式数据仓库的社保数据联机分析处理系统。该系统的数据仓库通过分布式文件系统实现,而分布式文件系统集群由云计算平台统一管理,实现资源的负载均衡。系统通过功能上的多层分发,实现了对存储海量数据的分布式数据仓库的统一查询接口,以类似JDBC的查询方式,完成对于数据立方体多个维度的操作。
2、本发明使用了嵌套型的列式存储方式,嵌套数据类型的特点是一个记录中的列除了可以是原语类型以外,还可以是List,Map,Set这样的复杂类型。在行式存储中一行的多列是连续的写在一起的,在列式存储中数据按列分开存储,将数据划分成一个个的数据文件的行组,查询时读取以压缩格式存储的每一列数据,并消耗CPU解压数据。列式存储方式十分适用于经常对少数列进行批量查询OLAP分析应用,当面对海量数据时,列式查询可以极大减少查询需要扫描的数据量,从而提升查询效率。该技术应用在社保大数据平台当中的结果表明它能够使多维数据统计分析应用快速响应海量社保数据的查询请求,得到实时多维分析结果。
附图说明
图1为社保数据联机分析处理系统结构图。
图2为社保数据联机分析处理系统层次图。
图3为引入了内存数据库的社保业务数据库结构图。
图4为行、列存储方式查询测试时间对比图。
图5为社保大数据公共服务平台系统架构图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1和图2所示,本实施例所述的社保数据联机分析处理系统,主要是基于分布式数据仓库(作为社保数据统计分析的存储空间),该系统的数据仓库是通过分布式文件系统实现,而分布式文件系统集群由云计算平台统一管理,实现资源的负载均衡。系统通过功能上的多层分发,实现了对存储海量数据的分布式数据仓库的统一查询接口,以类似JDBC的查询方式,完成对于数据立方体多个维度的操作。该社保数据联机分析处理系统在逻辑上从上至下划分为4层:
展示层,是用户与多维分析服务器进行交互的层次,将分析计算的结果展现给用户。展示层主要通过前端工具提供服务,通过查询接口得到多维分析结果。本发明实现的查询接口,在建立连接时,可以像注册JDBC驱动一样注册连接驱动,它通过通用接口Connection加载指定的OLAP驱动,随后获取连接。获取连接后,通过创建声明对象执行查询得到结果。
维度层,主要对MDX语句进行解析,并使用解析后的语句执行查询计算。一个MDX查询在得到最终结果之前,往往需要经过数次迭代求值计算,并对每次的计算结果汇总处理。维度层首先计算结果集中每个轴包含的成员列表,再计算需要聚集计算的单元格,最后将聚集计算请求批量提交到星状层。MDX查询结果可以在维度层中缓存,如果用户需要对查询结果作进一步操作,系统就不需要重新处理完整的查询请求,可以直接在维度层中缓存的查询结果基础上进行处理,得到新的查询结果,进而大大提高解析查询的效率。
星状层,主要对聚集结果的缓存进行管理。星状层处理维度层发出的提取聚集结果请求,在收到请求后,星状层首先在缓存的聚集结果中搜索,如果请求结果存在,或缓存中现有结果可以经过计算后生成请求对应的结果,就可以直接从缓存中提取或者计算生成结果。如果不能通过缓存提供请求结果,则将请求转化为SQL查询,提交给存储层处理。星状层获得存储层的计算结果后,再将结果加入缓存。
存储层,负责接收星状层发出的SQL语句,在数据仓库中执行,并将结果返回给星状层。存储层作为永久存储,以数据仓库为基础,拥有全部的业务数据;作为高速缓存的NoSQL内存数据库,则存储着常用的社保业务数据。
传统的分布式文件系统,采用批处理方式执行任务,实时性能表现不够好。本发明系统针对此种弊端,其存储层采取多级列式存储方式,达到优化数据查询分析效率的目的。引入了内存数据库的社保业务数据库结构在原有磁盘数据库之上,增加了一层内存数据库,将需要快速访问的表由磁盘数据库缓存到内存数据库。内存数据库承担日常的五险一金业务处理工作,联机分析处理应用使用JDBC进行访问。磁盘数据库只完成少量工作,并兼具容灾功能,内存数据库和磁盘数据库之间进行数据同步,实现两个数据库的一致性。同时,为保证高可用性,内存数据库以双机热备方式进行工作。附图3是引入了内存数据库的社保业务数据库结构图。
列式存储相对于行式存储,具有如下优势:
1、列式存储可以跳过大量不符合筛选条件的数据,只读取需要的数据,降低IO数据量。
2、压缩编码可以减少表占用的空间,由于同一列的数据类型一致,可以使用压缩编码进一步节省空间。
3、列式存储支持向量运算,能获得更好的扫描性能。
关系型数据的列式存储,可以将数据按照列直接排列,不需要引入其他概念,也不会造成数据丢失。而本发明系统具体采用的是另一种存储方式——嵌套型的列式存储。嵌套数据类型的特点是一个记录中的列除了可以是原语类型以外,还可以是List,Map,Set这样的复杂类型。在行式存储中一行的多列是连续的写在一起的,在列式存储中数据按列分开存储,将数据划分成一个个的数据文件的行组,查询时读取以压缩格式存储的每一列数据,并消耗CPU解压数据。列式存储方式十分适用于经常对少数列进行批量查询OLAP分析应用,当面对海量数据时,列式查询可以极大减少查询需要扫描的数据量,从而提升查询效率。
采用列存储格式存储数据,对于OLAP常见的在少数几个列进行聚集运算的特性,列存储格式可以通过关键列的筛选,极大减少需要扫描的数据量,从而提升查询效率。本发明列式存储与传统行式存储查询效率对比如附图4所示,测试数据为3000w条记录,分别对不同数量的字段进行max()聚集函数操作。字段数量的变化,对于行存储格式影响较小,所消耗时间基本保持稳定;而对于列存储格式,查询中涉及的字段越多,耗费的时间也越大。这也印证了前文描述的行、列存储的设计思想。在查询的字段达到50个时,列存储方式的耗时上升到了15秒左右,而行存储方式仍然维持在30秒左右。考虑到本系统查询设计的字段一般在10个甚至5个以内,列存储方式在查询性能上带来的提升是显著的。
为了测试本实施例上述的社保数据联机分析处理系统的应用效果,我们将这一技术应用到某社保大数据平台当中。该社保大数据公共服务平台的系统架构图如附图5所示。该系统上实现的联机分析处理系统主要包括四部分:一是负责数据存储的列式分布式文件系统;二是负责响应请求的Web服务器;三是负责构建查询任务的查询分析服务器;四是实际访问数据仓库的数据处理服务器。以上服务器均建立在云存储平台,通过云平台实现资源的负载均衡。
其中Web服务器负责接收响应用户提交的请求以及用户界面的交互。例如用户提交一个OLAP查询分析请求到服务器,Web服务器解析请求并转发到查询分析服务器,获取返回的结果,并以图表报表的形式显示到前端页面。查询分析服务器负责响应执行多维查询分析的任务,通过运行OLAP引擎得到查询结果,并将结果集返回。数据处理服务器负责响应执行数据预处理、实际访问操作数据仓库的任务,对于任何涉及到数据仓库的访问操作,均由数据处理服务器执行并返回结果。用户在支持主流浏览器的终端上登陆网站,即可开始使用本系统。
对于联机分析处理的性能考量,主要从执行查询分析的效率上体现。为验证OLAP查询性能,在列式分布式文件系统上按照查询维度的划分,分别进行均值、计数、求和三个最常见的聚集计算的点查询和范围查询测试。本次测试共五组测试数据集,大小依次为1000万条、2000万条、4000万条、8000万条、1亿6000万条数据,以下实验都是基于这五组数据测试得出的结果。
可以看到,对单一维度点查询,三种聚集函数的表现基本一致,在数据量达到上亿条时,仍能在38秒内完成查询;对单一维度范围查询,相对单点查询耗时稍微多一些,在数据量达到上亿条时,响应时间在51秒内;对二维求交查询,相对一维查询耗时更多,但在数据量达到上亿条时,仍能在80秒内完成查询。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (2)
1.一种基于分布式数据仓库的社保数据联机分析处理系统,其特征在于,从上至下划分为4层,包括:
展示层,是用户与多维分析服务器进行交互的层次,将分析计算的结果展现给用户,而该展示层主要通过前端工具提供服务,通过查询接口得到多维分析结果,其实现的查询接口,在建立连接时,能够像注册JDBC驱动一样注册连接驱动,通过通用接口Connection加载指定的OLAP驱动,随后获取连接,获取连接后,通过创建声明对象执行查询得到结果;
维度层,主要对MDX语句进行解析,并使用解析后的语句执行查询计算;一个MDX查询在得到最终结果之前,往往需要经过数次迭代求值计算,并对每次的计算结果汇总处理;在该维度层中,首先,计算结果集中每个轴包含的成员列表,再计算需要聚集计算的单元格,最后将聚集计算请求批量提交到星状层;MDX查询结果能够在维度层中缓存,如果用户需要对查询结果作进一步操作,系统就不需要重新处理完整的查询请求,能够直接在维度层中缓存的查询结果基础上进行处理,得到新的查询结果,从而提高解析查询的效率;
星状层,主要对聚集结果的缓存进行管理;该星状层处理维度层发出的提取聚集结果请求,在收到请求后,首先在缓存的聚集结果中搜索,如果请求结果存在,或缓存中现有结果能够经过计算后生成请求对应的结果,就能够直接从缓存中提取或者计算生成结果;如果不能通过缓存提供请求结果,则将请求转化为SQL查询,提交给存储层处理;星状层获得存储层的计算结果后,再将结果加入缓存;
存储层,负责接收星状层发出的SQL语句,在数据仓库中执行,并将结果返回给星状层;存储层作为永久存储,以数据仓库为基础,拥有全部的业务数据;作为高速缓存的NoSQL内存数据库,则存储着常用的社保业务数据。
2.根据权利要求1所述的一种基于分布式数据仓库的社保数据联机分析处理系统,其特征在于:所述存储层使用了嵌套型的列式存储方式,构造了一个基于列的索引树,能够将同一列的重复数据进行压缩,查询时读取以压缩格式存储的每一列数据,并消耗CPU解压数据;列式查询对于重复率高的数据列能够快速跳过,对于海量社保数据的查询能够大幅减少查询消耗时间;通过对社保海量数据按关键列进行分区存储的优化方法,还能够进一步提高查询命中率,增强海量数据查询的实时性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610452790.6A CN106126604A (zh) | 2016-06-20 | 2016-06-20 | 一种基于分布式数据仓库的社保数据联机分析处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610452790.6A CN106126604A (zh) | 2016-06-20 | 2016-06-20 | 一种基于分布式数据仓库的社保数据联机分析处理系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106126604A true CN106126604A (zh) | 2016-11-16 |
Family
ID=57470276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610452790.6A Pending CN106126604A (zh) | 2016-06-20 | 2016-06-20 | 一种基于分布式数据仓库的社保数据联机分析处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106126604A (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897402A (zh) * | 2017-02-13 | 2017-06-27 | 山大地纬软件股份有限公司 | 基于社保数据构建用户画像的方法和用户画像生成器 |
CN106951442A (zh) * | 2017-02-15 | 2017-07-14 | 中国保险信息技术管理有限责任公司 | 一种异构数据库间的数据交互方法及装置 |
CN107092529A (zh) * | 2017-02-10 | 2017-08-25 | 北京小度信息科技有限公司 | Olap服务方法、装置及系统 |
CN107169070A (zh) * | 2017-05-08 | 2017-09-15 | 山大地纬软件股份有限公司 | 一种基于大数据的社保指标仓库的构建系统及其方法 |
CN107301206A (zh) * | 2017-06-01 | 2017-10-27 | 华南理工大学 | 一种基于预运算的分布式olap分析方法及系统 |
CN107729500A (zh) * | 2017-10-20 | 2018-02-23 | 锐捷网络股份有限公司 | 一种联机分析处理的数据处理方法、装置及后台设备 |
CN108182204A (zh) * | 2017-12-12 | 2018-06-19 | 链家网(北京)科技有限公司 | 基于房产交易多维度数据的数据查询的处理方法及装置 |
CN108241627A (zh) * | 2016-12-23 | 2018-07-03 | 北京神州泰岳软件股份有限公司 | 一种异构数据存储查询方法和系统 |
CN109213829A (zh) * | 2017-06-30 | 2019-01-15 | 北京国双科技有限公司 | 数据查询方法及装置 |
CN109829831A (zh) * | 2018-12-26 | 2019-05-31 | 杭州茂财网络技术有限公司 | 社保数据查询系统、方法及存储介质 |
CN111046054A (zh) * | 2019-12-01 | 2020-04-21 | 国家电网有限公司客户服务中心 | 一种电力营销业务数据分析的方法和系统 |
CN111046013A (zh) * | 2019-11-12 | 2020-04-21 | 上海麦克风文化传媒有限公司 | 一种冷数据全量存储和查询架构 |
CN112364016A (zh) * | 2020-10-27 | 2021-02-12 | 中国地震局地质研究所 | 一种异频数据对象的时间嵌套缓存模型的构建方法 |
CN112395453A (zh) * | 2020-11-25 | 2021-02-23 | 华中科技大学 | 一种自适应分布式遥感影像缓存及检索方法 |
CN112698988A (zh) * | 2020-12-30 | 2021-04-23 | 安徽迪科数金科技有限公司 | 一种基于分布式系统的解析超大文本文件处理方法 |
CN112835966A (zh) * | 2019-11-22 | 2021-05-25 | 北京金山云网络技术有限公司 | 数据查询方法、装置以及电子设备 |
CN115315694A (zh) * | 2020-01-15 | 2022-11-08 | 西格玛计算机有限公司 | 使用过滤查询从基于云的数据仓库高速缓存加载仪表板 |
CN115829615A (zh) * | 2023-01-05 | 2023-03-21 | 瓴创(北京)科技有限公司 | 一种基于多数据库的用户分群方法、系统和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8533218B2 (en) * | 2010-10-27 | 2013-09-10 | David Alvarez Debrot | Debugging system for multidimensional database query expressions on a processing server |
CN103886038A (zh) * | 2014-03-10 | 2014-06-25 | 中标软件有限公司 | 数据缓存方法及装置 |
CN103955502A (zh) * | 2014-04-24 | 2014-07-30 | 科技谷(厦门)信息技术有限公司 | 一种可视化olap的应用实现方法及系统 |
CN105630997A (zh) * | 2015-12-24 | 2016-06-01 | 广州精点计算机科技有限公司 | 一种数据并行处理方法、装置及设备 |
-
2016
- 2016-06-20 CN CN201610452790.6A patent/CN106126604A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8533218B2 (en) * | 2010-10-27 | 2013-09-10 | David Alvarez Debrot | Debugging system for multidimensional database query expressions on a processing server |
CN103886038A (zh) * | 2014-03-10 | 2014-06-25 | 中标软件有限公司 | 数据缓存方法及装置 |
CN103955502A (zh) * | 2014-04-24 | 2014-07-30 | 科技谷(厦门)信息技术有限公司 | 一种可视化olap的应用实现方法及系统 |
CN105630997A (zh) * | 2015-12-24 | 2016-06-01 | 广州精点计算机科技有限公司 | 一种数据并行处理方法、装置及设备 |
Non-Patent Citations (1)
Title |
---|
于雅丽: "基于对象池与数据缓存技术的Web-OLAP系统", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108241627A (zh) * | 2016-12-23 | 2018-07-03 | 北京神州泰岳软件股份有限公司 | 一种异构数据存储查询方法和系统 |
CN107092529A (zh) * | 2017-02-10 | 2017-08-25 | 北京小度信息科技有限公司 | Olap服务方法、装置及系统 |
CN106897402A (zh) * | 2017-02-13 | 2017-06-27 | 山大地纬软件股份有限公司 | 基于社保数据构建用户画像的方法和用户画像生成器 |
CN106951442A (zh) * | 2017-02-15 | 2017-07-14 | 中国保险信息技术管理有限责任公司 | 一种异构数据库间的数据交互方法及装置 |
CN107169070A (zh) * | 2017-05-08 | 2017-09-15 | 山大地纬软件股份有限公司 | 一种基于大数据的社保指标仓库的构建系统及其方法 |
CN107301206A (zh) * | 2017-06-01 | 2017-10-27 | 华南理工大学 | 一种基于预运算的分布式olap分析方法及系统 |
CN109213829A (zh) * | 2017-06-30 | 2019-01-15 | 北京国双科技有限公司 | 数据查询方法及装置 |
CN107729500A (zh) * | 2017-10-20 | 2018-02-23 | 锐捷网络股份有限公司 | 一种联机分析处理的数据处理方法、装置及后台设备 |
CN108182204A (zh) * | 2017-12-12 | 2018-06-19 | 链家网(北京)科技有限公司 | 基于房产交易多维度数据的数据查询的处理方法及装置 |
CN109829831A (zh) * | 2018-12-26 | 2019-05-31 | 杭州茂财网络技术有限公司 | 社保数据查询系统、方法及存储介质 |
CN111046013B (zh) * | 2019-11-12 | 2024-04-12 | 上海麦克风文化传媒有限公司 | 一种冷数据全量存储和查询架构 |
CN111046013A (zh) * | 2019-11-12 | 2020-04-21 | 上海麦克风文化传媒有限公司 | 一种冷数据全量存储和查询架构 |
CN112835966A (zh) * | 2019-11-22 | 2021-05-25 | 北京金山云网络技术有限公司 | 数据查询方法、装置以及电子设备 |
CN111046054A (zh) * | 2019-12-01 | 2020-04-21 | 国家电网有限公司客户服务中心 | 一种电力营销业务数据分析的方法和系统 |
CN115315694A (zh) * | 2020-01-15 | 2022-11-08 | 西格玛计算机有限公司 | 使用过滤查询从基于云的数据仓库高速缓存加载仪表板 |
CN112364016A (zh) * | 2020-10-27 | 2021-02-12 | 中国地震局地质研究所 | 一种异频数据对象的时间嵌套缓存模型的构建方法 |
CN112395453A (zh) * | 2020-11-25 | 2021-02-23 | 华中科技大学 | 一种自适应分布式遥感影像缓存及检索方法 |
CN112395453B (zh) * | 2020-11-25 | 2024-03-19 | 华中科技大学 | 一种自适应分布式遥感影像缓存及检索方法 |
CN112698988A (zh) * | 2020-12-30 | 2021-04-23 | 安徽迪科数金科技有限公司 | 一种基于分布式系统的解析超大文本文件处理方法 |
CN115829615A (zh) * | 2023-01-05 | 2023-03-21 | 瓴创(北京)科技有限公司 | 一种基于多数据库的用户分群方法、系统和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106126604A (zh) | 一种基于分布式数据仓库的社保数据联机分析处理系统 | |
CN106709067B (zh) | 一种基于Oracle数据库的多源异构空间数据流转方法 | |
US20170308605A1 (en) | Hilbert Curve Partitioning for Parallelization of DBSCAN | |
CN103473260B (zh) | 一种面向并发olap的测试数据分层聚簇查询处理系统及方法 | |
CN103631911B (zh) | 基于数组存储和向量处理的olap查询处理方法 | |
JP2003526159A (ja) | 多次元データベースおよび統合集約サーバ | |
US8001112B2 (en) | Using multidimensional access as surrogate for run-time hash table | |
US9507815B2 (en) | Column store optimization using simplex store | |
Oussous et al. | NoSQL databases for big data | |
Caldarola et al. | Big data: A survey-the new paradigms, methodologies and tools | |
CN109086354A (zh) | 一种基于可扩展节点集群的大数据分析处理系统 | |
US10642807B2 (en) | Column store optimization using telescope columns | |
Ranawade et al. | Online analytical processing on hadoop using apache kylin | |
Dhanasree et al. | A survey on OLAP | |
US20230350866A1 (en) | Dynamically selecting among learned and non-learned indexes for data access | |
JP7213890B2 (ja) | 高速化された大規模な類似度計算 | |
Hasan et al. | Data transformation from sql to nosql mongodb based on r programming language | |
Tao et al. | Range aggregation with set selection | |
Villarroya et al. | Enabling efficient distributed spatial join on large scale vector-raster data lakes | |
Li et al. | SP-phoenix: a massive spatial point data management system based on phoenix | |
CN103995869A (zh) | 一种基于Apriori算法的数据缓存方法 | |
Zhu et al. | A fast and high throughput SQL query system for big data | |
Eavis et al. | Parallel OLAP with the Sidera server | |
Cuzzocrea et al. | Cloud-based OLAP over big data: Application scenarios and performance analysis | |
Atay et al. | Modeling and querying multidimensional bitemporal data warehouses |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20161116 |