CN102637206A - 一种大数据量的数据查询方法 - Google Patents

一种大数据量的数据查询方法 Download PDF

Info

Publication number
CN102637206A
CN102637206A CN2012100755125A CN201210075512A CN102637206A CN 102637206 A CN102637206 A CN 102637206A CN 2012100755125 A CN2012100755125 A CN 2012100755125A CN 201210075512 A CN201210075512 A CN 201210075512A CN 102637206 A CN102637206 A CN 102637206A
Authority
CN
China
Prior art keywords
data
increment
incremental
incremental data
enquire method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012100755125A
Other languages
English (en)
Inventor
王兴山
岳现国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Group Shandong General Software Co Ltd
Original Assignee
Inspur Group Shandong General Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Group Shandong General Software Co Ltd filed Critical Inspur Group Shandong General Software Co Ltd
Priority to CN2012100755125A priority Critical patent/CN102637206A/zh
Publication of CN102637206A publication Critical patent/CN102637206A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种大数据量的数据查询方法,包括如下步骤:S10:定义增量数据捕获方式;S11:定义增量捕获调度执行计划;S12:执行增量数据定期归集;S13:执行数据统计结果查询。本发明把复杂的数据统计查询过程包分解成两个过程,统计计算归集和实时查询;将统计计算归集过程放在后台运行,并且归集过程只归集增量数据,从而大大提高了大数据量统计查询的执行效率。

Description

一种大数据量的数据查询方法
技术领域
本发明属于数据查询统计技术领域,涉及一种大数据量的数据查询方法。
背景技术
在集团型企业或单位,其组织结构非常复查,各机构涉及各种各样的业务数据,所有机构的业务数据汇总,整个集团企业或者单位的业务数据量会非常庞大。当月度或者季度需要出报表或者平时因为其他原因需要对某些业务数据进行统计的时候,因为整个业务数据量非常庞大,所以其每次进行业务数据查询或统计时,持续时间比较长,需要消耗很大的人力、物力,消耗资源会比较大。
目前,传统的查询和统计方式,一般都是直接从业务数据表中进行处理,然而直接从业务数据表中进行处理不仅影响应用系统的业务处理性能,数据查询统计慢,需要花很长时间,而且其数据查询和统计性能非常差,甚至出现数据查询或者统计数据的偏差,最终导致数据查询的结果受到影响,进而对企业或者单位的工作造成不良影响。
故,针对上述现有技术在大数据量的数据查询方面存在的缺陷,实有必要进行研究,以提供一种大数据量的数据查询方法,减少查询的时间,降低数据查询的资源消耗,提升查询的效率和统计性能。
发明内容
为解决上述问题,本发明的目的在于提供一种大数据量的数据查询方法。
为实现上述目的,本发明的技术方案为:
一种大数据量的数据查询方法,包括如下步骤:
S10:定义增量数据捕获方式;
S11:定义增量捕获调度执行计划;
S12:执行增量数据定期归集;
S13:执行数据统计结果查询。
进一步地,在步骤S10中,具体又包括:
S101:定义增量单元;
S102:定义增量包;
S103:启用增量包并进行增量初始准备;
S104:增量订阅。
进一步地,在步骤S101中,增量单元的结构包括有增量单元对应的数据表、增量的内容字段、数据表的主键字段、数据表的时间戳字段。
进一步地,在步骤S102中,所述增量包中需要指定增量数据的捕获模式以及增量单元集合。
进一步地,所述增量包捕获模式包括快照表模式、时间戳模式、触发器模式、以及数据库日志模式。
进一步地,在步骤S103中,根据增量单元的结构,创建增量数据表,增量数据表的结构除了包括增量单元对应的内容字段和主键字段,还包括时间戳字段。
进一步地,在步骤S11中,包括有:定义调度计划,设置调度自动增量归集的任务,并设置任务执行的频率和时间周期以及相关的执行方式。
进一步地,在步骤S12中,定期执行增量数据归集,其具体包括以下的步骤:
S120:根据步骤S10中定义的增量捕获方式捕获增量数据;
S121:把增量数据加载到步骤S103中创建的增量数据表中;
S122:根据步骤S10中增量订阅的信息,生成增量数据同步到查询中间结果表中的存储过程;
S123:执行步骤S122中创建的存储过程,创建查询中间结果表,并把步骤S120中捕获的增量数据同步到查询中间结果表中。
本发明把复杂的数据统计查询过程包分解成两个过程,统计计算归集和实时查询;将统计计算归集过程放在后台运行,并且归集过程只归集增量数据,从而大大提高了大数据量统计查询的执行效率。
附图说明
图1是本发明的数据查询整体流程示意图;
图2是本发明的增量单元实体结构图;
图3是本发明的增量包实体结构示意图;
图4是本发明的增量实体结构关系示意图;
图5是本发明的增量捕获规则设计的流程示意图;
图6是本发明的增量数据归集的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明创作主要在于把复杂数据的统计查询过程分解为统计计算归集和实时查询为了提升查询或统计性能,采用定期查询,将查询结果定期的增量归集到中间数据表的方式,在归集查询结果时,由于数据量比较大,为提升归集效率,不能采用全量归集的方式,而采用增量归集的方式来处理。其中,统计计算归集过程通过计划任务调度在后台执行,中间数据结果的归集进行增量归集,实时查询只实现从中间结果表中分页取出数据进行展现。每次进行查询或统计时,只需要从中间数据表中进行展现即可,而不需要在查询过程中进行即时计算和归集,大大减少了查询的时间,降低了资源消耗,提高了查询效率。
请参照附图1所示,本发明大数据量的数据查询方法包括如下步骤:
S10:定义增量数据捕获方式;
本发明实施例中,把基于单个数据表的增量结构称为增量单元(Increment Unit);把增量数据的捕获规则称为增量包(Increment Package)。一个增量包由一个或者多个增量单元组成。在步骤S10中,具体又包括:
S101:定义增量单元,如附图2所示,其为增量单元的实体结构,其中增量单元的结构包括有增量单元对应的数据表、增量的内容字段、数据表的主键字段、数据表的时间戳字段。其中数据表的时间戳字段只用于时间戳模式的增量数据捕获模式;
S102:定义增量包,如附图3所示,其为增量包的实体结构,其中增量包中需要指定增量数据的捕获模式以及增量单元集合,本发明实施例中提供的增量包捕获模式包括快照表模式、时间戳模式、触发器模式、以及数据库日志模式;
S103:启用增量包并进行增量初始准备,在进行增量初始过程中,要根据增量单元的结构,创建增量数据表,增量数据表的结构除了包括增量单元对应的内容字段和主键字段,还包括时间戳字段;
S104:增量订阅,其中,在订阅处理中要指定订阅的用途、订阅的增量包、订阅同步过程中需要生成的存储过程的名称及参数。参照图4所示,其为增量单元、增量包与增量包的实体结构关系图示。其中,一个增量包可以由一个或多个增量单元组成,一个增量包可被多次订阅;
S11:定义增量捕获调度执行计划;
在步骤S11中,定义调度计划,设置调度自动增量归集的任务,并设置任务执行的频率和时间周期以及相关的执行方式;
S12:执行增量数据定期归集;
在步骤S12中,定期执行增量数据归集,其具体包括以下的步骤:
S120:根据步骤S10中定义的增量捕获方式捕获增量数据;
S121:把增量数据加载到步骤S103中创建的增量数据表中;
S122:根据步骤S10中增量订阅的信息,生成增量数据同步到查询中间结果表中的存储过程;
S123:执行步骤S122中创建的存储过程,创建查询中间结果表,并把步骤S120中捕获的增量数据同步到查询中间结果表中;
S13:执行数据统计结果查询;
在步骤S13中,输入查询统计的条件,从步骤S123中创建中查询中间结果表中分页取出数据进行展现。
下面具体以应用系统A中对业务BizA的数据进行统计查询为例进行说明。实例中,BizA的结构比较复杂,包括有A_MainTable、A_SubTable、A_DetailTable三个表。其中,A_MainTable是主表,A_SubTable是1级从表,A_DetailTable是2级从表,其统计查询的数据量比较大。如下所示,BizA的数据结构如下:
BizA的主表:A_MainTable
字段 数据类型 说明
A_MainColID String 主键
A_MainCol1 String  
A_MainCol2 String  
A_MainCol3 String  
A_MainCol4 String  
BizA的1级从表:A_SubTable
字段 数据类型 说明
A_SubColID String 主键
A_SubCol1 String  
A_SubCol2 String  
A_SubCol3 String  
A_SubCol4 String  
BizA的2级从表:A_DetailTable
字段 数据类型 说明
A_DetailColID String 主键
A_DetailCol1 String  
A_DetailCol2 String  
A_DetailCol3 String  
A_DetailCol4 String  
参照图1所示,该实例分解为以下四个步骤:
A. 设计增量捕获方式;
B. 定义增量归集调度计划;
C. 执行增量数据归集;
D. 执行数据统计结果查询。
参照图5所示,步骤A中包括以下内容:
(1)定义增量单元,由于BizA包括三个表,应该定义三个增量单元:
A_MainTable的增量单元
属性项 属性值
增量编号 Inc_A_MainTable
增量名称 Inc_A_MainTable
数据表 A_MainTable
主键字段 A_MainColID
内容字段 A_MainCol1, A_MainCol2, A_MainCol3, A_MainCol4
A_SubTable的增量单元
属性项 属性值
增量编号 Inc_A_SubTable
增量名称 Inc_A_SubTable
数据表 A_SubTable
主键字段 A_SubColID
内容字段 A_SubCol1, A_SubCol2, A_SubCol3, A_SubCol4
A_DetailTable的增量单元
属性项 属性值
增量编号 Inc_A_DetailTable
增量名称 Inc_A_DetailTable
数据表 A_DetailTable
主键字段 A_DetailColID
内容字段 A_DetailCol1, A_DetailCol2, A_DetailCol3, A_DetailCol4
(2)定义增量包,增量包结构属性如下:
属性项 属性值
增量包编号 IncPkg_BizA
增量名包称 IncPkg_BizA
捕获模式 数据库日志
增量单元 Inc_A_MainTable, Inc_A_SubTable, Inc_A_DetailTable
(3)启用并初始增量,在该过程中分别创建3个增量数据表(Inc_A_MainTable, Inc_A_SubTable, Inc_A_DetailTable),用来存储捕获的增量数据;
(4)订阅增量,订阅信息如下:
属性项 属性值
订阅用途 BizA的数据统计查询
增量包 IncPkg_BizA
同步归集存储过程 SP_BizA_Synch
存储过程参数字段 A_MainCol1,A_MainCol2
在步骤B中,设置计划调度信息,设置内容如下
属性项 属性值
计划类别 周期计划
周期类别 每天执行
执行开始时间 2012年2月21日 22:00:00
在步骤C中,执行增量数据归集,参照图6所示,包括以下内容:
(1) 通过数据库日志表,抽取符合条件的增量数据;
(2)把增量数据分别加载到增量数据表(Inc_A_MainTable, Inc_A_SubTable, Inc_A_DetailTable)中;
(3) 生成存储过程SP_BizA_Synch;
(4) 执行存储过程SP_BizA_Synch,创建查询中间结果表(TempResult_BizA),并把增量数据表中的数据同步到查询中间结果表中。
在步骤D中,采用分页取数逻辑从查询中间结果表(TempResult_BizA)中取出查询结果进行展现。
本发明把复杂的数据统计查询过程包分解成两个过程,统计计算归集和实时查询;把费时的统计计算归集过程放在后台运行,并且归集过程只归集增量数据,大大提高了大数据量统计查询的执行效率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种大数据量的数据查询方法,其特征在于,包括如下步骤:
S10:定义增量数据捕获方式;
S11:定义增量捕获调度执行计划;
S12:执行增量数据定期归集;
S13:执行数据统计结果查询。
2.如权利要求1所述大数据量的数据查询方法,其特征在于,在步骤S10中,具体又包括:
S101:定义增量单元;
S102:定义增量包;
S103:启用增量包并进行增量初始准备;
S104:增量订阅。
3.如权利要求2所述大数据量的数据查询方法,其特征在于:在步骤S101中,增量单元的结构包括有增量单元对应的数据表、增量的内容字段、数据表的主键字段、数据表的时间戳字段。
4.如权利要求3所述大数据量的数据查询方法,其特征在于:在步骤S102中,所述增量包中需要指定增量数据的捕获模式以及增量单元集合。
5.如权利要求4所述大数据量的数据查询方法,其特征在于:所述增量数据的捕获模式包括快照表模式、时间戳模式、触发器模式、以及数据库日志模式。
6.如权利要求5所述大数据量的数据查询方法,其特征在于:在步骤S103中,根据增量单元的结构,创建增量数据表,增量数据表的结构除了包括增量单元对应的内容字段和主键字段,还包括时间戳字段。
7.如权利要求6所述大数据量的数据查询方法,其特征在于:在步骤S11中,包括有:定义调度计划,设置调度自动增量归集的任务,并设置任务执行的频率和时间周期以及相关的执行方式。
8.如权利要求7所述大数据量的数据查询方法,其特征在于:在步骤S12中,定期执行增量数据归集,其具体包括以下的步骤:
S120:根据步骤S10中定义的增量捕获方式捕获增量数据;
S121:把增量数据加载到步骤S103中创建的增量数据表中;
S122:根据步骤S10中增量订阅的信息,生成增量数据同步到查询中间结果表中的存储过程;
S123:执行步骤S122中创建的存储过程,创建查询中间结果表,并把步骤S120中捕获的增量数据同步到查询中间结果表中。
CN2012100755125A 2012-03-21 2012-03-21 一种大数据量的数据查询方法 Pending CN102637206A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012100755125A CN102637206A (zh) 2012-03-21 2012-03-21 一种大数据量的数据查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012100755125A CN102637206A (zh) 2012-03-21 2012-03-21 一种大数据量的数据查询方法

Publications (1)

Publication Number Publication Date
CN102637206A true CN102637206A (zh) 2012-08-15

Family

ID=46621600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012100755125A Pending CN102637206A (zh) 2012-03-21 2012-03-21 一种大数据量的数据查询方法

Country Status (1)

Country Link
CN (1) CN102637206A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103745262A (zh) * 2013-12-30 2014-04-23 远光软件股份有限公司 一种数据归集方法和装置
CN106202110A (zh) * 2015-05-06 2016-12-07 阿里巴巴集团控股有限公司 数据质量检测的方法和装置
CN106682153A (zh) * 2016-12-23 2017-05-17 山东浪潮商用系统有限公司 一种基于数据建模及实现数据增量的数据抽取工具
WO2017113865A1 (zh) * 2015-12-31 2017-07-06 华为技术有限公司 一种大数据增量计算方法和装置
CN109033312A (zh) * 2018-07-17 2018-12-18 北京百度网讯科技有限公司 用于获取信息的方法和装置
CN109165257A (zh) * 2018-08-07 2019-01-08 中国建设银行股份有限公司 数据查询方法及相关系统、设备和存储介质
CN109241188A (zh) * 2018-09-05 2019-01-18 上海汽车集团股份有限公司 数据的涓流传输方法及装置、存储介质、终端
CN109271449A (zh) * 2018-09-30 2019-01-25 山东超越数控电子股份有限公司 一种基于文件的分布式存储查询系统及查询方法
CN110019423A (zh) * 2019-04-11 2019-07-16 山东浪潮云信息技术有限公司 一种适用于政务应用的统计方法
CN110278465A (zh) * 2019-06-21 2019-09-24 湖南快乐阳光互动娱乐传媒有限公司 一种视频cdn分布式http全链路数据收集与分析方法及系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103745262A (zh) * 2013-12-30 2014-04-23 远光软件股份有限公司 一种数据归集方法和装置
CN106202110B (zh) * 2015-05-06 2019-11-08 阿里巴巴集团控股有限公司 数据质量检测的方法和装置
CN106202110A (zh) * 2015-05-06 2016-12-07 阿里巴巴集团控股有限公司 数据质量检测的方法和装置
WO2017113865A1 (zh) * 2015-12-31 2017-07-06 华为技术有限公司 一种大数据增量计算方法和装置
CN106933882A (zh) * 2015-12-31 2017-07-07 华为技术有限公司 一种大数据增量计算方法和装置
CN106933882B (zh) * 2015-12-31 2020-09-29 华为技术有限公司 一种大数据增量计算方法和装置
CN106682153A (zh) * 2016-12-23 2017-05-17 山东浪潮商用系统有限公司 一种基于数据建模及实现数据增量的数据抽取工具
CN109033312A (zh) * 2018-07-17 2018-12-18 北京百度网讯科技有限公司 用于获取信息的方法和装置
CN109165257A (zh) * 2018-08-07 2019-01-08 中国建设银行股份有限公司 数据查询方法及相关系统、设备和存储介质
CN109241188A (zh) * 2018-09-05 2019-01-18 上海汽车集团股份有限公司 数据的涓流传输方法及装置、存储介质、终端
CN109271449A (zh) * 2018-09-30 2019-01-25 山东超越数控电子股份有限公司 一种基于文件的分布式存储查询系统及查询方法
CN110019423A (zh) * 2019-04-11 2019-07-16 山东浪潮云信息技术有限公司 一种适用于政务应用的统计方法
CN110278465A (zh) * 2019-06-21 2019-09-24 湖南快乐阳光互动娱乐传媒有限公司 一种视频cdn分布式http全链路数据收集与分析方法及系统

Similar Documents

Publication Publication Date Title
CN102637206A (zh) 一种大数据量的数据查询方法
CN107402976B (zh) 一种基于多元异构模型的电网多源数据融合方法及系统
CN104820670B (zh) 一种电力信息大数据的采集和存储方法
CN103593422A (zh) 一种异构数据库的虚拟访问管理方法
CN101571861B (zh) 一种对数据表进行转换的方法及装置
CN107038162A (zh) 基于数据库日志的实时数据查询方法和系统
CN107103064B (zh) 数据统计方法及装置
CN103019728B (zh) 一种高效复杂报表解析引擎及其解析方法
CN102546247A (zh) 一种适用流式处理的大规模数据连续分析系统
CN106126601A (zh) 一种社保大数据分布式预处理方法及系统
CN104850635B (zh) 一种多数据源环境下数据缺失自动检查及集中监控方法
CN104866580A (zh) 一种数据库变更对现有业务影响的快速侦测方法
CN102722355A (zh) 基于工作流机制的并发式etl转换方法
CN106951552A (zh) 一种基于Hadoop的用户行为数据处理方法
CN109739943A (zh) 面向自然资源矢量地表覆盖变化统计处理方法
CN108763234A (zh) 一种数据实时同步方法及系统
CN104407919A (zh) 一种数据处理任务调度系统及方法
Ceci et al. Big data techniques for supporting accurate predictions of energy production from renewable sources
CN102999528A (zh) 一种数据仓库中etl任务离线和数据清理的方法及装置
CN104881730A (zh) 一种基于工作流的锅炉虚拟样机协同设计系统及方法
CN112214453A (zh) 大规模工业数据压缩存储方法、系统及介质
CN102156799A (zh) 一种可级联的复杂事件处理引擎及列车检修自动记录方法
CN103020280B (zh) 一种通过多维度kpi函数对sql查询语句进行扩充的方法
CN114707948A (zh) 大型测绘生产项目的管理方法、装置及存储介质
CN105550351A (zh) 旅客行程数据即席查询系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120815