CN102521374B - 基于关系型联机分析处理的智能数据聚集方法及其系统 - Google Patents

基于关系型联机分析处理的智能数据聚集方法及其系统 Download PDF

Info

Publication number
CN102521374B
CN102521374B CN 201110427545 CN201110427545A CN102521374B CN 102521374 B CN102521374 B CN 102521374B CN 201110427545 CN201110427545 CN 201110427545 CN 201110427545 A CN201110427545 A CN 201110427545A CN 102521374 B CN102521374 B CN 102521374B
Authority
CN
China
Prior art keywords
data
gathering
inquiry
dimension
fact
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 201110427545
Other languages
English (en)
Other versions
CN102521374A (zh
Inventor
吴斌
袁红岗
高峡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Orange Red Technology Co ltd
Original Assignee
NANJING ORARO INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NANJING ORARO INFORMATION TECHNOLOGY Co Ltd filed Critical NANJING ORARO INFORMATION TECHNOLOGY Co Ltd
Priority to CN 201110427545 priority Critical patent/CN102521374B/zh
Publication of CN102521374A publication Critical patent/CN102521374A/zh
Application granted granted Critical
Publication of CN102521374B publication Critical patent/CN102521374B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于关系型联机分析处理的智能数据聚集方法,按如下步骤进行:(1)建立聚集表,并建立聚集表与维度表和事实表的关系;(2)分析聚集表与维度表和事实表的关系,生成数据提取、转化和加载的数据处理模块;(3)数据处理模块在数据库中定时启动,将事实表中的数据定时增加到聚集表中。(4)系统查询数据时,根据匹配聚集知识库中的信息匹配,判断查询的是聚集表还是事实表。办发明公开的方法,查询效率高、占用空间小并且节省人力成本。

Description

基于关系型联机分析处理的智能数据聚集方法及其系统
技术领域
本发明涉及一种智能数据处理方法,更具体的说,涉及一种基于关系型连接分析处理的智能数据处理方法。
背景技术
数据仓库系统中,查询速度是一个很棘手的问题,目前对于大数据量的事实表查询,查询的速度非常的慢。特别是在关系型联机分析处理(ROLAP)中的查询,如果要想提高查询的速度,就必须先根据业务需求把聚集表建立起来。但往往企业的业务分析是很复杂的,可能随时都会根据当前的状况改变查询的方式,粒度,维度等。这就给提前建立聚集表带来了难度,这时如果没有聚集表,就会去查询事实表,但事实表往往非常大,查询起来非常的慢。关系型联机分析处理(ROLAP)在数据分析中是一种很常用的方法,他的优点是存储空间小,但查询效率低,在建立聚集的维护方面,需要大量的人力资源去做维护。而基于多维的联机分析(Multidimension OLAP ,MOLAP)在数据分析中查询效率较高,但需求提前做聚集,并需要较大空间。
发明内容
本发明所要解决的技术问题是,克服现有技术的缺点,提供一种查询效率高、占用空间小并且节省人力成本的基于关系型联机分析处理的智能数据聚集方法。
本发明的另一目的是,提供能够实现本方法的基于关系型联机分析处理的智能数据聚集系统。
为了解决以上技术问题,本发明提供一种基于关系型联机分析处理的智能数据聚集方法,按如下步骤进行:
(1)建立聚集表,并建立聚集表与维度表和事实表的关系;
   (2)分析聚集表与维度表和事实表的关系,生成数据提取、转化和加载的数据处理模块;
(3)数据处理模块在数据库中定时启动,将事实表中的数据定时增加到聚集表中。
(4)系统查询数据时,根据匹配聚集知识库中的信息的情况,判断查询的是聚集表还是事实表。
本发明进一步限定的技术方案是:步骤(1)中,建立聚集表的方法为:
(Ⅰ)获得查询语句的查询频度、查询所用的时间或者报表模型的查询频度、查询所用的时间;
(Ⅱ)根据步骤(Ⅰ)中的数据,找到查询频度较大的和查询时间较大的查询语句或者报表模型;
(Ⅲ)分析获得的查询语句的维度、测度和粒度;如果是报表模型,则需要把模型转换成查询语句形式。
(Ⅳ)根据分析出查询语句的特点,包含的维度、测度和粒度,在数据仓库中创建具有最优查询时间和粒度的聚集表。
进一步的:所述步骤(1)中,还建立了聚集管理表、维度字典表和测度字典表,所述维度字典表和测度字典表通过外键与聚集管理表相关联,用于根据聚集管理表的权重去寻找需要查询的聚集表。
进一步的:步骤(4)中,匹配聚集知识库中的信息的方法为:根据系统查询时传进来的信息,先在维度字典表和测度字典表中找到相应的编码,再判断聚集表中是否有匹配信息且是否已经建立了聚集表,如果有匹配信息,则视为找到聚集表,则查询聚集表;否则,查询事实表。
进一步的:步骤(4)中,系统查询数据时的步骤为:
(a)根据前台的查询请求的维度与测度查询聚集管理表,如果有匹配数据,执行步骤(b),如果无匹配数据,执行步骤(c);
(b)返回相应聚集表名称,查询语句根据返回表名直接对数据库查询,查询结果在界面展示;
(c)执行步骤(b)后,对此聚集表在聚集管理表中出现的次数进行判断,如果等于0,执行步骤(d),如果大于0小于阀值,执行步骤(e),如果大于阀值执行步骤(f);
(d)将此聚集表插入聚集管理表中,查询事实表,给界面返回数据;
(e)查询聚集管理表,给界面返回数据,并更新聚集管理表中此聚集表出现的次数;
(f)建立相应聚集表并更改聚集管理表中此聚集表的状态后,返回界面信息询问是否查询事实表,如果是,则查询事实表给界面返回数据,如果否,则直接返回界面。
同时,本发明还公布了基于关系型联机分析处理的智能数据聚集系统,所述系统包括:
事实表模块:用于存储实际的明细数据;
聚集表模块:用于存储事实表数据的汇总数据;
维度表模块:用于存储聚集表的相关维度;
数据处理模块:用于将事实表中的数据定时增加到聚集表中;
定时器模块:用于定时开启数据处理模块。
对本发明的系统的进一步限定方案为:所述系统还包括聚集管理表模块、维度字典表模块和测度字典表模块,所述维度字典表模块和测度字典表模块通过外键与聚集管理表模块相关联,用于根据聚集管理表模块的权重去寻找需要查询的聚集表模块。
进一步的:所述系统还包括阀值设置器,用于设定阀值控制系统建立新的聚集表模块。
本发明的有益效果是:这种方法可极大的简化在数据仓库中建立聚集表的流程,方便维护聚集表,提高工作效率,可减少数据仓库人员人工的去建立聚集汇总表的过程。在BI系统中,由于所有的分析都是通过拖放维度和测度去分析业务数据的,数据分析人员随时都可能会更改分析的方法,当分析完毕后,得出结果,最后沉淀下来,形成一个固定的查询或者分析的报表,这个查询或分析报表是要经常使用的,就需要考虑效率问题,这时就需要人工建立聚集查询汇总表。此方法就是根据这个经常查询的报表或者分析报表,自动的建立聚集汇总表。建立完毕后,系统又会自动能识别到这个聚集汇总表,这样,就极大的提高的工作效率和减少了数据仓库人员的维护工作量,提高数据仓库系统的查询速度,特别是提高关系型联机分析处理速度,降低维护成本。
附图说明
图1为本发明的基于关系型联机分析处理的智能数据聚集方法。
具体实施方式
本实施例提供的一种基于关系型联机分析处理的智能数据聚集系统,所述系统包括:事实表模块:用于存储实际的明细数据;聚集表模块,用于存储事实表数据的汇总数据;维度表模块:用于存储聚集表的相关维度;数据处理模块:用于将事实表中的数据定时增加到聚集表中;定时器:用于定时开启数据处理模块。
所述系统还包括聚集管理表模块、维度字典表模块和测度字典表模块,所述维度字典表模块和测度字典表模块通过外键与聚集管理表相关联,用于根据聚集管理表模块的权重去寻找需要查询的聚集表模块。所述维度字典表模块中存储的是维度名称,属性,层次,名称,层次级别,维度编码等信息。所述测度字典表模块中存储的是测度字段,名称,编码,公式等信息。所述聚集管理表模块中存储的是聚集名称,维度编码,测度编码,权重,公式等信息。
所述系统还包括阀值设置器,用于设定阀值控制系统建立新的聚集表。
本发明公开的基于关系型联机分析处理的智能数据聚集系统的工作方法按如下步骤进行:
(1)建立聚集表,并建立聚集表与维度表和事实表的关系。同时,建立聚集管理表、维度字典表和测度字典表,所述维度字典表和测度字典表通过外键与聚集管理表相关联,用于根据聚集管理表的权重去寻找需要查询的聚集表。
建立聚集表的方法为:
(Ⅰ)获得查询语句的查询频度、查询所用的时间或者报表模型的查询频度、查询所用的时间;
(Ⅱ)根据步骤(Ⅰ)中的数据,找到查询频度较大的和查询时间较大的查询语句或者报表模型;
(Ⅲ)分析获得的查询语句的维度、测度和粒度;如果是报表模型,则需要把模型转换成查询语句形式。
(Ⅳ)根据分析出查询语句的特点,包含的维度、测度和粒度,在数据仓库中创建具有最优查询时间和粒度的聚集表。
   (2)分析聚集表与维度表和事实表的关系,生成数据提取、转化和加载的数据处理模块;
(3)数据处理模块在数据库中定时启动,将事实表中的数据定时增加到聚集表中。
(4)系统查询数据时,根据匹配聚集知识库中的信息的情况,判断查询的是聚集表还是事实表。
匹配聚集知识库中的信息的方法为:根据系统查询时传进来的信息,先在维度字典表和测度字典表中找到相应的编码,再判断聚集表中是否有匹配信息且是否已经建立了聚集表,如果有匹配信息,则视为找到聚集表,则查询聚集表;否则,查询事实表。
系统查询数据时的步骤为:
(a)根据前台的查询请求的维度与测度查询聚集管理表,如果有匹配数据,执行步骤(b),如果无匹配数据,执行步骤(c);
(b)返回相应聚集表名称,查询语句根据返回表名直接对数据库查询,查询结果在界面展示;
(c)执行步骤(b)后,对此聚集表在聚集管理表中出现的次数进行判断,如果等于0,执行步骤(d),如果大于0小于阀值,执行步骤(e),如果大于阀值执行步骤(f);
(d)将此聚集表插入聚集管理表中,查询事实表,给界面返回数据;
(e)查询聚集管理表,给界面返回数据,并更新聚集管理表中此聚集表出现的次数;
(f)建立相应聚集表并更改聚集管理表中此聚集表的状态后,返回界面信息询问是否查询事实表,如果是,则查询事实表给界面返回数据,如果否,则直接返回界面。
除上述实施例外,本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案,均落在本发明要求的保护范围。

Claims (1)

1.基于关系型联机分析处理的智能数据聚集方法,其特征在于:按如下步骤进行:
(1)建立聚集表,并建立聚集表与维度表和事实表的关系;还建立了聚集管理表、维度字典表和测度字典表,所述维度字典表和测度字典表通过外键与聚集管理表相关联,用于根据聚集管理表的权重去寻找需要查询的聚集表;
其中,建立聚集表的方法为:
(Ⅰ)获得查询语句的查询频度、查询所用的时间或者报表模型的查询频度、查询所用的时间;
(Ⅱ)根据步骤(Ⅰ)中的数据,找到查询频度较大的和查询时间较大的查询语句或者报表模型;
(Ⅲ)分析获得的查询语句的维度、测度和粒度;如果是报表模型,则需要把模型转换成查询语句形式;
(Ⅳ)根据分析出查询语句的特点,包含的维度、测度和粒度,在数据仓库中创建具有最优查询时间和粒度的聚集表;
(2)分析聚集表与维度表和事实表的关系,生成数据提取、转化和加载的数据处理模块;
(3)数据处理模块在数据库中定时启动,将事实表中的数据定时增加到聚集表中;
(4)系统查询数据时,根据匹配聚集知识库中的信息的情况,判断查询的是聚集表还是事实表;
上述系统查询数据时的步骤为:
(a)根据前台的查询请求的维度与测度查询聚集管理表,如果有匹配数据,执行步骤(b),如果无匹配数据,执行步骤(c);
(b)返回相应聚集表名称,查询语句根据返回表名直接对数据库查询,查询结果在界面展示;
(c)执行步骤(b)后,对此聚集表在聚集管理表中出现的次数进行判断,如果等于0,执行步骤(d),如果大于0小于阀值,执行步骤(e),如果大于阀值执行步骤(f);
(d)将此聚集表插入聚集管理表中,查询事实表,给界面返回数据;
(e)查询聚集管理表,给界面返回数据,并更新聚集管理表中此聚集表出现的次数;
(f)建立相应聚集表并更改聚集管理表中此聚集表的状态后,返回界面信息询问是否查询事实表,如果是,则查询事实表给界面返回数据,如果否,则直接返回界面;
上述匹配聚集知识库中的信息的方法为:根据系统查询时传进来的信息,先在维度字典表和测度字典表中找到相应的编码,再判断聚集表中是否有匹配信息且是否已经建立了聚集表,如果有匹配信息,则视为找到聚集表,则查询聚集表;否则,查询事实表。
CN 201110427545 2011-12-20 2011-12-20 基于关系型联机分析处理的智能数据聚集方法及其系统 Expired - Fee Related CN102521374B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110427545 CN102521374B (zh) 2011-12-20 2011-12-20 基于关系型联机分析处理的智能数据聚集方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110427545 CN102521374B (zh) 2011-12-20 2011-12-20 基于关系型联机分析处理的智能数据聚集方法及其系统

Publications (2)

Publication Number Publication Date
CN102521374A CN102521374A (zh) 2012-06-27
CN102521374B true CN102521374B (zh) 2013-10-30

Family

ID=46292287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110427545 Expired - Fee Related CN102521374B (zh) 2011-12-20 2011-12-20 基于关系型联机分析处理的智能数据聚集方法及其系统

Country Status (1)

Country Link
CN (1) CN102521374B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577455A (zh) 2012-07-31 2014-02-12 国际商业机器公司 用于数据库聚集操作的数据处理方法和系统
CN104376025B (zh) * 2013-08-16 2017-10-10 华为技术有限公司 分布式数据库的数据存储方法和装置
CN104794130B (zh) * 2014-01-20 2018-05-18 华为技术有限公司 一种表间关联查询方法和装置
CN105679309B (zh) * 2014-11-21 2019-05-07 北京讯飞乐知行软件有限公司 一种语音识别系统的优化方法及装置
CN105574188A (zh) * 2015-12-23 2016-05-11 武汉璞华大数据技术有限公司 一种数据分维度分层次管理的方法及系统
CN108268536A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 数据库聚合处理方法及装置
CN110069508A (zh) * 2017-10-11 2019-07-30 北京奇虎科技有限公司 基于大数据的数据分析方法、装置及终端设备
CN107729500B (zh) * 2017-10-20 2021-01-05 锐捷网络股份有限公司 一种联机分析处理的数据处理方法、装置及后台设备
CN110377668A (zh) * 2019-06-18 2019-10-25 深圳市华傲数据技术有限公司 数据分析方法和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944116B (zh) * 2010-09-20 2013-01-16 常州伊冉科技有限公司 一种数据仓库中复杂多维层次的连接和聚集方法
CN102156725B (zh) * 2011-04-01 2013-07-31 中国测绘科学研究院 一种提高数据仓库查询性能的方法

Also Published As

Publication number Publication date
CN102521374A (zh) 2012-06-27

Similar Documents

Publication Publication Date Title
CN102521374B (zh) 基于关系型联机分析处理的智能数据聚集方法及其系统
Zhang et al. Data preparation for data mining
CN102184222B (zh) 一种在大数据量存储中快速检索的方法
CN108268565B (zh) 基于数据仓库处理用户浏览行为数据的方法及系统
CN105335479B (zh) 一种基于sql的文本数据统计实现方法
CN105427193A (zh) 一种基于分布式时序数据服务的大数据分析装置及方法
Zhou et al. A survey on the management of uncertain data
CN102262640A (zh) 一种全文检索文档数据库的方法及装置
CN102902752A (zh) 一种日志监控方法及系统
WO2015085622A1 (zh) 一种物联网终端设备的语义化方法
CN102968464B (zh) 一种基于索引的本地资源快速检索系统的检索方法
CN103186541A (zh) 一种映射关系生成方法及装置
CN109815283A (zh) 一种异构数据源可视化查询方法
CN103092867A (zh) 一种数据管理方法及系统、数据分析装置
CN102521321A (zh) 基于检索词歧义性和用户偏好的视频搜索方法
CN102819600B (zh) 面向电力生产管理系统关系数据库的关键词搜索方法
CN110427298A (zh) 一种分布式日志的自动特征提取方法
CN110928903B (zh) 数据提取方法及装置、设备和存储介质
Lv et al. Design of cloud data warehouse and its application in smart grid
CN102156799A (zh) 一种可级联的复杂事件处理引擎及列车检修自动记录方法
CN105138643A (zh) 专利检索系统及其检索方法
CN111666308B (zh) 一种基于行为分析的大数据智能推荐查询方法和系统
CN107291938A (zh) 订单查询系统及方法
CN101968747A (zh) 一种机群应用管理系统及其应用管理方法
CN109325036A (zh) 一种实现实时数据同步的系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: NANJING ORARO INFORMATION TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: NANJING JIESUO SOFTWARE TECHNOLOGY CO., LTD.

Effective date: 20120904

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 210037 NANJING, JIANGSU PROVINCE TO: 210000 NANJING, JIANGSU PROVINCE

TA01 Transfer of patent application right

Effective date of registration: 20120904

Address after: 210000 tulip software building 6F, tulip Road 2, Yuhuatai District, Jiangsu, Nanjing

Applicant after: NANJING ORARO INFORMATION TECHNOLOGY Co.,Ltd.

Address before: Yuhuatai District of Nanjing city Ning dual 210037 Jiangsu province No. 28 room 1107

Applicant before: NANJING JIEJUN SOFTWARE TECHNOLOGY Co.,Ltd.

C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP03 Change of name, title or address

Address after: 2, 210000, 106 software Avenue, Yuhuatai District, Jiangsu, Nanjing province 1201-1

Patentee after: NANJING ORANGE RED TECHNOLOGY CO.,LTD.

Address before: 210000 tulip software building 6F, tulip Road 2, Yuhuatai District, Jiangsu, Nanjing

Patentee before: NANJING ORARO INFORMATION TECHNOLOGY Co.,Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Intelligent data aggregation method and intelligent data aggregation system based on relational online analytical processing

Effective date of registration: 20181109

Granted publication date: 20131030

Pledgee: Industrial Commercial Bank of China Ltd. Nanjing new town science and technology sub branch

Pledgor: NANJING ORANGE RED TECHNOLOGY CO.,LTD.

Registration number: 2018320000266

PE01 Entry into force of the registration of the contract for pledge of patent right
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131030