CN104536982A - 一种数据处理方法及装置 - Google Patents

一种数据处理方法及装置 Download PDF

Info

Publication number
CN104536982A
CN104536982A CN201410743278.8A CN201410743278A CN104536982A CN 104536982 A CN104536982 A CN 104536982A CN 201410743278 A CN201410743278 A CN 201410743278A CN 104536982 A CN104536982 A CN 104536982A
Authority
CN
China
Prior art keywords
index
data
result
data processing
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410743278.8A
Other languages
English (en)
Inventor
徐勇
朱培冬
郝栋
姬永杰
刘广财
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING UFIDA SOFTWARE CO LTD
Original Assignee
BEIJING UFIDA SOFTWARE CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING UFIDA SOFTWARE CO LTD filed Critical BEIJING UFIDA SOFTWARE CO LTD
Priority to CN201410743278.8A priority Critical patent/CN104536982A/zh
Publication of CN104536982A publication Critical patent/CN104536982A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Abstract

本发明涉及一种数据处理方法及装置,该方法包括如下步骤:首先,对指标的基本信息和计算规则进行配置,所述的指标包括提数类指标和公式类指标;其次,自动装载上述步骤中的指标配置信息并完成指标的计算工作,得到指标结果。本发明还涉及一种数据处理装置,包括配置模块和能够自动装载配置模块的运行模块。本发明提供的数据处理方法能够将事实表中的源数据高效地转变成最终的指标数据,提高指标数据计算效率。本发明的数据处理装置,结构简单,操作容易。

Description

一种数据处理方法及装置
技术领域
本发明属于数据仓库领域中数据计算或数据处理领域,具体涉及一种提高数据计算效率和灵活性的数据处理方法及装置。
背景技术
随着大数据概念的兴起,各个行业都在基于数据仓库技术,积极地利用行业生产过程中产生的各类结构化和非结构化数据。传统的数据指标计算方法在计算每个指标时,往往需要进行复杂的配置操作,或者开发代码完成,相同或者类似的计算过程无法重用,重复性工作很多,并且当指标计算规则发生变化时,也需要进行同样的配置或者开发,导致不能及时响应用户指标统计分析的需求。
传统的数据指标计算方法,计算规则和计算过程绑定比较紧密,这种处理方法有两个弊端:一是指标计算规则发生调整或者新增指标时,需要技术人员进行配置或者调整代码,系统使用者无法直接干预;二是指标没有集中管理,中间计算结果以及过渡指标不能复用,经常会出现重复计算的现象,导致整体数据计算效率低下。
发明内容
针对现有技术中存在的缺陷,本发明提供一种数据处理方法,能够提高数据计算效率、计算灵活性和可扩展性。
为实现上述目的,本发明采用的技术方案如下:提供一种数据处理方法,该方法包括如下步骤:
(1)对指标的基本信息和计算规则进行配置,所述的指标包括提数类指标和公式类指标;
(2)自动装载上述步骤中的指标配置信息并完成指标的计算工作,得到指标结果。
进一步,在步骤(1)中,将待计算各个指标的基本信息存储在预设的指标定义表中,进行统一管理。
进一步,在步骤(1)中,所述提数类指标是从预先设置的事实表元数据里选取事实表名称及度量字段名称,设置对应的提数规则;所述公式类指标,选取依赖指标,设置依赖指标之间的计算规则。
进一步,所述提数类指标采用事实表数据口径,所述公式类指标根据依赖指标的数据口径,取得每个指标计算维度使用到最粗的级次,作为该公式类指标的数据口径。
进一步,将提数类指标的提数规则存储在预设的提数规则配置表,将依赖指标以及对应的计算规则存储在预设的公式规则配置表里。
进一步,所述提数类指标由于不依赖任何其他指标,先进行计算,计算步骤如下:
a、从指标定义表里取得事实表和度量字段名称;
b、从提数规则配置表里取得提数类指标的计算规则;
c、动态组装事实表数据源和计算规则完成指标计算,并将计算结果保存到预设指标结果表里;
d、对每个指标计算维度逐级向上汇总,得到各级汇总数据口径的计算结果。
e、将各级计算结果也保存到指标结果表,结束该提数类指标计算。
进一步,所述公式类指标按照优先级逐一进行计算,计算步骤如下:
a1、从公式规则配置表里取得所有依赖指标及各依赖指标之间的计算公式;
b1、根据依赖指标自动计算出该指标的数据口径;
c1、按照此数据口径从指标结果表取得所有依赖指标的计算结果;
d1、根据公式进行计算,将结果保存在指标结果表;
e1、对每个依赖指标计算维度逐级向上汇总,得到各级数据口径的计算结果;
f1、将各级计算结果也保存到指标结果表里,结束该公式类指标计算。
本发明还提供一种数据处理装置,包括配置模块和运行模块,所述配置模块用于对指标的基本信息和对应的计算规则进行配置;所述运行模块用于自动装载所述配置模块中的指标配置信息,并完成指标的计算工作,得到指标结果。
进一步,配置模块包括提数类指标子模块和公式类指标子模块,提数类指标子模块用于存储提数类指标的提数规则;公式类指标子模块用于存储所有的依赖指标以及对应的计算规则。
进一步,运行模块包括提数运算模块和公式计算模块,提数运算模块用于读取事实表源数据以及提数类指标子模块中对应的提数规则,并进行计算;所述公式计算模块,用于读取公式类指标子模块中的依赖指标和对应的计算规则,并进行计算。
本发明的有益技术效果在于:
(1)本发明提供的数据处理方法,提供了一套统一的待计算指标的计算规则配置功能及指标自动装载功能,当指标的计算规则和计算公式发生变化时,由业务用户直接调整指标的相关配置即可生效,无需复杂的配置程序,就能够将事实表中的源数据高效地转变成最终的指标数据,提高了数据的计算效率和数据使用的灵活性。
(2)本发明将所有涉及数据计算的指标,进行统一维护,加强了各个指标间的数据共享,避免了重复操作,提高数据计算效率;
(3)结构简单,操作容易。
附图说明
图1为本发明数据处理的流程图;
图2为提数类指标配置的示例表;
图3为公式类指标配置的示例表;
图4为指标计算运行期结构图;
图5为提数类指标计算过程图;
图6为公式类指标计算过程图;
图7为指标定义表;
图8为提数条件配置表;
图9为公式规则配置表;
图10指标结果表;
图11指标结果表数据存储示例表。
具体实施方式
下面结合说明书附图与具体实施方式对本发明作进一步的详细说明。
本发明提供了一种针对多维数据的处理方法,该方法提供了一套统一的各类待计算指标的计算规则配置功能及指标自动装置计算的机制。预先将指标的基本信息和计算规则,通过前台的配置功能维护到一套配置表里,在数据计算时自动装载配置表,对指标进行逐一计算,获得最终需要的指标数据,从而将事实表中的源数据高效地转变成最终的指标数据,提高了数据计算效率。
如图1所示,将上述方法分为配置期和运行期;配置期用于确定待计算的各个指标,根据待计算各个指标,配置对应的计算规则;在配置过程将所有指标进行统一管理,并且按照计算过程的不同将指标分为两大类,提数类指标和公式类指标。运行期自动装载配置期的指标配置信息,并完成指标的计算工作,获取需要的指标数据计算结果。
提数类指标定义指标基本信息,从预先维护的事实表元数据里选取事实表名称及度量字段名称,设置提数指标规则,采用事实表数据口径。提数类指标配置功能参见图2。
公式类指标定义指标基本信息,选取依赖的指标,设置对应的计算公式,并且根据依赖指标的数据口径,取得每个指标计算维度使用到最粗的级次,作为该公式指标的数据口径。
举例如下:
1)指标A和指标B都只使用到时间维度;
2)指标A的数据口径到月,指标B的数据口径到年;
3)指标C=指标A+指标B,在进行交集计算时,指标A也需要使用到年的数据口径,计算结果指标C的数据口径也是到年;
4)为了计算方便,每个指标都需要逐级汇总计算结果数据,如指标A在做计算时,除了到月的基本数据口径,还需逐级汇总计算生成到年的口径,以及全部年度口径的结果数据。公式类指标前台配置功能,参见图3,配置指标编码、指标名称及计算规则。
运行期自动装载配置期的指标配置信息并且完成指标的计算工作,运行期结构参见图4。该过程从指标定义表中取得需要参与计算的指标,按照优先级逐一进行计算,将最终的结果保存在指标结果表里。提数类指标由于不依赖任何其他指标,首先进行计算,整个计算过程分为以下5步,参见图5。
1)从指标定义表取得事实表和度量字段名称;
2)从提数条件配置表里取得提数规则;
3)动态组装事实表数据源和提数条件进行计算,将计算结果保存到指标结果表里;
4)对每个指标计算维度逐级向上汇总,得到各级汇总数据口径的计算结果;
5)将各级计算结果也保存到指标结果表,结束该提数类指标计算。
公式类指标按照优先级逐一进行计算,整个计算过程分为以下6步,参见图6。
1)从公式规则配置表里取得所有依赖的指标及对应的计算公式;
2)根据依赖指标自动计算出该指标的数据口径;
3)按此数据口径从指标结果表里取得所有依赖指标的计算结果;
4)根据公式进行计算,将结果保存到指标结果表;
5)对每个指标计算维度逐级向上汇总,得到各级数据口径的计算结果;
6)将各级计算结果也保存到指标结果表,结束该公式类指标计算。
本发明使用到的数据库表包括:
指标定义表:将需要进行数据计算的指标统一管理。该表存储所有指标的基本信息,参见图7。该表包括字段描述、字段名、默认值、字段类型、是否主键、是否非空。其中,字段描述包括指标ID、指标编码、指标名称、指标类型、事实表名称、度量字段、提数条件、计算优先级以及数据口径。例如,指标ID,对应的字段名是:CHR_ID,字段类型是:Varchar2(40),是否主键:是,是否非空:是。
提数条件配置表:该表存储提数类指标的提数条件,参见图8。该提数条件配置表包括指字段描述、字段名、默认值、字段类型、是否主键、是否非空。其中,字段描述包括指标ID、左括号属性、条件维度、关系运算符、条件值、右括号、逻辑运算符、提数条件排序。例如:指标ID,对应的字段名是:ITEM_ID,字段类型:Varchar2(40),是否主键:是,是否非空:是。
公式规则配置表:该表存储公式类指标所依赖的指标以及公式规则,参见图9。该表包括字段描述、字段名、默认值、字段类型、是否主键、是否非空。字段描述包括指标ID、依赖指标ID、运算法则以及公式规则排序。例如:指标ID,对应的字段名是:ITEM_ID,字段类型:Varchar2(40),是否主键:是,是否非空:是。
指标结果表:该表存储指标的计算结果,参见图10。该表包括字段描述、字段名、默认值、字段类型、是否主键、是否非空;字段描述包括指标ID、数据口径、口径值以及指标值。例如:字段名是:ITEM_ID,字段类型:Varchar2(40)。
指标存储示例表,参见图11。该表包括指标ID、数据口径、口径值以及指标值。其中,指标ID包括指标A、指标B以及指标C。例如:指标A对应的数据口径是:时间#2+区划#0,口径值是:时间#201402+区划#全部,指标值:100。
本发明提供的数据处理装置,包括配置模块1和运行模块2,配置模块1完成对指标的基本信息和计算规则的配置,在配置过程中对所有的指标进行统一管理;运行模块2自动装载所述配置模块中的指标配置信息,并且通过计算规则完成指标的计算工作,将计算结果保存在指标结果表里。
配置模块1包括提数类指标子模块11和公式类指标子模块12,提数类指标子模块11用于存储提数类指标的提数规则;公式类指标子模块12用于存储所有的依赖指标以及对应的计算规则。
运行模块2包括提数运算模块21和公式计算模块22,提数运算模块21用于读取事实表源数据以及提数类指标子模块11中对应的提数规则,并进行计算;所述公式计算模块22,用于读取公式类指标子模块12中的依赖指标和对应的计算规则,并进行计算。
本发明对技术术语进行解释:
提数类指标:从单一的事实表,按简单的提数条件,就能计算得到结果的指标。
公式类指标:基于提数类指标或者其他公式类指标,按照公式计算得到结果的指标。
依赖指标:参与公式类指标计算的提数类指标或者公式类指标。
指标计算维度:允许参与指标计算的维度,如区划和时间等。
数据口径:体现指标数据的颗粒度,记录指标计算维度的级次。从事实表开始就明确数据口径,提数类指标继承对应事实表的数据口径,公式类指标的数据口径通过依赖指标的数据口径自动计算。
本发明的数据处理方法及装置并不限于上述具体实施方式,本领域技术人员根据本发明的技术方案得出其他的实施方式,同样属于本发明的技术创新范围。

Claims (10)

1.一种数据处理方法,包括以下步骤:
(1)对指标的基本信息和计算规则进行配置,所述的指标包括提数类指标和公式类指标;
(2)自动装载上述步骤中的指标配置信息并完成指标的计算工作,得到指标结果。
2.如权利要求1所述的一种数据处理方法,其特征是:在步骤(1)中,将待计算各个指标的基本信息存储在预设的指标定义表中,进行统一管理。
3.如权利要求1所述的一种数据处理方法,其特征是:在步骤(1)中,所述提数类指标是从预先设置的事实表元数据里选取事实表名称及度量字段名称,设置对应的提数规则;所述公式类指标是选取依赖指标,设置各依赖指标之间的计算规则。
4.如权利要求3所述的一种数据处理方法,其特征是:所述提数类指标采用事实表数据口径,所述公式类指标根据依赖指标的数据口径,取得每个依赖指标计算维度使用到最粗的级次,作为该公式类指标的数据口径。
5.如权利要求4所述的一种数据处理方法,其特征是:将提数类指标的提数规则存储在预设的提数规则配置表,将依赖指标以及对应的计算规则存储在预设的公式规则配置表里。
6.如权利要求5所述的一种数据处理方法,其特征是:所述提数类指标由于不依赖任何其他指标,优先进行计算,计算步骤如下:
a、从指标定义表里取得事实表和度量字段名称;
b、从提数规则配置表里取得提数类指标的计算规则;
c、动态组装事实表数据源和计算规则完成指标计算,并将计算结果保存到预设指标结果表里;
d、对每个指标计算维度逐级向上汇总,得到各级汇总数据口径的计算结果;
e、将各级计算结果也保存到指标结果表,结束该提数类指标计算。
7.如权利要求5所述的一种数据处理方法,其特征是:所述公式类指标按照优先级逐一进行计算,计算步骤如下:
a1、从公式规则配置表里取得所有依赖指标及对应的计算规则;
b1、根据依赖指标自动计算出该指标的数据口径;
c1、按照此数据口径从指标结果表取得所有依赖指标的计算结果;
d1、根据计算规则进行计算,将结果保存在指标结果表;
e1、对每个依赖指标计算维度逐级向上汇总,得到各级数据口径的计算结果;
f1、将各级计算结果也保存到指标结果表里,结束该公式类指标计算。
8.一种数据处理装置,其特征是:包括配置模块和运行模块,所述配置模块用于对指标的基本信息和对应的计算规则进行配置;所述运行模块用于自动装载所述配置模块中的指标配置信息,并完成指标的计算工作,得到指标结果。
9.如权利要求8所述的数据处理装置,其特征是:所述的配置模块包括提数类指标子模块和公式类指标子模块,提数类指标子模块用于存储提数类指标的提数规则;公式类指标子模块用于存储所有的依赖指标以及对应的计算规则。
10.如权利要求9所述的数据处理装置,其特征是:所述的运行模块包括提数运算模块和公式计算模块,提数运算模块用于读取事实表源数据以及提数类指标子模块中对应的提数规则,并进行计算;所述公式计算模块,用于读取公式类指标子模块中的依赖指标和对应的计算规则,并进行计算。
CN201410743278.8A 2014-12-08 2014-12-08 一种数据处理方法及装置 Pending CN104536982A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410743278.8A CN104536982A (zh) 2014-12-08 2014-12-08 一种数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410743278.8A CN104536982A (zh) 2014-12-08 2014-12-08 一种数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN104536982A true CN104536982A (zh) 2015-04-22

Family

ID=52852510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410743278.8A Pending CN104536982A (zh) 2014-12-08 2014-12-08 一种数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN104536982A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933299A (zh) * 2015-06-03 2015-09-23 浪潮软件集团有限公司 一种数据处理的方法及装置
CN105404608A (zh) * 2015-10-27 2016-03-16 中通服公众信息产业股份有限公司 一种基于公式解析的复杂指标集计算方法和系统
CN106598914A (zh) * 2015-10-15 2017-04-26 北京国双科技有限公司 数据处理的方法和装置
CN108170718A (zh) * 2017-12-05 2018-06-15 北京先进数通信息技术股份公司 一种指标数据的处理方法和装置
CN108829710A (zh) * 2018-05-03 2018-11-16 北京奇虎科技有限公司 一种数据分析方法和装置
CN109086309A (zh) * 2018-06-21 2018-12-25 深圳市彬讯科技有限公司 一种指标维度关系定义方法、服务器及存储介质
CN109710504A (zh) * 2018-12-28 2019-05-03 四川新网银行股份有限公司 一种自定义的可视化实时监控数据监控方法
CN109933617A (zh) * 2019-03-08 2019-06-25 恒生电子股份有限公司 一种数据处理方法、装置以及相关设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020038306A1 (en) * 2000-06-16 2002-03-28 Griffin David Antony John Method of managing slowly changing dimensions
CN101599067A (zh) * 2009-06-02 2009-12-09 广东金宇恒科技有限公司 一种用户自定制报表的方法
CN102289373A (zh) * 2011-07-28 2011-12-21 福建富士通信息软件有限公司 一种实现指标评价体系动态配置的方法
CN103473342A (zh) * 2013-09-23 2013-12-25 北京久其软件股份有限公司 一种报表数据生成方法及系统
CN103853820A (zh) * 2014-02-20 2014-06-11 北京用友政务软件有限公司 一种数据处理方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020038306A1 (en) * 2000-06-16 2002-03-28 Griffin David Antony John Method of managing slowly changing dimensions
CN101599067A (zh) * 2009-06-02 2009-12-09 广东金宇恒科技有限公司 一种用户自定制报表的方法
CN102289373A (zh) * 2011-07-28 2011-12-21 福建富士通信息软件有限公司 一种实现指标评价体系动态配置的方法
CN103473342A (zh) * 2013-09-23 2013-12-25 北京久其软件股份有限公司 一种报表数据生成方法及系统
CN103853820A (zh) * 2014-02-20 2014-06-11 北京用友政务软件有限公司 一种数据处理方法及系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933299A (zh) * 2015-06-03 2015-09-23 浪潮软件集团有限公司 一种数据处理的方法及装置
CN106598914A (zh) * 2015-10-15 2017-04-26 北京国双科技有限公司 数据处理的方法和装置
CN105404608A (zh) * 2015-10-27 2016-03-16 中通服公众信息产业股份有限公司 一种基于公式解析的复杂指标集计算方法和系统
CN108170718A (zh) * 2017-12-05 2018-06-15 北京先进数通信息技术股份公司 一种指标数据的处理方法和装置
CN108829710A (zh) * 2018-05-03 2018-11-16 北京奇虎科技有限公司 一种数据分析方法和装置
CN109086309A (zh) * 2018-06-21 2018-12-25 深圳市彬讯科技有限公司 一种指标维度关系定义方法、服务器及存储介质
CN109086309B (zh) * 2018-06-21 2022-12-30 土巴兔集团股份有限公司 一种指标维度关系定义方法、服务器及存储介质
CN109710504A (zh) * 2018-12-28 2019-05-03 四川新网银行股份有限公司 一种自定义的可视化实时监控数据监控方法
CN109933617A (zh) * 2019-03-08 2019-06-25 恒生电子股份有限公司 一种数据处理方法、装置以及相关设备和介质

Similar Documents

Publication Publication Date Title
CN104536982A (zh) 一种数据处理方法及装置
KR102134494B1 (ko) 위치 정보를 가진 데이터 프로파일링
US9600507B2 (en) Index structure for a relational database table
Gufler et al. Load balancing in mapreduce based on scalable cardinality estimates
KR102409552B1 (ko) 키드 엔티티들의 속성 매핑
US9158812B2 (en) Enhancing parallelism in evaluation ranking/cumulative window functions
CN104090962B (zh) 面向海量分布式数据库的嵌套查询方法
CN105022739B (zh) 数据的存储方法及装置
JP2015536001A (ja) 連続クエリをチェーン接続するための機構
CN106970929B (zh) 数据导入方法及装置
CN105183880A (zh) 一种哈希连接的方法及装置
CN104794130A (zh) 一种表间关联查询方法和装置
CN111324781A (zh) 一种数据分析方法、装置及设备
US10248620B2 (en) Database table column annotation
CN108874873B (zh) 数据查询方法、装置、存储介质及处理器
US20140358963A1 (en) Information retrieval from a database system
CN108664605A (zh) 一种模型评估方法及系统
WO2015116054A1 (en) Multi-column statistic generation of a multi-dimensional tree
US20170075956A1 (en) Context based access path selection
US9058344B2 (en) Supporting flexible types in a database
CN104239008B (zh) 并行数据库管理系统及设计方案
US10229149B2 (en) Global filter factor estimation
CN104252544A (zh) 一种大数据挖掘方法及装置
Yu et al. Database engine integration and performance analysis of the BigDAWG polystore system
US10769149B2 (en) Transitive local predicated across multiple joins

Legal Events

Date Code Title Description
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150422

RJ01 Rejection of invention patent application after publication