CN113268468A - 一种设计数据仓库的方法 - Google Patents

一种设计数据仓库的方法 Download PDF

Info

Publication number
CN113268468A
CN113268468A CN202110643416.5A CN202110643416A CN113268468A CN 113268468 A CN113268468 A CN 113268468A CN 202110643416 A CN202110643416 A CN 202110643416A CN 113268468 A CN113268468 A CN 113268468A
Authority
CN
China
Prior art keywords
index
indexes
layer
designing
data warehouse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110643416.5A
Other languages
English (en)
Inventor
詹步上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Tonglian Financial Services Co Ltd
Original Assignee
Shanghai Tonglian Financial Services Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Tonglian Financial Services Co Ltd filed Critical Shanghai Tonglian Financial Services Co Ltd
Priority to CN202110643416.5A priority Critical patent/CN113268468A/zh
Publication of CN113268468A publication Critical patent/CN113268468A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种设计数据仓库的方法,包括以下步骤:确认每个指标的计算公式,将没有计算的指标定义为第0层的指标,有1次计算的指标定义为第1层的指标,有2次计算的指标定义为第2层的指标,依此类推,定义所有指标的层级;根据业务类型或数据库设计将第0层的指标进行分表;根据第0层中指标的分表情况的关联关系对第1层的指标进行分表,根据第1层中指标的分表情况的关联关系对第2层的指标进行分表,依此类推,将各层指标进行分表。本发明通过找到多个指标的共同依赖指标,从而提高了数据的重复利用率,减少了对存储的占用,也便于维护和管理;且本发明适用于各种数量级的指标体系的数据仓库的建立,具有一定通用性。

Description

一种设计数据仓库的方法
技术领域
本发明涉及数据管理技术领域,特别涉及一种设计数据仓库的方法。
背景技术
银行日常经营中,会收集银行用户的各项数据,比如卡号、存款金额、信用卡额度等等,这些基础数据是通过直接采集或者业务人员手动设置等方式产生的,并存放在银行的数据库中。而经营指标数据需要通过基础数据的计算获得:银行业务人员在了解经营情况时,需要通过各种方式计算出自己需要的指标数据,比如信用卡发卡数量、银行授信总额度等等指标。这些指标无法通过查询现有数据库获得,而是需要通过计算获取。例如:a.信用卡发卡量:需要在数据库中进行一次统计计算,可以获得需要的数据。b.银行授信总额:首先计算每张卡片的授信额度(累加信用额度、分期额度等各项额度),然后再进行所有卡片的额度累计计算,一共需要通过两次计算获得需要的数据。
现有技术中,由于某些指标需要经常查看,或者由于数据量太大无法人工计算等多种原因,产生了建立数据仓库的需求,该数据仓库是按业务人员的需求,定期将指标的计算结果存放在指定位置,从而便于随时查询使用。数据仓库是由基础数据的“表格”组成的,原理上,可以将每个指标的数据各自放在一个表格中,但是随着业务经营的需要,指标的数量可能越来越多,指标的含义也越来越复杂,需要通过多次计算才能获得需要的数据,如果每个指标存放在各自的表格中,将导致管理混乱,数据重复,数据无法关联处理等多种问题。
因此有必要提供一种设计数据仓库的方法,通过合理的设计数据仓库,将各类业务系统的指标管理起来,从而方便未来的提取和使用。
发明内容
本发明的目的在于提供一种设计数据仓库的方法,通过合理的设计数据仓库,将各类业务系统的指标管理起来,从而方便未来的提取和使用。
为了解决现有技术中存在的问题,本发明提供了一种设计数据仓库的方法,包括以下步骤:
确认每个指标的计算公式,将没有计算的指标定义为第0层的指标,有1次计算的指标定义为第1层的指标,有2次计算的指标定义为第2层的指标,依此类推,定义所有指标的层级;
根据业务类型或数据库设计将第0层的指标进行分表;
根据第0层中指标的分表情况的关联关系对第1层的指标进行分表,根据第1层中指标的分表情况的关联关系对第2层的指标进行分表,依此类推,将各层指标进行分表。
可选的,在所述设计数据仓库的方法中,第1层的指标依据第0层的指标计算一次得到;第2层的指标依据第1层的指标计算一次得到,以此类推。
可选的,在所述设计数据仓库的方法中,
第0层的指标为收集的基础数据,存放在数据库中。
可选的,在所述设计数据仓库的方法中,
根据第0层中指标的分表情况的关联关系对第1层的指标进行分表,分表方式为:若第1层的多个指标均依据第0层中一个表中的至少一个1指标得到,则将第1层中对应的指标分在一张表中;
根据第1层中指标的分表情况的关联关系对第2层的指标进行分表,分表方式为:若第2层的多个指标均依据第1层中一个表中的至少一个1指标得到,则将第2层中对应的指标分在一张表中。
可选的,在所述设计数据仓库的方法中,
第0层包含指标1、指标2、指标3、…、指标10,根据业务类型或数据库设计,将指标1-指标3分在表1中,指标4-指标6分在表2中,指标7-指标10分在表3中,第1层包含指标11、指标12、…、指标15,第2层包含指标16、指标17、指标18;
若指标11依据指标1和指标2计算1次得到,指标13依据指标2计算1次得到,则将指标11和指标13分在一张表中;
若指标16依据指标11计算1次得到,指标17依据指标11和指标13计算1次得到,则将指标16和指标17分在一张表中。
可选的,在所述设计数据仓库的方法中,
根据分表方式,第1层中得到与表1关联的表4、与表2关联的表5和与表3关联的表6。
可选的,在所述设计数据仓库的方法中,
若第1层中的一个指标依据表1中多个指标和表2中多个指标计算得到,判断所依据的表中的指标的个数;
若依据表1中的指标个数大于表2中的指标个数,则将该指标分在表4中;
若依据表1中的指标个数小于表2中的指标个数,则将该指标分在表5中;
若依据表1中的指标个数等于表2中的指标个数,则将该指标分在表4和/或表5。
可选的,在所述设计数据仓库的方法中,若指标12依据表1中指标1和表3中的指标7得到,则指标12分在表4中和/或与表6中。
可选的,在所述设计数据仓库的方法中,若某一层存在多个不能进一步计算指标,则将多个不能进一步计算的指标单独分表。
本发明和现有技术相比,具有以下优点:
(1)通过分析指标之间的计算依赖关系而搭建数据仓库的表格,一定程度上降低了人工分类的随意性,可以增加调用效率。
(2)通过找到多个指标的共同依赖指标,从而提高了数据的重复利用率,减少了对存储的占用,也便于维护和管理。
(3)本发明适用于各种数量级的指标体系的数据仓库的建立,具有一定通用性。
附图说明
图1为本发明实施例提供的设计数据仓库的方法的流程图;
图2为本发明实施例提供的分层示意图;
图3为本发明实施例提供的分表示意图。
具体实施方式
下面将结合示意图对本发明的具体实施方式进行更详细的描述。根据下列描述,本发明的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。
如果本文所述的方法包括一系列步骤,则本文所呈现的这些步骤的顺序并非必须是可执行这些步骤的唯一顺序,且一些所述的步骤可被省略和/或一些本文未描述的其他步骤可被添加到该方法中。
目前数据仓库是由基础数据的“表格”组成的,原理上,可以将每个指标的数据各自放在一个表格中,但是随着业务经营的需要,指标的数量可能越来越多,指标的含义也越来越复杂,需要通过多次计算才能获得需要的数据,如果每个指标存放在各自的表格中,将导致管理混乱,数据重复,数据无法关联处理等多种问题。
因此有必要提供一种设计数据仓库的方法,如图1所示,图1为本发明实施例提供的设计数据仓库的方法的流程图,所述方法包括以下步骤:
确认每个指标的计算公式,将没有计算的指标定义为第0层的指标,有1次计算的指标定义为第1层的指标,有2次计算的指标定义为第2层的指标,依此类推,定义所有指标的层级;
根据业务类型或数据库设计将第0层的指标进行分表;
根据第0层中指标的分表情况的关联关系对第1层的指标进行分表,根据第1层中指标的分表情况的关联关系对第2层的指标进行分表,依此类推,将各层指标进行分表。
进一步的,第0层的指标为收集的基础数据,存放在数据库中。优选的,尽可能的收集各类事务中需要查看的所有基础数据的指标,以形成第0层的指标。第1层的指标依据第0层的指标计算一次得到;第2层的指标依据第1层的指标计算一次得到,以此类推。
具体的,在一个实施例中,请参考图2,图2为本发明实施例提供的分层示意图,将所有指标按照计算次数进行分层:
第0层:可以直接从数据库中获得的基础数据,比如某个银行卡的存款额。
第1层:需要通过1次计算获得的数据,比如通过直接统计获取的银行发卡量。
第2层:需要通过2次计算获得的数据,比如获取银行授信总额度,则需要先计算各个信用卡的授信额度(信用额度+分期额度+...),然后累计计算所有信用卡的额度以获得的银行授信总额度。
第3层:需要通过3次计算的获得的数据。
...
第N层:需要通过N次计算获得的数据。
通常的,本发明依靠计算次数将指标分层,保证了每一层的指标都是依靠比其低层次的指标计算获得的。比如位于第3层的指标数据,必然是从0~2层里的指标计算得来的。
可选的,在本发明所提供的设计数据仓库的方法中,
根据第0层中指标的分表情况的关联关系对第1层的指标进行分表,分表方式为:若第1层的多个指标均依据第0层中一个表中的至少一个1指标得到,则将第1层中对应的指标分在一张表中;
根据第1层中指标的分表情况的关联关系对第2层的指标进行分表,分表方式为:若第2层的多个指标均依据第1层中一个表中的至少一个1指标得到,则将第2层中对应的指标分在一张表中。
具体请参考另一个实施例,如图3所示,图3为本发明实施例提供的分表示意图;
第0层包含指标1、指标2、指标3、…、指标10,根据业务类型或数据库设计,将指标1-指标3分在表1中,指标4-指标6分在表2中,指标7-指标10分在表3中,第1层包含指标11、指标12、…、指标15,第2层包含指标16、指标17、指标18;
若指标11依据指标1和指标2计算1次得到,指标13依据指标2计算1次得到,则将指标11和指标13分在一张表中;
若指标16依据指标11计算1次得到,指标17依据指标11和指标13计算1次得到,则将指标16和指标17分在一张表中。
优选的,根据上述的分表方式,第1层中可以得到与表1关联的表4、与表2关联的表5和与表3关联的表6。
较佳的,若第1层中的一个指标依据表1中多个指标和表2中多个指标计算得到,判断所依据的表中的指标的个数;若依据表1中的指标个数大于表2中的指标个数,则将该指标分在表4中;若依据表1中的指标个数小于表2中的指标个数,则将该指标分在表5中;若依据表1中的指标个数等于表2中的指标个数,则将该指标分在表4和/或表5。例如,若指标12依据表1中指标1和表3中的指标7得到,则指标12分在表4中和/或与表6中。
由于业务指标的逐渐复杂,通常情况下,一个指标会依赖更低层的多张表,本发明通过将依赖这些表的字段放在一起,那么更高层的表格会越来越少。本方法可以将在计算上有关联的指标存放在一张表中,并且让所有的必要数据只存储一次,也只计算一次,数据冗余非常低,消耗的计算资源也最少。
如果是计算关联度较低的指标,可能依旧存在一张表只存放一两个指标的情况,依旧较为分散,并不便于维护。若某一层存在多个不能进一步计算指标(即指标比较分散),则将多个不能进一步计算的指标单独分表。例如在第2层中,有10个分散的指标,那么可以尝试根据业务规则(比如按指标使用场景划分:风险、营销等;按指标的关联关系划分:卡片相关、用户相关等。)可以将同一类的表格进行合并。根据合并之后的关系,依次将更高层的指标表格依据新的依赖关系进行聚类分表。本发明中对于分散指标的处理方式,可以降低指标的分散程度,减少需要维护的指标表格的数量。
另外,本发明还可以评估中间指标的使用频率,使用频率较低的指标可以合并计算,从而压缩计算层级;首先找到指标数量最少的计算层级,查看该层每个指标的依赖关系,着重评估中间指标的使用频率,比如第N层有两个指标A和B,他们共同依赖第N-1层的中间指标C,并且在N-1层中,只依赖C,那么就可以在第N层计算A、B时多增加一步计算C的步骤,从而取消使用中间指标C。那么A和B就可以降为计算层级N-1,整体的层级也就减少了一层。本发明通过压缩计算层级,减少了整体的计算层级,降低在使用时寻找指标的难度。
本发明和现有技术相比,具有以下优点:
(1)通过分析指标之间的计算依赖关系而搭建数据仓库的表格,一定程度上降低了人工分类的随意性,可以增加调用效率。
(2)通过找到多个指标的共同依赖指标,从而提高了数据的重复利用率,减少了对存储的占用,也便于维护和管理。
(3)本发明适用于各种数量级的指标体系的数据仓库的建立,具有一定通用性。
上述仅为本发明的优选实施例而已,并不对本发明起到任何限制作用。任何所属技术领域的技术人员,在不脱离本发明的技术方案的范围内,对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动,均属未脱离本发明的技术方案的内容,仍属于本发明的保护范围之内。

Claims (9)

1.一种设计数据仓库的方法,其特征在于,包括以下步骤:
确认每个指标的计算公式,将没有计算的指标定义为第0层的指标,有1次计算的指标定义为第1层的指标,有2次计算的指标定义为第2层的指标,依此类推,定义所有指标的层级;
根据业务类型或数据库设计将第0层的指标进行分表;
根据第0层中指标的分表情况的关联关系对第1层的指标进行分表,根据第1层中指标的分表情况的关联关系对第2层的指标进行分表,依此类推,将各层指标进行分表。
2.如权利要求1所述的设计数据仓库的方法,其特征在于,第1层的指标依据第0层的指标计算一次得到;第2层的指标依据第1层的指标计算一次得到,以此类推。
3.如权利要求2所述的设计数据仓库的方法,其特征在于,
第0层的指标为收集的基础数据,存放在数据库中。
4.如权利要求3所述的设计数据仓库的方法,其特征在于,
根据第0层中指标的分表情况的关联关系对第1层的指标进行分表,分表方式为:若第1层的多个指标均依据第0层中一个表中的至少一个1指标得到,则将第1层中对应的指标分在一张表中;
根据第1层中指标的分表情况的关联关系对第2层的指标进行分表,分表方式为:若第2层的多个指标均依据第1层中一个表中的至少一个1指标得到,则将第2层中对应的指标分在一张表中。
5.如权利要求4所述的设计数据仓库的方法,其特征在于,
第0层包含指标1、指标2、指标3、…、指标10,根据业务类型或数据库设计,将指标1-指标3分在表1中,指标4-指标6分在表2中,指标7-指标10分在表3中,第1层包含指标11、指标12、…、指标15,第2层包含指标16、指标17、指标18;
若指标11依据指标1和指标2计算1次得到,指标13依据指标2计算1次得到,则将指标11和指标13分在一张表中;
若指标16依据指标11计算1次得到,指标17依据指标11和指标13计算1次得到,则将指标16和指标17分在一张表中。
6.如权利要求5所述的设计数据仓库的方法,其特征在于,
根据分表方式,第1层中得到与表1关联的表4、与表2关联的表5和与表3关联的表6。
7.如权利要求6所述的设计数据仓库的方法,其特征在于,
若第1层中的一个指标依据表1中多个指标和表2中多个指标计算得到,判断所依据的表中的指标的个数;
若依据表1中的指标个数大于表2中的指标个数,则将该指标分在表4中;
若依据表1中的指标个数小于表2中的指标个数,则将该指标分在表5中;
若依据表1中的指标个数等于表2中的指标个数,则将该指标分在表4和/或表5。
8.如权利要求7所述的设计数据仓库的方法,其特征在于,若指标12依据表1中指标1和表3中的指标7得到,则指标12分在表4中和/或与表6中。
9.如权利要求4所述的设计数据仓库的方法,其特征在于,若某一层存在多个不能进一步计算指标,则将多个不能进一步计算的指标单独分表。
CN202110643416.5A 2021-06-09 2021-06-09 一种设计数据仓库的方法 Pending CN113268468A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110643416.5A CN113268468A (zh) 2021-06-09 2021-06-09 一种设计数据仓库的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110643416.5A CN113268468A (zh) 2021-06-09 2021-06-09 一种设计数据仓库的方法

Publications (1)

Publication Number Publication Date
CN113268468A true CN113268468A (zh) 2021-08-17

Family

ID=77234766

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110643416.5A Pending CN113268468A (zh) 2021-06-09 2021-06-09 一种设计数据仓库的方法

Country Status (1)

Country Link
CN (1) CN113268468A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2296188A1 (en) * 1999-04-02 2000-10-02 A.C. Nielsen Company Data warehouse having customizable hierarchy
CN106875110A (zh) * 2017-02-06 2017-06-20 泰康保险集团股份有限公司 业务指标分层计算方法及装置、分布式计算方法及系统
CN108460043A (zh) * 2017-02-20 2018-08-28 阿里巴巴集团控股有限公司 计算数据指标的方法和装置
CN108628894A (zh) * 2017-03-21 2018-10-09 阿里巴巴集团控股有限公司 数据仓库中的数据指标查询方法及装置
CN110716950A (zh) * 2019-09-20 2020-01-21 黄沙沙 一种口径系统建立方法、装置、设备及计算机存储介质
CN111966692A (zh) * 2020-09-04 2020-11-20 网易(杭州)网络有限公司 针对数据仓库的数据处理方法、介质、装置和计算设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2296188A1 (en) * 1999-04-02 2000-10-02 A.C. Nielsen Company Data warehouse having customizable hierarchy
CN106875110A (zh) * 2017-02-06 2017-06-20 泰康保险集团股份有限公司 业务指标分层计算方法及装置、分布式计算方法及系统
CN108460043A (zh) * 2017-02-20 2018-08-28 阿里巴巴集团控股有限公司 计算数据指标的方法和装置
CN108628894A (zh) * 2017-03-21 2018-10-09 阿里巴巴集团控股有限公司 数据仓库中的数据指标查询方法及装置
CN110716950A (zh) * 2019-09-20 2020-01-21 黄沙沙 一种口径系统建立方法、装置、设备及计算机存储介质
CN111966692A (zh) * 2020-09-04 2020-11-20 网易(杭州)网络有限公司 针对数据仓库的数据处理方法、介质、装置和计算设备

Similar Documents

Publication Publication Date Title
US11347776B2 (en) Index mechanism for report generation
CN110515990B (zh) 数据查询展示方法及查询展示系统
US9858326B2 (en) Distributed data warehouse
Berndt et al. The Catch data warehouse: support for community health care decision-making
Calders et al. What is data mining and how does it work?
CN109670945B (zh) 一种基于大数据的综合风险预警决策平台
CN107958080A (zh) 一种基于ElasticSearch的大数据报表处理方法
US20170075896A1 (en) System and method for analyzing popularity of one or more user defined topics among the big data
JP7091500B2 (ja) 世界的に取得したデータに基づいて、世界企業ランキングをリアルタイムに作成するため方法、及び世界的ネットワークシステム
US11455323B2 (en) Data processing method and system
CN111125103A (zh) 一种数据处理方法、装置及计算机可读存储介质
Luo et al. Design and implementation of an efficient electronic bank management information system based data warehouse and data mining processing
Rachman et al. Machine learning mini batch K-means and business intelligence utilization for credit card customer segmentation
US10719561B2 (en) System and method for analyzing popularity of one or more user defined topics among the big data
US8577902B1 (en) Data organization and indexing related technology
CN111639792B (zh) 基于人工智能对银行atm智能加钞的方法
KR20170094935A (ko) 기업정보 제공 시스템 및 방법
US20140101159A1 (en) Knowledgebase Query Analysis
CN113268468A (zh) 一种设计数据仓库的方法
Ferrandino The Impact of Revision 7 on the Technical Efficiency of Florida's Circuit Courts
CN113505172B (zh) 数据处理方法、装置、电子设备及可读存储介质
Parisi et al. Embedding forecast operators in databases
CN114971912A (zh) 一种资金交易中账户特征分析方法、系统和存储介质
CN108304499B (zh) 一种sql连接操作中谓词下推的方法、终端及介质
Zurada Does feature reduction help improve the classification accuracy rates? a credit scoring case using a german data set

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210817