CN105718565B

CN105718565B - 数据仓库模型的构建方法和构建装置

Info

Publication number: CN105718565B
Application number: CN201610038046.1A
Authority: CN
Inventors: 董月红; 孙冬
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2016-01-20
Filing date: 2016-01-20
Publication date: 2019-07-02
Anticipated expiration: 2036-01-20
Also published as: CN105718565A

Abstract

本发明提供一种数据仓库模型的构建方法和构建装置，能够利用业务数据指标的活跃度分析，来达到快速构建数据仓库模型的目的。本发明的数据仓库模型的构建方法包括：确定给定时间段内的业务数据指标中的活跃指标，通过在所述给定时间段内计数每个业务数据指标的调用次数，当该业务数据指标的调用次数大于预定的活跃度限值时，则确定该业务数据指标为活跃指标；对所述活跃指标进行业务场景需求分析，以生成逻辑模型；根据所述逻辑模型，加工所述活跃指标对应的数据并保存到数据仓库。

Description

数据仓库模型的构建方法和构建装置

技术领域

本发明涉及计算机及其软件技术领域，特别地涉及一种数据仓库模型的构建方法和构建装置。

背景技术

随着电子商务企业的快速发展，例如京东、淘宝、亚马逊等的快速崛起，电商企业日常运营中生成、累积的大量用户、商品、以及生产相关的数据已呈现爆发式增长，并且数据结构也开始多元化，相应数据含有的信息量也越来越多。因此，电商企业对数据化运营也越来越关注。

数据仓库作为数据的集合，主要用于对数据进行分区处理工作，发挥着巨大的作用。然而，大数据时代的降临，数据仓库慢慢转成分布式架构，以满足爆发式增长的计算及存储的要求。基于传统行业(例如，银行、保险、零售等)的数据仓库模型的构建方法已经非常的成熟，亦即企业对终端客户的电子商务B2C(Business-to-Customer)业务的数据仓库模型的构建方法已很成熟。

例如：在传统的数据仓库基础之上，结合具体的业务情况，零售企业的数据仓库的构建过程一般是首先进行业务场景的需求分析，以生成业务模型，然后对业务模型抽象处理得到领域模型，再为领域模型赋予实体及实体间的逻辑关系得到逻辑模型，最后是将逻辑模型落地实施，即：生成物理模型。

在生成物理模型的过程中，最重要的是利用数据库集群和传统的数据仓库建模方法论，进行数据的加工处理，以实现数据分层。该过程主要包括以下步骤：

1、构建stage层，通过ETL过程(ETL，是Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取extract、转换transform、加载load至目的端的过程)，抽取源生产系统的数据；

2、构建ods层，ODS(Operational Data Store，操作性数据存储区)层是数据整合层，通过对stage层的数据进行清洗和加工，以发现并纠正数据文件中可识别的错误，并将数据转换到ods预先定义的表中；

3、构建dwd层，dwd层是数据仓库的细节数据层，基于逻辑模型，搭建实体表及实体表的关系；

4、构建dwa层，dwa层是数据仓库的数据汇总层，基于主题模型和逻辑关系，将dwd层数据，加工到本层。

生成物理模型后，整个数据仓库的模型已经全部完成，我们可以按照自己的设计来针对当前的业务场景创建满足自己需要的数据模型来。

然而，传统的数据仓库建模方法仍存在一些缺陷，主要表现在：

1、传统的数据仓库建模，按主题、逻辑等方面进行建模，虽然可以涵盖主要的业务指标，但随着电子商务的业务的高速发展，现有的数据仓库模型的构建方法，已无法快速响应业务的快速变化；

2、传统的数据仓库建模，层级之间依赖关系复杂，模型变更繁琐。

由此，本发明基于电子商务B2C业务的传统的数据仓库模型构建方法的基础上，通过对业务指标的进行热度分析，快速构建新的数据仓库模型。

发明内容

有鉴于此，本发明提供一种数据仓库模型的构建方法和构建装置，能够利用业务数据指标的活跃度分析，来达到快速构建数据仓库模型的目的。

为实现上述目的，根据本发明的一个方面，提供了一种数据仓库模型的构建方法。

一种数据仓库模型的构建方法，包括：确定给定时间段内的业务数据指标中的活跃指标，通过在所述给定时间段内计数每个业务数据指标的调用次数，当该业务数据指标的调用次数大于预定的活跃度限值时，则确定该业务数据指标为活跃指标；对所述活跃指标进行业务场景需求分析，以生成逻辑模型；根据所述逻辑模型，加工所述活跃指标对应的数据并保存到数据仓库。

可选地，所述数据仓库的数据层级包括：缓冲数据层、基础数据层、通用数据层、聚合数据层、维度数据层。

可选地，加工所述活跃指标对应的数据并保存到数据仓库的步骤包括：从源业务系统中将所述活跃指标对应的数据抽取到缓冲数据层和维度数据层；将所述缓冲数据层的数据通过拉链的方式加工到基础数据层；根据业务主题和所述逻辑模型中包含的逻辑关系，将基础数据层和维度数据层的数据加工成主题数据保存在通用数据层；按照业务数据的维度，将基础数据层或通用数据层的数据和维度数据层的数据通过汇总逻辑加工成聚合数据保存在聚合数据层。

可选地，所述数据仓库的数据层级还包括临时数据层，用于加工和存储临时数据。

根据本发明的另一方面，提供了一种数据仓库模型的构建装置。

一种数据仓库模型的构建装置，包括：指标筛选模块，用于确定给定时间段内的业务数据指标中的活跃指标，其中，在给定时间段内计数每个业务数据指标的调用次数，当该业务数据指标的调用次数大于预定的活跃度限值，则确定该业务数据指标为活跃指标；数据建模模块，用于对所述活跃指标进行业务场景需求分析，以生成逻辑模型；数据分层模块，用于根据所述逻辑模型，加工所述活跃指标对应的数据并保存到数据仓库。

可选地，所述数据分层模块还用于：从源业务系统中将所述活跃指标对应的数据抽取到缓冲数据层和维度数据层；将所述缓冲数据层的数据通过拉链的方式加工到基础数据层；根据业务主题和所述逻辑模型中包含的逻辑关系，将基础数据层和维度数据层的数据加工成主题数据保存在通用数据层；按照业务数据的维度，将基础数据层或通用数据层的数据和维度数据层的数据通过汇总逻辑加工成聚合数据保存在聚合数据层。

根据本发明的技术方案，通过计数连续一段时间内的业务数据指标的调用次数以确定活跃指标，之后，对活跃指标对应的数据进行逻辑建模和物理建模，可以筛选出用户关注的数据，从而构建的数据仓库具有明显的主题特征，且可以实现快速构建数据仓库。本发明是基于商家对顾客B2C(Business-to-Customer)的电子商务业务的数据仓库模型的构建方法的基础上，提出数据仓库按指标热度进行的模型构建的方法，为实现数据分析和挖掘奠定基础；本发明提出的指标热度的定义，将指标分为活跃指标，基本活跃指标和不活跃指标，为电子商务数据仓库模型的构建，提供一个模型构建方法；同时，以Hadoop为平台，hive作为数据模型构建工具，提升了数据的稳定性、可扩展性，为基于分布式数据仓库提供了一套完整的模型体系。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的数据仓库模型的构建方法的主要步骤示意图；

图2是根据本发明实施例的数据仓库模型的构建装置的主要模块示意图；

图3是本发明实施例的数据仓库的数据层级示意图；

图4是本发明实施例的数据加工原理示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

以电子商务领域为例，随着电子商务业务的快速发展，基于业务领域提出的主题模型，主要包括订单、商品、供应链、财务等主题。但是，这些主题模型还远不能涵盖所有的业务场景。因此，随着业务的发展，需要对更多的业务数据指标，如订单号、商品名称、下单时间、支付时间、配送时间、妥投时间等，进行分析，进而提出更多的主题模型。那么，在众多的业务数据指标中，如何构建用户需要的、能促进业务发展的主题模型，即为本发明的主要研究内容。本发明提出了一种基于指标热度分析，来达到快速构建数据仓库模型的方法。

图1是根据本发明实施例的数据仓库模型的构建方法的主要步骤示意图。如图1所示，本发明的数据仓库模型的构建方法主要包括如下的步骤S11至步骤S13。

步骤S11：确定给定时间段内的业务数据指标中的活跃指标，其中，通过在给定时间段内计数每个业务数据指标的调用次数，当该业务数据指标的调用次数大于预定的活跃度限值时，则确定该业务数据指标为活跃指标。例如，可通过对业务报表、分析报告、数据产品应用等的用户访问量和数据指标的使用次数进行统计，并用于分析业务数据指标的热度，从而确定活跃指标。其中，用户访问量是指用户访问报表页等的访问量。例如：某报表A，一天内被用户访问了100次，那么该报表A的用户访问量即为100次；一天内，用户访问报表A、B、C三张报表的过程中，共使用了某一数据指标20次，那么该数据指标的使用次数即为20次。

其中，确定活跃指标的过程具体可以包括：计数连续一段时间内的各个业务数据指标的调用次数；当某个业务数据指标的调用次数大于活跃度限值时，该业务数据指标即为活跃指标。其中，活跃度限值可根据具体业务的情况进行设定，也可根据统计分析或者经验得到。

在本发明中，业务数据指标的调用次数是根据统计的用户访问量及数据指标的使用次数，然后进行加权处理得到的。例如：可通过如下的公式来计算业务数据指标的调用次数：

业务数据指标的调用次数＝用户访问量*50％+数据指标的使用次数*50％。

通过计数连续一段时间(例如N>＝7天)的各个业务数据指标的调用次数，定义其中调用次数大于活跃度限值的业务数据指标为活跃指标。其中，活跃度限值可根据具体业务的情况进行设定，也可根据统计分析或者经验得到。对于调用次数小于活跃度限值的业务数据指标定义为非活跃指标，根据日常业务需要，非活跃指标还可进行分类，例如可分为：不活跃指标和基本活跃指标等。假设活跃度限值为n(正整数)，基本活跃限值为m(正整数，且0<m<n)，则：调用次数大于n的业务数据指标即为活跃指标，调用次数在m到m的业务数据指标即为基本活跃指标，调用次数在m以下的为不活跃指标。

根据前面所述的方法，即可通过计数连续一段时间内的业务数据指标的调用次数来确定活跃指标。之后，还可以将得到的活跃指标进行归类汇总，即：将得到的所有活跃指标统计出来。

步骤S12：对活跃指标进行业务场景需求分析，以生成逻辑模型。将活跃指标统计汇总后，即可通过对业务场景的需求进行分析，以生成业务模型，然后对业务模型抽象处理得到领域模型，再为领域模型赋予实体及实体间的逻辑关系，也就是说建立数据仓库各个层次之间的逻辑关系，以生成逻辑模型。之后，将逻辑模型落地实施，以生成物理模型。

根据上述的内容可知，数据仓库的构建主要包括以下四个过程：

业务建模：生成业务模型，主要解决业务层面的分解和程序化；

领域建模：生成领域模型，主要是对业务模型进行抽象处理，生成领域概念模型；

逻辑建模：生成逻辑模型，主要将领域模型的概念实体以及实体之间的关系进行数据库层次的逻辑化；

物理建模：生成物理模型，主要解决逻辑模型针对不同关系型数据库的物理化以及性能等一些具体的技术问题。

上述的过程中，在得到数据仓库的逻辑模型后，即可通过物理建模来实现该逻辑模型。

步骤S13：根据逻辑模型，加工活跃指标对应的数据并保存到数据仓库。得到数据仓库的逻辑模型后，即可通过物理建模来实现该逻辑模型。物理建模阶段是整个数据建模的最后一个过程，这个过程其实是将前面的逻辑模型落地的一个过程。

本发明中，数据仓库的数据层级主要包括：缓冲数据层、基础数据层、通用数据层、聚合数据层、维度数据层。

并且，在加工活跃指标对应的数据并保存到数据仓库时，可以按照以下的步骤来具体执行：

步骤S131：从源业务系统中将活跃指标对应的数据抽取到缓冲数据层和维度数据层；

步骤S132：将缓冲数据层的数据通过拉链的方式加工到基础数据层；

步骤S133：根据业务主题和逻辑模型中包含的逻辑关系，将基础数据层和维度数据层的数据加工成主题数据保存在通用数据层；

步骤S134：按照业务数据的维度，将基础数据层或通用数据层的数据和维度数据层的数据通过汇总逻辑加工成聚合数据保存在聚合数据层。

另外，根据功能实现的需要，本发明的数据仓库的数据层级还可以包括临时数据层，主要用于加工和存储临时数据。

根据上述的步骤S11至步骤S13，即可实现通过对业务数据指标的热度分析，来快速构建数据仓库模型。

图2是根据本发明实施例的数据仓库模型的构建装置的主要模块示意图。如图2所示，本发明的数据仓库模型的构建装置20主要包括指标筛选模块21、数据建模模块22和数据分层模块23。

指标筛选模块21用于确定给定时间段内的业务数据指标中的活跃指标，其中，在给定时间段内计数每个业务数据指标的调用次数，当该业务数据指标的调用次数大于预定的活跃度限值，则确定该业务数据指标为活跃指标；数据建模模块22用于对所述活跃指标进行业务场景需求分析，以生成逻辑模型；数据分层模块23用于根据所述逻辑模型，加工所述活跃指标对应的数据并保存到数据仓库。

根据本发明实施例，数据仓库的数据层级包括：缓冲数据层、基础数据层、通用数据层、聚合数据层、维度数据层。

并且，数据分层模块23还可以用于：从源业务系统中将所述活跃指标对应的数据抽取到缓冲数据层和维度数据层；将所述缓冲数据层的数据通过拉链的方式加工到基础数据层；根据业务主题和所述逻辑模型中包含的逻辑关系，将基础数据层和维度数据层的数据加工成主题数据保存在通用数据层；按照业务数据的维度，将基础数据层或通用数据层的数据和维度数据层的数据通过汇总逻辑加工成聚合数据保存在聚合数据层。

另外，根据功能实现的需求，本发明数据仓库的数据层级还可以包括临时数据层，用于加工和存储临时数据。

以下将结合具体的例子来介绍本发明的实施过程。以电子商务企业为例，假设市场部的分析人员需要统计、分析订单暂停的原因，此时需要通过时间来判断订单是在什么时候暂停的，继而分析订单暂停的具体原因。那么，市场部的分析人员就会频繁地从业务报表、分析报告或者订单详情表等相关的数据报表中查找其关心的业务数据指标，例如：订单号、商品名称、下单时间、支付时间、配送时间、妥投时间等。根据前述的确定活跃指标的热度分析方法，我们可以得到分析人员关注的业务数据指标，即：活跃指标。

之后，将活跃指标进行归类统计，并根据业务场景的需求进行分析以生成数据仓库的逻辑模型，结合本实施例即为根据订单号，对同一订单号的每个操作节点的时间进行统计、汇总等，从而得到活跃指标对应的数据之间的逻辑关系。

得到数据仓库的逻辑模型之后，即需要执行物理建模，即数据的加工、分层及存储等。图3是本发明实施例的数据仓库的数据层级示意图。如图3所示，以使用Hadoop作为数据平台，Hive作为数据仓库为例，本发明的数据仓库主要包括以下层级：

1、缓冲数据层(BDM)：主要用于保存从源业务系统中抽取的数据，其中数据可以是以文件的形式保存在Hadoop本地；

2、维度数据层(DIM)：同样用于保存从源业务系统中抽取的数据，主要指的是与维度相关的数据。维度是对事实数据里面，带有枚举类型字段的扩展，例如对裤子来说，颜色就是其中一个维度。又如：某生产系统表，订单表中有下单来源字段，此字段为枚举值，故可将该字段抽取到DIM层，并转换成维度表；

3、基础数据层(FDM)：主要用于对缓冲数据层的数据进行加工并存储，加工方式例如通过拉链的方式等；

4、通用数据层(GDM)：主要用于根据业务主题，将基础数据层和维度数据层的数据通过业务逻辑加工成主题数据并保存在本层，结合本发明的实施例，业务主题即为订单；

5、聚合数据层(ADM)：主要用于根据数据的维度，将基础数据层或通用数据层的数据，以及维度数据层的数据，通过汇总逻辑加工成聚合数据并保存在本层；

6、临时数据层(TMP)：主要用于加工及存储临时数据。

图4是本发明实施例的数据加工原理示意图。如图4所示，以将基础数据层和维度数据层的数据加工后保存在通用数据层为例。根据前述得到的数据仓库的逻辑模型和数据层级，可首先查询出活跃指标所在的基础数据层FDM表的数据，然后通过Hive的HQL的处理逻辑，将基础数据层FDM表和维度数据层DIM表通过关联、整合的方式进行加工，最终得到通用数据层GDM表，以供业务方使用。

其中，将活跃指标对应的数据加工后保存到数据仓库，详细的过程包括：

从源业务系统中将活跃指标对应的数据抽取到缓冲数据层和维度数据层；

将缓冲数据层的数据通过拉链的方式加工到基础数据层；

根据业务主题和逻辑模型中包含的逻辑关系，将基础数据层和维度数据层的数据加工成主题数据保存在通用数据层；

按照业务数据的维度，将基础数据层或通用数据层的数据和维度数据层的数据通过汇总逻辑加工成聚合数据保存在聚合数据层。

根据以上的步骤，即可实现将数据加工后存储到数据仓库。

根据本发明实施例的技术方案，通过计数连续一段时间内的业务数据指标的调用次数以确定活跃指标，之后，对活跃指标对应的数据进行逻辑建模和物理建模，可以筛选出用户关注的数据，从而构建的数据仓库具有明显的主题特征，且可以实现快速构建数据仓库。本发明是基于商家对顾客B2C(Business-to-Customer)的电子商务业务的数据仓库模型的构建方法的基础上，提出数据仓库按指标热度进行的模型构建的方法，为实现数据分析和挖掘奠定基础；本发明提出的指标热度的定义，将指标分为活跃指标，基本活跃指标和不活跃指标，为电子商务数据仓库模型的构建，提供一个模型构建方法；同时，以Hadoop为平台，hive作为数据模型构建工具，提升了数据的稳定性、可扩展性，为基于分布式数据仓库提供了一套完整的模型体系。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种数据仓库模型的构建方法，其特征在于，包括：

确定给定时间段内的业务数据指标中的活跃指标，通过在所述给定时间段内计数每个业务数据指标的调用次数，当该业务数据指标的调用次数大于预定的活跃度限值时，则确定该业务数据指标为活跃指标；

对所述活跃指标进行业务场景需求分析，然后进行抽象处理，再将抽象处理得到的概念实体以及实体之间的关系进行数据库层次的逻辑化来建立数据仓库各个层次之间的逻辑关系以生成逻辑模型；

根据所述逻辑模型，加工所述活跃指标对应的数据并保存到数据仓库。

2.根据权利要求1所述的方法，其特征在于，所述数据仓库的数据层级包括：缓冲数据层、基础数据层、通用数据层、聚合数据层、维度数据层。

3.根据权利要求1或2所述的方法，其特征在于，加工所述活跃指标对应的数据并保存到数据仓库的步骤包括：

从源业务系统中将所述活跃指标对应的数据抽取到缓冲数据层和维度数据层；

将所述缓冲数据层的数据通过拉链的方式加工到基础数据层；

根据业务主题和所述逻辑模型中包含的逻辑关系，将基础数据层和维度数据层的数据加工成主题数据保存在通用数据层；

4.根据权利要求2所述的方法，其特征在于，所述数据仓库的数据层级还包括临时数据层，用于加工和存储临时数据。

5.一种数据仓库模型的构建装置，其特征在于，包括：

指标筛选模块，用于确定给定时间段内的业务数据指标中的活跃指标，其中，在给定时间段内计数每个业务数据指标的调用次数，当该业务数据指标的调用次数大于预定的活跃度限值，则确定该业务数据指标为活跃指标；

数据建模模块，用于对所述活跃指标进行业务场景需求分析，然后进行抽象处理，再将抽象处理得到的概念实体以及实体之间的关系进行数据库层次的逻辑化来建立数据仓库各个层次之间的逻辑关系以生成逻辑模型；

数据分层模块，用于根据所述逻辑模型，加工所述活跃指标对应的数据并保存到数据仓库。

6.根据权利要求5所述的装置，其特征在于，所述数据仓库的数据层级包括：缓冲数据层、基础数据层、通用数据层、聚合数据层、维度数据层。

7.根据权利要求5或6所述的装置，其特征在于，所述数据分层模块还用于：

8.根据权利要求6所述的装置，其特征在于，所述数据仓库的数据层级还包括临时数据层，用于加工和存储临时数据。

9.一种构建数据仓库模型的电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-4中任一所述的方法。