CN116049140A

CN116049140A - 一种基于电商数据的数据仓库建立方法及系统

Info

Publication number: CN116049140A
Application number: CN202211719780.6A
Authority: CN
Inventors: 周明轩; 吴伟刚; 潘竞旭; 鲁龙; 刘鹏
Original assignee: Aisino Corp
Current assignee: Aisino Corp
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-05-02

Abstract

本发明公开了一种基于电商数据的数据仓库建立方法及系统，其中方法包括：建立数据库表，包括基于不可拆分的行业事件确定业务过程，确定每一业务过程对应的事务型事实表；基于每一业务过程声明对应的事务型事实表的粒度；确定所述事务型事实表的维度，所述维度为与业务过程相关的环境信息；计算事务型事实表对应的每个业务过程的度量值，基于每个业务过程的度量值确定所述事务型事实表的字段；获取预先生成的建库模型，促使预先生成的建库模型使用事务型事实表的维度和事务型事实表的字段生成数据仓库。

Description

一种基于电商数据的数据仓库建立方法及系统

技术领域

本发明涉及信息技术处理技术领域，更具体地，涉及一种基于电商数据的数据仓库建立方法及系统。

背景技术

随着计算机科学技术的急速发展，以至于数学的应用面越来越宽，不仅在工程与自然科学领域发光发热，而且以当前的深度与广度继续进军经济、管理、金融、生物、医学、环境、地质、人口、交通等各种新的领域，使数学技术成为了当代先进技术的重要组成部分，也成为了数据建模不可或缺的一部分，数据建模就是运用数学语言和方法，通过抽象、简化方式对生活中的实际问题进行数学刻画抽取并提供有效的解决办法，对于促进数据发展，提高现实生产效率，于分析数据清楚决策方向具有重要的作用。然而，海量数据的处理、各类数学模型以及数据结果的展示都需要靠高性能的计算机，高性能的计算机硬件和软件在建模过程中也发挥着重要的作用，基于此我们需要用大数据集群来作为数据结果的最终流向，用大数据集群的数据仓库存贮建模数据。

现有医学领域、核电工业领域、航天领域的数据仓库已不满足于当前网络数据各种行业的建模理论系统，对于现有的越来越多的电商企业来说也愈来愈需要电商数据仓库来整合电商数据，

在当前数据仓库种类众多，各行各业的建模系统方法中，由于电商数据的特殊性和大数据量，当前的建模方法已满足不了电商数据的需求，不能适用电商平台。

因此，需要一种技术，以实现基于电商数据的数据仓库的建立。

发明内容

本发明技术方案提供一种基于电商数据的数据仓库建立方法及系统，以解决如何基于电商数据进行数据仓库建立。

为了解决上述问题，本发明提供了一种基于电商数据的数据仓库建立方法，所述方法包括：

建立数据库表，包括基于不可拆分的行业事件确定业务过程，确定每一业务过程对应的事务型事实表；

基于每一业务过程声明对应的事务型事实表的粒度；

确定所述事务型事实表的维度，所述维度为与业务过程相关的环境信息；

计算事务型事实表对应的每个业务过程的度量值，基于每个业务过程的度量值确定所述事务型事实表的字段；

获取预先生成的建库模型，促使所述预先生成的建库模型使用所述事务型事实表的维度和所述事务型事实表的字段生成数据仓库。

优选地，在建立数据库表之前还包括：

基于维度和字段构建初始的建库模型，对所述初始的建库模型进行训练，从而获得预先生成的建库模型。

优选地，还包括建立周期型快照事实表：

基于具有规律性的、可预见的时间间隔对应的事实，建立周期型快照事实表；

基于采样周期和维度描述，声明对应的周期型快照事实表的粒度；

基于周期型快照事实表的统计指标确定周期型快照事实表的事实；所述事实包括：可加事实、半可加事实以及不可加事实。

优选地，还包括建立累积型快照事实表：

确定一个业务过程在流程中关联的多个关键业务过程，将多个关键业务过程对应一张累积型快照事实表；

基于多个关键业务过程声明对应的累积型快照事实表的粒度；

确定所述累积型快照事实表的维度，每个关键业务过程对应一个维度；

计算所述累积型快照事实表的对应的每个关键业务过程的度量值，基于每个关键业务过程的度量值确定所述事务型事实表的字段。

优选地，还包括建立维度表：

基于确定的事务型事实表的维度，建立对应的维度表；所述维度表包括主维度表和相关维度表，将所述主维度表的粒度作为所述维度表的粒度；以及

确定所述维度表的属性。

优选地，所述建立维度表，还包括：

当维度属性发生变化时，通过全量快照表或拉链表保存维度属性变化前的历史状态；

对于多值维度，存储至一个字段或通过多字段保存多个维度值；

对于多值属性，存储至一个字段或通过多个字段保存多值属性。

基于本发明的另一方面，本发明提供一种基于电商数据的数据仓库建立系统，所述系统包括：

确定单元，建立数据库表，包括用于基于不可拆分的行业事件确定业务过程，确定每一业务过程对应的事务型事实表；

粒度单元，用于基于每一业务过程声明对应的事务型事实表的粒度；

维度单元，用于确定所述事务型事实表的维度，所述维度为与业务过程相关的环境信息；

统计单元，用于计算事务型事实表对应的每个业务过程的度量值，基于每个业务过程的度量值确定所述事务型事实表的字段；

生成单元，用于获取预先生成的建库模型，促使所述预先生成的建库模型使用所述事务型事实表的维度和所述事务型事实表的字段生成数据仓库。

优选地，还包括初始单元，用于：

优选地，还用于建立周期型快照事实表：

优选地，还用于建立累积型快照事实表：

优选地，还用于建立维度表：

确定所述维度表的属性。

优选地，所述建立维度表，还包括：

本发明技术方案提供了一种基于电商数据的数据仓库建立方法及系统，其中方法包括：基于不可拆分的行业事件确定业务过程，确定每一业务过程对应的事务型事实表；基于每一业务过程声明对应的事务型事实表的粒度；确定事务型事实表的维度，维度为与业务过程相关的环境信息；计算事务型事实表对应的每个业务过程的度量值，基于每个业务过程的度量值确定事务型事实表的字段。本发明提供一种电商数据领域建模系统方法，进一步解决了电商数据无法提供快速便利的数据服务。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1为根据本发明优选实施方式的一种基于电商数据的数据仓库建立方法流程图；

图2为根据本发明优选实施方式的建模层级结构示意图；以及

图3为根据本发明优选实施方式的一种基于电商数据的数据仓库建立系统结构图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

图1为根据本发明优选实施方式的一种基于电商数据的数据仓库建立方法流程图。本发明针对电商行业的数据进行建模并将数据统一放到数据仓库进行存贮，并于数据仓库内进行一种基于业务变化频度的数据仓库建模对电商数据进行分层，提高数据利用效率，高效的定义和分析数据，在其相应支持的大数据服务器集群通过对数据进行划分维度，分割数据库表，合并业务相关的库表，结合业务事实情况对三表进行合并，组合成多维宽表方便数据统计与分析，因为业务原因我们需要合并成许多宽表，占用空间较大，我们需要用大数据集群hadoop的hdfs来进行数据存贮形成一个流程，原始数据从库里传到hdfs上对他进行一下数据清洗，将脏数据与无效数据排除在外，针对清理完成的数据进行以上建模操作，使其形成一个高效便于数据分析的电商数据仓库，让指标分析更加快捷。

本发明是以维度建模为基础模型为模板来进行电商数据建模的，又分为事实数据与维度数据来基此对整个建模进行构建，由此形成一个完整的电商数据仓库。

如图1所示，本发明提供一种基于电商数据的数据仓库建立方法，方法包括：

步骤101：建立数据库表，包括基于不可拆分的行业事件确定业务过程，确定每一业务过程对应的事务型事实表；

步骤102：基于每一业务过程声明对应的事务型事实表的粒度；

步骤103：确定事务型事实表的维度，维度为与业务过程相关的环境信息；

步骤104：计算事务型事实表对应的每个业务过程的度量值，基于每个业务过程的度量值确定事务型事实表的字段；

步骤105：获取预先生成的建库模型，促使所述预先生成的建库模型使用所述事务型事实表的维度和所述事务型事实表的字段生成数据仓库。

本发明中建立事务型事实表，事务事实表用来记录各业务过程，它保存的是各业务过程的原子操作事件，即最细粒度的操作事件。粒度是指事实表中一行数据所表达的业务细节程度。

1)设计过程

设计事务事实表时一般可遵循以下四个步骤：

选择业务过程→声明粒度→确认维度→确认事实

(1)选择业务过程

在业务系统中，挑选我们感兴趣的业务过程，业务过程可以概括为一个个不可拆分的行为事件，例如电商交易中的下单，取消订单，付款，退单等，都是业务过程。通常情况下，一个业务过程对应一张事务型事实表。

(2)声明粒度

业务过程确定后，需要为每个业务过程声明粒度。即精确定义每张事务型事实表的每行数据表示什么，应该尽可能选择最细粒度，以此来应各种细节程度的需求。

典型的粒度声明如下：

订单事实表中一行数据表示的是一个订单中的一个商品项。

(3)确定维度

确定维度具体是指，确定与每张事务型事实表相关的维度有哪些。

确定维度时应尽量多的选择与业务过程相关的环境信息。因为维度的丰富程度就决定了维度模型能够支持的指标丰富程度。

(4)确定事实

此处的“事实”一词，指的是每个业务过程的度量值(通常是可累加的数字类型的值，例如：次数、个数、件数、金额等)。

经过上述四个步骤，事务型事实表就基本设计完成了。第一步选择业务过程可以确定有哪些事务型事实表，第二步可以确定每张事务型事实表的每行数据是什么，第三步可以确定每张事务型事实表的维度外键，第四步可以确定每张事务型事实表的度量值字段。

2)不足

(1)存量型指标

例如商品库存，账户余额等。

(2)多事务关联统计

例如，现需要统计最近30天，用户下单到支付的时间间隔的平均值。统计思路应该是找到下单事务事实表和支付事务事实表，过滤出最近30天的记录，然后按照订单id对两张事实表进行关联，之后用支付时间减去下单时间，然后再求平均值。

优选地，还包括建立周期型快照事实表：

基于周期型快照事实表的统计指标确定周期型快照事实表的事实；事实包括：可加事实、半可加事实以及不可加事实。

本发明建立周期型快照事实表，周期快照事实表以具有规律性的、可预见的时间间隔来记录事实，主要用于分析一些存量型(例如商品库存，账户余额)或者连续状态型(空气温度，行驶速度)指标。

1)设计流程

(1)确定粒度

周期型快照事实表的粒度可由采样周期和维度描述，故确定采样周期和维度后即可确定粒度。

采样周期通常选择每日。

维度可根据统计指标决定，例如指标为统计每个仓库中每种商品的库存，则可确定维度为仓库和商品。

确定完采样周期和维度后，即可确定该表粒度为每日-仓库-商品。

(2)确认事实

事实也可根据统计指标决定，例如指标为统计每个仓库中每种商品的库存，则事实为商品库存。

2)事实类型

此处的事实类型是指度量值的类型，而非事实表的类型。事实(度量值)共分为三类，分别是可加事实，半可加事实和不可加事实。

(1)可加事实

可加事实是指可以按照与事实表相关的所有维度进行累加，例如事务型事实表中的事实。

例如：订单金额(用户、商品、地区、时间)

(2)半可加事实

半可加事实是指只能按照与事实表相关的一部分维度进行累加，例如周期型快照事实表中的事实。以上述各仓库中各商品的库存每天快照事实表为例，这张表中的库存事实可以按照仓库或者商品维度进行累加，但是不能按照时间维度进行累加，因为将每天的库存累加起来是没有任何意义的。

(3)不可加事实

不可加事实是指完全不具备可加性，例如比率型事实。不可加事实通常需要转化为可加事实，例如比率可转化为分子和分母。

优选地，还包括建立累积型快照事实表：

确定累积型快照事实表的维度，每个关键业务过程对应一个维度；

计算累积型快照事实表的对应的每个关键业务过程的度量值，基于每个关键业务过程的度量值确定事务型事实表的字段。

本发明建立累积型快照事实表，累计快照事实表是基于一个业务流程中的多个关键业务过程联合处理而构建的事实表，如交易流程中的下单、支付、发货、确认收货业务过程。

累积型快照事实表通常具有多个日期字段，每个日期对应业务流程中的一个关键业务过程(里程碑)。

1)设计流程

累积型快照事实表的设计流程同事务型事实表类似，也可采用以下四个步骤，下面重点描述与事务型事实表的不同之处。

选择业务过程→声明粒度→确认维度→确认事实。

(1)选择业务过程

选择一个业务流程中需要关联分析的多个关键业务过程，多个业务过程对应一张累积型快照事实表。

(2)声明粒度

精确定义每行数据表示的是什么，尽量选择最小粒度。

(3)确认维度

选择与各业务过程相关的维度，需要注意的是，每个业务过程均需要一个日期维度。

(4)确认事实

选择各个业务过程的度量值。

优选地，还包括建立维度表：

基于确定的事务型事实表的维度，建立对应的维度表；维度表包括主维度表和相关维度表，将主维度表的粒度作为维度表的粒度；以及

确定维度表的属性。

优选地，建立维度表，还包括：

本发明建立维度表，维度表是维度建模的基础和灵魂。前文提到，事实表紧紧围绕业务过程进行设计，而维度表则围绕业务过程所处的环境进行设计。维度表主要包含一个主键和各种维度字段，维度字段称为维度属性。

维度表设计步骤包括：

(1)确定维度(表)

在设计事实表时，已经确定了与每个事实表相关的维度，理论上每个相关维度均需对应一张维度表。

(2)确定主维表和相关维表

此处的主维表和相关维表均指业务系统中与某维度相关的表。例如业务系统中与商品相关的表有sku_info，spu_info，base_trademark，base_category3，base_category2，base_category1等，其中sku_info就称为商品维度的主维表，其余表称为商品维度的相关维表。维度表的粒度通常与主维表相同。

(3)确定维度属性

尽可能生成丰富的维度属性。

尽量不使用编码，而使用明确的文字说明，一般可以编码和文字共存。

尽量沉淀出通用的维度属性。

维度设计要点

1)维度变化

维度属性通常不是静态的，而是会随时间变化的，数据仓库的一个重要特点就是反映历史的变化，所以如何保存维度的历史状态是维度设计的重要工作之一。保存维度数据的历史状态，通常有以下两种做法，分别是全量快照表和拉链表。

(1)全量快照表

离线数据仓库的计算周期通常为每天一次，所以可以每天保存一份全量的维度数据。这种方式的优点和缺点都很明显。

优点是简单而有效，开发和维护成本低，且方便理解和使用。

缺点是浪费存储空间，尤其是当数据的变化比例比较低时。

(2)拉链表

拉链表的意义就在于能够更加高效的保存维度信息的历史状态。

2)多值维度

例如：一个订单关联多个商品

第一种：降低事实表的粒度，例如将订单事实表的粒度由一个订单降低为一个订单中的一个商品项。

第二种：在事实表中采用多字段保存多个维度值，每个字段保存一个维度id。这种方案只适用于多值维度个数固定的情况。

3)多值属性

例如商品维度的平台属性和销售属性，每个商品均有多个属性值。

第一种：将多值属性放到一个字段，该字段内容为key1:value1，key2:value2的形式，例如一个手机商品的平台属性值为“品牌:华为，系统:鸿蒙，CPU:麒麟990”。

第二种：将多值属性放到多个字段，每个字段对应一个属性。这种方案只适用于多值属性个数固定的情况。

本发明合理利用集群资源将大数据集群作为数据仓库使电商数据的繁多得到合理的解决，实现了资源数据共享加快了数据交互传输的效率，使用相比普遍数据库来说也没有学习成本可言。

本发明主要是对电商数据进行数据建模，使得电商数据对电商领域可以便于日后的工作，本发明针对某些指标简化了许多的流程，间接的提升了工作的效率，使得相关工作人员对于数据仓库的数据理解也更清晰一些。

图3为根据本发明优选实施方式的一种基于电商数据的数据仓库建立系统结构图。如图3所示，本发明提供一种基于电商数据的数据仓库建立系统，系统包括：

确定单元301，用于建立数据表，包括基于不可拆分的行业事件确定业务过程，确定每一业务过程对应的事务型事实表；

粒度单元302，用于基于每一业务过程声明对应的事务型事实表的粒度；

维度单元303，用于确定事务型事实表的维度，维度为与业务过程相关的环境信息；

统计单元304，用于计算事务型事实表对应的每个业务过程的度量值，基于每个业务过程的度量值确定事务型事实表的字段；

生成单元305，用于获取预先生成的建库模型，促使预先生成的建库模型使用事务型事实表的维度和事务型事实表的字段生成数据仓库。

优选地，还包括初始单元，用于：

基于维度和字段构建初始的建库模型，对初始的建库模型进行训练，从而获得预先生成的建库模型。

优选地，系统还用于建立周期型快照事实表：

优选地，系统还用于建立累积型快照事实表：

优选地，系统还用于建立维度表：

确定维度表的属性。

优选地，系统还用于建立维度表，还包括：

本发明优选实施方式的一种基于电商数据的数据仓库建立系统与本发明另一优选实施方式的一种基于电商数据的数据仓库建立方法相对应，在此不再进行赘述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本发明实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

已经通过参考少量实施方式描述了本发明。然而，本领域技术人员所公知的，正如附带的专利权利要求所限定的，除了本发明以上公开的其他的实施例等同地落在本发明的范围内。

通常地，在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释，除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例，除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行，除非明确地说明。

Claims

1.一种基于电商数据的数据仓库建立方法，所述方法包括：

基于每一业务过程声明对应的事务型事实表的粒度；

2.根据权利要求1所述的方法，在建立数据库表之前还包括：

3.根据权利要求1所述的方法，还包括建立周期型快照事实表：

4.根据权利要求1所述的方法，还包括建立累积型快照事实表：

5.根据权利要求1所述的方法，还包括建立维度表：

确定所述维度表的属性。

6.根据权利要求5所述的方法，所述建立维度表，还包括：

7.一种基于电商数据的数据仓库建立系统，所述系统包括：

确定单元，用于建立数据表，包括基于不可拆分的行业事件确定业务过程，确定每一业务过程对应的事务型事实表；

8.根据权利要求7所述的系统，还包括初始单元，用于：

9.根据权利要求7所述的系统，还用于建立周期型快照事实表：

10.根据权利要求7所述的系统，还用于建立累积型快照事实表：

11.根据权利要求7所述的系统，还用于建立维度表：

确定所述维度表的属性。

12.根据权利要求11所述的系统，所述建立维度表，还包括：