CN112084182A

CN112084182A - 一种用于数据集市和数据仓库的数据建模方法

Info

Publication number: CN112084182A
Application number: CN202010948344.0A
Authority: CN
Inventors: 张洪春
Original assignee: Chongqing Fumin Bank Co Ltd
Current assignee: Chongqing Fumin Bank Co Ltd
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2020-12-15

Abstract

本发明涉及数据集市及数据仓库的技术领域，具体为一种用于数据集市和数据仓库的数据建模方法，包括以下步骤：搭建总线架构步骤：抽取业务系统主数据进行自动整合，获得公共的一致性维度，构建标准总线接口；数据处理步骤：对业务数据表进行分类，根据分类结果自动筛选数据抽取方式抽取业务数据表；模型整合步骤：通过反三范式对业务数据表进行组合、拆分形成事实表和多个维度表，根据事实表和多个维度表构建以事实表为主的维度模型。采用本方案能够解决现有技术中由于各独立型数据集市由各用户或部门独立构建，其数据架构互相独立，无法复用，容易造成数据孤岛，同时也无法保证企业数据的规范性、一致性和准确性的技术问题。

Description

一种用于数据集市和数据仓库的数据建模方法

技术领域

本发明涉及数据集市及数据仓库的技术领域，具体为一种用于数据集市和数据仓库的数据建模方法。

背景技术

数据仓库是指具有面向主题、集成性、稳定性和时变性等特征的数据集合，其主要是为决策分析提供数据支持。数据集市又称数据市场，是指满足特定部门或用户的需求，按照多维方式进行存储的数据集合，其数据可从企业级的数据仓库中抽取。

目前的数据集市可分为两种：一是从属型数据集市，自顶向下，以数据源为导向，其数据流向为数据源-数据仓库-数据集市，例如以业务系统的数据作为数据源，业务系统的数据通过清洗、加载、整合形成数据仓库，根据业务需求或部门需求从数据仓库中抽取数据构建数据集市，此时，数据集市为数据仓库的子集。二是独立型数据集市，自底向上，以业务需求为导向，其数据流向为数据源-数据集市-数据仓库，例如以业务系统的数据作为数据源，根据业务需求或部门需求从数据源抽取数据构建不同主题的数据集市，多个数据集市通过一系列公共维度递增构建数据仓库。

从属型数据集市主要采用关系建模法构建数据模型，例如第三范式，这种构建方式需要从全局考虑，对企业的业务系统全面进行梳理，并划分主题，构建符合第三范式的实体关系，从而构建数据规范性、数据一致性较好的数据模型，能够有效屏蔽上游业务系统的变化对下游应用的影响。但是该数据模型中数据的关联性较强，缺乏灵活性，响应性能易受影响，同时由于前期所需数据量较为冗杂，实施周期非常长，建设成本较大，同时对建模人员的要求非常高。

而独立型数据集市主要采用维度建模法构建数据模型，其数据模型主要包括星型模型和雪花模型，这种构建方式以分析决策的需求出发，例如从业务需求或部门需求出发，根据需求获取数据构建事实表和维度表，通过一个事实表和多个维度表构建宽表，从而实现OLAP快速分析，适应大规模复杂查询下的性能快速响应。但是独立型数据集市直接从数据源抽取数据，存在大量的数据预处理工作，同时由于各独立型数据集市由各用户或部门独立构建，其数据架构互相独立，无法复用，容易造成数据孤岛，也无法保证企业数据的规范性、一致性和准确性。

发明内容

本发明意在提供一种用于数据集市和数据仓库的数据建模方法，以解决现有技术中由于各独立型数据集市由各用户或部门独立构建，其数据架构互相独立，无法复用，容易造成数据孤岛，同时也无法保证企业数据的规范性、一致性和准确性的技术问题。

本发明提供如下基础方案：

一种用于数据集市和数据仓库的数据建模方法，包括以下步骤：

搭建总线架构步骤：根据预设的数据规范和数据标准进行自动整合，整合为公共的一致性维度作为主数据；构建标准总线接口，以实现各数据模型与各数据集市之间的数据交互；

系统分析步骤：对加载业务数据的业务系统进行自动分析，获取业务系统的业务流程以及业务数据流向，并根据业务流程和业务数据流向生成数据结果表，对数据结果表的表结构进行自动分析，并设定表结构中的主键字段；

数据处理步骤：数据平台包括技术缓冲层、偏源模型层和整合模型层，获取业务系统的业务数据传输到数据平台，通过加载脚本将业务数据加载到技术缓冲层；业务数据包括多个业务数据表，对技术缓冲层加载的业务数据表进行分类，根据分类结果自动筛选数据抽取方式和加载频率，并根据数据抽取方式和加载频率将对应的业务数据表抽取到偏源模型层；

模型整合步骤：抽取偏源模型层的业务数据表到整合模型层，通过反三范式对业务数据表进行组合、拆分形成不同的事实表，以及和事实表对应的多个维度表，根据事实表和对应的多个维度表构建以事实表为主的维度模型。

名词说明：数据规范和数据标准为定义的数据上的规范和标准；主数据为各业务数据中的通用数据，又称为共性数据；标准总线接口为定义的各数据模型与各数据集市之间进行数据交互的接口；业务系统为企业中各业务部门使用的智能系统；业务流程为对应业务系统下的所有流程。

基础方案的有益效果：由于各业务部门的业务各不相同，因此各业务系统获取到的业务数据也各不相同，搭建总线架构步骤的设置，通过整合获取一致性维度作为主数据，建立各业务数据的关联，通过数据规范和数据标准的设置，有效保证导入数据平台的数据规范性，同时标准总线接口的设置，使得各业务系统下的业务数据形成的数据集市插拔式的组合为企业级的数据仓库。

技术缓冲层的设置，对加载的业务数据进行存储，确保加载到技术缓冲层的业务数据与业务系统传输的业务数据一致，从而保障数据的一致性。偏源模型层的设置，对所有的业务数据进行保存，便于追溯，同时便于获取业务数据的历史变化，保障数据历史变化的完整性。整合模型层的设置，抽取偏源模型层的业务数据进行组合、拆分获得事实表和维度表，通过事实表和维度表构建维度模型。

进一步，还包括共性加工步骤：数据平台还包括共性加工层，根据预设的共性需求从偏源模型层抽取业务数据，并加载至共性加工层，对抽取的业务数据进行整合自动生成共性基础表，并对共性基础表进行存储。

名词说明：共性需求企业中各业务系统均需要调用的基础信息的需求。

有益效果：直接调用共性基础表进行使用，通过共享共性基础表，以使各业务系统能够共享数据处理的开发资源，减少重复开发，便于业务系统快速的展开决策分析。

进一步，还包括应用集市步骤：数据平台还包括应用集市层，根据预设的应用需求定期从偏源模型层抽取业务数据，并加载至应用集市层，根据抽取的业务数据进行数据分析计算生成应用分析结果。

名词说明：应用需求为企业中各业务系统使用频率较高的应用分析的需求。

有益效果：通过应用分析结果，掌握企业客户的相关信息以及企业的营销策略是否有效。直接调用定期生成的应用分析结果，提高快速响应性能，快速满足业务分析需求。

进一步，获取业务系统的业务数据传输到数据平台具体包括以下步骤：数据平台从业务系统抽取业务数据或由业务系统向数据平台推送业务数据。有益效果：采用不同的业务数据获取策略，适用多种应用场景和业务需求。

进一步，对技术缓冲层加载的业务数据表进行分类，根据分类结果自动筛选数据抽取方式和加载频率，具体包括以下步骤：预设表类型，表类型包括流水表和状态表，根据表类型对技术缓冲层加载的业务数据表进行分类，数据抽取方式包括全量和增量，加载频率为日加载，根据流水表自动筛选出增量的数据抽取方式，根据状态表自动筛选出全量的数据抽取方式。有益效果：不同表类型下的业务数据表其数据抽取方式不相同，对于流水表采用增量的方式对本次业务进行记录，降低容易的数据表，对于状态表采用全量的方式对所有数据进行记录，供企业了解相应的业务情况。

进一步，数据处理步骤中，通过ETL将业务数据表抽取到偏源模型层。有益效果：ETL是指数据仓库技术，主要是通过数据抽取-数据加载-数据转换的流程将数据加载到数据仓库中，由于其采用数据抽取-数据加载-数据转换的流程对数据进行加载，因此又称为ELT。通过ETL实现业务数据的抽取。

进一步，数据处理步骤中，通过拉链算法在保留偏源模型层的历史数据的基础上，存储抽取的业务数据表。有益效果：通过拉链算法在保证业务数据的完整性下，减少业务数据的数据量，减少存储业务数据所占用的数据存储空间。

进一步，抽取偏源模型层的业务数据表到整合模型层，具体包括以下步骤：抽取偏源模型层的业务数据表，根据预设的数据映射规则和数据清洗规则对业务数据表进行处理，并将处理的业务数据表抽取到整合模型层。有益效果：通过数据映射规则实现业务数据的迁移，通过数据清洗规则对业务数据进行清洗，提高业务数据的数据质量，从而提高利用业务数据进行应用分析的准确性。

进一步，通过反三范式对业务数据表进行组合、拆分形成不同的事实表，以及和事实表对应的多个维度表，具体包括以下步骤：在业务数据表中增加维度冗余，并整合多个业务数据表形成包含主数据的事实表，对事实表进行拆分，获得新增维度表。有益效果：通过增加维度冗余，减少主数据之间的关联，从而提高快速响应的性能。

进一步，数据清洗规则包括非空检核、主键重复、非法代码清洗、非法值清洗、数据格式检核、记录数检核和非空检核中的一种或多种。有益效果：根据对数据的要求选择数据清洗规则，以此实现对业务数据的分析处理。

附图说明

图1为本发明一种用于数据集市和数据仓库的数据建模方法实施例一的流程图；

图2为本发明一种用于数据集市和数据仓库的数据建模方法实施例一具体实例的星型模型图。

具体实施方式

下面通过具体实施方式进一步详细说明：

实施例一

一种用于数据集市和数据仓库的数据建模方法，如图1所示，包括以下步骤：

搭建总线架构步骤，具体包括以下步骤：

根据预设的数据规范和数据标准进行自动整合，整合为公共的一致性维度作为主数据，数据规范和数据标准由本领域技术人员根据行业标准制定。主数据为各业务数据之间的共性数据，包括客户、产品、机构、渠道和地址。业务系统为企业中各业务部门使用的智能系统，由于各业务部门的业务各不相同，因此各业务系统获取到的业务数据也各不相同，通过整合获取各业务数据之间的共性数据，建立各业务数据之间的关联。

构建标准总线接口，通过标准总线接口各数据模型与各数据集市之间的数据交互。构建数据平台的技术缓冲层、偏源模型层、整合模型层、共性加工层和应用集市层。数据平台是指企业存储客户因业务需求产生的业务数据的平台。通过标准总线接口，有效保证导入数据平台的数据规范性，同时通过标准总线接口使得各业务系统下的业务数据形成的数据集市插拔式的组合为企业级的数据仓库。

系统分析步骤，具体包括以下步骤：

对加载业务数据的业务系统自动进行分析，获取业务系统的业务流程以及业务数据流向，并根据业务流程和业务数据流向生成数据结果表，对数据结果表的表结构进行自动分析，并设定表结构中的主键字段。例如信贷系统的流程包括客户准入—反欺诈—信用评估—贷款审批—签订发放—本息回收—贷后监控—资产保全，信贷系统的业务数据流向包括传统信贷系统、助贷系统、联合贷款系统、网贷系统等。

数据处理步骤，具体包括以下步骤：

数据平台从业务系统抽取业务数据或由业务系统向数据平台推送业务数据，通过加载脚本将抽取或推送的业务数据加载到技术缓冲层。通过技术缓冲层对加载的业务数据进行存储，确保加载到技术缓冲层的业务数据与业务系统传输的业务数据一致，从而保障数据的一致性。

对技术缓冲层加载的业务数据进行分类，获得不同表类型的业务数据表，根据表类型自动筛选数据抽取方式和加载频率，并根据数据抽取方式将对应表类型的业务数据表按加载频率通过ETL抽取到偏源模型层，通过拉链算法在保留历史数据的基础上存储业务数据表，采用标志位和时间戳标识和记录业务数据的更新点。历史数据为偏源模型层原有存储的业务数据，偏源模型层下的业务数据形成数据仓库。在本实施例中，表类型包括流水表和状态表，数据抽取方式包括全量和增量，加载频率为日加载。偏源模型层下的业务数据表在业务系统传输的业务数据表的表结构上增加标志位和时间戳，从而保障数据的一致性和数据历史变化的完整性。

具体的，以加载风控数据为例，对风控数据进行分类，分为流水表和状态表，将分类为流水表的业务数据表以增量的方式按日加载频率通过ETL抽取到偏源模型层，将分类为状态表的业务数据表以全量的方式按日加载频率通过ETL抽取到偏源模型层，通过拉链算法保留偏源模型层的历史数据，并对抽取到偏源模型层的业务数据进行存储，存储时，采用标志位和时间戳标识和记录业务数据的更新点，通过更新点区分不同时间下抽取的业务数据。ETL是指数据仓库技术，主要是通过数据抽取-数据加载-数据转换的流程将数据加载到数据仓库中，由于其采用数据抽取-数据加载-数据转换的流程对数据进行加载，因此又称为ELT。

模型整合步骤，具体包括以下步骤：

抽取偏源模型层的业务数据表，根据预设的数据映射规则和数据清洗规则对业务数据表进行处理，并将处理的业务数据表抽取到整合模型层。通过反三范式对业务数据表进行组合、拆分形成不同的事实表，以及和事实表对应的多个维度表，根据事实表和对应的多个维度表构建以事实表为主的维度模型。具体的，在业务数据表中增加维度冗余，并整合多个业务数据表形成包含主数据的事实表，对事实表进行拆分，获得新增维度表，根据事实表和对应的多个维度表构建以事实表为主的维度模型。

数据映射规则采用现有行业中使用的数据映射规则，数据清洗规则包括非空检核、主键重复、非法代码清洗、非法值清洗、数据格式检核、记录数检核和非空检核，数据清洗规则可由本领域技术人员根据数据规范和数据标准进行选择，在本实施例中，数据清洗规则包括主键重复和数据格式检核。通过增加维度冗余，减少主数据之间的关联，从而提高快速响应的性能。增加维度冗余为向业务数据表中增加的冗余字段，在本实施例中，增加的冗余字段为产品名称，通过增加产品名称的冗余字段减少产品主数据之间的关联。

在本实施例中以一具体实例对系统分析步骤、数据处理步骤和模型整合步骤进行说明，具体实例中以构建主题为风控授信额度的维度模型为例：

通过银行APP、HTML、公众号或业务办理系统申请贷款，填写并提交申请贷款的客户的个人相关资料，提交后调用业务部门的业务系统进行授信审批，在具体实例中调用风控系统进行授信审批，根据个人授信和企业授信调用不同的授信环节流程和风控流程，并记录个人授信和企业授信的调用结果表，如表一、表二所示，调用风控授信额度的产品表，如表三所示，调用结果表和产品表为业务数据。

表一风控_个人额度申请表

表二风控_企业额度申请表

表三风控_产品表

序号	表英文名	表中文名	字段英文名	字段中文名	数据类型
						1	xindai_product	风控_产品表	product_type	产品类型	string
2	xindai_product	风控_产品表	product_no	产品编号	string
						3	xindai_product	风控_产品表	product_name	产品名称	string

根据表类型对业务数据进行分类，风控_个人额度申请表和风控_企业额度申请表等事实表为流水表，即调用结果表为流水表，风控_产品表等维度表为状态表。将流水表以增量的加载方式以日加载的频率通过ETL抽取到偏源模型层，将状态表以全量的加载方式以日加载的频率通过ETL抽取到偏源模型层，并通过拉链算法保留偏源模型层中的历史数据。

抽取偏源模型层中的风控_个人额度申请表、风控_企业额度申请表和风控_产品表，采用反三范式，在风控_个人额度申请表和风控_企业额度申请表增加冗余字段，增加的冗余字段为产品名称。将风控_个人额度申请表和风控_企业额度申请表自动整合为包含共性数据的事实表，称为风控_额度申请表，并增加申请主体类型字段以区分个人和企业，对整合后的事实表进行拆分获得新增维度，例如产品维度表、日期维度表、地区维度表等，在本实施例中，新增维度表为产品维度表和地址维度表，根据事实表和对应的多个维度表构建以事实表为主的星型模型。模型整合后的表结构如表四所示，星型模型如图2所示。

表四模型整合后的表结构

实施例二

本实施例与实施例一的不同之处在于：一种用于数据集市和数据仓库的数据建模方法，还包括以下步骤：

共性加工步骤，具体包括以下步骤：

根据预设的共性需求从偏源模型层抽取业务数据，并加载至共性加工层，对抽取的业务数据进行整合自动生成共性基础表，并对共性基础表进行存储。共性需求为企业中各业务系统均需要调用的基础信息的需求，例如各业务系统都需要的业务产品信息。通过抽取业务产品数据，对业务产品数据进行整合生成产品表，例如风控授信额度的产品表。使用时，可直接调用共性基础表进行使用，通过共享共性基础表，以使各业务系统能够共享数据处理的开发资源，便于业务系统快速的展开决策分析。

实施例三

本实施例与实施例二的不同之处在于：一种用于数据集市和数据仓库的数据建模方法，还包括以下步骤：

应用集市步骤，具体包括以下步骤：

根据预设的应用需求定期从偏源模型层抽取业务数据，并加载至应用集市层，根据抽取的业务数据进行数据分析计算生成应用分析结果。应用需求为企业中各业务系统使用频率较高的应用分析的需求，例如对于风控系统而言，会定期进行vintage、迁徙率、入催率、滚动率、首逾率等数据分析，从而掌握企业客户的还款信息以及企业的营销策略是否有效。直接调用定期生成的应用分析结果，提高快速响应性能，快速满足业务分析需求。

以上所述的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.一种用于数据集市和数据仓库的数据建模方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的用于数据集市和数据仓库的数据建模方法，其特征在于：还包括共性加工步骤：数据平台还包括共性加工层，根据预设的共性需求从偏源模型层抽取业务数据，并加载至共性加工层，对抽取的业务数据进行整合自动生成共性基础表，并对共性基础表进行存储。

3.根据权利要求1所述的用于数据集市和数据仓库的数据建模方法，其特征在于：还包括应用集市步骤：数据平台还包括应用集市层，根据预设的应用需求定期从偏源模型层抽取业务数据，并加载至应用集市层，根据抽取的业务数据进行数据分析计算生成应用分析结果。

4.根据权利要求1所述的用于数据集市和数据仓库的数据建模方法，其特征在于：获取业务系统的业务数据传输到数据平台具体包括以下步骤：数据平台从业务系统抽取业务数据或由业务系统向数据平台推送业务数据。

5.根据权利要求1所述的用于数据集市和数据仓库的数据建模方法，其特征在于：对技术缓冲层加载的业务数据表进行分类，根据分类结果自动筛选数据抽取方式和加载频率，具体包括以下步骤：预设表类型，表类型包括流水表和状态表，根据表类型对技术缓冲层加载的业务数据表进行分类，数据抽取方式包括全量和增量，加载频率为日加载，根据流水表自动筛选出增量的数据抽取方式，根据状态表自动筛选出全量的数据抽取方式。

6.根据权利要求1所述的用于数据集市和数据仓库的数据建模方法，其特征在于：数据处理步骤中，通过ETL将业务数据表抽取到偏源模型层。

7.根据权利要求1所述的用于数据集市和数据仓库的数据建模方法，其特征在于：数据处理步骤中，通过拉链算法在保留偏源模型层的历史数据的基础上，存储抽取的业务数据表。

8.根据权利要求1所述的用于数据集市和数据仓库的数据建模方法，其特征在于：抽取偏源模型层的业务数据表到整合模型层，具体包括以下步骤：抽取偏源模型层的业务数据表，根据预设的数据映射规则和数据清洗规则对业务数据表进行处理，并将处理的业务数据表抽取到整合模型层。

9.根据权利要求1所述的用于数据集市和数据仓库的数据建模方法，其特征在于：通过反三范式对业务数据表进行组合、拆分形成不同的事实表，以及和事实表对应的多个维度表，具体包括以下步骤：在业务数据表中增加维度冗余，并整合多个业务数据表形成包含主数据的事实表，对事实表进行拆分，获得新增维度表。

10.根据权利要求8所述的用于数据集市和数据仓库的数据建模方法，其特征在于：数据清洗规则包括非空检核、主键重复、非法代码清洗、非法值清洗、数据格式检核、记录数检核和非空检核中的一种或多种。