CN103605732B

CN103605732B - 基于Infobright的数据仓库和系统及其构建方法

Info

Publication number: CN103605732B
Application number: CN201310582660.0A
Authority: CN
Inventors: 者文明; 李东
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Xi'an jingxundi Supply Chain Technology Co., Ltd
Priority date: 2013-11-19
Filing date: 2013-11-19
Publication date: 2018-03-30
Anticipated expiration: 2033-11-19
Also published as: CN103605732A

Abstract

一种基于Infobright的数据仓库，包括：源数据仓，其存放从关系型数据库中抽取过来的原始数据；加工仓，其具有brighthouse引擎，所述加工仓为一主多从的集群架构，包括一个加工仓主库和多个加工仓从库，所述加工仓提取源数据仓中的原始数据，并对所述原始数据进行加工处理和存储。本发明还提供一种基于Infobright的数据仓库系统，其包括所述的基于Infobright的数据仓库；关系型数据库，其用于产生业务有关的原始数据；数据导入单元，其将所述原始数据导入到所述数据仓库中。本发明还提出了基于Infobright的数据仓库和系统的构件方法。本发明的数据仓库具有高性能且可扩展的优点。

Description

基于Infobright的数据仓库和系统及其构建方法

技术领域

本发明涉及数字数据处理技术。

背景技术

数据仓库（Data Warehouse）是为企业进行分析性报告和决策支持的数据集合。构建数据仓库的意义在于：

1.有效集成企业内部和外部数据，为企业各层决策提供数据依据；

2.将分散的，异构数据库系统的数据统一集成起来；

3.可以进行企业的利润与成本分析；

4.规范管理，优化流程，决策支持。

常见的构建数据仓库的工具有IBM Cognos和SAP B0等。上述二者均采用集中式的单节点模式来构建数据仓库，这种类型的数据仓库的扩展性差。随着大数据时代的来临，数据的规模急剧扩大，有些已经达到TB级别，上述传统数据仓库已经越来越不能满足使用需要。

现有技术方案的缺陷表现在如下几个方面：

1.因为在架构上采用集中式的单节点模式，因此水平扩展能力差，在高并发应用场景下无法水平扩展；

2.数据量级支持有限，无法支持TB级以上的数据量，这样就满足不了电商、互联网等企业的海量数据分析；

3.因为基于传统关系型数据库，所以在查询性能上很难有突破，这样在报表展现时用户体验会很差；

4.费用昂贵，对企业来说是一笔不小的开销。

发明内容

基于现有技术的缺点，本发明提出一种基于Infobright的数据仓库的构建方法，包括：构建源数据仓，所述源数据仓存放从关系型数据库中抽取过来的原始数据；构建加工仓，所述加工仓具有brighthouse引擎，所述加工仓为一主多从的集群架构，包括一个加工仓主库和多个加工仓从库，所述加工仓提取源数据仓中的原始数据，并对所述原始数据进行加工处理和存储。

本发明还提出一种基于Infobright的数据仓库系统的构建方法，包括：按照如上所述的方法构建基于Infobright的数据仓库；构建一关系型数据库，所述关系型数据库用于产生与业务有关的原始数据；构建一数据导入单元，所述数据导入单元将所述原始数据导入到所述数据仓库中。

本发明还提出一种基于Infobright的数据仓库，包括：源数据仓，所述源数据仓存放从关系型数据库中抽取过来的原始数据；加工仓，所述加工仓具有brighthouse引擎，所述加工仓为一主多从的集群架构，包括一个加工仓主库和多个加工仓从库，所述加工仓提取源数据仓中的原始数据，并对所述原始数据进行加工处理和存储。

本发明还提出一种基于Infobright的数据仓库系统，包括：如前所述的数据仓库；关系型数据库，所述关系型数据库用于产生业务有关的原始数据；数据导入单元，所述数据导入单元将所述原始数据导入到所述数据仓库中。

本发明提出的数据仓库和数据仓库的构建方法基于Infobright，构建出高性能的且可扩展的数据仓库。

本发明的优点如下：

1.采用一主多从的分布式架构，可水平扩展，可以满足高并发需求；

2.单一节点的Infobright就能支持30TB的数据量，而且还可扩展，因而可以支持真正的海量数据分析；

3.Infobright采用的是基于列存储技术，有别于传统的行存储技术，在分析报表常用的聚合函数的查询性能上表现优异，在查询性能上大大优于现有技术方案；

4.本发明采用Infobright社区版，可以免费使用，大大降低了成本。

附图说明

图1为本发明的基于Infobright的数据仓库系统的示意图；

图2为本发明的基于Infobright的数据仓库系统的优选实施例的示意图；

图3为本发明的基于Infobright的数据仓库系统的另一优选实施例的示意图；

图4为本发明的基于Infobright的数据仓库的示意图；

图5为本发明的基于Infobright的数据仓库的构建方法的示意图；

图6为本发明的基于Infobright的数据仓库系统的构建方法的示意图。

具体实施方式

本发明的基于Infobright的数据仓库系统的结构如图1所示。所述系统包括关系型数据库1、数据导入单元2、数据仓库3。关系型数据库1是业务的生产数据库，其生成整个业务的数据。数据导入单元2负责将关系型数据库1生成的数据导入到数据仓库3中。数据仓库3对数据进行处理并存储。

优选地，所述系统还包括报表展示单元4，报表展示单元4包括报表服务端和报表客户端，数据仓库3为其数据源，报表展示单元4将数据仓库3中加工好的数据通过报表的方式展现出来。

数据导入单元2被配置为执行如下将数据从关系型数据库1导入到数据仓库3的步骤：

步骤1）：数据导入单元2连接到关系型数据库1。具体为，配置关系型数据库1的连接参数（关系数据库的IP地址、用户名、密码、数据库名等），通过所述连接参数连接到关系型数据库1。

步骤2）：数据导入单元2配置数据传输参数（数据源、数据表、主键等）。

步骤3）：数据导入单元2根据所述步骤1）和步骤2）中的连接参数和数据传输参数将数据从关系型数据库1搬运到数据仓库3。

如图2所示，在另一个优选实施例中，数据导入单元2被配置为执行如下将数据从关系型数据库1导入到数据仓库3的步骤：

步骤3）：数据导入单元2的数据抽取平台根据所述步骤1）和步骤2）中的连接参数和数据传输参数将数据从关系型数据库1抽取到云存储（该云存储为一个基于云计算的存储空间）。

步骤4）：数据导入单元2的任务调度平台执行下载任务。所述任务调度平台通过调用API从云存储中下载数据到数据仓库3。

任务调度平台是指任务调度控制台，其定时执行用shell脚本编写的任务。

如图3所示，在另一个优选实施例中，数据导入单元2由ETL（数据提取-转换-加载，Extraction-Transformation-Loading）工具构建，该ETL工具通过增量方式将数据导入到数据仓库3中。数据导入单元2利用了ETL工具。数据导入单元2被配置为执行如下将数据从关系型数据库1导入到数据仓库3的步骤：

步骤1）数据导入单元2连接到关系型数据库1。具体为，配置关系型数据库1的连接参数（关系数据库的IP地址、用户名、密码、数据库名等），通过所述连接参数连接到关系型数据库1。

步骤2）：数据导入单元2配置作为数据传输参数的ETL参数（数据源、数据表、主键、增量判断字段等）。

步骤3）：数据导入单元2根据所述步骤1）和步骤2）中的连接参数和数据传输参数，将关系型数据库1中的数据以文本文件方式（csv,txt等）抽取到云存储中。

步骤4）：数据导入单元2的任务调度平台调用API将文本文件从云存储中下载到数据仓库服务器。

步骤5）：数据导入单元2的任务调度平台将所述文本文件通过load data infile的方式下载到数据仓库中。

图4显示了图1中所示的数据仓库3的结构。如图4所示，数据仓库3从逻辑上分为三个层次：源数据仓、加工仓和结果仓。下面对各个仓分别说明。

源数据仓具有Infobright的brighthouse引擎，Infobright是开源的MySQL数据仓库解决方案，在Mysql的Innodb存储引擎基础上改造而成，采用列存储模式，引入了知识网格技术，具有高压缩比、高性能的聚合函数查询性能、支持TB级的海量数据等特点。

源数据仓存放从关系型数据库中抽取过来的原始数据，原始数据均以增量的方式被加载到源数据仓中。

源数据仓的数据被传输到加工仓。加工仓是一个集群，包括加工仓主库以及多个加工仓从库。加工仓同样具有brighthouse引擎，和源数据仓不同的是，加工仓采用了一主多从的集群架构，这样就可以支持水平扩展，支持高并发。

原始数据在加工仓中需要进行处理。譬如，因ICE版的Infobright并不支持insert、update和delete命令操作，数据导入只能通过“load data infile”方式导入，每次增量导入的数据中包括了update和insert数据，因为Infobright引擎不支持主键，所以源数据仓里各表中的数据就可能会出现重复记录，这些重复的数据在加工仓中被去除。

加工仓对源数据仓的原始数据的处理包括排重、合并、拆分等。加工仓包括任务调度平台，通过任务调度平台进行上述加工过程。优选地，任务调度平台调度shell任务脚本来完成。

任务调度平台部署在加工仓主库中，加工仓从库并不需要部署，加工仓从库的数据是采用数据库自身的binlog复制模式从主库复制到各个从库中。

加工仓是一个一主多从的集群架构，数据加工过程（排重、合并、拆分）均在主库中完成，从库是读库，可扩展，用作汇总类报表的数据源，可根据并发量水平扩展。

原始数据通过增量的方式load到源数据仓之后，因为infobright社区版不支持主键和update操作，所以load方式导入到源数据仓的数据可能会存在重复，因而需要排重，以申请单表（apply）为例，排重的步骤描述如下：

步骤1：在源数据仓中，根据表apply中的主键字段和更新时间字段（时间戳），从源数据仓的表apply中过滤出主键重复的记录中更新时间最新的一条记录，按照这种算法查询出所有主键不重复的记录集合，并通过load data outfile的方式导出到文本文件apply.csv中，该文本文件保存在源数据仓中（例如源数据仓的文件系统中）；

步骤2：任务调度平台执行文件传输任务将所述文本文件apply.csv从源数据仓传输到加工仓（例如加工仓的文件系统中）；

步骤3：任务调度平台执行任务，删除加工仓中表apply中所有数据和表结构，并重新创建新表apply；

步骤4：任务调度平台执行load任务将所述文本文件apply.csv通过load datainfile方式导入到步骤3中创建的新表apply中。至此，排重完毕，表apply中的数据是干净的无重复记录的数据；

数据的合并、拆分等加工过程和排重类似，也是通过任务调度平台调度不同的任务实现的，这里不再赘述。

加工仓加工后的数据同步到结果仓，图4中的结果仓使用MyISAM引擎，和加工仓一样采用一主多从的集群架构，支持水平扩展，支持高并发。MyIsam是MySQL的一种存储引擎，不支持事务，插入修改性能优于Innodb，在本发明中作为Infobright的一个辅助，用于分析报表明细数据查询。

与加工仓的架构一样，结果仓也是一个可扩展的一主多从的集群架构，加工仓主库的数据同步到结果仓主库中，结果仓主库中的数据通过数据库自身的binlog负责模式实时复制到多个结果仓从库中，结果仓从库用来作为明细类报表展示的数据源，可根据并发量随时扩展。

结果仓可以带来另外的优点。因为社区版的Infobright并发只能支持到10-18，而且Infobright的性能优势主要体现在查询汇总数据，明细数据还需要从MyISAM引擎上实现，所以结果仓选择用MyISAM引擎，MyISAM引擎能支持高并发，而且可以在结果仓中实现明细类报表。对于离线报表，也可以通过计算任务在夜间计算好想要的汇总数据存放到结果仓，直接在结果仓中实现汇总类和明细类报表。

综上所述，在本发明所述数据仓库方案中，加工仓集群负责数据加工，充分利用infobright聚合函数高性能的特性。结果仓集群用来作为汇总类报表的数据源，由于聚合函数性能优越，可以做到报表展现高效，并发性能好，用户体验好。

本发明的加工仓采用了分布式一主多从集群，支持水平扩展，支持高并发。结果仓集群中的数据来源于加工仓，选择Mysql自身的Myisam引擎，Myisam引擎具有高并发，很高的insert性能和查询性能等特点，作为明细类报表的数据源，对加工仓正好是一个很好的补充。

本发明还提出一种基于Infobright的数据仓库的构建方法，通过该构建方法，可以构建出如上所述的基于Infobright的数据仓库。其具体过程如图5所示。首先，在步骤S1中，构建源数据仓，所述源数据仓存放从关系型数据库中抽取过来的原始数据。在步骤S2中，构建加工仓，所述加工仓具有brighthouse引擎，所述加工仓为一主多从的集群架构，包括一个加工仓主库和多个加工仓从库，所述加工仓提取源数据仓中的原始数据，并对所述原始数据进行加工处理和存储。

更进一步，在步骤S3中，构建结果仓，所述结果仓具有MyISAM引擎，采用一主多从的集群架构，包括一个结果仓主库和多个结果仓从库，所述结果仓对加工仓加工完的数据进行汇总，作为汇总类报表的数据源。

优选地，将结果仓主库构建为采用binlog复制模式将数据从结果仓主库复制到各个结果仓从库中。将加工仓主库构建为采用binlog复制模式将数据从加工仓主库复制到各个加工仓从库中。

其中，所述源数据仓、加工仓、结果仓的数据处理方式如参照图1-4的实施方式所述，在此不再赘述。

优选地，在所述加工仓主库中构建任务调度平台，来完成对数据的各种处理。

基于上述基于Infobright的数据仓库的构建方法，可以构建基于Infobright的数据仓库系统。因此，本发明还提出一种基于Infobright的数据仓库系统的构建方法，如图6所示。在构建完如上所述的基于Infobright的数据仓库后，构建一关系型数据库，所述关系型数据库用于产生与业务有关的原始数据。然后，构建一数据导入单元，所述数据导入单元将所述原始数据导入到所述数据仓库中。

优选地，还可以构建一报表展示单元，所述报表展示单元包括报表服务端和报表客户端，报表展示单元将数据仓库中加工完的数据以报表的方式展现。

其中，所述原始数据以增量的方式从关系型数据库，经由所述数据导入单元，加载到所述数据仓库。

优选地，所述数据导入单元被构建为包括ETL工具，所述数据导入单元被构建为执行下述步骤来完成所述加载：

步骤1）：数据导入单元配置关系型数据库的连接参数，通过所述连接参数连接到关系型数据库；

步骤2）：数据导入单元配置数据传输参数；

步骤3）：数据导入单元根据所述步骤1）和步骤2）中的连接参数和数据传输参数将数据从关系型数据库的数据以文本文件方式抽取到云存储中；

步骤4）：数据导入单元的任务调度平台调用API将文本文件从云存储中下载到数据仓库。

步骤5）：数据导入单元的任务调度平台将所述文本文件通过load data infile方式下载到数据仓库中。

其中，所述连接参数包括：关系数据库的IP地址、用户名、密码、数据库名；所述数据传输参数包括：数据源、数据表、主键、增量判断字段；所述文本文件为csv或txt类型的文本文件。

上述实施例为本发明的典型的实施方式，但本发明并不受上述实施例的限制，其他任何未背离本发明的精神实质与原理下所作的改变、替代、组合、简化，均为等效的置换方式，包含在本发明的保护范围之内。

Claims

1.一种基于Infobright的数据仓库的构建方法，其特征在于，包括：

构建源数据仓，所述源数据仓存放从关系型数据库中抽取过来的原始数据，源数据仓具有Infobright的brighthouse引擎，将所述原始数据从关系型数据库抽取到云存储，从云存储中下载所述原始数据到数据仓库中，原始数据均以增量的方式被加载到源数据仓中；

构建加工仓，所述加工仓具有brighthouse引擎，所述加工仓为一主多从的集群架构，包括一个加工仓主库和多个加工仓从库，所述加工仓提取源数据仓中的原始数据，并对所述原始数据进行加工处理和存储，数据加工过程均在加工仓主库中完成，加工仓主库对所述原始数据的加工处理包括排重、合并、拆分，加工仓从库为读库；

构建结果仓，所述结果仓具有MyISAM引擎，采用一主多从的集群架构，包括一个结果仓主库和多个结果仓从库，所述结果仓对加工仓加工完的数据进行汇总，作为汇总类报表的数据源；

所述源数据仓被构建为，针对所述原始数据中的表，根据表中的主键字段和更新时间字段，从表中过滤出主键重复的记录中更新时间最新的一条记录，查询出所有主键不重复的记录集合，并通过load dataoutfile方式导出到文本文件中，该文本文件保存在源数据仓中。

2.根据权利要求1所述的基于Infobright的数据仓库的构建方法，其特征在于，将结果仓主库构建为采用binlog复制模式将数据从结果仓主库复制到各个结果仓从库中。

3.根据权利要求1所述的基于Infobright的数据仓库的构建方法，其特征在于，将加工仓主库构建为采用binlog复制模式将数据从加工仓主库复制到各个加工仓从库中。

4.根据权利要求1所述的基于Infobright的数据仓库的构建方法，其特征在于，在所述加工仓主库中构建任务调度平台，所述加工仓被构建为：

执行文件传输任务将所述文本文件从源数据仓传输到加工仓；

删除加工仓中的表中所有表结构，并重新创建新表；

执行load任务将所述文本文件通过load data infile方式导入到创建的所述新表中。

5.一种基于Infobright的数据仓库系统的构建方法，其特征在于，包括：

按照权利要求1-4任意一项所述的方法构建基于Infobright的数据仓库；

构建一关系型数据库，所述关系型数据库用于产生与业务有关的原始数据；

构建一数据导入单元，所述数据导入单元将所述原始数据导入到所述数据仓库中。

6.根据权利要求5所述的基于Infobright的数据仓库系统的构建方法，其特征在于，还包括：

构建一报表展示单元，所述报表展示单元包括报表服务端和报表客户端，报表展示单元将数据仓库中加工完的数据以报表的方式展现。

7.根据权利要求5所述的基于Infobright的数据仓库系统的构建方法，其特征在于，所述原始数据以增量的方式从关系型数据库，经由所述数据导入单元，加载到所述数据仓库。

8.根据权利要求7所述的基于Infobright的数据仓库系统的构建方法，其特征在于，所述数据导入单元被构建为包括ETL工具，所述数据导入单元被构建为执行下述步骤来完成所述加载：

步骤1)：数据导入单元配置关系型数据库的连接参数，通过所述连接参数连接到关系型数据库；

步骤2)：数据导入单元配置数据传输参数；

步骤3)：数据导入单元根据所述步骤1)和步骤2)中的连接参数和数据传输参数将数据从关系型数据库的数据以文本文件方式抽取到云存储中；

步骤4)：数据导入单元的任务调度平台调用API将文本文件从云存储中下载到数据仓库；

步骤5)：数据导入单元的任务调度平台将所述文本文件通过load data infile方式下载到数据仓库中。

9.根据权利要求8所述的基于Infobright的数据仓库系统的构建方法，其特征在于，所述连接参数包括：关系数据库的IP地址、用户名、密码、数据库名；所述数据传输参数包括：数据源、数据表、主键、增量判断字段；所述文本文件为csv或txt类型的文本文件。

10.一种基于Infobright的数据仓库，其特征在于，包括：

源数据仓，所述源数据仓存放从关系型数据库中抽取过来的原始数据，源数据仓具有Infobright的brighthouse引擎，其中，将所述原始数据从关系型数据库抽取到云存储，从云存储中下载所述原始数据到数据仓库中，原始数据均以增量的方式被加载到源数据仓中；

加工仓，所述加工仓具有brighthouse引擎，所述加工仓为一主多从的集群架构，包括一个加工仓主库和多个加工仓从库，所述加工仓提取源数据仓中的原始数据，并对所述原始数据进行加工处理和存储，数据加工过程均在加工仓主库中完成，加工仓主库对所述原始数据的加工处理包括排重、合并、拆分，加工仓从库为读库；

所述数据仓库还包括：

结果仓，所述结果仓具有MyISAM引擎，采用一主多从的集群架构，包括一个结果仓主库和多个结果仓从库，所述结果仓对加工仓加工完的数据进行汇总，作为汇总类报表的数据源；

所述源数据仓被配置为，针对所述原始数据中的表，根据表中的主键字段和更新时间字段，从表中过滤出主键重复的记录中更新时间最新的一条记录，查询出所有主键不重复的记录集合，并通过load data outfile方式导出到文本文件中，该文本文件保存在源数据仓中。

11.根据权利要求10所述的基于Infobright的数据仓库，其特征在于，结果仓主库中的数据采用binlog复制模式复制到各个结果仓从库中。

12.根据权利要求10所述的基于Infobright的数据仓库，其特征在于，加工仓主库中的数据采用binlog复制模式复制到各个加工仓从库中。

13.根据权利要求10所述的基于Infobright的数据仓库，其特征在于，所述加工仓主库包括任务调度平台，所述任务调度平台被配置为：

删除加工仓中的表中所有数据和表结构，并重新创建新表；

14.一种基于Infobright的数据仓库系统，其特征在于，包括：

根据权利要求10-13任意一项所述的数据仓库；

关系型数据库，所述关系型数据库用于产生业务有关的原始数据；

数据导入单元，所述数据导入单元将所述原始数据导入到所述数据仓库中。

15.根据权利要求14所述的基于Infobright的数据仓库系统，其特征在于，还包括：

报表展示单元，所述报表展示单元包括报表服务端和报表客户端，报表展示单元将数据仓库中加工完的数据以报表的方式展现。

16.根据权利要求14所述的基于Infobright的数据仓库系统，其特征在于，所述原始数据以增量的方式从关系型数据库，经由所述数据导入单元，加载到所述数据仓库。

17.根据权利要求16所述的基于Infobright的数据仓库系统，其特征在于，所述数据导入单元包括ETL工具，所述数据导入单元被配置为执行下述步骤来完成所述加载：

步骤2)：数据导入单元配置数据传输参数；

18.根据权利要求17所述的基于Infobright的数据仓库系统，其特征在于，所述连接参数包括：关系数据库的IP地址、用户名、密码、数据库名；所述数据传输参数包括：数据源、数据表、主键、增量判断字段；所述文本文件为csv或txt类型的文本文件。

19.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4中任意一项所述的基于Infobright的数据仓库的构建方法。

20.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求5-9中任意一项所述的基于Infobright的数据仓库系统的构建方法。

21.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任意一项所述的基于Infobright的数据仓库的构建方法。

22.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求5-9中任意一项所述的基于Infobright的数据仓库系统的构建方法。