CN110019396B

CN110019396B - 一种基于分布式多维分析的数据分析系统及方法

Info

Publication number: CN110019396B
Application number: CN201711252304.7A
Authority: CN
Inventors: 梁猛; 黄健文; 陈彬; 章建功; 孔亮
Original assignee: China Mobile Group Guangdong Co Ltd; Bright Oceans Inter Telecom Co Ltd
Current assignee: China Mobile Group Guangdong Co Ltd; Bright Oceans Inter Telecom Co Ltd
Priority date: 2017-12-01
Filing date: 2017-12-01
Publication date: 2023-02-17
Anticipated expiration: 2037-12-01
Also published as: CN110019396A

Abstract

本发明公开了一种基于分布式多维分析技术方案的数据分析系统及方法，所述系统包括如下模块：数据收集模块，数据预处理模块，数据多维模型设计模块，数据多维分析模块，数据展现模块。本发明的优点在于，本发明的系统及方法建设过程清晰，各层定制化能力强。能够处理每日TB级数据量上亿条包含用户信息的上网日志详单数据。转化为维度模型和数据立方体后可以分析时间、地理、网元、用户、终端、业务等维度的数据。维度模型的维度和指标清晰，便于业务人员使用。与分布式大数据处理方案比较，可以大大减少人工干预的汇总模型数量及数据处理任务的开发工作。

Description

一种基于分布式多维分析的数据分析系统及方法

技术领域

本发明属于商业智能数据处理技术领域，具体涉及一种基于分布式多维分析的数据分析系统及方法。

背景技术

随着4G LTE网络的不断发展及移动互联网应用的不断深入，移动用户对于网络使用热点已全面过渡到移动互联网应用，数据业务已成为未来业务增长的核心驱动力。与此同时，因网络覆盖、网络质量、计费规则、用户使用习惯等原因导致的数据业务投诉也越来越多。

随着数据库技术的发展和应用，数据库存储的数据量从20世纪80年代的兆(M)字节及千兆(G)字节过渡到现在的兆兆(T)字节和千兆兆(P)字节，同时，用户的查询需求也越来越复杂，涉及的已不仅是查询或操纵一张关系表中的一条或几条记录，而且要对多张表中千万条记录的数据进行数据分析和信息综合，关系数据库系统已不能全部满足这一要求。在国外，不少软件厂商采取了发展其前端产品来弥补关系数据库管理系统支持的不足，力图统一分散的公共应用逻辑，在短时间内响应非数据处理专业人员的复杂查询要求。

联机分析处理(OLAP)系统是数据仓库系统最主要的应用，专门设计用于支持复杂的分析操作，侧重对决策人员和高层管理人员的决策支持，可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理，并且以一种直观而易懂的形式将查询结果提供给决策人员，以便他们准确掌握企业的经营状况，了解对象的需求，制定正确的方案。

现有技术中已经有不少基于OLAP的数据处理方法，例如申请号为201310381390.7的中国发明专利申请中，公开了一种基于OLAP多维分析的数据处理展现方法，其针对无法累加聚合的数据通过配置表的方式，以不同的维度组合方式对数据进行分类统计，最终得到不同维度组合下的指标数据，以OLAP方式实现数据在数据展现平台上的多维分析应用。然而，在上述专利中，数据多维分析过程是通过人为地建立业务属性组合配置信息表，并且根据该配置信息，读取原数据报表，建立各类业务的属性组合数据报表来实现的。该多维分析方法步骤繁杂，修改或扩展维度模型不够灵活，而且在建立某一个业务的属性组合配置信息表时，对该业务的所有属性组合都进行了配置，其中包含了一些无意义的属性组合，造成了资源的浪费，并且过程步骤较为复杂。

发明内容

为解决以上问题，本发明设计了一种基于分布式多维分析技术方案的数据分析系统以及建设和使用该系统的方法。

具体的，本发明公开了一种基于分布式多维分析技术方案的数据分析系统，包括顺序连接的如下模块：

数据收集模块，用于收集运营商的原始数据，存储于数据交换区，并将所述数据发送至数据预处理模块；

数据预处理模块，用于对所述数据进行批量清洗和模型预处理，存储于数据仓库层物理表，并将预处理后的数据发送至数据多维模型设计模块；所述预处理包括对原始数据进行维度提取和事实表处理，得到数据库表形式的事实表与维度表。所述预处理包括对原始详单数据进行维度提取和事实表处理，得到数据库表形式的事实表与维度表。本方法预先将详单进行维度组合粒度汇总，计算业务指标，关联扩展维度属性，保证数据库表可以被多维模型设计模块直接使用；

数据多维模型设计模块，用于针对具体业务分析场景，结合经过预处理模块的数据库表结构，在多维分析系统中进行维度模型的元数据定义，包括维度主键、属性和层次的设计，事实表组合维度主键和度量设计，得到维度模型元数据。此模块输出的元数据定义了维度模型的逻辑结构，所述逻辑结构对数据库表结构在语义层进行重新定义，可以根据业务分析场景裁剪或扩展维度属性或指标，详细定义维度层次关系和汇总粒度，增强了维度模型定制的灵活性；

数据多维分析模块，用于使用所述数据多维模型设计模块设计的维度模型元数据，对所述预处理数据进行数据立方体构建，并支持数据立方体的交互式多维分析，并将多维分析的结果发送至数据展现模块。其中，分布式计算查询引擎是通过Apache Kylin来实现的。只要通过可视化定义工具定义维度模型的维度、事实、度量和聚合算法，Kylin就会自动进行多维分析，大大减少人工干预的模型数量及数据处理任务的开发工作；

数据展现模块，用于将所述多维分析的结果进行业务定制化展示。

进一步的，所述数据预处理模块包括如下单元：

事实表维度表模型构建单元，用于对原始详单数据进行清洗和构建事实表和维度表模型，所述事实表维度表模型包含多个数据表和多个维度表，构建主要是将原始详单数据按照维度主键组合粒度做初步汇总，按照汇总算法计算业务指标，形成最细粒度的统计数据，而维度表主要来自静态配置数据，根据分析需要的将维度主键和维度标签属性、归属关系，提取成n:1关系的标准结构；

事实表与维度表关联构建单元，用于构建事实表和维度表的连接关系，包括检查事实表维度业务键是否能与维度表主键关联，是否符合n：1关系，将必要的维度属性或层次信息冗余到事实表上提高查询效率等；

所述数据分析系统还包含：

数据仓库，用于根据数据多维分析需求设置数据库预设表，将所述经过预处理的数据存储于所述预设表中，此模块采用Apache Hive实现，为系统提供分布式数据库的定义表结构、建表、分区、存储、查询能力。此模块是维度模型的数据库表形态。

进一步的，所述数据多维模型设计模块包包括如下单元：

导入维度表事实表单元，用于从所述数据仓库中导入经过预处理和键关联的维度表和事实表表结构信息至多维模型设计模块中；

定义语义层单元，用于定义维度模型语义信息，通过定义事实表维度表关系，定义维度，定义事实表指标度量，生成描述维度模型的元数据。

以上两个单元将数据库表结构信息导入并重新定义，可以在重新定义过程中对维度模型进行筛选、校验、衍生，增强了语义定义的灵活性和适应性。此模块定义了维度模型的逻辑结构元数据形态。

进一步的，所述定义语义层单元包括如下子单元：

定义事实表维度表关系子单元，用于定义维度表和事实表通过哪对组合键进行关联，所述关联为全关联或左关联；

定义维度子单元，用于将要作为维度的维度表中的列在语义层标明；

选择指标子单元，用于将要作为指标的事实表中的列在语义层标明。

进一步的，所述数据多维分析模块包括如下单元：

定义数据立方体单元，用于基于定义语义层单元重新建立的数据模型元数据，分别建立维度层次关系、数据立方体聚合粒度和度量聚合算法等数据立方体构建所需配置信息。此模块定义了维度模型的数据立方体元数据形态。

所述数据立方体由数据立方体处理单元根据所述维度模型元数据、数据立方体元数据将数据仓库中的维度表、事实表中的数据计算处理生成。数据立方体有可灵活组合和钻取的维度和已经聚合生成的各粒度度量数据，可以快速方便的进行多维查询和分析。

数据立方体处理单元，用于使用上述维度模型元数据和数据立方体元数据处理经过预处理的数据仓库中的事实表和维度表数据，计算生成各个粒度的汇总数据；

数据立方体查询单元，用于对不同维度进行组合、旋转、钻取，查询对应维度组合粒度的度量，对数据立方体进行查询和分析。

所述数据分析系统还包含：

分布式计算查询引擎，用于给所述多维分析模块提供汇总计算能力，按照维度模型的维度层次、聚集算法执行所述多维分析模块的数据立方体的构建任务，同时分布式分析引擎还提供了对数据立方体的查询能力，支持快速的数据分析OLAP查询，此模块采用Apache Kylin实现。

进一步的，所述定义数据立方体单元包括如下子单元：

所述定义数据立方体单元包括如下子单元：

设计维度子单元，用于根据业务需求，将维度层次上需要的粒度都设计为数据立方体的维度，并将各维度根据维度模型元数据定义钻取层次关系；

设计事实度量子单元，用于根据业务需求，设置数据立方体的指标聚合算法；所述指标包括可累加指标，聚合算法为COUNT或SUM等聚合算法，如果为非累加指标，聚合算法需要指定再哪些维度上不进行累加，例如用户数在时间维度上不累加；

设置分区子单元，用于设置数据立方体的数据储存时长、分区时间范围以及分区开始时间；

设置维度聚合子单元，用于对设计维度子单元所设计的维度，设置必须具备的聚合粒度，然后按照维度粒度的组合，根据所述指标聚合算法进行聚集。指定聚合粒度，可以避免生成所有维度粒度组合的聚集数量保障，占用大量存储空间，以及数据处理占用大量资源且耗时过长的问题。

进一步的，所述数据展现模块包括：业务概览单元、用户热度分析单元、网络质量分析单元、用户感知分析单元。

根据本发明的另一个方面，还提供了一种基于分布式多维分析技术方案的数据分析系统建设和使用方法，包括如下步骤：

数据收集步骤，收集运营商的原始数据存储于数据交换区；

数据预处理步骤，对所述数据进行批量清洗和模型预处理，存储于数据仓库层物理表；所述预处理包括对原始数据进行维度提取和事实表处理，得到数据库表形态的事实表与维度表；

数据多维模型设计步骤，针对业务需求，进行维度模型的元数据定义，包括维度主键、属性和层次设计，事实组合维度主键和度量设计，得到维度模型的逻辑结构形态的元数据；

数据多维分析步骤，使用上述维度模型元数据和针对数据立方体结构定义的数据立方体元数据将预处理后的数据库表中的数据进行数据立方体构建和分析；

数据展现步骤，将所述多维分析的结果进行业务定制化展示。

进一步的，所述数据预处理步骤包括如下步骤：

事实表维度表模型构建步骤，对原始上网日志详单数据进行清洗和构建事实表维度表模型，所述事实表维度表模型包含多个数据表和多个维度表，例如事实表包括网络信令事实表和用户上网行为事实表；维度包括时间、地理、网元、用户、终端、业务等维度；构建主要是将原始详单数据按照维度主键组合粒度做初步汇总，按照汇总算法计算业务指标，形成最细粒度的统计数据，而维度表主要来自静态配置数据，根据分析需要的将维度主键和维度标签属性、归属关系，提取成n:1关系的标准结构，例如将用户号码和用户归属地设置为子级和父级层次关系，所有用户号码必归属为唯一一个用户归属地；

事实表与维度表关联构建步骤，根据所述事实表和维度表的业务键构建所述事实表和维度表的连接关系，包括检查事实表维度业务键是否能与维度表主键关联，是否符合n：1关系，将必要的维度属性或层次信息冗余到事实表上提高查询效率等，例如将用户上网事实表和用户维度进行关联，所有用户上网的指标，必关联到用户维度，否则要将事实记录作为异常数据丢弃，同样，此事实记录也要与时间、地理等相关维度关联。

进一步的，所述数据多维模型设计步骤包括如下步骤：

导入维度表事实表步骤，从所述数据仓库中导入经过预处理和键关联的维度表和事实表表结构信息至多维模型设计模块中；

定义语义层步骤，定义维度模型语义信息，通过定义事实表维度表关系，定义维度，定义事实表指标度量，生成描述维度模型的元数据。

进一步的，所述定义语义层步骤包括如下步骤：

定义事实表维度表关系步骤，定义维度表和事实表通过哪对组合键进行关联，所述关联为全关联或左关联；

定义维度步骤，将要作为维度的维度表中的列在语义层标明，例如时间、用户、业务发生地区维度；

选择指标步骤，将要作为指标的事实表中的列在语义层标明，例如业务量、业务时长、访问次数、用户数等度量。

进一步的，所述数据多维分析步骤包括如下步骤：

定义数据立方体步骤，基于定义语义层单元重新建立的数据模型元数据，分别建立维度层次关系、数据立方体聚合粒度和度量聚合算法等数据立方体构建所需配置信息。此模块定义了维度模型的数据立方体元数据形态。

数据立方体处理步骤，使用上述维度模型元数据和数据立方体元数据处理经过预处理的数据仓库中的事实表和维度表数据，计算生成各个粒度的汇总数据；

数据立方体查询步骤，在上述数据处理完成后，对不同维度进行组合、旋转、钻取，查询对应维度组合粒度的度量，对数据立方体进行查询和分析。

进一步的，所述定义数据立方体步骤包括如下步骤：

设计维度步骤，根据业务需求，将维度层次上需要的粒度都设计为数据立方体的维度，并将各维度根据维度模型元数据定义钻取层次关系；

设计事实度量步骤，根据业务需求，设置数据立方体的指标聚合算法；所述指标包括可累加指标，聚合算法为COUNT或SUM等聚合算法，如果为非累加指标，聚合算法需要指定再哪些维度上不进行累加，例如用户数在时间维度上不累加；

设置分区步骤，设置数据立方体的数据储存时长、分区时间范围以及分区开始时间；

设置维度聚合步骤，

对设计维度子单元所设计的维度，设置必须具备的聚合粒度，然后按照维度粒度的组合，根据所述指标聚合算法进行聚集，例如设置天、用户、业务发生地区粒度或设置月、用户归属省、业务发生省粒度。

进一步的，所述数据展现步骤包括：业务概览步骤、用户热度分析步骤、网络质量分析步骤、用户感知分析步骤。

本发明的优点在于，本发明的系统及方法建设过程清晰，各层定制化能力强。能够处理每日TB级数据量上亿条包含用户信息的上网日志详单数据。转化为维度模型和数据立方体后可以分析时间、地理、网元、用户、终端、业务等维度的数据。维度模型的维度和指标清晰，便于业务人员使用。与分布式大数据处理方案比较，可以大大减少人工干预的汇总模型数量及数据处理任务的开发工作。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

附图1示出了根据本发明实施例的基于分布式多维分析的数据分析系统结构图；

附图2示出了根据本发明实施例的事实表与维度表的星系模型示意图；

附图3示出了根据本发明实施例的地市小区业务维度设计图；

附图4示出了根据本发明实施例的业务概览单元示意图；

附图5示出了根据本发明实施例的用户热度分析单元示意图；

附图6示出了根据本发明实施例的用户区域热度分析装置示意图；

附图7示出了根据本发明实施例的用户终端热度分析装置示意图；

附图8示出了根据本发明实施例的网络质量分析单元示意图；

附图9示出了根据本发明实施例的用户终端质量分析装置示意图。

附图10示出了根据本发明实施例的浏览类用户感知分析装置示意图；

附图11示出了根据本发明实施例的用户业务失败原因示意图；

附图12示出了根据本发明实施例的基于分布式多维分析的系统建设和数据分析方法流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明在现有技术的基础上，设计了一种基于分布式OLAP的多维分析系统以及建设和使用该系统的方法。其中，数据仓库采用Apache Hive实现，用于根据数据多维分析需求设置数据库预设表，将所述经过预处理的数据存储于所述预设表中，Apache Hive为系统提供分布式数据库的定义表结构、建表、分区、存储、查询能力。其中，数据多维分析模块是通过Apache Kylin来实现的，用于给所述多维分析模块提供汇总计算能力，按照维度模型的维度层次、聚集算法执行所述多维分析模块的数据立方体的构建任务，同时分布式分析引擎还提供了对数据立方体的查询能力，支持快速的数据分析OLAP查询。使用ApacheKylin构建本系统，利用了其支持TB到PB级别数据量的分布式OLAP处理和分析能力，并通过可视化元数据定义工具定义分步骤定义维度模型，并指定聚合粒度聚合生成数据立方体，大大减少了无意义的维度组合，节约了资源。

本实施例所采用的数据资源为某移动公司的考核宽表所用上网记录详单，包含多维分析的业务实体信息和指标原始字段，每小时的数据量在三千万左右，通过多维分析方式，对用户数据进行多维分析操作。

具体的，如图1所示，本发明设计了一种基于分布式多维分析的数据分析系统100，包括顺序连接的如下模块：

1)数据收集模块110，收集某移动公司的考核宽表用户上网详单数据，存储于数据交换区，并将数据发送至数据预处理模块120。

2)数据预处理模块120，对原始详单数据进行批量清洗和模型预处理，主要包括维度提取和事实表处理(处理维度列和指标列)，得到事实表与维度表，存储于分布式数据仓库屋里表中，并将预处理后的数据发送至数据多维模型设计模块130。

事实表维度表模型构建单元121，用于构建事实表维度表模型。该实施例的事实表维度表模型如下表1所示，由两个事实表和六个维度表组成。

表1

本发明的上述实施例虽然列出了两个事实表和六个维度表组成，但是也可以根据实际情况，设计包括更多数量的事实表和维度表,表的业务主题和数据类型也不受限制，只要能够符合业务分析逻辑，就可以进行建模。

此单元对原始详单数据进行清洗，并将原始详单数据按照维度主键组合粒度做初步汇总，按照汇总算法计算业务指标，形成最细粒度的统计数据，即按照时间、地理、网元、用户、终端、业务等维度组合粒度汇总，计算流量、访问量、用户数等指标。而维度表主要来自静态配置数据，根据分析需要的将维度主键和维度标签属性、归属关系，提取成n:1关系的标准结构，例如用户号码和用户归属省份的关系。

事实表与维度表关联构建单元122，用于构建数据库表形式的维度模型。基于运营商实际数据与实际业务需求，建立事实表与维度表的星系模型，所述星系模型就是上述事实表和维度表之间通过相互连接构成的类似于星系的模型结构。如图2所示，本项目包含两个事实表和六个维度表，分别为事实表F_LTE_SOC_HTTP_EXAM_2016_H、事实表F_LTE_SOC_HTTPURI_H，以及终端维表D_TERMINAL、小区维表D_NW_NE_ECELL、业务维表D_EXAM_SERVICE、SGW网元维表D_NW_NE_SGW、地市维表D_CITY以及错误码维表D_HTTP_CAUSE_RY。事实表和维度表的主外键连接方式如图2所示。包括检查事实表维度业务键是否能与维度表主键关联，是否符合n：1关系，将必要的维度属性或层次信息冗余到事实表上提高查询效率等，例如检查用户维度与事实表用户主键的关联关系，将用户套餐流量属性冗余到事实表上，便于计算用户套餐饱和度。

3)数据多维模型设计模块130，用于针对具体业务问题，对多维模型进行设计，主要是进行维度层次关系设计，得到多维模型的元数据。数据多维模型设计模块130包括如下单元：

导入数据仓库模型表单元131。从Apache Hive中导入生成数据立方体(cube)所需的维度表和事实表表结构至Apache Kylin中；这里导入的维度表和事实表是上文中经过预处理和键关联的维度表和事实表。由于Apache Hive中的数据具有物理表结构，但只能在Apache Hive组件中识别，因此需要导入至Apache Kylin中进行语义定义。Apache Hive是基于Hadoop的一个数据仓库工具组件，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。

定义语义层单元132，用于定义语义层；其中，定义语义层单元142包括如下装置：

定义事实表维度表关系子单元1321，用于定义维度表和事实表通过哪对组合键关联，管理按方式可以全关联或左关联。

定义维度子单元1322，将要作为维度的维度表中的列在语义层标明。

选择指标子单元1323，将要作为指标的事实表中的列在语义层标明。

在此实施例中，所有的需求都基于同一个model，model创建过程中关联了时间、用户、扇区、地市、终端、错误码、业务维表数据。

4)数据多维分析模块140，用于对处理过的数据进行多维模型构建和分析，并将多维分析后的结果发送至数据展现模块150。

定义数据立方体单元141，基于定义语义层单元132建立的定义，基于定义语义层单元重新建立的数据模型元数据，分别建立维度层次关系、数据立方体聚合粒度和度量聚合算法等数据立方体构建所需配置信息。此单元定义了维度模型的数据立方体元数据形态。其中，针对业务场景的维度组合查询分析需求，分别建立不同的数据立方体聚合粒度。其中，定义数据立方体单元141包括如下装置：

设计维度子单元1411，在此实施例中，使用derived方式将维度层分析上需要的粒度都设计为维度。在Apache Kylin中，总共有四种维度，包括Normal维度、Mandatory维度、Hierarchy维度、Derived维度，这里可根据不同的需求，将维度层次上需要的粒度都设计为维度，并将各维度根据维度模型元数据定义钻取层次关系，例如将用户归属省份和用户维度设置为父子层次。

设计事实度量子单元1412，用于设计事实度量(Measure)。在此实施例中，设置了可累加指标，例如流量、访问量，聚合算法为COUNT或SUM等聚合算法，非累加指标，聚合算法需要指定再哪些维度上不进行累加，例如指定用户数在时间维度上不累加。在ApacheKylin中，指标汇总算法包括sum、max、min、技术count、去重技术distinct count以及topN，这里可根据不同的需求，设置指标聚合算法。

设置分区子单元1413，在此实施例中，设置数据立方体的数据储存时长3个月、分区时间范围1天以及分区开始时间与数据仓库表中数据开始时间相同。

设置维度聚合子单元1414，用于对设计维度子单元所设计的维度，设置必须具备的聚合粒度，然后按照全部可能组合，根据所述指标聚合算法进行聚集。在此实施例中，设置了天、用户、扇区、地市、业务，天、用户、业务；天、扇区、地市、业务，天、扇区、地市、终端，天、扇区、地市等多个粒度组合的聚合粒度。

通过以上步骤，针对不同的维度组合需求，分别建立了基于地市、扇区、业务的cube1和基于地市、小区、终端的cube2以及基于地市、小区、网元的cube3，其他cube不再枚举。其中，cube1得到维度设置如图3所示。

数据立方体处理单元142。使用Apache Kylin构建数据立方体，基于上述事实表与维度表维度模型开始处理数据。

数据立方体查询单元143。数据处理完成后，可以从概览界面通过SQL对生成的cube进行查询。SQL匹配的cube和聚合粒度基于路由算法命中已处理好的数据，可以实现秒级响应。通过测试，在查询维度值确定的情况下完全可以快速得出结果。

5)数据展现模块150，用于将多维分析结果进行展示。

其中，数据展现模块150主要包括：业务概览单元151、用户热度分析单元152、网络质量分析单元153、用户感知分析单元154。

1)业务概览单元151，如图4所示。上述数据多维分析模块按日、月粒度统计了某移动公司全省HTTP业务的发展情况，包括了全省的流量、访问量、用户数等关键指标。

2)用户热度分析单元152，如图5所示。上述用户热度分析单元按天粒度、业务大类、业务小类维度各业务的流量、访问量、用户数等指标，分析用户的上网喜好情况。用户热度分析单元152包括：

用户区域热度分析子单元，如图6所示。上述用户区域热度分析装置按天粒度，TAC、ECI维度各业务的流量、访问量、用户数等指标，分析移动用户的热点小区分布情况。

用户终端热度分析子单元，如图7所示。上述数据多维分析模块按天粒度、终端厂家、终端型号、终端类型维度各业务的流量、访问量、用户数等在指标，分析移动终端渗透情况。

3)网络质量分析单元153。

用户网络质量分析单元153，如图8所示，上述网络质量分析单元按天粒度，用户、eNodeB、TAC、ECI维度统计HTTP业务关键网络质量指标，并可根据关键网络指标找出质差eNodeB、TAC、ECI。上述用户网络质量分析单元153包括如下装置：

用户终端质量分析装置，如图9所示。上述用户终端质量分析装置按天粒度、用户、终端厂家、终端型号、终端类型维度统计HTTP业务质量指标。并可根据业务质量指标找出质差终端。

4)用户感知分析单元154。上述用户感知分析单元包括浏览类用户感知分析子单元、即时通信类用户感知分析子单元、视频类用户感知分析子单元、应用下载类用户感知分析子单元、阅读类用户感知分析子单元、游戏类用户感知分析子单元、购物类用户感知分析子单元。

其中，浏览类用户感知分析子单元如图10所示。上述浏览类用户感知分析装置按天、月粒度，用户和业务小类维度统计浏览下载类业务的各项成功率、时延、下载速率指标。并且可以通过点击业务小类的质差指标数值，获取详细失败原因，如图11所示，根据上述分析得到根据本发明实施例的用户业务失败原因饼图。

相应的，本发明还提供了一种基于分布式多维分析的数据分析系统建设和使用方法，如图12所示，所述方法包括如下步骤：

数据收集步骤S1，收集运营商的原始数据存储于数据交换区；

数据预处理步骤S2，对所述数据进行批量清洗和模型预处理，存储于数据仓库层物理表；所述预处理包括对原始数据进行维度提取和事实表处理，得到数据库表形态的事实表与维度表。所述数据预处理步骤S2包括如下步骤：

事实表维度表模型构建步骤S21，对原始上网日志详单数据进行清洗和构建事实表维度表模型，所述事实表维度表模型包含多个数据表和多个维度表；

事实表与维度表星系模型构建步骤S22，根据所述事实表和维度表的业务键构建所述事实表和维度表的连接关系。

数据多维模型设计步骤S3，针对具体业务分析场景，结合经过预处理步骤输出的数据库表结构，在多维分析系统中进行维度模型的元数据定义，包括维度主键、属性和层次的设计，事实表组合维度主键和度量设计，得到维度模型元数据；此步骤输出的元数据定义了维度模型的逻辑结构，所述逻辑结构对数据库表结构在语义层进行重新定义，可以根据业务分析场景裁剪或扩展维度属性或指标，详细定义维度层次关系和汇总粒度，增强了维度模型定制的灵活性所述数据多维模型设计步骤S3包括如下步骤：

导入维度表事实表步骤S31，从所述数据仓库中导入经过预处理和键关联的维度表和事实表表结构信息至多维模型设计模块中；

定义语义层步骤S32，定义维度模型语义信息，通过定义事实表维度表关系，定义维度，定义事实表指标度量，生成描述维度模型的元数据；所述定义语义层步骤S32包括如下步骤：

定义事实表维度表关系步骤S321，定义维度表和事实表通过哪对组合键进行关联，所述关联为全关联或左关联；

定义维度步骤S322，将要作为维度的维度表中的列在语义层标明；

选择指标步骤S323，将要作为指标的事实表中的列在语义层标明。

数据多维分析步骤S4，用于使用所述数据多维模型设计步骤输出的维度模型元数据，对所述预处理数据进行数据立方体构建，并支持数据立方体的交互式多维分析，并将多维分析的结果发送至数据展现模块；所述数据多维分析步骤S4包括如下步骤：

定义数据立方体步骤S41，于定义语义层单元重新建立的数据模型元数据，分别建立维度层次关系、数据立方体聚合粒度和度量聚合算法等数据立方体构建所需配置信息，此模块定义了维度模型的数据立方体元数据形态；所述定义数据立方体步骤S41包括如下步骤：

设计维度步骤S411，根据业务需求，将维度层次上需要的粒度都设计为数据立方体的维度，并将各维度根据维度模型元数据定义钻取层次关系；

设计事实度量步骤S412，根据业务需求，设置数据立方体的指标聚合算法；所述指标包括可累加指标，聚合算法为COUNT或SUM等聚合算法，如果为非累加指标，聚合算法需要指定再哪些维度上不进行累加，例如用户数在时间维度上不累加；

设置分区步骤S413，设置数据立方体的数据储存时长、分区时间范围以及分区开始时间；

设置维度聚合步骤S414，对对设计维度子单元所设计的维度，设置必须具备的聚合粒度，然后按照维度粒度的组合，根据所述指标聚合算法进行聚集；

数据立方体处理步骤S42，使用上述维度模型元数据和数据立方体元数据处理经过预处理的数据仓库中的事实表和维度表数据，计算生成各个粒度的汇总数据；

数据立方体查询步骤S43，在上述数据处理完成后，对不同维度进行组合、旋转、钻取，查询对应维度组合粒度的度量，对数据立方体进行查询和分析；

数据展现步骤S5，将所述多维分析的结果进行展示。所述数据展现步骤S5包括：业务概览步骤S51、用户热度分析步骤S52、网络质量分析步骤S53、用户感知分析步骤S54。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器来实现根据本发明实例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于分布式多维分析的数据分析系统，包括顺序连接的如下模块：

数据收集模块，用于收集运营商的原始上网日志详单数据，存储于数据交换区，并将所述数据发送至数据预处理模块；

数据预处理模块，用于对所述数据收集模块收集的数据进行批量清洗和模型预处理，存储于数据仓库中的预设数据库表中，并将所述预处理后的数据发送至数据多维分析模块；所述预处理包括对原始详单数据进行维度提取和事实表处理，得到数据库表形式的事实表与维度表；

数据多维模型设计模块，用于针对具体业务分析场景，结合数据预处理模块的预设数据库表的结构，在数据分析系统中进行维度模型的元数据定义，包括维度主键、属性和层次的设计，事实表组合维度主键和度量设计，得到维度模型元数据；所述维度模型元数据定义维度模型的逻辑结构，所述逻辑结构对数据库表结构在语义层进行重新定义，根据业务分析场景裁剪或扩展维度属性或指标，定义维度层次关系和汇总粒度；

数据多维分析模块，用于使用所述数据多维模型设计模块设计的维度模型元数据，对所述预处理数据进行数据立方体构建，并支持数据立方体的交互式多维分析，并将多维分析的结果发送至数据展现模块；

2.如权利要求1所述的基于分布式多维分析的数据分析系统，其特征在于，

所述数据预处理模块包括如下单元：

事实表维度表构建单元，用于对原始详单数据进行清洗和构建事实表维度表模型，所述事实表维度表模型包含多个事实表和多个维度表；所述构建是将原始详单数据按照维度主键组合粒度做初步汇总，按照汇总算法计算业务指标，形成最细粒度的统计数据，而维度表来自静态配置数据，根据分析需要，将维度主键和维度标签属性、归属关系提取成n:1关系的标准结构；

事实表与维度表关联单元，用于根据所述事实表和维度表的业务键构建所述事实表和维度表的连接关系，包括检查事实表维度业务键是否能与维度表主键关联，是否符合n：1关系，将必要的维度属性或层次信息冗余到事实表上；

所述数据分析系统还包含：

数据仓库，用于根据数据多维分析需求设置数据库预设表，将所述经过预处理的数据存储于所述预设表中。

3.如权利要求1所述的基于分布式多维分析的数据分析系统，其特征在于，

所述数据多维模型设计模块包括如下单元：

导入维度表事实表单元，用于从所述数据仓库中导入经过预处理和键关联的维度表和事实表表结构信息；

4.如权利要求3所述的基于分布式多维分析的数据分析系统，其特征在于，

所述定义语义层单元包括如下子单元：

5.如权利要求1所述的基于分布式多维分析的数据分析系统，其特征在于，

所述数据多维分析模块包括如下单元：

定义数据立方体单元，用于基于定义语义层单元重新建立的维度模型元数据，分别建立维度层次关系、数据立方体聚合粒度和度量聚合算法；

数据立方体处理单元，用于使用上述维度模型元数据和数据立方体元数据处理经过预处理的数据仓库中的事实表和维度表数据，计算生成各个粒度的汇总数据；所述数据立方体由数据立方体处理单元根据所述维度模型元数据、数据立方体元数据将数据仓库中的维度表、事实表中的数据计算处理生成；

数据立方体查询单元，用于对不同维度进行组合、旋转、钻取，查询对应维度组合粒度的度量，对数据立方体进行查询和分析；

所述数据分析系统还包含：

分布式计算查询引擎，用于给所述数据多维分析模块提供汇总计算能力，按照维度模型的维度层次、聚集算法执行所述数据多维分析模块的数据立方体的构建任务，同时分布式计算查询引擎还提供对数据立方体的查询能力，支持快速的数据分析OLAP查询。

6.如权利要求5所述的基于分布式多维分析的数据分析系统，其特征在于，

所述定义数据立方体单元包括如下子单元：

设计事实度量子单元，用于根据业务需求，设置数据立方体的指标聚合算法；

设置维度聚合子单元，用于对设计维度子单元所设计的维度，设置必须具备的聚合粒度，然后按照聚合粒度的组合，根据所述指标聚合算法进行聚集。

7.如权利要求1所述的基于分布式多维分析的数据分析系统，其特征在于，所述数据展现模块包括：业务概览单元、用户热度分析单元、网络质量分析单元、用户感知分析单元。

8.一种基于分布式多维分析的系统建设和使用方法，包括如下步骤：

数据收集步骤，收集运营商的原始上网日志详单数据，存储于数据交换区；

数据预处理步骤，对所述数据收集模块收集的数据进行批量清洗和模型预处理，存储于数据仓库中的预设数据库表中；所述预处理包括对原始详单数据进行维度提取和事实表处理，得到数据库表形式的事实表与维度表；

数据多维模型设计步骤，针对具体业务分析场景，结合预设数据库表的结构，进行维度模型的元数据定义，包括维度主键、属性和层次的设计，事实表组合维度主键和度量设计，得到维度模型元数据；所述维度模型元数据定义维度模型的逻辑结构，所述逻辑结构对数据库表结构在语义层进行重新定义，根据业务分析场景裁剪或扩展维度属性或指标，定义维度层次关系和汇总粒度；

数据多维分析步骤，使用所述数据多维模型设计步骤设计的维度模型元数据，对所述预处理数据进行数据立方体构建，并支持数据立方体的交互式多维分析；

9.如权利要求8所述的基于分布式多维分析的系统建设和使用方法，其特征在于，

所述数据预处理步骤包括如下步骤：

事实表维度表模型构建步骤，对原始详单数据进行清洗和构建事实表维度表模型，所述事实表维度表模型包含多个事实表和多个维度表；所述构建是将原始详单数据按照维度主键组合粒度做初步汇总，按照汇总算法计算业务指标，形成最细粒度的统计数据，而维度表来自静态配置数据，根据分析需要，将维度主键和维度标签属性、归属关系提取成n:1关系的标准结构；

事实表与维度表关联构建步骤，根据所述事实表和维度表的业务键构建所述事实表和维度表的连接关系，包括检查事实表维度业务键是否能与维度表主键关联，是否符合n：1关系，将必要的维度属性或层次信息冗余到事实表上。

10.如权利要求8所述的基于分布式多维分析的系统建设和使用方法，其特征在于，

所述数据多维模型设计步骤包括如下步骤：

导入维度表事实表步骤，从所述数据仓库中导入经过预处理和键关联的维度表和事实表表结构信息；

11.如权利要求10所述的基于分布式多维分析的系统建设和使用方法，其特征在于，

所述定义语义层步骤包括如下步骤：

定义维度步骤，将要作为维度的维度表中的列在语义层标明；

选择指标步骤，将要作为指标的事实表中的列在语义层标明。

12.如权利要求8所述的基于分布式多维分析的系统建设和使用方法，其特征在于，

所述数据多维分析步骤包括如下步骤：

定义数据立方体步骤，基于定义语义层单元重新建立的维度模型元数据，分别建立维度层次关系、数据立方体聚合粒度和度量聚合算法；

数据立方体处理步骤，使用上述维度模型元数据和数据立方体元数据处理经过预处理的数据仓库中的事实表和维度表数据，计算生成各个粒度的汇总数据；所述数据立方体由数据立方体处理单元根据所述维度模型元数据、数据立方体元数据将数据仓库中的维度表、事实表中的数据计算处理生成；

数据立方体查询步骤，对不同维度进行组合、旋转、钻取，查询对应维度组合粒度的度量，对数据立方体进行查询和分析。

13.如权利要求12所述的基于分布式多维分析的系统建设和使用方法，其特征在于，

所述定义数据立方体步骤包括如下步骤：

设计事实度量步骤，根据业务需求，设置数据立方体的指标聚合算法；

设置维度聚合步骤，对设计维度子单元所设计的维度，设置必须具备的聚合粒度，然后按照聚合粒度的组合，根据所述指标聚合算法进行聚集。

14.如权利要求8所述的基于分布式多维分析的系统建设和使用方法，其特征在于，

所述数据展现步骤包括：业务概览步骤、用户热度分析步骤、网络质量分析步骤、用户感知分析步骤。