CN108153815A

CN108153815A - 面向大数据的指标分类方法

Info

Publication number: CN108153815A
Application number: CN201711224719.3A
Authority: CN
Inventors: 吴艳林; 吴志成; 张军锋; 王学勇; 徐江涛; 贾菲菲; 彭新玲; 高晓琼
Original assignee: Beijing Jinghang Computing Communication Research Institute
Current assignee: Beijing Jinghang Computing Communication Research Institute
Priority date: 2017-11-29
Filing date: 2017-11-29
Publication date: 2018-06-12

Abstract

本发明属于大数据分析技术领域，具体涉及一种面向大数据的指标分类方法，所述方法基于指标分类系统来实施，所述系统包括：预处理模块、系统定义模块、数据融合模块、模型建立模块、分布式算法引擎；所述方法包括：预处理、系统定义、对海量数据进行获取、预处理、转化和写入，建立指标分类模型、驱动指标分类模型；该方法可以在数据分析时能够科学、准确、有效的对海量数据进行处理和分析。

Description

面向大数据的指标分类方法

技术领域

本发明属于大数据分析技术领域，具体涉及一种面向大数据的指标分类方法。

背景技术

随着国际国内信息化建设的快速发展，各政府、行业、企事业单位等机构的业务数据已经呈现一种井喷式的数据增长趋势，积累了海量的用户行为数据、企业运行数据、行业运营数据、政府行政数据等，如何更好的运用这些沉淀的历史数据和正在快速增长的生产、运营数据，成为了现在政府、行业、企事业单位重点关注的问题。因此，在数据分析过程中，指标分类直接关系到数据分析结果的准确性、科学性和有效性，指标的分类已然成为一个重要的、迫在眉睫的问题。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何提供一种在数据分析时能够科学、准确、有效的对海量数据进行处理和分析的面向大数据的指标分类方法。

(二)技术方案

为解决上述技术问题，本发明提供一种面向大数据的指标分类方法，所述方法基于指标分类系统来实施，所述系统包括：预处理模块、系统定义模块、数据融合模块、模型建立模块、分布式算法引擎；

所述方法包括如下步骤：

步骤1：由所述预处理模块根据业务需求分析，收集相关的信息，包括业务需求方案、技术要求方案、项目管理计划要求；

步骤2：由系统定义模块对业务类别进行分析定义、对数据分析维度进行分析、梳理和划分，对数据分析颗粒进行分析定义、对数据指标类别进行分析定义；

步骤3：由数据融合模块对海量数据进行获取、预处理、转化和写入；

步骤4：由模型建立模块建立指标分类模型；

所述指标分类模型建立包括：设定分类模型设计思想；定义分类模型；确定分类模型设计方式；

步骤5：由分布式算法引擎驱动指标分类模型；

分布式算法引擎由许多不同的算法库和算法调度元数据组成，分布式算法引擎与传统的算法引擎不同，可以根据指标分类模型的设计要求，按照分类模型设计方式的不同，将海量数据进行分类和切割，形成多个不同的算法单元，每个算法单元的调用都依赖于算法调度元数据，通过算法调度元数据的合成，将每个算法单元结果汇集，输出指标的分类结果。

其中，所述步骤2中，对业务类别进行分析定义是：在技术要求文件中技术限定的条件下，根据步骤1中需求分析，对分析的业务领域进行分析。

其中，所述步骤2中，对数据分析维度进行分析、梳理和划分是：维度即分析事物的角度，海量数据的分析维度就是根据步骤1中的需求分析，对海量数据的维度进行分析、梳理和划分。

其中，所述步骤2中，对数据分析颗粒进行分析定义是：数据分析颗粒即数据汇总的程度，数据分析颗粒就是根据步骤1中的需求分析，对海量数据的汇总程度进行分类。

其中，所述步骤2中，对数据指标类别进行分析定义是：数据指标类别即指标服务的群体类别，指标类别就是根据步骤1中的需求分析，对海量数据指标类别根据服务的群体进行分类。

其中，所述步骤3中，数据获取：与各类数据源建立获取接口，包括内部数据获取接口和外部数据获取接口。内部数据获取接口从数据仓库中获取数据，外部数据获取接口从传感器、互联网等获取数据，共同为分布式文件系统输入数据。

其中，所述步骤3中，数据预处理：数据预清洗主要面向外部数据获取接口的的数据，需要通过插值法、回归法、最近邻补插、使用固定值、补插中位数方法对数据进行预处理。

其中，所述步骤3中，数据转化：数据转化包括对从内部、外部数据获取接口的数据的转化处理，保证数据可以按照要求装入分布式文件系统中。

其中，所述步骤3中，数据写入：数据写入部分负责将数据按照物理数据模型定义的数据存储方式写入到分布式文件系统中。

其中，所述步骤4中，包括：

步骤41：设定分类模型设计思想；

分类模型设计思想，通过适当运用计算机的逻辑思维，将业务流程、大数据应用业务工作进行梳理，对数据进行科学分类，使看起来不相关的海量数据产生相互关系；

步骤42：定义分类模型；

分类模型是指根据业务的不同需要，用适当的模型设计方式将获取的海量数据进行分组、分类的过程；

步骤43：确定分类模型设计方式；

分类模型设计方式采用维度法、颗粒度法进行模型设计；维度法即通过对对象分析的角度设计分类的模型；颗粒度发即通过对数据汇总后颗粒度级别的不同设计分类的模型。

(三)有益效果

与现有技术相比较，本发明提供一种在数据分析时能够科学、准确、有效的对海量数据进行处理和分析的面向大数据的指标分类方法。

附图说明

图1为本发明技术方案原理图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

为解决上述技术问题，本发明提供一种面向大数据的指标分类方法，如图1所述，所述方法基于指标分类系统来实施，所述系统包括：预处理模块、系统定义模块、数据融合模块、模型建立模块、分布式算法引擎；

所述方法包括如下步骤：

步骤4：由模型建立模块建立指标分类模型；

步骤5：由分布式算法引擎驱动指标分类模型；

其中，所述步骤4中，包括：

步骤41：设定分类模型设计思想；

步骤42：定义分类模型；

步骤43：确定分类模型设计方式；

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种面向大数据的指标分类方法，其特征在于，所述方法基于指标分类系统来实施，所述系统包括：预处理模块、系统定义模块、数据融合模块、模型建立模块、分布式算法引擎；

所述方法包括如下步骤：

步骤4：由模型建立模块建立指标分类模型；

步骤5：由分布式算法引擎驱动指标分类模型；

2.如权利要求1所述的面向大数据的指标分类方法，其特征在于，所述步骤2中，对业务类别进行分析定义是：在技术要求文件中技术限定的条件下，根据步骤1中需求分析，对分析的业务领域进行分析。

3.如权利要求1所述的面向大数据的指标分类方法，其特征在于，所述步骤2中，对数据分析维度进行分析、梳理和划分是：维度即分析事物的角度，海量数据的分析维度就是根据步骤1中的需求分析，对海量数据的维度进行分析、梳理和划分。

4.如权利要求1所述的面向大数据的指标分类方法，其特征在于，所述步骤2中，对数据分析颗粒进行分析定义是：数据分析颗粒即数据汇总的程度，数据分析颗粒就是根据步骤1中的需求分析，对海量数据的汇总程度进行分类。

5.如权利要求1所述的面向大数据的指标分类方法，其特征在于，所述步骤2中，对数据指标类别进行分析定义是：数据指标类别即指标服务的群体类别，指标类别就是根据步骤1中的需求分析，对海量数据指标类别根据服务的群体进行分类。

6.如权利要求1所述的面向大数据的指标分类方法，其特征在于，所述步骤3中，数据获取：与各类数据源建立获取接口，包括内部数据获取接口和外部数据获取接口。内部数据获取接口从数据仓库中获取数据，外部数据获取接口从传感器、互联网等获取数据，共同为分布式文件系统输入数据。

7.如权利要求1所述的面向大数据的指标分类方法，其特征在于，所述步骤3中，数据预处理：数据预清洗主要面向外部数据获取接口的的数据，需要通过插值法、回归法、最近邻补插、使用固定值、补插中位数方法对数据进行预处理。

8.如权利要求1所述的面向大数据的指标分类方法，其特征在于，所述步骤3中，数据转化：数据转化包括对从内部、外部数据获取接口的数据的转化处理，保证数据可以按照要求装入分布式文件系统中。

9.如权利要求1所述的面向大数据的指标分类方法，其特征在于，所述步骤3中，数据写入：数据写入部分负责将数据按照物理数据模型定义的数据存储方式写入到分布式文件系统中。

10.如权利要求1所述的面向大数据的指标分类方法，其特征在于，所述步骤4中，包括：

步骤41：设定分类模型设计思想；

步骤42：定义分类模型；

步骤43：确定分类模型设计方式；