CN111177220A

CN111177220A - 基于大数据的数据分析方法、装置、设备及可读存储介质

Info

Publication number: CN111177220A
Application number: CN201911366572.0A
Authority: CN
Inventors: 方木鑫
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2020-05-19
Anticipated expiration: 2039-12-26
Also published as: CN111177220B

Abstract

本发明涉及人工智能技术领域，公开了一种基于大数据的数据分析方法，包括以下步骤：对数据结果表中的初始数据进行抽取并进行合并，得到合并表，以及通过数据抽取工具Sqoop将合并表导入大数据平台；通过大数据平台对预处理数据结果表中的预处理数据进行数据清洗，得到分摊结果数据表；对分摊结果数据表进行拆分，得到拆分数据结果表集合并导入分布式内存实时分析系统Druid，得到分析结果集，若偏差值大于或等于预设阈值，则通过决策树对初始数据进行挖掘，得到挖掘结果。本发明还公开了一种基于大数据的数据分析装置、设备及计算机可读存储介质。本发明提供的基于大数据的数据分析方法提高了数据分析的效率。

Description

基于大数据的数据分析方法、装置、设备及可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于大数据的数据分析方法、装置、设备及计算机可读存储介质。

背景技术

目前，随着数据量的增加，传统的数据分析工具很难对大数据场景下海量的数据进行有效分析，因此在对多维度、大批量的数据进行分析时，往往会消耗较多的时间。如何提高数据分析的效率,是目前本技术领域技术人员亟待解决的技术问题。

发明内容

本发明的主要目的在于提供一种基于大数据的数据分析方法、装置、设备及计算机可读存储介质，旨在解决数据分析效率较低的技术问题。

为实现上述目的，本发明提供一种基于大数据的数据分析方法，所述基于大数据的数据分析方法包括以下步骤：

通过预置存储方式将数据结果表存储于预置数据库oracle集中，所述预置数据库oracle集中包括多个预置数据库oracle，所述数据结果表中存储有初始数据；

通过关联规则算法对所述数据结果表中的初始数据进行抽取，得到预处理数据结果表；

通过HIVE的连接算法join将所述预处理数据结果表进行合并，得到合并表，以及通过数据抽取工具Sqoop将所述合并表导入大数据平台；

通过所述大数据平台对所述预处理数据结果表中的预处理数据进行数据清洗，得到分摊结果数据表；

按照预置数据量对所述分摊结果数据表进行拆分，得到拆分数据结果表集合；

将所述拆分数据结果表集合中的拆分数据结果表以多任务多并发的形式同步导入分布式内存实时分析系统Druid，以及通过所述Druid对所述拆分数据结果表中的数据进行分析，得到由多个或单个维度的分析结果组成的分析结果集合；

判断是否存在获取分析结果的请求；

若存在获取分析结果的请求，则通过联机分析处理技术对所述分析结果集合进行分析，输出分析结果；

若不存在获取分析结果的请求，则继续执行所述判断是否存在获取分析结果的请求的步骤；

通过方差公式计算所述分析结果与预置期望值之间的偏差值；

判断所述偏差值是否大于或等于预设阈值；

若所述偏差值大于或等于预设阈值，则通过决策树对初始数据进行挖掘，得到挖掘结果，若否，则不处理。

可选地，所述通过预置存储方式将数据结果表存储于预置数据库oracle集中，所述预置数据库oracle集中包括多个预置数据库oracle，所述数据结果表中存储有初始数据包括以下步骤：

基于数据结果表中的初始数据以及维度，构造数据立方体并对所述数据立方体填充初始数据；

按照预置层级对所述数据立方体进行分区，得到多个子数据立方体；

将所述多个子数据立方体分别保存到预置数据库oracle集中，所述预置数据库oracle集中包括多个预置数据库oracle。

可选地，所述基于数据结果表中的初始数据以及所述维度，构造数据立方体并对所述数据立方体填充初始数据包括以下步骤：

通过公式V＝S*a对数据结果表中的初始数据进行维度分摊，得到维度，所述V为分摊后数据的维度，S为所述数据结果表中的初始数据，a为分摊因子；

基于所述维度与所述数据结果表中的初始数据，构建维表；

根据所述维表，构造事实表；

通过关联算法计算所述维表和所述事实表之间关联关系，基于所述关联关系构造星型模型；

根据所述星型模型，构建数据立方体。

可选地，在所述通过预置存储方式将数据结果表存储于预置数据库oracle集中，所述预置数据库oracle集中包括多个预置数据库oracle，所述数据结果表中存储有初始数据的步骤之前，还包括以下步骤：

通过预先标注好的训练样本训练初始决策树；

将预置分析结果输入所述初始决策树，输出初始挖掘结果；

判断所述初始挖掘结果的正确率是否满足预置正确率；

若所述初始挖掘结果的正确率满足预置正确率，则得到决策树模型，若所述初始挖掘结果的正确率不满足预置正确率，则继续执行通过预先标注好的训练样本训练初始决策树的步骤。

可选地，所述通过关联规则算法对所述数据结果表中的初始数据进行抽取，得到预处理数据结果表包括以下步骤：

对数据结果表中的预置数据挖掘频繁项集，得到关联规则；

基于所述关联规则对所述数据结果表中的初始数据进行抽取，得到抽取数据，判断所述抽取数据中是否存在数值型初始数据；

若所述抽取数据中存在所述数值型初始数据，则通过排序算法对所述数值型初始数据进行排序，得到预处理数据结果表。

可选地，所述通过HIVE的连接算法join将所述预处理数据结果表进行合并，得到合并表，以及通过数据抽取工具Sqoop将所述合并表导入大数据平台包括以下步骤：

通过HIVE的join算法将所述预处理数据结果表进行合并，得到合并表，并预置各个待导入大数据平台的合并表中预处理数据数量的上限值与下限值；

判断待导入大数据平台的预处理数据的数量是否高于所述上限值；

若所述待导入大数据平台的预处理数据的数量高于所述上限值，则对所述合并表进行拆分，得到预处理数据结果子表，直至所述预处理数据结果子表中的数据量低于或等于所述上限值，以及将所述预处理数据结果子表导入大数据平台；

若所述待导入大数据平台的预处理数据的数量低于或等于所述上限值，则判断所述待导入大数据平台的预处理数据的数量是否低于所述下限值；

若低于所述下限值,则通过预置存储方式将数据结果表存储于预置数据库oracle集中，若不低于所述下限值，则通过数据抽取工具Sqoop将所述合并表导入大数据平台。

可选地，所述通过所述大数据平台对所述预处理数据结果表中的预处理数据进行数据清洗，得到分摊结果数据表包括以下步骤：

通过k-近邻算法逐一计算所述预处理数据结果表中相邻的两个预处理数据之间的距离的值；

判断所述距离的值是否小于预置距离值；

若所述距离的值小于预置距离值，则清洗掉所述相邻的两个预处理数据中的一个数据，得到分摊结果数据表；

若所述距离的值大于或等于预置距离值，则继续执行所述通过k-近邻算法逐一计算所述预处理数据结果表中相邻的两个预处理数据之间的距离的值的步骤。

进一步地，为实现上述目的，本发明还提供一种基于大数据的数据分析装置，所述基于大数据的数据分析装置包括以下模块：

存储模块，用于通过预置存储方式将数据结果表存储于预置数据库oracle集中，所述预置数据库oracle集中包括多个预置数据库oracle，所述数据结果表中存储有初始数据；

抽取模块，用于通过关联规则算法对所述数据结果表中的初始数据进行抽取，得到预处理数据结果表；

导入模块，用于通过HIVE的连接算法join将所述预处理数据结果表进行合并，得到合并表，以及通过数据抽取工具Sqoop将所述合并表导入大数据平台；

清洗模块，用于通过所述大数据平台对所述预处理数据结果表中的预处理数据进行数据清洗，得到分摊结果数据表；

拆分模块，用于按照预置数据量对所述分摊结果数据表进行拆分，得到拆分数据结果表集合；

分析模块，用于将所述拆分数据结果表集合中的拆分数据结果表以多任务多并发的形式同步导入分布式内存实时分析系统Druid，以及通过所述Druid对所述拆分数据结果表中的数据进行分析，得到由多个或单个维度的分析结果组成的分析结果集合；

请求判断模块，用于判断是否存在获取分析结果的请求；

输出模块，用于若存在获取分析结果的请求，则通过联机分析处理技术对所述分析结果集合进行分析，输出分析结果，若不存在获取分析结果的请求，则判断是否存在获取分析结果的请求；

计算模块，用于通过方差公式计算所述分析结果与预置期望值之间的偏差值；

预设阈值判断模块，用于判断所述偏差值是否大于或等于预设阈值；

挖掘模块，用于若所述偏差值大于或等于预设阈值，则通过决策树对初始数据进行挖掘，得到挖掘结果。

可选地，所述存储模块包括以下单元：

填充单元，用于基于数据结果表中的初始数据以及维度，构造数据立方体并对所述数据立方体填充初始数据；

分区单元，用于按照预置层级对所述数据立方体进行分区，得到多个子数据立方体；

保存单元，用于将所述多个子数据立方体分别保存到预置数据库oracle集中，所述预置数据库oracle集中包括多个预置数据库oracle。

可选地，所述填充单元用于：

基于所述维度与所述数据结果表中的初始数据，构建维表；

根据所述维表，构造事实表；

根据所述星型模型，构建数据立方体。

可选地，所述基于大数据的数据分析装置还包括以下模块：

初始决策树训练模块，用于通过预先标注好的训练样本训练初始决策树；

初始决策树输出模块，用于将预置分析结果输入所述初始决策树，输出初始挖掘结果；

正确率判断模块，用于判断所述初始挖掘结果的正确率是否满足预置正确率；

获取模块，用于若所述初始挖掘结果的正确率满足预置正确率，则得到决策树模型，若所述初始挖掘结果的正确率不满足预置正确率，则继续执行通过预先标注好的训练样本训练初始决策树的步骤。

可选地，所述抽取模块包括以下单元：

频繁项集挖掘单元，用于对数据结果表中的预置数据挖掘频繁项集，得到关联规则；

初始数据进行抽取单元，用于基于所述关联规则对所述数据结果表中的初始数据进行抽取，得到抽取数据，判断所述抽取数据中是否存在数值型初始数据；

排序单元，用于若所述抽取数据中存在所述数值型初始数据，则通过排序算法对所述数值型初始数据进行排序，得到预处理数据结果表。

可选地，所述导入模块包括以下单元：

合并单元，用于通过HIVE的join算法将所述预处理数据结果表进行合并，得到合并表，并预置各个待导入大数据平台的合并表中预处理数据数量的上限值与下限值；

上限值判断单元，用于判断待导入大数据平台的预处理数据的数量是否高于所述上限值；

合并表拆分单元，用于若所述待导入大数据平台的预处理数据的数量高于所述上限值，则对所述合并表进行拆分，得到预处理数据结果子表，直至所述预处理数据结果子表中的数据量低于或等于所述上限值，以及将所述预处理数据结果子表导入大数据平台；

下限值判断单元，用于若所述待导入大数据平台的预处理数据的数量低于或等于所述上限值，则判断所述待导入大数据平台的预处理数据的数量是否低于所述下限值；

数据结果表存储单元，用于若所述待导入大数据平台的预处理数据的数量低于或等于所述上限值，则判断所述待导入大数据平台的预处理数据的数量是否低于所述下限值；

合并表导入单元，用于若低于所述下限值,则通过预置存储方式将数据结果表存储于预置数据库oracle集中，若不低于所述下限值，则通过数据抽取工具Sqoop将所述合并表导入大数据平台。

可选地，所述清洗模块包括以下单元：

第一计算单元，用于通过k-近邻算法逐一计算所述预处理数据结果表中相邻的两个预处理数据之间的距离的值；

距离判断单元，用于判断所述距离的值是否小于预置距离值；

清洗单元，用于若所述距离的值小于预置距离值，则清洗掉所述相邻的两个预处理数据中的一个数据，得到分摊结果数据表；

第二计算单元，用于若所述距离的值大于或等于预置距离值，则继续执行所述通过k-近邻算法逐一计算所述预处理数据结果表中相邻的两个预处理数据之间的距离的值的步骤。

进一步地，为实现上述目的，本发明还提供一种基于大数据的数据分析设备，所述基于大数据的数据分析设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于大数据的数据分析程序，所述基于大数据的数据分析程序被所述处理器执行时实现如上述任一项所述的基于大数据的数据分析方法的步骤。

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有基于大数据的数据分析程序，所述基于大数据的数据分析程序被处理器执行时实现如上述任一项所述的基于大数据的数据分析方法的步骤。

对数据进行处理，得到处理后的数据，再通过分布式内存实时分析系统Druid对处理后的数据进行分析，得到分析结果，然而分析结果与预期值之间有可能存在巨大偏差，因此在本发明中增加了决策树，根据决策树可以无限扩展其叶子的特性，因此可以从原始数据中深度挖掘出对分析结果造成偏差的主要因素，从而实现深度分析。

附图说明

图1为本发明实施例方案涉及的基于大数据的数据分析设备运行环境的结构示意图；

图2为本发明基于大数据的数据分析方法的第一实施例的流程示意图；

图3为图2中步骤S10的一个实施例的细化流程示意图；

图4为图3中步骤S101的一个实施例的细化流程示意图；

图5为本发明基于大数据的数据分析方法的第二实施例的流程示意图；

图6为图2中步骤S20的一个实施例的细化流程示意图；

图7为图2中步骤S30的一个实施例的细化流程示意图；

图8为图2中步骤S40的一个实施例的细化流程示意图；

图9为本发明基于大数据的数据分析装置的一个实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于大数据的数据分析设备。

参照图1，图1为本发明实施例方案涉及的基于大数据的数据分析设备运行环境的结构示意图。

如图1所示，该基于大数据的数据分析设备包括：处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volati le memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的基于大数据的数据分析设备的硬件结构并不构成对基于大数据的数据分析设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于大数据的数据分析程序。其中，操作系统是管理和控制基于大数据的数据分析设备和软件资源的程序，支持基于大数据的数据分析程序以及其它软件和/或程序的运行。

在图1所示的基于大数据的数据分析设备的硬件结构中，网络接口1004主要用于接入网络；用户接口1003主要用于侦测确认指令和编辑指令等。而处理器1001可以用于调用存储器1005中存储的基于大数据的数据分析程序，并执行以下基于大数据的数据分析方法的各实施例的操作。

基于上述基于大数据的数据分析设备硬件结构，提出本发明基于大数据的数据分析方法的各个实施例。

参照图2，图2为本发明基于大数据的数据分析方法的第一实施例的流程示意图。本实施例中，基于大数据的数据分析方法包括以下步骤:

步骤S10，通过预置存储方式将数据结果表存储于预置数据库oracle集中，预置数据库oracle集中包括多个预置数据库Oracle，数据结果表中存储有初始数据；

本实施例中，在通过预置存储方式将数据结果表存储于预置数据库oracle集中时，Oracle会随机生成唯一固定的字符串，每个字符串都有对应的Rowid值。保险公司为了使用户可以获取更好的购买保险的体验，一般都会尽可能地收集客户的数据，并将这些数据存储在预置数据库中，通过分析预置数据库中的数据，可得到一些分析结果，而分析结果对保险公司售卖不同的保险产品具有指导意义，由于在大数据场景下数据量巨大，且存在很多干扰信息，且无法根据需要分析的内容从预置数据库中获取到有价值的、有关联的信息，例如，若要分析上半年儿童保险的销售额与哪些数据有关，则需要获取用户的基本信息，以及与用户基本信息存在关联的关联信息，这样就可得知销售额受哪些因素的干扰，例如，通过分析发现35-45岁之间的人更愿意为子女购买儿童保险，那么为了增加儿童保险的销售额，则可以根据分析到的结果向35-45岁之间的用户推送儿童保险，但是用户的购买力是有限的，因此销售额不会因为推送数据的增多，而无限制地增高，因此可以预先设置些标准值或者是参考值，通过方差公式计算实际值与标准值或者是参考值之间的差异，当差异不满足预设条件的时候，例如，推送了一定量的儿童保险的数据，销售额并没有发生变化，则可以做下一步的处理，例如通过当前的数据获取到与当前数据存在关联关系的其他数据，例如，股票行情数据和物价信息，从而获知为什么向35-45岁之间的用户推送儿童保险后，销售额并没有提高。

步骤S20，通过关联规则算法对数据结果表中的初始数据进行抽取，得到预处理数据结果表；

本实施例中，可将关联规则算法部署于spark框架下，通过并行的方式抽取符合关联规则的数据。

步骤S30，通过HIVE的连接算法join将预处理数据结果表进行合并，得到合并表，以及通过数据抽取工具Sqoop将合并表导入大数据平台；

本实施例中，join是HIVE中自带的连接算法，可以将不同的表合并成一个表。

步骤S40，通过大数据平台对预处理数据结果表中的预处理数据进行数据清洗，得到分摊结果数据表；

本实施例中，先通过关联规则算法对数据结果表中的初始数据进行处理，找到数据与数据之间的关联关系，可以最大程度地保留表中有价值的数据，即符合关联规则的数据，最后再对上述数据进行清洗操作，去除一些不合理的数据，例如，当前的表是用于记录办公用品消费金额的表，若表中出现衣服等生活用品的消费金额，则需要通过清洗算法将其剔除掉。

步骤S50，按照预置数据量对分摊结果数据表进行拆分，得到拆分数据结果表集合；

本实施例中，按照预置数据量对分摊结果数据表进行拆分，得到拆分数据结果表集合，例如，将海量的数据拆分成若干张表，每张表中的数据不超过一亿条。

步骤S60，将拆分数据结果表集合中的拆分数据结果表以多任务多并发的形式同步导入分布式内存实时分析系统Druid，以及通过Druid对拆分数据结果表中的数据进行分析，得到由多个或单个维度的分析结果组成的分析结果集合；

本实施例中，采用多任务多并发的形式同步导入分布式内存实时分析系统Druid，可提升数据分析的效率。通过任务调度系统可实现多线程做数据同步，使用多任务多表并发的形式将数据同步到Druid。

步骤S70，判断是否存在获取分析结果的请求；

本实施例中，判断是否存在获取分析结果的请求。

步骤S80，若存在获取分析结果的请求，则通过联机分析处理技术对分析结果集合进行分析，输出分析结果，若不存在获取分析结果的请求，则返回步骤S70；

本实施例中，若当前存在获取分析结果的请求，则通过联机分析处理技术OLAP对分析结果集合进行查询，以及输出分析结果，若否，则判断当前是否存在获取分析结果的请求。

步骤S90，通过方差公式计算分析结果与预置期望值之间的偏差值；

本实施例中，为了检验分析的结果是否存在误差，根据以往的经验预先设置一个期望值，例如，研发费用为5万时，年净利润增长5％，研发费用为10万时，年净利润增长10％，根据例子中的经验，在理想状态下，研发费用与年净利润增长率之间呈现正相关的关系，但是市场是波动的，即在研发费用达到某个值以后，年净利润增长率将不再增加，但是又不可能将所有造成市场波动的因素全部考虑进去，所以只能尽可能的检验对数据造成影响的因素，所有在本实施例中，预先根据经验得到期望值，将期望值与分析结果进行比较，若两者之间的差值大于了预设阈值，则需要对期望值造成干扰的数据进行提取，将提取的数据以可视化的形式进行展示，以便用户对数据进行分析。

步骤S100，判断偏差值是否大于或等于预设阈值；

本实施例中，判断偏差值是否满足预设阈值，例如，期望值为10％，偏差值超过10％则认为满足预设阈值。

步骤S110，若偏差值大于或等于预设阈值，则通过决策树对初始数据进行挖掘，得到挖掘结果。

本实施例中，对于一些简单的数据分析，可以通过联机分析处理技术来实现，但是对于较为复杂的场景，例如，一个分析结果可能受多个因素的影响，在前期输入数据时，并不知晓最终的分析结果与哪些数据相关，例如，通过联机分析处理技术得到了第一季度业务部门的销售总额为十万，第二季度业务部门的销售总额为二十万，销售总额增长了50％，因此最终输出的分析结果是销售总额增长了50％，但是我们并不知道其增长的原因是什么，有可能是市场行情的因素，也可能是公司出台了奖励制度的因素，所以知道得到这个结果，主要与哪些因素的数据有关至关重要，因此，本实施例用到了数据挖掘算法决策树对所有的初始数据进行挖掘，得到影响分析结果的数据。

对数据进行处理，得到处理后的数据，再通过分布式内存实时分析系统Druid对处理后的数据进行分析，得到分析结果，然而分析结果与预期值之间有可能存在巨大偏差，因此在本发明中增加决策树，根据决策树可以无限扩展其叶子的特性，因此可以从原始数据中深度挖掘出对分析结果造成偏差主要因素，以便于深度分析。本发明提高了数据分析的效率。

参照图3，图3为图2中步骤S10的一个实施例的细化流程示意图。在本实施例中，步骤S10具体包括以下步骤：

步骤S101，基于数据结果表中的初始数据以及维度，构造数据立方体并对数据立方体填充初始数据；

本实施例中，例如，原来数据表中有三个初始数据，分别是：100元整，1只狗和3个人，通过公式V＝S*a对数据结果表中的数据进行维度分摊后，a＝3，可以得到是三个维度的数据。通过公式V＝S*a对数据结果表中的数据进行维度分摊，基于数据结果表中的初始数据以及维度，构造数据立方体并对其填充初始数据，其中，V为分摊后数据的维度，S为数据，a为分摊因子，基于数据结果表中的初始数据，构造数据立方体并对其填充初始数据，设置立方体的目的是将多个维度的数据以立体的形式展现出来，便于数据的分析。

步骤S102，按照预置层级对数据立方体进行分区，得到多个子数据立方体；

本实施例中，例如，遍历数据立方体中的数据，若遍历到“天”、“月”和“年”则将数据所在的区域划分为时间区域，同理，还可以将立方体中的某些部分划分为机构层区域、成本区域等，这样对数据立方体进行分区后，可得到多个子数据立方体。

步骤S103，将多个子数据立方体分别保存到预置数据库oracle集中，预置数据库oracle集中包括多个预置数据库oracle。

本实施例中，将多个子数据立方体分别保存到预置数据库oracle集中的不同预置数据库中。

参照图4，图4为图3中步骤S101的一个实施例的细化流程示意图。在本实施例中，步骤S101包括以下步骤：

步骤S1011，通过公式V＝S*a对数据结果表中的初始数据进行维度分摊，得到维度，V为分摊后数据的维度，S为数据结果表中的初始数据，a为分摊因子；

步骤S1012，基于维度与数据结果表中的初始数据，构建维表；

本实施例中，基于数据结果表中的初始数据，构建维表。例如，维度可以包括：时间、合同、部门和金额等。

步骤S1013，根据维表，构造事实表；

本实施例中，根据维表，构造事实表。事实是各个维度的交点，是对某个特定事件的度量，事实是各个维度的交点，是对某个特定事件的度量，例如去年甲部门签订了一份金额为一万元的合同。

步骤S1014，通过关联算法计算维表和事实表之间关联关系，基于关联关系构造星型模型；

本实施例中，事实表是数据库中最大的表，是星形模型结构的核心，星形模型用于展现多维的数据关系，它由事实表(Fact Table)和维表(Dimens ion Table)组成。基于维表和事实表以及二者的关联关系，可以构造星型模型。

步骤S1015,根据星型模型，构建数据立方体。

本实施例中，根据星型模型，构建述数据立方体。构造好星型模型后就可以将数据存储于星型模型，即得到数据立方体。

参照图5，图5为本发明基于大数据的数据分析方法的第二实施例的流程示意图。本实施例中，在图2步骤S10之前，基于大数据的数据分析方法，还包括以下步骤:

步骤S120，通过预先标注好的训练样本训练初始决策树；

本实施例中，训练的过程是将训练样本依次输入初始决策树的根节点、左子树节点与右子树节点，例如，根节点处的数据为“销售总额增长了50％”，左子树节点处的数据为“奖励制度”、左子树节点处的数据为“员工旷工”，在训练的过程中将上述数据输入初始决策树，若数据增加的话，初始决策树的叶子数是可以无限延伸，例如在“奖励制度”的下面又可以细分出“优秀员工奖励制度”和“全体员工奖励制度”，对于影响不大的进行剪枝，最终训练出可以输出与分析结果最相关的数据。

步骤S130，将预置分析结果输入初始决策树，输出初始挖掘结果；

本实施例中，将预置分析结果输入决策树，输出初始挖掘结果,例如分析结果为，员工的奖金增加了百分之十，根据这个分析结果，决策树会根据根节点处的分析结果以泛洪的形式查找与分析结果相关的数据，例如，从左子树可以判断出是由于员工业绩提升，而导致的奖金增加，通过左子树下面的子树也可判断出是由于优秀员工奖励制度的提出，而导致的员工业绩提高，通过左子树、右子树这样以穷举的方式依次寻找下去，可以找到所有导致员工的奖金增加了百分之十的所有因素。

步骤S140，判断初始挖掘结果的正确率是否满足预置正确率；

本实施例中，判断初始挖掘结果是否符合预置挖掘结果。刚开始决策树并不具备按照人设置的指标进行分类的能力，因此需要训练，刚开始决策树在对分析结果进行决策时，需要根据预先准备好的挖掘结果去训练决策树，可以通过调参的方式弱化决策出现错误的子树，以训练出符合挖掘指标的决策树模型。

步骤S150，若初始挖掘结果的正确率满足预置正确率，则得到决策树模型，若初始挖掘结果的正确率不满足预置正确率，则返回步骤S120。

本实施例中，若初始挖掘结果符合预置挖掘结果，则说明决策树已经训练完毕，若初始挖掘结果不符合预置挖掘结果，则返回步骤S120，对初始决策树继续进行训练。

参照图6，图6为图2中步骤S20的一个实施例的细化流程示意图。在本实施例中，步骤S20包括以下步骤：

步骤S201，对数据结果表中的预置数据挖掘频繁项集，得到关联规则；

本实施例中,起初，关联规则算法并不能准确挖掘数据，需要通过数据结果表中的预置数据进行挖掘训练，得到关联规则。

步骤S202，基于关联规则对数据结果表中的初始数据进行抽取，得到抽取数据，判断抽取数据中是否存在数值型初始数据；

本实施例中,在判断是否存在数值型的初始数据时，可以通过轮询的方式依次检验轮询到的数据来实现。

步骤S203，若抽取数据中存在数值型初始数据，则通过排序算法对数值型初始数据进行排序，得到预处理数据结果表。

本实施例中,排序算法至少包括以下方法之一，插入排序、选择排序、冒泡排序、快速排序、堆排序、归并排序、希尔排序、二叉树排序、计数排序、桶排序、基数排序。例如，冒泡排序的过程是，对相邻两节点处的初始数据进行比较，大的向后移一个，经过第一轮两两比较和移动，最大的元素移动到了最后，第二轮次大的位于倒数第二个，依次进行，从而实现了对数据的排序。

参照图7，图7为图2中步骤S30的一个实施例的细化流程示意图。在本实施例中，步骤S30包括以下步骤：

步骤S301，通过HIVE的join算法将预处理数据结果表进行合并，得到合并表，并预置各个待导入大数据平台的合并表中预处理数据数量的上限值与下限值；

本实施例中,大数据平台对数据的处理能力也是有限度的，因此在本实施例中，定义各个待导入大数据平台的合并表中预处理数据数量的上限值与下限值。

步骤S302，判断待导入大数据平台的预处理数据的数量是否高于上限值；

本实施例中,例如上限值为十亿，若超出十亿，则说明高于上限值，判断待导入大数据平台的预处理数据的数量是否高于上限值。

步骤S303，若待导入大数据平台的预处理数据的数量高于上限值，则对合并表进行拆分，得到预处理数据结果子表，直至预处理数据结果子表中的数据量低于或等于上限值，以及将预处理数据结果子表导入大数据平台；

步骤S304，若待导入大数据平台的预处理数据的数量低于或等于上限值，则判断待导入大数据平台的预处理数据的数量是否低于下限值；

本实施例中,若待导入大数据平台的预处理数据的数量高于上限值，则可以通过预置HIVE的join算法对合并表进行拆分，得到多个预处理数据结果子表，直至预处理数据结果子表中的数据量低于或等于上限值，以及将预处理数据结果子表导入大数据平台，若否，则判断当前待导入大数据平台的预处理数据的数量是否低于下限值。

步骤S305，若低于下限值,则通过预置存储方式将数据结果表存储于预置数据库oracle集中；

步骤S306，若不低于下限值，则通过数据抽取工具Sqoop将合并表导入大数据平台。

本实施例中,在对数据进行分析的时候，期望是对尽可能多的数据进行分析，这样会一定程度上减少误差，例如，分析了十个员工的工资，而这十个员工的工资并不能很准确地反映本行业的平均工资，因此，在数据低于下限值时，分析结果存在不准确的情况，因此在本实施例中，设置下限值，若低于下限值的话就需要更多的初始数据，若不低于下限值，则将合并表导入大数据平台进行数据分析。

参照图8，图8为图2中步骤S40的一个实施例的细化流程示意图。在本实施例中，步骤S40具体包括以下步骤：

步骤S401，通过k-近邻算法逐一计算预处理数据结果表中相邻的两个预处理数据之间的距离的值；

本实施例中,计算测试数据与各个预置训练数据之间的距离，按照距离的递增关系进行排序。

步骤S402，判断距离的值是否小于预置距离值；

本实施例中,预置距离值是预先设置的，当小于预置距离值则说明数据与预置训练数据更为相似，因此这些数据也属于相对重要的数据。

步骤S403，若距离的值小于预置距离值，则清洗掉相邻的两个预处理数据中的一个数据，得到分摊结果数据表，若距离的值大于或等于预置距离值，则返回步骤S401。

本实施例中，通过k-近邻算法计算预处理数据结果表中每个数据之间的距离，得到前K个距离最相近的数据，判断前K个距离中是否存在小于预置值的距离，若存在，则清除数据。

本发明的有益效果：本发明为解决现有技术中数据分析效率低下的技术问题。提供一种基于大数据的数据分析方法。造成高数据分析的效率低下的主要原因是数据量巨大。为了解决现有技术中数据分析效率低下的技术问题，本发明提供的解决方案为：对数据进行处理，得到处理后的数据，再通过分布式内存实时分析系统Druid对处理后的数据进行分析，得到分析结果，然而分析结果与预期值之间有可能存在巨大偏差，因此在本发明中增加决策树，根据决策树可以无限扩展其叶子的特性，因此可以从原始数据中深度挖掘出对分析结果造成偏差主要因素，以便于深度分析。本发明提高了数据分析的效率。

参照图9，图9为本发明基于大数据的数据分析装置的一个实施例的功能模块示意图。本实施例中，所述基于大数据的数据分析装置包括：

存储模块10，用于通过预置存储方式将数据结果表存储于预置数据库oracle集中，所述预置数据库oracle集中包括多个预置数据库Oracle，所述数据结果表中存储有初始数据；

抽取模块20，用于通过关联规则算法对所述数据结果表中的初始数据进行抽取，得到预处理数据结果表；

导入模块30，用于通过HIVE的连接算法join将所述预处理数据结果表进行合并，得到合并表，以及通过数据抽取工具Sqoop将所述合并表导入大数据平台；

清洗模块40，用于通过所述大数据平台对所述预处理数据结果表中的预处理数据进行数据清洗，得到分摊结果数据表；

拆分模块50，用于按照预置数据量对所述分摊结果数据表进行拆分，得到拆分数据结果表集合；

分析模块60，用于将所述拆分数据结果表集合中的拆分数据结果表以多任务多并发的形式同步导入分布式内存实时分析系统Druid，以及通过所述Druid对所述拆分数据结果表中的数据进行分析，得到由多个或单个维度的分析结果组成的分析结果集合；

请求判断模块70，用于判断是否存在获取分析结果的请求；

输出模块80，用于若存在获取分析结果的请求，则通过联机分析处理技术对所述分析结果集合进行分析，输出分析结果，若不存在获取分析结果的请求，则判断是否存在获取分析结果的请求；

计算模块90，用于通过方差公式计算所述分析结果与预置期望值之间的偏差值；

预设阈值判断模块100，用于判断所述偏差值是否大于或等于预设阈值；

挖掘模块110，用于若所述偏差值大于或等于预设阈值，则通过决策树对初始数据进行挖掘，得到挖掘结果。

本实施例中，通过装置中的模块，可通过分布式内存实时分析系统Druid对处理后的数据进行分析，得到分析结果，然而分析结果与预期值之间有可能存在巨大偏差，因此在本发明中增加决策树，根据决策树可以无限扩展其叶子的特性，因此可以从原始数据中深度挖掘出对分析结果造成偏差主要因素，实现深度分析，达到高效分析数据的目的。

本发明还提供一种计算机可读存储介质。

本实施例中，所述计算机可读存储介质上存储有基于大数据的数据分析程序，所述基于大数据的数据分析程序被处理器执行时实现如上述任一项实施例中所述的基于大数据的数据分析方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本发明的保护之内。

Claims

1.一种基于大数据的数据分析方法，其特征在于，所述基于大数据的数据分析方法包括以下步骤：

判断是否存在获取分析结果的请求；

判断所述偏差值是否大于或等于预设阈值；

若所述偏差值大于或等于预设阈值，则通过决策树对初始数据进行挖掘，得到挖掘结果。

2.如权利要求1所述的基于大数据的数据分析方法，其特征在于，所述通过预置存储方式将数据结果表存储于预置数据库oracle集中，所述预置数据库oracle集中包括多个预置数据库oracle，所述数据结果表中存储有初始数据包括以下步骤：

3.如权利要求2所述的基于大数据的数据分析方法，其特征在于，所述基于数据结果表中的初始数据以及所述维度，构造数据立方体并对所述数据立方体填充初始数据包括以下步骤：

基于所述维度与所述数据结果表中的初始数据，构建维表；

根据所述维表，构造事实表；

根据所述星型模型，构建数据立方体。

4.如权利要求1所述的基于大数据的数据分析方法，其特征在于，在所述通过预置存储方式将数据结果表存储于预置数据库oracle集中，所述预置数据库oracle集中包括多个预置数据库oracle，所述数据结果表中存储有初始数据的步骤之前，还包括以下步骤：

通过预先标注好的训练样本训练初始决策树；

将预置分析结果输入所述初始决策树，输出初始挖掘结果；

判断所述初始挖掘结果的正确率是否满足预置正确率；

5.如权利要求1所述的基于大数据的数据分析方法，其特征在于，所述通过关联规则算法对所述数据结果表中的初始数据进行抽取，得到预处理数据结果表包括以下步骤：

对数据结果表中的预置数据挖掘频繁项集，得到关联规则；

6.如权利要求1所述的基于大数据的数据分析方法，其特征在于，所述通过HIVE的连接算法join将所述预处理数据结果表进行合并，得到合并表，以及通过数据抽取工具Sqoop将所述合并表导入大数据平台包括以下步骤：

若低于所述下限值,则通过预置存储方式将数据结果表存储于预置数据库oracle集中；

若不低于所述下限值，则通过数据抽取工具Sqoop将所述合并表导入大数据平台。

7.如权利要求1-6任一项所述的基于大数据的数据分析方法，其特征在于，所述通过所述大数据平台对所述预处理数据结果表中的预处理数据进行数据清洗，得到分摊结果数据表包括以下步骤：

判断所述距离的值是否小于预置距离值；

8.一种基于大数据的数据分析装置，其特征在于，所述基于大数据的数据分析装置包括以下模块：

请求判断模块，用于判断是否存在获取分析结果的请求；

9.一种基于大数据的数据分析设备，其特征在于，所述基于大数据的数据分析设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于大数据的数据分析程序，所述基于大数据的数据分析程序被所述处理器执行时实现如权利要求1-7中任一项所述的基于大数据的数据分析方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于大数据的数据分析程序，所述基于大数据的数据分析程序被处理器执行时实现如权利要求1-7中任一项所述的基于大数据的数据分析方法的步骤。