CN108334557B

CN108334557B - 一种聚合数据分析方法、装置、存储介质及电子设备

Info

Publication number: CN108334557B
Application number: CN201711498240.9A
Authority: CN
Inventors: 王光辉
Original assignee: Neusoft Group Shanghai Co ltd
Current assignee: Neusoft Group Shanghai Co ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2022-03-11
Anticipated expiration: 2037-12-29
Also published as: CN108334557A

Abstract

本发明公开了一种用于对聚合数据进行分析的方法及装置，所述方法包括抽取各个远端服务器的业务数据，对所述业务数据进行处理并加载到中心服务器集群的数据仓库中；根据需求在数据仓库中按字段抽取相应数据，使用分布式并行算法对抽取的相应数据进行分析处理，获得数据间的关联关系；根据所述数据间的关联关系对业务进行优化以满足需求；所述方法及装置使得各远端服务器上存储的不同存储结构和逻辑结构的数据通过转换可以以目标数据结构的数据供中心服务器集群调配使用；同时采用分布式并行算法，将待分析数据进行分片处理和并行运算，提高了运算效率；并根据算法获得待分析数据间的关联关系，为进一步业务优化提供了强有力的数据支持。

Description

一种聚合数据分析方法、装置、存储介质及电子设备

技术领域

本发明涉及数据处理领域，更具体地，涉及一种对聚合数据进行分析的方法及装置。

背景技术

随着市场经济逐渐的趋于成熟，企业管理的标准化和规范化越来越受到重视，很多企业在快速扩张期建立的多个分支机构因最初的建立标准不统一、企业兼并其他企业时，也因管理模式的差异导致使用的标准不尽相同；这些标准的不同体现在生产过程以及生产资料的管理差异、与生产过程相关的ERP系统、HR系统、CIMS系统的数据存储结构以及逻辑结构不同等；这导致在推行标准化和规范化时，各分支机构的数据无法统一的有效利用，无法进行整体的数据决策以及数据分析。

基于此，目前很多企业使用聚合共享系统，将各分支机构的数据聚合并统一存储供后续数据使用；而目前的聚合共享系统虽将数据统一聚合在一个系统中，对多个分支机构聚合在一起的数据统一存储统一处理，在数据使用过程中，数据提取效率较低，同时，因各分支机构采用的生产、工艺、库存以及物料管理系统都存在差异，聚合的数据间存在逻辑结构等差异，无法转化为有用的信息统一使用，因而系统对数据的处理一般仅限于录入、修改、删除、统计以及查询等数据库低层次应用，很难对数据进行集成分析以挖掘深层次的数据价值；上述问题也导致积累的丰富的生产数据只成为了摆设，无法有效利用数据快速输出数据分析决策结果以兼顾统一的指导各个分支机构的后续工作，失去了建立数据聚合系统的意义，各机构间也无法通过数据的分析结果进行业务的动态调配，极可能造成业务配置不均衡和资源的浪费。

发明内容

为了解决背景技术存在的现有数据聚合的系统因个分支机构间数据存储结构逻辑结构等差异使得无法有效统一利用进行数据分析，使得企业无法根据数据分析结果进行业务优化，同时因数据过于庞大导致在使用数据时数据提取效率较低等问题，本发明提供了一种用于对聚合数据进行分析的方法及装置，所述方法及装置通过对各分支机构的远端服务器内的数据进行抽取转换并加载到设置在总机构的中心服务器集群中，使得各远端服务器上存储的不同存储结构和逻辑结构的数据通过转换可以以相同的结构供中心服务器集群调配使用；所述方法及系统使用分布式并行算法对抽取的相应数据进行分析处理，极大提高了数据的处理效率，同时所述方法及系统根据算法获得待分析数据间的关联关系，为进一步业务优化提供了强有力的数据支持，所述方法包括：

步骤110，抽取各个远端服务器的业务数据，对所述业务数据进行处理并加载到中心服务器集群的数据仓库中；

步骤120，根据需求在数据仓库中按字段抽取相应数据，使用分布式并行算法对抽取的相应数据进行分析处理，获得数据间的关联关系；

步骤130，根据所述数据间的关联关系对业务进行优化以满足需求；

进一步的，所述中心服务器集群的多台服务器中的每一台配置有Linux操作系统以及Hadoop平台，各台服务器间通过网络连接；所述多台服务器中的每一台均部署有Hive；

进一步的，所述步骤110还包括：

步骤111，将抽取到的业务数据存储到中心服务器集群上与所述业务数据所属远端服务器对应的抽取数据库中；

步骤112，将抽取数据库中的数据进行数据转换，将转换后的数据存储到中心服务器集群上与所述转换后数据所属远端服务器对应的转换数据库中；所述数据转换包括对数据格式的转换和统一以及根据预设条件剔除无用信息；

步骤113，将各个转换数据库中的数据进行整合，加载到数据仓库中；

进一步的，所述步骤120还包括：

步骤121，将在数据仓库中抽取的数据进行分片处理，获得多组分片数据；所述分片数据的组数大于所述中心服务器集群可用于计算的服务器的数量；

步骤122，使用映射将相应的分片数据处理成关键字加数值的形式，作为映射的输入键值对；

步骤123，对多组分片数据中的每一组进行分布式并行算法的数据处理；

进一步的，所述步骤123，对多组分片数据中的每一组进行分布式并行算法的数据处理的方法包括：

步骤1231，对每一组分片数据进行扫描，获得多组分片数据的每一组对应的数据集项数为n的候选项集，所述候选项集包括各数据集，并获得各数据集对应的支持度；所述数据集由数据构成，所述数据集项数为每个数据集中包含的数据的个数；所述支持度为候选项集中的数据集在对应分片数据中的出现频率；

步骤1232，将多组分片数据的每一组对应的数据集项数为n的候选项集汇总为全局n项候选项集；

步骤1233，根据支持度对全局n项候选项集中的各数据集进行比较，并在全局n项候选项集中剔除支持度最小的数据集，获得全局n项频繁项集；

步骤1234，判断根据全局n项频繁项集中的各项数据能否建立数据集项数为n+1的候选项集，

如可以，则根据全局n项频繁项集中的各项数据进行n+1项全组合，建立数据集项数为n+1的候选项集，且将数据集项数n赋值为n+1，跳转至步骤1231；

如不可以，跳转至步骤1235；

所述不可以建立的条件为全局n项频繁项集中只有一组n项数据集，或者全局n项频繁项集中的各项数据进行n+1项全组合得到的各数据集的支持度均为0；

其中，n≥1，且n为整数；

进一步的，所述中心服务器集群通过中心服务器集群的多渠道传输服务器与各远端服务器进行通信，并采用以下方式之一进行通信：

方式1，所述多渠道传输服务器接收到数据时，将数据写到本地磁盘中，当数据传送成功后，从本地磁盘中将对应数据删除；

方式2，当数据接收方异常时，多渠道传输服务器将数据写到本地磁盘中，当数据接收方恢复后，多渠道传输服务器重新发送数据；

方式3，当数据发送到数据接收方后，多渠道传输服务器不进行确认以提高数据传输效率；

进一步的，所述业务数据包括对应远端服务器的生产管理系统数据以及库存管理数据；所述生产管理系统数据包括生产工艺、原材料批次、材料溯源、工艺过程以及生产线别；所述库存管理数据包括库存量、环境参数以及仓库编号。

所述一种用于对聚合数据进行分析的装置包括：中心服务器集群以及多个远端服务器；

所述中心服务器集群包括数据处理模块、算法模块、数据仓库以及业务优化模块；

所述数据处理模块与多个远端服务器通过网络连接，并抽取各个远端服务器中的业务数据；数据处理模块用于对所述业务数据进行处理并加载到数据仓库中；

所述算法模块根据需求在数据仓库中按字段抽取相应数据，并使用分布式并行算法对抽取的相应数据进行分析处理，获得数据间的关联关系；所述算法模块与数据仓库在中心服务器集群内通过网络连接；

所述数据仓库用于存储数据处理模块处理后的业务数据；

所述业务优化模块根据算法模块输出的数据间的关联关系对业务进行优化以满足需求；

所述多个远端服务器用于存储对应分支机构的业务数据；

进一步的，所述所述中心服务器集群的多台服务器中的每一台配置有Linux操作系统以及Hadoop平台，各台服务器间通过网络连接；所述多台服务器中的每一台均部署有Hive；

进一步的，所述数据处理模块包括数据抽取单元、数据转换单元以及数据加载单元；

所述数据抽取单元用于从远端服务器抽取业务数据，并将抽取到的业务数据存储到中心服务器集群上与所述业务数据所属远端服务器对应的抽取数据库中；

所述数据转换单元用于将每一个抽取数据库中的数据进行数据转换，并将转换后的数据存储到中心服务器集群上与所述转换后数据所属远端服务器对应的转换数据库中；所述数据转换包括对数据格式的转换和统一以及根据预设条件剔除无用信息；

所述数据加载单元用于将各个数据转换库中的数据进行整合，并加载到数据仓库中；

进一步的，所述算法模块包括数据分片单元以及计算单元；

所述数据分片单元用于将在数据仓库中抽取的数据进行分片处理，获得多组分片数据；并使用映射将相应的分片数据处理成关键字加数值的形式，作为映射的输入键值对；所述分片数据的组数大于所述中心服务器集群可用于计算的服务器的数量；

所述计算单元用于对多组分片数据中的每一组进行分布式并行算法的数据处理；

进一步的，所述计算单元包括候选项集子单元、频繁项集子单元；

所述候选项集子单元用于对多组分片数据的每一组进行扫描，获得每一组分片数据对应的数据集项数为n的候选项集，所述候选项集包括各数据集，并获得各数据集对应的支持度；所述数据集由数据构成，所述数据集项数为每个数据集中包含的数据的个数；所述支持度为候选项集中数据集在对应分片数据中的出现频率；

并将每一组分片数据对应的数据集项数为n的候选项集汇总为全局n项候选项集；

将全局n项候选项集发送至频繁项集子单元；

所述频繁项集子单元用于根据支持度对全局n项候选项集中的各数据集进行比较，并在全局n项候选项集中剔除支持度最小的数据集，获得全局n项频繁项集；

判断根据全局n项频繁项集中的各项数据能否建立数据集项数为n+1的候选项集；

如可以，则根据全局n项频繁项集中的各项数据进行n+1项全组合，建立数据集项数为n+1的候选项集，且将数据集项数n赋值为n+1，将候选项集发送至候选项集子单元；

如不可以，根据全局n项频繁项集中的各项数据集输出数据集对应各数据间的关联关系；

其中，n≥1，且n为整数；

进一步的，所述中心服务器集群包括多渠道传输服务器，所述中心服务器集群中的各模块通过多渠道传输服务器与各远端服务器进行通信，所述通信的方式包括：

另一方面，还了提供一种计算机可读存储介质，其上存储有计算机可读的程序，所述计算机程序被处理器运行时执行上述方法步骤。

另一方面，还了提供一种电子设备，包括上述的计算机可读存储介质；以及一个或多个处理器，用于执行所述计算机可读存储介质中的程序。

本发明的有益效果为：本发明的技术方案，给出了一种用于对聚合数据进行分析的方法及装置，达到了以下有益效果：

1、所述方法及装置通过对各分支机构的远端服务器内的数据进行抽取转换并加载到设置在总机构的中心服务器集群中，使得各远端服务器上存储的不同存储结构和逻辑结构的数据通过转换可以以相同的结构供中心服务器集群调配使用，极大的提高了数据的利用率，为大数据分析提供了坚实的数据基础；

2、所述方法及装置采用分布式并行算法，将待分析数据进行分片处理，并由中心服务器集群的各个服务器同时处理多个分片数据，相较于传统的串行算法极大的缩短了运算周期、提高了运算效率；

3、所述方法及装置根据算法获得待分析数据间的强关联关系，为进一步业务优化提供了强有力的数据支持，极大程度的帮助企业管理决策者，提高生产的效率和质量，有的放矢的进行对业务内容进行调整和优化。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1为本发明具体实施方式的一种聚合数据分析方法的流程图；

图2为本发明具体实施方式的对远端服务器业务数据进行抽取处理的流程图；

图3为本发明具体实施方式的从数据仓库中抽取数据并进行处理的流程图；

图4为本发明具体实施方式的分布式并行算法的流程图；

图5为本发明具体实施方式的一种用于对聚合数据进行分析的装置的结构图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

图1为本发明具体实施方式的一种聚合数据分析方法的流程图；如图所示，所述方法包括以下步骤：

所述方法通过数据聚合共享平台实现总机构向与各分支机构的连接和数据共享；如步骤110所呈现的方式，中心服务器集群与各个远端服务器间实现业务数据共享；

进一步的，所述中心服务器集群为总机构的服务器集群，中心服务器集群是通过网络连接的多台服务器组成的云计算服务器集群，所述远端服务器为各个分支机构的本地服务器，所述远端服务器中存储有对应分支机构的业务数据；

进一步的，所述业务数据包括对应远端服务器的生产管理系统数据以及库存管理数据；所述生产管理系统数据包括生产工艺、原材料批次、材料溯源、工艺过程以及生产线别；所述库存管理数据包括库存量、环境参数以及仓库编号

以使用Hadoop平台为例，所述中心服务器集群的多台服务器中的每一台配置有Linux操作系统以及Hadoop平台，且每一台都部署有Hive；

进一步的，因各分支机构的业务管理方式存在差异，存储在各远端服务器的业务数据结构存在差异，在抽取了各个远端服务器的业务数据后，需要经过转换和清理，将各种不同结构的业务数据转换为指定的相同结构的数据结构，以便后续使用；如图2所示，所述步骤110还包括：

中心服务器集群通过网络与远端服务器集群连接，并抽取远端服务器中存储的业务数据；

以使用Hadoop平台为例，中心集群服务器通过Hadoop平台使用数据抽取工具Sqoop对远端服务器上存储的业务数据进行抽取，并在Hadoop中建立Hive数据库(即抽取数据库)，用于存储抽取的业务数据。

所述对业务数据的清洗包括根据预设条件剔除无用信息是数据清理的一种常用手段，可以用来解决一些业务数据不全的问题，例如，固定批次产品的生产所需温度、生产管理者所需时间等信息不完整，我们采用缺省值方式对这些字段进行补齐；最终保留生产产品的工艺制造过程以及物料使用过程，相应的物料信息、库存领用信息，生产结果以及产品质量等信息；所述对业务数据的转换指将抽取数据库中的数据按照业务需要转换为目标数据结构，并实现汇总；

以使用Hadoop平台为例，对存储抽取数据的Hive数据库中的数据进行Transform处理，获得转换完成的数据，再在Hadoop平台上建立一个新的Hive数据库(即转换数据库)，用于存储转换完的数据。

将与各远端服务器对应的转换数据库中的业务数据整合到一起，加载到数据仓库中，完成整个数据仓库的建立；

以使用Hadoop平台为例，完成与各远端服务器对应的转换操作后，第三次建立Hive数据库，用于存储整合后的所有转换完成的业务数据，并将该Hive数据库作为最终的数据仓库使用。

完成数据仓库的建立和实时更新后，可以使用数据仓库中的数据进行各种业务下的需求分析，通过业务需求确定数据的筛选条件并获取相应数据，通过对数据的分析，获得业务需求内各数据间的关联关系用于辅助业务需求分析；

进一步的，根据需求在数据仓库中按字段抽取相应数据，所述相应数据为本次数据分析需要使用的数据字段下的数据，或是本次分析需要获得关联关系的各数据字段下的数据；根据需求，可以选取一段特定时间内的数据以提高分析的准确程度；

进一步的，为了提高运算效率，对抽取的数据进行分片处理，所述分片数据可通过中心服务器集群的各个用于计算的服务器同时处理，相较于传统的串行算法极大的缩短了运算周期、提高了运算效率；如图3所示，所述步骤120还包括：

为了提高数据运算效率，充分利用中心服务器集群中多台服务器的运算能力，首先将抽取获得的数据进行分片处理，将原数据分为多组分片数据；特别的，为了提高运算效率，所述分片数据的组数大于所述中心服务器集群可用于计算的服务器的数量，这样在向各个服务器分发任务时，不会因为分片数据组数不够多而使得个别服务器处于待命状态，进而达到负载均衡的效果；

所述输入键值对用于确认映射对应的分片数据所属的源数据以及在所属源数据中的位置；所述源数据指步骤120及步骤121中所述的根据需求在数据仓库中按字段抽取相应数据形成的原始数据集合；

所述多组分片数据中的每一组分片数据由中心服务器集群中的多台服务器分担处理，在每台服务器上，进行分布式并行算法的数据处理；

以使用Hadoop平台为例，使用基于MapReduce并行编程模型的键值进行特性对输入的原始数据集进行Map分片处理，主进程将这些数据分块分布到中心服务器集群中的每台计算机上，然后并行算法对每台计算机上的分片数据进行处理。当一台计算机出现故障而停止计算时，这台计算机上的计算任务会被转移到集群中的其他空闲计算机上继续执行未完成的计算任务。在Hadoop上处理的计算任务无论大小，通过配置文件的修改可以决定每个Map数据块的大小，可以做到数据分块数远大于计算节点数，计算资源不会被浪费，做到了负载均衡；

进一步的，通过对每一组分片数据进行分布式并行算法的计算，获得各数据间的所有关联关系，如图4所示，所述步骤123，对多组分片数据中的每一组进行分布式并行算法的数据处理的方法包括：

所述多组分片数据为对应同一源数据的所有分片数据；将每个数据集在多组分片数据中对应的支持度乘以对应分片数据的数据量占源数据的比例后汇总，获得全局n项候选项集中该数据集的支持度；特别的，如各分片数据的数据量是相同的，汇总后全局n项候选项集中每个数据集的支持度为该数据集在各个分片数据中支持度的均值；

在生成全局n项频繁项集时如存在支持度相同且均为最小的多个数据集，则将所述多个数据集均剔除；

如不可以，跳转至步骤1235；

所述不可以建立的条件为全局n项频繁项集中只有一组n项数据集，或者全局n项频繁项集中的各项数据进行n+1项全组合得到的各数据集的支持度均为0。

当全局n项频繁项集中只有一组n项数据集时，频繁项集中所有的数据仅有n项，自然无法对这些数据进行n+1项的全组合，从而无法获得n+1项的数据集。另一种情况是，尽管全局n项频繁项集中有多组n项数据集，可以对这些数据进行n+1项的全组合从而得到n+1项的数据集，但是，这些数据集的支持度都为0。则说明项数为n+1的这些数据集中对应的数据间并不存在关联关系，同时如果根据此各数据集支持度均为0且项数为n+1的候选项集获得项数为n+1的频繁项集时，需要剔除支持度最小的数据集(如上所述，或剔除多个支持度相同且最小的数据集)，这使得n+1项的频繁项集为空，无法获得n+1项的频繁项集，因此，在上述情况下，无法获得n+1项的候选项集。

步骤1235，结束运算，根据全局n项频繁项集中的各项数据集获得数据集对应各数据间的关联关系；

以分析产品生产过程中生产条件的变化对产品等级的影响为例，使用所述方法获得各生产条件与产品等级间的关联关系，以判断较好的产品等级可能与哪些生产条件因素有较强的关联关系：

为了研究上述关系，需要从各分支机构的数据仓库中抽取的生产数据包括，是否使用新的工艺(A表示是新工艺)、是否更换新的辅料(B表示是新辅料)、是否提升环境温度(C表示提高温度)以及产品等级(E表示高级，D表示低级)；从该产品生产线对应的分支机构的远端服务器上抽取业务数据示例如下表所示，为使举例清晰简便，对该抽取的数据分片时，将该抽取的数据分为1片：

序号	是否使用新工艺	是否更换辅料	是否提升环境温度	产品等级
					1	A		C	D
2		B	C	E
					3	A	B	C	E
4		B		E

第1步，对如上的分片数据进行扫描，获得所述分片数据的数据集项数为1的候选项集：

数据集	支持度
		{A}	50％
{B}	75％
		{C}	75％
{D}	25％
		{E}	75％

由上表可见，数据集项数为1的候选项集中，每个数据集的中数据的项数为1项，对应的，根据各数据集在源数据中所有待选集合中的出现频率获得各数据集对应的支持度；这样也就是获得了所有出现的单个数据出现的频率。

第2步，将上述数据集项数为1的候选项集汇总为全局1项候选项集；

因在本例中，分片数据的组数为1，故该分片数据的数据集项数为1的候选项集即为全局1项候选项集；

第3步，根据支持度对全局1项候选项集中的各数据集进行比较，并剔除支持度最小的数据集，获得全局1项频繁项集；

如上表可知，数据集{D}的支持度为25％，是支持度最低的数据集，故将数据集{D}剔除，获得全局1项频繁项集如下：

数据集	支持度
		{A}	50％
{B}	75％
		{C}	75％
{E}	75％

但经过这一步的分析，仅仅只是明确了哪些数据元素出现的频率更高，对各个数据之间的关系并未体现出来，因此，还需要进行后续的进一步分析更多项数据元素之间的关系，下一步先从两个元素的关系分析，也就是数据集项数为2的情况。

第4步，判断根据全局1项频繁项集中的各项数据中能否建立数据集项数为2的候选项集；

因全局1项频繁项集中不止有1组数据集且根据全局1项频繁项集中的各项数据进行2项全组合是得到的数据集的支持度不全为0；故可以建立数据集项数为2的候选项集；

第5步，根据全局1项频繁项集中的各项数据中建立数据集项数为2的候选项集如下：

数据集	支持度
		{A,B}	25％
{A,C}	50％
		{A,E}	25％
{B,C}	50％
		{B,E}	75％
{C,E}	50％

第6步，将上述数据集项数为2的候选项集汇总为全局2项候选项集；根据支持度对全局2项候选项集中的各数据集进行比较，并剔除支持度最小的数据集，获得全局2项频繁项集；

如上表可知，数据集{A,B}以及数据集{A,E}的支持度均为25％，是支持度相同且最低的两组数据集，故将数据集{A,B}以及数据集{A,E}剔除，获得全局2项频繁项集如下：

数据集	支持度
		{A,C}	50％
{B,C}	50％
		{B,E}	75％
{C,E}	50％

经过这一步的分析，明确了在两个数据元素的集合中，BE支持度是最高的，说明新辅料对于产品等级高影响相关性高。但还能看到存在其他相关的数据集也是较高的，而且这一步仅涉及到了两个数据元素，产品等级会不会跟其他更多的因素存在较强的关联性，仍然值得进一步考虑，因此，后续还要进一步尝试更多元素的数据集，也就是数据集项数为3的集合。

第7步，判断根据全局2项频繁项集中的各项数据中能否建立数据集项数为3的候选项集；如可以，建立数据集项数为3的候选项集；

因全局2项频繁项集中不止有1组数据集且根据全局2项频繁项集中的各项数据进行3项全组合是得到的数据集的支持度不全为0；故可以建立数据集项数为3的候选项集如下：

数据集	支持度
		{A,B,C}	25％
{A,C,E}	25％
		{A,B,E}	25％
{B,C,E}	50％

将上述数据集项数为3的候选项集汇总为全局3项候选项集；根据支持度对全局3项候选项集中的各数据集进行比较，并剔除支持度最小的数据集，获得全局3项频繁项集；

如上表可知，数据集{A,B,C}、数据集{A,C,E}以及数据集{A,B,E}的支持度均为25％，是支持度相同且最低的三组数据集，故将数据集{A,B,C}、数据集{A,C,E}以及数据集{A,B,E}剔除，获得全局3项频繁项集如下：

数据集	支持度
		{B,C,E}	50％

这一步的分析结果表明，新辅料和提高温度与产品等级高具有较强的关联性。尽管如此，仍然需要尝试能否分析得到更多数据元素之间的关联关系。

第9步，判断根据全局3项频繁项集中的各项数据中能否建立数据集项数为4的候选项集；

因全局3项频繁项集中只有1组数据集，故不可建立数据集项数为4的候选项集；

这也意味着，从现有的数据当中难以建立起更多数据元素之间的强关联关系。另一种不能建立候选项集的情况是，及时建立起数据项为4项的候选项集，但建立起的这些候选项集支持度为0，这就表示这些4项的候选项集出现频率为0，自然也就不可能是频繁项集，也不能表示其元素之间有强关联关系。

第10步，结束运算，根据上述多个表格中的各项数据集以及对应的支持度，获得数据集对应各项数据间的关联关系；

由获得的关联关系可知，与产品等级为优品E存在强相关关系的为B和C；说明在不更换辅料且提升环境温度的情况下，获得高等级产品的可能性更大；对应的产品生产线可根据如上分析安排产品生产的排产，以获得更多的高等级产品；

进一步的，{B,E}的支持度为75％，{C,E}的支持度为50％；故我们可以分析出，对于与产品等级为优品E存在强关联关系的B和C中，B的关联关系更强，对获得产品等级为优品E的支持度更大；说明更换的辅料B对提高良率提出了很大的作用，为产品生产线的后续研发提供了有力的支持；

进一步的，所述根据全局n项频繁项集中的各项数据集包括每次循环获得的频繁项集对应的数据集；所述各数据间的关联关系可通过各数据所构成的数据集对应的支持度获得，如果一项数据集对应的支持度高，则该数据集中的各项数据的关联关系为强关联关系；如一项数据集对应的支持度低，则该数据集中的各项数据的关联关系为弱关联关系；

其中，n≥1，且n为整数；这意味着进行分析时通常从一个数据元素的集合开始进行，逐个增加数据项的个数逐步分析更多数据元素之间的关联性。但如果先验知识已经知道两个或者多个元素之间存在关联关系，那么也可以根据需要，从n为2或者更大的数值开始，以节省计算时间。

通过分布式并行算法，获得根据需求按字段抽取的相应数据中各数据的关联关系；所述关联关系中包括强关联关系，所述强关联关系是指强关联数据集中的数据关联性强；

例如，通过上述的示例分析，可通过获得的强关联关系结果对业务产品生成排产进行优化，最大化满足此强关联关系的生成排布，以满足产品优等级率最大化的需求。此外，还可以采用不同的数据分析方式获得其关联关系，并以此对生产数据进行调整来满足成本降低、产量提高、能耗降低等等不同的需求。

由于采用了分布式的并行算法，能够让总机构迅速对大量分支机构的大量不同数据进行汇总合并，形成统一可用的数据仓库，并且能够利用云计算系统并行对大量分支机构中感兴趣的数据字段进行抽取、计算，分析挖掘其中的关联关系。这样的关联关系能够给总机构提供决策依据和对生产方式进行调整的依据。

使用方式1进行通信时，因在数据传输前将数据在本地进行保存，在数据传输过程中，即便遇到网络异常导致传输中断或接收方异常等情况，也不会使待传输的数据出现数据丢失等异常，待网络异常消失后，进行断点续传或重新传输，保证数据传送成功，提高了数据传输的稳定性；同时方式1在数据传送成功后，将本地磁盘中的对应数据删除，以减轻本地磁盘负载压力；

使用方式2进行通信时，所述多渠道传输服务器在遇到接收方异常时，数据不会丢失，而是存储在多渠道传输服务器本地磁盘中，等待数据接收方恢复数据接收时，多渠道传输服务器再将数据重新发送，方式2的通信方式提高了传输效率，同时兼顾了故障保护提高了数据传输可靠性；

使用方式3进行通信时，减少了确认数据是否发送成功的动作，这使得减少了一次反馈确认的通信时间，提高了数据传输的效率；

以使用Hadoop平台为例，所述多渠道传输服务器为Flume-ng服务器，在实现文件的传输过程中，因考虑到中心服务器集群与远端服务器的网络可能出现不稳定，并且可能出现同一时间段内中心服务器集群数据可能对多个远端服务器的服务数据进行传递、解析及跟踪，所以在文件传输的过程中需要考虑文件的可跟踪性、文件的排他性和文件的完整性，所以本发明中采用了Flume-ng作为中心服务器集群与远端服务器间数据传递的桥梁进行数据文件传输；

进一步的，所述Flume-ng服务器采用了三层架构，分别为agent，collector和storage，每一层均可以水平扩展。其中，所有agent和collector由master统一管理，这使得系统容易监控和维护，且master允许有多个(使用ZooKeeper进行管理和负载均衡)，这就避免了单点故障问题；

因为所有agent和colletor由master统一管理，这使得系统便于维护；多master情况下，Flume利用ZooKeeper和gossip，保证动态配置数据的一致性。用户可以在master上查看各个数据源或者数据流执行情况，且可以对各个数据源配置和动态加载。Flume提供了web和shell script command两种形式对数据流进行管理；同时，用户可以根据需要添加自己的agent，collector或者storage。此外，Flume自带了很多组件，包括各种agent(file，syslog等)，collector和storage(file，HDFS等)。

所述一种聚合数据分析方法，通过对远端服务器内存储的业务数据进行抽取、转换、清洗，获得数据结构为目标数据结构的业务数据，并将所述业务数据加载到中心服务器集群的数据仓库中，这使得各远端服务器上存储的不同存储结构和逻辑结构的数据通过转换可以以目标数据结构的数据供中心服务器集群调配使用，极大的提高了数据的利用率，为大数据分析提供了坚实的数据基础；同时所述方法及系统采用分布式并行算法，将待分析数据进行分片处理，由中心服务器集群的各个服务器同时处理多个分片数据，极大的提高了运算效率；并根据算法获得待分析数据间的强关联关系，为进一步业务优化提供了强有力的数据支持。

图5为本发明具体实施方式的一种用于对聚合数据进行分析的装置的结构图，如图所示，所述装置包括：中心服务器集群201以及多个远端服务器2021～201N；

所述中心服务器集群包括数据处理模块210、数据仓库220、算法模块230以及业务优化模块240；

数据处理模块210，所述数据处理模块210与多个远端服务器通过网络连接，并抽取各个远端服务器中的业务数据；数据处理模块210用于对所述业务数据进行处理并加载到数据仓库220中；

进一步的，所述数据处理模块包括数据抽取单元211、数据转换单元212以及数据加载单元213；

所述数据抽取单元211用于从远端服务器抽取业务数据，并将抽取到的业务数据存储到中心服务器集群上与所述业务数据所属远端服务器对应的抽取数据库中；

所述数据转换单元212用于将每一个抽取数据库中的数据进行数据转换，并将转换后的数据存储到中心服务器集群上与所述转换后数据所属远端服务器对应的转换数据库中；所述数据转换包括对数据格式的转换和统一以及根据预设条件剔除无用信息；

所述数据加载单元213用于将各个数据转换库中的数据进行整合，并加载到数据仓库中；

数据仓库220，所述数据仓220用于存储数据处理模块处理后的业务数据；

算法模块230，所述算法模块230根据需求在数据仓库中按字段抽取相应数据，并使用分布式并行算法对抽取的相应数据进行分析处理，获得数据间的关联关系；所述算法模块230与数据仓库220在中心服务器集群内通过网络连接；

进一步的，所述算法模块230包括包括数据分片单元231以及计算单元232；

所述数据分片单元231用于将在数据仓库220中抽取的数据进行分片处理，获得多组分片数据；并使用映射将相应的分片数据处理成关键字加数值的形式，作为映射的输入键值对；所述分片数据的组数大于所述中心服务器集群可用于计算的服务器的数量；

所述计算单元232用于对多组分片数据中的每一组进行分布式并行算法的数据处理；

进一步的，所述计算单元232包括候选项集子单元2321、频繁项集子单元2322；

所述候选项集子单元2321用于对多组分片数据的每一组进行扫描，获得每一组分片数据对应的数据集项数为n的候选项集，所述候选项集包括各数据集，并获得各数据集对应的支持度；所述数据集由数据构成，所述数据集项数为每个数据集中包含的数据的个数；所述支持度为候选项集中数据集在对应分片数据中的出现频率；

将全局n项候选项集发送至频繁项集子单元2322；

所述频繁项集子单元2322用于根据支持度对全局n项候选项集中的各数据集进行比较，并在全局n项候选项集中剔除支持度最小的数据集，获得全局n项频繁项集；

如可以，则根据全局n项频繁项集中的各项数据进行n+1项全组合，建立数据集项数为n+1的候选项集，且将数据集项数n赋值为n+1，将候选项集发送至候选项集子单元2321；

其中，n≥1，且n为整数；

业务优化模块240，所述业务优化模块240根据算法模块输出的数据间的关联关系对业务进行优化以满足需求；

多个远端服务器2021～202N,所述多个远端服务器2021～202N用于存储对应分支机构的业务数据；

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。本说明书中涉及到的步骤编号仅用于区别各步骤，而并不用于限制各步骤之间的时间或逻辑的关系，除非文中有明确的限定，否则各个步骤之间的关系包括各种可能的情况。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。例如，在权利要求书中所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本公开的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者系统程序(例如，计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本公开进行说明而不是对本公开进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干系统的单元权利要求中，这些系统中的若干个可以是通过同一个硬件项来具体体现。

以上所述仅是本公开的具体实施方式，应当指出的是，对于本领域的普通技术人员来说，在不脱离本公开精神的前提下，可以作出若干改进、修改、和变形，这些改进、修改、和变形都应视为落在本申请的保护范围内。

Claims

1.一种聚合数据分析方法，所述方法包括：

步骤120，根据需求在数据仓库中按字段抽取相应数据，使用分布式并行算法对抽取的相应数据进行分析处理，获得数据间的关联关系，包括：

步骤123，对多组分片数据中的每一组进行分布式并行算法的数据处理，包括：

步骤1231，对每一组分片数据进行扫描，获得多组分片数据的每一组对应的数据集项数为n 的候选项集，所述候选项集包括各数据集，并获得各数据集对应的支持度；所述数据集由数据构成，所述数据集项数为每个数据集中包含的数据的个数；所述支持度为候选项集中的数据集在对应分片数据中的出现频率；

步骤1232，将多组分片数据的每一组对应的数据集项数为n 的候选项集汇总为全局n项候选项集；

步骤1233，根据支持度对全局n 项候选项集中的各数据集进行比较，并在全局n 项候选项集中剔除支持度最小的数据集，获得全局n 项频繁项集；

步骤1234，判断根据全局n 项频繁项集中的各项数据能否建立数据集项数为n+1 的候选项集，如可以，则根据全局n 项频繁项集中的各项数据进行n+1 项全组合，建立数据集项数为n+1 的候选项集，且将数据集项数n 赋值为n+1，跳转至步骤1231；

如不可以，跳转至步骤1235；

所述不可以建立的条件为全局n 项频繁项集中只有一组n 项数据集，或者全局n 项频繁项集中的各项数据进行n+1 项全组合得到的各数据集的支持度均为0；

步骤1235，结束运算，根据全局n 项频繁项集中的各项数据集获得数据集对应各数据间的关联关系；其中， n≥1，且n 为整数；

步骤130，根据所述数据间的关联关系对业务进行优化以满足需求。

2.根据权利要求1 所述的方法，其特征在于：所述中心服务器集群的多台服务器中的每一台配置有Linux 操作系统以及Hadoop 平台，各台服务器间通过网络连接；所述多台服务器中的每一台均部署有Hive。

3.根据权利要求1 所述的方法，其特征在于：所述中心服务器集群通过中心服务器集群的多渠道传输服务器与各远端服务器进行通信，并采用以下方式之一进行通信：

方式3，当数据发送到数据接收方后，多渠道传输服务器不进行确认以提高数据传输效率。

4.根据权利要求1 所述的方法，其特征在于：所述业务数据包括对应远端服务器的生产管理系统数据以及库存管理数据；所述生产管理系统数据包括生产工艺、原材料批次、材料溯源、工艺过程以及生产线别；所述库存管理数据包括库存量、环境参数以及仓库编号。

5.一种聚合数据分析装置，所述装置包括：中心服务器集群以及多个远端服务器；

所述数据处理模块与多个远端服务器通过网络连接，并抽取各个远端服务器中的业务数据；数据处理模块用于对所述业务数据进行处理并加载到数据仓库中，所述数据处理模块包括数据抽取单元、数据转换单元以及数据加载单元；

所述算法模块根据需求在数据仓库中按字段抽取相应数据，并使用分布式并行算法对抽取的相应数据进行分析处理，获得数据间的关联关系；

所述算法模块包括数据分片单元以及计算单元；

所述计算单元用于对多组分片数据中的每一组进行分布式并行算法的数据处理，所述计算单元包括候选项集子单元、频繁项集子单元；

所述候选项集子单元用于对多组分片数据的每一组进行扫描，获得每一组分片数据对应的数据集项数为n的候选项集，所述候选项集包括各数据集，并获得各数据集对应的支持度；所述数据集由数据构成，所述数据集项数为每个数据集中包含的数据的个数；所述支持度为候选项集中数据集在对应分片数据中的出现频率；并将每一组分片数据对应的数据集项数为n的候选项集汇总为全局n项候选项集；将全局n项候选项集发送至频繁项集子单元；

所述频繁项集子单元用于根据支持度对全局n项候选项集中的各数据集进行比较，并在全局n项候选项集中剔除支持度最小的数据集，获得全局n项频繁项集；判断根据全局n项频繁项集中的各项数据能否建立数据集项数为n+1的候选项集；如可以，则根据全局n项频繁项集中的各项数据进行n+1项全组合，建立数据集项数为n+1的候选项集，且将数据集项数n赋值为n+1，将候选项集发送至候选项集子单元；如不可以，根据全局n项频繁项集中的各项数据集输出数据集对应各数据间的关联关系；所述不可以建立的条件为全局n项频繁项集中只有一组n项数据集，或者全局n项频繁项集中的各项数据进行n+1项全组合得到的各数据集的支持度均为0；其中， n≥1，且n为整数；

所述算法模块与数据仓库在中心服务器集群内通过网络连接；

所述数据仓库用于存储数据处理模块处理后的业务数据；

所述多个远端服务器用于存储对应分支机构的业务数据。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一项所述方法的步骤。

7.一种电子设备，其特征在于，包括：权利要求6中所述的计算机可读存储介质；以及一个或多个处理器，用于执行所述计算机可读存储介质中的程序。