CN106354876A

CN106354876A - 一种数据处理系统和方法

Info

Publication number: CN106354876A
Application number: CN201610842362.4A
Authority: CN
Inventors: 林建中; 刘静楠; 臧俞淞
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2016-09-22
Filing date: 2016-09-22
Publication date: 2017-01-25

Abstract

本发明公开了一种数据处理系统和方法，涉及数据处理技术领域，其中的系统包括：原数据存储装置、数据分析装置和目标数据存储装置；原数据存储装置存储从数据源采集的原数据；数据分析装置对原数据存储装置存储的原数据进行分析，并从原数据中筛选出目标数据，将目标数据存储在目标数据存储装置中。本发明的数据处理系统和方法，能够预先筛选出所需的目标数据，并在进行数据分析或展示时可以直接使用目标数据，提升了数据处理的效率，降低了数据处理的复杂度，并能够节省系统资源；并且，采用了基于HDFS和MapReduce的Hadoop集群架构可以提升对大数据量的处理效率，并可以简化数据一致性的问题。

Description

一种数据处理系统和方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据处理系统和方法。

背景技术

随着科学技术的不断发展，海量数据的时代已经到来。例如，格力每台大型中央空调每天都能够记录近3万条监控数据，一个机组每年的监控数据加起来将是一个庞大的数值。利用这些监控数据进行定量分析，对于提高产品设计、改进工艺方法等非常重要，例如，通过获取机组的故障信息，对故障信息进行分析，能够确定引起机组故障因素，对于产品质量的提高非常有益。但是，对于如此庞大的数据信息量，如果不进行有效地分析、处理，则数据信息基本无法直接利用。目前，通常采用将数据信息直接存储在服务器上的数据库中，通过对数据库进行查询等操作，获取需要的数据信息。但是，由于数据库存储的数据信息非常多，采用通常的查询方式，服务器需要占用大量的资源并且运行缓慢，每次执行都需要重复等待，并且在服务器运行中容易出现故障。

发明内容

有鉴于此，本发明要解决的一个技术问题是提供一种数据处理系统和方法，能够筛选出所需的目标数据，以使在后续的应用中可以直接使用目标数据。

根据本发明的一个方面，提供一种数据处理系统，包括：原数据存储装置、数据分析装置和目标数据存储装置；原数据存储装置存储从数据源采集的原数据；所述数据分析装置对所述原数据存储装置存储的原数据进行分析，并从所述原数据中筛选出目标数据，将所述目标数据存储在所述目标数据存储装置中。

可选地，所述原数据存储装置包括：Hadoop分布式文件系统HDFS系统。

可选地，所述HDFS系统包括：主服务器和数据服务器；所述主服务器和所述数据服务器采用主从模式组成服务器集群；其中，所述原数据为数据文件，所述数据文件存储在所述数据服务器中，所述主服务器存储所述数据文件与所述数据服务器的映射关系。

可选地，所述HDFS系统包括：备份服务器；所述备份服务器与所述主服务器连接，用于备份所述映射关系。

可选地，所述数据分析装置包括：分析运算模块，用于基于MapReduce模式在所述服务器集群中进行分布式运算，根据预设的筛选规则从所述原数据中筛选出所述目标数据。

可选地，所述目标数据存储装置包括：接口服务器；其中，所述数据分析装置将所述目标数据存储在位于所述接口服务器上的数据库中；客户端向所述接口服务器发送数据处理指令，并获取所述接口服务器返回的所述目标数据。

可选地，还包括：报表服务器；所述报表服务器与所述接口服务器连接；所述报表服务器接收到所述客户端发送的数据处理指令，将所述数据处理指令发送到所述接口服务器，并将所述接口服务器返回的所述目标数据转换为报表格式后发送到所述客户端。

可选地，还包括：数据采集装置；所述数据采集装置周期性地从多个数据源中获取所述原数据，并将所述原数据发送到所述原数据存储装置。

根据本发明的另一方面，提供一种数据处理方法，包括：从数据源中采集原数据，并将所述原数据存储在原数据存储装置中；对所述原数据存储装置存储的原数据进行分析，并从所述原数据中筛选出目标数据；将所述目标数据存储在目标数据存储装置中。

可选地，所述原数据存储装置包括：HDFS系统，所述原数据为数据文件，所述方法包括：将所述数据文件存储在所述HDFS系统中。

可选地，所述HDFS系统包括：主服务器和数据服务器，所述方法包括：将所述数据文件存储在所述数据服务器中，在所述主服务器存储所述数据文件与所述数据服务器的映射关系；其中，所述主服务器和所述数据服务器采用主从模式组成服务器集群。

可选地，所述HDFS系统包括：备份服务器，所述方法还包括：所述主服务器将所述映射关系发送到所述备份服务器进行备份。

可选地，基于MapReduce模式在所述服务器集群中进行分布式计算，根据预设的筛选规则从所述原数据中筛选出所述目标数据。

可选地，所述目标数据存储装置包括：接口服务器，所述方法包括：将所述目标数据存储在位于所述接口服务器上的数据库中；客户端向所述接口服务器发送数据处理指令，并获取所述接口服务器返回的所述目标数据。

可选地，报表服务器接收到所述客户端发送的数据处理指令，将所述数据处理指令发送到所述接口服务器；所述报表服务器将所述接口服务器返回的所述目标数据转换为报表格式后发送到所述客户端。

可选地，周期性地从多个数据源中获取所述原数据，并将所述原数据发送到所述原数据存储装置；其中，所述原数据包括：装机分布、机组销售分析、机组运行状况数据。

本发明的数据处理系统和方法，能够筛选出所需的目标数据，并在进行数据分析或展示等后续的应用中可以直接使用目标数据，提升了数据处理的效率，降低了数据处理的复杂度，并且，采用了基于HDFS和MapReduce的Hadoop集群架构可以提升对大数据量的处理效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明的数据处理系统的一个实施例的模块示意图；

图2为根据本发明的数据处理系统的另一个实施例的模块示意图；

图3为根据本发明的数据处理系统的又一个实施例的示意图；

图4为根据本发明的数据处理方法的一个实施例的流程示意图。

具体实施方式

下面参照附图对本发明进行更全面的描述，其中说明本发明的示例性实施例。下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。下面结合各个图和实施例对本发明的技术方案进行多方面的描述。

如图1所示，本发明提供一种数据处理系统，包括：原数据存储装置11、数据分析装置12和目标数据存储装置13。原数据存储装置11存储从数据源采集的原数据。数据分析装置12对原数据存储装置存储的原数据进行分析，并从原数据中筛选出目标数据，将目标数据存储在目标数据存储装置13中。

本发明中的原数据是指从数据源获取的数据，包括装机分布、机组销售分析、机组运行监控信息等数据。数据源是指机组中的数据库服务器、销售系统中的数据库服务器等。例如，机组运行状态通过分布式存放到多个不同的数据库服务器中，数据库的类型为Mysql或SQLServer等。目标数据是指需要筛选出的数据，例如，机组运行监控信息中的机组故障数据等。目标数据存储装置13中存储有机组故障数据，在进行故障分析时，可以访问目标数据存储装置13获取机组故障数据，直接使用机组故障数据进行分析。

上述实施例中的数据处理系统，能够预先筛选出所需的目标数据，并在进行数据分析或展示时可以直接使用目标数据，提升了数据处理的效率，降低了数据处理的复杂度，并能够节省系统资源。

在一个实施例中，如图2所示，数据采集装置24周期性地从多个数据源中获取原数据，并将原数据发送到原数据存储装置。原数据存储装置可以为多种存储装置，例如，原数据存储装置包括：Hadoop分布式文件系统HDFS系统21。Hadoop是Apache的一个开源分布式计算平台，在海量数据处理上具有的高效、高容错、高扩展和高可靠性以及开源的特点。HDFS(Hadoop Distributed File System)是一个分布式文件系统。HDFS系统有着高容错性的特点，并且设计用来部署在低廉的硬件上。

数据采集装置24从多个数据源中获取原数据并生成数据文件，使用API或命令将数据文件存入HDFS系统21，由HDFS系统21在多个普通硬件资源的节点上分布式存储。数据分析装置12包括：分析运算模块22，分析运算模块22基于MapReduce模式在HDFS系统21中进行分布式运算，根据预设的筛选规则从原数据中筛选出目标数据，筛选规则可以为筛选出机组主机运行故障数据等。分析运算模块22将目标数据存储在位于接口服务器23上的数据库中，用户通过客户端向接口服务器23发送数据处理指令，例如查询指令等，获取接口服务器23返回的目标数据。

在一个实施例中，如图3所示，HDFS系统包括：主服务器312和数据服务器313，314，315，主服务器312和数据服务器313，314，315采用主从模式组成服务器集群。HDFS系统采用分布式集群模式，可以根据需求搭建集群数量。原数据为数据文件，存储在数据服务器313，314，315中，主服务器312存储数据文件与数据服务器的映射关系。映射关系可以为数据文件与数据服务器的映射表等，在映射表中设有数据文件与映射表的对应关系，例如，数据文件1存储在数据服务器313上，则主服务器312存储数据文件1与数据服务器313的映射关系。

主服务器312管理文件系统的命名空间和客户端对文件的访问操作，集群中的数据服务器313，314，315管理存储的数据，HDFS系统可以以文件的形式存储原数据，多个文件可以分别存放在数据服务器313，314，315上。HDFS系统对文件采用“一次性写，多次读”的访问模型。主服务器312执行操作，如打开、关闭、重命名文件等，也提供文件到数据服务器313，314，315的映射。数据服务器313，314，315负责处理文件系统客户端的文件读写请求，并在主服务器312的统一调度下进行数据文件的创建、删除和复制。

HDFS系统包括：备份服务器311。备份服务器311与主服务器312连接，用于备份主服务器312上存储的映射关系，也可以作为主服务器312的镜像服务器。在数据服务器313，314，315上可以对各自存储的文件进行备份。

数据分析装置12，以及分析运算模块22能够实现MapReduce的分布式运算功能，数据分析装置12，以及分析运算模块22可以部署在HDFS系统中，也可以部署在独立的服务器中，路由器或交换机324连接不同的系统或服务器。MapReduce是Google提出的一个软件架构，用于大规模数据集的并行运算。MapReduce提供开发并行应用程序，在集群上实现分布式计算和并行任务处理，HDFS系统在MapReduce任务处理过程中提供了文件操作和存储等支持。

例如，MapReduce软件实现需要自定义map函数、reduce函数，Hadoop可以将数据文件分割成一个多个(key1，value1)对，然后将(key1，value1)集合传递给map函数作输入处理，map函数根据输入(key1，value1)，形成中间数据(key2，value2)并在节点间进行交换。在map过程完成之后，Hadoop将生成的中间数据(key2，value2)按照Key2进行分组(sort)，形成<Key2,list(Value2)>,之后传递给reduce函数，将自己的输出写入到结果文件中。

分析运算模块22通过MapReduce程序对源数据进行分析处理。在需要获取机组发生的故障情况，按传统情况下，需要从多个数据源中各自查询，而且每个数据源的数据量可能上百亿或者上千亿。采用MapReduce程序对数据进行分析处理优化，首先对数据进行删减，从HDFS系统上获取到原数据，将状态正常的数据排出在外，并将处理后的目标数据，即故障数据，存储在位于接口服务器23上的数据库或数据表中，数据库或数据表只存储故障数据。

用户查询故障情况的时候，只需要从对应的数据库或数据表中取出故障数据。由于故障信息减少，可以避免在处理数据时将不发生故障的数据也进行扫描。对源数据进行预处理，把源数据放到集群上，通过集群的运算能力，结合需求，可以把大数据优化为极小量数据。并且，运算后的数据时存放起来的，下次进行同样操作时，不必再经过同样的处理。

当有调用请求时，通过接口服务器23获取数据。客户端321、322、323向接口服务器23发送数据处理指令，例如，查询故障数据等，客户端321、322、323获取接口服务器返回的目标数据。可以设置报表服务器320，报表服务器320可以为BI(Business Intelligence)服务器，报表服务器320与接口服务器23连接，报表服务器320接收到客户端321、322、323发送的数据处理指令，将数据处理指令发送到接口服务器23，并将接口服务器23返回的目标数据转换为报表格式后发送到客户端321、322、323。

原数据可以采用分布式的存储方式。例如，机组数据可以通过分布式的方式存放到多个数据库服务器316，317，318中，数据库服务器316，317，318为数据源。数据采集装置根据需要把数据源上的所有信息导入到HDFS系统中，例如，第一次是导入全部的数据，后续可以周期性地导入增量数据。

上述实施例中的数据处理系统，能够预先筛选出所需的目标数据，并在进行数据分析或展示时可以直接使用目标数据，采用了基于HDFS和MapReduce的Hadoop集群架构可以提升对大数据量的处理效率，并可以简化数据一致性的问题。

图4为根据本发明的数据处理方法的一个实施例的流程示意图，如图4所示：

步骤401，从数据源中采集原数据，并将原数据存储在原数据存储装置中。

步骤402，对原数据存储装置存储的原数据进行分析，并从原数据中筛选出目标数据。

步骤403，将目标数据存储在目标数据存储装置中。

在一个实施例中，周期性地从多个数据源中获取原数据，并将原数据发送到原数据存储装置，原数据包括：装机分布、机组销售分析、机组运行状况数据等。原数据存储装置包括：HDFS系统。原数据为数据文件，将数据文件存储在HDFS系统中。HDFS系统包括：主服务器和数据服务器。将数据文件存储在数据服务器中，在主服务器存储数据文件与数据服务器的映射关系。主服务器和数据服务器采用主从模式组成服务器集群，基于MapReduce模式在服务器集群中进行分布式计算，根据预设的筛选规则从原数据中筛选出目标数据。

HDFS系统包括：备份服务器。主服务器将映射关系发送到备份服务器进行备份。目标数据存储装置包括：接口服务器。将目标数据存储在位于接口服务器上的数据库中，客户端向接口服务器发送数据处理指令，并获取接口服务器返回的目标数据。

报表服务器接收到客户端发送的数据处理指令，将数据处理指令发送到接口服务器，报表服务器将接口服务器返回的目标数据转换为报表格式后发送到客户端。

上述实施例中的数据处理系统和方法，能够预先筛选出所需的目标数据，并在进行数据分析或展示时可以直接使用目标数据，提升了数据处理的效率，降低了数据处理的复杂度，并能够节省系统资源；并且，采用了基于HDFS和MapReduce的Hadoop集群架构可以提升对大数据量的处理效率，并可以简化数据一致性的问题。

可能以许多方式来实现本发明的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种数据处理系统，其特征在于，包括：

原数据存储装置、数据分析装置和目标数据存储装置；

所述原数据存储装置存储从数据源采集的原数据；所述数据分析装置对所述原数据存储装置存储的原数据进行分析，并从所述原数据中筛选出目标数据，将所述目标数据存储在所述目标数据存储装置中。

2.如权利要求1所述的系统，其特征在于，

所述原数据存储装置包括：Hadoop分布式文件系统HDFS系统。

3.如权利要求2所述的系统，其特征在于，

所述HDFS系统包括：主服务器和数据服务器；所述主服务器和所述数据服务器采用主从模式组成服务器集群；

其中，所述原数据为数据文件，所述数据文件存储在所述数据服务器中，所述主服务器存储所述数据文件与所述数据服务器的映射关系。

4.如权利要求3所述的系统，其特征在于，

所述HDFS系统包括：备份服务器；所述备份服务器与所述主服务器连接，用于备份所述映射关系。

5.如权利要求3所述的系统，其特征在于，所述数据分析装置包括：

分析运算模块，用于基于MapReduce模式在所述服务器集群中进行分布式运算，根据预设的筛选规则从所述原数据中筛选出所述目标数据。

6.如权利要求1所述的系统，其特征在于，

所述目标数据存储装置包括：接口服务器；

其中，所述数据分析装置将所述目标数据存储在位于所述接口服务器上的数据库中；客户端向所述接口服务器发送数据处理指令，并获取所述接口服务器返回的所述目标数据。

7.如权利要求6所述的系统，其特征在于，还包括：

报表服务器；所述报表服务器与所述接口服务器连接；所述报表服务器接收到所述客户端发送的数据处理指令，将所述数据处理指令发送到所述接口服务器，并将所述接口服务器返回的所述目标数据转换为报表格式后发送到所述客户端。

8.如权利要求1所述的系统，其特征在于，还包括：

数据采集装置；所述数据采集装置周期性地从多个数据源中获取所述原数据，并将所述原数据发送到所述原数据存储装置。

9.一种数据处理方法，其特征在于，包括：

从数据源中采集原数据，并将所述原数据存储在原数据存储装置中；

对所述原数据存储装置存储的原数据进行分析，并从所述原数据中筛选出目标数据；

将所述目标数据存储在目标数据存储装置中。

10.如权利要求9所述的方法，其特征在于，所述原数据存储装置包括：HDFS系统，所述原数据为数据文件，所述方法包括：

将所述数据文件存储在所述HDFS系统中。

11.如权利要求10所述的方法，其特征在于，所述HDFS系统包括：主服务器和数据服务器，所述方法包括：

将所述数据文件存储在所述数据服务器中，在所述主服务器存储所述数据文件与所述数据服务器的映射关系；

其中，所述主服务器和所述数据服务器采用主从模式组成服务器集群。

12.如权利要求11所述的方法，其特征在于，所述HDFS系统包括：备份服务器，所述方法还包括：

所述主服务器将所述映射关系发送到所述备份服务器进行备份。

13.如权利要求11所述的方法，其特征在于，还包括：

基于MapReduce模式在所述服务器集群中进行分布式计算，根据预设的筛选规则从所述原数据中筛选出所述目标数据。

14.如权利要求9所述的方法，其特征在于，所述目标数据存储装置包括：接口服务器，所述方法包括：

将所述目标数据存储在位于所述接口服务器上的数据库中；

客户端向所述接口服务器发送数据处理指令，并获取所述接口服务器返回的所述目标数据。

15.如权利要求14所述的方法，其特征在于，还包括：

报表服务器接收到所述客户端发送的数据处理指令，将所述数据处理指令发送到所述接口服务器；

所述报表服务器将所述接口服务器返回的所述目标数据转换为报表格式后发送到所述客户端。

16.如权利要求9所述的方法，其特征在于，还包括：

周期性地从多个数据源中获取所述原数据，并将所述原数据发送到所述原数据存储装置；

其中，所述原数据包括：装机分布、机组销售分析、机组运行状况数据。