CN107357905A

CN107357905A - 一种数据处理方法及装置

Info

Publication number: CN107357905A
Application number: CN201710576218.5A
Authority: CN
Inventors: 杨吉东
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2017-07-14
Filing date: 2017-07-14
Publication date: 2017-11-17

Abstract

本发明公开了一种数据处理方法，该方法通过从分布式数据库中读取待处理数据；根据待处理数据，建立数据分析模型；基于数据分析模型，运用分布式计算框架处理待处理数据，得出数据分析结果；将数据分析结果存储至MySQL分布式集群。通过分布式处理框架，高效并行处理大数据；利用MySQL分布式集群存储结果，使得数据处理高效、并发且安全可靠，满足大数据处理需求。此外，本发明还公开了一种数据处理装置，与上述方法有一一对应优点。

Description

一种数据处理方法及装置

技术领域

本发明涉及大数据技术领域，特别涉及一种数据处理方法及装置。

背景技术

随着信息技术以及计算机应用的蓬勃发展，行业应用系统的规模也得以极速拓展，产生了海量数据。

动辄数百TB乃至PB规模的行业大数据已经远远超出了现有传统计算机技术和信息系统的处理能力。大数据的数据规模巨大、数据流转高速、数据类型多样性和价值密度较低的特征，以及大数据结构的无序性、非关系型等特点使得传统的数据处理方法无法满足处理要求。

发明内容

本发明的目的是提供一种数据处理方法及装置，目的在于解决现有数据处理方法无法满足大数据的处理要求的问题

为解决上述技术问题，本发明提供一种数据处理方法，该方法包括：

从分布式数据库中读取待处理数据；

根据所述待处理数据，建立数据分析模型；

基于所述数据分析模型，运用分布式计算框架处理所述待处理数据，得出数据分析结果；

将所述数据分析结果存储至MySQL分布式集群。

可选地，在所述将所述数据分析结果存储至MySQL分布式集群之后还包括：

从所述MySQL分布式集群中读取并展示所述数据分析结果。

可选地，所述将所述数据分析结果存储至MySQL分布式集群包括：

当存储空间不足时，动态增加MySQL分布式存储节点；

将所述数据分析结果存储至新增MySQL分布式存储节点。

此外，本发明还提供了一种数据处理装置，该装置包括：

读取模块，用于从分布式数据库中读取待处理数据；

模型建立模块，用于根据所述待处理数据，建立数据分析模型；

分布式处理模块，用于基于所述数据分析模型，运用分布式计算框架处理所述待处理数据，得出数据分析结果；

分布式存储模块，用于将所述数据分析结果存储至MySQL分布式集群。

可选地，还包括：

展示模块，用于从所述MySQL分布式集群中读取并展示所述数据分析结果。

可选地，所述分布式存储模块包括：

节点动态增减单元，用于当存储空间不足时，动态增加MySQL分布式存储节点；

存储单元，用于将所述数据分析结果存储至新增MySQL分布式存储节点。

本发明所提供的一种数据处理方法及装置，从分布式数据库中读取待处理数据；根据待处理数据，建立数据分析模型；基于数据分析模型，运用分布式计算框架处理待处理数据，得出数据分析结果；将数据分析结果存储至MySQL分布式集群。本申请通过分布式处理框架，高效并行处理大数据；利用MySQL分布式集群存储结果，使得数据处理高效、并发且安全可靠，满足大数据处理需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的数据处理方法的一种具体实施方式的流程示意图；

图2为本发明实施例提供的MySQL集群架构图；

图3为本发明实施例提供的数据处理的另一流程示意图；

图4为本发明实施例提供的数据处理装置的结构示意框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明实施例提供的数据处理方法的一种具体实施方式的流程示意图，该方法包括以下步骤：

步骤101：从分布式数据库中读取待处理数据。

可以理解，上述待处理数据可以是存储在分布式数据库中的数据，具体可以从相关领域的服务器中收集后存储至该分布式数据库。

步骤102：根据所述待处理数据，建立数据分析模型。

步骤103：基于所述数据分析模型，运用分布式计算框架处理所述待处理数据，得出数据分析结果。

上述数据分析结果可以具体为对大数据分析得出的规律，该规律可以指导优化相应领域的业务。

上述分布式计算框架的具体类型可以根据需求进行选取，在此不作限定。

步骤104：将所述数据分析结果存储至MySQL分布式集群。

MySQL分布式集群具有高效、安全并发等特性，其具体由一组计算机构成，其每台计算机上均运行着多种进程，其中包括MySQL服务器(mysqld)、NDB Cluster的数据节点(ndbd)、管理服务器(mgmd)等，具体架构可以参见图2，图2为本发明实施例提供的MySQL集群架构图。

如图2所示，MySQL集群由管理层Management、存储层Storage、服务器层SQL、应用程序层Applications。每个MySQL Server上有多个或一个所需的Application，NDBCluster中有多个ndbd节点。

将数据分析结果存储至MySQL分布式集群可以便于数据的高效展示，即利用MySQL的并发高效特性，使得展示也十分高效。故在本发明的一些实施例中，在上述将所述数据分析结果存储至MySQL分布式集群之后还可以包括：从所述MySQL分布式集群中读取并展示所述数据分析结果。

为适应大数据的大规模读写请求，MySQL分布式集群可以动态增减存储节点，以实现存储容量的线性扩展。

在本发明的一些实施例中，上述将所述数据分析结果存储至MySQL分布式集群的过程可以具体为：当存储空间不足时，动态增加MySQL分布式存储节点；将所述数据分析结果存储至新增MySQL分布式存储节点。

当然，在存储空间有剩余时，也可以相应减少存储节点，避免资源的浪费。

为更好地介绍本实施例提供的数据处理流程，下面将结合图3进行介绍，图3为本发明实施例提供的数据处理的另一流程示意图。

如图3所示，基于分布数据库的数据Data建立数据分析模型，且分布式处理从分布式数据库读取的数据，接着将数据分析结果存储至MySQL Cluster节点上，且可以高效地从其读取数据分析结果进行展示。

本实施例所提供的数据处理方法，通过从分布式数据库中读取待处理数据；根据待处理数据，建立数据分析模型；基于数据分析模型，运用分布式计算框架处理待处理数据，得出数据分析结果；将数据分析结果存储至MySQL分布式集群。通过分布式处理框架，高效并行处理大数据；利用MySQL分布式集群存储结果，使得数据处理高效、并发且安全可靠，满足大数据处理需求。

下面对本发明实施例提供的一种数据处理装置进行介绍，下文描述的一种数据处理装置与上文描述的一种数据处理方法可相互对应参照。

请参考图4，图4为本发明实施例提供的数据处理装置的结构示意框图，该装置包括：

读取模块41，用于从分布式数据库中读取待处理数据；

模型建立模块42，用于根据所述待处理数据，建立数据分析模型；

分布式处理模块43，用于基于所述数据分析模型，运用分布式计算框架处理所述待处理数据，得出数据分析结果；

分布式存储模块44，用于将所述数据分析结果存储至MySQL分布式集群。

在本发明的一些实施例中，上述装置还可以包括：

在本发明的一些实施例中，上述分布式存储模块可以包括：

本实施例所提供的数据处理装置，通过分布式处理框架，高效并行处理大数据；利用MySQL分布式集群存储结果，使得数据处理高效、并发且安全可靠，满足大数据处理需求。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的数据处理方法及装置进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种数据处理方法，其特征在于，包括：

从分布式数据库中读取待处理数据；

根据所述待处理数据，建立数据分析模型；

将所述数据分析结果存储至MySQL分布式集群。

2.如权利要求1所述的数据处理方法，其特征在于，在所述将所述数据分析结果存储至MySQL分布式集群之后还包括：

从所述MySQL分布式集群中读取并展示所述数据分析结果。

3.如权利要求1或2所述的数据处理方法，其特征在于，所述将所述数据分析结果存储至MySQL分布式集群包括：

当存储空间不足时，动态增加MySQL分布式存储节点；

将所述数据分析结果存储至新增MySQL分布式存储节点。

4.一种数据处理装置，其特征在于，包括：

读取模块，用于从分布式数据库中读取待处理数据；

5.如权利要求4所述的数据处理装置，其特征在于，还包括：

6.如权利要求4或5所述的数据处理装置，其特征在于，所述分布式存储模块包括：