CN106294805A

CN106294805A - 数据处理方法及装置

Info

Publication number: CN106294805A
Application number: CN201610671912.0A
Authority: CN
Inventors: 李存昌; 蒋松
Original assignee: Chengdu Jiuding Credit Suisse Polytron Technologies Inc
Current assignee: Chengdu Jiuding Credit Suisse Polytron Technologies Inc
Priority date: 2016-08-15
Filing date: 2016-08-15
Publication date: 2017-01-04

Abstract

本发明实施例提供一种数据处理方法及装置，所述方法包括：获取输入数据，所述数据包括结构化数据、半结构化数据或者非结构化数据；若输入数据为结构化数据或半结构化数据，采用HDFS分布式文件系统进行存储并进行数据建模；若输入数据为非结构化数据，则采用mooseFS分布式文件系统进行存储。所述方法解决了在Hadoop中的HDFS无法很有效的处理大量的小文件和Hadoop的MapReduce处理小文件会产生极大的资源浪费问题。

Description

数据处理方法及装置

技术领域

本发明涉及计算机应用领域，具体而言，涉及一种数据处理方法及装置。

背景技术

一直以来，在企业领域中，信息化的应用越来越广泛，但在企业后勤管理中，信息化发挥的作用并不显著。但是随着云计算、大数据等信息技术的应用越来越广泛，在企业后勤管理中，信息化能够起到超乎我们想象的作用。如通过企业后勤大数据平台分析人物储备，公司组织架构健全性，公司文化建设，员工心理测评、企业舆情分析、企业内部资源整合分析等。

企业后勤数据中心大多使用Hadoop中的HDFS进行分布式文件存储，并使用Hadoop的MapReduce处理小文件，但是企业后勤数据中心中包括很多非结构化文件，而这些文件中会产生小于64兆的小文件，但是，在Hadoop中的HDFS无法很有效的处理大量的小文件和Hadoop的MapReduce处理小文件会产生极大的资源浪费问题。

发明内容

有鉴于此，本发明实施例的目的在于提供一种数据处理方法及装置，以解决上述问题。

第一方面，本发明实施例提供一种数据处理方法，所述方法包括：获取输入数据，所述数据包括结构化数据、半结构化数据或者非结构化数据；若输入数据为结构化数据或半结构化数据，采用HDFS分布式文件系统进行存储并进行数据建模；若输入数据为非结构化数据，则采用mooseFS分布式文件系统进行存储。

第二方面，本发明实施例提供一种数据处理装置，所述装置包括：获取模块，用于获取输入数据，所述数据包括结构化数据、半结构化数据或者非结构化数据；第一处理模块，用于若输入数据为结构化数据或半结构化数据，采用HDFS分布式文件系统进行存储并进行数据建模；第二处理模块，用于若输入数据为非结构化数据，则采用mooseFS分布式文件系统进行存储。

与现有技术相比，本发明实施例提供的一种数据处理方法及装置，服务器通过判断输入数据的类型，对不同类型的数据采用不同的分布式文件系统进行存储和处理，若为结构化数据或半结构化数据，则采用HDFS分布式文件系统进行存储并进行数据建模，若为非结构化数据，则采用mooseFS分布式文件系统进行存储。这种方式对结构化数据、半结构化数据和非结构化数据进行双线处理，使得非结构化文件中产生的小文件能够被mooseFS分布式文件系统存储和处理，解决了在Hadoop中的HDFS无法很有效的处理大量的小文件和Hadoop的MapReduce处理小文件会产生极大的资源浪费问题。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例提供的一种服务器与用户终端交互的示意图。

图2是本发明实施例提供的服务器的方框示意图。

图3是本发明实施例提供的一种数据处理方法的流程图。

图4是本发明实施例提供的服务器预先搭建的分布式架构示意图。

图5是本发明实施例提供的一种数据处理方法中步骤S320的详细流程图。

图6是本发明实施例提供的一种一种数据处理方法的部分流程图。

图7是本发明实施例提供的一种数据处理装置的功能模块示意图。

图8是本发明实施例提供的一种数据处理装置中第一处理模块的功能模块示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性或时间先后。

如图1所示，是本发明实施例提供的服务器200分别与用户终端100进行交互的示意图。所述服务器200通过网络300与一个或多个用户终端100进行数据通信，以进行数据通信或交互。所述服务器200可以是分布式文件存储服务器、网络服务端、数据库服务端等。所述用户终端100可以是个人电脑(personal computer，PC)、平板电脑、智能手机等。

于本发明实施例中，所述服务器200的功能可以由一个或多个子服务器共同实现。例如，所述服务器200可以分为第一子服务器和第二子服务器。第一子服务器中运行HDFS分布式文件系统，对获取的输入数据进行存储和建模，第二子服务器中运行mooseFS分布式文件系统，对获取的输入数据进行存储。

如图2所示，是所述服务器200的方框示意图。所述服务器200包括数据处理装置210、存储器220、存储控制器230、处理器240。

所述存储器220、存储控制器230、处理器240各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述数据处理装置210包括至少一个可以软件或固件(firmware)的形式存储于所述存储器中或固化在所述服务端200的操作系统(operating system，OS)中的软件功能模块。所述处理器240用于执行存储器220中存储的可执行模块，例如所述数据处理装置210包括的软件功能模块或计算机程序。

其中，存储器220可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read－Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read－Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read－Only Memory，EEPROM)等。其中，存储器220用于存储程序，所述处理器240在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流过程定义的服务端所执行的方法可以应用于处理器中，或者由处理器实现。

处理器240可能是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(NetworkProcessor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

可以理解，图2所示的结构仅为示意，服务器200还可包括比图2中所示更多或者更少的组件，或者具有与图2所示不同的配置。图2中所示的各组件可以采用硬件、软件或其组合实现。

图3示出了本发明实施例提供的数据处理方法的流程图，请参阅图3，本实施例描述的是服务器的处理流程，所述方法包括：

步骤S310，获取输入数据，所述数据包括结构化数据、半结构化数据或者非结构化数据。

其中，所述结构化数据可以来自RDBMS数据库，例如传统ANSI数据库，如SQLSERVER，MYSQL，ORACLE等，所述半结构化数据可以是XML/JSON格式数据，所述非结构化数据可以是word格式等数据。

请参阅图4，作为一种实施方式，图4示出了服务器预先搭建的分布式架构。

服务器可以预先搭建Hadoop分布式架构以及MooseFS分布式存储架构。其中Hadoop分布式架构中包括Hadoop分布式文件系统(Hadoop Distributed File System，HDFS)以及MapReduce分布式计算框架。并且，Hadoop生态圈中设置HIVE数据仓库、SPARK库以及Mahout数据挖掘库。其中，SPARK库以及Mahout数据挖掘库中均存储有大量的数据挖掘算法。

对于结构化数据或半结构化数据，服务器可以设置Excel Agent以及数据同步服务。

其中，Excel Agent主要用来处理Excel文件上传，它采用了Agent代理模式，用在终端用户，具有跨平台，跨系统，使用灵活，处理数据量大，处理速度快等优点。Excel Agent能部署在Windows、Linux系统中，可以部署在文件服务器、个人电脑中、更可以处理上百兆数据量的单个Excel表，平均处理时间为(10万/S条数据)。

数据同步服务主要用于关系数据库与Hadoop之间的ETL过程。它具有跨平台、跨系统、按周期、定时等特点。它可以部署在服务器、个人电脑平台内，并且处理速度优越，平均处理数据为(5万/S条数据)。其中，ETL，是英文Extract－Transform－Load的缩写，用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。

对于结构化数据或半结构化数据，服务器可以设置Files Agent，Files Agent支持FTP上传协议，并且能实现断点续传功能。

步骤S320，若输入数据为结构化数据或半结构化数据，采用HDFS分布式文件系统进行存储并进行数据建模。

请参阅图4，若输入数据为结构化数据或半结构化数据，可以先进行数据处理，包括数据采集、数据清理、数据转换、数据整合操作。可以将处理过后的数据存放在Hadoop生态圈中的HIVE数据仓库中。

其中，步骤S320的实施方式有多种，下面简单介绍一种，但是可以理解的是，并不局限于此。

请参阅图5，步骤S320可以包括：

步骤S321，将所述输入数据存储在所述HDFS分布式文件系统的不同存储区域。

步骤S322，对不同存储区域的数据，采用不同的挖掘算法进行建模。

作为一种实施方式，服务器可以对第一存储区域的数据，选取SPARK库中挖掘算法进行建模；对第二存储区域的数据，进行多维建模。

请参阅图4，服务器可以将存储区域分为数据模型区域对应的第一储存区域以及多维分析区域对应的第二存储区域。对第一存储区域的数据，选取SPARK库中挖掘算法进行建模；对第二存储区域的数据，进行多维建模。

SPARK库中储存了大量的数据挖掘算法，包括预判挖掘、聚类挖掘等等挖掘算法。服务器可以将存放在Hadoop生态圈中的HIVE数据仓库的数据，选取SPARK库中的挖掘算法进行建模分析，将分析得到结果存放在Hbase数据库中，方便用户实时查询和使用。进一步的，当服务器获取到新的输入数据时，可以将新的输入数据和历史数据的分析结果进行整合后，再次调用SPARK库中的挖掘算法进行建模分析。

服务器可以采用MOLAP(Multidimension OLAP)中的算法进行多维建模。多维建模将传统的二维表演练成星型模型，并放入Hbase数据库中。多维分析是用来快速视图呈现的，它与传统的查询报表很相像，不过比查询报表好的是支持海量数据。

步骤S323，将建立的模型进行存储。

步骤S330，若输入数据为非结构化数据，则采用mooseFS分布式文件系统进行存储。

请参阅图4，非结构化数据通过Files Agent进入MooseFS分布式文件系统。服务器可以设置Kafka分布式发布订阅消息系统，当数据存储进MooseFS分布式文件系统后，Kafka分布式发布订阅消息系统可以通知MooseFS分布式文件系统进行格式转换，例如建立索引等。

当用户终端需要进行文件下载，可以通过用户终端的web应用系统提发送下载请求请求到Nginx+Lua文件服务器，Nginx+Lua会直接将请求需要下载的文件在mooseFS中调出，并转换下载。其优势就是速度快，可支持每天上亿次请求。它让CPU、内存运行开销低、并发服务能力强等优势。当用户终端需要进行文件预览，可以通过用户终端的web应用系统提发送预览请求请求到Openoffice，Openoffice提供了文件在线阅读功能，支持word、excel、ppt、pdf等多种文件格式的文件查阅功能。

请参阅图6，在步骤S330之后，所述方法还可以包括：

步骤S331，接收用户终端发送的搜索请求。

用户终端可以通过ES搜索(ElasticSearch搜索)引擎发送搜索请求，ES搜索引擎稳定可靠、快速、而且具有良好的水平扩展能力。专门为分布式环境设计。

步骤S332，根据所述搜索请求，从所述mooseFS分布式文件系统中查找对应的数据。

步骤S333，将所述数据进行解析并将解析后的数据返回给用户终端。

服务器可以调用文件解析程序将所述数据进行解析，作为一种实施方法，服务器也可以采用kafka系统将所述数据进行异步解析，并将解析后的数据返回给用户终端。

本发明实施例提供的数据处理方法，服务器通过判断输入数据的类型，对不同类型的数据采用不同的分布式文件系统进行存储和处理，若为结构化数据或半结构化数据，则采用HDFS分布式文件系统进行存储并进行数据建模，若为非结构化数据，则采用mooseFS分布式文件系统进行存储。这种方式对结构化数据、半结构化数据和非结构化数据进行双线处理，使得非结构化文件中产生的小文件能够被mooseFS分布式文件系统存储和处理，解决了在Hadoop中的HDFS无法很有效的处理大量的小文件和Hadoop的MapReduce处理小文件会产生极大的资源浪费问题。

请参阅图7，是本发明实施例提供的图2所示的数据处理装置210的功能模块示意图。所述数据处理装置210运行于所述服务器200。所述数据处理装置210包括获取模块211，第一处理模块212，第二处理模块213。

所述获取模块211，用于获取输入数据，所述数据包括结构化数据、半结构化数据或者非结构化数据。

所述第一处理模块212，用于若输入数据为结构化数据或半结构化数据，采用HDFS分布式文件系统进行存储并进行数据建模。

所述第二处理模块213，用于若输入数据为非结构化数据，则采用mooseFS分布式文件系统进行存储。

请参阅图8，图8示出了本发明实施例提供的数据处理装置210中的第一处理模块212的功能模块示意图。所述第一处理模块212包括第一存储模块2121，建模模块2122以及第二存储模块2123。

所述第一存储模块2121，用于将所述输入数据存储在所述HDFS分布式文件系统的不同存储区域。

所述建模模块2122，用于对不同存储区域的数据，采用不同的挖掘算法进行建模。

优选的，所述建模模块2122，具体用于对第一存储区域的数据，选取SPARK库中挖掘算法进行建模；对第二存储区域的数据，进行多维建模。

所述第二存储模块2123，用于将建立的模型进行存储。

优选的，所述数据处理装置210还可以包括接收模块214，查找模块215以及返回模块216。

所述接收模块214，用于接收用户终端发送的搜索请求。

所述查找模块215，用于根据所述搜索请求，从所述mooseFS分布式文件系统中查找对应的数据。

所述返回模块216，用于将所述数据进行解析并将解析后的数据返回给用户终端。

优选的，所述返回模块216具体用于采用kafka系统将所述数据进行异步解析，并将解析后的数据返回给用户终端。

以上各模块可以是由软件代码实现，此时，上述的各模块可存储于服务器200的存储器220内。以上各模块同样可以由硬件例如集成电路芯片实现。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本发明实施例所提供的数据处理装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read－Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取输入数据，所述数据包括结构化数据、半结构化数据或者非结构化数据；

若输入数据为结构化数据或半结构化数据，采用HDFS分布式文件系统进行存储并进行数据建模；

若输入数据为非结构化数据，则采用mooseFS分布式文件系统进行存储。

2.根据权利要求1所述的方法，其特征在于，所述若输入数据为结构化数据或半结构化数据，采用HDFS分布式文件系统进行存储并进行数据建模，包括：

将所述输入数据存储在所述HDFS分布式文件系统的不同存储区域；

对不同存储区域的数据，采用不同的挖掘算法进行建模；

将建立的模型进行存储。

3.根据权利要求2所述的方法，其特征在于，对不同存储区域的数据，采用不同的挖掘算法进行挖掘，包括：

对第一存储区域的数据，选取SPARK库中挖掘算法进行建模；

对第二存储区域的数据，进行多维建模。

4.根据权利要求1所述的方法，其特征在于，在所述若输入数据为非结构化数据，则采用mooseFS分布式文件系统进行存储之后，所述方法还包括：

接收用户终端发送的搜索请求；

根据所述搜索请求，从所述mooseFS分布式文件系统中查找对应的数据；

将所述数据进行解析并将解析后的数据返回给用户终端。

5.根据权利要求4所述的方法，其特征在于，所述将所述数据进行解析并将解析后的数据返回给用户终端，包括：

采用kafka系统将所述数据进行异步解析，并将解析后的数据返回给用户终端。

6.一种数据处理装置，其特征在于，所述装置包括：

获取模块，用于获取输入数据，所述数据包括结构化数据、半结构化数据或者非结构化数据；

第一处理模块，用于若输入数据为结构化数据或半结构化数据，采用HDFS分布式文件系统进行存储并进行数据建模；

第二处理模块，用于若输入数据为非结构化数据，则采用mooseFS分布式文件系统进行存储。

7.根据权利要求6所述的装置，其特征在于，第一处理模块包括第一存储模块，建模模块以及第二存储模块，

所述第一存储模块，用于将所述输入数据存储在所述HDFS分布式文件系统的不同存储区域；

所述建模模块，用于对不同存储区域的数据，采用不同的挖掘算法进行建模；

所述第二存储模块，用于将建立的模型进行存储。

8.根据权利要求7所述的装置，其特征在于，所述建模模块，具体用于对第一存储区域的数据，选取SPARK库中挖掘算法进行建模；对第二存储区域的数据，进行多维建模。

9.根据权利要求6所述的装置，其特征在于，所述装置还包括接收模块，查找模块以及返回模块，

所述接收模块，用于接收用户终端发送的搜索请求；

所述查找模块，用于根据所述搜索请求，从所述mooseFS分布式文件系统中查找对应的数据；

所述返回模块，用于将所述数据进行解析并将解析后的数据返回给用户终端。

10.根据权利要求9所述的装置，其特征在于，所述返回模块具体用于采用kafka系统将所述数据进行异步解析，并将解析后的数据返回给用户终端。