CN106844728A

CN106844728A - 一种基于大数据的非结构化数据压缩处理系统及其方法

Info

Publication number: CN106844728A
Application number: CN201710073558.6A
Authority: CN
Inventors: 王倬遥; 高振国; 杨海雷
Original assignee: Gao Xingwen Network Technology Co Ltd Of Shenzhen
Current assignee: Gao Xingwen Network Technology Co Ltd Of Shenzhen
Priority date: 2017-02-08
Filing date: 2017-02-08
Publication date: 2017-06-13

Abstract

本发明公开了一种基于大数据的非结构化数据压缩处理系统及其方法，系统中数据采集模块、差量缓存模块、ExUDP模块、数据接收模块、时间序列数据库、数据还原模块、数据分析/挖掘接口依次单向数据传输。方法步骤包括：数据流的采集、数据的压缩、数据的存储、数据的还原。本发明在大数据采集生成的非结构型数据的数据量更少，传输所需要的带宽更低，存储所占用的空间更小，既可以满足对带宽与数据数度要求等苛刻的应用场景，又可实现稳定可靠的数据收集、传输与存储。

Description

一种基于大数据的非结构化数据压缩处理系统及其方法

技术领域

本发明涉及大数据处理的数据流采集、传输、存储以及分析领域，特别是一种基于大数据的非结构化数据压缩处理系统及其方法。

背景技术

据IDC的一项调查报告中指出：企业中80％的数据都是非结构化数据，这些数据每年都按指数增长60％。非结构化数据，顾名思义，是存储在文件系统的信息，而不是数据库。据报道指出：平均只有1％-5％的数据是结构化的数据，更多有价值的信息都保存在非结构化数据当中，而传统的数据处理技术无法挖掘出这些数据中所潜藏的价值。为了应对这种挑战，大数据技术应运而生，全球越来越多的企业采用其来对企业在业务运营中所获得的数据进行采集，存储，分析。

大数据环境下的数据分为三类：结构化数据，半结构化数据，非结构化数据。

结构化数据，即行数据，存储在数据库里，可以用二维表结构来逻辑表达实现的数据。传统的数据库系统完全能够满足处理需求。

非结构化数据，即为不方便用数据库二维逻辑表来表现的数据，包括所有格式的办公文档、文本、图片、标准通用标记语言下的子集XML、HTML、各类报表、图像和音频/视频信息等等。

针对于音视频及图片等数据，行业中已经开发出了多种压缩算法来有效地降低采集，存储，处理时所占用的计算存储资源。但是针对于文档，文本等其它类型的非结构化数据，例如企业收集到的用户行为，业务数据报表等高价值数据采用的都是文本或者XML等格式保存，并未有有效的处理方法来节省传输时所消耗的带宽，与存储时所占用的物理存储空间。

所以现在针对文本类非结构化数据的采集，传输，存储系统的现状是：

1.采集时，所有采集节点都将产生的数据都完整地采集下来；

2.传输时，将所有的数据只进行传统的Zip压缩再进行传输，不能最大化节省各个分部式节点间的传输带宽；

3.存储时，若将数据按时间顺序与逻辑关系将数据进行完整的存储，会占用大量的物理存储空间。

因此，在针对文本类非结构化数据处理时，可以在以下几个节点进行优化：

1.按时间高效的对数据进行采集，天然地形成数据流状态；

2.高效率地对数据进行压缩，有效节省传输流数据的带宽；

3.低成本的存储流数据。

发明内容

针对现有技术中存在的问题，本发明提供了一种采集效率高，传输可靠性高，存储成本低，支持进行实时数据挖掘与分析的基于大数据的非结构化数据压缩处理系统及其方法。

本发明的目的通过以下技术方案实现。

一种基于大数据的非结构化数据压缩处理系统，包括数据采集模块、压缩比较模块、差量缓存模块、ExUDP模块和大数据存储分析平台，所述大数据存储分析平台包括数据接收模块、时间序列数据库、数据还原模块、数据分析/挖掘接口，所述数据采集模块、压缩比较模块、差量缓存模块、ExUDP模块、数据接收模块、时间序列数据库、数据还原模块、数据分析/挖掘接口依次单向数据传输。

进一步的，所述数据采集模块用于设定了数据结构体，所述数据采集模块中间包含所有需要监控的变量，所述数据采集模块每间隔一个单位时间ΔT，对每个所监控的变量采样得到当前帧，并与参考帧进行对比，计算出变化变量的差值，将所有的变化变量记录下Key值与变化量。

进一步的，所述差量缓存模块将每个变化量按顺序存储到一块内存空间M中、并记录下每个变化量的存储相对于该内存空间起点的Offset，接着将Offset与Key通过Hash函数做成一一对应的Hash表。

进一步的，所述ExUDP模块在应用层扩展UDP协议，所述ExUDP模块将Offset-KeyHash表及存储空间M通过ExUDP模块发送到大数据存储分析平台上。

进一步的，所述数据接收模块提用于将Offset-Key Hash表及存储空间M转存到时间序列数据库上的接口，所述数据接收模块将数据以帧为单位接收下来、并存储到时间序列数据库中。

进一步的，所述时间序列数据库用于实现按帧为单位的非结构化数据存储。

进一步的，所述数据还原模块以帧为单位从数据库中读取数据、并将其转化为流数据。

一种基于大数据的非结构化数据压缩处理方法，步骤包括：

1)数据流的采集：数据生成结点以固定的速率A样本每秒在生成文本类非结构化数据，数据采集节点分布在各个数据生成结点上进行实时监测，以B样本每秒的采样速率对数据流进行监测采样，当数据以覆盖的形式生成时，B≥A，当数据以追加的形式生成时，B＜A，之后执行步骤2)；

2)数据的压缩：进行数据压缩处理时，以采样到的第一帧数据为基础样本，第二帧数据通过压缩比较模块，与第一帧数据进行比较，得出两帧数据上变化的变量，及相应变量的变化值，同理，在处理第N帧采样数据与第N-1帧采样数据时，比较两帧数据，得到变化值，之后执行步骤3)；

3)数据的存储：变量通过Hash算法，映射到固定内存空间中，将与变量对应的变化差值存储到相应的内存空间中，之后执行步骤4)；

4)数据的还原：进行数据还原时，从存储中取出第一帧数据做为参照系，然后将第二帧的变化变量表与变化量值表取出，将差量解出，叠加回到第一帧数据之上，同理，以还原出的第N-1帧数据为参考，将第N帧变化值叠加回第N-1帧，并将所有的数据按时间先后顺序排列，恢复出数据流。

相比于现有技术，本发明的优点在于：本发明是在充分理解了当今大数据时代的数据特点，专门针对大数据时代非结构性数据在采集，传输，存储上提出的独特的解决方案，使得在依托大数据的数据分析处理平台进入一个资源“轻量级”时代。通过本发明，在具有同等信息量的条件下，大数据采集生成的非结构型数据的数据量更少，传输所需要的带宽更低，存储所占用的空间更小，既可以满足对带宽与数据数度要求等苛刻的应用场景，又可实现稳定可靠的数据收集、传输与存储，还可以通过采用本发明，对数据平台进行优化，疏通平台数据传输通道，改善平台存储结构，实现物理资源的合理分配，有效地降低大数据系统的采集，存储，分析处理成本。

附图说明

图1为本发明的系统结构示意图。

图2为本发明的方法流程图。

具体实施方式

下面结合说明书附图和具体的实施例，对本发明作详细描述。

本发明专门针对当前大数据下的文本信息类的非结构性数据特征，即不方便用数据库二维逻辑表来表现的文本、文档数据，包括所有格式的办公文档、文本、标准通用标记语言下的子集XML、HTML、各类报表等等。

本发明实现实时的数据流采集，在采集时采用本专利提出的非结构化数据压缩处理算法，高效地对非结构化数据流进行压缩，以节约在对数据进行传输时的网络带宽成本与存储时数据所占用的物理资源。

如图1所示，一种基于大数据的非结构化数据压缩处理系统，包括数据采集模块、压缩比较模块、差量缓存模块、ExUDP模块和大数据存储分析平台，所述大数据存储分析平台包括数据接收模块、时间序列数据库、数据还原模块、数据分析/挖掘接口，所述数据采集模块、压缩比较模块、差量缓存模块、ExUDP模块、数据接收模块、时间序列数据库、数据还原模块、数据分析/挖掘接口依次单向数据传输。

所述数据采集模块用于设定了数据结构体，所述数据采集模块中间包含所有需要监控的变量，所述数据采集模块每间隔一个单位时间ΔT，对每个所监控的变量采样得到当前帧，并与参考帧进行对比，计算出变化变量的差值，将所有的变化变量记录下Key值与变化量，如此便不需要将所有的变量。

所述差量缓存模块将每个变化量按顺序存储到一块内存空间M中，以压缩存储信息所需要的内存空间，并记录下每个变化量的存储相对于该内存空间起点的Offset，接着将Offset与Key通过Hash函数做成一一对应的Hash表，以提高还原数据时的效率。传输数据时，需要将Hash表与存储块一同通过网络进行传输。

所述ExUDP模块在应用层扩展UDP协议，达到简单的可靠传输目标。所述ExUDP模块将Offset-Key Hash表及存储空间M通过ExUDP模块发送到大数据存储分析平台上，可大量减少传输所需要的带宽。

所述数据接收模块提用于将Offset-Key Hash表及存储空间M转存到时间序列数据库上的接口，所述数据接收模块将数据以帧为单位接收下来、并存储到时间序列数据库中。

所述时间序列数据库用于实现按帧为单位的非结构化数据存储，因为数据存储的都是差量，不变化的数据不进行存储，故能有效地节省存储空间。

所述数据还原模块以帧为单位从数据库中读取数据、并将其转化为流数据。在处理第一帧数据时，直接出将第一帧数据取出，作为参量差值，进行运算，因为此时参考帧为0，故当前帧就等于第一帧数据。后续的每一帧数据，先将该帧数据从数据库中读出，将变化的变量，通过Hash表查询，得到其变化量，与参考帧进行运算，求得当前帧数据。同时，将当前帧数据设置为下一帧数据的参考帧。本模块可以充分利用Map-Reduce并行处理机制，来加速数据的处理。

所述数据分析/挖掘接口为后端数据分析/挖掘接口，对接业务分析等模块。

如图2所示，一种基于大数据的非结构化数据压缩处理方法，步骤包括：

3)数据的存储：变量通过Hash算法，映射到固定内存空间中，将与变量对应的变化差值存储到相应的内存空间中，因为存储的是数据流的变化差值，消耗的存储空间会远远小于存储原样本数据。这样整个数据流，只需要存储第一帧的完整数据，后续的每一帧的数据，都只需要存储一个变化的变量表，与一个变化差值表到数据存储器中，形成在时间上的对数据的存储。之后执行步骤4)；

4)数据的还原：进行数据还原时，从存储中取出第一帧数据做为参照系，然后将第二帧的变化变量表与变化量值表取出，将差量解出，叠加回到第一帧数据之上，同理，以还原出的第二帧数据为参照系，将第三帧差量叠加回第二帧数据上还原出第三帧数据....以还原出的第N-1帧数据为参考，将第N帧变化值叠加回第N-1帧，并将所有的数据按时间先后顺序排列，恢复出数据流。

Claims

1.一种基于大数据的非结构化数据压缩处理系统，其特征在于包括数据采集模块、压缩比较模块、差量缓存模块、ExUDP模块和大数据存储分析平台，所述大数据存储分析平台包括数据接收模块、时间序列数据库、数据还原模块、数据分析/挖掘接口，所述数据采集模块、压缩比较模块、差量缓存模块、ExUDP模块、数据接收模块、时间序列数据库、数据还原模块、数据分析/挖掘接口依次单向数据传输。

2.根据权利要求1所述的一种基于大数据的非结构化数据压缩处理系统，其特征在于所述数据采集模块用于设定了数据结构体，所述数据采集模块中间包含所有需要监控的变量，所述数据采集模块每间隔一个单位时间ΔT，对每个所监控的变量采样得到当前帧，并与参考帧进行对比，计算出变化变量的差值，将所有的变化变量记录下Key值与变化量。

3.根据权利要求2所述的一种基于大数据的非结构化数据压缩处理系统，其特征在于所述差量缓存模块将每个变化量按顺序存储到一块内存空间M中、并记录下每个变化量的存储相对于该内存空间起点的Offset，接着将Offset与Key通过Hash函数做成一一对应的Hash表。

4.根据权利要求3所述的一种基于大数据的非结构化数据压缩处理系统，其特征在于所述ExUDP模块在应用层扩展UDP协议，所述ExUDP模块将Offset-Key Hash表及存储空间M通过ExUDP模块发送到大数据存储分析平台上。

5.根据权利要求4所述的一种基于大数据的非结构化数据压缩处理系统，其特征在于所述数据接收模块提用于将Offset-Key Hash表及存储空间M转存到时间序列数据库上的接口，所述数据接收模块将数据以帧为单位接收下来、并存储到时间序列数据库中。

6.根据权利要求5所述的一种基于大数据的非结构化数据压缩处理系统，其特征在于所述时间序列数据库用于实现按帧为单位的非结构化数据存储。

7.根据权利要求6所述的一种基于大数据的非结构化数据压缩处理系统，其特征在于所述数据还原模块以帧为单位从数据库中读取数据、并将其转化为流数据。

8.一种基于大数据的非结构化数据压缩处理方法，其特征在于步骤包括：