CN104008153B - 一种面向大数据处理的数据处理方法和装置 - Google Patents

一种面向大数据处理的数据处理方法和装置 Download PDF

Info

Publication number
CN104008153B
CN104008153B CN201410217394.6A CN201410217394A CN104008153B CN 104008153 B CN104008153 B CN 104008153B CN 201410217394 A CN201410217394 A CN 201410217394A CN 104008153 B CN104008153 B CN 104008153B
Authority
CN
China
Prior art keywords
data
performance indications
processing environment
compress mode
compress
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410217394.6A
Other languages
English (en)
Other versions
CN104008153A (zh
Inventor
亓开元
辛国茂
赵仁明
房体盈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201410217394.6A priority Critical patent/CN104008153B/zh
Publication of CN104008153A publication Critical patent/CN104008153A/zh
Application granted granted Critical
Publication of CN104008153B publication Critical patent/CN104008153B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

本发明公开了一种面向大数据的数据处理方法和装置,该方法包括:获取处理环境数据及负载场景数据;选择处理环境数据及负载场景数据对应的压缩方式;根据所选择的压缩方式对数据进行处理;处理环境数据包括网络传输的性能指标和磁盘的性能指标;负载场景数据包括读操作比例和写操作比例,读操作比例与写操作比例相加为1。本发明能够指导在不同运行环境、不同负载场景下的压缩方式的选择,优化大数据处理性能。

Description

一种面向大数据处理的数据处理方法和装置
技术领域
本发明涉及大数据领域,具体涉及一种面向大数据处理的数据处理方法和装置。
背景技术
随着人类社会全面进入信息时代,数据成为与水、石油同等重要的战略资源。通过挖掘海量数据,能够使政府和企业的运行决策建立在更加科学的依据基础上,提高决策效率、危机应对能力和公共服务水平。
大数据虽然极具价值,但由于规模巨大,面临着持续可扩展问题。例如,数据仓库中常用的记录某个对象行为的历史状态数据,在大数据时代随着对象数量(如客户)的急速增加,以及每个处理对象行为(如客户交易)的迅速增加,规模成爆炸式增长,给处理环境的CPU、存储、网络带来的巨大压力。其中,CPU通过水平扩展能够满足大数据处理需求,而磁盘读写IO和网络传输IO由于机械部件、工艺技术、物理介质等条件限制,成为制约大数据处理的主要瓶颈。为此,采用压缩方式进行大数据的存储和传输,以牺牲少量CPU时间解压缩换取IO时间,成为提高大数据处理性能的一个必然选择。
针对上述需求,当前的主流大数据处理系统,如Hadoop、HBase、Hive等,都支持在应用中Gzip、LZO、Snappy等压缩方式,然而,由于编解码方式和解压缩方法不同,各种方法的压缩率、编解码速度各有不同,遵循着压缩效果越好压缩/解压缩效率越低这一矛盾统一的客观规律。因此,针对不同网络带宽、磁盘速度等的大数据处理环境,以及不同负载特征的大数据应用场景,应该如何选择是否应该采用压缩方法,采用何种压缩方式,是大数据设计面临的一个关键问题。
发明内容
本发明所要解决的技术问题在于,本发明提出一种面向大数据处理的数据处理方法,通过计算各种压缩方式在不同运行环境、不同负载场景下的性能指标指导压缩方式的选择,从而降低处理延迟。
为了解决上述问题,本发明提供一种面向大数据的数据处理方法,该方法包括:
获取处理环境数据及负载场景数据;
选择所述处理环境数据及负载场景数据对应的压缩方式;
根据所选择的压缩方式对数据进行处理;
所述处理环境数据包括网络传输的性能指标和磁盘的性能指标;
所述负载场景数据包括读操作比例和写操作比例,所述读操作比例与写操作比例相加为1。
优选地,所述方法还包括:
选择所述处理环境数据及负载场景数据对应的压缩方式包括:
在网络传输的性能指标为低于1Gbps且磁盘的性能指标为低于200MBps时、在CPU利用率不足50%时,使用压缩方法进行读、写操作。
优选地,所述方法还包括:
选择所述处理环境数据及负载场景数据对应的压缩方式包括:
在网络传输的性能指标为高于10Gbps且磁盘的性能指标为高于600MBps时,使用压缩方法进行读操作、不进行写操作。
优选地,所述方法还包括:
使用压缩方法进行读、写操作包括:
选择使用Snappy压缩方式进行写操作,选择使用LZO压缩方式进行读操作。
优选地,所述方法还包括:
选择所述处理环境数据及负载场景数据对应的压缩方式包括:
在所述读操作的比例在90%以上时,选择使用Snappy或LZO压缩方式。
优选地,所述方法还包括:
选择所述处理环境数据及负载场景数据对应的压缩方式包括:
在网络传输的性能指标为低于1Gbps时,选择使用LZO压缩方式。
优选地,所述方法还包括:选择所述处理环境数据及负载场景数据对应的压缩方式包括:
在网络传输的性能指标为高于10Gbps时,选择使用Snappy压缩方式。
为了解决上述问题,本发明还提供一种面向大数据的数据处理装置,该装置包括:
获取模块,用于获取处理环境数据及负载场景数据;所述处理环境数据包括网络传输的性能指标和磁盘的性能指标;所述负载场景数据包括读操作比例和写操作比例,所述读操作比例与写操作比例相加为1;
选择模块,用于选择所述处理环境数据及负载场景数据对应的压缩方式;
处理模块,用于根据所选择的压缩方式对数据进行处理。
优选地,所述装置还具有以下特点:
选择所述处理环境数据及负载场景数据对应的压缩方式包括:
在网络传输的性能指标为低于1Gbps且磁盘的性能指标为低于200MBps时、在CPU利用率不足50%时,使用压缩方法进行读、写操作。
优选地,所述装置还具有以下特点:
选择所述处理环境数据及负载场景数据对应的压缩方式包括:
在网络传输的性能指标为高于10Gbps且磁盘的性能指标为高于600MBps时,使用压缩方法进行读操作、不进行写操作。
上述面向大数据的数据处理方法及装置,能够指导在不同运行环境、不同负载场景下的压缩方式选择,优化大数据处理性能。
附图说明
图1所示为本发明实施例面向大数据的数据处理方法流程图;
图2所示为本发明实施例面向大数据的数据处理装置示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,如果不冲突,本发明实施例以及实施例中的各个特征的相互均在本发明的保护范围之内。
本发明的实施例提供了一种面向大数据处理的数据处理方法,如图1所示,包括:
步骤S101:获取处理环境数据及负载场景数据;
所述处理环境数据包括但不限于:网络传输的性能指标和磁盘的性能指标;
可选地,所述网络传输的性能指标包括但不限于为网络传输的带宽,磁盘的性能指标包括但不限于为磁盘的读写速度。
可选地,所述负载场景数据包括但不限于:读操作比例和写操作比例,所述读操作比例与写操作比例相加为1。
步骤S102:选择所述处理环境数据及负载场景数据对应的压缩方式;
具体为,包括但不限于:
在网络传输的性能指标为高于10Gbps且磁盘的性能指标为高于600MBps时,使用压缩方法进行读操作、不进行写操作。
在网络传输的性能指标为低于1Gbps且磁盘的性能指标为低于200MBps时、在CPU利用率不足50%时,使用压缩方法进行读、写操作。
可选地,选择使用Snappy压缩方式进行写操作,选择使用LZO压缩方式进行读操作。
在所述读操作的比例在90%以上时,可选地,选择使用Snappy或LZO压缩方式。
可选地,在网络传输的性能指标为低于1Gbps时,选择使用LZO压缩方式。
可选地,在网络传输的性能指标为高于10Gbps时,选择使用Snappy压缩方式。
步骤S103:根据所选择的压缩方式对数据进行处理。
为了实现上述方法,本发明还提供了一种面向大数据的数据处理装置,如图2所示,该装置包括:
获取模块,用于获取处理环境数据及负载场景数据;
可选地,所述网络传输的性能指标包括但不限于为网络传输的带宽,磁盘的性能指标包括但不限于为磁盘的读写速度。
可选地,所述负载场景数据包括但不限于:读操作比例和写操作比例,所述读操作比例与写操作比例相加为1。
选择模块,用于选择所述处理环境数据及负载场景数据对应的压缩方式;具体是指:
在网络传输的性能指标为高于10Gbps且磁盘的性能指标为高于600MBps时,使用压缩方法进行读操作、不进行写操作。
在网络传输的性能指标为低于1Gbps且磁盘的性能指标为低于200MBps时、在CPU利用率不足50%时,使用压缩方法进行读、写操作。
可选地,选择使用Snappy压缩方式进行写操作,选择使用LZO压缩方式进行读操作。
在所述读操作的比例在90%以上时,可选地,选择使用Snappy或LZO压缩方式。
可选地,在网络传输的性能指标为低于1Gbps时,选择使用LZO压缩方式。
可选地,在网络传输的性能指标为高于10Gbps时,选择使用Snappy压缩方式。
处理模块,用于根据所选择的压缩方式对数据进行处理。
根据上述方法和装置,可知本发明能够指导在不同运行环境、不同负载场景下的压缩方式选择,优化大数据处理性能。
为了便于更好的理解本发明的方法,下面以大数据处理应用中主流的环境配置及压缩方法的对比分析为例具体说明。
1、压缩方式性能比较
当前大数据架构的存储处理过程要经历网络传输和磁盘读写两个串行IO阶段,设某大数据环境的全双工网络的传输速度为n,磁盘的读写速度为d,若数据不采用任何压缩方式,其读写延迟为:
v=1/n+1/d
其中,1/n表示1字节数据的网络传输延迟,1/d表示磁盘读写延迟。
下面具体举例说明:
大数据处理环境的网络配置包括千兆以太网和万兆以太网,磁盘配置包括SATA和SAS,其读写性能参数,如表1所示;
大数据处理应用主流的三种压缩方式包括Snappy、LZO、Gzip,其数据压缩率、数据压缩速度、数据解压速度,如表2所示。
根据压缩数据处理方法,可以分别计算万兆网络+SAS磁盘、万兆网络+SATA磁盘、千兆网络+SAS磁盘、千兆网络+SATA磁盘环境下各种压缩方式的性能,以万兆网络和SATA磁盘环境为例。
若数据不采用任何压缩方式,其读写延迟:
v=1/n+1/d=1/1250+1/600=0.00247s=2.47ms
在这种处理环境下,Snappy压缩方式写和读数据延迟分别为:
w(Snappy)=1/c(Snappy)+a(Snappy)/n+a(Snappy)/d
=1/172+0.222/1250+0.222/600=6.36ms
r(Snappy)=a(Snappy)/u(Snappy)+a(Snappy)/n+a(Snappy)/d
=0.222/409+0.222/1250+0.222/600=1.09ms
根据上述方法,各种环境下不同压缩方式的性能,如表3所示。
由表3可得到如下结论:
a)在大数据应用所处的网络环境和磁盘性能较差的情况下,在CPU资源充足的条件下,使用压缩算法能显著提升读写性能,所述CPU资源充足可以但不限于是CPU利用率不足50%;
b)在网络带宽充足、磁盘性能较好情况下,压缩算法虽然能显著提升读操作性能,但写性能却较差,需要根据实际的场景确实如何选用;
c)对于各种压缩算法,Snappy方式的写性能最好,LZO方式的读性能最好,可以根据实际场景的进行选择。
2、读写场景分析
若采用压缩方法,设某种压缩方式x压缩率为a(x),压缩速度为c(x),解压缩速度为u(x),则对于该压缩方式,其写数据延迟:
w(x)=1/c(x)+a(x)/n+a(x)/d
其中,1/c(x)表示1字节数据的压缩延迟,a(x)/n和r(x)/d分别表示压缩后网络传输和磁盘写入延迟;
读数据延迟:
r(x)=a(x)/u(x)+a(x)/n+a(x)/d
其中,a(x)/u(x)表示1字节数据的解压缩延迟,a(x)/n和a(x)/d分别表示压缩数据的网络传输和磁盘读延迟。
设运行在该环境上的某大数据处理应用的写操作比例b,读操作比例为1-b,则该种压缩方式x在该场景下的读写平均延迟为其读写延迟的数学期望:
s=w(x)*b+r(x)*(1-b)。
下面具体举例说明:
根据压缩数据处理方法,可以分别计算万兆网络+SAS磁盘、万兆网络+SATA磁盘、千兆网络+SAS磁盘、千兆网络+SATA磁盘环境下各种压缩方式的性能,以万兆网络和SATA磁盘环境下的Snappy方式为例,若写读比例为1/9,则该场景下的读写平均延迟为
S1=w(Snappy)*10%+r(Snappy)*90%=1.617
根据上述方法,Snappy和LZO方式在各种环境、不同场景下的性能如表4所示。由表4可得到如下结论:
a)以读操作为主的场景中,即使是在在网络带宽充足、磁盘性能较好情况下,Snappy和LZO方式也能够显著提高性能
b)在大多数环境和场景情况下,Snappy方式当时的性能优于LZO方式,只是在较差的网络条件下,以及读密集场景下,LZO方式略微优于Snappy方式,这是因为在较差的网络条件下,LZO方式能够发挥出的压缩率小、解压速率快的优势。
表1大数据处理环境IO性能参数
介质 读写速度
千兆以太网 125MBps
万兆以太网 1250MBps
SAS硬盘 600MBps
SATA硬盘 200MBps
表2大数处理压缩方式性能参数
压缩方式 压缩率 压缩速度 解压速度
Gzip 13.4% 21MBps 118MBps
LZO 20.5% 135MBps 410MBps
Snappy 22.2% 172MBps 409MBps
表3不同处理环境下各种压缩方式性能
表4各种压缩方式在不同场景下性能
由上述实施例可知,本发明提出的一种面向大数据处理的数据处理方法和装置,能够指导在不同运行环境、不同负载场景下的压缩方式选择,优化大数据处理性能。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (9)

1.一种面向大数据的数据处理方法,其特征在于,包括:
获取处理环境数据及负载场景数据;
选择所述处理环境数据及负载场景数据对应的压缩方式;
根据所选择的压缩方式对数据进行处理;
所述处理环境数据包括网络传输的性能指标和磁盘的性能指标;
所述负载场景数据包括读操作比例和写操作比例,所述读操作比例与写操作比例相加为1;
选择所述处理环境数据及负载场景数据对应的压缩方式包括:
在所述读操作的比例在90%以上时,选择使用Snappy或LZO压缩方式。
2.如权利要求1所述的方法,其特征在于,选择所述处理环境数据及负载场景数据对应的压缩方式包括:
在网络传输的性能指标为低于1Gbps且磁盘的性能指标为低于200MBps时、在CPU利用率不足50%时,使用压缩方法进行读、写操作。
3.如权利要求1所述的方法,其特征在于,选择所述处理环境数据及负载场景数据对应的压缩方式包括:
在网络传输的性能指标为高于10Gbps且磁盘的性能指标为高于600MBps时,使用压缩方法进行读操作、不进行写操作。
4.如权利要求2所述的方法,其特征在于,使用压缩方法进行读、写操作包括:
选择使用Snappy压缩方式进行写操作,选择使用LZO压缩方式进行读操作。
5.如权利要求1所述的方法,其特征在于,选择所述处理环境数据及负载场景数据对应的压缩方式包括:
在网络传输的性能指标为低于1Gbps时,选择使用LZO压缩方式。
6.如权利要求1所述的方法,其特征在于,选择所述处理环境数据及负载场景数据对应的压缩方式包括:
在网络传输的性能指标为高于10Gbps时,选择使用Snappy压缩方式。
7.一种面向大数据的数据处理装置,其特征在于,包括:
获取模块,用于获取处理环境数据及负载场景数据;所述处理环境数据包括网络传输的性能指标和磁盘的性能指标;所述负载场景数据包括读操作比例和写操作比例,所述读操作比例与写操作比例相加为1;
选择模块,用于选择所述处理环境数据及负载场景数据对应的压缩方式;
处理模块,用于根据所选择的压缩方式对数据进行处理;
选择所述处理环境数据及负载场景数据对应的压缩方式包括:
在所述读操作的比例在90%以上时,选择使用Snappy或LZO压缩方式。
8.如权利要求7所述的装置,其特征在于,选择所述处理环境数据及负载场景数据对应的压缩方式包括:
在网络传输的性能指标为低于1Gbps且磁盘的性能指标为低于200MBps时、在CPU利用率不足50%时,使用压缩方法进行读、写操作。
9.如权利要求7所述的装置,其特征在于,选择所述处理环境数据及负载场景数据对应的压缩方式包括:
在网络传输的性能指标为高于10Gbps且磁盘的性能指标为高于600MBps时,使用压缩方法进行读操作、不进行写操作。
CN201410217394.6A 2014-05-21 2014-05-21 一种面向大数据处理的数据处理方法和装置 Active CN104008153B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410217394.6A CN104008153B (zh) 2014-05-21 2014-05-21 一种面向大数据处理的数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410217394.6A CN104008153B (zh) 2014-05-21 2014-05-21 一种面向大数据处理的数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN104008153A CN104008153A (zh) 2014-08-27
CN104008153B true CN104008153B (zh) 2017-09-26

Family

ID=51368810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410217394.6A Active CN104008153B (zh) 2014-05-21 2014-05-21 一种面向大数据处理的数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN104008153B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105068875B (zh) * 2015-08-12 2018-09-07 浪潮(北京)电子信息产业有限公司 一种智能数据处理方法及装置
CN105302494B (zh) * 2015-11-19 2019-06-18 浪潮(北京)电子信息产业有限公司 一种压缩策略选择方法及装置
CN108494788B (zh) * 2018-03-29 2020-11-24 深圳市国富前海区块链技术股份有限公司 数据的传输方法、数据传输装置及计算机可读存储介质
CN108632597B (zh) * 2018-05-06 2020-01-10 Oppo广东移动通信有限公司 三维视频通信方法及系统、电子装置和可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101789016A (zh) * 2010-02-08 2010-07-28 浪潮(北京)电子信息产业有限公司 一种提高文件系统有效存储容量的方法及装置
CN103593424A (zh) * 2013-11-07 2014-02-19 浪潮电子信息产业股份有限公司 一种软硬件压缩可配置的大数据处理系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9048862B2 (en) * 2012-04-11 2015-06-02 Netapp, Inc. Systems and methods for selecting data compression for storage data in a storage system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101789016A (zh) * 2010-02-08 2010-07-28 浪潮(北京)电子信息产业有限公司 一种提高文件系统有效存储容量的方法及装置
CN103593424A (zh) * 2013-11-07 2014-02-19 浪潮电子信息产业股份有限公司 一种软硬件压缩可配置的大数据处理系统

Also Published As

Publication number Publication date
CN104008153A (zh) 2014-08-27

Similar Documents

Publication Publication Date Title
Nicolae High throughput data-compression for cloud storage
CN104008153B (zh) 一种面向大数据处理的数据处理方法和装置
CN103020205B (zh) 一种分布式文件系统上基于硬件加速卡的压缩解压缩方法
CN104375824B (zh) 数据处理方法
CN111966684A (zh) 分布式数据集索引
CN102768662B (zh) 一种加载图片的方法和装置
CN102096644B (zh) 用于永久性删除文件数据的系统和方法
CN104412539A (zh) 秘密分散系统、数据分散装置、分散数据变换装置、秘密分散方法、以及程序
CN103516369A (zh) 一种自适应数据压缩和解压缩的方法和系统及存储装置
CN104348490A (zh) 一种基于效果优选的组合数据压缩算法
US20170353537A1 (en) Predictive load balancing for a digital environment
US11424760B2 (en) System and method for data compaction and security with extended functionality
CN110737401B (zh) 用于管理独立冗余磁盘阵列的方法、设备和计算机程序产品
CN107301194A (zh) 瓦片式栅格地图的压缩存储及发布方法
CN105302494A (zh) 一种压缩策略选择方法及装置
CN103428494A (zh) 基于云计算平台的图像序列编码及恢复方法
CN105068875B (zh) 一种智能数据处理方法及装置
CN107423425B (zh) 一种对k/v格式的数据快速存储和查询方法
EP3963853B1 (en) Optimizing storage and retrieval of compressed data
JP2016521024A (ja) データ量軽減装置
CN102946443B (zh) 一种实现大规模数据传输的多任务调度方法
CN103049561B (zh) 一种数据压缩方法、存储引擎及存储系统
CN107798063A (zh) 快照处理方法和快照处理装置
EP4062624B1 (en) Managed data export to a remote network from edge devices
CN116760661A (zh) 数据存储方法、装置、计算机设备、存储介质和程序产品

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant