CN106019369B - 一种改进的seg‑y文件中地震数据无损压缩算法 - Google Patents

一种改进的seg‑y文件中地震数据无损压缩算法 Download PDF

Info

Publication number
CN106019369B
CN106019369B CN201610486968.9A CN201610486968A CN106019369B CN 106019369 B CN106019369 B CN 106019369B CN 201610486968 A CN201610486968 A CN 201610486968A CN 106019369 B CN106019369 B CN 106019369B
Authority
CN
China
Prior art keywords
data
seg
files
grouped
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610486968.9A
Other languages
English (en)
Other versions
CN106019369A (zh
Inventor
庹先国
李怀良
沈统
刘勇
刘瑶
李金夫
荣文钲
吕中云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest University of Science and Technology
Sichuan University of Science and Engineering
Chengdu Univeristy of Technology
Original Assignee
Southwest University of Science and Technology
Sichuan University of Science and Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest University of Science and Technology, Sichuan University of Science and Engineering filed Critical Southwest University of Science and Technology
Priority to CN201610486968.9A priority Critical patent/CN106019369B/zh
Publication of CN106019369A publication Critical patent/CN106019369A/zh
Application granted granted Critical
Publication of CN106019369B publication Critical patent/CN106019369B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01VGEOPHYSICS; GRAVITATIONAL MEASUREMENTS; DETECTING MASSES OR OBJECTS; TAGS
    • G01V1/00Seismology; Seismic or acoustic prospecting or detecting
    • G01V1/28Processing seismic data, e.g. for interpretation or for event detection
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Environmental & Geological Engineering (AREA)
  • Geology (AREA)
  • General Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Geophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种改进的SEG‑Y文件中地震数据无损压缩算法,解决SEG‑Y文件中地震数据压缩比率过高的问题,本发明将SEG‑Y文件中的地震数据值根据表示该数据值的四个字节依次分解成四个分组数据,所有地震数据值分解后得到四个分组数据组,运用基尼系数计算方法分别计算出SEG‑Y文件中所有地震数据值以及其分解成每个数据组的基尼系数,根据该基尼系数能分析出对不同分组数据组采取不同算法进行压缩,通过对比不同压缩算法对各个分组的压缩比率,采用Lzma算法对SEG‑Y文件中所有地震数据中A和B分组数据组进行压缩,同时,将SEG‑Y文件中所有地震数据中C和D分组数据组采用Deflate算法进行压缩。

Description

一种改进的SEG-Y文件中地震数据无损压缩算法
技术领域
本发明涉及一种压缩算法,具体涉及一种改进的SEG-Y文件中地震数据无损压缩算法。
背景技术
随着油气勘探开发的不断深入以及勘探目标复杂度的提高,三维地震采集以及高精度三维地震采集在实际生产中也越来越多地使用,伴随而来的是炮点和检波点布置越来越多,采集的数据量也越来越大。例如:2013年大庆和平牧场三维勘探任务,单炮所产生的数据为140MB,每天采集的数据量约为100~140GB;二维勘探任务中每天采集的数据量差不多在5~10GB之间,这无疑将产生大量的地震数据。目前地震数据普遍采用SEG-Y文件进行记录,如此庞大的SEG-Y文件地震数据不仅给存储和传输速度方面造成相当大的压力,而且对于传输成本和生产监测等方面也造成了相当大的负担。因此为了减少各方面的压力和负担,对SEG-Y文件中的地震数据先进行压缩成为将其存储或者传输之前必不可少的准备工作之一。
数据压缩技术发展至今主要包括了无损压缩算法和有损压缩算法,无损压缩算法也称为无失真编码、熵编码、信息保持编码等,被压缩的数据能够通过解压缩恢复到之前的原状态,其涉及到的算法及软件有很多,目前应用最广的算法主要有Lzma算法、Deflate算法、Bzip2算法和WinRAR算法,然而在运用这四种算法对SEG-Y文件中地震数据进行无损压缩时,普遍存在压缩比率过高的问题。于是在对SEG-Y文件中地震数据进行压缩时,发明一种压缩比率较低的算法成为该技术领域技术人员亟待解决的难题。
本发明主要针对地震数据文件中最常用的SEG-Y文件进行研究,从无损数据压缩算法着手,设计出一种对于SEG-Y文件进行压缩时压缩比率更低的无损压缩算法。
发明内容
本发明要解决的技术问题是:解决现有技术中对SEG-Y文件中地震数据进行压缩时压缩比率过高的问题。
为实现上述目的,本发明采用的技术方案如下:一种改进的SEG-Y文件中地震数据无损压缩算法,具有如下步骤:
步骤1:将SEG-Y文件中单个地震数据值分解成四个分组数据,分别为第一分组数据、第二分组数据、第三分组数据和第四分组数据;
步骤2:将SEG-Y文件中所有地震数据值根据步骤1的方法进行分解,将所有第一分组数据列为A分组数据组,将所有第二分组数据列为B分组数据组、将所有第三分组数据列为C分组数据组,将所有第四分组数据列为D分组数据组;
步骤3:运用基尼系数计算方法分别计算出SEG-Y文件中所有地震数据值的基尼系数,以及所有地震数据值分解成的每个数据组的基尼系数,根据该基尼系数分析出对不同的分组数据组采取不同的算法进行压缩,然后采用Lzma算法对SEG-Y文件中所有地震数据中的A分组数据组和B分组数据组进行压缩,同时,将SEG-Y文件中所有地震数据中的C分组数据组和D分组数据组采用Deflate算法进行压缩。
进一步地,所述步骤3中基尼系数根据公式进行计算,其中,G值表示基尼系数,i∈[0,255],n=256,Wi表示第0个数值到第i个数值的频次累计占所有频次和的百分比,所述数值按频次从小到大排列;式中,G值越趋近于1,表示该文件中数据在[0,255]区间内的分布越不均衡,越趋近于0,表示该文件中数据在[0,255]区间内的分布越均衡。
现将本发明的发明原理做一个简要说明:
1.数据频率分布
通过频次统计可以直观的得到单个文件中数据的分布情况,不过对于多个文件的分析,这种方法则较为繁琐,且不便于定量比较不同文件的数据分布差异,因此,本发明引入基尼系数描述SEG-Y文件的大致分布情况,其计算公式如下所示:
式中i∈[0,255],n=256,Wi表示第1个数值到第i个数值的频次(将数值按频次由小到大排列)累计占所有频次和的百分比。在本发明中,若G值越趋近于1,则表示该文件中数据在[0,255]区间内的分布越不均衡,越趋近于0,则表示该文件中数据在[0,255]区间内的分布越均衡。
如图1所示,本发明选取了10个不同大小的SEG-Y文件,对每一个SEG-Y文件计算其整体数据和各分组数据的基尼系数,从图1中可以看出,不同SEG-Y文件的各分组数据计算得到的G值相近,说明各文件中的数据在[0,255]区间内的分布情况大体相近;且各分组数据的G值与整体数据的G值不相同,可知A、B、C、D分组数据与整体数据在[0,255]区间内的分布情况不同,其中,A组数据的G值最大,且趋近于1,表明其数据在[0,255]区间内的分布极不均衡,B组数据次之,C组和D组G值较小,分布较为均衡;而整体数据的G值在各分组数据的G值之间,这也意味着是分布均衡数据组与分布不均衡组的一个中和结果。
2.分组压缩方法
通过上述的分析可知不同分组数据组中数据的频率分布与整体数据的频率分布不同,而无损数据压缩算法的效果又与数据的频率分布息息相关,因此,有必要对不同频率分布的分组数据组采用不同的数据压缩算法。下面分别采用了Lzma算法、Deflate算法、Bzip2算法和WinRAR算法对各分组数据组进行压缩,分别得到结果如图2、3、4、5所示。
从图2可以看出,四种压缩算法对A组数据的压缩效果较为显著,基本压缩到原数据大小的30%以下,其中Deflate算法压缩效果最差,WinRAR算法压缩次之,Lzma算法与bzip2算法的压缩效果最好且相近,达到18%左右。
从图3可以看出,四种算法的压缩效果相近,为原数据大小的90%左右,Deflate算法与Lzma算法对于B组数据的压缩效果相比于WinRAR算法较好,其中,Lzma算法相比于Defalte算法,压缩率相差1个百分点左右,Lzma算法表现较优。
从图4可以看出,四种算法对于C组数据不能取得很好的压缩效果,Lzma算法的压缩效果最差,甚至压缩后的数据大小比原数据大小还大,而Deflate算法在四种算法中表现最好,能够取得99%的压缩效果。
从图5可以看出,四种算法对于D组数据同样不能取得很好的压缩效果,与C组的对比结果相似,Deflate算法在四种算法中表现最好,能够取得99%的压缩效果。
根据所做的实验结果,可以得出A、B两组的压缩效果以Lzma算法较优,BZip2算法次之,而C、D两组的压缩情况以Deflate算法和WinRAR算法表现较好,因此本发明对A、B两组数据采用Lzma算法压缩,同时对C、D两组数据则采用Deflate算法压缩。
与现有技术相比,本发明具有以下有益效果:
按照本发明对SEG-Y文件中各地震数据进行压缩时,其压缩比率在75%~80%之间,与目前行业压缩算法相比,压缩比率最低,不仅极大地减少了此类文件存储和传输速度方面的压力,而且对于传输成本和生产监测等方面的负担也得到了很大的改善。
附图说明
图1为不同SEG-Y文件中地震整体数据和各分组数据组G值对比图。
图2为不同算法对A组数据组的压缩效果对比图。
图3为不同算法对B组数据组的压缩效果对比图。
图4为不同算法对C组数据组的压缩效果对比图。
图5为不同算法对D组数据组的压缩效果对比图。
图6为本发明与Lzma算法、Deflate算法、Bzip2算法和WinRAR算法压缩结果对比图。
图7为本发明与Lzma算法、Deflate算法、Bzip2算法和WinRAR算法解压缩效率对比图。
图8为本发明的流程示意图。
具体实施方式
下面结合附图说明和实施例对本发明作进一步说明,本发明的方式包括但不仅限于以下实施例。
如图1、2、3、4、5、8所示,一种改进的SEG-Y文件中地震数据无损压缩算法,具有如下步骤:
步骤1:将SEG-Y文件中单个地震数据值分解成四个分组数据,分别为第一分组数据、第二分组数据、第三分组数据和第四分组数据;
步骤2:将SEG-Y文件中所有地震数据值根据步骤1的方法进行分解,将所有第一分组数据列为A分组数据组,将所有第二分组数据列为B分组数据组、将所有第三分组数据列为C分组数据组,将所有第四分组数据列为D分组数据组;
步骤3:运用基尼系数计算方法分别计算出SEG-Y文件中所有地震数据值的基尼系数,以及所有地震数据值分解成的每个数据组的基尼系数,根据该基尼系数分析出对不同的分组数据组采取不同的算法进行压缩,然后采用Lzma算法对SEG-Y文件中所有地震数据中的A分组数据组和B分组数据组进行压缩,同时,将SEG-Y文件中所有地震数据中的C分组数据组和D分组数据组采用Deflate算法进行压缩。
进一步地,所述步骤3中基尼系数根据公式进行计算,其中,G值表示基尼系数,i∈[0,255],n=256,Wi表示第0个数值到第i个数值的频次累计占所有频次和的百分比,所述数值按频次从小到大排列;式中,G值越趋近于1,表示该文件中数据在[0,255]区间内的分布越不均衡,越趋近于0,表示该文件中数据在[0,255]区间内的分布越均衡。
为了测试本发明提出的分组压缩算法的有效性,对本发明的压缩结果和解压缩效率与目前流行的压缩算法及软件进行了对比实验,实验方法和结果如下:
本实验包括了E、F两台计算机,其硬件环境如下:CPU为Interl(R)Core(TM)i5-3470 CPU@3.20GHz,内存为4.00G,网络适配器为Realtek PCIe GBE FamilyController。实验数据选取了1902Kb至188728Kb不同大小的25个SEG-Y文件。
利用本发明提出的分组压缩算法与Lzma算法、Deflate算法、Bzip2算法和WinRAR算法对1902Kb至188728Kb不同大小的25个SEG-Y文件进行了压缩,将压缩后的文件大小除以原始文件的大小得到算法的压缩率,统计结果如图6所示,若值为100%,则表示压缩后的文件大小与原始文件大小相同,值越小表示压缩效果越好。
从图6中不难看出,对于不同大小的SEG-Y文件,各算法的压缩率基本保持一致,而不同算法的压缩差异也可以直观地看到,本发明算法压缩率最低,在75%到80%之间,Lzma算法次之,在85%左右,而Deflate算法、Bzip2算法与WinRAR算法之间虽有差异,不过略小,基本保持在90%左右。
各算法在对原始SEG-Y文件进行压缩后,调用计时函数得到各算法对压缩文件的解压缩耗时,并且各算法对每个文件重复10次实验,计算得到10次实验的平均值,最终统计得到结果如图7所示。
从图7中可以看出,当文件大小较小时,各算法的解压缩耗时差异不是很明显,而随着SEG-Y文件大小的增加,各算法的差异也就显现出来,可以看出各算法的解压缩耗时与文件大小近似于线性关系,其中,以Bzip2算法耗时最长且增长速度最快,Lzma算法次之,Deflate算法和WinRAR算法解压缩耗时较为相近,在几种算法中耗时最少且增长速度最慢,而本发明算法则处于四者之间。
本发明对SEG-Y文件地震数据提供了一种无损压缩算法,将SEG-Y文件地震数据按照表示该数据值的四个字节依次分解成四个分组数据;整个SEG-Y文件中的地震数据经过分解后就会得出四个分组数据组,即分别为A分组数据组、B分组数据组、C分组数据组和D分组数据组,然后引用基尼系数实验对比SEG-Y文件整体数据和各分组数据组的分布情况,确定利用Lzma算法压缩前两个分组数据组(即A分组数据组和B分组数据组),同时将后两个分组数据组(即C分组数据组和D分组数据组)采用Deflate算法进行压缩。本发明最后和目前流行的压缩算法及软件对SEG-Y文件的压缩率和解压缩时间进行了对比,实验结果表明本发明提出的方法可以实现75%-80%范围的压缩率,达到了目前行业应用软件中压缩率最低,并且解压缩的时间也介于目前流行软件之间。本发明具备突出的实质性特点和显著进步。
上述实施例仅为本发明的优选实施方式之一,不应当用于限制本发明的保护范围,但凡在本发明的主体设计思想和精神上作出的毫无实质意义的改动或润色,其所解决的技术问题仍然与本发明一致的,均应当包含在本发明的保护范围之内。

Claims (2)

1.一种改进的SEG-Y文件中地震数据无损压缩算法,其特征在于:具有如下步骤:
步骤1:将SEG-Y文件中单个地震数据值按照表示该数据值的四个字节依次分解成四个分组数据,分别为第一分组数据、第二分组数据、第三分组数据和第四分组数据;
步骤2:将SEG-Y文件中所有地震数据值根据步骤1的方法进行分解,将所有第一分组数据列为A分组数据组,将所有第二分组数据列为B分组数据组、将所有第三分组数据列为C分组数据组,将所有第四分组数据列为D分组数据组;
步骤3:运用基尼系数计算方法分别计算出SEG-Y文件中所有地震数据值的基尼系数,以及所有地震数据值分解成的每个数据组的基尼系数,根据上述基尼系数分析出对不同的分组数据组采取不同的算法进行压缩,然后采用Lzma算法对SEG-Y文件中所有地震数据值中的A分组数据组和B分组数据组进行压缩,同时,将SEG-Y文件中所有地震数据值中的C分组数据组和D分组数据组采用Deflate算法进行压缩。
2.根据权利要求1所述的一种改进的SEG-Y文件中地震数据无损压缩算法,其特征在于:所述步骤3中基尼系数根据公式进行计算,其中,G值表示基尼系数,i∈[0,255],n=256,Wi表示第0个数值到第i个数值的频次累计占所有频次和的百分比,所述数值按频次从小到大排列;式中,G值越趋近于1,表示该文件中数据在[0,255]区间内的分布越不均衡,越趋近于0,表示该文件中数据在[0,255]区间内的分布越均衡。
CN201610486968.9A 2016-06-28 2016-06-28 一种改进的seg‑y文件中地震数据无损压缩算法 Active CN106019369B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610486968.9A CN106019369B (zh) 2016-06-28 2016-06-28 一种改进的seg‑y文件中地震数据无损压缩算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610486968.9A CN106019369B (zh) 2016-06-28 2016-06-28 一种改进的seg‑y文件中地震数据无损压缩算法

Publications (2)

Publication Number Publication Date
CN106019369A CN106019369A (zh) 2016-10-12
CN106019369B true CN106019369B (zh) 2017-12-22

Family

ID=57084692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610486968.9A Active CN106019369B (zh) 2016-06-28 2016-06-28 一种改进的seg‑y文件中地震数据无损压缩算法

Country Status (1)

Country Link
CN (1) CN106019369B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304472A (zh) * 2017-12-28 2018-07-20 中国银联股份有限公司 一种数据压缩存储方法以及数据压缩存储装置
CN109581502B (zh) * 2018-10-26 2020-09-08 中国石油天然气集团有限公司 地震勘探数据压缩方法、装置以及压缩存储结构
CN112860646B (zh) * 2021-02-24 2022-12-02 上海泰宇信息技术股份有限公司 一种海量文件档案分布式聚合压缩与单一式抽取的方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1163763C (zh) * 1995-12-01 2004-08-25 维斯特恩格科公司 地震数据的压缩方法和装置
US20130019029A1 (en) * 2011-07-13 2013-01-17 International Business Machines Corporation Lossless compression of a predictive data stream having mixed data types
US9219496B1 (en) * 2014-08-18 2015-12-22 Advanced Micro Devices, Inc. Efficient lossless data compression system, data compressor, and method therefor

Also Published As

Publication number Publication date
CN106019369A (zh) 2016-10-12

Similar Documents

Publication Publication Date Title
CN105181122B (zh) 机械振动信号数据压缩采集方法
CN106019369B (zh) 一种改进的seg‑y文件中地震数据无损压缩算法
CN101923569B (zh) 一种实时数据库的结构类型数据的存储方法
US20150154796A1 (en) Accelerated three-dimensional intersection testing using compressed volumes
CN104252526A (zh) 基于冗余消除的遥测存储方法
CN107942377A (zh) 一种地震数据压缩与重构方法
CN109040047A (zh) 示功图数据压缩、传输方法及装置
CN108873062A (zh) 一种基于fpga的多编码器高速地震数据并行无损压缩方法
CN104618361A (zh) 一种网络流数据重排序方法
CN102938685A (zh) 一种基于变长编码的无线传感器网络数据压缩方法
CN104753539A (zh) 一种数据压缩方法及装置
CN105160699A (zh) 一种基于张量近似的海量数据多分辨率体绘制方法
CN103281087A (zh) 基于多级压缩感知的信号采样系统及方法
Li et al. An improved lossless group compression algorithm for seismic data in SEG-Y and MiniSEED file formats
CN115567609B (zh) 一种锅炉用物联网通信方法
CN103106144B (zh) 一种内存索引压缩方法和装置
CN104867166B (zh) 一种基于稀疏字典学习的油井示功图压缩存储方法
CN104125459B (zh) 基于支撑集和信号值检测的视频压缩感知重构方法
CN106709962A (zh) 一种基于确定性序列编码的压缩感知红外图像重构方法
CN107612555A (zh) 一种基于二分法的改进稀疏度自适应匹配追踪算法
CN202931290U (zh) 一种基于gzip的压缩硬件系统
CN110765130B (zh) 一种分布式环境下基于Ripley’s K函数的时空POI数据点模式分析方法
CN110021349A (zh) 基因数据的编码方法
CN104453807B (zh) 一种油田注采井组水驱窜流判别方法
CN109275119A (zh) 基于混沌序列的分布式压缩感知方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Li Huailiang

Inventor after: Previous Countries

Inventor after: Shen Tong

Inventor after: Liu Yong

Inventor after: Liu Yao

Inventor after: Li Jinfu

Inventor after: Rong Wenzheng

Inventor after: Lv Zhongyun

Inventor before: Previous Countries

Inventor before: Li Huailiang

Inventor before: Shen Tong

Inventor before: Liu Yong

Inventor before: Liu Yao

Inventor before: Li Jinfu

Inventor before: Rong Wenzheng

Inventor before: Lv Zhongyun

CB03 Change of inventor or designer information
CP01 Change in the name or title of a patent holder

Address after: 621010 Sichuan, Fucheng, Qinglong District, Mianyang Road, No. 59

Co-patentee after: Sichuan University of Light Chemical Technology

Patentee after: Southwest University of Science and Technology

Address before: 621010 Sichuan, Fucheng, Qinglong District, Mianyang Road, No. 59

Co-patentee before: Sichuan University of Science & Engineering

Patentee before: Southwest University of Science and Technology

CP01 Change in the name or title of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20240424

Address after: Three road 610051 Sichuan city of Chengdu Province, No. 1 East

Patentee after: Chengdu University of Technology

Country or region after: China

Patentee after: Southwest University of Science and Technology

Patentee after: Sichuan University of Light Chemical Technology

Address before: 621010, No. 59, Qinglong Avenue, Fucheng District, Sichuan, Mianyang

Patentee before: Southwest University of Science and Technology

Country or region before: China

Patentee before: Sichuan University of Light Chemical Technology

TR01 Transfer of patent right