CN108182283A - 一种基于单快照的多体模拟有损压缩技术 - Google Patents
一种基于单快照的多体模拟有损压缩技术 Download PDFInfo
- Publication number
- CN108182283A CN108182283A CN201810081727.5A CN201810081727A CN108182283A CN 108182283 A CN108182283 A CN 108182283A CN 201810081727 A CN201810081727 A CN 201810081727A CN 108182283 A CN108182283 A CN 108182283A
- Authority
- CN
- China
- Prior art keywords
- compression
- indexes
- array
- data
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1744—Redundancy elimination performed by the file system using compression, e.g. sparse files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/128—Details of file system snapshots on the file-level, e.g. snapshot creation, administration, deletion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3059—Digital compression and data reduction techniques where the original information is represented by a subset or similar information, e.g. lossy compression
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明中提出的一种基于单快照的多体模拟有损压缩技术,其主要内容包括:预测模型、有损压缩的优化,其过程为,首先构造预测模型,使用最后返回值模型代替线性曲线拟合模型,使得熵编码可以应用于数据库的绝大部分数据;然后针对分子动力学模拟数据集的有损压缩进行优化,先执行部分基数排序,实现对R索引数组的排序,再使用最后返回值有损压缩方法,作用于重新排序的数组,对R索引数组进行分段排序;最后针对宇宙模拟数据集的有损压缩进行优化,根据基于速度的R索引数组排序和基于坐标‑速度的R索引排序两种方式来重组数据。本发明对多体模拟的有损压缩模型进行优化,新模型具有更高的压缩比,且在合理的压缩比下具有更小的失真率。
Description
技术领域
本发明涉及有损压缩领域,尤其是涉及了一种基于单快照的多体模拟有损压缩技术。
背景技术
有损压缩利用了人类对感兴趣的图像或者声波中的某些频率成分不敏感的特性,允许压缩过程中损失一定的信息,换来更大的压缩比;虽然不能完全恢复原始数据,但是所损失的部分对理解原始图像的影响很小。常见的声音、图像、视频压缩基本都是有损压缩。举例来说,经过有损压缩,音频能够在没有察觉的质量下降情况下实现较高的压缩比,视频能够在具有肉眼可观察的细微的质量下降的情况下实现非常大的压缩比。随着并行操作规模的日益扩大,当今的科学模拟需要存储的数据量越来越大,因此需要具有较大压缩比的压缩技术。比如,宇宙模拟当中,进行模拟的粒子的数目高达3.5兆,需要60PB的数据存储空间,这远远超出了超级存储器的存储空间。通常情况下,用户只存储数据的80%到90%。传统的方法通过压缩每一个快照来实现压缩数据。但是,其局限性在于这类方法十分难以实现,因为用户根本无法对多个快照进行平滑以减少数据的大小。另外,传统的方法具有较低的压缩比,因此其不能够直接应用于存储量巨大的多体模拟中。
本发明提出了一种基于单快照的多体模拟有损压缩技术,首先构造预测模型,使用最后返回值模型代替线性曲线拟合模型,使得熵编码可以应用于数据库的绝大部分数据;然后针对分子动力学模拟数据集的有损压缩进行优化,先执行部分基数排序,实现对R索引数组的排序,再使用最后返回值有损压缩方法,作用于重新排序的数组,对R索引数组进行分段排序;最后针对宇宙模拟数据集的有损压缩进行优化,根据基于速度的R索引数组排序和基于坐标-速度的R索引排序两种方式来重组数据。本发明对多体模拟的有损压缩模型进行优化,新模型具有更高的压缩比,且在合理的压缩比下具有更小的失真率。
发明内容
针对传统方法具有较低的压缩比等问题,本发明的目的在于提供一种基于单快照的多体模拟有损压缩技术,首先构造预测模型,使用最后返回值模型代替线性曲线拟合模型,使得熵编码可以应用于数据库的绝大部分数据;然后针对分子动力学模拟数据集的有损压缩进行优化,先执行部分基数排序,实现对R索引数组的排序,再使用最后返回值有损压缩方法,作用于重新排序的数组,对R索引数组进行分段排序;最后针对宇宙模拟数据集的有损压缩进行优化,根据基于速度的R索引数组排序和基于坐标-速度的R索引排序两种方式来重组数据。
为解决上述问题,本发明提供一种基于单快照的多体模拟有损压缩技术,其主要内容包括:
(一)预测模型;
(二)有损压缩的优化。
其中,所述的预测模型,使用最后返回值模型代替线性曲线拟合模型,最后返回值模型比线性曲线拟合模型具有更高的压缩比,平均每个变量的压缩比提高了10.1%;最后返回值模型采用具有很多量化区间的线性比例量化的方法,使得熵编码可以应用于数据库的绝大部分数据。
进一步地,所述的最后返回值模型以及线性曲线拟合模型,最后返回值模型利用先前一个数据点的预测值来估计当前时刻的数据点,即:最后返回值模型简单有效,在实际当中得到广泛的应用;
线性曲线拟合模型利用先前两个数据点的值来预测当前压缩的数据点,即: 其中,vxi-1和vxi-2表示先前两个数据点的值。
其中,所述的有损压缩的优化,包括针对分子动力学模拟数据集的有损压缩进行优化和针对宇宙模拟数据集的有损压缩进行优化;针对分子动力学模拟数据集的有损压缩进行优化,提出一种优化策略,其在保持相同的压缩比的情况下,把压缩速率提升至原来的两倍;这个策略包含以下两个步骤:
(1)执行部分基数排序,实现对R索引数组的排序,达到提高压缩性能的目的;通过部分基数排序提高压缩比;
(2)使用最后返回值有损压缩方法,作用在重新排序的数组(xx,yy,zz),而非直接作用于压缩的R索引数组;将数据集划分成为多个片段,基于每个片段上面的xx、yy和zz构造R索引数组;然后使用基数排序法对R索引数组进行分段排序。
进一步地,所述的有损压缩,其与无损压缩是数据压缩技术的两个分类;设计并完善有损压缩技术,可以用来压缩科学数据;大部分的有损压缩技术是为网格数据集设计的,网格数据集里面的相邻的数据之间具有强相干性。
进一步地,所述的R索引数组,首先,通过一个用户设定的误差门限分割坐标变量,将其值从浮点数转化成整数;然后,通过交叉存储三个坐标变量(xxi,yyi,zzi)的二进制表达式,产生R索引,即Ri。
进一步地,所述的部分基数排序,忽略最后的几个最低有效位,然后从倒数第n位开始进行基数排序;由于R索引数组是由三个坐标变量构造得到的,所以在每一轮按三位对其进行排序;部分基数排序不会减低压缩比的原因在于,重新排序好的数据数组在非常小的索引范围内甚至在全部基数R索引排序方法里面,仍然能够展现局部的不规则性。
进一步地,所述的排序,其是一种用于增强数据连续性的经典方法,其具有诸多局限性,特别在快照具有大量的数据点时,其局限性更加显著;其局限性表现在:第一,虽然排序法是最快的算法,但它也是十分耗时的操作;第二,由于重新排序的数据的位置,压缩器必须采用一个额外的索引数组来记录每一个点的原始位置,这将极大地限制压缩比;但是,对于分子元素来说,不需要对额外的索引信息进行排序,因为只要相同分子对应的元素的位置或者索引具有连续性,那么在重构的数据集里面每一个数组的分子元素可以被重新排序。
其中,所述的针对宇宙模拟数据集的有损压缩进行优化,其根据基于速度的R索引数组排序和基于坐标-速度的R索引排序,利用两个候选的解决方案来重组数据。
进一步地,所述的基于速度的R索引数组排序和基于坐标-速度的R索引排序,基于速度的R索引数组排序的策略与传统的优化方法相似;该策略平均可以提高20%的速度变量的压缩比,但其坐标变量的压缩比却严重下降;
基于坐标-速度的R索引排序,由于在至少使用一类R索引排序策略时,xx、zz、vx、vy、vz的压缩比可以得到提升,但是yy的压缩比总是减少;特殊地,yy在很宽的索引范围里是递增排序的,因此任何想要对其变量进行重新排序的策略,诸如基于R索引的排序策略,都会得到混乱的排序结果,从而得到低压缩比;所以,具有高度自相关的有序变量不适用于基于R索引的排序方法,而改进的使用最后返回值模型的有损压缩方法,具有最大的压缩比。
附图说明
图1是本发明一种基于单快照的多体模拟有损压缩技术的系统架构图。
图2是本发明一种基于单快照的多体模拟有损压缩技术的R索引结构图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于单快照的多体模拟有损压缩技术的系统架构图。主要包括预测模型、有损压缩的优化。
其中,所述的预测模型,使用最后返回值模型代替线性曲线拟合模型,最后返回值模型比线性曲线拟合模型具有更高的压缩比,平均每个变量的压缩比提高了10.1%;最后返回值模型采用具有很多量化区间的线性比例量化的方法,使得熵编码可以应用于数据库的绝大部分数据。
进一步地,所述的最后返回值模型以及线性曲线拟合模型,最后返回值模型利用先前一个数据点的预测值来估计当前时刻的数据点,即:最后返回值模型简单有效,在实际当中得到广泛的应用;
线性曲线拟合模型利用先前两个数据点的值来预测当前压缩的数据点,即: 其中,vxi-1和vxi-2表示先前两个数据点的值。
其中,所述的有损压缩的优化,包括针对分子动力学模拟数据集的有损压缩进行优化和针对宇宙模拟数据集的有损压缩进行优化;针对分子动力学模拟数据集的有损压缩进行优化,提出一种优化策略,其在保持相同的压缩比的情况下,把压缩速率提升至原来的两倍;针对宇宙模拟数据集的有损压缩进行优化,其根据基于速度的R索引数组排序和基于坐标-速度的R索引排序,利用两个候选的解决方案来重组数据。
进一步地,所述的基于速度的R索引数组排序和基于坐标-速度的R索引排序,基于速度的R索引数组排序的策略与传统的优化方法相似;该策略平均可以提高20%的速度变量的压缩比,但其坐标变量的压缩比却严重下降;
基于坐标-速度的R索引排序,由于在至少使用一类R索引排序策略时,xx、zz、vx、vy、vz的压缩比可以得到提升,但是yy的压缩比总是减少;特殊地,yy在很宽的索引范围里是递增排序的,因此任何想要对其变量进行重新排序的策略,诸如基于R索引的排序策略,都会得到混乱的排序结果,从而得到低压缩比;所以,具有高度自相关的有序变量不适用于基于R索引的排序方法,而改进的使用最后返回值模型的有损压缩方法,具有最大的压缩比。
图2是本发明一种基于单快照的多体模拟有损压缩技术的R索引结构图。其主要包括以下两个步骤:
(1)执行部分基数排序,实现对R索引数组的排序,达到提高压缩性能的目的;通过部分基数排序提高压缩比;
(2)使用最后返回值有损压缩方法,作用在重新排序的数组(xx,yy,zz),而非直接作用于压缩的R索引数组;将数据集划分成为多个片段,基于每个片段上面的xx、yy和zz构造R索引数组;然后使用基数排序法对R索引数组进行分段排序。
其中的有损压缩,其与无损压缩是数据压缩技术的两个分类;设计并完善有损压缩技术,可以用来压缩科学数据;大部分的有损压缩技术是为网格数据集设计的,网格数据集里面的相邻的数据之间具有强相干性。
其中的R索引数组,首先,通过一个用户设定的误差门限分割坐标变量,将其值从浮点数转化成整数;然后,通过交叉存储三个坐标变量(xxi,yyi,zzi)的二进制表达式,产生R索引,即Ri。
其中的部分基数排序,忽略最后的几个最低有效位,然后从倒数第n位开始进行基数排序;由于R索引数组是由三个坐标变量构造得到的,所以在每一轮按三位对其进行排序;部分基数排序不会减低压缩比的原因在于,重新排序好的数据数组在非常小的索引范围内甚至在全部基数R索引排序方法里面,仍然能够展现局部的不规则性。
其中的排序,排序是一种用于增强数据连续性的经典方法,其具有诸多局限性,特别在快照具有大量的数据点时,其局限性更加显著;其局限性表现在:第一,虽然排序法是最快的算法,但它也是一个十分耗时的操作;第二,由于重新排序的数据的位置,压缩器必须采用一个额外的索引数组来记录每一个点的原始位置,这将极大地限制压缩比;但是,对于分子元素来说,不需要对额外的索引信息进行排序,因为只要相同分子对应的元素的位置或者索引具有连续性,那么在重构的数据集里面每一个数组的分子元素可以被重新排序。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
Claims (10)
1.一种基于单快照的多体模拟有损压缩技术,其特征在于,主要包括预测模型(一);有损压缩的优化(二)。
2.基于权利要求书1所述的预测模型(一),其特征在于,使用最后返回值模型代替线性曲线拟合模型,最后返回值模型比线性曲线拟合模型具有更高的压缩比,平均每个变量的压缩比提高了10.1%;最后返回值模型采用具有很多量化区间的线性比例量化的方法,使得熵编码可以应用于数据库的绝大部分数据。
3.基于权利要求书2所述的最后返回值模型以及线性曲线拟合模型,其特征在于,最后返回值模型利用先前一个数据点的预测值来估计当前时刻的数据点,即:最后返回值模型简单有效,在实际当中得到广泛的应用;
线性曲线拟合模型利用先前两个数据点的值来预测当前压缩的数据点,即: 其中,vxi-1和vxi-2表示先前两个数据点的值。
4.基于权利要求书1所述的有损压缩的优化(二),其特征在于,包括针对分子动力学模拟数据集的有损压缩进行优化和针对宇宙模拟数据集的有损压缩进行优化;
其中,针对分子动力学模拟数据集的有损压缩进行优化,提出一种优化策略,其在保持相同的压缩比的情况下,把压缩速率提升至原来的两倍;这个策略包含以下两个步骤:
(1)执行部分基数排序,实现对R索引数组的排序,达到提高压缩性能的目的;通过部分基数排序提高压缩比;
(2)使用最后返回值有损压缩方法,作用在重新排序的数组(xx,yy,zz),而非直接作用于压缩的R索引数组;将数据集划分成为多个片段,基于每个片段上面的xx、yy和zz构造R索引数组;然后使用基数排序法对R索引数组进行分段排序。
5.基于权利要求书4所述的有损压缩,其特征在于,其与无损压缩是数据压缩技术的两个分类;设计并完善有损压缩技术,可以用来压缩科学数据;大部分的有损压缩技术是为网格数据集设计的,网格数据集里面的相邻的数据之间具有强相干性。
6.基于权利要求书4所述的R索引数组,其特征在于,首先,通过一个用户设定的误差门限分割坐标变量,将其值从浮点数转化成整数;然后,通过交叉存储三个坐标变量(xxi,yyi,zzi)的二进制表达式,产生R索引,即Ri。
7.基于权利要求书4所述的部分基数排序,其特征在于,忽略最后的几个最低有效位,然后从倒数第n位开始进行基数排序;由于R索引数组是由三个坐标变量构造得到的,所以在每一轮按三位对其进行排序;部分基数排序不会减低压缩比的原因在于,重新排序好的数据数组在非常小的索引范围内甚至在全部基数R索引排序方法里面,仍然能够展现局部的不规则性。
8.基于权利要求书7所述的排序,其特征在于,排序是一种用于增强数据连续性的经典方法,其具有诸多局限性,特别在快照具有大量的数据点时,其局限性更加显著;其局限性表现在:第一,虽然排序法是最快的算法,但它也是一个十分耗时的操作;第二,由于重新排序的数据的位置,压缩器必须采用一个额外的索引数组来记录每一个点的原始位置,这将极大地限制压缩比;但是,对于分子元素来说,不需要对额外的索引信息进行排序,因为只要相同分子对应的元素的位置或者索引具有连续性,那么在重构的数据集里面每一个数组的分子元素可以被重新排序。
9.基于权利要求书4所述的针对宇宙模拟数据集的有损压缩进行优化,其特征在于,根据基于速度的R索引数组排序和基于坐标-速度的R索引排序,利用两个候选的解决方案来重组数据。
10.基于权利要求书9所述的基于速度的R索引数组排序和基于坐标-速度的R索引排序,其特征在于,基于速度的R索引数组排序的策略与传统的优化方法相似;该策略平均可以提高20%的速度变量的压缩比,但其坐标变量的压缩比却严重下降;
而对于基于坐标-速度的R索引排序,由于在至少使用一类R索引排序策略时,xx、zz、vx、vy、vz的压缩比可以得到提升,但是yy的压缩比总是减少;特殊地,yy在很宽的索引范围里是递增排序的,因此任何想要对其变量进行重新排序的策略,诸如基于R索引的排序策略,都会得到混乱的排序结果,从而得到低压缩比;所以,具有高度自相关的有序变量不适用于基于R索引的排序方法,而改进的使用最后返回值模型的有损压缩方法,具有最大的压缩比。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810081727.5A CN108182283A (zh) | 2018-01-29 | 2018-01-29 | 一种基于单快照的多体模拟有损压缩技术 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810081727.5A CN108182283A (zh) | 2018-01-29 | 2018-01-29 | 一种基于单快照的多体模拟有损压缩技术 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108182283A true CN108182283A (zh) | 2018-06-19 |
Family
ID=62551594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810081727.5A Withdrawn CN108182283A (zh) | 2018-01-29 | 2018-01-29 | 一种基于单快照的多体模拟有损压缩技术 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108182283A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112685747A (zh) * | 2020-01-17 | 2021-04-20 | 华控清交信息科技(北京)有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN113114265A (zh) * | 2021-04-26 | 2021-07-13 | 北京交通大学 | 一种基于外推法的同步相量实时数据压缩方法 |
-
2018
- 2018-01-29 CN CN201810081727.5A patent/CN108182283A/zh not_active Withdrawn
Non-Patent Citations (1)
Title |
---|
DINGWEN TAO等: "In-Depth Exploration of Single-Snapshot Lossy Compression Techniques for N-Body Simulations", 《网页在线公开:HTTPS://ARXIV.ORG/ABS/1711.03888》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112685747A (zh) * | 2020-01-17 | 2021-04-20 | 华控清交信息科技(北京)有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN112685747B (zh) * | 2020-01-17 | 2022-02-01 | 华控清交信息科技(北京)有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN113114265A (zh) * | 2021-04-26 | 2021-07-13 | 北京交通大学 | 一种基于外推法的同步相量实时数据压缩方法 |
CN113114265B (zh) * | 2021-04-26 | 2024-03-19 | 北京交通大学 | 一种基于外推法的同步相量实时数据压缩方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11080277B2 (en) | Data set compression within a database system | |
CN102112986B (zh) | 对基于列的数据编码的结构的高效的大规模处理 | |
JP5466232B2 (ja) | 大規模なデータストレージのための効率的な列ベースデータの符号化 | |
Patel et al. | Parallel lossless data compression on the GPU | |
US8126855B2 (en) | Compression of tables based on occurrence of values | |
CN105374054A (zh) | 基于空谱特性的高光谱图像压缩方法 | |
CN111625574A (zh) | 一种基于布尔矩阵约简的关联规则挖掘算法 | |
US12050580B2 (en) | Data segment storing in a database system | |
CN108182283A (zh) | 一种基于单快照的多体模拟有损压缩技术 | |
Przymus et al. | Dynamic compression strategy for time series database using GPU | |
Tao et al. | Exploration of pattern-matching techniques for lossy compression on cosmology simulation data sets | |
CN116934487B (zh) | 一种金融清算数据优化存储方法及系统 | |
Crume et al. | Compressing intermediate keys between mappers and reducers in scihadoop | |
Pibiri et al. | On optimally partitioning variable-byte codes | |
CN112101548A (zh) | 数据压缩方法及装置、数据解压方法及装置、电子设备 | |
CN107077481B (zh) | 信息处理装置、信息处理方法和计算机可读存储介质 | |
CN101064844A (zh) | 一种使用旋转压缩码书对图像进行匹配压缩的方法 | |
US12001237B2 (en) | Pattern-based cache block compression | |
KR20080026772A (ko) | Lempel-Ziv 압축 방법의 복원 속도를 보완한압축 방법 | |
Rovnyagin et al. | Database storage format for high performance analytics of immutable data | |
Vo et al. | Compressing table data with column dependency | |
JP2022545644A (ja) | エンコーディング及びデコーディングテーブルを用いたセミソーティング圧縮 | |
Zheng et al. | iCHUM: an efficient algorithm for high utility mining in incremental databases | |
Cheng et al. | The Key as Dictionary Compression Method of Inverted Index Table under the Hbase Database. | |
Kim et al. | Multi-Dimensional Data Compression and Query Processing in Array Databases |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180619 |
|
WW01 | Invention patent application withdrawn after publication |