CN116318172A

CN116318172A - 一种设计仿真软件数据自适应压缩方法

Info

Publication number: CN116318172A
Application number: CN202310597972.2A
Authority: CN
Inventors: 苏新新; 狄林林; 何新; 刘敏; 武晓旭; 田松
Original assignee: Shandong Huayun 3d Technology Co ltd
Current assignee: Shandong Huayun 3d Technology Co ltd
Priority date: 2023-05-25
Filing date: 2023-05-25
Publication date: 2023-06-23

Abstract

本发明数据压缩技术领域，具体涉及一种设计仿真软件数据自适应压缩方法,包括：初始化阶段，获得样本数据，对每种样本数据对应的压缩算法进行编码；对仿真软件的被压缩文件进行扫描，读取出部分数据；判断数据类型，得到所选压缩算法的编号，调用编号对应的压缩算法进行压缩；将压缩后的数据存储到文件缓存中，重复上述步骤直至所有数据都被压缩。解决了只是用一种或几种压缩方法对系统软件压缩的现状，使软件系统每部分数据都可以自动匹配最合适的压缩算法，提高了压缩率。

Description

一种设计仿真软件数据自适应压缩方法

技术领域

本发明涉及数据压缩技术领域，具体涉及一种设计仿真软件数据自适应压缩方法及系统。

背景技术

数据压缩主要是指在信息存储的过程中，去掉占用额外比特位编码的冗余数据，使用比原始数据更少的数据位来编码信息的过程，缩减数据量以减少存储空间，提高其传输、存储和处理效率的一种技术方法。被压缩的对象包括：物理空间即数据存储介质的尺寸，时间区间即传输消息集合所需的时间，电磁频谱区域即传输消息的带宽。分为可逆压缩和不可逆压缩，可逆压缩如ZIP、RAR、ARJ、CAB等文件，可以精确地恢复原来的数据；不可逆的压缩如JPEG、MPEG系列等对图片、声音、视频等进行压缩，不可精确的恢复原始信号。常见的压缩算法有哈夫曼编码、字典编码、LZ77、LZW算法等。传统的数据压缩软件数据压缩通常是开发人员在程序中预设几个压缩算法，指定每个模块在压缩的时候的算法，这种压缩方式灵活性差，压缩效率低，无法根据数据流自动的选择合适的技术。

基于机器学习的数据压缩算法，采用常用的机器学习聚类和分类理论，使用K-均值、决策树等分类算法将具备较高相似性的数据聚集成同一个类中，然后对同一种数据进行压缩。

基于神经网络的数据压缩方法主要针对图像数据，通过神经网络自学习，提取出隐含在数据中的特征信息，进行数据压缩。压缩编码的核心思想是找到仿真文件支持的数据，并根据数据类型将数据进行分类，建立映射关系。

在工业生产领域产生的大量实时数据，为了提高实数据库的使用效率，必须要对存储的数据进行压缩等处理，使其占用更少的存储空间，提高数据库的容量。例如常用的基于不同类型数据采用不同数据压缩算法，首先对大量历史数据分析，将实时数据库中保存的数据分为数据型数据、时间型数据、代码型数据，对时间型和代码型数据采用RLE算法压缩，对布尔型数据、百分量型、浮点型数据采用LZW算法和LZ78算法结合的方式压缩。

由于设计仿真软件导出的文件数据量大需要压缩，包括的数据类型种类多，有信号、时间、输出、状态、日志数据的任意组合的，还包括网格、视频和图片等数据，其中网格数据是点线面。网格类型按形状分为三角形、四边形、四面体等，按阶次分为线性、二阶、多阶。本发明针对以上情况导致仿真软件中数据不能得到更有效的压缩的问题，基于神经网络数据多分类和预测方面的优势和不同类型数据采用不同数据压缩算法的方法，设计了基于神经网络的自适应算法选配模型。

发明内容

本发明针对上述问题，提供了一种设计仿真软件数据自适应压缩方法，解决了只是用一种或几种压缩方法对系统软件压缩的现状，使软件系统每部分数据都可以自动匹配最合适的压缩算法，提高了压缩率。

本发明是通过如下方案实现的：一种设计仿真软件数据自适应压缩方法，包括如下步骤：S1、初始化阶段，获得样本数据，对每种样本数据对应的压缩算法进行编码，S2、对仿真软件的被压缩文件进行扫描，读取出部分数据；S3、判断数据类型，得到所选压缩算法的编号，调用编号对应的压缩算法进行压缩；S4、将压缩后的数据存储到文件缓存中，重复步骤S2直至所有数据都被压缩。

步骤S1中，获得样本数据时，从仿真数据的历史数据中，根据压缩数据的不同种类，依据相似数据法选择不同样本数据，分别选择随机数据、重复数据、公式表示数据、编码数据、数值型数据、文本型数据，并指定每条数据所属类别；或采用计算机程序生成相似类型的样本数据；对于图像数据、音频数据、视频数据采用其属性作为样本数据；对样本数据预处理，添加自定义词典和停用词典，对样本数据分词，去掉停用词，进行空格拼接，并写入到新的文件中。

编码和向量化：对数据集所属的不同类别标签数据进行OneHot编码，将离散数据的取值扩展到欧式空间形成矩阵，离散特征的某个取值就对应欧式空间中的某个点。使用Tokenizer对词进行编码，将文本数据转化为数字特性，截长补短使得所有样本长度一致，使用Embedding将每个词编码转化为词向量，对训练集进行shuffle处理。为了减少特征值差距很大对模型参数影响，严重影响模型参数分布，对样本数据整体归一化。

步骤S1中对每种样本数据对应的压缩算法进行编码时,采用自适应神经网络模型进行编码, 自适应神经网络模型对每种样本数据对应的压缩算法进行编码作为网络的输出。

基于深度学习文本分类模型TextCNN建立自适应神经网络模型CNN，包括类别设定、词嵌入、卷积池化*n、拼接、全连接、dropout、全连接、优化函数、评价指标等步骤，使用数据序列中70%用于网络模型训练，后面30%用于精度训练，对每种样本数据对应的压缩算法进行编码作为网络的输出，使用深度学习方法不断调优，并保存训练好的模型。

自适应神经网络模型的训练包括如下步骤:

S11、数据预处理：根据仿真软件中的不同的类型数据，选择不同的测试样本；使用lightgbm进行labelEncoder编码处理，同时对特征进行embeding处理，通过categorical_feature变量处理，使用了类别特征的最优切分进行了处理，使用0.25的样本比例随机拆分训练集和测试集;

S12、创建训练和测试数据集：通过NumPy的array函数input_pred创建输入和输出训练和测试集，将输入数据转化为tensor归一化；缩放数据：使用fit_transform函数就进行缩放数据;将数据按比例缩放，使之落入一个设定区间，提升模型的训练速度和精确度;

S13、构建基于keras的全连接网络模型。

步骤S13包括，S131、创建模型初始化函数Sequential，定义输入维度、输出维度、激励函数；设置多个隐藏层、激励函数、Dropout；S132、设置优化函数RMSprop：初始学习率lr=0.01，rho=0.9，epsilon和decay；S133、多分类任务中的使用交叉熵损失函数度量两个概率分布间的差异性信息，其中交叉损失函数：

其中p=[p₀,..,p_c-1]是一个概率分布，每个元素pi表示样本属于第i类的概率，y=[y₀,...,y_c-1]是样本标签的onehot表示，当样本属于第i个类别是y_i=1，其他y_i=0，c是样本标签，交叉损失函数程序代码：keras.losses.categorical_crossentropy(y_true, y)；在模型中，使用model.compile方法设置优化函数和分类交叉熵损失函数；S134、采用 />

回归，对每一个神经元输出求幂，然后再进行归一化操作，使各个分量的和为1；S135、调用model.fit开始训练测试集数据，并调用模型进行预测，计算计算损失和精确度，画出loss曲线，使用keras.metrics.categorical_accuracy计算多元分类的评价函数。

步骤S3中，首先，将未压缩的数据输入数据类型划分模块，针对不同类型的输入数据，根据类型、特征、经验，或根据多个文件或单个文件中特殊符号拆分将要压缩文件中未压缩的部分，提取出隐含在数据中的特征信息，特征信息包括文件类型或者数据类型，从中提取出部分数据作为本部分的采样数据，嵌入到预训练的词向量中，得到数字编码后的采样数据；其次，将采样数据输入到自适应神经网络模型中，得到压缩算法库中每种压缩算法的分类概率，输出压缩算法类别编号；接着，将未压缩的数据根据压缩算法类别编号从压缩算法库中执行不同压缩操作，既要保证压缩率，更要考虑到数据压缩处理的实时性，最终输出经过压缩后的数据；其中，有数据暂存模块用于缓存未压缩的数据，由于数据类型较多，数据产生的速率又较快，数据压缩算法在处理时需要一定的时间，所以需要提供一个缓存装置存储将要处理的数据，用于调整数据供给和压缩处理之间的速度差，实现步调一致；最后，合成压缩的数据和文件说明部分构建压缩文件并记录说明每部分使用到的压缩算法。

所述的步骤S3还包括（3）建设和调用压缩算法库。建设压缩算法项目库，实现本领域内常见的压缩算法，并设定对外部通讯的调用接口。

根据自适应算法选择模块输出的压缩算法编码，调用压缩算法库内的压缩算法。达到的效果如下：对连续重复的数据调用RLE压缩算法，将重复数据模块记录到公共变量中；对于连续性公式数据，调用机器学习算法进行拟合，得到相应公式，根据公式和横坐标点集合对数据进行压缩；对视频图像数据，采用基于深度学习的压缩方法进行压缩。

数据压缩算法中，多个目标压缩算法选择的优化问题，表示为

其中 />

， />

等代表多目标约束问题，如选择算法的运行时间和压缩效果等。本发明采用线性加权法对处理数据压缩的多目标优化方案， />

根据用户的要求自动调整 />

系数。算法适配的最优解问题即变成求上式的最优解问题，要求在尽量少损失或不损失数据中心的有用信息条件下，获得尽可能高的数据压缩比作为评价数据压缩的指标。

上述方法可以采用仿真软件数据自适应压缩系统，包括如下模块：

自适应算法选择模块，用于采集样本数据，并对样本数据进行预处理，创建训练和测试数据集，对自适应神经网络进行训练，对每种样本数据对应的压缩算法进行编码；

压缩算法库，用于整合包括LZ77、Huffman、GZIP、LZO、LZ4、Snappy的压缩算法，搭建算法库项目，并对每种算法函数定义调用接口，所述接口与编码对应；

仿真软件未压缩数据提取模块，用于对仿真软件的被压缩文件进行扫描，读取出部分数据，提取出隐含在数据中的特征信息；

压缩执行模块，将未压缩的数据根据压缩算法类别编号从压缩算法库中执行不同压缩操作，输出经过压缩后的数据；合成压缩的数据和文件说明部分构建压缩文件并记录说明每部分使用到的压缩算法；

数据暂存模块，是用于缓存未压缩的数据，调整数据供给和压缩处理之间的速度差，实现步调一致。

通过上述描述可以看出,本发明本发明解决了如何对仿真软件数据压缩时,调用现有的数据压缩算法的技术。基于建设的压缩算法库的自适应神经网络模型,首先，初始化阶段包括样本选择、特征处理、模型训练和自适应算法选择模块实现等；其次，对压缩文件进行扫描，读取出部分数据，判断数据类型，并输入到自适应算法选择模块中，得到所选压缩算法的编号；再次，通过接口的形式调用相应的压缩算法，最后，将压缩后的部分数据存储到文件缓存中, 使仿真软件系统每部分数据都可以自动匹配最合适的压缩算法，提高了压缩率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明具体实施方式的流程图。

图2为样本数据的处理和分类模型的训练示意图。

图3为压缩算法库建设示意图。

图4为未压缩数据处理及压缩流程图。

图5为基于多分类任务的神经网络模型构建流程图。

图6为基于Softmax回归的神经网络结构图。

图7为多种类型数据特征提取与对应压缩算法样例。

图8为多种数据压缩算法及编码示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明实施例，本领域普通技术人员所获得的所有其它实施例，都属于本发明实施例保护的范围。除非另有定义，本文所使用的所有的技术和科学技术术语与属于本发明的技术人员通常理解的含义相同。

本具体实施方式提供了一种设计仿真软件数据自适应压缩方法，包括如下步骤：

S1、初始化阶段，获得样本数据，对每种样本数据对应的压缩算法进行编码.

步骤S1中，获得样本数据时，从仿真数据的历史数据中，根据压缩数据的不同种类，依据相似数据法选择不同样本数据，分别选择随机数据、重复数据、公式表示数据、编码数据、数值型数据、文本型数据，并指定每条数据所属类别；对于图像数据、音频数据、视频数据采用其属性作为样本数据；对样本数据预处理，添加自定义词典和停用词典，对样本数据分词，去掉停用词，进行空格拼接，并写入到新的文件中。

如：对“一种智能数据压缩方法”提取出基础特征是：“智能”和“压缩”，基础特征编码为“10和01”，则该句分词后的模糊编码为“[[0,0][1,0][0,0][0,1][0,0]]”，同时，使用-1进行数据填充。

步骤S1中对每种样本数据对应的压缩算法进行编码时,采用自适应神经网络模型进行编码, 自适应神经网络模型对每种样本数据对应的压缩算法进行编码作为网络的输出。如果是音视频文件类型则输出音视频压缩算法对应的编码；如果是数据流，则加载训练好的模型，输出数据流对应的压缩算法的编码。

自适应神经网络模型的训练包括如下步骤:

S12、创建训练和测试数据集：通过NumPy的array函数input_pred创建输入和输出训练和测试集，将输入数据转化为tensor归一化；缩放数据：使用fit_transform函数就进行缩放数据;将数据按比例缩放，使之落入一个小的特定区间，提升模型的训练速度和精确度;

S13、构建基于keras的全连接网络模型。

步骤S13包括，

S131、创建模型初始化函数Sequential，定义输入维度、输出维度、激励函数；设置多个隐藏层、激励函数、Dropout；

S132、设置优化函数RMSprop：初始学习率lr=0.01，rho=0.9，epsilon和decay；

S133、多分类任务中的使用交叉熵损失函数度量两个概率分布间的差异性信息，其中交叉损失函数：

其中p=[p₀,..,p_c-1]是一个概率分布，每个元素pi表示样本属于第i类的概率，y=[y₀,...,y_c-1]是样本标签的onehot表示，当样本属于第i个类别是y_i=1，其他y_i=0，c是样本标签，交叉损失函数程序代码：keras.losses.categorical_crossentropy(y_true, y)；在模型中，使用model.compile方法设置优化函数和分类交叉熵损失函数；

S134、采用

回归，对每一个神经元输出求幂，然后再进行归一化操作，使各个分量的和为1；

S135、调用model.fit开始训练测试集数据，并调用模型进行预测，计算计算损失和精确度，画出loss曲线，使用keras.metrics.categorical_accuracy计算多元分类的评价函数。

S2、对仿真软件的被压缩文件进行扫描，读取出部分数据。

S3、判断数据类型，得到所选压缩算法的编号，调用编号对应的压缩算法进行压缩。

步骤S3中，首先，将未压缩的数据输入数据类型划分模块，针对不同类型的输入数据，根据类型、特征、经验，或根据多个文件或单个文件中特殊符号拆分将要压缩文件中未压缩的部分，提取出隐含在数据中的特征信息，特征信息包括文件类型或者数据类型，从中提取出部分数据作为本部分的采样数据，嵌入到预训练的词向量中，得到数字编码后的采样数据；其次，将采样数据输入到自适应神经网络模型中，得到压缩算法库中每种压缩算法的分类概率，输出压缩算法类别编号；接着，将未压缩的数据根据压缩算法类别编号从压缩算法库中执行不同压缩操作，既要保证压缩率，更要考虑到数据压缩处理的实时性，最终输出经过压缩后的数据；其中，有数据暂存模块用于缓存未压缩的数据，由于数据类型较多，数据产生的速率又较快，数据压缩算法在处理时需要一定的时间，所以需要提供一个缓存装置存储将要处理的数据，用于调整数据供给和压缩处理之间的速度差，实现步调一致，同时，也可应对系统异常中止的情况；最后，合成压缩的数据和文件说明部分构建压缩文件并记录说明每部分使用到的压缩算法,如图4所示。

在本步骤中，要建设压缩算法项目库，实现本领域内常见的压缩算法，并设定对外部通讯的调用接口。如附图3所示。

根据自适应算法选择模块输出的压缩算法编码，调用压缩算法库内的压缩算法。整理测试样本数据所属分类的算法的具体实现，整合LZ77、Huffman、GZIP、LZO、LZ4、Snappy等常用压缩算法，搭建算法库项目，达到的效果如下：对连续重复的数据调用RLE压缩算法，将重复数据模块记录到公共变量中；对于连续性公式数据，调用机器学习算法进行拟合，得到相应公式，根据公式和横坐标点集合对数据进行压缩；对视频图像数据，采用基于深度学习的压缩方法进行压缩。

其中 />

， />

等代表多目标约束问题，如选择算法的运行时间和压缩效果等。本发明采用线性加权法对处理数据压缩的多目标优化方案，/>

根据用户的要求自动调整 />

S4、将压缩后的数据存储到文件缓存中，重复步骤S2直至所有数据都被压缩。

用于上述方法的仿真软件数据自适应压缩系统，包括如下模块：

以上所述具体实施方式仅用以说明本申请的技术方案，而非对其限制；尽管参照前述具体实施方式对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各具体实施方式技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种设计仿真软件数据自适应压缩方法，其特征在于，包括如下步骤：

S1、初始化阶段，获得样本数据，对每种样本数据对应的压缩算法进行编码；

S2、对仿真软件的被压缩文件进行扫描，读取出部分数据；

S3、判断数据类型，得到所选压缩算法的编号，调用编号对应的压缩算法进行压缩；

2.根据权利要求1所述的设计仿真软件数据自适应压缩方法，其特征在于，

步骤S1中，获得样本数据时，从仿真数据的历史数据中，根据压缩数据的不同种类，依据相似数据法选择不同样本数据，分别选择随机数据、重复数据、公式表示数据、编码数据、数值型数据、文本型数据，并指定每条数据所属类别；对于图像数据、音频数据、视频数据采用其属性作为样本数据；对样本数据预处理，添加自定义词典和停用词典，对样本数据分词，去掉停用词，进行空格拼接。

3.根据权利要求1所述的设计仿真软件数据自适应压缩方法，其特征在于，

4.根据权利要求3所述的设计仿真软件数据自适应压缩方法，其特征在于，

自适应神经网络模型的训练包括如下步骤:

S13、构建基于keras的全连接网络模型。

5.根据权利要求4所述的设计仿真软件数据自适应压缩方法，其特征在于，

步骤S13包括，

S134、采用

S135、调用model.fit开始训练测试集数据，并调用模型进行预测，计算损失和精确度，画出loss曲线，使用keras.metrics.categorical_accuracy计算多元分类的评价函数。

6.根据权利要求4所述的设计仿真软件数据自适应压缩方法，其特征在于，

步骤S3中，首先，将未压缩的数据输入数据类型划分模块，针对不同类型的输入数据，根据类型、特征、经验，或根据多个文件或单个文件中特殊符号拆分将要压缩文件中未压缩的部分，提取出隐含在数据中的特征信息，特征信息包括文件类型或者数据类型，从中提取出部分数据作为本部分的采样数据，嵌入到预训练的词向量中，得到数字编码后的采样数据；其次，将采样数据输入到自适应神经网络模型中，得到压缩算法库中每种压缩算法的分类概率，输出压缩算法类别编号；接着，将未压缩的数据根据压缩算法类别编号从压缩算法库中执行不同压缩操作，最终输出经过压缩后的数据；其中，有数据暂存模块用于缓存未压缩的数据，用于调整数据供给和压缩处理之间的速度差，实现步调一致；最后，合成压缩的数据和文件说明部分构建压缩文件并记录说明每部分使用到的压缩算法。

7.根据权利要求6所述的设计仿真软件数据自适应压缩方法，其特征在于：

压缩算法库，用于整合包括LZ77、Huffman、GZIP、LZO、LZ4、Snappy的压缩算法，搭建算法库项目，并对每种算法函数定义调用接口，所述接口与编码对应。