CN116318172A - 一种设计仿真软件数据自适应压缩方法 - Google Patents
一种设计仿真软件数据自适应压缩方法 Download PDFInfo
- Publication number
- CN116318172A CN116318172A CN202310597972.2A CN202310597972A CN116318172A CN 116318172 A CN116318172 A CN 116318172A CN 202310597972 A CN202310597972 A CN 202310597972A CN 116318172 A CN116318172 A CN 116318172A
- Authority
- CN
- China
- Prior art keywords
- data
- compression
- sample
- compression algorithm
- compressed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007906 compression Methods 0.000 title claims abstract description 121
- 230000006835 compression Effects 0.000 title claims abstract description 121
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000013461 design Methods 0.000 title claims abstract description 15
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 114
- 230000006870 function Effects 0.000 claims description 37
- 238000012545 processing Methods 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 28
- 238000012360 testing method Methods 0.000 claims description 18
- 238000003062 neural network model Methods 0.000 claims description 14
- 230000003044 adaptive effect Effects 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000005284 excitation Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000004088 simulation Methods 0.000 claims description 4
- 239000002131 composite material Substances 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000013144 data compression Methods 0.000 abstract description 23
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 2
- 230000002427 irreversible effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/60—General implementation details not specific to a particular type of compression
- H03M7/6064—Selection of Compressor
- H03M7/6082—Selection strategies
- H03M7/6088—Selection strategies according to the data type
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/70—Type of the data to be coded, other than image and sound
- H03M7/702—Software
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明数据压缩技术领域,具体涉及一种设计仿真软件数据自适应压缩方法,包括:初始化阶段,获得样本数据,对每种样本数据对应的压缩算法进行编码;对仿真软件的被压缩文件进行扫描,读取出部分数据;判断数据类型,得到所选压缩算法的编号,调用编号对应的压缩算法进行压缩;将压缩后的数据存储到文件缓存中,重复上述步骤直至所有数据都被压缩。解决了只是用一种或几种压缩方法对系统软件压缩的现状,使软件系统每部分数据都可以自动匹配最合适的压缩算法,提高了压缩率。
Description
技术领域
本发明涉及数据压缩技术领域,具体涉及一种设计仿真软件数据自适应压缩方法及系统。
背景技术
数据压缩主要是指在信息存储的过程中,去掉占用额外比特位编码的冗余数据,使用比原始数据更少的数据位来编码信息的过程,缩减数据量以减少存储空间,提高其传输、存储和处理效率的一种技术方法。被压缩的对象包括:物理空间即数据存储介质的尺寸,时间区间即传输消息集合所需的时间,电磁频谱区域即传输消息的带宽。分为可逆压缩和不可逆压缩,可逆压缩如ZIP、RAR、ARJ、CAB等文件,可以精确地恢复原来的数据;不可逆的压缩如JPEG、MPEG系列等对图片、声音、视频等进行压缩,不可精确的恢复原始信号。常见的压缩算法有哈夫曼编码、字典编码、LZ77、LZW算法等。传统的数据压缩软件数据压缩通常是开发人员在程序中预设几个压缩算法,指定每个模块在压缩的时候的算法,这种压缩方式灵活性差,压缩效率低,无法根据数据流自动的选择合适的技术。
基于机器学习的数据压缩算法,采用常用的机器学习聚类和分类理论,使用K-均值、决策树等分类算法将具备较高相似性的数据聚集成同一个类中,然后对同一种数据进行压缩。
基于神经网络的数据压缩方法主要针对图像数据,通过神经网络自学习,提取出隐含在数据中的特征信息,进行数据压缩。压缩编码的核心思想是找到仿真文件支持的数据,并根据数据类型将数据进行分类,建立映射关系。
在工业生产领域产生的大量实时数据,为了提高实数据库的使用效率,必须要对存储的数据进行压缩等处理,使其占用更少的存储空间,提高数据库的容量。例如常用的基于不同类型数据采用不同数据压缩算法,首先对大量历史数据分析,将实时数据库中保存的数据分为数据型数据、时间型数据、代码型数据,对时间型和代码型数据采用RLE算法压缩,对布尔型数据、百分量型、浮点型数据采用LZW算法和LZ78算法结合的方式压缩。
由于设计仿真软件导出的文件数据量大需要压缩,包括的数据类型种类多,有信号、时间、输出、状态、日志数据的任意组合的,还包括网格、视频和图片等数据,其中网格数据是点线面。网格类型按形状分为三角形、四边形、四面体等,按阶次分为线性、二阶、多阶。本发明针对以上情况导致仿真软件中数据不能得到更有效的压缩的问题,基于神经网络数据多分类和预测方面的优势和不同类型数据采用不同数据压缩算法的方法,设计了基于神经网络的自适应算法选配模型。
发明内容
本发明针对上述问题,提供了一种设计仿真软件数据自适应压缩方法,解决了只是用一种或几种压缩方法对系统软件压缩的现状,使软件系统每部分数据都可以自动匹配最合适的压缩算法,提高了压缩率。
本发明是通过如下方案实现的:一种设计仿真软件数据自适应压缩方法,包括如下步骤:S1、初始化阶段,获得样本数据,对每种样本数据对应的压缩算法进行编码,S2、对仿真软件的被压缩文件进行扫描,读取出部分数据;S3、判断数据类型,得到所选压缩算法的编号,调用编号对应的压缩算法进行压缩;S4、将压缩后的数据存储到文件缓存中,重复步骤S2直至所有数据都被压缩。
步骤S1中,获得样本数据时,从仿真数据的历史数据中,根据压缩数据的不同种类,依据相似数据法选择不同样本数据,分别选择随机数据、重复数据、公式表示数据、编码数据、数值型数据、文本型数据,并指定每条数据所属类别;或采用计算机程序生成相似类型的样本数据;对于图像数据、音频数据、视频数据采用其属性作为样本数据;对样本数据预处理,添加自定义词典和停用词典,对样本数据分词,去掉停用词,进行空格拼接,并写入到新的文件中。
编码和向量化:对数据集所属的不同类别标签数据进行OneHot编码,将离散数据的取值扩展到欧式空间形成矩阵,离散特征的某个取值就对应欧式空间中的某个点。使用Tokenizer对词进行编码,将文本数据转化为数字特性,截长补短使得所有样本长度一致,使用Embedding将每个词编码转化为词向量,对训练集进行shuffle处理。为了减少特征值差距很大对模型参数影响,严重影响模型参数分布,对样本数据整体归一化。
步骤S1中对每种样本数据对应的压缩算法进行编码时,采用自适应神经网络模型进行编码, 自适应神经网络模型对每种样本数据对应的压缩算法进行编码作为网络的输出。
基于深度学习文本分类模型TextCNN建立自适应神经网络模型CNN,包括类别设定、词嵌入、卷积池化*n、拼接、全连接、dropout、全连接、优化函数、评价指标等步骤,使用数据序列中70%用于网络模型训练,后面30%用于精度训练,对每种样本数据对应的压缩算法进行编码作为网络的输出,使用深度学习方法不断调优,并保存训练好的模型。
自适应神经网络模型的训练包括如下步骤:
S11、数据预处理:根据仿真软件中的不同的类型数据,选择不同的测试样本;使用lightgbm进行labelEncoder编码处理,同时对特征进行embeding处理,通过categorical_feature变量处理,使用了类别特征的最优切分进行了处理,使用0.25的样本比例随机拆分训练集和测试集;
S12、创建训练和测试数据集:通过NumPy的array函数input_pred创建输入和输出训练和测试集,将输入数据转化为tensor归一化;缩放数据:使用fit_transform函数就进行缩放数据;将数据按比例缩放,使之落入一个设定区间,提升模型的训练速度和精确度;
S13、构建基于keras的全连接网络模型。
步骤S13包括,S131、创建模型初始化函数Sequential,定义输入维度、输出维度、激励函数;设置多个隐藏层、激励函数、Dropout;S132、设置优化函数RMSprop:初始学习率lr=0.01,rho=0.9,epsilon和decay;S133、多分类任务中的使用交叉熵损失函数度量两个概率分布间的差异性信息,其中交叉损失函数: 其中p=[p0,..,pc-1]是一个概率分布,每个元素pi表示样本属于第i类的概率,y=[y0,...,yc-1]是样本标签的onehot表示,当样本属于第i个类别是yi=1,其他yi=0,c是样本标签,交叉损失函数程序代码:keras.losses.categorical_crossentropy(y_true, y);在模型中,使用model.compile方法设置优化函数和分类交叉熵损失函数;S134、采用 />回归,对每一个神经元输出求幂,然后再进行归一化操作,使各个分量的和为1;S135、调用model.fit开始训练测试集数据,并调用模型进行预测,计算计算损失和精确度,画出loss曲线,使用keras.metrics.categorical_accuracy计算多元分类的评价函数。
步骤S3中,首先,将未压缩的数据输入数据类型划分模块,针对不同类型的输入数据,根据类型、特征、经验,或根据多个文件或单个文件中特殊符号拆分将要压缩文件中未压缩的部分,提取出隐含在数据中的特征信息,特征信息包括文件类型或者数据类型,从中提取出部分数据作为本部分的采样数据,嵌入到预训练的词向量中,得到数字编码后的采样数据;其次,将采样数据输入到自适应神经网络模型中,得到压缩算法库中每种压缩算法的分类概率,输出压缩算法类别编号;接着,将未压缩的数据根据压缩算法类别编号从压缩算法库中执行不同压缩操作,既要保证压缩率,更要考虑到数据压缩处理的实时性,最终输出经过压缩后的数据;其中,有数据暂存模块用于缓存未压缩的数据,由于数据类型较多,数据产生的速率又较快,数据压缩算法在处理时需要一定的时间,所以需要提供一个缓存装置存储将要处理的数据,用于调整数据供给和压缩处理之间的速度差,实现步调一致;最后,合成压缩的数据和文件说明部分构建压缩文件并记录说明每部分使用到的压缩算法。
所述的步骤S3还包括(3)建设和调用压缩算法库。建设压缩算法项目库,实现本领域内常见的压缩算法,并设定对外部通讯的调用接口。
根据自适应算法选择模块输出的压缩算法编码,调用压缩算法库内的压缩算法。达到的效果如下:对连续重复的数据调用RLE压缩算法,将重复数据模块记录到公共变量中;对于连续性公式数据,调用机器学习算法进行拟合,得到相应公式,根据公式和横坐标点集合对数据进行压缩;对视频图像数据,采用基于深度学习的压缩方法进行压缩。
数据压缩算法中,多个目标压缩算法选择的优化问题,表示为其中 />, />等代表多目标约束问题,如选择算法的运行时间和压缩效果等。本发明采用线性加权法对处理数据压缩的多目标优化方案, />根据用户的要求自动调整 />系数。算法适配的最优解问题即变成求上式的最优解问题,要求在尽量少损失或不损失数据中心的有用信息条件下,获得尽可能高的数据压缩比作为评价数据压缩的指标。
上述方法可以采用仿真软件数据自适应压缩系统,包括如下模块:
自适应算法选择模块,用于采集样本数据,并对样本数据进行预处理,创建训练和测试数据集,对自适应神经网络进行训练,对每种样本数据对应的压缩算法进行编码;
压缩算法库,用于整合包括LZ77、Huffman、GZIP、LZO、LZ4、Snappy的压缩算法,搭建算法库项目,并对每种算法函数定义调用接口,所述接口与编码对应;
仿真软件未压缩数据提取模块,用于对仿真软件的被压缩文件进行扫描,读取出部分数据,提取出隐含在数据中的特征信息;
压缩执行模块,将未压缩的数据根据压缩算法类别编号从压缩算法库中执行不同压缩操作,输出经过压缩后的数据;合成压缩的数据和文件说明部分构建压缩文件并记录说明每部分使用到的压缩算法;
数据暂存模块,是用于缓存未压缩的数据,调整数据供给和压缩处理之间的速度差,实现步调一致。
通过上述描述可以看出,本发明本发明解决了如何对仿真软件数据压缩时,调用现有的数据压缩算法的技术。基于建设的压缩算法库的自适应神经网络模型,首先,初始化阶段包括样本选择、特征处理、模型训练和自适应算法选择模块实现等;其次,对压缩文件进行扫描,读取出部分数据,判断数据类型,并输入到自适应算法选择模块中,得到所选压缩算法的编号;再次,通过接口的形式调用相应的压缩算法,最后,将压缩后的部分数据存储到文件缓存中, 使仿真软件系统每部分数据都可以自动匹配最合适的压缩算法,提高了压缩率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明具体实施方式的流程图。
图2为样本数据的处理和分类模型的训练示意图。
图3为压缩算法库建设示意图。
图4为未压缩数据处理及压缩流程图。
图5为基于多分类任务的神经网络模型构建流程图。
图6为基于Softmax回归的神经网络结构图。
图7为多种类型数据特征提取与对应压缩算法样例。
图8为多种数据压缩算法及编码示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明实施例,本领域普通技术人员所获得的所有其它实施例,都属于本发明实施例保护的范围。除非另有定义,本文所使用的所有的技术和科学技术术语与属于本发明的技术人员通常理解的含义相同。
本具体实施方式提供了一种设计仿真软件数据自适应压缩方法,包括如下步骤:
S1、初始化阶段,获得样本数据,对每种样本数据对应的压缩算法进行编码.
步骤S1中,获得样本数据时,从仿真数据的历史数据中,根据压缩数据的不同种类,依据相似数据法选择不同样本数据,分别选择随机数据、重复数据、公式表示数据、编码数据、数值型数据、文本型数据,并指定每条数据所属类别;对于图像数据、音频数据、视频数据采用其属性作为样本数据;对样本数据预处理,添加自定义词典和停用词典,对样本数据分词,去掉停用词,进行空格拼接,并写入到新的文件中。
编码和向量化:对数据集所属的不同类别标签数据进行OneHot编码,将离散数据的取值扩展到欧式空间形成矩阵,离散特征的某个取值就对应欧式空间中的某个点。使用Tokenizer对词进行编码,将文本数据转化为数字特性,截长补短使得所有样本长度一致,使用Embedding将每个词编码转化为词向量,对训练集进行shuffle处理。为了减少特征值差距很大对模型参数影响,严重影响模型参数分布,对样本数据整体归一化。
如:对“一种智能数据压缩方法”提取出基础特征是:“智能”和“压缩”,基础特征编码为“10和01”,则该句分词后的模糊编码为“[[0,0][1,0][0,0][0,1][0,0]]”,同时,使用-1进行数据填充。
步骤S1中对每种样本数据对应的压缩算法进行编码时,采用自适应神经网络模型进行编码, 自适应神经网络模型对每种样本数据对应的压缩算法进行编码作为网络的输出。如果是音视频文件类型则输出音视频压缩算法对应的编码;如果是数据流,则加载训练好的模型,输出数据流对应的压缩算法的编码。
自适应神经网络模型的训练包括如下步骤:
S11、数据预处理:根据仿真软件中的不同的类型数据,选择不同的测试样本;使用lightgbm进行labelEncoder编码处理,同时对特征进行embeding处理,通过categorical_feature变量处理,使用了类别特征的最优切分进行了处理,使用0.25的样本比例随机拆分训练集和测试集;
S12、创建训练和测试数据集:通过NumPy的array函数input_pred创建输入和输出训练和测试集,将输入数据转化为tensor归一化;缩放数据:使用fit_transform函数就进行缩放数据;将数据按比例缩放,使之落入一个小的特定区间,提升模型的训练速度和精确度;
S13、构建基于keras的全连接网络模型。
步骤S13包括,
S131、创建模型初始化函数Sequential,定义输入维度、输出维度、激励函数;设置多个隐藏层、激励函数、Dropout;
S132、设置优化函数RMSprop:初始学习率lr=0.01,rho=0.9,epsilon和decay;
S133、多分类任务中的使用交叉熵损失函数度量两个概率分布间的差异性信息,其中交叉损失函数: 其中p=[p0,..,pc-1]是一个概率分布,每个元素pi表示样本属于第i类的概率,y=[y0,...,yc-1]是样本标签的onehot表示,当样本属于第i个类别是yi=1,其他yi=0,c是样本标签,交叉损失函数程序代码:keras.losses.categorical_crossentropy(y_true, y);在模型中,使用model.compile方法设置优化函数和分类交叉熵损失函数;
S135、调用model.fit开始训练测试集数据,并调用模型进行预测,计算计算损失和精确度,画出loss曲线,使用keras.metrics.categorical_accuracy计算多元分类的评价函数。
S2、对仿真软件的被压缩文件进行扫描,读取出部分数据。
S3、判断数据类型,得到所选压缩算法的编号,调用编号对应的压缩算法进行压缩。
步骤S3中,首先,将未压缩的数据输入数据类型划分模块,针对不同类型的输入数据,根据类型、特征、经验,或根据多个文件或单个文件中特殊符号拆分将要压缩文件中未压缩的部分,提取出隐含在数据中的特征信息,特征信息包括文件类型或者数据类型,从中提取出部分数据作为本部分的采样数据,嵌入到预训练的词向量中,得到数字编码后的采样数据;其次,将采样数据输入到自适应神经网络模型中,得到压缩算法库中每种压缩算法的分类概率,输出压缩算法类别编号;接着,将未压缩的数据根据压缩算法类别编号从压缩算法库中执行不同压缩操作,既要保证压缩率,更要考虑到数据压缩处理的实时性,最终输出经过压缩后的数据;其中,有数据暂存模块用于缓存未压缩的数据,由于数据类型较多,数据产生的速率又较快,数据压缩算法在处理时需要一定的时间,所以需要提供一个缓存装置存储将要处理的数据,用于调整数据供给和压缩处理之间的速度差,实现步调一致,同时,也可应对系统异常中止的情况;最后,合成压缩的数据和文件说明部分构建压缩文件并记录说明每部分使用到的压缩算法,如图4所示。
在本步骤中,要建设压缩算法项目库,实现本领域内常见的压缩算法,并设定对外部通讯的调用接口。如附图3所示。
根据自适应算法选择模块输出的压缩算法编码,调用压缩算法库内的压缩算法。整理测试样本数据所属分类的算法的具体实现,整合LZ77、Huffman、GZIP、LZO、LZ4、Snappy等常用压缩算法,搭建算法库项目,达到的效果如下:对连续重复的数据调用RLE压缩算法,将重复数据模块记录到公共变量中;对于连续性公式数据,调用机器学习算法进行拟合,得到相应公式,根据公式和横坐标点集合对数据进行压缩;对视频图像数据,采用基于深度学习的压缩方法进行压缩。
数据压缩算法中,多个目标压缩算法选择的优化问题,表示为其中 />, />等代表多目标约束问题,如选择算法的运行时间和压缩效果等。本发明采用线性加权法对处理数据压缩的多目标优化方案,/>根据用户的要求自动调整 />系数。算法适配的最优解问题即变成求上式的最优解问题,要求在尽量少损失或不损失数据中心的有用信息条件下,获得尽可能高的数据压缩比作为评价数据压缩的指标。
S4、将压缩后的数据存储到文件缓存中,重复步骤S2直至所有数据都被压缩。
用于上述方法的仿真软件数据自适应压缩系统,包括如下模块:
自适应算法选择模块,用于采集样本数据,并对样本数据进行预处理,创建训练和测试数据集,对自适应神经网络进行训练,对每种样本数据对应的压缩算法进行编码;
压缩算法库,用于整合包括LZ77、Huffman、GZIP、LZO、LZ4、Snappy的压缩算法,搭建算法库项目,并对每种算法函数定义调用接口,所述接口与编码对应;
仿真软件未压缩数据提取模块,用于对仿真软件的被压缩文件进行扫描,读取出部分数据,提取出隐含在数据中的特征信息;
压缩执行模块,将未压缩的数据根据压缩算法类别编号从压缩算法库中执行不同压缩操作,输出经过压缩后的数据;合成压缩的数据和文件说明部分构建压缩文件并记录说明每部分使用到的压缩算法;
数据暂存模块,是用于缓存未压缩的数据,调整数据供给和压缩处理之间的速度差,实现步调一致。
以上所述具体实施方式仅用以说明本申请的技术方案,而非对其限制;尽管参照前述具体实施方式对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各具体实施方式技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (7)
1.一种设计仿真软件数据自适应压缩方法,其特征在于,包括如下步骤:
S1、初始化阶段,获得样本数据,对每种样本数据对应的压缩算法进行编码;
S2、对仿真软件的被压缩文件进行扫描,读取出部分数据;
S3、判断数据类型,得到所选压缩算法的编号,调用编号对应的压缩算法进行压缩;
S4、将压缩后的数据存储到文件缓存中,重复步骤S2直至所有数据都被压缩。
2.根据权利要求1所述的设计仿真软件数据自适应压缩方法,其特征在于,
步骤S1中,获得样本数据时,从仿真数据的历史数据中,根据压缩数据的不同种类,依据相似数据法选择不同样本数据,分别选择随机数据、重复数据、公式表示数据、编码数据、数值型数据、文本型数据,并指定每条数据所属类别;对于图像数据、音频数据、视频数据采用其属性作为样本数据;对样本数据预处理,添加自定义词典和停用词典,对样本数据分词,去掉停用词,进行空格拼接。
3.根据权利要求1所述的设计仿真软件数据自适应压缩方法,其特征在于,
步骤S1中对每种样本数据对应的压缩算法进行编码时,采用自适应神经网络模型进行编码, 自适应神经网络模型对每种样本数据对应的压缩算法进行编码作为网络的输出。
4.根据权利要求3所述的设计仿真软件数据自适应压缩方法,其特征在于,
自适应神经网络模型的训练包括如下步骤:
S11、数据预处理:根据仿真软件中的不同的类型数据,选择不同的测试样本;使用lightgbm进行labelEncoder编码处理,同时对特征进行embeding处理,通过categorical_feature变量处理,使用了类别特征的最优切分进行了处理,使用0.25的样本比例随机拆分训练集和测试集;
S12、创建训练和测试数据集:通过NumPy的array函数input_pred创建输入和输出训练和测试集,将输入数据转化为tensor归一化;缩放数据:使用fit_transform函数就进行缩放数据;将数据按比例缩放,使之落入一个设定区间,提升模型的训练速度和精确度;
S13、构建基于keras的全连接网络模型。
5.根据权利要求4所述的设计仿真软件数据自适应压缩方法,其特征在于,
步骤S13包括,
S131、创建模型初始化函数Sequential,定义输入维度、输出维度、激励函数;设置多个隐藏层、激励函数、Dropout;
S132、设置优化函数RMSprop:初始学习率lr=0.01,rho=0.9,epsilon和decay;
S133、多分类任务中的使用交叉熵损失函数度量两个概率分布间的差异性信息,其中交叉损失函数:其中p=[p0,..,pc-1]是一个概率分布,每个元素pi表示样本属于第i类的概率,y=[y0,...,yc-1]是样本标签的onehot表示,当样本属于第i个类别是yi=1,其他yi=0,c是样本标签,交叉损失函数程序代码:keras.losses.categorical_crossentropy(y_true, y);在模型中,使用model.compile方法设置优化函数和分类交叉熵损失函数;
S135、调用model.fit开始训练测试集数据,并调用模型进行预测,计算损失和精确度,画出loss曲线,使用keras.metrics.categorical_accuracy计算多元分类的评价函数。
6.根据权利要求4所述的设计仿真软件数据自适应压缩方法,其特征在于,
步骤S3中,首先,将未压缩的数据输入数据类型划分模块,针对不同类型的输入数据,根据类型、特征、经验,或根据多个文件或单个文件中特殊符号拆分将要压缩文件中未压缩的部分,提取出隐含在数据中的特征信息,特征信息包括文件类型或者数据类型,从中提取出部分数据作为本部分的采样数据,嵌入到预训练的词向量中,得到数字编码后的采样数据;其次,将采样数据输入到自适应神经网络模型中,得到压缩算法库中每种压缩算法的分类概率,输出压缩算法类别编号;接着,将未压缩的数据根据压缩算法类别编号从压缩算法库中执行不同压缩操作,最终输出经过压缩后的数据;其中,有数据暂存模块用于缓存未压缩的数据,用于调整数据供给和压缩处理之间的速度差,实现步调一致;最后,合成压缩的数据和文件说明部分构建压缩文件并记录说明每部分使用到的压缩算法。
7.根据权利要求6所述的设计仿真软件数据自适应压缩方法,其特征在于:
压缩算法库,用于整合包括LZ77、Huffman、GZIP、LZO、LZ4、Snappy的压缩算法,搭建算法库项目,并对每种算法函数定义调用接口,所述接口与编码对应。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310597972.2A CN116318172A (zh) | 2023-05-25 | 2023-05-25 | 一种设计仿真软件数据自适应压缩方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310597972.2A CN116318172A (zh) | 2023-05-25 | 2023-05-25 | 一种设计仿真软件数据自适应压缩方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116318172A true CN116318172A (zh) | 2023-06-23 |
Family
ID=86783711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310597972.2A Pending CN116318172A (zh) | 2023-05-25 | 2023-05-25 | 一种设计仿真软件数据自适应压缩方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116318172A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117272688A (zh) * | 2023-11-20 | 2023-12-22 | 四川省交通勘察设计研究院有限公司 | 一种结构力学仿真数据的压缩与解压方法、装置及系统 |
CN118349528A (zh) * | 2023-12-07 | 2024-07-16 | 国网浙江浙电招标咨询有限公司 | 一种基于文件属性自适应压缩方法、系统和存储介质 |
CN118568569A (zh) * | 2024-07-25 | 2024-08-30 | 杭州华策影视科技有限公司 | 基于分类模型的长文本处理方法、装置、设备及介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532466A (zh) * | 2019-08-21 | 2019-12-03 | 广州华多网络科技有限公司 | 直播平台训练数据的处理方法、装置、存储介质及设备 |
CN112260694A (zh) * | 2020-09-21 | 2021-01-22 | 广州中望龙腾软件股份有限公司 | 一种仿真文件的数据压缩方法 |
US11106846B1 (en) * | 2018-12-03 | 2021-08-31 | Cadence Design Systems, Inc. | Systems and methods for emulation data array compaction |
CN113569050A (zh) * | 2021-09-24 | 2021-10-29 | 湖南大学 | 基于深度学习的政务领域知识图谱自动化构建方法和装置 |
US20220066647A1 (en) * | 2020-09-02 | 2022-03-03 | EMC IP Holding Company LLC | Statistical and neural network approach for data characterization to reduce storage space requirements |
CN115130734A (zh) * | 2022-06-06 | 2022-09-30 | 北京城建设计发展集团股份有限公司 | 一种基于LightGBM与深度学习算法的穿越工程施工影响预测方法及系统 |
CN115472232A (zh) * | 2022-08-25 | 2022-12-13 | 东南大学 | 一种基于分类算法的dna数据存储动态压缩方法 |
WO2023279964A1 (zh) * | 2021-07-08 | 2023-01-12 | 华为技术有限公司 | 数据压缩方法、装置、计算设备及存储系统 |
-
2023
- 2023-05-25 CN CN202310597972.2A patent/CN116318172A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11106846B1 (en) * | 2018-12-03 | 2021-08-31 | Cadence Design Systems, Inc. | Systems and methods for emulation data array compaction |
CN110532466A (zh) * | 2019-08-21 | 2019-12-03 | 广州华多网络科技有限公司 | 直播平台训练数据的处理方法、装置、存储介质及设备 |
US20220066647A1 (en) * | 2020-09-02 | 2022-03-03 | EMC IP Holding Company LLC | Statistical and neural network approach for data characterization to reduce storage space requirements |
CN112260694A (zh) * | 2020-09-21 | 2021-01-22 | 广州中望龙腾软件股份有限公司 | 一种仿真文件的数据压缩方法 |
WO2023279964A1 (zh) * | 2021-07-08 | 2023-01-12 | 华为技术有限公司 | 数据压缩方法、装置、计算设备及存储系统 |
CN113569050A (zh) * | 2021-09-24 | 2021-10-29 | 湖南大学 | 基于深度学习的政务领域知识图谱自动化构建方法和装置 |
CN115130734A (zh) * | 2022-06-06 | 2022-09-30 | 北京城建设计发展集团股份有限公司 | 一种基于LightGBM与深度学习算法的穿越工程施工影响预测方法及系统 |
CN115472232A (zh) * | 2022-08-25 | 2022-12-13 | 东南大学 | 一种基于分类算法的dna数据存储动态压缩方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117272688A (zh) * | 2023-11-20 | 2023-12-22 | 四川省交通勘察设计研究院有限公司 | 一种结构力学仿真数据的压缩与解压方法、装置及系统 |
CN117272688B (zh) * | 2023-11-20 | 2024-02-13 | 四川省交通勘察设计研究院有限公司 | 一种结构力学仿真数据的压缩与解压方法、装置及系统 |
CN118349528A (zh) * | 2023-12-07 | 2024-07-16 | 国网浙江浙电招标咨询有限公司 | 一种基于文件属性自适应压缩方法、系统和存储介质 |
CN118568569A (zh) * | 2024-07-25 | 2024-08-30 | 杭州华策影视科技有限公司 | 基于分类模型的长文本处理方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116318172A (zh) | 一种设计仿真软件数据自适应压缩方法 | |
US5764807A (en) | Data compression using set partitioning in hierarchical trees | |
CN111147862B (zh) | 一种基于目标编码的端到端图像压缩方法 | |
EP3738080A1 (en) | Learning compressible features | |
Sonal | A study of various image compression techniques | |
CN112994701A (zh) | 数据压缩方法、装置、电子设备及计算机可读介质 | |
CN114386595B (zh) | 一种基于超先验架构的sar图像压缩方法 | |
CN111078895B (zh) | 基于去噪卷积神经网络的远程监督实体关系抽取方法 | |
CN113361559A (zh) | 基于深宽度联合神经网络的多模态数据知识信息提取方法 | |
US20240273121A1 (en) | Database data compression method and storage device | |
CN112712855B (zh) | 一种基于联合训练的含缺失值基因微阵列的聚类方法 | |
KR20210131894A (ko) | 훈련된 심층 신경망의 압축 장치 및 방법 | |
CN115964347B (zh) | 一种市场监管监测中心数据的智能存储方法 | |
CN116743182A (zh) | 一种数据无损压缩方法 | |
CN116910506A (zh) | 一种基于时空网络变分自编码器算法的负荷降维聚类的方法 | |
Slyz et al. | A nonlinear VQ-based predictive lossless image coder | |
CN116546219A (zh) | 一种基于学习的点云几何颜色联合压缩方法 | |
CN116205738A (zh) | 一种基于深度聚类的金融数据选择优化方法 | |
CN109670057A (zh) | 一种渐进式的端到端深度特征量化系统及方法 | |
CN114238563A (zh) | 基于多角度交互的中文句子对语义智能匹配方法和装置 | |
CN112200275A (zh) | 人工神经网络的量化方法及装置 | |
Kamal | Iteration free fractal image compression for color images using vector quantization, genetic algorithm and simulated annealing | |
Jiang | Compressed image processing-a new research area and challenge | |
CN115761020B (zh) | 一种基于神经网络自动构建的影像数据压缩方法 | |
CN118282412B (zh) | 一种基于人工智能的自动化数据存储管理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230623 |
|
RJ01 | Rejection of invention patent application after publication |