CN115276666B - 一种装备训练模拟器数据高效传输方法 - Google Patents

一种装备训练模拟器数据高效传输方法 Download PDF

Info

Publication number
CN115276666B
CN115276666B CN202211188274.9A CN202211188274A CN115276666B CN 115276666 B CN115276666 B CN 115276666B CN 202211188274 A CN202211188274 A CN 202211188274A CN 115276666 B CN115276666 B CN 115276666B
Authority
CN
China
Prior art keywords
character string
length
string
group
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211188274.9A
Other languages
English (en)
Other versions
CN115276666A (zh
Inventor
刘长宜
高国兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Handa Technology Development Group Co ltd
Original Assignee
Handa Technology Development Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Handa Technology Development Group Co ltd filed Critical Handa Technology Development Group Co ltd
Priority to CN202211188274.9A priority Critical patent/CN115276666B/zh
Publication of CN115276666A publication Critical patent/CN115276666A/zh
Application granted granted Critical
Publication of CN115276666B publication Critical patent/CN115276666B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3084Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
    • H03M7/3088Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method employing the use of a dictionary, e.g. LZ78
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3068Precoding preceding compression, e.g. Burrows-Wheeler transformation
    • H03M7/3071Prediction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及数据传输技术领域,具体涉及一种装备训练模拟器数据高效传输方法,包括:采集训练数据,将训练数据转换为二进制数据;对二进制数据进行不同长度的划分,得到多个分组;根据每个分组的任意两个字符在二进制数据中相邻出现的次数获取字符串的第一次数,进一步构建每个分组的第一集合和第二集合,对第一集合和第二集合不断更新;根据每个分组的第一集合长度获取每个分组的压缩概率;将压缩概率最大的分组作为最优分组,对最优分组进行压缩。本发明通过对二进制数据进行划分,动态获取最优分组,压缩效率高,进而使得数据传输更加高效。

Description

一种装备训练模拟器数据高效传输方法
技术领域
本发明涉及数据传输技术领域,具体涉及一种装备训练模拟器数据高效传输方法。
背景技术
装备训练模拟器是利用仿真技术对人员进行训练的自动化设备,广泛应用于航天、航空、军事、医学等领域。
装备训练模拟器在对人员进行训练过程中会产生大量训练数据。在训练结束后,需要将训练数据传输至智能分析平台。智能分析平台依据训练数据对训练结果进行评价。为确保训练数据的高效传输,需要对训练数据进行压缩。
装备训练模拟器在训练过程中产生的训练数据包含多种类型的数据。不同类型的数据精度不同,且数据重复率非常小。
现有的压缩算法如LZW、霍夫曼编码、游程编码等对于重复率大的数据具有较好的压缩效果,对于重复率小的数据压缩效果差。现有的压缩算法如LZW、霍夫曼编码、游程编码不适用于对训练数据进行压缩。
发明内容
本发明提供一种装备训练模拟器数据高效传输方法,以解决现有的问题。
本发明的一种装备训练模拟器数据高效传输方法采用如下技术方案:
本发明一个实施例提供了一种装备训练模拟器数据高效传输方法,该方法包括以下步骤:
S1:采集训练数据,将训练数据转换为二进制数据;将二进制数据划分成多个分组,每个分组为多个字符的集合;
S2:获取每个分组的所有根,将任意两个根拼接成一个字符串,获取每个分组中每个字符串的第一次数,并得到每个分组的初始字典长度;每个分组中第一次数大于或等于0的所有字符串组成每个分组的第一集合;每个分组中第一次数大于等于1的所有字符串组成每个分组的第二集合;
S3:更新每个分组的第一集合与第二集合,包括:
将第二集合中第一次数最大的字符串作为第一字符串;获取第二集合中以第一字符串末尾字符为开头的字符串,得到多个第二字符串;根据第一字符串与每个第二字符串得到多个第三字符串;当存在第二字符串与第一字符串相同时,更新所述第二字符串以及第一字符串的第一次数;获取每个第二字符串的概率,根据第一字符串的第一次数以及每个第二字符串的概率获取每个第三字符串的第一次数;
将第一次数大于等于0的第三字符串添加到第一集合;将第一次数大于等于1的第三字符串添加到第二集合;更新第一字符串和每个第二字符串的第一次数;将第二集合中所有第一次数小于1的字符串从第二集合中删除;
S4:重复更新每个分组的第一集合与第二集合操作直到所述第二集合为空时停止;
S5:获取每个分组的第一集合长度,根据每个分组的第一集合长度以及每个分组的初始字典长度获得每个分组的压缩概率;获取压缩概率最大的分组作为最优分组,对最优分组进行编码压缩。
优选的,所述将二进制数据划分成多个分组,并得到每个分组的初始字典长度,每个分组为多个字符的集合,包括的具体步骤如下:
获取第一预设阈值与第二预设阈值之间所有的整数,构成分组长度集合;利用分组长度集合中的任意一个分组长度将二进制数据分成多个长度为所述分组长度的子二进制串,每个子二进制串视为一个字符,所有所述字符构成一个集合记为一个分组,将所述分组长度记为所述分组的分组长度;分组长度集合中的所有分组长度将二进制数据分成多个分组。
优选的,所述获取每个分组的所有根,将任意两个根拼接成一个字符串,获取每个分组中每个字符串的第一次数,并得到每个分组的初始字典长度,包括的具体步骤如下:
获取长度为每个分组的分组长度的所有二进制数,将每个所述二进制数视为一个字符,所有所述字符作为每个分组的多个根,将每个分组的根的个数作为每个分组的初始字典长度;
统计每个分组的任意两个根在所述分组中相邻出现的次数,将所述任意两个根拼接成一个字符串,将所述次数减一作为所述字符串的第一次数。
优选的,所述根据第一字符串与每个第二字符串得到多个第三字符串,包括的具体步骤如下:
将第一字符串与第二字符串根据第一字符串末尾字符进行拼接得到第三字符串,所述第三字符串长度为第一字符串长度加第二字符串长度再减一,所述每个第二字符串对应一个第三字符串。
优选的,所述当存在第二字符串与第一字符串相同时,更新所述第二字符串以及第一字符串的第一次数,包括的具体步骤如下:
当存在第二字符串与第一字符串相同时,将第一字符串的第一次数除以所有第二字符串的个数再向上取整,结果作为所述第二字符串的第一次数;将第一字符串的第一次数减去所述第二字符串的第一次数,所得结果作为第一字符串的第一次数。
优选的,所述获取每个第二字符串的概率,根据第一字符串的第一次数以及每个第二字符串的概率获取每个第三字符串的第一次数,包括的具体步骤如下:
计算每个第二字符串的第一次数占所有第二字符串第一次数总和的比例,将所述比例作为所述第二字符串的概率;
将第一字符串的第一次数乘以每个第二字符串的概率并四舍五入取整再减一得到每个第三字符串的第一次数。
优选的,所述更新第一字符串和每个第二字符串的第一次数,包括的具体步骤如下:
将第一字符串的第一次数更新为0;将每个第二字符串的第一次数减去所述第二字符串对应的第三字符串的第一次数,作为所述第二字符串更新后的第一次数;当存在第二字符串与第一字符串相同时,将第一字符串的第一次数更新为所述第二字符串更新后的第一次数。
优选的,所述获取每个分组的第一集合长度,根据每个分组的第一集合长度以及每个分组的初始字典长度获得每个分组的压缩概率,包括的具体步骤如下:
将第一集合中的元素个数作为第一集合长度,将第一集合长度减一得到预测代码个数;将第一集合长度与初始字典长度相加得到预测最大代码值;根据预测代码个数与预测最大代码值以及二进制数据的长度获得分组的压缩概率;所述压缩概率的表达式为:
Figure 996630DEST_PATH_IMAGE001
其中
Figure 910359DEST_PATH_IMAGE002
为压缩概率;
Figure 638013DEST_PATH_IMAGE003
为预测代码个数;
Figure 219167DEST_PATH_IMAGE004
为预测最大代码值;
Figure 997677DEST_PATH_IMAGE005
为二进制数据的长度;
Figure 664282DEST_PATH_IMAGE006
为向上取整符。
优选的,所述对最优分组进行编码压缩是指对最优分组利用LZW编码进行压缩。
本发明的有益效果是:采集训练数据,将训练数据转换为二进制数据;对二进制数据进行不同长度的划分,得到多个分组;根据每个分组的任意两个字符在二进制数据中相邻出现的次数获取字符串的第一次数,进一步构建每个分组的第一集合和第二集合,对第一集合和第二集合不断更新;根据每个分组的第一集合长度获取每个分组的压缩概率;将压缩概率最大的分组作为最优分组,对最优分组进行压缩。本发明通过将训练数据转换为二进制数据并对二进制数据进行不同长度的划分,一定程度增加了数据的重复率,使得训练数据压缩效率更高。根据每个分组中字符出现的规律构建第一集合,进一步计算压缩概率,可一定程度预测出不同分组的压缩效率,从而获取最优的分组,动态实现当前方法下的最高压缩效率。使得数据传输更加高效。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种装备训练模拟器数据高效传输方法的步骤流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种装备训练模拟器数据高效传输方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种装备训练模拟器数据高效传输方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种装备训练模拟器数据高效传输方法的步骤流程图,该方法包括以下步骤:
101.采集训练数据,将训练数据转换为二进制数据。
装备训练模拟器在对人员进行训练过程中会产生大量训练数据。在训练结束后,需要将训练数据传输至智能分析平台。智能分析平台依据训练数据对训练结果进行评价。为确保训练数据的高效传输,需要对训练数据进行压缩。首先采集训练数据。
训练数据包含多种不同类型的数据,不同类型的数据精度不同,且数据重复率非常小。现有的压缩算法如LZW、霍夫曼编码、游程编码等对于重复率大的数据具有较好的压缩效果,对于重复率小的数据压缩效果差。若直接采用现有压缩方法对训练数据进行压缩,压缩效果差,不利于训练数据的高效传输。
无论是哪种类型的数据,在进行存储传输时都需要转换为二进制数据。因此,将训练数据转换为二进制数据,二进制数据的长度记为
Figure 930047DEST_PATH_IMAGE005
。本发明实施例针对二进制数据进行动态自适应分组压缩。
102.对二进制数据进行划分得到多个分组,计算不同分组压缩概率,获取最优分组。
具体步骤如下:
1、获取分组长度集合。
本发明实施例的目的是将二进制数据分成多个子二进制串,使得多个子二进制串之间重复率高,从而利用LZW编码可以达到较好的压缩效果。
当分组长度越小时,得到的子二进制串的个数较多,子二进制串的重复率较大;当分组长度越大时,得到的子二进制串的个数少,子二进制串的重复率较小。
利用LZW编码对所有子二进制串进行压缩,压缩效率与子二进制串的个数以及子二进制串的重复率有关。当子二进制串的个数越少且重复率越大时,压缩效率较高;当子二进制串的个数越多且重复率越小时,压缩效率较低。因此,需获得一个最优的分组长度,使得子二进制串的个数少且重复率大。
首先构建一个分组长度集合:当分组长度等于
Figure 365708DEST_PATH_IMAGE007
时,分组无意义;当分组长度过大时,不同的子二进制串个数非常多,导致所有子二进制串的重复率非常小,从而使得压缩效率非常差。设置一个最大分组长度
Figure 825770DEST_PATH_IMAGE008
,当分组长度为
Figure 714092DEST_PATH_IMAGE009
时,存在
Figure 783548DEST_PATH_IMAGE010
种不同的子二进制串,此时所有子二进制串的重复率非常小。因此,将区间
Figure 73715DEST_PATH_IMAGE011
作为分组长度的范围,获取区间
Figure 701749DEST_PATH_IMAGE011
内的所有整数,构成分组长度集合。在其他实施例中,实施人员可根据需要设置分组长度集合。
2、对二进制数据进行分组。
利用分组长度集合中的一个分组长度将二进制数据分成多个长度为该分组长度的子二进制串,将每个子二进制串视为一个字符。将所有字符构成一个集合,作为一个分组,将该分组长度作为该分组的分组长度。
同理,利用分组长度集合中的每个分组长度对二进制数据进行划分,得到多个分组。
若直接对不同的分组进行压缩,可根据压缩结果获取最优的分组。但在压缩过程中,需要动态构建字典,若对所有分组都进行压缩,则会构建多个字典,消耗大量的内存空间,同时时间效率差。
因此,本发明实施例通过分析不同分组中子二进制串的分布规律,计算不同分组的概率从而选择最优的分组。
3、计算每个分组的压缩概率。
本发明实施例的目的是对二进制数据分组后,再利用LZW编码可以达到较好的压缩效果。而LZW编码是在初始字典的基础上不断地为数据中新出现的字符串赋予代码并添加到字典中,用前面已经出现的字符串的代码来代替后面相同字符串的内容,从而达到压缩的目的。为确保数据中新出现的每个单个字符都可用代码表示,即初始字典中需包含所有可能的单个字符。
LZW编码的具体步骤如下:
①构建初始字典,初始字典需包含所有可能的单个字符,单个字符称为根。构建一个空的前缀P。
②读入新的字符C,与前缀P合并形成字符串P+C。
③在字典中查找字符串P+C:
a) 如果字符串P+C在字典里,设置前缀P=P+C;
b) 如果P+C不在字典里,将前缀P在字典中的代码输出。将P+C添加到字典中。更新前缀P=C。
④返回步骤②重复,直到读完数据中所有的字符。
在LZW编码压缩结束后,输出的为代码流。LZW的压缩效率与输出的代码流中代码的个数以及每个代码的编码长度相关。
本发明实施例分组后每个子二进制串可以看作单个字符,即每个子二进制串可以看作一个根。本发明实施例使用十进制数字作为代码。而数据传输或存储都需要转换成二进制形式,因此需将最终压缩得到的代码流中的每个代码转换为长度相同的二进制串,此些二进制串作为每个代码的编码。每个代码的编码长度与最大的代码值相关,假设最大的代码值为
Figure 77367DEST_PATH_IMAGE012
,则每个代码的编码长度为
Figure 684934DEST_PATH_IMAGE013
,其中
Figure 95187DEST_PATH_IMAGE006
为向上取整符。最大代码值与字典的长度有关。
在LZW编码过程中,除最后一个代码输出时不添加字典外,每输出一次代码,就需要往字典中添加一次内容。因此输出的代码流中代码的个数与字典长度有关,输出的代码流中代码的个数为字典添加内容的次数加一,即最终的字典的长度减去初始字典长度再加一。
本发明根据分组后所有子二进制串的规律预测字典的长度,进一步获取预测最大代码值以及输出的代码流中代码的预测个数,以便计算每个分组的压缩概率从而选择最优的分组。将输出的代码流中代码的预测个数称为预测代码个数。
以一个分组为例,说明字典长度的预测方法,获取预测最大代码值以及预测代码个数,计算分组的压缩概率。具体如下:
将分组的分组长度记为
Figure 631473DEST_PATH_IMAGE014
,则分组中的每个子二进制串的长度为
Figure 494387DEST_PATH_IMAGE014
。长度为
Figure 171225DEST_PATH_IMAGE014
的二进制数有
Figure 170405DEST_PATH_IMAGE015
种,即根有
Figure 140241DEST_PATH_IMAGE015
种。初始字典需包含所有可能的根,因此初始字典长度为
Figure 490451DEST_PATH_IMAGE015
统计所有根中任意两个根在分组中相邻出现的次数,得到根共生矩阵。根共生矩阵中的值表示对应行的根与对应列的根在分组中相邻出现的次数,将任意两个根拼接得到一个字符串,即根共生矩阵中的值表示对应字符串在分组中出现的次数。假设二进制数据
Figure 705401DEST_PATH_IMAGE016
的一个分组为
Figure 559087DEST_PATH_IMAGE017
,则
Figure 702755DEST_PATH_IMAGE018
Figure 540261DEST_PATH_IMAGE019
相邻,
Figure 293322DEST_PATH_IMAGE019
Figure 687001DEST_PATH_IMAGE020
相邻。
根据LZW编码的压缩原理可知,当字符串第一次出现时,该字符串会被添加到字典中,当字符串第二次出现时,会将字符串向后扩充一个字符串添加到字典中。为获取所有在字典中可能出现的字符串,将每个字符串在分组中相邻出现的次数减
Figure 250837DEST_PATH_IMAGE021
记为第一次数。
构建一个空的第一集合用来存放所有可能添加到字典中的字符串。构建一个空的第二集合用来存放预测字典的长度过程中产生的字符串。根据LZW编码的压缩原理可知,当字符串第一次出现时,需往字典中添加该字符串。因此,将所有第一次数大于或等于0的字符串添加到第一集合中;当字符串第二次出现时,则会输出该字符串在字典中的代码,同时会将字符串向后扩充一个字符串添加到字典中。将所有第一次数大于或等于1的字符串添加到第二集合中。
进行第一集合与第二集合更新操作:
获取测最长字符串集合中第一次数最大的字符串,记作第一字符串,第一字符串的长度记为
Figure 559328DEST_PATH_IMAGE022
,第一字符串在根公式矩阵记为
Figure 601233DEST_PATH_IMAGE023
,将第一字符串末尾的字符记作第一字符。获取第二集合中所有以第一字符为开头的字符串,记作第二字符串,第二字符串的长度记为
Figure 242561DEST_PATH_IMAGE024
,所有第二字符串的个数记为
Figure 711720DEST_PATH_IMAGE025
第一字符串与一个第二字符串可组成一个长度
Figure 507506DEST_PATH_IMAGE026
的字符串,将该字符串记为第三字符串,例如第一字符串AB与第二字符串BC构成第三字符串ABC。获取所有的第三字符串。预测每个第三字符串出现的次数:
可能存在第二字符串与第一字符串相同的情况,例如第一字符串AA与第二字符串AA构成第三字符串AAA。当一个第二字符串与第一字符串相同时,该第二字符串与第一字符串实际为同一个字符串,为避免该字符串被重复计算,将该第二字符串的第一次数调整为
Figure 38589DEST_PATH_IMAGE027
,其中
Figure 518111DEST_PATH_IMAGE006
为向上取整符;将第一字符串的第一次数调整为
Figure 673018DEST_PATH_IMAGE028
。当不存在第二字符串与第一字符串相同时,则不调整第二字符串与第一字符串的第一次数。
计算每个第二字符串的第一次数占所有第二字符串的第一次数之和的比例,得到每个第二字符串的概率。则每个第三字符串预计出现的次数为第一字符串的第一次数乘以组成第三字符串的第二字符串的概率并四舍五入取整。
将每个第三字符串预计出现的次数减一,得到每个第三字符串的第一次数。将所有第一次数大于或等于0的第三字符串添加到第一集合中。将所有第一次数大于或等于1的第三字符串添加到第二集合中。由于第一字符串已经分配给所有第二字符串,因此将第一字符串的第一次数更新为0。由于每个第二字符串与第一字符串构成了第三字符串,因此根据第三字符串预计出现的次数更新第二字符串的第一次数,将第二字符串的第一次数减去其构成的第三字符串的预计出现的次数,所得结果作为第二字符串更新后的第一次数。当存在第二字符串与第一字符串相同时,将第一字符串的第一次数更新为所述第二字符串更新后的第一次数;将第二集合中所有第一次数小于1的字符串删除。
重复第一集合与第二集合更新操作直到第二集合为空时停止。
至此,得到了第一集合,获取了所有可能添加到字典中的字符串。获取第一集合中元素的个数
Figure 706833DEST_PATH_IMAGE029
,将其作为第一集合长度,则分组的字典长度预测值为
Figure 247798DEST_PATH_IMAGE004
Figure 565516DEST_PATH_IMAGE030
其中
Figure 642056DEST_PATH_IMAGE015
为初始字典长度;
Figure 910970DEST_PATH_IMAGE029
为第一集合长度。
则预测代码个数为
Figure 98369DEST_PATH_IMAGE031
。最大代码值为输出的代码流中最大的代码,最大代码值与字典长度有关。可将字典长度预测值近似看作最大代码值,则预测最大代码值为
Figure 270593DEST_PATH_IMAGE004
根据预测最大代码值以及预测代码个数计算分组的压缩概率
Figure 518035DEST_PATH_IMAGE002
Figure 11596DEST_PATH_IMAGE032
其中
Figure 533844DEST_PATH_IMAGE003
为预测代码个数;
Figure 560574DEST_PATH_IMAGE004
为预测最大代码值;
Figure 978917DEST_PATH_IMAGE005
为二进制数据的长度;
Figure 956844DEST_PATH_IMAGE033
表示每个代码的编码长度;当压缩概率越大时,压缩效果越好。当压缩概率越小时,压缩效果越差。
同理,计算每个分组的压缩概率。
4、获取最优分组。
将压缩概率最大的分组作为最优分组。
至此,获取了最优分组。
103.根据最优分组进行压缩,得到压缩数据。
将最优分组对应的分组长度作为最优分组长度,根据最优分组长度获取所有可能的根,建立初始字典:假设最优分组长度为
Figure 672997DEST_PATH_IMAGE014
,则长度为
Figure 304966DEST_PATH_IMAGE014
的所有可能的二进制数有
Figure 379364DEST_PATH_IMAGE015
种,此些二进制数即为可能的根。而LZW编码的初始字典需包含所有可能的根,因此将
Figure 362363DEST_PATH_IMAGE015
种长度为
Figure 944523DEST_PATH_IMAGE014
的二进制数的十进制值作为此些二进制数的代码,并将此些二进制数与其对应的代码按照从小到大的顺序放入到字典中,得到初始字典。
再根据初始字典利用LZW编码的压缩方法对最优分组进行压缩,得到压缩数据。
104.对压缩数据进行传输并解压。
装备训练模拟器将压缩数据以及最优分组长度传输至智能分析平台。智能分析平台根据最优分组长度获取所有可能的根,建立初始字典。再根据初始字典利用LZW解码的方法对压缩数据进行解压,得到多个子二进制串。
将所有子二进制串按照顺序拼接在一起得到压缩前的二进制数据。将二进制数据转换为训练数据。
至此,完成了训练数据的解压,智能分析平台根据训练数据对训练结果进行评价。
通过以上步骤,完成了装备训练模拟器训练数据的压缩以及高效传输。
本发明实施例通过采集训练数据,将训练数据转换为二进制数据;对二进制数据进行不同长度的划分,得到多个分组;根据每个分组的任意两个字符在二进制数据中相邻出现的次数获取字符串的第一次数,进一步构建每个分组的第一集合和第二集合,对第一集合和第二集合不断更新;根据每个分组的第一集合长度获取每个分组的压缩概率;将压缩概率最大的分组作为最优分组,对最优分组进行压缩。本发明通过将训练数据转换为二进制数据并对二进制数据进行不同长度的划分,一定程度增加了数据的重复率,使得训练数据压缩效率更高。根据每个分组中字符出现的规律构建第一集合,进一步计算压缩概率,可一定程度预测出不同分组的压缩效率,从而获取最优的分组,动态实现当前方法下的最高压缩效率。使得数据传输更加高效。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种装备训练模拟器数据高效传输方法,其特征在于,该方法包括以下步骤:
S1:采集训练数据,将训练数据转换为二进制数据;将二进制数据划分成多个分组,每个分组为多个字符的集合;
S2:获取每个分组的所有根,将任意两个根拼接成一个字符串,获取每个分组中每个字符串的第一次数,并得到每个分组的初始字典长度;每个分组中第一次数大于或等于0的所有字符串组成每个分组的第一集合;每个分组中第一次数大于等于1的所有字符串组成每个分组的第二集合;
S3:更新每个分组的第一集合与第二集合,包括:
将第二集合中第一次数最大的字符串作为第一字符串;获取第二集合中以第一字符串末尾字符为开头的字符串,得到多个第二字符串;根据第一字符串与每个第二字符串得到多个第三字符串;当存在第二字符串与第一字符串相同时,更新所述第二字符串以及第一字符串的第一次数;获取每个第二字符串的概率,根据第一字符串的第一次数以及每个第二字符串的概率获取每个第三字符串的第一次数;
将第一次数大于等于0的第三字符串添加到第一集合;将第一次数大于等于1的第三字符串添加到第二集合;更新第一字符串和每个第二字符串的第一次数;将第二集合中所有第一次数小于1的字符串从第二集合中删除;
S4:重复更新每个分组的第一集合与第二集合操作直到所述第二集合为空时停止;
S5:获取每个分组的第一集合长度,根据每个分组的第一集合长度以及每个分组的初始字典长度获得每个分组的压缩概率;获取压缩概率最大的分组作为最优分组,对最优分组进行编码压缩。
2.根据权利要求1所述的一种装备训练模拟器数据高效传输方法,其特征在于,所述将二进制数据划分成多个分组,并得到每个分组的初始字典长度,每个分组为多个字符的集合,包括的具体步骤如下:
获取第一预设阈值与第二预设阈值之间所有的整数,构成分组长度集合;利用分组长度集合中的任意一个分组长度将二进制数据分成多个长度为所述分组长度的子二进制串,每个子二进制串视为一个字符,所有所述字符构成一个集合记为一个分组,将所述分组长度记为所述分组的分组长度;分组长度集合中的所有分组长度将二进制数据分成多个分组。
3.根据权利要求1所述的一种装备训练模拟器数据高效传输方法,其特征在于,所述获取每个分组的所有根,将任意两个根拼接成一个字符串,获取每个分组中每个字符串的第一次数,并得到每个分组的初始字典长度,包括的具体步骤如下:
获取长度为每个分组的分组长度的所有二进制数,将每个所述二进制数视为一个字符,所有所述字符作为每个分组的多个根,将每个分组的根的个数作为每个分组的初始字典长度;
统计每个分组的任意两个根在所述分组中相邻出现的次数,将所述任意两个根拼接成一个字符串,将所述次数减一作为所述字符串的第一次数。
4.根据权利要求1所述的一种装备训练模拟器数据高效传输方法,其特征在于,所述根据第一字符串与每个第二字符串得到多个第三字符串,包括的具体步骤如下:
将第一字符串与第二字符串根据第一字符串末尾字符进行拼接得到第三字符串,所述第三字符串长度为第一字符串长度加第二字符串长度再减一,所述每个第二字符串对应一个第三字符串。
5.根据权利要求1所述的一种装备训练模拟器数据高效传输方法,其特征在于,所述当存在第二字符串与第一字符串相同时,更新所述第二字符串以及第一字符串的第一次数,包括的具体步骤如下:
当存在第二字符串与第一字符串相同时,将第一字符串的第一次数除以所有第二字符串的个数再向上取整,结果作为所述第二字符串的第一次数;将第一字符串的第一次数减去所述第二字符串的第一次数,所得结果作为第一字符串的第一次数。
6.根据权利要求1所述的一种装备训练模拟器数据高效传输方法,其特征在于,所述获取每个第二字符串的概率,根据第一字符串的第一次数以及每个第二字符串的概率获取每个第三字符串的第一次数,包括的具体步骤如下:
计算每个第二字符串的第一次数占所有第二字符串第一次数总和的比例,将所述比例作为所述第二字符串的概率;
将第一字符串的第一次数乘以每个第二字符串的概率并四舍五入取整再减一得到每个第三字符串的第一次数。
7.根据权利要求1所述的一种装备训练模拟器数据高效传输方法,其特征在于,所述更新第一字符串和每个第二字符串的第一次数,包括的具体步骤如下:
将第一字符串的第一次数更新为0;将每个第二字符串的第一次数减去所述第二字符串对应的第三字符串的第一次数,作为所述第二字符串更新后的第一次数;当存在第二字符串与第一字符串相同时,将第一字符串的第一次数更新为所述第二字符串更新后的第一次数。
8.根据权利要求1所述的一种装备训练模拟器数据高效传输方法,其特征在于,所述获取每个分组的第一集合长度,根据每个分组的第一集合长度以及每个分组的初始字典长度获得每个分组的压缩概率,包括的具体步骤如下:
将第一集合中的元素个数作为第一集合长度,将第一集合长度减一得到预测代码个数;将第一集合长度与初始字典长度相加得到预测最大代码值;根据预测代码个数与预测最大代码值以及二进制数据的长度获得分组的压缩概率;所述压缩概率的表达式为:
Figure 928909DEST_PATH_IMAGE001
其中
Figure 905699DEST_PATH_IMAGE002
为压缩概率;
Figure 375994DEST_PATH_IMAGE003
为预测代码个数;
Figure 840474DEST_PATH_IMAGE004
为预测最大代码值;
Figure 899565DEST_PATH_IMAGE005
为二进制数据的长度;
Figure 361771DEST_PATH_IMAGE006
为向上取整符。
9.根据权利要求1所述的一种装备训练模拟器数据高效传输方法,其特征在于,所述对最优分组进行编码压缩是指对最优分组利用LZW编码进行压缩。
CN202211188274.9A 2022-09-28 2022-09-28 一种装备训练模拟器数据高效传输方法 Active CN115276666B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211188274.9A CN115276666B (zh) 2022-09-28 2022-09-28 一种装备训练模拟器数据高效传输方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211188274.9A CN115276666B (zh) 2022-09-28 2022-09-28 一种装备训练模拟器数据高效传输方法

Publications (2)

Publication Number Publication Date
CN115276666A CN115276666A (zh) 2022-11-01
CN115276666B true CN115276666B (zh) 2022-12-20

Family

ID=83757323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211188274.9A Active CN115276666B (zh) 2022-09-28 2022-09-28 一种装备训练模拟器数据高效传输方法

Country Status (1)

Country Link
CN (1) CN115276666B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115988569B (zh) * 2023-03-21 2023-06-30 浙江省疾病预防控制中心 一种蓝牙设备数据快速传输方法
CN116865768B (zh) * 2023-08-31 2023-11-21 临沂安迪电气有限公司 一种plc设备数据优化存储方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4876541A (en) * 1987-10-15 1989-10-24 Data Compression Corporation Stem for dynamically compressing and decompressing electronic data
US5389922A (en) * 1993-04-13 1995-02-14 Hewlett-Packard Company Compression using small dictionaries with applications to network packets
CN102122960B (zh) * 2011-01-18 2013-11-06 西安理工大学 一种针对二进制数据的多字符组合无损数据压缩方法
US11422978B2 (en) * 2017-10-30 2022-08-23 AtomBeam Technologies Inc. System and method for data storage, transfer, synchronization, and security using automated model monitoring and training
US20220036137A1 (en) * 2018-09-19 2022-02-03 Rulex, Inc. Method for detecting anomalies in a data set
CN111400180B (zh) * 2020-03-13 2023-03-10 上海海事大学 一种基于特征集划分和集成学习的软件缺陷预测方法

Also Published As

Publication number Publication date
CN115276666A (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
CN115276666B (zh) 一种装备训练模拟器数据高效传输方法
US5532694A (en) Data compression apparatus and method using matching string searching and Huffman encoding
KR101049699B1 (ko) 데이터의 압축방법
EP0695040B1 (en) Data compressing method and data decompressing method
US5396595A (en) Method and system for compression and decompression of data
WO1996041423A1 (en) Compression of an electronic programming guide
EP0582907A2 (en) Data compression apparatus and method using matching string searching and Huffman encoding
JPH03204233A (ja) データ圧縮方法
CN106067824B (zh) 一种基于二联密码子的测序数据压缩方法
US5594435A (en) Permutation-based data compression
CN108737976A (zh) 一种基于北斗短报文的压缩传输方法
CN110868223A (zh) 一种哈夫曼编码的数值运算实现方法及电路
EP1266455A1 (en) Method and apparatus for optimized lossless compression using a plurality of coders
US4382286A (en) Method and apparatus for compressing and decompressing strings of electrical digital data bits
Mahmood et al. An Efficient 6 bit Encoding Scheme for Printable Characters by table look up
JP6835285B1 (ja) データ圧縮方法、データ圧縮装置、データ圧縮プログラム、データ伸長方法、データ伸長装置およびデータ伸長プログラム
US6919827B2 (en) Method and apparatus for effectively decoding Huffman code
CN112506876B (zh) 一种支持sql查询的无损压缩查询方法
EP3886324B1 (en) Compression and/or decompression of activation data
US10931303B1 (en) Data processing system
CN112200301B (zh) 卷积计算装置及方法
CN107026652B (zh) 基于分区的正整数序列压缩方法
US6501395B1 (en) System, method and computer readable medium for compressing a data sequence
Rani et al. A survey on lossless text data compression techniques
JP2590287B2 (ja) データ圧縮方法およびデータ圧縮装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: An Efficient Data Transmission Method for Equipment Training Simulator

Effective date of registration: 20230629

Granted publication date: 20221220

Pledgee: Jiangsu Nantong Rural Commercial Bank Co.,Ltd. Development Zone sub branch

Pledgor: Handa Technology Development Group Co.,Ltd.

Registration number: Y2023980046772