CN116915259B - 基于物联网的仓配数据优化储存方法及系统 - Google Patents
基于物联网的仓配数据优化储存方法及系统 Download PDFInfo
- Publication number
- CN116915259B CN116915259B CN202311168631.XA CN202311168631A CN116915259B CN 116915259 B CN116915259 B CN 116915259B CN 202311168631 A CN202311168631 A CN 202311168631A CN 116915259 B CN116915259 B CN 116915259B
- Authority
- CN
- China
- Prior art keywords
- data
- character strings
- classified
- characters
- coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000013144 data compression Methods 0.000 claims abstract description 10
- 238000013500 data storage Methods 0.000 claims abstract description 10
- 238000005457 optimization Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 abstract description 5
- 238000007906 compression Methods 0.000 description 33
- 230000006835 compression Effects 0.000 description 33
- 230000000694 effects Effects 0.000 description 16
- 230000008569 process Effects 0.000 description 12
- 238000010606 normalization Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3059—Digital compression and data reduction techniques where the original information is represented by a subset or similar information, e.g. lossy compression
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3068—Precoding preceding compression, e.g. Burrows-Wheeler transformation
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3068—Precoding preceding compression, e.g. Burrows-Wheeler transformation
- H03M7/3077—Sorting
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/60—General implementation details not specific to a particular type of compression
- H03M7/6058—Saving memory space in the encoder or decoder
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及电数字数据处理技术领域,具体涉及一种基于物联网的仓配数据优化储存方法及系统。该方法包括:获取仓配数据,分类得到分类数据,根据分类数据中字符的位置确定字符串,确定字符串在不同分类数据中的优选系数;获得不重合的目标字符串;根据目标字符串的分布,获得合并必要性;根据合并必要性从目标字符串中确定每类分类数据的待合并字符串,使用预设字符替换每类分类数据中对应的待合并字符串,得到替换数据,基于有限状态熵编码对替换数据进行数据压缩,得到每类替换数据的压缩数据;对所有分类数据所分别对应的压缩数据进行数据存储。本发明能够有效减少数据存储空间和传输带宽的占用。
Description
技术领域
本发明涉及电数字数据处理技术领域,具体涉及一种基于物联网的仓配数据优化储存方法及系统。
背景技术
目前,物联网技术在仓配行业中的应用已经越来越广泛。随着物联网设备的普及和成本的降低,各种传感器和设备可以被广泛部署在仓储和配送环节中,实时采集各种数据,如温度、湿度、重量、位置等,可以用于监控货物的状态、优化仓储和配送流程、提高效率和减少成本,对仓配数据的压缩和存储也是仓储和配送环节重要的一环。
相关技术中,使用有限状态熵编码按照时序对仓配数据进行无损编码并压缩,这种方式下,由于仓配数据的数据量庞大,且同种类数据的重复性高,进而导致在使用有限状态熵编码进行数据处理时,对重复数据均进行统一的长编码,增加了数据存储空间和传输带宽的占用,数据存储效果不足。
发明内容
为了解决对重复数据均进行统一的长编码,增加数据存储空间和传输带宽的占用,数据存储效果不足的技术问题,本发明提供一种基于物联网的仓配数据优化储存方法及系统,所采用的技术方案具体如下:
本发明提出了一种基于物联网的仓配数据优化储存方法,方法包括:
获取仓配数据,根据数据类别对所述仓配数据进行分类,得到分类数据,确定每类分类数据中各字符的位置;
根据分类数据中字符的位置,获得不同字符长度的字符串,根据所述字符串的长度和所述字符串分别在不同分类数据中的数量,确定所述字符串在不同分类数据中的优选系数;根据所述优选系数确定不重合的目标字符串;使用预设字符分别对不同目标字符串进行替换,得到每类分类数据在替换每一种目标字符串之后的处理后数据;根据所述分类数据和对应处理后数据中字符的平均码长和处理后数据中字符的信息熵,获得合并必要性;
根据所述合并必要性从所述目标字符串中确定每类分类数据的待合并字符串,使用预设字符替换每类分类数据中对应的待合并字符串,得到替换数据,基于有限状态熵编码对所述替换数据进行数据压缩,得到每类替换数据的压缩数据;
对所有分类数据所分别对应的压缩数据进行数据存储。
进一步地,所述根据所述字符串的长度和所述字符串分别在不同分类数据中的数量,确定所述字符串在不同分类数据中的优选系数,包括:
计算所述字符串的长度的归一化值和预设第一权值的乘积作为长度影响因子;
计算所述字符串在不同分类数据中的数量的归一化值和预设第二权值的乘积,得到所述字符串在不同分类数据中的数量影响因子;
根据所述长度影响因子和所述数量影响因子获得所述字符串在不同分类数据中的优选系数,其中,所述长度影响因子与所述优选系数呈正相关关系,所述数量影响因子与所述优选系数呈正相关关系。
进一步地,所述根据所述优选系数确定不重合的目标字符串,包括:
在任一类所述分类数据中,根据所述优选系数由大到小的顺序对所有字符串进行排序;将所述优选系数大于预设系数阈值的字符串作为待分析字符串;
确定所述待分析字符串中具有重合关系的字符串,其中,所述重合关系为包含关系或被包含关系;
将相互有重合关系的待分析字符串中优选系数较小的进行删除,并将剩余的待分析字符串作为目标字符串。
进一步地,所述根据所述分类数据和对应处理后数据中字符的平均码长和处理后数据中字符的信息熵,获得合并必要性,包括:
计算所述分类数据中所有字符的平均码长作为第一平均码长;
计算所述处理后数据中所有字符的平均码长作为第二平均码长;
计算所述第一平均码长和所述第二平均码长的比值作为所述目标字符串的第一合并系数;
计算所述处理后数据中所有字符的信息熵作为第二合并系数;
将所述第一合并系数和所述第二合并系数的乘积的归一化值作为合并必要性。
进一步地,所述根据所述合并必要性从所述目标字符串中确定每类分类数据的待合并字符串,包括:
将每类分类数据中合并必要性大于预设必要性阈值的目标字符串作为待合并字符串。
进一步地,所述基于有限状态熵编码对所述替换数据进行数据压缩,得到每类替换数据的压缩数据,包括:
随机生成每个所述替换数据的预设编码表;
根据所述预设编码表,对所述替换数据进行有限状态熵编码处理,得到压缩数据。
进一步地,所述对所有分类数据所分别对应的压缩数据进行数据存储,包括:
将不同类的压缩数据分别存储至不同的存储空间中。
本发明还提出一种基于物联网的仓配数据优化储存系统,所述系统包括存储器和处理器,所述处理器执行所述存储器存储的计算机程序,以实现如前述所述的一种基于物联网的仓配数据优化储存方法。
本发明具有如下有益效果:
本发明通过获取仓配数据并进行分类得到分类数据;通过对每一类分类数据分别进行分析,根据分类数据中字符的位置,获得不同字符长度的字符串,根据字符串的长度和字符串分别在不同分类数据中的数量,确定字符串在不同分类数据中的优选系数;其中,优选系数的获取能够结合字符串的长度和数量,有效分析字符串在对应分类数据的优选性,从而在根据优选系数确定不重合的目标字符串时;对字符串进行初步筛选,在后续通过分析目标字符串,减少对所有字符串分析的运算时间,提升处理效率,使用预设字符分别对不同目标字符串进行替换,得到每类分类数据在替换每一种目标字符串之后的处理后数据;根据分类数据和对应处理后数据中字符的平均码长和处理后数据中字符的信息熵,获得合并必要性;通过合并必要性能够进一步对处理后数据进行字符分布的分析,从而能够保证处理后数据分析的准确性,由于考虑了仓配数据所具有的重复数据多的特点,使得通过合并必要性能够进一步对每一种目标字符串进行分析,保证所获取得到的待合并字符串均能够有效对数据进行压缩,使用预设字符替换每类分类数据中对应的待合并字符串,得到替换数据,基于有限状态熵编码对替换数据进行数据压缩,得到每类替换数据的压缩数据,在保证对仓配数据进行无损压缩的同时,增强压缩率,减少过多重复字符串压缩所带来的编码冗余,提升压缩效果;并对所有分类数据所分别对应的压缩数据进行数据存储,使得重复数据能够统一化使用短编码表示,有效减少数据存储空间和传输带宽的占用,增强数据存储效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种基于物联网的仓配数据优化储存方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于物联网的仓配数据优化储存方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
一种基于物联网的仓配数据优化储存方法实施例:
下面结合附图具体的说明本发明所提供的一种基于物联网的仓配数据优化储存方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种基于物联网的仓配数据优化储存方法流程图,该方法包括:
S101:获取仓配数据,根据数据类别对仓配数据进行分类,得到分类数据,确定每类分类数据中各字符的位置。
其中,仓配数据,具体为仓储和配送环节中各传感器所采集的数据,如温度数据、湿度数据、重量数据、位置数据等。仓配数据可以用于监控货物的状态、优化仓储和配送流程,相关技术中,通过物联网对采集的某一时刻的所有仓配数据进行统一压缩并进行保存,这种方式下,由于不同种类数据可能具有不同的数值区间和不同的表现形式,因此,统一压缩存储的方式压缩率较低,占用存储空间较大。
本发明通过对仓配数据进行分类,根据数据类别,将不同类别的数据按照时序进行分类排列,从而能够更为清晰直观地表示不同类数据在时序上的状态变化,举例而言,可以将仓配数据根据数据类型划分为温度数据、湿度数据、重量数据、位置数据等。
可以理解的是,由于温度数据、湿度数据和重量数据等仓配数据在正常情况下基本保持不变,或在几个数值之间进行变化,也即是说,在分类数据中有部分处于数据重复的状态,因此,通过对分类数据分别进行数据压缩,能够有效提高压缩率。节省存储空间。
本发明实施例中,确定每一类分类数据中各字符的位置,以便于后续对重复字符串的确定,具体参见后续实施例。
S102:根据分类数据中字符的位置,获得不同字符长度的字符串,根据字符串的长度和字符串分别在不同分类数据中的数量,确定字符串在不同分类数据中的优选系数;根据优选系数确定不重合的目标字符串;使用预设字符分别对不同目标字符串进行替换,得到每类分类数据在替换每一种目标字符串之后的处理后数据;根据分类数据和对应处理后数据中字符的平均码长和处理后数据中字符的信息熵,获得合并必要性。
本发明实施例中,根据分类数据中字符的位置,将相邻至少两个字符组成字符串,本发明实施例中,字符串的长度越长,可以表征对应的字符串内所包含的字符越多,因此,在字符串越长,且对应字符串数量越多时,该字符串进行合并时能够有效提高压缩效率。
因此,通过设置优选系数,以便于对互相重复的字符串、或者由于数量较小无法有效提升压缩率的字符串进行筛除,得到不重合的目标字符串。
进一步地,本发明的一些实施例中,根据字符串的长度和字符串分别在不同分类数据中的数量,确定字符串在不同分类数据中的优选系数,包括:计算字符串的长度的归一化值和预设第一权值的乘积作为长度影响因子;计算字符串在不同分类数据中的数量的归一化值和预设第二权值的乘积,得到字符串在不同分类数据中的数量影响因子;根据长度影响因子和数量影响因子获得字符串在不同分类数据中的优选系数,其中,长度影响因子与优选系数呈正相关关系,数量影响因子与优选系数呈正相关关系。
其中,预设第一权值,为字符串的长度所对应的权重值,预设第二权值,为字符串分类数据中的数量所对应的权重值,可以理解的是,相同字符串在不同分类数据中可能具有不同的数量,因此,本发明分别对每一分类数据进行处理,可选地,预设第一权值可以具体例如为0.3,预设第二权值可以具体例如为0.7,或者,也可以根据实际情况进行调整,对此不做限制。
本发明实施例中,计算字符串的长度的归一化值和预设第一权值的乘积作为长度影响因子;计算字符串在不同分类数据中的数量的归一化值和预设第二权值的乘积,得到字符串在不同分类数据中的数量影响因子,长度影响因子和数量影响因子均为优选系数相关的计算因子。
本发明实施例中,正相关关系表示因变量会随着自变量的增大而增大,因变量会随着自变量的减小而减小,具体关系可以为相乘关系、相加关系、指数函数的幂等,由实际应用进行确定,也即是说,本发明可以计算长度影响因子和数量影响因子的乘积作为优选系数,或者,也可以计算长度影响因子和数量影响因子的和值作为优选系数,对此不做限制。
可以理解的是,本发明是将字符组合作为字符串,并对字符串进行替换,而后对替换后的数据进行数据压缩,在字符串越长,且字符串数量越多时,对应经过处理后压缩效果越优,因此,本发明通过长度影响因子和数量影响因子准确得到优选系数,保证优选系数的可靠性。
进一步地,本发明的一些实施例中,根据优选系数确定不重合的目标字符串,包括:在任一类分类数据中,根据优选系数由大到小的顺序对所有字符串进行排序;将优选系数大于预设系数阈值的字符串作为待分析字符串;确定待分析字符串中具有重合关系的字符串,其中,重合关系为包含关系或被包含关系;将相互有重合关系的待分析字符串中优选系数较小的进行删除,并将剩余的待分析字符串作为目标字符串。
本发明实施例中,根据优选系数确定不重合的目标字符串,其中,目标字符串,为优选系数满足预设条件的字符串,本发明的预设条件可以具体例如为优选系数大于预设系数阈值,可选地,预设系数阈值可以具体例如为0.8,当然,可以根据实际情况对其进行调整,对此不做限制。
本发明实施例中,将所有字符串的优选系数按照由大到小的顺序进行排序,将优选系数大于预设系数阈值的字符串作为待分析字符串。可以理解的是,由于字符串的长度不同,因此,待分析字符串中可能有包含和被包含的关系,也即具有重合关系的字符串,举例而言,例如字符串“ABC”和字符串“AB”中,字符串“ABC”就包含字符串“AB”,而在进行字符串替换时,字符串“ABC”和字符串“AB”仅有一个能够进行替换,因此,本发明通过对比字符串“ABC”和字符串“AB”的优选系数,将其最大的作为目标字符串,也即是说,将相互有重合关系的待分析字符串中优选系数较小的进行删除,并将剩余的待分析字符串作为目标字符串。
本发明实施例中,使用预设字符分别对不同目标字符串进行替换,得到每类分类数据在替换每一种目标字符串之后的处理后数据,其中,预设字符,为分类数据中原本所不具有的字符,也即是说,本发明使用预设字符对不同目标字符串进行替换,同一种目标字符串分别具有其对应的预设字符,则本发明实施例可以将目标字符串与其对应的预设字符组合得到一份解码表,以便根据这一份解码表进行对应的字符查找。
可以理解的是,有限状态熵编码在对数据进行编码时,可以使每一个字符的平均码长为小数,使其的平均码长更趋近于信息熵(平均码长越趋近于信息熵,数据的压缩效果越好)。在对数据中的字符进行合并时,则需要考虑合并前后的所有字符数量的变化,字符数量的变化也直接影响各字符的概率,进而影响信息熵,因此,本发明通过计算合并必要性,来表征个处理后数据的合并效果。
进一步地,本发明的一些实施例中,根据分类数据和对应处理后数据中字符的平均码长和处理后数据中字符的信息熵,获得合并必要性,包括:计算分类数据中所有字符的平均码长作为分类数据的第一平均码长;计算处理后数据中所有字符的平均码长作为处理后数据的第二平均码长;计算第一平均码长和第二平均码长的比值作为目标字符串的第一合并系数;计算处理后数据中所有字符的信息熵作为第二合并系数;将第一合并系数和第二合并系数的乘积的归一化值作为合并必要性。
本发明实施例中,合并必要性对应的计算公式可以具体例如为:
式中,B表示合并必要性,num0表示分类数据中所有字符的种类,i表示分类数据中字符种类的索引,Pi表示分类数据中第i类字符的数量,N表示分类数据字符的总数量,num1表示处理后数据中所有字符的种类,j表示处理后数据中字符种类的索引,Pj表示处理后数据中第j类字符的数量,M表示处理后数据字符的总数量,α表示第二合并系数,G()表示归一化处理。
在本发明的一个实施例中,归一化处理可以具体例如为最大最小值归一化处理,并且,后续步骤中的归一化均可以采用最大最小值归一化处理,在本发明的其他实施例中可以根据数值具体范围选择其他归一化方法,对此不再赘述。
式中,表示第一平均码长,/>表示第二平均码长,第一平均码长和第二平均码长的计算均为有限状态熵编码所具有的现有技术,对此不作进一步的赘述与限定,/>表示第一合并系数,可以理解的是,由于处理后数据中一定包含字符,也即第二平均码长不可能为0,因此,在第一平均码长大于第二平均码长时,可以表征处理后数据中平均码长小于分类数据,也即该处理后数据能够降低对应字符的平均码长,提升压缩率,在第一合并系数大于1时,表征压缩率较大,而在第一合并系数小于1时,既表征对应的处理后数据不仅无法提高压缩率,甚至增加压缩后的存储占用。
式中,α表示第二合并系数,在将字符串进行合并之后作为新的状态,得到处理后数据之后,会导致有限状态熵编码的状态表中的状态数增加,随着状态表中的状态数的增加,状态表需要存储和维护的信息就越多,这会导致状态表的复杂性增加。因此,在字符串进行合并时,需要考虑将该字符串进行合并之后的编码复杂性。当对字符进行合并之后,会破坏原有的字符概率分布情况,当字符概率分布的越均匀时,状态表所需要存储的编码信息就越多,状态表的复杂性就越高,这也意味着需要更多的存储空间来存储状态表。则本发明实施例中,使用第二合并系数表征对应的编码复杂性,通过计算处理后数据中所有字符的信息熵作为第二合并系数,通过第一合并系数和第二合并系数的乘积的归一化值得到合并必要性,使得合并必要性能够准确表征对应处理后数据的处理效果。
S103:根据合并必要性从目标字符串中确定每类分类数据的待合并字符串,使用预设字符替换每类分类数据中对应的待合并字符串,得到替换数据,基于有限状态熵编码对替换数据进行数据压缩,得到每类替换数据的压缩数据。
进一步地,本发明的一些实施例中,根据合并必要性从目标字符串中确定每类分类数据的待合并字符串,包括:将每类分类数据中合并必要性大于预设必要性阈值的目标字符串作为待合并字符串。
其中,预设必要性阈值额可以具体例如为1,也即是说,在合并必要性大于1时,可以表征对应目标字符串在合并之后能够提升压缩效果,将其作为待合并字符串。
本发明实施例中,使用预设字符替换每类分类数据中对应的待合并字符串,得到替换数据,也即是说,对每类分类数据所获取到的所有待合并字符串按照字符串类型分别使用预设字符进行替换,得到替换数据。
进一步地,本发明实施例中,基于有限状态熵编码对替换数据进行数据压缩,得到每类替换数据的压缩数据,包括:随机生成每个替换数据的预设编码表;根据预设编码表,对替换数据进行有限状态熵编码处理,得到压缩数据。
本发明实施例中,预设编码表为有限状态熵编码所使用的编码表,可以根据替换数据中字符的种类生成预设编码表,而后,根据预设编码表对替换数据进行有限状态熵编码处理,得到压缩数据,该编码过程为现有的有限状态熵编码过程,对此不作进一步限定与赘述。
本发明实施例中,每一种分类数据分别具有阈值对应的压缩数据,且每一个压缩数据与对应分类数据相比,在保证无损压缩的同时,均提升压缩率,提升压缩效果,减少存储占用。
S104:对所有分类数据所分别对应的压缩数据进行数据存储。
进一步地,本发明实施例中,将不同类的压缩数据分别存储至不同的存储空间中,也即是说,表征温度数据、湿度数据、重量数据、位置数据等分类数据分别进行存放。
本发明通过获取仓配数据并进行分类得到分类数据;通过对每一类分类数据分别进行分析,根据分类数据中字符的位置,获得不同字符长度的字符串,根据字符串的长度和字符串分别在不同分类数据中的数量,确定字符串在不同分类数据中的优选系数;其中,优选系数的获取能够结合字符串的长度和数量,有效分析字符串在对应分类数据的优选性,从而在根据优选系数确定不重合的目标字符串时;对字符串进行初步筛选,在后续通过分析目标字符串,减少对所有字符串分析的运算时间,提升处理效率,使用预设字符分别对不同目标字符串进行替换,得到每类分类数据在替换每一种目标字符串之后的处理后数据;根据分类数据和对应处理后数据中字符的平均码长和处理后数据中字符的信息熵,获得合并必要性;通过合并必要性能够进一步对处理后数据进行字符分布的分析,从而能够保证处理后数据分析的准确性,由于考虑了仓配数据所具有的重复数据多的特点,使得通过合并必要性能够进一步对每一种目标字符串进行分析,保证所获取得到的待合并字符串均能够有效对数据进行压缩,使用预设字符替换每类分类数据中对应的待合并字符串,得到替换数据,基于有限状态熵编码对替换数据进行数据压缩,得到每类替换数据的压缩数据,在保证对仓配数据进行无损压缩的同时,增强压缩率,减少过多重复字符串压缩所带来的编码冗余,提升压缩效果;并对所有分类数据所分别对应的压缩数据进行数据存储,使得重复数据能够统一化使用短编码表示,有效减少数据存储空间和传输带宽的占用,增强数据存储效果。
本发明还提出一种基于物联网的仓配数据优化储存系统,系统包括存储器和处理器,处理器执行存储器存储的计算机程序,以实现如前述的一种基于物联网的仓配数据优化储存方法。
一种基于物联网的仓配数据压缩方法实施例:
由于仓配数据具有数据重复性高、数据量庞大的特点,因此,相关技术中使用有限状态熵编码对仓配数据进行压缩所得到的压缩数据中,包含重复字符串压缩所带来的编码冗余,使得压缩率较低,压缩效果并不理想。
现有技术使用有限状态熵编码进行数据压缩所得到的压缩数据中,包含重复字符串压缩所带来的编码冗余,使得压缩率较低,压缩效果并不理想,为了解决此技术问题,本实施例提供一种基于物联网的仓配数据压缩方法,包括:
S201:获取仓配数据,根据数据类别对仓配数据进行分类,得到分类数据,确定每类分类数据中各字符的位置。
S202:根据分类数据中字符的位置,获得不同字符长度的字符串,根据字符串的长度和字符串分别在不同分类数据中的数量,确定字符串在不同分类数据中的优选系数;根据优选系数确定不重合的目标字符串;使用预设字符分别对不同目标字符串进行替换,得到每类分类数据在替换每一种目标字符串之后的处理后数据;根据分类数据和对应处理后数据中字符的平均码长和处理后数据中字符的信息熵,获得合并必要性。
S203:根据合并必要性从目标字符串中确定每类分类数据的待合并字符串,使用预设字符替换每类分类数据中对应的待合并字符串,得到替换数据,基于有限状态熵编码对替换数据进行数据压缩,得到每类替换数据的压缩数据。
本发明实施例中,由于步骤S201到S203的具体实现过程在上述一种基于物联网的仓配数据优化储存方法中已给出详细说明,在此不再赘述。
综上所述,本发明通过获取仓配数据并进行分类得到分类数据;通过对每一类分类数据分别进行分析,根据分类数据中字符的位置,获得不同字符长度的字符串,根据字符串的长度和字符串分别在不同分类数据中的数量,确定字符串在不同分类数据中的优选系数;其中,优选系数的获取能够结合字符串的长度和数量,有效分析字符串在对应分类数据的优选性,从而在根据优选系数确定不重合的目标字符串时;对字符串进行初步筛选,在后续通过分析目标字符串,减少对所有字符串分析的运算时间,提升处理效率,使用预设字符分别对不同目标字符串进行替换,得到每类分类数据在替换每一种目标字符串之后的处理后数据;根据分类数据和对应处理后数据中字符的平均码长和处理后数据中字符的信息熵,获得合并必要性;通过合并必要性能够进一步对处理后数据进行字符分布的分析,从而能够保证处理后数据分析的准确性,由于考虑了仓配数据所具有的重复数据多的特点,使得通过合并必要性能够进一步对每一种目标字符串进行分析,保证所获取得到的待合并字符串均能够有效对数据进行压缩,使用预设字符替换每类分类数据中对应的待合并字符串,得到替换数据,基于有限状态熵编码对替换数据进行数据压缩,得到每类替换数据的压缩数据,在保证对仓配数据进行无损压缩的同时,增强压缩率,减少过多重复字符串压缩所带来的编码冗余,提升压缩效果。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
Claims (6)
1.一种基于物联网的仓配数据优化储存方法,其特征在于,所述方法包括:
获取仓配数据,根据数据类别对所述仓配数据进行分类,得到分类数据,确定每类分类数据中各字符的位置;
根据分类数据中字符的位置,获得不同字符长度的字符串,根据所述字符串的长度和所述字符串分别在不同分类数据中的数量,确定所述字符串在不同分类数据中的优选系数;根据所述优选系数确定不重合的目标字符串;使用预设字符分别对不同目标字符串进行替换,得到每类分类数据在替换每一种目标字符串之后的处理后数据;根据所述分类数据和对应处理后数据中字符的平均码长和处理后数据中字符的信息熵,获得合并必要性;
根据所述合并必要性从所述目标字符串中确定每类分类数据的待合并字符串,使用预设字符替换每类分类数据中对应的待合并字符串,得到替换数据,基于有限状态熵编码对所述替换数据进行数据压缩,得到每类替换数据的压缩数据;
对所有分类数据所分别对应的压缩数据进行数据存储;
所述根据所述字符串的长度和所述字符串分别在不同分类数据中的数量,确定所述字符串在不同分类数据中的优选系数,包括:
计算所述字符串的长度的归一化值和预设第一权值的乘积作为长度影响因子;
计算所述字符串在不同分类数据中的数量的归一化值和预设第二权值的乘积,得到所述字符串在不同分类数据中的数量影响因子;
根据所述长度影响因子和所述数量影响因子获得所述字符串在不同分类数据中的优选系数,其中,所述长度影响因子与所述优选系数呈正相关关系,所述数量影响因子与所述优选系数呈正相关关系;
所述根据所述分类数据和对应处理后数据中字符的平均码长和处理后数据中字符的信息熵,获得合并必要性,包括:
计算所述分类数据中所有字符的平均码长作为第一平均码长;
计算所述处理后数据中所有字符的平均码长作为第二平均码长;
计算所述第一平均码长和所述第二平均码长的比值作为所述目标字符串的第一合并系数;
计算所述处理后数据中所有字符的信息熵作为第二合并系数;
将所述第一合并系数和所述第二合并系数的乘积的归一化值作为合并必要性。
2.如权利要求1所述的一种基于物联网的仓配数据优化储存方法,其特征在于,所述根据所述优选系数确定不重合的目标字符串,包括:
在任一类所述分类数据中,根据所述优选系数由大到小的顺序对所有字符串进行排序;将所述优选系数大于预设系数阈值的字符串作为待分析字符串;
确定所述待分析字符串中具有重合关系的字符串,其中,所述重合关系为包含关系或被包含关系;
将相互有重合关系的待分析字符串中优选系数较小的进行删除,并将剩余的待分析字符串作为目标字符串。
3.如权利要求1所述的一种基于物联网的仓配数据优化储存方法,其特征在于,所述根据所述合并必要性从所述目标字符串中确定每类分类数据的待合并字符串,包括:
将每类分类数据中合并必要性大于预设必要性阈值的目标字符串作为待合并字符串。
4.如权利要求1所述的一种基于物联网的仓配数据优化储存方法,其特征在于,所述基于有限状态熵编码对所述替换数据进行数据压缩,得到每类替换数据的压缩数据,包括:
随机生成每个所述替换数据的预设编码表;
根据所述预设编码表,对所述替换数据进行有限状态熵编码处理,得到压缩数据。
5.如权利要求1所述的一种基于物联网的仓配数据优化储存方法,其特征在于,所述对所有分类数据所分别对应的压缩数据进行数据存储,包括:
将不同类的压缩数据分别存储至不同的存储空间中。
6.一种基于物联网的仓配数据优化储存系统,所述系统包括存储器和处理器,其特征在于,所述处理器执行所述存储器存储的计算机程序,以实现如权利要求1-5任一项所述的一种基于物联网的仓配数据优化储存方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311168631.XA CN116915259B (zh) | 2023-09-12 | 2023-09-12 | 基于物联网的仓配数据优化储存方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311168631.XA CN116915259B (zh) | 2023-09-12 | 2023-09-12 | 基于物联网的仓配数据优化储存方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116915259A CN116915259A (zh) | 2023-10-20 |
CN116915259B true CN116915259B (zh) | 2023-12-01 |
Family
ID=88356944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311168631.XA Active CN116915259B (zh) | 2023-09-12 | 2023-09-12 | 基于物联网的仓配数据优化储存方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116915259B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117171399B (zh) * | 2023-11-02 | 2024-02-20 | 云图数据科技(郑州)有限公司 | 基于云平台的新能源数据优化存储方法 |
CN117216023B (zh) * | 2023-11-07 | 2024-01-26 | 陕西长瑞安驰信息技术集团有限公司 | 一种大规模网络数据存储方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114039607A (zh) * | 2021-11-09 | 2022-02-11 | 山东云海国创云计算装备产业创新中心有限公司 | 一种多字符的有限熵编码方法、装置、设备及可读介质 |
CN116153452A (zh) * | 2023-04-18 | 2023-05-23 | 济南科汛智能科技有限公司 | 基于人工智能的医疗电子病历存储系统 |
CN116368796A (zh) * | 2021-02-10 | 2023-06-30 | 华为技术有限公司 | 数据处理方法和装置 |
CN116388767A (zh) * | 2023-04-11 | 2023-07-04 | 河南大学 | 用于软件开发数据的安全管理方法 |
CN116600145A (zh) * | 2023-07-19 | 2023-08-15 | 南通二进制软件科技有限公司 | 一种基于数据交换的生产管理方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020113363A1 (en) * | 2018-12-03 | 2020-06-11 | Siemens Mobility GmbH | Method and apparatus for classifying data |
US11677416B2 (en) * | 2021-05-17 | 2023-06-13 | Radu Mircea Secareanu | Hardware implementable data compression/decompression algorithm |
-
2023
- 2023-09-12 CN CN202311168631.XA patent/CN116915259B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116368796A (zh) * | 2021-02-10 | 2023-06-30 | 华为技术有限公司 | 数据处理方法和装置 |
CN114039607A (zh) * | 2021-11-09 | 2022-02-11 | 山东云海国创云计算装备产业创新中心有限公司 | 一种多字符的有限熵编码方法、装置、设备及可读介质 |
CN116388767A (zh) * | 2023-04-11 | 2023-07-04 | 河南大学 | 用于软件开发数据的安全管理方法 |
CN116153452A (zh) * | 2023-04-18 | 2023-05-23 | 济南科汛智能科技有限公司 | 基于人工智能的医疗电子病历存储系统 |
CN116600145A (zh) * | 2023-07-19 | 2023-08-15 | 南通二进制软件科技有限公司 | 一种基于数据交换的生产管理方法 |
Non-Patent Citations (1)
Title |
---|
基于LZW优化算法的雷达数据压缩技术;刘林;;舰船科学技术(11);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116915259A (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116915259B (zh) | 基于物联网的仓配数据优化储存方法及系统 | |
US10824596B2 (en) | Adaptive dictionary compression/decompression for column-store databases | |
CN110399104B (zh) | 数据存储方法、数据存储装置、电子设备、存储介质 | |
KR101653692B1 (ko) | 데이터 오브젝트 처리 방법 및 장치 | |
US8838551B2 (en) | Multi-level database compression | |
CN102687404B (zh) | 用于数据压缩的数据值出现信息 | |
CN112994701B (zh) | 数据压缩方法、装置、电子设备及计算机可读介质 | |
US11238106B2 (en) | Fingerprints for compressed columnar data search | |
CN117290364B (zh) | 一种市场调查数据智能存储方法 | |
CN111105035A (zh) | 基于稀疏学习与遗传算法相结合的神经网络剪枝方法 | |
CN116861041B (zh) | 一种电子公文处理方法及系统 | |
CN114245896A (zh) | 向量查询方法、装置、电子设备及存储介质 | |
CN111611250A (zh) | 数据存储设备、数据查询方法、装置、服务器及存储介质 | |
CN112463784A (zh) | 数据去重方法、装置、设备及计算机可读存储介质 | |
CN112104725A (zh) | 容器镜像去重方法、系统、计算机设备及存储介质 | |
CN114817651B (zh) | 数据存储方法、数据查询方法、装置和设备 | |
CN115858476A (zh) | 用于web开发系统中自定义表单获取数据的高效存储方法 | |
CN115543946A (zh) | 一种金融大数据优化存储方法 | |
CN117376429A (zh) | 一种无线传感器网络数据智能压缩方法 | |
CN110019193B (zh) | 相似帐号识别方法、装置、设备、系统及可读介质 | |
Andrzejewski et al. | GPU-PLWAH: GPU-based implementation of the PLWAH algorithm for compressing bitmaps | |
CN115292392B (zh) | 用于智能仓储的数据管理方法 | |
CN115905168B (zh) | 基于数据库的自适应压缩方法和装置、设备、存储介质 | |
CN115309714B (zh) | 一种风冷模块机组的恒温控制系统的数据压缩方法 | |
CN110032432B (zh) | 实例的压缩方法和装置、实例的解压方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |