CN117155407B - 一种智慧镜柜消毒日志数据优化存储方法 - Google Patents
一种智慧镜柜消毒日志数据优化存储方法 Download PDFInfo
- Publication number
- CN117155407B CN117155407B CN202311421586.4A CN202311421586A CN117155407B CN 117155407 B CN117155407 B CN 117155407B CN 202311421586 A CN202311421586 A CN 202311421586A CN 117155407 B CN117155407 B CN 117155407B
- Authority
- CN
- China
- Prior art keywords
- sub
- binary
- optimal
- block
- blocks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 117
- 238000004659 sterilization and disinfection Methods 0.000 title claims abstract description 80
- 238000000605 extraction Methods 0.000 claims abstract description 142
- 230000002159 abnormal effect Effects 0.000 claims abstract description 137
- 238000006243 chemical reaction Methods 0.000 claims abstract description 56
- 238000004364 calculation method Methods 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 6
- 238000007906 compression Methods 0.000 abstract description 21
- 230000006835 compression Effects 0.000 abstract description 20
- 230000000694 effects Effects 0.000 description 11
- 230000006837 decompression Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- VEMKTZHHVJILDY-UHFFFAOYSA-N resmethrin Chemical compound CC1(C)C(C=C(C)C)C1C(=O)OCC1=COC(CC=2C=CC=CC=2)=C1 VEMKTZHHVJILDY-UHFFFAOYSA-N 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/40—Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
- H03M7/4006—Conversion to or from arithmetic code
- H03M7/4012—Binary arithmetic codes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/172—Caching, prefetching or hoarding of files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及数据处理技术领域,提出了一种智慧镜柜消毒日志数据优化存储方法,包括:采集智慧镜柜的消毒日志数据,得到待存储的消毒异常数据序列;对消毒异常数据序列获取异常二进制数据序列,获取不同窗口长度的若干子块;根据不同窗口长度下子块类型的分布,得到最优窗口长度及若干二进制子块;根据每种二进制子块的出现频率,结合幂律分布的频率序列,获取每种二进制子块对应的最优提取步长、最优运算方法及最优基元子串,得到最优转换数据及异常转换数据序列;根据异常转换数据序列对智慧镜柜的消毒异常数据序列进行压缩存储。本发明旨在解决消毒日志异常数据冗余程度小而影响压缩存储效率的问题。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种智慧镜柜消毒日志数据优化存储方法。
背景技术
智慧镜柜通常用于存放药品或其他消毒物品,并通过内置的系统记录消毒操作的日期、时间和其他相关数据,通过对日志数据中异常数据进行提取,并按照时间节点存储,以此来判断系统运行的稳定性,确保消毒系统运行过程中的稳定性,同时可根据历史异常数据进行数据预测,在镜柜系统即将出现运行异常时预警,因此需要对产生的大量异常数据进行存储,从而保证智慧镜柜的正常工作运行。
由于对异常数据的精度要求较高,因此在进行异常数据的压缩存储时通常采用无损压缩,现有的无损数据压缩算法包括LZW压缩算法、霍夫曼编码等;无损压缩算法在对存在冗余的数据有较好的处理效果,但异常数据的数据值规律性较弱,即所提取的异常数据中数据的冗余程度较小,因此在对异常数据进行压缩存储时,压缩效果较差;而霍夫曼编码对于呈现幂律分布的数据具有较好的编码压缩效果,因此需要对异常数据进行转换使得符合幂律分布,从而提高智慧镜柜消毒日志数据的压缩存储效果。
发明内容
本发明提供一种智慧镜柜消毒日志数据优化存储方法,以解决现有的消毒日志异常数据冗余程度小而影响压缩存储效率的问题,所采用的技术方案具体如下:
本发明一个实施例提供了一种智慧镜柜消毒日志数据优化存储方法,该方法包括以下步骤:
采集智慧镜柜的消毒日志数据,得到待存储的消毒异常数据序列;
对消毒异常数据序列获取异常二进制数据序列,通过不同窗口长度的可变窗口对异常二进制数据序列进行划分得到若干子块;根据不同窗口长度下子块类型的分布,得到最优窗口长度及若干二进制子块;
根据每种二进制子块的出现频率,结合幂律分布的频率序列,获取每种二进制子块对应的最优提取步长、最优运算方法及最优基元子串,得到最优转换数据及异常转换数据序列;
根据异常转换数据序列对智慧镜柜的消毒异常数据序列进行压缩存储。
进一步的,所述得到待存储的消毒异常数据序列,包括的具体方法为:
获取每个维度的消毒日志数据,对于任意一个维度,将该维度的消毒日志数据中,不符合异常阈值的数据进行提取,并按照对应的时间戳进行排列,得到的序列记为待存储的消毒异常数据序列。
进一步的,所述对消毒异常数据序列获取异常二进制数据序列,包括的具体方法为:
对消毒异常数据序列中每个异常数据进行二进制转换,得到每个异常数据的二进制数据,获取每个二进制数据的编码长度,将编码长度最大值作为二进制编码的固定长度,对每个二进制数据在首位之前进行补0,使得补0后的二进制数据的长度等于固定长度,将补0后的二进制数据记为每个异常数据的二进制编码,将所有二进制编码按照异常数据的排列顺序进行排列,得到的序列记为异常二进制数据序列。
进一步的,所述通过不同窗口长度的可变窗口对异常二进制数据序列进行划分得到若干子块,包括的具体方法为:
对于任意一个窗口长度,通过该窗口长度的窗口对异常二进制数据序列进行不重叠划分,得到若干子块,对于最后剩余的若干位二进制编码,若位数等于该窗口长度,得到一个子块;若位数小于该窗口长度,在末位补0,使得剩余的位数等于窗口长度,得到一个子块;得到该窗口长度的若干子块。
进一步的,所述得到最优窗口长度及若干二进制子块,包括的具体方法为:
根据每个窗口长度下子块类型的分布,以及幂律分布的频率序列,获取每个窗口长度的幂律相似度;
对于任意一个窗口长度,获取该窗口长度与最大窗口长度的比值,获取比值与幂律相似度的乘积,将乘积记为该窗口长度的优选程度;对每个窗口长度获取优选程度,将优选程度最大的窗口长度作为最优窗口长度,最优窗口长度对应的若干子块记为二进制子块。
进一步的,所述每个窗口长度的幂律相似度,具体的获取方法为:
对于任意一个窗口长度,获取该窗口长度下的子块数量,以及每个子块所属的子块类型;获取该窗口长度下每个子块类型的出现频率,若该窗口长度的某个子块类型在得到的子块中均没有出现,不获取该子块类型的出现频率;按照从大到小降序对该窗口长度下所有子块类型的出现频率进行排列,得到的序列记为该窗口长度的子块频率分布序列;
获取子块频率分布序列中元素数量,获取相等元素数量的幂律分布的频率序列;对子块频率分布序列与获取到的幂律分布的频率序列计算余弦相似度,得到的结果记为该窗口长度的幂律相似度。
进一步的,所述每种二进制子块对应的最优提取步长、最优运算方法及最优基元子串,具体的获取方法为:
将最优窗口长度的子块频率分布序列,记为初始子块频率分布序列,表示为,其中/>表示按照出现频率降序排列第/>种二进制子块所属子块类型的出现频率,/>表示二进制子块所属子块类型的数量;将最优窗口长度对应的幂律分布的频率序列记为幂律序列,则幂律序列表示为/>;
若,需要将/>个子块进行改变,其中/>表示二进制子块的数量,将/>记为/>的改变数量;构建可变的提取步长,对于任意一个提取步长,从第一个二进制子块开始提取,每隔提取步长进行一次二进制子块提取,将该提取步长提取到的二进制子块数量记为/>;统计提取到的所有二进制子块中/>对应子块类型的二进制子块的数量,记为该提取步长在/>的提取数量;获取每个提取步长在/>的提取数量,第/>个提取步长在/>的提取差值/>的计算方法为:
其中,表示按照出现频率降序排列第一种二进制子块所属子块类型的出现频率,/>表示二进制子块的数量,/>表示第/>个提取步长在/>的提取数量,/>表示求绝对值;获取每个提取步长在/>的提取差值,记为每个提取步长在/>的优选系数,将在/>的优选系数的最小值对应的提取步长,作为/>对应子块类型的二进制子块的最优提取步长,将最优提取步长下提取到的二进制子块记为可变子块;
将最优窗口长度下所有子块类型分别作为一个基元子串,采用任意一个基元子串与任意一种运算方法,与每个可变子块进行二进制运算,得到若干运算后的可变子块,记为每个可变子块在该基元子串通过该运算方法得到的运算子块;统计所有运算子块中对应子块类型的运算子块数量/>,以及/>对应子块类型的运算子块数量/>,获取/>与/>比值,记为该基元子串与该种运算方法的优选系数;采用每个基元子串与每种运算方法对可变子块运算得到对应的运算子块,获取每个基元子串与每种运算方法的优选系数,将优选系数最小值对应的基元子串与运算方法,记为/>对应子块类型的二进制子块的最优基元子串与最优运算方法;
若,需要将/>个子块被改变,获取每个提取步长提取到的二进制子块的数量;对于任意一个提取步长,获取该提取步长在/>的提取数量,以及该提取步长在/>的提取数量;获取每个提取步长在/>与/>的提取数量,第/>个提取步长在/>的提取差值/>的计算方法为:
其中,表示按照出现频率降序排列第一种二进制子块所属子块类型的出现频率,/>表示二进制子块的数量,/>表示第/>个提取步长在/>的提取数量,/>表示求绝对值;获取第/>个提取步长在/>的提取数量/>,将/>与/>的均值,作为第/>个提取步长在/>的优选系数;获取每个提取步长在/>的优选系数,将在/>的优选系数的最小值对应的提取步长,作为/>对应子块类型的二进制子块的最优提取步长,并得到若干可变子块;采用每个基元子串及每种运算方法对可变子块获取运算子块,获取每个基元子串与每种运算方法的优选系数,将优选系数最大值对应的基元子串与运算方法,记为/>对应子块类型的二进制子块的最优基元子串与最优运算方法;
若,不需要对/>对应子块类型的二进制子块进行调整;根据对/>对应子块类型的二进制子块的调整方法,得到初始子串类型频率序列中每个元素对应子块类型的二进制子块的最优提取步长、最优基元子串及最优运算方法;每个元素对应子块类型的二进制子块为一种二进制子块,得到每种二进制子块的最优提取步长、最优基元子串及最优运算方法。
进一步的,所述得到初始子串类型频率序列中每个元素对应子块类型的二进制子块的最优提取步长、最优基元子串及最优运算方法,包括的具体方法为:
判断与/>的大小关系,大于情况时将/>对应子块类型的二进制子块向/>对应子块类型的二进制子块进行转变,小于情况时将/>对应子块类型的二进制子块向/>对应子块类型的二进制子块进行转变;获取每个提取步长的提取到的若干二进制子块,将原有计算方法得到的优选系数与提取步长在/>的提取数量/>的均值作为新的优选系数来获取最优提取步长;
将原有计算方法得到的优选系数与运算子块中对应子块类型的运算子块数量的均值作为新的优选系数来获取最优基元子串与最优运算方法;
对初始子串类型频率序列中每个元素对应子块类型的二进制子块进行调整,同时优选系数计算过程中对优选系数计算进行更新,最终得到每个元素对应子块类型的二进制子块的最优提取步长、最优基元子串及最优运算方法。
进一步的,所述得到最优转换数据及异常转换数据序列,包括的具体方法为:
根据不同二进制子块的最优提取步长、最优基元子串及最优运算方法的获取顺序,逐种二进制子块进行可变子块获取并得到运算子块,直到最后一种二进制子块完成运算子块获取;将最终获取到的二进制子块及运算子块记为调整子块,并按照对应的二进制子块顺序排列,得到的序列记为最优转换数据;
对最优转换数据中每个调整子块通过十进制转换,转换为十进制数据,得到的序列记为异常转换数据序列。
进一步的,所述根据异常转换数据序列对智慧镜柜的消毒异常数据序列进行压缩存储,包括的具体方法为:
对异常转换数据序列进行霍夫曼编码,得到的数据记为压缩后消毒异常数据,将二进制编码的固定长度、压缩后消毒异常数据及最优窗口长度,以及每种二进制子块的最优提取步长、最优运算方法及最优基元子串进行存储。
本发明的有益效果是:本发明通过对智慧镜柜的消毒日志获取异常数据,通过对异常数据进行压缩存储,实现对智慧镜柜消毒日志数据的优化存储,同时通过无损压缩保证异常数据能够为智慧镜柜的正常运行提供参考基础;其中通过将异常数据转换为二进制数据得到异常二进制数据序列,通过获取最优窗口长度及二进制子块来使得二进制子块的子块类型分布更贴合幂律分布,初步提高霍夫曼编码的压缩效果;再通过对二进制子块通过最优提取步长、最优基元子串及最优运算方法的获取,逐步调整得到异常转换数据序列,使得异常转换数据序列最大程度地呈现幂律分布,并根据异常转换数据序列进行霍夫曼编码,提高对异常数据的编码压缩效果,完成对消毒异常数据序列的压缩存储,解压缩后则可以根据异常数据实现对智慧镜柜的异常预测及预警。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例所提供的一种智慧镜柜消毒日志数据优化存储方法流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明一个实施例所提供的一种智慧镜柜消毒日志数据优化存储方法流程图,该方法包括以下步骤:
步骤S001、采集智慧镜柜的消毒日志数据,得到待存储的消毒异常数据序列。
本实施例的目的是对智慧镜柜的消毒日志中的异常数据进行优化存储,因此首先需要采集智慧镜柜的消毒日志数据,本实施例通过温度传感器、湿度传感器及光照传感器进行数据采集,采集温度数据、湿度数据及光照强度共三个维度的数据,采集时间间隔本实施例设置为5秒,每次智慧镜柜消毒过程中进行数据采集;将每个维度在智慧镜柜从开始使用至今所有消毒过程中采集到的数据,分别组成一个消毒日志数据,则共得到三个维度的消毒日志数据,本实施例后续以任意一个消毒日志数据为例进行叙述;对于任意一个维度,实施者自行设置一个该维度的异常阈值,将该维度的消毒日志数据中,不符合异常阈值的数据进行提取,并按照对应的时间戳进行排列,得到的序列记为待存储的消毒异常数据序列,同时记录消毒异常数据序列中每个数据对应的时间戳。
至此,得到了智慧镜柜消毒日志中待存储的消毒异常数据序列。
步骤S002、对消毒异常数据序列获取异常二进制数据序列,通过不同窗口长度的可变窗口对异常二进制数据序列进行划分得到若干子块;根据不同窗口长度下子块类型的分布,得到最优窗口长度及若干二进制子块。
需要说明的是,异常数据的数值之间规律性较弱,即压缩过程中冗余性较低,而异常数据通常数值相差较小,因此可以通过二进制转换的方式将每个异常数据转换为二进制编码,提高不同异常数据之间的冗余程度,从而得到异常二进制数据序列;而通过对异常二进制数据序列进行分段得到若干子块,子块类型的分布频率越接近幂律分布,越能够提高编码压缩效果,同时子块长度越长,对子块转换为十进制数据后数据量越少,霍夫曼编码的压缩效果越好,因此通过对若干窗口长度根据上述特征计算优选程度,最终得到最优窗口长度,并划分得到若干二进制子块,为后续进一步调整二进制编码提供基础。
具体的,对消毒异常数据序列中每个异常数据进行二进制转换,得到每个异常数据的二进制数据,获取每个二进制数据的编码长度,将编码长度最大值作为二进制编码的固定长度,对每个二进制数据在首位之前进行补0,使得补0后的二进制数据的长度等于固定长度,将补0后的二进制数据记为每个异常数据的二进制编码,将所有二进制编码按照异常数据的排列顺序进行排列,得到的序列记为异常二进制数据序列,同时记录二进制编码的固定长度;需要说明的是,异常二进制数据序列排列得到后,其中每个元素不再是一个二进制编码,而改变成一位二进制编码,即将所有二进制编码按照异常数据的排列顺序首尾向量形成一个字符串,字符串中每一位二进制编码(0或1)为序列中的一个元素,为后续子块划分提供基础。
进一步的,构建一个可变窗口,本实施例可变窗口的初始窗口长度设置为2,最大窗口长度设置为10,窗口长度为整数,则通过对窗口长度递增,得到若干窗口长度;以任意一个窗口长度为例,通过该窗口长度的窗口对异常二进制数据序列进行不重叠划分,得到若干子块,即每窗口长度位二进制编码组成一个子块,对于最后剩余的若干位二进制编码,若位数等于该窗口长度,则可以得到一个子块;若位数小于该窗口长度,则通过在末位补0,使得剩余的位数等于窗口长度,然后得到一个子块,则得到了该窗口长度的若干子块;按照上述方法获取每个窗口长度的若干子块。
进一步的,对于任意一个窗口长度,获取该窗口长度下的子块数量,以及每个子块所属的子块类型,例如窗口长度为2下的子块类型包括00、01、10、11;获取该窗口长度下每个子块类型的出现频率(出现频数与子块数量的比值),若该窗口长度的某个子块类型在得到的子块中均没有出现,则不获取该子块类型的出现频率;按照从大到小降序对该窗口长度下所有子块类型的出现频率进行排列,得到的序列记为该窗口长度的子块频率分布序列;获取子块频率分布序列中元素数量,获取相等元素数量的幂律分布的频率序列,例如子块频率分布序列中元素数量为6,则幂律分布的频率序列为;对子块频率分布序列与获取到的幂律分布的频率序列计算余弦相似度,得到的结果记为该窗口长度的幂律相似度。
进一步的,获取该窗口长度与最大窗口长度的比值,获取比值与幂律相似度的乘积,将乘积记为该窗口长度的优选程度;按照上述方法对每个窗口长度获取子块频率分布序列及相应的幂律分布的频率序列,得到每个窗口长度的幂律相似度及优选程度;将优选程度最大的窗口长度作为最优窗口长度,最优窗口长度对应的若干子块记为二进制子块。
至此,通过二进制转换获取异常二进制数据序列,构建可变窗口并通过不同窗口长度对异常二进制数据序列进行划分,得到不同窗口长度下的若干子块,根据子块类型的分布与幂律分布的相似性以及窗口长度来量化优选程度,使得窗口长度越大,且子块类型越符合幂律分布的窗口长度的优选程度越大,最终得到最优窗口长度及若干二进制子块。
步骤S003、根据每种二进制子块的出现频率,结合幂律分布的频率序列,获取每种二进制子块对应的最优提取步长、最优运算方法及最优基元子串,得到最优转换数据及异常转换数据序列。
需要说明的是,获取到最优窗口长度及二进制子块后,二进制子块的出现频率与幂律分布仍存在一定差异,仍需要对二进制子块通过二进制运算方法进行调整,使得二进制子块调整后的频率分布更接近幂律分布,从而提高霍夫曼编码的压缩效果。
具体的,将最优窗口长度的子块频率分布序列,记为初始子块频率分布序列,表示为,其中/>表示按照出现频率降序排列第/>种二进制子块所属子块类型的出现频率,/>表示二进制子块所属子块类型的数量,即二进制子块的种类数量;将最优窗口长度对应的幂律分布的频率序列记为幂律序列,则幂律序列表示为。
进一步的,判断与/>的大小关系,若/>,则最多需要将/>个子块进行改变,其中/>表示二进制子块的数量,将/>记为/>的改变数量;构建可变的提取步长,本实施例初始提取步长设置为2,最大提取步长设置为/>,则得到若干提取步长;对于任意一个提取步长,从第一个二进制子块开始提取,每隔提取步长进行一次二进制子块提取,由于二进制子块按顺序排列,则按照顺序不再能提取到二进制子块停止,将该提取步长提取到的二进制子块数量记为/>;例如提取步长为2,则提取二进制子块的序数分别为1、3、5、…、/>;统计提取到的所有二进制子块中/>对应子块类型的二进制子块的数量,记为该提取步长在/>的提取数量;按照上述方法获取每个提取步长在/>的提取数量,则第/>个提取步长在/>的提取差值/>的计算方法为:
其中,表示按照出现频率降序排列第一种二进制子块所属子块类型的出现频率,/>表示二进制子块的数量,/>表示第/>个提取步长在/>的提取数量,/>表示求绝对值;通过/>的改变数量与该提取步长在/>的提取数量的差异,差异越小说明该提取步长越能够提取相近数量的/>对应子块类型的二进制子块,从而为调整提供基础;按照上述方法获取每个提取步长在/>的提取差值,记为每个提取步长在/>的优选系数,将在/>的优选系数的最小值对应的提取步长,作为/>对应子块类型的二进制子块的最优提取步长,将最优提取步长下提取到的二进制子块记为可变子块。
进一步的,本实施例采用加法、减法、同或及异或四种运算方法,将最优窗口长度下所有子块类型分别作为一个基元子串(包括尚未在所有二进制子块中出现的子块类型),采用任意一个基元子串与任意一种运算方法,与每个可变子块进行二进制运算,得到若干运算后的可变子块,记为每个可变子块在该基元子串通过该运算方法得到的运算子块;统计所有运算子块中对应子块类型的运算子块数量/>,以及/>对应子块类型的运算子块数量/>,获取/>与/>比值,记为该基元子串与该种运算方法的优选系数;按照上述方法采用每个基元子串与每种运算方法对可变子块运算得到对应的运算子块,获取每个基元子串与每种运算方法的优选系数,将优选系数最小值对应的基元子串与运算方法,记为/>对应子块类型的二进制子块的最优基元子串与最优运算方法;需要说明的是,由于运算调整后需要将越多的/>对应子块类型的可变子块转换为/>对应子块类型的运算子块,则需要比值越小,转换的数量越多,从而得到最优基元子串及最优运算方法。
进一步的,若,则最多需要将/>个子块被改变,此时被转换的子块需要从/>对应子块类型的二进制子块中选取,同理获取每个提取步长提取到的二进制子块的数量;对于任意一个提取步长,获取该提取步长在/>的提取数量,以及该提取步长在的提取数量;按照上述方法获取每个提取步长在/>与/>的提取数量,则第/>个提取步长在的提取差值/>的计算方法为:
其中,表示按照出现频率降序排列第一种二进制子块所属子块类型的出现频率,/>表示二进制子块的数量,/>表示第/>个提取步长在/>的提取数量,/>表示求绝对值;获取第/>个提取步长在/>的提取数量/>,将/>与/>的均值,作为第/>个提取步长在/>的优选系数;按照上述方法获取每个提取步长在/>的优选系数,将在/>的优选系数的最小值对应的提取步长,作为/>对应子块类型的二进制子块的最优提取步长,并得到若干可变子块;按照上述方法采用每个基元子串及每种运算方法对可变子块获取运算子块,获取每个基元子串与每种运算方法的优选系数,将优选系数最大值对应的基元子串与运算方法,记为/>对应子块类型的二进制子块的最优基元子串与最优运算方法;需要说明的是,由于运算调整后需要将越多的/>对应子块类型的可变子块转换为/>对应子块类型的运算子块,则需要比值越小,转换的数量越多,从而得到最优基元子串及最优运算方法。
进一步的,若,则不需要对/>对应子块类型的二进制子块进行调整;判断/>与/>的大小关系,按照上述方法进行判断,大于情况时将/>对应子块类型的二进制子块向对应子块类型的二进制子块进行转变,小于情况时将/>对应子块类型的二进制子块向/>对应子块类型的二进制子块进行转变;同理获取每个提取步长的提取到的若干二进制子块,由于已经对/>对应子块类型的二进制子块完成调整,则提取步长的优选系数需要考虑提取步长在/>的提取数量/>,则将原有计算方法得到的优选系数与/>的均值作为新的优选系数来获取最优提取步长;而在基元子串与远算方法的优选系数获取过程中,同样需要考虑运算子块中/>对应子块类型的运算子块数量/>,则将原有计算方法得到的优选系数与/>的均值作为新的优选系数来获取最优基元子串与最优运算方法;按照上述方法对初始子串类型频率序列中每个元素对应子块类型的二进制子块进行调整,同时优选系数计算过程中均需要考虑已经调整完的频率对应子块类型的二进制子块,即需要按照上述方法对优选系数计算进行更新,最终得到每个元素对应子块类型的二进制子块的最优提取步长、最优基元子串及最优运算方法,而每个元素对应子块类型的二进制子块即为一种二进制子块,则得到了每种二进制子块的最优提取步长、最优基元子串及最优运算方法。
进一步的,根据不同二进制子块的最优提取步长、最优基元子串及最优运算方法的获取顺序,逐种二进制子块进行可变子块获取并得到运算子块,直到最后一种二进制子块完成运算子块获取;此时每个二进制子块存在没有经过运算、经过一次运算或经过多次运算三种情况,将所有情况下的子块,即最终获取到的二进制子块及运算子块(运算子块可能作为可变子块再次得到运算子块)记为调整子块,并按照对应的二进制子块顺序排列,得到的序列记为最优转换数据;对最优转换数据中每个调整子块通过十进制转换,转换为十进制数据,得到的序列记为异常转换数据序列。
至此,获取到了异常转换数据序列,提高了其中子块类型的频率与幂律分布的想进行。
步骤S004、根据异常转换数据序列对智慧镜柜的消毒异常数据序列进行压缩存储。
需要说明的是,获取到异常转换数据序列后,即是对消毒异常数据序列通过二进制编码转换为异常二进制数据序列,通过对异常二进制数据序列结合幂律分布的频率序列进行分析,通过最优窗口长度划分二进制子块,再利用最优提取步长、最优运算方法及最优基元子串进行转换得到最优转换数据,使最优转换数据中所有调整子块最大程度地呈现幂律分布,再对每个调整子块转换为十进制,得到异常转换数据序列,通过对异常转换数据序列进行霍夫曼编码,而异常转换数据序列更接近幂律分布,霍夫曼编码后压缩效果较好;同时存储各种二进制子块对应的最优提取步长、最优运算方法及最优基元子串,保证解压缩后能够得到无损的消毒异常数据序列。
具体的,对异常转换数据序列进行霍夫曼编码,得到的数据记为压缩后消毒异常数据,将二进制编码的固定长度、压缩后消毒异常数据及最优窗口长度,以及每种二进制子块的最优提取步长、最优运算方法及最优基元子串进行存储,则完成了智慧镜柜的消毒异常数据序列的压缩存储。
进一步的,在解压缩时,通过将压缩后消毒异常数据进行编码逆转换得到异常转换数据序列,将异常转换数据序列中每个数据转换为最优窗口长度的二进制编码,通过不同种二进制子块的最优提取步长、最优运算方法及最优基元子串,按照获取顺序的逆向顺序逐步还原得到异常二进制数据序列,对异常二进制序列根据固定长度,转换为十进制数据,则得到了原始的消毒异常数据序列。
至此,通过使智慧镜柜的消毒异常数据序列经过转换调整后得到异常转换数据序列,更加符合幂律分布,从而提高对于智慧镜柜的消毒异常数据序列的霍夫曼编码的压缩效果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种智慧镜柜消毒日志数据优化存储方法,其特征在于,该方法包括以下步骤:
采集智慧镜柜的消毒日志数据,得到待存储的消毒异常数据序列;
对消毒异常数据序列获取异常二进制数据序列,通过不同窗口长度的可变窗口对异常二进制数据序列进行划分得到若干子块;根据不同窗口长度下子块类型的分布,得到最优窗口长度及若干二进制子块;
根据每种二进制子块的出现频率,结合幂律分布的频率序列,获取每种二进制子块对应的最优提取步长、最优运算方法及最优基元子串,得到最优转换数据及异常转换数据序列;
根据异常转换数据序列对智慧镜柜的消毒异常数据序列进行压缩存储;
所述得到最优窗口长度及若干二进制子块,包括的具体方法为:
根据每个窗口长度下子块类型的分布,以及幂律分布的频率序列,获取每个窗口长度的幂律相似度;
对于任意一个窗口长度,获取该窗口长度与最大窗口长度的比值,获取比值与幂律相似度的乘积,将乘积记为该窗口长度的优选程度;对每个窗口长度获取优选程度,将优选程度最大的窗口长度作为最优窗口长度,最优窗口长度对应的若干子块记为二进制子块;
所述每个窗口长度的幂律相似度,具体的获取方法为:
对于任意一个窗口长度,获取该窗口长度下的子块数量,以及每个子块所属的子块类型;获取该窗口长度下每个子块类型的出现频率,若该窗口长度的某个子块类型在得到的子块中均没有出现,不获取该子块类型的出现频率;按照从大到小降序对该窗口长度下所有子块类型的出现频率进行排列,得到的序列记为该窗口长度的子块频率分布序列;
获取子块频率分布序列中元素数量,获取相等元素数量的幂律分布的频率序列;对子块频率分布序列与获取到的幂律分布的频率序列计算余弦相似度,得到的结果记为该窗口长度的幂律相似度。
2.根据权利要求1所述的一种智慧镜柜消毒日志数据优化存储方法,其特征在于,所述得到待存储的消毒异常数据序列,包括的具体方法为:
获取每个维度的消毒日志数据,对于任意一个维度,将该维度的消毒日志数据中,不符合异常阈值的数据进行提取,并按照对应的时间戳进行排列,得到的序列记为待存储的消毒异常数据序列。
3.根据权利要求1所述的一种智慧镜柜消毒日志数据优化存储方法,其特征在于,所述对消毒异常数据序列获取异常二进制数据序列,包括的具体方法为:
对消毒异常数据序列中每个异常数据进行二进制转换,得到每个异常数据的二进制数据,获取每个二进制数据的编码长度,将编码长度最大值作为二进制编码的固定长度,对每个二进制数据在首位之前进行补0,使得补0后的二进制数据的长度等于固定长度,将补0后的二进制数据记为每个异常数据的二进制编码,将所有二进制编码按照异常数据的排列顺序进行排列,得到的序列记为异常二进制数据序列。
4.根据权利要求1所述的一种智慧镜柜消毒日志数据优化存储方法,其特征在于,所述通过不同窗口长度的可变窗口对异常二进制数据序列进行划分得到若干子块,包括的具体方法为:
对于任意一个窗口长度,通过该窗口长度的窗口对异常二进制数据序列进行不重叠划分,得到若干子块,对于最后剩余的若干位二进制编码,若位数等于该窗口长度,得到一个子块;若位数小于该窗口长度,在末位补0,使得剩余的位数等于窗口长度,得到一个子块;得到该窗口长度的若干子块。
5.根据权利要求1所述的一种智慧镜柜消毒日志数据优化存储方法,其特征在于,所述每种二进制子块对应的最优提取步长、最优运算方法及最优基元子串,具体的获取方法为:
将最优窗口长度的子块频率分布序列,记为初始子块频率分布序列,表示为,其中/>表示按照出现频率降序排列第/>种二进制子块所属子块类型的出现频率,/>表示二进制子块所属子块类型的数量;将最优窗口长度对应的幂律分布的频率序列记为幂律序列,则幂律序列表示为/>;
若,需要将/>个子块进行改变,其中/>表示二进制子块的数量,将/>记为/>的改变数量;构建可变的提取步长,对于任意一个提取步长,从第一个二进制子块开始提取,每隔提取步长进行一次二进制子块提取,将该提取步长提取到的二进制子块数量记为/>;统计提取到的所有二进制子块中/>对应子块类型的二进制子块的数量,记为该提取步长在/>的提取数量;获取每个提取步长在/>的提取数量,第/>个提取步长在/>的提取差值/>的计算方法为:
其中,表示按照出现频率降序排列第一种二进制子块所属子块类型的出现频率,/>表示二进制子块的数量,/>表示第/>个提取步长在/>的提取数量,/>表示求绝对值;获取每个提取步长在/>的提取差值,记为每个提取步长在/>的优选系数,将在/>的优选系数的最小值对应的提取步长,作为/>对应子块类型的二进制子块的最优提取步长,将最优提取步长下提取到的二进制子块记为可变子块;
将最优窗口长度下所有子块类型分别作为一个基元子串,采用任意一个基元子串与任意一种运算方法,与每个可变子块进行二进制运算,得到若干运算后的可变子块,记为每个可变子块在该基元子串通过该运算方法得到的运算子块;统计所有运算子块中对应子块类型的运算子块数量/>,以及/>对应子块类型的运算子块数量/>,获取/>与/>比值,记为该基元子串与该种运算方法的优选系数;采用每个基元子串与每种运算方法对可变子块运算得到对应的运算子块,获取每个基元子串与每种运算方法的优选系数,将优选系数最小值对应的基元子串与运算方法,记为/>对应子块类型的二进制子块的最优基元子串与最优运算方法;
若,需要将/>个子块被改变,获取每个提取步长提取到的二进制子块的数量;对于任意一个提取步长,获取该提取步长在/>的提取数量,以及该提取步长在的提取数量;获取每个提取步长在/>与/>的提取数量,第/>个提取步长在/>的提取差值的计算方法为:
其中,表示按照出现频率降序排列第一种二进制子块所属子块类型的出现频率,/>表示二进制子块的数量,/>表示第/>个提取步长在/>的提取数量,/>表示求绝对值;获取第/>个提取步长在/>的提取数量/>,将/>与/>的均值,作为第/>个提取步长在/>的优选系数;获取每个提取步长在/>的优选系数,将在/>的优选系数的最小值对应的提取步长,作为/>对应子块类型的二进制子块的最优提取步长,并得到若干可变子块;采用每个基元子串及每种运算方法对可变子块获取运算子块,获取每个基元子串与每种运算方法的优选系数,将优选系数最大值对应的基元子串与运算方法,记为/>对应子块类型的二进制子块的最优基元子串与最优运算方法;
若,不需要对/>对应子块类型的二进制子块进行调整;根据对/>对应子块类型的二进制子块的调整方法,得到初始子串类型频率序列中每个元素对应子块类型的二进制子块的最优提取步长、最优基元子串及最优运算方法;每个元素对应子块类型的二进制子块为一种二进制子块,得到每种二进制子块的最优提取步长、最优基元子串及最优运算方法。
6.根据权利要求5所述的一种智慧镜柜消毒日志数据优化存储方法,其特征在于,所述得到初始子串类型频率序列中每个元素对应子块类型的二进制子块的最优提取步长、最优基元子串及最优运算方法,包括的具体方法为:
判断与/>的大小关系,大于情况时将/>对应子块类型的二进制子块向/>对应子块类型的二进制子块进行转变,小于情况时将/>对应子块类型的二进制子块向/>对应子块类型的二进制子块进行转变;获取每个提取步长的提取到的若干二进制子块,将原有计算方法得到的优选系数与提取步长在/>的提取数量/>的均值作为新的优选系数来获取最优提取步长;
将原有计算方法得到的优选系数与运算子块中对应子块类型的运算子块数量/>的均值作为新的优选系数来获取最优基元子串与最优运算方法;
对初始子串类型频率序列中每个元素对应子块类型的二进制子块进行调整,同时优选系数计算过程中对优选系数计算进行更新,最终得到每个元素对应子块类型的二进制子块的最优提取步长、最优基元子串及最优运算方法。
7.根据权利要求1所述的一种智慧镜柜消毒日志数据优化存储方法,其特征在于,所述得到最优转换数据及异常转换数据序列,包括的具体方法为:
根据不同二进制子块的最优提取步长、最优基元子串及最优运算方法的获取顺序,逐种二进制子块进行可变子块获取并得到运算子块,直到最后一种二进制子块完成运算子块获取;将最终获取到的二进制子块及运算子块记为调整子块,并按照对应的二进制子块顺序排列,得到的序列记为最优转换数据;
对最优转换数据中每个调整子块通过十进制转换,转换为十进制数据,得到的序列记为异常转换数据序列。
8.根据权利要求3所述的一种智慧镜柜消毒日志数据优化存储方法,其特征在于,所述根据异常转换数据序列对智慧镜柜的消毒异常数据序列进行压缩存储,包括的具体方法为:
对异常转换数据序列进行霍夫曼编码,得到的数据记为压缩后消毒异常数据,将二进制编码的固定长度、压缩后消毒异常数据及最优窗口长度,以及每种二进制子块的最优提取步长、最优运算方法及最优基元子串进行存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311421586.4A CN117155407B (zh) | 2023-10-31 | 2023-10-31 | 一种智慧镜柜消毒日志数据优化存储方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311421586.4A CN117155407B (zh) | 2023-10-31 | 2023-10-31 | 一种智慧镜柜消毒日志数据优化存储方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117155407A CN117155407A (zh) | 2023-12-01 |
CN117155407B true CN117155407B (zh) | 2024-04-05 |
Family
ID=88901128
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311421586.4A Active CN117155407B (zh) | 2023-10-31 | 2023-10-31 | 一种智慧镜柜消毒日志数据优化存储方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117155407B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117459073B (zh) * | 2023-12-26 | 2024-03-05 | 大连亚明汽车部件股份有限公司 | 一种热泵系统运行数据的智能管理方法 |
CN117692011B (zh) * | 2024-01-29 | 2024-04-30 | 航天亮丽电气有限责任公司 | 一种用于消防救援环境监测系统的监测数据预警方法 |
CN117857648A (zh) * | 2024-03-04 | 2024-04-09 | 广东华宸建设工程质量检测有限公司 | 基于大数据的建设工程管理云服务器通信方法 |
CN118138056B (zh) * | 2024-04-30 | 2024-07-19 | 国能信控互联技术有限公司 | 一种用于新能源场站的数据混合存储管理方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115104305A (zh) * | 2020-02-12 | 2022-09-23 | 谷歌有限责任公司 | 用于图压缩的多上下文熵编码 |
CN116723337A (zh) * | 2023-08-10 | 2023-09-08 | 深圳市君兰电子有限公司 | 一种hdmi高清数据优化传输方法及系统 |
CN116820352A (zh) * | 2023-08-23 | 2023-09-29 | 湖南奔普智能科技有限公司 | 一种具有数据容灾功能的病区自助结算系统 |
CN116910285A (zh) * | 2023-09-01 | 2023-10-20 | 山东卓硕北斗网络科技有限公司 | 基于物联网的智慧交通数据优化存储方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6788224B2 (en) * | 2000-06-26 | 2004-09-07 | Atop Innovations S.P.A. | Method for numeric compression and decompression of binary data |
-
2023
- 2023-10-31 CN CN202311421586.4A patent/CN117155407B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115104305A (zh) * | 2020-02-12 | 2022-09-23 | 谷歌有限责任公司 | 用于图压缩的多上下文熵编码 |
CN116723337A (zh) * | 2023-08-10 | 2023-09-08 | 深圳市君兰电子有限公司 | 一种hdmi高清数据优化传输方法及系统 |
CN116820352A (zh) * | 2023-08-23 | 2023-09-29 | 湖南奔普智能科技有限公司 | 一种具有数据容灾功能的病区自助结算系统 |
CN116910285A (zh) * | 2023-09-01 | 2023-10-20 | 山东卓硕北斗网络科技有限公司 | 基于物联网的智慧交通数据优化存储方法 |
Non-Patent Citations (2)
Title |
---|
DM数据库中大规模数据智能自适应压缩算法;郭威;方宽;黄慧欣;林俊;;科学技术与工程(03);全文 * |
郭威 ; 方宽 ; 黄慧欣 ; 林俊 ; .DM数据库中大规模数据智能自适应压缩算法.科学技术与工程.2018,(03),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN117155407A (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117155407B (zh) | 一种智慧镜柜消毒日志数据优化存储方法 | |
CN112953550B (zh) | 数据压缩的方法、电子设备及存储介质 | |
CN115514375B (zh) | 一种缓存数据压缩方法 | |
KR101049699B1 (ko) | 데이터의 압축방법 | |
CN110021369B (zh) | 基因测序数据压缩解压方法、系统及计算机可读介质 | |
Bhattacharjee et al. | Comparison study of lossless data compression algorithms for text data | |
CN106407285A (zh) | 一种基于rle和lzw的优化比特文件压缩与解压缩方法 | |
CN116153452B (zh) | 基于人工智能的医疗电子病历存储系统 | |
CN116700630B (zh) | 基于物联网的有机无机复混肥料生产数据优化存储方法 | |
CN116827351B (zh) | 一种石墨烯发热墙面温度智能监测系统 | |
CN116016606B (zh) | 一种基于智慧云的污水处理运维数据高效管理系统 | |
CN115695564B (zh) | 一种物联网数据的高效传输方法 | |
CN116051156B (zh) | 一种基于数字孪生的新能源动态电价数据管理系统 | |
CN115269526A (zh) | 一种半导体生产数据的处理方法及系统 | |
CN104156990A (zh) | 一种支持特大型数据窗口的无损压缩编码方法及系统 | |
CN113676187B (zh) | 一种哈夫曼修正编码方法、系统及相关组件 | |
CN110021368A (zh) | 比对型基因测序数据压缩方法、系统及计算机可读介质 | |
CN108880559A (zh) | 数据压缩方法、数据解压缩方法、压缩设备及解压缩设备 | |
CN117040542B (zh) | 一种智能综合配电箱能耗数据处理方法 | |
CN115964347B (zh) | 一种市场监管监测中心数据的智能存储方法 | |
CN116737085A (zh) | 一种电梯维护数据高效存储方法 | |
CN116961672A (zh) | 基于Transformer编码器的无损数据压缩方法 | |
CN115567058A (zh) | 一种结合预测与编码的时序数据有损压缩方法 | |
CN108259515A (zh) | 一种适用于带宽受限下传输链路的无损信源压缩方法 | |
CN107682017A (zh) | 一种星载磁强计磁场数据压缩处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |