CN117811589B - 一种基于人工智能的企业数据压缩方法及系统 - Google Patents
一种基于人工智能的企业数据压缩方法及系统 Download PDFInfo
- Publication number
- CN117811589B CN117811589B CN202410233978.6A CN202410233978A CN117811589B CN 117811589 B CN117811589 B CN 117811589B CN 202410233978 A CN202410233978 A CN 202410233978A CN 117811589 B CN117811589 B CN 117811589B
- Authority
- CN
- China
- Prior art keywords
- compressed
- sequence
- data
- coding
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 21
- 238000013144 data compression Methods 0.000 title claims abstract description 20
- 230000000295 complement effect Effects 0.000 claims description 21
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 230000001502 supplementing effect Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000013523 data management Methods 0.000 abstract description 2
- 238000007906 compression Methods 0.000 description 11
- 230000006835 compression Effects 0.000 description 11
- 230000006837 decompression Effects 0.000 description 10
- 238000007726 management method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及企业数据管理领域,尤其涉及一种基于人工智能的企业数据压缩方法及系统。方法包括步骤:将待压缩的企业数据转换为待压缩序列,对企业数据中每条信息的每个字段的查看频率进行预测,根据查看频率的预测值获取待压缩序列中每种待压缩数据的预测查看频率,根据每种待压缩数据的预测查看频率以及重复频率对待压缩序列进行压缩,得到待压缩序列中每个元素的编码结果,对待压缩序列中所有元素的编码结果进行分层存储,根据分层存储的信息对企业数据中的指定信息的指定字段进行解压查看。本发明在查看企业数据中的部分信息时,仅需解压局部数据,无需解压全部数据,提高了数据的查看效率。
Description
技术领域
本发明涉及企业数据管理领域,尤其涉及一种基于人工智能的企业数据压缩方法及系统。
背景技术
企业数据包括公司概况、产品信息、经营数据、研究成果等多个方面的数据,数据量非常大,需要进行压缩存储。
霍夫曼编码能够达到较高的压缩效率,因此常用霍夫曼编码对企业数据进行压缩。但对于霍夫曼编码的压缩结果,若需要查看企业数据中的某个指定数据,需要对霍夫曼编码的压缩结果全部进行解压,使得企业数据的查看效率非常慢。
发明内容
为了解决以上问题,本发明提供一种基于人工智能的企业数据压缩方法及系统。
第一方面,本发明提供一种基于人工智能的企业数据压缩方法,采用如下的技术方案:
一种基于人工智能的企业数据压缩方法,包括步骤:
将待压缩的企业数据转换为待压缩序列;
对企业数据中每条信息的每个字段的查看频率进行预测,得到所述每条信息的每个字段的查看频率的预测值,根据所述查看频率的预测值获取待压缩序列中每种待压缩数据的预测查看频率;
根据每种待压缩数据的预测查看频率以及重复频率对待压缩序列进行压缩,得到待压缩序列中每个元素的编码结果;
对待压缩序列中所有元素的编码结果进行分层存储;根据分层存储的信息对企业数据中的指定信息的指定字段进行解压查看。
优选的,所述对企业数据中每条信息的每个字段的查看频率进行预测,得到所述每条信息的每个字段的查看频率的预测值,包括步骤:
构建神经网络,神经网络采用全连接结构,输入数据为企业数据,输出数据为企业数据中每条信息的每个字段的查看频率的预测值;神经网络的训练集为历史的企业数据构成的数据集,训练集的标签为历史的企业数据中每条信息的每个字段的实际查看频率,神经网络的损失函数为均方差损失;
将待压缩的企业数据输入到训练好的神经网络中,输出待压缩的企业数据中每条信息的每个字段的查看频率的预测值。
优选的,根据所述查看频率的预测值获取待压缩序列中每种待压缩数据的预测查看频率,包括步骤:
对于待压缩序列中每个元素,将元素在待压缩的企业数据中对应信息的对应字段的查看频率的预测值,作为元素的查看频率的预测值;
将待压缩序列中每种待压缩数据对应的所有元素的查看频率的预测值的均值作为每种待压缩数据的预测查看频率。
优选的,所述根据每种待压缩数据的预测查看频率以及重复频率对待压缩序列进行压缩,得到待压缩序列中每个元素的编码结果,包括步骤:
根据每种待压缩数据的预测查看频率以及重复频率获取每种待压缩数据的编码频率;根据每种待压缩数据的编码频率,利用霍夫曼编码的方法构建霍夫曼树,根据霍夫曼树得到每种待压缩数据的码字;
对于待压缩序列中的每个元素,获取与该元素的元素值相同的待压缩数据,将该待压缩数据的码字作为该元素的编码结果。
优选的,所述每种待压缩数据的编码频率满足关系式:
其中,i表示待压缩序列中待压缩数据的序号;表示待压缩序列中第i种待压缩数据的编码频率;/>表示待压缩序列中第i种待压缩数据的重复频率;/>表示待压缩序列中第i种待压缩数据的预测查看频率;N表示待压缩数据的种类数。
优选的,所述重复频率的获取方法为:
统计待压缩序列中每种待压缩数据出现的次数,将每种待压缩数据出现的次数与待压缩序列的长度的比值,作为每种待压缩数据的重复频率。
优选的,所述对待压缩序列中所有元素的编码结果进行分层存储,包括步骤:
根据待压缩序列中每个元素的编码结果以及预设的分层长度,计算每个元素的补充编码长度;根据每个元素的补充编码长度对每个元素的编码结果进行补充,得到每个元素的第二编码结果;
将待压缩序列中每个元素的第二编码结果中前m个比特位按照元素的顺序拼接在一起,作为第一层的编码信息;将待压缩序列中每个元素的第二编码结果中第m+1个比特位至第2m个比特位按照元素的顺序拼接在一起,作为第二层的编码信息,其中,当某个元素的第二编码结果不存在第m+1个比特位至第2m个比特位时,该元素不参与第二层的编码信息的获取;将待压缩序列中每个元素的第二编码结果中第2m+1个比特位至第3m个比特位按照元素的顺序拼接在一起,作为第三层的编码信息,其中,当某个元素不存在第2m+1个比特位至第3m个比特位时,该元素不参与第三层的编码信息的获取;依次类推,直到获取第R层的编码信息时停止迭代,其中m为预设的分层长度,R为最大层的序号,,D表示待压缩序列中所有元素的编码结果的长度构成的集合,max( )表示最大值函数,/>表示向上取整符号;
在第二层,对于待压缩序列中的每个元素,若该元素的第二编码结果存在第m+1个比特位至第2m个比特位,将1作为该元素的第二层标记,若该元素的第二编码结果不存在第m+1个比特位至第2m个比特位,将0作为该元素的第二层标记;将所有元素的第二层标记构成一个一维的序列,作为第二层的标记序列;在第三层,对于待压缩序列中第二层标记为1的每个元素,若该元素的第二编码结果存在第2m+1个比特位至第3m个比特位,将1作为该元素的第三层标记,若该元素的第二编码结果不存在第2m+1个比特位至第3m个比特位,将0作为该元素的第三层标记;将待压缩序列中第二层标记为1的所有元素的第三层标记构成一个一维的序列,作为第三层的标记序列;依次类推,直到获取第R层的标记序列时停止迭代;
对每一层的编码信息以及标记序列分别进行存储。
优选的,所述每个元素的补充编码长度满足关系式:
其中,k表示待压缩序列中元素的序号,表示待压缩序列中第k个元素的补充编码长度;/>表示待压缩序列中第k个元素的编码结果的长度;/>表示分层长度;/>表示除法取余操作。
优选的,所述根据每个元素的补充编码长度对每个元素的编码结果进行补充,得到每个元素的第二编码结果,包括步骤:
设置补充比特和标识比特;
对于待压缩序列中的每个元素,在该元素的编码结果之前添加一位标识比特,将得到的结果作为第一编码结果,将由补充比特组成的,且长度为补充编码长度的二进制数据,添加到第一编码结果之前,得到第二编码结果。
第二方面,本发明提供一种基于人工智能的企业数据压缩系统,采用如下的技术方案:
一种基于人工智能的企业数据压缩系统,包括:处理器和存储器,所述存储器存储有计算机程序指令,当所述计算机程序指令被所述处理器执行时实现上述一种基于人工智能的企业数据压缩方法。
通过采用上述技术方案,将上述的一种基于人工智能的企业数据压缩方法生成计算机程序,并存储于存储器中,以被处理器加载并执行,从而根据存储器及处理器制作终端设备,方便使用。
本发明具有以下技术效果:本发明通过对待压缩序列中每个元素的编码结果进行分层存储,实现了在需要查看企业数据中的指定信息的指定字段时,仅需要选择性的解压一部分数据,无需解压全部数据,提高了企业数据的查看效率。
进一步地,本发明通过获取待压缩序列中每种待压缩数据的预测查看频率,根据每种待压缩数据的预测查看频率以及重复频率对待压缩序列进行压缩,保证了压缩效率的同时,使得预测查看频率大的数据对应的编码结果的长度尽可能短,在需要查看预测查看频率较大的数据时,仅需要解压较少层中的部分数据,使得数据的查看效率进一步提升。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,并且相同或对应的标号表示相同或对应的部分。
图1是本发明实施例一种基于人工智能的企业数据压缩方法中方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当本发明的权利要求、说明书及附图使用术语“第一”、“第二”等时,其仅是用于区别不同对象,而不是用于描述特定顺序。本发明的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
本发明实施例公开一种基于人工智能的企业数据压缩方法,参照图1,包括步骤S1-步骤S5:
S1:将待压缩的企业数据转换为待压缩序列。
需要说明的是,企业数据包括公司概况、产品信息、经营数据、研究成果等多个方面的数据,本发明对于公司概况、产品信息、经营数据、研究成果等任意一个方面的企业数据的压缩方法相同。
需要进一步说明的是,企业数据包含了多种不同的类型的数据,例如经营数据中的经营门店名称、地址、销售的产品信息等为文字类型,销售额、利润等为数字类型,为了便于压缩,需要将企业数据编码为同一个数据类型。待压缩的企业数据中包含了多条信息,每条信息包含了多个字段,例如经营数据包含不同经营门店的经营信息,每个经营门店的经营信息中包含了经营门店名称、地址、销售的产品信息、销售额、利润等多个字段。
在一个实施例中,将待压缩的企业数据编码为二进制形式,编码的对象为企业数据中每条信息的每个字段中的每个数据,将所述每个数据编码为的二进制数据记为每个数据对应的编码二进制。需要说明的是,本发明对编码算法不做限定,实施人员可根据实际实施情况设置,例如GB2312编码、UTF-8编码等。
将每个数据的编码二进制分割成多个长度相同子二进制序列,将每个数据的每个子二进制序列转换为十进制数,将得到的所有十进制数构成一个一维的序列,作为待压缩序列。需要说明的是,子二进制序列的长度由实施人员根据实际实施情况设置,例如4,具体不做限制,但需确保所有数据的所有子二进制序列的长度相同。
至此,获取了待压缩序列。
S2:对企业数据中每条信息的每个字段的查看频率进行预测,根据每条信息的每个字段的查看频率的预测值获取待压缩序列中每种待压缩数据的预测查看频率。
需要说明的是,待压缩的企业数据中包含了多条信息,每条信息包含了多个字段,例如经营数据包含不同经营门店的经营信息,每个经营门店的经营信息中包含了经营门店名称、地址、销售的产品信息、销售额、利润等多个字段。对于待压缩的企业数据中包含的信息以及信息中的字段,后续进行查看的频率不同,例如在经营数据中,后续可能对于繁华地带的经营门店的经营信息查看频率较大,对于每个经营门店的利润字段查看频率较大。因此本发明通过对待压缩的企业数据中每条信息的每个字段的查看频率进行预测,以便后续根据查看频率进行待压缩的企业数据的压缩,确保查看频率大的数据解压速度快,从而提高企业数据的管理效率。
在一个实施例中,利用神经网络实现待压缩的企业数据中每条信息的每个字段的查看频率的预测,神经网络的具体内容如下:
神经网络采用全连接结构,输入数据为企业数据,输出数据为企业数据中每条信息的每个字段的查看频率的预测值。神经网络的训练集为历史的企业数据构成的数据集,训练集的标签为历史的企业数据中每条信息的每个字段的实际查看频率,是历史的企业数据生成之后的一个周期内每条信息的每个字段的查看次数与所有信息的所有字段的查看次数的比值。神经网络的损失函数为均方差损失。需要说明的是,本发明对于计算实际查看频率时的周期不做限定,实施人员可根据实际实时情况设置,例如3个月。
将待压缩的企业数据输入到训练好的神经网络中,输出待压缩的企业数据中每条信息的每个字段的查看频率的预测值。
至此,实现了待压缩的企业数据中每条信息的每个字段的查看频率的预测。
需要说明的是,待压缩序列由待压缩的企业数据编码而来,待压缩序列中的元素为待压缩的企业数据中每条信息的每个字段中的每个数据对应的编码二进制中的一部分转换而来,因此待压缩序列中的每个元素都对应待压缩的企业数据中一条信息的一个字段,不同元素可能对应同一个字段。因此可将字段的查看频率的预测值作为待压缩序列中元素的查看频率的预测值。
在一个实施例中,对于待压缩序列中每个元素,将该元素在待压缩的企业数据中对应信息的对应字段的查看频率的预测值,作为该元素的查看频率的预测值。
将待压缩序列中相同的元素值作为一种待压缩数据,则每种待压缩数据对应待压缩序列中多个元素,将每种待压缩数据对应的所有元素的查看频率的预测值的均值作为每种待压缩数据的预测查看频率。
至此,获取了待压缩序列中每种待压缩数据的预测查看频率。
S3:根据每种待压缩数据的预测查看频率以及重复频率对待压缩序列进行压缩,得到待压缩序列中每个元素的编码结果。
在一个实施例中,统计待压缩序列中每种待压缩数据出现的次数,将每种待压缩数据出现的次数与待压缩序列的长度的比值,作为每种待压缩数据的重复频率。
需要说明的是,传统的霍夫曼编码为不定长编码,霍夫曼编码对于重复频率较大的待压缩数据分配较短的码字,对于重复频率较小的待压缩数据分配较长的码字,从而实现压缩。而由于企业人员对于企业数据中的不同信息的不同字段的查看频率不同,为了确保查看效率,本发明期望对于预测查看频率较大的待压缩数据能够分配较短的码字,对于预测查看频率较小的待压缩数据能够分配较长的码字。同时为了确保压缩效率,对于重复频率较大的待压缩数据分配较短的码字,对于重复频率较小的待压缩数据分配较长的码字。因此本发明根据每种待压缩数据的预测查看频率以及重复频率为每种待压缩数据分配码字。
在一个实施例中,根据每种待压缩数据的预测查看频率以及重复频率获取每种待压缩数据的编码频率:
其中,i表示待压缩序列中待压缩数据的序号;表示待压缩序列中第i种待压缩数据的编码频率;/>表示待压缩序列中第i种待压缩数据的重复频率;/>表示待压缩序列中第i种待压缩数据的预测查看频率;N表示待压缩数据的种类数;/>表示所有待压缩数据的预测查看频率的平均值;
式中,当第i种待压缩数据的预测查看频率大于或等于平均值时,预测查看频率较大,此时期望为第i种待压缩数据分配较短的码字,在霍夫曼编码中,编码频率越大,码字越短,因此将/>作为重复频率/>的指数,利用伽马变换的方式对重复频率进行修正,使得重复频率扩大,从而得到较大的编码频率,当预测查看频率越大时,对重复频率的扩大程度越大,得到的编码频率越大;
式中,当第i种待压缩数据的预测查看频率小于平均值时,预测查看频率较小,此时期望为第i种待压缩数据分配较长的码字,在霍夫曼编码中,编码频率越小,码字越长,因此将/>作为重复频率/>的指数,利用伽马变换的方式对重复频率进行修正,使得重复频率减小,从而得到较小的编码频率,当预测查看频率越小时,对重复频率的减小程度越大,得到的编码频率越小。
根据每种待压缩数据的编码频率,利用霍夫曼编码的方法构建霍夫曼树,根据霍夫曼树得到每种待压缩数据的码字。需要说明的是,构建霍夫曼树、根据霍夫曼树得到每种待压缩数据的码字均为霍夫曼编码中的公知技术,在此不再赘述。
对于待压缩序列中的每个元素,获取与该元素的元素值相同的待压缩数据,将该待压缩数据的码字作为该元素的编码结果。
至此,获取了待压缩序列中每个元素的编码结果。
S4:对待压缩序列中每个元素的编码结果进行分层存储。
需要说明的是,霍夫曼编码对于待压缩序列中所有元素的编码结果统一存储,由于每个元素的编码结果的长度不同,使得霍夫曼编码对应的压缩结果中所有元素的编码结果混杂在一起,无法仅针对单个元素进行解码,当需要查看企业数据中某条信息的某个字段时,需要将霍夫曼编码对应的压缩结果全部进行解压,效率非常低。因此本发明对待压缩序列中所有元素的编码结果进行分层存储,在每一层中存储每个元素的部分编码,使得每一层中存储的每个元素的部分编码的长度相同,通过多层存储确保每个元素的编码的完整性,当需要查看企业数据中某条信息的某个字段时,可从压缩结果中的某个位置开始解压,实现需要查看的信息的字段的单独解压,无需对压缩结果全部进行解压,从而提高企业数据的查看效率。
在一个实施例中,对于每一层采用同样的分层长度m,m由实施人员根据实际实施情况设置,例如m=3,具体不做限定。
由于待压缩序列中元素的编码结果的长度不同,为了确保每一层存储的待压缩序列中元素的部分编码长度能够达到分层长度,需要对待压缩序列中元素的编码结果进行补充,具体的:
根据待压缩序列中每个元素的编码结果以及分层长度,计算每个元素的补充编码长度:
其中,k表示待压缩序列中元素的序号,表示待压缩序列中第k个元素的补充编码长度;/>表示待压缩序列中第k个元素的编码结果的长度;/>表示分层长度;/>表示除法取余操作;当/>为0时,补充长度为0,当/>不为0时,需要向该元素的编码结果补充/>位,才能实现该元素的编码结果在其所在的每一层的长度为m。
0和1为两个不同的数码,将任意一个数码作为补充比特,将另外一个数据作为标识比特,例如将0作为补充比特时,标识比特为1,将1作为补充比特时,标识比特为0。实施人员可根据实际实施情况设置补充比特和标识比特。
对于待压缩序列中的每个元素,在该元素的编码结果之前添加一位标识比特,将得到的结果作为第一编码结果,将由补充比特组成的且长度为补充编码长度的二进制数据,添加到第一编码结果之前,得到第二编码结果。需要说明的是,标识比特是为了将补充比特与元素的编码结果隔开,避免添加补充比特之后补充比特与元素的编码结果混杂无法区分。
将待压缩序列中每个元素的第二编码结果中前m个比特位按照元素的顺序拼接在一起,作为第一层的编码信息;将待压缩序列中每个元素的第二编码结果中第m+1个比特位至第2m个比特位按照元素的顺序拼接在一起,作为第二层的编码信息,其中,当某个元素的第二编码结果的长度为m时,不存在第m+1个比特位至第2m个比特位,则在获取第二层的编码信息时,跳过该元素,即该元素不参与第二层的编码信息的获取;将待压缩序列中每个元素的第二编码结果中第2m+1个比特位至第3m个比特位按照元素的顺序拼接在一起,作为第三层的编码信息,其中,当某个元素不存在第2m+1个比特位至第3m个比特位时,则在获取第三层的编码信息时,跳过该元素,即该元素不参与第三层的编码信息的获取;依次类推,直到获取第R层的编码信息时停止迭代,其中R为最大层的序号,,D表示待压缩序列中所有元素的编码结果的长度构成的集合,max( )表示最大值函数,/>表示向上取整符号。
需要说明的是,由于待压缩序列中每个元素的第二编码结果的长度可能不同,导致每一层中编码信息对应的元素数量不同,为了确保能够解码,对于第一层之后的每一层,需要对待编码序列中元素是否属于该层进行标记。由于每个元素的编码结果经过补充后,得到的第二编码结果的长度至少为m,因此第一层中包含了所有元素,此时无需对待编码序列中元素是否属于第一层进行标记。
在一个实施例中,在第二层,对于待压缩序列中的每个元素,若该元素的第二编码结果存在第m+1个比特位至第2m个比特位,则该元素参与了第二层的编码信息的获取,该元素属于第二层,此时将1作为该元素的第二层标记,反之,若该元素的第二编码结果不存在第m+1个比特位至第2m个比特位,则将0作为该元素的第二层标记。将所有元素的第二层标记构成一个一维的序列,作为第二层的标记序列;
在第三层,对于待压缩序列中第二层标记为1的每个元素,若该元素的第二编码结果存在第2m+1个比特位至第3m个比特位,则该元素参与了第三层的编码信息的获取,该元素属于第三层,此时将1作为该元素的第三层标记,反之,若该元素的第二编码结果不存在第2m+1个比特位至第3m个比特位,则将0作为该元素的第三层标记。将待压缩序列中第二层标记为1的所有元素的第三层标记构成一个一维的序列,作为第三层的标记序列;
在第四层,对于待压缩序列中第三层标记为1的每个元素,若该元素的第二编码结果存在第3m+1个比特位至第4m个比特位,则该元素参与了第四层的编码信息的获取,该元素属于第四层,此时将1作为该元素的第四层标记,反之,若该元素的第二编码结果不存在第3m+1个比特位至第4m个比特位,则将0作为该元素的第四层标记。将待压缩序列中第三层标记为1的所有元素的第四层标记构成一个一维的序列,作为第四层的标记序列;
依次类推,直到获取第R层的标记序列时停止迭代,其中R为最大层的序号。
对每一层的编码信息以及标记序列分别进行存储,同时存储各个待编码数据以及其对应的码字。需要注意的是,第一层无标记序列。
至此,实现了待压缩序列中所有元素的编码结果的分层存储。
S5:对企业数据中的指定信息的指定字段进行解压查看。
企业数据中每条信息的每个字段对应待压缩序列中的多个元素,当需要查看企业数据中某条信息的某个字段时,根据该条信息的该字段在企业数据中的位置,获取需要解压的每个元素的序号。
对于需要解压的每个元素,解压方法相同,具体为:
将需要解压的元素的序号记为S,在第一层的编码信息中,获取第个比特位到第/>个比特位,作为该元素的第一层编码。在第二层的标记序列中,获取第S个数据,当第S个数据为0时,将该元素的第一层编码作为该元素的第二编码结果,当第S个数据为1时,统计第二层的标记序列中第S个数据之前1的数量,将该数量加一作为第二层的序号信息,记为/>;
在第二层的编码信息中,获取第个比特位到第/>个比特位,作为该元素的第二层编码。在第三层的标记序列中,获取第/>个数据,当第/>个数据为0时,将该元素的第一层编码与第二层编码拼接起来,作为该元素的第二编码结果,当第/>个数据为1时,统计第三层的标记序列中第/>个数据之前1的数量,将该数量加一作为第三层的序号信息,记为/>;
在第三层的编码信息中,获取第个比特位到第/>个比特位,作为该元素的第三层编码。在第四层的标记序列中,获取第/>个数据,当第/>个数据为0时,将该元素的第一层编码、第二层编码、第三层编码拼接起来,作为该元素的第二编码结果,当第/>个数据为1时,统计第四层的标记序列中第/>个数据之前1的数量,将该数量加一作为第四层的序号信息,记为/>;
依次类推,直到得到该元素的第二编码结果时停止迭代。
对于元素的第二编码结果,按照第二编码结果的高位向低位的顺序,将出现第一个标识比特以及之前的所有比特位去除,得到元素的编码结果。例如,当标识比特为1,第二编码结果为00101时,则将00101的前三位去除,得到编码结果01。
将与编码结果相同的码字对应的待编码数据,作为该元素的元素值。
至此,实现了需要解压的每个元素的解压。
将解压得到的所有元素利用步骤S001中的编码方法进行解码,得到企业数据中需要查看的信息的对应字段。
至此,实现了企业数据的精准解压查看。
本发明实施例还公开一种基于人工智能的企业数据压缩系统,包括处理器和存储器,存储器存储有计算机程序指令,当计算机程序指令被处理器执行时实现根据本发明的一种基于人工智能的企业数据压缩方法。
上述系统还包括通信总线和通信接口等本领域技术人员熟知的其他组件,其设置和功能为本领域中已知,因此在此不再赘述。
在本发明中,前述的存储器可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,计算机可读存储介质可以是任何适当的磁存储介质或者磁光存储介质,比如,阻变式存储器RRAM(ResistiveRandomAccessMemory)、动态随机存取存储器DRAM(DynamicRandomAccessMemory)、静态随机存取存储器SRAM(StaticRandom-AccessMemory)、增强动态随机存取存储器EDRAM(EnhancedDynamicRandomAccessMemory)、高带宽内存HBM(High-BandwidthMemory)、混合存储立方HMC(HybridMemoryCube)等等,或者可以用于存储所需信息并且可以由应用程序、模块或两者访问的任何其他介质。任何这样的计算机存储介质可以是设备的一部分或可访问或可连接到设备。
虽然本说明书已经示出和描述了本发明的多个实施例,但对于本领域技术人员显而易见的是,这样的实施例只是以示例的方式提供的。本领域技术人员会在不偏离本发明思想和精神的情况下想到许多更改、改变和替代的方式。应当理解的是在实践本发明的过程中,可以采用对本文所描述的本发明实施例的各种替代方案。
以上均为本发明的较佳实施例,并非依此限制本发明的保护范围,故:凡依本发明的结构、形状、原理所做的等效变化,均应涵盖于本发明的保护范围之内。
Claims (5)
1.一种基于人工智能的企业数据压缩方法,其特征在于,包括步骤:
将待压缩的企业数据转换为待压缩序列;
对企业数据中每条信息的每个字段的查看频率进行预测,得到所述每条信息的每个字段的查看频率的预测值,根据所述查看频率的预测值获取待压缩序列中每种待压缩数据的预测查看频率;
根据每种待压缩数据的预测查看频率以及重复频率对待压缩序列进行压缩,得到待压缩序列中每个元素的编码结果;
对待压缩序列中所有元素的编码结果进行分层存储;根据分层存储的信息对企业数据中的指定信息的指定字段进行解压查看;
所述根据每种待压缩数据的预测查看频率以及重复频率对待压缩序列进行压缩,得到待压缩序列中每个元素的编码结果,包括步骤:
根据每种待压缩数据的预测查看频率以及重复频率获取每种待压缩数据的编码频率;根据每种待压缩数据的编码频率,利用霍夫曼编码的方法构建霍夫曼树,根据霍夫曼树得到每种待压缩数据的码字;
对于待压缩序列中的每个元素,获取与该元素的元素值相同的待压缩数据,将该待压缩数据的码字作为该元素的编码结果;
所述每种待压缩数据的编码频率满足关系式:
其中,i表示待压缩序列中待压缩数据的序号;表示待压缩序列中第i种待压缩数据的编码频率;/>表示待压缩序列中第i种待压缩数据的重复频率;/>表示待压缩序列中第i种待压缩数据的预测查看频率;N表示待压缩数据的种类数;
所述对待压缩序列中所有元素的编码结果进行分层存储,包括步骤:
根据待压缩序列中每个元素的编码结果以及预设的分层长度,计算每个元素的补充编码长度;根据每个元素的补充编码长度对每个元素的编码结果进行补充,得到每个元素的第二编码结果;
将待压缩序列中每个元素的第二编码结果中前m个比特位按照元素的顺序拼接在一起,作为第一层的编码信息;将待压缩序列中每个元素的第二编码结果中第m+1个比特位至第2m个比特位按照元素的顺序拼接在一起,作为第二层的编码信息,其中,当某个元素的第二编码结果不存在第m+1个比特位至第2m个比特位时,该元素不参与第二层的编码信息的获取;将待压缩序列中每个元素的第二编码结果中第2m+1个比特位至第3m个比特位按照元素的顺序拼接在一起,作为第三层的编码信息,其中,当某个元素不存在第2m+1个比特位至第3m个比特位时,该元素不参与第三层的编码信息的获取;依次类推,直到获取第R层的编码信息时停止迭代,其中m为预设的分层长度,R为最大层的序号,,D表示待压缩序列中所有元素的编码结果的长度构成的集合,max( )表示最大值函数,/>表示向上取整符号;
在第二层,对于待压缩序列中的每个元素,若该元素的第二编码结果存在第m+1个比特位至第2m个比特位,将1作为该元素的第二层标记,若该元素的第二编码结果不存在第m+1个比特位至第2m个比特位,将0作为该元素的第二层标记;将所有元素的第二层标记构成一个一维的序列,作为第二层的标记序列;在第三层,对于待压缩序列中第二层标记为1的每个元素,若该元素的第二编码结果存在第2m+1个比特位至第3m个比特位,将1作为该元素的第三层标记,若该元素的第二编码结果不存在第2m+1个比特位至第3m个比特位,将0作为该元素的第三层标记;将待压缩序列中第二层标记为1的所有元素的第三层标记构成一个一维的序列,作为第三层的标记序列;依次类推,直到获取第R层的标记序列时停止迭代;
对每一层的编码信息以及标记序列分别进行存储;
所述每个元素的补充编码长度满足关系式:
其中,k表示待压缩序列中元素的序号,表示待压缩序列中第k个元素的补充编码长度;/>表示待压缩序列中第k个元素的编码结果的长度;/>表示分层长度;/>表示除法取余操作;
所述根据每个元素的补充编码长度对每个元素的编码结果进行补充,得到每个元素的第二编码结果,包括步骤:
设置补充比特和标识比特;
对于待压缩序列中的每个元素,在该元素的编码结果之前添加一位标识比特,将得到的结果作为第一编码结果,将由补充比特组成的且长度为补充编码长度的二进制数据,添加到第一编码结果之前,得到第二编码结果。
2.根据权利要求1所述的一种基于人工智能的企业数据压缩方法,其特征在于,所述对企业数据中每条信息的每个字段的查看频率进行预测,得到所述每条信息的每个字段的查看频率的预测值,包括步骤:
构建神经网络,神经网络采用全连接结构,输入数据为企业数据,输出数据为企业数据中每条信息的每个字段的查看频率的预测值;神经网络的训练集为历史的企业数据构成的数据集,训练集的标签为历史的企业数据中每条信息的每个字段的实际查看频率,神经网络的损失函数为均方差损失;
将待压缩的企业数据输入到训练好的神经网络中,输出待压缩的企业数据中每条信息的每个字段的查看频率的预测值。
3.根据权利要求1所述的一种基于人工智能的企业数据压缩方法,其特征在于,根据所述查看频率的预测值获取待压缩序列中每种待压缩数据的预测查看频率,包括步骤:
对于待压缩序列中每个元素,将元素在待压缩的企业数据中对应信息的对应字段的查看频率的预测值,作为元素的查看频率的预测值;
将待压缩序列中每种待压缩数据对应的所有元素的查看频率的预测值的均值作为每种待压缩数据的预测查看频率。
4.根据权利要求1所述的一种基于人工智能的企业数据压缩方法,其特征在于,所述重复频率的获取方法为:
统计待压缩序列中每种待压缩数据出现的次数,将每种待压缩数据出现的次数与待压缩序列的长度的比值,作为每种待压缩数据的重复频率。
5.一种基于人工智能的企业数据压缩系统,其特征在于,包括:处理器和存储器,所述存储器存储有计算机程序指令,当所述计算机程序指令被所述处理器执行时实现根据权利要求1-4任一项所述的一种基于人工智能的企业数据压缩方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410233978.6A CN117811589B (zh) | 2024-03-01 | 2024-03-01 | 一种基于人工智能的企业数据压缩方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410233978.6A CN117811589B (zh) | 2024-03-01 | 2024-03-01 | 一种基于人工智能的企业数据压缩方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117811589A CN117811589A (zh) | 2024-04-02 |
CN117811589B true CN117811589B (zh) | 2024-05-10 |
Family
ID=90433847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410233978.6A Active CN117811589B (zh) | 2024-03-01 | 2024-03-01 | 一种基于人工智能的企业数据压缩方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117811589B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1083752A1 (en) * | 1999-09-08 | 2001-03-14 | STMicroelectronics S.r.l. | Video decoder with reduced memory |
CN104283568A (zh) * | 2013-07-12 | 2015-01-14 | 中国科学院声学研究所 | 一种基于部分霍夫曼树的数据压缩编码方法 |
CN116192971A (zh) * | 2023-04-24 | 2023-05-30 | 江阴市华明电力发展集团有限公司 | 智能云能源运维服务平台数据管理方法 |
CN116303374A (zh) * | 2023-05-22 | 2023-06-23 | 深圳市维度数据科技股份有限公司 | 基于sql数据库的多维度报表数据优化压缩方法 |
CN116521093A (zh) * | 2023-07-03 | 2023-08-01 | 漳州科恒信息科技有限公司 | 一种智慧社区人脸数据存储方法及系统 |
CN116681036A (zh) * | 2023-08-02 | 2023-09-01 | 天津轻工职业技术学院 | 基于数字孪生的工业数据存储方法 |
CN117435130A (zh) * | 2023-09-26 | 2024-01-23 | 中国银行股份有限公司 | 金融数据存储方法、装置、计算机设备和存储介质 |
CN117579080A (zh) * | 2024-01-19 | 2024-02-20 | 天津医科大学第二医院 | 基于5g通讯的医疗护理远程监控系统 |
-
2024
- 2024-03-01 CN CN202410233978.6A patent/CN117811589B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1083752A1 (en) * | 1999-09-08 | 2001-03-14 | STMicroelectronics S.r.l. | Video decoder with reduced memory |
CN104283568A (zh) * | 2013-07-12 | 2015-01-14 | 中国科学院声学研究所 | 一种基于部分霍夫曼树的数据压缩编码方法 |
CN116192971A (zh) * | 2023-04-24 | 2023-05-30 | 江阴市华明电力发展集团有限公司 | 智能云能源运维服务平台数据管理方法 |
CN116303374A (zh) * | 2023-05-22 | 2023-06-23 | 深圳市维度数据科技股份有限公司 | 基于sql数据库的多维度报表数据优化压缩方法 |
CN116521093A (zh) * | 2023-07-03 | 2023-08-01 | 漳州科恒信息科技有限公司 | 一种智慧社区人脸数据存储方法及系统 |
CN116681036A (zh) * | 2023-08-02 | 2023-09-01 | 天津轻工职业技术学院 | 基于数字孪生的工业数据存储方法 |
CN117435130A (zh) * | 2023-09-26 | 2024-01-23 | 中国银行股份有限公司 | 金融数据存储方法、装置、计算机设备和存储介质 |
CN117579080A (zh) * | 2024-01-19 | 2024-02-20 | 天津医科大学第二医院 | 基于5g通讯的医疗护理远程监控系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117811589A (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112292816B (zh) | 处理核心数据压缩和存储系统 | |
CN116681036B (zh) | 基于数字孪生的工业数据存储方法 | |
US7650040B2 (en) | Method, apparatus and system for data block rearrangement for LZ data compression | |
JP2004334846A (ja) | 記憶デバイスの欠陥リストの長さを最小にする方法およびシステム | |
CN116506073A (zh) | 一种工业计算机平台数据快速传输方法及系统 | |
CN110569967A (zh) | 一种基于算术编码的神经网络模型压缩加密方法及系统 | |
US9236881B2 (en) | Compression of bitmaps and values | |
US8660187B2 (en) | Method for treating digital data | |
CN114222129A (zh) | 图像压缩编码方法、装置、计算机设备和存储介质 | |
CN104125475A (zh) | 一种多维量子数据压缩、解压缩方法及装置 | |
KR20030071327A (ko) | 개선된 허프만 디코딩 방법 및 장치 | |
US20220005229A1 (en) | Point cloud attribute encoding method and device, and point cloud attribute decoding method and devcie | |
CN114640354A (zh) | 数据压缩方法、装置、电子设备及计算机可读存储介质 | |
CN117811589B (zh) | 一种基于人工智能的企业数据压缩方法及系统 | |
CN114466082B (zh) | 数据压缩、数据解压方法、系统及人工智能ai芯片 | |
Barannik et al. | Method of recurrent truncated-positional coding video segments in uneven diagonal space | |
CN116707532A (zh) | 一种压缩文本的解压方法、装置、存储介质及电子设备 | |
JP2015506009A (ja) | 反復構造発見ベースの3dモデル圧縮のビットストリームを生成する方法及び装置 | |
CN115913248A (zh) | 一种直播软件开发数据智能管理系统 | |
CN109213973A (zh) | Vin码转码存储方法及装置和对应的读取方法及装置 | |
US10931303B1 (en) | Data processing system | |
KR101577848B1 (ko) | 규칙적인 지점의 네트워크에서 벡터를 카운팅하는 방법 | |
CN112232025B (zh) | 一种字符串存储方法、装置及电子设备 | |
CN113141508A (zh) | 算术编码器及实现算术编码的方法和图像编码方法 | |
US8392362B2 (en) | Systems and methods associated with hybrid paged encoding and decoding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |