CN114782148B - 农产品收购管理平台及其业务数据压缩方法 - Google Patents
农产品收购管理平台及其业务数据压缩方法 Download PDFInfo
- Publication number
- CN114782148B CN114782148B CN202210676620.1A CN202210676620A CN114782148B CN 114782148 B CN114782148 B CN 114782148B CN 202210676620 A CN202210676620 A CN 202210676620A CN 114782148 B CN114782148 B CN 114782148B
- Authority
- CN
- China
- Prior art keywords
- data
- group
- effect
- rearrangement
- estimated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000007726 management method Methods 0.000 title claims abstract description 33
- 238000013144 data compression Methods 0.000 title claims abstract description 27
- 230000000694 effects Effects 0.000 claims abstract description 142
- 230000008707 rearrangement Effects 0.000 claims abstract description 110
- 239000011159 matrix material Substances 0.000 claims abstract description 74
- 238000011156 evaluation Methods 0.000 claims description 45
- 150000001875 compounds Chemical class 0.000 claims description 19
- 125000004122 cyclic group Chemical group 0.000 claims description 11
- 238000013500 data storage Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims 1
- 238000003379 elimination reaction Methods 0.000 claims 1
- 238000007906 compression Methods 0.000 abstract description 15
- 230000006835 compression Effects 0.000 abstract description 15
- 238000005457 optimization Methods 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Marketing (AREA)
- Accounting & Taxation (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Agronomy & Crop Science (AREA)
- Animal Husbandry (AREA)
- Marine Sciences & Fisheries (AREA)
- Mining & Mineral Resources (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及数据压缩领域,提出了一种农产品收购管理平台及其业务数据压缩方法,包括:S1:获取序列化数据;S2:获得不同分组方式;S3:选取目标分组方式;S4:得到每组数据的理想重排效果;S5:获取每组数据在虚拟循环矩阵每列的预估比例;S6:得到每组数据的预估重排效果;S7:得到数据重排的理想效果与预估效果差异;S8:若差异小于或等于差异阈值,判断目标分组方式为最优分组,进行S9;否则,返回S3,得到最优分组;S9:得到每组数据的重排结果,通过游程编码对重排结果进行压缩。本发明提高了压缩率,节省存储空间。
Description
技术领域
本发明涉及数据压缩领域,具体涉及一种农产品收购管理平台及其业务数据压缩方法。
背景技术
目前市场上农产品收购业务需求较大,商户在进行农产品收购时以存单结算为主,以微信、支付宝结算为辅,很少通过银行小微云自助终端金融业务为商户、农户进行结算,但存单结算不符合相关监管要求。为优化该业务的结算方式,本方案设计了一种农产品收购管理平台,通过农产品收购管理平台实现商户结算、资金监管、账务对账、资金清算等功能。
为满足监管需要,需对历史交易业务数据进行备份保存。但由于交易业务数据量大,需对数据进行压缩,以便减少存储空间,提高存储效率。现有的数据压缩方法如游程编码的压缩率,依赖于数据中连续重复的比特或字符序列的占比,压缩率难以保证。当数据连续重复较多时,压缩率较高,连续重复较少时,压缩率较低,压缩率依赖于数据的分布,不稳定。
发明内容
本发明提供一种农产品收购管理平台及其业务数据压缩方法,以解决现有的压缩效率不稳定的问题。
本发明的一种农产品收购管理平台业务数据压缩方法,采用如下技术方案:
S1、获取序列化数据:获取平台业务数据的序列化数据;
S2、获得不同分组方式:建立约束条件,利用约束条件对序列化数据进行分组,获得不同分组方式;
S3、选取目标分组方式:通过各种分组方式中每组数据不重复数字的个数、去重后数字的个数以及每组数据的个数得到各种分组方式的综合评价指标;选取所有综合评价指标中最小综合评价指标对应的分组方式作为目标分组方式;通过目标分组方式对序列化数据进行分组,得到每组数据;
S4、得到每组数据的理想重排效果:通过目标分组方式中每组数据的个数和每组数据去重后数字的个数得到每组数据的理想重排效果;
S5、获取每组数据在虚拟循环矩阵每列的预估比例:利用每组数据中重复数据的重复次数及每组数据中所有连续重复数据出现在虚拟循环矩阵中每一列的概率获得每组数据在虚拟循环矩阵中每一列的预估比例;
S6、得到每组数据的预估重排效果:利用S5中获得每组数据在虚拟循环矩阵中每一列的预估比例的最大值和每组数据的理想重排效果得到每组数据的预估重排效果;
S7、得到数据重排的理想效果与预估效果差异:通过目标分组方式分组得到的所有组数据的理想重排效果和预估重排效果得到目标分组方式数据重排的理想效果与预估效果差异;
S8、判断差异是否小于或等于差异阈值:若理想效果与预估效果差异小于或等于差异阈值,判断对应的目标分组方式为最优分组,进行S9;
否则,返回S3,选择所有综合评价指标中次小综合评价指标对应的分组方式作为新的目标分组方式,按照步骤S4-S7的方法计算新的目标分组方式数据重排的理想效果与预估效果差异,直至理想效果与预估效果差异小于或等于差异阈值或者返回S3的次数达到设定次数时停止,获得最优分组;
S9、得到每组数据的重排结果,通过游程编码对重排结果进行压缩:利用最优分组中每组数据在虚拟循环矩阵中每一列的预估比例的最大值得到每组数据的重排最优列序号,通过每组数据的重排最优列序号得到每组数据的重排结果,通过游程编码对重排结果进行压缩。
进一步的,所述的一种农产品收购管理平台业务数据压缩方法,每组数据的重排最优列序号为最优分组中每组数据在虚拟循环矩阵中每一列的预估比例的最大值对应的列序号。
进一步的,所述的一种农产品收购管理平台业务数据压缩方法,所述序列化数据是八进制或十六进制数据。
进一步的,所述的一种农产品收购管理平台业务数据压缩方法,预估重排效果的表达式为:
式中,表示第组数据,表示第组数据的理想重排效果,表示第组数据的预估重排效果,表示虚拟循环矩阵第列,表示预估情况与理想情况下第组数据中所有重复数字在虚拟循环矩阵第列两两排在一起的概率之和的比例,即为第组数据在虚拟循环矩阵中第列的预估比例, ,表示第组数据的长度。
进一步的,所述的一种农产品收购管理平台业务数据压缩方法,理想重排效果的表达式为:
进一步的,所述的一种农产品收购管理平台业务数据压缩方法,每组数据在虚拟循环矩阵中每一列的预估比例的表达式为:
式中,表示重复数据去重后第个数字,表示重复数据去重后第个数字在第组数据中第次重复,表示重复数据去重后第个数字在第组数据中第次重复时的序号,表示重复数据去重后第个数字在第组数据中第次重复,表示重复数据去重后第个数字在第组数据中第次重复时的序号,表示重复数据去重后第个数字在第组数据中的重复次数,表示第组数据第个数字与第个数字在循环矩阵第列排在一起的概率。
进一步的,所述的一种农产品收购管理平台业务数据压缩方法,约束条件的表达式为:
进一步的,所述的一种农产品收购管理平台业务数据压缩方法,分组方式的综合评价指标的表达式为:
本发明还提出了一种农产品收购管理平台,包括:
数据存储单元,包括:S1、获取序列化数据:获取平台业务数据的序列化数据;
S2、获得不同分组方式:建立约束条件,利用约束条件对序列化数据进行分组,获得不同分组方式;
S3、选取目标分组方式:通过各种分组方式中每组数据不重复数字的个数、去重后数字的个数以及每组数据的个数得到各种分组方式的综合评价指标;选取所有综合评价指标中最小综合评价指标对应的分组方式作为目标分组方式;通过目标分组方式对序列化数据进行分组,得到每组数据;
S4、得到每组数据的理想重排效果:通过目标分组方式中每组数据的个数和每组数据去重后数字的个数得到每组数据的理想重排效果;
S5、获取每组数据在虚拟循环矩阵每列的预估比例:利用每组数据中重复数据的重复次数及每组数据中所有连续重复数据出现在虚拟循环矩阵中每一列的概率获得每组数据在虚拟循环矩阵中每一列的预估比例;
S6、得到每组数据的预估重排效果:利用S5中获得每组数据在虚拟循环矩阵中每一列的预估比例的最大值和每组数据的理想重排效果得到每组数据的预估重排效果;
S7、得到数据重排的理想效果与预估效果差异:通过目标分组方式分组得到的所有组数据的理想重排效果和预估重排效果得到目标分组方式数据重排的理想效果与预估效果差异;
S8、判断差异是否小于或等于差异阈值:若理想效果与预估效果差异小于或等于差异阈值,判断对应的目标分组方式为最优分组,进入数据压缩单元;
否则,返回S3,选择所有综合评价指标中次小综合评价指标对应的分组方式作为新的目标分组方式,按照步骤S4-S7的方法计算新的目标分组方式数据重排的理想效果与预估效果差异,直至理想效果与预估效果差异小于或等于差异阈值或者返回S3的次数达到设定次数时停止,获得最优分组;
数据压缩单元,包括:S9、得到每组数据的重排结果,通过游程编码对重排结果进行压缩:利用数据存储单元获得的最优分组中每组数据在虚拟循环矩阵中每一列的预估比例的最大值得到每组数据的重排最优列序号,通过每组数据的重排最优列序号得到每组数据的重排结果,通过游程编码对重排结果进行压缩。
本发明的有益效果是:本发明通过计算每种分组方式数据重排的理想效果与预估效果差异,根据理想效果与预估效果差异的大小确定最优分组方式,通过最优分组方式中每组数据的预估重排效果确定每组数据的重排最优列序号,从而得到重排数据,进而对重排数据进行数据压缩,相对于现有技术,本发明提高了压缩效率,同时节省存储空间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种农产品收购管理平台业务数据压缩方法的实施例的流程示意图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明的一种农产品收购管理平台业务数据压缩方法的实施例,如图1所示,包括:
为满足监管需要,需对农产品收购管理平台历史交易业务数据进行备份保存,但由于交易业务数据量大,需要对数据进行压缩存储,以便减少存储空间,提高存储效率。
S1、获取序列化数据:获取平台业务数据的序列化数据。
数据在进行存储或传输时,都需要转换成可存储可传输的二进制串,该二进制串即为序列化数据。利用序列化方法将农产品收购管理平台历史交易业务数据转换为序列化数据,以便后续对该序列化数据进行压缩存储。
游程编码是一种常用的数据压缩方法,通过检测连续重复的比特或字符序列,用它们的连续出现次数取而代之来实现数据压缩。该方法的压缩率依赖于连续重复数据的占比。本方案通过动态分组数据重排,来提高连续重复数据的占比。使得通过游程编码达到更高的压缩率。
S2、获得不同分组方式:建立约束条件,利用约束条件对序列化数据进行分组,获得不同分组方式。
S3、选取目标分组方式:通过各种分组方式中每组数据不重复数字的个数、去重后数字的个数以及每组数据的个数得到各种分组方式的综合评价指标;选取所有综合评价指标中最小综合评价指标对应的分组方式作为目标分组方式;通过目标分组方式对序列化数据进行分组,得到每组数据。
式中,表示第组数据中不重复数字的个数,即在第组数据中只出现了一次的数字的个数,表示第组数据去重后数字的个数,即第组数据去掉重复数字后剩余数字的个数;当越小时,意味着第组数据中重复数字的比例更大,越小时,第组数据中去重后数字个数较少,意味着重复次数较大。此时对该组数据重排后压缩预期可以得到较好的效果。因此,对于第组数据越小越好。结合所有组数据的评价指标获取该分组方式的综合评价指标:
S4、得到每组数据的理想重排效果:通过目标分组方式中每组数据的个数和每组数据去重后数字的个数得到每组数据的理想重排效果。
现有编码技术BWT编码过程为:对于一组长度为的数据,在其末尾插入结束符“#”得到数据。将进行循环左移,每次循环一位,经过次循环可得到组新的数据。对组新的数据进行从小到大的排序,可得到循环矩阵。循环矩阵第一列为数据中的字符从小到大的排序。以循环矩阵中的最后一列数据作为BWT的编码结果。
通过BWT编码可将具有一定规律的数据中相似的字符集中在一起,但并非所有数据经过BWT编码可达到此效果。本方案旨在循环矩阵中寻找最优的一列数据作为编码结果。但若对于每组数据都获取其循环矩阵,则会有非常大的空间开销。因此本方案根据每组数据规律,获取每组数据的理想重排效果以及预估重排效果,以便后续根据理想重排效果及预估重排效果的差异对分组方式进行评价,获取最优分组。
实现过程如下:
式中,表示第组数据去重后数字的个数;表示第组数据的长度,即第组数据的个数;对于第组数据,其理想的重排效果是将所有的重复数据排在一起,后续游程编码即可达到较大的压缩率。因此以去重去掉的数字比例作为理想重排效果值。
S5、获取每组数据在虚拟循环矩阵每列的预估比例:利用每组数据中重复数据的重复次数及每组数据中所有连续重复数据出现在虚拟循环矩阵中每一列的概率获得每组数据在虚拟循环矩阵中每一列的预估比例。
式中,表示预估情况下与理想情况下第组数据中所有重复数字在循环矩阵第列两两排在一起的概率之和的比例,即为第组数据在虚拟循环矩阵中第列的预估比例, 。所述循环矩阵为虚拟循环矩阵,并不是实际求出第组数据的循环矩阵。
获取第组重复数据去重后的数字以及此些数字在第组数据中对应的重复次数,重复数据去重后第个数字在第组数据中重复次数记为;表示重复数据去重后第个数字在第组数据中第次重复时的序号;表示重复数据去重后第个数字在第组数据中第次重复时的序号;为第组数据第个数字与第个数字在循环矩阵第列排在一起的概率,第组数据第个数字用表示,第组数据第个数字用表示。
若想要第组数据与在循环矩阵第列排在一起,则要求前位数字与前位数字在循环矩阵第一列排在一起,前位数字用表示,前位数字用表示。而循环矩阵第一列数字为该组数据从小到大的排序的结果。因此,可结合该组数字大小获取,具体为:
式中,为以与为边界的区间,不包含、;为以与为边界的区间,包含、;为第组数据中除、、、以外的数字,当存在在区间内时,与在循环矩阵第列一定不排在一起,此时概率为0;当不存在在区间内时,与在循环矩阵第列一定排在一起,此时概率为1;当不存在在区间内,但存在与或相等时,此时与在循环矩阵第列可能排在一起也可能不排在一起,此时根据的个数获取概率。
如图2所示,在图2上方,以数据1,1,3,0,7,0为示例,在其末尾插入结束符#,得到1,1,3,0,7,0,#,计算0,0在循环矩阵第6列排在一起的概率,此时。该数据中重复数字去重后结果为1,0,即将1,1,0,0中的重复数字去掉后得到1,0。0为重复数字去重后第2个数字,其重复次数。0,0在数据中的序号分别为4, 6。计算0,0在循环矩阵第6列排在一起的概率,要使0,0在循环矩阵第6列排在一起,则要求0,0在数据中前面的第位数字在循环矩阵第1列中排在一起,即要求0,0在数据中前面的第5位数字在循环矩阵第1列中排在一起,0,0在数据中前面的第5位数字分别为0,1。则为(0,1),为[0,1]。此时数据中除0,0,1外,剩余数字1,3,7,剩余数字1,3,7中不存在其他数字属于区间(0,1),剩余数字1,3,7中有一个1属于区间[0,1],因此概率且。如图2上方所示,属于区间[0,1]的这个1即为数据中第二个1,属于区间[0,1]的这个1与图2中0在数据中前面的第5位数字1相等,那么在循环矩阵第1列中,这个1会对0,0在数据中前面的第5位数字0和1是否排在一起进行干扰,如图2左下方所示,在循环矩阵第1列中,这个1可能会排在0在数据中前面的第5位数字1之后,此时0,0在数据中前面的第5位数字0和1排在一起;这个1也可能会排在0在数据中前面的第5位数字1之前,此时0,0在数据中前面的第5位数字0和1被这个1隔开,并未排在一起。在剩余数字1,3,7中,仅这个数字1满足条件,因此的个数为1,则0,0在数据中前面的第5位数字0和1在循环矩阵第一列排在一起的概率为二分之一,即0,0在循环第6列排在一起的概率。
为第组数据中所有重复数字在循环矩阵第列两两排在一起的概率之和。为理想情况下第组数据中所有重复数字在循环矩阵第列两两排在一起的概率之和。为预估情况下第组数据中所有重复数字在循环矩阵第列两两排在一起的概率之和与理想情况下第组数据中所有重复数字在循环矩阵第列两两排在一起的概率之和的比例。
S6、得到每组数据的预估重排效果:利用S5中获得每组数据在虚拟循环矩阵中每一列的预估比例的最大值和每组数据的理想重排效果得到每组数据的预估重排效果。
获取预估情况下第组数据循环矩阵除第一列外的每一列重复数字两两排在一起的概率之和与理想情况的比例,即,选择其中最大的结果乘以理想重排效果,得到的结果即为预估重排效果,中最大结果对应的列序号即为第组数据预估的重排最优列序号。
S7、得到数据重排的理想效果与预估效果差异:通过目标分组方式分组得到的所有组数据的理想重排效果和预估重排效果得到目标分组方式数据重排的理想效果与预估效果差异。
S8、判断差异是否小于或等于差异阈值:若理想效果与预估效果差异小于或等于差异阈值,判断对应的目标分组方式为最优分组,进行S9。
否则,返回S3,选择所有综合评价指标中次小综合评价指标对应的分组方式作为新的目标分组方式,按照步骤S4-S7的方法计算新的目标分组方式数据重排的理想效果与预估效果差异,直至理想效果与预估效果差异小于或等于差异阈值或者返回S3的次数达到设定次数时停止,获得最优分组。
分组优化步骤如下:
②当差异大于阈值时,认为该分组方式并非最优的。此时获取前述步骤中评价指标次小的分组方式,在之前步骤中获取所有满足约束条件的分组方式,计算每个分组方式的评价指标,选取其中评价指标最小的分组方式,该分组方式记为,而此处是选择所有分组方式中评价指标次小的分组方式,利用上述计算数据重排的理想效果与预估效果差异的方法,获取评价指标次小的分组方式数据重排的理想效果与预估效果差异。
至此,完成了分组优化。
S9、得到每组数据的重排结果,通过游程编码对重排结果进行压缩:利用最优分组中每组数据在虚拟循环矩阵中每一列的预估比例的最大值得到每组数据的重排最优列序号,通过每组数据的重排最优列序号得到每组数据的重排结果,通过游程编码对重排结果进行压缩。
对于上述获得的最优分组,可获取每组数据的重排最优列序号。结合重排最优列序号获取重排结果,例如第组数据重排最优列序号为,则按照从小到大的顺序依次获取第组数据中数字后位数字,得到的结果即为第组数据的重排结果。将重排最优列序号作为该组数据的标识、记录该组数据的长度。将所有组数据的重排结果组合,利用游程编码的方法对该数据进行压缩。
至此完成了数据的压缩。存储数据包含三部分:压缩数据、标识、分组数据长度。本方法既提高了BWT编码-游程编码的压缩率,又避免了获取循环矩阵造成的大的空间开销。
数据无损重构方法如下:
①对压缩数据进行游程解码获取重排数据组合。
②利用分组数据长度对重排数据组合进行分组,获取每组重排数据。
③利用每组数据的标识对重排数据进行还原:
第组重排数据的标识为。对第组重排数据进行从小到大的排序,得到的结果即为循环矩阵中第一列的结果,标识表示第组重排数据为循环矩阵中的列的值。即在第组未编码前的数据中循环矩阵中第一列中数字后个位置的数字为第组重排数据中对应的数字。同时结束符“#”位于第组未编码前的数据末尾。结合此对应关系,即可获得第组未编码前的数据。
同理获取所有组未编码前的数据,将数据进行组合即为序列化数据。
④对序列化数据进行反序列化,获取农产品收购管理平台历史交易业务数据。
至此,完成了数据的无损重构。
本发明通过计算每种分组方式数据重排的理想效果与预估效果差异,根据理想效果与预估效果差异的大小确定最优分组方式,通过最优分组方式中每组数据的预估重排效果确定每组数据的重排最优列序号,从而得到重排数据,进而对重排数据进行数据压缩,相对于现有技术,本发明提高了压缩效率,同时节省存储空间。
实施例2
基于与上述方法相同的发明构思,本实施例还提供了一种农产品收购管理平台,本实施例中农产品收购管理平台包括数据存储单元和数据压缩单元,所述数据存储单元和数据压缩单元,以实现如一种农产品收购管理平台业务数据压缩方法的实施例中所描述的对平台业务数据进行压缩的具体方法。
由于一种农产品收购管理平台业务数据压缩方法实施例中已经对对平台业务数据进行压缩的具体方法进行了说明,此处不再赘述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种农产品收购管理平台业务数据压缩方法,其特征在于,包括:
S1、获取序列化数据:获取平台业务数据的序列化数据;
S2、获得不同分组方式:建立约束条件,利用约束条件对序列化数据进行分组,获得不同分组方式;
S3、选取目标分组方式:通过各种分组方式中每组数据不重复数字的个数、去重后数字的个数以及每组数据的个数得到各种分组方式的综合评价指标;选取所有综合评价指标中最小综合评价指标对应的分组方式作为目标分组方式;通过目标分组方式对序列化数据进行分组,得到每组数据;
S4、得到每组数据的理想重排效果:通过目标分组方式中每组数据的个数和每组数据去重后数字的个数得到每组数据的理想重排效果;
每组数据的理想重排效果的表达式为:
S5、获取每组数据在虚拟循环矩阵每列的预估比例:利用每组数据中重复数据的重复次数及每组数据中所有连续重复数据出现在虚拟循环矩阵中每一列的概率获得每组数据在虚拟循环矩阵中每一列的预估比例;
S6、得到每组数据的预估重排效果:利用S5中获得每组数据在虚拟循环矩阵中每一列的预估比例的最大值和每组数据的理想重排效果得到每组数据的预估重排效果;
S7、得到数据重排的理想效果与预估效果差异:通过目标分组方式分组得到的所有组数据的理想重排效果和预估重排效果得到目标分组方式数据重排的理想效果与预估效果差异;
S8、判断差异是否小于或等于差异阈值:若理想效果与预估效果差异小于或等于差异阈值,判断对应的目标分组方式为最优分组,进行S9;
否则,返回S3,选择所有综合评价指标中次小综合评价指标对应的分组方式作为新的目标分组方式,按照步骤S4-S7的方法计算新的目标分组方式数据重排的理想效果与预估效果差异,直至理想效果与预估效果差异小于或等于差异阈值或者返回S3的次数达到设定次数时停止,获得最优分组;
S9、得到每组数据的重排结果,通过游程编码对重排结果进行压缩:利用最优分组中每组数据在虚拟循环矩阵中每一列的预估比例的最大值得到每组数据的重排最优列序号,通过每组数据的重排最优列序号得到每组数据的重排结果,通过游程编码对重排结果进行压缩。
2.根据权利要求1所述的一种农产品收购管理平台业务数据压缩方法,其特征在于,每组数据的重排最优列序号为最优分组中每组数据在虚拟循环矩阵中每一列的预估比例的最大值对应的列序号。
3.根据权利要求1所述的一种农产品收购管理平台业务数据压缩方法,其特征在于,所述序列化数据是八进制或十六进制数据。
8.一种农产品收购管理平台,其特征在于,包括:
数据存储单元,包括:S1、获取序列化数据:获取平台业务数据的序列化数据;
S2、获得不同分组方式:建立约束条件,利用约束条件对序列化数据进行分组,获得不同分组方式;
S3、选取目标分组方式:通过各种分组方式中每组数据不重复数字的个数、去重后数字的个数以及每组数据的个数得到各种分组方式的综合评价指标;选取所有综合评价指标中最小综合评价指标对应的分组方式作为目标分组方式;通过目标分组方式对序列化数据进行分组,得到每组数据;
S4、得到每组数据的理想重排效果:通过目标分组方式中每组数据的个数和每组数据去重后数字的个数得到每组数据的理想重排效果;
每组数据的理想重排效果的表达式为:
S5、获取每组数据在虚拟循环矩阵每列的预估比例:利用每组数据中重复数据的重复次数及每组数据中所有连续重复数据出现在虚拟循环矩阵中每一列的概率获得每组数据在虚拟循环矩阵中每一列的预估比例;
S6、得到每组数据的预估重排效果:利用S5中获得每组数据在虚拟循环矩阵中每一列的预估比例的最大值和每组数据的理想重排效果得到每组数据的预估重排效果;
S7、得到数据重排的理想效果与预估效果差异:通过目标分组方式分组得到的所有组数据的理想重排效果和预估重排效果得到目标分组方式数据重排的理想效果与预估效果差异;
S8、判断差异是否小于或等于差异阈值:若理想效果与预估效果差异小于或等于差异阈值,判断对应的目标分组方式为最优分组,进入数据压缩单元;
否则,返回S3,选择所有综合评价指标中次小综合评价指标对应的分组方式作为新的目标分组方式,按照步骤S4-S7的方法计算新的目标分组方式数据重排的理想效果与预估效果差异,直至理想效果与预估效果差异小于或等于差异阈值或者返回S3的次数达到设定次数时停止,获得最优分组;
数据压缩单元,包括:S9、得到每组数据的重排结果,通过游程编码对重排结果进行压缩:利用数据存储单元获得的最优分组中每组数据在虚拟循环矩阵中每一列的预估比例的最大值得到每组数据的重排最优列序号,通过每组数据的重排最优列序号得到每组数据的重排结果,通过游程编码对重排结果进行压缩。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210676620.1A CN114782148B (zh) | 2022-06-16 | 2022-06-16 | 农产品收购管理平台及其业务数据压缩方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210676620.1A CN114782148B (zh) | 2022-06-16 | 2022-06-16 | 农产品收购管理平台及其业务数据压缩方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114782148A CN114782148A (zh) | 2022-07-22 |
CN114782148B true CN114782148B (zh) | 2022-09-02 |
Family
ID=82420850
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210676620.1A Active CN114782148B (zh) | 2022-06-16 | 2022-06-16 | 农产品收购管理平台及其业务数据压缩方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114782148B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116320499B (zh) * | 2023-04-17 | 2024-01-09 | 深圳市嘉立方科技有限公司 | 一种通信方法及系统 |
CN116542697B (zh) * | 2023-07-04 | 2023-10-20 | 酒仙网络科技股份有限公司 | 基于大数据的白酒线上销售供货管理系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737132A (zh) * | 2012-06-25 | 2012-10-17 | 天津神舟通用数据技术有限公司 | 基于数据库行列混合存储的多规则复合压缩方法 |
CN110473060A (zh) * | 2019-08-01 | 2019-11-19 | 龙正飞 | 一种新型b2b农产品交易系统 |
CN110753224A (zh) * | 2018-07-23 | 2020-02-04 | 中国石油化工股份有限公司 | 一种用于随钻测量数据压缩的数据重排方法和系统 |
CN114286102A (zh) * | 2021-11-15 | 2022-04-05 | 上海电科智能系统股份有限公司 | 基于Base62编码的二值图像压缩编解码方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8108361B2 (en) * | 2008-07-31 | 2012-01-31 | Microsoft Corporation | Efficient column based data encoding for large-scale data storage |
-
2022
- 2022-06-16 CN CN202210676620.1A patent/CN114782148B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737132A (zh) * | 2012-06-25 | 2012-10-17 | 天津神舟通用数据技术有限公司 | 基于数据库行列混合存储的多规则复合压缩方法 |
CN110753224A (zh) * | 2018-07-23 | 2020-02-04 | 中国石油化工股份有限公司 | 一种用于随钻测量数据压缩的数据重排方法和系统 |
CN110473060A (zh) * | 2019-08-01 | 2019-11-19 | 龙正飞 | 一种新型b2b农产品交易系统 |
CN114286102A (zh) * | 2021-11-15 | 2022-04-05 | 上海电科智能系统股份有限公司 | 基于Base62编码的二值图像压缩编解码方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114782148A (zh) | 2022-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114782148B (zh) | 农产品收购管理平台及其业务数据压缩方法 | |
CN102122960B (zh) | 一种针对二进制数据的多字符组合无损数据压缩方法 | |
RU2403677C1 (ru) | Способ сжатия и восстановления данных без потерь | |
CN116303374B (zh) | 基于sql数据库的多维度报表数据优化压缩方法 | |
CN106549673A (zh) | 一种数据压缩方法及装置 | |
CN107666324B (zh) | 一种polar码结合算术编码的信源有损压缩编码方法 | |
CN106407285A (zh) | 一种基于rle和lzw的优化比特文件压缩与解压缩方法 | |
CN103995887A (zh) | 位图索引压缩方法和位图索引解压方法 | |
CN116016606A (zh) | 一种基于智慧云的污水处理运维数据高效管理系统 | |
CN109979537A (zh) | 一种面向多条序列的基因序列数据压缩方法 | |
CN103702133A (zh) | 一种图像压缩展示方法及其装置 | |
CN116805537B (zh) | 用于心肺康复管理系统的数据处理方法 | |
CN102905137A (zh) | 超光谱信号的快速差值矢量量化压缩编码方法 | |
CN115309333A (zh) | 一种带状稀疏矩阵的数据存储格式及其乘法加速方法 | |
CN110310709A (zh) | 一种基于参考序列的基因压缩方法 | |
CN114268323A (zh) | 支持行存的数据压缩编码方法、装置及时序数据库 | |
CN112434085B (zh) | 基于Roaring Bitmap的用户数据统计方法 | |
CN117040542B (zh) | 一种智能综合配电箱能耗数据处理方法 | |
CN116934487A (zh) | 一种金融清算数据优化存储方法及系统 | |
CN103746704A (zh) | 基于双游程交替编码的芯片测试数据传输方法 | |
CN109698703B (zh) | 基因测序数据解压方法、系统及计算机可读介质 | |
CN105844214B (zh) | 一种基于比特空间的多路径深度编码的信息指纹提取方法 | |
CN109698702B (zh) | 基因测序数据压缩预处理方法、系统及计算机可读介质 | |
CN111035381B (zh) | 一种实时心电数据无损压缩方法 | |
CN110111852A (zh) | 一种海量dna测序数据无损快速压缩平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |