CN114782148B - 农产品收购管理平台及其业务数据压缩方法 - Google Patents

农产品收购管理平台及其业务数据压缩方法 Download PDF

Info

Publication number
CN114782148B
CN114782148B CN202210676620.1A CN202210676620A CN114782148B CN 114782148 B CN114782148 B CN 114782148B CN 202210676620 A CN202210676620 A CN 202210676620A CN 114782148 B CN114782148 B CN 114782148B
Authority
CN
China
Prior art keywords
data
group
effect
rearrangement
estimated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210676620.1A
Other languages
English (en)
Other versions
CN114782148A (zh
Inventor
刘仲生
贾承刚
隋利锋
臧伟
于顺森
孙利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Rural Commercial Bank Co ltd
Original Assignee
Qingdao Rural Commercial Bank Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Rural Commercial Bank Co ltd filed Critical Qingdao Rural Commercial Bank Co ltd
Priority to CN202210676620.1A priority Critical patent/CN114782148B/zh
Publication of CN114782148A publication Critical patent/CN114782148A/zh
Application granted granted Critical
Publication of CN114782148B publication Critical patent/CN114782148B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/02Agriculture; Fishing; Forestry; Mining
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Marketing (AREA)
  • Accounting & Taxation (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Agronomy & Crop Science (AREA)
  • Animal Husbandry (AREA)
  • Marine Sciences & Fisheries (AREA)
  • Mining & Mineral Resources (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及数据压缩领域,提出了一种农产品收购管理平台及其业务数据压缩方法,包括:S1:获取序列化数据;S2:获得不同分组方式;S3:选取目标分组方式;S4:得到每组数据的理想重排效果;S5:获取每组数据在虚拟循环矩阵每列的预估比例;S6:得到每组数据的预估重排效果;S7:得到数据重排的理想效果与预估效果差异;S8:若差异小于或等于差异阈值,判断目标分组方式为最优分组,进行S9;否则,返回S3,得到最优分组;S9:得到每组数据的重排结果,通过游程编码对重排结果进行压缩。本发明提高了压缩率,节省存储空间。

Description

农产品收购管理平台及其业务数据压缩方法
技术领域
本发明涉及数据压缩领域,具体涉及一种农产品收购管理平台及其业务数据压缩方法。
背景技术
目前市场上农产品收购业务需求较大,商户在进行农产品收购时以存单结算为主,以微信、支付宝结算为辅,很少通过银行小微云自助终端金融业务为商户、农户进行结算,但存单结算不符合相关监管要求。为优化该业务的结算方式,本方案设计了一种农产品收购管理平台,通过农产品收购管理平台实现商户结算、资金监管、账务对账、资金清算等功能。
为满足监管需要,需对历史交易业务数据进行备份保存。但由于交易业务数据量大,需对数据进行压缩,以便减少存储空间,提高存储效率。现有的数据压缩方法如游程编码的压缩率,依赖于数据中连续重复的比特或字符序列的占比,压缩率难以保证。当数据连续重复较多时,压缩率较高,连续重复较少时,压缩率较低,压缩率依赖于数据的分布,不稳定。
发明内容
本发明提供一种农产品收购管理平台及其业务数据压缩方法,以解决现有的压缩效率不稳定的问题。
本发明的一种农产品收购管理平台业务数据压缩方法,采用如下技术方案:
S1、获取序列化数据:获取平台业务数据的序列化数据;
S2、获得不同分组方式:建立约束条件,利用约束条件对序列化数据进行分组,获得不同分组方式;
S3、选取目标分组方式:通过各种分组方式中每组数据不重复数字的个数、去重后数字的个数以及每组数据的个数得到各种分组方式的综合评价指标;选取所有综合评价指标中最小综合评价指标对应的分组方式作为目标分组方式;通过目标分组方式对序列化数据进行分组,得到每组数据;
S4、得到每组数据的理想重排效果:通过目标分组方式中每组数据的个数和每组数据去重后数字的个数得到每组数据的理想重排效果;
S5、获取每组数据在虚拟循环矩阵每列的预估比例:利用每组数据中重复数据的重复次数及每组数据中所有连续重复数据出现在虚拟循环矩阵中每一列的概率获得每组数据在虚拟循环矩阵中每一列的预估比例;
S6、得到每组数据的预估重排效果:利用S5中获得每组数据在虚拟循环矩阵中每一列的预估比例的最大值和每组数据的理想重排效果得到每组数据的预估重排效果;
S7、得到数据重排的理想效果与预估效果差异:通过目标分组方式分组得到的所有组数据的理想重排效果和预估重排效果得到目标分组方式数据重排的理想效果与预估效果差异;
S8、判断差异是否小于或等于差异阈值:若理想效果与预估效果差异小于或等于差异阈值,判断对应的目标分组方式为最优分组,进行S9;
否则,返回S3,选择所有综合评价指标中次小综合评价指标对应的分组方式作为新的目标分组方式,按照步骤S4-S7的方法计算新的目标分组方式数据重排的理想效果与预估效果差异,直至理想效果与预估效果差异小于或等于差异阈值或者返回S3的次数达到设定次数时停止,获得最优分组;
S9、得到每组数据的重排结果,通过游程编码对重排结果进行压缩:利用最优分组中每组数据在虚拟循环矩阵中每一列的预估比例的最大值得到每组数据的重排最优列序号,通过每组数据的重排最优列序号得到每组数据的重排结果,通过游程编码对重排结果进行压缩。
进一步的,所述的一种农产品收购管理平台业务数据压缩方法,每组数据的重排最优列序号为最优分组中每组数据在虚拟循环矩阵中每一列的预估比例的最大值对应的列序号。
进一步的,所述的一种农产品收购管理平台业务数据压缩方法,所述序列化数据是八进制或十六进制数据。
进一步的,所述的一种农产品收购管理平台业务数据压缩方法,预估重排效果的表达式为:
Figure 940624DEST_PATH_IMAGE001
式中,
Figure 920082DEST_PATH_IMAGE002
表示第
Figure 699819DEST_PATH_IMAGE002
组数据,
Figure 157345DEST_PATH_IMAGE003
表示第
Figure 971717DEST_PATH_IMAGE002
组数据的理想重排效果,
Figure 856497DEST_PATH_IMAGE004
表示第
Figure 123530DEST_PATH_IMAGE002
组数据的预估重排效果,
Figure 322430DEST_PATH_IMAGE005
表示虚拟循环矩阵第
Figure 53626DEST_PATH_IMAGE005
列,
Figure 46990DEST_PATH_IMAGE006
表示预估情况与理想情况下第
Figure 863636DEST_PATH_IMAGE002
组数据中所有重复数字在虚拟循环矩阵第
Figure 600648DEST_PATH_IMAGE005
列两两排在一起的概率之和的比例,即为第
Figure 186350DEST_PATH_IMAGE002
组数据在虚拟循环矩阵中第
Figure 616194DEST_PATH_IMAGE005
列的预估比例,
Figure 857820DEST_PATH_IMAGE007
Figure 198190DEST_PATH_IMAGE008
Figure 841661DEST_PATH_IMAGE008
表示第
Figure 239144DEST_PATH_IMAGE002
组数据的长度。
进一步的,所述的一种农产品收购管理平台业务数据压缩方法,理想重排效果的表达式为:
Figure 968066DEST_PATH_IMAGE009
式中,
Figure 46880DEST_PATH_IMAGE010
表示第
Figure 607174DEST_PATH_IMAGE002
组数据去重后数字的个数。
进一步的,所述的一种农产品收购管理平台业务数据压缩方法,每组数据在虚拟循环矩阵中每一列的预估比例的表达式为:
Figure 378821DEST_PATH_IMAGE011
式中,
Figure 329460DEST_PATH_IMAGE012
表示重复数据去重后第
Figure 274282DEST_PATH_IMAGE012
个数字,
Figure 626766DEST_PATH_IMAGE013
表示重复数据去重后第
Figure 631631DEST_PATH_IMAGE012
个数字在第
Figure 69566DEST_PATH_IMAGE002
组数据中第
Figure 490183DEST_PATH_IMAGE013
次重复,
Figure 25069DEST_PATH_IMAGE014
表示重复数据去重后第
Figure 138519DEST_PATH_IMAGE012
个数字在第
Figure 126066DEST_PATH_IMAGE002
组数据中第
Figure 350374DEST_PATH_IMAGE013
次重复时的序号,
Figure 411871DEST_PATH_IMAGE015
表示重复数据去重后第
Figure 758539DEST_PATH_IMAGE012
个数字在第
Figure 171066DEST_PATH_IMAGE002
组数据中第
Figure 199064DEST_PATH_IMAGE015
次重复,
Figure 445894DEST_PATH_IMAGE016
表示重复数据去重后第
Figure 635567DEST_PATH_IMAGE012
个数字在第
Figure 597706DEST_PATH_IMAGE002
组数据中第
Figure 163817DEST_PATH_IMAGE015
次重复时的序号,
Figure 465485DEST_PATH_IMAGE017
表示重复数据去重后第
Figure 888376DEST_PATH_IMAGE012
个数字在第
Figure 275495DEST_PATH_IMAGE002
组数据中的重复次数,
Figure 645297DEST_PATH_IMAGE018
表示第
Figure 598209DEST_PATH_IMAGE002
组数据第
Figure 395264DEST_PATH_IMAGE014
个数字与第
Figure 66417DEST_PATH_IMAGE016
个数字在循环矩阵第
Figure 239909DEST_PATH_IMAGE005
列排在一起的概率。
进一步的,所述的一种农产品收购管理平台业务数据压缩方法,约束条件的表达式为:
Figure 250591DEST_PATH_IMAGE019
式中,
Figure 280863DEST_PATH_IMAGE020
表示序列化数据的长度,
Figure 376995DEST_PATH_IMAGE021
表示序列化数据的分组个数。
进一步的,所述的一种农产品收购管理平台业务数据压缩方法,分组方式的综合评价指标的表达式为:
Figure 88599DEST_PATH_IMAGE022
式中,
Figure 16104DEST_PATH_IMAGE023
表示分组方式的综合评价指标,
Figure 154961DEST_PATH_IMAGE024
表示第
Figure 800706DEST_PATH_IMAGE002
组数据的评价指标;
Figure 50422DEST_PATH_IMAGE002
组数据的评价指标的表达式为:
Figure 35696DEST_PATH_IMAGE025
式中,
Figure 398982DEST_PATH_IMAGE026
表示第
Figure 469706DEST_PATH_IMAGE002
组数据中不重复数字的个数。
本发明还提出了一种农产品收购管理平台,包括:
数据存储单元,包括:S1、获取序列化数据:获取平台业务数据的序列化数据;
S2、获得不同分组方式:建立约束条件,利用约束条件对序列化数据进行分组,获得不同分组方式;
S3、选取目标分组方式:通过各种分组方式中每组数据不重复数字的个数、去重后数字的个数以及每组数据的个数得到各种分组方式的综合评价指标;选取所有综合评价指标中最小综合评价指标对应的分组方式作为目标分组方式;通过目标分组方式对序列化数据进行分组,得到每组数据;
S4、得到每组数据的理想重排效果:通过目标分组方式中每组数据的个数和每组数据去重后数字的个数得到每组数据的理想重排效果;
S5、获取每组数据在虚拟循环矩阵每列的预估比例:利用每组数据中重复数据的重复次数及每组数据中所有连续重复数据出现在虚拟循环矩阵中每一列的概率获得每组数据在虚拟循环矩阵中每一列的预估比例;
S6、得到每组数据的预估重排效果:利用S5中获得每组数据在虚拟循环矩阵中每一列的预估比例的最大值和每组数据的理想重排效果得到每组数据的预估重排效果;
S7、得到数据重排的理想效果与预估效果差异:通过目标分组方式分组得到的所有组数据的理想重排效果和预估重排效果得到目标分组方式数据重排的理想效果与预估效果差异;
S8、判断差异是否小于或等于差异阈值:若理想效果与预估效果差异小于或等于差异阈值,判断对应的目标分组方式为最优分组,进入数据压缩单元;
否则,返回S3,选择所有综合评价指标中次小综合评价指标对应的分组方式作为新的目标分组方式,按照步骤S4-S7的方法计算新的目标分组方式数据重排的理想效果与预估效果差异,直至理想效果与预估效果差异小于或等于差异阈值或者返回S3的次数达到设定次数时停止,获得最优分组;
数据压缩单元,包括:S9、得到每组数据的重排结果,通过游程编码对重排结果进行压缩:利用数据存储单元获得的最优分组中每组数据在虚拟循环矩阵中每一列的预估比例的最大值得到每组数据的重排最优列序号,通过每组数据的重排最优列序号得到每组数据的重排结果,通过游程编码对重排结果进行压缩。
本发明的有益效果是:本发明通过计算每种分组方式数据重排的理想效果与预估效果差异,根据理想效果与预估效果差异的大小确定最优分组方式,通过最优分组方式中每组数据的预估重排效果确定每组数据的重排最优列序号,从而得到重排数据,进而对重排数据进行数据压缩,相对于现有技术,本发明提高了压缩效率,同时节省存储空间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种农产品收购管理平台业务数据压缩方法的实施例的流程示意图;
图2表示获取两个相同数字在虚拟循环矩阵第
Figure 523113DEST_PATH_IMAGE005
列排在一起的概率示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明的一种农产品收购管理平台业务数据压缩方法的实施例,如图1所示,包括:
为满足监管需要,需对农产品收购管理平台历史交易业务数据进行备份保存,但由于交易业务数据量大,需要对数据进行压缩存储,以便减少存储空间,提高存储效率。
S1、获取序列化数据:获取平台业务数据的序列化数据。
数据在进行存储或传输时,都需要转换成可存储可传输的二进制串,该二进制串即为序列化数据。利用序列化方法将农产品收购管理平台历史交易业务数据转换为序列化数据,以便后续对该序列化数据进行压缩存储。
游程编码是一种常用的数据压缩方法,通过检测连续重复的比特或字符序列,用它们的连续出现次数取而代之来实现数据压缩。该方法的压缩率依赖于连续重复数据的占比。本方案通过动态分组数据重排,来提高连续重复数据的占比。使得通过游程编码达到更高的压缩率。
首先将序列化数据转换为16进制数据,转换为16进制后的数据长度为
Figure 425210DEST_PATH_IMAGE020
S2、获得不同分组方式:建立约束条件,利用约束条件对序列化数据进行分组,获得不同分组方式。
将16进制数据分成
Figure 905870DEST_PATH_IMAGE021
组,为使得分组后的每一组数据经过重排达到较好的压缩效果,对数据进行动态分组,每组数据需满足以下约束条件:
Figure 260628DEST_PATH_IMAGE019
式中,
Figure 117725DEST_PATH_IMAGE002
表示第
Figure 812012DEST_PATH_IMAGE002
组数据,
Figure 525890DEST_PATH_IMAGE008
表示第
Figure 571206DEST_PATH_IMAGE002
组数据的长度,
Figure 28733DEST_PATH_IMAGE027
表示为达到较好的重排效果以及重排效率,限制每组数据的长度范围。
S3、选取目标分组方式:通过各种分组方式中每组数据不重复数字的个数、去重后数字的个数以及每组数据的个数得到各种分组方式的综合评价指标;选取所有综合评价指标中最小综合评价指标对应的分组方式作为目标分组方式;通过目标分组方式对序列化数据进行分组,得到每组数据。
获取第
Figure 577526DEST_PATH_IMAGE002
组数据的评价指标
Figure 665567DEST_PATH_IMAGE024
Figure 994917DEST_PATH_IMAGE025
式中,
Figure 193818DEST_PATH_IMAGE026
表示第
Figure 597117DEST_PATH_IMAGE002
组数据中不重复数字的个数,即在第
Figure 918377DEST_PATH_IMAGE002
组数据中只出现了一次的数字的个数,
Figure 672706DEST_PATH_IMAGE028
表示第
Figure 472035DEST_PATH_IMAGE002
组数据去重后数字的个数,即第
Figure 995420DEST_PATH_IMAGE002
组数据去掉重复数字后剩余数字的个数;当
Figure 425265DEST_PATH_IMAGE029
越小时,意味着第
Figure 466558DEST_PATH_IMAGE002
组数据中重复数字的比例更大,
Figure 7260DEST_PATH_IMAGE030
越小时,第
Figure 713048DEST_PATH_IMAGE002
组数据中去重后数字个数较少,意味着重复次数较大。此时对该组数据重排后压缩预期可以得到较好的效果。因此,对于第
Figure 48215DEST_PATH_IMAGE002
组数据
Figure 777136DEST_PATH_IMAGE024
越小越好。结合所有组数据的评价指标获取该分组方式的综合评价指标
Figure 918267DEST_PATH_IMAGE023
Figure 416245DEST_PATH_IMAGE031
获取满足约束条件的所有分组方式,计算每个分组方式的综合评价指标,获取其中综合评价指标最小的分组方式,该分组方式记为
Figure 922313DEST_PATH_IMAGE032
。至此,完成了数据的分组。
上述步骤将16进制数据分成
Figure 200847DEST_PATH_IMAGE021
组,使得每一组数据都满足设定的约束条件,可以获得满足约束条件的多种分组方式,计算每种分组方式的评价指标,选取其中评价指标最小的分组方式,完成数据的分组。
S4、得到每组数据的理想重排效果:通过目标分组方式中每组数据的个数和每组数据去重后数字的个数得到每组数据的理想重排效果。
现有编码技术BWT编码过程为:对于一组长度为
Figure 83353DEST_PATH_IMAGE033
的数据
Figure 498153DEST_PATH_IMAGE034
,在其末尾插入结束符“#”得到数据
Figure 440702DEST_PATH_IMAGE035
。将
Figure 878636DEST_PATH_IMAGE035
进行循环左移,每次循环一位,经过
Figure 361570DEST_PATH_IMAGE033
次循环可得到
Figure 834140DEST_PATH_IMAGE033
组新的数据。对
Figure 682010DEST_PATH_IMAGE033
组新的数据进行从小到大的排序,可得到循环矩阵。循环矩阵第一列为数据
Figure 669558DEST_PATH_IMAGE035
中的字符从小到大的排序。以循环矩阵中的最后一列数据作为BWT的编码结果。
通过BWT编码可将具有一定规律的数据中相似的字符集中在一起,但并非所有数据经过BWT编码可达到此效果。本方案旨在循环矩阵中寻找最优的一列数据作为编码结果。但若对于每组数据都获取其循环矩阵,则会有非常大的空间开销。因此本方案根据每组数据规律,获取每组数据的理想重排效果以及预估重排效果,以便后续根据理想重排效果及预估重排效果的差异对分组方式进行评价,获取最优分组。
实现过程如下:
对于第
Figure 893866DEST_PATH_IMAGE002
组数据,获取其理想重排效果
Figure 220942DEST_PATH_IMAGE003
Figure 567609DEST_PATH_IMAGE009
式中,
Figure 980136DEST_PATH_IMAGE028
表示第
Figure 807802DEST_PATH_IMAGE002
组数据去重后数字的个数;
Figure 989385DEST_PATH_IMAGE008
表示第
Figure 444637DEST_PATH_IMAGE002
组数据的长度,即第
Figure 406777DEST_PATH_IMAGE002
组数据的个数;对于第
Figure 972888DEST_PATH_IMAGE002
组数据,其理想的重排效果是将所有的重复数据排在一起,后续游程编码即可达到较大的压缩率。因此以去重去掉的数字比例作为理想重排效果值。
S5、获取每组数据在虚拟循环矩阵每列的预估比例:利用每组数据中重复数据的重复次数及每组数据中所有连续重复数据出现在虚拟循环矩阵中每一列的概率获得每组数据在虚拟循环矩阵中每一列的预估比例。
Figure 71294DEST_PATH_IMAGE011
式中,
Figure 697447DEST_PATH_IMAGE036
表示预估情况下与理想情况下第
Figure 84566DEST_PATH_IMAGE002
组数据中所有重复数字在循环矩阵第
Figure 251105DEST_PATH_IMAGE005
列两两排在一起的概率之和的比例,即为第
Figure 407280DEST_PATH_IMAGE002
组数据在虚拟循环矩阵中第
Figure 266652DEST_PATH_IMAGE005
列的预估比例,
Figure 875487DEST_PATH_IMAGE037
Figure 48980DEST_PATH_IMAGE008
。所述循环矩阵为虚拟循环矩阵,并不是实际求出第
Figure 121978DEST_PATH_IMAGE002
组数据的循环矩阵。
循环矩阵第一列数字为该组数据从小到大的排序的结果,第
Figure 89934DEST_PATH_IMAGE005
列数字为第一列中的数字在该组数据中位置后第
Figure 186066DEST_PATH_IMAGE038
位数字,即第一列中的数字为第
Figure 694408DEST_PATH_IMAGE005
列数字的前
Figure 825175DEST_PATH_IMAGE038
位。
获取第
Figure 26349DEST_PATH_IMAGE002
组重复数据去重后的数字以及此些数字在第
Figure 609777DEST_PATH_IMAGE002
组数据中对应的重复次数,重复数据去重后第
Figure 859493DEST_PATH_IMAGE012
个数字在第
Figure 910013DEST_PATH_IMAGE002
组数据中重复次数记为
Figure 219772DEST_PATH_IMAGE039
Figure 290496DEST_PATH_IMAGE040
表示重复数据去重后第
Figure 406219DEST_PATH_IMAGE012
个数字在第
Figure 245999DEST_PATH_IMAGE002
组数据中第
Figure 788976DEST_PATH_IMAGE013
次重复时的序号;
Figure 81417DEST_PATH_IMAGE041
表示重复数据去重后第
Figure 938515DEST_PATH_IMAGE012
个数字在第
Figure 695118DEST_PATH_IMAGE002
组数据中第
Figure 346679DEST_PATH_IMAGE015
次重复时的序号;
Figure 391996DEST_PATH_IMAGE042
为第
Figure 849522DEST_PATH_IMAGE002
组数据第
Figure 398315DEST_PATH_IMAGE040
个数字与第
Figure 548674DEST_PATH_IMAGE041
个数字在循环矩阵第
Figure 815707DEST_PATH_IMAGE005
列排在一起的概率,第
Figure 749028DEST_PATH_IMAGE002
组数据第
Figure 480223DEST_PATH_IMAGE040
个数字用
Figure 739166DEST_PATH_IMAGE043
表示,第
Figure 290233DEST_PATH_IMAGE002
组数据第
Figure 292825DEST_PATH_IMAGE041
个数字用
Figure 893175DEST_PATH_IMAGE044
表示。
若想要第
Figure 57440DEST_PATH_IMAGE002
组数据
Figure 299066DEST_PATH_IMAGE043
Figure 902085DEST_PATH_IMAGE044
在循环矩阵第
Figure 279977DEST_PATH_IMAGE005
列排在一起,则要求
Figure 943040DEST_PATH_IMAGE043
Figure 406382DEST_PATH_IMAGE038
位数字与
Figure 750776DEST_PATH_IMAGE044
Figure 311070DEST_PATH_IMAGE045
位数字在循环矩阵第一列排在一起,
Figure 817138DEST_PATH_IMAGE043
Figure 33355DEST_PATH_IMAGE038
位数字用
Figure 978178DEST_PATH_IMAGE046
表示,
Figure 330661DEST_PATH_IMAGE044
Figure 69947DEST_PATH_IMAGE045
位数字用
Figure 507882DEST_PATH_IMAGE047
表示。而循环矩阵第一列数字为该组数据从小到大的排序的结果。因此,可结合该组数字大小获取
Figure 194078DEST_PATH_IMAGE042
,具体为:
Figure 463386DEST_PATH_IMAGE048
式中,
Figure 576835DEST_PATH_IMAGE049
为以
Figure 502066DEST_PATH_IMAGE046
Figure 788691DEST_PATH_IMAGE047
为边界的区间,
Figure 115767DEST_PATH_IMAGE049
不包含
Figure 465364DEST_PATH_IMAGE050
Figure 612312DEST_PATH_IMAGE047
Figure 640311DEST_PATH_IMAGE051
为以
Figure 884210DEST_PATH_IMAGE052
Figure 339462DEST_PATH_IMAGE047
为边界的区间,
Figure 301602DEST_PATH_IMAGE051
包含
Figure 867712DEST_PATH_IMAGE053
Figure 903802DEST_PATH_IMAGE047
Figure 592272DEST_PATH_IMAGE054
为第
Figure 713812DEST_PATH_IMAGE002
组数据中除
Figure 83613DEST_PATH_IMAGE055
Figure 302105DEST_PATH_IMAGE056
Figure 99160DEST_PATH_IMAGE043
Figure 770312DEST_PATH_IMAGE044
以外的数字,当存在
Figure 678226DEST_PATH_IMAGE054
在区间
Figure 688907DEST_PATH_IMAGE049
内时,
Figure 719180DEST_PATH_IMAGE043
Figure 815312DEST_PATH_IMAGE044
在循环矩阵第
Figure 589233DEST_PATH_IMAGE005
列一定不排在一起,此时概率
Figure 720000DEST_PATH_IMAGE042
为0;当不存在
Figure 924104DEST_PATH_IMAGE054
在区间
Figure 241952DEST_PATH_IMAGE051
内时,
Figure 757247DEST_PATH_IMAGE043
Figure 804838DEST_PATH_IMAGE044
在循环矩阵第
Figure 114596DEST_PATH_IMAGE005
列一定排在一起,此时概率
Figure 919741DEST_PATH_IMAGE042
为1;当不存在
Figure 35465DEST_PATH_IMAGE054
在区间
Figure 875245DEST_PATH_IMAGE049
内,但存在
Figure 418222DEST_PATH_IMAGE054
Figure 976242DEST_PATH_IMAGE055
Figure 567760DEST_PATH_IMAGE056
相等时,此时
Figure 589943DEST_PATH_IMAGE043
Figure 241504DEST_PATH_IMAGE044
在循环矩阵第
Figure 21241DEST_PATH_IMAGE005
列可能排在一起也可能不排在一起,此时根据
Figure 478768DEST_PATH_IMAGE054
的个数
Figure 293140DEST_PATH_IMAGE057
获取概率
Figure 177919DEST_PATH_IMAGE042
如图2所示,在图2上方,以数据1,1,3,0,7,0为示例,在其末尾插入结束符#,得到1,1,3,0,7,0,#,计算0,0在循环矩阵第6列排在一起的概率,此时
Figure 444953DEST_PATH_IMAGE058
。该数据中重复数字去重后结果为1,0,即将1,1,0,0中的重复数字去掉后得到1,0。0为重复数字去重后第2个数字,其重复次数
Figure 643853DEST_PATH_IMAGE059
。0,0在数据中的序号分别为4, 6。计算0,0在循环矩阵第6列排在一起的概率
Figure 375048DEST_PATH_IMAGE060
,要使0,0在循环矩阵第6列排在一起,则要求0,0在数据中前面的第
Figure 368412DEST_PATH_IMAGE038
位数字在循环矩阵第1列中排在一起,即要求0,0在数据中前面的第5位数字在循环矩阵第1列中排在一起,0,0在数据中前面的第5位数字分别为0,1。则
Figure 187988DEST_PATH_IMAGE049
为(0,1),
Figure 190579DEST_PATH_IMAGE051
为[0,1]。此时数据中除0,0,1外,剩余数字1,3,7,剩余数字1,3,7中不存在其他数字属于区间(0,1),剩余数字1,3,7中有一个1属于区间[0,1],因此概率
Figure 713964DEST_PATH_IMAGE061
Figure 940546DEST_PATH_IMAGE062
。如图2上方所示,属于区间[0,1]的这个1即为数据中第二个1,属于区间[0,1]的这个1与图2中0在数据中前面的第5位数字1相等,那么在循环矩阵第1列中,这个1会对0,0在数据中前面的第5位数字0和1是否排在一起进行干扰,如图2左下方所示,在循环矩阵第1列中,这个1可能会排在0在数据中前面的第5位数字1之后,此时0,0在数据中前面的第5位数字0和1排在一起;这个1也可能会排在0在数据中前面的第5位数字1之前,此时0,0在数据中前面的第5位数字0和1被这个1隔开,并未排在一起。在剩余数字1,3,7中,仅这个数字1满足条件
Figure 182172DEST_PATH_IMAGE063
,因此
Figure 785192DEST_PATH_IMAGE054
的个数
Figure 163083DEST_PATH_IMAGE057
为1,则0,0在数据中前面的第5位数字0和1在循环矩阵第一列排在一起的概率为二分之一,即0,0在循环第6列排在一起的概率
Figure 763829DEST_PATH_IMAGE064
Figure 289488DEST_PATH_IMAGE065
为重复数据去重后第
Figure 633882DEST_PATH_IMAGE012
个数字在第
Figure 866280DEST_PATH_IMAGE002
组数据中的所有重复数字在循环矩阵第
Figure 700244DEST_PATH_IMAGE005
列两两排在一起的概率之和。
Figure 650882DEST_PATH_IMAGE066
为第
Figure 595705DEST_PATH_IMAGE002
组数据中所有重复数字在循环矩阵第
Figure 948188DEST_PATH_IMAGE005
列两两排在一起的概率之和。
Figure 890737DEST_PATH_IMAGE067
为理想情况下第
Figure 390988DEST_PATH_IMAGE002
组数据中所有重复数字在循环矩阵第
Figure 77184DEST_PATH_IMAGE005
列两两排在一起的概率之和。
Figure 284175DEST_PATH_IMAGE036
为预估情况下第
Figure 459941DEST_PATH_IMAGE002
组数据中所有重复数字在循环矩阵第
Figure 385172DEST_PATH_IMAGE005
列两两排在一起的概率之和与理想情况下第
Figure 663008DEST_PATH_IMAGE002
组数据中所有重复数字在循环矩阵第
Figure 990084DEST_PATH_IMAGE005
列两两排在一起的概率之和的比例。
S6、得到每组数据的预估重排效果:利用S5中获得每组数据在虚拟循环矩阵中每一列的预估比例的最大值和每组数据的理想重排效果得到每组数据的预估重排效果。
对于第
Figure 8855DEST_PATH_IMAGE002
组数据,获取其预估重排效果
Figure 483699DEST_PATH_IMAGE004
Figure 511698DEST_PATH_IMAGE001
获取预估情况下第
Figure 21177DEST_PATH_IMAGE002
组数据循环矩阵除第一列外的每一列重复数字两两排在一起的概率之和与理想情况的比例,即
Figure 476429DEST_PATH_IMAGE068
,选择其中最大的结果乘以理想重排效果,得到的结果即为预估重排效果
Figure 110673DEST_PATH_IMAGE004
Figure 473521DEST_PATH_IMAGE068
中最大结果对应的列序号即为第
Figure 775189DEST_PATH_IMAGE002
组数据预估的重排最优列序号。
至此,获取了第
Figure 463659DEST_PATH_IMAGE002
组数据理想重排效果
Figure 585199DEST_PATH_IMAGE003
与预估重排效果
Figure 955001DEST_PATH_IMAGE004
。同理获取所有组数据理想重排效果与预估重排效果。
S7、得到数据重排的理想效果与预估效果差异:通过目标分组方式分组得到的所有组数据的理想重排效果和预估重排效果得到目标分组方式数据重排的理想效果与预估效果差异。
结合所有组数据理想重排效果与预估重排效果,获取该分组数据重排的理想效果与预估效果差异
Figure 173492DEST_PATH_IMAGE069
Figure 970547DEST_PATH_IMAGE070
式中,
Figure 641700DEST_PATH_IMAGE021
表示分组个数。
S8、判断差异是否小于或等于差异阈值:若理想效果与预估效果差异小于或等于差异阈值,判断对应的目标分组方式为最优分组,进行S9。
否则,返回S3,选择所有综合评价指标中次小综合评价指标对应的分组方式作为新的目标分组方式,按照步骤S4-S7的方法计算新的目标分组方式数据重排的理想效果与预估效果差异,直至理想效果与预估效果差异小于或等于差异阈值或者返回S3的次数达到设定次数时停止,获得最优分组。
分组优化步骤如下:
①上述步骤获取了数据重排的理想效果与预估效果差异
Figure 549613DEST_PATH_IMAGE069
,当差异较小时,即差异小于或等于阈值
Figure 560294DEST_PATH_IMAGE071
,认为该分组方式
Figure 856146DEST_PATH_IMAGE032
进行数据重排压缩后可以达到最优的效果。此时无需进行分组优化,分组方式
Figure 952278DEST_PATH_IMAGE032
即为最优分组。
②当差异大于阈值
Figure 663882DEST_PATH_IMAGE071
时,认为该分组方式并非最优的。此时获取前述步骤中评价指标次小的分组方式,在之前步骤中获取所有满足约束条件的分组方式,计算每个分组方式的评价指标,选取其中评价指标最小的分组方式,该分组方式记为
Figure 328738DEST_PATH_IMAGE032
,而此处是选择所有分组方式中评价指标次小的分组方式,利用上述计算数据重排的理想效果与预估效果差异的方法,获取评价指标次小的分组方式数据重排的理想效果与预估效果差异。
③当差异大于阈值
Figure 467595DEST_PATH_IMAGE071
时,重复②直到差异小于阈值
Figure 113340DEST_PATH_IMAGE071
,或重复次数达到5次时停止。比较停止重复时所有分组方式的预估效果,选择预估效果最大的分组方式作为最优分组。
Figure 628635DEST_PATH_IMAGE071
由人工设置,经验值为0.01。
至此,完成了分组优化。
S9、得到每组数据的重排结果,通过游程编码对重排结果进行压缩:利用最优分组中每组数据在虚拟循环矩阵中每一列的预估比例的最大值得到每组数据的重排最优列序号,通过每组数据的重排最优列序号得到每组数据的重排结果,通过游程编码对重排结果进行压缩。
对于上述获得的最优分组,可获取每组数据的重排最优列序号。结合重排最优列序号获取重排结果,例如第
Figure 348329DEST_PATH_IMAGE002
组数据重排最优列序号为
Figure 985984DEST_PATH_IMAGE005
,则按照从小到大的顺序依次获取第
Figure 56708DEST_PATH_IMAGE002
组数据中数字后
Figure 110115DEST_PATH_IMAGE038
位数字,得到的结果即为第
Figure 746633DEST_PATH_IMAGE002
组数据的重排结果。将重排最优列序号作为该组数据的标识、记录该组数据的长度。将所有组数据的重排结果组合,利用游程编码的方法对该数据进行压缩。
意思即为:确定了最优分组,该最优分组对应的预估重排效果
Figure 227292DEST_PATH_IMAGE072
,即可获取重排最优列序号。通过该重排最优列序号和第
Figure 113209DEST_PATH_IMAGE002
组数据可得到第
Figure 704727DEST_PATH_IMAGE002
组数据的重排结果。
至此完成了数据的压缩。存储数据包含三部分:压缩数据、标识、分组数据长度。本方法既提高了BWT编码-游程编码的压缩率,又避免了获取循环矩阵造成的大的空间开销。
数据无损重构方法如下:
①对压缩数据进行游程解码获取重排数据组合。
②利用分组数据长度对重排数据组合进行分组,获取每组重排数据。
③利用每组数据的标识对重排数据进行还原:
Figure 399014DEST_PATH_IMAGE002
组重排数据的标识为
Figure 112892DEST_PATH_IMAGE073
。对第
Figure 892629DEST_PATH_IMAGE002
组重排数据进行从小到大的排序,得到的结果即为循环矩阵中第一列的结果,标识
Figure 350155DEST_PATH_IMAGE073
表示第
Figure 164527DEST_PATH_IMAGE002
组重排数据为循环矩阵中的
Figure 986990DEST_PATH_IMAGE073
列的值。即在第
Figure 581919DEST_PATH_IMAGE002
组未编码前的数据中循环矩阵中第一列中数字后
Figure 780819DEST_PATH_IMAGE074
个位置的数字为第
Figure 449698DEST_PATH_IMAGE002
组重排数据中对应的数字。同时结束符“#”位于第
Figure 242729DEST_PATH_IMAGE002
组未编码前的数据末尾。结合此对应关系,即可获得第
Figure 997059DEST_PATH_IMAGE002
组未编码前的数据。
同理获取所有组未编码前的数据,将数据进行组合即为序列化数据。
④对序列化数据进行反序列化,获取农产品收购管理平台历史交易业务数据。
至此,完成了数据的无损重构。
本发明通过计算每种分组方式数据重排的理想效果与预估效果差异,根据理想效果与预估效果差异的大小确定最优分组方式,通过最优分组方式中每组数据的预估重排效果确定每组数据的重排最优列序号,从而得到重排数据,进而对重排数据进行数据压缩,相对于现有技术,本发明提高了压缩效率,同时节省存储空间。
实施例2
基于与上述方法相同的发明构思,本实施例还提供了一种农产品收购管理平台,本实施例中农产品收购管理平台包括数据存储单元和数据压缩单元,所述数据存储单元和数据压缩单元,以实现如一种农产品收购管理平台业务数据压缩方法的实施例中所描述的对平台业务数据进行压缩的具体方法。
由于一种农产品收购管理平台业务数据压缩方法实施例中已经对对平台业务数据进行压缩的具体方法进行了说明,此处不再赘述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种农产品收购管理平台业务数据压缩方法,其特征在于,包括:
S1、获取序列化数据:获取平台业务数据的序列化数据;
S2、获得不同分组方式:建立约束条件,利用约束条件对序列化数据进行分组,获得不同分组方式;
S3、选取目标分组方式:通过各种分组方式中每组数据不重复数字的个数、去重后数字的个数以及每组数据的个数得到各种分组方式的综合评价指标;选取所有综合评价指标中最小综合评价指标对应的分组方式作为目标分组方式;通过目标分组方式对序列化数据进行分组,得到每组数据;
S4、得到每组数据的理想重排效果:通过目标分组方式中每组数据的个数和每组数据去重后数字的个数得到每组数据的理想重排效果;
每组数据的理想重排效果的表达式为:
Figure 693263DEST_PATH_IMAGE002
式中,
Figure DEST_PATH_IMAGE003
表示第
Figure 746670DEST_PATH_IMAGE004
组数据去重后数字的个数,
Figure 648766DEST_PATH_IMAGE004
表示第
Figure 129426DEST_PATH_IMAGE004
组数据,
Figure DEST_PATH_IMAGE005
表示第
Figure 985649DEST_PATH_IMAGE004
组数据的长度,
Figure 842747DEST_PATH_IMAGE006
表示第
Figure 599350DEST_PATH_IMAGE004
组数据的理想重排效果;
S5、获取每组数据在虚拟循环矩阵每列的预估比例:利用每组数据中重复数据的重复次数及每组数据中所有连续重复数据出现在虚拟循环矩阵中每一列的概率获得每组数据在虚拟循环矩阵中每一列的预估比例;
S6、得到每组数据的预估重排效果:利用S5中获得每组数据在虚拟循环矩阵中每一列的预估比例的最大值和每组数据的理想重排效果得到每组数据的预估重排效果;
S7、得到数据重排的理想效果与预估效果差异:通过目标分组方式分组得到的所有组数据的理想重排效果和预估重排效果得到目标分组方式数据重排的理想效果与预估效果差异;
S8、判断差异是否小于或等于差异阈值:若理想效果与预估效果差异小于或等于差异阈值,判断对应的目标分组方式为最优分组,进行S9;
否则,返回S3,选择所有综合评价指标中次小综合评价指标对应的分组方式作为新的目标分组方式,按照步骤S4-S7的方法计算新的目标分组方式数据重排的理想效果与预估效果差异,直至理想效果与预估效果差异小于或等于差异阈值或者返回S3的次数达到设定次数时停止,获得最优分组;
S9、得到每组数据的重排结果,通过游程编码对重排结果进行压缩:利用最优分组中每组数据在虚拟循环矩阵中每一列的预估比例的最大值得到每组数据的重排最优列序号,通过每组数据的重排最优列序号得到每组数据的重排结果,通过游程编码对重排结果进行压缩。
2.根据权利要求1所述的一种农产品收购管理平台业务数据压缩方法,其特征在于,每组数据的重排最优列序号为最优分组中每组数据在虚拟循环矩阵中每一列的预估比例的最大值对应的列序号。
3.根据权利要求1所述的一种农产品收购管理平台业务数据压缩方法,其特征在于,所述序列化数据是八进制或十六进制数据。
4.根据权利要求1所述的一种农产品收购管理平台业务数据压缩方法,其特征在于,预估重排效果的表达式为:
Figure 250911DEST_PATH_IMAGE008
式中,
Figure 358545DEST_PATH_IMAGE004
表示第
Figure 753754DEST_PATH_IMAGE004
组数据,
Figure 302547DEST_PATH_IMAGE006
表示第
Figure 452906DEST_PATH_IMAGE004
组数据的理想重排效果,
Figure DEST_PATH_IMAGE009
表示第
Figure 280791DEST_PATH_IMAGE004
组数据的预估重排效果,
Figure 479691DEST_PATH_IMAGE010
表示虚拟循环矩阵第
Figure 882991DEST_PATH_IMAGE010
列,
Figure DEST_PATH_IMAGE011
表示预估情况与理想情况下第
Figure 204250DEST_PATH_IMAGE004
组数据中所有重复数字在虚拟循环矩阵第
Figure 958580DEST_PATH_IMAGE010
列两两排在一起的概率之和的比例,即为第
Figure 757909DEST_PATH_IMAGE004
组数据在虚拟循环矩阵中第
Figure 281294DEST_PATH_IMAGE010
列的预估比例,
Figure 773455DEST_PATH_IMAGE012
Figure 749501DEST_PATH_IMAGE005
Figure 290204DEST_PATH_IMAGE005
表示第
Figure 497457DEST_PATH_IMAGE004
组数据的长度。
5.根据权利要求1所述的一种农产品收购管理平台业务数据压缩方法,其特征在于,每组数据在虚拟循环矩阵中每一列的预估比例的表达式为:
Figure DEST_PATH_IMAGE013
式中,
Figure 894940DEST_PATH_IMAGE014
表示重复数据去重后第
Figure 623862DEST_PATH_IMAGE014
个数字,
Figure DEST_PATH_IMAGE015
表示重复数据去重后第
Figure 764993DEST_PATH_IMAGE014
个数字在第
Figure 262970DEST_PATH_IMAGE004
组数据中第
Figure 769038DEST_PATH_IMAGE015
次重复,
Figure 47573DEST_PATH_IMAGE016
表示重复数据去重后第
Figure 930078DEST_PATH_IMAGE014
个数字在第
Figure 843414DEST_PATH_IMAGE004
组数据中第
Figure 785962DEST_PATH_IMAGE015
次重复时的序号,
Figure DEST_PATH_IMAGE017
表示重复数据去重后第
Figure 286214DEST_PATH_IMAGE014
个数字在第
Figure 706831DEST_PATH_IMAGE004
组数据中第
Figure 179400DEST_PATH_IMAGE017
次重复,
Figure 89588DEST_PATH_IMAGE018
表示重复数据去重后第
Figure 14818DEST_PATH_IMAGE014
个数字在第
Figure 239126DEST_PATH_IMAGE004
组数据中第
Figure 628519DEST_PATH_IMAGE017
次重复时的序号,
Figure DEST_PATH_IMAGE019
表示重复数据去重后第
Figure 912870DEST_PATH_IMAGE014
个数字在第
Figure 889179DEST_PATH_IMAGE004
组数据中的重复次数,
Figure 651598DEST_PATH_IMAGE003
表示第
Figure 895498DEST_PATH_IMAGE004
组数据去重后数字的个数,
Figure 350750DEST_PATH_IMAGE020
表示第
Figure 250573DEST_PATH_IMAGE004
组数据第
Figure 879000DEST_PATH_IMAGE016
个数字与第
Figure 915089DEST_PATH_IMAGE018
个数字在循环矩阵第
Figure 541243DEST_PATH_IMAGE010
列排在一起的概率。
6.根据权利要求1所述的一种农产品收购管理平台业务数据压缩方法,其特征在于,约束条件的表达式为:
Figure DEST_PATH_IMAGE022
式中,
Figure 990679DEST_PATH_IMAGE023
表示序列化数据的长度,
Figure DEST_PATH_IMAGE024
表示序列化数据的分组个数,
Figure 655753DEST_PATH_IMAGE005
表示第
Figure 811928DEST_PATH_IMAGE004
组数据的长度。
7.根据权利要求1所述的一种农产品收购管理平台业务数据压缩方法,其特征在于,分组方式的综合评价指标的表达式为:
Figure DEST_PATH_IMAGE026
式中,
Figure 671299DEST_PATH_IMAGE027
表示分组方式的综合评价指标,
Figure 280135DEST_PATH_IMAGE024
表示序列化数据的分组个数,
Figure DEST_PATH_IMAGE028
表示第
Figure 515944DEST_PATH_IMAGE004
组数据的评价指标;
Figure 526626DEST_PATH_IMAGE004
组数据的评价指标的表达式为:
Figure DEST_PATH_IMAGE030
式中,
Figure 556899DEST_PATH_IMAGE031
表示第
Figure 653031DEST_PATH_IMAGE004
组数据中不重复数字的个数,
Figure 662837DEST_PATH_IMAGE005
表示第
Figure 793604DEST_PATH_IMAGE004
组数据的长度,
Figure 932462DEST_PATH_IMAGE003
表示第
Figure 578207DEST_PATH_IMAGE004
组数据去重后数字的个数。
8.一种农产品收购管理平台,其特征在于,包括:
数据存储单元,包括:S1、获取序列化数据:获取平台业务数据的序列化数据;
S2、获得不同分组方式:建立约束条件,利用约束条件对序列化数据进行分组,获得不同分组方式;
S3、选取目标分组方式:通过各种分组方式中每组数据不重复数字的个数、去重后数字的个数以及每组数据的个数得到各种分组方式的综合评价指标;选取所有综合评价指标中最小综合评价指标对应的分组方式作为目标分组方式;通过目标分组方式对序列化数据进行分组,得到每组数据;
S4、得到每组数据的理想重排效果:通过目标分组方式中每组数据的个数和每组数据去重后数字的个数得到每组数据的理想重排效果;
每组数据的理想重排效果的表达式为:
Figure 827922DEST_PATH_IMAGE002
式中,
Figure 813196DEST_PATH_IMAGE003
表示第
Figure 185271DEST_PATH_IMAGE004
组数据去重后数字的个数,
Figure 255996DEST_PATH_IMAGE004
表示第
Figure 309402DEST_PATH_IMAGE004
组数据,
Figure 211499DEST_PATH_IMAGE005
表示第
Figure 692159DEST_PATH_IMAGE004
组数据的长度,
Figure 984600DEST_PATH_IMAGE006
表示第
Figure 402550DEST_PATH_IMAGE004
组数据的理想重排效果;
S5、获取每组数据在虚拟循环矩阵每列的预估比例:利用每组数据中重复数据的重复次数及每组数据中所有连续重复数据出现在虚拟循环矩阵中每一列的概率获得每组数据在虚拟循环矩阵中每一列的预估比例;
S6、得到每组数据的预估重排效果:利用S5中获得每组数据在虚拟循环矩阵中每一列的预估比例的最大值和每组数据的理想重排效果得到每组数据的预估重排效果;
S7、得到数据重排的理想效果与预估效果差异:通过目标分组方式分组得到的所有组数据的理想重排效果和预估重排效果得到目标分组方式数据重排的理想效果与预估效果差异;
S8、判断差异是否小于或等于差异阈值:若理想效果与预估效果差异小于或等于差异阈值,判断对应的目标分组方式为最优分组,进入数据压缩单元;
否则,返回S3,选择所有综合评价指标中次小综合评价指标对应的分组方式作为新的目标分组方式,按照步骤S4-S7的方法计算新的目标分组方式数据重排的理想效果与预估效果差异,直至理想效果与预估效果差异小于或等于差异阈值或者返回S3的次数达到设定次数时停止,获得最优分组;
数据压缩单元,包括:S9、得到每组数据的重排结果,通过游程编码对重排结果进行压缩:利用数据存储单元获得的最优分组中每组数据在虚拟循环矩阵中每一列的预估比例的最大值得到每组数据的重排最优列序号,通过每组数据的重排最优列序号得到每组数据的重排结果,通过游程编码对重排结果进行压缩。
CN202210676620.1A 2022-06-16 2022-06-16 农产品收购管理平台及其业务数据压缩方法 Active CN114782148B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210676620.1A CN114782148B (zh) 2022-06-16 2022-06-16 农产品收购管理平台及其业务数据压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210676620.1A CN114782148B (zh) 2022-06-16 2022-06-16 农产品收购管理平台及其业务数据压缩方法

Publications (2)

Publication Number Publication Date
CN114782148A CN114782148A (zh) 2022-07-22
CN114782148B true CN114782148B (zh) 2022-09-02

Family

ID=82420850

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210676620.1A Active CN114782148B (zh) 2022-06-16 2022-06-16 农产品收购管理平台及其业务数据压缩方法

Country Status (1)

Country Link
CN (1) CN114782148B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116320499B (zh) * 2023-04-17 2024-01-09 深圳市嘉立方科技有限公司 一种通信方法及系统
CN116542697B (zh) * 2023-07-04 2023-10-20 酒仙网络科技股份有限公司 基于大数据的白酒线上销售供货管理系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737132A (zh) * 2012-06-25 2012-10-17 天津神舟通用数据技术有限公司 基于数据库行列混合存储的多规则复合压缩方法
CN110473060A (zh) * 2019-08-01 2019-11-19 龙正飞 一种新型b2b农产品交易系统
CN110753224A (zh) * 2018-07-23 2020-02-04 中国石油化工股份有限公司 一种用于随钻测量数据压缩的数据重排方法和系统
CN114286102A (zh) * 2021-11-15 2022-04-05 上海电科智能系统股份有限公司 基于Base62编码的二值图像压缩编解码方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8108361B2 (en) * 2008-07-31 2012-01-31 Microsoft Corporation Efficient column based data encoding for large-scale data storage

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737132A (zh) * 2012-06-25 2012-10-17 天津神舟通用数据技术有限公司 基于数据库行列混合存储的多规则复合压缩方法
CN110753224A (zh) * 2018-07-23 2020-02-04 中国石油化工股份有限公司 一种用于随钻测量数据压缩的数据重排方法和系统
CN110473060A (zh) * 2019-08-01 2019-11-19 龙正飞 一种新型b2b农产品交易系统
CN114286102A (zh) * 2021-11-15 2022-04-05 上海电科智能系统股份有限公司 基于Base62编码的二值图像压缩编解码方法

Also Published As

Publication number Publication date
CN114782148A (zh) 2022-07-22

Similar Documents

Publication Publication Date Title
CN114782148B (zh) 农产品收购管理平台及其业务数据压缩方法
CN102122960B (zh) 一种针对二进制数据的多字符组合无损数据压缩方法
RU2403677C1 (ru) Способ сжатия и восстановления данных без потерь
CN116303374B (zh) 基于sql数据库的多维度报表数据优化压缩方法
CN106549673A (zh) 一种数据压缩方法及装置
CN107666324B (zh) 一种polar码结合算术编码的信源有损压缩编码方法
CN106407285A (zh) 一种基于rle和lzw的优化比特文件压缩与解压缩方法
CN103995887A (zh) 位图索引压缩方法和位图索引解压方法
CN116016606A (zh) 一种基于智慧云的污水处理运维数据高效管理系统
CN109979537A (zh) 一种面向多条序列的基因序列数据压缩方法
CN103702133A (zh) 一种图像压缩展示方法及其装置
CN116805537B (zh) 用于心肺康复管理系统的数据处理方法
CN102905137A (zh) 超光谱信号的快速差值矢量量化压缩编码方法
CN115309333A (zh) 一种带状稀疏矩阵的数据存储格式及其乘法加速方法
CN110310709A (zh) 一种基于参考序列的基因压缩方法
CN114268323A (zh) 支持行存的数据压缩编码方法、装置及时序数据库
CN112434085B (zh) 基于Roaring Bitmap的用户数据统计方法
CN117040542B (zh) 一种智能综合配电箱能耗数据处理方法
CN116934487A (zh) 一种金融清算数据优化存储方法及系统
CN103746704A (zh) 基于双游程交替编码的芯片测试数据传输方法
CN109698703B (zh) 基因测序数据解压方法、系统及计算机可读介质
CN105844214B (zh) 一种基于比特空间的多路径深度编码的信息指纹提取方法
CN109698702B (zh) 基因测序数据压缩预处理方法、系统及计算机可读介质
CN111035381B (zh) 一种实时心电数据无损压缩方法
CN110111852A (zh) 一种海量dna测序数据无损快速压缩平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant