CN117312613A - 基于云计算的订单数据智能管理方法及系统 - Google Patents

基于云计算的订单数据智能管理方法及系统 Download PDF

Info

Publication number
CN117312613A
CN117312613A CN202311285800.8A CN202311285800A CN117312613A CN 117312613 A CN117312613 A CN 117312613A CN 202311285800 A CN202311285800 A CN 202311285800A CN 117312613 A CN117312613 A CN 117312613A
Authority
CN
China
Prior art keywords
data
processed
order data
character
cloud computing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311285800.8A
Other languages
English (en)
Other versions
CN117312613B (zh
Inventor
高超
邵炜
黄钰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yiliang Haoche Internet Technology Co ltd
Original Assignee
Hangzhou Yiliang Haoche Internet Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yiliang Haoche Internet Technology Co ltd filed Critical Hangzhou Yiliang Haoche Internet Technology Co ltd
Priority to CN202311285800.8A priority Critical patent/CN117312613B/zh
Publication of CN117312613A publication Critical patent/CN117312613A/zh
Application granted granted Critical
Publication of CN117312613B publication Critical patent/CN117312613B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3084Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
    • H03M7/3086Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method employing a sliding window, e.g. LZ77
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及数据压缩技术领域,具体涉及一种基于云计算的订单数据智能管理方法及系统。该方法首先获取原始订单数据,根据待处理范围中各字符对应字符重复值的分布情况,对每次构建新的待处理范围进行动态调整,统计待处理范围的端点并获取目标节点索引位置序列;根据目标节点索引位置序列中目标节点索引位置,构建各个目标分块并获取对应的字典检索窗口尺寸,利用LZ77压缩算法进行压缩,获取订单压缩数据;将订单压缩数据存储在云计算系统。本发明通过优化目标分块的划分和对应的字典检索窗口尺寸的调整,提高原始订单数据的压缩效率,降低云计算系统中存储空间占用情况,提高云计算系统调用数据效率,进而改善云计算的订单数据管理效率。

Description

基于云计算的订单数据智能管理方法及系统
技术领域
本发明涉及数据压缩技术领域,具体涉及一种基于云计算的订单数据智能管理方法及系统。
背景技术
随着云计算领域的快速发展,越来越多企业选择将订单数据在在云端存储和管理。云计算通过共享软硬件资源和信息,提供给计算机和其他设备使用,将大量的数据和应用程序集中在云端进行处理和存储,从而提高了数据管理和资源利用的效率。由于订单数据规模庞大需要占用大量的存储空间,所以往往需要进行数据压缩之后进行存储。
通过对订单数据进行压缩,可以降低存储成本,提高数据传输效率。LZ77数据压缩算法作为一种无损压缩算法,现有技术中通常使用LZ77数据压缩算法对订单数据进行压缩,但是在利用LZ77数据压缩算法是通常采用自适应字典检索窗口,由于订单数据庞大且订单数据各类字符局部重复性不同,利用自适应字典检索窗口进行LZ77数据压缩导致消耗时间长,影响压缩效率,导致云计算系统中存储空间占用率大,云计算系统调用数据较为困难,影响云计算的订单数据管理效率。
发明内容
为了解决利用自适应滑动窗口进行LZ77数据压缩导致压缩时间长、云计算系统中存储空间占用率大和调用数据困难技术问题,本发明的目的在于提供一种基于云计算的订单数据智能管理方法及系统,所采用的技术方案具体如下:
一种基于云计算的订单数据智能管理方法,所述方法包括以下步骤:
获取原始订单数据;所述原始订单数据包含多个数据类别;
根据各个所述数据类别中各字符对应字符段的字符分布特征,获取各个所述数据类别的各字符对应的字符重复值;
在各个所述数据类别中,根据预设初始范围构建待处理范围,根据待处理范围中各字符对应所述字符重复值的分布情况,动态调整待处理范围,以调整后待处理范围的终止端点作为新的起始端点,构建新的待处理范围,对每次构建新的待处理范围进行动态调整,直至遍历整个所述数据类别;统计所有所述数据类别的所有待处理范围的端点,获取所述原始订单数据的待处理节点索引位置序列;根据索引位置差异,在原始订单数据的所述待处理节点索引位置序列中筛选,获取目标节点索引位置序列;根据所述目标节点索引位置序列中目标节点索引位置,构建各个目标分块;
根据各个所述目标分块内所有所述数据类别的字符重复值,获取对应的字典检索窗口尺寸;根据各个所述字典检索窗口尺寸对所述原始订单数据利用LZ77压缩算法进行压缩,获取订单压缩数据;
将所述订单压缩数据存储在云计算系统。
进一步地,所述数据类别的获取方法,具体包括:
所述原始订单数据中还包括数据类型信息;
根据每条所述原始订单数据中的所述数据类型信息通过CNN神经网络进行分类处理,确定所述原始订单数据集合中每条订单记录的所述数据类别。
进一步地,所述字符重复值的获取方法,具体包括:
所述原始订单数据中还包括各个字符的索引位置;
将所述数据类别中字符和之前的所有字符作为各个字符的对应所述字符段;
计算所述字符段中所有字符的所述索引位置的方差,获取所述字符段对应字符的整体位置偏离程度;
计算字符对应在所述数据类别中位置序号的平方,获取局部重复值;
计算所述局部重复值和所述整体位置偏离程度的比值,获取字符对应的所述字符重复值。
进一步地,根据待处理范围中各字符对应所述字符重复值的分布情况,动态调整待处理范围的获取方法,具体包括:
根据待处理范围中各字符对应所述字符重复值的分布情况,获取区域重复波动值;
若待处理范围的所述区域重复波动值小于预设分块阈值,持续扩大待处理范围计算每次扩大后的待处理范围对应的所述区域重复波动值,直至扩大后的待处理范围的所述区域重复波动值大于预设分块阈值,停止扩大;
若待处理范围的所述区域重复波动值大于预设分块阈值,获取所述调整后待处理范围。
进一步地,所述区域重复波动值的获取方法,具体包括:
计算待处理范围中字符对应的所述字符重复值方差,获取第一重复波动值;
归一化所述第一重复波动值,获取所述区域重复波动值。
进一步地,所述目标节点索引位置序列的获取方法,具体包括:
依次计算各个待处理节点索引位置与下一个待处理节点索引位置的差异,获取节点间距;
若节点间距不大于预设间距,删除对应待处理节点索引位置的下一个待处理节点索引位置,计算调整后的节点间距,直至节点间距大于预设间距;
若节点间距大于预设间距,以下一个待处理节点索引位置为起始端点,计算所述节点间距,动态删除待处理节点索引位置并统计调整后的待处理节点索引位置作为目标节点索引位置序列。
进一步地,所述目标分块的获取方法,具体包括:
将所述目标节点索引位置在原始订单数据进行标记,标记分块节点;
将相邻所述标记分块节点之间的区域作为所述目标分块。
进一步地,所述字典检索窗口尺寸的获取方法,具体包括:
计算所述目标分块所有所述数据类别的字符重复值的均值,作为第一调整参数;
将所述第一调整参数向上取整,获取所述字典检索窗口尺寸。
进一步地,所述订单压缩数据的获取方法,具体包括:
将所述字典检索窗口尺寸根据预设比例设置为左侧字典区和右侧待编码区,基于LZ77数据压缩算法根据所有目标分块的所述字典检索窗口尺寸对所述原始订单数据进行压缩,获得订单压缩数据。
一种基于云计算的订单数据智能管理系统,所述系统包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现任意一项所述一种基于云计算的订单数据智能管理方法的步骤。
本发明具有如下有益效果:
为了更好地利用原始订单数据的局部重复性,根据各个数据类别中各字符对应字符段的字符分布特征,获取各个数据类别的各字符对应的字符重复值,字符重复值反映所属数据类别的字符的重复特征,原始订单数据中不同数据类别中字符具有不同的重复性,为了更好地利用原始订单数据的局部重复性进行分块,分别在各个数据类别中,根据待处理范围中各字符对应字符重复值的分布情况,对每次构建新的待处理范围进行动态调整,根据目标节点索引位置序列中目标节点索引位置,构建各个目标分块。不同时间段或者数据类型会导致原始订单数据重复性变化,划分目标分块可以更好地反映原始订单数据的局部重复性,以供后续根据目标分块的重复性,确定目标分块对应的字典检索窗口尺寸,在使用LZ77数据压缩算法对原始数据序列进行压缩过程中,调整目标分块对应的字典检索窗口尺寸,提高数据压缩的效率,优化了订单压缩数据存储情况。将订单压缩数据存储在云计算系统可以降低云计算系统中存储空间占用情况,提高云计算系统调用数据效率,进而改善云计算的订单数据管理效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种基于云计算的订单数据智能管理方法的流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于云计算的订单数据智能管理方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
一种基于云计算的订单数据智能管理方法及系统实施例:
下面结合附图具体的说明本发明所提供的一种基于云计算的订单数据智能管理方法及系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种基于云计算的订单数据智能管理方法的流程图,该方法包括以下步骤:
步骤S1:获取原始订单数据;原始订单数据包含数据类别。
由于原始订单数据庞大,若直接保存到云计算系统,会导致占用存储空间过大,所以需要进行数据压缩。由于原始订单数据是按照一定规则生成的,导致原始订单数据有较高的局部重复性,本发明实施例使用的LZ77数据压缩算法是一种基于字符重复性的算法,通过寻找数据重复片段来进行压缩。由于原始订单数据的不同数据类型之间的局部重复性不同,获取原始订单数据的数据类别,为后续分析字符重复性作为参考。
具体的,向存储原始订单数据的服务器发送请求,将原始订单数据上传到云计算系统,待同意后,云计算系统获取原始订单数据,原始订单数据包含,数据类别、商品类型、购买地区、价格区间等数据类型。后续通过对原始订单数据进行数据压缩,保存到云计算系统,方便用户访问和共享原始订单数据,提高了数据的可用性。
优选地,本发明一个实施例中数据类别的获取方法包括:
由于原始订单数据通常是按照一定的规则生成的,例如订单记录通常由日期、订单序数和收货地址组成,每条订单记录有较高的局部重复性,原始订单数据中由于各类字符具有不同的特性和含义,因此不同订单记录的重复性是不同的,原始订单数据中包括商品类型、购买地址、时间等数据类型信息,不同数据类型的订单记录重复度较低,相同数据类型的订单记录重复度较高。根据每条原始订单数据中的数据类型信息通过CNN神经网络进行分类处理,确定原始订单数据集合中每条订单记录的数据类别,从而更好的利用原始订单数据的重复性。
需要说明的是,CNN神经网络为本领域技术人员熟知的技术手段,在此不做赘述,仅简述本发明一个实施例中利用CNN神经网络确定数据类别的简要过程:
利用参考数据集训练CNN神经网络,由于原始订单数据包括数据类型信息,根据商品类型、购买地址、时间等因素影响,对订单数据进行标注将同商品类型、同购买地区、同价格区间情况等数据类型标记为相同的数字,例如雨伞、上海、双十一折扣期间的订单数据标记为第1种数据类别,遮阳伞、北京、原价期间的订单数据标记为第3种数据类别,诸如此类。然后将标注完成的数据集按照预设分类比例划分为训练集和验证集,将参考数据集输入CNN神经网络中进行训练,损失函数为交叉熵,采用梯度下降法直至损失函数收敛,得到训练完成的CNN神经网络;将各条订单记录输入训练完成的CNN神经网络,CNN神经网络将订单数据中每条订单记录自动归类到所属数据类别。在本发明实施例中,预设分类比例的为7:3,实施者可根据实施场景自行设定。
获取所有原始订单数据的数据类别和数据类别对应的字符频数。请参阅表1,表1为原始订单数据中数据类别表。
表1
数据类别 1 2 a n-1 n
字符频数 f1 f2 fa fn-1 fn
其中,a为第a种数据类别,n为原始订单数据的数据类别总数,fn为第n种数据类别中字符的频数,fa为第a种数据类别中字符的频数。
例如包含三种数据类别的原始订单数据P为[1,1,1,1,2,3,2,3,2,3,1,1,3,1,2,3,1,2],分别为数据类别1、数据类别2和数据类别3,这三种数据类别对应的字符频数分别为8、5、5。
获取在第a种数据类别的字符位置和对应在原始订单数据的索引位置。请参阅表2,表2为第a种数据类别的数据位置表。
表2
其中,i为在第a种数据类别中第i处字符的位置序号;si,a为在第a种数据类别中第i处位置序号对应在原始订单数据的索引位置;fa为在第a种数据类别的最后一个字符的位置序号,也表示了第a种数据类别中字符频数;为在第a种数据类别中第fa处位置序号对应在原始订单数据的索引位置。
例如原始订单数据P中的数据类别2,其对应字符的位置序号序列为[1,2,3,4,5],对应在原始订单数据中的索引位置序列为[5,7,8,14,17]。
需要说明的是,该例子仅为对原始订单数据以及数据类别对应关系的示意例子,在实际实施过程中需要根据原始订单数据中包含的实际数据字符进行数据类别的分类。为了方便运算,本发明实施例中所参与运算的所有指标数据均经过数据预处理,进而取消量纲影响。具体去量纲影响的手段为本领域技术人员熟知的技术手段,在此不做限定。
步骤S2:根据各个数据类别中各字符对应字符段的字符分布特征,获取各个数据类别的各字符对应的字符重复值。
由于本发明实施例使用的LZ77数据压缩算法基本思想是利用重复出现的字符串来进行压缩,原始订单数据中相同数据类别中字符具有较高的重复性,原始订单数据中不同数据类别中字符具有较低的重复性,为了更好地利用原始订单数据的局部重复性,根据各个数据类别中各字符对应字符段的字符分布特征,获取各个数据类别的各字符对应的字符重复值。字符重复值反映所属数据类别的字符的重复特征,进而根据字符的重复特征对原始订单数据进行分块处理,进而更好的利用原始订单数据的局部重复性进行数据压缩。
优选地,本发明一个实施例中字符重复值的获取方法包括:
原始订单数据中还包括各个字符的索引位置;
将数据类别中字符和之前的所有字符作为各个字符的对应字符段;
计算字符段中所有字符的索引位置的方差,获取字符段对应字符的整体位置偏离程度;
计算字符对应在数据类别中位置序号的平方,获取局部重复值;
计算局部重复值和整体位置偏离程度的比值,获取字符对应的字符重复值。
本发明一个实施例中字符重复值公式包括:
其中,Ri,a为第a种数据类别中第i个字符对应字符段的字符重复值,i表示数据类别中第i个字符的位置序号;m表示第a种数据类别中中任意一个字符;sm,a表示第a种数据类别中第m个字符的索引位置;表示在第a种数据类别中第i个字符对应字符段中,所有字符的索引位置的均值;fa为第a种数据类别中字符的频数;需要说明的是,第i个字符对应字符段是在第a种数据类别中第i个字符和第i个字符之前的所有字符。
在字符重复值公式中,反映在第a种数据类别中第i个字符对应字符段中索引位置的方差,当字符段中字符对应在原始订单数据的索引位置越密集,字符段中索引位置的方差就越小,字符重复值就越大;当字符段中字符对应在原始订单数据的索引位置越离散,字符段中索引位置的方差就越大,字符重复值就越小;局部重复值是对第i个字符的位置序号的平方,位置序号能反映在第i个字符对应字符段出现频数,通过平方扩大字符频数对字符重复值的影响权重;数据类别中第i个字符的位置序号的增加,第i个字符对应字符段的字符越多,字符重复值就越大;在第a种数据类别中第i个字符对应字符段中,索引位置的方差与字符重复值呈负相关,字符的序数与字符重复值呈正相关,综合在第a种数据类别中第i个字符对应字符段中索引位置的方差也和字符出现的数量反映字符重复值Ri,a
步骤S3:在各个数据类别中,根据预设初始范围构建待处理范围,根据待处理范围中各字符对应字符重复值的分布情况,动态调整待处理范围,以调整后待处理范围的终止端点作为新的起始端点,构建新的待处理范围,对每次构建新的待处理范围进行动态调整,直至遍历整个数据类别;统计所有数据类别的所有待处理范围的端点,获取原始订单数据的待处理节点索引位置序列;根据索引位置差异,在原始订单数据的待处理节点索引位置序列中筛选,获取目标节点索引位置序列;根据目标节点索引位置序列中目标节点索引位置,构建各个目标分块。
由于原始订单数据中相同数据类别中字符具有较高的重复性,原始订单数据中不同数据类别中字符具有较低的重复性,为了更好地利用原始订单数据的局部重复性进行分块,分别在各个数据类别中,根据预设初始范围构建待处理范围,根据待处理范围中各字符对应字符重复值的分布情况,动态调整待处理范围,以调整后待处理范围的终止端点作为新的起始端点,构建新的待处理范围,对每次构建新的待处理范围进行动态调整,直至遍历整个数据类别;统计所有数据类别的所有待处理范围的端点,获取原始订单数据的待处理节点索引位置序列;根据索引位置差异,在原始订单数据的待处理节点索引位置序列中筛选,获取目标节点索引位置序列;根据目标节点索引位置序列中目标节点索引位置,构建各个目标分块。当待处理范围中各字符对应字符重复值的波动情况越小,说明当前待处理范围中字符重复值越一致,对应待处理范围的端点越不可能是待处理节点,需要对待处理范围进行动态调整,获取新的待处理范围;当待处理范围中各字符对应字符重复值的波动情况越大,说明当前待处理范围中字符重复值变得不一致,对应待处理范围的端点越可能是待处理节点,通过待处理节点索引位置确定目标分块;由于不同时间段或者数据类型会导致原始订单数据重复性变化,划分目标分块可以更好地反映原始订单数据的局部重复性,以供后续根据目标分块的重复性,确定目标分块对应的字典检索窗口尺寸,进而改善数据压缩的效果。
优选地,本发明一个实施例中区域重复波动值的获取方法包括:
计算待处理范围中字符对应的字符重复值方差,获取第一重复波动值;
归一化第一重复波动值,获取区域重复波动值。
由于不同时间段或者数据类型会导致原始订单数据重复性变化,为了对第a种数据类别中重复性进一步研究,设置待处理范围[ik-1,ik],表示在第a种数据类别中第k个待处理范围,ik-1表示第k个待处理范围的起始端点,ik表示第k个待处理范围的终止端点。通过分析待处理范围的字符重复值,从而获取待处理范围的区域重复波动值。本发明一个实施例中区域重复波动值公式包括:
其中,Fk,a表示第a类字符在第k个待处理范围[ik-1,ik]中的区域重复波动值,ik-1表示第k个待处理范围[ik-1,ik]的起始端点,ik表示表示第k个待处理范围[ik-1,ik]的终止端点,j表示第k个待处理范围[ik-1,ik]中任意一个字符,Rj,a表示第k个待处理范围中第j个字符对应字符段的字符重复值,表示第k个待处理范围中所有字符对应字符段的字符重复值均值,exp()为以自然常数e为底的指数函数,通过区域重复波动值公式对第一重复波动值进行归一化,使得Fk,a的值域归一化至[0,1]。在本发明其他实施例中可采用其他归一化方法在此不做限定。
在区域重复波动值公式中,反映在第k个待处理范围中字符对应字符段的字符重复值的方差,当方差越大的时候,说明待处理范围中字符重复值的变得不一致,区域重复波动值接越大;当方差越小的时候,说明待处理范围中字符重复值越一致,区域重复波动值接越小。区域重复波动值越大,说明待处理范围中字符重复值的变得不一致,对应待处理范围的端点越可能是待处理节点。通过待处理节点划分不同重复性情况的区域,从而获取重复性更强的目标分块。
优选地,本发明一个实施例中根据待处理范围中各字符对应字符重复值的分布情况,动态调整待处理范围的获取方法包括:
为了获取第a种数据类别中的所有调整后待处理范围,设置预设初始范围[i0,i1],表示在第a种数据类别中第1个待处理范围,令起始端点i0=1,令终止端点i1=2,表示待处理范围对应在第a种数据类别中字符位置为1和字符位置为2之间的范围。将预设初始范围作为待处理范围,根据待处理范围中各字符对应字符重复值的分布情况,获取区域重复波动值;若待处理范围的区域重复波动值小于预设分块阈值,令预设初始范围[i0,i1]的起始端点保持不变,即i0=1;令预设初始范围[i0,i1]的终止端点移动,即i1+1=3;实现扩大待处理范围,并计算扩大后待处理范围[i0,i1]时对应的区域重复波动值,即起始端点i0=1且终止端点i1=3,当每次扩大后的预设初始范围小于预设分块阈值时,动态扩大预设初始范围,直至扩大后的待处理范围的区域重复波动值大于预设分块阈值,停止扩大;若待处理范围的区域重复波动值大于预设分块阈值,获取调整后待处理范围。本发明实施例令预设分块阈值取值为0.8,实施者可根据实际情况自行设置。
具体的,将调整后待处理范围的终止端点作为下一个待处理范围的起始端点,构建新的待处理范围,重复上述对待处理范围动态调整的步骤实现对每次构建新的待处理范围进行动态调整,直至遍历整个第a种数据类别中所有字符,获取所有的调整后的待处理范围并统计所有数据类别的所有待处理范围的端点,获取原始订单数据的待处理节点索引位置序列。为了获取原始订单数据的待处理节点索引位置序列,首先获取整个第a种数据类别的类别节点索引位置序列,本发明一个实施例中类别节点索引位置序列公式为:
其中,Sa表示第a种数据类别的类别节点索引位置序列;表示第a种数据类别中分块节点序列中分块节点i0对应原始订单数据的索引位置;/>表示第a种数据类别中分块节点序列中分块节点i1对应原始订单数据的索引位置,/>表示第a种数据类别中分块节点序列中分块节点ik对应原始订单数据的索引位置,/>表示第a种数据类别中分块节点序列中最后一个分块节点inum-1对应原始订单数据的索引位置;num表示第a种数据类别的待处理节点索引位置的总数。
为了获取原始订单数据的待处理节点索引位置序列,统计所有数据类别的所有待处理范围的端点,本发明一个实施例中原始订单数据的待处理节点索引位置序列为:
其中,S表示原始订单数据的待处理节点索引位置序列;a表示原始订单数据中的任意一种数据类别;n表示原始订单数据中的数据类别总数;Sa表示第a种数据类别的待处理节点索引位置序列,∪表示取并集。
优选地,本发明一个实施例中目标节点索引位置序列的获取方法包括:
由于划分目标分块可以更好地反映原始订单数据的局部重复性,以供后续根据目标分块的重复性,确定目标分块对应的字典检索窗口尺寸。需要先获取原始订单数据的待处理节点索引位置序列进行调整,使得目标分块更能反映原始订单数据的局部重复性且目标分块合理,
在原始订单数据的待处理节点索引位置序列中,依次计算各个待处理节点索引位置与下一个待处理节点索引位置的差异,获取节点间距;
当节点间距不大于预设间距,删除对应待处理节点索引位置的下一个待处理节点索引位置,计算调整后的节点间距,直至节点间距大于预设间距;
当节点间距大于预设间距,以下一个待处理节点索引位置为起始端点,计算节点间距,动态删除待处理节点索引位置并统计调整后的待处理节点索引位置作为目标节点索引位置序列。本发明实施例令预设间距取值为3,使得后续目标分块大小更合理,实施者可根据实际情况自行设置。本发明一个实施例中目标节点索引位置序列为:
其中,S′表示原始订单数据的目标节点索引位置序列;a表示原始订单数据中的第a种数据类别;n表示原始订单数据中的数据类别总数;S′a表示第a种数据类别的调整后的待处理节点索引位置序列,∪表示取并集。
优选地,本发明一个实施例中目标分块的获取方法包括:
根据原始订单数据的目标节点索引位置序列,将目标节点索引位置在原始订单数据进行标记,标记分块节点;将相邻标记分块节点之间的区域作为目标分块。由于不同时间段或者数据类型会导致原始订单数据重复性变化,划分目标分块可以更好地反映原始订单数据的局部重复性,以供后续根据目标分块的重复性,确定目标分块对应的字典检索窗口尺寸,进而改善数据压缩的效果并提高数据压缩的效率。
步骤S4:根据各个目标分块内所有数据类别的字符重复值,获取对应的字典检索窗口尺寸;根据各个字典检索窗口尺寸对原始订单数据利用LZ77压缩算法进行压缩,获取订单压缩数据。
由于LZ77数据压缩算法是通过一种基于字符重复性的算法,通过寻找数据重复片段来进行压缩,通过各个目标分块可以更好地反映原始订单数据的局部重复性,根据各个目标分块内所有数据类别的字符重复值,获取对应的字典检索窗口尺寸;对于LZ77数据压缩算法中字典检索窗口尺寸进行了优化,使用LZ77数据压缩算法对原始数据序列进行压缩,获取订单压缩数据。在压缩的过程中,调整目标分块对应的字典检索窗口尺寸,使得数据压缩的效果更好。
优选地,本发明一个实施例中字典检索窗口尺寸的获取方法包括:
计算目标分块中所有数据类别的字符重复值均值,作为第一调整参数;
将第一调整参数向上取整,获取字典检索窗口尺寸。
通过分析第b个目标分块的字符重复值,进而获取第b个目标分块的字典检索窗口尺寸。本发明一个实施例中字典检索窗口尺寸公式包括:
其中,Zb表示第b个目标分块的字典检索窗口尺寸;nb表示第b个目标分块的数据类别总数;qb表示第b个目标分块中任意一种数据类别;表示第b个目标分块中第qb种数据类别最后一个字符对应字符段的字符重复值;/>表示向上取整。
在字典检索窗口尺寸公式中,为第b个目标分块中所有数据类别的字符重复值均值,当均值越大,第b个目标分块的字符重复性越高,说明字典检索窗口尺寸可以设置较大,进而提高LZ77数据压缩效率;当均值越小,第b个目标分块的字符重复性越低,说明字典检索窗口尺寸可以设置较小,进而提高LZ77数据压缩效率;使得LZ77数据压缩算法的字典检索窗口尺寸根据原始数据的局部重复性进行灵活改变,提高了LZ77数据压缩效率。
优选地,本发明一个实施例中订单压缩数据的获取方法包括:
由于上述过程中皆是对于LZ77数据压缩算法中字典检索窗口尺寸进行了优化,所以本实施例中使用LZ77数据压缩算法对原始订单数据进行压缩,在压缩的过程中,将字典检索窗口尺寸根据预设比例设置为左侧字典区和右侧待编码区,基于LZ77数据压缩算法根据所有目标分块的字典检索窗口尺寸对原始订单数据进行压缩,获得订单压缩数据。由于原始订单数据已经被划分为多个目标分块,每个目标分块有不同字典检索窗口尺寸,当字典检索窗口滑动到不同目标分块,会根据目标分块对应的字典检索窗口尺寸进行尺寸改变,使得数据压缩的效果更。需要说明的是,LZ77数据压缩算法为本领域技术人员熟知的技术手段,在此不做赘述;本发明实施例中预设比例设置为7:3,具体的比例设置实施者可根据具体实施场景进行调整,在此不做限定。
步骤S5:将订单压缩数据存储在云计算系统。
在获取到原始订单数据的订单压缩数据之后,将订单压缩数据存储在云计算系统。由于本发明实施例在压缩过程中对不同目标分块的字典检索窗口尺寸进行灵活改变,使得字典检索窗口尺寸更加适应原始订单数据的局部重复性特征,因此可以提高原始订单数据的压缩效率,降低云计算系统中存储空间占用情况,提高云计算系统调用数据效率,进而改善云计算的订单数据管理效率。
本发明还提出了一种基于云计算的订单数据智能管理系统,包括:存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器用于运行相应的计算机程序,计算机程序在处理器中运行时能够实现步骤S1~S5所描述的一种基于云计算的订单数据智能管理方法。
综上所述,本发明实施例提供了一种基于云计算的订单数据智能管理系统,首先获取原始订单数据;根据待处理范围中各字符对应字符重复值的分布情况,对每次构建新的待处理范围进行动态调整,统计各个待处理范围的端点并获取目标节点索引位置序列;根据目标节点索引位置序列中目标节点索引位置,构建各个目标分块。获取目标分块对应的字典检索窗口尺寸,利用LZ77压缩算法进行压缩,获取订单压缩数据;将订单压缩数据存储在云计算系统。本发明实施例中根据原始订单数据的重复性特点,优化目标分块的划分和对应的字典检索窗口尺寸的调整,提高原始订单数据的压缩效率,降低云计算系统中存储空间占用情况,提高云计算系统调用数据效率,进而改善云计算的订单数据管理效率。
一种基于云计算的订单数据压缩方法实施例:
由于订单数据规模庞大,所以往往需要进行数据压缩。通过对订单数据进行压缩,可以降低订单数据规模。LZ77数据压缩算法作为一种无损压缩算法,现有技术中通常使用LZ77数据压缩算法对订单数据进行压缩,但是在利用LZ77数据压缩算法是通常采用自适应滑动窗口,由于订单数据庞大且订单数据各类字符局部重复性不同,利用自适应滑动窗口进行LZ77数据压缩导致消耗时间长,影响压缩效率。本实施例提供了一种基于云计算的订单数据压缩方法,包括:
步骤S1:获取原始订单数据;原始订单数据包含多个数据类别。
步骤S2:根据各个数据类别中各字符对应字符段的字符分布特征,获取各个数据类别的各字符对应的字符重复值。
步骤S3:在各个数据类别中,根据预设初始范围构建待处理范围,根据待处理范围中各字符对应字符重复值的分布情况,动态调整待处理范围,以调整后待处理范围的终止端点作为新的起始端点,构建新的待处理范围,对每次构建新的待处理范围进行动态调整,直至遍历整个数据类别;统计所有数据类别的所有待处理范围的端点,获取原始订单数据的待处理节点索引位置序列;根据索引位置差异,在原始订单数据的待处理节点索引位置序列中筛选,获取目标节点索引位置序列;根据目标节点索引位置序列中目标节点索引位置,构建各个目标分块。
步骤S4:根据各个目标分块内所有数据类别的字符重复值,获取对应的字典检索窗口尺寸;根据各个字典检索窗口尺寸对原始订单数据利用LZ77压缩算法进行压缩,获取订单压缩数据。
其中,步骤S1~S4在上述一种基于云计算的订单数据智能管理方法及系统实施例中已给出了详细说明,在此不再赘述。
本发明实施例的有益效果包括:本发明实施例首先获取原始订单数据;首先获取原始订单数据;根据待处理范围中各字符对应字符重复值的分布情况,对每次构建新的待处理范围进行动态调整,统计各个待处理范围的端点并获取目标节点索引位置序列;根据目标节点索引位置序列中目标节点索引位置,构建各个目标分块。获取目标分块对应的字典检索窗口尺寸,利用LZ77压缩算法进行压缩,获取订单压缩数据。本发明实施例中根据数据的重复性特点,优化目标分块的划分和对应的字典检索窗口尺寸的调整,提高原始订单数据的压缩效率。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。

Claims (10)

1.一种基于云计算的订单数据智能管理方法,其特征在于,所述方法包括以下步骤:
获取原始订单数据;所述原始订单数据包含多个数据类别;
根据各个所述数据类别中各字符对应字符段的字符分布特征,获取各个所述数据类别的各字符对应的字符重复值;
在各个所述数据类别中,根据预设初始范围构建待处理范围,根据待处理范围中各字符对应所述字符重复值的分布情况,动态调整待处理范围,以调整后待处理范围的终止端点作为新的起始端点,构建新的待处理范围,对每次构建新的待处理范围进行动态调整,直至遍历整个所述数据类别;统计所有所述数据类别的所有待处理范围的端点,获取所述原始订单数据的待处理节点索引位置序列;根据索引位置差异,在原始订单数据的所述待处理节点索引位置序列中筛选,获取目标节点索引位置序列;根据所述目标节点索引位置序列中目标节点索引位置,构建各个目标分块;
根据各个所述目标分块内所有所述数据类别的字符重复值,获取对应的字典检索窗口尺寸;根据各个所述字典检索窗口尺寸对所述原始订单数据利用LZ77压缩算法进行压缩,获取订单压缩数据;
将所述订单压缩数据存储在云计算系统。
2.根据权利要求1所述的一种基于云计算的订单数据智能管理方法,其特征在于,所述数据类别获取方法包括:
所述原始订单数据中还包括数据类型信息;
根据每条所述原始订单数据中的所述数据类型信息通过CNN神经网络进行分类处理,确定所述原始订单数据集合中每条订单记录的所述数据类别。
3.根据权利要求1所述的一种基于云计算的订单数据智能管理方法,其特征在于,所述字符重复值的获取方法包括:
所述原始订单数据中还包括各个字符的索引位置;
将所述数据类别中字符和之前的所有字符作为各个字符的对应所述字符段;
计算所述字符段中所有字符的所述索引位置的方差,获取所述字符段对应字符的整体位置偏离程度;
计算字符对应在所述数据类别中位置序号的平方,获取局部重复值;
计算所述局部重复值和所述整体位置偏离程度的比值,获取字符对应的所述字符重复值。
4.根据权利要求1所述的一种基于云计算的订单数据智能管理方法,其特征在于,根据待处理范围中各字符对应所述字符重复值的分布情况,动态调整待处理范围的获取方法包括:
根据待处理范围中各字符对应所述字符重复值的分布情况,获取区域重复波动值;
若待处理范围的所述区域重复波动值小于预设分块阈值,持续扩大待处理范围计算每次扩大后的待处理范围对应的所述区域重复波动值,直至扩大后的待处理范围的所述区域重复波动值大于预设分块阈值,停止扩大;
若待处理范围的所述区域重复波动值大于预设分块阈值,获取所述调整后待处理范围。
5.根据权利要求4所述的一种基于云计算的订单数据智能管理方法,其特征在于,所述区域重复波动值的获取方法包括:
计算待处理范围中字符对应的所述字符重复值方差,获取第一重复波动值;
归一化所述第一重复波动值,获取所述区域重复波动值。
6.根据权利要求1所述的一种基于云计算的订单数据智能管理方法,其特征在于,所述目标节点索引位置序列的获取方法包括:
依次计算各个待处理节点索引位置与下一个待处理节点索引位置的差异,获取节点间距;
若节点间距不大于预设间距,删除对应待处理节点索引位置的下一个待处理节点索引位置,计算调整后的节点间距,直至节点间距大于预设间距;
若节点间距大于预设间距,以下一个待处理节点索引位置为起始端点,计算所述节点间距,动态删除待处理节点索引位置并统计调整后的待处理节点索引位置作为目标节点索引位置序列。
7.根据权利要求1所述的一种基于云计算的订单数据智能管理方法,其特征在于,所述目标分块的获取方法包括:
将所述目标节点索引位置在原始订单数据进行标记,标记分块节点;
将相邻所述标记分块节点之间的区域作为所述目标分块。
8.根据权利要求1所述的一种基于云计算的订单数据智能管理方法,其特征在于,所述字典检索窗口尺寸的获取方法包括:
计算所述目标分块所有所述数据类别的字符重复值的均值,作为第一调整参数;
将所述第一调整参数向上取整,获取所述字典检索窗口尺寸。
9.根据权利要求1所述的一种基于云计算的订单数据智能管理方法,其特征在于,所述订单压缩数据的获取方法,具体包括:
将所述字典检索窗口尺寸根据预设比例设置为左侧字典区和右侧待编码区,基于LZ77数据压缩算法根据所有目标分块的所述字典检索窗口尺寸对所述原始订单数据进行压缩,获得订单压缩数据。
10.一种基于云计算的订单数据智能管理系统,所述系统包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1~9任意一项所述一种基于云计算的订单数据智能管理方法的步骤。
CN202311285800.8A 2023-10-07 2023-10-07 基于云计算的订单数据智能管理方法及系统 Active CN117312613B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311285800.8A CN117312613B (zh) 2023-10-07 2023-10-07 基于云计算的订单数据智能管理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311285800.8A CN117312613B (zh) 2023-10-07 2023-10-07 基于云计算的订单数据智能管理方法及系统

Publications (2)

Publication Number Publication Date
CN117312613A true CN117312613A (zh) 2023-12-29
CN117312613B CN117312613B (zh) 2024-03-08

Family

ID=89288027

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311285800.8A Active CN117312613B (zh) 2023-10-07 2023-10-07 基于云计算的订单数据智能管理方法及系统

Country Status (1)

Country Link
CN (1) CN117312613B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117668269A (zh) * 2024-01-29 2024-03-08 杭州易靓好车互联网科技有限公司 基于流形学习的车辆审核信息优化存储方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102288951A (zh) * 2011-07-17 2011-12-21 西安电子科技大学 基于aic压缩信息获取和fbmp的雷达目标参数估计方法
US20120130965A1 (en) * 2009-07-17 2012-05-24 Yun Sik Oh Data compression method
CN115173866A (zh) * 2022-07-14 2022-10-11 郑州朗灵电子科技有限公司 一种小程序数据的高效存储方法
CN115361026A (zh) * 2022-08-24 2022-11-18 郑州航空工业管理学院 一种lz系列压缩算法自适应优化方法
CN115599757A (zh) * 2021-07-08 2023-01-13 华为技术有限公司(Cn) 数据压缩方法、装置、计算设备及存储系统
CN116051156A (zh) * 2023-04-03 2023-05-02 北京智蚁杨帆科技有限公司 一种基于数字孪生的新能源动态电价数据管理系统
CN116132021A (zh) * 2023-04-04 2023-05-16 深圳市聚力得电子股份有限公司 刷卡器刷卡数据的发送方法
CN116304056A (zh) * 2023-04-11 2023-06-23 河南大学 一种用于计算机软件开发数据的管理方法
CN116309610A (zh) * 2023-05-25 2023-06-23 杭州易靓好车互联网科技有限公司 一种基于人工智能的车辆管理方法及系统
CN116775589A (zh) * 2023-08-23 2023-09-19 湖北华中电力科技开发有限责任公司 一种网络信息的数据安全防护方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120130965A1 (en) * 2009-07-17 2012-05-24 Yun Sik Oh Data compression method
CN102288951A (zh) * 2011-07-17 2011-12-21 西安电子科技大学 基于aic压缩信息获取和fbmp的雷达目标参数估计方法
CN115599757A (zh) * 2021-07-08 2023-01-13 华为技术有限公司(Cn) 数据压缩方法、装置、计算设备及存储系统
CN115173866A (zh) * 2022-07-14 2022-10-11 郑州朗灵电子科技有限公司 一种小程序数据的高效存储方法
CN115361026A (zh) * 2022-08-24 2022-11-18 郑州航空工业管理学院 一种lz系列压缩算法自适应优化方法
CN116051156A (zh) * 2023-04-03 2023-05-02 北京智蚁杨帆科技有限公司 一种基于数字孪生的新能源动态电价数据管理系统
CN116132021A (zh) * 2023-04-04 2023-05-16 深圳市聚力得电子股份有限公司 刷卡器刷卡数据的发送方法
CN116304056A (zh) * 2023-04-11 2023-06-23 河南大学 一种用于计算机软件开发数据的管理方法
CN116309610A (zh) * 2023-05-25 2023-06-23 杭州易靓好车互联网科技有限公司 一种基于人工智能的车辆管理方法及系统
CN116775589A (zh) * 2023-08-23 2023-09-19 湖北华中电力科技开发有限责任公司 一种网络信息的数据安全防护方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
KUNIHIKO SADAKANE 等: "Improving the Speed of LZ77 Compression by Hashing and Suffix Sorting", 《IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS, COMMUNICATIONS AND COMPUTER SCIENCES》, 25 December 2020 (2020-12-25), pages 2689 - 2698 *
WESLEY K: "Massively Parallel LZ77 Compression and Decompression on the GPU", 《DIGITAL.LIBRARY.TXSTATE.EDU》, 31 December 2022 (2022-12-31), pages 1 - 43 *
李祥中: "鲁棒性报头压缩中实现滑动窗口动态调整", 《科技信息》, 26 June 2012 (2012-06-26), pages 97 - 98 *
谭红艳: "基于GWQPSO和BWT的DNA序列压缩算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 February 2017 (2017-02-15), pages 138 - 62 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117668269A (zh) * 2024-01-29 2024-03-08 杭州易靓好车互联网科技有限公司 基于流形学习的车辆审核信息优化存储方法
CN117668269B (zh) * 2024-01-29 2024-05-31 杭州易靓好车互联网科技有限公司 基于流形学习的车辆审核信息优化存储方法

Also Published As

Publication number Publication date
CN117312613B (zh) 2024-03-08

Similar Documents

Publication Publication Date Title
US11526799B2 (en) Identification and application of hyperparameters for machine learning
CN109086866B (zh) 一种适用于嵌入式设备的部分二值卷积方法
US11544560B2 (en) Prefetching and/or computing resource allocation based on predicting classification labels with temporal data
CN117312613B (zh) 基于云计算的订单数据智能管理方法及系统
CN110138475B (zh) 一种基于lstm神经网络的自适应门限信道占用状态预测方法
WO2022042123A1 (zh) 图像识别模型生成方法、装置、计算机设备和存储介质
US20220179884A1 (en) Label Determining Method, Apparatus, and System
CN110636445B (zh) 基于wifi的室内定位方法、装置、设备及介质
CN117997902B (zh) 一种基于云边协同的数据分配方法及系统
CN115687304A (zh) 一种Flink状态存储优化方法及装置
US20210271932A1 (en) Method, device, and program product for determining model compression rate
CN116188834B (zh) 基于自适应训练模型的全切片图像分类方法及装置
CN114118411A (zh) 图像识别网络的训练方法、图像识别方法及装置
CN112035533B (zh) 基于多参数量化策略回测的系统资源调度方法及装置
CN116595428B (zh) 一种基于cnn使用日志频谱分析的用户分类方法及系统
CN117155406B (zh) 一种社会调查数据智能管理系统
CN118193581B (zh) 一种海量数据检索任务处理方法、系统及存储介质
CN118245227B (zh) 一种基于时间窗内决策树的计算集群任务调度与负载均衡方法
CN113392124B (zh) 一种基于结构化语言的数据查询方法及装置
Finger et al. Compressed Machine Learning on Time Series Data
CN112215250B (zh) 一种提高数据特征比对效率的方法、装置
CN116433994A (zh) 超参数搜索方法和超参数搜索装置
CN117675609A (zh) 一种基于wapi通信的无线终端用户画像构建方法
Zhu et al. FedTrans: Efficient Federated Learning Over Heterogeneous Clients via Model Transformation
CN118535574A (zh) 基于树结构的精简序列模式计算单元数据列式存储方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant