CN115292392B - 用于智能仓储的数据管理方法 - Google Patents

用于智能仓储的数据管理方法 Download PDF

Info

Publication number
CN115292392B
CN115292392B CN202211230866.2A CN202211230866A CN115292392B CN 115292392 B CN115292392 B CN 115292392B CN 202211230866 A CN202211230866 A CN 202211230866A CN 115292392 B CN115292392 B CN 115292392B
Authority
CN
China
Prior art keywords
articles
data
category
warehousing
time period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211230866.2A
Other languages
English (en)
Other versions
CN115292392A (zh
Inventor
赵小梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong Haijun Digital Technology Co ltd
Original Assignee
Nantong Sea Falcon Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong Sea Falcon Information Technology Co ltd filed Critical Nantong Sea Falcon Information Technology Co ltd
Priority to CN202211230866.2A priority Critical patent/CN115292392B/zh
Publication of CN115292392A publication Critical patent/CN115292392A/zh
Application granted granted Critical
Publication of CN115292392B publication Critical patent/CN115292392B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/219Managing data history or versioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及电数字数据处理技术领域,具体涉及一种用于智能仓储的数据管理方法,该数据管理方法可以配置为一种特别适用于特定功能,具体是仓储管理中的数字数据处理设备或者数据处理方法,获取每一个类别物品的数据与其他各类别物品的数据之间的整体相关性,归一化处理后得到每一个类别物品的受欢迎度,结合类别物品在对应时间周期中出现的概率得到霍夫曼树权值,最后通过霍夫曼编码算法进行仓储数据压缩。利用仓储数据不同类别物品的受欢迎度获取压缩权值,而受欢迎度由不同类别物品与其他各类别物品之间的相关性决定,后续进行数据分析时解码需要的时间越短,越便捷,可以大幅度的减少数据分析前的处理工作。

Description

用于智能仓储的数据管理方法
技术领域
本发明涉及电数字数据处理技术领域,具体涉及一种用于智能仓储的数据管理方法。
背景技术
随着科技的发展,各种行业愈来愈依赖智能化和数字化,仓储行业就是其中之一。而在进行仓储数据管理的时候,其大多数据为记录流水的文本日志数据,但是仓储行业每天的日志数据十分巨大,在进行数据存储的时候需要占用相当多的资源。
常规的在对仓储数据进行处理时,对不同重要程度的数据采用固定的、相同的数据处理方式进行压缩,没有对数据进行区分,没有数据之间的重点区分,在后续需要数据的分析的时候,进行解码过程需要较长的时间,而且在数据分析的时候,因为不同重要程度的数据可能码元相似,分析代价较大。
发明内容
有鉴于此,为了解决上述技术问题,本发明提供一种用于智能仓储的数据管理方法。
一种用于智能仓储的数据管理方法,包括:
对获取到的仓储数据进行时间周期分区处理,得到各个时间周期内的仓储数据,所述各个时间周期内的仓储数据包括多个类别物品的数据;
对于任意一个时间周期内的仓储数据,获取每一个类别物品的数据与其他各类别物品的数据之间的整体相关性;
对每一个类别物品的数据与其他各类别物品的数据之间的整体相关性进行归一化处理,得到每一个类别物品的受欢迎度;
基于每一个类别物品在对应时间周期中出现的概率,以及受欢迎度,得到每一个类别物品在霍夫曼树上的权值;
基于每一个类别物品在霍夫曼树上的权值,通过霍夫曼编码算法,进行仓储数据压缩;
所述获取每一个类别物品的数据与其他各类别物品的数据之间的整体相关性,包括:
获取每一个类别物品的数据与其他各类别物品的数据之间的出现次数相关性、出现时间稳定性和物品数量稳定性;
根据所述出现次数相关性、出现时间稳定性和物品数量稳定性得到所述整体相关性;
所述获取每一个类别物品的数据与其他各类别物品的数据之间的出现次数相关性、出现时间稳定性和物品数量稳定性包括:
采用如下计算公式计算得到出现次数相关性:
Figure 158052DEST_PATH_IMAGE001
其中,
Figure 463263DEST_PATH_IMAGE002
为类别物品
Figure 642572DEST_PATH_IMAGE003
与类别物品
Figure 120957DEST_PATH_IMAGE004
的出现次数相关性,
Figure 436532DEST_PATH_IMAGE005
,其中
Figure 974961DEST_PATH_IMAGE006
为最大类别物品个数,
Figure 100002_DEST_PATH_IMAGE007
为在
Figure 576319DEST_PATH_IMAGE008
条件的
Figure 100002_DEST_PATH_IMAGE009
Figure 796079DEST_PATH_IMAGE010
为在该时间周期内入库订单中类别物品
Figure 435002DEST_PATH_IMAGE003
出现的次数,
Figure 100002_DEST_PATH_IMAGE011
为类别物品
Figure 816436DEST_PATH_IMAGE004
在类别物品
Figure 970336DEST_PATH_IMAGE003
出现的入库订单中出现的次数;
采用如下计算公式计算得到出现时间稳定性:
Figure 790525DEST_PATH_IMAGE012
其中,
Figure 77762DEST_PATH_IMAGE013
为类别物品
Figure 692414DEST_PATH_IMAGE003
与类别物品
Figure 68032DEST_PATH_IMAGE004
的出现时间稳定性,
Figure 691911DEST_PATH_IMAGE014
表示第
Figure 836585DEST_PATH_IMAGE015
次类别物品
Figure 887718DEST_PATH_IMAGE004
在类别物品
Figure 547369DEST_PATH_IMAGE003
出现的入库订单中的出现时间,
Figure 709360DEST_PATH_IMAGE016
表示第
Figure 705610DEST_PATH_IMAGE017
次类别物品
Figure 927644DEST_PATH_IMAGE004
在类别物品
Figure 12275DEST_PATH_IMAGE003
出现的入库订单中的出现时间,e为自然常数;
采用如下计算公式计算得到物品数量稳定性:
Figure 977957DEST_PATH_IMAGE018
其中,
Figure 97223DEST_PATH_IMAGE019
为类别物品
Figure 490158DEST_PATH_IMAGE003
与类别物品
Figure 327664DEST_PATH_IMAGE004
的物品数量稳定性,
Figure 831458DEST_PATH_IMAGE020
为在
Figure 67879DEST_PATH_IMAGE021
中的第
Figure 631716DEST_PATH_IMAGE022
次类别物品
Figure 894201DEST_PATH_IMAGE023
出现的数量,
Figure 201686DEST_PATH_IMAGE024
为在
Figure 561123DEST_PATH_IMAGE021
中的第
Figure 295861DEST_PATH_IMAGE022
次类别物品
Figure 45642DEST_PATH_IMAGE004
出现的数量,
Figure 888309DEST_PATH_IMAGE025
为平均稳定程度;
根据所述类别物品
Figure 836673DEST_PATH_IMAGE003
与类别物品
Figure 742312DEST_PATH_IMAGE004
的出现次数相关性、类别物品
Figure 776127DEST_PATH_IMAGE003
与类别物品
Figure 222152DEST_PATH_IMAGE004
的出现时间稳定性以及类别物品
Figure 290602DEST_PATH_IMAGE003
与类别物品
Figure 367143DEST_PATH_IMAGE004
的物品数量稳定性,采用如下计算公式得到所述类别物品
Figure 622675DEST_PATH_IMAGE003
与类别物品
Figure 75653DEST_PATH_IMAGE004
的相关性
Figure 730100DEST_PATH_IMAGE026
Figure 243121DEST_PATH_IMAGE027
所述根据所述出现次数相关性、出现时间稳定性和物品数量稳定性得到所述整体相关性包括:
采用如下计算公式得到每一个类别物品的数据与其他各类别物品的数据之间的整体相关性:
Figure 985949DEST_PATH_IMAGE028
其中,
Figure 977039DEST_PATH_IMAGE029
为类别物品
Figure 957765DEST_PATH_IMAGE003
与其他各类别物品的数据之间的整体相关性;
所述基于每一个类别物品在对应时间周期中出现的概率,以及受欢迎度,得到每一个类别物品在霍夫曼树上的权值,包括:
每一个类别物品在霍夫曼树上的权值采用如下计算公式进行计算:
Figure 641687DEST_PATH_IMAGE030
其中,
Figure 137390DEST_PATH_IMAGE031
为类别物品
Figure 866924DEST_PATH_IMAGE003
在霍夫曼树上的权值,
Figure 764473DEST_PATH_IMAGE032
为类别物品
Figure 619297DEST_PATH_IMAGE003
在对应时间周期中出现的概率,
Figure 336717DEST_PATH_IMAGE033
为类别物品
Figure 669609DEST_PATH_IMAGE003
的受欢迎度。
所述对获取到的仓储数据进行时间周期分区处理之前,所述数据管理方法还包括:
基于入库时间,对仓储数据进行结构化处理。
所述对获取到的仓储数据进行时间周期分区处理,得到各个时间周期内的仓储数据,包括:
根据预先设置的初始时间周期,计算各初始时间周期内的仓储数据的信息熵,并对所有的初始时间周期内的仓储数据的信息熵进行均值计算,得到整体平均信息熵;
多次调整所述初始时间周期,得到各次调整后的初始时间周期所计算得到的整体平均信息熵;
获取最小的整体平均信息熵,确定所述最小的整体平均信息熵所对应的时间周期为最终时间周期;
对获取到的仓储数据按照所述最终时间周期进行分区处理,得到各个所述最终时间周期内的仓储数据。
所述计算各初始时间周期内的仓储数据的信息熵,包括:
信息熵的计算公式如下:
Figure 421665DEST_PATH_IMAGE034
其中,
Figure 181810DEST_PATH_IMAGE035
为信息熵,
Figure 422797DEST_PATH_IMAGE036
为在第
Figure 559380DEST_PATH_IMAGE037
个时间周期内所有入库订单上第
Figure 431521DEST_PATH_IMAGE038
个文本
Figure 362568DEST_PATH_IMAGE039
出现的概率。
本发明实施例至少具有如下有益效果:根据每一个类别物品的数据与其他各类别物品的数据之间的整体相关性,确定每一个类别物品的受欢迎度,然后结合类别物品在对应时间周期中出现的概率,得到每一个类别物品在霍夫曼树上的权值,根据每一个类别物品在霍夫曼树上的权值,通过霍夫曼编码算法进行仓储数据压缩,突出每个类别物品的受欢迎度,能够根据不同类别物品的数据的重要程度确定霍夫曼树上的对应权值,实现不同相关性,即重要程度的数据采用不同的数据处理方式进行压缩,实现某类别物品与其余类别物品的相关性越强,其编码码长越短,后续进行数据分析时解码需要的时间越短,越便捷,因此,在后续的仓储数据分析的过程中,可以大幅度的减少数据分析前的处理工作。
附图说明
图1是本发明提供的一种用于智能仓储的数据管理方法的流程图。
具体实施方式
下面结合附图具体的说明本发明所提供的一种用于智能仓储的数据管理方法的具体方案。本发明提供的一种用于智能仓储的数据管理方法的应用场景为:在智能仓储对于各种物品的调度(比如入库)过程中,物品调度量较大的情况下会产生大量的调度数据的堆积,对于资源的占用以及数据的分析有着较大程度的影响,所以通过数据之间的特征进行每个类别物品的数据的受欢迎度的分析,而后通过每个类别物品的数据的受欢迎度的分析结果对所有数据进行压缩。
请参阅图1,其示出了本发明一个实施例提供的一种用于智能仓储的数据管理方法的步骤流程图,该方法包括以下步骤:
步骤1:对获取到的仓储数据进行时间周期分区处理,得到各个时间周期内的仓储数据,所述各个时间周期内的仓储数据包括多个类别物品的数据。
作为一个具体实施方式,在步骤1之前,该数据管理方法还包括对仓储数据进行结构化处理的过程,本实施例中,获得到的历史仓储数据的方法为通过历史流水日志信息进行获得,而后基于入库时间对仓储数据进行结构化处理,具体结构化数据为以含有类别物品的出库入库时间,出库入库数量的出库入库订单为基础,利用时间顺序进行归纳结构化。应当理解,数据结构化能够更加便于后续处理,作为其他的实施方式,若获取到的仓储数据中原本就包含有时间信息,比如入库时间信息,则无需进行上述中的数据结构化过程。
本实施例中,仓储数据为入库订单信息。
对获取到的仓储数据进行时间周期分区处理,得到各个时间周期内的仓储数据,各个时间周期内的仓储数据包括多个类别物品的数据。时间周期分区处理可以采用固定时间周期的方式,即时间周期是事先确定好的,比如10分钟,根据事先确定好的时间周期对获取到的仓储数据进行时间周期分区处理,得到各个时间周期内的仓储数据。作为一个具体实施方式,由于上述中获得了所有物品类别的入库订单信息,其数据量过于巨大,在利用变长编码进行无损压缩的时候随着数据量的增多其码长会越来越长,压缩率相应不够,所以需要利用数据的重复性进行整体数据的周期分区,进行每个周期区间的独立压缩。相应地,预先设置有一个初始时间周期,比如10分钟。因为订单数据为文本数据,所以利用信息熵进行整体数据的周期分区,具体为:根据预先设置的初始时间周期,计算各初始时间周期内的仓储数据的信息熵,然后对所有的初始时间周期内的仓储数据的信息熵进行均值计算,得到整体平均信息熵。
信息熵的计算公式如下:
Figure 257843DEST_PATH_IMAGE034
其中,
Figure 198117DEST_PATH_IMAGE035
为信息熵,
Figure 659185DEST_PATH_IMAGE036
为在第
Figure 761134DEST_PATH_IMAGE037
个时间周期内所有入库订单上第
Figure 937512DEST_PATH_IMAGE038
个文本
Figure 415898DEST_PATH_IMAGE039
出现的概率。其中,文本是指:本实施例中,入库订单数据为日志数据,而日志数据本质为文本数据,此处的文本为在第
Figure 997052DEST_PATH_IMAGE040
个时间周期内,所有入库订单中第
Figure 738743DEST_PATH_IMAGE041
个不重复的文本字符。
以第
Figure 139769DEST_PATH_IMAGE037
个初始时间周期为例(
Figure 687425DEST_PATH_IMAGE042
其中
Figure 60769DEST_PATH_IMAGE043
为最大周期个数),第
Figure 32748DEST_PATH_IMAGE037
个初始时间周期的仓储数据的信息熵
Figure 124332DEST_PATH_IMAGE044
(上标10表示初始时间周期为10分钟)的计算公式为:
Figure 944520DEST_PATH_IMAGE045
整体平均信息熵
Figure 500267DEST_PATH_IMAGE046
的计算方式如下所示:
Figure 583760DEST_PATH_IMAGE047
公式逻辑为:每个初始时间周期内的文本信息的相似度越高,
Figure 224957DEST_PATH_IMAGE046
则越小。
然后多次调整初始时间周期,作为一个具体实施方式,以每次调整后的初始时间周期为初始时间周期的u倍,u为大于或者等于1的数值,并且u小于一定值。通过上述计算过程,得到各次调整后的初始时间周期所计算得到的整体平均信息熵。
获取最小的整体平均信息熵,确定最小的整体平均信息熵所对应的时间周期为最终时间周期。在最终时间周期上进行整体数据的分区压缩压缩时可达到较大的压缩程度。最后对获取到的仓储数据按照得到的最终时间周期进行分区处理,得到各个最终时间周期内的仓储数据。
步骤2:对于任意一个时间周期内的仓储数据,获取每一个类别物品的数据与其他各类别物品的数据之间的整体相关性。
由于各个时间周期内的仓储数据的处理过程相同,本实施例以任意一个时间周期内的仓储数据为例进行说明。对于任意一个时间周期内的仓储数据,获取每一个类别物品的数据与其他各类别物品的数据之间的整体相关性。
本实施例中,通过对每个类别物品与其它类别物品出现的条件限制、出现的时间间隔以及出现的数量差异来对每个类别物品的整体相关性进行量化,而后通过相关性计算每个物品的受欢迎度,以此作为权值进行后续的压缩编码。
作为一个具体实施方式,以下给出整体相关性的一种具体获取过程,包括:
获取每一个类别物品的数据与其他各类别物品的数据之间的出现次数相关性、出现时间稳定性和物品数量稳定性;根据出现次数相关性、出现时间稳定性和物品数量稳定性得到整体相关性。本实施例对类别物品的整体相关性进行计算时通过类别物品出现次数相关性作为主体,通过相关类别物品的时间稳定性和相关类别物品的数量稳定性作为权值进行量化不同类别物品的整体相关性的计算具有更高的鲁棒性,对于少数偏差的容错性更高,用来描述不同类别物品的整体相关性更见准确。
其中,获取每一个类别物品的数据与其他各类别物品的数据之间的出现次数相关性、出现时间稳定性和物品数量稳定性包括:
以类别物品
Figure 848837DEST_PATH_IMAGE003
为例,其他各类别物品为类别物品
Figure 990580DEST_PATH_IMAGE004
。采用如下计算公式计算得到出现次数相关性:
Figure 41713DEST_PATH_IMAGE001
其中,
Figure 107889DEST_PATH_IMAGE002
为类别物品
Figure 269880DEST_PATH_IMAGE003
与类别物品
Figure 534640DEST_PATH_IMAGE004
的出现次数相关性,
Figure 756673DEST_PATH_IMAGE005
,其中
Figure 106883DEST_PATH_IMAGE006
为最大类别物品个数,
Figure 272898DEST_PATH_IMAGE007
为在
Figure 392164DEST_PATH_IMAGE008
条件的
Figure 785099DEST_PATH_IMAGE009
Figure 622605DEST_PATH_IMAGE010
为在该时间周期内入库订单中类别物品
Figure 126399DEST_PATH_IMAGE003
出现的次数,
Figure 569012DEST_PATH_IMAGE011
为类别物品
Figure 398428DEST_PATH_IMAGE004
在类别物品
Figure 454721DEST_PATH_IMAGE003
出现的入库订单中出现的次数。由于类别物品
Figure 965468DEST_PATH_IMAGE003
与类别物品
Figure 59326DEST_PATH_IMAGE004
不是同一类别物品,即i不等于
Figure 59643DEST_PATH_IMAGE048
,那么
Figure 606162DEST_PATH_IMAGE049
该公式逻辑:
Figure 655021DEST_PATH_IMAGE002
越大,说明类别物品
Figure 603385DEST_PATH_IMAGE004
在类别物品
Figure 771674DEST_PATH_IMAGE003
出现的入库订单上出现的次数越多,即表明二者相关性越强。
采用如下计算公式计算得到出现时间稳定性:
Figure 805489DEST_PATH_IMAGE012
其中,
Figure 658038DEST_PATH_IMAGE013
为类别物品
Figure 726489DEST_PATH_IMAGE003
与类别物品
Figure 6291DEST_PATH_IMAGE004
的出现时间稳定性,
Figure 996244DEST_PATH_IMAGE014
表示第
Figure 714801DEST_PATH_IMAGE015
次类别物品
Figure 572511DEST_PATH_IMAGE004
在类别物品
Figure 819953DEST_PATH_IMAGE003
出现的入库订单中的出现时间,
Figure 93940DEST_PATH_IMAGE016
表示第
Figure 85029DEST_PATH_IMAGE017
次类别物品
Figure 65755DEST_PATH_IMAGE004
在类别物品
Figure 749677DEST_PATH_IMAGE003
出现的入库订单中的出现时间,e为自然常数。
该公式逻辑:
Figure 245380DEST_PATH_IMAGE013
越大,说明
Figure 998352DEST_PATH_IMAGE011
次出现过程中每相邻两次出现的时间的差异性较小,即
Figure 895901DEST_PATH_IMAGE050
值较小,说明每次单个类别物品
Figure 953987DEST_PATH_IMAGE004
在类别物品
Figure 936986DEST_PATH_IMAGE003
出现的入库订单的条件上出现时间越稳定,按照经验,出现时间越稳定时,证明其二者关联性越高。
采用如下计算公式计算得到物品数量稳定性:
Figure 473141DEST_PATH_IMAGE051
其中,
Figure 694038DEST_PATH_IMAGE019
为类别物品
Figure 716833DEST_PATH_IMAGE003
与类别物品
Figure 124812DEST_PATH_IMAGE004
的物品数量稳定性,
Figure 526974DEST_PATH_IMAGE020
为在
Figure 336798DEST_PATH_IMAGE021
中的第
Figure 533424DEST_PATH_IMAGE022
次类别物品
Figure 225437DEST_PATH_IMAGE023
出现的数量,
Figure 100465DEST_PATH_IMAGE024
为在
Figure 30374DEST_PATH_IMAGE021
中的第
Figure 397902DEST_PATH_IMAGE022
次(与前者同一次)类别物品
Figure 842790DEST_PATH_IMAGE004
出现的数量,
Figure 258859DEST_PATH_IMAGE025
为平均稳定程度。
上述中,
Figure 105592DEST_PATH_IMAGE020
Figure 581704DEST_PATH_IMAGE024
分别表示的是数量,为了便于理解,以下举例说明:香蕉和苹果为两个类别物品,现在共有100个订单,而在含有苹果订单为主的或者某个其他条件的订单上出现了50次香蕉,即二者在一定条件下出现在了同一个订单上,共有50次,其中第
Figure 510958DEST_PATH_IMAGE015
次订单上苹果的数量为100吨,而香蕉的数量为10吨。
该公式逻辑:因为类别物品入库的数量无法进行差异值计算(每次类别物品
Figure 527456DEST_PATH_IMAGE003
与单个类别物品
Figure 166378DEST_PATH_IMAGE004
的数量可能存在不同的情况,所以利用减法区计算差异值容易导致数据偏差太大),所以利用第
Figure 141288DEST_PATH_IMAGE015
次单个类别物品
Figure 232872DEST_PATH_IMAGE004
与类别物品
Figure 318639DEST_PATH_IMAGE003
数量的比值进行稳定程度的量化,而
Figure 608806DEST_PATH_IMAGE019
越大,证明单个类别物品
Figure 689370DEST_PATH_IMAGE004
与类别物品
Figure 64988DEST_PATH_IMAGE003
数量的比值与整体平均比值比较接近,即说明每次入库的单个类别物品
Figure 688867DEST_PATH_IMAGE004
与类别物品
Figure 302382DEST_PATH_IMAGE003
数量比例差距不大,即类别物品
Figure 619094DEST_PATH_IMAGE004
与类别物品
Figure 685270DEST_PATH_IMAGE003
的关联性越强。
然后,根据类别物品
Figure 844332DEST_PATH_IMAGE003
与类别物品
Figure 109091DEST_PATH_IMAGE004
的出现次数相关性、类别物品
Figure 534387DEST_PATH_IMAGE003
与类别物品
Figure 150176DEST_PATH_IMAGE004
的出现时间稳定性以及类别物品
Figure 319121DEST_PATH_IMAGE003
与类别物品
Figure 438386DEST_PATH_IMAGE004
的物品数量稳定性,采用如下计算公式得到类别物品
Figure 831322DEST_PATH_IMAGE003
与类别物品
Figure 665898DEST_PATH_IMAGE004
的相关性
Figure 372954DEST_PATH_IMAGE026
Figure 877885DEST_PATH_IMAGE027
该公式逻辑:在单个类别物品
Figure 379404DEST_PATH_IMAGE004
与类别物品
Figure 969786DEST_PATH_IMAGE003
出现次数相关性
Figure 480532DEST_PATH_IMAGE002
的基础上,利用
Figure 574390DEST_PATH_IMAGE052
作为权值,进行单个类别物品
Figure 775040DEST_PATH_IMAGE004
与类别物品
Figure 524821DEST_PATH_IMAGE003
的相关性
Figure 901576DEST_PATH_IMAGE026
Figure 849940DEST_PATH_IMAGE004
Figure 958842DEST_PATH_IMAGE003
出现了足够的数量才有者入库相关性的计算,如果
Figure 258236DEST_PATH_IMAGE003
出现了很多次但是
Figure 131294DEST_PATH_IMAGE004
没有在
Figure 934164DEST_PATH_IMAGE003
出现的情况下出现,则说明二者没有相关性,只有
Figure 276284DEST_PATH_IMAGE004
在有
Figure 658DEST_PATH_IMAGE003
出现的情况出现,才有可能证明二者存在联系性,而后通过实际经验,每次二者出现的时间越规律,出现时数量比例越稳定,说明二者越相关。
接着利用上述方法计算每一个类别物品对于类别物品
Figure 453636DEST_PATH_IMAGE023
的相关性计算,获得所有
Figure 579855DEST_PATH_IMAGE053
个类别物品对于类别物品
Figure 92876DEST_PATH_IMAGE023
的整体相关性,计算公式如下:
Figure 567195DEST_PATH_IMAGE028
其中,
Figure 558285DEST_PATH_IMAGE029
为类别物品
Figure 804589DEST_PATH_IMAGE003
与其他各类别物品的数据之间的整体相关性。
该公式逻辑:由于不考虑类别物品
Figure 222932DEST_PATH_IMAGE003
与其自身的相关程度,所以利用分段函数进行整体函数的表达。
通过上述过程,得到每一个类别物品的数据与其他各类别物品的数据之间的整体相关性。
步骤3:对每一个类别物品的数据与其他各类别物品的数据之间的整体相关性进行归一化处理,得到每一个类别物品的受欢迎度。
对每一个类别物品的数据与其他各类别物品的数据之间的整体相关性进行归一化处理,得到的归一化后的数值,分别为每一个类别物品的受欢迎度。本实施例中,采用如下计算公式进行归一化:
Figure 656319DEST_PATH_IMAGE054
式中:
Figure 919941DEST_PATH_IMAGE055
表示所有整体相关性中最大的整体相关性,
Figure 17822DEST_PATH_IMAGE056
表示所有整体相关性中最小的整体相关性。
Figure 75908DEST_PATH_IMAGE033
为类别物品
Figure 324487DEST_PATH_IMAGE023
对应的受欢迎度。
该公式逻辑:因为后续中需要利用受欢迎度作为变长编码的权值,所以需要对类别物品
Figure 860642DEST_PATH_IMAGE023
的整体相关性进行归一化,使其落在0到1区间内,方便后续计算。
Figure 815959DEST_PATH_IMAGE033
值越大,则说明类别物品
Figure 107263DEST_PATH_IMAGE023
与其余所有的类别物品的相关性越高,即表明它越受欢迎。
利用上述方法对所有的类别的物品进行受欢迎度计算,可获得所有类别物品的受欢迎度
Figure 512312DEST_PATH_IMAGE057
步骤4:基于每一个类别物品在对应时间周期中出现的概率,以及受欢迎度,得到每一个类别物品在霍夫曼树上的权值。
本实施例中,每一个类别物品在霍夫曼树上的权值采用如下计算公式进行计算:
Figure 117737DEST_PATH_IMAGE058
其中,
Figure 724299DEST_PATH_IMAGE031
为类别物品
Figure 124188DEST_PATH_IMAGE003
在霍夫曼树上的权值,
Figure 81779DEST_PATH_IMAGE032
为类别物品
Figure 959737DEST_PATH_IMAGE003
在对应时间周期中出现的概率,
Figure 886717DEST_PATH_IMAGE033
为类别物品
Figure 519823DEST_PATH_IMAGE003
的受欢迎度。
利用上述方式可获得所有类别物品的霍夫曼编码权值
Figure 636815DEST_PATH_IMAGE059
步骤5:基于每一个类别物品在霍夫曼树上的权值,通过霍夫曼编码算法,进行仓储数据压缩。
通过各类别物品的霍夫曼编码权值
Figure 380780DEST_PATH_IMAGE059
,利用霍夫曼编码算法(即无损变长霍夫曼编码)进行仓储数据的压缩,可获得整体仓储数据的压缩编码。这部分的数据压缩过程属于现有技术,不再赘述。压缩编码后还可以进行数据传输。
常规的智能仓储的数据管理中利用数据产生的时间序列以及数据的重复性对于数据进行压缩存储,这种方式不仅存储资源浪费,并且由于数据的冗余以及关联程度的丢失导致后续分析过程中成本增加,所以通过上述过程来实现不破坏数据之间关系的数据压缩。在仓储数据结构化处理的基础上,首先对数据进行分周期,而后对每个周期内的数据根据每个类别物品与其它类别物品之间的类别物品出现次数相关性、类别物品出现时间稳定性和类别物品数量的稳定性来进行每个类别物品与其它类别物品的相关性计算,而后通过每个类别物品的相关性进行该类别物品的受欢迎程度,最后以受欢迎程度结合无损变长编码作为权值进行整体仓储数据的压缩存储。

Claims (4)

1.一种用于智能仓储的数据管理方法,其特征在于,包括:
对获取到的仓储数据进行时间周期分区处理,得到各个时间周期内的仓储数据,所述各个时间周期内的仓储数据包括多个类别物品的数据;
对于任意一个时间周期内的仓储数据,获取每一个类别物品的数据与其他各类别物品的数据之间的整体相关性;
对每一个类别物品的数据与其他各类别物品的数据之间的整体相关性进行归一化处理,得到每一个类别物品的受欢迎度;
基于每一个类别物品在对应时间周期中出现的概率,以及受欢迎度,得到每一个类别物品在霍夫曼树上的权值;
基于每一个类别物品在霍夫曼树上的权值,通过霍夫曼编码算法,进行仓储数据压缩;
所述获取每一个类别物品的数据与其他各类别物品的数据之间的整体相关性,包括:
获取每一个类别物品的数据与其他各类别物品的数据之间的出现次数相关性、出现时间稳定性和物品数量稳定性;
根据所述出现次数相关性、出现时间稳定性和物品数量稳定性得到所述整体相关性;
所述获取每一个类别物品的数据与其他各类别物品的数据之间的出现次数相关性、出现时间稳定性和物品数量稳定性包括:
采用如下计算公式计算得到出现次数相关性:
Figure 991381DEST_PATH_IMAGE001
其中,
Figure 33286DEST_PATH_IMAGE002
为类别物品
Figure 127144DEST_PATH_IMAGE003
与类别物品
Figure 861882DEST_PATH_IMAGE004
的出现次数相关性,
Figure 142821DEST_PATH_IMAGE005
,其中
Figure 8925DEST_PATH_IMAGE006
为最大类别物品个数,
Figure DEST_PATH_IMAGE007
为在
Figure 894973DEST_PATH_IMAGE008
条件的
Figure DEST_PATH_IMAGE009
Figure 738295DEST_PATH_IMAGE010
为在该时间周期内入库订单中类别物品
Figure 772110DEST_PATH_IMAGE003
出现的次数,
Figure DEST_PATH_IMAGE011
为类别物品
Figure 93501DEST_PATH_IMAGE004
在类别物品
Figure 159022DEST_PATH_IMAGE003
出现的入库订单中出现的次数;
采用如下计算公式计算得到出现时间稳定性:
Figure 235562DEST_PATH_IMAGE012
其中,
Figure 756673DEST_PATH_IMAGE013
为类别物品
Figure 944072DEST_PATH_IMAGE003
与类别物品
Figure 867029DEST_PATH_IMAGE004
的出现时间稳定性,
Figure 114471DEST_PATH_IMAGE014
表示第
Figure 122878DEST_PATH_IMAGE015
次类别物品
Figure 848388DEST_PATH_IMAGE004
在类别物品
Figure 622922DEST_PATH_IMAGE003
出现的入库订单中的出现时间,
Figure 41265DEST_PATH_IMAGE016
表示第
Figure 271389DEST_PATH_IMAGE017
次类别物品
Figure 66170DEST_PATH_IMAGE004
在类别物品
Figure 698139DEST_PATH_IMAGE003
出现的入库订单中的出现时间,e为自然常数;
采用如下计算公式计算得到物品数量稳定性:
Figure 21804DEST_PATH_IMAGE018
其中,
Figure 4804DEST_PATH_IMAGE019
为类别物品
Figure 69187DEST_PATH_IMAGE003
与类别物品
Figure 290084DEST_PATH_IMAGE004
的物品数量稳定性,
Figure 315809DEST_PATH_IMAGE020
为在
Figure 254946DEST_PATH_IMAGE021
中的第
Figure 125950DEST_PATH_IMAGE022
次类别物品
Figure 466933DEST_PATH_IMAGE023
出现的数量,
Figure 132401DEST_PATH_IMAGE024
为在
Figure 555904DEST_PATH_IMAGE021
中的第
Figure 230599DEST_PATH_IMAGE022
次类别物品
Figure 691667DEST_PATH_IMAGE004
出现的数量,
Figure 793616DEST_PATH_IMAGE025
为平均稳定程度;
根据所述类别物品
Figure 707345DEST_PATH_IMAGE003
与类别物品
Figure 185731DEST_PATH_IMAGE004
的出现次数相关性、类别物品
Figure 235727DEST_PATH_IMAGE003
与类别物品
Figure 505646DEST_PATH_IMAGE004
的出现时间稳定性以及类别物品
Figure 906672DEST_PATH_IMAGE003
与类别物品
Figure 454328DEST_PATH_IMAGE004
的物品数量稳定性,采用如下计算公式得到所述类别物品
Figure 889988DEST_PATH_IMAGE003
与类别物品
Figure 333739DEST_PATH_IMAGE004
的相关性
Figure 753219DEST_PATH_IMAGE026
Figure 573408DEST_PATH_IMAGE027
所述根据所述出现次数相关性、出现时间稳定性和物品数量稳定性得到所述整体相关性包括:
采用如下计算公式得到每一个类别物品的数据与其他各类别物品的数据之间的整体相关性:
Figure 597995DEST_PATH_IMAGE028
其中,
Figure 944139DEST_PATH_IMAGE029
为类别物品
Figure 319756DEST_PATH_IMAGE003
与其他各类别物品的数据之间的整体相关性;
所述基于每一个类别物品在对应时间周期中出现的概率,以及受欢迎度,得到每一个类别物品在霍夫曼树上的权值,包括:
每一个类别物品在霍夫曼树上的权值采用如下计算公式进行计算:
Figure 678056DEST_PATH_IMAGE030
其中,
Figure 822730DEST_PATH_IMAGE031
为类别物品
Figure 608283DEST_PATH_IMAGE003
在霍夫曼树上的权值,
Figure 205618DEST_PATH_IMAGE032
为类别物品
Figure 102030DEST_PATH_IMAGE003
在对应时间周期中出现的概率,
Figure 777510DEST_PATH_IMAGE033
为类别物品
Figure 370515DEST_PATH_IMAGE003
的受欢迎度。
2.根据权利要求1所述的用于智能仓储的数据管理方法,其特征在于,所述对获取到的仓储数据进行时间周期分区处理之前,所述数据管理方法还包括:
基于入库时间,对仓储数据进行结构化处理。
3.根据权利要求1所述的用于智能仓储的数据管理方法,其特征在于,所述对获取到的仓储数据进行时间周期分区处理,得到各个时间周期内的仓储数据,包括:
根据预先设置的初始时间周期,计算各初始时间周期内的仓储数据的信息熵,并对所有的初始时间周期内的仓储数据的信息熵进行均值计算,得到整体平均信息熵;
多次调整所述初始时间周期,得到各次调整后的初始时间周期所计算得到的整体平均信息熵;
获取最小的整体平均信息熵,确定所述最小的整体平均信息熵所对应的时间周期为最终时间周期;
对获取到的仓储数据按照所述最终时间周期进行分区处理,得到各个所述最终时间周期内的仓储数据。
4.根据权利要求3所述的用于智能仓储的数据管理方法,其特征在于,所述计算各初始时间周期内的仓储数据的信息熵,包括:
信息熵的计算公式如下:
Figure 94627DEST_PATH_IMAGE034
其中,
Figure 529150DEST_PATH_IMAGE035
为信息熵,
Figure 382837DEST_PATH_IMAGE036
为在第
Figure 775772DEST_PATH_IMAGE037
个时间周期内所有入库订单上第
Figure 79190DEST_PATH_IMAGE038
个文本
Figure 317404DEST_PATH_IMAGE039
出现的概率。
CN202211230866.2A 2022-10-10 2022-10-10 用于智能仓储的数据管理方法 Active CN115292392B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211230866.2A CN115292392B (zh) 2022-10-10 2022-10-10 用于智能仓储的数据管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211230866.2A CN115292392B (zh) 2022-10-10 2022-10-10 用于智能仓储的数据管理方法

Publications (2)

Publication Number Publication Date
CN115292392A CN115292392A (zh) 2022-11-04
CN115292392B true CN115292392B (zh) 2022-12-16

Family

ID=83819396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211230866.2A Active CN115292392B (zh) 2022-10-10 2022-10-10 用于智能仓储的数据管理方法

Country Status (1)

Country Link
CN (1) CN115292392B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108255888A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 一种数据处理方法及系统
US20200125970A1 (en) * 2017-02-09 2020-04-23 Mitsubishi Electric Corporation Defect factor estimation device and defect factor estimation method

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822570B (zh) * 2021-09-20 2023-09-26 北京瀚博网络科技有限公司 一种基于大数据分析的企业生产数据存储方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108255888A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 一种数据处理方法及系统
US20200125970A1 (en) * 2017-02-09 2020-04-23 Mitsubishi Electric Corporation Defect factor estimation device and defect factor estimation method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Compressing Tabular Data via Pairwise Dependencies》;Dmitri S. Pavlichin 等;《2017 Data Compression Conference (DCC)》;20171231;全文 *
《基于移动PDM系统的数据压缩算法的选择研究》;肖云楼 等;《自动化与仪表》;20170228;全文 *

Also Published As

Publication number Publication date
CN115292392A (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
US8908978B2 (en) Signature representation of data having high dimensionality
US9652521B2 (en) Compressing massive relational data
CN105144157A (zh) 用于压缩数据库中的数据的系统和方法
CN114245896A (zh) 向量查询方法、装置、电子设备及存储介质
CN112116436A (zh) 一种智能推荐方法、装置、计算机设备及可读存储介质
CN115543946A (zh) 一种金融大数据优化存储方法
Matusevych et al. Hokusai-sketching streams in real time
CN115858476A (zh) 用于web开发系统中自定义表单获取数据的高效存储方法
CN116861041A (zh) 一种电子公文处理方法及系统
CN115292392B (zh) 用于智能仓储的数据管理方法
CN108255411A (zh) 一种数据压缩方法与装置和数据解压缩方法与装置
Shrividhiya et al. Robust data compression algorithm utilizing LZW framework based on huffman technique
US8805090B1 (en) Matching based upon rank
CN110032432B (zh) 实例的压缩方法和装置、实例的解压方法和装置
CN116318172A (zh) 一种设计仿真软件数据自适应压缩方法
Levenets The Basic principles and methods of the system approach to compression of telemetry data
US8918374B1 (en) Compression of relational table data files
Murugesan et al. Evaluate database compression performance and parallel backup
Kang et al. A framework for area-efficient multi-task BERT execution on ReRAM-based accelerators
CN113157987A (zh) 用于机器学习算法的数据预处理方法及相关设备
Bae et al. Dc-ac: Deep correlation-based adaptive compression of feature map planes in convolutional neural networks
CN111275184B (zh) 一种实现神经网络压缩的方法、系统、装置和存储介质
CN117375631B (zh) 一种基于哈夫曼编码的快速编码方法
CN116738009B (zh) 一种对数据进行归档回溯的方法
CN115934730B (zh) 数据处理方法和装置、介质和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: Room 2152, No. 1558, Diegang Road, Sanxing Town, Haimen District, Nantong City, Jiangsu Province, 226100

Patentee after: Nantong Haijun Digital Technology Co.,Ltd.

Address before: Room 2152, No. 1558, Diegang Road, Sanxing Town, Haimen District, Nantong City, Jiangsu Province, 226000

Patentee before: Nantong Sea Falcon Information Technology Co.,Ltd.

CP03 Change of name, title or address