CN115292392B

CN115292392B - 用于智能仓储的数据管理方法

Info

Publication number: CN115292392B
Application number: CN202211230866.2A
Authority: CN
Inventors: 赵小梅
Original assignee: Nantong Sea Falcon Information Technology Co ltd
Current assignee: Nantong Haijun Digital Technology Co ltd
Priority date: 2022-10-10
Filing date: 2022-10-10
Publication date: 2022-12-16
Anticipated expiration: 2042-10-10
Also published as: CN115292392A

Abstract

本发明涉及电数字数据处理技术领域，具体涉及一种用于智能仓储的数据管理方法，该数据管理方法可以配置为一种特别适用于特定功能，具体是仓储管理中的数字数据处理设备或者数据处理方法，获取每一个类别物品的数据与其他各类别物品的数据之间的整体相关性，归一化处理后得到每一个类别物品的受欢迎度，结合类别物品在对应时间周期中出现的概率得到霍夫曼树权值，最后通过霍夫曼编码算法进行仓储数据压缩。利用仓储数据不同类别物品的受欢迎度获取压缩权值，而受欢迎度由不同类别物品与其他各类别物品之间的相关性决定，后续进行数据分析时解码需要的时间越短，越便捷，可以大幅度的减少数据分析前的处理工作。

Description

用于智能仓储的数据管理方法

技术领域

本发明涉及电数字数据处理技术领域，具体涉及一种用于智能仓储的数据管理方法。

背景技术

随着科技的发展，各种行业愈来愈依赖智能化和数字化，仓储行业就是其中之一。而在进行仓储数据管理的时候，其大多数据为记录流水的文本日志数据，但是仓储行业每天的日志数据十分巨大，在进行数据存储的时候需要占用相当多的资源。

常规的在对仓储数据进行处理时，对不同重要程度的数据采用固定的、相同的数据处理方式进行压缩，没有对数据进行区分，没有数据之间的重点区分，在后续需要数据的分析的时候，进行解码过程需要较长的时间，而且在数据分析的时候，因为不同重要程度的数据可能码元相似，分析代价较大。

发明内容

有鉴于此，为了解决上述技术问题，本发明提供一种用于智能仓储的数据管理方法。

一种用于智能仓储的数据管理方法，包括：

对获取到的仓储数据进行时间周期分区处理，得到各个时间周期内的仓储数据，所述各个时间周期内的仓储数据包括多个类别物品的数据；

对于任意一个时间周期内的仓储数据，获取每一个类别物品的数据与其他各类别物品的数据之间的整体相关性；

对每一个类别物品的数据与其他各类别物品的数据之间的整体相关性进行归一化处理，得到每一个类别物品的受欢迎度；

基于每一个类别物品在对应时间周期中出现的概率，以及受欢迎度，得到每一个类别物品在霍夫曼树上的权值；

基于每一个类别物品在霍夫曼树上的权值，通过霍夫曼编码算法，进行仓储数据压缩；

所述获取每一个类别物品的数据与其他各类别物品的数据之间的整体相关性，包括：

获取每一个类别物品的数据与其他各类别物品的数据之间的出现次数相关性、出现时间稳定性和物品数量稳定性；

根据所述出现次数相关性、出现时间稳定性和物品数量稳定性得到所述整体相关性；

所述获取每一个类别物品的数据与其他各类别物品的数据之间的出现次数相关性、出现时间稳定性和物品数量稳定性包括：

采用如下计算公式计算得到出现次数相关性：

其中，

为类别物品

与类别物品

的出现次数相关性，

，其中

为最大类别物品个数，

为在

条件的

，

为在该时间周期内入库订单中类别物品

出现的次数，

为类别物品

在类别物品

出现的入库订单中出现的次数；

采用如下计算公式计算得到出现时间稳定性：

其中，

为类别物品

与类别物品

的出现时间稳定性，

表示第

次类别物品

在类别物品

出现的入库订单中的出现时间，

表示第

次类别物品

在类别物品

出现的入库订单中的出现时间，e为自然常数；

采用如下计算公式计算得到物品数量稳定性：

其中，

为类别物品

与类别物品

的物品数量稳定性，

为在

中的第

次类别物品

出现的数量，

为在

中的第

次类别物品

出现的数量，

为平均稳定程度；

根据所述类别物品

与类别物品

的出现次数相关性、类别物品

与类别物品

的出现时间稳定性以及类别物品

与类别物品

的物品数量稳定性，采用如下计算公式得到所述类别物品

与类别物品

的相关性

：

所述根据所述出现次数相关性、出现时间稳定性和物品数量稳定性得到所述整体相关性包括：

采用如下计算公式得到每一个类别物品的数据与其他各类别物品的数据之间的整体相关性：

其中，

为类别物品

与其他各类别物品的数据之间的整体相关性；

所述基于每一个类别物品在对应时间周期中出现的概率，以及受欢迎度，得到每一个类别物品在霍夫曼树上的权值，包括：

每一个类别物品在霍夫曼树上的权值采用如下计算公式进行计算：

其中，

为类别物品

在霍夫曼树上的权值，

为类别物品

在对应时间周期中出现的概率，

为类别物品

的受欢迎度。

所述对获取到的仓储数据进行时间周期分区处理之前，所述数据管理方法还包括：

基于入库时间，对仓储数据进行结构化处理。

所述对获取到的仓储数据进行时间周期分区处理，得到各个时间周期内的仓储数据，包括：

根据预先设置的初始时间周期，计算各初始时间周期内的仓储数据的信息熵，并对所有的初始时间周期内的仓储数据的信息熵进行均值计算，得到整体平均信息熵；

多次调整所述初始时间周期，得到各次调整后的初始时间周期所计算得到的整体平均信息熵；

获取最小的整体平均信息熵，确定所述最小的整体平均信息熵所对应的时间周期为最终时间周期；

对获取到的仓储数据按照所述最终时间周期进行分区处理，得到各个所述最终时间周期内的仓储数据。

所述计算各初始时间周期内的仓储数据的信息熵，包括：

信息熵的计算公式如下：

其中，

为信息熵，

为在第

个时间周期内所有入库订单上第

个文本

出现的概率。

本发明实施例至少具有如下有益效果：根据每一个类别物品的数据与其他各类别物品的数据之间的整体相关性，确定每一个类别物品的受欢迎度，然后结合类别物品在对应时间周期中出现的概率，得到每一个类别物品在霍夫曼树上的权值，根据每一个类别物品在霍夫曼树上的权值，通过霍夫曼编码算法进行仓储数据压缩，突出每个类别物品的受欢迎度，能够根据不同类别物品的数据的重要程度确定霍夫曼树上的对应权值，实现不同相关性，即重要程度的数据采用不同的数据处理方式进行压缩，实现某类别物品与其余类别物品的相关性越强，其编码码长越短，后续进行数据分析时解码需要的时间越短，越便捷，因此，在后续的仓储数据分析的过程中，可以大幅度的减少数据分析前的处理工作。

附图说明

图1是本发明提供的一种用于智能仓储的数据管理方法的流程图。

具体实施方式

下面结合附图具体的说明本发明所提供的一种用于智能仓储的数据管理方法的具体方案。本发明提供的一种用于智能仓储的数据管理方法的应用场景为：在智能仓储对于各种物品的调度（比如入库）过程中，物品调度量较大的情况下会产生大量的调度数据的堆积，对于资源的占用以及数据的分析有着较大程度的影响，所以通过数据之间的特征进行每个类别物品的数据的受欢迎度的分析，而后通过每个类别物品的数据的受欢迎度的分析结果对所有数据进行压缩。

请参阅图1，其示出了本发明一个实施例提供的一种用于智能仓储的数据管理方法的步骤流程图，该方法包括以下步骤：

步骤1：对获取到的仓储数据进行时间周期分区处理，得到各个时间周期内的仓储数据，所述各个时间周期内的仓储数据包括多个类别物品的数据。

作为一个具体实施方式，在步骤1之前，该数据管理方法还包括对仓储数据进行结构化处理的过程，本实施例中，获得到的历史仓储数据的方法为通过历史流水日志信息进行获得，而后基于入库时间对仓储数据进行结构化处理，具体结构化数据为以含有类别物品的出库入库时间，出库入库数量的出库入库订单为基础，利用时间顺序进行归纳结构化。应当理解，数据结构化能够更加便于后续处理，作为其他的实施方式，若获取到的仓储数据中原本就包含有时间信息，比如入库时间信息，则无需进行上述中的数据结构化过程。

本实施例中，仓储数据为入库订单信息。

对获取到的仓储数据进行时间周期分区处理，得到各个时间周期内的仓储数据，各个时间周期内的仓储数据包括多个类别物品的数据。时间周期分区处理可以采用固定时间周期的方式，即时间周期是事先确定好的，比如10分钟，根据事先确定好的时间周期对获取到的仓储数据进行时间周期分区处理，得到各个时间周期内的仓储数据。作为一个具体实施方式，由于上述中获得了所有物品类别的入库订单信息，其数据量过于巨大，在利用变长编码进行无损压缩的时候随着数据量的增多其码长会越来越长，压缩率相应不够，所以需要利用数据的重复性进行整体数据的周期分区，进行每个周期区间的独立压缩。相应地，预先设置有一个初始时间周期，比如10分钟。因为订单数据为文本数据，所以利用信息熵进行整体数据的周期分区，具体为：根据预先设置的初始时间周期，计算各初始时间周期内的仓储数据的信息熵，然后对所有的初始时间周期内的仓储数据的信息熵进行均值计算，得到整体平均信息熵。

信息熵的计算公式如下：

其中，

为信息熵，

为在第

个时间周期内所有入库订单上第

个文本

出现的概率。其中，文本是指：本实施例中，入库订单数据为日志数据，而日志数据本质为文本数据，此处的文本为在第

个时间周期内，所有入库订单中第

个不重复的文本字符。

以第

个初始时间周期为例（

其中

为最大周期个数），第

个初始时间周期的仓储数据的信息熵

（上标10表示初始时间周期为10分钟）的计算公式为：

整体平均信息熵

的计算方式如下所示：

公式逻辑为：每个初始时间周期内的文本信息的相似度越高，

则越小。

然后多次调整初始时间周期，作为一个具体实施方式，以每次调整后的初始时间周期为初始时间周期的u倍，u为大于或者等于1的数值，并且u小于一定值。通过上述计算过程，得到各次调整后的初始时间周期所计算得到的整体平均信息熵。

获取最小的整体平均信息熵，确定最小的整体平均信息熵所对应的时间周期为最终时间周期。在最终时间周期上进行整体数据的分区压缩压缩时可达到较大的压缩程度。最后对获取到的仓储数据按照得到的最终时间周期进行分区处理，得到各个最终时间周期内的仓储数据。

步骤2：对于任意一个时间周期内的仓储数据，获取每一个类别物品的数据与其他各类别物品的数据之间的整体相关性。

由于各个时间周期内的仓储数据的处理过程相同，本实施例以任意一个时间周期内的仓储数据为例进行说明。对于任意一个时间周期内的仓储数据，获取每一个类别物品的数据与其他各类别物品的数据之间的整体相关性。

本实施例中，通过对每个类别物品与其它类别物品出现的条件限制、出现的时间间隔以及出现的数量差异来对每个类别物品的整体相关性进行量化，而后通过相关性计算每个物品的受欢迎度，以此作为权值进行后续的压缩编码。

作为一个具体实施方式，以下给出整体相关性的一种具体获取过程，包括：

获取每一个类别物品的数据与其他各类别物品的数据之间的出现次数相关性、出现时间稳定性和物品数量稳定性；根据出现次数相关性、出现时间稳定性和物品数量稳定性得到整体相关性。本实施例对类别物品的整体相关性进行计算时通过类别物品出现次数相关性作为主体，通过相关类别物品的时间稳定性和相关类别物品的数量稳定性作为权值进行量化不同类别物品的整体相关性的计算具有更高的鲁棒性，对于少数偏差的容错性更高，用来描述不同类别物品的整体相关性更见准确。

其中，获取每一个类别物品的数据与其他各类别物品的数据之间的出现次数相关性、出现时间稳定性和物品数量稳定性包括：

以类别物品

为例，其他各类别物品为类别物品

。采用如下计算公式计算得到出现次数相关性：

其中，

为类别物品

与类别物品

的出现次数相关性，

，其中

为最大类别物品个数，

为在

条件的

，

为在该时间周期内入库订单中类别物品

出现的次数，

为类别物品

在类别物品

出现的入库订单中出现的次数。由于类别物品

与类别物品

不是同一类别物品，即i不等于

，那么

。

该公式逻辑：

越大，说明类别物品

在类别物品

出现的入库订单上出现的次数越多，即表明二者相关性越强。

采用如下计算公式计算得到出现时间稳定性：

其中，

为类别物品

与类别物品

的出现时间稳定性，

表示第

次类别物品

在类别物品

出现的入库订单中的出现时间，

表示第

次类别物品

在类别物品

出现的入库订单中的出现时间，e为自然常数。

该公式逻辑：

越大，说明

次出现过程中每相邻两次出现的时间的差异性较小，即

值较小，说明每次单个类别物品

在类别物品

出现的入库订单的条件上出现时间越稳定，按照经验，出现时间越稳定时，证明其二者关联性越高。

采用如下计算公式计算得到物品数量稳定性：

其中，

为类别物品

与类别物品

的物品数量稳定性，

为在

中的第

次类别物品

出现的数量，

为在

中的第

次（与前者同一次）类别物品

出现的数量，

为平均稳定程度。

上述中，

和

分别表示的是数量，为了便于理解，以下举例说明：香蕉和苹果为两个类别物品，现在共有100个订单，而在含有苹果订单为主的或者某个其他条件的订单上出现了50次香蕉，即二者在一定条件下出现在了同一个订单上，共有50次，其中第

次订单上苹果的数量为100吨，而香蕉的数量为10吨。

该公式逻辑：因为类别物品入库的数量无法进行差异值计算（每次类别物品

与单个类别物品

的数量可能存在不同的情况，所以利用减法区计算差异值容易导致数据偏差太大），所以利用第

次单个类别物品

与类别物品

数量的比值进行稳定程度的量化，而

越大，证明单个类别物品

与类别物品

数量的比值与整体平均比值比较接近，即说明每次入库的单个类别物品

与类别物品

数量比例差距不大，即类别物品

与类别物品

的关联性越强。

然后，根据类别物品

与类别物品

的出现次数相关性、类别物品

与类别物品

的出现时间稳定性以及类别物品

与类别物品

的物品数量稳定性，采用如下计算公式得到类别物品

与类别物品

的相关性

：

该公式逻辑：在单个类别物品

与类别物品

出现次数相关性

的基础上，利用

作为权值，进行单个类别物品

与类别物品

的相关性

。

在

出现了足够的数量才有者入库相关性的计算，如果

出现了很多次但是

没有在

出现的情况下出现，则说明二者没有相关性，只有

在有

出现的情况出现，才有可能证明二者存在联系性，而后通过实际经验，每次二者出现的时间越规律，出现时数量比例越稳定，说明二者越相关。

接着利用上述方法计算每一个类别物品对于类别物品

的相关性计算，获得所有

个类别物品对于类别物品

的整体相关性，计算公式如下：

其中，

为类别物品

与其他各类别物品的数据之间的整体相关性。

该公式逻辑：由于不考虑类别物品

与其自身的相关程度，所以利用分段函数进行整体函数的表达。

通过上述过程，得到每一个类别物品的数据与其他各类别物品的数据之间的整体相关性。

步骤3：对每一个类别物品的数据与其他各类别物品的数据之间的整体相关性进行归一化处理，得到每一个类别物品的受欢迎度。

对每一个类别物品的数据与其他各类别物品的数据之间的整体相关性进行归一化处理，得到的归一化后的数值，分别为每一个类别物品的受欢迎度。本实施例中，采用如下计算公式进行归一化：

式中：

表示所有整体相关性中最大的整体相关性，

表示所有整体相关性中最小的整体相关性。

为类别物品

对应的受欢迎度。

该公式逻辑：因为后续中需要利用受欢迎度作为变长编码的权值，所以需要对类别物品

的整体相关性进行归一化，使其落在0到1区间内，方便后续计算。

值越大，则说明类别物品

与其余所有的类别物品的相关性越高，即表明它越受欢迎。

利用上述方法对所有的类别的物品进行受欢迎度计算，可获得所有类别物品的受欢迎度

。

步骤4：基于每一个类别物品在对应时间周期中出现的概率，以及受欢迎度，得到每一个类别物品在霍夫曼树上的权值。

本实施例中，每一个类别物品在霍夫曼树上的权值采用如下计算公式进行计算：

其中，

为类别物品

在霍夫曼树上的权值，

为类别物品

在对应时间周期中出现的概率，

为类别物品

的受欢迎度。

利用上述方式可获得所有类别物品的霍夫曼编码权值

。

步骤5：基于每一个类别物品在霍夫曼树上的权值，通过霍夫曼编码算法，进行仓储数据压缩。

通过各类别物品的霍夫曼编码权值

，利用霍夫曼编码算法（即无损变长霍夫曼编码）进行仓储数据的压缩，可获得整体仓储数据的压缩编码。这部分的数据压缩过程属于现有技术，不再赘述。压缩编码后还可以进行数据传输。

常规的智能仓储的数据管理中利用数据产生的时间序列以及数据的重复性对于数据进行压缩存储，这种方式不仅存储资源浪费，并且由于数据的冗余以及关联程度的丢失导致后续分析过程中成本增加，所以通过上述过程来实现不破坏数据之间关系的数据压缩。在仓储数据结构化处理的基础上，首先对数据进行分周期，而后对每个周期内的数据根据每个类别物品与其它类别物品之间的类别物品出现次数相关性、类别物品出现时间稳定性和类别物品数量的稳定性来进行每个类别物品与其它类别物品的相关性计算，而后通过每个类别物品的相关性进行该类别物品的受欢迎程度，最后以受欢迎程度结合无损变长编码作为权值进行整体仓储数据的压缩存储。