CN116975626B

CN116975626B - 一种供应链数据模型的自动更新方法及装置

Info

Publication number: CN116975626B
Application number: CN202310685886.7A
Authority: CN
Inventors: 周俊; 朱海洋; 陈为; 肖杰; 胡健; 陈晓丰; 季永炜; 夏祯锋; 童高强
Original assignee: Products Zhongda Digital Technology Co ltd; Zhejiang University ZJU
Current assignee: Products Zhongda Digital Technology Co ltd; Zhejiang University ZJU
Priority date: 2023-06-09
Filing date: 2023-06-09
Publication date: 2024-04-19
Anticipated expiration: 2043-06-09
Also published as: CN116975626A

Abstract

本说明书实施例提供一种供应链数据模型的自动更新方法，先获取数据总集，并从中提取出若干数据子集，得到子集集合。之后，针对该子集集合迭代执行多轮子集选取，其中单轮子集选取根据基于数据子集的信息熵与数据总集的总信息熵所确定的信息损失，选取本轮数据子集。在多轮子集选取结束后，将选取出的各数据子集中对应信息熵最大的数据子集确定为最终数据子集，如此选取的数据子集保留了供应链数据集的信息，从而其最具有代表性。最后，通过将选取出的最具有代表性的数据子集输入AutoML工具得到一个初始供应链数据模型，接着再利用数据总集对其进行微调，得到最终使用的目标供应链数据模型，由此可以极大地缩短模型训练时间，进而可以降低训练成本。

Description

一种供应链数据模型的自动更新方法及装置

技术领域

本说明书一个或多个实施例涉及机器学习领域，尤其涉及一种供应链数据模型的自动更新方法及装置。

背景技术

自动机器学习(AutoML)的目标是通过自动化一些通用步骤(如数据预处理、模型选择和调整超参数)，以简化机器学习(ML)模型的生成过程。AutoML的显著特点是尽量避免人工设定超参数，而是采用某种学习机制自动调节这些超参数。随着时间的推移，AutoML技术变得越来越流行，因为它们有助于简化繁琐而困难的ML模型开发任务，甚至使非专业用户能够为其手头的数据集建立准确而稳健的模型。大型供应链集成服务企业集团在推进数字化转型赋能管理提升、业务发展的过程中，数据开发工程师为了实现供应链数据模型的自动开发，通常采用AutoML技术在数以百万计的ML流程配置之间进行比较，并输出最佳流程，通常包括数据预处理、特征工程、模型选择和超参数优化等。然而，当用于训练模型的供应链数据集非常庞大时，每个流程配置的执行时间也会变得更长，这可能会增加几个小时甚至几天的搜索时间。因此，在处理大型供应链数据集时，基于云计算架构的AutoML服务使用性能更优的存储资源(如存储空间更大的内存)和计算资源(如计算性能更优更多的GPU)能提高效率，但这也会使得使用成本显著增加。

发明内容

本说明书一个或多个实施例描述了一种供应链数据模型的自动更新方法，可以降低模型的训练成本。

第一方面，提供了一种供应链数据模型的自动更新方法，包括：

获取供应链数据集，其中包括L个供应链数据，每个供应链数据包括K-1个数据特征和1个标定标签；其中，L和K均为正整数；

将所述供应链数据集排布为L行K列的数据阵列，其中的L行分别对应于L个供应链数据，K列分别对应于K-1个数据特征和1个标定标签；

针对所述数据阵列重复执行多次行列抽取，并基于每次行列抽取得到的各行和各列，形成1个数据子集；如此得到N个数据子集；所述各列至少包括对应于标定标签的列；N为正整数；

以基于所述N个数据子集形成的集合作为初代子集集合执行多轮迭代，其中，任意的第t轮迭代包括：

从当代子集集合中抽样若干初始数据子集，针对每个初始数据子集，基于所述数据阵列，随机地对其中的行或列进行替换，得到更新数据子集；将得到的各个更新数据子集添加到当代子集集合中，得到中间子集集合；

从所述中间子集集合中抽样若干子集对，针对每个子集对，在其中的两个数据子集之间进行行或列互换，得到更新子集对；将各个更新子集对中的两个更新子集添加到所述中间子集合，得到候选子集合；

对于所述候选子集合中各候选数据子集，基于对应于所述各候选数据子集的各个信息熵与对应于所述供应链数据集的总信息熵，确定对应于所述各候选数据子集的各个信息损失；

基于所述各个信息损失，从所述候选子集合中选取一部分下代数据子集，并按照预定概率，从所述候选子集合的各剩余数据子集中选取另一部分下代数据子集；所述一部分下代数据子集和另一部分下代数据子集形成下代子集集合；

从所述多轮迭代后得到的下代子集集合中，选取对应信息熵最大的数据子集作为最终数据子集；

将所述最终数据子集输入自动机器学习AutoML工具，得到初始供应链数据模型；

将所述供应链数据集和所述初始供应链数据模型，再次输入所述AutoML工具，得到目标供应链数据模型。

第二方面，提供了一种供应链数据模型的自动更新装置，包括：

获取单元，用于获取供应链数据集，其中包括L个供应链数据，每个供应链数据包括K-1个数据特征和1个标定标签；其中，L和K均为正整数；

排布单元，用于将所述供应链数据集排布为L行K列的数据阵列，其中的L行分别对应于L个供应链数据，K列分别对应于K-1个数据特征和1个标定标签；

抽取单元，用于针对所述数据阵列重复执行多次行列抽取，并基于每次行列抽取得到的各行和各列，形成1个数据子集；如此得到N个数据子集；所述各列至少包括对应于标定标签的列；N为正整数；

执行单元，用于以基于所述N个数据子集形成的集合作为初代子集集合执行多轮迭代；所述执行单元包括：

替换子模块，用于从当代子集集合中抽样若干初始数据子集，针对每个初始数据子集，基于所述数据阵列，随机地对其中的行或列进行替换，得到更新数据子集；将得到的各个更新数据子集添加到当代子集集合中，得到中间子集集合；

互换子模块，用于从所述中间子集集合中抽样若干子集对，针对每个子集对，在其中的两个数据子集之间进行行或列互换，得到更新子集对；将各个更新子集对中的两个更新子集添加到所述中间子集合，得到候选子集合；

确定子模块，用于对于所述候选子集合中各候选数据子集，基于对应于所述各候选数据子集的各个信息熵与对应于所述供应链数据集的总信息熵，确定对应于所述各候选数据子集的各个信息损失；

选取子模块，用于基于所述各个信息损失，从所述候选子集合中选取一部分下代数据子集，并按照预定概率，从所述候选子集合的各剩余数据子集中选取另一部分下代数据子集；所述一部分下代数据子集和另一部分下代数据子集形成下代子集集合；

选取单元，用于从所述多轮迭代后得到的下代子集集合中，选取对应信息熵最大的数据子集作为最终数据子集；

输入单元，用于将所述最终数据子集输入自动机器学习AutoML工具，得到初始供应链数据模型；

所述输入单元，还用于将所述供应链数据集和所述初始供应链数据模型，再次输入所述AutoML工具，得到目标供应链数据模型。

本说明书一个或多个实施例提供的一种供应链数据模型的自动更新方法，先获取供应链数据集(以下称数据总集)，并从中提取出若干数据子集，得到子集集合。之后，针对该子集集合迭代执行多轮子集选取，其中单轮子集选取根据基于数据子集的信息熵与数据总集的总信息熵所确定的信息损失，选取本轮数据子集。在多轮子集选取结束后，将选取出的各数据子集中对应信息熵最大的数据子集确定为最终数据子集，如此选取的数据子集保留了供应链数据集的信息，从而其最具有代表性。最后，通过将选取出的最具有代表性的数据子集输入AutoML工具得到一个初始供应链数据模型，接着再利用数据总集对其进行微调，得到最终使用的目标供应链数据模型，由此可以极大地缩短模型训练时间，进而可以降低训练成本。

附图说明

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书披露的一个实施例的实施场景示意图；

图2示出根据一个实施例的一种供应链数据模型的自动更新方法流程图；

图3a示出在一个例子中的行互换示意图；

图3b示出行互换结果示意图；

图4a示出在一个例子中的列互换示意图；

图4b示出列互换结果示意图；

图5示出根据一个实施例的一种供应链数据模型的自动更新装置示意图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

在大型供应链集成服务企业集团的典型AutoML场景中，数据开发工程师希望建立一个ML模型(即供应链数据模型)来预测供应链数据集的某个目标y的值。为了提升模型构建效率，数据开发工程师会使用各种AutoML工具，它可以智能地扫描大量的ML流程与配置。比如，采用A(D,y)->M^*来表示在供应链数据集D上应用AutoML工具A预测目标y的情况，其中M^*是A能找到的最佳配置(比如最佳的模型和最佳的参数)。一般来说，供应链数据集规模越大，AutoML就需要花费更多的时间来找到好的配置。

本方案的发明构思是对供应链数据集进行优化，以减少AutoML的计算时间，同时保留输出模型的性能。具体来说，将A生成M^*的时间表示为T ime(M^*)，将最终的模型精度表示为Acc(M^*)。那么本方案的目标就是，生成一个模型配置M_sub，其中，Time(M_sub)<<Time(M^*)，但Acc(M_sub)≈Acc(M^*)。

图1为本说明书披露的一个实施例的实施场景示意图。图1中，模型训练系统包括，数据子集产生装置、模型生成装置和微调装置。

图1中，先获取供应链数据集，并从中提取出若干数据子集，得到子集集合。之后，可以将该子集集合输入数据子集产生装置，以利用该数据子集产生装置，针对该子集集合迭代执行多轮子集选取，其中单轮子集选取根据基于数据子集的信息熵与数据总集的总信息熵所确定的信息损失，选取本轮数据子集。在多轮子集选取结束后，将选取出的各数据子集中对应信息熵最大的数据子集确定为最终数据子集。

接着，可以将该最终数据子集输入模型生成装置，以利用该模型生成装置生成初始供应链数据模型。

最后，可以将该初始供应链数据模型输入微调装置，以利用该微调装置基于供应链数据集，对初始供应链数据模型进行微调，进而得到最终使用的目标供应链数据模型。

图2示出根据一个实施例的一种供应链数据模型的自动更新方法流程图，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图2所示，该方法可以包括如下步骤。

步骤S202，获取供应链数据集，其中包括L个供应链数据，每个供应链数据包括K-1个数据特征和1个标定标签。

其中，L和K均为正整数。

上述K-1个数据特征可以包括，库存特征、生产特征和销售特征等。上述标定标签用于指示对应供应链数据的销量(一种回归值)；或者，上述标定标签用于指示对应供应链数据是否具有风险(一种分类值)。

具体地，上述库存特征包括以下中的至少一项：仓库所在省市区、仓储运输资源、库房、库位、物料类别、物料名称、规格型号、计量单位、当前库存数、历史最高库存数、历史最低库存数、平均库存时间、库存同比以及库存环比等。

上述生产特征包括以下中的至少一项：生产厂商、生产厂商所在省市区、物料类别、物料名称、规格型号、计量单位、产能、日产量、生产周期、本月累计产量、本年累计产量、产量同比以及产量环比等。

所述销售特征包括以下中的至少一项：合同编号、合同数量、合同时间、客户名称、客户所在省市区、客户信用等级、客户授信额度、订单编号、订单数量、订单时间、提货单编号、提货单数量、提货单时间、物料类别、物料名称、规格型号、计量单位、本月累计出库数、本年累计出库数、本月累计开票数、本年累计开票数、本月资金回笼数、本年资金回笼数、本月应收账款、本年应收账款、销售同比以及销售环比等。

步骤S204，将供应链数据集排布为L行K列的数据阵列，其中的L行分别对应于L个供应链数据，K列分别对应于K-1个数据特征和1个标定标签。

在一个实施例中，可以将上述供应链数据集或者数据阵列表示为：D＝{R＝(1,2,3,…,L)；C＝(1,2,3,…,K)}，其中，R为总行编号集合，C为总列编号集合。其中第K列为对应于标定标签的列(简称标签列)。

步骤S206，针对上述L行K列的数据阵列重复执行多次行列抽取，并基于每次行列抽取得到的各行和各列，形成1个数据子集；如此得到N个数据子集。

其中，N为正整数。

需要说明，上述每次行列抽取所抽取的各列至少包括标签列。

以L＝10，K＝5为例来说，即上述数据阵列的大小为：10×5，从而D＝{R＝(1,2,3,4,5,6,7,8,9,10)；C＝(1,2,3,4,5)}。

若第5列为标签列，那么抽取的两个5×3的数据子集可以为：d1＝{r1＝(1,2,3,7,8)；c1＝(1,4,5)}；d2＝{r2＝(4,5,7,9,10)；c2＝(2,3,5)}。

步骤S208，对基于N个数据子集形成的初代子集集合执行多轮迭代，其中，任意的第t(t为正整数)轮迭代包括：

步骤S2082，从当代子集集合中抽样若干初始数据子集，针对每个初始数据子集，基于上述数据阵列，随机地对其中的行或列进行替换，得到更新数据子集，将得到的各个更新数据子集添加到当代子集集合中，得到中间子集集合。

应理解，在第t轮迭代为首轮迭代时，上述当代子集集合为上述初代子集集合。在第t轮迭代为非首轮迭代时，上述当代子集集合为在第t-1轮迭代确定的下代子集集合。

在一个实施例中，针对每个初始数据子集中的行进行替换包括：将对应于初始数据子集的初始行编号集合中的若干元素，分别替换为总行编号集合中与其不同的其它行编号，得到更新行编号集合。

以初始数据子集为d1为例来说，可以将r1＝(1,2,3,7,8)中的若干行编号各自分别替换为r＝(4,5,6,9,10)中的行编号。比如，更新行编号集合r1′＝(1,5,3,9,8)。

同理，针对每个初始数据子集中的列进行替换包括：将对应于初始数据子集的初始列编号集合中的若干元素，分别替换为总列编号集合中与其不同的其它列编号，得到更新列编号集合。

还以初始的数据子集为d1为例来说，可以将c1＝(1,4,5)中的若干列编号各自分别替换为：c＝(2,3)中的列编号。比如，更新列编号集合c1′＝(1,2,5)。

需要说明，在本说明书实施例中，初始数据子集中可替换的列不包括标签列。也即前述例子中，c1＝(1,4,5)中的5不能被替换。

在针对某个初始数据子集中的行进行替换时，可以基于更新行编号集合以及初始列编号集合，确定该初始数据子集对应的更新数据子集；或者，在针对某个初始数据子集中的列进行替换时，可以基于更新列编号集合以及初始行编号集合，确定该初始数据子集对应的更新数据子集。

当然，在实际应用中，针对每个初始数据子集，也可以通过同时替换其中的行和列，得到对应的更新数据子集，本说明书对此不作限定。

步骤S2084，从中间子集集合中抽样若干子集对，针对每个子集对，在其中的两个数据子集之间进行行或列互换，得到更新子集对，将各个更新子集对中的两个更新子集添加到中间子集合，得到候选子集合。

在一个实施例中，在每个子集对的两个数据子集之间进行行互换包括：对该子集对中的第一子集中的第一目标行进行切割，得到在前的第一行片段和在后的第一行片段，以及对该子集对中的第二子集中的第二目标行进行切割，得到在前的第二行片段和在后的第二行片段。对在前的第一行片段和在后的第二行片段进行拼接，得到第一更新目标行，以及对在前的第二行片段和在后的第一行片段进行拼接，得到第二更新目标行。至少基于第一更新目标行，确定第一更新子集，以及至少基于第二更新目标行，确定第二更新子集。

其中，上述第一目标行为第一子集中的任一行，第二目标行为第二子集中的任一行。

应理解，上述互换行的两个数据子集应包含相同数目的列。比如，可以针对数据子集d1和数据子集d2进行行互换。

图3a示出在一个例子中的行互换示意图。图3a中，第一目标行为数据子集1中的任一行，在针对第一目标行进行切割后，得到的在前的第一行片段通过横线标出，在后的第一行片段通过竖线标出。第二目标行为数据子集2中的任一行，在针对第二目标行进行切割后，得到的在前的第二行片段通过斜线标出，在后的第二行片段通过井格线示出。其中，第一和第二目标行包含相同的列数。

在针对图3a中的第一和第二目标行进行行互换之后，得到的第一和第二更新目标行可以参见图3b所示。

此外，上述至少基于第一更新目标行，确定第一更新子集，包括：基于第一更新目标行和第一子集中除第一目标行外的其它各行，形成第一更新子集。以及至少基于第二更新目标行，确定第二更新子集，包括：基于第二更新目标行和第二子集中除第二目标行外的其它各行，形成第二更新子集。

当然，在实际应用中，也可以针对两个数据子集进行多行互换，也就是说，上述第一目标行和第二目标行的数目为多个。应理解，在第一和第二目标行的数目为多个的情况下，可以针对第一和第二目标行两两进行组队，然后进行行互换，具体的互换方法参见上文所述，本说明书在此不复赘述。

同理，在每个子集对的两个数据子集之间进行列互换包括：对该子集对中的第一子集中的第一目标列进行切割，得到在前的第一列片段和在后的第一列片段，以及对该子集对中的第二子集中的第二目标列进行切割，得到在前的第二列片段和在后的第二列片段。对在前的第一列片段和在后的第二列片段进行拼接，得到第一更新目标列，以及对在前的第二列片段和在后的第一列片段进行拼接，得到第二更新目标列。至少基于第一更新目标列，确定第一更新子集，以及至少基于第二更新目标列，确定第二更新子集。

其中，上述第一目标列为第一子集中的任一列，第二目标列为第二子集中的任一列。

应理解，上述互换列的两个数据子集应包含相同数目的行。比如，可以针对数据子集d1和数据子集d2进行列互换。

图4a示出在一个例子中的列互换示意图。图4a中，第一目标列为数据子集1中的任一列，在针对第一目标列进行切割后，得到的在前的第一列片段通过横线标出，在后的第一列片段通过竖线标出。第二目标列为数据子集2中的任一列，在针对第二目标列进行切割后，得到的在前的第二列片段通过斜线标出，在后的第二列片段通过井格线示出。其中，第一和第二目标列包含相同的行数。

在针对图4a中的第一和第二目标列进行列互换之后，得到的第一和第二更新目标列可以参见图4b所示。

当然，在实际应用中，也可以针对两个数据子集进行多列互换，也就是说，上述第一目标列和第二目标列的数目为多个。应理解，在第一和第二目标列的数目为多个的情况下，可以针对第一和第二目标列两两进行组队，然后进行列互换，具体的互换方法参见上文所述，本说明书在此不复赘述。

或者，也可以针对两个数据子集同时进行行互换和列互换，本说明书对此不作限定。

步骤S2086，对于候选子集合中各候选数据子集，基于对应于各候选数据子集的各个信息熵与对应于供应链数据集的总信息熵，确定对应于各候选数据子集的各个信息损失。

以各候选数据子集中的任一候选数据子集(以下称目标数据子集)为例来说，与其对应的信息熵(目标信息熵)可以通过以下步骤获得：

首先，将目标数据子集排布为r行c列的子阵列，其中，r和c均为正整数，且r≤L，c≤K。

之后，对于上述子阵列中的第i(1≤i≤c)列，根据r行分别对应于第i列的r个数值各自的出现频率，计算对应于第i列的信息熵。对c列各自对应的c个信息熵求平均，得到目标信息熵。

同理，上述总信息熵可以通过以下步骤获得：

对于数据阵列中的第j(1≤j≤K)列，根据L行分别对应于第j列的L个数值各自的出现频率，计算对应于第j列的信息熵。对K列各自对应的K个信息熵求平均，得到总信息熵。

在一个更具体的实施例中，根据如下公式1计算上述总信息熵。

其中，D为供应链数据集或数据阵列，H(D)为总信息熵，D_ij为数据阵列中第i行第j列的数值或元素，L为数据阵列的总行数，K为数据阵列的总列数，P_j(D_ij)为D_ij在第j列的出现频率。

在一个例子中，将D_ij表示为v，其在第j列的出现频率可以根据公式2进行计算。

其中，P_j(v)为v在第j列的出现频率，D_kj为第j列中的第k个数值，I[D_kj＝v]表示v在第j列的出现次数，L为第j列的总数值数目。

在一个实施例中，上述确定对应于各候选数据子集的各个信息损失，包括：

对于任意的第一候选数据子集，将对应的第一信息熵与总信息熵求差，并将差值的绝对值确定为对应于第一候选数据子集的第一信息损失。

在一个更具体的实施例中，可以根据公式3确定第一候选数据子集对应的第一信息损失。

L(d[r,c])＝|H(d[r,c])-H(D)| (公式3)

其中，d[r,c]为包含r行和c列的第一候选数据子集，H(d[r,c])为该第一候选数据子集对应的第一信息熵，H(D)为总信息熵，L(d[r,c])为该第一候选数据子集对应的第一信息损失。

步骤S2088，基于各个信息损失，从候选子集合中选取一部分下代数据子集，并按照预定概率，从候选子集合的各剩余数据子集中选取另一部分下代数据子集。该一部分下代数据子集和另一部分下代数据子集形成下代子集集合。

在一个实施例中，可以按照对应的信息损失从小到大的顺序，对候选子集合中的各个数据子集进行排序。从排序后的各个数据子集中选取对应的信息损失小于预定阈值的数据子集作为一部分下代数据子集。

也即选取排序在前的各个数据子集作为一部分下代数据子集。

此外，以上述各剩余数据子集中的第一剩余数据子集为例来说，第一剩余数据子集对应的第一预定概率通过如下步骤获得：

对各剩余数据子集各自对应的信息损失求和，得到求和结果。将第一剩余数据子集对应的第一信息损失与求和结果求商，并将得到的商值确定为第一预定概率。

在一个实施例中，可以根据公式4确定第一剩余数据子集对应的第一预定概率。

其中,p(G)为第一剩余数据子集对应的第一预定概率，D_i为各剩余数据子集构成的集合，G′为各剩余数据子集中任一剩余数据子集，L()为信息损失。

应理解，下代子集集合中的子集数目与当代子集集合中的子集数目相同。

需要说明，上述多轮迭代的结束条件例如可以为迭代次数达到预定轮次。

步骤S210，从多轮迭代后得到的下代子集集合中，选取对应信息熵最大的数据子集作为最终数据子集。

应理解，该最终数据子集即为从供应链数据集中选取的最具有代表性的数据子集。

步骤S212，将最终数据子集输入自动机器学习AutoML工具，得到初始供应链数据模型。

当然，在实际应用中，还可以向AutoML工具中输入初始选定的机器学习模型(比如，树模型或者神经网络模型等等)以及训练目标(比如，预定义的损失值：0.7)。

以初始选定的机器学习模型为神经网络模型为例来说，上述初始供应链数据模型即为经过结构优化和参数调整后的神经网络模型。其中的结构优化包括但不限于网络层数的选择等等。

步骤S214，将供应链数据集和初始供应链数据模型，再次输入AutoML工具，得到目标供应链数据模型。

需要说明，这里将初始供应链数据模型再次输入AutoML工具，可以理解为是对初始供应链数据模型进行微调的过程。比如，在上述初始供应链数据模型基于神经网络模型训练得到时，这里的微调可以包括，固定神经网络模型的部分网络层的参数，然后调整其它部分网络层的参数。

应理解，在步骤S214中，还可以向AutoML工具中输入本次的训练目标，本说明书在此不复赘述。

需要说明，本说明书实施例所训练的目标供应链数据模型包括回归模型或分类模型。具体地，在供应链数据所包括的标定标签为回归值时，上述目标供应链数据模型为回归模型；而在供应链数据所包括的标定标签为分类值时，上述目标供应链数据模型为分类模型。

综合以上，本说明书一个实施例提供的一种供应链数据模型的自动更新方法，首先会从供应链数据集中选取出最具有代表性的数据子集，然后基于该数据子集，利用AutoML工具来训练最终使用的目标供应链数据模型，由此加速了AutoML工具获取最优模型的速度，并大幅度降低了计算成本，同时还尽可能地保持了模型精度。其中，可以保持模型精度的原因在于：本方案是在最具代表性的数据子集上应用AutoML工具，而非随机的数据子集上，所以精度损失较小。

此外，本方案还创新地提出了将信息熵作为衡量数据集的标准，并提供了一个快速有效的遗传算法(即上述多轮迭代的执行过程)，从而能够有效地选取出上述最具有代表性的数据子集。

最后，本方案还可以与现有最先进的AutoML工具兼容，允许数据开发工程师继续使用原有惯用的框架。

与上述一种供应链数据模型的自动更新方法对应地，本说明书一个实施例还提供的一种供应链数据模型的自动更新装置，如图5所示，该装置可以包括：

获取单元502，用于获取供应链数据集，其中包括L个供应链数据，每个供应链数据包括K-1个数据特征和1个标定标签，其中，L和K均为正整数。

排布单元504，用于将供应链数据集排布为L行K列的数据阵列，其中的L行分别对应于L个供应链数据，K列分别对应于K-1个数据特征和1个标定标签。

抽取单元506，用于针对上述数据阵列重复执行多次行列抽取，并基于每次行列抽取得到的各行和各列，形成1个数据子集，如此得到N个数据子集。每个行列抽取的各列至少包括对应于标定标签的列，N为正整数。

执行单元508，用于对基于N个数据子集形成的初代子集集合执行多轮迭代。执行单元508包括：

替换子模块5082，用于从当代子集集合中抽样若干初始数据子集，针对每个初始数据子集，基于数据阵列，随机地对其中的行或列进行替换，得到更新数据子集。将得到的各个更新数据子集添加到当代子集集合中，得到中间子集集合。

互换子模块5084，用于从中间子集集合中抽样若干子集对，针对每个子集对，在其中的两个数据子集之间进行行或列互换，得到更新子集对。将各个更新子集对中的两个更新子集添加到中间子集合，得到候选子集合。

确定子模块5086，用于对于候选子集合中各候选数据子集，基于对应于各候选数据子集的各个信息熵与对应于供应链数据集的总信息熵，确定对应于各候选数据子集的各个信息损失。

选取子模块5088，用于基于各个信息损失，从候选子集合中选取一部分下代数据子集，并按照预定概率，从候选子集合的各剩余数据子集中选取另一部分下代数据子集。上述一部分下代数据子集和另一部分下代数据子集形成下代子集集合。

选取单元510，用于从多轮迭代后得到的下代子集集合中，选取对应信息熵最大的数据子集作为最终数据子集。

输入单元512，用于将最终数据子集输入自动机器学习AutoML工具，得到初始供应链数据模型。

输入单元512，还用于将供应链数据集和初始供应链数据模型，再次输入AutoML工具，得到目标供应链数据模型。

在一个实施例中，替换子模块5082具体用于：

确定对应于初始数据子集的初始行编号集合和初始列编号集合；

将初始行编号集合中的若干元素，分别替换为总行编号集合中与其不同的其它行编号，得到更新行编号集合；其中，总行编号集合和总列编号集合基于上述数据阵列确定；或者，

将初始列编号集合中的若干元素，分别替换为总列编号集合中与其不同的其它列编号，得到更新列编号集合；

基于更新行编号集合以及初始列编号集合，确定更新数据子集；或者，基于更新列编号集合以及初始行编号集合，确定更新数据子集。

在一个实施例中，上述子集对中的两个数据子集包括第一子集和第二子集；互换子模块5084具体用于：

对第一子集中的第一目标行/列进行切割，得到在前的第一行/列片段和在后的第一行/列片段，以及对第二子集中的第二目标行/列进行切割，得到在前的第二行/列片段和在后的第二行/列片段；

对在前的第一行/列片段和在后的第二行/列片段进行拼接，得到第一更新目标行/列，以及对在前的第二行/列片段和在后的第一行/列片段进行拼接，得到第二更新目标行/列；

至少基于第一更新目标行/列，确定第一更新子集，以及至少基于第二更新目标行/列，确定第二更新子集；该第一更新子集和第二更新子集形成更新子集对。

在一个实施例中，上述候选子集合包括目标数据子集，该目标数据子集排布为r行c列的子阵列，r和c均为正整数，且r≤L，c≤K；该目标数据子集对应的目标信息熵通过以下步骤获得：

对于子阵列中的第i列，根据r行分别对应于第i列的r个数值各自的出现频率，计算对应于第i列的信息熵；

对c列各自对应的c个信息熵求平均，得到目标信息熵；

上述总信息熵通过以下步骤获得：

对于数据阵列中的第j列，根据L行分别对应于第j列的L个数值各自的出现频率，计算对应于第j列的信息熵；

对K列各自对应的K个信息熵求平均，得到总信息熵；

其中，i，j均为正整数，且1≤i≤c，1≤j≤K。

在一个实施例中，确定子模块5086具体用于：

在一个实施例中，选取子模块5088具体用于：

按照对应的信息损失从小到大的顺序，对候选子集合中的各个数据子集进行排序；

从排序后的各个数据子集中选取对应的信息损失小于预定阈值的数据子集作为一部分下代数据子集。

在一个实施例中，上述各剩余数据子集包括第一剩余数据子集，第一剩余数据子集对应的第一预定概率通过如下步骤获得：

对各剩余数据子集各自对应的信息损失求和，得到求和结果；

将第一剩余数据子集对应的第一信息损失与求和结果求商，并将得到的商值确定为第一预定概率。

在一个实施例中，上述K-1个数据特征包括，库存特征、生产特征和销售特征；上述标定标签用于指示对应供应链数据的销量；或者，上述标定标签用于指示对应供应链数据是否具有风险。

在一个更具体的实施例中，

上述库存特征包括以下中的至少一项：仓库所在省市区、仓储运输资源、库房、库位、物料类别、物料名称、规格型号、计量单位、当前库存数、历史最高库存数、历史最低库存数、平均库存时间、库存同比以及库存环比；

上述生产特征包括以下中的至少一项：生产厂商、生产厂商所在省市区、物料类别、物料名称、规格型号、计量单位、产能、日产量、生产周期、本月累计产量、本年累计产量、产量同比以及产量环比；

上述销售特征包括以下中的至少一项：合同编号、合同数量、合同时间、客户名称、客户所在省市区、客户信用等级、客户授信额度、订单编号、订单数量、订单时间、提货单编号、提货单数量、提货单时间、物料类别、物料名称、规格型号、计量单位、本月累计出库数、本年累计出库数、本月累计开票数、本年累计开票数、本月资金回笼数、本年资金回笼数、本月应收账款、本年应收账款、销售同比以及销售环比。

本说明书上述实施例装置的各功能单元的功能，可以通过上述方法实施例的各步骤来实现，因此，本说明书一个实施例提供的装置的具体工作过程，在此不复赘述。

本说明书一个实施例提供的一种供应链数据模型的自动更新装置，可以降低模型的训练成本。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

结合本说明书公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该AS IC可以位于服务器中。当然，处理器和存储介质也可以作为分立组件存在于服务器中。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述的具体实施方式，对本说明书的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本说明书的具体实施方式而已，并不用于限定本说明书的保护范围，凡在本说明书的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书的保护范围之内。

Claims

1.一种供应链数据模型的自动更新方法，包括：

对基于所述N个数据子集形成的初代子集集合执行多轮迭代，其中，任意的第t轮迭代包括：

从所述中间子集集合中抽样若干子集对，针对每个子集对，在其中的两个数据子集之间进行行或列互换，得到更新子集对；将各个更新子集对中的两个更新子集添加到中间子集合，得到候选子集合；

将所述供应链数据集和所述初始供应链数据模型，再次输入所述AutoML工具，得到目标供应链数据模型；

所述基于所述数据阵列，随机地对其中的行或列进行替换，包括：

确定对应于所述初始数据子集的初始行编号集合和初始列编号集合；

将所述初始行编号集合中的若干元素，分别替换为总行编号集合中与其不同的其它行编号，得到更新行编号集合；或者，

将所述初始列编号集合中的若干元素，分别替换为总列编号集合中与其不同的其它列编号，得到更新列编号集合；其中，所述总行编号集合和所述总列编号集合基于所述数据阵列确定；

2.根据权利要求1所述的方法，其中，所述子集对中的两个数据子集包括第一子集和第二子集；所述在其中的两个数据子集之间进行行或列互换，包括：

对所述第一子集中的第一目标行/列进行切割，得到在前的第一行/列片段和在后的第一行/列片段，以及对所述第二子集中的第二目标行/列进行切割，得到在前的第二行/列片段和在后的第二行/列片段；

至少基于所述第一更新目标行/列，确定第一更新子集，以及至少基于所述第二更新目标行/列，确定第二更新子集；所述第一更新子集和第二更新子集形成所述更新子集对。

3.根据权利要求1所述的方法，其中，所述候选子集合包括目标数据子集，所述目标数据子集排布为r行c列的子阵列，r和c均为正整数，且r≤L，c≤K；所述目标数据子集对应的目标信息熵通过以下步骤获得：

对于所述子阵列中的第i列，根据所述r行分别对应于所述第i列的r个数值各自的出现频率，计算对应于所述第i列的信息熵；

对所述c列各自对应的c个信息熵求平均，得到所述目标信息熵；

所述总信息熵通过以下步骤获得：

对于所述数据阵列中的第j列，根据所述L行分别对应于所述第j列的L个数值各自的出现频率，计算对应于所述第j列的信息熵；

对所述K列各自对应的K个信息熵求平均，得到所述总信息熵；

其中，i，j均为正整数，且1≤i≤c，1≤j≤K。

4.根据权利要求1所述的方法，其中，所述确定对应于所述各候选数据子集的各个信息损失，包括：

对于任意的第一候选数据子集，将对应的第一信息熵与总信息熵求差，并将差值的绝对值确定为对应于所述第一候选数据子集的第一信息损失。

5.根据权利要求1所述的方法，其中，所述基于所述各个信息损失，从所述候选子集合中选取一部分下代数据子集，包括：

按照对应的信息损失从小到大的顺序，对所述候选子集合中的各个数据子集进行排序；

从排序后的各个数据子集中选取对应的信息损失小于预定阈值的数据子集作为所述一部分下代数据子集。

6.根据权利要求1所述的方法，其中，所述各剩余数据子集包括第一剩余数据子集，所述第一剩余数据子集对应的第一预定概率通过如下步骤获得：

对所述各剩余数据子集各自对应的信息损失求和，得到求和结果；

将所述第一剩余数据子集对应的第一信息损失与所述求和结果求商，并将得到的商值确定为所述第一预定概率。

7.根据权利要求1所述的方法，其中，所述K-1个数据特征包括，库存特征、生产特征和销售特征；所述标定标签用于指示对应供应链数据的销量；或者，所述标定标签用于指示对应供应链数据是否具有风险。

8.根据权利要求7所述的方法，其中，

所述库存特征包括以下中的至少一项：仓库所在省市区、仓储运输资源、库房、库位、物料类别、物料名称、规格型号、计量单位、当前库存数、历史最高库存数、历史最低库存数、平均库存时间、库存同比以及库存环比；

所述生产特征包括以下中的至少一项：生产厂商、生产厂商所在省市区、物料类别、物料名称、规格型号、计量单位、产能、日产量、生产周期、本月累计产量、本年累计产量、产量同比以及产量环比；

所述销售特征包括以下中的至少一项：合同编号、合同数量、合同时间、客户名称、客户所在省市区、客户信用等级、客户授信额度、订单编号、订单数量、订单时间、提货单编号、提货单数量、提货单时间、物料类别、物料名称、规格型号、计量单位、本月累计出库数、本年累计出库数、本月累计开票数、本年累计开票数、本月资金回笼数、本年资金回笼数、本月应收账款、本年应收账款、销售同比以及销售环比。

9.一种供应链数据模型的自动更新装置，包括：

执行单元，用于对基于所述N个数据子集形成的初代子集集合执行多轮迭代；所述执行单元包括：

互换子模块，用于从所述中间子集集合中抽样若干子集对，针对每个子集对，在其中的两个数据子集之间进行行或列互换，得到更新子集对；将各个更新子集对中的两个更新子集添加到中间子集合，得到候选子集合；

所述输入单元，还用于将所述供应链数据集和所述初始供应链数据模型，再次输入所述AutoML工具，得到目标供应链数据模型；

所述替换子模块具体用于：