CN114926206A

CN114926206A - 预测模型的训练方法、物品销售信息的预测方法及装置

Info

Publication number: CN114926206A
Application number: CN202210551529.7A
Authority: CN
Inventors: 王国锐; 黄高攀
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-08-19

Abstract

本公开提供一种预测模型的训练方法、物品销售信息的预测方法及装置，包括：获取样本数据，其中，样本数据为与销售物品相关的数据，根据不同学习维度对样本数据进行预测，得到不同学习维度各自对应的第一预测结果，其中，不同学习维度用于学习样本数据的不同维度的特征，对各第一预测结果进行集成学习处理，得到样本数据的第二预测结果，并根据第二预测结果生成预测模型，其中，预测模型用于预测物品的销售信息，提高了训练的灵活性和多样性，且由于预测模型学习到了样本数据的不同维度的特征，因此，可以使得预测模型的准确性和可靠性偏高。

Description

预测模型的训练方法、物品销售信息的预测方法及装置

技术领域

本公开涉及人工智能领域，尤其涉及一种预测模型的训练方法、物品销售信息的预测方法及装置。

背景技术

随着人工智能技术的发展，神经网络模型被广泛地应用于各领域。

示例性的，神经网络模型可以应用于电商领域，如可以采用神经网络模型对物品的销售信息(如销售数量和/或类目等)进行预测。

发明内容

本公开提供一种预测模型的训练方法、物品销售信息的预测方法及装置，用以解决训练预测模型的可靠性偏低的问题。

第一方面，本公开实施例提供一种方法，包括：预测模型的训练方法，包括：

获取样本数据，其中，所述样本数据为与销售物品相关的数据；

根据不同学习维度对所述样本数据进行预测，得到不同学习维度各自对应的第一预测结果，其中，不同学习维度用于学习所述样本数据的不同维度的特征；

对各第一预测结果进行集成学习处理，得到所述样本数据的第二预测结果，并根据所述第二预测结果生成预测模型，其中，所述预测模型用于预测物品的销售信息。

在本公开的一个实施例中，学习维度用于学习所述样本数据的分布维度的特征，和/或，所述样本数据的关联维度的特征。

在本公开的一个实施例中，若学习维度用于学习所述样本数据的分布维度的特征，则所述根据不同学习维度对所述样本数据进行预测，得到不同学习维度各自对应的第一预测结果，包括：

基于自回归循环卷积神经网络DeepAR模型，对所述样本数据进行预测，得到第一预测结果；和/或，

基于状态空间深度学习网络DeepState模型，对所述样本数据进行预测，得到第一预测结果。

在本公开的一个实施例中，若学习维度用于学习所述样本数据的关联维度的特征，则所述根据不同学习维度对所述样本数据进行预测，得到不同学习维度各自对应的第一预测结果，包括：

基于空洞卷积式的时序预测WaveNet模型，对所述样本数据进行预测，得到第一预测结果；和/或，

基于深度自注意力变换网络Transformer模型，对所述样本数据进行预测，得到第一预测结果。

在本公开的一个实施例中，所述对各第一预测结果进行集成学习处理，得到所述样本数据的第二预测结果，包括：

基于叠堆法Stacking对各第一预测结果和所述样本数据进行集成学习处理，得到所述第二预测结果。

在本公开的一个实施例中，所述基于叠堆法Stacking对各第一预测结果和所述样本数据进行集成学习处理，得到所述第二预测结果，包括：

根据注意力机制Attention模型确定所述样本数据和各第一预测结果各自对应的注意力权重，其中，各注意力权重的和为1；

采用多层感知机MLP模型对各第一预测结果、各注意力权重以及所述样本数据，生成所述第二预测结果。

第二方面，本公开实施例提供一种物品销售信息的预测方法，包括：

获取待预测物品的待预测数据，其中，所述待预测数据为与销售所述待预测物品相关的数据；

将所述待预测数据输入至预先训练的预测模型，预测得到所述待预测物品的销售信息；

其中，所述预测模型是基于如上任一实施例所述方法训练得到的。

第三方面，本公开实施例提供一种预测模型的训练装置，包括：

第一获取单元，用于获取样本数据，其中，所述样本数据为与销售物品相关的数据；

第一预测单元，用于根据不同学习维度对所述样本数据进行预测，得到不同学习维度各自对应的第一预测结果，其中，不同学习维度用于学习所述样本数据的不同维度的特征；

集成单元，用于对各第一预测结果进行集成学习处理，得到所述样本数据的第二预测结果，并根据所述第二预测结果生成预测模型，其中，所述预测模型用于预测物品的销售信息。

在本公开的一个实施例中，若学习维度用于学习所述样本数据的分布维度的特征，则所述第一预测单元，包括：

第一预测子单元，用于基于自回归循环卷积神经网络DeepAR模型，对所述样本数据进行预测，得到第一预测结果；和/或，

所述第一预测子单元，用于基于状态空间深度学习网络DeepState模型，对所述样本数据进行预测，得到第一预测结果。

在本公开的一个实施例中，若学习维度用于学习所述样本数据的关联维度的特征，则所述第一预测单元，包括：

第二预测子单元，用于基于空洞卷积式的时序预测WaveNet模型，对所述样本数据进行预测，得到第一预测结果；和/或，

所述第二预测子单元，用于基于深度自注意力变换网络Transformer模型，对所述样本数据进行预测，得到第一预测结果。

在本公开的一个实施例中，所述集成单元用于，基于叠堆法Stacking对各第一预测结果和所述样本数据进行集成学习处理，得到所述第二预测结果。

在本公开的一个实施例中，所述集成单元，包括：

确定子单元，用于根据注意力机制Attention模型确定所述样本数据和各第一预测结果各自对应的注意力权重，其中，各注意力权重的和为1；

生成子单元，用于采用多层感知机MLP模型对各第一预测结果、各注意力权重以及所述样本数据，生成所述第二预测结果。

第四方面，本公开实施例提供一种物品销售信息的预测装置，包括：

第二获取单元，用于获取待预测物品的待预测数据，其中，所述待预测数据为与销售所述待预测物品相关的数据；

第二预测单元，用于将所述待预测数据输入至预先训练的预测模型，预测得到所述待预测物品的销售信息；

其中，所述预测模型是基于如权利要求1-6中任一项所述方法训练得到的。

第五方面，本公开实施例提供一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使电子设备能够执行本公开第一方面中任一项的所述的方法；或者，以使电子设备能够执行本公开第二方面所述的方法。

第六方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本公开第一方面中任一项所述的方法；或者，计算机程序被处理器执行时实现本公开第二方面所述的方法。

第七方面，本公开实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本公开第一方面中任一项所述的方法；或者，该计算机程序被处理器执行时实现本公开第二方面所述的方法。

本公开实施例提供一种预测模型的训练方法、物品销售信息的预测方法及装置，通过学习样本数据的不同维度的特征，并对各维度的特征各自对应的第一预测结果进行集中学习处理，以对各第一预测结果组合得到样本数据对应的第二预测结果，并基于该第二预测结果生成预测模型的技术特征，避免了训练方式单一的弊端，提高了训练的灵活性和多样性，且由于预测模型学习到了样本数据的不同维度的特征，因此，可以使得预测模型的准确性和可靠性偏高。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开一个实施例的预测模型的训练方法的流程图；

图2为本公开另一实施例的预测模型的训练方法的流程图；

图3为本公开实施例的预测模型的训练方法的原理示意图；

图4为本公开实施例的元模型的原理示意图；

图5为本公开一个实施例的物品销售信息的预测方法的流程图；

图6为本公开一个实施例的预测模型的训练装置的示意图；

图7为本公开另一实施例的预测模型的训练装置的示意图；

图8为本公开一个实施例的物品销售信息的预测装置的示意图；

图9为本公开一实施例提供的电子设备的硬件结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

随着人工智能技术的发展，神经网络模型被广泛地应用于各领域。示例性的，神经网络模型可以应用于电商领域，如可以采用神经网络模型对物品的销售信息(如销售数量和/或类目等)进行预测。其中，本公开中的物品可以为虚拟物品，也可以为实体物品。

例如，可以采集样本数据，并根据样本数据对基础网络模型进行训练，得到用于预测物品的销售信息的预测模型。其中，样本数据可以为与销售物品相关的数据，如历史销售量等。本实施例对基础网络模型的类型和结构等不做限定。

然而，采用上述方法训练得到的预测模型，由于不同的神经网络模型的学习维度可能并不相同，采用某一神经网络模型生成预测模型，使得与之对应的预测维度相对较为单一，从而造成预测的准确性偏低的问题。

为了避免上述技术问题，本公开发明人经过创造性地劳动，得到了本公开的发明构思：学习样本数据的不同维度的特征，并结合集成学习的方式训练得到可以从不从预测维度对待预测物品的销售信息进行预测的预测模型。

下面，通过具体实施例对本公开的技术方案进行详细说明。需要说明的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

请参阅图1，图1为本公开一个实施例的预测模型的训练方法的流程图，如图1所示，该方法包括：

S101：获取样本数据。其中，样本数据为与销售物品相关的数据。

示例性的，本公开的实施例的预测模型的训练方法的执行主体为预测模型的训练装置(下文简称为训练装置)，训练装置可以为服务器(如云端服务器，或者本地服务器，或者服务器集群)，也可以为计算机，也可以为终端设备，也可以为处理器，也可以为芯片，等等，此处不再一一列举。

本实施例对获取样本数据的方式不做限定，如可以通过线上采集的方式获取样本数据，也可以通过线下采集的方式获取样本数据。又如样本数据可以为采集到的原始数据，即没有预处理(如修改和/或调整)的数据，也可以为对原始数据进行预处理后的数据，如样本数据为对原始数据进行脱敏处理后的数据。

本实施例对样本数据的数量不做限定，可以基于需求、历史记录以及试验等方式进行确定。

示例性的，针对预测精度相对较高的应用场景，样本数据的数量可以相对较多，反之，针对预测精度相对较少的应用场景，样本数据的数量可以相对较少。

样本数据可以包括历史样本数据和未来样本数据。历史样本数据是指在过去的时间段内(同理，该时间段的长短可以基于需求、历史记录以及试验等方式进行确定，如过去的一个季度内，或者过去的半年内等)与销售物品相关的数据。

例如，历史样本数据包括：过去一个季度内N(N为大于等于1的正整数)种物品各自对应的销售量、每一物品的类别属性(即每一物品隶属的类目)、过去一个季度内的天气信息、以及过去一个季度内的节假日信息，等等，此处不再一一列举。

相应的，未来样本数据是指在未来的时间段内(同理，该时间段的长短可以基于需求、历史记录以及试验等方式进行确定，如未来的一个季度内，或者未来的半年内等)与销售物品相关的数据。

例如，未来样本数据包括：未来一个季度内N种物品各自对应的存货信息、未来一个季度内的天气信息、以及过去一个季度的节假日信息，等等，此处不再一一列举。

S102：根据不同学习维度对样本数据进行预测，得到不同学习维度各自对应的第一预测结果。其中，不同学习维度用于学习样本数据的不同维度的特征。

示例性的，针对相同的样本数据，不同的神经网络模型学习到的样本数据的特征的维度并不相同，如有些神经网络模型可以学习样本数据的分布维度的特征，有些神经网络模型可以学习样本数据的关联维度的特征，等等。

在本实施例中，可以通过用于学习样本数据的不同维度的特征的学习维度对样本数据进行预测，以得到不同学习维度各自对应的预测结果，为便于与后文中的其他预测结果(如第二预测结果)进行区分，将该预测结果称为第一预测结果。

S103：对各第一预测结果进行集成学习处理，得到样本数据的第二预测结果，并根据第二预测结果生成预测模型。其中，预测模型用于预测物品的销售信息。

集成学习处理可以理解为对各模型维度各自对应的第一预测结果预测进行组合处理，从而得到对样本数据的预测的最终输出，如本实施例的第二预测结果。

基于上述分析可知，本公开实施例提供了一种预测模型的训练方法，包括：获取样本数据，其中，样本数据为与销售物品相关的数据，根据不同学习维度对样本数据进行预测，得到不同学习维度各自对应的第一预测结果，其中，不同学习维度用于学习样本数据的不同维度的特征，对各第一预测结果进行集成学习处理，得到样本数据的第二预测结果，并根据第二预测结果生成预测模型，其中，预测模型用于预测物品的销售信息，在本实施例中，通过学习样本数据的不同维度的特征，并对各维度的特征各自对应的第一预测结果进行集中学习处理，以对各第一预测结果组合得到样本数据对应的第二预测结果，并基于该第二预测结果生成预测模型的技术特征，避免了训练方式单一的弊端，提高了训练的灵活性和多样性，且由于预测模型学习到了样本数据的不同维度的特征，因此，可以使得预测模型的准确性和可靠性偏高。

请参阅图2，图2为本公开另一实施例的预测模型的训练方法的流程图，如图2所示，该方法包括：

S201：获取样本数据。其中，样本数据为与销售物品相关的数据。

应该理解的是，为了避免繁琐的陈述，关于本实施例与上述实施例相同的技术特征，本实施例不再赘述。

S202：对样本数据进行预处理，得到预处理后的样本数据。

本实施例对预处理的方式不做限定，如可以通过全名数据探索性分析(Exploratory Data Analysis，EDA)的方式对样本数据进行预处理。

在一些实施例中，如图3所示，在获取到样本数据后，可以对样本数据进行预处理，且预处理可以包括：异常处理、差分处理以及类型转换中的一种或多种。

示例性的，对样本数据进行异常处理的原理阐述如下：

从样本数据中获取超出正常范围的值(异常值)、空值(NULL)以及连续长值，对获取到的异常值进行剔除处理，对获取到的空值进行插值处理，对获取到的连续长值进行平移处理。

其中，异常值是指与正常范围的值差异相对较大的值，可以通过设置差异阈值确定差异相对较大，同理，差异阈值可以基于需求、历史记录以及试验等方式进行确定。正常范围可以理解为样本数据中的大部分数据所处的范围。

对异常值进行剔除处理，即从样本数据中删除异常值。通过将异常值从样本数据中删除，可以避免因被异常值干扰而造成的训练的准确性偏低的弊端，从而提高训练的可靠性和有效性的技术效果。

空值是指缺失的数据，如采集了过去一个季度内各物品各自对应的销售量，即样本数据中本应包括过去一个季度内各物品各自对应的销售量，然而，实际上过去一个季度内的某一周的各物品各自对应的销售量有缺失，则对该周的各物品各自对应的销售量进行插值处理，如结合该周的前后周的各物品各自对应的销售量，补充该周的各物品各自对应的销售量，从而使得预处理后的样本数据为完整全面的数据。

连续长值是指连续一段时间的数据为相同的数据。例如，样本数据包括过去一个季度内的各物品各自对应的销售量，而其中连续三周的各物品各自对应的销售量相同，则将历史的该季度的数据平移至该三周的各物品各自对应的销售量。

例如，今年第二季度的第一周至第三周的各物品各自对应的销售量相同，则根据去年第二季度的第一周至第三周的各物品各自对应的销售量，调整第二季度的第一周至第三周的各物品各自对应的销售量，以使得预处理后的样本数据具有较高的真实性和可靠性。

其中，调整可以为直接替换，也可以为基于预设系数计算后的替换。预设系数为基于今年的销售信息与去年的销售信息之间的差异确定的。如今年的销售信息与去年的销售信息之间的差异越大，则预设系数的绝对值越大。且若今年的销售信息与去年的销售信息相比为正增长，则预设系数为正数，反之，若今年的销售信息与去年的销售信息相比为负增长，则预设系数为负数。

示例性的，对样本数据进行差分处理的原理阐述如下：

差分处理可以理解为基于差分的方式对样本数据进行预处理，以使得预处理后的样本数据更为平滑。其中，差分可以为一阶差分，也可以为二阶差分，本实施例不做限定。例如，若经一阶差分处理后的样本数据已经较为平滑，则无需进行二阶差分，反之，若经一阶差分处理后的样本数据部平滑，则进行二阶差分。

示例性的，对样本数据进行类型转换的原理阐述如下：

类型转换是指对样本数据的数据类型的转换。其中，数据类型包括数字类型、字符类型以及字符串类型。样本数据通常为字符串类型，因此，本实施例的类型转换可以理解为将字符串类型的样本数据转换为数字类型的样本数据。

例如，将样本数据中的字符串类型的促销年份、大促阶段(如促销准备、促销中以及促销后等)以及节假日名称等，转换为数字类型的样本数据，以节约对预处理后的样本数据的处理资源，提高处理效率。

结合上述分析可知，预处理可以包括上述三种方式(异常处理、差分处理以及类型转换)中的一种或多种，当预处理包括上述两种或者三种方式，且两种或者三种方式中有一种为类型转换时，则可以先进行类型转换，而后执行其他的方式。

例如，若预处理包括异常处理和类型转换，则可以先对样本数据进行类型转换，而后进行异常处理。又如，若预处理包括差分处理和类型转换，则可以先对样本数据进行类型转换，而后进行差分处理。再如，若预处理包括异常处理、差分处理以及类型转换，则可以先对样本数据进行类型转换，而后进行异常处理，最后进行差分处理，也可以先对样本数据进行类型转换，而后进行差分处理，最后进行异常处理。以减少预处理的资源消耗，便于预处理的整体实现，提高预处理的效率。

S203：对预处理后的样本数据进行划分，得到训练集和测试集。

其中，训练集中包括用于训练得到预测模型的预处理后的样本数据，测试集中包括用于对预测模型进行验证的预处理后的样本数据。

训练集和测试集中的数据比值可以为8比2，如从预处理后的样本数据中，提取80％的数据用于训练得到预测模型，从预处理后的样本数据中，提取20％的数据用于验证预测模型。且可以通过随机提取的方式实现。

S204：将训练集分别输入至DeepAR模型、DeepState模型、WaveNet模型以及Transformer模型，得到各模型各自对应的第一预测结果。

例如，训练集包括过去28天内与销售物品相关的数据、以及未来28天内与销售物品相关的数据，则第一预测结果为未来28天内每一天各自对应的第一预测结果，如未来28天内每一天各自对应的物品销售信息。

示例性的，在本实施例中，DeepAR模型、DeepState模型、WaveNet模型以及Transformer模型分别可以称为单模型，该四个单模型构成一个单模型集。

如图3所示，提取训练集对应的训练特征，将训练特征输入至单模型集，如输入至DeepAR模型，输出第一预测结果F_dpar，将训练特征输入至DeepState模型，输出第一预测结果F_dpst，将训练特征输入至WaveNet模型，输出第一预测结果F_wave，将训练特征输入至Transformer模型，输出第一预测结果F_tras。

其中，若训练集包括过去一个月内的历史样本数据和未来一个月内的未来样本数据，则训练特征可以为对历史样本数据的历史特征以及未来样本数据的未来特征进行拼接而得到的拼接特征。

将训练特征输入至DeepAR模型和DeepState模型，可以使得DeepAR模型和DeepState模型学习训练特征的分布维度的特征。

且由于DeepState模型结合了状态空间模型和深度学习模型，因此，相对于DeepAR模型，DeepState模型可以在训练特征相对较少的情况下，将较小范围的分布扩展为相对较大范围的分布，以通过相对较小范围的分布特征学习到整体的分布特征，相对具有较好的先验，鲁棒性更好。

将训练特征输入至WaveNet模型和Transformer模型，可以使得WaveNet模型和Transformer模型学习训练特征的关联维度的特征。

其中，WaveNet模型的感受野较大，将训练特征输入至WaveNet模型，可以使得WaveNet模型学习较长时间范围内的训练特征的关联性，如可以学习较长时间范围内的训练特征的周期性变化。

Transformer模型可以支持并行计算，且可以为输入的训练特征增加位置编码，以对不同的时间段的训练特征进行标识，并使得Transformer模型学习到增加了位置编码的训练特征的关联性。

例如，训练特征包括过去28天和未来28天中各天各自对应的训练特征，则可以以天为单位对每天的训练特征添加位置编码，得到特征矩阵，Transformer模型可以基于特征矩阵学习相邻两天，或者更多天(如一周内等)的训练特征之间的关联性。

结合上述分析可知，WaveNet模型和Transformer模型均可以训练特征的关联维度的特征，但是，相对而言，WaveNet模型的感受野较大，学习较长时间范围内的训练特征的关联性。Transformer模型支持并行计算，可以加快学习效率，且可以学习相对较短时间范围内的训练特征的关联性。

S205：基于叠堆法Stacking对各第一预测结果和训练集进行集成学习处理，得到第二预测结果。

示例性的，如图3所示，在得到四个第一预测结果F_dpar、F_dpst、F_wave、F_tras之后，可以将该四个第一预测结果进行集成学习处理，输出第二预测结果。

其中，Stacking是指训练一个模型(可以称为元模型meta-model)，用于组合(combine)其他各个模型。在本实施例中，四个单模型学习训练特征的过程为并行的过程，即四个单模型之间互不干扰，得到各自对应的第一预测结果，而Stacking可以理解为训练一个元模型，以通过该元模型将四个单模型进行组合，从而得到最终的预测结果(即第二预测结果)。

在一些实施例中，S205可以包括如下步骤：

第一步骤：根据注意力机制Attention模型确定训练集和各第一预测结果各自对应的注意力权重。其中，各注意力权重的和为1。

示例性的，元模型可以包括Attention模型和MLP模型，如图4所示，Attention模型可以两层全连接层(Fully connect layer)，为了便于区分，将其中的一个全连接层称为第一全连接层，将另一个全连接层称为第二全连接层。

第一全连接层和第二全连接层之间包括激活函数(Relu)层，为便于与MLP模型中的激活函数层进行区分，将Attention模型中的激活函数层称为第一激活函数层，将MLP模型中的激活函数层称为第二激活函数层。

第二全连接层之后包括输出层，同理，为了便于与MLP模型中的输出层进行区分，将Attention模型中的输出层称为第一输出层，将MLP模型中的输出层称为第二输出层，且第一输出层包括激励函数(Softmax)。

如图4所示，Attention模型的输入信息包括四个第一预测结果F_dpar、F_dpst、F_wave、F_tras、以及训练集F_orig(具体可以为训练集的训练特征)。且输入信息可以为对四个第一预测结果和训练集进行拼接得到的特征。

Attention模型的输入信息依次经过第一全连接层、第一激活函数层、第二全链接层、第一输出层，得到四个第一预测结果以及训练集各自对应的注意力权重，如第一预测结果F_dpar的注意力权重W₁，第一预测结果F_dpst的注意力权重W₂，第一预测结果F_wave的注意力权重W₃，第一预测结果F_tras的注意力权重W₄，训练集F_orig的注意力权重W₅，且W₁+W₂+W₃+W₄+W₅＝1。

第二步骤：采用多层感知机MLP模型对各第一预测结果、各注意力权重以及训练集，生成第二预测结果。

结合上述分析和图4可知，MLP模型的输入信息包括：第一预测结果F_dpar*W₁，第一预测结果F_dpst*W₂，第一预测结果F_wave*W₃，第一预测结果F_tras*W₄，训练集F_orig*W₅。

如图4所示，MLP模型也可以包括两层全连接层，同理，为了便于区分，将与Attention模型连接的全连接层称为第三全连接层，将另一全连接层称为第四全连接层，第三全连接层与第四全连接之间包括第二激活函数层，第二输出层与第四全连接层连接，第二输出层包括Sigmoid函数。

在一些实施例中，元模型还可以为包括梯度提升(Extreme Gradient Boosting，XGBoost)模型和MLP模型的网络结构。

相应的，XGBoost模型的输入信息包括四个单模型各自对应的第一预测结果，XGBoost模型的输出信息的为各第一预测结果各自对应的预测值。MLP模型的输入信息为XGBoost模型的输出信息，即为各第一预测结果各自对应的预测值。MLP模型根据各第一预测结果各自对应的预测值生成第二预测结果。

应该理解的是，上述示例只是通过Attention模型+MLP模型，以及XGBoost模型+MLP模型，对可能的元模型进行示范性的描述，而不能理解为对本实施例的元模型的限定。

S206：确定第二预测结果与预设的样本数据的标注结果之间的差异值，并根据差异值进入迭代训练，直至得到满足预设迭代条件的预测模型。

其中，标注结果为预先标注的样本数据的真实预测结果。差异值可以基于损失(loss)函数确定。预设迭代条件可以为迭代次数达到预设迭代阈值，也可以为差异值小于预设差异阈值。

同理，迭代阈值和差异阈值，分别可以基于需求、历史记录以及实验等方式进行确定。

示例性的，结合上述分析，在确定出差异值之后，可以判断差异值与差异阈值之间的大小关系，若差异值大于差异阈值，则调整DeepAR模型、DeepState模型、WaveNet模型、Transformer模型以及元模型(如Attention模型和MLP模型)的参数，并基于调整参数后的各模型进行迭代训练，以迭代确定差异值，以此类推，直至迭代得到的差异值小于差异阈值，或者，迭代次数达到迭代阈值，以得到预测模型。也即，预测模型可以包括调整参数后的DeepAR模型、DeepState模型、WaveNet模型、Transformer模型以及元模型。

S207：基于测试集对预测模型进行验证，得到验证结果。其中，验证结果用于表征预测模型的预测可靠性。

示例性的，基于测试集对预测模型进行验证的实现原理，可以参见上述实施例中确定第二预测结果的实现原理，此处不再赘述。通过结合测试集对预测模型进行验证，可以实现对预测模型的可靠性进行评价，且可以以基于验证结果对预测模型进行调整，从而进一步提高最终得到的预测模型的有效性和可靠性。

请参阅图5，图5为本公开一个实施例的物品销售信息的预测方法的流程图，如图5所示，该方法包括：

S501：获取待预测物品的待预测数据。其中，待预测数据为与销售待预测物品相关的数据。

示例性的，本实施例的执行主体可以为物品销售信息的预测装置(下文简称为预测装置)，预测装置可以为与训练装置相同的装置，也可以为不同的装置，本实施例不做限定。

待预测数据的理解可以参见样本数据，如待预测数据可以包括销售待预测物品的销售量、待预测物品的类别属性以及销售待预测物品的天气信息，等待，此处不再一一列举。

S502：将待预测数据输入至预先训练的预测模型，预测得到待预测物品的销售信息。其中，预测模型是基于如上任一实施例所述方法训练得到的。

示例性的，在结合上述实施例所述的方式训练得到预测模型之后，可以将待预测数据做为预测模型的输入信息，由预测模型基于该待预测数据进行预测，从而得到待预测物品的销售信息，如待预测物品在未来某时间段的销售量等。

例如，预测模型包括四个单模型和一个元模型，其中，四个单模型可以包括DeepAR模型、DeepState模型、WaveNet模型以及Transformer模型，元模型可以包括Attention模型和MLP模型，相应的，S502可以包括如下步骤：

第一步骤：将待预测数据分别输入至四个单模型，得到四个单模型各自对应的预测结果。

第二步骤：将四个单模型各自对应的预测结果、以及待预测数据输入至Attention模型，得到四个单模型各自对应的预测结果、以及待预测数据各自对应的注意力权重，并根据各注意力权重、四个单模型各自对应的预测结果、以及待预测数据，确定MLP模型的输入信息。

第三步骤：基于MLP模型对第二步骤确定出的输入信息进行预测，得到待预测物品的销售信息。

关于四个单模型和元模型的实现原理，可以参见上述实施例，此处不再赘述。

基于上述分析可知，预测模型为学习了样本数据的不同维度的特征的神经网络模型，因此，结合预测模型预测得到待预测物品的销售信息，可以提高预测的准确性和可靠性。

请参阅图6，图6为本公开一个实施例的预测模型的训练装置的示意图，如图6所示，预测模型的训练装置600包括：

第一获取单元601，用于获取样本数据，其中，所述样本数据为与销售物品相关的数据。

第一预测单元602，用于根据不同学习维度对所述样本数据进行预测，得到不同学习维度各自对应的第一预测结果，其中，不同学习维度用于学习所述样本数据的不同维度的特征。

集成单元603，用于对各第一预测结果进行集成学习处理，得到所述样本数据的第二预测结果，并根据所述第二预测结果生成预测模型，其中，所述预测模型用于预测物品的销售信息。

请参阅图7，图7为本公开另一实施例的预测模型的训练装置的示意图，如图7所示，预测模型的训练装置700包括：

第一获取单元701，用于获取样本数据，其中，所述样本数据为与销售物品相关的数据。

第一预测单元702，用于根据不同学习维度对所述样本数据进行预测，得到不同学习维度各自对应的第一预测结果，其中，不同学习维度用于学习所述样本数据的不同维度的特征。

在一些实施例中，学习维度用于学习所述样本数据的分布维度的特征，和/或，所述样本数据的关联维度的特征。

示例性的，若学习维度用于学习所述样本数据的分布维度的特征性，则如图7所示，所述第一预测单元702，包括：

第一预测子单元7021，用于基于自回归循环卷积神经网络DeepAR模型，对所述样本数据进行预测，得到第一预测结果。和/或，

所述第一预测子单元7022，用于基于状态空间深度学习网络DeepState模型，对所述样本数据进行预测，得到第一预测结果。

示例性的，若学习维度用于学习所述样本数据的关联维度的特征，则如图7所述，所述第一预测单元702，包括：

第二预测子单元7022，用于基于空洞卷积式的时序预测WaveNet模型，对所述样本数据进行预测，得到第一预测结果。和/或，

所述第二预测子单元7022，用于基于深度自注意力变换网络Transformer模型，对所述样本数据进行预测，得到第一预测结果。

集成单元703，用于对各第一预测结果进行集成学习处理，得到所述样本数据的第二预测结果，并根据所述第二预测结果生成预测模型，其中，所述预测模型用于预测物品的销售信息。

在一些实施例中，所述集成单元703用于，基于叠堆法Stacking对各第一预测结果和所述样本数据进行集成学习处理，得到所述第二预测结果。

示例性的，结合图7所示，所述集成单元703，包括：

确定子单元7031，用于根据注意力机制Attention模型确定所述样本数据和各第一预测结果各自对应的注意力权重，其中，各注意力权重的和为1。

生成子单元7032，用于采用多层感知机MLP模型对各第一预测结果、各注意力权重以及所述样本数据，生成所述第二预测结果。

请参阅图8，图8为本公开一个实施例的物品销售信息的预测装置的示意图，如图8所示，物品销售信息的预测装置800包括：

第二获取单元801，用于获取待预测物品的待预测数据，其中，所述待预测数据为与销售所述待预测物品相关的数据。

第二预测单元802，用于将所述待预测数据输入至预先训练的预测模型，预测得到所述待预测物品的销售信息。

其中，所述预测模型是基于如上任一实施例所述的预测模型的训练方法训练得到的。

图9为本公开实施例提供的电子设备的硬件结构示意图。如图9所示，本公开实施例的电子设备900可以包括：至少一个处理器901(图9中仅示出了一个处理器)；以及，与至少一个处理器通信连接的存储器902。其中，存储器902存储有可被至少一个处理器901执行的指令，指令被至少一个处理器901执行，以使电子设备900能够执行前述任一方法实施例中的技术方案。

可选的，存储器902既可以是独立的，也可以跟处理器901集成在一起。

当存储器902是独立于处理器901之外的器件时，电子设备900还包括：总线903，用于连接存储器902和处理器901。

本公开实施例提供的电子设备可以执行前述任一方法实施例的技术方案，其实现原理和技术效果类似，在此不再赘述。

本公开实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，当计算机程序被处理器执行时用于实现前述任一方法实施例中的技术方案。

本公开实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现前述任一方法实施例中的技术方案。

本公开实施例还提供了一种芯片，包括：处理模块与通信接口，该处理模块能执行前述方法实施例中的技术方案。

进一步地，该芯片还包括存储模块(如，存储器)，存储模块用于存储指令，处理模块用于执行存储模块存储的指令，并且对存储模块中存储的指令的执行使得处理模块执行前述方法实施例中的技术方案。

应理解，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本公开附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备中。

最后应说明的是：以上各实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述各实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

Claims

1.一种预测模型的训练方法，包括：

2.根据权利要求1所述的方法，其中，学习维度用于学习所述样本数据的分布维度的特征，和/或，所述样本数据的关联维度的特征。

3.根据权利要求2所述的方法，其中，若学习维度用于学习所述样本数据的分布维度的特征，则所述根据不同学习维度对所述样本数据进行预测，得到不同学习维度各自对应的第一预测结果，包括：

4.根据权利要求2或3所述的方法，其中，若学习维度用于学习所述样本数据的关联维度的特征，则所述根据不同学习维度对所述样本数据进行预测，得到不同学习维度各自对应的第一预测结果，包括：

5.根据权利要求1-4任一项所述的方法，其中，所述对各第一预测结果进行集成学习处理，得到所述样本数据的第二预测结果，包括：

6.根据权利要求5所述的方法，其中，所述基于叠堆法Stacking对各第一预测结果和所述样本数据进行集成学习处理，得到所述第二预测结果，包括：

7.一种物品销售信息的预测方法，包括：

8.一种预测模型的训练装置，包括：

9.一种物品销售信息的预测装置，包括：

10.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述电子设备能够执行权利要求1-6中任一项所述的方法；或者，以使所述电子设备能够执行权利要求7所述的方法。

11.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6中任一项所述的方法；或者，所述计算机程序被处理器执行时实现权利要求7所述的方法。

12.一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现权利要求1-6中任一项所述的方法；或者，该计算机程序被处理器执行时实现权利要求7所述的方法。