CN112734005A

CN112734005A - 预测模型的确定方法、装置、电子设备及存储介质

Info

Publication number: CN112734005A
Application number: CN202011623061.5A
Authority: CN
Inventors: 李吉祥; 贾纪元; 杨森; 刘霁
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-04-30
Anticipated expiration: 2040-12-31
Also published as: CN112734005B

Abstract

本公开关于一种预测模型的确定方法、装置、电子设备及存储介质，以自动确定预测模型中嵌入层的输出维度，从而从整体上有效提升预测模型的性能。该方法包括：获取第一用户行为信息；根据第一用户行为信息训练初始网络模型，得到至少一个子网络；初始网络模型包括至少一个嵌入层；初始网络模型中嵌入层的初始输出维度为候选输出维度中的最大输出维度；子网络用于预测用户处理资源的概率；输出维度组合包括对应子网络中每个嵌入层的输出维度；确定至少一个子网络中的目标子网络；目标子网络的预测精度大于或等于阈值；根据目标子网络的嵌入层的输出维度组合，确定预测模型；预测模型用于预测用户处理资源的概率。

Description

预测模型的确定方法、装置、电子设备及存储介质

技术领域

本公开涉及深度学习技术领域，尤其涉及预测模型的确定方法、装置、电子设备及存储介质。

背景技术

近些年，基于深度学习的预测模型已经在推荐领域占据主导地位，该预测模型主要目标是根据用户的信息(如：用户的标识、用户的年龄、用户的性别、用户的学历、用户的位置、用户设备的型号等信息)和资源的信息(如：资源标识、资源的类别等)等信息来对用户的行为进行预测。通常，预测模型都会在输入层到全连接层之间加入嵌入(embedding)层完成高维稀疏特征向量到低维特征向量(如：浮点型向量)的转换。嵌入层是整个预测模型的核心特征抽取模块，因此，嵌入层的设计对预测模型的预测性能起到至关重要的作用。

目前，对于嵌入层的设计主要采用人工设计方式，即嵌入层的输入维度与输入该嵌入层的高维稀疏特征向量的维度一致，嵌入层的输出维度一般人为设置一个固定的数值。但由于一个预测模型中会有很多嵌入层，而且每个嵌入层对应的输入该嵌入层的高维稀疏特征向量的维度一般也不同，这就会造成嵌入层固定且统一的输出维度对于每个嵌入层未必是最优的。例如：对于输入该嵌入层的稀疏特征向量的维度多的嵌入层来说，它的输出维度可能不足以表征该特征的完整信息，导致预测模型预测性能较差。

发明内容

本公开提供一种预测模型的确定方法、装置、电子设备及存储介质，以自动确定预测模型中嵌入层的输出维度，从而从整体上有效提升预测模型的性能。

本公开的技术方案如下：

根据本公开实施例的第一方面，本公开实施例提供一种预测模型的确定方法，该方法包括：获取第一用户行为信息，第一用户行为信息包括用户的信息和资源的信息；根据第一用户行为信息训练初始网络模型，得到至少一个子网络；初始网络模型包括至少一个嵌入层；初始网络模型中嵌入层的初始输出维度为候选输出维度中的最大输出维度；子网络用于预测用户处理资源的概率；不同子网络的嵌入层的输出维度组合不同；输出维度组合包括对应子网络中每个嵌入层的输出维度；确定至少一个子网络中的目标子网络；目标子网络的预测精度大于或等于阈值；根据目标子网络的嵌入层的输出维度组合，确定预测模型；预测模型用于预测用户处理资源的概率。

本公开实施例中，根据第一用户行为信息训练初始网络模型，得到至少一个子网络，从该至少一个子网络中搜索预测精度大于或等于阈值的目标子网络，这样，根据目标子网络的嵌入层的输出维度组合，确定的预测模型至少能够保证使用该预测模型预测用户处理资源的概率的预测精度大于或等于阈值，从而提高了确定的预测模型的性能。

在一种可能的实现方式中，上述至少一个子网络对应一个超网络；上述根据第一用户行为信息训练初始网络模型，得到至少一个子网络，包括：确定初始网络模型的多个候选输出维度组合；根据第一用户行为信息，对每个候选输出维度组合对应的初始网络模型进行训练，得到超网络；根据候选输出维度，确定超网络的每个嵌入层的输出维度，以得到至少一个子网络。

在另一种可能的实现方式中，上述多个候选输出维度组合，包括：第一候选输出维度组合、第二候选输出维度组合和第三候选输出维度组合；第一候选输出维度组合中每个候选输出维度为候选输出维度中的最大维度；第二候选输出维度组合中每个候选输出维度为候选输出维度中的最小维度；第三候选输出维度组合中每个候选输出维度为随机从候选输出维度中确定的输出维度。这样，在训练超网络的过程中，必定训练了最大模型(第一候选输出维度组合对应的初始网络模型)、最小模型(第二候选输出维度组合对应的初始网络模型)以及中间尺寸的模型(第三候选输出维度组合对应的初始网络模型)，保证了同时对超网络中各种可能的输出维度组合对应的嵌入层的参数矩阵的训练。

在另一种可能的实现方式中，上述初始网络模型还包括至少一个动态映射层，该至少一个动态映射层与至少一个嵌入层一一对应；动态映射层用于将对应的嵌入层的输出维度映射为预设维度。其中，预设维度为现有预测模型中嵌入层的输出维度，这样，在对现有预测模型进行升级的时候，只需要使用新的嵌入层与动态映射层替换原有嵌入层即可，起到了嵌入层的“动态可变”向后续网络结构的“固定不变”的稳定过渡作用。

在另一种可能的实现方式中，上述确定至少一个子网络中的目标子网络，包括：确定多个输出维度组合以及每个输出维度组合对应的子网络的预测精度；输出维度组合包括从候选输出维度中为子网络中每个嵌入层确定的输出维度；将数值最大的预测精度对应的子网络作为目标子网络。

在另一种可能的实现方式中，上述确定多个输出维度组合以及每个输出维度组合对应的子网络的预测精度，包括：生成两个搜索输出维度组合，搜索输出维度组合包括随机从候选输出维度中为子网络中每个嵌入层确定的输出维度；从至少一个子网络中确定出中间子网络，中间子网络与搜索输出维度组合对应；根据第二用户行为信息确定中间子网络的预测精度；第二用户行为信息包括用户的信息和资源的信息；存储中间子网络的预测精度与中间子网络的搜索输出维度组合的对应关系；步骤A：从当前的对应关系中随机选取两个预测精度；确定两个预测精度中数值较大的预测精度为目标预测精度；将目标预测精度对应的输出维度组合中的任意一个输出维度替换为新输出维度，得到一个新的输出维度组合；新输出维度为候选输出维度中的一个输出维度；获取新的输出维度组合对应的子网络的预测精度，并存储获取的预测精度与新的输出维度组合的对应关系；重复执行步骤A预设次数之后，得到多个输出维度组合以及每个输出维度组合对应的子网络的预测精度。这样，可以更高效的得到大于或等于阈值的预测精度。

在另一种可能的实现方式中，上述至少一个子网络对应一个超网络；超网络包括至少一个嵌入层以及其他网络层；上述从至少一个子网络中确定出中间子网络，包括：根据搜索输出维度组合，构建新子网络；新子网络包括嵌入层以及其他网络层；新子网络的嵌入层的输出维度组合为搜索输出维度组合；确定超网络中搜索输出维度组合对应的嵌入层的参数矩阵；并将参数矩阵对应赋值给新子网络的嵌入层，得到中间子网络。这样，得到的中间子网络直接沿用超网络中嵌入层已经训练过的参数矩阵，不需要参与训练即可用于根据用户行为信息预测用户处理资源的概率。

在另一种可能的实现方式中，上述确定至少一个子网络中的目标子网络，包括：步骤B:生成搜索输出维度组合，搜索输出维度组合包括从候选输出维度中为子网络中每个嵌入层确定的输出维度；从至少一个子网络中确定出中间子网络，中间子网络与搜索输出维度组合对应；根据第二用户行为信息确定中间子网络的预测精度；第二用户行为信息包括用户的信息和资源的信息；重复执行步骤B直至根据第二用户行为信息确定的中间子网络的预测精度大于或等于阈值；确定中间子网络为目标子网络。

在另一种可能的实现方式中，上述根据目标子网络的嵌入层的输出维度组合，确定预测模型，包括：将目标子网络确定为预测模型；或者；根据目标子网络的嵌入层的输出维度组合生成训练模型；获取第三用户行为信息；第三用户行为信息包括用户的信息和资源的信息；根据第三用户行为信息训练该训练模型，得到预测模型。

根据本公开实施例的第二方面，提供一种预测模型的确定装置，该确定装置包括：获取模块，被配置为获取第一用户行为信息，第一用户行为信息包括用户的信息和资源的信息；训练模块，被配置为根据第一用户行为信息训练初始网络模型，得到至少一个子网络；初始网络模型包括至少一个嵌入层；初始网络模型中嵌入层的初始输出维度为候选输出维度中的最大输出维度；子网络用于预测用户处理资源的概率；不同子网络的嵌入层的输出维度组合不同；输出维度组合包括对应子网络中每个嵌入层的输出维度；确定模块，被配置为确定至少一个子网络中的目标子网络；目标子网络的预测精度大于或等于阈值；根据目标子网络的嵌入层的输出维度组合，确定预测模型；预测模型用于预测用户处理资源的概率。

可选的，上述至少一个子网络对应一个超网络；确定模块还被配置为：确定初始网络模型的多个候选输出维度组合；训练模块具体被配置为：根据第一用户行为信息，对每个候选输出维度组合对应的初始网络模型进行训练，得到超网络；根据候选输出维度，确定超网络的每个嵌入层的输出维度，以得到至少一个子网络。

可选的，多个候选输出维度组合，包括：第一候选输出维度组合、第二候选输出维度组合和第三候选输出维度组合；第一候选输出维度组合中每个候选输出维度为候选输出维度中的最大维度；第二候选输出维度组合中每个候选输出维度为候选输出维度中的最小维度；第三候选输出维度组合中每个候选输出维度为随机从候选输出维度中确定的输出维度。

可选的，初始网络模型还包括至少一个动态映射层，至少一个动态映射层与至少一个嵌入层一一对应；动态映射层用于将对应的嵌入层的输出维度映射为预设维度。

可选的，确定模块具体被配置为：确定多个输出维度组合以及每个输出维度组合对应的子网络的预测精度；输出维度组合包括从候选输出维度中为子网络中每个嵌入层确定的输出维度；将数值最大的预测精度对应的子网络作为目标子网络。

可选的，确定模块具体被配置为：生成两个搜索输出维度组合，搜索输出维度组合包括随机从候选输出维度中为子网络中每个嵌入层确定的输出维度；从至少一个子网络中确定出中间子网络，中间子网络与搜索输出维度组合对应；根据第二用户行为信息确定中间子网络的预测精度；第二用户行为信息包括用户的信息和资源的信息；存储中间子网络的预测精度与中间子网络的搜索输出维度组合的对应关系；步骤A：从当前的对应关系中随机选取两个预测精度；确定两个预测精度中数值较大的预测精度为目标预测精度；将目标预测精度对应的输出维度组合中的任意一个输出维度替换为新输出维度，得到一个新的输出维度组合；新输出维度为候选输出维度中的一个输出维度；获取新的输出维度组合对应的子网络的预测精度，并存储获取的预测精度与新的输出维度组合的对应关系；重复执行步骤A预设次数之后，得到多个输出维度组合以及每个输出维度组合对应的子网络的预测精度。

可选的，上述至少一个子网络对应一个超网络；超网络包括至少一个嵌入层以及其他网络层；预测模型的确定装置还包括构建模块，被配置为：根据搜索输出维度组合，构建新子网络；新子网络包括嵌入层以及其他网络层；新子网络的嵌入层的输出维度组合为搜索输出维度组合；确定模块具体被配置为：确定超网络中搜索输出维度组合对应的嵌入层的参数矩阵；并将参数矩阵对应赋值给新子网络的嵌入层，得到中间子网络。

可选的，确定模块具体被配置为：步骤B:生成搜索输出维度组合，搜索输出维度组合包括从候选输出维度中为子网络中每个嵌入层确定的输出维度；从至少一个子网络中确定出中间子网络，中间子网络与搜索输出维度组合对应；根据第二用户行为信息确定中间子网络的预测精度；第二用户行为信息包括用户的信息和资源的信息；重复执行步骤B直至根据第二用户行为信息确定的中间子网络的预测精度大于或等于阈值；确定该中间子网络为目标子网络。

可选的，确定模块具体被配置为：将目标子网络确定为预测模型；或者；根据目标子网络的嵌入层的输出维度组合生成训练模型；获取第三用户行为信息；第三用户行为信息包括用户的信息和资源的信息；根据第三用户行为信息训练该训练模型，得到预测模型。

根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器。其中，处理器被配置为执行所述指令，以实现上述第一方面以及第一方面的任一种可能的实现方式所示的确定方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面以及第一方面的任一种可能的实现方式所示的确定方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，可直接加载到电子设备的内部存储器中，并含有软件代码，该计算机程序经由电子设备载入并执行后能够实现第一方面以及第一方面的任一种可能的实现方式所示的确定方法。

上述提供的任一种预测模型的确定装置、服务器、电子设备或计算机可读存储介质或计算机程序产品用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文提供的对应的方法中对应方案的有益效果，此处不再赘述。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的现有技术中预测模型的结构示意图；

图2是根据一示例性实施例示出的一种初始网络模型的结构示意图；

图3是根据一示例性实施例示出的一种预测模型的确定方法的流程示意图；

图4是根据一示例性实施例示出的一种嵌入层的参数矩阵的示意图；

图5是根据一示例性实施例示出的一种预测模型的确定装置框图；

图6是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，在本公开的实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本公开实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开实施例中，“至少一个”是指一个或多个。“多个”是指两个或两个以上。

在本公开实施例中，“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

在本公开实施例中，组合包括一个或多个对象。

目前，对于包括嵌入层的预测模型中每个嵌入层的输出维度(又称输出向量的维度，以下简称输出维度)的设计多采用固定维度的方式，从而造成嵌入层固定且统一的输出维度对于每个嵌入层未必最优，导致基于该预测模型训练得到的用户行为的预测模型的预测性能较差。基于此，针对包括嵌入层的预测模型来讲，实际上最好是对每个嵌入层设置对应该嵌入层最优的输出维度，从而使预测模型整体性能最优。但是，在实际预测模型的构建中，人工为每个嵌入层设计最适合的输出维度是非常困难的，需要通过海量的实验及试错，耗费大量人力(专业算法工程师)、物力(计算资源等)及时间，因此无法实际应用。

针对以上问题，本公开实施例提供一种预测模型的确定方法，能够自动化对预测模型中每个嵌入层的输出维度的组合进行搜索，从而在较短的时间内确定每个嵌入层更合适的输出维度。

本公开实施例提供的预测模型的确定方法可以应用于计算机设备。计算机设备可以是终端设备或服务器；其中，终端设备可以是智能手机、平板电脑、掌上电脑、车载终端、台式电脑以及笔记本电脑等终端设备。服务器可以是任意一个服务器或服务器集群。

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

在实施本公开实施例所提供的预测模型的确定方法之前，需要先构建初始网络模型。如图1所示为现有技术中预测模型的结构示意图。图1所示的预测模型包括多个嵌入层10(如图1中的10-1至10-4)和两个全连接层20(如图1中的20-1和20-2)。

其中，嵌入层10的输入均为高维稀疏特征1，嵌入层10的输出可以是低维浮点型特征。嵌入层10内部实际保存了一个二维参数矩阵，该矩阵的宽度W与输入嵌入层的稀疏特征的维度相同，矩阵的高度H表示嵌入层的输出维度。在一个例子中，假设，该预测模型的每个嵌入层10的输出维度均为48维，而该每个嵌入层10的输入维度不同，例如，一个嵌入层10的输入维度为96维，96维的输入维度无法用48维的输出维度来准确表征。因此，该嵌入层10的输出维度对于该嵌入层10来说并不是最佳输出维度。另一个嵌入层10的输入维度为12维，而48维的输出维度对于该输入维度来说过去冗余，因此，该输出维度对于该另一个嵌入层10来说也不是最佳输出维度。

全连接层20-1的输入可以为高维稠密特征2；图1所示的预测模型将全连接层20-1的输出与各个嵌入层10的输出进行特征交叉后输入全连接层20-2。图1所示的预测模型中每个嵌入层10的输出维度均相同。

在现有技术中预测模型的基础上构建本公开实施例所提供的初始网络模型，得到本公开提供的如图2所示的根据一示例性实施例示出的一种初始网络模型的结构示意图。

图2中使用整合层30替代图1所示的预测模型中的嵌入层10，图2中整合层30包括嵌入层和动态映射层，可选的，整合层30还包括归一化(batch normalization)层。

其中，嵌入层为可变输出维度的嵌入层。在一种可能的实现方式中，图2所示的预测模型中的嵌入层的输出维度通过输入该预测模型的输出维度组合参数的值设定。

动态映射层用于将嵌入层的输出特征映射为预设的维度。其中，预设的维度可以为上述图1所示预测模型中嵌入层10的固定输出维度。这样，嵌入层与动态映射层的结合能够实现上述图1中嵌入层固定输出维度的功能，尽管经过搜索之后每个嵌入层的输出维度可能不一样，但是经过动态映射层映射为之前模型的固定输出维度，可以使该预测模型后续的网络结构的维度完全保持不变，该组合起到了嵌入层的“动态可变”向后续网络结构的“固定不变”的稳定过渡作用。

归一化层用于将动态映射层的输出特征进行归一化处理，使得整合层30输出的特征的分布更切合输入整合层30的稀疏特征的真实分布，保证该预测模型的非线性表达能力，保证了训练该预测模型时的稳定性。

图2中其余部分与图1中相同不再赘述。

构建好如图2所示的初始网络模型之后，计算机设备就可以通过第一用户行为信息训练该初始网络模型，得到超网络。具体的，计算机设备将第一用户行为信息输入随机设定了嵌入层的输出维度的初始网络模型进行训练，得到超网络。可以理解的是，使用第一用户行为信息训练得到的超网络会根据每个嵌入层设定的不同输出维度的组合对应不同子网络。然后，计算机设备从得到的该超网络中搜索目标输出维度组合，根据该目标输出维度组合，确定预测模型，该预测模型用于预测用户处理资源的概率。

如图3所示，图3是根据一示例性实施例示出的一种预测模型的确定方法的流程示意图。图3所示的方法可以应用于计算机设备。图3所示的方法可以包括以下S100-S103。

S100：计算机设备获取第一用户行为信息，第一用户行为信息包括用户的信息和资源的信息。

用户的信息包括历史数据中用户的标识、用户的年龄、用户的性别、用户的学历、用户所在的位置、用户所使用设备的型号、用户是否处理资源的标识、用户处理资源的时间等信息。

资源的信息包括：资源标识、资源的类别等信息。在一个例子中，假设，资源为商品，那么，资源标识即为商品标识、资源的类别为商品的类别，资源的信息还包括商品价格、商品品牌等。

S101：计算机设备根据第一用户行为信息训练初始网络模型，得到至少一个子网络；初始网络模型包括至少一个嵌入层；初始网络模型中嵌入层的初始输出维度为候选输出维度中的最大输出维度；子网络用于预测用户处理资源的概率；不同子网络的嵌入层的输出维度组合不同；输出维度组合包括对应子网络中每个嵌入层的输出维度。

具体的，上述第一用户行为信息为该初始网络模型的嵌入层的输入。在一个例子中，假设，初始网络模型的一个嵌入层的输入为用户的性别，输入维度为2，那么，该嵌入层的输入可以为第一用户行为信息中用户的性别的2维特征向量。

需要说明的是，本公开对计算机设备中存储的候选输出维度(又称搜索空间)的存储形式不进行限定。在一个例子中，假设，候选输出维度存储在一个集合中，候选输出维度包括16、32、48、80、96。那么，该初始网络模型中每个嵌入层的初始输出维度为96。基于上述图1中嵌入层10的示例，嵌入层10的固定输出维度对于每个嵌入层10来说可能并不是最佳的输出维度，因此，本申请从候选输出维度中为初始网络模型中每个嵌入层确定输出维度，以搜索用于预测模型的嵌入层的更优输出维度组合。

具体的，计算机设备通过如下步骤得到至少一个子网络：

步骤一：计算机设备确定初始网络模型的多个候选输出维度组合。

该多个候选输出维度组合，包括：第一候选输出维度组合、第二候选输出维度组合和第三候选输出维度组合。其中，第一候选输出维度组合中每个候选输出维度为候选输出维度中的最大维度；第二候选输出维度组合中每个候选输出维度为候选输出维度中的最小维度；第三候选输出维度组合中每个候选输出维度为随机从候选输出维度中确定的输出维度。

可选的，计算机设备可以通过执行如下S1～S3，得到初始网络模型的多个候选输出维度组合：

S1：计算机设备将候选输出维度中的最大输出维度确定为该初始网络模型中每个嵌入层的输出维度，得到一个候选输出维度组合。

基于上述初始网络模型以及候选输出维度的示例，假设，该初始网络模型包括10个嵌入层，候选输出维度中的最大维度为96，那么，计算机设备得到的候选输出维度组合为(96，96，96，96，96，96，96，96，96，96)。

S2：计算机设备将候选输出维度中的最小输出维度确定为该初始网络模型中每个嵌入层的输出维度，得到一个候选输出维度组合。

基于上述初始网络模型以及候选输出维度的示例，计算机设备得到的候选输出维度组合为(16，16，16，16，16，16，16，16，16，16)。

S3：计算机设备随机从候选输出维度中为该初始网络模型中每个嵌入层确定输出维度，得到一个候选输出维度组合。

基于S1中的示例，计算机设备从候选输出维度中随机选择16作为第一个嵌入层的输出维度，计算机设备从候选输出维度中随机选择48作为第二个嵌入层的输出维度，计算机设备从候选输出维度中随机选择32作为第三个嵌入层的输出维度，计算机设备从候选输出维度中随机选择16作为第四个嵌入层的输出维度等，最终，计算机设备得到的候选输出维度组合为(16，48，32，16，80，96，16，80，48，32)。

可以理解的是，计算机设备可以执行R次上述S3得到R个候选输出维度组合。R为正整数。

步骤二：计算机设备根据第一用户行为信息，对每个候选输出维度组合对应的初始网络模型进行训练，得到超网络。

在一种可能的实现方式中，计算机设备根据第一用户行为信息训练得到的每个候选输出维度组合对应的初始网络模型，以得到超网络。

在另一种可能的实现方式中，计算机设备将第一用户行为信息分为多个批次，对于每一批次的用户行为信息，计算机设备均可以通过执行上述S1～S3，得到初始网络模型的多个候选输出维度组合。然后，计算机设备根据该批次的用户行为信息训练得到的每个候选输出维度组合对应的初始网络模型，以得到超网络。

可以理解的是，在训练初始网络模型的过程中，必然训练最大模型(上述第一候选输出维度组合对应的初始网络模型)和最小模型(上述第二候选输出维度组合对应的初始网络模型)，训练R个中间尺寸的模型(上述第三候选输出维度组合对应的初始网络模型)，从而保证初始网络模型的每个嵌入层的每个候选输出维度所对应的该初始网络模型的参数矩阵都能得到充分训练。这样，相当于同时训练初始网络模型的嵌入层各种可能的输出维度组合对应的初始网络模型，以得到超网络。基于S1中的示例，相当于同时训练了5¹⁰个输出维度组合对应的初始网络模型。

步骤三：计算机设备根据候选输出维度，确定超网络的每个嵌入层的输出维度，以得到至少一个子网络。

需要说明的是，得到的该至少一个子网络对应上述超网络。超网络的嵌入层的不同输出维度组合对应不同的子网络。

S102：计算机设备确定该至少一个子网络中的目标子网络；目标子网络的预测精度大于或等于阈值。

在一种可能的实现方式中，计算机设备通过如下步骤确定该至少一个子网络中的目标子网络：

步骤一：计算机设备确定多个输出维度组合以及每个输出维度组合对应的子网络的预测精度；输出维度组合包括从候选输出维度中为子网络中每个嵌入层确定的输出维度。

计算机设备可以通过执行如下S1～S6确定多个输出维度组合以及每个输出维度组合对应的子网络的预测精度：

S1:计算机设备生成两个搜索输出维度组合，搜索输出维度组合包括随机从候选输出维度中为子网络中每个嵌入层确定的输出维度。

在一个例子中，计算机设备生成的两个搜索输出维度组合分别为：(16，48，32，16，80，96，16，80，48，32)和(16，80，16，16，80，96，16，80，48，32)。

S2：计算机设备从该至少一个子网络中确定出中间子网络，中间子网络与搜索输出维度组合对应。

具体的，首先，计算机设备根据搜索输出维度组合，构建新子网络；该新子网络包括嵌入层以及其他网络层；新子网络的嵌入层的输出维度组合为该搜索输出维度组合。需要说明的是，其他网络层为构成一个完整的预测模型中除嵌入层之外的网络层。例如，基于图2的示例，其他网络层包括：动态映射层、归一化层、全连层层20-1以及全连接层20-2。

然后，计算机设备确定超网络中搜索输出维度组合对应的嵌入层的参数矩阵。

在一个例子中，超网络的一个嵌入层的完整参数矩阵为如图4中A图所示的5×4的参数矩阵。其中，5用于表征嵌入层的输入维度，4为嵌入层的输出维度。假设，计算机设备确定的该超网络中搜索输出维度组合对应的该嵌入层的输出维度为3，那么，对应该输出维度3的该嵌入层的参数矩阵为如图4中B图所示的虚线框中的5×3的矩阵。可以理解的是，计算机设备从超网络的完整参数矩阵中确定输出维度对应的参数矩阵也可以是其他的方式，例如，从右往左截取5×3的矩阵等与训练该超网络时设定初始网络模型的嵌入层的输出维度对应的其他方式。本公开对此不进行限定。

再然后，计算机设备将确定的参数矩阵对应赋值给新子网络的嵌入层，得到中间子网络。

S3：计算机设备根据第二用户行为信息确定中间子网络的预测精度；第二用户行为信息包括用户的信息和资源的信息。

具体的，计算机设备将第二用户行为信息输入该中间子网络，得到该中间子网络的预测精度。其中，用户的信息包括标定信息。对于该中间子网络，计算机设备首先将第二用户行为信息输入该中间子网络得到预测数据，然后，计算机设备根据标定数据与预测数据得到该中间子网络的预测精度。标定数据可以是第二用户行为信息中用户是否处理资源的数据，也可以是与第二用户行为信息对应的实际用户是否处理资源的数据，根据实际的测试方案而定，本公开对此不进行限定，在一个例子中，标定数据为第二用户行为信息中用户是否处理资源的标识。假设，计算机设备中的中间子网络得到的预测数据中80％的预测结果与对应的第二用户行为信息中用户是否处理资源的标识相匹配，那么，计算机设备得到该中间子网络的预测精度为80％。

可以理解的是，第二用户行为信息为与上述第一用户行为信息不同的用户行为信息，第二用户行为信息为用于确定中间子网络的预测精度的用户行为信息。

基于S1中的示例，计算机设备获取的输出维度组合为(16，80，16，16，80，96，16，80，48，32)的中间子网络的预测精度为80％，输出维度组合为(16，48，32，16，80，96，16，80，48，32)的中间子网络的预测精度为90％。

S4：计算机设备存储中间子网络的预测精度与中间子网络的搜索输出维度组合的对应关系。

基于S3中的示例，计算机设备存储的对应关系如下表1所示：

表1

输出维度组合	预测精度
		(16，80，16，16，80，96，16，80，48，32)	80％
(16，48，32，16，80，96，16，80，48，32)	90％

S5：首先，计算机设备从当前的对应关系中随机选取两个预测精度；计算机设备确定该两个预测精度中数值较大的预测精度为目标预测精度；计算机设备将目标预测精度对应的输出维度组合中的任意一个输出维度替换为新输出维度，得到一个新的输出维度组合；该新输出维度为候选输出维度中的一个输出维度；然后，计算机设备获取该新的输出维度组合对应的子网络的预测精度，并存储获取的预测精度与新的输出维度组合的对应关系。

S6：计算机设备重复执行S5预设次数之后，停止执行S5，得到多个输出维度组合以及每个输出维度组合对应的子网络的预测精度。

其中，预设次数可以为基于经验设定的阈值。示例性的，计算机设备重复执行S5达300次之后停止执行S5，得到302个输出维度组合以及每个输出维度组合对应的子网络的预测精度。

可以理解的是，计算机设备也可以在执行S5的过程中得到大于或等于阈值的预测精度的情况下终止执行S5。示例性的，计算机设备重复执行了100次S5之后得到新的输出维度组合为(16，32，16，16，80，96，16，80，48，32)，该新的输出维度组合对应的子网络的预测精度为98％，若预设阈值为95％，则计算机设备确定该新的输出维度组合对应的子网络为目标子网络。

计算机设备执行S1～S6利用了遗传算法，可以更高效的得到大于或等于阈值的预测精度。

步骤二：计算机设备将数值最大的预测精度对应的子网络作为目标子网络。

示例性的，计算机设备重复执行S5达300次之后，从存储的输出维度组合与预测精度的对应关系中确定最大的预测精度为98％。该预测精度98％对应的输出维度组合为(16，32，16，16，80，96，16，80，48，32)，计算机设备确定输出维度组合(16，32，16，16，80，96，16，80，48，32)对应的子网络为目标子网络。

在另一种可能的实现方式中，计算机设备执行步骤B：生成搜索输出维度组合，搜索输出维度组合包括从候选输出维度中为子网络中每个嵌入层确定的输出维度；从至少一个子网络中确定出中间子网络，中间子网络与搜索输出维度组合对应；根据第二用户行为信息确定中间子网络的预测精度；计算机设备重复执行步骤B直至根据第二用户行为信息确定的中间子网络的预测精度大于或等于阈值；然后，计算机设备确定该中间子网络为目标子网络。

S103:计算机设备根据目标子网络的嵌入层的输出维度组合，确定预测模型；预测模型用于预测用户处理资源的概率。

在一种可能的实现方式中，计算机设备将目标子网络确定为预测模型。

在另一种可能的实现方式中，首先，计算机设备根据目标子网络的嵌入层的输出维度组合生成训练模型。然后，计算机设备获取第三用户行为信息，第三用户行为信息包括用户的信息和资源的信息。再然后，计算机设备根据第三用户行为信息训练该训练模型，得到预测模型。需要说明的是，训练模型的嵌入层的输出维度组合与目标子网络的嵌入层的输出维度组合相同，训练模型的其他网络层与目标子网络的其他网络层也相同。

需要说明的是，第三用户行为信息可以是上述第一用户行为信息与第二用户行为信息的合集，也可以是计算机设备另外获取的用户行为信息，本公开对此不进行限定。

后续，计算机设备可以使用该预测模型预测用户处理资源的概率。在一个例子中，当用户登录了包括该预测模型的应用程序(如购物网站或搜索应用)之后，该应用程序获取用户行为信息(例如：由用户的搜索关键词、用户的年龄、用户的性别、用户所在的位置、用户所使用设备的型号以及用户登录时间等生成的用户行为信息)，并将获取的用户行为信息输入该预测模型，得到用户搜索的资源被处理的概率，根据资源被处理的概率从高到低将资源展示给用户。假如，用户在购物网站搜索了书名，那么，该预测模型就会得到该书名相关的多个商品以及用户点击每个商品的概率，该购物网站可以根据每个商品被点击的概率确定展示的商品，然后展示给用户。

在本公开实施例中，根据第一用户行为信息训练初始网络模型，得到至少一个子网络，从该至少一个子网络中搜索预测精度大于或等于阈值的目标子网络，这样，根据目标子网络的嵌入层的输出维度组合，确定的预测模型至少能够保证使用该预测模型预测用户处理资源的概率的预测精度大于或等于阈值，从而提高了确定的预测模型的性能。

上述主要从方法的角度对本公开实施例提供的方案进行了介绍。为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的方法步骤，本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

本公开实施例可以根据上述方法示例对计算机设备进行功能模块的划分，例如可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本公开实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

图5是根据一示例性实施例示出的一种预测模型的确定装置框图。参照图5，该预测模型的确定装置50包括获取模块501，被配置为获取第一用户行为信息，第一用户行为信息包括用户的信息和资源的信息；训练模块502，被配置为根据第一用户行为信息训练初始网络模型，得到至少一个子网络；初始网络模型包括至少一个嵌入层；初始网络模型中嵌入层的初始输出维度为候选输出维度中的最大输出维度；子网络用于预测用户处理资源的概率；不同子网络的嵌入层的输出维度组合不同；输出维度组合包括对应子网络中每个嵌入层的输出维度；确定模块503，被配置为确定至少一个子网络中的目标子网络；目标子网络的预测精度大于或等于阈值；根据目标子网络的嵌入层的输出维度组合，确定预测模型；预测模型用于预测用户处理资源的概率。例如，结合图3，获取模块501可以用于执行S100。训练模块502，可以用于执行S101。确定模块503可以用于执行S102～S103。

可选的，至少一个子网络对应一个超网络；确定模块503还被配置为：确定初始网络模型的多个候选输出维度组合；训练模块502具体被配置为：根据第一用户行为信息，对每个候选输出维度组合对应的初始网络模型进行训练，得到超网络；根据候选输出维度，确定超网络的每个嵌入层的输出维度，以得到至少一个子网络。

可选的，确定模块503具体被配置为：确定多个输出维度组合以及每个输出维度组合对应的子网络的预测精度；输出维度组合包括从候选输出维度中为子网络中每个嵌入层确定的输出维度；将数值最大的预测精度对应的子网络作为目标子网络。

可选的，确定模块503具体被配置为：生成两个搜索输出维度组合，搜索输出维度组合包括随机从候选输出维度中为子网络中每个嵌入层确定的输出维度；从至少一个子网络中确定出中间子网络，中间子网络与搜索输出维度组合对应；根据第二用户行为信息确定中间子网络的预测精度；第二用户行为信息包括用户的信息和资源的信息；存储中间子网络的预测精度与中间子网络的搜索输出维度组合的对应关系；步骤A：从当前的对应关系中随机选取两个预测精度；确定两个预测精度中数值较大的预测精度为目标预测精度；将目标预测精度对应的输出维度组合中的任意一个输出维度替换为新输出维度，得到一个新的输出维度组合；新输出维度为候选输出维度中的一个输出维度；获取新的输出维度组合对应的子网络的预测精度，并存储获取的预测精度与新的输出维度组合的对应关系；重复执行步骤A预设次数之后，得到多个输出维度组合以及每个输出维度组合对应的子网络的预测精度。其中，预设次数可以为基于经验设定的阈值。

可选的，至少一个子网络对应一个超网络；超网络包括至少一个嵌入层以及其他网络层；预测模型的确定装置50还包括构建模块504，被配置为：根据搜索输出维度组合，构建新子网络；新子网络包括嵌入层以及其他网络层；新子网络的嵌入层的输出维度组合为搜索输出维度组合；确定模块503具体被配置为：确定超网络中搜索输出维度组合对应的嵌入层的参数矩阵；并将参数矩阵对应赋值给新子网络的嵌入层，得到中间子网络。

可选的，确定模块503具体被配置为：步骤B:生成搜索输出维度组合，搜索输出维度组合包括从候选输出维度中为子网络中每个嵌入层确定的输出维度；从至少一个子网络中确定出中间子网络，中间子网络与搜索输出维度组合对应；根据第二用户行为信息确定中间子网络的预测精度；第二用户行为信息包括用户的信息和资源的信息；重复执行步骤B直至根据第二用户行为信息确定的中间子网络的预测精度大于或等于阈值；确定中间子网络为目标子网络。

可选的，确定模块503具体被配置为：将目标子网络确定为预测模型；或者；根据目标子网络的嵌入层的输出维度组合生成训练模型；获取第三用户行为信息；第三用户行为信息包括用户的信息和资源的信息；根据第三用户行为信息训练该训练模型，得到预测模型。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。此外，上述提供的任一种预测模型的确定装置50的解释以及有益效果的描述均可参考上述对应的方法实施例，不再赘述。

图6是根据一示例性实施例示出的一种电子设备的框图。如图6所示，电子设备6060包括但不限于：处理器601、存储器602、显示器603、输入单元604、接口单元605和电源606等。

其中，上述的处理器601，用于存储上述处理器可执行指令的存储器。可以理解，上述处理器601被配置为执行上述图3所示实施例中任一步骤。即，上述电子设备60的框图可以作为上述预测模型的确定装置50的硬件结构图。

需要说明的是，本领域技术人员可以理解，图6中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图6所示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

处理器601是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器602内的软件程序和/或模块，以及调用存储在存储器602内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器601可包括一个或多个处理单元；可选的，处理器601可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器601中。

存储器602可用于存储软件程序以及各种数据。存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能单元所需的应用程序(比如获取单元、收发单元或合并单元等)等。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

显示器603用于显示由用户输入的信息或提供给用户的信息。显示器603可包括显示面板，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(OrganicLight-Emitting Diode，OLED)等形式来配置显示面板。

输入单元604可以包括图形处理器(Graphics Processing Unit，GPU)，图形处理器可以对获取的实时多媒体资源进行处理，并显示在显示器603上。经图形处理器处理后的多媒体资源可以存储在存储器602(或其它存储介质)中。

接口单元605为外部装置与电子设备60连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元605可以用于接收来自外部装置的输入(例如，数据信息等)并且将接收到的输入传输到电子设备60内的一个或多个元件或者可以用于在电子设备60和外部装置之间传输数据。

电源606(比如电池)可以用于为各个部件供电，可选的，电源606可以通过电源管理系统与处理器601逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

在示例性实施例中，本公开实施例还提供了一种包括指令的存储介质，例如包括指令的存储器602，上述指令可由电子设备60的处理器601执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在一个示例中，参见图5，上述获取模块501的处理功能、训练模块502、确定模块503以及构建模块504均可以由图6中的处理器601调用存储器602中存储的计算机程序实现。

在示例性实施例中，本公开实施例还提供了一种包括一条或多条指令的计算机程序产品，该一条或多条指令可以由电子设备60的处理器601执行以完成上述方法。

需要说明的是，上述存储介质中的指令或计算机程序产品中的一条或多条指令被处理器601执行时实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种预测模型的确定方法，其特征在于，所述方法包括：

获取第一用户行为信息，所述第一用户行为信息包括用户的信息和资源的信息；

根据所述第一用户行为信息训练初始网络模型，得到至少一个子网络；所述初始网络模型包括至少一个嵌入层；所述初始网络模型中嵌入层的初始输出维度为候选输出维度中的最大输出维度；所述子网络用于预测用户处理资源的概率；不同子网络的嵌入层的输出维度组合不同；所述输出维度组合包括对应子网络中每个嵌入层的输出维度；

确定所述至少一个子网络中的目标子网络；所述目标子网络的预测精度大于或等于阈值；

根据所述目标子网络的嵌入层的输出维度组合，确定所述预测模型；所述预测模型用于预测用户处理资源的概率。

2.根据权利要求1所述的确定方法，其特征在于，所述至少一个子网络对应一个超网络；所述根据所述第一用户行为信息训练初始网络模型，得到至少一个子网络，包括：

确定所述初始网络模型的多个候选输出维度组合；

根据所述第一用户行为信息，对每个候选输出维度组合对应的所述初始网络模型进行训练，得到所述超网络；

根据所述候选输出维度，确定所述超网络的每个嵌入层的输出维度，以得到所述至少一个子网络。

3.根据权利要求2所述的确定方法，其特征在于，

所述多个候选输出维度组合，包括：第一候选输出维度组合、第二候选输出维度组合和第三候选输出维度组合；所述第一候选输出维度组合中每个候选输出维度为所述候选输出维度中的最大维度；所述第二候选输出维度组合中每个候选输出维度为所述候选输出维度中的最小维度；所述第三候选输出维度组合中每个候选输出维度为随机从所述候选输出维度中确定的输出维度。

4.根据权利要求3所述的确定方法，其特征在于，所述初始网络模型还包括至少一个动态映射层，所述至少一个动态映射层与所述至少一个嵌入层一一对应；所述动态映射层用于将对应的嵌入层的输出维度映射为预设维度。

5.根据权利要求1-4任一项所述的确定方法，其特征在于，所述确定所述至少一个子网络中的目标子网络，包括：

确定多个输出维度组合以及每个输出维度组合对应的子网络的预测精度；所述输出维度组合包括从所述候选输出维度中为子网络中每个嵌入层确定的输出维度；

将数值最大的预测精度对应的子网络作为所述目标子网络。

6.根据权利要求5所述的确定方法，其特征在于，所述确定多个输出维度组合以及每个输出维度组合对应的子网络的预测精度，包括：

生成两个搜索输出维度组合，所述搜索输出维度组合包括随机从所述候选输出维度中为子网络中每个嵌入层确定的输出维度；

从所述至少一个子网络中确定出中间子网络，所述中间子网络与所述搜索输出维度组合对应；

根据第二用户行为信息确定所述中间子网络的预测精度；所述第二用户行为信息包括用户的信息和资源的信息；

存储所述中间子网络的预测精度与所述中间子网络的搜索输出维度组合的对应关系；

步骤A：从当前的对应关系中随机选取两个预测精度；确定所述两个预测精度中数值较大的预测精度为目标预测精度；将所述目标预测精度对应的输出维度组合中的任意一个输出维度替换为新输出维度，得到一个新的输出维度组合；所述新输出维度为所述候选输出维度中的一个输出维度；获取所述新的输出维度组合对应的子网络的预测精度，并存储获取的预测精度与所述新的输出维度组合的对应关系；

重复执行所述步骤A预设次数之后，得到多个输出维度组合以及每个输出维度组合对应的子网络的预测精度。

7.一种预测模型的确定装置，其特征在于，包括：

获取模块，被配置为获取第一用户行为信息，所述第一用户行为信息包括用户的信息和资源的信息；

训练模块，被配置为根据所述第一用户行为信息训练初始网络模型，得到至少一个子网络；所述初始网络模型包括至少一个嵌入层；所述初始网络模型中嵌入层的初始输出维度为候选输出维度中的最大输出维度；所述子网络用于预测用户处理资源的概率；不同子网络的嵌入层的输出维度组合不同；所述输出维度组合包括对应子网络中每个嵌入层的输出维度；

确定模块，被配置为确定所述至少一个子网络中的目标子网络；所述目标子网络的预测精度大于或等于阈值；根据所述目标子网络的嵌入层的输出维度组合，确定所述预测模型；所述预测模型用于预测用户处理资源的概率。

8.一种电子设备，其特征在于，包括：

处理器和用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述可执行指令，以实现如权利要求1-6任一项所述的确定方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1-6任一项所述的确定方法。

10.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1-6中任一项所述的确定方法。