CN115587257B

CN115587257B - 模型超参数优化方法、存储介质和电子设备

Info

Publication number: CN115587257B
Application number: CN202211592282.XA
Authority: CN
Inventors: 王桢; 程安达; 李雅亮; 丁博麟
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2023-04-07
Anticipated expiration: 2042-12-13
Also published as: CN115587257A

Abstract

本申请公开了一种模型超参数优化方法、存储介质和电子设备。其中，该方法包括：获取第一嵌入表示和第一统计模型；基于第一嵌入表示和第一统计模型进行联邦学习过程中的部分训练迭代轮次，获取第二嵌入表示和第二统计模型，其中，第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示，第二统计模型是对第一统计模型的模型性能指标进行优化后得到的模型；通过第二嵌入表示和第二统计模型进行联邦超参数优化，得到第一配置数据。本申请解决了相关技术中依赖完整训练迭代轮次或者单一策略网络进行联邦超参数优化导致超参数优化过程个性化难度大、资源消耗大且搜索效率低的技术问题。

Description

模型超参数优化方法、存储介质和电子设备

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种模型超参数优化方法、存储介质和电子设备。

背景技术

机器学习算法对超参数往往非常敏感，机器学习得到的模型的性能在很大程度上取决于超参数的选取。在联邦学习这样的分布式机器学习的过程中，不同的联邦参与者之间的数据分布不同（也即非独立同分布，non-IID），因此，联邦学习过程中的超参数优化问题实际上是极高维度的搜索问题，该搜索问题的搜索空间为各个联邦学习参与者的超参数搜索空间的笛卡尔积。并且，联邦学习为分布式机器学习，每次超参数评估都涉及多方通信，导致超参数优化过程成本极高，根据现有技术提供的方法无法在合理的资源消耗范围内实现超参数优化。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种模型超参数优化方法、存储介质和电子设备，以至少解决相关技术中依赖完整训练迭代轮次或者单一策略网络进行联邦超参数优化导致超参数优化过程个性化难度大、资源消耗大且搜索效率低的技术问题。

根据本发明实施例的一个方面，提供了一种模型超参数优化方法，包括：获取第一嵌入表示和第一统计模型，其中，第一嵌入表示为多个客户端中每个客户端对应的初始嵌入表示，第一统计模型为多个客户端共享的策略网络模型；基于第一嵌入表示和第一统计模型进行联邦学习过程中的部分训练迭代轮次，获取第二嵌入表示和第二统计模型，其中，第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示，第二统计模型是对第一统计模型的模型性能指标进行优化后得到的模型；通过第二嵌入表示和第二统计模型进行联邦超参数优化，得到第一配置数据，其中，第一配置数据为多个客户端中每个客户端对应的目标个性化超参数配置。

根据本发明实施例的另一方面，还提供了一种模型超参数优化方法，包括：获取商品推荐数据的第一嵌入表示和第一商品推荐统计模型，其中，第一嵌入表示为多个客户端中每个客户端对应的初始嵌入表示，第一商品推荐统计模型为多个客户端共享的策略网络模型；基于第一嵌入表示和第一商品推荐统计模型进行联邦学习过程中的部分商品推荐训练迭代轮次，获取商品推荐数据的第二嵌入表示和第二商品推荐统计模型，其中，第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示，第二商品推荐统计模型是对第一商品推荐统计模型的模型性能指标进行优化后得到的模型；通过第二嵌入表示和第二商品推荐统计模型进行联邦超参数优化，得到第一配置数据，其中，第一配置数据为多个客户端中每个客户端对应的目标个性化超参数配置。

根据本发明实施例的另一方面，还提供了一种模型超参数优化方法，包括：获取新闻推荐数据的第一嵌入表示和第一新闻推荐统计模型，其中，第一嵌入表示为多个客户端中每个客户端对应的初始嵌入表示，第一新闻推荐统计模型为多个客户端共享的策略网络模型；基于第一嵌入表示和第一新闻推荐统计模型进行联邦学习过程中的部分新闻推荐训练迭代轮次，获取新闻推荐数据的第二嵌入表示和第二新闻推荐统计模型，其中，第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示，第二新闻推荐统计模型是对第一新闻推荐统计模型的模型性能指标进行优化后得到的模型；通过第二嵌入表示和第二新闻推荐统计模型进行联邦超参数优化，得到第一配置数据，其中，第一配置数据为多个客户端中每个客户端对应的目标个性化超参数配置。

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，上述计算机可读存储介质包括存储的程序，其中，在上述程序运行时控制上述计算机可读存储介质所在设备执行任意一项上述的模型超参数优化方法。

根据本发明实施例的另一方面，还提供了一种电子设备，包括：处理器；以及存储器，与上述处理器连接，用于为上述处理器提供处理以下处理步骤的指令：获取第一嵌入表示和第一统计模型，其中，第一嵌入表示为多个客户端中每个客户端对应的初始嵌入表示，第一统计模型为多个客户端共享的策略网络模型；基于第一嵌入表示和第一统计模型进行联邦学习过程中的部分训练迭代轮次，获取第二嵌入表示和第二统计模型，其中，第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示，第二统计模型是对第一统计模型的模型性能指标进行优化后得到的模型；通过第二嵌入表示和第二统计模型进行联邦超参数优化，得到第一配置数据，其中，第一配置数据为多个客户端中每个客户端对应的目标个性化超参数配置。

在本发明实施例中，获取第一嵌入表示和第一统计模型，其中，第一嵌入表示为多个客户端中每个客户端对应的初始嵌入表示，第一统计模型为多个客户端共享的策略网络模型，进一步基于第一嵌入表示和第一统计模型进行联邦学习，得到训练结果，其中，训练结果为联邦学习的完整训练课程得到的结果，通过利用训练结果中的部分训练课程，获取第二嵌入表示和第二统计模型，其中，第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示，第二统计模型是对第一统计模型的模型性能指标进行优化后得到的模型，并通过第二嵌入表示和第二统计模型进行联邦超参数优化，得到第一配置数据，其中，第一配置数据为多个客户端中每个客户端对应的目标个性化超参数配置。由此，本发明实施例达到了基于联邦学习中的部分联邦训练课程为多个客户端同时搜索它们各自的优化超参数配置的目的，从而实现了在合理的资源消耗范围内提高个性化的联邦超参数优化的效率的技术效果，进而解决了相关技术中依赖完整训练迭代轮次或者单一策略网络进行联邦超参数优化导致超参数优化过程个性化难度大、资源消耗大且搜索效率低的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了一种用于实现模型超参数优化方法的计算机终端（或移动设备）的硬件结构框图；

图2是根据本申请实施例的一种模型超参数优化方法的流程图；

图3是根据本申请实施例的一种可选的模型超参数优化过程的示意图；

图4是根据本申请实施例的另一种模型超参数优化方法的流程图；

图5是根据本申请实施例的又一种模型超参数优化方法的流程图；

图6是根据本申请实施例的一种模型超参数优化装置的结构示意图；

图7是根据本申请实施例的一种可选的模型超参数优化装置的结构示意图；

图8是根据本申请实施例的另一种模型超参数优化装置的结构示意图；

图9是根据本申请实施例的另一种可选的模型超参数优化装置的结构示意图；

图10是根据本申请实施例的又一种模型超参数优化装置的结构示意图；

图11是根据本申请实施例的另一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

联邦学习（Federated learning）：是指一种机器学习范式。在联邦学习的过程中，由多个参与者合作训练一个模型，其中，多个参与者中每个参与者的数据“不出域”，也即是说，每个参与者的数据不需要暴露给其他参与者。通过联邦学习能够实现在保护参与者隐私数据的前提下进行多个参与者对模型的合作训练。

服务器（Server）：在本申请的实施例中指在联邦学习过程中负责聚合信息的计算节点。

客户端（Client）：在本申请的实施例中指在联邦学习过程中为合作训练模型而加入联邦的计算节点。客户端拥有一部分数据。

超参数优化（Hyperparameter optimization）：是指针对某个机器学习算法，从指定的超参数的搜索空间中搜索优化超参数配置的过程。特别地，联邦超参数优化（Federated hyperparameter optimization）指在联邦学习过程中为机器学习算法进行的超参数优化。

非独立同分布（non-Independent and Identically Distributed，non-IID）：指两个或多个样本集合不是从同一个概率分布中采样获得的，且该两个或多个样本集合之间具有相关性（即非独立）。

个性化（Personalization）：在本申请的实施例中指在联邦学习过程中为每个联邦参与者学习独有的模型或为每个联邦参与者搜索专门的超参数配置的过程。

策略网络（Policy network）：是指基于深度神经网络的决策模型，策略网络的输出结果用于采样或决策待执行的动作。

嵌入表示（embedding）：为某个概念或实体指派一个向量用于表示该概念或实体。不同实体对应的向量之间的距离能够反映该不同实体之间的相似性。

黑盒优化（black-box optimization）：指目标函数为黑盒函数的优化问题。在黑盒优化中，缺少目标函数的解析形式，无法对目标函数进行求导等分析手段，通过多次查询（即给定某个输入，获得目标函数的输出值）来寻找该目标函数的最小/大值。

实施例1

根据本申请实施例，还提供了一种模型超参数优化方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例1所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现模型超参数优化方法的计算机终端（或移动设备）的硬件结构框图。如图1所示，计算机终端10（或移动设备10）可以包括一个或多个（图中采用102a，102b，……，102n来示出）处理器102（处理器102可以包括但不限于微处理器（Microcontroller Unit，MCU）或可编程逻辑器件（Field Programmable Gate Array，FPGA）等的处理装置）、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口（I/O接口）、通用串行总线（Universal SerialBus，USB）端口（可以作为计算机总线的端口中的一个端口被包括）、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10（或移动设备）中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制（例如与接口连接的可变电阻终端路径的选择）。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的模型超参数优化方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的模型超参数优化方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器（Network Interface Controller，NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频（Radio Frequency，RF）模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器（Liquid Crystal Display，LCD），该液晶显示器可使得用户能够与计算机终端10（或移动设备）的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备（或移动设备）可以包括硬件元件（包括电路）、软件元件（包括存储在计算机可读介质上的计算机代码）、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备（或移动设备）中的部件的类型。

随着全社会对隐私保护的日益关注，联邦学习的形式在机器学习场景下得到快速普及和广泛应用。相应地，为联邦学习算法搜索适用度高且个性化的超参数配置（也即联邦学习超参数优化）成为相关技术领域的重要问题之一。

然而，在联邦学习这样的分布式机器学习的过程中，不同的联邦参与者之间的数据分布不同（也即非独立同分布，non-IID），因此，联邦学习过程中的超参数优化问题实际上是极高维度的搜索问题，该搜索问题的搜索空间为各个联邦学习参与者的超参数搜索空间的笛卡尔积。并且，联邦学习为分布式机器学习，每次超参数评估都涉及多方通信，导致超参数优化过程成本极高，根据现有技术提供的方法无法在合理的资源消耗范围内实现超参数优化。

相关技术中，对联邦学习算法的超参数进行优化的方法主要有两种：第一种，直接针对各个联邦参与者的超参数搜索空间的笛卡尔积，采用传统的超参数优化方法进行超参数配置搜索，这种方法资源消耗巨大且效率极低；第二种，在每轮超参数的搜索评估中，令不同联邦参与者对从同一个策略网络中采样得到的不同超参数配置进行评估，以此提高超参数配置的搜索效率，但这种方法的缺陷在于依赖单一的策略网络，当策略网络收敛于一个确定性策略时，会认定某一个确定的超参数配置为最优解，无法实现个性化的联邦超参数优化，不能为不同的联邦参与者同时搜寻它们各自的优化超参数配置。

针对上述的问题，目前尚未提出有效的解决方案。

在上述运行环境下，本申请提供了如图2所示的一种模型超参数优化方法。图2是根据本申请实施例的一种模型超参数优化方法的流程图，如图2所示，该模型超参数优化方法包括：

步骤S21，获取第一嵌入表示和第一统计模型，其中，第一嵌入表示为多个客户端中每个客户端对应的初始嵌入表示，第一统计模型为多个客户端共享的策略网络模型；

步骤S22，基于第一嵌入表示和第一统计模型进行联邦学习过程中的部分训练迭代轮次，获取第二嵌入表示和第二统计模型，其中，第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示，第二统计模型是对第一统计模型的模型性能指标进行优化后得到的模型；

步骤S23，通过第二嵌入表示和第二统计模型进行联邦超参数优化，得到第一配置数据，其中，第一配置数据为多个客户端中每个客户端对应的目标个性化超参数配置。

在本申请实施例提供的上述方法步骤中，上述多个客户端为联邦学习过程中为合作训练模型而加入联邦的计算节点。多个客户端的每个客户端都拥有一部分自己的数据。上述第一嵌入表示为上述多个客户端中每个客户端对应的初始嵌入表示。初始嵌入表示为对客户端进行随机初始化得到的嵌入表示。

上述第一统计模型与上述第二统计模型的类型既可以是神经网络模型等深度学习模型，也可以是其他类型统计模型，例如：随机森林等统计模型。此处不做具体限制。

具体地，上述第一统计模型为上述多个客户端共享的决策网络模型。多个客户端之间为权重共享（weight-sharing）关系。权重共享是指令不同的超参数配置共享同一组模型参数的机制，通过权重共享能够评估超参数配置的优劣。

上述决策网络模型为超网络（Hyper Net）。超网络是指一种神经网络模型，超网络包含多个客户端。在超网络中，为不同的客户端学习用于刻画该不同的客户端之间的关系（如相似性等）的编码（通常为嵌入表示）时，通过将编码输入某个客户端，超网络能够输出该客户端需要的结果。

基于第一嵌入表示和第一统计模型进行联邦学习过程中的部分训练迭代轮次，获取第二嵌入表示和第二统计模型。上述部分训练迭代轮次为联邦学习过程中的完整训练迭代轮次中的多个训练迭代轮次，该多个训练迭代轮次可以从完整训练迭代轮次中随机选取，也可以从完整训练迭代轮次中指定，不做具体限制。

容易理解的是，上述第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示，第二统计模型是对第一统计模型的模型性能指标进行优化后得到的模型，第二陷入表示与第二统计模型用于进行联邦超参数优化，也就是说，根据本申请实施例提供的上述方法步骤，在消耗联邦学习过程中的部分训练迭代轮次对应的资源的情况下，得到用于联邦超参数优化的目标嵌入表示和待使用的第二统计模型，能够提高超参数的搜索效率。

通过上述第二嵌入表示和上述第二统计模型进行联邦超参数优化，得到第一配置数据，也即，基于上述多个客户端中每个客户端对应的目标嵌入表示，以及经模型性能优化后的决策网络模型，进行优化超参数配置搜索，得到多个客户端中每个客户端对应的目标个性化超参数配置。

上述通过第二嵌入表示和第二统计模型所进行的联邦超参数优化为多保真度（multi-fidelity）优化。多保真度是指超参数优化中的一种技术手段。在超参数优化中，对目标函数进行评估时执行对应的机器学习算法导致评估成本高，对此，现有技术在应用场景中考虑采用减少评估次数的方式（如训练部分轮次、在某个数据子集上训练、训练神经网络模型的部分网络层等）来降低评估成本。而与现有技术相比，将某个超参数优化算法在超参数优化过程中使用不同的保真度进行评估的方法称为多保真度的超参数优化方法。

容易理解的是，本申请实施例提出一种模型超参数优化方法，在联邦学习的过程中，利用不同联邦参与者之间的相似度，通过联邦学习课程的拆分对模型的超参数进行低保真度的评估，从而在仅消耗若干轮完整联邦学习课程对应的资源的情况下搜索得到适用度高且个性化的超参数配置，也即提高了超参数的搜索效率。

需要说明的是，本申请实施例提供的上述方法可以但不限于应用于健康、科学、社会、语言和艺术等领域中任何涉及机器学习的模型超参数优化场景中，尤其是适用于联邦学习中的模型超参数优化场景中。

在本申请实施例中，获取第一嵌入表示和第一统计模型，其中，第一嵌入表示为多个客户端中每个客户端对应的初始嵌入表示，第一统计模型为多个客户端共享的策略网络模型，进一步基于第一嵌入表示和第一统计模型进行联邦学习，得到训练结果，其中，训练结果为联邦学习的完整训练课程得到的结果，通过利用训练结果中的部分训练课程，获取第二嵌入表示和第二统计模型，其中，第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示，第二统计模型是对第一统计模型的模型性能指标进行优化后得到的模型，并通过第二嵌入表示和第二统计模型进行联邦超参数优化，得到第一配置数据，其中，第一配置数据为多个客户端中每个客户端对应的目标个性化超参数配置。由此，本申请实施例达到了基于联邦学习中的部分联邦训练课程为多个客户端同时搜索它们各自的优化超参数配置的目的，从而实现了在合理的资源消耗范围内提高个性化的联邦超参数优化的效率的技术效果，进而解决了相关技术中依赖完整训练迭代轮次或者单一策略网络进行联邦超参数优化导致超参数优化过程个性化难度大、资源消耗大且搜索效率低的技术问题。

以下以联邦学习中超参数优化场景为例，对本申请实施例的技术方案进行进一步的具体说明。

在一种可选的实施例中，在步骤S22中，基于第一嵌入表示和第一统计模型进行联邦学习过程中的部分训练迭代轮次，获取第二嵌入表示和第二统计模型，包括如下方法步骤：

步骤S221，基于第一嵌入表示和第一统计模型进行联邦学习，得到训练结果，其中，训练结果为联邦学习过程的完整训练迭代轮次得到的结果；

步骤S222，利用训练结果中的部分训练迭代轮次，获取第二嵌入表示和第二统计模型。

基于第一嵌入表示和第一统计模型进行联邦学习，也即基于第一嵌入表示和第一统计模型经过联邦学习的完整训练课程（即上述联邦学习过程的完整训练迭代轮次）进行联邦学习，得到对应的训练结果。训练结果中包含联邦学习的完整训练课程的完整训练迭代轮次中每个训练迭代轮次对应的结果。

上述训练结果中的部分训练课程（即完整训练迭代轮次中的部分训练迭代轮次）为，从训练结果中联邦学习的完整训练课程中按照预设选取规则选取（如随机选取）的部分训练课程，也即，从完整训练课程的完整训练迭代轮次中按照预设选取规则选取的部分训练迭代轮次。利用上述部分训练课程，获取上述第二嵌入表示和上述第二统计模型。第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示，目标嵌入表示为上述部分训练课程对应的嵌入表示。第二统计模型为上述多个客户端共享的策略网络模型（即第一统计模型）经模型性能指标优化后得到的模型，所进行的模型性能指标优化由上述部分训练课程确定。上述策略网络模型为基于深度神经网络的决策模型，策略网络模型的输出结果用于采样或决策待执行的动作（如超参数优化动作）。

在对联邦学习中超参数进行优化时，首先对联邦学习的多个客户端中每个客户端进行随机初始化，得到每个客户端的初始嵌入表示，然后，获取一个多个客户端共享的策略网络模型（即上述第一统计模型）。多个客户端共享的策略网络模型为超网络。

在一种可选的实施例中，在步骤S221中，基于第一嵌入表示和第一统计模型进行联邦学习，得到训练结果，包括如下方法步骤：

步骤S2211，将第一嵌入表示输入至第一统计模型，输出第二配置数据，其中，第二配置数据为多个客户端中每个客户端对应的初始个性化超参数配置；

步骤S2212，基于第二配置数据进行联邦学习，记录第一统计模型在第一数量训练迭代轮次中每个训练迭代轮次的模型状态记录与模型性能指标，得到训练结果。

在上述可选的实施例中，将联邦学习中多个客户端中每个客户端的初始嵌入表示输入至该多个客户端共享的策略网络模型（即上述第一统计模型），该策略网络模型能够为每个客户端个性化地采样得到它们各自的初始个性化超参数配置。策略网络模型将每个客户端对应的初始个性化超参数配置输出为第二配置数据。

基于策略网络模型采样得到的多个客户端中每个客户端的初始个性化超参数配置，进行联邦学习的完整训练课程，该完整训练课程包括多个训练迭代轮次（即上述第一数量训练迭代轮次）。在联邦学习的完整训练课程中，记录每个训练迭代轮次的模型状态记录（例如：模型快照）和该训练迭代轮次的模型性能指标。该每个训练迭代轮次的模型快照可以作为基线（Baseline）的模型快照，该训练迭代轮次的模型性能指标可以作为基线的模型性能指标。

在一种可选的实施例中，在步骤S222中，利用部分训练迭代轮次，获取第二嵌入表示和第二统计模型，包括如下方法步骤：

步骤S2221，基于部分训练迭代轮次获取第三神经网络模型，其中，第三神经网络模型为第一数量训练迭代轮次中第一迭代轮次训练得到的模型；

步骤S2222，利用第一嵌入表示对第三神经网络模型进行训练，确定目标函数的目标取值；

步骤S2223，采用目标函数的目标取值对第一嵌入表示和第一统计模型进行持续更新，直至满足预设条件，得到第二嵌入表示和第二统计模型。

在上述可选的实施例中，从完整训练课程包含的完整训练迭代轮次中随机选取某个训练迭代轮次作为目标函数评估的起始轮次（相当于上述第一迭代轮次），从完整训练课程包含的完整训练迭代轮次中随机选取某个训练迭代轮次作为目标函数评估的结束轮次（相当于上述第二迭代轮次）。上述起始轮次和上述结束轮次之间的多个训练迭代轮次为部分训练迭代轮次。

根据上述起始轮次对应的模型状态记录和模型性能指标进行训练，得到上述第三神经网络模型。进一步地，利用联邦学习中多个客户端中每个客户端的初始嵌入表示对上述第三神经网络模型进行训练，确定上述目标函数的目标取值（也即目标函数的评估值）。

利用目标函数的目标取值，对多个客户端中每个客户端的初始嵌入表示和多个客户端共享的策略网络模型（即第一统计模型）进行持续更新，直到初始超网络模型收敛或者预先指定的算力资源被用完，得到多个客户端中每个客户端的目标嵌入表示，得到对上述策略网络模型的模型性能指标进行优化后的超网络模型。

在一种可选的实施例中，在步骤S2221中，基于部分训练迭代轮次获取第三神经网络模型，包括如下方法步骤：

步骤S22211，基于部分训练迭代轮次确定第一迭代轮次的模型状态记录；

步骤S22212，利用第一迭代轮次的模型状态记录恢复第三神经网络模型。

在上述可选的实施例中，上述模型状态记录为模块快照。基于联邦学习中的部分训练迭代轮次，确定目标函数评估的起始轮次对应的模型快照。根据该起始轮次对应的模型快照进行模型恢复，得到上述第三神经网络模型。

在一种可选的实施例中，在步骤S2222中，利用第一嵌入表示对第三神经网络模型进行训练，确定目标函数的目标取值，包括如下方法步骤：

步骤S22221，基于第一嵌入表示对第三神经网络模型进行第二数量训练迭代轮次的训练，获取第四神经网络模型，其中，第四神经网络模型为第二数量训练迭代轮次中第二迭代轮次训练得到的模型；

步骤S22222，通过第一迭代轮次对应的模型性能指标与第二迭代轮次对应的模型性能指标，确定目标函数的初始取值；

步骤S22223，利用第二数量训练迭代轮次中各个迭代轮次对应的模型性能指标对目标函数的初始取值进行更新，得到目标函数的目标取值。

在上述可选的实施例中，利用联邦学习中多个客户端中每个客户端的初始嵌入表示对上述第三神经网络模型进行随机轮次训练（也即上述第二数量训练迭代轮次），进而获取第四神经网络模型。该随机轮次训练的训练轮数（即第二数量）为随机决定的。该第四神经网络模型为上述目标函数评估的结束轮次（即上述第二迭代轮次）训练得到的模型。

进一步地，考虑与初始轮次（即上述第一迭代轮次）对应的模型性能指标相比，结束轮次（即上述第二迭代轮次）对应的模型性能指标的提升值作为目标函数的初始取值。

进一步地，利用联邦学习中部分训练迭代轮次（即从起始轮次到结束轮次之间的训练迭代轮次）中每个训练迭代轮次对应的模型性能指标的提升值，对上述目标函数的初始取值进行调整，确定上述目标函数的目标取值。

在一种可选的实施例中，第二数量训练迭代轮次小于第一数量训练迭代轮次。

在上述可选的实施例中，第二数量训练迭代轮次为联邦学习中的部分训练迭代轮次。第一数量训练迭代轮次为联邦学习中的完整训练迭代轮次。上述部分训练迭代轮次从上述完整训练迭代轮次中随机选取得到，也就是说第二数量训练迭代轮次小于第一数量训练迭代轮次。

在一种可选的实施例中，在步骤S22223中，利用第二数量训练迭代轮次中各个迭代轮次对应的模型性能指标对目标函数的初始取值进行更新，得到目标函数的目标取值，包括如下方法步骤：

步骤S22224，获取第二迭代轮次对应的模型性能指标相对于第一迭代轮次对应的模型性能指标的性能提升幅度；

步骤S22225，通过性能提升幅度确定初始性能基线；

步骤S22226，利用第二数量训练迭代轮次中各个迭代轮次对应的模型性能指标对初始性能基线进行更新，得到目标性能基线；

步骤S22227，基于目标性能基线对目标函数的初始取值进行更新，得到目标函数的目标取值。

在上述可选的实施例中，与初始轮次（即上述第一迭代轮次）对应的模型性能指标相比，确定结束轮次（即上述第二迭代轮次）对应的模型性能指标的提升值，通过该提升值确定初始性能基线（Baseline）。

进一步地，利用联邦学习中部分训练迭代轮次（即从起始轮次到结束轮次之间的训练迭代轮次）中每个训练迭代轮次对应的模型性能指标，对初始性能基线（Baseline）进行校正更新，得到上述目标性能基线。该目标性能基线为待使用的基线。利用上述确定目标性能基线对目标函数的初始取值进行更新，得到上述目标函数的目标取值。

图3是根据本申请实施例的一种可选的模型超参数优化过程的示意图，如图3所示，通过对联邦学习设定下多个客户端中每个客户端对应的嵌入表示（图3中所示的嵌入表示1、嵌入表示2和嵌入表示3）和超网络进行训练，以多个客户端中每个客户端对应的嵌入表示作为对该客户端的编码输入至超网络，以该超网络作为决策网络，该超网络的输出为每个客户端（图3中所示的客户端1、客户端2和客户端3）对应的超参数配置（图3中所示的超参数配置1、超参数配置2和超参数配置3）。此外，每个客户端将联邦学习中每个训练迭代轮次对应的模型性能指标反馈至超网络。

本申请实施例提供的上述方法，能够在联邦学习设定下对多个联邦参与者（即多个客户端）实现个性化的超参数优化，还能够降低优化超参数配置的搜索成本（包括搜索时间和搜索性能消耗），有利于技术场景中应用。

在本申请实施例中，通过对联邦学习设定下多个客户端中每个客户端对应的嵌入表示和超网络进行训练，以某个客户端对应的嵌入表示作为对该客户端的编码输入至超网络，以该超网络作为决策网络，该超网络的输出为该客户端对应的超参数配置。通过上述方法，能够避免为了实现个性化的超参数优化而为每个客户端训练一个独立的策略网络，也就是说，采用超网络作为多个客户端共享的策略网络，充分利用了多个客户端之间的共性与差异，降低了联邦学习的样本复杂度，从而降低优化超参数配置的搜索成本。

在本申请实施例中，通过联邦学习的完整训练课程中的部分训练课程（通常为若干个通信轮次）来进行目标函数的评估，也就是说，通过训练迭代轮数来控制保真度。通过保留超参数优化过程中在先的训练阶段所积累的模型快照和阶段性性能指标，本申请实施例提供的方法中，能够支持从一个完整的联邦学习课程中的某一个中间迭代轮次作为目标函数的评估的起始与终止。此外，本申请实施例还提出通过比较在先的阶段性性能指标来计算目标函数的值，由此使得多保真度方法对应的优化目标函数等价于原目标函数。

容易理解的是，本申请实施例提供的模型超参数优化方法中，通过客户端的嵌入表示和一个超网络，为联邦学习中多个客户端的每个客户端个性化地搜索到对应的超参数配置，通过多保真度方法来评估搜索到的超参数配置，按照该超参数配置训练超网络和客户端的嵌入表示。

容易理解的是，本申请实施例的技术创新点在于：能够提供一种个性化联邦超参数优化的算法；能够提供一种拆解完整联邦学习训练课程的多保真度黑盒函数评估方法，涉及到训练课程的不同阶段，使得多保真度的优化目标等价于完整保真度的黑盒函数评估结果；能够在利用有限的算力资源的情况下实现个性化的联邦超参数优化。

在一种可选的实施例中，通过终端设备提供一图形用户界面，图形用户界面所显示的内容至少部分地包含一个性化超参数配置场景，模型超参数优化方法还包括如下方法步骤：

步骤S241，响应作用于图形用户界面的第一触控操作，从多个候选嵌入表示中选取第一嵌入表示；

步骤S242，响应作用于图形用户界面的第二触控操作，从多个候选统计模型中选取第一统计模型；

步骤S243，基于第一嵌入表示和第一统计模型进行联邦学习以获取第二嵌入表示和第二统计模型，以及通过第二嵌入表示和第二统计模型进行联邦超参数优化以得到第一配置数据。

在上述可选的实施例中，上述图形用户界面所显示的个性化超参数配置场景可以是联邦学习设定下为多个客户端进行个性化超参数配置的场景。

上述图形用户界面还包括第一控件（或第一触控区域），当检测到作用于第一控件（或第一触控区域）的第一触控操作时，从多个候选嵌入表示中选取第一嵌入表示，第一嵌入表示用于作为联邦学习中多个客户端中每个客户端的初始嵌入表示。

上述图形用户界面还包括第二控件（或第二触控区域），当检测到作用于第二控件（或第二触控区域）的第二触控操作时，从多个候选统计模型中选取第一统计模型，第一统计模型用于作为联邦学习中多个客户端共享的决策网络模型。

基于第一嵌入表示和第一统计模型进行联邦学习以获取第二嵌入表示和第二统计模型，以及通过第二嵌入表示和第二统计模型进行联邦超参数优化以得到第一配置数据。第一配置数据为联邦学习中多个客户端对应的个性化优化超参数配置。

上述基于第一嵌入表示和第一统计模型进行联邦学习以获取第二嵌入表示和第二统计模型，以及上述通过第二嵌入表示和第二统计模型进行联邦超参数优化以得到第一配置数据的具体实现过程，可以参照上文中对比步骤S21至步骤S23的具体说明，不予赘述。

需要说明的是，上述第一触控操作和上述第二触控操作均可以是用户用手指接触上述终端设备的显示屏并触控该终端设备的操作。该触控操作可以包括单点触控、多点触控，其中，每个触控点的触控操作可以包括点击、长按、重按、划动等。上述第一触控操作和上述第二触控操作还可以是通过鼠标、键盘等输入设备实现的触控操作。

在上述运行环境下，本申请提供了如图4所示的一种模型超参数优化方法。图4是根据本申请实施例的另一种模型超参数优化方法的流程图，如图4所示，该模型超参数优化方法，包括：

步骤S41，获取商品推荐数据的第一嵌入表示和第一商品推荐统计模型，其中，第一嵌入表示为多个客户端中每个客户端对应的初始嵌入表示，第一商品推荐统计模型为多个客户端共享的策略网络模型；

步骤S42，基于第一嵌入表示和第一商品推荐统计模型进行联邦学习过程中的部分商品推荐训练迭代轮次，获取商品推荐数据的第二嵌入表示和第二商品推荐统计模型，其中，第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示，第二商品推荐统计模型是对第一商品推荐统计模型的模型性能指标进行优化后得到的模型；

步骤S43，通过第二嵌入表示和第二商品推荐统计模型进行联邦超参数优化，得到第一配置数据，其中，第一配置数据为多个客户端中每个客户端对应的目标个性化超参数配置。

基于第一嵌入表示和第一商品推荐统计模型进行联邦学习过程中的部分商品推荐训练迭代轮次，获取商品推荐数据的第二嵌入表示和第二商品推荐统计模型包括：

基于第一嵌入表示和第一商品推荐统计模型进行联邦学习，得到商品推荐训练结果，其中，商品推荐训练结果为商品推荐联邦学习的完整训练迭代轮次得到的结果；

利用商品推荐训练结果中的部分商品推荐训练迭代轮次，获取商品推荐数据的第二嵌入表示和第二商品推荐统计模型。

在本申请实施例提供的上述方法步骤中，上述多个客户端为商品推荐联邦学习过程中为合作训练模型而加入联邦的计算节点。多个客户端的每个客户端都拥有一部分自己的商品推荐数据。上述第一嵌入表示为上述多个客户端中每个客户端对应的初始嵌入表示。初始嵌入表示为对客户端进行随机初始化得到的嵌入表示。

上述第一商品推荐统计模型与上述第二商品推荐统计模型的类型既可以是神经网络模型等深度学习模型，也可以是其他类型统计模型，例如：随机森林等统计模型。此处不做具体限制。

具体地，上述第一商品推荐统计模型为上述多个客户端共享的决策网络模型。多个客户端之间为权重共享（weight-sharing）关系。权重共享是指令不同的超参数配置共享同一组模型参数的机制，通过权重共享能够评估超参数配置的优劣。

基于第一嵌入表示和第一商品推荐统计模型进行商品推荐联邦学习，也即基于第一嵌入表示和第一商品推荐统计模型经过完整训练课程包含的完整训练迭代轮次进行商品推荐联邦学习，得到对应的商品推荐训练结果。商品推荐训练结果中包含商品推荐联邦学习的完整训练课程包含的完整训练迭代轮次中每个训练迭代轮次对应的结果。

上述商品推荐训练结果中的部分商品推荐训练迭代轮次为，从商品推荐训练结果中商品推荐联邦学习的完整训练课程包含的完整训练迭代轮次中按照预设选取规则选取（如随机选取）的部分商品推荐训练迭代轮次。利用上述部分商品推荐训练迭代轮次，获取上述第二嵌入表示和上述第二商品推荐统计模型。第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示，目标嵌入表示为上述部分商品推荐训练课程对应的嵌入表示。第二商品推荐统计模型为上述多个客户端共享的策略网络模型（即第一商品推荐统计模型）经模型性能指标优化后得到的模型，所进行的模型性能指标优化由上述部分商品推荐训练课程确定。

通过上述第二嵌入表示和上述第二商品推荐统计模型进行联邦超参数优化，得到第一配置数据，也即，基于上述多个客户端中每个客户端对应的目标嵌入表示，以及经模型性能优化后的决策网络模型，进行优化超参数配置搜索，得到多个客户端中每个客户端对应的目标个性化超参数配置。

上述通过第二嵌入表示和第二商品推荐统计模型所进行的联邦超参数优化为多保真度（multi-fidelity）优化。多保真度是指超参数优化中的一种技术手段。在超参数优化中，对目标函数进行评估时执行对应的机器学习算法导致评估成本高，对此，现有技术在应用场景中考虑采用减少评估次数的方式（如训练部分轮次、在某个数据子集上训练、训练神经网络模型的部分网络层等）来降低评估成本。而与现有技术相比，将某个超参数优化算法在超参数优化过程中使用不同的保真度进行评估的方法称为多保真度的超参数优化方法。

容易理解的是，本申请实施例提出一种模型超参数优化方法，在商品推荐联邦学习的过程中，利用不同联邦参与者之间的相似度，通过商品推荐联邦学习课程的拆分对模型的超参数进行低保真度的评估，从而在仅消耗若干轮完整商品推荐联邦学习课程对应的资源的情况下搜索得到适用度高且个性化的超参数配置，也即提高了超参数的搜索效率。

在本申请实施例中，获取商品推荐数据的第一嵌入表示和第一商品推荐统计模型，其中，第一嵌入表示为多个客户端中每个客户端对应的初始嵌入表示，第一商品推荐统计模型为多个客户端共享的策略网络模型，进一步基于第一嵌入表示和第一商品推荐统计模型进行商品推荐联邦学习过程中的部分商品推荐训练迭代轮次，获取商品推荐数据的第二嵌入表示和第二商品推荐统计模型，其中，第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示，第二商品推荐统计模型是对第一商品推荐统计模型的模型性能指标进行优化后得到的模型，并通过第二嵌入表示和第二商品推荐统计模型进行联邦超参数优化，得到第一配置数据，其中，第一配置数据为多个客户端中每个客户端对应的目标个性化超参数配置。由此，本申请实施例达到了基于商品推荐联邦学习中的部分联邦训练课程为多个客户端同时搜索它们各自的优化超参数配置的目的，从而实现了在合理的资源消耗范围内提高个性化的联邦超参数优化的效率的技术效果，进而解决了相关技术中依赖完整训练迭代轮次或者单一策略网络进行联邦超参数优化导致超参数优化过程个性化难度大、资源消耗大且搜索效率低的技术问题。

在一种可选的实施例中，通过终端设备提供一图形用户界面，图形用户界面所显示的内容至少部分地包含一商品推荐关联的个性化超参数配置场景，模型超参数优化方法还包括如下方法步骤：

步骤S451，响应作用于图形用户界面的第一触控操作，从商品推荐数据的多个候选嵌入表示中选取第一嵌入表示；

步骤S452，响应作用于图形用户界面的第二触控操作，从多个候选商品推荐统计模型中选取第一商品推荐统计模型；

步骤S453，基于第一嵌入表示和第一商品推荐统计模型进行联邦学习以获取第二嵌入表示和第二商品推荐统计模型，以及通过第二嵌入表示和第二商品推荐统计模型进行联邦超参数优化以得到第一配置数据。

在上述可选的实施例中，上述图形用户界面所显示的个性化超参数配置场景可以是商品推荐联邦学习设定下为多个客户端进行商品推荐关联的个性化超参数配置的场景。

上述图形用户界面还包括第一控件（或第一触控区域），当检测到作用于第一控件（或第一触控区域）的第一触控操作时，从商品推荐数据的多个候选嵌入表示中选取第一嵌入表示，第一嵌入表示用于作为商品推荐联邦学习中多个客户端中每个客户端的初始嵌入表示。

上述图形用户界面还包括第二控件（或第二触控区域），当检测到作用于第二控件（或第二触控区域）的第二触控操作时，从多个候选商品推荐统计模型中选取第一商品推荐统计模型，第一商品推荐统计模型用于作为商品推荐联邦学习中多个客户端共享的决策网络模型。

基于第一嵌入表示和第一商品推荐统计模型进行商品推荐联邦学习以获取商品推荐数据的第二嵌入表示和第二商品推荐统计模型，以及通过第二嵌入表示和第二商品推荐统计模型进行联邦超参数优化以得到第一配置数据。第一配置数据为商品推荐联邦学习中多个客户端对应的个性化优化超参数配置。

上述基于第一嵌入表示和第一商品推荐统计模型进行商品推荐联邦学习以获取商品推荐数据的第二嵌入表示和第二商品推荐统计模型，以及上述通过第二嵌入表示和第二商品推荐统计模型进行联邦超参数优化以得到第一配置数据的具体实现过程，可以参照上文中对比步骤S41至步骤S43的具体说明，不予赘述。

在上述运行环境下，本申请提供了如图5所示的一种模型超参数优化方法。图5是根据本申请实施例的又一种模型超参数优化方法的流程图，如图5所示，该模型超参数优化方法，包括：

步骤S51，获取新闻推荐数据的第一嵌入表示和第一新闻推荐统计模型，其中，第一嵌入表示为多个客户端中每个客户端对应的初始嵌入表示，第一新闻推荐统计模型为多个客户端共享的策略网络模型；

步骤S52，基于第一嵌入表示和第一新闻推荐统计模型进行联邦学习过程中的部分新闻推荐训练迭代轮次，获取新闻推荐数据的第二嵌入表示和第二新闻推荐统计模型，其中，第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示，第二新闻推荐统计模型是对第一新闻推荐统计模型的模型性能指标进行优化后得到的模型；

步骤S53，通过第二嵌入表示和第二新闻推荐统计模型进行联邦超参数优化，得到第一配置数据，其中，第一配置数据为多个客户端中每个客户端对应的目标个性化超参数配置。

基于第一嵌入表示和第一新闻推荐统计模型进行联邦学习过程中的部分新闻推荐训练迭代轮次，获取新闻推荐数据的第二嵌入表示和第二新闻推荐统计模型包括：

基于第一嵌入表示和第一新闻推荐统计模型进行联邦学习，得到新闻推荐训练结果，其中，新闻推荐训练结果为新闻推荐联邦学习的完整训练迭代轮次得到的结果；

利用新闻推荐训练结果中的部分新闻推荐训练迭代轮次，获取新闻推荐数据的第二嵌入表示和第二新闻推荐统计模型。

在本申请实施例提供的上述方法步骤中，上述多个客户端为新闻推荐联邦学习过程中为合作训练模型而加入联邦的计算节点。多个客户端的每个客户端都拥有一部分自己的新闻推荐数据。上述第一嵌入表示为上述多个客户端中每个客户端对应的初始嵌入表示。初始嵌入表示为对客户端进行随机初始化得到的嵌入表示。

上述第一新闻推荐统计模型与上述第二新闻推荐统计模型的类型既可以是神经网络模型等深度学习模型，也可以是其他类型统计模型，例如：随机森林等统计模型。此处不做具体限制。

具体地，上述第一新闻推荐统计模型为上述多个客户端共享的决策网络模型。多个客户端之间为权重共享（weight-sharing）关系。权重共享是指令不同的超参数配置共享同一组模型参数的机制，通过权重共享能够评估超参数配置的优劣。

基于第一嵌入表示和第一新闻推荐统计模型进行新闻推荐联邦学习，也即基于第一嵌入表示和第一新闻推荐统计模型经过完整训练课程包含的完整训练迭代轮次进行新闻推荐联邦学习，得到对应的新闻推荐训练结果。完整训练课程包括多个轮次的新闻推荐联邦训练，该新闻推荐训练结果中包含新闻推荐联邦学习的完整训练课程包含的完整训练迭代轮次中每个训练迭代轮次对应的结果。

上述新闻推荐训练结果中的部分新闻推荐训练迭代轮次为，从新闻推荐训练结果中新闻推荐联邦学习的完整训练课程包含的完整训练迭代轮次中按照预设选取规则选取（如随机选取）的部分新闻推荐训练迭代轮次。利用上述部分新闻推荐训练迭代轮次，获取上述第二嵌入表示和上述第二新闻推荐统计模型。第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示，目标嵌入表示为上述部分新闻推荐训练课程对应的嵌入表示。第二新闻推荐统计模型为上述多个客户端共享的策略网络模型（即第一新闻推荐统计模型）经模型性能指标优化后得到的模型，所进行的模型性能指标优化由上述部分新闻推荐训练课程确定。

通过上述第二嵌入表示和上述第二新闻推荐统计模型进行联邦超参数优化，得到第一配置数据，也即，基于上述多个客户端中每个客户端对应的目标嵌入表示，以及经模型性能优化后的决策网络模型，进行优化超参数配置搜索，得到多个客户端中每个客户端对应的目标个性化超参数配置。

上述通过第二嵌入表示和第二新闻推荐统计模型所进行的联邦超参数优化为多保真度（multi-fidelity）优化。多保真度是指超参数优化中的一种技术手段。在超参数优化中，对目标函数进行评估时执行对应的机器学习算法导致评估成本高，对此，现有技术在应用场景中考虑采用减少评估次数的方式（如训练部分轮次、在某个数据子集上训练、训练神经网络模型的部分网络层等）来降低评估成本。而与现有技术相比，将某个超参数优化算法在超参数优化过程中使用不同的保真度进行评估的方法称为多保真度的超参数优化方法。

容易理解的是，本申请实施例提出一种模型超参数优化方法，在新闻推荐联邦学习的过程中，利用不同联邦参与者之间的相似度，通过新闻推荐联邦学习课程的拆分对模型的超参数进行低保真度的评估，从而在仅消耗若干轮完整新闻推荐联邦学习课程对应的资源的情况下搜索得到适用度高且个性化的超参数配置，也即提高了超参数的搜索效率。

在本申请实施例中，获取新闻推荐数据的第一嵌入表示和第一新闻推荐统计模型，其中，第一嵌入表示为多个客户端中每个客户端对应的初始嵌入表示，第一新闻推荐统计模型为多个客户端共享的策略网络模型，进一步基于第一嵌入表示和第一新闻推荐统计模型进行新闻推荐联邦学习过程中的部分新闻推荐训练迭代轮次，获取新闻推荐数据的第二嵌入表示和第二新闻推荐统计模型，其中，第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示，第二新闻推荐统计模型是对第一新闻推荐统计模型的模型性能指标进行优化后得到的模型，并通过第二嵌入表示和第二新闻推荐统计模型进行联邦超参数优化，得到第一配置数据，其中，第一配置数据为多个客户端中每个客户端对应的目标个性化超参数配置。由此，本申请实施例达到了基于新闻推荐联邦学习中的部分联邦训练课程为多个客户端同时搜索它们各自的优化超参数配置的目的，从而实现了在合理的资源消耗范围内提高个性化的联邦超参数优化的效率的技术效果，进而解决了相关技术中依赖完整训练迭代轮次或者单一策略网络进行联邦超参数优化导致超参数优化过程个性化难度大、资源消耗大且搜索效率低的技术问题。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如只读存储器（Read-Only Memory，ROM）、随机存取器（Random Access Memory，RAM）、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，或者网络设备等）执行本申请各个实施例所述的方法。

实施例2

根据本申请实施例，还提供了一种用于实施上述模型超参数优化方法的装置实施例，图6是根据本申请实施例的一种模型超参数优化装置的结构示意图，如图6所示，该装置包括：获取模块601、训练模块602和优化模块603，其中，获取模块601，用于获取第一嵌入表示和第一统计模型，其中，第一嵌入表示为多个客户端中每个客户端对应的初始嵌入表示，第一统计模型为多个客户端共享的策略网络模型；训练模块602，用于基于第一嵌入表示和第一统计模型进行联邦学习过程中的部分训练迭代轮次，获取第二嵌入表示和第二统计模型，其中，第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示，第二统计模型是对第一统计模型的模型性能指标进行优化后得到的模型；优化模块603，用于通过第二嵌入表示和第二统计模型进行联邦超参数优化，得到第一配置数据，其中，第一配置数据为多个客户端中每个客户端对应的目标个性化超参数配置。

可选地，上述训练模块602还用于：基于第一嵌入表示和第一统计模型进行联邦学习，得到训练结果，其中，训练结果为联邦学习过程的完整训练迭代轮次得到的结果；利用训练结果中的部分训练迭代轮次，获取第二嵌入表示和第二统计模型。

可选地，上述训练模块602还用于：将第一嵌入表示输入至第一统计模型，输出第二配置数据，其中，第二配置数据为多个客户端中每个客户端对应的初始个性化超参数配置；基于第二配置数据进行联邦学习，记录第一统计模型在第一数量训练迭代轮次中每个训练迭代轮次的模型状态记录与模型性能指标，得到训练结果。

可选地，上述训练模块602还用于：基于部分训练迭代轮次获取第三神经网络模型，其中，第三神经网络模型为第一数量训练迭代轮次中第一迭代轮次训练得到的模型；利用第一嵌入表示对第三神经网络模型进行训练，确定目标函数的目标取值；采用目标函数的目标取值对第一嵌入表示和第一统计模型进行持续更新，直至满足预设条件，得到第二嵌入表示和第二统计模型。

可选地，上述训练模块602还用于：基于部分训练迭代轮次确定第一迭代轮次的模型状态记录；利用第一迭代轮次的模型状态记录恢复第三神经网络模型。

可选地，上述训练模块602还用于：基于第一嵌入表示对第三神经网络模型进行第二数量训练迭代轮次的训练，获取第四神经网络模型，其中，第四神经网络模型为第二数量训练迭代轮次中第二迭代轮次训练得到的模型；通过第一迭代轮次对应的模型性能指标与第二迭代轮次对应的模型性能指标，确定目标函数的初始取值；利用第二数量训练迭代轮次中各个迭代轮次对应的模型性能指标对目标函数的初始取值进行更新，得到目标函数的目标取值。

可选地，在上述训练模块602中，第二数量训练迭代轮次小于第一数量训练迭代轮次。

可选地，在上述训练模块602中，获取第二迭代轮次对应的模型性能指标相对于第一迭代轮次对应的模型性能指标的性能提升幅度；通过性能提升幅度确定初始性能基线；利用第二数量训练迭代轮次中各个迭代轮次对应的模型性能指标对初始性能基线进行更新，得到目标性能基线；基于目标性能基线对目标函数的初始取值进行更新，得到目标函数的目标取值。

可选地，图7是根据本申请实施例的一种可选的模型超参数优化装置的结构示意图，如图7所示，该装置除包括图6所示的所有模块外，还包括：显示模块604，用于响应作用于图形用户界面的第一触控操作，从多个候选嵌入表示中选取第一嵌入表示；响应作用于图形用户界面的第二触控操作，从多个候选统计模型中选取第一统计模型；基于第一嵌入表示和第一统计模型进行联邦学习以获取第二嵌入表示和第二统计模型，以及通过第二嵌入表示和第二统计模型进行联邦超参数优化以得到第一配置数据。

此处需要说明的是，上述第一获取模块601、训练模块602和优化模块603对应于实施例1中的步骤S21至步骤S23，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

在本申请实施例中，获取第一嵌入表示和第一统计模型，其中，第一嵌入表示为多个客户端中每个客户端对应的初始嵌入表示，第一统计模型为多个客户端共享的策略网络模型，进一步基于第一嵌入表示和第一统计模型进行联邦学习过程中的部分训练迭代轮次，获取第二嵌入表示和第二统计模型，其中，第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示，第二统计模型是对第一统计模型的模型性能指标进行优化后得到的模型，并通过第二嵌入表示和第二统计模型进行联邦超参数优化，得到第一配置数据，其中，第一配置数据为多个客户端中每个客户端对应的目标个性化超参数配置。由此，本申请实施例达到了基于联邦学习中的部分联邦训练迭代轮次为多个客户端同时搜索它们各自的优化超参数配置的目的，从而实现了在合理的资源消耗范围内提高个性化的联邦超参数优化的效率的技术效果，进而解决了相关技术中依赖完整训练迭代轮次或者单一策略网络进行联邦超参数优化导致超参数优化过程个性化难度大、资源消耗大且搜索效率低的技术问题。

根据本申请实施例，还提供了一种用于实施上述另一种模型超参数优化方法的装置实施例，图8是根据本申请实施例的另一种模型超参数优化装置的结构示意图，如图8所示，该装置包括：获取模块801、训练模块802和优化模块803，其中，获取模块801，用于获取商品推荐数据的第一嵌入表示和第一商品推荐统计模型，其中，第一嵌入表示为多个客户端中每个客户端对应的初始嵌入表示，第一商品推荐统计模型为多个客户端共享的策略网络模型；训练模块802，用于基于第一嵌入表示和第一商品推荐统计模型进行联邦学习过程中的部分商品推荐训练迭代轮次，获取商品推荐数据的第二嵌入表示和第二商品推荐统计模型，其中，第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示，第二商品推荐统计模型是对第一商品推荐统计模型的模型性能指标进行优化后得到的模型；优化模块803，用于通过第二嵌入表示和第二商品推荐统计模型进行联邦超参数优化，得到第一配置数据，其中，第一配置数据为多个客户端中每个客户端对应的目标个性化超参数配置。

可选地，图9是根据本申请实施例的另一种可选的模型超参数优化装置的结构示意图，如图9所示，该装置除包括图8所示的所有模块外，还包括：显示模块804，用于响应作用于图形用户界面的第一触控操作，从商品推荐数据的多个候选嵌入表示中选取第一嵌入表示；响应作用于图形用户界面的第二触控操作，从多个候选商品推荐统计模型中选取第一商品推荐统计模型；基于第一嵌入表示和第一商品推荐统计模型进行联邦学习以获取第二嵌入表示和第二商品推荐统计模型，以及通过第二嵌入表示和第二商品推荐统计模型进行联邦超参数优化以得到第一配置数据。

此处需要说明的是，上述获取模块801、训练模块802和优化模块803对应于实施例1中的步骤S41至步骤S43，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

在本申请实施例中，获取商品推荐数据的第一嵌入表示和第一商品推荐统计模型，其中，第一嵌入表示为多个客户端中每个客户端对应的初始嵌入表示，第一商品推荐统计模型为多个客户端共享的策略网络模型，进一步基于第一嵌入表示和第一商品推荐统计模型进行商品推荐联邦学习过程中的部分商品推荐训练迭代轮次，获取商品推荐数据的第二嵌入表示和第二商品推荐统计模型，其中，第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示，第二商品推荐统计模型是对第一商品推荐统计模型的模型性能指标进行优化后得到的模型，并通过第二嵌入表示和第二商品推荐统计模型进行联邦超参数优化，得到第一配置数据，其中，第一配置数据为多个客户端中每个客户端对应的目标个性化超参数配置。由此，本申请实施例达到了基于商品推荐联邦学习中的部分联邦训练迭代轮次为多个客户端同时搜索它们各自的优化超参数配置的目的，从而实现了在合理的资源消耗范围内提高个性化的联邦超参数优化的效率的技术效果，进而解决了相关技术中依赖完整训练迭代轮次或者单一策略网络进行联邦超参数优化导致超参数优化过程个性化难度大、资源消耗大且搜索效率低的技术问题。

根据本申请实施例，还提供了一种用于实施上述又一种模型超参数优化方法的装置实施例，图10是根据本申请实施例的又一种模型超参数优化装置的结构示意图，如图10所示，该装置包括：获取模块1001、训练模块1002和优化模块1003，其中，获取模块1001，用于获取新闻推荐数据的第一嵌入表示和第一新闻推荐统计模型，其中，第一嵌入表示为多个客户端中每个客户端对应的初始嵌入表示，第一新闻推荐统计模型为多个客户端共享的策略网络模型；训练模块1002，用于基于第一嵌入表示和第一新闻推荐统计模型进行联邦学习过程中的部分新闻推荐训练迭代轮次，获取新闻推荐数据的第二嵌入表示和第二新闻推荐统计模型，其中，第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示，第二新闻推荐统计模型是对第一新闻推荐统计模型的模型性能指标进行优化后得到的模型；优化模块1003，用于通过第二嵌入表示和第二新闻推荐统计模型进行联邦超参数优化，得到第一配置数据，其中，第一配置数据为多个客户端中每个客户端对应的目标个性化超参数配置。

此处需要说明的是，上述获取模块1001、训练模块1002和优化模块1003对应于实施例1中的步骤S51至步骤S53，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

在本申请实施例中，获取新闻推荐数据的第一嵌入表示和第一新闻推荐统计模型，其中，第一嵌入表示为多个客户端中每个客户端对应的初始嵌入表示，第一新闻推荐统计模型为多个客户端共享的策略网络模型，进一步基于第一嵌入表示和第一新闻推荐统计模型进行新闻推荐联邦学习过程中的部分新闻推荐训练迭代轮次，获取新闻推荐数据的第二嵌入表示和第二新闻推荐统计模型，其中，第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示，第二新闻推荐统计模型是对第一新闻推荐统计模型的模型性能指标进行优化后得到的模型，并通过第二嵌入表示和第二新闻推荐统计模型进行联邦超参数优化，得到第一配置数据，其中，第一配置数据为多个客户端中每个客户端对应的目标个性化超参数配置。由此，本申请实施例达到了基于新闻推荐联邦学习中的部分联邦训练迭代轮次为多个客户端同时搜索它们各自的优化超参数配置的目的，从而实现了在合理的资源消耗范围内提高个性化的联邦超参数优化的效率的技术效果，进而解决了相关技术中依赖完整训练迭代轮次或者单一策略网络进行联邦超参数优化导致超参数优化过程个性化难度大、资源消耗大且搜索效率低的技术问题。

需要说明的是，本实施例的优选实施方式可以参见实施例1中的相关描述，此处不再赘述。

实施例3

根据本申请实施例，还提供了一种电子设备的实施例，该电子设备可以是计算设备群中的任意一个计算设备。该电子设备包括：处理器和存储器，其中：

存储器，与上述处理器连接，用于为上述处理器提供处理以下处理步骤的指令：获取第一嵌入表示和第一统计模型，其中，第一嵌入表示为多个客户端中每个客户端对应的初始嵌入表示，第一统计模型为多个客户端共享的策略网络模型；基于第一嵌入表示和第一统计模型进行联邦学习过程中的部分训练迭代轮次，获取第二嵌入表示和第二统计模型，其中，第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示，第二统计模型是对第一统计模型的模型性能指标进行优化后得到的模型；通过第二嵌入表示和第二统计模型进行联邦超参数优化，得到第一配置数据，其中，第一配置数据为多个客户端中每个客户端对应的目标个性化超参数配置。

实施例4

本申请的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行模型超参数优化方法中以下步骤的程序代码：获取第一嵌入表示和第一统计模型，其中，第一嵌入表示为多个客户端中每个客户端对应的初始嵌入表示，第一统计模型为多个客户端共享的策略网络模型；基于第一嵌入表示和第一统计模型进行联邦学习过程中的部分训练迭代轮次，获取第二嵌入表示和第二统计模型，其中，第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示，第二统计模型是对第一统计模型的模型性能指标进行优化后得到的模型；通过第二嵌入表示和第二统计模型进行联邦超参数优化，得到第一配置数据，其中，第一配置数据为多个客户端中每个客户端对应的目标个性化超参数配置。

可选地，图11是根据本申请实施例的另一种计算机终端的结构框图，如图11所示，该计算机终端可以包括：一个或多个（图中仅示出一个）处理器122、存储器124、以及外设接口126。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的模型超参数优化方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的模型超参数优化方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取第一嵌入表示和第一统计模型，其中，第一嵌入表示为多个客户端中每个客户端对应的初始嵌入表示，第一统计模型为多个客户端共享的策略网络模型；基于第一嵌入表示和第一统计模型进行联邦学习过程中的部分训练迭代轮次，获取第二嵌入表示和第二统计模型，其中，第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示，第二统计模型是对第一统计模型的模型性能指标进行优化后得到的模型；通过第二嵌入表示和第二统计模型进行联邦超参数优化，得到第一配置数据，其中，第一配置数据为多个客户端中每个客户端对应的目标个性化超参数配置。

可选地，上述处理器还可以执行如下步骤的程序代码：基于第一嵌入表示和第一统计模型进行联邦学习，得到训练结果，其中，训练结果为联邦学习过程的完整训练迭代轮次得到的结果；利用训练结果中的部分训练迭代轮次，获取第二嵌入表示和第二统计模型。

可选地，上述处理器还可以执行如下步骤的程序代码：将第一嵌入表示输入至第一统计模型，输出第二配置数据，其中，第二配置数据为多个客户端中每个客户端对应的初始个性化超参数配置；基于第二配置数据进行联邦学习，记录第一统计模型在第一数量训练迭代轮次中每个训练迭代轮次的模型状态记录与模型性能指标，得到训练结果。

可选地，上述处理器还可以执行如下步骤的程序代码：基于部分训练迭代轮次获取第三神经网络模型，其中，第三神经网络模型为第一数量训练迭代轮次中第一迭代轮次训练得到的模型；利用第一嵌入表示对第三神经网络模型进行训练，确定目标函数的目标取值；采用目标函数的目标取值对第一嵌入表示和第一统计模型进行持续更新，直至满足预设条件，得到第二嵌入表示和第二统计模型。

可选地，上述处理器还可以执行如下步骤的程序代码：基于部分训练迭代轮次确定第一迭代轮次的模型状态记录；利用第一迭代轮次的模型状态记录恢复第三神经网络模型。

可选地，上述处理器还可以执行如下步骤的程序代码：基于第一嵌入表示对第三神经网络模型进行第二数量训练迭代轮次的训练，获取第四神经网络模型，其中，第四神经网络模型为第二数量训练迭代轮次中第二迭代轮次训练得到的模型；通过第一迭代轮次对应的模型性能指标与第二迭代轮次对应的模型性能指标，确定目标函数的初始取值；利用第二数量训练迭代轮次中各个迭代轮次对应的模型性能指标对目标函数的初始取值进行更新，得到目标函数的目标取值。

可选地，上述处理器还可以执行如下步骤的程序代码：第二数量训练迭代轮次小于第一数量训练迭代轮次。

可选地，上述处理器还可以执行如下步骤的程序代码：获取第二迭代轮次对应的模型性能指标相对于第一迭代轮次对应的模型性能指标的性能提升幅度；通过性能提升幅度确定初始性能基线；利用第二数量训练迭代轮次中各个迭代轮次对应的模型性能指标对初始性能基线进行更新，得到目标性能基线；基于目标性能基线对目标函数的初始取值进行更新，得到目标函数的目标取值。

可选地，上述处理器还可以执行如下步骤的程序代码：响应作用于图形用户界面的第一触控操作，从多个候选嵌入表示中选取第一嵌入表示；响应作用于图形用户界面的第二触控操作，从多个候选统计模型中选取第一统计模型；基于第一嵌入表示和第一统计模型进行联邦学习以获取第二嵌入表示和第二统计模型，以及通过第二嵌入表示和第二统计模型进行联邦超参数优化以得到第一配置数据。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取商品推荐数据的第一嵌入表示和第一商品推荐统计模型，其中，第一嵌入表示为多个客户端中每个客户端对应的初始嵌入表示，第一商品推荐统计模型为多个客户端共享的策略网络模型；基于第一嵌入表示和第一商品推荐统计模型进行联邦学习过程中的部分商品推荐训练迭代轮次，获取商品推荐数据的第二嵌入表示和第二商品推荐统计模型，其中，第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示，第二商品推荐统计模型是对第一商品推荐统计模型的模型性能指标进行优化后得到的模型；通过第二嵌入表示和第二商品推荐统计模型进行联邦超参数优化，得到第一配置数据，其中，第一配置数据为多个客户端中每个客户端对应的目标个性化超参数配置。

可选地，上述处理器还可以执行如下步骤的程序代码：响应作用于图形用户界面的第一触控操作，从商品推荐数据的多个候选嵌入表示中选取第一嵌入表示；响应作用于图形用户界面的第二触控操作，从多个候选商品推荐统计模型中选取第一商品推荐统计模型；基于第一嵌入表示和第一商品推荐统计模型进行联邦学习以获取第二嵌入表示和第二商品推荐统计模型，以及通过第二嵌入表示和第二商品推荐统计模型进行联邦超参数优化以得到第一配置数据。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取新闻推荐数据的第一嵌入表示和第一新闻推荐统计模型，其中，第一嵌入表示为多个客户端中每个客户端对应的初始嵌入表示，第一新闻推荐统计模型为多个客户端共享的策略网络模型；基于第一嵌入表示和第一新闻推荐统计模型进行联邦学习过程中的部分新闻推荐训练迭代轮次，获取新闻推荐数据的第二嵌入表示和第二新闻推荐统计模型，其中，第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示，第二新闻推荐统计模型是对第一新闻推荐统计模型的模型性能指标进行优化后得到的模型；通过第二嵌入表示和第二新闻推荐统计模型进行联邦超参数优化，得到第一配置数据，其中，第一配置数据为多个客户端中每个客户端对应的目标个性化超参数配置。

本领域普通技术人员可以理解，图11所示的结构仅为示意，计算机终端也可以是智能手机（如Android手机、iOS手机等）、平板电脑、掌上电脑以及移动互联网设备（MobileInternet Devices，MID）、PAD等终端设备。图11其并不对上述电子装置的结构造成限定。例如，计算机终端还可包括比图11中所示更多或者更少的组件（如网络接口、显示装置等），或者具有与图11所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、ROM、RAM、磁盘或光盘等。

根据本申请实施例，还提供了一种计算机可读存储介质的实施例。可选地，在本实施例中，上述计算机可读存储介质可以用于保存上述实施例1所提供的模型超参数优化方法所执行的程序代码。

可选地，在本实施例中，上述计算机可读存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：获取第一嵌入表示和第一统计模型，其中，第一嵌入表示为多个客户端中每个客户端对应的初始嵌入表示，第一统计模型为多个客户端共享的策略网络模型；基于第一嵌入表示和第一统计模型进行联邦学习过程中的部分训练迭代轮次，获取第二嵌入表示和第二统计模型，其中，第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示，第二统计模型是对第一统计模型的模型性能指标进行优化后得到的模型；通过第二嵌入表示和第二统计模型进行联邦超参数优化，得到第一配置数据，其中，第一配置数据为多个客户端中每个客户端对应的目标个性化超参数配置。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：基于第一嵌入表示和第一统计模型进行联邦学习，得到训练结果，其中，训练结果为联邦学习过程的完整训练迭代轮次得到的结果；利用训练结果中的部分训练迭代轮次，获取第二嵌入表示和第二统计模型。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：将第一嵌入表示输入至第一统计模型，输出第二配置数据，其中，第二配置数据为多个客户端中每个客户端对应的初始个性化超参数配置；基于第二配置数据进行联邦学习，记录第一统计模型在第一数量训练迭代轮次中每个训练迭代轮次的模型状态记录与模型性能指标，得到训练结果。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：：基于部分训练迭代轮次获取第三神经网络模型，其中，第三神经网络模型为第一数量训练迭代轮次中第一迭代轮次训练得到的模型；利用第一嵌入表示对第三神经网络模型进行训练，确定目标函数的目标取值；采用目标函数的目标取值对第一嵌入表示和第一统计模型进行持续更新，直至满足预设条件，得到第二嵌入表示和第二统计模型。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：基于部分训练迭代轮次确定第一迭代轮次的模型状态记录；利用第一迭代轮次的模型状态记录恢复第三神经网络模型。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：基于第一嵌入表示对第三神经网络模型进行第二数量训练迭代轮次的训练，获取第四神经网络模型，其中，第四神经网络模型为第二数量训练迭代轮次中第二迭代轮次训练得到的模型；通过第一迭代轮次对应的模型性能指标与第二迭代轮次对应的模型性能指标，确定目标函数的初始取值；利用第二数量训练迭代轮次中各个迭代轮次对应的模型性能指标对目标函数的初始取值进行更新，得到目标函数的目标取值。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：第二数量训练迭代轮次小于第一数量训练迭代轮次。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：获取第二迭代轮次对应的模型性能指标相对于第一迭代轮次对应的模型性能指标的性能提升幅度；通过性能提升幅度确定初始性能基线；利用第二数量训练迭代轮次中各个迭代轮次对应的模型性能指标对初始性能基线进行更新，得到目标性能基线；基于目标性能基线对目标函数的初始取值进行更新，得到目标函数的目标取值。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：响应作用于图形用户界面的第一触控操作，从多个候选嵌入表示中选取第一嵌入表示；响应作用于图形用户界面的第二触控操作，从多个候选统计模型中选取第一统计模型；基于第一嵌入表示和第一统计模型进行联邦学习以获取第二嵌入表示和第二统计模型，以及通过第二嵌入表示和第二统计模型进行联邦超参数优化以得到第一配置数据。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：获取商品推荐数据的第一嵌入表示和第一商品推荐统计模型，其中，第一嵌入表示为多个客户端中每个客户端对应的初始嵌入表示，第一商品推荐统计模型为多个客户端共享的策略网络模型；基于第一嵌入表示和第一商品推荐统计模型进行联邦学习过程中的部分商品推荐训练迭代轮次，获取商品推荐数据的第二嵌入表示和第二商品推荐统计模型，其中，第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示，第二商品推荐统计模型是对第一商品推荐统计模型的模型性能指标进行优化后得到的模型；通过第二嵌入表示和第二商品推荐统计模型进行联邦超参数优化，得到第一配置数据，其中，第一配置数据为多个客户端中每个客户端对应的目标个性化超参数配置。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：响应作用于图形用户界面的第一触控操作，从商品推荐数据的多个候选嵌入表示中选取第一嵌入表示；响应作用于图形用户界面的第二触控操作，从多个候选商品推荐统计模型中选取第一商品推荐统计模型；基于第一嵌入表示和第一商品推荐统计模型进行联邦学习以获取第二嵌入表示和第二商品推荐统计模型，以及通过第二嵌入表示和第二商品推荐统计模型进行联邦超参数优化以得到第一配置数据。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：获取新闻推荐数据的第一嵌入表示和第一新闻推荐统计模型，其中，第一嵌入表示为多个客户端中每个客户端对应的初始嵌入表示，第一新闻推荐统计模型为多个客户端共享的策略网络模型；基于第一嵌入表示和第一新闻推荐统计模型进行联邦学习过程中的部分新闻推荐训练迭代轮次，获取新闻推荐数据的第二嵌入表示和第二新闻推荐统计模型，其中，第二嵌入表示为多个客户端中每个客户端对应的目标嵌入表示，第二新闻推荐统计模型是对第一新闻推荐统计模型的模型性能指标进行优化后得到的模型；通过第二嵌入表示和第二新闻推荐统计模型进行联邦超参数优化，得到第一配置数据，其中，第一配置数据为多个客户端中每个客户端对应的目标个性化超参数配置。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种模型超参数优化方法，其特征在于，包括：

获取商品推荐数据的第一嵌入表示和第一商品推荐统计模型，其中，所述第一嵌入表示为多个客户端中每个客户端对应的初始嵌入表示，所述第一商品推荐统计模型为所述多个客户端共享的策略网络模型；

基于所述第一嵌入表示和所述第一商品推荐统计模型进行联邦学习过程中的部分商品推荐训练迭代轮次，获取所述商品推荐数据的第二嵌入表示和第二商品推荐统计模型，其中，所述第二嵌入表示为所述多个客户端中每个客户端对应的目标嵌入表示，所述第二商品推荐统计模型是对所述第一商品推荐统计模型的模型性能指标进行优化后得到的模型；

通过所述第二嵌入表示和所述第二商品推荐统计模型进行联邦超参数优化，得到第一配置数据，其中，所述第一配置数据为所述多个客户端中每个客户端对应的目标个性化超参数配置；

基于所述第一配置数据对所述多个客户端进行超参数配置；

其中，通过终端设备提供一图形用户界面，所述图形用户界面所显示的内容至少部分地包含一商品推荐关联的个性化超参数配置场景，所述方法还包括：

响应作用于所述图形用户界面的第一触控操作，从所述商品推荐数据的多个候选嵌入表示中选取所述第一嵌入表示；

响应作用于所述图形用户界面的第二触控操作，从多个候选商品推荐统计模型中选取所述第一商品推荐统计模型；

基于所述第一嵌入表示和所述第一商品推荐统计模型进行联邦学习以获取所述第二嵌入表示和所述第二商品推荐统计模型，以及通过所述第二嵌入表示和所述第二商品推荐统计模型进行联邦超参数优化以得到所述第一配置数据。

2.根据权利要求1所述的模型超参数优化方法，其特征在于，基于所述第一嵌入表示和所述第一商品推荐统计模型进行联邦学习过程中的所述部分训练迭代轮次，获取所述商品推荐数据的所述第二嵌入表示和所述第二商品推荐统计模型包括：

基于所述第一嵌入表示和所述第一商品推荐统计模型进行联邦学习，得到训练结果，其中，所述训练结果为联邦学习过程的完整训练迭代轮次得到的结果；

利用所述训练结果中的所述部分训练迭代轮次，获取第二嵌入表示和第二商品推荐统计模型。

3.根据权利要求2所述的模型超参数优化方法，其特征在于，基于所述第一嵌入表示和所述第一商品推荐统计模型进行联邦学习，得到所述训练结果包括：

将所述第一嵌入表示输入至所述第一商品推荐统计模型，输出第二配置数据，其中，所述第二配置数据为所述多个客户端中每个客户端对应的初始个性化超参数配置；

基于所述第二配置数据进行联邦学习，记录所述第一商品推荐统计模型在第一数量训练迭代轮次中每个训练迭代轮次的模型状态记录与模型性能指标，得到所述训练结果。

4.根据权利要求3所述的模型超参数优化方法，其特征在于，利用所述部分训练迭代轮次，获取所述第二嵌入表示和所述第二商品推荐统计模型包括：

基于所述部分训练迭代轮次获取第三神经网络模型，其中，所述第三神经网络模型为所述第一数量训练迭代轮次中第一迭代轮次训练得到的模型；

利用所述第一嵌入表示对所述第三神经网络模型进行训练，确定目标函数的目标取值；

采用所述目标函数的目标取值对所述第一嵌入表示和所述第一商品推荐统计模型进行持续更新，直至满足预设条件，得到所述第二嵌入表示和所述第二商品推荐统计模型。

5.根据权利要求4所述的模型超参数优化方法，其特征在于，基于所述部分训练迭代轮次获取所述第三神经网络模型包括：

基于所述部分训练迭代轮次确定所述第一迭代轮次的模型状态记录；

利用所述第一迭代轮次的模型状态记录恢复所述第三神经网络模型。

6.根据权利要求4所述的模型超参数优化方法，其特征在于，利用所述第一嵌入表示对所述第三神经网络模型进行训练，确定所述目标函数的目标取值包括：

基于所述第一嵌入表示对所述第三神经网络模型进行第二数量训练迭代轮次的训练，获取第四神经网络模型，其中，所述第四神经网络模型为所述第二数量训练迭代轮次中第二迭代轮次训练得到的模型；

通过所述第一迭代轮次对应的模型性能指标与所述第二迭代轮次对应的模型性能指标，确定所述目标函数的初始取值；

利用所述第二数量训练迭代轮次中各个迭代轮次对应的模型性能指标对所述目标函数的初始取值进行更新，得到所述目标函数的目标取值。

7.根据权利要求6所述的模型超参数优化方法，其特征在于，所述第二数量训练迭代轮次小于所述第一数量训练迭代轮次。

8.根据权利要求6所述的模型超参数优化方法，其特征在于，利用所述第二数量训练迭代轮次中各个迭代轮次对应的模型性能指标对所述目标函数的初始取值进行更新，得到所述目标函数的目标取值包括：

获取所述第二迭代轮次对应的模型性能指标相对于所述第一迭代轮次对应的模型性能指标的性能提升幅度；

通过所述性能提升幅度确定初始性能基线；

利用所述第二数量训练迭代轮次中各个迭代轮次对应的模型性能指标对所述初始性能基线进行更新，得到目标性能基线；

基于所述目标性能基线对所述目标函数的初始取值进行更新，得到所述目标函数的目标取值。

9.一种模型超参数优化方法，其特征在于，包括：

获取新闻推荐数据的第一嵌入表示和第一新闻推荐统计模型，其中，所述第一嵌入表示为多个客户端中每个客户端对应的初始嵌入表示，所述第一新闻推荐统计模型为所述多个客户端共享的策略网络模型；

基于所述第一嵌入表示和所述第一新闻推荐统计模型进行联邦学习过程中的部分新闻推荐训练迭代轮次，获取所述新闻推荐数据的第二嵌入表示和第二新闻推荐统计模型，其中，所述第二嵌入表示为所述多个客户端中每个客户端对应的目标嵌入表示，所述第二新闻推荐统计模型是对所述第一新闻推荐统计模型的模型性能指标进行优化后得到的模型；

通过所述第二嵌入表示和所述第二新闻推荐统计模型进行联邦超参数优化，得到第一配置数据，其中，所述第一配置数据为所述多个客户端中每个客户端对应的目标个性化超参数配置；

基于所述第一配置数据对所述多个客户端进行超参数配置；

其中，通过终端设备提供一图形用户界面，所述图形用户界面所显示的内容至少部分地包含一新闻推荐关联的个性化超参数配置场景，所述方法还包括：

响应作用于所述图形用户界面的第一触控操作，从所述新闻推荐数据的多个候选嵌入表示中选取所述第一嵌入表示；

响应作用于所述图形用户界面的第二触控操作，从多个候选新闻推荐统计模型中选取所述第一新闻推荐统计模型；

基于所述第一嵌入表示和所述第一新闻推荐统计模型进行联邦学习以获取所述第二嵌入表示和所述第二新闻推荐统计模型，以及通过所述第二嵌入表示和所述第二新闻推荐统计模型进行联邦超参数优化以得到所述第一配置数据。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至9中任意一项所述的模型超参数优化方法。

11.一种电子设备，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供执行权利要求1至9中任意一项所述的模型超参数优化方法的指令。