CN112926747A

CN112926747A - 优化业务模型的方法及装置

Info

Publication number: CN112926747A
Application number: CN202110320906.1A
Authority: CN
Inventors: 郑龙飞; 陈超超; 刘健; 陈岑; 王力
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2021-06-08
Anticipated expiration: 2041-03-25
Also published as: CN112926747B

Abstract

本说明书实施例提供一种优化业务模型的方法及装置，适用于多个数据方基于隐私保护联合训练业务模型情况下，辅助确定业务模型的参数集的服务方。其中，业务模型的参数集用于描述其模型结构及至少一个超参数。该方法的一个实施方式包括：向各个数据方下发业务模型的当前参数集，以供各个数据方共同训练当前参数集对应的业务模型，并分别确定各自对应的模型局部性能，然后对各个数据方分别确定的各模型局部性能进行融合，得到针对当前参数集的当前全局性能，再利用当前全局性能和当前参数集、历史参数集与历史全局性能之间的关联关系，从而以最大化全局性能为目标，更新当前参数集。该实施方式有利于挖掘更有效的业务模型。

Description

优化业务模型的方法及装置

技术领域

本说明书一个或多个实施例涉及计算机技术领域，尤其涉及基于隐私保护的联合训练业务模型过程中，优化业务模型的网络结构以及训练过程中的超参数的方法和装置。

背景技术

计算机技术的发展，使得机器学习在各种各样的业务场景中得到越来越广泛的应用。联邦学习是一种在保护隐私数据情况下进行联合建模的方法。例如，企业与企业之间需要进行合作安全建模，可以进行联邦学习，以便在充分保护企业数据隐私的前提下，使用各方的数据对数据处理模型进行协作训练，从而更准确、有效地处理业务数据。在联邦学习场景中，各方例如可以商定模型结构(或约定模型)后，各自使用隐私数据在本地进行训练，并将模型参数使用安全可信的方法进行聚合，最后各方根据聚合后模型参数改进本地模型。联邦学习实现在隐私保护基础上，有效打破数据孤岛，实现多方联合建模。

相比于其它机器学习模型，联邦学习中存在一些需要对各方进行约束的超参数，例如：训练成员本地更新次数、进行模型聚合的训练成员个数等。由于模型的超参数和模型结构对模型性能具有决定性的影响，因此针对不同的联邦学习任务，需要采用不同的模型及其对应的超参数和模型网络结构。特别地，针对非独立同分布数据集，对于大量训练成员参与的联邦学习系统，超参数的搜索空间会呈指数级扩大，可能进一步增加整体的训练时间。因此，如何优化各种超参数或网格结构，是联邦学习过程中至关重要的技术问题。

发明内容

本说明书一个或多个实施例描述了一种优化业务模型的方法及装置，用以解决背景技术提到的一个或多个问题。

根据第一方面，提供了一种优化业务模型的方法，适用于多个数据方基于隐私保护联合训练业务模型情况下，辅助确定业务模型的参数集的服务方，所述业务模型用于处理业务数据，得到相应业务处理结果，所述业务模型的参数集用于描述其模型结构和/或至少一个超参数；所述方法包括：向各个数据方下发所述业务模型的当前参数集，以供各个数据方联合训练所述当前参数集对应的当前业务模型，并各自确定所述当前业务模型在本地的局部性能；对各个数据方分别确定的各局部性能进行融合，得到针对所述当前参数集的当前全局性能；基于所述当前全局性能、所述当前参数集，以及历史全局性能和历史参数集，以最大化全局性能为目标，更新所述当前参数集。

在一个实施例中，初始的历史全局性能包括通过N次相互独立的全局性能采样操作得到的N个采样性能，所述N个采样性能与N个采样参数集一一对应，单次全局性能采样操作包括：初始化所述业务模型的第一采样参数集；将所述第一采样参数集提供给各个数据方，以供各个数据方联合训练所述第一采样参数集对应的第一采样业务模型，并各自确定所述第一采样业务模型在本地的第一局部性能；对各个数据方分别确定的各第一局部性能进行融合，得到针对所述第一采样参数集的第一采样性能。

在一个实施例中，最大化全局性能通过贝叶斯优化方式实现，所述关联关系通过历史全局性能关于历史参数集的历史概率分布描述；所述基于所述当前全局性能、所述当前参数集之间的关联关系，以及历史全局性能和历史参数集，以最大化全局性能为目标，更新所述当前参数集包括：利用所述当前全局性能和所述当前参数集更新历史参数集与历史全局性能之间的历史概率分布；基于所述历史概率分布，以最大化全局性能为目标，更新所述当前参数集。

在一个实施例中，所述历史概率分布为历史采样性能针对历史参数集满足的正态分布，正态分布的均值由各个历史参数集的平均值确定，正态分布的方差由各个历史参数集的协方差确定。

在一个实施例中，所述以最大化全局性能为目标，更新所述当前参数集包括：基于在更新后的历史概率分布下的全局性能与历史最大全局性能的对比，确定使得全局性能最大化的最优参数集；利用所述最优参数集更新所述当前参数集。

在一个进一步的实施例中，在不存在优于所述历史最大全局性能的全局性能的情况下，将当前参数集确定为最终优化的参数集。

在一个实施例中，最大化全局性能通过遗传优化方式实现，所述基于所述当前全局性能、所述当前参数集，以及历史全局性能和历史参数集之间的关联关系，以最大化全局性能为目标，更新所述当前参数集包括：利用所述当前全局性能更新历史全局性能集；从更新后的历史全局性能集中选择最优的两个历史全局性能；将所述最优的两个历史全局性能各自对应的参数集分别作为遗传优化的父系和母系进行遗传操作，得到第一子代参数集；利用所述第一子代参数集更新所述当前参数集。

在一个实施例中，所述局部性能包括以下中的至少一项：准确率、召回率、模型损失。

在一个实施例中，所述对各个数据方分别确定的各局部性能进行融合，得到针对所述当前参数集的当前全局性能包括：对各个数据方分别确定的各模型局部性能进行融合，得到融合结果；基于所述融合结果与各个数据方针对所述当前数据集的训练时长的比值，确定所述当前全局性能。

在一个实施例中，所述对各个数据方分别确定的各局部性能进行融合通过以下中的一种方式实现：对各局部性能加权平均；取各局部性能中的最小局部性能；将各局部性能拼接为向量；取各局部性能中的中位数；利用预先训练的融合模型处理各局部性能。

根据第二方面，提供一种优化业务模型的装置，设于多个数据方基于隐私保护联合训练业务模型情况下，用于辅助确定业务模型的参数集的服务方，所述业务模型用于处理业务数据，得到相应业务处理结果，所述业务模型的参数集用于描述其模型结构和/或至少一个超参数；所述装置包括：

提供单元，配置为向各个数据方下发所述业务模型的当前参数集，以供各个数据方共同联合训练所述当前参数集对应的当前业务模型，并分别各自确定各自对应所述当前业务模型在本地的模型局部性能；

提供单元，配置为向各个数据方下发所述业务模型的当前参数集，以供各个数据方联合训练所述当前参数集对应的当前业务模型，并各自确定所述当前业务模型在本地的局部性能；

融合单元，配置为对各个数据方分别确定的各局部性能进行融合，得到针对所述当前参数集的当前全局性能；

优化单元，配置为基于所述当前全局性能、所述当前参数集，以及历史参数集与历史全局性能之间的关联关系，以最大化全局性能为目标，更新所述当前参数集。

根据第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

根据第四方面，提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

通过本说明书实施例提供的方法和装置，在基于隐私保护的联合训练业务模型过程中，通过描述业务模型网络结构和/或训练过程中的超参数的参数集与经过训练达到的模型性能之间的关联关系，对参数集迭代优化，从而确定较优的业务模型网络结构及训练过程中的超参数。由于模型性能描述了业务模型对业务数据的处理能力，因此，可以得到更加适合当前参与联合训练业务模型的各个数据方的业务数据的业务模型。如此，可以得到更有效的用于联邦学习的业务模型，并提高联邦学习所训练的业务模型对各方的业务数据处理的有效性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出本说明书的技术构思中基于隐私保护训练业务模型的实施架构示意图；

图2示出根据一个实施例的优化业务模型的方法流程图；

图3示出根据一个实施例的优化业务模型的装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

联邦学习(Federated Learning)，又可以称为联邦机器学习，联合学习，联盟学习等。联邦机器学习是一个机器学习框架，能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下，进行数据使用和机器学习建模。

假设企业A、企业B各自建立一个任务模型，单个任务可以是分类或预测，而这些任务也已经在获得数据时有各自用户的认可。然而，由于数据不完整，例如企业A缺少标签数据、企业B缺少用户特征数据，或者数据不充分，样本量不足以建立好的模型，那么在各端的模型有可能无法建立或效果并不理想。联邦学习要解决的问题是如何在A和B各端建立高质量的模型，并且各个企业的自有数据不被其他方知晓，即在不违反数据隐私法规情况下，建立一个共有模型。这个共有模型就好像各方把数据聚合在一起建立的最优模型一样。这样，建好的模型在各方的区域仅为自有的目标服务。

联邦学习的实施架构如图1所示。在该实施架构下，可以由两个或两个以上的业务方共同训练业务模型。各个业务方分别可以利用训练好的业务模型对本地业务数据进行本地业务处理。这里的业务数据例如可以是字符、图片、语音、动画、视频等各种数据。通常，各个业务方的业务数据具有相关性。例如，涉及金融业务的多个业务方中，业务方1为银行，为用户提供储蓄、贷款等业务，可以持有用户的年龄、性别、收支流水、贷款额度、存款额度等数据，业务方2为P2P平台，可以持有用户的借贷记录、投资记录、还款时效等数据，业务方3为购物网站，持有用户的购物习惯、付款习惯、付款账户等数据。再例如，涉及医疗业务的多个业务方中，各个业务方可以是各个医院、体检机构等，如业务方1为医院A，对应用户年龄、性别、症状、诊断结果、治疗方案、治疗结果等等诊疗记录作为本地业务数据，业务方2可以为体检机构B，对应用户年龄、性别、症状、体检结论等等的体检记录数据，等等。

服务方可以为各个业务方的联邦学习提供辅助，例如，辅助进行非线性计算、模型参数或梯度综合计算等。图1示出的服务方的形式为独立于各个业务方单独设置的其他方，如可信第三方等。实践中，服务方还可以分布于各个业务方，或者由各个业务方组成，各个业务方之间可以采用安全计算协议(如秘密共享等)完成联合辅助计算。本说明书对此不做限定。

在图1示出的实施架构下可以进行联邦学习。服务方可以预先确定业务模型的网格结构和超参数等，分发给各个业务方，网格结构例如有神经网络层数、各层的神经元个数等等，超参数例如是迭代周期、利用梯度更新模型参数的步长等等。各个业务方可以分别按照服务方确定的网络结构和超参数，在本地计算模型参数的梯度，或者按照梯度更新模型参数。各个业务方按照训练周期(例如时间周期、批次周期等)把梯度或模型参数的计算结果基于隐私保护传递给服务方，由服务方综合计算模型参数的梯度或联合更新的模型参数，并反馈给各个业务方。各个业务方根据接收到的模型参数或其梯度，更新本地的模型参数。可以理解，单次联邦学习的联合训练过程中，针对确定的网络结构和超参数，服务方和数据方之间可以有多轮交互，在每轮交互中，可以包含服务方下发模型参数的过程、各个数据方单独或相互通过安全计算方法训练业务模型的过程、以及服务方优化模型参数的过程，在此不再赘述。

联邦学习可以分为横向联邦学习(特征对齐)、纵向联邦学习(样本对齐)与联邦迁移学习。本说明书提供的实施架构可以是用于各种联邦学习架构，尤其适用于横向联邦学习，即，各个业务方分别提供部分独立样本。

值得说明的是，实践中，业务方可以作为数据持有方，也可以将数据传递给数据持有方，由数据持有方参与业务模型的联合训练。因此，在下文中，将参与联合训练的服务方之外的各方统称为数据方。一个数据方通常可以对应一个业务方。在可选的实现中，一个数据方也可以对应多个业务方。数据方可以通过设备、计算机、服务器等实现。

为了优化模型参数，达到提高联邦学习效率的目的，本说明书提出一种技术构思，服务方可以在模型训练过程中不断优化网络结构及超参数中的至少一种。可以理解，网络结构和超参数中的至少一个发生变化时，可以认为是一组新的网络结构和超参数。每针对一组网络结构和超参数，各个数据方可以进行联邦学习，并得到最终的模型性能。一组网络结构和超参数可以对应一个全局的模型性能。这样，基于历史的网络结构、超参数与全局的模型性能之间的关系，进一步优化网络结构、超参数。该方法还可以根据联邦学习得到的业务模型的模型性能，优化模型的超参数和网络结构。在模型性能与训练时间有关的情况下，优化结果还可以同时降低训练时间及提升模型性能。

下面详细描述本说明书技术构思下的确定业务模型的方法。

图2示出了根据本说明书一个实施例的联合确定业务模型的流程示意图。该流程的执行主体可以是任一具有一定计算能力的计算机、设备或服务器等，例如图1示出的服务方。

在本说明书的技术构思下，服务方可以向各个数据方提供业务模型的网络结构，以及训练过程中使用的超参数。为了描述方便，将业务模型的网络结构，以及训练过程中使用的超参数统称为参数集。各个数据方可以各自利用本地业务数据基于隐私保护联合训练该参数集描述的业务模型。在停止训练后，服务方可以获取业务模型在各个数据方的局部性能，并确定业务模型的全局性能。然后，基于参数集和全局性能之间的关联关系，对模型性能进行优化，从而确定新的参数集。如此循环，不断优化业务模型的网络结构、训练过程中的超参数中的至少一项，以找到更优的用于联邦学习的业务模型。

图2示出了其中一个优化周期中，以服务方的角度描述优化业务模型流程。如图2所示，该优化业务模型的流程包括：步骤201，向各个数据方下发业务模型的当前参数集，以供各个数据方联合训练当前参数集对应的当前业务模型，并各自确定当前业务模型在本地的局部性能；步骤202，对各个数据方分别确定的各局部性能进行融合，得到针对当前参数集的当前全局性能；步骤203，基于当前全局性能、当前参数集，以及历史全局性能和历史参数集之间的关联关系，以最大化全局性能为目标，更新当前参数集。

步骤201，向各个数据方下发业务模型的当前参数集，当前参数集用于描述当前模型结构和/或至少一个超参数。可以理解，对于联邦学习而言，在确定模型结构和超参数的情况下，各个数据方可以基于服务方的辅助，按照确定的模型结构在相应超参数下训练业务模型。

联邦学习过程中，通常可以由服务方指定，或多个数据方商定模型结构。其中的模型结构例如包括业务模型的特征数、神经网络层数、各层神经网络的节点数、神经网络层的架构(如卷积神经网络的卷积层、池化层等的设置架构等)、神经元的连接关系等等。

另外，联合训练过程中为了各个数据方的数据同步，还可能涉及一些共用参数，例如，根据梯度更新模型参数的步长、向服务方上传待融合参数(梯度或模型参数等)的周期、总的迭代轮次、损失函数中的系数等等。总之，超参数通常可以是常数并且为各方共用的参数。

业务模型的当前参数集可以以集合、数组、向量等各种形式提供给各个数据方。以向量为例，可以预先约定各个维度表示的意义，从而由各个数据方根据各个维度的值确定业务模型的模型结构。例如向量(n，n₁、n₂……n_n，λ，T)中，第一个维度n表示神经网络层数，n₁、n₂……n_n的n个维度分别表示各层的神经元(节点)个数，下一维度λ表示梯度下降法的步长，T表示针对当前业务模型的训练轮次等等。

有了模型结构和超参数，各个数据方可以和服务方联合训练当前的业务模型。具体而言，针对当前参数集，各个数据方可以确定出当前业务模型，并且按照超参数的值，基于隐私保护训练该当前业务模型。根据一种实施方式，单个数据方可以利用当前业务模型处理本地的业务数据，并根据输出结果与相应标签的对比，确定模型损失，并根据模型损失确定各个模型参数的梯度。其中，根据实际业务场景，业务数据例如可以是图片、文字、视频、动画、语音等各种形式，在此不作限定。例如医院或体检机构的业务数据可以包括造影图像、X光图像、文字就诊记录等。

值得说明的是，这里的模型参数与当前参数集中的参数不同。模型参数通常是模型结构确定后模型本身涉及的参数。以全连接神经网络为例，当前参数集中可以涉及全连接神经网络的层数，各层的神经元数量等等，模型参数则可以包括单个神经元对应到下一层的各个神经元的各个权重等等。也就是说，当前参数集描述当前业务模型的网络结构，以及训练过程中涉及的超参数，训练过程更新当前业务模型的模型参数。

根据参数集的不同，各个优化周期数据方和服务方执行的训练操作也可以不同。在一个实施例中，各个数据方可以在模型参数的各个更新轮次将梯度数据上传至服务方，由服务方融合各个数据方的梯度得到全局梯度后下发至各个数据方，各个数据方根据全局梯度按照超参数中的步长更新本地模型参数。在另一个实施例中，各个数据方可以在本地按照超参数中约定的轮次周期或时间周期对本地模型参数进行至少一次更新，并将最终更新后的模型参数上传至服务方。服务方可以将各个数据方的模型参数融合得到全局模型参数，并将全局模型参数下发至各个数据方。在更多实施例中，还可以有其他的操作方式，例如，训练业务模型过程中服务方不参与，而仅由各个数据方基于秘密分享、同态加密之类的隐私保护方法联合训练，在此不再赘述。总之，服务方和数据方可以迭代执行以上操作，直至针对当前参数集，训练得到一个最终的当前业务模型。该最终的当前业务模型是模型参数更新完毕的当前业务模型。例如，经过预定数量(如100个)的训练周期，或者检测到损失函数的值小于预定阈值，停止训练过程，得到针对当前参数集的最终业务模型。

对于该最终的业务模型，各个数据方还可以通过本地业务数据对其进行检验，以确定该业务模型在各个数据方处理相应业务数据的业务处理能力，或者说业务模型在各个数据方本地的局部模型性能，或称为局部性能。模型性能可以通过诸如准确度、召回率、验证集模型损失(如损失函数值)之类的一种或多种进行描述。在可选的实现方式中，各个数据方可以在本地设置有验证集或测试集，用来确定局部性能。具体地，利用业务模型对验证集或测试集进行处理，并将相应处理结果与相应标签对比，从而确定当前业务模型的局部性能。在其他可选的实施例中，单个数据方还可以从本地业务数据中随机选择多条作为训练样本的业务数据，用来确定当前业务模型的局部性能。

本领域技术人员容易理解，根据模型性能包含的项目不同，当前业务模型的局部性能可以通过向量、标量、集合、数组等形式表示，在此不做限定。在通过向量、集合、数组等形式表示的情况下，可以约定各个维度的元素对应的项目，例如第一维对应准确度，第二维对应召回率等。

各个数据方可以按照约定将各自对应的局部性能发送至服务方，也可以由服务方通过回调函数(如callback)从各个数据方获取局部性能参数。在一个实施例中，该回调函数可以与更新的模型参数一起发送至各个数据方，并在执行完毕后向服务方反馈。

根据一个可能的设计，针对当前参数集，可以由服务方根据模型性能满足的条件确定是否停止训练。例如，可以在各个数据方反馈的准确度都大于预设的准确度阈值或损失函数值连续c(预设的正整数)次低于预定阈值/连续c次未下降时，确定停止训练。通常，服务方可以根据各局部性能得到衡量当前业务模型在各个业务方的整体模型性能，即全局性能。

于是服务方可以通过步骤202，对各个数据方分别确定的各模型局部性能进行融合，得到针对当前参数集的当前全局性能。可以理解，全局性能可以用于描述基于当前参数集确定的业务模型，针对各个数据方的业务数据，整体上的业务处理能力。

在一个实施例中，全局性能可以通过对各个模型局部性能进行平均、加权平均、取最小值、取中位数等方式进行融合实现。以加权平均为例，各个数据方对应的权重可以与其持有的业务数据条数，或业务数据置信度正相关。通常，这种方式融合得到的全局性能，与模型局部性能的形式一致，例如均为向量。

在另一个实施例中，全局性能可以通过对各个模型局部性能经由预先训练的融合模型融合为一个标量的形式实现。例如，将各个模型局部性能组合成矩阵形式，并通过卷积神经网络(融合模型)进行处理，从而得到全局性能。

在又一个实施例中，全局性能还可以通过将各个模型局部性能拼接为长向量的形式实现。

在更多实施例中，全局性能还可以通过更多方式对各个模型局部性能融合实现，在此不再赘述。

服务方可以用上述融合结果表示当前全局性能。可以理解，考虑到工程实践过程中的训练成本，在评价业务模型性能时，还希望在更短的训练时间下得到更优的业务模型。因此，根据一个可能的设计，还可以用上述融合结果以及训练时长的平衡关系(如比值)来描述一定网络结构和超参数下的业务模型的全局性能。在一个具体例子中，假设训练时长为T，上述融合结果为M，则全局性能可以通过以下性能指标S表示：

其中，j表示当前参数集为第j个参数集，α为训练时间系数，通常，同等条件下，α越大，则需要更大的M可以达到相同的S，α越小，则需要更大的T可以达到相同的S。换句话说，对M的关注度更大时，通常使用小于1的α，对T的关注度更大时，使用大于1的α。α可以预先设定，例如为1、0.5等。其中，α为1表示对M和T具有相同的关注度。

然后，在步骤203中，基于当前全局性能、当前参数集，以及历史全局性能和历史参数集之间的关联关系，以最大化全局性能为目标，更新当前参数集。可以理解的是，全局性能是与参数集一一对应的。也就是说，全局性能与参数集具有一定的关联关系。例如，如果将一组参数集和全局性能整体看作多维坐标空间中的点，则多组参数集和全局性能对应的点构成空间分布。

在该步骤203中，可以根据全局性能与参数集的关联关系，以优化全局性能为目标，确定新的参数集。换句话说，找到使得全局参数最大化的参数集。，找到使得全局参数最大化的参数集的过程，即参数集的优化过程。

其中，参数集的优化过程可以通过诸如贝叶斯优化、遗传优化、强化学习优化、模拟退火算法优化等等多种优化方式进行，在此不作限定。为了更明确地描述本说明书的技术构思，本说明书中以贝叶斯优化和遗传优化为例，对参数集的优化过程进行描述。

首先描述贝叶斯优化方法。本领域技术人员容易理解，对于已知的多组参数集和全局性能，可以构成先验概率分布。在先验概率分布的基础上，新的参数集和全局性能可以优化这种对应关系。因此，在在贝叶斯优化方式下，以上关联关系可以通过历史全局性能关于历史参数集的历史概率分布描述。

这里，历史概率分布可以基于历史的多次联邦学习确定。经历新的一次联邦学习，可以采样到一组新的参数集和全局性能的对应关系，在加入一组新的参数集和全局性能的对应关系之后，历史概率分布可以被更新。

值得说明的是，为了得到相对接近真实的概率分布的初始概率分布，在实践中，通常在服务方和数据方之间多次(例如N次)联邦学习，以采集多组全局性能及参数集，得到一定的先验概率分布。也就是说，初始的历史概率分布可以通过多次相互独立的全局性能采样操作的采样结果确定。假设经过N次采样操作进行采样，可以得到N组采样参数集和全局性能(也可以称为采样性能)的对应关系。单次采样过程和以上联合训练过程类似，以第一采样参数及为例，服务方可以执行以下操作：初始化业务模型的第一采样参数集；将第一采样参数集提供给各个数据方，以供各个数据方联合训练采样参数集对应的第一采样业务模型，并各自确定第一采样业务模型在本地的第一局部性能；对各个数据方分别确定的各第一局部性能进行融合，得到针对采样参数集的第一采样性能。其中，这里的第一均表示与第一采样参数集的对应关系，而不表示数量或顺序的限定。

历史概率分布可以是按照真实的数据分布确定的分布，例如为抛物线分布、正态分布等等。分布确定方法例如为逻辑回归、人为设定并利用真实数据填充等。实践中，假设有一个最优的参数集，可以使得全局性能达到最大值，则在接近该最优的参数集附近的参数集一定范围内可能具有更好的表现，在与该最优的参数集拉开一定距离后，全局性能可能会迅速降低，并且随着距离的进一步增加，得到的参数集在全局性能的表现上差别不大。因此，根据一个可能的设计，可以假设和全局性能满足关于参数集的正态分布。例如：

表示基于前j-1组采样结果，全局性能是满足基于前j-1个参数集确定的均值和方差的正态分布，w表示参数集，j-1表示对应到历史参数集的序次。在一个实施例中，正态分布的均值为前j-1个参数集的均值，正态分布的方差为前j-1个参数集的协方差。已经得到的参数集和全局性能，可以称为历史参数集和历史全局性能，相应的概率分布可以称为历史概率分布。在当前确定第j组参数集和全局性能后，可以更新均值和方差，得到新的概率分布。

在这种基于经验的历史概率分布下，总能找到当前概率分布下使得全局性能最优(最大化)的参数集。可以理解，在更新后的历史概率分布下，如果能找到使得全局性能最大化的参数集，则可以将该参数集用于确定下一次训练过程中的业务模型网络结构，从而获取较优的全局性能。如此，迭代执行以上描述的各个步骤，可以对业务模型的网络结构逐步优化。

假设当前参数集为第j个参数集，则更新后的参数集可以作为下一个参数集，例如记为第j+1个参数集。在一个实施例中，可以对历史概率分布求最优解，作为使得全局性能最大化的最优参数集。在另一个实施例中，可以通过EI函数，基于历史概率分布下的全局性能与历史最大全局性能的对比，确定使得全局性能最大化的最优参数集。例如通过EI函数的优化表示为：

其中，

表示前j个全局性能中的最优全局性能(如最大值)，E表示数学期望(根据贝叶斯优化原理，可以通过积分方式计算)，argmax函数表示求取使得相应函数具有最大输出的参数，

用于。根据该公式的工程含义可知，在S(w)存在大于

的值的情况下，获取使得S(w)最优的参数集w_j+1，作为使得全局性能最大化的最优参数集，用于更新当前参数集在更新当前参数集后，可以循环执行步骤201-步骤203，如此迭代，可以对业务模型的网络结构逐步优化。在S(w)不存在大于

的值的情况下，表示已经找到了最优的全局性能，则可以确定第j个参数集(即当前参数集)为使得全局性能最大化的最优参数集。在可选的例子中，此时可以停止迭代。根据一个实施例，还可以预先设定迭代轮次，在预定迭代轮次到达时停止迭代，并确定当前参数集为最优参数集。

另一方面，以遗传优化为例进行描述。根据遗传优化的思想，可以选择较优的母系和父系，通过遗传和变异等技术手段，产生相应较优的子代。然后从子代中选择较优的母系和父系，继续产生较优的子代，以此迭代，直至迭代次数达到预定次数，或者无法产出更优的子代。

具体地，首先可以在服务方和数据方之间多次(例如N次)联邦学习，以采集N组一一对应的全局性能及参数集，得到一定的先验经验。其中，采样方法与在前文贝叶斯优化方式中一致，在此不再赘述。接着，从N个全局性能中获取最优的两个全局性能，将它们对应的两个参数集，分别作为当前的父系和母系，进行遗传操作产出预定数量(如100个)的子代。各个子代分贝对应一个子代参数集。这些子代参数集中的任一个例如称为第一子代参数集。对于各个子代参数集，可以再次按照前述的采样流程，分别确定各自对应的全局性能。在针对第一子代参数集确定全局性能的过程中，可以利用第一子代参数集更新当前参数集。然后，可以从各个子代参数集分别对应的各个全局性能中，获取2个最优全局性能分别对应的2个参数集，分别作为当前的父系和母系，进行遗传操作……如此迭代，直至迭代次数达到预定次数(如100次)，或者不再产出得到更优全局性能的子代参数集。此时，可以将已经获取的参数集中，对应于最优全局性能的参数集作为最优参数集。从而达到优化参数集进而获取更优的用于联邦学习的业务模型。

以上优化过程还可以通过模拟退火方式优化、强化学习方式等方式实现，在此不再赘述。

值得说明的是，在以上各个联邦学习过程中，数据方向服务方上传数据可以采用利用秘密分享、同态加密等方式进行，以确保数据方的数据安全。

回顾以上流程，在基于隐私保护的联合训练业务模型过程中，通过图2示出的流程的迭代执行确定业务模型的网络结构以及训练过程中的超参数。由于对业务模型的网络结构以及训练过程中的超参数基于实践中的模型性能进行了优化，而模型性能描述了业务模型对业务数据的处理能力，因此，可以得到更加适合当前参与联合训练业务模型的各个数据方的业务数据的业务模型。换句话说，可以得到更有效的用于当前的多个数据方进行联邦学习的业务模型，进而提高联邦学习所训练的业务模型对各数据方对应的业务数据处理的有效性。

例如：在各个数据方分别对应多个金融机构的用户金融类数据的情况下，得到更有利于评估用户金融风险性的业务模型；在各个数据方分别对应多个医疗机构的用户体检或就诊数据的情况下，得到更有利于实现智能辅助诊疗的业务模型；等等。

根据另一方面的实施例，还提供一种确定业务模型的装置。该装置可以设于多个数据方基于隐私保护联合训练业务模型情况下，用于辅助确定业务模型的参数集的服务方。这里的业务模型可以用于处理相应业务场景下的业务数据，得到相应业务处理结果。根据实际业务场景，业务数据例如可以是图片、文字、视频、动画、语音等各种形式，在此不作限定。业务模型的参数集用于描述其模型结构及至少一个超参数。

图3示出了根据一个实施例的优化业务模型的装置的示意性框图。如图3所示，装置300包括：

提供单元31，配置为向各个数据方下发业务模型的当前参数集，以供各个数据方联合训练当前参数集对应的当前业务模型，并各自确定当前业务模型在本地的局部性能；

融合单元32，配置为对各个数据方分别确定的各局部性能进行融合，得到针对当前参数集的当前全局性能；

优化单元33，配置为基于所述当前全局性能、所述当前参数集，以及历史参数集与历史全局性能之间的关联关系，以最大化全局性能为目标，更新当前参数集。

根据一个实施方式，初始的历史全局性能包括通过N次相互独立的全局性能采样操作得到的N个采样性能，这N个采样性能与N个采样参数集一一对应；装置300还包括采样单元(未示出)，配置为在单次全局性能采样过程中执行以下全局性能采样操作：

初始化业务模型的第一采样参数集；

将第一采样参数集提供给各个数据方，以供各个数据方联合训练第一采样参数集对应的第一采样业务模型，并各自确定第一采样业务模型在本地的第一局部性能；

对各个数据方分别确定的各个第一局部性能进行融合，得到针对第一采样参数集的第一采样性能。

在一个可能的设计中，以上关联关系通过历史全局性能关于历史参数集的历史概率分布描述；优化单元33还可以配置为通过以下贝叶斯优化方式最大化全局性能：利用当前全局性能和当前参数集更新历史参数集与历史全局性能之间的历史概率分布；基于历史概率分布，以最大化全局性能为目标，更新当前参数集。在一个实现方式中，优化单元33进一步配置为：将当前全局性能和当前参数集增加为历史参数集与历史全局性能，从而更新历史概率分布。

此时，在一个实施例中，历史概率分布为历史采样性能针对历史参数集满足的正态分布，正态分布的均值由各个历史参数集的平均值确定，正态分布的方差由各个历史参数集的协方差确定。

在贝叶斯优化方式的一个进一步的实施例中，优化单元33进一步配置为：基于在更新后的历史概率分布下的全局性能与历史最大全局性能的对比，确定使得全局性能最大化的最优参数集；利用最优参数集更新所述当前参数集。在不存在优于历史最大全局性能的全局性能的情况下，还可以将当前参数集确定为最终优化的参数集。

在另一个可能的设计中，优化单元33可以配置为通过以下遗传优化方式最大化全局性能：利用所述当前全局性能更新历史全局性能集；从更新后的历史全局性能集中选择最优的两个历史全局性能；将所述最优的两个历史全局性能各自对应的参数集分别作为遗传优化的父系和母系进行遗传操作，得到第一子代参数集；利用所述第一子代参数集更新所述当前参数集。

根据一个可选的实现方式中，融合单元32进一步配置为：

对各个数据方分别确定的各局部性能进行融合，得到融合结果；

基于融合结果与各个数据方针对当前数据集的训练时长的比值，确定当前全局性能。

在一个实施例中，局部性能可以包括以下中的至少一项：准确率、召回率、模型损失。

实践中，融合单元32进一步可以配置为通过以下中的一种方式实现对各个数据方分别确定的各局部性能进行融合：

对各局部性能加权平均；

取各局部性能中的最小局部性能；

将各局部性能拼接为向量；

取各局部性能中的中位数；

利用预先训练的融合模型处理各局部性能。

值得说明的是，图3所示的装置300是与图2示出的方法实施例相对应的装置实施例，图2示出的方法实施例中的相应描述同样适用于装置300，在此不再赘述。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当计算机程序在计算机中执行时，令计算机执行结合图2所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，存储器中存储有可执行代码，处理器执行可执行代码时，实现结合图2的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本说明书实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上的具体实施方式，对本说明书的技术构思的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本说明书的技术构思的具体实施方式而已，并不用于限定本说明书的技术构思的保护范围，凡在本说明书实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书的技术构思的保护范围之内。

Claims

1.一种优化业务模型的方法，适用于多个数据方基于隐私保护联合训练业务模型情况下，辅助确定业务模型的参数集的服务方，所述业务模型用于处理业务数据，得到相应业务处理结果，所述业务模型的参数集用于描述其模型结构和/或至少一个超参数；所述方法包括：

向各个数据方下发所述业务模型的当前参数集，以供各个数据方联合训练所述当前参数集对应的当前业务模型，并各自确定所述当前业务模型在本地的局部性能；

对各个数据方分别确定的各局部性能进行融合，得到针对所述当前参数集的当前全局性能；

基于所述当前全局性能、所述当前参数集，以及历史全局性能和历史参数集之间的关联关系，以最大化全局性能为目标，更新所述当前参数集。

2.根据权利要求1所述的方法，其中，初始的历史全局性能包括通过N次相互独立的全局性能采样操作得到的N个采样性能，所述N个采样性能与N个采样参数集一一对应，单次全局性能采样操作包括：

初始化所述业务模型的第一采样参数集；

将所述第一采样参数集提供给各个数据方，以供各个数据方联合训练所述第一采样参数集对应的第一采样业务模型，并各自确定所述第一采样业务模型在本地的第一局部性能；

对各个数据方分别确定的各第一局部性能进行融合，得到针对所述第一采样参数集的第一采样性能。

3.根据权利要求1所述的方法，其中，最大化全局性能通过贝叶斯优化方式实现，所述关联关系通过历史全局性能关于历史参数集的历史概率分布描述；

所述基于所述当前全局性能、所述当前参数集，以及历史全局性能和历史参数集之间的关联关系，以最大化全局性能为目标，更新所述当前参数集包括：

利用所述当前全局性能和所述当前参数集更新历史参数集与历史全局性能之间的历史概率分布；

基于所述历史概率分布，以最大化全局性能为目标，更新所述当前参数集。

4.根据权利要求3所述的方法，其中，所述历史概率分布为历史采样性能针对历史参数集满足的正态分布，正态分布的均值由各个历史参数集的平均值确定，正态分布的方差由各个历史参数集的协方差确定。

5.根据权利要求3所述的方法，其中，所述以最大化全局性能为目标，更新所述当前参数集包括：

基于在更新后的历史概率分布下的全局性能与历史最大全局性能的对比，确定使得全局性能最大化的最优参数集；

利用所述最优参数集更新所述当前参数集。

6.根据权利要求5所述的方法，其中，在不存在优于所述历史最大全局性能的全局性能的情况下，将当前参数集确定为最终优化的参数集。

7.根据权利要求1所述的方法，其中，最大化全局性能通过遗传优化方式实现，所述基于所述当前全局性能、所述当前参数集，以及历史全局性能和历史参数集之间的关联关系，以最大化全局性能为目标，更新所述当前参数集包括：

利用所述当前全局性能更新历史全局性能集；

从更新后的历史全局性能集中选择最优的两个历史全局性能；

将所述最优的两个历史全局性能各自对应的参数集分别作为遗传优化的父系和母系进行遗传操作，得到第一子代参数集；

利用所述第一子代参数集更新所述当前参数集。

8.根据权利要求1所述的方法，其中，所述局部性能包括以下中的至少一项：准确率、召回率、模型损失。

9.根据权利要求1所述的方法，其中，所述对各个数据方分别确定的各局部性能进行融合，得到针对所述当前参数集的当前全局性能包括：

基于所述融合结果与各个数据方针对所述当前数据集的训练时长的比值，确定所述当前全局性能。

10.根据权利要求1或9所述的方法，其中，所述对各个数据方分别确定的各局部性能进行融合通过以下中的一种方式实现：

对各局部性能加权平均；

取各局部性能中的最小局部性能；

将各局部性能拼接为向量；

取各局部性能中的中位数；

利用预先训练的融合模型处理各局部性能。

11.一种优化业务模型的装置，设于多个数据方基于隐私保护联合训练业务模型情况下，用于辅助确定业务模型的参数集的服务方，所述业务模型用于处理业务数据，得到相应业务处理结果，所述业务模型的参数集用于描述其模型结构和/或至少一个超参数；所述装置包括：

12.根据权利要求11所述的装置，其中，初始的历史全局性能包括通过N次相互独立的全局性能采样操作得到的N个采样性能，所述N个采样性能与N个采样参数集一一对应；所述装置还包括采样单元，配置为在单次全局性能采样过程中执行以下全局性能采样操作：

初始化所述业务模型的第一采样参数集；

13.根据权利要求11所述的装置，其中，所述关联关系通过历史全局性能关于历史参数集的历史概率分布描述；所述优化单元配置为通过以下贝叶斯优化方式最大化全局性能：

14.根据权利要求13所述的装置，其中，所述历史概率分布为历史采样性能针对历史参数集满足的正态分布，正态分布的均值由各个历史参数集的平均值确定，正态分布的方差由各个历史参数集的协方差确定。

15.根据权利要求13所述的装置，其中，所述优化单元进一步配置为：

利用所述最优参数集更新所述当前参数集。

16.根据权利要求15所述的装置，其中，在不存在优于所述历史最大全局性能的全局性能的情况下，将当前参数集确定为最终优化的参数集。

17.根据权利要求11所述的装置，其中，所述优化单元配置为通过以下遗传优化方式最大化全局性能：

利用所述当前全局性能更新历史全局性能集；

利用所述第一子代参数集更新所述当前参数集。

18.根据权利要求11所述的方法，其中，所述局部性能包括以下中的至少一项：准确率、召回率、模型损失。

19.根据权利要求11所述的装置，其中，所述融合单元进一步配置为：

20.根据权利要求11或19所述的装置，其中，所述融合单元进一步配置为通过以下中的一种方式实现对各个数据方分别确定的各模型局部性能进行融合：

对各局部性能加权平均；

取各局部性能中的最小局部性能；

将各局部性能拼接为向量；

取各局部性能中的中位数；

利用预先训练的融合模型处理各局部性能。

21.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-10中任一项的所述的方法。

22.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-10中任一项所述的方法。