CN111461309B

CN111461309B - 实现隐私保护的更新强化学习系统的方法及装置

Info

Publication number: CN111461309B
Application number: CN202010302520.3A
Authority: CN
Inventors: 尹红军
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2022-05-17
Anticipated expiration: 2040-04-17
Also published as: CN111461309A

Abstract

本说明书实施例提供一种实现隐私保护的更新强化学习系统的方法，其中强化学习系统包括服务端和N个客户端，服务端部署强化学习模型的公共神经网络，N个客户端中各自部署该强化学习模型的线程神经网络，并各自搭建业务环境，其中强化学习模型用于针对业务环境预测业务动作。在该方法中，每个客户端利用其部署的线程神经网络独立地与其搭建的业务环境进行交互，并利用交互数据计算梯度数据，再对梯度数据进行加密后传输至服务端，服务端对每个客户端传输的加密数据进行汇总解密，得到对应于多个梯度数据的梯度和值，用以集中更新公共神经网络的模型参数。如此，可以在防止客户端中本地隐私数据被泄露的同时，实现多个客户端联合训练强化学习模型。

Description

实现隐私保护的更新强化学习系统的方法及装置

技术领域

本说明书一个或多个实施例涉及信息安全技术领域，尤其涉及一种实现隐私保护的更新强化学习系统的方法及装置。

背景技术

RL(Reinforcement Learning，强化学习)是机器学习领域的一个重要分支。目前，业内已提出基于DRL(DeepReinforcement Learning，深度强化学习)的异步算法，因实施该异步算法具有以下优点：学习速度快、占用的存储空间小、节省计算资源，仅需多核CPU(central processing unit，中央处理器)即可实现计算等，该异步算法已得到广泛的研究和应用。具体而言，该异步算法的实施框架(可参见图1)中涉及多个线程和公共神经网络，且在实施过程中，需要单个线程在独立与环境进行交互而得到交互数据后，利用其交互数据计算出对应的梯度数据来更新公共神经网络的网络参数。

然而，在上述实施过程中，单个线程中的交互数据或梯度数据存在泄露风险。例如，上述多个线程可以被部署在多个用户终端中，在使用异步算法进行强化学习的过程中，可能会造成终端中记录的用户信息、用户操作等交互数据的泄露，进而导致用户隐私的泄露。

因此，迫切需要一种合理的方法，可以防止因使用异步算法造成的隐私泄露，从而实现隐私保护。

发明内容

本说明书一个或多个实施例描述了一种实现隐私保护的更新强化学习系统的方法及装置，可以在充分享受到上述异步算法所具有的天然优势的同时，实现隐私保护。

根据第一方面，提供一种实现隐私保护的更新强化学习系统的方法，其中，所述强化学习系统中包括服务端和N个客户端，所述服务端中部署强化学习模型的公共神经网络，所述强化学习模型用于针对业务环境预测业务动作，所述N个客户端中各自部署所述强化学习模型的线程神经网络，并各自搭建业务环境，其中N为大于1的整数；所述方法应用于所述N个客户端中任意的第一客户端，上述方法包括：

从所述服务端获取所述公共神经网络的当前网络参数，并利用该当前网络参数对所述第一客户端中部署的第一线程神经网络进行初始化设置。利用所述第一线程神经网络与所述第一客户端中搭建的第一业务环境进行连续多次交互，得到多个训练样本；其中任一次交互包括：将所述第一业务环境的当前环境状态输入所述第一线程神经网络，得到当前业务动作，将所述当前业务动作施加于所述第一业务环境，得到所述第一业务环境作出的当前反馈，所述当前环境状态、当前业务动作和当前反馈构成单个训练样本。利用所述多个训练样本，确定针对所述第一线程神经网络的第一训练梯度。利用安全多方计算MPC技术，基于所述第一训练梯度执行加密处理，生成第一加密数据。向所述服务端发送所述第一加密数据，以使所述服务端对该第一加密数据和从其他客户端中接收的其他加密数据进行解密处理，得到与N个客户端确定的N个训练梯度对应的梯度和值，用于调整所述公共神经网络的网络参数。

在一个实施例中，所述MPC技术包括秘密共享；其中利用安全多方计算MPC技术，基于所述第一训练梯度执行加密处理，生成第一加密数据，包括：获取所述N-1个客户端分别与所述第一客户端共享的共享随机数，得到N-1个共享随机数；生成第一独有随机数，并将其分解为N份第一分解数值；将所述N份第一分解数值中的某一份留存在所述第一客户端中，并将其他的N-1份对应分发给其他N-1个客户端；从所述其他N-1个客户端对应接收N-1份其他分解数值；基于预定运算规则，对所述第一训练梯度、所述N-1个共享随机数和所述第一独有随机数进行运算，得到第一运算值，其中所述第一运算值、所述某一份第一分解数值和所述N-1份其他分解数值共同构成所述第一加密数据。

在一个实施例中，所述强化学习模型基于actor-critic演员-评论家架构，所述公共神经网络包括公共演员网络和公共评论家网络，所述线程神经网络包括线程演员网络和线程评论家网络；其中从所述服务端获取所述公共神经网络的当前网络参数，包括：从所述服务端获取所述公共演员网络的当前演员网络参数和所述公共评论家网络的当前评论家网络参数；其中利用所述当前网络参数对第一线程神经网络进行初始化设置，包括：利用所述当前演员网络参数对第一线程演员网络进行初始化设置，以及利用所述当前评论家网络参数对第一线程评论家网络进行初始化设置；其中利用所述第一线程神经网络跟第一业务环境进行多次交互，包括：利用所述第一线程演员网络跟所述第一业务环境进行多次交互；其中利用所述多个训练样本，确定针对所述第一线程神经网络的第一训练梯度，包括：利用所述多个训练样本和所述第一线程评论家网络，确定针对所述第一线程演员网络的第一演员训练梯度，以及利用所述多个训练样本，确定针对所述第一线程评论家网络的第一评论家训练梯度；其中利用安全多方计算MPC技术，基于所述第一训练梯度执行加密处理，生成第一加密数据，包括：利用所述MPC技术，分别基于所述第一演员训练梯度和第一评论家训练梯度执行加密处理，得到对应的第一演员加密数据和第一评论家加密数据，构成所述第一加密数据。

根据第二方面，提供一种实现隐私保护的更新强化学习系统的方法，其中，所述强化学习系统中包括服务端和N个客户端，所述服务端中部署强化学习模型的公共神经网络，所述强化学习模型用于针对业务环境预测业务动作，所述N个客户端中各自部署所述强化学习模型的线程神经网络，并各自搭建业务环境，其中N为大于1的整数；所述方法应用于所述服务端，所述方法包括：

接收所述N个客户端各自生成的加密数据，得到N份加密数据；其中任一份的第一加密数据由第一客户端利用安全多方计算MPC技术基于第一训练梯度执行加密处理而得到，所述第一训练梯度基于利用第一线程神经网络跟第一业务环境进行交互得到的训练样本而确定。利用所述MPC技术，对所述N份加密数据进行解密处理，得到与N个客户端确定的N个训练梯度对应的梯度和值。根据所述梯度和值，调整所述公共神经网络的网络参数。

根据第三方面，提供一种实现隐私保护的更新强化学习系统的装置，其中，所述强化学习系统中包括服务端和N个客户端，所述服务端中部署强化学习模型的公共神经网络，所述强化学习模型用于针对业务环境预测业务动作，所述N个客户端中各自部署所述强化学习模型的线程神经网络，并各自搭建业务环境，其中N为大于1的整数；所述装置集成于所述N个客户端中任意的第一客户端，所述装置包括：

公共参数获取单元，配置为从所述服务端获取所述公共神经网络的当前网络参数。网络初始化单元，配置为利用所述当前网络参数对所述第一客户端中部署的第一线程神经网络进行初始化设置。交互单元，配置为利用所述第一线程神经网络与所述第一客户端中搭建的第一业务环境进行连续多次交互，得到多个训练样本；通过所述交互单元进行的任一次交互包括：将所述第一业务环境的当前环境状态输入所述第一线程神经网络，得到当前业务动作，将所述当前业务动作施加于所述第一业务环境，得到所述第一业务环境作出的当前反馈，所述当前环境状态、当前业务动作和当前反馈构成单个训练样本。梯度确定单元，配置为利用所述多个训练样本，确定针对所述第一线程神经网络的第一训练梯度。梯度加密单元，配置为利用安全多方计算MPC技术，基于所述第一训练梯度执行加密处理，生成第一加密数据。加密数据发送单元，配置为向所述服务端发送所述第一加密数据，以使所述服务端对该第一加密数据和从其他客户端中接收的其他加密数据进行解密处理，得到与N个客户端确定的N个训练梯度对应的梯度和值，用于调整所述公共神经网络的网络参数。

根据第四方面，提供一种实现隐私保护的更新强化学习系统的装置，其中，所述强化学习系统中包括服务端和N个客户端，所述服务端中部署强化学习模型的公共神经网络，所述强化学习模型用于针对业务环境预测业务动作，所述N个客户端中各自部署所述强化学习模型的线程神经网络，并各自搭建业务环境，其中N为大于1的整数；所述装置集成于于所述服务端，所述装置包括：

加密数据接收单元，配置为接收所述N个客户端各自生成的加密数据，得到N份加密数据；其中任一份的第一加密数据由第一客户端利用安全多方计算MPC技术基于第一训练梯度执行加密处理而得到，所述第一训练梯度基于利用第一线程神经网络跟第一业务环境进行交互得到的训练样本而确定。数据解密单元，配置为利用所述MPC技术，对所述N份加密数据进行解密处理，得到与N个客户端确定的N个训练梯度对应的梯度和值。公共参数调整单元，配置为根据所述梯度和值，调整所述公共神经网络的网络参数。

根据第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面或第二方面的方法。

根据第六方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面或第二方面的方法。

综上，在本说明书实施例提供的上述方法及装置中，每个客户端利用其部署的线程神经网络独立地与其搭建的业务环境进行交互，并利用交互数据计算梯度数据，再对梯度数据进行加密后传输至服务端，服务端对每个客户端传输的加密数据进行汇总解密，得到对应于多个梯度数据的梯度和值，用以集中更新公共神经网络的模型参数。如此，可以在有效防止客户端本地数据、梯度数据被非法窃取而导致隐私泄露的同时，实现多个客户端共同联合训练强化学习模型。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出一种异步强化学习架构；

图2示出根据一个实施例的用于实现隐私保护的强化学习系统结构图；

图3示出根据一个实施例的实现隐私保护的更新强化学习系统的方法流程图；

图4示出根据另一个实施例的实现隐私保护的更新强化学习系统的方法流程图；

图5示出根据一个实施例的基于图2的强化学习系统结构细化图；

图6为根据另一个实施例的基于图2的强化学习系统结构细化图；

图7示出根据一个实施例的实现隐私保护的更新强化学习系统的装置结构图；

图8示出根据另一个实施例的实现隐私保护的更新强化学习系统的装置结构图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

如前所述，在已有的基于DRL的异步算法中，通过异步强化学习架构实现强化学习。具体地，图1示出一种异步强化学习架构。如图1所示，其中示出的架构中包括多个线程共享的公共神经网络，每个线程中包含与该公共神经网络一样的网络结构，每个线程会独立和环境进行交互得到交互数据，这些线程之间互不干扰，独立运行。每个线程和环境交互到一定量的数据后，就计算在自己线程里的神经网络损失函数的梯度，这些梯度不更新自己线程里的神经网络，而是去更新公共神经网络的模型参数。每隔一段时间，线程里会将自己的神经网络的参数更新为公共神经网络的参数，进而指导后续的环境交互。

在基于上述架构进行异步强化学习的过程中，一旦有线程被非法监听或非法劫持，则会导致梯度数据等的非法窃取。例如，若有线程被非法监听，则其传输的用于更新公共神经网络参数的梯度数据就存在极高的泄露风险，或者，如有线程被劫持，则不法分子可以通过劫持的线程获取被其他线程不断更新的公共神经网络的参数，进而推导出其他线程传输的梯度数据。进一步地，攻击者可以根据梯度数据还原出上述交互数据(如，可能包括业务敏感信息、用户敏感信息)，这就导致隐私泄露。

基于以上观察和分析，发明人提出一种能够实现隐私保护的强化学习系统。具体地，图2示出根据一个实施例的用于实现隐私保护的强化学习系统结构图。如图2所示，该系统中包括服务端和N个客户端，其中服务端部署强化学习模型的公共神经网络，N个客户端中各自部署该强化学习模型的线程神经网络，并各自搭建业务环境。需要理解，其中公共神经网络和线程神经网络具有相同的网络结构。需要说明，其中强化学习模型用于针对业务环境预测业务动作，其中N为大于1的整数。

在上述异步强化学习系统中，每个客户端不是直接利用其根据本地交互数据计算出的梯度数据，独立地去更新公共神经网络的模型参数，而是先对该梯度数据进行加密再进行传输，由服务端对每个客户端传输的加密数据进行汇总后，解密得到多个原始梯度数据的梯度和值，用以集中更新公共神经网络的模型参数。如此，可以在有效防止客户端本地数据、梯度数据被非法窃取而导致隐私泄露的同时，实现多个客户端共同联合训练强化学习模型。

下面结合具体的实施例，描述基于图2示出的强化学习系统进行强化学习的方法。为了实现更加清楚地描述，先从客户端和服务端分别作为执行主体的角度，对该方法进行描述。

具体地，图3示出根据一个实施例的实现隐私保护的更新强化学习系统的方法流程图，所述方法应用于N个客户端中任一的一个客户端(以下简称第一客户端)。如图3所示，该方法包括以下步骤：

步骤S310，从所述服务端获取所述公共神经网络的当前网络参数，并利用所述当前网络参数对所述第一客户端中部署的第一线程神经网络进行初始化设置。步骤S320，利用所述第一线程神经网络与所述第一客户端中搭建的第一业务环境进行连续多次交互，得到多个训练样本；其中任一次交互包括：将所述第一业务环境的当前环境状态输入所述第一线程神经网络，得到当前业务动作，将所述当前业务动作施加于所述第一业务环境，得到所述第一业务环境作出的当前反馈，所述当前环境状态、当前业务动作和当前反馈构成单个训练样本。步骤S330，利用所述多个训练样本，确定针对所述第一线程神经网络的第一训练梯度。步骤S340，利用安全多方计算MPC技术，基于所述第一训练梯度执行加密处理，生成第一加密数据。步骤S350，向所述服务端发送所述第一加密数据，以使所述服务端对所述第一加密数据和从其他客户端中接收的其他加密数据进行解密处理，得到与N个客户端确定的N个训练梯度对应的梯度和值，用于调整所述公共神经网络的网络参数。

针对以上步骤，首先需要说明的是，上述“第一客户端”、“第一线程神经网络”和“第一业务环境”等词语中的“第一”，仅用于区分同类事物，不具有其他限定作用，下文中的类似用语亦是如此。

以上步骤具体如下：

首先，在步骤S310，从所述服务端获取所述公共神经网络的当前网络参数，并利用所述当前网络参数对所述第一客户端中部署的第一线程神经网络进行初始化设置。需要说明，为便于描述，将第一客户端中部署的线程神经网络称为第一线程神经网络。

在一个实施例中，上述公共神经网络可以包括CNN(ConvolutionalNeuralNetworks，卷积神经网络)。在另一个实施例中，上述公共神经网络可以包括DNN(DeepNeuralNetworks，深度神经网络)。

在一个实施例中，若公共神经网络的网络参数尚未被训练更新，此时，获取的当前网络参数可以为，服务端对公共神经网络进行随机初始化而得到的网络参数。在另一个实施例中，若公共神经网络的网络参数已经发生若干次训练更新，则获取的当前网络参数为最近一次更新后得到的网络参数。

需要理解，上述第一线程神经网络具有与公共神经网络相同的网络结构。因此，利用上述当前网络参数对第一线程神经网络进行初始化后，第一线程神经网络中的网络参数变更为上述当前网络参数。此外，第一客户端可以进行多次迭代，其中每次迭代都会计算相应的梯度数据，因此，本步骤中对第一线程神经网络进行的参数初始化仅是针对本次迭代，也就是说，实际在每次迭代开始时，都会进行参数初始化。

以上，可以实现将第一线程神经网络中的网络参数初始化为从服务端获取的公共神经网络的当前网络参数。

然后，在步骤S320，利用所述第一线程神经网络与所述第一客户端中搭建的第一业务环境进行连续多次交互，得到多个训练样本。

首先需要理解，异步强化学习算法的本质是通过多个不同的线程，采用不同的探索策略，探索同一环境中的不同部分。因此，每个客户端中搭建的业务环境都具有相同的环境状态空间分布。

具体地，上述多次交互中的任一次交互包括：首先，将所述第一业务环境的当前环境状态输入所述第一线程神经网络，得到当前业务动作；然后，将所述当前业务动作施加于所述第一业务环境，得到所述第一业务环境作出的当前反馈。进一步地，在一个实施例中，第一业务环境的环境状态在当前业务动作的作用下发生改变，而改变后的环境状态可以作为下一次交互中的当前环境状态，进而实现交互的连续性。

需要说明，其中当前反馈可以包括动作奖励值和/或长期收益值，其中动作奖励值是单独针对上述当前业务动作计算出的奖励值，该奖励值可以根据预先设定的规则进行计算，比如，若执行某动作后环境状态更改为状态A，则奖励值为a，若执行某动作后环境状态更改为状态B，则奖励值为b；而其中长期收益值除包括当前业务动作的奖励值以外，还包括在执行上述当前业务动作后，后续所有可能执行的动作序列对应的回报期望值，该长期收益值可以通过预先设定的公式进行计算而得到，或者，可以基于专门构建的神经网络而得到。

在一个实施例中，第一业务环境可以为客服场景下的业务环境，以下简称客服环境。相应地，上述当前环境状态可以包括用户注册信息，用户登录设备信息，以及用户和客服机器人之间已产生的会话内容等；上述当前业务动作可以包括客服机器人需要发送给用户的会话内容。在一个例子中，该会话内容中包括需要用户确认的标准问题，包括多个标准问题选项，以及一个“以上都不是”的选项，此时，若用户点击的是其中多个标准问题选项中的某一个，则可以将上述当前反馈确定为奖励值1，若用户点击的是“以上都不是”的选项，则可以将上述当前反馈确定为奖励值-1。

在一个实施例中，第一业务环境可以为内容推荐场景下的业务环境，以下简称内容推荐环境。相应地，上述当前环境状态可以包括用户注册信息、用户浏览的历史内容、可用于推荐给用户的多篇内容等；上述当前业务动作可以包括在页面中向用户展示某几篇内容。进一步地，在一个例子中，假定用户对该某几篇内容中的任一篇进行点击浏览，则可以将当前反馈确定为奖励值1，若用户退出页面，则可以将当前反馈确定为奖励值0。

在一个实施例中，第一业务环境可以为无人驾驶场景下的业务环境，以下简称无人驾驶环境。相应地，上述当前环境状态可以包括车辆的性能参数、路面情况、天气情况等；上述当前业务动作可以包括行驶速度和行进方向等。进一步地，在一个例子中，假定执行上述当前业务动作后，未出现危险情况，则可以将当前反馈确定为奖励值10，若出现车辆追尾事故，则可以将当前反馈确定为奖励值-50，等等。

以上对任一次交互进行示例性说明。进一步地，通过任一次交互，可以得到包括当前环境状态、当前业务动作和当前反馈的单个训练样本。由此通过连续多次交互可以得到多个训练样本。需要说明，对于其中多次交互的具体次数，在一个实施例中，该具体次数可以是预定设定的，如设定为5次或10次等。在另一个实施例中，若在某次交互后，第一业务环境变更后的环境状态为环境最终状态，就不再继续进行交互。需要说明，其中环境最终状态可以是预先指定的，其通常是指，对处于最终状态的环境执行任何动作，该环境的状态都不会发生改变，或者，奖励值都为0。比如说，在游戏环境中，游戏结束即为环境最终状态。

基于以上获取的多个训练样本，可以在步骤S330中，确定针对所述第一线程神经网络的第一训练梯度。在一个实施例中，可以根据各个训练样本，分别确定针对第一线程神经网络的各个损失，进而根据各个损失确定各个梯度值，进而将基于多个训练样本确定出的多个梯度值进行加和，得到上述第一训练梯度。在另一个实施例中，多个训练样本之间的梯度计算具有依赖关系，因此，可以根据预定的公式，顺序计算其中各个训练样本对应的梯度值，再对计算出的多个梯度值进行累积，得到上述第一训练梯度。

如此，可以基于多个训练样本，确定出针对第一线程神经网络的第一训练梯度。然后，在步骤S340，利用安全多方计算MPC技术，基于所述第一训练梯度执行加密处理，生成第一加密数据。

在一个实施例中，上述MPC(Secure Multi-Party Computation，安全多方计算)技术包括秘密共享。

进一步地，在一个具体的实施例中，本步骤中可以包括：首先，将所述第一训练梯度分解为N份第一分解梯度；接着，将所述N份第一分解梯度中的某一份留存在所述第一客户端中，并将其他的N-1份对应分发给其他N-1个客户端；然后，从所述其他N-1个客户端对应接收N-1份其他分解梯度；再接着，对所述某一份第一分解梯度和所述N-1份其他分解梯度进行求和，得到所述第一加密数据。对于其中第一训练梯度的分解，在一个更具体的实施例中，可以通过随机分解的方式，将上述第一训练梯度分解为N份第一分解梯度。在另一个更具体地实施例中，可以基于预定的恢复门限值h，将所述第一训练梯度分解为所述N份第一分解梯度，使得根据其中任意的h份均可恢复出所述第一训练梯度，其中h为大于1且小于N的整数。在一个例子中，h的具体数值可以由工作人员根据实际需要设定，相应地分解操作可以基于已有的相关技术实现，不作赘述。

为便于理解，在一个具体的例子中，结合数学符号描述上述具体实施过程。具体地，假定第一客户端为N个客户端中编号为i的第i个客户端，该第i个客户端可以首先将训练梯度G_i随机分解为N份，并将其中的第i份<G_i>_i进行留存，以及将其余N-1份中的第j份发送给第j个客户端，其中i和j为不大于N的正整数，且i≠j；同时，可以从第j个客户端接收<G_j>_i；再接着，计算

得到加密数据E_i。

在另一个具体的实施例中，本步骤可以包括：一方面，获取所述N-1个客户端分别与所述第一客户端共享的共享随机数，得到N-1个共享随机数；另一方面，生成第一独有随机数，并将其分解为N份第一分解数值；接着，将所述N份第一分解数值中的某一份留存在所述第一客户端中，并将其他的N-1份对应分发给其他N-1个客户端；并且，从所述其他N-1个客户端对应接收N-1份其他分解数值；进一步地，基于预定运算规则，对所述第一训练梯度、所述N-1个共享随机数和所述第一独有随机数进行运算，得到第一运算值。其中，所述第一运算值、所述某一份第一分解数值和所述N-1份其他分解数值共同构成所述第一加密数据。如此进行的加密处理，使得第一客户端无需将与第一训练梯度有关的计算或分解数据发送至其他客户端，从而可以进一步降低其中梯度数据的泄露风险，有效提高隐私保护的强度。

对于上述共享随机数的获取，以第一客户端与其他N-1个客户端中某个客户端为例，在一个更具体的实施例中，可以由第一客户端生成针对该某个客户端的随机数，再将该随机数发送给某个客户端，从而实现对该随机数的共享。在另一个更具体的实施例中，第一客户端可以从该某个客户端接收其针对第一客户端生成的随机数，从而实现对该随机数的共享。在又一个更具体的实施例中，第一客户端和该某个客户端还可采用DH(Diffie-Hellman)密钥交换的方式，同步生成或更新密钥，并将该密钥作为共享随机数。需要说明，对于DH密钥交换可以采用已有技术实现，不作赘述。

对于上述生成第一独有随机数，并将其分解为N份第一分解数值，在一个更具体的实施例中，可以将所述第一独有随机数随机分解为所述N份第一分解数值。在另一个更具体的实施例中，可以基于预定的恢复门限值m，将所述第一独有随机数分解为所述N份第一分解数值，使得根据其中任意的m份均可恢复出所述第一独有随机数，其中m为大于1且小于N的整数。在一个例子中，m的具体数值可以由工作人员根据实际需要设定。

对于上述预定运算规则，可以由工作人员根据服务端能够解密成功的原则，进行任意设定。例如，上述预定运算规则可以包括：共享随机数的生成方减去该共享随机数，而接收方加上该共享随机数，反之也可，以及，对于独有随机数，可以采用相加或相减的计算方式。

为便于理解，在一个例子中，结合数学符号描述上述具体实施过程。具体地，假定第一客户端N为客户端中编号为i的第i个客户端，且其确定出的训练梯度为G_i。基于此，该第一客户端可以从第j(≠i)个客户端接收共享随机数s_ij，或者生成s_ij并发送给第j个客户端；以及生成独享随机数r_i，并将其分解为留存的<r_i>_i以及发送至第j个客户端的<r_i>_j；另外，从第j个客户端接收<r_j>_i。进一步地，计算运算值

其中I_j是指示函数，若第j个客户端是s_ij的接收方，则I_j＝1，而若第j个客户端是s_ij的发送方，则I_j＝-1。由此，将独立随机数r_i的分解值<r_i>_i、运算值ad_i和其他独立随机数的分解值{<r_j>_i|j∈[1,N]，j≠i}作为加密数据E_i。

根据一个具体的例子，假定N＝3，并且3个客户端分别为客户端A、客户端B和客户端C，假定上述第一客户端为客户端A，且其计算出的第一训练梯度为G_A，则其可以接收客户端B发送的共享随机数s_AB以及接收客户端C发送的共享随机数s_AC，并且，生成独享随机数r_A，利用2of3秘密共享技术(把信息拆分成3份，基于其中的至少2份可以实现信息重构)，将其分解为留存在本地的<r_A>_A、发送至客户端B的<r_A>_B和发送至客户端C的<r_A>_C；另外，从客户端B接收其生成的独享随机数r_B的分片<r_B>_A，以及从客户端C接收其生成的独享随机数r_C的分片<r_C>_A；进一步地，计算ad_A＝G_A+s_AB+s_AC+r_A，进而将<r_A>_A、ad_A、<r_B>_A和<r_C>_A构成客户端A的加密数据。如此，可以生成第一加密数据。

以上对采用秘密分享的方式执行加密处理而得到第一加密数据进行介绍。在另一个实施例中，上述MPC技术还可以包括同态加密或混淆电路。相应地，可以采用同态加密或混淆电路的方式，基于上述第一训练梯度执行加密处理，从而得到上述第一加密数据。其中同态加密或混淆电路的实现方式，可以采用已有技术实现，不作赘述。

在以上生成第一加密数据后，接着在步骤S350，向上述服务端发送上述第一加密数据，以使所述服务端对所述第一加密数据和从其他客户端中接收的其他加密数据进行解密处理，得到与N个客户端确定的N个训练梯度对应的梯度和值，用于调整所述公共神经网络的网络参数。

下面结合具体的实施例，描述服务端执行的操作流程。

具体地，图4示出根据另一个实施例的实现隐私保护的更新强化学习系统的方法流程图，其中强化学习系统具有图2中示出的系统结构，所述方法应用于服务端。如图4所示，该方法包括以下步骤：

步骤S410，接收所述N个客户端各自生成的加密数据，得到N份加密数据；其中任一份的第一加密数据由第一客户端利用安全多方计算MPC技术基于第一训练梯度执行加密处理而得到，所述第一训练梯度基于利用第一线程神经网络跟第一业务环境进行交互得到的训练样本而确定；步骤S420，利用所述MPC技术，对所述N份加密数据进行解密处理，得到与N个客户端确定的N个训练梯度对应的梯度和值；步骤S430，根据所述梯度和值，调整所述公共神经网络的网络参数。

以上步骤具体如下：

首先，在步骤S410，接收上述N个客户端各自生成的加密数据，得到N份加密数据。进而在步骤S420，利用MPC技术，对所述N份加密数据进行解密处理，得到与N个客户端确定的N个训练梯度对应的梯度和值。

为便于描述，将N份加密数据中的任意一份加密数据称为第一加密数据。具体地，第一加密数据由第一客户端利用MPC技术基于第一训练梯度执行加密处理而得到，该第一训练梯度基于利用第一线程神经网络跟第一业务环境进行交互得到的训练样本而确定。需要说明，对第一加密数据的描述，还可以参见前述实施例中的相关描述。

在一个实施例中，上述第一加密数据是通过MPC技术中包括的秘密分享技术而得到。在一个具体的实施例中，上述第一加密数据对应于以下内容的加和：将所述第一训练梯度分解为N份第一分解梯度后保留的其中某一份，以及从其他N-1个客户端对应接收的N-1份其他分解梯度。相应地，步骤S420中可以包括：对所述N份加密数据进行求和，得到上述梯度和值。在一个例子中，假定从N个客户端中第i个客户端接收的加密数据E_i为上述

相应地，在步骤S420中，可以通过计算

得到上述梯度和值。

在另一个具体的实施例中，上述第一加密数据中包括：将生成的第一独有随机数分解为N份第一分解数值后保留的其中某一份，从其他N-1个客户端对应接收的N-1份其他分解数值，对所述第一训练梯度、所述N-1个客户端分别与所述第一客户端共享的共享随机数和所述第一独有随机数进行预定运算得到的第一运算值。相应地，步骤S420中可以包括：一方面，对所述N份加密数据中对应包括的N个运算值进行求和，得到运算和值；另一方面，利用上述N份加密数据中对应包括的上述N份第一分解数值，恢复出所述第一客户端生成的所述第一独有随机数，进而得到所述N个客户端生成的N个独有随机数；进一步地，从所述运算和值中减去所述N个独有随机数的随机数和值，得到所述梯度和值。

在一个例子中，假定从第i个客户端接收的加密数据E_i中包括上述独立随机数r_i的分解值<r_i>_i、运算值

和其他独立随机数的分解值{<r_j>_i|j∈[1,N]，j≠i}。基于此，一方面，可以计算

进而得到运算和值

另一方面，可以利用N份加密数据中对应包括由第i个客户端发送的<r_i>_i和其他N-1个客户端发送的{<r_i>_j|j∈[1,N]，j≠i}，恢复出独立随机数r_i，进而得到N个独有随机数：{r_i|n∈[1,N]}；进一步地，通过计算

得到梯度和值

根据一个具体的例子，假定N＝3，并且3个客户端分别为客户端A、客户端B和客户端C，服务端从客户端A接收的加密数据包括：上述<r_A>_A、ad_A(＝G_A+s_AB+s_AC+r_A)、<r_B>_A和<r_C>_A，从客户端B接收的加密数据包括：<r_B>_B、ad_B(＝G_B-s_AB+s_BC+r_B)、<r_A>_B和<r_C>_B，从客户端C接收的加密数据包括：<r_C>_C、ad_C(＝G_C-s_AC-s_BC+r_C)、<r_A>_C和<r_B>_C。基于此。一方面，可以通过计算ad_A+ad_B+ad_C，得到运算和值F＝(G_A+G_B+G_C+r_A+r_B+r_C)；另一方面，可以秘密共享技术，根据上述<r_A>_A、<r_A>_B和<r_A>_C恢复出r_A，并根据上述<r_B>_A、<r_B>_B和<r_B>_C恢复出r_B，以及根据上述<r_C>_A、<r_C>_B和<r_C>_C恢复出r_C。进一步地，计算F-(r_A+r_B+r_C)，得到梯度和值G(＝G_A+G_B+G_C)。

进一步地，假定其中客户端A掉线，服务端可以根据从客户端B和C接收的数据，计算出ad_B+ad_C，得到运算和值F′＝(G_B+G_C+r_B+r_C)，并且，利用2of3秘密共享技术，根据<r_B>_B和<r_B>_C恢复出r_B，根据<r_C>_B和<r_C>_C恢复出r_C。进一步地，计算F′-(r_B+r_C)，得到梯度和值G′(＝G_B+G_C)。如此，即使在有限数量的客户端掉线的情况下，仍然可以计算出未掉线客户端的梯度数据对应的梯度和值，用于公共神经网络的参数更新。

如此，对于采用秘密分享加密得到的加密数据，服务端可以对其进行解密而得到对应于N个客户端确定的N个训练梯度的梯度和值。

在另一个实施例中，上述第一加密数据是通过MPC技术中包括的同态加密技术或混淆电路技术而得到。相应地，在步骤S420中，服务端可以通过同态加密技术或混淆电路技术，对N份加密数据进行解密，从而得到上述梯度和值。

以上，服务端可以对从N个客户端接收的N份加密数据进行解密处理，得到与N个客户端确定的N个训练梯度对应的梯度和值。

然后，在步骤S430，根据上述梯度和值，调整所述公共神经网络的网络参数。在一个实施例中，可以按照预设的学习步长或者说学习率，利用梯度和值调整该网络参数。需要说明，根据梯度和值调整对应网络参数的方式，还可以参见已有技术，不作赘述。如此，可以实现对公共神经网络的网络参数的调整。

综上，在本说明书实施例披露的更新强化学习系统的方法中，不是让每个客户端是直接利用其根据本地交互数据计算出的梯度数据，独立地去更新公共神经网络的模型参数，而是让每个客户端先对该梯度数据进行加密再进行传输，由服务端对每个客户端传输的加密数据进行汇总后，解密得到多个原始梯度数据的梯度和值，用以集中更新公共神经网络的模型参数。如此，可以在有效防止客户端本地数据、梯度数据被非法窃取而导致隐私泄露的同时，实现多个客户端共同联合训练强化学习模型。

以上，主要对更新强化学习系统的方法中，梯度数据的加解密进行介绍。下面结合具体的实施例，对上述强化学习系统的强化学习模型中包含的公共神经网络和线程神经网络进行介绍。

在一种实施方式中，上述强化学习模型基于actor-critic演员-评论家架构，相应地，图5示出根据一个实施例的基于图2的强化学习系统结构细化图，在图5中，上述公共神经网络包括公共演员网络和公共评论家网络，上述线程神经网络包括线程演员网络和线程评论家网络。

基于此，在图3示出的方法步骤中，首先步骤S310中可以包括：从所述服务端获取所述公共演员网络的当前演员网络参数θ，利用所述当前演员网络参数对第一线程演员网络θ′进行初始化设置；以及，从所述服务端获取公共评论家网络的当前评论家网络参数θ_V，利用所述当前评论家网络参数对第一线程评论家网络θ′_V进行初始化设置。

接着步骤S320中可以包括：利用所述第一线程演员网络跟所述第一业务环境进行多次交互。在一个例子中，假定第一客户端中的客户端计数器的计数值为t(初始值为t_start)，对于第t次交互，将当前环境状态s_t输入第一线程演员网络θ中，从而可以确定出具有最大概率π(a_t|s_t；θ′)的当前业务动作a_t，将a_t施加于第一业务环境，可以得到奖励值r_t作为当前反馈，以及变更后的环境状态s_t+1，然后将t自增1，此时，若s_t为环境最终状态，或者若t-t_start＝t_max，其中其中t_max为预定阈值，则停止交互，否则进行下一次交互。其中，第t次交互得到的训练样本为[a_t,r_t,s_t+1]。

然后步骤S330可以包括：利用所述多个训练样本和所述第一线程评论家网络，确定针对所述第一线程演员网络的第一演员训练梯度，以及利用所述多个训练样本，确定针对所述第一线程评论家网络的第一评论家训练梯度。在一个例子中，可以先确定出最后一次交互对应的长期收益，具体地，若变更后的环境状态s_t为环境最终状态，则R＝0；若变更后的s_t不是环境最终状态，则R＝V(s_t,θ′_v)。然后，对于i∈{t-1,...,t_start}，利用以下迭代式(1)-(3)进行多次循环迭代计算，进而得到第一演员梯度和第一评论家梯度：

R←r_i+γR (1)

以上式中，γ为衰减系数，是超参，取值范围为[0,1]；β为超参，H表示熵，式(2)中添加

项是为了防止过早收敛而进入全局次优解；V(s_i；θ′_v)表示将环境状态s_i输入第一线程评论家网络θ′_v中而得到的状态价值；r_i表示第i+1次交互得到的奖励值；将迭代完毕后的dθ和dθ_v分别作为上述第一演员训练梯度和第一评论家训练梯度。

再接着，步骤S340可以包括：利用所述MPC技术，分别基于所述第一演员训练梯度和第一评论家训练梯度执行加密处理，得到对应的第一演员加密数据和第一评论家加密数据，构成所述第一加密数据。

相应地，在图4示出的方法步骤中，首先步骤S410可以包括：接收所述N个客户端各自生成的加密数据，得到N份加密数据，其中任一份的第一加密数据包括第一演员加密数据和第一评论家加密数据。接着步骤S420可以包括：利用MPC技术，对所述N份加密数据中包括的N份演员加密数据进行解密处理，得到演员梯度和值，以及对所述N份加密数据中包括的N份评论家加密数据进行解密处理，得到评论家梯度和值。然后步骤S430中可以包括：根据所述演员梯度和值，调整所述公共演员网络的网络参数，以及根据所述评论家梯度和值，调整所述公共评论家网络的网络参数。

在上述实施方式中，不是让每个客户端是直接利用其根据本地交互数据计算出的梯度数据，独立地去更新公共演员网络和公共评论家网络的模型参数，而是让每个客户端先对该梯度数据进行加密再进行传输，由服务端对每个客户端传输的加密数据进行汇总后，解密得到多个原始梯度数据的梯度和值，用以集中更新公共演员网络和公共评论家网络的模型参数。对于线程演员网络和线程评论家网络，其可以获取公共演员网络和公共评论家网络中的最新参数用于每轮次迭代中的初始化设置。如此，可以在有效防止客户端本地数据、梯度数据被非法窃取而导致隐私泄露的同时，实现多个客户端共同联合训练强化学习模型。

在另一种实施方式中，上述强化学习模型可以基于one-stepQ-learning算法、one-stepSarsa算法或n-stepQ-learning算法，相应地，图6示出根据另一个实施例的基于图2的强化学习系统结构细化图，在图6中，上述公共神经网络包括目标神经网络和过渡神经网络，上述线程神经网络包括目标线程网络和过渡线程网络。

基于此，在图3示出的方法步骤中，首先在步骤S310可以包括：从所述服务端获取所述目标神经网络的当前目标网络参数，并利用所述当前目标网络参数对第一目标线程网络进行初始化设置，以及，从所述服务端获取所述过渡神经网络的当前过渡网络参数，并利用所述当前过渡网络参数对第一过渡线程网络进行初始化设置。接着在步骤S320中可以包括：利用所述第一过渡线程网络与所述第一业务环境进行连续多次交互，得到多个训练样本。然后在步骤S330中可以包括：利用所述多个训练样本和所述第一目标线程网络，确定针对所述第一过渡线程网络的所述第一训练梯度。需要说明，在常规的异步one-step Q-learning算法、异步one-step Sarsa或异步n-step Q-learning算法中，线程中不需要配置目标神经网络的副本，而是直接调用公共的目标神经网络即可，而在本说明书实施例中，为了防止该调用过程中造成的数据泄露，在客户端本地配置了目标神经网络的副本，也就是第一目标线程网络，如此可以进一步防止隐私数据的泄露。另外，对于其中训练样本的获得方式和第一训练梯度的确定方式，可以参见已有的对异步one-step Q-learning算法、异步one-step Sarsa或异步n-step Q-learning算法的介绍，不作赘述。

相应地，在图4示出的方法步骤中，步骤S430中可以包括：根据所述梯度和值，调整过渡神经网络的网络参数。在一个具体的实施例中，所述服务端中还维护全局共享交互计数器，该全局共享交互计数器配置为，响应于任意的第一客户端通过其第一线程神经网络与第一业务环境进行的单次交互，计数数值T加1；相应地，步骤S430中具体可以包括：利用所述梯度和值，调整所述过渡神经网络的网络参数；在所述计数数值满足预定条件的情况下，将所述目标神经网络的网络参数更新为所述过渡神经网络的网络参数。在一个例子中，预定条件可以根据实际需要设定，例如可以为：利用迭代次数阈值(例如10)对T(例如50)对进行取余运算所得到的余数为0。

在上述实施方式中，不是让每个客户端是直接利用其根据本地交互数据计算出的梯度数据，独立地去更新过渡神经网络的模型参数，而是让每个客户端先对该梯度数据进行加密再进行传输，由服务端对每个客户端传输的加密数据进行汇总后，解密得到多个原始梯度数据的梯度和值，用以集中更新过渡神经网络的模型参数，进而缓慢地(slowly)用过渡神经网络的模型参数去更新目标神经网络的模型参数。对于线程过渡网络和线程目标网络，其可以获取公共的过渡神经网络和目标神经网络中的最新参数用于每轮次迭代中的初始化设置。如此，可以在有效防止客户端本地数据、梯度数据被非法窃取而导致隐私泄露的同时，实现多个客户端共同联合训练强化学习模型。

与上述更新强化学习系统的方法相对应的，本说明书实施例还披露一种更新强化学习系统的装置。具体如下：

图7示出根据一个实施例的实现隐私保护的更新强化学习系统的装置结构图，其中，所述强化学习系统中包括服务端和N个客户端，所述服务端中部署强化学习模型的公共神经网络，所述强化学习模型用于针对业务环境预测业务动作，所述N个客户端中各自部署所述强化学习模型的线程神经网络，并各自搭建业务环境，其中N为大于1的整数；所述装置集成于所述N个客户端中任意的第一客户端。如图7所示，所述装置700包括：

公共参数获取单元710，配置为从所述服务端获取所述公共神经网络的当前网络参数；网络初始化单元720，配置为利用所述当前网络参数对所述第一客户端中部署的第一线程神经网络进行初始化设置；交互单元730，配置为利用所述第一线程神经网络与所述第一客户端中搭建的第一业务环境进行连续多次交互，得到多个训练样本；通过所述交互单元进行的任一次交互包括：将所述第一业务环境的当前环境状态输入所述第一线程神经网络，得到当前业务动作，将所述当前业务动作施加于所述第一业务环境，得到所述第一业务环境作出的当前反馈，所述当前环境状态、当前业务动作和当前反馈构成单个训练样本；梯度确定单元740，配置为利用所述多个训练样本，确定针对所述第一线程神经网络的第一训练梯度；梯度加密单元750，配置为利用安全多方计算MPC技术，基于所述第一训练梯度执行加密处理，生成第一加密数据；加密数据发送单元760，配置为向所述服务端发送所述第一加密数据，以使所述服务端对该第一加密数据和从其他客户端中接收的其他加密数据进行解密处理，得到与N个客户端确定的N个训练梯度对应的梯度和值，用于调整所述公共神经网络的网络参数。

在一个实施例中，所述MPC技术包括秘密共享；其中梯度加密单元750具体配置为：将所述第一训练梯度分解为N份第一分解梯度；将所述N份第一分解梯度中的某一份留存在所述第一客户端中，并将其他的N-1份对应分发给其他N-1个客户端；从所述其他N-1个客户端对应接收N-1份其他分解梯度；对所述某一份第一分解梯度和所述N-1份其他分解梯度进行求和，得到所述第一加密数据。

在一个实施例中，所述MPC技术包括秘密共享；其中梯度加密单元750具体配置为：获取所述N-1个客户端分别与所述第一客户端共享的共享随机数，得到N-1个共享随机数；生成第一独有随机数，并将其分解为N份第一分解数值；将所述N份第一分解数值中的某一份留存在所述第一客户端中，并将其他的N-1份对应分发给其他N-1个客户端；从所述其他N-1个客户端对应接收N-1份其他分解数值；基于预定运算规则，对所述第一训练梯度、所述N-1个共享随机数和所述第一独有随机数进行运算，得到第一运算值，其中所述第一运算值、所述某一份第一分解数值和所述N-1份其他分解数值共同构成所述第一加密数据。

在一个具体的实施例中，所述梯度加密单元750具体配置为生成第一独有随机数，并将其分解为N份第一分解数值，具体包括：配置为将所述第一独有随机数随机分解为所述N份第一分解数值；或者，配置为基于预定的恢复门限值m，将所述第一独有随机数分解为所述N份第一分解数值，使得根据其中任意的m份均可恢复出所述第一独有随机数，其中m为大于1且小于N的整数。

在一个实施例中，所述公共神经网络包括目标神经网络和过渡神经网络；所述第一线程神经网络包括第一目标线程网络和第一过渡线程网络。其中公共参数获取单元710具体配置为：从所述服务端获取所述目标神经网络的当前目标网络参数和所述过渡神经网络的当前过渡网络参数；其中网络初始化单元720具体配置为：利用所述当前目标网络参数对第一目标线程网络进行初始化设置，以及利用所述当前过渡网络参数对第一过渡线程网络进行初始化设置；其中交互单元730具体配置为：利用所述第一过渡线程网络与所述第一业务环境进行连续多次交互，得到多个训练样本；其中梯度确定单元740具体配置为：利用所述多个训练样本和所述第一目标线程网络，确定针对所述第一过渡线程网络的所述第一训练梯度。

在一个实施例中，所述强化学习模型基于actor-critic演员-评论家架构，所述公共神经网络包括公共演员网络和公共评论家网络，所述线程神经网络包括线程演员网络和线程评论家网络。其中公共参数获取单元710具体配置为：从所述服务端获取所述公共演员网络的当前演员网络参数和所述公共评论家网络的当前评论家网络参数；其中网络初始化单元720具体配置为：利用所述当前演员网络参数对第一线程演员网络进行初始化设置，以及利用所述当前评论家网络参数对第一线程评论家网络进行初始化设置；其中交互单元730具体配置为：利用所述第一线程演员网络跟所述第一业务环境进行多次交互；其中梯度确定单元740具体配置为：利用所述多个训练样本和所述第一线程评论家网络，确定针对所述第一线程演员网络的第一演员训练梯度，以及利用所述多个训练样本，确定针对所述第一线程评论家网络的第一评论家训练梯度；其中梯度加密单元750具体配置为：利用所述MPC技术，分别基于所述第一演员训练梯度和第一评论家训练梯度执行加密处理，得到对应的第一演员加密数据和第一评论家加密数据，构成所述第一加密数据。

图8示出根据另一个实施例的实现隐私保护的更新强化学习系统的装置结构图，其中，所述强化学习系统中包括服务端和N个客户端，所述服务端中部署强化学习模型的公共神经网络，所述强化学习模型用于针对业务环境预测业务动作，所述N个客户端中各自部署所述强化学习模型的线程神经网络，并各自搭建业务环境，其中N为大于1的整数；所述装置集成于于所述服务端。如图8所示，所述装置800包括：

加密数据接收单元810，配置为接收所述N个客户端各自生成的加密数据，得到N份加密数据；其中任一份的第一加密数据由第一客户端利用安全多方计算MPC技术基于第一训练梯度执行加密处理而得到，所述第一训练梯度基于利用第一线程神经网络跟第一业务环境进行交互得到的训练样本而确定。数据解密单元820，配置为利用所述MPC技术，对所述N份加密数据进行解密处理，得到与N个客户端确定的N个训练梯度对应的梯度和值。公共参数调整单元830，配置为根据所述梯度和值，调整所述公共神经网络的网络参数。

在一个实施例中，所述第一加密数据对应于以下内容的加和：将所述第一训练梯度分解为N份第一分解梯度后保留的其中某一份，以及从其他N-1个客户端对应接收的N-1份其他分解梯度。其中数据解密单元820具体配置为：对所述N份加密数据进行求和，得到所述梯度和值。

在一个实施例中，所述第一加密数据中包括：将生成的第一独有随机数分解为N份第一分解数值后保留的其中某一份，从其他N-1个客户端对应接收的N-1份其他分解数值，对所述第一训练梯度、所述N-1个客户端分别与所述第一客户端共享的共享随机数和所述第一独有随机数进行预定运算得到的第一运算值。其中数据解密单元820具体配置为：利用所述N份加密数据中对应包括的所述N份第一分解数值，恢复出所述第一客户端生成的所述第一独有随机数，进而得到所述N个客户端生成的N个独有随机数；对所述N份加密数据中对应包括的N个运算值进行求和，得到运算和值；从所述运算和值中减去所述N个独有随机数的随机数和值，得到所述梯度和值。

在一个实施例中，所述公共神经网络包括目标神经网络和公共线程神经网络；所述服务端中还维护全局共享交互计数器，该全局共享交互计数器配置为，响应于任意的第一客户端通过其第一线程神经网络与第一业务环境进行的单次交互，计数数值加1。其中公共参数调整单元830具体配置为：利用所述梯度和值，调整所述过渡神经网络的网络参数；在所述计数数值满足预定条件的情况下，将所述目标神经网络的网络参数更新为所述过渡神经网络的网络参数。

在一个实施例中，所述强化学习模型基于演员actor-评论家critic架构，所述公共神经网络包括公共演员网络和公共评论家网络，所述线程神经网络包括线程演员网络和线程评论家网络；所述第一训练梯度中包括，针对第一线程演员网络的第一演员训练梯度和针对第一线程评论家网络的第一评论家训练梯度；所述第一加密数据中包括，分别基于所述第一演员训练梯度和第一评论家训练梯度执行加密处理，得到的第一演员加密数据和第一评论家加密数据；其中数据解密单元820具体配置为：利用MPC技术，对所述N份加密数据中包括的N份演员加密数据进行解密处理，得到演员梯度和值，以及对所述N份加密数据中包括的N份评论家加密数据进行解密处理，得到评论家梯度和值；其中公共参数调整单元830具体配置为：根据所述演员梯度和值，调整所述公共演员网络的网络参数，以及根据所述评论家梯度和值，调整所述公共评论家网络的网络参数。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图3或图4所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图3或图4所述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种实现隐私保护的更新强化学习系统的方法，其中，所述强化学习系统中包括服务端和N个客户端，所述服务端中部署强化学习模型的公共神经网络，所述强化学习模型用于针对业务环境预测业务动作，所述N个客户端中各自部署所述强化学习模型的线程神经网络，并各自搭建业务环境，其中N为大于1的整数；所述方法应用于所述N个客户端中任意的第一客户端，所述方法包括：

从所述服务端获取所述公共神经网络的当前网络参数，并利用所述当前网络参数对所述第一客户端中部署的第一线程神经网络进行初始化设置；

利用所述第一线程神经网络与所述第一客户端中搭建的第一业务环境进行连续多次交互，得到多个训练样本；其中任一次交互包括：将所述第一业务环境的当前环境状态输入所述第一线程神经网络，得到当前业务动作，将所述当前业务动作施加于所述第一业务环境，得到所述第一业务环境作出的当前反馈，所述当前环境状态、当前业务动作和当前反馈构成单个训练样本；

利用所述多个训练样本，确定针对所述第一线程神经网络的第一训练梯度；

利用安全多方计算MPC技术，基于所述第一训练梯度执行加密处理，生成第一加密数据；

向所述服务端发送所述第一加密数据，以使所述服务端对该第一加密数据和从其他客户端中接收的其他加密数据进行解密处理，得到与N个客户端确定的N个训练梯度对应的梯度和值，用于调整所述公共神经网络的网络参数。

2.根据权利要求1所述的方法，其中，所述MPC技术包括秘密共享；其中利用安全多方计算MPC技术，基于所述第一训练梯度执行加密处理，生成第一加密数据，包括：

将所述第一训练梯度分解为N份第一分解梯度；

将所述N份第一分解梯度中的某一份留存在所述第一客户端中，并将其他的N-1份对应分发给其他N-1个客户端；

从所述其他N-1个客户端对应接收N-1份其他分解梯度；

对所述某一份第一分解梯度和所述N-1份其他分解梯度进行求和，得到所述第一加密数据。

3.根据权利要求1所述的方法，其中，所述MPC技术包括秘密共享；其中利用安全多方计算MPC技术，基于所述第一训练梯度执行加密处理，生成第一加密数据，包括：

获取所述N-1个客户端分别与所述第一客户端共享的共享随机数，得到N-1个共享随机数；

生成第一独有随机数，并将其分解为N份第一分解数值；

将所述N份第一分解数值中的某一份留存在所述第一客户端中，并将其他的N-1份对应分发给其他N-1个客户端；

从所述其他N-1个客户端对应接收N-1份其他分解数值；

基于预定运算规则，对所述第一训练梯度、所述N-1个共享随机数和所述第一独有随机数进行运算，得到第一运算值，其中所述第一运算值、所述某一份第一分解数值和所述N-1份其他分解数值共同构成所述第一加密数据。

4.根据权利要求3所述的方法，其中，生成第一独有随机数，并将其分解为N份第一分解数值，包括：

将所述第一独有随机数随机分解为所述N份第一分解数值；或者，

基于预定的恢复门限值m，将所述第一独有随机数分解为所述N份第一分解数值，使得根据其中任意的m份均可恢复出所述第一独有随机数，其中m为大于1且小于N的整数。

5.根据权利要求1所述的方法，其中，所述公共神经网络包括目标神经网络和过渡神经网络；所述第一线程神经网络包括第一目标线程网络和第一过渡线程网络；

其中从所述服务端获取所述公共神经网络的当前网络参数，包括：从所述服务端获取所述目标神经网络的当前目标网络参数和所述过渡神经网络的当前过渡网络参数；

其中利用所述当前网络参数对第一线程神经网络进行初始化设置，包括：利用所述当前目标网络参数对第一目标线程网络进行初始化设置，以及利用所述当前过渡网络参数对第一过渡线程网络进行初始化设置；

其中利用所述第一线程神经网络与所述第一客户端中搭建的第一业务环境进行连续多次交互，得到多个训练样本，包括：利用所述第一过渡线程网络与所述第一业务环境进行连续多次交互，得到多个训练样本；

其中利用所述多个训练样本，确定针对所述第一线程神经网络的第一训练梯度，包括：利用所述多个训练样本和所述第一目标线程网络，确定针对所述第一过渡线程网络的所述第一训练梯度。

6.根据权利要求1所述的方法，其中，所述强化学习模型基于actor-critic演员-评论家架构，所述公共神经网络包括公共演员网络和公共评论家网络，所述线程神经网络包括线程演员网络和线程评论家网络；

其中从所述服务端获取所述公共神经网络的当前网络参数，包括：从所述服务端获取所述公共演员网络的当前演员网络参数和所述公共评论家网络的当前评论家网络参数；

其中利用所述当前网络参数对第一线程神经网络进行初始化设置，包括：利用所述当前演员网络参数对第一线程演员网络进行初始化设置，以及利用所述当前评论家网络参数对第一线程评论家网络进行初始化设置；

其中利用所述第一线程神经网络跟第一业务环境进行多次交互，包括：利用所述第一线程演员网络跟所述第一业务环境进行多次交互；

其中利用所述多个训练样本，确定针对所述第一线程神经网络的第一训练梯度，包括：利用所述多个训练样本和所述第一线程评论家网络，确定针对所述第一线程演员网络的第一演员训练梯度，以及利用所述多个训练样本，确定针对所述第一线程评论家网络的第一评论家训练梯度；

其中利用安全多方计算MPC技术，基于所述第一训练梯度执行加密处理，生成第一加密数据，包括：

利用所述MPC技术，分别基于所述第一演员训练梯度和第一评论家训练梯度执行加密处理，得到对应的第一演员加密数据和第一评论家加密数据，构成所述第一加密数据。

7.一种实现隐私保护的更新强化学习系统的方法，其中，所述强化学习系统中包括服务端和N个客户端，所述服务端中部署强化学习模型的公共神经网络，所述强化学习模型用于针对业务环境预测业务动作，所述N个客户端中各自部署所述强化学习模型的线程神经网络，并各自搭建业务环境，其中N为大于1的整数；所述方法应用于所述服务端，所述方法包括：

接收所述N个客户端各自生成的加密数据，得到N份加密数据；其中任一份的第一加密数据由第一客户端利用安全多方计算MPC技术基于第一训练梯度执行加密处理而得到，所述第一训练梯度基于利用第一线程神经网络跟第一业务环境进行交互得到的训练样本而确定；所述交互中的任一次包括：将所述第一业务环境的当前环境状态输入所述第一线程神经网络，得到当前业务动作，将所述当前业务动作施加于所述第一业务环境，得到所述第一业务环境作出的当前反馈，所述当前环境状态、当前业务动作和当前反馈构成单个训练样本；

利用所述MPC技术，对所述N份加密数据进行解密处理，得到与N个客户端确定的N个训练梯度对应的梯度和值；

根据所述梯度和值，调整所述公共神经网络的网络参数。

8.根据权利要求7所述的方法，其中，所述第一加密数据对应于以下内容的加和：将所述第一训练梯度分解为N份第一分解梯度后保留的其中某一份，以及从其他N-1个客户端对应接收的N-1份其他分解梯度；

其中对所述N份加密数据进行解密处理，得到与N个客户端确定的N个训练梯度对应的梯度和值，包括：

对所述N份加密数据进行求和，得到所述梯度和值。

9.根据权利要求7所述的方法，其中，所述第一加密数据中包括：将生成的第一独有随机数分解为N份第一分解数值后保留的其中某一份，从其他N-1个客户端对应接收的N-1份其他分解数值，对所述第一训练梯度、所述N-1个客户端分别与所述第一客户端共享的共享随机数和所述第一独有随机数进行预定运算得到的第一运算值；

利用所述N份加密数据中对应包括的所述N份第一分解数值，恢复出所述第一客户端生成的所述第一独有随机数，进而得到所述N个客户端生成的N个独有随机数；

对所述N份加密数据中对应包括的N个运算值进行求和，得到运算和值；

从所述运算和值中减去所述N个独有随机数的随机数和值，得到所述梯度和值。

10.根据权利要求7所述的方法，其中，所述公共神经网络包括目标神经网络和过渡神经网络；所述服务端中还维护全局共享交互计数器，该全局共享交互计数器配置为，响应于任意的第一客户端通过其第一线程神经网络与第一业务环境进行的单次交互，计数数值加1；

其中根据所述梯度和值，调整所述公共神经网络的网络参数，包括：

利用所述梯度和值，调整所述过渡神经网络的网络参数；

在所述计数数值满足预定条件的情况下，将所述目标神经网络的网络参数更新为所述过渡神经网络的网络参数。

11.根据权利要求7所述的方法，其中，所述强化学习模型基于演员actor-评论家critic架构，所述公共神经网络包括公共演员网络和公共评论家网络，所述线程神经网络包括线程演员网络和线程评论家网络；所述第一训练梯度中包括，针对第一线程演员网络的第一演员训练梯度和针对第一线程评论家网络的第一评论家训练梯度；所述第一加密数据中包括，分别基于所述第一演员训练梯度和第一评论家训练梯度执行加密处理，得到的第一演员加密数据和第一评论家加密数据；

其中，利用安全多方计算MPC技术，对所述N份加密数据进行解密处理，得到与N个客户端确定的N个训练梯度对应的梯度和值，包括：

利用MPC技术，对所述N份加密数据中包括的N份演员加密数据进行解密处理，得到演员梯度和值，以及对所述N份加密数据中包括的N份评论家加密数据进行解密处理，得到评论家梯度和值；

根据所述演员梯度和值，调整所述公共演员网络的网络参数，以及根据所述评论家梯度和值，调整所述公共评论家网络的网络参数。

12.一种实现隐私保护的更新强化学习系统的装置，其中，所述强化学习系统中包括服务端和N个客户端，所述服务端中部署强化学习模型的公共神经网络，所述强化学习模型用于针对业务环境预测业务动作，所述N个客户端中各自部署所述强化学习模型的线程神经网络，并各自搭建业务环境，其中N为大于1的整数；所述装置集成于所述N个客户端中任意的第一客户端，所述装置包括：

公共参数获取单元，配置为从所述服务端获取所述公共神经网络的当前网络参数；

网络初始化单元，配置为利用所述当前网络参数对所述第一客户端中部署的第一线程神经网络进行初始化设置；

交互单元，配置为利用所述第一线程神经网络与所述第一客户端中搭建的第一业务环境进行连续多次交互，得到多个训练样本；通过所述交互单元进行的任一次交互包括：将所述第一业务环境的当前环境状态输入所述第一线程神经网络，得到当前业务动作，将所述当前业务动作施加于所述第一业务环境，得到所述第一业务环境作出的当前反馈，所述当前环境状态、当前业务动作和当前反馈构成单个训练样本；

梯度确定单元，配置为利用所述多个训练样本，确定针对所述第一线程神经网络的第一训练梯度；

梯度加密单元，配置为利用安全多方计算MPC技术，基于所述第一训练梯度执行加密处理，生成第一加密数据；

加密数据发送单元，配置为向所述服务端发送所述第一加密数据，以使所述服务端对该第一加密数据和从其他客户端中接收的其他加密数据进行解密处理，得到与N个客户端确定的N个训练梯度对应的梯度和值，用于调整所述公共神经网络的网络参数。

13.根据权利要求12所述的装置，其中，所述MPC技术包括秘密共享；其中梯度加密单元具体配置为：

将所述第一训练梯度分解为N份第一分解梯度；

从所述其他N-1个客户端对应接收N-1份其他分解梯度；

14.根据权利要求12所述的装置，其中，所述MPC技术包括秘密共享；其中梯度加密单元具体配置为：

生成第一独有随机数，并将其分解为N份第一分解数值；

从所述其他N-1个客户端对应接收N-1份其他分解数值；

15.根据权利要求14所述的装置，其中，所述梯度加密单元具体配置为生成第一独有随机数，并将其分解为N份第一分解数值，具体包括：

配置为将所述第一独有随机数随机分解为所述N份第一分解数值；或者，

配置为基于预定的恢复门限值m，将所述第一独有随机数分解为所述N份第一分解数值，使得根据其中任意的m份均可恢复出所述第一独有随机数，其中m为大于1且小于N的整数。

16.根据权利要求12所述的装置，其中，所述公共神经网络包括目标神经网络和过渡神经网络；所述第一线程神经网络包括第一目标线程网络和第一过渡线程网络；

其中公共参数获取单元具体配置为：从所述服务端获取所述目标神经网络的当前目标网络参数和所述过渡神经网络的当前过渡网络参数；

其中网络初始化单元具体配置为：利用所述当前目标网络参数对第一目标线程网络进行初始化设置，以及利用所述当前过渡网络参数对第一过渡线程网络进行初始化设置；

其中交互单元具体配置为：利用所述第一过渡线程网络与所述第一业务环境进行连续多次交互，得到多个训练样本；

其中梯度确定单元具体配置为：利用所述多个训练样本和所述第一目标线程网络，确定针对所述第一过渡线程网络的所述第一训练梯度。

17.根据权利要求12所述的装置，其中，所述强化学习模型基于actor-critic演员-评论家架构，所述公共神经网络包括公共演员网络和公共评论家网络，所述线程神经网络包括线程演员网络和线程评论家网络；

其中公共参数获取单元具体配置为：从所述服务端获取所述公共演员网络的当前演员网络参数和所述公共评论家网络的当前评论家网络参数；

其中网络初始化单元具体配置为：利用所述当前演员网络参数对第一线程演员网络进行初始化设置，以及利用所述当前评论家网络参数对第一线程评论家网络进行初始化设置；

其中交互单元具体配置为：利用所述第一线程演员网络跟所述第一业务环境进行多次交互；

其中梯度确定单元具体配置为：利用所述多个训练样本和所述第一线程评论家网络，确定针对所述第一线程演员网络的第一演员训练梯度，以及利用所述多个训练样本，确定针对所述第一线程评论家网络的第一评论家训练梯度；

其中梯度加密单元具体配置为：利用所述MPC技术，分别基于所述第一演员训练梯度和第一评论家训练梯度执行加密处理，得到对应的第一演员加密数据和第一评论家加密数据，构成所述第一加密数据。

18.一种实现隐私保护的更新强化学习系统的装置，其中，所述强化学习系统中包括服务端和N个客户端，所述服务端中部署强化学习模型的公共神经网络，所述强化学习模型用于针对业务环境预测业务动作，所述N个客户端中各自部署所述强化学习模型的线程神经网络，并各自搭建业务环境，其中N为大于1的整数；所述装置集成于所述服务端，所述装置包括：

加密数据接收单元，配置为接收所述N个客户端各自生成的加密数据，得到N份加密数据；其中任一份的第一加密数据由第一客户端利用安全多方计算MPC技术基于第一训练梯度执行加密处理而得到，所述第一训练梯度基于利用第一线程神经网络跟第一业务环境进行交互得到的训练样本而确定；所述交互中的任一次包括：将所述第一业务环境的当前环境状态输入所述第一线程神经网络，得到当前业务动作，将所述当前业务动作施加于所述第一业务环境，得到所述第一业务环境作出的当前反馈，所述当前环境状态、当前业务动作和当前反馈构成单个训练样本；

数据解密单元，配置为利用所述MPC技术，对所述N份加密数据进行解密处理，得到与N个客户端确定的N个训练梯度对应的梯度和值；

公共参数调整单元，配置为根据所述梯度和值，调整所述公共神经网络的网络参数。

19.根据权利要求18所述的装置，其中，所述第一加密数据对应于以下内容的加和：将所述第一训练梯度分解为N份第一分解梯度后保留的其中某一份，以及从其他N-1个客户端对应接收的N-1份其他分解梯度；

其中数据解密单元具体配置为：

对所述N份加密数据进行求和，得到所述梯度和值。

20.根据权利要求18所述的装置，其中，所述第一加密数据中包括：将生成的第一独有随机数分解为N份第一分解数值后保留的其中某一份，从其他N-1个客户端对应接收的N-1份其他分解数值，对所述第一训练梯度、所述N-1个客户端分别与所述第一客户端共享的共享随机数和所述第一独有随机数进行预定运算得到的第一运算值；

其中数据解密单元具体配置为：

21.根据权利要求18所述的装置，其中，所述公共神经网络包括目标神经网络和过渡神经网络；所述服务端中还维护全局共享交互计数器，该全局共享交互计数器配置为，响应于任意的第一客户端通过其第一线程神经网络与第一业务环境进行的单次交互，计数数值加1；

其中公共参数调整单元具体配置为：

利用所述梯度和值，调整所述过渡神经网络的网络参数；

22.根据权利要求18所述的装置，其中，所述强化学习模型基于演员actor-评论家critic架构，所述公共神经网络包括公共演员网络和公共评论家网络，所述线程神经网络包括线程演员网络和线程评论家网络；所述第一训练梯度中包括，针对第一线程演员网络的第一演员训练梯度和针对第一线程评论家网络的第一评论家训练梯度；所述第一加密数据中包括，分别基于所述第一演员训练梯度和第一评论家训练梯度执行加密处理，得到的第一演员加密数据和第一评论家加密数据；

其中数据解密单元具体配置为：

其中公共参数调整单元具体配置为：

23.一种计算机可读存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-11中任一项的所述的方法。

24.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-11中任一项所述的方法。