CN113850396B

CN113850396B - 隐私增强型联邦决策方法、装置、系统和存储介质

Info

Publication number: CN113850396B
Application number: CN202111140252.0A
Authority: CN
Inventors: 顾仁涛; 刘海玉; 张晓雅; 李韫瑄; 纪越峰
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2022-04-19
Anticipated expiration: 2041-09-28
Also published as: US20230095905A1; CN113850396A

Abstract

本发明提供隐私增强型联邦决策方法、装置、系统和存储介质，提出了一种在保证数据终端数据隐私性的条件下训练全局决策模型的方式，每个联邦数据终端向联邦协调器报告本地决策模型信息，联邦协调器利用联邦数据终端上报的本地决策模型信息实现全局决策模型的训练，训练好的全局决策模型可以实现对联邦数据终端之间的决策进行协调，如协调联邦数据终端的决策顺序或者协调联邦数据终端是否需要加入到决策任务中去，不仅解决了跨数据终端协调的困难的问题，还提高了数据终端内部决策的准确度，数据终端具有自适应联邦决策模型使用方式，大大提高了联邦数据终端决策的灵活性。

Description

隐私增强型联邦决策方法、装置、系统和存储介质

技术领域

本发明涉及一种跨数据终端决策技术领域，尤其是隐私增强型联邦决策方法、装置、系统和存储介质。

背景技术

随着机器学习等人工智能技术的快速发展和推广，基于大量原始数据进行模型训练从而得到拟合度更高的模型，成为了更多企业和学者的追求。重视数据隐私和安全已经成为了世界性的趋势，各国都在加强对数据安全和隐私的保护，欧盟引入的新法案《通用数据保护条例》(General Data Protection Regulation,GDPR)中明确对任何收集、传输、保留或处理涉及到欧盟所有成员国内的个人信息的机构组织进行约束；我国也在诸多法律法规中明确指出，网络运营者不得泄露、篡改、毁坏其收集的个人信息；这些法律法规的出台，在保障公民个人信息安全的同时，也给基于大数据的人工智能带来了巨大的挑战，不同公司之间甚至是相同公司不同部门之间都无法进行数据交换。

出于对原始数据隐私安全的考虑，在现实中想要将分散在不同地点、不同公司的数据进行整合根本无法实现。找到一种实现拥有原始数据的多方进行模型的联合训练，同时保障原始数据的隐私性和安全性的模型训练方法成为了众多企业和学者研究的焦点。

现有技术中，对于来自多方的隐私数据的保护主要分为两种方式：

第一种方式：数据提供方在数据发出之前对数据进行加密处理。

然而，这种将加密的数据传递出去的方式通过加密破解技术进行破解仍然存在对于隐私数据安全性的威胁问题。同时，通过加密的方式只能在数据传输的过程中防止被恶意攻击方窃听，很难保证收集方不会对收集到的原始数据进行非法利用。针对于这一点，原始数据提供方更加难以接受对外公布自己的原始数据。

第二种方式：联邦学习技术，通过这种方式，参与模型训练的各方数据都保留在本地，不泄露隐私也不违反法规；采用一种分布式训练的方式进行模型训练，并且共同获益的体系。目前有很多研究采用联邦学习实现跨数据终端的模型训练。然而，已有研究在保证数据终端隐私性的条件下将联邦学习技术和决策模型的结合，对于基于数据终端隐私保护的决策问题的解决效果并不理想。保证数据终端数据信息隐私性的条件下跨数据终端进行决策的场景主要，面临两大难点：首先，由于数据终端内部数据隐私性导致数据终端之间决策协调过程变得困难；其次，在不知道全局信息的条件下，每个数据终端的子任务进行准确决策变得困难。

发明内容

为了解决上述技术问题，本发明提供隐私增强型联邦决策方法、装置、系统和存储介质，在保证原始数据的隐私性、安全性的同时，实现跨越多个数据终端的准确决策。针对于数据终端内部数据隐私性导致数据终端之间决策协调过程变得困难，利用每个数据终端的本地决策模型信息训练出全局决策模型协调数据终端之间的决策；针对数据终端准确决策困难的问题，采用一种联邦学习的设计架构，训练出联邦决策模型，每个数据终端可以根据本地对于联邦协调器指导的需求度决定如何使用联邦决策模型。不仅解决了跨数据终端协调的困难的问题，还提高了数据终端内部决策的准确度，数据终端具有自适应联邦决策模型使用方式，大大提高了数据终端决策的灵活性。

隐私增强型联邦决策方法、装置、系统和存储介质，其中：

一种隐私增强型联邦决策方法，应用于与联邦协调器交互的联邦数据终端，具体步骤如下：

步骤S110、接收学习信号；

所述联邦数据终端接收联邦协调器的学习信号，利用接收的学习信号激活本地决策；

作为一种举例说明，所述联邦数据终端的数量为N个，所述N为大于1的自然数；

进一步的，由于联邦数据终端无法主动加入到联邦决策过程中去，因此需要通过联邦协调器向所述联邦数据终端发送学习信号，联邦数据终端收到相应学习信号后才会加入到联邦决策过程中去，进而激活本地决策；

所述的学习信号用于通知联邦数据终端何时参与到联邦决策过程中去，学习信号是由使用者根据实际情况自行确定的变量；

步骤S120、根据任务请求信息进行本地决策；根据本地决策结果和计算参数，计算并更新本地决策模型参数；

所述联邦数据终端获取本地数据及本地决策模型，并将本地数据和当前任务请求信息输入到本地决策模型，获得本地决策结果；

将所述计算参数和本地决策结果代入本地决策模型的更新公式，得到计算本地决策模型参数的中间结果，计算同时还可获得本地决策模型的新参数；

将所述本地决策模型的新参数代入所述本地决策模型，实现本地决策模型参数更新；

步骤S130、将计算本地决策模型参数的中间结果和决策后更新的本地决策模型参数上报至所述联邦协调器；所述的本地决策模型参数用于所述的联邦协调器更新全局决策模型；所述计算本地决策模型参数的中间结果用于所述联邦协调器聚合出新的联邦决策模型；

步骤S140、接收联邦协调器下发的协调信息和联邦决策模型；

步骤S150、根据所述联邦协调器发送的协调信息，所述联邦数据终端根据本地对于联邦决策模型的需求，将本地决策模型和联邦决策模型相结合得到终端决策模型，所述终端决策模型用于所述联邦数据终端进行本地决策；

进一步的，所述联邦数据终端会根据联邦协调器下发的协调信息加入到任务决策过程中去，同时联邦数据终端根据自己对于联邦协调器对本地决策指导的需求度，决定是否采用联邦协调器下发的联邦决策模型进行本地决策。

进一步的，所述联邦数据终端是否向所述联邦协调器上报用于计算本地决策模型参数的中间结果，取决于联邦数据终端是否需要联邦决策模型对本地决策进行指导、终端对于本地隐私的保护程度以及本地管理策略；

所述联邦数据终端是否需要联邦决策模型对本地决策进行指导具体分为3种场景：

场景1：所述联邦数据终端不需要联邦协调器对其本地决策进行指导时，所述联邦数据终端不会向联邦协调器报告计算本地决策模型参数的中间结果；

在场景1下，所述联邦数据终端不需要联邦协调器对其本地决策进行指导，联邦数据终端完全将本地训练的本地决策模型作为终端决策模型进行本地决策；

场景2：所述联邦数据终端完全需要联邦协调器对其本地决策进行指导，所述联邦数据终端会向联邦协调器报告全部计算本地决策模型参数的中间结果。

场景2下，所述联邦数据终端完全需要联邦协调器对其本地决策进行指导，所述联邦数据终端会将联邦决策模型作为终端决策模型进行本地决策；

场景3：所述联邦数据终端需要联邦协调器对其本地决策进行部分指导，所述联邦数据终端会向联邦协调器报告部分计算本地决策模型参数的中间结果；

场景3下，所述联邦数据终端需要联邦协调器对其本地决策进行部分指导，所述联邦数据终端将联邦决策模型和本地决策模型相结合得到终端决策模型，用于本地决策；

步骤S160、根据所述联邦协调器下发的协调信息，利用终端决策模型生成本地最优决策；

一种隐私增强型联邦决策装置，用于实现一种隐私增强型联邦决策方法，包括：第一终端发送和接收模块，本地决策模块，本地计算模块，本地存储模块以及第二终端发送和接收模块；

进一步的，所述第一终端发送和接收模块用于和联邦协调器进行交互，向所述联邦协调器发送本地决策模型参数和计算本地决策模型参数的中间结果，接收联邦协调器下发的学习信号、协调信息和联邦决策模型等；

进一步的，所述本地决策模块根据任务特点和本地存储器的数据对每个联邦数据终端进行本地决策；所述本地决策模块接收到第二终端发送和接收模块发送的其接收到的学习信号后，根据本地决策模型进行决策，决策后的结果则进入本地计算模块进行进一步计算；

进一步的，所述本地计算模块，用于根据所述本地决策模块的决策结果以及第一发送和接收模块接收到的计算参数，计算本地决策后更新的本地决策模型参数，并将更新的本地决策模型参数和新的计算本地决策模型参数的中间结果存储到本地存储器，同时也负责联邦决策模型和本地决策模型结合成终端决策模型的计算；

进一步的，所述本地存储模块，用于存储本地数据、计算参数、本地决策模型、终端决策模型和计算本地决策模型参数的中间结果，并通过第一终端发送和接收模块将本地决策模型参数和计算本地决策模型参数的中间结果发送至联邦协调器；当本地有决策任务时，则将本地决策模型和本地数据发送至所述本地计算模块以进行本地决策；

进一步的，所述第二终端发送和接收模块，用于接收本地资源和数据动态变化，及时将最新的本地数据更新至本地存储模块；同时接收本地决策任务请求，通过联邦数据终端将本地决策任务请求上报给所述联邦协调器，同时向具体执行者发送终端决策策略。

一种隐私增强型联邦决策系统，包括所述的一种隐私增强型联邦决策装置；

又一种隐私增强型联邦决策方法，应用于与联邦数据终端交互的联邦协调器，具体步骤如下：

步骤S210、向联邦数据终端发送学习信号；

步骤S220、联邦协调器接收联邦数据终端上报的本地决策模型信息和计算本地决策模型参数的中间结果；

步骤S230、利用联邦数据终端发送的本地决策模型信息计算并更新全局决策模型；利用联邦数据终端发送的计算本地决策模型参数的中间结果聚合出新的联邦决策模型；

进一步的，所述全局决策模型用于协调联邦数据终端的决策；所述全局决策模型能够产生联邦数据终端是否加入最终决策或联邦数据终端加入决策的顺序信息；

所述联邦决策模型用于指导联邦数据终端进行本地决策；

进一步的，从全局数据存储器获取全局决策模型参数；获得全局决策模型的更新规则；从全局数据存储器获取联邦决策模型参数；获得联邦决策模型的聚合规则；将全局决策模型参数和接收到的联邦数据终端的本地决策模型信息，按照全局决策模型更新规则进行更新；将联邦决策模型参数和接收到的联邦数据终端的计算本地决策模型参数的中间结果，按照联邦决策模型聚合规则进行聚合；

步骤S240、判断所述全局决策模型训练是否满足终止条件；

步骤S250、根据训练好的全局决策模型生成用于协调联邦数据终端决策的协调信息，并将生成的协调联邦数据终端决策的协调信息以及聚合后的联邦决策模型，一并存储至全局存储模块同时发送至联邦数据终端；

又一种隐私增强型联邦决策装置，该装置用于实现又一种隐私增强型联邦决策方法，包括：协调器发送和接收模块，全局存储模块，联邦计算模块，全局决策模块；

进一步的，所述协调器发送和接收模块，用于和所述联邦数据终端进行交互，将学习信号、协调信息以及联邦决策模型发送至对应的联邦数据终端；将联邦数据终端发送的本地决策模型信息和计算本地决策模型参数的中间结果发送至联邦计算模块以进行全局模型更新和联邦决策模型聚合；

进一步的，所述全局存储模块，用于存储全局决策模型；并将联邦计算模块整合的全局决策模型参数进行存储，当全局决策模型训练完毕时，将全局决策模型发送至全局决策模块以生成协调联邦数据终端决策的协调信息；

进一步的，所述联邦计算模块，用于将本地决策模型信息和计算本地决策模型参数的中间结果进行处理；利用本地决策模型信息计算并更新全局决策模型；利用计算本地决策模型参数的中间结果聚合出新的联邦决策模型；

进一步的，当全局决策模型训练完毕之后，所述全局决策模块根据训练的全局决策模型生成用于协调联邦数据终端决策的协调信息，并将所述协调信息存储至全局存储模块；

又一种隐私增强型联邦决策系统，该系统包括又一种隐私增强型联邦决策装置；

再一种隐私增强型联邦决策方法，应用于联邦数据终端与联邦协调器的交互；具体由以下步骤实现：

步骤一、所述联邦协调器根据决策任务请求信息向联邦数据终端发送学习信号；所述联邦数据终端接收学习信号，根据决策任务特点进行本地决策；

步骤二、联邦数据终端根据本地决策结果计算并更新本地决策模型信息，同时将所述更新本地决策模型信息和计算本地决策模型参数的中间结果上报至所述联邦协调器；

步骤三、联邦协调器利用本地决策模型信息计算并更新全局决策模型；利用计算本地决策模型参数的中间结果聚合出新的联邦决策模型；

步骤四、联邦协调器判断是否满足训练终止条件，如果满足终止条件，联邦协调器根据训练好的全局决策模型生成用于协调联邦数据终端决策的协调信息，并继续下一步；如果不满足终止条件，则继续训练；

步骤五、联邦协调器将生成的用于协调联邦数据终端决策的协调信息和聚合好的联邦决策模型存储至全局存储模块，并发送至联邦数据终端；所述联邦数据终端根据联邦协调器下发的协调信息，利用本地决策模型结合联邦决策模型生成终端决策模型，所述终端决策模型用于所述本地决策，并生成本地最优决策；

再一种隐私增强型联邦决策装置，该装置适用于再一种隐私增强型联邦决策方法；包括：第一终端发送和接收模块，本地决策模块，本地计算模块，本地存储模块，第二终端发送和接收模块；协调器发送和接收模块，全局存储模块，联邦计算模块，全局存储模块；

再一种隐私增强型联邦决策系统，包括再一种隐私增强型联邦决策装置。

一种计算机存储介质，存储有计算机可执行程序，用于执行一种隐私增强型联邦决策方法、又一种隐私增强型联邦决策方法以及再一种隐私增强型联邦决策方法。

有益效果：

1、本发明所述的隐私增强型联邦决策系统，通过一次训练完成全局决策模型、本地决策模型、联邦决策模型的训练大大提高了训练的准确性。在训练过程中，联邦数据终端根据本地是否需要联邦决策模型对本地决策进行指导、终端对于本地隐私的保护程度以及本地管理策略，自主决定是否向联邦协调器报告计算本地决策模型计算的中间结果，以及是否需要训练和使用联邦决策模型，以实现联邦协调器对于终端决策的指导，大大增加了模型训练和使用的灵活性。

2、本发明所述的方法采用联邦思想和分布式计算的思想通过参与模型训练的多个数据终端合作共同生成任务决策，通过决策模型的渐进式优化特性不断提高模型的准确性，数据终端进行分布式本地决策，由协调器进行全局的协调和策略生成。解决了数据终端本地数据隐私性的条件下集中式决策模型训练困难的问题。

3、本发明所述的方法可以在保证数据终端原始数据隐私性的条件下实现跨数据终端的任务决策，原始数据无需出本地只需要在数据终端和协调器之间交互模型信息不仅增强了原始数据的隐私性还减少了通信过程中的信息交互量。

4、本发明所述的隐私增强型联邦决策系统，保证了联邦数据终端和联邦协调器的有序交互。

附图说明

图1为本发明一种隐私增强型联邦决策方法之流程设计示意图

图2为本发明又一种隐私增强型联邦决策方法之流程设计示意图

图3为本发明再一种隐私增强型联邦决策方法之流程设计示意图

具体实施方式

下面，参考附图1至图3所示，隐私增强型联邦决策方法、装置、系统和存储介质，其中：

步骤S110、接收学习信号101；

作为一种举例说明，所述学习信号为一个布尔型变量，指示是否开始学习；当flag＝1时，表示激活本地决策；当flag＝0时，表示当前无需激活本地决策；

作为一种应用举例说明，若联邦协调器向某一联邦数据终端发送的学习信号为1，则此联邦数据终端开始进行本地决策；若联邦协调器向某一联邦数据终端发送的学习信号为0，则该联邦数据终端不进行任何动作；

作为一种举例说明，所述学习信号还可以是数值型变量，如联邦数据终端的编号，当联邦协调器以广播的形式发送需要进行决策的联邦数据终端的编号时，只有数据终端编号和所广播的编号一致的联邦数据终端才激活本地决策；

作为一种应用举例说明，当前广播设定为3号联邦数据终端进行本地决策，那只有3号联邦数据终端收到学习信号后才会激活本地决策，而其他联邦数据终端，如1号联邦数据终端收到学习信号后发现应该进行学习的数据终端不是自身，则将该学习信号丢弃；

作为一种举例说明，所述联邦数据终端接收学习信号的接收方式为：直接通过串口通信接收、利用无线网络接收或有线网络接收中的一种；

步骤S120、根据任务请求信息进行本地决策；根据本地决策结果和计算参数，计算并更新本地决策模型参数102；

作为一种举例说明，所述本地数据是指：用于联邦数据终端进行本地决策的数据，包括：城市交通道路图、城市道路实时畅通情况、网络拓扑以及路径带宽中的一种或者组合；

作为一种举例说明，所述任务请求信息是指：跨联邦数据终端的任务请求信息，包括：任务请求的起始状态、终止状态以及一些约束条件；所述约束条件包括：在通信网络(IP网络、光网络等)中还包括任务请求占用的带宽频隙以及时延约束等信息；

任务应是一个决策任务，其具体可以是一个最短路径规划问题或者是通信网络中(IP网络、光网络等)的最优路由问题；任务特点可以是任务的起始状态和终止状态(如路径的起点和终点等)、约束条件(如业务需要占用的带宽、路径的最长可接受时间等)以及希望达到的效果，该效果可以是所规划的路径最短，所用路径所用费用最少，时间最短，路由路径占用的网络资源最少，时延最低等；

作为一种举例说明，所述本地决策模型用于训练过程中，联邦数据终端根据本地数据进行的本地决策，针对于不同的决策问题以及不同的问题规模，选择不同的决策模型；

作为一种应用举例说明，所述决策模型包括：Q-learning、DQN等强化学习和深度强化学习决策模型；

作为一种举例说明，所述本地决策是指：当前联邦数据终端内部的决策结果；所述决策结果包括：联邦数据终端内部的路由路径，即从A点到达B点用时最短的路径等；

作为一种举例说明，所述计算参数取决于决策问题所采用的本地决策模型，不同的本地决策模型对应不同的模型更新方法也就对应不同的计算参数；所述计算参数采用DQN作为决策模型，则计算参数为用于神经网络更新计算的参数(如权重、梯度值等)，采用Q-learning作为决策模型，则计算参数为Q值计算所需要的参数，包括衰减率、折扣率等参数；

作为一种举例说明，所述本地决策结果是联邦数据终端根据终端决策模型决策出的结果，如在路径规划和路由规划问题中为当前联邦数据终端内的路径规划或最优路由策略等；对于多个联邦数据终端路由问题，每个联邦数据终端的本地决策结果指示了当前联邦数据终端内部从起始位置到当前联邦数据终端出口的路由路径；该路由路径由当前联邦数据终端的本地决策模型得到；

作为一种举例说明，所述本地决策模型参数是指用于联邦数据终端进行决策的决策模型，如Q-learning、DQN等强化学习和深度强化学习决策模型，如果采用DQN，则本地决策模型参数为DQN中的神经网络参数，包括所述DQN的神经网络有多少层以及神经元之间的连接关系、偏移量和权重等信息；如果采用Q-learning，计算参数可以是Q-learning中本地决策的状态、动作对应的Q值的更新；

作为一种举例说明，所述本地决策模型的更新公式用于本地决策模型新参数的计算，包括：Qlearning或者DQN模型等决策模型的更新公式；

步骤S130、将计算本地决策模型参数的中间结果和决策后更新的本地决策模型参数上报至所述联邦协调器；所述的本地决策模型参数用于所述的联邦协调器更新全局决策模型；所述计算本地决策模型参数的中间结果用于所述联邦协调器聚合出新的联邦决策模型103；

作为一种举例说明，所述计算本地决策模型参数的中间结果是指辅助本地决策模型更新公式进行计算的中间结果，如计算DQN的DRL模型过程中神经网络的梯度信息等；

作为一种举例说明，所述上报方式包括：通过串口通信上报、利用无线网络上报或利用有线网络进行上报；

步骤S140、接收联邦协调器下发的协调信息和联邦决策模型；104

作为一种举例说明，所述协调信息用于协调联邦数据终端之间的决策，可以为联邦数据终端的决策顺序或哪些数据终端需要加入到任务决策过程中去等协调信息；

作为一种举例说明，所述下发的方式包括：通过串口通信下发、利用无线网络下发或有线网络进行下发；

步骤S150、根据所述联邦协调器发送的协调信息，所述联邦数据终端根据本地对于联邦决策模型的需求，将本地决策模型和联邦决策模型相结合得到终端决策模型，所述终端决策模型用于所述联邦数据终端进行本地决策，并生成本地最优决策105；

作为一种举例说明，所述计算本地决策模型参数的中间结果用于所述联邦协调器聚合出新的联邦决策模型；

进一步的，所述联邦数据终端是否需要联邦决策模型对本地决策进行指导具体分为3种场景：

步骤S160、根据所述联邦协调器下发的协调信息，利用终端决策模型生成本地最优决策106；

作为一种举例说明，所述联邦数据终端用于实现跨数据终端交流；

步骤S210、向联邦数据终端发送学习信号201；

步骤S220、联邦协调器接收联邦数据终端上报的本地决策模型信息和计算本地决策模型参数的中间结果202；

步骤S230、利用联邦数据终端发送的本地决策模型信息计算并更新全局决策模型；利用联邦数据终端发送的计算本地决策模型参数的中间结果聚合出新的联邦决策模型203；

所述联邦决策模型用于指导联邦数据终端进行本地决策；

步骤S240、判断所述全局决策模型训练是否满足终止条件204；

步骤S250、根据训练好的全局决策模型生成用于协调联邦数据终端决策的协调信息，并将生成的协调联邦数据终端决策的协调信息以及聚合后的联邦决策模型，一并存储至全局存储模块同时发送至联邦数据终端205；

进一步的，所述联邦协调器利用联邦数据终端发送的本地决策模型参数的中间结果聚合出新的联邦决策模型；具体分为3种场景：

在场景1下，所述联邦协调器没有收到联邦数据终端报告的计算本地决策模型参数的中间结果，联邦协调器不会聚合出新的联邦决策模型，训练完成后联邦协调器没有向联邦数据终端发送联邦决策模型；

场景2：所述联邦数据终端完全需要联邦协调器对其本地决策进行指导，所述联邦数据终端会向联邦协调器报告全部计算本地决策模型参数的中间结果；

场景2下，所述联邦协调器收到联邦数据终端报告的计算本地决策模型参数的中间结果，联邦协调器根据联邦数据终端上报的计算本地决策模型参数的中间结果聚合出新的联邦决策模型，训练完成后联邦协调器将聚合好的联邦决策模型发送给联邦数据终端，用于指导联邦数据终端进行本地决策；

场景3下，所述联邦协调器会接收到联邦数据终端报告的部分计算本地决策模型参数的中间结果，联邦协调器根据联邦数据终端上报的部分计算本地决策模型参数的中间结果聚合出新的联邦决策模型，训练完成后联邦协调器将聚合好的联邦决策模型发送给联邦数据终端，用于指导联邦数据终端进行本地决策；

步骤一、所述联邦协调器根据决策任务请求信息向联邦数据终端发送学习信号；所述联邦数据终端接收学习信号，根据决策任务特点进行本地决策301；

步骤二、联邦数据终端根据本地决策结果计算并更新本地决策模型参数，同时将所述更新本地决策模型信息和计算本地决策模型参数的中间结果上报至所述联邦协调器302；

步骤三、联邦协调器利用本地决策模型信息计算并更新全局决策模型；利用计算本地决策模型参数的中间结果聚合出新的联邦决策模型303；

步骤四、联邦协调器判断是否满足训练终止条件，如果满足终止条件，联邦协调器根据训练好的全局决策模型生成用于协调联邦数据终端决策的协调信息，并继续下一步；如果不满足终止条件，则继续训练304；

步骤五、联邦协调器将生成的用于协调联邦数据终端决策的协调信息和聚合好的联邦决策模型存储至全局存储模块，并发送至联邦数据终端；所述联邦数据终端根据联邦协调器下发的协调信息，利用本地决策模型结合联邦决策模型生成终端决策模型，所述终端决策模型用于所述本地决策，并生成本地最优决策305；

进一步的，所述联邦数据终端是否需要联邦决策模型对本地决策进行指导；联邦协调器利用联邦数据终端上报的计算本地决策模型参数的中间结果聚合出新的联邦决策模型，具体分为3种场景：

场景1：所述联邦数据终端不需要联邦协调器对其本地决策进行指导时，所述联邦数据终端不会向联邦协调器报告计算本地决策模型参数的中间结果；所述联邦协调器没有收到联邦数据终端报告的计算本地决策模型参数的中间结果，联邦协调器不会聚合出新的联邦决策模型，训练完成后联邦协调器没有向联邦数据终端发送联邦决策模型；

场景2：所述联邦数据终端完全需要联邦协调器对其本地决策进行指导，所述联邦数据终端会向联邦协调器报告全部计算本地决策模型参数的中间结果；所述联邦协调器收到联邦数据终端报告的计算本地决策模型参数的中间结果，联邦协调器根据联邦数据终端上报的计算本地决策模型参数的中间结果聚合出新的联邦决策模型，训练完成后联邦协调器将聚合好的联邦决策模型发送给联邦数据终端，用于指导联邦数据终端进行本地决策；

场景3：所述联邦数据终端需要联邦协调器对其本地决策进行部分指导，所述联邦数据终端会向联邦协调器报告部分计算本地决策模型参数的中间结果；所述联邦协调器会接收到联邦数据终端报告的部分计算本地决策模型参数的中间结果，联邦协调器根据联邦数据终端上报的部分计算本地决策模型参数的中间结果聚合出新的联邦决策模型，训练完成后联邦协调器将聚合好的联邦决策模型发送给联邦数据终端，用于指导联邦数据终端进行本地决策；

作为一种举例说明，所述计算机存储介质包括：磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)和固态硬盘(Solid-State Drive，SSD)中的一种或者组合；

本发明所述的隐私增强型联邦决策系统，通过一次训练完成全局决策模型、本地决策模型、联邦决策模型的训练大大提高了训练的准确性。在训练过程中，联邦数据终端根据本地是否需要联邦决策模型对本地决策进行指导、终端对于本地隐私的保护程度以及本地管理策略，自主决定是否向联邦协调器报告计算本地决策模型计算的中间结果，以及是否需要训练和使用联邦决策模型，以实现联邦协调器对于终端决策的指导，大大增加了模型训练和使用的灵活性。

本发明所述的方法采用联邦思想和分布式计算的思想通过参与模型训练的多个数据终端合作共同生成任务决策，通过决策模型的渐进式优化特性不断提高模型的准确性，数据终端进行分布式本地决策，由协调器进行全局的协调和策略生成。解决了数据终端本地数据隐私性的条件下集中式决策模型训练困难的问题。

本发明所述的方法可以在保证数据终端原始数据隐私性的条件下实现跨数据终端的任务决策，原始数据无需出本地只需要在数据终端和协调器之间交互模型信息不仅增强了原始数据的隐私性还减少了通信过程中的信息交互量。

本发明所述的隐私增强型联邦决策系统，保证了联邦数据终端和联邦协调器的有序交互。

以上公开的仅为本申请的一个具体实施例，但本申请并非局限于此，任何本领域的技术人员能思之的变化，都应落在本申请的保护范围内。

Claims

1.一种隐私增强型联邦决策方法，其特征在于，应用于与联邦协调器交互的联邦数据终端，具体步骤如下：

步骤S110、接收学习信号；所述联邦数据终端接收联邦协调器的学习信号，利用接收的学习信号激活本地决策；

步骤S130、将计算本地决策模型参数的中间结果和决策后更新的本地决策模型参数上报至所述联邦协调器；所述的本地决策模型参数用于所述的联邦协调器更新全局决策模型；所述的计算本地决策模型参数的中间结果用于所述联邦协调器聚合出新的联邦决策模型；

步骤S140、接收联邦协调器下发的协调信息和联邦决策模型；

步骤S160、根据所述联邦协调器下发的协调信息，利用终端决策模型生成本地最优决策。

2.根据权利要求1所述的一种隐私增强型联邦决策方法，其特征在于，所述联邦数据终端是否需要联邦决策模型对本地决策进行指导具体分为3种场景：

场景3下，所述联邦数据终端需要联邦协调器对其本地决策进行部分指导，所述联邦数据终端将联邦决策模型和本地决策模型相结合得到终端决策模型，用于本地决策。

3.一种隐私增强型联邦决策装置，其特征在于，用于实现权利要求1所述的一种隐私增强型联邦决策方法，包括：第一终端发送和接收模块，本地决策模块，本地计算模块，本地存储模块以及第二终端发送和接收模块。

4.根据权利要求3所述的一种隐私增强型联邦决策装置，其特征在于，所述第一终端发送和接收模块用于和联邦协调器进行交互，向所述联邦协调器发送本地决策模型参数和计算本地决策模型参数的中间结果，接收联邦协调器下发的学习信号、协调信息和联邦决策模型；

所述本地决策模块根据任务特点和本地存储器的数据对每个联邦数据终端进行本地决策；所述本地决策模块接收到第二终端发送和接收模块发送的其接收到的学习信号后，根据本地决策模型进行决策，决策后的结果则进入本地计算模块进行进一步计算；

所述本地计算模块，用于根据所述本地决策模块的决策结果以及第一发送和接收模块接收到的计算参数，计算本地决策后更新的本地决策模型参数，并将更新的本地决策模型参数和新的计算本地决策模型参数的中间结果存储到本地存储器，同时也负责联邦决策模型和本地决策模型结合成终端决策模型的计算；

所述本地存储模块，用于存储本地数据、计算参数、本地决策模型、终端决策模型和计算本地决策模型参数的中间结果，并通过第一终端发送和接收模块将本地决策模型参数和计算本地决策模型参数的中间结果发送至联邦协调器；当本地有决策任务时，则将本地决策模型和本地数据发送至所述本地计算模块以进行本地决策；

所述第二终端发送和接收模块，用于接收本地资源和数据动态变化，及时将最新的本地数据更新至本地存储模块；同时接收本地决策任务请求，通过联邦数据终端将本地决策任务请求上报给所述联邦协调器，同时向具体执行者发送终端决策策略。

5.一种隐私增强型联邦决策系统，其特征在于，包括权利要求3所述的一种隐私增强型联邦决策装置。

6.一种隐私增强型联邦决策方法，其特征在于，应用于与联邦数据终端交互的联邦协调器，具体步骤如下：

步骤S210、向联邦数据终端发送学习信号；

所述全局决策模型用于协调联邦数据终端的决策；所述全局决策模型能够产生联邦数据终端是否加入最终决策或联邦数据终端加入决策的顺序信息；所述联邦决策模型用于指导联邦数据终端进行本地决策；

步骤S240、判断所述全局决策模型训练是否满足终止条件；

步骤S250、根据训练好的全局决策模型生成用于协调联邦数据终端决策的协调信息，并将生成的协调联邦数据终端决策的协调信息以及聚合后的联邦决策模型，一并存储至全局存储模块同时发送至联邦数据终端。

7.根据权利要求6所述的一种隐私增强型联邦决策方法，其特征在于，所述联邦协调器利用联邦数据终端发送的本地决策模型参数的中间结果聚合出新的联邦决策模型；具体分为3种场景：

场景3下，所述联邦协调器会接收到联邦数据终端报告的部分计算本地决策模型参数的中间结果，联邦协调器根据联邦数据终端上报的部分计算本地决策模型参数的中间结果聚合出新的联邦决策模型，训练完成后联邦协调器将聚合好的联邦决策模型发送给联邦数据终端，用于指导联邦数据终端进行本地决策。

8.一种隐私增强型联邦决策装置，其特征在于，该装置用于实现权利要求6所述的一种隐私增强型联邦决策方法，包括：协调器发送和接收模块，全局存储模块，联邦计算模块，全局决策模块。

9.根据权利要求8所述的一种隐私增强型联邦决策装置，其特征在于，所述协调器发送和接收模块，用于和所述联邦数据终端进行交互，将学习信号、协调信息以及联邦决策模型发送至对应的联邦数据终端；将联邦数据终端发送的本地决策模型信息和计算本地决策模型参数的中间结果发送至联邦计算模块以进行全局模型更新和联邦决策模型聚合；

所述全局存储模块，用于存储全局决策模型；并将联邦计算模块整合的全局决策模型参数进行存储，当全局决策模型训练完毕时，将全局决策模型发送至全局决策模块以生成协调联邦数据终端决策的协调信息；

所述联邦计算模块，用于将本地决策模型信息和计算本地决策模型参数的中间结果进行处理；利用本地决策模型信息计算并更新全局决策模型；利用计算本地决策模型参数的中间结果聚合出新的联邦决策模型；

当全局决策模型训练完毕之后，所述全局决策模块根据训练的全局决策模型生成用于协调联邦数据终端决策的协调信息，并将所述协调信息存储至全局存储模块。

10.一种隐私增强型联邦决策系统，其特征在于，该系统包括权利要求8所述的一种隐私增强型联邦决策装置。

11.一种隐私增强型联邦决策方法，其特征在于，应用于联邦数据终端与联邦协调器的交互；具体由以下步骤实现：

步骤五、联邦协调器将生成的用于协调联邦数据终端决策的协调信息和聚合好的联邦决策模型存储至全局存储模块，并发送至联邦数据终端；所述联邦数据终端根据联邦协调器下发的协调信息，根据是否需要联邦决策模型对本地决策进行指导，利用本地决策模型结合联邦决策模型生成终端决策模型，所述终端决策模型用于所述本地决策，并生成本地最优决策。

12.根据权利要求11所述的一种隐私增强型联邦决策方法，其特征在于，所述联邦数据终端是否需要联邦决策模型对本地决策进行指导；联邦协调器利用联邦数据终端上报的计算本地决策模型参数的中间结果聚合出新的联邦决策模型，具体分为3种场景：

场景3：所述联邦数据终端需要联邦协调器对其本地决策进行部分指导，所述联邦数据终端会向联邦协调器报告部分计算本地决策模型参数的中间结果；所述联邦协调器会接收到联邦数据终端报告的部分计算本地决策模型参数的中间结果，联邦协调器根据联邦数据终端上报的部分计算本地决策模型参数的中间结果聚合出新的联邦决策模型，训练完成后联邦协调器将聚合好的联邦决策模型发送给联邦数据终端，用于指导联邦数据终端进行本地决策。

13.一种隐私增强型联邦决策装置，其特征在于，该装置适用于权利要求11所述的一种隐私增强型联邦决策方法；包括：第一终端发送和接收模块，本地决策模块，本地计算模块，本地存储模块，第二终端发送和接收模块；协调器发送和接收模块，全局存储模块，联邦计算模块，全局决策模块。

14.一种隐私增强型联邦决策系统，其特征在于，包括权利要求13所述的一种隐私增强型联邦决策装置。

15.一种计算机存储介质，其特征在于，存储有计算机可执行程序，用于执行权利要求1或6或11所述的一种隐私增强型联邦决策方法。

16.根据权利要求15所述的一种计算机存储介质，其特征在于，所述计算机存储介质包括：磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘和固态硬盘中的一种或者组合。

17.根据权利要求1、权利要求6或权利要求11任一权利要求所述的隐私增强型联邦决策方法，其所述的学习信号为布尔型变量或数值型变量。