CN112668877B

CN112668877B - 结合联邦学习和强化学习的事物资源信息分配方法及系统

Info

Publication number: CN112668877B
Application number: CN202011568601.4A
Authority: CN
Inventors: 董学文; 游志超; 张文; 李麒麟; 沈玉龙; 底子杰; 强洁丹; 郭校杰
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2023-05-30
Anticipated expiration: 2040-12-25
Also published as: CN112668877A

Abstract

本发明属于深度学习技术领域，公开了一种结合联邦学习和强化学习的事物资源信息分配方法及系统，需要待分配事物的需求个体有多个，他们需要待分配事物来满足自己的利益或要求，个体带有一定计算能力以及通信能力的设备；该事物的管理和分配由管理者进行统一分配，且该事物并不能在数量上同时满足所有个体；管理者设计深度强化学习模型，并分发给每一个个体，个体使用该模型对事物进行选择；管理者通过联邦学习产生新的全局模型。本发明在事物拥有大量的个体来训练。即使每一个个体都进行了非常小量的训练，其最后产生的模型仍然适用于绝大部分的个体。可以将训练安排给空闲的设备，当个体的设备空闲时再让设备执行对强化学习的训练。

Description

结合联邦学习和强化学习的事物资源信息分配方法及系统

技术领域

本发明属于深度学习技术领域，尤其涉及一种结合联邦学习和强化学习的事物资源信息分配方法及系统。

背景技术

目前：分配问题是一个历史悠久的问题，到现今社会，由于待分配的事物总是远少于需要该事物的个体(需求个体)，所以分配问题在生活种的各个方面都非常重要。随着社会的发展，不管需求个体如何变化，其核心(人或机构)都拥有想当计算能力和通信能力的智能终端(手机、计算机、物联网设备等)，这使得在分配问题中引入计算机科学变为可能。即通过科学、精准的数据以及计算方法，根据已经获得的信息来推算出可能得到的分配方式，并从中选择能够满足不同指标的最优分配方式来作为分配结果。由于待分配的事物不能同时满足多个个体，故在分配之中常采取博弈论的方法来分配事物。个体需要通过价值函数来衡量事物对其的价值，并且该价值需要上传到管理者的服务器中，由管理者来决定最终的分配结果。比如说，拍卖采取的“价高者得”的策略即是分配中采取博弈论方法的一种形式。在不同用例中，该价值可以有多种形式。如，在频谱分配中，该价值的具体表示形式是价格，而频谱管理者通过使用拍卖的方式，采取价高者得的方法，将频谱分配给价格高的用户(个体)；在网络切片中，该价值的具体表现形式是事物利用率或者是个体的速率，管理者将事物分配给个体，以达到最大的事物利用率或者最大的社会效益(用户的总速率)。

然而，使用博弈论的方式分配事物的一个缺点是，很难去找到一个适合全体个体的价值函数，比如在频谱分配中，个体对于频谱事物的出价是一个相对主观的出价，而不是客观的一个具体的值，这使得在具体实施过程中遭遇到了很大的阻碍。其次，这种方法使得每当涉及的具体分配问题的条件有一点小改动时，许多精心设计的算法的性能或许就要被大大降低。因此，在事物分配中，越来越多的管理者将眼光投入到强化学习中。因为当今社会中的个体都用户相当计算能力和通信能力的终端设备。强化学习的本质是通过代理不断与环境进行交互，从策略集中选择策略并施加到环境之中再获得反馈，通过反馈再来调整自身选择动作的策略。而这其中的一个缺陷是需要个体上传自己的本地数据作为训练模型的材料，侵犯了个体的隐私性；同时，集中训练也会使得训练的时间过长。

现有技术存在的问题是：事物分配问题若使用强化学习的方法进行，则个体的信息泄露很难保证。目前的应用于事物分配中的强化学习有两种：集中式与分布式。集中式强化学习需要所有个体上传自己的原始数据到服务器中，让服务器通过个体的数据训练强行学习模型的参数。这也是大多数部署用到的一种方法，这种方法的缺点是直接使用了个体的数据，将对个体的隐私造成威胁。分布式的强化学习方法主要涉及到了多代理型的强化学习，该模型更适合于事物分配，因为事物的个体数量同样是巨大的，这使得多代理型的强化学习模型更使用。然而，这种方法的缺陷是需要将模型参数在各个体之间传送，以完成模型训练的过程。考虑到巨大的个体数量，这种方法在实现的时候将会遇到很大的困难。同时，参数在各个体之间传送涉及到了加密方法，将会对个体的资源造成更大的消耗。

通过上述分析，现有技术存在的问题及缺陷为：

(1)现有技术存在直接使用了个体的数据，将对个体的隐私造成威胁。

(2)现有技术分布式的强化学习方法在实现的时候遇到很大的困难；同时，参数在各个体之间传送涉及到了加密方法，将会对个体的资源造成更大的消耗。

解决以上问题及缺陷的难度为：需要设计处一种既支持大量个体的强化学习的训练方法，又能保证个体的隐私安全。这在事物分配问题中实际上是一对相矛盾的权衡。更高的隐私要求往往代表着数据越模糊，对于事物管理者而言代表着他所能获取到的个体信息也更加的模糊。而强化学习常常所需要的样本是非常精确的，数据上的稍微的偏差也许会对模型的训练产生非常严重的后果，使得最好训练出来的参数并不能起到作用。而由于事物分配依靠的是强化学习的模型，其本质是根据模型的参数来选择最优的策略，并以此决定个体的最佳事物，将最佳事物分配给个体。而因为隐私保护的要求，其将会使得最后产生的模型参数并不是最优的参数，当个体使用这个参数时，强化学习为其选择的事物并不是最优事物，这常常伴随着个体满意度的下降。并且，由于事物没有得到合理地分配，事物利用率也会随之下降。然而，如果想要获得更精准的强化学习参数，则需要降低隐私保护的阈值，这也意味着个体的隐私遭到侵害。

解决以上问题及缺陷的意义为：可以有效解决强化学习对于高精度模型参数的要求以及个体隐私保护的需求之间的矛盾。解决了上述方法，则可以为管理者提出一种既能够保护个体隐私，又能够训练强化学习的方法。该方法在满足个体隐私要求的前提下，训练处符合大多数个体的准确强化学习模型参数。这样，当个体使用这个参数来选择最优的事物时，由于使用了准确的强化学习模型参数，则个体能够分配到合理的事物，以满足自己的需求。同时，由于事物得到了合理的分配，事物的利用率可以得到有效提升。而这一切都是在不破坏个体隐私的前提下进行的。

发明内容

针对现有技术存在的问题，本发明提供了一种结合联邦学习和强化学习的事物资源信息分配方法及系统。

本发明是这样实现的，一种结合联邦学习和强化学习的事物资源信息分配方法，所述结合联邦学习和强化学习的事物资源信息分配方法包括：

需要待分配事物的需求个体有多个，他们需要待分配事物来满足自己的利益或要求，个体带有一定计算能力以及通信能力的设备；

该事物的管理和分配由管理者进行统一分配，且该事物并不能在数量上同时满足所有个体；

管理者设计深度强化学习模型，并分发给每一个个体，个体使用该模型对事物进行选择；

管理者通过联邦学习产生新的全局模型。

进一步，所述深度强化学习模型的训练由个体使用自己的数据完成，并产生个体间各不相同的本地模型参数，其用以训练的原始数据并不会离开个体的设备；

服务器并不收集个体的原始数据，而是收集其本地模型参数，并通过聚合的方式产生新的全局模型参数，该新的全局模型参数将分发给个体以替代旧的本地模型参数。

进一步，所述结合联邦学习和强化学习的事物资源信息分配方法具体包括以下步骤：

步骤一，需求个需要体待分配的资源满足自己的利益或要求，并将该需求通过设备发送到管理者；

步骤二，个体从服务器下载最新的全局模型参数，更新自己的本地模型参数，使用从服务器处获取的网络数据来作为强化学习模型的输入，以获得应该使用的最优事物；

步骤三，个体使用模型选择的最优事物来完成其需求，并且通过使用最优事物来获得反馈，将这些信息和历史记录保存到自己的设备之中；

步骤四，个体从历史记录随机提取一定数量的信息作为样本，并使用样本进行强行学习模型的训练，在训练之后得到新的本地模型参数，使用该参数来选择新的最佳事物，而不是最开始时从服务器处获得的全局模型数据；

步骤五，服务器选择部分个体的本地模型参数作为全局聚合的材料，被选中的个体将自己最新的本地模型参数上传至服务器；

步骤六，服务器收集本地模型参数，对这些参数做全局聚合，产生新的全局模型参数，该参数将会分发到每一个个体，包括已加入系统的个体以及新加入系统的个体；

步骤七，已加入的个体使用新的全局模型参数更新本地模型参数，新加入的个体直接使用全局模型参数来作为本地模型参数；两者都通过本地模型参数来作为强化学习的参数并且尤其选择最佳服务事物。

进一步，所述步骤一中个体需要某种事物来满足自己的需求，而这种事物它不能直接获得，需要由管理者分配给它才能够满足自己的需求；该事物并不能同时满足所有个体的请求，需要通过管理者分配事物以达到事物利用率和个体满意度的最大化。现使用

来表示个体，并且使用

来表示现有的事物；

所述步骤二中，用θ_g表示最新的全局模型参数，使用θ_i,l来表示第i个个体的本地模型参数；个体n_i首先从服务器处获得强化学习的模型，并且令θ_i,l＝θ_g，即用全局模型参数来更新本地模型参数，之后强化学习模型的参数都为θ_i,l；

所述步骤三中，考虑一种在线的系统模型，即该机制将时间分为多个时隙，使用

来表示。事物的情况在每一个时隙都不同，个体n_i的请求以时隙为单位。假设个体n_i在时隙t_τ中提出请求，他从服务器中获得事物在时隙t_τ时的网络状况，该网络状况不涉及个体n_i的隐私，即这一步不会暴露个体n_i的敏感数据，个体n_i根据不同实例的要求，计算得出强化学习模型的在时隙t_τ输入

其中该输入是一个带有

个值的一维向量，其中的每个值

由当前的网络状态给出。个体n_i将

输入到强化学习的模型当中，输出最佳事物

个体n_i使用最佳事物

来满足自己的需求，并且获得反馈

进一步，所述步骤四中，当时隙t_τ来临时，个体n_i获取最新的状态

并且保存转移

到自己的历史记录

之中，每当

时，个体n_i从历史记录

中随机取样，并以此来执行一次本地训练，获得新的本地模型参数

令

此为个体n_i在事物分配中的操作；

所述步骤五中，个体上传自己的本地模型参数θ_i,l到服务器中，并不要求个体上传自己的原始数据，或是在各个体之间进行通信，而是只需要用到每个个体的本地模型参数θ_i,l；

所述步骤六中，服务器选择部分个体的本地模型参数θ_i,l来作为全局聚合的原材料，全局聚合的方式有多种方法，使用加权平均方式，即令

来参数新的全局模型参数θ_g；也可以使用异步更新的方法，令

其中θ_g和

分别为全局模型参数以及个体n_i的本地模型参数，

δ＝t_τ-t'_τ，其中t_τ和t'_τ为两次执行异步更新的时间，δ表示两个时间之差，λ为自然系数，w表示在新的全局模型中，个体n_i的本地模型参数

所占的权重，服务器通过不同的方法以实现全局聚合，但目的皆为产生新的全局模型参数θ_g，之后，系统将最新产生的全局模型参数θ_g分发给每一个已经连接了服务器的个体，随后新加入的个体当他们对服务器发出服务请求时，将同时获得全局模型参数θ_g；

所述步骤七中，个体皆使用最新的全局模型参数θ_g来作为深度学习模型的参数，对于已经连接了系统的个体n_i，他使用全局模型参数θ_g来更新自己的本地模型参数θ_i,l，即令θ_i,l＝θ_g，在这之后所有新加入的新个体都直接使用全局模型参数θ_g来作为模型的参数，重复以上过程直至新的全局模型参数θ_g通过全局聚合产生，每当个体n_i需要事物已完成自己的需求时，皆使用更新过后的本地模型参数θ_i,l来作为强化学习模型的输入，并用它来为其选择最佳的事物以完成需求。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

管理者通过联邦学习产生新的全局模型。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

管理者通过联邦学习产生新的全局模型。

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述的结合联邦学习和强化学习的事物资源信息分配方法。

本发明的另一目的在于提供一种实施所述结合联邦学习和强化学习的事物资源信息分配方法的结合联邦学习和强化学习的事物资源信息分配系统，所述结合联邦学习和强化学习的事物资源信息分配系统包括：

服务申请提交模块，用于让个体向服务器提交申请，并且从服务器中获取最新的全局模型参数以及强化学习模型，个体使用全局模型参数来更新本地模型参数；

事物选择及使用模块，用于使个体通过本地模型参数以及从服务器处获取到的事物状态来为每一个个体选择最佳事物，并且个体使用该事物来完成自己的服务；

本地训练模块，用于在每个个体的设备上进行本地的强化学习更新，其使用的样本是个体使用事物时的历史信息，并产生新的本地模型参数；

全局聚合模块，个体服务器手机各个体的本地模型参数，并通过全局聚合的方式产生新的全局模型参数，再将新的全局模型参数分发至每一个已接入系统的个体以更新本地模型参数，新接入个体则直接使用全局模型参数。

本发明的另一目的在于提供一种智能终端，所述智能终端用于实现所述的结合联邦学习和强化学习的事物资源信息分配方法；所述智能终端包括手机、计算机、物联网设备。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：管理者通过本发明能够在保护个体隐私的前提下进行多个体的强化学习模型训练。如此一来，个体的隐私信息没有暴露给管理者，而管理者可以通过个体上传的本地模型参数聚合出较优的全局模型参数。这样，既不需要个体上传原始数据以及对原始数据进行加密从而产生额外的事物消耗，管理者又能产生较优的全局模型参数供给个体使用来选择最优的事物。个体使用精确的全局模型参数来选择所需要的事物，这样，不仅能够有力地确保每一个个体都能使用事物来满足自己的需求，提高了个体的总体满意度。此外，由于事物得到了合理的分配，事物利用率得到有效的提升。

相对于其他的多代理型强化学习，本方法的另一优点是有效减少了训练模型的事物消耗。相较于传统的集中式强化训练的方法，本发明的出发点是让每一个个体使用自己的设备已完成强化学习模型的训练，其样本为自己的隐私数据，服务器再将所有的个体本地模型参数进行聚合。个体设备虽然计算事物并不如服务器那么大，但优点是在事物拥有大量的个体来训练。即使每一个个体都进行了非常小量的训练，其最后产生的模型仍然适用于绝大部分的个体。这样的好处是可以将训练安排给空闲的设备，当个体的设备空闲时再让设备执行对强化学习的训练。通过这种方法，既能保证个体对设备的正常使用，又能对强化学习模型进行训练。对每个个体的事物消耗都比较小，且使用体验并不会减弱，训练出来的强化学习模型参数还有比较高的准确性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的结合联邦学习和强化学习的事物资源信息分配方法流程图。

图2是本发明实施例提供的结合联邦学习和强化学习的事物资源信息分配系统的结构示意图；

图2中：1、服务申请提交模块；2、事物选择及使用模块；3、本地训练模块；4、全局聚合模块。

图3是本发明实施例提供的动态频谱接入系统模型图；

图3中：(a)次用户Alex、Bob和Carl的在某个时刻的位置；(b)信道的状态。

图4是本发明实施例提供的联邦学习和强化学习的框架图。

图5是本发明实施例提供的结合联邦学习和强化学习的事物资源信息分配方法的实现流程图。

图6是本发明实施例提供的模型训练时长和干扰发生次数的关系示意图。

图7-图9本发明实施例提供的四种算法对用户满意度，信道空闲率和总的超时率之间的关系示意图。

图10本发明实施例提供的DQSA和FRDSA随着训练时长示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种结合联邦学习和强化学习的事物资源信息分配方法及系统，下面结合附图对本发明作详细的描述。

如图1所示，本发明提供的结合联邦学习和强化学习的事物资源信息分配方法包括以下步骤：

S101：管理者根据事物分配问题，建立深度强化学习模型，并初始化参数以供需求个体快捷使用；

S102：各需求个体从服务器下载最新全局模型参数，通过此参数获得所需要的服务支持，记录自身的历史数据。使用自身的历史数据训练强化模型，获得本地模型参数；

S103：服务器聚合本地模型参数并参数最新的全局模型参数，以供个体使用，并且减少个体的训练时长。

本发明提供的结合联邦学习和强化学习的事物资源信息分配方法业内的普通技术人员还可以采用其他的步骤实施，图1的本发明提供的结合联邦学习和强化学习的事物资源信息分配方法仅仅是一个具体实施例而已。

如图2所示，本发明提供的结合联邦学习和强化学习的事物资源信息分配系统包括：

服务申请提交模块1，用于让个体向服务器提交申请，并且从服务器中获取最新的全局模型参数以及强化学习模型，个体使用全局模型参数来更新本地模型参数；

事物选择及使用模块2，用于使个体通过本地模型参数以及从管理者处获取到的资源状态来为每一个个体选择最佳事物，并且个体使用该事物来完成自己的服务；

本地训练模块3，用于在每个个体的设备上进行本地的强化学习更新，其使用的样本是个体使用事物时的历史信息，并产生新的本地模型参数；

全局聚合模块4，个体服务器手机各个体的本地模型参数，并通过全局聚合的方式产生新的全局模型参数，再将新的全局模型参数分发至每一个已接入系统的个体以更新本地模型参数，新接入个体则直接使用全局模型参数。

下面结合附图对本发明的技术方案作进一步的描述。

如图3所示，本发明实施例涉及到的场景为动态频谱接入(Dynamic SpectrumAccess,DSA)中为次用户选择信道以让他们接入DSA网络。其中，信道的状态如图3(b)所示，信道并不总是被使用，而是在某些空间和某些时间里存在频谱空洞。服务器的作用便是从频谱主个体中获得接入信道的权力，并通过认知无线电技术来找到频谱空洞。在找到这些频谱空洞之后，管理者还要决定如何分配频谱空洞，以达到比较高的个体满意度以及事物利用率。

次用户与次用户之间如果靠得太近，并且同时使用同一个信道，则将会在次用户之间发生干扰。如图3(a)所示，次用户Alex、Bob和Carl的在某个时刻的位置如图中所示，并且，Alex的干扰范围如圆圈所示。干扰范围表示，当其他个体处于干扰范围内，则会与该个体产生干扰。图中，Bob处于Alex的干扰范围中，他们若是同时使用了了某一信道，则将会造成干扰，两人都不能使用信道来发送信息。同时，由于没有个体使用该信道发送信息成果，则该信道的利用率为0。这说明，个体间的干扰将会使得个体满意度和事物利用率的双双下降。为此，DSA管理者在分配可用信道时，需要综合考虑上个体之间的干扰关系。然而，个体之间的干扰关系是跟个体的实时位置息息相关的，只有获得两个个体的具体位置，才能知道他们之间是否会因为距离过近而导致可能的干扰。但使用个体的位置信息则是对个体隐私的一定程度上的侵害。为此，DSA管理者可用通过本发明很好地解决这一难题。

如图3(a)所示，DSA管理者将城市划分为多个感知单元(图中的六边形)。每个感知单元中配有认知无线电以检测信道的状态，管理者可用在每个时隙中通过这种方式来检测得出空闲信道。然后，管理者通过感知单元，将这些频谱感知信息在每个时隙发送到次用户的设备上。

图4表示了在联邦学习的框架下，如果在DSA中实现强化学习。结合图5的事物分配步骤进行对本实施例说明。

(1)在管理者提供服务之前，它需要根据具体的分配场景来建立强化学习模型，并且随机初始化其模型参数(全局模型参数)。在本实施例中，强化学习模型由输入层，两层全连接层组成的隐藏层，以及输出层组成。其中，输入的是带由

个值的一维向量，向量中的每个值表示一个信道是否可用，该向量表示了全体信道的可用情况。输出层同样由

个单元，与信道一一对应，次用户根据输入得到的输出表示了他应该接入哪一个信道。

(2)每一个需要接入DSA网络的个体向服务器发送请求，并由感知单元向需要服务的个体发送强化学习模型以及当前的全局模型参数。

(3)刚加入的个体在得到全局模型参数之后，使用该全局模型参数来更新本地设备中的本地模型参数，并且使用该模型参数来选择应该使用的事物。在本实例中，对应的动作为选择接入的信道。

(4)每个时隙开始的时候，感知单元都对自己负责的区域进行感知，并且获得每个时刻中空闲的信道。将这些信息转换为一个

个单元的向量，每个的值皆为0或1。0表示在该时刻，该信道是被占用的，1表示该时刻该信道是空闲的。

(5)次用户收到一维向量之后，用它作为模型的输入给到强化学习模型之中，并且使用本地设备中的本地模型参数来来获得输出。一个较为精确的参数能够使得输出的信道是最佳信道，即该信道在该时刻是空闲的，并且该次用户使用该信道不会与其他次用户发生干扰。

(6)次用户接入强化模型为其选择的最佳信道，并且使用这个信道来发送信息。次用户通过ACK信号等技术以知晓本次发送信息的结果，该结果将会作为反馈以评价模型输出的好坏。若没有发生干扰，则次用户成功将信息发出，将奖励设置为1；相反，若信息没有发出，则将奖励设置为-1。次用户的目标是可以获得一个最大化自己累计反馈的本地模型参数，这样，他成功发送信息的次数也是最大的。并且，不管次用户发送成功与否，每一次发送都将作为以此样本数据记录到次用户的本地历史记录之中。

(7)当次用户的本地历史记录到达一定数量之后，次用户从历史记录之中随机抽取一个批次的数据昨晚样本数据，并以此来训练自己的本地模型参数，通过不同的训练方法，每个次用户都得到不想同的本地模型参数。

(8)次用户使上传的本地模型参数，服务器收集这些参数并且通过不同的方法来聚合这些数据。比如，使用加权平均的方法，新产生出来的全局模型参数即为各本地模型参数的加权平均。又或者是使用异步更新的方法，使得信的全局模型参数的组成是一部分的旧全局模型参数和一部分本地模型参数。

(9)最后，已经与系统相连的次用户则使用新的全局模型参数来更新自己的本地模型参数；而还未连接系统的次用户，但他们接入系统的时候，则使用信道全局模型参数。

在本发明的实施例中个体需要某种事物来满足自己的需求，而这种事物它不能直接获得，需要由管理者分配给它才能够满足自己的需求。该事物并不能同时满足所有个体的请求，需要通过管理者分配事物以达到事物利用率和个体满意度的最大化。现使用来表示个体，并且使用来表示现有的事物。

在本发明的实施例中用表示最新的全局模型参数，使用来表示第个个体的本地模型参数。个体首先从服务器处获得强化学习的模型，并且令，即用全局模型参数来更新本地模型参数，之后强化学习模型的参数都为。

在本发明的实施例中考虑一种在线的系统模型，即该机制将时间分为多个时隙，使用来表示。事物的情况在每一个时隙都不同，个体的请求以时隙为单位。假设个体在时隙中提出请求，他从服务器中获得事物在时隙时的网络状况，该网络状况不涉及个体的隐私，即这一步不会暴露个体的敏感数据。个体根据不同实例的要求，计算得出强化学习模型的在时隙输入，其中该输入是一个带有个值的一维向量，其中的每个值由当前的网络状态给出。个体将输入到强化学习的模型当中，输出最佳事物。个体使用最佳事物来满足自己的需求，并且获得反馈。

在本发明的实施例中当时隙来临时，个体获取最新的状态,并且保存转移到自己的历史记录之中。每当时，个体从历史记录中随机取样，并以此来执行一次本地训练，获得新的本地模型参数。此为个体在事物分配中的操作。

在本发明的实施例中个体上传自己的本地模型参数到服务器中。这一步中，区别于其他的基于分布式或多代理的强化学习方法，本方法并不要求个体上传自己的原始数据，或是在各个体之间进行通信，而是只需要用到每个个体的本地模型参数，这样便达到了保护个体隐私的目的，并且减少了加密方面的资源消耗。

在本发明的实施例中服务器选择部分个体的本地模型参数来作为全局聚合的原材料。全局聚合的方式有多种方法，可以使用加权平均方式，即令来参数新的全局模型参数；也可以使用异步更新的方法，令，其中和分别为全局模型参数以及个体的本地模型参数，，，其中和为两次执行异步更新的时间，表示两个时间之差，为自然系数，表示在新的全局模型中，个体的本地模型参数所占的权重。服务器通过不同的方法以实现全局聚合，但目的皆为产生新的全局模型参数。之后，系统将最新产生的全局模型参数分发给每一个已经连接了服务器的个体。随后新加入的个体当他们对服务器发出服务请求时，将同时获得全局模型参数。

在本发明的实施例中个体皆使用最新的全局模型参数来作为深度学习模型的参数。对于已经连接了系统的个体，他使用全局模型参数来更新自己的本地模型参数，即令。在这之后所有新加入的新个体都直接使用全局模型参数来作为模型的参数。重复以上过程直至新的全局模型参数通过全局聚合产生。每当个体需要事物已完成自己的需求时，皆使用更新过后的本地模型参数来作为强化学习模型的输入，并用它来为其选择最佳的事物以完成需求。

本发明实施例中，个体采用的全局模型聚合方式有多种，均能够保护个体的数据隐私，而只需要他们上传自己的本地模型即可。一种方法是让被选中的个体上传自己的本地模型参数到服务器中，让服务器进行加权平均，使得加权平均的结果即为新的全局模型参数。这种方法的优势是较为容易实现，能够轻易满足各种真实场景。另外一种方式是使用异步更新的方法，个体在分配的图中异步地上传自己的参数，服务器通过该个体两次上传自己参数的间隙来决定该本地模型参数的权重，通过不同权重来结合全局模型参数和本地模型参数。

本发明实施例中，在位模型计算输入时，除了按照事物当前的状态来计算输入值之外，还可以根据不同个体的优先度来涉及多重优先度，以达到为不同个体提供不同的优先度的效果。这种功能的另一潜在效果是能根据不同优先度为个体进行分组，以使得事物不是以个体单个人来进行划分，而是以一个组来进行划分，这可以在实际的应用过程中大幅地提升资源的利用率，而这还是在个体之间不通信以及个体不向服务器发送原始数据的前提下进行。

图6-图10为本发明实施例的仿真实验图。图中，FRDSA即为本发明实施例中使用了本发明的算法，FRDSA without MPS是没有使用多重优先度策略的FRDSA算法。DQSA为目前相关领域中常用的一种基于强化学习的信道接入算法，Random Selection为随机选择。图6表示了模型训练时长和干扰发生次数的关系。随着训练时长的增加，FRDSA和FRDSAwithout MPS因为需要不断通过联邦学习进行强化训练，所以干扰次数会越来越少，说明模型的参数越来越趋向于最优。同时，由于收到资源的限制，DQSA不能够很好地训练模型，所以其数据看起来有些波动，但总体上来看，与Random Selection一样，训练时长不会对其有太大影响，总体的结果比较均衡，但都要差于FRDSA和FRDSA without MPS。并且FRDSA最终要由于FRDSA without MPS，说明多重优先度的策略是较为成功的。图7到图9分别为四种算法对用户满意度，信道空闲率和总的超时率之间的关系。不难看出，在不同的指标下，FRDSA总能够在给定时间内收敛，并且是几个算法中最优的算法。

图10给出了DQSA和FRDSA随着训练时长，两个算作在用户满意度上的表现。可以看到，由于刚开始时FRDSA的参数是随机生成的，并且联邦学习各用户之间的数据较为分散，所以初期的时候FRDSA的表现要稍微弱于DQSA。然而，由于收到资源的限制，DQSA不能够长期训练模型，使得在一段时间之后用户只能够重新训练。这使得，FRDSA的表现要由于DQSA，因为FRDSA中训练的资源来源于个用户，而只要用户存在，则它的训练过程能够一直持续下去，这是它比DQSA好的地方。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种结合联邦学习和强化学习的事物资源信息分配方法，其特征在于，所述结合联邦学习和强化学习的事物资源信息分配方法包括：

管理者通过联邦学习产生新的全局模型；

所述结合联邦学习和强化学习的事物资源信息分配方法具体包括以下步骤：

步骤七，已加入的个体使用新的全局模型参数更新本地模型参数，新加入的个体直接使用全局模型参数来作为本地模型参数；两者都通过本地模型参数来作为强化学习的参数并且尤其选择最佳服务事物；

所述步骤一中个体需要某种事物来满足自己的需求，而这种事物它不能直接获得，需要由管理者分配给它才能够满足自己的需求；该事物并不能同时满足所有个体的请求，需要通过管理者分配事物以达到事物利用率和个体满意度的最大化，现使用

来表示个体，并且使用

来表示现有的事物；

所述步骤二中，用θ_g表示最新的全局模型参数，使用θ_i，l来表示第i个个体的本地模型参数；个体n_i首先从服务器处获得强化学习的模型，并且令θ_i，l＝θ_g，即用全局模型参数来更新本地模型参数，之后强化学习模型的参数都为θ_i，l；

所述步骤三中，考虑一种在线的系统模型，即该模型将时间分为多个时隙，使用

来表示，事物的情况在每一个时隙都不同，个体n_i的请求以时隙为单位，假设个体n_i在时隙t_τ中提出请求，他从服务器中获得事物在时隙t_τ时的网络状况，该网络状况不涉及个体n_i的隐私，即这一步不会暴露个体n_i的敏感数据，个体n_i根据不同实例的要求，计算得出强化学习模型的在时隙t_τ输入

其中该输入是一个带有

个值的一维向量，其中的每个值

由当前的网络状态给出，个体n_i将

输入到强化学习的模型当中，输出最佳事物

个体n_i使用最佳事物

来满足自己的需求，并且获得反馈

所述步骤四中，当时隙t_τ来临时，个体n_i获取最新的状态

并且保存转移

到自己的历史记录

之中，每当

时，个体n_i从历史记录

令

此为个体n_i在事物分配中的操作；

所述步骤五中，个体上传自己的本地模型参数θ_i，l到服务器中，并不要求个体上传自己的原始数据，或是在各个体之间进行通信，而是只需要用到每个个体的本地模型参数θ_i，l；

所述步骤六中，服务器选择部分个体的本地模型参数θ_i，l来作为全局聚合的原材料，全局聚合的方式有多种方法，使用加权平均方式，即令

来参数新的全局模型参数θ_g；或者使用异步更新的方法，令

其中θ_g和

分别为全局模型参数以及个体n_i的本地模型参数，

δ＝t_τ-t′_τ，其中t_τ和t′_τ为两次执行异步更新的时间，δ表示两个时间之差，λ为自然系数，w表示在新的全局模型中，个体n_i的本地模型参数

所占的权重，之后，系统将最新产生的全局模型参数θ_g分发给每一个已经连接了服务器的个体，随后新加入的个体当他们对服务器发出服务请求时，将同时获得全局模型参数θ_g；

所述步骤七中，个体皆使用最新的全局模型参数θ_g来作为深度学习模型的参数，对于已经连接了系统的个体n_i，他使用全局模型参数θ_g来更新自己的本地模型参数θ_i，l，即令θ_i，l＝θ_g，在这之后所有新加入的新个体都直接使用全局模型参数θ_g来作为模型的参数，重复以上过程直至新的全局模型参数θ_g通过全局聚合产生，每当个体n_i需要事物已完成自己的需求时，皆使用更新过后的本地模型参数θ_i，l来作为强化学习模型的输入，并用它来为其选择最佳的事物以完成需求。

2.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1所述的结合联邦学习和强化学习的事物资源信息分配方法的步骤。

3.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1所述的结合联邦学习和强化学习的事物资源信息分配方法的步骤。