CN112801731B

CN112801731B - 一种接单辅助决策的联邦强化学习方法

Info

Publication number: CN112801731B
Application number: CN202110010968.2A
Authority: CN
Inventors: 冷杰武; 张虎; 刘强; 阮国磊; 苏倩怡; 王德文; 周满
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2021-11-02
Anticipated expiration: 2041-01-06
Also published as: CN112801731A

Abstract

本发明公开了一种接单辅助决策的联邦强化学习方法，各智能体分别收集历史订单数据，将历史订单数据作为训练数据；建立环境模型，各智能体建立本地决策模型，环境模型设有奖励函数，环境模型对本地决策模型的接受或拒绝动作做出相应的奖励；各智能体各自利用训练数据对本地决策模型进行训练；各智能体将训练过程中的所得到的梯度信息加密成加密信息，然后发送至聚合方；聚合方接受各智能体的加密信息，然后解密得到各智能体的梯度信息，聚合方对所有的智能体的梯度信息进行整合，并训练聚合模型，然后将训练后的聚合模型发送至各个智能体。本发明能够在保护各方隐私数据不泄露的情况下，利用各智能体的数据建立聚合模型。

Description

一种接单辅助决策的联邦强化学习方法

技术领域

本发明涉及信息技术领域，尤其涉及一种接单辅助决策的联邦强化学习方法。

背景技术

目前，企业的订单接受决策一般由销售部门负责，目标是尽可能多的利润，在一段时间内，客户订单分散的随机动态达到，后续订单什么时间到达以及订单的特性都不能提前获知。为了对现有客户订单进行实时反馈，需要在后续订单还没到达时就做出实时决策。此时若一味接受已有订单，则有可能由于产能、交货期等条件的约束而无法在未来接受更有价值的订单，从而造成客户流失，损失利润。若为后续订单预留产能，则可能造成一定的产能浪费。目前并没有一种能够在现有环境下联合多方，在并不泄露数据隐私的情况下，对企业的决策模型进行训练的方法。

发明内容

本发明的目的在于提出一种接单辅助决策的联邦强化学习方法，以解决上述问题。

为达此目的，本发明采用以下技术方案：

一种基于联邦强化学习的接单辅助决策方法，包括：

数据采集和处理，各智能体分别收集历史订单数据，然后提取历史订单数据的属性，将所述历史订单数据作为训练数据；

建立模型，根据历史订单数据建立环境模型，各所述智能体建立本地决策模型，所述环境模型模拟当前状态S；所述环境模型设有奖励函数，当所述本地决策模型根据当前状态S对新订单做出接受或拒绝动作后，环境模型对所述本地决策模型的接受或拒绝动作做出相应的奖励；

训练本地决策模型，各所述智能体各自利用所述训练数据对所述本地决策模型进行训练；

联合各方数据进行联邦强化学习，各智能体将训练过程中的所得到的梯度信息加密成加密信息，然后发送至聚合方；所述聚合方接受各智能体的加密信息，然后解密得到各智能体的梯度信息，所述聚合方对所有的智能体的梯度信息进行整合，并训练聚合模型，然后将训练后的聚合模型发送至各个智能体。

优选地，依次按照以下步骤进行联邦强化学习：

步骤A、各个所述智能体分别根据对所述环境模型的观察结果进行动作决策；

步骤B、所述环境模型向所述智能体反馈结果，反馈结果包括新的状态S_t+1和奖励；

步骤C、各个所述智能体将得到的反馈结果放入各自的所述强化学习算法中对所述本地决策模型进行强化学习训练，并计算中间结果，然后将所述中间结果加密并发送给所述聚合方；

步骤D、所述聚合方对所有的中间结果进行解密，并使用全部聚合的梯度信息对聚合模型进行训练；

步骤E、聚合方将训练后的聚合模型发送给各个所述智能体。

优选地，当所述本地决策模型作出接受动作，所述环境模型计算立即接受订单的奖励r_a：

其中，R为订单利润，T_w为完工期，b为订单成本，c为订单碳耗量，T_y为延期时间，w为延期单位惩罚，J为客户等级；

当所述本地决策模型作出拒绝动作后，所述环境模型给予的奖励为0或者所述环境模型根据客户等级给予惩罚。

优选地，采用强化学习算法对本地决策模型进行训练；所述强化学习算法包括策略网络π和价值网络q，所述策略网络π用于计算所述本地决策模型做出模拟的接受或拒绝动作的概率分布，然后随机抽样得到动作；所述价值网络q用于对每一个模拟的动作根据当前状态S进行打分，并选出分值最大的动作。

优选地，对所述本地决策模型的训练过程包括以下步骤：

步骤1、所述本地决策模型观察旧的状态S_t，策略网络π根据所述旧的状态S_t计算出每个动作的概率分布，然后根据概率分布随机抽样获得动作a_t；

步骤2、所述智能体执行动作a_t，所述环境模型更新到新的状态S_t+1，并给出奖励r_t；

步骤3、以新的状态S_t+1作为输入，策略网络π计算每个动作的概率分布，然后根据概率分布随机抽样得到新的动作a'_t+1；

步骤4、所述价值网络q先以所述旧的状态S_t和动作a_t作为输入，算出打分q_t；然后所述价值网络q以新的状态S_t+1和新的动作a'_t+1作为输入，算出打分q_t+1；

步骤5、计算TD-error的值δ_t：

δ_t＝q_t-(r_t+γ·q_t+1)

其中，γ为价值网络的学习率；

步骤6、对所述价值网络q进行求导，计算价值网络q关于w的剃度d_w,t：

其中，w价值网络参数；

步骤7、使用TD算法用梯度下降来对所述价值网络q进行更新；

步骤8、对策略网络π进行求导：

其中，θ为策略网络参数；

步骤9、用梯度上升来对策略网络π进行更新：

θ_t+1＝θ_t+β·q_t·d_θ,t；

其中，β为策略网络的学习率；

每次训练依次执行以上步骤，每次训练中只执行一次动作，观测一个奖励，并更新一次所述价值网络参数和所述策略网络参数。

优选地，在联邦强化学习的过程中，各所述智能体采用同态加密、多方安全计算或随机噪声对训练过程中的梯度信息进行加密。

优选地，各智能体在收集历史订单数据后，对历史订单数据进行预处理：

1)、通过One-hot编码对顾客等级具有多个候选值的订单进行处理，除了所述订单的顾客等级设置为1，其他顾客的等级都设置为0；

2)、采用画箱线图的方法对历史订单数据中存在的异常数据进行剔除；

3)、对订单样本进行均衡化，增加小类样本的权重，并降低大类样本的权重。

本发明的有益效果是：采用联邦强化学习的方式来对聚合模型进行训练，通过设置聚合方，聚合方为一个智能体或者一个可信赖的第三方，由聚合方接收各智能体在对本地决策模型训练过程中所得到的梯度信息，并对各方的梯度信息进行聚合，然后训练聚合模型，由于在对聚合模型进行训练的过程中可以利用到各智能体的数据，从而能够拥有足够的数据量对聚合模型进行训练，并且由于训练过程有足够数量和类型的数据支持，因此聚合模型的训练效果更好，且由于智能体将梯度信息送至聚合方时，会对梯度信息进行加密，因此能够有效地防止数据泄露，从而保护各智能体的数据隐私。

附图说明

附图对本发明做进一步说明，但附图中的内容不构成对本发明的任何限制。

图1是本发明其中一个实施例的交互流程示意图；

附图中：1-智能体，2-聚合方。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

本实施例的一种基于联邦强化学习的接单辅助决策方法，包括：

数据采集和处理，各智能体1分别收集历史订单数据，然后提取历史订单数据的属性，将所述历史订单数据作为训练数据；

建立模型，根据历史订单数据建立环境模型，各所述智能体1建立本地决策模型，所述环境模型模拟当前状态S；所述环境模型设有奖励函数，当所述本地决策模型根据当前状态S对新订单做出接受或拒绝动作后，环境模型对所述本地决策模型的接受或拒绝动作做出相应的奖励；

训练本地决策模型，各所述智能体1各自利用所述训练数据对所述本地决策模型进行训练；

联合各方数据进行联邦强化学习，各智能体1将训练过程中的所得到的梯度信息加密成加密信息，然后发送至聚合方2；所述聚合方2接受各智能体1的加密信息，然后解密得到各智能体1的梯度信息，所述聚合方2对所有的智能体1的梯度信息进行整合，并训练聚合模型，然后将训练后的聚合模型发送至各个智能体1。

由于训练和强化本地决策模型所需要的数据分散在不同的智能体1，智能体1为公司或者部门，且各公司或部门有自己的数据隐私保护需求。此时，若一个客户订单产生了，销售部门、生产部门等都要做决策接不接受这个订单。此时，销售部门为了提升业绩，倾向于多接受订单。但生产部门受到产能、成本等限制，一味的接受订单并不可取。若前面接受了价值较低的订单可能会导致后面价值较大的订单无法接受。本发明通过建立环境模型，能够使得多个部门维持对同一环境的同一观察，环境是指订单状况，现有产能情况等，每一个部门维护一个对应的动作策略，当然，部分辅助类型的部门会没有动作策略，如行政部门，但他们的最终目标是一致的，都是使一段时间内的整体收益最大化。环境模型中的当前状态S根据各智能体1的不同情况来模拟，并尽可能充分利用已有数据来模拟现实状态的变化，比如可以由订单编号、订单特征、下单时间、该下单时刻完成已接受订单还需消耗时间、交货期等决定，同时需要加入一些随机变量来模型环境变化的随机性。

本发明采用联邦强化学习的方式来对聚合模型进行训练，通过设置聚合方2，聚合方2为一个智能体1或者一个可信赖的第三方，由聚合方2接收各智能体1在对本地决策模型训练过程中所得到的梯度信息，并对各方的梯度信息进行聚合，然后训练聚合模型，由于在对聚合模型进行训练的过程中可以利用到各智能体1的数据，从而能够拥有足够的数据量对聚合模型进行训练，并且由于训练过程有足够数量和类型的数据支持，因此聚合模型的训练效果更好。在聚合方2对聚合模型训练完毕后，聚合方2将聚合模型发送至各个智能体1，各个智能体1可以利用聚合模型对本地决策模型进行更新，从而提高决策收益。此外，由于聚合模型是利用各方的数据共同训练的，因此能够适用于各个智能体1，各个智能体1在利用聚合模型做出决策时，能够实现最大化的整体利益。

进一步地，依次按照以下步骤进行联邦强化学习：

步骤A、各个所述智能体1分别根据对所述环境模型的观察结果进行动作决策；

步骤B、所述环境模型向所述智能体1反馈结果，反馈结果包括新的状态S_t+1和奖励；

步骤C、各个所述智能体1将得到的反馈结果放入各自的所述强化学习算法中对所述本地决策模型进行强化学习训练，并计算中间结果，然后将所述中间结果加密并发送给所述聚合方2；

步骤D、所述聚合方2对所有的中间结果进行解密，并使用全部聚合的梯度信息对聚合模型进行训练；

步骤E、聚合方2将训练后的聚合模型发送给各个所述智能体1。

由于强化学习模型的训练往往需要用到大量的数据，而这些数据往往分布在不同公司的不同部门。比如产能数据由生产部门掌握，而顾客等级，订单报价等又由销售部门掌握。若采用外包的生产模式，则会涉及到两个不同的公司。由于产能、成本、利润等训练强化模型所需要的数据是一个公司或部门的核心数据，并不能轻易泄露出去，由此会对强化学习模型的训练造成不小的阻力。本发明采用联邦强化学习的方式对聚合模型进行训练，在各智能体1向聚合方2发送数据时，均会对数据进行加密，由于各智能体1发送的是加密后的梯度信息，并未泄露原始数据信息，从而保证了数据的安全性，同时也保护了各个智能体1之间的数据隐私。

进一步地，当所述本地决策模型作出接受动作，所述环境模型计算立即接受订单的奖励r_a：

当智能体1根据当前状态s对新来的订单做出接受或拒绝的动作后，环境会给与一定的奖励，训练本地决策模型的目的就是让奖励在一段时间内最大化。对于订单的决策动作，只有接受和拒绝两种动作；当本地决策模型做出接受动作时，则环境模型根据订单的信息计算接受订单的奖励r_a，并且对环境模型进行更新；相反地，当本地决策模型做出拒绝动作后，则环境模型给予本地决策的奖励为0，当然也在本地模型做出拒绝动作后给予本地决策模型惩罚。由于不同客户的订单具有不同的重要程度，可以根据客户等级来对订单进行评价，从而在拒绝不同客户的订单时给予不同的惩罚，这样使得本地决策模型可以更加贴近真实情况。

进一步地，采用强化学习算法对本地决策模型进行训练；所述强化学习算法包括策略网络π和价值网络q，所述策略网络π用于计算所述本地决策模型做出模拟的接受或拒绝动作的概率分布，然后随机抽样得到动作；所述价值网络q用于对每一个模拟的动作根据当前状态S进行打分，并选出分值最大的动作。

策略网络与价值网络共同对本地决策模型进行训练，其中策略网络控制智能体1做出模拟的接受或拒绝动作，而价值网络对智能体1所做出的每一个模拟的动作根据当前状态S进行打分，从而能够选出分值最大的动作并执行，通过对本地决策模型的训练，使本地决策模型能够做出分数更高的动作，从而使得获得更高的利益。

进一步地，对所述本地决策模型的训练过程包括以下步骤：

步骤2、所述智能体1执行动作a_t，所述环境模型更新到新的状态S_t+1，并给出奖励r_t；

步骤5、计算TD-error的值δ_t：

δ_t＝q_t-(r_t+γ·q_t+1)

其中，γ为价值网络的学习率；

其中，w价值网络参数；

步骤7、使用TD算法用梯度下降来对所述价值网络q进行更新；

步骤8、对策略网络π进行求导：

其中，θ为策略网络参数；

步骤9、用梯度上升来对策略网络π进行更新：

θ_t+1＝θ_t+β·q_t·d_θ,t；

其中，β为策略网络的学习率；

其中，在步骤3中，新的动作a'_t+1为一个假想的动作，其用于计算价值网络q，智能体1并不会实际执行，在每一轮的训练循环中，智能体1只做出一次实际动作；各个智能体1分别利用本地的训练数据对本地决策模型进行训练，从而训练出一个适用智能体1自身的本地决策模型。

进一步地，在联邦强化学习的过程中，各所述智能体1采用同态加密、多方安全计算或随机噪声对训练过程中的梯度信息进行加密。

各个智能体1在发送数据时均采用加密的形式发送，从而能够有效地避免原始数据的泄露，因此能够保证各智能体1的数据隐私。

进一步地，各智能体1在收集历史订单数据后，对历史订单数据进行预处理：

通过对历史订单数据进行预处理，这样能够更好地对本地决策模型进行训练，在对异常数据进行剔除时，可以选择历史订单数据中的几个较为重要的属性，如订单成本、数量、报价等，将分布在直方图3δ以外的数据进行剔除，从而避免异常的数据对训练的结果造成影响，能够有效地提高训练效果；而增加小类样本的权重和降低大类样本的权重能够使样本数据更加均衡，让模型的小类样本能够有所集中，从而提高对本地决策模型的训练效果。

以上结合具体实施例描述了本发明的技术原理。这些描述只是为了解释本发明的原理，而不能以任何方式解释为对本发明保护范围的限制。基于此处的解释，本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式，这些等同的变型或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种接单辅助决策的联邦强化学习方法，其特征在于，包括：

联合各方数据进行联邦强化学习，各智能体将训练过程中的所得到的梯度信息加密成加密信息，然后发送至聚合方；所述聚合方接受各智能体的加密信息，然后解密得到各智能体的梯度信息，所述聚合方对所有的智能体的梯度信息进行整合，并训练聚合模型，然后将训练后的聚合模型发送至各个智能体；

依次按照以下步骤进行联邦强化学习：

步骤E、聚合方将训练后的聚合模型发送给各个所述智能体；

当所述本地决策模型作出接受动作，所述环境模型计算立即接受订单的奖励r_a：

2.根据权利要求1所述的一种接单辅助决策的联邦强化学习方法，其特征在于，采用强化学习算法对本地决策模型进行训练；所述强化学习算法包括策略网络π和价值网络q，所述策略网络π用于计算所述本地决策模型做出模拟的接受或拒绝动作的概率分布，然后随机抽样得到动作；所述价值网络q用于对每一个模拟的动作根据当前状态S进行打分，并选出分值最大的动作。

3.根据权利要求2所述的一种接单辅助决策的联邦强化学习方法，其特征在于，对所述本地决策模型的训练过程包括以下步骤：

步骤5、计算TD-error的值δ_t：

δ_t＝q_t-(r_t+γ·q_t+1)

其中，γ为价值网络的学习率；

其中，w价值网络参数；

步骤7、使用TD算法用梯度下降来对所述价值网络q进行更新；

步骤8、对策略网络π进行求导：

其中，θ为策略网络参数；

步骤9、用梯度上升来对策略网络π进行更新：

θ_t+1＝θ_t+β·q_t·d_θ,t；

其中，β为策略网络的学习率；

4.根据权利要求3所述的一种接单辅助决策的联邦强化学习方法，其特征在于：在联邦强化学习的过程中，各所述智能体采用同态加密、多方安全计算或随机噪声对训练过程中的梯度信息进行加密。

5.根据权利要求4所述的一种接单辅助决策的联邦强化学习方法，其特征在于，各智能体在收集历史订单数据后，对历史订单数据进行预处理：