CN113537514A

CN113537514A - 一种高能效的基于数字孪生的联邦学习框架

Info

Publication number: CN113537514A
Application number: CN202110847621.3A
Authority: CN
Inventors: 刘宜明; 张家祥; 秦晓琦; 许晓东
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2021-10-22
Anticipated expiration: 2041-07-27
Also published as: CN113537514B

Abstract

一种高能效的基于数字孪生的联邦学习框架，涉及工业物联网的联邦学习技术领域，解决现有工业物联网系统中利用数字孪生和联邦学习技术存在能量消耗及降低模型收敛速度和训练模型的质量等问题，在联邦学习的每次迭代过程中，工业物联网设备用于根据部署在宏基站中的策略选择不同的训练方式进行训练，小型基站用于将工业物联网设备上传的模型按比例融合并传递到宏基站的参数融合器上进行最终的参数融合，宏基站用于实现信道分配及控制工业物联网设备选择本地训练或选择小型基站的服务器连接到数字空间的虚拟对象，并使用小型基站的附属服务器来训练模型；宏基站将全局模型广播至所有的工业物联网设备，直至全局模型达到预设的准确率或者模型收敛。

Description

一种高能效的基于数字孪生的联邦学习框架

技术领域

本发明涉及工业物联网的联邦学习技术，具体涉及一种高能效的基于数字孪生的联邦学习框架。

背景技术

工业物联网的出现极大地赋能了现代社会的生产生活，推动了包括农业、制造业等行业的快速发展，特别是在基于人工智能的工业4.0中。与此同时，接入物联网设备也随之爆发式增长。在工业4.0中，工业物联网设备需要支持即时的智能服务，这对即时获取和分析动态状态信息提出了迫切需求。

数字孪生作为一种将工业物联网设备即时映射到数字空间的技术，可以实时捕获工业物联网设备的动态状态信息。此外，借助先进的传感器技术，6G中的数字孪生可以实现虚拟对象和物理实体之间极其可靠和近乎即时的连接。具体来说，通过软件定义和传感器更新，可以在数字空间中创建从物理世界映射的虚拟对象，虚拟对象通过实时传感器数据进行演进。工业物联网设备的实时演进的虚拟对象由于需要足够的计算资源通常维护在服务器中。同时，对于物联网设备来说，数字孪生在协助工业物联网设备构建智能模型时，不仅需要依赖自身的数据，还需要依赖其他分布式工业物联网设备和服务器的数据。然而，出于商业竞争和隐私保护的目的，不同运营商的不同服务器在交换他们自身捕获的工业物联网设备传感器数据的意愿低迷，这就带来了“数据孤岛”的问题，给工业4.0中的智能服务带来了很大的挑战。

联邦学习在模型建立过程中交换梯度或模型参数来替代原始数据，可以避免“数据孤岛”问题。它允许分布式列车的不同设备或服务器协同构建智能模型。在上述的工业物联网系统中，这些工业物联网设备和服务器可以通过联邦学习来训练提供智能服务的神经网络模型。

尽管数字孪生和联邦学习都被认为是重新设计工业物联网系统的关键技术，但将它们集成到工业物联网系统中仍然存在很多挑战。一方面，联邦学习中的大量梯度或模型参数需要传输和处理，这是非常消耗能量的。同时，在通过实时传感器数据不断演化数字空间中维护工业物联网设备的虚拟对象也非常耗能。考虑到大量的工业物联网设备，为联邦学习的所有工业物联网设备部署数字孪生是不切实际的。另一方面，直接减少通信、计算和能源资源可能会降低收敛速度和训练模型的质量，并抵消数字孪生的即时获取状态信息的积极增益。

因此，考虑到动态复杂的网络环境，应小心的将工业物联网设备的训练方法选择和资源分配进行联合优化，以提高联邦学习的能量效率和收敛速度。

发明内容

本发明为解决现有工业物联网系统中利用数字孪生和联邦学习技术存在能量消耗及降低模型收敛速度和训练模型的质量等问题，提供一种高能效的基于数字孪生的联邦学习框架。

一种高能效的基于数字孪生的联邦学习框架，包括M个小型基站，N个工业物联网设备和一个宏基站；在联邦学习的每次迭代过程中，每个工业物联网设备用于根据部署在宏基站中的策略选择不同的训练方式进行训练，即本地训练或者利用数字孪生技术在小型基站的服务器上进行训练；

所述小型基站用于将工业物联网设备上传的模型和利用数字孪生技术训练的模型按比例融合得到基站的当地模型；所述小型基站将当地模型传递到宏基站的参数融合器上进行最终的参数融合，获得本次迭代后的全局模型；

所述融合方式定义为：

式中，G为融合的参数模型数目，D_i为训练模型w_i的数据大小；

所述宏基站用于实现信道分配及控制工业物联网设备选择本地训练并选择某个小型基站传输训练后的模型参数或选择某个小型基站的服务器连接到数字空间的虚拟对象，并使用小型基站的附属服务器来训练模型；

所述宏基站将全局模型广播至所有的工业物联网设备，直至全局模型达到预设的准确率或者模型收敛。

本发明的有益效果：所提框架根据基于数字孪生的IIoT系统中的状态信息在联邦学习的每轮迭代中动态的选择物联网设备的训练方式及信道的分配方式，有效的降低了基于数字孪生的联邦学习的能量消耗，并为每轮迭代添加时间阈值，避免了联邦学习可能存在的长时间消耗，有效提升了基于数字孪生的联邦学习的能量效率。

附图说明

图1为工业物联网系统模型示意图。

具体实施方式

结合图1说明本实施方式，本实施方式基于数字孪生的工业物联网提出了一种高能效的联邦学习框架。在该框架中，工业物联网设备可以动态选择在本地训练或在数字孪生的协助下连接到小型基站相应服务器中虚拟对象，利用小型基站的计算资源来训练模型。通过量化了基于数字孪生的工业物联网联邦学习的能耗和时间消耗，并得到了联合工业物联网设备训练方法和资源分配的优化问题。考虑到该问题使用传统方法难以解决，本实施方式中采用基于深度强化学习(DRL)的算法来获得最佳策略。

如图1所示，图1为支持数字孪生的工业物联网系统模型。设定有M个小型基站，表示为B₁B_m...B_M，N个物联网设备，表示为D₁D_n...D_N，以及一个宏基站，记为B_MBS。在联邦学习的每次迭代过程中，所有工业物联网设备都需要根据一定的策略选择模型训练方法，即本地训练或者利用数字孪生协助训练。具体而言，基于每次迭代中系统的整体状态信息，需要探索出每个工业物联网设备的训练方法和信道分配的策略以实现高能效的联邦学习。策略可以部署在宏基站中，根据具体的策略，宏基站可以实现信道分配及控制工业物联网设备选择本地训练并选择某个小型基站传输训练后的模型参数或选择某个小型基站的服务器连接到数字空间的虚拟对象，并使用小型基站的附属服务器来训练模型。

将设备i的数字孪生表示为

其中

为设备i的模型，D_i为设备i的实时数据。将物联网设备d_n的选择记为S_n，则S_n的值构成的集合为O＝-M,-(M1)...-1,1,2...M。例如，S_n(t)＝-m表示设备d_n进行当地训练，后将参数模型传递给基站B_m。S_n(t)＝m表示工业物联网设备d_n选择小型基站B_m的服务器来创建连接虚拟对象，各个基站将利用数字空间的数据训练得到的模型与接收到的设备传递的模型进行融合后，将融合后参数模型传递给宏基站。使

和Φ_n,m(t)分别表示工业物联网设备d_n是否连接到小型基站B_m的虚拟对象和本地训练后是否选择B_m作为上传模型参数的通信链路。表示为：

则

且

以及：

设定每个工业物联网设备在每次迭代中最多有一个由数字孪生产生的虚拟对象，并且如果没有虚拟对象，工业物联网设备只能连接一个小型基站上传模型参数。此外，系统状态信息包括在不同迭代过程中动态变化的工业物联网设备收集数据的规模大小、工业物联网设备或小型基站的计算资源以及信道状态信息，但对于每个特定迭代过程都是固定的。此外，考虑到数字孪生的实时性，我们假设用于维护工业物联网设备的虚拟对象的传感器数据和模型仅在服务器中的训练模型期间映射传输到服务器，而维护虚拟对象的能耗包括实时传感器数据的采集和传输以及虚拟对象在软件中的演化等。

本实施方式中，采用联邦学习模型，基于数字孪生技术，采取同步的联邦学习方式来训练一个需要的全局的机器学习模型。根据系统的状态信息，在一次迭代过程中，物联网设备选择不同的训练方式进行训练。即当地训练或者利用数字孪生在小型基站的服务器上进行训练。接着基站将物联网设备上传的模型和利用数字孪生技术训练的模型按比例融合得到基站的当地模型。最后基站将模型传递到宏基站的参数融合器上进行最终的参数融合，得到这次迭代后的全局模型。将融合方式定义为：

G表示融合的参数模型数目，

表示训练模型w_i的数据大小。

本实施方式中，利用通信模型表示信息的变化。具体为：在工业物联网中，信道的状态信息是动态变化的，我们利用有限状态的马尔可夫信道模型来表示信道的变化，用接收信噪比SNR来代表信道状态Γ。接收信噪比被分为I+1个不同的幅度，构成的集合表示为h₀,h₁,h₂...h_I。其中，h₀与h_I分别表示为最小信噪比和最大的信噪比，而这通常是很容易测量的。有限状态的马尔科夫链状态集合为

并且Γ(t)＝H_i表示在第t次的迭代过程中，信道状态信息即接收信噪比为H_i位于h_i-1与h_i之间。

在联邦学习中，单次的迭代相对于整个迭代过程来说是微不足道的，因此我们假设在某个特定的迭代过程中，信道的状态信息是不发生变化的。在马尔可夫模型中，某个状态会根据马尔可夫转移矩阵进行转移进入下一状态。假设某次迭代过程某两个通信设备之间的信道状态为Γ(t)＝H_a，从该状态转移到H_b的概率为

表示为

转移矩阵可以表示为

由于信道资源的限制，在本实施方式中，需要考虑信道的分配进行高效的通信，从而加速联邦学习的收敛并且减小能量消耗。设定共有K个信道被物联网设备与小型基站分配，子信道的带宽为W₀。则：

式中，

和

分别表示基站B_m与物联网设备d_n分得的信道数目。物联网设备到基站的数据传递速度表示为：

表示物联网设备d_n与基站B_m的信道状态。

基站到宏基站的数据传输速率表示为：

本实施方式中，采用与通信模型类似的计算模型计算资源；具体为：系统中的基站与物联网设备的计算资源是动态变化的。同样，采用有限状态的马尔可夫模型，将计算能力

分为J+1个分散的值f₀,f₁,f₂...f_J，有限马尔可夫的所有状态集合表示为

表示某个设备或者基站的计算能力从F_a到F_b的转移概率为

转移矩阵表示为

本实施方式中，通过量化基于数字孪生的工业物联网联邦学习的时间消耗和能量消耗，获得联合工业物联网设备的训练方式选择和信道分配联合优化问题，并采用深度强化学习算法获得最优策略，具体由以下过程实现：

所述时间消耗包括传输时延和计算时延；

所述传输时延：传输时间包括三个部分，包括本地训练的工业物联网设备到相应的小型基站、小型基站到宏基站、宏基站到工业物联网设备的传输时间。在所提框架中，工业物联设备在本地训练或利用数字孪生技术的协助在服务器上训练。对于本地训练，工业物联网设备需要将训练好的模型传输到小型基站。因此，从工业物联网设备d_n到小型基站B_m的传输时间可以定义为：

式中，

表示物联网设备d_n的模型参数的大小。由于在联邦学习中，每个物联网设备的训练的模型参数是相等的，因此将其记为|w|。值得注意的是，这里我们计算的物联网设备的传输时延包括任何一个基站的传输时延，但在后面总时延的计算中，将利用Φ_n,m(t)指定物联网设备连接的基站对其进行约束。

在小型基站端，若存在物联网设备建立的数字孪生映射，则基站会利用数字空间中的实时数据来训练模型，接着将训练好的模型参数与物联网设备传递的模型参数进行按数据大小的比例融合。最后，将融合好的模型传递给宏基站，小型基站B_m到宏基站的传输时延为：

在宏基站收到各个基站传递的模型参数后，进行融合得到一次迭代的全局模型，接着将模型参数传递给各个物联网设备完成一次迭代。宏基站到物联网设备d_n的传输时延为：

所述计算时延为：无论物联网设备进行当地训练还是利用数字孪生技术在计算资源相对多的基站的服务器上进行训练，这里都存在计算时延。将训练单位数据的所需要的CPU周期数目定义为γ₁，将融合单位模型参数所需要的CPU周期数目定义为γ₂。

物联网设备d_n的计算时延为：

式中，

表示第t次迭代过程中，物联网设备d_n收集到的数据。

表示物联网设备d_n是否选择基于DT的训练方式；可以看到，只有当

即物联网设备选择当地训练时，其计算时延才不等于0。

基站的计算时延包括基站训练可能存在的物联网设备映射的数字空间中数据时延和融合模型参数的融合时延。其中小型基站B_m的训练时延为：

以及小型基站B_m的融合时延被定义为：

宏基站附属的参数服务器需要将基站传来的模型参数进行融合，融合时延为：

z表示宏基站收到的参数模型的数目。采用同步的联邦学习方式。于是，总时延表示为：

本实施方式中，所述能量消耗可分为传输能耗和计算能耗，计算能耗包括维护数字空间虚拟对象的能耗。

所述传输能耗具体为：连接到虚拟对象的工业物联网设备可以在小型基站所属的服务器上进行训练，由于数字孪生的实时性特征，在下一个计算能量消耗中考虑与虚拟对象相关的能耗，而选择在本地训练的工业物联网设备必须传输模型参数。物联网设备d_n传输能量消耗可以表示为：

为物联网设备d_n的传输功率。

小型基站B_m的传输能耗为：

为小型基站B_m的传输功率。

本实施方式中，所述计算能耗具体为：

将设备训练功率定义为α₁，则设备的计算能耗为：

小型基站的计算能耗分为三部分，包括小型基站上数字空间中使用虚拟对象的训练模型的能耗、小型基站维护虚拟对象的能耗、小型基站融合模型参数的能耗，分别表示为：

其中α₂，β与θ分别代表小型基站的训练功率、在数字空间中维护工业物联网设备单个虚拟对象的功耗以及融合功耗。小型基站B_m的计算能耗表示为：

除了物联网设备和基站的计算功率外，宏基站的融合模型参数的能耗为：

于是，工业物联网设备d_n，小型基站B_m以及宏基站的总能耗分别为：

在一次迭代过程中，总的能量消耗为：

根据时延和能耗的量化公式，得到优化问题：

s.t.0≤T_total(t)≤T_limit

Acc_preset≤Acc_Z

其中S_t和W_t分别表示第t次迭代中工业物联网设备的训练方法选择和信道分配，Z表示模型达到预设精度所需的迭代次数，Acc_preset为预设的模型所需要的精度，Acc_Z为第Z次迭代后的模型精度，T_limit表示保证系统综合性能的训练时间阈值。

本实施方式中，工业物联网设备采集的数据大小、通信设备之间的信道状态信息、工业物联网设备和小型基站的计算资源等状态信息在的不同迭代中动态变化。在给定训练时间阈值T_limit的情况下，需要仔细考虑工业物联网设备的训练方法选择和资源分配，以实现高能效的联邦学习。对于具有约束条件的联合优化问题，传统方法处理难度极大。因此，将联合优化问题表述为马尔可夫决策过程，其中状态空间、动作空间和奖励函数(回报函数)定义如下：

将所述状态空间定义为

很显然s(t)包括信道状态信息，物联网设备与包括宏基站在内的基站的计算能力，以及物联网设备收集数据的大小，除此之外，还包括联邦学习模型的正确率。因此o(t)可以表达为：

将所述动作空间定义为

它包括物联网设备的训练方式的选择以及信道的分配。表示为：

A(t)＝{S(t),W(t)}

S(t)表示物联网设备选择的向量，W(t)表示信道分配的向量。

所述回报函数定义如下：

式中，ε_E与ε_T是用于调节能量消耗和时间延迟在回报函数权重的常数，用来避免单一优化。比如若时间延迟相对于能量消耗非常大时，如果不存在调节参数，系统将优化中心放在时间延迟上，反之则忽略了时间限制造成联邦学习综合性能的降低。而阶跃函数u(x)的加入可以和ε_T的配合巧妙的可以过滤到时间限制大于T_limit的动作。u(x)为阶跃函数，定义为：

本实施方式中，深度强化学习将深度神经网络和强化学习结合形成了一个非常有效的工具来解决高纬度状态或者动作空间的马尔可夫决策问题。状态空间和动作空间是离散的，一般的DQN(深度Q值网络)就可以解决。但是为了改善强化学习的性能，本实施方式采用了double-DQN和dueling-DQN。在DQN中，DNN(深度神经网络)可以根据状态输入得到各个动作的值，称作状态-动作值Q。在DNN的训练中，目标神经网络和经验回放会被采用来加速DNN的收敛。在一次学习过程中，通过时间差分法更新DNN的参数：

Q(s,a；θ)←Q(s,a；θ)+λ[Q_target-Q(s，a；θ)]

λ为学习率，τ为奖励衰减参数，θ^-为另一个目标神经网络的参数。目标神经网络的参数经过指定回合数目，由DNN的参数进行更新。DQN的损失函数定义为：

L(θ)＝E[(Q_target-Q(s,a；θ))²]

Double-DQN利用估计神经网络对下一状态s'下Q值最大的动作进行估计，并在迭代中，利用选择出的动作计算Q_target，表达式如下：

Double-DQN可以避免Q值过估计的问题，Dueling-DQN可以通过将Q分离为状态值V(s)和动作值A(s,a)加速模型的收敛，表达式如下：

Q(s,a；θ)＝V(s；θ)+A(s,a；θ)

在给出转移概率后，最优的策略将可以线下学习。主要过程如下，评估网络的参数被初始化，接着用被初始化的参数来更新相同结构的目标神经网络。评估网络根据状态信息采用贪心策略ε-greedy选择出动作，基于数字孪生的工业物联网系统采取动作后反馈奖励。状态、动作以及奖励将会存储在经验回放记忆中用于训练DQN以及更新目标神经网络。

Claims

1.一种高能效的基于数字孪生的联邦学习框架，包括M个小型基站，N个工业物联网设备和一个宏基站；其特征是：

在联邦学习的每次迭代过程中，每个工业物联网设备用于根据部署在宏基站中的策略选择不同的训练方式进行训练，即本地训练或者利用数字孪生技术在小型基站的服务器上进行训练；

所述融合方式定义为：

2.根据权利要求1所述的一种高能效的基于数字孪生的联邦学习框架，其特征在于：

在所述工业物联网设备中，采用有限状态的马尔可夫信道模型表示信道的变化，用于接收信噪比SNR表示信道状态Γ；接收信噪比被分为I+1个不同的幅度，构成的集合表示为h₀,h₁,h₂...h_I；

其中，h₀与h_I分别为最小信噪比和最大的信噪比，设定有限状态的马尔科夫链状态集合为

并且Γ(t)＝H_i表示在第t次的迭代过程中，信道状态信息即接收信噪比为H_i位于h_i-1与h_i之间；

设定在某个迭代过程中，信道的状态信息是不发生变化的；在马尔可夫模型中，某个状态会根据马尔可夫转移矩阵进行转移进入下一状态；

设定某次迭代过程某两个通信设备之间的信道状态为Γ(t)＝H_a，从该状态转移到H_b的概率为

表示为

转移矩阵表示为

设定共有K个信道被工业物联网设备与小型基站分配，子信道的带宽为W₀；则：

式中，

和

分别表示小型基站B_m与工业物联网设备d_n分得的信道数目；工业物联网设备到小型基站的数据传递速度表示为：

式中，

表示物联网设备d_n与基站B_m的信道状态。

小型基站到宏基站的数据传输速率表示为：

3.根据权利要求2所述的一种高能效的基于数字孪生的联邦学习框架，其特征在于：

采用有限状态的马尔可夫模型，将计算能力

分为J+1个分散的值f₀,f₁,f₂…f_J，有限马尔可夫的所有状态集合表示为

为某个工业物联网设备或者小型基站的计算能力从F_a到F_b的转移概率为

转移矩阵表示为

4.根据权利要求3所述的一种高能效的基于数字孪生的联邦学习框架，其特征在于：

通过量化基于数字孪生的工业物联网联邦学习的时间消耗和能量消耗，获得联合工业物联网设备的训练方式选择和信道分配联合优化问题，并采用深度强化学习算法获得最优策略；

所述优化问题具体如下示表示为：

s.t.0≤T_total(t)≤T_limit

Acc_preset≤Acc_Z

式中，S_t和W_t分别为第t次迭代中工业物联网设备的训练方式选择和信道分配，Z为模型达到预设精度所需的迭代次数，Acc_preset为预设的模型所需要的精度，Acc_Z为第Z次迭代后的模型精度，T_limit为保证系统综合性能的训练时间阈值；

T_total(t)为总时延，E_total(t)为总的能量消耗；

和

分别表示基站B_m与物联网设备d_n分得的信道数目。

5.根据权利要求4所述的一种高能效的基于数字孪生的联邦学习框架，其特征在于：

所述时间消耗中包括传输时延和计算时延；

所述传输时延包括本地训练的工业物联网设备到相应的小型基站的传输时延，小型基站到宏基站的传输时延以及宏基站到工业物联网设备的传输时延；

所述工业物联网设备d_n到小型基站B_m的传输时延定义为：

式中，

为物联网设备d_n的模型参数的大小；

小型基站B_m到宏基站的传输时延为：

式中，Φ_n,m(t)为本地训练后是否选择B_m作为上传模型参数的通信链路；|w|为每个物联网设备的训练的模型参数；

为第t次迭中小型基站到宏基站的数据传输速率；

宏基站到物联网设备d_n的传输时延为：

式中，

为第t次迭找中宏基站到物联网设备d_n的传输速率。

6.根据权利要求4所述的一种高能效的基于数字孪生的联邦学习框架，其特征在于：在计算时延中，具体如下：

所述物联网设备d_n的计算时延为：

式中，γ₁为训练单位数据的所需要的CPU周期数目，γ₂为融合单位模型参数所需要的CPU周期数目；

为第t次迭代过程中，物联网设备d_n收集到的数据；

为第t次迭代过程中，物联网设备d_n的计算能力；

即物联网设备选择当地训练时，其计算时延不等于0；

小型基站的计算时延包括基站训练存在的物联网设备映射的数字空间中数据时延和融合模型参数的融合时延；

所述小型基站B_m的训练时延为：

式中，

为第t次迭代过程中小型基站B_m的计算能力；

小型基站B_m的融合时延被定义为：

式中，z为宏基站收到的参数模型的数目；采用同步的联邦学习方式；则总时延为：

7.根据权利要求4所述的一种高能效的基于数字孪生的联邦学习框架，其特征在于：

所述能量消耗包括传输能耗和计算能耗；

物联网设备d_n传输能量消耗表示为：

为物联网设备d_n的传输功率；

小型基站B_m的传输能耗为：

为小型基站B_m的传输功率。

8.根据权利要求7所述的一种高能效的基于数字孪生的联邦学习框架，其特征在于：

计算能耗中，将物联网设备训练功率定义为α₁，则物联网设备的计算能耗为：

小型基站的计算能耗包括小型基站上数字空间中使用虚拟对象的训练模型的能耗，小型基站维护虚拟对象的能耗以及小型基站融合模型参数的能耗，分别表示为：

式中，α₂，β与θ分别代表小型基站的训练功率、在数字空间中维护工业物联网设备单个虚拟对象的功耗以及融合功耗；小型基站B_m的计算能耗表示为：

宏基站的融合模型参数的能耗为：

则：工业物联网设备d_n，小型基站B_m以及宏基站的总能耗分别为：

在一次迭代过程中，总的能量消耗为：

9.根据权利要求4所述的一种高能效的基于数字孪生的联邦学习框架，其特征在于：

将所述联合优化问题表述为马尔可夫决策过程，分别定义状态空间、动作空间和回报函数：

状态空间定义为

o(t)的表达为：

动作空间定义为

包括物联网设备的训练方式的选择以及信道的分配；表示为：

A(t)＝{S(t),W(t)}

式中，S(t)表示物联网设备选择的向量，W(t)为信道分配的向量；

所述回报函数定义如下：

其中，ε_E与ε_T分别用于调节能量消耗和时间延迟在回报函数权重的常数，u(x)为阶跃函数，定义为：

10.根据权利要求4所述的一种高能效的基于数字孪生的联邦学习框架，其特征在于：采用深度Q值网络DQN，在DQN中，深度神经网络DNN根据状态输入得到各个动作空间的状态动作值Q；

在DNN的训练中，目标神经网络和经验回放会被采用来采用加速DNN的收敛；在一次学习过程中，通过时间差分法更新DNN的参数θ：

Q(s,a；θ)←Q(s,a；θ)+λ[Q_targe-Q(s，a；θ)]

式中，λ为学习率，τ为奖励衰减参数，θ^-为另一个目标神经网络的参数；目标神经网络的参数经过指定回合数目，由DNN的参数进行更新；

DQN的损失函数定义为：

L(θ)＝E[(Q_target-Q(s,a；θ))²]

Double-DQN利用估计神经网络对下一状态s'下Q值最大的动作进行估计，并在迭代中，利用选择出的动作计算动作状态目标值Q_target，表达式如下：

Dueling-DQN通过将Q分离为状态值V(s)和动作值A(s,a)加速模型的收敛，表达式如下：

Q(s，a；θ)＝V(s；θ)+A(s，a；θ)

在给出转移概率后，最优的策略将通过线下学习。

11.根据权利要求10所述的一种高能效的基于数字孪生的联邦学习框架，其特征在于：所述线下学习的步骤为：评估网络的参数被初始化，然后采用初始化的参数更新相同结构的目标神经网络；

评估网络根据状态信息采用贪心策略选择出动作，基于数字孪生的工业物联网系统采取动作后反馈奖励；所述状态、动作以及奖励将会存储在经验回放记忆中用于训练DQN以及更新目标神经网络。