CN111565420A

CN111565420A - 一种移动区块链中智能资源分配方法

Info

Publication number: CN111565420A
Application number: CN202010263998.XA
Authority: CN
Inventors: 宁兆龙; 孙守铭; 王小洁; 张凯源; 董沛然
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2020-08-21

Abstract

本发明属于工业物联网技术领域，公开了一种移动区块链中智能资源分配方法。具体地，通过区块链和移动边缘计算技术建立用于在移动设备交易过程中保护其隐私和数据安全的移动区块链框架，其包含了三个模块：移动区块链模块、任务卸载模块和决策制定模块；对系统中设备的效用进行建模，并建立小基站带宽以及算力资源联合分配模型；将上述联合分配模型分解为两个子模型，分别为带宽分配子模型和算力分配子模型；设计深度强化学习与粒子群优化结合的方法求解带宽分配子模型和算力分配子模型。本发明提出了一种保护移动设备隐私和数据安全的移动区块链框架，并为带宽和算力资源联合分配问题提供了一种新的解决方案。

Description

一种移动区块链中智能资源分配方法

技术领域

本发明属于工业物联网技术领域，具体涉及一种用于在移动设备交易过程中保护其隐私和数据安全的移动区块链系统，尤其涉及到一种移动设备在挖矿过程中小基站的带宽和算力资源的联合分配系统。

背景技术

工业物联网和无线通信技术的快速发展使得越来越多的移动设备参与到工业物联网中，保护移动设备在交易过程中的隐私和数据安全也变得越来越重要。然而传统的基于第三方机构的交易方式无法保证用户的隐私以及数据安全，而且具有单点故障的缺陷。即使少量的工作借助区块链和移动边缘计算技术解决上述问题，但是都忽略了设备的移动性以及小基站带宽和算力联合分配问题。对于区块链系统，矿工的挖矿效用也不可忽略。因此如何设计实际可行的移动区块链系统来保护移动设备在交易过程的隐私和数据安全并考虑设备的移动性、挖矿效用、小基站带宽和算力的联合分配问题及其高效求解需要研究人员进一步探索。

发明内容

本发明的目的是针对现有研究的不足，结合区块链、移动边缘计算技术以及人工智能算法，提出一种移动区块链中的智能资源分配系统。本发明根据区块链和移动边缘计算技术提出一个在设备交易过程中保护其隐私和数据安全的移动区块链框架，其包含移动区块链模块、任务卸载模块以及决策制定模块三个模块。设计人工智能算法与粒子群优化算法结合的方法并构建了一种移动区块链中的智能资源分配系统，从而可以高效地解决小基站中带宽和算力的联合分配问题并考虑设备移动性、挖矿预算、区块链吞吐量以及小基站有限的资源以最大化所有设备长期的挖矿效用，为在工业物联网的发展中保护用户的隐私以及数据安全和人工智能的实际应用提供了一个良好的范例。

本发明的技术方案：

一种移动区块链中智能资源分配方法，步骤如下：

1)通过区块链和移动边缘计算技术建立用于在移动设备交易过程中保护其隐私和数据安全的移动区块链框架。该框架包含了三个模块：移动区块链模块、任务卸载模块和决策制定模块；

2)对系统中设备的效用进行建模，并建立小基站带宽以及算力资源联合分配模型；

3)将2)中的联合分配模型分解为两个子模型，分别为带宽分配子模型和算力分配子模型；

4)设计深度强化学习算法与粒子群优化算法结合的方法求解3)中的带宽分配和算力分配子模型；

步骤1)：

1.1)移动区块链模块设计：

移动区块链模块由移动设备组成。在该模块中，每个移动设备都配置了区块链应用并且它们之间可以直接地进行交易而不需要第三方机构参与。每个移动设备作为区块链中的矿工可以随时地参与挖矿从而获得成功挖矿的奖励。

1.2)任务卸载模块设计：

移动设备拥有有限的算力和能量，所以在挖矿的过程中需要将挖矿任务即工作量证明 (Proof-of-Work,PoW)卸载到其附近的小基站。小基站部署了移动边缘计算服务器并且每个小基站需要为向其请求服务的移动设备分配有限的算力和带宽。最后每个小基站需要立即将挖矿任务的计算结果返回给设备。

1.3)决策制定模块设计：

决策制定模块中主要包含了一个专用控制器。这个专用控制器可以与各个小基站交互并且收集所有小基站以及其所连设备的信息，具体包括每个小基站的总算力、总带宽以及其连接的所有设备的挖矿任务信息。最后，专用控制器会为每个小基站制定最佳的带宽和算力分配策略并立即将分配策略发送给各个小基站。

步骤2)：

2.1)抽象每个设备的效用：

我们认为小基站的信道是有限状态的马尔可夫信道，并且当在决策时期k时，当设备n向小基站m上传挖矿任务时的信道信号噪声比为SNR_n,m(k)。当设备n从小基站m下载挖矿任务结果时的信道信号噪声比为SNR_m,n(k)。

设备n向小基站m上传挖矿任务的速率为：

其中，b_n,m是小基站m为设备n分配的带宽。

设备n从小基站m下载挖矿任务结果的速率为：

其中，b_n是设备n的带宽。

设备n向小基站m上传挖矿任务的时间为：

其中，D_n是设备n的挖矿任务的数据大小。

设备n从小基站m下载挖矿任务结果的时间为：

其中，I_n是设备n的挖矿任务结果的数据大小。

设备n的挖矿任务在小基站m上的处理时间为：

其中，Y_n是完成设备n的挖矿任务所需要的CPU周期数，f_n,m是小基站m为设备n分配的算力。

设备n的挖矿时间为：

设备n的挖矿成本为：

其中，∈是单位能量所对应的成本，E_n是设备n的发射功率，p_n,m是设备n对小基站m上的移动边缘计算服务器的单位时间租赁成本。

设备n成功求解其挖矿任务，即PoW难题的概率为：

其中，α和β分别是设备分配的算力和带宽对其求解挖矿任务重要性，M是小基站的数量， N_m是将挖矿任务卸载到小基站m的移动设备的数量，f_j,i(k)和b_j,i(k)分别是在决策时期k时小基站i为设备j分配的算力和带宽。

我们假设区块链中成功挖矿服从均值为t₀的泊松分布，则设备n挖出的块由于广播时间过长而成为孤儿块的概率为：

其中，N_i是将挖矿任务卸载到小基站i的设备数量，

是区块链中所有的设备数量，φ是与广播时间有关的常数参数，

是块的广播时间。

设备n成功挖矿的概率为：

H_n,m(k)＝δ_n,m(k)(1-θ_n,m)

设备n的挖矿奖励为：

其中，

是挖矿的固定奖励，ηD_n是挖矿的可变奖励，η是可变奖励中的常数参数，D_n是设备n的挖矿任务的数据大小，也就是块的大小。

设备n挖矿的效用为：

U_n,m(k)＝R_n,m(k)-C_n,m(k)

2.2)建立小基站带宽以及算力资源联合分配模型。

为了最大化所有移动设备长期的挖矿效用，小基站带宽以及算力资源联合分配模型如下：

P:

s.t.C1:

C2:

C3:C_n,m≤G_n,

C4:

C5:

其中，

是决策变量，即所有设备分配的带宽集合和算力集合。K是决策时期的最大数量。

C1保证每个小基站为设备分配的算力总和不超过其总算力，其中

是所有小基站集合，

是小基站m的总算力。

C2保证每个小基站为设备分配的带宽总和不超过其总带宽，其中

是小基站m的总带宽。

C3保证每个设备的挖矿成本不超过其挖矿预算，其中

是将挖矿任务卸载到小基站m 的所有设备的集合，G_n是设备n用于挖矿的预算。

C4保证区块链的吞吐量不低于其下限，其中l是平均每个交易的数据大小，

是从上个成功挖出的块开始，设备n开始参与挖矿的时间间隔，Ω是区块链吞吐量的下限。

C5保证每个设备的挖矿任务都是由一个小基站完成，即在挖矿的过程中不存在小基站的切换，其中d_n,m是设备n距小基站m的距离，v_n是设备n的移动速度，ρ_n,m是设备n的移动方向与设备到小基站的向量之间的夹角，ω是小基站的通信范围半径。

步骤3)：

分解得到带宽分配子模型：

P1:

s.t.P中C2约束.

分解得到算力分配子模型：

P2:

s.t.P中C1,C3,C4,C5约束.

步骤4)：

Step1:将P1进一步分解为多个子问题，每个小基站分别需要求解一个子问题，对于小基站m其需要解决的子问题为：

P3

s.t.

其中，

由于P3是一个凸优化问题，可以容易地进行求解，例如通过python中CVXPY库进行求解。通过对所有小基站子问题进行求解从而解得P1并获得所有设备的带宽分配。

Step2：专用控制器收集系统状态S_k并输入到深度确定性策略梯度方法中的演员(actor) 网络来获得该状态所对应的动作A_k。其中，系统状态S_k包含了每个小基站的状态

即

M是小基站的数量。每个小基站的状态

定义如下：

其中T_n＝(D_n,Y_n,G_n,I_n)是设备n卸载的挖矿任务，D_n是挖矿任务的数据大小，Y_n是完成设备n 的挖矿任务所需要的CPU周期数，G_n是设备n用于挖矿任务的预算，I_n是挖矿任务计算结果的数据大小，d_n,m是设备n到小基站m的距离，ρ_n,m是设备n的移动方向与设备n到小基站m 向量之间的夹角，v_n是设备n的移动速度，SNR_n,m和SNR_m,n分别是设备n上传挖矿任务和下载挖矿任务结果时信道的信号噪声比，

和

分别是小基站m的总算力和总带宽，N_m是将挖矿任务卸载到小基站m的移动设备的数量。

输出的动作A_k包含了每个小基站的算力分配决策a_m，即A^k＝{a_m|m＝1,...,M}。每个小基站的算力分配决策a_m定义如下：

a_m＝{f_n,m|n＝1,...,N_m,f_n,m∈[f_min,f_max]}

其中，f_n,m是小基站m为设备n分配的算力，f_min和f_max分别是小基站为设备分配的算力的下界和上界。

Step3：产生0-1之间的随机数

如果

大于等于贪婪策略中的参数∈，则输出动作A_k；否则如果随机探索中采用粒子群优化的概率ζ小于等于∈，则使用粒子群优化产生的改进动作替换动作A_k；否则使用随机动作替换动作A_k。

Step4：执行动作A_k，获得奖励R_k以及系统下一状态S_k+1，并将四元组(S_k,A_k,R_k,S_k+1)保存在深度确定性策略梯度算法中的经验回放缓存中。其中，奖励R_k定义如下：

其中，λ是一个常数参数。

Step5：定期地从经验回放缓存中选择小批次样本训练深度确定性策略梯度网络，并更新其演员在线网络(actor online net)和评论家在线网络(critic online net)的参数。

Step6：定期地使用‘软’更新策略来更新演员目标网络(actor target net)和评论家目标网络(critic target net)的参数。

Step7：在每次迭代中重复执行K次Step1-Step6，直到算法达到最大的迭代次数，输出每个设备分配的算力和带宽资源。

通过以上步骤，实现了对本发明所提出的移动区块链中小基站的带宽和算力资源的联合分配以最大化所有设备的长期挖矿效用。

本发明的效果和益处是：本发明根据区块链和移动边缘计算技术提出一个在设备交易过程中保护其隐私和数据安全的移动区块链框架，其包含移动区块链模块、任务卸载模块以及决策制定模块这三个模块。设计深度强化学习算法与粒子群优化算法结合的方法并构建了一种移动区块链中的智能资源分配系统，可以高效地解决小基站中带宽和算力资源的联合分配问题并考虑设备移动性、挖矿预算、区块链吞吐量以及小基站有限的资源以最大化所有设备长期的挖矿效用，为在工业物联网的发展中保护用户的隐私以及数据安全和人工智能的实际应用提供了一个良好的范例

附图说明

图1为引入区块链和移动边缘计算技术的移动区块链框架。

图2为设计的深度强化学习和粒子群优化算法结合的方法的收敛性。

图3为对于不同的移动设备数量，不同的解决方案获得的所有设备总效用的对比。

图4为对于不同的小基站总带宽，不同的解决方案获得的所有设备总效用的对比。

图5为对于不同的小基站总算力，不同的解决方案获得的所有设备总效用的对比。

图6为对于不同的在计算设备成功求解其挖矿任务概率时的算力重要性，不同的解决方案获得的所有设备总效用的对比。

图7为对于不同的在本发明设计方法的随机探索中采用粒子群优化的概率，不同的解决方案获得的所有设备总效用的对比。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面对本发明的具体实施方式作进一步的详细描述。

本发明提供一种移动区块链中智能资源分配方法，该方法包括以下步骤：

步骤1)：通过区块链和移动边缘计算技术建立用于在移动设备交易过程中保护其隐私和数据安全的移动区块链框架如图1所示。该框架包含了三个模块：移动区块链模块、任务卸载模块和决策制定模块。

1.1)移动区块链模块设计：

1.2)任务卸载模块设计：

移动设备拥有有限的算力和能量，所以在挖矿的过程中需要将挖矿任务即工作量证明 (Proof-of-Work，PoW)卸载到其附近的小基站。小基站部署了移动边缘计算服务器并且每个小基站需要为向其请求服务的移动设备分配有限的算力和带宽。最后每个小基站需要立即将挖矿任务的计算结果返回给设备。

1.3)决策制定模块设计：

步骤2)：对系统中设备的效用进行建模，并建立小基站带宽以及算力资源联合分配模型。

2.1)抽象每个设备的效用：

设备n向小基站m上传挖矿任务的速率为：

其中，b_n,m是小基站m为设备n分配的带宽。

设备n从小基站m下载挖矿任务结果的速率为：

其中，b_n是设备n的带宽。

设备n向小基站m上传挖矿任务的时间为：

其中，D_n是设备n的挖矿任务的数据大小。

设备n从小基站m下载挖矿任务结果的时间为：

其中，I_n是设备n的挖矿任务结果的数据大小。

设备n的挖矿任务在小基站m上的处理时间为：

设备n的挖矿时间为：

设备n的挖矿成本为：

设备n成功求解其挖矿任务，即PoW难题的概率为：

其中，N_i是将挖矿任务卸载到小基站i的设备数量，

是块的广播时间。

设备n成功挖矿的概率为：

H_n,m(k)＝δ_n,m(k)(1-θ_n,m)

设备n的挖矿奖励为：

其中，

设备n挖矿的效用为：

U_n,m(k)＝R_n,m(k)-C_n,m(k)

2.2)建立小基站带宽以及算力资源联合分配模型。

P:

s.t.C1:

C2:

C3:C_n,m≤G_n,

C4:

C5:

其中，

是所有小基站集合，

是小基站m的总算力。

是小基站m的总带宽。

C3保证每个设备的挖矿成本不超过其挖矿预算，其中

步骤3)：将步骤2)中的联合分配模型分解为两个子模型，分别为带宽分配子模型和算力分配子模型。

分解得到带宽分配子模型：

P1:

s.t.P中C2约束.

分解得到算力分配子模型：

P2:

s.t.P中C1,C3,C4,C5约束.

步骤4)：设计深度强化学习和粒子群优化算法结合的方法求解步骤3)中的带宽分配和算力分配子模型。

Step1：将P1进一步分解为多个子问题，每个小基站分别需要求解一个子问题，对于小基站m其需要解决的子问题为：

P3

s.t.

其中，

即

M是小基站的数量。每个小基站的状态

定义如下：

其中T_n＝(D_n,Y_n,G_n,I_n)是设备n卸载的挖矿任务，D_n是挖矿任务的数据大小，Y_n是完成设备n 的挖矿任务所需要的CPU周期数，G_n是设备n用于挖矿任务的预算，I_n是挖矿任务计算结果的数据大小，d_n,m是设备n到小基站m的距离，ρ_n,m是设备n的移动方向与设备n到小基站m 的向量之间的夹角，v_n是设备n的移动速度，SNR_n,m和SNR_m,n分别是设备n上传挖矿任务和下载挖矿任务结果时信道的信号噪声比，

和

a_m＝{f_n,m|n＝1,...,N_m,f_n,m∈[f_min,f_max]}

Step3：产生0-1之间的随机数

如果

其中，λ是一个常数参数。

图2为本发明设计的深度强化学习和粒子群优化算法结合的方法的收敛性，从图2中可以看出本发明设计的方法能够以可接受的速度达到收敛，当训练次数达到6000次左右，算法可以收敛。

图3为对于不同的设备数量，不同的解决方案所获得的所有设备的总效用。从图3中可以明显看出，无论移动设备数量如何变化，本发明设计的方法都会产生比其他方法更大的设备效用总和。

图4为对于不同的小基站总带宽，不同的解决方案所获得的所有设备的总效用。从图4 中可以看出，无论小基站的总带宽如何变化，本发明设计的方法都会产生比其他方法更大的设备效用总和。

图5为对于不同的小基站总算力，不同的解决方案所获得的所有设备的总效用。从图5 中可以明显的看出，无论小基站的总算力如何变化，本发明设计的方法都会产生比其他方法更大的设备效用总和。

图6为对于不同的在计算设备成功求解其挖矿任务概率时的算力重要性即α，不同的解决方案所获得的所有设备的总效用。从图6中可以看出，无论算力重要性如何变化，本发明设计的方法都会产生比其他方法更大的设备效用总和，并且当算力重要性变大时，所有方法获得的设备总效用都在减少，为了最大化所有设备总效用，我们将算力重要性取值0.1，即 α＝0.1。

图7为对于不同的在本发明设计方法的随机探索中采用粒子群优化的概率即ζ，不同的解决方案所获得的所有设备的总效用。从图7中可以明显的看出，当随机探索中采用粒子群优化的概率小于0.12时，本发明设计的方法所获得的总效用随着概率的增加而增加。当随机探索中采用粒子群优化的概率大于0.12时，本发明设计的方法所获得的总效用随着概率的增加而减少。为了最大化所有设备的总效用，我们将本发明设计方法的随机探索中采用粒子群优化的概率取值0.12，即ζ＝0.12。

以上的所述乃是本发明的具体实施以及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。

Claims

1.一种移动区块链中智能资源分配方法，其特征在于，步骤如下：

步骤1)：通过区块链和移动边缘计算技术建立用于在移动设备交易过程中保护其隐私和数据安全的移动区块链框架；该框架包含三个模块：移动区块链模块、任务卸载模块和决策制定模块；

1.1)移动区块链模块设计

移动区块链模块由移动设备组成；在移动区块链模块中，每个移动设备都配置区块链应用并且它们之间直接地进行交易不需要第三方机构参与；每个移动设备作为区块链中的矿工，随时地参与挖矿从而获得成功挖矿的奖励；

1.2)任务卸载模块设计

在挖矿过程中将挖矿任务即工作量证明卸载到其附近的小基站；小基站部署移动边缘计算服务器，并且每个小基站需要为向其请求服务的移动设备分配有限的算力和带宽；最后每个小基站需要立即将挖矿任务的计算结果返回给设备；

1.3)决策制定模块设计

决策制定模块中包含一个控制器；该控制器与各个小基站交互并且收集所有小基站以及其所连设备的信息，具体包括每个小基站的总算力、总带宽以及其连接的所有设备的挖矿任务信息；最后，控制器为每个小基站制定最佳的带宽和算力分配策略并立即将分配策略发送给各个小基站；

步骤2)：对系统中设备的效用进行建模，并建立小基站带宽以及算力资源联合分配模型；

2.1)抽象设备的效用

小基站的信道是有限状态的马尔可夫信道，并且当在决策时期k时，当设备n向小基站m上传挖矿任务时的信道信号噪声比为SNR_n,m(k)；当设备n从小基站m下载挖矿任务结果时的信道信号噪声比为SNR_m,n(k)；

设备n向小基站m上传挖矿任务的速率为：

其中，b_n,m是小基站m为设备n分配的带宽；

设备n从小基站m下载挖矿任务结果的速率为：

其中，b_n是设备n的带宽；

设备n向小基站m上传挖矿任务的时间为：

其中，D_n是设备n的挖矿任务的数据大小；

设备n从小基站m下载挖矿任务结果的时间为：

其中，I_n是设备n的挖矿任务结果的数据大小；

设备n的挖矿任务在小基站m上的处理时间为：

其中，Y_n是完成设备n的挖矿任务所需要的CPU周期数，f_n,m是小基站m为设备n分配的算力；

设备n的挖矿时间为：

设备n的挖矿成本为：

其中，∈是单位能量所对应的成本，E_n是设备n的发射功率，p_n,m是设备n对小基站m上的移动边缘计算服务器的单位时间租赁成本；

设备n成功求解其挖矿任务，即PoW难题的概率为：

其中，α和β分别是设备分配的算力和带宽对其求解挖矿任务重要性，M是小基站的数量，N_m是将挖矿任务卸载到小基站m的移动设备的数量，f_j,i(k)和b_j,i(k)分别是在决策时期k时小基站i为设备j分配的算力和带宽；

假设区块链中成功挖矿服从均值为t₀的泊松分布，则设备n挖出的块由于广播时间过长而成为孤儿块的概率为：

其中，N_i是将挖矿任务卸载到小基站i的设备数量，

是块的广播时间；

设备n成功挖矿的概率为：

H_n,m(k)＝δ_n,m(k)(1-θ_n,m)

设备n的挖矿奖励为：

其中，

是挖矿的固定奖励，ηD_n是挖矿的可变奖励，η是可变奖励中的常数参数，D_n是设备n的挖矿任务的数据大小，也就是块的大小；

设备n挖矿的效用为：

U_n,m(k)＝R_n,m(k)-C_n,m(k)

2.2)建立小基站带宽以及算力资源联合分配模型

P:

s.t.C1:

C2:

C3:

C4:

C5:

其中，

是决策变量，即所有设备分配的带宽集合和算力集合；K是决策时期的最大数量；

是所有小基站集合，

是小基站m的总算力；

是小基站m的总带宽；

C3保证每个设备的挖矿成本不超过其挖矿预算，其中

是将挖矿任务卸载到小基站m的所有设备的集合，G_n是设备n用于挖矿的预算；

是从上个成功挖出的块开始，设备n开始参与挖矿的时间间隔，Ω是区块链吞吐量的下限；

C5保证每个设备的挖矿任务都是由一个小基站完成，即在挖矿的过程中不存在小基站的切换，其中d_n,m是设备n距小基站m的距离，v_n是设备n的移动速度，ρ_n,m是设备n的移动方向与设备到小基站的向量之间的夹角，ω是小基站的通信范围半径；

步骤3)：将步骤2)中的联合分配模型分解为两个子模型，分别为带宽分配子模型和算力分配子模型；

分解得到带宽分配子模型：

P1:

s.t.P中C2约束.

分解得到算力分配子模型：

P2:

s.t.P中C1,C3,C4,C5约束.

步骤4)：设计深度强化学习与粒子群优化结合方法求解步骤3)中P1和P2子模型；

P3

其中，

通过对所有小基站子问题进行求解从而解得P1并获得所有设备的带宽分配；

Step2：控制器收集系统状态S_k并输入到深度确定性策略梯度方法中的演员网络来获得该状态所对应的动作A_k；其中，系统状态S_k包含每个小基站的状态

即

M是小基站的数量；每个小基站的状态

定义如下：

其中，T_n＝(D_n,Y_n,G_n,I_n)是设备n卸载的挖矿任务，D_n是挖矿任务的数据大小，Y_n是完成设备n的挖矿任务所需要的CPU周期数，G_n是设备n用于挖矿的预算，I_n是挖矿任务计算结果的数据大小，d_n,m是设备n到小基站m的距离，ρ_n,m是设备n的移动方向与设备n到小基站m的向量之间的夹角，v_n是设备n的移动速度，SNR_n,m和SNR_m,n分别是设备n上传挖矿任务和下载挖矿任务结果时信道的信号噪声比，

和

分别是小基站m的总算力和总带宽，N_m是将挖矿任务卸载到小基站m的移动设备的数量；

输出的动作A_k包含每个小基站的算力分配决策a_m，即A^k＝{a_m|m＝1,...,M}；每个小基站的算力分配决策a_m定义如下：

a_m＝{f_n,m|n＝1,...,N_m,f_n,m∈[f_min,f_max]}

其中，f_n,m是小基站m为设备n分配的算力，f_min和f_max分别是小基站为设备分配的算力的下界和上界；

Step3：产生0-1之间的随机数θ，如果θ大于等于贪婪策略中的参数∈，则输出动作A_k；否则如果随机探索中采用粒子群优化的概率ζ小于等于∈，则使用粒子群优化产生的改进动作替换动作A_k；否则使用随机动作替换动作A_k；

Step4：执行动作A_k，获得奖励R_k以及系统下一状态S_k+1，并将四元组(S_k,A_k,R_k,S_k+1)保存在深度确定性策略梯度算法中的经验回放缓存中；其中，奖励R_k定义如下：

其中，λ是一个常数参数；

Step5：定期地从经验回放缓存中选择小批次样本训练深度确定性策略梯度网络，并更新其演员在线网络和评论家在线网络的参数；

Step6：定期地使用‘软’更新策略来更新演员目标网络和评论家目标网络的参数；