CN116533256A

CN116533256A - 一种基于深度强化学习的多智能机器人通信控制仪器

Info

Publication number: CN116533256A
Application number: CN202211649996.XA
Authority: CN
Inventors: 曹艺之; 韦文书; 张文宇; 彭健; 李洋; 张逸然; 许元男; 王文海; 李彬; 刘兴高
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-12-21
Filing date: 2022-12-21
Publication date: 2023-08-04

Abstract

本发明公开了一种基于深度强化学习的多智能机器人通信控制仪器，该仪器由智能机器人、数据库和上位机构成。多智能机器人通过传感器和GPS定位系统获得环境信息、自身状态位置，将得到数据存储到所述数据库中。所述的上位机包括数据预处理模块、信息编码模块、通信模块、模型训练模块、模型更新模块以及结果显示模块。本发明利用多智能体深度强化学习算法控制多智能机器人行动，速度快，精度高，稳定性强，并且本发明首次提出的注意力通信网络利用每个智能机器人的状态训练模型，考虑到了全局运动特征，能够明显提高多智能机器人控制精度和稳定性。本发明提供了一种智能性强的多智能机器人通信控制仪，为多智能机器人控制技术带来显著增效。

Description

一种基于深度强化学习的多智能机器人通信控制仪器

技术领域

本发明涉及深度学习领域和强化学习领域，特别地，涉及一种基于深度强化学习的多智能机器人通信控制技术，是多智能机器人的新控制仪器。

背景技术

人工智能技术和机器学习算法的发展，在自动控制领域发挥了关键的作用，其中强化学习是机器学习的重要分支，它描述和解决智能体在与环境的交互过程中以最大化奖励为目标来不断更新自身策略的问题。近年来，随着科技的发展，计算能力与存储能力得到极大提高，并且深度学习在诸多领域中了取得极大的成就。深度学习和强化学习的结合就在此背景下应运而生，产生了深度强化学习。多智能体系统是在同一个环境中由多个交互智能体组成的系统，多用于解决复杂环境中由有大规模控制对象的问题。深度强化学习的发展促进了多智能体领域的发展，将深度强化学习算法和多智能体系统结合在一起产生了多智能体深度强化学习。

在机器人技术中，强化学习对于使机器人能够为自己创建一个高效的自适应控制系统至关重要，它可以从自己的经验和行为中学习。强化学习在智能机器人控制方面具有较大的优势，因为强化学习算法无需预先给定模拟数据，对于数据集样本容量的要求也较低，因此具有更好的适用性。但是现有的多智能机器人集群控制算法稳定性差，精确度低，无法完成最优路径规划、实时动作控制等任务。因此，对于多智能机器人控制，探究稳定性更好、精确度更高的控制方法有着重要的实际价值以及理论意义，也是国内外多智能机器人的难点和热点。

发明内容

为了克服目前多智能机器人控制稳定性差，精确度低的不足，本发明的目的在于提供一种控制能力强，智能性高的基于深度强化学习的多智能机器人通信控制仪器。

本发明解决其技术问题所采用的技术方案是：

一种基于深度强化学习的多智能机器人通信控制仪器，该仪器由通信模块、数据库和上位机构成，通信模块、数据库和上位机依次相连，构成一个完整的控制仪器。其特征在于，多智能机器人观测数据的获取过程按如下步骤进行：

1)在仿真环境中使用多智能机器人传感器和GPS系统得到周围环境数据和自身数据，其中环境数据用s表示，自身观测用o_i表示，自身动作用a_i表示，将观测数据与动作数据列为一个组合，即

p_i＝(o_i，a_i)

其中，p_i为第i个智能机器人观测动作对；

2)在仿真环境中执行每个智能机器人的动作得到及时反馈值r_i和下一时刻的观测o′_i，将反馈值和下一时刻观测与观测动作对组合为一条经验x_i

x_i＝(o_i，a_i，r_i，o′_i)

其中，x_i为第i个智能机器人的历史经验；

3)把多智能机器人的历史经验数据存储到所述控制仪的数据库中，数据库中的历史经验数据供上位机调用；

基于深度强化学习的多智能机器人通信控制仪器中的上位机，其特征在于，所述上位机包括：

4)数据预处理模块，用于对数据库中的数据进行预处理，采用如下过程完成：

4.1)数据库中采集样本大小为b的N个智能机器人的历史经验数据得到训练样本集X_b

X_b＝{x₁，x₂，...，x_N}

其中，x_i为每个智能机器人的历史经验；

4.2)将每个智能机器人的经验按类别分为一组，即

o_b＝{o₁，o₂，...，o_N}

a_b＝{a₁，a₂，...，a_N}

r_b＝{r₁，r₂，...，r_N}

o′_b＝{o′₁，o′₂，...，o′_N}

(o_b，a_b，r_b，o′_b)即为得到的经过预处理模块预处理的多智能机器人数据，下标b表示该条数据是从采样样本中得到的；

5)信息编码模块，用于对经过预处理的多智能机器人数据进行编码，得到输入神经网络的输入数据，采用如下过程完成：

5.1)对于步骤4.2)中得到的多智能机器人数据，分割出其中的o_b数据；

5.2)对o_b数据中的每个观测信息o_i进行编码，编码过程按如下步骤进行：

5.3)搭建全连接层，其中输入维度为每个智能机器人的观测维度，输出维度为编码器长度即64，选择ReLu激活函数作为神经网络激活函数；

5.4)每个观测信息o_i输入到编码器f中得到各自的观测编码e_i，进一步提取观测信息的特征

其中，θ_e是编码器的神经网络参数；

通信模块，用于利用编码后得到的观测编码在多智能机器人中通信，采用如下过程完成：

6)搭建通信模块，通信模块由一个GRU单元和一个全连接层组成；

6.1)GRU单元的输入是每个智能机器人的观测编码e_i，隐含层神经元数量为32。全连接层的输入是GRU单元的输出特征，大小是隐含层维度32，输出为整合信息记为h_i；

其中，θ_c是通信模块的神经网络参数，GRU模块参数少，模型小，容易部署。本发明上述新颖的信息编码模块和通信模块能够提取更多的多智能机器人观测信息特征，增强了智能机器人行为可解释性，算法速度更快、精度更高。

6.2)将每个智能机器人的整合信息整理为h_b＝{h₁，h₂，...，h_N}，作为模型训练的训练数据集；

模型训练模块，用于通过通信模块后得到的整合信息h_b表示的训练样本集训练深度强化学习算法，采用如下过程完成：

6.3)搭建多智能体深度强化学习算法框架，即多智能体深度确定性策略梯度算法(MADDPG)，训练过程按如下步骤进行：

6.4)初始化每个智能机器人的Critic网络和Actor网络的权值和偏置值；

6.5)将训练样本集h_b＝{h₁，h₂，...，h_N}和观测数据集o_b＝{o₁，o₂，...，o_N}输入到模型训练模块中，首先通过Actor网络得到每个智能机器人当前时刻的动作其中i表示智能机器人编号，t表示当前时刻

其中μ_θ是由θ参数化的Actor网络，表示当前时刻智能机器人i的观测数据，/>表示当前时刻智能机器人i的整合信息数据；

6.6)得到每个智能机器人当前时刻的动作后，将当前时刻智能机器人i的观测和动作一起输入到Critic网络中，得到每个智能机器人在不同时刻的q值

其中是由/>参数化的Critic网络，/>表示除当前智能机器人外的智能机器人采取的动作，/>可以从数据库中存储的历史经验得到；

6.7)重复步骤6.5)-6.6)直至采样样本中每个智能机器人的历史经验数据都得到了对应时刻的Q值；

6.8)从采样样本中得到历史经验数据，通过贝尔曼方程计算目标Q值，

其中，yt是当前时刻t的目标Q值，是当前时刻智能机器人i的奖励值，γ是折扣因子，下标t+1表示下一时刻，/>和/>是网络参数不同结构相同的神经网络，选择神经网络输出值更小的Q值来作为目标Q值的计算依据，重复11.5)直至智能机器人得到每个时刻的目标Q值；

所述模型训练模块中Critic函数的损失函数Loss为均方差损失函数

其中MSE表示均方差，o_t是智能机器人当前观测，a_t是智能机器人当前动作，所述模型训练模块中Actor函数的损失函数为

a_t＝μ_θ(o_t)

其中是由/>参数化的Critic网络，μ_θ是由θ参数化的Actor网络，o_t是智能机器人当前观测，a_t是智能机器人当前动作；

7)模型更新模块，用于评估模型训练模块得到的多智能体深度强化学习算法的效果，采用如下过程完成：

在仿真环境中，多智能机器人通过多智能体深度强化学习算法执行动作，与环境交互得到反馈值，将该条经验上传到数据库中，如果数据库中存在与之相同的历史经验，则比较反馈值大小，若新反馈值大则通过训练模块提高执行动作的概率，反之则减小执行动作的概率。如果数据库中不存在相同的历史经验，则存储在数据库中并通过多智能体深度强化学习算法计算O值，更新数据库；

8)结果显示模块：用于将多智能机器人的运动过程在上位机进行显示，采用如下过程完成：

在仿真环境中运行多智能机器人运动程序，将多智能机器人执行结果显示在上位机的屏幕上。

本发明的技术构思为：多智能机器人通过所载传感器获取观测数据，对观测数据进行预处理和信息编码，并用处理后的数据训练深度强化学习算法，建立多智能体通信控制模型，实现多智能机器人的通信控制。

本发明的有益效果主要表现在：1、利用信息编码模块提取更多的多智能机器人观测信息特征，增强智能机器人行为可解释性，算法速度更快、精度更高；2、利用通信模块在多智能机器人中传递信息，提高多智能机器人的合作能力，使控制更稳定。

附图说明

图1是本发明提出的控制仪的功能模块图；

图2是用于解释本发明所提出的多智能体深度强化学习通信算法的流程图。

具体实施方式

下面根据附图具体说明本发明。

仪器由智能机器人、数据库和上位机构成，智能机器人、数据库和上位机依次相连，构成一个完整的控制仪器。首先是智能机器人部件，其特征在于，多智能机器人观测数据的获取过程按如下步骤进行：

p_i＝(o_i，a_i)

其中，p_i为第i个智能机器人观测动作对；

x_i＝(o_i，a_i，r_i，o′_i)

其中，下标i表示第i个智能机器人；

3)把多智能机器人的历史经验数据存储到所述控制仪的数据库部件2中，数据库部件中的历史经验数据供上位机部件调用；

然后是上位机部件，图1为所述识别仪的上位机的功能模块示意图，所述上位机部件包括六个子部件，即数据预处理模块3、信息编码模块4、通信模块5、模型训练模块6、模型更新模块8和结果显示模块7：

子部件一，数据预处理模块3，用于对数据库中的数据进行预处理，采用如下过程完成：

1)数据库中采集样本大小为b的N个智能机器人的历史经验数据得到训练样本集X_b

X_b＝{x₁，x₂，...，x_N}

其中，x_i为每个智能机器人的历史经验；

2)将每个智能机器人的经验按类别分为一组，即

o_b＝{o₁，o₂，...，o_N}

a_b＝{a₁，a₂，...，a_N}

r_b＝{r₁，r₂，...，r_N}

o′_b＝{o′₁，o′₂，...，o′_N}

子部件二，信息编码模块4，用于对经过预处理的多智能机器人数据进行编码，得到输入神经网络的输入数据，采用如下过程完成：

1)对于数据预处理模块中得到的多智能机器人数据，分割出其中的o_b数据；

2)对o_b数据中的每个观测信息o_i进行编码，编码过程按如下步骤进行：

3)搭建全连接层，其中输入维度为每个智能机器人的观测维度，输出维度为编码器长度即64，选择ReLu激活函数作为神经网络激活函数；

4)每个观测信息o_i输入到编码器f中得到各自的观测编码e_i

其中，θ_e是编码器的神经网络参数；

子部件三，通信模块5，用于利用编码后得到的观测编码在多智能机器人中通信，采用如下过程完成：

搭建通信模块，通信模块由一个GRU单元和一个全连接层组成；

1)GRU单元的输入是每个智能机器人的观测编码e_i，隐含层神经元数量为32。全连接层的输入是GRU单元的输出特征，大小是隐含层维度32，输出为整合信息记为h_i；

2)将每个智能机器人的整合信息整理为h_b＝{h₁，h₂，...，h_N}，作为模型训练的训练数据集；

子部件四，模型训练模块6，用于通过通信模块后得到的整合信息h_b表示的训练样本集训练深度强化学习算法，采用如下过程完成：

3)搭建多智能体深度强化学习算法框架，即多智能体深度确定性策略梯度算法(MADDPG)，训练过程按如下步骤进行：

4)初始化每个智能机器人的Critic网络和Actor网络的权值和偏置值；

5)将训练样本集h_b＝{h₁，h₂，...，h_N}和观测数据集o_b＝{o₁，o₂，...，o_N}输入到模型训练模块中，首先通过Actor网络得到每个智能机器人当前时刻的动作其中i表示智能机器人编号，t表示当前时刻

6)得到每个智能机器人当前时刻的动作后，将当前时刻智能机器人i的观测和动作一起输入到Critic网络中，得到每个智能机器人在不同时刻的q值

7)重复步骤5)-6)直至采样样本中每个智能机器人的历史经验数据都得到了对应时刻的Q值；

8)从采样样本中得到历史经验数据，通过贝尔曼方程计算目标Q值，

a_t＝μ_θ(o_t)

其中是由/>参数化的Critic网络，μ_θ是由θ参数化的Actor网络，o_t是智能机器人当前观测，a_t是智能机器人当前动作，图2为本发明所提出的多智能体深度强化学习通信算法的流程图；

子部件五，模型更新模块8，用于评估模型训练模块得到的多智能体深度强化学习算法的效果，采用如下过程完成：

在仿真环境中，多智能机器人通过多智能体深度强化学习算法执行动作，与环境交互得到反馈值，将该条经验上传到数据库中，如果数据库中存在与之相同的历史经验，则比较反馈值大小，若新反馈值大则通过训练模块提高执行动作的概率，反之则减小执行动作的概率。如果数据库中不存在相同的历史经验，则存储在数据库中并通过多智能体深度强化学习算法计算Q值，更新数据库；

子部件六，结果显示模块7：用于将多智能机器人的运动过程在上位机进行显示，采用如下过程完成：

所述上位机的硬件部分由以下部分组成：程序存储器，用于存储各个模块的实现程序；数据存储器，用于存储激光雷达采集到的数据样本以及神经网络各项参数和超参数；运算器，用于执行程序，实现相应功能；I/O元件，用于采集数据和进行信息的传递；显示模块，用于将模型训练结果和目标识别结果在上位机进行显示。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于深度强化学习的多智能机器人通信控制仪器，它由依次相连的智能机器人、数据库和上位机构成；多智能机器人通过传感器和GPS定位系统获得环境信息、自身状态位置，并存储到所述数据库中，供上位机使用。上位机从数据库中调取数据，将数据送到其各个模块中进行操作。上位机包括：数据预处理模块，用于对数据库中的数据进行预处理；信息编码模块，用于将用于对经过数据预处理模块预处理后的多智能机器人观测数据进行编码，得到输入到神经网络中的输入数据；通信模块，将每个智能机器人的观测信息进行整合；模型训练模块，用于利用信息编码模块编码后得到的数据训练深度强化学习算法；结果显示模块，用于将多智能机器人行动在上位机进行显示。

2.根据权利要求1所述的一种基于深度强化学习的多智能机器人通信控制仪器，其特征在于，所述多智能机器人通过传感器和GPS定位系统获得环境信息、自身状态位置，并存储到所述数据库中，按如下步骤进行：

(1.1)在仿真环境中使用多智能机器人传感器和GPS系统得到周围环境数据和自身数据，其中环境数据用s表示，自身观测用o_i表示，自身动作用a_i表示，将观测数据与动作数据列为一个组合，即

p_i＝(o_i,a_i)

其中，p_i为第i个智能机器人观测动作对；

(1.2)在仿真环境中执行每个智能机器人的动作得到及时反馈值r_i和下一时刻的观测o′_i，将反馈值和下一时刻观测与观测动作对组合为一条经验x_i

x_i＝(o_i,a_i,r_i,o′_i)

其中，x_i为第i个智能机器人的历史经验；

(1.3)把多智能机器人的历史经验数据存储到所述控制仪的数据库中，数据库中的历史经验数据供上位机调用。

3.如权利要求2所述的一种基于深度强化学习的多智能机器人通信控制仪器，其特征在于，所述数据预处理模块的工作过程包括以下步骤：

(2.1)数据库中采集样本大小为b的N个智能机器人的历史经验数据得到训练样本集X_b

X_b＝{x₁,x₂,…,x_N}

其中，x_i为每个智能机器人的历史经验；

(2.2)将每个智能机器人的经验按类别分为一组，即

o_b＝{o₁,o₂,…,o_N}

a_b＝{a₁,a₂,…,a_N}

r_b＝{r₁,r₂,…,r_N}

o′_b＝{o′₁,o′₂,…,o′_N}

(o_b,a_b,r_b,o′_b)即为得到的经过预处理模块预处理的多智能机器人数据，下标b表示该条数据是从采样样本中得到的。

4.如权利要求3所述的一种基于深度强化学习的多智能机器人通信控制仪器，其特征在于，所述信息编码模块的工作过程包括以下步骤：

(3.1)对于步骤(2.2)中得到的多智能机器人数据，分割出其中的o_b数据；

(3.2)对o_b数据中的每个观测信息o_i进行编码，编码过程按如下步骤进行：

(3.2.1)搭建全连接层，其中输入维度为每个智能机器人的观测维度，输出维度为编码器长度即64，选择ReLu激活函数作为神经网络激活函数；

(3.2.2)每个观测信息o_i输入到编码器f中得到各自的观测编码e_i，进一步提取观测信息的特征：

其中，θ_e是编码器的神经网络参数。

5.如权利要求4所述的一种基于深度强化学习的多智能机器人通信控制仪器，其特征在于，所述通信模块由一个GRU单元和一个全连接层组成；其中，GRU单元的输入是每个智能机器人的观测编码e_i，隐含层神经元数量为32。全连接层的输入是GRU单元的输出特征，大小是隐含层维度32，输出为整合信息记为h_i；

其中，θ_c是通信模块的神经网络参数，将每个智能机器人的整合信息整理为h_b＝{h₁,h₂,...,h_N}，作为模型训练的训练数据集。

6.如权利要求5所述的一种基于深度强化学习的多智能机器人通信控制仪器，其特征在于，所述模型训练模块的工作过程包括以下步骤：

(4.1)初始化每个智能机器人的Critic网络和Actor网络的权值和偏置值；

(4.2)将训练样本集h_b＝{h₁,h₂,...,h_N}和观测数据集o_b＝{o₁,o₂,…,o_N}输入到模型训练模块中，首先通过Actor网络得到每个智能机器人当前时刻的动作其中i表示智能机器人编号，t表示当前时刻：

(4.3)得到每个智能机器人当前时刻的动作后，将当前时刻智能机器人i的观测/>和动作/>一起输入到Critic网络中，得到每个智能机器人在不同时刻的q值

(4.4)重复步骤11.2)-11.3)直至采样样本中每个智能机器人的历史经验数据都得到了对应时刻的Q值；

(4.5)从采样样本中得到历史经验数据，通过贝尔曼方程计算目标Q值，

其中，y_t是当前时刻t的目标Q值，是当前时刻智能机器人i的奖励值，γ是折扣因子，下标t+1表示下一时刻，/>和/>是网络参数不同结构相同的神经网络，选择神经网络输出值更小的Q值来作为目标Q值的计算依据，重复11.5)直至智能机器人得到每个时刻的目标Q值。

7.如权利要求6所述的一种基于深度强化学习的多智能机器人通信控制仪器，其特征在于，所述Critic函数的损失函数Loss为均方差损失函数：

其中MSE表示均方差，o_t是智能机器人当前观测，a_t是智能机器人当前动作，所述模型训练模块中Actor函数的损失函数为：

at＝_θ(ot)

其中是由/>参数化的Critic网络，μ_θ是由θ参数化的Actor网络，o_t是智能机器人当前观测，a_t是智能机器人当前动作。

8.如权利要求1所述的一种基于深度强化学习的多智能机器人通信控制仪器，其特征在于，所述上位机还包括模型更新模块，用于评估模型训练模块得到的多智能体深度强化学习算法的效果，它的工作过程为：在仿真环境中，多智能机器人通过多智能体深度强化学习算法执行动作，与环境交互得到反馈值，将该条经验上传到数据库中，如果数据库中存在与之相同的历史经验，则比较反馈值大小，若新反馈值大则通过训练模块提高执行动作的概率，反之则减小执行动作的概率。如果数据库中不存在相同的历史经验，则存储在数据库中并通过多智能体深度强化学习算法计算Q值，更新数据库。