CN108523768B

CN108523768B - 基于自适应策略优化的家庭清洁机器人控制系统

Info

Publication number: CN108523768B
Application number: CN201810199176.2A
Authority: CN
Inventors: 刘全; 徐进; 朱斐; 周小科
Original assignee: Suzhou University
Current assignee: Haibo Suzhou Robot Technology Co ltd
Priority date: 2018-03-12
Filing date: 2018-03-12
Publication date: 2020-09-18
Anticipated expiration: 2038-03-12
Also published as: CN108523768A

Abstract

本发明公开了一种基于自适应策略优化的家庭清洁机器人控制系统，包括传感系统、控制系统、清洁系统、驱动系统及电力系统，所述传感系统采集环境信息和电力系统信息，并将环境信息和电力系统信息传入控制系统，所述控制系统根据接收到的信息通过自适应策略控制方法来处理，并传递该控制信号到驱动系统和清洁系统。本发明通过在清洁机器人的控制系统中采用自适应策略优化方法，处理来自传感系统获取的环境信息，然后选择合适的行动，并利用传感系统传递控制系统的控制信号到驱动系统和清洁系统，使清洁机器人执行对应的行动来清洁家庭环境。

Description

基于自适应策略优化的家庭清洁机器人控制系统

技术领域

本发明属于人工智能以及控制技术领域，尤其涉及一种基于自适应策略优化的家庭清洁机器人控制系统，可以进行自我学习，完成对家庭清洁机器人的控制。

背景技术

多年来，人们对自主机器人的研究越来越感兴趣。自主机器人有着广泛的应用前景，例如家庭清洁机器人。随着生活水平的提高，越来越多的家庭开始依赖于智能家庭清洁机器人来负责家庭环境的清洁工作，来减少人为清洁工作，为家庭生活带来便捷。但是由于一般的智能家庭清洁机器人只能够对于训练好的环境进行简单的清洁工作，这一局限性限制了家庭清洁机器人应用到千家万户，赋予清洁机器人自我学习的能力变得越来越重要。具有自主学习能力的家庭清洁机器人可以在随着家庭环境的改变而调整自己的清洁策略，能够通过自我学习适应不同的家庭环境和随着时间而改变的家庭环境。具有自我学习能力的家庭清洁机器人是高度智能化的机器人，通过与外界环境交互而进行学习。机器人通过收集各个位置的传感器信息，利用深度强化学习技术来进行自我学习，在不同的环境中实现其感知和决策等功能。

现有的家庭清洁机器人控制方法，采用一种简单的、无法自我学习的控制方法。使用该控制策略的家庭机器人无法自主适应不同的家庭环境和随着时间而变化的家庭环境。在日常清洁过程中，只能简单的重复各种清洁操作，无法判断哪些区域已经清洁完成，哪些区域需要继续清洁。因此将消耗大量的时间和电能在重复的区域，执行重复的清洁操作，直接导致清洁的时间延长、清洁度下降等问题，同时大量的无用功，对机器本身的部件损耗较大，缩短了机器的使用寿命。

发明内容

本发明目的是：提供一种基于自适应策略优化的家庭清洁机器人控制系统，通过对控制方法的改良，能够更快的适应新的环境，保证策略更新的有效性，减少重复操作和无用功，自我学习能力可更快地、准确地完成清洁作业。

本发明的技术方案是：一种基于自适应策略优化的家庭清洁机器人控制系统，包括传感系统、控制系统、清洁系统、驱动系统及电力系统，所述传感系统采集环境信息和电力系统信息，并将环境信息和电力系统信息传入控制系统，所述控制系统根据接收到的信息通过自适应策略控制方法来处理，并传递该控制信号到驱动系统和清洁系统，其自适应策略控制方法包括如下步骤：

⑴通过传感系统获取环境信息，包括视觉环境信息和非视觉信息；

⑵根据所述步骤⑴中获取的环境信息，初始化神经网络参数，包括环境状态信息和奖赏信息，并初始化强化学习算法的各项参数；

⑶采用残差网络处理获取的环境信息，将高维度的环境视觉信息转换成低纬度的特征信息，低维度特征信息与所述非视觉信息作为策略网络和值网络的输入状态s_t；

⑷由策略网络控制机器人的行动，值网络评价行动的好坏：在状态s_t根据当前策略计算所采取的行动a_t，机器人执行行动a_t后，获得新的环境状态s_t+1和立即奖赏r_t，并通过值网络计算强化学习算法评价函数V(t)的值，用来评价行动a_t的好坏；

⑸更新策略网络与值网络的参数，采用Adam梯度下降更新方式更新参数；

所述策略网络损失函数L^π(θ)计算方式如下：

其中π_θ(a_t|s_t)表示新策略在状态s_t，选择行动 a_t的概率，π_θold(a_t|s_t)表示旧策略在状态s_t，选择行动a_t的概率，

表示优势值；

所述值网络的损失函数L^v(θ)的计算方式为：

其中V(t)为评价函数，

为梯度下降算法中的损失函数；

所述Adam梯度下降更新方式计算损失函数为：

其中 π_θ(a_t|s_t)/π_θold(a_t|s_t)的值采用自适应区间裁剪方法来计算，c₁和c₂是常数， S[π_θ](s_t)表示的是策略π_θ在状态s_t处的熵，

表示在未来时间步内获得的累积折扣奖赏，折扣因子γ(0≤γ≤1)；

⑹查看是否满足学习终止条件，若不满足，则返回到步骤4继续循环，否则结束。

上述技术方案中，所述自适应区间裁剪方法的计算过程为：首先计算一个裁剪边界[1-ε,1+ε]，其中

其中|·|表示绝对值，

表示优势值，V^targ(s_t)表示目标值，α表示正常数，防止分母为0；裁剪边界ε的值会随着

的值和V(s_t)的值的改变而自动变化，令 n＝π_θ(a_t|s_t)/π_θold(a_t|s_t)，n的值最终被裁剪到[1-ε,1+ε]区间范围内。

进一步的技术方案是，所述优势值

采用GAE方法计算：

其中δ_t＝r_t+γV(s_t+1)-V(s_t)，折扣因子γ (0≤γ≤1)。

上述技术方案中，所述步骤⑵中神经网络参数包括前馈网络和长短期记忆网络的权值和偏置。

上述技术方案中，所述步骤⑶中，采用153层残差网络处理经过简单裁剪的环境视觉信息，将高维度的环境视觉信息转换成低纬度的特征信息，所述残差网络的参数通过监督学习提前训练好，该部分参数在自我学习过程中不再进行更新。

上述技术方案中，所述步骤⑷中策略网络的熵损失计算方式为：

计算策略熵损失的目的是增加策略对环境的探索，其中 S[π_θ](s_t)表示策略π_θ在状态s_t的熵，总损失计算方式如下： Loss＝-L^π(θ)+c₁L^v(θ)+c₂L^entropy(θ)，c₁和c₂是常数。

上述技术方案中，所述传感系统获取的环境信息是：清洁机器人视野内的家庭环境信息和非视觉信息；所述执行动作a_t是：在当前状态下可以执行的操作集合，包括移动操作和清洁操作；所述立即奖赏r_t是：环境对在当前状态下机器人所采取的行动的评价，若机器人成功清理了家庭环境中的待清理物，则给一个+1的奖赏；若机器人在行进过程中撞到了家庭环境中的用具，则给一个-1的奖赏；若机器人在行走过程中既没有碰到障碍物，也没有遇到清理物，则给一个0的奖赏。

本发明的优点是：

1、能够有效处理具有连续动作空间的控制问题。

2、基于自适应近邻方法能够有效利用环境反馈的奖赏信息和评价网络计算出的值函数信息，计算出更为准确的近邻区间，能够有效提升机器人的自我学习能力，提高机器人在有效区域内的清扫作业。

3、采用长短期记忆网络，能够在部分可观测的环境和需要记忆以前环境状态信息的环境中学习到更好的策略，减少重复操作。

附图说明

下面结合附图及实施例对本发明作进一步描述：

图1是本发明实施例一的控制系统结构示意图；

图2是本发明实施例一中强化学习控制器结构示意图；

图3是本发明实施例一中策略网络和值网络结构示意图；

图4是本发明实施例一中残差网络结构示意图；

图5是本发明实施例一中残差单元结构示意图；

图6是本发明实施例一中自适应策略裁剪方法的示意图。

其中：1、传感系统；2、控制系统；3、清洁系统；4、驱动系统；5、电力系统。

具体实施方式

下面结合附图及实施例对本发明作进一步描述：

实施例：参见附图1～6所示，一种基于自适应策略优化的家庭清洁机器人控制系统，包括传感系统1、控制系统2、清洁系统3、驱动系统4及电力系统5，所述传感系统1采集环境信息和电力系统5信息，并将环境信息和电力系统5信息传入控制系统2，所述控制系统2根据接收到的信息通过自适应策略控制方法来处理，并传递该控制信号到驱动系统4和清洁系统3。其中：所述传感系统1的主要功能是采集环境信息和传输控制系统2的控制信号，传感系统1通过采集环境信息来感知机器人所处当前的环境，通过传输控制系统2的控制信号来控制机器人的移动、清洁或者补充电力。具体控制方法为：

假设在每个时间步t＝1,2,…，机器人的传感器系统观察马尔科夫决策过程的状态为s_t，控制系统选择行动a_t，获得环境反馈的立即奖赏r_t，并使系统转移到下一个状态s_t+1，转移概率为p(s_t,a_t,s_t+1)。强化学习系统中智能体的目标是学习到一个策略π，使得在未来时间步内获得的累积折扣奖赏

最大 (0≤γ≤1为折扣因子)，该策略即为最优策略。但是在现实环境中，环境的状态转移概率函数p和回报函数R未知。智能体要学习到最优策略，只有立即奖赏r_t可用，可以直接采用策略梯度方法优化策略函数和值函数。

本实施例中的强化学习控制系统基于“行动者/评论家”的结构。以传感器系统感知的环境真实状态作为控制系统的输入，控制系统输出为实际的行动，智能体的目的是寻找一个最优的控制策略，使得在未来时间步内所获得的期望累积折扣奖赏最大。策略网络选择行动，值网络评估行动的好与坏，采用TD(Temporal Difference)误差来计算损失，并通过随机梯度下降方法更新两者的网络参数，寻找最优策略。控制结构如图2所示。

仿真过程中，在不同的环境下，控制系统的网络结构相同，算法参数也采用同一套参数。回报函数的折扣因子γ＝0.99，采用153层残差网络用来处理视觉信息，残差网络的网络参数固定，残差网络产生的输出作为策略网络和值网络的输入，值网络和策略网络由两层隐藏层和一层输出层组成。在每次实验中，机器人所处的环境初始状态是一个随机的初始状态，机器人从随机的初始状态开始学习，若控制失败，则机器人则重新进行学习，直到机器人能够在多轮控制中达到甚至超越人类控制水平。控制系统的网络结构如图 3所示。

步骤1：获取机器人所处的环境信息。

本实施例所针对的是家庭清洁机器人在面对新环境时的自我学习能力。家庭清洁机器人传感器系统拥有视觉传感器和非视觉传感器以及执行相应操作的必要硬件设备等。家庭清洁机器人通过传感器获取环境的视觉信息和非视觉信息，并且通过传感器控制机器人的行动。

步骤2：获取机器人所处初始环境状态信息和奖赏信息等，并初始化算法的参数。

初始化控制系统中的神经网络参数和强化学习算法参数，其中神经网络参数包括前馈网络和长短期记忆网络的权值和偏置。

步骤3：对于环境反馈的视觉信息进行处理。

通过传感系统(包括视觉传感系统和非视觉传感系统)感知机器人所处的状态。采用153层残差网络处理经过简单裁剪的环境视觉信息，将高维度的环境视觉信息转换成低纬度的特征信息。低维度特征信息与传感器感知的非视觉信息作为策略网络和值网络的输入状态s_t。其中残差网络的参数通过监督学习提前训练好，该部分参数在自我学习过程中不再进行更新。残差网络结构如图4和图5所示。

步骤4：由策略网络控制机器人的行动，值网络评价行动的好坏。

机器人在与环境交互后，获得环境反馈的状态信息、奖赏信息等。环境反馈的高维视觉信息经过步骤3处理，产生一个输出，并结合其它非视觉信息，作为策略网络和值网络的第一层隐藏层的输入，激活函数为tanh函数。在状态s_t根据当前策略计算所采取的行动a_t，机器人执行行动a_t后，获得新的环境状态s_t+1和立即奖赏r_t。并通过值网络计算强化学习算法评价函数V(t)的值，用来评价行动a_t的好坏。

策略网络由一层全连接层和一层长短期记忆网络层组成，策略网络的输入是经过步骤3处理之后的环境状态信息。策略网络利用长短期记忆网络模块的记忆能力，记忆机器人经历过的环境状态信息。对于给定状态s_t，策略网络利用这些被记忆的环境信息，能够做出更准确的行动选择。

值网络由一层全连接层和一层长短期记忆网络层组成，值网络的输入与策略网络的输入相同。值网络通过长短期记忆网络模块的记忆能力，利用以前的状态信息，对于当前状态的回报函数做出更准确的计算。

步骤5：更新控制系统的策略网络参数和值网络参数。

机器人通过步骤4的方式不断与环境进行交互，采样一批样本用来更新策略网络和值网络。具体更新方式如下：

策略网络损失函数L^π(θ)的计算方式为：

其中π_θ(a_t|s_t)表示新策略在状态s_t，选择行动a_t的概率；π_θold(a_t|s_t)表示旧策略在状态s_t，选择行动a_t的概率；

表示优势值，采用GAE(Generalized Advantage Estimation)方法计算，GAE计算优势值的方式为：

其中δ_t＝r_t+γV(s_t+1)-V(s_t)。π_θ(a_t|s_t)/π_θold(a_t|s_t)用来衡量新旧策略之间的差异，采用一种自适应区间裁剪方法来计算。该裁剪目的是为了约束新旧策略之间的差异。值网络的损失函数L^v(θ)的计算方式为：

策略的熵损失计算方式为：

计算策略熵损失的目的是增加策略对环境的探索，其中S[π_θ](s_t)表示策略π_θ在状态s_t的熵。总损失计算方式如下：Loss＝-L^π(θ)+c₁L^v(θ)+c₂L^entropy(θ)，采用Adam (Adaptive MomentEstimation)梯度下降方法来更新神经网络的参数。

自适应区间裁剪计算过程为：首先计算一个裁剪边界[1-ε,1+ε]，其中

其中|·|表示绝对值，

表示优势值，V^targ(s_t)表示目标值，α表示较小的正常数，用来防止分母为0。裁剪边界ε的值会随着

的值和V(s_t)的值的改变而自动变化。令n＝π_θ(a_t|s_t)/π_θold(a_t|s_t)，自适应裁剪过程如图6所示。n的值最终被裁剪到[1-ε,1+ε]区间范围内。

采用所述更新方式更新策略网络和值网络的参数后，策略网络利用更新后的策略在给定环境状态下，选择更加正确的行动，用来产生更高的回报值。

步骤6：查看控制结果

查看是否满足学习终止条件，若不满足，则返回到步骤4继续循环。否则结束算法。

在真实环境中，机器人的初始状态初始化为机器人所处位置的环境状态，机器人所处位置是一个随机位置。清洁机器人的控制系统通过处理环境的状态和反馈信息来对机器人下一步需要采取的行动做出决策，并利用这些数据更新决策网络和评价网络，直到机器人遇到终止状态，则机器人重新进行学习。机器人在环境中执行100个情节(情节设定为有限长度)，若平均表现不比人类表现差，则判定学习成功，若平均表现比人类差，则判定失败。

本实施例中，残差网络的作用是处理传感系统获取的高维视觉信息。残差网络由四类共50个残差块组成，残差块由三层卷积网组成，分别是1×1， 3×3和1×1的卷积核，在3×3卷积核前后接1×1卷积核的目的是减少网络参数数量。在第一层和最后一层卷积层之后分别使用最大池化和平均池化的作用是使抽取到的特征具有平移旋转不变性等泛化能力和降低特征图的大小但不改变特征图的数量，减少数据的维度，进一步减少计算量。

由于视觉信息处理网络结构层次较深，采用普通的卷积网络堆叠，会随着网络层数的增加出现严重的梯度消失问题，所以我们使用残差网络来缓解梯度消失问题。残差网络中每一层的卷积核大小、通道数和输出大小在图4 中展示了详细内容。

策略网络由两层隐藏层和一层输出层组成，隐藏层包含一层全连接层和一层长短期记忆网络层，全连接层采用64个神经元和tanh激活函数，长短期记忆网络层采用64个LSTM单元。输出层的神经元个数为动作空间的维度。值网络由两层隐藏层和一层输出层组成，隐藏层包含一层全连接层和一层长短期记忆网络层，全连接层采用64个神经元和tanh激活函数，长短期记忆网络层采用64个LSTM单元。输出层包含一个神经元。

所述步骤3中，状态、行动和立即奖赏定义为：

状态：传感系统感知的环境状态为清洁机器人视野内的家庭环境信息和其它非视觉信息。

行动：行动是在当前状态下可以执行的操作集合，本实例中行动分为控制机器人的移动和清洁，其中移动操作是一种连续动作空间控制，清洁操作是一种离散动作空间控制。

立即奖赏：立即奖赏是环境对在当前状态下机器人所采取的行动的评价。本实施例中奖赏函数定义为：若机器人成功清理了家庭环境中的待清理物，则给一个+1的奖赏；若机器人在行进过程中撞到了家庭环境中的用具，则给一个-1的奖赏；若机器人在行走过程中既没有碰到障碍物，也没有遇到清理物，则给一个0的奖赏。

本实施例中，策略网络和值网络均包含长短期记忆网络层且均有64个长短期记忆单元。长短期记忆网络相比于普通的全连接网络，能够处理序列状态之间在不同时间尺度存在依赖关系的任务，是由于长短期记忆网络中的循环链接允许网络每一层访问先前的状态信息。长短期记忆网络通过输入门、输出门、遗忘门以及记忆单元来控制信息在网络中的流通以达到记忆以前环境信息的目的。长短期记忆网络单元的遗忘门的计算方式为： f_t ^j＝σ(W_fx_t+U_fh_t-1+V_fc_t-1)^j，其中j表示第j个LSTM单元，σ表示sigmoid非线性函数，f_t ^j表示t时间步第j个LSTM单元的遗忘门的输出，W_f、U_f、V_f表示的是LSTM单元遗忘门的参数，x_t表示t时间步的输入数据，h_t-1表示t-1时间步 LSTM单元的输出值，c_t-1表示在t-1时间步LSTM单元的记忆单元的输出值。输入门的计算方式为：

其中

表示t时间步第j个LSTM 单元的输入门的输出，W_i、U_i、V_i表示LSTM单元输入门的参数。新的记忆上下文计算方式为：

其中

表示新的记忆上下文，W_c、U_c表示记忆上下文的参数，tanh表示tanh非线性函数。根据输入门的输出

遗忘门的输出f_t ^j、记忆上下文

以及上一个时间步的记忆单元的内容

可以计算更新记忆单元的内容

计算公式为：

由

和

可以得到LSTM单元的输出门的计算公式为：

LSTM单元最终的输出为

计算公式为：

在本实施例中，根据清洁机器人与家庭环境交互，通过强化学习方法的计算，获得清洁机器人在不同环境下的清洁策略，以使清洁机器人能够自主适应千家万户的环境以及同一个家庭环境随着时间而改变的环境。

Claims

1.一种基于自适应策略优化的家庭清洁机器人控制方法，包括传感系统、控制系统、清洁系统、驱动系统及电力系统，所述传感系统采集环境信息和电力系统信息，并将环境信息和电力系统信息传入控制系统，所述控制系统根据接收到的信息通过自适应策略控制方法来处理，并传递该控制信号到驱动系统和清洁系统，其自适应策略控制方法包括如下步骤：

⑶采用残差网络处理获取的环境信息，将高维度的环境视觉信息转换成低维度的特征信息，低维度特征信息与所述非视觉信息作为策略网络和值网络的输入状态s_t；

所述策略网络损失函数L^π(θ)计算方式如下：

其中π_θ(a_t|s_t)表示新策略在状态s_t，选择行动a_t的概率，π_θold(a_t|s_t)表示旧策略在状态s_t，选择行动a_t的概率，

表示优势值；

所述值网络的损失函数L^v(θ)的计算方式为：

其中V(t)为评价函数，

为梯度下降算法中的损失函数；

所述Adam梯度下降更新方式计算损失函数为：

其中π_θ(a_t|s_t)/π_θold(a_t|s_t)的值采用自适应区间裁剪方法来计算，c₁和c₂是常数，S[π_θ](s_t)表示的是策略π_θ在状态s_t处的熵，

⑹查看是否满足学习终止条件，若不满足，则返回到步骤⑷继续循环，否则结束；

所述自适应区间裁剪方法的计算过程为：首先计算一个裁剪边界[1-ε,1+ε]，其中

其中|·|表示绝对值，

的值和V(s_t)的值的改变而自动变化，令n＝π_θ(a_t|s_t)/π_θold(a_t|s_t)，n的值最终被裁剪到[1-ε,1+ε]区间范围内。

2.根据权利要求1所述的基于自适应策略优化的家庭清洁机器人控制方法，其特征在于：所述优势值

采用GAE方法计算：

其中δ_t＝r_t+γV(s_t+1)-V(s_t)，折扣因子γ(0≤γ≤1)。

3.根据权利要求1所述的基于自适应策略优化的家庭清洁机器人控制方法，其特征在于：所述步骤⑵中神经网络参数包括前馈网络和长短期记忆网络的权值和偏置。

4.根据权利要求1所述的基于自适应策略优化的家庭清洁机器人控制方法，其特征在于：所述步骤⑶中，采用153层残差网络处理经过简单裁剪的环境视觉信息，将高维度的环境视觉信息转换成低维度的特征信息，所述残差网络的参数通过监督学习提前训练好，该部分参数在自我学习过程中不再进行更新。

5.根据权利要求1所述的基于自适应策略优化的家庭清洁机器人控制方法，其特征在于：所述步骤⑷中策略网络的熵损失计算方式为：

计算策略熵损失的目的是增加策略对环境的探索，其中S[π_θ](s_t)表示策略π_θ在状态s_t的熵，总损失计算方式如下：Loss＝-L^π(θ)+c₁L^v(θ)+c₂L^entropy(θ)，c₁和c₂是常数。

6.根据权利要求1所述的基于自适应策略优化的家庭清洁机器人控制方法，其特征在于：所述传感系统获取的环境信息是：清洁机器人视野内的家庭环境信息和非视觉信息；所述执行动作a_t是：在当前状态下可以执行的操作集合，包括移动操作和清洁操作；所述立即奖赏r_t是：环境对在当前状态下机器人所采取的行动的评价，若机器人成功清理了家庭环境中的待清理物，则给一个+1的奖赏；若机器人在行进过程中撞到了家庭环境中的用具，则给一个-1的奖赏；若机器人在行走过程中既没有碰到障碍物，也没有遇到清理物，则给一个0的奖赏。