CN108523768B - 基于自适应策略优化的家庭清洁机器人控制系统 - Google Patents

基于自适应策略优化的家庭清洁机器人控制系统 Download PDF

Info

Publication number
CN108523768B
CN108523768B CN201810199176.2A CN201810199176A CN108523768B CN 108523768 B CN108523768 B CN 108523768B CN 201810199176 A CN201810199176 A CN 201810199176A CN 108523768 B CN108523768 B CN 108523768B
Authority
CN
China
Prior art keywords
network
information
value
robot
environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810199176.2A
Other languages
English (en)
Other versions
CN108523768A (zh
Inventor
刘全
徐进
朱斐
周小科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Haibo Suzhou Robot Technology Co ltd
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201810199176.2A priority Critical patent/CN108523768B/zh
Publication of CN108523768A publication Critical patent/CN108523768A/zh
Application granted granted Critical
Publication of CN108523768B publication Critical patent/CN108523768B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A47FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
    • A47LDOMESTIC WASHING OR CLEANING; SUCTION CLEANERS IN GENERAL
    • A47L11/00Machines for cleaning floors, carpets, furniture, walls, or wall coverings
    • AHUMAN NECESSITIES
    • A47FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
    • A47LDOMESTIC WASHING OR CLEANING; SUCTION CLEANERS IN GENERAL
    • A47L11/00Machines for cleaning floors, carpets, furniture, walls, or wall coverings
    • A47L11/40Parts or details of machines not provided for in groups A47L11/02 - A47L11/38, or not restricted to one of these groups, e.g. handles, arrangements of switches, skirts, buffers, levers
    • A47L11/4011Regulation of the cleaning machine by electric means; Control systems and remote control systems therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于自适应策略优化的家庭清洁机器人控制系统,包括传感系统、控制系统、清洁系统、驱动系统及电力系统,所述传感系统采集环境信息和电力系统信息,并将环境信息和电力系统信息传入控制系统,所述控制系统根据接收到的信息通过自适应策略控制方法来处理,并传递该控制信号到驱动系统和清洁系统。本发明通过在清洁机器人的控制系统中采用自适应策略优化方法,处理来自传感系统获取的环境信息,然后选择合适的行动,并利用传感系统传递控制系统的控制信号到驱动系统和清洁系统,使清洁机器人执行对应的行动来清洁家庭环境。

Description

基于自适应策略优化的家庭清洁机器人控制系统
技术领域
本发明属于人工智能以及控制技术领域,尤其涉及一种基于自适应策略 优化的家庭清洁机器人控制系统,可以进行自我学习,完成对家庭清洁机器 人的控制。
背景技术
多年来,人们对自主机器人的研究越来越感兴趣。自主机器人有着广泛 的应用前景,例如家庭清洁机器人。随着生活水平的提高,越来越多的家庭 开始依赖于智能家庭清洁机器人来负责家庭环境的清洁工作,来减少人为清 洁工作,为家庭生活带来便捷。但是由于一般的智能家庭清洁机器人只能够 对于训练好的环境进行简单的清洁工作,这一局限性限制了家庭清洁机器人 应用到千家万户,赋予清洁机器人自我学习的能力变得越来越重要。具有自 主学习能力的家庭清洁机器人可以在随着家庭环境的改变而调整自己的清 洁策略,能够通过自我学习适应不同的家庭环境和随着时间而改变的家庭环 境。具有自我学习能力的家庭清洁机器人是高度智能化的机器人,通过与外 界环境交互而进行学习。机器人通过收集各个位置的传感器信息,利用深度 强化学习技术来进行自我学习,在不同的环境中实现其感知和决策等功能。
现有的家庭清洁机器人控制方法,采用一种简单的、无法自我学习的控 制方法。使用该控制策略的家庭机器人无法自主适应不同的家庭环境和随着 时间而变化的家庭环境。在日常清洁过程中,只能简单的重复各种清洁操作, 无法判断哪些区域已经清洁完成,哪些区域需要继续清洁。因此将消耗大量 的时间和电能在重复的区域,执行重复的清洁操作,直接导致清洁的时间延 长、清洁度下降等问题,同时大量的无用功,对机器本身的部件损耗较大, 缩短了机器的使用寿命。
发明内容
本发明目的是:提供一种基于自适应策略优化的家庭清洁机器人控制系 统,通过对控制方法的改良,能够更快的适应新的环境,保证策略更新的有 效性,减少重复操作和无用功,自我学习能力可更快地、准确地完成清洁作 业。
本发明的技术方案是:一种基于自适应策略优化的家庭清洁机器人控制 系统,包括传感系统、控制系统、清洁系统、驱动系统及电力系统,所述传 感系统采集环境信息和电力系统信息,并将环境信息和电力系统信息传入控 制系统,所述控制系统根据接收到的信息通过自适应策略控制方法来处理, 并传递该控制信号到驱动系统和清洁系统,其自适应策略控制方法包括如下 步骤:
⑴通过传感系统获取环境信息,包括视觉环境信息和非视觉信息;
⑵根据所述步骤⑴中获取的环境信息,初始化神经网络参数,包括环 境状态信息和奖赏信息,并初始化强化学习算法的各项参数;
⑶采用残差网络处理获取的环境信息,将高维度的环境视觉信息转换 成低纬度的特征信息,低维度特征信息与所述非视觉信息作为策略网络和值 网络的输入状态st
⑷由策略网络控制机器人的行动,值网络评价行动的好坏:在状态st根 据当前策略计算所采取的行动at,机器人执行行动at后,获得新的环境状态st+1和立即奖赏rt,并通过值网络计算强化学习算法评价函数V(t)的值,用来评价 行动at的好坏;
⑸更新策略网络与值网络的参数,采用Adam梯度下降更新方式更新参 数;
所述策略网络损失函数Lπ(θ)计算方式如下:
Figure BDA0001593959820000021
其中πθ(at|st)表示新策略在状态st,选择行动 at的概率,πθold(at|st)表示旧策略在状态st,选择行动at的概率,
Figure BDA0001593959820000022
表示优势值;
所述值网络的损失函数Lv(θ)的计算方式为:
Figure BDA0001593959820000023
其 中V(t)为评价函数,
Figure BDA0001593959820000024
为梯度下降算法中的损失函数;
所述Adam梯度下降更新方式计算损失函数为:
Figure BDA0001593959820000025
其中 πθ(at|st)/πθold(at|st)的值采用自适应区间裁剪方法来计算,c1和c2是常数, S[πθ](st)表示的是策略πθ在状态st处的熵,
Figure BDA0001593959820000031
表示在未来时间步内获得的 累积折扣奖赏,折扣因子γ(0≤γ≤1);
⑹查看是否满足学习终止条件,若不满足,则返回到步骤4继续循环, 否则结束。
上述技术方案中,所述自适应区间裁剪方法的计算过程为:首先计算一 个裁剪边界[1-ε,1+ε],其中
Figure BDA0001593959820000032
其中|·|表示绝对值,
Figure BDA0001593959820000033
表示优势值,Vtarg(st)表示目标值,α表示正常数,防止分母为0;裁剪边 界ε的值会随着
Figure BDA0001593959820000034
的值和V(st)的值的改变而自动变化,令 n=πθ(at|st)/πθold(at|st),n的值最终被裁剪到[1-ε,1+ε]区间范围内。
进一步的技术方案是,所述优势值
Figure BDA0001593959820000035
采用GAE方法计算:
Figure BDA0001593959820000036
其中δt=rt+γV(st+1)-V(st),折扣因子γ (0≤γ≤1)。
上述技术方案中,所述步骤⑵中神经网络参数包括前馈网络和长短期记 忆网络的权值和偏置。
上述技术方案中,所述步骤⑶中,采用153层残差网络处理经过简单裁 剪的环境视觉信息,将高维度的环境视觉信息转换成低纬度的特征信息,所 述残差网络的参数通过监督学习提前训练好,该部分参数在自我学习过程中 不再进行更新。
上述技术方案中,所述步骤⑷中策略网络的熵损失计算方式为:
Figure BDA0001593959820000037
计算策略熵损失的目的是增加策略对环境的探索,其中 S[πθ](st)表示策略πθ在状态st的熵,总损失计算方式如下: Loss=-Lπ(θ)+c1Lv(θ)+c2Lentropy(θ),c1和c2是常数。
上述技术方案中,所述传感系统获取的环境信息是:清洁机器人视野内 的家庭环境信息和非视觉信息;所述执行动作at是:在当前状态下可以执行 的操作集合,包括移动操作和清洁操作;所述立即奖赏rt是:环境对在当前 状态下机器人所采取的行动的评价,若机器人成功清理了家庭环境中的待清 理物,则给一个+1的奖赏;若机器人在行进过程中撞到了家庭环境中的用具, 则给一个-1的奖赏;若机器人在行走过程中既没有碰到障碍物,也没有遇到 清理物,则给一个0的奖赏。
本发明的优点是:
1、能够有效处理具有连续动作空间的控制问题。
2、基于自适应近邻方法能够有效利用环境反馈的奖赏信息和评价网络 计算出的值函数信息,计算出更为准确的近邻区间,能够有效提升机器人的 自我学习能力,提高机器人在有效区域内的清扫作业。
3、采用长短期记忆网络,能够在部分可观测的环境和需要记忆以前环 境状态信息的环境中学习到更好的策略,减少重复操作。
附图说明
下面结合附图及实施例对本发明作进一步描述:
图1是本发明实施例一的控制系统结构示意图;
图2是本发明实施例一中强化学习控制器结构示意图;
图3是本发明实施例一中策略网络和值网络结构示意图;
图4是本发明实施例一中残差网络结构示意图;
图5是本发明实施例一中残差单元结构示意图;
图6是本发明实施例一中自适应策略裁剪方法的示意图。
其中:1、传感系统;2、控制系统;3、清洁系统;4、驱动系统;5、 电力系统。
具体实施方式
下面结合附图及实施例对本发明作进一步描述:
实施例:参见附图1~6所示,一种基于自适应策略优化的家庭清洁机 器人控制系统,包括传感系统1、控制系统2、清洁系统3、驱动系统4及电 力系统5,所述传感系统1采集环境信息和电力系统5信息,并将环境信息 和电力系统5信息传入控制系统2,所述控制系统2根据接收到的信息通过 自适应策略控制方法来处理,并传递该控制信号到驱动系统4和清洁系统3。 其中:所述传感系统1的主要功能是采集环境信息和传输控制系统2的控制信号,传感系统1通过采集环境信息来感知机器人所处当前的环境,通过传 输控制系统2的控制信号来控制机器人的移动、清洁或者补充电力。具体控 制方法为:
假设在每个时间步t=1,2,…,机器人的传感器系统观察马尔科夫决策过程 的状态为st,控制系统选择行动at,获得环境反馈的立即奖赏rt,并使系统转 移到下一个状态st+1,转移概率为p(st,at,st+1)。强化学习系统中智能体的目标是 学习到一个策略π,使得在未来时间步内获得的累积折扣奖赏
Figure BDA0001593959820000051
最大 (0≤γ≤1为折扣因子),该策略即为最优策略。但是在现实环境中,环境的状 态转移概率函数p和回报函数R未知。智能体要学习到最优策略,只有立即 奖赏rt可用,可以直接采用策略梯度方法优化策略函数和值函数。
本实施例中的强化学习控制系统基于“行动者/评论家”的结构。以传感 器系统感知的环境真实状态作为控制系统的输入,控制系统输出为实际的行 动,智能体的目的是寻找一个最优的控制策略,使得在未来时间步内所获得 的期望累积折扣奖赏最大。策略网络选择行动,值网络评估行动的好与坏, 采用TD(Temporal Difference)误差来计算损失,并通过随机梯度下降方法更 新两者的网络参数,寻找最优策略。控制结构如图2所示。
仿真过程中,在不同的环境下,控制系统的网络结构相同,算法参数也 采用同一套参数。回报函数的折扣因子γ=0.99,采用153层残差网络用来处 理视觉信息,残差网络的网络参数固定,残差网络产生的输出作为策略网络 和值网络的输入,值网络和策略网络由两层隐藏层和一层输出层组成。在每 次实验中,机器人所处的环境初始状态是一个随机的初始状态,机器人从随 机的初始状态开始学习,若控制失败,则机器人则重新进行学习,直到机器 人能够在多轮控制中达到甚至超越人类控制水平。控制系统的网络结构如图 3所示。
步骤1:获取机器人所处的环境信息。
本实施例所针对的是家庭清洁机器人在面对新环境时的自我学习能力。 家庭清洁机器人传感器系统拥有视觉传感器和非视觉传感器以及执行相应 操作的必要硬件设备等。家庭清洁机器人通过传感器获取环境的视觉信息和 非视觉信息,并且通过传感器控制机器人的行动。
步骤2:获取机器人所处初始环境状态信息和奖赏信息等,并初始化算 法的参数。
初始化控制系统中的神经网络参数和强化学习算法参数,其中神经网络 参数包括前馈网络和长短期记忆网络的权值和偏置。
步骤3:对于环境反馈的视觉信息进行处理。
通过传感系统(包括视觉传感系统和非视觉传感系统)感知机器人所处 的状态。采用153层残差网络处理经过简单裁剪的环境视觉信息,将高维度 的环境视觉信息转换成低纬度的特征信息。低维度特征信息与传感器感知的 非视觉信息作为策略网络和值网络的输入状态st。其中残差网络的参数通过 监督学习提前训练好,该部分参数在自我学习过程中不再进行更新。残差网 络结构如图4和图5所示。
步骤4:由策略网络控制机器人的行动,值网络评价行动的好坏。
机器人在与环境交互后,获得环境反馈的状态信息、奖赏信息等。环境 反馈的高维视觉信息经过步骤3处理,产生一个输出,并结合其它非视觉信 息,作为策略网络和值网络的第一层隐藏层的输入,激活函数为tanh函数。 在状态st根据当前策略计算所采取的行动at,机器人执行行动at后,获得新 的环境状态st+1和立即奖赏rt。并通过值网络计算强化学习算法评价函数V(t)的 值,用来评价行动at的好坏。
策略网络由一层全连接层和一层长短期记忆网络层组成,策略网络的输 入是经过步骤3处理之后的环境状态信息。策略网络利用长短期记忆网络模 块的记忆能力,记忆机器人经历过的环境状态信息。对于给定状态st,策略 网络利用这些被记忆的环境信息,能够做出更准确的行动选择。
值网络由一层全连接层和一层长短期记忆网络层组成,值网络的输入与 策略网络的输入相同。值网络通过长短期记忆网络模块的记忆能力,利用以 前的状态信息,对于当前状态的回报函数做出更准确的计算。
步骤5:更新控制系统的策略网络参数和值网络参数。
机器人通过步骤4的方式不断与环境进行交互,采样一批样本用来更新 策略网络和值网络。具体更新方式如下:
策略网络损失函数Lπ(θ)的计算方式为:
Figure BDA0001593959820000071
其中πθ(at|st)表示新策略在状态st,选择行动at的概率;πθold(at|st)表示旧策略 在状态st,选择行动at的概率;
Figure BDA0001593959820000072
表示优势值,采用GAE(Generalized Advantage Estimation)方法计算,GAE计算优势值的方式为:
Figure BDA0001593959820000073
其中δt=rt+γV(st+1)-V(st)。πθ(at|st)/πθold(at|st)用 来衡量新旧策略之间的差异,采用一种自适应区间裁剪方法来计算。该裁剪 目的是为了约束新旧策略之间的差异。值网络的损失函数Lv(θ)的计算方式 为:
Figure BDA0001593959820000074
策略的熵损失计算方式为:
Figure BDA0001593959820000075
计算策略熵损失的目的是增加策略对环境的探索,其中S[πθ](st)表示策略πθ在 状态st的熵。总损失计算方式如下:Loss=-Lπ(θ)+c1Lv(θ)+c2Lentropy(θ),采用Adam (Adaptive MomentEstimation)梯度下降方法来更新神经网络的参数。
自适应区间裁剪计算过程为:首先计算一个裁剪边界[1-ε,1+ε],其中
Figure BDA0001593959820000076
其中|·|表示绝对值,
Figure BDA0001593959820000077
表示优势值,Vtarg(st)表示目 标值,α表示较小的正常数,用来防止分母为0。裁剪边界ε的值会随着
Figure BDA0001593959820000078
的 值和V(st)的值的改变而自动变化。令n=πθ(at|st)/πθold(at|st),自适应裁剪过程 如图6所示。n的值最终被裁剪到[1-ε,1+ε]区间范围内。
采用所述更新方式更新策略网络和值网络的参数后,策略网络利用更新 后的策略在给定环境状态下,选择更加正确的行动,用来产生更高的回报值。
步骤6:查看控制结果
查看是否满足学习终止条件,若不满足,则返回到步骤4继续循环。否 则结束算法。
在真实环境中,机器人的初始状态初始化为机器人所处位置的环境状 态,机器人所处位置是一个随机位置。清洁机器人的控制系统通过处理环境 的状态和反馈信息来对机器人下一步需要采取的行动做出决策,并利用这些 数据更新决策网络和评价网络,直到机器人遇到终止状态,则机器人重新进 行学习。机器人在环境中执行100个情节(情节设定为有限长度),若平均 表现不比人类表现差,则判定学习成功,若平均表现比人类差,则判定失败。
本实施例中,残差网络的作用是处理传感系统获取的高维视觉信息。残 差网络由四类共50个残差块组成,残差块由三层卷积网组成,分别是1×1, 3×3和1×1的卷积核,在3×3卷积核前后接1×1卷积核的目的是减少网 络参数数量。在第一层和最后一层卷积层之后分别使用最大池化和平均池化 的作用是使抽取到的特征具有平移旋转不变性等泛化能力和降低特征图的 大小但不改变特征图的数量,减少数据的维度,进一步减少计算量。
由于视觉信息处理网络结构层次较深,采用普通的卷积网络堆叠,会随 着网络层数的增加出现严重的梯度消失问题,所以我们使用残差网络来缓解 梯度消失问题。残差网络中每一层的卷积核大小、通道数和输出大小在图4 中展示了详细内容。
策略网络由两层隐藏层和一层输出层组成,隐藏层包含一层全连接层和 一层长短期记忆网络层,全连接层采用64个神经元和tanh激活函数,长短 期记忆网络层采用64个LSTM单元。输出层的神经元个数为动作空间的维 度。值网络由两层隐藏层和一层输出层组成,隐藏层包含一层全连接层和一 层长短期记忆网络层,全连接层采用64个神经元和tanh激活函数,长短期 记忆网络层采用64个LSTM单元。输出层包含一个神经元。
所述步骤3中,状态、行动和立即奖赏定义为:
状态:传感系统感知的环境状态为清洁机器人视野内的家庭环境信息和 其它非视觉信息。
行动:行动是在当前状态下可以执行的操作集合,本实例中行动分为控 制机器人的移动和清洁,其中移动操作是一种连续动作空间控制,清洁操作 是一种离散动作空间控制。
立即奖赏:立即奖赏是环境对在当前状态下机器人所采取的行动的评 价。本实施例中奖赏函数定义为:若机器人成功清理了家庭环境中的待清理 物,则给一个+1的奖赏;若机器人在行进过程中撞到了家庭环境中的用具, 则给一个-1的奖赏;若机器人在行走过程中既没有碰到障碍物,也没有遇到 清理物,则给一个0的奖赏。
本实施例中,策略网络和值网络均包含长短期记忆网络层且均有64个 长短期记忆单元。长短期记忆网络相比于普通的全连接网络,能够处理序列 状态之间在不同时间尺度存在依赖关系的任务,是由于长短期记忆网络中的 循环链接允许网络每一层访问先前的状态信息。长短期记忆网络通过输入 门、输出门、遗忘门以及记忆单元来控制信息在网络中的流通以达到记忆以 前环境信息的目的。长短期记忆网络单元的遗忘门的计算方式为: ft j=σ(Wfxt+Ufht-1+Vfct-1)j,其中j表示第j个LSTM单元,σ表示sigmoid非线性 函数,ft j表示t时间步第j个LSTM单元的遗忘门的输出,Wf、Uf、Vf表示的 是LSTM单元遗忘门的参数,xt表示t时间步的输入数据,ht-1表示t-1时间步 LSTM单元的输出值,ct-1表示在t-1时间步LSTM单元的记忆单元的输出值。 输入门的计算方式为:
Figure BDA0001593959820000091
其中
Figure BDA0001593959820000092
表示t时间步第j个LSTM 单元的输入门的输出,Wi、Ui、Vi表示LSTM单元输入门的参数。新的记忆 上下文计算方式为:
Figure BDA0001593959820000093
其中
Figure BDA0001593959820000094
表示新的记忆上下文,Wc、Uc表示记忆上下文的参数,tanh表示tanh非线性函数。根据输入门的输出
Figure BDA0001593959820000095
遗忘门的输出ft j、记忆上下文
Figure BDA0001593959820000096
以及上一个时间步的记忆单元的内容
Figure BDA0001593959820000097
可以 计算更新记忆单元的内容
Figure BDA0001593959820000098
计算公式为:
Figure BDA0001593959820000099
Figure BDA00015939598200000910
Figure BDA00015939598200000911
可以 得到LSTM单元的输出门的计算公式为:
Figure BDA00015939598200000912
LSTM单元 最终的输出为
Figure BDA00015939598200000913
计算公式为:
Figure BDA00015939598200000914
在本实施例中,根据清洁机器人与家庭环境交互,通过强化学习方法的 计算,获得清洁机器人在不同环境下的清洁策略,以使清洁机器人能够自主 适应千家万户的环境以及同一个家庭环境随着时间而改变的环境。

Claims (6)

1.一种基于自适应策略优化的家庭清洁机器人控制方法,包括传感系统、控制系统、清洁系统、驱动系统及电力系统,所述传感系统采集环境信息和电力系统信息,并将环境信息和电力系统信息传入控制系统,所述控制系统根据接收到的信息通过自适应策略控制方法来处理,并传递该控制信号到驱动系统和清洁系统,其自适应策略控制方法包括如下步骤:
⑴通过传感系统获取环境信息,包括视觉环境信息和非视觉信息;
⑵根据所述步骤⑴中获取的环境信息,初始化神经网络参数,包括环境状态信息和奖赏信息,并初始化强化学习算法的各项参数;
⑶采用残差网络处理获取的环境信息,将高维度的环境视觉信息转换成低维度的特征信息,低维度特征信息与所述非视觉信息作为策略网络和值网络的输入状态st
⑷由策略网络控制机器人的行动,值网络评价行动的好坏:在状态st根据当前策略计算所采取的行动at,机器人执行行动at后,获得新的环境状态st+1和立即奖赏rt,并通过值网络计算强化学习算法评价函数V(t)的值,用来评价行动at的好坏;
⑸更新策略网络与值网络的参数,采用Adam梯度下降更新方式更新参数;
所述策略网络损失函数Lπ(θ)计算方式如下:
Figure FDA0002535058790000011
其中πθ(at|st)表示新策略在状态st,选择行动at的概率,πθold(at|st)表示旧策略在状态st,选择行动at的概率,
Figure FDA0002535058790000012
表示优势值;
所述值网络的损失函数Lv(θ)的计算方式为:
Figure FDA0002535058790000013
其中V(t)为评价函数,
Figure FDA0002535058790000014
为梯度下降算法中的损失函数;
所述Adam梯度下降更新方式计算损失函数为:
Figure FDA0002535058790000015
其中πθ(at|st)/πθold(at|st)的值采用自适应区间裁剪方法来计算,c1和c2是常数,S[πθ](st)表示的是策略πθ在状态st处的熵,
Figure FDA0002535058790000021
表示在未来时间步内获得的累积折扣奖赏,折扣因子γ(0≤γ≤1);
⑹查看是否满足学习终止条件,若不满足,则返回到步骤⑷继续循环,否则结束;
所述自适应区间裁剪方法的计算过程为:首先计算一个裁剪边界[1-ε,1+ε],其中
Figure FDA0002535058790000022
其中|·|表示绝对值,
Figure FDA0002535058790000023
表示优势值,Vtarg(st)表示目标值,α表示正常数,防止分母为0;裁剪边界ε的值会随着
Figure FDA0002535058790000024
的值和V(st)的值的改变而自动变化,令n=πθ(at|st)/πθold(at|st),n的值最终被裁剪到[1-ε,1+ε]区间范围内。
2.根据权利要求1所述的基于自适应策略优化的家庭清洁机器人控制方法,其特征在于:所述优势值
Figure FDA0002535058790000025
采用GAE方法计算:
Figure FDA0002535058790000026
其中δt=rt+γV(st+1)-V(st),折扣因子γ(0≤γ≤1)。
3.根据权利要求1所述的基于自适应策略优化的家庭清洁机器人控制方法,其特征在于:所述步骤⑵中神经网络参数包括前馈网络和长短期记忆网络的权值和偏置。
4.根据权利要求1所述的基于自适应策略优化的家庭清洁机器人控制方法,其特征在于:所述步骤⑶中,采用153层残差网络处理经过简单裁剪的环境视觉信息,将高维度的环境视觉信息转换成低维度的特征信息,所述残差网络的参数通过监督学习提前训练好,该部分参数在自我学习过程中不再进行更新。
5.根据权利要求1所述的基于自适应策略优化的家庭清洁机器人控制方法,其特征在于:所述步骤⑷中策略网络的熵损失计算方式为:
Figure FDA0002535058790000027
计算策略熵损失的目的是增加策略对环境的探索,其中S[πθ](st)表示策略πθ在状态st的熵,总损失计算方式如下:Loss=-Lπ(θ)+c1Lv(θ)+c2Lentropy(θ),c1和c2是常数。
6.根据权利要求1所述的基于自适应策略优化的家庭清洁机器人控制方法,其特征在于:所述传感系统获取的环境信息是:清洁机器人视野内的家庭环境信息和非视觉信息;所述执行动作at是:在当前状态下可以执行的操作集合,包括移动操作和清洁操作;所述立即奖赏rt是:环境对在当前状态下机器人所采取的行动的评价,若机器人成功清理了家庭环境中的待清理物,则给一个+1的奖赏;若机器人在行进过程中撞到了家庭环境中的用具,则给一个-1的奖赏;若机器人在行走过程中既没有碰到障碍物,也没有遇到清理物,则给一个0的奖赏。
CN201810199176.2A 2018-03-12 2018-03-12 基于自适应策略优化的家庭清洁机器人控制系统 Active CN108523768B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810199176.2A CN108523768B (zh) 2018-03-12 2018-03-12 基于自适应策略优化的家庭清洁机器人控制系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810199176.2A CN108523768B (zh) 2018-03-12 2018-03-12 基于自适应策略优化的家庭清洁机器人控制系统

Publications (2)

Publication Number Publication Date
CN108523768A CN108523768A (zh) 2018-09-14
CN108523768B true CN108523768B (zh) 2020-09-18

Family

ID=63483499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810199176.2A Active CN108523768B (zh) 2018-03-12 2018-03-12 基于自适应策略优化的家庭清洁机器人控制系统

Country Status (1)

Country Link
CN (1) CN108523768B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109452914A (zh) * 2018-11-01 2019-03-12 北京石头世纪科技有限公司 智能清洁设备,清洁模式选择方法,计算机存储介质
CN112327821A (zh) * 2020-07-08 2021-02-05 东莞市均谊视觉科技有限公司 一种基于深度强化学习的智能清洁机器人路径规划方法
CN112926729B (zh) * 2021-05-06 2021-08-03 中国科学院自动化研究所 人机对抗智能体策略制定方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105137967A (zh) * 2015-07-16 2015-12-09 北京工业大学 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法
CN105690392A (zh) * 2016-04-14 2016-06-22 苏州大学 基于行动者-评论家方法的机器人运动控制方法和装置
EP3136304A1 (en) * 2015-08-26 2017-03-01 Applied Brain Research Inc. Methods and systems for performing reinforcement learning in hierarchical and temporally extended environments
CN106873585A (zh) * 2017-01-18 2017-06-20 无锡辰星机器人科技有限公司 一种导航寻路方法、机器人及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105137967A (zh) * 2015-07-16 2015-12-09 北京工业大学 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法
EP3136304A1 (en) * 2015-08-26 2017-03-01 Applied Brain Research Inc. Methods and systems for performing reinforcement learning in hierarchical and temporally extended environments
CN105690392A (zh) * 2016-04-14 2016-06-22 苏州大学 基于行动者-评论家方法的机器人运动控制方法和装置
CN106873585A (zh) * 2017-01-18 2017-06-20 无锡辰星机器人科技有限公司 一种导航寻路方法、机器人及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于强化学习的自适应控制方法;钱征,孙亮,阮晓钢;《第二十四届中国控制会议论文集》;中国自动化学会;20051231;651-654 *

Also Published As

Publication number Publication date
CN108523768A (zh) 2018-09-14

Similar Documents

Publication Publication Date Title
Singh et al. Reinforcement learning in robotic applications: a comprehensive survey
US20220212342A1 (en) Predictive robotic controller apparatus and methods
Sigaud et al. On-line regression algorithms for learning mechanical models of robots: a survey
CN108523768B (zh) 基于自适应策略优化的家庭清洁机器人控制系统
Nguyen-Tuong et al. Model learning for robot control: a survey
Er et al. Obstacle avoidance of a mobile robot using hybrid learning approach
Chatterjee et al. A Geese PSO tuned fuzzy supervisor for EKF based solutions of simultaneous localization and mapping (SLAM) problems in mobile robots
CN108415254B (zh) 基于深度q网络的废品回收机器人控制方法
CN115917564A (zh) 用于学习可重用选项以在任务之间传递知识的系统和方法
CN111783994A (zh) 强化学习的训练方法和装置
CN116147627A (zh) 一种结合深度强化学习和内在动机的移动机器人自主导航方法
Gupta Fuzzy neural networks: theory and applications
Caironi et al. Training and delayed reinforcements in Q‐learning agents
Eppe et al. From semantics to execution: Integrating action planning with reinforcement learning for robotic tool use
Gräve et al. Improving imitated grasping motions through interactive expected deviation learning
Iwata et al. Adaptive modular reinforcement learning for robot controlled in multiple environments
Schmidt-Rohr et al. Reasoning for a multi-modal service robot considering uncertainty in human-robot interaction
Hachiya et al. Efficient sample reuse in EM-based policy search
Raza et al. Survivable robotic control through guided bayesian policy search with deep reinforcement learning
Park et al. Robust genetic network programming using sarsa learning for autonomous robots
CN114114911B (zh) 一种基于模型强化学习的自动超参数调节方法
Kobayashi et al. Q-learning in continuous state-action space with redundant dimensions by using a selective desensitization neural network
Kawakami et al. An actor-critic approach for learning cooperative behaviors of multiagent seesaw balancing problems
Liu et al. Reinforcement learning for autonomous robotic fish
Warwick Cybernetics–The Modern Science of Systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220819

Address after: Room 313-314, Building 2, Yangcheng Lake International Science and Technology Pioneer Park, No. 116, Chengyang Road, Chengyang Street, Economic and Technological Development Zone, Xiangcheng District, Suzhou City, Jiangsu Province, 215000

Patentee after: Haibo (Suzhou) robot technology Co.,Ltd.

Address before: 215000 199 Ren Yan Road, Suzhou Industrial Park, Jiangsu

Patentee before: SOOCHOW University

TR01 Transfer of patent right