CN113134834A - 一种机器人的控制信号确定方法、装置及存储介质 - Google Patents

一种机器人的控制信号确定方法、装置及存储介质 Download PDF

Info

Publication number
CN113134834A
CN113134834A CN202110347399.0A CN202110347399A CN113134834A CN 113134834 A CN113134834 A CN 113134834A CN 202110347399 A CN202110347399 A CN 202110347399A CN 113134834 A CN113134834 A CN 113134834A
Authority
CN
China
Prior art keywords
network parameter
robot
determining
network
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110347399.0A
Other languages
English (en)
Other versions
CN113134834B (zh
Inventor
张春良
翁润庭
王明
朱厚耀
朱健业
岳夏
王晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN202110347399.0A priority Critical patent/CN113134834B/zh
Publication of CN113134834A publication Critical patent/CN113134834A/zh
Application granted granted Critical
Publication of CN113134834B publication Critical patent/CN113134834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种机器人的控制信号确定方法、装置及存储介质,本发明通过获取机器人的第一状态,将第一状态输入评价网络,得到第一输出结果,将第一输出结果输入动作网络,得到第二输出结果,使得第一网络参数所确定的第一输出结果能够基于期望状态确定一个有效的评分,使得基于评分得到的第二输出结果为能够对机器人进行快速有效控制的输出结果;而根据第二输出结果与信号输出阈值,确定控制信号,能够使得最终确定的控制信号在用于对机器人进行控制时,机器人能够在最大限度上作出最佳的动作,以最快的速度到达目的位置。本发明可广泛应用于机器人技术领域。

Description

一种机器人的控制信号确定方法、装置及存储介质
技术领域
本发明涉及机器人技术领域,尤其是一种机器人的控制信号确定方法、装置及存储介质。
背景技术
现今,随着科学技术的发展机器人技术得到快速发展,机器人的引用领域也越来越广泛,例如巡逻、生产线、灭火等等。例如具有灭火功能的机器人,为了减少着火带来的危险和损失,需要对机器人进行控制使得机器人能够以最快的速度到达着火点的位置进行灭火,因此如何确定对机器人的控制信号,以使得机器人能够在最大限度上作出最佳的动作,以最快的速度到达目的位置至关重要。
发明内容
有鉴于此,为了解决上述技术问题,本发明的目的是提供一种机器人的控制信号确定方法、装置及存储介质。
本发明采用的技术方案是:
一种机器人的控制信号确定方法,包括:
获取机器人的第一状态;
将所述第一状态输入评价网络,得到第一输出结果;所述第一输出结果根据所述评价网络的第一网络参数确定,所述第一网络参数根据机器人的训练状态以及机器人的期望状态进行训练确定;
将所述第一输出结果输入动作网络,得到第二输出结果;所述第二输出结果根据所述动作网络的第二网络参数确定,所述第二网络参数根据所述第一网络参数以及所述训练状态进行训练确定;
根据所述第二输出结果与信号输出阈值,确定控制信号。
进一步,所述第一网络参数的确定过程包括:
获取训练状态;
计算所述训练状态与所述期望状态的第一误差;
根据所述第一误差与预设误差阈值,确定性能指标;
根据所述性能指标、第一误差函数以及评价函数确定第二误差;所述评价函数基于第三网络参数确定;
根据所述第二误差对所述第三网络参数进行更新;
根据更新后的所述第三网络参数,确定所述第一网络参数。
进一步,所述根据所述第一误差与预设误差阈值,确定性能指标,包括:
当所述第一误差小于等于所述预设误差阈值,确定所述性能指标为第一数值,否则确定所述性能指标为第二数值;所述第二数值大于所述第一数值。
进一步,所述根据所述第二误差对所述第三网络参数进行更新,包括:
根据所述第二误差确定代价函数;
根据所述代价函数对所述第三网络参数进行求导处理,得到求导结果;
计算所述求导结果与评价网络的第一学习率的乘积;
根据所述第三网络参数与所述乘积的差值对所述第三网络参数进行更新。
进一步,所述第二网络参数的确定过程包括:
获取训练状态并根据训练状态确定输入状态;
根据第四网络参数与预设理想网络参数确定估计误差;
根据所述输入状态对应的正定矩阵、所述估计误差、第二误差函数以及所述第一输出结果,确定第三误差;
根据所述第三误差对所述第四网络参数进行更新;
根据更新后的所述第四网络参数,确定所述第二网络参数。
进一步,所述根据所述第三误差对所述第四网络参数进行更新,包括:
根据所述第三误差与所述第一输出结果的和确定第一参数;
根据动作网络的第二学习率与所述第一参数的乘积确定第二参数;
根据所述第四网络参数与所述第二参数的差值对所述第四网络参数进行更新。
进一步,所述根据所述第二输出结果与信号输出阈值,确定控制信号,包括:
当所述第二输出结果的绝对值小于所述信号输出阈值,将所述第二输出结果作为所述控制信号,否则,将所述信号输出阈值作为所述控制信号。
本发明还提供一种机器人的控制信号确定装置,包括:
获取模块,用于获取机器人的第一状态;
第一输出模块,用于将所述第一状态输入评价网络,得到第一输出结果;所述第一输出结果根据所述评价网络的第一网络参数确定,所述第一网络参数根据机器人的训练状态以及机器人的期望状态进行训练确定;
第二输出模块,用于将所述第一输出结果输入动作网络,得到第二输出结果;所述第二输出结果根据所述动作网络的第二网络参数确定,所述第二网络参数根据所述第一网络参数以及所述训练状态进行训练确定;
确定模块,用于根据所述第二输出结果与信号输出阈值,确定控制信号。
本发明还提供一种机器人的控制信号确定装置,包括处理器以及存储器;
所述存储器存储有程序;
所述处理器执行所述程序以实现所述机器人的控制信号确定方法。
本发明还提供一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行时实现所述机器人的控制信号确定方法。
本发明的有益效果是:获取机器人的第一状态,将第一状态输入评价网络,得到第一输出结果,将第一输出结果输入动作网络,得到第二输出结果,其中第一输出结果根据评价网络的第一网络参数确定,第一网络参数根据机器人的训练状态以及机器人的期望状态进行训练确定,第二输出结果根据动作网络的第二网络参数确定,第二网络参数根据第一网络参数以及训练状态进行训练确定,使得第一网络参数所确定的第一输出结果能够基于期望状态确定一个有效的评分,使得基于评分得到的第二输出结果为能够对机器人进行快速有效控制的输出结果;而根据第二输出结果与信号输出阈值,确定控制信号,能够使得最终确定的控制信号在用于对机器人进行控制时,机器人能够在最大限度上作出最佳的动作,以最快的速度到达目的位置。
附图说明
图1为本发明机器人的控制信号确定方法的步骤流程示意图;
图2为本发明具体实施例确定第一网络参数的步骤流程示意图;
图3为本发明具体实施例确定第二网络参数的步骤流程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
如图1所示,本发明实施例提供一种机器人的控制信号确定方法,包括步骤S100-S400:
S100、获取机器人的第一状态。
本发明实施例中,第一状态为机器人在实际环境中运行时所获取的状态。例如,当机器人在实际的灭火场景中,机器人获取实时的第一状态,用于后续基于第一状态确定机器人的下一步的动作。可选地,第一状态可以包括机器人的速度或者前轮转角。
S200、将第一状态输入评价网络,得到第一输出结果。
具体地,评价网络为经过训练后的网络,其具有评价函数,评价函数中包含有第一网络参数,需要说明的是,第一网络参数根据机器人的训练状态以及机器人的期望状态进行训练后确定。本发明实施例中,当第一状态输入至评价网络时,基于包含第一网络参数的评价函数确定第一输出结果,该第一输出结果表征一个评分,用于评估动作网络的表现,并指导动作网络下一阶段的动作。
如图2所示,可选地,第一网络参数的确定过程包括步骤S211-S216:
S211、获取训练状态。
具体地,训练状态可以包括多个预先获取的在时间顺序上依序排列的机器人的历史状态,历史状态与第一状态的形式相同,同样可以包括机器人的速度或者前轮转角。例如,训练状态x可以为x=[vθ]T,v为速度,θ为前轮转角,T为转置。
S212、计算训练状态与期望状态的第一误差。
具体地,期望状态指的是在某一实际场景中认为设置的机器人的状态,例如假设机器人在第一位置,着火点在第二位置,认为设计一条(期望状态)期望轨迹,能够使得机器人在第一位置以最优的动作、最快的速度到达着火点所在的第二位置。例如,人为给出的期望状态xd为xd=[vdθd]T,机器人实际的状态即训练状态为x=[vθ]T,此时计算跟踪误差/第一误差ec=xd-x,其中vd为期望速度,θd为期望前轮转角,ec为第一误差,T为转置。
S213、根据第一误差与预设误差阈值,确定性能指标。
具体地,步骤S213可以为:
当第一误差小于等于预设误差阈值,确定性能指标为第一数值,否则确定性能指标为第二数值。本发明实施例中,性能指标为:
Figure BDA0003001218600000051
其中,p(k)为性能指标,ec(k)为k时刻的第一误差,η为预设误差阈值,第一数值为0,第二数值为1。需要说明的是,预设误差阈值可以根据实际需要进行调整,性能指标为当前机器人系统的性能指标,p(k)=0为可接受跟踪性能,p(k)=1为不可接受跟踪性能。
S214、根据性能指标、第一误差函数以及评价函数确定第二误差。
本发明实施例中,具有未来预设时间范围N系统性能度量通过二元效用函数Q(k)定义,具体地:
Figure BDA0003001218600000052
其中,Q(k)为时刻k的效用函数,0<β<1是常数设计参数,k为时刻,i为时间变化量,p(k+i)为时间k+i对应的性能指标,构造RBF神经网络来估计效用函数,假设:
Figure BDA0003001218600000053
其中,
Figure BDA0003001218600000054
是评价网络的最优权重,Sc(k)是评价网络的激活函数向量,εc(k)为最佳逼近误差。然后本发明实施例中用
Figure BDA0003001218600000055
估计
Figure BDA0003001218600000056
评价函数设计如下:
Figure BDA0003001218600000057
其中,
Figure BDA0003001218600000058
为评价函数,
Figure BDA0003001218600000059
为第三网络参数。
具体地,第一误差函数为:
Figure BDA00030012186000000510
其中,ec(k)为第一误差函数,β为常数设计参数,k为时刻,
Figure BDA00030012186000000511
分别为不同时刻对应的评价函数,p(k)为性能指标。通过第一误差函数的公式,确定ec(k)的计算结果即可以得到第二误差。
S215、根据第二误差对第三网络参数进行更新。
可选地,利用梯度下降法对第三网络参数进行更新,具体地步骤S215包括步骤S2151-S2154:
S2151、根据第二误差确定代价函数。
具体地,代价函数Ec(k)的公式为:
Ec(k)=ec 2(k)/2
S2152、根据代价函数对第三网络参数进行求导处理,得到求导结果。
具体地,考虑代价函数Ec(k)关于
Figure BDA0003001218600000061
的梯度导出为:
Figure BDA0003001218600000062
其中,
Figure BDA0003001218600000063
为求导结果,
Figure BDA0003001218600000064
为第三网络参数,β为常数设计参数。
S2153、计算求导结果与评价网络的第一学习率的乘积。
本发明实施例中,评价网络具有第一学习率αc,根据第一学习率αc确定乘积为
Figure BDA0003001218600000065
S2154、根据第三网络参数与乘积的差值对第三网络参数进行更新。
具体地,根据以下公式进行更新:
Figure BDA0003001218600000066
其中,
Figure BDA0003001218600000067
为k+1时刻对应的第三网络参数,通过k时刻的第三网络参数、求导结果与评价网络的第一学习率的乘积对k+1时刻的第三网络参数进行更新,得到更新后第三网络参数。
S216、根据更新后的第三网络参数,确定第一网络参数。
具体地,可以利用更新后的第三网络参数继续配合训练状态中下一时刻的状态,利用该状态重新执行步骤S212,当达到第一预设训练条件时,将最后更新得到的第三网络参数确定为第一网络参数。可选地,第一预设训练条件包括但不限于达到预设循环迭代次数,或者第二误差小于预设错误阈值。可以理解的是,
Figure BDA0003001218600000068
中,当最后更新得到的第三网络参数确定为第一网络参数,即此时
Figure BDA0003001218600000069
的值为第一网络参数,
Figure BDA00030012186000000610
则为第一输出结果。
S300、将第一输出结果输入动作网络,得到第二输出结果。
具体地,动作网络为经过训练后的网络,其具有动作信号函数,动作信号函数具有第二网络参数;需要说明的是,第二网络参数根据第一网络参数以及训练状态进行训练后确定,具体地为根据第一输出结果以及训练状态进行训练后确定。本发明实施例中,当第一输出结果输入至动作网络时,基于包含第二网络参数的动作信号函数确定第二输出结果。
如图3所示,可选地,第二网络参数的确定过程包括步骤S311-S315:
S311、获取训练状态并根据训练状态确定输入状态。
同样地,训练状态可以如步骤S211所描述,可以为x=[vθ]T,v为速度,θ为前轮转角,T为转置。需要说明的是,可以将直接将作为x输入状态,也可以根据x结合机器人的状态方程,将状态方程的计算结果作为输入状态。具体地:
Figure BDA0003001218600000071
其中,A为系统矩阵或状态矩阵,表示各状态之间的关系,B为输入矩阵或控制矩阵,表示输入对每个状态之间的作用,
Figure BDA00030012186000000718
表示状态方程的计算结果,x=[vθ]T,u=[δσ]T为控制输入,δ为舵偏转,σ为油门设置。
S312、根据第四网络参数与预设理想网络参数确定估计误差。
具体地,假设存在一个理想控制信号
Figure BDA0003001218600000072
保证n个动作后跟踪误差收敛到一个很小的值,本发明实施例中,理想控制信号
Figure BDA0003001218600000073
通过以下方式进行近似:
Figure BDA0003001218600000074
其中
Figure BDA0003001218600000075
是动作网络的最优权重,即预设理想网络参数,Sa(k)是动作网络的激活函数向量,εa(k)为最佳逼近误差,然后本发明实施例中利用
Figure BDA0003001218600000076
估计
Figure BDA0003001218600000077
估计误差
Figure BDA0003001218600000078
Figure BDA0003001218600000079
其中
Figure BDA00030012186000000710
为第四网络参数。
S313、根据输入状态对应的正定矩阵、估计误差、第二误差函数以及第一输出结果,确定第三误差。
具体地,第二误差函数ea(k)为:
Figure BDA00030012186000000711
其中,g(x(k))为每个x(k)对应的正定矩阵,x(k)为k时刻对应的输入状态,
Figure BDA00030012186000000712
为第一输出结果,θa(k)为误差定义函数,具体地:
Figure BDA00030012186000000713
其中
Figure BDA00030012186000000714
为估计误差,Sa(k)为动作网络的激活函数向量,并定义动作信号函数
Figure BDA00030012186000000715
为第四网络参数。可以理解的是,通过第二误差函数的公式,确定ea(k)的计算结果即可以得到第三误差。
S314、根据第三误差对第四网络参数进行更新。
可选地,利用梯度下降法对第四网络参数进行更新,步骤S314包括以下步骤S3141-S3143:
S3141、根据第三误差与第一输出结果的和确定第一参数。
具体地,第一参数为:
Figure BDA00030012186000000716
T为转置。
S3142、根据动作网络的第二学习率与第一参数的乘积确定第二参数。
具体地,动作网络具有第二学习率αa,根据第二学习率αa确定第二参数为:
Figure BDA00030012186000000717
S3143、根据第四网络参数与第二参数的差值对第四网络参数进行更新。
具体地,根据以下公式进行更新:
Figure BDA0003001218600000081
其中,
Figure BDA0003001218600000082
为k+1时刻对应的第四网络参数,
Figure BDA0003001218600000083
为k时刻对应的第四网络参数,通过k时刻的第四网络参数和第二参数对k+1时刻的第四网络参数进行更新,得到更新后第四网络参数。
S315、根据更新后的第四网络参数,确定第二网络参数。
具体地,可以利用更新后的第四网络参数继续配合训练状态中下一时刻的状态,执行步骤S311确定下一时刻的输入状态,然后重新执行步骤S312,当达到第二预设训练条件时,将最后更新得到的第四网络参数确定为第二网络参数。可选地,第二预设训练条件包括但不限于达到预设循环迭代次数,或者第三误差小于预设错误阈值。可以理解的是,动作信号函数
Figure BDA0003001218600000084
中,当最后更新得到的第四网络参数确定为第二网络参数,即此时
Figure BDA0003001218600000085
的值为第二网络参数,V(k)则为第二输出结果。
S400、根据第二输出结果与信号输出阈值,确定控制信号。
具体地,控制信号指的是最终确定的用于对机器人的动作进行控制的控制信号。可选地,控制信号为机器人执行器的控制输入,其可以包括舵偏转和油门设置。需要说明的是,一般情况下,机器人系统的执行器所能接收的信号有界限的,而机器人的控制器的输出可能会超出执行器所能接收的信号的范围,若出现这种情况会导致机器人控制系统的不稳定,甚至在实际中无法控制机器人执行相应的动作,因此本发明实施例引入辅助系统,辅助系统能够根据第二输出结果与信号输出阈值,确定控制信号。
可选地,步骤S400为:
当第二输出结果的绝对值小于信号输出阈值,将第二输出结果作为控制信号,否则,将信号输出阈值作为控制信号。
具体地:
Figure BDA0003001218600000086
其中,uM是信号输出阈值,即执行器所能接收的信号最大界限,u为控制信号,V(k)为第二输出结果。可选地,控制信号u可以包括速度、前轮转角、舵偏转和油门设置中的一种或多种,通过控制器传输至执行器,由机器人的执行器执行相应的动作。
综上,通过最终确定的控制信号对机器人的动作进行控制,能够使得机器人能够在最大限度上作出最佳的动作,在期望状态或最大限度接近期望状态的情况下进行移动,机器人最大限度地实现最优轨迹的移动,能够有效争取以最快的速度到达目的位置。
本发明还提供一种机器人的控制信号确定装置,包括:
获取模块,用于获取机器人的第一状态;
第一输出模块,用于将第一状态输入评价网络,得到第一输出结果;第一输出结果根据评价网络的第一网络参数确定,第一网络参数根据机器人的训练状态以及机器人的期望状态进行训练确定;
第二输出模块,用于将第一输出结果输入动作网络,得到第二输出结果;第二输出结果根据动作网络的第二网络参数确定,第二网络参数根据第一网络参数以及训练状态进行训练确定;
确定模块,用于根据第二输出结果与信号输出阈值,确定控制信号。
上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
本发明实施例还提供了一种机器人的控制信号确定装置,该设备包括处理器以及存储器;
存储器用于存储程序;
处理器用于执行程序实现本发明实施例的机器人的控制信号确定方法。本发明实施例的装置可以实现机器人的控制信号确定的功能。该装置可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant,简称PDA)、销售终端(Point of Sales,简称POS)、车载电脑等任意智能终端。
上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有程序,该程序被处理器执行完成如前述发明实施例的机器人的控制信号确定方法。
本发明实施例还提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行前述发明实施例的机器人的控制信号确定方法。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序的介质。
以上,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种机器人的控制信号确定方法,其特征在于,包括:
获取机器人的第一状态;
将所述第一状态输入评价网络,得到第一输出结果;所述第一输出结果根据所述评价网络的第一网络参数确定,所述第一网络参数根据机器人的训练状态以及机器人的期望状态进行训练确定;
将所述第一输出结果输入动作网络,得到第二输出结果;所述第二输出结果根据所述动作网络的第二网络参数确定,所述第二网络参数根据所述第一网络参数以及所述训练状态进行训练确定;
根据所述第二输出结果与信号输出阈值,确定控制信号。
2.根据权利要求1所述机器人的控制信号确定方法,其特征在于:所述第一网络参数的确定过程包括:
获取训练状态;
计算所述训练状态与所述期望状态的第一误差;
根据所述第一误差与预设误差阈值,确定性能指标;
根据所述性能指标、第一误差函数以及评价函数确定第二误差;所述评价函数基于第三网络参数确定;
根据所述第二误差对所述第三网络参数进行更新;
根据更新后的所述第三网络参数,确定所述第一网络参数。
3.根据权利要求2所述机器人的控制信号确定方法,其特征在于:所述根据所述第一误差与预设误差阈值,确定性能指标,包括:
当所述第一误差小于等于所述预设误差阈值,确定所述性能指标为第一数值,否则确定所述性能指标为第二数值;所述第二数值大于所述第一数值。
4.根据权利要求2所述机器人的控制信号确定方法,其特征在于:所述根据所述第二误差对所述第三网络参数进行更新,包括:
根据所述第二误差确定代价函数;
根据所述代价函数对所述第三网络参数进行求导处理,得到求导结果;
计算所述求导结果与评价网络的第一学习率的乘积;
根据所述第三网络参数与所述乘积的差值对所述第三网络参数进行更新。
5.根据权利要求1所述机器人的控制信号确定方法,其特征在于:所述第二网络参数的确定过程包括:
获取训练状态并根据训练状态确定输入状态;
根据第四网络参数与预设理想网络参数确定估计误差;
根据所述输入状态对应的正定矩阵、所述估计误差、第二误差函数以及所述第一输出结果,确定第三误差;
根据所述第三误差对所述第四网络参数进行更新;
根据更新后的所述第四网络参数,确定所述第二网络参数。
6.根据权利要求5所述机器人的控制信号确定方法,其特征在于:所述根据所述第三误差对所述第四网络参数进行更新,包括:
根据所述第三误差与所述第一输出结果的和确定第一参数;
根据动作网络的第二学习率与所述第一参数的乘积确定第二参数;
根据所述第四网络参数与所述第二参数的差值对所述第四网络参数进行更新。
7.根据权利要求1所述机器人的控制信号确定方法,其特征在于:所述根据所述第二输出结果与信号输出阈值,确定控制信号,包括:
当所述第二输出结果的绝对值小于所述信号输出阈值,将所述第二输出结果作为所述控制信号,否则,将所述信号输出阈值作为所述控制信号。
8.一种机器人的控制信号确定装置,其特征在于,包括:
获取模块,用于获取机器人的第一状态;
第一输出模块,用于将所述第一状态输入评价网络,得到第一输出结果;所述第一输出结果根据所述评价网络的第一网络参数确定,所述第一网络参数根据机器人的训练状态以及机器人的期望状态进行训练确定;
第二输出模块,用于将所述第一输出结果输入动作网络,得到第二输出结果;所述第二输出结果根据所述动作网络的第二网络参数确定,所述第二网络参数根据所述第一网络参数以及所述训练状态进行训练确定;
确定模块,用于根据所述第二输出结果与信号输出阈值,确定控制信号。
9.一种机器人的控制信号确定装置,其特征在于,包括处理器以及存储器;
所述存储器存储有程序;
所述处理器执行所述程序以实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
CN202110347399.0A 2021-03-31 2021-03-31 一种机器人的控制信号确定方法、装置及存储介质 Active CN113134834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110347399.0A CN113134834B (zh) 2021-03-31 2021-03-31 一种机器人的控制信号确定方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110347399.0A CN113134834B (zh) 2021-03-31 2021-03-31 一种机器人的控制信号确定方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN113134834A true CN113134834A (zh) 2021-07-20
CN113134834B CN113134834B (zh) 2022-06-03

Family

ID=76810223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110347399.0A Active CN113134834B (zh) 2021-03-31 2021-03-31 一种机器人的控制信号确定方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN113134834B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227043A (zh) * 2016-09-09 2016-12-14 中国科学院自动化研究所 自适应最优控制方法
CN107748566A (zh) * 2017-09-20 2018-03-02 清华大学 一种基于强化学习的水下自主机器人固定深度控制方法
CN109483530A (zh) * 2018-10-18 2019-03-19 北京控制工程研究所 一种基于深度强化学习的足式机器人运动控制方法及系统
US20200167687A1 (en) * 2018-11-27 2020-05-28 Amazon Technologies, Inc. Simulation modeling exchange
CN111444954A (zh) * 2020-03-24 2020-07-24 广东省智能制造研究所 一种基于多模态感知与学习的机器人自主装配方法
CN112528552A (zh) * 2020-10-23 2021-03-19 洛阳银杏科技有限公司 一种基于深度强化学习的机械臂控制模型构建方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227043A (zh) * 2016-09-09 2016-12-14 中国科学院自动化研究所 自适应最优控制方法
CN107748566A (zh) * 2017-09-20 2018-03-02 清华大学 一种基于强化学习的水下自主机器人固定深度控制方法
CN109483530A (zh) * 2018-10-18 2019-03-19 北京控制工程研究所 一种基于深度强化学习的足式机器人运动控制方法及系统
US20200167687A1 (en) * 2018-11-27 2020-05-28 Amazon Technologies, Inc. Simulation modeling exchange
CN111444954A (zh) * 2020-03-24 2020-07-24 广东省智能制造研究所 一种基于多模态感知与学习的机器人自主装配方法
CN112528552A (zh) * 2020-10-23 2021-03-19 洛阳银杏科技有限公司 一种基于深度强化学习的机械臂控制模型构建方法

Also Published As

Publication number Publication date
CN113134834B (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
CN109188909B (zh) 面向船舶航向非线性离散系统的自适应模糊最优控制方法及系统
Pham et al. Optlayer-practical constrained optimization for deep reinforcement learning in the real world
EP3992857A1 (en) Method and device for generating neural network model, and computer-readable storage medium
CN111538949B (zh) 冗余机器人逆运动学求解方法、装置和冗余机器人
CN108229555B (zh) 样本权重分配方法、模型训练方法、电子设备及存储介质
CN109657615B (zh) 一种目标检测的训练方法、装置及终端设备
CN111860826A (zh) 一种低计算能力处理设备的图像数据处理方法及装置
CN113134834B (zh) 一种机器人的控制信号确定方法、装置及存储介质
CN115958606A (zh) 机械臂避障轨迹规划方法、装置和电子设备
CN111178537A (zh) 一种特征提取模型训练方法及设备
CN112016678A (zh) 用于增强学习的策略生成网络的训练方法、装置和电子设备
CN109919043B (zh) 一种行人跟踪方法、装置及设备
Xue et al. Training a model-free reinforcement learning controller for a 3-degree-of-freedom helicopter under multiple constraints
CN111178082A (zh) 一种句向量生成方法、装置及电子设备
Wang et al. Data-driven path-following control of underactuated ships based on antenna mutation beetle swarm predictive reinforcement learning
CN113370208A (zh) 一种可重构机械臂子系统的控制方法及系统
CN107241746B (zh) 传感器网络中传感器节点剩余能量的均衡方法及装置
CN115543096B (zh) 基于神经网络的动捕数据处理方法、装置及系统
Rathi et al. Driving reinforcement learning with models
Schweighofer et al. A model of cerebellar metaplasticity.
CN108694465A (zh) 基于svm向量机q学习的城市救援仿真决策优化方法
CN116834014A (zh) 一种空间多臂机器人捕获非合作目标的智能协同控制方法和系统
EP4148624A1 (en) Neural network model training apparatus and method, and related device
CN113869186A (zh) 模型训练方法、装置、电子设备和计算机可读存储介质
Zhou et al. Efficient and robust learning on elaborated gaits with curriculum learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant