CN113134834A

CN113134834A - 一种机器人的控制信号确定方法、装置及存储介质

Info

Publication number: CN113134834A
Application number: CN202110347399.0A
Authority: CN
Inventors: 张春良; 翁润庭; 王明; 朱厚耀; 朱健业; 岳夏; 王晨
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-07-20
Anticipated expiration: 2041-03-31
Also published as: CN113134834B

Abstract

本发明公开了一种机器人的控制信号确定方法、装置及存储介质，本发明通过获取机器人的第一状态，将第一状态输入评价网络，得到第一输出结果，将第一输出结果输入动作网络，得到第二输出结果，使得第一网络参数所确定的第一输出结果能够基于期望状态确定一个有效的评分，使得基于评分得到的第二输出结果为能够对机器人进行快速有效控制的输出结果；而根据第二输出结果与信号输出阈值，确定控制信号，能够使得最终确定的控制信号在用于对机器人进行控制时，机器人能够在最大限度上作出最佳的动作，以最快的速度到达目的位置。本发明可广泛应用于机器人技术领域。

Description

一种机器人的控制信号确定方法、装置及存储介质

技术领域

本发明涉及机器人技术领域，尤其是一种机器人的控制信号确定方法、装置及存储介质。

背景技术

现今，随着科学技术的发展机器人技术得到快速发展，机器人的引用领域也越来越广泛，例如巡逻、生产线、灭火等等。例如具有灭火功能的机器人，为了减少着火带来的危险和损失，需要对机器人进行控制使得机器人能够以最快的速度到达着火点的位置进行灭火，因此如何确定对机器人的控制信号，以使得机器人能够在最大限度上作出最佳的动作，以最快的速度到达目的位置至关重要。

发明内容

有鉴于此，为了解决上述技术问题，本发明的目的是提供一种机器人的控制信号确定方法、装置及存储介质。

本发明采用的技术方案是：

一种机器人的控制信号确定方法，包括：

获取机器人的第一状态；

将所述第一状态输入评价网络，得到第一输出结果；所述第一输出结果根据所述评价网络的第一网络参数确定，所述第一网络参数根据机器人的训练状态以及机器人的期望状态进行训练确定；

将所述第一输出结果输入动作网络，得到第二输出结果；所述第二输出结果根据所述动作网络的第二网络参数确定，所述第二网络参数根据所述第一网络参数以及所述训练状态进行训练确定；

根据所述第二输出结果与信号输出阈值，确定控制信号。

进一步，所述第一网络参数的确定过程包括：

获取训练状态；

计算所述训练状态与所述期望状态的第一误差；

根据所述第一误差与预设误差阈值，确定性能指标；

根据所述性能指标、第一误差函数以及评价函数确定第二误差；所述评价函数基于第三网络参数确定；

根据所述第二误差对所述第三网络参数进行更新；

根据更新后的所述第三网络参数，确定所述第一网络参数。

进一步，所述根据所述第一误差与预设误差阈值，确定性能指标，包括：

当所述第一误差小于等于所述预设误差阈值，确定所述性能指标为第一数值，否则确定所述性能指标为第二数值；所述第二数值大于所述第一数值。

进一步，所述根据所述第二误差对所述第三网络参数进行更新，包括：

根据所述第二误差确定代价函数；

根据所述代价函数对所述第三网络参数进行求导处理，得到求导结果；

计算所述求导结果与评价网络的第一学习率的乘积；

根据所述第三网络参数与所述乘积的差值对所述第三网络参数进行更新。

进一步，所述第二网络参数的确定过程包括：

获取训练状态并根据训练状态确定输入状态；

根据第四网络参数与预设理想网络参数确定估计误差；

根据所述输入状态对应的正定矩阵、所述估计误差、第二误差函数以及所述第一输出结果，确定第三误差；

根据所述第三误差对所述第四网络参数进行更新；

根据更新后的所述第四网络参数，确定所述第二网络参数。

进一步，所述根据所述第三误差对所述第四网络参数进行更新，包括：

根据所述第三误差与所述第一输出结果的和确定第一参数；

根据动作网络的第二学习率与所述第一参数的乘积确定第二参数；

根据所述第四网络参数与所述第二参数的差值对所述第四网络参数进行更新。

进一步，所述根据所述第二输出结果与信号输出阈值，确定控制信号，包括：

当所述第二输出结果的绝对值小于所述信号输出阈值，将所述第二输出结果作为所述控制信号，否则，将所述信号输出阈值作为所述控制信号。

本发明还提供一种机器人的控制信号确定装置，包括：

获取模块，用于获取机器人的第一状态；

第一输出模块，用于将所述第一状态输入评价网络，得到第一输出结果；所述第一输出结果根据所述评价网络的第一网络参数确定，所述第一网络参数根据机器人的训练状态以及机器人的期望状态进行训练确定；

第二输出模块，用于将所述第一输出结果输入动作网络，得到第二输出结果；所述第二输出结果根据所述动作网络的第二网络参数确定，所述第二网络参数根据所述第一网络参数以及所述训练状态进行训练确定；

确定模块，用于根据所述第二输出结果与信号输出阈值，确定控制信号。

本发明还提供一种机器人的控制信号确定装置，包括处理器以及存储器；

所述存储器存储有程序；

所述处理器执行所述程序以实现所述机器人的控制信号确定方法。

本发明还提供一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行时实现所述机器人的控制信号确定方法。

本发明的有益效果是：获取机器人的第一状态，将第一状态输入评价网络，得到第一输出结果，将第一输出结果输入动作网络，得到第二输出结果，其中第一输出结果根据评价网络的第一网络参数确定，第一网络参数根据机器人的训练状态以及机器人的期望状态进行训练确定，第二输出结果根据动作网络的第二网络参数确定，第二网络参数根据第一网络参数以及训练状态进行训练确定，使得第一网络参数所确定的第一输出结果能够基于期望状态确定一个有效的评分，使得基于评分得到的第二输出结果为能够对机器人进行快速有效控制的输出结果；而根据第二输出结果与信号输出阈值，确定控制信号，能够使得最终确定的控制信号在用于对机器人进行控制时，机器人能够在最大限度上作出最佳的动作，以最快的速度到达目的位置。

附图说明

图1为本发明机器人的控制信号确定方法的步骤流程示意图；

图2为本发明具体实施例确定第一网络参数的步骤流程示意图；

图3为本发明具体实施例确定第二网络参数的步骤流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

如图1所示，本发明实施例提供一种机器人的控制信号确定方法，包括步骤S100-S400：

S100、获取机器人的第一状态。

本发明实施例中，第一状态为机器人在实际环境中运行时所获取的状态。例如，当机器人在实际的灭火场景中，机器人获取实时的第一状态，用于后续基于第一状态确定机器人的下一步的动作。可选地，第一状态可以包括机器人的速度或者前轮转角。

S200、将第一状态输入评价网络，得到第一输出结果。

具体地，评价网络为经过训练后的网络，其具有评价函数，评价函数中包含有第一网络参数，需要说明的是，第一网络参数根据机器人的训练状态以及机器人的期望状态进行训练后确定。本发明实施例中，当第一状态输入至评价网络时，基于包含第一网络参数的评价函数确定第一输出结果，该第一输出结果表征一个评分，用于评估动作网络的表现，并指导动作网络下一阶段的动作。

如图2所示，可选地，第一网络参数的确定过程包括步骤S211-S216：

S211、获取训练状态。

具体地，训练状态可以包括多个预先获取的在时间顺序上依序排列的机器人的历史状态，历史状态与第一状态的形式相同，同样可以包括机器人的速度或者前轮转角。例如，训练状态x可以为x＝[vθ]^T，v为速度，θ为前轮转角，T为转置。

S212、计算训练状态与期望状态的第一误差。

具体地，期望状态指的是在某一实际场景中认为设置的机器人的状态，例如假设机器人在第一位置，着火点在第二位置，认为设计一条(期望状态)期望轨迹，能够使得机器人在第一位置以最优的动作、最快的速度到达着火点所在的第二位置。例如，人为给出的期望状态x_d为x_d＝[v_dθ_d]^T，机器人实际的状态即训练状态为x＝[vθ]^T，此时计算跟踪误差/第一误差e_c＝x_d-x，其中v_d为期望速度，θ_d为期望前轮转角，e_c为第一误差，T为转置。

S213、根据第一误差与预设误差阈值，确定性能指标。

具体地，步骤S213可以为：

当第一误差小于等于预设误差阈值，确定性能指标为第一数值，否则确定性能指标为第二数值。本发明实施例中，性能指标为：

其中，p(k)为性能指标，e_c(k)为k时刻的第一误差，η为预设误差阈值，第一数值为0，第二数值为1。需要说明的是，预设误差阈值可以根据实际需要进行调整，性能指标为当前机器人系统的性能指标，p(k)＝0为可接受跟踪性能，p(k)＝1为不可接受跟踪性能。

S214、根据性能指标、第一误差函数以及评价函数确定第二误差。

本发明实施例中，具有未来预设时间范围N系统性能度量通过二元效用函数Q(k)定义，具体地：

其中，Q(k)为时刻k的效用函数，0<β<1是常数设计参数，k为时刻，i为时间变化量，p(k+i)为时间k+i对应的性能指标，构造RBF神经网络来估计效用函数，假设：

其中，

是评价网络的最优权重，S_c(k)是评价网络的激活函数向量，ε_c(k)为最佳逼近误差。然后本发明实施例中用

估计

评价函数设计如下：

其中，

为评价函数，

为第三网络参数。

具体地，第一误差函数为：

其中，e_c(k)为第一误差函数，β为常数设计参数，k为时刻，

分别为不同时刻对应的评价函数，p(k)为性能指标。通过第一误差函数的公式，确定e_c(k)的计算结果即可以得到第二误差。

S215、根据第二误差对第三网络参数进行更新。

可选地，利用梯度下降法对第三网络参数进行更新，具体地步骤S215包括步骤S2151-S2154：

S2151、根据第二误差确定代价函数。

具体地，代价函数E_c(k)的公式为：

E_c(k)＝e_c ²(k)/2

S2152、根据代价函数对第三网络参数进行求导处理，得到求导结果。

具体地，考虑代价函数E_c(k)关于

的梯度导出为：

其中，

为求导结果，

为第三网络参数，β为常数设计参数。

S2153、计算求导结果与评价网络的第一学习率的乘积。

本发明实施例中，评价网络具有第一学习率α_c，根据第一学习率α_c确定乘积为

S2154、根据第三网络参数与乘积的差值对第三网络参数进行更新。

具体地，根据以下公式进行更新：

其中，

为k+1时刻对应的第三网络参数，通过k时刻的第三网络参数、求导结果与评价网络的第一学习率的乘积对k+1时刻的第三网络参数进行更新，得到更新后第三网络参数。

S216、根据更新后的第三网络参数，确定第一网络参数。

具体地，可以利用更新后的第三网络参数继续配合训练状态中下一时刻的状态，利用该状态重新执行步骤S212，当达到第一预设训练条件时，将最后更新得到的第三网络参数确定为第一网络参数。可选地，第一预设训练条件包括但不限于达到预设循环迭代次数，或者第二误差小于预设错误阈值。可以理解的是，

中，当最后更新得到的第三网络参数确定为第一网络参数，即此时

的值为第一网络参数，

则为第一输出结果。

S300、将第一输出结果输入动作网络，得到第二输出结果。

具体地，动作网络为经过训练后的网络，其具有动作信号函数，动作信号函数具有第二网络参数；需要说明的是，第二网络参数根据第一网络参数以及训练状态进行训练后确定，具体地为根据第一输出结果以及训练状态进行训练后确定。本发明实施例中，当第一输出结果输入至动作网络时，基于包含第二网络参数的动作信号函数确定第二输出结果。

如图3所示，可选地，第二网络参数的确定过程包括步骤S311-S315：

S311、获取训练状态并根据训练状态确定输入状态。

同样地，训练状态可以如步骤S211所描述，可以为x＝[vθ]^T，v为速度，θ为前轮转角，T为转置。需要说明的是，可以将直接将作为x输入状态，也可以根据x结合机器人的状态方程，将状态方程的计算结果作为输入状态。具体地：

其中，A为系统矩阵或状态矩阵,表示各状态之间的关系，B为输入矩阵或控制矩阵，表示输入对每个状态之间的作用，

表示状态方程的计算结果，x＝[vθ]^T，u＝[δσ]^T为控制输入，δ为舵偏转，σ为油门设置。

S312、根据第四网络参数与预设理想网络参数确定估计误差。

具体地，假设存在一个理想控制信号

保证n个动作后跟踪误差收敛到一个很小的值，本发明实施例中，理想控制信号

通过以下方式进行近似：

其中

是动作网络的最优权重，即预设理想网络参数，S_a(k)是动作网络的激活函数向量，ε_a(k)为最佳逼近误差，然后本发明实施例中利用

估计

估计误差

其中

为第四网络参数。

S313、根据输入状态对应的正定矩阵、估计误差、第二误差函数以及第一输出结果，确定第三误差。

具体地，第二误差函数e_a(k)为：

其中，g(x(k))为每个x(k)对应的正定矩阵，x(k)为k时刻对应的输入状态，

为第一输出结果，θ_a(k)为误差定义函数，具体地：

其中

为估计误差，S_a(k)为动作网络的激活函数向量,并定义动作信号函数

为第四网络参数。可以理解的是，通过第二误差函数的公式，确定e_a(k)的计算结果即可以得到第三误差。

S314、根据第三误差对第四网络参数进行更新。

可选地，利用梯度下降法对第四网络参数进行更新，步骤S314包括以下步骤S3141-S3143：

S3141、根据第三误差与第一输出结果的和确定第一参数。

具体地，第一参数为：

T为转置。

S3142、根据动作网络的第二学习率与第一参数的乘积确定第二参数。

具体地，动作网络具有第二学习率α_a，根据第二学习率α_a确定第二参数为：

S3143、根据第四网络参数与第二参数的差值对第四网络参数进行更新。

具体地，根据以下公式进行更新：

其中，

为k+1时刻对应的第四网络参数，

为k时刻对应的第四网络参数，通过k时刻的第四网络参数和第二参数对k+1时刻的第四网络参数进行更新，得到更新后第四网络参数。

S315、根据更新后的第四网络参数，确定第二网络参数。

具体地，可以利用更新后的第四网络参数继续配合训练状态中下一时刻的状态,执行步骤S311确定下一时刻的输入状态，然后重新执行步骤S312，当达到第二预设训练条件时，将最后更新得到的第四网络参数确定为第二网络参数。可选地，第二预设训练条件包括但不限于达到预设循环迭代次数，或者第三误差小于预设错误阈值。可以理解的是，动作信号函数

中，当最后更新得到的第四网络参数确定为第二网络参数，即此时

的值为第二网络参数，V(k)则为第二输出结果。

S400、根据第二输出结果与信号输出阈值，确定控制信号。

具体地，控制信号指的是最终确定的用于对机器人的动作进行控制的控制信号。可选地，控制信号为机器人执行器的控制输入，其可以包括舵偏转和油门设置。需要说明的是，一般情况下，机器人系统的执行器所能接收的信号有界限的，而机器人的控制器的输出可能会超出执行器所能接收的信号的范围，若出现这种情况会导致机器人控制系统的不稳定，甚至在实际中无法控制机器人执行相应的动作，因此本发明实施例引入辅助系统，辅助系统能够根据第二输出结果与信号输出阈值，确定控制信号。

可选地，步骤S400为：

当第二输出结果的绝对值小于信号输出阈值，将第二输出结果作为控制信号，否则，将信号输出阈值作为控制信号。

具体地:

其中，u_M是信号输出阈值,即执行器所能接收的信号最大界限，u为控制信号，V(k)为第二输出结果。可选地，控制信号u可以包括速度、前轮转角、舵偏转和油门设置中的一种或多种，通过控制器传输至执行器，由机器人的执行器执行相应的动作。

综上，通过最终确定的控制信号对机器人的动作进行控制，能够使得机器人能够在最大限度上作出最佳的动作，在期望状态或最大限度接近期望状态的情况下进行移动，机器人最大限度地实现最优轨迹的移动，能够有效争取以最快的速度到达目的位置。

本发明还提供一种机器人的控制信号确定装置，包括：

获取模块，用于获取机器人的第一状态；

第一输出模块，用于将第一状态输入评价网络，得到第一输出结果；第一输出结果根据评价网络的第一网络参数确定，第一网络参数根据机器人的训练状态以及机器人的期望状态进行训练确定；

第二输出模块，用于将第一输出结果输入动作网络，得到第二输出结果；第二输出结果根据动作网络的第二网络参数确定，第二网络参数根据第一网络参数以及训练状态进行训练确定；

确定模块，用于根据第二输出结果与信号输出阈值，确定控制信号。

上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

本发明实施例还提供了一种机器人的控制信号确定装置，该设备包括处理器以及存储器；

存储器用于存储程序；

处理器用于执行程序实现本发明实施例的机器人的控制信号确定方法。本发明实施例的装置可以实现机器人的控制信号确定的功能。该装置可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，简称PDA)、销售终端(Point of Sales，简称POS)、车载电脑等任意智能终端。

本发明实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有程序，该程序被处理器执行完成如前述发明实施例的机器人的控制信号确定方法。

本发明实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述发明实施例的机器人的控制信号确定方法。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种机器人的控制信号确定方法，其特征在于，包括：

获取机器人的第一状态；

根据所述第二输出结果与信号输出阈值，确定控制信号。

2.根据权利要求1所述机器人的控制信号确定方法，其特征在于：所述第一网络参数的确定过程包括：

获取训练状态；

计算所述训练状态与所述期望状态的第一误差；

根据所述第一误差与预设误差阈值，确定性能指标；

根据所述第二误差对所述第三网络参数进行更新；

根据更新后的所述第三网络参数，确定所述第一网络参数。

3.根据权利要求2所述机器人的控制信号确定方法，其特征在于：所述根据所述第一误差与预设误差阈值，确定性能指标，包括：

4.根据权利要求2所述机器人的控制信号确定方法，其特征在于：所述根据所述第二误差对所述第三网络参数进行更新，包括：

根据所述第二误差确定代价函数；

计算所述求导结果与评价网络的第一学习率的乘积；

5.根据权利要求1所述机器人的控制信号确定方法，其特征在于：所述第二网络参数的确定过程包括：

获取训练状态并根据训练状态确定输入状态；

根据第四网络参数与预设理想网络参数确定估计误差；

根据所述第三误差对所述第四网络参数进行更新；

根据更新后的所述第四网络参数，确定所述第二网络参数。

6.根据权利要求5所述机器人的控制信号确定方法，其特征在于：所述根据所述第三误差对所述第四网络参数进行更新，包括：

根据所述第三误差与所述第一输出结果的和确定第一参数；

7.根据权利要求1所述机器人的控制信号确定方法，其特征在于：所述根据所述第二输出结果与信号输出阈值，确定控制信号，包括：

8.一种机器人的控制信号确定装置，其特征在于，包括：

获取模块，用于获取机器人的第一状态；

9.一种机器人的控制信号确定装置，其特征在于，包括处理器以及存储器；

所述存储器存储有程序；

所述处理器执行所述程序以实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行时实现如权利要求1-7中任一项所述的方法。