CN113988196A

CN113988196A - 一种机器人移动方法、装置、设备及存储介质

Info

Publication number: CN113988196A
Application number: CN202111281034.9A
Authority: CN
Inventors: 冷晓琨; 常琳; 王松; 白学林; 柯真东; 吴雨璁; 何治成; 黄贤贤
Original assignee: Leju Shenzhen Robotics Co Ltd
Current assignee: Leju Shenzhen Robotics Co Ltd
Priority date: 2021-11-01
Filing date: 2021-11-01
Publication date: 2022-01-28

Abstract

本申请提供一种机器人移动方法、装置、设备及存储介质，属于机器人控制技术领域。该方法包括：获取机器人的实际状态信息，实际状态信息包括：当前状态信息以及目标状态信息；将实际状态信息输入至预先训练得到的目标神经网络模型，得到机器人的待执行动作参数，其中，目标神经网络模型基于强化学习奖励函数训练得到，强化学习奖励函数用于根据机器人当前位置到目标点的距离以及机器人与目标障碍物的距离计算奖励结果；根据待执行动作参数控制机器人移动至目标点。本申请可以避免机器人与障碍物发生碰撞，降低机器人移动过程中的风险。

Description

一种机器人移动方法、装置、设备及存储介质

技术领域

本申请涉及机器人控制技术领域，具体而言，涉及一种机器人移动方法、装置、设备及存储介质。

背景技术

在对机器人的导航控制的过程中，通常会存在障碍物挡住机器人规划好的路线，这就导致了机器人亟需一种避障的方式避开这些障碍物从而到达目标点。

现有技术中，通常是在获取到障碍物的位置后，规划出另一条路进行绕行，然而在实际场景中，障碍物很有可能是移动中的人或物，也即是动态障碍物，若规划出新的道路，有可能会产生对动态障碍物抢道的情况。

这就导致了可能因抢道而发生与动态障碍物的碰撞，增加了机器人在移动过程中的风险。

发明内容

本申请的目的在于提供一种机器人移动方法、装置、设备及存储介质，可以避免机器人与障碍物发生碰撞，降低机器人移动过程中的风险。

本申请的实施例是这样实现的：

本申请实施例的一方面，提供一种机器人移动方法，包括：

获取机器人的实际状态信息，实际状态信息包括：当前状态信息以及目标状态信息；

将实际状态信息输入至预先训练得到的目标神经网络模型，得到机器人的待执行动作参数，其中，目标神经网络模型基于强化学习奖励函数训练得到，强化学习奖励函数用于根据机器人当前位置到目标点的距离以及机器人与目标障碍物的距离计算奖励结果；

根据待执行动作参数控制机器人移动至目标点。

可选地，获取机器人的状态信息之前，该方法还包括：

采集机器人实际运行时的状态信息作为样本状态信息，样本状态信息包括：当前状态信息以及目标状态信息；

将样本状态信息输入至初始神经网络模型，得到样本输出结果；

基于样本状态信息确定机器人当前位置到目标点的距离以及机器人与目标障碍物的距离；

根据机器人当前位置到目标点的距离、机器人与目标障碍物的距离以及强化学习奖励函数，得到样本奖励结果；

根据样本奖励结果对初始神经网络模型的模型参数进行更新。

可选地，根据机器人当前位置到目标点的距离、机器人与目标障碍物的距离以及强化学习奖励函数，得到样本奖励结果，包括：

利用强化学习奖励函数，分别计算机器人当前位置到目标点的距离对应的第一奖励结果以及机器人与目标障碍物的距离对应的第二奖励结果，并根据第一奖励结果以及第二奖励结果计算样本奖励结果。

可选地，根据样本奖励结果对初始神经网络模型的模型参数进行更新之后，该方法包括：

基于样本状态信息以及更新后的神经网络模型确定更新后的样本输出结果；

按照更新后的样本输出结果控制机器人移动至目标点；

若移动时间大于预设阈值或者机器人与障碍物发生碰撞，对更新后的神经网络模型的模型参数进行更新。

可选地，按照更新后的样本输出结果控制机器人移动至目标点，包括：

若移动时间小于或者等于预设阈值且机器人与障碍物未发生碰撞，确定更新后的神经网络模型为目标神经网络模型。

可选地，机器人为轮式机器人，待执行动作参数包括机器人待运动速度的大小和方向；根据待执行动作参数控制机器人移动至目标点，包括：

基于轮式差速模型以及机器人待运动速度的大小和方向确定轮式机器人的轮转速方向以及轮转速大小；

按照轮转速方向以及轮转速大小移动至目标点。

可选地，当前状态信息包括：机器人的当前位置信息、速度信息、距离信息；目标状态信息包括：机器人的目标位置信息、预设速度信息、预设转向信息。

本申请实施例的另一方面，提供一种机器人移动装置，包括：获取模块、计算模块以及移动模块；

获取模块，用于获取机器人的实际状态信息，实际状态信息包括：当前状态信息以及目标状态信息；

计算模块，用于将实际状态信息输入至预先训练得到的目标神经网络模型，得到机器人的待执行动作参数，其中，目标神经网络模型基于强化学习奖励函数训练得到，强化学习奖励函数用于根据机器人当前位置到目标点的距离以及机器人与目标障碍物的距离计算奖励结果；

移动模块，用于根据待执行动作参数控制机器人移动至目标点。

可选地，获取模块，还用于采集机器人实际运行时的状态信息作为样本状态信息，样本状态信息包括：当前状态信息以及目标状态信息；计算模块，还用于将样本状态信息输入至初始神经网络模型，得到样本输出结果；基于样本状态信息确定机器人当前位置到目标点的距离以及机器人与目标障碍物的距离；根据机器人当前位置到目标点的距离、机器人与目标障碍物的距离以及强化学习奖励函数，得到样本奖励结果；根据样本奖励结果对初始神经网络模型的模型参数进行更新。

可选地，计算模块，具体用于利用强化学习奖励函数，分别计算机器人当前位置到目标点的距离对应的第一奖励结果以及机器人与目标障碍物的距离对应的第二奖励结果，并根据第一奖励结果以及第二奖励结果计算样本奖励结果。

可选地，计算模块，还用于基于样本状态信息以及更新后的神经网络模型确定更新后的样本输出结果；按照更新后的样本输出结果控制机器人移动至目标点；若移动时间大于预设阈值或者机器人与障碍物发生碰撞，对更新后的神经网络模型的模型参数进行更新。

可选地，计算模块，还用于若移动时间小于或者等于预设阈值且机器人与障碍物未发生碰撞，确定更新后的神经网络模型为目标神经网络模型。

可选地，机器人为轮式机器人，待执行动作参数包括机器人待运动速度的大小和方向；移动模块，具体用于基于轮式差速模型以及机器人待运动速度的大小和方向确定轮式机器人的轮转速方向以及轮转速大小；按照轮转速方向以及轮转速大小移动至目标点。

可选地，在该装置中，当前状态信息包括：机器人的当前位置信息、速度信息、距离信息；目标状态信息包括：机器人的目标位置信息、预设速度信息、预设转向信息。

本申请实施例的另一方面，提供一种计算机设备，包括：存储器、处理器，存储器中存储有可在处理器上运行的计算机程序，处理器执行计算机程序时，实现上述机器人移动方法的步骤。

本申请实施例的另一方面，提供一种计算机可读存储介质，存储介质上存储有计算机程序，该计算机程序被处理器执行时，实现上述机器人移动方法的步骤。

本申请实施例的有益效果包括：

本申请实施例提供的一种机器人移动方法、装置、设备及存储介质中，可以获取机器人的实际状态信息，实际状态信息包括：当前状态信息以及目标状态信息；将实际状态信息输入至预先训练得到的目标神经网络模型，得到机器人的待执行动作参数，其中，目标神经网络模型基于强化学习奖励函数训练得到，强化学习奖励函数用于根据机器人当前位置到目标点的距离以及机器人与目标障碍物的距离计算奖励结果；根据待执行动作参数控制机器人移动至目标点。其中，通过机器人当前位置到目标点的距离以及机器人与目标障碍物的距离计算奖励结果可以在训练神经网络模型的过程中综合考虑到目标点的位置以及周围障碍物的安全距离，能够使得机器人采用该目标神经网络进行移动时，可以在保证到目标点的同时保持与其他障碍物的距离，防止出现抢道的情况，避免了机器人与障碍物可能发生的碰撞，降低了机器人在移动过程中的风险。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的机器人移动方法的应用场景示意图；

图2为本申请实施例提供的机器人移动方法的流程示意图一；

图3为本申请实施例提供的机器人移动方法的流程示意图二；

图4为本申请实施例提供的机器人移动方法的流程示意图三；

图5为本申请实施例提供的机器人移动方法的流程示意图四；

图6为本申请实施例提供的机器人移动示意图；

图7为本申请实施例提供的机器人移动装置的结构示意图；

图8为本申请实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，需要说明的是，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

下面具体来解释本申请实施例中提供的机器人移动方法的具体实施应用场景。

图1为本申请实施例提供的机器人移动方法的应用场景示意图，请参照图1，在该场景中可以包括机器人100以及障碍物200，障碍物200可以是一个也可以是多个，并且，障碍物200可以是动态的障碍物，如：人、车等。

以图1所示为例，机器人100需要从当前所在的位置到目标点300，而障碍物200挡住机器人100预先规划的路径中，因此，机器人100需要对障碍物200进行避障，绕开障碍物200到达目标点300。

可选地，机器人100可以是人形机器人、轮式机器人等，具体可以是用于进行物流运输的机器人。

下面来具体解释本申请实施例中提供的机器人移动方法的具体实施过程。

图2为本申请实施例提供的机器人移动方法的流程示意图一，请参照图2，机器人移动方法，包括：

S210：获取机器人的实际状态信息。

其中，实际状态信息包括：当前状态信息以及目标状态信息。

可选地，该方法的执行主体可以是机器人的控制器，当机器人在通过环境获取设备获取到在预设范围内存在障碍物时，可以执行该方法。

可选地，实际状态信息具体可以是机器人的多个参数信息，其中，当前状态信息可以是机器人的可观测状态信息，也即是可以基于机器人的当前位置以及当前工作状态等可以直接获取到的状态信息；目标状态信息可以是机器人的不可观测状态信息，也即是基于机器人的当前位置以及当前工作状态等不能直接获取，需要通过机器人的控制读取的相关状态信息。

可选地，实际状态信息具体可以通过机器人的相关环境采集设备，如：激光雷达(点云数据采集)、双目相机、超声波传感器等设备采集环境信息后，基于预设的计算公式进行计算得到。

S220：将实际状态信息输入至预先训练得到的目标神经网络模型，得到机器人的待执行动作参数。

其中，目标神经网络模型基于强化学习奖励函数训练得到，强化学习奖励函数用于根据机器人当前位置到目标点的距离以及机器人与目标障碍物的距离计算奖励结果。

可选地，目标神经网络模型可以是通过预先训练得到的神经网络模型，具体可以是一种策略网络，通过该策略网络可以表征机器人的运动策略。

可选地，该目标神经网络具体可以是基于强化学习的神经网路训练方式进行训练得到，其中，强化学习奖励函数用于根据机器人当前位置到目标点的距离以及机器人与目标障碍物的距离计算奖励结果。

可选地，机器人与目标障碍物的距离可以是多个，也即是在机器人距离一定范围内的多个目标障碍物的多个距离。

可选地，机器人的待执行动作参数具体可以是速度参数，也即是机器人应当以具体的速度大小、速度方向执行移动。

S230：根据待执行动作参数控制机器人移动至目标点。

可选地，确定上述待执行动作参数后，可以基于对应的速度大小和速度方向控制机器人移动至目标点。

相应地，若在移动过程中再一次发现存在障碍物，则可以重复上述步骤得到新的待执行动作参数，进而根据新的待执行动作参数控制机器人移动至目标点，在此不加赘述。

本申请实施例提供的一种机器人移动方法中，可以获取机器人的实际状态信息，实际状态信息包括：当前状态信息以及目标状态信息；将实际状态信息输入至预先训练得到的目标神经网络模型，得到机器人的待执行动作参数，其中，目标神经网络模型基于强化学习奖励函数训练得到，强化学习奖励函数用于根据机器人当前位置到目标点的距离以及机器人与目标障碍物的距离计算奖励结果；根据待执行动作参数控制机器人移动至目标点。其中，通过机器人当前位置到目标点的距离以及机器人与目标障碍物的距离计算奖励结果可以在训练神经网络模型的过程中综合考虑到目标点的位置以及周围障碍物的安全距离，能够使得机器人采用该目标神经网络进行移动时，可以在保证到目标点的同时保持与其他障碍物的距离，防止出现抢道的情况，避免了机器人与障碍物可能发生的碰撞，降低了机器人在移动过程中的风险。

下面来具体解释本申请实施例中提供的机器人移动方法的另一具体实施过程。

图3为本申请实施例提供的机器人移动方法的流程示意图二，请参照图3，获取机器人的状态信息之前，该方法还包括：

S310：采集机器人实际运行时的状态信息作为样本状态信息。

其中，样本状态信息包括：当前状态信息以及目标状态信息。

可选地，可以通过环境信息采集设备采集机器人在实际运行过程中的状态信息，获取到这些状态信息后，可以将这些状态信息作为样本状态信息。

需要说明的是，样本状态信息所包括的信息内容与实际状态信息包括的内容信息相同，均可以是当前状态信息以及目标状态信息。

S320：将样本状态信息输入至初始神经网络模型，得到样本输出结果。

可选地，可以将样本状态信息输入至初始神经网络模型，其中，初始神经网络模型可以是未进行训练的目标神经网络模型，具体也可以是一种策略模型，用于表征机器人的运动策略。

可选地，将样本状态信息输入至初始神经网路模型中可以得到对应的样本输出结果，该样本输出结果也可以是相关的速度参数，与前述待执行动作参数相类似。

S330：基于样本状态信息确定机器人当前位置到目标点的距离以及机器人与目标障碍物的距离。

可选地，获取样本输出结果之后，可以基于样本状态信息确定当前位置到目标点的距离以及机器人与目标障碍物的距离，也即是可以根据环境采集设备采集到的相关数据确定机器人到目标点的距离以及机器人到目标障碍物的距离。

S340：根据机器人当前位置到目标点的距离、机器人与目标障碍物的距离以及强化学习奖励函数，得到样本奖励结果。

可选地，强化学习奖励函数可以是一个预设的函数关系公式，基于机器人当前位置到目标点的距离、机器人与目标障碍物的距离可以采用该强化学习奖励函数进行计算，进而得到样本奖励结果。

S350：根据样本奖励结果对初始神经网络模型的模型参数进行更新。

可选地，确定样本奖励结果后，可以基于该样本奖励结果对初始神经网络模型的模型参数进行更新，直到得到上述目标神经网络模型为止。

可选地，根据机器人当前位置到目标点的距离、机器人与目标障碍物的距离以及强化学习奖励函数，得到样本奖励结果，包括：利用强化学习奖励函数，分别计算机器人当前位置到目标点的距离对应的第一奖励结果以及机器人与目标障碍物的距离对应的第二奖励结果，并根据第一奖励结果以及第二奖励结果计算样本奖励结果。

可选地，强化学习奖励函数具体如下：

r_all＝α_1·r_goal+α_2·r_collison；

其中，r_all即为样本奖励结果；α₁、α₂为权值参数，通常为预设的常数；r_goal为第一奖励结果；r_collison为第二奖励结果。

需要说明的是，第一奖励结果可以是与机器人当前位置到目标点的距离相关的一个参数，第二奖励结果可以是机器人与目标障碍物的距离相关的一个参数，具体可以是正比关系、反比关系或者其他关系，可以根据用户的实际需求进行设置，在此不作具体限制。

可选地，在实际计算的过程中，可以基于机器人当前位置到目标点的距离确定第一奖励结果，根据机器人与目标障碍物的距离确定第二奖励结果后，基于上述强化学习奖励函数进行计算，得到样本奖励结果。

下面来具体解释本申请实施例中提供的机器人移动方法的又一具体实施过程。

图4为本申请实施例提供的机器人移动方法的流程示意图三，请参照图4，根据样本奖励结果对初始神经网络模型的模型参数进行更新之后，该方法包括：

S410：基于样本状态信息以及更新后的神经网络模型确定更新后的样本输出结果。

可选地，对初始神经网络模型进行更新后，可以将上述样本状态信息输入至更新后的神经网络模型中，并基于更新后的神经网络模型得到更新后的样本输出结果，该更新后的样本输出结果具体可以是一个速度参数，用于指示机器人具体以一个速度大小以及一个速度方向进行移动。

可选地，在进行参数更新时，可以采用PPO(Proximal Policy Optimization，深度增强学习)算法，对神经网络的参数进行更细，具体可以是对网络权重进行更新，以使该神经网络趋向于收敛。

S420：按照更新后的样本输出结果控制机器人移动至目标点。

可选地，确定更新后的样本输出结果之后，可以使机器人基于该样本输出结果移动至目标点；也即是，以一个速度大小以及一个速度方向移动至目标点。

S430：若移动时间大于预设阈值或者机器人与障碍物发生碰撞，对更新后的神经网络模型的模型参数进行更新。

可选地，在移动的过程中，若机器人与障碍物发生了碰撞；或者在移动到目标点后累计移动的时间超过了预设阈值，则可以确定当前神经网络模型未收敛，需要继续对神经网络参数进行更新调整，调整完成后，重复上述S410-S430的步骤，直到移动时间小于或者等于预设阈值且机器人与障碍物未发生碰撞为止。

S440：若移动时间小于或者等于预设阈值且机器人与障碍物未发生碰撞，确定更新后的神经网络模型为目标神经网络模型。

可选地，若移动时间小于或者等于预设阈值且机器人与障碍物未发生碰撞则可以确定该更新后的神经网络模型收敛，可以将该更新后的神经网络模型作为目标神经网络模型，进行实际应用。

本申请实施例中提供的一种机器人移动方法中，可以基于样本状态信息以及更新后的神经网络模型确定更新后的样本输出结果；按照更新后的样本输出结果控制机器人移动至目标点；若移动时间大于预设阈值或者机器人与障碍物发生碰撞，对更新后的神经网络模型的模型参数进行更新。若移动时间小于或者等于预设阈值且机器人与障碍物未发生碰撞，确定更新后的神经网络模型为目标神经网络模型。其中，通过上述方式循环对神经网络模型的参数进行更新可以是模型趋向满足用户需求，确定为目标神经网络之后，以该目标神经网络控制机器人移动时，可以更加准确地避开障碍物，并且可以更加快速地到达目标点，从而在保证移动速度的同时，避免机器人与障碍物发生碰撞，降低机器人移动过程中的风险。

下面来具体解释本申请实施例中提供的机器人移动方法中控制机器人移动至目标点的具体实施过程。

图5为本申请实施例提供的机器人移动方法的流程示意图四，请参照图5，机器人为轮式机器人，待执行动作参数包括机器人待运动速度的大小和方向；根据待执行动作参数控制机器人移动至目标点，包括：

S510：基于轮式差速模型以及机器人待运动速度的大小和方向确定轮式机器人的轮转速方向以及轮转速大小。

可选地，轮式差速模型具体可以是用于将待运动速度的大小和方向转换为轮式机器人的轮子的轮转速方向以及轮转速大小的模型，可以设置有一定映射关系，当输入上述待运动速度的大小和方向后，通过该轮式差速模型即可以得到轮式机器人的轮转速方向以及轮转速大小。

S520：按照轮转速方向以及轮转速大小移动至目标点。

可选地，确定轮转速方向以及轮转速大小之后，可以控制轮式机器人按照该方式进行移动，以到达目标点。

需要说明的是，上述仅为对于轮式机器人的一种示例，对于其他类型的机器人如：双足机器人、飞行机器人等不同类型的机器人，可以采用不同的计算模型得到对应的移动方式，凡是可以实现移动至目标点即可，在此不作具体限制。

可选地，机器人的当前位置信息具体可以表示为一个坐标点，例如：(p_x,p_y)，速度信息具体可以表示为水平方向的速度以及竖直方向的速度，例如：(v_x,v_y)，距离信息具体可以是机器人距离障碍物的距离r。

可选地，机器人的目标位置信息具体可以表示为一个坐标点，例如：(p_gx,p_gy)，预设速度信息具体可以是机器人当前的预设速度大小具体可以表示为一个速度值v_pref，预设转向信息具体可以是机器人当前的预设转向方向，也即是预设速度的方向，具体可以表示为一个转向角ψ。

可选地，当前状态信息具体可以表示为s^o＝[p_x,p_y,v_xv_y,r]∈R⁵，目标状态信息具体可以表示为s^h＝[p_gx,p_gy,v_pref,ψ]∈R⁴。

可选地，样本状态信息即可以表示为s_t＝[s^o,s^h]。

可选地，可以令机器人的待执行动作参数u_t表示为在t时刻的速度v_t，也即是u_t＝v_t；则目标神经网络模型可以以一个控制策略的方式进行表示，该控制策略可以表示为π，则π：

其中，s_t为样本状态信息，

为预期估计的样本状态信息，具体模型内的计算关系如下：

在t时刻，该模型可以表示为：

其中，

即为该模型的期望；

为估计的机器人到障碍物的距离；P_t为t时间的速度，

为t时间的估计速度；Δt为间隔时间。

图6为本申请实施例提供的机器人移动示意图，请参照图6，图6中所示为可行的避障方式，如a所示为机器人100与动态障碍物200相向而行时的避障轨迹；b所示为机器人100与动态障碍物200交叉行进时的避障轨迹；c所示为机器人100与动态障碍物200同向行进时的避障轨迹。

下述对用以执行的本申请所提供的机器人移动方法对应的装置、设备及存储介质等进行说明，其具体的实现过程以及技术效果参见上述，下述不再赘述。

图7为本申请实施例提供的机器人移动装置的结构示意图，请参照图7，机器人移动装置，包括：获取模块710、计算模块720以及移动模块730；

获取模块710，用于获取机器人的实际状态信息，实际状态信息包括：当前状态信息以及目标状态信息；

计算模块720，用于将实际状态信息输入至预先训练得到的目标神经网络模型，得到机器人的待执行动作参数，其中，目标神经网络模型基于强化学习奖励函数训练得到，强化学习奖励函数用于根据机器人当前位置到目标点的距离以及机器人与目标障碍物的距离计算奖励结果；

移动模块730，用于根据待执行动作参数控制机器人移动至目标点。

可选地，获取模块710，还用于采集机器人实际运行时的状态信息作为样本状态信息，样本状态信息包括：当前状态信息以及目标状态信息；计算模块720，还用于将样本状态信息输入至初始神经网络模型，得到样本输出结果；基于样本状态信息确定机器人当前位置到目标点的距离以及机器人与目标障碍物的距离；根据机器人当前位置到目标点的距离、机器人与目标障碍物的距离以及强化学习奖励函数，得到样本奖励结果；根据样本奖励结果对初始神经网络模型的模型参数进行更新。

可选地，计算模块720，具体用于利用强化学习奖励函数，分别计算机器人当前位置到目标点的距离对应的第一奖励结果以及机器人与目标障碍物的距离对应的第二奖励结果，并根据第一奖励结果以及第二奖励结果计算样本奖励结果。

可选地，计算模块720，还用于基于样本状态信息以及更新后的神经网络模型确定更新后的样本输出结果；按照更新后的样本输出结果控制机器人移动至目标点；若移动时间大于预设阈值或者机器人与障碍物发生碰撞，对更新后的神经网络模型的模型参数进行更新。

可选地，计算模块720，还用于若移动时间小于或者等于预设阈值且机器人与障碍物未发生碰撞，确定更新后的神经网络模型为目标神经网络模型。

可选地，机器人为轮式机器人，待执行动作参数包括机器人待运动速度的大小和方向；移动模块730，具体用于基于轮式差速模型以及机器人待运动速度的大小和方向确定轮式机器人的轮转速方向以及轮转速大小；按照轮转速方向以及轮转速大小移动至目标点。

上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

图8为本申请实施例提供的计算机设备的结构示意图，请参照图8，计算机设备，包括：存储器810、处理器820，存储器810中存储有可在处理器820上运行的计算机程序，处理器820执行计算机程序时，实现上述机器人移动方法的步骤。

本申请实施例的另一方面，还提供一种计算机可读存储介质，存储介质上存储有计算机程序，该计算机程序被处理器执行时，实现上述机器人移动方法的步骤。

可选地，上述计算机设备具体可以是机器人的控制器。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种机器人移动方法，其特征在于，包括：

获取机器人的实际状态信息，所述实际状态信息包括：当前状态信息以及目标状态信息；

将所述实际状态信息输入至预先训练得到的目标神经网络模型，得到所述机器人的待执行动作参数，其中，所述目标神经网络模型基于强化学习奖励函数训练得到，所述强化学习奖励函数用于根据所述机器人当前位置到目标点的距离以及所述机器人与目标障碍物的距离计算奖励结果；

根据所述待执行动作参数控制所述机器人移动至所述目标点。

2.如权利要求1所述的方法，其特征在于，所述获取机器人的状态信息之前，所述方法还包括：

采集机器人实际运行时的状态信息作为样本状态信息，所述样本状态信息包括：当前状态信息以及目标状态信息；

将所述样本状态信息输入至初始神经网络模型，得到样本输出结果；

基于所述样本状态信息确定所述机器人当前位置到目标点的距离以及所述机器人与目标障碍物的距离；

根据所述机器人当前位置到目标点的距离、所述机器人与目标障碍物的距离以及所述强化学习奖励函数，得到样本奖励结果；

根据所述样本奖励结果对所述初始神经网络模型的模型参数进行更新。

3.如权利要求2所述的方法，其特征在于，所述根据所述机器人当前位置到目标点的距离、所述机器人与目标障碍物的距离以及所述强化学习奖励函数，得到样本奖励结果，包括：

利用所述强化学习奖励函数，分别计算所述机器人当前位置到目标点的距离对应的第一奖励结果以及所述机器人与目标障碍物的距离对应的第二奖励结果，并根据所述第一奖励结果以及所述第二奖励结果计算所述样本奖励结果。

4.如权利要求2所述的方法，其特征在于，所述根据所述样本奖励结果对所述初始神经网络模型的模型参数进行更新之后，所述方法包括：

基于所述样本状态信息以及更新后的神经网络模型确定更新后的样本输出结果；

按照更新后的样本输出结果控制所述机器人移动至目标点；

若移动时间大于预设阈值或者所述机器人与障碍物发生碰撞，对所述更新后的神经网络模型的模型参数进行更新。

5.如权利要求4所述的方法，其特征在于，所述按照更新后的样本输出结果控制所述机器人移动至目标点，包括：

若移动时间小于或者等于预设阈值且所述机器人与障碍物未发生碰撞，确定所述更新后的神经网络模型为所述目标神经网络模型。

6.如权利要求1所述的方法，其特征在于，所述机器人为轮式机器人，所述待执行动作参数包括机器人待运动速度的大小和方向；

所述根据所述待执行动作参数控制所述机器人移动至所述目标点，包括：

基于轮式差速模型以及所述机器人待运动速度的大小和方向确定所述轮式机器人的轮转速方向以及轮转速大小；

按照所述轮转速方向以及轮转速大小移动至所述目标点。

7.如权利要求1所述的方法，其特征在于，所述当前状态信息包括：机器人的当前位置信息、速度信息、距离信息；所述目标状态信息包括：机器人的目标位置信息、预设速度信息、预设转向信息。

8.一种机器人移动装置，其特征在于，包括：获取模块、计算模块以及移动模块；

所述获取模块，用于获取机器人的实际状态信息，所述实际状态信息包括：当前状态信息以及目标状态信息；

所述计算模块，用于将所述实际状态信息输入至预先训练得到的目标神经网络模型，得到所述机器人的待执行动作参数，其中，所述目标神经网络模型基于强化学习奖励函数训练得到，所述强化学习奖励函数用于根据所述机器人当前位置到目标点的距离以及所述机器人与目标障碍物的距离计算奖励结果；

所述移动模块，用于根据所述待执行动作参数控制所述机器人移动至所述目标点。

9.一种计算机设备，其特征在于，包括：存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现上述权利要求1至7任一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，该计算机程序被处理器执行时，实现权利要求1至7中任一项所述方法的步骤。