CN114510031A

CN114510031A - 机器人视觉导航方法、装置、机器人及存储介质

Info

Publication number: CN114510031A
Application number: CN202111681146.3A
Authority: CN
Inventors: 万里红; 刘娜; 袁野; 吴国栋; 张赛
Original assignee: Zhongyuan Power Intelligent Robot Co ltd
Current assignee: Zhongyuan Power Intelligent Robot Co ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-05-17

Abstract

本申请公开了一种机器人视觉导航方法、装置、机器人及存储介质，通过对机器人采集到的视觉图像进行目标检测，提取视觉图像中的动态对象信息和静态对象信息，并根据动态对象信息、静态对象信息和机器人的本体信息，生成环境模型，以得到机器人移动过程的实时环境地图，便于机器人进行全局规划；再根据环境模型和预设专家导航策略的最优奖赏函数，更新路径规划智能体，以利用逆强化学习算法，提高机器人对不同环境进行路径规划时的环境适应性；最后利用更新后的路径规划智能体，对机器人进行路径规划，得到全局导航路径，从而实时更新全局导航路径，避免导航路径陷入局部最优，提高路径规划的准确度。

Description

机器人视觉导航方法、装置、机器人及存储介质

技术领域

本申请涉及导航控制技术领域，尤其涉及一种机器人视觉导航方法、装置、机器人及存储介质。

背景技术

在移动机器人行业，近几年以摄像机作为感知器的视觉导航应用正在逐渐增多。传统的导航控制技术中，如A＊算法、Dijkstra等全局路径规划方法需要全局环境信息已知，且难以解决不断变化的场景。而类似于人工势场、动态窗口、D＊等局部路径规划方法虽然能够在一定程度上解决动态场景问题，但是上述方法是以极短的时间重新观测变化后的环境，重规划出新的路线，而对于动态性较高的场景就会出现重规划难的情况，定位时只考虑局部环境信息导致容易出现局部最优的情况。

发明内容

本申请提供了一种机器人视觉导航方法、装置、机器人及存储介质，以解决当前视觉导航方法存在环境适应性差的技术问题。

为了解决上述技术问题，本申请实施例提供了一种机器人视觉导航方法，包括：

对机器人采集到的视觉图像进行目标检测，提取所述视觉图像中的动态对象信息和静态对象信息；

根据所述动态对象信息、所述静态对象信息和所述机器人的本体信息，生成环境模型；

根据所述环境模型和预设专家导航策略的最优奖赏函数，更新路径规划智能体；

利用更新后的所述路径规划智能体，对所述机器人进行路径规划，得到全局导航路径，所述全局导航路径用于对所述机器人进行导航控制。

本实施例通过对机器人采集到的视觉图像进行目标检测，提取所述视觉图像中的动态对象信息和静态对象信息，并根据所述动态对象信息、所述静态对象信息和所述机器人的本体信息，生成环境模型，以得到机器人移动过程的实时环境地图，便于机器人进行全局规划；再根据所述环境模型和预设专家导航策略的最优奖赏函数，更新路径规划智能体，以利用逆强化学习算法，提高机器人对不同环境进行路径规划时的环境适应性；最后利用更新后的所述路径规划智能体，对所述机器人进行路径规划，得到全局导航路径，从而实时更新全局导航路径，避免导航路径陷入局部最优，提高路径规划的准确度。

在一实施例中，所述根据所述动态对象信息、所述静态对象信息和所述机器人的本体信息，生成环境模型，包括：

确定所述动态对象信息和所述静态对象信息与所述本体信息之间的实际位置关系；

将所述实际位置关系结合预设的危险距离和最大感知距离，对所述机器人进行避障判断，以建立所述环境模型。

在一实施例中，所述根据所述环境模型和预设专家导航策略的最优奖赏函数，更新路径规划智能体，包括：

根据所述环境模型和所述机器人的当前状态信息，确定随机模型预测控制器，所述随机模型预测控制器满足预设的最优控制成本函数；

根据所述最优控制成本函数，确定所述预设专家导航策略的最优奖赏函数；

根据所述最优奖赏函数，对所述路径规划智能体进行更新。

可选地，所述最优控制成本函数为：

其中，C_speed表示对速度施加的惩罚系数，C_crach表示对碰撞施加的惩罚系数，I为指示器函数，v_x表示所述机器人在x方向上的实际速度，

表示所述机器人在x方向上的期望速度，X_t表示t时刻的状态信息。

在一实施例中，所述根据所述最优控制成本函数，确定所述预设专家导航策略的最优奖赏函数，包括：

根据所述最优控制成本函数和所述预设专家导航策略，确定所述预设专家导航策略的奖赏函数集合；

利用优化函数，对所述奖赏函数集合进行优化，得到所述预设专家导航策略的最优奖赏函数。

可选地，所述奖赏函数集合中的每个奖赏函数满足预设条件，所述预设条件为：

表示所述预设专家导航策略的转移矩阵，p_a表示非专家导航策略的转移矩阵，I为指示器函数，R为所述奖赏函数，γ为折扣因子。

可选地，所述优化函数为：

其中，S表示状态空间，Q^π(s,a₁)表示在状态s时采用预设专家导航策略a₁时的Q函数，Q^π(s,a)表示在状态s时采用非专家导航策略a时的Q函数，Q函数表示未来奖励期望值。

第二方面，本申请实施例提供一种机器人视觉导航装置，包括：

检测模块，用于对机器人采集到的视觉图像进行目标检测，提取所述视觉图像中的动态对象信息和静态对象信息；

生成模块，用于根据所述动态对象信息、所述静态对象信息和所述机器人的本体信息，生成环境模型；

更新模块，用于根据所述环境模型和预设专家导航策略的最优奖赏函数，更新路径规划智能体；

规划模块，用于利用更新后的所述路径规划智能体，对所述机器人进行路径规划，得到全局导航路径，所述全局导航路径用于对所述机器人进行导航控制。

第三方面，本申请实施例提供一种机器人，包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时实现如第一方面所述的机器人视觉导航方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的机器人视觉导航方法。

需要说明的是，上述第二方面至第四方面的有益效果请参见上述第一方面的相关描述，在此不再赘述。

附图说明

图1为本申请实施例提供的机器人视觉导航方法的流程示意图；

图2为本申请实施例提供的机器人视觉导航装置的结构示意图；

图3为本申请实施例提供的机器人的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如相关技术记载，当前方法是以极短的时间重新观测变化后的环境，重规划出新的路线，而对于动态性较高的场景就会出现重规划难的情况，定位时只考虑局部环境信息导致容易出现局部最优的情况。

为此，本申请实施例提供一种机器人视觉导航方法、装置、机器人及存储介质，通过对机器人采集到的视觉图像进行目标检测，提取所述视觉图像中的动态对象信息和静态对象信息，并根据所述动态对象信息、所述静态对象信息和所述机器人的本体信息，生成环境模型，以得到机器人移动过程的实时环境地图，便于机器人进行全局规划；再根据所述环境模型和预设专家导航策略的最优奖赏函数，更新路径规划智能体，以利用逆强化学习算法，提高机器人对不同环境进行路径规划时的环境适应性；最后利用更新后的所述路径规划智能体，对所述机器人进行路径规划，得到全局导航路径，从而实时更新全局导航路径，避免导航路径陷入局部最优，提高路径规划的准确度。

请参照图1，图1为本申请实施例提供的一种机器人视觉导航方法的流程示意图。本申请实施例的机器人视觉导航方法可应用于机器人，机器人包括但不限于扫地机器人和巡检机器人等。如图1所示，本实施例的机器人视觉导航方法包括步骤S101至步骤S104，详述如下：

步骤S101，对机器人采集到的视觉图像进行目标检测，提取所述视觉图像中的动态对象信息和静态对象信息。

在本步骤中，机器人实时采集视觉图像。由于从视觉传感器获得的图像或视频易受到噪声或者是背景的影响，一般情况下，从视觉传感器获得的图像包含噪声，而图像质量的好坏直接影响后续算法的精度。因此需要先进行视觉图像的预处理，预处理包括但不限于图像的去噪、灰度化和二值化等，图像预处理的主要目的是消除图像中无关的信息，恢复有用的真实信息，增强有关信息的可检测性、最大限度地简化数据，从而改进特征提取、图像分割、匹配和识别的可靠性。

从预处理后的视觉图像提取现实场景中的静态对象信息和动态对象信息。基于3D视觉技术，实时感知移动机器人周边环境中静态对象和动态对象的距离、坐标位置等关键信息。对于静态对象，利用角点提取和边提取相结合的方式提取特征。对于动态对象，利用当前帧图像与背景图像作差分运算进行运动目标的特征提取。

步骤S102，根据所述动态对象信息、所述静态对象信息和所述机器人的本体信息，生成环境模型。

在本步骤中，确定所述动态对象信息和所述静态对象信息与所述本体信息之间的实际位置关系；

可选地，建立环境模型，在环境模型中，定义移动机器人目标位置，障碍物对象，机器人本体对象，同时定义位于移动机器人左前、正前、右前位置传感器的检测范围。对环境模型做如下假设：目标位置已知，障碍物位置未知，在机器人运动过程中目标位置不发生任何变化，移动机器人具备初始速度，在运动过程中速度恒定，不发生变化。定义d_risk和d_max分别为移动机器人距离障碍物对象的危险距离和最大感知距离，d为移动机器人距离障碍物的实际距离，避开障碍物的判断过程为：

如果d<d_risk，则移动机器人与障碍物发生碰撞，对移动机器人的位置进行初始化；

如果d_risk<d<d_max，则障碍物在移动机器人的感知范围内，移动机器人根据障碍物位置调整自身方向；

如果d>d_max，则障碍物不在移动机器人的感知范围内。

步骤S103，根据所述环境模型和预设专家导航策略的最优奖赏函数，更新路径规划智能体。

在本步骤中，根据所述环境模型和所述机器人的当前状态信息，确定随机模型预测控制器，所述随机模型预测控制器满足预设的最优控制成本函数；根据所述最优控制成本函数，确定所述预设专家导航策略的最优奖赏函数；根据所述最优奖赏函数，对所述路径规划智能体进行更新。

使用一个随机模型预测控制器(Random Model Predictive Control，RMPC)预测导航路径积分控制，该控制器可以操作非线性动力学，具有非凸代价函数，是一种具有后退时间范围的路径规划和控制的迭代优化控制器。最优控制成本函数为：

其中，C_speed表示对速度施加的惩罚系数，C_crach表示对碰撞施加的惩罚系数，I为指示器函数，如果碰撞对象对移动机器人的伤害大，则I＝1，否则I＝0，碰撞成本取决于指示器函数I，v_x表示所述机器人在x方向上的实际速度，

表示所述机器人在x方向上的期望速度，X_t表示t时刻的状态信息，

表示移动机器人在世界坐标系中的状态。

可以理解的是，安装在移动机器人上的摄像机的图像空间是局部固定帧，即图像空间中表示的状态相对于移动机器人的摄像机。然而，导航路径规划是以第一人称视图的最优路径，因此在世界坐标中描述的车辆的未来状态轨迹必须转换为移动参考系。

可选地，所述根据所述最优控制成本函数，确定所述预设专家导航策略的最优奖赏函数，包括：根据所述最优控制成本函数和所述预设专家导航策略，确定所述预设专家导航策略的奖赏函数集合；利用优化函数，对所述奖赏函数集合进行优化，得到所述预设专家导航策略的最优奖赏函数。

在本可选实施例中，最优奖赏函数的优化任务包括(1)找出专家策略对应的奖赏函数集合和(2)对该集合进行筛减。对于有限的状态空间S和动作空间A有限，而且已知最优策略Φ、模型动态性p(转移概率)以及折扣因子。对于给定专家策略Φ，对应的奖赏函数R满足预设条件：

由于满足预设条件的奖赏函数R有很多，因此需要对上述专家策略对应的奖赏函数集合进行筛减。由于最优的奖赏函数一定可以最大程度的区分专家策略与一般策略，因此采用优化函数进行筛选，优化函数为：

进一步地，加入惩罚项加快筛选过程的收敛速度，惩罚函数定义如下：

步骤S104，利用更新后的所述路径规划智能体，对所述机器人进行路径规划，得到全局导航路径，所述全局导航路径用于对所述机器人进行导航控制。

在本步骤中，筛选出最优奖赏函数后，将其作为路径规划智能体评估的标准，利用梯度下降方法对路径规划智能体进行更新，并把得到的价值梯度作为策略网络更新的标准。不断循环执行上述学习过程，最终规划出移动机器人的全局路径。

本实施例以改进移动机器人导航路径规划方法的自主性和环境适应性为目标。相比于传统的强化学习方法是求累积回报期望最大时的最优策略，在求解过程中立即回报是人为给定的。然而，在移动机器人导航路径规划问题中，尤其是复杂的任务和场景中，立即回报很难指定。事实上，人类在完成复杂的任务时，并没有显性的回报函数，本申请实施例利用逆强化学习方法自主求解奖赏函数，使得奖赏函数描述任务的能力更强、泛化能力更好以及使奖赏函数具有在不同智能体之间的可转移性。

为了执行上述方法实施例对应的机器人视觉导航方法，以实现相应的功能和技术效果。参见图2，图2示出了本申请实施例提供的一种机器人视觉导航装置的结构框图。为了便于说明，仅示出了与本实施例相关的部分，本申请实施例提供的机器人视觉导航装置，包括：

检测模块201，用于对机器人采集到的视觉图像进行目标检测，提取所述视觉图像中的动态对象信息和静态对象信息；

生成模块202，用于根据所述动态对象信息、所述静态对象信息和所述机器人的本体信息，生成环境模型；

更新模块203，用于根据所述环境模型和预设专家导航策略的最优奖赏函数，更新路径规划智能体；

规划模块204，用于利用更新后的所述路径规划智能体，对所述机器人进行路径规划，得到全局导航路径，所述全局导航路径用于对所述机器人进行导航控制。

在一实施例中，所述生成模块202，包括：

第一确定单元，用于确定所述动态对象信息和所述静态对象信息与所述本体信息之间的实际位置关系；

避障单元，用于将所述实际位置关系结合预设的危险距离和最大感知距离，对所述机器人进行避障判断，以建立所述环境模型。

在一实施例中，所述更新模块203，包括：

第二确定单元，用于根据所述环境模型和所述机器人的当前状态信息，确定随机模型预测控制器，所述随机模型预测控制器满足预设的最优控制成本函数；

第三确定单元，用于根据所述最优控制成本函数，确定所述预设专家导航策略的最优奖赏函数；

更新单元，用于根据所述最优奖赏函数，对所述路径规划智能体进行更新。

可选地，所述最优控制成本函数为：

在一实施例中，所述第三确定单元，包括：

确定子单元，用于根据所述最优控制成本函数和所述预设专家导航策略，确定所述预设专家导航策略的奖赏函数集合；

优化子单元，用于利用优化函数，对所述奖赏函数集合进行优化，得到所述预设专家导航策略的最优奖赏函数。

可选地，所述优化函数为：

上述的机器人视觉导航装置可实施上述方法实施例的机器人视觉导航方法。上述方法实施例中的可选项也适用于本实施例，这里不再详述。本申请实施例的其余内容可参照上述方法实施例的内容，在本实施例中，不再进行赘述。

图3为本申请一实施例提供的机器人的结构示意图。如图3所示，该实施例的机器人3包括：至少一个处理器30(图3中仅示出一个)处理器、存储器31以及存储在所述存储器31中并可在所述至少一个处理器30上运行的计算机程序32，所述处理器30执行所述计算机程序32时实现上述任意方法实施例中的步骤。

所述机器人3可以是扫地机器人、巡检机器人等计算设备。该机器人可包括但不仅限于处理器30、存储器31。本领域技术人员可以理解，图3仅仅是机器人3的举例，并不构成对机器人3的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器30可以是中央处理单元(Central Processing Unit，CPU)，该处理器30还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器31在一些实施例中可以是所述机器人3的内部存储单元，例如机器人3的硬盘或内存。所述存储器31在另一些实施例中也可以是所述机器人3的外部存储设备，例如所述机器人3上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器31还可以既包括所述机器人3的内部存储单元也包括外部存储设备。所述存储器31用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器31还可以用于暂时地存储已经输出或者将要输出的数据。

另外，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任意方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行时实现上述各个方法实施例中的步骤。

在本申请所提供的几个实施例中，可以理解的是，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意的是，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台终端设备执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read－Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述的具体实施例，对本申请的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本申请的具体实施例而已，并不用于限定本申请的保护范围。特别指出，对于本领域技术人员来说，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种机器人视觉导航方法，其特征在于，包括：

2.如权利要求1所述的机器人视觉导航方法，其特征在于，所述根据所述动态对象信息、所述静态对象信息和所述机器人的本体信息，生成环境模型，包括：

3.如权利要求1所述的机器人视觉导航方法，其特征在于，所述根据所述环境模型和预设专家导航策略的最优奖赏函数，更新路径规划智能体，包括：

根据所述最优奖赏函数，对所述路径规划智能体进行更新。

4.如权利要求3所述的机器人视觉导航方法，其特征在于，所述最优控制成本函数为：

5.如权利要求3所述的机器人视觉导航方法，其特征在于，所述根据所述最优控制成本函数，确定所述预设专家导航策略的最优奖赏函数，包括：

6.如权利要求5所述的机器人视觉导航方法，其特征在于，所述奖赏函数集合中的每个奖赏函数满足预设条件，所述预设条件为：

7.如权利要求5所述的机器人视觉导航方法，其特征在于，所述优化函数为：

8.一种机器人视觉导航装置，其特征在于，包括：

9.一种机器人，其特征在于，包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7任一项所述的机器人视觉导航方法。

10.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的机器人视觉导航方法。