CN116047902A

CN116047902A - 一种机器人在人群中导航的方法、装置、设备及存储介质

Info

Publication number: CN116047902A
Application number: CN202211631945.4A
Authority: CN
Inventors: 周娴玮; 叶鑫; 张锟
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2023-05-02

Abstract

本发明涉及一种机器人在人群中导航的方法、装置、设备及存储介质。本发明所述的种机器人在人群中导航的方法通过以静态贝叶斯博弈理论为基础，对不完信息下的人群导航进行建模，引入虚拟参与者“自然(Nature)”，预先设置模拟人群采取的不同策略的先验概率，并根据概率随机选择出待分配的人群策略类型，然后通过后验概率不断修正机器人关于人群(智能体)采用的策略类型的判断，最后通过深度强化学习进行不断的迭代学习。最终使智能体能够适应不同的人群类型，并提高在复杂环境中导航的性能，具有解决现有的移动机器人在复杂环境中导航中由于对人群建模单一而导致的鲁棒性差、适应能力差、迁移能力弱等问题的能力。

Description

一种机器人在人群中导航的方法、装置、设备及存储介质

技术领域

本发明涉及机器人领域，特别是涉及一种机器人在人群中导航的方法、装置、设备及存储介质。

背景技术

随着机器人技术的迅猛发展，越来越多的移动机器人被应用在服务领域，因此机器人和人群不得不共享同一个环境。然而，能否在人群中高效且安全的导航是衡量该技术是否成熟的关键要素。

首先，在人群中导航不是一个简单的线性叠加问题，这意味着agent(智能体)无法知道其他agent或者真实行人的策略和目标。取而代之的是，agent只能通过基于它们的可观察状态(如位置、速度等)的预测来估计其他agent或行人的行动。另外，环境通常同时包含静态障碍物和动态障碍物。在整个导航过程中，每一个在环境中的要素都存在显式或者隐式的交互，这意味着agent和行人的动作可能随时改变。最后，由于环境通常是部分可观察的，机器人无法获得所有人的状态，导致环境建模具有较高的不确定性。这使得移动机器人在高度动态化和拥挤的场景中难以实现高效且安全的导航。

传统的导航方法将行人视为静态障碍物，存在短视和不安全等问题。因为传统的方法是通过手动设计优化函数来避障，因此根据人群规模的不同，它们的最优参数也不同，当人群规模突然变化时，就会引起碰撞。

发明内容

基于此，本发明目的在于，提供一种机器人在人群中导航的方法、装置、设备及存储介质，其用于解决针对现有的移动机器人在复杂环境中导航中由于对人群建模单一而导致的鲁棒性差、适应能力差、迁移能力弱等问题。

本申请是通过如下技术方案实现的：

第一方面，本申请提供一种机器人在人群中导航的方法，其包括：

S10：初始化环境，构建不完全信息下的人群导航博弈模型，并引入虚拟参与者，预设智能体采取不同策略的先验概率，所述虚拟参与者用于根据所述先验概率给多个智能体从策略池中分配策略；

S20：获取修正策略类型推断，控制所述虚拟参与者根据修正后的概率选择策略类型并控制对应的智能体输出动作，并计算所有智能体效用收益；

S30：若所述智能体效用收益没有达到贝叶斯纳什均衡，则重复步骤S20，若到达贝叶斯纳什均衡，则输出最优解，控制多个所述智能体获取对应的最优解所得到的策略概率来输出相应动作；

S40：获取环境信息，并对其进行统一编码，所述环境信息包括所述智能体内部之间的关系及机器人与所述智能体之间的关系；

S50：获取所述编码信息，控制所述机器人根据所述编码信息和自身策略选择输出动作；

S60：获取步骤S50中所述机器人的输出动作和步骤S30中所述多个智能体的输出动作，形成联合动作；

S70：判断所述机器人输出动作后是否抵达预设目标点；根据结果并结合奖励函数对机器人的策略选择进行修正，最后判断是否完成训练。

进一步地，所述人群导航博弈模型用六元组集合描述为：

其中A为博弈者的行动空间，A＝{Aagent，Acrow(i)}i＝1,2.....,n；T博弈对抗中策略类型空间，T＝{Tagent，T crow(i)}，S＝{S crow(i)}是策略集，P＝{P crow(i)}为参与博弈对抗的其他智能体对另一方智能体策略类型的初始判断概率，

是参与博弈中另一博弈方观察到crow(i)的策略之后，使用贝叶斯法则对其对策略类型的推断进行修正后的概率，U＝{Uagent，U crow(i)}是智能体和人群各自的效用收益。

进一步地，策略池中包括：

OCRA、人工势场法、社会力势场法和静止。

进一步地，根据结果并结合奖励函数对机器人的策略选择进行修正，最后判断是否完成训练具体包括：

若抵达所述预设目标点，则根据设置好的奖励函数给予奖励并生成下一个目标点并返回至步骤40；若未抵达所述预设目标点，则判断是否碰撞或者最大步数限制，若发生碰撞或者达到最大步数限制则重置环境并返回至步骤40；若没有发生碰撞或者达到最大步数限制，则判断所诉和机器人当前是否达到最大训练回合，若没有达到最大训练回合，则更新网络权重并回到步骤40；若达到最大训练回合，则结束并返回最优策略。

进一步地，所述奖励函数具体包括：

其中d_t为周期[t-Δt,t]内机器人与距离自己最近的智能体之间的最小距离，t_max为设定好的最大导航时间，p_t为机器人当前位置，p_t-1为机器人上一个时间步的位置，p_g为机器人目标位置。

进一步地，所述最优策略的计算公式为：

其中ρ_π表示策略π的边缘分布，γ是折扣因子，r(s_t,a_t)表示每一步迭代所获得的奖励。

第二方面，本申请还提供一种机器人在人群中导航的装置，包括：

初始化模块：初始化环境，构建不完全信息下的人群导航博弈模型，并引入虚拟参与者，预设智能体采取不同策略的先验概率，所述虚拟参与者用于根据所述先验概率给多个智能体从策略池中分配策略；

修正模块：获取修正策略类型推断，控制所述虚拟参与者根据修正后的概率选择策略类型并控制对应的智能体输出动作，并计算所有智能体效用收益；

第一判断模块：用于若所述智能体效用收益没有达到贝叶斯纳什均衡，则重复步骤S20，若到达贝叶斯纳什均衡，则输出最优解，控制多个所述智能体获取对应的最优解所得到的策略概率来输出相应动作；

编码模块：用于获取环境信息，并对其进行统一编码，所述环境信息包括所述智能体内部之间的关系及机器人与所述智能体之间的关系；

选择模块：获取所述编码信息，控制所述机器人根据所述编码信息和自身策略选择输出动作；

动作输出模块：用于获取步骤S50中所述机器人的输出动作和步骤S30中所述多个智能体的输出动作，形成联合动作；

第二判断模块：判断所述机器人输出动作后是否抵达预设目标点；根据结果并结合奖励函数对机器人的策略选择进行修正，最后判断是否完成训练。

第三方面，本申请还提供一种电子设备，包括：

至少一个存储器以及至少一个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如上述提及的任一项所述的一种机器人在人群中导航的方法的步骤。

第四方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，

所述计算机程序被处理器执行时实现如上述提及任一项所述的一种机器人在人群中导航的方法的步骤。

本申请通过针对现有的移动机器人在复杂环境中导航中由于对人群建模单一而导致的鲁棒性差、适应能力差、迁移能力弱等问题进行改进，以静态贝叶斯博弈理论为基础，对不完信息下的人群导航进行建模，引入虚拟参与者“自然(Nature)”，预先设置模拟人群采取的不同策略的先验概率，并根据概率随机选择出待分配的人群策略类型，然后通过后验概率不断修正机器人关于人群(智能体)采用的策略类型的判断，最后通过深度强化学习进行不断的迭代学习。最终使智能体能够适应不同的人群类型，并提高在复杂环境中导航的性能。

附图说明

图1为本申请实施例提供的一种机器人在人群中导航的方法的流程图；

图2为本申请实施例提供的在不完全信息下的人群导航博弈模型中机器人训练的流程示意图；

图3为本申请实施例提供的一种机器人在人群中导航的装置的结构框图；

图4为本申请实施例根据一示例性实施例示出的一种电子设备的结构框图。

附图标记：10：初始化模块；20：修正模块；30：第一判断模块；40：编码模块；50：选择模块；60：动作输出模块；70：第二判断模块；910：处理器；920：存储器。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

应当明确，所描述的实施例仅仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请实施例保护的范围。

在本申请实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

基于上述问题，结合图1和图2，本申请提供一种机器人在人群中导航的方法用于解决人群规模突然变化时，机器人发生碰撞的问题，应当了解的是本方法为一个对机器人模拟训练的方法，通过此方法完成训练的机器人能够避免环境变化产生碰撞。

S10：初始化环境，构建不完全信息下的人群导航博弈模型，并引入虚拟参与者，预设智能体采取不同策略的先验概率，虚拟参与者用于根据先验概率给多个智能体从策略池中分配策略。

初始化环境是模拟机器人移动时周围的具体环境，其包括人群的位置信息，行为信息等。虚拟参与者(“自然”)用于对虚拟人群(智能体)进行策略控制，根据先验概率为每一个智能体选择策略。策略池中含有不同的策略，在本申请中具体OCRA、人工势场法、社会力势场法和静止四种策略，虚拟参与者可以为多个智能体分配上述策略，而智能体根据上述策略改变自身的状态，包括但不限于进行移动，旋转，停止。

S20：获取修正策略类型推断，控制虚拟参与者根据修正后的概率选择策略类型并控制对应的智能体输出动作，并计算所有智能体效用收益；

S30：若智能体效用收益没有达到贝叶斯纳什均衡，则重复步骤S20，若到达贝叶斯纳什均衡，则输出最优解，控制多个智能体获取对应的最优解所得到的策略概率来输出相应动作；

贝叶斯纳什均衡是在参与者同时行动，在给定自己的类型以及给定其他参与人的类型和战略选择之间的关系的条件下，使得自己的期望效用最大化，以一个二人二人博弈为例。在一般情况下，博弈的双方都有一套属于自己的策略集，如：剪刀石头布，博弈双方作为局中人，一般是不知道在接下来的猜拳中，对方会出哪种手势。但如果知道对方出各种手势的概率，那么自己可以针对对方出各种手势的概率来定出自出哪种手势赢的概率大，如果可以量化的话，可以通过选定自身的策略来使得自己的期望收益最大化。

S40：获取环境信息，并对其进行统一编码，环境信息包括智能体内部之间的关系及机器人与智能体之间的关系；

S50：获取编码信息，控制机器人根据编码信息和自身策略选择输出动作；

即上述提及的获取到对方选择策略的概率，根据对方的概率和自身的策略选择期望收益最大的策略完成输出动作。

具体地，导航任务是机器人需要通过一个有未知数量的行人和静态障碍的区域，并最终到达目标。假设有n个主体(包括行人和静态障碍)和一个机器人。每个agent可以简化为一个圆，并且只能在X-Y平面上移动。对于每个agent，其他agent可以观察到的状态包括位置p＝[px,py]，速度v＝[vx,vy]，半径ri和行动策略的概率分布

不能观测到的状态包括目标位置g＝[gx,gy]、首选速度vpref和方向θ。因此，所有agent在t时刻的状态可以定义为:

其中

为机器人的状态，

为第i个人在t时刻的可观察状态，

为由

和

组成的环境的联合状态。机器人的动作定义为:at＝[v,ω],v是线速度，ω是角速度。

最终将机器人导航任务建模为一个序列决策问题。在每一个时间步t，机器人观察环境状态st，并从一个策略π(s_t,a_t)中随机采样。学习问题的目标是学习一个策略π(s_t,a_t)，使回

报期望最大化：

S60：获取步骤S50中机器人的输出动作和步骤S30中多个智能体的输出动作，形成联合动作；

该联合动作导致环境变量以及机器人状态的改变，在下一次训练中，机器人获取到的编码信息为本次联合动作的结果。

S70：判断机器人输出动作后是否抵达预设目标点；根据结果并结合奖励函数对机器人的策略选择进行修正，最后判断是否完成训练。

奖励函数决定强化学习算法的收敛速度和程度，当机器人选择的策略达到了预设的目标，奖励函数则奖励机器人，当机器人选择的策略没有完成预设的目标，奖励函数则惩罚机器人。奖励函数让机器人不断的完善学习，机器人能够学会在不同的环境下应该选择什么样的策略。

在一个具体的实施例中，不完全信息下的人群导航博弈模型用六元组集合描述为：

其中，A为博弈者的行动空间，A＝{Aagent，Acrow(i)}i＝1,2.....,n；这里的博弈空间中还引入了一个“自然(Nature)”作为虚拟参与者。

T＝{Tagent，T crow(i)}为博弈对抗中策略类型空间。Tagent是学习方，T crow(i)是其他智能体表示的人群，并由＂自然＂分配策略类型。T crow(i)中每个智能体只知道自己被分配的策略，不知道其他智能体的策略，但每个智能体策略的概率分布是共识。

S＝{S crow(i)}是策略集。

P＝{P crow(i)}为参与博弈对抗的其他智能体对另一方智能体策略类型的初始判断概率，

其概率分布是共同知识。

是参与博弈中另一博弈方观察到crow(i)的策略之后，使用贝叶斯法则对其对策略类型的推断进行修正后的概率。

其中:Shcrow(k为crow_i方在第k步之前的历史策略集合；Scrow_ik为crow_i方在第k步的策略；P(Tcrow_i|Shcrow(k为crow_i方在历史策略集Shcrow(k的条件下，对选取类型Tcrow_i的先验推断；P(Scrow_ik|Tcrow_i，Shcrow(k为crow_i方在第k步时，在采取历史策略集Shcrow(k的前提下，选取策略Scrow_ik的概率。

U＝{Uagent，U crow(i)}是智能体和人群各自的效用收益。

奖励函数具体为：

其中dt为周期[t-Δt,t]内机器人与距离自己最近的agent之间的最小距离，tmax为设定好的最大导航时间，pt为机器人当前位置，pt-1为机器人上一个时间步的位置，pg为机器人目标。

在另一个实施例中，机器人完成训练的具体过程为，

若抵达预设目标点，则根据设置好的奖励函数给予奖励并生成下一个目标点并返回至步骤40；若未抵达预设目标点，则判断是否碰撞或者最大步数限制，若发生碰撞或者达到最大步数限制则重置环境并返回至步骤40；若没有发生碰撞或者达到最大步数限制，则判断所诉和机器人当前是否达到最大训练回合，若没有达到最大训练回合，则更新网络权重并回到步骤40；若达到最大训练回合，则结束并返回最优策略。

在本申请由两部分组成。分别是人群博弈部分和机器人学习部分，其中人群博弈部分利用“自然”给其他智能体随机分配不同的行为策略，策略池内包含OCRA、人工势场法、社会力势场法、静止四种不同行为方式。各智能体接收“自然”分配的策略并按照

修正策略类型推断，然后根据修正后的概率选择策略类型并输出动作。

与此同时，机器人学习部分首先进行模仿学习进行预训练，学习的初始策略为OCRA，然后用传感器扫描环境并利用深度学习提取环境特征，其中包括人群内部之间的关系及自身与人群中不同智能体的关系，提取完成后再按统一格式编码。最后利用强化学习来学习理解这种关系，并输出一个动作。

再由环境反馈给机器人相应的观测及奖惩。并不断迭代这个过程，最终得到一个使回报期望最大化的策略。

本申请第一方面，将静态贝叶斯博弈的特点与深度强化学习相结合，并应用在移动机器人的人群导航中，可以有效缓解现有的机器人在复杂环境或拥挤人群中导航出现的冻结及安全性差问题

第二方面基于静态贝叶斯博弈的强化学习模型通过给模拟人群分配不同的反应策略进行训练可以很好地弥补所有参与模拟人群的智能体都采用同一个反应策略，且利用贝叶斯纳什均衡所达到的稳定的人群选择行为的概率方式在一定程度上代表了最佳人群行为策略，有助于后续强化学习阶段机器人学习良好且稳定的导航策略。

第三方面，提出的模型能够在不重新调整网络参数的情况下来适应不同的人群导航环境，具有良好的迁移性能和适应性。

本发明还提供一种机器人在人群中导航的装置，包括：

初始化模块10：初始化环境，构建不完全信息下的人群导航博弈模型，并引入虚拟参与者，预设智能体采取不同策略的先验概率，所述虚拟参与者用于根据所述先验概率给多个智能体从策略池中分配策略；

修正模块20：获取修正策略类型推断，控制所述虚拟参与者根据修正后的概率选择策略类型并控制对应的智能体输出动作，并计算所有智能体效用收益；

第一判断模块30：用于若所述智能体效用收益没有达到贝叶斯纳什均衡，则重复步骤S20，若到达贝叶斯纳什均衡，则输出最优解，控制多个所述智能体获取对应的最优解所得到的策略概率来输出相应动作；

编码模块40：用于获取环境信息，并对其进行统一编码，所述环境信息包括所述智能体内部之间的关系及机器人与所述智能体之间的关系；

选择模块50：获取所述编码信息，控制所述机器人根据所述编码信息和自身策略选择输出动作；

动作输出模块60：用于获取步骤S50中所述机器人的输出动作和步骤S30中所述多个智能体的输出动作，形成联合动作；

第二判断模块70：判断所述机器人输出动作后是否抵达预设目标点；根据结果并结合奖励函数对机器人的策略选择进行修正，最后判断是否完成训练。

如图4所示，图4是本申请实施例根据一示例性实施例示出的一种电子设备的结构框图。

所述电子设备包括处理器910和存储器920。该主控芯片中处理器910的数量可以是一个或者多个，图4中以一个处理器910为例。该主控芯片中存储器920的数量可以是一个或者多个，图4中以一个存储器920为例。

存储器920作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请实施例任意实施例所述的一种抗隐写分析彩色图像隐写方法程序，以及本申请实施例任意实施例所述的一种抗隐写分析彩色图像隐写方法对应的程序指令/模块。存储器920可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器920可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器920可进一步包括相对于处理器910远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器910通过运行存储在存储器920中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述任一实施例所记载的一种抗隐写分析彩色图像隐写方法。

本申请实施例还提供了一种计算机可读存储介质，其上储存有计算机程序，该计算机程序被处理器执行时实现上述任意一个实施例所述的一种抗隐写分析彩色图像隐写方法。

本发明可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可读储存介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其它数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其它类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其它内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其它光学存储、磁盒式磁带，磁带磁磁盘存储或其它磁性存储设备或任何其它非传输介质，可用于存储可以被计算设备访问的信息。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，则本发明也意图包含这些改动和变形。