CN111240318A - 一种机器人的人员发现算法 - Google Patents
一种机器人的人员发现算法 Download PDFInfo
- Publication number
- CN111240318A CN111240318A CN201911346845.5A CN201911346845A CN111240318A CN 111240318 A CN111240318 A CN 111240318A CN 201911346845 A CN201911346845 A CN 201911346845A CN 111240318 A CN111240318 A CN 111240318A
- Authority
- CN
- China
- Prior art keywords
- robot
- action
- state
- belief
- person
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 49
- 230000009471 action Effects 0.000 claims description 61
- 230000006870 function Effects 0.000 claims description 23
- 238000000034 method Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 238000004088 simulation Methods 0.000 claims description 9
- 238000003066 decision tree Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000003111 delayed effect Effects 0.000 claims description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0238—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
- G05D1/024—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors in combination with a laser
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0257—Control of position or course in two dimensions specially adapted to land vehicles using a radar
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Aviation & Aerospace Engineering (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Optics & Photonics (AREA)
- Electromagnetism (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种机器人的人员发现算法,此算法基于云模型与部分可观察蒙特卡洛规划,包括硬件部分和软件部分,所述硬件部分包括移动底盘、传感器、激光雷达和上位计算机,所述软件部分包括基于部分可观察蒙特卡洛规划(POMCP)的人员发现算法以及基于云模型的部分可观察蒙特卡洛规划(POMCP)决策算法,本发明公开了一种员发现算法,可用于室内机器人在被追踪人员丢失时,重新发现被追踪人员,本发明算法将云模型原理溶入到部分可观察蒙特卡罗规划(POMCP)人员发现算法中来选择下一个动作,控制机器人移动,使用方便快捷。
Description
技术领域
本发明涉及机器人技术领域,具体是指一种机器人的人员发现算法。
背景技术
机器人产业在近些年发展得非常迅速,尤其是社会服务机器人已成为工业机器人、物流机器人之后广 受关注的机器人发展领域。家庭跟随机器人可用于独自在家的特殊人群,如残疾人、儿童或老年人的跟踪、 摔倒或危险动作检测等,为家人提供必要的通知服务。但在人员跟踪过程中,由于障碍物的阻挡以及人员 移动速度、方向的突然变化,会造成被追踪人员的丢失,这时通常的做法是机器人原地等待到被跟踪人员 再次出现,这样可能会造成被跟踪人员出现危险时,不能被及时检测到。因此在丢失被跟踪人员后,如何 重新找到被跟踪人员是一个待解决的问题。
发明内容
为解决上述技术问题,本发明提供的技术方案为:一种机器人的人员发现算法,此算法基于云模型与 部分可观察蒙特卡洛规划,包括硬件部分和软件部分,所述硬件部分包括移动底盘、传感器、激光雷达和 上位计算机,所述软件部分包括基于部分可观察蒙特卡洛规划(POMCP)的人员发现算法以及基于云模 型的部分可观察蒙特卡洛规划(POMCP)决策算法。
作为改进,所述基于POMDP的人员发现算法具体包括以下内容:
(1)建立部分可观察的马尔可夫决策(POMDP)模型
(1.1)定义状态s:POMDP模型包含一组状态s,在人员发现算法中,状态s被定义为机器人和人的 位置:(srobot,sperson);
(1.2)定义机器人动作a:机器人可以执行有限集合a中的动作,即机器人可以在八个方向之一上移 动,或停留原地;当机器人在寻找时,机器人观察值o等于状态s,但是当人的位置(sperson)不可见时, sperson=hidden;
(1.3)机器人动作a从一种状态s到另一种状态s'的概率由T=P(s'|s,a)定义,而观察概率由Z=P (o|s',a)定义;
(1.4)奖励函数R是用于指导学习过程,表明状态s下,那些动作是最佳的,奖励函数定义为-d,d 是人与机器人之间的最短路径距离;
(1.5)POMDP模型存储人处于每种可能状态的概率,定义为信念b;初始值信念b0定义为人员在所 有位置上均匀分布的概率,使用观察和概率函数更新信念;通过计算值函数来决定对每个信念状态执行的 最佳动作:
其中R(b,a)是对信念状态b和动作a的奖励,γ是折扣因子,V(b)=maxa∈AQ(b,a),τ(b,a,o)是下一 个信念状态b’;
(2)建立决策树:POMCP是POMDP仿真器生成具有两种类型节点的策略树,包括代表信念状态的 信念节点,以及通过执行动作而产生的动作子节点;
(3)建立基于POMCP的决策算法
决策树中每个节点(node)都记录平均期望回报V,以及模拟过程通过该节点的次数N,在执行第一 次学习迭代之前,必须为根的信念设置初始信念Root.B,POMDP仿真器的函数I(O0)用于生成初始信念状 态nbelief,nbelief代表状态数,在每一步行动之前,将通过执行nsim仿真来更新策略树,nsim代表模拟次数, 从状态s到Root.B随机采样:
(3.1)根据V的最高值和经验常数c加权的探索因子选择动作节点上的一个动作,探索因子的作用 使得学习过程可能出现新的行动:
(3.2)POMDP仿真器G(s,a)根据当前的状态s和选择的动作a,返回新状态s’,观察o和奖励函数 (rdelayed),通过分别为a和o选择的边来遍历树;如果此节点尚不存在,则s′并非最终状态;
(3.3)如果状态s′不是最终状态,则通过使用子节点计算延迟奖励(rdelayed),或通过执行RollOut 函数来计算延迟奖励(rdelayed),RollOut函数策略πrollout需要使用到运行结束或达到最大深度为止;
(3.4)计算当前信念和动作节点的奖励rtotal,其中rdelayed用折扣因子γ加权,以减少未来奖励可能带 来的影响,并且更新节点的平均值和新计数;
(3.5)机器人在学习了策略树之后,可以从树中选择要执行的动作,则机器人动作a为
argmaxanode[a].V
执行动作a后,得到新的观察值o。
作为改进,所述基于云模型的部分可观察蒙特卡洛规划(POMCP)决策算法具体包括以下内容:
(Ⅰ)定义云模型与云滴
设U是一个用精确数值表示的定量论域,C是U上的一个定性概念,若定量值x∈U,且x是定性概念 C的一次随机实现,x对C的确定度μ(x)∈[0,1]是有稳定倾向的随机数,则x在论域U上的分布称为云, 每一个x称为一个云滴;
(Ⅱ)定义云模型的数字特征
云模型的数字特征包括Ex、En、He,Ex为云滴在论域U中的数学期望;En为概念的不确定性度量; He为是熵的不确定性度量,即熵的熵;
(Ⅲ)建立基于云模型的POMCP决策算法
(Ⅲ-2)生成以En为期望值、He为均方差的正态随机数En’;
(Ⅲ-3)生成以Ex为期望值、En’为均方差的正态随机数x;
采用以上结构后,本发明具有如下优点:本发明公开了一种员发现算法,可用于室内机器人在被追踪 人员丢失时,重新发现被追踪人员,本发明算法将云模型原理溶入到部分可观察蒙特卡罗规划(POMCP) 人员发现算法中来选择下一个动作,控制机器人移动,使用方便快捷。
附图说明
图1是本发明一种机器人的人员发现算法的系统结构示意图。
图2是本发明一种机器人的人员发现算法中策略数的示意图。
具体实施方式
结合附图,一种机器人的人员发现算法,此算法基于云模型与部分可观察蒙特卡洛规划,其特征在于, 包括硬件部分和软件部分,所述硬件部分包括移动底盘(YujinRobot的Kobuki)、传感器(Microsoft Kinect1.0)、激光雷达(rplidar A3)和上位计算机(pc),所述软件部分包括基于部分可观察蒙特卡洛规划 (POMCP)的人员发现算法以及基于云模型的部分可观察蒙特卡洛规划(POMCP)决策算法,其中移动 底盘用于跟随与运动控制,传感器与激光雷达用于距离检测与避障,上位计算机用于实现发现算法。
本发明发现算法设计是将云模型原理溶入到部分可观察蒙特卡罗规划(POMCP)人员发现算法中来 选择下一个动作,控制机器人移动。部分可观察的蒙特卡洛规划是一种用于不确定情况下进行规划的强化 学习算法,部分可观察的蒙特卡洛规划基于并利用了部分可观察的马尔可夫决策过程(POMDP)。
作为本实施例较佳实施方案的是,所述基于POMDP的人员发现算法具体包括以下内容:
(1)建立部分可观察的马尔可夫决策(POMDP)模型
(1.1)定义状态s:POMDP模型包含一组状态s,在人员发现算法中,状态s被定义为机器人和人的 位置:(srobot,sperson);
(1.2)定义机器人动作a:机器人可以执行有限集合a中的动作,即机器人可以在八个方向之一上移 动,或停留原地;当机器人在寻找时,机器人观察值o等于状态s,但是当人的位置(sperson)不可见时, sperson=hidden;
(1.3)机器人动作a从一种状态s到另一种状态s'的概率由T=P(s'|s,a)定义,而观察概率由Z=P (o|s',a)定义;
(1.4)奖励函数R是用于指导学习过程,表明状态s下,那些动作是最佳的,奖励函数定义为-d,d 是人与机器人之间的最短路径距离;
(1.5)POMDP存储人处于每种可能状态的概率,定义为信念b;初始值信念b0定义为人员在所有位 置上均匀分布的概率,使用观察和概率函数更新信念;通过计算值函数来决定对信念状态执行的最佳动作:
其中R(b,a)是对信念状态b和动作a的奖励,γ是折扣因子,V(b)=maxa∈AQ(b,a),τ(b,a,o)是下一 个信念状态b’;
(2)建立决策树:POMCP是POMDP仿真器生成具有两种类型节点的策略树,包括代表信念状态的 信念节点,以及通过执行动作而产生的动作子节点;
由于计算复杂性和内存需求指数增长,限制了POMDP模型的使用,而蒙特卡洛值迭代是在随机的样 本集上而不是在所有状态下计算期望的奖励,所以POMCP是通过蒙特卡洛模拟来生成策略;POMCP的 最大优势在于它通过模拟POMDP来解决历史的诅咒和维度的诅咒,而不需要将整个模型都完全定义出来, 因此,POMCP的复杂度取决于POMDP仿真器,POMCP生成具有两种类型节点的策略树,包括代表信念 状态的信念节点,以及通过执行动作而产生的动作子节点;根是信念节点,信念在POMCP中由状态列表 表示,而不是由所有可能的离散状态的概率表示;当某种状态可能性大时,该状态将在此列表中重复多次;
(3)建立基于POMCP的决策算法
决策树中每个节点(node)都记录平均期望回报V,以及模拟过程通过该节点的次数N,在执行第一 次学习迭代之前,必须为根的信念设置初始信念Root.B,POMDP仿真器的函数I(O0)用于生成初始信念状 态nbelief,nbelief代表状态数,在每一步行动之前,将通过执行nsim仿真来更新策略树,nsim代表模拟次数, 从状态s到Root.B随机采样:
(3.1)根据V的最高值和经验常数c加权的探索因子选择动作节点上的一个动作,探索因子的作用 使得学习过程可能出现新的行动:
(3.2)POMDP仿真器G(s,a)根据当前的状态s和选择的动作a,返回新状态s’,观察o和奖励函数 (rdelayed),通过分别为a和o选择的边来遍历树;如果此节点尚不存在,则s′并非最终状态;
(3.3)如果状态s′不是最终状态,则通过使用子节点计算延迟奖励(rdelayed),或通过执行RollOut 函数来计算延迟奖励(rdelayed),RollOut函数策略πrollout需要使用到运行结束或达到最大深度为止;
(3.4)计算当前信念和动作节点的奖励rtotal,其中rdelayed用折扣因子γ加权,以减少未来奖励可能带 来的影响,并且更新节点的平均值和新计数;
(3.5)机器人在学习了策略树之后,可以从树中选择要执行的动作,则机器人动作a为
argmaxanode[a].V
执行动作a后,得到新的观察值o。
另外基于POMDP的人员发现算法具体实现过程如下程序算法所示:
其中,(1)上述算法中的γ为折扣系数;c是经验常数;ecount是扩展计数;dmax最大树深度;
(2)POMDP仿真器G:设已知栅格地图中的每个栅格单元都是障碍物或自由栅格,状态(srobot,sperson) 和观测值(orobot,operson)是机器人和人的位置,人被的观测状态operson可以是hidden;机器人一共有九个动 作:八个方向的action与不动;
初始状态通过函数s=I(o0)生成,其中o0是初始观察值,已生成的状态与观察结果相同,但是当人 的观察值为hidden时,就会从orobot所看到的位置中随机选择sperson。
根据当前状态和动作,通过(s',o,r)=G(s,a)生成新状态,新状态变量s'robot取决于机器人的动 作和位置srobot,人的运动模型可以是随机或者启发式,观察o等于新状态s',但是根据光线跟踪算法,当 人不可见时,operson=hidden。奖励函数是启发式的:r=-drp,其中drp是机器人与人之间的最短路径距离。
作为本实施例较佳实施方案的是,所述基于云模型的部分可观察蒙特卡洛规划(POMCP)决策算法 具体包括以下内容:
上叙算法中确定机器人下一步动作的函数公式是这个公式依据 的是UCB1策略,当经验常数c=0时公式中只有第一项,那是纯利用(exploitation)的,也就是一个纯贪 婪策略,它很容易陷入局部极值,而第二项表示探索(exploration)的程度,体现了搜索的不确定性,标 量常数c确定了利用与探索的相对比率;一个适当c能使利用与探索达到平衡,但c的选择不是固定的, 应该有一定的变化来适应环境与噪声的需求。所以下面通过不确定性原理来重新定义动作选择公式。
(Ⅰ)定义云模型与云滴
设U是一个用精确数值表示的定量论域,C是U上的一个定性概念,若定量值x∈U,且x是定性概念 C的一次随机实现,x对C的确定度μ(x)∈[0,1]是有稳定倾向的随机数,则x在论域U上的分布称为云, 每一个x称为一个云滴;
(Ⅱ)定义云模型的数字特征
云模型的数字特征包括Ex、En、He,Ex为云滴在论域U中的数学期望;En为概念的不确定性度量; He为是熵的不确定性度量,即熵的熵;
(Ⅲ)建立基于云模型的POMCP决策算法
(Ⅲ-2)生成以En为期望值、He为均方差的正态随机数En’;
(Ⅲ-3)生成以Ex为期望值、En’为均方差的正态随机数x;
另外,基于云模型的部分可观察蒙特卡洛规划(POMCP)决策算法的具体程序算法如下所示:
以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方 式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造 宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。
Claims (3)
1.一种机器人的人员发现算法,此算法基于云模型与部分可观察蒙特卡洛规划,其特征在于,包括硬件部分和软件部分,所述硬件部分包括移动底盘、传感器、激光雷达和上位计算机,所述软件部分包括基于部分可观察蒙特卡洛规划(POMCP)的人员发现算法以及基于云模型的部分可观察蒙特卡洛规划(POMCP)决策算法。
2.根据权利要求1所述的一种机器人的人员发现算法,其特征在于,所述基于POMDP的人员发现算法具体包括以下内容:
(1)建立部分可观察的马尔可夫决策(POMDP)模型
(1.1)定义状态s:POMDP模型包含一组状态s,在人员发现算法中,状态s被定义为机器人和人的位置:(srobot,sperson);
(1.2)定义机器人动作a:机器人可以执行有限集合a中的动作,即机器人可以在八个方向之一上移动,或停留原地;当机器人在寻找时,机器人观察值o等于状态s,但是当人的位置(sperson)不可见时,sperson=hidden;
(1.3)机器人动作a从一种状态s到另一种状态s'的概率由T=P(s'|s,a)定义,而观察概率由Z=P(o|s',a)定义;
(1.4)奖励函数R是用于指导学习过程,表明状态s下,那些动作是最佳的,奖励函数定义为-d,d是人与机器人之间的最短路径距离;
(1.5)POMDP模型存储人处于每种可能状态的概率,定义为信念b;初始值信念b0定义为人员在所有位置上均匀分布的概率,使用观察和概率函数更新信念;通过计算值函数来决定对每个信念状态执行的最佳动作:
其中R(b,a)是对信念状态b和动作a的奖励,γ是折扣因子,V(b)=maxa∈AQ(b,a),τ(b,a,o)是下一个信念状态b’;
(2)建立决策树:POMCP是POMDP仿真器生成具有两种类型节点的策略树,包括代表信念状态的信念节点,以及通过执行动作而产生的动作子节点;
(3)建立基于POMCP的决策算法
决策树中每个节点(node)都记录平均期望回报V,以及模拟过程通过该节点的次数N,在执行第一次学习迭代之前,必须为根的信念设置初始信念Root.B,POMDP仿真器的函数I(O0)用于生成初始信念状态nbelief,nbelief代表状态数,在每一步行动之前,将通过执行nsim仿真来更新策略树,nsim代表模拟次数,从状态s到Root.B随机采样:
(3.1)根据V的最高值和经验常数c加权的探索因子选择动作节点上的一个动作,探索因子的作用使得学习过程可能出现新的行动:
(3.2)POMDP仿真器G(s,a)根据当前的状态s和选择的动作a,返回新状态s’,观察o和奖励函数(rdelayed),通过分别为a和o选择的边来遍历树;如果此节点尚不存在,则s′并非最终状态;
(3.3)如果状态s′不是最终状态,则通过使用子节点计算延迟奖励(rdelayed),或通过执行RollOut函数来计算延迟奖励(rdelayed),RollOut函数策略πrollout需要使用到运行结束或达到最大深度为止;
(3.4)计算当前信念和动作节点的奖励rtotal,其中rdelayed用折扣因子γ加权,以减少未来奖励可能带来的影响,并且更新节点的平均值和新计数;
(3.5)机器人在学习了策略树之后,可以从树中选择要执行的动作,则机器人动作a为
argmaxanode[a].V
执行动作a后,得到新的观察值o。
3.根据权利要求1所述的一种机器人的人员发现算法,其特征在于,所述基于云模型的部分可观察蒙特卡洛规划(POMCP)决策算法具体包括以下内容:
(Ⅰ)定义云模型与云滴
设U是一个用精确数值表示的定量论域,C是U上的一个定性概念,若定量值x∈U,且x是定性概念C的一次随机实现,x对C的确定度μ(x)∈[0,1]是有稳定倾向的随机数,则x在论域U上的分布称为云,每一个x称为一个云滴;
(Ⅱ)定义云模型的数字特征
云模型的数字特征包括Ex、En、He,Ex为云滴在论域U中的数学期望;En为概念的不确定性度量;He为是熵的不确定性度量,即熵的熵;
(Ⅲ)建立基于云模型的POMCP决策算法
(Ⅲ-2)生成以En为期望值、He为均方差的正态随机数En’;
(Ⅲ-3)生成以Ex为期望值、En’为均方差的正态随机数x;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911346845.5A CN111240318A (zh) | 2019-12-24 | 2019-12-24 | 一种机器人的人员发现算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911346845.5A CN111240318A (zh) | 2019-12-24 | 2019-12-24 | 一种机器人的人员发现算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111240318A true CN111240318A (zh) | 2020-06-05 |
Family
ID=70875783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911346845.5A Pending CN111240318A (zh) | 2019-12-24 | 2019-12-24 | 一种机器人的人员发现算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111240318A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113044458A (zh) * | 2021-03-25 | 2021-06-29 | 北京物资学院 | 一种物流机器人动态任务分配方法及系统 |
CN114469000A (zh) * | 2022-01-27 | 2022-05-13 | 重庆邮电大学 | 基于多传感器数据强化学习的人体减跌防震智能监测方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929281A (zh) * | 2012-11-05 | 2013-02-13 | 西南科技大学 | 一种不完全感知环境下的机器人kNN路径规划方法 |
CN103978488A (zh) * | 2014-05-14 | 2014-08-13 | 常州信息职业技术学院 | 基于云模型控制系统的搬运机器人 |
WO2017007089A1 (ko) * | 2015-07-03 | 2017-01-12 | 한국과학기술원 | 실내 환경에서 이동 로봇의 리로케이션 방법 및 장치 |
CN106339536A (zh) * | 2016-08-19 | 2017-01-18 | 南华大学 | 基于水污染指数法和云模型的水质综合评价方法 |
US20170168502A1 (en) * | 2015-12-09 | 2017-06-15 | International Business Machines Corporation | Mishap amelioration based on second-order sensing by a self-driving vehicle |
CN107330251A (zh) * | 2017-06-10 | 2017-11-07 | 华南理工大学 | 一种基于云遗传算法的风功率预测方法 |
CN107390681A (zh) * | 2017-06-21 | 2017-11-24 | 华南理工大学 | 一种基于激光雷达与地图匹配的移动机器人实时定位方法 |
CN108803609A (zh) * | 2018-06-11 | 2018-11-13 | 苏州大学 | 基于约束在线规划的部分可观察自动驾驶决策方法及系统 |
-
2019
- 2019-12-24 CN CN201911346845.5A patent/CN111240318A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929281A (zh) * | 2012-11-05 | 2013-02-13 | 西南科技大学 | 一种不完全感知环境下的机器人kNN路径规划方法 |
CN103978488A (zh) * | 2014-05-14 | 2014-08-13 | 常州信息职业技术学院 | 基于云模型控制系统的搬运机器人 |
WO2017007089A1 (ko) * | 2015-07-03 | 2017-01-12 | 한국과학기술원 | 실내 환경에서 이동 로봇의 리로케이션 방법 및 장치 |
US20170168502A1 (en) * | 2015-12-09 | 2017-06-15 | International Business Machines Corporation | Mishap amelioration based on second-order sensing by a self-driving vehicle |
CN106339536A (zh) * | 2016-08-19 | 2017-01-18 | 南华大学 | 基于水污染指数法和云模型的水质综合评价方法 |
CN107330251A (zh) * | 2017-06-10 | 2017-11-07 | 华南理工大学 | 一种基于云遗传算法的风功率预测方法 |
CN107390681A (zh) * | 2017-06-21 | 2017-11-24 | 华南理工大学 | 一种基于激光雷达与地图匹配的移动机器人实时定位方法 |
CN108803609A (zh) * | 2018-06-11 | 2018-11-13 | 苏州大学 | 基于约束在线规划的部分可观察自动驾驶决策方法及系统 |
Non-Patent Citations (6)
Title |
---|
ALEX GOLDHOORN 等: "Continuous real time POMCP to find-and-follow people by a humanoid service robot", 《IEEE》 * |
ALEXANDRE NOYVIRT 等: "Human detection and tracking in an assistive living service robot through multimodal data fusion", 《IEEE 10TH INTERNATIONAL CONFERENCE ON INDUSTRIAL INFORMATICS》 * |
TRUNG-DUNG VU 等: "Laser-based Detection and Tracking Moving Objects using Data-Driven Markov Chain Monte Carlo", 《IEEE》 * |
佘玉梅 等著: "《上海交通大学出版社》", 31 December 2018 * |
秦丽 等: "一种基于云模型的不确定性数据的建模与分类方法", 《计算机科学》 * |
钱炜晟: "部分可观察马氏决策问题的近似规划方法研究", 《中国优秀硕士学位论文全文数据库 基础科学辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113044458A (zh) * | 2021-03-25 | 2021-06-29 | 北京物资学院 | 一种物流机器人动态任务分配方法及系统 |
CN113044458B (zh) * | 2021-03-25 | 2022-05-27 | 北京物资学院 | 一种物流机器人动态任务分配方法及系统 |
CN114469000A (zh) * | 2022-01-27 | 2022-05-13 | 重庆邮电大学 | 基于多传感器数据强化学习的人体减跌防震智能监测方法及系统 |
CN114469000B (zh) * | 2022-01-27 | 2023-08-11 | 重庆邮电大学 | 基于多传感器数据强化学习的人体减跌防震智能监测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Corso et al. | A survey of algorithms for black-box safety validation of cyber-physical systems | |
WO2022007179A1 (zh) | 一种多agv运动规划方法、装置和系统 | |
Shi et al. | An adaptive decision-making method with fuzzy Bayesian reinforcement learning for robot soccer | |
US20210342722A1 (en) | Air quality prediction model training method, air quality prediction method, electronic device and storage medium | |
Levine et al. | Nonlinear inverse reinforcement learning with gaussian processes | |
US7447593B2 (en) | System and method for adaptive path planning | |
Kala et al. | Robotic path planning in static environment using hierarchical multi-neuron heuristic search and probability based fitness | |
Wang et al. | Data assimilation in agent based simulation of smart environments using particle filters | |
Hu et al. | A dynamic adjusting reward function method for deep reinforcement learning with adjustable parameters | |
Kochenderfer et al. | Model-based optimization of airborne collision avoidance logic | |
Martinez-Gil et al. | Strategies for simulating pedestrian navigation with multiple reinforcement learning agents | |
CN111240318A (zh) | 一种机器人的人员发现算法 | |
CN114261400A (zh) | 一种自动驾驶决策方法、装置、设备和存储介质 | |
Huang et al. | Path planning of mobile robot in unknown dynamic continuous environment using reward‐modified deep Q‐network | |
Xin et al. | Exploration entropy for reinforcement learning | |
Hillebrand et al. | A design methodology for deep reinforcement learning in autonomous systems | |
Jacinto et al. | Navigation of autonomous vehicles using reinforcement learning with generalized advantage estimation | |
Zong et al. | Trajectory planning in 3D dynamic environment with non-cooperative agents via fast marching and Bézier curve | |
Fusic et al. | Autonomous vehicle path planning for smart logistics mobile applications based on modified heuristic algorithm | |
CN116524316A (zh) | 强化学习框架下场景图骨架构建方法 | |
Kim et al. | Active object tracking using context estimation: handling occlusions and detecting missing targets | |
Kiesel et al. | Open world planning for robots via hindsight optimization | |
Neuman et al. | Anytime policy planning in large dynamic environments with interactive uncertainty | |
CN118211496B (zh) | 一种基于深度强化学习的多智能体放射源项估计方法 | |
Gao et al. | A Survey of Markov Model in Reinforcement Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200605 |