CN110866482A - 一种里程计数据源动态选择方法、装置和设备 - Google Patents

一种里程计数据源动态选择方法、装置和设备 Download PDF

Info

Publication number
CN110866482A
CN110866482A CN201911089963.2A CN201911089963A CN110866482A CN 110866482 A CN110866482 A CN 110866482A CN 201911089963 A CN201911089963 A CN 201911089963A CN 110866482 A CN110866482 A CN 110866482A
Authority
CN
China
Prior art keywords
value
data source
selecting
trained
target point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911089963.2A
Other languages
English (en)
Other versions
CN110866482B (zh
Inventor
杨爽
曾碧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201911089963.2A priority Critical patent/CN110866482B/zh
Publication of CN110866482A publication Critical patent/CN110866482A/zh
Application granted granted Critical
Publication of CN110866482B publication Critical patent/CN110866482B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本申请公开了一种里程计数据源动态选择方法、装置和设备,其中方法包括:对采集的当前环境图像进行网格分割,得到若干个等大小的网格图像;基于确定好的起始点和目标点,在网格图像中选择一条从起始点至目标点的路径;将路径转换为Q‑table格式,Q‑table的列为动作,Q‑table的行为状态,Q‑table中的值为Q值;基于强化学习模型对Q‑table中的Q值进行训练,当达到收敛条件时,输出训练好的Q值;基于训练好的Q值动态选择最佳的动作,得到最佳的动作对应的里程计数据源,解决了现有的机器人选择单一里程计数据源导致的定位准确率下降的技术问题。

Description

一种里程计数据源动态选择方法、装置和设备
技术领域
本申请涉及强化学习技术领域,尤其涉及一种里程计数据源动态选择方法、装置和设备。
背景技术
机器人在导航过程中进行定位,需要通过航程推演来推算每一个时刻的位置,而航程推演所需要的运动量信息是根据里程计方法获得的,里程计方法记录的运动量信息越准确,定位就越准确。目前机器人在导航定位过程中,通常只选择一种里程计数据源来记录里程计信息,而选择单一的里程计数据源容易积累误差,导致定位准确率下降。
发明内容
本申请提供了一种里程计数据源动态选择方法、装置和设备,用于解决现有的机器人选择单一里程计数据源导致的定位准确率下降的技术问题。
有鉴于此,本申请第一方面提供了一种里程计数据源动态选择方法,包括:
对采集的当前环境图像进行网格分割,得到若干个等大小的网格图像;
基于确定好的起始点和目标点,在所述网格图像中选择一条从所述起始点至所述目标点的路径;
将所述路径转换为Q-table格式,所述Q-table的列为动作,所述Q-table的行为状态,所述Q-table中的值为Q值;
基于强化学习模型对所述Q-table中的Q值进行训练,当达到收敛条件时,输出训练好的Q值;
基于所述训练好的Q值动态选择最佳的动作,得到所述最佳的动作对应的里程计数据源。
可选的,所述基于所述训练好的Q值动态选择最佳的动作,得到所述最佳的动作对应的里程计数据源,之前还包括:
返回所述基于确定好的起始点和目标点,在所述网格图像中选择一条从所述起始点至所述目标点的路径的步骤,直到所述起始点至所述目标点的全部路径选择完成,得到所有路径中训练好的Q值。
可选的,所述基于强化学习模型对所述Q-table中的Q值进行训练,当达到收敛条件时,输出训练好的Q值,具体包括:
基于epsilon-Greedy算法选择下一状态的里程计数据源;
计算奖励值;
基于所述当前状态的Q值和所述奖励值计算得到新Q值,基于所述新Q值更新所述当前状态的Q值;
当机器人运行到下一状态,返回所述基于epsilon-Greedy算法选择下一状态的里程计数据源的步骤,当达到收敛条件时,输出训练好的Q值。
可选的,所述基于epsilon-Greedy算法选择下一状态的里程计数据源,具体包括:
设置在预置范围内的epsilon值;
采用随机数生成算法在所述预置范围内生成随机数,当所述随机数小于或等于所述epsilon值时,基于随机方法随机选择下一状态的里程计数据源;
当所述随机数大于所述epsilon值时,基于计算得到的下一状态的Q估计值选择下一状态的里程计数据源。
可选的,所述计算奖励值,包括:
基于奖赏函数计算奖励值,所述奖赏函数为:
Figure BDA0002266553070000021
其中,R为奖励值,α为距离代价的权值,β为距离阈值,d为所述机器人实际位置与目标点位置的距离代价。
可选的,所述基于所述当前状态的Q值和所述奖励值计算得到新Q值,基于新Q值更新所述当前状态的Q值,包括:
基于所述当前状态的Q值和所述奖励值,根据Bellman方程计算得到新Q值,基于所述新Q值更新所述当前状态的Q值。
可选的,还包括:
当所述机器人运行到下一状态时,若所述下一状态的位置偏离所述路径,则基于重定位方法修正所述机器人运行到所述下一状态的位置。
本申请第二方面提供了一种里程计数据源动态选择装置,包括:
分割模块,用于对采集的当前环境图像进行网格分割,得到若干个等大小的网格图像;
第一选择模块,用于基于确定好的起始点和目标点,在所述网格图像中选择一条从所述起始点至所述目标点的路径;
转换模块,用于将所述路径转换为Q-table格式,所述Q-table的列为动作,所述Q-table的行为状态,所述Q-table中的值为Q值;
训练模块,用于基于强化学习模型对所述Q-table中的Q值进行训练,当达到收敛条件时,输出训练好的Q值;
第二选择模块,用于基于所述训练好的Q值动态选择最佳的动作,得到所述最佳的动作对应的里程计数据源。
可选的,还包括:
触发模块,用于触发所述第一选择模块、所述转换模块和所述训练模块,直到所述起始点至所述目标点的全部路径选择完成,得到所有路径中训练好的Q值。
本申请第三方面提供了一种里程计数据源动态选择设备,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面任一项所述的里程计数据源动态选择方法。
从以上技术方案可以看出,本申请具有以下优点:
本申请提供了一种里程计数据源动态选择方法,包括:对采集的当前环境图像进行网格分割,得到若干个等大小的网格图像;基于确定好的起始点和目标点,在网格图像中选择一条从起始点至目标点的路径;将路径转换为Q-table格式,Q-table的列为动作,Q-table的行为状态,Q-table中的值为Q值;基于强化学习模型对Q-table中的Q值进行训练,当达到收敛条件时,输出训练好的Q值;基于训练好的Q值动态选择最佳的动作,得到最佳的动作对应的里程计数据源。
本申请中提供的里程计数据源动态选择方法,通过对采集的当前环境图像进行分割,得到等大小的网格图像,通过确定的起始点和目标点,在等大小的网格图像中选择一条从起始点至目标点的路径,将该路径转换为Q-table格式,基于强化学习模型对Q-table中的Q值进行训练,根据训练好的Q值动态选择每个状态下最佳的动作,得到最佳的动作对应的里程计数据源,在机器人运行的过程中,将整个导航过程拆分成若干步,每一步都尝试选择不同的动作,即每一步都尝试选择不同的里程计数据源,通过强化学习不断训练Q值,直至找到当前路径中的最优里程计数据源选择集,使得机器人基于Q值动态选择的里程计数据源更加可靠和准确,避免了机器人选择单一里程计数据源存在容易积累误差的问题,从而提高了机器人定位的准确率,解决了现有的机器人选择单一里程计数据源导致的定位准确率下降的技术问题。
附图说明
图1为本申请提供的一种里程计数据源动态选择方法的一个实施例的流程示意图;
图2为本申请提供的一种里程计数据源动态选择方法的另一个实施例的流程示意图;
图3为本申请提供的一种里程计数据源动态选择装置的一个实施例的结构示意图;
图4为本申请提供的Q-table格式示意图;
图5为本申请提供的机器人位置修正示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,请参阅图1,本申请提供的一种里程计数据源动态选择方法的一个实施例,包括:
步骤101、对采集的当前环境图像进行网格分割,得到若干个等大小的网格图像。
需要说明的是,可以通过安装于机器人上的摄像头采集当前环境图像,对采集到的图像进行网格分割,得到n×n等大小的网格图像。
步骤102、基于确定好的起始点和目标点,在网格图像中选择一条从起始点至目标点的路径。
需要说明的是,起始点和目标点之间可以有多条路径,根据起始点和目标点,在原本n×n等大小的网格图像中的起始点至目标点的多条路径中选择一条路径,后续的训练都在这同一条路径上进行,是为了保持变量的唯一性,从而提高里程计数据源动态选择方法的可靠性。
步骤103、将路径转换为Q-table格式。
需要说明的是,在n×n等大小的网格图像中选择一条路径后,将该路径转换为Q-table格式,其中,Q-table的列为动作,从多个动作中选择一个动作表示从多个里程计数据源中选择一个里程计数据源,Q-table的行为状态,Q-table中的值为Q值,该Q值为每一次动作选择的依据,其中,本申请实施例中的里程计数据源可以为编码器数据、IMU数据、激光里程计数据和视觉里程计数据中的2种、3种或4种。
步骤104、基于强化学习模型对Q-table中的Q值进行训练,当达到收敛条件时,输出训练好的Q值。
需要说明的是,本申请实施例中采用强化学习模型对Q-table中的Q值进行训练,直到算法收敛,得到训练好的Q值,使得机器人基于训练好的Q值选择的里程计数据源更加准确,从而提高机器人定位的准确率。
步骤105、基于训练好的Q值动态选择最佳的动作,得到最佳的动作对应的里程计数据源。
需要说明的是,每一个状态最佳的动作即每一个状态中Q值最大的动作,可以通过选择下一状态中训练好的最大Q值对应的动作,得到该动作对应的里程计数据源作为下一状态的里程计数据源,当机器人从当前状态移动到下一状态的过程中,当前状态选择的下一状态的里程计数据源就用于记录从当前状态移动到下一状态的里程计信息,在机器人移动的过程中,机器人可以采用不同的里程计数据源,有效的避免了机器人选择单一的里程计数据源容易积累误差,从而导致定位准确率下降的问题,从而提高了机器人定位的准确率。
在传统的定位算法中,例如基于粒子滤波和使用航程推演原理的蒙特卡洛算法,虽然在里程计信息较为准确时,能够完成不错的位置推算,周围环境特征比较明显时,也可以通过扫描匹配实际观测值与推演值,完成一定程度的位姿修正,但这些方法需要通过里程计方法记录每次的运动量信息来完成航程推演,得到每一次机器人运动的位置,所以对里程计信息依赖程度太高,对周围环境变化的反应灵敏度也不够,特别遇到单一里程计信息累计误差大,位置偏移等意外情况时,定位的健壮性并不好,从而导致定位准确率下降。
为了解决上述问题,就需要保证里程计数据源的准确性,因此,本申请提供了一种里程计数据源动态选择方法,包括:对采集的当前环境图像进行网格分割,得到若干个等大小的网格图像;基于确定好的起始点和目标点,在网格图像中选择一条从起始点至目标点的路径;将路径转换为Q-table格式,Q-table的列为动作,Q-table的行为状态,Q-table中的值为Q值;基于强化学习模型对Q-table中的Q值进行训练,当达到收敛条件时,输出训练好的Q值;基于训练好的Q值动态选择最佳的动作,得到最佳的动作对应的里程计数据源。
本申请中提供的里程计数据源动态选择方法,通过对采集的当前环境图像进行分割,得到等大小的网格图像,通过确定的起始点和目标点,在等大小的网格图像中选择一条从起始点至目标点的路径,将该路径转换为Q-table格式,基于强化学习模型对Q-table中的Q值进行训练,根据训练好的Q值动态选择每个状态下最佳的动作,得到最佳的动作对应的里程计数据源,在机器人运行的过程中,将整个导航过程拆分成若干步,每一步都尝试选择不同的动作,即每一步都尝试选择不同的里程计数据源,通过强化学习不断训练Q值,直至找到当前路径中的最优里程计数据源选择集,使得机器人基于Q值动态选择的里程计数据源更加可靠和准确,避免了机器人选择单一里程计数据源存在容易积累误差的问题,从而提高了机器人定位的准确率,解决了现有的机器人选择单一里程计数据源导致的定位准确率下降的技术问题。
为了便于理解,请参阅图2,本申请提供的一种里程计数据源动态选择方法的另一个实施例,包括:
步骤201、对采集的当前环境图像进行网格分割,得到若干个等大小的网格图像。
需要说明的是,可以通过安装于机器人上的摄像头采集当前环境图像,可以通过栅格法对采集到的图像进行网格分割,得到n×n等大小的网格图像,例如,可以将采集的当前环境图像分割为6×6大小的网格图像。
步骤202、基于确定好的起始点和目标点,在网格图像中选择一条从起始点至目标点的路径。
需要说明的是,起始点和目标点之间可以有多条路径,根据起始点和目标点,在原本n×n等大小的网格图像中起始点至目标点的多条路径中选择一条路径,是为了保持变量的唯一性,从而提高里程计数据源动态选择方法的可靠性,例如,可以将采集的当前环境图像分割为6×6大小的网格图像,基于起始点和目标点,可以选择一条由8个网格组成的路径,也可以选择一条由6个网格组成的路径。
步骤203、将路径转换为Q-table格式。
需要说明的是,在n×n等大小的网格图像中选择一条路径后,将该路径转换为Q-table格式,Q-table的列为动作,Q-table的行为状态,Q-table中的值为Q值,该Q值为每一次动作选择的依据,其中,本申请实施例中的里程计数据源可以为编码器数据、IMU数据、激光里程计数据和视觉里程计数据中的2种、3种或4种,例如,里程计数据源为编码器数据、IMU数据、激光里程计数据和视觉里程计数据中4种,请参阅图4,通过栅格法对采集到的图像进行网格分割,得到6×6等大小的网格图像,在6×6等大小的网格图像中选择了一条由8个网格组成的路径后,可以将该路径转为8×4大小的Q-table,8行表示有8个状态,4列表示有4个动作,即有4个可选的里程计数据源,每次选择一个动作就是从4个里程计数据源中选择一个里程计数据源。
步骤204、基于epsilon-Greedy算法选择下一状态的里程计数据源。
需要说明的是,在训练机器人选择里程计数据源之前,机器人对当前环境一无所知,因此需要对Q-table中的Q值进行初始化,得到初始化后的Q值,使得Q-table中的每个单元格具有相同的初始值,初始化后的Q值为0。
需要说明的是,初始化后的Q值为0,此时机器人无法根据Q值选择下一状态的里程计数据源,可以通过epsilon-Greedy算法选择下一状态的里程计数据源,epsilon-Greedy算法是用在决策上的一种策略,可以预先设置在预置范围内的一个较大的epsilon值,预置范围为[0,1],即epsilon∈[0,1]。
采用随机数生成算法随机生成在[0,1]之间的随机数,将该随机数与epsilon值进行比较,当该随机数小于或等于epsilon值时,基于随机方法随机选择下一状态的里程计数据源。
当该随机数大于epsilon值时,可以通过计算得到的下一状态的Q估计值选取下一状态的里程计数据源,可以通过Q值函数计算下一状态的Q估计值,Q值函数为:
Figure BDA0002266553070000081
其中,
Figure BDA0002266553070000082
为下一状态的Q估计值,st为运行到第t个状态,at为第t个状态选择的里程计数据源,s0=st为当前开始的状态,a0=at为当前状态要选择的下一状态的里程计数据源,γ为权值常数,Eπ为求期望值的函数,T为起始点到目标点的所有状态的数量,Rt+1为选择第t+1个状态的里程计数据源后的奖励值,Rt+1可以通过奖赏函数计算得到,奖赏函数为:
Figure BDA0002266553070000083
其中,α为距离代价的权值,β为距离阈值,可以根据实际情况进行设置,d为机器人实际位置di与目标点位置dj的距离代价,可以是
Figure BDA0002266553070000084
||di-dj||为机器人实际位置di与目标点位置dj的欧式距离。
需要注意的是,因为里程计数据源为多个,选择不同的下一状态的里程计数据源,计算得到的下一状态的Q估计值可能是不同的,可以在计算得到多个下一状态的Q估计值中选择最大的Q估计值,最大Q估计值对应的里程计数据源为选择的下一状态的里程计数据源。假设本申请实施例中的可选择的里程计数据源为编码器数据、IMU数据、激光里程计数据和视觉里程计数据4种,那么计算得到的Q估计值就有4个,在计算得到的4个Q估计值中选择最大的Q估计值,最大的Q估计值对应的里程计数据源为选择的下一状态的里程计数据源。
因为初始化后的Q值为0,第一次训练时,可以将epsilon设为1,基于随机方法随机选择下一状态的里程计数据源,随着强化训练中的机器人对估算的Q估计值越有把握,可以逐渐减小epsilon值。
步骤205、计算奖励值。
需要说明的是,选择了下一状态的里程计数据源之后,可以基于奖赏函数计算奖励值,其中,距离代价越大,奖励值越大,实际位置与目标点位置的距离越小,说明选择的里程计数据源越好。
步骤206、基于当前状态的Q值和奖励值计算得到新Q值,基于新Q值更新当前状态的Q值。
需要说明的是,基于当前状态的Q值和奖励值,可以基于Bellman方程计算新Q值,Bellman方程为:
Qnew(s,a)=Q(s,a)+λ[R(s,a)+γmaxQ′(s′,a′)-Q(s,a)] (3)
其中,Qnew(s,a)为新Q值,Q(s,a)为当前状态的Q值,即为老Q值,当老Q值为初始化后的Q值,此时,老Q值为0,R(s,a)为奖励值,λ<1,为学习率,λ越大,保留之前的训练的效果就越小,γ为权值,γ越接近于1,越会着重考虑后续状态的价值,γ越接近于0,越只会考虑当前的价值影响,在训练过程中,γ逐渐从0趋向于1,s为当前状态,s′为下一状态,a为当前状态的里程计数据源,a′为选择的下一状态的里程计数据源,maxQ′(s′,a‘)为下一状态的最大Q估计值,因为选择不同的下一状态的里程计数据源,计算得到的下一状态的Q估计值可能是不同的,假设本申请实施例中的可选择的里程计数据源为编码器数据、IMU数据、激光里程计数据和视觉里程计数据4种,那么计算得到的Q估计值就有4个,maxQ′(s′,a‘)则表示在计算得到的4个Q估计值中选取最大的Q估计值。
基于Bellman方程计算得到新Q值,基于新Q值更新当前状态的Q值。
步骤207、当机器人运行到下一状态,返回步骤204,当达到收敛条件时,输出训练好的Q值。
需要说明的是,当机器人从当前状态移动到下一状态的过程中,当前状态选择的下一状态的里程计数据源就用于记录从当前状态移动到下一状态的里程计信息,当机器人运行到下一状态时,返回步骤204,基于epsilon-Greedy算法选择下一状态的里程计数据源,通过当前状态的Q值和计算得到的奖励值更新当前状态的Q值,当达到训练次数或Q-table中的Q值不再变化时,停止训练,输出训练好的Q值。
需要注意的是,当机器人运行到下一状态时,若下一状态的位置偏离路径,则基于重定位方法修正机器人运行到下一状态的位置。请参阅图5,本次训练选择的路径为1→2→3→4→5→6→7→8,当机器人在状态1运行过程中,偏差到了2′的位置,偏离了本次训练选择的路径,可以采用重定位方法修正机器人的位置,使机器人修正到状态2的位置,使得机器人回到本次训练选择的路径中,从而保证机器人始终在该条路径上完成训练,从而保证变量的唯一性,提高动态选择里程计数据源的可靠性,其中,采用重定位修正机器人位置是现有技术,在此不再进行赘述。
步骤208、返回步骤202,直到起始点至目标点的全部路径选择完成,得到所有路径中训练好的Q值。
需要说明的是,当起始点到目标点的路径不止一条时,在当前选择的一条路径训练完成后,可以从起始点至目标点间剩余的多条路径中再重新选择一条路径,对该重新选择的路径采用强化学习模型进行训练,得到该路径上训练好的Q值,直到起始点到目标点上的所有可能路径训练完成,得到从起始点至目标点间的所有路径上训练好的Q值。
步骤209、基于训练好的Q值动态选择最佳的动作,得到最佳动作对应的里程计数据源。
需要说明的是,每一个状态最佳的动作即每一个状态中Q值最大的动作,通过强化学习模型训练得到训练好的Q值,机器人每次基于训练好的Q值动态选择下一状态的最佳里程计数据源,可以通过选择下一状态中最大的Q值对应的动作,得到该动作对应的里程计数据源作为下一状态的最佳里程计数据源,直至到达目标点,在移动的过程中,机器人可以采用不同的里程计数据源用来记录里程计信息,有效的避免了机器人选择单一的里程计数据源,存在的容易积累误差,而导致的定位准确率下降的问题,从而提高了机器人定位的准确率。本申请实施例中在当前环境中选择多条路径进行强化训练,覆盖了整个当前地图环境,保证了机器人在当前环境中每一条路径都能选择最佳的里程计数据源,提高了机器人的定位准确率。
为了便于理解,请参阅图3,本申请提供了一种里程计数据源动态选择装置的一个实施例,包括:
分割模块301,用于对采集的当前环境图像进行网格分割,得到若干个等大小的网格图像。
第一选择模块302,用于基于确定好的起始点和目标点,在网格图像中选择一条从起始点至目标点的路径。
转换模块303,用于将路径转换为Q-table格式,Q-table的列为动作,Q-table的行为状态,Q-table中的值为Q值。
训练模块304,用于基于确定好的起始点和目标点,在网格图像中选择一条从起始点至目标点的路径。
第二选择模块305,用于基于训练好的Q值动态选择最佳的动作,得到最佳动作对应的里程计数据源。
进一步的,还包括:
触发模块306,用于触发第一选择模块302、转换模块303和训练模块304,直到起始点至目标点的全部路径选择完成,得到所有路径中训练好的Q值。
本申请还提供了一种里程计数据源动态选择设备,设备包括处理器以及存储器;
存储器用于存储程序代码,并将程序代码传输给所述处理器;
处理器用于根据程序代码中的指令执行前述里程计数据源动态选择方法的实施例中的里程计数据源动态选择方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以通过一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种里程计数据源动态选择方法,其特征在于,包括:
对采集的当前环境图像进行网格分割,得到若干个等大小的网格图像;
基于确定好的起始点和目标点,在所述网格图像中选择一条从所述起始点至所述目标点的路径;
将所述路径转换为Q-table格式,所述Q-table的列为动作,所述Q-table的行为状态,所述Q-table中的值为Q值;
基于强化学习模型对所述Q-table中的Q值进行训练,当达到收敛条件时,输出训练好的Q值;
基于所述训练好的Q值动态选择最佳的动作,得到所述最佳的动作对应的里程计数据源。
2.根据权利要求1所述的里程计数据源动态选择方法,其特征在于,所述基于所述训练好的Q值动态选择最佳的动作,得到所述最佳的动作对应的里程计数据源,之前还包括:
返回所述基于确定好的起始点和目标点,在所述网格图像中选择一条从所述起始点至所述目标点的路径的步骤,直到所述起始点至所述目标点的全部路径选择完成,得到所有路径中训练好的Q值。
3.根据权利要求1所述的里程计数据源动态选择方法,其特征在于,所述基于强化学习模型对所述Q-table中的Q值进行训练,当达到收敛条件时,输出训练好的Q值,具体包括:
基于epsilon-Greedy算法选择下一状态的里程计数据源;
计算奖励值;
基于所述当前状态的Q值和所述奖励值计算得到新Q值,基于所述新Q值更新所述当前状态的Q值;
当机器人运行到下一状态,返回所述基于epsilon-Greedy算法选择下一状态的里程计数据源的步骤,当达到收敛条件时,输出训练好的Q值。
4.根据权利要求3所述的里程计数据源动态选择方法,其特征在于,所述基于epsilon-Greedy算法选择下一状态的里程计数据源,具体包括:
设置在预置范围内的epsilon值;
采用随机数生成算法在所述预置范围内生成随机数,当所述随机数小于或等于所述epsilon值时,基于随机方法随机选择下一状态的里程计数据源;
当所述随机数大于所述epsilon值时,基于计算得到的下一状态的Q估计值选择下一状态的里程计数据源。
5.根据权利要求3所述的里程计数据源动态选择方法,其特征在于,所述计算奖励值,包括:
基于奖赏函数计算奖励值,所述奖赏函数为:
Figure FDA0002266553060000021
其中,R为奖励值,α为距离代价的权值,β为距离阈值,d为所述机器人实际位置与目标点位置的距离代价。
6.根据权利要求3所述的里程计数据源动态选择方法,其特征在于,所述基于所述当前状态的Q值和所述奖励值计算得到新Q值,基于新Q值更新所述当前状态的Q值,包括:
基于所述当前状态的Q值和所述奖励值,根据Bellman方程计算得到新Q值,基于所述新Q值更新所述当前状态的Q值。
7.根据权利要求3所述的里程计数据源动态选择方法,其特征在于,还包括:
当所述机器人运行到下一状态时,若所述下一状态的位置偏离所述路径,则基于重定位方法修正所述机器人运行到所述下一状态的位置。
8.一种里程计数据源动态选择装置,其特征在于,包括:
分割模块,用于对采集的当前环境图像进行网格分割,得到若干个等大小的网格图像;
第一选择模块,用于基于确定好的起始点和目标点,在所述网格图像中选择一条从所述起始点至所述目标点的路径;
转换模块,用于将所述路径转换为Q-table格式,所述Q-table的列为动作,所述Q-table的行为状态,所述Q-table中的值为Q值;
训练模块,用于基于强化学习模型对所述Q-table中的Q值进行训练,当达到收敛条件时,输出训练好的Q值;
第二选择模块,用于基于所述训练好的Q值动态选择最佳的动作,得到所述最佳的动作对应的里程计数据源。
9.根据权利要求8所述的里程计数据源动态选择装置,其特征在于,还包括:
触发模块,用于触发所述第一选择模块、所述转换模块和所述训练模块,直到所述起始点至所述目标点的全部路径选择完成,得到所有路径中训练好的Q值。
10.一种里程计数据源动态选择设备,其特征在于,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-7任一项所述的里程计数据源动态选择方法。
CN201911089963.2A 2019-11-08 2019-11-08 一种里程计数据源动态选择方法、装置和设备 Active CN110866482B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911089963.2A CN110866482B (zh) 2019-11-08 2019-11-08 一种里程计数据源动态选择方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911089963.2A CN110866482B (zh) 2019-11-08 2019-11-08 一种里程计数据源动态选择方法、装置和设备

Publications (2)

Publication Number Publication Date
CN110866482A true CN110866482A (zh) 2020-03-06
CN110866482B CN110866482B (zh) 2022-09-16

Family

ID=69654510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911089963.2A Active CN110866482B (zh) 2019-11-08 2019-11-08 一种里程计数据源动态选择方法、装置和设备

Country Status (1)

Country Link
CN (1) CN110866482B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6424893B1 (en) * 2000-09-22 2002-07-23 Patrick Byrne Mileage and fuel purchase monitoring device for vehicles
CN108253963A (zh) * 2017-12-20 2018-07-06 广西师范大学 一种基于多传感器融合的机器人自抗扰定位方法以及定位系统
CN109059931A (zh) * 2018-09-05 2018-12-21 北京航空航天大学 一种基于多智能体强化学习的路径规划方法
JP2019007739A (ja) * 2017-06-20 2019-01-17 日産自動車株式会社 自己位置推定方法及び自己位置推定装置
CN109682392A (zh) * 2018-12-28 2019-04-26 山东大学 基于深度强化学习的视觉导航方法及系统
CN109816115A (zh) * 2019-01-07 2019-05-28 南京航空航天大学 一种基于改进Q-learning算法的最短路径问题的解决方法
CN110132302A (zh) * 2019-05-20 2019-08-16 中国科学院自动化研究所 融合imu信息的双目视觉里程计定位方法、系统
CN110411462A (zh) * 2019-07-22 2019-11-05 武汉大学 一种gnss/惯性/车道线约束/里程计多源融合方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6424893B1 (en) * 2000-09-22 2002-07-23 Patrick Byrne Mileage and fuel purchase monitoring device for vehicles
JP2019007739A (ja) * 2017-06-20 2019-01-17 日産自動車株式会社 自己位置推定方法及び自己位置推定装置
CN108253963A (zh) * 2017-12-20 2018-07-06 广西师范大学 一种基于多传感器融合的机器人自抗扰定位方法以及定位系统
CN109059931A (zh) * 2018-09-05 2018-12-21 北京航空航天大学 一种基于多智能体强化学习的路径规划方法
CN109682392A (zh) * 2018-12-28 2019-04-26 山东大学 基于深度强化学习的视觉导航方法及系统
CN109816115A (zh) * 2019-01-07 2019-05-28 南京航空航天大学 一种基于改进Q-learning算法的最短路径问题的解决方法
CN110132302A (zh) * 2019-05-20 2019-08-16 中国科学院自动化研究所 融合imu信息的双目视觉里程计定位方法、系统
CN110411462A (zh) * 2019-07-22 2019-11-05 武汉大学 一种gnss/惯性/车道线约束/里程计多源融合方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DANIEL DAVIDEK,ET AL.: "Odometer Module for Mobile Robot with Podition Error Estimation", 《IFAC-PAPERSONLINE》 *
张福海,李宁,袁儒鹏,付宜利: "基于强化学习的机器人路径规划算法", 《华中科技大学学报》 *
江其洲,曾碧: "基于深度强化学习的移动机器人导航策略研究", 《计算机测量与控制》 *
王蕾等: "应用于智能物流小车的避障策略研究", 《公路交通科技(应用技术版)》 *
罗真等: "基于视觉和里程计信息融合的移动机器人自定位", 《机器人》 *

Also Published As

Publication number Publication date
CN110866482B (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
EP3965431A1 (en) Video data processing method and related device
JP5946073B2 (ja) 推定方法、推定システム、コンピュータ・システムおよびプログラム
EP3882820A1 (en) Node classification method, model training method, device, apparatus, and storage medium
CN109272509B (zh) 一种连续图像的目标检测方法、装置、设备及存储介质
CN109211277B (zh) 视觉惯性里程计的状态确定方法、装置和电子设备
CN109271958B (zh) 人脸年龄识别方法及装置
US20180247183A1 (en) Method and system for generative model learning, and recording medium
CN112232495B (zh) 预测模型的训练方法、装置、介质和计算设备
US20190335154A1 (en) Image processing apparatus, image processing method, and storage medium storing program
CN108875931B (zh) 神经网络训练及图像处理方法、装置、系统
KR102203253B1 (ko) 생성적 적대 신경망에 기반한 평점 증강 및 아이템 추천 방법 및 시스템
CN112927279A (zh) 一种图像深度信息生成方法、设备及存储介质
CN112991515B (zh) 一种三维重建方法、装置及相关设备
CN110705531B (zh) 缺失字符检测、缺失字符检测模型的建立方法及装置
US20160313799A1 (en) Method and apparatus for identifying operation event
WO2018130284A1 (en) Anomaly detection of media event sequences
US20150149105A1 (en) Accuracy compensation system, method, and device
WO2020084279A1 (en) Data communication
CN113112542A (zh) 一种视觉定位方法、装置、电子设备及存储介质
CN110866482B (zh) 一种里程计数据源动态选择方法、装置和设备
CN114024944A (zh) 媒体内容植入方法、装置、电子设备及存储介质
CN110275895B (zh) 一种缺失交通数据的填充设备、装置及方法
CN115618714B (zh) 一种太阳辐射概率预报方法及相关设备
JPWO2020152848A1 (ja) 認識器訓練装置、認識装置、データ処理システム、データ処理方法、およびプログラム
CN114137967B (zh) 基于多网络联合学习的驾驶行为决策方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant