CN107562053A - 一种基于模糊q学习的六足机器人避障方法 - Google Patents
一种基于模糊q学习的六足机器人避障方法 Download PDFInfo
- Publication number
- CN107562053A CN107562053A CN201710763224.1A CN201710763224A CN107562053A CN 107562053 A CN107562053 A CN 107562053A CN 201710763224 A CN201710763224 A CN 201710763224A CN 107562053 A CN107562053 A CN 107562053A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- robot
- hexapod robot
- msup
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 241000238631 Hexapoda Species 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000009471 action Effects 0.000 claims abstract description 38
- 238000005259 measurement Methods 0.000 claims abstract description 16
- 230000004927 fusion Effects 0.000 claims abstract description 5
- 238000005094 computer simulation Methods 0.000 claims abstract description 4
- 230000004888 barrier function Effects 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 12
- 230000005021 gait Effects 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 3
- 210000002683 foot Anatomy 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000003306 harvesting Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000006742 locomotor activity Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
Landscapes
- Manipulator (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明提供了一种基于模糊Q学习的六足机器人避障方法,步骤包括:由六足机器人通过前部的超声波传感器测量机器人周围的障碍物距离,并通过模糊推理将测量的障碍物距离转化为有限的状态集合;根据有限的状态集合在仿真平台中进行避障仿真建模,再利用Q学习算法学习出六足机器人在相应状态下所要采取的动作;确定六足机器人在当前状态下所处的状态集合,再利用模糊推理确定六足机器人所处的动作集合,并对这些动作进行融合确定下一动作。该避障方法能够在障碍物数量较多的位置环境中实现较好的避障效果,具有良好的市场应用前景。
Description
技术领域
本发明涉及一种机器人避障方法,尤其是一种基于模糊Q学习的六足机器人避障方法。
背景技术
六足机器人在结构上具有多冗余自由度,因而具有较高的地形环境适应能力。六足机器人能够在路况复杂的野外行走、越障,完成轮式或履带式所不能完成的非结构性环境中的运输作业,在森林采伐、矿山开采、水下建筑、核工业、军事运输及探测、星球探测等领域有着非常广阔的应用前景。因此,六足机器人的相关研究一直备受各国专家学者的关注,但是如何提高六足机器人在非结构环境下的移动能力仍然是个悬而未决的课题。
传统的六足机器人步行运动采取固定步态的方法,如三足步态、四足步态、波动步态等,研究者把几种不同的步态根据参数的不同分别做成几组步态数据,当有不同需求的时候调用。利用这种步态能够在平面上表现出良好的行走能力,但在不规则地形特别是未知环境中,机器人则没有办法实现稳定的行走,因此迫切需要一种能够适应未知地形的步态规划方法。
为了能够使六足机器人适应复杂非结构路况,需要用到机器学习的方法。机器学习是人工智能的核心问题之一,是通过对已有的知识和经验的学习,不断提高自身性能的过程。机器学习本身是一门涉及到概率论、统计学、计算机等多学科领域的交叉学科,可以被广泛应用到各行业中。机器学习帮助机器人主动适应一些新的环境,从而避免研究人员为不同的场景编制程序。
发明内容
本发明要解决的技术问题是现有的避障算法无法适用于在复杂工作环境中作业的六足机器人这一情况。
为了解决上述技术问题,本发明提供了一种基于模糊Q学习的六足机器人避障方法,包括如下步骤:
步骤1,由六足机器人通过前部的超声波传感器测量机器人周围的障碍物距离,并通过模糊推理将测量的障碍物距离转化为有限的状态集合;
步骤2,根据有限的状态集合在仿真平台中进行避障仿真建模,再利用Q学习算法学习出六足机器人在相应状态下所要采取的动作;
步骤3,确定六足机器人在当前状态下所处的状态集合,再利用模糊推理确定六足机器人所处的动作集合,并对这些动作进行融合确定下一动作。
作为本发明的进一步限定方案,步骤1中,将测量的障碍物距离转化为有限的状态集合的具体步骤为:
步骤1.1,利用机器人前部的9个超声波传感器测出距离信息,每三个分为一组,假设测量结果为a1,a2,a3;b1,b2,b3;c1,c2,c3,再通过公式(1)进行处理,
式中,a,b,c分别为机器人前方三个方向上的障碍物距离,RV是依据机器人尺寸所确定的调整量。
步骤1.2,利用模糊隶属度函数对距离进行模糊化,从而转化为有限的状态集合:
每个障碍物距离都对应近、中、远三个隶属度,于是六足机器人的障碍物信息便转化为27个状态。式中x为障碍物距离,F(x)为隶属度。
作为本发明的进一步限定方案,步骤2中,利用Q学习算法学习出六足机器人在相应状态下所要采取的动作的具体步骤为:
步骤2.1,在Matlab中建立六足机器人避障模型;
步骤2.2,利用策略值函数来描述避障过程的预期收益为:
Qπ(st,at)=E[Rt|st,at] (3)
式(3)中,Rt为时刻t获得的打过折扣以后的未来收益总和,π为为避障的目标策略,由于避障的目标策略π是预设确定的,记为函数μ:S←A,S为状态空间,A为动作空间,同时利用贝尔曼方程处理式(4)有:
Q*(st,at)=E[r(st,at)+γmaxQ*(st+1,a't+1)] (4)
其中,γ∈[0,1]为折扣因子,r(st,at)表示t时刻从环境获得的回报值,maxQ*(st+1,a't+1)表示机器人下一个状态采取某个动作的最大回报值;
步骤2.3,利用贝尔曼方程逼近的Q学习单步算法为:
式(5)中,rt+1是机器人在状态s采取动作a的瞬时回报值,γ为折扣因子,为学习率;
步骤2.4,根据构建的六足机器人避障模型,并利用Q学习算法获得学习好的动作-状态值函数,再由动作-状态值函数获得六足机器人避障所要采取的动作。
本发明的有益效果在于:(1)把六足机器人的障碍物距离模糊化,将障碍物信息转化为有限的状态集合,相当于把六足机器人的避障问题离散化,可以将其看成一个马尔科夫决策过程;(2)通过Q学习算法学习出六足机器人在相应状态的最佳动作,并以此为基础制定模糊控制的模糊推理机制;(3)将距离转化为近、中、远三个模糊度,使得六足机器人在一个时间点的障碍物信息可以对应多个不同的状态,保证了避障的精确度。
附图说明
图1为本发明的方法流程图。
具体实施方式
本发明公开的基于模糊Q学习的六足机器人避障方法是基于模糊Q学习的六足机器人避障系统的,该系统包括:距离测量系统、模糊控制系统和六足机器人运动系统。
其中,距离测量系统主要由安装在六足机器人前方的9路超声波传感器组成;模糊控制系统主要由隶属度函数、模糊推理等模块组成;六足机器人运动系统主要由CR-6机器人模型和主控制器组成。
该系统在工作时,首先,借助超声波传感器获取六足机器人的障碍物信息,利用距离隶属度函数对测量结果模糊化,把障碍物信息转化为有限的状态集合;然后在Matlab软件中建六足机器人的避障模型,把六足机器人的避障过程转化为一个马尔科夫决策过程,利用Q学习算法学习出六足机器人在相应的状态所要采取的最佳动作;最后,当机器人在环境中运行时,先利用模糊隶属度函数对障碍物距离进行处理,确认机器人当前所处的多个状态,再利用模糊推理确定六足机器人当前所要采取的多个动作,最后对这些动作进行融合,确定六足机器人在当前情况下要采取的最终动作。
在距离测量系统中,当前环境中的声速未知,将无法获得准确的声速真值,这会导致距离测量产生误差,但是障碍物的距离和超声波传播的时间成正比,因此,采用标定的方法得出距离和时间之间的关系,提高了测量的准确度。
在模糊控制系统中,先利用Q学习学习出最优策略,在Matlab中进行仿真时,为了保证Q学习算法收敛,采用ε-greedy策略作为动作选择策略,在继承已学知识的基础上,还具有一定的探索能力,模糊推理的制定是基于学习好的动作-状态值函数。
在六足机器人运动系统中,由基于STM32F407ZGT6的主控制器完成,六足机器人每条腿有三个自由度,总共有18个自由度,每个自由度由一个舵机控制,每个舵机由一路PWM波进行控制,采用单片机定时器的PWM功能同时输出18路周期为20ms的PWM波,控制六足机器人的各种步态。
如图1所示,本发明提供了一种基于模糊Q学习的六足机器人避障方法,包括如下步骤:
步骤1,在相对复杂的环境中,由六足机器人通过前部的9个超声波传感器测量机器人周围的障碍物距离,并通过模糊推理将测量转化为有限的状态集合;
步骤2,在仿真平台中进行避障仿真建模,利用Q学习算法学习出六足机器人在相应状态所要采取的最佳动作;
步骤3,确定六足机器人在当前情形下所处的状态集合,然后利用模糊推理确定六足机器人所处的动作集合,并对这些动作进行融合确定最佳动作。
其中,步骤1中把六足机器人的障碍物距离信息转化为有限的状态集合的具体步骤为:
步骤1.1,利用机器人前方的9个超声波传感器测出距离信息,每三个分为一组,假设测量结果为a1,a2,a3;b1,b2,b3;c1,c2,c3,然后通过公式(1)进行处理,
式中,a,b,c分别为机器人前方三个方向上的障碍物距离,RV是依据机器人尺寸所确定的调整量。
步骤1.2,利用模糊隶属度函数对距离进行模糊化,将转化为有限的状态集合:
每个障碍物距离都对应近、中、远三个隶属度,因此六足机器人的障碍物信息就可以转化为27个状态。式中x为障碍物距离,F(x)为隶属度。
步骤2中利用Q学习算法在仿真实验中学习出六足机器人在相应状态所要采取的最佳动作的具体步骤为:
步骤2.1,在Matlab中建立六足机器人避障模型,利用六足机器人避障过程符合Q学习且满足马尔科夫性质的条件,采用Q学习算法进行学习,学习出六足机器人在相应状态所要采取的最佳动作;
步骤2.2,利用策略值函数来描述避障过程的预期收益为:
Qπ(st,at)=E[Rt|st,at] (3)
式(3)中,Rt为时刻t获得的打过折扣以后的未来收益总和,π为避障策略;
由于避障的目标策略π是预设确定的,记为函数μ:S←A,S为状态空间,A为的动作空间,同时利用贝尔曼方程处理式(4)有:
Q*(st,at)=E[r(st,at)+γmaxQ*(st+1,a't+1)] (4)
其中,γ∈[0,1]为折扣因子,r(st,at)表示t时刻从环境获得的回报值,maxQ*(st+1,a't+1)表示机器人下一个状态采取某个动作的最大回报值;
步骤2.3,利用贝尔曼方程逼近的Q学习单步算法为:
式(5)中,rt+1是机器人在状态s采取动作a的瞬时回报值,maxQ(st+1,a't+1)表示机器人下一个状态采取某个动作的最大回报值,为折扣因子,为学习率;
步骤2.4,利用构建的六足机器人避障模型,采用Q学习算法进行学习,最终获得学习好的动作-状态值函数,并根据学习的值函数获得六足机器人避障的最优策略。
作为本发明的进一步限定方案,模糊控制中的模糊推理机制是通过Q学习的方法学习出来的,而并非依赖于专家经验或者大量的实验结果;六足机器人避障过程被分解为确定当前状态和采取相应的最优动作这两个步骤;通过模糊逻辑对距离信息进行处理,六足机器人在一个时间点可能会处于多个不同的状态,我们把所有状态的最优动作进行融合就可以得出六足机器人避障所需采取的动作。
本发明采用模糊控制和Q学习相结合的方法,可以有效的解决模糊控制中模糊推理机制建立复杂这一问题。把六足机器人的障碍物信息转化为一个有限的状态集合,继而把六足机器人的避障过程看成一个马尔科夫决策过程,然后通过学习的方法,学习出六足机器人在相应状态所要采取的最优动作,并以此为基础建立模糊控制的模糊推理机制。六足机器人在运行过程中,障碍物信息通过模糊处理可能对应多个状态,把这些状态所对应的最有动作进行融合得出六足机器人所要采取的最终动作,最终实现了六足机器人在复杂环境中的安全自主避障。
Claims (3)
1.一种基于模糊Q学习的六足机器人避障方法,其特征在于,包括如下步骤:
步骤1,由六足机器人通过前部的超声波传感器测量机器人周围的障碍物距离,并通过模糊推理将测量的障碍物距离转化为有限的状态集合;
步骤2,根据有限的状态集合在仿真平台中进行避障仿真建模,再利用Q学习算法学习出六足机器人在相应状态下所要采取的动作;
步骤3,确定六足机器人在当前状态下所处的状态集合,再利用模糊推理确定六足机器人所处的动作集合,并对这些动作进行融合确定下一动作。
2.根据权利要求1所述的基于模糊Q学习的六足机器人避障方法,其特征在于,步骤1中,将测量的障碍物距离转化为有限的状态集合的具体步骤为:
步骤1.1,利用机器人前部的9个超声波传感器测出距离信息,每三个分为一组,假设测量结果为a1,a2,a3;b1,b2,b3;c1,c2,c3,再通过公式(1)进行处理:
<mrow>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>a</mi>
<mo>=</mo>
<msup>
<mi>R</mi>
<mi>V</mi>
</msup>
<mo>+</mo>
<mi>min</mi>
<mrow>
<mo>(</mo>
<mi>a</mi>
<mn>1</mn>
<mo>,</mo>
<mi>a</mi>
<mn>2</mn>
<mo>,</mo>
<mi>a</mi>
<mn>3</mn>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mi>b</mi>
<mo>=</mo>
<msup>
<mi>R</mi>
<mi>V</mi>
</msup>
<mo>+</mo>
<mi>min</mi>
<mrow>
<mo>(</mo>
<mi>b</mi>
<mn>1</mn>
<mo>,</mo>
<mi>b</mi>
<mn>2</mn>
<mo>,</mo>
<mi>b</mi>
<mn>3</mn>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mi>c</mi>
<mo>=</mo>
<msup>
<mi>R</mi>
<mi>V</mi>
</msup>
<mo>+</mo>
<mi>min</mi>
<mrow>
<mo>(</mo>
<mi>c</mi>
<mn>1</mn>
<mo>,</mo>
<mi>c</mi>
<mn>2</mn>
<mo>,</mo>
<mi>c</mi>
<mn>3</mn>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
式中,a,b,c分别为机器人前方三个方向上的障碍物距离,RV是依据机器人尺寸所确定的调整量。
步骤1.2,利用模糊隶属度函数对距离进行模糊化,从而转化为有限的状态集合:
<mrow>
<mi>F</mi>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>exp</mi>
<mrow>
<mo>(</mo>
<mfrac>
<mrow>
<mo>-</mo>
<msup>
<mi>x</mi>
<mn>2</mn>
</msup>
</mrow>
<mn>1500</mn>
</mfrac>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mi>exp</mi>
<mrow>
<mo>(</mo>
<mfrac>
<mrow>
<mo>-</mo>
<msup>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>-</mo>
<mn>125</mn>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mrow>
<mn>1500</mn>
</mfrac>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mi>exp</mi>
<mrow>
<mo>(</mo>
<mfrac>
<mrow>
<mo>-</mo>
<msup>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>-</mo>
<mn>250</mn>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mrow>
<mn>1500</mn>
</mfrac>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
每个障碍物距离都对应近、中、远三个隶属度,于是六足机器人的障碍物信息便转化为27个状态。式中x为障碍物距离,F(x)为隶属度。
3.根据权利要求1所述的基于模糊Q学习的六足机器人避障方法,其特征在于,步骤2中,利用Q学习算法学习出六足机器人在相应状态下所要采取的动作的具体步骤为:
步骤2.1,在Matlab中建立六足机器人避障模型;
步骤2.2,利用策略值函数来描述避障过程的预期收益为:
Qπ(st,at)=E[Rt|st,at] (3)
式(3)中,Rt为时刻t获得的打过折扣以后的未来收益总和,π为避障的目标策略,由于避障的目标策略π是预设确定的,记为函数μ:S←A,S为状态空间,A为动作空间,同时利用贝尔曼方程处理式(4)有:
Q*(st,at)=E[r(st,at)+γmaxQ*(st+1,a't+1)] (4)
其中,γ∈[0,1]为折扣因子,r(st,at)表示t时刻从环境获得的回报值,maxQ*(st+1,a't+1)表示机器人下一个状态采取某个动作的最大回报值;
步骤2.3,利用贝尔曼方程逼近的Q学习单步算法为:
<mrow>
<mi>Q</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>t</mi>
</msub>
<mo>,</mo>
<msub>
<mi>a</mi>
<mi>t</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>Q</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>t</mi>
</msub>
<mo>,</mo>
<msub>
<mi>a</mi>
<mi>t</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mo>&part;</mo>
<mrow>
<mo>(</mo>
<msub>
<mi>r</mi>
<mrow>
<mi>t</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>+</mo>
<mi>&gamma;</mi>
<mi>max</mi>
<mi> </mi>
<mi>Q</mi>
<mo>(</mo>
<mrow>
<msub>
<mi>s</mi>
<mrow>
<mi>t</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>,</mo>
<msub>
<msup>
<mi>a</mi>
<mo>&prime;</mo>
</msup>
<mrow>
<mi>t</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msub>
</mrow>
<mo>)</mo>
<mo>-</mo>
<mi>Q</mi>
<mo>(</mo>
<mrow>
<msub>
<mi>s</mi>
<mi>t</mi>
</msub>
<mo>,</mo>
<msub>
<mi>a</mi>
<mi>t</mi>
</msub>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
式(5)中,rt+1是机器人在状态s采取动作a的瞬时回报值,γ是折扣因子,为学习率;
步骤2.4,根据构建的六足机器人避障模型,并利用Q学习算法获得学习好的动作-状态值函数,再由动作-状态值函数获得六足机器人避障所要采取的动作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710763224.1A CN107562053A (zh) | 2017-08-30 | 2017-08-30 | 一种基于模糊q学习的六足机器人避障方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710763224.1A CN107562053A (zh) | 2017-08-30 | 2017-08-30 | 一种基于模糊q学习的六足机器人避障方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107562053A true CN107562053A (zh) | 2018-01-09 |
Family
ID=60978084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710763224.1A Pending CN107562053A (zh) | 2017-08-30 | 2017-08-30 | 一种基于模糊q学习的六足机器人避障方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107562053A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109085751A (zh) * | 2018-09-16 | 2018-12-25 | 南京大学 | 一种基于多粒度强化学习的六足机器人导航方法 |
CN109116854A (zh) * | 2018-09-16 | 2019-01-01 | 南京大学 | 一种基于强化学习的多组机器人协作控制方法及控制系统 |
CN109270833A (zh) * | 2018-10-23 | 2019-01-25 | 大连海事大学 | 一种基于无刷直流电机q学习的变论域模糊控制方法 |
CN109977884A (zh) * | 2019-03-29 | 2019-07-05 | 北京易达图灵科技有限公司 | 目标跟随方法和装置 |
CN110108282A (zh) * | 2019-05-09 | 2019-08-09 | 仲恺农业工程学院 | 多源信息避障装置及避障系统 |
CN110307848A (zh) * | 2019-07-04 | 2019-10-08 | 南京大学 | 一种移动机器人导航方法 |
CN111552183A (zh) * | 2020-05-17 | 2020-08-18 | 南京大学 | 一种基于自适应权重强化学习的六足机器人避障方法 |
CN111645065A (zh) * | 2020-03-25 | 2020-09-11 | 南京大学 | 一种基于深度强化学习的机械臂运动规划方法 |
CN112904859A (zh) * | 2021-01-20 | 2021-06-04 | 北京理工大学 | 一种基于强化学习的多足机器人步态切换方法 |
CN113359707A (zh) * | 2021-05-19 | 2021-09-07 | 杭州电子科技大学 | 一种基于双层模糊强化学习的六足机器人避障方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1235391A1 (fr) * | 2000-12-22 | 2002-08-28 | Commissariat A L'energie Atomique | Procédé de routage adaptif par déflexion avec apprentissage par renforcement |
CN102156484A (zh) * | 2011-03-24 | 2011-08-17 | 西北工业大学 | 四足机器人对角步态的自适应控制方法 |
CN102402712A (zh) * | 2011-08-31 | 2012-04-04 | 山东大学 | 基于神经网络的机器人强化学习初始化方法 |
CN103499974A (zh) * | 2013-09-27 | 2014-01-08 | 中国人民解放军空军工程大学 | 一种双机协同被动雷达探测路径规划方法 |
-
2017
- 2017-08-30 CN CN201710763224.1A patent/CN107562053A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1235391A1 (fr) * | 2000-12-22 | 2002-08-28 | Commissariat A L'energie Atomique | Procédé de routage adaptif par déflexion avec apprentissage par renforcement |
CN102156484A (zh) * | 2011-03-24 | 2011-08-17 | 西北工业大学 | 四足机器人对角步态的自适应控制方法 |
CN102402712A (zh) * | 2011-08-31 | 2012-04-04 | 山东大学 | 基于神经网络的机器人强化学习初始化方法 |
CN103499974A (zh) * | 2013-09-27 | 2014-01-08 | 中国人民解放军空军工程大学 | 一种双机协同被动雷达探测路径规划方法 |
Non-Patent Citations (2)
Title |
---|
张汝波: "《强化学习理论及应用》", 30 April 2001, 哈尔滨工程大学出版社 * |
陈春林: "基于强化学习的移动机器人自主学习及导航控制", 《中国优秀博硕士论文全文数据库(博士) 信息科技辑》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109085751A (zh) * | 2018-09-16 | 2018-12-25 | 南京大学 | 一种基于多粒度强化学习的六足机器人导航方法 |
CN109116854A (zh) * | 2018-09-16 | 2019-01-01 | 南京大学 | 一种基于强化学习的多组机器人协作控制方法及控制系统 |
CN109270833A (zh) * | 2018-10-23 | 2019-01-25 | 大连海事大学 | 一种基于无刷直流电机q学习的变论域模糊控制方法 |
CN109977884A (zh) * | 2019-03-29 | 2019-07-05 | 北京易达图灵科技有限公司 | 目标跟随方法和装置 |
CN110108282A (zh) * | 2019-05-09 | 2019-08-09 | 仲恺农业工程学院 | 多源信息避障装置及避障系统 |
CN110108282B (zh) * | 2019-05-09 | 2023-11-07 | 仲恺农业工程学院 | 多源信息避障装置及避障系统 |
CN110307848A (zh) * | 2019-07-04 | 2019-10-08 | 南京大学 | 一种移动机器人导航方法 |
CN111645065A (zh) * | 2020-03-25 | 2020-09-11 | 南京大学 | 一种基于深度强化学习的机械臂运动规划方法 |
CN111552183A (zh) * | 2020-05-17 | 2020-08-18 | 南京大学 | 一种基于自适应权重强化学习的六足机器人避障方法 |
CN111552183B (zh) * | 2020-05-17 | 2021-04-23 | 南京大学 | 一种基于自适应权重强化学习的六足机器人避障方法 |
CN112904859A (zh) * | 2021-01-20 | 2021-06-04 | 北京理工大学 | 一种基于强化学习的多足机器人步态切换方法 |
CN113359707A (zh) * | 2021-05-19 | 2021-09-07 | 杭州电子科技大学 | 一种基于双层模糊强化学习的六足机器人避障方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107562053A (zh) | 一种基于模糊q学习的六足机器人避障方法 | |
Pothal et al. | Navigation of multiple mobile robots in a highly clutter terrains using adaptive neuro-fuzzy inference system | |
JP2021034050A (ja) | 強化学習に基づくauv行動計画及び動作制御方法 | |
Patle et al. | Application of probability to enhance the performance of fuzzy based mobile robot navigation | |
CN105549597A (zh) | 一种基于环境不确定性的无人车动态路径规划方法 | |
Ren et al. | A new fuzzy intelligent obstacle avoidance control strategy for wheeled mobile robot | |
WO2017197170A1 (en) | Safely controlling an autonomous entity in presence of intelligent agents | |
Mohanty et al. | Path planning of an autonomous mobile robot using adaptive network based fuzzy controller | |
Qi et al. | Learning-based path planning and predictive control for autonomous vehicles with low-cost positioning | |
Ni et al. | An improved real-time path planning method based on dragonfly algorithm for heterogeneous multi-robot system | |
CN104914867A (zh) | 一种模糊神经网络的六足机器人自主导航闭环控制器 | |
Yan et al. | Real-world learning control for autonomous exploration of a biomimetic robotic shark | |
Che et al. | Research on improved ACO algorithm-based multi-robot odor source localization | |
Lou et al. | Path planning in an unknown environment based on deep reinforcement learning with prior knowledge | |
Yu et al. | Obstacle avoidance method based on double DQN for agricultural robots | |
Kong et al. | Path Planning of a Multifunctional Elderly Intelligent Wheelchair Based on the Sensor and Fuzzy Bayesian Network Algorithm | |
Batti et al. | Mobile robot obstacle avoidance in labyrinth environment using fuzzy logic approach | |
Pandey et al. | Type-2 fuzzy controller (T2FC) based motion planning of differential-drive pioneer P3-DX wheeled robot in V-REP software platform | |
Ai et al. | Neuro-fuzzy mobile robot navigation | |
Parasuraman | Sensor fusion for mobile robot navigation: Fuzzy Associative Memory | |
Zhang et al. | A deep reinforcement learning method for mobile robot path planning in unknown environments | |
Li et al. | DDPG-Based Path Planning Approach for Autonomous Driving | |
Rosero et al. | CNN-Planner: A neural path planner based on sensor fusion in the bird's eye view representation space for mapless autonomous driving | |
Vásconez et al. | A Behavior-Based Fuzzy Control System for Mobile Robot Navigation: Design and Assessment | |
Chu | Development of hybrid control architecture for a small autonomous underwater vehicle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180109 |
|
RJ01 | Rejection of invention patent application after publication |