CN115903773A

CN115903773A - 移动体控制装置、移动体、学习装置及方法、及存储介质

Info

Publication number: CN115903773A
Application number: CN202211186077.3A
Authority: CN
Inventors: 松崎灿心; 长谷川雄二
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2021-09-30
Filing date: 2022-09-26
Publication date: 2023-04-04
Also published as: JP2023051421A; US20230098219A1

Abstract

本发明提供能够根据环境的拥挤度来决定恰当的移动方式的移动体控制装置、移动体、学习装置及方法、及存储介质。移动体控制装置具备：路径决定部，其根据在移动体的周边存在的障碍物的个数来决定所述移动体的路径；以及控制部，其使所述移动体沿着由所述路径决定部决定的路径移动。

Description

移动体控制装置、移动体、学习装置及方法、及存储介质

技术领域

本发明涉及移动体控制装置、移动体、学习装置、学习方法及存储介质。

背景技术

近年来，利用通过机器学习而生成的AI(人工智能)来决定移动体的移动路径的尝试不断进展。另外，基于观测值来决定行动，计算基于从实际环境、仿真器得到的反馈而获得的报酬而将模型参数最优化的强化学习也不断推进研究及实用化。

与此相关联，为了针对人的移动采取安全·安心的躲避行动，公开了如下路径决定装置的发明，该路径决定装置在包括行人的交通参加者存在于到目的地为止的交通环境的条件下决定自主移动型的机器人移动到目的地为止时的路径(参照专利文献1)。该路径决定装置具备：预测路径决定部，其使用规定的预测算法来决定作为机器人的路径的预测值的预测路径，以免机器人与交通参加者干涉；路径决定部，其以使目标函数成为最大值的方式，使用规定的控制算法来决定机器人的路径，所述目标函数是指，在设想机器人从当前位置以预测路径移动时，作为自变量而包括机器人与最近的交通参加者之间的距离及机器人的速度在内的目标函数。

另外，非专利文献1中记载了：关于高密度动态环境下的分散运动规划，一边使智能体数阶段性地增加一边进行强化学习的多阶段训练。

另外，非专利文献2中，作为学习能够恰当地决定移动体的动作的策略的方法，记载了多场景-多阶段-训练框架。

【在先技术文献】

【专利文献】

【专利文献1】国际公开第2020/136977号

【非专利文献】

【非专利文献1】通过深度强化学习对密集和动态环境进行多智能体运动规划。IEEE机器人与自动化快报(Samaneh Hosseini Semnani，Hugh Liu，Michael Everett，Anton de Ruiter，and Jonathan P How.Multi-agent motion planning for dense anddynamic environments via deep reinforcement learning.IEEE Robotics andAutomation Letters)，5(2)：3221-3226，2020.

【非专利文献2】通过深度强化学习实现最优分散的避免多机器人碰撞。2018年IEEE机器人与自动化国际会议(ICRA)(P.Long，T.Fan，X.Liao，W.Liu，H.Zhang，andJ.Pan.Towards optimally decentralized multi-robot collision avoidance viadeep reinforcement learning.In 2018IEEE International Conference on Roboticsand Automation(ICRA)).

发明内容

发明要解决的课题

然而，在以往的方法中，为了应对复杂的环境而学习了存在较多数量移动体的环境，其结果是，有时成为过学习，在存在的移动体少的环境下决定出不恰当的移动路径。这样，在以往技术中，有时不能根据环境的拥挤度恰当地决定移动路径。

本发明是考虑这样的情况而完成的，其目的之一在于提供能够根据环境的拥挤度决定恰当的移动方式的移动体控制装置、移动体、学习装置、学习方法及存储介质。

用于解决课题的方案

本发明的移动体控制装置、移动体、学习装置、学习方法及存储介质采用了以下的结构。

(1)：本发明的一方案的移动体控制装置具备：路径决定部，其根据在移动体的周边存在的障碍物的个数来决定所述移动体的路径；以及控制部，其使所述移动体沿着由所述路径决定部决定的路径移动。

(2)：在上述(1)的方案中，所述路径决定部基于由仿真器和学习部学习到的动作的策略来决定移动体的路径，所述动作的策略是指，所述仿真器关于障碍物的数量不同的多个环境同时执行所述移动体及所述障碍物的动作的仿真，通过所述学习部进行更新以使对所述仿真器的处理结果适用报酬函数而得到的报酬最大化，从而学习到的所述动作的策略。

(3)：在上述(2)的方案中，基于多个所述仿真器的处理结果来学习所述动作的策略，所述环境内的所述障碍物的数量按多个所述仿真器中的每个仿真器而不同，所述学习部更新所述动作的策略，以使对多个所述仿真器的各处理结果适用报酬函数而得到的各报酬的累积和最大化，由此学习到所述动作的策略。

(4)：本发明的一方案的移动体具备：上述任一移动体控制装置；作业部，其用于向利用者提供规定的服务；以及驱动装置，其用于使本移动体移动，所述驱动装置进行驱动，以使所述本移动体以由所述移动体控制装置决定的移动方式移动。

(5)：本发明的一方案的学习装置具备：多个仿真器，该仿真器执行移动体的动作的仿真，且在所述多个仿真器中，存在的所述移动体或障碍物的数量按每个所述仿真器而不同；以及学习部，其学习所述动作的策略，以使对多个所述仿真器的各处理结果适用报酬函数而得到的各报酬的累积和最大化。

(6)：在上述(5)的方案中，多个所述仿真器由与多个所述仿真器分别建立了对应关系的单独的处理器来执行。

(7)：在上述(5)或(6)的方案中，在多个所述仿真器设定有分别不同的所述移动体或所述障碍物的最大数，多个所述仿真器一边从规定的最小数到多个所述仿真器各自的最大数为止而阶段性地增加所述移动体或所述障碍物的数量，一边执行仿真。

(8)：在上述(5)至(7)中的任一方案中，多个所述仿真器在各阶段的仿真中，关于所述移动体或所述障碍物的个数相同的多个环境并列地执行仿真。

(9)：在上述(5)至(8)中的任一方案中，所述报酬函数作为变量而包括移动体到达目标的到达度、移动体的碰撞次数、移动体的移动速度中的至少一个。

(10)：在上述(5)至(9)中的任一方案中，所述报酬函数作为自变量而包括在本移动体的周围存在的所述移动体或所述障碍物的移动向量的变化。

(11)：本发明的一方案的学习方法使计算机进行如下处理：利用存在的移动体或障碍物的数量按每个仿真器而不同的多个所述仿真器，来执行移动体的动作的仿真；学习所述动作的策略，以使对多个所述仿真器的各处理结果适用报酬函数而得到的各报酬的累积和最大化。

(12)：本发明的一方案的存储介质使计算机进行如下处理：利用存在的移动体或障碍物的数量按每个仿真器而不同的多个所述仿真器，来执行移动体的动作的仿真；学习所述动作的策略，以使对多个所述仿真器的各处理结果适用报酬函数而得到的各报酬的累积和最大化。

发明效果

根据(1)～(4)，具备：路径决定部，其根据在移动体的周边存在的障碍物的个数来决定所述移动体的路径；以及控制部，其使所述移动体沿着由所述路径决定部决定的路径移动，由此能够根据环境的拥挤度来决定恰当的移动方式。

另外，根据(5)～(12)，具备：多个仿真器，该仿真器执行移动体的动作的仿真，且在所述多个仿真器中，存在的所述移动体或障碍物的数量按每个所述仿真器而不同；以及学习部，其学习所述动作的策略，以使对多个所述仿真器的各处理结果适用报酬函数而得到的各报酬的累积和最大化，由此能够根据环境的拥挤度来决定恰当的移动方式。

附图说明

图1是实施方式的移动体控制系统的结构的简要图。

图2是表示学习装置的结构例的图。

图3是说明报酬函数R₄的图。

图4是表示阶段的强化学习的效果的一例的图。

图5是表示网络的过学习的一例的第一图。

图6是表示网络的过学习的一例的第二图。

图7是表示学习装置使用多个仿真器分别关于智能体数不同的环境而学习动作的情形的图。

图8是表示移动体的结构例的图。

图9是表示在学习装置中多个仿真器在相同的智能体数的多个环境下执行仿真的情形的图像图。

附图文字翻译：

1…移动体控制系统、100…学习装置、110…学习部、120…仿真器、120A…第一仿真器、120B…第二仿真器、120C…第三仿真器、120D…第四仿真器、130…经验积累部、200…移动体、210…周边检知装置、220…移动体传感器、230…作业部、240…驱动装置、250…移动体控制装置、252…移动控制部、254…控制部、256…存储部。

具体实施方式

以下，参照附图，来说明本发明的移动体控制装置、移动体、学习装置、学习方法及存储介质的实施方式。

<第一实施方式>

图1是实施方式的移动体控制系统1的结构的简要图。移动体控制系统1具备学习装置100和移动体200。学习装置100由一个以上的处理器实现。学习装置100是关于多个移动体通过计算机仿真来决定行动，导出或取得基于通过该行动而产生的状态的变化等得到的报酬，并学习将报酬最大化的行动(动作)的装置。动作是指，例如在仿真空间内的移动。也可以将移动以外的动作作为学习对象，但在以下的说明中动作是指移动。决定移动的仿真器也可以在与学习装置100不同的装置中执行，但在以下的说明中仿真器在学习装置100中执行。学习装置100预先存储有地图信息等成为仿真的前提的环境信息。学习装置100的学习结果作为策略PL而搭载于移动体200。

[学习装置]

图2是表示实施方式的学习装置100的结构例的图。学习装置100例如具备学习部110、多个仿真器120、以及经验积累部130。这些构成要素例如通过CPU(CentralProcessing Unit)等硬件处理器执行程序(软件)来实现。这些构成要素中的一部分或全部也可以通过LSI(Large Scale Integration)、ASIC(Application Specific IntegratedCircuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)等硬件(包括电路部：circuitry)来实现，也可以通过软件与硬件的协同配合来实现。程序可以预先保存于HDD(Hard Disk Drive)、闪存器、SSD(Solid State Drive)等存储装置(具备非暂时性的存储介质的存储装置)，也可以保存于DVD、CD-ROM等能够装卸的存储介质(非暂时性的存储介质)，并通过存储介质装配于驱动装置而安装。

学习部110基于表示经验积累部130对由多个仿真器120生成的状态变化进行评价的结果的评价信息，按照各种强化学习算法来更新策略。学习部110反复执行将更新后的策略向多个仿真器120输出这一处理，直至学习完成。策略(policy)是指，例如具有参数的神经网络(以下，也仅称作“网络”。)，且针对环境信息的输入而以赋予概率的方式输出智能体可能取得的动作(action)。在此，智能体是指，存在于仿真空间(环境)内、且学习动作的对象的移动体。智能体是“本移动体”的一例。环境信息是表示该环境的状态的信息。策略也可以是具有参数的基于规则的函数。学习部110通过基于评价信息更新参数，来更新策略。学习部110将更新后的参数向各仿真器120供给。

仿真器120将动作目标和当前的状态(若是刚开始仿真后，则是初始状态)向策略输入，并导出作为本智能体和其他智能体的动作的结果的状态变化。策略例如是DNN(DeepNeural Network)，但也可以是基于规则的策略等其他方式的策略。策略关于所设想的多个种类的动作分别导出发生概率。例如，简单的例子中，设为设想平面沿上下左右扩展，输出右移动80％、左移动10％、上移动10％、下移动0％这样的结果。仿真器120对该结果作用随机数，并以若随机数值为0％以上且小于80％则为右移动、若随机数值为80％以上且小于90％则为左移动、若随机数值为90％以上则为上移动这样的方式导出智能体的状态变化。

多个仿真器120使用由学习部110更新后的策略(网络)，关于智能体数分别不同、且存在多个智能体的环境执行仿真，由此决定各环境中的智能体的动作。需要说明的是，在此所说的动作的决定是指，关于智能体导出上述的状态变化。在本实施方式中，作为多个仿真器120设想例如4个仿真器。例如，在本实施方式中，设为第一仿真器120A～第四仿真器120D分别决定2智能体、4智能体、8智能体、10智能体的移动。需要说明的是，环境也可以包括智能体以外的不依赖于策略的移动体。例如，环境除了包括基于策略而移动的智能体之外，也可以还包括停止着的移动体、以与策略不同的动作模型动作的移动体等。

具体而言，各仿真器120利用从学习部110供给的参数更新策略(网络)，并且将通过上次(1个采样周期前的采样周期)的仿真结果得到的当前的状态向更新后的网络输入，并对输出结果适用随机数，由此决定各智能体的本次(当前的采样周期)的动作。各仿真器120通过将所决定的动作向环境EV输入，从而根据环境EV而生成更新后的状态和报酬。通过环境EV将所决定的行动向报酬函数输入而生成报酬。各仿真器120向经验积累部130供给基于关于各智能体而决定的动作得到的经验信息。例如，经验信息包括关于智能体决定的行动、行动前的状态、行动后的状态、通过该行动而得到的报酬的信息。

经验积累部130积累从各仿真器120供给的经验信息，并且从所积累的经验信息中采样优先级高的经验信息并将其向学习部110供给。优先级是基于网络NW的学习中的学习效果的高度得到的优先级，例如通过TD(Temporal Difference)误差来决定。需要说明的是，优先级也可以基于学习部110的学习结果而适当更新。

学习部110基于从经验积累部130供给的经验信息，来更新网络NW的参数，以使通过各智能体的移动而得到的报酬最大化。学习部110将更新后的参数向各仿真器120供给。各仿真器120通过从学习部110供给的参数来更新网络NW。

学习部110可以使用各种强化学习算法中的任意的强化学习算法。学习部110通过反复执行这样的参数的更新，来学习存在多个智能体的环境中的、智能体的恰当的移动。通过这样而学习到的网络作为策略而向移动体200供给。

需要说明的是，环境EV在算出报酬时使用的报酬函数只要是智能体越采取更恰当的移动则越赋予大的报酬，就可以是任意的函数。例如，也可以如式(1)所示那样，将包括报酬函数R₁、报酬函数R₂、报酬函数R₃及报酬函数R₄的函数R作为报酬函数，其中，报酬函数R₁是在本智能体抵达目的地的情况下赋予的函数，报酬函数R₂是在本智能体顺畅地达成移动的情况下赋予的函数，报酬函数R₃是在本智能体给其他智能体的移动向量带来变化的情况下变小的函数，报酬函数R₄是根据其他智能体所朝向的方向，使在本智能体接近其他智能体时应该保持的距离可变的函数。另外，报酬函数R也可以是包括R₁、R₂、R₃、R₄中的至少1个的函数。

R＝R₁+R₂+R₃+R₄…(1)

例如，报酬函数R₁是在到达目的地的情况下成为正的固定值、且在未到达目的地的情况下成为与距目的地的距离变化成比例的值(若距离变化为减少方向则为正，若为增加方向则为负)的函数。报酬函数R₁是“第一函数”的一例。

例如，报酬函数R₂是成为智能体的二维平面上的位置的三次微分即加加速度(跃度)越小则越大的值的函数。报酬函数R₂是“第二函数”的一例。

例如，报酬函数R₃是在本智能体进入了规定区域的情况下返回低的评价值的函数。根据这样的报酬函数R₃，例如，能够针对本智能体在对于其他智能体而言眼前的区域(规定区域)通过这样的行动赋予低的评价，针对在侧方、背后通过这样的行动赋予不太低的评价。报酬函数R₃是“第三函数”的一例。

图3是用于说明报酬函数R₄的图。图3作为仿真环境的一例而示出了人P1、P4及P5、以及机器人R2、R3、R5混在一起的环境。在图3中，地点D1～D5是各移动体的目的地点。具体而言，地点D1是人P1的目的地点，地点D2是机器人R2的目的地点，地点D3是机器人R3的目的地点，地点D4是人P4的目的地点，地点D5是人P5的目的地点。

在此，使机器人R5为对象机器人，作为用于使对象机器人学习不阻碍人的移动这样的移动方法的报酬函数R₄，例如能够如以下的(2)式这样定义。

在(2)式中，R₄是用于学习不阻碍人的移动这样的移动方法的报酬函数、且是越为不阻碍人的移动的移动则越赋予大的报酬的函数。i是存在于环境的人、机器人等移动体的识别号码，N是其最大数。另外，a_i表示关于各移动体而根据包含对象机器人R5在内的环境的状态来决定的行动(以下称作“第一行动”。)，b_i表示根据不包含对象机器人R5在内(无视了对象机器人R5的情况下)的环境的状态而决定的行动(以下称作“第二行动”。)。w是关于各移动体取第一行动与第二行动之差，并将与其总和相应的值作为处罚而变换为负的报酬值的系数。即(2)式是第一行动与第二行动之差越大则算出越小的报酬的式子。根据这样的报酬函数，例如对象机器人R5能够学习自身的行动不会给其他移动体的移动带来的影响这样的移动方法。报酬函数R₄是“第四函数”的一例。

以上说明的网络的学习动作说明了各个仿真器120进行规定的智能体数下的仿真时的动作。本实施方式的学习装置100构成为：通过一边逐渐增加仿真中的智能体数一边执行上述的强化学习，来并列学习智能体数不同的多个环境中的移动体的动作。作为提高强化学习的精度的方法之一而已知(例如参照非专利文献1)该一边逐渐增加智能体数一边学习最终的智能体数的环境的策略的方法(以下称作“阶段的强化学习”。)。

图4是表示阶段的强化学习的效果的一例的图。在图4中，横轴表示各阶段中的学习的进展程度，纵轴表示学习的精度。根据图4可知：与从最初就以10智能体推进学习这一情况相比，一边以2、4、8、10这样阶段性地增加智能体数一边推进学习这一情况能够学习得到更高的报酬的动作。

然而，在存在多个智能体的环境中，以10智能体学习到的策略未必在全部的环境中决定恰当的移动。这是由于：在移动的学习中，虽然优先决定不与其他移动体、障碍物等接触这样的移动目的地(即作为能够得到高的报酬的动作进行学习)，但是根据环境的状态(例如环境中存在的智能体的密度等)也有时其他事项的优先级变高。即，智能体数更多的环境下的移动的学习结果在决定智能体数少的环境下的移动时有时成为过学习。

图5及图6是表示策略的过学习的一例的图。图5表示基于以2智能体学习到的策略而得到的移动的例子，图6表示基于以10智能体学习到的策略而得到的移动的例子。图5及图6均表示为了1个智能体A从出发地点B出发一边躲避障碍物C一边抵达目的地D而决定的移动路径。从图5及图6可知：在以2智能体环境学习到的策略中，智能体A从出发地点B出发后迅速开始障碍物C的躲避行动，相对于此，在以10智能体环境学习到的策略中，智能体A在更接近障碍物C的位置处开始躲避行动。

这样的躲避行动的不同例如可认为是由于学习了如下情况的结果所引起的，该情况是指：由于越是智能体数多的环境则越容易与其他智能体干涉，因此为了避免与其他智能体干涉，在更接近障碍物C的位置处开始躲避行动。另外，例如，这样的躲避行动的不同也可认为是学习了如下情况的结果所引起的，该情况是指：由于越是智能体数少的环境则越不易与其他智能体干涉，因此为了提高移动的安全性，更缓和地变更行进方向。

总之，在以往的阶段的强化学习中，在从智能体数少的环境到智能体数多的环境依次单独进行了学习的情况下，在基于策略的移动方式的决定中，基于最后的学习环境的学习结果占支配地位。因此，即使能够精度良好地学习到存在多数智能体的环境下的移动，通过该学习而生成的策略在存在多数智能体的环境下最优化，也有时在不同的智能体数的环境下不能决定恰当的行动。于是，在本实施方式的学习装置100中，设为通过使多个仿真器120并列动作来并列学习智能体数不同的环境的结构。

图7是表示学习装置100使用多个仿真器120关于智能体数分别不同的环境学习动作的情形的图。如上述那样，在本实施方式的学习装置100中，仿真器120A、120B、120C、120D关于分别存在2智能体、4智能体、8智能体、10智能体的环境决定各智能体的动作。具体而言，各仿真器120以规定的最小数的智能体数开始仿真，一边逐渐增加智能体数一边执行仿真直至各仿真器120的最大数。

例如，在本实施方式中，仿真器120B由于智能体的最大数为4，因此首先以2智能体开始仿真，以2智能体的学习进展了某种程度时向以4智能体的仿真转换。同样，仿真器120C由于智能体的最大数为8，因此首先以2智能体开始仿真，以2智能体的学习进展了某种程度时向以4智能体的仿真转换，在以4智能体的学习进展了某种程度时向以8智能体的仿真转换。同样，仿真器120D由于智能体的最大数为10，因此首先以2智能体开始仿真，在以2智能体的学习进展了某种程度时向以4智能体的仿真转换，在以4智能体的学习进展了某种程度时向以8智能体的仿真转换，在以8智能体的学习进展了某种程度时向以10智能体的仿真转换。仿真器120B、120C、120D当智能体达到最大数时，继续以最大数的仿真直至学习的结束。需要说明的是，仿真器120A由于智能体的最大数为2，因此从学习的最初到最后以2智能体执行仿真。

需要说明的是，在图7中，为了简单，在各学习阶段将相同的智能体数的环境用相同的状态表示，但这意味着在连续的学习阶段执行相同的智能体数的环境的仿真、并不意味反复执行完全相同的仿真。另外，在各仿真器中，按每个学习阶段来表示相同的智能体数的环境的仿真意味着在连续的学习阶段进行相同的智能体数的仿真，并不一定意味着按每个学习阶段来进行仿真的开始及结束。在智能体数不变的情况下，仿真的开始及结束可以按每个学习阶段进行，也可以在连续的学习阶段持续进行。

根据这样的结构，能够普遍地进行智能体数不同的环境的学习，因此能够灵活地应对任何智能体数的环境。即，通过使用以这样的方法学习到策略，移动体控制装置250能够控制移动体200，以使移动体200根据周围的移动体的个数以恰当的方式来移动。另外，通过使用以这样的方法学习到的策略，移动体控制装置250的移动控制部252能够根据在移动体200的周边存在的障碍物的个数来决定移动体200的路径。移动控制部252是“路径决定部”的一例。

具体而言，在各仿真器120分别预先设定不同的最大智能体数，各仿真器120从少的智能体数起，一边阶段性地增加智能体数一边执行仿真直至各自的最大智能体数。需要说明的是，学习装置100也可以构成为对各仿真器120以时间分割的方式分配计算资源，也可以构成为分配各仿真器120能够并列使用的计算资源。例如，学习装置100也可以具备仿真器120数以上的CPU，构成为对各仿真器120分配单独的CPU作为计算资源。图7表示对仿真器120A～120D分配有第一CPU#1～第四CPU#4的例子。分配给各仿真器120的计算资源可以是CPU的物理核心(core)单位，也可以是通过SMT(Simultaneous MultithreadingTechnology)等技术实现的假想核心单位。

根据以上说明的学习装置100，能够将基于强化学习的智能体的动作的学习分散到与智能体数不同的各环境对应的多个仿真器120而并列实施。由此，适用了作为学习装置100的学习结果的策略的移动体控制装置250能够根据环境的拥挤度来决定恰当的移动方式。

[移动体]

图8是表示移动体200的结构例的图。移动体200例如具备移动体控制装置250、周边检知装置210、移动体传感器220、作业部230及驱动装置240。移动体200可以是车辆，也可以是机器人等这样的装置。移动体控制装置250、周边检知装置210、移动体传感器220、作业部230及驱动装置240通过CAN(Controller Area Network)通信线等多路通信线、串行通信线、无线通信网等互相连接。

周边检知装置210是用于检知移动体200的周边的环境、周边的其他移动体的动作的装置。周边检知装置210例如具备包括GPS接收机、地图信息等的测位装置、以及雷达装置、相机等物体识别装置。测位装置检测移动体200的位置，并将位置与地图信息匹配。雷达装置向移动体200的周边放射毫米波等电波，并且检测由物体反射的电波(反射波)来至少检测物体的位置(距离及方位)。雷达装置也可以检测物体的位置及移动向量。相机例如是利用了CCD(Charge Coupled Device)、CMOS(Complementary Metal OxideSemiconductor)等固体摄像元件的数码相机，并附设有从拍摄图像中识别物体的位置的图像处理装置。周边检知装置210将移动体200的地图上的位置、在移动体200的周边存在的物体(包括与前述的其他智能体相当的其他移动体)的位置等信息向移动体控制装置250输出。

移动体传感器220例如包括检测移动体200的速度的速度传感器、检测加速度的加速度传感器、检测绕铅垂轴的角速度的横摆角速度传感器、检测移动体200的朝向的方位传感器等。移动体传感器220将检测出的结果向移动体控制装置250输出

作业部230例如是向利用者提供规定的服务的装置。此处的服务是指，例如将货物等向运输设备装入、从运输设备卸下等的作业。作业部230例如包括魔术手(magic arm)、装货台、话筒、扬声器等HMI(Human machine Interface)等。作业部230按照从移动体控制装置250指示的内容进行动作。

驱动装置240是用于使移动体200向期望的方向移动的装置。在移动体200是机器人的情况下，驱动装置240例如包括两个以上的腿部和致动器。在移动体200是车辆、微型移动体、或利用车轮来移动的机器人的情况下，驱动装置240包括车轮(转向轮、驱动轮)和用于使车轮旋转的马达、发动机等。

移动体控制装置250例如具备移动控制部252和存储部256。移动控制部252例如通过CPU等硬件处理器执行程序(软件)来实现。程序可以预先保存于HDD、闪存器等存储装置(非暂时性存储介质)，也可以保存于DVD、CD-ROM等能够装卸的存储介质(非暂时性存储介质)，并通过存储介质装配于驱动装置而安装。这些构成要素中的一部分或全部也可以通过LSI、ASIC、FPGA、GPU等硬件(包括电路部：circuitry)来实现，还可以通过软件与硬件的协同配合来实现。

存储部256例如是HDD、闪存器、RAM、ROM等。存储部256例如保存有策略256A等信息。策略256A是由学习装置100生成的策略PL、且基于学习阶段的处理的最终时间点的策略而得到。

移动控制部252例如将由周边检知装置210检知到的移动体200的地图上的位置、在移动体200的周边存在的物体的位置等信息、以及由利用者输入的目的地的信息向策略256A输入，由此决定移动体200接下来应该行进的位置(移动方式)，并将所决定的位置向驱动装置240输出。通过反复进行该处理而依次决定移动体200的路径。

根据以上说明的移动体控制装置250，通过适用作为实施方式的学习装置100的学习结果的策略，能够一边使移动体200以与环境的拥挤度相应的方式移动，一边向利用者提供规定的服务。

<第二实施方式>

第二实施方式的移动体控制系统1与第一实施方式的移动体控制系统1同样地，学习装置100利用多个仿真器120在智能体数分别不同的环境下仿真智能体的移动，经验积累部130基于其仿真结果来生成评价信息，学习部110基于该评价信息来更新网络的参数。

另一方面，第一实施方式的移动体控制系统1在学习装置100中，各仿真器120在1个环境下执行阶段的强化学习(参照图7)，与此相对，第二实施方式的移动体控制系统1与第一实施方式的学习装置100的不同点在于：各仿真器120在相同的智能体数的多个环境下执行各学习阶段中的仿真。其他结构与第一实施方式的移动体控制系统1同样(参照图1、图2、图7等)。

图9是表示在第二实施方式的学习装置100中多个仿真器120在相同的智能体数的多个环境下执行仿真的情形的图像图。在第二实施方式中，也与第一实施方式同样地对各仿真器120作为能够同时使用的计算资源而分配有不同的CPU。例如，图9是能够以1个CPU同时并列地计算的智能体数的最大值(以下称作“最大并列数”。)为40的情况的例子。

在此，第一仿真器120A由于最大智能体数被设定为2，因此在从第一阶段到第四阶段始终以2智能体环境执行仿真。在该情况下，由于每1个CPU的最大并列数为40，因此第一仿真器120A关于20个2智能体环境并列地执行仿真。

同样地，第二仿真器120B由于最大智能体数被设定为4，因此首先在第一阶段执行2智能体环境下的仿真，在第二阶段下最大智能体数的4智能体环境下的仿真转换，在第二～第四阶段中执行4智能体环境下的仿真。在该情况下，由于每1个CPU的最大智能体数为40，因此第二仿真器120B在第一阶段中与第一仿真器120A同样地关于20个2智能体环境并列地执行仿真，在第二～第四阶段中关于9个4智能体环境并列地执行仿真。需要说明的是，在此，为了使图像易于掌握示出了9个(＝3×3)4智能体环境(智能体总数为36＝9×4＜40)，但第二仿真器120B也可以构成为关于作为最大并列数的10个4智能体环境并列地执行仿真。

同样地，第三仿真器120C由于最大智能体数被设定为8，因此首先在第一阶段执行2智能体环境下的仿真，在第二阶段向4智能体环境下的仿真转换，在第三阶段向最大智能体数的8智能体环境下的仿真转换，在第三～第四阶段执行8智能体环境下的仿真。在该情况下，由于每1个CPU的最大智能体数为40，因此第三仿真器120C在第一阶段与第一仿真器120A同样地关于20个2智能体环境并列地执行仿真，在第二阶段与第二仿真器120B同样地关于10个4智能体环境并列地执行仿真，在第三～第四阶段中关于4个8智能体环境并列地执行仿真。需要说明的是，在此，为了使图像易于掌握示出了4个(＝2×2)8智能体环境(智能体总数为32＝8×4＜40)，但第三仿真器120C也可以构成为关于作为最大并列数的5个8智能体环境并列地执行仿真。

同样地，第四仿真器120D由于最大智能体数被设定为10，因此首先在第一阶段执行2智能体环境下的仿真，在第二阶段向4智能体环境下的仿真转换，在第三阶段向8智能体环境下的仿真转换，在第四阶段向最大智能体数的10智能体环境下的仿真转换。在该情况下，由于每1个CPU的最大智能体数为40，因此第四仿真器120D在第一阶段与第一仿真器120A同样地关于20个2智能体环境并列地执行仿真，在第二阶段与第二仿真器120B同样地关于9个4智能体环境并列地执行仿真，在第三阶段与第三仿真器120C同样地关于4个8智能体环境并列地执行仿真，在第四阶段关于4个10智能体环境并列地执行仿真。

需要说明的是，在图9中，在各学习阶段，各CPU生成的多个环境的智能体数统一，但这并不是必需的，只要不超过最大并列数、且适合阶段性地智能体数的增加，智能体数就不需要在多个环境中统一。例如，在学习的最终阶段，也可以在CPU#1中使各环境的移动体数为2，在CPU#2中为2～6(减少移动体数而增多环境数)，在CPU#3中为2～6(增多移动体数而减少环境数)，在CPU#4中为2～10(增多移动体数而减少环境数)。

另外，在图9中，为了简单，表示在各学习阶段将多个相同的智能体数的环境以相同的状态表示，但这意味着同时执行相同的智能体数的环境的仿真，并不意味同时执行完全相同的仿真。

另外，在图9中，与图7同样地为了简单而在各学习阶段将相同的智能体数的环境以相同的状态表示，但这意味着在连续的学习阶段执行相同的智能体数的环境的仿真，并不意味反复执行完全相同的仿真。另外，在各仿真器中，按每个学习阶段表示相同的智能体数的环境的仿真意味着相同的智能体数的仿真以连续的学习阶段进行，并不一定意味按每个学习阶段进行仿真的开始及结束。在智能体数不变的情况下，可以按每个学习阶段进行仿真的开始及结束，也可以在连续的学习阶段继续进行仿真的开始及结束。

在这样构成的第二实施方式的移动体控制系统1中，学习装置100能够关于智能体数相同的多个环境并列地执行仿真。通过这样的结构，实施方式的移动体控制系统1能够效率良好地学习存在多个智能体的环境中的各智能体的移动。

另外，在第二实施方式的移动体控制系统1中，按多个CPU中的每个CPU的仿真器分别假想地形成多个环境，针对每个CPU的移动体的合计值在多个CPU中统一，与环境数相应的数量的智能体在各环境下生成。根据这样的结构，实施方式的移动体控制系统1能够防止在所收集的经验中产生每个CPU的偏倚，能够更高效地学习各智能体的移动。

在本实施方式中，设想为策略的更新仅在学习阶段进行，在搭载于移动体后不进行，但可以在搭载于移动体后也继续学习。

以上使用实施方式说明了本发明的具体实施方式，但本发明丝毫不被这样的实施方式限定，在不脱离本发明的主旨的范围内能够施加各种变形及替换。

上述说明的实施方式能够如以下这样表现。

一种学习装置，其构成为具备：

存储有程序的存储装置；以及

硬件处理器，

通过所述硬件处理器执行存储于所述存储装置的程序来进行如下处理：

利用存在的移动体或障碍物的数量按每个仿真器而不同的多个所述仿真器，来执行移动体的动作的仿真；

学习所述动作的策略，以使对多个所述仿真器的各处理结果适用报酬函数而得到的各报酬的累积和最大化。

上述说明的实施方式能够如以下这样表现。

一种移动体控制装置，其构成为具备：

存储有程序的存储装置；以及

硬件处理器，

根据在移动体的周边存在的障碍物的个数来决定所述移动体的路径；

使所述移动体沿着所决定的所述路径移动。

上述说明的实施方式能够如以下这样表现。

一种移动体，其构成为具备：

存储有程序的存储装置；以及

硬件处理器，

利用作业部向利用者提供规定的服务；

利用驱动装置进行驱动，以使本移动体以由上述移动体控制装置决定的移动方式移动。

Claims

1.一种移动体控制装置，其中，

所述移动体控制装置具备：

路径决定部，其根据在移动体的周边存在的障碍物的个数来决定所述移动体的路径；以及

控制部，其使所述移动体沿着由所述路径决定部决定的路径移动。

2.根据权利要求1所述的移动体控制装置，其中，

所述路径决定部基于由仿真器和学习部学习到的动作的策略来决定移动体的路径，

所述动作的策略是指，所述仿真器关于障碍物的数量不同的多个环境同时执行所述移动体及所述障碍物的动作的仿真，所述学习部进行更新以使对所述仿真器的处理结果适用报酬函数而得到的报酬最大化，从而学习到的所述动作的策略。

3.根据权利要求2所述的移动体控制装置，其中，

基于多个所述仿真器的处理结果来学习所述动作的策略，

所述环境内的所述障碍物的数量按多个所述仿真器中的每个仿真器而不同，

所述学习部更新所述动作的策略，以使对多个所述仿真器的各处理结果适用报酬函数而得到的各报酬的累积和最大化，由此学习到所述动作的策略。

4.一种移动体，其中，

所述移动体具备：

权利要求1至3中任一项所述的移动体控制装置；

作业部，其用于向利用者提供规定的服务；以及

驱动装置，其用于使本移动体移动，

所述驱动装置进行驱动，以使所述本移动体以由所述移动体控制装置决定的移动方式移动。

5.一种学习装置，其中，

所述学习装置具备：

多个仿真器，该仿真器执行移动体的动作的仿真，且在所述多个仿真器中，存在的所述移动体或障碍物的数量按每个所述仿真器而不同；以及

学习部，其学习所述动作的策略，以使对多个所述仿真器的各处理结果适用报酬函数而得到的各报酬的累积和最大化。

6.根据权利要求5所述的学习装置，其中，

多个所述仿真器由与多个所述仿真器分别建立了对应关系的单独的处理器来执行。

7.根据权利要求5所述的学习装置，其中，

在多个所述仿真器设定有分别不同的所述移动体或所述障碍物的最大数，

多个所述仿真器一边从规定的最小数到多个所述仿真器各自的最大数为止而阶段性地增加所述移动体或所述障碍物的数量，一边执行仿真。

8.根据权利要求5所述的学习装置，其中，

多个所述仿真器在各阶段的仿真中，关于所述移动体或所述障碍物的个数相同的多个环境并列地执行仿真。

9.根据权利要求5至8中任一项所述的学习装置，其中，

所述报酬函数作为变量而包括移动体到达目标的到达度、移动体的碰撞次数、移动体的移动速度中的至少一个。

10.根据权利要求5至8中任一项所述的学习装置，其中，

所述报酬函数作为自变量而包括在本移动体的周围存在的所述移动体或所述障碍物的移动向量的变化。

11.一种学习方法，其中，

所述学习方法使计算机进行如下处理：

12.一种存储介质，其存储有程序，其中，

所述程序使计算机进行如下处理：