CN110874642A

CN110874642A - 学习装置、学习方法及存储介质

Info

Publication number: CN110874642A
Application number: CN201910799040.XA
Authority: CN
Inventors: 后藤建
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2018-08-30
Filing date: 2019-08-27
Publication date: 2020-03-10
Anticipated expiration: 2039-08-27
Also published as: US11498574B2; CN110874642B; US20200070844A1; JP2020035222A; JP7048456B2

Abstract

提供一种能够进行更加灵活的学习的学习装置、学习方法及存储介质。学习装置具备：规划器，其生成表示车辆的行动的信息；以及报酬导出部，其导出对包括反馈信息的多个被评价信息分别进行评价而得到的多个单独报酬，基于多个所述单独报酬，导出针对所述车辆的行动的报酬，所述反馈信息通过将基于所述表示车辆的行动的信息得到的信息向模拟器或实际环境输入而从所述模拟器或实际环境得到，所述规划器进行使由所述报酬导出部导出的报酬最佳化的强化学习。

Description

学习装置、学习方法及存储介质

技术领域

本发明涉及学习装置、学习方法及存储介质。

背景技术

近年来，在车辆自主行驶的自动驾驶的领域，做出了要通过AI(人工智能)·机械学习来决定行驶规划的尝试。关于基于观测值决定行动并计算基于来自实际环境、模拟器的反馈得到的报酬而使模型参数最佳化的强化学习，也正在展开研究及实用化。与此相关联地，公开了通过强化学习生成用于使车辆的状态变更的操作量的方法(日本特开2007-65929号公报)。

在将强化学习应用于自动驾驶的情况下，可以设想应用场景不仅在车辆的操作量方面还在各种技术性要素方面扩展，但是，在以往的技术中，强化学习的应用目标是限定性的。因此，关于自动驾驶车辆的行动计划部分，存在无法进行灵活的学习的情况。

发明内容

本发明是考虑这样的情形而完成的，目的之一在于，提供能够进行更加灵活的学习的学习装置、学习方法及存储介质。

本发明的学习装置、学习方法或存储介质，采用了以下的结构。

(1)：本发明的一方案的学习装置，其具备：规划器，其生成表示车辆的行动的信息；以及报酬导出部，其导出对包括反馈信息的多个被评价信息分别进行评价而得到的多个单独报酬，基于多个所述单独报酬，导出针对所述车辆的行动的报酬，所述反馈信息通过将基于所述表示车辆的行动的信息得到的信息向模拟器或实际环境输入而从所述模拟器或实际环境得到，所述规划器进行使由所述报酬导出部导出的报酬最佳化的强化学习。

(2)：在上述(1)的方案中，所述报酬导出部对多个所述被评价信息中的至少一部分分别应用评价特性互不相同的规则，由此导出所述单独报酬。

(3)：在上述(2)的方案中，所述报酬导出部对多个所述被评价信息中的至少一部分应用相对于与目标值的关系分布的单独报酬的分布形状互不相同的多个报酬函数中的任一个，由此导出所述单独报酬。

(4)：在上述(1)的方案中，所述报酬导出部将多个所述单独报酬彼此相乘，由此计算针对所述车辆的行动的报酬。

(5)：在上述(1)的方案中，所述反馈信息包括所述车辆的速度、加速度、横向位置中的至少一部分。

(6)：在上述(1)的方案中，所述被评价信息包括基于所述车辆的行动导出的风险。

(7)：在上述(3)的方案中，多个所述报酬函数包括如下的报酬函数：当输入值与目标值一致时返回规定值，输入值与目标值的差量的绝对值越大则返回越小的值。

(8)：在上述(3)的方案中，多个所述报酬函数包括如下的报酬函数：当输入值与目标值一致时返回规定值，输入值与目标值的差量的绝对值越大则返回越小的值，不过，使输入值超过目标值侧的单独报酬相对于输入值与目标值的差量的降低程度比输入值低于目标值侧的单独报酬相对于输入值与目标值的差量的降低程度大。

(9)：在上述(3)的方案中，多个所述报酬函数包括如下的报酬函数：若输入值为目标值以上则返回规定值，在输入值低于目标值的情况下，输入值与目标值的差量的绝对值越大则返回越小的值。

(10)：在上述(3)的方案中，多个所述报酬函数包括如下的报酬函数：若输入值为目标值以下则返回规定值，在输入值高于目标值的情况下，输入值与目标值的差量的绝对值越大则返回越小的值。

(11)：在上述(3)的方案中，多个所述报酬函数包括如下的报酬函数：若输入值处于目标范围内则返回规定值的一例，输入值与目标范围的上限或下限的差量的绝对值越大则返回越小的值。

(12)：在上述(3)的方案中，多个所述报酬函数包括如下的报酬函数：输入值越接近两个以上的目标值中的任一个则返回越大的值。

(13)：在上述(12)的方案中，在所述输入值越接近两个以上的目标值中的任一个则返回越大的值的报酬函数中，根据输入值是否与两个以上的所述目标值中的任一个一致而返回不同的单独报酬。

(14)：本发明的另一方案的学习方法，其使计算机进行如下的处理：生成表示车辆的行动的信息；导出对包括反馈信息的多个被评价信息分别进行评价而得到的多个单独报酬，所述反馈信息通过将基于所述表示车辆的行动的信息得到的信息向模拟器或实际环境输入而从所述模拟器或实际环境得到；基于多个所述单独报酬，导出针对所述车辆的行动的报酬；以及进行使导出的所述报酬最佳化的强化学习。

(15)：本发明的另一方案的存储介质，其存储有如下的程序，所述程序使计算机进行如下的处理：生成表示车辆的行动的信息；导出对包括反馈信息的多个被评价信息分别进行评价而得到的多个单独报酬，所述反馈信息通过将基于所述表示车辆的行动的信息得到的信息向模拟器或实际环境输入而从所述模拟器或实际环境得到；基于多个所述单独报酬，导出针对所述车辆的行动的报酬；以及进行使导出的所述报酬最佳化的强化学习。

根据上述(1)～(15)的方案，能够进行更加灵活的学习。

附图说明

图1是用于对学习装置的作用进行说明的图。

图2是车辆的结构图。

图3是第一控制部及第二控制部的功能结构图。

图4是学习装置的结构图。

图5是示意性地示出由规划器进行的处理的内容的图。

图6是例示出按用途报酬函数映射所包含的各个报酬函数映射的图。

图7是例示出按用途报酬函数映射所包含的各个报酬函数映射的图。

图8是例示出按用途报酬函数映射所包含的各个报酬函数映射的图。

图9是例示出按用途报酬函数映射所包含的各个报酬函数映射的图。

图10是例示出按用途报酬函数映射所包含的各个报酬函数映射的图。

图11是例示出按用途报酬函数映射所包含的各个报酬函数映射的图。

图12是示出由学习装置执行的处理的流程的一例的流程图。

图13是示出学习装置的硬件结构的一例的图。

具体实施方式

以下，参照附图，对本发明的学习装置、学习方法及存储介质的实施方式进行说明。

[概要]

图1是用于对学习装置300的作用进行说明的图。学习装置300由一个以上的处理器来实现。学习装置300是如下的装置：将通过内部运算而导出的行动(action)向模拟器/实际车辆400输入，导出或取得基于由此产生的环境的变化等的报酬，学习使报酬最大化的行动。学习装置300的学习结果作为行动决定模型而搭载于车辆1。

行动决定模型既可以是用于使搭载于车辆1的AI(Artificial Intelligence；人工智能)进行动作的参数，也可以是以规则库决定行动时的参数，还可以包含这两者。

模拟器/实际车辆400是在模拟环境上实现具有与车辆1同等的性能的假想车辆的计算机装置或实际车辆。学习装置300例如由未搭载于车辆1的计算机来实现，但是，也可以搭载于车辆1并一边行驶一边更新行动决定模型。在模拟器/实际车辆400是模拟器的情况下，在模拟器/实际车辆400与学习装置300之间共享地图信息等成为模拟的前提的环境信息。

[车辆]

首先，对搭载行动决定模型的对象的车辆1的一例进行说明。车辆1是至少部分地自动地(不依赖于驾驶员的操作地)控制行驶(行进、转弯、停止)的自动驾驶车辆(或带驾驶支援功能的车辆)。

图2是车辆1的结构图。车辆1例如是二轮、三轮、四轮等的车辆，其驱动源是柴油发动机、汽油发动机等内燃机、电动机、或者它们的组合。电动机使用由连结于内燃机的发电机产生的发电电力、或者二次电池、燃料电池的放电电力而进行动作。

车辆1例如具备相机10、雷达装置12、探测器14、物体识别装置16、通信装置20、HMI(Human Machine Interface)30、车辆传感器40、导航装置50、MPU(Map Positioning Unit)60、驾驶操作件80、自动驾驶控制装置100、行驶驱动力输出装置200、制动装置210及转向装置220。这些装置、设备通过CAN(Controller Area Network)通信线等多路通信线、串行通信线、无线通信网等而互相连接。

相机10例如是利用了CCD(Charge Coupled Device)、CMOS(Complementary MetalOxide Semiconductor)等固体摄像元件的数码相机。相机10安装于车辆1的任意部位。雷达装置12向车辆1的周边放射毫米波等电波，并且检测由物体反射后的电波(反射波)来至少检测物体的位置(距离及方位)。探测器14是LIDAR(Light Detection and Ranging)。探测器14向车辆1的周边照射光，并测定散射光。探测器14基于从发光到受光的时间，来检测距对象的距离。所照射的光例如是脉冲状的激光。物体识别装置16对由相机10、雷达装置12及探测器14中的一部分或全部检测的检测结果进行传感器融合处理，来识别物体的位置、种类、速度等。物体识别装置16将识别结果向自动驾驶控制装置100输出。物体识别装置16可以将相机10、雷达装置12及探测器14的检测结果直接向自动驾驶控制装置100输出。

通信装置20例如利用蜂窝网、Wi-Fi网、Bluetooth(注册商标)、DSRC(DedicatedShort Range Communication)等，与存在于车辆1的周边的其他车辆通信，或者经由无线基地站而与各种服务器装置通信。HMI30对车辆1的乘客提示各种信息，并且接受由乘客进行的输入操作。HMI30包括各种显示装置、扬声器、蜂鸣器、触摸面板、开关、按键等。车辆传感器40包括检测车辆1的速度的车速传感器、检测加速度的加速度传感器、检测绕铅垂轴的角速度的横摆角速度传感器、以及检测车辆1的朝向的方位传感器等。

导航装置50例如具备GNSS(Global Navigation Satellite System)接收机51、导航HMI52及路径决定部53。导航装置50在HDD(Hard Disk Drive)、闪存器等存储装置保持有第一地图信息54。GNSS接收机51基于从GNSS卫星接收到的信号来确定车辆1的位置。车辆1的位置也可以由利用了车辆传感器40的输出的INS(Inertial Navigation System)来确定或补充。导航HMI52包括显示装置、扬声器、触摸面板、按键等。路径决定部53例如参照第一地图信息54来决定从由GNSS接收机51确定出的车辆1的位置(或者输入的任意的位置)到由乘客使用导航HMI52输入的目的地为止的路径(以下，地图上路径)。第一地图信息54例如是利用表示道路的线路和由线路连接的节点来表现道路形状的信息。地图上路径被向MPU60输出。导航装置50例如也可以通过乘客所持有的智能手机、平板终端等终端装置的功能来实现。导航装置50也可以经由通信装置20向导航服务器发送当前位置和目的地，从导航服务器取得与地图上路径同等的路径。

MPU60例如包括推荐车道决定部61，在HDD、闪存器等存储装置保持有第二地图信息62。第二地图信息62是精度比第一地图信息54高的地图信息。推荐车道决定部61将从导航装置50提供的地图上路径分割为多个区段(例如，在车辆行进方向上按每100[m]分割)，参照第二地图信息62，按每个区段来决定推荐车道。推荐车道决定部61进行在左数第几条车道上行驶这样的决定。在地图上路径存在分支部位的情况下，推荐车道决定部61以车辆1能够在用于向分支目的地行进的合理的路径上行驶的方式决定推荐车道。

驾驶操作件80例如包括油门踏板、制动踏板、换挡杆、转向盘、异形方向盘、操纵杆及其他操作件。在驾驶操作件80安装有对操作量或者操作的有无进行检测的传感器，其检测结果被向自动驾驶控制装置100、或者行驶驱动力输出装置200、制动装置210及转向装置220中的一部分或全部输出。

自动驾驶控制装置100例如具备第一控制部120和第二控制部160。图3是第一控制部120及第二控制部160的功能结构图。第一控制部120例如具备识别部130和行动计划生成部140。第一控制部120例如并行地实现基于AI的功能和基于被预先赋予的规则库的模型的功能。例如，“识别交叉路口”功能可以通过并行地执行基于深度学习等的交叉路口的识别和基于预先被赋予的条件(存在可图形匹配的信号、道路标示等)的识别并对双方评分而综合地进行评价来实现。由此，保证自动驾驶的可靠性。

识别部130基于从相机10、雷达装置12及探测器14经由物体识别装置16输入的信息，来识别处于车辆1的周边的物体的位置及速度、加速度等状态。

识别部130例如识别车辆1正在行驶的车道(行驶车道)。例如，识别部130通过比较从第二地图信息62得到的道路划分线的图案(例如实线与虚线的排列)与从由相机10拍摄到的图像中识别的车辆1的周边的道路划分线的图案，来识别行驶车道。识别部130在识别行驶车道时，识别车辆1相对于行驶车道的位置、姿态。识别部130例如识别车辆1的基准点从车道中央的偏离及车辆1的行进方向相对于连接车道中央的线所成的角度，作为车辆1相对于行驶车道的相对位置及姿态。

行动计划生成部140以原则上在由推荐车道决定部61决定的推荐车道上行驶而且能够应对车辆1的周边状况的方式，生成车辆1自动地(不依赖于驾驶员的操作地)将来行驶的目标轨道。目标轨道例如包括速度要素。例如，目标轨道表现为将车辆1应该到达的地点(轨道点)依次排列而成的轨道。轨道点是按沿途距离计每隔规定的行驶距离(例如几[m]程度)的车辆1应该到达的地点，有别于此，每隔规定的采样时间(例如零点几[sec]程度)的目标速度及目标加速度作为目标轨道的一部分而生成。轨道点也可以是每隔规定的采样时间的、在该采样时刻车辆1应该到达的位置。在该情况下，目标速度、目标加速度的信息由轨道点的间隔来表现。

行动计划生成部140在生成目标轨道时，可以设定自动驾驶的事件。自动驾驶的事件有定速行驶事件、低速追随行驶事件、车道变更事件、交叉路口通过事件、分支事件、汇合事件、接管事件等。行动计划生成部140生成与起动了的事件相应的目标轨道。

第二控制部160控制行驶驱动力输出装置200、制动装置210及转向装置220，以使得车辆1按照预定的时刻通过由行动计划生成部140生成的目标轨道。

第二控制部160例如具备取得部162、速度控制部164及转向控制部166。取得部162取得由行动计划生成部140生成的目标轨道(轨道点)的信息，将其存储于存储器(未图示)。速度控制部164基于在存储器中存储的目标轨道所附带的速度要素，来控制行驶驱动力输出装置200或制动装置210。转向控制部166根据存储于存储器的目标轨道的弯曲状况，来控制转向装置220。速度控制部164及转向控制部166的处理例如通过前馈控制与反馈控制的组合来实现。作为一例，转向控制部166将与车辆1的前方的道路的曲率相应的前馈控制与基于从目标轨道的偏离的反馈控制组合来执行。

行驶驱动力输出装置200将用于使车辆行驶的行驶驱动力(转矩)向驱动轮输出。行驶驱动力输出装置200例如具备内燃机、电动机及变速器等的组合和对它们进行控制的ECU。ECU按照从第二控制部160输入的信息或者从驾驶操作件80输入的信息来控制上述结构。

制动装置210例如具备制动钳、向制动钳传递液压的液压缸、使液压缸产生液压的电动马达及制动ECU。制动ECU按照从第二控制部160输入的信息或者从驾驶操作件80输入的信息来控制电动马达，使得与制动操作相应的制动转矩被向各车轮输出。

转向装置220例如具备转向ECU和电动马达。电动马达例如使力作用于齿条-小齿轮机构而变更转向轮的朝向。转向ECU按照从第二控制部160输入的信息或者从驾驶操作件80输入的信息来驱动电动马达，从而使转向轮的朝向变更。

[学习装置]

图4是学习装置300的结构图。学习装置300例如具备规划器310、控制运算部320、识别部330、妥当性评价部340、风险计算部350及报酬导出部360。这些构成要素例如通过由CPU(Central Processing Unit)等硬件处理器执行程序(软件)来实现。这些构成要素中的一部分或全部既可以通过LSI(Large Scale Integration)、ASIC(Application SpecificIntegrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(GraphicsProcessing Unit)等硬件(包括电路部：circuitry)来实现，也可以通过软件与硬件的协同配合来实现。程序既可以预先保存于HDD、闪存器等存储装置(非暂时性存储介质)，也可以保存于DVD、CD-ROM等可装卸的存储介质(非暂时性存储介质)并通过将存储介质装配于驱动装置而安装。在学习装置300的存储装置中保存有按用途报酬函数映射370。

设学习装置300在进行以下说明的处理的基础上，由各部分共享相同的地图信息。共享的地图信息例如是与第二地图信息62同等的地图信息。报酬的计算并非最后一次性进行，而是在车辆假想地或实际行驶的期间反复计算报酬，对计算结果进行合计。学习装置300例如按每个自动驾驶的事件来进行学习。

对规划器310赋予行驶目标。所谓行驶目标，是进行强化学习时的车辆的行驶的指针，例如包括速度目标值、至少局部的到目的地为止的路径等。向规划器310输入来自模拟器/实际车辆400的传感器检测结果、基于识别部330的识别结果等。传感器检测结果至少包括车辆传感器40的检测值，也可以包括相机10、雷达装置12、探测器14或物体识别装置16的检测结果。识别部330具有与车辆1中的识别部130同等的功能，将模拟环境下的周边物体的信息向规划器310输出。

规划器310生成包含多个轨道点的目标轨道。向控制运算部320输入轨道点中的规定时间后(例如，0.1秒后)的轨道点。不限定于此，也可以将多个轨道点向控制运算部320输入。规划器310例如基于策略315和随机数来决定轨道点。策略315既可以是利用了神经网络等的模型，也可以是规则库的模型。例如，规划器310向控制运算部320输出使基于所输入的各种信息和策略315决定出的轨道点以与随机数相应的方向及移动量偏移后的轨道点。

图5是示意性地示出由规划器310进行的处理的内容的图。在图示的例子中，规划器310向神经网络输入各种信息，通过向输出层加上随机数要素来导出轨道点。在该情况下，神经网络的系数等相当于策略315。规划器310也可以在神经网络的中间层导出事件。规划器310既可以在神经网络内包含规则库的处理，还可以在神经网络的框架外进行规则库的处理并与神经网络的任一层结合(级联)。

控制运算部320具有与车辆1中的第二控制部同等的功能，将针对行驶驱动力输出装置200、制动装置210或转向装置220的操作量向模拟器/实际车辆400输出。

妥当性评价部340评价车辆向轨道点移动(行动)的妥当性，将评价结果向报酬导出部360输出。妥当性评价部340例如基于与车辆的乘客的乘坐舒适度相关的基准、与移动可能性相关的基准等来评价行动的妥当性。所谓与车辆的乘客的乘坐舒适度相关的基准，例如是加速度、加加速度(跃度)的绝对值越小则将妥当性评价得越高这一基准。所谓与移动可能性相关的基准，例如是若车辆向轨道点移动所需的速度、加速度等处于规定范围内则将妥当性评价得高，若处于规定范围外则将妥当性评价得低这一基准。妥当性评价部340也可以根据车辆的状态、周围环境而变更妥当性的基准。也可以例如在车辆的附近存在障碍物的情况下，即便进行了用于从该障碍物躲避的急加速，也不对妥当性赋予低的值。

风险计算部350基于传感器检测结果，计算行动的风险，将计算出的风险向报酬导出部360输出。风险计算部350例如在车辆与周围物体的距离近的情况下将风险计算得高。

对于报酬导出部360，例如从模拟器/实际车辆400或者识别部330向报酬导出部360输入车辆的速度、加速度、横向位置及车间距离，从妥当性评价部340向报酬导出部360输入妥当性的评价值，从风险计算部350输入风险。所谓横向位置，是与道路的宽度方向相关的位置。这些信息是被评价信息的一例。车辆的速度、加速度、横向位置及车间距离是反馈信息的一例。报酬导出部360针对所输入的信息(输入值)，应用基于按用途报酬函数映射370的报酬函数，由此，导出针对行动的报酬(单独报酬)。单独报酬例如在0至1(规定值的一例)之间导出。

按用途报酬函数映射370包括针对目标的评价特性不同的多个报酬函数映射。图6～11是例示出按用途报酬函数映射370所包含的各个报酬函数映射的图。

图6所示的第一报酬函数映射规定如下的第一报酬函数：当输入值与目标值Tgt1一致时返回1(规定值的一例)，输入值与目标值Tgt1的差量的绝对值越大则返回越小的值。第一报酬函数的评价特性例如基于高斯函数来设定。第一报酬函数适用于想要尽量接近目标值Tgt1的输入值。报酬导出部360例如将高速道路等设置有最低速度那样的道路上的车辆的速度向第一报酬函数输入而导出单独报酬。

在图7所示的第二报酬函数映射中，当输入值与目标值Tgt2一致时返回1(规定值的一例)，输入值与目标值Tgt2的差量的绝对值越大则返回越小的值，不过，使输入值超过目标值Tgt2侧的单独报酬相对于输入值与目标值Tgt2的差量的降低程度比输入值低于目标值Tgt2侧的单独报酬相对于输入值与目标值Tgt2的差量的降低程度大。第二报酬函数的评价特性例如基于使偏态(偏度)作用于高斯函数等分布而得到的分布来设定。第二报酬函数适用于想要尽量接近目标值Tgt2且希望不超过目标值Tgt2的输入值。报酬导出部360例如将车辆的速度向第二报酬函数输入而导出单独报酬。

图8所示的第三报酬函数映射规定如下的第三报酬函数：若输入值为目标值Tgt3以上则返回1(规定值的一例)，在输入值低于目标值Tgt3的情况下，输入值与目标值Tgt3的差量的绝对值越大则返回越小的值。第三报酬函数适用于希望维持为目标值Tgt3以上的输入值。报酬导出部360例如将车间距离向第三报酬函数输入而导出单独报酬。

图9所示的第四报酬函数映射规定如下的第四报酬函数：若输入值为目标值Tgt4以下则返回1(规定值的一例)，在输入值高于目标值Tgt4的情况下，输入值与目标值Tgt4的差量的绝对值越大则返回越小的值。第四报酬函数适用于希望维持为目标值Tgt4以下的输入值。报酬导出部360例如将风险向第四报酬函数输入而导出单独报酬。

图10所示的第五报酬函数映射规定如下的第五报酬函数：若输入值处于目标范围TA5内则返回1(规定值的一例)，输入值与目标范围TA5的上限或下限的差量的绝对值越大(越偏离目标范围TA5)则返回越小的值。第五报酬函数适用于想要尽量收敛于目标范围TA5内的输入值。报酬导出部360例如将加速度、横向位置向第五报酬函数输入而导出单独报酬。在应用于加速度的情况下，目标范围TA5包含零。

图11所示的第六报酬函数映射规定如下的第六报酬函数：输入值越接近两个以上的目标值(在图中为目标值Tgt6(1)、目标值Tgt6(2)这两个)中的任一个，则返回越大的值。第六报酬函数适用于想要接近多个目标值中的任一个的输入值。在图10的例子中，在与目标值Tgt6(1)一致的情况下，返回比与目标值Tgt6(2)一致的情况大的值，但是，也可以返回相同的值。报酬导出部360例如将横向位置向第六报酬函数输入而导出单独报酬。在该情况下，目标值Tgt6(1)、目标值Tgt6(2)是能够行驶的两个彼此相邻的车道的中央。例如，在行驶于与行驶车道的中央对应的目标值Tgt6(1)的情况下，将单独报酬导出得比行驶于与赶超车道的中央对应的目标值Tgt6(2)的情况高。

报酬导出部360例如将基于多个输入值求出的多个单独报酬互相相乘来计算总的报酬。在上述的例子中，报酬导出部360基于式(1)来计算总的报酬。F1～F6分别对应于第一报酬函数～第六报酬函数。报酬导出部360也可以取代将单独报酬彼此相乘，而是通过求出单独报酬的加权和等来计算总的报酬。

报酬(总)＝F1(速度)或F2(速度)×F3(车间距离)×F4(风险)×F5(加速度)×F6(横向位置)…(1)

在车辆假想地行驶的期间，反复导出针对由规划器310生成的行动的总的报酬，当一次行驶结束时，计算将总的报酬沿时间方向合计而得到的累计报酬。然后，规划器310将累计报酬应用于A3C等强化学习算法，更新策略315。由此，学习优选的轨道点的生成规则。

图12是示出由学习装置300执行的处理的流程的一例的流程图。首先，学习装置300进行行驶目标和报酬函数的初始设定(步骤S500)，接下来进行策略315的初始设定(步骤S502)。

接着，规划器310按照策略315决定轨道点(步骤S504)。学习装置300经过控制运算部320的处理而将各种信息向模拟器/实际车辆400输入，取得反馈信息(步骤S506)。

接着，报酬导出部360基于反馈信息及其他信息而导出单独报酬，进而计算总的报酬(步骤S508)。然后，学习装置300判定是否满足了反复结束条件(步骤S510)。所谓反复结束条件，例如是在步骤S504中决定出的轨道点的数量达到了规定数量。在不满足反复结束条件的情况下，使处理返回步骤S504。

在满足了反复结束条件的情况下，报酬导出部360计算累计报酬(步骤S512)。接着，学习装置300判定是否满足了学习结束条件(步骤S514)。所谓学习结束条件，例如是在步骤S512中计算出的累计报酬成为了阈值以上。

在不满足学习结束条件的情况下，规划器310基于强化学习算法而更新策略315(步骤S516)，使处理返回步骤S504。在满足了学习结束条件的情况下，学习装置300确定策略315(步骤S518)。

学习装置300由以下这样的硬件来实现。图13是示出学习装置300的硬件结构的一例的图。如图所示，学习装置300构成为，通信控制器300-1、CPU300-2、被作为工作存储器而使用的RAM(Random Access Memory)300-3、保存引导程序等的ROM(Read Only Memory)300-4、闪存器、HDD(Hard Disk Drive)等存储装置300-5、驱动装置300-6等通过内部总线或者专用通信线而相互连接。通信控制器300-1进行与其他装置的通信。在存储装置300-5中保存有CPU300-2执行的程序300-5a。该程序由DMA(Direct Memory Access)控制器(未图示)等展开到RAM300-3，由CPU300-2执行。由此，实现规划器310、控制运算部320、识别部330、妥当性评价部340、风险计算部350及报酬导出部360中的一部分或全部。

根据以上说明的实施方式，能够进行更加灵活的学习。

上述说明的实施方式，能够如以下这样表现。

一种学习装置，具备：

存储装置，其存储有程序；以及

硬件处理器，

所述硬件处理器构成为通过执行所述程序而进行如下处理：

生成表示车辆的行动的信息；

导出对包括反馈信息的多个被评价信息分别进行评价而得到的多个单独报酬，所述反馈信息通过将基于所述表示车辆的行动的信息得到的信息向模拟器或实际环境输入而从所述模拟器或实际环境得到；以及

基于多个所述单独报酬，导出针对所述车辆的行动的报酬。

以上使用实施方式说明了本发明的具体实施方式，但本发明丝毫不被这样的实施方式限定，在不脱离本发明的主旨的范围内能够施加各种变形及替换。

Claims

1.一种学习装置，其中，

所述学习装置具备：

规划器，其生成表示车辆的行动的信息；以及

报酬导出部，其导出对包括反馈信息的多个被评价信息分别进行评价而得到的多个单独报酬，基于多个所述单独报酬，导出针对所述车辆的行动的报酬，所述反馈信息通过将基于所述表示车辆的行动的信息得到的信息向模拟器或实际环境输入而从所述模拟器或实际环境得到，

所述规划器进行使由所述报酬导出部导出的报酬最佳化的强化学习。

2.根据权利要求1所述的学习装置，其中，

所述报酬导出部对多个所述被评价信息中的至少一部分分别应用评价特性互不相同的规则，由此导出所述单独报酬。

3.根据权利要求2所述的学习装置，其中，

所述报酬导出部对多个所述被评价信息中的至少一部分应用相对于与目标值的关系分布的单独报酬的分布形状互不相同的多个报酬函数中的任一个，由此导出所述单独报酬。

4.根据权利要求1所述的学习装置，其中，

所述报酬导出部将多个所述单独报酬彼此相乘，由此计算针对所述车辆的行动的报酬。

5.根据权利要求1所述的学习装置，其中，

所述反馈信息包括所述车辆的速度、加速度、横向位置中的至少一部分。

6.根据权利要求1所述的学习装置，其中，

所述被评价信息包括基于所述车辆的行动导出的风险。

7.根据权利要求3所述的学习装置，其中，

多个所述报酬函数包括如下的报酬函数：当输入值与目标值一致时返回规定值，输入值与目标值的差量的绝对值越大则返回越小的值。

8.根据权利要求3所述的学习装置，其中，

多个所述报酬函数包括如下的报酬函数：当输入值与目标值一致时返回规定值，输入值与目标值的差量的绝对值越大则返回越小的值，不过，使输入值超过目标值侧的单独报酬相对于输入值与目标值的差量的降低程度比输入值低于目标值侧的单独报酬相对于输入值与目标值的差量的降低程度大。

9.根据权利要求3所述的学习装置，其中，

多个所述报酬函数包括如下的报酬函数：若输入值为目标值以上则返回规定值，在输入值低于目标值的情况下，输入值与目标值的差量的绝对值越大则返回越小的值。

10.根据权利要求3所述的学习装置，其中，

多个所述报酬函数包括如下的报酬函数：若输入值为目标值以下则返回规定值，在输入值高于目标值的情况下，输入值与目标值的差量的绝对值越大则返回越小的值。

11.根据权利要求3所述的学习装置，其中，

多个所述报酬函数包括如下的报酬函数：若输入值处于目标范围内则返回规定值的一例，输入值与目标范围的上限或下限的差量的绝对值越大则返回越小的值。

12.根据权利要求3所述的学习装置，其中，

多个所述报酬函数包括如下的报酬函数：输入值越接近两个以上的目标值中的任一个则返回越大的值。

13.根据权利要求12所述的学习装置，其中，

在所述输入值越接近两个以上的目标值中的任一个则返回越大的值的报酬函数中，根据输入值是否与两个以上的所述目标值中的任一个一致而返回不同的单独报酬。

14.一种学习方法，其中，

所述学习方法使计算机进行如下的处理：

生成表示车辆的行动的信息；

导出对包括反馈信息的多个被评价信息分别进行评价而得到的多个单独报酬，所述反馈信息通过将基于所述表示车辆的行动的信息得到的信息向模拟器或实际环境输入而从所述模拟器或实际环境得到；

基于多个所述单独报酬，导出针对所述车辆的行动的报酬；以及

进行使导出的所述报酬最佳化的强化学习。

15.一种存储介质，其中，

所述存储介质存储有如下的程序，所述程序使计算机进行如下的处理：

生成表示车辆的行动的信息；

进行使导出的所述报酬最佳化的强化学习。