CN113095344A

CN113095344A - 评价、优化装置、系统及方法、车辆、服务器和介质

Info

Publication number: CN113095344A
Application number: CN202010017471.9A
Authority: CN
Inventors: 唐帅; 孙铎; 曲彤; 杨岳; 王宇
Original assignee: Audi AG
Current assignee: Audi AG
Priority date: 2020-01-08
Filing date: 2020-01-08
Publication date: 2021-07-09

Abstract

本发明涉及评价装置及方法、优化方法及装置、以及纠正系统及方法，该优化装置包括：生成单元，被配置为基于之前接收的关于自动驾驶车辆的评价相关信息、车辆行驶状态数据和传感器数据，生成至少一个训练样本，其中，每条评价相关信息至少包括用户针对一辆自动驾驶车辆的驾驶行为的评价信息、该辆自动驾驶车辆的标识信息和所述驾驶行为发生的时间；训练单元，被配置为用所述至少一个训练样本来训练一辆或者多辆自动驾驶车辆使用的决策和道路规划模型，以得到优化后的决策和道路规划模型；以及发送单元，被配置为向所述一辆或者多辆自动驾驶车辆发送所述优化后的决策和道路规划模型。利用该装置和方法，能够纠正自动驾驶车辆的异常驾驶行为。

Description

评价、优化装置、系统及方法、车辆、服务器和介质

技术领域

本发明涉及车辆领域，尤其涉及评价装置及方法、优化装置及方法、纠正系统及方法、车辆、服务器和计算机可读存储介质。

背景技术

自动驾驶车辆是无需人类驾驶的车辆，其利用给定的决策和道路规划模型，根据当前的车辆行驶状态和周围环境状况，自主决定如何行驶。

随着自动驾驶技术的进步，自动驾驶车辆已经走出实验室，进入到路测阶段。在路测过程中，发现自动驾驶车辆经常会出现一些异常驾驶行为。例如，自动驾驶车辆在交叉路口右转时会突然停车。又例如，自动驾驶车辆在交叉路口左转弯时会停留很长时间，导致在其后面的人类驾驶车辆等候更多的时间。又例如，在没有车道标记的双向两车道的道路上行驶时，自动驾驶车辆经常在道路中间行驶，并且直到与相向驶来的车辆非常靠近时，它才会在道路上靠边行驶。

自动驾驶车辆出现的异常驾驶行为给在其周围行驶的其他人类驾驶车辆带来了不良影响，甚至会造成交通事故。

发明内容

本发明提供评价装置及方法、优化装置及方法、纠正系统及方法、车辆、服务器和计算机可读存储介质，其能够用于纠正自动驾驶车辆的异常/不当驾驶行为。

根据本发明的第一方面，提供了一种评价装置，包括：接收单元，被配置为接收用户输入的针对第一自动驾驶车辆的驾驶行为的评价信息；以及，发送单元，被配置为发送关于所述第一自动驾驶车辆的评价相关信息，以用于优化一辆或者多辆自动驾驶车辆使用的决策和道路规划模型，其中，所述评价相关信息至少包括所述评价信息、以及所述第一自动驾驶车辆的标识信息和所述驾驶行为发生的时间。

根据本发明的第二方面，提供了一种优化装置，包括：生成单元，被配置为基于之前接收的关于自动驾驶车辆的评价相关信息、车辆行驶状态数据和传感器数据，生成至少一个训练样本，其中，每条评价相关信息至少包括用户针对一辆自动驾驶车辆的驾驶行为的评价信息、该辆自动驾驶车辆的标识信息和所述驾驶行为发生的时间；训练单元，被配置为用所述至少一个训练样本来训练一辆或者多辆自动驾驶车辆使用的决策和道路规划模型，以得到经优化的决策和道路规划模型；以及，发送单元，被配置为向所述一辆或者多辆自动驾驶车辆发送所述经优化的决策和道路规划模型。

根据本发明的第三方面，提供了一种纠正系统，包括：接收单元，被配置为接收用户输入的针对第一自动驾驶车辆的驾驶行为的评价信息；第一发送单元，被配置为发送关于所述第一自动驾驶车辆的评价相关信息，其中，所述评价相关信息至少包括所述评价信息、以及所述第一自动驾驶车辆的标识信息和所述驾驶行为发生的时间；生成单元，被配置为基于所述评价相关信息、以及所述第一自动驾驶车辆的车辆行驶状态数据和传感器数据，生成至少一个训练样本；训练单元，被配置为用所述至少一个训练样本来训练一辆或者多辆自动驾驶车辆使用的决策和道路规划模型，以得到经优化的决策和道路规划模型；以及，第二发送单元，被配置为向所述一辆或者多辆自动驾驶车辆发送所述经优化的决策和道路规划模型。

根据本发明的第四方面，提供了一种评价方法，包括：接收用户输入的针对第一自动驾驶车辆的驾驶行为的评价信息；以及，发送关于所述第一自动驾驶车辆的评价相关信息，以用于优化一辆或者多辆自动驾驶车辆使用的决策和道路规划模型，其中，所述评价相关信息至少包括所述评价信息、以及所述第一自动驾驶车辆的标识信息和所述驾驶行为发生的时间。

根据本发明的第五方面，提供了一种优化方法，包括：基于之前接收的关于自动驾驶车辆的评价相关信息、车辆行驶状态数据和传感器数据，生成至少一个训练样本，其中，每条评价相关信息至少包括用户针对一辆自动驾驶车辆的驾驶行为的评价信息、该辆自动驾驶车辆的标识信息和所述驾驶行为发生的时间；用所述至少一个训练样本来训练一辆或者多辆自动驾驶车辆使用的决策和道路规划模型，以得到经优化的决策和道路规划模型；以及，向所述一辆或者多辆自动驾驶车辆发送所述经优化的决策和道路规划模型。

根据本发明的第六方面，提供了一种纠正方法，包括：接收用户输入的针对第一自动驾驶车辆的驾驶行为的评价信息；发送关于所述第一自动驾驶车辆的评价相关信息，其中，所述评价相关信息至少包括所述评价信息、以及所述第一自动驾驶车辆的标识信息和所述驾驶行为发生的时间；基于所述评价相关信息、以及所述第一自动驾驶车辆的车辆行驶状态数据和传感器数据，生成至少一个训练样本；用所述至少一个训练样本来训练一辆或者多辆自动驾驶车辆使用的决策和道路规划模型，以得到经优化的决策和道路规划模型；以及向一辆或者多辆自动驾驶车辆发送所述经优化的决策和道路规划模型。

根据本发明的第七方面，提供了一种车辆，包括本发明第一方面的评价装置。

根据本发明的第八方面，提供了一种服务器，包括本发明第二方面的优化装置或者本发明第三方面的纠正系统。

根据本发明的第九方面，提供了一种非暂时性计算机可读存储介质，其上存储有计算机指令，所述计算机指令在处理器执行时导致本发明第四至六方面的方法被执行。

本发明的方案允许用户对自动驾驶车辆的驾驶行为做出评价，并利用该评价来优化用于自动驾驶车辆的决策和道路规划模型，从而纠正自动驾驶车辆的异常/不当驾驶行为。

附图说明

以示例的方式参考以下附图描述本发明的非限制性且非穷举性实施方案，其中：

图1示出了根据本发明的一个实施方案的用于纠正自动驾驶车辆的驾驶行为的系统的架构示意图；

图2示出了根据本发明第一方面的一个实施方案的评价装置的示意图；

图3是表示评分信息的图标的示例；

图4是一些驾驶行为的评分的示例；

图5示出了根据本发明第二方面的一个实施方案的优化装置的示意图；

图6示出了根据本发明第三方面的一个实施方案的纠正系统的示意图；

图7示出了根据本发明第三方面的另一实施方案的纠正系统的示意图；

图8示出了根据本发明第四方面的一个实施方案的评价方法的流程图；

图9示出了根据本发明第五方面的一个实施方案的优化方法的流程图；以及

图10示出了根据本发明第六方面的一个实施方案的纠正方法的流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1示出了根据本发明的一个实施方案的用于纠正自动驾驶车辆的驾驶行为的系统的架构示意图。如图1所示，系统10可以包括多辆人类驾驶车辆20、多辆自动驾驶车辆30、和服务器40。人类驾驶车辆20和自动驾驶车辆30可以经由无线通信方式与服务器40连接。该无线通信方式可以包括但不限于移动通信网络(例如公知的5G、4G、3G、LTE、EDGE、CDMA、GPRS、GSM和/或其等同物)、Wi-Fi或者蓝牙技术等。

人类驾驶车辆20是指由人类进行驾驶的车辆。

自动驾驶车辆30是指无人驾驶的车辆。自动驾驶车辆30安装有用于感知其周围环境状况的各种传感器和高度自动驾驶(HAD)地图。这些传感器可以包括但不局限于摄像机、激光雷达、毫米波雷达、超声波设备和/或车联网(Car-2-X)设备等。自动驾驶车辆30可以利用所安装的这些传感器来感测在其周围的各种对象、障碍物或设施等。自动驾驶车辆30例如可以通过全球导航卫星系统(GNSS)和/或其上安装的各种传感器的感测结果并结合HAD地图来检测或定位其自身的位置。自动驾驶车辆30可以在地图上设计到达目的地的导航路线。自动驾驶车辆30可以基于所安装的传感器的感测结果和定位结果来规划遵循该导航路线的道路，并且可以基于所规划的道路向其动力总成系统、转向系统和传动系统发送控制信号以控制这些系统来实施自动驾驶。这里，规划遵循导航路线的道路和控制总成系统、转向系统和传动系统来实施自动驾驶通常由自动驾驶车辆30中的决策和道路规划模型来实现。

图2示出了根据本发明第一方面的一个实施方案的评价装置的示意图。图2所示的评价装置200可以用于人类驾驶车辆20、自动驾驶车辆30、行人的便携电子设备、骑行者的便携电子设备、车辆驾驶员的便携电子设备和/或车辆乘客的便携电子设备等。这里，所述便携电子设备例如可以是但不局限于智能手机、平板电脑、可穿戴设备、个人数字助理或者其他类型的合适的便携电子设备。

如图2所示，评价装置200包括接收单元210和发送单元220。接收单元210与发送单元220通信地耦合。

接收单元210可以被配置为接收用户输入的针对第一自动驾驶车辆30的驾驶行为的评价信息。这里，所述第一自动驾驶车辆30可以是所述用户观察到的想要评价其驾驶行为的任意自动驾驶车辆。

在一个实施方案中，当所述用户对所述第一自动驾驶车辆30的驾驶行为印象深刻/不满意时，所述用户可以通过例如但不局限于按钮或者触摸屏等在接收单元210中输入其对所述第一自动驾驶车辆30的评价信息。

在一个实施方案中，所述用户可以是人类驾驶车辆20的驾驶员或乘客、其他自动驾驶车辆30的乘客、行人或者骑行者。

在一个实施方案中，所述评价信息包括用于指示用户给出的评分的评分信息。所述评分信息可以利用任何合适的方式来表示。在一个实施方案中，所述评分信息可以由图3中所示的点赞图标(A)或反对图标(B)来表示，其中，所述点赞图标指示对自动驾驶车辆的驾驶行为赞赏，而所述反对图标指示对自动驾驶车辆的驾驶行为不满意。图4示出了三种自动驾驶车辆30的驾驶行为，其中，自动驾驶车辆30在人类驾驶车辆20的前方靠近人类驾驶车辆20切入(A)和在人类驾驶车辆20前方的自动驾驶车辆30行驶太慢(B)这两种驾驶行为均不是令人满意的驾驶行为，因此所述评分信息由所述反对图标表示，而自动驾驶车辆30当人类驾驶车辆20在其前方切入时降低行驶速度(C)这种驾驶行为是令人赞赏的驾驶行为，因此所述评分信息由所述赞赏图标表示。在另一个实施方案中，所述评分信息例如可以由图3中所示的星星图标的被选中数量(C)来表示，其中，被选中的星星图标的数量越多，表示自动驾驶车辆的驾驶行为的令人满意程度越高。

在另一个实施方案中，所述评价信息可以包括所述评分信息和用于指示该驾驶行为所属类型的分类信息。所述分类信息例如可以表示不当车辆切入、恰当车辆切入、恰当超车、不当超车、驾驶太慢、驾驶过快、过近行驶、行驶不平稳、行驶平稳、跨线行驶等。

发送单元220可以被配置为发送关于所述第一自动驾驶车辆30的评价相关信息(例如向服务器40发送)，以用于(例如服务器40)优化一辆或者多辆自动驾驶车辆使用的决策和道路规划模型，其中，所述评价相关信息至少包括由接收单元210接收的所述评价信息、所述第一自动驾驶车辆30的标识信息和所述驾驶行为发生的时间。在向服务器40发送关于所述第一自动驾驶车辆30的评价相关信息的情况下，服务器40在接收到所述评价相关信息之后，可以将其存储起来。还需注意，在本文中，“一辆或者多辆自动驾驶车辆”既可以包括所述第一自动驾驶车辆30，也可以包括任何其他自动驾驶车辆。

在一个实施方案中，所述第一自动驾驶车辆30的标识信息可以例如是但不局限于所述第一自动驾驶车辆30的车牌号码。在所述第一自动驾驶车辆30的标识信息是车牌号码的情况下，所述第一自动驾驶车辆30的车牌号码可以由所述用户手工输入，通过所述第一自动驾驶车辆30与所述用户的相对位置自动地识别，或者利用安装在人类驾驶车辆20上的照相设备并根据由该照相设备检测到的驾驶员的眼睛凝视方向进行图像捕获得到。在所述第一自动驾驶车辆30的车牌号码由所述用户手动输入并且所述用户为所述第一自动驾驶车辆30内乘客时，该乘客可以通过操作车内安装的交互设备的按钮或触摸屏、或通过操作其的移动设备上安装的与所述第一自动驾驶车辆30关联的移动出行应用、或者通过对所述交互设备或者所述移动设备的语音控制来手动地输入所述第一自动驾驶车辆30的车牌号码。

在一个实施方案中，所述驾驶行为发生的时间例如可以是但不局限于在接收单元210接收到所述评价信息之前的、与接收单元210接收到所述评价信息的时间相距预定时间的时间。例如，所述预定时间可以是几秒钟等。

图5示出了根据本发明第二方面的一个实施方案的优化装置的示意图。图5所示的优化装置300可以用于例如服务器40。

如图5所示，优化装置300可以包括生成单元310、训练单元320和发送单元330。生成单元310与训练单元320通信地耦合，以及，训练单元320与发送单元330通信地耦合。

生成单元310可以被配置为基于之前接收的关于自动驾驶车辆30的评价相关信息、车辆状态数据和传感器数据，生成至少一个训练样本，其中，每条评价相关信息至少包括用户针对一辆自动驾驶车辆的驾驶行为的评价信息、该辆自动驾驶车辆的标识信息和所述驾驶行为发生的时间。如本领域技术人员所公知的，每一个训练样本均包括多个特征值和一个标记。

在一个实施方案中，所述评价信息包括用于指示用户给出的评分的评分信息。所述评分信息可以利用任何合适的方式来表示。在一个实施方案中，所述评分信息可以由图3中所示的点赞图标(A)或反对图标(B)来表示。在另一个实施方案中，所述评分信息例如可以由图3中所示的星星图标的被选中数量(C)来表示。

在另一个实施方案中，所述评价信息可以包括所述评分信息和用于指示所述评价信息针对的驾驶行为所属的类型(例如，不当车辆切入、恰当车辆切入、恰当超车、不当超车、驾驶太慢、驾驶过快、过近行驶、行驶不平稳、行驶平稳、跨线行驶等)的分类信息。

在一个实施方案中，所述用户可以是人类驾驶车辆20的驾驶员或乘客、自动驾驶车辆30的乘客、行人或者骑行者。

在一个实施方案中，该辆自动驾驶车辆的标识信息可以例如是但不局限于该辆自动驾驶车辆的车牌号码。

在一个实施方案中，所述车辆行驶状态数据可以包括但不局限于车辆的位置、速度、转向角等。

在一个实施方案中，所述传感器数据可以包括但不局限于来自自动驾驶车辆中的摄像机、激光雷达、毫米波雷达、超声波设备和/或车联网(Car-2-X)设备的数据。

训练单元320可以被配置为用所述至少一个训练样本来训练一辆或者多辆自动驾驶车辆30使用的决策和道路规划模型，以得到经优化的决策和道路规划模型。对于本领域技术人员而言，用训练样本来训练决策和道路规划模型的技术是公知的，因此这里省略对该技术的详细描述。

发送单元330可以被配置为向一辆或者多辆自动驾驶车辆30发送所述经优化的决策和道路规划模型。

在一个实施方案中，所述至少一个训练样本中的任一训练样本的标记是基于之前接收的(例如服务器40之前接收的)其中一条评价相关信息所包括的评价信息而确定的，所述任一训练样本中的各个特征值由之前接收的(例如服务器40之前接收的)特定自动驾驶车辆在特定时间处的车辆行驶状态数据和传感器数据获得，其中，所述特定自动驾驶车辆是所述其中一条评价相关信息所包括的标识信息所指示的自动驾驶车辆，以及，所述特定时间是所述其中一条评价相关信息所包括的时间。

在一个实施方案中，所述任一训练样本的标记可以指示所述任一训练样本是正样本还是负样本。在一个实施方案中，在所述评价信息仅包括所述评分信息的情况下，仅基于所述其中一条评价相关信息所包括的所述评分信息来确定所述任一训练样本的标记。例如，当所述其中一条评价相关信息所包括的所述评分信息是图3所示的点赞图标(A)或被选中的星星图标的数量大于预定数量(C)时，所述任一训练样本的标记被确定为指示所述任一训练样本是正样本。又例如，当所述其中一条评价相关信息所包括的所述评分信息是图3所示的反对图标(B)或被选中的星星图标的数量小于预定数量(C)时，所述任一训练样本的标记被确定为指示所述任一训练样本是负样本。在另一个实施方案中，在所述评价信息包括所述评分信息和所述分类信息的情况下，基于所述其中一条评价相关信息所包括的所述评分信息和所述分类信息来确定所述任一训练样本的标记。例如，当所述其中一条评价相关信息所包括的所述评分信息是图3所示的点赞图标(A)或被选中的星星图标的数量大于预定数量(C)，并且，所述其中一条评价相关信息所包括的所述分类信息指示自动驾驶车辆所属的类型是令人满意的类型(例如，恰当车辆切入、恰当超车、行驶平稳等)时，所述任一训练样本的标记被确定为指示所述任一训练样本是正样本。又例如，当所述其中一条评价相关信息所包括的所述评分信息是图3所示的反对图标(B)或被选中的星星图标的数量小于预定数量(C)，或者，所述其中一条评价相关信息所包括的所述分类信息指示自动驾驶车辆所属的类型是不令人满意的类型(例如，不当车辆切入、驾驶太慢、跨线行驶等)时，所述任一训练样本的标记被确定为指示所述任一训练样本是负样本。

图6示出了根据本发明第三方面的一个实施方案的纠正系统的示意图。如图6所示，纠正系统400可以包括接收单元410、第一发送单元420、生成单元430、训练单元440和第二发送单元450。接收单元410与第一发送单元420通信地耦合，第一发送单元420与生成单元430通信地耦合，生成单元430与训练单元440通信地耦合，并且，训练单元440与第二发送单元450通信地耦合。

在这里，接收单元410和第一发送单元420分别与上文针对本发明第一方面的评价装置200所描述的接收单元210和发送单元220具有相同或者相似的配置或结构，并且可以作为一个整体(例如作为评价装置)存在于所述纠正系统400中，或者可以作为单独的部件存在于所述纠正系统400中。另外，生成单元430、训练单元440和第二发送单元450分别与上文针对本发明第二方面的优化装置300所描述的生成单元310、训练单元320和发送单元330也具有相同或者相似的配置或结构，并且也可以作为一个整体(例如作为优化装置)存在于所述纠正系统400中，或者可以作为单独的部件存在于所述纠正系统中。鉴于上文已经分别针对评价装置200和优化装置300对以上各单元进行了详细的描述，因此在这里不再对这些单元进行赘述。

图7示出了根据本发明第三方面的另一实施方案的纠正系统的示意图。如图7所示，除了图6所示的接收单元410、第一发送单元420、生成单元430、训练单元440和第二发送单元450外，该纠正系统400进一步包括：通信单元460和更新单元470。其中，生成单元430与通信单元460通信地耦合，以及，通信单元460与更新单元470通信地耦合。

通信单元460可以被配置为实时地发送关于自动驾驶车辆30的车辆行驶状态数据和传感器数据(例如，向服务器40发送)，以用于(例如，服务器40)优化一辆或者多辆自动驾驶车辆使用的决策和道路规划模型。在向服务器40发送自动驾驶车辆30的车辆行驶状态数据和传感器数据的情况下，服务器40在接收到关于自动驾驶车辆30的车辆行驶状态数据和传感器数据之后可以将其存储起来。这里，所述自动驾驶车辆30可以是任意自动驾驶车辆。

更新单元470可以被配置为当通信单元460(例如从服务器40)接收到经优化的决策和道路规划模型时，用所接收的经优化的决策和道路规划模型来更新一辆或者多辆自动驾驶车辆中存储的当前决策和道路规划模型。

在本文中，上述的通信单元460和更新单元470可以作为一个整体(例如作为更新装置)存在于所述纠正系统400中，也可以作为单独的部件存在于所述纠正系统400中。

图8示出了根据本发明第四方面的一个实施方案的评价方法的流程图。图8所示的评价方法500可以利用上文描述的评价装置200(参见图2)来实施。

如图8所示，评价方法500可以包括步骤510和步骤520。其中，在步骤510，接收用户输入的针对第一自动驾驶车辆30的驾驶行为的评价信息。在步骤520，发送关于所述第一自动驾驶车辆30的评价相关信息(例如向服务器40发送)，以用于(例如服务器40)优化一辆或者多辆自动驾驶车辆使用的决策和道路规划模型，其中，所述评价相关信息至少包括所述评价信息、所述第一自动驾驶车辆30的标识信息和所述驾驶行为发生的时间。在这里，所述“一辆或者多辆自动驾驶车辆”既可以包括所述第一自动驾驶车辆30，也可以包括其它自动驾驶车辆。

步骤510可以由前述评价装置200的接收单元210来执行，步骤520可以由前述评价装置200的发送单元220来执行，如上文结合图2所描述的。另外，上文结合评价装置200中的各个单元所描述的各操作和细节均可被包括或体现在评价方法500中。

图9示出了根据本发明第五方面的一个实施方案的优化方法的流程图。图9所示的优化方法600可以利用上文描述的优化装置300来实施。

如图9所示，优化方法600可以包括步骤610、步骤620和步骤630。其中，在步骤610，基于之前接收的关于自动驾驶车辆的评价相关信息、车辆行驶状态数据和传感器数据，生成至少一个训练样本，其中，每条评价相关信息至少包括用户针对一辆自动驾驶车辆的驾驶行为的评价信息、该辆自动驾驶车辆的标识信息和所述驾驶行为发生的时间。在步骤620，用所述至少一个训练样本来训练一辆或者多辆自动驾驶车辆使用的决策和道路规划模型，以得到经优化的决策和道路规划模型。在步骤630，向所述一辆或者多辆自动驾驶车辆发送所述经优化的决策和道路规划模型。

步骤610可以由前述优化装置300的生成单元310来执行，步骤620可以由前述优化装置300的训练单元320来执行，步骤630可以由前述优化装置300的发送单元330来执行，如上文结合图5所描述的。另外，上文结合优化装置300中的各个单元所描述的各操作和细节可被包括或体现在优化方法600中。

图10示出了根据本发明第六方面的一个实施方案的纠正方法的流程图。图10所示的纠正方法700可以利用上文描述的纠正系统400来实施。

如图10所示，纠正方法700可以包括步骤710、步骤720、步骤730、步骤740、和步骤750。其中，在步骤710，接收用户输入的针对第一自动驾驶车辆30的驾驶行为的评价信息。在步骤720，发送关于所述第一自动驾驶车辆30的评价相关信息(例如向服务器40发送)，以用于(例如服务器40)优化一辆或者多辆自动驾驶车辆使用的决策和道路规划模型，其中，所述评价相关信息至少包括所述评价信息、所述第一自动驾驶车辆30的标识信息和所述驾驶行为发生的时间。在这里，所述“一辆或者多辆自动驾驶车辆”既可以包括所述第一自动驾驶车辆30，也可以包括其它自动驾驶车辆。在步骤730，基于之前接收的关于第一自动驾驶车辆30的评价相关信息、车辆状态数据和传感器数据，生成至少一个训练样本。需注意，在这里，需要实时地传输/发送第一自动驾驶车辆30的车辆状态数据和传感器数据，例如传输/发送给服务器40，以用于(例如，服务器40)优化一辆或者多辆自动驾驶车辆使用的决策和道路规划模型。在向服务器40发送第一自动驾驶车辆30的车辆行驶状态数据和传感器数据的情况下，服务器40在接收到关于第一自动驾驶车辆30的车辆行驶状态数据和传感器数据之后可以将其存储起来。在步骤740，用所述至少一个训练样本来训练一辆或者多辆自动驾驶车辆使用的决策和道路规划模型，以得到经优化的决策和道路规划模型。在步骤740，向一辆或者多辆自动驾驶车辆30发送所述经优化的决策和道路规划模型。在所述一辆或者多辆自动驾驶车辆30收到所述经优化的决策和道路规划模型之后，会用所接收到的经优化的决策和道路规划模型来更新原来的当前决策和道路规划模型。

步骤710可以由前述纠正系统400的接收单元410来执行，步骤720可以由前述纠正系统400的第一发送单元420来执行，步骤730可以由前述纠正系统400的生成单元430来执行，步骤740可以由前述纠正系统400的训练单元440来执行，步骤750可以由前述纠正系统400的第二发送单元450来执行，如上文结合图6所描述的。另外，上文结合纠正系统400的各个单元所描述的各操作和细节可被包括或体现在纠正方法700中，因此在此不再赘述。

应理解，上述装置200、300和400中的各个单元可全部或部分地通过软件、硬件、固件或其组合来实现。所述各个单元各自可以硬件或固件形式内嵌于计算机设备的处理器中或独立于所述处理器，也可以软件形式存储于计算机设备的存储器中以供处理器调用来执行所述各单元的操作。所述各个单元各自可以实现为独立的部件或模块，或者两个或更多单元可实现为单个部件或模块。

本领域普通技术人员应理解，图2、图5、图6和图7示出的装置/系统的示意图仅仅是与本发明的方案相关的部分结构的示例性说明框图，并不构成对体现本发明的方案的计算机设备、处理器或计算机程序的限定。具体的计算机设备、处理器或计算机程序可以包括比图中所示更多或更少的部件或模块，或者组合或拆分某些部件或模块，或者可具有不同的部件或模块布置。

在一个实施方案中，提供了一种计算机设备，其包括存储器和处理器，所述存储器上存储有可由处理器执行的计算机指令，所述计算机指令在由所述处理器执行时指示所述处理器执行本发明的方法的各个步骤。该计算机设备可以广义地为服务器、车载终端，或任何其他具有必要的计算和/或处理能力的电子设备。在一个实施方案中，该计算机设备可包括通过系统总线连接的处理器、存储器、网络接口、通信接口等。该计算机设备的处理器可用于提供必要的计算、处理和/或控制能力。该计算机设备的存储器可包括非易失性存储介质和内存储器。该非易失性存储介质中或上可存储有操作系统、计算机程序等。该内存储器可为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口和通信接口可用于与外部的设备通过网络连接和通信。该计算机程序被处理器执行时执行本发明的方法的各个步骤。

本发明可以实现为一种非暂时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序在由处理器执行时导致本发明的方法的步骤被执行。在一个实施方案中，所述计算机程序被分布在网络耦合的多个计算机设备或处理器上，以使得所述计算机程序由一个或多个计算机设备或处理器以分布式方式存储、访问和执行。单个方法步骤/操作，或者两个或更多方法步骤/操作，可以由单个计算机设备或处理器或由两个或更多计算机设备或处理器执行。一个或多个方法步骤/操作可以由一个或多个计算机设备或处理器执行，并且一个或多个其他方法步骤/操作可以由一个或多个其他计算机设备或处理器执行。一个或多个计算机设备或处理器可以执行单个方法步骤/操作，或执行两个或更多方法步骤/操作。

本领域普通技术人员可以理解，本发明的方法的全部或部分操作可以通过计算机程序来指示相关的硬件如计算机设备或处理器完成，所述计算机程序可存储于非暂时性计算机可读存储介质中，该计算机程序被执行时导致本发明的方法的操作被执行。根据情况，本文中对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。非易失性存储器的示例包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、闪存、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘等。易失性存储器的示例包括随机存取存储器(RAM)、外部高速缓冲存储器等。以上描述的各技术特征可以任意地组合。尽管未对这些技术特征的所有可能组合进行描述，但这些技术特征的任何组合都应当被认为由本说明书涵盖，只要这样的组合不存在矛盾。

尽管结合实施方案对本发明进行了描述，但本领域技术人员应理解，上文的描述和附图仅是示例性而非限制性的，本发明不限于所公开的实施方案。在不偏离本发明的精神的情况下，各种改型和变体是可能的。

Claims

1.一种评价装置，包括：

接收单元，被配置为接收用户输入的针对第一自动驾驶车辆的驾驶行为的评价信息；以及

发送单元，被配置为发送关于所述第一自动驾驶车辆的评价相关信息，以用于优化一辆或者多辆自动驾驶车辆使用的决策和道路规划模型，

其中，所述评价相关信息至少包括所述评价信息、以及所述第一自动驾驶车辆的标识信息和所述驾驶行为发生的时间；

优选地，所述评价信息包括：用于指示所述用户给出的评分的评分信息，或者，所述评分信息和用于指示所述评价信息针对的驾驶行为所属的类型的分类信息。

2.一种优化装置，包括：

生成单元，被配置为基于之前接收的关于自动驾驶车辆的评价相关信息、车辆行驶状态数据和传感器数据，生成至少一个训练样本，其中，每条评价相关信息至少包括用户针对一辆自动驾驶车辆的驾驶行为的评价信息、该辆自动驾驶车辆的标识信息和所述驾驶行为发生的时间；

训练单元，被配置为用所述至少一个训练样本来训练一辆或者多辆自动驾驶车辆使用的决策和道路规划模型，以得到经优化的决策和道路规划模型；以及

发送单元，被配置为向所述一辆或者多辆自动驾驶车辆发送所述经优化的决策和道路规划模型；

优选地，所述评价信息包括：用于指示用户给出的评分的评分信息，或者，所述评分信息和用于指示所述评价信息针对的驾驶行为所属的类型的分类信息。

3.如权利要求2所述的优化装置，其中

所述至少一个训练样本中的任一训练样本的标记是基于之前接收的其中一条评价相关信息所包括的评价信息而确定的，以及，

所述任一训练样本中的各个特征值由之前接收的特定自动驾驶车辆在特定时间处的车辆行驶状态数据和传感器数据获得，其中，所述特定自动驾驶车辆是所述其中一条评价相关信息所包括的标识信息所指示的自动驾驶车辆，以及，所述特定时间是所述其中一条评价相关信息所包括的时间。

4.一种纠正系统，包括：

接收单元，被配置为接收用户输入的针对第一自动驾驶车辆的驾驶行为的评价信息；

第一发送单元，被配置为发送关于所述第一自动驾驶车辆的评价相关信息，其中，所述评价相关信息至少包括所述评价信息、以及所述第一自动驾驶车辆的标识信息和所述驾驶行为发生的时间；

生成单元，被配置为基于所述评价相关信息、以及所述第一自动驾驶车辆的车辆行驶状态数据和传感器数据，生成至少一个训练样本；

第二发送单元，被配置为向所述一辆或者多辆自动驾驶车辆发送所述经优化的决策和道路规划模型；

5.如权利要求4所述的纠正系统，其中

所述至少一个训练样本中的任一训练样本的标记是基于所述评价信息而确定的，以及

所述任一训练样本中的各个特征值由所述第一自动驾驶车辆在特定时间处的车辆行驶状态数据和传感器数据获得，其中，所述特定时间是所述评价相关信息所包括的时间。

6.如权利要求4所述的纠正系统，其中

所述纠正系统还包括：

通信单元，被配置为向所述生成单元实时地发送关于所述第一自动驾驶车辆的车辆行驶状态数据和传感器数据，以用于优化一辆或者多辆自动驾驶车辆使用的决策和道路规划模型；以及

更新单元，被配置为当所述通信单元接收到经优化的决策和道路规划模型后，用所接收的经优化的决策和道路规划模型来更新一辆或者多辆自动驾驶车辆中存储的决策和道路规划模型。

7.一种评价方法，包括：

接收用户输入的针对第一自动驾驶车辆的驾驶行为的评价信息；以及

发送关于所述第一自动驾驶车辆的评价相关信息，以用于优化一辆或者多辆自动驾驶车辆使用的决策和道路规划模型，

8.一种优化方法，包括：

基于之前接收的关于自动驾驶车辆的评价相关信息、车辆行驶状态数据和传感器数据，生成至少一个训练样本，其中，每条评价相关信息至少包括用户针对一辆自动驾驶车辆的驾驶行为的评价信息、该辆自动驾驶车辆的标识信息和所述驾驶行为发生的时间；

用所述至少一个训练样本来训练一辆或者多辆自动驾驶车辆使用的决策和道路规划模型，以得到经优化的决策和道路规划模型；以及

向所述一辆或者多辆自动驾驶车辆发送所述经优化的决策和道路规划模型；

9.如权利要求8所述的优化方法，其中

10.一种纠正方法，包括：

接收用户输入的针对第一自动驾驶车辆的驾驶行为的评价信息；

发送关于所述第一自动驾驶车辆的评价相关信息，其中，所述评价相关信息至少包括所述评价信息、以及所述第一自动驾驶车辆的标识信息和所述驾驶行为发生的时间；

基于所述评价相关信息、以及所述第一自动驾驶车辆的车辆行驶状态数据和传感器数据，生成至少一个训练样本；

向一辆或者多辆自动驾驶车辆发送所述经优化的决策和道路规划模型；

优选地，所述评价信息包括：用于指示所述用户给出的评分的评分信息，或者，所述评分信息和用于指示所述驾驶行为所属的类型的分类信息。

11.如权利要求10所述的纠正方法，其中

12.一种车辆，包括：

根据权利要求1所述的评价装置。

13.一种服务器，包括：

根据权利要求2或3所述的优化装置或者根据权利要求4-6中任一项所述的纠正系统。

14.一种非暂时性计算机可读存储介质，其上存储有计算机指令，所述计算机指令在处理器执行时导致根据权利要求7-11中任一项所述的方法被执行。