CN105109485B

CN105109485B - 一种驾驶方法及系统

Info

Publication number: CN105109485B
Application number: CN201510532369.1A
Authority: CN
Inventors: 方啸; 高红博; 张世兵; 段山保; 尹飞飞
Original assignee: Chery Automobile Co Ltd
Current assignee: Wuhu Lion Automotive Technologies Co Ltd
Priority date: 2015-08-24
Filing date: 2015-08-24
Publication date: 2018-02-16
Anticipated expiration: 2035-08-24
Also published as: CN105109485A

Abstract

本发明公开一种驾驶方法及系统，属于车辆安全技术领域。该驾驶系统包括：环境感知模块和避撞控制模块，环境感知模块用于在车辆行驶过程中监测车辆的行驶环境；预测车辆的行驶环境中是否会发生由障碍物引发的突发事件；在车辆的行驶环境中会发生由障碍物引发的突发事件时，获取障碍物的当前位置；避撞控制模块用于根据障碍物的当前位置，采用自适应学习算法确定目标决策动作；根据目标决策动作控制车辆行驶，本发明解决了相关技术中的驾驶系统具有局限性，稳定性较低，灵活性较差的问题，达到了扩大驾驶系统的应用范围，提高驾驶系统的稳定性和灵活性的有益效果。本发明用于车辆的避撞驾驶。

Description

一种驾驶方法及系统

技术领域

本发明涉及车辆安全技术领域，特别涉及一种驾驶方法及系统。

背景技术

随着电子技术的快速发展，汽车等车辆已经成为生活中必不可少的交通工具。而伴随着车辆的普及，道路上的车辆越来越密集，行车安全也越来越重要。

通常，驾驶员在驾驶车辆行驶的过程中，可能会发生一些诸如插车、障碍物阻挡等突发事件，此时，驾驶员可以手动操作方向盘，油门，刹车等以避免车辆与障碍物发生碰撞，但是由于在发生突发事件时，驾驶员通常处于紧张状态，驾驶员对方向盘，油门、刹车等操作的准确性较低。为此，相关技术提供了一种驾驶系统，该驾驶系统包括：环境感知模块和避撞控制模块，避撞控制模块中存储有驾驶员根据驾驶车辆过程中的避撞经验设置的环境状态量与决策动作的对应关系，其中，环境状态量可以为障碍物的位置，环境感知模块可以在车辆的行驶环境中存在由障碍物引发的突发事件时获取车辆当前的环境状态量，避撞控制模块可以根据车辆当前的环境状态量从环境状态量与决策动作的对应关系中确定与车辆当前的环境状态量对应的目标决策动作，然后根据该目标决策动作控制车辆行驶，从而避免车辆与障碍物发生碰撞。

在实现本发明的过程中，发明人发现相关技术至少存在以下问题：

相关技术中的驾驶系统是以驾驶员的避撞经验为依据控制车辆行驶的，受驾驶员经验的限制，驾驶系统具有一定的局限性，且由于是以驾驶员的避撞经验为依据控制车辆行驶的，因此，驾驶系统的稳定性较低，灵活性较差。

发明内容

为了解决相关技术中驾驶系统具有局限性，稳定性较低，灵活性较差的问题，本发明提供一种驾驶方法及系统。所述技术方案如下：

第一方面，提供一种驾驶系统，所述驾驶系统包括：环境感知模块和避撞控制模块，

所述环境感知模块用于在车辆行驶过程中监测所述车辆的行驶环境；预测所述车辆的行驶环境中是否会发生由障碍物引发的突发事件；在所述车辆的行驶环境中会发生由障碍物引发的突发事件时，获取所述障碍物的当前位置；

所述避撞控制模块用于根据所述障碍物的当前位置，采用自适应学习算法确定目标决策动作；根据所述目标决策动作控制所述车辆行驶。

可选地，所述避撞控制模块用于：

从经验存储库中确定与所述障碍物的当前位置对应的目标可执行动作，所述经验存储库中记录了预先通过自适应学习算法确定的障碍物的位置与可执行动作的对应关系，每个障碍物的位置对应至少一个可执行动作，每个可执行动作包括决策动作和与所述决策动作一一对应的增强信号，所述增强信号用于指示与所述增强信号一一对应的决策动作在执行时的立即回报；

计算所述目标可执行动作中的每个决策动作的未来无穷回报累加和；

确定所述未来无穷回报累加和最大的第一决策动作；

根据所述障碍物的当前位置和所述第一决策动作，确定所述第一决策动作在执行时需要付出的第一代价；

根据所述第一代价和最大的未来回报累加和确定评价误差；

根据所述第一代价和预设的效用期望确定动作误差；

根据所述评价误差和所述动作误差对所述第一决策动作进行调节得到第二决策动作，所述第二决策动作在执行时需要付出的代价为第二代价，所述第二代价小于所述第一代价；

将所述第二决策动作对应的障碍物的位置确定为所述障碍物的当前位置；

重复执行上述步骤，直至得到执行时需要付出的代价小于预设代价的决策动作；

将所述执行时需要付出的代价小于预设代价的决策动作作为所述目标决策动作。

可选地，所述避撞控制模块用于获取驾驶员的决策动作；

所述环境感知模块用于获取执行所述驾驶员的决策动作之后所述障碍物的第一位置；

所述避撞控制模块用于从所述经验存储库中确定与所述障碍物的第一位置对应的目标可执行动作，所述经验存储库中记录了预先通过自适应学习算法确定的障碍物的位置与可执行动作的对应关系，每个障碍物的位置对应至少一个可执行动作，每个可执行动作包括决策动作和与所述决策动作一一对应的增强信号，所述增强信号用于指示与所述增强信号一一对应的决策动作在执行时的立即回报；

确定所述未来无穷回报累加和最大的第一决策动作；

根据所述第一代价和最大的未来回报累加和确定评价误差；

根据所述第一代价和预设的效用期望确定动作误差；

将所述第二决策动作对应的障碍物的位置确定为所述障碍物的第一位置；

重复执行所述从所述经验存储库中确定与所述障碍物的第一位置对应的目标可执行动作至所述将所述第二决策动作对应的障碍物的位置确定为所述障碍物的第一位置的步骤，直至得到执行时需要付出的代价小于预设代价的决策动作；

可选地，所述环境感知模块用于：

采用汽车动力学方程计算执行所述驾驶员的决策动作后所述车辆的行驶轨迹；

判断所述车辆的行驶轨迹是否为符合预设条件的行驶轨迹；

在所述车辆的行驶轨迹为符合预设条件的行驶轨迹时，触发所述环境感知模块获取执行所述驾驶员的决策动作之后所述障碍物的第一位置；

其中，所述车辆在按照所述符合预设条件的行驶轨迹行驶时，所述车辆与所述车辆的行驶环境中的障碍物会发生碰撞。

可选地，所述环境感知模块用于：

判断所述车辆的行驶环境中是否存在障碍物；

在所述车辆的行驶环境中存在障碍物时，判断所述障碍物是否处于预设范围内；

在所述障碍物处于所述预设范围内时，确定所述车辆的行驶环境中会发生由所述障碍物引发的突发事件。

第二方面，提供一种驾驶方法，所述方法包括：

在车辆行驶过程中监测所述车辆的行驶环境；

预测所述车辆的行驶环境中是否会发生由障碍物引发的突发事件；

若所述车辆的行驶环境中会发生由障碍物引发的突发事件，则获取所述障碍物的当前位置；

根据所述障碍物的当前位置，采用自适应学习算法确定目标决策动作；

根据所述目标决策动作控制所述车辆行驶。

可选地，所述根据所述障碍物的当前位置，采用自适应学习算法确定目标决策动作，包括：

确定所述未来无穷回报累加和最大的第一决策动作；

根据所述第一代价和最大的未来回报累加和确定评价误差；

根据所述第一代价和预设的效用期望确定动作误差；

获取驾驶员的决策动作；

获取执行所述驾驶员的决策动作之后所述障碍物的第一位置；

从所述经验存储库中确定与所述障碍物的第一位置对应的目标可执行动作，所述经验存储库中记录了预先通过自适应学习算法确定的障碍物的位置与可执行动作的对应关系，每个障碍物的位置对应至少一个可执行动作，每个可执行动作包括决策动作和与所述决策动作一一对应的增强信号，所述增强信号用于指示与所述增强信号一一对应的决策动作在执行时的立即回报；

确定所述未来无穷回报累加和最大的第一决策动作；

根据所述第一代价和最大的未来回报累加和确定评价误差；

根据所述第一代价和预设的效用期望确定动作误差；

可选地，所述获取执行所述驾驶员的决策动作之后所述障碍物的第一位置，包括：

判断所述车辆的行驶轨迹是否为符合预设条件的行驶轨迹；

若所述车辆的行驶轨迹为符合预设条件的行驶轨迹，则获取执行所述驾驶员的决策动作之后所述障碍物的第一位置；

可选地，所述预测所述车辆的行驶环境中是否会发生由障碍物引发的突发事件，包括：

判断所述车辆的行驶环境中是否存在障碍物；

若所述车辆的行驶环境中存在障碍物，则判断所述障碍物是否处于预设范围内；

若所述障碍物处于所述预设范围内，则确定所述车辆的行驶环境中会发生由所述障碍物引发的突发事件。

本发明提供的技术方案带来的有益效果是：

本发明实施例提供的驾驶方法及系统，驾驶系统包括：环境感知模块和避撞控制模块，环境感知模块用于在车辆行驶过程中监测车辆的行驶环境；预测车辆的行驶环境中是否会发生由障碍物引发的突发事件；在车辆的行驶环境中会发生由障碍物引发的突发事件时，获取障碍物的当前位置；避撞控制模块用于根据障碍物的当前位置，采用自适应学习算法确定目标决策动作；根据目标决策动作控制车辆行驶。由于本发明采用自适应学习算法确定目标决策动作，目标决策动作的确定不受驾驶员的经验的限制，解决了相关技术中的驾驶系统具有局限性，稳定性较低，灵活性较差的问题，达到了扩大驾驶系统的应用范围，提高驾驶系统的稳定性和灵活性的有益效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明各个实施例提供的驾驶方法所涉及的一种实施环境的结构示意图；

图2是本发明一个实施例提供的驾驶系统的框图；

图3是本发明一个实施例提供的一种驾驶方法的方法流程图；

图4是本发明另一个实施例提供的一种驾驶方法的方法流程图；

图5是图4所示实施例提供的一种预测车辆的行驶环境中是否会发生由障碍物引发的突发事件的方法流程图；

图6是图4所示实施例提供的一种确定障碍物是否位于预设范围内的示意图；

图7是图4所示实施例提供的一种根据障碍物的位置采用自适应学习算法确定目标决策动作的方法流程图；

图8是图4所示实施例提供的一种根据通过自适应学习算法确定障碍物的位置与可执行动作的对应关系的示意图；

图9是图4所示实施例提供的另一种根据障碍物的位置采用自适应学习算法确定目标决策动作的方法流程图；

图10是图4所示实施例提供的一种获取执行驾驶员的决策动作之后障碍物的第一位置的方法流程图。

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参考图1，其示出了本发明各个实施例提供的驾驶方法所涉及的一种实施环境的结构示意图，参见图1，道路S包括三个车道，分别为车道S1、车道S2和车道S3，车辆C1行驶于车道S1上，车辆C2行驶于车道S2上，车辆C3行驶于车道S3上，且车辆C1、车辆C2和车辆C3的行驶方向相同。在车辆C1和车辆C2行驶的过程中，车辆C3突然从车辆C2的前方变道至车道S2上行驶(插车)，此时，车辆C3对于车辆C2来说可以称为障碍物，该障碍物出现时，车辆C2的驾驶员条件反射的旋转车辆C2的方向盘以避免车辆C2与车辆C3发生碰撞，车辆C2的驾驶员旋转车辆C2的方向盘的角度和方向不同，可以使得车辆C2按照不同的路径行驶，示例地，车辆C2可以按照图1所示的路径L1、路径L2和路径L3中的任一路径行驶，参见图1可知，该3条路径对应的方向盘的旋转方向均是向车辆C2的驾驶员的左侧旋转，且路径L2对应的旋转角度小于路径L1对应的旋转角度，路径L1对应的旋转角度小于路径L3对应的旋转角度。

通常情况下，车辆C3的突然插车会导致车辆C2的驾驶员处于精神紧张状态而无法精确把握方向盘的旋转角度，若车辆C2的方向盘的旋转角度过小，车辆C2可能会按照路径L2行驶，导致车辆C2与车辆C3发生刮擦甚至碰撞，进而引发交通事故；若车辆C2的方向盘的旋转角度过大，车辆C2可能会按照路径L3行驶，导致车辆C2与车辆C1发生刮擦甚至碰撞，进而引发交通事故。

在本实施环境中，在车辆C3插车时，车辆C2的理想行驶路径为路径L1，本发明实施例提供的驾驶系统可以安装在车辆C2上，使得在车辆C3插车时，车辆C2按照路径L1行驶，避免车辆C2与车辆C3、车辆C1发生碰撞，从而避免交通事故的发生。

请参考图2，其示出了本发明一个实施例提供的驾驶系统200的框图，该驾驶系统200可以用于车辆驾驶，该驾驶系统200能够在车辆的行驶环境中存在由障碍物引发的突发事件时，避免车辆与障碍物发生碰撞。参见图2，该驾驶系统200可以包括但不限于：环境感知模块210和避撞控制模块220。

环境感知模块210用于在车辆行驶过程中监测车辆的行驶环境；预测车辆的行驶环境中是否会发生由障碍物引发的突发事件；在车辆的行驶环境中会发生由障碍物引发的突发事件时，获取障碍物的当前位置；

避撞控制模块220用于根据障碍物的当前位置，采用自适应学习算法确定目标决策动作；根据目标决策动作控制车辆行驶。

可选地，避撞控制模块220用于：

从经验存储库中确定与障碍物的当前位置对应的目标可执行动作，经验存储库中记录了预先通过自适应学习算法确定的障碍物的位置与可执行动作的对应关系，每个障碍物的位置对应至少一个可执行动作，每个可执行动作包括决策动作和与决策动作一一对应的增强信号，增强信号用于指示与增强信号一一对应的决策动作在执行时的立即回报；

计算目标可执行动作中的每个决策动作的未来无穷回报累加和；

确定未来无穷回报累加和最大的第一决策动作；

根据障碍物的当前位置和第一决策动作，确定第一决策动作在执行时需要付出的第一代价；

根据第一代价和最大的未来回报累加和确定评价误差；

根据第一代价和预设的效用期望确定动作误差；

根据评价误差和动作误差对第一决策动作进行调节得到第二决策动作，第二决策动作在执行时需要付出的代价为第二代价，第二代价小于第一代价；

将第二决策动作对应的障碍物的位置确定为障碍物的当前位置；

将执行时需要付出的代价小于预设代价的决策动作作为目标决策动作。

可选地，避撞控制模块220用于获取驾驶员的决策动作；

环境感知模块210用于获取执行驾驶员的决策动作之后障碍物的第一位置；

避撞控制模块220用于从经验存储库中确定与障碍物的第一位置对应的目标可执行动作，经验存储库中记录了预先通过自适应学习算法确定的障碍物的位置与可执行动作的对应关系，每个障碍物的位置对应至少一个可执行动作，每个可执行动作包括决策动作和与决策动作一一对应的增强信号，增强信号用于指示与增强信号一一对应的决策动作在执行时的立即回报；

确定未来无穷回报累加和最大的第一决策动作；

根据第一代价和最大的未来回报累加和确定评价误差；

根据第一代价和预设的效用期望确定动作误差；

将第二决策动作对应的障碍物的位置确定为障碍物的第一位置；

重复执行从经验存储库中确定与障碍物的第一位置对应的目标可执行动作至将第二决策动作对应的障碍物的位置确定为障碍物的第一位置的步骤，直至得到执行时需要付出的代价小于预设代价的决策动作；

可选地，环境感知模块210用于：

采用汽车动力学方程计算执行驾驶员的决策动作后车辆的行驶轨迹；

判断车辆的行驶轨迹是否为符合预设条件的行驶轨迹；

在车辆的行驶轨迹为符合预设条件的行驶轨迹时，触发环境感知模块210获取执行驾驶员的决策动作之后障碍物的第一位置；

其中，车辆在按照符合预设条件的行驶轨迹行驶时，车辆与车辆的行驶环境中的障碍物会发生碰撞。

可选地，环境感知模块210用于：

判断车辆的行驶环境中是否存在障碍物；

在车辆的行驶环境中存在障碍物时，判断障碍物是否处于预设范围内；

在障碍物处于预设范围内时，确定车辆的行驶环境中会发生由障碍物引发的突发事件。

综上所述，本发明实施例提供的驾驶系统包括：环境感知模块和避撞控制模块，环境感知模块用于在车辆行驶过程中监测车辆的行驶环境；预测车辆的行驶环境中是否会发生由障碍物引发的突发事件；在车辆的行驶环境中会发生由障碍物引发的突发事件时，获取障碍物的当前位置；避撞控制模块用于根据障碍物的当前位置，采用自适应学习算法确定目标决策动作；根据目标决策动作控制车辆行驶。由于本发明采用自适应学习算法确定目标决策动作，目标决策动作的确定不受驾驶员的经验的限制，解决了相关技术中的驾驶系统具有局限性，稳定性较低，灵活性较差的问题，达到了扩大驾驶系统的应用范围，提高驾驶系统的稳定性和灵活性的有益效果。

本发明实施例提供的驾驶系统可以应用于下文的方法，本发明实施例中驾驶方法可以参见下文各实施例中的描述。

请参考图3，其示出了本发明一个实施例提供的驾驶方法的方法流程图，该驾驶方法可以由图2所示的驾驶系统来执行，参见图3，该方法流程可以包括如下几个步骤：

在步骤301中，在车辆行驶过程中监测车辆的行驶环境。

在步骤302中，预测车辆的行驶环境中是否会发生由障碍物引发的突发事件。

在步骤303中，若车辆的行驶环境中会发生由障碍物引发的突发事件，则获取障碍物的当前位置。

在步骤304中，根据障碍物的当前位置，采用自适应学习算法确定目标决策动作。

在步骤305中，根据目标决策动作控制车辆行驶。

综上所述，本发明实施例提供的驾驶方法，通过在车辆行驶过程中监测车辆的行驶环境；预测车辆的行驶环境中是否会发生由障碍物引发的突发事件；在车辆的行驶环境中会发生由障碍物引发的突发事件时，获取障碍物的当前位置；根据障碍物的当前位置，采用自适应学习算法确定目标决策动作；根据目标决策动作控制车辆行驶。由于本发明采用自适应学习算法确定目标决策动作，目标决策动作的确定不受驾驶员的经验的限制，解决了相关技术中的驾驶方法具有局限性，稳定性较低，灵活性较差的问题，达到了扩大驾驶方法的应用范围，提高驾驶方法的稳定性和灵活性的有益效果。

可选地，步骤304可以包括：

确定未来无穷回报累加和最大的第一决策动作；

根据第一代价和最大的未来回报累加和确定评价误差；

根据第一代价和预设的效用期望确定动作误差；

可选地，步骤304可以包括：

获取驾驶员的决策动作；

获取执行驾驶员的决策动作之后障碍物的第一位置；

从经验存储库中确定与障碍物的第一位置对应的目标可执行动作，经验存储库中记录了预先通过自适应学习算法确定的障碍物的位置与可执行动作的对应关系，每个障碍物的位置对应至少一个可执行动作，每个可执行动作包括决策动作和与决策动作一一对应的增强信号，增强信号用于指示与增强信号一一对应的决策动作在执行时的立即回报；

确定未来无穷回报累加和最大的第一决策动作；

根据第一代价和最大的未来回报累加和确定评价误差；

根据第一代价和预设的效用期望确定动作误差；

进一步地，获取执行驾驶员的决策动作之后障碍物的第一位置，包括：

判断车辆的行驶轨迹是否为符合预设条件的行驶轨迹；

若车辆的行驶轨迹为符合预设条件的行驶轨迹，则获取执行驾驶员的决策动作之后障碍物的第一位置；

可选地，步骤302可以包括：

判断车辆的行驶环境中是否存在障碍物；

若车辆的行驶环境中存在障碍物，则判断障碍物是否处于预设范围内；

若障碍物处于预设范围内，则确定车辆的行驶环境中会发生由障碍物引发的突发事件。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

请参考图4，其示出了本发明一个实施例提供的驾驶方法的方法流程图，该驾驶方法可以由图2所示的驾驶系统来执行，参见图4，该方法流程可以包括如下几个步骤：

在步骤401中，在车辆行驶过程中监测车辆的行驶环境。

其中，该监测车辆的行驶环境的过程可以由图2所示驾驶系统中的环境感知模块执行，其中，环境感知模块可以包括摄像机、雷达等，本发明实施例对此不做限定。车辆的行驶环境可以包括车辆所在行驶道路的路况等，本发明实施例对此不做限定。

在步骤402中，预测车辆的行驶环境中是否会发生由障碍物引发的突发事件。

其中，预测车辆的行驶环境中是否会发生由障碍物引发的突发事件的过程可以由图2所示驾驶系统中的环境感知模块执行，在本发明实施例中，环境感知模块在监测车辆的行驶环境的过程中，就可以根据车辆的行驶环境预测车辆的行驶环境中是否会发生由障碍物引发的突发事件。

示例地，请参考图5，其示出的是图4所示实施例提供的一种预测车辆的行驶环境中是否会发生由障碍物引发的突发事件的方法流程图。参见图5，在本发明实施例中，环境感知模块预测车辆的行驶环境中是否会发生由障碍物引发的突发事件可以包括如下几个步骤：

在子步骤4021中，判断车辆的行驶环境中是否存在障碍物。

环境感知模块可以根据摄像机、雷达等的监测数据判断车辆的行驶环境中是否存在障碍物，其中，在本发明实施例中，阻碍车辆前行的都可以称为障碍物。示例地，如图1所示，在车辆C2正常行驶时，车辆C3的插车阻碍了车辆C2前行，因此，车辆C3对于车辆C2来说属于障碍物，在车辆C2按照路径L3行驶时，车辆C1会阻碍车辆C2前行，因此，车辆C1对于车辆C2来说属于障碍物。

在本发明实施例中，示例地，车辆C2上的驾驶系统的环境感知模块可以根据摄像机捕获的图像中是否存在车辆C3或者车辆C1，来判断车辆C2的行驶环境中是否存在障碍物。

在子步骤4022中，若车辆的行驶环境中存在障碍物，则判断障碍物是否处于预设范围内。

若在步骤4021中，环境感知模块确定车辆的行驶环境中存在障碍物，则环境感知模块判断障碍物是否处于预设范围，其中，预设范围可以根据实际情况设置，本发明实施例对此不做限定。示例地，预设范围可以为车辆所在车道上的车辆周围5米的范围内，即，预设范围可以为以车辆为圆心，5米为半径的圆确定的范围，在本发明实施例中，优选地，预设范围可以为以车辆为圆心，5米为半径的圆位于车辆前方的半圆确定的范围，本发明实施例对此不做限定。

示例地，如图6所示，假设车辆C3是车辆C2行驶环境中的障碍物，预设范围可以为图6中的虚线阴影确定的范围，由图6可知，车辆C3处于预设范围内。

在子步骤4023中，若障碍物处于预设范围内，则确定车辆的行驶环境中会发生由障碍物引发的突发事件。

若在步骤4022中，环境感知模块确定障碍物处于预设范围内，则环境感知模块确定车辆的行驶环境中会发生由障碍物引发的突发事件。示例地，以图6为例，由于车辆C3(障碍物)处于预设范围内，因此，环境感知模块确定车辆C2的行驶环境中会发生由障碍物引发的突发事件。

在步骤403中，若车辆的行驶环境中会发生由障碍物引发的突发事件，则获取障碍物的当前位置。

若在步骤402中，环境感知模块确定车辆的行驶环境中会发生由障碍物引发的突发事件，则环境感知模块获取障碍物的位置。

其中，障碍物的当前位置可以包括：障碍物距离车辆的距离，障碍物所在的方位等，本发明实施例对此不做限定。

示例地，环境感知模块获取车辆C3(障碍物)的当前位置，该位置可以为X(t)。需要说明的是，该位置也可以理解为车辆C2当前的环境状态量，本发明实施例对此不做限定。

在步骤404中，根据障碍物的当前位置，采用自适应学习算法确定目标决策动作。

其中，根据障碍物的当前位置，采用自适应学习算法确定目标决策动作可以由图2所示驾驶系统中的避撞控制模块执行。环境感知模块可以向避撞控制模块发送障碍物的当前位置，使得避撞控制模块根据障碍物的当前位置，采用自适应学习算法确定目标决策动作。

在本发明实施例中，避撞控制模块可以按照下图7或下图9所示的任意一种方法根据障碍物的当前位置，采用自适应学习算法确定目标决策动作。

示例地，请参考图7，其示出的是图4所示实施例提供的一种根据障碍物的位置，采用自适应学习算法确定目标决策动作的方法流程图，参见图7，该方法流程可以包括如下几个步骤：

在子步骤4041a中，从经验存储库中确定与障碍物的当前位置对应的目标可执行动作。

其中，经验存储库中记录了预先通过自适应学习算法确定的障碍物的位置与可执行动作的对应关系，每个障碍物的位置对应至少一个可执行动作，每个可执行动作包括决策动作和与决策动作一一对应的增强信号，增强信号用于指示与增强信号一一对应的决策动作在执行时的立即回报。

假设障碍物的位置用X表示，决策动作用u表示，增强信号用r表示，示例地，经验存储库中记录的障碍物的位置与可执行动作的对应关系可以如下表1所示，其中，决策动作可以为踩油门的力度值，踩刹车的力度值，方向盘的旋转角度等，本发明实施例对此不做限定。

表1

参见表1所示，该表1中记录了n个障碍物的位置，每个障碍物的位置对应多个可执行动作，且每个可执行动作包括决策动作和与该决策动作一一对应的增强信号。示例地，障碍物的位置X(t)对应的可执行动作中包括决策动作u1(t)、u2(t)和u3(t)共3个决策动作，决策动作u1(t)对应的增强信号为r1(t)，决策动作u2(t)对应的增强信号为r2(t)，决策动作u3(t)对应的增强信号为r3(t)，障碍物的位置X(t+1)对应的可执行动作可以参考障碍物的位置X(t)对应的可执行动作来理解，本发明实施例在此不再赘述。

在本发明实施例中，车辆C3(障碍物)的当前位置为X(t)，则避撞控制模块可以从表1中确定X(t)对应的目标可执行动作，该X(t)对应的目标可执行动作中包括决策动作u1(t)、u2(t)和u3(t)共3个决策动作。

在子步骤4042a中，计算目标可执行动作中的每个决策动作的未来无穷回报累加和。

避撞控制模块确定X(t)对应的目标可执行动作后，可以根据每个决策动作的增强信号计算目标可执行动作中的每个决策动作的未来无穷回报累加和。其中，避撞控制模块可以根据未来无穷回报累加和计算公式计算目标可执行动作中的每个决策动作的未来无穷回报累加和。

其中，未来无穷回报累加和计算公式为：

R(t)＝r(t+1)+αr(t+2)+α²r(t+3)+…

其中，R(t)表示未来无穷回报累加和，r(t+1)表示t+1时刻的增强信号，r(t+2)表示t+2时刻的增强信号，r(t+3)表示t+3时刻的增强信号，α表示折算因子，参见上述公式可知，对未来回报累加和影响最大的是t+1时刻的增强信号，t+2时刻、t+3时刻的增强信号对未来回报累加和影响以指数形式衰减。

示例地，避撞控制模块分别计算决策动作u1(t)、u2(t)和u3(t)的未来无穷回报累加和。

需要说明的是，当障碍物的当前位置为X(t)时，避撞控制模块执行X(t)对应的任意一个决策动作都会改变障碍物的当前位置，使得障碍物的当前位置变为X(t+1)，同时避撞控制模块会得到X(t+1)对应的一个增强信号，当障碍物的当前位置为X(t+1)时，避撞控制模块执行X(t+1)对应的任意一个决策动作都会改变障碍物的当前位置，使得障碍物的当前位置变为X(t+2)，同时避撞控制模块会得到X(t+2)对应的一个增强信号，依次类推。示例地，假设避撞控制模块执行X(t)对应的决策动作u1(t)，使得障碍物的当前位置变为X(t+1)，避撞控制模块得到X(t+1)对应的一个增强信号为r1(t+1)，避撞控制模块执行X(t+1)对应的决策动作为u1(t+1)，使得障碍物的当前位置变为X(t+2)，避撞控制模块得到X(t+2)对应的一个增强信号为r1(t+2)，依次类推，则可以根据上述未来无穷回报累加和计算公式得到决策动作u1(t)对应的未来无穷回报累加和为R1(t)＝r1(t+1)+αr1(t+2)+α²r1(t+3)+…

在子步骤4043a中，确定未来无穷回报累加和最大的第一决策动作。

避撞控制模块计算得到目标可执行动作中的每个决策动作的未来无穷回报累加和后，可以对目标可执行动作中的所有决策动作的未来无穷回报累加和进行比较，确定出最大的未来无穷回报累加和，进而确定出未来无穷回报累加和最大的决策动作，该未来无穷回报累加和最大的决策动作可以为第一决策动作。

示例地，假设避撞控制模块计算决策动作u1(t)、u2(t)和u3(t)的未来无穷回报累加和后，确定出决策动作u1(t)的未来无穷回报累加和为R1(t)，决策动作u2(t)的未来无穷回报累加和为R2(t)，决策动作u3(t)的未来无穷回报累加和为R3(t)，避撞控制模块对R1(t)、R2(t)和R3(t)进行比较得到R1(t)＞R2(t)＞R3(t)，也即，决策动作u1(t)的未来无穷回报累加和最大，因此，避撞控制模块将决策动作u1(t)作为第一决策动作。

需要说明的是，在本发明实施例中，避撞控制模块可以包括动作单元和评价单元，动作单元的内部具体可以是一个动作网络，评价单元的内部具体可以是一个评价网络，动作网络和评价网络均为采用非线性多层感知机结构的正向输送网络，且动作网络和评价网络中均含有一个隐藏层。在本发明实施例中，将障碍物的当前位置输入到动作单元后，动作单元会根据障碍物的当前位置确定出第一决策动作。也即，上述子步骤4041a至子步骤4043a由动作单元执行。其中，子步骤4041a至子步骤4043a即是动作单元根据障碍物的当前位置确定第一决策动作的过程。

在子步骤4044a中，根据障碍物的当前位置和第一决策动作，确定第一决策动作在执行时需要付出的第一代价。

在本发明实施例中，将障碍物的当前位置和子步骤4043a中确定的第一决策动作输入到评价单元后，评价单元就会计算出在障碍物的位置为当前位置时，执行第一决策动作需要付出的第一代价。假设该第一代价为J1(t)。

其中，需要说明的是，评价单元的内部可以具体是一个评价网络，评价网络的具体结构以及相关知识可以参考相关技术，本发明实施例在此不再赘述。

在子步骤4045a中，根据第一代价和最大的未来回报累加和确定评价误差。

在确定出第一决策动作在执行时需要付出的第一代价以及最大的未来回报累加和后，避撞控制模块可以根据第一代价和最大的未来回报累加和确定评价误差。其中，由上述可知，最大的未来回报累加和即是第一决策动作对应的未来回报累加和，也即，最大的未来回报累加和可以为R1(t)。因此，避撞控制模块根据第一代价为J1(t)和未来回报累加和可以为R1(t)确定评价误差。示例地，评价误差可以为第一代价和最大的未来回报累加和之差，也即，评价误差为J1(t)-R1(t)。

需要说明的是，实际应用中，由于t时刻得到的回报通常是t-1时刻执行的决策动作对应的回报，因此，实际应用中，评价误差为J1(t-1)-R1(t)。

在子步骤4046a中，根据第一代价和预设的效用期望确定动作误差。

其中，预设的效用期望是由技术人员根据实际需要设置的，本发明实施例对此不做限定。预设的效用期望可以为Uc(t)。

在确定第一代价后，避撞控制模块可以根据第一代价和预设的效用期望确定动作误差。示例地，避撞控制模块根据第一代价J1(t)和预设的效用期望Uc(t)确定动作误差。其中，动作误差可以为第一代价和预设的效用期望之差，也即，动作误差为J1(t)-Uc(t)。

在子步骤4047a中，根据评价误差和动作误差对第一决策动作进行调节得到第二决策动作，第二决策动作在执行时需要付出的代价为第二代价，第二代价小于第一代价。

在得到评价误差和动作误差后，避撞控制模块可以根据评价误差和动作误差对第一决策动作进行调节得到第二决策动作。具体地，避撞控制模块将评价误差输入到评价单元，根据评价误差采用梯度下降法对评价单元的评价网络的权值进行调节，避撞控制模块将动作误差输入到动作单元，根据动作误差采用梯度下降法对动作单元的动作网络的权值进行调节，最终实现对第一决策动作的调节，得到执行时需要付出的代价小于第一代价的第二决策动作。假设第二决策动作为u1(t+1)。

在子步骤4048a中，将第二决策动作对应的障碍物的位置确定为障碍物的当前位置。

得到第二决策动作后，避撞控制模块可以将第二决策动作对应的障碍物的位置确定为障碍物的当前位置，示例地，参见表1可知，第二决策动作为u1(t+1)对应的障碍物的位置为X(t+1)，因此，避撞控制模块将障碍物的位置X(t+1)作为障碍物的当前位置。

在子步骤4049a中，重复执行上述步骤，直至得到执行时需要付出的代价小于预设代价的决策动作。

需要说明的是，上述步骤4041a至步骤4048a属于决策动作的自适应动态调节过程，因此，可以通过反复执行上述步骤4041a至步骤4048a，得到执行时需要付出的代价小于预设代价的决策动作，其中，预设代价由技术人员根据实际需要设置的，本发明实施例对此不做限定。

还需要说明的是，实际应用中，可以执行预设数值次上述步骤4041a至步骤4048a，得到预设数值个决策动作，进而从预设数值个决策动作中确定出执行时付出的代价最小的决策动作，本发明实施例对此不做限定。

在子步骤4050a中，将执行时需要付出的代价小于预设代价的决策动作作为目标决策动作。

在确定执行时需要付出的代价小于预设代价的决策动作后，避撞控制模块可以将该执行时需要付出的代价小于预设代价的决策动作作为目标决策动作。

需要说明的是，在子步骤4041a之前，驾驶系统可以先通过自适应学习算法得到表1所示的障碍物的位置与可执行动作的对应关系。其中，可以在计算机(比如，在计算机的Matlab软件)里进行模拟实验，创建车辆行驶环境模型，并设计多种突发事件，使车辆的驾驶系统能够自主学习避撞策略。学习后的驾驶系统可以储存学习经验(如表1所示的对应关系)，之后将驾驶系统安装到车辆上使用。

示例地，请参考图8，其示出的是图4所示实施例提供的一种通过自适应学习算法确定障碍物的位置与可执行动作的对应关系的示意图。参见图8，环境感知模块可以获取障碍物的当前位置X(t)，并将障碍物的当前位置X(t)发送至避撞控制模块中的动作单元，动作单元可以根据障碍物的当前位置X(t)做出决策动作u(t)，该决策动作u(t)会改变车辆的位置，进而使得障碍物的位置变为X(t+1)，同时，环境感知模块会反馈给避撞控制模块的评价单元一个增强信号r(t)，该增强信号r(t)表示执行决策动作u(t)后的立即回报，环境感知模块可以将障碍物的当前位置X(t)发送至避撞控制模块中的评价单元，同时，动作单元也将根据障碍物的当前位置X(t)做出决策动作u(t)发送至评价单元，评价单元根据障碍物的当前位置X(t)和决策动作u(t)计算得到执行决策动作u(t)需要付出的代价J(t)，避撞控制模块根据t-1时刻执行的决策动作需要付出的代价J(t-1)和决策动作u(t)对应的未来回报累加和R(t)，确定出评价误差，根据预设的效用期望Uc(t)和执行决策动作u(t)需要付出的代价J(t)确定出动作误差，进而根据评价误差调节评价单元的评价网络的权值，根据动作误差调节动作单元的动作网络的权值得到符合条件的决策动作以及对应的增强信号。通常，增强信号可以以数值方式存在，不同的数值用以评价做出的决策动作的“好”、“坏”，且增强信号的数值越大表明对应的决策动作越好，增强信号的数值越小表明对应的决策动作越差。同样，对于新的位置X(t+1)，避撞控制模块会做出新的决策动作u(t+1)，并从得到一个增强信号r(t+1)。依次类推下去，即避撞控制模块在每个时刻都会与环境感知模块交互，通过环境感知模块反馈的增强信号的“好”、“坏”，在线调节决策策略，以便在后续决策动作中获得最大的回报，使得整个决策过程趋于最优，最终，可以根据增强信号确定决策动作的好坏，得到表1所示的对应关系。

再示例地，请参考图9，其示出的是图4所示实施例提供的另一种根据障碍物的位置，采用机器学习算法确定目标决策动作的方法流程图，参见图9，该方法流程可以包括如下几个步骤：

在子步骤4041b中，获取驾驶员的决策动作。

在本发明实施例中，在车辆的行驶环境中会发生由障碍物引发的突发事件时，驾驶员可以人为做出决策动作，比如，驾驶员人为操作方向盘，油门，刹车等。避撞控制模块可以获取驾驶员的决策动作，示例地，避撞控制模块可以通过读取油门，刹车，方向盘的操作数据，来获取驾驶员的决策动作。

在子步骤4042b中，获取执行驾驶员的决策动作之后障碍物的第一位置。

驾驶员做出的决策动作会改变车辆的当前位置，进而导致障碍物的当前位置发生改变，示例地，执行驾驶员的决策动作之后障碍物的当前位置可以变为第一位置，因此，避撞控制模块可以获取执行驾驶员的决策动作之后障碍物的第一位置，假设障碍物的第一位置为X(t+1)，则避撞控制模块可以获取障碍物的第一位置X(t+1)。

示例地，请参考图10，其示出的是图4所示实施例提供的避撞控制模块获取执行驾驶员的决策动作之后障碍物的第一位置的方法流程图，参见图10，在本发明实施例中，避撞控制模块获取执行驾驶员的决策动作之后障碍物的第一位置的可以包括如下几个步骤：

在子步骤4042b1中，采用汽车动力学方程计算执行驾驶员的决策动作后车辆的行驶轨迹。

避撞控制模块可以根据执行驾驶员的决策动作之后障碍物的第一位置，采用汽车动力学方程计算执行驾驶员的决策动作后车辆的行驶轨迹。其中，采用汽车动力学方法计算车辆的行驶轨迹的过程可以参考相关技术，本发明实施例对此不再赘述。

在子步骤4042b2中，判断车辆的行驶轨迹是否为符合预设条件的行驶轨迹。

具体地，避撞控制模块可以根据车辆的行驶轨迹判断车辆是否会与车辆的行驶环境中的障碍物会发生碰撞。示例地，避撞控制模块可以判断车辆的行驶轨迹与车辆的行驶环境中的障碍物的行驶轨迹是否存在交点，若车辆的行驶轨迹与车辆的行驶环境中的障碍物的行驶轨迹存在交点，则避撞控制模块确定车辆的行驶轨迹为符合预设条件的行驶轨迹。

在子步骤4042b3中，若车辆的行驶轨迹为符合预设条件的行驶轨迹，则获取执行驾驶员的决策动作之后障碍物的第一位置。

若在步骤4042b2中，避撞控制模块确定车辆的行驶轨迹为符合预设条件的行驶轨迹，说明驾驶员的决策动作存在误差，因此，可以由环境感知模块获取执行驾驶员的决策动作之后障碍物的第一位置，进而由避撞控制模块根据执行驾驶员的决策动作之后障碍物的第一位置对驾驶员的决策动作进行修正。

在子步骤4043b中，从经验存储库中确定与障碍物的第一位置对应的目标可执行动作。

在子步骤4044b中，计算目标可执行动作中的每个决策动作的未来无穷回报累加和。

在子步骤4045b中，确定未来无穷回报累加和最大的第一决策动作。

在子步骤4046b中，根据障碍物的当前位置和第一决策动作，确定第一决策动作在执行时需要付出的第一代价。

在子步骤4047b中，根据第一代价和最大的未来回报累加和确定评价误差。

在子步骤4048b中，根据第一代价和预设的效用期望确定动作误差。

在子步骤4049b中，根据评价误差和动作误差对第一决策动作进行调节得到第二决策动作，第二决策动作在执行时需要付出的代价为第二代价，第二代价小于第一代价。

在子步骤4050b中，将第二决策动作对应的障碍物的位置确定为障碍物的第一位置。

在子步骤4051b中，重复执行子步骤4043b至子步骤4050b，直至得到执行时需要付出的代价小于预设代价的决策动作。

在子步骤4052b中，将执行时需要付出的代价小于预设代价的决策动作作为目标决策动作。

上述步骤4043b至步骤4052b的实现过程与图7所示实施例中的步骤4041a至步骤4050a相同或者类似，其实现过程可以参考图7所示实施例中的步骤4041a至步骤4050a，本发明实施例在此不再赘述。

在步骤405中，根据目标决策动作控制车辆行驶。

避撞控制模块确定目标决策动作后，可以根据目标决策动作控制车辆行驶。

需要说明的是，本发明实施例提供的驾驶方法步骤的先后顺序可以进行适当调整，步骤也可以根据情况进行相应增减，示例地，若在子步骤4042b2中，避撞控制模块确定车辆的行驶轨迹不是符合预设条件的行驶轨迹，说明驾驶员的决策动作不存在误差，驾驶系统无需修正驾驶员的决策动作也可以实现避撞的效果，此时，步骤4043b至步骤4052b也可以不执行。任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化的方法，都应涵盖在本发明的保护范围之内，因此不再赘述。

近一个多世纪来，汽车等车辆的出现取代了传统交通运输方式，使得人们的生活更为便捷。但近些年来，车辆的安全性问题受到了越来越多的关注。据调查显示，2011年世界车辆保有量前六的国家交通事故死亡人数分别为：美国：32310人，中国：62000人，日本：4612人，德国：4009人，意大利：3800人，俄罗斯：27900人。2012年中国共发生交通事故204196起，死亡59997人，受伤224327人，直接财产损失117489.6万元。从数据中可以看出，世界车辆保有量前六的国家一年交通事故死亡人数在10万人以上；我国交通事故死亡人数位居世界第一，达一年6万人左右；2012年我国交通事故多达20多万起，除交通事故死亡外，还有20多万车祸受伤人员，给人们人生安全带来很大的伤害；车祸给国家带来的经济损失一年多达10多亿元。因此，交通事故给人身安全及国家经济财产带来了巨大的损失。本发明实施例提供的驾驶方法，能够避免车辆与障碍物发生碰撞，可以减少交通事故的发生，进而减少交通事故带来的经济损失。

需要说明的是：上述实施例提供的驾驶系统在驾驶车辆时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的驾驶方法与系统实施例属于同一构思，其实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种驾驶系统，其特征在于，所述驾驶系统包括：环境感知模块和避撞控制模块，

所述避撞控制模块用于根据所述障碍物的当前位置，采用自适应学习算法确定目标决策动作；根据所述目标决策动作控制所述车辆行驶；

所述避撞控制模块用于获取驾驶员的决策动作；

所述避撞控制模块用于从经验存储库中确定与所述障碍物的第一位置对应的目标可执行动作，所述经验存储库中记录了预先通过自适应学习算法确定的障碍物的位置与可执行动作的对应关系，每个障碍物的位置对应至少一个可执行动作，每个可执行动作包括决策动作和与所述决策动作一一对应的增强信号，所述增强信号用于指示与所述增强信号一一对应的决策动作在执行时的立即回报；

确定所述未来无穷回报累加和最大的第一决策动作；

根据所述第一代价和最大的未来回报累加和确定评价误差；

根据所述第一代价和预设的效用期望确定动作误差；

2.根据权利要求1所述的驾驶系统，其特征在于，

所述环境感知模块用于：

判断所述车辆的行驶轨迹是否为符合预设条件的行驶轨迹；

3.根据权利要求1或2所述的驾驶系统，其特征在于，

所述环境感知模块用于：

判断所述车辆的行驶环境中是否存在障碍物；

4.一种驾驶方法，其特征在于，所述方法包括：

在车辆行驶过程中监测所述车辆的行驶环境；

根据所述目标决策动作控制所述车辆行驶；

所述根据所述障碍物的当前位置，采用自适应学习算法确定目标决策动作，包括：

获取驾驶员的决策动作；

从经验存储库中确定与所述障碍物的第一位置对应的目标可执行动作，所述经验存储库中记录了预先通过自适应学习算法确定的障碍物的位置与可执行动作的对应关系，每个障碍物的位置对应至少一个可执行动作，每个可执行动作包括决策动作和与所述决策动作一一对应的增强信号，所述增强信号用于指示与所述增强信号一一对应的决策动作在执行时的立即回报；

确定所述未来无穷回报累加和最大的第一决策动作；

根据所述第一代价和最大的未来回报累加和确定评价误差；

根据所述第一代价和预设的效用期望确定动作误差；

5.根据权利要求4所述的方法，其特征在于，所述获取执行所述驾驶员的决策动作之后所述障碍物的第一位置，包括：

判断所述车辆的行驶轨迹是否为符合预设条件的行驶轨迹；

6.根据权利要求4或5所述的方法，其特征在于，所述预测所述车辆的行驶环境中是否会发生由障碍物引发的突发事件，包括：

判断所述车辆的行驶环境中是否存在障碍物；