CN105109485B - 一种驾驶方法及系统 - Google Patents

一种驾驶方法及系统 Download PDF

Info

Publication number
CN105109485B
CN105109485B CN201510532369.1A CN201510532369A CN105109485B CN 105109485 B CN105109485 B CN 105109485B CN 201510532369 A CN201510532369 A CN 201510532369A CN 105109485 B CN105109485 B CN 105109485B
Authority
CN
China
Prior art keywords
decision
barrier
action
vehicle
making
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510532369.1A
Other languages
English (en)
Other versions
CN105109485A (zh
Inventor
方啸
高红博
张世兵
段山保
尹飞飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chery Automobile Co Ltd
Original Assignee
Chery Automobile Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chery Automobile Co Ltd filed Critical Chery Automobile Co Ltd
Priority to CN201510532369.1A priority Critical patent/CN105109485B/zh
Publication of CN105109485A publication Critical patent/CN105109485A/zh
Application granted granted Critical
Publication of CN105109485B publication Critical patent/CN105109485B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units, or advanced driver assistance systems for ensuring comfort, stability and safety or drive control systems for propelling or retarding the vehicle
    • B60W30/08Active safety systems predicting or avoiding probable or impending collision or attempting to minimise its consequences
    • B60W30/095Predicting travel path or likelihood of collision
    • B60W30/0956Predicting travel path or likelihood of collision the prediction being responsive to traffic or environmental parameters
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0002Automatic control, details of type of controller or control system architecture
    • B60W2050/0014Adaptive controllers
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects

Abstract

本发明公开一种驾驶方法及系统,属于车辆安全技术领域。该驾驶系统包括:环境感知模块和避撞控制模块,环境感知模块用于在车辆行驶过程中监测车辆的行驶环境;预测车辆的行驶环境中是否会发生由障碍物引发的突发事件;在车辆的行驶环境中会发生由障碍物引发的突发事件时,获取障碍物的当前位置;避撞控制模块用于根据障碍物的当前位置,采用自适应学习算法确定目标决策动作;根据目标决策动作控制车辆行驶,本发明解决了相关技术中的驾驶系统具有局限性,稳定性较低,灵活性较差的问题,达到了扩大驾驶系统的应用范围,提高驾驶系统的稳定性和灵活性的有益效果。本发明用于车辆的避撞驾驶。

Description

一种驾驶方法及系统
技术领域
[0001] 本发明涉及车辆安全技术领域,特别涉及一种驾驶方法及系统。
背景技术
[0002] 随着电子技术的快速发展,汽车等车辆已经成为生活中必不可少的交通工具。而 伴随着车辆的普及,道路上的车辆越来越密集,行车安全也越来越重要。
[0003] 通常,驾驶员在驾驶车辆行驶的过程中,可能会发生一些诸如插车、障碍物阻挡等 突发事件,此时,驾驶员可以手动操作方向盘,油门,刹车等以避免车辆与障碍物发生碰撞, 但是由于在发生突发事件时,驾驶员通常处于紧张状态,驾驶员对方向盘,油门、刹车等操 作的准确性较低。为此,相关技术提供了一种驾驶系统,该驾驶系统包括:环境感知模块和 避撞控制模块,避撞控制模块中存储有驾驶员根据驾驶车辆过程中的避撞经验设置的环境 状态量与决策动作的对应关系,其中,环境状态量可以为障碍物的位置,环境感知模块可以 在车辆的行驶环境中存在由障碍物引发的突发事件时获取车辆当前的环境状态量,避撞控 制模块可以根据车辆当前的环境状态量从环境状态量与决策动作的对应关系中确定与车 辆当前的环境状态量对应的目标决策动作,然后根据该目标决策动作控制车辆行驶,从而 避免车辆与障碍物发生碰撞。
[0004] 在实现本发明的过程中,发明人发现相关技术至少存在以下问题:
[0005] 相关技术中的驾驶系统是以驾驶员的避撞经验为依据控制车辆行驶的,受驾驶员 经验的限制,驾驶系统具有一定的局限性,且由于是以驾驶员的避撞经验为依据控制车辆 行驶的,因此,驾驶系统的稳定性较低,灵活性较差。
发明内容
[0006] 为了解决相关技术中驾驶系统具有局限性,稳定性较低,灵活性较差的问题,本发 明提供一种驾驶方法及系统。所述技术方案如下:
[0007] 第一方面,提供一种驾驶系统,所述驾驶系统包括:环境感知模块和避撞控制模 块,
[0008] 所述环境感知模块用于在车辆行驶过程中监测所述车辆的行驶环境;预测所述车 辆的行驶环境中是否会发生由障碍物引发的突发事件;在所述车辆的行驶环境中会发生由 障碍物引发的突发事件时,获取所述障碍物的当前位置;
[0009] 所述避撞控制模块用于根据所述障碍物的当前位置,采用自适应学习算法确定目 标决策动作;根据所述目标决策动作控制所述车辆行驶。
[0010] 可选地,所述避撞控制模块用于:
[0011] 从经验存储库中确定与所述障碍物的当前位置对应的目标可执行动作,所述经验 存储库中记录了预先通过自适应学习算法确定的障碍物的位置与可执行动作的对应关系, 每个障碍物的位置对应至少一个可执行动作,每个可执行动作包括决策动作和与所述决策 动作一一对应的增强信号,所述增强信号用于指示与所述增强信号一一对应的决策动作在 执行时的立即回报;
[0012] 计算所述目标可执行动作中的每个决策动作的未来无穷回报累加和;
[0013] 确定所述未来无穷回报累加和最大的第一决策动作;
[0014] 根据所述障碍物的当前位置和所述第一决策动作,确定所述第一决策动作在执行 时需要付出的第一代价;
[0015] 根据所述第一代价和最大的未来回报累加和确定评价误差;
[0016] 根据所述第一代价和预设的效用期望确定动作误差;
[0017] 根据所述评价误差和所述动作误差对所述第一决策动作进行调节得到第二决策 动作,所述第二决策动作在执行时需要付出的代价为第二代价,所述第二代价小于所述第 一代价;
[0018] 将所述第二决策动作对应的障碍物的位置确定为所述障碍物的当前位置;
[0019] 重复执行上述步骤,直至得到执行时需要付出的代价小于预设代价的决策动作;
[0020] 将所述执行时需要付出的代价小于预设代价的决策动作作为所述目标决策动作。
[0021] 可选地,所述避撞控制模块用于获取驾驶员的决策动作;
[0022] 所述环境感知模块用于获取执行所述驾驶员的决策动作之后所述障碍物的第一 位置;
[0023] 所述避撞控制模块用于从所述经验存储库中确定与所述障碍物的第一位置对应 的目标可执行动作,所述经验存储库中记录了预先通过自适应学习算法确定的障碍物的位 置与可执行动作的对应关系,每个障碍物的位置对应至少一个可执行动作,每个可执行动 作包括决策动作和与所述决策动作一一对应的增强信号,所述增强信号用于指示与所述增 强信号 对应的决策动作在执行时的立即回报;
[0024] 计算所述目标可执行动作中的每个决策动作的未来无穷回报累加和;
[0025] 确定所述未来无穷回报累加和最大的第一决策动作;
[0026] 根据所述障碍物的当前位置和所述第一决策动作,确定所述第一决策动作在执行 时需要付出的第一代价;
[0027] 根据所述第一代价和最大的未来回报累加和确定评价误差;
[0028] 根据所述第一代价和预设的效用期望确定动作误差;
[0029] 根据所述评价误差和所述动作误差对所述第一决策动作进行调节得到第二决策 动作,所述第二决策动作在执行时需要付出的代价为第二代价,所述第二代价小于所述第 一代价;
[0030] 将所述第二决策动作对应的障碍物的位置确定为所述障碍物的第一位置;
[0031] 重复执行所述从所述经验存储库中确定与所述障碍物的第一位置对应的目标可 执行动作至所述将所述第二决策动作对应的障碍物的位置确定为所述障碍物的第一位置 的步骤,直至得到执行时需要付出的代价小于预设代价的决策动作;
[0032] 将所述执行时需要付出的代价小于预设代价的决策动作作为所述目标决策动作。
[0033] 可选地,所述环境感知模块用于:
[0034] 采用汽车动力学方程计算执行所述驾驶员的决策动作后所述车辆的行驶轨迹;
[0035] 判断所述车辆的行驶轨迹是否为符合预设条件的行驶轨迹;
[0036] 在所述车辆的行驶轨迹为符合预设条件的行驶轨迹时,触发所述环境感知模块获 取执行所述驾驶员的决策动作之后所述障碍物的第一位置;
[0037] 其中,所述车辆在按照所述符合预设条件的行驶轨迹行驶时,所述车辆与所述车 辆的行驶环境中的障碍物会发生碰撞。
[0038] 可选地,所述环境感知模块用于:
[0039] 判断所述车辆的行驶环境中是否存在障碍物;
[0040] 在所述车辆的行驶环境中存在障碍物时,判断所述障碍物是否处于预设范围内;
[0041] 在所述障碍物处于所述预设范围内时,确定所述车辆的行驶环境中会发生由所述 障碍物引发的突发事件。
[0042] 第二方面,提供一种驾驶方法,所述方法包括:
[0043] 在车辆行驶过程中监测所述车辆的行驶环境;
[0044] 预测所述车辆的行驶环境中是否会发生由障碍物引发的突发事件;
[0045] 若所述车辆的行驶环境中会发生由障碍物引发的突发事件,则获取所述障碍物的 当前位置;
[0046] 根据所述障碍物的当前位置,采用自适应学习算法确定目标决策动作;
[0047] 根据所述目标决策动作控制所述车辆行驶。
[0048] 可选地,所述根据所述障碍物的当前位置,采用自适应学习算法确定目标决策动 作,包括:
[0049] 从经验存储库中确定与所述障碍物的当前位置对应的目标可执行动作,所述经验 存储库中记录了预先通过自适应学习算法确定的障碍物的位置与可执行动作的对应关系, 每个障碍物的位置对应至少一个可执行动作,每个可执行动作包括决策动作和与所述决策 动作一一对应的增强信号,所述增强信号用于指示与所述增强信号一一对应的决策动作在 执行时的立即回报;
[0050] 计算所述目标可执行动作中的每个决策动作的未来无穷回报累加和;
[0051] 确定所述未来无穷回报累加和最大的第一决策动作;
[0052] 根据所述障碍物的当前位置和所述第一决策动作,确定所述第一决策动作在执行 时需要付出的第一代价;
[0053] 根据所述第一代价和最大的未来回报累加和确定评价误差;
[0054] 根据所述第一代价和预设的效用期望确定动作误差;
[0055] 根据所述评价误差和所述动作误差对所述第一决策动作进行调节得到第二决策 动作,所述第二决策动作在执行时需要付出的代价为第二代价,所述第二代价小于所述第 一代价;
[0056] 将所述第二决策动作对应的障碍物的位置确定为所述障碍物的当前位置;
[0057] 重复执行上述步骤,直至得到执行时需要付出的代价小于预设代价的决策动作;
[0058] 将所述执行时需要付出的代价小于预设代价的决策动作作为所述目标决策动作。
[0059] 可选地,所述根据所述障碍物的当前位置,采用自适应学习算法确定目标决策动 作,包括:
[0060] 获取驾驶员的决策动作;
[0061] 获取执行所述驾驶员的决策动作之后所述障碍物的第一位置;
[0062] 从所述经验存储库中确定与所述障碍物的第一位置对应的目标可执行动作,所述 经验存储库中记录了预先通过自适应学习算法确定的障碍物的位置与可执行动作的对应 关系,每个障碍物的位置对应至少一个可执行动作,每个可执行动作包括决策动作和与所 述决策动作一一对应的增强信号,所述增强信号用于指示与所述增强信号一一对应的决策 动作在执行时的立即回报;
[0063] 计算所述目标可执行动作中的每个决策动作的未来无穷回报累加和;
[0064] 确定所述未来无穷回报累加和最大的第一决策动作;
[0065] 根据所述障碍物的当前位置和所述第一决策动作,确定所述第一决策动作在执行 时需要付出的第一代价;
[0066] 根据所述第一代价和最大的未来回报累加和确定评价误差;
[0067] 根据所述第一代价和预设的效用期望确定动作误差;
[0068] 根据所述评价误差和所述动作误差对所述第一决策动作进行调节得到第二决策 动作,所述第二决策动作在执行时需要付出的代价为第二代价,所述第二代价小于所述第 一代价;
[0069] 将所述第二决策动作对应的障碍物的位置确定为所述障碍物的第一位置;
[0070] 重复执行所述从所述经验存储库中确定与所述障碍物的第一位置对应的目标可 执行动作至所述将所述第二决策动作对应的障碍物的位置确定为所述障碍物的第一位置 的步骤,直至得到执行时需要付出的代价小于预设代价的决策动作;
[0071] 将所述执行时需要付出的代价小于预设代价的决策动作作为所述目标决策动作。
[0072] 可选地,所述获取执行所述驾驶员的决策动作之后所述障碍物的第一位置,包括:
[0073] 采用汽车动力学方程计算执行所述驾驶员的决策动作后所述车辆的行驶轨迹;
[0074] 判断所述车辆的行驶轨迹是否为符合预设条件的行驶轨迹;
[0075] 若所述车辆的行驶轨迹为符合预设条件的行驶轨迹,则获取执行所述驾驶员的决 策动作之后所述障碍物的第一位置;
[0076] 其中,所述车辆在按照所述符合预设条件的行驶轨迹行驶时,所述车辆与所述车 辆的行驶环境中的障碍物会发生碰撞。
[0077] 可选地,所述预测所述车辆的行驶环境中是否会发生由障碍物引发的突发事件, 包括:
[0078] 判断所述车辆的行驶环境中是否存在障碍物;
[0079] 若所述车辆的行驶环境中存在障碍物,则判断所述障碍物是否处于预设范围内;
[0080] 若所述障碍物处于所述预设范围内,则确定所述车辆的行驶环境中会发生由所述 障碍物引发的突发事件。
[0081] 本发明提供的技术方案带来的有益效果是:
[0082] 本发明实施例提供的驾驶方法及系统,驾驶系统包括:环境感知模块和避撞控制 模块,环境感知模块用于在车辆行驶过程中监测车辆的行驶环境;预测车辆的行驶环境中 是否会发生由障碍物引发的突发事件;在车辆的行驶环境中会发生由障碍物引发的突发事 件时,获取障碍物的当前位置;避撞控制模块用于根据障碍物的当前位置,采用自适应学习 算法确定目标决策动作;根据目标决策动作控制车辆行驶。由于本发明采用自适应学习算 法确定目标决策动作,目标决策动作的确定不受驾驶员的经验的限制,解决了相关技术中 的驾驶系统具有局限性,稳定性较低,灵活性较差的问题,达到了扩大驾驶系统的应用范 围,提高驾驶系统的稳定性和灵活性的有益效果。
[0083] 应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本 发明。
附图说明
[0084] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 的附图。
[0085] 图1是本发明各个实施例提供的驾驶方法所涉及的一种实施环境的结构示意图;
[0086] 图2是本发明一个实施例提供的驾驶系统的框图;
[0087] 图3是本发明一个实施例提供的一种驾驶方法的方法流程图;
[0088] 图4是本发明另一个实施例提供的一种驾驶方法的方法流程图;
[0089] 图5是图4所示实施例提供的一种预测车辆的行驶环境中是否会发生由障碍物引 发的突发事件的方法流程图;
[0090] 图6是图4所示实施例提供的一种确定障碍物是否位于预设范围内的示意图;
[0091] 图7是图4所示实施例提供的一种根据障碍物的位置采用自适应学习算法确定目 标决策动作的方法流程图;
[0092] 图8是图4所示实施例提供的一种根据通过自适应学习算法确定障碍物的位置与 可执彳丁动作的对应关系的不意图;
[0093] 图9是图4所示实施例提供的另一种根据障碍物的位置采用自适应学习算法确定 目标决策动作的方法流程图;
[0094] 图10是图4所示实施例提供的一种获取执行驾驶员的决策动作之后障碍物的第一 位置的方法流程图。
[0095] 此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施 例,并与说明书一起用于解释本发明的原理。
具体实施方式
[0096] 为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进 一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施 例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的 所有其它实施例,都属于本发明保护的范围。
[0097] 请参考图1,其示出了本发明各个实施例提供的驾驶方法所涉及的一种实施环境 的结构示意图,参见图1,道路S包括三个车道,分别为车道S1、车道S2和车道S3,车辆Cl行驶 于车道Sl上,车辆C2行驶于车道S2上,车辆C3行驶于车道S3上,且车辆Cl、车辆C2和车辆C3 的行驶方向相同。在车辆Cl和车辆C2行驶的过程中,车辆C3突然从车辆C2的前方变道至车 道S2上行驶(插车),此时,车辆C3对于车辆C2来说可以称为障碍物,该障碍物出现时,车辆 C2的驾驶员条件反射的旋转车辆C2的方向盘以避免车辆C2与车辆C3发生碰撞,车辆C2的驾 驶员旋转车辆C2的方向盘的角度和方向不同,可以使得车辆C2按照不同的路径行驶,示例 地,车辆C2可以按照图1所示的路径LU路径L2和路径L3中的任一路径行驶,参见图1可知, 该3条路径对应的方向盘的旋转方向均是向车辆C2的驾驶员的左侧旋转,且路径L2对应的 旋转角度小于路径L1对应的旋转角度,路径L1对应的旋转角度小于路径L 3对应的旋转角 度。
[0098] 通常情况下,车辆C3的突然插车会导致车辆C2的驾驶员处于精神紧张状态而无法 精确把握方向盘的旋转角度,若车辆C2的方向盘的旋转角度过小,车辆C2可能会按照路径 L2行驶,导致车辆C2与车辆C3发生刮擦甚至碰撞,进而引发交通事故;若车辆C2的方向盘的 旋转角度过大,车辆C2可能会按照路径L3行驶,导致车辆C2与车辆Cl发生刮擦甚至碰撞,进 而引发交通事故。
[0099] 在本实施环境中,在车辆C3插车时,车辆C2的理想行驶路径为路径Ll,本发明实施 例提供的驾驶系统可以安装在车辆C2上,使得在车辆C3插车时,车辆C2按照路径Ll行驶,避 免车辆C2与车辆C3、车辆Cl发生碰撞,从而避免交通事故的发生。
[0100] 请参考图2,其示出了本发明一个实施例提供的驾驶系统200的框图,该驾驶系统 200可以用于车辆驾驶,该驾驶系统200能够在车辆的行驶环境中存在由障碍物引发的突发 事件时,避免车辆与障碍物发生碰撞。参见图2,该驾驶系统200可以包括但不限于:环境感 知模块210和避撞控制模块220。
[0101] 环境感知模块210用于在车辆行驶过程中监测车辆的行驶环境;预测车辆的行驶 环境中是否会发生由障碍物引发的突发事件;在车辆的行驶环境中会发生由障碍物引发的 突发事件时,获取障碍物的当前位置;
[0102] 避撞控制模块220用于根据障碍物的当前位置,采用自适应学习算法确定目标决 策动作;根据目标决策动作控制车辆行驶。
[0103] 可选地,避撞控制模块220用于:
[0104] 从经验存储库中确定与障碍物的当前位置对应的目标可执行动作,经验存储库中 记录了预先通过自适应学习算法确定的障碍物的位置与可执行动作的对应关系,每个障碍 物的位置对应至少一个可执行动作,每个可执行动作包括决策动作和与决策动作--对应 的增强信号,增强信号用于指示与增强信号一一对应的决策动作在执行时的立即回报;
[0105] 计算目标可执行动作中的每个决策动作的未来无穷回报累加和;
[0106] 确定未来无穷回报累加和最大的第一决策动作;
[0107] 根据障碍物的当前位置和第一决策动作,确定第一决策动作在执行时需要付出的 第一代价;
[0108] 根据第一代价和最大的未来回报累加和确定评价误差;
[0109] 根据第一代价和预设的效用期望确定动作误差;
[oho]根据评价误差和动作误差对第一决策动作进行调节得到第二决策动作,第二决策 动作在执行时需要付出的代价为第二代价,第二代价小于第一代价;
[0111] 将第二决策动作对应的障碍物的位置确定为障碍物的当前位置;
[0112] 重复执行上述步骤,直至得到执行时需要付出的代价小于预设代价的决策动作;
[0113] 将执行时需要付出的代价小于预设代价的决策动作作为目标决策动作。
[0114] 可选地,避撞控制模块220用于获取驾驶员的决策动作;
[0115] 环境感知模块210用于获取执行驾驶员的决策动作之后障碍物的第一位置;
[0116] 避撞控制模块220用于从经验存储库中确定与障碍物的第一位置对应的目标可执 行动作,经验存储库中记录了预先通过自适应学习算法确定的障碍物的位置与可执行动作 的对应关系,每个障碍物的位置对应至少一个可执行动作,每个可执行动作包括决策动作 和与决策动作一一对应的增强信号,增强信号用于指示与增强信号一一对应的决策动作在 执行时的立即回报;
[0117] 计算目标可执行动作中的每个决策动作的未来无穷回报累加和;
[0118] 确定未来无穷回报累加和最大的第一决策动作;
[0119] 根据障碍物的当前位置和第一决策动作,确定第一决策动作在执行时需要付出的 第一代价;
[0120] 根据第一代价和最大的未来回报累加和确定评价误差;
[0121] 根据第一代价和预设的效用期望确定动作误差;
[0122] 根据评价误差和动作误差对第一决策动作进行调节得到第二决策动作,第二决策 动作在执行时需要付出的代价为第二代价,第二代价小于第一代价;
[0123] 将第二决策动作对应的障碍物的位置确定为障碍物的第一位置;
[0124] 重复执行从经验存储库中确定与障碍物的第一位置对应的目标可执行动作至将 第二决策动作对应的障碍物的位置确定为障碍物的第一位置的步骤,直至得到执行时需要 付出的代价小于预设代价的决策动作;
[0125] 将执行时需要付出的代价小于预设代价的决策动作作为目标决策动作。
[0126] 可选地,环境感知模块210用于:
[0127] 采用汽车动力学方程计算执行驾驶员的决策动作后车辆的行驶轨迹;
[0128] 判断车辆的行驶轨迹是否为符合预设条件的行驶轨迹;
[0129] 在车辆的行驶轨迹为符合预设条件的行驶轨迹时,触发环境感知模块210获取执 行驾驶员的决策动作之后障碍物的第一位置;
[0130] 其中,车辆在按照符合预设条件的行驶轨迹行驶时,车辆与车辆的行驶环境中的 障碍物会发生碰撞。
[0131] 可选地,环境感知模块210用于:
[0132] 判断车辆的行驶环境中是否存在障碍物;
[0133] 在车辆的行驶环境中存在障碍物时,判断障碍物是否处于预设范围内;
[0134] 在障碍物处于预设范围内时,确定车辆的行驶环境中会发生由障碍物引发的突发 事件。
[0135] 综上所述,本发明实施例提供的驾驶系统包括:环境感知模块和避撞控制模块,环 境感知模块用于在车辆行驶过程中监测车辆的行驶环境;预测车辆的行驶环境中是否会发 生由障碍物引发的突发事件;在车辆的行驶环境中会发生由障碍物引发的突发事件时,获 取障碍物的当前位置;避撞控制模块用于根据障碍物的当前位置,采用自适应学习算法确 定目标决策动作;根据目标决策动作控制车辆行驶。由于本发明采用自适应学习算法确定 目标决策动作,目标决策动作的确定不受驾驶员的经验的限制,解决了相关技术中的驾驶 系统具有局限性,稳定性较低,灵活性较差的问题,达到了扩大驾驶系统的应用范围,提高 驾驶系统的稳定性和灵活性的有益效果。
[0136] 本发明实施例提供的驾驶系统可以应用于下文的方法,本发明实施例中驾驶方法 可以参见下文各实施例中的描述。
[0137] 请参考图3,其示出了本发明一个实施例提供的驾驶方法的方法流程图,该驾驶方 法可以由图2所示的驾驶系统来执行,参见图3,该方法流程可以包括如下几个步骤:
[0138] 在步骤301中,在车辆行驶过程中监测车辆的行驶环境。
[0139] 在步骤302中,预测车辆的行驶环境中是否会发生由障碍物引发的突发事件。
[0140] 在步骤303中,若车辆的行驶环境中会发生由障碍物引发的突发事件,则获取障碍 物的当前位置。
[0141] 在步骤304中,根据障碍物的当前位置,采用自适应学习算法确定目标决策动作。
[0142] 在步骤305中,根据目标决策动作控制车辆行驶。
[0143] 综上所述,本发明实施例提供的驾驶方法,通过在车辆行驶过程中监测车辆的行 驶环境;预测车辆的行驶环境中是否会发生由障碍物引发的突发事件;在车辆的行驶环境 中会发生由障碍物引发的突发事件时,获取障碍物的当前位置;根据障碍物的当前位置,采 用自适应学习算法确定目标决策动作;根据目标决策动作控制车辆行驶。由于本发明采用 自适应学习算法确定目标决策动作,目标决策动作的确定不受驾驶员的经验的限制,解决 了相关技术中的驾驶方法具有局限性,稳定性较低,灵活性较差的问题,达到了扩大驾驶方 法的应用范围,提高驾驶方法的稳定性和灵活性的有益效果。
[0144] 可选地,步骤304可以包括:
[0145] 从经验存储库中确定与障碍物的当前位置对应的目标可执行动作,经验存储库中 记录了预先通过自适应学习算法确定的障碍物的位置与可执行动作的对应关系,每个障碍 物的位置对应至少一个可执行动作,每个可执行动作包括决策动作和与决策动作--对应 的增强信号,增强信号用于指示与增强信号一一对应的决策动作在执行时的立即回报;
[0146] 计算目标可执行动作中的每个决策动作的未来无穷回报累加和;
[0147] 确定未来无穷回报累加和最大的第一决策动作;
[0148] 根据障碍物的当前位置和第一决策动作,确定第一决策动作在执行时需要付出的 第一代价;
[0149] 根据第一代价和最大的未来回报累加和确定评价误差;
[0150] 根据第一代价和预设的效用期望确定动作误差;
[0151] 根据评价误差和动作误差对第一决策动作进行调节得到第二决策动作,第二决策 动作在执行时需要付出的代价为第二代价,第二代价小于第一代价;
[0152] 将第二决策动作对应的障碍物的位置确定为障碍物的当前位置;
[0153] 重复执行上述步骤,直至得到执行时需要付出的代价小于预设代价的决策动作;
[0154] 将执行时需要付出的代价小于预设代价的决策动作作为目标决策动作。
[0155] 可选地,步骤304可以包括:
[0156] 获取驾驶员的决策动作;
[0157] 获取执行驾驶员的决策动作之后障碍物的第一位置;
[0158] 从经验存储库中确定与障碍物的第一位置对应的目标可执行动作,经验存储库中 记录了预先通过自适应学习算法确定的障碍物的位置与可执行动作的对应关系,每个障碍 物的位置对应至少一个可执行动作,每个可执行动作包括决策动作和与决策动作--对应 的增强信号,增强信号用于指示与增强信号一一对应的决策动作在执行时的立即回报;
[0159] 计算目标可执行动作中的每个决策动作的未来无穷回报累加和;
[0160] 确定未来无穷回报累加和最大的第一决策动作;
[0161] 根据障碍物的当前位置和第一决策动作,确定第一决策动作在执行时需要付出的 第一代价;
[0162] 根据第一代价和最大的未来回报累加和确定评价误差;
[0163] 根据第一代价和预设的效用期望确定动作误差;
[0164] 根据评价误差和动作误差对第一决策动作进行调节得到第二决策动作,第二决策 动作在执行时需要付出的代价为第二代价,第二代价小于第一代价;
[0165] 将第二决策动作对应的障碍物的位置确定为障碍物的第一位置;
[0166] 重复执行从经验存储库中确定与障碍物的第一位置对应的目标可执行动作至将 第二决策动作对应的障碍物的位置确定为障碍物的第一位置的步骤,直至得到执行时需要 付出的代价小于预设代价的决策动作;
[0167] 将执行时需要付出的代价小于预设代价的决策动作作为目标决策动作。
[0168] 进一步地,获取执行驾驶员的决策动作之后障碍物的第一位置,包括:
[0169] 采用汽车动力学方程计算执行驾驶员的决策动作后车辆的行驶轨迹;
[0170] 判断车辆的行驶轨迹是否为符合预设条件的行驶轨迹;
[0171] 若车辆的行驶轨迹为符合预设条件的行驶轨迹,则获取执行驾驶员的决策动作之 后障碍物的第一位置;
[0172] 其中,车辆在按照符合预设条件的行驶轨迹行驶时,车辆与车辆的行驶环境中的 障碍物会发生碰撞。
[0173] 可选地,步骤302可以包括:
[0174] 判断车辆的行驶环境中是否存在障碍物;
[0175] 若车辆的行驶环境中存在障碍物,则判断障碍物是否处于预设范围内;
[0176] 若障碍物处于预设范围内,则确定车辆的行驶环境中会发生由障碍物引发的突发 事件。
[0177] 上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再 --赘述。
[0178] 综上所述,本发明实施例提供的驾驶方法,通过在车辆行驶过程中监测车辆的行 驶环境;预测车辆的行驶环境中是否会发生由障碍物引发的突发事件;在车辆的行驶环境 中会发生由障碍物引发的突发事件时,获取障碍物的当前位置;根据障碍物的当前位置,采 用自适应学习算法确定目标决策动作;根据目标决策动作控制车辆行驶。由于本发明采用 自适应学习算法确定目标决策动作,目标决策动作的确定不受驾驶员的经验的限制,解决 了相关技术中的驾驶方法具有局限性,稳定性较低,灵活性较差的问题,达到了扩大驾驶方 法的应用范围,提高驾驶方法的稳定性和灵活性的有益效果。
[0179] 请参考图4,其示出了本发明一个实施例提供的驾驶方法的方法流程图,该驾驶方 法可以由图2所示的驾驶系统来执行,参见图4,该方法流程可以包括如下几个步骤:
[0180] 在步骤401中,在车辆行驶过程中监测车辆的行驶环境。
[0181] 其中,该监测车辆的行驶环境的过程可以由图2所示驾驶系统中的环境感知模块 执行,其中,环境感知模块可以包括摄像机、雷达等,本发明实施例对此不做限定。车辆的行 驶环境可以包括车辆所在行驶道路的路况等,本发明实施例对此不做限定。
[0182] 在步骤402中,预测车辆的行驶环境中是否会发生由障碍物引发的突发事件。
[0183] 其中,预测车辆的行驶环境中是否会发生由障碍物引发的突发事件的过程可以由 图2所示驾驶系统中的环境感知模块执行,在本发明实施例中,环境感知模块在监测车辆的 行驶环境的过程中,就可以根据车辆的行驶环境预测车辆的行驶环境中是否会发生由障碍 物引发的突发事件。
[0184] 示例地,请参考图5,其示出的是图4所示实施例提供的一种预测车辆的行驶环境 中是否会发生由障碍物引发的突发事件的方法流程图。参见图5,在本发明实施例中,环境 感知模块预测车辆的行驶环境中是否会发生由障碍物引发的突发事件可以包括如下几个 步骤:
[0185] 在子步骤4021中,判断车辆的行驶环境中是否存在障碍物。
[0186] 环境感知模块可以根据摄像机、雷达等的监测数据判断车辆的行驶环境中是否存 在障碍物,其中,在本发明实施例中,阻碍车辆前行的都可以称为障碍物。示例地,如图1所 示,在车辆C2正常行驶时,车辆C3的插车阻碍了车辆C2前行,因此,车辆C3对于车辆C2来说 属于障碍物,在车辆C2按照路径L3行驶时,车辆Cl会阻碍车辆C2前行,因此,车辆Cl对于车 辆C2来说属于障碍物。
[0187] 在本发明实施例中,示例地,车辆C2上的驾驶系统的环境感知模块可以根据摄像 机捕获的图像中是否存在车辆C3或者车辆Cl,来判断车辆C2的行驶环境中是否存在障碍 物。
[0188] 在子步骤4022中,若车辆的行驶环境中存在障碍物,则判断障碍物是否处于预设 范围内。
[0189] 若在步骤4021中,环境感知模块确定车辆的行驶环境中存在障碍物,则环境感知 模块判断障碍物是否处于预设范围,其中,预设范围可以根据实际情况设置,本发明实施例 对此不做限定。示例地,预设范围可以为车辆所在车道上的车辆周围5米的范围内,S卩,预设 范围可以为以车辆为圆心,5米为半径的圆确定的范围,在本发明实施例中,优选地,预设范 围可以为以车辆为圆心,5米为半径的圆位于车辆前方的半圆确定的范围,本发明实施例对 此不做限定。
[0190] 示例地,如图6所示,假设车辆C3是车辆C2行驶环境中的障碍物,预设范围可以为 图6中的虚线阴影确定的范围,由图6可知,车辆C3处于预设范围内。
[0191] 在子步骤4023中,若障碍物处于预设范围内,则确定车辆的行驶环境中会发生由 障碍物引发的突发事件。
[0192] 若在步骤4022中,环境感知模块确定障碍物处于预设范围内,则环境感知模块确 定车辆的行驶环境中会发生由障碍物引发的突发事件。示例地,以图6为例,由于车辆C3(障 碍物)处于预设范围内,因此,环境感知模块确定车辆C2的行驶环境中会发生由障碍物引发 的突发事件。
[0193] 在步骤403中,若车辆的行驶环境中会发生由障碍物引发的突发事件,则获取障碍 物的当前位置。
[0194] 若在步骤402中,环境感知模块确定车辆的行驶环境中会发生由障碍物引发的突 发事件,则环境感知模块获取障碍物的位置。
[0195] 其中,障碍物的当前位置可以包括:障碍物距离车辆的距离,障碍物所在的方位 等,本发明实施例对此不做限定。
[0196] 示例地,环境感知模块获取车辆C3 (障碍物)的当前位置,该位置可以为X (t)。需要 说明的是,该位置也可以理解为车辆C2当前的环境状态量,本发明实施例对此不做限定。
[0197] 在步骤404中,根据障碍物的当前位置,采用自适应学习算法确定目标决策动作。
[0198] 其中,根据障碍物的当前位置,采用自适应学习算法确定目标决策动作可以由图2 所示驾驶系统中的避撞控制模块执行。环境感知模块可以向避撞控制模块发送障碍物的当 前位置,使得避撞控制模块根据障碍物的当前位置,采用自适应学习算法确定目标决策动 作。
[0199] 在本发明实施例中,避撞控制模块可以按照下图7或下图9所示的任意一种方法根 据障碍物的当前位置,采用自适应学习算法确定目标决策动作。
[0200] 示例地,请参考图7,其示出的是图4所示实施例提供的一种根据障碍物的位置,采 用自适应学习算法确定目标决策动作的方法流程图,参见图7,该方法流程可以包括如下几 个步骤:
[0201] 在子步骤4041a中,从经验存储库中确定与障碍物的当前位置对应的目标可执行 动作。
[0202] 其中,经验存储库中记录了预先通过自适应学习算法确定的障碍物的位置与可执 行动作的对应关系,每个障碍物的位置对应至少一个可执行动作,每个可执行动作包括决 策动作和与决策动作一一对应的增强信号,增强信号用于指示与增强信号一一对应的决策 动作在执行时的立即回报。
[0203] 假设障碍物的位置用X表示,决策动作用u表示,增强信号用r表示,示例地,经验存 储库中记录的障碍物的位置与可执行动作的对应关系可以如下表1所示,其中,决策动作可 以为踩油门的力度值,踩刹车的力度值,方向盘的旋转角度等,本发明实施例对此不做限 定。
[0204] 表1
Figure CN105109485BD00161
[0206] 参见表1所示,该表1中记录了 η个障碍物的位置,每个障碍物的位置对应多个可执 行动作,且每个可执行动作包括决策动作和与该决策动作--对应的增强信号。示例地,障 碍物的位置X⑴对应的可执行动作中包括决策动作Ul (t)、u2⑴和u3⑴共3个决策动作, 决策动作ul (t)对应的增强信号为rl (t),决策动作u2 (t)对应的增强信号为r2 (t),决策动 作u3⑴对应的增强信号为r3 (t),障碍物的位置X (t+Ι)对应的可执行动作可以参考障碍物 的位置X (t)对应的可执行动作来理解,本发明实施例在此不再赘述。
[0207] 在本发明实施例中,车辆C3 (障碍物)的当前位置为X (t),则避撞控制模块可以从 表1中确定X (t)对应的目标可执行动作,该X (t)对应的目标可执行动作中包括决策动作ul (t)、u2⑴和u3⑴共3个决策动作。
[0208] 在子步骤4042a中,计算目标可执行动作中的每个决策动作的未来无穷回报累加 和。
[0209] 避撞控制模块确定X⑴对应的目标可执行动作后,可以根据每个决策动作的增强 信号计算目标可执行动作中的每个决策动作的未来无穷回报累加和。其中,避撞控制模块 可以根据未来无穷回报累加和计算公式计算目标可执行动作中的每个决策动作的未来无 穷回报累加和。
[0210] 其中,未来无穷回报累加和计算公式为:
[0211] R ⑴=r (t+1)+ar (t+2)+a2r (t+3)+···
[0212] 其中,R⑴表示未来无穷回报累加和,r (t+1)表示t+1时刻的增强信号,r (t+2)表 示t+2时刻的增强信号,r (t+3)表示t+3时刻的增强信号,a表示折算因子,参见上述公式可 知,对未来回报累加和影响最大的是t+Ι时刻的增强信号,t+2时刻、t+3时刻的增强信号对 未来回报累加和影响以指数形式衰减。
[0213] 示例地,避撞控制模块分别计算决策动作ul⑴、u2 (t)和u3 (t)的未来无穷回报累 加和。
[0214] 需要说明的是,当障碍物的当前位置为X (t)时,避撞控制模块执行X⑴对应的任 意一个决策动作都会改变障碍物的当前位置,使得障碍物的当前位置变为X (t+1),同时避 撞控制模块会得到X (t+Ι)对应的一个增强信号,当障碍物的当前位置为X (t+Ι)时,避撞控 制模块执行X (t+1)对应的任意一个决策动作都会改变障碍物的当前位置,使得障碍物的当 前位置变为X (t+2),同时避撞控制模块会得到X (t+2)对应的一个增强信号,依次类推。示例 地,假设避撞控制模块执行X (t)对应的决策动作ul (t),使得障碍物的当前位置变为X (t+ 1),避撞控制模块得到X (t+Ι)对应的一个增强信号为rl (t+Ι),避撞控制模块执行X (t+Ι)对 应的决策动作为ul (t+Ι),使得障碍物的当前位置变为X (t+2),避撞控制模块得到X (t+2)对 应的一个增强信号为rl (t+2),依次类推,则可以根据上述未来无穷回报累加和计算公式得 到决策动作ul⑴对应的未来无穷回报累加和为Rl (t) =rl (t+1)+arl (t+2)+a2rl (t+3)+···
[0215] 在子步骤4043a中,确定未来无穷回报累加和最大的第一决策动作。
[0216] 避撞控制模块计算得到目标可执行动作中的每个决策动作的未来无穷回报累加 和后,可以对目标可执行动作中的所有决策动作的未来无穷回报累加和进行比较,确定出 最大的未来无穷回报累加和,进而确定出未来无穷回报累加和最大的决策动作,该未来无 穷回报累加和最大的决策动作可以为第一决策动作。
[0217] 示例地,假设避撞控制模块计算决策动作ul⑴、u2 (t)和u3 (t)的未来无穷回报累 加和后,确定出决策动作Ul⑴的未来无穷回报累加和为Rl (t),决策动作u2⑴的未来无穷 回报累加和为R2 (t),决策动作u3 (t)的未来无穷回报累加和为R3 (t),避撞控制模块对Rl (t)、R2 (t)和R3⑴进行比较得到Rl⑴>R2⑴>R3⑴,也即,决策动作ul⑴的未来无穷 回报累加和最大,因此,避撞控制模块将决策动作ul (t)作为第一决策动作。
[0218] 需要说明的是,在本发明实施例中,避撞控制模块可以包括动作单元和评价单元, 动作单元的内部具体可以是一个动作网络,评价单元的内部具体可以是一个评价网络,动 作网络和评价网络均为采用非线性多层感知机结构的正向输送网络,且动作网络和评价网 络中均含有一个隐藏层。在本发明实施例中,将障碍物的当前位置输入到动作单元后,动作 单元会根据障碍物的当前位置确定出第一决策动作。也即,上述子步骤4041a至子步骤 4043a由动作单元执行。其中,子步骤4041a至子步骤4043aS卩是动作单元根据障碍物的当前 位置确定第一决策动作的过程。
[0219] 在子步骤4044a中,根据障碍物的当前位置和第一决策动作,确定第一决策动作在 执行时需要付出的第一代价。
[0220] 在本发明实施例中,将障碍物的当前位置和子步骤4043a中确定的第一决策动作 输入到评价单元后,评价单元就会计算出在障碍物的位置为当前位置时,执行第一决策动 作需要付出的第一代价。假设该第一代价为Jl (t)。
[0221] 其中,需要说明的是,评价单元的内部可以具体是一个评价网络,评价网络的具体 结构以及相关知识可以参考相关技术,本发明实施例在此不再赘述。
[0222] 在子步骤4045a中,根据第一代价和最大的未来回报累加和确定评价误差。
[0223] 在确定出第一决策动作在执行时需要付出的第一代价以及最大的未来回报累加 和后,避撞控制模块可以根据第一代价和最大的未来回报累加和确定评价误差。其中,由上 述可知,最大的未来回报累加和即是第一决策动作对应的未来回报累加和,也即,最大的未 来回报累加和可以为Rl (t)。因此,避撞控制模块根据第一代价为Jl (t)和未来回报累加和 可以为Rl (t)确定评价误差。示例地,评价误差可以为第一代价和最大的未来回报累加和之 差,也即,评价误差为Jl⑴-Rl (t)。
[0224] 需要说明的是,实际应用中,由于t时刻得到的回报通常是t-Ι时刻执行的决策动 作对应的回报,因此,实际应用中,评价误差为Jl (t-1)-Rl (t)。
[0225] 在子步骤4046a中,根据第一代价和预设的效用期望确定动作误差。
[0226] 其中,预设的效用期望是由技术人员根据实际需要设置的,本发明实施例对此不 做限定。预设的效用期望可以为Uc (t)。
[0227] 在确定第一代价后,避撞控制模块可以根据第一代价和预设的效用期望确定动作 误差。示例地,避撞控制模块根据第一代价Jl (t)和预设的效用期望Uc (t)确定动作误差。其 中,动作误差可以为第一代价和预设的效用期望之差,也即,动作误差为Jl⑴-Uc (t)。
[0228] 在子步骤4047a中,根据评价误差和动作误差对第一决策动作进行调节得到第二 决策动作,第二决策动作在执行时需要付出的代价为第二代价,第二代价小于第一代价。
[0229] 在得到评价误差和动作误差后,避撞控制模块可以根据评价误差和动作误差对第 一决策动作进行调节得到第二决策动作。具体地,避撞控制模块将评价误差输入到评价单 元,根据评价误差采用梯度下降法对评价单元的评价网络的权值进行调节,避撞控制模块 将动作误差输入到动作单元,根据动作误差采用梯度下降法对动作单元的动作网络的权值 进行调节,最终实现对第一决策动作的调节,得到执行时需要付出的代价小于第一代价的 第二决策动作。假设第二决策动作为ul (t+Ι)。
[0230] 在子步骤4048a中,将第二决策动作对应的障碍物的位置确定为障碍物的当前位 置。
[0231] 得到第二决策动作后,避撞控制模块可以将第二决策动作对应的障碍物的位置确 定为障碍物的当前位置,示例地,参见表1可知,第二决策动作为Ul (t+Ι)对应的障碍物的位 置为X (t+1),因此,避撞控制模块将障碍物的位置X (t+Ι)作为障碍物的当前位置。
[0232] 在子步骤4049a中,重复执行上述步骤,直至得到执行时需要付出的代价小于预设 代价的决策动作。
[0233] 需要说明的是,上述步骤4041a至步骤4048a属于决策动作的自适应动态调节过 程,因此,可以通过反复执行上述步骤4041a至步骤4048a,得到执行时需要付出的代价小于 预设代价的决策动作,其中,预设代价由技术人员根据实际需要设置的,本发明实施例对此 不做限定。
[0234] 还需要说明的是,实际应用中,可以执行预设数值次上述步骤4041a至步骤4048a, 得到预设数值个决策动作,进而从预设数值个决策动作中确定出执行时付出的代价最小的 决策动作,本发明实施例对此不做限定。
[0235] 在子步骤4050a中,将执行时需要付出的代价小于预设代价的决策动作作为目标 决策动作。
[0236] 在确定执行时需要付出的代价小于预设代价的决策动作后,避撞控制模块可以将 该执行时需要付出的代价小于预设代价的决策动作作为目标决策动作。
[0237] 需要说明的是,在子步骤4041a之前,驾驶系统可以先通过自适应学习算法得到表 1所示的障碍物的位置与可执行动作的对应关系。其中,可以在计算机(比如,在计算机的 Matlab软件)里进行模拟实验,创建车辆行驶环境模型,并设计多种突发事件,使车辆的驾 驶系统能够自主学习避撞策略。学习后的驾驶系统可以储存学习经验(如表1所示的对应关 系),之后将驾驶系统安装到车辆上使用。
[0238] 示例地,请参考图8,其示出的是图4所示实施例提供的一种通过自适应学习算法 确定障碍物的位置与可执行动作的对应关系的示意图。参见图8,环境感知模块可以获取障 碍物的当前位置X (t),并将障碍物的当前位置X (t)发送至避撞控制模块中的动作单元,动 作单元可以根据障碍物的当前位置X⑴做出决策动作u⑴,该决策动作u⑴会改变车辆的 位置,进而使得障碍物的位置变为X (t+1),同时,环境感知模块会反馈给避撞控制模块的评 价单元一个增强信号r⑴,该增强信号r⑴表示执行决策动作u⑴后的立即回报,环境感 知模块可以将障碍物的当前位置X (t)发送至避撞控制模块中的评价单元,同时,动作单元 也将根据障碍物的当前位置X (t)做出决策动作u (t)发送至评价单元,评价单元根据障碍物 的当前位置X⑴和决策动作u (t)计算得到执行决策动作u⑴需要付出的代价J (t),避撞控 制模块根据t-Ι时刻执行的决策动作需要付出的代价J (t-Ι)和决策动作u (t)对应的未来回 报累加和R⑴,确定出评价误差,根据预设的效用期望Uc⑴和执行决策动作u⑴需要付出 的代价J (t)确定出动作误差,进而根据评价误差调节评价单元的评价网络的权值,根据动 作误差调节动作单元的动作网络的权值得到符合条件的决策动作以及对应的增强信号。通 常,增强信号可以以数值方式存在,不同的数值用以评价做出的决策动作的“好”、“坏”,且 增强信号的数值越大表明对应的决策动作越好,增强信号的数值越小表明对应的决策动作 越差。同样,对于新的位置X (t+Ι),避撞控制模块会做出新的决策动作u (t+Ι),并从得到一 个增强信号r (t+1)。依次类推下去,即避撞控制模块在每个时刻都会与环境感知模块交互, 通过环境感知模块反馈的增强信号的“好”、“坏”,在线调节决策策略,以便在后续决策动作 中获得最大的回报,使得整个决策过程趋于最优,最终,可以根据增强信号确定决策动作的 好坏,得到表1所示的对应关系。
[0239] 再示例地,请参考图9,其示出的是图4所示实施例提供的另一种根据障碍物的位 置,采用机器学习算法确定目标决策动作的方法流程图,参见图9,该方法流程可以包括如 下几个步骤:
[0240] 在子步骤4041b中,获取驾驶员的决策动作。
[0241] 在本发明实施例中,在车辆的行驶环境中会发生由障碍物引发的突发事件时,驾 驶员可以人为做出决策动作,比如,驾驶员人为操作方向盘,油门,刹车等。避撞控制模块可 以获取驾驶员的决策动作,示例地,避撞控制模块可以通过读取油门,刹车,方向盘的操作 数据,来获取驾驶员的决策动作。
[0242] 在子步骤4042b中,获取执行驾驶员的决策动作之后障碍物的第一位置。
[0243] 驾驶员做出的决策动作会改变车辆的当前位置,进而导致障碍物的当前位置发生 改变,示例地,执行驾驶员的决策动作之后障碍物的当前位置可以变为第一位置,因此,避 撞控制模块可以获取执行驾驶员的决策动作之后障碍物的第一位置,假设障碍物的第一位 置为X (t+1),则避撞控制模块可以获取障碍物的第一位置X (t+Ι)。
[0244] 示例地,请参考图10,其示出的是图4所示实施例提供的避撞控制模块获取执行驾 驶员的决策动作之后障碍物的第一位置的方法流程图,参见图10,在本发明实施例中,避撞 控制模块获取执行驾驶员的决策动作之后障碍物的第一位置的可以包括如下几个步骤:
[0245] 在子步骤4042bl中,采用汽车动力学方程计算执行驾驶员的决策动作后车辆的行 驶轨迹。
[0246] 避撞控制模块可以根据执行驾驶员的决策动作之后障碍物的第一位置,采用汽车 动力学方程计算执行驾驶员的决策动作后车辆的行驶轨迹。其中,采用汽车动力学方法计 算车辆的行驶轨迹的过程可以参考相关技术,本发明实施例对此不再赘述。
[0247] 在子步骤4042b2中,判断车辆的行驶轨迹是否为符合预设条件的行驶轨迹。
[0248] 其中,车辆在按照符合预设条件的行驶轨迹行驶时,车辆与车辆的行驶环境中的 障碍物会发生碰撞。
[0249] 具体地,避撞控制模块可以根据车辆的行驶轨迹判断车辆是否会与车辆的行驶环 境中的障碍物会发生碰撞。示例地,避撞控制模块可以判断车辆的行驶轨迹与车辆的行驶 环境中的障碍物的行驶轨迹是否存在交点,若车辆的行驶轨迹与车辆的行驶环境中的障碍 物的行驶轨迹存在交点,则避撞控制模块确定车辆的行驶轨迹为符合预设条件的行驶轨 迹。
[0250] 在子步骤4042b3中,若车辆的行驶轨迹为符合预设条件的行驶轨迹,则获取执行 驾驶员的决策动作之后障碍物的第一位置。
[0251] 若在步骤4042b2中,避撞控制模块确定车辆的行驶轨迹为符合预设条件的行驶轨 迹,说明驾驶员的决策动作存在误差,因此,可以由环境感知模块获取执行驾驶员的决策动 作之后障碍物的第一位置,进而由避撞控制模块根据执行驾驶员的决策动作之后障碍物的 第一位置对驾驶员的决策动作进行修正。
[0252] 在子步骤4043b中,从经验存储库中确定与障碍物的第一位置对应的目标可执行 动作。
[0253] 其中,经验存储库中记录了预先通过自适应学习算法确定的障碍物的位置与可执 行动作的对应关系,每个障碍物的位置对应至少一个可执行动作,每个可执行动作包括决 策动作和与决策动作一一对应的增强信号,增强信号用于指示与增强信号一一对应的决策 动作在执行时的立即回报。
[0254] 在子步骤4044b中,计算目标可执行动作中的每个决策动作的未来无穷回报累加 和。
[0255] 在子步骤4045b中,确定未来无穷回报累加和最大的第一决策动作。
[0256] 在子步骤4046b中,根据障碍物的当前位置和第一决策动作,确定第一决策动作在 执行时需要付出的第一代价。
[0257] 在子步骤4047b中,根据第一代价和最大的未来回报累加和确定评价误差。
[0258] 在子步骤4048b中,根据第一代价和预设的效用期望确定动作误差。
[0259] 在子步骤4049b中,根据评价误差和动作误差对第一决策动作进行调节得到第二 决策动作,第二决策动作在执行时需要付出的代价为第二代价,第二代价小于第一代价。
[0260] 在子步骤4050b中,将第二决策动作对应的障碍物的位置确定为障碍物的第一位 置。
[0261] 在子步骤4051b中,重复执行子步骤4043b至子步骤4050b,直至得到执行时需要付 出的代价小于预设代价的决策动作。
[0262] 在子步骤4052b中,将执行时需要付出的代价小于预设代价的决策动作作为目标 决策动作。
[0263] 上述步骤4043b至步骤4052b的实现过程与图7所示实施例中的步骤4041a至步骤 4050a相同或者类似,其实现过程可以参考图7所示实施例中的步骤4041a至步骤4050a,本 发明实施例在此不再赘述。
[0264] 在步骤405中,根据目标决策动作控制车辆行驶。
[0265] 避撞控制模块确定目标决策动作后,可以根据目标决策动作控制车辆行驶。
[0266] 需要说明的是,本发明实施例提供的驾驶方法步骤的先后顺序可以进行适当调 整,步骤也可以根据情况进行相应增减,示例地,若在子步骤4042b2中,避撞控制模块确定 车辆的行驶轨迹不是符合预设条件的行驶轨迹,说明驾驶员的决策动作不存在误差,驾驶 系统无需修正驾驶员的决策动作也可以实现避撞的效果,此时,步骤4043b至步骤4052b也 可以不执行。任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变 化的方法,都应涵盖在本发明的保护范围之内,因此不再赘述。
[0267] 综上所述,本发明实施例提供的驾驶方法,通过在车辆行驶过程中监测车辆的行 驶环境;预测车辆的行驶环境中是否会发生由障碍物引发的突发事件;在车辆的行驶环境 中会发生由障碍物引发的突发事件时,获取障碍物的当前位置;根据障碍物的当前位置,采 用自适应学习算法确定目标决策动作;根据目标决策动作控制车辆行驶。由于本发明采用 自适应学习算法确定目标决策动作,目标决策动作的确定不受驾驶员的经验的限制,解决 了相关技术中的驾驶方法具有局限性,稳定性较低,灵活性较差的问题,达到了扩大驾驶方 法的应用范围,提高驾驶方法的稳定性和灵活性的有益效果。
[0268] 近一个多世纪来,汽车等车辆的出现取代了传统交通运输方式,使得人们的生活 更为便捷。但近些年来,车辆的安全性问题受到了越来越多的关注。据调查显示,2011年世 界车辆保有量前六的国家交通事故死亡人数分别为:美国:32310人,中国:62000人,日本: 4612人,德国:4009人,意大利:3800人,俄罗斯:27900人。2012年中国共发生交通事故 204196起,死亡59997人,受伤224327人,直接财产损失117489.6万元。从数据中可以看出, 世界车辆保有量前六的国家一年交通事故死亡人数在10万人以上;我国交通事故死亡人数 位居世界第一,达一年6万人左右;2012年我国交通事故多达20多万起,除交通事故死亡外, 还有20多万车祸受伤人员,给人们人生安全带来很大的伤害;车祸给国家带来的经济损失 一年多达10多亿元。因此,交通事故给人身安全及国家经济财产带来了巨大的损失。本发明 实施例提供的驾驶方法,能够避免车辆与障碍物发生碰撞,可以减少交通事故的发生,进而 减少交通事故带来的经济损失。
[0269] 需要说明的是:上述实施例提供的驾驶系统在驾驶车辆时,仅以上述各功能模块 的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完 成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另 夕卜,上述实施例提供的驾驶方法与系统实施例属于同一构思,其实现过程详见方法实施例, 这里不再赘述。
[0270] 本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件 来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读 存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0271]以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和 原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1. 一种驾驶系统,其特征在于,所述驾驶系统包括:环境感知模块和避撞控制模块, 所述环境感知模块用于在车辆行驶过程中监测所述车辆的行驶环境;预测所述车辆的 行驶环境中是否会发生由障碍物引发的突发事件;在所述车辆的行驶环境中会发生由障碍 物引发的突发事件时,获取所述障碍物的当前位置; 所述避撞控制模块用于根据所述障碍物的当前位置,采用自适应学习算法确定目标决 策动作;根据所述目标决策动作控制所述车辆行驶; 所述避撞控制模块用于获取驾驶员的决策动作; 所述环境感知模块用于获取执行所述驾驶员的决策动作之后所述障碍物的第一位置; 所述避撞控制模块用于从经验存储库中确定与所述障碍物的第一位置对应的目标可 执行动作,所述经验存储库中记录了预先通过自适应学习算法确定的障碍物的位置与可执 行动作的对应关系,每个障碍物的位置对应至少一个可执行动作,每个可执行动作包括决 策动作和与所述决策动作一一对应的增强信号,所述增强信号用于指示与所述增强信号一 一对应的决策动作在执行时的立即回报; 计算所述目标可执行动作中的每个决策动作的未来无穷回报累加和; 确定所述未来无穷回报累加和最大的第一决策动作; 根据所述障碍物的当前位置和所述第一决策动作,确定所述第一决策动作在执行时需 要付出的第一代价; 根据所述第一代价和最大的未来回报累加和确定评价误差; 根据所述第一代价和预设的效用期望确定动作误差; 根据所述评价误差和所述动作误差对所述第一决策动作进行调节得到第二决策动作, 所述第二决策动作在执行时需要付出的代价为第二代价,所述第二代价小于所述第一代 价; 将所述第二决策动作对应的障碍物的位置确定为所述障碍物的第一位置; 重复执行所述从所述经验存储库中确定与所述障碍物的第一位置对应的目标可执行 动作至所述将所述第二决策动作对应的障碍物的位置确定为所述障碍物的第一位置的步 骤,直至得到执行时需要付出的代价小于预设代价的决策动作; 将所述执行时需要付出的代价小于预设代价的决策动作作为所述目标决策动作。
2. 根据权利要求1所述的驾驶系统,其特征在于, 所述环境感知模块用于: 采用汽车动力学方程计算执行所述驾驶员的决策动作后所述车辆的行驶轨迹; 判断所述车辆的行驶轨迹是否为符合预设条件的行驶轨迹; 在所述车辆的行驶轨迹为符合预设条件的行驶轨迹时,触发所述环境感知模块获取执 行所述驾驶员的决策动作之后所述障碍物的第一位置; 其中,所述车辆在按照所述符合预设条件的行驶轨迹行驶时,所述车辆与所述车辆的 行驶环境中的障碍物会发生碰撞。
3. 根据权利要求1或2所述的驾驶系统,其特征在于, 所述环境感知模块用于: 判断所述车辆的行驶环境中是否存在障碍物; 在所述车辆的行驶环境中存在障碍物时,判断所述障碍物是否处于预设范围内; 在所述障碍物处于所述预设范围内时,确定所述车辆的行驶环境中会发生由所述障碍 物引发的突发事件。
4. 一种驾驶方法,其特征在于,所述方法包括: 在车辆行驶过程中监测所述车辆的行驶环境; 预测所述车辆的行驶环境中是否会发生由障碍物引发的突发事件; 若所述车辆的行驶环境中会发生由障碍物引发的突发事件,则获取所述障碍物的当前 位置; 根据所述障碍物的当前位置,采用自适应学习算法确定目标决策动作; 根据所述目标决策动作控制所述车辆行驶; 所述根据所述障碍物的当前位置,采用自适应学习算法确定目标决策动作,包括: 获取驾驶员的决策动作; 获取执行所述驾驶员的决策动作之后所述障碍物的第一位置; 从经验存储库中确定与所述障碍物的第一位置对应的目标可执行动作,所述经验存储 库中记录了预先通过自适应学习算法确定的障碍物的位置与可执行动作的对应关系,每个 障碍物的位置对应至少一个可执行动作,每个可执行动作包括决策动作和与所述决策动作 一一对应的增强信号,所述增强信号用于指示与所述增强信号一一对应的决策动作在执行 时的立即回报; 计算所述目标可执行动作中的每个决策动作的未来无穷回报累加和; 确定所述未来无穷回报累加和最大的第一决策动作; 根据所述障碍物的当前位置和所述第一决策动作,确定所述第一决策动作在执行时需 要付出的第一代价; 根据所述第一代价和最大的未来回报累加和确定评价误差; 根据所述第一代价和预设的效用期望确定动作误差; 根据所述评价误差和所述动作误差对所述第一决策动作进行调节得到第二决策动作, 所述第二决策动作在执行时需要付出的代价为第二代价,所述第二代价小于所述第一代 价; 将所述第二决策动作对应的障碍物的位置确定为所述障碍物的第一位置; 重复执行所述从所述经验存储库中确定与所述障碍物的第一位置对应的目标可执行 动作至所述将所述第二决策动作对应的障碍物的位置确定为所述障碍物的第一位置的步 骤,直至得到执行时需要付出的代价小于预设代价的决策动作; 将所述执行时需要付出的代价小于预设代价的决策动作作为所述目标决策动作。
5. 根据权利要求4所述的方法,其特征在于,所述获取执行所述驾驶员的决策动作之后 所述障碍物的第一位置,包括: 采用汽车动力学方程计算执行所述驾驶员的决策动作后所述车辆的行驶轨迹; 判断所述车辆的行驶轨迹是否为符合预设条件的行驶轨迹; 若所述车辆的行驶轨迹为符合预设条件的行驶轨迹,则获取执行所述驾驶员的决策动 作之后所述障碍物的第一位置; 其中,所述车辆在按照所述符合预设条件的行驶轨迹行驶时,所述车辆与所述车辆的 行驶环境中的障碍物会发生碰撞。
6.根据权利要求4或5所述的方法,其特征在于,所述预测所述车辆的行驶环境中是否 会发生由障碍物引发的突发事件,包括: 判断所述车辆的行驶环境中是否存在障碍物; 若所述车辆的行驶环境中存在障碍物,则判断所述障碍物是否处于预设范围内; 若所述障碍物处于所述预设范围内,则确定所述车辆的行驶环境中会发生由所述障碍 物引发的突发事件。
CN201510532369.1A 2015-08-24 2015-08-24 一种驾驶方法及系统 Active CN105109485B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510532369.1A CN105109485B (zh) 2015-08-24 2015-08-24 一种驾驶方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510532369.1A CN105109485B (zh) 2015-08-24 2015-08-24 一种驾驶方法及系统

Publications (2)

Publication Number Publication Date
CN105109485A CN105109485A (zh) 2015-12-02
CN105109485B true CN105109485B (zh) 2018-02-16

Family

ID=54657681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510532369.1A Active CN105109485B (zh) 2015-08-24 2015-08-24 一种驾驶方法及系统

Country Status (1)

Country Link
CN (1) CN105109485B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106297353B (zh) * 2016-10-18 2019-07-23 百度在线网络技术(北京)有限公司 交通工具的自动驾驶方法及装置
CN107169567B (zh) * 2017-03-30 2020-04-07 深圳先进技术研究院 一种用于车辆自动驾驶的决策网络模型的生成方法及装置
CN107161143A (zh) * 2017-05-18 2017-09-15 江苏大学 一种采用人工势场法的车辆主动避撞方法
CN108045374B (zh) * 2017-10-24 2019-08-30 山东理工大学 一种兼顾行车经济性的智能电动车辆自主驾驶决策方法
CN111311945A (zh) * 2020-02-20 2020-06-19 南京航空航天大学 一种融合视觉和传感器信息的驾驶决策系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102431553A (zh) * 2011-10-18 2012-05-02 奇瑞汽车股份有限公司 汽车主动安全系统及方法
CN103171554A (zh) * 2011-12-26 2013-06-26 现代自动车株式会社 利用侧方和后方传感器控制车辆间距离的系统和方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1990786B1 (en) * 2006-02-28 2021-05-19 Toyota Jidosha Kabushiki Kaisha Object path prediction method and apparatus

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102431553A (zh) * 2011-10-18 2012-05-02 奇瑞汽车股份有限公司 汽车主动安全系统及方法
CN103171554A (zh) * 2011-12-26 2013-06-26 现代自动车株式会社 利用侧方和后方传感器控制车辆间距离的系统和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于自适应动态规划算法的小车自主导航控制策略设计;方啸等;《燕山大学学报》;20140131;第57-65页 *

Also Published As

Publication number Publication date
CN105109485A (zh) 2015-12-02

Similar Documents

Publication Publication Date Title
EP3828049A1 (en) Comfort responsibility sensitivity safety model
EP3828657A1 (en) Navigational system
CN105966396B (zh) 一种基于驾驶员避撞行为的车辆避撞控制方法
CN105069415B (zh) 车道线检测方法和装置
CN106874597B (zh) 一种应用于自动驾驶车辆的高速公路超车行为决策方法
CN106092121B (zh) 车辆导航方法和装置
CN105788252B (zh) 基于定点检测器和信号配时数据融合的城市干道车辆轨迹重构方法
CN103921788B (zh) 一种汽车行驶控制系统及方法
CN105324275B (zh) 移动轨迹预测装置和移动轨迹预测方法
Liebner et al. Velocity-based driver intent inference at urban intersections in the presence of preceding vehicles
CN205003902U (zh) 一种机动车驾驶人技能培训电子教练系统
CN103121447B (zh) 一种弯道防侧滑侧翻自动控制系统及方法
CN102541061B (zh) 基于视听觉信息的缩微智能车
Khodayari et al. A historical review on lateral and longitudinal control of autonomous vehicle motions
CN101472782B (zh) 车辆状态量预测装置及方法和车辆转向控制器及控制方法
CN103164962B (zh) 一种山区公路急弯路段实时车速预警方法
CN107924634A (zh) 提供驾驶辅助的系统和方法
CN106461406A (zh) 车道选择装置、车辆控制系统及车道选择方法
CN104859650B (zh) 一种多时间尺度的车辆横摆稳定性滚动优化控制方法
CN105711586B (zh) 一种基于前向车辆驾驶人驾驶行为的前向避撞系统及避撞算法
CN106994969B (zh) 一种车队编队驾驶系统及方法
CN108431549A (zh) 具有施加的约束的经训练的系统
CN103496368B (zh) 具有学习能力的汽车协同式自适应巡航控制系统及方法
CN106114507A (zh) 用于智能车辆的局部轨迹规划方法和装置
CN103661599B (zh) 一种车辆转弯轨迹预测系统和方法

Legal Events

Date Code Title Description
PB01 Publication
C06 Publication
SE01 Entry into force of request for substantive examination
C10 Entry into substantive examination
GR01 Patent grant
GR01 Patent grant