CN114104005B - 自动驾驶设备的决策方法、装置、设备及可读存储介质 - Google Patents

自动驾驶设备的决策方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN114104005B
CN114104005B CN202210090540.8A CN202210090540A CN114104005B CN 114104005 B CN114104005 B CN 114104005B CN 202210090540 A CN202210090540 A CN 202210090540A CN 114104005 B CN114104005 B CN 114104005B
Authority
CN
China
Prior art keywords
value
automatic driving
driving
vehicle group
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210090540.8A
Other languages
English (en)
Other versions
CN114104005A (zh
Inventor
赵雅倩
李仁刚
鲁璐
李茹杨
张亚强
徐哲
牛胜仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202210090540.8A priority Critical patent/CN114104005B/zh
Publication of CN114104005A publication Critical patent/CN114104005A/zh
Application granted granted Critical
Publication of CN114104005B publication Critical patent/CN114104005B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2555/00Input parameters relating to exterior conditions, not covered by groups B60W2552/00, B60W2554/00
    • B60W2555/20Ambient conditions, e.g. wind or rain

Abstract

本发明涉及自动驾驶技术领域,公开了一种自动驾驶设备的决策方法、装置、设备及可读存储介质。其中,该方法包括:获取各个自动驾驶设备对应的局部环境状态信息、各个自动驾驶设备的驾驶动作、执行驾驶动作的回报参数值以及局部更新环境状态信息;基于各个自动驾驶设备对应的局部环境状态信息以及驾驶动作,确定各个自动驾驶设备所对应车群的学习动作价值;基于各个自动驾驶设备执行驾驶动作后的回报参数值以及局部更新环境状态信息,确定车群的目标动作价值;基于学习动作价值以及目标动作价值,更新车群的驾驶决策策略。通过实施本发明,实现了车群驾驶决策策略的更新,避免了训练维度的爆炸问题,提高了驾驶决策策略的安全性和高效性。

Description

自动驾驶设备的决策方法、装置、设备及可读存储介质
技术领域
本发明涉及自动驾驶技术领域,具体涉及一种自动驾驶设备的决策方法、装置、设备及可读存储介质。
背景技术
随着人工智能技术的快速发展,深度学习已经被广泛应用于自动驾驶汽车的环境感知、特征提取、障碍物识别、路径规划和智能决策等任务场景,并在仿真模拟器和简单真实交通场景下较好实现。其中,以深度强化学习为代表的技术路线中,自动驾驶车辆作为智能体,无需人类驾驶员提供的海量环境状态-驾驶动作数据训练驾驶策略,而是借助马尔科夫决策过程与交通环境持续交互,从头开始探索和改进自动驾驶策略。目前,基于机动车数量多、车流密度大,仅靠单辆车的传感器装置无法对周围环境进行充分感知,也很难准确判断其他交通参与者的运动意图,无法为复杂交通场景提供安全、稳定的驾驶策略。因此,通常借助多智能体强化学习技术,将多辆车作为一个群体进行整体调度,其中,每辆车都作为一个智能体,将获取的感知信息与其他智能体进行共享,每个智能体基于全局环境状态信息分别进行决策。尽管该方法能够帮助每个智能体获取更全面的交通环境信息,做出更安全的驾驶行为,基于全局环境信息分别训练多个自动驾驶策略的成本高,在车辆多、路况复杂的场景下会遭遇状态维度的指数级增长,限制了多智能体强化学习技术在自动驾驶领域的规模化应用。
发明内容
有鉴于此,本发明实施例提供了一种自动驾驶设备的决策方法、装置、设备及可读存储介质,以解决自动驾驶车群决策安全性与驾驶策略训练成本难以同时兼顾的问题。
根据第一方面,本发明实施例提供了一种自动驾驶设备的决策方法,包括:获取各个自动驾驶设备对应的局部环境状态信息、各个自动驾驶设备的驾驶动作、执行所述驾驶动作的回报参数值以及局部更新环境状态信息,所述回报参数值用于表征执行驾驶动作后当前交通环境对自动驾驶设备的反馈;基于所述各个自动驾驶设备对应的局部环境状态信息以及驾驶动作,确定所述各个自动驾驶设备所对应车群的学习动作价值;基于所述各个自动驾驶设备执行所述驾驶动作后的回报参数值以及局部更新环境状态信息,确定所述车群的目标动作价值;基于所述学习动作价值以及所述目标动作价值,更新所述车群的驾驶决策策略。
本发明实施例提供的自动驾驶设备的决策方法,通过获取各个自动驾驶设备对应的局部环境状态信息、各个自动驾驶设备的驾驶动作、执行驾驶动作的回报参数值以及局部更新环境状态信息,基于各个自动驾驶设备对应的局部环境状态信息以及驾驶动作,确定各个自动驾驶设备所对应车群的学习动作价值,并基于各个自动驾驶设备执行驾驶动作后的回报参数值以及局部更新环境状态信息,确定车群的目标动作价值,继而根据学习动作价值以及目标动作价值,更新车群的驾驶决策策略。该方法中的每辆自动驾驶设备可以根据其观测到的局部环境状态信息,分布式地进行驾驶动作决策并执行,从而根据各个自动驾驶设备所对应车群的学习动作价值以及目标动作价值集中式地对车群的驾驶决策策略进行训练,即能够实现车群驾驶决策策略的更新,又能够避免根据全局状态、联合动作空间训练的维度爆炸问题,提高了多车驾驶决策策略的安全性和高效性,能够应对更加复杂的自动驾驶场景。
结合第一方面,在第一方面的第一实施方式中,所述基于所述学习动作价值以及所述目标动作价值,更新所述车群的驾驶决策策略,包括:基于所述学习动作价值以及所述目标动作价值,计算所述车群的价值损失函数;基于所述价值损失函数,更新所述车群的驾驶决策策略。
结合第一方面第一实施方式,在第一方面的第二实施方式中,所述基于所述学习动作价值以及所述目标动作价值,计算所述车群的价值损失函数,包括:获取所述车群的历史学习信息;计算所述目标动作价值与所述学习动作价值的差值;基于所述历史学习信息以及所述差值,计算得到所述车群的价值损失函数。
结合第一方面第二实施方式,在第一方面的第三实施方式中,所述基于所述历史学习信息以及所述差值,计算得到所述价值损失函数,包括:从所述历史学习信息抽取出预设次数的历史学习记录;计算所述差值的平方值;基于所述预设次数的历史学习记录以及所述平方值,得到所述车群的价值损失函数。
本发明实施例提供的自动驾驶设备的决策方法,通过学习动作价值以及目标动作价值,计算车群的价值损失函数,继而根据该价值损失函数更新车群的驾驶决策策略,由此实现了车群驾驶决策策略的集中式训练,避免分别训练各个自动驾驶设备的驾驶策略,降低了训练成本,提高了训练效率。
结合第一方面第一实施方式,在第一方面的第四实施方式中,所述基于所述价值损失函数,更新所述车群的驾驶决策策略,包括:获取所述车群的驾驶决策策略对应的学习价值网络参数以及目标价值网络参数;基于所述价值损失函数分别更新各个自动驾驶设备对应的所述学习价值网络参数;以更新后的所述学习价值网络参数对所述目标网络参数进行更新。
本发明实施例提供的自动驾驶设备的决策方法,通过获取车群的驾驶决策策略对应的学习价值网络参数以及目标价值网络参数,基于价值损失函数分别更新各个自动驾驶设备对应的学习价值网络参数,并以更新后的学习价值网络参数对目标网络参数进行更新,由此形成驾驶决策策略的训练闭环,提高了多车驾驶决策策略的训练准确率。
结合第一方面,在第一方面的第五实施方式中,所述基于所述各个自动驾驶设备对应的局部环境状态信息以及驾驶动作,确定所述车群的学习动作价值,包括:基于所述局部环境状态信息生成所述车群对应的全局环境状态信息;基于所述各个自动驾驶设备的驾驶动作,得到所述车群对应的联合动作信息;基于所述全局环境状态信息以及所述联合动作信息,计算得到所述车群的学习动作价值。
本发明实施例提供的自动驾驶设备的决策方法,通过局部环境状态信息生成车群对应的全局环境状态信息,并基于各个自动驾驶设备的驾驶动作,得到车群对应的联合动作信息,继而基于全局环境状态信息以及联合动作信息,计算得到车群的学习动作价值,由此各个自动驾驶设备基于局部观测信息进行动作决策,隐式地利用全局环境状态信息和联合动作信息进行驾驶策略的集中式训练,提升了多车驾驶策略的安全性与效率。
结合第一方面,在第一方面的第六实施方式中,所述基于所述各个自动驾驶设备执行所述驾驶动作后的回报参数值以及局部更新环境状态信息,确定所述车群的目标动作价值,包括:基于所述各个自动驾驶设备执行所述驾驶动作后的回报参数值以及局部更新环境状态信息,计算所述各个自动驾驶设备对应的目标价值;对所述各个自动驾驶设备对应的目标价值进行求和,得到所述车群的目标动作价值。
本发明实施例提供的自动驾驶设备的决策方法,通过各个自动驾驶设备执行驾驶动作后的回报参数值以及局部更新环境状态信息,计算各个自动驾驶设备对应的目标价值,并对各个自动驾驶设备对应的目标价值进行求和,得到车群的目标动作价值,由此能够根据所有自动驾驶设备所提供的动作价值总和,对各个自动驾驶设备进行驾驶决策的策略更新,保证了多车驾驶策略的安全性。
根据第二方面,本发明实施例提供了一种自动驾驶设备的决策装置,包括:获取模块,用于获取各个自动驾驶设备对应的局部环境状态信息、各个自动驾驶设备的驾驶动作、执行所述驾驶动作的回报参数值以及局部更新环境状态信息,所述回报参数值用于表征执行驾驶动作后当前交通环境对自动驾驶设备的反馈;第一确定模块,用于基于所述各个自动驾驶设备对应的局部环境状态信息以及驾驶动作,确定所述各个自动驾驶设备所对应车群的学习动作价值;第二确定模块,用于基于所述各个自动驾驶设备执行所述驾驶动作后的回报参数值以及局部更新环境状态信息,确定所述车群的目标动作价值;更新模块,用于基于所述学习动作价值以及所述目标动作价值,更新所述车群的驾驶决策策略。
本发明实施例提供的自动驾驶设备的决策装置,每辆自动驾驶设备可以根据其观测到的局部环境状态信息,分布式地进行驾驶动作决策并执行,从而根据各个自动驾驶设备所对应车群的学习动作价值以及目标动作价值集中式地对车群的驾驶决策策略进行训练,即能够实现车群驾驶决策策略的更新,又能够避免根据全局状态、联合动作空间训练的维度爆炸问题,提高了多车驾驶决策策略的安全性和高效性,能够应对更加复杂的自动驾驶场景。
根据第三方面,本发明实施例提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面或第一方面任一实施方式所述的自动驾驶设备的决策方法。
根据第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行第一方面或第一方面任一实施方式所述的自动驾驶设备的决策方法。
需要说明的是,本发明实施例提供的电子设备以及计算机可读存储介质的相应有益效果,请参见自动驾驶设备的决策方法中相应内容的描述,在此不再赘述。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的自动驾驶设备的决策方法的流程图;
图2是根据本发明实施例的自动驾驶设备的决策方法的另一流程图;
图3是根据本发明实施例的自动驾驶设备的决策方法的另一流程图;
图4是根据本发明实施例自动驾驶车群的驾驶决策的训练示意图;
图5是根据本发明实施例的自动驾驶设备的决策装置的结构框图;
图6是本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由于机动车数量多、车流密度大,仅靠单辆车的传感器装置无法对周围环境进行充分感知,也很难准确判断其他交通参与者的运动意图,无法为复杂交通场景提供安全、稳定的驾驶策略。目前通常借助多智能体强化学习技术,将多辆车作为一个群体进行整体调度,其中,每辆车都作为一个智能体,将获取的感知信息与其他智能体进行共享,每个智能体基于全局环境状态信息分别进行决策。尽管该方法能够帮助每个智能体获取更全面的交通环境信息,做出更安全的驾驶行为,基于全局环境信息分别训练多个自动驾驶策略的成本高,在车辆多、路况复杂的场景下会遭遇状态维度的指数级增长,限制了多智能体强化学习技术在自动驾驶领域的规模化应用。
基于此,本发明技术方案基于集中训练-分布执行(Centralized TrainingDecentralized Execution,CTDE)模式对自动驾驶车群的驾驶决策进行训练,其训练示意图如图4所示。其中,考虑变道场景中每辆车仅3个离散的动作(向左变道,向右变道,保持当前车道),对于离散动作的选择可以采用价值分解网络(Value Decomposition Networks,VQN)、Q混合网络(Q-mix network,QMIX)、Q转换(Q Transformation,QTRAN)等多智能体强化学习算法,每辆自动驾驶设备可以根据其观测到的局部环境状态信息,分布式地进行驾驶动作决策并执行,从而根据各个自动驾驶设备所对应车群的学习动作价值以及目标动作价值集中式地对车群的驾驶决策策略进行训练,避免了训练维度爆炸问题,提高了多车驾驶决策策略的安全性和高效性,能够应对更加复杂的自动驾驶场景。
根据本发明实施例,提供了一种自动驾驶设备的决策方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种自动驾驶设备的决策方法,可用于电子设备,如驾驶控制设备、驾驶服务器、驾驶控制器等,本发明实施例中选用VQN算法进行说明,图1是根据本发明实施例的自动驾驶设备的决策方法的流程图,如图1所示,该流程包括如下步骤:
S11,获取各个自动驾驶设备对应的局部环境状态信息、各个自动驾驶设备的驾驶动作、执行驾驶动作的回报参数值以及局部更新环境状态信息,其中,回报参数值用于表征执行驾驶动作后当前交通环境对自动驾驶设备的反馈。
局部环境状态信息用于表征自动驾驶设备的周边交通环境信息,例如天气数据、 交通信号灯、交通拓扑信息,当前车辆、其他交通参与者的位置、运行状态等信息。驾驶设备 上设置有摄像头、全球定位系统、惯性测量单元、毫米波雷达、激光雷达等车载传感器,电子 设备可以通过自动驾驶设备上设置的车载传感器监测其对应的局部环境状态信息
Figure 860530DEST_PATH_IMAGE001
。其中
Figure 299602DEST_PATH_IMAGE002
,N为自动驾驶设备的数量。
驾驶动作为自动驾驶设备所要执行的驾驶操作,例如向左变道、向右变道、保当前 车道,电子设备可以通过在线学习的价值网络计算得到自动驾驶设备的3个待选驾驶动作 (向左变道、向右变道、保当前车道)所对应的价值。驾驶设备可以根据贪婪算法选取其所对 应的具有最优价值的驾驶动作
Figure 841441DEST_PATH_IMAGE003
回报参数值用于表征执行驾驶动作后当前交通环境对自动驾驶设备的反馈,每个 自动驾驶设备执行驾驶动作之后,其对应的交通环境发生改变。驾驶设备可以根据是否成 功变道、是否对周围交通环境造成干扰、是否发生碰撞事故等因素,计算自动驾驶设备执行 当前变道动作后的回报参数值
Figure 340556DEST_PATH_IMAGE004
。同时,该辆车所能观测到的局部交通环境进入新的状态, 即局部更新环境状态信息
Figure DEST_PATH_IMAGE005
。各个自动驾驶设备在完成驾驶动作选取、执行以及局部环境 状态信息更新后,可以将其学习经历
Figure 767514DEST_PATH_IMAGE006
存储 至其数据缓冲区D
具体地,根据自动驾驶设备变道是否成功、是否扰乱交通、是否发生碰撞等因素,可以将回报参数值设计为:
Figure DEST_PATH_IMAGE007
其中,v是自动驾驶设备的行驶速度,
Figure 275855DEST_PATH_IMAGE008
是根据道路限速设定的参考速度,
Figure 672202DEST_PATH_IMAGE009
是设 定系数。当然,回报参数值的设计还可以为其他方式,此处不作具体限定,本领域技术人员 可以根据实际需要确定。
S12,基于各个自动驾驶设备对应的局部环境状态信息以及驾驶动作,确定各个自动驾驶设备所对应车群的学习动作价值。
学习动作价值为各个自动驾驶设备组成的车群在线学习的动作价值,对于数据缓 冲区D中每一条学习经历
Figure 342217DEST_PATH_IMAGE010
,可以确定出当前对应该学习经历
Figure 456804DEST_PATH_IMAGE010
的各个自动驾驶设备的局 部环境状态信息
Figure 237678DEST_PATH_IMAGE011
,以及各个自动驾驶设备对应的驾驶动作
Figure 754110DEST_PATH_IMAGE012
,继而根据各个自动驾驶设备对应的局部环境状态信息
Figure 860606DEST_PATH_IMAGE013
以及驾驶动作
Figure 462489DEST_PATH_IMAGE014
,计算得到车群的在线学习的动作价值
Figure 47054DEST_PATH_IMAGE015
,其中,
Figure 437951DEST_PATH_IMAGE016
用于表征局部环境状态信息
Figure 715349DEST_PATH_IMAGE017
构成的全局环境状态信息,
Figure 335686DEST_PATH_IMAGE018
用于表征 各个自动驾驶设备对应的车群联合动作。其中,
Figure 458363DEST_PATH_IMAGE019
为各个自动驾驶设备对应的价值网络参 数,
Figure 683808DEST_PATH_IMAGE020
,M为从数据缓冲区D中抽取的学习经历的数量。
S13,基于各个自动驾驶设备执行驾驶动作后的回报参数值以及局部更新环境状态信息,确定车群的目标动作价值。
目标动作价值为各个自动驾驶设备组成的车群的动作价值,对于数据缓冲区D中 每一条学习经历
Figure 132106DEST_PATH_IMAGE010
,可以确定出当前对应该学习经历
Figure 708581DEST_PATH_IMAGE010
的各个自动驾驶设备的回报参数 值
Figure 634949DEST_PATH_IMAGE021
,以及各个自动驾驶设备对应的局部更新环境状态信息
Figure 714900DEST_PATH_IMAGE022
,继而根据各个自动驾驶设备对应的回报参数值以及局部更新环境状 态信息,计算得到各个自动驾驶设备所构成的车群的目标动作价值
Figure 537363DEST_PATH_IMAGE023
Figure 335555DEST_PATH_IMAGE024
,M为从 数据缓冲区D中抽取的学习经历的数量。
S14,基于学习动作价值以及目标动作价值,更新车群的驾驶决策策略。
电子设备可以根据其确定出的车群在线学习的学习动作价值和目标动作价值,计算车群中各个自动驾驶设备所共享的价值损失函数,通过最小化价值损失函数,分别更新各个自动驾驶设备的在线学习评价网络参数以对车群的驾驶决策策略的更新。
本实施例提供的自动驾驶设备的决策方法,每辆自动驾驶设备可以根据其观测到的局部环境状态信息,分布式地进行驾驶动作决策并执行,从而根据各个自动驾驶设备所对应车群的学习动作价值以及目标动作价值集中式地对车群的驾驶决策策略进行训练,即能够实现车群驾驶决策策略的更新,又能够避免根据全局状态、联合动作空间训练的维度爆炸问题,提高了多车驾驶决策策略的安全性和高效性,能够应对更加复杂的自动驾驶场景。
在本实施例中提供了一种自动驾驶设备的决策方法,可用于电子设备,如驾驶控制设备、驾驶服务器、驾驶控制器等,图2是根据本发明实施例的自动驾驶设备的决策方法的流程图,如图2所示,该流程包括如下步骤:
S21,获取各个自动驾驶设备对应的局部环境状态信息、各个自动驾驶设备的驾驶动作、执行驾驶动作的回报参数值以及局部更新环境状态信息,其中,回报参数值用于表征执行驾驶动作后当前交通环境对自动驾驶设备的反馈。详细说明参见上述实施例对应的相关描述,此处不再赘述。
S22,基于各个自动驾驶设备对应的局部环境状态信息以及驾驶动作,确定各个自动驾驶设备所对应车群的学习动作价值。详细说明参见上述实施例对应的相关描述,此处不再赘述。
S23,基于各个自动驾驶设备执行驾驶动作后的回报参数值以及局部更新环境状态信息,确定车群的目标动作价值。详细说明参见上述实施例对应的相关描述,此处不再赘述。
S24,基于学习动作价值以及目标动作价值,更新车群的驾驶决策策略。
具体地,上述步骤S24可以包括:
S241,基于学习动作价值以及目标动作价值,计算车群的价值损失函数。
价值损失函数用于对驾驶策略的相关学习参数进行优化,电子设备根据其确定出的车群的学习动作价值以及目标动作价值,对车群的价值损失函数进行计算。
具体地,上述步骤S241可以包括:
(1)获取车群的历史学习信息。
历史学习信息为存储于数据缓冲区D中的在线学习记录,电子设备可以通过访问自动驾驶设备对应的数据缓冲区D,从中获取到各个自动驾驶设备所对应的历史学习信息。
(2)计算目标动作价值与学习动作价值的差值。
电子设备可以计算目标动作价值
Figure 65613DEST_PATH_IMAGE023
与学习动作价值
Figure 265650DEST_PATH_IMAGE025
之间的差值P, 即
Figure 58682DEST_PATH_IMAGE026
(3)基于历史学习信息以及差值,计算得到车群的价值损失函数。
电子设备可以根据其获取到的历史学习信息以及目标动作价值与学习动作价值的差值,即可计算出车群的价值损失函数L。具体地,上述步骤(3)可以包括:
(31)从历史学习信息抽取出预设次数的历史学习记录。
历史学习记录为自动驾驶设备的在线学习记录,预设次数为随机抽取的在线学习记录的预先设定值,该预设次数可以为32,可以为64,还可以为其他值,此处不作具体限定,本领域技术人员可以根据实际需求确定。电子设备可以通过访问数据缓冲区D,从数据缓冲区D中随机抽取出对应于自动驾驶设备的M条在线学习记录。
(32)计算差值的平方值。
电子设备可以计算目标动作价值
Figure 344169DEST_PATH_IMAGE023
与学习动作价值
Figure 815602DEST_PATH_IMAGE025
之间的差值P 的平方值,即
Figure 870146DEST_PATH_IMAGE027
(33)基于预设次数的历史学习记录以及平方值,得到车群的价值损失函数。
电子设备根据预设次数的历史学习记录以及平方值,可以计算出M条历史学习记录的价值损失函数,该价值损失函数L的计算公式如下:
Figure 831149DEST_PATH_IMAGE028
S242,基于价值损失函数更新车群的驾驶决策策略。
价值损失函数为车群中各个自动驾驶设备所共享的,电子设置在计算得到车群的价值损失函数L之后,可以通过最小化该价值损失函数,以对车群中各个自动驾驶设备的在线学习的价值网络参数进行更新,该价值网络参数用于决策自动驾驶设备的驾驶策略。
具体地,上述步骤S242可以包括:
(1)获取车群的驾驶决策策略对应的学习价值网络参数以及目标价值网络参数。
在线学习的价值网络可以采用过4层网络结构:第1层为输入层,用于读入局部环 境状态信息
Figure 603932DEST_PATH_IMAGE029
;第2-3层为隐藏层,其可以采用线性整流函数(Rectified Linear Unit, ReLU)函数作为激活函数;第4层为输出层,无需使用激活函数,计算得到基于局部环境状态 信息
Figure 675794DEST_PATH_IMAGE029
和所有待选驾驶动作a的在线学习的价值网络
Figure 850423DEST_PATH_IMAGE030
。驾驶设备所选定的驾驶 动作
Figure 920010DEST_PATH_IMAGE031
,其中,
Figure 180090DEST_PATH_IMAGE032
为自动驾驶设备对应的在线学习价值网络参数,
Figure 790063DEST_PATH_IMAGE033
,N为自动驾驶设备的数量。
基于CTDE的自动驾驶设备车群包含有2N组价值网络,即在线学习的价值网络,以 及与之具有相同结构、但更新频率不同的目标评价网络
Figure 84778DEST_PATH_IMAGE034
。其中,
Figure 122004DEST_PATH_IMAGE035
为自动驾 驶设备对应的目标价值网络参数。
需要说明的是,在对车群驾驶决策策略进行训练前,电子设备会对各个自动驾驶设备对应的价值网络参数以及目标价值网络参数进行初始化。
(2)基于价值损失函数分别更新各个自动驾驶设备对应的学习价值网络参数,以更新后的学习价值网络参数对目标网络参数进行更新。
各个自动驾驶设备之间共享同一个价值损失函数L,对价值损失函数L进行最小化 处理,得到最小化价值损失函数,通过该最小化价值损失函数分别更新各个自动驾驶设备 的在线学习价值网络参数
Figure 869381DEST_PATH_IMAGE036
。继而将在线学习价值网络参数
Figure 283044DEST_PATH_IMAGE036
赋值给目标评价网络,实现 对目标价值网络参数
Figure 166687DEST_PATH_IMAGE035
的更新。
本实施例提供的自动驾驶设备的决策方法,通过学习动作价值以及目标动作价值,计算车群的价值损失函数,继而根据该价值损失函数更新车群的驾驶决策策略,由此实现了车群驾驶决策策略的集中式训练,避免分别训练各个自动驾驶设备的驾驶策略,降低了训练成本,提高了训练效率。通过获取车群的驾驶决策策略对应的学习价值网络参数以及目标价值网络参数,基于价值损失函数分别更新各个自动驾驶设备对应的学习价值网络参数,并以更新后的学习价值网络参数对目标网络参数进行更新,由此形成驾驶决策策略的训练闭环,提高了多车驾驶决策策略的训练准确率。
在本实施例中提供了一种自动驾驶设备的决策方法,可用于电子设备,如驾驶控制设备、驾驶服务器、驾驶控制器等,图3是根据本发明实施例的自动驾驶设备的决策方法的流程图,如图3所示,该流程包括如下步骤:
S31,获取各个自动驾驶设备对应的局部环境状态信息、各个自动驾驶设备的驾驶动作、执行驾驶动作的回报参数值以及局部更新环境状态信息,其中,回报参数值用于表征执行驾驶动作后当前交通环境对自动驾驶设备的反馈。详细说明参见上述实施例对应的相关描述,此处不再赘述。
S32,基于各个自动驾驶设备对应的局部环境状态信息以及驾驶动作,确定各个自动驾驶设备所对应车群的学习动作价值。
具体地,上述步骤S32可以包括:
S321,基于局部环境状态信息生成车群对应的全局环境状态信息。
各个自动驾驶设备可以构成车群,电子设备将各个自动驾驶设备所对应的局部环 境状态信息
Figure DEST_PATH_IMAGE037
进行整合,生成该车群所对应的全局环境状态信息
Figure 374814DEST_PATH_IMAGE038
S322,基于各个自动驾驶设备的驾驶动作,得到车群对应的联合动作信息。
电子设备在基于当前环境状态信息确定出其所要执行的驾驶动作
Figure DEST_PATH_IMAGE039
之后,可以对 各个自动驾驶设备所对应的驾驶动作
Figure 872136DEST_PATH_IMAGE039
进行整合,生成该车群所对应的联合动作信息
Figure 89491DEST_PATH_IMAGE040
S323,基于全局环境状态信息以及联合动作信息,计算得到车群的学习动作价值。
电子设备可以根据各个自动驾驶设备对应的全局环境状态信息
Figure 93219DEST_PATH_IMAGE041
以及联合动作信息
Figure 472247DEST_PATH_IMAGE040
,计算得到车群的在线学习 的动作价值
Figure 131899DEST_PATH_IMAGE042
。车群的学习动作价值近似可以为各个自动驾驶设备的在线学习 价值之和,即
Figure 887365DEST_PATH_IMAGE043
S33,基于各个自动驾驶设备执行驾驶动作后的回报参数值以及局部更新环境状态信息,确定车群的目标动作价值。
具体地,上述步骤S33可以包括:
S331,基于各个自动驾驶设备执行驾驶动作后的回报参数值以及局部更新环境状态信息,计算各个自动驾驶设备对应的目标价值。
对于每个自动驾驶设备i而言,电子设备可以基于获得的回报参数值
Figure 11179DEST_PATH_IMAGE044
和更新后 的局部环境状态
Figure DEST_PATH_IMAGE045
,分别计算出各个自动驾驶设备对应的目标价值:
Figure 357847DEST_PATH_IMAGE046
。其中,
Figure 301532DEST_PATH_IMAGE047
为折扣因子,该折扣因子为介于0- 1之间的常数。
S332,对各个自动驾驶设备对应的目标价值进行求和,得到车群的目标动作价值。
电子设备将其计算得到的各个自动驾驶设备对应的目标价值进行求和计算,即可 得到各个自动驾驶设备所构成的车群的目标动作价值,即目标动作价值
Figure 798373DEST_PATH_IMAGE048
S34,基于学习动作价值以及目标动作价值,更新车群的驾驶决策策略。详细说明参见上述实施例对应的相关描述,此处不再赘述。
本实施例提供的自动驾驶设备的决策方法,通过局部环境状态信息生成车群对应的全局环境状态信息,并基于各个自动驾驶设备的驾驶动作,得到车群对应的联合动作信息,继而基于全局环境状态信息以及联合动作信息,计算得到车群的学习动作价值,由此各个自动驾驶设备基于局部观测信息进行动作决策,隐式地利用全局环境状态信息和联合动作信息进行驾驶策略的集中式训练,提升了多车驾驶策略的安全性与效率。通过各个自动驾驶设备执行驾驶动作后的回报参数值以及局部更新环境状态信息,计算各个自动驾驶设备对应的目标价值,并对各个自动驾驶设备对应的目标价值进行求和,得到车群的目标动作价值,由此能够根据所有自动驾驶设备所提供的动作价值总和,对各个自动驾驶设备进行驾驶决策的策略更新,保证了多车驾驶策略的安全性。
在本实施例中还提供了一种自动驾驶设备的决策装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种自动驾驶设备的决策装置,如图5所示,包括:
获取模块41,用于获取各个自动驾驶设备对应的局部环境状态信息、各个自动驾驶设备的驾驶动作、执行驾驶动作的回报参数值以及局部更新环境状态信息,其中,回报参数值用于表征执行驾驶动作后当前交通环境对自动驾驶设备的反馈。详细说明参见上述方法实施例对应的相关描述,此处不再赘述。
第一确定模块42,用于基于各个自动驾驶设备对应的局部环境状态信息以及驾驶动作,确定各个自动驾驶设备所对应车群的学习动作价值。详细说明参见上述方法实施例对应的相关描述,此处不再赘述。
第二确定模块43,用于基于各个自动驾驶设备执行驾驶动作后的回报参数值以及局部更新环境状态信息,确定车群的目标动作价值。详细说明参见上述方法实施例对应的相关描述,此处不再赘述。
更新模块44,用于基于学习动作价值以及目标动作价值,更新车群的驾驶决策策略。详细说明参见上述方法实施例对应的相关描述,此处不再赘述。
本实施例提供的自动驾驶设备的决策装置,每辆自动驾驶设备可以根据其观测到的局部环境状态信息,分布式地进行驾驶动作决策并执行,从而根据各个自动驾驶设备所对应车群的学习动作价值以及目标动作价值集中式地对车群的驾驶决策策略进行训练,即能够实现车群驾驶决策策略的更新,又能够避免根据全局状态、联合动作空间训练的维度爆炸问题,提高了多车驾驶决策策略的安全性和高效性,能够应对更加复杂的自动驾驶场景。
本实施例中的自动驾驶设备的决策装置是以功能单元的形式来呈现,这里的单元是指ASIC电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
上述各模块的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本发明实施例还提供一种电子设备,具有上述图5所示的自动驾驶设备的决策装置。
请参阅图6,图6是本发明可选实施例提供的一种电子设备的结构示意图,如图6所示,该电子设备可以包括:至少一个处理器501,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口503,存储器504,至少一个通信总线502。其中,通信总线502用于实现这些组件之间的连接通信。其中,通信接口503可以包括显示屏(Display)、键盘(Keyboard),可选通信接口503还可以包括标准的有线接口、无线接口。存储器504可以是高速RAM存储器(Random Access Memory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器504可选的还可以是至少一个位于远离前述处理器501的存储装置。其中处理器501可以结合图5所描述的装置,存储器504中存储应用程序,且处理器501调用存储器504中存储的程序代码,以用于执行上述任一方法步骤。
其中,通信总线502可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。通信总线502可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器504可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD);存储器504还可以包括上述种类存储器的组合。
其中,处理器501可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,处理器501还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic, 缩写:GAL)或其任意组合。
可选地,存储器504还用于存储程序指令。处理器501可以调用程序指令,实现如本申请图1至图3实施例中所示的自动驾驶设备的决策方法。
本发明实施例还提供了一种非暂态计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的自动驾驶设备的决策方法的处理方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(FlashMemory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (9)

1.一种自动驾驶设备的决策方法,用于价值分解网络,其特征在于,包括:
获取各个自动驾驶设备对应的局部环境状态信息、各个自动驾驶设备的驾驶动作、执行所述驾驶动作的回报参数值以及局部更新环境状态信息,所述回报参数值用于表征执行驾驶动作后当前交通环境对自动驾驶设备的反馈;
基于所述各个自动驾驶设备对应的局部环境状态信息以及驾驶动作,确定所述各个自动驾驶设备所对应车群的学习动作价值;所述学习动作价值用于表征所述各个自动驾驶设备组成的车群在线学习的动作价值;
基于所述各个自动驾驶设备执行所述驾驶动作后的回报参数值以及局部更新环境状态信息,确定所述车群的目标动作价值;所述目标动作价值用于表征所述各个自动驾驶设备组成的车群执行驾驶动作的动作价值;
基于所述学习动作价值以及所述目标动作价值,计算所述车群的价值损失函数;
基于所述价值损失函数的最小化处理结果,更新所述车群的驾驶决策策略。
2.根据权利要求1所述的方法,其特征在于,所述基于所述学习动作价值以及所述目标动作价值,计算所述车群的价值损失函数,包括:
获取所述车群的历史学习信息;
计算所述目标动作价值与所述学习动作价值的差值;
基于所述历史学习信息以及所述差值,计算得到所述车群的价值损失函数。
3.根据权利要求2所述方法,其特征在于,所述基于所述历史学习信息以及所述差值,计算得到所述价值损失函数,包括:
从所述历史学习信息抽取出预设次数的历史学习记录;
计算所述差值的平方值;
基于所述预设次数的历史学习记录以及所述平方值,得到所述车群的价值损失函数。
4.根据权利要求1所述的方法,其特征在于,还包括:
获取所述车群的驾驶决策策略对应的学习价值网络参数以及目标价值网络参数;
基于所述价值损失函数分别更新各个自动驾驶设备对应的所述学习价值网络参数;
以更新后的所述学习价值网络参数对所述目标价值网络参数进行更新。
5.根据权利要求1所述的方法,其特征在于,所述基于所述各个自动驾驶设备对应的局部环境状态信息以及驾驶动作,确定所述车群的学习动作价值,包括:
基于所述局部环境状态信息生成所述车群对应的全局环境状态信息;
基于所述各个自动驾驶设备的驾驶动作,得到所述车群对应的联合动作信息;
基于所述全局环境状态信息以及所述联合动作信息,计算得到所述车群的学习动作价值。
6.根据权利要求1所述的方法,其特征在于,所述基于所述各个自动驾驶设备执行所述驾驶动作后的回报参数值以及局部更新环境状态信息,确定所述车群的目标动作价值,包括:
基于所述各个自动驾驶设备执行所述驾驶动作后的回报参数值以及局部更新环境状态信息,计算所述各个自动驾驶设备对应的目标价值;
对所述各个自动驾驶设备对应的目标价值进行求和,得到所述车群的目标动作价值。
7.一种自动驾驶设备的决策装置,用于价值分解网络,其特征在于,包括:
获取模块,用于获取各个自动驾驶设备对应的局部环境状态信息、各个自动驾驶设备的驾驶动作、执行所述驾驶动作的回报参数值以及局部更新环境状态信息,所述回报参数值用于表征执行驾驶动作后当前交通环境对自动驾驶设备的反馈;
第一确定模块,用于基于所述各个自动驾驶设备对应的局部环境状态信息以及驾驶动作,确定所述各个自动驾驶设备所对应车群的学习动作价值;所述学习动作价值用于表征所述各个自动驾驶设备组成的车群在线学习的动作价值;
第二确定模块,用于基于所述各个自动驾驶设备执行所述驾驶动作后的回报参数值以及局部更新环境状态信息,确定所述车群的目标动作价值;所述目标动作价值用于表征所述各个自动驾驶设备组成的车群执行驾驶动作的动作价值;
更新模块,用于基于所述学习动作价值以及所述目标动作价值,计算所述车群的价值损失函数;基于所述价值损失函数的最小化处理结果,更新所述车群的驾驶决策策略。
8.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-6任一项所述的自动驾驶设备的决策方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行权利要求1-6任一项所述的自动驾驶设备的决策方法。
CN202210090540.8A 2022-01-26 2022-01-26 自动驾驶设备的决策方法、装置、设备及可读存储介质 Active CN114104005B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210090540.8A CN114104005B (zh) 2022-01-26 2022-01-26 自动驾驶设备的决策方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210090540.8A CN114104005B (zh) 2022-01-26 2022-01-26 自动驾驶设备的决策方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN114104005A CN114104005A (zh) 2022-03-01
CN114104005B true CN114104005B (zh) 2022-04-19

Family

ID=80361480

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210090540.8A Active CN114104005B (zh) 2022-01-26 2022-01-26 自动驾驶设备的决策方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN114104005B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107168303A (zh) * 2017-03-16 2017-09-15 中国科学院深圳先进技术研究院 一种汽车的自动驾驶方法及装置
CN109733415A (zh) * 2019-01-08 2019-05-10 同济大学 一种基于深度强化学习的拟人化自动驾驶跟驰模型
JPWO2017213064A1 (ja) * 2016-06-09 2019-05-16 日本電気株式会社 車両制御システム、車両制御方法およびプログラム
CN110686906A (zh) * 2019-10-09 2020-01-14 清华大学 车辆自动驾驶测试方法及装置
WO2020140047A1 (en) * 2018-12-28 2020-07-02 Nvidia Corporation Distance to obstacle detection in autonomous machine applications
CN111605565A (zh) * 2020-05-08 2020-09-01 昆山小眼探索信息科技有限公司 基于深度强化学习的自动驾驶行为决策方法
CN111845741A (zh) * 2020-06-28 2020-10-30 江苏大学 一种基于分层强化学习的自动驾驶决策控制方法及系统
CN112099496A (zh) * 2020-09-08 2020-12-18 苏州浪潮智能科技有限公司 一种自动驾驶训练方法、装置、设备及介质
CN112150808A (zh) * 2020-09-25 2020-12-29 天津大学 一种基于深度学习的城市交通系统调度策略生成方法
CN112232490A (zh) * 2020-10-26 2021-01-15 大连大学 一种基于视觉的深度模仿强化学习驾驶策略训练方法
CN112249032A (zh) * 2020-10-29 2021-01-22 浪潮(北京)电子信息产业有限公司 一种自动驾驶决策方法、系统、设备及计算机存储介质
CN113052312A (zh) * 2021-03-31 2021-06-29 北京字节跳动网络技术有限公司 深度强化学习模型的训练方法、装置、介质及电子设备
CN113297783A (zh) * 2020-02-24 2021-08-24 大众汽车股份公司 支持运输工具或机器人的机动动作规划的方法和设备
CN113682312A (zh) * 2021-09-23 2021-11-23 中汽创智科技有限公司 一种融合深度强化学习的自主换道方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109213134B (zh) * 2017-07-03 2020-04-28 百度在线网络技术(北京)有限公司 生成自动驾驶策略的方法和装置
US10845815B2 (en) * 2018-07-27 2020-11-24 GM Global Technology Operations LLC Systems, methods and controllers for an autonomous vehicle that implement autonomous driver agents and driving policy learners for generating and improving policies based on collective driving experiences of the autonomous driver agents
CN109765820B (zh) * 2019-01-14 2019-08-09 南栖仙策(南京)科技有限公司 一种用于自动驾驶控制策略的训练系统
KR102267316B1 (ko) * 2019-03-05 2021-06-21 네이버랩스 주식회사 심층 강화 학습에 기반한 자율주행 에이전트의 학습 방법 및 시스템
KR20200135630A (ko) * 2019-05-23 2020-12-03 현대자동차주식회사 자율 주행 차량의 제어장치 및 그 방법

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2017213064A1 (ja) * 2016-06-09 2019-05-16 日本電気株式会社 車両制御システム、車両制御方法およびプログラム
CN107168303A (zh) * 2017-03-16 2017-09-15 中国科学院深圳先进技术研究院 一种汽车的自动驾驶方法及装置
WO2020140047A1 (en) * 2018-12-28 2020-07-02 Nvidia Corporation Distance to obstacle detection in autonomous machine applications
CN109733415A (zh) * 2019-01-08 2019-05-10 同济大学 一种基于深度强化学习的拟人化自动驾驶跟驰模型
CN110686906A (zh) * 2019-10-09 2020-01-14 清华大学 车辆自动驾驶测试方法及装置
CN113297783A (zh) * 2020-02-24 2021-08-24 大众汽车股份公司 支持运输工具或机器人的机动动作规划的方法和设备
CN111605565A (zh) * 2020-05-08 2020-09-01 昆山小眼探索信息科技有限公司 基于深度强化学习的自动驾驶行为决策方法
CN111845741A (zh) * 2020-06-28 2020-10-30 江苏大学 一种基于分层强化学习的自动驾驶决策控制方法及系统
CN112099496A (zh) * 2020-09-08 2020-12-18 苏州浪潮智能科技有限公司 一种自动驾驶训练方法、装置、设备及介质
CN112150808A (zh) * 2020-09-25 2020-12-29 天津大学 一种基于深度学习的城市交通系统调度策略生成方法
CN112232490A (zh) * 2020-10-26 2021-01-15 大连大学 一种基于视觉的深度模仿强化学习驾驶策略训练方法
CN112249032A (zh) * 2020-10-29 2021-01-22 浪潮(北京)电子信息产业有限公司 一种自动驾驶决策方法、系统、设备及计算机存储介质
CN113052312A (zh) * 2021-03-31 2021-06-29 北京字节跳动网络技术有限公司 深度强化学习模型的训练方法、装置、介质及电子设备
CN113682312A (zh) * 2021-09-23 2021-11-23 中汽创智科技有限公司 一种融合深度强化学习的自主换道方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Incremental Automatic Vehicle Control Algorithm Based on Fast Pursuit Point Estimation;Bingwei Xu等;《Proceedings of the 2020 4th CAA International Conference on Vehicular Control and Intelligence》;20201218;全文 *
基于深度强化学习的自动驾驶车控制算法研究;王丙琛等;《郑州大学学报( 工学版)》;20200526;全文 *
深度学习在自动驾驶领域应用综述;段续庭等;《无人系统技术》;20211115;全文 *
考虑驾驶风格的智能车自主驾驶决策方法;王鑫鹏等;《交通信息与安全》;20200628(第02期);全文 *

Also Published As

Publication number Publication date
CN114104005A (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
WO2022052406A1 (zh) 一种自动驾驶训练方法、装置、设备及介质
EP3948794B1 (en) Systems and methods for generating synthetic sensor data via machine learning
CN110834644B (zh) 一种车辆控制方法、装置、待控制车辆及存储介质
JP7367183B2 (ja) 占有予測ニューラルネットワーク
US11537127B2 (en) Systems and methods for vehicle motion planning based on uncertainty
CN109991987B (zh) 自动驾驶决策方法及装置
US20230124864A1 (en) Graph Representation Querying of Machine Learning Models for Traffic or Safety Rules
CN110843789B (zh) 一种基于时序卷积网络的车辆换道意图预测方法
CN110562258A (zh) 一种车辆自动换道决策的方法、车载设备和存储介质
CN112382165B (zh) 驾驶策略生成方法、装置、介质、设备及仿真系统
CN114514524A (zh) 多智能体模拟
CN113343461A (zh) 自动驾驶车辆的仿真方法、装置、电子设备及存储介质
CN112784867A (zh) 利用合成图像训练深度神经网络
DE102021114077A1 (de) System zum Erweitern der Funktionalität einer durch Schlussfolgerungssysteme auf Symbolik/Logik-Basis erzeugten Hypothese
CN114104005B (zh) 自动驾驶设备的决策方法、装置、设备及可读存储介质
CN116461507A (zh) 一种车辆驾驶决策方法、装置、设备和存储介质
US20230192118A1 (en) Automated driving system with desired level of driving aggressiveness
CN114120653A (zh) 一种集中式车群决策控制方法、装置及电子设备
Arbabi et al. Planning for autonomous driving via interaction-aware probabilistic action policies
CN114889608A (zh) 一种基于注意力机制的车辆换道预测方法
CN115454082A (zh) 车辆避障方法及系统、计算机可读存储介质和电子设备
US10977783B1 (en) Quantifying photorealism in simulated data with GANs
JP2023531927A (ja) 運転意思決定方法および運転意思決定装置ならびにチップ
CN112766310B (zh) 一种节油换道决策方法和系统
CN115860105A (zh) 行人模型的训练方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant