CN109991987A - 自动驾驶决策方法及装置 - Google Patents
自动驾驶决策方法及装置 Download PDFInfo
- Publication number
- CN109991987A CN109991987A CN201910354778.5A CN201910354778A CN109991987A CN 109991987 A CN109991987 A CN 109991987A CN 201910354778 A CN201910354778 A CN 201910354778A CN 109991987 A CN109991987 A CN 109991987A
- Authority
- CN
- China
- Prior art keywords
- decision
- income
- result
- calculated
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 90
- 230000007613 environmental effect Effects 0.000 claims abstract description 24
- 238000004590 computer program Methods 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 6
- 235000013399 edible fruits Nutrition 0.000 claims description 5
- 230000001133 acceleration Effects 0.000 claims description 4
- 230000008901 benefit Effects 0.000 abstract description 5
- 230000001737 promoting effect Effects 0.000 abstract description 5
- 238000004880 explosion Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0214—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0223—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0238—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
- G05D1/024—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors in combination with a laser
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0246—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
- G05D1/0253—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting relative motion information from a plurality of images taken successively, e.g. visual odometry, optical flow
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0255—Control of position or course in two dimensions specially adapted to land vehicles using acoustic signals, e.g. ultra-sonic singals
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0257—Control of position or course in two dimensions specially adapted to land vehicles using a radar
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明提供了一种自动驾驶决策方法,包括:获取车辆周围的环境感知信息;根据环境感知信息和预设的地图文件,进行决策,生成多个决策节点;通过第一模型计算每个决策节点的输出,生成第一决策结果;通过第二模型计算每个决策节点的输出,生成第二决策结果;根据环境预测信息,分别计算第一决策结果的第一收益和第二决策结果的第二收益;比较第一收益和第二收益,并将收益值高的对应的决策结果作为目标决策结果。由此,避免产生“维度爆炸”现象,并且可以直观反映各个阶段的决策结果,充分结合了规则方法和强化学习方法各自的优势,在某个场景的决策结果不一致时能够快速定位问题,实现两个模型的相互促进和共同提升。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种自动驾驶决策方法及装置。
背景技术
随着科学技术的飞速发展,自动驾驶车辆的应用领域日益扩大,各个国家都对其投入了大量科研力量。自动驾驶车辆是一个集导航、环境感知、决策规划和人机交互等多项功能于一体的综合智能系统,而决策模块是自动驾驶系统的重要组成部分,直接反映了自动驾驶车辆的智能性。
决策模块作为“自动驾驶大脑”需要结合驾驶任务和行驶环境输出合理的驾驶行为,然而由于驾驶场景的多样化和复杂性,很难保证决策结果的可行性和一致性,因此设计一种安全有效且鲁棒性强的自动驾驶决策方法具有非常重要的意义。
目前应用较多的自动驾驶决策方法可大致分为规则方法、学习方法以及二者相结合的方法。基于规则的方法通常采用状态机或行为树实现,将行驶环境划分为不同的子场景并调用对应的处理程序对场景中的目标提出建议行为,通过预设的优先级和约束条件做出驾驶决策。
基于学习的方法将行驶环境抽象为特征状态空间,采用机器学习或强化学习算法根据奖励模型生成状态空间到驾驶行为的映射,通过仿真或真实驾驶数据训练网络得到驾驶策略。
规则与学习相结合的方法首先通过学习方法做出驾驶决策,将决策结果进行安全性校验或者与规则方法得到的结果进行比较,若决策结果不满足安全性或者与规则方法得到的决策结果差距较大则采用规则方法生成的驾驶行为。
然而,基于规则的方法需要设计非常复杂的逻辑,参数过多导致调试困难。针对特定场景设计的方法容易产生过拟合,无法适应所有场景。而各种行为和场景之间存在一定的冲突和依赖,耦合性严重不利于功能扩展。基于学习的方法依赖大量的数据和计算资源,模型存在“维数灾难”问题且不具有可解释性。而决策结果无法保证绝对安全,难以应用到实际的自动驾驶中。现有规则与学习相结合的方法只是单独实现两种方法并进行简单的校验,仍存在学习算法训练成本较高以及规则方法复杂且不智能的问题。
发明内容
本发明实施例的目的是提供一种自动驾驶决策方法及装置,以解决现有技术中存在的参数过多导致调试困难、无法适应所有场景、学习算法训练成本较高以及规则方法复杂且不智能等的问题。
为解决上述问题,第一方面,本发明提供了一种自动驾驶决策方法,所述方法包括:
获取车辆周围的环境感知信息;
根据所述环境感知信息和预设的地图文件,进行决策,生成多个决策节点;
通过第一模型计算每个决策节点的输出,生成第一决策结果;
通过第二模型计算每个决策节点的输出,生成第二决策结果;
根据环境预测信息,分别计算所述第一决策结果的第一收益和所述第二决策结果的第二收益;
比较所述第一收益和所述第二收益,并将收益值高的对应的决策结果作为目标决策结果。
在一种可能的实现方式中,所述第一模型为规则模型,所述通过第一模型计算每个决策节点的输出,生成第一决策结果,具体包括:
通过规则方法,计算每个决策节点的输出,多个所述决策节点的输出,构成第一决策结果。
在一种可能的实现方式中,所述第二模型为混合模型,所述通过第二模型计算每个决策节点的输出,生成第二决策结果,具体包括:
通过规则方法,计算多个所述决策节点中的第一数量个第一类型决策节点的输出;所述多个决策节点包括第一数量个第一类型决策节点和第二数量个第二类型决策节点;
通过强化学习方法,计算多个所述决策节点中的第二数量个第二类型决策节点的输出;
通过所述第一数量个第一类型决策节点的输出和所述第二数量个第二类型决策节点的输出,生成第二决策结果。
在一种可能的实现方式中,所述根据环境预测信息,分别计算所述第一决策结果的第一收益和所述第二决策结果的第二收益,具体包括:
根据所述第一决策结果,计算第一规划轨迹;
根据所述环境预测信息和所述第一规划轨迹,计算第一收益;
根据所述第二决策结果,计算第二规划轨迹;
根据所述环境预测信息和所述第二规划轨迹,计算第二收益。
在一种可能的实现方式中,所述根据所述环境预测信息和所述第一规划轨迹,计算第一收益;或者,根据所述环境预测信息和所述第二规划轨迹,计算第二收益,具体包括:
计算车辆第一规划轨迹、第二规划轨迹分别与障碍物预测轨迹的最小值,并将最小值作为安全性指标;
分别计算车辆第一规划轨迹、第二规划轨迹的横摆角速度和加速度,并将其作为舒适性指标;
分别计算车辆第一规划轨迹、第二规划轨迹的目标速度,并将其作为效率指标;
根据第一规划轨迹的安全性指标、舒适性指标和效率指标,计算第一收益;
根据第二规划轨迹的安全性指标、舒适性指标和效率指标,计算第二收益。
在一种可能的实现方式中,所述方法之后还包括:
当所述第一收益大于所述第二收益时,迭代的设置所述第二模型的参数,直至所述第一收益与第二收益的差值不大于预设阈值;或者,
当所述第一收益小于所述第二收益时,迭代的设置所述第一模型的参数,直至所述第一收益与第二收益的差值不大于预设阈值。
第二方面,本发明提供了一种自动驾驶决策装置,所述装置包括:
决策节点创建模块,所述决策节点创建模块用于获取车辆周围的环境感知信息;
所述决策节点创建模块还用于,根据所述环境感知信息和预设的地图文件,进行决策,生成多个决策节点;
决策模型实现模块,所述决策模型实现模块用于通过第一模型计算每个决策节点的输出,生成第一决策结果;
所述决策模型实现模块用于还用于,通过第二模型计算每个决策节点的输出,生成第二决策结果;
执行模拟模块,所述执行模拟模块用于根据环境预测信息,分别计算所述第一决策结果的第一收益和所述第二决策结果的第二收益;
决策评价模块,所述决策评价模块用于比较所述第一收益和所述第二收益,并将收益值高的对应的决策结果作为目标决策结果。
第三方面,本发明提供了一种设备,包括存储器和处理器,所述存储器用于存储程序,所述处理器用于执行第一方面任一所述的方法。
第四方面,本发明提供了一种包含指令的计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如第一方面任一所述的方法。
第五方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一所述的方法。
通过应用本发明提供的自动驾驶决策方法及装置,具有如下技术效果:
1、基于分层框架将驾驶决策分解为若干子问题分别进行求解,降低了状态空间的维度(比如先确定向左换道后,确定换道间隙的模型只需要输入当前车道和左侧车道的车辆即可,不需要输入右侧车道的车辆),避免产生“维度爆炸”现象,并且可以直观反映各个阶段的决策结果,简化了问题复杂度的同时实现了逻辑的可视化。
2、混合模型中的每个决策节点可以采用规则方法或强化学习方法实现,充分结合了规则方法和强化学习方法各自的优势,同时保证了决策模型的模块化和灵活性。
3、规则模型和混合模型结构完全相同,在某个场景的决策结果不一致时能够快速定位问题,并基于此场景对表现不好的模型进行完善,可以实现二者的相互促进和共同提升。
附图说明
图1为本发明实施例一提供的自动驾驶决策方法流程示意图;
图2为本发明实施例一提供的分层决策框架示意图;
图3A为本发明实施例一提供的第一模型示意图;
图3B为为本发明实施例一提供的第二模型示意图;
图4为本发明实施例一提供的模型更新流程图;
图5为本发明实施例二提供的自动驾驶决策装置结构示意图;
图6为本发明实施例二提供的自动驾驶决策装置又一结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1为本发明实施例一提供的自动驾驶决策方法流程示意图。该方法应用在车辆中,该方法的执行主体为车辆控制单元。如图1所示,该方法包括以下步骤:
步骤101,获取车辆周围的环境感知信息。
具体的,自动驾驶车辆在行驶过程中,车辆控制单元可以接收安装在车辆上的激光雷达、超声波雷达、摄像头、AVT相机等传感器测量到的信息,通过对该些信息进行融合处理,得到环境感知信息。
步骤102,根据环境感知信息和预设的地图文件,进行决策,生成多个决策节点。
具体的,车辆控制单元可以通过向服务器发送消息,从而获取到地图文件,也可以直接调用车辆的存储单元中的地图文件。其中,该存储单元可以设置在车辆控制单元中,也可以不设置在车辆控制单元中,而通过控制器局域网络(Controller Area Network,CAN)总线和车辆控制单元进行交互。
可以根据环境感知信息和预设的地图文件,进行决策,在进行决策时,可以根据人类驾驶经验,将决策逻辑分解为若干子步骤,并采用分层决策框架将每个子步骤作为一个决策节点。
步骤103,通过第一模型计算每个决策节点的输出,生成第一决策结果。
具体的,参见图2,图2为将决策过程分解为多个子步骤的示意图。图2中每个圆圈表示一个决策节点,每个决策节点的输出可以是起步、停车、换道和让行等驾驶行为,或者,车辆的方向,或者车道等。
参见图3A,第一模型可以是规则模型,规则模型中,对于每个决策节点,采用规则方法计算每个决策节点的输出,多个决策节点的输出,构成第一决策结果。
步骤104,通过第二模型计算每个决策节点的输出,生成第二决策结果。
参见图3B,第二模型可以是混合模型,在混合模型中,首先,可以通过规则方法,计算多个决策节点中的第一数量个第一类型决策节点(参见图3B中的白色决策节点)的输出;多个决策节点包括第一数量个第一类型决策节点和第二数量个第二类型决策节点。然后,可以通过强化学习方法,计算多个决策节点中的第二数量个第二类型决策节点(参见图3B中的黑色决策节点)的输出。最后,通过第一数量个第一类型决策节点的输出和第二数量个第二类型决策节点的输出,生成第二决策结果。
具体的,对于混合模型中的决策节点,可以采用更加适合的方法得到决策节点的输出,例如换道意图等直观灵活的决策节点,可以采用规则方法进行计算,而对于换道时机等模糊的决策节点,则可以采用强化学习方法进行计算。
步骤105,根据环境预测信息,分别计算第一决策结果的第一收益和第二决策结果的第二收益。
其中,环境预测信息包括但不限于:车辆周围的车辆和行人等交通参与者的预测轨迹。可以根据环境感知信息,进行预测分析,从而得到环境预测信息。
在一个实施例中,可以根据环境预测信息分别和第一决策结果、第二决策结果,计算连续或离散的奖励值,将第一决策结果对应的奖励值作为第一收益,将第二决策结果对应的奖励值作为第二收益。
在另一个实施例中,首先,可以根据第一决策结果,计算第一规划轨迹;同时,根据第二决策结果,计算第二规划轨迹;然后,根据环境预测信息和第一规划轨迹,计算第一收益;同时,根据环境预测信息和第二规划轨迹,计算第二收益。
其中,第一收益或者第二收益包括三个指标,即安全性指标、舒适性指标和效率指标。在计算第一收益时,可以计算自车第一规划轨迹与障碍物预测轨迹,将两者的最小值作为安全性指标;计算自车第一规划轨迹的横摆角速度和加速度作为舒适性指标;计算自车第一规划轨迹的目标速度作为效率指标。然后计算安全性指标、舒适性指标和效率指标的加权平均值作为第一收益。
其中,可以根据真实驾驶数据得到障碍物预测轨迹。横摆角速度为速度与曲率半径的比值。第一规划轨迹中路点的速度会逐渐趋于稳定,目标速度为稳定后的速度。
同理,在计算第二收益时,仅将上述第一规划轨迹更换为第二规划轨迹即可,此处不再赘述。
步骤106,比较第一收益和第二收益,并将收益值高的对应的决策结果作为目标决策结果。
具体的,可以计算第一收益和第二收益的大小,选择收益高的决策结果作为目标决策结果。
进一步的,在步骤106之后,还包括:
当第一收益大于第二收益时,迭代的设置第二模型的参数,直至第一收益与第二收益的差值不大于预设阈值;或者,
当第一收益小于第二收益时,迭代的设置第一模型的参数,直至第一收益与第二收益的差值不大于预设阈值。
由此,对于收益小的模型进行了完善,实现了两个模型的相互促进和共同提升。
具体的,参见图4,若一个决策结果的综合收益值为零或与另一个决策结果的差距较大,说明对应的决策核心基于当前场景需要进行提升,可以基于分层框架采用从上之下的策略对该模型进行更新,具体流程如图4所示。
首先比较两种决策核心的每个中间决策结果,找到最初产生差异的子节点。然后分析两个子节点决策结果不一致的原因并对该子节点的决策模型进行修正,若强化学习节点需要优化则采用监督方法提升模型,若规则方法需要优化则调节模型参数尽可能接近强化学习的输出。当对应子节点的输出一致时再基于此场景运行两个决策核心,若最终输出仍存在较大偏差继续完善当前最初产生差异的子节点,重复此过程直到二者决策结果一致。
通过应用本发明实施例一提供的自动驾驶决策方法,具有以下技术效果:
1、基于分层框架将驾驶决策分解为若干子问题分别进行求解,降低了状态空间的维度(比如先确定向左换道后,确定换道间隙的模型只需要输入当前车道和左侧车道的车辆即可,不需要输入右侧车道的车辆),避免产生“维度爆炸”现象,并且可以直观反映各个阶段的决策结果,简化了问题复杂度的同时实现了逻辑的可视化。
2、混合模型中的每个决策节点可以采用规则方法或强化学习方法实现,充分结合了规则方法和强化学习方法各自的优势,同时保证了决策模型的模块化和灵活性。
3、规则模型和混合模型结构完全相同,在某个场景的决策结果不一致时能够快速定位问题,并基于此场景对表现不好的模型进行完善,可以实现二者的相互促进和共同提升。
图5为本发明实施例二提供的自动驾驶决策装置结构示意图。该自动驾驶决策装置应用在自动驾驶决策方法中,如图5所示,该自动驾驶决策装置500包括:决策节点创建模块501、决策模型实现模块502、执行模拟模块503和决策评价模块504。
决策节点创建模块501用于获取车辆周围的环境感知信息;
决策节点创建模块501还用于,根据环境感知信息和预设的地图文件,进行决策,生成多个决策节点;
决策模型实现模块502用于通过第一模型计算每个决策节点的输出,生成第一决策结果;
决策模型实现模块502还用于,通过第二模型计算每个决策节点的输出,生成第二决策结果;
执行模拟模块503用于根据环境预测信息,分别计算第一决策结果的第一收益和第二决策结果的第二收益;
决策评价模块504用于比较第一收益和第二收益,并将收益值高的对应的决策结果作为目标决策结果。
进一步的,第一模型为规则模型,决策模型实现模块502具体用于:
通过规则方法,计算每个决策节点的输出,多个决策节点的输出,构成第一决策结果。
进一步的,第二模型为混合模型,决策模型实现模块502具体用于:
通过规则方法,计算多个决策节点中的第一数量个第一类型决策节点的输出;多个决策节点包括第一数量个第一类型决策节点和第二数量个第二类型决策节点;
通过强化学习方法,计算多个决策节点中的第二数量个第二类型决策节点的输出;
通过第一数量个第一类型决策节点的输出和第二数量个第二类型决策节点的输出,生成第二决策结果。
进一步的,执行模拟模块503具体用于:
根据第一决策结果,计算第一规划轨迹;
根据环境预测信息和第一规划轨迹,计算第一收益;
根据第二决策结果,计算第二规划轨迹;
根据环境预测信息和第二规划轨迹,计算第二收益。
进一步的,执行模拟模块503具体用于:
计算车辆第一规划轨迹、第二规划轨迹分别与障碍物预测轨迹的最小值,并将最小值作为安全性指标;
分别计算车辆第一规划轨迹、第二规划轨迹的横摆角速度和加速度,并将其作为舒适性指标;
分别计算车辆第一规划轨迹、第二规划轨迹的目标速度,并将其作为效率指标;
根据第一规划轨迹的安全性指标、舒适性指标和效率指标,计算第一收益;
根据第二规划轨迹的安全性指标、舒适性指标和效率指标,计算第二收益。
进一步的,参见图6,图6为本发明实施例二提供的自动驾驶决策装置又一结构示意图,如图6所示,自动驾驶决策装置还包括:决策模型更新模块601。该决策模型更新模块601具体用于:
当第一收益大于第二收益时,迭代的设置第二模型的参数,直至第一收益与第二收益的差值不大于预设阈值;或者,
当第一收益小于第二收益时,迭代的设置第一模型的参数,直至第一收益与第二收益的差值不大于预设阈值。
通过应用本发明实施例二提供的自动驾驶决策装置,具有以下技术效果:
1、基于分层框架将驾驶决策分解为若干子问题分别进行求解,降低了状态空间的维度(比如先确定向左换道后,确定换道间隙的模型只需要输入当前车道和左侧车道的车辆即可,不需要输入右侧车道的车辆),避免产生“维度爆炸”现象,并且可以直观反映各个阶段的决策结果,简化了问题复杂度的同时实现了逻辑的可视化。
2、混合模型中的每个决策节点可以采用规则方法或强化学习方法实现,充分结合了规则方法和强化学习方法各自的优势,同时保证了决策模型的模块化和灵活性。
3、规则模型和混合模型结构完全相同,在某个场景的决策结果不一致时能够快速定位问题,并基于此场景对表现不好的模型进行完善,可以实现二者的相互促进和共同提升。
本发明实施例二提供了一种设备,包括存储器和处理器,存储器用于存储程序,存储器可通过总线与处理器连接。存储器可以是非易失存储器,例如硬盘驱动器和闪存,存储器中存储有软件程序和设备驱动程序。软件程序能够执行本发明实施例提供的上述方法的各种功能;设备驱动程序可以是网络和接口驱动程序。处理器用于执行软件程序,该软件程序被执行时,能够实现本发明实施例提供的方法。
本发明实施例三提供了一种包含指令的计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行本发明实施例一提供的方法。
本发明实施例四提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现本发明实施例一提供的方法。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种自动驾驶决策方法,其特征在于,所述方法包括:
获取车辆周围的环境感知信息;
根据所述环境感知信息和预设的地图文件,进行决策,生成多个决策节点;
通过第一模型计算每个决策节点的输出,生成第一决策结果;
通过第二模型计算每个决策节点的输出,生成第二决策结果;
根据环境预测信息,分别计算所述第一决策结果的第一收益和所述第二决策结果的第二收益;
比较所述第一收益和所述第二收益,并将收益值高的对应的决策结果作为目标决策结果。
2.根据权利要求1所述的方法,其特征在于,所述第一模型为规则模型,所述通过第一模型计算每个决策节点的输出,生成第一决策结果,具体包括:
通过规则方法,计算每个决策节点的输出,多个所述决策节点的输出,构成第一决策结果。
3.根据权利要求1所述的方法,其特征在于,所述第二模型为混合模型,所述通过第二模型计算每个决策节点的输出,生成第二决策结果,具体包括:
通过规则方法,计算多个所述决策节点中的第一数量个第一类型决策节点的输出;所述多个决策节点包括第一数量个第一类型决策节点和第二数量个第二类型决策节点;
通过强化学习方法,计算多个所述决策节点中的第二数量个第二类型决策节点的输出;
通过所述第一数量个第一类型决策节点的输出和所述第二数量个第二类型决策节点的输出,生成第二决策结果。
4.根据权利要求1所述的方法,其特征在于,所述根据环境预测信息,分别计算所述第一决策结果的第一收益和所述第二决策结果的第二收益,具体包括:
根据所述第一决策结果,计算第一规划轨迹;
根据所述环境预测信息和所述第一规划轨迹,计算第一收益;
根据所述第二决策结果,计算第二规划轨迹;
根据所述环境预测信息和所述第二规划轨迹,计算第二收益。
5.根据权利要求1所述的方法,其特征在于,所述根据所述环境预测信息和所述第一规划轨迹,计算第一收益;或者,根据所述环境预测信息和所述第二规划轨迹,计算第二收益,具体包括:
计算车辆第一规划轨迹、第二规划轨迹分别与障碍物预测轨迹的最小值,并将最小值作为安全性指标;
分别计算车辆第一规划轨迹、第二规划轨迹的横摆角速度和加速度,并将其作为舒适性指标;
分别计算车辆第一规划轨迹、第二规划轨迹的目标速度,并将其作为效率指标;
根据第一规划轨迹的安全性指标、舒适性指标和效率指标,计算第一收益;
根据第二规划轨迹的安全性指标、舒适性指标和效率指标,计算第二收益。
6.根据权利要求1所述的方法,其特征在于,所述方法之后还包括:
当所述第一收益大于所述第二收益时,迭代的设置所述第二模型的参数,直至所述第一收益与第二收益的差值不大于预设阈值;或者,
当所述第一收益小于所述第二收益时,迭代的设置所述第一模型的参数,直至所述第一收益与第二收益的差值不大于预设阈值。
7.一种自动驾驶决策装置,其特征在于,所述装置包括:
决策节点创建模块,所述决策节点创建模块用于获取车辆周围的环境感知信息;
所述决策节点创建模块还用于,根据所述环境感知信息和预设的地图文件,进行决策,生成多个决策节点;
决策模型实现模块,所述决策模型实现模块用于通过第一模型计算每个决策节点的输出,生成第一决策结果;
所述决策模型实现模块用于还用于,通过第二模型计算每个决策节点的输出,生成第二决策结果;
执行模拟模块,所述执行模拟模块用于根据环境预测信息,分别计算所述第一决策结果的第一收益和所述第二决策结果的第二收益;
决策评价模块,所述决策评价模块用于比较所述第一收益和所述第二收益,并将收益值高的对应的决策结果作为目标决策结果。
8.一种设备,其特征在于,所述设备包括存储器和处理器,所述存储器用于存储程序,所述处理器用于执行权利要求1-7任一所述的方法。
9.一种包含指令的计算机程序产品,其特征在于,当所述计算机程序产品在计算机上运行时,使得所述计算机执行权利要求1-7任一所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910354778.5A CN109991987B (zh) | 2019-04-29 | 2019-04-29 | 自动驾驶决策方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910354778.5A CN109991987B (zh) | 2019-04-29 | 2019-04-29 | 自动驾驶决策方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109991987A true CN109991987A (zh) | 2019-07-09 |
CN109991987B CN109991987B (zh) | 2023-08-04 |
Family
ID=67135533
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910354778.5A Active CN109991987B (zh) | 2019-04-29 | 2019-04-29 | 自动驾驶决策方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109991987B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377040A (zh) * | 2019-07-31 | 2019-10-25 | 北京智行者科技有限公司 | 基于行为树的自动驾驶决策方法及装置 |
CN110989577A (zh) * | 2019-11-15 | 2020-04-10 | 深圳先进技术研究院 | 自动驾驶决策方法及车辆的自动驾驶装置 |
CN111125448A (zh) * | 2019-12-23 | 2020-05-08 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种大规模空中任务决策方法及系统 |
CN111665849A (zh) * | 2020-06-29 | 2020-09-15 | 北京智行者科技有限公司 | 一种自动驾驶系统 |
CN111681452A (zh) * | 2020-01-19 | 2020-09-18 | 重庆大学 | 一种基于Frenet坐标系下的无人驾驶汽车动态换道轨迹规划方法 |
CN112306059A (zh) * | 2020-10-15 | 2021-02-02 | 北京三快在线科技有限公司 | 一种控制模型的训练方法、控制方法以及装置 |
CN112396183A (zh) * | 2021-01-21 | 2021-02-23 | 国汽智控(北京)科技有限公司 | 自动驾驶决策的方法、装置、设备及计算机存储介质 |
CN113071491A (zh) * | 2020-01-06 | 2021-07-06 | 广州汽车集团股份有限公司 | 一种用于自动驾驶汽车的自主超车方法及其系统 |
CN113306558A (zh) * | 2021-07-30 | 2021-08-27 | 北京理工大学 | 一种基于换道交互意图的换道决策方法及系统 |
WO2022021712A1 (en) * | 2020-07-28 | 2022-02-03 | Huawei Technologies Co., Ltd. | Predictive motion planning system and method |
CN116091894A (zh) * | 2023-03-03 | 2023-05-09 | 小米汽车科技有限公司 | 模型训练方法、车辆控制方法、装置、设备、车辆及介质 |
WO2024087654A1 (zh) * | 2022-10-27 | 2024-05-02 | 中国科学院电工研究所 | 一种自动驾驶车辆导航控制方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040015386A1 (en) * | 2002-07-19 | 2004-01-22 | International Business Machines Corporation | System and method for sequential decision making for customer relationship management |
JP2005071265A (ja) * | 2003-08-27 | 2005-03-17 | Matsushita Electric Ind Co Ltd | 学習装置および方法、並びにロボットのカスタマイズ方法 |
US7293004B1 (en) * | 2004-06-14 | 2007-11-06 | Sun Microsystems, Inc | Method for tuning state-based scheduling policies |
CN106874597A (zh) * | 2017-02-16 | 2017-06-20 | 北理慧动(常熟)车辆科技有限公司 | 一种应用于自动驾驶车辆的高速公路超车行为决策方法 |
US20170364083A1 (en) * | 2016-06-21 | 2017-12-21 | Baidu Online Network Technology (Beijing) Co., Ltd. | Local trajectory planning method and apparatus for smart vehicles |
CN108009587A (zh) * | 2017-12-01 | 2018-05-08 | 驭势科技(北京)有限公司 | 一种基于强化学习和规则确定驾驶策略的方法与设备 |
US10019011B1 (en) * | 2017-10-09 | 2018-07-10 | Uber Technologies, Inc. | Autonomous vehicles featuring machine-learned yield model |
CN108319286A (zh) * | 2018-03-12 | 2018-07-24 | 西北工业大学 | 一种基于强化学习的无人机空战机动决策方法 |
US20180348763A1 (en) * | 2017-06-02 | 2018-12-06 | Baidu Usa Llc | Utilizing rule-based and model-based decision systems for autonomous driving control |
CN109598934A (zh) * | 2018-12-13 | 2019-04-09 | 清华大学 | 一种基于规则与学习模型的无人驾驶汽车驶离高速的方法 |
DE102018217004A1 (de) * | 2017-10-12 | 2019-04-18 | Honda Motor Co., Ltd. | Autonome Fahrzeugstrategiegenerierung |
-
2019
- 2019-04-29 CN CN201910354778.5A patent/CN109991987B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040015386A1 (en) * | 2002-07-19 | 2004-01-22 | International Business Machines Corporation | System and method for sequential decision making for customer relationship management |
JP2005071265A (ja) * | 2003-08-27 | 2005-03-17 | Matsushita Electric Ind Co Ltd | 学習装置および方法、並びにロボットのカスタマイズ方法 |
US7293004B1 (en) * | 2004-06-14 | 2007-11-06 | Sun Microsystems, Inc | Method for tuning state-based scheduling policies |
US20170364083A1 (en) * | 2016-06-21 | 2017-12-21 | Baidu Online Network Technology (Beijing) Co., Ltd. | Local trajectory planning method and apparatus for smart vehicles |
CN106874597A (zh) * | 2017-02-16 | 2017-06-20 | 北理慧动(常熟)车辆科技有限公司 | 一种应用于自动驾驶车辆的高速公路超车行为决策方法 |
US20180348763A1 (en) * | 2017-06-02 | 2018-12-06 | Baidu Usa Llc | Utilizing rule-based and model-based decision systems for autonomous driving control |
US10019011B1 (en) * | 2017-10-09 | 2018-07-10 | Uber Technologies, Inc. | Autonomous vehicles featuring machine-learned yield model |
DE102018217004A1 (de) * | 2017-10-12 | 2019-04-18 | Honda Motor Co., Ltd. | Autonome Fahrzeugstrategiegenerierung |
CN108009587A (zh) * | 2017-12-01 | 2018-05-08 | 驭势科技(北京)有限公司 | 一种基于强化学习和规则确定驾驶策略的方法与设备 |
CN108319286A (zh) * | 2018-03-12 | 2018-07-24 | 西北工业大学 | 一种基于强化学习的无人机空战机动决策方法 |
CN109598934A (zh) * | 2018-12-13 | 2019-04-09 | 清华大学 | 一种基于规则与学习模型的无人驾驶汽车驶离高速的方法 |
Non-Patent Citations (4)
Title |
---|
熊璐等: "无人驾驶车辆行为决策系统研究", 《汽车技术》 * |
熊璐等: "无人驾驶车辆行为决策系统研究", 《汽车技术》, no. 08, 3 August 2018 (2018-08-03), pages 1 - 9 * |
王涛等: "一种基于强化学习的自主导航控制算法研究", 《计算机仿真》 * |
王涛等: "一种基于强化学习的自主导航控制算法研究", 《计算机仿真》, vol. 35, no. 11, 30 November 2018 (2018-11-30), pages 294 - 298 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377040A (zh) * | 2019-07-31 | 2019-10-25 | 北京智行者科技有限公司 | 基于行为树的自动驾驶决策方法及装置 |
CN110989577A (zh) * | 2019-11-15 | 2020-04-10 | 深圳先进技术研究院 | 自动驾驶决策方法及车辆的自动驾驶装置 |
CN111125448A (zh) * | 2019-12-23 | 2020-05-08 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种大规模空中任务决策方法及系统 |
CN111125448B (zh) * | 2019-12-23 | 2023-04-07 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种大规模空中任务决策方法及系统 |
CN113071491B (zh) * | 2020-01-06 | 2022-07-26 | 广州汽车集团股份有限公司 | 一种用于自动驾驶汽车的自主超车方法及其系统 |
CN113071491A (zh) * | 2020-01-06 | 2021-07-06 | 广州汽车集团股份有限公司 | 一种用于自动驾驶汽车的自主超车方法及其系统 |
CN111681452A (zh) * | 2020-01-19 | 2020-09-18 | 重庆大学 | 一种基于Frenet坐标系下的无人驾驶汽车动态换道轨迹规划方法 |
CN111665849A (zh) * | 2020-06-29 | 2020-09-15 | 北京智行者科技有限公司 | 一种自动驾驶系统 |
WO2022021712A1 (en) * | 2020-07-28 | 2022-02-03 | Huawei Technologies Co., Ltd. | Predictive motion planning system and method |
US11835958B2 (en) | 2020-07-28 | 2023-12-05 | Huawei Technologies Co., Ltd. | Predictive motion planning system and method |
CN112306059A (zh) * | 2020-10-15 | 2021-02-02 | 北京三快在线科技有限公司 | 一种控制模型的训练方法、控制方法以及装置 |
CN112306059B (zh) * | 2020-10-15 | 2024-02-27 | 北京三快在线科技有限公司 | 一种控制模型的训练方法、控制方法以及装置 |
CN112396183A (zh) * | 2021-01-21 | 2021-02-23 | 国汽智控(北京)科技有限公司 | 自动驾驶决策的方法、装置、设备及计算机存储介质 |
CN113306558A (zh) * | 2021-07-30 | 2021-08-27 | 北京理工大学 | 一种基于换道交互意图的换道决策方法及系统 |
WO2024087654A1 (zh) * | 2022-10-27 | 2024-05-02 | 中国科学院电工研究所 | 一种自动驾驶车辆导航控制方法及系统 |
CN116091894B (zh) * | 2023-03-03 | 2023-07-14 | 小米汽车科技有限公司 | 模型训练方法、车辆控制方法、装置、设备、车辆及介质 |
CN116091894A (zh) * | 2023-03-03 | 2023-05-09 | 小米汽车科技有限公司 | 模型训练方法、车辆控制方法、装置、设备、车辆及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109991987B (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109991987A (zh) | 自动驾驶决策方法及装置 | |
CN110796856B (zh) | 车辆变道意图预测方法及变道意图预测网络的训练方法 | |
Doniec et al. | A behavioral multi-agent model for road traffic simulation | |
Zhang et al. | Human‐Like Interactive Behavior Generation for Autonomous Vehicles: A Bayesian Game‐Theoretic Approach with Turing Test | |
CN116134292A (zh) | 用于性能测试和/或训练自动驾驶车辆规划器的工具 | |
CN112990485A (zh) | 基于强化学习的知识策略选择方法与装置 | |
Zhu et al. | Interaction-aware cut-in trajectory prediction and risk assessment in mixed traffic | |
Wang et al. | Car-following models for human-driven vehicles and autonomous vehicles: A systematic review | |
CN116476863A (zh) | 基于深度强化学习的自动驾驶横纵向一体化决策方法 | |
CN114239974B (zh) | 多智能体的位置预测方法、装置、电子设备及存储介质 | |
CN113110359B (zh) | 约束型智能汽车自主决策系统在线训练方法及装置 | |
Yan et al. | A game-theoretical approach to driving decision making in highway scenarios | |
Chen et al. | Two-dimensional following lane-changing (2DF-LC): A framework for dynamic decision-making and rapid behavior planning | |
Arbabi et al. | Planning for autonomous driving via interaction-aware probabilistic action policies | |
EP4160478A1 (en) | Driving decision-making method, device, and chip | |
CN115062202A (zh) | 驾驶行为意图及轨迹的预测方法、装置、设备及存储介质 | |
Yang et al. | Safe reinforcement learning for CPSs via formal modeling and verification | |
Huang et al. | Risk generation and identification of driver–vehicle–road microtraffic system | |
Bhattacharyya | Modeling Human Driving from Demonstrations | |
Liu et al. | Enhancing Social Decision-Making of Autonomous Vehicles: A Mixed-Strategy Game Approach With Interaction Orientation Identification | |
Cui et al. | Reward Machine Reinforcement Learning for Autonomous Highway Driving: An Unified Framework for Safety and Performance | |
CN112766310B (zh) | 一种节油换道决策方法和系统 | |
CN117208019B (zh) | 基于值分布强化学习的感知遮挡下纵向决策方法及系统 | |
Huelsen et al. | Knowledge-Based Traffic Situation Description | |
Islam et al. | Enhancing Longitudinal Velocity Control With Attention Mechanism-Based Deep Deterministic Policy Gradient (DDPG) for Safety and Comfort |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: B4-006, maker Plaza, 338 East Street, Huilongguan town, Changping District, Beijing 100096 Applicant after: Beijing Idriverplus Technology Co.,Ltd. Address before: B4-006, maker Plaza, 338 East Street, Huilongguan town, Changping District, Beijing 100096 Applicant before: Beijing Idriverplus Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |