CN113561986A - 自动驾驶汽车决策方法及装置 - Google Patents

自动驾驶汽车决策方法及装置 Download PDF

Info

Publication number
CN113561986A
CN113561986A CN202110946405.4A CN202110946405A CN113561986A CN 113561986 A CN113561986 A CN 113561986A CN 202110946405 A CN202110946405 A CN 202110946405A CN 113561986 A CN113561986 A CN 113561986A
Authority
CN
China
Prior art keywords
driving
decision model
decision
layer
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110946405.4A
Other languages
English (en)
Other versions
CN113561986B (zh
Inventor
裴晓飞
杨哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202110946405.4A priority Critical patent/CN113561986B/zh
Publication of CN113561986A publication Critical patent/CN113561986A/zh
Application granted granted Critical
Publication of CN113561986B publication Critical patent/CN113561986B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0028Mathematical models, e.g. for simulation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Human Computer Interaction (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明实施例提供一种自动驾驶汽车决策方法及装置,所述方法包括:获取不同驾驶场景下的标准驾驶演示数据,根据标准驾驶演示数据进行模仿学习,得到不同驾驶场景下的最优奖励函数;基于最优奖励函数对对应的驾驶动作进行强化学习训练,得到下层驾驶动作决策模型;根据驾驶场景获取对应的交通状态,基于强化学习确定与下层驾驶动作决策模型对应的上层驾驶场景决策模型;检测到汽车处于自动驾驶模式中,通过上层驾驶场景决策模型,输出匹配的实时驾驶场景,然后确定对应的下层驾驶动作决策模型,输出对应的驾驶动作并执行。采用本方法能够更精确地对驾驶数据等进行规划,增加驾驶行为与人类驾驶行为的匹配度。

Description

自动驾驶汽车决策方法及装置
技术领域
本发明涉及自动驾驶技术领域,尤其涉及一种自动驾驶汽车决策方法及装置。
背景技术
当自动驾驶决策控制包括环境预测、行为决策、动作及路径规划等模块,环境预测的主要作用是对感知层识别到的物体进行行为预测并生成时间和空间维度上的轨迹传递给后续模块。行为决策在自动驾驶系统中扮演着“副驾驶”的角色,它汇集了周边车辆的重要信息,决定自动驾驶汽车的行驶策略和动作。动作规划是在决策层传递来的瞬时动作进行规划,例如转弯、避障等。路径规划会对较长时间内车辆行驶路径的规划,给定起始点和目标点,按照性能指标规划出一条无碰撞、能安全到达的有效路径。
但是,在现实环境中的复杂驾驶环境中,为了提高驾驶效率和驾驶安全性,人类驾驶员在一段距离内可能历经了多种驾驶场景,如跟车、换道、超车以及弯道行驶等,这些场景中每一个都包含了许多关键状态需要重点学习,如果只用强化学习的方法很难考虑到不同场景下的所有关键状态,同时也会导致学习效率低下。另外,相较于人类驾驶员,强化学习在学习更细节的人类驾驶方面比较困难。
发明内容
针对现有技术中存在的问题,本发明实施例提供一种自动驾驶汽车决策方法及装置。
本发明实施例提供一种自动驾驶汽车决策方法,包括:
获取不同驾驶场景下的标准驾驶演示数据,根据标准驾驶演示数据进行模仿学习,得到不同驾驶场景下的最优奖励函数;
基于所述最优奖励函数对对应的驾驶动作进行强化学习训练,得到下层驾驶动作决策模型;
根据所述驾驶场景获取对应的交通状态,通过所述交通状态基于强化学习确定与所述下层驾驶动作决策模型对应的上层驾驶场景决策模型;
检测到汽车处于自动驾驶模式中,获取所述自动驾驶模式的实时交通状态,根据所述实时交通状态,输入所述上层驾驶场景决策模型,输出匹配的实时驾驶场景,根据所述实时驾驶场景确定对应的下层驾驶动作决策模型,并确定实时车辆数据输入至所述下层驾驶动作决策模型,得到所述下层驾驶动作决策模型输出的驾驶动作并执行。
在其中一个实施例中,所述方法还包括:
步骤1.1:获取所述不同驾驶场景下的标准驾驶演示数据,计算所述标准驾驶演示数据的特征统计期望;
步骤1.2:初始化状态特征权重
Figure DEST_PATH_IMAGE002
步骤1.3:更新奖励函数
Figure DEST_PATH_IMAGE003
步骤1.4:采用最大熵逆强化学习的方法, 利用正向强化学习的方法寻找多组最/次优的轨迹,用概率较大的多组轨迹估计当前奖励函数下的轨迹的期望特征统计量;
步骤1.5:构建拉格朗日函数最大化专家轨迹的出现概率,利用最大似然法对
Figure 502285DEST_PATH_IMAGE002
求解梯度,利用梯度下降法更新
Figure 75218DEST_PATH_IMAGE002
步骤1.6:重复上述步骤1.3至步骤1.5,直至梯度值到达收敛阈值,
Figure 120534DEST_PATH_IMAGE002
收敛至最优权重
Figure DEST_PATH_IMAGE005
步骤1.7:得到该驾驶场景下的最优奖励函数。
在其中一个实施例中,所述方法还包括:
步骤2.1:在所述更新奖励函数下进行正向强化学习训练,将训练时的n组次优轨迹及奖励保存至轨迹库;
步骤2.2: 用训练好的模型测试,生成m组测试轨迹及其奖励并加入轨迹库;
步骤2.3:在轨迹库中选取奖励最大的前h组数据作为当前奖励函数下的最/次优轨迹输出,对这些轨迹运用最大熵逆强化学习的原理求解每一个轨迹的概率,然后估计轨迹的期望特征统计量。
在其中一个实施例中,所述方法还包括:
步骤3.1:选择一种驾驶场景下训练得到的最优奖励函数
Figure DEST_PATH_IMAGE003A
步骤3.2:初始化网络模型参数;
步骤3.3:初始化环境、车辆状态;
步骤3.4:基于车辆当前的状态s,利用贪婪策略在网络模型估计出的最优动作和随机动作之间随机选取动作;
步骤3.5:在当前状态s采取动作
Figure 624066DEST_PATH_IMAGE014
后得到新的状态s’,对s’进行特征统计;
步骤3.6:利用特征统计得到的特征向量与模仿学习训练出的特征权重
Figure 376121DEST_PATH_IMAGE002
相乘,即奖励函数表达式
Figure DEST_PATH_IMAGE003AA
,可以得到该状态采取该动作后的奖励r;
步骤3.7:将初始状态s、动作
Figure 119955DEST_PATH_IMAGE014
、奖励值r以及更新状态s’作为样本(s,
Figure 918147DEST_PATH_IMAGE014
,r,s’)保存至经验回放池;
步骤3.8:智能体在经验回放池中通过批次采样训练驾驶动作决策模型,计算损失函数,通过梯度下降的方法优化决策模型参数;
步骤3.9:重复上述步骤3.4至步骤3.8,发生碰撞或到达终止时间即终止,终止后从步骤3.3开始新回合训练直至模型收敛,训练回合结束;
步骤3.10:输出该驾驶场景下的下层驾驶动作决策模型。
在其中一个实施例中,所述方法还包括:
所述上层驾驶场景决策模型的决策时间的时间间隔为所述下层驾驶动作决策模型的决策时间的时间间隔的3倍。
在其中一个实施例中,所述交通状态,包括:
自车速度、自车横纵向位置、自车与周围车辆的相对位置。
在其中一个实施例中,所述特征统计量,包括:
速度特征、加速度特征、加加速度特征、跟车距离特征、碰撞时间特征。
本发明实施例提供一种自动驾驶汽车决策装置,包括:
获取模块,用于获取不同驾驶场景下的标准驾驶演示数据,根据标准驾驶演示数据进行模仿学习,得到不同驾驶场景下的最优奖励函数;
第一训练模块,用于基于所述最优奖励函数对对应的驾驶动作进行强化学习训练,得到下层驾驶动作决策模型;
第二获取模块,用于根据所述驾驶场景获取对应的交通状态,通过所述交通状态基于强化学习确定与所述下层驾驶动作决策模型对应的上层驾驶场景决策模型;
自动驾驶模块,用于检测到汽车处于自动驾驶模式中,获取所述自动驾驶模式的实时交通状态,根据所述实时交通状态,输入所述上层驾驶场景决策模型,输出匹配的实时驾驶场景,根据所述实时驾驶场景确定对应的下层驾驶动作决策模型,并确定实时车辆数据输入至所述下层驾驶动作决策模型,得到所述下层驾驶动作决策模型输出的驾驶动作并执行。
本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述自动驾驶汽车决策方法的步骤。
本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述自动驾驶汽车决策方法的步骤。
本发明实施例提供的自动驾驶汽车决策方法及装置,获取不同驾驶场景下的标准驾驶演示数据,根据标准驾驶演示数据进行模仿学习,得到不同驾驶场景下的最优奖励函数;基于最优奖励函数对对应的驾驶动作进行强化学习训练,得到下层驾驶动作决策模型;根据驾驶场景获取对应的交通状态,通过交通状态确定与下层驾驶动作决策模型对应的上层驾驶场景决策模型;检测到汽车处于自动驾驶模式中,获取自动驾驶模式的实时交通状态,根据实时交通状态,输入上层驾驶场景决策模型,输出匹配的实时驾驶场景,根据实时驾驶场景确定对应的下层驾驶动作决策模型,并确定实时车辆数据输入至下层驾驶动作决策模型,得到下层驾驶动作决策模型输出的驾驶动作并执行。这样能够在上层通过构建驾驶场景选择模型,下层通过模仿学习驾驶行为,设计出更标准的奖励函数,进一步地构建驾驶动作决策模型,可以更精确地对驾驶数据等进行规划,增加驾驶行为与人类驾驶行为的匹配度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中自动驾驶汽车决策方法的流程图;
图2为本发明实施例中自动驾驶汽车决策装置的结构图;
图3为本发明实施例中电子设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的自动驾驶汽车决策方法的流程示意图,如图1所示,本发明实施例提供了一种自动驾驶汽车决策方法,包括:
步骤S101,获取不同驾驶场景下的标准驾驶演示数据,根据标准驾驶演示数据进行模仿学习,得到不同驾驶场景下的最优奖励函数。
具体地,获取不同驾驶场景下的标准驾驶演示数据,其中,驾驶场景可以包括跟车行驶、换道行驶、弯道行驶以及超越前车等场景,标准驾驶演示数据为专家驾驶时的数据,数据特征统计包括速度特征、加速度特征、加加速度特征、跟车距离特征、碰撞时间特征。然后根据标准驾驶演示数据进行模仿学习,得到不同驾驶场景下的自主学习的最优奖励函数。
另外,模仿学习的具体步骤可以包括:
步骤1.1:给定具体驾驶场景的专家轨迹,计算专家轨迹的特征统计期望,其中专家轨迹;
Figure DEST_PATH_IMAGE024
,包括期望速度特征,期望加速度特征,期望加加速度特征,期望碰撞时间特征等等;
步骤1.2:初始化状态特征权重
Figure 5795DEST_PATH_IMAGE002
步骤1.3:更新奖励函数
Figure DEST_PATH_IMAGE003AAA
步骤1.4:采用最大熵逆强化学习的方法,轨迹出现的概率与轨迹的奖励值的幂次方成正比,
Figure DEST_PATH_IMAGE026
,其中
Figure DEST_PATH_IMAGE028
表示在特征权重
Figure 799308DEST_PATH_IMAGE002
下轨迹
Figure DEST_PATH_IMAGE030
的出现概率;
Figure DEST_PATH_IMAGE032
是配分函数;
Figure DEST_PATH_IMAGE034
表示状态
Figure DEST_PATH_IMAGE036
的特征量;
步骤1.5:基于正向强化学习采样保存多组最/次优的轨迹
Figure 418770DEST_PATH_IMAGE018
,用概率较大的多组轨迹估计当前奖励函数下的轨迹的期望特征统计量
Figure DEST_PATH_IMAGE038
步骤1.6:构建拉格朗日函数
Figure DEST_PATH_IMAGE040
,最大化专家轨迹的出现概率,利用最大似然法对
Figure 845203DEST_PATH_IMAGE002
求解梯度
Figure DEST_PATH_IMAGE042
,其中
Figure DEST_PATH_IMAGE044
表示专家轨迹,
Figure DEST_PATH_IMAGE046
表示专家轨迹集合;
步骤1.7:利用梯度下降法更新
Figure 175690DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE048
(其中lr表示学习率);
步骤1.8:重复上述步骤1.3~步骤1.7,直至梯度值到达收敛阈值,特征权重
Figure 650141DEST_PATH_IMAGE002
收敛至
Figure DEST_PATH_IMAGE050
步骤1.9:得到该驾驶场景下的最优奖励函数
Figure DEST_PATH_IMAGE006A
步骤S102,基于所述最优奖励函数对对应的驾驶动作进行强化学习训练,得到下层驾驶动作决策模型。
具体地,使用训练出的最优奖励函数,基于强化学习对该奖励函数下的动作决策进行训练,构建出不同驾驶场景下的驾驶动作决策模型,具体步骤包括
步骤3.1:选择一种驾驶场景下训练得到的最优奖励函数
Figure DEST_PATH_IMAGE003AAAA
步骤3.2:初始化网络模型参数;
步骤3.3:初始化环境、车辆状态;
步骤3.4:基于车辆当前的状态s,利用贪婪策略在网络模型估计出的最优动作
Figure 939040DEST_PATH_IMAGE010
和随机动作
Figure 977403DEST_PATH_IMAGE012
之间随机选取动作
Figure 659051DEST_PATH_IMAGE014
步骤3.5:在当前状态s采取动作
Figure 833680DEST_PATH_IMAGE014
后得到新的状态s’,对s’进行特征统计;
步骤3.6:利用特征统计得到的特征向量
Figure 903268DEST_PATH_IMAGE016
与模仿学习训练出的特征权重
Figure 789446DEST_PATH_IMAGE002
相乘,即奖励函数表达式
Figure DEST_PATH_IMAGE003_5A
,可以得到该状态采取该动作后的奖励r;
步骤3.7:将初始状态s、动作
Figure 805944DEST_PATH_IMAGE014
、奖励值r以及更新状态s’作为样本(s,
Figure 835080DEST_PATH_IMAGE014
,r,s’)保存至经验回放池;
步骤3.8:智能体在经验回放池中通过批次采样训练驾驶动作决策模型,计算损失函数,通过梯度下降的方法优化决策模型参数;
步骤3.9:重复上述步骤3.4至步骤3.8,发生碰撞或到达终止时间即终止,终止后从步骤3.3开始新回合训练直至模型收敛,训练回合结束;
步骤3.10:输出该驾驶场景下的下层驾驶动作决策模型。
步骤S103,根据所述驾驶场景获取对应的交通状态,通过所述交通状态基于强化学习确定与所述下层驾驶动作决策模型对应的上层驾驶场景决策模型
具体地,根据驾驶场景可以获取当前的交通状态,其中,车辆的交通状态可以包括自车速度、自车横纵向位置、自车与周围车辆的相对位置等数据,根据交通状态可以确定下层驾驶动作决策模型对应的上层驾驶场景决策模型,上层场景决策模型是获取交通状态后基于模仿学习训练出来的决策模型,上层是场景决策的模仿学习,下层是动作决策的模仿学习,其中,上层驾驶场景决策可以包括跟车行驶、换道行驶、弯道行驶以及超越前车等决策。
具体的上层驾驶场景决策模建立步骤包括:
步骤4.1:初始化环境、车辆状态;
步骤4.2:通过自车传感器获取车辆当前的交通状态s并输入到上层驾驶场景选择模型中;
步骤4.4:上层决策模型根据车辆当前状态s从上层动作空间选择一个上层动作ah(每一个动作映射到一个驾驶场景)并输出给下层动作决策层;
步骤4.4:根据上层动作映射的驾驶场景,调用下层当前驾驶场景下的驾驶动作决策模型;
步骤4.5:下层动作决策模型根据车辆当前的状态s输出相应的驾驶动作a,比如加速度或变道指令等;
步骤4.6:在下层动作执行完毕之后,通过传感器获取车辆更新后的状态s’;
步骤4.7:在上层模块中,根据车辆更新后的状态,评估该状态下的速度、跟车距离、碰撞时间(TTC)以及是否发生碰撞设定奖励函数,给定本次驾驶场景选择的奖励值r;
步骤4.8:将上层两个时刻的初始状态s、驾驶动作ah、奖励值r以及更新状态s’作为样本(s,ah,r,s’)保存至经验回放池;
步骤4.9:上层智能体在经验回放池中通过批次采样训练决策模型,计算损失函数,通过梯度下降的方法优化决策模型参数;
步骤4.10:重复上述4.2~4.9步骤,发生碰撞或到达终止时间即终止,终止后从4.1开始新回合训练直至模型收敛,训练回合结束。
步骤4.11:输出自动驾驶汽车的上层驾驶场景决策模型。
另外,在通过上层驾驶场景决策模型和下层驾驶动作决策模型决定自动驾驶动作时,上层驾驶场景决策模型的决策时间的时间间隔为下层驾驶动作决策模型的决策时间的时间间隔的3倍。比如本实施例中上层驾驶场景决策模型中上层动作决策的时间间隔为0.3s,下层驾驶动作决策模型中驾驶动作指令决策的时间间隔为0.1s。
步骤S104,检测到汽车处于自动驾驶模式中,获取所述自动驾驶模式的实时交通状态,根据所述实时交通状态,输入所述上层驾驶场景决策模型,输出匹配的实时驾驶场景,根据所述实时驾驶场景确定对应的下层驾驶动作决策模型,并确定实时车辆数据输入至所述下层驾驶动作决策模型,其中,标准驾驶演示数据为当前的实际交通状态,得到所述下层驾驶动作决策模型输出的驾驶动作并执行。
具体地,检测到汽车处于自动驾驶过程中时,获取自动驾驶模式的实时交通状态,然后结合上层驾驶场景决策模型根据自车当前状态输出匹配的实时驾驶场景,并根据实时驾驶场景调用相应的有针对性的下层决策模型进行驾驶动作决策,具体为确定实时车辆数据输入至下层驾驶动作决策模型,得到下层驾驶动作决策模型输出的驾驶动作并执行。
本发明实施例提供的一种自动驾驶汽车决策方法,获取不同驾驶场景下的标准驾驶演示数据,根据标准驾驶演示数据进行模仿学习,得到不同驾驶场景下的最优奖励函数;基于最优奖励函数对对应的驾驶动作进行强化学习训练,得到下层驾驶动作决策模型;根据驾驶场景获取对应的交通状态,通过交通状态确定与下层驾驶动作决策模型对应的上层驾驶场景决策模型;检测到汽车处于自动驾驶模式中,获取自动驾驶模式的实时交通状态,根据实时交通状态,输入上层驾驶场景决策模型,输出匹配的实时驾驶场景,根据实时驾驶场景确定对应的下层驾驶动作决策模型,并确定实时车辆数据输入至下层驾驶动作决策模型,得到下层驾驶动作决策模型输出的驾驶动作并执行。这样能够在上层通过构建驾驶场景选择模型,下层通过模仿学习驾驶行为,设计出更标准的奖励函数,进一步地构建驾驶动作决策模型,可以更精确地对驾驶数据等进行规划,增加驾驶行为与人类驾驶行为的匹配度。
在上述实施例的基础上,所述自动驾驶汽车决策方法,还包括:
步骤2.1:在所述更新奖励函数下进行正向强化学习训练,将训练时的n组次优轨迹及奖励保存至轨迹库;
步骤2.2: 用训练好的模型测试,生成m组测试轨迹及其奖励并加入轨迹库;
步骤2.3:在轨迹库中选取奖励最大的前h组数据作为当前奖励函数下的最/次优轨迹输出,对这些轨迹运用最大熵逆强化学习的原理求解每一个轨迹的概率,然后估计轨迹的期望特征统计量
Figure DEST_PATH_IMAGE052
本发明实施例中,
基于最优的奖励函数,并通过强化学习对该奖励函数下的动作决策进行训练,在训练和测试过程中可以得到该奖励函数下的多组最/次优轨迹,用概率较大的多组轨迹估计当前奖励函数下的轨迹的期望特征统计量,具体的详细步骤包括:
步骤2.1.1:选择更新后的奖励函数
Figure DEST_PATH_IMAGE003_6A
步骤2.1.2:初始化网络模型参数;
步骤2.1.3:初始化环境、车辆状态;
步骤2.1.4:基于车辆当前的状态s,利用贪婪策略在网络模型估计出的最优动作
Figure DEST_PATH_IMAGE053
和随机动作
Figure 151267DEST_PATH_IMAGE012
之间随机选取动作
Figure 836326DEST_PATH_IMAGE014
步骤2.1.5:在当前状态s采取动作后得到新的状态s’,对s’进行特征统计;
步骤2.1.6:利用特征统计得到的特征向量
Figure 249990DEST_PATH_IMAGE016
与模仿学习训练出的特征权重
Figure 274578DEST_PATH_IMAGE002
相乘,即奖励函数表达式
Figure DEST_PATH_IMAGE003_7A
,可以得到该状态采取该动作后的奖励r;
步骤2.1.7:将初始状态s、动作
Figure 138497DEST_PATH_IMAGE014
、奖励值r以及更新状态s’作为样本(s,
Figure 107590DEST_PATH_IMAGE014
,r,s’)保存至经验回放池;
步骤2.1.8:智能体在经验回放池中通过批次采样训练驾驶动作决策模型,计算损失函数,通过梯度下降的方法优化决策模型参数;
步骤2.1.9:重复上述步骤2.1.4至步骤2.1.8,发生碰撞或到达终止时间即终止,终止后从步骤2.1.3开始新回合训练直至模型收敛,将训练时的100组次优轨迹及奖励保存至轨迹库,训练回合结束;
步骤2.1.10:用训练好的模型测试,生成测试轨迹及其奖励并加入轨迹库;
步骤2.1.11:在轨迹库中选取奖励最大的前50组数据作为当前奖励函数下的最/次优轨迹输出,对50组轨迹运用最大熵逆强化学习的原理求解每一个轨迹的概率,然后估计轨迹的期望特征统计量
Figure DEST_PATH_IMAGE055
本发明实施例通过用概率较大的多组轨迹估计当前奖励函数下的轨迹的期望特征统计量,进一步保证了期望特征统计的准确性。
图2为本发明实施例提供的一种自动驾驶汽车决策装置,包括:第一获取模块S201、训练模块S202、第二获取模块S203、自动驾驶模块S204,其中:
获取模块S201,用于获取不同驾驶场景下的标准驾驶演示数据,根据标准驾驶演示数据进行模仿学习,得到不同驾驶场景下的最优奖励函数。
第一训练模块S202,用于基于所述最优奖励函数对对应的驾驶动作进行强化学习训练,得到下层驾驶动作决策模型。
第二训练模块S203,用于根据所述驾驶场景获取对应的交通状态,通过所述交通状态基于强化学习确定与所述下层驾驶动作决策模型对应的上层驾驶场景决策模型。
自动驾驶模块S204,用于检测到汽车处于自动驾驶模式中,获取所述自动驾驶模式的实时交通状态,根据所述实时交通状态,输入所述上层驾驶场景决策模型,输出匹配的实时驾驶场景,根据所述实时驾驶场景确定对应的下层驾驶动作决策模型,并确定实时车辆数据输入至所述下层驾驶动作决策模型,得到所述下层驾驶动作决策模型输出的驾驶动作并执行。
关于自动驾驶汽车决策装置的具体限定可以参见上文中对于自动驾驶汽车决策方法的限定,在此不再赘述。上述自动驾驶汽车决策装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)301、存储器(memory)302、通信接口(Communications Interface)303和通信总线304,其中,处理器301,存储器302,通信接口303通过通信总线304完成相互间的通信。处理器301可以调用存储器302中的逻辑指令,以执行如下方法:获取不同驾驶场景下的标准驾驶演示数据,根据标准驾驶演示数据进行模仿学习,得到不同驾驶场景下的最优奖励函数;基于最优奖励函数对对应的驾驶动作进行强化学习训练,得到下层驾驶动作决策模型;根据驾驶场景获取对应的交通状态,通过交通状态确定与下层驾驶动作决策模型对应的上层驾驶场景决策模型;检测到汽车处于自动驾驶模式中,获取自动驾驶模式的实时交通状态,根据实时交通状态,输入上层驾驶场景决策模型,输出匹配的实时驾驶场景,根据实时驾驶场景确定对应的下层驾驶动作决策模型,并确定实时车辆数据输入至下层驾驶动作决策模型,得到下层驾驶动作决策模型输出的驾驶动作并执行。
此外,上述的存储器302中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:获取不同驾驶场景下的标准驾驶演示数据,根据标准驾驶演示数据进行模仿学习,得到不同驾驶场景下的最优奖励函数;基于最优奖励函数对对应的驾驶动作进行强化学习训练,得到下层驾驶动作决策模型;根据驾驶场景获取对应的交通状态,通过交通状态确定与下层驾驶动作决策模型对应的上层驾驶场景决策模型;检测到汽车处于自动驾驶模式中,获取自动驾驶模式的实时交通状态,根据实时交通状态,输入上层驾驶场景决策模型,输出匹配的实时驾驶场景,根据实时驾驶场景确定对应的下层驾驶动作决策模型,并确定实时车辆数据输入至下层驾驶动作决策模型,得到下层驾驶动作决策模型输出的驾驶动作并执行。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种自动驾驶汽车决策方法,其特征在于,包括:
获取不同驾驶场景下的标准驾驶演示数据,根据标准驾驶演示数据进行模仿学习,得到不同驾驶场景下的最优奖励函数;
基于所述最优奖励函数对对应的驾驶动作进行强化学习训练,得到下层驾驶动作决策模型;
根据所述驾驶场景获取对应的交通状态,通过所述交通状态基于强化学习确定与所述下层驾驶动作决策模型对应的上层驾驶场景决策模型;
检测到汽车处于自动驾驶模式中,获取所述自动驾驶模式的实时交通状态,根据所述实时交通状态,输入所述上层驾驶场景决策模型,输出匹配的实时驾驶场景,根据所述实时驾驶场景确定对应的下层驾驶动作决策模型,并确定实时车辆数据输入至所述下层驾驶动作决策模型,得到所述下层驾驶动作决策模型输出的驾驶动作并执行。
2.根据权利要求1中所述的自动驾驶汽车决策方法,其特征在于,所述根据标准驾驶演示数据进行模仿学习,得到不同驾驶场景下的最优奖励函数,包括:
步骤1.1:获取所述不同驾驶场景下的标准驾驶演示数据,计算所述标准驾驶演示数据的特征统计期望;
步骤1.2:初始化状态特征权重
Figure 880957DEST_PATH_IMAGE002
步骤1.3:更新奖励函数
Figure DEST_PATH_IMAGE004
步骤1.4:采用最大熵逆强化学习的方法, 利用正向强化学习的方法寻找多组最/次优的轨迹,用概率较大的多组轨迹估计当前奖励函数下的轨迹的期望特征统计量;
步骤1.5:构建拉格朗日函数最大化专家轨迹的出现概率,利用最大似然法对
Figure 34858DEST_PATH_IMAGE002
求解梯度,利用梯度下降法更新
Figure 651784DEST_PATH_IMAGE002
步骤1.6:重复上述步骤1.3至步骤1.5,直至梯度值到达收敛阈值,
Figure 660061DEST_PATH_IMAGE002
收敛至最优权重
Figure DEST_PATH_IMAGE006
步骤1.7:得到该驾驶场景下的最优奖励函数
Figure DEST_PATH_IMAGE008
3.根据权利要求2中所述的自动驾驶汽车决策方法,其特征在于,所述采用最大熵逆强化学习的方法, 利用正向强化学习的方法寻找多组最/次优的轨迹,用概率较大的多组轨迹估计当前奖励函数下的轨迹的期望特征统计量,包括:
步骤2.1:在所述更新奖励函数下进行正向强化学习训练,将训练时的n组次优轨迹及奖励保存至轨迹库;
步骤2.2: 用训练好的模型测试,生成m组测试轨迹及其奖励并加入轨迹库;
步骤2.3:在轨迹库中选取奖励最大的前h组数据作为当前奖励函数下的最/次优轨迹输出,对这些轨迹运用最大熵逆强化学习的原理求解每一个轨迹的概率,然后估计轨迹的期望特征统计量
Figure DEST_PATH_IMAGE010
4.根据权利要求1中所述的自动驾驶汽车决策方法,其特征在于,所述基于所述最优奖励函数对对应的驾驶动作进行训练,得到下层驾驶动作决策模型,包括:
步骤3.1:选择一种驾驶场景下训练得到的最优奖励函数
Figure DEST_PATH_IMAGE012
步骤3.2:初始化网络模型参数;
步骤3.3:初始化环境、车辆状态;
步骤3.4:基于车辆当前的状态s,利用贪婪策略在网络模型估计出的最优动作
Figure DEST_PATH_IMAGE014
和随机动作
Figure DEST_PATH_IMAGE016
之间随机选取动作
Figure DEST_PATH_IMAGE018
步骤3.5:在当前状态s采取动作
Figure 694619DEST_PATH_IMAGE018
后得到新的状态s’,对s’进行特征统计;
步骤3.6:利用特征统计得到的特征向量
Figure DEST_PATH_IMAGE020
与模仿学习训练出的特征权重
Figure 319505DEST_PATH_IMAGE002
相乘,即奖励函数表达式
Figure DEST_PATH_IMAGE022
,可以得到该状态采取该动作后的奖励r;
步骤3.7:将初始状态s、动作
Figure 943384DEST_PATH_IMAGE018
、奖励值r以及更新状态s’作为样本(s,
Figure 573211DEST_PATH_IMAGE018
,r,s’)保存至经验回放池;
步骤3.8:智能体在经验回放池中通过批次采样训练驾驶动作决策模型,计算损失函数,通过梯度下降的方法优化决策模型参数;
步骤3.9:重复上述步骤3.4至步骤3.8,发生碰撞或到达终止时间即终止,终止后从步骤3.3开始新回合训练直至模型收敛,训练回合结束;
步骤3.10:输出该驾驶场景下的下层驾驶动作决策模型。
5.根据权利要求1中所述的自动驾驶汽车决策方法,其特征在于,所述方法还包括:
所述上层驾驶场景决策模型的决策时间的时间间隔为所述下层驾驶动作决策模型的决策时间的时间间隔的3倍。
6.根据权利要求1中所述的自动驾驶汽车决策方法,其特征在于,所述交通状态,包括:
自车速度、自车横纵向位置、自车与周围车辆的相对位置。
7.根据权利要求1中所述的自动驾驶汽车决策方法,其特征在于,所述特征统计量,包括:
速度特征、加速度特征、加加速度特征、跟车距离特征、碰撞时间特征。
8.一种自动驾驶汽车决策装置,其特征在于,所述装置包括:
获取模块,用于获取不同驾驶场景下的标准驾驶演示数据,根据标准驾驶演示数据进行模仿学习,得到不同驾驶场景下的最优奖励函数;
第一训练模块,用于基于所述最优奖励函数对对应的驾驶动作进行强化学习训练,得到下层驾驶动作决策模型;
第二训练模块,用于根据所述驾驶场景获取对应的交通状态,通过所述交通状态基于强化学习确定与所述下层驾驶动作决策模型对应的上层驾驶场景决策模型;
自动驾驶模块,用于检测到汽车处于自动驾驶模式中,获取所述自动驾驶模式的实时交通状态,根据所述实时交通状态,输入所述上层驾驶场景决策模型,输出匹配的实时驾驶场景,根据所述实时驾驶场景确定对应的下层驾驶动作决策模型,并确定实时车辆数据输入至所述下层驾驶动作决策模型,得到所述下层驾驶动作决策模型输出的驾驶动作并执行。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述自动驾驶汽车决策方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述自动驾驶汽车决策方法的步骤。
CN202110946405.4A 2021-08-18 2021-08-18 自动驾驶汽车决策方法及装置 Active CN113561986B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110946405.4A CN113561986B (zh) 2021-08-18 2021-08-18 自动驾驶汽车决策方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110946405.4A CN113561986B (zh) 2021-08-18 2021-08-18 自动驾驶汽车决策方法及装置

Publications (2)

Publication Number Publication Date
CN113561986A true CN113561986A (zh) 2021-10-29
CN113561986B CN113561986B (zh) 2024-03-15

Family

ID=78171945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110946405.4A Active CN113561986B (zh) 2021-08-18 2021-08-18 自动驾驶汽车决策方法及装置

Country Status (1)

Country Link
CN (1) CN113561986B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114138642A (zh) * 2021-11-26 2022-03-04 苏州浪潮智能科技有限公司 一种根据环境状态自动选择适应函数的方法、装置、设备
CN114162144A (zh) * 2022-01-06 2022-03-11 苏州挚途科技有限公司 自动驾驶决策方法、装置以及电子设备
CN114179835A (zh) * 2021-12-30 2022-03-15 清华大学苏州汽车研究院(吴江) 基于真实场景下强化学习的自动驾驶车辆决策训练方法
CN114355793A (zh) * 2021-12-24 2022-04-15 阿波罗智能技术(北京)有限公司 用于车辆仿真评测的自动驾驶规划模型的训练方法及装置
WO2023102962A1 (zh) * 2021-12-06 2023-06-15 深圳先进技术研究院 一种训练端到端的自动驾驶策略的方法
CN117172123A (zh) * 2023-09-13 2023-12-05 江苏大块头智驾科技有限公司 用于矿山自动驾驶的传感器数据处理方法及系统
CN117698685A (zh) * 2024-02-06 2024-03-15 北京航空航天大学 一种面向动态场景的混动汽车自适应能量管理方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
CN110969848A (zh) * 2019-11-26 2020-04-07 武汉理工大学 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN111289978A (zh) * 2020-02-13 2020-06-16 北京享云智汇科技有限公司 一种车辆无人驾驶行为决策的方法和系统
CN111985614A (zh) * 2020-07-23 2020-11-24 中国科学院计算技术研究所 一种构建自动驾驶决策系统的方法、系统和介质
CN112508164A (zh) * 2020-07-24 2021-03-16 北京航空航天大学 一种基于异步监督学习的端到端自动驾驶模型预训练方法
DE102019216232A1 (de) * 2019-10-22 2021-04-22 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs
CN113264059A (zh) * 2021-05-17 2021-08-17 北京工业大学 支持多驾驶行为的基于深度强化学习的无人车运动决策控制方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
DE102019216232A1 (de) * 2019-10-22 2021-04-22 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zum Bereitstellen einer Fahrstrategie für das automatisierte Fahren eines Fahrzeugs
CN110969848A (zh) * 2019-11-26 2020-04-07 武汉理工大学 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN111289978A (zh) * 2020-02-13 2020-06-16 北京享云智汇科技有限公司 一种车辆无人驾驶行为决策的方法和系统
CN111985614A (zh) * 2020-07-23 2020-11-24 中国科学院计算技术研究所 一种构建自动驾驶决策系统的方法、系统和介质
CN112508164A (zh) * 2020-07-24 2021-03-16 北京航空航天大学 一种基于异步监督学习的端到端自动驾驶模型预训练方法
CN113264059A (zh) * 2021-05-17 2021-08-17 北京工业大学 支持多驾驶行为的基于深度强化学习的无人车运动决策控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
章军辉;李庆;陈大鹏;: "基于BP神经网络的纵向避撞安全辅助算法", 西安交通大学学报, no. 07 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114138642A (zh) * 2021-11-26 2022-03-04 苏州浪潮智能科技有限公司 一种根据环境状态自动选择适应函数的方法、装置、设备
CN114138642B (zh) * 2021-11-26 2023-08-29 苏州浪潮智能科技有限公司 一种根据环境状态自动选择适应函数的方法、装置、设备
WO2023102962A1 (zh) * 2021-12-06 2023-06-15 深圳先进技术研究院 一种训练端到端的自动驾驶策略的方法
CN114355793B (zh) * 2021-12-24 2023-12-29 阿波罗智能技术(北京)有限公司 用于车辆仿真评测的自动驾驶规划模型的训练方法及装置
CN114355793A (zh) * 2021-12-24 2022-04-15 阿波罗智能技术(北京)有限公司 用于车辆仿真评测的自动驾驶规划模型的训练方法及装置
CN114179835A (zh) * 2021-12-30 2022-03-15 清华大学苏州汽车研究院(吴江) 基于真实场景下强化学习的自动驾驶车辆决策训练方法
CN114179835B (zh) * 2021-12-30 2024-01-05 清华大学苏州汽车研究院(吴江) 基于真实场景下强化学习的自动驾驶车辆决策训练方法
CN114162144B (zh) * 2022-01-06 2024-02-02 苏州挚途科技有限公司 自动驾驶决策方法、装置以及电子设备
CN114162144A (zh) * 2022-01-06 2022-03-11 苏州挚途科技有限公司 自动驾驶决策方法、装置以及电子设备
CN117172123A (zh) * 2023-09-13 2023-12-05 江苏大块头智驾科技有限公司 用于矿山自动驾驶的传感器数据处理方法及系统
CN117172123B (zh) * 2023-09-13 2024-03-08 江苏大块头智驾科技有限公司 用于矿山自动驾驶的传感器数据处理方法及系统
CN117698685A (zh) * 2024-02-06 2024-03-15 北京航空航天大学 一种面向动态场景的混动汽车自适应能量管理方法
CN117698685B (zh) * 2024-02-06 2024-04-09 北京航空航天大学 一种面向动态场景的混动汽车自适应能量管理方法

Also Published As

Publication number Publication date
CN113561986B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
CN113561986B (zh) 自动驾驶汽车决策方法及装置
CN110235148B (zh) 训练动作选择神经网络
Albaba et al. Driver modeling through deep reinforcement learning and behavioral game theory
CN111260027B (zh) 一种基于强化学习的智能体自动决策方法
CN109908591B (zh) 一种虚拟对象的决策方法、模型构建方法和装置
CN109726804B (zh) 一种基于行车预测场和bp神经网络的智能车辆驾驶行为拟人化决策方法
US20230367934A1 (en) Method and apparatus for constructing vehicle dynamics model and method and apparatus for predicting vehicle state information
CN111026272B (zh) 虚拟对象行为策略的训练方法及装置、电子设备、存储介质
CN114139637B (zh) 多智能体信息融合方法、装置、电子设备及可读存储介质
CN114194211A (zh) 一种自动驾驶方法、装置及电子设备和存储介质
CN114261400B (zh) 一种自动驾驶决策方法、装置、设备和存储介质
CN114162146B (zh) 行驶策略模型训练方法以及自动驾驶的控制方法
CN112172813A (zh) 基于深度逆强化学习的模拟驾驶风格的跟车系统及方法
US20230162539A1 (en) Driving decision-making method and apparatus and chip
CN118171723A (zh) 智能驾驶策略的部署方法、装置、设备、存储介质和程序产品
CN117610681A (zh) 基于模仿学习和离散强化学习的自动驾驶汽车决策方法
CN115427966A (zh) 通过具有不确定性估计的强化学习的战术决策制定
CN113240118B (zh) 优势估计方法、装置、电子设备和存储介质
CN116301022A (zh) 基于深度强化学习的无人机集群任务规划方法和装置
CN115743168A (zh) 用于换道决策的模型训练方法、目标车道确定方法及装置
CN114104005B (zh) 自动驾驶设备的决策方法、装置、设备及可读存储介质
US20220150148A1 (en) Latency mitigation system and method
CN116047902A (zh) 一种机器人在人群中导航的方法、装置、设备及存储介质
CN115457240A (zh) 图像目标驱动导航方法、装置、设备和存储介质
CN116882607B (zh) 一种基于路径规划任务的关键节点识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant