CN112052776B - 无人车自主驾驶行为优化方法、装置和计算机设备 - Google Patents

无人车自主驾驶行为优化方法、装置和计算机设备 Download PDF

Info

Publication number
CN112052776B
CN112052776B CN202010901327.1A CN202010901327A CN112052776B CN 112052776 B CN112052776 B CN 112052776B CN 202010901327 A CN202010901327 A CN 202010901327A CN 112052776 B CN112052776 B CN 112052776B
Authority
CN
China
Prior art keywords
vehicle
early warning
value
behavior
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010901327.1A
Other languages
English (en)
Other versions
CN112052776A (zh
Inventor
史美萍
吴涛
陈杰
刘大学
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202010901327.1A priority Critical patent/CN112052776B/zh
Publication of CN112052776A publication Critical patent/CN112052776A/zh
Application granted granted Critical
Publication of CN112052776B publication Critical patent/CN112052776B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • Software Systems (AREA)
  • Educational Administration (AREA)
  • Biomedical Technology (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Traffic Control Systems (AREA)

Abstract

本申请涉及一种无人车自主驾驶行为优化方法、装置和计算机设备。所述方法包括:获取车辆行驶的状态信息,输入预先训练的自主驾驶模型得到控制车辆行驶的决策行为信息,获取车辆行驶的第一图像序列,输入预先训练的车辆行为预警模型得到危险评估值。通过人机协同方式获取用户的反馈信息,根据反馈信息判断车辆行为预警模型输出的危险评估值是否准确,当危险评估值不准确时,重新生成新的标签值,对车辆行为预警模型进行修正;当危险评估值准确时,输出对车辆驾驶行为的即时奖励值,根据车辆的状态信息、决策行为信息和车辆在第一图像序列下的即时奖励值,对自主驾驶模型进行优化训练,利用优化好的自主驾驶模型进行车辆驾驶行为决策。

Description

无人车自主驾驶行为优化方法、装置和计算机设备
技术领域
本申请涉及无人驾驶技术领域,特别是涉及一种无人车自主驾驶行为优化方法、装置和计算机设备。
背景技术
深度强化学习是当今人工智能技术非常具有代表性的一张名片。以深度强化学习为核心的计算机围棋程序AlphaGo、Alpha Zero已经能够彻底碾压人类最高水平的职业棋手。尽管深度强化学习在很多方面展现出了非常大的潜力,但是深度强化学习在无人驾驶方面的应用跟其它领域比较起来,显得并不突出。
导致出现这种状况的原因,是因为深度强化学习的训练过程本质上是一个不断试错的过程。它在训练阶段需要搜集无人车在各种不同状态下可能做出的各种决策行为,并根据这些行为的后果确定相应的奖惩值。而在真实场景中,无人车要遍历出各种行为就必然会面临碰撞等严重的安全风险。因此,深度增强学习往往在虚拟环境中能够有效提升无人车的行为决策,但是在真实环境中的表现就变得不尽如人意。
因此,现有的无人车自主驾驶技术存在场景迁移性差,误差大,学习效率低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够解决无人车自主驾驶系统场景迁移性差,误差大,学习效率低的问题的方法、装置、计算机设备和存储介质。
一种无人车自主驾驶行为优化方法,所述方法包括:
获取第一场景中车辆行驶的状态信息,将所述状态信息输入预先训练的自主驾驶模型,得到控制车辆行驶的决策行为信息;所述自主驾驶模型是通过监督学习或增强学习得到;所述决策行为信息包括转向控制命令和速度控制命令;
无人车根据所述决策行为信息在第一场景中运动;
获取第一场景中车辆行驶的第一图像序列,将所述第一图像序列输入预先训练的预警模型,得到危险评估值;所述预警模型是通过第二场景中获取的第二图像序列作为样本训练得到;
根据所述危险评估值,得到车辆的预警类型;
通过人机协同方式获取用户的反馈信息,当所述预警类型与所述反馈信息不匹配时,根据所述危险评估值,生成所述第一图像序列对应的标签值;根据所述第一图像序列以及所述标签值,对所述预警模型进行修正,利用所述修正后的预警模型计算危险评估值并对车辆驾驶行为进行预警;
当所述预警类型与所述反馈信息相匹配时,根据所述危险评估值,生成对车辆驾驶行为的即时奖励值;
根据所述状态信息、所述决策行为信息和车辆在所述第一图像序列下对应的即时奖励值,对所述自主驾驶模型进行优化,利用所述优化后的自主驾驶模型进行车辆驾驶行为决策。
在其中一个实施例中,还包括:获取第一场景中车辆行驶的第一图像序列;所述第一图像序列是按照设定步长从拍摄的视频数据中采集得到的。
在其中一个实施例中,还包括:从第二场景中获取第二图像序列;
采用专家打分或根据车辆当前的行驶参数,确定第二图像序列对应的样本标签;根据所述第二图像序列和所述样本标签训练得到车辆行为预警模型。
在其中一个实施例中,还包括:计算预设时间内得到的危险评估值的平均值和方差;当平均值大于等于第一阈值,或平均值小于第一阈值,且方差大于第二阈值,得到的预警类型为报警;或者在预设时间内,采集到的危险评估值呈递增趋势,得到的预警类型为报警。
在其中一个实施例中,还包括:反馈信息包括:动作信息和不动作信息;报警信息与动作信息匹配;不报警信息与所述不动作信息匹配。
在其中一个实施例中,还包括:获取预警类型和反馈信息;若预警类型为报警,反馈信息为不动作信息,修正危险评估值为
Figure BDA0002659878670000021
其中
Figure BDA0002659878670000022
表示修正后的危险评估值;
Figure BDA0002659878670000023
表示修正之前的危险评估值;ΔY表示预设的修正值;若预警类型为不报警,反馈信息为动作信息,修正危险评估值为
Figure BDA0002659878670000031
在其中一个实施例中,还包括:获取预警类型和反馈信息;若预警类型为报警,反馈信息为动作信息,生成车辆驾驶行为的即时奖励值为:
Figure BDA0002659878670000032
其中
Figure BDA0002659878670000033
表示当前危险评估值,kd表示危险评估值转换系数。
一种无人车自主驾驶行为优化装置,所述装置包括:
状态信息和决策行为信息获取模块,用于获取第一场景中车辆行驶的状态信息,将状态信息输入预先训练的自主驾驶模型,得到控制车辆行驶的决策行为信息。
预警模型优化模块,用于根据第一场景下的第一图像序列得到危险评估值,通过人机交互的方式得到用户的反馈信息,如果用户的反馈信息表明危险评估值不准确,调整危险评估值,生成第一图像序列对应的标签值,根据所述第一图像序列以及所述标签值,对所述预警模型进行修正,利用所述修正后的预警模型计算危险评估值并对车辆行为进行预警;如果用户的反馈信息表明危险评估值准确,根据危险评估值生成对车辆驾驶行为的即时奖励值;
自主驾驶模型优化模块,用于根据状态信息、所述决策行为信息和车辆在第一图像序列下对应的即时奖励值,对自主驾驶模型进行优化,利用优化后的自主驾驶模型进行车辆驾驶行为决策。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取第一场景中车辆行驶的状态信息,将所述状态信息输入预先训练的自主驾驶模型,得到控制车辆行驶的决策行为信息;所述自主驾驶模型是通过监督学习或增强学习得到;所述决策行为信息包括转向控制命令和速度控制命令;
无人车根据所述决策行为信息在第一场景中运动;
获取第一场景中车辆行驶的第一图像序列,将所述第一图像序列输入预先训练的预警模型,得到危险评估值;所述预警模型是通过第二场景中获取的第二图像序列作为样本训练得到;
根据所述危险评估值,得到车辆的预警类型;
通过人机协同方式获取用户的反馈信息,当所述预警类型与所述反馈信息不匹配时,根据所述危险评估值,生成所述第一图像序列对应的标签值;根据所述第一图像序列以及所述标签值,对所述预警模型进行修正,利用所述修正后的预警模型计算危险评估值并对车辆驾驶行为进行预警;
当所述预警类型与所述反馈信息相匹配时,根据所述危险评估值,生成对车辆驾驶行为的即时奖励值;
根据所述状态信息、所述决策行为信息和车辆在所述第一图像序列下对应的即时奖励值,对所述自主驾驶模型进行优化,利用所述优化后的自主驾驶模型进行车辆驾驶行为决策。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取第一场景中车辆行驶的状态信息,将所述状态信息输入预先训练的自主驾驶模型,得到控制车辆行驶的决策行为信息;所述自主驾驶模型是通过监督学习或增强学习得到;所述决策行为信息包括转向控制命令和速度控制命令;
无人车根据所述决策行为信息在第一场景中运动;
获取第一场景中车辆行驶的第一图像序列,将所述第一图像序列输入预先训练的预警模型,得到危险评估值;所述预警模型是通过第二场景中获取的第二图像序列作为样本训练得到;
根据所述危险评估值,得到车辆的预警类型;
通过人机协同方式获取用户的反馈信息,当所述预警类型与所述反馈信息不匹配时,根据所述危险评估值,生成所述第一图像序列对应的标签值;根据所述第一图像序列以及所述标签值,对所述预警模型进行修正,利用所述修正后的预警模型计算危险评估值并对车辆驾驶行为进行预警;
当所述预警类型与所述反馈信息相匹配时,根据所述危险评估值,生成对车辆驾驶行为的即时奖励值;
根据所述状态信息、所述决策行为信息和车辆在所述第一图像序列下对应的即时奖励值,对所述自主驾驶模型进行优化,利用所述优化后的自主驾驶模型进行车辆驾驶行为决策。
上述无人车自主驾驶行为优化方法、装置和计算机设备,通过获取第一场景中车辆行驶的状态信息,输入到预先训练的自主驾驶模型得到控制车辆行驶的决策行为信息,由于自主驾驶模型是通过监督学习或增强学习预先训练得到,因此,当无人车在第一场景中运动时,由预先训练的自主驾驶模型得到的决策行为信息不一定合理;同时,通过获取第一场景中车辆行驶的第一图像序列,将第一图像序列输入预先训练的车辆行为预警模型,得到危险评估值,由于车辆行为预警模型是在第二场景中训练的,因此,对于第一场景中的第一图像序列,其输出的危险评估值也不一定准确。鉴于此,通过人机协同方式获取用户的反馈信息,根据用户的反馈信息判断车辆行为预警模型输出的危险评估值是否准确,当危险评估值不准确的时候,调整第一图像序列对应的标签值,通过第一图像序列和重新生成的标签值,对车辆行为预警模型进行修正,再利用修正后的预警模型计算危险评估值并对车辆行为进行预警;当用户的反馈信息表明车辆行为不合理但危险评估值准确时,将预警模型输出的危险评估值转换为车辆驾驶行为的即时奖励值,再根据车辆当前的状态信息、决策行为信息和车辆在第一图像序列下对应的即时奖励值,对自主驾驶模型进行优化,并利用优化后的自主驾驶模型进行车辆驾驶行为决策。由于加入了用户的反馈信息,使得车辆行为预警模型和无人车自主驾驶模型均可以安全地在第一场景中进行迭代式的优化训练,逐渐完成无人车自主驾驶模型应用场景的转换,场景迁移性好,大大提高了无人车自动驾驶模型的渐进学习能力和学习效率。
附图说明
图1为一个实施例中无人车自主驾驶行为优化方法的流程示意图;
图2为一个实施例中危险评估模型的示意图;
图3为一个实施例中生成标签值方式的示意图;
图4为一个实施例中无人车自主驾驶行为优化模型的示意图;
图5为一个实施例中无人车自主驾驶行为优化方法的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的无人车自主驾驶行为优化方法,可以应用于如下应用环境中,定义第一场景是车辆实际行驶的场景,第二场景是车辆行为预警模型预训练的场景。车辆在第二场景中进行预警模型的训练后,行驶于第一场景中,由预先训练的无人车自主驾驶模型根据车辆的状态得到控制车辆行驶的决策行为,同时由车辆行为预警模型得到危险评估值,对车辆驾驶行为进行预警;用户根据车辆行驶状况作出反馈信息,如果用户的反馈信息表明危险评估值不准确,则调整危险评估值,生成第一图像序列对应的新的标签值,把第一图像序列和其对应的标签值加入车辆行为预警模型训练的样本库,再对车辆行为预警模型进行修正,利用修正后的预警模型计算危险评估值并对车辆行为进行预警;如果用户的反馈信息表明危险评估值准确但车辆行为不合理,则根据此时的危险评估值生成对车辆驾驶行为的即时奖励值,并根据车辆行驶的状态信息、决策行为信息,以及即时奖励值对无人车自主驾驶模型进行优化,再利用优化后的无人车自主驾驶模型进行车辆驾驶行为决策,如此反复,直到车辆行为预警模型和无人车自主驾驶模型在第一场景中均具有较好的准确度。
在一个实施例中,如图1所示,提供了一种无人车自主驾驶行为优化方法,以该方法应用于行驶车辆为例进行说明,包括以下步骤:
步骤102,获取第一场景中车辆行驶的状态信息,将状态信息输入预先训练的自主驾驶模型,得到控制车辆行驶的决策行为信息。
自主驾驶模型是通过监督学习或增强学习得到;决策行为信息包括转向控制命令和速度控制命令;
车辆行驶的状态信息包括车载前视道路场景图像、车辆行驶速度、转向角度、执行任务类别以及是否发生碰撞等准确、可测量的状态量。
车辆行驶的状态信息会影响对车辆的行为决策,因此,将状态信息输入预先训练的自主驾驶模型,可以得到控制车辆行驶的决策行为信息。
步骤104,无人车根据决策行为信息在第一场景中运动。
具体的,控制车辆行驶的决策行为信息包括转向控制命令和速度控制命令,通过转向控制命令和速度控制命令可以进行无人车的底层伺服控制,实现无人车在实际场景中的运动。
步骤106,获取第一场景中车辆行驶的第一图像序列,将第一图像序列输入预先训练的车辆行为预警模型,得到危险评估值;车辆行为预警模型是通过第二场景中获取的第二图像序列作为样本训练得到。
车辆行为预警模型可以是基于神经网络的模型。车辆行为预警模型的训练是在交付用户使用之前完成,训练的过程包括:面向虚拟仿真环境或真实交通环境,在不同天气和不同路况条件下,利用车载前视相机采集车辆在不同驾驶行为下的场景图像,其中驾驶行为可以是遥控产生也可以是车辆自主产生,再在场景图像中选取设定帧数的图像序列,通过专家打分或者根据车辆当前的行驶参数得到代表图像序列危险值的标签值,图像序列和与图像序列对应的标签值,构成车辆行为预警模型训练的一个样本。在一个场景中的多个图像序列和对应的标签值构成的多个样本,构成车辆行为预警模型训练的样本集,用样本集对车辆行为预警模型进行训练,直到训练完成。
步骤108,根据危险评估值,得到车辆的预警类型。
预警类型可以包括与前车碰撞报警、行人碰撞报警、车距过近报警、车道偏离报警、盲区检测报警、交通识别报警等。车辆报警的情形可以有行驶车辆与前车或者行人距离小于安全距离、车辆偏移且车速使得车辆有冲出道路的风险,侧方和后方车辆距离过近,检测到盲区有行人或移动物体,检测到交通标志但当前车速使车辆存在违规风险等,在这些情形下,车辆报警。当模型判断车辆行驶没有安全风险时,车辆不报警。根据车辆速度、车辆相对于道路的偏移角度、车与障碍物的距离等判断风险级别,可以根据风险级别给予不同级别的报警,例如根据风险级别不同,报警的声音频率不同,还可以同时进行语音和视觉显示提示。
步骤110,通过人机协同方式获取用户的反馈信息,当预警类型与反馈信息不匹配时,根据危险评估值,生成第一图像序列对应的标签值。
人机协同的方式是指,当车辆做出预警,用户可以通过车辆的显示屏、方向盘、刹车等装置作出控制车辆的反应,比如转弯,减速,紧急停车,触摸显示屏解除报警等。预警类型与反馈信息不匹配的情形可以是车辆发出预警,但用户没有作出解除能解除预警的行为,如转弯,减速,紧急停车等。
根据危险评估值,生成第一图像序列对应的标签值,如果预警模型报警,但用户没有作出解除能解除预警的行为,说明表征危险的危险评估值偏大,需要减小标签值;如果预警模型没有报警,但用户采取了紧急措施,如刹车,减速,转弯等,说明危险评估值偏小,需要增大标签值。修正第一图像序列对应的标签值可以是线性比例改变,也可以是加减一个预设值实现,其中修改比例和预设值可以由用户调整。
在第一场景中获取多个图像序列,分别由预警模型进行预警,结合用户的反馈信息,将判断不准确的图像序列和其对应的标签值加入到预警模型的训练样本库,对预警模型进行修正,如此反复,直到预警模型对第一场景的车辆行为预警具有较高的准确度。
步骤112,当预警类型与反馈信息匹配时,根据所述危险评估值,生成对车辆驾驶行为的即时奖励值。
如果预警模型报警且用户认为报警合理,说明预警模型输出的危险评估值合适,预警准确,但自主驾驶模型给出的决策行为不合理,用户的反馈信息表明需要用户采取和预警匹配的动作使车辆解除报警,说明自主驾驶模型还不能很好地适应当前的道路场景,此时,可将当前的危险评估值转换为对车辆驾驶行为的即时奖励值,并把当前的车辆状态信息、决策行为信息和第一图像序列对应的即时奖励值作为样本对无人车自主驾驶模型进行优化训练。通过优化样本对无人车自主驾驶模型进行训练,训练效率高,训练完成后得到的无人车自主驾驶模型的准确度更好。
步骤114,根据所述状态信息、所述决策行为信息和车辆在所述第一图像序列下对应的即时奖励值,对所述无人车自主驾驶模型进行优化,利用所述优化后的无人车自主驾驶模型进行车辆驾驶行为决策。
无人车自主驾驶模型是基于Actor-Critic网络结构的DDPG模型。将车辆行驶过程转化为马尔可夫决策过程,采用强化学习方式求解车辆驾驶决策。Critic网络为价值网络,负责估计在状态s执行动作a的累计奖励期望值Q(s,a),Critic网络输入为状态s和动作a,输出为Q(s,a);Actor网络为策略网络,是对最优动作策略π(s)的逼近,通过状态s选择能使Q(s,a)最大化的动作a,输入为状态s,输出为动作a。DDPG模型的一个训练样本<st,at,rt,st+1>表示的是在状态st下执行动作at后,动作执行完后下一个时刻的状态为st+1,获得的奖励值为rt,用多个样本构成的训练样本集对模型进行训练,直到无人车自主驾驶模型能够合理准确地进行驾驶行为决策。
上述无人车自主驾驶行为优化方法中,通过获取第一场景中车辆行驶的状态信息,输入到预先训练的无人车自主驾驶模型,得到控制车辆行驶的决策行为信息,由于自主驾驶模型是通过监督学习或增强学习预先训练得到,因此,当无人车在第一场景中运动时,由预先训练的自主驾驶模型得到的决策行为信息不一定合理;同时,获取第一场景中车辆行驶的第一图像序列,将第一图像序列输入预先训练的车辆行为预警模型,得到危险评估值,由于车辆行为预警模型是在第二场景中训练的,因此,对于第一场景中的第一图像序列,其输出的危险评估值也不一定准确。为此,通过人机协同方式获取用户的反馈信息,根据用户的反馈信息判断车辆行为预警模型输出的危险评估值是否准确,当危险评估值不准确的时候,调整第一图像序列对应的标签值,通过第一图像序列和重新生成的标签值,对车辆行为预警模型进行修正,利用修正后的预警模型计算危险评估值并对车辆行为进行预警;当危险评估值准确但车辆行为不合理时,将车辆行为预警模型输出的危险评估值转换为对车辆驾驶行为的即时奖励值,再根据车辆的状态信息、决策行为信息和车辆在第一图像序列下对应的即时奖励值,对自主驾驶模型进行优化训练,利用优化后的自主驾驶模型进行车辆驾驶行为决策。由于加入了用户的反馈信息,使得车辆行为预警模型和无人车自主驾驶模型均可以安全地在第一场景中进行优化,逐渐完成无人车自主驾驶模型应用场景的转换,场景迁移性好,大大提高了无人车自动驾驶优化模型的渐进学习能力和学习效率。
在其中一个实施例中,第一图像序列是按照设定步长从拍摄的视频数据中采集得到的。设定步长可以以时间作为步长,也可以以图像帧数作为步长,图像采集可以是连续的,也可以是不连续的。同时,采集的多个图像序列可以部分重叠,也可以完全不重叠。
具体的,假设视频数据有100帧,依次称为第0、第1、第2…第n…第99帧,如果一个图像序列采集5帧,采集图像序列中下一个图像的步长间隔称为第一采集步长,当设置第一采集步长为1帧时,采集到的图像是第0、第1、第2、第3、第4帧,这样的采集称为连续采集;当设置第一采集步长为5帧时,采集到的图像是第0、第5、第10、第15、第20帧,这样的采集称为不连续采集。
采集多个图像序列时,如果一个序列采集5帧,第一图像序列从第0帧开始,采集下一个图像序列的步长间隔称为第二采集步长,那么当第二采集步长小于5帧的时候,采集到的多个图像序列部分重叠;当第二采集步长大于或者等于5帧的时候,采集到的多个图像序列完全不重叠。
在其中一个实施例中,预警模型为神经网络模型,根据第一图像序列得到危险评估值的步骤,如图2所示,包括:将所述第一图像序列中的帧图像分别输入车辆行为预警模型中的卷积神经网络,并将卷积神经网络的处理结果输出至车辆行为预警模型的卷积LSTM网络,由车辆行为预警模型的全连接层输出危险评估值。
具体的,卷积层可以采用VGG16BN网络前6层和对应的预训练参数,通过卷积层提取的特征,输入到双层卷积LSTM网络提取图像间的时序特征,时序特征经过全连接层后输出评估奖励,作为危险评估值。
对于一个驾驶场景,用多帧图像及其标签作为神经网络模型的输入,相比于用单帧图像及其标签对神经网络模型进行训练,可以减小场景图像信息的噪声,使场景识别更加细致,预警结果更加准确。
在一个实施例中,通过第二场景中获取的第二图像序列作为样本训练得到车辆行为预警模型。样本信息包括图像序列及和图像序列对应的样本标签值。样本标签值可以采用专家打分或根据车辆当前的行驶参数获得。
具体的,确定神经网络模型输入层的节点数为m,按照一定规律依次从第二场景图像中选取m帧图像序列,作为神经网络模型的输入信息
Figure BDA0002659878670000111
并通过专家打分或根据车辆当前的行驶参数的方式获得可以表征车辆驾驶危险程度的标签值Yt,以此形成车辆驾驶危险性评估模型的初始训练样本集,记为
Figure BDA0002659878670000112
根据车辆当前的行驶参数的方式获得标签值Yt,一种简单可行的标签值获取方式为:对于m帧的图像序列,如图3所示,利用第m帧图像呈现的“车-路”关系,即图像中车辆偏移期望行驶轨迹的横向偏移量Δd,以及车辆当前朝向与最佳朝向的夹角Δθ,计算得到车辆当前位姿与期望行驶轨迹的偏离度,以此作为表征车辆驾驶危险程度的标签值Yt,其中,最佳朝向是车辆到期望行驶轨迹前方N=10米处的目标点方向。
Yt=k1*Δd+k2*Δθ (1)
其中k1、k2为系数。
具体的,可将车辆驾驶危险性评估值量化成一个[0,10]区间的分数,其中横向偏移量Δd和夹角Δθ分别占50%的权重。侧移方面,假如在所选道路上,车辆在正常行驶车道内最大侧移量为3m,则车辆侧移量Δd为3m时对应分数为5分,侧移量Δd为0m时对应分数为0分,中间按照线性关系递推,此时
Figure BDA0002659878670000113
朝向方面,取Δθ为90°时对应分数为5分,Δθ为0°的时候对应分数为0分,中间按照线性关系递推,此时
Figure BDA0002659878670000114
最后将两者相加得到[0,10]区间内的综合分数,即此时样本对应的标签。
具体的,根据车辆当前的行驶参数获得样本标签值可通过如下另一种方式获得:
Yt=kαmax(|αtt-1|-αT,0)+kCt(C,t)|+kv|vt-vT|+kCoCo (2)
其中αt、αt-1分别表示t时刻和t-1时刻的转向角度,αT表示转向角度变化最大阈值,kαmax(|αtt-1|-αT,0)表示前后两次转向变化过大时对应的危险性评估值,kα为转换系数;α(C,t)为执行任务类别C时对应的参考转向,kCt(C,t)|表示车辆在每个任务类别下转向角度与参考角度差距过大时对应的危险性评估值,kC为转换系数;vt表示当前行驶速度,vT表示最佳的期望行驶速度,kv|vt-vT|表示车辆当前速度和期望速度差距过大时对应的危险性评估值,kv为转换系数;Co表示碰撞检测标志,kCoCo表示车辆发生碰撞时对应的危险性评估值,kCo转换系数。
以上参数作为车辆行驶状态的指标,可以表征车辆行驶的危险程度,根据这些参数得到Yt是获得样本标签值的另一方式。
在其中一个实施例中,可以使用道路场景图像的语义分割图像作为预警模型和/或无人车自主驾驶模型的输入信息,以减少虚拟场景与真实场景间的差异性。第一图像序列和预警模型和/或无人车自主驾驶模型在预训练时使用的第二图像序列的图像格式必须保持一致,如果用于训练的第二图像序列是语义分割图像,那么第一图像序列也必须对应地转换成语义分割图像。
具体的,可以采用自动驾驶仿真平台CARLA来构建虚拟道路场景,同时为预警模型和/或无人车自主驾驶模型的训练提供相应的语义分割图像作为模型输入;相应地,在真实场景中,可以使用DeepLab V3+语义分割算法,将实际场景图像转换成语义分割图像,输入给预警模型和/或无人车自主驾驶模型进行训练。
在一个具体实施例中,报警类型包括报警和不报警。
Figure BDA0002659878670000121
表示第一图像序列的危险评估值,在Δt时间内采集多个图像序列,分别用公式(3)和公式(4)计算Δt时间内得到的危险评估值的平均值
Figure BDA0002659878670000122
和方差SDanger,其中,K为Δt时间内由模型预测参数预测出的车辆驾驶危险值个数。
Figure BDA0002659878670000123
Figure BDA0002659878670000124
在车辆行驶过程中,只要满足下列条件之一,机器就会自动进行车辆驾驶危险性预警,其特征在于:
1)若Δt时间内车辆驾驶危险平均值
Figure BDA0002659878670000131
大于等于阈值
Figure BDA0002659878670000132
自动预警。
2)若Δt时间内车辆驾驶危险平均值
Figure BDA0002659878670000133
小于阈值
Figure BDA0002659878670000134
但危险评估方差SDanger大于等于某一阈值,自动预警。
3)若Δt时间内车辆驾驶危险评估值连续a帧呈现出递增趋势,此时自动预警。
在一个具体实施例中,报警包括紧急停车报警,动作信息包括紧急停车,在车辆行驶中,若预警模型作出紧急停车报警,但用户不作操作,说明在这个场景中预警模型误判,模型给出的危险评估值过高,修正危险评估值为
Figure BDA0002659878670000135
其中
Figure BDA0002659878670000136
表示修正后的危险评估值;
Figure BDA0002659878670000137
表示修正之前的危险评估值;ΔY表示预设的修正值。若预警模型没有做出报警,但用户采取了紧急停车,说明在这个场景中模型给出的危险评估值过低,修正危险评估值为
Figure BDA0002659878670000138
在一个具体实施例中,将车辆危险性评估值量化成一个[0,10]区间的分数。10分表示车辆行驶状态十分糟糕,例如车辆严重偏离当前车道,即将或已经与障碍物发生碰撞,车辆朝向与预定方向严重不一致等等状态;0分表示当前车辆正常行驶在车道上,状态与10分时相反。
在一个具体实施例中,无人车自主驾驶行为优化模型如图4所示,无人车自主驾驶优化模型主要包括预警模型和DDPG自动驾驶模型。把车辆行驶状态信息st输入到预先训练的DDPG自动驾驶模型,得到控制车辆行驶的决策行为信息at和执行完动作后下一时刻的车辆状态信息st+1;根据车辆及其运行环境得到M帧序贯图像序列,把图像序列输入车辆行为预警模型中,根据图像序列对车辆行为进行预警,当用户执行的动作表明预警不准确时,调整样本标签值,把图像序列和调整后的样本标签值加入到预警模型训练样本集,再对预警模型进行修正;如果用户执行的动作表明预警准确且车辆驾驶行为不合理时,将预警模型输出转换为对车辆驾驶行为的即时奖励值rt。把<st,at,rt,st+1>作为DDPG自动驾驶模型的一个训练样本,加入到DDPG自动驾驶模型的训练样本集中,对DDPG自动驾驶模型进行优化训练,直到DDPG自动驾驶模型具有较高的自主驾驶性能。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种无人车自主驾驶行为优化装置,包括:状态信息和决策行为信息获取模块502、预警模型优化模块504、自主驾驶模型优化模块506,其中:
状态信息和决策行为信息获取模块502,用于获取第一场景中车辆行驶的状态信息,将所述状态信息输入预先训练的自主驾驶模型,得到控制车辆行驶的决策行为信息;
预警模型优化模块504,用于根据第一场景下的第一图像序列得到危险评估值,通过人机交互的方式得到用户的反馈信息,如果用户的反馈信息表明危险评估值不准确,调整危险评估值,生成第一图像序列对应的标签值,根据所述第一图像序列以及所述标签值,对所述预警模型进行修正,利用所述修正后的预警模型计算危险评估值并对车辆行为进行预警;如果用户的反馈信息表明危险评估值准确,根据危险评估值生成对车辆驾驶行为的即时奖励值;
自主驾驶模型优化模块506,用于根据所述状态信息、所述决策行为信息和车辆在所述第一图像序列下对应的即时奖励值,对所述自主驾驶模型进行训练,利用所述训练好的自主驾驶模型进行车辆驾驶行为决策。
在其中一个实施例中,预警模型优化模块504还用于按照设定步长从拍摄的视频数据中采集第一图像序列。
在其中一个实施例中,预警模型为神经网络模型。
在其中一个实施例中,预警模型优化模块504还用于从第二场景中获取第二图像序列,采用专家打分或根据车辆当前的行驶参数,确定第二图像序列对应的样本标签。
在其中一个实施例中,预警类型包括:报警和不报警;预警模型优化模块504还用于计算预设时间内得到的危险评估值的平均值和方差;当所述平均值大于等于第一阈值,或所述平均值小于第一阈值,且所述方差大于第二阈值,得到的预警类型为报警;或者在预设时间内,采集到的所述危险评估值呈递增趋势,得到的预警类型为报警。
在其中一个实施例中,反馈信息包括:动作信息和不动作信息;所述报警信息与动作信息匹配;所述不报警信息与所述不动作信息匹配。
在其中一个实施例中,预警模型优化模块504还用于生成第一图像序列对应的标签值,包括:获取预警类型和反馈信息;若所述预警类型为报警,所述反馈信息为不动作信息,修正危险评估值为
Figure BDA0002659878670000151
其中
Figure BDA0002659878670000152
表示修正后的危险评估值;
Figure BDA0002659878670000153
表示修正之前的危险评估值;ΔY表示预设的修正值;若所述预警类型为不报警,所述反馈信息为动作信息,修正危险评估值为
Figure BDA0002659878670000154
在其中一个实施例中,预警模型优化模块504还用于根据所述危险评估值,生成车辆驾驶行为的即时奖励值。包括:获取预警类型和反馈信息;若预警类型为报警,反馈信息为动作信息,生成车辆驾驶行为的即时奖励值为
Figure BDA0002659878670000155
其中
Figure BDA0002659878670000156
表示当前危险评估值;kd表示危险评估值转换系数。
关于无人车自主驾驶行为优化装置的具体限定可以参见上文中对于无人车自主驾驶行为优化方法的限定,在此不再赘述。上述无人车自主驾驶行为优化装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种车辆预警方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板、鼠标或模拟方向盘等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种无人车自主驾驶行为优化方法,其特征在于,所述方法包括:
获取第一场景中车辆行驶的状态信息,将所述状态信息输入预先训练的无人车自主驾驶模型,得到控制车辆行驶的决策行为信息;所述无人车自主驾驶模型是通过监督学习或增强学习得到;所述决策行为信息包括转向控制命令和速度控制命令;
无人车根据所述决策行为信息在第一场景中运动;
获取第一场景中车辆行驶的第一图像序列,将所述第一图像序列输入预先训练的预警模型,得到危险评估值;所述预警模型是通过第二场景中获取的第二图像序列作为样本训练得到;
根据所述危险评估值,得到车辆的预警类型;
通过人机协同方式获取用户的反馈信息,当所述预警类型与所述反馈信息不匹配时,根据所述危险评估值,生成所述第一图像序列对应的标签值;根据所述第一图像序列以及所述标签值,对所述预警模型进行修正,利用所述修正后的预警模型计算危险评估值并对车辆行为进行预警;所述第一图像序列对应的标签值的修正是线性比例改变,或加减一个预设值实现,其中修改比例和预设值可以由用户调整;
当所述预警类型与所述反馈信息相匹配时,根据所述危险评估值,生成对车辆驾驶行为的即时奖励值;
根据所述状态信息、所述决策行为信息和车辆在所述第一图像序列下对应的即时奖励值,对所述无人车自主驾驶模型进行优化,利用所述优化后的无人车自主驾驶模型进行车辆驾驶行为决策。
2.根据权利要求1所述的方法,其特征在于,获取第一场景中车辆行驶的第一图像序列,包括:
获取第一场景中车辆行驶的第一图像序列;所述第一图像序列是按照设定步长从拍摄的视频数据中采集得到的。
3.根据权利要求1所述的方法,其特征在于,通过第二场景中获取的第二图像序列作为样本训练得到车辆预警模型的方式,包括:
从第二场景中获取第二图像序列;
采用专家打分或根据车辆当前的行驶参数,确定第二图像序列对应的样本标签;
根据所述第二图像序列和所述样本标签训练得到车辆预警模型。
4.根据权利要求1所述的方法,其特征在于,预警类型包括:报警和不报警;
所述根据所述危险评估值,得到车辆的预警类型,包括:
计算预设时间内得到的危险评估值的平均值和方差;
当所述平均值大于等于第一阈值,或所述平均值小于第一阈值且所述方差大于第二阈值,得到的预警类型为报警;
或者在预设时间内,采集到的所述危险评估值呈递增趋势,得到的预警类型为报警。
5.根据权利要求4所述的方法,其特征在于,所述反馈信息包括:动作信息和不动作信息;所述报警信息与动作信息匹配;所述不报警信息与所述不动作信息匹配。
6.根据权利要求5所述的方法,其特征在于,所述当所述预警类型与所述反馈信息不匹配时,根据所述危险评估值,生成所述第一图像序列对应的标签值,包括:
获取所述预警类型和所述反馈信息;
若所述预警类型为报警,所述反馈信息为不动作信息,修正危险评估值为
Figure FDA0003109632420000021
其中
Figure FDA0003109632420000022
表示修正后的危险评估值;
Figure FDA0003109632420000023
表示修正之前的危险评估值;ΔY表示预设的修正值;
若所述预警类型为不报警,所述反馈信息为动作信息,修正危险评估值为
Figure FDA0003109632420000024
7.根据权利要求6所述的方法,其特征在于,所述当所述预警类型与所述反馈信息匹配时,根据所述危险评估值,生成车辆驾驶行为的即时奖励值,包括;
获取所述预警类型和所述反馈信息;
若所述预警类型为报警,所述反馈信息为动作信息,生成车辆驾驶行为的即时奖励值为:
Figure FDA0003109632420000031
其中
Figure FDA0003109632420000032
表示当前危险评估值,kd表示危险评估值转换系数。
8.一种无人车自主驾驶行为优化装置,其特征在于,所述装置包括:
状态信息和决策行为信息获取模块,用于获取第一场景中车辆行驶的状态信息,将所述状态信息输入预先训练的无人车自主驾驶模型,得到控制车辆行驶的决策行为信息;所述决策行为信息包括转向控制命令和速度控制命令;
预警模型优化模块,用于在无人车根据所述决策行为信息在第一场景中运动时,获取第一场景中车辆行驶的第一图像序列,将所述第一图像序列输入预先训练的预警模型,得到危险评估值;所述预警模型是通过第二场景中获取的第二图像序列作为样本训练得到;根据所述危险评估值,得到车辆的预警类型;通过人机协同方式获取用户的反馈信息,当所述预警类型与所述反馈信息不匹配时,根据所述危险评估值,生成所述第一图像序列对应的标签值;根据所述第一图像序列以及所述标签值,对所述预警模型进行修正,利用所述修正后的预警模型计算危险评估值并对车辆行为进行预警;所述第一图像序列对应的标签值的修正是线性比例改变,或加减一个预设值实现,其中修改比例和预设值可以由用户调整;当所述预警类型与所述反馈信息相匹配时,根据所述危险评估值,生成对车辆驾驶行为的即时奖励值;
自主驾驶模型优化模块,用于根据所述状态信息、所述决策行为信息和车辆在所述第一图像序列下对应的即时奖励值,对所述无人车自主驾驶模型进行优化训练,利用所述优化后的自主驾驶模型进行车辆驾驶行为决策。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202010901327.1A 2020-09-01 2020-09-01 无人车自主驾驶行为优化方法、装置和计算机设备 Active CN112052776B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010901327.1A CN112052776B (zh) 2020-09-01 2020-09-01 无人车自主驾驶行为优化方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010901327.1A CN112052776B (zh) 2020-09-01 2020-09-01 无人车自主驾驶行为优化方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN112052776A CN112052776A (zh) 2020-12-08
CN112052776B true CN112052776B (zh) 2021-09-10

Family

ID=73607800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010901327.1A Active CN112052776B (zh) 2020-09-01 2020-09-01 无人车自主驾驶行为优化方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN112052776B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765812B (zh) * 2021-01-19 2021-09-07 中国科学院软件研究所 一种无人系统决策策略的自主能力快速测评方法及系统
CN112949561A (zh) * 2021-03-25 2021-06-11 深圳佳兆业科技集团有限公司 社区预警方法、装置、计算机设备和存储介质
CN113010606B (zh) * 2021-04-06 2023-12-12 智己汽车科技有限公司 一种基于区块链的车辆行驶数据的处理方法、装置及系统
CN113345229B (zh) * 2021-06-01 2022-04-19 平安科技(深圳)有限公司 基于联邦学习的道路预警方法及其相关设备
CN113320536A (zh) * 2021-07-16 2021-08-31 北京航迹科技有限公司 一种车辆控制方法及系统
CN113743469B (zh) * 2021-08-04 2024-05-28 北京理工大学 一种融合多源数据及综合多维指标的自动驾驶决策方法
CN113658445B (zh) * 2021-08-24 2022-08-23 中国第一汽车股份有限公司 一种车辆预警方法、装置、车辆及存储介质
CN113687991B (zh) * 2021-08-25 2023-08-22 北京赛目科技股份有限公司 一种车辆缺陷的推荐方法及装置
CN113449823B (zh) * 2021-08-31 2021-11-19 成都深蓝思维信息技术有限公司 自动驾驶模型训练方法及数据处理设备
CN114489714A (zh) * 2021-12-24 2022-05-13 北京百度网讯科技有限公司 一种车载数据处理方法、装置、电子设备及存储介质
CN114802307B (zh) * 2022-05-23 2023-05-05 哈尔滨工业大学 自动与人工混合驾驶场景下的智能车辆横向控制方法
CN115171386B (zh) * 2022-07-07 2023-12-12 中南大学 一种基于蒙特卡洛树搜索的分布式协同驾驶方法
CN115240157B (zh) * 2022-08-05 2023-07-18 禾多科技(北京)有限公司 道路场景数据持久化方法、装置、设备和计算机可读介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103158620A (zh) * 2013-03-25 2013-06-19 中国电子科技集团公司第三十八研究所 一种车辆行人检测跟踪预警系统
CN105930625A (zh) * 2016-06-13 2016-09-07 天津工业大学 Q学习结合神经网络的智能驾驶行为决策系统的设计方法
CN109733390A (zh) * 2018-12-29 2019-05-10 江苏大学 一种基于驾驶人特性的自适应换道预警方法
KR20190126258A (ko) * 2019-08-23 2019-11-11 엘지전자 주식회사 차량용 전자 장치 및 그의 동작 방법

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789451B (zh) * 2011-05-16 2015-06-03 北京百度网讯科技有限公司 一种个性化的机器翻译系统、方法及训练翻译模型的方法
CN108791302B (zh) * 2018-06-25 2020-05-19 大连大学 驾驶员行为建模系统
CN110688877B (zh) * 2018-07-05 2022-08-05 杭州海康威视数字技术股份有限公司 一种危险预警方法、装置、设备及存储介质
CN108932840B (zh) * 2018-07-17 2021-09-07 北京理工大学 基于强化学习的无人驾驶车辆城市交叉口通行方法
US10503174B1 (en) * 2019-01-31 2019-12-10 StradVision, Inc. Method and device for optimized resource allocation in autonomous driving on the basis of reinforcement learning using data from lidar, radar, and camera sensor
CN110745136B (zh) * 2019-09-20 2021-05-07 中国科学技术大学 一种驾驶自适应控制方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103158620A (zh) * 2013-03-25 2013-06-19 中国电子科技集团公司第三十八研究所 一种车辆行人检测跟踪预警系统
CN105930625A (zh) * 2016-06-13 2016-09-07 天津工业大学 Q学习结合神经网络的智能驾驶行为决策系统的设计方法
CN109733390A (zh) * 2018-12-29 2019-05-10 江苏大学 一种基于驾驶人特性的自适应换道预警方法
KR20190126258A (ko) * 2019-08-23 2019-11-11 엘지전자 주식회사 차량용 전자 장치 및 그의 동작 방법

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
P2V and V2P Communication for Pedestrian Warning on the basis of Autonomous Vehicles;Ahmed Hussein 等;《2016 IEEE 19th International Conference on Intelligent Transportation Systems (ITSC)》;20161104;2034-2039 *
Springrobot: A Prototype Autonomous Vehicle and Its Algorithms for Lane Detection;Qing Li 等;《IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS》;20041206;第5卷(第4期);300-308 *
一种无人驾驶车辆路径跟踪控制方式研究;龚毅;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140715(第7期);I140-303 *
无人驾驶汽车路径跟踪控制方法拟人程度研究;郭应时 等;《中国公路学报》;20180815;第31卷(第8期);189-196 *

Also Published As

Publication number Publication date
CN112052776A (zh) 2020-12-08

Similar Documents

Publication Publication Date Title
CN112052776B (zh) 无人车自主驾驶行为优化方法、装置和计算机设备
CN112347567B (zh) 一种车辆意图和轨迹预测的方法
CN110949398B (zh) 一种车辆编队行驶中头车驾驶员异常驾驶行为检测方法
Gu et al. A novel lane-changing decision model for autonomous vehicles based on deep autoencoder network and XGBoost
US11816901B2 (en) Multi-agent trajectory prediction
Tang et al. Driver lane change intention recognition of intelligent vehicle based on long short-term memory network
CN110077398B (zh) 一种用于智能驾驶的危险处理方法
CN109278748A (zh) 制动预测和参与
CN111814766B (zh) 车辆行为预警方法、装置、计算机设备和存储介质
CN110733506B (zh) 无人驾驶车辆的车道变更方法及设备
CN114323054B (zh) 自动驾驶车辆行驶轨迹的确定方法、装置及电子设备
CN112249008B (zh) 针对复杂动态环境的无人驾驶汽车预警方法
CN113370996B (zh) 自动驾驶换道跟驰决策方法及系统、自动驾驶车辆
CN112793576B (zh) 一种基于规则与机器学习融合的换道决策方法及系统
CN113942524B (zh) 一种车辆行驶控制方法、系统及计算机可读存储介质
CN114399743A (zh) 一种障碍物未来轨迹的生成方法
JP2023540613A (ja) 運転者支援システムを試験するための方法およびシステム
Arefnezhad et al. Modeling of double lane change maneuver of vehicles
JP2009096365A (ja) リスク認識システム
Li et al. Attention-based lane change and crash risk prediction model in highways
CN117325865A (zh) 一种lstm轨迹预测的智能车辆换道决策方法及系统
CN114049677B (zh) 基于驾驶员情绪指数的车辆adas控制方法及系统
CN114162145A (zh) 车辆自动驾驶方法、装置及电子设备
CN114446046A (zh) 一种基于lstm模型的弱势交通参与者轨迹预测方法
CN113033902A (zh) 一种基于改进深度学习的自动驾驶换道轨迹规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant