CN110320883A - 一种基于强化学习算法的车辆自动驾驶控制方法及装置 - Google Patents

一种基于强化学习算法的车辆自动驾驶控制方法及装置 Download PDF

Info

Publication number
CN110320883A
CN110320883A CN201810264905.8A CN201810264905A CN110320883A CN 110320883 A CN110320883 A CN 110320883A CN 201810264905 A CN201810264905 A CN 201810264905A CN 110320883 A CN110320883 A CN 110320883A
Authority
CN
China
Prior art keywords
data
training
state information
obtains
learning model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810264905.8A
Other languages
English (en)
Inventor
�田润
刘志峰
卢远志
肖骁
李勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SAIC Motor Corp Ltd
Original Assignee
SAIC Motor Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SAIC Motor Corp Ltd filed Critical SAIC Motor Corp Ltd
Priority to CN201810264905.8A priority Critical patent/CN110320883A/zh
Publication of CN110320883A publication Critical patent/CN110320883A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0218Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
    • G05B23/0221Preprocessing measurements, e.g. data collection rate adjustment; Standardization of measurements; Time series or signal analysis, e.g. frequency analysis or wavelets; Trustworthiness of measurements; Indexes therefor; Measurements using easily measured parameters to estimate parameters difficult to measure; Virtual sensor creation; De-noising; Sensor fusion; Unconventional preprocessing inherently present in specific fault detection methods like PCA-based methods

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本申请公开一种基于强化学习算法的车辆自动驾驶控制方法及装置,方法包括对从真实传感器获取的采集数据进行数据分布处理,得到与训练目标数据的数据分布一致的真实目标数据,训练目标数据为经过对模拟器环境中传感器数据进行数据分布处理得到;在强化学习模型训练时采用训练目标数据,而由于实际自动驾驶控制时得到真实目标数据与训练过程采用的训练目标数据的数据分布一致,因此,可以将训练好的强化学习模型直接应用于真实车辆上进行自动驾驶,提高了自动驾驶的安全性。

Description

一种基于强化学习算法的车辆自动驾驶控制方法及装置
技术领域
本发明涉及自动驾驶技术领域,更具体地说,涉及一种基于强化学习算法的车辆自动驾驶控制方法及装置。
背景技术
目前,自动驾驶领域的研究工作呈现爆发式增长。传统的基于规则的决策规划方法存在一些无法避免的问题;人类无法在算法中覆盖所有驾驶场景,而车辆在规则没有覆盖的环境下时,决策规划算法就会失效,所以,目前的基于规则决策的智能汽车只能在简单的、限定的场景下进行自动驾驶。
AlphaGo是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能程序。AlphaGo为了应对围棋的复杂性,结合了监督学习和强化学习的优势。AlphaGO在较短时间内的围棋训练成果可完胜人类,让人们注意到强化学习在决策领域的强大之处。目前,强化学习已经应用到了端对端游戏控制、机器人手臂控制、推荐系统、自然语言对话系统等多个领域。
基于大量的驾驶场景数据利用强化学习算法让车辆自己进行决策、规划的学习是一种很好的解决基于规则算法缺陷的方法。目前,可以在模型器环境下让车辆与虚拟环境进行交互,从而进行强化学习模型的训练;但是,将模拟器环境下训练好的强化学习模型直接应用到真实车辆上进行自动驾驶安全性较差。主要原因是现有的模拟器环境中传感器数据分布和真实环境的传感器数据分布有很大差别。以图片举例,相同的物体在模拟器环境和真实环境下图像像素值的均值、方差的差异较大,造成训练好的模型不适用于真实环境。
发明内容
有鉴于此,本发明提出一种基于强化学习算法的车辆自动驾驶控制方法及装置,欲解决模拟器环境中传感器数据分布和真实环境的传感器数据分布有很大差别的技术问题。
为了解决上述技术问题,现提出的方案如下:
一种基于强化学习算法的车辆自动驾驶控制方法,包括:
获取真实传感器的采集数据和车辆的行驶状态信息;
对所述采集数据进行数据分布处理,得到真实目标数据;
将所述真实目标数据和所述行驶状态信息输入预先训练得到的强化学习模型,得到所述强化学习模型输出的车辆的控制信号,在所述强化学习模型训练过程时采用的训练样本数据中的训练目标数据与所述真实目标数据的数据分布一致,所述训练目标数据为经过对模拟器环境中传感器数据进行数据分布处理得到;
根据所述控制信号控制车辆自动行驶。
优选的,所述强化学习模型的预先训练过程,包括:
获取模拟器环境中的传感器数据和行驶状态信息;
对所述传感器数据进行数据分布处理,得到训练目标数据;
利用所述训练目标数据和从所述模拟器环境中获取的行驶状态信息对所述强化学习模型进行训练。
优选的,从所述模拟器环境获取的传感器数据和从所述真实传感器获取的采集数据均包括视觉传感器原始图像;
对从所述模拟器环境获取的视觉传感器原始图像进行数据分布处理,得到训练目标数据的过程,具体包括:将从所述模拟器环境获取的视觉传感器原始图像输入预先训练得到的第一深度学习模型,得到所述第一深度学习模型输出的第一深度图和第一语义分割图,将所述第一深度图和所述第一语义分割图作为训练目标数据;
对从所述真实传感器获取的视觉传感器原始图像进行数据分布处理,得到真实目标数据的过程,具体包括:将从所述真实传感器获取的视觉传感器输入预先训练得到的第二深度学习模型,得到所述得而深度学习模型输出的第二深度图和第二语义分割图,将所述第二深度图和所述第二语义分割图作为真实目标数据。
优选的,从所述模拟器环境获取的传感器数据还包括车辆周围物体的运动状态信息,从所述真实传感器获取的采集数据还包括雷达数据或V2X信息;
对从所述真实传感器获取的雷达数据或V2X信息进行数据分布处理,得到真实目标数据的过程,具体包括:根据所述雷达数据或所述V2X信息得到带噪声的目标运动状态信息,将目标运动状态信息、所述第二深度图以及所述第二语义分割图共同作为真实目标数据;
对从所述模拟器环境获取的运动状态信息进行数据分布处理,得到训练目标数据的过程,具体包括:根据的所述目标运动状态信息的数据分布,对从所述模拟器环境获取的运动状态信息添加噪声,将添加噪声后的运动状态信息、所述第一深度图以及所述第一语义分割图共同作为训练目标数据。
优选的,从所述模拟器环境获取的传感器数据还包括车辆周围物体的运动状态信息,从所述真实传感器获取的采集数据还包括雷达数据和V2X信息;
对从所述真实传感器获取的雷达数据和V2X信息进行数据分布处理,得到真实目标数据的过程,具体包括:根据所述雷达数据和所述V2X信息并利用数据融合技术,得到带噪声的目标运动状态信息,将目标运动状态信息、所述第二深度图以及所述第二语义分割图共同作为真实目标数据;
对从所述模拟器环境获取的运动状态信息进行数据分布处理,得到训练目标数据的过程,具体包括:根据的所述目标运动状态信息的数据分布,对从所述模拟器环境获取的运动状态信息添加噪声,将添加噪声后的运动状态信息、所述第一深度图以及所述第一语义分割图共同作为训练目标数据。
一种基于强化学习算法的车辆自动驾驶控制装置,包括:
数据获取单元,用于获取真实传感器的采集数据和车辆的行驶状态信息;
分布处理单元,用于对所述采集数据进行数据分布处理,得到真实目标数据;
控制决策单元,用于将所述真实目标数据和所述行驶状态信息输入预先训练得到的强化学习模型,得到所述强化学习模型输出的车辆的控制信号,在所述强化学习模型训练过程时采用的训练样本数据中的训练目标数据与所述真实目标数据的数据分布一致,所述训练目标数据为经过对模拟器环境中传感器数据进行数据分布处理得到;
行驶控制单元,用于根据所述控制信号控制车辆自动行驶。
优选的,还包括模型训练单元,所述模型训练单元包括:
数据获取子单元,用于获取模拟器环境中的传感器数据和行驶状态信息;
分布处理子单元,用于对所述传感器数据进行数据分布处理,得到训练目标数据;
训练子单元,用于利用所述训练目标数据和从所述模拟器环境中获取的行驶状态信息对所述强化学习模型进行训练。
优选的,从所述模拟器环境获取的传感器数据和从所述真实传感器获取的采集数据均包括视觉传感器原始图像;
所述分布处理子单元具体用于:将从所述模拟器环境获取的视觉传感器原始图像输入预先训练得到的第一深度学习模型,得到所述第一深度学习模型输出的第一深度图和第一语义分割图,将所述第一深度图和所述第一语义分割图作为训练目标数据;
所述分布处理单元具体用于:将从所述真实传感器获取的视觉传感器输入预先训练得到的第二深度学习模型,得到所述得而深度学习模型输出的第二深度图和第二语义分割图,将所述第二深度图和所述第二语义分割图作为真实目标数据。
优选的,从所述模拟器环境获取的传感器数据还包括车辆周围物体的运动状态信息,从所述真实传感器获取的采集数据还包括雷达数据或V2X信息;
所述分布处理子单元具体用于:根据所述雷达数据或所述V2X信息得到带噪声的目标运动状态信息,将目标运动状态信息、所述第二深度图以及所述第二语义分割图共同作为真实目标数据;
所述分布处理单元具体用于:根据的所述目标运动状态信息的数据分布,对从所述模拟器环境获取的运动状态信息添加噪声,将添加噪声后的运动状态信息、所述第一深度图以及所述第一语义分割图共同作为训练目标数据。
优选的,从所述模拟器环境获取的传感器数据还包括车辆周围物体的运动状态信息,从所述真实传感器获取的采集数据还包括雷达数据和V2X信息;
所述分布处理子单元具体用于:根据所述雷达数据和所述V2X信息并利用数据融合技术,得到带噪声的目标运动状态信息,将目标运动状态信息、所述第二深度图以及所述第二语义分割图共同作为真实目标数据;
所述分布处理单元具体用于:根据的所述目标运动状态信息的数据分布,对从所述模拟器环境获取的运动状态信息添加噪声,将添加噪声后的运动状态信息、所述第一深度图以及所述第一语义分割图共同作为训练目标数据。
与现有技术相比,本发明的技术方案具有以下优点:
上述技术方案提供的基于强化学习算法的车辆自动驾驶控制方案,分别对从真实传感器获取的采集数据和从模拟器环境中获取的传感器数据进行数据分布处理,得到数据分布一致的训练目标数据和真实目标数据;在强化学习模型训练时采用训练目标数据,而由于实际自动驾驶控制时得到真实目标数据与训练过程采用的训练目标数据的数据分布一致,因此,可以将训练好的强化学习模型直接应用于真实车辆上进行自动驾驶,提高了自动驾驶的安全性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种于强化学习算法的车辆自动驾驶控制方法的流程图;
图2为本发明实施例提供的一种于强化学习算法的车辆自动驾驶控制装置的逻辑结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例提供一种基于强化学习算法的车辆自动驾驶控制方法,基于VCU(vehicle control unit,整车控制器)实现。VCU主要利用预先训练的强化学习模型对经过数据分布处理得到的真实目标数据进行分析,得到车辆的控制信号,由于强化学习模型训练时采用的训练样本中的训练目标数据与真实目标数据的数据分布一致,使得训练好的强化学习模型适用于真实车辆的自动行驶过程,提高车辆自动驾驶的安全性。
参见图1所示,本实施例提供的基于强化学习算法的车辆自动驾驶控制方法包括步骤:
S11:获取真实传感器的采集数据和车辆的行驶状态信息;
VCU可以从CAN(Controller Area Network,控制器局域网络)总线中获取的各个真实传感器的采集数据以及车辆的行驶状态信息。车辆安装的真实传感器包括但不限于视觉传感器、激光雷达、毫米波雷达、超声波雷达和V2X设备等。车辆在自动驾驶过程中通过安装的上述真实传感器,实时感知周围的环境状态以控制车辆的行驶状态,进而实现安全行驶。车辆的行驶状态信息包括但不限于是否发生碰撞、是否偏离当前车道、车速、加速度、方向盘转角和档位等信息。
S12:对所述采集数据进行数据分布处理,得到真实目标数据;
在本申请的一个具体实施例中,采用高斯分布来表示数据分布,主要有均值和方差两个参数。为了使得模拟器环境下训练好的强化学习模型直接应用到真实车辆进行自动驾驶且保证自动驾驶的安全性,分别对从真实传感器获取的采集数据和从模拟器环境获取的传感器数据进行数据分布处理,得到数据分布一致的真实目标数据和训练目标数据。
S13:将所述真实目标数据和所述行驶状态信息输入预先训练得到的强化学习模型,得到所述强化学习模型输出的车辆的控制信号;
在所述强化学习模型训练过程时采用的训练样本数据中的训练目标数据与所述真实目标数据的数据分布一致,所述训练目标数据为经过对模拟器环境中传感器数据进行数据分布处理得到。利用与真实目标数据的数据分布一致的训练目标数据对强化学习模型进行训练,使得训练好的强化学习模型可以直接应用于真实车辆的自动驾驶过程且保证了自动驾驶的安全性。
强化学习模型可以采用适用于连续状态空间和连续动作空间的DDPG、A3C、TRPO或PPO等算法。
S14:根据所述控制信号控制车辆自动行驶。
控制信号包括但不限于油门踏板开度信号、制动踏板开度信号和方向盘转角信号等。
本实施例提供的基于强化学习算法的车辆自动驾驶控制方法,对从真实传感器获取的采集数据进行数据分布处理,得到与训练目标数据的数据分布一致的真实目标数据,训练目标数据为经过对模拟器环境中传感器数据进行数据分布处理得到;在强化学习模型训练时采用训练目标数据,而由于实际自动驾驶控制时得到真实目标数据与训练过程采用的训练目标数据的数据分布一致,因此,可以将训练好的强化学习模型直接应用于真实车辆上进行自动驾驶,提高了自动驾驶的安全性。
在本实施例中,提供了强化学习模型的训练方案,强化学习模型的训练过程可以包括以下步骤:
S21:获取模拟器环境中的传感器数据和行驶状态信息;
强化学习模型训练过程,采用的传感器数据的类型同真实车辆在自动驾驶过程中获取的采集数据的类型一致;即如果自动驾驶过程中获取的采集数据的类型为视觉传感器原始图像,则训练采用的传感器数据也为视觉传感器原始图像。
训练时采用的行驶状态信息包含的类型也同真实车辆在自动驾驶过程中获取的行驶状态信息包含的类型相同;即如果真实车辆自动驾驶过程中获取的行驶状态信息包括是否发生碰撞、是否偏离当前车道、车速、加速度、方向盘转角和档位,则训练采用的行驶状态信息包括是否发生碰撞、是否偏离当前车道、车速、加速度、方向盘转角和档位。
S22:对所述传感器数据进行数据分布处理,得到训练目标数据;
对从模拟器环境获取的传感器数据进行数据分布处理,以使得到的训练目标数据与真实目标数据的数据分布一致。
在本申请的一个具体实施例中,从模拟器环境获取的传感器数据以及从真实传感器获取的采集数据均为视觉传感器原始图像。
从模拟器环境获取的传感器数据类型为视觉传感器原始图像时,得到训练目标数据的具体过程为:将从所述模拟器环境获取的视觉传感器原始图像输入预先训练得到的第一深度学习模型,得到所述第一深度学习模型输出的第一深度图和第一语义分割图,将所述第一深度图和所述第一语义分割图作为训练目标数据。第一深度学习模型为深度神经网络模型,以在模拟器中采样的视觉传感器原始图像为训练源数据、以标注好的深度图和语义分割图为标签进行训练,训练得到符合要求的第一深度学习模型模型。
对从所述真实传感器获取的采集数据类型为视觉传感器原始图像时,得到真实目标数据的过程为:将从所述真实传感器获取的视觉传感器输入预先训练得到的第二深度学习模型,得到所述得而深度学习模型输出的第二深度图和第二语义分割图,将所述第二深度图和所述第二语义分割图作为真实目标数据。第二深度学习模型为深度神经网络模型,以在真实环境中采集的视觉传感器原始图像为训练源数据、以标注好的深度图和语义分割图为标签进行训练,训练得到符合要求的深度神经网络模型。
深度图(depth image)也被称为距离影像(range image),是指将从图像采集器到场景中各点的距离作为像素值的图像,它直接反映了景物可见表面的几何形状。语义分割图中各个颜色代表不同的物体,图像语义分割的意思就是机器自动分割并识别出图像中的内容。
S23:利用所述训练目标数据和从所述模拟器环境中获取的行驶状态信息对所述强化学习模型进行训练。
强化学习模型根据任务设置奖励函数,通过训练以最大化奖励,训练收敛后可在模拟器中测试效果,若强化学习模型的测试效果不好,则修改奖励函数、模型网络结构或一些参数后继续训练,直到训练得到的强化学习模型的测试效果符合要求为止。
在本申请的一个具体实施例中,从模拟器环境获取的传感器数据为视觉传感器原始图像和车辆周围物体的运动状态信息,从真实传感器获取的采集数据均为视觉传感器原始图像和和雷达数据;或者,从模拟器环境获取的传感器数据为视觉传感器原始图像和车辆周围物体的运动状态信息,从真实传感器获取的采集数据均为视觉传感器原始图像和V2X信息。
从真实传感器获取的采集数据的类型为视觉传感器原始图像和雷达数据时,得到真实目标数据的过程具体为:根据所述雷达数据得到带噪声的目标运动状态信息;将目标运动状态信息与得到的第二深度图以及第二语义分割图共同作为真实目标数据。
从真实传感器获取的采集数据的类型为视觉传感器原始图像和V2X信息时,得到真实目标数据的过程具体为:根据V2X信息得到带噪声的目标运动状态信息,将目标运动状态信息与得到的第二深度图以及第二语义分割图共同作为真实目标数据;
从模拟器环境获取的传感器数据类型为视觉传感器原始图像和车辆周围物体的运动状态信息时,得到训练目标数据的具体过程为:根据得到的目标运动状态信息的数据分布,对从所述模拟器环境获取的运动状态信息添加噪声,将添加噪声后的运动状态信息与得到的第一深度图以及第一语义分割图共同作为训练目标数据。
在本申请一个具体实施例中,从模拟器环境获取的传感器数据为视觉传感器原始图像和车辆周围物体的运动状态信息,从真实传感器获取的采集数据均为视觉传感器原始图像和、雷达数据和V2X信息。
从真实传感器获取雷达数据和V2X信息,然后根据雷达数据和V2X信息并利用数据融合技术,得到带噪声的目标运动状态信息,将目标运动状态信息与得到的第二深度图以及第二语义分割图共同作为真实目标数据。各种类型的传感器具有不同的优缺点,为得到较为准确的目标运动状态信息,获取多个类型的传感器数据,并通过数据融合技术融合各个传感器的优势得到需要的目标运动状态信息。
对从所述模拟器环境获取的运动状态信息进行数据分布处理,得到训练目标数据的过程具体还是:根据的目标运动状态信息的数据分布,对从所述模拟器环境获取的运动状态信息添加噪声,将添加噪声后的运动状态信息与得到的第一深度图以及第一语义分割图共同作为训练目标数据。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
本实施例提供一种基于强化学习算法的车辆自动驾驶控制装置,参见图2,该装置包括数据获取单元11、分布处理单元12、控制决策单元13和行驶控制单元14。
数据获取单元11,用于获取真实传感器的采集数据和车辆的行驶状态信息;
分布处理单元12,用于对所述采集数据进行数据分布处理,得到真实目标数据;
控制决策单元13,用于将所述真实目标数据和所述行驶状态信息输入预先训练得到的强化学习模型,得到所述强化学习模型输出的车辆的控制信号,在所述强化学习模型训练过程时采用的训练样本数据中的训练目标数据与所述真实目标数据的数据分布一致,所述训练目标数据为经过对模拟器环境中传感器数据进行数据分布处理得到;
行驶控制单元14,用于根据所述控制信号控制车辆自动行驶。
本实施例提供的基于强化学习算法的车辆自动驾驶控制装置,分布处理单元12对从真实传感器获取的采集数据进行数据分布处理,得到与训练目标数据的数据分布一致的真实目标数据,训练目标数据为经过对模拟器环境中传感器数据进行数据分布处理得到;在强化学习模型训练时采用训练目标数据,而由于实际自动驾驶控制时得到真实目标数据与训练过程采用的训练目标数据的数据分布一致,因此,可以将训练好的强化学习模型直接应用于真实车辆上进行自动驾驶,提高了自动驾驶的安全性。
在本实施例中上述基于强化学习算法的车辆自动驾驶控制装置,还包括模型训练单元,模型训练单元包括数据获取子单元、分布处理子单元和训练子单元。
数据获取子单元,用于获取模拟器环境中的传感器数据和行驶状态信息;
分布处理子单元,用于对所述传感器数据进行数据分布处理,得到训练目标数据;
训练子单元,用于利用所述训练目标数据和从所述模拟器环境中获取的行驶状态信息对所述强化学习模型进行训练。
在本申请的一个具体实施例中,从所述模拟器环境获取的传感器数据和从所述真实传感器获取的采集数据均包括视觉传感器原始图像;
所述分布处理子单元具体用于:将从所述模拟器环境获取的视觉传感器原始图像输入预先训练得到的第一深度学习模型,得到所述第一深度学习模型输出的第一深度图和第一语义分割图,将所述第一深度图和所述第一语义分割图作为训练目标数据;
所述分布处理单元具体用于:将从所述真实传感器获取的视觉传感器输入预先训练得到的第二深度学习模型,得到所述得而深度学习模型输出的第二深度图和第二语义分割图,将所述第二深度图和所述第二语义分割图作为真实目标数据。
在本申请的另一个具体实施例中,从所述模拟器环境获取的传感器数据还包括车辆周围物体的运动状态信息,从所述真实传感器获取的采集数据还包括雷达数据或V2X信息;
所述分布处理子单元具体用于:根据所述雷达数据或所述V2X信息得到带噪声的目标运动状态信息,将目标运动状态信息、所述第二深度图以及所述第二语义分割图共同作为真实目标数据;
所述分布处理单元具体用于:根据的所述目标运动状态信息的数据分布,对从所述模拟器环境获取的运动状态信息添加噪声,将添加噪声后的运动状态信息、所述第一深度图以及所述第一语义分割图共同作为训练目标数据。
在本申请的又一个具体实施例中,从所述模拟器环境获取的传感器数据还包括车辆周围物体的运动状态信息,从所述真实传感器获取的采集数据还包括雷达数据和V2X信息;
所述分布处理子单元具体用于:根据所述雷达数据和所述V2X信息并利用数据融合技术,得到带噪声的目标运动状态信息,将目标运动状态信息、所述第二深度图以及所述第二语义分割图共同作为真实目标数据;
所述分布处理单元具体用于:根据的所述目标运动状态信息的数据分布,对从所述模拟器环境获取的运动状态信息添加噪声,将添加噪声后的运动状态信息、所述第一深度图以及所述第一语义分割图共同作为训练目标数据
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对本发明所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于强化学习算法的车辆自动驾驶控制方法,其特征在于,包括:
获取真实传感器的采集数据和车辆的行驶状态信息;
对所述采集数据进行数据分布处理,得到真实目标数据;
将所述真实目标数据和所述行驶状态信息输入预先训练得到的强化学习模型,得到所述强化学习模型输出的车辆的控制信号,在所述强化学习模型训练过程时采用的训练样本数据中的训练目标数据与所述真实目标数据的数据分布一致,所述训练目标数据为经过对模拟器环境中传感器数据进行数据分布处理得到;
根据所述控制信号控制车辆自动行驶。
2.根据权利要求1所述的方法,其特征在于,所述强化学习模型的预先训练过程,包括:
获取模拟器环境中的传感器数据和行驶状态信息;
对所述传感器数据进行数据分布处理,得到训练目标数据;
利用所述训练目标数据和从所述模拟器环境中获取的行驶状态信息对所述强化学习模型进行训练。
3.根据权利要求2所述的方法,其特征在于,从所述模拟器环境获取的传感器数据和从所述真实传感器获取的采集数据均包括视觉传感器原始图像;
对从所述模拟器环境获取的视觉传感器原始图像进行数据分布处理,得到训练目标数据的过程,具体包括:将从所述模拟器环境获取的视觉传感器原始图像输入预先训练得到的第一深度学习模型,得到所述第一深度学习模型输出的第一深度图和第一语义分割图,将所述第一深度图和所述第一语义分割图作为训练目标数据;
对从所述真实传感器获取的视觉传感器原始图像进行数据分布处理,得到真实目标数据的过程,具体包括:将从所述真实传感器获取的视觉传感器输入预先训练得到的第二深度学习模型,得到所述得而深度学习模型输出的第二深度图和第二语义分割图,将所述第二深度图和所述第二语义分割图作为真实目标数据。
4.根据权利要求3所述的方法,其特征在于,从所述模拟器环境获取的传感器数据还包括车辆周围物体的运动状态信息,从所述真实传感器获取的采集数据还包括雷达数据或V2X信息;
对从所述真实传感器获取的雷达数据或V2X信息进行数据分布处理,得到真实目标数据的过程,具体包括:根据所述雷达数据或所述V2X信息得到带噪声的目标运动状态信息,将目标运动状态信息、所述第二深度图以及所述第二语义分割图共同作为真实目标数据;
对从所述模拟器环境获取的运动状态信息进行数据分布处理,得到训练目标数据的过程,具体包括:根据的所述目标运动状态信息的数据分布,对从所述模拟器环境获取的运动状态信息添加噪声,将添加噪声后的运动状态信息、所述第一深度图以及所述第一语义分割图共同作为训练目标数据。
5.根据权利要求3所述的方法,其特征在于,从所述模拟器环境获取的传感器数据还包括车辆周围物体的运动状态信息,从所述真实传感器获取的采集数据还包括雷达数据和V2X信息;
对从所述真实传感器获取的雷达数据和V2X信息进行数据分布处理,得到真实目标数据的过程,具体包括:根据所述雷达数据和所述V2X信息并利用数据融合技术,得到带噪声的目标运动状态信息,将目标运动状态信息、所述第二深度图以及所述第二语义分割图共同作为真实目标数据;
对从所述模拟器环境获取的运动状态信息进行数据分布处理,得到训练目标数据的过程,具体包括:根据的所述目标运动状态信息的数据分布,对从所述模拟器环境获取的运动状态信息添加噪声,将添加噪声后的运动状态信息、所述第一深度图以及所述第一语义分割图共同作为训练目标数据。
6.一种基于强化学习算法的车辆自动驾驶控制装置,其特征在于,包括:
数据获取单元,用于获取真实传感器的采集数据和车辆的行驶状态信息;
分布处理单元,用于对所述采集数据进行数据分布处理,得到真实目标数据;
控制决策单元,用于将所述真实目标数据和所述行驶状态信息输入预先训练得到的强化学习模型,得到所述强化学习模型输出的车辆的控制信号,在所述强化学习模型训练过程时采用的训练样本数据中的训练目标数据与所述真实目标数据的数据分布一致,所述训练目标数据为经过对模拟器环境中传感器数据进行数据分布处理得到;
行驶控制单元,用于根据所述控制信号控制车辆自动行驶。
7.根据权利要求6所述的装置,其特征在于,还包括模型训练单元,所述模型训练单元包括:
数据获取子单元,用于获取模拟器环境中的传感器数据和行驶状态信息;
分布处理子单元,用于对所述传感器数据进行数据分布处理,得到训练目标数据;
训练子单元,用于利用所述训练目标数据和从所述模拟器环境中获取的行驶状态信息对所述强化学习模型进行训练。
8.根据权利要求7所述的装置,其特征在于,从所述模拟器环境获取的传感器数据和从所述真实传感器获取的采集数据均包括视觉传感器原始图像;
所述分布处理子单元具体用于:将从所述模拟器环境获取的视觉传感器原始图像输入预先训练得到的第一深度学习模型,得到所述第一深度学习模型输出的第一深度图和第一语义分割图,将所述第一深度图和所述第一语义分割图作为训练目标数据;
所述分布处理单元具体用于:将从所述真实传感器获取的视觉传感器输入预先训练得到的第二深度学习模型,得到所述得而深度学习模型输出的第二深度图和第二语义分割图,将所述第二深度图和所述第二语义分割图作为真实目标数据。
9.根据权利要求8所述的装置,其特征在于,从所述模拟器环境获取的传感器数据还包括车辆周围物体的运动状态信息,从所述真实传感器获取的采集数据还包括雷达数据或V2X信息;
所述分布处理子单元具体用于:根据所述雷达数据或所述V2X信息得到带噪声的目标运动状态信息,将目标运动状态信息、所述第二深度图以及所述第二语义分割图共同作为真实目标数据;
所述分布处理单元具体用于:根据的所述目标运动状态信息的数据分布,对从所述模拟器环境获取的运动状态信息添加噪声,将添加噪声后的运动状态信息、所述第一深度图以及所述第一语义分割图共同作为训练目标数据。
10.根据权利要求8所述的装置,其特征在于,从所述模拟器环境获取的传感器数据还包括车辆周围物体的运动状态信息,从所述真实传感器获取的采集数据还包括雷达数据和V2X信息;
所述分布处理子单元具体用于:根据所述雷达数据和所述V2X信息并利用数据融合技术,得到带噪声的目标运动状态信息,将目标运动状态信息、所述第二深度图以及所述第二语义分割图共同作为真实目标数据;
所述分布处理单元具体用于:根据的所述目标运动状态信息的数据分布,对从所述模拟器环境获取的运动状态信息添加噪声,将添加噪声后的运动状态信息、所述第一深度图以及所述第一语义分割图共同作为训练目标数据。
CN201810264905.8A 2018-03-28 2018-03-28 一种基于强化学习算法的车辆自动驾驶控制方法及装置 Pending CN110320883A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810264905.8A CN110320883A (zh) 2018-03-28 2018-03-28 一种基于强化学习算法的车辆自动驾驶控制方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810264905.8A CN110320883A (zh) 2018-03-28 2018-03-28 一种基于强化学习算法的车辆自动驾驶控制方法及装置

Publications (1)

Publication Number Publication Date
CN110320883A true CN110320883A (zh) 2019-10-11

Family

ID=68109980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810264905.8A Pending CN110320883A (zh) 2018-03-28 2018-03-28 一种基于强化学习算法的车辆自动驾驶控制方法及装置

Country Status (1)

Country Link
CN (1) CN110320883A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111267866A (zh) * 2020-01-13 2020-06-12 腾讯科技(深圳)有限公司 信息处理方法、装置、介质及电子设备
CN111275182A (zh) * 2020-01-13 2020-06-12 西北工业大学 基于云计算的深度学习模拟巩固方法
CN111367282A (zh) * 2020-03-09 2020-07-03 山东大学 一种基于多模感知与强化学习的机器人导航方法及系统
CN111845773A (zh) * 2020-07-06 2020-10-30 北京邮电大学 基于强化学习的自动驾驶车辆微观决策方法
WO2021110659A1 (en) * 2019-12-01 2021-06-10 Volkswagen Aktiengesellschaft Data science system for developing machine learning models
CN112995951A (zh) * 2021-03-12 2021-06-18 南京航空航天大学 一种采用深度确定性策略梯度算法的5g车联网v2v资源分配方法
CN113044064A (zh) * 2021-04-01 2021-06-29 南京大学 基于元强化学习的车辆自适应的自动驾驶决策方法及系统
CN114708568A (zh) * 2022-06-07 2022-07-05 东北大学 基于改进RTFNet的纯视觉自动驾驶控制系统、方法、介质
CN116400605A (zh) * 2023-06-08 2023-07-07 成都航空职业技术学院 一种机器人自动控制方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106080590A (zh) * 2016-06-12 2016-11-09 百度在线网络技术(北京)有限公司 车辆控制方法和装置以及决策模型的获取方法和装置
US9563813B1 (en) * 2011-05-26 2017-02-07 Google Inc. System and method for tracking objects
CN107200017A (zh) * 2017-05-22 2017-09-26 北京联合大学 一种基于深度学习的无人驾驶车辆控制系统
CN107226087A (zh) * 2017-05-26 2017-10-03 西安电子科技大学 一种结构化道路自动驾驶运输车及控制方法
CN107767384A (zh) * 2017-11-03 2018-03-06 电子科技大学 一种基于对抗训练的图像语义分割方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9563813B1 (en) * 2011-05-26 2017-02-07 Google Inc. System and method for tracking objects
CN106080590A (zh) * 2016-06-12 2016-11-09 百度在线网络技术(北京)有限公司 车辆控制方法和装置以及决策模型的获取方法和装置
CN107200017A (zh) * 2017-05-22 2017-09-26 北京联合大学 一种基于深度学习的无人驾驶车辆控制系统
CN107226087A (zh) * 2017-05-26 2017-10-03 西安电子科技大学 一种结构化道路自动驾驶运输车及控制方法
CN107767384A (zh) * 2017-11-03 2018-03-06 电子科技大学 一种基于对抗训练的图像语义分割方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11507091B2 (en) 2019-12-01 2022-11-22 Volkswagen Aktiengesellschaft Data science system for developing machine learning models
WO2021110659A1 (en) * 2019-12-01 2021-06-10 Volkswagen Aktiengesellschaft Data science system for developing machine learning models
CN111275182A (zh) * 2020-01-13 2020-06-12 西北工业大学 基于云计算的深度学习模拟巩固方法
CN111267866A (zh) * 2020-01-13 2020-06-12 腾讯科技(深圳)有限公司 信息处理方法、装置、介质及电子设备
CN111367282A (zh) * 2020-03-09 2020-07-03 山东大学 一种基于多模感知与强化学习的机器人导航方法及系统
CN111845773A (zh) * 2020-07-06 2020-10-30 北京邮电大学 基于强化学习的自动驾驶车辆微观决策方法
CN111845773B (zh) * 2020-07-06 2021-10-26 北京邮电大学 基于强化学习的自动驾驶车辆微观决策方法
CN112995951A (zh) * 2021-03-12 2021-06-18 南京航空航天大学 一种采用深度确定性策略梯度算法的5g车联网v2v资源分配方法
CN113044064A (zh) * 2021-04-01 2021-06-29 南京大学 基于元强化学习的车辆自适应的自动驾驶决策方法及系统
CN113044064B (zh) * 2021-04-01 2022-07-29 南京大学 基于元强化学习的车辆自适应的自动驾驶决策方法及系统
CN114708568A (zh) * 2022-06-07 2022-07-05 东北大学 基于改进RTFNet的纯视觉自动驾驶控制系统、方法、介质
CN116400605A (zh) * 2023-06-08 2023-07-07 成都航空职业技术学院 一种机器人自动控制方法及系统
CN116400605B (zh) * 2023-06-08 2023-08-11 成都航空职业技术学院 一种机器人自动控制方法及系统

Similar Documents

Publication Publication Date Title
CN110320883A (zh) 一种基于强化学习算法的车辆自动驾驶控制方法及装置
Chen et al. Learning by cheating
CN106080590B (zh) 车辆控制方法和装置以及决策模型的获取方法和装置
Codevilla et al. End-to-end driving via conditional imitation learning
EP3970077B1 (de) Verfahren zum trainieren wenigstens eines algorithmus für ein steuergerät eines kraftfahrzeugs, computerprogrammprodukt, kraftfahrzeug sowie system
CN108227710A (zh) 自动驾驶控制方法和装置、电子设备、程序和介质
CN110427682A (zh) 一种基于虚拟现实的交通场景模拟实验平台和方法
CN108196535A (zh) 基于增强学习和多传感器融合的自动驾驶系统
JP2021504812A (ja) 自律車両のための物体相互作用予測システムおよび方法
EP3942379B1 (de) Verfahren zum trainieren wenigstens eines algorithmus für ein steuergerät eines kraftfahrzeugs, computerprogrammprodukt, kraftfahrzeug sowie system
CN109084992A (zh) 基于台架测试无人车智能性的方法
CN105151044B (zh) 车辆辅助驾驶方法及装置
Babiker et al. Convolutional neural network for a self-driving car in a virtual environment
CN110930811B (zh) 一种适用于无人驾驶决策学习和训练的系统
Hossain et al. Autonomous-driving vehicle learning environments using unity real-time engine and end-to-end CNN approach
Chen et al. Parallel motion planning: Learning a deep planning model against emergencies
Zhang et al. Human-like decision-making of autonomous vehicles in dynamic traffic scenarios
Chen et al. Cognitive map-based model: Toward a developmental framework for self-driving cars
Malayjerdi et al. Autonomous vehicle safety evaluation through a high-fidelity simulation approach
DE102014208352A1 (de) System und Verfahren zum Instruieren eines Teilnehmers eines Fahrertrainings
Georgiou et al. Predicting car states through learned models of vehicle dynamics and user behaviours
del Egido Sierra et al. Autonomous vehicle control in CARLA challenge
Ulhas et al. Chartopolis: A small-scale labor-art-ory for research and reflection on autonomous vehicles, human-robot interaction, and sociotechnical imaginaries
CN115587467A (zh) 一种无控制十字路口行车方案仿真方法及仿真系统
Rañó et al. Naturalistic lane-keeping based on human driver data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination