CN110795821B - 一种基于场景区分的深度强化学习训练方法及系统 - Google Patents
一种基于场景区分的深度强化学习训练方法及系统 Download PDFInfo
- Publication number
- CN110795821B CN110795821B CN201910913368.XA CN201910913368A CN110795821B CN 110795821 B CN110795821 B CN 110795821B CN 201910913368 A CN201910913368 A CN 201910913368A CN 110795821 B CN110795821 B CN 110795821B
- Authority
- CN
- China
- Prior art keywords
- training
- vehicle
- module
- road
- different
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 95
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000002787 reinforcement Effects 0.000 title claims abstract description 29
- 238000004088 simulation Methods 0.000 claims abstract description 32
- 230000011218 segmentation Effects 0.000 claims abstract description 31
- 238000012360 testing method Methods 0.000 claims abstract description 8
- 238000012795 verification Methods 0.000 claims description 9
- 238000005192 partition Methods 0.000 claims description 7
- 238000013135 deep learning Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 4
- 230000002401 inhibitory effect Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 3
- 230000002829 reductive effect Effects 0.000 abstract description 17
- 238000004422 calculation algorithm Methods 0.000 abstract description 16
- 238000011161 development Methods 0.000 abstract description 9
- 230000018109 developmental process Effects 0.000 abstract description 9
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 206010039203 Road traffic accident Diseases 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于场景区分的深度强化学习训练方法及系统,包括以下步骤,将测试车辆接入仿真环境中并随意行驶;数据采集模块收集所述仿真环境中不同位置的街道图像数据集;利用U‑net网络模块对进行语义分割的训练;识别模块在线识别不同的道路情况;在不同的场景中分别设定符合各个场景的Reward值,分别进行针对性的训练;训练完成后模型部署使用。本发明的有益效果:通过减少算法模型学习如何区分各个场景的时间,来减少基于车辆行驶仿真软件中数据进行算法训练时间,可以快速验证车辆辅助驾驶/自动驾驶,能够明显降低算法模型在低效率探索上花费的时间,从而大大降低开发时间,提高训练性能。
Description
技术领域
本发明涉及汽车辅助驾驶和自动驾驶设计领域的技术领域,尤其涉及一种基于场景区分的深度强化学习训练方法以及基于该训练方法的车辆仿真训练系统。
背景技术
近年来随着人工智能的发展,汽车的辅助驾驶逐渐成为未来的研究方向,其对于汽车行业甚至是交通运输业有着深远的影响。可靠的辅助驾驶技术在汽车领域的应用,能够提高汽车出行领域的安全性,降低发生交通事故发生的频率,保证了行人、乘客、司机的安全。随着人工智能的深度发展,以及视觉识别、雷达探测等核心检测技术的不断突破,使得人工智能技术在汽车的无人驾驶方面得到越来越多的应用,必将大大推动汽车产业的智能化发展。
在未来的汽车智能工业领域,汽车的辅助驾驶/自动驾驶必将作为重中之重得到大力发展。在交通出行方面,通过车辆对道路、行人、指示标志、网络信息、监控信息等等的识别判断,可以减少交通事故、提升通行效率,更加合理地规划出行路线,实现互联互通,提升社会的整体的效益。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有存在的问题,提出了本发明。
因此,本发明解决的一个技术问题是:提供一种基于场景区分的深度强化学习训练方法,提高训练性能快速验证车辆辅助驾驶和自动驾驶。
为解决上述技术问题,本发明提供如下技术方案:一种基于场景区分的深度强化学习训练方法,包括以下步骤,将测试车辆接入仿真环境中并随意行驶;数据采集模块收集所述仿真环境中不同位置的街道图像数据集;利用U-net网络模块对采集到的所述图像数据集进行语义分割的训练,分别提取所述仿真环境中分割体并对所述分割体设置上不同的属性;识别模块利用训练好的所述U-net网络模块在线得到车辆当前由所述数据采集模块得到图像中所包含的分割信息,在线识别不同的道路情况;深度强化学习网络的DDPG模块根据所述识别模块识别的道路情况,对车辆行驶的场景进行区分,并在不同的场景中分别设定符合各个场景的Reward值,分别进行针对性的训练;训练完成后模型部署使用,对车辆的辅助驾驶或自动驾驶进行仿真验证。
作为本发明所述的基于场景区分的深度强化学习训练方法的一种优选方案,其中:所述数据采集模块包括收集所述仿真环境中直行道、转弯道、T型道、行人、车辆和道路指示标志的数据,并对收集的数据进行标签化处理。
作为本发明所述的基于场景区分的深度强化学习训练方法的一种优选方案,其中:所述U-net网络模块分别提取出的不同所述分割体包括直行道、转弯道、T型道、行人、车辆和道路指示标志。
作为本发明所述的基于场景区分的深度强化学习训练方法的一种优选方案,其中:所述U-net网络模块对不同的所述分割体设置上不同的属性,其中所述属性包括可行驶、不可行驶、碰撞存在伤害、严禁碰撞、可以避让和不可避让。
作为本发明所述的基于场景区分的深度强化学习训练方法的一种优选方案,其中:所述DDPG模块对车辆行驶的场景进行区分并对下个行驶状态进行分类,所述区分包括直行、转弯、等待、不能移动、调头和躲避,其中所述等待包括红路灯、其他车辆、行人和障碍物的场景。
作为本发明所述的基于场景区分的深度强化学习训练方法的一种优选方案,其中:所述U-net网络模块进行语义分割的训练包括以下步骤,收集车辆行驶时的语义分割图像;手动标注;使用标准的u-net进行调参训练;根据验证结果调整采集的数据集进行反复训练。
作为本发明所述的基于场景区分的深度强化学习训练方法的一种优选方案,其中:所述在不同的场景中分别设置不同的Reward值包括,可行驶:对车辆速度、指向进行奖励,抑制s形行驶;等待:对刹车进行奖励,抑制出现碰撞;不可行驶:对刹车、倒车进行奖励,奖励选择其他道路。
作为本发明所述的基于场景区分的深度强化学习训练方法的一种优选方案,其中:所述分别进行针对性的训练包括,直行道路中设定方向盘稳定性Reward;转弯道路中设定行驶距离Reward;存在阻碍行驶的道路中设定限制行驶的Reward;等待超时中设定变换车道和调头的Reward;根据训练结果不断优化调整reward。
作为本发明所述的基于场景区分的深度强化学习训练方法的一种优选方案,其中:所述识别模块在线识别不同的道路情况包括以下步骤,
利用深度学习设计CNN网络;
利用道路采集数据进行网络模型训练并调整优化参数;
训练好的网络对采集的图像进行识别,判断当前道路情况。
本发明解决的另一个技术问题是:提供一种基于场景区分的车辆仿真训练系统,该系统利用上述训练方法进行仿真训练。
为解决上述技术问题,本发明提供如下技术方案:一种基于场景区分的车辆仿真训练系统,包括数据采集模块、U-net网络模块、识别模块和DDPG模块;所述数据采集模块设置于测试车辆上并接入仿真环境中,用于采集环境中车辆行驶状态的图像数据集;所述U-net网络模块对采集到的所述图像数据集进行语义分割的训练,用于分别提取所述仿真环境中分割体并对所述分割体设置上不同的属性;所述识别模块用于识别实时图像包含的分割信息;所述DDPG模块用于对车辆行驶的场景进行区分,并用于在不同的场景中分别设定符合各个场景的Reward值。
本发明的有益效果:通过减少算法模型学习如何区分各个场景的时间,来减少基于车辆行驶仿真软件中数据进行算法训练时间,可以快速验证车辆辅助驾驶/自动驾驶,能够明显降低算法模型在低效率探索上花费的时间,从而大大降低开发时间,提高训练性能。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明第一种实施例所述基于场景区分的深度强化学习训练方法的整体流程结构示意图;
图2为本发明第一种实施例所述U-net网络结构示意图;
图3为本发明第一种实施例所述一个视角语义分割输出效果图;
图4为本发明第一种实施例所述又一视角语义分割输出效果图
图5为本发明第一种实施例所述再一个视角语义分割输出效果图;
图6为本发明第一种实施例所述还一个视角语义分割输出效果图;
图7为本发明第一种实施例所述另一个视角语义分割输出效果图;
图8为本发明第一种实施例所述CNN网络的实现示意图;
图9为本发明第一种实施例所述基于场景区分的深度强化学习训练系统的整体原理结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
目前的自动驾驶技术研究主要依赖于机器学习、深度强化学习以及传统的自动驾驶技术,其中深度学习在自动驾驶技术中研究主要偏向于纯强化学习,即让算法网络模型从0开始全新学习,导致模型的学习范围太广,学习速度太慢,同时会导致很难学习到期望的程度。而且车辆周围的道路情况、车辆配置情况、天气情况非常复杂,这种方式下自动驾驶比较耗费资源,且成本较高,仿真训练使用常规计算机,同时可以模拟不同的道路、天气、车辆情况,可以连续不断训练,避免投入较多的训练车辆、人员、场地、时间,减少在训练中车辆碰撞造成的财产损失,同时本实施例对训练场景进行区分,进一步减少训练花费的时间成本。本实施例中算法模型不从0开始学习,在模型学习过程中限定模型的学习范围、设定能够正确引导训练方向以及模型训练方向的条件,包括场景分类、场景确认和匹配的奖励值,可以明显降低算法模型在低效率探索上花费的时间,从而大大降低开发时间,提高训练性能。
参照图1的示意,具体的,本实施例中提出的基于场景区分的深度强化学习训练方法,包括以下步骤,
S1:将测试车辆接入仿真环境中并随意行驶;
S2:数据采集模块100收集仿真环境中不同位置的街道图像数据集;
S3:利用U-net网络模块200对采集到的图像数据集进行语义分割的训练,分别提取仿真环境中分割体并对分割体设置上不同的属性;
S4:识别模块300利用训练好的U-net网络模块200在线得到车辆当前由数据采集模块100得到图像中所包含的分割信息,在线识别不同的道路情况;
S5:深度强化学习网络的DDPG模块400根据识别模块300识别的道路情况,对车辆行驶的场景进行区分,并在不同的场景中分别设定符合各个场景的Reward值,分别进行针对性的训练。本步骤中reward设定参考如下:
reward=
(1)-10 训练结束状态
(2)v/vmin*(1-discenter)*anglepoint 当前速度<速度设定最小值
(3)1.0*(1-discenter)*anglepoint 最小值<当前速度<最大值
(4)(1.0-(vcurrent-vtarget)/(vmax-vtarget))*(1-discenter)*anglepoint当前速度>最大值
其中:v表示当前速度,Vmin表示预期速度范围的下限,Vmax表示预期速度范围的上限,Vtarget表示期望运行的速度值,dis_center表示车辆与车道中心线的距离,angle_point指行驶的方向角度。
S6:训练完成后模型部署使用,对车辆的辅助驾驶或自动驾驶进行仿真验证。
本实施例通过上述方法,减少强化学习算法模型学习如何区分各个场景的时间,来减少基于车辆行驶仿真软件中数据进行算法训练时间,可以快速验证车辆辅助驾驶/自动驾驶,能够明显降低算法模型在低效率探索,避免模型长时间探索是否需要区分场景以及学习不同场景的区别上花费的时间,从而大大降低开发时间,本方法中的训练时间指的是算法模型在仿真平台以及后续的实车平台的上学习训练花费的时间,开发时间包含训练时间,同时包含模型在实车上如何应用的时间,如模型在实车如何采集处理数据、如何接受下发指令等,从而提高训练性能。
需要说明的是,U-net网络模块200承担场景分类的角色、识别模块300承担场景确认的角色和DDPG模块400承担匹配奖励值的角色,经过上述方法训练后将U-net网络和作为深度强化学习网络的DDPG模型部署至车辆仿真软件中,对车辆辅助驾驶/自动驾驶进行快速验证。
进一步的更加具体的,本实施例中数据采集模块100(车辆上设置的摄像头采集)包括收集仿真环境中直行道、转弯道、T型道、行人、车辆和道路指示标志的数据,并对收集的数据进行标签化处理。U-net网络模块200分别提取出的不同分割体包括直行道、转弯道、T型道、行人、车辆和道路指示标志,同时U-net网络模块200对不同的分割体设置上不同的属性,其中属性包括可行驶、不可行驶、碰撞存在伤害、严禁碰撞、可以避让和不可避让。DDPG模块400对车辆行驶的场景进行区分并对下个行驶状态进行分类,区分包括直行、转弯、等待、不能移动、调头和躲避,其中等待包括红路灯、其他车辆、行人和障碍物的场景。
本实施例中U-net网络模块200进行语义分割的训练包括以下步骤,
收集车辆行驶时的语义分割图像;
手动标注;
使用标准的u-net进行调参训练;
根据验证结果调整采集的数据集进行反复训练。
语义分割是图像处理和机器视觉一个重要分支,与分类任务不同,语义分割需要判断图像每个像素点的类别,进行精确分割。语义分割目前在自动驾驶、自动抠图等领域有着比较广泛的应用。
参照图2的示意,本实施例中U-net网络模块200整个神经网络主要有两部分组成:收缩路径和扩展路径,其中收缩路径其实就是一个常规的卷积网络,它包含重复的2个3x3卷积,紧接着是一个RELU,一个maxpooling(步长为2),用来降采样,每次降采样我们都将featurechannel扩大一倍,从64、128、256、512、1024。两个3x3的卷积核之后跟一个2x2的最大化池化层,缩小图片的分辨率。扩展路径包含一个上采样(2x2上卷积),将图像大小扩大一倍,然后再使用普通的3x3卷积核,再将通道数featurechannel缩小一倍,从1024、512、256、128、64。
最后分割得到的两张heatmap(即featuremap),例如第一张featuremap表示的是第一类的得分(即每个像素点对应第一类都有一个得分),第二张featuremap表示的是第二类的得分(即每个像素点对应第二类也都有一个得分),然后作为softmax函数的输入,算出概率比较大的softmax类,选择它作为输入给交叉熵进行反向传播训练。
首先是交叉熵函数,公式如下:
k表示的是类别数量,由于是采用全卷积方式,所以,k也就是最终输出的特征图数量(也就是通道数量channels)。x表示的是某一个像素,所以ak(x)表示的是在第k个channel上面的像素位置x的通过激活函数之后的函数输出值,相对应的pk(x)表示的是在第k个channel上面的像素位置x的通过激活函数之后的函数输出值经过softmax交叉熵运算之后产生的概率值。当某一个像素x在通道k上的值较大,即ak(x)较大,此时在运算得到的pk(x)是接近于1的,说明该像素x属于这个类别k,反之,当某一个像素x在通道k上的值较小,即ak(x)较小,此时在运算得到的pk(x)是接近于0的,说明该像素x不属于这个类别k。
U-Net中的损失函数公式如下:
下标l(x)表示的是哪一个类别,即l:Ω→{1,...,K},
log(pe(x)(x))表示的是早某一个类别中,即在某一个channel的特征图中,比如l(x)=k这个类别中,像素X位置的经过交叉熵计算只后得到的概率P,再取对数,这跟普通的分类中的交叉熵损失函数是一个意思。w(x)其实就是weightsmap,即所谓的权重图,其实就是在某一个通道处的特征图上,每一个像素点x对应一个权重,然后整张特征图上面所有的像素的权重。卷积会考虑该像素点周围的一些特征,而两个相同的类的细胞贴在一起,就容易误判,所以对这种两个相同类贴在一起的细胞边界,给予较大的权重,使的训练之后分类分割更准确。
首先根据训练数据,算出每一个样本图片的w(x),即权值图;在某一类别k,即第k个channel上面对每一个像素计算交叉损失,并累加起来;在所有的特征通道上分别进行第二部的计算,然后进行累加;最终得到整张样本图片的损失。参照图3~7为本实施例采用U-net网络模块200在采集实际环境图像的语义分割输出图像。
进一步的,本实施例中采用深度学习网络模型为DDPG模块400,利用DDPG模块400对识别模块300识别的不同场景进行区分,以及在不同的场景中分别设置不同的Reward值进行针对性的训练。
具体的,设置不同的Reward值包括:
可行驶:对车辆速度、指向进行奖励,抑制s形行驶;
等待:对刹车进行奖励,抑制出现碰撞;
不可行驶:对刹车、倒车进行奖励,奖励选择其他道路。
以分别进行针对性的训练包括:
直行道路中设定方向盘稳定性Reward;
转弯道路中设定行驶距离Reward;
存在阻碍行驶的道路中设定限制行驶的Reward;
等待超时中设定变换车道和调头的Reward;
根据训练结果不断优化调整reward。
识别模块300在线识别不同的道路情况包括以下步骤,利用深度学习设计CNN网络;利用道路采集数据进行网络模型训练并调整优化参数;训练好的网络对采集的图像进行识别,判断当前道路情况。本实施例中CNN网络,参考图8的代码实现,将此采集的图像输入此网络结构中进行识别。它的网络结构是:conv1---->conv2---->fully Connectedlayer,第一层采取的是3*3的正方形卷积核,个数为20个、深度为1、stride为2、pooling尺寸为2*2,激活函数采取的为RELU;第二层只对卷积核的尺寸、个数和深度做了些变化,分别为5*5,50个和20;最后链接一层全连接,设定10个label作为输出,采用Softmax函数作为分类器,输出每个label的概率。
实施例2
参照图9的示意,本实施例中提出的一种基于场景区分的车辆仿真训练系统,该系统利用上述实施例提出的基于场景区分的深度强化学习训练方法实现对测试车辆辅助驾驶/自动驾驶的快速验证。具体的,该系统包括数据采集模块100、U-net网络模块200、识别模块300和DDPG模块400;数据采集模块100设置于测试车辆上并接入仿真环境中,用于采集环境中车辆行驶状态的图像数据集;U-net网络模块200对采集到的图像数据集进行语义分割的训练,用于分别提取仿真环境中分割体并对分割体设置上不同的属性;识别模块300用于识别实时图像包含的分割信息;DDPG模块400用于对车辆行驶的场景进行区分,并用于在不同的场景中分别设定符合各个场景的Reward值。
还需要说明的是,数据采集模块100为设置于车身上的摄像头,U-net网络模块200、识别模块300和DDPG模块400为接入自动驾驶系统中写入上述方法的算法程序的硬件部分,通过与车辆ECU单元的CPU控制芯片集成的方式存在车辆主机内,如车载ECU单元,ECU电子控制单元,又称“行车电脑”、“车载电脑”等。从用途上讲则是汽车专用微机控制器,它和普通的电脑一样,由微处理器(MCU)、存储器(ROM、RAM)、输入/输出接口(I/O)、模数转换器(A/D)以及整形、驱动等大规模集成电路组成。用一句简单的话来形容就是“ECU就是汽车的大脑”。所谓的“ECU程序”,其实就是一套运算法则,它存放在储存器内,对从输入设备经控制器转化而来的信号,处理生成对应的指令信号,从输出设备传输出去。于是对于ECU参数的修改,实际上就是在修改运算法则。其主控制芯片可以采用M(E)7系列主要使用C167内核的CPU,写入算法的U-net网络模块200、识别模块300和DDPG模块400与CPU硬件芯片集成后部署于至车辆内,通过车载显示屏提供的交互界面提供信息至驾驶者或者供驾驶员操作。
如在本申请所使用的,术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体,该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如,组件可以是,但不限于是:在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例,在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中,并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外,这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如,来自一个组件的数据,该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号,以本地和/或远程过程的方式进行通信。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (4)
1.一种基于场景区分的深度强化学习训练方法,其特征在于:包括以下步骤,
将测试车辆与仿真环境建立连接并随意行驶;
数据采集模块(100)收集所述仿真环境中不同位置的街道图像数据集;
利用U-net网络模块(200)对采集到的所述图像数据集进行语义分割的训练,分别提取仿真环境中分割体并对所述分割体设置上不同的属性;
识别模块(300)利用训练好的所述U-net网络模块(200)在线得到车辆当前由所述数据采集模块(100)得到图像中所包含的分割信息,在线识别不同的道路情况;
深度强化学习网络的DDPG模块(400)根据所述识别模块(300)识别的道路情况,对车辆行驶的场景进行区分,并在不同的场景中分别设定符合各个场景的Reward值,分别进行针对性的训练;
训练完成后模型部署使用,对车辆的辅助驾驶或自动驾驶进行仿真验证;
所述U-net网络模块(200)对不同的所述分割体设置上不同的属性,其中所述属性包括可行驶、不可行驶、碰撞存在伤害、严禁碰撞、可以避让和不可避让;
所述DDPG模块(400)对车辆行驶的场景进行区分并对下个行驶状态进行分类,所述区分包括直行、转弯、等待、不能移动、调头和躲避,其中所述等待包括红路灯、其他车辆、行人和障碍物的场景;
所述U-net网络模块(200)进行语义分割的训练包括以下步骤,
收集车辆行驶时的语义分割图像;
手动标注;
使用标准的u-net进行调参训练;
根据验证结果调整采集的数据集进行反复训练;
所述在不同的场景中分别设置不同的Reward值包括,
可行驶:对车辆速度、指向进行奖励,抑制s形行驶;
等待:对刹车进行奖励,抑制出现碰撞;
不可行驶:对刹车、倒车进行奖励,奖励选择其他道路;
所述分别进行针对性的训练包括,
直行道路中设定方向盘稳定性Reward;
转弯道路中设定行驶距离Reward;
存在阻碍行驶的道路中设定限制行驶的Reward;
等待超时中设定变换车道和调头的Reward;
根据训练结果不断优化调整reward;
所述识别模块(300)在线识别不同的道路情况包括以下步骤,
利用深度学习设计CNN网络;
利用道路采集数据进行网络模型训练并调整优化参数;
训练好的网络对采集的图像进行识别,判断当前道路情况。
2.如权利要求1所述的基于场景区分的深度强化学习训练方法,其特征在于:所述数据采集模块(100)收集所述仿真环境中直行道、转弯道、T型道、行人、车辆和道路指示标志的数据,并对收集的数据进行标签化处理。
3.如权利要求1或2所述的基于场景区分的深度强化学习训练方法,其特征在于:所述U-net网络模块(200)分别提取出的不同所述分割体包括直行道、转弯道、T型道、行人、车辆和道路指示标志。
4.一种基于场景区分的车辆仿真训练系统,其特征在于:包括数据采集模块(100)、U-net网络模块(200)、识别模块(300)和DDPG模块(400);
所述数据采集模块(100)设置于测试车辆上并与仿真环境建立连接,用于采集环境中车辆行驶状态的图像数据集;
所述U-net网络模块(200)对采集到的所述图像数据集进行语义分割的训练,用于分别提取所述仿真环境中分割体并对所述分割体设置上不同的属性;
所述识别模块(300)用于识别实时图像包含的分割信息;
所述DDPG模块(400)用于对车辆行驶的场景进行区分,并用于在不同的场景中分别设定符合各个场景的Reward值;
训练完成后模型部署使用,对车辆的辅助驾驶或自动驾驶进行仿真验证;
所述U-net网络模块(200)对不同的所述分割体设置上不同的属性,其中所述属性包括可行驶、不可行驶、碰撞存在伤害、严禁碰撞、可以避让和不可避让;
所述DDPG模块(400)对车辆行驶的场景进行区分并对下个行驶状态进行分类,所述区分包括直行、转弯、等待、不能移动、调头和躲避,其中所述等待包括红路灯、其他车辆、行人和障碍物的场景;
所述U-net网络模块(200)进行语义分割的训练包括以下步骤,
收集车辆行驶时的语义分割图像;
手动标注;
使用标准的u-net进行调参训练;
根据验证结果调整采集的数据集进行反复训练;
所述在不同的场景中分别设置不同的Reward值包括,
可行驶:对车辆速度、指向进行奖励,抑制s形行驶;
等待:对刹车进行奖励,抑制出现碰撞;
不可行驶:对刹车、倒车进行奖励,奖励选择其他道路;
所述分别进行针对性的训练包括,
直行道路中设定方向盘稳定性Reward;
转弯道路中设定行驶距离Reward;
存在阻碍行驶的道路中设定限制行驶的Reward;
等待超时中设定变换车道和调头的Reward;
根据训练结果不断优化调整reward;
所述识别模块(300)在线识别不同的道路情况包括以下步骤,
利用深度学习设计CNN网络;
利用道路采集数据进行网络模型训练并调整优化参数;
训练好的网络对采集的图像进行识别,判断当前道路情况。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910913368.XA CN110795821B (zh) | 2019-09-25 | 2019-09-25 | 一种基于场景区分的深度强化学习训练方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910913368.XA CN110795821B (zh) | 2019-09-25 | 2019-09-25 | 一种基于场景区分的深度强化学习训练方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110795821A CN110795821A (zh) | 2020-02-14 |
CN110795821B true CN110795821B (zh) | 2024-04-09 |
Family
ID=69439707
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910913368.XA Active CN110795821B (zh) | 2019-09-25 | 2019-09-25 | 一种基于场景区分的深度强化学习训练方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110795821B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339590B (zh) * | 2020-02-25 | 2020-10-20 | 四川警察学院 | 一种考虑环保影响的交叉口直行待行区设置方法 |
CN111367282B (zh) * | 2020-03-09 | 2022-06-07 | 山东大学 | 一种基于多模感知与强化学习的机器人导航方法及系统 |
CN111739034A (zh) * | 2020-06-28 | 2020-10-02 | 北京小白世纪网络科技有限公司 | 基于改进的3D Unet的冠状动脉区域分割系统及方法 |
CN111982137B (zh) | 2020-06-30 | 2022-08-12 | 阿波罗智能技术(北京)有限公司 | 生成路线规划模型的方法、装置、设备和存储介质 |
CN111537980B (zh) | 2020-07-08 | 2020-11-27 | 深圳市速腾聚创科技有限公司 | 激光雷达参数调整方法、装置及激光雷达 |
WO2022037279A1 (zh) * | 2020-08-19 | 2022-02-24 | 广西电网有限责任公司贺州供电局 | 一种变电现场作业违规行为检测方法 |
CN111985409B (zh) * | 2020-08-21 | 2021-03-16 | 四川省人工智能研究院(宜宾) | 一种用于实时街道场景分割的方法 |
CN112200810B (zh) * | 2020-09-30 | 2023-11-14 | 深圳市第二人民医院(深圳市转化医学研究院) | 多模态的自动化脑室分割系统及其使用方法 |
CN112232490B (zh) * | 2020-10-26 | 2023-06-20 | 大连大学 | 一种基于视觉的深度模仿强化学习驾驶策略训练方法 |
CN112329254A (zh) * | 2020-11-13 | 2021-02-05 | 的卢技术有限公司 | 一种对接仿真环境图像与真实环境图像的自动驾驶方法 |
CN112590792B (zh) * | 2020-12-18 | 2024-05-10 | 的卢技术有限公司 | 一种基于深度强化学习算法的车辆汇合控制方法 |
CN113159042A (zh) * | 2021-03-30 | 2021-07-23 | 苏州市卫航智能技术有限公司 | 一种激光视觉融合的无人船桥洞通行方法及系统 |
CN113609980A (zh) * | 2021-08-04 | 2021-11-05 | 东风悦享科技有限公司 | 一种用于自动驾驶车辆的车道线感知方法及装置 |
CN117078923A (zh) * | 2023-07-19 | 2023-11-17 | 苏州大学 | 面向自动驾驶环境的语义分割自动化方法、系统及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840471A (zh) * | 2018-12-14 | 2019-06-04 | 天津大学 | 一种基于改进Unet网络模型的可行道路分割方法 |
CN110070139A (zh) * | 2019-04-28 | 2019-07-30 | 吉林大学 | 面向自动驾驶环境感知的小样本在环学习系统和方法 |
-
2019
- 2019-09-25 CN CN201910913368.XA patent/CN110795821B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840471A (zh) * | 2018-12-14 | 2019-06-04 | 天津大学 | 一种基于改进Unet网络模型的可行道路分割方法 |
CN110070139A (zh) * | 2019-04-28 | 2019-07-30 | 吉林大学 | 面向自动驾驶环境感知的小样本在环学习系统和方法 |
Non-Patent Citations (2)
Title |
---|
Le-Anh Tran等.Robust U-Net-based Road Lane Markings Detection for Autonomous Driving.2019 International Conference on System Science and Engineering.2019,第62-65页. * |
Zhiqing Huang等.End-to-End Autonomous Driving Decision Based on Deep Reinforcement Learning.《2019 5th International Conference on Control, Automation and Robotics》.2019,第658-662页. * |
Also Published As
Publication number | Publication date |
---|---|
CN110795821A (zh) | 2020-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110795821B (zh) | 一种基于场景区分的深度强化学习训练方法及系统 | |
CN111506058B (zh) | 通过信息融合来计划自动驾驶的短期路径的方法及装置 | |
CN110069986B (zh) | 一种基于混合模型的交通信号灯识别方法及系统 | |
CN110376594A (zh) | 一种基于拓扑图的智能导航的方法和系统 | |
CN112339773B (zh) | 一种基于单目视觉的非主动车道偏离预警方法及系统 | |
CN107389084A (zh) | 行车路径规划方法及存储介质 | |
CN114898296A (zh) | 基于毫米波雷达与视觉融合的公交车道占用检测方法 | |
CN110599497A (zh) | 一种基于深度神经网络的可行驶区域分割方法 | |
CN112215073A (zh) | 高速运动场景下的交通标线快速识别与循迹方法 | |
CN114781479A (zh) | 交通事件检测方法及装置 | |
CN111046723B (zh) | 一种基于深度学习的车道线检测方法 | |
CN112819864A (zh) | 一种行驶状态检测方法、装置及存储介质 | |
CN103192830A (zh) | 一种自适应视觉车道偏离预警装置 | |
CN114973199A (zh) | 一种基于卷积神经网络的轨道交通列车障碍物检测方法 | |
CN113525357B (zh) | 自动泊车决策模型优化系统及方法 | |
CN114120270A (zh) | 一种基于注意力和采样学习的点云目标检测方法 | |
WO2022178858A1 (zh) | 一种车辆行驶意图预测方法、装置、终端及存储介质 | |
CN106295546A (zh) | 一种基于视频的交通标志检测与识别方法 | |
Zaman et al. | A CNN-based path trajectory prediction approach with safety constraints | |
CN113611008B (zh) | 一种车辆行驶场景采集方法、装置、设备及介质 | |
Beresnev et al. | Automated Driving System based on Roadway and Traffic Conditions Monitoring. | |
CN107463886A (zh) | 一种双闪识别以及车辆避障的方法和系统 | |
CN111077893B (zh) | 一种基于多灭点的导航方法、电子设备和存储介质 | |
CN114429621A (zh) | 一种基于ufsa算法改进的车道线智能检测方法 | |
CN113085844A (zh) | 一种基于人工智能的自动泊车系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 11th Floor, Building A1, Huizhi Science and Technology Park, No. 8 Hengtai Road, Nanjing Economic and Technological Development Zone, Jiangsu Province, 211000 Applicant after: DILU TECHNOLOGY Co.,Ltd. Address before: Building C4, No.55 Liyuan South Road, moling street, Nanjing, Jiangsu Province Applicant before: DILU TECHNOLOGY Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |