CN110795821B

CN110795821B - 一种基于场景区分的深度强化学习训练方法及系统

Info

Publication number: CN110795821B
Application number: CN201910913368.XA
Authority: CN
Inventors: 董舒
Original assignee: Dilu Technology Co Ltd
Current assignee: Dilu Technology Co Ltd
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2024-04-09
Anticipated expiration: 2039-09-25
Also published as: CN110795821A

Abstract

本发明公开了一种基于场景区分的深度强化学习训练方法及系统，包括以下步骤，将测试车辆接入仿真环境中并随意行驶；数据采集模块收集所述仿真环境中不同位置的街道图像数据集；利用U‑net网络模块对进行语义分割的训练；识别模块在线识别不同的道路情况；在不同的场景中分别设定符合各个场景的Reward值，分别进行针对性的训练；训练完成后模型部署使用。本发明的有益效果：通过减少算法模型学习如何区分各个场景的时间，来减少基于车辆行驶仿真软件中数据进行算法训练时间，可以快速验证车辆辅助驾驶/自动驾驶，能够明显降低算法模型在低效率探索上花费的时间，从而大大降低开发时间，提高训练性能。

Description

一种基于场景区分的深度强化学习训练方法及系统

技术领域

本发明涉及汽车辅助驾驶和自动驾驶设计领域的技术领域，尤其涉及一种基于场景区分的深度强化学习训练方法以及基于该训练方法的车辆仿真训练系统。

背景技术

近年来随着人工智能的发展，汽车的辅助驾驶逐渐成为未来的研究方向，其对于汽车行业甚至是交通运输业有着深远的影响。可靠的辅助驾驶技术在汽车领域的应用，能够提高汽车出行领域的安全性，降低发生交通事故发生的频率，保证了行人、乘客、司机的安全。随着人工智能的深度发展，以及视觉识别、雷达探测等核心检测技术的不断突破，使得人工智能技术在汽车的无人驾驶方面得到越来越多的应用，必将大大推动汽车产业的智能化发展。

在未来的汽车智能工业领域，汽车的辅助驾驶/自动驾驶必将作为重中之重得到大力发展。在交通出行方面，通过车辆对道路、行人、指示标志、网络信息、监控信息等等的识别判断，可以减少交通事故、提升通行效率，更加合理地规划出行路线，实现互联互通，提升社会的整体的效益。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

因此，本发明解决的一个技术问题是：提供一种基于场景区分的深度强化学习训练方法，提高训练性能快速验证车辆辅助驾驶和自动驾驶。

为解决上述技术问题，本发明提供如下技术方案：一种基于场景区分的深度强化学习训练方法，包括以下步骤，将测试车辆接入仿真环境中并随意行驶；数据采集模块收集所述仿真环境中不同位置的街道图像数据集；利用U-net网络模块对采集到的所述图像数据集进行语义分割的训练，分别提取所述仿真环境中分割体并对所述分割体设置上不同的属性；识别模块利用训练好的所述U-net网络模块在线得到车辆当前由所述数据采集模块得到图像中所包含的分割信息，在线识别不同的道路情况；深度强化学习网络的DDPG模块根据所述识别模块识别的道路情况，对车辆行驶的场景进行区分，并在不同的场景中分别设定符合各个场景的Reward值，分别进行针对性的训练；训练完成后模型部署使用，对车辆的辅助驾驶或自动驾驶进行仿真验证。

作为本发明所述的基于场景区分的深度强化学习训练方法的一种优选方案，其中：所述数据采集模块包括收集所述仿真环境中直行道、转弯道、T型道、行人、车辆和道路指示标志的数据，并对收集的数据进行标签化处理。

作为本发明所述的基于场景区分的深度强化学习训练方法的一种优选方案，其中：所述U-net网络模块分别提取出的不同所述分割体包括直行道、转弯道、T型道、行人、车辆和道路指示标志。

作为本发明所述的基于场景区分的深度强化学习训练方法的一种优选方案，其中：所述U-net网络模块对不同的所述分割体设置上不同的属性，其中所述属性包括可行驶、不可行驶、碰撞存在伤害、严禁碰撞、可以避让和不可避让。

作为本发明所述的基于场景区分的深度强化学习训练方法的一种优选方案，其中：所述DDPG模块对车辆行驶的场景进行区分并对下个行驶状态进行分类，所述区分包括直行、转弯、等待、不能移动、调头和躲避，其中所述等待包括红路灯、其他车辆、行人和障碍物的场景。

作为本发明所述的基于场景区分的深度强化学习训练方法的一种优选方案，其中：所述U-net网络模块进行语义分割的训练包括以下步骤，收集车辆行驶时的语义分割图像；手动标注；使用标准的u-net进行调参训练；根据验证结果调整采集的数据集进行反复训练。

作为本发明所述的基于场景区分的深度强化学习训练方法的一种优选方案，其中：所述在不同的场景中分别设置不同的Reward值包括，可行驶：对车辆速度、指向进行奖励，抑制s形行驶；等待：对刹车进行奖励，抑制出现碰撞；不可行驶：对刹车、倒车进行奖励，奖励选择其他道路。

作为本发明所述的基于场景区分的深度强化学习训练方法的一种优选方案，其中：所述分别进行针对性的训练包括，直行道路中设定方向盘稳定性Reward；转弯道路中设定行驶距离Reward；存在阻碍行驶的道路中设定限制行驶的Reward；等待超时中设定变换车道和调头的Reward；根据训练结果不断优化调整reward。

作为本发明所述的基于场景区分的深度强化学习训练方法的一种优选方案，其中：所述识别模块在线识别不同的道路情况包括以下步骤，

利用深度学习设计CNN网络；

利用道路采集数据进行网络模型训练并调整优化参数；

训练好的网络对采集的图像进行识别，判断当前道路情况。

本发明解决的另一个技术问题是：提供一种基于场景区分的车辆仿真训练系统，该系统利用上述训练方法进行仿真训练。

为解决上述技术问题，本发明提供如下技术方案：一种基于场景区分的车辆仿真训练系统，包括数据采集模块、U-net网络模块、识别模块和DDPG模块；所述数据采集模块设置于测试车辆上并接入仿真环境中，用于采集环境中车辆行驶状态的图像数据集；所述U-net网络模块对采集到的所述图像数据集进行语义分割的训练，用于分别提取所述仿真环境中分割体并对所述分割体设置上不同的属性；所述识别模块用于识别实时图像包含的分割信息；所述DDPG模块用于对车辆行驶的场景进行区分，并用于在不同的场景中分别设定符合各个场景的Reward值。

本发明的有益效果：通过减少算法模型学习如何区分各个场景的时间，来减少基于车辆行驶仿真软件中数据进行算法训练时间，可以快速验证车辆辅助驾驶/自动驾驶，能够明显降低算法模型在低效率探索上花费的时间，从而大大降低开发时间，提高训练性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明第一种实施例所述基于场景区分的深度强化学习训练方法的整体流程结构示意图；

图2为本发明第一种实施例所述U-net网络结构示意图；

图3为本发明第一种实施例所述一个视角语义分割输出效果图；

图4为本发明第一种实施例所述又一视角语义分割输出效果图

图5为本发明第一种实施例所述再一个视角语义分割输出效果图；

图6为本发明第一种实施例所述还一个视角语义分割输出效果图；

图7为本发明第一种实施例所述另一个视角语义分割输出效果图；

图8为本发明第一种实施例所述CNN网络的实现示意图；

图9为本发明第一种实施例所述基于场景区分的深度强化学习训练系统的整体原理结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

目前的自动驾驶技术研究主要依赖于机器学习、深度强化学习以及传统的自动驾驶技术，其中深度学习在自动驾驶技术中研究主要偏向于纯强化学习，即让算法网络模型从0开始全新学习，导致模型的学习范围太广，学习速度太慢，同时会导致很难学习到期望的程度。而且车辆周围的道路情况、车辆配置情况、天气情况非常复杂，这种方式下自动驾驶比较耗费资源，且成本较高，仿真训练使用常规计算机，同时可以模拟不同的道路、天气、车辆情况，可以连续不断训练，避免投入较多的训练车辆、人员、场地、时间，减少在训练中车辆碰撞造成的财产损失，同时本实施例对训练场景进行区分，进一步减少训练花费的时间成本。本实施例中算法模型不从0开始学习，在模型学习过程中限定模型的学习范围、设定能够正确引导训练方向以及模型训练方向的条件，包括场景分类、场景确认和匹配的奖励值，可以明显降低算法模型在低效率探索上花费的时间，从而大大降低开发时间，提高训练性能。

参照图1的示意，具体的，本实施例中提出的基于场景区分的深度强化学习训练方法，包括以下步骤，

S1：将测试车辆接入仿真环境中并随意行驶；

S2：数据采集模块100收集仿真环境中不同位置的街道图像数据集；

S3：利用U-net网络模块200对采集到的图像数据集进行语义分割的训练，分别提取仿真环境中分割体并对分割体设置上不同的属性；

S4：识别模块300利用训练好的U-net网络模块200在线得到车辆当前由数据采集模块100得到图像中所包含的分割信息，在线识别不同的道路情况；

S5：深度强化学习网络的DDPG模块400根据识别模块300识别的道路情况，对车辆行驶的场景进行区分，并在不同的场景中分别设定符合各个场景的Reward值，分别进行针对性的训练。本步骤中reward设定参考如下：

reward＝

(1)-10 训练结束状态

(2)v/v_min*(1-dis_center)*angle_point 当前速度<速度设定最小值

(3)1.0*(1-discenter)*angle_point 最小值<当前速度<最大值

(4)(1.0-(v_current-v_target)/(v_max-v_target))*(1-dis_center)*angle_point当前速度>最大值

其中：v表示当前速度，Vmin表示预期速度范围的下限，Vmax表示预期速度范围的上限，Vtarget表示期望运行的速度值，dis_center表示车辆与车道中心线的距离，angle_point指行驶的方向角度。

S6：训练完成后模型部署使用，对车辆的辅助驾驶或自动驾驶进行仿真验证。

本实施例通过上述方法，减少强化学习算法模型学习如何区分各个场景的时间，来减少基于车辆行驶仿真软件中数据进行算法训练时间，可以快速验证车辆辅助驾驶/自动驾驶，能够明显降低算法模型在低效率探索，避免模型长时间探索是否需要区分场景以及学习不同场景的区别上花费的时间，从而大大降低开发时间，本方法中的训练时间指的是算法模型在仿真平台以及后续的实车平台的上学习训练花费的时间，开发时间包含训练时间，同时包含模型在实车上如何应用的时间，如模型在实车如何采集处理数据、如何接受下发指令等，从而提高训练性能。

需要说明的是，U-net网络模块200承担场景分类的角色、识别模块300承担场景确认的角色和DDPG模块400承担匹配奖励值的角色，经过上述方法训练后将U-net网络和作为深度强化学习网络的DDPG模型部署至车辆仿真软件中，对车辆辅助驾驶/自动驾驶进行快速验证。

进一步的更加具体的，本实施例中数据采集模块100(车辆上设置的摄像头采集)包括收集仿真环境中直行道、转弯道、T型道、行人、车辆和道路指示标志的数据，并对收集的数据进行标签化处理。U-net网络模块200分别提取出的不同分割体包括直行道、转弯道、T型道、行人、车辆和道路指示标志，同时U-net网络模块200对不同的分割体设置上不同的属性，其中属性包括可行驶、不可行驶、碰撞存在伤害、严禁碰撞、可以避让和不可避让。DDPG模块400对车辆行驶的场景进行区分并对下个行驶状态进行分类，区分包括直行、转弯、等待、不能移动、调头和躲避，其中等待包括红路灯、其他车辆、行人和障碍物的场景。

本实施例中U-net网络模块200进行语义分割的训练包括以下步骤，

收集车辆行驶时的语义分割图像；

手动标注；

使用标准的u-net进行调参训练；

根据验证结果调整采集的数据集进行反复训练。

语义分割是图像处理和机器视觉一个重要分支，与分类任务不同，语义分割需要判断图像每个像素点的类别，进行精确分割。语义分割目前在自动驾驶、自动抠图等领域有着比较广泛的应用。

参照图2的示意，本实施例中U-net网络模块200整个神经网络主要有两部分组成：收缩路径和扩展路径，其中收缩路径其实就是一个常规的卷积网络，它包含重复的2个3x3卷积，紧接着是一个RELU，一个maxpooling(步长为2)，用来降采样，每次降采样我们都将featurechannel扩大一倍，从64、128、256、512、1024。两个3x3的卷积核之后跟一个2x2的最大化池化层，缩小图片的分辨率。扩展路径包含一个上采样(2x2上卷积)，将图像大小扩大一倍，然后再使用普通的3x3卷积核，再将通道数featurechannel缩小一倍，从1024、512、256、128、64。

最后分割得到的两张heatmap(即featuremap)，例如第一张featuremap表示的是第一类的得分(即每个像素点对应第一类都有一个得分)，第二张featuremap表示的是第二类的得分(即每个像素点对应第二类也都有一个得分)，然后作为softmax函数的输入，算出概率比较大的softmax类，选择它作为输入给交叉熵进行反向传播训练。

首先是交叉熵函数，公式如下：

k表示的是类别数量，由于是采用全卷积方式，所以，k也就是最终输出的特征图数量(也就是通道数量channels)。x表示的是某一个像素，所以ak(x)表示的是在第k个channel上面的像素位置x的通过激活函数之后的函数输出值，相对应的pk(x)表示的是在第k个channel上面的像素位置x的通过激活函数之后的函数输出值经过softmax交叉熵运算之后产生的概率值。当某一个像素x在通道k上的值较大，即ak(x)较大，此时在运算得到的pk(x)是接近于1的，说明该像素x属于这个类别k，反之，当某一个像素x在通道k上的值较小，即ak(x)较小，此时在运算得到的pk(x)是接近于0的，说明该像素x不属于这个类别k。

U-Net中的损失函数公式如下：

下标l(x)表示的是哪一个类别，即l：Ω→{1，...，K}，

log(pe(x)(x))表示的是早某一个类别中，即在某一个channel的特征图中，比如l(x)＝k这个类别中，像素X位置的经过交叉熵计算只后得到的概率P，再取对数，这跟普通的分类中的交叉熵损失函数是一个意思。w(x)其实就是weightsmap，即所谓的权重图，其实就是在某一个通道处的特征图上，每一个像素点x对应一个权重，然后整张特征图上面所有的像素的权重。卷积会考虑该像素点周围的一些特征，而两个相同的类的细胞贴在一起，就容易误判，所以对这种两个相同类贴在一起的细胞边界，给予较大的权重，使的训练之后分类分割更准确。

首先根据训练数据，算出每一个样本图片的w(x)，即权值图；在某一类别k，即第k个channel上面对每一个像素计算交叉损失，并累加起来；在所有的特征通道上分别进行第二部的计算，然后进行累加；最终得到整张样本图片的损失。参照图3～7为本实施例采用U-net网络模块200在采集实际环境图像的语义分割输出图像。

进一步的，本实施例中采用深度学习网络模型为DDPG模块400，利用DDPG模块400对识别模块300识别的不同场景进行区分，以及在不同的场景中分别设置不同的Reward值进行针对性的训练。

具体的，设置不同的Reward值包括：

可行驶：对车辆速度、指向进行奖励，抑制s形行驶；

等待：对刹车进行奖励，抑制出现碰撞；

不可行驶：对刹车、倒车进行奖励，奖励选择其他道路。

以分别进行针对性的训练包括：

直行道路中设定方向盘稳定性Reward；

转弯道路中设定行驶距离Reward；

存在阻碍行驶的道路中设定限制行驶的Reward；

等待超时中设定变换车道和调头的Reward；

根据训练结果不断优化调整reward。

识别模块300在线识别不同的道路情况包括以下步骤，利用深度学习设计CNN网络；利用道路采集数据进行网络模型训练并调整优化参数；训练好的网络对采集的图像进行识别，判断当前道路情况。本实施例中CNN网络，参考图8的代码实现，将此采集的图像输入此网络结构中进行识别。它的网络结构是：conv1---->conv2---->fully Connectedlayer，第一层采取的是3*3的正方形卷积核，个数为20个、深度为1、stride为2、pooling尺寸为2*2，激活函数采取的为RELU；第二层只对卷积核的尺寸、个数和深度做了些变化，分别为5*5，50个和20；最后链接一层全连接，设定10个label作为输出，采用Softmax函数作为分类器，输出每个label的概率。

实施例2

参照图9的示意，本实施例中提出的一种基于场景区分的车辆仿真训练系统，该系统利用上述实施例提出的基于场景区分的深度强化学习训练方法实现对测试车辆辅助驾驶/自动驾驶的快速验证。具体的，该系统包括数据采集模块100、U-net网络模块200、识别模块300和DDPG模块400；数据采集模块100设置于测试车辆上并接入仿真环境中，用于采集环境中车辆行驶状态的图像数据集；U-net网络模块200对采集到的图像数据集进行语义分割的训练，用于分别提取仿真环境中分割体并对分割体设置上不同的属性；识别模块300用于识别实时图像包含的分割信息；DDPG模块400用于对车辆行驶的场景进行区分，并用于在不同的场景中分别设定符合各个场景的Reward值。

还需要说明的是，数据采集模块100为设置于车身上的摄像头，U-net网络模块200、识别模块300和DDPG模块400为接入自动驾驶系统中写入上述方法的算法程序的硬件部分，通过与车辆ECU单元的CPU控制芯片集成的方式存在车辆主机内，如车载ECU单元，ECU电子控制单元，又称“行车电脑”、“车载电脑”等。从用途上讲则是汽车专用微机控制器，它和普通的电脑一样，由微处理器(MCU)、存储器(ROM、RAM)、输入/输出接口(I/O)、模数转换器(A/D)以及整形、驱动等大规模集成电路组成。用一句简单的话来形容就是“ECU就是汽车的大脑”。所谓的“ECU程序”，其实就是一套运算法则，它存放在储存器内，对从输入设备经控制器转化而来的信号，处理生成对应的指令信号，从输出设备传输出去。于是对于ECU参数的修改，实际上就是在修改运算法则。其主控制芯片可以采用M(E)7系列主要使用C167内核的CPU，写入算法的U-net网络模块200、识别模块300和DDPG模块400与CPU硬件芯片集成后部署于至车辆内，通过车载显示屏提供的交互界面提供信息至驾驶者或者供驾驶员操作。

如在本申请所使用的，术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体，该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如，组件可以是，但不限于是：在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例，在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中，并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外，这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如，来自一个组件的数据，该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号，以本地和/或远程过程的方式进行通信。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于场景区分的深度强化学习训练方法，其特征在于：包括以下步骤，

将测试车辆与仿真环境建立连接并随意行驶；

数据采集模块(100)收集所述仿真环境中不同位置的街道图像数据集；

利用U-net网络模块(200)对采集到的所述图像数据集进行语义分割的训练，分别提取仿真环境中分割体并对所述分割体设置上不同的属性；

识别模块(300)利用训练好的所述U-net网络模块(200)在线得到车辆当前由所述数据采集模块(100)得到图像中所包含的分割信息，在线识别不同的道路情况；

深度强化学习网络的DDPG模块(400)根据所述识别模块(300)识别的道路情况，对车辆行驶的场景进行区分，并在不同的场景中分别设定符合各个场景的Reward值，分别进行针对性的训练；

训练完成后模型部署使用，对车辆的辅助驾驶或自动驾驶进行仿真验证；

所述U-net网络模块(200)对不同的所述分割体设置上不同的属性，其中所述属性包括可行驶、不可行驶、碰撞存在伤害、严禁碰撞、可以避让和不可避让；

所述DDPG模块(400)对车辆行驶的场景进行区分并对下个行驶状态进行分类，所述区分包括直行、转弯、等待、不能移动、调头和躲避，其中所述等待包括红路灯、其他车辆、行人和障碍物的场景；

所述U-net网络模块(200)进行语义分割的训练包括以下步骤，

收集车辆行驶时的语义分割图像；

手动标注；

使用标准的u-net进行调参训练；

根据验证结果调整采集的数据集进行反复训练；

所述在不同的场景中分别设置不同的Reward值包括，

可行驶：对车辆速度、指向进行奖励，抑制s形行驶；

等待：对刹车进行奖励，抑制出现碰撞；

不可行驶：对刹车、倒车进行奖励，奖励选择其他道路；

所述分别进行针对性的训练包括，

直行道路中设定方向盘稳定性Reward；

转弯道路中设定行驶距离Reward；

存在阻碍行驶的道路中设定限制行驶的Reward；

等待超时中设定变换车道和调头的Reward；

根据训练结果不断优化调整reward；

所述识别模块(300)在线识别不同的道路情况包括以下步骤，

利用深度学习设计CNN网络；

利用道路采集数据进行网络模型训练并调整优化参数；

训练好的网络对采集的图像进行识别，判断当前道路情况。

2.如权利要求1所述的基于场景区分的深度强化学习训练方法，其特征在于：所述数据采集模块(100)收集所述仿真环境中直行道、转弯道、T型道、行人、车辆和道路指示标志的数据，并对收集的数据进行标签化处理。

3.如权利要求1或2所述的基于场景区分的深度强化学习训练方法，其特征在于：所述U-net网络模块(200)分别提取出的不同所述分割体包括直行道、转弯道、T型道、行人、车辆和道路指示标志。

4.一种基于场景区分的车辆仿真训练系统，其特征在于：包括数据采集模块(100)、U-net网络模块(200)、识别模块(300)和DDPG模块(400)；

所述数据采集模块(100)设置于测试车辆上并与仿真环境建立连接，用于采集环境中车辆行驶状态的图像数据集；

所述U-net网络模块(200)对采集到的所述图像数据集进行语义分割的训练，用于分别提取所述仿真环境中分割体并对所述分割体设置上不同的属性；

所述识别模块(300)用于识别实时图像包含的分割信息；

所述DDPG模块(400)用于对车辆行驶的场景进行区分，并用于在不同的场景中分别设定符合各个场景的Reward值；

所述U-net网络模块(200)进行语义分割的训练包括以下步骤，

收集车辆行驶时的语义分割图像；

手动标注；

使用标准的u-net进行调参训练；

根据验证结果调整采集的数据集进行反复训练；

所述在不同的场景中分别设置不同的Reward值包括，

可行驶：对车辆速度、指向进行奖励，抑制s形行驶；

等待：对刹车进行奖励，抑制出现碰撞；

不可行驶：对刹车、倒车进行奖励，奖励选择其他道路；

所述分别进行针对性的训练包括，

直行道路中设定方向盘稳定性Reward；

转弯道路中设定行驶距离Reward；

存在阻碍行驶的道路中设定限制行驶的Reward；

等待超时中设定变换车道和调头的Reward；

根据训练结果不断优化调整reward；

所述识别模块(300)在线识别不同的道路情况包括以下步骤，

利用深度学习设计CNN网络；

利用道路采集数据进行网络模型训练并调整优化参数；

训练好的网络对采集的图像进行识别，判断当前道路情况。