CN111231983A

CN111231983A - 基于交通事故记忆网络的车辆控制方法、装置及设备

Info

Publication number: CN111231983A
Application number: CN202010035655.8A
Authority: CN
Inventors: 张彦君
Original assignee: Zhejiang Geely Holding Group Co Ltd; Zhejiang Geely Automobile Research Institute Co Ltd
Current assignee: Zhejiang Geely Holding Group Co Ltd; Zhejiang Geely Automobile Research Institute Co Ltd
Priority date: 2020-01-14
Filing date: 2020-01-14
Publication date: 2020-06-05
Anticipated expiration: 2040-01-14
Also published as: CN111231983B

Abstract

本发明涉及无人自动驾驶技术领域，尤其涉及一种基于交通事故记忆网络的车辆控制方法、装置及设备。通过对已发生的交通事故场景数据进行学习获得负样本、对真实道路场景数据进行学习获得正样本，基于正样本和负样本对机器学习模型进行训练得到交通事故记忆网络模型，后续应用中，通过将车辆采集的道路场景输入交通事故记忆网络模型，利用该模型获得该道路场景下各种可能的动作对应的特征值，再基于特征值确定欲执行的目标动作，从而根据目标动作所对应的控制参数来对车辆进行控制，能够大幅降低交通事故发生的概率，提高行驶安全性。

Description

基于交通事故记忆网络的车辆控制方法、装置及设备

技术领域

本发明涉及无人自动驾驶技术领域，尤其涉及一种基于交通事故记忆网络的车辆控制方法、装置及设备。

背景技术

随着汽车工业的发展和人民生活水平的提高，汽车的保有量呈现出逐年上涨的趋势。汽车给人们出行带来极大便利的同时，交通事故的发生也是不断的攀升。而导致交通事故的很大原因是人的因素，如：酒后驾驶、疲劳驾驶、频繁变道、弯道超车、变道不打转向灯、见缝插针、行车安全车距保持不够、追求刺激而飚车、由于斗气而别车等等。

在无人驾驶的技术中，摄像头和激光雷达取代了人眼，机器学习和神经网络则取代了人的大脑，无人驾驶AI技术的出现将排除由于人的心理因素而造成的交通事故。无人车将不断的感知周围的环境、进行纯粹的数据处理并做出非常理性的行驶决策。

根据兰德公司(RAND Corporation)的研究报告，要证明无人车较人类驾驶的安全性，需要在各种交通场景下对100辆车进行24小时连续225年的全天测试。因此如何通过模拟仿真场景取代实车的路测场景来训练无人车神经网络的模型，如何使用模拟仿真系统建造各种道路交通场景库，如何使用模拟仿真系统对无人车的驾驶行为进行测试等等，则成为无人驾驶技术领域的重要研究方向。

发明内容

本发明提供了一种基于交通事故记忆网络的车辆控制方法、装置及设备，能够提升无人车行驶的安全性。

一方面，本发明提供一种基于交通事故记忆网络的车辆控制方法，包括：

获取道路场景；

将所述道路场景作为待识别状态输入交通事故记忆网络模型，通过所述交通事故记忆网络模型对所述待识别状态进行识别分析，得到所述待识别状态下动作集中每个动作对应的特征值；

根据各动作对应的特征值从所述动作集中确定目标动作；

获取所述目标动作对应的控制参数，所述控制参数用于指示所述待识别状态下使所述车辆避免交通事故的驾驶行为；

将所述控制参数输出至车辆的控制系统，以使所述控制系统基于所述控制参数对所述车辆进行控制。

另一方面，本发明提供一种基于交通事故记忆网络的车辆控制装置，包括：

道路场景获取模块，用于获取道路场景；

识别分析模块，用于将所述道路场景作为待识别状态输入交通事故记忆网络模型，通过所述交通事故记忆网络模型对所述待识别状态进行识别分析，得到所述待识别状态下动作集中每个动作对应的特征值；

目标动作确定模块，用于根据各动作对应的特征值从所述动作集中确定目标动作；

控制参数获取模块，用于获取所述目标动作对应的控制参数，所述控制参数用于指示所述待识别状态下使所述车辆避免交通事故的驾驶行为；

发送模块，用于将所述控制参数输出至车辆的控制系统，以使所述控制系统基于所述控制参数对所述车辆进行控制。

优选地，所述目标动作确定模块，还用于将所述动作集中特征值最大的动作作为所述目标动作。

优选地，所述控制参数获取模块，还用于根据预设的动作与控制参数的映射关系，确定与所述目标动作对应的控制参数，所述控制参数包括油门踏板的踩踏力度、刹车踏板的踩踏力度和/或转向盘的转动角度。

优选地，所述交通事故记忆网络模型按照以下方式训练得到：

构建机器学习模型，所述机器学习模型包括训练网络和评估网络，所述评估网络的输出层与所述训练网络的输入层连接；

获取样本数据，所述样本数据包括正样本集合和负样本集合，所述正样本集合和负样本集合中每个样本包括第一样本状态、样本动作、样本奖励和执行所述样本动作后的第二样本状态；

基于所述样本数据训练所述机器学习模型，得到所述交通事故记忆网络模型。

在一个可行的实施方式中，所述基于所述样本数据训练所述机器学习模型，得到所述交通事故记忆网络模型，包括：

从所述样本数据中随机抽取预设数量的正样本和负样本，将抽取的正样本或负样本作为训练样本；

将所述训练样本的第二样本状态输入所述训练网络，输出在所述第二样本状态下所有可执行动作的特征值的集合；

根据所述第二样本状态下所有可执行动作的特征值的集合、所述训练样本的第一样本状态、样本动作和样本奖励，计算得到目标特征值；

将所述训练样本的第一样本状态和样本动作输入所述评估网络，输出得到预测特征值；

将所述预测特征值与所述目标特征值进行对比，计算得到特征损失值；

按照所述特征损失值调整所述机器学习模型中的参数值，直至所确定的特征损失值达到训练停止条件时，将所述机器学习模型作为所述交通事故记忆网络模型。

在一个可行的实施方式中，所述获取样本数据，所述样本数据包括正样本集合和负样本集合，所述正样本集合和负样本集合中每个样本包括第一样本状态、样本动作、样本奖励和执行所述样本动作后的第二样本状态，包括：基于已发生的交通事故场景数据获取负样本集合；基于车辆在真实道路场景中采集的数据生成正样本集合。

在一个可行的实施方式中，所述基于已发生的交通事故场景数据获取负样本集合包括：

获取已经发生的交通事故场景数据；

根据所述交通事故场景数据，使用模拟仿真工具模拟仿真环境并建立导致交通事故的道路交通场景模型库；

将所述道路交通场景模型库中各交通事故场景作为第一初始深度学习模型的输入，输出每个交通事故场景中每个仿真道路场景的第一仿真状态、在所述第一仿真状态下执行的动作、在所述第一仿真状态下执行所述动作的奖励以及执行所述动作后产生的第二仿真状态；

将所述第一初始深度学习模型的输出作为第一样本集合进行存储；

采集所述仿真环境中正常的车辆行驶场景，将所述车辆行驶场景输入所述第一初始深度神经学习模型，获得第二样本集合，所述第二样本集合中每个样本包括每个仿真道路的第三仿真状态、在所述第三仿真状态下执行的动作、在所述第三仿真状态下执行所述动作的奖励以及执行所述动作后产生的第四仿真状态；

基于所述第一样本集合和所述第二样本集合对所述第一初始深度学习模型进行仿真环境的车辆行驶训练，直至所述仿真环境中没有交通事故发生；

对所述第一样本集合中的事故场景进行语义分割处理，以将模拟交通事故发生前的仿真场景转化成语义分割后的第一事故场景；

使用条件对抗网络将所述第一事故场景转化为逼近真实的第二事故场景；

将所述第二事故场景作为所述第一初始深度学习模型中的场景状态，替换所述第一样本集合中的第一仿真状态；

将替换后的所述第一样本集合作为所述负样本集合。

在一个可行的实施方式中，所述基于车辆在真实道路场景中采集的数据生成正样本集合包括：获取车辆在真实道路场景中正常行驶采集的道路场景数据；将所述道路场景数据作为第二初始深度学习模型的输入，输出所述道路场景数据中每个道路场景的第一状态、在所述第一状态下执行的动作、在所述第一状态下执行所述动作的奖励以及执行所述动作后产生的第二状态；将所述第二初始深度学习模型的输出作为所述正样本集合。

另一方面，本发明提供一种电子设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行上述的基于交通事故记忆网络的车辆控制方法。

本发明提供的一种基于交通事故记忆网络的车辆控制方法、装置及设备，具有如下有益效果：

本发明通过对已发生的交通事故场景数据进行学习获得负样本、对真实道路场景数据进行学习获得正样本，基于正样本和负样本对机器学习模型进行训练得到交通事故记忆网络模型，后续应用中，通过将车辆采集的道路场景输入交通事故记忆网络模型，利用该模型获得该道路场景下各种可能的动作对应的特征值，再基于特征值确定欲执行的目标动作，从而根据目标动作所对应的控制参数来对车辆进行控制。交通事故记忆网络模型对各种交通事故场景及正常行驶场景进行学习得到，使得车辆能够在类似负样本所对应的交通事故场景下做出避免采用导致交通事故的动作，从而大幅降低交通事故发生的概率，提高行驶安全性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本申请实施例提供的一种基于交通事故记忆网络的车辆控制方法的流程示意图；

图2是本发明实施例提供的交通事故记忆网络模型的训练过程示意图；

图3是本发明实施例提供的基于样本数据训练机器学习模型的训练过程示意图；

图4是本发明实施例提供的DQN网络的训练过程示意图；

图5是本发明实施例提供的语义分割SegNet的结构图；

图6是本发明实施例提供的条件对抗网络的原理架构；

图7是本发明实施例提供的一种基于交通事故记忆网络的车辆控制装置的结构示意图；

图8是本发明实施例提供的一种服务器的硬件结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于说明本发明实施例中的方法的优势，在本发明实施例的技术方案详述伊始，首先对现有技术的相关内容进行分析：

无人驾驶AI技术的出现可以排除由于人的心理因素而造成的交通事故。无人车能够不断的感知周围的环境、进行纯粹的数据处理并做出非常理性的行驶决策。然而，发明人研究发现在无人车神经网络的训练过程中存在以下几点问题：

-训练神经网络使用的场景多为车辆实际路测采集到的场景；这些场景均可理解为正常行驶场景；

-训练神经网络时没有考虑到使用交通事故的场景来进行逆向训练；

-通常记录交通事故场景的多为路边的摄像头，无法从车辆本身视觉感知(比如行车记录仪)的角度采集交通事故的场景；

-存在事故隐患的地点可能还没有发生交通事故。

以上因素限制了无人车在规避交通事故上的提升和应用。

鉴于现有技术的不足，本发明实施例提一种基于交通事故记忆网络的车辆控制方案，通过对已发生的交通事故进行学习，来提升无人车行驶的安全性。下面结合附图对本发明实施例中的技术方案进行清楚、完整的描述。

图1是本申请实施例提供的一种基于交通事故记忆网络的车辆控制方法的流程示意图，该流程可以由车载计算机执行实现，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。请参见图1，本申请实施例提供的基于交通事故记忆网络的车辆控制方法包括：

S101：获取道路场景。

具体可以通过无人车配置的摄像头采集道路场景图像。

S103：将所述道路场景作为待识别状态输入交通事故记忆网络模型，通过所述交通事故记忆网络模型对所述待识别状态进行识别分析，得到所述待识别状态下动作集中每个动作对应的特征值。

其中，所述交通事故记忆网络模型是通过机器学习模型基于样本数据学习得到。

S105：根据各动作对应的特征值从所述动作集中确定目标动作。

在一个可行的实施例中，可以将动作集中特征值最大的动作作为所述目标动作。目标动作即为无人车在当前道路场景下采取较优控制策略所产生的动作。

S107：获取所述目标动作对应的控制参数，所述控制参数用于指示所述待识别状态下使所述车辆避免交通事故的驾驶行为。

在一个可行的实施例中，可以根据预设的动作与控制参数的映射关系，确定与所述目标动作对应的控制参数，所述控制参数包括油门踏板的踩踏力度、刹车踏板的踩踏力度和/或转向盘的转动角度。

S109：将所述控制参数输出至车辆的控制系统，以使所述控制系统基于所述控制参数对所述车辆进行控制。

所述步骤S103中的交通事故记忆网络模型可以按照如图2所示的方法训练得到，请参见图2，交通事故记忆网络模型的训练过程包括：

S201、构建机器学习模型，所述机器学习模型包括训练网络和评估网络，所述评估网络的输出层与所述训练网络的输入层连接。

所述机器学习模型优选为DQN深度Q网络。DQN全称Deep Q Network，是深度强化学习的一种，深度强化学习中车辆和环境之间的交互的标准形式可以使用马尔可夫决策过程MDP＝{S,A,Pr,R,γ}来描述。MDP由元组组成，S为状态集合、A为动作集、Pr为状态转移概率Pr(s_t+1|s_t,a_t)(满足马尔可夫性，其中a_t∈A)、R为奖励函数R(s_t,a_t,s_t+1)、γ为衰退系数(γ∈[0,1])。马尔可夫决策过程产生的状态序列可以表示为(s₀,a₀,R₁,s₁,a₁,R₂,…,s_T)。给定马尔可夫决策过程，强化学习的问题可以定义为寻找最优的策略π_＊，对任意s∈S，使得价值函数q_π*(s,a)的值最大。马尔可夫决策过程描述了车辆与周围环境相互的作用，是驾驶策略学习的数学模型。车辆使用深度强化学习可以更好的自主学习，为驾驶决策学习定义了状态s，动作a和奖励函数R。现实中车辆的状态数量很多甚至是接近无限的，则可以将Q函数参数化，用深度神经网络来拟合Q函数，这样便可以用有限的参数刻画无限的状态。

S202、获取样本数据，所述样本数据包括正样本集合和负样本集合，所述正样本集合和负样本集合中每个样本包括第一样本状态、样本动作、样本奖励和执行所述样本动作后的第二样本状态。

S203、基于所述样本数据训练所述机器学习模型，得到所述交通事故记忆网络模型。

图3是本发明实施例提供的基于样本数据训练机器学习模型的训练过程示意图。在一个可行的实施例中，训练机器学习模型得到交通事故记忆网络模块可以包括如图3所示的步骤，具体为：

S301、从所述样本数据中随机抽取预设数量的正样本和负样本，将抽取的正样本或负样本作为训练样本。

本发明实施例中，所述机器学习模型优选为DQN深度Q网络。图4是本发明实施例提供的DQN网络的训练过程示意图。请参见图4，所述负样本集合中的负样本存储于DQN网络的负记忆库中，所述正样本集合中的正样本存储于DQN网络的正记忆库中。通过从正记忆库和负记忆库中各自随机抽取出一批样本对DQN网络进行训练，随机抽样打破了训练样本的连续性和相关性，使神经网络的更新更加有效，在DQN网络的定义中需要指出随机抽取训练集的大小。每条训练样本的格式为(s,a,R,s’)，分别表示第一样本状态、样本动作、样本奖励函数、第二样本状态。

S303、将所述训练样本的第二样本状态输入所述训练网络，输出在所述第二样本状态下所有可执行动作的特征值的集合。

其中，本方案的动作集合可以根据油门、刹车和转向角进行区间划分，示例性的，可以将油门和刹车的力度集合0{-Fmax，Fmax}划分为20个区间，转向角的集合A{-βmax，+βmax}划分为10个区间，由此得出整个动作集合包含20╳10共200个动作，这样整个动作集合的粒度为200。将这些动作转化为特征值，获得某一状态下可执行动作的特征值得集合。

S305、根据所述第二样本状态下所有可执行动作的特征值的集合、所述训练样本的第一样本状态、样本动作和样本奖励，计算得到目标特征值。

将样本中的第二样本状态s’的列表作为参数传入训练网络，得到在s’状态下所有可执行动作的Q值(即特征值)表的集合，进而可以按照公式(1)计算目标Q值(即目标特征值)Q_target。

Q_target＝R(s，a)+γmax_a′Q(s′，a′；θ^-) (1)

S307、将所述训练样本的第一样本状态和样本动作输入所述评估网络，输出得到预测特征值。

评估网络计算在第一样本状态下执行样本动作所对应的Q值Q(s,a；θ)，Q(s,a；θ)即为所述预测特征值。

S309、将所述预测特征值与所述目标特征值进行对比，计算得到特征损失值。

在获得目标特征值Q_target和预测特征值Q(s,a；θ)得基础上，可以按照公式(2)所示的损失函数计算DQN的特征损失值L(θ)。

L(θ)＝E[(Q_target-Q(s，a；θ))²] (2)

S311、按照所述特征损失值调整所述机器学习模型中的参数值，直至所确定的特征损失值达到训练停止条件时，将所述机器学习模型作为所述交通事故记忆网络模型。

根据特征损失值L(θ)按照公式(3)计算关于参数θ的梯度。

然后使用随机梯度下降算法(SGD)更新评估网络的参数，每经过预设次数的迭代，将评估网络的参数复制给训练网络，以此提高网络训练的效率。

按照特征损失值调整DQN网络中的参数值，直至所确定的特征损失值达到训练停止条件时停止训练，将DQN网络作为交通事故记忆网络模型。整个训练的过程就是Q(s,a；θ)向Q_target逼近的过程。其中，训练停止条件可以为达到预设的数据区间，也可以为与最近n(n为不小于1的正整数)次的比对步骤中损失函数的值之间的差异低于预设的阈值。

如果特征损失值不满足预设的训练停止条件时，基于损失函数，采用梯度下降法更新评估网络的参数，然后基于更新后的参数进行迭代训练，并在迭代次数达到预设次数时将评估网络的参数复制给训练网络，并返回执行步骤S303。

本发明实施例通过DQN中正负记忆库随机抽样的训练，无人车能够在类似负记忆库中的交通事故场景下做出避免采用导致交通事故的动作，从而大大降低了交通事故发生的概率

本发明实施例训练所述交通事故记忆网络模型采用的样本数据包括从正样本集合中抽取的正样本和从负样本集合中抽取的负样本，其中，负样本集合基于已发生的交通事故场景数据获取，正样本集合基于车辆在真实道路场景中采集的数据生成。以下分别对负样本和正样本的获取方法进行详细说明。

由于不可能通过真实发生交通事故来记录发生交通事故的经验，所以这些交通事故经验将从模拟仿真环境中获取。在模拟仿真环境中对容易导致交通事故的道路交通环境场景进行建模，模拟的车辆可以采用DQN感知模拟的环境并进行车辆行驶的决策控制。

在一个可行的实施例中，所述负样本集合可以通过以下方法获得：

(1)获取已经发生的交通事故场景数据。

目前CIDAS(中国交通事故深入研究)数据库已经采集了3000多起中国道路交通事故，每年采集至少800起符合要求的交通事故。可以使用CIDAS数据库中的数据作为已经发生的交通事故场景数据。

(2)根据所述交通事故场景数据，使用模拟仿真工具模拟仿真环境并建立导致交通事故的道路交通场景模型库。

(3)将所述道路交通场景模型库中各交通事故场景作为第一初始深度学习模型的输入，输出每个交通事故场景中每个仿真道路场景的第一仿真状态、在所述第一仿真状态下执行的动作、在所述第一仿真状态下执行所述动作的奖励以及执行所述动作后产生的第二仿真状态。

(4)将所述第一初始深度学习模型的输出作为第一样本集合进行存储。

(5)采集所述仿真环境中正常的车辆行驶场景，将所述车辆行驶场景输入所述第一初始深度神经学习模型，获得第二样本集合，所述第二样本集合中每个样本包括每个仿真道路的第三仿真状态、在所述第三仿真状态下执行的动作、在所述第三仿真状态下执行所述动作的奖励以及执行所述动作后产生的第四仿真状态。

其中，所述第一初始深度学习模型优选为DQN深度Q网络，可以将所述DQN输出的每个仿真道路场景的第一仿真状态s1、在所述第一仿真状态下执行的动作a1、在所述第一仿真状态s1下执行所述动作a1的奖励R1以及执行所述动作a1后产生的第二仿真状态s1’作为一个样本(s1,a1,R1,s1’)存储在深度Q网络DQN的负记忆库中，构成所述第一样本集合。其中，奖励R1的值为奖励函数取值范围中的最小值。将所述DQN输出的每个仿真道路的第三仿真状态s2、在所述第三仿真状态s2下执行的动作a2、在所述第三仿真状态s2下执行所述动作a2的奖励R2以及执行所述动作a2后产生的第四仿真状态s2’作为一个样本(s2,a2,R2,s2’)存储在深度Q网络DQN的正记忆库中，构成所述第二样本集合。

(6)基于所述第一样本集合和所述第二样本集合对所述第一初始深度学习模型进行仿真环境的车辆行驶训练，直至所述仿真环境中没有交通事故发生。

所述第一初始深度学习模型为DQN深度Q网络，其训练过程与S203中训练机器学习模型的过程一致，在此不再赘述。

(6)对所述第一样本集合中的事故场景进行语义分割处理，以将模拟交通事故发生前的仿真场景转化成语义分割后的第一事故场景。

由于模拟仿真的道路环境图像与真实的道路环境图像存在分布上的差异，直接用仿真的道路环境图像进行神经网络模型训练，会导致神经网络模型对仿真道路环境图像的过拟合，从而影响模型在真实道路环境中的泛化能力，所以本发明采用卷积神经网络从仿真的道路环境图像生成语义分割后的道路环境图像，然后再采用生成式对抗网络GAN从语义分割的道路环境图像输出逼近真实道路环境的图像。

语义分割技术通过查找图像中的所有像素来识别图像中存在的内容以及位置，使自动驾驶汽车能够以人类认知环境的角度出发，将整个道路场景按照像素级别的精度进行语义层面的划分，从而完成对道路场景的完整建模。语义分割的结构可以被广泛理解为一个编码器网络加上一个解码器网络，编码器通常是一个预先训练的分类网络，比如ResNet；解码器则将编码器学习到的特征语义投影到像素空间上面。

图5是本发明实施例提供的语义分割SegNet的结构图。Segnet模型由VijayBadrinarayanan,Alex Kendall,Roberto Cipolla发表,在FCN的语义分割任务基础上，搭建编码器-解码器对称结构，实现端到端的像素级别图像分割。Segnet语义分割网络的关键在于下采样和上采样，在上采样的过程中，使用下采样时记录的Max Value像素位置指标。Segnet模型使用使用Softmax(逻辑回归)作为损失函数。在SegNet的每个卷积层后加上一个Batch Normlization(批量正常化)层，Batch Normlization层后面为ReLU激活层能够明显改善语义分割效果。Segnet模型很好的支持了天空、车辆、行人、自行车、树木、路杆、路面、路标、人行道、护栏、标志牌、建筑等自动驾驶场景中常见元素的分割。分割后的图片包含多种颜色，其中每个颜色代表一种元素。

(8)使用条件对抗网络将所述第一事故场景转化为逼近真实的第二事故场景。

经过步骤(7)模拟交通事故发生前的仿真场景已经转化成语义分割后的交通场景，进一步可以通过生成式对抗网络将分割后的交通场景转化为逼近真实环境的道路场景。

生成式对抗网络GAN的全称是Generative Adversarial Networks，是无监督学习的一种方式，由两个神经网络(生成网络G和判别网络D)构成，并且通过两个网络相互博弈的方式进行学习。以生成图片为例，生成网络G接收随机噪音z后生成图片G(z)；判别网络D判别输入的图片x是否真实，输出的D(x)指图片x为真实图片的概率(1表示100％真实图片，0表示不是真实图片)。生成网络尽量模仿训练集中的真实样本来生成图片，判别网络尽量把生成网络生成的图片从真实样本中区分出来。在整个训练的过程中，两个网络不断的博弈，调整网络参数，最终使得判别网络无法区分生成网络生成的图片是否为真实，即D(G(z))＝0.5，这样便得到一个能够生成逼近真实图片的生成网络。

生成式对抗网络GAN可以用下面的目标函数来表示：

其中x～p_data(x)和z～p_z(z)指x和z分别满足各自的分布律；D(x)是指真实图片被判断为真实的概率；G(z)是指一个z噪声输入到G网络，并输出一个样本的构造过程；D(G(z))指G网络生成的样本，被判定为真实图片的概率。G网络希望生成的图片无限逼近真实的图片，即D(G(z)))尽可能大，这时V(D，G)会变小，因此公式前为min-G；D网络则希望真实的样本D(x)越大越好，假的样本D(G(z))越小越好，即1-D(G(z))越大越好，所以公式前为max-D。

使用条件对抗网络cGAN(Conditional Adversarial Networks)进行输入图片到输出图片像素到像素的映射，这里输入为将模拟仿真场景图片进行语义分割后的图片，输出为逼近真实道路交通场景的图片。与生成式对抗网络不同，条件对抗网络学习的是需要转换的图片x、随机噪音z和真实图片y之间的映射。图6是本发明实施例提供的条件对抗网络的原理架构，请参见图6，cGAN的训练过程包括：从仿真图片得到的语义分割后的图片x作为条件对抗网络的条件，输入到生成网络G和判别网络D中。G的输入是x和z(z为随机噪音)，输出的是生成的图片G(x，z)，判别网络D需要判别出{x，G(x，z)}和{x，y}。条件对抗网络的目标函数可以表示为：

经过cGAN的训练，将语义分割后的道路场景通过像素到像素的映射转化成逼近真实环境的道路场景。

(9)将所述第二事故场景作为所述第一初始深度学习模型中的场景状态，替换所述第一样本集合中的第一仿真状态；将替换后的所述第一样本集合作为所述负样本集合。

将步骤(8)获得的逼近真实环境的道路场景作为深度强化学习DQN中的状态，替换掉之前DQN记忆库中仿真图片的状态。这里可以替换正记忆库和负记忆库中的状态，也可以仅替换负记忆库中的状态。

在训练无人车DQN网络时，从记忆库中随机抽取出一批样本(这里有车辆正常行驶的样本，也有模拟仿真中发生交通事故的样本)进行训练，随机抽取打破了训练样本的连续性和相关性，使神经网络的更新更加有效，在DQN网络的定义当中需要指出随机抽取训练集的大小。这样通过记忆库中的交通事故样本集进行长期的训练，无人车便能够在行驶过程中匹配这些记忆库中的场景状态并且学会在这样的状态下避免采取导致交通事故的驾驶行为。在一个可行的实施例中，所述正样本集合可以通过以下方法获得：

获取车辆在真实道路场景中正常行驶采集的道路场景数据；将所述道路场景数据作为第二初始深度学习模型的输入，输出所述道路场景数据中每个道路场景的第一状态、在所述第一状态下执行的动作、在所述第一状态下执行所述动作的奖励以及执行所述动作后产生的第二状态；将所述第二初始深度学习模型的输出作为所述正样本集合。

实际应用时，可以使用DQN来进行无人车的真实道路场景测试，无人车首先进行道路环境的探索和观察，然后将观察所得的经验存储在记忆库中。这里的每条经验可以包括第一状态、采取的动作、获得的奖励、执行动作后的第二状态。经过足够的观察探索之后，DQN的记忆库中保存了足够的正样本，再加上之前使用生成式对抗网络生成的交通事故负样本，就得到训练DQN所需要的样本数据。样本数据包括车辆行驶过程中采集的样本，即正样本；以及通过仿真环境和GAN得到的交通事故的样本，即负样本。保存正样本的DQN记忆库称之为正记忆库，保存负样本的记忆库则称为是负记忆库。

本发明实施例中，所述样本数据获取阶段的第一初始深度学习模型、第二初始深度学习模型以及训练阶段的机器学习模型可以是同一个DQN深度Q网络。如此，在样本数据获取阶段可以基于仿真场景对DQN进行预训练，对DQN的参数值进行预调整，然后将经过预训练的DQN置入真实场景中进行强化学习，在预训练获得的参数值的基础上进一步对DQN的参数值进行调整，能够缩短交通事故记忆网络模型的训练周期，提高训练交通事故记忆网络模型的效率，同时，由于采用仿真场景的相关数据对DQN进行了预先训练使其在仿真环境中不发生交通事故，能够确保后续投入真实场景中进行强化学习时车辆的安全性。

当然，第一初始深度学习模型、第二初始深度学习模型和所述机器学习模型也可以是相互无关联的模型，即，第一初始深度学习模型和第二初始深度学习模型仅参与样本数据的获取。第一初始深度学习模型、第二初始深度学习模型和所述机器学习模型可以是DQN网络，也可以是其他深度神经网络，本发明对此不作限制。第一初始深度学习模型、第二初始深度学习模型和所述机器学习模型互不关联，使得样本数据的获取与机器学习模型的训练相互解耦，使交通事故记忆网络模型的训练更为灵活。

本发明实施例通过对已发生的交通事故场景数据进行仿真，利用第一深度学习神经网络获得各仿真道路场景对应的状态、动作及奖励信息，利用这些信息对第二深度神经网络进行训练，直至仿真场景中无交通事故发生，然后将交通事故场景转化为逼近真实环境的事故场景，以替换掉仿真场景中的图像，获得负样本；此外，通过对真实道路场景数据进行学习获得正样本；进一步基于正样本和负样本对机器学习模型进行训练，得到交通事故记忆网络模型，后续应用中，通过将车辆采集的道路场景输入交通事故记忆网络模型，利用该模型获得该道路场景下各种可能的动作对应的特征值，再基于特征值确定目标动作，从而根据目标动作所对应的控制参数来对车辆进行控制。交通事故记忆网络模型对各种交通事故场景及正常行驶场景进行学习得到，使得车辆能够在类似负样本所对应的交通事故场景下做出避免采用导致交通事故的动作，从而大幅降低交通事故发生的概率，提高行驶安全性。

本发明实施例还提供了一种基于交通事故记忆网络的车辆控制装置，图7是本发明实施例提供的一种基于交通事故记忆网络的车辆控制装置的结构示意图，如图7所示，所述装置包括：

道路场景获取模块710，用于获取道路场景；

识别分析模块720，用于将所述道路场景作为待识别状态输入交通事故记忆网络模型，通过所述交通事故记忆网络模型对所述待识别状态进行识别分析，得到所述待识别状态下动作集中每个动作对应的特征值；

目标动作确定模块730，用于根据各动作对应的特征值从所述动作集中确定目标动作；

控制参数获取模块740，用于获取所述目标动作对应的控制参数，所述控制参数用于指示所述待识别状态下使所述车辆避免交通事故的驾驶行为；

发送模块750，用于将所述控制参数输出至车辆的控制系统，以使所述控制系统基于所述控制参数对所述车辆进行控制。

优选地，所述目标动作确定模块730，还用于将所述动作集中特征值最大的动作作为所述目标动作。

优选地，所述控制参数获取模块740，还用于根据预设的动作与控制参数的映射关系，确定与所述目标动作对应的控制参数，所述控制参数包括油门踏板的踩踏力度、刹车踏板的踩踏力度和/或转向盘的转动角度。

在一个可行的实施例中，所述基于所述样本数据训练所述机器学习模型，得到所述交通事故记忆网络模型，包括：

在一个可行的实施例中，所述获取样本数据，所述样本数据包括正样本集合和负样本集合，所述正样本集合和负样本集合中每个样本包括第一样本状态、样本动作、样本奖励和执行所述样本动作后的第二样本状态，包括：基于已发生的交通事故场景数据获取负样本集合；基于车辆在真实道路场景中采集的数据生成正样本集合。

在一个可行的实施例中，所述基于已发生的交通事故场景数据获取负样本集合包括：

获取已经发生的交通事故场景数据；

将替换后的所述第一样本集合作为所述负样本集合。

在一个可行的实施例中，所述基于车辆在真实道路场景中采集的数据生成正样本集合包括：获取车辆在真实道路场景中正常行驶采集的道路场景数据；将所述道路场景数据作为第二初始深度学习模型的输入，输出所述道路场景数据中每个道路场景的第一状态、在所述第一状态下执行的动作、在所述第一状态下执行所述动作的奖励以及执行所述动作后产生的第二状态；将所述第二初始深度学习模型的输出作为所述正样本集合。

所述的基于交通事故记忆网络的车辆控制装置与方法实施例基于同样地发明构思。

本发明实施例提供了一种电子设备，该电子设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的基于交通事故记忆网络的车辆控制方法。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述终端的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本申请实施例所提供的方法实施例可以在计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图8是本发明实施例提供的一种服务器的硬件结构框图。如图8所示，该服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，CPU)810(处理器810可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和图形处理器(Graphics ProcessingUnit，GPU)、用于存储数据的存储器830，一个或一个以上存储应用程序823或数据822的存储介质820(例如一个或一个以上海量存储设备)。其中，图形处理器优选为高性能GPU以满足运行所述基于交通事故记忆网络的车辆控制方法所需的计算能力，存储器830和存储介质820可以是短暂存储或持久存储。存储在存储介质820的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器810可以设置为与存储介质820通信，在服务器800上执行存储介质820中的一系列指令操作。服务器800还可以包括一个或一个以上电源860，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口840，和/或，一个或一个以上操作系统821，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

输入输出接口840可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器800的通信供应商提供的无线网络。在一个实例中，输入输出接口840包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口840可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图8所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器800还可包括比图8中所示更多或者更少的组件，或者具有与图8所示不同的配置。

本发明的实施例还提供了一种存储介质，所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种基于交通事故记忆网络的车辆控制方法相关的至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的基于交通事故记忆网络的车辆控制方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络客户端中的至少一个网络客户端。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于交通事故记忆网络的车辆控制方法，其特征在于，包括：

获取道路场景；

根据各动作对应的特征值从所述动作集中确定目标动作；

2.根据权利要求1所述的方法，其特征在于，所述根据各动作对应的特征值从所述动作集中确定目标动作包括：

将所述动作集中特征值最大的动作作为所述目标动作。

3.根据权利要求1所述的方法，其特征在于，所述获取所述目标动作对应的控制参数，所述控制参数用于指示所述待识别状态下使所述车辆避免交通事故的驾驶行为，包括：

根据预设的动作与控制参数的映射关系，确定与所述目标动作对应的控制参数，所述控制参数包括油门踏板的踩踏力度、刹车踏板的踩踏力度和/或转向盘的转动角度。

4.根据权利要求1所述的方法，其特征在于，所述交通事故记忆网络模型按照以下方式训练得到：

5.根据权利要求4所述的方法，其特征在于，所述基于所述样本数据训练所述机器学习模型，得到所述交通事故记忆网络模型，包括：

6.根据权利要求4所述的方法，其特征在于，所述获取样本数据，所述样本数据包括正样本集合和负样本集合，所述正样本集合和负样本集合中每个样本包括第一样本状态、样本动作、样本奖励和执行所述样本动作后的第二样本状态，包括：

基于已发生的交通事故场景数据获取负样本集合；

基于车辆在真实道路场景中采集的数据生成正样本集合。

7.根据权利要求6所述的方法，其特征在于，所述基于已发生的交通事故场景数据获取负样本集合包括：

获取已经发生的交通事故场景数据；

将替换后的所述第一样本集合作为所述负样本集合。

8.根据权利要求6所述的方法，其特征在于，所述基于车辆在真实道路场景中采集的数据生成正样本集合包括：

获取车辆在真实道路场景中正常行驶采集的道路场景数据；

将所述道路场景数据作为第二初始深度学习模型的输入，输出所述道路场景数据中每个道路场景的第一状态、在所述第一状态下执行的动作、在所述第一状态下执行所述动作的奖励以及执行所述动作后产生的第二状态；

将所述第二初始深度学习模型的输出作为所述正样本集合。

9.一种基于交通事故记忆网络的车辆控制装置，其特征在于，包括：

道路场景获取模块，用于获取道路场景；

10.一种电子设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行如权利要求1-8任一所述的基于交通事故记忆网络的车辆控制方法。