CN107229973B

CN107229973B - 一种用于车辆自动驾驶的策略网络模型的生成方法及装置

Info

Publication number: CN107229973B
Application number: CN201710332994.0A
Authority: CN
Inventors: 李慧云; 王峥; 刘玢玢
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2017-05-12
Filing date: 2017-05-12
Publication date: 2021-11-19
Anticipated expiration: 2037-05-12
Also published as: CN107229973A

Abstract

本发明适用计算机技术领域，提供了一种用于车辆自动驾驶的策略网络模型的生成方法及装置，所述方法包括：将每个试验时刻采集到的车辆状态信息构成状态信息集，对状态信息集进行处理，获得特征状态信息集；根据预设的回报值函数和预先构建的车辆动作集，查找在特征状态信息集的每个状态信息下获得最大回报值的车辆动作；根据特征状态信息集、特征状态信息集中每个状态信息对应的最大回报值和获得最大回报值的车辆动作，训练极限学习机的网络模型；根据极限学习机的网络模型的训练结果，生成用于车辆自动驾驶的策略网络模型，从而有效地降低了计算资源的消耗，有效地提高了车辆自动驾驶策略网络模型的生成效率。

Description

一种用于车辆自动驾驶的策略网络模型的生成方法及装置

技术领域

本发明属于计算机技术领域，尤其涉及一种用于车辆自动驾驶的策略网络模型的生成方法及装置。

背景技术

随着经济的发展和城镇化的推进，全球汽车保有量和道路里程逐步增加，导致诸如交通拥堵、事故、污染、土地资源紧缺等一系列传统汽车无法妥善解决的问题日益凸显。无人驾驶汽车技术被视为这些问题的有效解决方案，其发展被受瞩目，美国电子和电子工程师协会(IEEE)预测，至2040年自动驾驶车辆数目所占比例将达到75％。

无人驾驶汽车，即在没有司机的情况下通过自身的辅助驾驶系统在道路上行驶，具备环境感知能力。辅助驾驶系统通过传感器获取的环境信息做出控制决策，已出现了多种用于辅助驾驶系统的传感器和产品，例如：激光雷达、机器视觉、自适应巡航、车辆接近通报装置、夜视辅助、自适应前照明系统等。

目前，辅助驾驶系统的控制方法主要为基于规则的控制决策，即根据已知的驾驶经验构建对车辆环境信息输出控制决策的专家规则系统，专家规则系统这类浅层学习算法可看作从被标记的数据之间寻找规律的过程，当规则很难被抽象成公式或简单逻辑时，浅层学习就无法奏效，然而，自动驾驶场景类别多样、路况复杂，很难用有限的规则定义清楚。

随着深度强化学习技术的快速发展，一些研究机构提出“端对端”式的自动驾驶算法，通过深度网络构建辅助驾驶系统中的控制决策模型。这类方法不需要对车辆的状态进行基于规则的识别。然而，对车辆自动驾驶进行深度学习要求强大的计算资源，例如需要数百瓦的图形处理器(GPU)等长时间(数天到数周)的训练，才能得到一个决策网络，如果外界条件改变，则需要重新训练。

发明内容

本发明的目的在于提供一种用于车辆自动驾驶的策略网络模型的生成方法及装置，旨在解决现有技术中策略网络模型的生成效率较低的问题。

一方面，本发明提供了一种用于车辆自动驾驶的策略网络模型的生成方法，所述方法包括下述步骤：

将每个试验时刻采集到的车辆状态信息构成状态信息集，对所述状态信息集进行处理，获得特征状态信息集；

根据预设的回报值函数和预先构建的车辆动作集，查找在所述特征状态信息集的每个状态信息下获得最大回报值的车辆动作；

根据所述特征状态信息集、所述特征状态信息集中每个状态信息对应的最大回报值和所述获得最大回报值的车辆动作，训练极限学习机的网络模型；

根据所述极限学习机的网络模型的训练结果，生成用于所述车辆自动驾驶的策略网络模型。

另一方面，本发明提供了一种用于车辆自动驾驶的策略网络模型的生成装置，所述装置包括：

状态处理模块，用于将每个试验时刻采集到的车辆状态信息构成状态信息集，对所述状态信息集进行处理，获得特征状态信息集；

强化学习模块，用于根据预设的回报值函数和预先构建的车辆动作集，查找在所述特征状态信息集的每个状态信息下获得最大回报值的车辆动作；

极限学习机训练模块，用于根据所述特征状态信息集、所述特征状态信息集中每个状态信息对应的最大回报值和所述获得最大回报值的车辆动作，训练极限学习机的网络模型；以及

策略网络生成模块，用于根据所述极限学习机的网络模型的训练结果，生成用于所述车辆自动驾驶的策略网络模型。

本发明将每个试验时刻采集到的车辆状态信息构成状态信息集，对状态信息集进行处理，以在降低状态信息集中数据量的同时保留状态信息集中的特征，获得特征状态信息集，根据预设的回报值函数和预先构建的车辆动作集，查找在特征状态信息集的每个状态信息下获得最大回报值的车辆动作，根据特征状态信息集中的状态信息、每个状态信息对应的最大回报值以及每个最大回报值对应的车辆动作，训练预设的极限学习机的网络模型，并根据训练结果，生成车辆自动驾驶的策略模型，从而通过对状态信息的处理、通过采用强化学习得到每个状态信息的最大回报值和最大回报值对应的车辆动作、通过训练极限学习及的网络模型，有效地降低了计算资源的消耗，有效地提高了车辆自动驾驶策略网络模型的泛化能力和生成效率。

附图说明

图1是本发明实施例一提供的用于车辆自动驾驶的策略网络模型的生成方法的实现流程图；

图2是本发明实施例一提供的用于车辆自动驾驶的策略网络模型的结构示例图；

图3是本发明实施例二提供的用于车辆自动驾驶的策略网络模型的生成装置的结构示意图；以及

图4是本发明实施例二提供的用于车辆自动驾驶的策略网络模型的生成装置的优选结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明实施例一提供的用于车辆自动驾驶的策略网络模型的生成方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S101中，将每个试验时刻采集到的车辆状态信息构成状态信息集，对状态信息集进行处理，获得特征状态信息集。

本发明适用于基于赛车仿真模拟平台或赛车模拟器(例如开放式赛车模拟器TORCS，The open racing car simulation)建立的交互平台，在该交互平台上进行无人驾驶汽车的行驶交互试验。在当前的交互试验过程中，通过车辆上预设的多个传感器采集车辆状态信息，车辆状态信息可包括车辆离道路中线的距离、车辆前进方向与道路切向的夹角、车辆前方激光测距仪的距离值和车辆在道路切向上的速度分量。

在本发明实施例中，采集每个实验时刻的车辆状态信息，并将所有的车辆状态信息一起构成状态信息集，为了减少状态信息集中的数据量并保留状态信息集的特征，对状态信息集进行处理，生成特征状态信息集，从而通过对状态信息集的处理有效地降低后续过程的计算量。其中，特征状态信息集可包含具有代表性的状态信息或状态信息的特征。

具体地，可通过预设的聚类算法(例如K-means聚类)将状态信息集划分为若干个簇，并聚类出能够代表每个簇的簇中心点，这些簇中心点的状态信息构成特征状态信息集，此外，还可通过预设的特征提取算法(例如自编码机特征提取算法)提取状态信息集中的特征，由这些特征构成特征状态信息集。

在步骤S102中，根据预设的回报值函数和预先构建的车辆动作集，查找在特征状态信息集的每个状态信息下获得最大回报值的车辆动作。

在本发明实施例中，回报值函数用来计算在某个状态下车辆做出某个动作后获得的立即回报值，车辆动作集中可包括直行、刹车等车辆动作。先对特征状态信息集的每个状态信息对应的回报值序列进行初始化，可初始化为零，每个状态信息的回报值序列包括在该状态信息下每个车辆动作对应的回报值，其中，状态信息s的回报值序列中车辆动作s的回报值可表示为

在本发明实施例中，根据回报值函数和车辆动作集，对特征状态信息集中状态信息的回报值序列进行多次更新，直至所有回报值序列中的值不再变化，最后从所有回报值序列中选取特征状态信息集中每个状态信息的最大回报值以及该最大回报值对应的车辆动作，从而通过强化学习确定了特征状态信息集中每个状态信息最佳的车辆动作。

具体地，在更新回报值序列时，在车辆动作集中遍历可以在特征状态信息集的当前状态信息下执行的车辆动作，执行遍历得到的动作，并通过回报值函数计算执行后的立即回报值，根据该立即回报值和预设的更新公式，即可对在该当前状态信息下遍历到的车辆动作所对应的回报值。其中，回报值函数可表示为：

其中，

为在特征状态信息集的状态信息s下执行遍历到的动作a时的回报值，

为状态信息s的下一状态信息s'的最大回报值，r为在状态信息s下执行遍历到的动作a时的立即回报值，γ为预设参数且0≤γ＜1。

作为示例地，回报值函数的公式可为：

r＝Δdis*cos(α*angle)*sgn(trackPos-threshold)，其中，r为回报值函数计算得到的立即回报值，Δdis为车辆在相邻试验时刻跑过的有效距离，α为预设的权重缩放因子，angle为车辆当前行驶方向与道路切向的夹角，trackPos为车辆离道路中线的距离，threshold为预设阈值，当trackPos大于threshold时，r为无穷小，可表示对车辆太靠近道路边界时的惩罚。另外，回报值函数还可考虑行驶速度、单位耗油量、平稳度等。

在步骤S103中，根据特征状态信息集、特征状态信息集中每个状态信息对应的最大回报值和获得最大回报值的车辆动作，训练预设极限学习机的网络模型。

在本发明实施例中，极限学习机是一种单隐层前馈神经网络学习算法。其中，极限学习机的网络模型可表示为：

其中，g()为隐层节点的激活函数，β_i＝[β_i1,β_i2,...,β_in]^T为连接第i个隐层节点与网络输出层节点的输出权值向量，ω_i＝[ω_1i,ω_2i,...,ω_mi]为连接第i个隐层节点的随机输入权值向量，极限学习机网络模型的输出值为Q_i＝[Q_i1,Q_i2,...,Q_in]^T，Q_j为输出值中的第j列向量，j＝1,2,…,N，N为输出节点的个数，M为隐层节点的个数。

在本发明实施例中，可将特征状态信息集中每个状态信息对应的最大回报值设置为极限学习机网络模型一次训练过程中的输出值，将特征状态信息集中的状态信息和每个状态信息下获得最大回报值的车辆动作最为极限学习机网络模型一次训练过程中的输入值，从而训练得到极限学习机网络模型中隐层节点与网络输出层节点的输出权值向量。可通过进行多次的车辆自动驾驶试验，多次地训练极限学习机网络模型。

在本发明实施例中，极限学习机网络模型的表示方式还可写为矩阵形式Wβ＝Q，当隐层节点的激活函数无限可微时，极限学习机网络模型的输入权值和隐层节点阈值可随机赋值，此时可将矩阵W视为常数，极限学习机的学习过程可等价为求取线性系统Wβ＝Q最小范数的最小二乘解。

在步骤S104中，根据极限学习机的网络模型的训练结果，生成用于车辆自动驾驶的策略网络模型。

在本发明实施例中，图2为策略网络模型的示例，由此可见，极限学习机网络模型中隐层节点与网络输出层节点的输出权值向量，即策略网络模型中隐藏层的权重值，最后得到了状态数据处理、强化学习和极限学习机网络模型构成的策略网络模型。

在本发明实施例中，对采集到的所有状态信息构成的状态信息集进行处理，以降低状态信息集中的数据量并保留状态信息集中的特征，生成特征状态信息集，通过强化学习得到特征状态信息集中每个状态信息的最大回报值和该最大回报值对应的车辆动作，通过特征状态信息集中每个状态信息、每个状态信息的最大回报值、和最大回报值对应的车辆动作，训练极限学习机的网络模型，最后根据训练的到的参数向量，得到车辆自动驾驶的策略网络模型，从而通过对状态信息的处理、通过强化学习和极限学习机的结合，有效地降低了计算资源的消耗，有效地提高了车辆自动驾驶策略网络模型的泛化能力和生成效率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

实施例二：

图3示出了本发明实施例二提供的用于车辆自动驾驶的策略网络模型的生成装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

状态处理模块31，用于将每个试验时刻采集到的车辆状态信息构成状态信息集，对状态信息集进行处理，获得特征状态信息集。

强化学习模块32，用于根据预设的回报值函数和预先构建的车辆动作集，查找在特征状态信息集的每个状态信息下获得最大回报值的车辆动作。

在本发明实施例中，每个状态信息的回报值序列包括在该状态信息下每个车辆动作对应的回报值，根据回报值函数和车辆动作集，对特征状态信息集中状态信息的回报值序列进行多次更新，直至所有回报值序列中的值不再变化，最后从所有回报值序列中选取特征状态信息集中每个状态信息的最大回报值以及该最大回报值对应的车辆动作，从而通过强化学习确定了特征状态信息集中每个状态信息最佳的车辆动作。

其中，

极限学习机训练模块33，用于根据特征状态信息集、特征状态信息集中每个状态信息对应的最大回报值和获得最大回报值的车辆动作，训练极限学习机的网络模型。

在本发明实施例中，极限学习机的网络模型可表示为：

其中，g()为隐层节点的激活函数，β_i＝[β_i1,β_i2,...,β_in]^T为连接第i个隐层节点与网络输出层节点的输出权值向量，ω_i＝[ω_1i,ω_2i,...,ω_mi]为连接第i个隐层节点的随机输入权值向量，极限学习机网络模型的输出值为Q_i＝[Q_i1,Q_i2,...,Q_in]^T，Q_j为输出值中的第j列向量，j＝1,2,...,N，N为输出节点的个数，M为隐层节点的个数。

策略网络生成模块34，用于根据极限学习机的网络模型的训练结果，生成用于车辆自动驾驶的策略网络模型。

在本发明实施例中，极限学习机网络模型中隐层节点与网络输出层节点的输出权值向量，即策略网络模型中隐藏层的权重值，最后得到了状态数据处理、强化学习和极限学习机网络模型构成的策略网络模型。

优选地，如图4所示，状态处理模块31包括：

状态处理子模块411，用于通过预设的聚类算法对状态信息集进行聚类、或通过预设的特征提取算法对状态信息集进行特征提取，以生成特征状态信息集。

优选地，强化学习模块32包括回报值初始化模块421、回报值更新模块422和最大回报值获取模块423，其中：

回报值初始化模块421，用于对特征状态信息集的每个状态信息对应的回报值序列进行初始化，回报值序列包括执行车辆动作集中所有车辆动作对应的回报值；

回报值更新模块422，用于根据回报值函数和车辆动作集，对所有回报值序列进行多次更新，直至所有回报值序列不再变化；以及

最大回报值获取模块423，用于从特征状态信息的每个状态信息对应的回报值序列中获取最大回报值和最大回报值对应的车辆动作。

回报值更新模块422包括动作遍历模块和回报值更新子模块，其中：

动作遍历模块，用于遍历车辆动作集，并根据回报值函数计算在特征状态信息集的状态信息下执行遍历到的车辆动作时的立即回报值；以及

回报值更新子模块，用于根据立即回报值和预设的更新公式，更新在特征状态信息集的状态信息下执行遍历到的车辆动作对应的回报值。

优选地，极限学习机训练模块33包括学习机设置模块431和网络训练模块432，其中：

学习机设置模块431，用于根据特征状态信息集、特征状态信息集中每个状态信息对应的最大回报值和获得最大回报值的车辆动作，设置极限学习机网络模型的输入和输出；以及

网络训练模块432，用于对极限学习机网络模型进行训练，获得极限学习机网络模型的输出权重。

在本发明实施例中，对采集到的所有状态信息构成的状态信息集进行处理，以降低状态信息集中的数据量并保留状态信息集中的特征，生成特征状态信息集，通过强化学习得到特征状态信息集中每个状态信息的最大回报值和该最大回报值对应的车辆动作，通过特征状态信息集中每个状态信息、每个状态信息的最大回报值、和最大回报值对应的车辆动作，训练极限学习机的网络模型，最后根据训练的到的参数向量，得到车辆自动驾驶的策略网络模型，从而通过对状态信息的处理、通过强化学习和极限学习机的结合有效地降低了计算资源的消耗，有效地提高了车辆自动驾驶策略网络模型的泛化能力和生成效率。

在本发明实施例中，用于车辆自动驾驶的策略网络模型的装置的各模块可由相应的硬件或软件模块实现，各模块可以为独立的软、硬件模块，也可以集成为一个软、硬件模块，在此不用以限制本发明。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于车辆自动驾驶的策略网络模型的生成方法，其特征在于，所述方法包括下述步骤：

将每个试验时刻采集到的车辆状态信息构成状态信息集，对所述状态信息集进行处理，获得特征状态信息集；所述车辆状态信息包括：车辆离道路中线的距离、车辆前进方向与道路切向的夹角、车辆前方激光测距仪的距离值和车辆在道路切向方向上的速度分量；

根据所述特征状态信息集、所述特征状态信息集中每个状态信息对应的最大回报值和所述获得最大回报值的车辆动作，训练预设极限学习机的网络模型；

根据所述极限学习机的网络模型的训练结果，生成用于所述车辆自动驾驶的策略网络模型；

将每个试验时刻采集到的车辆状态信息构成状态信息集，对所述状态信息集进行处理，获得特征状态信息集的步骤，包括：

通过预设的聚类算法对所述状态信息集进行聚类、或通过预设的特征提取算法对所述状态信息集进行特征提取，以生成所述特征状态信息集；

所述预设的回报值函数包括：

r＝Δdis*cos(α*angle)*sgn(trackPos-threshold)，其中，r为回报值函数计算得到的立即回报值，Δdis为车辆在相邻试验时刻跑过的有效距离，α为预设的权重缩放因子，angle为车辆当前行驶方向与道路切向的夹角，trackPos为车辆离道路中线的距离，threshold为预设阈值；

当trackPos大于threshold时，r为无穷小，表示对车辆太靠近道路边界时的惩罚。

2.如权利要求1所述的方法，其特征在于，根据预设的回报值函数和预先构建的车辆动作集，查找在所述特征状态信息集的每个状态信息下获得最大回报值的车辆动作的步骤，包括：

对所述特征状态信息集的每个状态信息对应的回报值序列进行初始化，所述回报值序列包括执行所述车辆动作集中所有车辆动作对应的回报值；

根据所述回报值函数和所述车辆动作集，对所有回报值序列进行多次更新，直至所述所有回报值序列不再变化；

从所述特征状态信息的每个状态信息对应的回报值序列中获取最大回报值和所述最大回报值对应的车辆动作。

3.如权利要求2所述的方法，其特征在于，根据所述回报值函数和所述车辆动作集，对所述所有回报值序列进行多次更新，直至所述所有回报值序列不再变化的步骤，包括：

遍历所述车辆动作集，并根据所述回报值函数计算在所述特征状态信息集的状态信息下执行遍历到的车辆动作时的立即回报值；

根据所述立即回报值和预设的更新公式，更新在所述特征状态信息集的状态信息下执行所述遍历到的车辆动作对应的回报值，所述更新公式为：