CN107229973B - 一种用于车辆自动驾驶的策略网络模型的生成方法及装置 - Google Patents

一种用于车辆自动驾驶的策略网络模型的生成方法及装置 Download PDF

Info

Publication number
CN107229973B
CN107229973B CN201710332994.0A CN201710332994A CN107229973B CN 107229973 B CN107229973 B CN 107229973B CN 201710332994 A CN201710332994 A CN 201710332994A CN 107229973 B CN107229973 B CN 107229973B
Authority
CN
China
Prior art keywords
state information
vehicle
return value
information set
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710332994.0A
Other languages
English (en)
Other versions
CN107229973A (zh
Inventor
李慧云
王峥
刘玢玢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201710332994.0A priority Critical patent/CN107229973B/zh
Publication of CN107229973A publication Critical patent/CN107229973A/zh
Application granted granted Critical
Publication of CN107229973B publication Critical patent/CN107229973B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明适用计算机技术领域,提供了一种用于车辆自动驾驶的策略网络模型的生成方法及装置,所述方法包括:将每个试验时刻采集到的车辆状态信息构成状态信息集,对状态信息集进行处理,获得特征状态信息集;根据预设的回报值函数和预先构建的车辆动作集,查找在特征状态信息集的每个状态信息下获得最大回报值的车辆动作;根据特征状态信息集、特征状态信息集中每个状态信息对应的最大回报值和获得最大回报值的车辆动作,训练极限学习机的网络模型;根据极限学习机的网络模型的训练结果,生成用于车辆自动驾驶的策略网络模型,从而有效地降低了计算资源的消耗,有效地提高了车辆自动驾驶策略网络模型的生成效率。

Description

一种用于车辆自动驾驶的策略网络模型的生成方法及装置
技术领域
本发明属于计算机技术领域,尤其涉及一种用于车辆自动驾驶的策略网络模型的生成方法及装置。
背景技术
随着经济的发展和城镇化的推进,全球汽车保有量和道路里程逐步增加,导致诸如交通拥堵、事故、污染、土地资源紧缺等一系列传统汽车无法妥善解决的问题日益凸显。无人驾驶汽车技术被视为这些问题的有效解决方案,其发展被受瞩目,美国电子和电子工程师协会(IEEE)预测,至2040年自动驾驶车辆数目所占比例将达到75%。
无人驾驶汽车,即在没有司机的情况下通过自身的辅助驾驶系统在道路上行驶,具备环境感知能力。辅助驾驶系统通过传感器获取的环境信息做出控制决策,已出现了多种用于辅助驾驶系统的传感器和产品,例如:激光雷达、机器视觉、自适应巡航、车辆接近通报装置、夜视辅助、自适应前照明系统等。
目前,辅助驾驶系统的控制方法主要为基于规则的控制决策,即根据已知的驾驶经验构建对车辆环境信息输出控制决策的专家规则系统,专家规则系统这类浅层学习算法可看作从被标记的数据之间寻找规律的过程,当规则很难被抽象成公式或简单逻辑时,浅层学习就无法奏效,然而,自动驾驶场景类别多样、路况复杂,很难用有限的规则定义清楚。
随着深度强化学习技术的快速发展,一些研究机构提出“端对端”式的自动驾驶算法,通过深度网络构建辅助驾驶系统中的控制决策模型。这类方法不需要对车辆的状态进行基于规则的识别。然而,对车辆自动驾驶进行深度学习要求强大的计算资源,例如需要数百瓦的图形处理器(GPU)等长时间(数天到数周)的训练,才能得到一个决策网络,如果外界条件改变,则需要重新训练。
发明内容
本发明的目的在于提供一种用于车辆自动驾驶的策略网络模型的生成方法及装置,旨在解决现有技术中策略网络模型的生成效率较低的问题。
一方面,本发明提供了一种用于车辆自动驾驶的策略网络模型的生成方法,所述方法包括下述步骤:
将每个试验时刻采集到的车辆状态信息构成状态信息集,对所述状态信息集进行处理,获得特征状态信息集;
根据预设的回报值函数和预先构建的车辆动作集,查找在所述特征状态信息集的每个状态信息下获得最大回报值的车辆动作;
根据所述特征状态信息集、所述特征状态信息集中每个状态信息对应的最大回报值和所述获得最大回报值的车辆动作,训练极限学习机的网络模型;
根据所述极限学习机的网络模型的训练结果,生成用于所述车辆自动驾驶的策略网络模型。
另一方面,本发明提供了一种用于车辆自动驾驶的策略网络模型的生成装置,所述装置包括:
状态处理模块,用于将每个试验时刻采集到的车辆状态信息构成状态信息集,对所述状态信息集进行处理,获得特征状态信息集;
强化学习模块,用于根据预设的回报值函数和预先构建的车辆动作集,查找在所述特征状态信息集的每个状态信息下获得最大回报值的车辆动作;
极限学习机训练模块,用于根据所述特征状态信息集、所述特征状态信息集中每个状态信息对应的最大回报值和所述获得最大回报值的车辆动作,训练极限学习机的网络模型;以及
策略网络生成模块,用于根据所述极限学习机的网络模型的训练结果,生成用于所述车辆自动驾驶的策略网络模型。
本发明将每个试验时刻采集到的车辆状态信息构成状态信息集,对状态信息集进行处理,以在降低状态信息集中数据量的同时保留状态信息集中的特征,获得特征状态信息集,根据预设的回报值函数和预先构建的车辆动作集,查找在特征状态信息集的每个状态信息下获得最大回报值的车辆动作,根据特征状态信息集中的状态信息、每个状态信息对应的最大回报值以及每个最大回报值对应的车辆动作,训练预设的极限学习机的网络模型,并根据训练结果,生成车辆自动驾驶的策略模型,从而通过对状态信息的处理、通过采用强化学习得到每个状态信息的最大回报值和最大回报值对应的车辆动作、通过训练极限学习及的网络模型,有效地降低了计算资源的消耗,有效地提高了车辆自动驾驶策略网络模型的泛化能力和生成效率。
附图说明
图1是本发明实施例一提供的用于车辆自动驾驶的策略网络模型的生成方法的实现流程图;
图2是本发明实施例一提供的用于车辆自动驾驶的策略网络模型的结构示例图;
图3是本发明实施例二提供的用于车辆自动驾驶的策略网络模型的生成装置的结构示意图;以及
图4是本发明实施例二提供的用于车辆自动驾驶的策略网络模型的生成装置的优选结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明实施例一提供的用于车辆自动驾驶的策略网络模型的生成方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S101中,将每个试验时刻采集到的车辆状态信息构成状态信息集,对状态信息集进行处理,获得特征状态信息集。
本发明适用于基于赛车仿真模拟平台或赛车模拟器(例如开放式赛车模拟器TORCS,The open racing car simulation)建立的交互平台,在该交互平台上进行无人驾驶汽车的行驶交互试验。在当前的交互试验过程中,通过车辆上预设的多个传感器采集车辆状态信息,车辆状态信息可包括车辆离道路中线的距离、车辆前进方向与道路切向的夹角、车辆前方激光测距仪的距离值和车辆在道路切向上的速度分量。
在本发明实施例中,采集每个实验时刻的车辆状态信息,并将所有的车辆状态信息一起构成状态信息集,为了减少状态信息集中的数据量并保留状态信息集的特征,对状态信息集进行处理,生成特征状态信息集,从而通过对状态信息集的处理有效地降低后续过程的计算量。其中,特征状态信息集可包含具有代表性的状态信息或状态信息的特征。
具体地,可通过预设的聚类算法(例如K-means聚类)将状态信息集划分为若干个簇,并聚类出能够代表每个簇的簇中心点,这些簇中心点的状态信息构成特征状态信息集,此外,还可通过预设的特征提取算法(例如自编码机特征提取算法)提取状态信息集中的特征,由这些特征构成特征状态信息集。
在步骤S102中,根据预设的回报值函数和预先构建的车辆动作集,查找在特征状态信息集的每个状态信息下获得最大回报值的车辆动作。
在本发明实施例中,回报值函数用来计算在某个状态下车辆做出某个动作后获得的立即回报值,车辆动作集中可包括直行、刹车等车辆动作。先对特征状态信息集的每个状态信息对应的回报值序列进行初始化,可初始化为零,每个状态信息的回报值序列包括在该状态信息下每个车辆动作对应的回报值,其中,状态信息s的回报值序列中车辆动作s的回报值可表示为
Figure BDA0001293023420000051
在本发明实施例中,根据回报值函数和车辆动作集,对特征状态信息集中状态信息的回报值序列进行多次更新,直至所有回报值序列中的值不再变化,最后从所有回报值序列中选取特征状态信息集中每个状态信息的最大回报值以及该最大回报值对应的车辆动作,从而通过强化学习确定了特征状态信息集中每个状态信息最佳的车辆动作。
具体地,在更新回报值序列时,在车辆动作集中遍历可以在特征状态信息集的当前状态信息下执行的车辆动作,执行遍历得到的动作,并通过回报值函数计算执行后的立即回报值,根据该立即回报值和预设的更新公式,即可对在该当前状态信息下遍历到的车辆动作所对应的回报值。其中,回报值函数可表示为:
Figure BDA0001293023420000052
其中,
Figure BDA0001293023420000053
为在特征状态信息集的状态信息s下执行遍历到的动作a时的回报值,
Figure BDA0001293023420000054
为状态信息s的下一状态信息s'的最大回报值,r为在状态信息s下执行遍历到的动作a时的立即回报值,γ为预设参数且0≤γ<1。
作为示例地,回报值函数的公式可为:
r=Δdis*cos(α*angle)*sgn(trackPos-threshold),其中,r为回报值函数计算得到的立即回报值,Δdis为车辆在相邻试验时刻跑过的有效距离,α为预设的权重缩放因子,angle为车辆当前行驶方向与道路切向的夹角,trackPos为车辆离道路中线的距离,threshold为预设阈值,当trackPos大于threshold时,r为无穷小,可表示对车辆太靠近道路边界时的惩罚。另外,回报值函数还可考虑行驶速度、单位耗油量、平稳度等。
在步骤S103中,根据特征状态信息集、特征状态信息集中每个状态信息对应的最大回报值和获得最大回报值的车辆动作,训练预设极限学习机的网络模型。
在本发明实施例中,极限学习机是一种单隐层前馈神经网络学习算法。其中,极限学习机的网络模型可表示为:
Figure BDA0001293023420000061
其中,g()为隐层节点的激活函数,βi=[βi1i2,...,βin]T为连接第i个隐层节点与网络输出层节点的输出权值向量,ωi=[ω1i2i,...,ωmi]为连接第i个隐层节点的随机输入权值向量,极限学习机网络模型的输出值为Qi=[Qi1,Qi2,...,Qin]T,Qj为输出值中的第j列向量,j=1,2,…,N,N为输出节点的个数,M为隐层节点的个数。
在本发明实施例中,可将特征状态信息集中每个状态信息对应的最大回报值设置为极限学习机网络模型一次训练过程中的输出值,将特征状态信息集中的状态信息和每个状态信息下获得最大回报值的车辆动作最为极限学习机网络模型一次训练过程中的输入值,从而训练得到极限学习机网络模型中隐层节点与网络输出层节点的输出权值向量。可通过进行多次的车辆自动驾驶试验,多次地训练极限学习机网络模型。
在本发明实施例中,极限学习机网络模型的表示方式还可写为矩阵形式Wβ=Q,当隐层节点的激活函数无限可微时,极限学习机网络模型的输入权值和隐层节点阈值可随机赋值,此时可将矩阵W视为常数,极限学习机的学习过程可等价为求取线性系统Wβ=Q最小范数的最小二乘解。
在步骤S104中,根据极限学习机的网络模型的训练结果,生成用于车辆自动驾驶的策略网络模型。
在本发明实施例中,图2为策略网络模型的示例,由此可见,极限学习机网络模型中隐层节点与网络输出层节点的输出权值向量,即策略网络模型中隐藏层的权重值,最后得到了状态数据处理、强化学习和极限学习机网络模型构成的策略网络模型。
在本发明实施例中,对采集到的所有状态信息构成的状态信息集进行处理,以降低状态信息集中的数据量并保留状态信息集中的特征,生成特征状态信息集,通过强化学习得到特征状态信息集中每个状态信息的最大回报值和该最大回报值对应的车辆动作,通过特征状态信息集中每个状态信息、每个状态信息的最大回报值、和最大回报值对应的车辆动作,训练极限学习机的网络模型,最后根据训练的到的参数向量,得到车辆自动驾驶的策略网络模型,从而通过对状态信息的处理、通过强化学习和极限学习机的结合,有效地降低了计算资源的消耗,有效地提高了车辆自动驾驶策略网络模型的泛化能力和生成效率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
实施例二:
图3示出了本发明实施例二提供的用于车辆自动驾驶的策略网络模型的生成装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
状态处理模块31,用于将每个试验时刻采集到的车辆状态信息构成状态信息集,对状态信息集进行处理,获得特征状态信息集。
在本发明实施例中,采集每个实验时刻的车辆状态信息,并将所有的车辆状态信息一起构成状态信息集,为了减少状态信息集中的数据量并保留状态信息集的特征,对状态信息集进行处理,生成特征状态信息集,从而通过对状态信息集的处理有效地降低后续过程的计算量。其中,特征状态信息集可包含具有代表性的状态信息或状态信息的特征。
强化学习模块32,用于根据预设的回报值函数和预先构建的车辆动作集,查找在特征状态信息集的每个状态信息下获得最大回报值的车辆动作。
在本发明实施例中,每个状态信息的回报值序列包括在该状态信息下每个车辆动作对应的回报值,根据回报值函数和车辆动作集,对特征状态信息集中状态信息的回报值序列进行多次更新,直至所有回报值序列中的值不再变化,最后从所有回报值序列中选取特征状态信息集中每个状态信息的最大回报值以及该最大回报值对应的车辆动作,从而通过强化学习确定了特征状态信息集中每个状态信息最佳的车辆动作。
具体地,在更新回报值序列时,在车辆动作集中遍历可以在特征状态信息集的当前状态信息下执行的车辆动作,执行遍历得到的动作,并通过回报值函数计算执行后的立即回报值,根据该立即回报值和预设的更新公式,即可对在该当前状态信息下遍历到的车辆动作所对应的回报值。其中,回报值函数可表示为:
Figure BDA0001293023420000081
其中,
Figure BDA0001293023420000082
为在特征状态信息集的状态信息s下执行遍历到的动作a时的回报值,
Figure BDA0001293023420000083
为状态信息s的下一状态信息s'的最大回报值,r为在状态信息s下执行遍历到的动作a时的立即回报值,γ为预设参数且0≤γ<1。
极限学习机训练模块33,用于根据特征状态信息集、特征状态信息集中每个状态信息对应的最大回报值和获得最大回报值的车辆动作,训练极限学习机的网络模型。
在本发明实施例中,极限学习机的网络模型可表示为:
Figure BDA0001293023420000084
其中,g()为隐层节点的激活函数,βi=[βi1i2,...,βin]T为连接第i个隐层节点与网络输出层节点的输出权值向量,ωi=[ω1i2i,...,ωmi]为连接第i个隐层节点的随机输入权值向量,极限学习机网络模型的输出值为Qi=[Qi1,Qi2,...,Qin]T,Qj为输出值中的第j列向量,j=1,2,...,N,N为输出节点的个数,M为隐层节点的个数。
在本发明实施例中,可将特征状态信息集中每个状态信息对应的最大回报值设置为极限学习机网络模型一次训练过程中的输出值,将特征状态信息集中的状态信息和每个状态信息下获得最大回报值的车辆动作最为极限学习机网络模型一次训练过程中的输入值,从而训练得到极限学习机网络模型中隐层节点与网络输出层节点的输出权值向量。可通过进行多次的车辆自动驾驶试验,多次地训练极限学习机网络模型。
在本发明实施例中,极限学习机网络模型的表示方式还可写为矩阵形式Wβ=Q,当隐层节点的激活函数无限可微时,极限学习机网络模型的输入权值和隐层节点阈值可随机赋值,此时可将矩阵W视为常数,极限学习机的学习过程可等价为求取线性系统Wβ=Q最小范数的最小二乘解。
策略网络生成模块34,用于根据极限学习机的网络模型的训练结果,生成用于车辆自动驾驶的策略网络模型。
在本发明实施例中,极限学习机网络模型中隐层节点与网络输出层节点的输出权值向量,即策略网络模型中隐藏层的权重值,最后得到了状态数据处理、强化学习和极限学习机网络模型构成的策略网络模型。
优选地,如图4所示,状态处理模块31包括:
状态处理子模块411,用于通过预设的聚类算法对状态信息集进行聚类、或通过预设的特征提取算法对状态信息集进行特征提取,以生成特征状态信息集。
优选地,强化学习模块32包括回报值初始化模块421、回报值更新模块422和最大回报值获取模块423,其中:
回报值初始化模块421,用于对特征状态信息集的每个状态信息对应的回报值序列进行初始化,回报值序列包括执行车辆动作集中所有车辆动作对应的回报值;
回报值更新模块422,用于根据回报值函数和车辆动作集,对所有回报值序列进行多次更新,直至所有回报值序列不再变化;以及
最大回报值获取模块423,用于从特征状态信息的每个状态信息对应的回报值序列中获取最大回报值和最大回报值对应的车辆动作。
回报值更新模块422包括动作遍历模块和回报值更新子模块,其中:
动作遍历模块,用于遍历车辆动作集,并根据回报值函数计算在特征状态信息集的状态信息下执行遍历到的车辆动作时的立即回报值;以及
回报值更新子模块,用于根据立即回报值和预设的更新公式,更新在特征状态信息集的状态信息下执行遍历到的车辆动作对应的回报值。
优选地,极限学习机训练模块33包括学习机设置模块431和网络训练模块432,其中:
学习机设置模块431,用于根据特征状态信息集、特征状态信息集中每个状态信息对应的最大回报值和获得最大回报值的车辆动作,设置极限学习机网络模型的输入和输出;以及
网络训练模块432,用于对极限学习机网络模型进行训练,获得极限学习机网络模型的输出权重。
在本发明实施例中,对采集到的所有状态信息构成的状态信息集进行处理,以降低状态信息集中的数据量并保留状态信息集中的特征,生成特征状态信息集,通过强化学习得到特征状态信息集中每个状态信息的最大回报值和该最大回报值对应的车辆动作,通过特征状态信息集中每个状态信息、每个状态信息的最大回报值、和最大回报值对应的车辆动作,训练极限学习机的网络模型,最后根据训练的到的参数向量,得到车辆自动驾驶的策略网络模型,从而通过对状态信息的处理、通过强化学习和极限学习机的结合有效地降低了计算资源的消耗,有效地提高了车辆自动驾驶策略网络模型的泛化能力和生成效率。
在本发明实施例中,用于车辆自动驾驶的策略网络模型的装置的各模块可由相应的硬件或软件模块实现,各模块可以为独立的软、硬件模块,也可以集成为一个软、硬件模块,在此不用以限制本发明。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种用于车辆自动驾驶的策略网络模型的生成方法,其特征在于,所述方法包括下述步骤:
将每个试验时刻采集到的车辆状态信息构成状态信息集,对所述状态信息集进行处理,获得特征状态信息集;所述车辆状态信息包括:车辆离道路中线的距离、车辆前进方向与道路切向的夹角、车辆前方激光测距仪的距离值和车辆在道路切向方向上的速度分量;
根据预设的回报值函数和预先构建的车辆动作集,查找在所述特征状态信息集的每个状态信息下获得最大回报值的车辆动作;
根据所述特征状态信息集、所述特征状态信息集中每个状态信息对应的最大回报值和所述获得最大回报值的车辆动作,训练预设极限学习机的网络模型;
根据所述极限学习机的网络模型的训练结果,生成用于所述车辆自动驾驶的策略网络模型;
将每个试验时刻采集到的车辆状态信息构成状态信息集,对所述状态信息集进行处理,获得特征状态信息集的步骤,包括:
通过预设的聚类算法对所述状态信息集进行聚类、或通过预设的特征提取算法对所述状态信息集进行特征提取,以生成所述特征状态信息集;
所述预设的回报值函数包括:
r=Δdis*cos(α*angle)*sgn(trackPos-threshold),其中,r为回报值函数计算得到的立即回报值,Δdis为车辆在相邻试验时刻跑过的有效距离,α为预设的权重缩放因子,angle为车辆当前行驶方向与道路切向的夹角,trackPos为车辆离道路中线的距离,threshold为预设阈值;
当trackPos大于threshold时,r为无穷小,表示对车辆太靠近道路边界时的惩罚。
2.如权利要求1所述的方法,其特征在于,根据预设的回报值函数和预先构建的车辆动作集,查找在所述特征状态信息集的每个状态信息下获得最大回报值的车辆动作的步骤,包括:
对所述特征状态信息集的每个状态信息对应的回报值序列进行初始化,所述回报值序列包括执行所述车辆动作集中所有车辆动作对应的回报值;
根据所述回报值函数和所述车辆动作集,对所有回报值序列进行多次更新,直至所述所有回报值序列不再变化;
从所述特征状态信息的每个状态信息对应的回报值序列中获取最大回报值和所述最大回报值对应的车辆动作。
3.如权利要求2所述的方法,其特征在于,根据所述回报值函数和所述车辆动作集,对所述所有回报值序列进行多次更新,直至所述所有回报值序列不再变化的步骤,包括:
遍历所述车辆动作集,并根据所述回报值函数计算在所述特征状态信息集的状态信息下执行遍历到的车辆动作时的立即回报值;
根据所述立即回报值和预设的更新公式,更新在所述特征状态信息集的状态信息下执行所述遍历到的车辆动作对应的回报值,所述更新公式为:
Figure FDA0003306623380000021
其中,
Figure FDA0003306623380000031
为在所述特征状态信息集的状态信息s下执行所述遍历到的动作a时的回报值,
Figure FDA0003306623380000032
为所述状态信息s的下一状态信息s'的最大回报值,r为在所述状态信息s下执行所述遍历到的动作a时的立即回报值,γ为预设参数且0≤γ<1。
4.如权利要求1所述的方法,其特征在于,根据所述特征状态信息集、所述特征状态信息集中每个状态信息对应的最大回报值和所述获得最大回报值的车辆动作,训练预设极限学习机的网络模型的步骤,包括:
根据所述特征状态信息集、所述特征状态信息集中每个状态信息对应的最大回报值和所述获得最大回报值的车辆动作,设置所述极限学习机网络模型的输入和输出;
对所述极限学习机网络模型进行训练,获得所述极限学习机网络模型的输出权重。
5.一种用于车辆自动驾驶的策略网络模型的生成装置,其特征在于,所述装置包括:
状态处理模块,用于将每个试验时刻采集到的车辆状态信息构成状态信息集,对所述状态信息集进行处理,获得特征状态信息集;所述车辆状态信息包括:车辆离道路中线的距离、车辆前进方向与道路切向的夹角、车辆前方激光测距仪的距离值和车辆在道路切向方向上的速度分量;
强化学习模块,用于根据预设的回报值函数和预先构建的车辆动作集,查找在所述特征状态信息集的每个状态信息下获得最大回报值的车辆动作;
极限学习机训练模块,用于根据所述特征状态信息集、所述特征状态信息集中每个状态信息对应的最大回报值和所述获得最大回报值的车辆动作,训练极限学习机的网络模型;以及
策略网络生成模块,用于根据所述极限学习机的网络模型的训练结果,生成用于所述车辆自动驾驶的策略网络模型;
所述状态处理模块包括:
状态处理子模块,用于通过预设的聚类算法对所述状态信息集进行聚类、或通过预设的特征提取算法对所述状态信息集进行特征提取,以生成所述特征状态信息集;
所述预设的回报值函数包括:
r=Δdis*cos(α*angle)*sgn(trackPos-threshold),其中,r为回报值函数计算得到的立即回报值,Δdis为车辆在相邻试验时刻跑过的有效距离,α为预设的权重缩放因子,angle为车辆当前行驶方向与道路切向的夹角,trackPos为车辆离道路中线的距离,threshold为预设阈值;
当trackPos大于threshold时,r为无穷小,表示对车辆太靠近道路边界时的惩罚。
6.如权利要求5所述的装置,其特征在于,所述强化学习模块包括:
回报值初始化模块,用于对所述特征状态信息集的每个状态信息对应的回报值序列进行初始化,所述回报值序列包括执行所述车辆动作集中所有车辆动作对应的回报值;
回报值更新模块,用于根据所述回报值函数和所述车辆动作集,对所有回报值序列进行多次更新,直至所述所有回报值序列不再变化;以及
最大回报值获取模块,用于从所述特征状态信息的每个状态信息对应的回报值序列中获取最大回报值和所述最大回报值对应的车辆动作。
7.如权利要求6所述的装置,其特征在于,所述回报值更新模块包括:
动作遍历模块,用于遍历所述车辆动作集,并根据所述回报值函数计算在所述特征状态信息集的状态信息下执行遍历到的车辆动作时的立即回报值;以及
回报值更新子模块,用于根据所述立即回报值和预设的更新公式,更新在所述特征状态信息集的状态信息下执行所述遍历到的车辆动作对应的回报值,所述更新公式为:
Figure FDA0003306623380000051
其中,
Figure FDA0003306623380000052
为在所述特征状态信息集的状态信息s下执行所述遍历到的动作a时的回报值,
Figure FDA0003306623380000053
为所述状态信息s的下一状态信息s'的最大回报值,r为在所述状态信息s下执行所述遍历到的动作a时的立即回报值,γ为预设参数且0≤γ<1。
8.如权利要求5所述的装置,其特征在于,所述极限学习机训练模块包括:
学习机设置模块,用于根据所述特征状态信息集、所述特征状态信息集中每个状态信息对应的最大回报值和所述获得最大回报值的车辆动作,设置所述极限学习机网络模型的输入和输出;以及
网络训练模块,用于对所述极限学习机网络模型进行训练,获得所述极限学习机网络模型的输出权重。
CN201710332994.0A 2017-05-12 2017-05-12 一种用于车辆自动驾驶的策略网络模型的生成方法及装置 Active CN107229973B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710332994.0A CN107229973B (zh) 2017-05-12 2017-05-12 一种用于车辆自动驾驶的策略网络模型的生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710332994.0A CN107229973B (zh) 2017-05-12 2017-05-12 一种用于车辆自动驾驶的策略网络模型的生成方法及装置

Publications (2)

Publication Number Publication Date
CN107229973A CN107229973A (zh) 2017-10-03
CN107229973B true CN107229973B (zh) 2021-11-19

Family

ID=59933240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710332994.0A Active CN107229973B (zh) 2017-05-12 2017-05-12 一种用于车辆自动驾驶的策略网络模型的生成方法及装置

Country Status (1)

Country Link
CN (1) CN107229973B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018205245A1 (zh) * 2017-05-12 2018-11-15 中国科学院深圳先进技术研究院 一种用于车辆自动驾驶的策略网络模型的生成方法及装置
CN107544516A (zh) * 2017-10-11 2018-01-05 苏州大学 基于相对熵深度逆强化学习的自动驾驶系统及方法
CN108009587B (zh) * 2017-12-01 2021-04-16 驭势科技(北京)有限公司 一种基于强化学习和规则确定驾驶策略的方法与设备
CN107862346B (zh) * 2017-12-01 2020-06-30 驭势科技(北京)有限公司 一种进行驾驶策略模型训练的方法与设备
CN109901446B (zh) * 2017-12-08 2020-07-07 广州汽车集团股份有限公司 路口通行控制方法、装置及系统
US11688160B2 (en) * 2018-01-17 2023-06-27 Huawei Technologies Co., Ltd. Method of generating training data for training a neural network, method of training a neural network and using neural network for autonomous operations
CN108288094B (zh) * 2018-01-31 2021-06-29 清华大学 基于环境状态预测的深度强化学习方法及装置
WO2019218263A1 (zh) * 2018-05-16 2019-11-21 深圳大学 基于极限学习机的极限ts模糊推理方法及系统
CN108635861B (zh) * 2018-05-18 2022-04-22 腾讯科技(深圳)有限公司 控制应用中车辆的方法、装置、设备及存储介质
CN108944940B (zh) * 2018-06-25 2020-05-19 大连大学 基于神经网络的驾驶员行为建模方法
CN108920805B (zh) * 2018-06-25 2022-04-05 大连大学 具有状态特征提取功能的驾驶员行为建模系统
CN108791302B (zh) * 2018-06-25 2020-05-19 大连大学 驾驶员行为建模系统
CN108791308B (zh) * 2018-06-25 2020-05-19 大连大学 基于驾驶环境构建驾驶策略的系统
CN108891421B (zh) * 2018-06-25 2020-05-19 大连大学 一种构建驾驶策略的方法
CN108819948B (zh) * 2018-06-25 2020-05-19 大连大学 基于逆向强化学习的驾驶员行为建模方法
US20200033869A1 (en) * 2018-07-27 2020-01-30 GM Global Technology Operations LLC Systems, methods and controllers that implement autonomous driver agents and a policy server for serving policies to autonomous driver agents for controlling an autonomous vehicle
CN109543225B (zh) * 2018-10-19 2022-12-16 东软集团股份有限公司 车辆的控制方案生成方法、装置、存储介质和电子设备
CN109901572B (zh) * 2018-12-13 2022-06-28 华为技术有限公司 自动驾驶方法、训练方法及相关装置
US20210081843A1 (en) * 2019-09-17 2021-03-18 Seyed Ershad BANIJAMALI Methods and systems for observation prediction in autonomous vehicles
CN111123957B (zh) * 2020-03-31 2020-09-04 北京三快在线科技有限公司 一种轨迹规划的方法及装置
CN113837211A (zh) * 2020-06-23 2021-12-24 华为技术有限公司 一种驾驶决策方法及装置
CN113609102B (zh) * 2021-08-11 2024-03-19 佛山仙湖实验室 一种混合驱动矿用卡车的能量管理数据库的构建方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130325202A1 (en) * 2012-06-01 2013-12-05 GM Global Technology Operations LLC Neuro-cognitive driver state processing
JP6358197B2 (ja) * 2015-08-31 2018-07-18 マツダ株式会社 運転支援制御装置
CN105700526B (zh) * 2016-01-13 2018-07-27 华北理工大学 具有自主学习能力的在线序列极限学习机方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Simulated car racing championship: Competition software manual;Simulated car racing championship: Competition software manual;《arXiv》;20130429;论文第1、7节 *

Also Published As

Publication number Publication date
CN107229973A (zh) 2017-10-03

Similar Documents

Publication Publication Date Title
CN107229973B (zh) 一种用于车辆自动驾驶的策略网络模型的生成方法及装置
US11899411B2 (en) Hybrid reinforcement learning for autonomous driving
CN107169567B (zh) 一种用于车辆自动驾驶的决策网络模型的生成方法及装置
CN106874597B (zh) 一种应用于自动驾驶车辆的高速公路超车行为决策方法
CN112099496B (zh) 一种自动驾驶训练方法、装置、设备及介质
Liang et al. Cirl: Controllable imitative reinforcement learning for vision-based self-driving
CN110796856B (zh) 车辆变道意图预测方法及变道意图预测网络的训练方法
CN112133089B (zh) 一种基于周围环境与行为意图的车辆轨迹预测方法、系统及装置
CN110949398B (zh) 一种车辆编队行驶中头车驾驶员异常驾驶行为检测方法
Min et al. Deep Q learning based high level driving policy determination
WO2021178909A1 (en) Learning point cloud augmentation policies
CN114358128A (zh) 一种训练端到端的自动驾驶策略的方法
Yu et al. Autonomous overtaking decision making of driverless bus based on deep Q-learning method
US11100372B2 (en) Training deep neural networks with synthetic images
US11560146B2 (en) Interpreting data of reinforcement learning agent controller
Gao et al. Discretionary cut-in driving behavior risk assessment based on naturalistic driving data
JP7350188B2 (ja) 運転支援装置、学習装置、運転支援方法、運転支援プログラム、学習済モデルの生成方法、学習済モデル生成プログラム
CN114119625A (zh) 点云数据的分割与分类
WO2018205245A1 (zh) 一种用于车辆自动驾驶的策略网络模型的生成方法及装置
CN114926823B (zh) 基于wgcn的车辆驾驶行为预测方法
US20220188621A1 (en) Generative domain adaptation in a neural network
Zhang et al. Spatial attention for autonomous decision-making in highway scene
CN116168210A (zh) 用于神经网络的对抗鲁棒性的特征的选择性剔除
Akca et al. eTS fuzzy driver model for simultaneous longitudinal and lateral vehicle control
Ren et al. Intelligent path planning and obstacle avoidance algorithms for autonomous vehicles based on enhanced rrt algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant