CN113449823A - 自动驾驶模型训练方法及数据处理设备 - Google Patents

自动驾驶模型训练方法及数据处理设备 Download PDF

Info

Publication number
CN113449823A
CN113449823A CN202111017730.9A CN202111017730A CN113449823A CN 113449823 A CN113449823 A CN 113449823A CN 202111017730 A CN202111017730 A CN 202111017730A CN 113449823 A CN113449823 A CN 113449823A
Authority
CN
China
Prior art keywords
action
network
model
data
automatic driving
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111017730.9A
Other languages
English (en)
Other versions
CN113449823B (zh
Inventor
沈庆阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Deep Blue Thinking Information Technology Co ltd
Original Assignee
Chengdu Deep Blue Thinking Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Deep Blue Thinking Information Technology Co ltd filed Critical Chengdu Deep Blue Thinking Information Technology Co ltd
Priority to CN202111017730.9A priority Critical patent/CN113449823B/zh
Publication of CN113449823A publication Critical patent/CN113449823A/zh
Application granted granted Critical
Publication of CN113449823B publication Critical patent/CN113449823B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C5/00Registering or indicating the working of vehicles
    • G07C5/08Registering or indicating performance data other than driving, working, idle, or waiting time, with or without registering driving, working, idle or waiting time
    • G07C5/0808Diagnosing performance data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供的自动驾驶模型训练方法及数据处理设备,通过由多个学习模块中的第二自动驾驶模型并行地进行探索学习获得经验数据,然后将经过筛选后的经验数据存储至共享的目标回放缓存,多个第二自动驾驶模型又根据共享的目标回放缓存中的经验数据及第一自动驾驶模型的网络参数更新自身的网络参数继续进行探索学习。并且在满足一定更新条件时,结合各第二自动驾驶模型的网络参数对第一自动驾驶模型进行更新。如此,在整个训练过程中,由多个并行的第二自动驾驶模型进行探索学习并进行经验数据共享,提高了训练的效率,并且通过对共享经验数据的筛选以及控制更新所述第一自动驾驶模型网络参数的参数更新条件,可以使整个学习过程更稳定。

Description

自动驾驶模型训练方法及数据处理设备
技术领域
本申请涉及自动驾驶技术领域,具体而言,涉及一种自动驾驶模型训练方法及数据处理设备。
背景技术
自动驾驶技术是人工智能在现实世界中最具有实际意义的应用之一,大规模地实现自动驾驶技术可以有效地减少由人类驾驶员的过失,如疲劳驾驶、注意力分散、超速和危险驾驶等不安全行为所造成的经济及社会损失。
自动驾驶技术的实现目前主要依赖于基于机器学习的自动驾驶模型,由自动驾驶模型根据驾驶时采集的行驶环境数据确定出动作策略,从而控制车辆自动地执行相应的动作。在一些针对自动驾驶模型的训练方案中,采用设置虚拟驾驶场景(包括虚拟的道路、障碍或天气物等),获取虚拟车辆在虚拟驾驶场景中行驶时通过虚拟传感器采集的行驶环境数据,然后训练自动驾驶模型根据行驶环境数据确定出合适的动作策略来控制虚拟车辆,从而使自动驾驶模型学习到针对不同环境时需要采用的驾驶动作。
但是,这些自动驾驶模型的训练方案中,或存在训练速度较快但训练过程不稳定的问题,或存在训练过程较稳定但训练速度较慢的问题,难以兼顾训练速度和训练过程的稳定性。
发明内容
为了克服现有技术中的上述不足,本申请的目的在于提供一种自动驾驶模型训练方法,所述方法应用于数据处理设备,所述数据处理设备中预先配置有多个并行运行的学习模块;所述方法包括:
针对多个并行运行的学习模块中的每个所述学习模块,在启动一轮次模型训练时,通过复制第一自动驾驶模型的网络参数获得第二自动驾驶模型;所述第一自动驾驶模型包括目标动作确定网络及目标动作评价网络,所述第二自动驾驶模型包括在线动作确定网络及在线动作评价网络;其中,每一轮次的模型训练包括多个训练步骤;
在每个训练步骤中,通过所述第二自动驾驶模型获取模型训练过程中产生的在线经验数据,并将所述在线经验数据存储至所述学习模块的在线回放缓存中;其中,所述在线经验数据包括第一行驶环境数据、第一执行动作、实际动作奖励值及第二行驶环境数据,所述第一行驶环境数据为虚拟车辆在虚拟驾驶场景中行驶时,由所述虚拟车辆对应虚拟传感器从所述虚拟驾驶场景中采集到的当前的行驶环境数据;所述第一执行动作为所述第二自动驾驶模型的在线动作确定网络根据所述第一行驶环境数据得出的所述虚拟车辆的执行动作;所述第二行驶环境数据为所述虚拟车辆执行所述第一执行动作之后的行驶环境数据;所述实际动作奖励值为在执行所述第一执行动作后从所述第一行驶环境数据变更至第二行驶环境数据获得的奖励值;
在每个训练步骤中,通过所述第二自动驾驶模型的在线动作评价网络及所述第一自动驾驶模型的目标动作评价网络,根据多个所述学习模块共享的目标回放缓存中的多条共享经验数据,对所述第二自动驾驶模型的网络参数进行更新;
在完成一轮次模型训练后,根据所述目标回放缓存中各共享经验数据,以及所述在线回放缓存中各在线经验数据的第一执行动作的方差,对所述学习模块的在线经验数据进行筛选,将满足预设的动作方差条件的在线经验数据存入所述目标回放缓存中作为新的共享经验数据;
针对任意一个所述学习模块,在训练过程中,当满足预设模型参数更新条件时,获取所述第一自动驾驶模型当前的第一网络参数及该学习模块对应的第二自动驾驶模型的第二网络参数;
对所述第一网络参数和所述第二网络参数进行加权平均,将加权平均后获得的值作为所述第一自动驾驶模型的新的第一网络参数。
在一种可能的实现方式中,所述在每个训练步骤中,通过所述第二自动驾驶模型的在线动作评价网络及所述第一自动驾驶模型的目标动作评价网络,根据多个所述学习模块共享的目标回放缓存中的多条共享经验数据,对所述第二自动驾驶模型的网络参数进行更新的步骤,包括:
在每个训练步骤中,所述学习模块从所述目标回放缓存中采样获取多条共享经验数据;
针对采样获得的每条所述共享经验数据,通过所述第二自动驾驶模型的在线动作评价网络确定当前时刻的第一预测奖励值,通过所述第一自动驾驶模型的目标动作评价网络确定下一时刻的第二预测奖励值;根据所述第一预测奖励值和第二预测奖励值确定所述共享经验数据的时间差分参数;
根据所述多条共享经验数据对应的时间差分参数对所述第二自动驾驶模型的网络参数进行更新。
在一种可能的实现方式中,所述针对采样获得的每条所述共享经验数据,通过所述第二自动驾驶模型的在线动作评价网络确定当前时刻的第一预测奖励值,通过所述第一自动驾驶模型的目标动作评价网络确定下一时刻的第二预测奖励值的步骤,包括:
通过所述第二自动驾驶模型的在线动作评价网络,根据所述共享经验数据中的第一行驶环境数据和第一执行动作,确定相应的第一预测奖励值;
根据所述共享经验数据中的第二行驶环境数据,确定相应的第二执行动作;
通过所述第一自动驾驶模型的目标动作评价网络,根据所述第二行驶环境数据及所述第二执行动作,确定相应的第二预测奖励值。
在一种可能的实现方式中,所述根据所述第一预测奖励值和第二预测奖励值确定所述共享经验数据的时间差分参数的步骤,包括:
根据所述第二预测奖励值和所述实际动作奖励值确定时间差分标识值;
根据所述第一预测奖励值和所述时间差分标识值确定时间差分误差值作为所述时间差分参数;
所述根据所述多条共享经验数据对应的时间差分参数对所述第二自动驾驶模型的网络参数进行更新的步骤,包括:
计算所述多条共享经验数据对应的时间差分误差值的平均值,根据所述平均值,采用随机梯度下降的方式对所述第二自动驾驶模型的在线动作评价网络的网络参数进行更新。
在一种可能的实现方式中,在采样获取多条共享经验数据中,第i条共享经验数据对应的时间差分标识值的计算方式如下:
Figure 916917DEST_PATH_IMAGE001
其中,
Figure 573158DEST_PATH_IMAGE002
为所述时间差分标识值,
Figure 558431DEST_PATH_IMAGE003
为所述实际动作奖励值,
Figure 868190DEST_PATH_IMAGE004
为所述第二行驶环境数据,
Figure 470073DEST_PATH_IMAGE005
为所述目标动作确定网络的网络参数,
Figure 523479DEST_PATH_IMAGE006
为所述目标动作确定网络基于其网络参数根据所述第二行驶环境数据得出的所述第二执行动作,
Figure 19051DEST_PATH_IMAGE007
为所述在线动作评价网络的网络参数,
Figure 499711DEST_PATH_IMAGE008
为所述目标动作评价网络基于其网络参数根据所述第二行驶环境数据和所述第二执行动作得到的所述第二预测奖励值,
Figure 792152DEST_PATH_IMAGE009
为预设的折扣系数;
所述多条共享经验数据对应的时间差分误差值的平均值的计算方式如下:
Figure 649250DEST_PATH_IMAGE010
其中,
Figure 874695DEST_PATH_IMAGE011
为所述时间差分误差值的平均值,N为采样的共享经验数据数量,
Figure 526256DEST_PATH_IMAGE012
为所述第一行驶环境数据,
Figure 571573DEST_PATH_IMAGE013
为所述第一执行动作,
Figure 966782DEST_PATH_IMAGE014
为所述第二自动驾驶模型的在线动作评价网络的网络参数,
Figure 515575DEST_PATH_IMAGE015
为所述第二自动驾驶模型的在线动作评价网络基于其网络参数根据所述第一行驶环境数据和所述第一执行动作得到的所述第一预测奖励值。
在一种可能的实现方式中,在完成一轮次模型训练后,根据所述目标回放缓存中各共享经验数据,以及所述在线回放缓存中各在线经验数据的第一执行动作的方差,对所述学习模块的在线经验数据进行筛选,将满足预设的动作方差条件的在线经验数据存入所述目标回放缓存中作为新的共享经验数据的步骤,包括:
在完成一轮次模型训练后,计算所述目标回放缓存中各共享经验数据的中第一执行动作的第一方差的平均值;
计算所述在线回放缓存中各在线经验数据的第一执行动作的第二方差;
若所述第二方差小于所述第一方差的平均值,则将对应的在线经验数据存入所述目标回放缓存;
若所述第二方差大于所述第一方差的平均值,则将对应的在线经验数据丢弃。
在一种可能的实现方式中,所述针对任意一个所述学习模块,在训练过程中,当满足预设模型参数更新条件时,获取所述第一自动驾驶模型当前的第一网络参数及该学习模块对应的第二自动驾驶模型的第二网络参数的步骤,包括:
针对每个所述学习模块,在完成每个训练步骤后,对一全局步骤计数值进行增值更新;
在所述全局步骤计数值满足预设条件时,获取所述第一自动驾驶模型当前的第一网络参数及最近一次更新所述全局步骤计数值的学习模块的第二自动驾驶模型的第二网络参数。
在一种可能的实现方式中,所述针对每个所述学习模块,在完成每个训练步骤后,对一全局步骤计数值进行增值更新的步骤,包括:
所述针对每个所述学习模块,在完成每个训练步骤后,对一全局步骤计数值加1;
所述在所述全局步骤计数值满足预设条件时,获取所述第一自动驾驶模型当前的第一网络参数及最近一次更新所述全局步骤计数值的学习模块的第二自动驾驶模型的第二网络参数的步骤,包括:
在所述全局步骤计数值为n的倍数时,获取所述第一自动驾驶模型当前的第一网络参数及最近一次更新所述全局步骤计数值的学习模块的第二自动驾驶模型的第二网络参数;其中,n为大于等于2的整数。
在一种可能的实现方式中,所述方法还包括:
获取车辆行驶过程中采集的真实行驶环境数据;
通过训练完成的所述第一自动驾驶模型根据所述真实行驶环境数据确定实际执行动作;
根据所述实际执行动作控制车辆的行驶。
本申请的另一目的在于提供一种数据处理设备,包括机器可读存储介质及处理器,所述机器可读存储介质存储有机器可执行的指令,所述机器可执行的指令在被所述处理器执行时,实现本申请提供的所述自动驾驶模型训练方法。
相对于现有技术而言,本申请具有以下有益效果:
本申请提供的自动驾驶模型训练方法及数据处理设备,通过由多个学习模块中的第二自动驾驶模型并行地进行探索学习获得经验数据,然后将经过筛选后的经验数据存储至共享的目标回放缓存,多个第二自动驾驶模型又根据共享的目标回放缓存中的经验数据及第一自动驾驶模型的网络参数更新自身的网络参数继续进行探索学习。并且在满足一定更新条件时,结合各第二自动驾驶模型的网络参数对第一自动驾驶模型进行更新。如此,在整个训练过程中,由多个并行的第二自动驾驶模型进行探索学习并进行经验数据共享,提高了训练的效率,并且通过对共享经验数据的筛选以及控制更新所述第一自动驾驶模型网络参数的条件,可以使整个学习过程更稳定。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的数据设备的示意图;
图2为本申请实施例提供的数据设备集群的示意图;
图3为本申请实施例提供的自动驾驶模型训练方法的示意图;
图4为本申请实施例提供的自动驾驶模型的结构示意图;
图5为本申请实施例提供的动作确定网络的结构示意图;
图6为本申请实施例提供的动作评价网络的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
本实施例提供了一种用于训练自动驾驶模型的数据处理设备,该数据处理设备可以具有一定数据处理能力。
在一种可能的实现方式中,请参照图1,该数据处理设备100可以为一台独立的电子设备,该数据处理设备100可以包括机器可读存储介质120、处理器130。
其中,该数据处理设备100可以包括多个可独立运行的处理器130,所述处理器130可以为中央处理器(Central Processing Unit,CPU)或图像处理器(Graphics ProcessingUnit,GPU),所述数据处理设备100可以通过多个所述处理器130采用共享的经验数据进行并行的模型训练。
所述机器可读存储介质120存储有机器可执行指令,通过读取并执行机器可读存储介质120中与自动驾驶模型训练逻辑对应的机器可执行指令,处理器130可执行本实施例提供的自动驾驶模型训练方法。
所述机器可读存储介质120可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(RadomAccess Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
在另一种可能的实现方式中,请参照图2,所述数据处理设备也可以为由多个相对独立的数据处理设备100组成的集群,多个所述数据处理设备100可以进行并行的模型训练和经验数据共享动作,所述数据处理设备100共同协作完成自动驾驶模型能的训练过程。
请参照图3,图3为本实施例的一种自动驾驶模型训练方法的流程图,以下将对所述方法包括各个步骤进行详细阐述。
步骤S110,针对多个并行运行的学习模块中的每个所述学习模块,在启动一轮次模型训练时,通过复制第一自动驾驶模型的网络参数获得第二自动驾驶模型,并配置一虚拟驾驶场景;所述第一自动驾驶模型包括目标动作确定网络及目标动作评价网络,所述第二自动驾驶模型包括在线动作确定网络及在线动作评价网络。其中,每一轮次的模型训练包括多个训练步骤。
在本实施例中主要涉及动作确定网络和动作评价网络两种类型的网络,动作确定网络和动作评价网络的基本结构可以分别对应于Actor-Critic算法中的Actor神经网络和Critic神经网络。在此基础上,本实施例提供的自动驾驶模型训练方法对模型训练过程中的模型并行训练流程、训练数据的使用及模型参数的调整过程进行了改进。
另外,在本实施例中,训练完成后实际被使用的模型被称为第一自动驾驶模型,用于在训练过程中进行探索学习的模型被称为第二自动驾驶模型,所述第二自动驾驶模型用于进行并行的探索学习以更新所述第一自动驾驶模型的网络参数。为了进行区分,在本实施例中,将所述第一自动驾驶模型中的动作确定网络称为目标动作确定网络,将所述第一自动驾驶模型中的动作评价网络称为目标动作评价网络,将所述第二自动驾驶模型中的动作确定网络称为在线动作确定网络,将所述第二自动驾驶模型中的动作评价网络称为在线动作评价网络。
在本实施例中,所述第一自动驾驶模型为训练完成后需要使用到实际自动驾驶场景中的模型,所述第二自动驾驶模型为在训练过程中为提高训练效率进行并行的经验数据探索学习的模型。所述数据处理设备中预先配置有多个并行运行的学习模块,各个所述学习模块可以相对独立地通过第二自动驾驶模型执行模型训练,每个所述学习模块可以对应于图1中所示的一个处理器,或者图2中所示的一个数据处理设备。每个所述学习模块还对应有一用于存储所述第二自动驾驶模型训练过程中产生的经验数据的在线回放缓存。
同时本实施例中还配置有各所述学习模块均可以共享访问的目标回放缓存,所述目标回放缓存中存储的数据为共享经验数据。各所述学习模块可以将筛选后的经验数据存储至所述目标回放缓存作为所述共享经验数据,并可以从所述目标回放缓存中获取其他学习模块存储的经验数据,从而使各所述学习模块均能使用所述目标回放缓存中的经验数据进行模型参数的调整。
在本实施例中,由于最终需要使用的是所述第一自动驾驶模型,而所述第二自动驾驶模型的主要作用为并行进行探索学习获取经验数据,因此在本实施例中,每个所述学习模块在开始一轮次模型训练时,都需要通过复制第一自动驾驶模型的网络参数获得第二自动驾驶模型。同时,在开始一轮次模型训练时,所述学习模块可以清空对应的在线回放缓存。
请参照图4,在本实施例中,所述第一自动驾驶模型可以包括目标动作确定网络及目标动作评价网络,所述目标动作确定网络可以用于获取到的行驶环境数据确定出需要做出的执行动作,所述目标动作评价网络用于对所述执行动作进行评价。根据所述第一自动驾驶模型复制获得的所述第二自动驾驶模型可以包括在线动作确定网络及在线动作评价网络。
为了提高数据丰富程度,在本实施例中,各所述学习模块可以在不同的虚拟驾驶场景中执行所述第二自动驾驶模型的训练。其中,可以在开始一轮次模型训练时,随机地生成一个虚拟驾驶场景以供本次训练使用。
步骤S120,在每个训练步骤中,通过所述第二自动驾驶模型获取模型训练过程中产生的在线经验数据,并将所述在线经验数据存储至所述学习模块的在线回放缓存中;其中,所述在线经验数据包括第一行驶环境数据、第一执行动作、实际动作奖励值及第二行驶环境数据,所述第一行驶环境数据为所述学习模块控制虚拟车辆在虚拟驾驶场景中行驶时,由所述虚拟车辆对应虚拟传感器从所述虚拟驾驶场景中采集到的当前的行驶环境数据;所述第一执行动作为所述第二自动驾驶模型的在线动作确定网络根据所述第一行驶环境数据得出的所述虚拟车辆的执行动作;所述第二行驶环境数据为所述虚拟车辆执行所述第一执行动作之后的行驶环境数据;所述实际动作奖励值为在执行所述第一执行动作后从所述第一行驶环境数据变更至第二行驶环境数据获得的奖励值。
在本实施例中,所述学习模块可以获取到虚拟车辆在所述虚拟驾驶场景中行驶时,所述虚拟车辆上的虚拟传感器采集的行驶环境数据。可选地,行驶环境数据可以包括车辆速度、车辆距离当前路线中心的距离、车体与路线夹角、车辆周围多个距离传感器采集的数据、车辆发动机转速等数据。
在一个训练步骤中,可以包括一次根据行驶环境数据做出相应动作的过程。具体地,所述学习模块可以将t时刻的行驶环境数据作为第一行驶环境数据输入所述第二自动驾驶模型,由所述第二自动驾驶模型的在线动作确定网络根据所述第一行驶环境数据确定出相应的第一执行动作。可选地,所述第一执行动作可以包括转向角度、油门动作和刹车动作。
然后所述学习模块控制所述虚拟车辆执行所述第一执行动作,并获得执行所述第一执行动作后的行驶环境数据作为所述第二行驶环境数据。同时,所述学习模块可以获取由所述虚拟驾驶场景返回的从所述第一行驶环境数据变化至所述第二行驶环境数据时产生的实际动作奖励值。其中,所述实际动作奖励值可以为由所述虚拟驾驶场景提供的,例如,所述虚拟驾驶场景可以为TORCS虚拟环境,TORCS虚拟环境可以根据其预先设置的奖励函数及当前的虚拟车辆状态得出。
所述学习模块可以将上述获取数据记为一个在线经验数据
Figure 10141DEST_PATH_IMAGE016
,其中,
Figure 277175DEST_PATH_IMAGE017
为t时刻的第一行驶环境数据,
Figure 476075DEST_PATH_IMAGE018
为t时刻的第一执行动作,
Figure 879374DEST_PATH_IMAGE019
为t+1时刻的第二行驶环境数据,
Figure 669476DEST_PATH_IMAGE020
为t时刻虚拟驾驶场景返回的实际动作奖励值。
在一轮次的训练中,可能包括多个训练步骤,所述学习模块可以将每个学习步骤获得的在线经验数据存储至该学习模块对应的在线回放缓存中。
可选地,在一个示例中,请参照图5,本实施例提供的目标动作确定网络或在线动作确定网络的输入可以为23个行驶环境数据,输出可以为3个执行动作数据。网络包括2个隐藏层,隐藏层A1由300个节点组成,隐藏层A2由600个节点组成,所有的隐藏层激活函数使用的是ReLU激活函数。根据不同动作的值域分别选择Tanh激活函数和Sigmoid激活函数。
请参照图6,本实施例提供的目标动作评价网络或在线动作评价网络的输入可以为3个动作执行数据以及23个行驶环境数据,输出可以为3个执行动作对应的预测评价结果。网络包括3个隐藏层,隐藏层C1由300个节点组成,隐藏层C2和隐藏层C3均由600个节点组成。隐藏层C1和隐藏层C3均使用ReLU作为激活函数,而隐藏层C2对经过线性激活后的动作输入和状态输入进行求和,之后将求和的结果输入到隐藏层C3。
步骤S130,在每个训练步骤中,通过所述第二自动驾驶模型的在线动作评价网络及所述第一自动驾驶模型的目标动作评价网络,根据多个所述学习模块共享的目标回放缓存中的多条共享经验数据,对所述第二自动驾驶模型的网络参数进行更新。
在本实施例中,针对所述在线动作确定网络,其网络参数调整过程是让其确定出的执行动作能让所述在线动作评价网络给出更好评价。而针对所述在线动作评价网络的网络参数更新过程,可以在每个训练步骤中,所述学习模块可以在所述目标回放缓存中通过随机采样的方式获取多条共享经验数据,然后结合所述第一自动驾驶模型的目标动作评价网络及所述第二自动驾驶模型的在线动作评价网络,对多条所述共享经验数据进行处理,然后根据处理结果更新所述在线动作评价网络的网络参数。
具体地,步骤S130可以包括以下子步骤。
步骤S131,在每个训练步骤中,所述学习模块从所述目标回放缓存中采样获取多条共享经验数据。
步骤S132,针对采样获得的每条所述共享经验数据,通过所述第二自动驾驶模型的在线动作评价网络确定当前时刻的第一预测奖励值
Figure 423805DEST_PATH_IMAGE021
,通过所述第一自动驾驶模型的目标动作评价网络确定下一时刻的第二预测奖励值
Figure 160817DEST_PATH_IMAGE022
,并根据所述第一预测奖励值
Figure 339994DEST_PATH_IMAGE021
和第二预测奖励值
Figure 769839DEST_PATH_IMAGE022
确定所述共享经验数据的时间差分参数。
例如,记每条所述共享经验数据为
Figure 745885DEST_PATH_IMAGE023
;记所述第二自动驾驶模型的在线动作评价网络记为
Figure 817746DEST_PATH_IMAGE024
Figure 461217DEST_PATH_IMAGE025
为所述在线动作评价网络的网络参数。针对采样获得的每条所述共享经验数据
Figure 796384DEST_PATH_IMAGE026
,通过所述第二自动驾驶模型的在线动作评价网络
Figure 525305DEST_PATH_IMAGE027
,根据所述共享经验数据中的第一行驶环境数据
Figure 10644DEST_PATH_IMAGE017
和第一执行动作
Figure 508622DEST_PATH_IMAGE018
,确定相应的第一预测奖励值
Figure 14689DEST_PATH_IMAGE028
同时,记所述第一自动驾驶模型的目标动作确定网络为
Figure 762065DEST_PATH_IMAGE029
Figure 644571DEST_PATH_IMAGE030
为所述目标动作确定网络的网络参数。可以通过所述目标动作确定网络
Figure 997055DEST_PATH_IMAGE031
,根据所述共享经验数据中的第二行驶环境数据
Figure 939603DEST_PATH_IMAGE019
,确定相应的第二执行动作
Figure 33330DEST_PATH_IMAGE032
记所述第一自动驾驶模型的目标动作评价网络为
Figure 453947DEST_PATH_IMAGE033
Figure 926516DEST_PATH_IMAGE034
为所述目标动作评价网络的网络参数。通过所述目标动作评价网络
Figure 305545DEST_PATH_IMAGE035
,根据所述第二行驶环境数据
Figure 230776DEST_PATH_IMAGE019
及所述第二执行动作
Figure 455084DEST_PATH_IMAGE036
,确定相应的第二预测奖励值
Figure 782160DEST_PATH_IMAGE037
接着,可以根据所述第二预测奖励值和所述实际动作奖励值确定时间差分标识值。具体地,所述时间差分标识值
Figure 473035DEST_PATH_IMAGE038
然后,根据所述第一预测奖励值和所述时间差分标识值确定时间差分误差值作为所述时间差分参数。具体地,时间差分误差值
Figure 885562DEST_PATH_IMAGE039
步骤S133,根据所述多条共享经验数据对应的时间差分参数对所述第二自动驾驶模型的网络参数进行更新。
具体地,可以计算所述多条共享经验数据对应的时间差分误差值的平均值,根据所述平均值,采用随机梯度下降的方式对所述第二自动驾驶模型的在线动作评价网络的网络参数进行更新。
例如,在采样获取多条共享经验数据中,第i条共享经验数据对应的时间差分标识值的计算方式如下:
Figure 647982DEST_PATH_IMAGE040
其中,
Figure 829565DEST_PATH_IMAGE002
为所述时间差分标识值,
Figure 284817DEST_PATH_IMAGE003
为所述实际动作奖励值,
Figure 715798DEST_PATH_IMAGE004
为所述第二行驶环境数据,
Figure 281909DEST_PATH_IMAGE005
为所述目标动作确定网络的网络参数,
Figure 317998DEST_PATH_IMAGE006
为所述目标动作确定网络基于其网络参数根据所述第二行驶环境数据得出的所述第二执行动作,
Figure 944151DEST_PATH_IMAGE007
为所述在线动作评价网络的网络参数,
Figure 987062DEST_PATH_IMAGE008
为所述目标动作评价网络基于其网络参数根据所述第二行驶环境数据和所述第二执行动作得到的所述第二预测奖励值,
Figure 91285DEST_PATH_IMAGE009
为预设的折扣系数。
所述多条共享经验数据对应的时间差分误差值的平均值的计算方式如下:
Figure 247459DEST_PATH_IMAGE041
其中,
Figure 44514DEST_PATH_IMAGE011
为所述时间差分误差值的平均值,N为采样的共享经验数据数量,
Figure 653350DEST_PATH_IMAGE012
为所述第一行驶环境数据,
Figure 358001DEST_PATH_IMAGE013
为所述第一执行动作,
Figure 368682DEST_PATH_IMAGE014
为所述第二自动驾驶模型的在线动作评价网络的网络参数,
Figure 336638DEST_PATH_IMAGE042
为所述第二自动驾驶模型的在线动作评价网络基于其网络参数根据所述第一行驶环境数据和所述第一执行动作得到的所述第一预测奖励值。
基于上述设计,在本实施例中,在所述第二自动驾驶模型的在线动作评价网络的网络参数更新过程中,由所述在线动作评价网络得出所述第一预测奖励值
Figure 432770DEST_PATH_IMAGE021
,而由所述目标动作确定网络进行第二执行动作的预测,并由所述目标动作评价网络的出所述第二预测奖励值
Figure 285320DEST_PATH_IMAGE022
,从而可以避免自助法学习引起的误差。
步骤S140,在完成一轮次模型训练后,根据所述目标回放缓存中各共享经验数据的第一执行动作的方差,以及所述在线回放缓存中各在线经验数据的第一执行动作的方差,对所述学习模块的在线经验数据进行筛选,将满足预设的动作方差条件的在线经验数据存入所述目标回放缓存中作为新的共享经验数据。
其中,所述动作方差条件为所述在线经验数据的第一执行动作的方差与各所述共享经验数据的第一执行动作的方差之间的大小关系是否满足预设条件。
具体地,在完成一轮次模型训练后,计算所述目标回放缓存中各共享经验数据的中第一执行动作的第一方差的平均值。接着,计算所述在线回放缓存中各在线经验数据的第一执行动作的第二方差。
若所述第二方差小于所述第一方差的平均值,则将对应的在线经验数据存入所述目标回放缓存。
若所述第二方差大于所述第一方差的平均值,则将对应的在线经验数据丢弃。
在一个例子中,完成一轮次模型训练的条件可以包括,虚拟车辆行驶过程发生碰撞、行驶时间达到阈值、行驶至设定位置或行驶里程达到阈值等。
基于上述设计,在本实施例中,可以由多个所述学习模块并行地进行经验数据的探索学习,提高了训练效率。同时,每个学习模块通过动作方差进行经验数据的动作方差筛选(例如,根据所述目标回放缓存中各共享经验数据的第一执行动作的方差,以及所述在线回放缓存中各在线经验数据的第一执行动作的方差,判断所述在线经验数据是否满足预设的动作方差条件),使得加入到目标回放缓存中的经验数据的动作空间符合方差较小的正态分布,即保留了更加符合安全驾驶的经验,加快算法的训练过程。换句话说,多个所述学习模块并行地极性经验数据的探索学习,并且利用加入到所述目标回放缓存中的优质稳定的经验数据进行第二自动驾驶模型的网络参数更新,如此,大大提高了模型的训练效率,并且使梯度更新过程更加平稳。
步骤S150,针对任意一个所述学习模块,在训练过程中,当满足预设模型参数更新条件时,获取所述第一自动驾驶模型当前的第一网络参数及该学习模块对应的第二自动驾驶模型的第二网络参数。
步骤S160,对所述第一网络参数和所述第二网络参数进行加权平均,将加权平均后获得的值作为所述第一自动驾驶模型的新的第一网络参数。
在本实施例中,多个学习模块需要按照一定的规则将其自身的第二自动驾驶模型的网络参数更新至所述第一自动驾驶模型。但是,多个并行学习模块较为频繁地对第一自动驾驶模型的网络参数进行更新,可能会造成训练过程的不稳定。因此,在本实施例中,设置所述学习模块在训练过程中,当满足预设模型参数更新条件时,才对所述第一自动驾驶模型的网络参数进行更新。
具体地,针对每个所述学习模块,可以在完成每个训练步骤后,对一全局步骤计数值进行增值更新。在所述全局步骤计数值满足预设条件时,获取所述第一自动驾驶模型当前的第一网络参数及最近一次更新所述全局步骤计数值的学习模块的第二自动驾驶模型的第二网络参数。根据对所述第一网络参数和所述第二网络参数,通过进行加权平均,将加权平均后获得的值的方式更新所述作为新的第一网络参数。
例如,所述针对每个所述学习模块,在完成每个训练步骤后,对一全局步骤计数值加1。然后,在每当所述全局步骤计数值为n的倍数时,获取所述第一自动驾驶模型当前的第一网络参数及最近一次更新所述全局步骤计数值的学习模块的第二自动驾驶模型的第二网络参数;其中,n为大于等于2的整数。
示例性地,n=8为例,当某个学习模块下完成一个训练步骤后,对所述全局步骤计数值加1,然后检测该全局步骤计数值是否可以整除8。若可以整除,则根据该学习模块的第二自动驾驶模型的第二网络参数更新所述第一自动驾驶模型的第一网络参数。若不能整除,则不对所述第一网络参数进行更新。
同时,为了使训练的过程更稳定,在本实施例中使用超参数
Figure 416087DEST_PATH_IMAGE044
(即软更新系数)控制第一自动驾驶模型的更新。具体地,在根据所述在线动作确定网络的网络参数
Figure 554944DEST_PATH_IMAGE025
更新所述目标动作确定网络的网络参数
Figure 138372DEST_PATH_IMAGE034
,以及根据所述在线动作评价网络的网络参数
Figure 919246DEST_PATH_IMAGE014
更新所述目标动作评价网络的网络参数
Figure 904520DEST_PATH_IMAGE030
时,结合超参数
Figure 214278DEST_PATH_IMAGE045
按照下述方式进行加权平均更新:
Figure 285003DEST_PATH_IMAGE046
Figure 338409DEST_PATH_IMAGE047
基于上述设计,在本实施例中,通过采用设定模型参数更新条件及采用加权平均的方式更新所述第一网络参数,可以使所述第一自动驾驶模型的网络参数更新过程更加平稳。
另外,在本实施例中,还可以通过对环境状态归一化和动作修剪来进一步稳定训练过程。为了实现对环境的探索,会在动作确定网络的输出动作上添加噪声。但是,由于添加噪声会造成动作的值大于其本身的值域,所以在本实施例中增加了对动作的裁剪操作,使动作输出处于对应的值域中,因此神经网络的训练更加稳定。
另外,在训练完成后的使用过程中,通常使用所述第一自动驾驶模型。
具体地,在实际使用时,可以获取车辆行驶过程中采集的真实行驶环境数据。接着,通过训练完成的所述第一自动驾驶模型根据所述真实行驶环境数据确定实际执行动作。然后,根据所述实际执行动作控制车辆的行驶。
综上所述,本申请提供的自动驾驶模型训练方法数据处理设备,通过由多个学习模块中的第二自动驾驶模型并行地进行探索学习获得经验数据,然后将经过筛选后的经验数据存储至共享的目标回放缓存,多个第二自动驾驶模型又根据共享的目标回放缓存中的经验数据及第一自动驾驶模型的网络参数更新自身的网络参数继续进行探索学习。并且在满足一定更新条件时,结合各第二自动驾驶模型的网络参数对第一自动驾驶模型进行更新。如此,在整个训练过程中,由多个并行的第二自动驾驶模型进行探索学习并进行经验数据共享,提高了训练的效率,并且通过对共享经验数据的筛选以及控制更新所述第一自动驾驶模型网络参数的条件,可以使整个学习过程更稳定。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅为本申请的各种实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种自动驾驶模型训练方法,其特征在于,所述方法应用于数据处理设备,所述数据处理设备中预先配置有多个并行运行的学习模块,所述方法包括:
针对多个并行运行的学习模块中的每个所述学习模块,在启动一轮次模型训练时,通过复制第一自动驾驶模型的网络参数获得第二自动驾驶模型,并配置一虚拟驾驶场景;所述第一自动驾驶模型包括目标动作确定网络及目标动作评价网络,所述第二自动驾驶模型包括在线动作确定网络及在线动作评价网络;其中,每一轮次的模型训练包括多个训练步骤;
在每个训练步骤中,通过所述第二自动驾驶模型获取模型训练过程中产生的在线经验数据,并将所述在线经验数据存储至所述学习模块的在线回放缓存中;其中,所述在线经验数据包括第一行驶环境数据、第一执行动作、实际动作奖励值及第二行驶环境数据,所述第一行驶环境数据为所述学习模块控制虚拟车辆在所述虚拟驾驶场景中行驶时,由所述虚拟车辆对应的虚拟传感器从所述虚拟驾驶场景中采集到的当前的行驶环境数据;所述第一执行动作为所述第二自动驾驶模型的在线动作确定网络根据所述第一行驶环境数据得出的所述虚拟车辆的执行动作;所述第二行驶环境数据为所述虚拟车辆执行所述第一执行动作之后的行驶环境数据;所述实际动作奖励值为在执行所述第一执行动作后从所述第一行驶环境数据变更至第二行驶环境数据获得的奖励值;
在每个训练步骤中,通过所述第二自动驾驶模型的在线动作评价网络及所述第一自动驾驶模型的目标动作评价网络,根据多个所述学习模块共享的目标回放缓存中的多条共享经验数据,对所述第二自动驾驶模型的网络参数进行更新;所述共享经验数据为所述目标回放缓存中存储的数据;
在完成一轮次模型训练后,根据所述目标回放缓存中各共享经验数据的第一执行动作的方差,以及所述在线回放缓存中各在线经验数据的第一执行动作的方差,对所述学习模块的在线经验数据进行筛选,将满足预设的动作方差条件的在线经验数据存入所述目标回放缓存中作为新的共享经验数据;所述动作方差条件为所述在线经验数据的第一执行动作的方差与所述共享经验数据的第一执行动作的方差之间的大小关系是否满足预设条件;
针对任意一个所述学习模块,在训练过程中,当满足预设模型参数更新条件时,获取所述第一自动驾驶模型当前的第一网络参数及该学习模块对应的第二自动驾驶模型的第二网络参数;
对所述第一网络参数和所述第二网络参数进行加权平均,将加权平均后获得的值作为所述第一自动驾驶模型的新的第一网络参数。
2.根据权利要求1所述的方法,其特征在于,所述在每个训练步骤中,通过所述第二自动驾驶模型的在线动作评价网络及所述第一自动驾驶模型的目标动作评价网络,根据多个所述学习模块共享的目标回放缓存中的多条共享经验数据,对所述第二自动驾驶模型的网络参数进行更新的步骤,包括:
在每个训练步骤中,所述学习模块从所述目标回放缓存中采样获取多条共享经验数据;
针对采样获得的每条所述共享经验数据,通过所述第二自动驾驶模型的在线动作评价网络确定当前时刻的第一预测奖励值,通过所述第一自动驾驶模型的目标动作评价网络确定下一时刻的第二预测奖励值;根据所述第一预测奖励值和第二预测奖励值确定所述共享经验数据的时间差分参数;
根据所述多条共享经验数据对应的时间差分参数对所述第二自动驾驶模型的网络参数进行更新。
3.根据权利要求2所述的方法,其特征在于,所述针对采样获得的每条所述共享经验数据,通过所述第二自动驾驶模型的在线动作评价网络确定当前时刻的第一预测奖励值,通过所述第一自动驾驶模型的目标动作评价网络确定下一时刻的第二预测奖励值的步骤,包括:
通过所述第二自动驾驶模型的在线动作评价网络,根据所述共享经验数据中的第一行驶环境数据和第一执行动作,确定相应的第一预测奖励值;
通过所述第一自动驾驶模型的目标动作确定网络,根据所述共享经验数据中的第二行驶环境数据,确定相应的第二执行动作;
通过所述第一自动驾驶模型的目标动作评价网络,根据所述第二行驶环境数据及所述第二执行动作,确定相应的第二预测奖励值。
4.根据权利要求3所述的方法,其特征在于,
所述根据所述第一预测奖励值和第二预测奖励值确定所述共享经验数据的时间差分参数的步骤,包括:
根据所述第二预测奖励值和所述实际动作奖励值确定时间差分标识值;
根据所述第一预测奖励值和所述时间差分标识值确定时间差分误差值作为所述时间差分参数;
所述根据所述多条共享经验数据对应的时间差分参数对所述第二自动驾驶模型的网络参数进行更新的步骤,包括:
计算所述多条共享经验数据对应的时间差分误差值的平均值,根据所述平均值,采用随机梯度下降的方式对所述第二自动驾驶模型的在线动作评价网络的网络参数进行更新。
5.根据权利要求4所述的方法,其特征在于,在采样获取的多条共享经验数据中,第i条共享经验数据对应的时间差分标识值的计算方式如下:
Figure 695097DEST_PATH_IMAGE001
其中,
Figure 527924DEST_PATH_IMAGE002
为所述时间差分标识值,
Figure 888498DEST_PATH_IMAGE003
为所述实际动作奖励值,
Figure 275617DEST_PATH_IMAGE004
为所述第二行驶环境数据,
Figure 645419DEST_PATH_IMAGE005
为所述目标动作确定网络的网络参数,
Figure 191807DEST_PATH_IMAGE006
为所述目标动作确定网络基于其网络参数根据所述第二行驶环境数据得出的所述第二执行动作,
Figure 988861DEST_PATH_IMAGE007
为所述在线动作评价网络的网络参数,
Figure 597697DEST_PATH_IMAGE008
为所述目标动作评价网络基于其网络参数根据所述第二行驶环境数据和所述第二执行动作得到的所述第二预测奖励值,
Figure 771190DEST_PATH_IMAGE009
为预设的折扣系数;
所述多条共享经验数据对应的时间差分误差值的平均值的计算方式如下:
Figure 313029DEST_PATH_IMAGE010
其中,
Figure 280985DEST_PATH_IMAGE011
为所述时间差分误差值的平均值,N为采样的共享经验数据数量,
Figure 377117DEST_PATH_IMAGE012
为所述第一行驶环境数据,
Figure 88722DEST_PATH_IMAGE013
为所述第一执行动作,
Figure 953909DEST_PATH_IMAGE014
为所述第二自动驾驶模型的在线动作评价网络的网络参数,
Figure 499291DEST_PATH_IMAGE015
为所述第二自动驾驶模型的在线动作评价网络基于其网络参数根据所述第一行驶环境数据和所述第一执行动作得到的所述第一预测奖励值。
6.根据权利要求1所述的方法,其特征在于,在完成一轮次模型训练后,根据所述目标回放缓存中各共享经验数据,以及所述在线回放缓存中各在线经验数据的第一执行动作的方差,对所述学习模块的在线经验数据进行筛选,将满足预设的动作方差条件的在线经验数据存入所述目标回放缓存中作为新的共享经验数据的步骤,包括:
在完成一轮次模型训练后,计算所述目标回放缓存中各共享经验数据的中第一执行动作的第一方差的平均值;
计算所述在线回放缓存中各在线经验数据的第一执行动作的第二方差;
若所述第二方差小于所述第一方差的平均值,则将对应的在线经验数据存入所述目标回放缓存;
若所述第二方差大于所述第一方差的平均值,则将对应的在线经验数据丢弃。
7.根据权利要求1所述的方法,其特征在于,所述针对任意一个所述学习模块,在训练过程中,当满足预设模型参数更新条件时,获取所述第一自动驾驶模型当前的第一网络参数及该学习模块对应的第二自动驾驶模型的第二网络参数的步骤,包括:
针对每个所述学习模块,在完成每个训练步骤后,对一全局步骤计数值进行增值更新;
在所述全局步骤计数值满足预设条件时,获取所述第一自动驾驶模型当前的第一网络参数及最近一次更新所述全局步骤计数值的学习模块的第二自动驾驶模型的第二网络参数。
8.根据权利要求7所述的方法,其特征在于,
所述针对每个所述学习模块,在完成每个训练步骤后,对一全局步骤计数值进行增值更新的步骤,包括:
所述针对每个所述学习模块,在完成每个训练步骤后,对所述全局步骤计数值加1;
所述在所述全局步骤计数值满足预设条件时,获取所述第一自动驾驶模型当前的第一网络参数及最近一次更新所述全局步骤计数值的学习模块的第二自动驾驶模型的第二网络参数的步骤,包括:
在所述全局步骤计数值为n的倍数时,获取所述第一自动驾驶模型当前的第一网络参数及最近一次更新所述全局步骤计数值的学习模块的第二自动驾驶模型的第二网络参数;其中,n为大于等于2的整数。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取车辆行驶过程中采集的真实行驶环境数据;
通过训练完成的所述第一自动驾驶模型根据所述真实行驶环境数据确定实际执行动作;
根据所述实际执行动作控制车辆的行驶。
10.一种数据处理设备,其特征在于,包括机器可读存储介质及处理器,所述机器可读存储介质存储有机器可执行的指令,所述机器可执行的指令在被所述处理器执行时,实现如权利要求1-9任意一项所述的方法。
CN202111017730.9A 2021-08-31 2021-08-31 自动驾驶模型训练方法及数据处理设备 Active CN113449823B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111017730.9A CN113449823B (zh) 2021-08-31 2021-08-31 自动驾驶模型训练方法及数据处理设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111017730.9A CN113449823B (zh) 2021-08-31 2021-08-31 自动驾驶模型训练方法及数据处理设备

Publications (2)

Publication Number Publication Date
CN113449823A true CN113449823A (zh) 2021-09-28
CN113449823B CN113449823B (zh) 2021-11-19

Family

ID=77819223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111017730.9A Active CN113449823B (zh) 2021-08-31 2021-08-31 自动驾驶模型训练方法及数据处理设备

Country Status (1)

Country Link
CN (1) CN113449823B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114911813A (zh) * 2022-06-27 2022-08-16 芯砺智能科技(上海)有限公司 车载感知模型的更新方法、装置、电子设备及存储介质

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354591A (zh) * 2015-10-20 2016-02-24 南京大学 基于高阶类别相关先验知识的三维室外场景语义分割系统
CN107791970A (zh) * 2017-10-17 2018-03-13 长春工业大学 基于启发式动态规划的汽车主动降噪方法
CN108009587A (zh) * 2017-12-01 2018-05-08 驭势科技(北京)有限公司 一种基于强化学习和规则确定驾驶策略的方法与设备
CN109597317A (zh) * 2018-12-26 2019-04-09 广州小鹏汽车科技有限公司 一种基于自学习的车辆自动驾驶方法、系统及电子设备
CN109800475A (zh) * 2018-12-27 2019-05-24 北京百度网讯科技有限公司 自动驾驶数据处理方法、装置、设备和计算机存储介质
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
CN111191492A (zh) * 2018-11-15 2020-05-22 北京三星通信技术研究有限公司 信息估计、模型检索和模型对准方法和装置
US20200247429A1 (en) * 2019-02-06 2020-08-06 Zenuity Ab Method and system for controlling an automated driving system of a vehicle
US20200327238A1 (en) * 2018-08-14 2020-10-15 Intel Corporation Techniques to detect perturbation attacks with an actor-critic framework
CN111985614A (zh) * 2020-07-23 2020-11-24 中国科学院计算技术研究所 一种构建自动驾驶决策系统的方法、系统和介质
CN112052776A (zh) * 2020-09-01 2020-12-08 中国人民解放军国防科技大学 无人车自主驾驶行为优化方法、装置和计算机设备
CN112099496A (zh) * 2020-09-08 2020-12-18 苏州浪潮智能科技有限公司 一种自动驾驶训练方法、装置、设备及介质
CN112508164A (zh) * 2020-07-24 2021-03-16 北京航空航天大学 一种基于异步监督学习的端到端自动驾驶模型预训练方法
CN112580537A (zh) * 2020-12-23 2021-03-30 中国人民解放军国防科技大学 一种用于多无人机系统持续覆盖特定区域的深度强化学习方法
CN112906126A (zh) * 2021-01-15 2021-06-04 北京航空航天大学 基于深度强化学习的车辆硬件在环仿真训练系统及方法
CN112904852A (zh) * 2021-01-18 2021-06-04 国汽智控(北京)科技有限公司 一种自动驾驶控制方法、装置及电子设备
CN112947466A (zh) * 2021-03-09 2021-06-11 湖北大学 一种面向自动驾驶的平行规划方法、设备及存储介质
CN113052253A (zh) * 2021-03-31 2021-06-29 北京字节跳动网络技术有限公司 超参数确定方法、装置、深度强化学习框架、介质及设备
CN113264043A (zh) * 2021-05-17 2021-08-17 北京工业大学 基于深度强化学习的无人驾驶分层运动决策控制方法

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354591A (zh) * 2015-10-20 2016-02-24 南京大学 基于高阶类别相关先验知识的三维室外场景语义分割系统
CN107791970A (zh) * 2017-10-17 2018-03-13 长春工业大学 基于启发式动态规划的汽车主动降噪方法
CN108009587A (zh) * 2017-12-01 2018-05-08 驭势科技(北京)有限公司 一种基于强化学习和规则确定驾驶策略的方法与设备
US20200327238A1 (en) * 2018-08-14 2020-10-15 Intel Corporation Techniques to detect perturbation attacks with an actor-critic framework
CN111191492A (zh) * 2018-11-15 2020-05-22 北京三星通信技术研究有限公司 信息估计、模型检索和模型对准方法和装置
CN109597317A (zh) * 2018-12-26 2019-04-09 广州小鹏汽车科技有限公司 一种基于自学习的车辆自动驾驶方法、系统及电子设备
CN109800475A (zh) * 2018-12-27 2019-05-24 北京百度网讯科技有限公司 自动驾驶数据处理方法、装置、设备和计算机存储介质
US20200247429A1 (en) * 2019-02-06 2020-08-06 Zenuity Ab Method and system for controlling an automated driving system of a vehicle
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
CN111985614A (zh) * 2020-07-23 2020-11-24 中国科学院计算技术研究所 一种构建自动驾驶决策系统的方法、系统和介质
CN112508164A (zh) * 2020-07-24 2021-03-16 北京航空航天大学 一种基于异步监督学习的端到端自动驾驶模型预训练方法
CN112052776A (zh) * 2020-09-01 2020-12-08 中国人民解放军国防科技大学 无人车自主驾驶行为优化方法、装置和计算机设备
CN112099496A (zh) * 2020-09-08 2020-12-18 苏州浪潮智能科技有限公司 一种自动驾驶训练方法、装置、设备及介质
CN112580537A (zh) * 2020-12-23 2021-03-30 中国人民解放军国防科技大学 一种用于多无人机系统持续覆盖特定区域的深度强化学习方法
CN112906126A (zh) * 2021-01-15 2021-06-04 北京航空航天大学 基于深度强化学习的车辆硬件在环仿真训练系统及方法
CN112904852A (zh) * 2021-01-18 2021-06-04 国汽智控(北京)科技有限公司 一种自动驾驶控制方法、装置及电子设备
CN112947466A (zh) * 2021-03-09 2021-06-11 湖北大学 一种面向自动驾驶的平行规划方法、设备及存储介质
CN113052253A (zh) * 2021-03-31 2021-06-29 北京字节跳动网络技术有限公司 超参数确定方法、装置、深度强化学习框架、介质及设备
CN113264043A (zh) * 2021-05-17 2021-08-17 北京工业大学 基于深度强化学习的无人驾驶分层运动决策控制方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ELAHEH BARATI 等: "An Actor-Critic-Attention Mechanism for Deep Reinforcement Learning in Multi-view Environments", 《ARXIV:1907.09466》 *
方川: "基于深度强化学习的无人驾驶车道保持决策的研究", 《中国优秀硕士学位论文全文数据库 工程科技II辑》 *
王丙琛 等: "基于深度强化学习的自动驾驶车控制算法研究", 《郑州大学学报(工学报)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114911813A (zh) * 2022-06-27 2022-08-16 芯砺智能科技(上海)有限公司 车载感知模型的更新方法、装置、电子设备及存储介质
CN114911813B (zh) * 2022-06-27 2023-09-26 芯砺智能科技(上海)有限公司 车载感知模型的更新方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113449823B (zh) 2021-11-19

Similar Documents

Publication Publication Date Title
Ladosz et al. Exploration in deep reinforcement learning: A survey
CN110520868B (zh) 用于分布式强化学习的方法、程序产品和存储介质
CN111142522B (zh) 一种分层强化学习的智能体控制方法
CN111260027B (zh) 一种基于强化学习的智能体自动决策方法
US11474529B2 (en) System and method for motion planning of an autonomous driving machine
Cardamone et al. Learning drivers for TORCS through imitation using supervised methods
Bing et al. Meta-reinforcement learning in non-stationary and dynamic environments
US20220405682A1 (en) Inverse reinforcement learning-based delivery means detection apparatus and method
CN110447041B (zh) 噪声神经网络层
WO2013086186A2 (en) Particle methods for nonlinear control
KR102203253B1 (ko) 생성적 적대 신경망에 기반한 평점 증강 및 아이템 추천 방법 및 시스템
CN113449823B (zh) 自动驾驶模型训练方法及数据处理设备
Feng et al. Towards human-like social multi-agents with memetic automaton
CN111105442B (zh) 切换式目标跟踪方法
Schulz et al. Computational psychiatry for computers
Cichosz et al. Imitation learning of car driving skills with decision trees and random forests
Bae et al. Curriculum learning for vehicle lateral stability estimations
ElDahshan et al. Deep reinforcement learning based video games: A review
CN110390398B (zh) 在线学习方法
Capo et al. Short-term trajectory planning in TORCS using deep reinforcement learning
Rodrigues et al. Optimizing agent training with deep q-learning on a self-driving reinforcement learning environment
Cardamone et al. Transfer of driving behaviors across different racing games
Abdelfattah et al. Intrinsically motivated hierarchical policy learning in multiobjective Markov decision processes
Vrajitoru Global to local for path decision using neural networks
CN113837211A (zh) 一种驾驶决策方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant