CN114162146B

CN114162146B - 行驶策略模型训练方法以及自动驾驶的控制方法

Info

Publication number: CN114162146B
Application number: CN202210119700.7A
Authority: CN
Inventors: 邓琪; 李茹杨; 张亚强; 赵坤; 赵雅倩; 李仁刚
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-02-09
Filing date: 2022-02-09
Publication date: 2022-04-29
Anticipated expiration: 2042-02-09
Also published as: CN114162146A

Abstract

本发明揭示了一种行驶策略模型训练方法以及自动驾驶的控制方法，适用于自动驾驶技术领域。该方法包括：获取候选行驶策略模型；候选行驶策略模型根据多个虚拟训练任务训练得到；计算各真实训练任务与虚拟训练任务之间的任务相似性；在各真实训练任务中采取候选行驶策略模型执行行驶交互过程，得到各真实训练状态信息对应的真实训练执行动作以及真实训练执行动作对应的真实训练奖励；根据真实训练奖励以及任务相似性，更新候选行驶策略模型的参数，得到目标行驶策略模型。采用该方法，可以使得训练得到的目标行驶策略模型能够适应真实驾驶任务，并可以在真实驾驶任务中完成车辆自动驾驶，从而在实际应用中达到预期的效果。

Description

行驶策略模型训练方法以及自动驾驶的控制方法

技术领域

本发明涉及自动驾驶领域，具体涉及一种行驶策略模型训练方法以及自动驾驶的控制方法。

背景技术

自动驾驶技术是当前人工智能、交通运输领域的研究热点，其目的是让汽车脱离人为控制自动安全行驶，从而提升道路交通智能化水平。现有端到端自动驾驶技术的映射关系多通过两种方式建立，模仿学习和强化学习。模仿学习基于监督学习思想，通过模仿专家行为来作出驾驶决策，其反馈信息来自于大量专家演示数据，因此其性能也将受专家行为所限。强化学习则是在车辆与环境的交互过程中，通过奖励反馈学习能最大化累积奖励的驾驶策略，该方法不受专家驾驶的监督信号所限，具有较强的自学习能力。

现有技术中，基于深度强化学习的端到端自动驾驶技术可描述为一个车辆与环境交互的闭环优化过程：每个时刻车辆将会得到一组与环境相关的高维观测信息，通过深度学习技术处理后可得到相应的状态特征；利用驾驶策略将驾驶状态映射为相应的驾驶动作，环境对驾驶动作做出反馈，根据奖励函数得到奖励值，同时驾驶状态转移至；基于奖励对策略优化调整，同时结合新状态进行下一轮动作决策，不断循环以上过程，最终得到最优驾驶策略。

为保证良好的学习结果，深度强化学习通常需要依赖于反复的训练和模型优化，样本效率低、学习速度缓慢，当驾驶任务、场景发生改变时，驾驶策略甚至需要重新训练。另一方面，由于真实车辆的复杂性和脆弱性，直接在实车上训练自动驾驶系统不仅低效且成本高昂，因此当前自动驾驶系统通常会先在仿真平台中训练好，再迁移到真实车辆中进行应用。然而车辆面临的真实驾驶环境往往不同于训练时的模拟环境，这种仿真和现实间的差异将导致训练模型在实际应用时无法达到预期效果。

发明内容

有鉴于此，本发明实施例提供了一种行驶策略模型训练方法以及自动驾驶的控制方法，旨在解决仿真和现实间的差异将导致训练模型在实际应用时无法达到预期效果。

根据第一方面，本发明实施例提供了一种行驶策略模型训练方法，该方法包括：

获取候选行驶策略模型；候选行驶策略模型根据多个虚拟训练任务训练得到；

计算各真实训练任务与虚拟训练任务之间的任务相似性；

在各真实训练任务中采取候选行驶策略模型执行行驶交互过程，得到各真实训练状态信息对应的真实训练执行动作以及真实训练执行动作对应的真实训练奖励；

根据真实训练奖励以及任务相似性，更新候选行驶策略模型的参数，得到目标行驶策略模型。

本发明实施例提供的行驶策略模型训练方法，获取多个虚拟训练任务训练得到的候选行驶策略模型，从而可以保证获取到的候选行驶策略模型的准确性。然后，计算各真实训练任务与虚拟训练任务之间的任务相似性，从而可以保证获取到各真实训练任务与虚拟训练任务之间的任务相似性的准确性。然后，在各真实训练任务中采取候选行驶策略模型执行行驶交互过程，得到各真实训练任务中各真实训练状态信息对应的真实训练执行动作以及真实训练执行动作对应的真实训练奖励。从而保证了获取到的真实训练奖励的准确性。根据真实训练奖励以及任务相似性，更新候选行驶策略模型的参数，得到目标行驶策略模型，使得训练得到的目标行驶策略模型能够适应真实驾驶任务，并可以在真实驾驶任务中完成车辆自动驾驶，从而在实际应用中达到预期的效果。

结合第一方面，在第一方面第一实施方式中，计算各真实训练任务与虚拟训练任务之间的任务相似性，包括：

获取各真实训练任务中的真实状态轨迹，真实状态轨迹包括各时刻的真实训练状态信息、真实训练状态信息对应的真实训练执行动作以及真实训练奖励。

获取虚拟训练任务中的虚拟状态轨迹；虚拟状态轨迹包括各时刻的虚拟训练状态信息、虚拟训练状态信息对应的虚拟训练执行动作以及虚拟训练奖励。

根据真实状态轨迹以及虚拟状态轨迹，计算各真实训练任务与虚拟训练任务之间的任务相似性。

本发明实施例提供的行驶策略模型训练方法，获取各真实训练任务中的真实状态轨迹以及虚拟训练任务中的虚拟状态轨迹，然后根据真实状态轨迹以及虚拟状态轨迹，计算各真实训练任务与虚拟训练任务之间的任务相似性，从而保证了计算得到的任务相似性的准确性。

结合第一方面第一实施方式，在第一方面第二实施方式中，获取各真实训练任务中的真实状态轨迹，包括：

获取各真实训练任务中初始真实训练状态信息，初始真实训练状态信息包括初始时刻的车辆真实训练状态信息以及环境真实训练状态信息；

针对各真实训练任务，基于初始真实训练状态信息采取候选行驶策略模型执行行驶交互过程，获取行驶过程中各时刻的真实训练状态信息对应的真实训练执行动作；

计算真实训练执行动作对应的真实训练奖励，以获得真实状态轨迹。

本发明实施例提供的行驶策略模型训练方法，获取各真实训练任务中初始真实训练状态信息，然后基于真实训练任务中初始真实训练状态信息采取候选行驶策略模型执行行驶交互过程，获取各行驶过程中时刻的真实训练状态信息对应的真实训练执行动作；然后，计算真实训练执行动作对应的真实训练奖励，从而根据各时刻对应的真实训练状态信息、真实训练执行动作以及真实训练奖励，获得真实状态轨迹，保证了获取到的真实状态轨迹的准确性。

结合第一方面第一实施方式，在第一方面第三实施方式中，根据真实状态轨迹以及虚拟状态轨迹，计算各真实训练任务与虚拟训练任务之间的任务相似性，包括：

根据真实状态轨迹的分布以及虚拟状态轨迹的分布，计算倾向得分；

根据倾向得分的数值，计算任务相似性。

本发明实施例提供的行驶策略模型训练方法，根据真实状态轨迹的分布以及虚拟状态轨迹的分布，计算倾向得分。从而保证计算得到的倾向得分的准确性。然后，根据倾向得分的数值，计算任务相似性，从而保证了计算得到的任务相似性的准确性。

结合第一方面，在第一方面第四实施方式中，根据真实训练奖励以及任务相似性，更新候选行驶策略模型的参数，得到目标行驶策略模型，包括：

根据任务相似性确定自适应惩罚函数的权重，自适应惩罚函数用于表征更新后的模型参数与更新前的模型参数之间的差距；

根据真实训练奖励、任务相似性以及自适应惩罚函数的权重，更新候选行驶策略模型的参数，得到目标行驶策略模型。

本发明实施例提供的行驶策略模型训练方法，根据任务相似性确定自适应惩罚函数的权重，从而可以根据自适应惩罚函数的权重确定更新后的模型参数与更新前的模型参数之间的差距。然后根据真实训练奖励、任务相似性以及自适应惩罚函数的权重，更新候选行驶策略模型的参数，得到目标行驶策略模型，从而保证了训练得到的目标行驶策略模型的准确性。使得训练得到的目标行驶策略模型能够适应真实驾驶任务，并可以基于真实驾驶任务完成车辆自动驾驶，从而在实际应用中达到预期的效果。

根据第二方面，本发明实施例提供了一种候选策略模型训练方法，该方法包括：

获取元虚拟训练任务集；元虚拟训练任务集中包括多个虚拟训练任务；

在各虚拟训练任务中采取初始行驶策略网络执行行驶交互过程，获取各虚拟训练任务中虚拟状态信息对应的虚拟训练执行动作；

获取虚拟训练执行动作对应的虚拟训练奖励；

根据虚拟训练奖励，更新初始行驶策略网络，重复上述行驶交互与策略更新过程，得到候选行驶策略模型。候选行驶策略模型为第一方面以及第一方面实施方式中任一项中的候选行驶策略模型。

本发明实施例提供的候选策略模型训练方法，获取元虚拟训练任务集，对元虚拟训练任务集中的各虚拟训练任务，采取初始行驶策略网络执行行驶交互过程，获取虚拟训练任务中各虚拟训练状态信息对应的虚拟训练执行动作。然后，获取虚拟训练执行动作对应的虚拟训练奖励，并根据虚拟训练奖励，更新初始行驶策略网络，得到候选行驶策略模型，从而保证得到的候选行驶策略模型能够很好的根据虚拟驾驶任务输出虚拟驾驶策略，进而保证了候选行驶策略模型的准确性。

结合第二方面，在第二方面第一实施方式中，根据虚拟训练奖励，更新初始行驶策略网络，重复上述行驶交互与策略更新过程，得到候选行驶策略模型，包括：

在各虚拟训练任务中，根据各虚拟训练执行动作对应的虚拟训练奖励，计算各虚拟训练执行动作对应的虚拟价值；

根据各虚拟训练执行动作对应的虚拟价值，计算初始行驶策略网络对应的优化目标函数；

根据优化目标函数，更新初始行驶策略网络的参数；

重复上述更新过程，得到候选行驶策略模型。

本发明实施例提供的行驶策略模型训练方法，在各虚拟训练任务中，根据各虚拟训练执行动作对应的虚拟训练奖励，计算各虚拟训练执行动作对应的虚拟价值，从而保证了计算得到的虚拟价值的准确性。然后，根据各虚拟训练执行动作对应的虚拟价值，计算初始行驶策略网络对应的优化目标函数，从而使得可以根据优化目标函数，更新初始行驶策略网络的参数，重复上述更新过程，得到候选行驶策略模型。从而保证了得到的候选行驶策略模型的准确性。

根据第三方面，本发明实施例还提供了一种自动驾驶的控制方法，方法包括：

获取目标车辆的初始真实状态信息；初始真实状态信息包括车辆初始真实状态信息以及环境初始真实状态信息；目标车辆中部署有目标行驶策略模型；

基于车辆初始真实状态信息以及环境初始真实状态信息，采取目标行驶策略模型执行行驶交互过程，获取各时刻对应的真实执行动作，以控制目标车辆自动行驶；目标行驶策略模型根据第一方面或者第一方面的任意一种实施方式中的行驶策略模型训练方法训练得到。

本发明实施例提供的自动驾驶的控制方法，获取目标车辆对应的真实行驶任务，然后基于真实行驶任务中的车辆初始真实状态信息以及环境初始真实状态信息，采取目标行驶策略模型执行行驶交互过程，获取各时刻对应的真实执行动作，从而实现目标车辆自动行驶，保证了目标行驶策略模型输出的各时刻对应的真实执行动作的准确性，进而保证了目标车辆自动驾驶的安全性。

根据第四方面，本发明实施例还提供了一种行驶策略模型训练装置，装置包括：

第一获取模块，用于获取候选行驶策略模型；候选行驶策略模型根据多个虚拟训练任务训练得到；

计算模块，用于计算各真实训练任务与虚拟训练任务之间的任务相似性；

执行模块，用于在各真实训练任务中采取候选行驶策略模型执行行驶过程，得到各真实训练状态信息对应的真实训练执行动作以及真实训练执行动作对应的真实训练奖励；

第一更新模块，用于根据真实训练奖励以及任务相似性，更新候选行驶策略模型的参数，得到目标行驶策略模型。

本发明实施例提供的行驶策略模型训练装置，获取多个虚拟训练任务训练得到的候选行驶策略模型，从而可以保证获取到的候选行驶策略模型的准确性。然后，计算各真实训练任务与虚拟训练任务之间的任务相似性，从而可以保证获取到各真实训练任务与虚拟训练任务之间的任务相似性的准确性。然后，在各真实训练任务中采取候选行驶策略模型执行行驶交互过程，得到各真实训练任务中各真实训练状态信息对应的真实训练执行动作以及真实训练执行动作对应的真实训练奖励。根据真实训练奖励以及任务相似性，更新候选行驶策略模型的参数，得到目标行驶策略模型，使得训练得到的目标行驶策略模型能够适应真实驾驶任务，并可以在真实驾驶任务中完成车辆自动驾驶，从而在实际应用中达到预期的效果。

根据第五方面，本发明实施例提供了一种候选策略模型训练装置，该装置包括：

第二获取模块，用于获取元虚拟训练任务集；元虚拟训练任务集中包括多个虚拟训练任务；

第三获取模块，用于在各虚拟训练任务中采取初始行驶策略网络执行行驶交互过程，获取各虚拟训练任务中虚拟状态信息对应的虚拟训练执行动作；

第四获取模块，用于获取虚拟训练执行动作对应的虚拟训练奖励；

第二更新模块，用于根据虚拟训练奖励，更新初始行驶策略网络，重复上述行驶交互与策略更新过程，得到候选行驶策略模型。

本发明实施例提供的候选策略模型训练装置，获取元虚拟训练任务集，对元虚拟训练任务集中的各虚拟训练任务，采取初始行驶策略网络执行行驶交互过程，获取虚拟训练任务中各虚拟训练状态信息对应的虚拟训练执行动作。然后，获取虚拟训练执行动作对应的虚拟训练奖励，并根据虚拟训练奖励，更新初始行驶策略网络，得到候选行驶策略模型，从而保证得到的候选行驶策略模型能够很好的根据虚拟驾驶任务输出虚拟驾驶策略，进而保证了候选行驶策略模型的准确性。

根据第六方面，本发明实施例还提供了一种自动驾驶的控制装置，装置包括：

第五获取模块，用于获取目标车辆的初始真实状态信息；初始真实状态信息包括车辆初始真实状态信息以及环境初始真实状态信息；目标车辆中部署有目标行驶策略模型；

控制模块，用于基于车辆初始真实状态信息以及环境初始真实状态信息，采取目标行驶策略模型执行行驶交互过程，获取各时刻对应的真实执行动作，以控制目标车辆自动行驶；目标行驶策略模型根据第一方面或者第一方面的任意一种实施方式中的行驶策略模型训练方法训练得到。

本发明实施例提供的自动驾驶的控制装置，获取目标车辆对应的真实行驶任务，然后将真实行驶任务中的车辆初始真实状态信息以及环境初始真实状态信息输入至目标行驶策略模型，输出下一时刻对应的真实执行动作，从而实现目标车辆自动行驶，保证了目标行驶策略模型输出的下一时刻对应的真实执行动作的准确性，进而保证了目标车辆自动驾驶的安全性。

根据第七方面，本发明实施例提供了一种智能车辆，包括存储器和处理器，存储器和处理器之间互相通信连接，存储器中存储有计算机指令，处理器通过执行计算机指令，从而执行第一方面或者第一方面的任意一种实施方式中的行驶策略模型训练方法以及第三方面实施方式中的自动驾驶的控制方法。

根据第八方面，本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质存储计算机指令，计算机指令用于使计算机执行第一方面或者第一方面的任意一种实施方式中的行驶策略模型训练方法以及第三方面实施方式中的自动驾驶的控制方法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1 是应用本发明实施例提供的行驶策略模型训练方法的流程图；

图2 是应用本发明另一实施例提供的行驶策略模型训练方法的流程图；

图3 是应用本发明另一实施例提供的行驶策略模型训练方法的流程图；

图4 是应用本发明另一实施例提供的自动驾驶的控制方法的流程图；

图5 是应用本发明实施例提供的行驶策略模型训练装置的功能模块图；

图6 是应用本发明实施例提供的候选策略模型训练装置的功能模块图；

图7 是应用本发明实施例提供的自动驾驶的控制装置的功能模块图；

图8 是应用本发明实施例提供的智能车辆的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本申请实施例提供的行驶策略模型训练的方法，其执行主体可以是行驶策略模型训练的装置，该行驶策略模型训练的装置可以通过软件、硬件或者软硬件结合的方式实现成为智能车辆部分或者全部。下述方法实施例中，均以执行主体是智能车辆为例来进行说明。

在本申请一个实施例中，如图1所示，提供了一种行驶策略模型训练方法，以该方法应用与智能车辆为例进行说明，包括以下步骤：

S11、获取候选行驶策略模型。

其中，候选行驶策略模型根据多个虚拟训练任务训练得到。

在一种可选的实施方式中，智能车辆可以基于与接收其他设备之间的连接，接收其他设备发送的候选行驶策略模型。

在另一种可选的实施方式中，智能车辆还可以基于多个虚拟训练任务训练得到候选行驶策略模型。

关于该步骤将在下文进行详细介绍。

S12、计算各真实训练任务与虚拟训练任务之间的任务相似性。

由于，驾驶环境往往是动态变化且不可预知的，其变化因素主要体现在天气、光照、人流、车流密度、道路条件、车辆参数等等，当真实驾驶任务与虚拟训练任务差异较大时，已有行驶策略模型将无法满足驾驶需求，若对真实驾驶任务重新进行行驶策略模型训练，不仅低效且难以短时间内收集足够真实训练数据。为了使虚拟训练任务训练得到的候选行驶策略模型快速适应于数据获取量较小的真实驾驶任务，因此，智能车辆需要根据多个真实训练任务，在真实训练任务场景中对候选行驶策略模型进行训练，为了保证模型的准确性，在利用真实训练任务对候选行驶策略模型进行训练之前，需要计算各真实训练任务与虚拟训练任务之间的任务相似性。

具体地，智能车辆可以对真实训练任务和虚拟训练任务进行分析研究，并进行特征提取，然后根据提取的特征，计算真实训练任务与虚拟训练任务之间的任务相似性。

关于该步骤将在下文进行详细介绍。

S13、在各真实训练任务中，采取候选行驶策略模型执行行驶交互过程，得到各真实训练状态信息对应的真实训练执行动作以及真实训练执行动作对应的真实训练奖励。

具体地，智能车辆可以在各真实训练任务中采取候选行驶策略模型执行行驶交互过程，然后，候选行驶策略模型对各真实训练任务中的真实训练状态信息进行特征提取，并根据提取的特征输出真实训练状态信息对应的真实训练执行动作。然后，智能车辆对真实训练执行动作进行评估，获取到真实训练执行动作对应的真实训练奖励。

S14、根据真实训练奖励以及任务相似性，更新候选行驶策略模型的参数，得到目标行驶策略模型。

具体地，智能车辆可以根据任务相似性确定更改后的候选行驶策略模型的参数与更改前的候选行驶策略模型的参数之间的差距，然后根据真实训练奖励以及更改后的候选行驶策略模型的参数与更改前的候选行驶策略模型的参数之间的差距，更新候选行驶策略模型的参数，得到目标行驶策略模型。

关于该步骤将在下文进行详细介绍。

本发明实施例提供的行驶策略模型训练方法，获取多个虚拟训练任务训练得到的候选行驶策略模型，从而可以保证获取到的候选行驶策略模型的准确性。然后，计算各真实训练任务与虚拟训练任务之间的任务相似性，从而可以保证获取到各真实训练任务与虚拟训练任务之间的任务相似性的准确性。然后，在各真实训练任务中采取候选行驶策略模型执行行驶交互过程，得到各真实训练状态信息对应的真实训练执行动作以及真实训练执行动作对应的真实训练奖励。根据真实训练奖励以及任务相似性，更新候选行驶策略模型的参数，得到目标行驶策略模型，使得训练得到的目标行驶策略模型能够适应真实驾驶任务，并可以在真实驾驶任务中完成车辆自动驾驶，从而在实际应用中达到预期的效果。

在本申请一个可选的实施例中，如图2所示，提供了一种行驶策略模型训练方法，以该方法应用与智能车辆为例进行说明，包括以下步骤：

S21、获取候选行驶策略模型。

其中，候选行驶策略模型根据多个虚拟训练任务训练得到。

关于该步骤请参见图1中对S11的介绍，在此不再进行赘述。

S22、计算各真实训练任务与虚拟训练任务之间的任务相似性。

具体地，上述步骤S22“计算各真实训练任务与虚拟训练任务之间的任务相似性”可以包括如下步骤：

S221、获取各真实训练任务中的真实状态轨迹。

其中，真实状态轨迹包括各时刻的真实训练状态信息、真实训练状态信息对应的真实训练执行动作以及真实训练奖励。

在本申请一种可选的实施方式中，智能车辆可以接收其他设备发送的真实训练任务对应的真实状态轨迹。

在本申请另一种可选的实施方式中，上述步骤S231中的“获取各真实训练任务对应的真实状态轨迹”可以包括如下步骤：

（1）获取各真实训练任务中初始真实训练状态信息。

其中，初始真实训练状态信息包括初始时刻的车辆真实训练状态信息以及环境真实训练状态信息。

（2）针对各真实训练任务，基于初始真实训练状态信息采取候选行驶策略模型执行行驶交互过程，获取行驶过程中各时刻的真实训练状态信息对应的真实训练执行动作。

（3）计算真实训练执行动作对应的真实训练奖励，以获得真实状态轨迹。

具体地，智能车辆可以将获取到真实训练任务中的各时刻的真实训练状态信息输入至候选行驶策略模型，候选行驶策略模型根据各时刻的真实训练状态信息特征输出各时刻的真实训练状态信息对应的下一时刻的真实训练执行动作。智能车辆对各时刻的真实训练状态信息对应的下一时刻的真实训练执行动作进行评估，获取到真实训练执行动作对应的真实训练奖励。

然后，智能车辆根据各时刻的真实训练状态信息对应的下一时刻的真实训练执行动作，可以获取到下一时刻对应的真实训练状态信息，将下一时刻对应的真实训练状态信息再次输入至候选行驶策略模型，候选行驶策略模型对下一时刻对应的真实训练状态信息进行特征提取，然后根据提取的特征输出下一时刻的真实训练状态信息对应的下下一时刻的真实训练执行动作。

如此循环，直至真实训练行驶过程结束，从而获取到真实训练任务中的真实状态轨迹。

在一种可选的实施方式中，为充分利用车辆与环境上下文交互信息，提高数据利用效率，可以采用潜在动作学习以及上下文变量提取对各真实训练任务中的真实状态轨迹进行处理。

其中，潜在动作学习处理具体如下：

智能车辆对车辆数据采集系统获取到的RGB图像、雷达点云等多模态感知信息，采用特征提取网络对多模态感知信息进行特征提取。其中，特征提取网络可以是DNN（DeepNeural Networks，深度神经网络）、CNN（Convolutional Neural Networks，卷积神经网络）、RNN（Recurrent Neural Network，循环神经网络）、图神经网络等，在特征提取网络是CNN时，其可以是V-Net网络、U-Net网络、生成式对抗网络Generative Adversarial Nets以及循环神经网络等。

示例性的，本申请实施例选择在ImageNet数据集上经过预训练的Resnet-34作为特征编码器的特征提取网络，用于提取环境语义信息和潜在感知信息。其中，环境语义信息包括移动障碍物、交通灯、路标、道路、人行道和背景等；潜在感知信息包括交通灯状态、车辆与交通灯的距离、车辆与车道中心的距离等。在系统与环境交互过程中，车辆每一时刻采集的原始感知数据都将经过特征编码器处理后得到一个包含语义分割和潜在状态的特征向量，可以将该特征向量作为各真实训练任务中的各时刻真实训练状态的特征表示。

其中，上下文变量提取处理具体如下：

由于候选行驶策略网络的更新过程是时序相关的，这种时序性可能会包含有关真实训练任务动态的潜在信息。针对各真实训练任务，将每一时刻的真实训练状态信息、真实训练执行动作和真实训练奖励记为一组真实状态轨迹

，针对车辆与环境交互过程中的时序隐藏状态，构建一个依赖于真实状态轨迹

的递归上下文变量z_t，这里z_t为一个递归模型

时刻的隐藏状态。受z_t约束，候选行驶策略网络和价值函数将分别定义为

和Q(s,a,z)。这里递归模型可以选择RNN、LSTM、GRU及相关模型变体，考虑到GRU在表征能力和计算复杂性之间具有较好的平衡，示例性的，本申请实施选择GRU构建真实训练任务的上下文变量。

其中，GRU门控循环单元主要由两个门函数构成：更新门和重置门。其中，更新门用于控制前一时刻的真实训练状态信息被带入到当前真实训练状态中的程度，重置门控制前一状态有真实训练状态信息被记录到当前的隐藏状态中。在驾驶过程中，通过上一时刻隐藏状态

和当前的真实状态轨迹

来获取两个门控状态。首先使用重置门函数得到当前隐藏状态

，这里

包含了当前输入的真实轨迹数据。接下来使用更新门函数进行遗忘和选择记忆，遗忘原本隐藏状态

的部分信息，并加入当前输入隐藏状态

的部分信息，两部分结合即可得到更新后的隐藏状态

，用来作为真实状态轨迹

的上下文变量。

S222、获取虚拟训练任务中的虚拟状态轨迹。

其中，虚拟状态轨迹包括各时刻的虚拟训练状态信息、虚拟训练状态信息对应的虚拟训练执行动作以及虚拟训练奖励。

具体地，智能车辆可以将获取到虚拟训练任务中的各时刻的虚拟训练状态信息输入至初始行驶策略网络，初始行驶策略网络对各时刻的虚拟训练状态信息进行特征提取，然后根据提取的特征输出各时刻的虚拟训练状态信息对应的下一时刻的虚拟训练执行动作。智能车辆对各时刻的虚拟训练状态信息对应的下一时刻的虚拟训练执行动作进行评估，获取到虚拟训练执行动作对应的虚拟训练奖励。

然后，智能车辆根据各时刻的虚拟训练状态信息对应的下一时刻的虚拟训练执行动作，可以获取到下一时刻对应的虚拟训练状态信息，将下一时刻对应的虚拟训练状态信息再次输入至初始行驶策略网络，初始行驶策略网络对下一时刻对应的虚拟训练状态信息进行特征提取，然后根据提取的特征输出下一时刻的虚拟训练状态信息对应的下下一时刻的虚拟训练执行动作。

如此循环，直至虚拟训练行驶过程结束，从而获取到虚拟训练任务中的虚拟状态轨迹。

具体地，智能车辆可以构建元虚拟训练任务集，其中元虚拟训练任务集中包含多个虚拟训练任务，根据各虚拟训练任务中的各时刻的虚拟训练状态信息、虚拟训练状态信息对应的虚拟训练执行动作以及虚拟训练奖励，生成虚拟状态轨迹。智能车辆可以将各元虚拟训练任务集中各虚拟训练任务的虚拟状态轨迹放回到缓冲区

，然后从缓冲区

中抽取虚拟状态轨迹。

在一种可选的实施方式中，为充分利用车辆与环境上下文交互信息，提高数据利用效率，可以采用潜在动作学习以及上下文变量提取对各元虚拟训练任务集中的虚拟状态轨迹进行处理。

其中，潜在动作学习处理具体如下：

示例性的，本申请实施例选择在ImageNet数据集上经过预训练的Resnet-34作为特征编码器的特征提取网络，用于提取环境语义信息和潜在感知信息。其中，环境语义信息包括移动障碍物、交通灯、路标、道路、人行道和背景等；潜在感知信息包括交通灯状态、车辆与交通灯的距离、车辆与车道中心的距离等。在系统与环境交互过程中，车辆每一时刻采集的原始感知数据都将经过特征编码器处理后得到一个包含语义分割和潜在状态的特征向量，可以将该特征向量作为初始行驶策略网络更新的虚拟状态信息输入。

其中，上下文变量提取处理具体如下：

由于初始行驶策略网络的更新过程是时序相关的，这种时序性可能会包含有关虚拟训练任务动态的潜在信息。针对各虚拟训练任务，将每一时刻的虚拟训练状态信息、虚拟训练执行动作和虚拟训练奖励记为一组虚拟状态轨迹

，针对车辆与环境交互过程中的时序隐藏状态，构建一个依赖于虚拟状态轨迹

的递归上下文变量z_t，这里z_t为一个递归模型

时刻的隐藏状态。受

约束，初始行驶策略网络和价值函数将分别定义为

和Q(s,a,z)。这里递归模型可以选择RNN、LSTM、GRU及相关模型变体，考虑到GRU在表征能力和计算复杂性之间具有较好的平衡，示例性的，本申请实施选择GRU构建虚拟训练任务的上下文变量。

和当前的真实状态轨迹

，这里

的部分信息，并加入当前输入隐藏状态

的部分信息，两部分结合即可得到更新后的隐藏状态

，用来作为真实状态轨迹

的上下文变量。

S223、根据真实状态轨迹以及虚拟状态轨迹，计算各真实训练任务与虚拟训练任务之间的任务相似性。

具体地，在获取到真实状态轨迹以及虚拟状态轨迹之后，智能车辆可以将真实状态轨迹与虚拟状态轨迹进行对比，从而计算各真实训练任务与虚拟训练任务之间的任务相似性。

具体地，上述步骤S233中的“根据真实状态轨迹以及虚拟状态轨迹，计算各真实训练任务与虚拟训练任务之间的任务相似性”，可以包括如下步骤：

（1）根据真实状态轨迹的分布以及虚拟状态轨迹的分布，计算倾向得分。

（2）根据倾向得分的数值，计算任务相似性。

具体地，对于真实训练任务D^new而言，即便与元虚拟训练任务集D_meta不相交，但由于真实训练任务D^new与元虚拟训练任务集D_meta来自相同的任务分布。因此，元虚拟训练任务集对应的虚拟状态轨迹可以在利用真实训练任务更新候选行驶策略模型的参数时，起到进行适应性训练的作用。

因此，智能车辆可以直接从元虚拟训练任务集回放缓冲区

中获取与真实训练任务中类似的虚拟状态轨迹，扩充用于自适应处理的数据量。然而，由于即使来自同一任务的轨迹数据也会存在较大的潜在偏差，这里使用倾向性估计技术进行调整。

首先根据获取真实训练任务D^new对应的真实状态轨迹数据R^new。

在此过程中同样对真实状态轨迹的上下文交互数据进行潜在动作学习和上下文变量提取。利用一个逻辑分类器对来自元虚拟训练任务集回放缓冲区

的部分虚拟状态轨迹和真实训练任务D^new对应的真实状态轨迹数据R^new进行逻辑分类。将虚拟状态轨迹上下文变量和真实状态轨迹上下文变量作为逻辑分类器的数据特征，假定真实状态轨迹的分布为

，虚拟状态轨迹的分布为

，通过逻辑分类器可得到真实状态轨迹相对于虚拟状态轨迹的倾向得分：

(1)

用于度量来自分布

对分布

的样本

的概率。

在根据真实状态轨迹的分布以及虚拟状态轨迹的分布，计算得到倾向得分之后，为防止在利用真实训练任务训练候选行驶策略模型时，模型的精准

度恶化，通常可以添加自适应惩罚函数。其中，自适应惩罚函数可以是二次惩罚项

，从而使更新后的候选行驶策略模型参数接近于更新前的候选行驶策略模型

。但当真实状态轨迹与虚拟状态轨迹任务相似性较高时，可适当减小二次惩罚项占比，反之则增大，因此可根据真实训练任务与虚拟训练任务之间的任务相似性来启发式调整惩罚项占比。

在本申请一个可选的实施方式中，智能车辆可以利用归一化有效样本量

来度量真实训练任务与虚拟训练任务之间的任务相似性，将

定义为D^new和

之间的有效样本大小，基于任务倾向得分β，可采用蒙特卡罗方法计算真实训练任务与虚拟训练任务之间的任务相似性：

(2)

如果真实状态轨迹与虚拟状态轨迹的分布接近，则

接近1，反之则

接近 0。

S23、在各真实训练任务中，采取候选行驶策略模型执行行驶交互过程，得到各真实训练状态信息对应的真实训练执行动作以及真实训练执行动作对应的真实训练奖励。

关于该步骤请参见图1中对S13的介绍，在此不再进行赘述。

S24、根据真实训练奖励以及任务相似性，更新候选行驶策略模型的参数，得到目标行驶策略模型。

具体地，上述步骤S24“根据真实训练奖励以及任务相似性，更新候选行驶策略模型的参数，得到目标行驶策略模型”，可以包括如下步骤：

S241、根据任务相似性确定自适应惩罚函数的权重。

其中，自适应惩罚函数用于表征更新后的模型参数与更新前的模型参数之间的差距。

具体地，根据上述内容可知，为防止在真实训练任务中训练候选行驶策略模型时，模型的精准度恶化，通常可以添加自适应惩罚函数。其中，自适应惩罚函数可以是二次惩罚项

使更新后的候选行驶策略模型参数接近于更新前的候选行驶策略模型

。但当真实状态轨迹与虚拟状态轨迹任务相似性较高时，可适当减小二次惩罚项占比，反之则增大，因此可根据真实训练任务与虚拟训练任务之间的任务相似性来启发式调整惩罚项占比。因此，智能车辆可以根据任务相似性确定自适应惩罚函数的权重。

S242、根据真实训练奖励、任务相似性以及自适应惩罚函数的权重，更新候选行驶策略模型的参数，得到目标行驶策略模型。

具体地，智能车辆直接从元虚拟训练任务集回放缓冲区

中抽取小批量的虚拟状态轨迹样本

，结合真实训练任务中的真实状态轨迹数据

，计算虚拟状态轨迹与真实状态轨迹之间的倾向得分β。然后，根据自适应惩罚函数的权重确定更改后的候选行驶策略模型的参数与更改前的候选行驶策略模型的参数之间的差距，根据虚拟状态轨迹与真实状态轨迹之间的倾向得分和真实训练任务对应的真实训练奖励对应期望值以及真实训练奖励更新候选行驶策略模型的参数，得到目标行驶策略模型。

在本申请一个可选的实施方式中，智能车辆可以根据以下公式更新候选行驶策略模型的参数，得到目标行驶策略模型。

(3)

其中，第一项是根据真实训练任务对应的真实训练奖励更新；第二项是利用虚拟训练任务执行倾向分数β加权的策略适应更新，通过倾向得分β来决定虚拟状态轨迹是否与真实状态轨迹相关；而第三项是自适应惩罚项，

为惩罚系数。根据虚拟状态轨迹与真实状态轨迹的任务相似性，这里将惩罚系数

调整为

，如果

很大，意味着虚拟状态轨迹与真实状态轨迹任务相似性较高，则会减小二次惩罚，反之亦然。

上述自适应训练过程将反复迭代进行，与此同时，虚拟状态轨迹数据会被重复利用。当达到设定迭代数上限，则训练终止，得到目标行驶策略模型，并保存目标行驶策略模型

。

本发明实施例提供的行驶策略模型训练方法，获取各真实训练任务，然后将真实训练任务中各时刻的真实训练状态信息输出入候选行驶策略模型，输出各时刻的真实训练状态信息对应的真实训练执行动作；然后，计算真实训练执行动作对应的真实训练奖励，从而根据各时刻对应的真实训练状态信息、真实训练执行动作以及真实训练奖励，获得真实状态轨迹，保证了获取到的真实状态轨迹的准确性。

然后，根据真实状态轨迹的分布以及虚拟状态轨迹的分布，计算倾向得分。从而保证计算得到的倾向得分的准确性。然后，根据倾向得分的数值，计算任务相似性，从而保证了计算得到的任务相似性的准确性。

最后，根据任务相似性确定自适应惩罚函数的权重，从而可以根据自适应惩罚函数的权重确定更新后的模型参数与更新前的模型参数之间的差距。然后根据真实训练奖励、任务相似性以及自适应惩罚函数的权重，更新候选行驶策略模型的参数，得到目标行驶策略模型，从而保证了训练得到的目标行驶策略模型的准确性。使得训练得到的目标行驶策略模型能够适应真实驾驶任务，并可以基于真实驾驶任务完成车辆自动驾驶，从而在实际应用中达到预期的效果。

在本申请一个实施例中，如图3所示，提供了一种候选行驶策略模型训练方法，以该方法应用于电子设备为例进行说明，包括以下步骤：

S31、获取元虚拟训练任务集。

其中，元虚拟训练任务集中包括多个虚拟训练任务。

在一种可选的实施方式中，智能车辆可以接收用户输入的元虚拟训练任务集。

在另一种可选的实施方式中，智能车辆还可以接收其他设备发送的元虚拟训练任务集。

在另一种可选的实施方式中，电子设备还可以获取车辆数据采集系统采集到的RGB图像、雷达点云等多模态感知信息，采用特征提取网络对训练状态信息进行特征提取。其中，特征提取网络可以是DNN（Deep Neural Networks，深度神经网络）、CNN（Convolutional Neural Networks，卷积神经网络）、RNN（Recurrent Neural Network，循环神经网络）、图神经网络等，在特征提取网络是CNN时，其可以是V-Net网络、U-Net网络、生成式对抗网络Generative Adversarial Nets以及循环神经网络等。

示例性的，本申请实施例选择在ImageNet数据集上经过预训练的Resnet-34作为特征编码器的基础网络，用于提取环境语义信息和潜在感知信息。其中，环境语义信息包括移动障碍物、交通灯、路标、道路、人行道和背景等；潜在感知信息包括交通灯状态、车辆与交通灯的距离、车辆与车道中心的距离等。在系统与环境交互过程中，车辆每一时刻采集的原始感知数据都将经过特征编码器处理后得到一个包含语义分割和潜在状态的特征向量，将该特征向量作为各虚拟训练任务中的各时刻虚拟训练状态的特征表示。

S32、在各虚拟训练任务中采取初始行驶策略网络执行行驶交互过程，获取虚拟训练任务中各虚拟训练状态信息对应的虚拟训练执行动作。

S33、获取虚拟训练执行动作对应的虚拟训练奖励。

S34、根据虚拟训练奖励，更新初始行驶策略网络，重复上述行驶交互与策略更新过程，得到候选行驶策略模型。

具体地，电子设备可以获取各虚拟训练任务中各时刻的虚拟训练状态信息。然后，电子设备可以将获取到虚拟训练任务中的各时刻的虚拟训练状态信息输入至初始行驶策略网络，初始行驶策略网络输出各时刻的虚拟训练状态信息对应的下一时刻的虚拟训练执行动作。电子设备对各时刻的虚拟训练状态信息对应的下一时刻的虚拟训练执行动作进行评估，获取到虚拟训练执行动作对应的虚拟训练奖励。

电子设备根据虚拟训练执行动作对应的虚拟训练奖励，更新初始行驶策略网络，得到更新后的初始行驶策略网络，如此循环，直至虚拟训练任务结束，得到候选行驶策略模型。

具体地，上述S34可以包括：

（1）在各虚拟训练任务中，根据各虚拟训练执行动作对应的虚拟训练奖励，计算各虚拟训练执行动作对应的虚拟价值；

（2）根据各虚拟训练执行动作对应的虚拟价值，计算初始行驶策略网络对应的优化目标函数；

（3）根据优化目标函数，更新行驶策略网络的参数；

（4）重复上述更新过程，得到候选行驶策略模型。

具体地，考虑n个不同场景下的虚拟训练任务，可以将车辆驾驶过程进行MDP建模：

(4)

其中，s_t为t时刻的虚拟训练状态信息，a_t为t时刻采取的虚拟训练执行动作，

为 t时刻的动态噪声（传感器误差），

为第k个任务中的状态转移模型。给初始行驶策略网络为

和虚拟奖励函数r^k，根据行驶距离、速度、车辆等信息计算各虚拟训练任务对应的虚拟训练奖励，然后根据各虚拟训练任务对应的虚拟训练奖励计算各虚拟训练任务对应的虚拟价值，其中，虚拟价值函数如下：

(5)

其中，

为奖励折扣因子，

可理解为初始行驶策略网络的参数。根据各虚拟训练任务对应的虚拟价值，计算初始行驶策略网络对应的优化目标函数为：

(6)

进一步初始行驶策略网络

的优化过程中，优化目标函数可定义如下：

(7)

为减少训练数据量、提升策略泛化性能，优化目标函数

中的期望不需要由正在优化的策略所生成的数据来计算，而是可以来自其他策略，因此采用基于异策略（off- policy）的深度强化学习算法来优化初始行驶策略网络

。基于异策略的深度强化学习算法主要有DQN、DDPG、TD3、SAC等，考虑到TD3能有效避免过度估计偏差，示例性的，本申请实施例将选用TD3进行介绍。

在多个不同的虚拟训练任务中，车辆具有相同的状态和动作空间，但状态转移

和奖励函数

可能不同，这里对每个虚拟训练任务建立数据集：

(8)

每个数据集中包括与虚拟执行动作

和初始行驶策略网络

有关的所有虚拟训练状态信息、虚拟训练执行动作及虚拟奖励。进一步可构建自动驾驶任务的元虚拟训练任务集

，并按照元训练方式更新初始行驶策略网络

。

在本申请一个可选的实施方式中，为降低元训练难度，本实施例通过构建多虚拟训练任务目标，以多虚拟训练任务平均回报最大化的方式进行元训练，减小训练过程中目标函数的优化复杂性。

具体地，从元虚拟训练任务集D_meta选取虚拟训练任务D^k，在与环境交互获取到潜在动作信息和上下文变量后，根据初始行驶策略网络

从虚拟训练任务D^k中收集虚拟状态轨迹

，并将虚拟状态轨迹

放回到缓冲区

。从缓冲区

中抽取小批量虚拟状态轨迹样本，采用多虚拟训练任务目标进行元训练，从而使参数

实现元虚拟训练任务集所有虚拟训练任务的平均回报最大化。将任务目标设置为单步时序差分（TD）误差，即

，使用TD3更新策略参数：

(9)

上述过程将在车辆与环境的交互中反复进行，当达到训练终止条件，得到候选行驶策略模型，保存候选行驶策略模型参数

，同时保存虚拟状态轨迹回放缓冲区

。这里的终止条件可以是针对训练次数设定上限，也可以针对参数

的更新梯度设定阈值，在实际应用时可根据任务需求做不同设置。

此外，在各虚拟训练任务中，根据各虚拟训练执行动作对应的虚拟训练奖励，计算各虚拟训练执行动作对应的虚拟价值，从而保证了计算得到的虚拟价值的准确性。然后，根据各虚拟训练执行动作对应的虚拟价值，计算初始行驶策略网络对应的优化目标函数，从而使得可以根据优化目标函数，更新初始行驶策略网络的参数，得到候选行驶策略模型。从而保证了得到的候选行驶策略模型的准确性。

本申请实施例还提供了一种自动驾驶的控制方法，需要说明的是，本申请实施例提供的自动驾驶的控制方法，其执行主体可以是自动驾驶的控制方法的装置，该自动驾驶的控制方法的装置可以通过软件、硬件或者软硬件结合的方式实现成为智能车辆的部分或者全部，下述方法实施例中，均以执行主体是智能汽车为例来进行说明。

在本申请一个实施例中，如图4所示，提供了一种自动驾驶的控制方法，以该方法应用与智能车辆为例进行说明，包括以下步骤：

S41、获取目标车辆的初始真实状态信息。

其中，初始真实状态信息包括车辆初始真实状态信息以及环境初始真实状态信息；目标车辆中部署有目标行驶策略模型。

具体地，智能车辆还可以利用摄像头、雷达、定位系统等组件，获取车辆初始真实状态信息以及环境初始真实状态信息，根据车辆初始真实状态信息以及环境初始真实状态信息获取到初始真实状态信息。

S42、基于车辆初始真实状态信息以及环境初始真实状态信息，采取目标行驶策略模型执行行驶交互过程，获取各时刻对应的真实执行动作，以控制目标车辆自动行驶。

其中，目标行驶策略模型根据上述实施方式中的任一项的行驶策略模型训练方法训练得到。

具体地，智能车辆将目标车辆的初始真实状态信息以及环境初始真实状态信息输入至目标行驶策略模型，目标行驶策略模型根据目标车辆的初始真实状态信息以及环境初始真实状态信息输出下一时刻对应的真实执行动作。然后，根据下一时刻对应的真实执行动作获取下一时刻对应的真实状态信息，再次将下一时刻对应的真实状态信息输入至目标行驶策略模型，得到下下一时刻对应的真实执行动作，如此循环，完成目标车辆在真实驾驶任务中的自动行驶。

应该理解的是，虽然图1-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-4中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

如图5所示，本实施例提供一种自动驾驶模型训练装置，该装置包括：

第一获取模块51，用于获取候选行驶策略模型；候选行驶策略模型根据多个虚拟训练任务训练得到；

计算模块52，用于计算各真实训练任务与虚拟训练任务之间的任务相似性；

执行模块53，用于在各真实训练任务中采取候选行驶策略模型执行行驶过程，得到各真实训练状态信息对应的真实训练执行动作以及真实训练执行动作对应的真实训练奖励；

第一更新模块54，用于根据真实训练奖励以及任务相似性，更新候选行驶策略模型的参数，得到目标行驶策略模型。

在本申请一个实施例中，上述计算模块52，具体用于获取各真实训练任务中的真实状态轨迹，真实状态轨迹包括各时刻的真实训练状态信息、真实训练状态信息对应的真实训练执行动作以及真实训练奖励；

获取虚拟训练任务中的虚拟状态轨迹；虚拟状态轨迹包括各时刻的虚拟训练状态信息、虚拟训练状态信息对应的虚拟训练执行动作以及虚拟训练奖励；

在本申请一个实施例中，上述计算模块52，具体用于获取各真实训练任务中初始真实训练状态信息，初始真实训练状态信息包括初始时刻的车辆真实训练状态信息以及环境真实训练状态信息；

在本申请一个实施例中，上述计算模块52，具体用于根据真实状态轨迹的分布以及虚拟状态轨迹的分布，计算倾向得分；

根据倾向得分的数值，计算任务相似性。

在本申请一个实施例中，上述第一更新模块54，具体用于根据任务相似性确定自适应惩罚函数的权重，自适应惩罚函数用于表征更新后的模型参数与更新前的模型参数之间的差距；

如图6所示，本实施例提供一种候选行驶策略模型训练装置，该装置包括：

第二获取模块61，用于获取元虚拟训练任务集；元虚拟训练任务集中包括多个虚拟训练任务；

第三获取模块62，用于在各虚拟训练任务中采取初始行驶策略网络执行行驶交互过程，获取虚拟训练任务中各虚拟训练状态信息对应的虚拟训练执行动作；

第四获取模块63，用于获取虚拟训练执行动作对应的虚拟训练奖励；

第二更新模块64，用于根据虚拟训练奖励，更新初始行驶策略网络，重复上述行驶交互与策略更新过程，得到候选行驶策略模型，候选行驶策略模型为上述实施方式中任一的候选行驶策略模型。

在本申请一个实施例中，上述更新模块64，具体用于在各虚拟训练任务中，根据各虚拟训练执行动作对应的虚拟训练奖励，计算各虚拟训练执行动作对应的虚拟价值；根据各虚拟训练执行动作对应的虚拟价值，计算初始行驶策略网络对应的优化目标函数；根据优化目标函数，更新行驶策略网络的参数；重复上述更新过程，得到候选行驶策略模型。

如图7所示，本发明实施例还提供了一种自动驾驶的控制装置，装置包括：

第五获取模块71，用于获取目标车辆的初始真实状态信息；初始真实状态信息包括车辆初始真实状态信息以及环境初始真实状态信息；目标车辆中部署有目标行驶策略模型。

控制模块72，用于基于车辆初始真实状态信息以及环境初始真实状态信息，采取目标行驶策略模型执行行驶交互过程，获取各时刻对应的真实执行动作，以控制目标车辆自动行驶；目标行驶策略模型根据上述实施方式中的行驶策略模型训练方法训练得到。

关于行驶策略模型训练装置、候选行驶策略模型训练装置以及自动驾驶的控制装置的具体限定以及有益效果可以参见上文中对于行驶策略模型训练方法、候选行驶策略模型训练方法以及自动驾驶的控制方法的限定，在此不再赘述。上述行驶策略模型训练装置、候选行驶策略模型训练装置以及自动驾驶的控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于智能车辆中的处理器中，也可以以软件形式存储于智能车辆中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本发明实施例还提供一种智能车辆，具有上述图5所示的行驶策略模型训练装置以及图7所示的自动驾驶的控制装置。

如图8所示，图8是本发明可选实施例提供的一种智能车辆的结构示意图，如图8所示，该智能车辆可以包括：至少一个处理器81，例如CPU（Central Processing Unit，中央处理器），至少一个通信接口83，存储器84，至少一个通信总线82。其中，通信总线82用于实现这些组件之间的连接通信。其中，通信接口83可以包括显示屏（Display）、键盘（Keyboard），可选通信接口83还可以包括标准的有线接口、无线接口。存储器84可以是高速RAM存储器（Random Access Memory，易挥发性随机存取存储器），也可以是非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器。存储器84可选的还可以是至少一个位于远离前述处理器81的存储装置。其中处理器81可以结合图5以及图7所描述的装置，存储器84中存储应用程序，且处理器81调用存储器84中存储的程序代码，以用于执行上述任一方法步骤。

其中，通信总线82可以是外设部件互连标准（peripheral componentinterconnect，简称PCI）总线或扩展工业标准结构（extended industry standardarchitecture，简称EISA）总线等。通信总线82可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器84可以包括易失性存储器（英文：volatile memory），例如随机存取存储器（英文：random-access memory，缩写：RAM）；存储器也可以包括非易失性存储器（英文：non-volatile memory），例如快闪存储器（英文：flash memory），硬盘（英文：hard diskdrive，缩写：HDD）或固态硬盘（英文：solid-state drive，缩写：SSD）；存储器84还可以包括上述种类的存储器的组合。

其中，处理器81可以是中央处理器（英文：central processing unit，缩写：CPU），网络处理器（英文：network processor，缩写：NP）或者CPU和NP的组合。

其中，处理器81还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路（英文：application-specific integrated circuit，缩写：ASIC），可编程逻辑器件（英文：programmable logic device，缩写：PLD）或其组合。上述PLD可以是复杂可编程逻辑器件（英文：complex programmable logic device，缩写：CPLD），现场可编程逻辑门阵列（英文：field-programmable gate array，缩写：FPGA），通用阵列逻辑（英文：generic arraylogic, 缩写：GAL）或其任意组合。

可选地，存储器84还用于存储程序指令。处理器81可以调用程序指令，实现如本申请图1、图2以及4实施例中所示的行驶策略模型训练方法以及自动驾驶的控制方法。

本发明实施例还提供了一种非暂态计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的行驶策略模型训练方法以及自动驾驶的控制方法。其中，存储介质可为磁碟、光盘、只读存储记忆体（Read-OnlyMemory，ROM）、随机存储记忆体（Random Access Memory，RAM）、快闪存储器（FlashMemory）、硬盘（Hard Disk Drive，缩写：HDD）或固态硬盘（Solid-State Drive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种行驶策略模型训练方法，其特征在于，所述方法包括：

获取候选行驶策略模型；所述候选行驶策略模型根据多个虚拟训练任务训练得到；

计算各真实训练任务与所述虚拟训练任务之间的任务相似性；

在各所述真实训练任务中采取候选行驶策略模型执行行驶过程，得到各真实训练状态信息对应的真实训练执行动作以及所述真实训练执行动作对应的真实训练奖励；

根据所述真实训练奖励以及所述任务相似性，更新所述候选行驶策略模型的参数，得到目标行驶策略模型；

其中，所述计算各真实训练任务与所述虚拟训练任务之间的任务相似性，包括：

获取各所述真实训练任务中的真实状态轨迹，所述真实状态轨迹包括各时刻的真实训练状态信息、所述真实训练状态信息对应的真实训练执行动作以及真实训练奖励；

获取所述虚拟训练任务中的虚拟状态轨迹；所述虚拟状态轨迹包括各时刻的虚拟训练状态信息、所述虚拟训练状态信息对应的虚拟训练执行动作以及虚拟训练奖励；

根据所述真实状态轨迹以及所述虚拟状态轨迹，计算各所述真实训练任务与所述虚拟训练任务之间的任务相似性；

其中，所述获取各所述真实训练任务中的真实状态轨迹，包括：

获取各所述真实训练任务中初始真实训练状态信息，所述初始真实训练状态信息包括初始时刻的车辆真实训练状态信息以及环境真实训练状态信息；

针对各所述真实训练任务，基于所述初始真实训练状态信息采取所述候选行驶策略模型执行行驶交互过程，获取行驶过程中各时刻的真实训练状态信息对应的真实训练执行动作；

计算所述真实训练执行动作对应的真实训练奖励，以获得所述真实状态轨迹。

2.根据权利要求1所述的方法，其特征在于，所述根据所述真实状态轨迹以及所述虚拟状态轨迹，计算各所述真实训练任务与所述虚拟训练任务之间的任务相似性，包括：

根据所述真实状态轨迹的分布以及所述虚拟状态轨迹的分布，计算倾向得分；

根据所述倾向得分的数值，计算所述任务相似性。

3.根据权利要求1所述的方法，其特征在于，所述根据所述真实训练奖励以及所述任务相似性，更新所述候选行驶策略模型的参数，得到目标行驶策略模型，包括：

根据所述任务相似性确定自适应惩罚函数的权重，所述自适应惩罚函数用于表征更新后的模型参数与更新前的模型参数之间的差距；

根据所述真实训练奖励、所述任务相似性以及所述自适应惩罚函数的权重，更新所述候选行驶策略模型的参数，得到目标行驶策略模型。

4.一种候选行驶策略模型训练方法，其特征在于，所述方法包括：

获取元虚拟训练任务集；所述元虚拟训练任务集中包括多个虚拟训练任务；

在各所述虚拟训练任务中采取初始行驶策略网络执行行驶交互过程，获取所述虚拟训练任务中各虚拟训练状态信息对应的虚拟训练执行动作；

获取所述虚拟训练执行动作对应的虚拟训练奖励；

根据所述虚拟训练奖励，更新所述初始行驶策略网络，重复上述行驶交互与策略更新过程，得到所述候选行驶策略模型，所述候选行驶策略模型为权利要求1-3任一所述方法中的候选行驶策略模型。

5.根据权利要求4所述的方法，其特征在于，所述根据所述虚拟训练奖励，更新所述初始行驶策略网络，重复上述行驶交互与策略更新过程，得到所述候选行驶策略模型，包括：

在各所述虚拟训练任务中，根据各所述虚拟训练执行动作对应的虚拟训练奖励，计算各所述虚拟训练执行动作对应的虚拟价值；

根据各所述虚拟训练执行动作对应的虚拟价值，计算所述初始行驶策略网络对应的优化目标函数；

根据所述优化目标函数，更新所述初始行驶策略网络的参数；

重复上述更新过程，得到所述候选行驶策略模型。

6.一种自动驾驶的控制方法，其特征在于，所述方法包括：

获取目标车辆的初始真实状态信息；所述初始真实状态信息包括车辆初始真实状态信息以及环境初始真实状态信息；所述目标车辆中部署有目标行驶策略模型；

基于所述车辆初始真实状态信息以及所述环境初始真实状态信息，采取所述目标行驶策略模型执行行驶交互过程，获取各时刻对应的真实执行动作，以控制所述目标车辆自动行驶；所述目标行驶策略模型根据权利要求1-3中任一项所述的行驶策略模型训练方法训练得到。

7.一种行驶策略模型训练装置，其特征在于，所述装置包括：

第一获取模块，用于获取候选行驶策略模型；所述候选行驶策略模型根据多个虚拟训练任务训练得到；

计算模块，用于计算各真实训练任务与所述虚拟训练任务之间的任务相似性；其中，所述计算各真实训练任务与所述虚拟训练任务之间的任务相似性，包括：获取各所述真实训练任务中的真实状态轨迹，所述真实状态轨迹包括各时刻的真实训练状态信息、所述真实训练状态信息对应的真实训练执行动作以及真实训练奖励；获取所述虚拟训练任务中的虚拟状态轨迹；所述虚拟状态轨迹包括各时刻的虚拟训练状态信息、所述虚拟训练状态信息对应的虚拟训练执行动作以及虚拟训练奖励；根据所述真实状态轨迹以及所述虚拟状态轨迹，计算各所述真实训练任务与所述虚拟训练任务之间的任务相似性；其中，所述获取各所述真实训练任务中的真实状态轨迹，包括：获取各所述真实训练任务中初始真实训练状态信息，所述初始真实训练状态信息包括初始时刻的车辆真实训练状态信息以及环境真实训练状态信息；针对各所述真实训练任务，基于所述初始真实训练状态信息采取所述候选行驶策略模型执行行驶交互过程，获取行驶过程中各时刻的真实训练状态信息对应的真实训练执行动作；计算所述真实训练执行动作对应的真实训练奖励，以获得所述真实状态轨迹；

执行模块，用于在各所述真实训练任务中采取候选行驶策略模型执行行驶过程，得到各真实训练状态信息对应的真实训练执行动作以及所述真实训练执行动作对应的真实训练奖励；

第一更新模块，用于根据所述真实训练奖励以及所述任务相似性，更新所述候选行驶策略模型的参数，得到目标行驶策略模型。

8.一种候选行驶策略模型训练装置，其特征在于，所述装置包括：

第二获取模块，用于获取元虚拟训练任务集；所述元虚拟训练任务集中包括多个虚拟训练任务；

第三获取模块，用于在各所述虚拟训练任务中采取初始行驶策略网络执行行驶交互过程，获取所述虚拟训练任务中各虚拟训练状态信息对应的虚拟训练执行动作；

第四获取模块，用于获取所述虚拟训练执行动作对应的虚拟训练奖励；

第二更新模块，用于根据所述虚拟训练奖励，更新所述初始行驶策略网络，重复上述行驶交互与策略更新过程，得到所述候选行驶策略模型，所述候选行驶策略模型为权利要求1-3任一所述方法中的候选行驶策略模型。

9.一种智能车辆，其特征在于，包括存储器和处理器，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1-3中任一项所述的行驶策略模型训练方法以及权利要求6中所述的自动驾驶的控制方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使计算机执行权利要求1-3中任一项所述的行驶策略模型训练方法以及权利要求6中所述的自动驾驶的控制方法。