CN109685214A

CN109685214A - 一种驾驶模型训练方法、装置和终端设备

Info

Publication number: CN109685214A
Application number: CN201811639549.XA
Authority: CN
Inventors: 闫泳杉
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Apollo Intelligent Technology Beijing Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-04-26
Anticipated expiration: 2038-12-29
Also published as: CN109685214B

Abstract

本发明实施例提供一种驾驶模型训练方法、装置和终端设备，该方法包括：获取基础驾驶模型，其中，所述基础驾驶模型为使用第一场景的样本数据进行训练得到的驾驶模型；使用第二场景的样本数据对所述基础驾驶模型进行训练，以得到用于在所述第二场景进行驾驶的目标驾驶模型。本发明实施例可以加快目标驾驶模型的收敛速度。

Description

一种驾驶模型训练方法、装置和终端设备

技术领域

本发明涉及自动驾驶技术领域，尤其涉及一种驾驶模型训练方法、装置和终端设备。

背景技术

随着深度学习技术的迅速发展，以及人工智能的深入研究，目前车辆从人工驾驶向自动驾驶的趋势进行变化。其中，通过模型实现自动驾驶是目前自动驾驶领域的一个主要研究方向。目前车辆中往往会有多个模型，例如：不同驾驶场景对应不同的模型，或者，不同控制指令对应不同的模型等等。且目前模型训练都是采用模型对应的样本数据进行训练，例如：第一场景的模型使用第一场景的样本数据进行训练，第二场景的模型使用第二场景的样本数据进行训练。然而，这种模型训练方式的模型收敛速度比较慢。

发明内容

本发明实施例提供一种驾驶模型训练方法、装置和终端设备，以解决模型收敛速度比较慢的问题。

本发明实施例提供一种驾驶模型训练方法，包括：

获取基础驾驶模型，其中，所述基础驾驶模型为使用第一场景的样本数据进行训练得到的驾驶模型；

使用第二场景的样本数据对所述基础驾驶模型进行训练，以得到用于在所述第二场景进行驾驶的目标驾驶模型。

可选的，所述使用第二场景的样本数据对所述基础驾驶模型进行训练，以得到用于在第二场景进行驾驶的目标驾驶模型之前，所述方法还包括：

将预设学习率调低，以得到用于所述目标驾驶模型训练的目标学习率，其中，所述预设学习率为所述基础驾驶模型训练过程中使用的学习率或者通用学习率；

所述使用第二场景的样本数据对所述基础驾驶模型进行训练，以得到用于在第二场景进行驾驶的目标驾驶模型，包括：

按照所述目标学习率，使用第二场景的样本数据对所述基础驾驶模型进行训练，以得到用于在第二场景进行驾驶的目标驾驶模型。

可选的，所述基础驾驶模型包括多个卷积块，所述第一场景和所述第二场景存在共同道路特征，所述使用第二场景的样本数据对所述基础驾驶模型进行训练，以得到用于在第二场景进行驾驶的目标驾驶模型，包括：

使用第二场景的样本数据对所述基础驾驶模型进行多次微调，其中，每次微调时冻结所述基础驾驶模型的部分卷积块，直到所述基础驾驶模型的损失值低于特定门限值的，以获得用于在所述第二场景进行驾驶的目标驾驶模型。

可选的，所述多次微调中每次微调所冻结的卷积块数量不同；或者，

所述多次微调中存在所冻结的卷积块数量相同，但存在不同的卷积块的至少两次微调。

可选的，所述第一场景为开放道路，所述第二场景为园区。

本发明实施例还提供一种驾驶模型训练装置，包括：

获取模块，用于获取基础驾驶模型，其中，所述基础驾驶模型为使用第一场景的样本数据进行训练得到的驾驶模型；

训练模块，用于使用第二场景的样本数据对所述基础驾驶模型进行训练，以得到用于在所述第二场景进行驾驶的目标驾驶模型。

可选的，所述装置还包括：

调整模块，用于将预设学习率调低，以得到用于所述目标驾驶模型训练的目标学习率，其中，所述预设学习率为所述基础驾驶模型训练过程中使用的学习率或者通用学习率；

所述训练模块用于按照所述目标学习率，使用第二场景的样本数据对所述基础驾驶模型进行训练，以得到用于在第二场景进行驾驶的目标驾驶模型。

可选的，所述基础驾驶模型包括多个卷积块，所述第一场景和所述第二场景存在共同道路特征，所述训练模块用于使用第二场景的样本数据对所述基础驾驶模型进行多次微调，其中，每次微调时冻结所述基础驾驶模型的部分卷积块，直到所述基础驾驶模型的损失值低于特定门限值的，以获得用于在所述第二场景进行驾驶的目标驾驶模型。

可选的，所述第一场景为开放道路，所述第二场景为园区。

本发明实施例还提供一种终端设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现本发明实施例提供的驾驶模型训练方法的步骤。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例提供的驾驶模型训练方法的步骤。

本发明实施例中，获取基础驾驶模型，其中，所述基础驾驶模型为使用第一场景的样本数据进行训练得到的驾驶模型；使用第二场景的样本数据对所述基础驾驶模型进行训练，以得到用于在所述第二场景进行驾驶的目标驾驶模型。由于目标驾驶模型是在使用第一场景的样本数据进行训练得到的基础驾驶模型进行训练，从而可以加快目标驾驶模型的收敛速度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种驾驶模型训练方法的流程图；

图2是本发明实施例提供的一种收敛曲线的示意图；

图3是本发明实施例提供的另一种驾驶模型训练方法的示意图；

图4是本发明实施例提供的一种驾驶模型训练装置的结构图；

图5是本发明实施例提供的另一种驾驶模型训练装置的结构图；

图6是本发明实施例提供的一种终端设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的说明书和权利要求书中的术语“包括”以及它的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。此外，说明书以及权利要求中使用“和/或”表示所连接对象的至少其中之一，例如A和/或B，表示包含单独A，单独B，以及A和B都存在三种情况。

在本发明实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

请参见图1，图1是本发明实施例提供的一种驾驶模型训练方法的流程图，如图1所示，包括以下步骤：

步骤101、获取基础驾驶模型，其中，所述基础驾驶模型为使用第一场景的样本数据进行训练得到的驾驶模型。

其中，上述基础驾驶模型可以预先训练好的，例如：预先使用上述使用第一场景的样本数据进行对初始模型训练，以得到上述基础驾驶模型。另外，由于上述基础驾驶模型为使用第一场景的样本数据进行训练得到的驾驶模型，从而上述基础驾驶模型也可以是用于在上述第一场景进行驾驶的模型。具体可以是，预先定义模型结构，并准备上述第一场景的样本数据，以使用第一场景的样本数据对该模型结构进行训练，得到上述基础驾驶模型。其中，上述模型结构可以是一端到端的基础模型，例如：frozen基础模型。

步骤102、使用第二场景的样本数据对所述基础驾驶模型进行训练，以得到用于在所述第二场景进行驾驶的目标驾驶模型。

上述第一场景和第二场景可以是两个存在特定关系的场景，例如：第一场景和所述第二场景存在共同道路特征，即这两个场景中有部分道路特征是相同的。

优选的，上述第一场景为开放道路，所述第二场景为园区。

其中，上述开放道路可以是园区以外的道路，而上述园区可以是封装园区，例如：驾校或者小园等。当然，本发明实施例中，并不限定上述园区为封闭园区，例如：也可以是开放园区。

另外，上述开放道路的样本数据可以是采集车在开放道路采集的数据，例如：开放道路的样本数据可以覆盖了中国公路网，总长可以达百万公里。而上述园区的样本数据可以是采集车在园区内采集的数据，例如：园区的样本数据可以覆盖了一个或者多个园区内的车辆行驶路径。

该实施方式中，由于基础模型为开放道路的样本数据训练得到的模型，而开放道路的样本数据的更加丰富多样，进而增加了上述目标驾驶模型泛化能力，例如：使得上述目标驾驶模型的适应能力更强，可以适应更加道路的驾驶。

当然，本发明实施例中，并不限定上述第一场景为开放道路，所述第二场景为园区，例如：上述第一场景可以为县级以上道路，而上述第二场景可以为乡级道路。

另外，本发明实施例中，上述基础驾驶模型和目标驾驶模型可以是车辆在驾驶过程中可以使用的模型，例如：转向控制模型、速度控制模型、刹车控制模型、档位控制模型、转向灯控制模型和检测模型等等，对此不作限定。

本发明实施例中，由于目标驾驶模型是在使用第一场

景的样本数据进行训练得到的基础驾驶模型进行训练，从而可以加快目标驾驶模型的收敛速度。

另外，需要说明的是，由于目标驾驶模型是在上述基础驾驶模型上进一步进行学习，从而上述目标驾驶模型也可以称作在上述基础驾驶模型进行迁移学习(transferlearning)得到的驾驶模型。且上述目标驾驶模型的收敛曲线可以参见图2所示，其中，图2所示的迁移学习表示上述目标驾驶模型的收敛曲线，而上述基础模型表示使用上述基础驾驶模型的收敛曲线，另外，图2所示的数据是以第一场景为开放道路，第二场景为封闭园区进行实验得到的。

可见，本发明实施例，由于在上述目标驾驶模型的基础上进行再次训练，从而还可以使得目标驾驶模型的损失值(loss值)变得更低，例如：如图2所示的迁移学习表示上述目标驾驶模型的收敛曲线对应的损失值。

需要说明的是，本发明实施例提供的上述驾驶模型训练方法可以应用于终端设备，例如：应用于计算机、服务器、车载设备等具备数据处理功能的设备或者数据平台。

请参见图3，图3是本发明实施例提供的一种驾驶模型训练方法的流程图，如图3所示，包括以下步骤：

步骤301、获取基础驾驶模型，其中，所述基础驾驶模型为使用第一场景的样本数据进行训练得到的驾驶模型。

步骤302、将预设学习率调低，以得到用于所述目标驾驶模型训练的目标学习率，其中，所述预设学习率为所述基础驾驶模型训练过程中使用的学习率或者通用学习率。

该步骤可以是，将训练上述基础驾驶模型训练过程中使用的学习率调低，以得到用于训练上述目标驾驶模型的学习率，或者将用于对车辆内的模型进行训练的通用学习率调低，以得到用于训练上述目标驾驶模型的学习率。

其中，上述通用学习率可以理解为本领域技术人员在训练车辆模型时通常使用的学习率。

另外，具体可以是根据研发人员的经验值将学习率调低，或者，可以调低至某一个参考值。

该实施方式中，由于上述基础驾驶模型为使用第一场景的样本数据进行训练得到的驾驶模型，从而将学习率调低，也能够保证目标驾驶模型的可靠性，而将学习率调低可以进一步加快目标驾驶模型的收敛速度。

需要说明的是，本实施例中，步骤302为可选的，例如：不调低学习率，或者直接使用一个比较低的学习率进行训练。

步骤303、按照所述目标学习率，使用第二场景的样本数据对所述基础驾驶模型进行训练，以得到用于在第二场景进行驾驶的目标驾驶模型。

使用第二场景的样本数据对所述基础驾驶模型进行多次微调(fine-tune)，其中，每次微调时冻结所述基础驾驶模型的部分卷积块，直到所述基础驾驶模型的损失值(loss值)低于特定门限值的，以获得用于在所述第二场景进行驾驶的目标驾驶模型。

其中，上述第一场景和所述第二场景存在共同道路特征可以是，第一场景和所述第二场景中存在部分道路特征是相同的。例如：开放道路和园区内存在部分道路特征。

上述微调(fine-tune)可以是对上述基础驾驶模型的参数进行调整。

其中，上述多次微调(fine-tune)可以是，每次使用不同的样本数据进行微调，或者每次使用相同的样本数据进行微调。另外，每次微调(fine-tune)可以使用多个样本数据进行微调，且每次使用的样本数据的数量可以相同或者不同。

该实施方式中，由于每次微调时冻结所述基础驾驶模型的部分卷积块，而基础驾驶模型中的卷积块是与第一场景的道路特征关联的，这样每次微调时冻结所述基础驾驶模型的部分卷积块，从而可以实现将与上述共同道路特征关联的卷积块冻结，通过上述基础驾驶模型提取上述共同道路特征，进而进一步加快上述目标驾驶模型的收敛速度。另外，由于每次微调时冻结所述基础驾驶模型的部分卷积块，从而还可以使得目标驾驶模型的损失值变得更低。例如：如图2所示的迁移学习表示上述目标驾驶模型的收敛曲线。

优选的，每次微调时所冻结的卷积块可以是研发人员根据经验进行选择的，例如：选择与上述共同道路特征存在关联的卷积块，又例如，按照逐次递减的顺序选择卷积块等，对此不作限定。

优选的，所述多次微调中每次微调所冻结的卷积块数量不同；或者，

上述多次微调中每次微调所冻结的卷积块数量不同可以理解为，不同微调次数中冻结的卷积块数量不同。例如：第一次微调时冻结N个卷积块，第二次微调时冻结N减1个卷积块，第二次微调时冻结N减2个卷积块等，直到所述基础驾驶模型的损失值低于特定门限值的。也就是说，在上述多次微调过程中冻结卷积块的数量块可以是递减。且上述N减1个卷积块可以是上述N个卷积块中的N减1个卷积块，上述N减2个卷积块可以是上述N个卷积块中的N减2个卷积块。

其中，上述多次微调中存在所冻结的卷积块数量相同，但存在不同的卷积块的至少两次微调可以理解为，存在某两次或者多次微调所冻结的卷积块数量相同，且这些微调中会存在不同的卷积块，例如：第一次微调时冻结卷积块1和卷积块2，第二次微调时冻结卷积块2和卷积块3，第三次微调时冻结卷积块4。

该实施方式中，可以实现每次微调时冻结所述基础驾驶模型的卷积块不同，即每次微调时所冻结的卷积块是存在区别的。这样，由于每次微调时冻结的卷积块不同，这样可以实现快速地将上述共同道路特征关联的卷积块冻结，即快速地提取上述共同道路特征，以进一步提高目标驾驶模型的收敛速度。

本实施例中，在图1所示的实施例的基础上增加了多种可选的实方式，且均可以加快目标驾驶模型的收敛速度。

请参见图4，图4是本发明实施例提供的一种驾驶模型训练装置的结构图，如图4所示，驾驶模型训练装置400，包括：

获取模块401，用于获取基础驾驶模型，其中，所述基础驾驶模型为使用第一场景的样本数据进行训练得到的驾驶模型；

训练模块402，用于使用第二场景的样本数据对所述基础驾驶模型进行训练，以得到用于在所述第二场景进行驾驶的目标驾驶模型。

可选的，如图5所示，所述装置还包括：

调整模块403，用于将预设学习率调低，以得到用于所述目标驾驶模型训练的目标学习率，其中，所述预设学习率为所述基础驾驶模型训练过程中使用的学习率或者通用学习率；

可选的，所述基础驾驶模型包括多个卷积块，所述第一场景和所述第二场景存在共同道路特征，所述训练模块402用于使用第二场景的样本数据对所述基础驾驶模型进行多次微调，其中，每次微调时冻结所述基础驾驶模型的部分卷积块，直到所述基础驾驶模型的损失值低于特定门限值的，以获得用于在所述第二场景进行驾驶的目标驾驶模型。

可选的，所述第一场景为开放道路，所述第二场景为园区。

本发明实施例提供的装置能够实现图1和图2的方法实施例中实现的各个过程，且可以达到相同有益效果，为避免重复，这里不再赘述。

请参见图6，图6是本发明实施例提供的一种终端设备的结构图，如图6所示，终端设备600包括处理器601、存储器602及存储在所述存储器602上并可在所述处理器上运行的计算机程序。

其中，所述计算机程序被所述处理器601执行时实现如下步骤：

可选的，所述使用第二场景的样本数据对所述基础驾驶模型进行训练，以得到用于在第二场景进行驾驶的目标驾驶模型之前，处理器601还用于：

可选的，所述基础驾驶模型包括多个卷积块，所述第一场景和所述第二场景存在共同道路特征，处理器601执行的所述使用第二场景的样本数据对所述基础驾驶模型进行训练，以得到用于在第二场景进行驾驶的目标驾驶模型，包括：

可选的，所述第一场景为开放道路，所述第二场景为园区。

本发明实施例提供的终端设备能够实现图1和图2的方法实施例中电子设备实现的各个过程，且可以达到相同有益效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种驾驶模型训练方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述使用第二场景的样本数据对所述基础驾驶模型进行训练，以得到用于在第二场景进行驾驶的目标驾驶模型之前，所述方法还包括：

按照所述目标学习率，使用第二场景的样本数据对所述基础驾驶模型进行训练，以得到用于在所述第二场景进行驾驶的目标驾驶模型。

3.如权利要求1或2所述的方法，其特征在于，所述基础驾驶模型包括多个卷积块，所述第一场景和所述第二场景存在共同道路特征，所述使用第二场景的样本数据对所述基础驾驶模型进行训练，以得到用于在第二场景进行驾驶的目标驾驶模型，包括：

4.如权利要求3所述的方法，其特征在于，所述多次微调中每次微调所冻结的卷积块数量不同；或者，

5.如权利要求1或2所述的方法，其特征在于，所述第一场景为开放道路，所述第二场景为园区。

6.一种驾驶模型训练装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，所述装置还包括：

8.如权利要求6或7所述的装置，其特征在于，所述基础驾驶模型包括多个卷积块，所述第一场景和所述第二场景存在共同道路特征，所述训练模块用于使用第二场景的样本数据对所述基础驾驶模型进行多次微调，其中，每次微调时冻结所述基础驾驶模型的部分卷积块，直到所述基础驾驶模型的损失值低于特定门限值的，以获得用于在所述第二场景进行驾驶的目标驾驶模型。

9.如权利要求8所述的装置，其特征在于，所述多次微调中每次微调所冻结的卷积块数量不同；或者，

10.如权利要求6或7所述的装置，其特征在于，所述第一场景为开放道路，所述第二场景为园区。

11.一种终端设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的驾驶模型训练方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的驾驶模型训练方法的步骤。