CN114175068A

CN114175068A - 一种通过使用自适应超参数集的多阶段学习对自动驾驶汽车的机器学习网络进行设备上学习的方法及使用其的设备上学习装置

Info

Publication number: CN114175068A
Application number: CN202180004461.4A
Authority: CN
Inventors: 诸泓模; 金镕重; 刘东奎; 权成颜
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2020-05-05
Filing date: 2021-05-04
Publication date: 2022-03-11
Also published as: KR20210155824A; JP7295282B2; US11203361B2; JP2022539696A; WO2021225360A1; US20210347379A1; EP3910563A1

Abstract

本发明涉及一种通过使用自适应超参数的多阶段学习对机器学习网络进行设备上学习的方法，包括：(a)当新的学习用数据满足设备上学习条件时，将当前学习分为第1阶段学习至第n阶段学习，生成第1阶段学习用数据至第n阶段学习用数据，基于多个超参数中每一个的默认值生成第1超参数集候选至超参数集候选，训练所述机器学习网络，选择性能最高的所述机器学习网络，生成为第1自适应超参数集；(b)生成第(k_1)超参数集候选至第(k_h)超参数集候选，使用第k阶段学习用数据来训练，选择性能最高的所述第(k‑1)阶段学习的机器学习网络，生成第k自适应超参数集；以及(c)生成第n自适应超参数集，进行第n阶段学习，从而完成所述当前学习。

Description

一种通过使用自适应超参数集的多阶段学习对自动驾驶汽车的机器学习网络进行设备上学习的方法及使用其的设备上学习装置

本发明要求于2020年5月5日提交的美国专利申请第63/020,101号和2021年4月13日提交的美国专利申请第17/229,350号的优先权和权益，其全部内容通过引用合并于此。

技术领域

本发明涉及一种对自动驾驶汽车的机器学习网络进行设备上学习的方法和使用其的装置，更具体地，涉及一种通过在嵌入有(Embedded)安装在自动驾驶汽车中的机器学习网络的系统上使用自适应超参数集的多阶段学习进行设备上学习的方法及使用其的装置。

背景技术

为了将应用于自动驾驶汽车的机器学习网络应用于现有未经学习的新驾驶环境，需要在自动驾驶汽车行驶时使用从传感器(例如，摄像头、激光雷达和雷达等)获取的信息重新学习所述机器学习网络的过程。

当使用从自动驾驶汽车获得的数据执行标注以生成用于学习的真实数据(groundtruth)时，很难在自动驾驶汽车本身上执行此操作，从而提出了一种通过生成机器学习网络的基础模型或构建学习用数据集来训练自动驾驶汽车的机器学习网络的方法，其中所述学习用数据集是将之前学习所用的部分学习用数据和从自动驾驶汽车实时获取的数据中待用于学习的数据组合而成。

尤其，在现有方法中，设备上学习技术正在兴起，即，利用空中下载(over theair，OTA)技术将在自动驾驶汽车中训练机器学习网络所需的数据传输到云端(Cloud)，在服务器端使用从云端传输的数据训练机器学习网络，然后只有通过训练更新的模型再次传输到自动驾驶汽车。

然而，对利用所述空中下载技术的现有设备上学习方法而言，其更新周期较慢，并且存在不能在无法连接云端服务器与空中下载的情况下使用的局限性。

因此，需要一种能够使用嵌入在具有有限计算能力的自动驾驶汽车中的系统来训练机器学习网络的技术，而无需连接云端服务器与空中下载的过程。

发明内容

技术问题

本发明的目的在于解决所有上述问题。

另外，本发明的另一目的在于，通过对安装在自动驾驶汽车上的嵌入式系统进行设备上多阶段学习且利用自动驾驶汽车的计算能力来提高机器学习网络的性能。

另外，本发明的又一目的在于，为了通过设备上学习提高机器学习网络的性能，通过应用通过多阶段学习生成的自适应超参数集而不应用固定超参数来进行学习。

此外，本发明的再一目的在于，在比通过云端服务器的空中下载学习机器学习网络的最佳模型所需的时间更短的时间内，更新性能比当前模型更好的机器学习网络。

技术方案

为了实现上述本发明的目的并实现后述的本发明的特征效果，本发明的特征结构如下。

根据本发明的一方面，一种通过使用自适应超参数集的多阶段学习对自动驾驶汽车的机器学习网络进行设备上学习的方法，其特征在于，所述方法包括：(a)当在自动驾驶汽车行驶过程中获取新的学习用数据的状态下满足设备上学习条件时，设备上学习装置(i)参考默认超参数集将当前学习分为第1阶段学习至第n阶段学习，通过使用所述新的学习用数据和先前学习中使用的先前学习用数据，生成用于所述第1阶段学习至所述第n阶段学习的第1阶段学习用数据至第n阶段学习用数据，其中所述n为2以上的整数，(ii)基于所述默认超参数集中包括的多个超参数中每一个的默认值组合预设范围内的每个第1候选值，生成第1超参数集候选至第(1_h)超参数集候选，其中所述h为2以上的整数，(iii)分别应用所述默认超参数集和所述第1超参数集候选至所述第(1_h)超参数集候选，分别使用所述第1阶段学习用数据以训练所述机器学习网络，(iv)评估每个通过分别应用所述默认超参数集和所述第1超参数集候选至所述第(1_h)超参数集候选来训练的所述机器学习网络的性能，选择性能最高的所述机器学习网络作为所述第1阶段学习的机器学习网络，(v)生成所述第1阶段学习的机器学习网络的训练中应用的超参数集作为第1自适应超参数集；(b)所述设备上学习装置将k从2增加到(n-1)，(i)基于第(k-1)自适应超参数集中包括的多个超参数中每一个的第(k-1)自适应值组合所述预设范围内的每个第k候选值，生成第(k_1)超参数集候选至第(k_h)超参数集候选，(ii)分别应用所述第(k-1)超参数集和所述第(k_1)超参数集候选至所述第(k_h)超参数集候选，分别使用所述第k阶段学习用数据以训练第(k-1)阶段学习的机器学习网络，(iii)评估每个通过分别应用所述第(k-1)自适应超参数集和所述第(k_1)超参数集候选至所述第(k_h)超参数集候选来训练的所述第(k-1)阶段学习的机器学习网络的性能，选择性能最高的所述第(k-1)阶段学习的机器学习网络作为第k阶段学习的机器学习网络，(iv)生成所述第k阶段学习的机器学习网络的训练中应用的超参数集作为第k自适应超参数集；以及(c)所述设备上学习装置使用参考(i-1)所述第1自适应超参数集至第(n-1)自适应超参数集中每个和(i-2)所述第1阶段学习中训练的机器学习网络至第(n-1)阶段学习中训练的机器学习网络各自的性能评估结果构建的优化函数来生成第n自适应超参数集，(ii)应用所述第n自适应超参数集，使用所述第n阶段学习用数据对所述第(n-1)阶段学习的机器学习网络进行第n阶段学习，从而完成所述当前学习。

作为一例，所述方法还包括：(d)所述设备上学习装置执行如下处理：(i)当所述当前学习完成后所述机器学习网络的性能没有提高到一定阈值以上时，不更新所述机器学习网络，使用所述机器学习网络运行所述自动驾驶汽车，直到满足下一次设备上学习条件；以及(ii)当所述当前学习完成后所述机器学习网络的性能提高一定阈值以上时，使用当前学习的机器学习网络更新所述机器学习网络，使用所述当前学习的机器学习网络运行所述自动驾驶汽车，直到满足所述下一次设备上学习条件。

作为一例，所述设备上学习装置在所述第k阶段学习的机器学习网络的性能高于所述第(k-1)阶段学习的机器学习网络的性能时，将第(k+1)自适应超参数集至所述第n自适应超参数集分别设置为等于所述第k自适应超参数集。

作为一例，所述设备上学习装置将所述第1自适应超参数集至所述第n自适应超参数集所包括的至少一个超参数的自适应值保持相同。

作为一例，所述设备上学习装置在所述第k阶段学习中训练的机器学习网络的性能高于所述第(k-1)阶段学习中训练的机器学习网络的性能时，通过将所述第k阶段学习设置为所述第n阶段学习来完成所述当前学习。

作为一例，在所述(a)步骤中，当获得由安装在所述自动驾驶汽车上的传感器获得的传感数据时，在所述机器学习网络分析所述传感数据以生成针对所述自动驾驶汽车的驾驶信息的输出数据的状态下，所述设备上学习装置将所述传感数据和与每个所述传感数据对应的输出数据输入至所述数据选择网络，使得所述数据选择网络参考所述输出数据选择用于所述机器学习网络的训练的特定传感数据，并将所选的特定传感数据存储为所述新的学习用数据。

作为一例，所述超参数包括学习算法设置、小批大小(size of mini-batch)、最大阶段(maximum number of stages)和所述每个阶段的最大时期(maximum epoch perstage)中的至少一个。

作为一例，在所述(a)步骤中，所述设备上学习装置选择预先确定为所述机器学习网络的基础模型的超参数集作为所述默认超参数集，或者选择先前学习中生成的最佳超参数集作为所述默认超参数集。

根据本发明的一方面，一种通过使用自适应超参数集的多阶段学习对自动驾驶汽车的机器学习网络进行设备上学习的装置，其包括：至少一个存储指令的存储器；和至少一个执行所述指令的处理器，所述处理器执行如下处理：(I)当在自动驾驶汽车行驶过程中获取新的学习用数据的状态下满足设备上学习条件时，参考默认超参数集将当前学习分为第1阶段学习至第n阶段学习，通过使用所述新的学习用数据和先前学习中使用的先前学习用数据，生成用于所述第1阶段学习至所述第n阶段学习的第1阶段学习用数据至第n阶段学习用数据，其中所述n为2以上的整数，基于所述默认超参数集中包括的多个超参数中每一个的默认值组合预设范围内的每个第1候选值，生成第1超参数集候选至第(1_h)超参数集候选，其中所述h为2以上的整数，分别应用所述默认超参数集和所述第1超参数集候选至所述第(1_h)超参数集候选，分别使用所述第1阶段学习用数据以训练所述机器学习网络，评估每个通过分别应用所述默认超参数集和所述第1超参数集候选至所述第(1_h)超参数集候选来训练的所述机器学习网络的性能，选择性能最高的所述机器学习网络作为所述第1阶段学习的机器学习网络，生成所述第1阶段学习的机器学习网络的训练中应用的超参数集作为第1自适应超参数集；(II)将k从2增加到(n-1)，基于第(k-1)自适应超参数集中包括的多个超参数中每一个的第(k-1)自适应值组合所述预设范围内的每个第k候选值，生成第(k_1)超参数集候选至第(k_h)超参数集候选，分别应用所述第(k-1)超参数集和所述第(k_1)超参数集候选至所述第(k_h)超参数集候选，分别使用所述第k阶段学习用数据以训练第(k-1)阶段学习的机器学习网络，评估每个通过分别应用所述第(k-1)自适应超参数集和所述第(k_1)超参数集候选至所述第(k_h)超参数集候选来训练的所述第(k-1)阶段学习的机器学习网络的性能，选择性能最高的所述第(k-1)阶段学习的机器学习网络作为第k阶段学习的机器学习网络，生成所述第k阶段学习的机器学习网络的训练中应用的超参数集作为第k自适应超参数集；以及(III)使用参考所述第1自适应超参数集至第(n-1)自适应超参数集中每个和所述第1阶段学习中训练的机器学习网络至第(n-1)阶段学习中训练的机器学习网络各自的性能评估结果构建的优化函数来生成第n自适应超参数集，应用所述第n自适应超参数集，使用所述第n阶段学习用数据对所述第(n-1)阶段学习的机器学习网络进行第n阶段学习，从而完成所述当前学习。

作为一例，(IV)所述处理器还执行如下处理：当所述当前学习完成后所述机器学习网络的性能没有提高到一定阈值以上时，不更新所述机器学习网络，使用所述机器学习网络运行所述自动驾驶汽车，直到满足下一次设备上学习条件；以及当所述当前学习完成后所述机器学习网络的性能提高一定阈值以上时，使用当前学习的机器学习网络更新所述机器学习网络，使用所述当前学习的机器学习网络运行所述自动驾驶汽车，直到满足所述下一次设备上学习条件。

作为一例，所述处理器在所述第k阶段学习的机器学习网络的性能高于所述第(k-1)阶段学习的机器学习网络的性能时，将第(k+1)自适应超参数集至所述第n自适应超参数集分别设置为等于所述第k自适应超参数集。

作为一例，在所述(II)处理中，所述处理器将所述第1自适应超参数集至所述第n自适应超参数集所包括的至少一个超参数的自适应值保持相同。

作为一例，所述处理器在所述第k阶段学习中训练的机器学习网络的性能高于所述第(k-1)阶段学习中训练的机器学习网络的性能时，通过将所述第k阶段学习设置为所述第n阶段学习来完成所述当前学习。

作为一例，在所述(I)处理中，当获得由安装在所述自动驾驶汽车上的传感器获得的传感数据时，在所述机器学习网络根据深度学习分析所述传感数据以生成针对所述自动驾驶汽车的驾驶信息的输出数据的状态下，所述处理器将所述传感数据和与每个所述传感数据对应的输出数据输入至所述数据选择网络，使得所述数据选择网络参考所述输出数据选择用于所述机器学习的网络训练的特定传感数据，并将所选的特定传感数据存储为所述新的学习用数据。

作为一例，所述超参数包括学习算法设置、小批大小、最大阶段和所述每个阶段的最大时期中的至少一个。

作为一例，在所述(I)步骤中，所述处理器选择预先确定为所述机器学习网络的基础模型的超参数集作为所述默认超参数集，或者选择先前学习中生成的最佳超参数集作为所述默认超参数集。

除此之外，本发明还提供一种计算机可读记录介质，其用于记录用于执行本发明方法的计算机程序。

技术效果

本发明的另一效果在于，可以通过对安装在自动驾驶汽车上的嵌入式系统进行设备上多阶段学习且利用自动驾驶汽车的计算能力来提高机器学习网络的性能。

另外，本发明的又一效果在于，为了通过设备上学习提高机器学习网络的性能，可以通过应用通过多阶段学习生成的自适应超参数集而不应用固定超参数来进行学习。

此外，本发明的再一效果在于，在比通过云端服务器的空中下载学习机器学习网络的最佳模型所需的时间更短的时间内，可以更新性能比当前模型更好的机器学习网络。

附图说明

用于描述本发明实施例的以下附图仅为本发明实施例的一部分，并且本发明所属领域的普通技术人员(以下称为“普通技术人员”)可以基于这些附图获得其他附图，而无需进行任何创造性工作。

图1为根据本发明的一实施例的通过使用自适应超参数集的多阶段学习对自动驾驶汽车的机器学习网络进行设备上学习的设备上学习装置的示意图；

图2为根据本发明的一实施例的通过使用自适应超参数集的多阶段学习对自动驾驶汽车的机器学习网络进行设备上学习的方法的示意图；

图3为根据本发明一实施例的超参数集的结构图；

图4为根据本发明一实施例的通过每个阶段学习生成自适应超参数集并使用所生成的自适应超参数集对机器学习网络进行多阶段学习的方法的示意图。

具体实施方式

以下本发明的详细描述参见附图，所述附图以说明方式示出了可以实施本发明的具体实施例，以阐明本发明的目的、技术方案和优点。对这些实施例进行了充分详细的描述，以使本领域技术人员能够实施本发明。

另外，在本发明的内容及权利要求书中，术语“包括”及其变形并不意图排除其他技术特征、附加物、组件或步骤。对于本发明普通技术人员而言，本发明的其他目的、优点及特性中一部分可从本说明书获知，而一部分可从本发明的实施获知。以下的例示及附图作为实例提供，而并不是意图限制本发明。

进一步地，本发明包括本说明书所示实施例的所有可能的组合。应当理解，本发明的各种实施例尽管不同但不必相互排斥。例如，本文记载的特定形状、结构及特性在一个实施例中在不超出本发明的精神及范围的前提下可通过其他实施例实现。并且，应当理解，所公开的每个实施例中各组件的位置或配置可在不超出本发明的精神及范围的前提下变更。因此，后述的详细说明并不用于限定本发明，只要能够进行适当的说明，本发明的范围应根据与其权利要求保护范围等同的所有范围和所附的权利要求保护范围而被限定。附图中类似的附图标记在多个方面指示相同或类似的功能。

为了使本领域普通技术人员能够容易地实施本发明，下面将参考附图详细描述本发明的优选实施例。

图1为根据本发明的一实施例的通过使用自适应超参数集的多阶段学习对自动驾驶汽车的机器学习网络进行设备上学习的设备上学习装置1000的示意图。

参见图1，设备上学习装置1000可以包括：存储器1001，其存储指令，所述指令用于通过使用自适应超参数集的多阶段学习对自动驾驶汽车的机器学习网络进行设备上学习；和处理器1002，其根据所述指令执行通过使用自适应超参数集的多阶段学习对自动驾驶汽车的机器学习网络进行设备上学习的操作。

具体地，设备上学习装置1000通常可以使用计算装置(例如，计算机处理器、存储器、存储装置、输入和输出装置，和可以包括常规计算装置的其他组件的装置；电子通讯装置，如路由器、交换机等；电子信息存储系统，如网络附加存储(NAS)和存储区域网络(SAN))和计算机软件(即，使计算装置以特定方式运行的指令)的组合来实现所需的系统性能。

另外，计算装置的处理器可以包括诸如微处理单元(MPU，Micro ProcessingUnit)或中央处理单元(CPU，Central Processing Unit)、高速缓冲(Cache Memory)、数据总线(Data Bus)之类的硬件配置。另外，计算装置可以进一步包括操作系统、执行特定目的的应用程序的软件配置。

然而，不排除计算装置包括为实现本发明而集成介质、处理器和存储器的形式的集成处理器的情况。

参考如上所述配置的根据本发明的一实施例的设备上学习装置1000，下面将参考图2至图4描述通过使用自适应超参数集的多阶段学习对自动驾驶汽车的机器学习网络进行设备上学习的方法。

参见图2，当在自动驾驶汽车行驶时获取通过安装在所述自动驾驶汽车上的各种传感器感测到的传感数据时，自动驾驶汽车的机器学习网络基于深度学习分析传感数据，获取包括与自动驾驶汽车行驶相关的信息输出数据，通过参考所获取的输出数据，可以使自动驾驶汽车能够行驶。

此时，所述传感器可以包括摄像头、雷达(radar)、激光雷达(lidar)等，可以为各种传感器的融合型。另外，所述传感数据可以包括与传感器的特定视角范围对应的区域的环境信息，也可以包括传感器整个周边的环境信息。并且，传感数据可以为拍摄车辆周围的视频或图像，或由车辆的各种传感器感测到的驾驶信息，但本发明不限于此，可以包括自动驾驶汽车行驶时感测到的所有类型的数据。

另外，机器学习网络500可以包括基于深度学习的网络等，可以包括对所拍摄的行驶图像进行分析并输出根据自动驾驶汽车驾驶环境的物体信息、车道信息等驾驶环境信息的物体检测器(object detector)、分类网络(classification network)和分割网络(segmentation network)等，此外，可以包括基于驾驶环境分析来执行支持自动驾驶汽车行驶的各种操作，例如行为预测(behavior prediction)和风险检测(risk detection)等的各种网络。

在这些自动驾驶汽车的行驶过程中，设备上学习装置1000可以参考所述传感数据和与每个所述传感数据对应的机器学习网络500的输出数据，选择用于提高所述机器学习网络500性能的学习的特定传感数据，以便自动驾驶汽车适应重复行驶的环境或新的行驶环境，所选择的特定传感数据可以存储在新的学习用数据库410中。

作为一例，当所述机器学习网络500为基于用于搜索与驾驶环境相关的物体且对所述物体的类别进行分类的卷积神经网络(convolutional neural network)的物体检测器时，可以参考针对所述传感数据中检测到的每个对象的检测概率分布信息，选择用于训练所述机器学习网络500的特定传感数据。

具体地，当从所述传感数据中检测到的每个所述物体的检测概率低于预设概率时，将该传感数据分类为所述机器学习网络500难以分类的硬样本后，可以将选定为新的学习用数据并存储在新的学习用数据库410中。然而，选择用于提高所述机器学习网络500性能的传感数据的方法不限于此，并且可以应用选择对学习有用的特定传感数据的各种方法。此时，预定概率可以为用于比较由所述机器学习网络500检测到的对象的分类结果的预先确定的概率。

在另一方面，在上文中，设备上学习装置1000选择了对机器学习网络500的学习有用的特征传感数据，但与此不同的是，设备上学习装置1000可以将所述传感数据和与每个传感数据对应的所述机器学习网络500的所述输出数据输入到基于深度学习的数据选择网络300，使得所述数据选择网络300参考所述输出数据选择对所述机器学习网络500的学习有用的特定传感信息。

接下来，在通过上述方法从自动驾驶汽车行驶时获得的传感数据中收集作为对机器学习网络的学习有用的特定传感信息的新的学习用数据的状态下，当满足至少一个或多个设备上学习条件，例如预设时间条件、预设学习数据的数量条件、预设自动驾驶汽车的驾驶状态条件等时，设备上学习装置1000可以参考所述机器学习网络500的默认超参数集，将当前的学习分为第1阶段学习至第n阶段学习。此时，所述n为2以上的整数。

作为一例，设备上学习装置1000可以使超参数选择网络200参考所述机器学习网络500的所述默认超参数集，可以将所述当前的学习分为所述第1阶段学习至所述第n阶段学习。

在另一方面，参见图3，超参数集30可以包括一个或多个超参数。作为一例，超参数集30可以包括学习算法的参数(L)、小批的大小(B)、最大阶段数(D)和每个阶段的最大时期(epoch)(E)，但在本发明不限于此，可以包括用于提高学习性能的各种超参数的组合。另外，所述学习算法的参数(L)可以包括选择诸如SGD、Adam、AdaGrad、RMSProp之类的学习算法的优化器(optimizer)类型的类别；和包括诸如学习率、权重衰减(weight decay)、动量(momentum)、阻尼(damping)之类的附加参数的类别。

此时，设备上学习装置1000或设备上学习装置1000的所述超参数选择网络200可以通过使用为了训练所述机器学习网络500的基础模型而预先确定的超参数的默认值来生成如下等式所示的默认超参数集。此时，所述基础模型可以为工厂初始化时的所述机器学习网络500，所述默认值为所述默认超参数集中包括的每个超参数的值。

H_init＝{L_pre,B_pre,D_pre,E_pre}

另外，设备上学习装置1000或设备上学习装置1000的超参数选择网络200可以通过使用所述机器学习网络500的过去学习中性能最高的所述机器学习网络的500超参数的最高性能值来生成如下等式所示的默认超参数集。此时，所述最高性能值为应用于具有最高性能的机器学习网络的各个超参数的值。

H_init＝{L_opt,B_opt,D_opt,E_opt}

此时，L中所述附加参数的默认值一般可以为接近于零的小数，可以考虑用于学习的数据集的大小和设备上学习装置1000的计算能力来选择L的优化器、B、D和E。

再次参见图2，所述设备上学习装置1000可以通过对存储在新学习用数据库410和先前学习用数据库420中的所述新学习用数据和先前学习用数据进行采样来生成用于所述当前学习的学习用数据集，将其指定为第1阶段学习用数据至第n阶段学习用数据，或者根据所述默认超参数集生成待用于每个阶段学习的多个学习用数据集，将其指定为所述第1阶段学习用数据至所述第n阶段学习用数据。另外，设备上学习装置1000可以以与上述相同的方式使网络训练器100将所述第1阶段学习用数据指定为所述第n阶段学习用数据。

此时，所述学习用数据集的采样可以在所述当前学习过程中的某一时间点进行，或者在某些情况下，每个阶段学习可以进行多次采样，但本发明中对学习用数据集进行采样的时间点和方法不限于此。

另外，作为所述机器学习网络500的基础模型的学习中或先前学习中使用的数据，所述先前学习用数据可以为用真实数据标签的标签数据(labeled data)，所述新的学习用数据可以为未用真实数据标签的未标签数据(unlabeled data)。此时，通过单独配置的自动标签网络执行类别标签，或者可以通过人工标注等多种方式进行所述新的学习用数据标注。另外，也可以通过使用先前学习用标签数据和新的学习用未标签数据来执行半监督学习(semi-super vised learning)。

接下来，设备上学习装置1000可以参考默认超参数集，基于所述默认超参数集中包括的多个超参数中每一个的默认值组合预设范围内的每个第1候选值，生成第1超参数集候选至第(1_h)超参数集候选。此时，所述h为2以上的整数。另外，设备上学习装置1000可以使超参数选择网络200参考所述默认超参数集生成所述第1超参数集候选至所述第(1_h)超参数集候选。

作为一例，所述设备上学习装置1000或所述设备上学习装置1000的所述超参数选择网络200可以通过使用所述机器学习网络500的基础模型预先确定的超参数的默认值来生成如下等式所示的默认超参数集。

H_init＝{L_pre,B_pre,D_pre,E_pre}＝{0.1_pre,5_pre,5_pre,10_pre}

此时，所述设备上学习装置1000或所述设备上学习装置1000的所述超参数选择网络200可以根据每个超参数的每个默认值确定预设范围内的第1候选值。即，每个超参数的第1候选值可以配置为L₁＝{0.12,0.11,0.09,0.08}、B₁＝{7,6,4,3}、D₁＝{8,7,6,4,3,2}和E₁＝{6,8,12,14}，可以为每个超参数预先设置不同的范围。并且，所述设备上学习装置1000或所述设备上学习装置1000的所述超参数选择网络200可以通过分别组合所述每个超参数的多个第1候选值中的一个值来生成所述超参数集候选。作为一例，所述第1超参数集候选至所述第(1_h)超参数集候选可以以H_{1_1can}＝{0.12,7,8,6}至H_{1_hcan}＝{0.08,3,2,14}的组合生成。

与此不同，所述设备上学习装置1000或所述设备上学习装置1000的所述超参数选择网络200可以通过使用所述第1候选值在所有可组合的超参数集候选中随机选择h个来生成所述第1超参数集候选至所述第(1_h)超参数集候选。

接下来，设备上学习装置1000可以根据所述默认超参数集和所述第1超参数集候选至所述第(1_h)超参数集候选中的每一个使用所述第1阶段学习用数据来训练所述机器学习网络。

作为一例，所述设备上学习装置1000使所述超参数选择网络200将所述默认超参数集、所述第1超参数集候选至所述第(1_h)超参数集候选传输给网络训练器100。并且，所述设备上学习装置1000可以使所述超参数选择网络200根据所述默认超参数集和所述第1超参数集候选至所述第(1_h)超参数集候选中的每一个使用所述第1学习用数据来训练所述机器学习网络500。

另外，所述设备上学习装置1000可以使所述超参数选择网络200将所述默认超参数集、所述第1超参数集候选至所述第(1_h)超参数集候选中的每一个依次传输到网络训练器100，使得所述网络训练器100根据依次传输的所述默认超参数集、所述第1超参数集候选至所述第(1_h)超参数集候选中的每一个使用所述第1学习用数据来训练所述每个机器学习网络500。

即，所述设备上学习装置1000可以使所述超参数选择网络200将所述默认超参数集传输到所述网络训练器100，使得所述网络训练器100根据所述默认超参数集使用所述第1学习用数据来训练所述机器学习网络500。并且，所述设备上学习装置1000可以使所述超参数选择网络200将所述第1超参数集传输到所述网络训练器100，使得所述网络训练器100根据所述第1超参数集使用所述第1阶段学习用数据来训练所述机器学习网络500。然后，以相同的方式，所述设备上学习装置1000可以使所述超参数选择网络200将第(1_2)超参数集至所述第(1_h)超参数集中的每一个依次传输到所述网络训练器100，使得所述网络训练器100根据依次传输的第(1_2)超参数集至所述第(1_h)超参数集中的每一个使用所述第1学习用数据来训练所述每个机器学习网络500。

接下来，设备上学习装置1000评估每个通过分别应用所述默认超参数集和所述第1超参数集候选至所述第(1_h)超参数集候选来训练的所述机器学习网络500的性能，选择性能最高的所述机器学习网络500作为所述第1阶段学习的机器学习网络500，生成所述第1阶段学习的机器学习网络500的训练中应用的超参数集30作为第1自适应超参数集。

作为一例，设备上学习装置1000可以使所述网络训练器100使用验证数据交叉验证通过分别应用所述默认超参数集和所述第1超参数集候选者至第(1_h)超参数集候选来学习到的所述每个机器学习网络500，并将从此获得的多个性能评估结果传输到所述超参数选择网络200。并且，设备上学习装置1000可以使所述超参数选择网络200参考所交叉验证的多个性能评估结果，选择具有最高性能的所述机器学习网络500作为所述第1阶段学习的机器学习网络500，将用于训练通过所述第1阶段学习而学习的机器学习网络500的超参数集30生成为第1自适应超参数集。

据此，设备上学习装置1000可以通过完成所述第1阶段学习来生成所述第1自适应超参数集，并且可以通过使用所述第1自适应超参数集来进行下一阶段学习。

接下来，在完成所述第1阶段学习的状态下，所述设备上学习装置1000可以将k从2增加到(n-1)，基于第(k-1)自适应超参数集中包括的多个超参数中每一个的第(k-1)自适应值组合所述预设范围内的每个第k候选值，生成第(k_1)超参数集候选至第(k_h)超参数集候选。此时，所述自适应值为所述自适应超参数集中包括的每个超参数的值。

接下来，设备上学习装置1000可以分别应用所述第(k-1)超参数集和所述第(k_1)超参数集候选至所述第(k_h)超参数集候选，分别使用所述第k阶段学习用数据以训练第(k-1)阶段学习的机器学习网络500。

接下来，设备上学习装置1000可以评估每个通过分别应用所述第(k-1)自适应超参数集和所述第(k_1)超参数集候选至所述第(k_h)超参数集候选来训练的所述第(k-1)阶段学习的机器学习网络500的性能，选择性能最高的所述第(k-1)阶段学习的机器学习网络500作为第k阶段学习的机器学习网络500，生成所述第k阶段学习的机器学习网络500的训练中应用的超参数集30作为第1自适应超参数集。

此时，所述设备上学习装置1000可以通过所述设备上学习装置1000或其他装置重复上述方法依次进行所述第1阶段学习至所述第(n-1)阶段学习，生成所述第1自适应超参数集至所述第(n-1)自适应超参数集，其具体执行方法与上述相同，在此不再赘述。

接下来，将参考图4描述执行所述第n阶段学习的详细方法。参见图4，在完成除所述第n阶段学习S41-N以外的所有其他阶段学习S41-1、S41-K、S41-(N-1)的状态下，所述设备上学习装置1000可以使用参考每个所述第1自适应超参数集至所述第(n-1)自适应超参数集和每个所述第1阶段学习S41-1中学习的机器学习网络500至所述第(n-1)阶段学习S41-(N-1)中的学习的机器学习网络500的性能评估结果构建的优化函数来生成所述第n自适应超参数集。

作为一例，所述设备上学习装置1000使所述超参数选择网络200参考所述第1阶段学习S41-1至所述第(n-1)阶段学习S41-(N-1)，以生成预测输出优于所述先前学习中训练的机器学习网络500的性能的性能结果所需的第n自适应超参数集。

具体地，所述设备上学习装置1000可以使所述超参数选择网络200分别参考所述第1自适应超参数集至所述第(n-1)自适应超参数集和使用所述第1自适应超参数集至所述第(n-1)自适应超参数集学习的每个机器学习网络500的性能评估结果来构建优化函数，预测可提高通过所述第(n-1)阶段学习S41-(N-1)训练的所述机器学习网络500的性能的所述第n自适应超参数。

此时，对上述优化函数而言，为了生成可做出优于从所述先前学习中训练的机器学习网络500或从当前学习的所述第1阶段学习至所述第(n-1)段学习中训练的机器学习网络500的性能的结果的所述自适应超参数集，可以应用一种或多种用于概率估计的代理模型(Surrogate model)和采集函数(Acquisition Function)，可以通过使用所述优化函数运算生成的每个超参数的最佳值来生成所述第n自适应超参数集。此时，所述最佳值为通过所述优化函数的运算生成的各个超参数的值。

接下来，设备上学习装置1000可以通过应用所述第n自适应超参数集且使用所述第n阶段学习用数据来对所述第(n-1)阶段学习的机器学习网络500进行所述第n阶段学习，从而完成所述当前学习。

作为一例，所述设备上学习装置1000使所述网络训练器100根据所述第n自适应超参数集，利用所述第n阶段学习用数据训练通过所述第(n-1)阶段学习训练的机器学习网络500，从而可以完成所述多阶段学习40中包括的所有阶段学习，并完成所述当前学习。

接下来，当所述机器学习网络500的性能在完成所述当前学习的状态下没有提高到一定阈值以上时，所述设备上学习装置1000可以不更新所述机器学习网络500，使用所述机器学习网络500运行所述自动驾驶汽车，直到满足下一次设备上学习条件。此时，所述阈值可以为用于比较机器学习网络500的性能水平的预定值。

作为一例，当判断完成所述当前学习的所述机器学习网络500的性能与完成所述先前学习的所述机器学习网络500的性能相比没有提高时，所述设备上学习装置1000使所述网络训练器100不将完成当前学习的所述机器学习网络500更新为自动驾驶汽车的所述机器学习网络500，从而可以使用所述先前学习中训练的机器学习网络500来运行所述自动驾驶汽车，直到满足下一次所述设备上学习条件。

另外，当所述机器学习网络500的性能在完成所述当前学习的状态下提高到一定阈值以上时，所述设备上学习装置1000可以将所述机器学习网络500更新为当前学习的机器学习网络500，使用所述当前学习的机器学习网络500运行所述自动驾驶汽车，直到满足所述下一次设备上学习条件。

作为一例，当判断完成所述当前学习的所述机器学习网络500的性能与完成所述先前学习的所述机器学习网络500的性能相比提高时，所述设备上学习装置1000使所述网络训练器100将完成所述当前学习的机器学习网络500更新为自动驾驶汽车的所述机器学习网络500，从而可以使用通过所述当前学习更新的机器学习网络500来运行所述自动驾驶汽车，直到满足所述下一次设备上学习条件。此时，自动驾驶汽车的所述机器学习网络500的更新方法如下，但本发明不限于此：通过传输已完成所述当前学习的机器学习网络500本身以替换自动驾驶汽车的机器学习网络500来实现更新，或者通过传输从完成所述当前学习的所述机器学习网络500中更新的学习参数来更新应用于所述自动驾驶汽车的机器学习网络500的学习参数，从而更新自动驾驶汽车的机器学习网络500。

另外，所述设备上学习装置1000或所述设备上学习装置1000的超参数选择网络200在通过各阶段学习生成每个所述自适应超参数集的过程中，当通过所述第k阶段学习中训练的机器学习网络500的性能高于所述第(k-1)阶段学习中训练的机器学习网络500的性能时，可以将所述第k自适应超参数集分别生成为所述第(k+1)自适应超参数集至所述第n自适应超参数集。

此外，当判断所述第k阶段学习中训练的机器学习网络500的性能高于所述第(k-1)阶段学习中训练的机器学习网络500的性能时，所述设备上学习装置1000或所述设备上学习装置1000的超参数选择网络200可以通过将所述第k阶段学习设置为所述第n阶段学习S41-N来完成所述当前学习。然后，所述设备上学习装置1000或所述设备上学习装置1000的超参数选择网络200可以将所述机器学习网络500更新为所述第n阶段学习中训练的机器学习网络500，从而使用通过所述当前学习更新的机器学习网络500来运行所述自动驾驶汽车，直到满足所述下一次设备上学习条件。

即，这样，当优于现有机器学习网络500的性能的机器学习网络500得到保证时，可以完成当前学习，而无需进行剩余的阶段学习，不仅可以通过剩余的阶段学习减少生成自适应超参数集所消耗的额外计算资源，还可以将所述具有改进性能的机器学习网络500快速更新到自动驾驶汽车的运行。

另外，所述设备上学习装置1000可以将所述第1自适应超参数集至所述第n自适应超参数集所包括的至少一个超参数的自适应值保持相同。这可以如下表示：

(H_st+1＝H_st)

作为一例，所述设备上学习装置1000可以使所述超参数选择网络200将所述自适应超参数集中包括的每个超参数中的部分或全部保持相同，以便通过每个阶段学习生成每个自适应超参数集。例如，所述设备上学习装置1000可以使所述超参数选择网络200选择将作为所述自适应超参数集中包括的超参数之一的所述小批大小的自适应值与所述第1自适应超参数集至所述第n自适应超参数集中的部分或全部保持相同。

另外，上述根据本发明的实施例可以以可通过各种计算机组件执行的程序指令的形式来实现并记录在计算机可读记录介质中。所述计算机可读记录介质可以包括单独或组合的程序指令、数据文件、数据结构等。记录在所述计算机可读记录介质中的程序指令可以是为本发明专门设计和配置的，或者可以是计算机软件领域的技术人员已知和可用的。计算机可读记录介质的示例包括诸如硬盘、软盘和磁带的磁性介质，诸如CD-ROM、DVD的光学记录介质，诸如软盘(floptical disk)的磁光介质(magneto-optical media)以及专门配置用于存储和执行程序指令的硬件装置，例如ROM、RAM、闪存等。程序指令的示例不仅包括诸如由编译器生成的那些机器语言代码，而且还包括可以由计算机使用解释器等执行的高级语言代码。所述硬件装置可以配置为作为至少一个软件模块操作以执行根据本发明的处理，反之亦然。

在上文中，已经参考诸如具体组件等的特定事项以及有限的实施例和附图描述了本发明，但这仅有助于更全面地理解本发明，而本发明不限于上述实施例，本发明所属领域的普通技术人员可以根据这些描述设计出各种修改和变化。

因此，本发明的精神不应限于上述实施例，除所附权利要求外，凡与这些权利要求等效或等同的修改，均应包含在本发明的精神范围内。

Claims

1.一种通过使用自适应超参数集的多阶段学习对自动驾驶汽车的机器学习网络进行设备上学习的方法，所述方法包括：

(a)当在自动驾驶汽车行驶过程中获取新的学习用数据的状态下满足设备上学习条件时，设备上学习装置(i)参考默认超参数集将当前学习分为第1阶段学习至第n阶段学习，通过使用所述新的学习用数据和先前学习中使用的先前学习用数据，生成用于所述第1阶段学习至所述第n阶段学习的第1阶段学习用数据至第n阶段学习用数据，其中所述n为2以上的整数，(ii)基于所述默认超参数集中包括的多个超参数中每一个的默认值组合预设范围内的每个第1候选值，生成第1超参数集候选至第(1_h)超参数集候选，其中所述h为2以上的整数，(iii)分别应用所述默认超参数集和所述第1超参数集候选至所述第(1_h)超参数集候选，分别使用所述第1阶段学习用数据以训练所述机器学习网络，(iv)评估每个通过分别应用所述默认超参数集和所述第1超参数集候选至所述第(1_h)超参数集候选来训练的所述机器学习网络的性能，选择性能最高的所述机器学习网络作为所述第1阶段学习的机器学习网络，(v)生成所述第1阶段学习的机器学习网络的训练中应用的超参数集作为第1自适应超参数集；

(b)所述设备上学习装置将k从2增加到(n-1)，(i)基于第(k-1)自适应超参数集中包括的多个超参数中每一个的第(k-1)自适应值组合所述预设范围内的每个第k候选值，生成第(k_1)超参数集候选至第(k_h)超参数集候选，(ii)分别应用所述第(k-1)超参数集和所述第(k_1)超参数集候选至所述第(k_h)超参数集候选，分别使用所述第k阶段学习用数据以训练第(k-1)阶段学习的机器学习网络，(iii)评估每个通过分别应用所述第(k-1)自适应超参数集和所述第(k_1)超参数集候选至所述第(k_h)超参数集候选来训练的所述第(k-1)阶段学习的机器学习网络的性能，选择性能最高的所述第(k-1)阶段学习的机器学习网络作为第k阶段学习的机器学习网络，(iv)生成所述第k阶段学习的机器学习网络的训练中应用的超参数集作为第k自适应超参数集；以及

(c)所述设备上学习装置使用参考(i-1)所述第1自适应超参数集至第(n-1)自适应超参数集中每一个和(i-2)所述第1阶段学习中训练的机器学习网络至第(n-1)阶段学习中训练的机器学习网络各自的性能评估结果构建的优化函数来生成第n自适应超参数集，(ii)应用所述第n自适应超参数集，使用所述第n阶段学习用数据对所述第(n-1)阶段学习的机器学习网络进行第n阶段学习，从而完成所述当前学习。

2.根据权利要求1所述的方法，还包括：

(d)所述设备上学习装置执行如下处理：(i)当所述当前学习完成后所述机器学习网络的性能没有提高到一定阈值以上时，不更新所述机器学习网络，使用所述机器学习网络运行所述自动驾驶汽车，直到满足下一次设备上学习条件；以及(ii)当所述当前学习完成后所述机器学习网络的性能提高一定阈值以上时，使用当前学习的机器学习网络更新所述机器学习网络，使用所述当前学习的机器学习网络运行所述自动驾驶汽车，直到满足所述下一次设备上学习条件。

3.根据权利要求1所述的方法，

所述设备上学习装置在所述第k阶段学习的机器学习网络的性能高于所述第(k-1)阶段学习的机器学习网络的性能时，将第(k+1)自适应超参数集至所述第n自适应超参数集分别设置为等于所述第k自适应超参数集。

4.根据权利要求1所述的方法，

在所述(b)步骤中，

所述设备上学习装置将所述第1自适应超参数集至所述第n自适应超参数集所包括的至少一个超参数的自适应值保持相同。

5.根据权利要求1所述的方法，

所述设备上学习装置在所述第k阶段学习中训练的机器学习网络的性能高于所述第(k-1)阶段学习中训练的机器学习网络的性能时，通过将所述第k阶段学习设置为所述第n阶段学习来完成所述当前学习。

6.根据权利要求1所述的方法，

在所述(a)步骤中，

当获得由安装在所述自动驾驶汽车上的传感器获得的传感数据时，在所述机器学习网络分析所述传感数据以生成针对所述自动驾驶汽车的驾驶信息的输出数据的状态下，

所述设备上学习装置将所述传感数据和与每个所述传感数据对应的输出数据输入至所述数据选择网络，使得所述数据选择网络参考所述输出数据选择用于所述机器学习网络的训练的特定传感数据，并将所选的特定传感数据存储为所述新的学习用数据。

7.根据权利要求1所述的方法，

所述超参数包括学习算法设置、小批大小、最大阶段和所述每个阶段的最大时期中的至少一个。

8.根据权利要求1所述的方法，

在所述(a)步骤中，

所述设备上学习装置选择预先确定为所述机器学习网络的基础模型的超参数集作为所述默认超参数集，或者选择先前学习中生成的最佳超参数集作为所述默认超参数集。

9.一种通过使用自适应超参数集的多阶段学习对自动驾驶汽车的机器学习网络进行设备上学习的装置，包括：

至少一个存储指令的存储器；和

至少一个执行所述指令的处理器，

所述处理器执行如下处理：(I)当在自动驾驶汽车行驶过程中获取新的学习用数据的状态下满足设备上学习条件时，参考默认超参数集将当前学习分为第1阶段学习至第n阶段学习，通过使用所述新的学习用数据和先前学习中使用的先前学习用数据，生成用于所述第1阶段学习至所述第n阶段学习的第1阶段学习用数据至第n阶段学习用数据，其中所述n为2以上的整数，基于所述默认超参数集中包括的多个超参数中每一个的默认值组合预设范围内的每个第1候选值，生成第1超参数集候选至第(1_h)超参数集候选，其中所述h为2以上的整数，分别应用所述默认超参数集和所述第1超参数集候选至所述第(1_h)超参数集候选，分别使用所述第1阶段学习用数据以训练所述机器学习网络，评估每个通过分别应用所述默认超参数集和所述第1超参数集候选至所述第(1_h)超参数集候选来训练的所述机器学习网络的性能，选择性能最高的所述机器学习网络作为所述第1阶段学习的机器学习网络，生成所述第1阶段学习的机器学习网络的训练中应用的超参数集作为第1自适应超参数集；(II)将k从2增加到(n-1)，基于第(k-1)自适应超参数集中包括的多个超参数中每一个的第(k-1)自适应值组合所述预设范围内的每个第k候选值，生成第(k_1)超参数集候选至第(k_h)超参数集候选，分别应用所述第(k-1)超参数集和所述第(k_1)超参数集候选至所述第(k_h)超参数集候选，分别使用所述第k阶段学习用数据以训练第(k-1)阶段学习的机器学习网络，评估每个通过分别应用所述第(k-1)自适应超参数集和所述第(k_1)超参数集候选至所述第(k_h)超参数集候选来训练的所述第(k-1)阶段学习的机器学习网络的性能，选择性能最高的所述第(k-1)阶段学习的机器学习网络作为第k阶段学习的机器学习网络，生成所述第k阶段学习的机器学习网络的训练中应用的超参数集作为第k自适应超参数集；以及(III)使用参考所述第1自适应超参数集至第(n-1)自适应超参数集中每一个和所述第1阶段学习中训练的机器学习网络至第(n-1)阶段学习中训练的机器学习网络各自的性能评估结果构建的优化函数来生成第n自适应超参数集，应用所述第n自适应超参数集，使用所述第n阶段学习用数据对所述第(n-1)阶段学习的机器学习网络进行第n阶段学习，从而完成所述当前学习。

10.根据权利要求9所述的装置，

(IV)所述处理器还执行如下处理：当所述当前学习完成后所述机器学习网络的性能没有提高到一定阈值以上时，不更新所述机器学习网络，使用所述机器学习网络运行所述自动驾驶汽车，直到满足下一次设备上学习条件；以及当所述当前学习完成后所述机器学习网络的性能提高一定阈值以上时，使用当前学习的机器学习网络更新所述机器学习网络，使用所述当前学习的机器学习网络运行所述自动驾驶汽车，直到满足所述下一次设备上学习条件。

11.根据权利要求9所述的装置，

所述处理器在所述第k阶段学习的机器学习网络的性能高于所述第(k-1)阶段学习的机器学习网络的性能时，将第(k+1)自适应超参数集至所述第n自适应超参数集分别设置为等于所述第k自适应超参数集。

12.根据权利要求9所述的装置，

在所述(II)处理中，

所述处理器将所述第1自适应超参数集至所述第n自适应超参数集所包括的至少一个超参数的自适应值保持相同。

13.根据权利要求9所述的装置，

所述处理器在所述第k阶段学习中训练的机器学习网络的性能高于所述第(k-1)阶段学习中训练的机器学习网络的性能时，通过将所述第k阶段学习设置为所述第n阶段学习来完成所述当前学习。

14.根据权利要求9所述的装置，

在所述(I)处理中，

当获得由安装在所述自动驾驶汽车上的传感器获得的传感数据时，在所述机器学习网络根据深度学习分析所述传感数据以生成针对所述自动驾驶汽车的驾驶信息的输出数据的状态下，

所述处理器将所述传感数据和与每个所述传感数据对应的输出数据输入至所述数据选择网络，使得所述数据选择网络参考所述输出数据选择用于所述机器学习网络的训练的特定传感数据，并将所选的特定传感数据存储为所述新的学习用数据。

15.根据权利要求9所述的装置，

16.根据权利要求9所述的装置，

在所述(I)步骤中，

所述处理器选择预先确定为所述机器学习网络的基础模型的超参数集作为所述默认超参数集，或者选择先前学习中生成的最佳超参数集作为所述默认超参数集。