CN109816027A

CN109816027A - 无人驾驶决策模型的训练方法、装置及无人驾驶设备

Info

Publication number: CN109816027A
Application number: CN201910088087.5A
Authority: CN
Inventors: 丁曙光; 任冬淳; 钱德恒; 付圣
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2019-05-28

Abstract

本申请提供一种无人驾驶决策模型的训练方法、装置及无人驾驶设备，所述方法的一具体实施方式包括：确定初始的样本集及初始的分类器；基于所述初始的样本集及所述初始的分类器，采用迭代的方式交替执行分类器更新及样本集更新，直至满足停止条件，得到目标样本集；利用所述目标样本集，训练目标决策模型，所述目标决策模型用于无人驾驶的决策分类。该实施方式使得分类器与样本集相互优化，能够更为快捷地得到更高质量的目标样本集。并且，无需对大量的样本数据进行标注，也提高了模型训练的效率。

Description

无人驾驶决策模型的训练方法、装置及无人驾驶设备

技术领域

本申请涉及无人驾驶技术领域，特别涉及一种无人驾驶决策模型的训练方法、装置及无人驾驶设备。

背景技术

随着无人驾驶技术以及人工智能技术的不断发展，人工智能技术已经深入地应用到无人驾驶技术领域。目前来说，在进行无人驾驶行为决策模型的训练时，通常需要对大量的样本数据进行标签的标注。然而，在进行标签的标注时，需要耗费大量的人力资源，使得模型训练的效率低下。同时，已被标注的样本数据的质量也难以得到保证。

发明内容

为了解决上述技术问题之一，本申请提供一种无人驾驶决策模型的训练方法、装置及无人驾驶设备。

根据本申请实施例的第一方面，提供一种无人驾驶决策模型的训练方法，包括：

确定初始的样本集及初始的分类器，所述初始的样本集包括已标注样本数据和未标注样本数据；

基于所述初始的样本集及所述初始的分类器，采用迭代的方式交替执行分类器更新及样本集更新，直至满足停止条件，得到目标样本集；其中，所述分类器更新包括：利用当前的样本集中的已标注样本数据更新当前的分类器；所述样本集更新包括：利用当前的分类器从当前的样本集的未标注样本数据中选取目标样本数据，以针对所述目标样本数据执行更新操作；

利用所述目标样本集，训练目标决策模型，所述目标决策模型用于无人驾驶的决策分类。

可选的，所述初始的样本集由多组子样本集构成，每组所述子样本集对应一种驾驶环境的类别，每种驾驶环境的类别对应一组驾驶决策属性，所述初始的分类器由多个子分类器构成，每个所述子分类器对应一组子样本集。

可选的，所述利用当前的样本集中的已标注样本数据更新当前的分类器，包括：

针对当前的每组子样本集，利用该组子样本集中的已标注样本数据训练更新当前该组子样本集对应的子分类器。

可选的，所述利用当前的分类器从当前的样本集的未标注样本数据中选取目标样本数据，包括：

对于当前的每组子样本集，确定针对该组子样本集的多个目标子分类器，所述目标子分类器为当前除该组子样本集对应的子分类器以外的其它子分类器，并利用每个所述目标子分类器对该组子样本集进行选取操作，以选取该组子样本集中部分未标注样本数据作为目标样本数据。

可选的，针对任意一个目标子分类器，通过如下方式利用该目标子分类器对该组子样本集进行选取操作：

从该组子样本集的未标注样本数据中取出多个待测样本数据；

将所述待测样本数据输入至该目标子分类器，以得到每个所述待测样本数据在每个预设的驾驶决策属性上的概率值；

基于每个所述待测样本数据在每个预设的驾驶决策属性上的概率值，计算每个所述待测样本数据对应的后验概率的信息熵；

基于所述后验概率的信息熵，进行选取操作。

可选的，所述目标样本数据包括待标注的样本数据；

所述基于所述后验概率的信息熵，进行选取操作，包括：

选取后验概率的信息熵最大的待测样本数据作为待标注的样本数据；或

选取后验概率的信息熵大于第一阈值的待测样本数据作为待标注的样本数据。

可选的，所述目标样本数据还包括待删除的样本数据；

所述基于所述后验概率的信息熵，进行选取操作，还包括：

选取后验概率的信息熵最小的待测样本数据作为待删除的样本数据；或

选取后验概率的信息熵小于第二阈值的待测样本数据作为待删除的样本数据。

根据本申请实施例的第二方面，提供一种无人驾驶决策模型的训练装置，包括：

确定模块，用于确定初始的样本集及初始的分类器，所述初始的样本集包括已标注样本数据和未标注样本数据；

更新模块，用于基于所述初始的样本集及所述初始的分类器，采用迭代的方式交替执行分类器更新及样本集更新，直至满足停止条件，得到目标样本集；其中，所述分类器更新包括：利用当前的样本集中的已标注数据更新当前的分类器；所述样本集更新包括：利用当前的分类器从当前的样本集的未标注样本数据中选取目标样本数据，以针对所述目标样本数据执行更新操作；

训练模块，用于利用所述目标样本集，训练目标决策模型，所述目标决策模型用于无人驾驶的决策分类。

根据本申请实施例的第三方面，提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一项所述的方法。

根据本申请实施例的第四方面，提供一种无人驾驶设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述第一方面中任一项所述的方法。

本申请的实施例提供的技术方案可以包括以下有益效果：

本申请的实施例提供的无人驾驶决策模型的训练方法和装置，通过确定初始的样本集及初始的分类器，该初始的样本集包括已标注样本数据和未标注样本数据，基于初始的样本集及初始的分类器，采用迭代的方式交替执行分类器更新及样本集更新，直至满足停止条件，得到目标样本集，并利用目标样本集，训练目标决策模型，该目标决策模型用于无人驾驶的决策分类。由于本实施例基于初始的样本集及初始的分类器，采用迭代的方式交替执行分类器更新及样本集更新，从而使得分类器与样本集相互优化，能够更为快捷地得到更高质量的目标样本集。并且，利用目标样本集，训练目标决策模型，从而无需对大量的样本数据进行标注，也提高了模型训练的效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请根据一示例性实施例示出的一种无人驾驶决策模型的训练方法的流程图；

图2是本申请根据一示例性实施例示出的另一种无人驾驶决策模型的训练方法的流程图；

图3是本申请根据一示例性实施例示出的另一种无人驾驶决策模型的训练方法的流程图；

图4是本申请根据一示例性实施例示出的一种无人驾驶决策模型的训练装置的框图；

图5是本申请根据一示例性实施例示出的另一种无人驾驶决策模型的训练装置的框图；

图6是本申请根据一示例性实施例示出的另一种无人驾驶决策模型的训练装置的框图；

图7是本申请根据一示例性实施例示出的一种无人驾驶设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

如图1所示，图1是根据一示例性实施例示出的一种无人驾驶决策模型的训练方法的流程图，该方法可以应用于终端设备中，也可以应用于服务器中。该方法包括以下步骤：

在步骤101中，确定初始的样本集及初始的分类器，该初始的样本集包括已标注样本数据和未标注样本数据。

在本实施例中，首先，可以获取用于无人驾驶行为决策的样本数据，得到初始的样本集。其中，该样本数据可以由安装于无人驾驶设备(如，无人车，或者无人操作机器人，或者无人机，或者无人船等等)上的各种数据采集装置采集得到。例如，上述数据采集装置可以包括但不限于图像采集装置，各种雷达装置以及惯性测量单元等等。

在本实施例中，在上述初始的样本集中，可以包括已标注的样本数据以及未标注样本数据。其中，每个已标注的样本数据对应一个行为决策标签，每个行为决策标签可以对应于一个行为决策，例如，行为决策可以是向前行进，也可以是向后退，也可以是向左拐弯，也可以是向右拐弯，还可以是匀速行驶，还可以是停止，还可以是跟随目标物等等。可以理解，行为决策还可以是其它类型的决策，本申请对行为决策的具体类型方面不限定。

在本实施例中，初始的分类器可以是任意合理类型的分类器，例如，初始的分类器可以是线性分类器，也可以是SVM(Support Vector Machine，支持向量机)，还可以是决策树模型等，可以理解，本申请对初始的分类器的具体类型方面不限定。

在步骤102中，基于初始的样本集及初始的分类器，采用迭代的方式交替执行分类器更新及样本集更新，直至满足停止条件，得到目标样本集。

在本实施例中，分类器更新可以是利用当前的样本集中的已标注样本数据更新当前的分类器。样本集更新可以是利用当前的分类器从当前的样本集的未标注样本数据中选取目标样本数据，以针对目标样本数据执行更新操作。可选地，在交替执行分类器更新及样本集更新时，可以先执行分类器更新，再执行样本集更新。其中，在首次进行分类器更新时，当前的样本集为初始的样本集，当前的分类器为初始的分类器。在首次进行样本集更新时，当前的分类器为首次进行分类器更新后得到的分类器，当前的样本集为初始的样本集。

在本实施例中，目标样本数据可以包括待标注的样本数据，针对目标样本数据执行更新操作可以是对待标注的样本数据进行标注。目标样本数据还可以包括待删除的样本数据，针对目标样本数据执行更新操作还可以包括对待删除的样本数据进行删除。

在本实施例中，当确定满足停止条件时，停止迭代，并将当前的样本集作为目标样本集。其中，目标样本集可以包括原来已标注的样本数据，将原来未标注的样本数据中待标注的样本数据进行标注之后的样本数据，或者还可以包括原来未标注的样本数据中待删除的样本数据进行删除之后的样本数据。其中，当利用样本集训练更新分类器后，若确定用于上述训练更新的损失函数收敛，则可以确定满足停止条件。可以理解，停止条件还可以为其它任意合理的条件，本申请对停止条件的具体内容方面不限定。

在步骤103中，利用目标样本集，训练目标决策模型，该目标决策模型用于无人驾驶的决策分类。

在本实施例中，该目标样本集中包括已标注的样本数据和未标注的样本数据，因此，可以利用目标样本集，采用半监督的方式训练目标决策模型，该目标决策模型可以用于无人驾驶的决策分类。例如，采用生成式对抗网络训练目标决策模型。需要说明的是，本领域中已知的以及将来可能出现的任何采用半监督的方式训练目标决策模型的方法都可以应用于本申请，本申请对采用半监督的方式训练目标决策模型的具体训练方式方面不限定。

本申请的上述实施例提供的无人驾驶决策模型的训练方法，通过确定初始的样本集及初始的分类器，该初始的样本集包括已标注样本数据和未标注样本数据，基于初始的样本集及初始的分类器，采用迭代的方式交替执行分类器更新及样本集更新，直至满足停止条件，得到目标样本集，并利用目标样本集，训练目标决策模型，该目标决策模型用于无人驾驶的决策分类。由于本实施例基于初始的样本集及初始的分类器，采用迭代的方式交替执行分类器更新及样本集更新，从而使得分类器与样本集相互优化，能够更为快捷地得到更高质量的目标样本集。并且，利用目标样本集，训练目标决策模型，从而无需对大量的样本数据进行标注，也提高了模型训练的效率。

在一些可选实施方式中，上述初始的样本集可以由多组子样本集构成，每组子样本集对应一种驾驶环境的类别，每种驾驶环境的类别对应一组驾驶决策属性，上述初始的分类器由多个子分类器构成，每个子分类器对应一组子样本集。

一般来说，无人驾驶设备可能会行驶在多种不同的环境场景中，每种不同的环境场景可以对应一种驾驶环境的类别。在不同驾驶环境的类别下，无人驾驶设备可以执行不同的行为决策，因此，每种驾驶环境的类别可以对应一组驾驶决策属性。

以无人车为例，例如，当无人车行驶于城市开放道路上时，可以对应一种驾驶环境的类别(即城市开放道路类别)。并且，在此场景下，无人车可能需要执行的行为决策可以包括但不限于避让行人车辆，变换车道，向前行进，停止，在等待区域等待交通灯等等。因此，该驾驶环境的类别对应的一组驾驶决策属性可以包括但不限于避让属性，变道属性，前进属性，停止属性，等待交通灯属性等等。

又例如，当无人车行驶于高速路上时，可以对应一种驾驶环境的类别(即高速道路类别)。并且，在此场景下，无人车可能需要执行的行为决策可以包括但不限于超车，变换车道，向前行进，减速等等。因此，该驾驶环境的类别对应的一组驾驶决策属性可以包括但不限于超车属性，变道属性，前进属性，减速属性等等。

再例如，当无人车行驶于停车场中时，可以对应一种驾驶环境的类别(即停车场类别)。并且，在此场景下，无人车可能需要执行的行为决策可以包括但不限于确定停车位，倒车，转弯，停车等等。因此，该驾驶环境的类别对应的一组驾驶决策属性可以包括但不限于寻找车位属性，倒车属性，转弯属性，停车属性等等。

需要说明的是，不同的驾驶环境的类别对应的驾驶决策属性中，可以具有相同的驾驶决策属性。例如，参见上述示例，城市开放道路类别对应的一组驾驶决策属性中与高速道路类别对应的一组驾驶决策属性中，均可以包括变道属性和前进属性等。

在本实施例中，初始的样本集可以由多组子样本集构成，每组子样本集为针对一种驾驶环境的类别而采集的子样本集，例如，参见上述示例，可以分别针对城市开放道路、高速道路以及停车场，采集三组数据集作为子样本集。其中，每个子样本集均包括已标注样本数据和未标注样本数据。并且，每个子样本集对应一组驾驶决策属性。

在本实施例中，针对每组子样本集，相应的设定一组子分类器，这些子分类器构成初始的分类器。需要说明的是，每个子分类器均能对所有的驾驶决策属性进行决策分类。

本实施例将样本集按照不同的驾驶环境的类别分为多组子样本集，并针对每组子样本集设定相应的子分类器，由于不同子样本集之间的驾驶决策属性具有一定的差别，因此，使得样本集的更新和分类器的更新更有针对性，从而进一步得到更高质量的目标样本集。

如图2所示，图2根据一示例性实施例示出的另一种无人驾驶决策模型的训练方法的流程图，该实施例描述了采用迭代的方式交替执行分类器更新及样本集更新的过程，该方法可以应用于终端设备中，也可以应用于服务器中。包括以下步骤：

在步骤201中，确定初始的样本集及初始的分类器，初始的样本集由多组子样本集构成，初始的分类器由多个子分类器构成，每组子样本集对应一个子分类器，每组子样本集均包括已标注样本数据和未标注样本数据。

在本实施例中，可以确定初始的样本集及初始的分类器，初始的样本集由多组子样本集构成，初始的分类器由多个子分类器构成，每组子样本集对应一个子分类器。例如，初始的样本集由子样本集A、子样本集B和子样本集C构成，初始的分类器由子分类器a、子分类器b和子分类器c构成，其中，子样本集A与子分类器a对应，子样本集B与子分类器b对应，子样本集C与子分类器c对应。

在步骤202中，针对当前的每组子样本集，利用该组子样本集中的已标注样本数据训练更新该组子样本集对应的子分类器。

在本实施例中，针对当前的每组子样本集，可以利用该组子样本集中的已标注样本数据训练更新该组子样本集对应的子分类器。例如，参见步骤201中的示例，可以分别利用当前的子样本集A中的已标注样本数据训练更新当前的子分类器a；利用当前的子样本集B中的已标注样本数据训练更新当前的子分类器b；利用当前的子样本集C中的已标注样本数据训练更新当前的子分类器c。需要说明的是，本领域中已知的以及将来可能出现的任何采用已标注样本数据训练更新分类器的方法都可以应用于本申请，本申请对分类器的具体训练方式方面不限定。

需要说明的是，当首次执行步骤202时，当前的每组子样本集为构成初始的样本集的每组子样本集。

在步骤203中，对于当前的每组子样本集，确定针对该组子样本集的多个目标子分类器，该目标子分类器为当前除该组子样本集对应的子分类器以外的其它子分类器，并利用每个目标子分类器对该组子样本集进行选取操作，以选取该组子样本集中部分未标注样本数据作为目标样本数据。

在本实施例中，对于当前的每组子样本集，确定针对该组子样本集的多个目标子分类器，该目标子分类器为当前除该组子样本集对应的子分类器以外的其它子分类器。例如，参见步骤201中的示例，针对当前的子样本集A的目标子分类器可以是当前的子分类器b和当前的子分类器c；针对当前的子样本集B的目标子分类器可以是当前的子分类器a和当前的子分类器c；针对当前的子样本集C的目标子分类器可以是当前的子分类器a和当前的子分类器b。

在本实施例中，可以利用每个目标子分类器对该组子样本集进行选取操作，以选取该组子样本集中部分未标注样本数据作为目标样本数据。具体来说，针对任意一个目标子分类器，可以通过如下方式利用该目标子分类器对该组子样本集进行选取操作：首先，可以从该组子样本集的未标注样本数据中取出多个待测样本数据，将待测样本数据输入至该目标子分类器，以得到每个待测样本数据在每个预设的驾驶决策属性上的概率值。然后，基于每个待测样本数据在每个预设的驾驶决策属性上的概率值，计算每个待测样本数据对应的后验概率的信息熵，并基于该后验概率的信息熵，进行选取操作。

需要说明的是，当首次执行步骤203时，当前的每组子样本集为构成初始的样本集的每组子样本集。

在步骤204中，确定是否满足停止条件，当满足停止条件时，执行步骤205，当未满足停止条件时，重新执行步骤202。

在步骤205中，将当前样本集确定为目标样本集。

在步骤206中，利用目标样本集，训练目标决策模型，该目标决策模型用于无人驾驶的决策分类。

需要说明的是，对于与图1实施例中相同的步骤，在上述图2实施例中不再进行赘述，相关内容可参见图1实施例。

本申请的上述实施例提供的无人驾驶决策模型的训练方法，通过采用迭代的方式交替执行分类器更新及样本集更新，从而使得分类器与样本集相互优化，更为快捷地得到更高质量的目标样本集。并且，由于本实施例中，在进行分类器更新时，利用当前的每组子样本集训练更新该组子样本集对应的子分类器。并在进行样本集更新时，利用当前的每个子分类器对当前除该子分类器对应的子样本集以外的其它子样本集进行选取操作。因此，可以有效的防止过拟合，进一步提高了目标样本集的质量。

如图3所示，图3根据一示例性实施例示出的另一种无人驾驶决策模型的训练方法的流程图，该实施例详细描述了图2的步骤203中，针对任意一个目标子分类器，利用该目标子分类器对对应的子样本集进行选取操作的过程，该方法可以应用于终端设备中，也可以应用于服务器中，包括以下步骤：

在步骤301中，从该组子样本集的未标注样本数据中取出多个待测样本数据。

在本实施例中，可以从该组子样本集的未标注样本数据中取出多个待测样本数据。其中，可以采用预设规则选取待测样本数据，也可以随机选取待测样本数据。可以理解，本申请对待测样本数据的具体选取方式方面不限定。

在步骤302中，将待测样本数据输入至该目标子分类器，以得到每个待测样本数据在每个预设的驾驶决策属性上的概率值。

在步骤303中，基于每个待测样本数据在每个预设的驾驶决策属性上的概率值，计算每个待测样本数据对应的后验概率的信息熵。

在步骤304中，选取后验概率的信息熵最大或者后验概率的信息熵大于第一阈值的待测样本数据，作为待标注的样本数据。

在本实施例中，目标样本数据可以包括待标注的样本数据，可以选取后验概率的信息熵最大的待测样本数据，作为待标注的样本数据。或者，选取后验概率的信息熵大于第一阈值的待测样本数据，作为待标注的样本数据。接着，可以对待标注的样本数据进行标注，从而使得样本集得到更新。

在步骤305中，选取后验概率的信息熵最小或者后验概率的信息熵小于第二阈值的待测样本数据，作为待删除的样本数据。

在本实施例中，目标样本数据还可以包括待删除的样本数据，可以选取后验概率的信息熵最小的待测样本数据，作为待删除的样本数据。或者，选取后验概率的信息熵小于第二阈值的待测样本数据，作为待删除的样本数据。接着，可以将待删除的样本数据从样本集中删除，从而使得样本集得到更新。

应当注意，尽管在图3的实施例中，以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。例如，可以先执行步骤304，再执行步骤305。也可以先执行步骤305，再执行步骤304，还可以同时执行步骤304和步骤305。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本申请的上述实施例提供的无人驾驶决策模型的训练方法，通过将待测样本数据输入至该目标子分类器，以得到每个待测样本数据在每个预设的驾驶决策属性上的概率值，基于每个待测样本数据在每个预设的驾驶决策属性上的概率值，计算每个待测样本数据对应的后验概率的信息熵，选取后验概率的信息熵最大或者后验概率的信息熵大于第一阈值的待测样本数据，作为待标注的样本数据。选取后验概率的信息熵最小或者后验概率的信息熵小于第二阈值的待测样本数据，作为待删除的样本数据。由于本实施例基于待测样本数据对应的后验概率的信息熵，选取待标注的样本数据以及待删除的样本数据作为目标样本数据，以针对目标样本数据执行样本集的更新操作。因此，经过更新后的目标样本集包含更为丰富的已标注数据，并去除了部分信息冗余的未标注数据，使得目标样本集的质量更高。

与前述无人驾驶决策模型的训练方法实施例相对应，本申请还提供了无人驾驶决策模型的训练装置的实施例。

如图4所示，图4是本申请根据一示例性实施例示出的一种无人驾驶决策模型的训练装置框图，该装置可以包括：确定模块401，更新模块402和训练模块403。

其中，确定模块401，用于确定初始的样本集及初始的分类器，该初始的样本集包括已标注样本数据和未标注样本数据。

更新模块402，用于基于上述初始的样本集及上述初始的分类器，采用迭代的方式交替执行分类器更新及样本集更新，直至满足停止条件，得到目标样本集。其中，分类器更新包括：利用当前的样本集中的已标注数据更新当前的分类器。样本集更新包括：利用当前的分类器从当前的样本集的未标注样本数据中选取目标样本数据，以针对目标样本数据执行更新操作。

训练模块403，用于利用目标样本集，训练目标决策模型，该目标决策模型用于无人驾驶的决策分类。

在一些可选实施方式中，初始的样本集由多组子样本集构成，每组子样本集对应一种驾驶环境的类别，每种驾驶环境的类别对应一组驾驶决策属性，初始的分类器由多个子分类器构成，每个子分类器对应一组子样本集。

如图5所示，图5是本申请根据一示例性实施例示出的另一种无人驾驶决策模型的训练装置框图，该实施例在前述图4所示实施例的基础上，更新模块402可以包括：第一更新子模块501。

其中，第一更新子模块501，用于针对当前的每组子样本集，利用该组子样本集中的已标注样本数据训练更新当前该组子样本集对应的子分类器。

如图6所示，图6是本申请根据一示例性实施例示出的另一种无人驾驶决策模型的训练装置框图，该实施例在前述图5所示实施例的基础上，更新模块402还可以包括：第二更新子模块502。

其中，第二更新子模块502，用于对于当前的每组子样本集，确定针对该组子样本集的多个目标子分类器，上述目标子分类器为当前除该组子样本集对应的子分类器以外的其它子分类器，并利用每个目标子分类器对该组子样本集进行选取操作，以选取该组子样本集中部分未标注样本数据作为目标样本数据。

在另一些可选实施方式中，针对任意一个目标子分类器，第二更新子模块502可以通过如下方式利用该目标子分类器对该组子样本集进行选取操作：从该组子样本集的未标注样本数据中取出多个待测样本数据，将待测样本数据输入至该目标子分类器，以得到每个待测样本数据在每个预设的驾驶决策属性上的概率值，基于每个待测样本数据在每个预设的驾驶决策属性上的概率值，计算每个待测样本数据对应的后验概率的信息熵，并基于上述后验概率的信息熵，进行选取操作。

在另一些可选实施方式中，目标样本数据可以包括待标注的样本数据。

第二更新子模块502可以通过如下方式基于后验概率的信息熵，进行选取操作：选取后验概率的信息熵最大的待测样本数据作为待标注的样本数据，或者选取后验概率的信息熵大于第一阈值的待测样本数据作为待标注的样本数据。

在另一些可选实施方式中，目标样本数据还包括待删除的样本数据。

第二更新子模块502还可以通过如下方式基于后验概率的信息熵，进行选取操作：选取后验概率的信息熵最小的待测样本数据作为待删除的样本数据，或者选取后验概率的信息熵小于第二阈值的待测样本数据作为待删除的样本数据。

应当理解，上述装置可以预先设置在终端设备或服务器中，也可以通过下载等方式而加载到终端设备或服务器中。上述装置中的相应模块可以与终端设备或服务器中的模块相互配合以实现无人驾驶决策模型的训练方案。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本申请实施例还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1至图3任一实施例提供的无人驾驶决策模型的训练方法。

对应于上述的无人驾驶决策模型的训练方法，本申请实施例还提出了图7所示的根据本申请的一示例性实施例的无人驾驶设备的结构示意图。请参考图7，在硬件层面，该无人驾驶设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成无人驾驶决策模型的训练装置。当然，除了软件实现方式之外，本申请并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种无人驾驶决策模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述初始的样本集由多组子样本集构成，每组所述子样本集对应一种驾驶环境的类别，每种驾驶环境的类别对应一组驾驶决策属性，所述初始的分类器由多个子分类器构成，每个所述子分类器对应一组子样本集。

3.根据权利要求2所述的方法，其特征在于，所述利用当前的样本集中的已标注样本数据更新当前的分类器，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述利用当前的分类器从当前的样本集的未标注样本数据中选取目标样本数据，包括：

5.根据权利要求4所述的方法，其特征在于，针对任意一个目标子分类器，通过如下方式利用该目标子分类器对该组子样本集进行选取操作：

基于所述后验概率的信息熵，进行选取操作。

6.根据权利要求5所述的方法，其特征在于，所述目标样本数据包括待标注的样本数据；

所述基于所述后验概率的信息熵，进行选取操作，包括：

选取后验概率的信息熵最大的待测样本数据作为待标注的样本数据；或选取后验概率的信息熵大于第一阈值的待测样本数据作为待标注的样本数据。

7.根据权利要求6所述的方法，其特征在于，所述目标样本数据还包括待删除的样本数据；

所述基于所述后验概率的信息熵，进行选取操作，还包括：

选取后验概率的信息熵最小的待测样本数据作为待删除的样本数据；或选取后验概率的信息熵小于第二阈值的待测样本数据作为待删除的样本数据。

8.一种无人驾驶决策模型的训练装置，其特征在于，所述装置包括：

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1-7中任一项所述的方法。

10.一种无人驾驶设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1-7中任一项所述的方法。