CN111615676A

CN111615676A - 用于估计由监督机器学习器做出的决策的不确定性的系统和方法

Info

Publication number: CN111615676A
Application number: CN201980008950.XA
Authority: CN
Inventors: S·科洛瑞; H·霍夫曼
Original assignee: HRL Laboratories LLC
Current assignee: HRL Laboratories LLC
Priority date: 2018-03-26
Filing date: 2019-01-30
Publication date: 2020-09-01
Anticipated expiration: 2039-01-30
Also published as: EP3776125A1; EP3776125A4; US20190294149A1; CN111615676B; US11086299B2; WO2019190627A1

Abstract

描述了一种用于对自主平台进行控制的系统。基于输入图像，系统生成针对自主平台的电动机控制命令决策。确定输入图像属于训练图像集合的概率，并且使用所确定的概率生成针对电动机控制命令决策的可靠性度量。当可靠性度量高于预定阈值时，执行探索动作。否则，当可靠性度量低于预定阈值时，执行与电动机控制命令决策相对应的利用动作。

Description

用于估计由监督机器学习器做出的决策的不确定性的系统和方法

相关申请的交叉引用

这是于2018年3月26日在美国提交的标题为“System and Method forEstimating Uncertainty of the Decisions Made by a Supervised Machine Learner(用于估计由监督式机器学习器做出的决策的不确定性的系统和方法)”的美国临时申请No.62/648,304的非临时申请，其全部内容通过引用并入本文中。

背景技术

(1)技术领域

本发明涉及用于估计由监督机器学习器做出的决策的不确定性的系统，并且更具体地，涉及用于估计自主平台的控制输出的可靠性的系统。

(2)相关技术的描述

用于将输入数据映射到决策的现有方法使用深度神经网络。这些方法的缺点是它们不提供针对新数据与训练集合的匹配程度的置信度。深度神经网络可以为远离训练数据的分布的新数据点提供高置信度决策，但是训练分布之外的数据点将导致不可靠决策。

用于估计数据分布的现有技术是高斯混合模型(GMM)(参见所并入的参考文献的列表，参考文献1和8)，这是描述数据的概率密度函数。估计GMM参数的现有方法基于相对于参数使数据的负对数似然(NLL)最小化(参见参考文献8)。期望最大化(EM)算法(参见参考文献2)是最小化NLL的重要方式。然而，其保证仅收敛到似然函数的固定点，而不能找到全局最优值。

各种研究已经表明，似然函数具有坏局部最大值，与任何全局最大值相比，局部最大值可能具有任意较差的对数似然值(参见参考文献4和6)。此外，Jian等人(参见参考文献5)证明：采用随机初始化，EM算法将很可能收敛到坏临界点。此问题使EM算法对初始参数的选择敏感。

当前生成对抗网络(GAN)(参见参考文献3)方法接收已知分布(例如，多元高斯分布)并且将其映射到图像分布(即，生成合成图像)。因此，当前GAN没有把重点放在对数据分布进行聚类。另外，考虑到输入数据分布(即，多元高斯分布)是典型现实世界数据分布的极差近似，所以GAN很难生成代表训练集合的良好数据点。

因此，持续需要一种系统来改进机器学习系统的不确定性估计，以使得能够针对提供较差结果的机器学习系统进行更好针对性学习。

发明内容

该系统包括一个或更多个处理器以及非暂时性计算机可读介质，该非暂时性计算机可读介质编码有可执行指令，使得可执行指令在被执行时，一个或更多个处理器执行多个操作。对于输入图像，系统生成针对自主平台的电动机控制命令决策。确定输入图像属于训练图像集合的概率。使用所确定的概率来生成用于电动机控制命令决策的可靠性度量。如果可靠性度量高于预定阈值，则系统使自主平台执行探索动作。如果可靠性度量低于预定阈值，则系统使自主平台执行与电动机控制命令决策相对应的利用动作。

在另一方面，在确定输入图像属于看到过的图像类的概率时，该系统学习用于输入数据的分布的嵌入。

在另一方面，在学习用于输入数据的分布的嵌入时，使用切片沃瑟斯坦(Wasserstein)聚类技术。

在另一方面，在执行索动作时，自主平台在环境的围绕自主平台的区域中收集附加输入数据。

在另一方面，在执行利用动作时，自主平台执行导致预先指定目标的电动机控制命令。

在另一方面，经由监督学习或强化学习，利用训练图像集合来训练决策模块，其中，决策模块生成电动机控制命令决策。以非监督方式利用训练图像集合来训练不确定性模块，其中，不确定性模块确定输入图像属于训练图像集合的概率。不确定性模块与决策模块并行训练。

在另一方面，在确定输入图像属于训练图像集合的概率时，该系统使用对抗卷积自动编码器将输入图像嵌入到低维希尔伯特(Hilbert)空间中，并且经由高斯混合模型对输入数据在低维希尔伯特空间中的分布进行建模。

在另一方面，自主平台包括机械臂，并且探索动作是尝试利用机械臂抓取对象的新方式。

在另一方面，自主平台包括机械臂，并且利用动作是已知动作，该已知动作包括利用机械臂抓取和处理对象。

在另一方面，自主平台是车辆，并且利用动作是避免碰撞。

最后，本发明还包括计算机程序产品和计算机实现方法。该计算机程序产品包括存储在非暂时性计算机可读介质上的计算机可读指令，该计算机可读指令可以由具有一个或更多个处理器的计算机执行，使得在执行这些指令时，该一个或更多个处理器执行本文列出的操作。另选地，计算机实现方法包括使计算机执行这种指令并执行所得到的操作的动作。

附图说明

从以下参照附图对本发明的多个方面的详细描述，将容易理解本发明的目的、特征和优点，其中：

图1是示出了根据本公开的一些实施方式的用于估计由监督机器学习器做出的决策的不确定性的系统的组件的框图；

图2是根据本公开的一些实施方式的计算机程序产品的例示；

图3A是根据本公开的一些实施方式的探索其环境的移动机器人的例示；

图3B是根据本公开的一些实施方式的探索其环境的机械臂的例示；

图4是根据本公开的一些实施方式的用于估计由监督机器学习器做出的决策的不确定性的系统的例示；

图5是根据本公开的一些实施方式的自动编码器和在利用自动编码器处理图像之后的样本结果的例示；

图6是根据本公开的一些实施方式的通过对高斯混合模型(GMM)模式进行采样来合成地生成的图像的示例性例示；

图7概念性地例示了用于估计自主平台的控制输出的可靠性的处理；以及

图8概念性地例示了根据本公开的一些实施方式的使用可靠性测量结果来控制设备的处理。

具体实施方式

呈现以下描述以使得本领域普通技术人员能够做出和使用本发明并将本发明并入到特定应用的上下文中。对于本领域技术人员而言，多种修改以及在不同应用中的多种使用将是显而易见的，并且本文中限定的一般原理可以应用于广泛方面。因此，本发明不旨在限于所呈现的方面，而是应根据与本文所公开的原理和新颖特征一致的最广范围。

在下面的详细描述中，阐述了许多具体细节以便提供对本发明的更透彻理解。然而，对于本领域技术人员显而易见的是，可以在不必限于这些特定细节的情况下实践本发明。在其它实例中，以框图的形式而不是详细地示出众所周知的结构和设备，以便避免模糊本发明。

读者的注意力被引导到与本说明书同时提交并随本说明书公开以供公众检查的所有论文和文献，并且所有这种论文和文献的内容均通过引用并入本文。除非另有明确说明，否则本说明书中公开的所有特征(包括任何所附权利要求、摘要和附图)可以由具有相同、等效或类似目的的另选特征代替。因此，除非另有明确说明，否则所公开的各个特征仅是通用系列的等效或类似特征的一个示例。

此外，权利要求中未明确说明用于执行指定功能的“手段”或用于执行特定功能的“步骤”的任何要素均不被解释成在35U.S.C第112条第6款中规定的“装置”或“步骤”条款。尤其是，此处权利要求中“的步骤”或“的动作”的使用不旨在援引35U.S.C第112条第6款的规定。

在详细描述本发明之前，首先提供所引用的参考文献的列表。接下来，提供对本发明的多个主要方面的描述。最后，提供了本发明的多个实施方式的具体细节，以给出对具体方面的理解。

(1)所并入的参考文献的列表

贯穿本申请引用且并入了以下参考书目。为了清楚和方便起见，参考文献在此被列出为读者的中心资源。以下参考文献通过引用并入本文，如同在本文中充分阐述一样。通过引用如下所示的对应文献参考编号来在本申请中引用这些参考文献：

1.C.Beecks，A.M.Ivanescu，S.Kirchhoff，and T.Seidl.Modeling imagesimilarity by gaussian mixture models and the signature quadratic formdistance.In Computer Vision(ICCV)，2011 IEEE International Conference On，pages1754-1761.IEEE，2011.

2.A.P.Dempster，N.M.Laird，and D.B.Rubin.Maximum likelihood fromincomplete data via the EM algorithm.Joumal of the Royal StatisticalSociety.Series B(Methodological)，pages 1-38，1977.

3.I.Goodfellow，J.Pouget-Abadie，M.Mirza，B.Xu，D.Warde-Farley，S.Ozair，A.Courville，and Y.Bengio.Generative adversarial nets.In Advances in neuralinformation processing systems，pages 2672-2680，2014.

4.H.Hoffmann.Unsupervised Learning of Visuomotor Associations，volume11of MPI Series in Biological Cybernetics.Logos Verlag Berlin，2005.

5.B.Jian and B.C.Vemuri.Robust point set registration using GaussianMixture Models.IEEE Transactions on Pattern Analysis and MachineIntelligence，33(8)：1633-1645，2011.

6.C.Jin，Y.Zhang，S.Balakrishnan，M.J.Wainwright，and M.I.Jordan.Localmaxima in the likelihood of Gaussian Mixture Models：Structural results andalgorithmic consequences.In Advances in Neural Information ProcessingSystems，4116-4124，2016.

7.Soheil Kolouri，Gustavo K.Rohde，and Heiko Hoffmann..SlicedWasserstein Distance for Learning Gaussian Mixture Models.arXiv：1711.05376，2017.

8.M E.Tipping and C.M.Bishop.Mixtures of probabilistic principalcomponent analyzers.Neural Computation，11：443-482，1999.

9.M.Hagan and M.Menhaj.Training feedforward networks with theMarquardt algorithm.IEEE transactions on Neural Networks，5(6)：989-93，1994.

(2)主要方面

本发明的多种实施方式包括三个“主要”方面。第一主要方面是用于估计由监督机器学习器做出的决策的不确定性的系统。该系统通常是计算机系统操作软件的形式或是“硬编码”指令集的形式。该系统可以被结合到提供不同功能的广泛多种设备中。第二主要方面是通常为使用数据处理系统(计算机)运行的软件形式的方法。第三主要方面是计算机程序产品。该计算机程序产品通常表示存储在非暂时性计算机可读介质上的计算机可读指令，非暂时性计算机可读介质例如是诸如光盘(CD)或数字多功能盘(DVD)的光学存储设备，或者诸如软盘或磁带的磁性存储设备。计算机可读介质的其它非限制性示例包括硬盘、只读存储器(ROM)和闪存型存储器。这些方面将在下面更详细地描述。

在图1中提供了描绘本发明的系统(即，计算机系统100)的示例的框图。计算机系统100被配置成执行与程序或算法相关联的计算、处理、操作和/或功能。在一个方面，本文中讨论的某些处理和步骤被实现成驻留在计算机可读存储器单元内并且由计算机系统100的一个或更多个处理器执行的一系列指令(例如，软件程序)。当被执行时，该指令使计算机系统100执行例如本文所描述的特定动作并呈现特定行为。

计算机系统100可以包括被配置成传输信息的地址/数据总线102。另外，一个或更多个数据处理单元(诸如一个或更多个处理器104)与地址/数据总线102联接。处理器104被配置成处理信息和指令。在一方面，处理器104是微处理器。另选地，处理器104可以是不同类型的处理器，诸如并行处理器、专用集成电路(ASIC)、可编程逻辑阵列(PLA)、复杂可编程逻辑器件(CPLD)或现场可编程门阵列(FPGA)。

计算机系统100被配置成利用一个或更多个数据存储单元。计算机系统100可以包括与地址/数据总线102联接的易失性存储器单元106(例如，随机存取存储器(“RAM”)、静态RAM、动态RAM等)，其中，易失性存储器单元106被配置成存储用于处理器104的信息和指令。计算机系统100还可以包括与地址/数据总线102联接的非易失性存储器单元108(例如，只读存储器(“ROM”)、可编程ROM(“PROM”)、可擦除可编程ROM(“EPROM”)、电可擦除可编程ROM“EEPROM”、闪存等)，其中，非易失性存储器单元108被配置成存储用于处理器104的静态信息和指令。另选地，计算机系统100可以执行从在线数据存储单元中检索到(诸如在“云”计算中)的指令。在一方面，计算机系统100还可以包括与地址/数据总线102联接的一个或更多个接口，诸如接口110。该一个或更多个接口被配置成使得计算机系统100能够与其它电子设备和计算机系统对接。由一个或更多个接口实现的通信接口可以包括有线通信技术(例如，串行电缆、调制解调器、网络适配器等)和/或无线通信技术(例如，无线调制解调器、无线网络适配器等)。

在一方面，计算机系统100可以包括与地址/数据总线102联接的输入设备112，其中，输入设备112被配置成将信息和命令选择传递给处理器100。根据一个方面，输入设备112是字母数字输入设备(诸如键盘)，其可以包括字母数字和/或功能键。另选地，输入设备112可以是除字母数字输入设备以外的输入设备。在一方面，计算机系统100可以包括与地址/数据总线102联接的光标控制设备114，其中，光标控制设备114被配置成将用户输入信息和/或命令选择传输至处理器100。在一方面，使用诸如鼠标、轨迹球、触控板、光学跟踪设备或触摸屏的设备来实现光标控制设备114。尽管存在前述内容，但是在一方面，经由来自输入设备112的输入(诸如响应于与输入设备112相关联的特定键和键序列命令的使用)来引导和/或启动光标控制设备114。在另选方面，光标控制设备114被配置成由语音命令引导或指导。

在一方面，计算机系统100还可以包括与地址/数据总线102联接的一个或更多个可选计算机可用数据存储设备，诸如存储设备116。存储设备116被配置成存储信息和/或计算机可执行指令。在一个方面，存储设备116是诸如磁盘驱动器、固态驱动器或光盘驱动器(例如，硬盘驱动器(“HDD”)、软盘、光盘只读存储器(“CD-ROM”)、数字多功能盘(“DVD”)和/或可移动闪速存储器的存储设备。根据一个方面，显示设备118与地址/数据总线102联接，其中，显示设备118被配置成显示视频和/或图形。在一方面，显示设备118可以包括阴极射线管(“CRT”)、液晶显示器(“LCD”)、场发射显示器(“FED”)、等离子显示器或适于显示用户可识别的视频和/或图形图像和字母数字字符的任何其它显示设备。

本文呈现的计算机系统100是根据一方面的示例计算环境。然而，计算机系统100的非限制性示例不严格限于计算机系统。例如，一方面提供了计算机系统100表示可以根据本文描述的多个方面使用的一个类型的数据处理分析。此外，还可以实现其它计算系统。实际上，本技术的精神和范围不限于任何单个数据处理环境。因此，一方面，使用由计算机执行的计算机可执行指令(诸如，程序模块)来控制或实现本技术的多个方面的一个或更多个操作。在一实现中，这种程序模块包括被配置成执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件和/或数据结构。另外，一方面提供了通过利用一个或更多个分布式计算环境来实现本技术的一个或更多个方面，诸如其中，任务是由通过通信网络链接的远程处理设备执行的，或者诸如其中，多个程序模块位于本地和远程计算机存储介质(包括存储器存储设备)二者中。

在图2中示出了具体实现本发明的计算机程序产品(即，存储设备)的例示图。该计算机程序产品被示出为软盘200或诸如CD或DVD的光盘202。然而，如先前所述，本发明不限于图2所示的计算机程序产品。本领域普通技术人员将理解的是，可以在不背离本公开的范围的情况下使用任何合适的计算机程序产品，并且图2中描绘的计算机程序产品通常表示存储在任何兼容非暂时性计算机可读介质上的计算机可读指令。关于本发明使用的术语“指令”通常表示要在计算机上执行的一组操作，并且可以表示整个程序的多段或单独可分离的软件模块。“指令”的非限制性示例包括计算机程序代码(源代码或目标代码)和“硬编码”电子器件(即，被编码到计算机芯片中的计算机操作)。“指令”被存储在任何非暂时性计算机可读介质上，诸如计算机的存储器中或软盘、CD-ROM和闪存驱动器中。无论哪种情况，指令均被编码在非暂时性计算机可读介质上。

(2)多种实施方式的具体细节

描述了一种用于控制移动机器人或机械臂的探索行为的系统和方法。通过在探索模式与利用(exploitation)模式之间切换来控制行为。为了决定何时切换，系统估计由机器学习模型做出的决策的不确定性，该机器学习模型从机器人的探索学习并且计算控制命令。根据本公开的实施方式的系统包括两个通用模块，即，决策模块(即，学习器)和不确定性模块。

决策模块是机器学习器，其是以监督方式或使用强化学习进行训练的。例如，决策模块可以是卷积神经网络(CNN)，其接收电光(EO)相机数据作为输入并且输出电动机控制命令。在训练阶段期间，两个模块并行训练，接收相同的输入数据。

在高级别，电动机控制命令是移动注释，诸如，“将机器人末端执行器向右移动10厘米”，或“将机器人移动平台旋转50度”。在低级别处，电动机控制命令是关节处的扭矩或车轮速度。本领域技术人员知道如何将上述高级别电动机命令转换成低级别命令。规格取决于特定自主平台(例如，机器人、车辆)。以下是使用电动机命令的非限制性示例。自主驾驶汽车试图确定街道上在其前方的对象是否是需要避免的障碍物。本文所述的方法提供了系统将对象正确地识别为障碍物的概率。如果系统不确定障碍物检测或检测到障碍物，则计划引导汽车绕过障碍物的移动。在现有技术中已知如何计划引导车辆绕过障碍物的轨迹。然后将该轨迹转换成电动机命令，诸如，转向角。基于轨迹计算这样的电动机命令是本领域技术人员已知的。

不确定性模块是对抗神经自动编码器，其与决策模块一起以非监督方式学习用于输入数据的分布的低维嵌入。最后，不确定性模块使用独特聚类技术(称为高斯混合模型(GMM)的切片p-沃瑟斯坦学习)来学习用于输入数据的嵌入分布的概率模型(参见参考文献7)。在测试阶段中，对于输入测试图像，决策模块提供决策向量，而不确定性模块计算输入数据属于看到过的图像类(例如，面部、车辆、身体部位)的概率，以提供决策模块的输出的不确定性级别。图像类是共享类似属性/特征(诸如，同一对象或场景)的图像的集合。对于导致高不确定性的输入数据，本文描述的系统从机器人的利用切换到探索。

本文描述的发明改进了机器学习(ML)系统的不确定性估计，以使得能够针对ML系统提供差结果的数据进行更好针对性学习。不确定性估计可以例如涉及自主驾驶车辆的控制输出，该自主驾驶车辆在辨识出前方的障碍物时必须停止。当今，许多应用(例如，军事)都禁止使用ML系统，因为所做出的决策并未包含有意义的不确定性度量。通过利用不确定性模块来补充决策模块，该不确定性模块提供输入的数据分布的概率表示，为决策模块提供有意义的不确定性度量。

不确定性模块受益于独特概率聚类框架(参见参考文献7)，该概率聚类框架具有优于现有技术的优点。例如，其对初始化具有鲁棒性，并提供一致的聚类，提供更高的聚类保真度(fidelity)，并且能够对所学习的聚类进行生成采样。该系统使得能够概率性地估计训练数据的分布，并且可以提供对新数据点源自与训练集合相当的分布的可能性的度量。这些方面中的各个方面将在下面详细地描述。

如图3A和图3B所示，本文描述的系统可以用于控制自主机器或机器人的探索行为。特别是，图3A是探索其环境的移动机器人300的例示，并且图3B例示了探索其环境的机械臂302。挑战在于将学习引导朝向机器学习系统仍然产生高不确定性的输出的输入数据。因此，需要一种提供对该不确定性的良好估计的系统。这样的系统可以是自主平台(诸如，机器人或自主车辆(例如，自动驾驶汽车))的控制系统的一部分。作为非限制性示例，机器学习系统将视觉输入映射到避障决策。

给定新数据，根据本公开的实施方式的系统计算该决策的可靠性度量。基于此度量，自主平台将在探索(如果不确定性高于阈值)或利用(如果不确定性低于阈值)之间切换。探索(在图3A和图3B中示出)意味着自主平台或机器人必须在环境的类似于导致高不确定性的输入数据的区域中收集更多训练数据。在探索阶段期间，例如，机械臂尝试抓取训练集合中未包括的对象(例如，新型门把手)的新方式。类似地，自主平台可以在探索阶段尝试新操纵(例如，转向、停止、加速)。利用是指自主平台或机器人可以执行导致预先指定目标的控制命令。在利用阶段中，自主平台或机器人依赖于在它们的训练期间学习的已知动作(例如，所学习的抓取对象的方式、所学习的操纵)。例如，机械臂的目标可能是成功地抓取并处理对象。对于自主平台，目标可能是在行驶最短距离时避免碰撞。

本文所述的系统包含决策模块400和不确定性模块402，其如图4所示的并行运行。决策模块400经由监督学习或强化学习来训练，而不确定性模块402以非监督方式对看到过的数据的分布进行建模。

(3.1)决策模块400

决策模块400包括深度神经网络，该深度神经网络被训练用于以监督方式在训练阶段期间做出决策。反向传播(在参考文献9中进行描述)被用于优化用于做出决策的这种神经网络的参数。决策模块400的性能在训练期间增加。然而，仅在测试数据遵循训练数据的分布的情况下，才能保证经训练的网络表现良好。不幸的是，当前的神经网络无法区分输入图像是接近还是远离它们在训练中看见的图像。因此，即使对于离群值(outlier)和看不见的图像，它们也通常生成具有高置信度的决策。为了避免这种错误置信度，根据本公开的实施方式的决策模块400伴随有不确定性模块402。

(3.2)不确定性模块402

不确定性模块402接收与决策模块400相同的训练数据作为输入。然而，不确定性模块402的目标是学习输入数据的分布。为了学习这样的分布，将深度对抗卷积自动编码器404与独特切片沃瑟斯坦聚类技术组合在一起使用(参见参考文献7)。自动编码器404是具有多层的人工神经网络，通常是输入层、代码层和输出层(由各种尺寸的矩形形状表示)。自动编码器404学习将来自输入层的数据压缩成短代码，并且然后将该代码解压缩成与原始数据紧密匹配的内容，以降低维度。

对抗神经自动编码器404包括三个神经网络模块，即：1)深度卷积编码器406、2)深度卷积解码器408以及3)深度卷积分类器410(即，对抗网络)。这些模块包括多层卷积人工神经元。编码器的输入是图像412，并且该图像412在多层处激活编码器中的各种人工神经元。编码器406的输出是在编码器406的最终层414处的人工神经元的神经激活，其提供d维向量。输出向量是输入图像412在d维希尔伯特空间中的嵌入表示416。

解码器408也包括多层卷积人工神经元。解码器408的输入是编码器406的d维输出。解码器的d维输入(即，到编码器406的输入图像412的嵌入表示416)激活解码器408的不同层处的各种神经元，而解码器408的最终神经元形成图像(参见图5中的解码图像500)。

对抗网络(深度卷积分类器410)也包括多层卷积人工神经元。对抗网络接收图像412作为输入，并输出输入图像412是“真”图像或“伪”图像的概率。简而言之，对抗神经自动编码器404将图像412嵌入到低维度的希尔伯特空间(例如，256维)中。“低维度”是指低于到系统的输入的维度。例如，输入可以是256×256×3RGB图像，其是196608维空间，而嵌入是256维空间，其维度远小于196608。

对抗神经自动编码器404捕获图像数据的非线性并提高GMM 418的适用性。对于给定的图像数据集，同时优化系统部分，以使得编码器406和解码器408的组成接近于识别函数(即，解码器408重建的图像类似于编码器406的输入图像412)，并且对抗网络(深度卷积分类器410)无法将解码图像与原始图像区分开(即，当解码器408的输出被馈送到深度卷积分类器410时，其很有可能返回“真”)。

可以对诸如CelebA面部的图像属性的任何合适数据集训练深度对抗卷积自动编码器404。图5例示了有关CelebA数据集的自动编码器404的示例性样本结果。然而，如上所述，在不脱离本公开的范围的情况下，可以利用任何合适类型的数据集。注意，自动编码器404的对抗网络部分将输出(即，解码图像500)约束成模仿真实输入图像406的输出，因此，其间接地迫使嵌入图像(元素500)的分布遵循原始数据(元素406)的分布。

利用基于GMM的切片沃瑟斯坦学习的概率聚类(参见参考文献7)对数据在嵌入空间中的分布进行建模。如图6所示，为了证明根据本公开的实施方式的概率框架捕获数据的分布，对所学习的GMM进行采样(即，对使用GMM的嵌入空间进行采样600)，并且将样本馈送到自动编码器404的解码器部分以使合成生成的图像(即，示例解码样本602)可视化。图6示出了通过对多个所学习的聚类(即，GMM模式)进行采样合成生成的图像(即，示例解码样本602)的示例性实施方式。在示例性实施方式中，可以关于面部数据集训练网络。如在图6中可以看到的，用于嵌入空间中的随机采样向量的解码图像602对应于在视觉上类似于真实面部的合成面部图像。这表明本文描述的方法在学习看到过的图像类的分布方面是成功的。聚类方案给出了样本成为图像的看到过的聚类的成员的可能性。然后，在测试阶段使用这种可能性来度量决策的不确定性。

(3.3)测试阶段

在针对新输入图像(或其它输入数据)的测试阶段，决策网络(或决策模块)生成控制输出(例如，转向以避开障碍物)。在不确定性模块402中，测试输入406经由卷积自动编码器404被嵌入在低维希尔伯特空间中，并且在给出已经学习的GMM的情况下，计算其从训练图像类采样的可能性。基于这种可能性，机器人(或其它自主平台)可以决定进行更多探索或继续利用各种控制输出(例如，在避障的情况下进行)。

图7是示出了估计自主平台的控制输出的可靠性的示例性处理。给定输入图像700，由决策模块生成针对自主平台的电动机控制命令决策(在702处)。然后由不确定性模块确定输入图像属于训练图像集合的概率(在704处)。使用所确定的概率针对电动机控制命令决策生成可靠性度量(在706处)。然后，系统将可靠性度量与预定阈值进行比较(在708处)。如果可靠性度量高于预定阈值，则自主平台执行探索动作(在710处)，其中，获得附加输入图像700。如果可靠性度量低于预定阈值，则自主平台执行与电动机控制命令决策相对应的利用动作(在712处)。

在许多感兴趣的应用中，经训练的机器学习技术被部署在自主系统中，以便评估系统做出其决策的置信度。本文所述的技术提供了输入图像(或其它数据)来自训练集和分布的可能性，并给出了新数据适配数据分布的置信度。值得信赖的机器学习系统是自主驾驶的关键要求。尤其是，相机数据的处理在任何自主驾驶系统中都是必不可少的。此外，用于图像中的对象检测的值得信赖的机器学习系统对于包括自主无人机的军事应用至关重要。另外，本公开也可以适用于相机监视技术。

图8是例示了处理器104使用针对决策模块的输出决策的不确定性估计控制设备800的流程图。可以经由处理器104控制的设备800的非限制性示例包括自主平台(机器人、机器人的组件)、机动车辆和机动车辆组件(诸如，制动器、转向机构、悬架或安全设备(例如，安全气囊，安全带拉紧器等))。此外，自主平台可以是无人飞行器(UAV)或自主地面车辆。例如，在获得低于预定阈值的不确定性估计值时，系统可以使自主驾驶车辆根据输入图像按照驾驶参数来执行驾驶操作/操纵(诸如，转向或其它命令)。例如，如果在自主驾驶车辆的路径中检测到对象，则系统可以使自主驾驶车辆施加功能性响应，诸如，制动操作，然后进行转向操作，以沿着另选路线重定向车辆。

现有技术方法对初始参数的选择敏感。与该现有技术相反，本文描述的系统对初始参数的选择不敏感，并且更可靠地发现全局最优值。通过利用对抗卷积自动编码器并经由GMM对数据在嵌入空间中的分布进行建模，避免了生成对抗网络(GAN)的缺点，这是对现有系统的改进。

如本文所述，以前没有对输入数据分布进行稳定的非监督聚类以估计测试输入的不确定性。此外，用于这种概率聚类的方法也不是显而易见，因为输入数据通常是高维的，并且难以使聚类对初始条件不敏感。

最后，尽管已经根据多个实施方式描述了本发明，但是本领域普通技术人员将容易认识到，本发明可以在其它环境中具有其它应用。应当注意，许多实施方式和实现是可能的。另外，所附权利要求绝不旨在将本发明的范围限制到上述特定实施方式。另外，对“用于……的装置”的任何表述旨在引起对要素和权利要求的装置加功能的阅读，而对不特别使用对“用于……的装置”的表述的任何要素，不旨在被读作装置加功能要素，即使权利要求另外包括“装置”一词。此外，尽管以特定顺序叙述了特定方法步骤，但是这些方法步骤可以以任何期望顺序发生，并且落入本发明的范围内。

Claims

1.一种对自主平台进行控制的系统，所述系统包括：

非暂时性计算机可读介质以及一个或更多个处理器，所述非暂时性计算机可读介质编码有可执行指令，使得在执行所述可执行指令时，所述一个或更多个处理器执行以下操作：

基于输入图像生成针对所述自主平台的电动机控制命令决策；

确定所述输入图像属于训练图像集合的概率；

使用所确定的概率来生成针对所述电动机控制命令决策的可靠性度量；以及

当所述可靠性度量高于预定阈值时执行探索动作；否则

当所述可靠性度量低于预定阈值时，执行与所述电动机控制命令决策相对应的利用动作。

2.根据权利要求1所述的系统，其中，在确定所述输入图像属于看到过的图像类的概率时，所述一个或更多个处理器还执行学习用于所述输入数据的分布的嵌入的操作。

3.根据权利要求2所述的系统，其中，在学习用于所述输入数据的所述分布的所述嵌入时，使用切片沃瑟斯坦聚类技术。

4.根据权利要求1所述的系统，其中，在执行所述探索动作时，所述自主平台在环境的围绕所述自主平台的区域中收集附加输入数据。

5.根据权利要求1所述的系统，其中，在执行所述利用动作时，所述自主平台执行导致预先指定目标的电动机控制命令。

6.根据权利要求1所述的系统，其中，所述一个或更多个处理器还执行以下操作：

经由监督学习或强化学习，利用所述训练图像集合来对决策模块进行训练，其中，所述决策模块生成所述电动机控制命令决策；以及

以非监督方式利用所述训练图像集合来对不确定性模块进行训练，其中，所述不确定性模块确定所述输入图像属于所述训练图像集合的所述概率，并且

其中，所述不确定性模块与所述决策模块并行训练。

7.根据权利要求1所述的系统，其中，在确定所述输入图像属于所述训练图像集合的概率时，所述一个或更多个处理器还执行以下操作：

使用对抗卷积自动编码器将所述输入图像嵌入到低维希尔伯特空间中；以及

经由高斯混合模型对所述输入数据在所述低维希尔伯特空间中的分布进行建模。

8.一种对自主平台进行控制的计算机实现方法，所述计算机实现方法包括以下动作：

使一个或更多个处理器执行在非暂时性计算机可读介质上编码的指令，使得在执行所述指令时，所述一个或更多个处理器执行以下操作：

确定所述输入图像属于训练图像集合的概率；

当所述可靠性度量高于预定阈值时执行探索动作；否则

9.根据权利要求8所述的方法，其中，在确定所述输入图像属于看到过的图像类的所述概率时，所述一个或更多个处理器还执行学习用于所述输入数据的分布的嵌入的操作。

10.根据权利要求9所述的方法，其中，在学习用于所述输入数据的所述分布的所述嵌入时，使用切片沃瑟斯坦聚类技术。

11.根据权利要求8所述的方法，其中，在执行所述探索动作时，所述自主平台在环境的围绕所述自主平台的区域中收集附加输入数据。

12.根据权利要求8所述的方法，其中，在执行所述利用动作时，所述自主平台执行导致预先指定目标的电动机控制命令。

13.根据权利要求8所述的方法，其中，所述一个或更多个处理器还执行以下操作：

其中，所述不确定性模块与所述决策模块并行训练。

14.根据权利要求8所述的方法，其中，在确定所述输入图像属于所述训练图像集合的概率时，所述一个或更多个处理器还执行以下操作：

15.一种对自主平台进行控制的计算机程序产品，所述计算机程序产品包括：

存储在非暂时性计算机可读介质上的计算机可读指令，所述计算机可读指令能够由具有一个或更多个处理器的计算机执行，以使所述处理器执行以下操作：

确定所述输入图像属于训练图像集合的概率；

当所述可靠性度量高于预定阈值时执行探索动作；否则

16.根据权利要求15所述的计算机程序产品，其中，在确定所述输入图像属于所述看到过的图像类的概率时，所述一个或更多个处理器还执行学习用于所述输入数据的分布的嵌入的操作。

17.根据权利要求16所述的计算机程序产品，其中，在学习用于所述输入数据的所述分布的所述嵌入时，使用切片沃瑟斯坦聚类技术。

18.根据权利要求15所述的计算机程序产品，其中，在执行所述探索动作时，所述自主平台在环境的围绕所述自主平台的区域中收集附加输入数据。

19.根据权利要求15所述的计算机程序产品，其中，在执行所述利用动作时，所述自主平台执行导致预先指定目标的电动机控制命令。

20.根据权利要求15所述的计算机程序产品，其中，所述一个或更多个处理器还执行以下操作：

其中，所述不确定性模块与所述决策模块并行训练。

21.根据权利要求15所述的计算机程序产品，其中，在确定所述输入图像属于所述训练图像集合的概率时，所述一个或更多个处理器还执行以下操作：

22.根据权利要求1所述的系统，其中，所述自主平台包括机械臂，并且其中，所述探索动作是尝试用所述机械臂抓取对象的新方式。

23.根据权利要求1所述的系统，其中，所述自主平台包括机械臂，并且其中，所述利用动作是包括用所述机械臂抓取和处理对象的已知动作机械臂。

24.根据权利要求1所述的系统，其中，所述自主平台是车辆，并且其中，所述利用动作是避免碰撞。