CN113316790B

CN113316790B - 用于自主学习代理中的无监督域适应的系统、方法和介质

Info

Publication number: CN113316790B
Application number: CN201980087199.7A
Authority: CN
Inventors: A·J·嘉宝莉; M·罗斯塔米; S·科洛瑞; 金劲男
Original assignee: HRL Laboratories LLC
Current assignee: HRL Laboratories LLC
Priority date: 2019-01-30
Filing date: 2019-12-18
Publication date: 2024-05-28
Anticipated expiration: 2039-12-18
Also published as: EP3918527A1; WO2020159638A1; CN113316790A

Abstract

公开了用于自主学习代理中的无监督域适应的系统、方法和介质。描述了一种用于自主学习代理中的无监督域适应的系统。所述系统利用来自目标域的未标记数据集来调整已学习模型，从而得到经调整的模型。所述已学习模型先前已被训练使用来自源域的已标记数据集执行任务。所述已标记数据集具有第一输入数据分布，并且未标记目标数据集具有与所述第一输入数据分布有区别的第二输入数据分布。在所述自主学习代理中实现所述经调整的模型，以使所述自主学习代理在所述目标域中执行所述任务。

Description

用于自主学习代理中的无监督域适应的系统、方法和介质

相关申请的交叉引用

本申请是2019年1月30日在美国提交的美国申请No.16/262,878的部分继续申请，该美国申请No.16/262,878是2018年2月6日在美国提交的名称为“Domain AdaptationLearning System”的美国临时申请No.62/627,179的非临时申请，所述申请的全部内容通过引用并入于此。

本申请还是2019年2月19日在美国提交的名称为“System and Method forUnsupervised Domain Adaptation Via Sliced-Wasserstein Distance”的美国临时申请No.62/807,716的非临时申请，该美国临时申请No.62/807,716的全部内容通过引用并入于此。

技术领域

本发明涉及一种用于无监督迁移学习的系统，并且更具体地，涉及一种用于无需任何人为干预就可以适应输入数据中的域移位的无监督迁移学习的系统。

背景技术

也称为无监督域适应(UDA)的迁移学习(在合并的参考文献列表中的参考文献1中进行了描述)已被开发为使用过去经验的框架(即，来自完全注释的源数据的学习到的模型)，以提高使用稀疏标记或未标记的目标数据进行学习的模型的学习速度和预测精度。迁移学习的最常见场景是在可以访问目标域中的大量数据点但没有对应标记的情况下发生的。Motiian等人(参见参考文献2)针对该场景利用对抗学习。他们的想法是学习目标域和源域两者的联合嵌入子空间，以使所述目标域和所述源域在嵌入域中对准。在学习嵌入空间后，可以学习用于所述两个域的联合分类器，以应对目标任务中的标记数据稀缺性。此外，Luo等人(参见参考文献3)使用交叉熵损失作为两个域之间相似度的度量，以直接学习联合嵌入，而无需使用对抗学习。迁移学习的先前工作(参见参考文献4)专注于源域和目标域的联合优化，并且需要从头开始学习模型。

因此，仍然需要一种不必从先前的模型中学习也不需要干预便能掌握新的数据的迁移学习方法。

发明内容

本发明涉及一种用于无监督迁移学习的系统，并且更具体地，涉及一种用于无需任何人为干预就可以适应输入数据的域移位的无监督迁移学习的系统。所述系统包括非暂时性计算机可读介质和一个或更多个处理器，所述非暂时性计算机可读介质上编码有可执行指令，使得在执行所述可执行指令时，所述一个或更多个处理器执行多个操作。所述系统利用来自目标域的未标记数据集来调整已学习模型，从而得到经调整的模型。所述已学习模型先前已被训练使用来自源域的已标记数据集执行任务。所述已标记数据集具有第一输入数据分布，并且所述未标记目标数据集具有与所述第一输入数据分布有区别的第二输入数据分布。在所述自主学习代理中实现所述经调整的模型，并且所述系统使所述自主学习代理在所述目标域中执行所述任务。

在另一方面，使用sliced-Wasserstein(SW)距离作为用于确定所述第一输入数据分布与所述第二输入数据分布之间的相异度的相异度度量。

在另一方面，所述系统针对所述未标记数据集生成伪标记。

在另一方面，所述SW距离以来自所述已标记数据集的标记和所述伪标记为条件来对准所述第一输入数据分布和所述第二输入数据分布。

在另一方面，所述自主学习代理是自主驾驶系统，并且所述任务是功能性移动响应。

最后，本发明还包括计算机程序产品和计算机实现的方法。所述计算机程序产品包括被存储在非暂时性计算机可读介质上的计算机可读指令，所述计算机可读指令能够由具有一个或更多个处理器的计算机执行，使得在执行所述指令时，所述一个或更多个处理器执行本文列出的操作。另选地，所述计算机实现的方法包括使计算机执行这种指令并且执行所得操作的动作。

附图说明

根据下面结合参照以下附图对本发明的各个方面的详细描述，本发明的目的、特征以及优点将是显而易见的，其中：

图1是描绘了根据本公开的一些实施方式的用于无监督迁移学习的系统的部件的框图；

图2是根据本公开的一些实施方式的计算机程序产品的例示图；

图3是例示了根据本公开的一些实施方式的无监督迁移学习方法的两个学习步骤的图；

图4是根据本公开的一些实施方式的预测网络系统架构的例示图；

图5是根据本公开的一些实施方式的在训练期间演变的嵌入空间的例示图；

图6A是例示了根据本公开的一些实施方式的各种数据集的分类精度的表的第一部分；以及

图6B是图6A中例示了根据本公开的一些实施方式的各种数据集的分类精度的表的第二部分。

具体实施方式

本发明涉及一种用于无监督迁移学习的系统，并且更具体地，涉及一种用于无需任何人为干预就可以适应输入数据中的域移位的无监督迁移学习的系统。呈现以下描述以使本领域普通技术人员能够制造和使用本发明并将其并入特定应用的背景中。各种修改以及不同应用的多种用途对于本领域技术人员来说将是显而易见的，并且本文限定的一般原理可以被应用于广泛方面。因此，本发明不旨在限于所呈现的方面，而是涵盖与本文所公开的原理和新颖特征相一致的最广范围。

在下面的详细描述中，阐述了许多具体细节，以便提供对本发明的更透彻理解。然而，本领域技术人员将明白，本发明可以在不必受限于这些具体细节的情况下来实践。在其它情况下，公知结构和装置按框图形式而不是按细节示出，以免妨碍对本发明的理解。

也请读者留意与本说明书同时提交并与本说明书一起开放以供公众查阅的所有文件和文档，并且所有这些文件和文档的内容通过引用并入于此。本说明书(包括任何所附权利要求、摘要以及附图)中公开的所有特征可以由用于相同、等同或相似目的的另选特征来代替，除非另有明确说明。因此，除非另有明确说明，否则所公开的各个特征仅仅是通用系列的等同或相似特征的一个示例。

在详细描述本发明之前，首先提供了并入参考文献的列表。接下来，提供了对本发明各个主要方面的描述。最后，提供本发明各个实施方式的具体细节，以使得能够理解具体方面。

(1)并入参考文献的列表

贯穿本申请引用且并入以下参考文献。为了清楚和方便起见，这些参考文献在此被列为读者的集中式资源。下列参考文献通过引用并入于此，就像在此完全阐述一样。这些参考文献通过参照如下对应参考文献号而在本申请中加以引用：

1.Pan,S.J.and Yang,Q.,A survey on transfer learning.IEEE Transactionson knowledge and data engineering,22(10),pp.1345-1359,2010.

2.Motiian S,Jones Q,Iranmanesh S,Doretto G.Few-Shot AdversarialDomain Adaptation,In Advances in Neural Information Processing Systems,pp.6673-6683,2017.

3.Luo,Z.,Zou,Y.,Hoffman,J.and Fei-Fei,L.F.,Label Efficient Learningof Transferable Representations Across Domains and Tasks.In Advances inNeural Information Processing Systems,pp.164-176,2017.

4.Murez,Z.,Kolouri,S.,Kriegman,D.,Ramamoorthi,R.and Kim,K.,Image toImage Translation for DomainAdaptation.CVPR 2018,2017.

5.Hagan,M.T.and Menhaj,M.B.,Training feedforward networks with theMarquardt algorithm.IEEE transactions on Neural Networks,5(6),pp.989-993,1994.

6.Arjovsky,M.,Chintala,S.and Bottou,L.,Wasserstein gan.arXiv preprintarXiv:1701.07875,2017.

7.Kolouri,S.,Rohde,G.K.and Hoffman,H.,Sliced Wasserstein Distance forLearning Gaussian Mixture Models.CVPR 2018,2017.

8.Kolouri,S.,Martin,C.E.and Rohde,G.K.,Sliced-WassersteinAutoencoder:An Embarrassingly Simple Generative Model.arXiv preprint arXiv:1804.01947,2018.

9.Sankaranarayanan,S.,Balaji,Y.,Castillo,C.D.,and Chellappa,R.,Generate to adapt:Aligning domains using generative adversarial networks.InCVPR,2018.

10.Liu,M.,and Tuzel,O.,Coupled generative adversarial networks.InAdvances in neural information processing systems,469-477,2016.

11.Tzeng,E.,Hoffman,J.,Saenko,K.,and Darrell,T.,Adversarialdiscriminative domain adaptation.In Computer Vision and Pattern Recognition(CVPR),volume 1,4,2017.

12.Hoffman,J.,Tzeng,E.,Park,T.,Zhu,J.,Isola,P.,Saenko,K.,Efros,A.A.,and Darrell,T.,Cycada:Cycle-consistent adversarial domain adaptation.In ICML,2018.

13.Ganin,Y.,and Lempitsky,V.,Unsupervised domain adaptation bybackpropagation.In ICML,2014.

14.Ghifary,M.,Kleijn,W.B.,Zhang,M.,Balduzzi,D.,and Li,W.,Deepreconstruction-classification networks for unsupervised domain adaptation.InEuropean Conference on Computer Vision,597-613,2016.

15.Saito,K.,Ushiku,Y.,and Harada,T.,Asymmetric tri-training forunsupervised domain adaptation.In ICML,2018.

16.Courty,N.,Flamary,R.,Tuia,D.,and Rakotomamonjy,A.,Optimaltransport for domain adaptation.IEEE TPAMI 39(9):1853-1865,2017.

17.Seguy,V.,Damodaran,B.B.,Flamary,R.,Courty,N.,Rolet,A.,and Blondel,M.,Large-scale optimal transport and mapping estimation.In ICLR,2018.

18.Gabourie,A.,Rostami,M.,Pope,P.,Kolouri,S.,and Kim,K.,Learningadomain-invariant embedding for unsupervised domain adaptation using class-conditioned distribution alignment.In 201957th Annual Allerton Conference onCommunication,Control,and Computing,2019.

(2)主要方面

本发明的各个实施方式包括三个“主要”方面。第一个主要方面是用于无监督迁移学习的系统。该系统通常采用计算机系统操作软件的形式或采用“硬编码”指令集的形式。该系统可以并入提供不同功能的各种各样的装置中。第二个主要方面是使用数据处理系统(计算机)操作的通常采用软件形式的方法。第三个主要方面是计算机程序产品。计算机程序产品通常表示被存储在诸如光学存储装置(例如，光盘(CD)或数字通用盘(DVD))或磁存储装置(诸如软盘或磁带)的非暂时性计算机可读介质上的计算机可读指令。计算机可读介质的其它非限制性示例包括硬盘、只读存储器(ROM)以及闪存型存储器。这些方面将在下面进行更详细描述。

图1中提供了描绘本发明的系统(即，计算机系统100)的示例的框图。计算机系统100被配置成执行与程序或算法相关联的计算、处理、操作和/或功能。在一个方面，本文讨论的某些处理和步骤被实现为驻留在计算机可读存储器单元内并由计算机系统100的一个或更多个处理器执行的一系列指令(例如，软件程序)。在执行时，所述指令使计算机系统100执行特定动作并展现特定行为，如本文所描述的。

计算机系统100可以包括被配置成传送信息的地址/数据总线102。另外，一个或更多个数据处理单元(诸如处理器104(或多个处理器))与地址/数据总线102联接。处理器104被配置成处理信息和指令。在一方面，处理器104是微处理器。另选地，处理器104可以是不同类型的处理器，诸如并行处理器、专用集成电路(ASIC)、可编程逻辑阵列(PLA)、复杂可编程逻辑器件(CPLD)或现场可编程门阵列(FPGA)。

计算机系统100被配置成利用一个或更多个数据存储单元。计算机系统100可以包括与地址/数据总线102联接的易失性存储器单元106(例如，随机存取存储器(“RAM”)、静态RAM、动态RAM等)，其中，易失性存储器单元106被配置成存储用于处理器104的信息和指令。计算机系统100还可以包括与地址/数据总线102联接的非易失性存储器单元108(例如，只读存储器(“ROM”)、可编程ROM(“PROM”)、可擦除可编程ROM(“EPROM”)、电可擦除可编程ROM(“EEPROM”)、闪速存储器等)，其中，非易失性存储器单元108被配置成存储用于处理器104的静态信息和指令。另选地，计算机系统100可以执行从诸如“云”计算中的在线数据存储单元取回的指令。在一方面，计算机系统100还可以包括与地址/数据总线102联接的一个或更多个接口，诸如接口110。所述一个或更多个接口被配置成使得计算机系统100能够与其它电子装置和计算机系统接口连接。由所述一个或更多个接口实现的通信接口可以包括有线(例如，串行电缆、调制解调器、网络适配器等)和/或无线(例如，无线调制解调器、无线网络适配器等)通信技术。

在一个方面，计算机系统100可以包括与地址/数据总线102联接的输入装置112，其中，输入装置112被配置成将信息和命令选择传送至处理器100。根据一个方面，输入装置112是字母数字输入装置(诸如键盘)，其可以包括字母数字键和/或功能键。另选地，输入装置112可以是除字母数字输入装置之外的输入装置。在一方面，计算机系统100可以包括与地址/数据总线102联接的光标控制装置114，其中，光标控制装置114被配置成将用户输入信息和/或命令选择传送至处理器100。在一方面，光标控制装置114是使用诸如鼠标、轨迹球、轨迹板、光学跟踪装置或触摸屏的装置来实现的。尽管前述如此，但在一方面，诸如响应于使用与输入装置112相关联的特殊键和键序列命令，光标控制装置114经由来自输入装置112的输入而被引导和/或启用。在另选方面，光标控制装置114被配置成通过话音命令引导或管理。

在一方面，计算机系统100还可以包括一个或更多个可选计算机可用数据存储装置，诸如与地址/数据总线102联接的存储装置116。存储装置116被配置成存储信息和/或计算机可执行指令。在一个方面，存储装置116是诸如磁盘驱动器或光盘驱动器(例如，硬盘驱动器(“HDD”)、软盘、光盘只读存储器(“CD-ROM”)、数字通用盘(“DVD”))的存储装置。依据一个方面，显示装置118与地址/数据总线102联接，其中，显示装置118被配置成显示视频和/或图形。在一方面，显示装置118可以包括阴极射线管(“CRT”)、液晶显示器(“LCD”)、场发射显示器(“FED”)、等离子体显示器，或适于显示视频和/或图形图像以及用户可识别的字母数字字符的任何其它显示装置。

本文所呈现的计算机系统100是根据一方面的示例计算环境。然而，计算机系统100的非限制示例并不严格限于作为计算机系统。例如，一个方面提供了计算机系统100表示可以根据本文所述各个方面使用的一类数据处理分析。此外，还可以实现其它计算系统。实际上，本技术的精神和范围不限于任何单一数据处理环境。因此，在一方面，使用通过计算机执行的计算机可执行指令(诸如程序模块)来控制或实现本技术的各个方面的一个或更多个操作。在一个实现中，这样的程序模块包括被配置成执行特定任务或实现特定抽象数据类型的例程、程序、对象、部件和/或数据结构。另外，一个方面提供了通过利用一个或更多个分布式计算环境来实现本技术的一个或更多个方面，诸如，在该计算环境中，任务由通过通信网络链接的远程处理装置执行，或者诸如，在该计算环境中，各种程序模块位于包括存储器-存储装置的本地和远程计算机存储介质中。

图2中描绘了具体实施本发明的计算机程序产品(即，存储装置)的例示图。计算机程序产品被描绘为软盘200或诸如CD或DVD的光盘202。然而，如先前提到的，该计算机程序产品通常表示被存储在任何兼容的非暂时性计算机可读介质上的计算机可读指令。如关于本发明所使用的术语“指令”通常指示要在计算机上执行的一组操作，并且可以表示整个程序的片段或单个分离的软件模块。“指令”的非限制性示例包括计算机程序代码(源或目标代码)和“硬编码”电子装置(即，编码到计算机芯片中的计算机操作)。“指令”被存储在任何非暂时性计算机可读介质上，诸如被存储在计算机的存储器中或软盘、CD-ROM以及闪存驱动器上。无论如何，这些指令被编码在非暂时性计算机可读介质上。

(3)各个实施方式的具体细节

描述了如下方法，该方法使得机器能够通过利用来自具有现成可用的标记的辅助数据源(例如，合成数据集)的知识来在不具有标记数据的情况下进行学习。这里，模型的任务(例如，分类)保持不变，但是到模型的输入数据的分布可能会发生变化。具有可用标记的辅助数据集将被称为源，而第二未标记的数据集将是目标。图3是例示了根据本公开的实施方式的无监督迁移学习方法的两个学习步骤(学习步骤1(要素300)和学习步骤2(要素302))的高级图(high-level diagram)。

在学习步骤1(要素300)中，获得源数据。例如，源数据可以是从载具(要素306)中的传感器A获得的传感器A数据(要素304)，传感器A的非限制性示例包括确定载具与其它对象的距离的雷达传感器、LIDAR传感器和图像传感器。传感器A数据(要素304)包括大量带注释(annotations)的训练样本，该传感器A数据用于训练模型(要素308)，从而得到已学习模型(要素310)。学习步骤1(要素300)的曲线图(要素312)示出了当仅利用传感器A数据(要素304)训练任务时，典型模型针对源数据和目标数据如何执行。学习步骤2(要素302)的曲线图(要素314)例示了如何更新模型以利用源数据和目标数据很好地执行任务。在一个实施方式中，目标数据集(被称为传感器B数据)(要素316)是在已经部署(deployment)系统之后收集的来自脏的、不同的或劣化的传感器的输入。在学习步骤1(要素300)中，通过利用已标记源数据集(即，传感器A数据(要素304))进行完全监督的训练以完成任务(例如，对象检测、图像分类、图像配准)来学习模型(要素310)。在学习步骤2(要素302)中，将已学习模型(要素310)用作起点，并将目标数据(即，传感器B数据(要素316))并入到训练中以针对源数据分布和目标数据分布两者来学习任务，从而得到最终模型(要素318)。

由于学习步骤1(要素300)没有要求的特殊条件，因此可以将本文所述的本发明之前已学习(要素310)的模型重新设定用途，并与学习步骤2(要素302)一起使用。所得最终模型(要素318)可以在自主驾驶系统中使用，例如，其中初始模型(例如，要素308)和数据集(例如，传感器A数据(要素304))的训练成本很高，但是系统的输入数据可能会改变。取决于公司的目标，在产品开发或生命周期中，电光(EO)或其它传感器(例如，RADAR、LIDAR)可能会发生变化。另外，脏的或劣化的传感器可能会导致失真的输入。当传感器对相同的对象进行成像时，它们对模型的输入分布将有所不同。根据本公开的实施方式的方法使得先前的已学习模型(要素310)能够容易地适应新的条件而无需干预。

本文所述的本发明的两个目的包括：1)使自主学习代理能够利用其先前已学习的知识来适应不同输入数据分布；以及2)消除了适应新输入所需的已标记样本(需要人工干预)的需求。本文所述的方法使系统能够仅使用来自辅助数据源的注释针对不具有注释的新的输入数据进行训练。在给定在源域(例如，EO、合成域)中存在大量带注释的训练数据的问题的情况下，机器会在第一训练阶段(即，学习步骤1(要素300))根据该数据进行学习。在很可能会在系统部署之后发生的第二训练阶段(即，学习步骤2(要素302))期间，可以访问未标记数据集(例如，传感器B数据(要素316))，该未标记数据集完成与源域数据(例如，传感器A数据(要素304))相同的任务，但具有与来自源域的样本不同地分布的样本。

(3.1)学习步骤1(部署之前)

令是训练数据，并且令/>是源数据集的对应标记，其中各个样本/>可以属于一个或更多个k可用类别。R表示欧几里德空间，而d表示输入数据的维数，并且N表示样本数量。/>表明第i个源数据样本/>属于d维欧几里德空间R^d。/>表示源数据集X_S包含N个样本，各个样本都位于d维欧几里得空间中。因此，R^d×N表明d维欧几里德空间中的N个样本。假定各个样本都是独立地取自源联合概率分布，并且是相同分布的(i.i.d.)(即，/>机器配有神经网络。在一个实施方式中，神经网络是卷积神经网络。在另一实施方式中，神经网络是递归神经网络。在又一实施方式中，神经网络是卷积神经网络和递归神经网络的混合。在另一实施方式中，神经网络是胶囊网络，其提供从样本X_S到潜在空间Z的参数映射/>

此外，限定了线性分类器该线性分类器将潜在空间Z映射至标记Y，/> 和/>的复合项限定了如下函数，该函数将样本X_S映射至标记Y_S，/>并在训练期间经由经典的反向传播技术(如参考文献5中所述)进行了训练。这里，/>和/>是神经网络的对应可学习参数。注意，从应用的角度来看，映射/>通过从数据集X中提取有用的特征来捕获样本空间中的非线性，使得可以将两个空间之间的映射建模为线性的。

图4例示了用于源数据集学习问题的系统架构。顶部数据路径(要素400)表示使用已标记数据集/源域数据(要素402)进行训练，而底部数据路径(要素404)表示未标记数据集/目标域数据(要素406)，其用于在系统仅对顶部数据路径(要素400)中的源数据集进行了训练的情况下对新数据集进行标记管理。源数据集和目标数据集预测两者(即，各个数据点的标记)都是利用同一网络计算的，该网络包括共享编码器(要素408)、共享嵌入(要素410)和源分类器(要素412)，但是参数是仅基于学习步骤1之后的已标记数据集/源域数据(要素402)以及学习步骤1之后的源数据集和目标数据集两者。参数的非限制性示例包括正则化参数和网络结构参数(例如节点的数量)。如上所述，源域数据(要素402)具有对应标记(要素414)，而针对目标域数据(要素406)生成了伪标记(要素416)(也称为已学习标记)，以创建源域数据(要素402)与目标域数据(要素406)之间的类分布对准，这将在下面进一步详细描述。伪标记是通过获取模型确信的标记来确定的。

(3.2)学习步骤2(部署)

在部署期间，需要机器将新观察到的数据映射至标记假定样本取自目标边际分布/>还已知目标分布与源分布不同(即，p_S≠p_T)。另外，来自学习步骤1的预训练网络(其提供映射/>在目标数据分布上效果不佳。另外，与学习步骤1相反，该机器无法访问大的已标记数据池，并且需要在不具有任何已标记样本的情况下使自身适应新观察到的数据。为了解决这个具有挑战性的问题，利用独特的框架来确保在训练步骤2之后，可以高效地学习源数据集和目标数据集(即，映射/>是域不可知的)。使用来自图4的架构，数据路径(要素400和要素402)以及来自训练步骤1的权重(即，限定网络并且需要被学习/训练的网络参数)都被用作初始化，并且函数被更新以根据下式优化/>和/>

其中，是用于利用源分类器(要素412)从共享嵌入(要素410)的嵌入空间中分类源已标记数据点的经验风险(在学习步骤1中使用)，D(·，·)是分布之间的相异度度量，并且λ是权衡参数(trade-offparameter)。经验风险被限定为训练数据上的模型平均误差。嵌入被建模为编码器子网络的输出空间。权衡参数确定式中两个项中的各个项的给定权重。上述式中的相异度度量尚未被选择，并且下面将描述定义和特殊条件。

为了选择分布之间的相异度度量，注意，KL-散度及其变型已被广泛用作概率分布之间的相异度度量。然而，参考文献6至8中示出在非重叠的低维流形上支撑分布时，这些度量的性能较差。另一方面，Wasserstein距离已被证明是KL-散度及其变型(例如，Jensen-Shannon散度)的更鲁棒的替代方案。Sliced-Wasserstein距离根据下式用作式(1)中概率分布的量度：

其中，两个m维分布p和q之间的Sliced-Wasserstein被限定为：

其中，S^m-1是m维潜在空间中的单位球面，RP(t，θ)是边际分布Rp(·，θ)的累积分布：

RQ(·,θ)被类似地限定，并且最终边际分布Rp(·，θ)(和相似地Rp(·，θ))被限定为：

注意，在参考文献5中公开了式(3)、式(4)和式(5)的离散近似(当实际分布不可用并且仅观察到来自这些分布的样本时)。

在式(2)中，SW距离以源数据集和目标数据集的标记为条件。这是为了确保嵌入空间中的分布基于标记针对源数据和目标数据正确对准。然而，目标数据集没有任何标记。通过针对目标数据点生成伪标记来近似而规避该问题。伪标记是从源分类器预测中获得的，但仅针对目标数据的源分类器提供了确信预测的部分。高确信度伪标记的这一部分是基于阈值/>指派的。随着学习步骤2的进行，由于源和目标嵌入分布变得更加相似，因此确信伪标记的数量增加。该训练处理可以在图5中可视化。具体地，图5描绘了t_SNE(t-分布随机邻居嵌入)可视化，其示出了在/>任务的训练期间嵌入空间如何演变。在目标域(要素406)中，较亮的点(类似于源域(要素404)中所示的点)是具有指派的伪标记的示例，其数量随分类器的确信度而增加。虽然学习步骤2确实针对式(2)进行了优化，但式(2)的每一项都以交替的方式分别地被优化。

(3.3)实验研究

为了证明本文描述的系统和独特规划的能力，视觉领域中的标记管理用于数字识别和对象识别。下面描述了该方法在针对用于同一迁移任务的多种不同编码器架构提高性能的灵活性。这允许将根据本公开的实施方式的系统的益处与编码器网络架构本身区别开，而其它工作则不能做到。

(3.3.1)实验验证

本文描述的系统的经验性能是针对无监督域适应(UDA)的五个常用标记管理(即：街景房编号/>和/>)研究的。前三个数据集是10个类别(0-9)数字分类数据集。MNIST和USPS是手写数字的集合，而SVHN是门牌号的现实世界RGB图像的集合。STL和CIFAR包含共享9种对象类别的RGB图像：飞机、汽车、鸟类、猫、鹿、狗、马、船和卡车。针对数字数据集，在实验研究中考虑了六个适应问题中的四个，这在文献中经常出现。针对MNIST和USPS任务，使用了来自MNIST的2000个随机选择的图像和来自USPS的1800个随机选择的图像。该选择处理遵循文献惯例。其余案例使用完整的数据集。

完整的实验结果集以及与文献(现有技术)性能的比较可以在图6A和图6B所示的表中找到。该表分为多个部分。前六行示出了最新的对抗学习算法：生成适应(GtA)(参见参考文献9)、CoGAN(参见参考文献10)、ADDA(参见参考文献11)、CyCADA(参见参考文献12)和I2I-适应(参见参考文献4)。FADA(参见参考文献2)也包括在内，这是一种类似于UDA的少样本学习技术，但可以解决更简单的问题。接下来的五行是与本文所述方法相似的方法，因为它们学习了将两个域联接在一起的嵌入空间。接下来的五行是RevGrad(参见参考文献13)、DRCN(参见参考文献14)、AUDA(参见参考文献15)、OPDA(参见参考文献16)和MML(参见参考文献17)。OPDA和MML最相似，因为它们在嵌入域中明确匹配分布。

双线之间的两行(图6B)示出了目标数据集的精度，其中所有样本均已完全标记。这些行在以下行中充当根据本公开的实施方式的结果的上限。在实验结果的各个部分中，包括使用从训练步骤1中得到的网络针对目标数据获得的性能，但是是针对多种不同编码器架构的。这是至关重要的观察结果，因为它表明在一些情况下，具有良好的数据增强的经训练的深度网络可以提取域不可知的特征，而无需使用更高级的/后续的域适应过程。实验结果各部分的第二行表明，本文所述的方法(DACAD)有效地迁移知识以提高初始性能，从而使整个任务的性能接近或达到现有技术。最后，注意，根据本公开的实施方式的方法在除了两种情况(在图6B中用方框示意)之外的所有情况下均提供了统计上显著的提升。

现有技术(诸如Motiian(参见参考文献2))描述了学习目标域和源域两者的联合嵌入子空间来使其在嵌入域中对准。与他们的方法相反，本文描述的方法遵循直接概率匹配方法。虽然Luo等人(参见参考文献3)使用这种方法，但他们使用交叉熵损失作为两个域之间相似性的度量，以直接学习联合嵌入，而无需使用对抗学习。然而，使用深度学习模型时，交叉熵不是合适的度量。为了解决这一挑战，如上文详细描述的，使用了Wasserstein距离。此外，关于迁移学习的先前工作(参见文献参考4)集中于源域和目标域的联合优化，并且需要从头开始学习模型。相比之下，根据本公开的实施方式的方法考虑了在源域上训练模型的设定，并且目标是调整该模型以在目标域中良好地工作。

在各个研究领域以及工业领域(包括自主系统以及情报、监视和侦察(ISR)系统)中，期望系统在没有任何人为干预的情况下适应输入数据中的域移位的能力。此外，机器的任务涵盖了广泛的领域，包括当传感器变脏、改变或劣化时，用于自主系统的对象识别；抓取相似但经修改的零件(例如，在制造设定中)；以及在不同环境中(例如，在嘈杂的载具内)解释语音。这种系统的关键要求是尽管输入数据中发生域移位，但仍要保持任务的高性能。本文所述的发明满足了该要求。

可以经由处理器104控制的自主学习代理的非限制性示例包括机动载具或机动载具部件(电气的、非电气的、机械的)，诸如制动器、转向机构、悬架或安全装置(例如，安全气囊、安全带拉紧器等)。自主学习代理也可以是机器人。此外，自主学习代理可以是无人驾驶机(UAV)、自主自驾地面载具或由驾驶员或由远程操作员控制的人为操作的载具。例如，如果要学习和执行的任务是对象检测和分类，则系统可以使自主载具根据与识别出的对象一致的驾驶参数执行驾驶操作/操纵(诸如转向或另一命令)。例如，如果系统在自主驾驶系统/载具周围的环境中识别出骑车人、另一载具或行人，则本文所述的系统可以使载具操纵/操作以避免与骑车人或载具(或在驾驶中应避免的任何其它对象)发生碰撞。系统可以使自主载具施加可以是要执行的任务的功能性移动响应(诸如制动操作，然后进行转向操作)，以使载具重定向远离对象，从而避免碰撞。

其它适当的响应可以包括以下一项或更多项：转向操作、节气门操作以加度或减速、或决定保持航向和速度不变。响应可能适用于避免碰撞、提高行驶速度或提高效率。如本领域技术人员可以理解的，其它装置类型的控制也是可能的。因此，给定检测到的特定对象和实现系统的环境的情况下，自主载具可以启动许多自动动作。

最后，虽然已经根据多个实施方式对本发明进行了说明，但本领域普通技术人员应当容易地认识到，本发明可以在其它环境中具有其它应用。应注意，可以有许多实施方式和实现。此外，所附权利要求绝不旨在将本发明的范围限于上述具体实施方式。另外，“用于……的装置”的任何用语旨在引发要素和权利要求的装置加功能的解读，而未特别使用“用于……的装置”用语的任何要素不应被解读为装置加功能要素，即使权利要求以其它方式包括了“装置”一词。此外，虽然已经按特定顺序陈述了特定方法步骤，但这些方法步骤可以按任何期望的顺序进行，并且落入本发明的范围内。

Claims

1.一种用于自主学习代理中的无监督域适应的系统，所述系统包括：

非暂时性计算机可读介质和一个或更多个处理器，所述非暂时性计算机可读介质上编码有可执行指令，使得在执行所述可执行指令时，所述一个或更多个处理器执行以下操作：

利用来自目标域中的第一传感器的未标记数据集来调整已学习模型，从而得到经调整的模型，

其中，所述已学习模型先前已被训练使用来自源域中的第二传感器的已标记数据集执行任务；

其中，所述已标记数据集具有第一输入数据分布，并且所述未标记数据集具有与所述第一输入数据分布有区别的第二输入数据分布；

使用sliced-Wasserstein SW距离作为用于确定所述第一输入数据分布与所述第二输入数据分布之间的相异度以及用于对准所述第一输入数据分布和所述第二输入数据分布的相异度度量；

在所述自主学习代理中实现所述经调整的模型；以及

使所述自主学习代理在所述目标域中执行所述任务；

其中，所述自主学习代理是自主驾驶系统，并且所述任务是功能性移动响应。

2.根据权利要求1所述的系统，其中，所述一个或更多个处理器还执行以下操作：针对所述未标记数据集生成伪标记。

3.根据权利要求2所述的系统，其中，所述SW距离以来自所述已标记数据集的标记和所述伪标记为条件来对准所述第一输入数据分布和所述第二输入数据分布。

4.一种用于自主学习代理中的无监督域适应的计算机实现的方法，所述方法包括以下动作：

使一个或更多个处理器执行被编码在非暂时性计算机可读介质上的指令，使得在执行时，所述一个或更多个处理器执行以下操作：

在所述自主学习代理中实现所述经调整的模型；以及

使所述自主学习代理在所述目标域中执行所述任务；

5.根据权利要求4所述的方法，其中，所述一个或更多个处理器还执行以下操作：针对所述未标记数据集生成伪标记。

6.根据权利要求5所述的方法，其中，所述SW距离以来自所述已标记数据集的标记和所述伪标记为条件来对准所述第一输入数据分布和所述第二输入数据分布。

7.一种用于自主学习代理中的无监督域适应的非暂时性计算机可读介质，所述非暂时性计算机可读介质存储有计算机可读指令，所述计算机可读指令能够由具有一个或更多个处理器的计算机执行，以使所述处理器执行以下操作：

在所述自主学习代理中实现所述经调整的模型；以及

使所述自主学习代理在所述目标域中执行所述任务；

8.根据权利要求7所述的非暂时性计算机可读介质，其中，所述一个或更多个处理器还执行以下操作：针对所述未标记数据集生成伪标记。

9.根据权利要求8所述的非暂时性计算机可读介质，其中，所述SW距离以来自所述已标记数据集的标记和所述伪标记为条件来对准所述第一输入数据分布和所述第二输入数据分布。