CN113168567A

CN113168567A - 用于小样本转移学习的系统和方法

Info

Publication number: CN113168567A
Application number: CN201980078039.6A
Authority: CN
Inventors: 索黑尔·柯劳里; 穆罕默德·罗斯塔米; 金劲男
Original assignee: Hrl Laboratory Co ltd
Current assignee: Hrl Laboratory Co ltd; HRL Laboratories LLC
Priority date: 2018-10-29
Filing date: 2019-08-05
Publication date: 2021-07-23
Also published as: US20200130177A1; EP3874417A1; WO2020091871A1

Abstract

一种用于训练控制器以控制机器人系统的方法，包括：基于来自原始域的原始数据样本和标签空间中的标签来接收用于所述机器人系统的原始控制器的神经网络，所述神经网络包括编码器和分类器参数，所述神经网络被训练为：使用所述编码器参数将输入数据样本从所述原始域映射到特征空间中的特征向量；以及基于所述分类器参数使用所述特征向量将所述标签空间的标签分配给所述输入数据样本；更新所述编码器参数以最小化所述特征空间中以下项之间的相异性：从所述原始数据样本计算的原始特征向量；以及从来自目标域的目标数据样本计算的目标特征向量；以及用更新的编码器参数更新控制器以控制目标域中的机器人系统。

Description

用于小样本转移学习的系统和方法

相关申请的交叉参考

本申请要求美国临时专利申请第62/752,166号，“SYSTEM AND METHOD FOR FEW-SHOT TRANSFER LEARNING”的权益，该申请于2018年10月29日向美国专利商标局提交，其全部公开内容通过引用并入本文。

技术领域

本发明的实施例的方面涉及机器学习领域。

背景技术

机器学习(诸如深度学习)的发展已经导致在广泛应用中的具有高性能的算法。然而，这些技术通常取决于巨大的标记数据集(labeled dataset)的可用性来训练算法。在一些场景中，大的数据集不可用于训练，诸如当数据标记和注释昂贵时，或者当由于数据分布的漂移而使得训练和部署数据集具有不同的分布(例如，可用于训练的标记数据与现实世界中看到的数据非常不同)时。

解决标记数据稀缺性问题的一些方法包括转移学习和域适应(domainadaptation)(这些术语有时可互换使用)，它们是用于提高学习速度和模型泛化(modelgeneralization)的密切相关的范例。这些方法通过从其中标记数据可用的相关源域有效地转移知识来克服感兴趣的目标域中的标记数据稀缺性。

发明内容

本发明的实施例的方面涉及用于在两个域之间进行转移学习的系统和方法。知识转移可用于通过适配在不同但相关的领域上训练的模型来克服一个领域中的标记数据稀缺性。本发明的实施例的一些方面涉及学习数据样本的域不可知的中间嵌入(例如，将数据样本映射到特征空间中)，诸如通过最小化嵌入空间中的源域和目标域的分布之间的差异来使用无监督域自适应(UDA)以学习嵌入。更详细地，在本发明的一些实施例中，使用嵌入空间(或特征空间)中的分布之间的sliced Wasserstein距离(SWD)来计算差异。本发明实施例的一些方面涉及为目标域中的所选无标记样本计算伪标签，以便在嵌入空间中对齐相应的类。

根据本发明的一个实施例，一种用于训练控制器以控制目标域中的机器人系统的方法包括：接收原始控制器的神经网络，所述原始控制器的神经网络用于基于来自原始域的多个原始数据样本和标签空间中的对应标签来控制所述机器人系统，所述原始控制器的神经网络包括多个编码器参数和多个分类器参数，所述神经网络被训练成：根据所述编码器参数，将输入数据样本从所述原始域映射到特征空间中的特征向量；以及根据所述分类器参数，基于所述特征向量将所述标签空间的标签分配给所述输入数据样本；更新所述编码器参数以最小化所述特征空间中以下项之间的相异性；从所述原始数据样本计算的多个原始特征向量；以及从来自所述目标域的多个目标数据样本计算的多个目标特征向量，所述目标数据样本具有比所述原始数据样本小的基数；以及用更新的编码器参数更新所述控制器以控制所述目标域中的所述机器人系统。

可根据所述特征空间中的所述原始特征向量与所述特征空间中的所述目标特征向量之间的sliced Wasserstein距离来计算所述相异性。

更新编码器参数可包括迭代地计算多个中间编码器参数，每次迭代包括：计算所述特征空间中的所述原始特征向量；根据所述中间编码器参数计算所述特征空间中的所述目标特征向量；计算所述原始特征向量与所述目标特征向量之间的相异性；更新所述中间编码器参数以减少在所述原始特征向量和所述目标特征向量之间的相异性；确定所述相异性是否被最小化；响应于确定所述相异性未被最小化，继续进行将更新的中间编码器参数作为中间编码器参数的另一迭代；以及响应于确定所述相异性被最小化，输出所述中间编码器参数作为所述更新的编码器参数。

可根据所述特征空间中的所述原点始特征向量与所述特征空间中的所述目标特征向量之间的sliced Wasserstein距离来计算所述相异性。

计算原点特征向量可由原始编码器执行。

可根据所述中间编码器参数执行所述计算所述始特征向量。

所述目标数据样本可包括多个目标样本和多个对应的目标标签。

所述目标数据样本可包括多个无标记目标样本。

更新编码器参数可包括迭代地计算多个中间编码器参数，每次迭代包括：根据中间编码器参数计算所述特征空间中的所述原始特征向量；根据所述中间编码器参数计算所述特征空间中的所述目标特征向量；根据所述分类器参数计算所述目标特征向量的预测标签，所述预测标签中的每一个与置信度相关联；定义与具有超过阈值的置信度的所述预测标签相对应的多个伪标签；基于以下各项中的至少一项来更新所述中间编码器参数：最小化所述原始特征向量与所述目标特征向量之间的相异性；以及最小化所述原始数据样本的分类丢失；确定是否已经满足停止条件，其中所述停止条件包括以下各项中的至少一者：所述原始特征向量与所述目标特征向量之间的相异性；以及迭代之间的多个伪标签的饱和度；响应于确定不满足所述停止条件，利用所述更新的中间编码器参数作为中间编码器参数继续进行另一迭代；以及响应于确定满足所述停止条件，输出所述中间编码器参数作为所述更新的编码器参数。

所述更新中间编码器参数可在以下之间交替：最小化所述原始特征向量和所述目标特征向量之间的相异性；以及最小化所述原始数据样本的分类损失。

所述神经网络可包括卷积神经网络、循环神经网络、胶囊网络或前述的组合。

根据本发明的一个实施例，一种用于训练控制器以控制目标域中的机器人系统的系统包括：处理器；以及存储指令的存储器，所述指令在由所述处理器执行时使所述处理器：接收原始控制器的神经网络，所述原始控制器的神经网络用于基于来自原始域的多个原始数据样本和标签空间中的对应标签来控制所述机器人系统，所述原始控制器的所述神经网络包括多个编码器参数和多个分类器参数，所述神经网络被训练成：根据所述编码器参数将输入数据样本从所述原始域映射到特征空间中的特征向量；以及根据所述分类器参数基于所述特征向量将所述标签空间的标签分配给所述输入数据样本；更新所述编码器参数以最小化以下项之间的相异性：从所述原始数据样本计算的多个原始特征向量；以及从来自所述目标域的多个目标数据样本计算的多个目标特征向量，所述目标数据样本具有比所述原始数据样本小的基数；以及用更新的编码器参数更新所述控制器以控制所述目标域中的所述机器人系统。

使所述处理器更新所述编码器参数的所述指令可包括当由所述处理器执行时使所述处理器迭代地计算多个中间编码器参数的指令，每次迭代包括：计算所述特征空间中的所述原始特征向量；根据所述中间编码器参数计算所述特征空间中的所述目标特征向量；计算所述原始特征向量与所述目标特征向量之间的相异性；更新所述中间编码器参数以减少在所述原始特征向量和所述目标特征向量之间的相异性；确定所述相异性是否被最小化；响应于确定所述相异性未被最小化，继续进行将更新的中间编码器参数作为中间编码器参数的另一迭代；以及响应于确定所述相异性被最小化，输出所述中间编码器参数作为所述更新的编码器参数。

可根据所述特征空间中的所述原始特征向量和所述特征空间中的所述目标特征向量之间的sliced Wasserstein距离来计算相异性。

可根据所述编码器参数来计算所述原始特征向量。

可根据所述中间编码器参数来计算所述原始特征向量。

所述目标数据样本可包括多个无标记目标样本。

使所述处理器更新所述编码器参数的所述指令可包括当由所述处理器执行时使所述处理器通过迭代地计算多个中间编码器参数来计算所述更新的编码器参数的指令，每次迭代包括：根据所述中间编码器参数计算所述特征空间中的所述原始特征向量；根据所述中间编码器参数计算所述特征空间中的所述目标特征向量；根据所述分类器参数来计算所述目标特征向量的预测标签，所述预测标签中的每一个与置信度相关联；定义与具有超过阈值的置信度的所述预测标签相对应的多个伪标签；基于以下各项中的至少一项来更新所述中间编码器参数：最小化所述原始特征向量与所述目标特征向量之间的相异性；以及最小化所述原始数据样本的分类丢失；确定是否已经满足停止条件，其中所述停止条件包括以下各项中的至少一者：所述原始特征向量与所述目标特征向量之间的相异性；以及迭代之间的多个伪标签的饱和度；响应于确定不满足所述停止条件，利用所述更新的中间编码器参数作为中间编码器参数继续进行另一迭代；以及响应于确定满足所述停止条件，输出所述中间编码器参数作为所述更新的编码器参数。

所述更新所述中间编码器参数可在以下之间交替：最小化所述原始特征向量和所述目标特征向量之间的相异性；以及最小化所述原始数据样本的分类损失。

根据本发明的一个实施例，一种非暂时性计算机可读介质具有存储于其上的指令，所述指令在由处理器执行时使所述处理器：所述指令在由处理器执行时致使所述处理器：接收原始控制器的神经网络，所述原始控制器的神经网络用于基于来自原始域的多个原始数据样本和标签空间中的对应标签来控制机器人系统，所述原始控制器的所述神经网络包括多个编码器参数和多个分类器参数，所述神经网络被训练成：根据所述编码器参数将输入数据样本从所述原始域映射到特征空间中的特征向量；以及根据所述分类器参数基于所述特征向量将所述标签空间的标签分配给所述输入数据样本；更新所述编码器参数以最小化以下项之间的相异性：从所述原始数据样本计算的多个原始特征向量；以及从来自目标域的多个目标数据样本计算的多个目标特征向量，所述目标数据样本具有比所述原始数据样本小的基数；以及用更新的编码器参数更新所述控制器以控制所述目标域中的所述机器人系统。

使所述处理器更新所述编码器参数的所述指令可包括当由所述处理器执行时使所述处理器迭代地计算多个中间编码器参数的指令，每一迭代包括：计算所述特征空间中的所述原始特征向量；根据所述中间编码器参数计算所述特征空间中的所述目标特征向量；计算所述原始特征向量与所述目标特征向量之间的相异性；更新所述中间编码器参数以减少在所述原始特征向量和所述目标特征向量之间的相异性；确定所述相异性是否被最小化；响应于确定所述相异性未被最小化，继续进行将更新的中间编码器参数作为中间编码器参数的另一迭代；以及响应于确定所述相异性被最小化，输出所述中间编码器参数作为所述更新的编码器参数。

可根据所述特征空间中的所述原始特征向量和所述特征空间中的所述目标特征向量之间的sliced Wasserstein距离来计算所述相异性。

可根据所述编码器参数来计算所述原始特征向量。

可根据所述中间编码器参数来计算所述原始特征向量。

所述目标数据样本可包括多个无标记目标样本。

使所述处理器更新所述编码器参数的指令可包括当由所述处理器执行时使所述处理器通过迭代地计算多个中间编码器参数来计算所述更新的编码器参数的指令，每次迭代包括：根据所述中间编码器参数计算所述特征空间中的所述原始特征向量；根据所述中间编码器参数计算所述特征空间中的所述目标特征向量；使用所述分类器参数来计算所述目标特征向量的预测标签，所述预测标签中的每一个与置信度相关联；定义与具有超过阈值的置信度的所述预测标签相对应的多个伪标签；基于以下各项中的至少一项来更新所述中间编码器参数：最小化所述原始特征向量与所述目标特征向量之间的相异性；以及最小化所述原始数据样本的分类丢失；确定是否已经满足停止条件，其中所述停止条件包括以下各项中的至少一者：所述原始特征向量与所述目标特征向量之间的相异性；以及迭代之间的多个伪标签的饱和度；响应于确定不满足所述停止条件，利用所述更新的中间编码器参数作为中间编码器参数继续进行另一迭代；以及响应于确定满足所述停止条件，输出所述中间编码器参数作为所述更新的编码器参数。

事实上神经网络可包括卷积神经网络、循环神经网络、胶囊网络或前述的组合。

附图说明

附图与说明书一起示出了本发明的示例性实施例，并且与描述一起用于解释本发明的原理。

图1A和1B是基于从第一域或原始域(例如，经训练的机器人)取得的标记样本训练的机器学习模块及其对从第一域和不同于第一域的第二域或目标域(例如，未经训练的机器人)取得的样本的性能的示意图。

图2A和2B是基于从第一域(或原始域)取得的标记样本来训练并且基于来自不同于第一域的第二域(或目标域)的一些样本来更新的机器学习模块，连同更新的机器学习模块在第一域(例如经训练的机器人)和第二域(例如，未训练的机器人)中的性能的示意性说明。

图3是根据本发明的一个实施例的用于基于来自第一域(或原始域)的数据来训练机器学习模块并且基于来自第二域(或目标域)的一些标记的数据点来更新该模块的方法的流程图。

图4A、图4B、图4C和图4D是根据本发明的一个实施例的切片和sliced-Wasserstein距离的经验计算的说明。

图5A和5B是根据本发明一个实施例的基于来自第一域(域A(Domain A)，修改的美国国家标准与技术研究院(Modified National Institute of Standards andTechnology)或MNIST)的标记样本学习编码函数φ(或学习编码函数的编码器参数)以及更新编码函数φ(或更新编码器参数)以基于来自第二域(街景门牌号(Street View HouseNumbers)或SVHN)的数据来计算编码函数ψ的示意图。

图6是比较使用根据本发明的实施例的转移学习来训练的模型的数字识别准确度和不执行转移学习来训练的比较模型的数字识别准确度的图，两者都作为目标域中每类的标记数字的数目的函数。

图7A和7B是根据本发明一个实施例的基于来自第一域或原始域(域A(Domain A)，船只的航空光电或EO相机图像)的数据学习编码函数φ(或学习编码函数的编码器参数)以及更新编码函数φ(或更新编码器参数)以基于来自第二域或目标域(船只的合成孔径雷达或SAR图像)的数据来计算编码函数ψ的示意图。

图8是将使用根据本发明实施例的转移学习来训练的模型的船只检测准确度与不执行转移学习来训练的比较模型的船只检测准确度进行比较的曲线图，两者都作为目标域中每类的标记图像的数量的函数。

图9是根据本发明的一个实施例的在更新原始训练模型(例如，更新编码器参数)之后的小样本学习(few-shot learning)框架的体系结构的示意图。

图10A是根据本发明的一个实施例的用于计算更新的编码器ψ的编码器参数的方法的流程图。

图10B是根据本发明的一个实施例的用于迭代地更新模型的方法的流程图。

图11A和11B是根据本发明的一个实施例的当编码函数ψ被迭代更新时，原始数据和目标数据映射到特征空间的示意图。

图12是可结合本发明的实施例使用的计算机系统的框图。

图13是对一些形式的非易失性存储介质的描述。

具体实施方式

在以下详细描述中，通过说明的方式，仅示出和描述了本发明的某些示例性实施例。如本领域技术人员将认识到的，本发明可以以许多不同的形式实施，并且不应被解释为限于本文阐述的实施例。在整个说明书中，相同的附图标记表示相同的元件。

本发明的实施例的方面涉及用于利用先前学习的模型(例如，基于来自一个域的先验知识训练的模型，其在此可被称为“原始”域或“源”域

)来学习新任务(例如，基于来自新的或不同的域的新数据来适配模型，其在此可被称为“目标”域

)的系统和方法。本发明的实施例的一些方面涉及用于基于来自目标域的少量(例如，数十数量级)样本学习新任务的系统和方法。本发明的实施例的一个方面涉及一种用于转移学习的方法，该方法利用具有许多标记样本(labeled sample)的原始或源数据集(例如，合成数据集，其中标签实是容易地可获得的，基本上不需要无额外的成本)，该标记样本被用于学习模型以执行任务(诸如对象分类、机器人操纵或自主导航)，并且修改模型以仅用很少的标记样本在新的目标数据集(例如，具有来自诸如手动标记数据的昂贵的地面实况数据的少量标签的真实世界数据集)上执行任务。本发明的实施例的一个方面涉及在来自新的或不同的域的样本未被标记的情况下生成伪标签。

根据本发明的实施例的一些方面，所述系统包括两个模块，即：1)机器学习模块A10A，其是完全训练的机器学习模块(使用来自原始或源域的许多标记样本)，以及2)机器学习模块B 10B，其需要学习与模块A 10A的任务不同但相关的任务，但仅具有来自目标域的少量标记样本或少量无标记样本。作为一个示例，将在下面更详细地描述，机器学习模块A10A可被训练为识别手写数字的图像(原始或源域)中的数字，并且可以要求机器学习模块B10B通过从目标域(例如，街道数字的一些图像)的一些示例通过更新或重新训练模块A 10A来识别打印的街道数字的图像(目标域)中的数字。注意，虽然输入不同，但是这两个分类的输出相同；即，机器学习模块A 10A和机器学习模块B 10B两者都将输入图像的分类输出为表示从0到9的数字之一。

本发明的实施例的各方面可以应用于各种环境，诸如从几个样本的学习对于可以在各种环境条件或不同传感器模态下广泛使用的自主系统的高效机器学习是有益的。潜在应用的示例包括但不限于：自主驾驶(例如，训练用于自驾车辆的控制器在一个地点中操作，并且应用转移学习以更新控制器以在具有不同天气、不同交通模式和/或不同交通法规的不同地点中操作自驾车辆)；智能、监视和侦察(ISR)；以及机器人操纵。

作为一个具体示例，本发明的一些实施例可以应用于被配置为到达和抓取不同物体的机器人操纵系统。图1A、图1B、图2A和图2B示出了在机器人臂系统的背景下的本发明的一个实施例。

机器人系统需要首先检测和定位对象，然后到达该对象。在部署以抓取简单对象(例如，规则的矩形对象)之前训练这样的机器人系统。如图1A所示，用于控制包括机器人臂110的机器人系统的系统或控制器100可以包括机器学习模块A(ML模块A)10A，其包括基于来自域

(“部署前数据(pre-deployment data)”或原始域)的大量数据X_S集合和来自原始域

(或第一域或原始域)的标签Y_S而训练的模型(例如，神经网络)，其中标记训练样本是丰富且容易获得的。这些部署前数据X_S可例如从机器人臂系统100的原始应用域(或原始域)中的任务中收集(例如操纵规则的矩形框120)，并且还可包括例如基于机器人臂系统110所经历的环境的模拟而自动生成或合成的数据。

图1B是使用经训练的机器学习模块A 10A进行“推断”的示意图。具体地，经训练的机器学习模块A 10A可被认为包括编码器φ140和线性分类器ρ160。编码器φ140是将数据X_S 130从域A

映射到潜在空间

(或特征空间)中的值(或特征)Z_S 150的函数，并且编码器φ140可根据多个编码器参数来执行映射。线性分类器ρ160是从特征空间或潜在空间

映射到标签空间

中的类别标签Y的函数，并且分类器可以根据多个分类器参数执行分类(或类别标签的分配，或更一般地，类别标签中的不同类别标签的分配分数)。更具体地，例如，数据X_S可对应于由机器人臂检测的规则的矩形框的特定条件(例如，尺寸、形状和取向)，并且标签Y可对应于机器人臂系统110的移动(例如，旋转和平移)的各种组合以移动爪112来抓取框120。

另一方面，在部署环境(或目标域)中，可能需要机器人臂系统来检测具有更复杂外观的对象(例如，软袋、儿童玩具、鞋等)。如图1A所示，虽然这种经训练的机器学习模块A10A在原始(“部署前”或“原始”)域

中展示了高准确度(超过90％)，但是所部署的系统所遇到的实际状况(例如，在与现场的真实世界使用相对应的第二域或“目标”域中)可能与部署前数据的域显著不同。因此，系统的性能在部署时可能相对较差，诸如具有远低于50％的准确度，如图1A所示。

因此，本发明的实施例的一些方面涉及用于重新配置(例如，机器人臂系统的)先前训练的模型以学习修改的或新的任务(抓取在初始训练过程期间从未看到的对象)的系统和方法。

如图2A和2B所示，应用根据本发明的实施例的转移学习，可以基于来自部署域

(或第二域或目标域)的“部署数据”X_T来修改或更新原始的经训练的机器学习模块A10A，以生成更新的经训练的机器学习模块B 10B(ML模块B)。如图2A所示，更新的ML模块B10B在第二域

中实现了明显更好的性能(例如，高于80％)，同时在原始的部署前的域

的第一域中保持了高性能。在许多情况下，在第二域

(部署域或目标域)中获得大量数据可能相对困难。例如，在机器人操纵系统的情况下，可通过对系统行为的人为干预来产生新的标记样本，其可能需要一个或多个熟练的操作人员的大量努力。第二域中数据的稀缺性使得直接从该部署数据训练模型是不可行的。

这样，本发明的实施例的一些方面涉及使用相对小的部署数据集合(例如，大约数十数量级个样本)来更新先前训练的ML模块A 10A以生成能够在第一域和第二域中准确地执行任务(例如，对观察到的条件进行分类以计算行为)的ML模块B 10B。

如图2B所示，在一个实施例中，原始经训练的机器学习模块A 10A被用于生成更新的机器学习模块B 10B。在一些实施例中，在机器学习模块B 10B中学习新的编码器ψ240，其中新的编码器功能ψ240将来自新的域B(或

)的数据X_T230映射到特征潜在空间

中的值(或特征向量)Z_T250。在一些实施例中，来自机器学习模块A 10A的相同分类器ρ160被重新用于对从目标域

提取的特征(或特征向量)Z_T进行分类。在一些实施例中，训练新的线性分类器ρ′260以根据潜在(或特征)空间

中的特征Z_T来计算用于新数据X_T的标签Y_T270。

因此，本发明的实施例的一些方面涉及用于学习可应用于原始域(部署前或“原始”或“源”域

)和部署域(或“目标”域

)两者的共享编码器ψ的系统和方法。在本发明的一些实施例中，针对原始域或源域

和目标域

训练不同的编码器φ和ψ。如下面更详细讨论的，根据一些实施例，这通过最小化潜在(或特征)空间

(或嵌入空间)中的目标和源(或“原始”)分布之间的距离，同时使用源(或原始)域数据X_S训练分类器网络ρ260-换句话说，最小化原始特征向量φ(X_S)和目标特征向量ψ(X_T)之间的距离来实现。在一些实施例中，该距离是sliced-Wasserstein距离(SWD)(参见，例如，Kolouri，Soheil、Yang Zou和Gustavo K.Rohde的“用于概率分布的Sliced Wasserstein内核(Sliced Wassersteinkemels for probability distributions)”，2016年的关于计算机视觉和模式识别的IEEE会议论文集(Proceedings of the IEEE Conference on Computer Vision and PatternRecognition))，如以下更详细讨论的。

图3是根据本发明的一个实施例的用于基于来自第一域的数据来训练机器学习模块并且基于来自第二域的一些标记数据点来更新该模块的方法的流程图。机器学习模块的训练可以由模型训练系统执行。如将在下面更详细地描述的，模型训练系统可包括一个或多个计算设备。在一些实施例中，计算设备包括一个或多个处理器和存储器，其中存储器可存储例如训练数据、经训练的模型和在模型的训练期间生成的中间数据。一个或多个处理器可包括例如中央处理单元、图形处理单元(GPU)或其他向量处理器、神经形态电路和/或现场可编程门阵列(FPGA)。存储器可包括动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)和持久大容量存储器(例如，硬盘驱动器和/或闪存)。

如图3所示，在操作310中，模型训练系统基于来自域A的大量数据X来训练第一模块(模块A(Module A))。为了便于讨论，来自第一域

(或源域或原始域或部署前域)的训练数据可被表示为

并且标签空间中的对应标签可被表示为

其中每个样本x_i可以用K个可能的类别或分类中的一个或多个来标记(换言之，y_i可被表示为K维向量，并且向量的K个值中的每一个可以落在诸如[0，1]的范围内，其中该值表示特定分类的置信度)。操作310中的训练可使用标准机器学习技术(例如，反向传播和梯度下降)来执行以计算配置模型的参数(例如，包括编码器和分类器的神经网络的编码器参数和分类器参数，其中所述参数可包括神经网络的神经元的层之间的连接的权重和偏置)。

如上所述，编码器模块φ140提供从样本x到潜在空间(或特征空间)

的参数映射：

在本发明的一些实施例中，使用神经网络来实现编码器模块。在各种实施例中，神经网络是卷积神经网络、循环神经网络(recurrent neural network)、卷积神经网络和循环神经网络的混合、胶囊网络等。此外，如上所述，线性分类器ρ160将来自潜在空间(或特征空间)

的值(或特征向量)映射到标签空间

中的标签Y：

φ和ρ组成定义函数，其将样本X映射到标签Y：

在一些实施方案例中，使用反向传播(参见，例如，Hagan，M.T.和Menhaj，M.B.，1994.“Training feedforward networks withthe Marquardt algorithm.”IEEE transactions on Neural Networks，5(6)，989-993页以及LeCun，Yann等人的“Backpropagation applied to handwritten zip coderecognition.”Neural computation 1.4(1989)：541-551)来训练(例如，端对端训练)函数φ和ρ。例如，训练过程计算配置编码器φ的行为的多个编码器参数以及配置分类器ρ的行为的多个分类器参数。然而，本发明的实施例不限于此，并且可以替代地使用诸如进化算法的其他技术。编码器模块φ140可以被视为通过从数据集X中提取有用特征来捕获样本空间

中的非线性，使得潜在(或特征)空间

与标签空间

之间的映射可以被建模为线性的，从而使得能够使用线性分类器

160。这些经训练的模块例如在图1B中示出。

在部署期间，期望经训练的模型将新观察到的数据

映射到类标签

然而，从新域

(第二域或目标域或域B)采样的新观察到的数据的分布可与训练数据X_S、Y_S的域

有些不同，并且因此，先前学习的映射

可能不提供从目标域

的可感知的特征提取(例如，将φ应用于

中的X_T可能不导致可感知的到ρ的输入以计算X_T的标签Y_T)。另外，在一些实施例中，模型训练系统可能不访问来自新的域的大的标记数据池(例如，目标训练数据的样本数量或基数M远小于源训练数据或”原始“训练数据的样本数量或基数N：M＜＜N)。因此，本发明的实施例的各方面涉及在操作320中通过考虑几个标记的样本X_T，Y_T(例如，数十个样本)来自动地使训练模型适应或更新(例如，更新编码器参数)来自新的域的新观察的数据。

根据本发明的一个实施例，以上参考图2B描述为计算映射

的模块B10B的第二编码器ψ240被用来从新数据X_T中提取特征(或特征向量)。在本发明的各种实施例中，第二编码器模块B可是例如神经网络(诸如卷积神经网络、循环神经网络、卷积神经网络与递归神经网络的混合、胶囊网络等)。学习的线性分类器

也可以被刷新(例如，以计算新的线性分类器ρ′)以定义Z′和Y′之间的映射(例如，更新分类器参数)。然而，因为来自第二域

(目标域或域B)的样本X′的数量被假定为较小，所以可能难以或不可能使用诸如反向传播的技术来直接单独从新样本X_T学习ψ的参数(例如，神经网络的连接的权重)。

因此，本发明的实施例的一些方面涉及在操作320中自动学习编码函数φ的编码参数(例如，学习神经网络的权重)以映射来自原始的部署前的域

(例如，源域或原始域或域A)的样本X_S，以及自动学习编码器ψ以将来自新的部署后的域

(例如，目标域或域B)的样本X_T映射到相同的潜在空间(或特征空间)

在各种实施例中，φ和ψ是相同或不同的编码器。如果训练数据φ(X_S)(或原始特征向量)的分布与观查到的数据(或目标特征向量)ψ(X_T)在潜在空间(或特征空间)

中的分布之间的距离较小，则可以使用相同的分类器ρ对来自两个域的样本(来自

和来自

两个域的样本)进行分类。具体地，可以根据等式1来计算编码器模块Bψ的参数：

换句话说，通过最小化作为输入提供的损失函数为argmin_ψ，其中D是分布之间的相异性度量，第一项D(p(φ(X_S))，p(ψ(X_T)))强制所有投影数据点p(ψ(X_T))的概率分布(p(·))匹配其中不使用类别信息的训练样本p(φ(X_S))的概率分布，第二项∑_kD(p(φ(X_S)|C_k)，p(ψ(X_T)|C_k))强制几个标记样本的类别特定分布

p(ψ(X_T)|C_k)，以匹配训练集中的对应类别的分布p(φ(X_S)|C_k)，并且λ是正则化参数。注意，第一项不携带类信息C，因此是无监督损失函数，而第二项包括类信息，因此是有监督损失函数。这样，在φ和ψ共享参数的情况下，使用来自两个域(分别来自源(或“原始”)和目标域的样本X_S和X_T)的数据点来学习(例如，计算或学习编码器参数)编码器ψ，并且使用来自源(部署前或原始)域

的标记数据Y_S和来自目标域

的标记数据Y_T来同时学习(例如，计算或学习分类器参数)分类器。

在本发明的一些实施例中，相异性度量D是slice-Wasserstein距离。在相关技术中，Kullback-Leibler(KL)差异和相关距离度量(诸如Jensen-Shannon差异)已经被用作相异性的度量。然而，当在非重叠的低维流形上支持分布时，这种度量通常表现不佳。

因此，本发明的实施例的一些方面涉及使用sliced-Wasserstein距离作为度量标准，其提供了对现有技术中使用的度量标准的更稳健的替代。sliced-Wasserstein距离背后的思想是将高维分布切成它们的一维边缘分布，并测量它们相应的边缘分布之间的累积距离。

图4A、图4B、图4C和图4D示出了两个二维分布的切片和p-Wasserstein距离的经验计算。两个一维概率密度p之间的p-Wasserstein距离等于它们的累积分布函数的倒数之间的距离

更正式地，d维样本之间的sliced-Wasserstein距离在f维特征空间

中：

表示源(或原始)分布p_S，以及

将目标分布p_T表示近似为：

作为来自单位f维球的随机样本，并且其中s_l[i]和t_l[i]分别是源(或“原始”)和目标域的

的排序索引。

因此，上述等式1可以被改写以用slice-Wasserstein距离

代替一般相异性度量D，以产生等式2：

其中，在两个m维分布p和q之间的sliced-Wasserstein在等式3中定义为：

其中S^m-1是m维潜在空间中的单位球面，RP(t，θ)在等式4中定义为下式的边缘分布Rp(·，θ)的累积分布：

并且RQ(·，θ)类似于Rp(·，θ)地被定义，并且在等式5中将边缘分布Rp(·，θ)(以及类似地Rq(·，θ))定义为：

图4A描绘了一个说明性示例中的Z空间中的分布p_S(θ_l·φ(X_S)|C_j)和p_T(θ_l·ψ(X_T)|C_j)。每个单独的点代表由编码器函数(例如，φ或ψ)从数据X中的相应点提取的特征向量，并且椭圆指示高斯分布的协方差。该线θ_l代表与θ正交的子空间。

图4B描绘了在一个说明性示例中的两个m维分布p_S(θ_l·φ(X_S)|C_j)和p_T(θ_l·ψ(X_T)|C_j)。图4C描绘了相应的累积分布P_S(θ_l·φ(X_S)|C_j)和P_T(θ_l·ψ(X_T)|C_j)，其中水平线表示一个说明性示例中的累积分布之间的距离。

在一些实施例中，当p和q的实际分布不可用时，基于来自分布的观查到的样本使用等式3、4和5的离散近似。例如，当仅有来自分布的样本可用时，p-Wasserstein距离可近似为经分类样本之间的

距离(参见，例如，Hagan，M.T.和Menhaj，M.B.，1994.“Trainingfeedforward networks with the Marquardt algorithm.”IEEE transactions onNeural Networks，5(6)，989-993页以及Kolouri，S.；Martin，C.E.；和Rohde，G.K.2018.“Sliced-Wasserstein Autoencoder：An embarrassingly simple generatiVe model.”arXiv preprint arXiv：1804.01947)。图4D描绘了经分类的样本

和

之间的

距离，并且其中用双头箭头示出了距离

的一些示例。

作为本发明实施例的应用的一个实例，更新最初经训练以基于手写数字的图像来辨识数字的模型，以基于印刷数字的小样本来辨识印刷数字(门牌号)的图像的数字。图5A和5B是根据本发明的一个实施例的基于来自第一域

(域A，修改的美国国家标准与技术研究院或MNIST)的标记样本学习编码函数φ(或学习编码函数的编码器参数)以及更新编码函数φ(或更新编码器参数)以基于来自第二域

(街景门牌号或SVHN)的数据计算编码函数ψ的示意图。

更详细地，在一个实施例中，修改的美国国家标准与技术研究院(MNIST)数据库(参见，例如，Y.LeCun，L.Bottou，Y.Bengio和P.Haffner.“Gradient-based learningapplied to document recognition.”Proceedings of the IEEE，86(11)：2278-2324，1998年11月)中用图像(地面实况标签)C中表示的数字标记的手写数字，被表示为

用于训练从样本X_S到标签Y_S的映射的模型(例如，深度神经网络)，其中，如上所述，该模型可被看作编码器φ和线性分类器ρ的组成

编码器φ表示将输入X映射到潜在空间(或特征空间)

中的值Z的模型的第一部分，并且线性分类器ρ表示从潜在空间(或特征空间)

到标签空间

中的标签Y的值(或特征向量)Z的映射。

潜在(或特征)空间

中的图中的不同形状反映不同的类别C_k(在这种情况下，十个类别表示数字0至9)。如图5A和5B所示，将原始编码器φ应用于来自源(或原始)域

的样本X_S产生了如由不同形状C_K所指示的、通过其已知标签Y_S在

空间中良好聚类的样本。同样，基于来自第二域

的几个标记样本X_T、Y_T训练的适应的编码器ψ也产生了在潜在(或特征)空间

中良好聚类的结果。

为了识别部署或目标域的打印编号，基于来自街景门牌号(SVHN)数据集的标记

和无标记样本X′_T(参见例如Y.Netzer，T.Wang，A.Coates，A.Bissacco，B.Wu，A.Y.Ng.“Reading Digits in Natural Images with UnsuperVised Feature Learning.”NIPS Workshop on Deep Learning and Unsupervised Feature Learning 2011)，更新或重新训练编码器ψ以将目标域的标记和无标记分布与源(或原始)域的分布进行匹配。

图6是比较使用根据本发明的实施例的转移学习来训练的模型的数字识别准确度和仅在

不使用来自源(或原始)域的信息或无标记数据的情况下训练的比较模型的数字识别准确度的图，两者都作为目标域中每类的标记数字的数目的函数。如图6所示，对于每个类别的每个数字(例如，总共100个样本)，仅有10个来自目标域的样本(打印的数字)，两个模型的准确性都约为20％。然而，随着样本数量的增加，根据本发明的实施例训练的模型快速实现了比对比模型更好的性能，在目标域中每个数字100个样本(例如，总共1,000个样本)时具有20％的改进。尽管随着目标域中样本数量的增加，性能增益逐渐减小，但是本发明的实施例的性能优于比较技术的优点仍然存在。根据本发明的实施例训练的模型和比较模型两者都实现了大约90％的准确度，其中来自目标域的每个数字1,000个样本。

作为另一示例，图7A和7B是根据本发明的一个实施例的基于来自第一域或原始域

(域A，船只的航空电光或EO相机图像)的数据X_S学习编码函数φ(或学习编码函数的编码器参数)以及更新编码函数φ(或更新编码器参数)以基于来自第二域

(船只的合成孔径雷达或SAR图像)的标记数据X_T和无标记数据X′_T计算编码函数ψ的示意图。

电光(EO)图像是计算机视觉和机器学习中常用的视觉数据。许多自主系统依赖于处理EO数据并从EO数据中学习的算法，EO数据由例如被配置为检测可见、红外和/或紫外光谱中的光的数字照相机捕获。深度卷积神经网络(CNN)已经被应用于具有人类级性能的分类和检测算法。然而，一些应用(诸如连续环境监测和地球资源测绘)需要在EO成像不可行的条件下成像，诸如在夜晚或在恶劣天气中。

相反，合成孔径雷达(SAR)成像通过使用雷达信号提供高分辨率图像来提供这种能力，所述雷达信号可以在遮挡的天气中传播并且不依赖于其它电磁辐射源(例如，太阳)的存在。然而，训练SAR域中的CNN可能是有挑战性的。在EO域中训练CNN利用巨大的标记数据集的可用性，其可以通过诸如Amazon Mechanical Turk的众包标记平台和诸如ImageNet的公共可用数据集来获得。然而，在SAR域中，这些标记数据集可能更难以获得，因为例如：准备用于收集SAR数据集的设备与EO数据集相比要昂贵得多；SAR图像经常被分类，使得对SAR数据的公共访问受到严格管制和限制；与外行人执行自然EO域图像的标签的能力相反，对SAR图像的标记需要训练有素的专家；SAR数据的连续采集使得标记数据不代表当前数据分布。

因此，本发明的一些实施例涉及从使用EO图像训练的模型传送知识，以生成能够基于SAR数据进行分类的模型。特别地，本发明的实施例涉及训练编码器ψ(例如，学习编码器参数)，使得来自航空SAR图像域的输入样本被映射到特征空间，其中来自航空EO图像域的输入样本的分布基本上与由编码器φ映射到特征空间的输入样本的分布相同。通过这样做，相同的先前训练的分类器ρ可以被重新用于SAR图像。

对于目标域，南非专属经济区的航空SAR图像被预处理成21×21像素的子图像。(参见例如Schwegmann，C.、Kleynhans，W.、Salmon，B.、Mdakane，L.和Meyer，R.2016.“Verydeep learning for ship discrimination in synthetic aperture radar imagery.”InIEEE International Geo.and Remote Sensing Symposium，104-107)。因此，二进制船只检测问题是每个实例是否包含“船只”(正数据点)或包含“无船只”(负数据点)。专家分析这些子图像，以便手动标记1，596个正数据点(包含船的子图像)和3，192个负数据点(不包含船的子图像)。

在该示例中，为了解决使用经训练的模型对SAR数据进行自动分类的问题，使用初始(源或原始)数据集来训练初始模型，该初始数据集包括从由行星实验室公司(PlanetLabs Inc)操作的卫星星座所捕捉的旧金山湾区域的卫星图像中提取的船只的4,000个颜色(例如RGB)图像。该数据集的每个图像已经被标记为“船只”或“无船只”。初始模型包括编码器φ和分类器ρ，其将航空电光图像分类为C₁：船舶的一部分或C₂：背景的一部分(例如水)。更详细地，在一个实施例中，训练深度卷积神经网络(CNN)，其中编码器部分φ对应于四层滤波器，而分类器部分ρ对应于两层。使用损失函数根据上面的等式1训练深度CNN：

图8是将使用根据本发明实施例的转移学习训练的模型的船只检测准确度和仅在标记目标样本上训练的比较模型的船只检测准确度进行比较的曲线图，该比较模型不使用源(或原始)模型或无标记数据，两者都作为目标域中每类的标记图像的数量的函数。如图8中所见，在每个类别仅一个标记图像的情况下，根据本发明实施例的EO-SAR转移学习方法在检测船只方面已经实现了超过75％的准确度，而比较模型仅比偶然性(略高于50％)表现得稍好-换言之，仅利用一个样本的25％改进。在每个类别五个标记图像的情况下，比较模型提高到55％的准确度，而根据本发明的实施例训练的模型提高到约85％的准确度，表示仅用几个样本就提高了30％。性能继续超过比较模型，直到每类大约15个图像，在这一点上，两个模型的性能以大约90％的准确度稳定。

因此，本发明的实施例允许转移学习，使得在一个域中训练的模型(例如，深度神经网络)能够被应用以仅使用来自目标域的几个标记示例在不同的但相关的目标域中执行任务(小样本学习)。

在一些情况下，标签不可用于目标域中的样本。因此，本发明的实施例的一些方面涉及用于更新基于源(或原始)域来训练的模型以对来自目标域的样本执行分类任务的无监督(例如，自动)技术。

图9是根据本发明的一个实施例的在更新原始训练模型之后的小样本学习框架的体系结构的示意图。如图9所示，来自原始的、部署前的域

的样本X_S(在该示例中，来自街道门牌号的数字照片)和来自新的域

的样本X_T(在该示例中，手写数字的图像)被提供给共享编码器ψ940，其根据多个编码器参数从输入数据值(来自域

的X_S或来自域

的X_T)提取特征(或特征向量)Z，其中特征(或特征向量)Z 950在共享的嵌入或特征空间或潜在空间

中。分类器ρ 960然后将从潜在空间

提取的特征Z映射到标签空间y中以计算类标签Y970(包括源(或原始)域

中的标签Y_S和目标域

中的标签Y_T)。

更准确地说，在此实例中，源(或原始)域

包括具有N个标记数据点的对(X_S，Y_S)，其中

表示样本且

含有对应的标签。注意，该标签

际识对应样本

对于一个或多个K个类别(例如，数字识别的分类任务中的数字0到9)的成员资格。还假设样本X_S是独立的并且与源(或原始)联合概率分布

相同地分布(i.i.d.)。x^s上的源(或原始)边缘分布由p_S表示。相关目标域

具有M个无标记数据点

(在一些实施例中，假设M＜＜N)。相同类型的标签

应用于目标域，并且假设来自目标域的样本是从目标边缘分布

中提取的。还假设在两个域之间存在分布差异：p_S≠p_T。

如上所述，假设给定足够大数量的N个源(或原始)样本X_S及其对应的标签Y_S，可计算(或“学习”)参数函数以从样本映射到标签(

其中θ表示函数的参数)。例如，在函数f_θ被实现为深度神经网络的情况下，参数θ可以对应于神经网络的层之间的连接的经学习的权重。在这种情况下，可以通过最小化关于适当损失函数

的经验风险，

来学习参数θ，所述损失函数

诸如交叉熵损失(换言之，选择参数以最小化地面实况标签Y和分类函数f_θ的输出之间的差异)。

此外，如上所述，该函数可以被认为是编码器函数ψ_v和分类器函数ρ_w的组合，其中v和w对应于ψ和ρ的经学习的参数。编码器函数ψ_v可对应于神经网络的初始级，而分类器函数p_w可对应于神经网络的较后级。在一个实施例中，相同的编码器函数ψ_v从源域(或原始域)

和目标域

两者取得输入，并将那些输入映射到共享嵌入空间(或特征空间)

中的特征向量，因此是“共享”编码器

如前所述，分类器ρ从嵌入空间映射到标签空间

仅仅最小化该术语D(p(ψ(X_S))，p(ψ(X′_T)))不足以学习适当的编码函数ψ，因为它不保证源域(或原始域)

和目标域

之间的语义一致性。采用图9中所示的具体示例，虽然特征分布ψ(X_S)和ψ(X′_T)可能具有低差异(例如，D(p(ψ(X_S))，p(ψ(X′_T)))可能很小)，但是在该空间中可能没有正确地聚类类别。例如，目标域中的多个数字可以与来自源(或原始)域的单个数字的分布聚类(例如，对应于来自目标域的数字5和6的图像可以在特征空间中与来自源或原始域的数字6的图像聚类)。因此，学习函数应当包括捕获以下值的语义含义的术语：

D(p(ψ(X_S)|C_k)，p(ψ(X′_T)|C_k))

在先前的示例中，对于来自目标域

的几个示例，标签Y_T是可用的，其允许计算损失函数中的项p(ψ(X_T)|C_k)。然而，在一些情况下，来自目标域的数据样本未被标记(没有对应的标签Y_T可用于目标域样本X_T)，因此该项不能被直接计算。

因此，本发明的实施例的一些方面涉及无监督域自适应(UDA)算法，其通过使用目标数据的可信的伪标签来计算目标的替代，该目标数据是使用源分类器(或原始分类器)ρ获得的。通常，在一些实施例中，通过计算无标记目标域数据X′_T的一部分的伪标签Y′_T，基于无标记目标域数据迭代地更新经训练的模型。为了计算伪标签Y′_T，线性分类器ρ被应用于潜在空间

中的目标数据样本X′_T的嵌入(目标特征向量ψ(X′_T))，以计算用于无标记数据的预测的分配的分类标签C。这些类别标签可以与置信水平相关联。这样，具有高置信度(或高概率)的类被分配给伪标签Y′_T。然后，使用无标记目标域数据的该伪标签部分来最小化潜在空间(或特征空间)

中(特征向量的)条件分布之间的距离。结果，随着执行更多的学习迭代，具有正确(或高置信度)伪标签Y′_T的目标数据点X′_T的数目增加，并且逐渐地强制分布有条件地对齐。

图10A是根据本发明的一个实施例的用于计算更新的编码器ψ的参数的方法1000的流程图。在操作1010中，基于源(或原始)数据集来训练初始编码器和分类器。例如，在一些实施例中，使用深度重构分类网络(DRCN)技术(参见例如Ghifary，M.、Kleijn，W.B.、Zhang，M.、Balduzzi，D.、和Li，W.2016.“Deep reconstruction-classification networksfor unSuperViSed domain adaptation.”In European Conference on ComputerVision，597-613.Springer)来执行训练。DRCN优于比较技术的一个好处是它不依赖于对抗性网络的使用(这可能遭受模式崩溃问题)并且维持简单的网络体系结构。然而，本发明的实施例不限于DRCN，并且本发明的其它实施例可以使用其它无监督域自适应(UDA)方法来初始化图10A中所示的模型。

在一些使用DRCN用于初始步骤的实施例中，DRCN被用于分类源(或原始)域数据

并且还被用于重建用于无标记目标域数据

的标签Y′_T。对于要满足的两个标准，模型训练系统自动计算共享编码器ψ以将源(或原始)和目标数据映射到相同的潜在空间或特征嵌入空间或特征空间

为了实现这一点，DRCN使用源标签预测流水线和目标重构流水线。对于两个流水线，特征提取器或编码器ψ是共享的。为了优化DRCN网络，以交替的逐时期的方式训练管线。在一个示例实施例中，特征提取器ψ具有如下结构：1003×3过滤器、2×2最大池化层、1503×3过滤器、2×2最大池化层、2003×3过滤器，和两个1，024神经元的完全连接层。在完全连接层之后使用脱落层，其比率为50％。分类器是softmax层，并且具有特征提取器的逆结构的解码器完成自动编码器。所使用的控制惩罚λ被设置为λ＝0.5对分类和重建损失给予相等的权重。Adam优化器用于所有D RCN训练，发现最佳学习率在[0.5×10⁴，3×10⁴]范围内。

参照图10A，在操作1020中，使用各种技术来提升目标域的分类性能，如以下更详细描述的。如上所述，在本发明的一些实施例中，当预测目标数据的分类时，使用slice-Wasserstein距离(SWD)方法来提高来自操作1010的初始模型的准确度。为了实现这一点，本发明的实施例的方面采用两种方法：目标数据的伪标签生成，以及完全标记的源(或原始)数据和伪标记目标数据之间的伪监督SWD最小化。

图10B是根据本发明的一个实施例的用于迭代地更新模型的方法的流程图。在操作1022中，模型训练系统使用源分类网络ρ来生成伪标签以预测所有目标数据X′_T的标签Y′_T。在操作1024中，如果预测的置信度超过阈值，则将该示例添加到当前伪标记数据集。通常，利用这种方法，训练过程获得监督目标域训练的部分益处，同时避免不正确的伪标记风险。

在操作1026中，模型训练系统使用所分配的伪标签来计算编码器ψ的更新后的中间编码器参数(例如，神经网络中的连接的权重)。更详细地，所分配的伪标签使得模型训练系统能够计算以那些伪标签为条件的SWD(例如，计算其至少一些成员中间编码器参数，以便减少或最小化

空间(或特征空间)中的源X′_T的D(p(ψ(X_S)|C_k)，p(ψ(X′_T)|C_k)))，并且因此可以计算更新的嵌入和目标嵌入(或原始特征向量和目标特征向量)(ψ(X_S)和ψ(X′_T))之间的相异性。在一些实施例中，训练过程交替优化源(或原始)数据X_S的分类损失(例如，最小化源(或原始)数据X_S的错误分类实例的数量，其由

和在嵌入的源和目标数据分布(或原始和目标特征向量的分布)φ(X_S)和ψ(X′_T)之间的伪监督SWD损失。交替优化允许在SWD训练步骤期间以有意义的方式减小源(或原始)和目标分布之间的差异。在一些情况下，两种损耗的同时优化导致SWD的降低缓慢到没有降低。

在操作1028中，评估当前中间编码器参数以确定是否满足停止条件。如果停止条件尚未满足，则过程通过返回到操作1022并基于编码器ψ的经更新的中间编码器参数计算新的预测标签和置信度来迭代。如果已经满足停止条件(下面更详细地描述)，则该过程终止，输出经更新的中间编码器参数作为经更新的编码器ψ的经更新的编码器参数。

图11A和图11B是根据本发明的一个实施例，当编码函数ψ被迭代更新时，源(或原始)数据和目标数据到嵌入空间的映射的示意性描述。在图11A和图11B中，作为五边形的点未被标记，并且不同的其它形状指示点的不同类别标签。如图11A所示，特征空间中的标签源(或原始)样本X由初始训练的编码器ψ₀(在操作1010中训练)根据它们的标签(如图11A所示的ψ₀(X_S))很好地聚类，但是初始编码器ψ₀未很好地聚类目标域的样本X′(标记的ψ₀(X′_T))。

在计算分类、添加高置信度样本以及基于最小化SWD损失更新编码器ψ的参数以计算新的编码器ψ₁的一次迭代之后，源(或原始)样本X_S(它们的特征向量)保持像ψ₁(X_S)在特征空间中那样良好聚类，并且一些目标样本X′_T(它们的特征向量)在特征空间中如ψ₁(X′_T)具有移位的位置，其中根据置信度向一些样本分配伪标签(不同形状)。

如图11B所示，在两次迭代之后，在由经更新的编码器ψ₂编码之后标记更多的目标样本X′_T，并且嵌入特征空间ψ₂(X′_T)中的目标样本X′_T开始示出与特征空间ψ₂(X_S)中的源(或原始)样本X_S的聚类或布置更相似的聚类或布置。在迭代过程终止之后(下面更详细地描述)，最终编码器ψ_final以非常类似于源(或原始)样本X_S在特征空间ψ_final(X_S)中的布置并且也非常类似于目标数据集的地面实况标签的布置来编码目标样本X′_T在特征空间ψ_final(X′_T)中的布置。

在本发明的一些实施例中，停止条件从两个度量导出：SWD损失，以及伪标记目标数据的数量。如图11A和11B所示，SWD损耗(例如，参见等式6)将减小，直到伪标记目标嵌入分布与来自源分布(或原始分布)的那些匹配(注意，ψ(X′_T)的分布的形状接近具有进一步过程迭代的ψ(X_S)的分布的形状)。然而，伪标签在每次训练迭代中被重新分配，并且目标分布会改变。如果网络被正确训练，则伪标记目标示例的数量将随着网络对目标数据预测更有信心而增加(如图11A和11B所示，更多的ψ(X′_T)的点被进一步迭代标记)。最终，所分配的伪标签的数量将开始饱和。当伪标记点在训练迭代之间保持相对恒定时(例如，数量恒定并且在将特定类别分配给特定样本时相对稳定)，SWD损耗将被最小化。在一些实施例中，这是认为训练完成的点。

伪标签的数量饱和，因为所有可容易地分离的目标数据点已经在共享嵌入空间

中移动以匹配对应的源域(或原始域)嵌入。如果训练得更长，则可分配更多伪标签。然而，这些最终的伪标记点通常不那么准确，并且可能降低或提高性能。

有效训练还取决于训练迭代中每个目标的优化步骤的数量的平衡。例如，在一次训练迭代中，一百个顺序SWD优化步骤(对于具有五百批量大小的MNIST数据集，这是容易满足的)将导致源(或原始)分类器的灾难性知识损失。相反，每次训练迭代仅几个SWD优化步骤将不会改善SWD损失。在各种实验运行中，每次训练迭代十到十五个SWD优化步骤和二十到三十个分类器优化步骤导致有效的训练。通过在每个训练步骤监测SWD损失以确保SWD损失正在减少，可以验证有效的训练。假设适当的学习率，在训练开始时SWD损失的增加意味着每个训练迭代有太多的SWD优化步骤。另一方面，当在一行中没有足够的SWD优化步骤时，则损耗将保持近似恒定。

作为具体示例，使用上述MNIST和SVHN数据集连同从美国邮政服务(USPS)邮局收集的数据集(参见Hull，Jonathan J.“A databaSe for handwritten textrecognitionresearch.”IEEE Transactions on pattern analysis and machine intelligence 16.5(1994)：550-554)来实现本发明的一些实施例。

特别地，MNIST

USPS()和SVHN()数据集已经被用作域自适应的基准。这些数据集都是10类数字分类数据集，其中MNIST和USPS是手写数字的集合，SVHN是真实世界数字图像的集合。这三个数据集可以定义六个域自适应问题(例如，自适应

自适应

自适应

自适应

自适应

和自适应

)。在相关工作之后，对于

和

的情况，涉及本发明实施例的一些实验，使用了来自MNIST的2,000个随机选择的图像和来自USPS的1,800个图像。在其余的情况下，在下面讨论的实验中使用全数据集。在这些实验中，数据集的图像被缩放到32×32像素，具有附加步骤以对SVHN数据集

进行灰度化。

在本发明的一些实施例中，数据扩充用于通过对输入数据应用合理的变换来创建附加训练数据，以便改进一般化(参见例如Simard，P.Y.、Steinkraus，D.和Platt，J.C.2003.“Best practices fOr Convolutional neural networks applied to visualdocument analysis.”In Seventh International Conference on Document Analysisand Recognition，2003.Proceedings，958-963)。在本发明的一些实施例中，这些变换包括几何变换和噪声，并且这些几何变换可以包括平移、旋转、歪斜、缩放、高斯噪声、二项式噪声和反转像素。如在例如Ghifary，M.、Kleijn，W.B.、Zhang，M.、Balduzzi，D.和Li，W.2016.Deep reconstruction-classification networks for unsuperviSed domainadaptatiOn.In European Conference on Computer Vision，597-613中所示。Springer在将这些变换应用于适当的输入时，它们极大地提高了性能。

在无监督的域自适应问题中，在源(或原始)域和目标域之间存在假定的域偏移。当输入样本是图像时，样本的视觉性质允许直观理解哪些变换导致域偏移，并且由此允许源(或原始)域数据的扩充以在训练之前减少该偏移，从而产生更容易的优化问题。例如，SVHN数据集中的许多图像包含旋转、歪斜或稍微移位的数字。另外，许多数字是模糊的和不聚焦的。直观地，如果我们要从MNIST数据集传送已解析、对齐数字的知识，则可以通过用原始MNIST训练图像的旋转、歪斜、移位和有噪声版本来增强源(或原始)训练数据，来减少MNIST-SVHN域移位。

因此，本发明的实施例的方面涉及用于使在源(或原始)域

上训练的模型适应于使用来自目标域的相对少量的样本在另一个相关的目标域

中运行的系统和方法。本发明的实施例的一些方面涉及使用slice-Wasserstein距离来调整在源(或原始)域数据上训练的模型。在一些实施例中，标记来自目标域

的少数样品本被标记。在一些实施例中，当来自目标域

的少数样本未被标记时，将为无标记目标域样本计算伪标签以便执行自适应。

计算系统

图12示出了根据实施例的示例性计算机系统1200。可以使用与这里描述的那些类似的计算机系统，例如，以实现上述模型训练系统和/或在部署前和部署中的训练模型，但是本发明的实施例不限于此。示例性计算机系统1200被配置为执行与程序或算法相关联的计算、处理、操作和/或功能。在一个实施例中，本文讨论的某些过程和步骤被实现为驻留在计算机可读存储器单元内并且由示例性计算机系统1200的一个或多个处理器执行的一系列指令(例如，软件程序)。当被执行时，指令使示例性计算机系统1200执行特定动作并展示特定行为，诸如本文所描述的。

示例性计算机系统1200可以包括被配置成传送信息的地址/数据总线1210。另外，一个或多个数据处理单元，诸如处理器1220，与地址/数据总线1210耦合。处理器1220被配置为处理信息和指令。在实施例中，处理器1220是微处理器。或者，处理器1220可以是不同类型的处理器，诸如并行处理器或现场可编程门阵列。

示例性计算机系统1200被配置为利用一个或多个数据存储单元。示例性计算机系统1200可以包括与地址/数据总线1210耦合的易失性存储器单元1230(例如，随机存取存储器(“RAM”)、静态RAM、动态RAM等)，其中易失性存储器单元1230被配置为存储用于处理器1220的信息和指令。示例性计算机系统1200还可包括与地址/数据总线1210耦合的非易失性存储器单元1240(例如，只读存储器(“ROM”)、可编程ROM(“PROM”)、可擦除可编程ROM(“EPROM”)、电可擦除可编程ROM(“EEPROM”)、闪存等)，其中非易失性存储器单元1240被配置为存储用于处理器1220的静态信息和指令。或者，示例性计算机系统1200可执行从在线数据存储单元检索的指令，诸如在“云”计算中。在实施例中，示例性计算机系统1200还可包括与地址/数据总线1210耦合的一个或多个接口，诸如接口1250。一个或多个接口被配置为使得示例性计算机系统1200能够与其他电子设备和计算机系统连接。由一个或多个接口实现的通信接口可包括有线(例如，串行电缆、调制解调器、网络适配器等)和/或无线(例如，无线调制解调器、无线网络适配器等)通信技术。

在一个实施例中，示例性计算机系统1200可包含与地址/数据总线1210耦合的输入设备1260，其中输入设备1260经配置以将信息和命令选择传送到处理器1220。根据一个实施例，输入设备1260是字母数字输入设备，诸如键盘，其可包括字母数字和/或功能键。或者，输入设备1260可是除了字母数字输入设备之外的输入设备。在实施例中，示例性计算机系统1200可包括与地址/数据总线1210耦合的光标控制设备1270，其中光标控制设备1270被配置为向处理器1220传送用户输入信息和/或命令选择。在一个实施例中，利用诸如鼠标、跟踪球、跟踪板、光学跟踪设备或触摸屏之类的设备来实现光标控制设备1270。尽管如上所述，在一实施例中，光标控制设备1270经由来自输入设备1260的输入被指引和/或激活，诸如响应于与输入设备1260相关联的特殊键和键序列命令的使用。在一个替代实施例中，光标控制设备1270被配置为由语音命令引导或指引。

在一个实施例中，示例性计算机系统1200还可包括与地址/数据总线1210耦合的一个或多个可选的计算机可用数据存储设备，诸如存储设备1280。存储设备1280被配置成存储信息和/或计算机可执行指令。在一个实施例中，如图13所示，存储设备1280是诸如磁盘或光盘驱动器(例如，硬盘驱动器(“HDD”)、软盘1282、光盘只读存储器(“CD-ROM”)1284、数字多功能盘(“DVD”))或闪存(例如，USB驱动器形式的NAND闪存)1286的存储设备。根据一个实施例，显示设备1290与地址/数据总线1210耦合，其中显示设备1290被配置为显示视频和/或图形。在一个实施例中，显示设备1290可包括阴极射线管(“CRT”)、液晶显示器(“LCD”)、场发射显示器(“FED”)、等离子体显示器或适于显示用户可识别的视频和/或图形图像和字母数字字符的任何其他显示设备。

示例性计算机系统1200在此被呈现为根据一实施例的示例性计算环境。然而，示例性计算机系统1200并不严格限于计算机系统。例如，实施例提供了示例性计算机系统1200表示可根据本文描述的各种实施例使用的一种类型的数据处理分析。此外，也可以实现其他计算系统。实际上，本技术的精神和范围不限于任何单个数据处理环境。因此，在实施例中，本技术的各种实施例的一个或多个操作是利用由计算机执行的计算机可执行指令来控制或实现的，所述计算机可执行指令诸如程序模块。在一个示例性实现中，这样的程序模块包括被配置成执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件和/或数据结构。此外，实施例提供了通过利用一个或多个分布式计算环境来实现本技术的一个或多个方面，诸如其中任务由通过通信网络链接的远程处理设备执行，或诸如其中各种程序模块位于包括存储器存储设备的本地和远程计算机存储介质两者中。

虽然已经结合某些示例性实施例描述了本发明，但是应当理解，本发明不限于所公开的实施例，相反，本发明旨在覆盖包括在所附权利要求及其等同物的精神和范围内的各种修改和等同布置。

Claims

1.一种用于训练控制器以控制目标域中的机器人系统的方法，所述方法包括：

接收原始控制器的神经网络，所述原始控制器的神经网络用于基于来自原始域的多个原始数据样本和标签空间中的对应标签来控制所述机器人系统，所述原始控制器的神经网络包括多个编码器参数和多个分类器参数，所述神经网络被训练成：

根据所述编码器参数，将输入数据样本从所述原始域映射到特征空间中的特征向量；以及

根据所述分类器参数，基于所述特征向量将所述标签空间的标签分配给所述输入数据样本；

更新所述编码器参数以最小化所述特征空间中以下项之间的相异性：

从所述原始数据样本计算的多个原始特征向量；以及

从来自所述目标域的多个目标数据样本计算的多个目标特征向量，所述目标数据样本具有比所述原始数据样本小的基数；以及

用更新的编码器参数更新所述控制器以控制所述目标域中的所述机器人系统。

2.根据权利要求1所述的方法，其中，根据所述特征空间中的所述原始特征向量与所述特征空间中的所述目标特征向量之间的sliced Wasserstein距离来计算所述相异性。

3.根据权利要求1所述的方法，其中，更新所述编码器参数包括迭代地计算多个中间编码器参数，每次迭代包括：

计算所述特征空间中的所述原始特征向量；

根据所述中间编码器参数计算所述特征空间中的所述目标特征向量；

计算所述原始特征向量与所述目标特征向量之间的相异性；

更新所述中间编码器参数以减少在所述原始特征向量和所述目标特征向量之间的相异性；

确定所述相异性是否被最小化；

响应于确定所述相异性未被最小化，继续进行将更新的中间编码器参数作为中间编码器参数的另一迭代；以及

响应于确定所述相异性被最小化，输出所述中间编码器参数作为所述更新的编码器参数。

4.根据权利要求3所述的方法，其中，根据所述特征空间中的所述原点始特征向量与所述特征空间中的所述目标特征向量之间的sliced Wasserstein距离来计算所述相异性。

5.根据权利要求3所述的方法，其中，计算所述原始特征向量由原始编码器执行。

6.根据权利要求3所述的方法，其中，根据所述中间编码器参数执行计算所述始特征向量。

7.如权利要求1所述的方法，其中，所述目标数据样本包括多个目标样本和多个对应的目标标签。

8.如权利要求1所述的方法，其中，所述目标数据样本包括多个无标记目标样本。

9.根据权利要求8所述的方法，其中，更新所述编码器参数包括迭代地计算多个中间编码器参数，每次迭代包括：

根据中间编码器参数计算所述特征空间中的所述原始特征向量；

根据所述分类器参数计算所述目标特征向量的预测标签，所述预测标签中的每一个与置信度相关联；

定义与具有超过阈值的置信度的所述预测标签相对应的多个伪标签；

基于以下各项中的至少一项来更新所述中间编码器参数：

最小化所述原始特征向量与所述目标特征向量之间的相异性；以及

最小化所述原始数据样本的分类丢失；

确定是否已经满足停止条件，其中所述停止条件包括以下各项中的至少一者：

所述原始特征向量与所述目标特征向量之间的相异性；以及

迭代之间的多个伪标签的饱和度；

响应于确定不满足所述停止条件，利用所述更新的中间编码器参数作为中间编码器参数继续进行另一迭代；以及

响应于确定满足所述停止条件，输出所述中间编码器参数作为所述更新的编码器参数。

10.根据权利要求9所述的方法，其中，更新所述中间编码器参数在以下之间交替：

最小化所述原始特征向量和所述目标特征向量之间的相异性；以及

最小化所述原始数据样本的分类损失。

11.根据权利要求1所述的方法，其中，所述神经网络包括卷积神经网络、循环神经网络、胶囊网络或前述的组合。

12.一种用于训练控制器以控制目标域中的机器人系统的系统，所述系统包括：

处理器；以及

非易失性存储器，其存储指令，所述指令在由所述处理器执行时使所述处理器：

接收原始控制器的神经网络，所述原始控制器的神经网络用于基于来自原始域的多个原始数据样本和标签空间中的对应标签来控制所述机器人系统，所述原始控制器的所述神经网络包括多个编码器参数和多个分类器参数，所述神经网络被训练成：

根据所述编码器参数将输入数据样本从所述原始域映射到特征空间中的特征向量；以及

根据所述分类器参数基于所述特征向量将所述标签空间的标签分配给所述输入数据样本；

更新所述编码器参数以最小化以下项之间的相异性：

从所述原始数据样本计算的多个原始特征向量；以及

13.根据权利要求12所述的系统，其中，根据所述特征空间中的所述原始特征向量与所述特征空间中的所述目标特征向量之间的sliced Wasserstein距离来计算所述相异性。

14.根据权利要求12所述的系统，其中，使所述处理器更新所述编码器参数的所述指令包括当由所述处理器执行时使所述处理器迭代地计算多个中间编码器参数的指令，每次迭代包括：

计算所述特征空间中的所述原始特征向量；

计算所述原始特征向量与所述目标特征向量之间的相异性；

确定所述相异性是否被最小化；

15.如权利要求12所述的系统，其中，所述目标数据样本包括多个目标样本和多个对应的目标标签。

16.根据权利要求12所述的系统，其中，所述目标数据样本包括多个无标记目标样本。

17.根据权利要求16所述的系统，其中，使所述处理器更新所述编码器参数的所述指令包括当由所述处理器执行时使所述处理器通过迭代地计算多个中间编码器参数来计算所述更新的编码器参数的指令，每次迭代包括：

根据所述中间编码器参数计算所述特征空间中的所述原始特征向量；

根据所述分类器参数来计算所述目标特征向量的预测标签，所述预测标签中的每一个与置信度相关联；

基于以下各项中的至少一项来更新所述中间编码器参数：

最小化所述原始数据样本的分类丢失；

所述原始特征向量与所述目标特征向量之间的相异性；以及

迭代之间的多个伪标签的饱和度；

18.根据权利要求17所述的系统，其中，所述更新所述中间编码器参数在以下之间交替：

最小化所述原始数据样本的分类损失。

19.根据权利要求12所述的系统，其中，所述神经网络包括卷积神经网络、循环神经网络、胶囊网络或前述的组合。

20.一种非暂时性计算机可读介质，其具有存储于其上的指令，所述指令在由处理器执行时致使所述处理器：

接收原始控制器的神经网络，所述原始控制器的神经网络用于基于来自原始域的多个原始数据样本和标签空间中的对应标签来控制机器人系统，所述原始控制器的所述神经网络包括多个编码器参数和多个分类器参数，所述神经网络被训练成：

更新所述编码器参数以最小化以下项之间的相异性：

从所述原始数据样本计算的多个原始特征向量；以及

从来自目标域的多个目标数据样本计算的多个目标特征向量，所述目标数据样本具有比所述原始数据样本小的基数；以及

21.根据权利要求20所述的非暂时性计算机可读介质，其中，根据所述特征空间中的所述原始特征向量与所述特征空间中的所述目标特征向量之间的sliced Wasserstein距离来计算所述相异性。

22.根据权利要求20所述的非暂时性计算机可读介质，其中，使所述处理器更新所述编码器参数的所述指令包括当由所述处理器执行时使所述处理器迭代地计算多个中间编码器参数的指令，每一迭代包括：

计算所述特征空间中的所述原始特征向量；

计算所述原始特征向量与所述目标特征向量之间的相异性；

确定所述相异性是否被最小化；

23.根据权利要求20所述的非暂时性计算机可读介质，其中，所述目标数据样本包括多个目标样本和多个对应目标标签。

24.根据权利要求20所述的非暂时计算机可读介质，其中，所述目标数据样本包括多个无标记目标样本。

25.根据权利要求24所述的非暂时性计算机可读介质，其中，使所述处理器更新所述编码器参数的指令包括当由所述处理器执行时使所述处理器通过迭代地计算多个中间编码器参数来计算所述更新的编码器参数的指令，每次迭代包括：

使用所述分类器参数来计算所述目标特征向量的预测标签，所述预测标签中的每一个与置信度相关联；

基于以下各项中的至少一项来更新所述中间编码器参数：

最小化所述原始数据样本的分类丢失；

所述原始特征向量与所述目标特征向量之间的相异性；以及

迭代之间的多个伪标签的饱和度；

26.根据权利要求25所述的非暂时性计算机可读介质，其中，所述更新所述中间编码器参数在以下之间交替：

最小化所述原始数据样本的分类损失。

27.根据权利要求20所述的系统，其中，所述神经网络包括卷积神经网络、循环神经网络、胶囊网络或前述其组合。