CN110503204A

CN110503204A - 识别用于机器学习任务的迁移模型

Info

Publication number: CN110503204A
Application number: CN201910403975.1A
Authority: CN
Inventors: P·沃特森; B·博哈塔查尔杰; N·C·考德拉; B·M·贝尔高德瑞; P·都贝; M·R·格拉斯; J·R·肯德尔; 霍思宇; M·L·赫尔
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2018-05-17
Filing date: 2019-05-16
Publication date: 2019-11-26
Also published as: US20190354850A1

Abstract

本申请涉及识别用于机器学习任务的迁移模型。提供了关于自主地促进选择一个或多个迁移模型以增强一个或多个机器学习任务的性能的技术。例如，这里描述的一个或多个实施例可以包括一种系统，该系统可以包括可以存储计算机可执行组件的存储器。该系统还可以包括处理器，该处理器操作性地耦接到存储器，并且可以执行存储在存储器中的计算机可执行组件。该计算机可执行组件可以包括评估组件，该评估组件可以评估源数据集和来自目标机器学习任务的样本数据集之间的相似性度量。计算机可执行组件还可以包括识别组件，识别组件可以基于相似性度量识别与源数据集相关联的预训练的神经网络模型，以执行目标机器学习任务。

Description

识别用于机器学习任务的迁移模型

技术领域

本公开涉及用于机器学习任务的迁移模型的识别，并且更具体地，涉及自主地识别要被选择用于迁移学习的一个或多个预训练的神经网络，以增强一个或多个机器学习任务的性能。

背景技术

各种人工智能(“AI”)技术利用深度学习神经网络模型来执行一个或多个机器学习任务。模型的准确性取决于用于训练该模型的数据量和/或数据类型。例如，用于训练主题(subject)模型的唯一数据(例如，非重复数据)越多，主题模型可以变得越准确。然而，许多机器学习任务具有可用于训练模型的有限量的数据。另外，在其中大量数据可用的情况下，训练模型可能是耗时的。传统方法试图通过迁移学习来解决这些问题，其中利用预先存在的预训练的模型来分析新数据集并执行一个或多个期望的机器学习任务。然而，对于给定的新数据集，识别选择哪个预训练的模型用于迁移学习可以直接影响一个或多个期望的机器学习任务的性能。

发明内容

以下呈现发明内容以提供对本发明的一个或多个实施例的基本理解。本发明内容不旨在识别关键或重要元素，或描绘特定实施例的任何范围或权利要求的任何范围。其唯一目的是以简化形式来呈现概念，以作为稍后呈现的更详细描述的序言。在这里描述的一个或多个实施例中，描述了可以自主地识别要被选择用于迁移学习的一个或多个预训练的神经网络以增强一个或多个机器学习任务的性能的系统、计算机实现的方法、装置和/或计算机程序产品。

根据一个实施例，提供了一种系统。该系统可以包括可以存储计算机可执行组件的存储器。该系统还可以包括处理器，该处理器可操作地耦接到存储器，并且可以执行存储在存储器中的计算机可执行组件。计算机可执行组件可以包括评估组件，该评估组件可以评估源数据集和来自目标机器学习任务的样本数据集之间的相似性度量。计算机可执行组件还可以包括识别组件，该识别组件可以基于相似性度量识别与源数据集相关联的预训练的神经网络模型以执行目标机器学习任务。

根据一个实施例，提供了一种计算机实现的方法。该计算机实现的方法可以包括由可操作地耦接到处理器的系统评估源数据集和来自目标机器学习任务的样本数据集之间的相似性度量。而且，计算机实现的方法可以包括由系统基于相似性度量来识别与源数据集相关联的预训练的神经网络模型以执行目标机器学习任务。

根据一个实施例，提供了一种计算机程序产品，该计算机程序产品可以促进使用预训练的神经网络模型来增强目标机器学习任务的性能。该计算机程序产品可以包括具有随其而体现的程序指令的计算机可读存储介质。该计算机指令可以由处理器执行以使处理器由可操作地耦接到处理器的系统评估源数据集和来自目标机器学习任务的样本数据集之间的相似性度量。而且，该程序指令还可以使处理器由系统基于相似性度量识别与源数据集相关联的预训练的神经网络模型以执行目标机器学习任务。

附图说明

该专利或申请文件包含至少一幅彩色图。在请求和支付必要费用后，专利局将提供具有彩色图的本专利或专利申请公开的副本。

图1示出了根据这里描述的一个或多个实施例的示例的非限制性系统的框图，该系统可以促进选择用于迁移学习的一个或多个预训练的神经网络模型，该一个或多个预训练的神经网络模型可以增强一个或多个机器学习任务的性能。

图2示出了根据这里描述的一个或多个实施例的示例的非限制性系统的框图，该系统可以促进选择用于迁移学习的一个或多个预训练的神经网络模型，该一个或多个预训练的神经网络模型可以增强一个或多个机器学习任务的性能。

图3示出了根据这里描述的一个或多个实施例的示例的非限制性神经结构的示意图，该神经结构可以由系统利用以促进选择用于迁移学习的一个或多个预训练的神经网络模型，该一个或多个预训练的神经网络模型可以增强一个或多个机器学习任务的性能。

图4A示出了根据这里描述的一个或多个实施例的示例的非限制性图形的示意图，该图形可以描绘迁移模型的选择可以如何影响机器学习任务的性能。

图4B示出了根据这里描述的一个或多个实施例的示例的非限制性图形的图，该图形可以描绘关于机器学习任务的性能增强的一个或多个预测，其中该一个或多个预测可以由系统生成，这可以促进选择用于关于机器学习任务的迁移学习的一个或多个预训练的神经网络模型。

图5示出了根据这里描述的一个或多个实施例的示例的非限制性图表的示意图，该图表可以描绘可以由系统生成的一个或多个相似性度量，以促进选择用于迁移学习的一个或多个预训练的神经网络模型，该一个或多个预训练的神经网络模型可以增强一个或多个机器学习任务的性能。

图6示出了根据这里描述的一个或多个实施例的示例的非限制性图形的示意图，该图形可以表示可以由系统生成的可视化，以促进选择用于迁移学习的一个或多个预训练的神经网络模型，该一个或多个预训练的神经网络模型可以增强一个或多个机器学习任务的性能。

图7A示出了根据这里描述的一个或多个实施例的示例的非限制性图形的示意图，该图形可以描绘可以由系统生成的迁移学习性能预测，以促进选择用于迁移学习的一个或多个预训练的神经网络模型，以增强一个或多个机器学习任务的性能。

图7B示出了根据这里描述的一个或多个实施例的示例的非限制性图形的示意图，该图形可以描绘可以由系统生成的迁移学习性能预测，以促进选择用于迁移学习的一个或多个预训练的神经网络模型，以增强一个或多个机器学习任务的性能。

图7C示出了根据这里描述的一个或多个实施例的示例的非限制性图形的示意图，该图形可以描绘可以由系统生成的迁移学习性能预测，以促进选择用于迁移学习的一个或多个预训练的神经网络模型，以增强一个或多个机器学习任务的性能。

图8示出了根据这里描述的一个或多个实施例的示例的非限制性图形的示意图，该图形可以描绘可以由系统生成的迁移学习性能预测，以促进选择用于迁移学习的一个或多个预训练的神经网络模型，以增强一个或多个机器学习任务的性能。

图9示出了根据这里描述的一个或多个实施例的可以描绘视觉定制学习工作负载的分布的示例的非限制性饼图的示意图。

图10示出了根据这里描述的一个或多个实施例的示例的非限制性方法的流程图，该方法可以促进选择用于迁移学习的一个或多个预训练的神经网络模型，该一个或多个预训练的神经网络模型可以增强一个或多个机器学习任务的性能。

图11示出了根据这里描述的一个或多个实施例的示例的非限制性方法的流程图，该方法可以促进选择用于迁移学习的一个或多个预训练的神经网络模型，该一个或多个预训练的神经网络模型可以增强一个或多个机器学习任务的性能。

图12描绘了根据这里描述的一个或多个实施例的云计算环境。

图13描绘了根据这里描述的一个或多个实施例的抽象模型层。

图14示出了在其中可以促进这里描述的一个或多个实施例的示例的非限制性操作环境的框图。

具体实施方式

以下详细描述仅是说明性的，并不旨在限制实施例和/或实施例的应用或使用。此外，不旨在受前述背景技术或发明内容部分或具体实施方式部分中呈现的任何明示或暗示的信息的约束。

现在参考附图描述一个或多个实施例，其中相似的附图标记始终用于指代相似的元素。在以下描述中，出于解释的目的，阐述了许多具体细节以便提供对一个或多个实施例的更透彻的理解。然而，明显的是，在各种情况下，可以在没有这些具体细节的情况下实践一个或多个实施例。

本发明的各种实施例可以涉及计算机处理系统、计算机实现的方法、装置和/或计算机程序产品，该计算机处理系统、计算机实现的方法、装置和/或计算机程序产品促进高效、有效和自主(例如，无直接的人工指导的)识别、创建、和/或选择用于迁移学习的一个或多个预训练的神经网络模型以增强一个或多个目标机器学习任务的性能。一个或多个实施例可以关于将一个或多个预训练的神经网络模型的一个或多个源数据集和与一个或多个目标机器学习任务相关联的一个或多个目标数据集进行比较，以评估一个或多个相似性度量。而且，一个或多个实施例可以关于基于一个或多个相似性度量来识别一个或多个预训练的神经网络模型中的哪一个可以最大程度地增强一个或多个目标机器学习任务的性能。在一个或多个实施例中，可以从模型库中识别一个或多个预定义的神经网络模型，和/或各种实施例可以关于从一个或多个预先存在的模型的一个或多个特征中生成一个或多个预训练的神经网络模型。此外，一个或多个实施例可以包括自主地选择一个或多个识别的预定义的神经网络模型和/或使用一个或多个识别的和/ 或选择的神经网络模型自主地执行一个或多个目标机器学习任务。

计算机处理系统、计算机实现的方法、装置和/或计算机程序产品采用硬件和/或软件来解决本质上具有高度技术性的(例如，识别、创建和/或选择用于迁移学习的一个或多个预训练的神经网络模型，以增强一个或多个目标机器学习任务的性能)不是抽象的并且不能由人作为一组心理行为来执行的问题。例如，个体或甚至多个个体不能容易且高效地分析各种预训练的神经网络模型可以对于经受迁移学习的给定机器学习任务具有的对性能的潜在影响。另外，这里描述的一个或多个实施例可以利用本质上自主的AI技术，以促进人类不能容易地执行的确定和/或预测。

如这里所使用的，术语“机器学习任务”可以指应用AI技术以自动地和/或自主地从经验(例如，训练数据)中学习和/或改进，而无需对所学习的/或改进的课程(lesson)进行明确的编程。例如，机器学习任务可以利用一个或多个算法来促进监督的和/或无监督的学习以执行诸如分类、回归和/或聚类之类的任务。

如这里所使用的，术语“神经网络模型”可以指可以用于促进一个或多个机器学习任务的计算机模型，其中该计算机模型可以模拟多个互连的处理单元，该多个互连的处理单元可以类似于神经元的抽象版本。例如，处理单元可以被布置在通过不同连接强度(例如，其在本领域中通常称为“权重”)连接的多个层(例如，一个或多个输入层、一个或多个隐藏层和/或一个或多个输出层)中。神经网络模型可以通过训练来学习，其中将具有已知结果的数据输入到计算机模型中，将关于该数据的输出与已知结果进行比较，和/或基于该比较来自主调整计算机模型的权重以再现已知结果。如这里所使用的，术语“训练数据”可以指用于训练一个或多个神经网络模型的数据和/或数据集。当神经网络模型训练(例如，利用更多训练数据)时，计算机模型可以变得越来越准确；因此，经训练的神经网络模型可以基于从训练数据中学习的课程来准确地分析具有未知结果的数据，以促进一个或多个机器学习任务。示例的神经网络模型可以包括但不限于：感知器 (“P”)、前馈(“FF”)、径向基网络(“RBF”)、深度前馈(“DFF”)、回归神经网络(“RNN”)、长/短时记忆(“LSTM”)、门控回归单元 (“GRU”)、自编码器(“AE”)、变分AE(“VAE”)、降噪AE(“DAE”)、稀疏AE(“SAE”)、马尔可夫链(“MC”)、霍普菲尔德网络(“HN”)、玻尔兹曼机(“BM”)、深度信念网络(“DBN”)、深度卷积网络 (“DCN”)、卷积神经网络(“CNN”)、反卷积网络(“DN”)、深度卷积逆向图网络(“DCIGN”)、生成对抗网络(“GAN”)、液体状态机(“LSM”)、极限学习机(“ELM”)、回声状态网络(“ESN”)、深度残差网络(“DRN”)、科霍恩网络(“KN”)、支持向量机(“SVM”) 和/或神经图灵机(“NTM”)。

如这里所使用的，术语“迁移模型”可以指被预训练并且可以被利用在一个或多个迁移学习过程中的一个或多个神经网络模型，其中新数据集可以由一个或多个迁移模型分析以执行一个或多个机器学习任务。迁移模型可以是从神经网络模型库中选择的预先存在的模型和/ 或可以被生成。例如，可以从一个或多个预先存在的、预训练的神经网络模型的组合和/或改变来生成迁移模型。另外，迁移模型可以包括预训练的神经网络模型，该预训练的神经网络模型基于要由一个或多个主题机器学习任务分析的新数据的一个或多个特性进行微调。

图1示出了根据这里描述的一个或多个实施例的示例的非限制性系统100的框图，该系统100可以识别和/或选择一个或多个预训练的迁移模型以增强一个或多个机器学习任务的性能。为简洁起见，省略了对这里描述的其他实施例中采用的类似元件的重复描述。本发明的各种实施例中的系统(例如，系统100等)、装置或过程的各方面可以构成在一个或多个机器内体现(例如，体现在与一个或多个机器相关联的一个或多个计算机可读介质(或媒介)中)的一个或多个机器可执行组件。当由一个或多个机器(例如，计算机、计算设备、虚拟机等)执行时，这样的组件可以使机器执行所描述的操作。

如图1所示，系统100可以包括一个或多个服务器102、一个或多个网络104和/或一个或多个输入设备106。服务器102可以包括迁移学习组件108。迁移学习组件108还可以包括接收组件110、评估组件112和/或识别组件114。此外，服务器102可以包括至少一个存储器116或以其他方式与至少一个存储器116相关联。服务器102还可以包括系统总线118，该系统总线118可以耦接到各种组件，诸如但不限于迁移学习组件108和相关联的组件、存储器116和/或处理器 120。虽然图1中示出了服务器102，但是在其他实施例中，各种类型的多个设备可以与图1中所示的特征相关联或者包括图1中所示的特征。此外，服务器102可以经由一个或多个网络104与云计算环境通信。

一个或多个网络104可以包括有线和无线网络，包括但不限于蜂窝网络、广域网(WAN)(例如，因特网)或局域网(LAN)。例如，服务器102可以使用几乎任何期望的有线或无线技术与一个或多个输入设备106通信(反之亦然)，该有线或无线技术例如包括但不限于：蜂窝、WAN、无线保真(Wi-Fi)、Wi-Max、WLAN、蓝牙技术、其组合和/或类似物。此外，尽管在所示的实施例中可以在一个或多个服务器102上提供迁移学习组件108，但是应当理解，系统100的架构不限于此。例如，迁移学习组件108或迁移学习组件108的一个或多个组件可以位于另一计算机设备处，诸如另一服务器设备、客户端设备等。

一个或多个输入设备106可以包括一个或多个计算机化设备，其可以包括但不限于：个人计算机、台式计算机、便携式计算机、蜂窝电话(例如，智能电话)、(例如，包括处理器的)计算机化平板电脑、智能手表、键盘、触摸屏、鼠标、其组合和/或类似物。系统100的用户可以利用一个或多个输入设备106将数据输入到系统100中，从而 (例如，经由直接连接和/或经由一个或多个网络104)与服务器102 共享所述数据。例如，一个或多个输入设备106可以(例如，经由直接连接和/或经由一个或多个网络104)将数据发送到接收组件110。另外，一个或多个输入设备106可以包括可以将由系统100生成的一个或多个输出呈现给用户的一个或多个显示器。例如，一个或多个显示器可以包括但不限于：阴极管显示器(“CRT”)、发光二极管显示器 (“LED”)、电致发光显示器(“ELD”)、等离子体显示面板(“PDP”)、液晶显示器(“LCD”)、有机发光二极管显示器(“OLED”)、其组合和/或类似物。

系统100的用户可以利用一个或多个输入设备106和/或一个或多个网络104将一个或多个目标数据集输入到系统100中。一个或多个目标数据集可以包括要由一个或多个目标机器学习任务分析的未知的数据分布。目标数据集可以包括各种类型的数据，其可以表示一种或多种形式的媒介中的信息。例如，目标数据集可以包括表示但不限于以下各项的数据：图像(例如，照片、地图、绘图、绘画和/或类似物)、文本(例如，消息、书籍、文献、标记、百科全书、词典、词库、合同、法律、章程、脚本和/或类似物)、视频(例如，视频片段、电影、戏剧和/或类似物)、录音、音频信号、标签、语音、对话、人、运动、工具、水果、织物、建筑物、家具、服装、音乐、自然、植物、树木、菌类、食品、动物、知识库、其组合和/或类似物。本领域普通技术人员将容易认识到，目标数据集可以包括任何类型的计算机数据，并且可以表示各种主题。因此，这里描述的各种实施例不限于对数据的特定类型和/或数据源的分析。在一个或多个实施例中，一个或多个输入设备106可以促进经由一个或多个接口(例如，应用编程接口和/ 或因特网接口)和/或云计算环境输入目标数据集。

在一个或多个实施例中，迁移学习组件108可以分析一个或多个目标数据集以识别可以用作迁移模型的一个或多个预训练的神经网络模型以增强一个或多个目标机器学习任务的性能。另外，在一个或多个实施例中，迁移学习组件108可以分析一个或多个目标数据集以从预训练的神经网络模型生成一个或多个迁移模型，以增强一个或多个目标机器学习任务的性能。此外，在各种实施例中，迁移学习组件108 可以促进选择一个或多个识别的和/或生成的迁移模型以执行一个或多个目标机器学习任务。

接收组件110可以经由一个或多个输入设备106接收由系统100 的用户输入的数据。接收组件110可以直接(例如，经由电连接)或间接地(例如，经由一个或多个网络104)可操作地耦接到一个或多个输入设备106。另外，接收组件110可以直接(例如，经由电连接) 或间接地(例如，经由一个或多个网络104)可操作地耦接到服务器 102的一个或多个组件(例如，与迁移学习组件108、系统总线118、处理器120和/或存储器116相关联的一个或多个组件)。在一个或多个实施例中，由接收组件110接收的一个或多个目标数据集可以被(例如，直接或间接地)传送到评估组件112和/或可以被存储在(例如，位于服务器102上和/或在云计算环境内的)存储器116中。

评估组件112可以从一个或多个目标数据集中提取一个或多个样本数据集。此外，评估组件112可以通过一个或多个预训练的神经网络模型在前向传递(forward pass)中传递一个或多个样本数据集。一个或多个预训练的神经网络模型可以例如被包括在模型库122内，其中模型库122可以被存储在(例如，经由一个或多个网络104可访问的)云计算环境和/或存储器116中。因此，一个或多个预训练的神经网络模型可以生成表征一个或多个样本数据集的相应特征描述符 (例如，特征向量)。例如，一个或多个相应特征描述符可以由相应的预训练的神经网络模型的一个或多个层输出。在一个或多个实施例中，评估组件112可以使用特征提取器来提取一个或多个特征描述符以计算目标特征表示。

此外，一个或多个相应的预训练的神经网络模型可以生成表征一个或多个源数据集的相应特征描述符(例如，特征向量)。如这里所使用的，术语“源数据集”可以指用于训练主题神经网络模型的数据集。一个或多个相应特征描述符可以是关于一个或多个源数据集的来自相应的预训练的神经网络模型的一个或多个层的输出。在一个或多个实施例中，评估组件112可以使用特征提取器来提取可以表征一个或多个源数据集的一个或多个特征描述符。此外，评估组件112可以使用一种或多种统计聚合技术(例如，取平均、码本的利用、标准偏差、中值平均值和/或类似物)来聚合表征源数据集的多个特征描述符。例如，评估组件112可以提取预训练的神经网络模型的一个或多个层的一个或多个输出作为特征描述符。此外，对于包括预训练的神经网络模型的相应类别，评估组件112可以对表征相应类别内的源数据集的特征描述符进行平均以计算类别特征表示。例如，评估组件112可以使用预训练的神经网络模型(例如，CNN)的层(例如，包括CNN 的任何一个或多个层，诸如倒数第二层)的输出作为特征向量并计算每个类别的平均特征向量作为类别特征表示。

因此，评估组件112可以执行特征提取以计算关于所评估的每个相应的预训练的神经网络模型的一个或多个目标特征表示和/或一个或多个源特征表示。一个或多个目标特征表示可以相对于给定的预训练的神经网络模型表征一个或多个样本数据集。一个或多个源特征表示可以相对于给定的预训练神经网络模型表征一个或多个源数据集。此外，可以从相应的预训练的神经网络模型中的各种特征空间和/或级别计算一个或多个目标特征表示和/或一个或多个源特征表示。

另外，评估组件112可以评估一个或多个目标特征表示与一个或多个源特征表示之间的一个或多个相似性度量。例如，评估组件112 可以利用一种或多种距离计算技术来评估一个或多个目标特征表示和 /或一个或多个源特征表示之间的相似性和/或相异性。示例性距离计算技术可以包括但不限于：Kullback-Leibler散度(“KL-散度”)、欧几里德距离(“L2距离”)、余弦相似性、曼哈顿距离、明可夫斯基距离、杰卡德相似性、简森香农距离、卡方距离、其组合和/或类似物。本领域普通技术人员将认识到，大量的距离计算技术可适用于这里所述的各种实施例。因此，一个或多个相似性度量可以指示一个或多个样本数据集与一个或多个源数据集有多相似和/或不相似，并且从而指示目标数据集与一个或多个源数据集有多相似和/或不相似。例如，一个或多个相似性度量可以在相应的预训练的神经网络模型中的不同特征空间和/或不同级别比较一个或多个样本数据集和/或一个或多个源数据集。例如，一个或多个相似性度量可以在类别级别和/或标签级别比较一个或多个样本数据集和/或一个或多个源数据集。一个或多个相似性度量可以存储在(例如，位于经由一个或多个网络104可访问的云计算环境和/或服务器102上的)存储器116中。

识别组件114可以比较关于所评估的预训练的网络模型的相似性度量，以识别所评估的预训练的网络模型中的哪一个最适合一个或多个目标数据集，并从而提供目标机器学习任务的最大增强。例如，在其中评估组件112评估模型库122的情况下(例如，为包括在模型库 122内的一个或多个预训练的神经网络模型计算相似性度量)，识别组件114可以基于评估的相似性度量识别包括在模型库122内的一个或多个预训练的神经网络模型。在一个或多个实施例中，识别组件114 可以基于相似性度量识别与其他评估的预训练的神经网络模型相比可以具有与目标数据集最密切的关联的一个或多个评估的预训练的神经网络模型。因此，识别组件114可以基于所评估的相似性度量来识别一个或多个预训练的神经网络模型，该一个或多个预训练的神经网络模型可以最好地用作迁移模型以分析一个或多个目标数据集并且增强一个或多个目标机器学习任务的性能。

在一个或多个实施例中，识别组件114可以基于相似性度量和相似性阈值识别来自模型库122的一个或多个预训练的神经网络模型以用作一个或多个迁移模型。例如，识别组件114可以基于相似性度量彼此的比较和与相似性阈值的比较来识别一个或多个预训练的神经网络模型。相似性阈值可以由系统100的用户(例如，经由一个或多个输入设备106和/或网络104)定义，并且可以表示如下最小度量：相应的相似性度量必须满足该最小度量以使相关联的预训练的神经网络模型有资格用于识别。

在各种实施例中，识别组件114可以从多个现有的预训练的神经网络模型中生成一个或多个新的预训练的神经网络模型。例如，在其中所评估的预训练的神经网络模型都没有由大于相似性阈值的相似性度量来表征的情况下，所评估的预训练的神经网络模型中的两个或更多个(例如，基于相似性度量与一个或多个目标数据集最相似的预训练的神经网络模型)可以被用于生成新的预训练的神经网络模型。为了生成一个或多个新的预训练的神经网络模型，识别组件114可以将从多个预先存在的、预训练的神经网络模型中的每一个中提取的不同层的混合组成为神经网络模型。相应的预训练的神经网络模型的不同层可以具有不同的相似性度量；因此，识别组件114可以将与一个或多个目标数据集最相似(例如，由相似性度量表征)的第一预训练的神经网络模型的一个或多个第一层和与一个或多个目标数据集最相似 (例如，由相似性度量表征)的第二预训练的神经网络模型的一个或多个第二层混合。一个或多个第一层和一个或多个第二层的所述混合可以包括对一个或多个特征向量进行重新加权以构建新的预训练的神经网络模型。基于相似性度量，所混合的第一层和第二层的所得到的合成物可以比第一层和第二层所源自的预先存在的预训练的神经网络模型更加类似于一个或多个目标数据集。例如，识别组件114可以将来自预训练的食物神经网络模型的一个或多个食物特征与一个或多个动物学习标签组合以创建新的预训练的宠物食物神经网络模型。识别组件114还可以将新的预训练的神经网络模型识别为用于一个或多个目标机器学习任务的优选迁移模型。

在一个或多个实施例中，识别组件114可以合并不同域的一个或多个预先存在的神经网络模型，以生成一个或多个新的预训练的神经网络模型。例如，可以(例如，通过识别组件114)将一个或多个基于知识的预训练的神经网络模型与一个或多个基于视觉的预训练的神经网络模型合并，以生成一个或多个新的混合的预先训练的神经网络模型。例如，包括在基于视觉的预训练的神经网络模型内的一个或多个图像可以具有基于视觉的预训练的神经网络模型没有描述的一个或多个相关联的知识标签。所述知识标签可用于在基于知识的预训练的神经网络模型中执行分析过程。来自基于视觉的预训练的神经网络模型层的相应数据流和基于知识的预训练的神经网络模型可以合并在单个层(例如，单个soft-max(软性最大)层)内以产生多模态输出。

在一个或多个实施例中，识别组件114可以生成描绘一个或多个相似性度量和/或一个或多个所识别的预训练的神经网络模型(例如，预先存在的预训练的神经网络模型或生成的新的预训练的神经网络模型)的一个或多个图表、示意图和/或图谱。生成的图表、示意图和/ 或图谱可以(例如，经由一个或多个输入设备106和/或一个或多个网络104)被呈现(例如，显示)给系统100的用户，以促进用户选择用于迁移学习的一个或多个预训练的神经网络模型。在一个或多个实施例中，识别组件114可以自主地选择一个或多个所识别的预训练的神经网络模型(例如，预先存在的、预训练的神经网络模型或生成的新的预训练的神经网络模型)用作一个或多个迁移模型，以增强一个或多个目标机器学习任务的性能。此外，识别组件114可以(例如，经由一个或多个输入设备106和/或一个或多个网络104)向系统100 的用户呈现(例如，显示)一个或多个生成的图表、示意图和/或图谱作为自主选择的解释。

此外，在各种实施例中，识别组件114可以执行一个或多个数据处理步骤，该一个或多个数据处理步骤可以例如微调所识别的预训练的神经网络模型中的一个或多个。示例的处理步骤可以包括但不限于：数据归一化、数据旋转、数据缩放、其组合和/或类似物。

因此，迁移学习组件108可以估计与基于其他源数据集和/或随机初始化权重的训练相比，用于学习用于迁移到目标数据集的初始权重的特定源数据集将带来的性能变化。例如，在一个或多个实施例中，迁移学习组件108可以在一个或多个样本数据集和源数据集的集合上迭代所有可能的迁移场景“M(t_i,s_j)”。对于一个或多个目标数据集和/ 或源数据集中的每对“(t_i,s_j)”，可以根据下面的公式1测量在每个场景中通过迁移获得的性能改进(例如，提高的准确性)。

I(t_i，s_j)＝P(M(t_i，s_j))-P(M(t_i，φ)) (1)

其中“P()”可以定义性能评估(例如，准确性)，“φ”可以表示零数据集(例如，随机初始化的权重)，并且“I(t_i，s_j)”可以是从源数据集“s_j”到目标数据集“ti”的迁移的所测量的性能改进。然后，选择最佳源数据集可以通过下面的公式2来表征，其中“S”可以表示最佳源数据集。

另外，根据这里描述的各种特征提取、聚合和/或评估，迁移学习组件108可以利用例如下面呈现的公式3-5。

E(t_i，s_i)∝I (3)

E(t_i，s_j)＝D[A(F(t_i))，A(F(s_j))] (5)

其中“D()”可以是距离度量，并且“A()”可以是统计聚合技术，以将单独的数据实例“F()”的集合组合成表示整个主题数据集的向量。例如，“F(t_i)”可以是关于包含在目标数据集中的图像的一组特征向量，并且“A(F(t_i))”可以是那些特征向量的平均值。作为另一示例，“F(t_i)” 可以是关于目标数据集中的图像的一组尺度不变特征变换(“SIFT”)特征，并且“A(F(t_i))”可以对应于码本直方图。

例如，迁移学习组件108可以将“F(t_i)”作为神经网络模型的倒数第二层的输出，并且可以根据下面的公式6将“A(F(t_i))”作为平均值。

其中“t_ik”可以是目标数据集的第k个数据(例如图像)，“f()” 可以是特征嵌入函数，并且“N”可以是主题数据集中的样本数。

关于“D()”，迁移学习组件108(例如，经由评估组件112)可以使用一种或多种距离计算技术(例如，KL-散度、L2距离、余弦相似性、曼哈顿距离、明可夫斯基距离、杰卡德相似性、简森香农距离、其组合和/或类似物)来计算可以根据经验设计和/或可以考虑数据集大小以及数据集中的统计差异的一个或多个变型(variation)。例如，可以根据下面的公式7计算“D()”。

其中“(μ_kl，s，σ_kl，s)”可以是KL散度或其他距离计算技术的均值和标准偏差，以及源数据集大小和“α_kl，s”可以是可以改变每个项达到饱和的速度的学习到的参数。

相似性和/或数据集大小可以是影响得到的迁移性能的方面，并且其各自的影响可以通过S形来良好地近似，其中S形可以反映每个项的非线性性质和/或迫使两个方面的尺度可以被控制和/或在数学上表现良好。例如，在公式7中，第一项可以考虑相似性方面，第二项可以考虑源数据集大小方面。本领域普通技术人员将认识到，虽然上述示例性运算利用了近似函数的工程设计方法，但是这里描述的各种实施例可以用于明确地学习线性和/或非线性函数以近似“I”。

图2示出了根据这里描述的一个或多个实施例的示例的非限制性系统100的框图，该系统100还包括训练组件202。为简洁起见，省略了对在此描述的其他实施例中采用的相似元件的重复描述。

一旦选择了识别的预训练的神经网络模型(例如，预先存在的、预训练的神经网络模型或生成的预训练的神经网络模型)(例如，通过自主选择一个或多个识别的预训练的神经网络模型或通过用户选择一个或多个识别的预训练的神经网络模型)，训练组件202可以在所选择的预训练的神经网络模型上使用一个或多个目标数据集来执行最终训练步骤。在一个或多个实施例中，训练组件202可以使用一个或多个目标数据集和/或所选择的迁移模型(例如，识别的预训练的神经网络模型)自主地执行一个或多个目标机器学习任务.

在一个或多个实施例中，针对视觉机器学习任务，迁移学习组件 108(例如，经由评估组件112)可以使用例如VGG16预训练的神经网络模型作为特征提取机器。VGG16预训练的神经网络模型可以包括 5块卷积层，接着是3个全连接层。例如，倒数第二全连接层可用于提取所学习的空间和/或全连接层之前的层中的特征，以提取图像空间中的特征。例如，给出具有M(m₁,m₂,…m_k)图像的域，评估组件 112可以通过收集来自特征提取机器的输出来为域中的每个图像生成特征向量V(v₁,v₂,…v_k)。此外，评估组件112可以计算向量的平均值以生成可以表示主题域的特征的原始平均特征向量。为了计算KL- 散度，评估组件112可以将L1-归一化应用于原始平均向量和/或同时为源数据集和目标数据集添加具有epsilon＝1e-12的原始平均向量以避免除以零的情况。

在一个或多个实施例中，针对知识库填充(“KBP”)机器学习任务，迁移学习组件108可以利用例如CC-DMP数据集、Common Crawl (公共抓取)的文本和/或来自DBpedia的知识模式和/或训练数据。 DBpedia是从维基百科的信息框中提取的知识图谱，其中信息框的字段可以映射到知识模式中。知识模式还可以包括关系的层次结构和/ 或可以将基本关系分组为更抽象的更高级关系。一个示例是 hasMember(具有成员)/isMemberOf(是其成员)关系，它可以对诸如雇主、乐队成员的关系进行分组。

DBpedia知识图谱中的边可以是例如<Larry McCray genre Blues(Larry McCray流派蓝调)>，这意味着Larry McCray是蓝调音乐家。这种关系可以通过DBpedia genre(流派)关系表示，该 DBpedia genre关系是高级别关系isClassifiedBy(被分类为)的一个子关系。KBP的任务可以是从自变量的文本记载中预测这样的关系。例如，连接两个自变量的唯一上下文可以是，例如，句子“如果你对蓝调有兴致，Larry McCray就是周六头条新闻。”

另外，知识图谱中的两个节点之间的关系可以从整个文本证据集中预测，而不是分别从每个句子预测。例如，驯鹿咖啡和明尼苏达可以通过位置(location)关系连接，这是由它们共同出现的上下文强烈表明的事实，如下所示。

·入口两侧是驯鹿咖啡店，明尼苏达版的星巴克。

·许多其他基于明尼苏达的品牌，从3M到驯鹿咖啡，都试图向明尼阿波利斯本地人Prince致敬。

例如，迁移学习组件108可以将知识库填充分成填充公共高级关系的一定数量的子任务(例如，七个)，并且忽略这些子任务外部的关系。例如，迁移学习组件108可以使用DBpedia关系分类法，采用在 CC-DBP中具有最正例的示例的该数量(例如，七个)的高级关系，这可以类似于通过高级类别对ImageNet的分割。

迁移学习组件108(例如，经由评估组件112和/或识别组件114) 还可以测量子任务允许迁移学习到什么程度。例如，深度神经网络模型可以在源域上进行训练，然后在目标域上进行微调。微调可以涉及将最终层重新初始化为随机。此外，最终层还可以是不同的形状，因为不同的域可以具有不同数量的关系。最终层可以以完全学习速率 “α”更新，而先前的层可以以f·α(f<1)更新，其中可以使用例如f＝0.1 的微调乘数。特征表示可以从例如倒数第二层和/或最大池化网中网当中获取。

例如，图3示出了根据这里描述的一个或多个实施例的示例的非限制性神经架构300的示意图，该神经架构300可以由系统100用于二进制关系提取。为简洁起见，省略了对这里描述的其他实施例中采用的相似元件的重复描述。如图3所示，示例性神经结构300可以包括词向量302(例如，其可以通过word2vec预训练)、位置嵌入304 (例如，其可以编码每个词到每个自变量的距离)、CNN 306(例如，其可以应用于每个句子表示)、分段最大池308(例如，其可以最大池化对于句子的每个片段的CNN 306输出：在第一个自变量之前、在自变量之间、以及在最后一个自变量之后)、第一全连接层310(例如，其可以产生最终句向量表示)、网中网312(例如，其可以使用宽度-1 的CNN针对句向量进行聚合)、简单最大池314(例如，其可以将聚合聚集到固定长度向量)、向量表示316(例如，用于域计算之间的距离和/或用于向量平均的上下文集合)、第二全连接层318(例如，其可以将上下文集合表示变换为对于每个关系的预测)和/或关系预测320 (例如，其可以给出对于每个关系的概率)。此外，下面呈现的表1 可以描绘可以在神经架构300中使用的超参数。

表1

超参数	值
		词嵌入	50
位置嵌入	5
		句向量	400
网中网过滤器	400
		CNN过滤器	1000
CNN过滤器宽度	3
		丢弃	0.5

为了说明这里描述的各种实施例的效能，系统100被用于分析基于视觉的神经网络模型和/或源数据集，诸如数据库ImageNet22k，其包含分布在1481个类别上的1400万个图像。这些类别分为若干层次结构，如动物、建筑物、织物、食物、水果、菌类、家具、服装、音乐、自然、人员、植物、运动、工具和/或车辆。为了说明系统100的效能，ImageNet22k沿着这些层次结构被分区以形成多个源数据集和/ 或目标数据集。这些数据集中的每一个被进一步划分为4个部分：第一部分用于训练源模型，第二部分用于验证源模型，第三部分用于创建迁移学习目标工作负载，并且第四部分用于验证迁移学习训练。例如，人员层次结构具有超过100万个图像，这100万个图像被划分成 4个相等的分区，每个分区大于25万个图像。使用该大小的数据训练源模型，并且使用该数据大小的十分之一的数据训练目标模型。

因此，生成了15个源工作负载和/或15个目标训练工作负载，然后将它们分组为两组。由运动、服装、植物和动物组成的第一组用于生成公式7的一个或多个参数，并且还用于确定哪种距离计算技术提供了对真实结果(ground truth)的最接近的预测。由食物、人员、自然、音乐、水果、织物和建筑物组成的第二组用于验证所述参数。此外，使用ResNet27神经网络模型对caffe(卷积神经网络框架)执行源模型和目标模型的训练。使用随机梯度下降(“SGD”)进行900,000 次迭代来训练源模型，其中步长大小为300,000次迭代，并且初始学习速率为0.01。在相同的神经网络模型上使用SGD以该迭代和步长大小的十分之一来训练目标模型。为了确保确定性，使用1337的随机种子进行训练。

图4A示出了根据这里描述的一个或多个实施例的示例的非限制性图表400的图，该示例的非限制性图表400可以描绘迁移模型的选择如何影响一个或多个目标机器学习任务的性能。为简洁起见，省略了对这里描述的其他实施例中采用的相似元件的重复描述。图表400 中描绘的条形呈现使用神经网络模型分析的与特定目标数据集(例如，动物目标数据集、植物目标数据集、自然目标数据集、工具目标数据集、水果目标数据集和/或运动目标数据集)相关联的准确性水平，该神经网络模型使用特定源数据集(例如，动物源数据集、植物源数据集、自然源数据集、工具源数据集、水果源数据集和/或运动源数据集)预训练。

例如，第一条形从左到右表示与使用利用水果源数据集预训练的神经网络模型分析的动物目标数据集相关联的准确性水平。第二条形从左到右表示与使用利用自然源数据集预训练的神经网络模型分析的动物目标数据集相关联的准确性水平。第六个条形从左到右表示与使用利用水果源数据集预训练的神经网络模型分析的植物目标数据集相关联的准确性水平。线402表示与在未预训练的神经网络模型上分析的目标数据集相关联的准确性水平。

如图表400所示，使用迁移模型并不总是增强机器学习任务的性能(例如，准确性)。例如，在使用水果源数据集预训练的神经网络模型上分析植物目标数据集可以导致准确性水平低于否则将在未训练的神经网络模型上分析植物目标数据集所得到的准确性水平(例如，如线402所示)。然而，在其他情况下，使用迁移模型可以导致机器学习任务的性能(例如，准确性)的实质增强。例如，在使用动物源数据集预训练的神经网络模型上分析植物目标数据集可以导致准确性水平高于否则将在未训练的神经网络模型上分析植物目标数据集所得到的准确性水平(例如，如线402所示)。

在各种实施例中，系统100可以促进识别和/或选择一个或多个预训练的神经网络模型(例如，预先存在的、预训练的神经网络模型或生成的预训练的神经网络模型)以用作可以增强一个或多个目标机器学习任务的性能(例如，准确性)的迁移模型。换句话说，系统100 可以促进用户识别和/或选择将增强性能特性的迁移模型和/或避免使用将使性能特性劣化的迁移模型。如经由图表400所示，系统100(例如，经由迁移学习组件108)可以估计与基于其他源数据集和/或随机初始化权重的训练相比，用于学习用于迁移到目标数据集的初始权重的特定源数据集将带来的性能变化。

图4B示出了可以描绘可以由系统100生成的关于潜在迁移模型选择的一个或多个性能(例如，准确性)预测的示例的非限制性图表 404的示意图。为简洁起见，省略了对这里描述的其他实施例中采用的相似元件的重复描述。在一个或多个实施例中，识别组件114可以生成示例性图表404以促进选择迁移模型和/或详细说明迁移模型的自主选择。

图表404可以关于与图表400中描绘的目标数据集和/或源数据集相同的目标数据集和/或源数据集。对于给定的预训练的神经网络模型，识别组件114可以预测与目标数据集的分析相关联的性能水平(例如，准确性)。例如，在关于动物目标数据集的由迁移学习组件108 评估(例如，经由评估组件112)的五个源数据集(例如，水果源数据集、自然源数据集、植物源数据集、运动源数据集和/或工具源数据集)中，识别组件114可以基于所评估的相似性度量来预测当使用迁移模型时在植物源数据集上训练的神经网络模型可以导致性能(例如，准确性)的最大增强。换句话说，识别组件114可以预测在植物源数据集上训练的神经网络模型可以比其他评估预训练的神经网络模型和 /或未训练的神经网络模型更准确地执行目标机器学习任务。图表400 和404的比较示出了由识别组件114做出的预测以及由此识别可以与实际性能特性紧密相关。示例性图表400和/或404和/或类似图表可以经由一个或多个输入设备106和/或一个或多个网络104呈现(例如，显示)给系统100的一个或多个用户。

图5示出了根据这里描述的一个或多个实施例的示例的非限制性图表500的示意图，该图表500可以描绘可以由系统100评估的相似性度量。为简洁起见，省略了对这里描述的其他实施例中采用的相似元件的重复描述。示例性图表500可以例如由识别组件114生成，以促进选择一个或多个识别的预训练的神经网络模型(例如，预先存在的、预训练的神经网络模型或生成的预训练的神经网络模型)和/或详细说明识别的预训练的神经网络模型的自主选择。如图5所示，项“_t” 可以表示目标数据集，并且项“_s”可以表示源数据集。可以使用例如KL-散度来计算图表500中描绘的相似性度量。此外，图表500的阴影单元格可以表示基于与所评估的预训练的神经网络模型相关联的相似性度量而对优选的预训练的神经网络模型的识别。例如，图表500 的“FABRIC_t”列中的阴影单元格可以指示识别组件114将使用服装源数据集预训练的神经网络模型识别为用于分析织物目标源数据集的优选的迁移模型。示例性图表500和/或类似图表可以经由一个或多个输入设备106和/或一个或多个网络104呈现(例如，显示)给系统100 的一个或多个用户。

图6示出了根据这里描述的一个或多个实施例的示例的非限制性图形600的示意图，该示例的非限制性图形600可以提供所评估的相似性度量以及/或者目标数据集和/或源数据集之间的关系的视觉表示。为简洁起见，省略了对这里描述的其他实施例中采用的相似元件的重复描述。示例性图形600可以例如由识别组件114生成，以促进选择一个或多个识别的预训练的神经网络模型(例如，预先存在的、预训练的神经网络模型或生成的预训练的神经网络模型)和/或详细说明所识别的预训练的神经网络模型的自主选择。图形600可以基于所评估的相似性度量描绘一个或多个目标数据集如何与一个或多个源数据集相关联。示例性图形600和/或类似图形可以经由一个或多个输入设备106和/或一个或多个网络104呈现(例如，显示)给系统100的一个或多个用户。

为了进一步说明系统100的效能，根据这里描述的一个或多个实施例分析了DBpedia。下面给出的表2示出了从DBpedia中提取的七个源域。

表2

在针对相关关系类型的完整训练数据上针对表2的域对模型进行训练。此外，为每个划分建立了一个新的小型训练集以形成目标域。训练集被构建为包含对于每种关系类型大约20个正例。对于每项任务从完整训练集中为每个关系取出二十个正例，或者如果存在少于二十个正例，则取出所有训练示例。此外，采样了十倍数量的负例。

然后，在目标域上对从不同子任务中的每个子任务的完整训练数据训练的模型进行微调。测量每个训练的模型的精确度/查全率曲线。另外，测量了在没有迁移学习的情况下训练的模型的精确度/查全率曲线下的面积。此外，迁移学习模型的性能由训练的模型的性能划分。在其中计算资源可用于训练从不同源迁移的多个模型的情况下，构建了一个整体(ensemble)。为了计算对整体的预测，对模型的分数进行平均。

对于七个目标域中的每一个，存在可以从其迁移的六种不同的源模型。被预测为具有最差性能的三个模型的整体与被预测为具有最佳性能的三个模型的整体进行比较。迁移性能在下面的表3中呈现，表 3示出了所有模型的整体导致最佳性能，但是考虑到仅可以选择三个模型来训练的限制，使用三个最高(top)预测优于使用三个最低 (bottom)预测。

表3

另外，图7A示出了可以基于一个或多个相似性度量描绘关于DBpedia分析的迁移学习改进的示例的非限制性图形700的示意图。为简洁起见，省略了对这里描述的其他实施例中采用的相似元件的重复描述。此外，图7B示出了可以基于相应数据集的大小描绘关于 DBpedia分析的迁移学习改进的示例的非限制性图形702的示意图。为简洁起见，省略了对这里描述的其他实施例中采用的相似元件的重复描述。此外，图7C示出了可以基于相似性方面和/或大小方面的组合来描绘关于DBpedia分析的迁移学习改进的示例的非限制性图形 706的示意图。为简洁起见，省略了对这里描述的其他实施例中采用的相似元件的重复描述。

图8示出了根据这里描述的一个或多个实施例的示例的非限制性折线图800的图，该示例的非限制性折线图800可以描绘各种距离计算技术可以如何影响系统100促进的一个或多个评估和/或确定。为简洁起见，省略了对这里描述的其他实施例中采用的相似元件的重复描述。

在一个或多个实施例中，距离测量可以从KL散度、简森香农距离、欧几里德距离和/或卡方距离中得到灵感。为了说明每个距离的有效性，单独的度量基于每种技术被创建，并被分别命名为MKL、MJS、 ME和MChi。为了确定哪种技术效果最好，对于训练数据集，针对给定源数据集和目标数据集的准确性来计算预测度量。然后对于目标通过斯皮尔曼等级相关(Spearmans Rank Correlation)对预测度量进行排序。然后，对通过根据组中的各种源数据集训练目标数据集中的每个目标数据集而获得的最高的1个真实结果准确性进行排序。对于每个目标，还通过斯皮尔曼等级相关对最高的1个准确性进行排序。

图8示出了随着公式7的各种α值而变化的最高的1个真实结果等级和预测等级的平均斯皮尔曼ρ(等级相关系数)。随着α增加，它可以放大任何噪声，因此它的上限为5。在该间隔中，MKL可能是最合适的。

此外，已经在真实的机器学习作业上验证了根据这里描述的一个或多个实施例生成的预测和/或识别的准确性。使用根据这里描述的各种实施例的系统100分析已经提交给商用机器学习服务的训练数据。例如，验证了基于公式7的计算而生成的一个或多个预测和/或识别的准确性，其中该一个或多个预测和/或识别关于来自候选神经网络模型集合的哪个神经网络模型对于目标数据集将是促进迁移学习的最佳起点。主题机器学习服务将带有分类标签的图像作为输入，并经由监督学习产生定制的分类器。

例如，从主题机器学习服务获得的71个训练作业被随机采样，将每组带有标签的图像分成80％用于微调并且20％用于验证。71个训练数据集包括总共18,000个图像，其中每个训练数据集平均204个训练图像，并且50个留存(held-out)验证图像。每个分类器平均有 5.2个类，跨分类器为2到60个类。将从ImageNet的子域训练的14 个神经网络模型用作用于迁移学习的候选神经网络模型，并且在所有 ImageNet-1K训练数据上训练附加的“标准”神经网络模型。对来自 15个初始神经网络模型中的每个神经网络模型的71个训练作业中的每一个进行微调，得到1065个神经网络模型。使用留存的20％的数据对每个神经网络模型的性能按照最高的1个准确性进行排序。

此外，为了评估目标数据集大小的影响，训练集对于每个被切成两半，并且在单独的微调实验中进行分析。因此，每个神经网络模型有102个训练图像，但是如果可用的训练图像少于15个，则不会尝试微调。因此，对71个训练作业中的53个进行分析，其中每个作业有 15个初始条件，从而产生附加的795个微调的神经网络模型，这些神经网络模型在相同的验证数据上用最高的1个准确性进行评估。

通过手动检查对于主题机器学习任务给出的标签和/或分类器名称，图9示出了主题集合中的图像数据类型的近似分解。为简洁起见，省略了对这里描述的其他实施例中采用的相似元件的重复描述。图9 示出了根据这里描述的一个或多个实施例的可以描绘视觉定制学习工作负载的分布的示例的非限制性饼图900的示意图。标记为“杂项 (misc)”的图9的部分可能是由于给出的许多标签是不清楚的和/或没有明显的语义含义的事实。图9中所示的高度多样性在现实世界的定制学习服务场景中是常见的，因为用户由于通用的神经网络模型不能解决他们试图解决的问题而尝试训练定制分类器。

图10示出了根据这里描述的一个或多个实施例的示例的非限制性方法1000的流程图，该示例的非限制性方法1000可以促进评估和/ 或识别一个或多个预训练的神经网络模型以用作用于一个或多个目标机器学习任务的迁移模型。为简洁起见，省略了对这里描述的其他实施例中采用的相似元件的重复描述。

在1002处，方法1000可以包括由操作性地耦接到处理器120的系统100(例如，经由评估组件112)评估一个或多个源数据集和/或来自一个或多个目标机器学习任务的一个或多个样本数据集之间的一个或多个相似性度量。在1002处的评估可以使用一个或多个距离计算技术来比较一个或多个源数据集和/或一个或多个样本数据集，如本文所述。

在1004处，方法1000可以包括由系统100基于一个或多个相似性度量(例如，经由识别组件114)识别与一个或多个源数据集相关联的一个或多个预训练的神经网络模型以执行一个或多个目标机器学习任务。在一个或多个实施例中，识别组件114可以生成要(例如，经由一个或多个输入设备106和/或一个或多个网络104)呈现给系统 100的用户的一个或多个图表、示意图和图谱，以促进选择迁移模型。一个或多个图表、示意图和图谱可以描绘例如由一个或多个相似性度量表征的一个或多个关系。在一个或多个实施例中，方法1000还可以包括(例如，经由识别组件114)选择一个或多个识别的预训练的神经网络模型以用作迁移模型，以分析一个或多个目标数据集。

图11示出了根据这里描述的一个或多个实施例的示例的非限制性方法1100的流程图，该示例的非限制性方法1100可以促进评估和/ 或识别一个或多个预训练的神经网络模型，以用作用于一个或多个目标机器学习任务的迁移模型。为简洁起见，省略了对这里描述的其他实施例中采用的相似元件的重复描述。

在1102处，方法1100可以包括由操作性地耦接到处理器120的系统100(例如，经由评估组件112)使用特征提取器来创建一个或多个源数据集的第一向量表示以及来自一个或多个目标机器学习任务的一个或多个样本数据集的第二向量表示。在1102处，特征提取器(例如，经由评估组件112)可以从一个或多个预训练的神经网络模型的一个或多个层提取一个或多个特征向量，以创建第一向量表示和/或第二向量表示。

在1104处，方法1100可以包括由系统100(例如，经由评估组件113)使用关于第一向量表示和/或第二向量表示的一个或多个距离计算技术来评估一个或多个源数据集和/或一个或多个样本数据集之间的一个或多个相似性度量。示例的距离计算技术可以包括但不限于： KL-散度、L2距离、余弦相似性、曼哈顿距离、明可夫斯基距离、杰卡德相似性、卡方距离、其组合等。在1104处，方法1100还可以包括(例如，经由识别组件114)比较一个或多个相似性度量以识别一个或多个评估的预训练的神经网络模型，该一个或多个评估的预训练的神经网络模型使用与一个或多个目标数据集类似的数据训练，和/ 或包括由大于相似性阈值的相似性度量表征的一个或多个源数据集。

在其中一个或多个预训练的神经网络模型可以通过大于相似性阈值的相关联的相似性度量来表征的情况下，方法1100在1106处可以包括由系统100基于一个或多个相似性度量(例如，经由识别组件 114)识别来自预先存在的模型库(例如，模型库122)的一个或多个预训练的神经网络模型，以执行一个或多个目标机器学习任务，其中预训练的神经网络模型与在1102和/或1104处评估的源数据集中的一个或多个源数据集相关联。例如，在1106处，方法1100可以包括基于一个或多个相似性度量将来自预先存在的神经网络模型库的一个或多个预训练的神经网络模型(例如，经由识别组件114)识别为优选的迁移模型，该一个或多个相似性度量可以将预训练的神经网络模型的源数据集与目标机器学习任务的样本数据集进行比较。例如，一个或多个识别的预训练的神经网络模型可以由系统100的用户选择和/ 或由识别组件114自主选择以执行一个或多个目标机器学习任务。

在其中所评估的一个或多个预训练的神经网络模型不能由大于相似性阈值的相关联的相似性度量来表征的情况下，方法1100在1108 处可以包括由系统100基于相似性度量使用第一预训练的神经网络模型的一个或多个源数据集和第二神经网络模型的一个或多个第二源数据集来(例如，经由识别组件114)生成一个或多个新的预训练的神经网络模型。例如，在1108处，方法1100可以包括基于与所述层相关联的相应的相似性度量来(例如，经由识别组件114)混合和/或合并来自第一神经网络模型的一个或多个层与来自附加的神经网络模型的一个或多个层。一个或多个新的预训练的神经网络模型可以是基于相似域的神经网络模型的组合或者基于不同域的神经网络模型的组合。

在1110处，方法1100可以包括由系统100(例如，经由识别组件114)识别在1108处生成的一个或多个神经网络模型以执行一个或多个目标机器学习任务。例如，一个或多个识别的预训练神经网络模型可以由系统100的用户选择和/或由识别组件114自主选择以执行一个或多个目标机器学习任务。

在1112处，方法1100可以包括由系统100使用来自一个或多个目标机器学习任务的一个或多个目标数据集在一个或多个识别和/或选择的预训练的神经网络模型上(例如，经由训练组件202)执行一个或多个训练步骤(pass)。另外，在一个或多个实施例中，方法1100 还可以包括使一个或多个识别的和/或选择的预训练的神经网络模型经受一个或多个处理步骤，以将主题预训练的神经网络模型微调到一个或多个目标数据集。示例处理步骤可以包括但不限于：数据归一化、数据旋转、数据缩放、其组合和/或类似物。

首先应当理解，尽管本公开包括关于云计算的详细描述，但其中记载的技术方案的实现却不限于云计算环境，而是能够结合现在已知或以后开发的任何其它类型的计算环境而实现。

云计算是一种服务交付模式，用于对共享的可配置计算资源池进行方便、按需的网络访问。可配置计算资源是能够以最小的管理成本或与服务提供者进行最少的交互就能快速部署和释放的资源，例如可以是网络、网络带宽、服务器、处理、内存、存储、应用、虚拟机和服务。这种云模式可以包括至少五个特征、至少三个服务模型和至少四个部署模型。

特征包括：

按需自助式服务：云的消费者在无需与服务提供者进行人为交互的情况下能够单方面自动地按需部署诸如服务器时间和网络存储等的计算能力。

广泛的网络接入：计算能力可以通过标准机制在网络上获取，这种标准机制促进了通过不同种类的瘦客户机平台或厚客户机平台(例如移动电话、膝上型电脑、个人数字助理PDA)对云的使用。

资源池：提供者的计算资源被归入资源池并通过多租户 (multi-tenant)模式服务于多重消费者，其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下，消费者不能控制或甚至并不知晓所提供的资源的确切位置，但可以在较高抽象程度上指定位置(例如国家、州或数据中心)，因此具有位置无关性。

迅速弹性：能够迅速、有弹性地(有时是自动地)部署计算能力，以实现快速扩展，并且能迅速释放来快速缩小。在消费者看来，用于部署的可用计算能力往往显得是无限的，并能在任意时候都能获取任意数量的计算能力。

可测量的服务：云系统通过利用适于服务类型(例如存储、处理、带宽和活跃用户帐号)的某种抽象程度的计量能力，自动地控制和优化资源效用。可以监测、控制和报告资源使用情况，为服务提供者和消费者双方提供透明度。

服务模型如下：

软件即服务(SaaS)：向消费者提供的能力是使用提供者在云基础架构上运行的应用。可以通过诸如网络浏览器的瘦客户机接口(例如基于网络的电子邮件)从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置外，消费者既不管理也不控制包括网络、服务器、操作系统、存储、乃至单个应用能力等的底层云基础架构。

平台即服务(PaaS)：向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用，这些应用利用提供者支持的程序设计语言和工具创建。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构，但对其部署的应用具有控制权，对应用托管环境配置可能也具有控制权。

基础架构即服务(IaaS)：向消费者提供的能力是消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其他基础计算资源。消费者既不管理也不控制底层的云基础架构，但是对操作系统、存储和其部署的应用具有控制权，对选择的网络组件(例如主机防火墙)可能具有有限的控制权。

部署模型如下：

私有云：云基础架构单独为某个组织运行。云基础架构可以由该组织或第三方管理并且可以存在于该组织内部或外部。

共同体云：云基础架构被若干组织共享并支持有共同利害关系 (例如任务使命、安全要求、政策和合规考虑)的特定共同体。共同体云可以由共同体内的多个组织或第三方管理并且可以存在于该共同体内部或外部。

公共云：云基础架构向公众或大型产业群提供并由出售云服务的组织拥有。

混合云：云基础架构由两个或更多部署模型的云(私有云、共同体云或公共云)组成，这些云依然是独特的实体，但是通过使数据和应用能够移植的标准化技术或私有技术(例如用于云之间的负载平衡的云突发流量分担技术)绑定在一起。

云计算环境是面向服务的，特点集中在无状态性、低耦接性、模块性和语意的互操作性。云计算的核心是包含互连节点网络的基础架构。

现在参考图12，描绘了说明性云计算环境1200。为简洁起见，省略了对这里描述的其他实施例中采用的相似元件的重复描述。如图所示，云计算环境1200包括云计算消费者使用的本地计算设备可以与其相通信的一个或者多个云计算节点1202，本地计算设备例如可以是个人数字助理(PDA)或移动电话1204，台式电脑1206、笔记本电脑 1208和/或汽车计算机系统1210。云计算节点1202之间可以相互通信。可以在包括但不限于如上所述的私有云、共同体云、公共云或混合云或者它们的组合的一个或者多个网络中将云计算节点1202进行物理或虚拟分组(图中未显示)。这样，云的消费者无需在本地计算设备上维护资源就能请求云计算环境1200提供的基础架构即服务(IaaS)、平台即服务(PaaS)和/或软件即服务(SaaS)。应当理解，图12显示的各类计算设备1204-1210仅仅是示意性的，云计算节点1202以及云计算环境1200可以与任意类型网络上和/或网络可寻址连接的任意类型的计算设备(例如使用网络浏览器)通信。

现在参考图13，其中显示了云计算环境1200(图12)提供的一组功能抽象层。为简洁起见，省略了对在此描述的其他实施例中采用的相同元件的重复描述。首先应当理解，图13所示的组件、层以及功能都仅仅是示意性的，本发明的实施例不限于此。如图13所示，提供下列层和对应功能：

硬件和软件层1302包括硬件和软件组件。硬件组件的例子包括：主机1304；基于RISC(精简指令集计算机)体系结构的服务器1306；服务器1308；刀片服务器1310；存储设备1312；网络和网络组件1314。软件组件的例子包括：网络应用服务器软件1316以及数据库软件 1318。

虚拟层1320提供一个抽象层，该层可以提供下列虚拟实体的例子：虚拟服务器1322、虚拟存储1324、虚拟网络1326(包括虚拟私有网络)、虚拟应用和操作系统1328，以及虚拟客户端1330。

在一个示例中，管理层1332可以提供下述功能：资源供应功能 1334：提供用于在云计算环境中执行任务的计算资源和其它资源的动态获取；计量和定价功能1336：在云计算环境内对资源的使用进行成本跟踪，并为此提供帐单和发票。在一个例子中，该资源可以包括应用软件许可。安全功能：为云的消费者和任务提供身份认证，为数据和其它资源提供保护。用户门户功能1338：为消费者和系统管理员提供对云计算环境的访问。服务水平管理功能1340：提供云计算资源的分配和管理，以满足必需的服务水平。服务水平协议(SLA)计划和履行功能1342：为根据SLA预测的对云计算资源未来需求提供预先安排和供应。

工作负载层1344提供云计算环境可能实现的功能的示例。在该层中，可提供的工作负载或功能的示例包括：地图绘制与导航1346；软件开发及生命周期管理1348；虚拟教室的教学提供1350；数据分析处理1352；交易处理1354；以及迁移学习1356。本发明的各种实施例可以利用参考图12和图13描述的云计算环境，以促进识别、创建和/或选择用于迁移学习的一个或多个预训练的神经网络模型。

在任何可能的技术细节结合层面，本发明可以是系统、方法和/ 或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。

计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器 (SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘 (DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。还将注意的是，框图和/或流程图中的每个框、以及框图和/或流程图中的框的组合，可以用执行规定的功能或动作或者实现专用硬件与计算机指令的组合的基于专用硬件的系统来实现。

为了提供所公开主题的各个方面的上下文，图14以及以下讨论旨在提供对合适环境的一般描述，在该合适环境中可以实现所公开主题的各个方面。图14示出了其中可以促进这里描述的一个或多个实施例的示例的非限制性操作环境的框图。为简洁起见，省略了对这里描述的其他实施例中采用的相似元件的重复描述。参考图14，用于实现本公开的各个方面的合适的操作环境1400可以包括计算机1412。计算机1412还可以包括处理单元1414、系统存储器1416和系统总线1418。系统总线1418可以将系统组件(包括但不限于系统存储器1416) 可操作地耦接到处理单元1414。处理单元1414可以是各种可用处理器中的任何一种。双微处理器和其他多处理器架构也可以用作处理单元1414。系统总线1418可以是包括存储器总线或存储器控制器、外围总线或外部总线和/或使用各种可用总线架构的本地总线的若干类型的总线结构中的任何一种，该各种可用总线架构包括但不限于工业标准架构(ISA)、微通道架构(MSA)、扩展ISA(EISA)、智能驱动电子设备(IDE)、VESA本地总线(VLB)、外围组件互连(PCI)、卡总线、通用串行总线(USB)、高级图形端口(AGP)、火线和小型计算机系统接口(SCSI)。系统存储器1416还可以包括易失性存储器 1420和非易失性存储器1422。基本输入/输出系统(BIOS)可以存储在非易失性存储器1422中，该基本输入/输出系统包含基本例程，以便诸如在启动期间在计算机1412内的元件之间传送信息。作为说明而非限制，非易失性存储器1422可包括只读存储器(ROM)、可编程 ROM(PROM)、电可编程ROM(EPROM)、电可擦式可编程ROM (EEPROM)、闪存或非易失性随机存取存储器(RAM)(例如，铁电RAM(FeRAM))。易失性存储器1420还可以包括随机存取存储器(RAM)，其可以用作外部高速缓冲存储器。作为说明而非限制，RAM 以许多形式可用，例如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍数据速率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)、直接型Rambus RAM(DRRAM)、直接型Rambus动态RAM(DRDRAM) 和Rambus动态RAM。

计算机1412还可以包括可移动/不可移动、易失性/非易失性计算机存储媒介。图14示出了例如盘存储装置1424。盘存储装置1424还可以包括但不限于如磁盘驱动器、软盘驱动器、带驱动器、Jaz驱动器、Zip驱动器、LS-100驱动器、闪存卡或记忆棒的设备。盘存储装置1424还可以包括独立的或与其他存储媒介结合的存储媒介，包括但不限于诸如紧凑盘ROM设备(CD-ROM)、CD可记录驱动器(CD-R 驱动器)、CD可重写驱动器(CD-RW驱动器)或数字多功能盘ROM 驱动器(DVD-ROM)之类的光盘驱动器。为了促进将盘存储装置1424 连接到系统总线1418，可以使用可移动或不可移动的接口，诸如接口 1426。图14还描绘了可以用作用户和在合适的操作环境1400中描述的基本计算机资源之间的中介的软件。这样的软件还可以包括例如操作系统1428。可以存储在盘存储装置1424上的操作系统1428用于控制和分配计算机1412的资源。系统应用1430可以通过例如存储在系统存储器1416中或盘存储装置1424上的程序模块1432和程序数据 1434来利用操作系统1428对资源的管理。应了解，本公开可用各种操作系统或操作系统的组合来实现。用户通过一个或多个输入设备1436将命令或信息输入到计算机1412中。输入设备1436可以包括但不限于诸如鼠标、轨迹球、触控笔、触摸板、键盘、麦克风、操纵杆、游戏垫、圆盘式卫星天线、扫描仪、TV调谐卡、数码相机、数码摄像机、网络摄像机等之类的指向设备。这些和其他输入设备可以经由一个或多个接口端口1438通过系统总线1418连接到处理单元1414。一个或多个接口端口1438可以包括例如串行端口、并行端口、游戏端口和通用串行总线(USB)。一个或多个输出设备1440可以使用与输入设备1436相同类型的端口中的一些端口。因此，例如，USB端口可以用于向计算机1412提供输入，并且将信息从计算机1412输出到输出设备1440。可以提供输出适配器1442以说明除其他输出设备1440 之外存在一些需要特殊适配器的输出设备1440，如监视器、扬声器和打印机。作为说明而非限制，输出适配器1442可以包括提供输出设备 1440和系统总线1418之间的连接手段的视频和音频卡。应当注意，其他设备和/或设备的系统提供输入和输出能力，诸如一个或多个远程计算机1444。

计算机1412可以使用到一个或多个远程计算机(诸如远程计算机1444)的逻辑连接在联网环境中操作。远程计算机1444可以是计算机、服务器、路由器、网络PC、工作站、基于微处理器的电器、对等设备或其他公共网络节点等，并且通常还可以包括相对于计算机1412描述的元件中的许多或所有元件。为了简洁起见，仅与远程计算机1444一起示出了存储器存储装置1446。远程计算机1444可以通过网络接口1448逻辑连接到计算机1412，然后通过通信连接1450物理连接。此外，操作可以分布在多个(本地和远程)系统上。网络接口1448可以包括有线和/或无线通信网络，诸如局域网(LAN)、广域网 (WAN)、蜂窝网络等。LAN技术包括光纤分布式数据接口(FDDI)、铜线分布式数据接口(CDDI)、以太网、令牌环等。WAN技术包括但不限于点对点链路、如综合业务数字网络(ISDN)及其变体的电路交换网络、分组交换网络和数字用户线(DSL)。一个或多个通信连接 1450指的是用于将网络接口1448连接到系统总线1418的硬件/软件。虽然为了说明清楚，通信连接1450显示在计算机1412内，但是它也可以在计算机1412的外部。仅用于示例性目的，用于连接到网络接口1448的硬件/软件还可以包括内部和外部技术，诸如包括常规电话级调制解调器、线缆调制解调器和DSL调制解调器的调制解调器、ISDN 适配器和以太网卡。

本发明的实施例可以是任何可能的技术细节结合层面的系统、方法、装置和/或计算机程序产品。该计算机程序产品可以包括计算机可读存储介质(或媒介)，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是——但不限于——电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子的非穷举的列表还可以包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如，因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备内的计算机可读存储介质中。用于执行本发明的各个方面的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或以一种或多种编程语言的任意组合编写的源代码或目标代码，该一种或多种编程语言包括面向对象的编程语言——诸如Smalltalk、C++等，以及过程式编程语言——诸如“C”编程语言或类似的编程语言。计算机可读程序指令可以完全在用户的计算机上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上并且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意类型的网络——包括局域网 (LAN)或广域网(WAN)——连接到用户的计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA) 或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息定制电子电路来执行计算机可读程序指令，以便实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图说明和/或框图描述了本发明的各方面。应当理解，流程图说明和/或框图的每个框以及流程图说明和/或框图中的各个框的组合，都可以由计算机可读程序指令实现。这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而产生一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，计算机可读存储介质可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而其中存储有指令的计算机可读存储介质包括一个制造品，该制造品包括实现流程图和/或框图中的一个或多个框中规定的功能/动作的各个方面的指令。也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个框中规定的功能/动作。

附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个框可以代表指令的一个模块、片段或一部分，所述指令的一个模块、片段或一部分包括用于实现规定的(一个或多个)逻辑功能的一个或多个可执行指令。在一些可替代的实现中，框中所标注的功能可以以不同于附图中所标注的顺序发生。例如，连续示出的两个框实际上可以基本并行地执行，或者这些框有时可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/ 或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

虽然上面已经在一个计算机和/或多个计算机上运行的计算机程序产品的计算机可执行指令的一般上下文中描述了主题，但是本领域技术人员将认识到本公开也可以或可以与其他程序模块结合实现。通常，程序模块包括执行特定任务和/或实现特定抽象数据类型的例程、程序、组件、数据结构等。此外，本领域技术人员将理解，本发明的计算机实现的方法可以用其他计算机系统配置来实践，包括单处理器或多处理器计算机系统、小型计算设备、大型计算机以及计算机、手持式计算设备(例如，PDA、电话)、基于微处理器或可编程的消费或工业电子设备等。所示出的方面还可以在分布式计算环境中实践，在分布式计算环境中任务由通过通信网络链接的远程处理设备执行。然而，本公开的一些(如果不是全部的话)方面可以在独立计算机上实践。在分布式计算环境中，程序模块可以位于本地和远程存储器存储设备中。

如在本申请中所使用的，术语“组件”、“系统”、“平台”、“接口” 等可以指代和/或可以包括计算机相关实体或与具有一个或多个特定功能的操作机器相关的实体。这里公开的实体可以是硬件、硬件和软件的组合、软件或执行中的软件。例如，组件可以是但不限于是在处理器上运行的进程、处理器、对象、可执行文件、执行的线程、程序和/或计算机。作为说明，在服务器上运行的应用和服务器都可以是组件。一个或多个组件可以驻留在执行的进程和/或线程内，并且组件可以位于一台计算机上和/或分布在两台或更多台计算机之间。在另一示例中，各个组件可以从其上存储有各种数据结构的各种计算机可读媒介执行。组件可以经由本地和/或远程进程进行通信，诸如根据具有一个或多个数据分组的信号(例如，来自经由该信号与本地系统、分布式系统的另一个组件和/或跨诸如因特网之类的网络与其他系统交互的一个组件的数据)。作为另一示例，组件可以是具有由电气或电子电路操作的机械部件提供的特定功能的装置，该电气或电子电路由处理器执行的软件或固件应用操作。在这种情况下，处理器可以在装置的内部或外部，并且可以执行软件或固件应用的至少一部分。作为又一个示例，组件可以是通过没有机械部件的电子组件提供特定功能的装置，其中电子组件可以包括处理器或其他装置以执行至少部分地赋予电子组件的功能的软件或固件。在一方面，组件可经由(例如，在云计算系统内的)虚拟机模拟电子组件。

此外，术语“或”旨在意味着包容性的“或”而不是排他性的“或”。即，除非另有说明或从上下文中清楚得到，否则“X采用A或B”旨在意味着任何自然的包容性置换。也就是说，如果X采用A；X采用 B；或者X采用A和B两者，则在任何前述情况下满足“X采用A或 B”。此外，在本说明书和附图中使用的冠词“一”和“一个”通常应该被解释为意味着“一个或多个”，除非另有说明或从上下文清楚地指向单数形式。如这里所使用的，术语“示例”和/或“示例性”用于意味着用作示例、实例或说明。为避免疑义，这里公开的主题不受这些示例的限制。另外，这里描述为“示例”和/或“示例性”的任何方面或设计不一定被解释为比其它方面或设计更优选或更具优势，也不意味着排除本领域普通技术人员已知的等效示例性结构和技术。

当在本说明书中采用时，术语“处理器”可以指基本上任何计算处理单元或设备，包括但不限于单核处理器；具有软件多线程执行能力的单处理器；多核处理器；具有软件多线程执行能力的多核处理器；具有硬件多线程技术的多核处理器；并行平台；以及具有分布式共享存储器的并行平台。另外，处理器可以指集成电路、专用集成电路 (ASIC)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑控制器(PLC)、复杂可编程逻辑器件(CPLD)、离散门或晶体管逻辑、离散硬件组件或被设计为执行这里所述的功能的其任何组合。此外，处理器可以利用纳米级架构，诸如但不限于基于分子和量子点的晶体管、开关和门，以优化空间使用或增强用户设备的性能。处理器也可以实现为计算处理单元的组合。在本公开中，诸如“存储”、 “存储装置”、“数据存储”、“数据存储装置”、“数据库”之类的术语以及与组件的操作和功能相关的基本上任何其他信息存储组件被用于指代“存储组件”、体现在“存储器”中的实体、或包括存储器的组件。应当理解，这里描述的存储器和/或存储器组件可以是易失性存储器或非易失性存储器，或者可以包括易失性和非易失性存储器两者。作为说明而非限制，非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦式ROM (EEPROM)、闪存或非易失性随机存取存储器(RAM)(例如，铁电RAM(FeRAM))。易失性存储器可以包括RAM，其可以用作例如外部高速缓冲存储器。作为说明而非限制，RAM以许多形式可用，诸如同步RAM(SRAM)、动态RAM(DRAM)、同步DRAM (SDRAM)、双倍数据速率SDRAM(DDR SDRAM)、增强型SDRAM (ESDRAM)、同步链路DRAM(SLDRAM)、直接型Rambus RAM (DRRAM)、直接型Rambus动态RAM(DRDRAM)和Rambus 动态RAM(RDRAM)。另外，这里所公开的系统的存储器组件或计算机实现的方法旨在包括但不限于包括这些和任何其他合适类型的存储器。

上面所描述的仅包括系统、计算机程序产品和计算机实现的方法的示例。当然，不可能出于描述本公开的目的而描述组件、产品和/ 或计算机实现的方法的每个可设想的组合，但是本领域普通技术人员可以认识到本公开的许多进一步的组合和置换是可能的。此外，就在具体实施方式、权利要求、附录和附图中使用术语“包括”、“具有”、 “拥有”等等而言，这些术语旨在以与如同当“包括”作为权利要求中的一个过渡词使用时术语“包括”被解释的方式类似的方式是包容性的。以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种计算机实现的方法，包括：

由操作性地耦接到处理器的系统评估源数据集和来自目标机器学习任务的样本数据集之间的相似性度量；以及

由所述系统基于所述相似性度量识别与所述源数据集相关联的预训练的神经网络模型，以执行所述目标机器学习任务。

2.如权利要求1所述的计算机实现的方法，其中所述评估还包括：

由所述系统使用特征提取器和统计聚合技术来创建所述源数据集的第一向量表示和所述样本数据集的第二向量表示；以及

由所述系统使用所述关于所述第一向量表示和所述第二向量表示的距离计算技术来评估所述相似性度量。

3.如权利要求2所述的计算机实现的方法，其中，所述距离计算技术选自包括以下各项的组：Kullback-Leibler散度、欧几里德距离、余弦相似性，曼哈顿距离、明可夫斯基距离、简森香农距离、卡方距离和杰卡德相似性。

4.如权利要求1所述的计算机实现的方法，还包括由所述系统使用来自所述目标机器学习任务的目标数据集在所述预训练的神经网络模型上执行训练步骤。

5.如权利要求1所述的计算机实现的方法，其中，所述识别包括由所述系统从预先存在的模型库中识别所述预训练的神经网络模型。

6.如权利要求1所述的计算机实现的方法，还包括：

由所述系统评估多个源数据集和所述样本数据集之间的相似性度量，其中所述源数据集包括在所述多个源数据集内；以及

由所述系统使用所述源数据集和来自所述多个源数据集的第二源数据集生成所述预训练的神经网络模型。

7.如权利要求6所述的系统，其中所述源数据集与基于视觉的模型相关联，并且所述第二源数据集与基于知识的模型相关联。

8.如权利要求1所述的系统，其中在云计算环境中访问所述相似性度量。

9.如权利要求2所述的计算机实现的方法，其中所述统计聚合技术选自包括以下各项的组：平均值、码本、标准偏差和中值平均值。

10.一种系统，包括：

存储计算机可执行组件的存储器；以及

执行存储在所述存储器中的所述计算机可执行组件的处理器，其中所述计算机可执行组件包括用于实现权利要求1-9之一所述的方法中的步骤的组件。

11.一种计算机程序产品，所述计算机程序产品促进使用预训练的神经网络模型来增强目标机器学习任务的性能，所述计算机程序产品包括具有随其体现的程序指令的计算机可读存储介质，所述程序指令能够由处理器执行以使所述处理器实现权利要求1-9之一所述的方法中的步骤。

12.一种计算机实现的系统，包括用于实现权利要求1-9之一所述的方法中的步骤的装置。