CN115843364A

CN115843364A - 使用交叉连接的连续学习

Info

Publication number: CN115843364A
Application number: CN202180048336.3A
Authority: CN
Inventors: 田雨; 王小龙; 薛青晗; S·N·伊莱克; 国鑫
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-07-08
Filing date: 2021-06-18
Publication date: 2023-03-24
Also published as: DE112021003003T5; GB2611731A; JP2023532960A; WO2022009005A1; US20220012583A1

Abstract

一种用于在类递增场景中将具有交叉连接的不同路径用于不同任务以防止灾难性遗忘的方法、计算机系统和计算机程序产品。该方法可以包括：顺序接收一个或多个任务；将一个或多个可共享块应用于一个或多个任务；学习一个或多个任务的一个或多个不同路径；在一个或多个任务之间添加一个或多个交叉连接；添加聚集块以从一个或多个任务中的每一个的不同路径收集一个或多个输出；提供预测。

Description

使用交叉连接的连续学习

背景技术

本发明总体上涉及计算领域，并且更具体地涉及机器学习。深度学习模型被用在许多领域中，并且可被看作关于理解模型行为的黑框。各种训练模型可以处理数据并且提供具有不同准确度的不同结果。产生可理解的结果和准确的分类通过提供要在不同领域和工业中使用的精细的和无偏的输出数据来推进机器学习领域。

发明内容

本发明的实施例可以包括将具有交叉连接的不同路径用于不同任务以防止类递增场景中的灾难性遗忘的方法、计算机系统和计算机程序产品。本发明的实施例可以包括顺序地接收一个或多个任务。本发明的实施例可以包括将一个或多个可共享块应用于所述一个或多个任务。本发明的实施例可包括学习一个或多个任务的一个或多个不同路径。本发明的实施例可以包括在一个或多个任务之间添加一个或多个交叉连接。本发明的实施例可包括添加聚合块以从一个或多个任务中的每一个的不同路径收集一个或多个输出。本发明的实施例可以包括提供预测。

附图说明

从以下将结合附图阅读的对本发明的示范性实施例的详细描述中，本发明的这些和其他目的、特征和优点将变得清晰。附图的各种特征不是按比例的，因为图示是为了便于本领域技术人员结合具体实施方式理解本发明而清楚起见。在附图中：

图1示出了根据至少一个实施例的联网计算机环境；

图2是根据本发明实施方式的通过面向任务的路径顺序学习任务的框图示例；

图3是示出根据本发明的一个实施例的使用连续学习模型来学习用于不同任务的具有交叉连接的唯一路径以防止类递增情形下的灾难性遗忘的过程的流程图；

图4是示出了根据本发明的实施方式的图1中所示的计算机和服务器的内部和外部组件的框图；

图5是描绘根据本发明的实施方式的包括图1中描绘的计算机系统的云计算环境的功能框图；以及

图6是描绘根据本发明的实施方式的由图5的云计算环境提供的抽象模型层的示图。

具体实施方式

现在将参考附图详细描述本发明的实施例。

提供参考附图的以下描述以帮助全面理解由权利要求及其等同物限定的本发明的示例性实施例。其包括各种具体细节以帮助理解，但这些细节将被视为仅是示例性的。因此，本领域的普通技术人员将认识到，在不脱离本发明的范围和精神的情况下，可以对在此描述的实施例进行不同改变和修改。此外，为了清楚和简明，可省略对公知功能和结构的描述。

在以下描述和权利要求中使用的术语和词语不限于书目含义，而是仅仅用于使得能够清楚和一致地理解本发明。因此，对本领域技术人员显而易见的是，提供本发明的示例性实施方式的以下描述仅用于说明的目的，而不是用于限制由所附权利要求及其等同物限定的本发明的目的。

应当理解，除非上下文另有明确规定，否则单数形式包括复数指示物。因此，例如，除非上下文另外明确规定，否则提及“部件表面”包括提及一个或多个这种表面。

本发明的实施例一般地涉及机器学习。更具体地，本发明的实施例提供了用于使用连续学习模型来学习用于不同任务的具有交叉连接的唯一路径以防止类递增场景中的灾难性遗忘的方法、计算机程序和计算机系统。

深度学习是可以基于训练数据理解和分类信息的一种类型的机器学习。训练数据可以是结构化数据或非结构化数据。结构化数据可以包括高度组织的数据，诸如电子表格、关系数据库或存储在固定字段中的数据。非结构化数据可以包括不被组织并且具有非常规内部结构的数据，诸如可移植文档格式(PDF)、图像、演示、网页、视频内容、音频内容、电子邮件、文字处理文档或多媒体内容。深度学习还可与分层学习或深度结构化学习相关或被称为分层学习或深度结构化学习。

深度学习可映射输入、对数据进行分类、解释数据集并提供神经网络的一个或多个层的数据输出。神经网络的每一层可被表示为节点。节点也可被称为神经元或人工神经元。深度学习可检测可能被标记或可能不被标记的数据中的相似性。例如，深度学习可以作为监督学习、无监督学习或半监督学习来操作。监督学习可以使用标记的数据集来训练ML模型。无监督学习可以使用所有未标记的数据来训练ML模型。半监督学习可以使用标记的数据集和未标记的数据集两者来训练ML模型。例如，深度学习模型可以提供可以被生成为与正被学习的特定于域的分类法相关的节点和边的图形输出。

神经网络可以是深度学习的组件。神经网络可以与深度网络或深度神经网络相关或被称为深度网络或深度神经网络。神经网络可以解释、标记和分类原始数据，诸如非结构化数据。深度神经网络中的神经元可以组合输入数据并且基于神经网络正在学习的事物的重要性水平将权重分配给输入数据以便对数据进行分类。即，分配给神经元的权重越大，该神经元越重要。进一步，神经网络越深，输入数据所经过的神经元或节点层越多。神经元、节点和滤波器可被视为可互换的术语。神经元可表示接收输入数据、产生输入权重并将输入权重与该数据相关联并随后经由计算确定数据是否应当在对该数据进行分类之前在网络中继续或进展更远的位置。每一层神经元可基于先前输出层来训练数据。

深度学习模型可收集并分析跨越不同域的大量数据，并且可用于解决现实世界问题。然而，深度学习模型具有其局限性和缺点，诸如例如灾难性遗忘。严重遗忘指的是突然的知识丢失或者甚至对旧知识的完全覆盖。灾难性遗忘是当旧知识没有被保存时发生的现象。旧知识可以涉及先前任务的知识。当学习与新任务有关的信息时，这种旧的知识可能丢失。因此，灾难性遗忘在连续学习中是有问题的。

在深度学习模型中避免灾难性遗忘的解决方案是存储所有任务的所有训练数据并且以任意顺序将它们与新的流数据一起重放。然而，由于必须在人工系统的存储器预算的约束内分析大量数据，这种方法在现实世界中是有问题的。

灾难性遗忘问题的其他解决方案可包括使用两个模型，任务增量模型和类增量模型。任务增量模型和类增量模型两者可模拟连续学习区域中的真实世界场景。为了使这些模型工作，它们可能需要递增地学习许多孤立的任务而不忘记如何解决先前的任务。为了使任务增量模型工作，可能需要使用不同的任务分类器或具有多个头的一个分类器。因此，当在参考阶段期间引入新的测试样品时，对于任务增量模型，也可能需要输入数据的任务标签来选择任务分类器或选择一个头部来进行预测。

类增量模型与任务增量模型不同，因为类增量模型不需要任务标签以便工作。然而，即使没有任务标签，类别增量模型的使用可能是有问题的。使用类增量模型的当前方法不考虑任务之间的连接。例如，这些方法可以不考虑先前已经学习的任务与当前正被学习的任务之间的连接。照此，利用类递增模型来递增地学习多个孤立任务而不忘记如何解决先前任务提出了挑战。

因此，生成现实的连续学习模型可能是有利的，该连续学习模型可能能够通过学习用于类递增模型中的不同任务的具有交叉连接的唯一路径来防止具有受限的计算和存储器成本的非静态分布式流数据上的灾难性遗忘。通过单独地处理各个任务，或者使用先前的任务作为教师模型或特征提取器用于新任务来考虑任务之间的连接也可以是有利的。

以下描述的示范性实施例提供了用于深度学习的系统、方法和程序产品。照此，本发明的各实施例具有通过将先前任务作为教师模型或特征提取器用于新任务来改进深度学习的技术领域的能力。进一步，本发明的实施例提出共享来自新任务的补充信息以帮助减轻先前任务的灾难性遗忘。

本发明实施例提供一种分离和分享过去网络(DSPN)模型。在实施例中，DSPN模型可包括三个组件。组件也可被称为块。DSPN模型可包括聚合块，其可在测试阶段期间使任务无标签。聚合块还可帮助不同任务之间的信息共享。DSPN可包括可添加不同任务之间的交叉连接的组件。DSPN模型可利用先前任务与新任务之间的交叉连接，以在学习新任务时更好地保留先前知识。DSPN模型可包括可防止灾难性遗忘的面向任务的路径组件。DSPN模型可提供学习每个任务的不同路径的方式。每个任务的不同路径可以是该特定任务唯一的。DSPN模型还可与更低层中的当前任务共享前一任务的不同路径，并为更高层中的每个任务使路径多样化。

深度神经网络可以包括一个或多个块。每个块可包含一个或多个网络层。通常，可共享块可以是在不同任务之间共享的深度神经网络的底层。这可能是可能的，因为在深度神经网络架构中，底层可以提取一般特征，而上层提取任务特定特征。照此，底层可从先前路径被重用。在实施例中，DSPN模型可在训练和测试阶段期间重用来自先前任务的底层。在实施例中，DSPN模型的底层可称为可共享块。

根据实施例，DSPN模型可为每个任务创建不同的路径。每个任务可以包括一个或多个样本。在训练阶段，DSPN模型可依次通过接收到的任务进行训练。DSPN模型还可接收每一任务中的所有样本的标签。在实施例中，任务可以包括多个样本。在替代实施例中，任务可以包括一个样本。例如，DSPN模型可接收任务1。DSPN模型的任务可正确地分类图片中出现的动物。任务1可以具有两个训练样本，诸如例如狗和猫样本。DSPN模型还可以连同动物的图片一起接收两个标签：狗标签和猫标签。在另一示例中，任务1可以包括一个样本。如此，连同图片一起，DSNP模型可以接收与图片相关联的标签。在这两个实例中，当训练任务1时，DSPN模型可为任务1创建不同路径。当随后的任务(例如任务2)输入到DSPN模型中时，DSPN模型可为任务2创建不同的路径。对于任务的不同路径，不同路径上的每一神经元可具有不同的相关联权重。

对于每个后续任务，DSPN模型可冻结先前任务的先前学习的路径，并且仅更新位于给定任务路径上的神经元。例如，当DSPN模型为任务2创建不同路径时，任务1的不同路径被冻结。在一实施例中，为了冻结先前任务的路径，DSPN模型可将先前任务的路径的每一神经元处的参数设置为不可训练的。照此，在训练阶段，当DSPN模型接收到下一任务时，DSPN模型为该下一任务创建不同路径，但不改变前一路径的神经元权重。进一步，DSPN模型不改变先前路径的神经元及其相关联的参数。这可以通过假设不同路径上的每个神经元具有与该神经元相关联的唯一权重来实现。进一步，在训练阶段期间，DSPN模型可训练被标记为可训练的神经元，但可不训练被标记为不可训练的神经元。由此，当DSPN模型找到被标记为不可训练的神经元时，DSPN模型可不改变该神经元的权重，因为该神经元被冻结。例如，在训练阶段，DSPN模型可接收任务1，并为任务1创建不同的路径。DSPN模型可通过将该路径上的神经元权重设置为不可训练来冻结这些神经元。当DSPN模型接收到任务2时，DSPN模型为任务2创建不同路径，但不改变任务1的不同路径的神经元的权重，因为这些神经元被标记为不可训练。任务1的不同路径上的神经元不被训练，因为它们的权重是固定的。

每个任务的不同路径还可帮助跨多个任务的知识保留。例如，任务1可以包括分类任务以区分图像是猫还是狗。任务2可以包括分类任务以区分图像是苹果还是橘子。任务1和任务2的图像是不同的，因为任务1的训练图像描绘了动物，并且第二任务的训练图像描绘了水果。如果任务1的不同路径未冻结，则当DSPN模型用任务2训练时，用任务2训练可对任务1的预测产生影响。然而，通过冻结任务1的不同路径，任务1的不同路径可以用于预测任务2。任务1的路径可用于区分任务1和任务2。

在实施例中，DSPN模型可允许增加任务之间的交叉连接。交叉连接可以指从一个层到另一个层的两个或更多个任务之间的连接。交叉连接可被分类为前向连接和后向连接。前向连接可帮助当前和新任务基于先前任务的知识更有效地学习。可以建立从先前任务到当前和新任务的前向连接。后向连接可以通过利用来自当前和新任务的补充信息来帮助先前任务保留其知识。可以从当前和新任务到先前任务建立后向连接。

利用先前任务与当前或新任务之间的交叉连接可鼓励不同任务之间的补充信息共享。这可允许DSPN模型在学习新任务时更好地保留先前知识。例如，任务1可以是狗和猫之间的分类。任务2可以是老虎与狮子之间的分类。当DSPN模型训练任务1时，DSPN模型获取与猫和狗的特征有关的信息，并且区分这些特征。当DSPN模型在任务2上训练时，来自任务1的信息可帮助DSPN模型对任务2进行分类。具体而言，DSPN模型可重用它从任务1学习的一些特征，例如可用于对狮子进行分类的关于猫学习的面部特征。DSPN模型可以直接采用从任务1学习到的信息及其路径来训练任务2。

在另一示例中，任务1和任务2不相似。即，任务1可以包括分类任务以区分图像是猫还是狗。任务2可以包括分类任务以区分图像是苹果还是橘子。当DSPN模型在任务2上训练时，DSPN模型可利用从任务1上训练获得的信息。这样，DSPN模型可利用任务1和任务2的交叉连接来区分任务2和任务1

除了使用任务之间的交叉连接外，还可在DSPN模型中添加聚合块。聚合块可聚合来自不同任务(诸如，先前任务和当前任务)的所有信息。例如，所有路径可以在训练阶段和测试阶段期间经过聚合块。在训练阶段期间，DSPN模型可接收任务，所述任务具有其针对任务中的每一样本的对应标签。对于每一任务，DSPN模型可学习其不同路径。聚合块可收集来自每一任务的路径的输出。可在DSPN模型的测试和后续使用过程中使用这些输出。这些输出可以在后续任务之间共享。从而在测试阶段，DSPN模型不需要额外的任务标签信息。

在实施例中，聚合块可以在网络的最终层之前添加。使用聚合块可允许DSPN模型更好地聚合来自不同任务的信息，并使网络能够直接预测类别标签，而无需任务标签作为输入。

参考图1，描述了根据实施方式的示例性联网计算机环境100。联网计算机环境100可以包括具有处理器104和数据存储设备106的计算机102，数据存储设备106能够运行软件程序108和连续学习程序110a。联网计算机环境100还可以包括服务器112，其能够运行可以与数据库114和通信网络116交互的连续学习程序110b。联网计算机环境100可以包括多个计算机102和服务器112，仅示出其中之一。通信网络116可包括不同类型的通信网络，诸如广域网(WAN)、局域网(LAN)、电信网络、无线网络、公共交换网络和/或卫星网络。应当理解，图1仅提供一个实现方式的图示并且不暗示关于其中可以实现不同实施例的环境的任何限制。可以基于设计和实现要求对所描绘的环境做出许多修改。

客户端计算机102可以经由通信网络116与服务器计算机112通信。通信网络116可以包括连接，例如有线、无线通信链路、或光纤电缆。如将参考图4讨论的，服务器计算机112可以分别包括内部组件902a和外部组件904a，并且客户端计算机102可以分别包括内部组件902b和外部组件904b。服务器计算机112还可在云计算服务模型中操作，诸如软件即服务(SaaS)、分析即服务(AaaS)、平台即服务(PaaS)、区块链即服务(BaaS)或基础设施即服务(IaaS)。服务器112还可以位于云计算部署模型中，诸如私有云、社区云、公共云或混合云。客户端计算机102可以是例如移动设备、电话、个人数字助理、上网本、膝上型计算机、平板计算机、台式计算机、或能够运行程序、访问网络和访问数据库114的任何类型的计算设备。根据本实施例的不同实现，连续学习程序110a、110b可以与数据库114交互，该数据库114可以被嵌入在不同存储设备中，诸如但不限于计算机/移动设备102、联网服务器112或云存储服务。

根据本实施例，使用客户端计算机102或服务器计算机112的用户可(分别)使用连续学习程序110a、110b来构建DSPN模型，DSPN模型可学习具有交叉连接的唯一路径以用于类递增场景中的不同任务。下面参照图2至图3更详细地解释深度学习方法。

参考图2，描述了根据一种实施方式的训练环境200的框图示例。在实施例中，连续学习程序110a、110b可利用DSPN模型来通过面向任务的路径顺序地学习任务。连续学习程序110a、110b可以学习许多任务202a-n。任务202a-n可以包括但不限于计算机视觉、语音识别、机器翻译、社交网络过滤、玩牌和视频游戏或医疗诊断。如图所示，每个任务202a-n可以具有其自己的路径，任务202a-n在测试和推断阶段期间经过该路径。

DSPN模型的训练环境200可具有多个层204a-n。每一层204a-n可具有多个神经元或节点。层204a-n可以是各种类型的层，诸如卷积、池化、Relu、线性或完全连接。层204a-n还可以被称为底层和上层。例如，层204a、204b可以被称为底层，而层204c-n可以被称为上层。底层可以提取一般任务特征，而上层可以提取任务特定特征。照此，底层也可被称为可共享块，因为它们可在测试或分析新任务时从先前任务及其生成的路径重用。

DSPN模型的训练环境200还可具有聚合块206。聚合块206可聚合所有路径的信息。聚合块206可有助于不同任务202a-n之间的信息共享。

如图2中所示，DSN模型的训练环境200还可以冻结先前在移动到另一个任务之前执行的任务202a-n的连接。例如，连续学习程序110a、110b可使用DSPN模型来学习多个任务。从任务1开始，在训练阶段期间，可以指定任务1的路径，并且可以确定与路径相关联的参数。当切换到第二任务(任务2)时，DSPN模型可冻结任务1的不同路径的参数，然后创建任务2的新路径。应当理解，DSPN模型不冻结任务1在较低层的路径。即，不冻结可共享块。相反，可共享块被后续任务在训练和测试阶段期间使用。

DSPN模型还可实现旧任务和新任务之间的前向和后向连接。例如，一旦DSPN模型为任务1创建路径，DSPN模型就可移到任务2上。最初，任务1的底层可以与任务2共享。在上层，可以在任务1和任务2之间添加前向连接，以帮助任务2基于任务1更高效地学习。此外，可以从任务2向任务1添加后向连接，以通过利用来自任务2的补充信息来帮助任务1保持知识。

现在参考图3，描绘了根据至少一个实施例的操作流程图300。操作流程图300展示了示范性DSPN模型的训练。DSPN模型可被连续学习程序110a、110b用来防止深度神经网络中的灾难性遗忘。

如上所述，类递增学习旨在保持从流数据中顺序地学习新任务。每个任务可以包括单个类别或不同类别的资产。在保留先前任务的性能的同时继续学习新知识是类递增学习的关键目标。为了实现该目的，本发明实施例提出了DSPN模型，该模型可以为不同的任务创建不同的路径。每个任务的不同路径可以帮助跨多个任务保留知识。在实施例中，DSPN模型还可利用聚合块和任务之间的交叉连接来保留先前任务的性能。

在操作302，接收输入。输入可以是任务202a-n的形式。输入还可包括训练数据，结构化和非结构化数据两者。例如，数据可以包括存储在一个或多个数据库上的图像和文档。可以使用公共数据库，并且可以在适当访问的情况下使用私有数据库。例如，训练数据样本可以包括用于训练模型的从公共数据库获得的各种动物物种。私有数据库示例可以包括用于训练与医学图像或医学诊断相关的模型的来自医院存储库的图像和文档。另一个私有数据库示例可以包括来自其他行业的图像和文档，诸如金融、法律、农业、汽车或政府。

在操作304，应用可共享块。在深度神经网络架构中，底层可以提取一般特征，而上层可以提取任务特定特征。照此，底层可在所有任务之间共享。在一实施例中，DSPN可具有可称为可共享块的底层。例如，在一实施例中，在完成利用路径P₁的第一任务训练之后，所有后续任务可重新使用路径P₁的s个块：

其中，P_k是指任务k的路径，B是指块。

在一实施例中，可能存在在不同任务之间共享的一个或多个可共享块，诸如例如两个可共享块。在替代实施例中，可共享块的数量可以是三个或更多个。在不同任务之间利用可共享块可大大减少前s个块的参数数目。

在操作306，学习每个任务的不同路径。学习每个任务的不同路径可有助于跨多个任务保留知识，从而防止灾难性遗忘。这可以通过利用不相交路径来实现。不相交路径可以是独立的并且彼此之间没有任何连接的区分路径。例如，假设DSPN模型可依次学习K个任务。训练数据可以表示为：

X＝{X₁，X₂，…，X_K}，其中，X_k是用于第k个任务的训练数据集。

在实施例中，任务k可以包括U_k个不同的类。U_k在不同的任务之间也可以是相同或不同的。当训练第一任务时，DSPN模型可以从由m个块

组成的单路径P₁开始，其中，每个块/>

可以是残差块或多层感知器层。残差块可指可用于DSPN模型中的现有预训练深度学习模块的部分模块。多层感知器层可以是也可以在DSPN模型中使用的前馈人工神经网络。

在训练阶段期间，隐藏激活

可以通过以下方式顺序地获得：

其中，

是从X₁采样的输入数据。

当切换到第二任务时，路径P1的参数可被冻结，并且可为数据X₂创建具有m个块的新路径P₂。这可以推广到所有K个任务。

隐藏激活可以是每个任务的输出。例如，在训练期间，DSPN模型的任务可分类任务1。DSPN模型学习任务1的不同路径，并产生输出。任务1的不同路径的输出是隐藏激活。可以在聚合块中收集所有任务的隐藏激活。进一步，DSPN模型训练的任务越多，产生的隐藏激活越多。

在操作308，添加不同任务之间的交叉连接。交叉连接可影响参数的总数，因为交叉连接对于任务的数量是二次方程。交叉连接可以包括前向连接和后向连接。前向连接可以包括从先前路径到当前路径的连接。这可允许当前路径学习如何利用加权的来自先前路径的先前知识来改进和加速当前路径训练。后向连接可以包括从当前路径到先前路径的连接。通过应用后向连接，先前任务的执行可以通过从当前任务的路径到先前任务的路径的知识传递来增强。

在实施例中，可以应用路径之间的中间前向交叉连接。具体地，在任务k，具有前向连接

照此，隐藏的激活/>

通过以下来更新：

其中，

是先前路径中的隐藏激活，/>

是结合了第j个任务的先前知识与当前任务k的可训练块。

在实施例中，也可以应用路径之间的中间后向交叉连接。具体地，借助于后向连接

当前任务的信息可以用于通过以下方式更新先前的任务j＜k：

其中对于给定的任务k，

仅当t＝k时才可训练。

在一个实施例中，允许一组后向和前向连接。例如，如上所述，当DSPN模型切换到第二任务时，可冻结不同路径P₁的参数，并为数据X₂创建具有m个块的新路径P₂。此外，可以应用从任务1到任务2的前向连接。此外，也可以应用从任务2到任务1的后向连接。通过应用从任务1到任务2的前向连接，任务2的路径k可以利用加权的先前知识来改进其路径训练。此外，当应用从任务2到任务1的后向连接时，任务2的知识可以从任务2流向任务1，从而增强任务1的性能。在替代实施例中，允许多个后向和前向连接。

在操作310，添加聚合块206。在实施例中，聚合块206可在网络的最终层之前添加，以更好地聚合来自不同任务的信息。聚合块206可合并所有路径的信息。在训练和测试阶段期间，聚合块206可允许所有路径经过聚合块206。

聚合块206可在整个训练阶段期间连续地更新，从而允许在各个任务之间共享信息。在常规深度学习模型中，在测试阶段期间，连同任务id提供图像。一旦模型接收到任务id，模型就读取它并且确定所提供的图像属于特定任务，例如，任务1。然后，该模型可以基于所提供的任务id和与该任务id相关联的信息来推断图像表示什么。

本发明的实施例提供DSPN模型，其可利用聚合块206而不是任务id。这样，DSPN模型不接收任务id。而是，聚合块206聚合来自输入到DSPN模型中的所有任务的所有输出。输出的聚合允许DSPN模型具有所有先前任务路径的输出或知识。因此，当DSPN模型接收到新任务时，DSPN模型在聚合块206可加载来自每个先前路径的输出以进行预测。由于DSPN模型不具有任务id，DSPN模型可从聚合的先前任务中选择最相关的任务以完成其对新任务的预测。

如上所述，除了聚合块206，DSPN模型还可冻结路径P_k来保存第k个任务的知识。通常，在测试阶段期间，由于任务标签是未知的，DSPN模型不知道要选择哪个路径以便对给定数据样本进行推断。本发明的实施例引入聚合块206架构S，其聚合所有路径的信息。通过聚合来自K个任务的知识，块S可以生成唯一的隐藏激活h_K：

其中，

是路径P_i的最后一次隐藏激活，并且⊕表示逐元素相加。

在训练期间，当任务k到来时，由于仅存在k条路径，因此块S可以通过以下来更新：

其中，A是聚合块，并且h_k可以具有与h_K相同的维度。

在实施例中，当路径P_k在任务k之后被冻结时，块S可以总是可训练的。具有可总是可训练的块允许在不同任务之间共享信息。块S对所有任务采取隐藏激活。照此，块S可以在不同任务之间共享来自隐藏激活的信息。这可以通过应用等式4来完成。

在操作312，提供输出。DSPN模型可提供对特定输入的预测。例如，DSPN模型被提供猫的图片形式的输入。DSPN模型还可提供样本标签。在这种情况下，样本标签可指示图片是“猫”。在一个实施例中，由于任务1仅包括一个样本，DSPN模型被提供一个样本标签。在替代实施例中，任务1可以包括两个样本。这样，DSPN模型可接收对应于任务1的两个样本的两个样本标签。

一旦DSPN模型被提供具有其对应样本标签的样本图片，DSPN模型可被指派分类图片中的动物的任务。输出可以是图片是猫的预测。在一个实施例中，可将DSPN模型生成的输出与任务的一个或多个样本进行比较，以确定输出是否准确。然而，不管DSPN模型在对任务1进行分类时是否准确，可将另一输入(例如，任务2及其相应样本及样本标签)输入到DSNP模型中用于进一步训练。

应当理解，在训练阶段，DSPN模型可遵循图3所示的操作。但是，在测试阶段，DSPN模型已经被训练。这样，DSPN模型在测试过程中的操作流程图可包括两个操作：接收输入和提供输出。例如，DSPN模型可接收图片，并可负责对图片进行分类。在测试期间，DSPN模型不接收标签，例如样本标签，因为DSPN模型已被训练。这样，当DSPN模型接收输入时，DSPN模型对输入进行分类，并提供输出。

应当理解，图2至图3仅提供了一个实施方式的图示，而并不暗示关于如何实现不同的实施方式的任何限制。可以基于设计和实现要求对所描绘的实施例进行许多修改。

图4是根据本发明的说明性实施例的图1中描绘的计算机的内部和外部组件的框图900。应当理解，图4仅提供一个实现方式的图示并且不暗示关于其中可以实现不同实施例的环境的任何限制。可以基于设计和实现要求对所描绘的环境做出许多修改。

图1中描绘的计算机可代表能够执行机器可读程序指令的任何电子设备。计算机可代表智能电话、计算机系统、PDA或其他电子设备。计算系统、环境和/或配置的示例可以包括但不限于个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、网络PC、小型计算机系统和包括以上系统或设备中的任一个的分布式云计算环境。

用户客户端计算机102和网络服务器112可以包括图4中所示的相应组的内部组件902a、902b和外部组件904a、904b。每组内部组件902a、902b包括在一条或多条总线912上的一个或多个处理器906、一个或多个计算机可读RAM 908和一个或多个计算机可读ROM 910，以及一个或多个操作系统914和一个或多个计算机可读有形存储设备916。客户端计算机102中的一个或多个操作系统914、软件程序108和连续学习程序110a以及网络服务器112中的连续学习程序110b可以存储在一个或多个计算机可读有形存储设备916上以便由一个或多个处理器906经由一个或多个RAM 908(其通常包括高速缓存存储器)执行。在图4示出的实施方式中，每个计算机可读有形存储设备916是内部硬盘驱动器的磁盘存储设备。可替代地，每个计算机可读有形存储设备916是半导体存储设备，诸如ROM 910、EPROM、闪存或可存储计算机程序和数字信息的任何其他计算机可读有形存储设备。

每组内部组件902a、902b还包括R/W驱动器或接口918，用于从诸如CD-ROM、DVD、记忆棒、磁带、磁盘、光盘或半导体存储设备的一个或多个便携式计算机可读有形存储设备920读取和向其写入。软件程序(如软件程序108和连续学习程序110a、110b)可以存储在对应的便携式计算机可读有形存储设备920中的一个或多个上、经由对应的R/W驱动器或接口918读取并且加载到对应的硬盘驱动器中。

每组内部组件902a、902b还可以包括网络适配器(或交换机端口卡)或接口922，如TCP/IP适配器卡、无线wi-fi接口卡、或3G或4G无线接口卡或其他有线或无线通信链路。客户端计算机102中的软件程序108和连续学习程序110a以及网络服务器计算机112中的连续学习程序110b可以经由网络(例如，互联网、局域网或其他广域网)和相应的网络适配器或接口922从外部计算机(例如，服务器)下载。从网络适配器(或交换机端口适配器)或接口922，将客户端计算机102中的软件程序108和连续学习程序110a以及网络服务器计算机112中的连续学习程序110b加载到相应的硬盘驱动器中。网络可以包括铜线、光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。

每组外部组件904a、904b可以包括计算机显示监视器924、键盘926和计算机鼠标928。外部组件904a、904b还可包括触摸屏、虚拟键盘、触摸板、指点设备和其他人机接口设备。每组内部组件902a、902b还包括连接到计算机显示监视器924、键盘926和计算机鼠标928的设备驱动器930。设备驱动器930、R/W驱动器或接口918和网络适配器或接口922包括硬件和软件(存储在存储设备916和/或ROM 910中)。

提前理解的是，虽然本公开包括关于云计算的详细描述，但是本文所引用的教导的实现不限于云计算环境。相反，本发明的实施例能够结合现在已知的或以后开发的任何其他类型的计算环境来实现。

云计算是一种服务交付模型，用于使得能够方便地、按需地访问可配置计算资源(例如，可配置计算资源的共享池)的共享池。网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)，其能够以最小的管理努力或与服务的提供商的交互快速地供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。

特性如下：

按需自助服务：云消费者可以单方面地根据需要自动地提供计算能力，诸如服务器时间和网络存储，而不需要与服务的提供者的人类交互。

广泛的网络接入：能力可通过网络获得并且通过标准机制接入，该标准机制促进异构瘦客户机平台或厚客户机平台(例如，移动电话、膝上型计算机和PDA)的使用。

资源池：提供者的计算资源被池化以使用多租户模型来服务于多个消费者，其中不同的物理和虚拟资源根据需要动态地指派和重新指派。存在位置独立性的感觉，因为消费者通常不具有对所提供的资源的确切位置的控制或了解，但可能能够以较高抽象级别(例如，国家、州或数据中心)指定位置。

快速弹性：能够快速和弹性地提供能力，在一些情况下自动地快速缩小和快速释放以快速放大。对于消费者而言，可用于供应的能力通常显得不受限制并且可以在任何时间以任何数量购买。

测量的服务：云系统通过在适合于服务类型(例如，存储、处理、带宽和活动用户账户)的某个抽象级别处利用计量能力来自动控制和优化资源使用。可以监视、控制和报告资源使用，为所利用的服务的提供者和消费者提供透明度。

服务模型如下：

软件即服务(SaaS)：提供给消费者的能力是使用在云基础设施上运行的提供者的应用。可通过诸如web浏览器(例如，基于web的电子邮件)之类的瘦客户端接口从不同客户端设备访问应用。消费者不管理或控制包括网络、服务器、操作系统、存储或甚至单独的应用能力的底层云基础设施，可能的例外是有限的用户特定应用配置设置。

平台即服务(PaaS)：提供给消费者的能力是将消费者创建的或获取的使用由提供商支持的编程语言和工具创建的应用部署到云基础设施上。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施，但是对所部署的应用和可能的应用托管环境配置具有控制。

分析即服务(AaaS)：提供给消费者的能力是使用基于web或基于云的网络(即，基础设施)来访问分析平台。分析平台可以包括对分析软件资源的访问或者可以包括对相关数据库、语料库、服务器、操作系统或存储的访问。消费者不管理或控制底层的基于web的或基于云的基础架构(包括数据库、语料库、服务器、操作系统或存储)，但是对所部署的应用和可能的应用托管环境配置具有控制。

基础设施即服务(IaaS)：提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其他基本计算资源，所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施，而是具有对操作系统、存储、所部署的应用的控制以及对所选联网组件(例如，主机防火墙)的可能受限的控制。

部署模型如下：

私有云：云基础架构仅为组织运作。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

社区云：云基础架构被若干组织共享并支持共享了关注(例如，任务、安全要求、策略、和合规性考虑)的特定社区。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

公共云：使云基础架构对公众或大型行业组可用，并且由出售云服务的组织拥有。

混合云：云基础架构是两个或更多个云(私有、社区或公共)的组合，这些云保持唯一实体但通过使数据和应用能够移植的标准化或专有技术(例如，云突发以用于云之间的负载平衡)绑定在一起。

云计算环境是面向服务的，集中于无状态、低耦合、模块化和语义互操作性。云计算的核心是包括互连节点网络的基础设施。

现在参考图5，描述了说明性云计算环境1000。如图所示，云计算环境1000包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点10，本地计算设备诸如例如个人数字助理(PDA)或蜂窝电话1000A、台式计算机1000B、膝上型计算机1000C和/或汽车计算机系统1000N。节点10可彼此通信。它们可以物理地或虚拟地分组(未示出)在一个或多个网络中，诸如如上所述的私有云、社区云、公共云或混合云、或其组合。这允许云计算环境1000提供基础设施、平台和/或软件作为云消费者不需要为其维护本地计算设备上的资源的服务。应当理解，图5中所示的计算设备1000A-N的类型旨在仅是说明性的，并且计算节点10和云计算环境1000可以通过任何类型的网络和/或网络可寻址连接(例如，使用网络浏览器)与任何类型的计算机化设备通信。

现在参考图6，示出了由云计算环境1000提供的一组功能抽象层1100。应提前理解，图6中所示的组件、层和功能仅旨在是说明性的，并且本发明的实施例不限于此。如所描述，提供以下层和对应功能：

硬件和软件层1102包括硬件和软件组件。硬件组件的示例包括：大型机1104；基于RISC(精简指令集计算机)架构的服务器1106；服务器1108；刀片式服务器1110；存储设备1112；以及网络和联网组件1114。在一些实施例中，软件组件包括网络应用服务器软件1116和数据库软件1118。

虚拟化层1120提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器1122；虚拟存储1124；虚拟网络1126，包括虚拟专用网络；虚拟应用和操作系统1128；以及虚拟客户端1130。

在一个示例中，管理层1132可以提供以下描述的功能。资源供应1134提供计算资源和用于在云计算环境内执行任务的其他资源的动态采购。计量和定价1136在云计算环境内利用资源时提供成本跟踪，并为这些资源的消费开账单或发票。在一个示例中，这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证，以及为数据和其他资源提供保护。用户门户1138为消费者和系统管理员提供对云计算环境的访问。服务水平管理1140提供云计算资源分配和管理，使得满足所需的服务水平。服务水平协议(SLA)规划和履行1142为云计算资源提供预安排和采购，根据该SLA预期该云计算资源的未来要求。

工作负载层1144提供可以利用云计算环境的功能的示例。可以从该层提供的工作负荷和功能的示例包括：地图和导航1146；软件开发和生命周期管理1148；虚拟教室教育传递1150；数据分析处理1152；事务处理1154；以及深度模型学习1156。连续学习程序110a、110b提供了一种在深度学习模型训练阶段期间使用起源数据来获得洞察力的方式。

本发明可以是任何可能的技术细节集成度的系统、方法和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储媒质(或多个媒质)。

计算机可读存储媒体可为可保留和存储供指令执行装置使用的指令的有形装置。计算机可读存储媒质可以是，例如但不限于，电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储媒质的更具体示例的非穷尽列表包括以下各项：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如穿孔卡之类的机械编码设备或具有记录在其上的指令的槽中的凸出结构、以及上述各项的任何合适的组合。如本文所使用的计算机可读存储媒体不应被解释为暂时性信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输媒体传播的电磁波(例如，穿过光纤电缆的光脉冲)或通过电线发射的电信号。

本文中所描述的计算机可读程序指令可以经由网络(例如，互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备，或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储媒质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或以一种或多种程序设计语言的任何组合编写的源代码或目标代码，这些程序设计语言包括面向对象的程序设计语言(诸如Smalltalk、C++等)和过程程序设计语言(诸如“C”程序设计语言或类似程序设计语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接至用户计算机，或者可连接至外部计算机(例如，使用互联网服务提供商通过互联网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令，以便执行本发明的各方面。

下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可被提供给计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储媒质中，这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作，从而，其中存储有指令的计算机可读存储媒质包括包含实现流程图和/或框图中的或多个方框中规定的功能/动作的方面的指令的制造品。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的处理，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的或多个方框中规定的功能/动作。

附图中的流程图和框图示出了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此，流程图或框图中的每个框可表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实现中，框中标注的功能可以不按照图中标注的顺序发生。例如，连续示出的两个方框实际上可以作为一个步骤完成，同时、基本上同时、以部分或完全时间上重叠的方式执行，或者方框有时可以以相反的顺序执行，这取决于所涉及的功能。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。

已经出于说明的目的呈现了本发明的各种实施方式的描述，但并不旨在是详尽的或者限于所公开的实施方式。在不脱离所描述的实施例的范围的情况下，许多修改和变化对于本领域普通技术人员来说是显而易见的。这里使用的术语被选择来最好地解释实施例的原理、实际应用或对在市场中找到的技术的技术改进，或者使得本领域普通技术人员能够理解这里公开的实施例。

Claims

1.一种方法，包括：

顺序地接收一个或多个任务；

将一个或多个可共享块应用于所述一个或多个任务；

学习用于所述一个或多个任务的一个或多个不同路径；

在所述一个或多个任务之间添加一个或多个交叉连接；

添加聚合块以从所述一个或多个任务中的每个任务的所述不同路径收集一个或多个输出；以及

提供预测。

2.根据权利要求1所述的方法，其中，顺序地接收所述一个或多个任务进一步包括：

接收一个或多个数据标签，其中所述一个或多个数据标签对应于所述一个或多个任务。

3.根据权利要求1所述的方法，进一步包括：

冻结所述一个或多个任务的一个或多个先前学习的不同路径的一个或多个神经元；以及

针对所述一个或多个任务训练所述一个或多个不同路径中的一个或多个神经元，其中所述一个或多个神经元被设置为可训练的。

4.根据权利要求3所述的方法，其中，冻结所述一个或多个任务的一个或多个先前学习的不同路径的所述一个或多个神经元进一步包括：

将所述一个或多个先前学习的不同路径的所述一个或多个神经元设置为不可训练的。

5.根据权利要求1所述的方法，其中，所述一个或多个不同路径包括一个或多个神经元，其中，所述一个或多个神经元具有一个或多个权重。

6.根据权利要求1所述的方法，其中，所述一个或多个任务之间的所述一个或多个交叉连接包括：

所述一个或多个任务之间的一个或多个前向交叉连接；以及

所述一个或多个任务之间的一个或多个后向交叉连接。

7.根据权利要求1所述的方法，其中，从所述一个或多个任务中的每个任务的所述不同路径收集所述一个或多个输出进一步包括：

通过所述聚合块聚合来自所述一个或多个任务的所述一个或多个不同路径的一个或多个隐藏激活。

8.根据权利要求1所述的方法，其中，在深度学习网络的最终层之前添加所述聚合块。

9.一种计算机系统，包括：

一个或多个处理器、一个或多个计算机可读存储器、一个或多个计算机可读有形存储介质、以及存储在所述一个或多个计算机可读有形存储介质中的至少一个上的程序指令，所述程序指令用于由所述一个或多个处理器中的至少一个经由所述一个或多个计算机可读存储器中的至少一个执行，其中所述计算机系统能够执行包括以下步骤的方法：

顺序地接收一个或多个任务；

将一个或多个可共享块应用于所述一个或多个任务；

学习用于所述一个或多个任务的一个或多个不同路径；

在所述一个或多个任务之间添加一个或多个交叉连接；

提供预测。

10.根据权利要求9所述的计算机系统，其中，依次接收所述一项或多项任务进一步包括：

11.根据权利要求9所述的计算机系统，进一步包括：

12.根据权利要求11所述的计算机系统，其中，冻结所述一个或多个任务的一个或多个先前学习的不同路径的所述一个或多个神经元进一步包括：

将所述一个或多个先前学习的不同路径中的所述一个或多个神经元设置为不可训练的。

13.根据权利要求9所述的计算机系统，其中，所述一个或多个不同路径包括一个或多个神经元，其中，所述一个或多个神经元具有一个或多个权重。

14.根据权利要求9所述的计算机系统，其中，所述一个或多个任务之间的所述一个或多个交叉连接包括：

所述一个或多个任务之间的一个或多个前向交叉连接；以及

所述一个或多个任务之间的一个或多个后向交叉连接。

15.根据权利要求9所述的计算机系统，其中，从所述一个或多个任务中的每个任务的所述不同路径收集所述一个或多个输出进一步包括：

16.根据权利要求9所述的计算机系统，其中，在深度学习网络的最终层之前添加所述聚合块。

17.一种计算机程序产品，包括：

一个或多个计算机可读有形存储介质以及存储在所述一个或多个计算机可读有形存储介质中的至少一个上的程序指令，所述程序指令可由处理器执行以使所述处理器执行包括以下步骤的方法：

顺序地接收一个或多个任务；

将一个或多个可共享块应用于所述一个或多个任务；

学习用于所述一个或多个任务的一个或多个不同路径；

在所述一个或多个任务之间添加一个或多个交叉连接；

提供预测。

18.根据权利要求17所述的计算机程序产品，其中，依次接收所述一个或多个任务进一步包括：

19.根据权利要求17所述的计算机程序产品，进一步包括：

训练用于所述一个或多个任务的所述一个或多个不同路径中的一个或多个神经元，其中所述一个或多个神经元被设置为可训练的。

20.根据权利要求19所述的计算机程序产品，其中，冻结所述一个或多个任务的一个或多个先前学习的不同路径的所述一个或多个神经元进一步包括：

21.根据权利要求17所述的计算机程序产品，其中，所述一个或多个不同路径包括一个或多个神经元，其中，所述一个或多个神经元具有一个或多个权重。

22.根据权利要求17所述的计算机程序产品，其中，所述一个或多个任务之间的所述一个或多个交叉连接包括：

所述一个或多个任务之间的一个或多个前向交叉连接；以及

所述一个或多个任务之间的一个或多个后向交叉连接。

23.根据权利要求17所述的计算机程序产品，其中，从所述一个或多个任务中的每个任务的所述不同路径收集所述一个或多个输出进一步包括：

24.根据权利要求17所述的计算机程序产品，其中，在深度学习网络的最终层之前添加所述聚合块。