CN116157804A

CN116157804A - 使用对等注意的神经网络模型

Info

Publication number: CN116157804A
Application number: CN202180060744.0A
Authority: CN
Inventors: M·S·柳; A·J·皮尔乔瓦尼; A·安杰洛瓦
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-07-14
Filing date: 2021-07-14
Publication date: 2023-05-23
Also published as: EP4094199A1; WO2022015822A1; US20230114556A1

Abstract

用于使用神经网络处理网络输入以生成网络输出的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。在一个方面，一种方法包括使用神经网络处理网络输入以生成网络输出，其中神经网络具有多个块，其中每个块被配置为处理块输入以生成块输出，该方法包括：针对神经网络的每个目标块，生成多个第一块输出的注意加权表示；针对每个第一块输出，该方法包括：处理多个第二块输出以生成注意因子；以及通过将相应的注意因子应用于相对应的第一块输出来生成每个第一块输出的注意加权表示；以及从注意加权表示生成目标块输入；以及使用目标块处理目标块输入以生成目标块输出。

Description

使用对等注意的神经网络模型

技术领域

本说明书涉及使用机器学习模型处理数据。

背景技术

机器学习模型接收输入并且基于接收到的输入生成输出，例如预测输出。一些机器学习模型是参数模型，并且基于接收的输入和模型的参数的值生成输出。

一些机器学习模型是采用多层模型来针对接收到的输入生成输出的深度模型。例如，深度神经网络是深度机器学习模型，其包括输出层和一个或多个隐藏层，每个隐藏层对接收的输入应用非线性变换以生成输出。

发明内容

本说明书总体上描述了一种系统，该系统被实现为位于一个或多个位置的一个或多个计算机上的计算机程序，用于使用神经网络来处理网络输入以生成网络输出。神经网络实现“对等注意(peer attention)”机制，即，其中处理神经网络中一个或多个块的输出以生成一组注意因子，该一组注意因子被应用于神经网络中另一块的输入的通道。“块”指代一个或多个神经网络层的组。

根据第一方面，提供了一种由一个或多个数据处理装置执行的方法，用于使用神经网络处理网络输入以生成网络输出，其中，神经网络包括多个块，该多个块中的每个包括一个或多个相应的神经网络层，其中，每个块被配置为处理相应的块输入以生成相应的块输出，该方法包括，对于神经网络的一个或多个目标块中的每个：生成到目标块的目标块输入，包括接收一个或多个相应第一块中的每个的相应第一块输出，其中，每个第一块输出包括多个通道，其中，第一块输出由第一块在由神经网络处理网络输入期间生成；生成每个第一块输出的相应注意加权表示，对于每个第一块输出，包括：接收一个或多个第二块中的每个的相应第二块输出，其中，第二块输出中的至少一个不同于第一块输出，其中，第二块输出由第二块在由神经网络处理网络输入期间生成；处理第二块输出以生成与第一块输出的每个通道相对应的相应注意因子；以及通过将每个注意因子应用于第一块输出的相对应的通道来生成第一块输出的注意加权表示；以及至少从第一块输出的注意加权表示生成目标块输入；以及使用目标块处理目标块输入以生成目标块输出。

在一些实施方式中，处理第二块输出以生成与第一块输出的每个通道相对应的相应注意因子包括：通过使用一组注意权重组合第二块输出来生成组合表示，其中，每个注意权重对应于相应的第二块输出；使用一个或多个神经网络层来处理组合表示，以生成与第一块输出的每个通道相对应的相应注意因子。

在一些实施方式中，通过使用该一组注意权重组合第二块输出来生成组合表示包括：通过相对应的注意权重的函数来缩放每个第二块输出；以及基于缩放的第二块输出的和来确定组合表示。

在一些实施方式中，使用一个或多个神经网络层来处理组合表示以生成与第一块输出的每个通道相对应的相应注意因子包括：使用在组合表示的空间维度上执行全局平均池化的池化层来处理组合表示；以及使用完全连接的神经网络层处理池化层的输出。

在一些实施方式中，注意权重的值在神经网络的训练期间学习。

在一些实施方式中，通过将每个注意因子应用于第一块输出的相对应的通道来生成第一块输出的注意加权表示包括：通过相对应的注意因子来缩放第一块输出的每个通道。

在一些实施方式中，至少从第一块输出的注意加权表示生成目标块输入包括：使用一组连接权重来组合第一块输出的注意加权表示，其中，每个连接权重对应于第一块输出的相应注意加权表示。

在一些实施方式中，使用该一组连接权重来组合第一块输出的注意加权表示包括：通过相对应的连接权重的函数来缩放第一块输出的每个注意加权表示。

在一些实施方式中，连接权重的值在神经网络的训练期间学习。

在一些实施方式中，神经网络中的每个块与等级序列中的相应等级相关联；并且对于与等级序列中第一等级之后的给定等级相关联的每个给定块，给定块仅接收来自与给定等级之前的等级相关联的其他块的块输出。

在一些实施方式中，目标块与目标等级相关联，并且目标块接收：(i)与目标等级之前的等级相关联的每个第一块的相应第一块输出，以及(ii)与目标等级之前的等级相关联的每个第二块的相应第二块输出。

在一些实施方式中，神经网络执行视频处理任务。

在一些实施方式中，网络输入包括多个视频帧。

在一些实施方式中，网络输入还包括定义一个或多个分割图的数据，其中，每个分割图对应于相应的视频帧，并且将视频帧的分割定义为一个或多个对象分类。

在一些实施方式中，网络输入还包括与多个视频帧相对应的多个光流帧。

在一些实施方式中，神经网络包括多个输入块，其中，每个输入块包括一个或多个相应的神经网络层，其中，多个输入块包括：(i)处理多个视频帧的第一输入块，以及(ii)处理一个或多个分割图的第二输入块。

在一些实施方式中，多个块中的每个块被配置为以相应的时间分辨率处理块输入。

在一些实施方式中，每个块包括一个或多个膨胀的(dilated)时间卷积层，其具有与该块的时间分辨率相对应的时间膨胀率。

在一些实施方式中，多个块中的每个块是包括一个或多个卷积神经网络层的空时卷积块。

在一些实施方式中，神经网络通过处理目标块输出来生成网络输出。

可以实现本说明书中描述的主题的特定实施例，以便实现一个或多个以下优点。

本说明书描述了一种实现“对等注意”机制的神经网络，即，其中处理神经网络中一个或多个块的输出以生成一组注意因子，该一组注意因子被应用于神经网络中另一块的输入的通道。通常，神经网络中不同块的输出可以在不同的抽象等级上编码不同的信息。使用对等注意使得神经网络能够通过整合各种抽象等级上不同的信息来关注网络输入的相关特征，并且由此可以提高神经网络的性能(例如，预测精度)。此外，使用对等注意可以使神经网络能够在较少的训练迭代中实现可接受的性能水平，从而减少训练期间计算资源(例如，存储器和计算电力)的消耗。

对等注意机制可以是灵活的和数据驱动的，例如，因为注意权重(即，控制每个块对应用于每个其他块的输入通道的注意因子施加的影响)是学习的，并且因为注意因子动态地以网络输入为条件。因此，与传统的注意机制(例如，可以手工设计或硬编码的注意机制)相比，对等注意机制可以更好地提高神经网络的性能。

该神经网络可以通过处理多模态输入来执行视频处理任务，该多模态输入包括：(i)一组视频帧，(ii)光流帧，每个光流帧对应于两个连续视频帧之间的对象的表观运动，以及(iii)分割图，每个分割图对应于相应视频帧并且将视频帧的分割定义为一个或多个对象分类。处理视频帧、光流帧和分割图使得神经网络能够学习语义对象信息与原始表观和运动特征之间的交互，与不处理分割图的神经网络相比，这可以提高神经网络的性能(例如，预测精度)。

本说明书主题的一个或多个实施例的细节在附图和以下描述中阐述。根据说明书、附图和权利要求书，本主题的其他特征、方面和优点将变得明显。

附图说明

图1是示例神经网络系统的框图。

图2是示出用于实现对等注意以生成针对目标块的目标块输入的处理的示例数据流的图。

图3是用于生成针对目标块的目标块输入的示例处理的流程图。

图4是用于针对相应的第一块输出生成注意因子的示例处理的流程图。

不同附图中相同的附图标记和名称指示相同的元件。

具体实施方式

图1示出了示例神经网络系统100。神经网络系统100是实现为一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例，其中，实现了下面描述的系统、组件和技术。

神经网络系统100使用按照等级排列的一个或多个块来处理网络输入102，以生成表征网络输入的网络输出104。一个或多个块以有序的等级序列来排列，使得每个块仅属于其中一个层级。一个或多个块中的每个块被配置为使用一个或多个神经网络层来处理块输入，以生成块输出。

神经网络系统100可以被配置为处理任何适当的网络输入，例如，网络输入102。网络输入102可以具有空间和时间维度。例如，网络输入可以包括视频帧序列、对应于视频帧序列的光流帧序列、对应于视频帧序列的对象分割图序列或其组合。在其他示例中，网络输入可以包括图像的表示(例如，由图像中每个像素的强度值或RGB值表示)、音频波形、点云(例如，由激光雷达或雷达传感器生成)、蛋白质、词语序列(例如，形成一个或多个句子或段落)、视频(例如，由视频帧序列表示)、一个或多个光流图像(例如，从视频帧序列生成)，分割图(例如，由图像中的每像素或视频帧序列中的视频帧中的每像素的整数类值的独热(one-hot)编码来表示，其中每个整数类值表示不同的对象分类)或其任意组合。

神经网络系统100可以被配置为生成任何适当的网络输出，例如，表征网络输入的网络输出104。例如，神经网络输出可以是分类输出、回归输出、序列输出(即，包括输出元素序列)、分割输出或其组合。神经网络系统中的每个等级可以包括任何适当数量的块。每个等级中的块的数量和每个等级中的块的架构可以以任何适当的方式选择，例如，可以从系统100的用户接收作为输入，或者可以由架构搜索系统确定。参考申请号为PCT/US2020/34267的PCT申请，更详细地描述了用于确定每个等级中块的相应数量和架构的架构搜索系统的示例，该PCT申请通过引用合并于此。

神经网络系统100可以被配置为具有多种块类型。也就是说，每个块可以具有神经网络层的相应组合，以及对应于神经网络层的相应组合的相应神经网络参数值。块可以具有使得其能够执行其所描述的功能(即，处理块输入以生成表征块输入的块输出)的任何适当的神经网络结构。具体而言，块可以包括任何适当的数量(例如，1层、5层或25层)的并且以任何适当的配置连接(例如，作为线性的层序列)的任何适当类型的神经网络层(例如，全连接层、注意层、卷积层等)。

例如，系统可以具有用于等级1的各种输入块(例如，处理各种相对应的网络输入类型)、各种中间块以及用于最终等级的一个或多个输出块(例如，生成各种网络输出)。

每个块可以是空时卷积块，即，包括一个或多个卷积神经网络层并且被配置为处理空时输入以生成空时输出的块。空时数据指代数值的有序集合，例如，数值的张量，其包括多个空间维度、时间维度以及可选地包括通道维度。每个块可以生成具有相应的数量的通道的输出。每个通道可以表示为数值的有序集合，例如数值的2D阵列，并且可以对应于例如块中输出卷积层中的多个滤波器中的一个。

每个块可以包括例如空间卷积层(即，具有在空间维度中定义的卷积核)、时空卷积层(即，具有跨空间和时间维度定义的卷积核)以及时间卷积层(即，具有在时间维度中定义的卷积核)。多个块中的每个块可以例如被配置为以相应的时间分辨率处理块输入。

每个块可以包括例如一个或多个膨胀的时间卷积层(即，具有在时间维度中定义的卷积核，其中，对于正常的时间卷积层，膨胀因子等于1，或者对于膨胀的时间卷积层，膨胀因子大于1)。每个块的时间膨胀率可以对应于该块的时间分辨率。

这里描述的系统可广泛地应用并且不限于一种特定的实施方式。然而，为了说明的目的，下面描述了少量的示例实施方式。

在一些实施方式中，神经网络可以被配置为执行视频处理任务。在这些实施方式中，神经网络可以处理网络输入，该网络输入包括多个视频帧的序列，并且可选地还包括其他数据，例如，对应于视频帧序列的光流帧序列、从一个或多个视频帧中的每个生成的相应的分割图(例如，包括视频帧中每个像素的分类值)，或者两者。

在一个示例中，视频处理任务是动作分类任务，其中，神经网络生成动作分类输出，该动作分类输出包括针对一组可能动作中的每个动作的相应分数。动作的分数可以表征视频帧描绘执行动作(例如，跑步、行走等)的代理(例如，人、动物或机器人)的可能性。在一些情况下，动作分类输出包括与多个对象分类中的每个相关的相应的一组可能动作中的每个动作的相应分数。与特定对象相关的动作的分数可以表征视频帧描绘代理(例如，人、动物或机器人)与对象一起执行动作的可能性，例如，代理正在阅读书籍、讲电话、骑自行车、驾驶汽车等。

在另一示例中，视频处理任务是超分辨率任务，例如，其中神经网络生成具有比视频帧的输入序列更高的空间和/或时间分辨率的视频帧的输出序列。

在另一示例中，视频处理任务是伪像消除任务，例如，其中神经网络生成作为视频帧的输入序列的增强版本的视频帧的输出序列，其排除了视频帧的输入序列中存在的一个或多个伪像。

在一些实施方式中，神经网络可以被配置为处理图像以生成对象识别输出，该对象识别输出包括针对一组可能的对象分类中的每个对象分类的相应分数。对象分类的分数可以表征图像描绘对象分类中的对象(例如路标、车辆、自行车等)的可能性。

在一些实施方式中，神经网络可以被配置为处理患者的一个或多个医疗图像(例如，磁共振图像(MRIs)、计算机断层摄影(CT)图像、超声(US)图像或光学相干断层摄影(OCT)图像)，以生成表征医疗图像的网络输出。网络输出可以包括例如：(i)多个转诊决定中的每个的相应转诊分数，其表示该转诊决定是针对该患者最适当的转诊决定的预测可能性，(ii)一个或多个医疗状况中的每个的相应状况分数，其表示该患者处于该医疗状况的预测可能性，(iii)一个或多个状况状态中的每个的相应进展分数，其表示对应的医学状况的状态将在特定未来时间进展到该状况状态的预测可能性，和/或(iv)多个治疗中的每个的相应治疗分数，其表示该治疗是用于患者的最佳治疗的预测可能性。

在一些实施方式中，神经网络可以被配置为处理观察结果(observation)(例如，包括图像、视频帧序列、光流帧序列等中的一个或多个)，其表征环境的状态以生成动作选择输出，该动作选择输出包括可以由代理执行的一组可能动作中的每个动作的相应分数。可以使用动作选择输出来选择要由代理执行的动作，例如，通过选择具有最高分数的动作。代理可以是例如与真实世界环境交互的机械或机器人代理，或者与模拟环境交互的模拟代理。

通常，神经网络系统100具有多于一个块等级。每个块等级可以具有一个或多个块，并且每个块可以包括不同的神经网络层类型。神经网络系统100可以包括用于处理网络输入102的等级1中的各种输入块(例如，块110a、块110b、块110c等)、用于进一步处理来自输入块的块输出的中间等级2至N-1中的各种块(例如，等级2中的块120a、120b、120c、…以及等级3中的块130a、130b、130c、…等)以及最终等级N中的输出块(例如，块140)以生成网络输出104。例如，神经网络系统100可以具有等级1，其包括处理各种输入类型的各种输入块，例如处理原始RGB视频输入的输入块、处理表征RGB视频输入的光流数据的输入块、以及处理(例如，为原始RGB视频输入中的每个视频帧生成的)分割图的输入块。每个块输入模态可以被馈送到多个输入块，例如，单个原始RGB视频输入可以去往被配置为处理原始RBG视频输入的多个输入块。

神经网络可以通过处理多模态输入来执行机器学习任务。例如，神经网络可以通过处理下述来执行视频处理：(i)一组视频帧，和(ii)针对视频帧中的每个的相应分割图，该分割图定义了到一个或多个对象分类的视频分割。视频处理任务可以包括例如动作分类任务，例如，标识场景中的代理(例如人、动物或机器人)正在执行与对象分类中的一个相关的动作，例如阅读书籍、驾驶汽车、骑自行车或讲电话。处理视频帧和分割图可以使神经网络能够学习语义对象信息与原始表观和运动特征之间的交互，与不处理分割图的神经网络相比，这可以提高神经网络的性能(例如，预测精度)。

神经网络系统100使用第一等级中的输入块来处理网络输入，并且通过处理来自先前等级的一个或多个相应块的块输出来针对第一等级之后的每个级中的每个块生成块输入。通常，对于与等级序列中第一等级之后的给定等级相关联的每个给定块，给定块仅接收来自与之前给定等级的等级相关联的其他块的块输出。在图1中使用箭头示出了块之间的连接。也就是说，所示的表示一个块的输出的箭头被提供给另一块。例如，为了生成目标块130b的块输入，系统可以处理来自块110a、块110b和块120c的块输出。块之间的连接可以跳过等级，诸如来自块110c的块输出对目标块140的块输入有贡献。

每个块输出包括一组通道。通道可以由数值的有序集合来表示，例如，数值的向量或矩阵。例如，块输出可以具有多个输出通道，块输出中的每个输出通道对应于块中的不同卷积滤波器。

系统100可以使用“对等注意”针对第一等级之后的块中的一些或所有生成相应的块输入。该系统使用注意因子引擎106来实现对等注意，如将在下面参考图2更详细地讨论。

神经网络系统100具有一组神经网络参数。系统可以使用训练引擎108更新神经网络参数。

训练引擎108可以使用一组训练数据来训练神经网络系统100。该一组训练数据可以包括多个训练示例，其中，每个训练示例指定：(i)对于神经网络的训练输入，以及(ii)通过处理训练输入而应当由神经网络生成的目标输出。例如，每个训练示例可以包括：指定视频帧序列和/或相对应的光流帧序列的训练输入，以及例如指示视频帧中描绘的人正在执行的动作的目标分类输出。训练引擎108可以使用任何适当的机器学习训练技术来训练神经网络系统100，例如随机梯度下降，其中，目标函数的梯度在一次或多次训练迭代的每次通过神经网络反向传播。目标函数可以是例如交叉熵目标函数，或者任何其他适当的目标函数。

将理解，通过适当选择训练数据和/或损失函数，可以为除分类任务之外的视频处理任务训练神经网络系统100。例如，使用包括下采样视频和相对应的更高分辨率基准真值(ground truth)视频的训练集、采用损失函数，针对超分辨率(在空间域和/或时间域中)来训练神经网络系统100，该损失函数将神经网络的输出与对应于输入到神经网络的下采样视频的更高分辨率基准真值视频进行比较，例如L1或L2损失。作为另一示例，神经网络系统100可以被训练以从视频中去除一种或多种类型的图像/视频伪像，诸如可能在视频编码期间引入的块伪像。在这个示例中，训练数据集可以包括一组基准真值视频，每个具有一个或多个相对应的“退化”视频(即，引入了一种或多种类型的伪像)，其中，损失函数将神经网络系统100的输出与对应于输入到神经网络系统100的退化视频的基准真值视频进行比较，例如L1或L2损失。

图2示出了示例数据流200的图，其示出了由实现对等注意的神经网络系统执行的操作，以生成在第一等级之后的任何等级中的块的块输入，为了方便起见，该块被称为“目标”块。也就是说，目标块可以指代第一等级的块之后的任何块。上文参考图1更详细地描述了可以执行数据流200的操作的神经网络系统的示例，例如神经网络系统100。

系统通过处理一个或多个其他块中的每个的相应块输出来生成相应块输出的组合表示，从而生成目标块的目标块输入。然后，目标块可以将组合表示作为目标块输入来处理，以生成目标块输出。

系统接收一个或多个“第一”块中的每个的相应块输出(例如，分别地来自块202a、202b和202c的第一块输出204a、204b和204c)，其中，每个第一块可以来自目标块的目标等级之前的任何等级。(为了方便起见，向目标块提供块输出的每个块将被称为第一块。)第一块输出每个都包括多个通道，并且每个都是在网络输入(例如，图1的网络输入102)的处理期间由相应的第一块生成的。例如，相应第一块输出中的每个通道可以对应于相应第一块中卷积层中的滤波器。

对于每个第一块输出，系统通过处理一个或多个“第二”块中的每个的相应的块输出来为第一块输出的每个通道生成相应的注意因子，其中，相应的第二块中的至少一个不同于第一块。(为了方便起见，生成用于生成将被应用于第一块输出的通道的注意因子的块输出的每个块将被称为“第二”块)。每个第二块输出来自目标块的目标等级之前的等级中的块。通常，被处理以生成针对一个第一块输出的注意因子的一组第二块输出可以不同于被处理以生成针对另一第一块输出的注意因子的一组第二块。

该系统可以使用注意因子引擎106从一个或多个第二块输出生成相应的注意因子。例如，注意因子引擎可以生成相应的第二块输出的组合表示，并且处理该组合表示以生成相应的注意因子，如参考图4进一步详细讨论地。参考图2，示出了被处理以生成第一块输出204a的相应注意因子208a的相应第二块输出(即，第二块输出206a、206b和206c)。为了方便起见，从图中省略了被处理以生成注意因子208b(即，针对第一块输出204b)的相应第二块输出和被处理以生成注意因子208c(即，针对第一块输出204c)的相应第二块输出。注意因子可以由数值表示，例如浮点数值。块输出的一组注意因子可以由有序数值的集合(例如，浮点数值的向量)来表示，其中，每个值对应于块输出的通道。

对于每个第一块输出，系统生成第一块输出的注意加权表示。系统可以通过将每个注意因子应用于第一块输入的相对应的通道来生成第一块输出的注意加权表示。例如，系统可以通过下述生成注意加权表示：通过相对应的注意因子来缩放第一块输出的每个通道。参考图2，系统将注意因子208a应用于第一块输出204a以生成注意加权表示210a，将注意因子208b应用于第一块输出204b以生成注意加权表示210b，以及将注意因子208c应用于第一块输出204c以生成注意加权表示210c。

系统通过处理注意加权表示210a、210b和210c来生成目标块输入214。系统可以通过生成注意加权表示的组合表示来生成目标块输入214。例如，系统可以使用一组连接权重212来生成注意加权表示的加权和，如参考图3进一步详细讨论地。参考图2，系统通过下述来生成目标块输入214：通过连接权重212中的相对应的权重的函数来缩放每个注意加权表示，然后对缩放的注意加权表示求和。

目标块216处理目标块输入214，以生成表征目标块输入214的目标块输出218。通常，目标块输出218具有多个通道。在一些情况下，对于后续等级中的一个或多个目标块，目标块输出218可以被处理为相应的第一块输出、相应的第二块输出或两者。在另一情况下，目标块216可以处理目标块214，使得目标块输出218是网络输出。

图3是用于生成针对目标块的目标块输入的示例处理的流程图。为了方便起见，处理300将被描述为由位于一个或多个位置的一个或多个计算机的系统来执行。例如，根据本说明书适当地编程的神经网络系统，例如图1的神经网络系统100，可以执行处理300。

系统接收一个或多个第一块的相应第一块输出(302)。每个第一块可以来自目标块的目标等级之前的任何等级。例如，对于神经网络系统的等级5中的目标块，系统可以从等级1、2、3、4或其任意组合中的第一块接收相应的第一块输出。

对于每个第一块输出，系统实现“对等注意”机制，即，处理神经网络中的一个或多个第二块(其中，第二块中的至少一个不同于第一块)的输出，以生成应用于第一块输出的通道的一组注意因子，如步骤304-306所述。为方便起见，提供输出以生成针对第一块输出的注意因子的第二块将被称为“注意连接”。

对于每个第一块输出，系统接收一个或多个第二块中的每个的相应第二块输出(304)，其中，第二块中的至少一个不同于第一块。每个第二块可以在目标块的目标等级之前的任何等级中。例如，对于等级5中的目标块和等级2中的第一块，第二块可以在等级1、2、3或4中。

对于每个第一块输出，系统生成相应的注意因子(306)。系统可以通过处理一个或多个第二块输出来为第一块输出的每个通道生成注意因子。例如，系统可以生成一个或多个第二块输出的组合表示，并且使用一个或多个神经网络层来处理该组合表示，以生成针对第一块输出的注意因子，如参考图4进一步详细讨论地。

通常，神经网络中不同模块的输出可以在不同的抽象等级上编码不同的信息。使用对等注意使得神经网络能够通过整合各种抽象等级上不同的信息来关注网络输入的相关特征，并且由此可以提高神经网络的性能(例如，预测精度)。此外，使用对等注意可以使得神经网络能够在较少的训练迭代中实现可接受的性能水平，从而减少训练期间计算资源(例如，存储器和计算电力)的消耗。

对于每个第一块输出，系统生成第一块输出的注意加权表示(308)。系统可以通过将每个注意因子应用于第一块输出的相对应的通道来生成第一块输出的注意加权表示。例如，系统可以如下使用逐元素乘法，通过相对应的注意因子来缩放第一块输出的每个通道，

其中，j对第一块进行索引，

表示第一块输出的注意加权表示，A_j表示对应于第一块输出的注意因子，以及/>

表示第一块j的相应的第一块输出。

系统至少部分地基于第一块输出的注意加权表示来生成针对目标块的目标块输入(310)。例如，系统可以使用一组连接权重，例如图2中的连接权重212，基于第一块输出的注意加权表示的加权和来生成目标块输入，如下

其中，i对目标块进行索引，j对第一块进行索引，

表示目标块输入，/>

表示第一块j的第一块输出的注意加权表示，σ(.)表示sigmoid函数，w_ji表示从块j到块i的连接权重，以及P(i)返回对目标块i有贡献的第一块的所有j。连接权重是可学习的参数，其可以被例如图1的训练引擎108训练。

通常，任何块都可以接收来自之前等级中任何块的块输出，并且这些块可以以任何适当的方式连接。在一些实施方式中，块可以最初完全连接，即，使得每个等级中的每个块向每个后续等级中的每个块提供其块输出。在训练神经网络期间，训练与每个块连接相关联的相应连接权重，并且可选地，在训练期间或之后，可以移除(“修剪”)块连接中的一些。例如，系统可以可选地移除具有小于预定值的连接权重的任何连接，或者系统可以移除具有最低值的连接权重的预定数量的连接。

图4是用于针对相应的第一块输出生成注意因子的示例处理的流程图。为了方便起见，处理400将被描述为由位于一个或多个位置的一个或多个计算机的系统来执行。例如，根据本说明书适当地编程的注意因子引擎，例如图1的注意因子引擎106，可以执行处理400。

系统接收一个或多个第二块中的每个的相应第二块输出(402)。每个第二块可以来自目标块的目标等级之前的任何等级。例如，如果目标块来自等级3，则第二块可以来自等级1、等级2或两者的组合。

系统通过相对应的注意权重的函数来缩放每个第二块输出(404)。相对应的注意权重是可学习的参数，其可以被例如图1的训练引擎108训练，并且每个注意权重对应于第二块输出。在一个示例中，系统可以将softmax函数应用于与每个第二块输出相对应的注意权重，然后通过由softmax函数输出的相对应的注意权重来缩放每个第二块输出。使用softmax函数可以强调最有影响的一个或多个第二块的贡献。

系统生成缩放的第二块输出的组合表示(406)。例如，系统可以如下对组合表示进行表示，

其中，i对目标块进行索引，k对第二块进行索引，X^com表示第二块输出的组合表示，

表示第二块k的相应第二块输出，H表示包括针对每个第二块输出的相应的注意权重的向量，softmax_k(H)表示向量H的softmax的第k分量，以及Q(i)返回针对组合表示有贡献的第二块的所有k。注意权重是可学习的参数，其可以被例如图1的训练系统108训练。

一般而言，任何块可以接收来自在之前等级中的任何数量的第二块的第二块输出，即，通过相应的注意连接，以用于生成第一块输出的注意加权表示。在一些实施方式中，系统可以将块初始化为与注意连接完全连接，即，使得对于处理通过对等注意生成的块输入的任何块，使用每个可行的第二块输出来生成每个第一块输出的注意加权表示。在神经网络的训练期间，与每个注意连接相关联的相应注意权重被训练，并且可选地，注意连接中的一些可以在训练期间或之后被移除(“修剪”)。例如，系统可以可选地移除具有小于预定值的注意权重的任何注意连接，或者系统可以移除具有最低注意权重值的预定数量的注意连接。

对等注意机制可以是灵活的和数据驱动的，例如，因为注意权重是学习的，并且因为每个注意因子动态地以网络输入为条件。因此，与传统的注意机制(例如，可以手工设计或硬编码的注意机制)相比，对等注意机制可以更好地提高神经网络的性能。

系统通过使用一个或多个神经网络层处理组合表示来生成注意因子(408)。例如，系统可以使用每个通道的空间维度上的全局平均池化层，随后的全连接层和逐元素的sigmoid函数来处理组合表示，如下所示

A_j＝σ(f(GAP(X^com))), (3)

其中，j对第一块进行索引，A_j表示第一块j的注意因子，σ(.)表示逐元素的sigmoid函数，f表示全连接神经网络层，GAP(.)表示全局平均池化，以及X^com表示第二块输出的组合表示。全连接层输出下述向量：其元素数量等于相对应的第一块输出的通道数量。

本说明书结合系统和计算机程序组件来使用术语“配置”。对于被配置为执行特定操作或动作的一个或多个计算机的系统，意味着该系统已经在其上安装了在操作时使得系统执行操作或动作的软件、固件、硬件或其组合。对于被配置为执行特定操作或动作的一个或多个计算机程序，意味着一个或多个程序包括指令，该指令当由数据处理装置执行时，使得该置执行操作或动作。

本说明书中描述的主题和功能操作的实施例可以实现在数字电子电路、有形体现的计算机软件或固件、计算机硬件中，包括本说明书中公开的结构及其结构等同物，或者其中的一个或多个的组合。本说明书中描述的主题的实施例可以被实现为一个或多个计算机程序，即，编码在有形非易失性存储介质上的计算机程序指令的一个或多个模块，用于由数据处理装置执行或控制数据处理装置的操作。计算机存储介质可以是机器可读存储设备、机器可读存储基底、随机或串行存取存储器设备，或者其中的一个或多个的组合。替选地或附加地，程序指令可以被编码在人工生成的传播信号上，例如，机器生成的电、光或电磁信号，其被生成以编码信息，用于传输到合适的接收器装置以供数据处理装置执行。

术语“数据处理装置”指代是数据处理硬件，并且包含用于处理数据的所有种类的装置、设备和机器，例如包括可编程处理器、计算机或多个处理器或计算机。该装置还可以是或进一步包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，该装置可以可选地包括为计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或其中的一个或多个的组合的代码。

也可以被称为或描述为程序、软件、软件应用、app、模块、软件模块、脚本或代码的计算机程序可以以任何形式的编程语言编写，包括编译或解释语言，或者声明性或过程性语言；并且它可以以任何形式部署，包括作为独立程序或作为模块、组件、子例程或适用于计算环境的其他单元。程序可以但不需要对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分中，例如，存储在标记语言文档中的一个或多个脚本，存储在专用于所讨论的程序的单个文件中；或者存储在多个协作文件中，例如，存储一个或多个模块、子程序或代码部分的文件。计算机程序可以被部署为在一个计算机或位于一个地点或分布在多个地点并通过数据通信网络互连的多个计算机上执行。

在本说明书中，术语“引擎”被广泛地用来指代被编程来执行一个或多个特定功能的基于软件的系统、子系统或处理。通常，引擎将被实现为安装在一个或多个位置的一个或多个计算机上的一个或多个软件模块或组件。在一些情况下，一个或多个计算机将专用于特定的引擎；在其他情况下，可以在同一或多个计算机上安装和运行多个引擎。

本说明书中描述的处理和逻辑流程可以由一个或多个可编程计算机来执行，所述一个或多个可编程计算机执行一个或多个计算机程序以通过对输入数据进行操作并且生成输出来执行功能。这些处理和逻辑流程也可以由专用逻辑电路(例如FPGA或ASIC)来执行，或者由专用逻辑电路和一个或多个编程计算机的组合来执行。

适于执行计算机程序的计算机可以基于通用或专用微处理器或两者，或者任何其他种类的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行或运行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。中央处理单元和存储器可以由专用逻辑电路来补充或并入其中。通常，计算机还将包括或可操作地耦合到用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘，以从该大容量存储设备接收数据或向其传送数据，或者两者。然而，计算机不必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如，移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备，例如通用串行总线(USB)闪存驱动器，仅举几例。

适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括例如，半导体存储器设备，例如EPROM、EEPROM和闪速存储器设备；磁盘，例如，内部硬盘或可移动磁盘；磁光盘；以及CDROM和DVD-ROM盘。

为了提供与用户的交互，本说明书中描述的主题的实施例可以在计算机上实现，该计算机具有：用于向用户显示信息的显示设备，例如CRT(阴极射线管)或LCD(液晶显示器)监视器；以及用户可以用来向计算机提供输入的键盘和指点设备，例如鼠标或轨迹球。也可以使用其他类型的设备来提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声音、语音或触觉输入。另外，计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互；例如，通过响应于从web浏览器接收的请求，向用户设备上的web浏览器发送网页。另外，计算机可以通过向个人设备(例如，运行消息应用的智能电话)发送文本消息或其他形式的消息，并且转而接收来自用户的响应消息来与用户交互。

用于实现机器学习模型的数据处理装置还可以包括例如专用硬件加速器单元，其用于处理机器学习训练或生产的通用和计算密集型部分，即推理、工作负载。

机器学习模型可以使用机器学习框架来实现和部署，例如TensorFlow框架、微软认知工具包框架、Apache Singa框架或Apache MXNet框架。

本说明书中描述的主题的实施例可以在计算系统中实现，该计算系统包括后端组件，例如作为数据服务器；或者包括中间件组件，例如应用服务器；或者包括前端组件，例如具有图形用户界面的客户端计算机、web浏览器或用户可以通过其与本说明书中描述的主题的实现交互的app；或者一个或多个这样的后端、中间件或前端组件的任何组合。该系统的组件可以通过任何形式或介质的数字数据通信(例如通信网络)来互连。通信网络的示例包括局域网(LAN)和广域网(WAN)，例如互联网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络进行交互。客户端和服务器的关系源自于在相应的计算机上运行的并且彼此具有客户端-服务器关系的计算机程序。在一些实施例中，服务器向用户设备发送数据，例如HTML页面，例如为了向与充当客户端的设备交互的用户显示数据并且从该用户接收用户输入。可以在服务器处从设备接收在用户设备处生成的数据，例如用户交互的结果。

虽然本说明书包含许多具体的实施细节，但是这些不应当被解释为对任何发明的范围或者对所要求保护的范围的限制，而是对特定发明的特定实施例所特有的特征的描述。本说明书中在分离的实施例的上下文中描述的某些特征也可以在单个实施例中组合实现。相反，在单个实施例的上下文中描述的各种特征也可以在多个实施例中分离地或以任何合适的子组合来实现。此外，尽管特征可以在上面被描述为在某些组合中起作用，并且甚至最初被如此要求保护，但是来自所要求保护的组合的一个或多个特征在一些情况下可以从该组合中删除，并且所要求保护的组合可以针对子组合或子组合的变体。

类似地，尽管以特定顺序在附图中描述了并且在权利要求中叙述了操作，但是这不应当被理解为要求这些操作以所示的特定顺序或连续顺序来执行，或者要求所有示出的操作都被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中都需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中或者打包成多个软件产品。

已经描述了主题的特定实施例。其他实施例在所附权利要求的范围内。例如，权利要求中所陈述的动作可以以不同的顺序来执行，并且仍然可以获得期望的结果。作为一个示例，附图中描绘的处理不一定需要所示的特定顺序或连续的顺序来实现期望的结果。在一些情况下，多任务和并行处理可能是有利的。

Claims

1.一种由一个或多个数据处理装置执行的方法，用于使用神经网络处理网络输入以生成网络输出，其中，神经网络包括多个块，所述多个块中的每个包括一个或多个相应的神经网络层，其中，每个块被配置为处理相应的块输入以生成相应的块输出，所述方法包括对于神经网络的一个或多个目标块中的每个：

生成到目标块的目标块输入，包括：

接收一个或多个相应第一块中的每个的相应第一块输出，其中，每个第一块输出包括多个通道，其中，第一块输出由第一块在由神经网络处理网络输入期间生成；

生成每个第一块输出的相应注意加权表示，对于每个第一块输出，包括：

接收一个或多个第二块中的每个的相应第二块输出，其中，第二块输出中的至少一个不同于第一块输出，其中，第二块输出由第二块在由神经网络处理网络输入期间生成；

处理第二块输出以生成与第一块输出的每个通道相对应的相应注意因子；和

通过将每个注意因子应用于第一块输出的相对应的通道，生成第一块输出的注意加权表示；和

至少从第一块输出的注意加权表示生成目标块输入；和

使用目标块处理目标块输入以生成目标块输出。

2.根据权利要求1所述的方法，其中，处理第二块输出以生成与第一块输出的每个通道相对应的相应注意因子包括：

通过使用一组注意权重组合第二块输出来生成组合表示，其中，每个注意权重对应于相应的第二块输出；

使用一个或多个神经网络层处理组合表示，以生成与第一块输出的每个通道相对应的相应注意因子。

3.根据权利要求2所述的方法，其中，通过使用所述一组注意权重组合第二块输出来生成组合表示包括：

通过相对应的注意权重的函数来缩放每个第二块输出；和

基于缩放的第二块输出的和来确定组合表示。

4.根据权利要求2-3中任一项所述的方法，其中，使用一个或多个神经网络层处理组合表示以生成与第一块输出的每个通道相对应的相应注意因子包括：

使用在组合表示的空间维度上执行全局平均池化的池化层来处理组合表示；和

使用完全连接的神经网络层处理池化层的输出。

5.根据权利要求2-4中任一项所述的方法，其中，注意权重的值在神经网络的训练期间学习。

6.根据前述任一项权利要求所述的方法，其中，通过将每个注意因子应用于第一块输出的相对应的通道来生成第一块输出的注意加权表示包括：

通过相对应的注意因子来缩放第一块输出的每个通道。

7.根据前述任一项权利要求所述的方法，其中，至少从第一块输出的注意加权表示生成目标块输入包括：

使用一组连接权重来组合第一块输出的注意加权表示，其中，每个连接权重对应于第一块输出的相应注意加权表示。

8.根据权利要求7所述的方法，其中，使用所述一组连接权重来组合第一块输出的注意加权表示包括：

通过相对应的连接权重的函数来缩放第一块输出的每个注意加权表示。

9.根据权利要求7-8中任一项所述的方法，其中，连接权重的值在神经网络的训练期间学习。

10.根据前述任一项权利要求所述的方法，其中：

神经网络中的每个块与等级序列中的相应等级相关联；和

对于与等级序列中第一等级之后的给定等级相关联的每个给定块，给定块仅接收来自与给定等级之前的等级相关联的其他块的块输出。

11.根据权利要求10所述的方法，其中，目标块与目标等级相关联，并且目标块接收：(i)与目标等级之前的等级相关联的每个第一块的相应第一块输出，以及(ii)与目标等级之前的等级相关联的每个第二块的相应第二块输出。

12.根据前述任一项权利要求所述的方法，其中，所述神经网络执行视频处理任务。

13.根据权利要求12所述的方法，其中，所述网络输入包括多个视频帧。

14.根据权利要求13所述的方法，其中，所述网络输入还包括定义一个或多个分割图的数据，其中，每个分割图对应于相应的视频帧，并且将视频帧的分割定义为一个或多个对象分类。

15.根据权利要求13-14中任一项所述的方法，其中，所述网络输入还包括与多个视频帧相对应的多个光流帧。

16.根据权利要求14-15中任一项所述的方法，其中，所述神经网络包括多个输入块，其中，每个输入块包括一个或多个相应的神经网络层，其中，多个输入块包括：(i)处理多个视频帧的第一输入块，以及(ii)处理所述一个或多个分割图的第二输入块。

17.根据权利要求12-16中任一项所述的方法，其中，所述多个块中的每个块被配置为以相应的时间分辨率处理块输入。

18.根据权利要求17所述的方法，其中，每个块包括一个或多个膨胀的时间卷积层，所述膨胀的时间卷积层具有与所述块的时间分辨率相对应的时间膨胀率。

19.根据权利要求12-18中任一项所述的方法，其中，所述多个块中的每个块是包括一个或多个卷积神经网络层的时空卷积块。

20.根据前述任一项权利要求所述的方法，其中，所述神经网络通过处理目标块输出来生成网络输出。

21.一种系统，包括：

一个或多个计算机；和

一个或多个存储设备，通信地耦合到所述一个或多个计算机，其中，所述一个或多个存储设备存储指令，所述指令当由所述一个或多个计算机执行时，使得所述一个或多个计算机执行权利要求1-20中任一项所述的相应方法的操作。

22.一个或多个存储指令的非暂时性计算机存储介质，所述指令当由一个或多个计算机执行时，使得所述一个或多个计算机执行权利要求1-20中任一项所述的相应方法的操作。