CN116601682A

CN116601682A - 经由以时间残差连接为特征的机器学习模型对顺序数据的改进处理

Info

Publication number: CN116601682A
Application number: CN202180083068.9A
Authority: CN
Inventors: 袁梁哲; 王永喆
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2021-01-13
Filing date: 2021-12-20
Publication date: 2023-08-15
Also published as: WO2022154943A1; US20230419082A1; EP4232959A1

Abstract

系统和方法可以包括或利用机器学习模型(例如，卷积神经网络)，该模型包括一个或多个时间残差连接。特别是，每个时间残差连接可以分别将由模型的当前实例化从当前顺序输入生成的一个或多个中间特征数据集供应到应用于处理一个或多个其他顺序输入的机器学习模型的一个或多个其他实例化。例如，机器学习模型的其他实例化可以包括：被应用于处理序列中跟随当前顺序输入的一个或多个后续顺序输入的机器学习模型的后续实例化，和/或被应用于处理序列中在当前顺序输入先前的一个或多个先前顺序输入的机器学习模型的先前实例化。

Description

经由以时间残差连接为特征的机器学习模型对顺序数据的改进处理

相关申请

本申请要求2021年1月13日提交的美国临时专利申请号63/136,772的优先权和权益。美国临时专利申请号63/136,772的全部内容通过引用被并入本文。

技术领域

本公开总体涉及用于处理顺序数据的机器学习。更具体地说，本公开涉及一种机器学习模型(例如，神经网络，诸如卷积神经网络)，其以在模型的不同时间实例化之间传递中间特征数据的一个或多个残差连接为特征。

背景技术

各种机器学习任务包括从顺序数据诸如顺序图像数据、音频数据(例如，语音数据)、文本数据、传感器数据等生成预测或推断。作为一个示例，给定来自视频的图像序列，视频理解模型的任务可能是预测帧级或视频级输出，用于诸如动作辨识、对象检测或其他的任务。

在许多情况下，检测和理解顺序数据本身内的时间依赖性的能力对于生成高质量的预测至关重要。然而，许多典型的现有模型架构并不有助于这种性质的时间理解。

试图捕捉时间信息的其他模型是低效或低性能的。例如，基于三维卷积的模型通常要求输入是预处理的图像帧的序列，并试图并发处理所有的图像，从而导致大的存储器占用(例如，与输入帧的数量成线性增长)和离线推断。作为另一示例，某些递归模型(例如基于门控递归单元或长短时记忆单元)容易出现训练不稳定和性能低下的情况。

发明内容

本公开的实施例的方面和优点将在以下描述中部分阐述，或者可以从描述中了解，或者可以通过实施例的实践了解。

本公开的一个示例方面是针对一种用于对顺序数据的改进的时间处理的计算系统。该计算系统包括一个或多个处理器和一个或多个非暂时性计算机可读介质，其集体存储：机器学习卷积神经网络，其包括一个或多个时间残差连接，所述一个或多个时间残差连接分别向被应用于处理一个或多个其他顺序输入的机器学习卷积神经网络的一个或多个其他实例化供应从当前顺序输入生成的一个或多个中间特征数据集；以及指令，其在由一个或多个处理器执行时，使该计算系统执行操作。这些操作包括，对于在序列中包括的多个顺序输入中的每一个：利用机器学习卷积神经网络的当前实例化的至少一部分处理当前顺序输入，以生成当前中间特征数据集；存储当前中间特征数据集，以提供给被应用于处理序列中的当前顺序输入的后续的一个或多个后续顺序输入的机器学习卷积神经网络的一个或多个后续实例化；访问由被应用于处理序列中的当前顺序输入先前的一个或多个先前顺序输入的机器学习卷积神经网络的一个或多个先前实例化生成的一个或多个先前中间特征数据集；以及至少部分地基于当前中间特征数据集和一个或多个先前中间特征数据集，从机器学习卷积神经网络的当前实例化来生成模型输出。

本公开的另一个示例方面是针对一种计算机实现的方法。该方法包括，对于在序列中包括的多个顺序输入中的每一个：利用机器学习卷积神经网络的当前实例化的至少一部分来处理当前顺序输入，以生成当前中间特征数据集；存储当前中间特征数据集，用于提供给被应用于处理序列中在当前顺序输入的后续的一个或多个后续顺序输入的机器学习卷积神经网络的一个或多个后续实例化，其中机器学习卷积神经网络的当前实例化经由一个或多个时间残差连接与机器学习卷积神经网络的一个或多个后续实例化连接；访问由被用于应用于处理序列中当前顺序输入先前的一个或多个先前顺序输入的机器学习卷积神经网络的一个或多个先前实例化生成的一个或多个先前中间特征数据集，其中机器学习卷积神经网络的当前实例化经由一个或多个时间残差连接与机器学习卷积神经网络的一个或多个先前实例化连接；以及至少部分地基于当前中间特征数据集和一个或多个先前中间特征数据集，从机器学习卷积神经网络的当前实例化生成模型输出。

本公开的另一个示例方面针对一个或多个非暂时性计算机可读介质，其集体存储：机器学习卷积神经网络，其包括一个或多个时间残差连接，所述一个或多个时间残差连接分别向被应用于处理一个或多个其他顺序输入的机器学习卷积神经网络的一个或多个其他实例化供应从当前顺序输入生成的一个或多个中间特征数据集；以及用于执行机器学习卷积神经网络的计算机可读指令。

本公开的其他方面针对各种系统、装置、非暂时性计算机可读媒体、用户接口和电子设备。

本公开的各种实施例的这些和其他特征、方面和优点将在参考以下描述和所附权利要求后变得更好理解。并入本说明书并构成其一部分的附图图示了本公开的示例实施例，并与描述一起用于解释相关原理。

附图说明

针对本领域普通技术人员的实施例的详细讨论载于说明书中，参考了附图，在附图中：

图1描绘了根据本公开的示例实施例的机器学习模型的图形，该模型包括一个或多个时间残差连接。

图2A-图2G描绘了根据本公开的示例实施例的包括一个或多个时间残差连接的示例机器学习模型的框图。

图3A-图3C描绘了根据本公开的示例实施例的示例时间残差连接操作的框图。

图4A描绘了根据本公开的示例实施例的示例计算系统的框图。

图4B描绘了根据本公开的示例实施例的示例计算设备的框图。

图4C描绘了根据本公开的示例实施例的示例计算设备的框图。

图5描绘了根据本公开的示例实施例的采用机器学习模型的示例方法的流程图，该模型包括一个或多个时间残差连接。

跨多个图中重复的附图标记旨在识别不同实施方式中的相同特征。

具体实施方式

概述

总的来说，本公开内容针对的是包括或充分利用机器学习模型(例如，卷积神经网络)的系统和方法，该模型包括一个或多个时间残差连接。特别是，每个时间残差连接可以分别向被应用于处理一个或多个其他顺序输入的机器学习模型的一个或多个其他实例化供应由当前模型实例化从当前顺序输入生成的一个或多个中间特征数据集，。例如，机器学习模型的其他实例化可以包括：被应用于处理在序列中跟随当前顺序输入的一个或多个后续顺序输入的机器学习模型的后续实例化，和/或被应用于处理序列中在当前顺序输入先前的一个或多个先前顺序输入的机器学习模型的先前实例化。以这种方式，对顺序数据的不同部分之间的时间依赖性建模有用的时间信息可以从模型的一个实例化传递到其他实例化，允许机器学习模型在生成预测/推断时更有效地保留和处理时间信息。

更特别的是，本文描述的示例机器学习模型可以使用时间残差连接从模型的附近实例化接收和/或向模型的附近实例化发送中间特征数据(例如，来自神经网络的层——诸如卷积网络的卷积层——的中间激活)。跨时间残差连接传递这样的信息，可以生成提升或以其他方式改进模型的每个实例化的特征提取过程的效果。换句话说，时间残差连接可以被用来在时间上结合(conjunct)特征图。请注意，这与深度神经网络中广泛使用的标准残差跳跃连接不同，后者是沿着神经网络的深度来连接特征图，而不是跨不同的时间实例化。

因此，在一些示例实施方式中，模型可以包括卷积运算y[t]＝c(x[t])，其中x[t]指的是来自时间t的输入，以及卷积运算输出y[t]。本公开的示例方面通过采取侧输入a[t-1]，…，a[t-n]和/或a[t+1]，…，a[t+n]来扩展这种卷积运算，其中a[t-1]表示来自时间t-1的一个或多个激活特征图的集合，依此类推。这种卷积运算的侧输入作为或可以由在时间上的残差连接提供。这样的输出y[t]＝c(combine(x[t]，a[t-1]…a[t-n]))不仅包含来自时间t的信息，也包含来自时间t-1到t-n的信息，并且其中combine指的是以某种方式来组合x[t]和a[t-1]…a[t-n]的一个或多个运算。此外，在一些示例实施方式中，这样的扩展运算可以被堆叠以在神经网络的k层中使用。在这种情况下，来自卷积神经网络的最终特征图将具有时间接受域k*n。

尽管上述示例是针对卷积运算y[t]＝c(combine(x[t]，a[t-1]…a[t-n]))来讨论的，但也可以进行其他运算，这可以表示为y[t]＝f(combine(x[t]，a[t-1]…a[t-n]))，其中f是应用学习参数值以从combine(x[t]，a[t-1]…a[t-n])生成y[t]的任何运算。此外，在一些示例实施方式中，侧输入也可以包括后续的特征数据，可以表示为a[t+1]…a[t+n])。

时间残差连接所提供的信息可以通过一些不同的方式与模型内的现有信息相组合。最简单的残差连接方式是加法，如果当前时间戳的输入特征图和以前时间戳的连接特征图具有相同的形状，则其可以在不重新调整(rescaling)的情况下被实现。

残差连接的另一种形式是沿通道维度连结(concatenate)特征图，并且然后在连结的特征图上应用一个或多个卷积。在一些实施方式中，也可以使用标准的残差连接来稳定训练。

时间连接的又一个示例方式是首先沿通道维度连结特征图，并且然后在连结特征图上并行应用具有不同过滤器大小和/或扩张率的卷积。也可以使用标准残差。

本公开的系统和方法提供了许多技术效果和益处。作为技术效果和益处的一个示例，所提出的模型可以很容易地部署在CPU和加速器上。所提出的时间残差连接也可以促进改进的或有竞争力的性能，即使在模型显著较小(例如，具有显著较少的参数数量)的情况下。较小的模型执行起来更快，需要更少的存储，并且在传输时消耗更少的带宽。因此，通过使较小的模型能够具有改进的性能，本文描述的技术可以实现计算资源的节约，诸如处理器的使用、存储器的使用和网络带宽的使用。作为一个示例，大量的实验表明，具有时间残差连接的基于MobilenetV3的示例模型，比Resnet50-3D小15倍，并且效率高7倍，性能上有竞争力。除了节省计算资源外，所提出的技术还可以改进计算系统本身在执行各种顺序数据处理任务时的性能。

由模型处理的顺序数据可以包括任何形式的顺序数据。作为示例，在序列中包括的多个顺序输入可以是或包括：在视频中包括的多个图像帧、在光检测和测距LiDAR数据序列中包括的多个LiDAR数据集、音频的多个部分(例如，由原始音频数据或由频谱图表示)、文本数据的多个部分(例如，标记、句子等)、多个传感器数据集和/或各种其他形式的顺序数据。由机器学习模型执行的任务可以包括各种不同的任务，作为示例，包括动作辨识、对象检测、翻译、语音辨识、编码/嵌入、异常检测、时间-事件预测和/或各种其他任务。

现在参考图，将进一步详细讨论本公开的示例实施例。

以时间残差连接为特征的示例机器学习模型

图1描绘了根据本公开的示例实施例的包括一个或多个时间残差连接的示例机器学习模型的图示。特别是，图1示出了一个示例时间残差Mobilenet，其包括具有时间残差连接的Mobilenet主干(backbone)。例如，在每个反转的瓶颈块中可以添加一个时间残差，以实现强的速度-准确度权衡。关于Mobilenets的描述，见Sandler et al.,MobileNetV2:Inverted Residuals and Linear Bottlenecks,arXiv:1801.04381(Sandler等人的《MobileNetV2：反转的残差和线性瓶颈》，arXiv：1801.04381)。Mobilenet只是可以使用的一个示例主干；许多其他的主干可以可替代地使用。图1的示例模型被图示为执行一个示例任务，即视频分析(例如，动作辨识)。其他任务可以被可替代地执行。

更特别的是，时间残差可以在概念上类比于在深度神经网络中广泛使用的残差连接，其不同之处在于在时间轴上的连接。时间残差比3D卷积更灵活，因为它们能够被应用于2E卷积，而2E卷积在设备上得到了很好的优化。

图1示出了示例模型，其中时间残差连接是单向的(例如，在所图示的示例中，该模型仅包括前向传播的时间残差连接，其将信息传递给模型的后续实例化)。以单向时间连接为特征的示例实施方式不需要访问未来的帧来聚合信息。因此，该模型可以以在线方式处理流数据。因此，单向的时间残差连接可以为在线任务——诸如在线视频理解——提供强大的性能。特别是，该模型不需要访问未来的信息，并且可以被实时执行，这是一些示例应用——例如机器人、自动驾驶、监控等——所要求的。

作为进一步的示例，图1中图示的示例模型进一步包括最后的长短期记忆(LSTM)层。因此，在最后一层，来自Mobilenet的具有时间残差连接的时间增强特征图被输入到卷积LSTM。带有时间残差连接的Mobilenet和LSTM的组合提供了以下益处：时间残差连接聚合了短程的时间依赖性，而LSTM记忆了长期场境。堆叠的结构扩大了时间接受域，这对视频动作辨识任务至关重要。

经验分析表明，在跨步卷积之后立即在一层增加一个时间残差，导致最佳的速度-准确度权衡。具有时间残差连接的MobilenetV2的一个示例实施方式被示出在以下表1中。

表1.用于时间残差MobilenetV3-Large的规范。T-Res Bneck表示时间残差增强瓶颈，默认情况下，并行空洞(atrous)卷积被用作融合运算器。经验表明，在跨步卷积后立即插入T-Res Bneck(从C2开始)，实现了最佳的速度-准确度权衡。

在多个数据集上进行的广泛实验表明，与基于3D卷积的模型相比，上述提议的移动模型实现了非常有竞争力的性能，存储器占用和计算成本降低了10倍。在Kinetics600数据集上，基于MobileNetV2的最佳模型与时间残差连接达到74.57％的Top1准确度，与Resnet50-3D的Top1准确度为74.6％相比较。在Moments-in-Time数据集上，所提出的模型实现了30.25％的Top1准确度，与最先进的AssembleNet-50的Top1准确度为31.41％相比较。

图1图示了一个示例模型，该模型以时间残差连接为特征。然而，本公开的技术并不限于图1所示的具体示例模型。作为进一步的示例，图2A-图2G描绘了根据本公开的示例实施例的包括一个或多个时间残差连接的示例机器学习模型的框图。

如图2A所示，在一些实施方式中，一个或多个时间残差连接可以在每个实例化中仅包括单个时间残差连接。然而，如图2B所示，在一些实施方式中，多个时间残差连接可以存在于机器学习模型内不同的相应深度。可以使用任何数量的时间残差连接。

如图2A和图2B所示，在一些实施方式中，机器学习模型可以仅包括前向传播的时间残差连接，该时间残差连接将从当前顺序输入生成的一个或多个中间特征数据集供应给被应用于处理在当前输入后续的后续顺序输入的机器学习卷积神经网络的后续实例化。然而，如图2C所示，在一些实施方式中，机器学习模型可以包括这两个：前向传播的时间残差连接，该前向时间残差连接将从当前顺序输入生成的一个或多个中间特征数据集供应给机器学习卷积神经网络的后续实例化；以及后向传播的时间残差连接，该后向传播的时间残差连接将从当前顺序输入生成的一个或多个中间特征数据集供应给被应用于处理在当前顺序输入先前的先前顺序输入的机器学习卷积神经网络的先前实例化。双向连接可以在不同层，如图2C所示。作为另一个示例，如图2D所示，时间连接可以在同一层是双向的。

如图2A-图2D所示，在一些实施方式中，一个或多个时间残差连接的一些或全部可以被配置为将一个或多个中间特征数据集供应给机器学习卷积神经网络的一个或多个其他实例化的相同层。然而，如图2E所示，在一些实施方式中，一个或多个时间残差连接的一些或全部可以被配置为将一个或多个中间特征数据集供应到机器学习卷积神经网络的一个或多个其他实例化的不同层。

如图2A-图2E所示，在一些实施方式中，每个时间残差连接可以连接到模型中的独特位置。然而，如图2F所示，在一些实施方式中，一个或多个时间残差连接可以连接到模型中的共享位置。例如，如图2F所示，模型的每个实例化有两个前向传播的时间残差连接，它们从共享位置出发，但在模型的下一个顺序实例化中到达不同位置。

如图2A-图2F所示，在一些实施方式中，每个时间残差连接可以连接到模型的相邻实例化(例如，被应用于处理序列中的下一个顺序输入的模型的下一个顺序实例化和/或被应用于处理序列中的上一个顺序输入的模型的上一个顺序实例化)。然而，如图2G所示，在一些实施方式中，每个时间残差连接可以连接到模型的非相邻实例化(例如，被应用于处理序列中大于下一个顺序输入的模型的大于下一个顺序实例化和/或被应用于处理序列中小于上一个顺序输入的模型的小于上一个顺序实例化)。

由时间残差连接提供的信息可以以多种不同方式与模型内的现有信息相组合。作为示例，图3A-图3C描述了根据本公开的示例实施方式的示例时间残差连接操作的框图。

残差连接的最简单形式是加法，如果当前时间戳的输入特征图和来自以前时间戳的连接特征图具有相同的形状，则其可以在不重新调整的情况下实现。图3A示出了一个示例加法连接。

另一种形式的残差连接是沿通道维度来连结特征图，并且然后对连结的特征图应用一个或多个卷积。在一些实施方式中，标准的残差连接也可用于稳定训练。图3B中示出了示例连结和卷积的说明。

时间连接的又一个示例方式是首先沿通道维度来连结特征图，并且然后在连结的特征图上并行应用具有不同滤波大小和/或扩张率的卷积。也可以使用标准的残差。图3C示出了这种技术的一个实施方式的示例图示。图3C中所示的多个卷积可以有不同的相应过滤器大小和/或不同的相应扩张率。具有不同的过滤器大小和/或不同的扩张率可以帮助模型理解和处理大小随时间改变的数据当中的依赖性。例如，从第t帧到第t+1帧，走向相机的人大小将会增加(例如，用对应的像素数表示)。具有不同的过滤器大小和/或不同的扩张率可以帮助模型处理人的大小改变。

示例设备和系统

图4A描绘了根据本公开的示例实施例的示例计算系统100的框图。该系统100包括用户计算设备102、服务器计算系统130和训练计算系统150，它们通过网络180通信地耦合。

用户计算设备102可以是任何类型的计算设备，诸如例如，个人计算设备(例如，膝上型计算机或台式机)、移动计算设备(例如，智能手机或平板计算机)、游戏控制台或控制器、可穿戴计算设备、嵌入式计算设备，或任何其他类型的计算设备。

用户计算设备102包括一个或多个处理器112和一个存储器114。一个或多个处理器112可以是任何合适的处理装置(例如，处理器内核、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个处理器或操作性地连接的多个处理器。存储器114可以包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等，以及它们的组合。存储器114可以存储数据116和指令118，这些指令由处理器112执行以使用户计算设备102执行操作。

在一些实施方式中，用户计算设备102可以存储或包括一个或多个机器学习模型120。例如，机器学习模型120可以是或者可以以其他方式包括各种机器学习模型，诸如神经网络(例如，深度神经网络)或其他类型的机器学习模型，包括非线性模型和/或线性模型。神经网络可以包括前馈神经网络、递归神经网络(例如，长短期记忆递归神经网络)、卷积神经网络或其他形式的神经网络。一些示例的机器学习模型可以充分利用注意力机制，诸如自我注意力。例如，一些示例的机器学习模型可以包括多头的自我注意模型(例如，变换器模型)。参照图1A-图3C讨论了示例机器学习模型120。

在一些实施方式中，一个或多个机器学习模型120可以通过网络180从服务器计算系统130被接收，被存储在用户计算设备存储器114中，并且然后由一个或多个处理器112使用或以其他方式实现。在一些实施方式中，用户计算设备102可以实现单个机器学习模型120的多个并行实例化(例如，执行多个顺序输入的并行处理)。

附加地或可替代地，一个或多个机器学习模型140可以被包括在根据客户-服务器关系与用户计算设备102通信的服务器计算系统130中，或以其他方式被存储在所述服务器计算系统130中并由其实现。例如，机器学习模型140可以由服务器计算系统140作为Web服务的一部分来实现。因此，一个或多个模型120可以在用户计算设备102处存储并实现，并且/或者一个或多个模型140可以在服务器计算系统130处存储并实现。

用户计算设备102还可以包括接收用户输入的一个或多个用户输入组件122。例如，用户输入组件122可以是对用户输入对象(例如，手指或触笔)的触摸敏感的触摸敏感组件(例如，触摸敏感的显示屏幕或触摸板)。触摸敏感组件可用于实现虚拟键盘。其他示例用户输入组件包括麦克风、传统键盘或其他用户可以提供用户输入的方式。

服务器计算系统130包括一个或多个处理器132和存储器134。一个或多个处理器132可以是任何合适的处理设备(例如，处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个处理器或操作性地连接的多个处理器。存储器134可以包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等，以及它们的组合。存储器134可以存储数据136和指令138，这些指令由处理器132执行以使服务器计算系统130执行操作。

在一些实施方式中，服务器计算系统130包括一个或多个服务器计算设备或以其他方式由一个或多个服务器计算设备实现。在服务器计算系统130包括多个服务器计算设备的实例化中，这样的服务器计算设备可以根据顺序计算架构、并行计算架构或其某种组合进行操作。

如上所述，服务器计算系统130可以存储或以其他方式包括一个或多个机器学习模型140。例如，模型140可以是或可以以其他方式包括各种机器学习模型。示例机器学习模型包括神经网络或其他多层非线性模型。示例的神经网络包括前馈神经网络、深度神经网络、递归神经网络和卷积神经网络。一些示例的机器学习模型可以充分利用注意力机制，诸如自我注意力。例如，一些示例的机器学习模型可以包括多头的自我注意模型(例如，变换器模型)。参照图1A-图3C讨论了示例模型140。

用户计算设备102和/或服务器计算系统130可以经由与通过网络180通信耦合的训练计算系统150的交互来训练模型120和/或140。训练计算系统150可以与服务器计算系统130分开，或者可以是服务器计算系统130的一部分。

训练计算系统150包括一个或多个处理器152和存储器154。一个或多个处理器152可以是任何合适的处理设备(例如，处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个处理器或操作性地连接的多个处理器。存储器154可以包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等，以及它们的组合。存储器154可以存储数据156和指令158，这些指令由处理器152执行以使训练计算系统150执行操作。在一些实施方式中，训练计算系统150包括一个或多个服务器计算设备或以其他方式由一个或多个服务器计算设备实现。

训练计算系统150可以包括模型训练器160，该模型训练器使用各种训练或学习技术对在用户计算设备102和/或服务器计算系统130处存储的机器学习模型120和/或140进行训练，例如，误差的反向传播。例如，损失函数可以通过模型反向传播以更新模型的一个或多个参数(例如，基于损失函数的梯度)。可以使用各种损失函数，诸如平均平方误差、似然损失、交叉熵损失、铰链损失和/或其他各种损失函数。梯度下降技术可用于在一定数量的训练迭代中迭代更新参数。

在一些实施方式中，执行错误的反向传播可以包括通过时间执行截断的反向传播。模型训练器160可以执行一些泛化技术(例如，权重衰减、放弃(dropout)等)以改进被训练的模型的泛化能力。

特别是，模型训练器160可以基于一组训练数据162来训练机器学习模型120和/或140。在一些实施方式中，如果用户已经提供同意，则训练示例可以由用户计算设备102提供。因此，在这样的实施方式中，提供给用户计算设备102的模型120可以由训练计算系统150根据从用户计算设备102收到的用户特定数据进行训练。在一些实例中，这个过程可以被称为模型的个性化。

模型训练器160包括用于提供所期望功能的计算机逻辑。模型训练器160可以在控制通用处理器的硬件、固件和/或软件中实现。例如，在一些实施方式中，模型训练器160包括在存储设备上存储的程序文件，加载到存储器并由一个或多个处理器执行。在其他实施方式中，模型训练器160包括一个或多个计算机可执行指令集，这些指令被存储在有形的计算机可读存储介质中，诸如RAM、硬盘、或光学或磁性介质。

网络180可以是任何类型的通信网络，诸如局域网(例如内联网)、广域网(例如互联网)，或其某种组合，并且可以包括任何数量的有线或无线链接。一般来说，通过网络180的通信可以经由任何类型的有线和/或无线连接，使用各种各样的通信协议(例如，TCP/IP、HTTP、SMTP、FTP)、编码或格式(例如，HTML、XML)和/或保护方案(例如，VPN、安全HTTP、SSL)来进行。

本说明书中描述的机器学习模型可用于各种任务、应用和/或用例。

在一些实施方式中，对本公开的机器学习模型的输入可以是图像数据。机器学习模型可以处理图像数据以生成输出。作为一个示例，机器学习模型可以处理图像数据以生成图像辨识输出(例如，图像数据的辨识、图像数据的潜在嵌入、图像数据的编码表示、图像数据的散列等)。作为另一个示例，机器学习模型可以处理图像数据以生成图像分割输出。作为另一个示例，机器学习模型可以处理图像数据以生成图像分类输出。作为另一个示例，机器学习模型可以处理图像数据以生成图像数据修改输出(例如，图像数据的改变等)。作为另一个示例，机器学习模型可以处理图像数据以生成编码图像数据输出(例如，图像数据的编码和/或压缩表示等)。作为另一个示例，机器学习模型可以处理图像数据，以生成规模放大的图像数据输出。作为另一个示例，机器学习模型可以处理图像数据以生成预测输出。

在一些实施方式中，对本公开的机器学习模型的输入可以是文本或自然语言数据。机器学习模型可以处理文本或自然语言数据以生成输出。作为一个示例，机器学习模型可以处理自然语言数据以生成语言编码输出。作为另一个示例，机器学习模型可以处理文本或自然语言数据以生成潜在文本嵌入输出。作为另一个示例，机器学习模型可以处理文本或自然语言数据以生成翻译输出。作为另一个示例，机器学习模型可以处理文本或自然语言数据以生成分类输出。作为另一个示例，机器学习模型可以处理文本或自然语言数据以生成文本分割输出。作为另一个示例，机器学习模型可以处理文本或自然语言数据以生成语义意图输出。作为另一个示例，机器学习模型可以处理文本或自然语言数据，以生成规模放大的文本或自然语言输出(例如，比输入文本或自然语言质量更高的文本或自然语言数据等)。作为另一个示例，机器学习模型可以处理文本或自然语言数据，以生成预测输出。

在一些实施方式中，对本公开的机器学习模型的输入可以是语音数据。机器学习模型可以处理语音数据以生成输出。作为一个示例，机器学习模型可以处理语音数据以生成语音辨识输出。作为另一个示例，机器学习模型可以处理语音数据以生成语音翻译输出。作为另一个示例，机器学习模型可以处理语音数据以生成潜在嵌入的输出。作为另一个示例，机器学习模型可以处理语音数据以生成编码的语音输出(例如，语音数据的编码和/或压缩表示等)。作为另一个示例，机器学习模型可以处理语音数据，以生成升级的语音输出(例如，比输入语音数据质量更高的语音数据等)。作为另一个示例，机器学习模型可以处理语音数据以生成文本表示输出(例如，输入语音数据的文本表示等)。作为另一个示例，机器学习模型可以处理语音数据以生成预测输出。

在一些实施方式中，本公开的机器学习模型的输入可以是潜在编码数据(例如，输入的潜在空间表示等)。机器学习模型可以处理潜在编码数据以生成输出。作为一个示例，机器学习模型可以处理潜在编码数据以生成辨识输出。作为另一个示例，机器学习模型可以处理潜在编码数据以生成重建输出。作为另一个示例，机器学习模型可以处理潜在编码数据以生成搜索输出。作为另一个示例，机器学习模型可以处理潜在编码数据以生成重聚输出。作为另一个示例，机器学习模型可以处理潜在编码数据以生成预测输出。

在一些实施方式中，对本公开的机器学习模型的输入可以是统计数据。机器学习模型可以处理统计数据以生成输出。作为一个示例，机器学习模型可以处理统计数据以生成辨识输出。作为另一个示例，机器学习模型可以处理统计数据以生成预测输出。作为另一个示例，机器学习模型可以处理统计数据以生成分类输出。作为另一个示例，机器学习模型可以处理统计数据以生成分割输出。作为另一个示例，机器学习模型可以处理统计数据以生成可视化输出。作为另一个示例，机器学习模型可以处理统计数据以生成诊断输出。

在一些实施方式中，对本公开的机器学习模型的输入可以是传感器数据。机器学习模型可以处理传感器数据以生成输出。作为一个示例，机器学习模型可以处理传感器数据以生成辨识输出。作为另一个示例，机器学习模型可以处理传感器数据以生成预测输出。作为另一个示例，机器学习模型可以处理传感器数据以生成分类输出。作为另一个示例，机器学习模型可以处理传感器数据，以生成分割输出。作为另一个示例，机器学习模型可以处理传感器数据以生成可视化输出。作为另一个示例，机器学习模型可以处理传感器数据以生成诊断输出。作为另一个示例，机器学习模型可以处理传感器数据以生成检测输出。

在一些情况下，机器学习模型可以被配置为执行包括对输入数据进行编码(和/或对应解码)以实现可靠和/或有效的传输或存储的任务。例如，该任务可以是音频压缩任务。输入可能包括音频数据，并且输出可能包括压缩的音频数据。在另一个示例中，输入包括视觉数据(例如，一个或多个图像或视频)，输出包括压缩的视觉数据，并且该任务是视觉数据压缩任务。在另一个示例中，该任务可以包括为输入数据(例如，输入音频或视觉数据)生成嵌入。

在一些情况下，输入包括视觉数据，并且该任务是计算机视觉任务。在一些情况下，输入包括一个或多个图像的像素数据，并且任务是图像处理任务。例如，图像处理任务可以是图像分类，其中输出是一个分数集，每个分数对应于不同的对象类，并表示一个或多个图像描绘属于该对象类的对象的似然性。图像处理任务可以是对象检测，其中图像处理输出识别了一个或多个图像中的一个或多个区域，并且对于每个区域，该区域描绘感兴趣的对象的似然性。作为另一个示例，图像处理任务可以是图像分割，其中图像处理输出为一个或多个图像中的每个像素定义了预定的类别集中每个类别的相应似然性。例如，该类别集可以是前景和背景。作为另一个示例，该类别集可以是对象类。作为另一个示例，图像处理任务可以是深度估计，其中，图像处理输出为一个或多个图像中的每个像素定义了相应的深度值。作为另一个示例，图像处理任务可以是运动估计，其中网络输入包括多个图像，并且图像处理输出为输入图像中的一个的每个像素定义了在网络输入中的图像之间的像素处描绘的场景的运动。

在一些情况下，输入包括表示口头话语的音频数据，并且该任务是语音辨识任务。输出可以包括文本输出，该文本输出被映射到该口头话语。在一些情况下，该任务包括加密或解密输入数据。在一些情况下，该任务包括微处理器性能任务，诸如分支预测或存储器地址转换。

图4A图示了可用于实现本公开的一个示例计算系统。其他计算系统也可以被使用。例如，在一些实施方式中，用户计算设备102可以包括模型训练器160和训练数据集162。在这样的实施方式中，模型120既可以在用户计算设备102上被训练和被本地使用。在一些这样的实施方式中，用户计算设备102可以实现模型训练器160，以基于用户特定的数据对模型120进行个性化。

图4B描绘了根据本公开的示例实施例执行的示例计算设备10的框图。该计算设备10可以是用户计算设备或服务器计算设备。

计算设备10包括若干应用(例如，应用1至N)。每个应用包含其自身的机器学习库和机器学习模型。例如，每个应用可以包括机器学习模型。示例应用包括文本消息传递应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。

如图4B所示，每个应用可以与计算设备的若干其他组件通信，诸如例如，一个或多个传感器、场境管理器、设备状态组件和/或附加组件。在一些实施方式中，每个应用可以使用API(例如，公共API)与每个设备组件通信。在一些实施方式中，由每个应用使用的API是特定于该应用的。

图4C描绘了根据本公开的示例实施例执行的示例计算设备50的框图。该计算设备50可以是用户计算设备或服务器计算设备。

计算设备50包括若干应用(例如，应用1至N)。每个应用与中央智能层进行通信。示例应用包括文本消息传递应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。在一些实施方式中，每个应用可以使用API(例如，跨所有应用的公共API)与中央智能层(和存储在其中的模型)通信。

中央智能层包括一些机器学习模型。例如，如图4C所示，可以为每个应用提供相应的机器学习模型并由中央智能层管理。在其他实施方式中，两个或更多个应用可以共享单个机器学习模型。例如，在一些实施方式中，中央智能层可以为所有的应用提供单个模型。在一些实施方式中，中央智能层被包括在计算设备50的操作系统内或以其他方式由计算设备50的操作系统实现。

中央智能层可以与中央设备数据层通信。中央设备数据层可以是计算设备50的集中的数据存储库。如图4C所示，中央设备数据层可以与计算设备的若干其他组件通信，诸如例如，一个或多个传感器、场境管理器、设备状态组件和/或附加组件。在一些实施方式中，中央设备数据层可以使用API(例如，私有API)与每个设备组件进行通信。

示例方法

图5描绘了根据本公开的示例实施例的用于改进顺序数据的时间处理的示例方法的流程图。尽管图5为了说明和讨论的目的描绘了以特定次序执行的步骤，但本公开的方法不限于特别说明的次序或安排。方法500的各种步骤可以以各种方式省略、重新安排、组合和/或调整而不偏离本公开的范围。

在一些实施方式中，方法500可以在若干顺序的输入上迭代地执行。在一些实例中，如果存在多个时间残差连接，则步骤504和506可以在每个迭代中执行多次。

在502，计算系统可以利用机器学习模型的当前实例化的至少一部分来处理当前顺序输入，以生成当前中间特征数据集。

在504，计算系统可以存储当前中间特征数据集，以便提供给被应用于处理序列中的当前顺序输入先前的一个或多个先前顺序输入和/或当前顺序输入后续的一个或多个后续顺序输入的机器学习模型的一个或多个先前和/或后续实例化。

在506，计算系统可以访问由被应用于处理序列中的当前顺序输入先前的一个或多个先前顺序输入和/或当前顺序输入后续的一个或多个后续顺序输入的机器学习模型的一个或多个先前和/或后续实例化生成的一个或多个先前和/或后续的中间特征数据集。

在508，计算系统可以至少部分地基于当前中间特征数据集和一个或多个先前和/或后续的中间特征数据集，从机器学习模型的当前实例化生成模型输出。

在508之后，方法500可以可选地返回到502以处理下一个顺序输入。可替代地，可以并行地执行方法500的多个实例以并行地处理多个顺序输入。

附加描述

本文讨论的技术提到了服务器、数据库、软件应用和其他基于计算机的系统，以及采取的动作和发送到这些系统和从这些系统发送的信息。基于计算机的系统的固有灵活性允许在组件之间和当中有大量可能的配置、组合以及任务和功能的划分。例如，本文所讨论的过程可以使用单个设备或组件或多个设备或组件组合工作来实现。数据库和应用可以在单个系统上实现，也可以跨多个系统分布。分布式组件可以按顺序或并行地操作。

虽然本主题已经关于其各种具体的示例实施例进行了详细描述，但每个示例都是以解释的方式提供的，而不是对本公开的限制。本领域的技术人员在理解了前述内容后，可以很容易地产生对这样的实施例的改变、变化和等价物。因此，本主题的公开并不排除对本主题的修改、变化和/或补充，因为对于本领域的普通技术人员来说，这些修改、变化和/或补充是很明显的。例如，作为一个实施例的一部分所说明或描述的特征可以与另一个实施方式一起使用，以产生进一步的实施例。因此，本公开旨在涵盖这种改变、变化和等价物。

Claims

1.一种用于对顺序数据的改进的时间处理的计算系统，所述计算系统包括：

一个或多个处理器；以及

一个或多个非暂时性计算机可读介质，所述一个或多个非暂时性计算机可读介质集中存储：

机器学习卷积神经网络，所述机器学习卷积神经网络包括一个或多个时间残差连接，所述一个或多个时间残差连接分别向被应用于处理一个或多个其他顺序输入的机器学习卷积神经网络的一个或多个其他实例化供应从当前顺序输入生成的一个或多个中间特征数据集；以及

指令，所述指令当由所述一个或多个处理器执行时，使所述计算系统执行操作，所述操作包括：

对于包括在序列中的多个顺序输入中的每一个：

利用所述机器学习卷积神经网络的当前实例化的至少一部分来处理所述当前顺序输入，以生成当前中间特征数据集；

存储所述当前中间特征数据集，用于提供给被应用于处理所述序列中在所述当前顺序输入后续的一个或多个后续顺序输入的所述机器学习卷积神经网络的一个或多个后续实例化；

访问由被应用于处理所述序列中在所述当前顺序输入先前的一个或多个先前顺序输入的所述机器学习卷积神经网络的一个或多个先前实例化生成的一个或多个先前中间特征数据集；以及

至少部分地基于所述当前中间特征数据集和所述一个或多个先前中间特征数据集，从所述机器学习卷积神经网络的所述当前实例化生成模型输出。

2.根据权利要求1所述的计算系统，其中，所述机器学习卷积神经网络仅由前向传播的时间残差连接组成，所述前向传播的时间残差连接将从所述当前顺序输入生成的所述一个或多个中间特征数据集供应到所述机器学习卷积神经网络的所述后续实例化。

3.根据权利要求1所述的计算系统，其中，所述机器学习卷积神经网络包括以下两者：

前向传播的时间残差连接，所述前向传播的时间残差连接将从所述当前顺序输入生成的所述一个或多个中间特征数据集供应到所述机器学习卷积神经网络的所述后续实例化；以及

后向传播的时间残差连接，所述后向传播的时间残差连接将从所述当前顺序输入生成的所述一个或多个中间特征数据集供应到所述机器学习卷积神经网络的所述先前实例化。

4.根据前述权利要求中任一项所述的计算系统，其中，所述一个或多个时间残差连接中的至少一个被配置为将所述一个或多个中间特征数据集供应到所述机器学习卷积神经网络的所述一个或多个其他实例化的相同层。

5.根据前述权利要求中任一项所述的计算系统，其中，所述一个或多个时间残差连接中的至少一个被配置为将所述一个或多个中间特征数据集供应到所述机器学习卷积神经网络的所述一个或多个其他实例化的不同层。

6.根据前述权利要求中任一项所述的计算系统，其中，所述一个或多个时间残差连接包括存在于所述机器学习卷积神经网络内不同的相应深度的多个时间残差连接。

7.根据前述权利要求中任一项所述的计算系统，其中，至少部分地基于所述当前中间特征数据集和所述一个或多个先前中间特征数据集从所述机器学习卷积神经网络的所述当前实例化生成所述模型输出包括：

将所述先前中间特征数据集中的至少一个与至少一个现有的特征数据集相组合以形成组合的特征数据集；以及

至少部分地基于所述组合的特征数据集，从所述机器学习卷积神经网络的所述当前实例化生成所述模型输出。

8.根据权利要求7所述的计算系统，其中，将所述先前中间特征数据集中的所述至少一个与所述至少一个现有的特征数据集相组合以形成所述组合的特征数据集包括：对所述先前中间特征数据集中的所述至少一个与所述至少一个现有的特征数据集求和。

9.根据权利要求7所述的计算系统，其中，将所述先前中间特征数据集中的所述至少一个与所述至少一个现有的特征数据集相组合以形成所述组合的特征数据集包括：

将所述先前中间特征数据集中的所述至少一个与所述至少一个现有的特征数据集连结；以及

将一个或多个卷积应用于所连结的数据。

10.根据权利要求7所述的计算系统，其中，将所述先前中间特征数据集中的所述至少一个与所述至少一个现有的特征数据集相组合以形成所述组合的特征数据集包括：

将所述先前中间特征数据集中的所述至少一个与所述至少一个现有的特征数据集连结；

将多个卷积滤波器并行地应用于所连结的数据；以及

将所述多个卷积滤波器的输出组合。

11.根据权利要求10所述的计算系统，其中，所述多个卷积滤波器具有不同的相应的滤波器大小。

12.根据权利要求10或11所述的计算系统，其中，所述多个卷积滤波器具有不同的相应的扩张率。

13.根据权利要求7至12中任一项所述的计算系统，其中，所述至少一个现有的特征数据集包括所述当前中间特征数据集。

14.根据前述权利要求中任一项所述的计算系统，其中，被应用于处理所述一个或多个后续顺序输入的所述机器学习卷积神经网络的所述一个或多个后续实例化包括被应用于处理所述序列中的下一个顺序输入的所述机器学习卷积神经网络的下一个顺序实例化。

15.根据前述权利要求中任一项所述的计算系统，其中，被应用于处理所述一个或多个后续顺序输入的所述机器学习卷积神经网络的所述一个或多个后续实例化包括被应用于处理所述序列中的大于下一个顺序输入的所述机器学习卷积神经网络的大于下一个顺序实例化。

16.根据前述权利要求中任一项所述的计算系统，其中，所述当前中间特征数据集包括用于所述机器学习卷积神经网络的卷积层的激活图。

17.根据前述权利要求中任一项所述的计算系统，其中，所述机器学习卷积神经网络包括一个或多个卷积层，之后是长短期记忆层，其中所述一个或多个时间残差连接存在于所述一个或多个卷积层。

18.根据前述权利要求中任一项所述的计算系统，其中，在所述序列中包括的所述多个顺序输入包括：在视频中包括的多个图像帧。

19.根据前述权利要求中任一项所述的计算系统，其中，在所述序列中包括的所述多个顺序输入包括：在光检测和测距LiDAR数据序列中包括的多个LiDAR数据集。

20.根据前述权利要求中任一项所述的计算系统，其中，所述机器学习卷积神经网络被配置为执行任务，其中，所述任务包括动作辨识或对象检测。

21.一种计算机实现的方法，所述方法包括：

对于在序列中包括的多个顺序输入中的每一个：

利用机器学习卷积神经网络的当前实例化的至少一部分来处理当前顺序输入，以生成当前中间特征数据集；

存储所述当前中间特征数据集，用于提供给被应用于处理所述序列中在所述当前顺序输入后续的一个或多个后续顺序输入的所述机器学习卷积神经网络的一个或多个后续实例化，其中，所述机器学习卷积神经网络的所述当前实例化经由一个或多个时间残差连接与所述机器学习卷积神经网络的所述一个或多个后续实例化连接；

访问由被应用于处理所述序列中在所述当前顺序输入先前的一个或多个先前顺序输入的所述机器学习卷积神经网络的一个或多个先前实例化生成的一个或多个先前中间特征数据集，其中，所述机器学习卷积神经网络的所述当前实例化经由所述一个或多个时间残差连接与所述机器学习卷积神经网络的所述一个或多个先前实例化连接；以及

22.一个或多个非暂时性计算机可读介质，所述一个或多个非暂时性计算机可读介质集中存储：

机器学习卷积神经网络，所述机器学习卷积神经网络包括一个或多个时间残差连接，所述一个或多个时间残差连接分别向被应用于处理一个或多个其他顺序输入的所述机器学习卷积神经网络的一个或多个其他实例化供应从当前顺序输入生成的一个或多个中间特征数据集；以及

用于执行所述机器学习卷积神经网络的计算机可读指令。