CN117377984A

CN117377984A - 用于视频理解应用中的深度学习的动态时间归一化

Info

Publication number: CN117377984A
Application number: CN202180098424.4A
Authority: CN
Inventors: 蔡东琪; 姚安邦; 陈玉荣
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2024-01-09
Also published as: WO2023028908A1

Abstract

讨论了与将深度神经网络应用于视频以用于视频识别和理解相关的技术。针对输入视频的当前时间戳的深度神经网络的特征图被标准化为经标准化的特征图并被池化为特征向量。针对先前时间戳的特征向量和变换参数用于基于对元时间中继的应用来生成针对当前时间戳的变换参数。所得到的当前时间戳变换参数(诸如元时间中继的隐藏状态和单元状态)用于将经标准化的特征图变换为经归一化的特征图，以供由深度神经网络的后续层使用。

Description

用于视频理解应用中的深度学习的动态时间归一化

背景技术

视频动作识别、视频对象检测、视频分割和其他视频理解应用是视觉理解中的基本问题，并且是现实世界应用中具有挑战性的任务。目前，基于深度学习(deep learning,DL)的技术已成为动作识别和类似的视频理解任务中的主流。在诸如深度神经网络(deepneural network,DNN)之类的此类DL应用中，归一化是必不可少的组分。在视频理解中部署的现有的归一化技术主要针对图像识别任务。此类技术在被扩展到视频模型时具有限制。首先，与针对图像任务的设置相比，用于视频模型的大存储器和计算需求将迷你批次大小限制到更小的范围。此类限制在归一化参数的估计期间引入了偏置和噪声，由此使性能降级。其次，现有的归一化技术无法处置视频数据的复杂的时空特征变化，从而也限制了视频识别和其他视频理解应用性能。用于在视频理解上下文中改进DNN的其他当前技术包括用于时空建模的新构建块(诸如3D卷积构建块、用于视频模型的集成注意块、等等)。然而，归一化的问题尚未被解决。

存在对用于视频理解应用的高质量和高效的DNN的持续需要，并且更具体地，存在对在此类应用中的改进的归一化的需要。正是关于这些考虑和其他考虑，才需要目前的改进。随着视频理解模型在各种上下文中的实现方式变得更加广泛，此类改进可能变得关键。

附图说明

在所附附图中，以示例方式而不是以限制方式图示出本文中所描述的材料。出于说明简单和清楚起见，附图中所图示出的要素不一定是按比例绘制的。例如，出于清楚起见，可将一些要素的尺寸相对于其他要素扩大。进一步地，在认为适当的情况下，已在附图之间重复了附图标记以指示对应的或类似的要素。在附图中：

图1图示出用于在视频识别中提供动态时间归一化的示例系统；

图2图示出用于为经标准化的特征图至经归一化的特征图的变换提供动态变换参数的示例元时间中继；

图3图示出包括一个或多个动态时间归一化模块的用于对输入视频执行视频识别的示例深度神经网络；

图4是图示出用于使用包括一个或多个动态时间归一化模块的深度神经网络来执行推断的示例过程的流程图；

图5图示出用于使用动态时间归一化进行视频识别的激活图的示例性视觉比较；

图6是图示出用于将包括动态时间归一化的视频识别应用于输入视频的示例过程的流程图；

图7是用于将包括动态时间归一化的视频识别应用于输入视频的示例系统的说明性示图；

图8是示例系统的说明性示图；以及

图9图示出全部根据本公开的至少一些实现方式布置的示例小型设备。

具体实施方式

现在参考附图描述一个或多个实施例或实现方式。尽管讨论了具体的配置和布置，但是应当理解，这仅仅是出于说明性目的而完成的。相关领域的技术人员将认识到，在不脱离本描述的精神和范围的情况下，可以采用其他配置和布置。对于相关领域的技术人员将显而易见的是，本文中所描述的技术和/或布置也可以用于除了本文中所描述的系统和应用之外的各种其他系统和应用中。

尽管以下描述阐述了可以在诸如片上系统(system-on-a-chip,SoC)体系结构之类的体系结构中呈现的各种实现方式，但是本文中所描述的技术和/或布置的实现方式不限于特定体系结构和/或计算系统并且可以由任何体系结构和/或计算系统来实现以用于类似目的。例如，采用例如多个集成电路(integrated circuit,IC)芯片和/或封装、和/或各种计算设备和/或消费电子(consumer electronic,CE)设备(诸如多功能设备、平板电脑、智能电话等)的各种体系结构可以实现本文中描述的技术和/或布置。进一步地，尽管下面的描述可以阐述众多具体细节(诸如逻辑实现方式、系统组件的类型和相互关系、逻辑分区/集成选择、等等)，但是所要求保护的主题可以在没有此类具体细节的情况下被实践。在其他实例中，例如，一些材料(诸如控制结构和完整的软件指令序列)可能不会被详细示出以免使本文中公开的材料模糊。

本文中所公开的材料可以以硬件、固件、软件、或它们的任意组合来实现。本文中所公开的材料还可实现为存储在机器可读介质上的指令，这些指令可由一个或多个处理器读取和执行。机器可读介质可包括用于存储或传输机器(例如，计算设备)可读形式的信息的任何介质和/或机制。例如，机器可读介质可包括只读存储器(read only memory,ROM)；随机存取存储器(random access memory,RAM)；磁盘存储介质；光存储介质；闪存设备；电、光、声或其他形式的传播信号(例如，载波、红外信号、数字信号等)等等。

说明书中对“一个实现方式”、“实现方式”、“示例实现方式”、或示例、或实施例等的引用指示所描述的实现方式可包括特定的特征、结构或特性，但是并非每个实施例都一定包括该特定的特征、结构或特性。此外，此类短语不一定是指同一个实现方式。进一步地，当结合实施例描述特定的特征、结构或特性时，认为结合无论是否在本文中被明确描述的其他实现方式而影响此类特征、结构或特性是在本领域技术人员的知识范围之内的。

本文中描述了与使用深度学习的视频识别相关的方法、设备、装置、计算归一化平台和制品，并且具体地，描述了与由深度神经网络的层生成的特征图的动态时间归一化相关的方法、设备、装置、计算归一化平台和制品。

如上文所描述的，特别是在特征图归一化的上下文中改进深度神经网络(DNN)的性能是可期望的。如本文中所使用，术语DNN指示在输入层(或输入)与输出层(或输出)之间的具有多层的人工神经网络。DNN包括卷积神经网络(convolutional neural network,CNN)、循环神经网络(recurrent neural network,RNN)、以及包括来自此类网络中的任何网络的模块或特性的网络。本文中所讨论的技术在视频识别的上下文中提供动态时间归一化，以用于在以下各项方面改进性能：减少的存储器和计算需求、在此类归一化中移除对迷你批次大小的限制、处置复杂的时空特征变化的能力、等等。如本文中所使用，术语视频识别指示对来自输入视频的任何特性的任何识别，这些识别包括视频对象检测(例如，检测一个或多个对象)、视频动作检测(例如，检测动作)、视频分割(例如，将视频帧划分成所标识的段或区域)、等等。

本文中所讨论的技术和模块可以在任何DNN中被实现。由此，所讨论的技术提供了一种通用的即插即用(drop-in)归一化技术。所讨论的技术被称为动态时间归一化(dynamic temporal normalization,DTN)，其可以被应用于诸如深度CNN之类的任何DNN以向视频识别任务带来显著的性能提升。在一些实施例中，动态时间归一化引入用于归一化的元学习机制，其以样本适应性方式学习预测归一化参数并且跨相邻视频帧将时间特征分布相关联。动态时间归一化使用其动态和时间建模能力解决了在受限的迷你批次大小设置下的可能不准确的迷你批次统计信息估计，并且以可忽略不计的额外计算成本显著地改进了视频特征学习。此类改进在DNN的训练阶段(例如，用改进的准确性和稳定性来加快训练速度和收敛)和推断阶段(例如，用改进的准确性和稳定性来降低存储器和计算资源)两者中都很明显。

本文中所讨论的动态时间归一化技术是动态的、有条件的、样本感知的、以及沿输入视频的时间轴线是分布适应性的，使得DNN特征图的特征根据输入视频而动态归一化。此类技术在视频识别的上下文中是有利的，以用于DNN的改进的时间相关性和准确性。

在一些实施例中，来自DNN的层(例如，包括输入层的任何层)的当前特征图取决于所部署的归一化技术(例如，批次归一化、实例归一化、层归一化、组归一化)、使用利用输入像素的不同子集估计的均值和标准差来标准化。当前特征图和所得到的当前经标准化的特征图与输入视频的特定时间戳相对应。此外，基于先前变换参数以及与当前时间戳相对应的当前特征向量或当前特征图中的一个来生成用于当前经标准化的特征图的线性变换的当前变换参数。值得注意的是，先前变换参数与输入视频的先前时间戳相对应并且用于针对先前时间戳将先前经标准化的特征图变换为先前经归一化的特征图。在一些实施例中，当前变换参数包括被应用于先前变换参数和当前特征向量或当前特征图的元时间中继的隐藏状态参数和单元状态参数。然后，当前经标准化的特征图使用当前变换参数被变换为当前经归一化的特征图。在一些实施例中，当前变换参数(即，元时间中继的隐藏状态参数和单元状态参数)代替均值和标准差用于归一化操作。使用此类隐藏状态参数和单元状态参数提供沿时间轴线的动态和适应性归一化，以用于改进的网络性能。在此类标准化和归一化后，所得到的当前经归一化的特征图由DNN的后续层使用。最终，视频识别输出基于深度神经网络的后续层的应用来生成。DNN的任何数量的归一化层都可以利用此类动态时间归一化技术。

图1图示出根据本公开的至少一些实现方式布置的、用于在视频识别中提供动态时间归一化的示例系统100。系统100可以经由任何合适的设备来实现，这些设备诸如个人计算机、膝上型电脑、服务器计算机、边缘设备、云设备、平板电脑、平板手机、智能电话、数码相机、游戏控制台、可穿戴设备、显示设备、一体机设备、二合一设备等。例如，系统100可以提供可以以硬件、软件或其组合来实现的图像人工智能处理管线的至少一部分。在一些实施例中，系统100在实现阶段中在硬件中被实现为片上系统(SoC)。在一些实施例中，SoC被用作单片集成电路(IC)。如本文中所使用，术语单片指示与其他设备分立的设备，尽管它可以耦合到其他设备以用于通信和供电。

如图1所示，系统100接收包括视频帧123、112、101的输入视频140，使得视频帧123在视频帧112之前、视频帧112在视频帧101之前、等等，使得输入视频140的时间轴线141被建立。如本文中所使用，术语时间轴线指示输入视频140被捕获、呈现、等等，其中帧随时间成序列。在系统100的上下文中，输入视频140显示篮球场景，但是输入视频140可以显示任何合适的场景。视频帧123、112、101中的每个视频帧与时间戳相关联，使得视频帧123的时间戳在视频帧112的时间戳之前、视频帧112的时间戳在视频帧101的时间戳之前、等等。此类时间戳可以被提供为显式数据结构，或者它们可以对输入视频140的排序、帧速率和/或其他特性是隐式的。

对于视频帧123、112、101中的每个视频帧，相对应的特征图124、113、102通过由系统100部署的DNN层来生成。特征图124、113、102(例如，x_t-1、x_t、x_t+1等等)可以在DNN的输入层处被生成(例如，它们可以包括视频帧123、112、101的颜色通道或从视频帧123、112、101中提取的其他特征)，或者它们可以由DNN的后续层生成(例如，使得特征变成更抽象的数据表示)。无论如何，此类特征图124、113、102各自与视频帧123、112、101中的一个视频帧相对应。在一些实施例中，特征图124、113、102中的所有特征图是在DNN的特定层处被提取的特征张量，其被拆分或分割成特征图124、113、102。在此类方面中，特征图124、113、102也可以被表征为子特征图，尽管术语特征图在本文中更频繁地被使用。在任一种情况中，术语(一个或多个)特征图指示由DNN层提取的任何数量的特征和特征类型。此类细节将在下文进一步讨论。

如所示出的，针对每个时间戳或实例以及针对特征图124、113、102中的每个特征图，全局平均池化模块125、114、103(GAP)、元时间中继127、116、105(MTR)、标准化模块133、122、111(SD)和线性变换模块130、119、108(LT)被提供。由此类模块或组件进行的处理为特征图124、113、102中的每个特征图(以及视频帧123、112、101)提供经归一化的特征图131、120、109(例如，y_t-1、y_t、y_t+1等)。然后，此类经归一化的特征图131、120、109可以被组合并被提供到DNN的另一层，以用于继续处理通过所得到的视频识别输出，如本文中下面进一步讨论的。

值得注意的是，对于特征图、GAP模块、MTR等的每个组合的处理可以以与关于特征图113、全局平均池化模块114、元时间中继116、标准化模块122和线性变换模块119讨论的示例性处理相同或类似的方式来执行。也就是说，特征图102、124可以分别由全局平均池化模块103、125、元时间中继105、127、标准化模块111、133和线性变换模块108、130来处理，如关于由全局平均池化模块114、元时间中继116、标准化模块122和线性变换模块119对特征图113的处理所讨论的。值得注意的是，经标准化的特征图110由线性变换模块108使用元时间中继105的隐藏状态参数106和单元状态参数107变换成经归一化的特征图109。类似地，经标准化的特征图132由线性变换模块130使用元时间中继127的隐藏状态参数128和单元状态参数129变换成经归一化的特征图131。此外，元时间中继127、116、105的内部细节关于元时间中继116被图示，并且在本文中关于图2进一步被讨论。

例如，如所示出的，全局平均池化模块114接收特征图113并且使用任何合适的(一个或多个)技术来生成特征向量115(例如，)。此类全局平均池化技术将特征图113聚合到例如单个维度(例如，以用于减少维度)。此类处理可以使用任何合适的(一个或多个)技术来执行，诸如通过对所有hw值取平均值将每个h×w特征图减少到单个数量。然而，其他技术可以被采用。另外如所示出的，标准化模块122接收特征图113并且使用任何合适的(一个或多个)技术来生成经标准化的特征图121(例如，/>)。在一些实施例中，标准化模块122使用利用视频帧112和/或特征图113的像素值的不同子集估计的均值和标准差来生成经标准化的特征图121，如本文中下面关于等式(1)进一步讨论的。值得注意的是，由线性变换模块119执行的归一化不是使用此类均值和标准差参数来执行的。相反，由元时间中继116生成的隐藏状态参数117和单元状态参数118如关于等式(3)所讨论的那样被部署。

如所示出的，元时间中继116接收隐藏状态参数128和单元状态参数129(例如，先前时间戳变换参数)以及特征向量115以用于处理。值得注意的是，隐藏状态参数128和单元状态参数129用于通过线性变换模块130将经标准化的特征图132变换成经归一化的特征图131。元时间中继116动态地生成视频帧123、112之间的中继归一化参数。例如，系统100提供沿时间轴线141的动态归一化以用于由部署DNN的系统100进行的改进的训练推断。在一些实施例中，元时间中继116经由门控机制或结构的应用来生成隐藏状态参数117和单元状态参数118。门控机制或结构可以是任何线性或非线性映射函数。在一些实施例中，门控机构或结构是瓶颈单元(诸如典型的减小比率为4的收缩-膨胀瓶颈单元)。

线性变换模块119接收隐藏状态参数117和单元状态参数118，并将它们应用于经标准化的特征图121以生成经归一化的特征图120，经归一化的特征图120与经归一化的特征图109、131组合以供由后续DNN层使用。在一些实施例中，经归一化的特征图120通过将单元状态参数118与经标准化的特征图121中的每个经标准化的特征和隐藏状态参数117的乘积相加而从经标准化的特征图121被生成，如本文中下面关于等式(3)进一步讨论的。

系统100提供用于视频识别应用的动态时间归一化模块。动态时间归一化模块包括元时间中继127、116、105。每个元时间中继是在沿输入视频140的时间轴线141的时间特征切片之间共享的轻量级元结构，其提供沿时间轴线141的时间维度的动态归一化参数(即，隐藏状态参数和单元状态参数)生成和中继。值得注意的是，馈送到动态时间归一化模块中的特征张量(例如，包括特征图124、113、102等)被拆分(例如，被拆分成特征图124、113、102中的各个特征图)并且单独地经历标准化(standardization,SD)和线性变换(linear transformation,LT)，使得标准化可以使用常规技术被执行，同时线性变换使用从元时间中继127、116、105动态生成的参数被执行。值得注意的是，动态生成的参数(例如，隐藏状态参数128、117、106和单元状态参数129、118、107)提供样本感知机制以沿时间轴线141的时间维度动态地中继和生成归一化参数，从而克服在受限的迷你批次大小设置下的可能不准确的迷你批次统计信息估计。此外，动态时间归一化提供了高效、稳定和高质量的机制，该机制用于经由如由元时间中继127、116、105提供的共享的轻量级元时间中继结构来对复杂的时空特征分布依赖性进行建模。在一些实施例中，由系统100提供的动态时间归一化首先针对与不同的输入视频帧123、112、101相对应的每个子特征图(例如，特征图124、113、102中的每个特征图)、使用从每个子特征图本身确定的均值和方差单独地进行标准化(SD)。然后，动态时间归一化使用从元时间中继结构动态生成的参数进行线性变换(LT)。经归一化的子特征图(例如，经归一化的特征图131、120、109)被堆叠以形成最终经归一化的特征图，其由后续DNN层使用。此类技术可以被应用在任何归一化上下文中，包括批次归一化(batch normalization,BN)、实例归一化(instance normalization,IN)、层归一化(layer normalization,LN)、组归一化(group normalization,GN)、等等。

例如，给定输入视频140(例如，输入视频剪辑)，在DNN的特定层处提取的特征张量(或在DNN的输入层处的输入特征张量)可以被定义为其中N是批次大小，T是时间长度，C是通道的数量，并且H和W是高度和宽度。从一般角度来看，典型的归一化技术(例如，BN、IN、LN、GN等)典型地包括两个步骤。第一个步骤是如等式(1)中示出的那样被执行的标准化(SD)：

其中，i是特征索引，∈是用于保持数值稳定性的小的常数，并且μ和σ是取决于归一化技术使用输入像素的不同的子集估计的均值和标准差。

第二个典型步骤是用于恢复d特征表示能力的逐通道线性变换，如等式(2)所示：

其中，γ和β是可学习的缩放和移位参数。

继续参考图1，在本文中讨论的动态时间归一化中，特征张量(例如，如在DNN的任何层处生成的输入视频特征张量)被拆分成子特征图的序列，或者简单地，诸如特征图124、113、102之类的特征图的序列，这些特征图可以被表征为沿时间轴线141的时间维度的{x₁，x₂，...，x_T}。在此类上下文中，x_t可以表示与输入视频140的第t个输入帧相对应的特征图或特征切片。如所示出的，标准化经由标准化模块133、122、111被应用于特征图124、113、102中的每个特征图。在一些实施例中，如关于等式(1)所讨论的那样应用此类标准化，以生成经标准化的特征图132、121、110，这些经标准化的特征图针对t＝1、……、T可以被表征为

此外，全局平均池化经由全局平均池化模块125、114、103被应用于特征图124、113、102以生成特征向量126、115、104(或特征切片)，其可以被表征为例如，/>可以是将全局平均池化应用于x_t之后的特征向量。代替缩放和移位参数，动态时间归一化使用由元时间中继127、116、105生成的隐藏状态参数和单元状态参数、经由线性变换模块130、119、108执行线性变换。例如，经归一化的特征图可以如等式(3)中示出的那样被生成：

其中，h_t和c_t是用于第t个输入特征切片(例如，输入视频140的时间戳)的元时间中继127、116、105的隐藏状态和单元状态(例如，隐藏状态参数128、117、106和单元状态参数129、118、107)。

在一些实施例中，隐藏状态参数128、117、106和单元状态参数129、118、107由元时间中继127、116、105(例如，元时间中继结构)生成，如等式(4)所示：

其中，h_t和c_t是当前的隐藏状态和当前的单元状态(例如，隐藏状态参数117和单元状态参数118)，MTR是元时间中继116的应用，是当前特征向量并且h_t-1和c_t-1是先前的隐藏状态和先前的单元状态。

然后，当前的隐藏状态和当前的单元状态(例如，隐藏状态参数117和单元状态参数118)由线性变换模块(例如，线性变换模块119)用于生成经归一化的特征图(例如，经归一化的特征图120)，如等式(3)所示。例如，将经标准化的特征图(例如，经标准化的特征图121)变换为经归一化的特征图(例如，经归一化的特征图120)可以包括将单元状态(例如，单元状态参数118)与经标准化的特征图中的每个经标准化的特征和隐藏状态(例如，隐藏状态参数117)的乘积相加。经归一化的子特征图(或特征图){y₁，y₂，...，y_T}被堆叠以形成最终经归一化的特征图或张量。以这种方式，经归一化的视频特征经由轻量级共享MTR来考虑相邻帧之间的特征分布依赖性。

在一些实施例中，元时间中继包括用于动态生成并中继相邻帧之间的归一化参数的元结构。在一些实施例中，如所示出的，元时间中继中的门控机制可以被表示为如等式(5)中所示：

其中，φ(·)是用于处理输入特征和先前的隐藏状态h_t-1的瓶颈单元，b是偏差，并且f_t、i_t、g_t、o_t形成门的集合以对元时间中继的更新进行正则化。例如，f_t可以是用于确定要遗忘多少信息的遗忘门，i_t可以是用于确定从当前时间实例要保持多少信息的输入门，g_t可以是用于确定如何组合信息的门，并且o_t可以是用于确定如何组合信息以形成最终输出的输出门。例如，此类门可以被部署为在循环神经网络体系结构中使用的长短期记忆模块中使用。

在一些实施例中，f_t、i_t、g_t、o_t可以对元时间中继的更新进行正则化，如等式(6)和等式(7)所示：

c_t＝σ(f_t)⊙c_t-1+σ(i_t)⊙tanh(g_t) (6)

h_t＝σ(o_t)⊙σ(c_t) (7)

其中，c_t是单元状态，h_t是隐藏状态，σ(·)是sigmoid函数，并且⊙是Hadamard乘积运算符。

经由元时间中继与元归一化学习的集成，元时间中继结构的单元状态c_t和隐藏状态h_t被设置为用于第t个视频特征切片的缩放参数γ_t和移位参数β_t，如等式(8)所示：

γ_t＝h_t，β_t＝c_t (8)

其中，单元状态c_t和隐藏状态h_t代替缩放参数γ_t和移位参数β_t被部署以用于改进的性能。如等式(4)和本文中别处所示，该设置使得用于第t个视频特征切片的归一化参数不仅以当前输入特征x_t为条件，而且以估计的归一化参数c_t-1和h_t-1或先前的视频特征切片x_t-1为条件。

值得注意的是，本文中所讨论的动态时间归一化的额外参数和计算成本主要来自元时间中继结构，其与DNN的基线模型相比可忽略不计。本文中所讨论的技术在用于各种DNN主干时提供了多种优点，这些优点包括改进的识别准确性、减少的训练时间和改进的网络稳定性。

图2图示出根据本公开的至少一些实现方式布置的、用于提供用于将经标准化的特征图变换为经归一化的特征图的动态变换参数的示例元时间中继116。如关于图1所讨论的，元时间中继116接收特征向量115、隐藏状态参数128和单元状态参数129。元时间中继116用于针对输入视频的当前时间戳来生成用于特征图、相对应的视频帧、等等的隐藏状态参数117和单元状态参数118。隐藏状态参数128和单元状态参数129由元时间中继针对先前时间戳来生成，并且用于针对输入视频的先前时间戳将先前经标准化的特征图变换为先前经归一化的特征图。

关于元时间中继116讨论的细节可以经由本文中的任何元时间中继(诸如元时间中继105、127)来应用。如所示出的，元时间中继116包括sigmoid函数模块202、204、205、206、双曲正切模块203、Hadamard乘积运算符201、207、209、以及加法器208。例如，sigmoid函数模块202、204、206、双曲正切模块203、Hadamard乘积运算符201、207、209、以及加法器208可以实现上文讨论的等式(6)和等式(7)的操作。

例如，sigmoid函数模块202可以基于被部署以用于确定如何组合元时间中继116的信息的输出门o_t应用sigmoid函数，并且sigmoid函数模块206可以基于单元状态参数c_t应用sigmoid函数，并且结果然后可以经历如由Hadamard乘积运算符201提供的Hadamard乘积以最终生成隐藏参数h_t，如关于等式(7)所示。此外，sigmoid函数模块205可以基于用于确定要遗忘多少信息的遗忘门f_t来应用sigmoid函数，并且结果和先前的单元状态参数c_t-1然后可以经历如由Hadamard乘积运算符209提供的Hadamard乘积。然后，结果经由加法器208与Hadamard乘积相加，该Hadamard乘积如由Hadamard乘积运算符207提供的、是被应用于用于确定要保持多少信息的输入门i_t的sigmoid函数(例如，经由sigmoid函数模块204被应用的sigmoid函数)与基于被部署以用于确定如何组合元时间中继116的信息的门g_t被应用的双曲正切函数(例如，经由双曲正切模块203被应用的双曲正切函数)的Hadamard乘积。然后，总和最终被用作单元状态参数c_t，如关于等式(7)所示。元时间中继116的此类参数的解、近似或估计可以使用任何合适的(一个或多个)技术(诸如线性或非线性映射)来确定。

如关于图1和本文中别处所讨论的，所得到的隐藏状态参数117和单元状态参数118用于将经标准化的特征图121归一化或线性变换为经归一化的特征图120。由此，提供了动态时间归一化，其提供了沿时间轴线141的时间维度的动态归一化参数(即，隐藏状态参数和单元状态参数)生成和中继。

图3图示出根据本公开的至少一些实现方式布置的、包括一个或多个动态时间归一化模块的用于对输入视频140执行视频识别的示例深度神经网络300。正如系统100，深度神经网络300可以经由任何合适的设备来实现，这些设备诸如个人计算机、膝上型电脑、服务器计算机、边缘设备、云设备、平板电脑、平板手机、智能电话、数码相机、游戏控制台、可穿戴设备、显示设备、一体机设备、二合一设备、SoC等。深度神经网络300可以在训练阶段(未示出)中被训练并且在推断阶段中被实现以提供(一个或多个)视频识别输出336。深度神经网络300可以执行任何(一个或多个)视频识别任务，这些任务包括视频对象检测、视频动作检测或视频分割。视频识别输出336可以包括指示此类识别的任何合适的数据结构，包括视频剪辑级别指示符(例如，指示剪辑中检测到的对象、剪辑中检测到的活动等)、视频帧级别指示符(例如，指示帧中检测到的对象、帧中检测到的活动等)、或像素或块级别指示符(例如，指示像素或块中检测到的对象、像素或块中检测到的活动、像素或块的分割标识符、等等)。诸如概率之类的其他数据结构可以代替指示符来使用。

如所示出的，深度神经网络300包括第一卷积神经网络层(CNN L1)310、动态时间归一化(DTN)模块313、第二CNN层(CNN L2)320、DTN模块323、任意数量的中间CNN层和DTN模块、最终CNN层(CNN Lx)330、以及可选的全连接层335。在网络训练阶段对此类层进行训练，以提供用于网络推断阶段中的部署的最终化参数。如所示出的，在一些实施例中，在每对CNN层341之间，提供了DTN模块351中的DTN模块。在其他实施例中，一些相邻的CNN层对缺少DTN模块，使得标准归一化可以被执行。也就是说，DTN模块351可以在一些但不是所有CNN层处被实现。此外，DTN模块351中的每个DTN模块可以包括全局平均池化模块114、元时间中继、标准化模块和线性变换模块，以执行如本文中所讨论的功能。

DNN 300接收输入视频140以用于处理。输入视频140可以包括任何合适的视频分辨率和格式，诸如HD、UHD、4K或任何其他分辨率的YUV格式视频，三通道输入包括针对每个颜色通道(例如，RGB、YUV等)一个通道。输入视频140提供可以由输入视频140的其他特性(诸如二进制掩模层、运动向量层等)补充的输入量(input volume)，这取决于由DNN300采用的视觉识别任务。CNN层310处理输入视频140(即，输入量或张量)以提供特征张量或特征图311。然后，特征图311可以被分割成子特征图(或者简单地，特征图)，其如本文中关于图1所讨论的那样由DTN模块313来处理以生成经归一化的特征图314。特征图314还可以被表征为特征张量或特征量等。

然后，特征图314被提供到随后的CNN层320，该CNN层320处理特征图314(即，输入量或张量)以提供输出特征张量或特征图321。然后，特征图321可以如本文中所讨论的那样由DTN模块323分割和处理以生成经归一化的特征图324。特征图324等等通过最终CNN层330。CNN层330的输出(特征张量或特征图331)可以由DTN模块323归一化以生成经归一化的特征图334，经归一化的特征图334被提供到全连接层335。替代地，特征图331可以被提供到全连接层335。全连接层335生成视频识别输出336。尽管关于DNN 300进行了图示，但是DTN模块351可以被部署在任何合适的视频识别深度学习体系结构中。

图4是图示出根据本公开的至少一些实现方式布置的、用于使用包括一个或多个动态时间归一化模块的深度神经网络来执行推断的示例过程400的流程图。过程400可以包括如图4中所图示的一个或多个操作401-408。过程400或其部分可以由本文中讨论的任何设备或系统执行以提供视频识别。

过程400在操作401处开始，其中输入视频剪辑被接收以用于视频识别处理。此外，预训练的DNN可以被接收或被部署以用于处理输入视频剪辑。预训练的DNN在训练阶段中被训练并且然后被部署在推断阶段中，其中，预选的DNN体系结构和预训练的DNN参数经由设备或系统本地地(例如，在本地设备处)或远程地(例如，在云或服务器服务处)实现以对输入视频剪辑执行推断，从而生成视频识别输出。

处理在操作402处继续，其中，来自DNN内的传入输入量或输出特征图在特定DNN层处被处理以生成输出特征图。可以使用任何合适的(一个或多个)技术来执行此类处理。例如，DNN层可以实现将任意数量的卷积核部署到传入特征张量以生成输出特征张量的CNN层。诸如修正线性单元操作之类的其他操作或模块可以被应用。值得注意的是，输出特征张量可以被划分为任意数量的时间相邻的特征图，每个特征图具有输入视频剪辑的时间戳或与输入视频剪辑的时间戳相对应。

处理在操作403处继续，其中，使用任何合适的(一个或多个)技术来聚合输出特征图(例如，以降低维度)。在一些实施例中，全局平均池化被应用于每个输出特征图以聚合特征图。在一些实施例中，所得到的特征向量具有一维。然而，其他维度可以被使用。

处理在操作404处继续，其中，针对每个特征图所得到的特征向量连同先前时间戳变换参数被接收。值得注意的是，先前时间戳变换参数用于将先前时间戳经标准化的特征图变换为先前时间戳经归一化的特征图。通过以持续时间方式将当前时间戳变换参数(例如，用于将当前时间戳经标准化的特征图变换为当前时间戳经归一化的特征图)基于先前时间戳变换参数，实现DNN例如在处置视频数据的复杂时空特征变化的方面的改进的性能。

处理在操作405处继续，其中，当前时间戳变换参数通过将元时间中继应用到在操作403处生成的特征向量和在操作404处接收到的先前时间戳变换参数来生成。当前时间戳变换参数可以使用本文中讨论的任何技术来生成。如所讨论的，在一些实施例中，元时间中继被应用于特征向量和先前时间戳变换参数，以生成当前时间戳变换参数。在一些实施例中，元时间中继包括从当前特征向量和先前隐藏状态到由元时间中继应用的一个或多个门控机制的映射，如本文中所讨论。在一些实施例中，映射包括从当前特征向量和先前隐藏状态到一个或多个门控机制的瓶颈映射结构。

处理在操作406处继续，其中，在操作402处生成的输出特征图被标准化为经标准化的特征图。可以使用任何合适的(一个或多个)技术来执行标准化。在一些实施例中，(一个或多个)当前经标准化的特征图通过基于使用输入视频或(一个或多个)当前特征图的至少一部分估计的均值和标准差对(一个或多个)特征图进行标准化来生成。如本文中所讨论，代替估计的均值和标准差，使用在操作405处生成的当前时间戳变换参数(例如，元时间中继的隐藏状态参数和单元状态参数)来执行最终归一化(经由线性变换)。值得注意的是，估计的均值和标准差使用仅当前时间戳数据(例如，在不使用时间相邻数据的情况下)来生成，而隐藏状态参数和单元状态参数使用时间上先前的数据(例如，先前时间戳隐藏状态参数和单元状态参数)和当前数据(例如，当前时间戳特征向量)来生成。尽管关于所使用的当前时间戳特征向量进行了讨论，但在一些实施例中，来自相关DNN层的当前特征图或其他相对应的当前数据结构可以被部署。此外，操作403-405和操作406可以按顺序或并行被执行，因为它们的操作提供独立的处理路径。

处理在操作407处继续，其中，在操作406处生成的经标准化的特征图使用在操作405处生成的当前变换参数代替用于对特征图进行标准化的缩放和移位参数被归一化或线性变换为经归一化的特征图。例如，此类操作可以根据等式(3)来执行，使得经归一化的特征图中的每个特征包括当前单元状态参数与每个相对应的经标准化的特征和当前隐藏状态参数的乘积的和。此类技术提供了时间依赖性以用于改进的性能。此类操作(例如，操作404-407)可以按照在操作401处接收到的视频剪辑的时间顺序、针对任何数量的时间实例或时间切片来执行。

处理在操作408处继续，其中，按照时间顺序跨时间实例或时间切片的经归一化的特征图可以被合并或组合成所有特征图的特征张量，以用于在后续的DNN层(例如，按照DNN的层顺序在后续)处进行处理。然后，处理可以针对DNN的每个层或DNN的至少一些剩余层继续操作402-408。然后，最终的DNN层可以被馈送到全连接层以用于视频识别输出的生成，如本文中所讨论。

图5图示出根据本公开的至少一些实现方式布置的、用于使用动态时间归一化进行视频识别的激活图的示例性视觉比较。在图5中，图像的顶行呈现篮球场景的示例性视频剪辑501。图像的中间行图示出在DNN体系结构中不使用动态时间归一化的基线视频识别502。图像的底行图示出使用如本文中所讨论的包括动态时间归一化的DNN体系结构进行的动态时间归一化增强的视频识别503。

如关于从图像的底行的右侧的第三图像中示出的高亮的特征504所示的，包括动态时间归一化的DNN体系结构在特征识别和检测中提供了改进的准确性和稳健性。值得注意的是，动态时间归一化增强的DNN体系结构学习一致地且准确地定位各种上下文中的运动注意区域的视频特征。

图6是图示出根据本公开的至少一些实现方式布置的、用于将包括动态时间归一化的视频识别应用于输入视频的示例过程600的流程图。过程600可以包括如图6中所图示的一个或多个操作601-604。过程600可以形成人工智能、视频识别或其他应用的至少一部分。作为非限制性示例，过程600可以形成由DNN 300在其实现阶段中(即，在训练阶段之后)执行的视频处理的至少一部分。此外，过程600将在本文中参考图7的系统700来描述。

图7是根据本公开的至少一些实现方式布置的、用于将包括动态时间归一化的视频识别应用于输入视频的示例系统700的说明性示图。如图7所示，系统700可以包括中央处理器701、视频处理器702、存储器存储装置703和相机704。例如，相机704可以采集输入视频以用于处理。另外如所示出的，中央处理器701可以包括或实现任意数量的DNN层341、DTN模块351和可选的全连接层335。系统700也可以包括或实现如本文中所讨论的任何模块、层或组件。存储器存储装置703可以存储输入视频、DNN参数、特征张量、特征图、特征向量、经标准化的特征图、经归一化的特征图、变换参数、或本文中所讨论的任何其他数据。

如所示出的，在一些示例中，DNN层341、DTN模块351和可选的全连接层335经由中央处理器701来实现。在其他示例中，DNN层341、DTN模块351和可选的全连接层335中的一个或多个或部分经由视频处理器702、图像处理器、图形处理器等来实现。在另外的其他示例中，DNN层341、DTN模块351和可选的全连接层335中的一个或多个或部分经由视频处理管线或单元来实现。

视频处理器702可包括可以提供如本文中所讨论的操作的任何数量和类型的图形、图像或视频处理单元。在一些示例中，视频处理器702是视频或图像信号处理器。例如，视频处理器702可以包括专用于操纵从存储器存储装置703获得的视频数据的电路系统。中央处理器701可以包括任何数量和类型的处理单元或模块，其可以为系统700提供控制和其他高级功能和/或提供如本文中讨论的任何操作。存储器存储装置703可以是任何类型的存储器，诸如易失性存储器(例如，静态随机存取存储器(Static Random Access Memory,SRAM)、动态随机存取存储器(Dynamic Random Access Memory,DRAM)等)或非易失性存储器(例如，闪存等)、等等。在非限制性示例中，存储器存储装置703可以由缓存存储器来实现。

在实施例中，DNN层341、DTN模块351和可选的全连接层335中的一个或多个或部分经由视频处理器702的执行单元(execution unit,EU)来实现。EU可以包括例如可编程逻辑或电路系统，诸如可提供一系列广泛的可编程逻辑功能的一个或多个逻辑核心。在实施例中，DNN层341、DTN模块351和可选的全连接层335中的一个或多个或部分经由专用硬件(诸如固定功能电路系统等)来实现。固定功能电路系统可以包括专用逻辑或电路系统，并且可以提供可以映射到用于固定目的或功能的专用逻辑的固定功能进入点的集合。在一些实施例中，DNN层341、DTN模块351和可选的全连接层335中的一个或多个或部分经由专用集成电路(application specific integrated circuit,ASIC)来实现。ASIC可以包括被定制以执行本文中讨论的操作的集成电路系统。相机704可以包括具有用于捕获用于输入到如本文中讨论的CNN的图像或视频的任何合适的透镜和图像传感器和/或相关硬件的任何相机。

返回到对图6的讨论，过程600在操作601处开始，其中，当前经标准化的特征图从深度神经网络的特定层被接收，使得当前经标准化的特征图与输入视频的当前时间戳相对应。深度神经网络可以包括任何合适的视频识别模型。在一些实施例中，深度神经网络是视频对象检测模型、视频动作检测模型或视频分割模型中的一个。特定层可以是深度神经网络的任何层。在一些实施例中，深度神经网络的特定层是深度神经网络的输入层。可以使用任何合适的(一个或多个)技术对当前经标准化的特征图进行标准化。在一些实施例中，过程600进一步包括通过基于使用输入视频或当前特征图的至少一部分估计的均值和标准差对当前特征图进行标准化来生成当前经标准化的特征图。如本文中所使用，术语经标准化的特征图指示基于输入视频和/或DNN的特征图的统计特征调整的特征图。在一些实施例中，标准化包括从每个特征中减去均值以及除以标准差的平方与小常数之和的平方根，如关于等式(1)所示。

处理在操作602处继续，其中，基于先前变换参数以及与当前经标准化的特征图相对应的当前特征向量或当前特征图中的一个来生成用于对在操作601处接收到的当前经标准化的特征图进行变换的当前变换参数，使得先前变换参数用于针对输入视频的先前时间戳将先前经标准化的特征图变换为先前经归一化的特征图。在一些实施例中，当前特征向量被使用，并且过程600进一步包括通过将全局平均池化应用于当前特征图来生成当前特征向量。在一些实施例中，当前变换参数包括被应用于先前变换参数和当前特征向量或当前特征图的元时间中继的隐藏状态参数和单元状态参数。在一些实施例中，将当前经标准化的特征图变换为当前经归一化的特征图包括将单元状态参数与当前经标准化的特征图的第一经标准化的特征和隐藏状态参数的乘积相加。此类处理可以针对当前经标准化的特征图中的每个经标准化的特征来重复。在一些实施例中，元时间中继包括从当前特征向量和先前隐藏状态到由元时间中继应用的一个或多个门控机制的映射，使得先前隐藏状态用于针对输入视频的先前时间戳将先前经标准化的特征图变换为先前经归一化的特征图。在一些实施例中，映射包括从当前特征向量和先前隐藏状态到一个或多个门控机制的瓶颈映射结构。在一些实施例中，在将当前经标准化的特征图变换为当前经归一化的特征图的过程中，当前变换参数用于代替均值和标准差。

处理在操作603处继续，其中，使用当前变换参数将当前经标准化的特征图变换为当前经归一化的特征图。如所讨论的，在一些实施例中，将当前经标准化的特征图变换为当前经归一化的特征图包括将单元状态参数与当前经标准化的特征图的每个经标准化的特征和隐藏状态参数的乘积相加。值得注意的是，在将当前经标准化的特征图变换为当前经归一化的特征图的过程中，当前变换参数用于代替均值和标准差。如本文中所使用，术语经归一化的特征图指示特征图已经从经标准化的特征图恢复了经标准化的特征。此类归一化可以包括使用单元状态参数和隐藏状态参数对经标准化的特征图进行线性变换，使得隐藏状态参数是线性系数并且单元状态参数是相加的常数。

处理在操作604处继续，其中，视频识别输出基于将深度神经网络的特定层之后的第二层应用于当前经归一化的特征图来生成。在一些实施例中，此类处理针对深度神经网络的其他层被重复。例如，此类动态时间归一化可以被应用于深度神经网络的任何层之间，诸如被应用于卷积层之间、被应用于卷积层与全连接层之间、或者被应用于深度神经网络的第一卷积层之前。视频识别输出可以是任何合适的输出，诸如对象、动作或任何粒度级别(诸如像素、块、区域或帧级别)的分割指示符或概率。

本文中描述的系统的各种组件可以以软件、固件、和/或硬件、和/或其任何组合来实现。例如，本文中所讨论的系统的各种组件可以至少部分地由计算片上系统(SoC)的硬件(诸如可以在计算系统(诸如例如，智能电话)中找到的硬件)提供。本领域技术人员可以认识到，本文中描述的系统可以包括尚未在相对应的附图中被描绘的附加组件。例如，本文中所讨论的系统可以包括出于清楚起见而尚未被描绘的附加组件(诸如通信模块等)。在一些实施例中，系统包括：存储器，该存储器用于存储本文中所讨论的任何数据结构；以及一个或多个处理器，该一个或多个处理器用于实现本文中所讨论的任何操作。

尽管本文中所讨论的示例过程的实现方式可以包括以所图示的顺序示出的所有操作的实施，但是本公开不限于此，并且在各种示例中，本文中的示例过程的实现方式可以仅包括所示操作的子集、以与所图示的顺序不同的顺序执行的操作、或者附加的操作。

此外，本文中讨论的操作中的任何一个或多个操作都可以响应于由一个或多个计算机程序产品提供的指令来实施。此类程序产品可以包括提供指令的信号承载介质，该指令在由例如处理器执行时，可以提供本文中所描述的功能。计算机程序产品可以以一个或多个机器可读介质的任何形式被提供。由此，例如，包括一个或多个图形处理单元或处理器核心的处理器可以响应于由一个或多个机器可读介质传送到处理器的程序代码和/或指令或指令集来实施本文中的示例过程中的块中的一个或多个块。一般而言，机器可读介质可以以程序代码和/或指令或指令集的形式来传送软件，该软件可以使得本文中所描述的设备和/或系统中的任何设备和/或系统实现本文中所讨论的系统的至少部分或本文中所讨论的任何其他模块或组件。在一些实施例中，本文中所讨论的操作由至少一种非暂态机器可读介质来实现，该非暂态机器可读介质包括指令，该指令响应于在设备上被执行而使得设备执行此类操作。

如本文中所描述的任何实现方式中所使用的，术语“模块”或“组件”指代被配置成用于提供本文中所描述的功能的软件逻辑、固件逻辑、硬件逻辑和/或电路系统的任何组合。软件可以被具体化为软件包、代码和/或指令集或指令，并且如在本文中所描述的任何实现方式中所使用的“硬件”可以单独地或以任何组合包括例如硬连线电路系统、可编程电路系统、状态机电路系统、固定功能电路系统、执行单元电路系统和/或存储由可编程电路系统执行的指令的固件。模块可共同地或单独地被具体化为形成较大系统的一部分的电路系统，该较大系统例如，集成电路(IC)、片上系统(SoC)等等。

图8是根据本公开的至少一些实现方式布置的示例系统800的说明性示图。在各种实现方式中，系统800可以是移动系统，虽然系统800不限于此上下文。系统800可以实现和/或执行本文中所讨论的任何模块或技术。例如，系统800可以被并入到以下各项中：个人计算机(personal computer,PC)、服务器、膝上型电脑、超膝上型电脑、平板电脑、触摸板、便携式计算机、手持式计算机、掌上计算机、个人数字助理(personal digital assistant,PDA)、蜂窝电话、组合蜂窝电话/PDA、电视、智能设备(例如，智能电话、智能平板电脑或智能电视)、移动互联网设备(mobile internet device,MID)、消息传送设备、数据通信设备、相机(例如，傻瓜相机(point-and-shoot camera)、超级变焦相机、数码单透镜反射(digitalsingle-lens reflex,DSLR)相机)、网络设备、边缘设备、云系统、等等。在一些示例中，系统800可以经由云计算环境来实现。

在各种实现方式中，系统800包括耦合到显示器820的平台802。平台802可以从诸如(一个或多个)内容服务设备830或(一个或多个)内容递送设备840或其他类似内容源之类的内容设备接收内容。包括一个或多个导航特征的导航控制器850可以用于与例如平台802和/或显示器820交互。下文将更详细地描述这些组件中的每个组件。

在各种实现方式中，平台802可以包括芯片组805、处理器810、存储器812、天线813、存储装置814、图形子系统815、应用816和/或无线电装置818的任何组合。芯片组805可以提供处理器810、存储器812、存储装置814、图形子系统815、应用816和/或无线电装置818之间的相互通信。例如，芯片组805可以包括能够提供与存储装置814的相互通信的存储装置适配器(未描绘)。

处理器810可以被实现为复杂指令集计算机(Complex Instruction SetComputer,CISC)或精简指令集计算机(Reduced Instruction Set Computer,RISC)处理器、x86指令集兼容处理器、多核心或任何其他微处理器或中央处理单元(centralprocessing unit,CPU)。在各种实现方式中，处理器810可以是(一个或多个)双核心处理器、(一个或多个)双核心移动处理器、等等。

存储器812可以被实现为易失性存储设备，诸如但不限于随机存取存储器(RAM)、动态随机存取存储器(Dynamic Random Access Memory,DRAM)或静态RAM(Static RAM,SRAM)。

存储装置814可以被实现为非易失性存储设备，诸如但不限于磁盘驱动器、光盘驱动器、磁带驱动器、内部存储设备、附接存储设备、闪存、电池备份SDRAM(同步DRAM)和/或网络可访问存储设备。在各种实现方式中，例如当多个硬盘驱动器被包括时，存储装置814可以包括用于针对有价值的数字媒体增加存储性能增强保护的技术。

图像信号处理器817可以被实现为用于图像或视频帧处理的专用数字信号处理器等。在一些示例中，图像信号处理器817可以基于单指令多数据或多指令多数据体系结构等来实现。在一些示例中，图像信号处理器817可以被表征为媒体处理器。如本文中所讨论，图像信号处理器817可以基于片上系统体系结构和/或基于多核心体系结构来实现。

图形子系统815可以执行对图像(诸如用于显示的静态图像或视频)的处理。例如，图形子系统815可以是图形处理单元(graphics processing unit,GPU)或视觉处理单元(visual processing unit,VPU)。模拟或数字接口可用于通信地耦合图形子系统815和显示器820。例如，接口可以是高清晰度多媒体接口、显示端口、无线HDMI和/或无线HD兼容技术中的任一项。图形子系统815可以被集成到处理器810或芯片组805中。在一些实现方式中，图形子系统815可以是通信地耦合到芯片组805的独立设备。

本文中描述的图形和/或视频处理技术可以在各种硬件体系结构中被实现。例如，图形和/或视频功能可以被集成在芯片组内。替代地，分立的图形和/或视频处理器可以被使用。作为又一实现方式，图形和/或视频功能可以由通用处理器提供，该通用处理器包括多核心处理器。在进一步的实施例中，功能可以在消费电子设备中被实现。

无线电装置818可以包括能够使用各种合适的无线通信技术发射和接收信号的一个或多个无线电装置。此类技术可以涉及跨一个或多个无线网络的通信。示例无线网络包括(但不限于)无线局域网(wireless local area network,WLAN)、无线个域网(wirelesspersonal area network,WPAN)、无线城域网(wireless metropolitan area network,WMAN)、蜂窝网络和卫星网络。在跨此类网络进行通信时，无线电装置818可以根据任何版本的一个或多个可应用的标准进行操作。

在各种实现方式中，显示器820可以包括任何电视类型的监视器或显示器。例如，显示器820可以包括计算机显示屏、触摸屏显示器、视频监视器、类似电视的设备和/或电视机。显示器820可以是数字的和/或模拟的。在各种实现方式中，显示器820可以是全息显示器。此外，显示器820可以是可接收视觉投影的透明表面。此类投影可以传达各种形式的信息、图像和/或对象。例如，此类投影可以是用于移动增强现实(mobile augmentedreality,MAR)应用的视觉叠加。在一个或多个软件应用816的控制下，平台802可以在显示器820上显示用户接口822。

在各种实现方式中，(一个或多个)内容服务设备830可以由任何国家的、国际的和/或独立的服务托管，并且由此例如可经由互联网访问平台802。(一个或多个)内容服务设备830可以耦合到平台802和/或耦合到显示器820。平台802和/或(一个或多个)内容服务设备830可以耦合到网络860以向网络860传送(例如，发送)媒体信息和/或从网络860传送(例如，接收)媒体信息。(一个或多个)内容递送设备840也可以耦合到平台802和/或耦合到显示器820。

在各种实现方式中，(一个或多个)内容服务设备830可以包括有线电视盒、个人计算机、网络、电话、能够递送数字信息和/或内容的支持互联网的设备或器具、以及能够经由网络860或直接在内容提供商与平台802和/或显示器820之间单向或双向传送内容的任何其他类似设备。将要领会的是，内容可以经由网络860单向和/或双向地传送至系统800中的组件中的任何一个组件和内容提供商，以及经由网络860从系统800中的组件中的任何一个组件和内容提供商单向和/或双向地传送。内容的示例可以包括任何媒体信息，包括例如视频、音乐、医疗和游戏信息等等。

(一个或多个)内容服务设备830可以接收诸如包括媒体信息、数字信息和/或其他内容的有线电视节目之类的内容。内容提供商的示例可以包括任何有线或卫星电视或广播或互联网内容提供商。所提供的示例并不意味着以任何方式限制根据本公开的实现方式。

在各种实现方式中，平台802可以从具有一个或多个导航特征的导航控制器850接收控制信号。例如，导航控制器850的导航特征可用于与用户接口822交互。在各种实施例中，导航控制器850可以是指针设备，该指针设备可以是允许用户将空间(例如，连续和多维)数据输入到计算机中的计算机硬件组件(具体地，人机接口设备)。诸如图形用户界面(graphical user interface,GUI)、电视和监视器之类的许多系统允许用户使用物理手势来控制计算机或电视并将数据提供到计算机或电视。

导航控制器850的导航特征的移动可以通过显示器上显示的指针、光标、聚焦环或其他视觉指示器的移动而在显示器(例如，显示器820)上复制。例如，在软件应用816的控制下，被定位在导航控制器850上的导航特征例如可以被映射到用户接口822上显示的虚拟导航特征。在各种实施例中，导航控制器850可以不是单独的组件，而是可以被集成到平台802和/或显示器820中。然而，本公开不限于本文中所示出或描述的元件或上下文。

在各种实现方式中，驱动器(未示出)可以包括使得用户能够在初始启动之后(例如，当被启用时)通过触摸按钮来立即打开和关闭平台802(如电视)的技术。即使当平台被“关闭”时，程序逻辑也可以允许平台802将内容流传输到媒体适配器或(一个或多个)其他内容服务设备830或(一个或多个)内容递送设备840。此外，芯片组805可以包括对例如5.1环绕声音频和/或高清晰度7.1环绕声音频的硬件和/或软件支持。驱动器可以包括用于集成图形平台的图形驱动器。在各种实施例中，图形驱动器可以包括外围组件互连(peripheral component interconnect,PCI)快速图形卡。

在各种实现方式中，系统800中所示的组件中的任何一个或多个组件可以被集成。例如，平台802和(一个或多个)内容服务设备830可以被集成，或者平台802和(一个或多个)内容递送设备840可以被集成，或者例如平台802、(一个或多个)内容服务设备830和(一个或多个)内容递送设备840可以被集成。在各种实施例中，平台802和显示器820可以是集成单元。例如，显示器820和(一个或多个)内容服务设备830可以被集成，或者显示器820和(一个或多个)内容递送设备840可以被集成。这些示例并不意味着限制本公开。

在各种实施例中，系统800可以被实现为无线系统、有线系统或两者的组合。当被实现为无线系统时，系统800可以包括适于通过无线共享介质进行通信的组件和接口，诸如一个或多个天线、发射器、接收器、收发器、放大器、滤波器、控制逻辑等等。无线共享介质的示例可以包括无线频谱的部分，诸如RF频谱等等。当被实现为有线系统时，系统800可以包括适于通过有线通信介质进行通信的组件和接口，诸如输入/输出(input/output,I/O)适配器、将I/O适配器与相对应的有线通信介质连接的物理连接器、网络接口卡(networkinterface card,NIC)、盘控制器、视频控制器、音频控制器等。有线通信介质的示例可以包括电线、电缆、金属引线、印刷电路板(printed circuit board,PCB)、背板、开关结构、半导体材料、双绞线、同轴电缆、光纤等等。

平台802可以建立一个或多个逻辑或物理通道来传送信息。该信息可以包括媒体信息和控制信息。媒体信息可以指代表示用于用户的内容的任何数据。例如，内容的示例可以包括来自语音对话、视频会议、流传输视频、电子邮件(“邮件”)消息、语音邮件消息、字母数字符号、图形、图像、视频、文本等等的数据。例如，来自语音对话的数据可以是话音信息、静默时段、背景噪声、舒适噪声、音调等等。控制信息可以指代表示用于自动化系统的命令、指令或控制字的任何数据。例如，控制信息可用于通过系统路由媒体信息，或者指令节点以预定方式处理媒体信息。然而，实施例不限于图8中所示或描述的元件或上下文。

如上文所描述的，系统800可以以不同的物理样式或形状因子来具体化。图9图示出根据本公开的至少一些实现方式布置的示例小型设备900。在一些示例中，系统800可以经由设备900来实现。在其他示例中，本文中所讨论的其他系统或其部分可以经由设备900来实现。例如，在各种实施例中，设备900可以被实现为具有无线能力的移动计算设备。例如，移动计算设备可以指代具有处理系统和移动功率源或电源(诸如一个或多个电池)的任何设备。

移动计算设备的示例可以包括个人计算机(PC)、膝上型电脑、超膝上型电脑、平板电脑、触摸板、便携式计算机、手持式计算机、掌上计算机、个人数字助理(PDA)、蜂窝电话、组合蜂窝电话/PDA、智能设备(例如，智能电话、智能平板电脑或智能移动电视)、移动互联网设备(MID)、消息传送设备、数据通信设备、相机(例如，傻瓜相机、超级变焦相机、数码单透镜反射(DSLR)相机)、等等。

移动计算设备的示例还可以包括被布置成用于由人穿戴的计算机，诸如手腕计算机、手指计算机、戒指计算机、眼镜计算机、皮带夹计算机、臂章计算机、鞋计算机、衣服计算机和其他可穿戴计算机。例如，在各种实施例中，移动计算设备可以被实现为能够执行计算机应用以及语音通信和/或数据通信的智能电话。尽管可以通过示例的方式用被实现为智能电话的移动计算设备来描述一些实施例，但是可以领会，也可以使用其他无线移动计算设备实现其他实施例。实施例不限于此上下文。

如图9所示，设备900可包括具有前部901和后部902的壳体。设备900包括显示器904、输入/输出(I/O)设备906、相机915、相机905、以及集成天线908。设备900还可以包括导航特征912。I/O设备906可以包括用于将信息输入到移动计算设备中的任何合适的I/O设备。I/O设备906的示例可以包括字母数字键盘、数字键盘、触摸板、输入键、按钮、开关、麦克风、扬声器、语音识别设备和软件等等。信息也可以通过麦克风(未示出)的方式输入到设备900中，或者可以通过语音识别设备进行数字化。如所示出的，设备900可以包括集成到设备900的后部902(或其他地方)中的相机905和闪光灯910以及集成到设备900的前部901中的相机915。在一些实施例中，相机915、905中的一者或两者都可相对于显示器904移动。相机915和/或相机905可以是用于产生被处理成流传输视频的颜色图像数据的成像模块或管线的组件，该流传输视频被输出到显示器904和/或例如经由天线908从设备900远程地传送。例如，相机915可以捕获输入图像，并且眼睛接触校正的图像可以被提供到显示器904和/或经由天线908从设备900远程地传送。

可使用硬件元件、软件元件或两者的组合来实现各种实施例。硬件元件的示例可包括处理器、微处理器、电路、电路元件(例如，晶体管、电阻器、电容器、电感器等)、集成电路、专用集成电路(ASIC)、可编程逻辑器件(programmable logic device,PLD)、数字信号处理器(digital signal processor,DSP)、现场可编程门阵列(field programmable gatearray,FPGA)、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片组等等。软件的示例可包括软件组件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、函数、方法、过程、软件接口、应用程序接口(applicationprograminterface,API)、指令集、计算代码、计算机代码、代码段、计算机代码段、字、值、符号、或其任何组合。确定是否使用硬件元件和/或软件元件来实现实施例可能根据任何数量的因素而不同，这些因素诸如，期望的计算速率、功率级别、热容限、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度以及其他设计或性能约束。

至少一个实施例的一个或多个方面可以由存储在机器可读介质上的表示性指令来实现，该指令表示处理器内的各种逻辑，该指令当被机器读取时使得该机器制造用于执行本文中所描述的技术的逻辑。被称为IP核心的此类表示可以被存储在有形的机器可读介质上，并且可被供应给各个客户或生产设施以加载到实际制造该逻辑或处理器的制造机器中。

尽管已经参考各种实现方式描述了本文中阐述的某些特征，但是该描述并不旨在被解释为限制意义。因此，对本公开所属领域的技术人员显而易见的本文中所描述的实现方式的各种修改以及其他实现方式被认为落入本公开的精神和范围内。

以下涉及进一步的实施例。

在一个或多个第一实施例中，一种用于将视频识别应用于输入视频的方法包括：接收来自深度神经网络的特定层的当前经标准化的特征图，该当前经标准化的特征图与输入视频的当前时间戳相对应；基于先前变换参数以及与当前经标准化的特征图相对应的当前特征向量或当前特征图中的一个来生成用于对当前经标准化的特征图进行线性变换的当前变换参数，先前变换参数用于针对输入视频的先前时间戳将先前经标准化的特征图变换为先前经归一化的特征图；使用当前变换参数将当前经标准化的特征图变换为当前经归一化的特征图；以及基于将深度神经网络的在特定层之后的第二层应用于当前经归一化的特征图来生成视频识别输出。

在一个或多个第二实施例中，进一步对于第一实施例，当前变换参数包括被应用于先前变换参数和当前特征向量或当前特征图的元时间中继的隐藏状态参数和单元状态参数。

在一个或多个第三实施例中，进一步对于第一实施例或第二实施例，将当前经标准化的特征图变换为当前经归一化的特征图包括：将单元状态参数与当前经标准化的特征图的第一经标准化的特征和隐藏状态参数的乘积相加。

在一个或多个第四实施例中，进一步对于第一实施例至第三实施例中的任一项，元时间中继包括从当前特征向量和先前隐藏状态到由元时间中继应用的一个或多个门控机制的映射，先前隐藏状态用于针对输入视频的先前时间戳将先前经标准化的特征图变换为先前经归一化的特征图。

在一个或多个第五实施例中，进一步对于第一实施例至第四实施例中的任一项，映射包括从当前特征向量和先前隐藏状态到一个或多个门控机制的瓶颈映射结构。

在一个或多个第六实施例中，进一步对于第一实施例至第五实施例中的任一项，方法进一步包括通过基于使用输入视频或当前特征图的至少一部分估计的均值和标准差对当前特征图进行标准化来生成当前经标准化的特征图。

在一个或多个第七实施例中，进一步对于第一实施例至第六实施例中的任一项，生成当前变换参数是基于当前特征向量，并且方法进一步包括通过将全局平均池化应用于当前特征图来生成当前特征向量。

在一个或多个第八实施例中，进一步对于第一实施例至第七实施例中的任一项，在将当前经标准化的特征图变换为当前经归一化的特征图的过程中，当前变换参数用于代替均值和标准差。

在一个或多个第九实施例中，进一步对于第一实施例至第八实施例中的任一项，其中，深度神经网络包括视频对象检测模型、视频动作检测模型或视频分割模型中的一个。

在一个或多个第十实施例中，进一步对于第一实施例至第九实施例中的任一项，深度神经网络的第一层是深度神经网络的输入层。

在一个或多个第十一实施例中，一种设备或系统包括：存储器；以及一个或多个处理器，该一个或多个处理器用于执行根据上述实施例中的任一实施例的方法。

在一个或多个第十二实施例中，至少一种机器可读介质包括多个指令，该多个指令响应于在计算设备上被执行而使得该计算设备执行根据上述实施例中的任一实施例的方法。

在一个或多个第十三实施例中，一种设备包括用于执行根据上述实施例中的任一实施例的方法的装置。

将认识到，实施例不限于如此描述的实施例，而是可以在不脱离所附权利要求的范围的情况下进行修改和改变来实践。例如，上述实施例可以包括特征的特定组合。然而，以上实施例不限于此，并且在各种实现方式中，以上实施例可以包括仅采用此类特征的子集、采用此类特征的不同顺序、采用此类特征的不同组合、和/或采用除了明确列出的那些特征之外的附加特征。因此，各实施例的范围应当参考所附权利要求连同这些权利要求赋予的等效方案的全部范围而确定。

Claims

1.一种用于将视频识别应用于输入视频的系统，包括：

存储器，所述存储器用于存储来自深度神经网络的特定层的当前经标准化的特征图的至少一部分，所述当前经标准化的特征图与所述输入视频的当前时间戳相对应；以及

一个或多个处理器，所述一个或多个处理器耦合到所述存储器，所述一个或多个处理器用于：

基于先前变换参数以及与所述当前经标准化的特征图相对应的当前特征向量或当前特征图中的一个来生成用于对所述当前经标准化的特征图进行线性变换的当前变换参数，所述先前变换参数用于针对所述输入视频的先前时间戳将先前经标准化的特征图变换为先前经归一化的特征图；

使用所述当前变换参数将所述当前经标准化的特征图变换为当前经归一化的特征图；并且

基于将所述深度神经网络的在所述特定层之后的第二层应用于所述当前经归一化的特征图来生成视频识别输出。

2.如权利要求1所述的系统，其中，所述当前变换参数包括被应用于所述先前变换参数和所述当前特征向量或所述当前特征图的元时间中继的隐藏状态参数和单元状态参数。

3.如权利要求2所述的系统，其中，所述一个或多个处理器用于将所述当前经标准化的特征图变换为所述当前经归一化的特征图包括：所述一个或多个处理器用于将所述单元状态参数与所述当前经标准化的特征图的第一经标准化的特征和所述隐藏状态参数的乘积相加。

4.如权利要求2所述的系统，其中，所述元时间中继包括从所述当前特征向量和先前隐藏状态到由所述元时间中继应用的一个或多个门控机制的映射，所述先前隐藏状态用于针对所述输入视频的所述先前时间戳将所述先前经标准化的特征图变换为所述先前经归一化的特征图。

5.如权利要求4所述的系统，其中，所述映射包括从所述当前特征向量和所述先前隐藏状态到所述一个或多个门控机制的瓶颈映射结构。

6.如权利要求1所述的系统，所述一个或多个处理器用于：

通过基于使用所述输入视频或所述当前特征图的至少一部分估计的均值和标准差对所述当前特征图进行标准化来生成所述当前经标准化的特征图。

7.如权利要求6所述的系统，其中，所述一个或多个处理器用于生成所述当前变换参数是基于所述当前特征向量，所述一个或多个处理器用于：

通过将全局平均池化应用于所述当前特征图来生成所述当前特征向量。

8.如权利要求6所述的系统，其中，在将所述当前经标准化的特征图线性变换为所述当前经归一化的特征图的过程中，所述当前变换参数用于代替所述均值和所述标准差。

9.如权利要求1所述的系统，其中，所述深度神经网络包括视频对象检测模型、视频动作检测模型或视频分割模型中的一个。

10.如权利要求1所述的系统，其中，所述深度神经网络的所述特定层是所述深度神经网络的输入层。

11.一种用于将视频识别应用于输入视频的方法，包括：

接收来自深度神经网络的特定层的当前经标准化的特征图，所述当前经标准化的特征图与所述输入视频的当前时间戳相对应；

使用所述当前变换参数将所述当前经标准化的特征图变换为当前经归一化的特征图；以及

12.如权利要求11所述的方法，其中，所述当前变换参数包括被应用于所述先前变换参数和所述当前特征向量或所述当前特征图的元时间中继的隐藏状态参数和单元状态参数。

13.如权利要求12所述的方法，其中，将所述当前经标准化的特征图变换为所述当前经归一化的特征图包括：将所述单元状态参数与所述当前经标准化的特征图的第一经标准化的特征和所述隐藏状态参数的乘积相加。

14.如权利要求12所述的方法，其中，所述元时间中继包括从所述当前特征向量和先前隐藏状态到由所述元时间中继应用的一个或多个门控机制的映射，所述先前隐藏状态用于针对所述输入视频的所述先前时间戳将所述先前经标准化的特征图变换为所述先前经归一化的特征图。

15.如权利要求14所述的方法，其中，所述映射包括从所述当前特征向量和所述先前隐藏状态到所述一个或多个门控机制的瓶颈映射结构。

16.至少一种机器可读介质，所述机器可读介质包括多个指令，所述多个指令响应于在设备上被执行，使得所述设备通过以下方式将视频识别应用于输入视频：

17.如权利要求16所述的机器可读介质，其中，所述当前变换参数包括被应用于所述先前变换参数和所述当前特征向量或所述当前特征图的元时间中继的隐藏状态参数和单元状态参数。

18.如权利要求17所述的机器可读介质，其中，将所述当前经标准化的特征图变换为所述当前经归一化的特征图包括：将所述单元状态参数与所述当前经标准化的特征图的第一经标准化的特征和所述隐藏状态参数的乘积相加。

19.如权利要求17所述的机器可读介质，其中，所述元时间中继包括从所述当前特征向量和先前隐藏状态到由所述元时间中继应用的一个或多个门控机制的映射，所述先前隐藏状态用于针对所述输入视频的所述先前时间戳将所述先前经标准化的特征图变换为所述先前经归一化的特征图。

20.如权利要求19所述的机器可读介质，其中，所述映射包括从所述当前特征向量和所述先前隐藏状态到所述一个或多个门控机制的瓶颈映射结构。

21.一种系统，包括：

用于接收来自深度神经网络的特定层的当前经标准化的特征图的装置，所述当前经标准化的特征图与所述输入视频的当前时间戳相对应；

用于基于先前变换参数以及与所述当前经标准化的特征图相对应的当前特征向量或当前特征图中的一个来生成用于对所述当前经标准化的特征图进行线性变换的当前变换参数的装置，所述先前变换参数用于针对所述输入视频的先前时间戳将先前经标准化的特征图变换为先前经归一化的特征图；

用于使用所述当前变换参数将所述当前经标准化的特征图变换为当前经归一化的特征图的装置；以及

用于基于将所述深度神经网络的在所述特定层之后的第二层应用于所述当前经归一化的特征图来生成视频识别输出的装置。

22.如权利要求21所述的系统，其中，所述当前变换参数包括被应用于所述先前变换参数和所述当前特征向量或所述当前特征图的元时间中继的隐藏状态参数和单元状态参数。

23.如权利要求22所述的系统，其中，用于将所述当前经标准化的特征图变换为所述当前经归一化的特征图的装置包括：用于将所述单元状态参数与所述当前经标准化的特征图的第一经标准化的特征和所述隐藏状态参数的乘积相加的装置。

24.如权利要求22所述的系统，其中，所述元时间中继包括从所述当前特征向量和先前隐藏状态到由所述元时间中继应用的一个或多个门控机制的映射，所述先前隐藏状态用于针对所述输入视频的所述先前时间戳将所述先前经标准化的特征图变换为所述先前经归一化的特征图。

25.如权利要求24所述的系统，其中，所述映射包括从所述当前特征向量和所述先前隐藏状态到所述一个或多个门控机制的瓶颈映射结构。