CN110858316A

CN110858316A - 对时间序列图像数据进行分类

Info

Publication number: CN110858316A
Application number: CN201910770815.0A
Authority: CN
Inventors: 高拉夫·库马尔·辛格; 帕维特拉·马达范; 布鲁诺·贾尔斯科斯塔; 金塔拉斯·文森特·普斯科里奥斯; 迪米塔尔·彼得罗夫·费尤伍
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2018-08-22
Filing date: 2019-08-20
Publication date: 2020-03-03
Also published as: US11704563B2; US20210248468A1; US20200065663A1; US11017296B2; DE102019122402A1

Abstract

本公开提供了“对时间序列图像数据进行分类”。本发明延伸到用于对时间序列图像数据进行分类的方法、系统和计算机程序产品。本发明的各方面包括将来自视频帧的运动信息编码在偏心率图中。偏心率图基本上是聚集了来自多个视频帧的对象、表面和边缘的表观运动的静态图像。一般而言，偏心率反映数据点与同一组变量的过去的读数如何不同。神经网络能够被训练以从偏心率图检测视频中的动作并对所述动作进行分类。偏心率图能够作为输入提供到神经网络。来自所述神经网络的输出能够指示视频中的检测到的运动是否被分类为例如像手势的动作。

Description

对时间序列图像数据进行分类

技术领域

本发明总体上涉及图像分类领域，并且更具体地涉及对时间序列图像数据进行分类。

背景技术

卷积神经网络(CNN)有能力在每帧的基础上识别视频中类似人、动物和车辆的对象。然而，CNN难以检测在帧之间的这类对象的运动速度和方向。使用传统的计算机视觉技术来手工处理特征的基于表示的解决方案可以显著改进对运动速度和方向的检测。然而，基于表示的解决方案需要足够的人类专业知识，并且对于现实世界解决方案而言通常不是稳健的。

发明内容

将多个视频流帧输入到第一神经网络。存取第一神经网络的输出。从多个帧获得一个或多个偏心率图。将一个或多个偏心率图输入到第二神经网络。存取第一神经网络的输出。将第一输出与第二输出融合为融合输出。从融合输出对视频流中出现的动作进行分类。

附图说明

参考以下描述和附图将更好地理解本发明的具体特征、方面和优点，在附图中：

图1示出了计算装置的示例框图。

图2示出了用于计算偏心率的示例方程式。

图3示出了用于使用移动窗口方法计算数据样本平均值和数据样本方差的示例方程式。

图4示出了用于对帧观测进行加权的示例方程式。

图5示出了用于逼近偏心率的示例方程式。

图6示出了用于计算偏心率图的示例计算机架构。

图7示出了动态场景的示例视频流帧和基于视频流的过去的帧而实现的示例偏心率图。

图8A示出了有助于对视频流中的动作进行分类的示例计算机架构。

图8B示出了有助于对视频流中的动作进行分类的另一个示例计算机架构。

图9A示出了对视频流中的动作进行分类的示例方法的流程图。

图9B示出了对视频流中的动作进行分类的另一种示例方法的流程图。

图10示出了视频帧序列的示例和对应的示例偏心率图。

图11A示出了有助于对视频流中的动作进行分类的示例架构。

图11B示出了有助于对视频流中的动作进行分类的另一个示例架构。

具体实施方式

本发明延伸到用于对时间序列图像数据进行分类的方法、系统和计算机程序产品。

考虑到一组有序图像，有许多技术可用于捕获因观测者与场景之间的相对运动而引起的视觉场景中对象的表观运动模式。一些技术包括光流场、扭曲光流、连续帧差和人视网膜上激发的模型，所述模型可以是有限和无线脉冲响应滤波器或可分离和不可分离的时空分量。然而，这些技术在计算上成本较高，从而限制了其在实时操作中的有用性。此外，这些技术可能对复杂参数的最优选择比较敏感，这往往需要由专家调节。

本发明的各方面包括将来自视频帧的运动信息编码在偏心率图中。偏心率图基本上是聚集了来自多个视频帧的对象、表面和边缘的的表观运动的静态图像。偏心率图生成相对于其他技术而言是更高效和更有效的。偏心率图可以用最低限度的(如果有的话)由用户限定的参数和有关数据及其分布的在先假设来生成。偏心率图生成可以解决概念漂移和概念演变。偏心率图可以作为输入提供来利用时态信息，例如像人类意图辨别、姿势辨别、视频描述、移动分类等解决问题。

一般而言，偏心率反映数据点与同一组变量的过去的读数如何不同。换言之，对于n维空间中的一组变量，偏心率的值随着这组变量的值偏离其“正常”行为而增大。

卷积神经网络(CNN)架构可以被训练以从偏心率图检测视频中的动作并对所述动作进行分类。一方面，将从视频帧生成的偏心率图作为输入提供到CNN。输出可以指示检测到的运动是否被分类为例如像手势的动作。另一方面，将视频帧输入到一个(例如，RGB)CNN，并且将从视频帧生成的偏心率图输入到另一个CNN。将来自CNN的输出融合以生成最终的输出。最终的输出可以指示检测到的运动是否被分类为一种动作，例如像分类为手势。

图1示出了计算装置100的示例框图。计算装置100可以用于执行各种程序，诸如本文论述的程序。计算装置100可以用作服务器、客户端或任何其他计算实体。计算装置100可以执行如本文所述的各种通信和数据传递功能，并且可以执行一个或多个应用程序，诸如本文描述的应用程序。计算装置100可以是各种计算装置中的任何一种，诸如移动电话或其他移动装置、台式计算机、笔记本计算机、服务器计算机、手持计算机、平板计算机等等。

计算装置100包括：一个或多个处理器102、一个或多个存储器装置104、一个或多个接口106、一个或多个大容量存储装置108、一个或多个输入/输出(I/O)装置110和显示装置130，其全部耦合到总线112。处理器102包括执行存储在存储器装置104和/或大容量存储装置108中的指令的一个或多个处理器或控制器。处理器102还可以包括各种类型的计算机存储介质，诸如高速缓冲存储器。

存储器装置104包括各种计算机存储介质，诸如易失性存储器(例如，随机存取存储器(RAM)114)和/或非易失性存储器(例如，只读存储器(ROM)116)。存储器装置104还可以包括可重写ROM，诸如快闪存储器。

大容量存储装置108包括各种计算机存储介质，诸如磁带、磁盘、光盘、固态存储器(例如，快闪存储器)等等。如图1所示，特定的大容量存储装置是硬盘驱动器124。各种驱动器也可以包括在大容量存储装置108中，以使得能够从各种计算机可读介质进行读取和/或对其进行写入。大容量存储装置108包括可移除介质126和/或不可移除介质。

I/O装置110包括允许将数据和/或其他信息输入到计算装置100或从计算装置100检索所述数据和/或其他信息的各种装置。示例I/O装置110包括光标控制装置、键盘、小键盘、条形码扫描仪、传声器、监测器或其他显示装置、扬声器、打印机、网络接口卡、调制解调器、相机、镜头、雷达、CCD或其他图像捕获装置等等。

显示装置130包括能够向计算装置100的一个或多个用户显示信息的任何类型的装置。显示装置130的示例包括监测器、显示终端、视频投影装置等等。

接口106包括允许计算装置100与其他系统、装置或计算环境以及人进行交互的各种接口。示例接口106可以包括任何数量的不同网络接口120，诸如与以下的接口：个人区域网络(PAN)、局域网(LAN)、广域网(WAN)、无线网络(例如，近场通信(NFC)、蓝牙、Wi-Fi等网络)和互联网。其他接口包括用户接口118和外围装置接口122。

总线112允许处理器102、存储器装置104、接口106、大容量存储装置108和I/O装置110彼此通信，以及与耦合到总线112的其他装置或者部件通信。总线112表示几种类型的总线结构中的一种或多种，诸如系统总线、PCI总线、IEEE 1394总线、USB总线等等。

图2示出了用于计算偏心率的示例方程式201、202和203。矢量数据点x在时间k处的偏心率ε_k可以根据方程式201来计算。到时间k读取的数据样本的平均值(矢量)μ_k可以根据方程式202来计算。到时间k读取的数据样本的方差(标量)

可以根据方程式203来计算。从方程式202和203计算的值可以用于方程式201中。

图3示出了用于使用移动窗口方法计算偏心率的示例方程式301和302。使用移动窗口(有限记忆)，可以递归地计算偏心率ε_k，从而促成对帧序列的基本上实时的处理。变学习率1/k被常数学习率α取代。常数学习率α可以是较小的值，诸如0.05。到时间k读取的数据样本的平均值(矢量)μ_k则可以根据方程式301来计算。到时间k读取的数据样本的方差(标量)

则可以根据方程式302来计算。从方程式301和302计算的值可以用于方程式201中。

图4示出了用于对帧观测进行加权的示例方程式401。常数因子0≤α≤1的引入根据具有单位和的方程式401来将一组指数地减小的权重分配给较旧的观测x_k。矢量W形成具有指数地减小的权重的加权平均型聚合算子，所述指数地减小的权重取决于α。W中具有大于K的幂的元素接近为零，由此限定具有宽度K的移动窗口。移动窗口的宽度K与遗忘因子K1/α近似成倒数。

方程式201中对偏心率ε_k的表达是针对到时间k读取的数据样本定义的。通过引入常数学习率α，较旧的数据点(即，在k之后)的影响明显被最小化(如果实际上未被消除的话)。图5示出了用于逼近偏心率ε_k的示例方程式501。

对于图像流，

可以被视为是在给定时间k处含有具有尺寸a×b×3的图像的像素(i，j)的R、G和B通道的强度的矢量。因此，图像的每个像素(i，j)生成输入矢量

从而得出a×b偏心率输出(每个像素的偏心率可以被视为独立于其他像素，并且被当作单独的数据流)。然后，对于每个a×b×3输入图像(RGB)，可以生成a×b×1偏心率图(灰度图)。

图6示出了用于具有a行和b列的RGB图像的示例算法输入600(即，

)。如所示，算法600包括对于红色601、绿色602和蓝色603中的每一者都具有尺寸a×b的单一算法输入611。

一方面，从先前指定数量的视频帧计算偏心率图。例如，可以从(可能紧挨着)时间t之前的多个视频帧计算在时间t处计算的偏心率图。一方面，多个视频帧可以包括2到50个视频帧。另一方面，多个视频帧可以包括5到30个视频帧。

另一方面，从跨越指定时间段的帧计算偏心率图。例如，可以从在时间t之前的一个指定时间段内的任何视频帧计算在时间t处计算的偏心率图。因此，依据帧率(例如，每秒帧数)，使用来计算偏心率图的视频帧的数量可以变化。例如，对于帧率为60fps的视频，将使用相对于帧率为30fps的视频多达两倍的帧。

图7示出了动态场景的视频流的帧701和基于视频流的(例如，20个)过去的帧而实现的对应的偏心率图702。视频流中的对象的运动在偏心率图702中由水平线表示。

图8A示出了有助于对视频流中的动作进行分类的示例计算机架构800。如所示，计算机架构800包括偏心率图生成器802和神经网络804(例如，卷积神经网络(CNN))。

偏心率图生成器802被配置为从(例如，RGB)视频流的多个帧生成一个或多个偏心率图。偏心率图生成器802可以实施方程式201、202、203、301、302、401或501中的任一者以计算和/或逼近偏心率图。神经网络804被配置为从所生成的偏心率图来对视频流中的动作进行分类。一方面，偏心率图生成器802使用移动窗口方法来生成偏心率图，以促成对动作的更接近于实时的分类。

图9A示出了对视频流中的动作进行分类的示例方法900的流程图。将相对于计算机架构800中的部件和数据来描述方法900。

方法900包括存取视频流的多个帧(901)。例如，偏心率图生成器802可以存取视频流801的帧801A、801B、801C等。视频流801可以是RGB视频流。视频流801可以来源于电子或数字装置，例如像摄像机、系统存储器或持久存储装置。方法900包括从多个帧获得一个或多个偏心率图(902)。例如，偏心率图生成器802可以从帧801A、801B、801C等获得包括偏心率图803A、803B等的偏心率图803。每个偏心率图803可以静态图像呈现在视频流801的多个帧之间的运动。

方法900包括将一个或多个偏心率图输入到神经网络(903)。例如，偏心率图生成器802可以将偏心率图803输入到神经网络804。方法900包括从神经网络存取对视频流中出现的动作进行分类的输出(904)。例如，神经网络804可以从偏心率图803A、803B等对视频流801中出现的动作(例如，姿势、移动等)进行分类。神经网络804可以产生指示视频流801中出现的已分类的动作的输出806。

图8B示出了有助于对视频流中的动作进行分类的另一个示例计算机架构850。计算机架构850还包括神经网络807、神经网络812和融合模块809。神经网络807(例如，卷积神经网络(CNN))被配置为从视频流的多个帧对视频流的特征进行分类。神经网络812(例如，卷积神经网络(CNN))被配置为从自视频流生成的一个或多个偏心率图对视频流的特征进行分类。融合模块809被配置为将来自神经网络807的特征输出与来自神经网络812的特征输出融合以对视频流中出现的动作进行分类。

相对于神经网络804，融合模块809可以更准确地对动作进行分类。例如，神经网络807可以用作边缘检测器，其中拖尾跟在边缘后面。检测边缘提高了动作分类的准确性。

图9B示出了对视频流中的动作进行分类的另一种示例方法950的流程图。将相对于计算机架构850中的部件和数据来描述方法950。

方法950包括存取视频流的多个帧(911)。例如，偏心率图生成器802可以存取视频流801的帧801A、801B、801C等。方法950包括从多个帧获得一个或多个偏心率图(912)。例如，偏心率图生成器802可以从帧801A、801B、801C等获得包括偏心率图803A、803B等的偏心率图803。

方法950包括将多个帧输入到第一神经网络(913)。例如，可以将帧801A、801B、801C等输入到神经网络807。方法950包括从第一神经网络存取第一输出(914)。例如，融合模块809可以从神经网络807存取输出808。输出808可以从帧801A、801B、801C等对视频流801的一个或多个特征进行分类。

方法950包括将一个或多个偏心率图输入到第二神经网络(915)。例如，偏心率图生成器802可以将偏心率图803输入到神经网络812。方法950包括从第二神经网络存取第二输出(916)。例如，融合模块809可以从神经网络812存取输出813。输出813可以从偏心率图803A、803B等对视频流801的一个或多个特征进行分类。

方法950包括将第一输出与第二输出融合为对视频流中出现的动作进行分类的融合输出(917)。例如，融合模块809可以通过将输出808中的视频流801的已分类的特征与输出813中的视频流801的已分类的特征融合来对视频流801中出现的动作(例如，姿势、移动等)进行分类。融合模块809可以产生指示视频流801中出现的已分类的动作的融合输出811。

图10示出了RGB视频帧1001的示例和对应的示例偏心率图1002。RGB视频帧1001可以是来自视频流的帧序列。偏心率图1002可以从RGB视频帧1001以及视频流中的其他RGB帧生成。

图11A示出了有助于对视频流中的动作进行分类的示例架构1100。偏心率图1002可以作为输入提供到偏心率图CNN 1101。偏心率图CNN 1101可以从偏心率图1002对含有RGB视频帧1001的视频流中的动作(例如，姿势、移动等)进行分类。偏心率图CNN 1101可以在输出1102中指示已分类的动作。

图11B示出了有助于对视频流中的动作进行分类的另一个示例架构1150。RGB视频帧1001可以作为输入提供到RGB CNN 1103。偏心率图1002可以作为输入提供到偏心率图CNN 1107。融合函数1104可以将来自RGB CNN 1103的输出与来自偏心率图CNN 1107的输出融合以对含有RGB视频帧1001的视频流中的动作(例如，姿势、移动等)进行分类。融合函数1104可以在输出1106中指示已分类的动作。

一方面，一个或多个处理器被配置为执行指令(例如，计算机可读指令、计算机可执行指令等)以执行多个所描述的操作中的任何操作。一个或多个处理器可以从系统存储器访问信息和/或将信息存储在系统存储器中。一个或多个处理器可以在不同的格式，例如像视频流、帧、偏心率图、图像分类、神经网络输出、融合输出等之间转换信息。

系统存储器可以耦合到一个或多个处理器并且可以存储由一个或多个处理器执行的指令(例如，计算机可读指令、计算机可执行指令等)。系统存储器还可以被配置为存储由所描述的部件生成的多种其他类型的数据中的任何数据，例如像视频流、帧、偏心率图、图像分类、神经网络输出、融合输出等。

在以上公开内容中，已参考附图，所述附图形成本公开的一部分并且其中通过图示方式示出可以实践本公开的具体实现方式。应理解，在不脱离本公开的范围的情况下，可以利用其他实现方式并且可以进行结构改变。说明书中对“一个实施例”、“实施例”、“示例实施例”等的提及指示所描述的实施例可以包括特定特征、结构或特性，但是每一个实施例都可以不必包括所述特定特征、结构或特性。此外，这类短语不一定指代同一实施例。此外，当结合实施例描述特定特征、结构或特性时，应承认，无论是否明确描述，结合其他实施例实现这类特征、结构或特性都在本领域技术人员的知识范围内。

本文公开的系统、装置和方法的实现方式可以包括或利用包括计算机硬件(例如像本文中所论述的一个或多个处理器和系统存储器)的专用或通用计算机。本公开的范围内的实现方式还可以包括用于承载或存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。这类计算机可读介质可以为可以由通用或专用计算机系统访问的任何可用介质。存储计算机可执行指令的计算机可读介质是计算机存储介质(装置)。承载计算机可执行指令的计算机可读介质是传输介质。因此，作为举例，但不带限制性，本公开的实现方式可以包括至少两种截然不同的计算机可读介质：计算机存储介质(装置)和传输介质。

计算机存储介质(装置)包括RAM、ROM、EEPROM、CD-ROM、固态驱动器(“SSD”)(例如，基于RAM)、快闪存储器、相变存储器(“PCM”)、其他类型的存储器、其他光盘存储装置、磁盘存储装置或其他磁存储装置、或者可以用于以计算机可执行指令或数据结构的形式存储期望的程序代码单元并可以由通用或专用计算机访问的任何其他介质。

本文公开的装置、系统和方法的实现方式可以通过计算机网络进行通信。“网络”被定义为使得能够在计算机系统和/或模块和/或其他电子装置之间传输电子数据的一个或多个数据链路。当通过网络或另一种通信连接(硬连线、无线或硬连线或无线的组合)向计算机传递或提供信息时，计算机适当地将连接视为传输介质。传输介质可以包括网络和/或数据链路，所述网络和/或数据链路可以用于以计算机可执行指令或数据结构的形式承载期望的程序代码单元并且可以由通用或专用计算机访问。上述的组合也应当包括在计算机可读介质的范围内。

例如，计算机可执行指令包括在处理器上执行时致使通用计算机、专用计算机或专用处理装置执行特定功能或功能组的指令和数据。例如，计算机可执行指令可以是二进制文件、诸如汇编语言的中间格式指令、或甚至是源代码。尽管已经用结构特征和/或方法动作专用的语言描述了主题，但是应理解，所附权利要求中限定的主题不必限于上述特征或动作。而是，所描述的特征和动作被公开为实施权利要求的示例形式。

本领域技术人员将了解，本公开可以在具有许多类型的计算机系统配置的网络计算环境中实践，所述计算机系统配置包括：内置式车辆计算机或其他车辆计算机、个人计算机、台式计算机、膝上型计算机、消息处理器、手持装置、多处理器系统、基于微处理器或可编程的消费电子产品、网络PC、小型计算机、大型计算机、移动电话、PDA、平板计算机、寻呼机、路由器、交换机、各种存储装置等等。本公开还可以在分布式系统环境中实践，其中通过网络(通过硬连线数据链路、无线数据链路、或通过硬连线和无线数据链路的组合)连结的本地和远程计算机系统两者都执行任务。在分布式系统环境中，程序模块可以位于本地和远程存储器的存储装置二者中。

此外，在适当的情况下，可以在以下各项中的一者或多者中执行本文描述的功能：硬件、软件、固件、数字部件或模拟部件。例如，可以对一个或多个专用集成电路(ASIC)进行编程以执行本文描述的系统和程序中的一个或多个。某些术语贯穿本说明书和权利要求用于指代特定系统部件。如本领域技术人员将了解，可以通过不同的名称来指代部件。本文档不意图区分名称不同但功能相同的部件。

应注意，上文论述的传感器实施例可以包括计算机硬件、软件、固件或其任何组合以执行其功能的至少一部分。例如，传感器可以包括被配置为在一个或多个处理器中执行的计算机代码，并且可以包括由计算机代码控制的硬件逻辑/电路。这些示例装置在本文出于说明目的而提供，而不意图进行限制。如相关领域的技术人员将了解，本公开的实施例可以在其他类型的装置中实施。

本公开的至少一些实施例涉及计算机程序产品，所述计算机程序产品包括存储在任何计算机可用介质上的这种逻辑(例如，呈软件的形式)。这种软件在一个或多个数据处理装置中执行时致使装置如本文所述的那样进行操作。

虽然上文已经描述了本公开的各种实施例，但是应理解，所述实施例仅通过举例而非限制的方式呈现。对于相关领域的技术人员来说显而易见的是，在不脱离本公开的精神和范围的情况下，可以在其中进行形式和细节方面的各种改变。因此，本公开的广度和范围不应受任何上述示例性实施例的限制，而应当仅根据以下权利要求及其等同物来限定。已经出于说明和描述的目的呈现了前文描述。其并不意图穷举或将本公开限制于所公开的确切形式。鉴于以上教导，许多修改、变化和组合都是可能的。此外，应注意，任何或所有的前述替代实现方式可以期望的任何组合使用以形成本公开的其他混合实现方式。

根据本发明，一种方法包括：将视频流的多个帧输入到第一神经网络；从第一神经网络存取第一输出；将从多个帧获得的一个或多个偏心率图输入到第二神经网络；从第二神经网络存取第二输出；将第一输出与第二输出融合为融合输出；以及从融合输出对视频流中出现的动作进行分类。

根据一个实施例，以上发明的进一步特征在于：从多个帧获得一个或多个偏心率图。

根据一个实施例，从多个帧获得一个或多个偏心率图包括使用移动窗口方法来从多个帧获得一个或多个偏心率图。

根据一个实施例，使用移动窗口方法来从多个帧获得一个或多个偏心率图包括使用常数学习率和加权平均型聚合来获得一个或多个偏心率图。

根据一个实施例，从多个帧获得一个或多个偏心率图包括基于视频流的帧率而确定多个帧中的帧的数量。

根据一个实施例，将视频流的多个帧输入到第一神经网络包括将RGB视频流的多个帧输入到第一神经网络。

根据一个实施例，以上发明的进一步特征在于：第一神经网络从多个帧对视频流的第一一个或多个特征进行分类；以及第二神经网络从一个或多个偏心率图对视频流的第二一个或多个特征进行分类；并且其中从融合输出对视频流中出现的动作进行分类包括从第一一个或多个特征与第二一个或多个特征的融合对动作进行分类。

根据一个实施例，从融合输出对视频流中出现的动作进行分类包括对以下各项中的一者进行分类：人类意图、姿势、移动或视频描述。

根据本发明，提供了一种计算机系统，所述计算机系统具有：处理器；系统存储器，所述系统存储器耦合到处理器并且存储指令，所述指令被配置为致使处理器：从视频流存取多个帧；将多个帧输入到第一神经网络；从多个帧获得一个或多个偏心率图；将一个或多个偏心率图输入到第二神经网络；从第一神经网络存取第一输出；从第二神经网络存取第二输出；以及将第一输出与第二输出融合为融合输出，从融合输出对视频流中出现的动作进行分类。

根据一个实施例，被配置为从多个帧获得一个或多个偏心率图的指令包括被配置为使用移动窗口方法来从多个帧获得一个或多个偏心率图的指令。

根据一个实施例，被配置为使用移动窗口方法来从多个帧获得一个或多个偏心率图的指令包括被配置为使用常数学习率和加权平均型聚合来获得一个或多个偏心率图的指令。

根据一个实施例，被配置为从多个帧获得一个或多个偏心率图的指令包括被配置为从视频流的帧率确定多个帧的指令。

根据一个实施例，以上发明的进一步特征在于：被配置为进行以下各项的指令：从多个帧对视频流的第一一个或多个特征进行分类；和从一个或多个偏心率图对视频流的第二一个或多个特征进行分类；以及从第一一个或多个特征与第二一个或多个特征的融合对动作进行分类。

根据一个实施例，被配置为从融合输出对视频流中出现的动作进行分类的指令包括被配置为对以下各项中的一者进行分类的指令：人类意图、姿势、移动或视频描述。

根据一个实施例，被配置为从视频流存取多个帧的指令包括被配置为从RGB视频流存取多个帧的指令。

根据本发明，一种计算机实施的方法包括：从视频流存取第一多个帧；使用常数学习率和加权平均聚合来逼近在第一多个帧之间的逐像素偏心率；生成表示在第一多个帧之间的逐像素偏心率的第一偏心率图；从视频流存取第二多个帧，所述第二多个帧包括来自第一多个帧的至少一个帧；使用常数学习率和加权平均聚合来递归地逼近在第二多个帧之间的逐像素偏心率；生成表示在第二多个帧之间的逐像素偏心率的第二偏心率图；将第一偏心率图和第二偏心率图输入到神经网络；以及从神经网络存取对视频流中出现的动作进行分类的输出。

根据一个实施例，以上发明的进一步特征在于：将来自第一多个帧和来自第二多个帧的帧输入到第二神经网络中；从第二神经网络存取第二输出。

根据一个实施例，以上发明的进一步特征在于：将所述输出与第二输出融合，从而提高对动作进行分类的准确性。

根据一个实施例，从视频流存取第一多个帧包括从RGB视频流存取第一多个帧。

根据一个实施例，以上发明的进一步特征在于：神经网络将动作分类为以下各项中的一者：人类意图、姿势、移动或视频描述。

Claims

1.一种方法，所述方法包括：

将视频流的多个帧输入到第一神经网络；

从所述第一神经网络存取第一输出；

将从所述多个帧获得的一个或多个偏心率图输入到第二神经网络；

从所述第二神经网络存取第二输出；

将所述第一输出与所述第二输出融合为融合输出；以及

从所述融合输出对所述视频流中出现的动作进行分类。

2.如权利要求1所述的方法，所述方法还包括使用移动窗口方法来从所述多个帧获得所述一个或多个偏心率图。

3.如权利要求2所述的方法，其中使用移动窗口方法来从所述多个帧获得所述一个或多个偏心率图包括：使用常数学习率和加权平均型聚合来获得所述一个或多个偏心率图。

4.如权利要求1所述的方法，其中将视频流的多个帧输入到第一神经网络包括：将RGB视频流的多个帧输入到所述第一神经网络。

5.如权利要求1所述的方法，所述方法还包括：

所述第一神经网络从所述多个帧对所述视频流的第一一个或多个特征进行分类；以及

所述第二神经网络从所述一个或多个偏心率图对所述视频流的第二一个或多个特征进行分类；并且

其中从所述融合输出对所述视频流中出现的动作进行分类包括：从所述第一一个或多个特征与所述第二一个或多个特征的融合对所述动作进行分类。

6.如权利要求1所述的方法，其中从所述融合输出对所述视频流中出现的动作进行分类包括对以下各项中的一者进行分类：人类意图、姿势、移动或视频描述。

7.一种计算机系统，所述计算机系统包括：

处理器；

系统存储器，所述系统存储器耦合到所述处理器并且存储指令，所述指令被配置为致使所述处理器：

从视频流存取多个帧；

将所述多个帧输入到第一神经网络；

从所述多个帧获得一个或多个偏心率图；

将所述一个或多个偏心率图输入到第二神经网络；

从所述第一神经网络存取第一输出；

从所述第二神经网络存取第二输出；以及

将所述第一输出与所述第二输出融合为融合输出，从所述融合输出对所述视频流中出现的动作进行分类。

8.如权利要求7所述的计算机系统，其中被配置为从所述多个帧获得所述一个或多个偏心率图的所述指令包括：被配置为使用移动窗口方法来从所述多个帧获得所述一个或多个偏心率图的指令。

9.如权利要求8所述的计算机系统，其中被配置为使用移动窗口方法来从所述多个帧获得所述一个或多个偏心率图的所述指令包括：被配置为使用常数学习率和加权平均型聚合来获得所述一个或多个偏心率图的指令。

10.如权利要求7所述的计算机系统，其中被配置为从所述多个帧获得所述一个或多个偏心率图的所述指令包括：被配置为从所述视频流的帧率确定所述多个帧的指令。

11.如权利要求7所述的计算机系统，其中被配置为从所述融合输出对所述视频流中出现的动作进行分类的所述指令包括被配置为对以下各项中的一者进行分类的指令：人类意图、姿势、移动或视频描述。

12.如权利要求7所述的计算机系统，其中被配置为从视频流存取多个帧的所述指令包括被配置为从RGB视频流存取多个帧的指令。

13.一种计算机实施的方法，所述计算机实施的方法包括：

从视频流存取第一多个帧；

使用常数学习率和加权平均聚合来逼近在所述第一多个帧之间的逐像素偏心率；

生成表示在所述第一多个帧之间的所述逐像素偏心率的第一偏心率图；

从所述视频流存取第二多个帧，所述第二多个帧包括来自所述第一多个帧的至少一个帧；

使用所述常数学习率和所述加权平均聚合来递归地逼近在所述第二多个帧之间的逐像素偏心率；

生成表示在所述第二多个帧之间的所述逐像素偏心率的第二偏心率图；

将所述第一偏心率图和所述第二偏心率图输入到神经网络；以及

从所述神经网络存取对所述视频流中出现的动作进行分类的输出。

14.如权利要求13所述的方法，所述方法还包括将所述输出与第二输出融合，从而提高对所述动作进行分类的准确性。

15.如权利要求13所述的方法，所述方法还包括所述神经网络将所述动作分类为以下各项中的一者：人类意图、姿势、移动或视频描述。