CN109074497B

CN109074497B - 使用深度信息识别视频图像序列中的活动

Info

Publication number: CN109074497B
Application number: CN201680085317.7A
Authority: CN
Inventors: 唐绍鹏; 姚安邦; 陈玉荣
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2016-06-02
Filing date: 2016-06-02
Publication date: 2024-01-19
Anticipated expiration: 2036-06-02
Also published as: CN109074497A; US20210081659A1; US10860844B2; US20190147235A1; KR20190015214A; DE112016006922T5; US11568682B2; WO2017206147A1

Abstract

提供了用于识别包括深度信息的视频图像帧的序列中的活动的技术。体现这些技术的方法包括将每个接收的图像帧分割成多个窗口，以及，生成多个时空图像单元格，图像单元格来自所述帧的所选择的子序列的窗口的分组。该方法还包括计算每个图像单元格的每个像素的四维(4D)光流矢量，以及，计算每个光流矢量的三维(3D)角度表示。该方法进一步包括基于每个图像单元格中的像素的3D角度表示的柱状图来生成该图像单元格的分类特征。接着，将分类特征提供给识别分类器，识别分类器被配置成基于所生成的分类特征来识别视频序列中描绘的活动的类型。

Description

使用深度信息识别视频图像序列中的活动

背景技术

识别图像序列或视频中描绘的活动的类型的能力常常是有用的，例如在监控应用、机器人应用、视频游戏中，或者作为更复杂的图像处理系统中的首要操作。不幸的是，由于照明、背景干扰、主体的姿势、视角等的变化，自动的活动识别是相对困难的计算问题。现有的方法常常采用词典学习或聚类方法并且趋于计算上昂贵的，需要长时间的分类训练和/或相对快的处理器。即使这样，这些方法并不趋于是稳健的，导致可能不可接受的活动识别精度。

附图说明

本专利或申请文件包含以彩色执行的至少一个附图。具有(一个或多个)彩色附图的本专利或专利申请公布的副本将在专利局收到请求并支付必要的费用之后来提供。

随着以下详细描述的进行，以及在参考附图之后，所要求保护的主题的实施例的特征和优点将变得显而易见，其中相同的附图标记描绘相同的部分。

图1是按照这里所公开的某些实施例配置的活动识别系统的实现的顶层框图。

图2图示了按照这里所公开的某些实施例的人类活动的深度图像帧序列的示例。

图3是按照这里所公开的某些实施例配置的活动识别系统的更详细的框图。

图4图示了按照这里所公开的某些实施例的图像帧裁剪。

图5图示了按照这里所公开的某些实施例的图像单元格。

图6图示了按照这里所公开的某些实施例的2D光流矢量。

图7图示了按照这里所公开的某些实施例的4D光流矢量的角表示。

图8图示了按照这里所公开的某些实施例的基于柱状图的特征生成。

图9是图示按照这里所公开的某些实施例的用于深度图像中的活动识别的方法的流程图。

图10是示意性图示按照这里所公开的某些实施例的被配置为执行活动识别的系统平台的框图。

虽然以下详细描述将参照说明性的实施例进行，但是，鉴于本公开内容，其众多替代、修改、以及变型将显而易见。

具体实施方式

一般地，本公开内容提供了用于识别包括深度信息的图像帧序列或视频中的人的动作或其他类型的活动的技术。这样的图像可以例如由提供色(红-绿-蓝或RGB)像素和深度像素的深度相机来生成。这样的图像可以被称为RGB-D图像。本文所描述的技术可以识别和分类不同类型的活动，诸如特定体育活动或表演任务等。所述识别基于区分不同类型的动作的基于运动的辨别特征。如下面将更详细地解释的，这样的运动信息被用于对在图像帧中描绘的动作的特征进行模拟并且多维光流矢量用于按照每个像素的水平来描述此运动。

按照一个实施例，用于活动识别的技术可以包括：接收描绘某一活动的性能的深度图像帧的序列。图像帧的集合被划分为多个时空图像单元格。每个单元格包括来自连续帧的一组空间区域。如将在下面解释的，四维(4D)光流矢量接着计算每个单元格中的每个像素并且将4D光流矢量转换为三维(3D)角度表示。针对每个单元格生成柱状图，以基于所计算的每个像素的角度表示来将此单元格中的像素的幅度累积到与不同的角度范围相关联的长柱中。将从每个单元格所得到的柱状图用作用于活动识别分类器的特征。

本文所描述的技术可以允许减少计算开销，包括更有效的分类器训练和操作，相比于现有的方法，给定来自光流的特征的直接计算消除了对传统的词典学习或聚类方法的需求。另外，这些技术不需要特殊的相机校准过程，并且能够以任意期望的平台来实现，包括例如，移动设备，诸如平板电脑或智能手机，其包括深度相机或者能够从深度相机接收图像。这些技术可以进一步在硬件或软件或其组合中实现。

图1是按照这里所公开的某些实施例配置的活动识别系统的实现的顶层框图100。深度相机104被配置为生成场景102的RGB-D图像帧106的序列。帧的序列提供该场景的临时表示并且在本文中可以被称为视频序列。场景可以包括任意主题，并且可以描绘执行某一类型的活动的人类(或其他主体)，诸如，例如，执行任务或进行运动。将一个或多个RGB-D图像帧106提供给活动识别系统108，该活动识别系统108的操作将在下面更详细地描述，并且，生成识别结果110。识别结果可以通过显示元件112或其它合适的机构来呈现给用户或系统操作员。

图2图示了按照这里所公开的某些实施例的人类活动的深度图像帧的序列的示例。在顶部的图示202中，深度图像帧的序列(从左到右)描绘了执行绘画活动的人类，例如使用记号笔在黑板上绘画。在底部的图示204中，深度图像帧的序列(再次从左到右)描绘了打网球的人类，例如发网球。

图3是按照这里所公开的某些实施例配置的活动识别系统108的更详细的框图。活动识别系统108被示为包括裁剪和对齐电路302、单元格生成电路304、两维(2D)光流计算电路306、三和四维(3D/4D)光流计算电路308、角度计算电路310、单元格特征计算电路312、识别分类器电路314、以及分类器训练电路316。

深度图像帧的序列可以通过深度相机或其它源来提供。帧包括颜色(例如，RGB)像素和深度像素。裁剪和对齐电路302可以被配置成检测在每个所接收的RGB-D帧中感兴趣的主题以及裁剪围绕该主题的那些帧，以消除与活动不相关的背景景物。按照本公开，感兴趣的对象可以使用已知技术来检测。例如，图4中图示了裁剪操作，其中接收到的帧402被示为挨着被裁剪的帧404。在某些实施例中，裁剪和对齐电路302还可以被配置成在空间上将每个裁剪帧彼此对齐，以促进以下描述的单元格生成电路来其进行分组。

单元格生成电路304可以被配置成从一系列的被裁剪的图像帧中生成时空图像单元格，也被称为图像立方体。这在图5中图示，其中以堆叠的形式示出一系列的图像帧502，一个在另一个后面。该系列代表了图像帧的时间序列。每个帧在空间上被分割成具有所选择的大小的多个窗口506，例如n_x列像素×n_y行像素。

时空图像单元格504通过对多个窗口506(n_t个)进行分组来生成，从连续帧502到单元格。因而，单元格包括连续帧的所选择的窗口子序列。该组中的每一个窗口代表相同(或类似)的空间区域的连续的时间快照。所得到的时空图像立方体因而可以包括n_x列像素*n_y行像素*n_t个帧。

二维(2D)光流计算电路306可以被配置成计算图像单元格504中的每个像素的2D光流矢量(u，v)。矢量代表一个帧与下一帧之间的像素的2D运动或位移(在帧窗口的x，y方向或平面中)。这例如在图6中图示，图6示出了不同时间的两个帧：顶部行中的帧1 602和底部行中的帧N 604。对于每个帧，示出了左侧的深度图像606和右侧的相应的2D光流矢量608。矢量，描绘为红色箭头，代表该帧与下一连续的帧之间的所估计的像素位移(例如，顶部的帧1与2之间，以及底部的帧N与N+1之间)。

2D矢量的计算基于应用到图像单元格的像素上的组合的局部-全局能量最小化函数。在某些实施例中，能量最小化函数采用全局Horn-Schunck技术和局部Lucas-Kanade技术的组合。此外，为了提高最小化函数的计算效率，可以使用精到粗的层次来采用Bruhn多网格技术。在某些实施例中，按照本公开，可以采用其他已知的技术。

三维和四维(3D/4D)光流计算电路308可以被配置成基于连续帧中相应的像素之间的所计算的位移来添加第三维(q)到2D光流矢量，以生成3D矢量(u，v，q)。第三维(q分量)特别是使用涉及沿着深度轴的运动的动作来编码沿着深度像素的动作，这可以改善识别准确性。例如，拳击运动可以包括沿深度轴的显著动作，而相比之下，在白板上书写可能更限于在x，y平面中的动作。可以如下地定义和计算沿深度轴上的位移：

q(x，y，t)＝f(x+u，y+v，t+1)-f(x，y，t)

其中，f代表指定的位置(x，y)和时间(t)的帧中的像素。

3D/4D光流计算电路308可以进一步被配置成添加四分之一的尺寸或幅度分量到光流矢量，以生成4D矢量(u，v，q，s)。s的值可以是预先确定的标量值，其在某些实施例中可以被设置为1。4D光流矢量(u，v，q，s)在图7中图示，其中u分量沿x轴，v分量沿y轴，q分量沿z轴(代表从一个帧到下一帧的时间)，以及s分量是矢量的幅度。

角度计算电路310可以被配置成针对图像单元格中的每个4D光流矢量而计算三维(3D)角度表示。这些角度表示的分量(α，β，chi)也被在图7中图示，并且可以如下地计算：

α＝arctan(v/u)

单元格特征计算电路312可以被配置成基于单元格中的像素的3D角度表示(α，β，chi)的柱状图来生成用于每个图像单元格的分类特征。如图8中所图示的，将每个角度表示或角度空间802划分成角度范围。尽管其他划分是可能的，但是，在该示例中，有8个等分的区域，代表(0，π/4)，(π/4，π/2)，...(1.75π，2π)的范围。

柱状图804与3D角度表示中的每个维度(α，β，chi)相关联。柱状图包括对应于每个所述角度范围的长柱。对于图像单元格中的每个像素，该像素的α分量选择来自该单元格的α柱状图的长柱并且将该长柱增加该像素的幅度。类似地，对于该像素的β和chi分量，从该单元格的β和chi柱状图中选择长柱，将该β和chi柱状图增加像素的幅度。以这种方式，给定图像单元格中的所有(或大部分)像素贡献于该图像单元格的三个柱状图。

单元格特征计算电路312可以被进一步配置成归一化这三个柱状图，并将他们串联成一个更大的柱状图806。在某些实施例中，归一化处理可以包括由所选择的比例因子来缩放每个柱状图从而将值调整到所期望的范围中。该串联的柱状图806接着可以用作该图像单元格的分类特征。

在某些实施例中，柱状图长柱的数量可以是在5至9个长柱的范围。在某些实施例中，α角度空间可以被划分为7个长柱，β角度空间可以被划分为9个长柱，以及chi角度空间可以被划分为6个长柱。

识别分类器电路314可以被配置成基于针对每个图像单元格生成的分类特征来识别深度图像帧的序列中的活动。在某些实施例中，识别分类器电路可以是支持矢量机(SVM)分类器。在某些实施例中，按照本公开，可以采用其他已知的分类器技术。

分类器训练电路316可以被配置成训练识别分类器314。为此，可以提供训练视频，训练视频包括描绘已知活动的深度图像帧的序列，诸如进行特定的运动或执行某一任务。如以上结合识别系统的操作所描述的，图像单元格可以从训练视频帧中生成。同样如上所描述的，可以针对训练帧中的每个图像单元格而生成分类特征。接着，连与已知的活动相关联的标签一起，将这些分类特征提供给识别分类器，从而训练识别分类器。

方法

图9是图示按照本公开的实施例的用于识别深度图像帧的序列中的活动的示例方法900的流程图。如能够看到的，示例方法900包括多个阶段和子过程，其次序可以从一个实施例到另一个实施例而不同。然而，当在聚合中考虑时，这些阶段和子过程形成按照这里所公开的某一实施例的用于检测人类的过程。这些实施例能够例如使用如上所述的图3中图示的系统架构来实现。然而，如鉴于本公开内容而显而易见的，在其他实施例中能够使用其他的系统架构。为此，图9中示出的各种功能与图3中图示的具体分量的相关性不意图暗示任何结构和/或使用限制。而其他实施例可以包括例如变化集成度，其中由一个系统来有效地执行多个功能。例如，在替代性实施例中，单个模块能够用于执行方法900的所有功能。因而，取决于实现的粒度，其他实施例可以具有更少或更多的模块和/或子模块。鉴于本公开内容，大量变型和替代性配置将显而易见。

如图9中所图示的，在一个实施例中，用于识别活动的方法900通过接收(在操作910处)深度图像帧的序列开始。图像帧可以由深度相机来提供，并且包括颜色(例如，RGB)像素和深度像素。在操作920处，在空间上将帧分割成多个具有所选择的大小的窗口，例如，n_x列像素×n_y行像素。

接下来，在操作930处，通过分组或堆叠连续帧的所选择的子序列的窗口来生成多个时空图像单元格。每个窗口代表相同或类似的空间区域的连续的临时快照。所得到的时空图像立方体可以包括例如通过n_x列像素*n_y行像素*n_t帧。

在操作940处，计算每个图像单元格的4D光流矢量(u，v，q，s)。在某些实施例中，这通过以下来完成：首先使用应用到像素的组合的局部-全局能量最小化函数来计算2D光流矢量(u，v)。接着，基于图像单元格的连续帧中的对应的像素之间的所计算的差值，将第三维度q添加到2D矢量，以创建3D矢量。接着，可以将预先确定的标量值s添加到3D矢量，以生成4D光流矢量。

在操作950处，从每个4D光流矢量中计算3D角度表示(α，β，chi)，并且在操作960处，基于此单元格中的像素的角度表示来生成每个图像单元的分类特征。在某些实施例中，通过构建角度维度(α，β，chi)中的每个角度维度的柱状图，生成分类特征，其中柱状图的长柱与角度范围相关联。将每个维度的每个长柱增加具有角度表示的像素的幅度，对于该维度，该幅度落入该长柱的范围。

在操作970处，执行识别分类器以基于所生成的分类特征来识别在图像帧中描绘的活动。在某些实施例中，识别分类器是支持矢量机(SVM)分类器。

当然，在某些实施例中，如之前结合系统所描述的，可以执行附加的操作。这些附加的操作可以包括例如检测每个图像帧中的感兴趣的主题并且裁剪对象周围的那些帧，以消除不必要的背景景物。裁剪后的图像帧还可以彼此对齐，以促进他们的分组或堆叠，从而生成图像单元格。

示例系统

图10图示了如这里所描述的被配置成识别包括深度信息的图像帧的序列中的活动的示例系统1000。在某些实施例中，系统1000包括平台1010，其可以宿主在、或以其他方式并入到个人计算机、工作站、膝上型计算机、超级膝上型计算机、平板电脑、触摸板、便携式计算机、手持计算机、掌上计算机、个人数字助理(PDA)、蜂窝电话、组合蜂窝电话和PDA、智能设备(例如，智能手机或智能平板)、移动互联网设备(MID)、消息通讯设备、数据通信设备等等中。在某些实施例中可以使用不同设备的任意组合。

在某些实施例中，平台1010可以包括处理器1020、存储器1030、活动识别系统108、网络接口1040、输入/输出(I/O)系统1050、深度相机104、显示单元112以及存储系统1070的任意组合。如能够进一步看到的，还提供总线和/或互连1092以允许以上列出的各种组件和/或未示出的其他组件之间的通信。平台1010能够通过网络接口1040耦合到网络1094，以允许与其他计算设备、平台或者资源通信。鉴于本公开内容，没有反映在图10的框图中的其他的组件和功能将显而易见，并且将理解的是，其他实施例不限于任意特定的硬件配置。

处理器1020能够是任意合适的处理器，并且可以包括一个或多个协处理器或控制器，诸如音频处理器或图形处理单元，以辅助与系统1000相关联的控制和处理操作。在某些实施例中，处理器1020可以实现为任意数量的处理器核。该处理器(或处理器核)可以是任意类型的处理器，诸如，例如，微处理器、嵌入式处理器、数字信号处理器(DSP)、图形处理器(GPU)、网络处理器、现场可编程门阵列或配置成执行代码的其他设备。处理器可以是多线程核心的，他们可以包括每核多于一个硬件线程上下文(或“逻辑处理器”)。处理器1020可以实现为复杂指令集计算机(CISC)或精简指令集计算机(RISC)处理器。在某些实施例中，处理器1020可以被配置成兼容x86指令集的处理器。

存储器1030能够使用任意合适类型的数字存储器来实现，包括例如闪存和/或随机访问存储器(RAM)。在某些实施例中，存储器1030可以包括如对本领域技术人员而言已知的存储器层级和/或存储器的高速缓存的各个层。存储器1030可以被实现为易失性存储器设备，诸如，但不限于，RAM、动态RAM(DRAM)、或静态RAM(SRAM)设备。存储系统1070可以被实现为非易失性存储设备，诸如，但不限于，以下中的一个或多个：硬盘驱动器(HDD)、固态驱动器(SSD)、通用串行总线(USB)驱动器、光盘驱动器、磁带驱动器、内部存储设备、附连存储设备、闪存、电池备份的同步DRAM(SDRAM)、和/或网络可访问存储设备。在某些实施例中，存储器1070可以包括技术以在包括多个硬盘驱动器时针对有价值的数字媒体提高存储性能增强保护。

处理器1020可以被配置成执行可以包括任意合适的操作系统的操作系统(OS)1080，诸如，Google Android(谷歌公司，山景城，加利福尼亚州)、Microsoft Windows(微软公司，雷德蒙德，华盛顿州)、或Apple OS X(苹果公司，库比蒂诺，加利福尼亚州)。如将在本公开内容的基础上理解到的，这里所提供的技术能够不考虑结合系统1000提供的特定的操作系统来实现，并且因此还可以使用任意合适的现有的或后来开发的平台来实现。

网络接口电路1040能够是任意适当的网络芯片或芯片集，其允许计算机系统1000和/或网络1094的其他组件之间的有线和/或无线连接，从而使系统1000能够与其他本地和/或远程计算系统、服务器、和/或资源通信。有线通信可以遵循现有的(或尚待开发的)标准，诸如，例如，以太网。无线通信可以遵循现有的(或尚待开发的)标准，诸如，例如，包括LTE(长期演进)的蜂窝通信、无线保真(Wi-Fi)、蓝牙、和/或近场通信(NFC)。示例性的无线网络包括，但不限于，无线局域网、无线个域网、无线城域网、蜂窝网络、以及卫星网络。

I/O系统1050可以被配置成计算机系统1000的各种I/O设备和其他组件之间的接口。I/O设备可以包括，但不限于，深度相机104、显示单元112、以及其他未示出的设备，诸如键盘、鼠标、麦克风、扬声器等。

I/O系统1050可以包括被配置成对用于显示单元112的图像执行处理的图形子系统。例如，图形子系统可以是图形处理单元或视觉处理单元(VPU)。模拟或数字接口可以用于通信地耦合图形子系统和显示单元112。例如，该接口可以是任意高清晰度多媒体接口(HDMI)、显示端口、无线HDMI、和/或使用无线高清晰度兼容技术的任意其他合适的接口。在某些实施例中，图形子系统可以集成到处理器1020或平台1010的任意芯片集。在某些实施例中，显示单元112可以包括任意电视类型的监视器或显示器。显示单元112可以包括，例如，计算机显示屏、触摸屏显示器、视频监视器、类似电视机的设备、和/或电视机。显示单元112可以是数字和/或模拟的。在OS 1080(或一个或多个软件应用程序)的控制下，平台1010可以在显示单元112上显示图像和检测结果。如这里所描述的，图像可以由深度相机104提供，并且检测结果可以由活动识别系统108提供。

将理解到，在某些实施例中，系统100的各种组件可以被组合或集成在片上系统(SoC)架构中。在某些实施例中，组件可以是硬件组件、固件组件、软件组件，或者硬件、固件或软件的任意合适的组合。

活动识别系统108被配置成识别所提供的深度图像帧的序列中描绘的活动的类型。图像可以由深度相机104提供。活动识别系统108可以包括图3中所图示并且如上所描述的组件中的任意或全部组件。活动识别系统108能够结合耦合或形成平台1010的一部分的各种合适的软件和/或硬件来实现或使用。系统108能够附加地或可选地结合能够提供信息给用户以及能够从用户接收信息和命令的用户I/O设备来实现或使用。这些I/O设备可以包括显示单元112、诸如为键盘的文本输入设备、以及诸如为鼠标的基于指针的输入设备。可以在其他实施例中使用的其他输入/输出设备包括触摸屏、触摸板、扬声器、和/或麦克风。但是，在其他实施例中能够使用其他输入/输出设备。

在某些实施例中，如图10的示例实施例中所示的，活动识别系统108可以本地安装在系统1000中。可选地，系统1000能够在客户端-服务器配置中实现，其中，使用小应用程序(诸如JavaScript小应用程序、或其他可下载模块)来将与这些电路相关联的至少某些功能提供给系统1000。能够实时提供这样的远程可访问的模块或子模块，响应于来自客户端计算系统的请求，该请求用于访问具有客户端计算系统的用户感兴趣的资源的给定服务器。在这样的实施例中，服务器能够是网络1094本地的或由一个或多个其他网络和/或通信信道远程地耦合到网络1094。在某些情况下，对给定网络或计算系统上的资源的访问可能要求凭证，诸如用户名、密码、和/或符合任意其他合适的安全机制。

在各种实施例中，系统1000可以被实现为无线系统、有线系统、或两者的组合。当被实现为无线系统时，系统1000可以包括适于在无线共享媒介(诸如，一个或多个天线、发送机、接收机、收发机、放大器、滤波器、控制逻辑，等等)上通信的组件和接口。无线共享媒介的示例可以包括无线频谱的一部分，诸如射频频谱等等。当被实现为有线系统时，系统1000可以包括适于在有线通信媒介(诸如，输入/输出适配器、用于将输入/输出适配器与相应的有线通信媒介连接的物理连接器、网络接口卡(NIC)、磁盘控制器、视频控制器、音频控制器，等等)上通信的组件和接口。有线通信媒介的示例可以包括导线、电缆金属引线、印刷电路板(PCB)、背板、交换结构、半导体材料、双绞线、同轴电缆、光纤，等等。

各种实施例可以使用硬件单元、软件单元、或两者的组合来实现。硬件单元的示例可以包括处理器、微处理器、电路、电路元件(例如，晶体管、电阻器、电长柱、电感器，等等)、集成电路、专用集成电路、可编程逻辑设备、数字信号处理器、FPGA、逻辑门、寄存器、半导体设备、芯片、微芯片、芯片集，等等。软件的示例可以包括软件组件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、函数、方法、过程、软件接口、应用程序接口、指令集、计算代码、计算机代码、代码段、计算机代码段、字、值、符号、或其任意组合。确定实施例是否使用硬件单元/或软件单元来实现可以根据任意数量的因素来变化，诸如所期望的计算速率、功率水平、耐热性、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度、以及其他设计或性能约束。

某些实施例可以使用表述“耦合”和“连接”以及他们的派生词来描述。这些术语不意图作为彼此的同义词。例如，某些实施例可以使用术语“连接”和/或“耦合”来描述，以指示两个或更多个元件彼此直接物理或电接触。然而，术语“耦合”还可以指两个或更多个元件并非彼此直接接触，但是仍然彼此协作或交互。

这里公开的各种实施例能够以各种形式的硬件、软件、固件、和/或专用处理器来实现。例如，在一个实施例中，至少一种非暂时性计算机可读存储介质具有在其上编码的指令，当由一个或多个处理器执行时，所述指令引起实施这里所公开的一个或多个活动识别方法。能够使用合适的编程语言对指令进行编码，诸如C、C++、面向对象的C、Java、JavaScript、Visual Basic.NET、初学者通用符号指令码(BASIC)，或者可选地，使用自定义或专有的指令集。指令能够以有形地体现在存储设备、并且能够由具有任意合适的架构的计算机执行的一个或多个计算机软件应用程序和/或小应用程序的形式来提供。在一个实施例中，系统能够宿主在给定的网站上并且，例如，使用JavaScript或另一种合适的基于浏览器的技术来实现。作为例子，在一些实施例中，系统可以利用由可经由网络1094访问的远程计算机系统提供的处理资源。在其他实施例中，能够将这里所公开的功能合并到其他软件应用程序，诸如视频编辑应用、视频分析应用、视频监控应用，或其他内容生成、修改、和/或管理应用。这里所公开的计算机软件应用可以包括任意数量的不同的模块、子模块、或不同功能的其他组件，并且能够提供信息到依旧其他组件，或从依旧其它组件接收信息。这些模块能够用于例如与输入和/或输出设备进行通信，该输入和/或输出设备诸如为显示屏、触敏表面、打印机、和/或任意其他合适的设备。鉴于本公开内容，阐述中未反映的其他元件和功能将显而易见，并且将理解的是，其他实施例不限于任意特定的硬件或软件配置。因而，在其他实施例中，与图10的示例实施例中所包括的那些相比，系统1000可以包括附加的、更少的、或替代的子组件。

前述非暂时性计算机可读介质可以是用于存储数字信息的任意合适的介质，诸如硬盘驱动器、服务器、闪存、和/或随机访问存储器(RAM)、或存储器的组合。在可选的实施例中，这里所公开的组件和/或模块能够使用硬件来实现，包括门级逻辑(诸如，现场可编程门阵列(FPGA))，或者可选地，专门构造的半导体(诸如，专用集成电路(ASIC))。仍旧，其他实施例可以使用微控制器来实现，该微控制器具有用于接收和输出数据的多个输入/输出端口、以及用于执行这里所公开的各种功能的多个嵌入式例程。将显而易见的是，能够使用硬件、软件、以及固件的任意合适组合，并且其他实施例不限于任意特定系统架构。

某些实施例可以例如使用机器可读介质或产品来实现，该机器可读介质或产品可以存储指令或一组指令，如果由机器执行，所述指令或一组指令可以引起机器执行按照实施例的方法和/或操作。这样的机器可以包括，例如，任意合适的处理平台、计算平台、计算设备、处理设备、计算系统、处理系统、计算机、处理、或类似物，并且可以使用硬件和/或软件的任意合适的组合来实现。机器可读介质或产品可以包括，例如，任意合适类型的存储单元、存储设备、存储产品、存储介质、存贮设备、存贮产品、存贮介质、和/或存贮单元，诸如存储器、可移动或不可移动介质、可擦除或不可擦除介质、可写或可重写介质、数字或模拟介质、硬盘、软盘、致密盘只读存储器(CD-ROM)、致密盘可录(CD-R)存储器、致密盘可重写(CD-RW)存储器、光盘、磁介质、磁光介质、可移动存储卡或盘、各种类型的数字多功能盘(DVD)、磁带、盒式磁带、或类似物。指令可以包括使用任意合适的高级、低级、面向对象、visual、编译、和/或解释的编程语言来实现的任意合适类型的代码，诸如源代码、编译代码、解释代码、可执行代码、静态代码、动态代码、加密代码、以及类似物。

除非特别记载，否则可以理解到，诸如为“处理”、“计算”、“运算”、“确定”或类似术语的术语指代将表示为计算机系统的寄存器和/或存储单元中的物理量(例如，电的)的数据操纵和/或变换为类似地表示为计算机系统的寄存器、存储单元、或其他这样的信息存储传输或显示中的物理量的计算机或计算系统、或类似的电子计算设备的动作和/或处理。实施例并不限于此上下文。

如这里的任意实施例中使用的术语“电路”或“电子电路”是功能性的，并且可以包括，例如，单独地或以任何组合，硬连线电路、可编程电路(诸如包括一个或多个单独的指令处理内核的计算机处理器)、状态机电路、和/或存储由可编程电路执行的指令的固件。电路可以包括处理器和/或控制器，被配置成执行一个或多个指令，以执行这里所描述的一个或多个操作。指令可以体现为，例如，被配置成引起电路执行任意上述操作的应用程序、软件、固件等。软件可以体现为记录在计算机可读存贮设备上的软件包、代码、指令、指令集和/或数据。以分层方式，软件可以具体化或实现为包括任意数量的过程，并且接着，可以将过程具体化或实现为包括任意数量的线程等。固件可以被体现为硬编码(例如，非易失性地)在存储设备中的代码、指令或指令集和/或数据。电路可以共同地或单独地体现为形成更大的系统的一部分的电路，例如集成电路(IC)、专用集成电路(ASIC)、片上系统(SOC)、台式计算机、膝上型电脑、平板电脑、服务器、智能手机等。其它实施例可以被实现为由可编程控制设备执行的软件。在这样的情况下，术语“电路”或“电子电路”旨在包括软件和硬件的组合，诸如可编程控制设备或能够执行软件的处理器。如这里所描述的，各种实施例可以使用硬件单元、软件单元、或其任意组合来实现。硬件单元的示例可以包括处理器、微处理器、电路、电路元件(例如，晶体管、电阻器、电长柱、电感器，等等)、集成电路、专用集成电路(ASIC)、可编程逻辑设备(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、逻辑门、寄存器、半导体设备、芯片、微芯片、芯片集，等等。

这里已经给出了大量具体细节以提供对实施例的透彻理解。然而，本领域技术人员将理解到，可以在没有这些具体细节的情况下实践这些实施例。在其他例子中，公知的操作、组件以及电路未详细描述，以免模糊这些实施例。能够理解的是，这里所公开的具体结构和功能细节可以是代表性的并且不一定限制实施例的范围。另外，尽管用特定于结构特征和/或方法动作的语言描述了主题，但是，将理解的是，所附权利要求书中限定的主题不一定限于这里所描述的具体特征或动作。相反，这里所描述的具体特征和动作作为实现权利要求的示例形式而公开。

进一步的示例实施例

下面的示例涉及进一步的实施例，从中大量的排列和配置将是显而易见的。

示例1是一种用于深度相机生成的图像中的活动识别的方法。该方法包括：由处理器接收深度图像帧的序列，深度图像帧包括多个像素；由处理器将每个帧分割成多个窗口；由处理器生成多个时空图像单元格，图像单元格包括：来自所述帧的所选择的子序列的窗口的分组；由处理器计算每个图像单元格的每个像素的四维(4D)光流矢量；由处理器计算每个光流矢量的三维(3D)角度表示；由处理器基于3D角度表示的柱状图来生成每个图像单元格的分类特征；以及，由处理器执行识别分类器以基于分类特征来识别活动。

示例2包括示例1的主题，进一步包括：检测每帧中的感兴趣的主题并且关于感兴趣的主题来裁剪该帧。

示例3包括示例1或2的主题，进一步包括：使得每个裁剪后的帧相对于另一裁剪后的帧在空间上对齐。

示例4包括示例1-3中任一项的主题，其中计算4D光流矢量进一步包括：基于施加到图像单元格的像素上的组合的局部-全局能量最小化函数来计算二维(2D)光流矢量；基于所计算的连续帧中的相应的像素之间的差来将第三维添加到2D光流矢量；以及将第四维添加到2D光流矢量，第四维包括预先确定的标量值。

示例5包括示例1-4中任一项的主题，其中分类特征的生成进一步包括：将柱状图与3D角度表示的每个维度相关联，该柱状图包括与多个角度范围中的每一个相对应的长柱；基于与每个长柱相关联的图像单元格中的每个像素的幅度来增加所述长柱；归一化柱状图；以及，串联柱状图以生成分类特征。

示例6包括示例1-5中任一项的主题，其中，柱状图长柱的数量在5至9个长柱的范围。

示例7包括示例1-6中任一项的主题，其中，识别分类器是支持矢量机(SVM)分类器。

示例8包括示例1-7中任一项的主题，进一步包括训练识别分类器，训练包括：接收对应于已知的活动的训练深度图像帧的序列；生成训练帧的每个图像单元格的分类特征；以及，提供分类特征和与已知的活动相关联的标签到识别分类器以用于训练。

示例9是一种用于深度相机生成的图像中的活动的识别的系统。该系统包括：单元格生成电路，用于：接收深度图像帧的序列，深度图像帧包括多个像素；将每个帧分割成多个窗口；以及，生成多个时空图像单元格，图像单元格包括来自所述帧的所选择的子序列的窗口的分组；光流计算电路，用于；计算每个图像单元格的每个像素的四维(4D)光流矢量；角度计算电路，用于计算每个光流矢量的三维(3D)角度表示；单元格特征计算电路，用于基于3D角度表示的柱状图来生成每个图像单元格的分类特征；以及，识别分类器电路，用于基于分类特征来识别活动。

示例10包括示例9的主题，进一步包括：裁剪和对齐电路，用于检测每帧的感兴趣的主题并且关于感兴趣的主题而裁剪该帧。

示例11包括示例9或10的主题，其中，裁剪和对齐电路进一步用于使得每个裁剪后的帧相对于另一裁剪后的帧在空间上对齐。

示例12包括示例9-11中任一项的主题，其中，光流计算电路进一步包括：2D光流计算电路，用于基于施加到图像单元格的像素上的组合的局部-全局能量最小化函数来计算二维(2D)光流矢量；以及，3D/4D光流计算电路，用于基于所计算的连续帧中的相应的像素之间的差来将第三维添加到2D光流矢量，以及将第四维添加到2D光流矢量，第四维包括预先确定的标量值。

示例13包括示例9-12中任一项的主题，其中单元格特征计算电路进一步用于：将柱状图与3D角度表示的每个维度相关联，该柱状图包括与多个角度范围中的每一个相对应的长柱；基于与每个长柱相关联的图像单元格中的每个像素的幅度来增加所述长柱；归一化柱状图；以及，串联柱状图以生成分类特征。

示例14包括示例9-13中任一项的主题，其中，柱状图长柱的数量在5至9个长柱的范围。

示例15包括示例9-14中任一项的主题，其中，识别分类器电路是支持矢量机(SVM)分类器。

示例16包括示例9-15中任一项的主题，进一步包括分类器训练电路，用于：接收对应于已知的活动的训练深度图像帧的序列；生成训练帧的每个图像单元格的分类特征；以及，提供分类特征和与已知的活动相关联的标签到识别分类器以用于训练。

示例17是至少一个非暂时性计算机可读存储介质，具有编码于其上的指令，当由一个或多个处理器执行时，所述指令导致以下用于深度相机生成的图像中的活动识别的操作。所述操作包括：接收深度图像帧的序列，深度图像帧包括多个像素；将每个帧分割成多个窗口；以及，生成多个时空图像单元格，图像单元格包括来自所述帧的所选择的子序列的窗口的分组；计算每个图像单元格的每个像素的四维(4D)光流矢量；计算每个光流矢量的三维(3D)角度表示；基于3D角度表示的柱状图来生成每个图像单元格的分类特征；以及，执行识别分类器以基于分类特征来识别活动。

示例18包括示例17的主题，所述操作进一步包括：检测每帧的感兴趣的主题并且关于感兴趣的主题而裁剪该帧。

示例19包括示例17或18的主题，所述操作进一步包括：使得每个裁剪后的帧相对于另一裁剪后的帧在空间上对齐。

示例20包括示例17-19中任一项的主题，其中4D光流矢量的计算进一步包括以下操作：基于施加到图像单元格的像素上的组合的局部-全局能量最小化函数来计算二维(2D)光流矢量；基于所计算的连续帧中的相应的像素之间的差来将第三维添加到2D光流矢量；以及将第四维添加到2D光流矢量，第四维包括预先确定的标量值。

示例21包括示例17-20中任一项的主题，其中分类特征的生成进一步包括以下操作：将柱状图与3D角度表示的每个维度相关联，该柱状图包括与多个角度范围中的每一个相对应的长柱；基于与每个长柱相关联的图像单元格中的每个像素的幅度来增加所述长柱；归一化柱状图；以及，串联柱状图以生成分类特征。

示例22包括示例17-21中任一项的主题，其中，柱状图长柱的数量在5至9个长柱的范围。

示例23包括示例17-22中任一项的主题，其中，识别分类器是支持矢量机(SVM)分类器。

示例24包括示例17-23中任一项的主题，所述操作进一步包括训练识别分类器，训练包括：接收对应于已知的活动的训练深度图像帧的序列；生成训练帧的每个图像单元格的分类特征；以及，提供分类特征和与已知的活动相关联的标签到识别分类器以用于训练。

示例25是一种用于深度相机生成的图像中的活动识别的系统。该系统包括：模块，用于接收深度图像帧的序列，深度图像帧包括多个像素；模块，用于将每个帧分割成多个窗口；以及，模块，用于生成多个时空图像单元格，图像单元格包括来自所述帧的所选择的子序列的窗口的分组；模块，用于计算每个图像单元格的每个像素的四维(4D)光流矢量；模块，用于计算每个光流矢量的三维(3D)角度表示；模块，用于基于3D角度表示的柱状图来生成每个图像单元格的分类特征；以及，模块，用于执行识别分类器以基于分类特征来识别活动。

示例26包括示例25的主题，进一步包括：模块，用于检测每帧的感兴趣的主题并且关于感兴趣的主题而裁剪该帧。

示例27包括示例25或26的主题，进一步包括：模块，用于使得每个裁剪后的帧相对于另一裁剪后的帧在空间上对齐。

示例28包括示例25-27中任一项的主题，其中计算4D光流矢量进一步包括：模块，用于基于施加到图像单元格的像素上的组合的局部-全局能量最小化函数来计算二维(2D)光流矢量；模块，用于基于所计算的连续帧中的相应的像素之间的差来将第三维添加到2D光流矢量；以及，模块，用于将第四维添加到2D光流矢量，第四维包括预先确定的标量值。

示例29包括示例25-28中任一项的主题，其中生成分类特征进一步包括：模块，用于将柱状图与3D角度表示的每个维度相关联，该柱状图包括与多个角度范围中的每一个相对应的长柱；模块，用于基于与每个长柱相关联的图像单元格中的每个像素的幅度来增加所述长柱；模块，用于归一化柱状图；以及，模块，用于串联柱状图以生成分类特征。

示例30包括示例25-29中任一项的主题，其中，柱状图长柱的数量在5至9个长柱的范围。

示例31包括示例25-30中任一项的主题，其中，识别分类器是支持矢量机(SVM)分类器。

示例32包括示例25-31中任一项的主题，进一步包括训练识别分类器，训练包括：模块，用于接收对应于已知的活动的训练深度图像帧的序列；模块，用于生成训练帧的每个图像单元格的分类特征；以及，模块，用于提供分类特征和与已知的活动相关联的标签到识别分类器以用于训练。

这里已经采用的术语和表达被用作描述的术语而不是限制，并且，在这样的术语和表达的使用中，不意图排除所示和所描述的特征(或其一部分)的任意等价物，并且认识到，权利要求的范围内的各种修改是可能的。因此，权利要求旨在覆盖所有这样的等价物。这里已经描述了各种特征、方面、以及实施例。如本领域技术人员将理解到的，所述特征、方面、以及实施例易于彼此组合以及易于变型和修改。因此，本公开内容应该被认为包括这样的组合、变型、以及修改。意图本公开内容的范围不由该详细描述来限制，而是由所附的权利要求来限制。将来提交的要求本申请的优先权的申请可以以不同的方式来要求所公开的主题，并且通常可以包括如这里以各种方式公开或演示的一个或多个单元的任意集合。

Claims

1.一种用于深度相机生成的图像中的活动识别的处理器实现的方法，该方法包括：

由处理器接收深度图像帧的序列，深度图像帧包括多个像素；

由处理器将每个帧分割成多个窗口；

由处理器生成多个时空图像单元格，图像单元格包括：来自所述帧的所选择的子序列的窗口的分组；

由处理器计算每个图像单元格的每个像素的四维4D光流矢量；

由处理器计算每个光流矢量的三维3D角度表示；

由处理器基于3D角度表示的柱状图来生成每个图像单元格的分类特征；以及，

由处理器执行识别分类器以基于分类特征来识别活动。

2.如权利要求1所述的方法，进一步包括：检测每帧中的感兴趣的主题并且关于感兴趣的主题来裁剪该帧。

3.如权利要求2所述的方法，进一步包括：使得每个裁剪后的帧相对于另一裁剪后的帧在空间上对齐。

4.如权利要求1或2所述的方法，其中计算4D光流矢量进一步包括：

基于施加到图像单元格的像素上的组合的局部-全局能量最小化函数来计算二维2D光流矢量；

基于所计算的连续帧中的相应的像素之间的差来将第三维添加到2D光流矢量；以及

将第四维添加到2D光流矢量，第四维包括预先确定的标量值。

5.如权利要求1所述的方法，其中分类特征的生成进一步包括：

将柱状图与3D角度表示的每个维度相关联，该柱状图包括与多个角度范围中的每一个相对应的长柱；

基于与每个长柱相关联的图像单元格中的每个像素的幅度来增加所述长柱；

归一化柱状图；以及，

串联柱状图以生成分类特征。

6.如权利要求5所述的方法，其中，柱状图长柱的数量在5至9个长柱的范围。

7.如权利要求1或2所述的方法，其中，识别分类器是支持矢量机SVM分类器。

8.如权利要求1或2所述的方法，进一步包括训练识别分类器，训练包括：

接收对应于已知的活动的训练深度图像帧的序列；

生成训练帧的每个图像单元格的分类特征；以及，

提供分类特征和与已知的活动相关联的标签到识别分类器以用于训练。

9.一种用于深度相机生成的图像中的活动的识别的系统，该系统包括：

单元格生成电路，用于：

接收深度图像帧的序列，深度图像帧包括多个像素；

将每个帧分割成多个窗口；以及，

生成多个时空图像单元格，图像单元格包括来自所述帧的所选择的子序列的窗口的分组；

光流计算电路，用于；计算每个图像单元格的每个像素的四维4D光流矢量；

角度计算电路，用于计算每个光流矢量的三维3D角度表示；

单元格特征计算电路，用于基于3D角度表示的柱状图来生成每个图像单元格的分类特征；以及，

识别分类器电路，用于基于分类特征来识别活动。

10.如权利要求9所述的系统，进一步包括：裁剪和对齐电路，用于检测每帧的感兴趣的主题并且关于感兴趣的主题而裁剪该帧。

11.如权利要求10所述的系统，其中，裁剪和对齐电路进一步用于使得每个裁剪后的帧相对于另一裁剪后的帧在空间上对齐。

12.如权利要求9或10所述的系统，其中，光流计算电路进一步包括：

2D光流计算电路，用于基于施加到图像单元格的像素上的组合的局部-全局能量最小化函数来计算二维2D光流矢量；以及，

3D/4D光流计算电路，用于基于所计算的连续帧中的相应的像素之间的差来将第三维添加到2D光流矢量，以及将第四维添加到2D光流矢量，第四维包括预先确定的标量值。

13.如权利要求9所述的系统，其中单元格特征计算电路进一步用于：

归一化柱状图；以及，

串联柱状图以生成分类特征。

14.如权利要求13所述的系统，其中，柱状图长柱的数量在5至9个长柱的范围。

15.如权利要求9或10所述的系统，其中，识别分类器电路是支持矢量机SVM分类器。

16.如权利要求9或10所述的系统，进一步包括分类器训练电路，用于：

接收对应于已知的活动的训练深度图像帧的序列；

生成训练帧的每个图像单元格的分类特征；以及，

17.一种用于深度相机生成的图像中的活动识别的系统，该系统包括：

用于接收深度图像帧的序列的模块，深度图像帧包括多个像素；

用于将每个帧分割成多个窗口的模块；

用于生成多个时空图像单元格的模块，图像单元格包括来自所述帧的所选择的子序列的窗口的分组；

用于计算每个图像单元格的每个像素的四维4D光流矢量的模块；

用于计算每个光流矢量的三维3D角度表示的模块；

用于基于3D角度表示的柱状图来生成每个图像单元格的分类特征的模块；以及，

用于执行识别分类器以基于分类特征来识别活动的模块。

18.如权利要求17所述的系统，进一步包括：用于检测每帧的感兴趣的主题并且关于感兴趣的主题而裁剪该帧的模块。

19.如权利要求18所述的系统，进一步包括：用于使得每个裁剪后的帧相对于另一裁剪后的帧在空间上对齐的模块。

20.如权利要求17或18所述的系统，其中计算4D光流矢量进一步包括：

用于基于施加到图像单元格的像素上的组合的局部-全局能量最小化函数来计算二维2D光流矢量的模块；

用于基于所计算的连续帧中的相应的像素之间的差来将第三维添加到2D光流矢量的模块；以及，

用于将第四维添加到2D光流矢量的模块，第四维包括预先确定的标量值。

21.如权利要求17所述的系统，其中生成分类特征进一步包括：

用于将柱状图与3D角度表示的每个维度相关联的模块，该柱状图包括与多个角度范围中的每一个相对应的长柱；

用于基于与每个长柱相关联的图像单元格中的每个像素的幅度来增加所述长柱的模块；

用于归一化柱状图的模块；以及，

用于串联柱状图以生成分类特征的模块。

22.如权利要求21所述的系统，其中，柱状图长柱的数量在5至9个长柱的范围。

23.如权利要求17或18所述的系统，其中，识别分类器是支持矢量机SVM分类器。

24.如权利要求17或18所述的系统，进一步包括训练识别分类器，训练包括：

用于接收对应于已知的活动的训练深度图像帧的序列的模块；

用于生成训练帧的每个图像单元格的分类特征的模块；

以及，用于提供分类特征和与已知的活动相关联的标签到识别分类器以用于训练的模块。