CN106663126A

CN106663126A - 用于运动任务分析的视频处理

Info

Publication number: CN106663126A
Application number: CN201580048330.0A
Authority: CN
Inventors: P·康特斯希德; J·多恩; D·奇基克; A·克里米尼西
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-09-09
Filing date: 2015-09-07
Publication date: 2017-05-10
Also published as: EP4002385A3; EP4002385A2; US20170293805A1; US10083233B2; BR112017003220A8; KR20170052628A; WO2016038516A3; EP3191986A2; AU2015313891A1; WO2016040207A1; JP2017533790A; EP3191989B1; BR112017004663A2; WO2016038516A2; EP3191989A1; CA2960584A1; US10776423B2; BR112017003220A2; AU2018250385A1; US20160071284A1

Abstract

描述了用于运动任务分析的视频处理。在各种示例中，执行运动任务(诸如将食指放在鼻子上)的人或动物的至少一部分的视频被输入到经训练的机器学习系统以将运动任务分类为多个类别。在示例中，从视频的成对帧计算运动描述符(诸如光流)，并且运动描述符被输入到机器学习系统。例如，在训练期间，机器学习系统标识在运动任务的类别之间进行区分的时间相关和/或位置相关加速度或速度特征。在示例中，经训练的机器学习系统从运动描述符计算其已经学习为好的鉴别器的位置相关加速度或速度特征。在各种示例中，使用视频的子体计算特征。

Description

用于运动任务分析的视频处理

背景技术

运动任务(诸如举起手臂、直立、抬腿和其他)的执行通常在个体之间变化相当大。例如，取决于身体结构、体重和其他因素(诸如个体的专门知识和技能、经验、力量和身体能力)。现有运动任务执行的分析方法通常地涉及手动观察，因此是主观的，并且存在做出分析时取决于观察者的技能的变化的可能性。

下文所描述的实施例不限于解决已知运动任务分析系统的缺点中的任何或全部的实施方式。

发明内容

以下呈现本公开的简要概述以便向读者提供基本理解。该概述不是本公开的广泛综述并且不标识关键/主要元件或描绘说明书的范围。其唯一目的是以简要形式将本文所公开的概念的选择呈现为稍后呈现的更详细描述的前序。

描述了用于运动任务分析的视频处理。在各种示例中，执行运动任务(诸如将食指放在鼻子上)的人或动物的至少一部分的视频被输入到经训练的机器学习系统以将运动任务分类为多个类别中的一个类别。在示例中，从视频的成对帧计算运动描述符(诸如光流)，并且运动描述符被输入到机器学习系统。例如，在训练期间，机器学习系统标识在运动任务的类别之间进行区分的时间相关和/或位置相关加速度或速度特征。在示例中，经训练的机器学习系统从运动描述符计算其已经学习为好的鉴别器的位置相关加速度或速度特征。在各种示例中，使用视频的子体(sub-volumes)计算特征。

通过参考结合附图考虑的以下详细描述，许多伴随特征将更容易理解，同样变得更好理解。

附图说明

从根据附图阅读的下面详细描述，将更好地理解本描述，其中：

图1是执行运动任务的人的视频捕获，并且示出了视频的处理以分析运动任务的示意图；

图2是运动任务的示例的示意图；

图3是可以使用在图1的场景中的捕获设备的示意图；

图4是图1的视频的帧和预处理帧的结果以及预处理装置的示意图；

图5是用于训练机器学习系统以分析运动任务的视频的系统的示意图；

图6是训练随机决策森林以分类运动任务的视频的方法的流程图；

图7是随机决策森林的示意图；

图8是使用经训练的随机决策森林以分类运动任务视频的方法的流程图；

图9图示了在其中可以实现视频处理系统的实施例的示例性的基于计算的设备。

相同附图标记被用于在附图中指代相同部件。

具体实施方式

下文结合附图提供的详细描述旨在作为本示例的描述并且不旨在表示可以构建或利用本示例的仅有形式。该描述阐述示例的功能和用于构建和操作示例的步骤的顺序。然而，可以通过不同的示例完成相同或等效功能和序列。

图1是执行运动任务(诸如在从其中手臂被水平伸出的位置开始(如由手臂位置114所指示的)之后将食指放在鼻子上(如由手臂位置112所指示的))的人101的示意图。这仅是运动任务的一个示例并且下面参考图2给出更多示例。

先前已经手动地(例如，通过视觉观察)实现分析运动任务，其受变化性(诸如观察者的偏见、观察者经验水平和观察者环境)影响。在下文所描述的各种示例中，运动任务的视频被处理以分析运动任务。例如，将运动任务分类为两个或两个以上类别(诸如好的、中等的、弱的)(例如，以指示运动任务的性能水平)。通过使用如本文所描述的自动化视频处理系统，以快速并且实用的方式获得无偏置的、准确的评级/分类是可能的。

视频捕获设备100捕获在环境中执行运动任务的人101的视频，该环境在图1的示例中是具有墙上的照片106、沙发110和挂在墙上的衣服108的房间。然而，这仅是示例并且可以使用其他环境。视频捕获设备100可以被安装在面对用户的墙上或可以以另一方式(诸如在计算设备、桌子或其他结构上)支持。参考图2更详细地描述视频捕获设备100。它捕获包括以帧速率诸如30帧每秒或更多捕获的多个帧的图像流116。取决于运动任务和视频捕获设备的类型，可以使用其他帧速率。在适当的同意下捕获人的视频，并且视频材料优选地以安全的私有方式被存储。

所捕获的帧可以被输入到计算设备104，其可以是与视频捕获设备100集成的或可以使用无线通信、有线连接或以其他方式被连接到视频捕获设备。该计算设备104可以在云中被提供为云服务。图1的示例示出了单个计算设备104。然而，使用一起提供功能性的多个分布式计算设备也是可能的。

图1的计算设备104包括预处理部件118，其预处理视频以产生经预处理的图像120。其还包括经训练的机器学习系统122(诸如随机决策森林、支持向量机的集合或其他经训练的机器学习系统)，其输出运动任务分类数据124。

机器学习系统被训练以学习位置相关局部运动特征，其是运动任务类别的好的鉴别器。例如，在训练期间可以评估随机地选择的局部运动特征并且选择执行好的区分的那些局部运动特征。位置相关特征是视频的一个或多个子体的特点。形成视频的帧的顺序可以被认为是形成体并且子体是更大的体的邻近区域。由于子体在视频的时间和空间中的特定位置处，因而子体的特点是位置相关的。局部运动特征是与子体的帧内的图像元素如何改变图像帧之间的位置有关的一个或多个子体的特点。例如，局部运动特征可以与图像元素的速度或加速度有关。术语加速度此处被用于指代或者速度的大小的变化率、或者速度的方向的变化率、或者速度的大小和方向两者的变化率。已经发现，位置相关局部运动特征可以提供针对运动任务类别的有效鉴别器，如在本文中更详细解释的。

图2是可以被分析的运动任务的四个不同类型的示意图。示出了手指到鼻子任务200，其中人将一个手臂举起到水平位置并且指向食指；然后人移动手臂以便将食指放在鼻子上。手指到手指任务204包含人将双臂举起到水平位置，以及食指指向远离身体。然后人移动双臂，使得食指在身体的前面相遇。绘制正方形任务202包含人在空中绘制相等大小的正方形；每个食指一个。躯干无序任务206(truncal ataxis task)包含人水平地伸出双臂远离身体并且保持位置。图2中给定的运动任务的示例不是可能运动任务的示例的详尽列表，而是被给出以图示该技术。

现在参考图3，其图示了可以使用在图1的基于照相机的系统中的示例视频捕获设备100的示意图。在图3的示例中，视频捕获设备100被配置为捕获深度视频(使用深度照相机302)以及彩色视频(使用RGB照相机306)。然而，这不是必要的。捕获仅彩色视频或仅深度视频也是可能的。在使用深度照相机302的情况下，其可以是任何适合的类型(例如，飞行时间、结构化光、立体)。在一些示例中，深度照相机可以使用散斑去相关。在使用彩色视频照相机的情况下，可以从彩色视频编写可以标识人的面部特征或其他视觉特征。

视频捕获设备100包括至少一个成像传感器300。在图3中所示的示例中，成像传感器300包括深度照相机302，其被布置为捕获场景的深度图像。所捕获的深度图像可以包括所捕获的场景的二维(2-D)区域，其中2-D区域中的每个图像元素表示深度值(诸如所捕获的场景中的对象距深度照相机302的长度或距离)。

捕获设备还可以包括发射器304，其被布置为以深度信息可以由深度照相机302确定的这样的方式照射场景。例如，在深度照相机302是红外(IR)飞行时间照相机的情况下，发射器304将IR光发射到场景上，并且深度照相机302被布置为检测从场景中的一个或多个目标和对象的表面的反向散射的光。在一些示例中，可以从发射器304发射脉冲红外光，使得出射光脉冲与对应的入射光脉冲之间的时间可以由深度照相机检测和测量并且被用于确定从视频捕获设备100到场景中的目标或对象上的位置的物理距离。附加地，在一些示例中，可以将来自发射器304的出射光波的相位与深度照相机302处的入射光波的相位相比较来确定相位偏移。然后，相位偏移可以被用于确定从捕获设备100到目标或对象上的位置的物理距离。在另一示例中，飞行时间分析可以被用于通过经由各种技术(包括例如关闭的光脉冲成像)随时间分析反射光束的强度间接地确定从捕获设备100到目标或对象上的位置的物理距离。

在另一示例中，捕获设备100可以使用结构化光捕获深度信息。在这样的技术中，可以使用发射器304将图案化光(例如，显示为已知图案(诸如网格图案或者条纹图案)的光)投影到场景上。一旦撞击到场景中的一个或多个目标或者对象的表面，则图案变为变形的。图案的这样的变形可以通过深度照相机302捕获并且然后被分析以确定从捕获设备100到场景中的目标或对象上的位置的物理距离。

在另一示例中，深度照相机302可以以从不同的角度观看场景的两个或两个以上物理分离的照相机的形式，使得获得可以被解析以生成深度信息的视觉立体数据。在这种情况下，发射器304可以被用于照射场景或者可以被省略。

在一些示例中，除了深度照相机302之外或者取代深度照相机302，捕获设备100可以包括RGB照相机306。RGB照相机306被布置为在可见光频率处捕获场景的图像的序列，并且因此可以提供可以被用于增强深度图像的图像。在一些示例中，在不需要深度照相机306的情况下，可以从RGB图像计算深度。

例如，在不使用深度照相机的情况下可以捕获RGB图像，并且可以从RGB图像计算深度以提供可以以与深度图像类似的方式使用的数据。

图3中所示的捕获设备306还包括至少一个处理器308，其与成像传感器300(即，图3的示例中的深度照相机302和RGB照相机306)和发射器304通信。处理器308可以是通用微处理器或专用信号/图像处理器。处理器308被布置为执行指令以控制成像传感器300和发射器304的来捕获深度视频和/或RGB视频。处理器308还可以可选地被布置为对这些视频执行处理，如在下文中更详细地概述的。

图3中所示的捕获设备306还包括存储器310，其被布置为存储用于由处理器308执行的指令、由深度照相机302或RGB照相机306捕获的视频或者视频帧或者任何其他适合的信息、图像等。在一些示例中，存储器310可以包括随机存取存储器(RAM)、只读存储器(ROM)、缓存、闪速存储器、硬盘或者任何其他适合的存储部件。存储器310可以是分离的部件，其与处理器308通信或者被集成到处理器308中。

捕获设备100还包括输出接口312，其与处理器308通信并且被布置为经由通信链路向计算设备104提供数据。通信链路可以是例如有线连接(诸如USB^TM、Firewire^TM、Ethernet^TM或类似)和/或无线设备(诸如WiFi^TM、Bluetooth^TM或类似)。在其他示例中，输出接口312可以与一个或多个通信网络(诸如因特网)接口并且经由这些网络向计算设备104提供数据。

图4是图1的视频的帧400和预处理该帧的结果410以及预处理装置118的示意图。视频400的帧描绘了在该示例中稍微离开中心并且在距捕获设备任意深度处的人。预处理装置118可选地执行图像修复402、执行前景提取404、居中406，并且在深度信息可用的情况下，将前景映射到典型深度。以这种方式，可以比预处理未发生的情况下更简单地做出经预处理的视频的帧之间的比较。使用其中前景包括具有丢失或错误的深度值(例如由于噪声)的图像元素的图像修复402。在使用深度视频照相机的情况下，这是特别有用的。图像修复可以包括利用根据丢失的图像元素的最近邻居或以其他众所周知的方式计算的值填满丢失的图像元素值。

可以使用深度数据(在深度数据可用的情况下)，例如，使用跟随有测地线细化阶段的深度的高斯模型执行前景提取404。深度的高斯模型可以包括拟合在帧中所观察的深度的直方图的高斯混合模型。在示例中，第一高斯模式被认为是对应于前景。然而，可以使用其他模式或者模式的组合。测地线细化阶段可以包括将具有落在最频繁的深度范围中的深度值的图像像素用作种子区域并且计算每个其他图像像素距种子区域的测地线距离。然后，测地线距离可以被用于使用阈值化来改善前景区域。

在使用颜色视频的情况下，可以通过使用颜色数据、通过标识图像中的边缘或者以其他方式实现前景提取404。

居中过程406可以包括使用模板匹配检测帧中所描绘的人的头部或其他指定身体部分。一旦被检测到，则该身体部分可以集中在经预处理的图像410中并且缩放或映射408到典型深度(在包含深度帧的情况下)。在其他示例中，居中过程包括计算前景区域的质心并且将质心与经预处理的图像的中心对准。在使用颜色视频的情况下，身体部分被缩放到指定大小而不是映射到典型深度。

如上文所提到的，机器学习系统被训练以找到位置相关局部运动特征，其是运动任务类别的好的鉴别器。使用运动任务的标记视频500训练机器学习系统。该标记指示所描绘的运动任务落到哪一个类别中。例如，可以人类裁判分配标记。标记的视频可以具有不同的长度。使用上文所描述的预处理装置118对标记的视频进行预处理以产生训练数据502。从训练数据视频计算504运动描述符，并且训练器506使用运动描述符以产生经训练的机器学习系统508。例如，经训练的机器学习系统包括随机决策森林、随机化支持向量机的集合、神经网络或者增强系统。

计算运动描述符504的过程可以包括从视频中的一个(从训练数据502)选择成对视频帧510并且计算指示视频成对帧之间的图像元素的运动(或这些数量中的改变)的大小和/或方向的运动描述符(否则被称为“成对分析”)。成对帧可以是两个连续帧。例如，可以针对训练视频中的每对连续帧计算运动描述符并且将运运描述符输入到训练器。在示例中，运动描述符504包括光流值。光流值是描绘视频成对帧中的相同场景元素的图像元素的垂直和水平位移值。已经发现将光流值用作运动描述符以给定鲁棒的准确的结果。在另一示例中，运动描述符504包括视频成对帧之间的身体关节位置的位移。在另一示例中，运动描述符504包括视频成对帧之间的身体部分重心的位移。在另一示例中，运动描述符包括一个帧的前景区域与另一帧的前景区域之间的非重叠的区域。

在图5的示例中，在对训练器的输入开始前计算运动描述符。这可以在测试时间完成。在视频长并且图像尺寸较大的情况下，待计算的运动描述符的数目可能非常大(例如，对于连续帧的所有对而言)，并且因此其对于预计算运动描述符可以是有益的。然而，将运动描述符计算为训练和/或测试阶段的一部分也是可能的。测试阶段是何时经训练的机器学习系统被使用在先前未看到的视频上(即，尚未呈现给机器学习系统的视频)。

在一些示例中，机器学习系统包括随机决策森林。随机决策森林包括各自具有根节点、多个分裂节点和多个叶节点的一个或多个决策树。视频通过随机决策森林的树被从根部推送到过程中的叶节点，由此在每个分裂节点做出决定。分裂。根据如下文更详细地描述的位置相关局部运动特征做出决策。在分裂节点处，视频根据决策的结果沿着所选择的分支向下转到下一级树()。随机决策森林可以使用如下文更详细地描述的回归或分类。在训练期间，参数值(其指定位置相关局部运动特征)被学习以在分裂节点处使用，并且数据(标记的视频)被积累在叶节点处。积累在叶节点处的视频的标签可以被存储为直方图或以总计的方式(诸如使用平均值或中值或模式)或通过将概率分布拟合到直方图并且存储描述概率分布的统计。

在测试时间处，先前未看到的视频被输入到系统以预测一个或多个运动任务类别。参考图8描述这一点。

参考图6，为了训练决策树，首先接收600上文所描述的训练集。选择602在随机决策森林中待使用的决策树的数目。随机决策森林是确定性决策树的集合。决策树可以被使用在分类或回归算法中，但是可能存在过拟合(即，不佳的一般化)的问题。然而，许多随机训练的决策树(随机森林)的集合产生经改进的一般化。在训练过程期间，树的数量是固定的。

在图7中图示示出了示例随机决策森林。图7的说明性决策森林包括三个决策树：第一树700；第二树702；和第三树704。每个决策树包括根节点(例如，第一决策树700的根节点706)、多个内部节点、被称为分裂节点(例如，第一决策树700的分裂节点708)和多个叶节点(例如，第一决策树700的叶节点710)。

选择604来自决策森林的决策树(例如，第一决策树600)，并且选择606根节点606。然后，测试参数的随机集合被生成610以用于由在根节点处所执行的二叉测试用作候选特征。在本文所描述的示例中，使用位置相关局部运动特征。随机地选择视频内、帧内的2D中以及和/或帧序列内的时间中的位置。从多个不同的类型的特征随机地生成特征。例如，使用与视频的子体有关的以下四个类型的特征。视频的子体可以是选择视频中的空间时间窗口的立方体。子体可以由符号B表示并且可以由第一帧内的2D水平和垂直图像坐标和第二帧内的2D水平和垂直图像坐标指定，其中指定第一帧与第二帧之间的帧数。例如，B＝(x₁，y₁，x₂，y₂，T′₁，T′₂)。然而，使用立方体形状的子体不是必要的。还可以使用子体的其他3D形状体。

第一类型的特征是单个子体的函数。第一类型的特征的示例由以下表示

f(d₁，B₁)可以以文字被表达为指示在子体B1内计算的局部运动特征的类型的参数d1的函数。以下给定关于可以使用的示例函数f的更多细节。

第二类型的特征是两个子体的函数。特征的第二类型的示例由以下表示

f(d₁，B₁)+f(d₂，B₂)，其可以以文字被表达为以下各项的和：指示在子体B1内计算的局部运动特征的类型的参数d1的函数；和指示在子体B1内计算的局部运动特征的类型的参数d1的函数。

第三类型的特征是两个子体的函数。第三类型的特征的示例由以下表示

f(d₁，B₁)-f(d₂，B₂)，其可以以文字被表达为以下各项的差：指示在子体B1内计算的局部运动特征的类型的参数d1的函数；和指示在子体B1内计算的局部运动特征的类型的参数d1的函数。

第四类型的特征是两个子体的函数。第四类型的特征的示例由以下表示

|f(d₁，B₁)-f(d₂，B₂)|，其可以以字被表达为以下各项的绝对差：指示在子体B1内计算的局部运动特征的类型的参数d1的函数；和指示在子体B1内计算的局部运动特征的类型的参数d1的函数。

可以通过聚集局部运动特征(诸如加速度或速度特征)计算函数f。现在给定计算加速度特征的示例。

其中T(B)是子体的帧数并且符号是可以被计算为下面被解释用于子体(或者这些位置的子集)中的每个图像元素位置的所估计的加速度特征(局部运动特征的示例)。以上函数可以以文字被表达为给定局部运动特征类型的函数，并且给定子体被计算为子体的每个帧的加速度特征每体的平均值。

所估计的加速度特征可以通过计数光流向量改变方向的变化率的次数的数量来计算，但是忽略其中光流向量的大小非常小的方向的改变(通过使用Heaviside阶跃函数或阈值或以其他方式)。

在另一示例中，可以使用所估计的速度特征代替上文所估计的加速度特征。例如，通过对光流向量改变方向的次数进行计数而不是考虑光流向量的变化率。

在图6的步骤610中，生成610随机测试参数组以供在分裂节点处所执行的二叉测试用作为候选特征。在示例中，这些参数可以包括子体的参数(即，指定待使用的子体的位置和持续时间)、阈值参数(用于在二叉测试中比较特征)、参数d其指示要计算的局部运动特征的类型(例如，x方向上的速度、y方向上的速度、x方向上的加速度、y方向上的加速度)和选择以上四个(或者其他数目的)特征之一的变量k。

然后，测试参数的每个组合可以被应用612到已经到达当前节点的每个视频。对于每个组合而言，计算614准则(还被称为目标)。在示例中，所计算的准则包括信息增益(还被称为相对熵)。优化准则(诸如最大化信息增益)的参数的组合被选择614并且被存储在当前节点处以用于将来使用。作为信息增益的备选方案，可以使用其他准则(诸如Gini熵或“two-ing”准则或其他)。

然后，确定616针对所计算的准则的值是否小于(或大于)阈值。如果针对所计算的准则的值小于阈值，那么这指示树的进一步的扩展未提供足够的益处。这引起当没有进一步的节点有益时自然地停止增长的非对称树。在这样的情况下，当前节点被设定618为叶节点。类似地，确定树的当前深度(即，多少节点的层在根节点与当前节点之间)。如果这大于预定义最大值，那么当前节点被设定618为叶节点。每个叶节点已经标记在如下面所描述的训练过程期间在该叶节点处累积的视频。

使用与已经提到的那些停止准则组合的另一停止准则也是可能的。例如，评估到达节点的视频数。如果存在太少示例(例如，与阈值相比较)，那么过程可以被布置为停止避免过拟合。然而，使用该停止准则不是必要的。

如果针对所计算的准则的值大于或等于阈值，并且树深度小于最大值，那么当前节点被设定620为分裂节点。当当前节点是分裂节点时，其具有子节点，并且过程然后移动以训练这些子节点。使用当前节点处的训练视频的子集对每个子节点进行训练。使用优化准则的参数确定发送到子节点的视频的子集。这些参数被使用在二叉测试中，并且对当前节点处的所有视频执行622二叉测试。通过二叉测试的视频形成发送到第一子节点的第一子集，并且未能进行二叉测试的图像元素形成发送到第二子节点的第二子集。

对于子节点中的每个子节点而言，针对引导到相应的子节点的视频的子集递归地执行624图6的如框610到622中所概括的过程。换句话说，对于每个子节点而言，新随机测试参数被生成610、应用612到视频的相应的子集、优化所选择614的准则的参数和所确定616的节点(分裂或叶)的类型。如果其是叶节点，那么递归的当前分支停止。如果其是分裂节点，则二叉测试被执行622以确定视频的进一步的子集和递归开始的另一分支。因此，该过程递归地移动通过树，训练每个节点直到在每个分支处到达叶节点。当到达叶节点时，过程等待626直到所有分支中的节点已经被训练。注意，在其他示例中，可以使用替代技术递归以达到相同功能性。

一旦树中的所有节点已经被训练为确定优化每个分裂节点处的准则的二叉测试的参数，并且叶节点已经被选择为终止每个分支，那么在树的叶节点处视频标记可以被累积628。可以使用各种不同的方法存储630积累的视频标记的表示。

一旦积累的标记已经被存储，则确定632更多树是否存在于决策森林中。如果是的话，则选择决策树中的下一树，并且过程重复。如果森林中的所有树已经被训练，并且没有其他保持，那么训练过程是完整的，并且过程终止634。

因此，作为训练过程的结果，使用经验主义的训练视频训练一个或多个决策树。每个树包括存储优化的测试参数的多个分裂节点和存储相关联的标记的视频或聚集的视频标记的表示的叶节点。由于来自使用在每个节点处的有限子集的参数的随机生成，森林的树是彼此不同的(即，不相同的)。

可以在使用经训练的预测系统标识视频中的运动任务类别之前执行训练过程。决策森林和优化的测试参数可以被存储在存储设备上以用于稍后的标识运动任务类别。

图8图示了使用如上面描述的已经训练的决策森林在先前未看到的视频中预测运动任务类别的过程的流程图。首先，接收800未看到的视频。视频被称为“未看到”以将其与使运动任务类别指定的训练数据区分。参考图4，注意，可以未看到的视频被预处理到一定程度，如上文所描述的。

计算802光流或其他运动描述符。还选择804来自决策树的经训练的决策树。通过所选择的决策树(以与参考图6和图7上文所描述的方式类似的方式)推送806所选择的视频，使得其对节点处的经训练的参数进行测试，并且然后依据测试的结果被传递到适当的孩子，并且过程重复直到视频到达叶节点。一旦视频到达叶节点，则累积的与该叶节点相关联的标记被存储808用于该视频。

如果确定810在森林中存在更多决策树，那么选择804新决策树，并且通过树推送806视频并且存储808累积的标记。这样重复直到其已经针对森林中的所有决策树被执行。注意，通过决策森林中的多个树推送视频的过程还可以并行的而不是按图8中所示顺序的执行。

通过平均或以其他方式聚合814来自索引的叶节点的数据。例如，在类别标记的直方图被存储在叶节点处的情况下，来自索引的叶节点的直方图被组合并且被用于标识与视频相关联的一个或多个运动任务。过程输出816至少一个运动任务类别作为结果，并且能够输出运动任务类别的置信加权。这有助于任何后续的算法评估建议是否是好的。可以输出超过一个运动类别；例如，在存在不确定性的情况下。

在另一示例中，机器学习系统包括支持向量机的集合。支持向量机是非概率的二叉分类器，其使用特征空间中的超平面实现分类。

在示例中，支持向量机与随机决策森林(诸如参考图6至图8的上文所描述的随机决策森林)的分裂节点相关联(或者替换)。支持向量机将已经到达相应的分裂节点的训练视频当作输入。这些输入训练视频形成其特征空间并且其计算一个或多个超平面以做出特征空间的二叉分类。以这种方式，支持向量机被用于做出二叉决策而不是评估信息增益或者针对随机决策树的如上文所描述的其他准则。以这种方式，用于训练随机决策森林的图6的过程可以适于通过使用每个分裂节点处的支持向量机训练支持向量机的集合。使用分裂节点(随机决策分裂节点或者支持向量机分裂节点)的类型的混合也是可能的。可以通过修改图8的过程在测试时间使用所得的支持向量机的集合或者支持向量机/随机决策节点的混合。以这种方式，以实际的方式针对包含极其高并且可变数量的维度的任务的支持向量机技术是可能的。在实际的时间标度中实现训练，因为每个支持向量机仅接收通过二叉叉树结构到达其的训练视频并且因此其特征空间是有限的。

现在，给定在其中使用随机化支持向量机的集合的另一示例。为了训练随机化支持向量机的集合，从每个标记的训练视频计算固定长度的特征向量。固定长度的特征向量包括视频的多个位置相关局部运动特征。例如，可以使用在关于随机决策森林的描述中的上文所描述的四个特征中的一个或多个的任何组合(但是可以使用其他特征)。通过创建固定大小特征描述符(诸如向量或者列表)，所得系统是独立于视频长度可操作的。这在不损耗视频中的运动特点的情况下实现；与时间归一化技术相反。

随机地选择每个特征描述符中的特征。特征描述符定义其中支持向量机执行学习的特征空间。在示例中，集合的单独支持向量机被训练以找到最大化在不同的类别中所标记的训练视频的样本之间的裕度的超平面。以这种方式，对支持向量机中的每个支持向量机进行训练。可以通过修改图8的过程在测试时间使用所得的随机化支持向量机的集合。

在上文所描述的示例中，机器学习系统将运动任务的视频分类为类别或评级。然而，对于机器学习系统而言使用回归而不是分类使得从与分立的类别标记相反的经训练的机器学习系统获得连续的值输出也是可能的。例如，这些连续的值输出可以是运动任务评估标度上的数值。

图9图示了可以被实现为计算和/或电子设备的任何形式并且在其中可以实现运动任务分类系统的实施例的示例性的基于计算的设备104的各种部件。

基于计算的设备104包括一个或多个处理器900，其可以是微处理器、控制器、图形处理单元、并行处理单元或用于处理计算可执行指令以控制设备的操作类别的任何其他适合的类型的处理器以便预测视频中的运动任务类别。在一些示例中，例如在使用片上系统架构的情况下，处理器900可以包括以硬件(而不是软件或固件)实现运动任务分类的方法的一部分的一个或多个固定功能块(还被称为加速度计)。

基于计算的设备104包括一个或多个输入接口902，其被布置为接收并且处理来自一个或多个设备(诸如用户输入设备(例如，捕获设备100、键盘906和/或鼠标908)的输入。该用户输入可以被用于控制在计算设备104上执行的软件应用。

基于计算的设备104还包括输出接口910，其被布置为将显示信息输出给可以与计算设备104分离或集成的显示设备924。例如，利用叠加的运动任务分类数据显示视频。显示信息可以提供图形用户接口。在示例中，如果其是触敏显示设备，则显示设备924还可以充当用户输入设备。输出接口还可以将数据输出到除显示设备外的设备(例如，本地连接打印设备)。

可以使用由基于计算的设备104可访问的任何计算机可读介质提供计算机可执行指令。计算机可读介质可以包括例如计算机存储介质1212(诸如存储器和通信介质)。计算机存储介质1212(诸如存储器912)包括在任何方法或技术中实现的易失性和非易失性、可移除和不可移除介质以用于信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的存储。计算机存储介质包括，但不限于，RAM、ROM、EPROM、EEPROM、闪速存储器或其他存储器技术、CD-ROM、数字多用光盘(DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备或可以被用于存储信息以用于由计算设备访问的任何其他非传输介质。相反，通信介质可以实现计算机可读指令、数据结构、程序模块、调制数据信号(诸如载波或其他传输机制)中的其他数据。如本文所定义的，计算机存储介质不包括通信介质。因此，计算机存储介质不应当被解释为是传播信号自身。传播信号可以存在于计算机存储介质中，但是传播信号自身不是计算机存储介质的示例。虽然计算机存储介质(存储器912)被示出在基于计算的设备104内，但是应理解为，可以经由网络或其他通信链路(例如，使用通信接口913)分布或远程定位并且访问存储。

包括操作系统914的平台软件或任何其他适合的平台软件可以被提供在计算设备104处以使得应用软件916能够被执行在设备上。可以在计算设备104上执行的其他软件包括：训练逻辑918(参见例如图6至图7和以上描述)；预测逻辑920(参见例如图8和以上描述)。数据存储922被提供以存储数据(诸如先前所接收到的视频)；中间函数结果；树训练参数、概率分布、分类标记、回归目标、分类目标和其他数据。

输入接口902、输出接口910、显示设备924和用户输入设备906、908中的任一个可以包括NUI技术，其使得用户能够以自然的方式与基于计算的设备相互作用、免于由输入设备(诸如鼠标、键盘、遥控器等)强加的人工约束。可以提供的NUI技术的示例包括但不限于依赖于语音和/或语言识别、触摸和/或触笔识别(触敏显示器)、屏幕上和屏幕附近二者的手势识别、空中手势、头部和眼睛跟踪、语音和语言、视觉、触摸、手势和机器智能的那些NUI技术。可以使用的NUI技术的其他示例包括意图和目标理解系统、使用深度照相机的运动手势检测系统(诸如立体照相机系统、红外照相机系统、rgb照相机系统和这些的组合)、使用加速度计/陀螺仪的运动手势检测、面部识别、3D显示、头部、眼睛和视线跟踪、用于使用电场感测电极的沉浸式增强现实和虚拟现实系统和技术(EEG和相关方法)。

在示例中，提供了一种计算机实现的方法，包括：

接收描绘执行运动任务的人或动物的至少一部分的视频；

将视频输入到经训练的机器学习系统，其已经被训练以找到视频的在运动任务的多个类别之间进行区分的位置相关局部运动特征；

从经训练的机器学习系统接收关于运动任务被预测为属于多个类别中的哪一个的数据。

以这种方式，可以以自动化并且因此客观的准确的可重复的方式分析和评估由人所执行的运动任务。

在示例中，局部运动特征包括速度或加速度特征。这些类型的特征可以准确并且高效地计算并且可以在机器学习训练和测试阶段之前计算。这改进从机器学习系统获得的运动任务数据的质量和获得该数据的速度。

在示例中，以上方法包括对视频成对帧、运动描述符进行计算，并且其中将视频输入到经训练的机器学习系统包括输入运动描述符。

例如，运动描述符是光流值。在使用光流值的情况下，所得系统被发现对于视频中的噪声或误差是非常鲁棒的。

在一些示例中，以上方法包括在机器学习系统中使用多个运动描述符计算局部运动特征。例如，通过考虑视频的至少一个子体中的运动描述符。例如，通过考虑视频的两个子体中的运动描述符计算局部运动特征。例如，通过考虑视频的子体中的运动描述符之间的差计算局部运动特征。在这些方式中使用视频的子体被发现在运动任务类别之间进行区分是特别有效的。

一些示例包括通过考虑视频的子体的光流值的变化率的方向的改变的频率计算加速度特征。使用定向的加速度特征被发现在区分运动任务类别中是非常有效的。

一些示例包括忽视光流值的变化率的方向的改变，其中光流的幅度低于阈值。这帮助在归因于噪声的运动与人的实际运动之间进行区分。

一些示例包括在将视频输入到经训练的机器学习系统之前通过缩放、集中和执行前景提取对视频进行预处理。这简化在测试时间经训练的机器学习系统的使用并且降低测试时间处理持续时间。

在示例中，视频具有任何长度，并且以考虑视频的长度的方式计算局部运动特征。在运动任务展示个人之间的持续时间中的大变化性的情况下，这是非常有用的。

示例包括使用执行运动任务的人的视频训练机器学习系统，其中视频被标记有指示运动任务属于多个可能类别中的哪一个的标记，并且其中视频具有不同的长度。

以上示例可以包括将视频输入到经训练的机器学习系统，包括以下各项中的任一项：随机决策森林、有向无环图的丛林和支持向量机的集合。

一些示例包括将视频输入到包括支持向量机的集合的经训练的机器学习系统，每个支持向量机是二叉决策树的分裂节点。不管视频数据的高和可变数量的维度这给定使用支持向量机的实际的方式。

一些示例包括将视频输入到包括支持向量机的集合的经训练的机器学习系统，所述支持向量机的个体支持向量机已经使用包括根据标记的训练视频计算的随机化位置相关局部运动特征的固定长度特征描述符训练。所得的支持向量机的集合可以被称为随机化的支持向量机的集合。

另一示例提供运动任务分类器，包括：

存储器，其存储描绘执行运动任务的人或动物的至少一部分的视频；

经训练的机器学习系统，其已经被训练以找到视频的在运动任务的多个类别之间进行区分的位置相关局部运动特征；以及

处理器，其被布置为根据视频计算运动描述符，将运动描述符应用到经训练的机器学习系统，并且在响应中接收关于运动任务被预测为属于多个类别中的哪一个类别的数据。

术语“计算机”或“基于计算的设备”在本文中被用于指代具有处理能力的任何设备，使得其可以执行指令。本领域的技术人员将认识到，这样的处理能力被包含到许多不同的设备中并且因此术语“计算机”和“基于计算的设备”各自包括PC、服务器、移动电话(包括智能电话)、平板计算机、机顶盒、媒体播放器、游戏控制台、个人数字助理和许多其他设备。

本文所描述的方法可以由以有形存储介质上的机器可读形式(例如，以包括适于当程序被运行在计算机上时并且在计算机程序可以被实现在计算机可读介质上的情况下执行本文所描述的方法中的任一个的所有步骤的计算机程序代码装置的计算机程序的形式)的软件执行。有形存储介质的示例包括包括计算机可读介质(诸如磁盘、拇指驱动器、存储器等)的计算机存储设备并且不包括传播信号。传播信号可以存在于有形存储介质中，但是传播信号自身不是有形存储介质的示例。软件可以适于在并行处理器或串行处理器上执行，使得可以以任何适合的顺序或同时地执行方法步骤。

这确认软件可以是有价值的可分离地交易的商品。其旨在涵盖在“无声”或标准硬件上运行或控制“无声”或标准硬件以执行期望功能的软件。其还旨在涵盖“描述”或定义硬件的配置的软件(诸如HDL(硬件描述语言)软件)，如被用于设计硅片或用于将通用可编程芯片配置为执行期望功能。

本领域的技术人员将认识到，存储程序指令利用的存储设备可以跨越网络分布。例如，远程计算机可以存储被描述为软件的过程的示例。局部或终端计算机可以访问远程计算机并且下载软件的一部分或全部来运行程序。备选地，本地计算机可以根据需要下载软件的部分，或者在本地终端处执行一些软件指令或在远程计算机(或计算机网络)处执行一些软件指令。本领域的技术人员还将认识到，通过利用本领域的技术人员已知的常规技术，可以通过专用电路(诸如DSP、可编程逻辑阵列等)执行软件指令的全部或一部分。

在不损失寻求效果的情况下，可以延伸或更改本文给定的任何范围或值，如对于技术人员而言将是显而易见的。

虽然已经以特定于结构特征和/或方法动作的语言描述了主题，但是应理解到，所附权利要求中定义的主题不必限于上文所描述的特定特征或动作。而是，上文所描述的特定特征和动作被公开为实现权利要求的示例形式。

将理解到，上文所描述的益处和优点可以涉及一个实施例或可以涉及若干实施例。实施例不限于解决所描述问题中的任何或全部问题的那些实施例或具有所描述益处和优点中的任何或全部的那些实施例。将进一步理解到，对“一个”项的引用指代那些项中的一个或多个。

可以以任何适合的顺序或同时在适当的情况下执行本文所描述的方法的步骤。此外，在不脱离本文所描述的主题的精神和范围的情况下，可以从方法中的任一个删除单个框。上文所描述的示例中的任一个示例的方面可以与所描述的其他示例中的任一个示例的方面组合以在不损失寻求效果的情况下形成进一步的示例。

术语“包括”在本文中被用于意指包括所标识的方法框或元件，但是这样的框或元件不包括排他性列表并且方法或放置可以包含附加框或元件。

术语“子集”在本文中被用于指代适当的子集，使得集合的子集不包括集合的所有元素(即，集合的元素中的至少一个将从子集丢失)。

将理解到，仅通过示例的方式给出以上描述并且可以通过本领域的技术人员做出各种修改。以上说明书、示例和数据提供示例性实施例的结构和使用的完整描述。虽然上文已经以一定程度上的特殊性或者参考一个或多个单独实施例描述各种实施例，但是在不脱离本说明书的精神或范围的情况下，本领域的技术人员可以对所公开的实施例做出很多变型。

Claims

1.一种计算机实现的方法，包括：

接收描绘执行运动任务的人或动物的至少一部分的视频；

将所述视频输入到经训练的机器学习系统，所述机器学习系统已经被训练以找到视频的在所述运动任务的多个类别之间进行区分的位置相关局部运动特征；

从所述经训练的机器学习系统接收与所述运动任务被预测为属于所述多个类别中的哪一个类别有关的数据。

2.根据权利要求1所述的方法，其中所述局部运动特征包括速度或加速度特征。

3.根据权利要求1所述的方法，包括针对所述视频的成对帧计算运动描述符，并且其中将所述视频输入到所述经训练的机器学习系统包括输入所述运动描述符。

4.根据权利要求3所述的方法，其中所述运动描述符是光流值。

5.根据权利要求3所述的方法，包括在所述机器学习系统处使用多个所述运动描述符计算所述局部运动特征。

6.根据权利要求3所述的方法，包括通过考虑所述视频的至少一个子体中的运动描述符来计算所述局部运动特征。

7.根据权利要求3所述的方法，包括通过考虑所述视频的两个子体中的运动描述符来计算所述局部运动特征。

8.根据权利要求7所述的方法，包括通过考虑所述视频的所述子体中的运动描述符之间的差异来计算所述局部运动特征。

9.根据权利要求2所述的方法，包括通过考虑所述视频的子体的所述光流值的变化率的方向的改变的频率来计算所述加速度特征。

10.根据权利要求9所述的方法，包括忽视所述光流值的所述变化率的方向的改变，其中所述光流的幅度低于阈值。

11.根据权利要求1所述的方法，其中所述视频具有任何长度，并且所述局部运动特征以考虑所述视频的所述长度的方式而被计算。

12.根据权利要求1所述的方法，包括使用执行运动任务的人的视频来训练所述机器学习系统，其中所述视频被标记有指示所述运动任务属于多个可能类别中的哪一个类别的标记，并且其中所述视频具有不同的长度。

13.根据权利要求1所述的方法，包括：将所述视频输入到包括支持向量机的集合的经训练的机器学习系统，每个支持向量机是二叉决策树的分裂节点。

14.根据权利要求1所述的方法，包括：将所述视频输入到包括支持向量机的集合的经训练的机器学习系统，所述支持向量机中的单个支持向量机已经使用包括从被标记的训练视频计算出的随机化位置相关局部运动特征的固定长度特征描述符而被训练。

15.一种运动任务分类器，包括：

存储器，存储描绘执行运动任务的人或动物的至少一部分的视频；

经训练的机器学习系统，已经被训练以找到视频的在所述运动任务的多个类别之间进行区分的位置相关局部运动特征；以及

处理器，被布置为从所述视频计算运动描述符，将所述运动描述符应用到所述经训练的机器学习系统，并且作为响应接收与所述运动任务被预测为属于所述多个类别中的哪一个类别有关的数据。