CN106462747B

CN106462747B - 活动识别系统和方法

Info

Publication number: CN106462747B
Application number: CN201580033101.1A
Authority: CN
Inventors: 卡米尔·努克; 尼古拉斯·J·威彻
Original assignee: Nant Holdings IP LLC
Current assignee: Nant Holdings IP LLC
Priority date: 2014-06-17
Filing date: 2015-06-17
Publication date: 2020-03-17
Anticipated expiration: 2035-06-17
Also published as: US10572724B2; WO2015195765A1; US10216984B2; US20170091537A1; US9547678B2; JP2018198081A; US20200193151A1; US11837027B2; JP2017525070A; CN106462747A; US20190213404A1; US9886625B2; US20180144186A1; US20220108105A1; JP6388356B2; US20240062587A1; US11232292B2; US20150363644A1

Abstract

公开了一种活动识别系统。使用特征检测算法从观察活动的数字表示生成多个时间特征。建立包括从数字表示生成的时间特征的一个或多个集群的观察活动图，其中，所述时间特征的一个或多个集群中的每一个定义观察活动图的节点。从用于已知活动图的相似性评分技术中选择至少一个上下文相关评分技术，所述至少一个上下文相关评分技术与满足基于数字表示的装置上下文属性而定义的装置上下文准则的活动摄取元数据相关联，并且根据所述至少一个上下文相关评分技术而针对观察活动图来计算相似性活动分数，该相似性活动分数是相对于至少一个已知活动图。

Description

活动识别系统和方法

相关申请的交叉引用

本申请要求2014年6月17日提交的美国临时申请号62/013,508的权益。该申请的全部内容被通过引用结合到本文中。

技术领域

本公开一般地涉及活动识别技术。

背景技术

背景描述包括在理解本发明时可能有用的信息。并不承认在本文中提供的任何信息是现有技术或与当前要求保护的发明有关，或者具体地或隐含地提及的任何公开是现有技术。

识别观察到的活动(诸如在视频数据中表示的活动)是非常复杂的任务。已知技术未能获得市场渗透，尤其是相对于消费者交互。某些努力已经指向识别相对于网络交互的用户活动，如由授予Qin等人的2012年11月28日提交的题为“Method and System forMeasuring Social Influence and Receptivity of Users”的美国专利申请公开2014/0149418举例说明的。然而，由Qin公开的技术不适用于识别观察到的活动。

其它努力集中于使用有向图进行活动识别。在以下论文中描述了此类技术的示例：Zhang等人在Proceedings ofEuropean Conference on Computer Vision(ECCV),2012中的“Graph Degree Linkage:Agglomerative Clustering on a Directed Graph”(“Zhang 2012”)；Wang等人在CVPR 2011-IEEE Conference on Computer Vision&PatternRecognition(2011)中的“Action Recognition by Dense Trajectories”(“Wang 2011”)；以及Wang等人在2013 IEEE International Conference on Computer Vision(ICCV)中的“Directed Acyclic Graph Kernels for Action Recognition”(“Wang 2013”)。

以上方法确实涉及通过使用专用图来识别观察到的活动。例如，Wang 2013提供了用于通过使用有向无环图(DAG)来识别活动的基础。然而，这种方法所需的计算时间对于在消费者装置应用中使用(诸如供在相机、蜂窝电话、平板计算机、玩具、运载工具及其它消费者装置中使用)而言是不容许的。

发明内容

消费者当前缺乏对允许他们经由装置(例如，蜂窝电话)来观看诸如体育事件或独舞表演之类的活动、自动地识别该活动并促使装置基于所识别活动而发起动作的应用程序的访问。此外，当前方法未能虑及可能对识别活动有影响的上下文情况。例如，Wang 2013方法缺少辨别舞蹈和打斗的上下文分辨能力。因此，仍需要对观察上下文敏感的成本有效的活动识别。

本发明主题提供了其中可以通过使用应用于已知活动图的上下文评分技术来经由装置识别活动的设备、系统和方法。在实施例中，使用特征检测算法从观察到的活动的数字表示生成多个时间特征。该数字表示可以包括图像数据、视频数据、音频数据、触觉数据、动觉数据、温度数据、动态数据和无线电信号数据中的一个或多个。建立包括从数字表示生成的时间特征的一个或多个集群的观察活动图，其中，所述时间特征的一个或多个集群中的每一个定义观察活动图的节点。观察活动图的节点可以包括特征轨迹的集群。从用于已知活动图的相似性评分技术中选择至少一个上下文相关评分技术，所述至少一个上下文相关评分技术与满足基于数字表示的装置上下文属性而定义的装置上下文准则的活动摄取元数据相关联，并且根据所述至少一个上下文相关评分技术而针对观察活动图来计算相似性活动分数，该相似性活动分数是相对于至少一个已知活动图。相似性评分技术可以包括以下各项中的至少一个：欧几里德距离、线性核、多项式核、卡方核、柯西核、直方图交叉核、Hellinger核、Jensen-Shannon核、双曲线正切(Σ)核、二次有理核、复二次核、逆复二次核、圆形核、球形核、波核、幂核、对数核、样条核、贝塞尔核、广义化T-Student核、贝叶斯核、小波核、径向基函数(RBF)、指数核、拉普拉斯核、ANOVA核和B样条核函数。可以基于相似性活动分数来生成活动识别结果集。

在某些实施例中，所述已知活动图和观察活动图可以包括有向无环图。

在某些实施例中，可以作为已知活动图内的节点和观察活动图内的节点的函数来计算相似性活动分数。

在某些实施例中，所述装置上下文属性和所述活动摄取元数据可以附着于公共命名空间。

在某些实施例中，所述活动摄取元数据可以包括特定领域属性、对象属性或者位置属性、时间属性、位置属性和取向属性中的至少一个。

在某些实施例中，所述特征检测算法可以包括以下各项中的至少一个：尺度不变特征变换(SIFT)、快速视网膜关键点(FREAK)、方向梯度直方图(HOG)、加速鲁棒特征(SURF)、DAISY、二进制鲁棒不变尺度关键点(BRISK)、FAST、二进制鲁棒独立基本特征(BRIEF)、Harris角、边、梯度位置方向直方图(GLOH)、图像能量梯度(EOG)或变换不变低秩纹理(TILT)特征检测算法。

在某些实施例中，所述已知活动图可以包括活动图原语。活动图原语可以包括以下各项中的至少一个：对象持久性、对象变换、对象间守恒交互、对象分段、对象创建、对象销毁和对象NULL交互。

在某些实施例中，所述已知活动图可以包括包含其它已知活动图的节点。

在某些实施例中，该已知活动图可以包括关键帧。

在某些实施例中，可以向观察活动图分配分级，其中，所述分类包括活动识别结果集。

在某些实施例中，所述活动识别结果集可以包括相对于观察活动图的活动预测。

在某些实施例中，活动识别结果集包括以下各项中的至少一个：地址、活动标识符、搜索结果、推荐、异常、警告、分段、命令、排序、上下文相关信息、内容信息、促销和广告。

在某些实施例中，可以通过将图像特征映射到已知活动图中的至少一个的节点来建立来自数字表示的静态图像到已知活动图中的所述至少一个的图空间中的映射。

在某些实施例中，可以基于已知活动图中的所述至少一个的节点和映射来生成动作预测。

在某些实施例中，所述相似性评分技术可以包括基于节点上下文的权值的至少一个集合，并且基于节点上下文的权值的所述至少一个集合可以包括节点权值的矩阵。

根据优选实施例的以下详细描述以及其中相同附图标记表示相同部件的附图，本发明主题的各种目的、特征、方面和优点将变得更加显而易见。

附图说明

图1A是根据实施例的用于活动识别的摄取过程的示意性概览；

图1B图示出根据实施例的用于活动识别的摄取过程的示例性操作的流程图；

图2是根据实施例的活动识别系统的示意性概览；

图3图示出根据实施例的活动识别系统的示例性操作的流程图；

图4图示出可以被用于实现各种实施例的一个或多个方面的示例性客户端-服务器关系的框图；以及

图5图示出可以被用于实现各种实施例的一个或多个方面的分布式计算机系统的框图。

虽然参考上述附图描述了本发明，但附图意图是说明性的，并且其它实施例与本发明的精神一致且在本发明的范围内。

具体实施方式

将在下文中参考附图来更全面地描述各种实施例，附图构成实施例的一部分，并且附图以图示的方式示出了实施实施例的特定示例。然而，本描述是以许多不同形式体现的，并且不应理解为局限于在本文中阐述的实施例；相反地，提供这些实施例，使得本描述将是透彻且完整的，并且将向本领域的技术人员全面地传达本发明的范围。除其它的之外，可以将本描述体现为方法或装置。因此，本文中的各种实施例中的任何一个可以采取全硬件实施例、全软件实施例或者包含软件和硬件方面的实施例的形式。因此不应在限制性意义上理解以下描述。

遍及本说明书和权利要求，以下术语取在本文中明确地关联的意义，除非上下文清楚地另外指明。

如本文所使用的短语“在一个实施例中”不一定参考同一实施例，虽然其可以这样。因此，如下所述，在不脱离本发明的精神和范围的情况下，可以容易地将本发明的各种实施例组合。

如本文所使用的术语“或”是包括性“或”算子，并且等价于“和/或”，除非上下文另外明确地规定。

术语“基于”并不是排他性的，并且基于基于并未描述的附加因素，除非上下文另外清楚地规定。

如本文所使用的，并且除非上下文另外规定，术语“被耦合到”意图包括直接耦合(其中被相互耦合的两个元件相互接触)和间接耦合(其中至少一个附加元件位于两个元件之间)两者。因此，术语“被耦合到”和“与...耦合”被以同义词方式使用。在其中两个或更多组件或装置能够交换数据的联网环境的背景下，还使用术语“耦合到”和“与...耦合”来意指“与...通信耦合”，可能经由一个或多个中间装置。

另外，遍及本描述，“一个”、“一个”和“该”的意义包括复数参考，并且“在...中”的意义包括“在...中”和“在...上”。

以下讨论提供了本发明主题的许多示例性实施例。虽然在本文中提出的各种实施例中的某些组成发明元素的单个组合，但应认识到的是本发明的主题被认为包括公开元素的所有可能组合。同样地，如果一个实施例包括元素A、B和C，并且另一实施例包括元素B和D，则也认为本发明主题包括A、B、C或D的其它的其余组合，即使在本文中并未明确地讨论。

如在本文中的描述中和遍及随后的权利要求所使用的，当系统、引擎、服务器、装置、模块或其它计算元件被描述为被配置成对存储器中的数据执行或完成功能时，“被配置成”或“被编程为”的意义被定义为计算元件的一个或多个处理器或核被存储在计算元件的存储器中的一组软件指令编程为对存储在存储器中的目标数据或数据对象执行该组功能。

应注意的是针对计算机的任何语言应被理解成包括计算装置的任何适当组合，包括服务器、接口、系统、数据库、代理、对端、引擎、控制器、模块或者单独地或共同地操作的其它类型的计算装置结构。本领域的技术人员应认识到的是计算装置包括被配置成执行存储在有形非临时计算机可读存储介质(例如，硬驱、FPGA、PLA、固态驱动、RAM、闪存、ROM等)上的软件指令的处理器。软件指令将计算装置配置或编程为提供如下面相对于公开设备所讨论的作用、职责或其它功能。此外，可以将公开技术体现为计算机程序产品，其包括存储软件指令的非临时计算机可读介质，该软件指令促使处理器执行与基于计算机的算法、过程、方法或其它指令的实施方式相关联的公开步骤。在某些实施例中，各种服务器、系统、数据库或接口可能基于HTTP、HTTPS、AES、公钥-私钥交换、网络服务SPI、已知金融交易协议或其它电子信息交换方法使用标准化协议或算法来交换数据。装置之间的数据交换可以通过分组交换网、因特网、LAN、WAN、VPN或其它类型的分组交换网；电路交换网；小区交换网；或其它类型的网络来执行。

在本文中识别的所有出版物被通过引用结合到本文中，达到如同每个单独的出版物或专利申请被具体地且单独地指示为被通过引用结合一样的程度。在结合的参考文献中的术语的定义或使用与在本文中提供的术语的定义不一致或相反的情况下，适用在本文中提供的术语的定义，并且参考文献中的该术语的定义不适用。

以下描述包括在理解本发明时可能有用的信息。并不承认在本文中提供的任何信息是现有技术或与当前要求保护的发明有关，或者具体地或隐含地提及的任何公开是现有技术。

在某些实施例中，应将被用来描述并要求保护本发明的某些实施例的表示成分的数量、诸如浓度之类的性质、反应条件等的数字理解为在某些情况下被用术语“大约”进行修饰。因此，在某些实施例中，在编写的描述和所附权利要求中阐述的数值参数是可以根据特定实施例设法获得的期望性质而改变的近似值。在某些实施例中，应根据所报告的有效数字的数目并通过引用普通四舍五入技术来理解数值参数。尽管阐述本发明的某些实施例的宽泛范围的数值范围和参数是近似值，但在特定示例中阐述的数值值被尽可能精确地报告。在本发明的某些实施例中提出的数值值可包含必然从在其各测试测量中发现的标准偏差产生的某些误差。

除非上下文相反地规定，否则应将在本文中阐述的所有范围理解为包括其端点，并且应将开放式范围解释成仅包括商业上切合实际的值。同样地，应将所有值列表视为包括中间值，除非上下文相反地指明。

如在本描述中和遍及随后的权利要求所使用的，“一”、“一个”和“该”的意义包括复数参考，除非上下文清楚地另外规定。并且，如在本文中的描述中所使用的“在...中”的意义包括“在...中”和“在...上”，除非上下文清楚地另外规定。

本文中的值范围的叙述仅仅意图充当单独地提及落在该范围内的每个单独值的简写方法。除非在本文中另外指明，每个单独值被结合到本描述中，如同其在本文中被单独地叙述一样。可以按照任何适当的顺序来执行本文所述的所有方法，除非在本文中另外指明或者很明显与上下文矛盾。在本文中相对于某些实施例提供的任何和所有示例或示例性语言(例如“诸如”)的使用仅仅意图更好地举例说明本发明，而不对另外要求保护的本发明的范围施加限制。不应将本描述中的语言理解为指示对于本发明的实施而言必不可少的任何未要求保护要素。

不应将在本文中公开的本发明的替换元素或实施例的分组理解为限制。可以单独地或与在本文中使用的群组的其它成员或其它元素的任何组合的方式提及并要求保护每个群组成员。由于方便和/或取得专利的可能性的原因，可以将群组的一个或多个成员包括在群组中或者从群组删除一个或多个成员。当任何此类包括或删除发生时，在本文中认为本说明书将包含被修改的群组，因此满足在所附权利要求中使用的所有Markush群组的编写描述。

应认识到的是公开技术提供了许多有利技术效果，包括减少识别活动的装置上的计算开销。因此，使得计算装置能够处理数字图像数据以确定数据中的观察特征是否看起来表示已知活动。计算装置能够超过人类的能力很好地处理大量的数字数据。

公开方法提供了用于计算装置识别在场景的数字表示中表示的一个或多个活动的基础设施。该活动可以包括跨许多动作的一个或多个活动。示例性活动包括游戏、运动、购物、玩游戏、军事训练、理疗或其它类型的行为。应认识到的是公开技术还适用于识别非人类活动和对象交互。例如，非人类活动和对象交互包括运载工具活动、机器人或群集交互、随时间推移的地质系统的活动或者其它类型的活动和对象交互。

可以通过活动图的使用基于上下文来识别活动。活动图是存储器中的数据结构，包括优选地通过时间(例如，在一定时间段内或者在时间帧内)表示相应活动的节点和边。可以将观察活动转换成观察活动图，其然后被与已知活动图相比较。可以基于观察活动图与已知活动图(即，先前识别的活动的活动图)有多类似来为观察活动图分配分数。此外，对观察活动图进行评分的方式可以取决于观察的上下文。

图1A是根据实施例的用于活动识别的摄取过程的示意性概览。过程100图示出识别观察活动的动作期间的活动识别装置105的各种操作。在所示示例中，传感器120(与活动识别装置105耦合或包括在其内部)通过感测活动110的环境来观察活动110。活动110可以包括各种数字可观察动作或者多个对象之间的交互。虽然示出了单个传感器120(例如，视频相机传感器)，但传感器120可以表示能够可能根据多个数据模态(例如，根据存在、体验或表达的多个模式)将活动的观察结果转换成数字表示130的一个或多个传感器。可以用数字表示130来表示的示例性数据模态包括视频数据、音频数据、触觉数据、动觉数据、温度数据、动态数据(例如，运动、速度、加速度等)、无线电信号数据或其它类型的数据。

为了明了和便于理解，数字表示130在以下讨论中包括视频数据。然而，本领域的技术人员将认识到数字表示130可以包括视频、静止图像、音频、加速度计或其它数据的任何组合。同样地，本文中的实施例(虽然是示例性的)并不意图相对于从包括各种其它类型的数据的数字表示识别活动而言是排他性或限制性的。例如，数字表示130还可以包括来自设置于手套中的加速度计的加速计(accelerometery)数据。该加速计数据然后可以表示手势(例如，手语、命令等)，其可以被观察。

在所示示例中，溜冰者被示为在环境中到处移动。数字表示130包括具有许多帧的视频数据流，其中，滑冰者可以在帧之间位于不同的位置上。可以认为滑冰者正在(X，Y，T)空间中描绘出一定体积，其中，T对应于时间，其中，X和Y表示图像帧的2D空间。滑冰者随时间推移描绘出的体积空间也可以包括其它维度，诸如相对于相机的深度、取向、音频振幅或其它维度。

通过使用一个或多个特征检测算法来摄取活动110以从数字表示130生成多个特征133。用于处理视频数据的帧的示例性特征检测算法包括尺度不变特征变换(SIFT)、快速视网膜关键点(FREAK)、方向梯度直方图(HOG)、加速鲁棒特征(SURF)、DAISY、二进制鲁棒不变尺度关键点(BRISK)、FAST、二进制鲁棒独立基本特征(BRIEF)、Harris角、边、梯度位置方向直方图(GLOH)、图像能量梯度(EOG)或变换不变低秩纹理(TILT)特征检测算法。时间特征135表示特征133，其位置已穿过时间被跟踪，可能是随时间而变的。例如，时间特征135可能久而久之在数字表示的空间体积中移动、可能出现或消失、隐没在或出现于存在物、从一个类型的值(例如，描述符值)转移到另一个或者展示出其它类型的时间性质。示例性时间特征可能是特征133在多个帧上的位置，形成轨迹，即(X，Y，T)空间中的路径。为了实现对噪声和变化的更好的不敏感性，时间特征135的另一示例包括共享相似运动和空间接近性的轨迹的集群。

时间特征135被转换成一个或多个活动图140，其包括表示时间特征135的集群的节点141。活动图140可以描述在时间上相当的事件(例如，运动、声音等)之间的时间或空间关系。因此，节点141是在时间上可以用比较方法与其它信号(例如，其它节点)相比较而存在的信号。例如，活动图140可以包括如由Wang等人在2013IEEE InternationalConference on Computer Vision(ICCV)中的“Directed Acyclic Graph Kernels forAction Recognition”(在下文中称为“Wang 2013”)中提出的有向无环图(DAG)。然而，在Wang 2013中描述的有向无环图缺少用于上下文识别的足够信息。用本文中所述的各种实施例来补救此缺乏。

可以在存储器中将活动图140表示为N×N矩阵，其中，N是图中的节点141的数目。在DAG的情况下，矩阵可以是不对称的，其中，单元格中的值指示一个节点经由有向边连接到另一节点。例如，矩阵单元格(3，5)可能具有2的值，其指示节点3经由从节点3行进至节点5的长度2(任意单位)的边连接到节点5。然而，矩阵单元格(5，3)可能具有0或NULL的值，其指示在相反方向上不存在边。

可以将活动图构造成指示时间节点141的因果性(时间特征135的集群)。例如，Wang 2013描述了通过创建作为空间和时间邻点但在时间上并未明确地重叠的两个时间节点之间的有向链接来构造有向无环图(DAG)。因此，DAG仅仅对明确的因果关系进行编码，例如“Node_A在Node_B前面”或者“Node_B在Node_A后面”。然而，比在Wang 2013中设想的更复杂的图关系可以被编码以允许在特定域中或针对特定上下文输入的更有意义的比较。例如，如果对象身份是已知的，则可以连接与场景中的已知对象有关的节点，即使该节点在视频数据流的空时体积中并未表现为空间邻点。

选择在Wang 2103中描述的DAG以便利用提出的随机行走图核，其操作局限于DAG。随机行走图核通过对通过图的公共路径的数目进行计数来解释两个图之间的相似性。由Wang 2013提出的广义化随机行走图核使得能够实现DAG的比较，其中，允许沿着路径的节点比较具有连续的相似性值而不是二进制(相似或不同)决策。可以将其它近似图核用于非DAG，但是以增加的计算负担和对图拓扑错误的更大敏感性为代价。此外，可以使用边权值(其在Wang 2013中未讨论)表示活动图内的节点关系的强度或其置信度。这些置信度可以例如基于特定环境、背景或位置中的某些音频和视频信号的共同发生的已知可能性。置信度还可以表示已知或已识别对象之间的预期独立动作。

在实施例中，活动图140还包括用于基于上下文评分技术的活动识别的附加信息。例如，每个活动图140可以包括根据摄取元数据145(例如，与观察活动属性、位置、日间时等有关的元数据)而确定的可以基于上下文而应用的一个或多个相似评分技术143。

相似性评分技术143包括数字编码或实现算法、模块、核或可由处理器执行的其它程序，其可以用来导出观察活动图与已知活动图之间的相似性。示例性相似性评分技术包括逐个节点分析、测量欧几里德距离、径向基函数(RBF)、卡方核或其它技术，可能基于逐个节点的比较。应注意的是某些实施例具有包括仅一个类型的相似性评分技术的活动图140，而其它实施例具有包括许多不同类型的相似性评分技术的活动图140。

在某些实施例中，相似性评分技术143中的每一个还可以包括一组基于节点上下文的权值，其指示当应用相似性评分技术时每个节点141(或相应边)应如何被加权。例如，在滑冰的上下文内，基于摄取元数据145，只有一个相似评分技术143可以是可用的。然而，那一个相似性评分技术可能具有基于节点上下文的权值的多个不同集合。每个集合可能不同地对节点加权以加强或弱化每个节点。例如，在冰上舞蹈的背景中，与手部移动或面部表情有关的节点可能被加强。而在冰球的背景中，身体或腿移动节点可能被加强，而关于面部表情的节点可能被降低加权，因为面部表情相对于冰上舞蹈而言在冰球中可能不那么重要。在其中正在使用多传感器模态的情况下，可以利用权值来反映来自每个感测模态的数据的相对置信度。例如，在其中相机(传感器)快速地振动的背景中，由从视频数据导出的时间特征构成的节点可能由于运动模糊而不那么可靠，因此可以通过对基于视频的节点进行降低加权来减少其在活动比较中的影响。

基于节点上下文的权值的集合可以采取具有N个成员的矢量的形式，其中，N是节点的数目。矢量中的每个值成员可以指示当应用相应相似性评分技术143时的节点的贡献。此外，基于节点上下文的权值的集合可以采取N×N矩阵的形式，其具有表示活动图140的矩阵的相同维数。在这种情况下，矩阵的单元格中的每个值可以表示相应边对相似性评分技术143的贡献。

除对图中的边和节点加权之外，相似性评分技术可以根据节点141处的数据类型而改变。例如，在其中时间特征被编码为基于直方图的描述符的情况下，卡方或直方图交叉核可能更适合于计算节点相似性。在另一示例中，节点141可以包括描述符矢量，其包括物理单元、像素、音频强度或此类单元的矩中的一个。在这种情况下，诸如高斯核之类的径向基函数可能更适合于计算相似性。此外，基于所使用的特征和传感器噪声的量，可以不同地调谐核参数，例如高斯核的Σ。例如，从像素导出的特征可能要求与从深度测量结果(例如，以米为单位)导出的特征不同的核参数。作为另一示例，当比较安静环境的背景中的音频特征时，可以使用高斯核中的略微较小的Σ参数来要求更紧密(即，更严格)的匹配，以对噪声的更加敏感为代价。在必须对噪声更加不敏感的喧哗环境中，可以增加Σ参数。

摄取元数据145包括关于与活动110的摄取相关联的目的(例如，摄取的原因)有关的信息并指示哪些相似性评分技术143将可能是最相关的。摄取元数据145可以包括自动生成的信息或手动生成的信息。关于自动生成的信息，可以应用一个或多个对象识别技术来识别活动110的环境内的对象以便生成摄取元数据145，包括名称、对象分类、标识符、位置、尺寸、形状、色彩、年中的时间/季节、温度、品牌、型号或其它信息。在2001年11月5日提交的授予Boncyk等人的题为“Image capture and identification system and process”的美国专利号7,016,532；2002年11月5日提交的授予Boncyk等人的题为“Image capture andidentification system and process”的7,477,780；2005年8月15日提交的授予Boncyk等人的题为“Use of image-derived information as search criteria for internet andother search engines”的7,680,324；2006年1月26日提交的授予Boncyk等人的题为“Datacapture and identification system and process”的7,565,008；以及2009年7月20日提交的授予Boncyk等人的题为“Data capture and identification system and process”的7,881,529中公开了可以被适当地修改以供本发明主题使用的示例性对象识别技术。此外，可以例如由用户经由接口(例如，网页、应用程序、API等)将摄取元数据145选择成对应于相似性评分技术143。因此，摄取元数据145可以包括特定领域属性(例如，关于医学领域、保健领域、体育领域、游戏领域、购物领域等的属性)、对象属性(例如，对象的类型、对称的名称等)、环境或上下文属性(例如，位置属性、时间属性、定位属性、取向属性等)或其它类型的属性。

在优选实施例中，摄取元数据145包括附着于定义属性命名空间(即，标准化命名法)的数据。例如，摄取元数据145可以包括属性-值对，其描述相应相似性评分技术将适用时的相关条件。例如，“位置”属性可以包括GPS坐标、地址、邮政编码或其它值。另一示例性属性可以涉及到装置运动的强度和频率或者由扩音器记录的平均分贝水平。此类属性可以用来例如对分别地从视频或音频通道提取的特征的重要性进行向下加权，使得其对总体活动图相似性的影响在其中数据通道可能不那么可靠的背景下降低。可以在XML、YAML或JSON格式内表示属性-值对以实现跨网络链路(例如，蜂窝式网络、因特网、LAN、WAN、无线连接、

连接等)的容易传输。在各种实施例中，定义属性命名空间允许将摄取元数据145与装置背景现场观察结果相比较。

给定关于活动110的摄取元数据145，可以将活动图140连同相似性评分技术一起存储在活动数据库中。数据库可以包括网络可访问数据库(例如，SaaS、IaaS、云、网络服务等)、文件系统、计算装置的存储器中的数据结构或其它数据仓库。

图1B图示出根据实施例的用于活动识别的摄取过程的示例性操作的流程图。应认识到的是方法150由被配置或编程为具有活动识别装置(诸如活动识别装置105)的公开作用或职责的一个或多个计算装置执行。例如，活动识别装置105可以包括客户端装置，包括蜂窝电话、自助终端、个人数据助理、平板计算机、玩具、运载工具、网络相机或其它类型的计算装置。此外，活动识别装置105可以包括传感器，诸如传感器120，其可以包括被装配成捕捉视频数据的图像帧的图像捕捉装置(例如，视频相机或游戏控制台)。

在步骤152处，通过感测活动的环境来观察活动。例如，活动可以包括各种数字可观察动作或者多个对象之间的交互。

在步骤154处，，可能根据多个数据模态(即，根据存在、体验或表达的多个模式)来将动作的观察结果转换成数字表示。可以用数字表示来表示的示例性数据模态包括视频数据、音频数据、触觉数据、动觉数据、温度数据、动态数据(例如，运动、速度、加速度等)、无线电信号数据或其它类型的数据。

在步骤156处，使用一个或多个特征检测算法从数字表示生成多个特征。用于处理视频数据的帧的示例性特征检测算法包括尺度不变特征变换(SIFT)、快速视网膜关键点(FREAK)、方向梯度直方图(HOG)、加速鲁棒特征(SURF)、DAISY、二进制鲁棒不变尺度关键点(BRISK)、FAST、二进制鲁棒独立基本特征(BRIEF)、Harris角、边、梯度位置方向直方图(GLOH)、图像能量梯度(EOG)或变换不变低秩纹理(TILT)特征检测算法。

在步骤158处，通过穿过时间跟踪特征来确定时间特征。例如，时间特征可能久而久之在数字表示的空间体积中移动、可能出现或消失、隐没在或出现于存在物、从一个类型的值(例如，描述符值)转移到另一个或者展示出其它类型的时间性质。

在步骤160处，时间特征被转换成一个或多个活动图，其包括表示时间特征的集群的节点，其中，每个活动图包括根据摄取元数据确定的基于背景可以应用的一个或多个相似评分技术。例如，相似性评分技术可以包括逐个节点分析、测量欧几里德距离、径向基(RBF)、卡方核或其它技术，可能基于逐个节点的比较。

在步骤162处，一个或多个活动图被连同相似性评分技术一起以及连同关联元数据一起存储在活动数据库中。

图2是根据实施例的活动识别系统的示意性概览。活动识别系统200利用已知活动图信息来在现场识别观察活动。活动识别系统200包括活动数据库280和活动识别装置210。活动识别装置210表示计算装置，其包括被配置成执行各种实施例中的一个或多个的一个或多个模块(例如，存储在非临时计算机可读存储器中的软件指令和能够执行该指令的处理器)。可以充当活动识别装置210的示例性计算装置包括平板计算机、个人计算机、服务器、网络服务服务器、虚拟机、基于云的计算机系统(例如支持IaaS、SaaS、PaaS等的一个或多个服务器)、相机、蜂窝电话、自助终端、器械、运载工具、飞机、机器人、游戏装置、监视系统、玩具或其它类型的计算装置。

活动数据库280包括具有能够存储已知活动图信息的持久性存储器的一个或多个模块，包括一个或多个相似性评分技术283。在某些实施例中，活动数据库280包括通过网络连接可访问的单独计算装置。例如，活动数据库280可以包括网络服务系统，其通过提供具有活动图信息、活动图数据对象和相似性评分技术283的结果集或者关于已知活动的其它结果集来对上下文查询进行响应的网络服务系统。在其它实施例中，活动数据库280可以包括存储在活动识别装置210的存储器组件中的数据结构，例如，其中，根据基于相应摄取元数据、节点或其它模式而用分级结构组织的树状结构来存储已知活动图或相似性评分技术283。可以基于关于图1A所讨论的技术用各种活动图对象来填充活动数据库280。

用针对活动识别的多个模块来配置活动识别装置210。为了便于理解，以下讨论将从移动装置(例如，智能电话或平板计算机)的观点出发提出活动识别装置210能力。活动识别装置210与能够或被配置成捕捉数字表示223的传感器220耦合。例如，用户可以指导装配相机的蜂窝电话捕捉男性滑冰者224的视频序列数字表示。应认识到的是传感器220可以表示多个传感器，每个能够捕捉不同的数据模态。因此，数字表示223可以包括数据模态的多个层，包括图像数据(例如，超声波、红外、可见光谱等)、视频数据、音频数据、触觉数据、动觉数据、温度数据、动态数据、场深数据、3D配准数据、无线电或无线数据、IMU数据或其它数据模态。每个模态可以产生其自己的活动图或者被包括在将感测模态的集合组合的活动图中，如图1A中所示。

在优选实施例中，数字表示223包括反映在其中可以进行活动识别的情况的性质的装置上下文属性225。在某些情形中，装置上下文属性225反映关于数字表示223的实际捕捉的情况。在其它情形中，装置上下文属性225可能反映其中活动识别装置210正在进行操作的情况。此外，装置上下文属性225可能反映多个情形。例如，在其中数字表示223表示医疗程序的视频的实施例中，装置上下文属性225可能包括与何时执行该程序紧密相关的上下文属性，可能包括关于程序、保健提供商、程序的位置(例如，医院、手术室、GPS坐标等)的信息或其它信息。另外，视频可能在该程序之后被用于训练目的。在这种情况下，装置上下文属性225可能包括关于受训者、老师、程序的结果或关于相对于训练的活动识别的其它因素的信息。因此，装置上下文属性225可以具有与活动识别装置210、捕捉装置或其它装置相关联的属性。在图2中提出的示例中，装置上下文属性225表示活动识别装置210的上下文，该活动识别装置210是捕捉男性滑冰者224的视频的蜂窝电话。

装置上下文属性225可以采取关于装置上下文的许多信息。在优选示例中，装置上下文属性255附着于具有与已知活动图相关联的活动摄取元数据的公共命名空间(即，标准化命名法)。这种方法是有利的，因为其允许建立装置上下文与用类似摄取元数据标记的已知活动图之间的匹配准则。因此，装置上下文属性225还可以包括关于摄取元数据的属性-值对的集合。

活动识别装置210被配置成根据一个或多个技术而获得场景的数字表示223。在所示的示例中，作为传感器数据从传感器220(例如，相机、扩音器、加速计等)获得数字表示223。在其它实施例中，可以通过网络来获得数字表示223。例如，可以通过线缆网络或无线网络来广播体育事件，诸如滑冰事件，并且消费者可以使用DVR装置或计算机来记录该滑冰事件，使得计算机或DVR装置是活动识别装置210。

在实施例中，活动识别装置210可以使用装置上下文属性225作为查询以访问相似性评分技术283的一个或多个集合或其它已知活动图对象信息。可以将该查询转换成指示公共属性命名空间中的相关装置上下文的边界的装置上下文准则。活动数据库280可以用满足装置上下文准则的上下文相关评分技术285对查询进行响应。应认识到的是活动识别装置210还可以接收具有也满足查询的属性的一个或多个已知活动图。通过向活动数据库280提交该查询，活动识别装置210可以从相似性评分技术283的集合中选择上下文相关评分技术285。

在实施例中，活动识别装置210分析数字表示223以从数字表示223生成多个时间特征。例如，可以根据被用来生成已知活动图的一个或多个特征检测算法来生成时间特征，如关于图1A所述。时间特征230包括具有时间方面的特征或描述符，可能包括SIFT、BRISK、SURF、FAST、BRIEF、Harris角点、Edges、DAISY、GLOH、HOG、EOG、TILT或可以具有时间性质的其它类型的特征。例如，时间特征230可以包括跨视频数据流的帧的特征轨迹的集群。

在某些实施例中，活动识别装置210可以进一步使用生成的时间特征来识别数字表示223中的对象。可以使用时间特征或其描述符来检索与已识别对象270有关的对象信息(例如，名称、标识、形状、色彩、内容等)。例如，可以使用对象信息来进一步确定装置上下文属性225，细化活动识别过程或过滤结果集。

活动识别装置210建立至少一个观察活动图240，其具有由时间特征230的集群构成的节点。观察活动图240优选地被以在上述图1A中用来建立已知活动图的相同方式构造。如先前所讨论的，Wang 2013描述了用于构造有向无环活动图的一个技术。因此，在实施例中，已知活动图和观察活动图240可以包括有向无环图，其中，有向无环图的节点包括特征轨迹的集群。然而，本领域的技术人员将认识到其它类型的活动图也是可能的。

活动识别装置210根据上下文相关评分技术285的集合来计算用于观察活动图240的相似性活动分数250。应认识到的是超过一个已知活动图可以与当前活动识别任务上下文相关，并且每个活动图可能具有多个上下文相关评分技术285。此外，每个活动图可以基于上下文信息而具有不同的评分技术。通过将可能已知活动图的数目减少或过滤至上下文相关的那些，减少了提供结果所需的计算资源。

可以例如基于观察活动图240内和已知活动图内的节点的函数基于一个或多个相关评分技术(例如，欧几里德距离、径向基函数(RBF)、卡方核等)来计算相似性活动分数250。结果得到的分数可以指示相对于当前上下文而言与观察活动图240最相似的已知活动图的排序。应进一步认识到的是此类排序还反应上下文。在某些实施例中，还可以基于基于节点上下文权值(例如，权值的矩阵等)来计算相似性活动分数250。同样地，活动识别装置210可以将观察活动识别为与一个或多个已知活动相似。

基于相似性活动分数250，活动识别装置210可以访问活动识别结果集260。活动识别结果集260表示使得能够基于观察活动的识别实现至少一个其它动作的数字数据。可以根据相似性活动分数250或基于技术(包括排序SVM(支持向量机))将该数据(例如，搜索结果)排序。例如，活动识别结果可以包括地址(例如，URL、URI、文件句柄、IP地址等)、活动标识符、搜索结果、推荐、异常、警告、分段、命令、排序、上下文相关信息、内容信息、促销、广告或可以绑定到已识别活动图的其它类型的内容或命令。

在某些实施例中，可以将已知活动图分类成不同类别。在此类实施例中，可以将活动识别装置210进一步配置成基于相似活动分数250而生成观察活动的分类。例如，可以将已知活动图分类成一个或多个域，例如体育、上下文标称行为、驾驶等。活动识别装置210然后可以向观察活动图240分配分类并将该分类包括可为活动识别结果集260的一部分。在某些情况下，分级信息可以允许针对对基于类别的识别活动事件的访问对第三方收费。例如，在电视播放的体育事件期间，登广告者可能购买专有权以在特定活动(例如，触地或本垒打)被消费者的蜂窝电话观看时呈现广告。

在某些实施例中，已知活动图可以包括时间信息，其指示串连或组合而形成成拱形活动的多个动作的流程。因此，观察活动图240可能并未与已知活动图完美地对准，但是可能更好地与已知图的各部分对准，其中可以将已知图的各部分认为子活动或动作。在这种情况下，活动识别装置210可以被配置成基于相似性活动分数250来预测观察活动内的下一动作。该分数可以指示下一动作与已知活动图内的下一动作匹配的概率。因此，活动识别结果集260可以包括相对于观察活动图240的预测。作为使用情况，考虑其中用公开技术将计算机游戏AI仪表化的情形。AI可以观察玩家的活动。当观察活动看起来与已知活动的一部分匹配时，AI可以实现规避机动，其尝试基于根据已知活动将预期什么而设想玩家的下一动作。

图3图示出根据实施例的活动识别系统的示例性操作的流程图。应认识到的是方法300由被配置或编程为具有活动识别装置(诸如活动识别装置210)的公开作用或职责的一个或多个计算装置执行。例如，活动识别装置可以包括客户端装置，包括蜂窝电话、自助终端、个人数据助理、平板计算机、玩具、运载工具、网络相机或其它类型的计算机装置。此外，活动识别装置可以包括传感器，诸如传感器220，其可以包括被装配成捕捉视频数据的图像帧的图像捕捉装置(例如，视频相机或游戏控制台)。

在步骤302处，使用特征检测算法从观察到的活动的数字表示生成多个时间特征。该数字表示可以包括图像数据、视频数据、音频数据、触觉数据、动觉数据、温度数据、动态数据和无线电信号数据中的一个或多个。

在步骤304处，建立包括从数字表示生成的时间特征的一个或多个集群的观察活动图，其中，所述时间特征的一个或多个集群中的每一个定义观察活动图的节点。例如，观察活动图的节点可以包括特征轨迹的集群。

在步骤306处，从用于已知活动图的相似性评分技术中选择至少一个上下文相关评分技术，所述至少一个上下文相关评分技术与满足基于数字表示的装置上下文属性而定义的装置上下文准则的活动摄取元数据相关联。相似性评分技术可以包括以下各项中的至少一个：欧几里德距离、线性核、多项式核、卡方核、柯西核、直方图交叉核、Hellinger核、Jensen-Shannon核、双曲线正切(Σ)核、二次有理核、复二次核、逆复二次核、圆形核、球形核、波核、幂核、对数核、样条核、贝塞尔核、广义化T-Student核、贝叶斯核、小波核、径向基函数(RBF)、指数核、拉普拉斯核、ANOVA核和B样条核函数。

在步骤308处，根据所述至少一个上下文相关评分技术而针对观察活动图来计算相似性活动分数，该相似性活动分数是相对于至少一个已知活动图。在某些实施例中，可以基于相似性活动分数来生成活动识别结果集。

虽然可以利用Wang 2013的各方面以相对于活动识别使用，但在公开方法中存在显著的差别。公开方法包括与摄取元数据耦合的相似性评分技术以确定在识别过程期间应该应用哪些类型的评分。

其它差别包括经由图边权值将已知节点之间的(也可以是上下文敏感的)特殊关系编码，使用图的分级结构来推理出语义上复杂的事件，允许用比简单的时间因果性和空间接近度更深的关系定义的图拓扑(例如，可以连接与某个对象实例有关的节点，尽管处于较大的时间或空间节距)，并且允许将来自多个传感器模态的数据组合成单个活动图。

鉴于在图层级或者甚至在节点层级分析活动，活动识别装置可以在不可访问保密信息的情况下识别活动或与已知活动的偏差。考虑以下安全情形。例如公共场所、购物商场或机场可能每天有数千人执行各种活动。公共场所的安全系统可以充当活动识别装置。基于摄取的标称活动，安全系统可以尝试识别与已知摄取活动不匹配的活动。当公共场所中的对象(例如，人等)开始偏离已知活动时(例如，基于加速度计数据)，系统可以生成警报。特别注意，可以在不对特定个体执行识别过程的情况下执行分析，因此确保被观察个体的隐私。

另一可能使用情况包括使用已知活动图作为理疗方法的一部分。在某些实施例中，可以构造数据库以存储跨越治疗计划的期望物理活动的集合或谱。随着患者完成计划，可以通过捕捉会话的视频并将该视频与表示期望进展的相应活动图相比较来监视其进展。在类似风格中，可以出于训练目的使用该技术(例如，体育、军事、建筑、手术等)。这种方法允许运动员将其子集与业界最好运动员、统计标准或者甚至与表示用于或者自定义或设计活动的估计资格的计算机产生的计算机生成活动图相比较。此外，可以使用与“比赛”(例如，橄榄球比赛等)相关联的其它已知活动来预测很可能由队伍展开什么比赛。

各种实施例的另一可能应用包括使用已知活动图作为用于机器人交互的模板。机器人可以使用一个或多个已知活动图作为关于如何通过活动进行导航的指令。这种技术利用本技术的预测方面。例如，机器人可以通过特定活动(诸如自然灾害的受害者或在购物中心中盘存)来获得表示可接受路径的变化的许多已知活动图。当机器人进入或遭遇已识别活动或情况时，机器人可以尝试基于根据变化生成的预测而采取行动。这种方法的优点是由于该变化，与机器人的交互可以看起来更加自然而不是程序化的。

观察活动还可以用来将内容解锁。在某些情形中，活动的观察结果可以触发向消费者呈现广告或促销。在这种情况下，品牌经理可以针对具有相对于响应于已识别的“购买”活动而提供其品牌消息发送的某种形式的独有性而支付费用。可以访问对特定活动的权限以换取基于时间、独有性、持续时间、拍卖或其它因素的费用。此外，可以将已知活动用作将内容解锁的密钥或安全令牌。当观察或识别到正确活动时，可以将内容解锁或者可以准予访问。

存在与公开技术相关联的许多可能变化。在某些实施例中，可以对活动图加注释或者通过基于对象原语构造节点来从对象交互原语构建活动图。对象交互原语表示对象相关动作的基本集。一个原语可以包括对象持久性，其中，对象随时间推移而保持固定或不改变。另一原语可以包括对象变换，其中，第一对象被变成第二对象。对象与对象保存交互可以表示何时两个对象具有交互而两个都保持未改变。此外，对象分段可以表示一个对象何时产生两个对象。另一组原语可能包括对象创建或对象销毁。可以使用对象NULL交互来表示对象不存在。非常复杂的活动图可以由此类原语构成。

在某些实施例中，活动图可以采取分级结构。在最低层级，活动图中的节点可以基于轨迹集群而表示对象交互原语。此类活动图本身可以表示较大动作(即，复杂的一组对象交互)并变成较大活动图中的节点。此进展可以产生越来越高层级的图。例如，电影可以包括具有表示场景的子图的单个活动图。该场景图可以包括作为表示参与者或对象的活动图的节点。这些进而可以由对象交互原语所表示的节点构成。这种分级方法提供了通过图结构的相似性进行的不同类型的活动之间的多尺度分析。

相似性评分技术可以利用核方法，其也引起使用已知活动图来分析观察活动，可能基于观察统计上显著的许多活动。可以将核方法用于活动分类、回归(例如，预测动作、外推、趋势描绘等)、聚类(例如，群众行为、消费者人口分析等)、离群点检测(例如，异常行为、与标准的偏差等)、排序(例如，相对于动作或时间的理想性能的排序、在检索期间将相似动作排序、基于诸如运动量、涉及到的参与者的数目或传感模态之间的相互影响之类的特定比较准则将不同动作的相似性排序)、分段(例如，一个动作的结束与另一动作的开始之间的区别)或利用核方法的其它分析技术。

还可以基于所选活动或域对相似性评分技术加权或过滤。例如，可以基于例如由用户或基于GPS位置而选择的域来过滤观察到的外景，使得汽车、动物或与域相关的其它对象在相似性活动分数的计算中被自动地滤出。

可以进一步细化公开技术以将具有存储器或处理器约束的嵌入式装置确定为目标。在某些实施例中，已知活动图可以基于例如主成分分析(PCA)而使低值节点被删除。例如，可以去除对将活动相互区别开缺少贡献的节点。因此，可以减小图的维数，或者可以通过消除低贡献节点来缩减图内的噪声。

还可以使用静止图像来识别活动。在某些实施例中，活动图可以包括表示与节点相关联的相应动作的一个或多个关键帧。可以将所观察的静止图像与此类关键帧相互比较以确定所观察的静止图像是否与相应活动图对准。在某些实施例中，活动识别装置可以从静止图像导出特征，并且使用该特征通过将图像特征与已知活动图的节点相比较来建立图像到一个或多个已知图的图尺度的映射。应认识到的是可以将静止图像“散布”在已知图的多个节点上。例如，图像的各部分(例如，已识别对象)可以对应于与第一时间(t₀)相对应的节点，而且其它部分(例如，第二识别对象)可以对应于处于不同时间(t₁)的不同节点。通过此类卷积和计算的相似性活动分数，活动识别装置可以估计静止图像有多好地对应于一个或多个已知活动的截屏。

可以使用数字电路或者使用利用众所周知的计算机处理器、存储器单元、存储装置、计算机软件及其它组件的一个或多个计算机来实现本文中所述的系统、设备以及方法。通常，计算机包括用于执行指令的处理器和用于存储指令和数据的一个或多个存储器。计算机还可以包括或者被耦合到一个或多个大容量存储装置，诸如一个或多个磁盘、内部硬盘和可移动磁盘、磁光盘、光盘等。

可以使用在客户端-服务器关系中操作的计算机来实现本文中所述的系统、设备以及方法。通常，在此类系统中，客户端计算机位于远离服务器计算机处并经由网络相交互。客户端-服务器关系可以由在各客户机和服务器计算机上运行的计算机程序定义和控制。

在图4中图示出可以用来实现本文中所述的系统、设备以及方法的示例性客户端-服务器关系的高级框图。客户端-服务器关系400包括经由网络430与服务器420通信的客户端410，并且图示出客户端410与服务420之间的活动识别任务的一个可能划分。例如，根据上文的所述各种实施例，客户端410可以被配置成服务器420通信，并且通过生成观察活动的数字表示和/或通过将观察活动数据的数字表示发送到服务器420来促进活动识别搜索。服务器420可以被配置成：使用特征检测算法从观察活动的数字表示生成多个时间特征，建立包括从数字表示生成的时间特征的一个或多个集群的观察活动图，从用于已知活动图的相似性评分技术中选择至少一个上下文相关评分技术，以及根据所述至少一个上下文相关评分技术而针对观察活动图来计算相似性活动分数，该相似性活动分数是相对于至少一个已知活动图。在某些实施例中，服务器420可以进一步被配置成从客户端410接收数字表示数据，基于该数字表示数据来执行活动识别搜索，生成活动识别结果集并将该活动识别结果集发送到客户端410。本领域的技术人员将认识到图4中所述的示例性客户端-服务器关系仅仅是可能用于实现本文中所述的系统、设备以及方法的许多客户端-服务器关系中的一个。同样地，不应以任何方式将图4中所示的客户端-服务器关系示为是限制性的。客户端装置410的示例可以包括蜂窝电话、自助终端、个人数据助理、平板计算机、玩具、运载工具、网络相机或其它类型的计算装置。

可以使用有形地在信息载体中(例如在非临时机器可读存储装置中)体现以便由可编程处理器执行的计算机程序产品来实现本文中所述的系统、设备以及方法；可以使用可由此类处理器执行的一个或多个计算机程序来实现本文中所述的方法步骤，包括图1B和图3的步骤中的一个或多个。计算机程序是可以直接地或间接地在计算机中用来执行某个活动或产生某个结果的一组计算机程序指令。可以用任何形式的编程语言(包括编译或解释语言)来编写计算机程序，并且可以将其以任何形式部署，包括作为独立程序或作为模块、组件、子例程或适合于在计算环境中使用的其它单元。

在图5中图示出可以用来实现本文中所述的系统、设备以及方法的示例性客户端-服务器关系的高级框图。装置500包括被操作耦合到持久性存储装置520和主存储器装置530的处理器510。处理器510通过执行定义此类操作来执行计算机程序指令而控制设备500的总体操作。计算机程序指令可被存储在持久性存储装置520或其它计算机可读介质中，并且在期望计算机程序指令的执行时被加载到主存储器装置530中。例如，活动识别装置210和传感器220可以包括设备500的一个或多个组件。因此，图1B和3的方法步骤可以由存储在主存储器装置530和/或持久性存储装置520中的计算机程序指令定义并由执行计算机程序指令的处理器510控制。例如，可以将计算机程序指令实现为被本领域的技术人员编程为执行由图1B和3的方法步骤定义的算法的计算机可执行代码。因此，通过执行计算机程序指令，处理器510执行由图1B和3的方法步骤定义的算法。设备500还包括用于经由网络与其它设备通信的一个或多个网络接口580。设备500还可以包括使得能够与设备500进行用户交互的一个或多个输入/590(例如，显示器、键盘、鼠标、扬声器、按钮等)。

处理器510可包括通用微处理器和专用微处理器，并且可以是设备500的唯一处理器或多个处理器中的一个。处理器510可包括例如一个或多个中央处理单元(CPU)。处理器510、持久性存储装置520和/或主存储器装置530可以包括一个或多个专用集成电路(ASIC)和/或一个或多个现场可编程门阵列(FPGA)、由其补充或被结合在其中。

持久性存储装置520和主存储器装置530每个包括有形非临时计算机可读存储介质。持久性存储装置520以及主存储器装置530每个可以包括高速随机存取储器，诸如动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、双倍数据速率同步动态随机存取存储器(DDR RAM)或其它随机接入固态存储器装置，并且可包括非易失性存储器，诸如一个或多个磁盘存储器装置，诸如内部硬盘和可移动磁盘、磁光磁盘存储装置、光盘存储装置、闪存装置、半导体存储器装置，诸如可擦可编程只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM)、紧凑式磁盘只读存储器(CD-ROM)、数字多功能磁盘只读存储器(DVD-ROM)磁盘或其它非易失性固态存储装置。

输入/输出装置590可包括外围设备，诸如打印机、扫描仪、显示屏等。例如，输入/输出装置590可包括用于向用户显示信息(例如，用于选择的多个图像变换)的显示装置，诸如阴极射线管(CRT)、等离子体或液晶显示器(LCD)监视器、键盘以及定点装置，诸如用户可以用来向设备500提供输入的鼠标或轨迹球。

在本文中讨论的任何或所有系统和设备(包括活动识别装置210和传感器220)可以由诸如设备500之类的设备执行和/或结合在其中。

本领域的技术人员将认识到实际计算机或计算机系统的实施方式可具有其它结构，并且也可包含其它组件，并且图5是出于说明性目的的此类计算机的某些组件的高级表示。

应将前述说明书理解为在每个方面是说明性和示例性的而非限制性的，并且不应根据本说明书、而是根据如根据专利法许可的全范围解释的权利要求来确定在本文中公开的本发明的范围。应理解的是在本文中示出并描述的实施例仅仅说明本发明的原理，并且在不脱离本发明的范围和精神的情况下可由本领域的技术人员实现各种修改。在不脱离本发明的范围和精神的情况下，本领域的技术人员可以实现各种其它特征组合。

Claims

1.一种活动识别系统，包括：

活动数据库，其被配置成存储用于已知活动图的相似性评分技术，所述相似性评分技术中的每一个与或活动摄取元数据相关联；以及

活动识别装置，其被与所述活动数据库耦合并被配置成：

使用特征检测算法从观察活动的数字表示生成多个时间特征，

建立包括从数字表示生成的时间特征的一个或多个集群的观察活动图，其中，所述时间特征的一个或多个集群中的每一个定义观察活动图的节点；

从用于已知活动图的相似性评分技术中选择至少一个上下文相关评分技术，所述至少一个上下文相关评分技术与满足基于数字表示的装置上下文属性而定义的装置上下文准则的活动摄取元数据相关联；以及

根据所述至少一个上下文相关评分技术而针对观察活动图来计算相似性活动分数，所述相似性活动分数是相对于至少一个已知活动图。

2.根据权利要求1所述的系统，其中，所述活动数据库进一步被配置成存储已知活动图。

3.根据权利要求2所述的系统，其中，所述活动识别装置进一步被配置为计算相似性活动分数，该相似性活动分数与已知活动图内的节点和观察活动图内的节点相关。

4.根据权利要求1所述的系统，其中，所述活动数据库至少部分地被存储在所述活动识别装置的存储器中。

5.根据权利要求1所述的系统，其中，所述活动识别装置包括平板计算机、个人计算机、相机、蜂窝电话、自助终端、器械、运载工具、机器人以及游戏装置中的至少一个。

6.根据权利要求1所述的系统，其中，所述装置上下文属性和所述活动摄取元数据附着于公共命名空间。

7.根据权利要求1所述的系统，其中，所述活动摄取元数据包括特定域属性。

8.根据权利要求1所述的系统，其中，所述活动摄取元数据包括对象属性。

9.根据权利要求1所述的系统，其中，所述活动摄取元数据包括位置属性、时间属性、定位属性和取向属性中的至少一个。

10.根据权利要求1所述的系统，其中，所述已知活动图和观察活动图包括有向无环图。

11.根据权利要求1所述的系统，其中，所述观察活动图的节点包括特征轨迹的集群。

12.根据权利要求1所述的系统，其中，所述数字表示包括图像数据、视频数据、音频数据、触觉数据、运动数据中的一个或多个。

13.根据权利要求1所述的系统，其中，所述特征检测算法包括以下各项中的至少一个：尺度不变特征变换(SIFT)、快速视网膜关键点(FREAK)、方向梯度直方图(HOG)、加速鲁棒特征(SURF)、DAISY、二进制鲁棒不变尺度关键点(BRISK)、FAST、二进制鲁棒独立基本特征(BRIEF)、Harris角点检测、边缘检测、梯度位置方向直方图(GLOH)、图像能量梯度(EOG)或变换不变低秩纹理(TILT)特征检测算法。

14.根据权利要求1所述的系统，其中，所述已知活动图包括活动图原语。

15.根据权利要求14所述的系统，其中，所述活动图原语包括以下各项中的至少一个：对象持久性、对象变换、对象间守恒交互、对象分段、对象创建、对象销毁和对象缺省交互。

16.根据权利要求1所述的系统，其中，所述已知活动图包括包含其它已知活动图的节点。

17.根据权利要求1所述的系统，其中，所述已知活动图包括关键帧。

18.根据权利要求1所述的系统，其中，所述活动识别装置进一步被配置成基于相似性活动分数而生成活动识别结果集。

19.根据权利要求18所述的系统，其中，所述活动识别装置进一步被配置成向观察活动图分配分类，其中，所述分类构成活动识别结果集。

20.根据权利要求18所述的系统，其中，所述活动识别结果集包括相对于观察活动图的活动预测。

21.根据权利要求18所述的系统，其中，所述活动识别结果集包括以下各项中的至少一个：地址、活动标识符、搜索结果、推荐、异常、警告、分段、命令、排序、上下文相关信息、内容信息、广告。

22.根据权利要求1所述的系统，其中，所述活动识别装置进一步被配置成通过将图像特征映射到至少一个已知活动图的节点来建立一种从数字表示到至少一个所述已知活动图的图空间的静态图像的映射。

23.根据权利要求22所述的系统，其中，所述活动识别装置进一步被配置成基于已知活动图中的所述至少一个的节点和映射来生成动作预测。

24.根据权利要求1所述的系统，其中，所述相似性评分技术包括以下各项中的至少一个：欧几里德距离、线性核、多项式核、卡方核、柯西核、直方图交叉核、Hellinger核、Jensen-Shannon核、双曲线正切核、二次有理核、复二次核、逆复二次核、圆形核、球形核、波核、幂核、对数核、样条核、贝塞尔核、广义化T-Student核、贝叶斯核、小波核、径向基函数(RBF)、指数核、拉普拉斯核、ANOVA核和B样条核函数。

25.根据权利要求1所述的系统，其中，所述相似性评分技术包括基于节点上下文的权值的至少一个集合。

26.根据权利要求25所述的系统，其中，所述基于节点上下文的权值的至少一个集合包括节点权值的矩阵。

27.一种活动识别装置处的活动识别的方法，所述方法包括：

28.一种非临时计算机可读介质，该可读介质存储有计算机程序，所述计算机程序能够由计算机处理器执行以用于活动识别，所述计算机程序能够被计算机处理器执行以执行包括以下各项的处理：