CN108154236A

CN108154236A - 用于评估群组层面的认知状态的技术

Info

Publication number: CN108154236A
Application number: CN201711281197.0A
Authority: CN
Inventors: 杜美玉; T.高; 涂吉林
Original assignee: General Electric Co
Current assignee: General Electric Co
Priority date: 2016-12-06
Filing date: 2017-12-06
Publication date: 2018-06-12
Also published as: JP2018139100A; US10216983B2; CA2986406A1; EP3333764A1; US20180157902A1

Abstract

本发明公开了一种用于评估群组层面的认知状态的技术，包括从环境中的一个或多个相机接收与一个或多个个体相关的数据。基于来自所述相机的所述输入数据，执行基于代理的模拟器，所述基于代理的模拟器各自操作来产生相应个体的行为的模型，其中每个模型的输出是表示所述相应个体在模拟期间的内在感受的符号序列。基于所述符号序列，当所述符号序列匹配查询行为的查询符号序列时预测所述相应个体中的每一位的后续行为。

Description

用于评估群组层面的认知状态的技术

技术领域

本发明所公开的主题涉及用于理解群组层面的认知状态(group levelcognitive states)的基于代理的推断(agent based inference)。

背景技术

对个体层面或群体层面的行为的理解是一个重要的研究领域，并且可能要求进行行为检测。对个人行为进行检测可以实现减少犯罪，和/或增强群体通常聚集的各种位置(例如，机场、火车站、体育馆、电影院等)的安全性。现在公认的是，在个人执行某一行为之前检测到所述行为的改进技术是合乎需要的。

发明内容

范围与最初要求保护的主题相一致的某些实施例总结如下。这些实施例不希望限制要求保护的主题的范围，相反，这些实施例仅希望提供本发明的可能形式的简短总结。实际上，所公开的技术可以涵盖可能类似于或不同于下文阐述的实施例的多种形式。

在一个实施例中，本发明提供一种方法，其包括以下步骤：从环境中的一个或多个相机接收与一个或多个个体相关的数据；执行各自操作来产生相应个体的行为的模型的一个或多个基于代理的模拟器，其中每个模型的输出是表示相应个体在模拟(simulation)期间的内在感受/经历(internal experiences)的符号序列(symbolic sequences)；并且当符号序列匹配查询行为的查询符号序列时预测相应个体中的每一位的后续行为。

其中，包括当预测到某一行为时执行动作，其中所述动作包括发出声音告警、呼叫紧急服务、触发警告、发送消息、显示警告或其某一组合。

其中，所述一个或多个相机包括捕获位置和肢体运动的估计的红绿蓝深度(RGB+D)相机，以及捕获面部图像的固定相机和摇摄俯仰变焦(PTZ)相机。

在另一实施例中，本发明提供一种有形的非暂时性计算机可读媒体(tangible，non-transitory computer-readable media)。有形的非暂时性计算机可读媒体存储计算机指令，所述计算机指令在由一或多个处理器执行时致使一个或多个处理器来：从环境中的一个或多个相机接收关于一个或多个个体的数据；执行一个或多个基于代理的模拟器(agent based simulators)，其各自对相应个体的行为进行建模且各自输出表示相应个体在模拟期间的内在感受的符号序列；并且当符号序列匹配查询行为(query behavior)的查询符号序列时预测相应个体中的每一位的后续行为。

其中，所述递归神经网络用于基于所述符号序列预测所述后续行为。所述计算机指令在由所述处理器执行时致使所述一个或多个处理器在预测到某一行为时执行动作，其中所述动作包括发出告警声音、呼叫紧急服务、触发警告、发送消息、显示警告或其某一组合。

在另一实施例中，本发明提供了一种系统。所述系统包括：一个或多个相机，其捕获与环境中的一个或多个个体的行为相关的数据；一个或多个计算装置，其包括一个或多个处理器，所述一个或多个处理器进行以下操作：从环境中的一个或多个相机接收与一个或多个个体的行为相关的数据；执行一个或多个基于代理的模拟器，其各自对相应个体的行为进行建模且各自输出表示相应个体在模拟期间的内在感受/经历(internalexperiences)的符号序列；并且当符号序列匹配查询行为的查询符号序列时预测相应个体中的每一位的后续行为；以及显示器，其连接到一个或多个计算装置且被配置成显示表示后续行为的指示。

其中，当预测到某一后续行为时所述一个或多个处理器执行动作，所述动作包括发出告警声音、呼叫紧急服务、触发警告、发送消息、显示警告或其某一组合。

附图说明

当参考附图阅读以下详细描述时，本发明的这些及其它特征、方面和优点将变得更好理解，在所有图中相同的标记表示相同的部件，在附图中：

图1是根据实施例的社交行为辨识系统的图示；

图2是根据实施例的适于产生视频分析流的方法的流程图；

图3是根据实施例的表示为具有内在感受和身体状态的代理的个体的框图；

图4是根据实施例的众多代理之间的关系的框图；

图5是根据实施例的适于经由基于代理的推断来检测行为的方法的流程图；

图6是根据实施例的包括基于代理的模拟器中所包括的人物情绪和表情的表；

图7是根据实施例的所模拟的代理及其交互的视图；

图8是根据实施例的使用根据观察到的行为估计的所模拟的代理进行粒子滤波的实例；并且

图9是根据实施例的利用使用递归神经网络进行的粒子滤波执行所模拟的代理选择的最可能的粒子的视图。

具体实施方式

下面将描述一个或多个特定实施例。为了提供这些实施例的简要描述，并不在本说明书中描述实际实施方案的所有特征。应了解，任何工程或设计项目中的任何这种实际实施方案的开发、众多针对实施方案的决定都必须实现开发者的具体目标，例如遵守可能在各个实施方案中变化的与系统有关和与商业有关的约束。此外，应了解，这种发展努力可能是复杂且耗时的，然而可以是从本发明中获益的所属领域的技术人员从事的设计、构造和制造的例程。

在介绍本发明的各种实施例的元素时，词“一个”、“一种”和“所述”意欲表示存在这些元素中的一个或多个。术语“包括(comprising、including)”和“具有”意欲是包括性的且意味着可能有除了所列元素之外的额外元素。

本发明的实施例大体上涉及一种用于行为辨识(behavior recognition)的基于代理的推断框架(agent based inference framework)。在一些实施例中，社交行为辨识系统(social behavior recognition system)可以用于合成描述群组层面的交互的演变的叙述。可以对群组层面的交互中的每个个体的可能认知状态和转变进行建模。行为辨识可以实现为一种形式的分类。此外，机器学习方法(例如，递归神经网络(recurrent neuralnetworks))可以用于基于社交行为辨识系统所搜集的观察结果和叙述来估计这些潜在变量(latent variables)。因而，辨识可以产生认知状态的估计，从而将得到此类观察结果。

具体地说，在本发明的一些实施例中，社交行为辨识系统可以使用计算机视觉处理方法来捕获大量社交线索，例如个体位置、视线方向(gaze directions)、面部表情、身体姿势、示意动作和/或目光移动(eye movements)等等。另外，可以产生对内在认知状态(internal cognitive states)以及可观察的身体状态(observable physical states)进行建模的正向基于代理的模拟器(orward agent based simulators)。基于代理的模拟器可以基于所捕获的线索来合成多方之间的各种交互。此外，在一些实施例中，利用机器学习技术的粒子滤波(particle filters)可以执行数千个基于代理的模拟器。可以传播类似于观察到的人群的动作的粒子滤波。机器学习技术可以包括基于所模拟的数据训练递归神经网络以辨识观察到的序列(sequences)。以这种方式，社交行为辨识系统可以推断观察到的个体的内在状态，并基于所述内在状态预测未来可能进行的行为。

在记住前述内容后，图1是根据实施例的社交行为辨识系统10的图示。社交辨识系统10可以考虑广泛多种视觉线索，例如个体位置、面部表情、视线方向、身体姿势、身体运动和/或身体示意动作等等。基于视觉线索，社交辨识系统10可以用完全自动的方式来估计复杂群组层面的社交状态。在一些实施例中，社交行为辨识系统10可以将社交交互分析评估为潜在可变的推断问题。此外，在一些实施例中，社交行为辨识系统10可以包括在不受限制的环境16中自由运行的相机12，其捕获关于多个人14的数据。社交辨识系统10可以用作视频分析流的来源。如下文较全面描述，社交行为辨识系统10可以实例化为实时的、独立(例如，与个体分离)、端对端的社交交互分析系统。

如所描绘，社交行为辨识系统10包括经启用以捕获静态图像、视频或这两个的一个或多个相机12。相机12可以安装在不受限制的环境16的任何合适位置中，例如墙壁、天花板、地板等上。不受限制的环境16可以包括一个或多个人14。举例来说，环境16中可能存在单个人14，或环境16中可能存在一群人14。相机12可以经编程或控制以捕获与人14相关的数据。在一些实施例中，相机12可以可通信地连接到基于云的计算系统18和/或计算装置20。因而，相机12可以将所获得数据发射到基于云的计算系统18和/或计算装置20。发射频率可以是周期性的(例如，每分钟、每5分钟、每30分钟、每60分钟、每天、每周等)或为流式发射(例如，连续实时发射或近实时发射)。在一些实施例中，计算装置20可以是智能电话、智能手表、平板电脑、笔记本电脑、台式电脑等。

经由相机12获得的数据可以由基于云的计算系统18的一个或多个服务器22接收，并且存储在服务器22的一个或多个存储器24中，或存储在基于云的计算系统18中包括的在服务器22外部的一个或多个数据库26中。服务器22可以可通信地彼此连接，并且可以在彼此之间分配各种任务以更有效地执行任务。服务器22还可以包括一个或多个处理器28和通信部件30。通信部件30可以是无线或有线通信部件，其能够促进基于云的计算系统18、相机12和/或计算装置20之间的通信。

处理器28可以是能够执行计算机可执行代码的任何类型的计算机处理器或微处理器。处理器28还可以包括能够执行下文所描述的操作的多个处理器。存储器24可以是能够充当存储处理器可执行代码、数据、数据分析等的非暂时性媒体的任何合适制品。这些制品可以表示计算机可读媒体(例如，任何合适形式的存储器或存储装置)，所述计算机可读媒体可以存储由处理器28用于执行本发明所公开的技术的处理器可执行代码。通常，处理器28可以基于经由相机12所获得的数据来辨识行为，如下文所详细描述。归因于基于云的计算系统18中的服务器22的分布式本质，服务器22的共享资源使得能够进行并行处理以实现实时反馈。举例来说，每个服务器22可以在大体上相同时间负责处理数据的不同部分，并且可以由单个服务器22来收集结果，所述单个服务器22对结果进行组合并且将结果输出到计算装置20。以这种方式，任一服务器22都不会经受计算开销大的任务，并且可以减少处理时间。

数据库26可以存储由相机12所捕获的图像和/或视频数据。并且，数据库26可以存储其它信息，例如认知模型，包括在辨识行为中确定足够精确的递归神经网络和粒子滤波。此外，数据库26和/或存储器24可以存储由相机12所获得的历史视频和/或图像数据。

计算装置20可以存储提供图形用户接口(GUI)的应用程序，所述图形用户接口显示是否检测到一个或多个人14的一定行为，以及与人14相关的任何相关信息和/或将采取的动作(例如，呼叫紧急服务、发出告警声音、触发警告、发送消息、显示警告等)。即，在一些实施例中，所述应用程序可能并不执行任何处理，例如行为辨识方法。实际上，在一些实施例中，所述应用程序可能仅充当由基于云的计算系统18执行的行为辨识技术的数据和结果的前端显示器。举例来说，在客户端-服务器架构中，可以经由计算装置20上的浏览器来接入网站，并且所述网站可以充当精简客户端(thin-client)，这是因为其仅显示由基于云的计算系统18提供的信息，而实际上并不执行任何建模。然而，在一些实施例中，存储在计算装置20上的应用程序可以从相机12接收数据，并且执行本说明书中公开的行为辨识技术。

尽管已关于基于云的计算系统18的服务器22来论述上文所描述的部件，但请注意，类似部件可以构成计算装置20。此外，请注意，所列举部件是作为实例部件而提供，并且本说明书中所描述的实施例不限于参考图1所描述的部件。

相机12可以包括固定红绿蓝与深度(RGB+D)相机，其产生位置和关节肢体运动(articulated body motion)的估计。并且，相机12可以包括摇摄-俯仰-变焦(pan-tilt-zoom，PTZ)相机，其可以负责基于此类跟踪结果来捕获高分辨率面部图像的任务。执行面部特征点拟合(Facial landmark fitting)和跟踪，以便提取面部表情和视线方向。社交行为辨识系统10可以将特定个人线索流(stream of person specific cues)提取成独立于所观察个体的配置和数目的地点层面的汇总统计数据集合。此类测量结果可以包括情绪倾向(emotional affect)(从观察到的面部表情推导)、接近度(从跟踪位置推导)、活动运动(从运动推导)和参与度(从位置和视线方向推导)。社交行为辨识系统10可以连续地产生这些统计数据，从而得到所述统计数据的时间序列表示。基于云的计算系统18和/或计算装置20可以使用图形模型的集合来处理这些测量结果，借此得到各种群组层面的社交状态(例如融洽和敌对)的连续估计。

请注意，社交行为辨识系统10可以包括用于其系统架构的模块化设计。在一些实施例中，社交行为辨识系统10的部件可以利用如下输入：例如来自相机12的原始视频馈入和由其它模块产生的元数据。随后，每个模块可以产生插入到消息传递发布与订用架构中的元数据(metadata)。在使用多个计算平台的情况下，实时社交行为辨识系统10可以包括多相机跟踪、PTZ控制、面部分析、数据合并和社交状态推断。这种类型的模块化设计可以使得能够将多个第三方能力并入到社交行为辨识系统10中。

基于云的计算系统18和/或计算装置20的一个或多个处理器可以执行被实施为计算机指令的各种模块。所述模块可以包括跟踪模块、关节运动分析模块、PTZ相机控制模块、面部分析模块和/或推断模块。

从跟踪模块开始，可以使用检测与跟踪范例来估计位于特定关注区域(例如，环境16)中的每个主体(例如，人14)的位置和轨迹。可以最初相对于世界坐标系统来校准多个RGB+D相机12。来自每个相机12的成像可以用于独立地产生个人检测结果和相关联外观特征标志的集合。可以将这些检测结果与现有跟踪器匹配。与现有跟踪器不关联的检测结果可以用于初始化新的跟踪器。可以终止长久地无法与新的检测结果相关联的跟踪器。

另外，基于云的计算系统18和/或计算装置20可以执行关节运动分析模块。除跟踪之外，RGB+D相机成像还可以用于提取被称作“空时拐角(space-time-corners)”的运动线索。这些线索可以与基于每个主体的所测量位置和高度界定的空间直方图(spatialhistogram)相关联。这些空间/频率分布可以基于用PTC相机12捕获的RGB成像而用作(关节)肢体运动的表示。

关于PTZ相机控制模块，可以最初相对于世界坐标系统来测量每个PTZ相机12的位置。校准程序可以用于将摇摄(P)、俯仰(T)和变焦(Z)值映射到世界坐标系统中的(X，Y，Z)坐标，使得如果面部定位于(X，Y，Z)处，那么来自PTZ相机12的所得成像可以实现各种形式的面部分析。跟踪模块可以用地平面坐标(X，Y)来产生每个人的位置。可以基于主体高度的估计来确定Z值。优化算法可以用于自动地指派PTZ相机12给所跟踪的主体。

关于面部分析模块，在给出由PTZ相机12产生的高分辨率成像的情况下，可以执行以下操作：(1)使用面部检测器来产生主体面部的限界框，(2)使用眼睛检测器来定位主体的眼睛，(3)如果检测到两只眼睛，那么将面部特征点模型拟合到主体面部，(4)可以基于所拟合的特征点模型(the fitted landmark model)的形状来计算竖直和水平视线方向的估计，(5)计算水平眼球位置的估计，从而允许检测例如“躲闪目光(averted gaze)”的事件，(6)可以使用所拟合的特征点模型来合成主体面部的正视图，以及(7)可以使用粗糙面部表情模型来估计常见面部表情的集合。

关于推断模块，在给出与每个人14相关联的元数据流(例如，位置、关节运动、视线方向、面部表情)的情况下，可以产生汇总社交信号的集合。出于推断例如融洽和敌对的群组层面的社交概念的目的，可以使用图形模型来推理汇总社交信号，从而得到与每个社交概念相关联的概率分布的实时估计。

图2是根据实施例的适于产生视频分析流的方法30的流程图。尽管参考基于云的计算系统18的一个或多个服务器22的处理器28来描述方法30的以下描述，但请注意，方法30可以由设置在可能够与相机12和/或基于云的计算系统18通信的其它装置上的一个或多个其它处理器来执行，所述其它装置例如计算装置20或与社交行为辨识系统10相关联的其它部件。另外，尽管以下方法30描述可以执行的多个操作，但请注意，可以用多种合适顺序来执行方法30，并且可能并不执行所有操作。应了解，方法30可以分布在基于云的计算系统18的服务器20之间。请注意，各种模块(例如，跟踪、关节运动分析、PTZ相机控制、面部分析和/或推断)可以用于执行方法30。

现参考方法30，处理器28可以在环境16中经由PTZ相机12来跟踪个体14(框32)。处理器28还可以基于空时兴趣点产生每个个体14的运动特征标志(motion signature)(框34)。处理器28还可以通过控制PTZ相机12来捕获高分辨率面部图像(框36)。并且，处理器28可以基于面部图像来估计面部表情和视线方向(框38)。处理器28接着可以产生视频分析流(框40)。对于每个帧(frame)，视频分析流(video analytics stream)可以由个人描述词的集合(a set of person descriptors)组成，所述描述词对以下各项进行编码：(1)现场坐标位置，(2)运动特征标志(motion-signature)，(3)表情概况(expression profile)(开心、害怕、惊讶、沮丧、愤怒)和(4)视线方向(竖直和水平)。另外，每个个体14可以经由跟踪ID联系到先前的个人观察结果，这可以实现时间分析。

使用视频分析流，基于云的计算系统18和/或计算装置20可以执行基于代理的推断技术，来确定是否辨识出了某一行为。视频分析流中包括的线索的观察结果可以实现群体层面的交互(group level interaction)的分析。此外，线索可以用于表征参与群体层面的行为的个体14的身体状态(physical states)。可以将此类个体14建模为拥有主观形式的内在感受/经历(internal experience)44的认知代理42，如图3中所描绘。

用于这些内在感受/经历44的模型可以包括例如以下概念：情绪、意图、目标、规划、期望、其它个体14的表示等。每个个体14可以被视为代理44，其中每个代理44具有可观察(例如，通过相机12)的身体状态46和直接观察结果不公开(不开放给直接观察)的潜在内在感受44(内在状态)。身体状态46可以包括代理42的相对位置、视线角、表情、示意动作、情感姿势(affective pose)和/或谈吐。另外，如所描绘，内在感受44激励身体状态46。

未来内在感受/经历44可以基于第三方代理42的当前内在感受/经历44以及身体状态46的观察结果。举例来说，图4描绘三个交互代理42之间的这些关系，其各自具有自身的内在感受/经历44和身体状态46。从分析的角度看，可以直接观察到每个代理的身体状态46，而内在感受46可以推断得出。

如果基于身体状态46的观察结果对每个代理42的内在感受/经历44进行估计，那么可以出现/产生形式丰富得多的行为辨识。然而，由于这些方法(these processes)的非线性和随机性质，因此将不可能经由观察结果的直接反演(direct inversion)来计算此类潜在变量。因此，基于对基于代理的行为进行建模从而正向模拟(forward simulate)的能力的推断策略用于本发明的某些实施例。

在给出一群交互个体14(例如，代理42)的观察到的身体状态46的序列的情况下，一些实施例可以推断潜在内在感受/经历44的对应序列。潜在内在感受/经历44和可观察的身体状态46可以由一组符号表征。因而，一些实施例可以在给出观察到的符号序列的情况下导出交错的潜在的和观察到的符号的全序列。通过对与内在感受/经历44相关联的机构进行建模，基于代理的模拟器可以用于合成完全潜在的/可观察的行为序列。此类合成序列的大量集合接着可以经由随机抽样方法产生。基于代理的模拟的一些实施例可以使用两种类型的推断策略：“假设和检验”和“经由机器学习的辨识(Recognition)”。

假设和检验途径可以基于以下想法：(1)合成大量可能的行为序列，(2)单独基于身体符号开发比较任何两个序列的类似性测量/概率函数，和(3)基于最类似的合成序列的潜在符号估计查询序列的潜在符号。由于合成序列的大量集合，一些实施例可以采用“多假设跟踪(Multiple Hypotheses Tracking，MHT)”作为合适形式的推断。具体地说，如下文所论述，一些实施例可以使用粒子滤波框架(particle filtering framework)。举例来说，类似于粒子滤波方法，可以使用其它技术，例如马尔可夫链蒙特卡洛(Markov Chain Monte，MCMC)和吉布斯(Gibbs)抽样(sampling)。

图3中描绘根据实施例的适合于经由基于代理的推断检测行为的方法50的流程图。尽管参考基于云的计算系统18的一个或多个服务器22的处理器28来描述方法50的以下描述，但请注意，方法50可以由设置在可能能够与相机12和/或基于云的计算系统18通信的其它装置上的一个或多个其它处理器来执行，所述其它装置例如计算装置20、或与社交行为辨识系统10相关联的其它部件。另外，尽管以下方法50描述可以执行的多个操作，但请注意，可以用多种合适次序来执行方法50，并且可能并不执行所有操作。应了解，在一些实施例中，方法50可以分布在基于云的计算系统18和计算装置20的服务器22之间。

现参考方法50，处理器28可以从一个或多个相机12接收数据(框52)。该数据可以实现包括各种线索的视频分析流的产生，所述线索例如个体位置、面部表情、视线方向、身体姿势、身体运动和/或身体示意动作等等。处理器28还可以开发正向代理模拟器(forwardagent simulators)以基于该数据对内在情绪(感受/经历)44(认知状态)以及可观察的身体状态46进行建模(框54)。若干方程式可以用于对代理模拟器进行建模。举例来说，可以使用以下方程式：

e_i，t＝f_e(e_i，t-1，{E_j≠i，t-1}，c_i) (方程式1)

E_i，t＝f_E(e_i，t，c_i) (方程式2)

X_i，t＝f_X({X_j，t-1}，c_i) (方程式3)

其中e_i，t是代理i在时间t处的情绪状态(emotional state)(隐藏)，E_i，t是观察到的代理i在时间t处的表情(observed expression)(可观察)，X_i，t是代理i在时间t处的位置和视线方向(可观察)，且c_i是代理i的人物类型(隐藏)。

处理器28还可以合成个体14之间的各种动作(框56)。并且，处理器28可以使用具有递归神经网络的粒子滤波来执行代理模拟器(框58)。粒子滤波可以指代尝试在给出观察结果序列(例如，从观察到的身体状态46导出的线索)的情况下来估计潜在状态变量集合(例如，内在感受/经历44)的时间演变的迭代过程(iterative process)。具体地说，在时间零处，可以任意实例化(instantiated)初始粒子集合(an initial set of particles)。每个粒子可以由初始潜在变量值的估计值和相关联的可观察变量的预测值组成。可以基于所预测的和观察到的身体状态46的类似性计算每个粒子的概率。抽样方法可以用于基于这些概率测量(likelihood measures)指定用于传播到下一迭代的粒子。粒子传播可以基于随机抽样。以这种方式，允许存留能够跟踪观察结果序列的粒子。随后剔除无法预测所观察的行为的粒子。该输出因此是查询序列的最可能解读。

粒子滤波是依赖于对系统动力学的精确建模从而得到精确提议分布的一种形式的搜索。由于内在感受模型随着其演变可能会提高复杂度，因此使用辨识方法作为引导粒子滤波的演变的机构可能有益且可以由本发明的一些实施例使用。为了这个目的，可以使用递归神经网络(RNN)。

RNN可以被视为一种形式的符号序列辨识。出于图示的目的，考虑威廉莎士比亚的全部著作。每个字/词(word)可以由唯一符号表示。那么每个句子可以被视为符号序列(symbolic sequence)。莎士比亚戏剧全集因此变成串联数据(training data)。一旦已经串联RNN，就可以用少至单个符号来给出初始种子序列。RNN接着产生序列中的下一元素的概率分布(probability distribution)。抽样方法接着可以用于选择下一元素。此方法可以重复多次，从而得到看起来类似于串联数据的属性的全序列的合成。举例来说，在给出“The dog”的初始种子的情况下，莎士比亚RNN可以产生以下句子：“The Dog cometh fromyonder castle”。

因此，一些实施例可以包括使用基于代理的模拟器来构建用于构建行为RNN所需的串联数据全集，该行为RNN能够提供行为预测或表征观察到的行为的。此外，对适当串联的RNN进行随机抽样将会并入到粒子滤波框架中。粒子将会具有RNN，而不是每个粒子具有其自身的生产性内在感受模型(generative internal experience models)。粒子RNN可以最初以随机内在符号为种子。粒子RNN接着可以通过对下一身体符号集合进行抽样来预测。可以将这些所预测的身体符号与查询序列的身体符号进行比较。可以允许可能的粒子转变到下一迭代(iteration)。在这种情况下，转变可以包括预测下一个内在符号集合。

如可能了解的，虽然存在潜在大量的可能行为序列，但是总的来说，可能碰到的大部分序列可以与相对较少数目的行为模式相关联。这类似于以下表述：“存在无限数目的可能的电影，然而仅存在12种不同类型的电影”。因而，在给出适当串联数据的情况下，RNN可以封装与此类模式相关联的知识。根据产生高保真度认知的基于代理的模拟器的能力预测推断范例(inference paradigm)的成功。

处理器28也可以确定所预测的符号序列是否匹配查询行为的另一符号序列(框60)。即，处理器28可以用RNN运行粒子滤波的模拟，以预测下一内在符号集合何时匹配查询行为的内在符号和/或身体符号。当存在匹配时，处理器28可以执行动作，例如呼叫紧急服务、发出告警声音、触发警告、显示消息、发送消息等。

图6是根据实施例的包括基于代理的模拟器中所包括的人物情绪和表情的表70。人物类型可以包括开朗的、掠夺的、陌生的、抑郁的和/或紧张的。每个人物类型可以经编程以呈现某些行为。举例来说，开朗的人物类型在模拟时可以使代理移动到人群中心，掠夺的人物类型在模拟时可以使代理更靠近最靠近的代理，陌生的人物类型可以使代理远离其它代理，抑郁的人物类型可以使代理缓慢移动，且紧张的人物类型可以使代理寻求开放的空间。情绪可以包括愤怒、沮丧、中性和/或快乐。此外，观察到的表情74可以包括具有所模仿的相关联表情的面部的表示。如所描绘，各种符号72已与图表70中的每个人物类型和情绪相关联。并且，也已产生观察到的表情74的符号。

图7是根据实施例的所模拟的代理及其交互的视图80。如所描绘，所模拟的代理可以经颜色编码以与其人物类型(例如掠夺的、紧张的和抑郁的)对应。代理可如上文所指出经编程且模拟可以提供关于群体情景中的行为序列的数据。代理可以包括内在感受44(情绪)和身体状态46(位置、注视角和/或表情)。如先前所论述，身体状态46可经由相机12直接观察，而内在感受44是隐藏的且可以通过社交行为辨识系统10推断得出。

图8是根据实施例的使用根据观察到的行为估计的所模拟的代理进行粒子滤波的实例。如上文所指出，粒子滤波可以是尝试在给出观察结果序列的情况下估计潜在变量集合(例如，如情绪等内在感受44)的时间演变的迭代过程。因而，所描绘的所模拟的代理(粒子)可以用于基于所观察到的人物类型和表情符号的对应序列来估计潜在变量符号的序列。在一些实施例中，粒子滤波包括递归神经网络，且保留成功预测符号序列(人物类型和/或情绪)的粒子滤波，而淘汰(例如终止)不成功的粒子滤波。

图9是根据实施例的利用使用递归神经网络进行的粒子滤波执行所模拟的代理而选择的最可能的粒子92的视图90。可以允许最可能的粒子92继续执行以产生行为符号的全序列，由此实现后续动作的预测。如上文所描述，观察结果可以基于经由相机12得到的数据。

本发明的技术效果包括实例化用于行为辨识的基于代理的推断框架。行为辨识可以用于安全监测。尽管人类行为是复杂的，但能够由相机所捕获且由本发明技术所辨识的某些行为模式可被标记以便于审核或操作。此外，在一个实施例中，多个递归神经网络的使用可以准许相对于其它基于视频的行为评估具有更高效和流线型的计算机性能，因为其基于性能只传播某些神经网络，而终止其它神经网络。

实施例实现行为辨识作为使用生产性模型(generative models)来基于认知模型构建可观察的线索的一种形式的分类。因此，行为辨识产生认知状态的估计，从而将得到此类观察结果。基于代理的模拟器可以用于构建串联数据全集(a corpus of trainingdata)，所述串联数据全集用于构建行为递归神经网络。对适当串联的(trained)递归神经网络的随机抽样可以并入到粒子滤波框架中。粒子包括递归神经网络，而不是每个粒子具有其自身的生产性内在感受模型。粒子递归神经网络可以最初以随机内在符号为种子。粒子递归神经网络接着可以通过对下一身体符号集合进行抽样来预测。可以将这些预测的身体符号与查询序列(query sequence)的身体符号进行比较。可以允许可能的粒子转变到下一迭代。转变可以包括预测下一内在符号集合。社交行为辨识系统10可以使用并非由任何个体承载(例如，远离人14定位)的各种相机12。相机12可以用于捕获并且分析个人14在群体/群组层面的交互中的非语言线索(例如，情绪倾向、接近度、活动/运动、参与度)。

本说明书用实例来公开包括最佳模式的实施例，并且还使所属领域的技术人员能实践所公开的主题，包括制造和使用任何装置或系统以及执行任何包括在内的方法。发明主题的可专利性范围由权利要求书界定，并且可以包括所属领域的技术人员能够得到的其它实例。如果此类其它实例具有并非不同于权利要求书的字面语言的结构要素，或如果它们包括与权利要求书的字面语言无实质差异的等效结构要素，那么它们既定在权利要求范围内。

Claims

1.一种方法，其包括：

从环境中的一个或多个相机接收与一个或多个个体相关的数据；

执行一个或多个基于代理的模拟器，其各自操作来产生相应个体的行为的模型，其中每个模型的输出是表示所述相应个体在模拟期间的内在感受的符号序列；并且

当所述符号序列匹配查询行为的查询符号序列时预测所述相应个体中的每一位的后续行为。

2.根据权利要求1所述的方法，其中，每个模型使用粒子滤波，且每个粒子包括基于所述数据迭代地估计所述符号序列的时间演变的递归神经网络；其中，允许包括类似符号序列的粒子转变到下一迭代，以预测所述符号序列的下一内在符号集合。

3.根据权利要求2所述的方法，其中，终止并不包括类似符号序列的粒子。

4.根据权利要求2所述的方法，其中，所述递归神经网络用于基于所述符号序列预测所述后续行为；其中，所述递归神经网络最初以随机内在感受符号为种子；其中，所述递归神经网络通过以下方式预测所述后续行为：对下一身体状态符号集合进行抽样并将所述下一身体符号集合与所述查询符号序列的身体状态符号进行比较。

5.根据权利要求1所述的方法，其中，所述符号序列包括人物类型、情绪、观察到的表情或其某一组合的已存储图形；其中，所述人物类型包括开朗的、掠夺的、陌生的、抑郁的或紧张的，并且所述情绪包括愤怒、沮丧、中性或快乐。

6.一个或多个有形的非暂时性计算机可读媒体，所述媒体存储计算机指令，所述计算机指令在由一个或多个处理器执行时使得所述一个或多个处理器来：

执行一个或多个基于代理的模拟器，其各自对相应个体的行为进行建模且各自输出表示所述相应个体在模拟期间的内在感受的符号序列；并且

7.根据权利要求6所述的一个或多个计算机可读媒体，其中，每个模型使用粒子滤波，并且每个粒子包括基于所述数据迭代地估计所述符号序列的时间演变的递归神经网络；其中，允许包括类似符号序列的粒子转变到所述下一迭代以预测所述符号序列的下一内在符号集合。

8.一种系统，其包括：

一个或多个相机，其捕获与环境中的一个或多个个体的行为相关的数据；

一个或多个计算装置，其包括进行以下操作的一个或多个处理器：

从环境中的一个或多个相机接收与一个或多个个体的所述行为相关的所述数据；

执行一个或多个基于代理的模拟器，所述一个或多个基于代理的模拟器各自对相应个体的所述行为进行建模且各自输出表示所述相应个体在模拟期间的内在感受的符号序列；并且

当所述符号序列匹配查询行为的查询符号序列时预测所述相应个体中的每一位的后续行为；以及

显示器，其连接到所述一个或多个计算装置并且被配置成显示表示所述后续行为的指示。

9.根据权利要求8所述的系统，其中，所述一个或多个相机包括捕获位置和肢体运动的估计的红绿蓝深度(RGB+D)相机，以及捕获面部图像的固定相机和摇摄俯仰变焦(PTZ)相机。

10.根据权利要求8所述的系统，其中，所述一个或多个计算装置包括智能电话、智能手表、平板电脑、笔记本电脑、台式电脑、基于云的计算系统中的服务器或其某一组合。