CN109475294A

CN109475294A - 用于治疗精神障碍的移动和可穿戴视频捕捉和反馈平台

Info

Publication number: CN109475294A
Application number: CN201780036661.1A
Authority: CN
Inventors: 傅凯林; N·J·哈伯; D·P·沃尔; A·S·克里尼; T·A·维诺格拉德
Original assignee: Leland Stanford Junior University
Current assignee: Leland Stanford Junior University
Priority date: 2016-05-06
Filing date: 2017-05-08
Publication date: 2019-03-15
Anticipated expiration: 2037-05-08
Also published as: EP4296935A2; US11937929B2; JP6815486B2; US20170319123A1; KR20190025549A; US20220202330A1; EP3452935A1; CN109475294B; US11089985B2; US20210022657A1; CA3023241A1; US10835167B2; WO2017213780A1; EP3452935B1; JP2019522300A; EP3452935A4; EP4296935A3; ES2964705T3; JP2021057057A

Abstract

根据本发明若干实施例的行为和心理健康治疗系统包括连接到计算系统的可穿戴相机和/或各种传感器(加速度计、麦克风以及各种其它传感器)，其中计算系统包括显示器、音频输出端、全息输出端和/或振动触觉输出端，以从由至少一个相机捕获的图像中自动识别社交线索，并经由一个或多个输出端将这个信息提供给穿戴者，诸如(但不限于)显示图像、显示全息覆盖图、生成听觉信号和/或生成振动。

Description

用于治疗精神障碍的移动和可穿戴视频捕捉和反馈平台

技术领域

本发明涉及提供使用移动和可穿戴视频捕获系统来提供行为障碍治疗的系统和方法。特别地，计算系统运行软件系统，该软件系统利用分类器来检测由系统捕获的图像内可见的面部中的表情，并作为其治疗的一部分向用户提供反馈。

背景技术

众所周知，如自闭症、焦虑症、抑郁症、双相情感障碍、精神分裂症、创伤性脑损伤、阿尔茨海默氏症和帕金森病等精神障碍会对社交交互产生负面影响。例如，大约68个儿童中的一个和46个男孩中的一个患有自闭症，并且由于他们的状况而难以识别面部表情、进行眼神接触以及进行社交交互。

获得或重新获得这样的社交技能可能需要密集的行为干预，这常常是昂贵的、难以访问的并且被不一致地管理。例如，目前的自闭症和其它一些障碍的护理标准涉及“闪卡治疗”，其涉及面部情绪的艰苦记忆。因此，许多患有自闭症的儿童无法建立核心社交技能，并且很快就会走下恶化他们的症状的孤立道路。

发明内容

公开了根据本发明各种实施例的用于使用移动和可穿戴视频捕获系统来提供行为和精神健康障碍治疗的系统和方法。在一个实施例中，一种图像处理系统包括：至少一个相机，用于捕获周围环境的图像；至少一个处理器和包含软件的存储器；并且该软件指示所述至少一个处理器：获得包括由所述至少一个相机捕获的图像序列的数据；检测图像序列中的若干图像内的至少一个人的面部；对所述若干图像中的每个图像中的所述至少一个人的检测到的面部并且使用分类器执行中性特征估计和相减，并基于所述若干图像来检测该面部中的至少一个情绪线索；基于该情绪线索识别至少一种情绪；以及实时地显示至少一个情绪指示符标签，以提供治疗反馈。

在另一个实施例中，该系统包括可穿戴视频捕获系统，该可穿戴视频捕获系统包括至少一个面向外的相机。

在又一个实施例中，可穿戴视频捕获系统选自包括以下的组：虚拟现实耳机、混合现实耳机、增强现实耳机和包括平视显示器的眼镜。

在另一个实施例中，可穿戴视频捕获系统与至少一个移动设备通信，并且所述至少一个处理器在所述至少一个移动设备上执行。

在又一个实施例中，软件指示所述至少一个处理器获得补充数据，该补充数据包括从选自包括以下的组的至少一个传感器捕获的数据：麦克风、加速度计、陀螺仪、眼睛跟踪传感器、头部跟踪传感器、体温传感器、心率传感器、血压传感器和皮肤电导率传感器。

在又一个实施例中，软件指示所述至少一个处理器实时地显示至少一个情绪指示符标签，以通过执行在平视显示器内显示标签、生成听觉信号、生成振动、显示全息覆盖以及显示图像中的至少一个来提供治疗反馈。

在又一个实施例中，软件指示所述至少一个处理器在与图像内检测到的面部相关的感兴趣区域内以更高分辨率处理图像数据。

在又一个实施例中，感兴趣区域是检测到的面部周围的边界区域，其中处理数据还使用移动平均过滤器来平滑感兴趣的边界区域。

再次在又一个实施例中，软件指示所述至少一个处理器通过以下对所述至少一个人执行中性特征估计和相减：执行面部检测；执行基准点面部跟踪；执行面部与规范尺寸和姿势的配准(registration)；执行照明规格化预处理；生成关于面部的感兴趣区域中的梯度直方图特征提取；以及经由逻辑回归分类器对面部表情进行分类；和对结果所得的分类的过滤。

再次在又一个实施例中，表情线索包括选自包括以下的组的信息：面部表情、面部肌肉移动、身体语言、手势、身体姿势、眼睛接触事件、头部姿势、谈话的特征、烦躁和焦虑信息。

再次在又一个实施例中，使用统计上有代表性的社交表情数据的训练数据集来训练分类器，并且该分类器提供基于事件的社交线索。

在又一个附加实施例中，软件指示所述至少一个处理器用目标个体的用户标记数据来补充训练集。

再次在又一个实施例中，软件指示所述至少一个处理器使用训练数据和目标个人的用户标记数据来训练分类器，使得与在训练数据中的其他个人的面部中检测至少一个情绪线索的分类器的性能相比，分类器实现更高的在目标个人的面部中检测至少一个情绪线索的性能。

再次在另一个实施例中，软件指示所述至少一个处理器：提示用户用至少一个情绪线索标签标记目标个人的数据；并将用于目标个人的用户标记数据存储在存储器中。

再次在又一个实施例中，软件指示所述至少一个处理器存储社交交互数据并提供用户界面用于回顾社交交互数据。

在又一个附加实施例中，分类器是提供连续社交线索的回归机器。

在又一个附加实施例中，使用标准面部表情的视频数据并利用表达性说话序列训练分类器作为视觉时间相关分类器。

再次在又一个实施例中，软件指示所述至少一个处理器使用至少一个面向内的眼睛跟踪数据结合面向外的视频数据来检测注视事件。

再次在又一个附加实施例中，软件指示所述至少一个处理器提供对记录的活动的回顾，并提供作为对记录的活动的反应而生成的用户行为数据。

再次在又一个实施例中，对所述至少一个人的面部执行中性特征估计和相减包括基于在中性减去特征上训练的第一表情分类器和在原始(未被中性减去的)特征上训练的第二2类中性/表情分类器的输出来执行中性表情相减。

在一个实施例中，一种行为治疗系统包括：至少一个相机，用于捕获周围环境的图像；至少一个处理器和包含软件的存储器；其中软件指示所述至少一个处理器为先前存储在系统的存储器内的若干图像中的每一个显示表达特定情绪的人的面部的图像，其中该图像与该特定情绪相关联；从观看该图像的用户接收关于用户已经选择的情绪的输入，其说明该情绪已被人的面部描绘；确定从用户接收到的输入是否与该特定图像相关联的特定情绪匹配；以及基于用户的选择向用户提供反馈。

在另一个实施例中，一种行为治疗系统包括：至少一个相机，用于捕获周围环境的图像；至少一个处理器和包含软件的存储器；其中软件指示所述至少一个处理器：实时地捕获人的视频；使用至少一个分类器检测人的面部的情绪；提供关于当前未被检测到的应当在人中引发的不同情绪的指示；确定情绪是否在一定时间段内被引发(elicit)；以及向系统的用户提供关于他们引发情绪的能力的反馈。

附图说明

参考以下附图和数据图将更全面地理解本描述，这些附图和数据图作为本公开的各种实施例呈现，并且不应当被解释为本公开的范围的完整叙述，其中：

图1图示了根据本发明实施例的行为治疗系统。

图2示出了根据本发明实施例的行为系统的示意性概述，其中可穿戴捕获设备向计算设备提供自我中心视频和其它感官数据。

图3图示了根据本发明实施例的可穿戴捕获设备，它是一副智能眼镜，其向移动计算设备提供自我中心视频和其它感官数据。

图4图示了根据本发明实施例的、可以根据感官数据生成社交线索的社交动作识别系统。

图5提供了根据本发明实施例使用的面部跟踪器和面部表情/动作单元识别处理的交互的放大视图。

图6图示了根据本发明实施例的、用于集成面向外的视频数据和可能面向内的眼睛跟踪数据以检测可以导致社交线索的相互注视或单向注视事件的处理。

图7图示了根据本发明实施例的、用于集成面向外的视频数据和可能面向内的眼睛跟踪数据以检测可以导致社交线索的相互注视或单向注视事件的处理。

图8示出图示了根据本发明实施例的、产生社交信息或线索以将其给予设备的穿戴者和其他用户的系统。

图9图示了根据本发明实施例的、用于训练分类器的训练数据的标签校正的处理。

图10图示了根据本发明实施例的高维机器学习系统的示例。

图11图示了根据本发明实施例的、可穿戴眼镜与移动电话之间的帧的分组流可以借此在包括“完整”面部帧和“放大”帧之间交替的处理。

图12图示了根据本发明实施例的、可以在平视显示器中显示的各种类型的视觉反馈。

图13图示了根据本发明实施例的在移动设备上执行的应用，该应用提供针对人检测到的情绪的指示。

图14图示了根据本发明实施例的、可以按时间次序包含先前会话记录的新闻馈送状视图的回顾系统。

图15图示了根据本发明实施例的、用于选择应用的各种设置的若干UI。

图16图示了根据本发明实施例的在移动设备上执行的应用，该应用提供针对人检测到的情绪的指示。

图17图示了根据本发明实施例的、执行行为治疗系统的移动设备的各种UI。

图18图示了根据本发明实施例的、回顾应用借此允许用户和护理人员回顾一天中记录的活动的UI。

图19图示了根据本发明实施例的用于中性相减的算法。

图20图示了来自特定研究的结果，其示出了从摄入到结论的SRS得分。

图21图示了特定研究的图表，其示出了从摄入到结论的SRS得分的变化。

具体实施方式

现在转向附图，图示了根据本发明各种实施例的、用于使用移动和可穿戴视频捕获系统来提供针对行为和精神健康障碍的治疗的系统和方法。移动和可穿戴设备(诸如Google眼镜等智能眼镜以及包括类似于Microsoft Hololens的混合现实显示器的设备)的出现为开发将社交学习体验带入患者家中的应用提供了机会，例如通过在可穿戴系统上实时地给出最低限度的突出(obtrusive)社交线索、通过回顾某些可观察和可测量的行为进展指标(诸如(但不限于)眼神接触的量和类型)、或通过回顾情绪交互的视频记录来识别在给定情境下哪些方面进展顺利或表现不佳。在以下详细描述中，公开了用于使用移动和可穿戴视频捕获方法作为行为障碍的治疗的系统以及实现这种系统并且可以在医学或非医学社交识别任务的其它类似领域中有用的各种新颖方法。

根据本发明若干实施例的行为治疗系统包括连接到计算系统的可穿戴相机和/或各种传感器(加速度计、麦克风，以及各种其它传感器)，其中计算系统包括显示器、音频输出端、全息输出端和/或振动触觉输出端，以自动识别来自由至少一个相机捕获的图像的社交线索，并经由一个或多个输出端将这个信息提供给穿戴者，诸如(但不限于)显示图像、显示全息覆盖图、生成听觉信号和/或生成振动。在多个实施例中，可穿戴行为治疗系统采用增强现实、混合现实或虚拟现实耳机的形式，其结合了相机并依赖耳机内的处理器和/或经由有线和/或无线数据连接与耳机通信的移动电话听筒中的(一个或多个)处理器来处理图像数据并生成显示。在某些实施例中，受试者(具有精神障碍的个人)穿戴耳机，该耳机通过向外的相机捕获视频帧，以及其它生理(例如，体温、心率)和行为/感觉数据(例如，音频信号、眼睛跟踪，头部跟踪等)并将这些数据实时地发送到在移动电话上运行的应用。在若干实施例中，计算系统运行软件系统，该软件系统利用分类器来检测由相机捕获的图像内可见的面部中的面部和/或表情事件。在多个实施例中，计算系统还能够从捕获的图像和/或其它传感器数据中识别其它社交线索。在某些实施例中，机器学习系统被用于基于统计上有代表性的社交表情数据的训练数据集来训练一个或多个分类器。计算系统可以利用分类器来识别和/或计算具体社交线索的可能性(例如，关于受试者与之交互的人的情绪)，并且可以通过音频和/或视觉反馈向穿戴者传达检测到的面部和/或检测到的社交线索的存在。另外，计算系统可以在本地或经由远程存储服务存储社交交互数据，并且可以提供用于对这些数据进行策划(curated)回顾的用户界面。

根据本发明的许多实施例，以下描述可以对系统和用于实现该系统的各种部件的多种方法进行的多个修改、校准系统的机器学习部件以针对特定的参与者和他们的护理人员工作良好、积极训练系统以改进那些人的表现、扩展机器学习部件的能力，以及将提议的系统集成到普通行为治疗的环境中。

在高级别，许多实施例中的可穿戴行为治疗系统可以执行各种功能，包括(但不限于)以下的任意组合：

1.在作为患者日常生活的一部分(例如，晚餐)的非结构化社交交互期间，可穿戴设备可以用作实时的社交交互辅助。

2.为了提供更具吸引力的交互模式，该系统可以包括具体的游戏化活动，该活动以最佳利用系统和/或提供适当治疗价值的方式鼓励行为强化。这种活动的一个示例是这样一种游戏，其中一组儿童被挑战通过在使面部包含情绪的另一个人(例如，成年人、兄弟姐妹)中激发情绪来“捕捉”一定数量的所选情绪，例如，通过恭维来激发快乐的面部。另一个示例是奖励患者模仿他人的表情。

3.在使用一段时间后，患者及其护理人员可以回顾从患者的角度记录的活动(是指彼此之间和朝着患者的另一方的交互)以及患者以行为和生理数据的形式对那些情境的反应(例如，进行的眼神接触、模仿的表情等)

4.在使用该系统之后，可以用某种用户指导的标记来补充结果所得的数据(例如，在表情识别的应用中，用户可以在视频中校正“不正确地”分类的序列)。然后，可以使用(可能重新标记的)数据来改进系统的机器学习部件，以或者提高给定任务的识别准确度或者学习识别超出给定任务的社交交互事件。

自然地，这些特征的任意组合可以适合于不同条件、年龄、家庭等的用户。

以下将描述用于在本发明的许多实施例中实现这些特征的各种系统部件以及它们如何在高级别交互，然后解释可以如何具体地实现特征1-4，然后描述在仍然追求类似的治疗目标的同时系统可以如何以不同的方式构建的一些扩展。

行为治疗技术系统

返回附图，图1图示了根据本发明实施例的行为治疗技术系统，该系统包括计算设备107，该计算设备107使得能够执行类似于本文所述的数据处理和用户界面方法。计算设备可以例如是智能电话、台式计算机、膝上型电脑、智能电视、智能手表、智能眼镜以及其它通常描述的计算机。计算设备的处理器105执行写在存储器106中的计算机程序。处理器与I/O设备101一起工作，以将数据指引到存储器或远程存储装置，并将数据从存储器或远程存储装置发送到处理器以供处理或发送到通信网络。处理器可以是例如适于用在用户计算机中的任何商用处理器或多个处理器(例如，多核处理器、微体系架构Nehalem、AMD Opteron^TM多核心处理器等)。如本领域技术人员将认识到的，处理器还可以包括允许计算设备连接到诸如相机之类的传感器以及显示器、键盘、鼠标、轨迹球、触控板和/或任何其它用户输入/输出设备(未示出)或者查看内容的部件(例如，图形或视频卡)。

存储器可以存储本发明的计算机指令以及数据(例如，原始数据、经分析的数据、视频内容等)。照此，存储器可以既包括诸如硬盘、闪存、光盘等之类的非易失性存储器，又可以包括诸如SRAM、DRAM、SDRAM等之类的易失性存储器，如本发明的各种实施例所要求的。如本领域技术人员将认识到的，虽然存储器被描绘为单个部件，但是可以重新发送多种不同类型的存储器，并且存储器也可以是连接到用户计算机或与用户计算机通信的分开的部件或设备(例如，作为远程存储装置)。照此，在一些实施例中，存储数据的存储器的部分可以被实现为网络附连的存储装置(NAS)、存储区域网络(SAN)、直接存取存储装置(DAS)或其任意组合，包括例如多个硬盘驱动器。而且，这种数据可以存储在一个或多个数据库、表或字段中。如可以容易地认识到的，所使用的具体存储装置很大程度上取决于具体应用的数据要求。

在所示系统中，一个或多个此类计算设备运行行为处理程序108，该行为处理程序108可以被实现为存储在计算系统的存储器中的应用，以处理各种感官数据103并将一些情境信息(诸如是否存在面部、眼神接触的量等)和/或社交线索(其包含关于行为数据中记录的社交交互的信息)实时地输出到诸如显示器、振动触觉设备、音频设备或某种其它设备(104)之类的输出端。社交线索取决于情境，并且可以基于多个传感器。例如，可以使用机器学习模块(在下面的特征(1)的描述中进一步详细描述)来处理来自面向外的相机的视频数据，以识别穿戴者的视场中人的面部情绪。自然地，视频数据可以以任何适当的格式(诸如RGB、灰度等)来指代与其帧速率无关的移动图像数据，并且这些数据可以包含深度信息并且可以从诸如单眼或多视图(例如，立体)相机或红外相机阵列之类的各种设备捕获。在系统的一个实施例中，来自加速度计和/或眼睛跟踪数据的患者的头部姿势和/或眼睛注视用于发现在患者与其他人之间发生的相互注视事件，并基于这些数据调整社交线索。下面参考图4-10讨论可以在本发明的各种实施例中使用的方法的细节。在图示不同感官数据的组合的一个示例中，使用从面向外的相机接收的视频数据中的面部表情识别、从麦克风接收的声音中的音频数据处理，以及从红外眼睛跟踪相机接收的视频数据中的眼睛跟踪，行为处理引擎可以识别患者正在详细谈论对他或她的对话伙伴来说可能不再感兴趣的主题，从而导致相互注视越来越少和否定的表情。这里由该系统计算的适当社交线索可以是“暂停：问一个问题”。在其它实施例中，可以由行为治疗系统适当地根据具体应用的要求生成各种反馈线索中的任何一个。

图2示出了行为辅助系统的具体实施例的示意性概述，其中可穿戴捕获设备201向计算设备203提供自我中心视频和其它感官数据202，计算设备203处理数据以识别与患者交互的人的社交动作(诸如面部表情)以及患者对这些动作的响应并且计算适当的社交线索(例如关于情绪)，这些线索进而通过一个或多个输出设备204传达回患者。

一般而言，在本发明的许多实施例中，可穿戴设备允许视频数据捕获(在上面定义的意义上)和/或向用户提供反馈(例如视觉、通过平视显示器或音频、通过骨传导扬声器或耳机)中的至少一个。既支持反馈又支持视频捕获的常见商业示例包括Google眼镜、VuzixM100、Epson BT-200、ODG R6和Microsoft Hololens。能够仅递送反馈(并且可能捕获音频或生理数据)的设备包括例如Motorola Moto Hint。可穿戴设备本身可以是或可以不是上面关于图1描述的意义上的计算设备。

返回到图2的实施例，患者以从他或她的观点捕获自我中心视频的方式穿戴可穿戴计算设备(例如，通过胸部或头部安装)。患者(也称为“穿戴者”、“用户”或“受试者”)一般是具有一种或多种行为挑战或精神障碍(诸如自闭症、焦虑症、双相情感障碍、抑郁症、精神分裂症、阿尔茨海默氏症和帕金森症)的个人，其使用该系统作为某种形式的给药治疗的一部分、作为行为干预，或作为学习辅助。但是，在一些形式的治疗中，穿戴者可以是护理人员而不是患有精神障碍的个人。可穿戴设备获得视频和其它感官数据202，例如生理数据，诸如心率、血压、皮肤电导率、蚀刻的测量和/或通过眼睛跟踪器或患者的面部的患者眼睛的附加数据。一般而言，“眼睛跟踪器”可以是用于监视与系统交互的人的眼睛移动的硬件设备，其可以使用一个或多个相机、深度传感器、红外照明源以及通常在此类设备中找到的其它部件，这些部件的目的在于识别瞳孔位置和/或注视方向。眼睛跟踪器可以是任何商业上可获得的系统，如Tobii Pro眼镜或SMI眼睛跟踪眼镜2，或者可以简单地是单眼相机(可能由红外发光源补充)。眼睛跟踪器自己生成视频数据，该数据可以由结合眼睛跟踪器的更大系统在软件中进行后处理(如在Pupil Labs Project眼睛跟踪器的情况下)，或者这种处理可以在眼睛跟踪硬件自身当中实现(如在Tobii或SMI眼睛跟踪系统的情况下)。

来自各种源的补充感官数据与面向外的视频数据一起发送到计算设备203。在执行行为跟踪程序的步骤后，然后将计算出的社交线索发送到一个或多个输出设备(这可以包括计算设备203和可穿戴设备201本身，如果它们能够输出的话)并且被输出，以向患者和他或她的护理人员提供实时反馈。

在图2的系统的一个具体实施例中，自我中心相机(经由电线连接或者诸如WiFi或蓝牙的联网连接)可以用作输入设备，而耳塞(经由电线连接或者诸如WiFi或蓝牙的联网连接)可以用作音频输出设备。在这种情况下，移动处理将适当的输出直接发送到耳塞中的扬声器。

在许多实施例中，可穿戴捕获设备可以与移动设备配对，该移动设备提供用于处理被捕获的图像的计算资源。图3描述了一个实施例，其中可穿戴捕获设备是向移动计算设备303提供自我中心视频和其它感官数据202的一副智能眼镜302，移动计算设备303处理数据以识别与患者交互的人的社交动作(诸如面部表情)以及患者对那些动作的响应并且计算适当的社交线索(例如关于情绪)，这进而通过智能眼镜302和/或移动设备303的平视显示器或音频输出端传达回患者。

取决于治疗目标，可以以其他人(诸如护理人员或患者)注意到或不注意到它的方式来设计这种反馈。参考图12，视觉反馈可以例如由在平视显示器中显示的文本201、颜色202或情绪203或这些的任何组合组成。这种反馈可以是离散的(即，具体事件的信息)或随时间改变(例如，诸如向患者指示他或她的对话伙伴204的兴趣水平的“当前兴趣水平”得分之类的得分)。音频反馈包括叙述者读出名称情绪或读出具体线索，以及与情绪或其它社交线索相关联的一系列有趣的声音效果。取决于被选作可穿戴设备的硬件平台，可以通过全息投影将视觉反馈扩展到在世界视图(the view of the world)上覆盖信息(例如，当使用如Microsoft Hololens的混合现实系统而不是Google眼镜时)。以其最简单的形式，它采用图12中的反馈“屏幕驱动”接口，并将它们投影到社交线索引用的人附近。在这种方法的更复杂的实施例中，可以对关于社交线索的反馈进行本地化。例如，像“快乐”这样的情绪线索可以通过在人的嘴上覆盖图形并且提醒用户表情的位置来突出个人表情。反馈还可以包括通过视觉、听觉或振动提示确认穿戴者当前正在看并与面部接触(engage with)。这可以从简单地显示是否和/或在哪里检测到面部，到指示在用户的视场内与某人接触的更时间敏感的测量，到在一个人的视场内的用户可以接触的定向、本地化或非本地化的反馈。所述反馈可以隐含地或明确地传达对参与的奖励。反馈还可以包括向穿戴者建议关于如何在发生某些社交线索或情境时做出响应。

返回到图3，除了实时社交反馈之外，还可以将情境信息发送回可穿戴设备以用于涉及游戏化活动的界面，如下面进一步描述的。

在图2和图3中，视频和其它感官数据可以被实时地发送(使用适当的传输和可能的压缩模型，而对于低等待时间应用可以希望省略压缩)或者可以被高速缓存以供将来处理。另外，除了为实时目的而流式传输较低分辨率帧之外，还可以将包含视频的较高信息密度(即，颜色或分辨率)的任何视频数据的版本高速缓存在可穿戴设备上以供将来传输。

在许多实施例中，可穿戴设备可以包括各种传感器中的任何一种，包括向内和向外相机、加速度计、陀螺仪、平视显示器和麦克风。图3中图示了根据本发明实施例的包括向外相机、加速度计、平视显示器和/或麦克风的可穿戴眼镜301。可以使用固定装置将眼睛跟踪器附连到这个设备，其中固定装置经由电线连接到或者可穿戴眼镜或者移动设备。在该系统的某些实施例中，行为辅助“单元”包括经由无线网络连接的一副可穿戴眼镜(诸如运行Android操作系统的Google眼镜)和移动电话(诸如Nexus 6)。可穿戴眼镜可以充当用于视频和头部姿势数据的感官输入设备，以及通过骨传导扬声器、可选的耳塞和平视显示器的输出设备。为了在眼镜上节省有限的电池寿命和处理能力，可以在电话上处理许多计算密集型任务，诸如帧处理、视频编码和数据存储。当用户想要开始或结束新活动时，他们可以使用移动应用，该应用可以使用轻量级通信协议来触发可穿戴眼镜上的正确活动，并提示眼镜开始以大约每秒30帧的速度使用UDP分组流捕获相机帧。这可以通过在电话上产生热点并将作为客户端的可穿戴眼镜连接到WFi网络以电池高效的方式实现。当捕获新帧时，可以将全帧和其它传感器数据以及面部区域的高分辨率图像发送到电话以进行处理。电话可以以并行方式编码并存储视频数据和/或通过标签识别流水线来运行帧。然后，它可以将包括关于所跟踪的(一个或多个)面部和表情的元数据的结果所得的分组发送到眼镜。眼镜可以解释结果并显示适当的社交线索(或者在显示器上或者作为音频)。这个处理可以实时地发生，等待时间小于50ms。

参考图11中描述的处理，可穿戴眼镜与移动电话之间的帧的分组流可以在包括“全”面部帧与表示某个感兴趣区域的更高分辨率的用于更细粒度的处理的“放大”帧(例如，面部)之间交替。关于从行为处理引擎1101输入的情境信息，该处理(在图3的具体实施例中在可穿戴相机捕获系统上或者在与图1一致的其它实施例中在系统中的任何其它计算设备中最容易实现)识别感兴趣区域(例如，通过在面部被跟踪的基准点或者在人的身体周围的边界矩形或其它形状给出)。基于这些区域的时间流以及可能来自可穿戴设备的其它相关联数据，计算、过滤新的估计的感兴趣区域，并且将这个区域的高分辨率裁剪发送回行为处理引擎。在这个方法的简单实施例中，所发送的情境信息包括被跟踪的面部的边界。基于这些界限，可以计算固定帧尺寸的初始裁剪，使得面部边界最集中地包括在帧中。这作为“当前估计”被维持并且所有帧都被裁剪到这个估计，直到情境信息包含或者在原始帧中在当前估计之外或者对于某个固定数量的帧不包含感兴趣区域的感兴趣区域。在该系统的另一个更复杂的实施例中，移动平均或Kalman过滤器用于“平滑”围绕在每帧上更新后的当前面部估计的感兴趣边界区域。如可以容易地认识到的，根据本发明的各种实施例，可以适当地根据具体应用的要求使用各种处理中的任何一种。

返回到整个系统体系架构，描述了具有一个高级设置的功能上类似的修改的各种实施例以及使得本领域技术人员能够实现这些设置的方法。当然，这些还可以扩展并且不应当被视为限制。在图2-3的各种实施例中，可以扩展或省略系统的各种部件。在图2中，例如，可穿戴捕获设备和移动处理单元可以是同一个设备，而不是经由网络连接连接的两个分开的实体(例如，可以想到具有集成相机的智能电话)。这大大简化了关联描述的系统的体系架构，因为在两个不同的应用之间不需要联网。但是，需要使用能够执行实现下面描述的特征(的至少一部分)所需的处理的可穿戴计算设备。在又一个实施例中，图1-3的系统可以用仅仅被用作“检查站”以回顾从主捕获和实时反馈系统搜集的数据和见解(例如视频和行为统计)的计算设备扩展。总之，在这些实施例中可以采用各种商业上可获得的硬件系统(如上面所讨论的)，在成本、功能和突出性方面进行权衡，这可以适合于本发明的某些具体应用，例如在行为治疗中。

(1)社交动作识别系统和非结构化社交线索：

虽然前一节解释了如何将这种引擎“连接”到我们的系统中，但是本节着重于创建可以用于获得有用的社交线索的机器学习和数据处理系统。

参考图4，图示了根据本发明实施例的社交动作识别系统，该系统可以根据感官数据生成社交线索。所示实施例依赖数据捕获机制(音频、视频、加速度计等)407，然后将其馈送到输出与所递送的数据相关、对数据流实时地执行或对数据集离线执行的社交信息408(面部表情、面部肌肉移动、身体语言、手势、身体姿势、眼睛接触事件、头部姿势、谈话的特征、烦躁或焦虑的其它表现等)的处理系统中。

在高级别，社交动作识别系统包括人工智能系统和硬连线规则集。人工智能(Al)系统通常可以包括一系列预处理步骤、机器学习分类器和后处理步骤。来自Al系统的输出可以被传递到“硬连线”系统(在这里作为行为处理引擎406的一部分)，该系统可以实现规则集并输出最终的社交线索。

这些机器学习系统部件一般可以被实现为回归或分类机器。在回归的情况下，Al系统最常产生连续的社交线索(例如“快乐”得分)。在分类的情况下，它通常产生基于事件的提示(例如“生气”时刻)。如机器学习领域的技术人员所知，取决于分类器的实现，系统通常可以容易地被配置为在这两种类型的线索之间进行转换。输出的离散和连续线索在其反馈界面中常常被区别对待，如前一节所讨论的。

社交交互系统的若干实施例可以采用各种子系统，诸如面部跟踪模块403、表情识别模块401、注视跟踪模块402、音频处理模块404、加速计数据处理模块405和计算最终输出的行为处理引擎，如图中所描绘的那样接线。当然，取决于系统的应用，可以使用这些模块的任意组合。

为了以适当的细节描述这些模块，分别考虑它们的输入和处理是有帮助的。首先考虑部分403和401的交互，图5提供了关于在本发明的多个实施例中使用的面部跟踪器和面部表情/动作单元识别处理的交互的放大视图508。限制对视频数据的关注，一次一个图像地提供对处理的输入，其目标是输出与每个帧相关的社交信息。本文描述的方法主要集中于处理来自单目相机的输入，但是如本领域技术人员将认识到的，所提出的新颖系统本身可以通过处理附加传感器输入并且仍然维持本文所述的处理、记录和回顾结构来扩展。

用于识别面部表情或面部动作的处理可以包括以下各条：(1)面部检测501和/或(2)基准点面部跟踪502，(3)面部与规范尺寸和姿势503的配准，(4)照明规格化预处理技术504，(5)关于面部505的感兴趣区域中的梯度直方图特征提取，(6)经由在图像数据506上训练的逻辑回归分类器对面部表情进行分类，以及(7)过滤结果所得的分类507。在2016年IEEE计算机视觉应用冬季会议(WACV)上由Nick Haber、Catalin Voss、Dennis Wall、AzarFazel和Terry Winograd的论文“A practical approach to real-time neutralsubtraction for facial expression recognition”中描述了一种这样的处理流水线，其相关公开内容通过引用整体并入本文。图5给出了如何使用文献中已知的方法完成这些操作中的每一个的示例。例如，步骤(3)中的配准是明显的几何过程，并且步骤(4)中的照明规格化可以使用Tan Xiaoyang和Bill Triggs在Image Processing，IEEE Transactions on19.6(2010)：1635-1650页的“Enhanced local texture feature sets for facerecognition under difficult lighting conditions”的方法来完成，其公开内容通过引用整体并入本文。在T.B.Moeslund、A.Hilton、V.Krger和L.Sigal，编辑，Visual Analysisof Humans，第377-409页，Springer London，2011，在论文F.Dela Torre和J.Cohn：“Facialexpression analysis”中给出了对于可以替代完全流水线508的面部表情识别的替代候选算法的调查，其公开内容通过引用整体并入本文。

描述了在本文所述的系统的上下文中使这些方法在实时情境下实用的多种方法。

第一种方法称为中性相减，在下面详细描述，并且还在论文“A practicalapproach to real-time neutral subtraction for facial expression recognition”中描述，实时地学习受试者的中性面部特征的估计并且从提取的特征中减去。这具有增强系统对照明和受试者间变化的健壮性的目的。

第二种方法包括采用表情识别系统的逐帧分类结果并跨时间平滑它们：分类固有地具有跨时间的噪声，该噪声可以通过假设跨时间的某种连续性来减轻，从而导致更好的用户体验。可以应用在时间t将直到并包括时间t所见的所有帧取作输入并且使用这些数据对时间t进行预测的任何算法。这种方法的许多实施例涉及简单地保持固定尺寸的缓冲器保持最近的帧序列，并且仅当帧的固定部分被分类为表情时才给出用户输出。在若干实施例中，通过隐马尔可夫模型将时间依赖性明确地添加到模型(例如，参见J.Wang、S.Wang和Q.Ji，“Early Facial Expression Recognition Using Hidden Markov Models”，PatternRecognition(ICPR)，2014年第22届国际会议，斯德哥尔摩，2014年，第4594-4599页，其公开内容通过引用整体并入本文)，或者条件随机字段(例如，参见R.Walecki、O.Rudovic、V.Pavlovic和M.Pantic，“Variable-state latent conditional random fields forfacial expression recognition and action unit detection”，Automatic Face andGesture Recognition(FG)，2015年第11届IEEE国际会议和研讨会，Ljubljana，2015年，第1-8页，其公开内容通过引用整体并入本文)，并且向用户提供由模型提供的平滑输出。在若干实施例中，前馈卷积神经网络与诸如LSTM之类的复发(recurrent)神经网络结合使用(Sepp Hochreiter和Jurgen Schmidhuber(1997)。长短期存储器，其公开内容通过引用整体并入本文。Neural Computation 9(8)：1735-1780页)和GRU(K.Cho、B.van Merrienboer、D.Bahdanau和Y.Bengio。关于神经机器翻译的特性：编码器-解码器方法。arXiv preprintarXiv：1409.1259、2014，其公开内容通过引用整体并入本文)学习概括HM9和CRF的关系。特别地，给定数据的空间依赖性，一个实施例可以采用卷积LSTM或GRU门(诸如在Choy、Christopher B.；Xu Danfei；Gwak、JunYoung；Chen Kevin；Savarese、Silvio的3D-R2N2:AUnified Approach for Single and Multi-view 3D Object Reconstruction.EprintarXiv:1604.00449,04/2016看到的那些，其公开内容通过引用整体并入本文)，使这些卷积复发方法直接适应从帧序列识别表情的任务。学习适当的模型取决于预期的更具体的用户交互，照此，此类实施例将需要通过在这些治疗用例中搜集的数据来学习的特定模型。

根据本发明许多实施例的系统可以解决的一个特定平滑问题是在谈话时表情识别的问题：标准算法在受试者讲话时由于讲话期间小而快速的变化而给出不期望的反馈。虽然通过上述平滑努力可以减轻许多，但是当受试者被识别为讲话时，系统的若干实施例涉及明确的筛选(不给出输出)。这可以通过训练视觉时间相关的分类器来实现，该分类器明确地旨在识别受试者正在讲话的视频序列。若干实施例涉及使用音频信号来告诉受试者何时在讲话。某些实施例依赖训练时间相关的分类器(例如，条件随机场或复发神经网络)以不仅识别标准面部表情而且还识别“中性讲话”、“快乐讲话”、“悲伤讲话”等。在这个上下文中，时间相关模型可以是有帮助的，因为在处理受试者正在讲话的数据时的主要问题是，在任何给定的帧中，受试者可以具有如果它持续较长时间，那么将以不同方式被解释的表情。可以利用标准面部表情的视频数据以及表达性讲话序列来训练这种时间相关模型。

广义地说，当系统偏向于在不确定时预测中性表情(并且例如不给出反馈)时，将具有更好的用户体验，并且以上算法可以具有内置的“中性偏差”，这可以通过调整分类器的标准参数来实现。

许多实施例使用一个或多个面向内的眼睛跟踪数据结合面向外的视频数据来检测注视事件。移动到模块402，图6和7给出了根据本发明实施例的、用于集成面向外的视频数据和可能的面向内的眼睛跟踪数据以检测可能导致社交线索的相互注视或单向注视事件的两种方法。如面部表情识别一样，这两种方法都涉及检测、跟踪、配准和预处理面部图像数据。图6的方法依赖几何方法，其中相对于也是估计的他们的每个位置同时估计穿戴者和在穿戴者前方的被跟踪受试者的注视。这组合这种数据以产生相互注视事件的预测。图7的方法可以直接使用机器学习分类器，将来自向外受试者的提取特征(基准点、纹理特征、神经网络输出)和来自穿戴者的特征(眼睛跟踪、加速度计测量)的数据与(相互)注视事件的真值相结合，以便学习这些事件的预测因子。瞳孔跟踪可以通过多种方式实时地完成；参见例如，

(Timm、Fabian和Erhardt Barth。Accurate Eye Centre Localisation by Meansof Gradients.VISAPP 2011-第六届计算机视觉理论与应用国际会议论文集，Vilamoura，Algarve，葡萄牙，2011年3月5-7日，其公开内容通过引用整体并入本文)，以及开源项目(Pupil Labs.https://pupil-labs.com/pupil/。2016年5月2日访问。)移动到模块404，系统的许多实施例可以集成音频信号，并且系统可以在分析表情内容之后提供反馈，例如，使用M.A.Metallinou、N.Katsamanis、B.Schuller和S.Narayanan的“Analyzingthe memory of BLSTM Neural Networks for enhanced emotion classification indyadic spoken interactions”Acoustics,Speech and Signal Processing(ICASSP)，2012IEEE国际会议，Kyoto，2012，第4157-4160页中探索的成功的时间相关模型，其公开内容通过引用整体并入本文。其中一个版本可以仅仅基于音调提供表达识别提示，而另一个版本可以通过在某种程度上关注对话内容来增强这一点。在所有情况下，音频信号可以由任何组成设备记录并与视觉信息流式传输/同步并馈送到分类设备中。

继续到模块405，可以通过检测具体的社交相关事件(诸如强迫性行为(晃动、重复移动等)或手势(头部晃动、点头、头部向前移动等))将来自各个位置(头戴式、臂式等)的加速度计数据结合到社交交互识别处理中。许多可穿戴系统提供适合于这种目的的“手势识别API”，但是可以使用更复杂的机器学习系统来实现这种类型的识别。在学术文献中描述了用于将时间加速度计数据转换成手势分类的各种合适方法，并且所使用的具体处理在很大程度上取决于给定应用的要求。另外，加速计数据可以用于直接提取生理数据(诸如心率测量)，或者与其它传感器相结合来提取。论文(J.Hernandez、Y.Li、J.M.Rehg和R.W.Picard的“BioGlass:Physiological parameter estimation using a head-mounted wearabledevice”，Wireless Mobile Communication and Healthcare(Mobihealth)，2014年EAI第四届国际会议，雅典，2014年，第55-58页，其公开内容通过引用整体并入本文)说明了如何做到这一点并给出了概念的证明，示出了这种系统可以在现实情境中健壮地执行。这些数据可以由行为处理引擎406结合其它数据使用，以实现玩游戏(例如，奖励用户模仿如点头的表情)或改变社交线索输出(例如，避免在感官超负荷/强迫性晃动时间期间发送过多的社交线索)。

最后，所有这些都可以集成在行为处理引擎406中。如图8中所描绘的，系统可以组合所有上述系统的结果并产生社交信息或线索以提供给设备的穿戴者和其他用户。系统可以使用以下部件中的一个或多个：(1)以分类器和回归的形式，(动作单元、通用表情和/或更复杂表情的)面部表情识别影响以视频数据(视觉和/或音频)作为输入的模型，(2)辨别行为规则，(3)实现使得能够社交交互的游戏(在下面的游戏应用中描述)，(4)注视跟踪，(5)头部姿势/加速度计数据，(6)相互眼睛注视模型，以及(7)上述过滤器，用于产生跨时间的平滑输出。然后，该系统决定相关的社交信息或线索，以提供给穿戴者或其他用户(一个实施例是游戏的形式，其中多个物理部件同时与用户接口)。

将注意力指引回更广泛的社交动作识别，针对面部表情识别所描述的许多系统可以扩展到比面部中的基本情绪更复杂的动作识别。

除了面部和音频之外，系统还可以结合身体语言和姿势信息以便提供社交线索，依赖我们自己的分类系统以及高度发展的关于活动识别的工作。这可以采用跟踪姿势的最新进展，诸如论文M.Dantone、J.Gall、C.Leistner和L.Van Gool，“Human Pose EstimationUsing Body Parts Dependent Joint Regressors，”Computer Vision and PatternRcognition(CVPR)，2013 IEEE Conference on，Portland，OR，2013，第3041-3048页，其公开内容通过引用整体并入本文，使用与用于面部表情识别相同的视频流。使用通过视频馈送获得的姿势信息和其它线索，系统可以将数据馈送到各种高度发达的系统以进行活动识别(例如，参见R.Bodor、B.Jackson和N.Papanikolopoulos的Vision-based humantracking and activity recognition。在2003年6月的第11届控制和自动化地中海会议的会议记录中，其公开内容通过引用整体并入本文，以及M.K.Fiaz和B.Ijaz的“Vision basedhuman activity tracking using artificial neural networks”。Intelligent andAdvanced Systems(ICIAS)，2010International Conference on，Kuala Lumpur，Malaysia，2010，第1-5页，其公开内容通过引用整体并入本文。该系统还可以采用所述视频数据和上面提到的表情识别来在更长的时间内推断更复杂的情绪状态(例如，使用R.ElKaliouby和P.Robinson的“Mind reading machines:automated inference of cognitivemental states from video”Systems,Man and Cybernetics,2004 IEEE InternationalConference on,The Hague,2004,第682-688页第1卷中所覆盖的算法，其公开内容在此通过引用整体并入本文)，诸如焦虑、厌倦，或者专注(attentiveness)，从而在长时间注意到这种状态之后提供社交线索。这些可以与其它传感器组合，包括但不限于注视跟踪和加速度计，以便将周围世界的知识与穿戴者的知识组合，以便相应地定制反馈。

返回到图4的社交交互识别系统，在许多实施例中，这个系统的各种子部件可以用单个无需配准和预处理的高维机器学习系统代替。图10中图示了根据本发明实施例的高维机器学习系统的示例，其中对于输入1001，单个机器学习系统可以直接从各种输入数据的级联预测社交信息和/或线索。各种深度卷积神经网络体系架构，从AlexNet(AlexKrizhevsky、llya Sutskever和Geoffrey E.Hinton。ImageNet Classification withDeep Convolutional Neural Networks。Advances in Neural Information ProcessingSystems 25.第1106-1114页，2012，其公开内容通过应用整体并入本文)和最近的GoogLeNet(Christian Szegedy、Wei Liu、Yangqing Jia、Pierre Sermanet、Scott Reed、Dragomir Anguelov、Dumitru Erhan、Vincent Vanhoucke、Andrew Rabinovich。GoingDeeper With Convolutions。IEEE计算机视觉和模式识别会议(CVPR)，2015，第1-9页，其公开内容通过引用整体并如本文)开始，两者都是广泛可用的体系架构，已经示出了执行对象识别、分段和本地化任务的能力，而无需任何配准或图像预处理。然后，可以利用少量数据将转移学习应用于情感计算领域。可以采用这些体系架构来生成可以在上述任何一种复发神经网络(conv-LSTM或GRU以及通用LSTM和GRU)体系架构中被微调和使用的特征。另一个实施例使用散射卷积神经网络(参见Joan Bruna和Stephane Mallat的InvariantScattering Convolution Networks。arxiv.org/pdf/1203.1513，2012，其公开内容通过引用整体并入本文)。

在许多实施例中，系统还可以采用各种策略来校准用户的社交动作识别，包括校准表情识别以便考虑到受试者间的差异。这可以涉及捕获关于具体个人的数据，这些数据可以通过若干模式获得，包括用于校准目的的数据捕获事件和先前在社交动作识别系统的执行中捕获的数据。在许多实施例中，然后系统可以查询一个或多个用户以便确定基础事实。这可以是关于具体个人(诸如患者的家庭或护理人员组)提高社交动作识别系统中的一般分类器的准确率以超过现有准确率的关键因素。一旦已经关于目标家庭收集了标记或未标记的数据，系统就可以广泛应用域适应方法–该方法旨在提高数据(目标家庭)的目标分布的准确性，假定很少数据来自目标分布，并且大量数据来自分布的源(每个其他人)。要通过这些技术中的任何一个达到(strike)的谨慎平衡是模型应当对关于护理人员的目标组(例如，用户的家庭)收集的数据执行良好，但一般也是健壮的，因为关于一个给定家庭的任何数据收集努力都不能考虑所有照明、外观的改变，以及其他个人在与系统的活动中的包括。许多实施例通过对学习到的一般模型的随机梯度下降来提供权重参数的简单调整-其可以利用特定于域并且通过数据达到的算法参数(诸如学习速率和正则化项)的仔细选择。若干实施例使用分层的贝叶斯方法，其中不同的家庭可以具有用不同权重训练的模型，但是受制于每个家庭的权重从共同分布中抽出的条件。这具有利用来自其他人的数据的知识自动补充来自一个家庭的数据的知识的效果。这两种方法都可以具有明显的优点，即，在捕获关于目标家庭的数据时，可以在设备上调整模型，而无需超出一般模型的任何资源，该一般模型可以紧凑地存储在所有设备上。这可以允许快速校准。系统的某些实施例可以利用用于训练一般模型的所有数据的更大资源，因此或者所有数据可以在本地保存，或者可以在本地设备与外部计算资源之间协作地完成计算(诸如通过将数据上传到外部计算资源或与常规通信并行第进行计算)。这个实施例可以使用所有数据，用加权的源数据补充目标数据(大多数现成的机器学习算法(诸如SVM和逻辑回归)支持数据加权，并且可以通过重新采样与权重成比例的数据来做出任何算法)，权重可以通过源数据与目标数据之间的相关性标准来确定。一个这样的相关性标准可以在Y.Q.Miao、R.Araujo和M.S.Kamel的“Cross-Domain Facial Expression Recognition Using Supervised Kernel Mean Matching”，机器学习和应用(ICMLA)，2012年第11届国际会议，Boca Raton，FL，2012，第326-332页找到，其公开内容通过引用整体并入本文。

在许多实施例中，在机器学习分类和到达社交线索时，可以使用各种后处理技术来将假阳性的数量保持在最低限度并且减少可以由于错误分类而引起的潜在治疗伤害。

首先，可以使用诸如移动平均过滤器、低通时域过滤器或其它合适模型之类的过滤算法将所提供的像素的数量保持在最低限度，以减少可能与大量的线索提醒相关联的感官过载。

另外，为了解决来自行为处理引擎的噪声的挑战，根据本发明的若干实施例的系统使用可穿戴设备上的视觉指示器来基于从行为处理引擎获得可信度得分来向患者指示系统何时正常运行，使得患者可以从潜在的假阴性线索中分辨出缺乏线索。在混合现实系统中，社交线索可以被定位到特定面部，例如指向该面部的箭头或者该面部或其特定部分周围的圆圈。

(2)游戏应用：

给定根据许多实施例的系统的总体体系架构描述和部分(1)，本领域技术人员可以容易地认识到如何跨可穿戴和移动集线器设备实现部分(2)以及如何可以单独在移动设备上实现部分(3)。

在许多实施例中，给定社交动作识别系统和通信基础设施，移动可穿戴系统可以用作实现社交交互的各种游戏的平台。在系统的许多实施例中，这种游戏由护理人员在移动设备上触发，然后在可穿戴设备上启动。可穿戴设备可以如上所述将数据帧流式传输到移动设备，并且使用从移动设备流回的行为处理中提取的“情境信息”，以引导游戏逻辑。游戏玩法提示可以通过各种反馈机制(音频、视觉等)传达，就像上面讨论的其它社交线索一样。例如，穿着可穿戴设备的患者因与其他人进行眼神接触而获得奖励。当社交动作识别系统以高概率识别出面对面的眼神接触时，可以实现更高的得分或某种其它类型的奖励。在另一个示例中，可以因为模仿某种社交动作(诸如点头)而奖励患者。

在另一个示例中，护理人员可以选择重现的情绪，并且穿戴者因正确地猜测它们而得到奖励。随着他们对重现的识别得到改善，可以使用得分跟踪和日益复杂或微妙情绪的水平来扩展穿戴者的参与度。在其它示例中，游戏可以由穿戴者而不是护理者触发，通过触控板输入、语音命令或其它方法。例如，可以鼓励穿戴者在延长的时间段内穿戴可穿戴设备并且在他们可能看到它们时“收集”面部或情绪，从而使穿戴者增加对游戏玩法的控制。在若干实施例中，在平台上使用的游戏可以涉及使用各种位置检测技术(包括但不限于GPS技术)以寻宝风格的方式在某些位置放置或找到感兴趣的物品。所提供的各种游戏还可以包括穿戴者和护理人员可以通过其在整个游戏中收集得分并随时间跟踪他们的整体进展的方法。还可以向穿戴者和/或护理人员呈现个性化系统的用户界面的机会，作为用于完成所提供的各种游戏的多个会话的奖励系统。

(3)回顾应用：

根据本发明的许多实施例的数据回顾应用采用通过(1)的参与收集的数据，并且以可以由穿戴者和通过(1)的参与与穿戴者交互的那些人回顾的方式呈现它。

参考图18，在某些实施例中，回顾应用允许用户和护理人员回顾全天记录的活动。视频可以在界面中以自动策划并突出显示的“情绪时刻”呈现，这允许用户可视化他们在视频中的外观(包括关于识别出的社交动作的类型的信息)并跳转到它们以查看。可以使用上述方法提取情绪亮点。在一种示例治疗设置中，鼓励护理人员与他们的患者(以及如果他们潜在地选择了行为治疗师和/或其他护理人员)一起回顾这些时刻。

在某些实施例中，父回顾系统是在与执行计算密集情绪识别的社交行为处理程序相同的电话上运行的移动应用。图13和图16图示了根据本发明实施例的在移动设备301上执行的应用，该应用提供针对人检测到的情绪302的指示。如图14中所描绘的，回顾系统可以按时间次序包含先前会话记录的新闻馈送状的视图。回顾系统的用户具有在任何时间查看、隐藏或永久删除新闻馈送中的视频的能力。图15图示了根据本发明实施例的、用于选择应用的各种设置的若干UI界面。

在某些实施例中，回顾系统可以采取在视频会话之后立即呈现短视频剪辑的形式，仅表示自动策划的“情绪时刻”，并且要求穿戴者和/或护理人员回顾它们，作为完成会话的一部分。这可以进一步集成并实现在“(4)在线和主动学习”中描述的任务。情绪时刻也可以由儿童或护理人员经由照片卷状视图在任何时间重新访问和重新标记，从而有机会随时间的推移获得附加的标记数据。

在该应用中可以存储的从视频和感官输出中提取的统计数据可以被发送到附加服务器以进行卸载处理。这种数据和结果所得的统计数据(可以远程计算或在移动设备上计算)可以以各种可视化(诸如饼图、图表等)呈现为进度测量和/或成就。

(4)在线和主动学习

参考图7和图9，可以设置根据本发明许多实施例的系统一般采用的机器学习系统，以便以各种方式查询用户，以便更好地模型化。在这种查询的若干实施例中，在设备的治疗使用之后询问用户是否正确地分类了各种实例–这也可以兼做用户的学习工具。以这种方式，捕获表情的图像和/或视频序列可以用基础事实信息注释并且依赖训练更新后的分类器。这种查询的若干实施例是要求用户或支持人员校正数据集标签。在这两种情况下，都可以经由系统的任何部分或分开的控制台上的简单图形显示来管理查询，其中图像或一系列图像以静止或视频格式显示，以及形式为“当前的表情______？”的问题，该问题具有根据预测改变表情的选项。在这两种情况下，要求人们逐帧手动校正标签都是不可行的，因此这些实施例可以采取主动学习观点(参见Burr Settles，Active Learning，Morgan&Claypool，2012，其公开内容通过引用整体并入本文)，其依赖各种启发式方法来选择要在这些查询中使用的数据。这些启发式方法包括选择具有最大后验熵的数据(给定概率分类器)或逐个分歧的查询，其中同时使用若干分类器，并且当有足够的分歧时查询用户。由于数据的结构是时间相关的，因此查询常常会在一段时间内考虑连续性或平滑性。在某些实施例中，这种处理是简单地强制小块连续数据点具有相同标签。若干实施例涉及根据文本信息提取对技术的调整-有关细节请参阅Aron Culotta、Trausti Kristjansson、AndrewMcCallum和Paul Viola的Corrective feedback and persistent learning forinformation extraction。人工智能，第170卷，第14-15期，2006年10月，第1101-1122页，其公开内容通过引用整体并入本文。许多处理使用时间相关的数据训练条件随机场模型，并且使用通过其“前向-后向约束的”算法获得的置信度估计来查询用户，标签校正可以经由其“约束Viterbi”算法在时域上传播。在校正标签时，可以使用带有新标签的这些数据更新模型。这有两种形式：对用户进行查询的设备所使用的模型的本地更新(在最终用户回答查询的情况下)，以及本地模型适应的全局模型。在本地情况下，可以使用各种启发式标准(例如，熵的变化、错误的时间分数)中的任何一个来决定在本地或全局地重新训练或更新模型，使用在(1)中覆盖的任何域适应方法。在全局情况下，所部署的系统可以周期性地发送对中央计算资源进行校正的数据，并且数据增加用于全局模型的一般训练数据。在更新全局模型时，可以将新模型参数发送到已部署的系统。这可以扩展到条件随机场之外，以应用于许多时间相关的表情识别模型，包括复发神经网络。

前一段中提到的数据标记/反馈机制可以是与游戏/结果测量的集成，其查询用户，以将表情识别为这种技能的测量。参考图17，通过计算机或电话界面递送，结果测量可以要求用户和护理人员识别在数据中找到的表情-被查询的帧可以是算法相当确定的面部(给出明确的示例让用户评估)和算法相当不确定的面部(例如，如通过上面提到的熵或逐分歧查询的策略测得的)的混合，以便给出对改进表情识别分类器有用的数据点。使用给出多个信号的多个加标签者(labeler)(儿童和护理人员)可以减少错误，并且测量标签的合理性的模块(使用人类加标签者的协定水平结合机器学习算法)可以决定是另一个专家加标签者应当确定表情的真值、还是人类输入应当作为真值，还是应当丢弃数据。

中性特征相减

用于自动面部表情识别的方法(将面部识别为快乐、悲伤、生气等)通常依赖从图像中提取出的特征的分类。被设计为编码形状和纹理信息的这些特征可以取决于(1)个人做出的表情，以及(2)个人的物理特点和图像的照明条件。为了减少(2)的影响，一些方法为个人建立“基线”并减去这个个人的基线中性特征。这种额外的中性特征信息常常是不可用的，特别是对于先前未见过的受试者的野外实时分类。因此，为了实现“中性相减”，许多实施例估计个人的中性特征。此外，许多实施例将中性相减扩展到不同的计算机视觉特征空间，作为校正面部和照明间变化的方法。许多实施例还提供了一种简单的实时方法，该方法对于类不平衡是健壮的，并且主要适用于广泛的特征选择。

许多实施例利用不需要训练复杂的特定于受试者的模型的方法，因此可以实时地适应新的受试者。特别是，令x_S是受试者特征随机变量，并且令V_S是受试者的中性(无表情面部)的(隐藏)特征。

如果

x_s＝f(v_s，δ_e) (1)

其中δ_e是代替地取决于当前表情e的独立于受试者的变量，那么表情识别可以简化为(1)估计受试者的v_s和(2)学习分类模型特别地，如果做出简化假设

x_s＝v_s+δ_e (2)

然后，假设存在对v_s的估计对中性减去的特征进行训练和测试

等式(2)一般是线性近似。有理由相信这是预处理处理下的许多外观特征的良好近似(下面讨论的“基线：特征提取”一节，首先，照明规格化，一些实施例可以计算对准的图像上的特征，这允许应用背景相减的标准自变量)。因此，诸如HOG和SIFT之类的特征可以很好地执行。这使得几何特征具有直观感：如果特征空间的某个子空间给出了眉毛和鼻子之间的距离，那么不是这个数量，而是当前距离数量与中性状态下的数量之间的差异，可以与诸如惊喜之类的表情最佳相关。同样的直觉可以应用于各种特征空间。基于外观的特征(诸如SIFT和HOG)可以产生注意额头上的线条的外观的分类器，并且这种分类器可能决定有皱纹的受试者总是生气。中性相减允许校正这个问题。可以合理地预期它可以辅助具有各种变化的基于外观的特征，包括照明、肤色和在某种程度上的面部毛发。

贡献

许多实施例提供了一种简单的处理来估计每个受试者s的v_s并用表情对帧进行分类，从而实时地递送表情分类。在许多实施例中，该处理将在所有帧的原始特征(x_S)上训练的中性/表情(2类)分类器以及在中性减去特征上训练的表情分类器(包括中性，因此7或8类)作为输入，其中v_s被估计为所有特征的均值，其中中性为真值。在运行时，2类分类器可以允许处理获得中性特征的初始估计并且不断地更新那个估计。

在许多实施例中，这个处理具有多个优点。首先，它可以实时地提供输出而几乎没有处理延迟，从而不需要训练复杂的特定于受试者的模型。虽然性能可以变化，但它可以独立于所使用的输入分类器类型，并且可以不需要来自分类器的概率输出。原则上它也可以与各种几何和外观特征无关。此外，如下所述，在许多实施例中，示出与HOG特征良好地执行。培训和评估可以逐帧进行，并且对输入分类器的需求之上的数据没有强烈要求(并且可以不要求所有训练受试者都具有所有类的示例)。最后，它可以限制测试时类不平衡影响中性特征估计的程度。

可以提出一种反对意见，即，在分类任务中包括“中性”作为类可以利用中性相减模型提高准确度：对中性减去特征的范数的简单阈值处理适用于将示例分类为中性或非中性。但是，(1)在实时表情识别中，识别中性面部可以是重要的，因为在甚至谈话设置中受试者也常常没有表情，以及(2)进行的实验揭示，对于更困难的分类任务，即使分类任务不包括“中性”，中性相减的整体效果也可以很大。下面描述用于实时中性特征估计和相减的提议处理以及实验结果。

实时中性特征估计和相减

给定将图像映射到表情的标签Y的分类任务。令类的数量为K。在许多实施例中，该处理将在中性减去特征上训练的K表情分类器F以及在原始(非中性减去)特征上训练的2类中性/表情分类器G_e作为输入。更准确地说，给定训练数据{(x_s，i，y_s，i)|s∈S，i∈I_s}，其中s参数化受试者并且I_s为受试者s的帧加索引。在训练时，对于每个受试者，该处理可以计算平均中性特征

其中是受试者s的中性特征的数量。然后，许多实施例可以针对每个帧计算可以使用任何算法选择在经预处理的数据上训练F。为了训练一般表情分类器G_e，许多实施例可以对于所有可用的s和i使用原始特征x_s，i，并且如果y_s，i是中性，那么将标签更改为中性，否则是有表情。在训练这些分类器时，取决于所使用的学习方法，许多实施例可能需要注意平衡和欠采样/过采样/加权一个或多个类。

在测试时，许多实施例按时间次序给出受试者s的特征流许多实施例可以允许缓冲时段，在此期间不进行预测，而是所有帧可以用G_e分类，将标记为中性的所有帧的均值作为v_s的第一估计。可以以若干方式选择这种缓冲时段–例如，在看到标记为中性的设定数量的特征之后，或者在标记为中性的特征的均值看到小于某个阈值的改变之后。在许多实施例中，简单地设置在结束缓冲时段(对应于几秒)之前要看到的帧数可以实现高准确度。在图19中所示的算法中，许多实施例通过缓冲器总结这个决定，其中j是当前帧，如果处理仍处于缓冲时段内，那么返回真，而如果缓冲时段可以结束，那么返回假。

在缓冲时段之后(即，在帧j_buff)，许多实施例中的处理可以返回并且使用估计对帧1至j_buff进行预测，以给出这些预测。在此之后，对于看到的每个特征x_s，j，该处理可以更新中性特征的估计。这可以通过多种方式完成。在许多实施例中，最简单的版本仅仅是更新均值如果k_n是在x_s，j之前看到的中性特征的数量，并且该处理已经为中性特征估计了那么如果G_e将x_s，j分类为中性，那么该处理可以简单地更新

并且k_n为一；如果x_s，j未分类为中性，那么不进行更新。如果G_e给出概率输出，那么许多实施例可以采用v_s的预期，从而加权由每个为中性的概率看到的所有特征。

在没有概率输出的情况下，许多实施例仍然具有多个更新选择。例如，x_s，j对的更新可以取决于它与当前估计的距离：许多实施例可以相对于等式(5)减少其对估计的贡献，如果担心异常值(例如，如果面部跟踪器不可靠)，那么是有用的。或者，在许多实施例中，如果预期v_s将在运行时改变(例如，如果期望照明显著改变)，那么许多实施例可以使其相对于等式(5)更快地更新v_s的估计。更一般地，许多实施例可以允许从到目前为止看到的所有帧收集有限数量的统计数据，包括G_e的决定，并且将过滤器应用于估计v_s。在图19中，完成的更新的选择被称为

其中“definite”是指对从特征流收集的有限数量的统计数据的限制(出于存储目的，许多实施例不希望将它们全部高速缓存)。

诸如指数移动平均之类的低通过滤器可以在能够适应变化的v_s与考虑噪声之间提供简单的介质。对等式(5)的修改可以是简单的：代替对通过G_e均等地分类为中性的所有示例进行加权，许多实施例可以对最近的实例加权最重，其中权重呈指数下降。

虽然Kalman过滤器可以证明更健壮，但是对于该处理的许多实施例可能需要与之一起工作的大状态维度，其更新可以在计算上是昂贵的。

在许多实施例中，指数移动平均既防止噪声又快速适应变化的v_s，在照明改变时(虽然照明规格化技术意图减轻这种情况)，或者更彻底地，当一个用户将分类器“交给”另一个用户时，可以预期这一点。由于缺少具有适当的照明变化的数据库(诸如在房间中打开灯；许多实施例需要比在多饼图数据库中找到的更一致的照明变化)。

在更新估计之后，许多实施例进行预测该算法被称为中性估计和相减(N ES)算法。虽然以上描述了用于执行中性估计和相减的特定处理，但是根据本发明的许多实施例，可以利用各种机制中的任何一种来执行适于具体应用的要求的中性估计和相减。

设备校准

建模和识别自然社交谈话的特征的情感计算需要自然社交交互数据。特别是，真正地建模自然社交谈话的唯一途径是从自然社交交互数据中学习。但是，这带来了严重的标签困难。特别地，以时间敏感和准确的方式标记诸如所谓的通用表情(例如，快乐、悲伤、生气、惊讶、恐惧和厌恶)之类的简单数据是非常劳动密集的。因而，许多实施例利用无监督和主动学习预注释技术，其极大地降低了标记处理的成本。

简而言之，可以使用无监督技术和噪声预测来查询人类专家，要求他们标记一小部分数据并通过数据的形状推断关于其余数据的标签。为此，许多实施例使各种一般主动学习技术与已经在文本的语法注释中获得成功的系统相适应。首先，许多实施例在与实际开发参与者的实验室会话中搜集非结构化的谈话视频数据，并在专家加标签器的实验室中精炼这个预注释方案。在使用专家加标签器在实验室中精炼这个预注释方案之后，许多实施例将其部署到治疗系统的用户(n＝100)，查询用户以帮助更好地标记他们自己的数据，从而有效地通过人在回路(human-in-the-loop)学习有效地众包加标签。

个性化的表情识别

通过上述努力的衔接，许多实施例提供了域适应技术，以便为特定用户定制表情识别系统。域适应是一种机器学习任务，其尝试对从其中几乎没有标记或未标记的数据的某个目标分布中汲取的数据很好地执行，假定从一个或多个相关但不同的源分布中汲取了更多的数据。特别地，对关于个人的每个目标集合(为其定制治疗的家庭)的自然社交交互数据表现良好的任务(其中大多数数据由其它个人组成)常常在人工实验室中捕获，提出了设置。虽然一般模型可以对大多数个人表现良好，但由于人们表情的自然变化，不同受试者的准确性存在相当大的差异。在治疗上下文中，对于与治疗相关的个人表现不佳的识别系统表示失败的努力。因此，个性化表情识别的发展可能是必要的。这可以通过无监督在线和监督域适应的组合来实现。

在无监督在线域适应中，为目标分布提供未标记的数据并且在不在所有数据上重新训练模型的情况下进行调整，并且存在各种技术(例如，online_cascade、online_multi_object，以及其它各种技术)以利用这一点。这可以被认为是被动校准事件：系统可以在视图中接收关于受试者的数据并且实时地适应模型。系统的许多实施例采用其特设版本(例如，中性相减)，从而构建当前用户的中性(无表情)面部的估计并将其从当前面部中减去。系统的许多实施例采用诸如hier_bayes之类的方法来优化这个处理，以便发现近似最佳的适应。

在监督域适应中，系统的许多实施例可以在目标个人上搜集标记的数据并且调整一般模型以在它们上表现得更好，从而允许更彻底的重新训练(不一定是实时的)。这可以以两种形式发生：查询系统的用户以做出表情，并要求他们确认/校正在其上收集的自然社交交互数据上的标签。这两者在不同程度上都面临着振动稀缺的潜在严重问题，其中关于用户搜集的数据除了缺乏之外还可能没有内置某些重要的变化。因此，系统的许多实施例可以适应用户数据，但是不损害一般模型对这种变化的健壮性。

系统的许多实施例使用分层贝叶斯技术(例如，hier_bayes)来适应模型，从而允许在无监督在线和监督上下文中进行相当快速且计算上廉价的适应。这可以分两个阶段完成。在第一阶段，系统可以采取在上述子目标中搜集的自然视频数据并以省去一个受试者(leave-one-subject-out)的方式进行交叉验证：其中源数据作为上面提到的学术数据集的与所有其它受试者的组合，并且目标训练数据是目标受试者数据的某个小子集，系统可以在通过上述目标的结果进行标记的、目标的其余自然社交交互数据上验证模型。在第二阶段，系统可以将治疗系统部署到参与者(n＝100)，通过上面讨论的两个范例标记数据。虽然以上描述了使用分层贝叶斯技术来适应模型，但是根据本发明的许多实施例，可以适当地根据具体应用的要求使用各种技术中的任何技术。

卷积和复发神经网络

已经证明卷积神经网络在图像识别任务中特别强，而某些复发神经网络体系架构在处理顺序数据(例如，字幕、手写)方面证明是有用的。许多实施例将这些技术应用于时间相关的视频表情识别任务。特别地，相信网络深度特别适合于域适应，并且上面讨论的分层贝叶斯方法可以证明对于这类学习者来说特别有成效。系统的许多实施例将这一点作为为上面讨论的域适应开发的主要模型体系架构来应用，其中线性分类器在HOG特征上作为基线运行。

来自各种研究的实验结果

已经对行为系统的各个方面进行了若干研究。例如，构建了Google眼镜原型，其使用眼镜的面向外的相机和机器学习系统自动跟踪面部中的表情事件，其中该系统在超过800000个表情数据样本上进行了训练，其以高准确度检测8种情绪(大约90％)。原型模型被设计为在动作单元上计算，该动作单元源于与情绪表情相关联的面部肌肉移动，并且在各种面部、头部位置/姿势和光线条件下实时地工作。然后对20名自闭症患者和20名对照参与者进行测试。在使用标准自闭症电池(例如，SRS)的同意和表型分析之后，40名参与者(平均年龄6岁)中的每一个在坐在计算机屏幕前面的同时配备有自闭症眼镜和头戴式瞳孔跟踪器。屏幕显示三批针对面部变化(例如，人种/种族)进行平衡的面部6秒，以及来自“高自闭症兴趣”数据库的两个交替的社交和非社交规格化“分心者”图像。受试者试图在没有情绪反馈的情况下识别屏幕上的面部情绪(批次1)，经由眼镜单元的“平视”显示器提供反馈(批次2)，并且再次没有反馈(批次3)。结果显示，儿童很快就适应了穿戴该设备(几个称其为“超强”)，并产生了调整反馈界面所需的初步数据；功能较低且更年轻的参与者更喜欢音频到视觉社交反馈，迫使构建新软件来切换模式。所有具有自闭症的参与者都在表情分类任务中表现出比神经型儿童更低的基线得分。但是，他们通过批次3并且在大约15分钟内显示出得分的显著改善，得分达到神经典型对照(提交时)所呈现的水平。对本研究中收集的眼镜跟踪数据的分析与以下发现一致：当看脸时，自闭症儿童将注意力集中在嘴上而不是眼睛，这部分解释了在眼镜反馈之前对情绪的错误分类。这个数据支持这样的假设：即使有限的使用也可以产生可测量的收益，并促使计划将该技术推进到在临床实验室环境的家庭和外部使用的状态。

在另一项研究中，将自闭症眼镜的实施例送到14个家庭(平均年龄＝9.57岁，SD＝3.37；n＝3个女性)，并且通过评估和家长观察(主要通过社交反应量表第二版(SRS-2)，“情绪猜测游戏”(EGG)来评估儿童如何正确地标记情绪(在40个问题当中))以及父母定性报告从摄入到结论评估变化(使用眼镜几个月后)。重复测量用于单向ANOVA，以分析SRS-2和EGG得分的变化。还要求参与者在移动应用界面上提供反馈。如图20和图21所示，实现了以下结果。SRS-2总分随时间的推移显著下降了平均7.14分(F(1,13)＝33.20，p＝<.001，越高得分指示ASD严重程度越高)。EGG得分也随时间的推移显著增加平均9.55个正确反应(F(1,10)＝11.89，p＝<.01)。记录并分析了超过5000分钟的视频数据。家长报告眼神交流的增加和更大的社交敏锐度。此外，参与者分享了创新反馈，这些反馈导致移动应用的用户体验设计改变。

已经出于说明和描述的目的呈现了本发明的前述描述。其并非旨在穷举或将本发明限制于所公开的精确形式。鉴于以上教导，其它修改和变化是可能的。选择和描述实施例是为了最好地解释本发明的原理及其实际应用，从而使得本领域的其他技术人员能够在适合于预期特定用途的各种实施例和各种修改中最好地利用本发明。所附权利要求旨在被解释为包括本发明的其它替代实施例；包括等效的结构、部件、方法和装置。

如在阅读本公开内容时对于本领域技术人员将显而易见的是，在不脱离本发明的范围或精神的情况下，本文描述和说明的每个单独实施例具有可以容易地与任何其它若干实施例的特征分离或组合的离散部件和特征。任何列举的方法可以按照所述事件的次序或以逻辑上可能的任何其它次序执行。另外，所呈现的每个系统部件和/或方法步骤应当被视为“用于执行针对所述系统部件和/或方法步骤描述的功能的单元”或“用于执行针对所述系统部件和/或方法步骤描述的功能的步骤”。照此，针对“用于执行所述功能的单元”或“用于执行所述功能的步骤”的任何权利要求语言是指说明书中执行所述功能的系统部件和/或方法步骤，以及其等同物。

Claims

1.一种图像处理系统，包括：

至少一个相机，用于捕获周围环境的图像；

至少一个处理器和包含软件的存储器；

其中所述软件指示所述至少一个处理器：

获得包括由所述至少一个相机捕获的图像序列的数据；

检测所述图像序列中的多个图像内的至少一个人的面部；

对所述多个图像中的每个图像中的至少一个人的检测到的面部并且使用分类器执行中性特征估计和相减以基于所述多个图像来检测面部中的至少一个情绪线索；

基于所述情绪线索识别至少一种情绪；以及

实时地显示至少一个情绪指示符标签以提供治疗反馈。

2.如权利要求1所述的图像处理系统，其中所述系统包括可穿戴视频捕获系统，所述可穿戴视频捕获系统包括至少一个面向外的相机。

3.如权利要求2所述的图像处理系统，其中可穿戴视频捕获系统选自包括以下的组中：虚拟现实耳机、混合现实耳机、增强现实耳机和包括平视显示器的眼镜。

4.如权利要求2所述的图像处理系统，其中可穿戴视频捕获系统与至少一个移动设备通信，并且所述至少一个处理器在所述至少一个移动设备上执行。

5.如权利要求1所述的图像处理系统，其中所述软件指示所述至少一个处理器获得补充数据，所述补充数据包括从选自包括以下的组中的至少一个传感器捕获的数据：麦克风、加速度计、陀螺仪、眼睛跟踪传感器、头部跟踪传感器、体温传感器、心率传感器、血压传感器和皮肤电导率传感器。

6.如权利要求1所述的图像处理系统，其中实时地显示至少一个情绪指示符标签以提供治疗反馈还包括：执行在平视显示器内显示标签、生成听觉信号、生成振动、显示全息覆盖以及显示图像中的至少一个。

7.如权利要求1所述的图像处理系统，其中所述软件指示所述至少一个处理器在与图像内检测到的面部相关的感兴趣区域内以更高分辨率处理图像数据。

8.如权利要求7所述的图像处理系统，其中所述感兴趣区域是检测到的面部周围的边界区域，其中处理图像数据还包括：使用移动平均过滤器来平滑感兴趣的边界区域。

9.如权利要求8所述的图像处理系统，其中所述软件指示所述至少一个处理器通过以下对所述至少一个人执行中性特征估计和相减：

执行面部检测；

执行基准点面部跟踪；

执行面部与规范尺寸和姿势的配准；

执行照明规格化预处理；

生成关于面部的感兴趣区域中的梯度直方图特征提取；

并且经由逻辑回归分类器对面部表情进行分类；以及

过滤结果得到的分类。

10.如权利要求1所述的图像处理系统，其中表情线索包括选自包括以下的组的信息：面部表情、面部肌肉移动、身体语言、手势、身体姿势、眼睛接触事件、头部姿势、谈话的特征、烦躁和焦虑信息。

11.如权利要求1所述的图像处理系统，其中使用统计上有代表性的社交表情数据的训练数据集来训练分类器，并且其提供基于事件的社交线索。

12.如权利要求11所述的图像处理系统，其中所述软件指示所述至少一个处理器用目标个人的用户标记数据来进一步补充训练集。

13.如权利要求12所述的图像处理系统，其中所述软件指示所述至少一个处理器使用训练数据和目标个人的用户标记数据来训练分类器，使得与在训练数据中检测其他个人的面部中的至少一个情绪线索的分类器的性能相比，所述分类器实现更高的在目标个人的面部中检测至少一个情绪线索的性能。

14.如权利要求13所述的图像处理系统，其中软件指示所述至少一个处理器：

提示用户用至少一个情绪线索标签标记目标个人的数据；以及

将用于目标个人的用户标记数据存储在存储器中。

15.如权利要求1所述的图像处理系统，其中所述软件指示所述至少一个处理器存储社交交互数据并提供用户界面用于回顾社交交互数据。

16.如权利要求1所述的图像处理系统，其中分类器是提供连续社交线索的回归机器。

17.如权利要求1所述的图像处理系统，其中使用标准面部表情的视频数据并利用表达性谈话序列作为视觉时间相关分类器来训练所述分类器。

18.如权利要求1所述的图像处理系统，其中所述软件指示所述至少一个处理器使用至少一个面向内的眼睛跟踪数据结合面向外的视频数据来检测注视事件。

19.如权利要求1所述的图像处理系统，其中所述软件指示所述至少一个处理器提供对记录的活动的回顾，并提供作为对记录的活动的反应而生成的用户行为数据。

20.如权利要求1所述的图像处理系统，其中对所述至少一个人的面部执行中性特征估计和相减包括：基于在中性减去特征上训练的第一表情分类器和在原始(未被中性减去的)特征上训练的第二2类中性/表情分类器的输出来执行中性表情相减。

21.一种行为治疗系统，包括：

至少一个相机，用于捕获周围环境的图像；

至少一个处理器和包含软件的存储器；

其中所述软件指示所述至少一个处理器

为先前存储在所述系统的存储器内的多个图像中的每一个图像显示表达特定情绪的人的面部的图像，其中所述图像与特定情绪相关联；

从观看所述图像的用户接收关于用户已经选择的情绪的输入，所述输入说明所述情绪已被人的面部描绘；

确定从用户接收到的输入是否匹配与特定图像相关联的特定情绪；以及

基于用户的选择向用户提供反馈。

22.一种行为治疗系统，包括：

至少一个相机，用于捕获周围环境的图像；

至少一个处理器和包含软件的存储器；

其中所述软件指示所述至少一个处理器：

实时地捕获人的视频；

使用至少一个分类器检测人的面部的情绪；

提供关于当前未被检测到的、应当在人中激起的不同情绪的指示；

确定情绪是否在一定时间段内被引发；以及

向所述系统的用户提供关于他们引发情绪的能力的反馈。