CN116685891A - 在虚拟环境中用于多用户群组意图处理的跨模态输入融合 - Google Patents
在虚拟环境中用于多用户群组意图处理的跨模态输入融合 Download PDFInfo
- Publication number
- CN116685891A CN116685891A CN202180090160.8A CN202180090160A CN116685891A CN 116685891 A CN116685891 A CN 116685891A CN 202180090160 A CN202180090160 A CN 202180090160A CN 116685891 A CN116685891 A CN 116685891A
- Authority
- CN
- China
- Prior art keywords
- user
- users
- data
- intent
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims description 30
- 230000004927 fusion Effects 0.000 title description 5
- 238000000034 method Methods 0.000 claims abstract description 35
- 230000009471 action Effects 0.000 claims description 34
- 238000012800 visualization Methods 0.000 abstract description 39
- 238000003384 imaging method Methods 0.000 abstract description 21
- 238000004422 calculation algorithm Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 22
- 239000013598 vector Substances 0.000 description 19
- 230000033001 locomotion Effects 0.000 description 15
- 238000004590 computer program Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 10
- 210000003128 head Anatomy 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 230000007613 environmental effect Effects 0.000 description 9
- 230000003993 interaction Effects 0.000 description 9
- 230000003190 augmentative effect Effects 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 6
- 238000009877 rendering Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000004438 eyesight Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 210000000613 ear canal Anatomy 0.000 description 2
- 230000004424 eye movement Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000523 sample Substances 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000001953 sensory effect Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000004308 accommodation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002567 electromyography Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 238000013488 ordinary least square regression Methods 0.000 description 1
- 230000037081 physical activity Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000002207 retinal effect Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 231100000430 skin reaction Toxicity 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
- 238000011179 visual inspection Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/10—Geometric effects
- G06T15/20—Perspective computation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/012—Head tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
本文档描述了其中确定共享空间中的一组用户的意图并对其采取行动的成像和可视化系统。在一个方面中,一种方法包括:对于共享虚拟空间中的一组用户,识别一组用户中的两个或多个用户中的每一个的相应的目标。对于两个或多个用户中的每一个,基于来自具有不同输入模态的多个传感器的输入来确定用户的相应的意图。多个传感器的至少一部分是使得用户能够参与共享虚拟空间的用户的设备的传感器。基于相应的意图,做出用户是否正在执行用户的相应的目标的确定。基于相应目标的相应意图生成并提供输出数据。
Description
技术领域
本公开涉及虚拟、增强和混合现实成像和可视化系统,并且更特别地,涉及使用跨模态(transmodal)输入融合来确定共享虚拟空间中的一组用户的意图并对其采取行动。
背景技术
现代计算和显示技术已经利于用于所谓的“虚拟现实”、“增强现实”或“混合现实”体验的系统的发展,其中,数字再现图像或其部分以其似乎真实或者可以被感知为真实的方式被呈现给用户。虚拟现实或“VR”场景通常涉及数字或虚拟图像信息的呈现而对其它实际的真实世界视觉输入不透明;增强现实或“AR”场景通常涉及将数字或虚拟图像信息呈现为对用户周围的实际世界的可视化的增强;混合现实或者“MR”涉及合并真实和虚拟世界以产生物理和虚拟对象共存并且实时相互作用的新环境。
发明内容
本说明书一般地描述了其中确定共享空间中的一组用户的意图并对其采取行动的成像和可视化系统。共享空间可以包括真实空间或环境,例如,使用增强现实,或者使用化身、游戏玩家或表示真实人物的其他图标或图形的虚拟空间。
该系统可以基于多个输入来确定用户的意图,包括用户的注视、用户的手的运动、和/或用户正在移动的方向。例如,该输入的组合可用于确定用户正在伸手去取对象、向另一用户做手势、专注于特定用户或对象、或将与另一用户或对象交互。然后,系统可以根据用户的意图采取行动,例如,通过向一个或多个其他用户显示用户的意图,基于多个用户的意图生成群组度量或其他聚合(aggregate)群组信息,向用户或另一用户发出警报或提供推荐,或将用户重新分配到不同的任务。
通常,本说明书中所描述的主题的一个创新方面可以实现在方法中,该方法包括以下动作:对于共享虚拟空间中的一组用户,识别一组用户中的两个或多个用户中的每一个的相应的目标。对于两个或多个用户中的每一个,基于来自具有不同输入模态的多个传感器的输入来确定用户的相应的意图。多个传感器中的至少一部分传感器是使得用户能够参与共享虚拟空间的用户的设备的传感器。基于相应的意图,做出用户是否正在执行用户的相应的目标的确定。对应于一组用户,基于两个或多个用户中的每一个的相应的目标以及两个或多个用户中的每一个的相应的意图来生成输出数据。向一组用户中的一个或多个用户中的每一个的相应设备提供输出数据,以用于在一个或多个用户中的每一个的相应设备处呈现。
该方面的其他实施例包括对应的计算机系统、装置和记录在一个或多个计算机存储设备上的计算机程序,其各自被配置为执行方法的动作。一个或多个计算机的系统可以被配置为通过使软件、固件、硬件或其组合安装在系统上来执行特定的操作或动作,该系统在操作中使得或使得系统执行动作。一个或多个计算机程序可以被配置为通过包括指令来执行特定的操作或动作,该指令在由数据处理装置执行时使得装置执行动作。
前述和其他实施例可以各自可选地单独或组合地包括以下特征中的一个或多个。在一些方面中,两个或多个用户中的至少一个用户的相应的目标包括以下中的至少一个:(i)要由至少一个用户执行的任务或(ii)至少一个用户应当观看的主题对象。识别两个或多个用户中的每一个的相应的目标包括将一组用户中的至少阈值数量的用户正在观看的目标确定为主题对象。
在一些方面中,每个用户的相应设备包括可穿戴设备。确定用户的相应的意图可以包括:从用户的可穿戴设备接收指定用户的注视的注视数据、指定用户的手部姿势的姿势数据、和指定用户正在移动的方向的方向数据;以及基于注视数据、姿势数据和方向数据,将用户相对于目标对象的意图确定为用户的相应的意图。
在一些方面中,基于两个或多个用户中的每一个的相应的目标以及两个或多个用户中的每一个的相应的意图来生成输出数据包括:确定特定用户没有执行特定用户的相应的目标,以及向一组用户中的一个或多个用户中的每一个的设备提供输出数据用于在一个或多个用户中的每一个的设备处呈现包括:向领导者用户的设备提供指示特定用户的数据和指示特定用户没有执行特定用户的相应的目标的数据。
在一些方面中,输出数据包括指示一组用户中的执行用户的相应的目标的用户数量的热图。一些方面可以包括基于输出数据执行动作。动作可以基于输出数据将一个或多个用户重新分配到不同的目标。
可以在特定实施例中实现本说明书中所描述的主题并且可以产生以下优点中的一个或多个。使用多模态输入融合来确定共享空间中的一组用户或该组中的一个或多个用户的意图使得可视化系统能够向用户提供反馈,确定并改进与用户相关的度量,调节用户的动作,将用户重新分配到不同的角色(例如,作为负载的实时再平衡的一部分),并且示出隐藏的群组动态。通过确定用户的意图,系统可以预测用户的未来动作,并且在动作发生之前调节动作。这可以增加完成任务的效率,并且通过防止用户执行不安全的动作来改进安全性。诸如注视方向和姿势的多个输入的使用使得可视化系统能够相对于其他技术(诸如用户或表示用户的化身的头顶监控)更准确地确定用户相对于对象和/或其他用户的意图。
本说明书中描述的主题的一种或多种实施方式的细节在附图和以下描述中阐述。主题的其他特征、方面和优点将从描述、附图和权利要求变得显而易见。
附图说明
图1A是其中可视化系统确定共享空间中的一组用户的意图并对其采取行动的环境的示例。
图1B是可穿戴系统的示例。
图2A至2C是示出一组用户对单个对象的注意力的示例注意力模型。
图3A和3B是示出一组用户对内容和人的注意力或与内容的交互的示例注意力模型。
图4A至4C是描绘一组用户的注意力的向量图。
图5A至5C是分别对应于图4A至4C的向量图的用户注意力的热图。
图6是示出两个用户相对于彼此和共同的对象的注意力的示例注意力模型。
图7是示出两个用户相对于彼此和共同的对象的注意力的另一示例注意力模型。
图8是示出相互用户对用户注意力的示例注意力模型。
图9是用于确定一组用户中的一个或多个用户的意图并对其采取行动的示例过程的流程图。
图10是可以结合本文档中描述的计算机实现的方法使用的计算系统的框图。
各附图中的相同参考数字和标记指代相同元件。
具体实施方式
本说明书一般地描述了其中确定共享空间中的一组用户的意图并对其采取行动的成像和可视化系统。
图1A是其中可视化系统120确定共享空间中的一组用户的意图并对其采取行动的环境100的示例。共享空间可以包括真实空间或环境,例如,使用增强现实,或者使用化身、游戏玩家或表示真实人物的其他图标或图形的虚拟空间。增强现实、虚拟现实或混合现实空间在本文档中也称为共享的虚拟空间。
可视化系统120可以被配置为接收来自用户系统110和/或其他源的输入。例如,可视化系统120可以被配置为接收来自用户系统110的视觉输入131,来自固定设备的固定输入132,例如,来自房间相机的图像和/或视频,和/或来自各种传感器的感觉输入133,例如,手势、图腾、眼睛跟踪、或用户输入。
在一些实施方式中,用户系统110是包括可穿戴设备的可穿戴系统,诸如由用户105穿戴的可穿戴设备107。可穿戴系统(在本文中也称为增强现实(AR)系统)可被配置为向用户呈现2D或3D虚拟图像。图像可以是静止图像、视频的帧、或视频、或组合等。可穿戴系统可以包括可以在环境中单独或者组合呈现VR、AR或MR内容以用于用户交互的可穿戴设备。可穿戴设备可以是头戴式设备(HMD),该头戴式设备(HMD)可包括头戴式显示器。
可以通过具有显示器的显示系统来提供VR、AR和MR体验,在该显示器中,将与多个渲染平面对应的图像提供给观看者。渲染平面可以对应于深度平面或多个深度平面。图像对于每个渲染平面可能是不同的(例如,提供场景或对象的稍有不同的呈现),并且可能会被观看者的眼睛分别聚焦,从而有助于基于使位于不同渲染平面上的场景的不同图像特征聚焦所需的眼睛调节(accommodation)或基于观察失焦的不同渲染平面上的不同图像特征来向用户提供深度提示。
可穿戴系统可以使用各种传感器(例如,加速度计、陀螺仪、温度传感器、运动传感器、深度传感器、GPS传感器、面向内部的成像系统、面向外部的成像系统等)来确定用户的环境的位置和各种其他属性。该信息可以进一步补充有来自房间中固定相机的信息,这些相机可以从不同的角度提供图像或各种提示。由相机(诸如房间相机和/或面向外部的成像系统的相机)获取的图像数据可以减少到映射点集。
图1B更详细地示出了示例可穿戴系统110。参考图1B,可穿戴系统110包括显示器145以及支持显示器145的功能的各种机械和电子模块和系统。显示器145可以被耦接到可由用户、穿戴者或观看者105穿戴的框架150。显示器145可以被定位在用户105的眼睛的前面。显示器145可以向用户呈现AR/VR/MR内容。显示器145可以包括戴在用户的头部上的头戴式显示器(HMD)。在一些实施例中,扬声器160被耦接到框架150并且邻近用户的耳道定位(在一些实施例中,未示出的另一个扬声器可以邻近用户的另一耳道定位,以提供立体声/可塑造声音控制)。显示器145可以包括用于检测来自执行语音识别的环境的音频流的音频传感器152(例如,麦克风)。
可穿戴系统110可以包括面向外部的成像系统,该成像系统观察用户周围的环境中的世界。可穿戴系统110还可以包括可以跟踪用户的眼睛运动的面向内部的成像系统。面向内部的成像系统可以跟踪一只眼睛的运动或两只眼睛的运动。面向内部的成像系统可以被附接到框架150,并且可以与处理模块170或180电连通,处理模块170或180可以处理由面向内部的成像系统获取的图像信息以确定例如用户105的眼睛的瞳孔直径或取向、眼睛运动或眼睛姿势。
作为示例,可穿戴系统110可以使用面向外部的成像系统或面向内部的成像系统来获取用户的姿势(例如,手势)的图像。图像可以是静止图像、视频的帧、或视频、或组合等。可穿戴系统110可以包括感测指示肌肉群的动作的信号的其他传感器,诸如肌电图(EMG)传感器。
显示器145可以诸如通过有线引线或无线连接可操作地耦接到本地数据处理模块170,该本地数据处理模块170可以以各种配置安装,诸如固定地附接到框架150、固定地附接到由用户穿戴的头盔或帽子上、嵌入耳机中、或以其他方式可拆卸地附接到用户105(例如,以背包式配置、以皮带耦合式配置)。
本地处理和数据模块170可以包括硬件处理器以及数字存储器(例如,非易失性存储器(例如,闪存)),两者均可以用于协助处理、缓存和存储数据。数据可以包括以下数据:(a)从环境传感器(其可以例如操作性地耦接到框架150或以其他方式附接到用户105)、音频传感器152(例如,麦克风)捕获;或(b)使用远程处理模块180或远程数据存储库190获取或处理,可能地用于在这样的处理或者检索之后传送到显示器145。本地处理和数据模块170可以通过通信链路(诸如经由有线或无线通信链路)可操作地耦接到远程处理模块180或远程数据存储库190,使得这些远程模块可用作本地处理和数据模块170的资源。另外,远程处理模块270和远程数据存储库190可以操作地耦接到彼此。
在一些实施例中,远程处理模块180可以包括被配置为分析和处理数据和/或图像信息的一个或多个处理器。在一些实施例中,远程数据存储库190可以包括数字数据存储设施,该数字数据存储设施可以是通过因特网或“云”资源配置中的其他网络配置可用的。
在一些实施例中,远程处理模块180可以包括被配置为分析和处理数据和/或图像信息的一个或多个处理器。在一些实施方式中,远程数据存储库190可以包括数字数据存储设施,该数字数据存储设施可以是通过因特网或“云”资源配置中的其他网络配置可用的。
环境传感器还可以包括各种生理传感器。这些传感器可以测量或者估计用户的生理参数,诸如心率、呼吸率、皮肤电反应、血压、脑电波状态等等。环境传感器还可以包括被配置为接收信号(诸如激光、可见光、光的不可见波长、或声音(例如,可听声、超声、或其他频率))的发射设备。在一些实施例中,一个或多个环境传感器(例如,相机或光传感器)可以被配置为测量环境的环境光(例如,亮度)(例如,以捕获环境的照明条件)。物理接触传感器(诸如应变规、抑制探针(curb feeler)等)也可以包括作为环境传感器。
返回参考图1A,可视化系统120包括一个或多个对象识别器121,其可以在地图数据库122的帮助下识别对象并识别或映射点、标记图像、将语义信息附接到对象。地图数据库122可以包括随时间收集的各种点和它们的对应的对象。各种设备和地图数据库122可以通过网络(例如,LAN、WAN等)连接到彼此以访问云。在一些实施方式中,可视化系统120的一部分或全部在用户系统110中的一个上实现,并且用户系统110可以通过网络(例如,LAN、WAN或因特网)彼此进行数据通信。
基于该信息和地图数据库122中的点的收集,对象识别器121可以识别环境中的对象,例如,用于一组用户的共享虚拟空间。例如,对象识别器121可以识别面(face)、人、窗、墙、用户输入设备、电视、用户环境中的其他对象等。一个或多个对象识别器可以专门用于具有某些特征的对象。例如,对象识别器可用于识别面,而另一对象识别器可用于识别图腾,同时另一对象识别器可用于识别手、手指、手臂或身体姿势。
可以使用各种计算机视觉技术来执行对象识别。例如,可穿戴系统可以分析由面向外部的成像系统获取的图像以执行场景重建、事件检测、视频跟踪、对象识别、对象姿势估计、学习、标引、运动估计、或图像恢复等。可以使用一种或多种计算机视觉算法来执行这些任务。计算机视觉算法的非限制性示例包括:尺度不变特征变换(SIFT)、加速鲁棒特征(SURF)、定向FAST和旋转BRIEF(ORB)、二进制鲁棒不变可扩展关键点(BRISK)、快速视网膜关键点(FREAK)、ViolaJones算法、Eigenfaces方法、Lucas-Kanade算法、Hom-Schunk算法、均值平移(Mean-shift)算法、视觉同时定位和地图构建(vSLAM)技术、顺序贝叶斯估计器(例如,卡尔曼滤波器、扩展卡尔曼滤波器等)、光束法平差(bundle adjustment)、自适应阈值(和其他阈值技术)、迭代最近点(ICP)、半全局匹配(SGM)、半全局块匹配(SGBM)、特征点直方图、各种机器学习算法(诸如例如,支持向量机、k最近邻算法、朴素贝叶斯、神经网络(包括卷积或深度神经网络)、或其他有监督/无监督模型等),等等。
可以附加地或替代地通过各种机器学习算法来执行对象识别。一旦训练,则机器学习算法可以由HMD存储。机器学习算法的一些示例可以包括监督或无监督机器学习算法,包括回归算法(诸如,例如,普通最小二乘回归)、基于实例的算法(诸如,例如,学习向量量化)、决策树算法(诸如,例如,分类和回归树)、贝叶斯算法(诸如,例如,朴素贝叶斯)、聚类算法(诸如,例如,k均值聚类)、关联规则学习算法(诸如,例如,先验算法)、人工神经网络算法(诸如,例如,感知器)、深度学习算法(诸如,例如,深度玻尔兹曼机、或深度神经网络)、维数约简算法(诸如,例如,主成分分析)、集成算法(诸如,例如,堆叠泛化)、和/或其他机器学习算法。在一些实施例中,可以为各个数据集定制各个模型。例如,可穿戴设备可以生成或存储基本模型。基本模型可以用作起点以生成特定于数据类型(例如,远程出现会话中的特定用户)、数据集(例如,用户在远程出现会话中获得的附加图像的集合)、有条件情况、或其他变化的附加模型。在一些实施例中,可穿戴HMD可以被配置为利用多种技术以生成用于聚合数据的分析的模型。其他技术可以包括使用预定义阈值或数据值。
基于该信息和地图数据库中的点的集合,对象识别器121可以识别对象并向对象补充语义信息以赋予对象生命。例如,如果对象识别器121将一组点识别为门,则可视化系统120可以附接一些语义信息(例如,门具有铰链并且绕铰链有90度的运动)。如果对象识别器121将一组点识别为镜子,则可视化系统120可以附接语义信息,即镜子具有可反射房间中的对象的图像的反射表面。随着时间的推移,地图数据库122随着系统120(其可以驻留在本地或可以通过无线网络访问)从世界积累更多数据而增长。一旦对象被识别,则信息可以被发送到一个或多个可穿戴系统,例如,用户系统110。
例如,MR环境可以包括关于在加利福尼亚发生的场景的信息。环境可以被传送到纽约的一个或多个用户。基于从FOV相机和其他输入接收的数据,对象识别器121和其他软件组件可以映射从各种图像收集的点、识别对象等,使得可以将场景准确地“传递”给可能在世界的不同地区的第二用户。环境还可以使用用于定位目的的拓扑地图。
可视化系统120可以为共享虚拟空间中的一个或多个用户中的每一个生成虚拟场景。例如,可穿戴系统可以从用户和其他用户接收关于共享虚拟空间内的用户的环境的输入。这可以通过各种输入设备和在地图数据库中已经具有的知识实现。用户的FOY相机、传感器、GPS、眼睛跟踪等将信息传达给可视化系统120。可视化系统120可以基于该信息来确定稀疏点。稀疏点可用于确定姿势数据(例如,头部姿势、眼睛姿势、身体姿势、或手势),该姿势数据可用于显示和理解用户周围环境中的各种对象的取向和位置。对象识别器121可使用地图数据库浏览这些收集的点并识别一个或多个对象。该信息可以然后被传达给用户的单独可穿戴系统,并且期望的虚拟场景可以因此被显示给用户。例如,可以在相对于纽约的用户的各种对象和其他周围环境的适当的取向、位置等处显示期望的虚拟场景(例如,加利福尼亚的用户)。
在另一示例中,共享虚拟空间可以是教学室,例如教室、演讲厅或会议室。可视化系统120可以类似地为教学室中的每个用户生成虚拟场景。在又一示例中,共享虚拟空间可以是每个用户参与游戏的游戏环境。在该示例中,可视化系统120可以为游戏中的每个玩家生成虚拟场景。在另一示例中,共享虚拟空间可以是工作环境,并且可视化系统120可以为环境中的每个工人生成虚拟场景。
可视化系统120还包括用户意图检测器124、群组意图分析器125和群组意图反馈生成器126。用户意图检测器124可以确定或至少预测共享虚拟空间中的一个或多个用户的意图。用户意图检测器124可以基于用户输入来确定用户的意图,例如,视觉输入、手势、图腾、音频输入等。
可穿戴系统可以被编程为接收各种模式的输入。例如,可穿戴系统可以接受以下两种或两种以上类型的输入模式:语音命令、头部姿势、身体姿势(其可以通过例如腰带包中的IMU或HMD外部的传感器来测量)、眼睛注视(本文中也称为眼睛姿势)、手势(或其他身体部位的手势)、来自用户输入设备(例如图腾)的信号、环境传感器等。
用户意图检测器124可以使用输入中的一个或多个来确定用户的意图。例如,用户意图检测器124可以使用输入中的一个或多个来确定用户将其焦点指向和/或将与之交互的目标对象。另外,用户意图检测器124可以确定用户是否正在观看对象或正在与对象交互的过程中,并且如果是,则确定将要发生的交互的类型。
用户意图检测器124可以使用跨模态输入融合技术来确定用户的意图。例如,用户意图检测器可以聚集来自多个传感器的直接输入和间接用户输入,以产生用于应用的多模态交互。直接输入的示例可以包括手势、头部姿势、语音输入、图腾、眼睛注视的方向(例如,眼睛注视跟踪)、其他类型的直接输入等。间接输入的示例可以包括环境信息(例如,环境跟踪)、其他用户正在做什么以及地理位置。
可穿戴系统可以使用面向外部的成像系统来跟踪手势并向可视化系统120报告手势。例如,面向外部的成像系统可以获取用户的手部的图像,并将图像映射到对应的手势。可视化系统120还可以使用对象识别器121来检测用户的头部姿势。在另一示例中,HMD可以使用IMU来识别头部姿势。
可穿戴系统可以使用面向内部的相机来执行眼睛注视跟踪。例如,面向内部的成像系统可以包括被配置为获得用户眼睛区域的图像的眼睛相机。可穿戴系统还可以接收来自图腾的输入。
用户意图检测器124可以使用各种输入和各种技术来确定用于用户的目标对象。目标对象可以是例如用户正在注意的对象(例如,观看至少阈值持续时间)、正在移动的对象或用户将要与其交互的对象。用户意图检测器124可以从输入源导出给定值,并且产生用于用户可能潜在地交互的候选虚拟对象的可能值的点阵(lattice)。在一些实施例中,值可以是置信度得分。置信度得分可以包括排名、评级、估值、定量或定性值(例如,从1至10范围内的数值、百分比或百分位数,或“A”、“B”、“C”等的定性值)等。
每个候选对象可以与置信度得分相关联,并且在一些情况下,具有最高置信度得分(例如,高于其他对象的置信度得分或高于阈值得分)的候选对象由用户意图检测器124选择为目标对象。在其他情况下,具有低于阈值置信度得分的置信度得分的对象被系统从作为目标对象的考虑中消除,这可以改进计算效率。
作为示例,用户意图检测器124可以使用眼睛跟踪和/或头部姿势来确定用户正在观看候选对象。用户意图检测器124还可以使用来自用户的可穿戴设备的GPS传感器的数据来确定用户是正在接近候选对象还是在不同方向上移动。用户意图检测器124还可以使用手势检测来确定用户是否正在伸手去取候选对象。基于该数据,用户意图检测器124可以确定用户的意图,例如,与候选对象交互或不与对象交互(例如,仅看着对象)。
群组意图分析器125可以分析群组中的多个用户的意图,例如,共享真实或虚拟空间中的一组用户。例如,群组意图分析器125可以分析观众的意图,例如,一班学生、观看呈现或演示的人、或者玩游戏的人。群组意图分析器125可以例如基于分析生成群组度量,基于分析重新分配用户的任务,为特定用户推荐动作,和/或执行其他动作,如下文所描述的。
对于指令或呈现,用户群组意图分析器125可以确定哪些用户正在注意指令(instruction)。在该示例中,群组意图分析器125可以接收指定指令的焦点的数据,例如,指导者用户、白板、显示屏、或者作为指令的汽车或其他对象,或者基于用户正在观看的目标对象来确定指令的焦点。例如,如果群组中的所有用户或至少阈值数量或百分比正在看同一对象,则群组意图分析器125可以确定对象是指令的主题。
在整个指令中,用户群组分析器125可以监测用户以确定哪些用户注意指令,并且计算关于指令的度量,诸如平均群组注意力、用户观看指令花费的平均时间量等。例如,用户群组分析器125可以确定注意每个特定对象的用户的百分比以及在给定时间段内每个用户注意对象的平均时间量。如果用户被给定任务,则用户群组分析器125可以针对每个用户确定用户是否正在执行任务、用户执行任务花费的时间的百分比、以及针对群组的聚集测量结果,例如,执行其任务的用户的百分比、群组中的用户执行其任务花费的平均时间量等。
用户群组分析器125还可以确定哪些用户正在跟随显示或视觉检查,哪些用户正在看领导者(例如,游戏中的演讲者或领导者),哪些用户正在看环境,对指令或问题的群组响应,或者针对任务失败的潜在性(例如基于多少用户没有遵循指令或没有注意到领导者)。
用于群组中的每个用户的目标对象可用于识别共享虚拟空间中的分心(distraction)。例如,如果大多数用户正在注意指令的焦点,但是多个其他用户正在观看另一对象,则群组意图分析器125可以确定另一对象是分心。
群组意图分析器125可以计算平均群组运动和群组运动的方向。用户群组分析器125可以例如实时将该运动数据与目标路径进行比较,并且使用群组意图反馈生成器126(下文所描述的)向指导者给出反馈。例如,如果指导者正在教授健身课或舞蹈课,则用户群组分析器125可以将用户的运动与目标运动进行比较,并且确定用户的运动与目标运动匹配多么好的得分。
在一些实施方式中,每个用户可以被分配任务,例如,作为群组项目或团队游戏的一部分。群组意图分析器125可以监测每个用户的意图,并且将意图与他们的任务进行比较以确定用户是否正在执行他们的任务。群组意图分析器125可以使用该数据来计算任务效率和/或针对任务失败的潜在性。
群组意图分析器125可以基于用户的意图来确定隐藏的(hidden)群组动态。例如,群组意图分析器125可以发现一组用户内的局部视觉注意力。在特定示例中,群组意图分析器125可以确定一个子组正在观看指导者,而另一个子组正观看由指导者正在讨论的对象。
群组意图分析器125可以使用该数据来确定群组不平衡。例如,群组意图分析器125可以识别低效的用户集群、来自多个冲突领导者的干扰、和/或生产线协作任务期间的任务移交减慢或错误。
在一些实施方式中,群组意图分析器125可以使用群组内的多用户跨模态收敛(convergence)来确定用于群组的各种特性或度量。跨模态收敛可以包括注视注意力(例如,用户的分心或参与的水平)、眼部手动(ocular manual)意图(例如,用户的伸手、点、抓、挡、推或扔)、跟随路径的眼部踏板(ocular-pedal)意图(例如步行、跑步、跳跃、侧步、倾斜或转弯)、身体活动水平(例如,地面速度、手动努力或疲劳),和/或成员和群组认知(例如,不和谐、困惑或升高认知负荷)。
群组意图分析器125可以确定群组和子组统计和/或度量。例如,群组意图分析器125可以确定群组运动(例如,沿着路径的停止和开始计数)、群组物理分割和重组率、群组半径、子组计数(例如执行特定任务或关注特定对象的用户的数量)、子组大小、主群组大小、子组分割和重组率、平均子组成员率、和/或子组特性(例如,性别、年龄、角色、谈话率、沟通率、提问率等)。
在一些实施方式中,次要传感器,诸如世界相机(如果用户提供许可),可以面对一组用户。在该示例中,群组意图分析器125可以确定附加的群组特性,诸如群组的情绪状态的估计、群组的紧张或放松水平、群组讨论意图的估计(例如,基于信息流、来自群组成员的贡献、或言语表达的非言语资格)、风格群组动态(例如,领导风格、演讲风格、教学风格、或操作风格)、和/或身体语言视觉翻译(translation)(例如,从身体姿势或激动水平指示非口头交流的意图)。
由群组意图分析器125收集和/或生成的数据可以经由本地网络共享或存储在云中,并针对上述度量和特性或次要特性进行查询。次要特性可以包括例如识别、定位或跟踪未穿戴可穿戴设备的群组的隐藏成员。次要特性还可以包括房间中的重影(ghost)群组成员(例如,未穿戴可穿戴设备的人)和/或在扩展虚拟空间中的扩展团队上操作的重影群组成员。次要特性还可以包括对影响不是群组的一部分的群组动态的人和对象的识别、定位或跟踪和/或对群组运动模式的识别。
群组意图反馈生成器126可以基于由群组意图分析器125产生的结果向用户或特定用户提供反馈。例如,群组意图反馈生成器126可以生成并在特定用户的显示器上呈现各种群组度量。例如,对于一组用户而言,注意指令的用户的数量、看着领导者的用户的数量等。该可视化可以以示出用户的意图或焦点的向量图或热图的形式。例如,热图可以为每个用户示出用于用户的特定颜色,该特定颜色指示该用户相对于领导者或指导者的注意力水平。在另一示例中,用于用户的颜色可以表示用户执行分配任务的效率。以这种方式,查看可视化的领导者可以重新获得分心用户的注意力和/或让用户回到他们相应的任务上。在另一示例中,如图5A至5C所示,热图可以示出用户的注意力的区域以及注意这些区域的用户的相对数量。
在一些实施方式中,群组意图反馈生成器126可以基于由群组意图反馈生成器126产生的结果来执行动作。例如,如果子组低效地执行任务或分心,则群组意图反馈生成器126可以将用户重新分配给不同的任务或子组。在特定示例中,群组意图反馈生成器126可以将表现良好的子组的领导者重新分配给低效子组,以改进低效子组的性能。在另一示例中,如果任务资源不足,例如,没有足够的成员来执行任务,则群组意图反馈生成器126可以将用户重新分配给该子组,例如,从具有太多成员的子组中重新分配用户,从而导致执行其任务时的人类干扰。
对于单独用户,群组意图反馈生成器126可以生成警报或向领导者或其他用户推荐针对单独用户的动作。例如,如果用户的意图偏离了分配给用户的任务,则群组意图反馈生成器126可以生成警报以通知领导者和/或为单独用户推荐动作,例如,新任务或对用户执行当前任务的方式的校正。
群组意图反馈生成器126还可以基于用户在群组内的活动来建立和更新用户的简档或模型。例如,简档或模型可以用信息表示用户在群组内的行为,诸如平均注意力水平、任务效率、分心水平、什么对象倾向于使用户分心等。该信息可由群组意图反馈生成器126在未来会话期间使用,以预测用户将如何对各种任务或潜在分心做出反应,主动向领导者生成警报,向用户分配适当的任务,和/或确定何时将用户重新分配给不同的任务。
图2A至2C分别是示出一组用户对单个对象的注意力的示例注意力模型200、220和240。参考图2A,模型200包括一组用户201-204,他们都在看同一对象210。如针对用户201所示,在图2A中,每个用户201-204具有示出用户的头部姿势方向的实心箭头206、示出用户注视方向的虚线箭头207、以及在任一端上具有圆形的线208,该线208示出用户手臂的姿势的方向。相同类型的箭头/线用于示出用于图2A至图8的相同信息。
可视化系统可以识别头部姿势方向,可以使用IMU识别头部姿势。可视化系统还可以使用眼睛跟踪来识别每个用户的注视方向。可视化系统还可以使用手势检测技术来确定用户移动他们的手臂的方向。使用该信息,对于模型200,可视化系统可以确定所有用户201-204在看对象210,并且所有用户201-204在伸手去取同一对象。
可视化系统可以使用该信息来执行动作、生成警报,或者生成数据并将其呈现给一个或多个用户。例如,可视化系统可以将任务分配给用户201-204。在特定示例中,可视化系统可能已经向用户201-204分配了拾取对象的任务。基于每个用户的注视方向和手臂方向与他们与对象210的相对位置组合,可视化系统可以确定所有用户201-024在伸手去取对象210,但是用户202比其他用户离对象更远。作为响应,可视化系统可以指示其他用户等待特定的时间段或者等待直到提供给每个用户201-204的倒计时完成。以这种方式,可视化系统可以基于用户的集体意图来同步用户的任务。
参考图2B,模型220包括一组用户221-225,他们都在看同一对象230。在该示例中,一个用户223正朝向对象230做手势。该用户223可以是正在谈论对象230的群组的领导者或演讲者或指导者。在另一示例中,对象230可以是保持用户223正在向其他用户描述的另一对象的表(table)。该模型可用于向用户223示出关于其他用户的焦点的信息。尽管在该示例中,所有其他用户在看对象230,但是在其他示例中,一些用户可能在看用户223或其他地方。如果是,则具有关于用户的注意力的信息可以帮助用户223将这样的用户的焦点带回对象230或用户223(如果适当的话)。
参考图2C,模型240包括一组用户241-244,他们都在看同一对象250。在该示例中,一个用户242正朝向对象250做手势。例如,用户242可以是针对群组的领导者或指导者,并且对象250可以是其他用户应该观看的白板或显示器。类似于模型220,关于其他用户正在看什么的信息可以帮助用户242使其他用户正确地聚焦。
图3A和3B是示出了一组用户对内容和人的注意力或与内容的交互的示例注意力模型300和350。参考图3A,领导者用户310正在参考对象305(例如白板、显示器或其他对象)与一组用户320交谈。在该示例中,群组在对象305上表现出奇异(singular)的注意力,如由表示用户注视的虚线箭头所示。
相反,在图3B中,模型350表示分割或发散的观众注意力。在该示例中,领导者用户360站在作为讨论的主题的对象355旁边。一组用户370中的一些用户正在观看领导者用户360,而其他用户正在观看对象355。如果用户应该注意领导者用户360或对象355,则可视化系统可以警报注意错误对象的用户或者警报领导者用户360,使得领导者用户360可以校正其他用户。
图4A至4C分别是描绘一组用户的注意力的向量图400、420和440。图5A至5C是分别对应于图4A至4C的向量图的用户注意力的热图500、520和540。向量图400和热图500基于图3A的模型300中的用户组的注意力。类似地,向量图420和热图520基于图3B的模型320中的用户组的注意力。向量图440和热图540基于包括聚焦于许多不同区域而非集中于一个或两个特定对象的用户的发散观众的注意力。
热图500、520和540以二维示出,但是表示三维热图。热图包括示出为椭圆的椭球体,并且其表示用户组中的用户的注意力的区域。如果示出了第三维度,则呈现在较大椭圆上的较小椭圆表示更大或更高的椭球体。椭球体的高度可以表示群组中的用户对由椭球体表示的区域的注意力水平,例如,较高的椭球体具有更多的注意力或较低的注意力。图5A至5B中所示的椭球体的区域表示用户的注意力的区域,例如,更宽的区域表示其中用户聚焦他们的注意力的更大的区域。由于椭圆表示椭球体,以下讨论将椭圆称为椭球体。
参考图4A和5A,向量图400和热图420表示图3A的用户组320的注意力。向量图400包括表示群组中的用户的注意力的一组向量410。在该示例中,向量图400表示一组用户对同一对象305的奇异注意力。如上文参考图3A所描述的,群组中的每个用户在看同一对象。
图5A的热图500包括多个椭球体,每个椭球体表示用户前面的区域。例如,对象305可以在用户前面的舞台或桌子上。热图500可以表示该区域,并且包括至少一个用户在一段时间内观看的区域的每个部分的椭球体。由每个椭球体覆盖的区域可以对应于用户前面的区域。
热图500可以表示用户在给定时间段内的滚动平均注意力,例如,先前的5分钟、10分钟、30分钟或另一适当的时间段。以这种方式,热图500的椭球体可以随着用户的注意力改变而移动和改变大小。
在该示例中,用户(例如,用户320)可以查看热图500,并且确定用户全部聚焦到用户320或对象305上。因此,用户可能不必执行任何动作来将用户的焦点带回用户320或对象305。
参考图4B和5B,向量图420和热图520表示图3B的用户组370之间的分割(split)注意力。向量图420包括表示群组中的用户的注意力的一组向量430。用户430中的一些正在看对象325,而其他用户正在看用户360,例如,讨论对象325。热图包括表示用户360定位的区域的第一组椭球体531和表示对象325定位的区域的第二组椭球体532。椭球体531顶部的较小区域椭球体可以表示用户360花费最多时间的位置,因为它比其他椭球体更高,表示对由椭球体表示的位置的更多注意力。具有较大区域的椭球体可以表示用户306可能已经移动的较大区域,或者群组中的用户可能已经观看的较大区域,尽管用户360不在那里,因为针对这些椭球体的总(aggregate)注意力水平较低。由于对象325可能根本没有移动,因此最大椭球体532的区域小于椭球体组531中的区域。
参考图4C和5C,向量图420和热图520表示一组用户之间的发散注意力。向量图420包括表示群组中的用户的注意力的一组向量430。在该示例中,用户中的一些正在看对象445,而其他用户正在看讨论对象445的领导者用户480。
热图550包括椭球体550,椭球体550具有表示用户在给定时间段内已经聚焦其注意力的所有区域的大区域。另外,热图540包括椭球体551-553,其表示用户集中更多注意力的较小区域,例如,更多的用户将其注意力集中在这些区域,或者用户将其注意力更长时间段集中在那些区域。观看该热图的用户可以获悉用户没有很好地关注用户480或对象445,并且可以中断呈现或指令以重新获得用户的注意力。在另一示例中,可视化系统可以基于总注意力和椭球体之间的差异来确定用户没有集中在同一对象上,并且生成对用户480或用户组的警报。
图6是其中两个用户的注意力在共同对象上的示例注意力模型600和650。模型600表示两个用户621和622看着对象610并朝向对象610做手势。模型650表示两个用户671和672看着彼此并向彼此做手势,而不是向对象610做手势。
图7是其中两个用户721和722的注意力在共同对象710上的另一示例注意力模型700。在该示例中,用户722的注意力是对象710的一侧,并且用户722正在看对象710的置信度水平可能低于仅使用注视或眼睛跟踪的用户721的置信度水平。然而,如果用户722朝向对象710做手势,这可以增加置信度。
图8是其中存在用户与用户之间的相互注意力的示例注意力模型800。特别地,用户811正在看另一用户822,并且用户822正在看用户811。
图9是用于确定一组用户中的一个或多个用户的意图并对其采取行动的示例过程900的流程图。过程可以例如通过图1A的可视化系统120来执行。
系统对于共享虚拟空间中的一组用户识别该组用户中的两个或多个用户中的每一个的相应目标(902)。共享虚拟空间可以包括真实空间或环境,例如,使用增强现实,或者使用化身、游戏玩家或表示真实人物的其他图标或图形的虚拟空间。
针对用户的目标可以是由用户执行的任务。例如,领导者可以将任务分配给群组中的单独用户或用户的子组。在另一示例中,系统可以随机、伪随机或基于用户的简档(例如,基于先前的表现,诸如执行先前任务时的任务效率或分心水平)将任务分配给用户。
用户的目标可以是注意主题对象,例如,物理对象或虚拟对象。主题对象可以是人,例如,指导者或演讲者、显示器或白板、正在执行手术的人、正在演示或修复的对象、或另一类型的对象。在该示例中,主题对象可以由领导者或由系统指定。例如,系统可以基于正在看主题对象的用户的数量来确定主题对象,例如,至少阈值百分比,诸如50%、75%等。
系统基于多个输入来确定群组中的两个或多个用户中的每一个的相应的意图(904)。多个输入可以来自具有不同输入模态的多个传感器。例如,传感器可以包括一个或多个成像系统,例如面向外部的成像系统和面向内部的成像系统、环境传感器、和/或其他适当的传感器。传感器中的至少一些可以是用户的设备的一部分,例如,如上文所描述的可穿戴系统,其使得用户能够参与共享虚拟空间。其他传感器可以包括虚拟空间的地图和/或对象识别器,举几个示例。
意图可以定义用户可能与之交互的目标对象以及与目标对象的用户交互。例如,如果用户正朝向目标对象行走并看着对象,则系统可以确定用户可能与目标对象进行交互。
多个输入可以包括指定用户的注视的注视数据、指定用户的手部姿势的姿势数据、以及指定用户正在移动的方向的方向数据。例如,可以从用户的可穿戴设备接收该数据,如上文所描述的。使用这样的数据使得系统能够更准确地确定用户的意图。
对于两个或多个用户中的每一个,系统确定用户是否正在执行用户的目标(906)。该系统可以基于所确定的用户的意图和用户目标之间的比较来做出该确定。例如,如果所确定的意图(例如,拾取特定对象)与用户的目标(也拾取目标对象)匹配,则系统可以确定用户正在执行(例如,执行或实现)用户的目标。如果用户正在远离目标对象,例如,其中意图与不同对象交互,则系统可以确定用户未执行用户的目标。
在另一示例中,用户的目标可以是观看演示或指导者。系统可以确定每个用户正在看的目标对象,并且确定多少用户实际在观看演示,多少用户在观看指导者或演讲者,和/或多少用户正在观看作为指令或演示的主题的对象。在该示例中,用于用户的目标可以是更多地注意主题对象,而不是指导者或演讲者。系统可以例如基于观看每个的用户数量和/或每个用户观看每个的时间的百分比来确定用户组相对于主题对象和/或指导者或演讲者的注意力水平。然后,系统可以基于针对用户或用户组的注意力水平来确定用户是单独地还是作为群组来执行该目标。
系统生成用于该组用户的输出数据(908)。输出数据可以包括单独用户或用户组的特性、统计、度量和/或状态。例如,如果特定用户未执行用户的目标,则输出数据可以指示特定用户是谁、用户未执行目标、以及目标。输出数据可以指示多少用户正在执行他们的目标,例如,用户的数量或百分比、哪些用户正在执行他们的目标(例如,谁在看演讲者或主题对象)、平均群组运动、针对任务失败的潜在性等等。
在一些实施方式中,输出数据可以包括图或图表。例如,系统可以生成热图,该热图针对群组指示执行其目标的用户的数量。例如,热图可以包括颜色或阴影的范围,其指示用户执行目标的水平。对于每个用户,热图可以包括代表用户的元素,并且该元素可以以与用户执行用户目标的水平相匹配的颜色呈现。
系统针对一个或多个用户中的每一个提供用于在设备处呈现的输出数据(910)。例如,系统可以将输出数据提供给群组的领导者。在该示例中,用户可以基于数据采取行动,例如,校正一个或多个用户的意图。
在一些实施方式中,系统可以基于输出数据采取动作。例如,系统可以执行校正或改进动作,诸如将来自未执行其目标的用户的任务重新分配给已经执行其目标的其他用户。在另一示例中,系统可以确定一些群组任务资源不足,并且将其他用户重新分配给该子组。
在呈现或指令环境中,系统可以确定至少阈值量(例如,数量或百分比)的用户分心或以其他方式未注意主题对象。在该示例中,系统可以执行动作以引起用户的注意,例如,通过在他们的显示器上呈现注意主题对象的通知。
本说明书中描述的主题和功能操作的实施例可以在数字电子电路中、在有形体现的计算机软件或固件中、在计算机硬件中实现,包括本说明书中所公开的结构及其结构等同物,或者以它们中的一个或多个的组合。本说明书中所描述的主题的实施例可以被实现为一个或多个计算机程序,即,被编码在有形非暂态计算机程序载体上用于由数据处理装置执行或者控制数据处理装置的操作的计算机程序指令的一个或多个模块。替代地或者附加地,程序指令可以被编码在人工生成的传播信号上,例如,机器生成的电、光或电磁信号,其被生成以编码信息用于传输到适合的接收机装置用于由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储衬底、随机或串行访问存储器设备、或它们中的一个或多个的组合。
术语“数据处理装置”是指数据处理硬件,并且涵盖用于处理数据的所有种类的装置、设备和机器,举例来说包括可编程处理器、计算机或多个处理器或计算机。装置还可以是或进一步包括专用逻辑电路,例如,FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外,装置可以可选地包括创建用于计算机程序的执行环境的代码,例如构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。
计算机程序(其还可以被称为或描述为程序、软件、软件应用、模块、软件模块、脚本或代码)可以以任何形式的编程语言编写,包括编译或者解译语言、说明性或者过程性语言,并且其可以以任何形式部署,包括作为单独程序或作为模块、组件、子例程或适合在计算环境中使用的其他单元。计算机程序可以但不需要对应于文件系统中的文件。程序可以被存储在保持其他程序或数据(例如,被存储在标记语言文档中的一个或多个脚本)的文件的一部分中、在专用于讨论中的程序的单个文件中或在多个协作文件中(例如,存储一个或多个模块、子程序或代码的部分的文件)。计算机程序可以被部署成在一个计算机上执行,或者在被定位在一个地点处、或跨多个地点分布并且通过通信网络互连的多个计算机上被执行。
本说明书中所描述的过程和逻辑流可以通过一个或多个可编程计算机执行,所述一个或多个可编程计算机执行一个或多个计算机程序,以通过对输入数据进行操作并且生成输出来执行功能。过程和逻辑流还能够通过专用逻辑电路,例如,FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且装置还能够被实现为所述专用逻辑电路。
举例来说,适合于计算机程序的执行的计算机包括通用或专用微处理器或两者,或任何其他种类的中央处理单元。通常,中央处理单元将从只用于执行或执行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。通常,计算机将还包括用于存储数据的一个或多个海量存储设备,或操作性地耦接到一个或多个海量存储设备以从其接收数据或向其传送数据或二者,海量存储设备例如磁性盘、磁光盘或者光盘。然而,计算机不需要具有这样的设备。而且,计算机可以被嵌入在另一设备中,所述另一设备例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器,或者便携式存储设备(例如,通用串行总线(USB)闪盘驱动器,等等。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,举例来说包括半导体存储器设备,例如,EPROM、EEPROM和闪速存储器设备;磁盘,例如,内部硬盘或者可移除磁盘;磁光盘;以及CD-ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或者并入专用逻辑电路中。
为了提供与用户的交互,本说明书中所描述的主题的实施例可以被实现在计算机上,所述计算机具有用于将信息显示给用户的显示设备,例如,CRT(阴极射线管)或LCD(液晶显示器)监视器,以及用户通过其可以向计算机提供输入的键盘和指点设备,例如,鼠标或轨迹球。其他种类的设备也可以被用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感觉反馈,例如,视觉反馈、听觉反馈或者触觉反馈;并且来自用户的输入可以以任何形式接收,包括声音、语音或者触觉输入。另外,计算机能够通过将文档发送到由用户所使用的设备并且从其接收文档来与用户交互;例如,通过响应于从网络浏览器接收的请求,将网页发送到用户的用户设备上的网络浏览器。
在本说明书中所描述的主题的实施例可以被实现在计算系统中,所述计算系统包括后端部件,例如,作为数据服务器,或者包括中间件部件,例如,应用服务器,或者包括前端部件,例如,具有用户通过其能够与本说明书中所描述的主题的实施方式交互的图形用户接口或网络浏览器的客户计算机,或者一个或多个这样的后端、中间件或前端部件的任何组合。系统的组件可以通过任何形式或介质的数字数据通信互联,所述数字数据通信例如通信网络。通信网络的示例包括局域网(LAN)和广域网(WAN),例如,因特网。
计算系统可以包括客户端和服务器。客户端和服务器通常远离彼此并且典型地通过通信网络交互。客户端和服务器的关系借助于在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序产生。在一些实施例中,服务器将数据(例如,HTML页面)发送到用户设备(例如,出于将数据显示给与充当客户端的用户设备交互的用户并且从其接收用户输入的目的)。在服务器处能够从用户设备接收在用户设备处生成的数据(例如,用户交互的结果)。
图10示出了一种这样类型的计算机的示例,其示出了通用计算机系统1000的示意图。根据一个实施方式,系统1000可用于与先前描述的任何计算机实现的方法相关联地描述的操作。系统1000包括处理器1010、存储器1020、存储设备1030和输入/输出设备1040。组件1010、1020、1030和1040中的每一个使用系统总线1050互连。处理器1010能够处理用于在系统1000内执行的指令。在一个实施方式中,处理器1010是单线程处理器。在另一实施方式中,处理器1010是多线程处理器。处理器1010能够处理存储在存储器1020中或存储设备1030上的指令,以在输入/输出设备1040上显示用于用户接口的图形信息。
存储器1020存储系统1000内的信息。在一个实施方式中,存储器1020是计算机可读介质。在一个实施方式中,存储器1020是易失性存储器单元。在另一实施方式中,存储器1020是非易失性存储器单元。
存储设备1030能够为系统1000提供海量存储。在一个实施方式中,存储设备1030是计算机可读介质。在各种不同的实施方式中,存储设备1030可以是软盘设备、硬盘设备、光盘设备或磁带设备。
输入/输出设备1040为系统1000提供输入/输出操作。在一个实施方式中,输入/输出设备1040包括键盘和/或指点设备。在另一实施方式中,输入/输出设备1040包括用于显示图形用户界面的显示单元。
虽然本说明书包含许多特定实现细节,但是,这些细节不应当被解释为对可以主张什么的范围的限制,而是可以特定于特定实施例的特征的描述。在本说明书中,在分离的实施例的上下文中描述的某些特征也可以在单个实施例中组合实现。相反地,在单个实施例的上下文中描述的各种特征也可以分离地或者以任何适合的子组合被实现在多个实施例中。而且,尽管以上可以将特征描述为以某些组合起作用并且甚至最初如此宣称,但是在某些情况下可以从组合中切除所要求保护的组合中的一个或多个特征,并且所要求保护的组合可以针对子组合或子组合的变体。
类似地,虽然以特定次序在附图中描绘了操作,但是这不应该被理解为要求这样的操作以所示的特定次序或者以顺序次序执行,或者执行全部所示出的操作,以实现期望的结果。在某些情况下,多任务和并行处理可以是有利的。而且,上文所描述的实施例中的各种系统模块和组件的分离不应该被理解为在所有实施例中都要求这样的分离,并且应该理解的是,所描述的程序组件和系统通常可以一起集成在单个软件产品中或者封装到多个软件产品中。
已经描述本主题的特定实施例。其他实施例在权利要求的范围内。例如,权利要求中所记载的动作可以以不同的次序执行并且仍然实现期望的结果。作为一个示例,附图中所描绘的过程不是必须要求所示的特定次序或顺序次序来实现期望的结果。在一些情况下,多任务和并行处理可能是有利的。
Claims (20)
1.一种由一个或多个数据处理装置执行的方法,所述方法包括:
对于共享虚拟空间中的一组用户,识别所述一组用户中的两个或多个用户中的每个用户的相应的目标;
对于所述两个或多个用户中的每个用户:
基于来自具有不同输入模态的多个传感器的输入,确定所述用户的相应的意图,其中,所述多个传感器中的至少一部分传感器是使得所述用户能够参与所述共享虚拟空间的所述用户的设备的传感器;以及
基于所述相应的意图,确定所述用户是否正在执行所述用户的相应的目标;
对于所述一组用户,基于所述两个或多个用户中的每个用户的相应的目标以及所述两个或多个用户中的每个用户的相应的意图,生成输出数据;以及
向所述一组用户中的一个或多个用户中的每个用户的相应设备提供所述输出数据,以用于在所述一个或多个用户中的每个用户的相应设备处呈现。
2.根据权利要求1所述的方法,其中,所述两个或多个用户中的至少一个用户的相应的目标包括以下中的至少一个:(i)要由所述至少一个用户执行的任务,或(ii)所述至少一个用户应当观看的主题对象。
3.根据权利要求2所述的方法,其中,识别所述两个或多个用户中的每个用户的相应的目标包括:将所述一组用户中的至少阈值数量的用户正在观看的目标确定为所述主题对象。
4.根据权利要求1所述的方法,其中:
每个用户的相应设备包括可穿戴设备;以及
确定所述用户的相应的意图包括:
从所述用户的所述可穿戴设备接收指定所述用户的注视的注视数据、指定所述用户的手部姿势的姿势数据和指定所述用户正在移动的方向的方向数据;以及
基于所述注视数据、所述姿势数据和所述方向数据,确定所述用户关于目标对象的意图,作为所述用户的相应的意图。
5.根据权利要求1所述的方法,其中:
基于所述两个或多个用户中的每个用户的相应的目标以及所述两个或多个用户中的每个用户的相应的意图来生成所述输出数据包括:确定特定用户没有执行所述特定用户的相应的目标;以及
向所述一组用户中的一个或多个用户中的每个用户的所述设备提供所述输出数据以用于在所述一个或多个用户中的每个用户的所述设备处呈现包括:向领导者用户的设备提供指示所述特定用户的数据和指示所述特定用户没有执行所述特定用户的相应的目标的数据。
6.根据权利要求1所述的方法,其中,所述输出数据包括指示所述一组用户组中的执行所述用户的相应的目标的用户的数量的热图。
7.根据权利要求1所述的方法,还包括:基于所述输出数据,执行动作。
8.根据权利要求7所述的方法,其中,所述动作包括:基于所述输出数据,将一个或多个用户重新分配给不同的目标。
9.一种计算机实现的系统,包括:
一个或多个计算机;以及
一个或多个计算机存储器设备,其与所述一个或多个计算机可互操作地耦接并且具有存储一个或多个指令的有形非暂态机器可读介质,所述一个或多个指令在由所述一个或多个计算机执行时执行包括以下的操作:
对于共享虚拟空间中的一组用户,识别所述一组用户中的两个或多个用户中的每个用户的相应的目标;
对于所述两个或多个用户中的每个用户:
基于来自具有不同输入模态的多个传感器的输入,确定所述用户的相应的意图,其中,所述多个传感器中的至少一部分传感器是使得所述用户能够参与所述共享虚拟空间的所述用户的设备的传感器;以及
基于所述相应的意图,确定所述用户是否正在执行所述用户的相应的目标;
对于所述一组用户,基于所述两个或多个用户中的每个用户的相应的目标以及所述两个或多个用户中的每个用户的相应的意图,生成输出数据;以及
向所述一组用户中的一个或多个用户中的每个用户的相应设备提供所述输出数据,以用于在所述一个或多个用户中的每个用户的相应设备处呈现。
10.根据权利要求9所述的计算机实现的系统,其中,所述两个或多个用户中的至少一个用户的相应的目标包括以下中的至少一个:(i)要由所述至少一个用户执行的任务,或(ii)所述至少一个用户应当观看的主题对象。
11.根据权利要求10所述的计算机实现的系统,其中,识别所述两个或多个用户中的每个用户的相应的目标包括:将所述一组用户中的至少阈值数量的用户正在观看的目标确定为所述主题对象。
12.根据权利要求9所述的计算机实现的系统,其中:
每个用户的相应设备包括可穿戴设备;以及
确定所述用户的相应的意图包括:
从所述用户的所述可穿戴设备接收指定所述用户的注视的注视数据、指定所述用户的手部姿势的姿势数据和指定所述用户正在移动的方向的方向数据;以及
基于所述注视数据、所述姿势数据和所述方向数据,确定所述用户关于目标对象的意图,作为所述用户的相应的意图。
13.根据权利要求9所述的计算机实现的系统,其中:
基于所述两个或多个用户中的每个用户的相应的目标以及所述两个或多个用户中的每个用户的相应的意图来生成所述输出数据包括:确定特定用户没有执行所述特定用户的相应的目标;以及
向所述一组用户中的一个或多个用户中的每个用户的所述设备提供所述输出数据以用于在所述一个或多个用户中的每个用户的所述设备处呈现包括:向领导者用户的设备提供指示所述特定用户的数据和指示所述特定用户没有执行所述特定用户的相应的目标的数据。
14.根据权利要求9所述的计算机实现的系统,其中,所述输出数据包括指示所述一组用户组中的执行所述用户的相应的目标的用户的数量的热图。
15.根据权利要求9所述的计算机实现的系统,其中,所述操作包括:基于所述输出数据,执行动作。
16.根据权利要求15所述的计算机实现的系统,其中,所述动作包括:基于所述输出数据,将一个或多个用户重新分配给不同的目标。
17.一种非暂态计算机可读介质,其存储可由计算机系统执行的一个或多个指令以执行包括以下的操作:
对于共享虚拟空间中的一组用户,识别所述一组用户中的两个或多个用户中的每个用户的相应的目标;
对于所述两个或多个用户中的每个用户:
基于来自具有不同输入模态的多个传感器的输入,确定所述用户的相应的意图,其中,所述多个传感器中的至少一部分传感器是使得所述用户能够参与所述共享虚拟空间的所述用户的设备的传感器;以及
基于所述相应的意图,确定所述用户是否正在执行所述用户的相应的目标;
对于所述一组用户,基于所述两个或多个用户中的每个用户的相应的目标以及所述两个或多个用户中的每个用户的相应的意图,生成输出数据;以及
向所述一组用户中的一个或多个用户中的每个用户的相应设备提供所述输出数据,以用于在所述一个或多个用户中的每个用户的相应设备处呈现。
18.根据权利要求17所述的非暂态计算机可读介质,其中,所述两个或多个用户中的至少一个用户的相应的目标包括以下中的至少一个:(i)要由所述至少一个用户执行的任务,或(ii)所述至少一个用户应当观看的主题对象。
19.根据权利要求18所述的非暂态计算机可读介质,其中,识别所述两个或多个用户中的每个用户的相应的目标包括:将所述一组用户中的至少阈值数量的用户正在观看的目标确定为所述主题对象。
20.根据权利要求17所述的非暂态计算机可读介质,其中:
每个用户的相应设备包括可穿戴设备;以及
确定所述用户的相应的意图包括:
从所述用户的所述可穿戴设备接收指定所述用户的注视的注视数据、指定所述用户的手部姿势的姿势数据和指定所述用户正在移动的方向的方向数据;以及
基于所述注视数据、所述姿势数据和所述方向数据,确定所述用户关于目标对象的意图,作为所述用户的相应的意图。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063113547P | 2020-11-13 | 2020-11-13 | |
US63/113,547 | 2020-11-13 | ||
PCT/US2021/058641 WO2022103760A1 (en) | 2020-11-13 | 2021-11-09 | Transmodal input fusion for multi-user group intent processing in virtual environments |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116685891A true CN116685891A (zh) | 2023-09-01 |
Family
ID=81601701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180090160.8A Pending CN116685891A (zh) | 2020-11-13 | 2021-11-09 | 在虚拟环境中用于多用户群组意图处理的跨模态输入融合 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20240004464A1 (zh) |
EP (1) | EP4244705A4 (zh) |
JP (1) | JP2023548932A (zh) |
CN (1) | CN116685891A (zh) |
WO (1) | WO2022103760A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024165421A1 (en) * | 2023-02-09 | 2024-08-15 | Sony Group Corporation | Apparatus and method for guiding a viewing direction of a user, and user equipment |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7847808B2 (en) * | 2006-07-19 | 2010-12-07 | World Golf Tour, Inc. | Photographic mapping in a simulation |
WO2018005690A1 (en) | 2016-06-28 | 2018-01-04 | Against Gravity Corp. | Systems and methods for assisting virtual gestures based on viewing frustum |
JP6392911B2 (ja) * | 2017-01-30 | 2018-09-19 | 株式会社コロプラ | 情報処理方法、コンピュータ、および当該情報処理方法をコンピュータに実行させるためのプログラム |
US10769438B2 (en) | 2017-05-23 | 2020-09-08 | Samsung Electronics Company, Ltd. | Augmented reality |
IL311263A (en) * | 2017-12-14 | 2024-05-01 | Magic Leap Inc | Context-based processing of virtual characters |
US10937220B2 (en) * | 2019-04-22 | 2021-03-02 | Disney Enterprises, Inc. | Animation streaming for media interaction |
-
2021
- 2021-11-09 EP EP21892676.4A patent/EP4244705A4/en active Pending
- 2021-11-09 CN CN202180090160.8A patent/CN116685891A/zh active Pending
- 2021-11-09 WO PCT/US2021/058641 patent/WO2022103760A1/en active Application Filing
- 2021-11-09 JP JP2023528241A patent/JP2023548932A/ja active Pending
- 2021-11-09 US US18/252,574 patent/US20240004464A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20240004464A1 (en) | 2024-01-04 |
EP4244705A4 (en) | 2024-01-31 |
JP2023548932A (ja) | 2023-11-21 |
WO2022103760A1 (en) | 2022-05-19 |
EP4244705A1 (en) | 2023-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11348300B2 (en) | Avatar customization for optimal gaze discrimination | |
US12120423B2 (en) | Augmented reality display with frame modulation functionality | |
US11797105B2 (en) | Multi-modal hand location and orientation for avatar movement | |
US20210097875A1 (en) | Individual viewing in a shared space | |
US10831268B1 (en) | Systems and methods for using eye tracking to improve user interactions with objects in artificial reality | |
Park et al. | 3d social saliency from head-mounted cameras | |
JP2021057057A (ja) | 精神障害の療法のためのモバイルおよびウェアラブルビデオ捕捉およびフィードバックプラットフォーム | |
US11656693B2 (en) | Multimodal kinematic template matching and regression modeling for ray pointing prediction in virtual reality | |
IL290002B1 (en) | Automatic control of a wearable display device based on external conditions | |
Wang et al. | Automated student engagement monitoring and evaluation during learning in the wild | |
US10824223B2 (en) | Determination apparatus and determination method | |
Yoo et al. | Fuzzy integral-based gaze control of a robotic head for human robot interaction | |
US20190050881A1 (en) | Method and apparatus for rewarding reaction of simulation participant | |
Araya et al. | Automatic detection of gaze and body orientation in elementary school classrooms | |
CN116685891A (zh) | 在虚拟环境中用于多用户群组意图处理的跨模态输入融合 | |
WO2023192254A1 (en) | Attention-based content visualization for an extended reality environment | |
JP7578711B2 (ja) | 最適視線弁別のためのアバタカスタマイズ | |
Adiani et al. | Evaluation of webcam-based eye tracking for a job interview training platform: Preliminary results | |
Desai et al. | An affect computing based attention estimation | |
Araya Schulz et al. | Automatic detection of gaze and body orientation in elementary school classrooms | |
Pourmehr | Multimodal Interfaces for Human-Robot Interaction | |
NZ794186A (en) | Automatic control of wearable display device based on external conditions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |