CN105324734A

CN105324734A - 使用眼睛注视检测加标签

Info

Publication number: CN105324734A
Application number: CN201480031884.5A
Authority: CN
Inventors: S.斯瓦米纳桑
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2013-06-03
Filing date: 2014-05-30
Publication date: 2016-02-10
Also published as: WO2014197284A1; US20140354533A1; EP3005034A1

Abstract

提供了涉及为图像中的人类主体加标签的各种实施例。在一个实施例中，在显示屏上呈现包括人类主体的图像。接收显示屏上加标签用户的注视的居留位置。图像中的人类主体被识别为位于居留位置。接收人类主体的标识，并且利用该标识为图像加标签。

Description

使用眼睛注视检测加标签

背景技术

脸部加标签（即将名字与图像中的脸部匹配）提供了一种在存储于计算机或移动设备上的图像中搜索人的方式。在一个示例中，利用鼠标和键盘执行脸部加标签。特别地，鼠标用来选择图像中感兴趣的人的脸部区域，并且键盘用来键入该人的名字以创建关联标签。然而，对各自可能具有多个脸部的许多图像进行脸部加标签的过程可能是一项劳动和时间密集型任务，因为每个脸部必须使用鼠标选择并且每当脸部被选择时名字必须被键入。

发明内容

该发明内容被提供以通过简化方式介绍下文在的具体实施方式中进一步描述的概念的选择。该发明内容不旨在标识要求保护的主题的关键特征或必要特征，也不旨在用于限制要求保护的主题的范围。而且，要求保护的主题不限于解决本公开的任何部分中指出的任何或所有缺点的实现方式。

提供了涉及为图像中的人类主体加标签的各种实施例。在一个实施例中，包括人类主体的图像被呈现在显示屏上。接收显示屏上加标签用户的注视的居留位置。图像中的人类主体被识别为位于居留位置。接收人类主体的标识，并且利用该标识为图像加标签。

附图说明

图1示出依照本公开的一个实施例的计算系统。

图2示意性示出依照本公开的一个实施例的计算机架构框图。

图3示出指示人类主体在加标签用户的注视的居留位置处被识别的视觉反馈的一个示例。

图4示出指示人类主体在加标签用户的注视的居留位置处被识别的视觉反馈的另一个示例。

图5示出指示人类主体在加标签用户的注视的居留位置处被识别的视觉反馈的又一个示例。

图6示意性示出用于为图像中的人类主体加标签的加标签界面。

图7示意性示出用于为不同图像中识别的人类主体加标签的加标签界面。

图8示出依照本公开的一个实施例的用于为呈现在显示屏上的图像中的人类主体加标签的方法。

图9示出依照本公开的一个实施例的用于建立加标签用户的注视的居留位置的方法。

图10示出依照本公开的一个实施例的用于识别人类主体的标识的一种方法。

图11示出依照本公开的一个实施例的用于识别人类主体的标识的另一种方法。

图12示意性示出依照本公开的一个实施例的计算系统。

具体实施方式

本公开涉及利用诸如图像中描绘的人类主体的标识之类的元数据为图像加标签。更特别地，本公开涉及使用基于眼睛注视跟踪的选择为图像中的人类主体加标签。在一个示例中，本公开提供了实现下述操作的机制：接收在呈现在显示屏上的图像上加标签用户的注视的居留位置；识别图像中的人类主体位于该居留位置，接收人类主体的标识；以及利用该标识为该图像加标签。典型地，人类适应于识别型态（pattern），比如其他人类的脸部。相应地，用户可以通过看图像中的人类主体来选择该人类主体，这比利用鼠标或触摸输入选择图像中的人类主体快得多。

而且，在一些实施例中，本公开提供了下述机制：从倾听由加标签用户说出的名字的语音识别系统接收在图像中识别的人类主体的名字。识别的名字可以被映射到图像以便为人类主体加标签。通过使用语音识别向图像加标签识别的人类主体的名字，加标签用户可以避免必须在键盘上键入名字。相应地，相对于使用鼠标和键盘的加标签方法，可以以更及时且更少劳动密集型的方式为大量图像加标签。

图1示出依照本公开的一个实施例的计算系统100。该计算系统100可以包括用户输入设备102、计算设备104和显示设备106。

用户输入设备102可以包括眼睛跟踪相机108，其被配置成检测用户112（例如加标签用户）的一个或多个眼睛110的注视或聚焦位置的方向。眼睛跟踪相机108可以被配置成以任何适当方式确定用户的注视。例如，在所描绘的实施例中，用户输入设备102可以包括诸如红外光源之类的一个或多个闪烁源114，其被配置成使闪烁光从用户112的每只眼睛110反射。眼睛跟踪相机108可以被配置成捕获用户112的每只眼睛110的包括闪烁的图像。如根据经由眼睛跟踪相机收集的图像数据确定的来自用户的眼睛的闪烁中的变化可以用来确定注视的方向。进一步地，从用户的眼睛投射的注视线与显示设备106的显示屏118相交的位置116可以用来确定用户正在注视的对象（例如在特定位置处显示的对象）。

而且，用户输入设备102可以包括被配置成检测用户的语音的麦克风120（或其他适当的音频检测设备）。更特别地，麦克风120可以被配置成检测用户的言语，比如语音命令。要理解的是，麦克风可以以任何适当方式检测用户的言语。

用户输入设备102可以被采用来使得用户112能够经由眼睛的姿态以及经由口头命令与计算系统100交互。要理解的是，眼睛跟踪相机108和麦克风120是出于示例的目的而被示出的并且不旨在以任何方式进行限制，因为可以利用任何其他适当的传感器和/或传感器的组合。

计算设备104可以与用户输入设备102和显示设备106通信。计算设备104可以被配置成接收并解释来自用户输入设备102的传感器的输入。例如，计算设备104可以被配置成基于从眼睛跟踪相机108接收的眼睛图像跟踪显示设备106的显示屏118上的用户的注视。更特别地，计算设备104可以被配置成基于建立居留位置来检测显示屏上显示的一个或多个对象（例如，图像中的人类主体）的用户选择。计算设备104可以被配置成处理从用户输入设备102接收的语音命令以识别特定词语或短语（例如所选的人类主体的名字）。计算设备104可以被配置成基于从用户输入设备接收的经处理的信息而在所选对象上执行动作或命令（例如，用名字为图像中的人类主体加标签）。

应当领会，计算系统中的所描绘的设备是出于示例的目的而被描述的，并且因而并不意味着限制。进一步地，在不脱离本公开的范围的情况下，计算设备及其各种传感器和子组件的物理配置可以采取各种各样的不同形式。例如，用户输入设备、计算设备和显示设备可以集成到单个设备中，比如移动计算设备。

图2示意性示出依照本公开的一个实施例的计算机架构200的框图。计算机架构200可以使用加标签用户的注视检测以选择图像中的人类主体并且使用语音识别以识别要被加标签的所选人类主体的名字来实现对显示屏上呈现的图像中人类主体的加标签。例如，该计算机架构可以在图1的计算系统100中实现。

在一个示例中，眼睛跟踪相机108可以向眼睛跟踪服务202提供加标签用户的眼睛的眼睛图像。眼睛跟踪服务202可以被配置成解释眼睛图像以确定显示屏上加标签用户的眼睛注视。更特别地，眼睛跟踪服务202可以被配置成确定加标签用户的注视是否在大于阈值持续时间（例如100微秒）的持续时间内聚焦于显示屏的某个位置。如果用户的注视在大于阈值持续时间的持续时间内聚焦于该位置，则眼睛跟踪服务202可以被配置成生成被发送至客户端应用204的居留位置信号。

客户端应用204可以被配置成从眼睛跟踪服务202接收居留位置信号。该居留位置信号可以包括居留位置的显示屏坐标。客户端应用204可以被配置成确定显示屏上呈现的图像中的人类主体是否位于居留位置。如果人类主体被识别为位于居留位置，客户端应用204可以被配置成向加标签用户提供人类主体被识别或选择的视觉反馈。例如，客户端应用204可以被配置成在显示屏上显示用户界面，其促进名字的提供或选择以对人类主体的图像加标签。例如，客户端应用204可以被配置成提示用户提供用于人类主体的名字并且命令语音识别服务206倾听由加标签用户经由麦克风120说出的名字。

应当理解，客户端应用204可以是被配置成将元数据与图像相关联（即加标签）的任何适当应用。在一个示例中，客户端应用可以是照片编辑应用。作为另一个示例，客户端应用可以是社交联网应用。

麦克风120可以被配置成检测来自加标签用户的语音命令并且将该语音命令发送至语音识别服务206以用于处理。语音识别服务206可以被配置成识别来自语音命令的名字并且将该名字作为人类主体的标识发送至客户端应用204。客户端应用204可以被配置成利用该标识为图像加标签。

在一些实施例中，可以在没有语音识别的情况下提供用于对人类主体加标签的标识。例如，可以仅通过注视检测提供标识。在一个示例中，客户端应用204可以被配置成响应于人类主体被识别为定位在居留位置处而在显示屏上显示先前识别的名字集合。客户端应用204可以被配置成：接收显示屏上加标签用户的注视的不同居留位置，识别来自先前识别的名字集合的名字位于该不同居留位置，以及选择该名字作为图像中人类主体的标识。

应当理解，先前识别的名字集合可以以任何适当方式填充。例如，先前识别的名字集合可以通过先前的加标签操作、加标签用户的社交联网关系、基于面部识别的最接近猜测等等来填充。

在一些实施例中，客户端应用204可以被配置成确定从语音识别服务206（或经由另一个用户输入）接收的名字先前是否已通过将该名字与先前识别的名字集合进行比较而被识别。如果名字先前已经被识别，则客户端应用204可以被配置成将该名字添加到先前识别的名字集合。例如，先前识别的名字集合可以用来通过语音识别服务加速名字识别处理，以及其他操作。在一个示例中，可以通过具有更小的可能选择列表（例如先前识别的名字集合）使得名字到人类主体的映射更精确。

在一些实施例中，客户端应用204可以被配置成在显示屏上显示潜在地包括被识别的人类主体的不同图像，以便执行附加的加标签操作。例如，客户端应用204可以被配置成标识被识别的人类主体的面部型态，在多个图像上运行面部型态识别算法以搜索被识别的人类主体的面部型态，以及在显示屏上显示潜在地包括被识别的人类主体的面部型态的不同图像。而且，客户端应用204可以被配置成提示加标签用户确认不同图像中的人类主体是否是被识别的人类主体。如果接收到被识别的人类主体处在该不同图像中的确认（例如，经由麦克风120所检测的来自加标签用户的口头确认或在阈值持续时间内注视居留在确认按钮上），则客户端应用204可以被配置成利用人类主体的名字为该不同图像加标签。客户端应用204可以被配置成针对潜在地包括被识别的人类主体的所有图像重复该过程。以此方式，与使用鼠标和键盘的加标签方法相比，可以以更快且更少劳动密集型的方式为多个图像加标签。

应当理解，在一些实施例中，眼睛跟踪服务202和语音识别服务206可以被实现为后台服务，其可以连续操作以向多个不同客户端应用（例如经由一个或多个应用编程接口（API））提供居留位置和识别的名字。在一些实施例中，眼睛跟踪服务202和语音识别服务206可以合并到客户端应用204中。

图3-5示出可以提供给加标签用户以指示图像中的人类主体被识别为定位在加标签用户的注视的居留位置处的视觉反馈的各种示例。例如，该视觉反馈可以在可以由图2中所示的客户端应用204生成的图形用户接口中提供。

图3示出包括三个人类主体的图像300。中间的人类主体通过围绕该人类主体的头的方框形式的视觉反馈302而被识别为定位在居留位置处。该方框通过加标签用户的注视突出显示中间的人类主体的选择。

图4示出与图3中所示相同的图像300。然而，在该示例中，视觉反馈304包括使围绕被识别为定位在居留位置处的主体的头的图像变灰。

图5示出与图中所示相同的图像300。然而，在该示例中，视觉反馈306包括放大被识别为相对于图像的其余部分定位在居留位置处的人类主体的头。应当理解，可以向加标签用户提供任何适当的视觉反馈以基于加标签用户的注视指示图像中人类主体的选择。

图6示意性示出用于为图像中的人类主体加标签的加标签界面600。例如，该加标签界面可以由图2中所示的客户端应用204生成。图像602包括人类主体604，其经由围绕该人类主体604的头的方框形式的视觉反馈606而被识别为定位在加标签用户的注视的居留位置处。响应于人类主体604被识别，可以在加标签界面600中显示标签提示608，其提示加标签用户提供或选择人类主体的标识。

在一些实施例中，响应于标签提示608被显示，可以用信号发送语音识别服务以倾听由加标签用户经由麦克风说出的名字。如果语音识别服务检测到名字，则该图像可以利用该名字加标签。

在一些实施例中，可以在加标签界面600中显示先前识别的名字集合610以帮助用户提供或选择人类主体604的标识。在一些实施例中，当先前识别的名字集合610的名字612被识别为定位在显示屏上加标签用户的注视的居留位置处（例如，用户的注视可以在大于第一阈值持续时间的持续时间内保持在该名字的位置处）时，该名字612可以被选择作为人类主体的标识。换言之，在加标签用户被提示提供人类主体的标识之后，加标签用户仅仅看该名字足够长时间以建立居留位置信号以便选择名字。

在一些实施例中，可以响应于识别名字612位于用户的注视的居留位置而提供视觉反馈。例如，视觉反馈可以包括突出显示名字，显示名字周围的方框，显示指向名字的光标或其他指示符，加粗名字或者以其他方式修改名字等等。一旦视觉反馈被提供，响应于注视在第二阈值持续时间内保持在名字上，名字可以被选择作为人类主体的标识。第二阈值持续时间可以在第一阈值持续时间结束之后开始。例如，第二阈值持续时间可以在名字被识别的实际反馈被提供时开始。

上面描述的方法允许仅利用注视检测且在没有任何言语或不使用鼠标和/或键盘的情况下完成图像中的人类主体的识别以及利用人类主体的标识为图像加标签。而且，该方法可以被采用来仅使用注视检测为多个图像加标签。

应当理解，在一些情况下，先前识别的名字集合610不需要包括所有的先前识别的名字，而是可以是仅具有基于面部识别或类似物的最接近猜测的子集。在其他情况下，先前识别的名字集合可以包括先前已被识别的所有名字。而且，应当理解，先前识别的名字集合610可以被显示，而不管加标签用户是否经由语音命令或通过注视先前识别的名字集合中的名字提供人类主体的标识。

而且，在一些实施例中，如果新名字614被接收作为不包括在先前识别的名字集合610中的人类主体的标识，则新名字614可以被添加到先前识别的名字集合以用于未来图像加标签操作。

在一些实施例中，当利用人类主体的标识为图像加标签时，该标识可以与整个图像相关联。在一些实施例中，当利用人类主体的标识为图像加标签时，该标识可以与包括人类主体的图像的部分相关联。例如，在图示的实施例中，人类主体604的标识可以与视觉反馈606所包含的图像的部分（或由人类主体占用的图像的部分）相关联。相应地，包括多个人类主体的图像可以利用用于该多个人类主体中每一个的不同标识加标签，并且这些不同标识可以与图像的不同部分相关联。

图7示意性示出用于为不同图像中识别的人类主体加标签的加标签界面700。例如，一旦人类主体在图像中（比如在图6所示的加标签界面600中）已被识别并且面部型态识别算法已经运行以标识潜在地包括人类主体的面部型态的图像，加标签界面700可以在显示屏上显示。加标签界面700可以包括（例如从原始图像提取的）识别的人类主体702的实例。加标签界面700可以包括潜在地包括识别的人类主体702的多个图像704。可以在加标签界面700中显示确认提示706以提示加标签用户确认该多个图像中的每一个中的人类主体是否匹配识别的人类主体702。

在一些实施例中，加标签用户可以通过建立图像上的居留位置并提供口头确认（比如通过说“是”）来提供确认。如果接收到口头确认，则可以利用识别的人类主体的标识为图像加标签。另一方面，如果图像不包括识别的人类主体，则加标签用户可以说“否”。可替换地或此外，加标签用户可以提供图像中的人的名字并且可以用该名字为图像加标签。

在一些实施例中，加标签用户可以通过建立图像的确认指示符（例如“是”）708上的居留位置来提供确认。如果视觉确认被接收，则可以利用识别的人类主体的标识为该图像加标签。另一方面，如果图像不包括识别的人类主体，加标签用户可以建立否认指示符（例如“否”）710上的居留位置。每个图像可以具有对应的确认和否认指示符，使得多个图像可以以快速的方式视觉地加标签。

图8示出依照本公开的一个实施例的用于为显示屏上呈现的图像中的人类主体加标签的方法800。例如，该方法800可以由图1中所示的计算系统100执行，并且更特别地可以由图2中所示的计算机架构200执行。

在802处，方法800可以包括接收显示屏上加标签用户的注视的居留位置。

在804处，方法800可以包括识别显示屏上显示的图像中的人类主体位于居留位置。

在806处，方法800可以包括提供人类主体被识别为处于居留位置的视觉反馈。

在808处，方法800可以包括接收人类主体的标识。例如，该标识可以包括人类主体的名字。然而，应当理解，该标识可以包括任何适当的描述和表征。

在810处，方法800可以包括用该标识为图像加标签。在一些实施例中，该标识可以与整个图像相关联。在一些实施例中，该标识可以与仅对应于人类主体的图像的部分相关联。

在812处，方法800可以包括在显示屏上显示潜在地包括人类主体的不同图像。

在814处，方法800可以包括确定是否接收到不同图像包括人类主体的确认。如果接收到人类主体处在该不同图像中的确认，则方法800移到816。否则，方法800返回到其他操作。

在816处，方法800可以包括利用该标识为该不同图像加标签。

在818处，方法800可以包括确定是否存在潜在地包括要被确认和/或用标识加标签的人类主体的任何更多的图像。如果存在潜在地包括要被确认的人类主体的更多图像，则方法800返回到812。否则，方法800返回到其他操作。

图9示出依照本公开的一个实施例的用于建立加标签用户的注视的居留位置的方法900。例如，方法900可以由图1中所示的计算系统100执行，并且更特别地可以由图2中所示的计算机架构200执行。例如，方法900可以被执行以便提供用于图8中所示的方法800的步骤802的居留位置。

在902处，方法900可以包括跟踪显示屏上的加标签用户的注视。例如，可以通过图1和2中所示的眼睛跟踪相机108来跟踪加标签用户的注视。

在904处，方法900可以包括确定加标签用户的注视是否在大于第一阈值持续时间（例如100微秒）的持续时间内保持在显示屏上的某位置处。如果确定了加标签用户的注视在大于第一阈值持续时间的持续时间内保持在显示屏上的该位置处，则方法900移到906。否则方法900返回到904。

在906处，方法900可以包括在显示屏的其中加标签用户的注视在大于第一阈值持续时间的持续时间内保持的位置处建立居留位置。在一个示例中，居留位置可以由眼睛跟踪服务202建立并且被发送到客户端应用204。

图10示出依照本公开的一个实施例的用于识别人类主体的标识的方法1000。例如，方法1000可以由图1中所示的计算系统100执行，并且更特别地可以由图2中所示的计算机架构200执行。例如，方法1000可以被执行以便提供用于图8中所示的方法800的步骤808以及其他方法步骤的人类主体的标识。

在1002处，方法1000可以包括确定是否从倾听正被说出的名字的语音识别系统接收到人类主体的名字。如果从语音识别系统接收到名字，则方法1000移到1004。否则方法1000返回到其他操作。

在1004处，方法1000可以包括确定作为人类主体的标识接收的名字是新名字还是先前识别的名字。如果接收到不包括在先前识别的名字集合中的新名字，则方法1000移到1006。否则，方法1000返回到其他操作。

在1006处，方法1000可以包括将新名字添加到先前识别的名字集合。

上面描述的方法可以使用语音识别系统接收作为经由加标签用户的注视的检测识别的人类主体的标识的名字来执行。

图11示出依照本公开的另一个实施例的用于识别人类主体的标识的方法1100。例如，方法1100可以由图1中所示的计算系统100执行，并且更特别地可以由图2中所示的计算机架构200执行。例如，方法1100可以被执行以便提供用于图8中所示的方法800的步骤808以及其他方法步骤的人类主体的标识。

在1102处，方法1100可以包括在显示屏上显示先前识别的名字集合。在一些实施例中，响应于人类主体被识别为位于加标签用户的注视的居留位置，可以在显示屏上显示先前识别的名字集合。

在1104处，方法1100可以包括接收显示屏上加标签用户的注视的居留位置。

在1106处，方法1100可以包括识别来自先前识别的名字集合的名字位于居留位置。例如，用户的注视可以在大于第一阈值时间（例如100微秒）的持续时间内保持在显示屏上的名字位置处。

在1108处，方法1100可以包括提供名字被识别为处在居留位置处的视觉反馈。例如，光标或其他指示符可以指向名字或者名字可以被加粗、突出显示或以其他方式修改以指示视觉反馈。

在1110处，方法1100可以包括确定用户的注视是否在大于第二阈值持续时间（例如100微秒）的持续时间内保持在居留位置处。一旦第一阈值持续时间结束，比如当提供了名字被识别的视觉反馈时，第二阈值持续时间可以开始。第二阈值持续时间可以被采用来帮助用户做出精确选择。如果用户的注视在大于第二阈值持续时间的持续时间内保持在居留位置处，则方法1100移到1112。否则，方法1100返回到其他操作。

在1112处，方法1100可以包括响应于识别名字位于居留位置而选择该名字作为标识。

上面描述的方法可以仅使用注视检测来执行以选择名字作为人类主体的标识。应当理解，这样的方法可以在用户沉默和静止（例如，没有嘴、头或手运动）时执行。

上面描述的方法可以被执行以比使用键盘和鼠标的加标签方法更快且更少劳动密集型的方式为图像加标签。应的理解，这些方法可以在任何适当的时间执行。例如，这些方法可以在拍照片时或在刚刚拍照片之后执行，这样的加标签可以使用相机或移动设备执行。作为另一示例，加标签方法可以作为后处理操作来执行，比如在台式或平板计算机上执行。而且，应当理解，这样的方法可以被合并到包括图像管理软件、社交联网应用、web浏览器等等的任何适当的应用中。

尽管已经在识别人类主体和提供作为人类主体的标识的名字的特定背景下讨论了加标签方法，但是应当理解这样的概念广泛适用于识别任何适当的对象和提供该对象的任何适当的标识。

在一些实施例中，本文描述的方法和过程可以绑定到一个或多个计算设备的计算系统。特别地，这样的方法和过程可以实现为计算机应用程序或服务、应用编程接口（API）、库和/或其他计算机程序产品。

图12示意性示出可以表现（enact）本文描述的方法和过程中的一个或多个的计算系统1200的非限制性实施例。计算系统1200以简化形式被示出。计算系统1200可以采取一个或多个个人计算机、服务器计算机、平板计算机、家庭娱乐计算机、网络计算设备、游戏设备、移动计算设备、移动通信设备（例如智能电话）和/或其他计算设备的形式。例如，计算系统1200可以代表图1中所示的计算系统100中的任何或所有计算设备。进一步地，计算系统1200可以被配置成实现图2中所示的计算机架构200。

计算系统1200包括逻辑机器1202和存储机器1204。计算系统1200可以可选地包括显示子系统1206、输入子系统1208、通信子系统1210和/或图12中未示出的其他组件。

逻辑机器1202包括被配置成执行指令的一个或多个物理设备。例如，逻辑机器可以被配置成执行作为一个或多个应用、服务、程序、例程、库、对象、组件、数据结构或其他逻辑构造的部分的指令。这样的指令可以被实现以执行任务、实现数据类型、变换一个或多个组件的状态、达成技术效果或以其他方式达到期望的结果。

逻辑机器可以包括被配置成执行软件指令的一个或多个处理器。此外或可替换地，逻辑机器可以包括被配置成执行硬件或固件指令的一个或多个硬件或固件逻辑机器。逻辑机器的处理器可以是单核的或多核的，并且在其上执行的指令可以被配置用于顺序、并行和/或分布式处理。逻辑机器的各个组件可选地可以分布在两个或更多单独的设备之中，这些设备可以位于远处并且/或者被配置用于协调处理。逻辑机器的各方面可以通过云计算配置中配置的远程可访问的联网计算设备虚拟化并执行。

存储机器1204包括一个或多个物理设备，其被配置成持有由逻辑机器可执行的指令以实现本文描述的方法和过程。当这样的方法和过程被实现时，存储机器1204的状态可以变换—例如以便持有不同的数据。

存储机器1204可以包括可移除和/或内置设备。除了别的以外，存储机器1204可以包括光学存储器（例如CD、DVD、HD-DVD、蓝光光盘等等）、半导体存储器（例如RAM、EPROM、EEPROM等等）和/或磁性存储器（例如硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等等）。存储机器1204可以包括易失性、非易失性、动态、静态、读/写、只读、随机存取、顺序存取、位置可寻址、文件可寻址和/或内容可寻址设备。

将要领会是，存储机器1204包括一个或多个物理设备。然而，本文描述的指令的各方面可替换地可以通过并非由物理设备在有限时间内持有的通信介质（例如电磁信号、光信号等等）传播。

逻辑机器1202和存储机器1204的各方面可以一起集成到一个或多个硬件逻辑组件中。这样的硬件逻辑组件可以包括例如现场可编程门阵列（FPGA）、程序特定集成电路和专用集成电路（PASIC/ASIC）、程序特定标准产品和专用标准产品（PSSP/ASSP）、片上系统（SOC）和复杂可编程逻辑设备（CPLD）。

术语“模块”、“程序”和“引擎”可以用来描述计算系统1200的被实现以执行特定功能的方面。在一些情况下，模块、程序或引擎可以经由执行存储机器1204持有的指令的逻辑机器1202实例化。应当理解，不同的模块、程序和/或引擎可以从相同的应用、服务、代码块、对象、库、例程、API、函数等中实例化。同样地，相同的模块、程序和/或引擎可以通过不同的应用、服务、代码块、对象、例程、API、函数等而实例化。术语“模块”、“程序”和“引擎”可以涵盖可执行文件、数据文件、库、驱动器、脚本、数据库记录等的个体或群组。

将要领会的是，如本文使用的“服务”是跨多个用户会话可执行的应用程序。服务可以对一个或多个系统组件、程序和/或其他服务而言是可用的。在一些实现方式中，服务可以运行在一个或多个服务器-计算设备上。

当包括在内时，显示子系统1206可以用来呈现由存储机器1204持有的数据的视觉表示。该视觉表示可以采取图形用户接口（GUI）的形式。由于本文描述的方法和过程改变了由存储机器持有的数据并且因此变换了存储机器的状态，因此显示子系统1206的状态同样可以变换以视觉地表示底层数据中的改变。显示子系统1206可以包括实际上利用任何类型的技术的一个或多个显示设备。这样的显示设备可以与逻辑机器1202和/或存储机器1204在共享外壳中结合，或者这样的显示设备可以是外围显示设备。

当包括在内时，输入子系统1208可以包括诸如键盘、鼠标、触摸屏或游戏控制器之类的一个或多个用户输入设备或者与其对接。在一些实施例中，输入子系统可以包括所选的自然用户输入（NUI）零件或与其对接。这样的零件可以是集成的或是外围的，并且输入动作的转换（transduction）和/或处理可以在板上或板下处置。示例NUI零件可以包括用于言语和/或语音识别的麦克风；用于机器视觉和/或姿态识别的红外、彩色、立体和/或深度相机；用于运动检测和/或意图识别的头部跟踪器、眼睛跟踪器、加速度计和/或陀螺仪；以及用于评估脑部活动的电场感测零件。

当包括在内时，通信子系统1210可以被配置成将计算系统1200与一个或多个其他计算设备通信耦合。通信子系统1210可以包括可与一个或多个不同的通信协议兼容的有线和/或无线通信设备。作为非限制性示例，通信子系统可以被配置用于经由无线电话网络或者有线或无线局域网或广域网进行通信。在一些实施例中，通信子系统可以允许计算系统1200经由诸如因特网之类的网络向其他设备发送消息和/或从其他设备接收消息。

应当理解，本文描述的配置和/或方法本质上是示例性的，并且这些特定实施例或示例不在限制性意义下被考虑，因为许多变形是可能的。本文描述的特定例程或方法可以表示任意数量的处理策略中的一个或多个。因此，所图示和/或描述的各种动作可以以所图示和/或描述的顺序、以其他顺序、并行地执行或者被省略。同样地，上述过程的次序可以改变。

本公开的主题包括各种过程、系统和配置以及本文公开的其他特征、功能、动作和/或属性的所有新颖且非显而易见的组合和子组合，以及其任何和所有等同物。

Claims

1.一种用于为显示屏上呈现的图像中的人类主体加标签的方法，该方法包括：

接收显示屏上加标签用户的注视的居留位置；

识别图像中的人类主体位于居留位置；

接收人类主体的标识；以及

利用所述标识为图像加标签。

2.权利要求1的方法，其中接收人类主体的标识包括从倾听正被说出的人类主体的名字的语音识别系统接收人类主体的该名字。

3.权利要求1的方法，其中接收人类主体的标识包括：在显示屏上显示先前识别的名字集合，接收显示屏上加标签用户的注视的不同居留位置，识别来自先前识别的名字集合的名字位于该不同居留位置，以及选择该名字作为标识。

4.权利要求1的方法，其中接收居留位置包括：跟踪显示屏上加标签用户的注视，以及响应于加标签用户的注视在大于阈值持续时间的持续时间内保持在显示屏上对应于居留位置的位置处而建立居留位置。

5.权利要求1的方法，进一步包括：

提供人类主体被识别为处于居留位置的视觉反馈。

6.权利要求5的方法，其中提供视觉反馈包括下述至少一个：显示围绕人类主体的头的方框；使围绕人类主体的头的图像变灰；相对于图像的其余部分放大人类主体的头。

7.权利要求1的方法，进一步包括：

在显示屏上显示潜在地包括人类主体的不同图像；以及

在接收到人类主体处在该不同图像中的确认情况下，利用所述标识为该不同图像加标签。

8.权利要求1的方法，进一步包括：

响应于人类主体被识别为位于居留位置，在显示屏上显示先前识别的名字集合；以及

在接收到新名字作为并不包括在先前识别的名字集合中的人类主体的标识的情况下，将该新名字添加到先前识别的名字集合。

9.权利要求1的方法，其中利用标识为图像加标签包括将该标识与包括人类主体的图像的部分相关联。