CN107077594A

CN107077594A - 标记移动设备上的视觉媒体

Info

Publication number: CN107077594A
Application number: CN201580032368.9A
Authority: CN
Inventors: 巴卡克·罗伯特·沙基卜; 丹尼斯·奥切纳什科; 安德里·萨罗夫
Original assignee: Google Technology Holdings LLC
Current assignee: Google Technology Holdings LLC
Priority date: 2014-05-15
Filing date: 2015-05-07
Publication date: 2017-08-18
Also published as: AU2017204734B2; AU2015259585A1; WO2015175319A1; EP3143548A1; US9563803B2; US9996734B2; EP3143548B1; AU2017204734A1; US20170147870A1; AU2015259585B2; US20150332086A1

Abstract

本文描述了能标记移动设备上的视觉媒体的技术。在某些情况中，基于满足人或物体手动标记的阈值，该技术确定为移动设备上的视觉媒体加“大量”标记。因此，该技术能够快速连续地呈现具有所识别的人或物体的照片和视频，以使得用户快速且简单的确认或拒绝该识别。此外，所述技术能同时在显示器上呈现所识别的人的多个面部或所识别物体的子图像，因此实现快速且简单地确认或拒绝该识别。

Description

标记移动设备上的视觉媒体

相关申请的交叉引用

本PCT申请要求申请日为2014年5月15日美国非临时申请号14/278,186的优先权；其全部内容及实质通过引用结合在此。

背景技术

本背景技术描述是为了一般地呈现本公开的场境的目的而提供的。除非在此以其他方式指示，本段描述的材料既不明确也不隐含地承认是本公开或所附权利要求的现有技术。

目前标记诸如照片和视频剪辑的视觉媒体的技术是耗时和繁琐的。例如，智能电话用户可以通过选择标记界面、选择照片、标记她朋友的面部，并且然后从联系目录中选择朋友名字或者替代地选择朋友名字的类型，来手动标记照片以指示照片中的特定面部是她的朋友。即使是对一张照片中的一个人而言，这也是繁琐的过程，对于许多照片或视频中的许多人或物体而言，加视觉标记能够导致耗时和繁琐的用户体验。

附图说明

用于标记移动设备中的视觉媒体的技术和装置参照附图进行描述。相同的附图标记被用来在整个附图中指示同样的特征和组件。

图1图示了在其中能够实施标记移动设备上的视觉媒体的示例环境。

图2图示了图1所示的计算设备的具体示例。

图3图示了标记移动设备上的视觉媒体的示例方法。

图4图示了3个朋友的照片。

图5图示了带有标记界面、3张面部、和物体子图像的图4的照片。

图6图示了用户可以通过其选择确认或拒绝识别的单个图像确认/拒绝界面。

图7图示了用户可以通过其选择确认或拒绝一个或多个识别的多个图像确认/拒绝界面。

图8图示了用于标记视觉媒体、包括基于精确度阈值自动标记的示例方法。

图9图示了可以实施标记移动设备上的视觉媒体的技术的示例装置的各种组件。

具体实施方式

本文描述了标记移动设备上的视觉媒体的技术。在某些情况中，基于满足人或物体的手动标记的阈值，该技术能对移动设备上存储的视觉媒体加上“大量”标记。因此，该技术能快速连续地呈现带有所识别的人或物体的照片和视频，以使得用户快速且简单的确认或拒绝该识别。同时，该技术能一次在显示器上呈现所识别的人的多个面部、或所识别的物体的子图像，因此使其能快速且简单地确认或拒绝该识别。阈值可以基于标记选择的数目、或者基于已经被执行的手动标记而被满足的精确度阈值。在某些情况下，这实现了在所执行的识别中的高度置信度，因此减少了用户将需要更正或拒绝识别的可能性。

接下来的讨论中首先描述操作环境，之后描述了可以在此环境中被采用并且处理示例用户接口和装置的技术。

图1图示了示例环境100，在此环境中能够实施标记移动设备上的视觉媒体的技术以及其他涉及视觉媒体的技术。环境100包括计算设备102、远程设备104、以及通信网络106。这些技术可被执行，并且体现在所图示设备(诸如多个计算设备)的一个或组合中的装置是远程的或是本地的。因此，用户的智能电话可以捕捉(例如，拍照或视频)或者从其他设备接收媒体，诸如被朋友先前从她或他的膝上型电脑上传至远程设备104的媒体、通过近场通信直接来自另一个朋友的相机的媒体、在物理介质(如DVD或者蓝光盘)上的媒体，等等。无论是来自多个还是仅一个源，所述技术能标记在用户移动设备上或关联于用户移动设备的视觉媒体，即使该视觉媒体没有被捕捉到移动设备中。

在更多的细节中，图1的远程设备104包括或者可访问一个或多个远程处理器108以及远程计算机可读存储介质(“CRM”)110。远程CRM 110包括标记模块112以及视觉媒体114。标记模块112能够确定手动标记选择满足或者超过阈值、对多个视觉图像执行面部或物体识别、实现选择以确认或拒绝该识别、并且标记或反向标记以响应。该阈值可以是手动标记的数目、手动或非手动标记的总数目、某时间段内的手动标记的数目、和/或基于该手动标记针对识别引擎而满足的精确度阈值。

在更多的细节中，标记模块112包括阈值116、人118以及物体120。因而，人118或者物体120中的每一个可以包括阈值116，该阈值116被满足时可以提示标记模块112来执行本文提到的方法。阈值116可以是超过标记阈值数目122的手动选择标记阈值，诸如当用户对人118中的一个人第10次手动标记的情况。注意上述对人的第10次标记可以是10次手动标记或者手动和非手动标记的组合，诸如第10次总标记是手动的，但是所述10次总标记中的4次标记是以其他方式接收的。这些其他标记可以通过社交媒体或其他方式接收或确定，其自身可以是手动的或非手动的标记。

阈值同样可基于具有标记阈值时间的手动选择的数目。因此，当用户在3分钟内为5张照片手动标记时，标记模块112可对多个先前未标记的照片或视频执行物体识别。此数目和时间指示用户希望标记许多不同的视觉媒体，并且因此能够执行大量识别和标记来帮助用户。

进一步地，阈值116可以是基于特定精确度来确定的精确度阈值124，所述特定精确度很可能用于使用单独手动选择标记或者与用于提高识别精确度的其他方式组合的识别引擎。在此情况下，阈值数目可能不是决定性的，因为基于面部、视觉质量、面部定向等，小数目的手动和/或非手动标记可足以满足特定人118或物体120的精确阈值124。

此外，阈值116可以是基于阈值数目122和精确阈值124的组合。响应于手动和非手动标记足以满足精确度阈值124以及通过计算设备接收的足够数目的手动标记选择指示用户想要大量标记他或她的视觉媒体114，标记模块112可确定大量标记是合适的。

视觉媒体114包括照片126、视频128、以及幻灯片/精彩130。视频128以及幻灯片/精彩130可包括音频，并且也可包括各种更改，诸如加入到幻灯片中的歌曲、在精彩集锦上的图像或视频的转变等。其他类型的视觉媒体也可被包括，这些仅是以示例方式的说明。

远程CRM110同样包括面部识别引擎132和物体标记引擎134。标记模块112可使用这些引擎来识别在视觉媒体114内的人和物体(如人118和物体120)。这些引擎能够经常基于先前标记利用提高的精确度或置信度来识别人和物体。识别中的置信度可以影响技术如何实现识别的确认/拒绝，其在下面进一步描述。

关于图1中的示例计算设备102考虑图2的细节图示。每个计算设备102可以是各种设备中的一个或组合，在此以八种示例来说明：膝上型计算机102-1、平板计算机102-2、智能电话102-3、摄像机102-4、相机102-5、计算手表102-6、计算指环102-7、以及计算眼镜102-8，但是诸如电视机、桌面型计算机、上网本、以及蜂窝电话的其他计算设备和系统也同样可以使用。下面将更进一步地细节描述，在一些实施例中所述技术通过远程设备104来操作。在这些情况下，计算设备102可放弃执行与技术相关的一些计算操作，并且因此无需能够进一步计算操作。

计算设备102包括或能够与显示器202(在图2中示出的八个)、视觉媒体捕捉设备204(如模拟或数字相机)、一个或多个处理器206、计算机可读存储介质208(CRM 208)、以及发射器或收发器210通信。CRM 208包括(单独的或与远程设备104的组合)标记模块112、视觉媒体114、阈值116、人118、物体120、阈值数目122、精确度阈值124、照片126、视频128、幻灯片/精彩集锦130、面部标记引擎132、以及物体识别引擎134。因此，可在有或没有来自远程设备104的帮助的情况下对计算设备102执行所述技术。发射器/收发器210通过通信网络106来与诸如远程设备104的其他设备通信，但是也可以使用诸如近场通信或个域网通信的其他通信方式。

这些和其他能力，以及图1和2的实体行动及交互方式在下文中进一步说明。这些实体可进一步分离，组合等等。图1的环境100以及图2细节图示说明了能够采用所描述的技术的许多可能的环境。

用于标记视觉媒体的示例方法

图3图示了用于标记视觉媒体的示例方法300。这里描述的这些和其他方法的方法块的顺序并不旨在被解释为限制，并且任何数目或组合的所述方法块能够以任何顺序组合以实施方法或替选方法。进一步地，所描述的方法可被整体或部分的分立或结合操作。当一些操作或操作的示例涉及用户交互，许多操作能够无需用户交互而自动被执行。

在步骤302，用以标记人或物体的手动标记选择被接收。该手动标记选择可以通过移动设备接收，诸如通过图1和图2的计算设备102的姿势敏感显示器。因此，用户可以选择所存储的或新捕捉的照片或视频并且选择标记照片中的人或物体。

通过示例，参考图4，其图示了用户和她在自行车旅行中的两个朋友的新捕捉的照片402，照片是通过她的智能电话102-3捕捉的(如图2所示)，并且示出在智能电话显示器的媒体用户接口404中。用户可以在获得或没有获得来自引擎132和134之一的帮助时通过选择照片402的面部或子图像来选择手动标记。这里假设面部识别引擎132和物体识别引擎134每一个提供用于标记的可选择区域。如图5所示，其图示了带有标记界面502的照片402，具有第一面部504、第二面部506、第三面部508以及子图像510。子图像是物体可以位于其中的视觉媒体的部分，诸如子图像510处示出自行车头盔。同时注意，手动标记选择512是通过敲击第二面部506(名为“Bella”的人)的姿势选择来接收的。

在步骤304，手动标记选择被确定为满足或超过所选的人或物体的标记阈值。如上部分所述，确定手动标记选择满足或超过标记阈值可以是确定该选择超过阈值数目，诸如通过图5的手动标记选择512敲击的该人的第15次标记。在某些情况下，标记模块112确定手动标记选择在阈值时间内满足或超过阈值数目，如在两分钟之内对同样的人的第三次选择。手动标记人或物体多次或者“接连”标记可指示用户期望标记许多照片或视频，并因此提示标记模块112来为用户分析多个媒体。

在步骤306，对多个视觉图像执行面部或物体识别，以确定视觉图像具有面部或子图像，所述面部或子图像被识别为与利用手动标记选择来标记的人或物体相匹配。标记模块112连同面部识别引擎132分析许多视觉媒体以找到人或物体，尚未对视觉媒体114的主要部分或者视觉媒体的全部或实质上全部执行针对该人或物体的识别。

继续该示例，假定智能电话的用户(Bella)有396张照片、112个视频，以及3个精彩集锦(通常带有随附音频、变换等的突出精彩照片和视频的幻灯片视频)。注意面部识别引擎132的精确度和置信度能够基于Bella所进行的手动标记选择来提高，这里她已经在上个5分钟内选择了5次手动标记她自己(Bella)，例如尽管非手动标记也可以帮助识别。这里以精确标记帮助5次手动标记。标记模块112连同面部识别引擎132分析392张照片(4张已经被标记为Bella)、111个视频(一个已经被标记为)、以及3个精彩集锦。这里假定结果包括14张照片和两个视频具有被识别为Bella的面部。

在步骤308，可以实现选择来确认或拒绝面部或子标记被识别为与所确定的视觉图像中的每一个中的人或物体相匹配。这可通过呈现具有指示所述面部或子图像的标识(indicia)的所确定的视觉图像。进一步地，标记模块112可诸如通过具有面部或子图像的图像的快速幻灯片来快速连续地呈现所确定的视觉图像。在这样的情况下，不拒绝该面部或子图像可包括在快速连续期间不选择该图像。

作为示例考虑图6，图示出所确定的视觉图像602具有被识别为Bella的面部604。在此，标识为方框606和文本608“Bella？”，但是也能改仅使用方框、高亮等。在某些情况下，面部或子图像被以比该图像的其他部分更高的分辨率呈现，从而提供用户在决定确认或拒绝时所考虑的标识，诸如Bella的面部以高分辨率呈现并且所确定的视觉图像602的剩余部分以低分辨率呈现，制作为半透明或者“阴影”。

如所述，在此示例中，16个视觉媒体(14个照片以及2个视频)通过标记模块112对Bella(贝拉)的智能电话102-3上的视觉媒体114执行面部识别而确定。所确定的视觉图像602是那些14个照片之一。在此假定标记模块112通过单个图像确认/拒绝界面610快速连续地呈现这16个。此外，假定用户(在此为Bella)翻过每个照片和视频而没有拒绝它们，从而准许标记模块112将这16个视觉媒体中的每一个标记为包括Bella。需要注意的是，即使是视频中的单个图像也可以被快速连续地呈现。因此，能够呈现在其中识别面部或子图像的视频的第一或第二部分，而不是该视频的大部分或全部。更进一步地，视频的此部分也可以按照被调整(例如两倍或三倍)的速率来呈现。

标记模块112也可以或者替代地通过一次或在一个界面中呈现所确定的视觉图像的部分，实现选择以来确认或拒绝被识别为与该人或该物体相匹配的面部或者子图像。因此，替代呈现视觉照片(例如，照片或者视频、幻灯片或精彩集锦中的静态图像)，标记模块112一次呈现多个部分。

作为示例考虑图7，其图示了多图像确认/拒绝界面702。此界面702呈现了16个视觉媒体中的12个，其每个具有与被识别为Bella的面部相关的视觉媒体的部分704。在此标记模块112准许明确的选择以确认或拒绝，或者通过允许该界面简单地继续示出Bella被识别的其他视觉媒体来隐含地选择。在此确认控制706被提供以明确的选择以确认Bella在所有这些12个视觉媒体中被正确的识别。

然而，假定Bella不认为她在视频708或照片710中。她可以选择拒绝或者选择查看更多诸如敲击视频708来查看更大版本、所有视频、或者在视频708中的其他静态图像，其中标记模块112已经确定识别了Bella。

标记模块112也可以基于识别是正确的置信度来呈现这些单个或多个所确定的视觉媒体。因此，标记模块112可以基于置信度加速呈现在单个图像确认/拒绝界面610中的所确定的图像，因此，那些具有高置信度识别的图像可比那些更低置信度的图像更快的呈现。相似地，标记模块112可以为图7中的多图像确认/拒绝界面702呈现更少的部分和/或更大的尺寸。例如，标记模块112可以在一个界面中呈现所确定的16个视觉媒体中具有最高置信度的12个，以及在第二界面中以更大的尺寸呈现具有更低置信度的剩下的4个视觉媒体。

回到方法300，在步骤308处实现选择之后，在步骤310，人或物体响应于确认或没有拒绝该识别而被标记。

图8图示了用于标记视觉媒体的示例方法800，包括自动基于精确度阈值来标记视觉媒体。方法800可以全部地或部分地作为替选或结合方法300来进行操作。

在步骤802，类似于针对方法300的操作302所描述的，用以标记人或物体的手动标记选择被接收。

在步骤804，确定能够以精确度阈值或超过精确度阈值来执行人或物体的自动识别。确定自动识别超过精确度阈值可包括在其他视觉图像中人或物体的面部或物体因素被手动或非手动地标记，而非已经执行手动标记的简单数目。面部识别引擎132或物体识别引擎134能够使用的面部或物体因素可用于建立或提高识别精确度阈以达到精确度阈值。

如上所述，此精确度阈值至少部分地基于人或物体的手动标记选择以及先前的手动或非手动标记选择，而无论是在计算设备102处执行还是诸如通过社交网络接收。因此，在图5中对Bella的最近手动标记选择之后，并且基于对Bella的9个先前手动标记选择，标记模块112可确定面部识别引擎132能够以高精确度在其他视觉媒体中识别Bella。此精确度阈值可以被设置为默认或者以选择来设置，诸如用户选择以90％、95％或99％阈值来自动标记视觉媒体。

此精确度阈值可由标记模块112通过对先前已经在其中标记过人或物体的视觉图像执行面部或物体识别来确定或检验。因此，如果Bella在10张图像中标记了她自己，则标记模块112可以分析这10张图像来确定在这10张图像中识别Bella的精确度作为识别引擎精确度的检验。如果手动标记匹配被识别的面部达到所有10次，则未来识别的精确度会被确定为高(但是并非100％)。

在步骤806，对多重视觉图像的面部或物体识别被执行。如此，标记模块112确定视觉图像具有被识别为匹配人或物体的面部或子图像。

在步骤808，响应于面部或物体识别来执行在所确定的视觉图像中标记面部或子图像。这能够被自动执行并且无需除了不同视觉媒体的某些先前时间(例如，在操作802处)的手动标记外的用户交互。

替选地，在步骤810，本技术可以实现对所标记的面部或子图像的拒绝。这能够如图6或图7中所示地执行，但是确定或不拒绝被替换为明确选择来拒绝所标记的面部或子图像。因此，用户可以敲击图6中的面部604或者文本608来拒绝将面部604标记为Bella或者选择图7中的控件706或部分704之一来拒绝标记。标记模块112之后可移除选择上的标记。

示例设备

图9图示出了包括标记模块112也包括或可访问图1或图2的其他组件的示例设备900的各种组件。这些组件可被以硬件、固件、和/或软件以及参照先前的图1-8中的任何一个所描述的来实施。

示例设备900可在固定或移动设备中实施，所述固定或移动设备是以下中的一个组合：媒体设备、桌面型计算设备、电视机、机顶盒、视频处理和/或渲染设备、电器设备(例如，关上封闭计算资源，诸如一些数字视频刻录机或者全球定位卫星设备)、游戏设备、电子设备、交通工具、工作站、膝上型计算机、平板计算机、智能电话、摄像机、相机、计算手表、计算指环、计算眼镜、以及上网本。

示例设备900能够与电子电路、微处理器、存储器、输入输出(I/O)逻辑控制、通信接口以及组件、其他硬件、固件、和/或需要整台设备运行的软件集成。示例设备900也可包括整合的数据总线(未示出)，其耦合计算设备的各种组件以提供组件间的数据通信。

示例设备900包括诸如输入-输出(I/O)逻辑控制902(例如包括电子电路)以及微处理器904(如微控制器或数字信号处理器)的各种组件。示例设备900也包括存储器906，存储器906能够是任意类型的随机存取存储器(RAM)、低延迟非易失存储器(如闪存存储器)、只读存储器(ROM)、和/或其他适合的电子数据存储。存储器906包括或能够访问标记模块112、视觉媒体114、面部识别引擎132、和/或物体识别引擎134。标记模块112能够执行针对所述技术描述的一个或多个动作，虽然也可以包括其他组件。

示例设备900也可包括各种固件和/或软件，诸如操作系统908，其连同其他组件一起能够是由存储器906所维护并且由微处理器904所执行的计算机可执行指令。示例设备900也可以包括其他各种通信接口和组件，无线LAN(WLAN)或者无线PAN(WPAN)组件、其他硬件、固件、和/或软件。

参照上述描述和附图描述了这些阈值的其他示例、能力以及功能。这些阈值既可独立地也可与其他模块或阈值组合来被实施为由存储器906所维护并且由微处理器904所执行的计算机可执行指令，以实施所述的各种组件和/或特征。

替选地或附加地，这些组件的任何或全部可以被实施为硬件、固件、固定逻辑电路、或者其组合，与示例设备900的I/O逻辑控制902和/或其他信号处理及控制电路连接结合实施。更多地，这些组件中的一些可与设备900分离作用，诸如当远程(基于云计算的)服务针对标记模块112执行一个或多个操作时。例如照片和视频无需都处于一个位置，一些可位于用户的智能电话、一些位于服务器上、一些被下载到另一个设备(例如，膝上型或桌面型计算机)中。更进一步地，某些图像可被设备获取、索引、以及之后远程存储，诸如以节省设备中的存储器资源。

总结

尽管标记移动设备上的视觉媒体的技术和装置已经被以特定于结构特征和/或方法动作的语言描述，但是所附的权利要求不能解释为限制于所描述的特定的特征或动作。而是，特定的特征和动作被公开作为实施用于标记移动设备上的视觉媒体的技术和装置的示例形式。

Claims

1.一种计算机实施的方法，包括：

接收用以标记人或物体的手动标记选择；

确定所述手动标记选择满足或超过所述人或物体的手动选择标记阈值；

对多个视觉图像执行面部或物体识别，以确定视觉图像具有被识别为与所述人或所述物体匹配的面部或子图像；

针对所确定的视觉图像中的每一个视觉图像，实现选择以确认或拒绝被识别为与所述人或物体匹配的所述面部或子图像；以及

响应于确认或不拒绝在所确定的视觉图像中识别到的所述面部或子图像，标记在所确定的视觉图像中的所述面部或所述子图像，以确认所述面部或所述子图像被正确识别为是所述人或所述物体。

2.如权利要求1所述的方法，其中，接收所述手动标记选择是通过移动设备接收的，所述多个视觉图像中的至少一些视觉图像被本地存储在所述移动设备上，并且执行所述面部或物体识别是对本地存储在所述移动设备上的所述视觉图像中的大多数视觉图像来执行的。

3.如权利要求1所述的方法，其中，确定所述手动标记选择满足或超过手动选择标记阈值确定了所述手动标记选择满足或超过标记阈值数目。

4.如权利要求3所述的方法，其中，确定所述手动标记选择满足或超过所述标记阈值数目确定了所述手动标记选择在标记阈值时间内满足或超过所述阈值数目。

5.如权利要求1所述的方法，其中，实现选择以确认或拒绝在所确定的视觉图像中被识别为与所述人或所述物体相匹配的所述面部或子图像呈现了具有指示所述面部或所述子图像的标识的所确定的视觉图像。

6.如权利要求5所述的方法，其中，呈现具有指示所述面部或所述子图像的标识的所确定的视觉图像是快速连续地执行的，并且不拒绝所述面部或所述子图像包括：在所述快速连续期间不选择所确定的视觉图像。

7.如权利要求6所述的方法，其中，所述快速连续的速度是基于所述面部或所述子图像的识别是正确的置信度。

8.如权利要求1所述的方法，其中，实现选择以确认或拒绝在所确定的视觉图像中被识别为与所述手动标记选择的所述人或所述物体相匹配的所述面部或子图像一次或在一个界面中呈现了部分的所确定视觉图像，所述部分至少包括所述面部或所述子图像。

9.如权利要求8所述的方法，其中，一次或在一个界面中呈现的所述面部或子图像是响应于确认所述面部或子图像而被标记的。

10.如权利要求8所述的方法，一次或在一个界面中呈现的所述面部或所述子图像的尺寸或数目是基于所述面部或所述子图像的所述识别是正确的置信度来确定的。

11.其上存储有指令的一个或多个计算机可读存储介质，所述指令响应于一个或多个计算机处理器的执行而执行操作，所述操作包括：

接收用以标记人或物体的手动标记选择；

基于对所述人或物体的所述手动标记选择和先前的手动标记选择，确定所述人或物体的自动识别能够以精确度阈值来执行或超过精确度阈值来执行；

对多个视觉图像执行面部或物体识别，以确定视觉图像具有被识别为与所述手动标记选择的所述人或所述物体匹配的面部或子图像；以及

响应于所述面部或物体识别，标记在所确定的视觉图像中的所述面部或所述子图像。

12.如权利要求11所述的介质，其中，确定所述自动识别超过精确度阈值包括：所述人或所述物体的面部或物体因素在其他视觉图像中被标记，所述面部或物体因素能够由面部识别引擎或物体识别引擎使用，以建立或提高识别精确度至少达到所述精确度阈值。

13.如权利要求11所述的介质，其中，所述精确度阈值是基于手动标记选择的数目，所述数目至少满足所接收的所述手动标记选择以及所述先前的手动标记选择。

14.如权利要求11所述的介质，其中，基于对已在先前标记过所述人或物体的视觉图像执行面部或物体识别，来确定所述精确度阈值。

15.如权利要求14所述的介质，其中，在所执行的所述面部或物体识别与所述手动标记选择以及所述先前的手动标记选择匹配时，确定所述精确度阈值。

16.如权利要求11所述的介质，进一步包括：实现对在所确定的视觉图像中的所标记的面部或子图像的拒绝。

17.如权利要求16所述的介质，其中，实现对所标记的面部或子图像的拒绝是一次或在一个界面内呈现部分的所确定视觉图像，所述部分至少包括所述面部或所述子图像。

18.一种移动计算设备，包括：

视觉媒体捕捉设备；

显示器；

一个或多个计算机处理器；以及

其上存储有指令的一个或多个计算机可读存储介质，所述指令响应于所述一个或多个计算机处理器的执行而执行操作，所述操作包括：

响应于用以标记人或物体的多个手动标记选择满足或超过所述人或物体的手动选择标记阈值或者所述人或物体的自动识别的精确度阈值，而对存储在所述计算机可读存储介质中的多个先前未标记的视觉图像执行面部或物体识别；

确定所述自动识别中每一个自动识别的置信度；

在所述显示器上呈现在所述多个先前未标记的视觉媒体中所识别的所述人或物体的多个面部或子图像部分，所述人或物体的所述面部或子图像部分的数目或尺寸是基于所述自动识别中的每个自动识别的所确定的置信度；

实现对所识别的所述人或物体的多个面部或子图像部分的确认或拒绝；以及

响应于确认或拒绝，对所述多个面部或子图像部分的先前标记进行标记或者拒绝。

19.如权利要求18所述的移动计算设备，其中，所述手动选择标记阈值是基于标记阈值数目以及标记阈值时间两者。

20.如权利要求18所述的移动计算设备，进一步包括：通过对进行过用以标记所述人或物体的所述手动标记选择的视觉图像执行面部或物体识别，来确定已经至少满足所述精确度阈值。