CN113767394A

CN113767394A - 在非结构化视频流中捕获对象

Info

Publication number: CN113767394A
Application number: CN202080031648.9A
Authority: CN
Inventors: I·M·里克特
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2019-04-29
Filing date: 2020-04-27
Publication date: 2021-12-07
Also published as: WO2020223140A1; US20220012283A1

Abstract

一种方法，该方法包括获得第一非结构化视频流，该第一非结构化视频流为多个像素提供像素值并且对应于在不同于第一电子设备的第二电子设备上正在显示的第二非结构化视频流的一部分。获得第一非结构化视频流包括获得包括第二非结构化视频流的一部分的传递性图像数据。该方法包括为该多个像素的第一部分生成相应像素表征矢量。生成相应像素表征矢量中的每个像素表征矢量包括确定相应实例标签值。该方法包括标识该多个像素的第一部分内与特定实例标签值相关联的第一对象。该方法包括生成对应于与第一对象相关联的像素的相应语义标签值。将相应语义标签值添加到与第一对象相关联的像素表征矢量。

Description

在非结构化视频流中捕获对象

技术领域

本公开涉及在非结构化视频流中捕获对象，并且具体地讲，涉及在语义上标识非结构化视频流中的对象。

背景技术

一般来讲，视频流包括图像序列，每个图像包括具有对应的颜色、亮度、不透明度等值的多个像素。从显示视频流的常规系统的角度来看，视频流对应于具有变化值的像素的时间分组集合(例如，帧)。因此，常规系统独立于对视频流内的内容的语义理解(诸如正在显示什么对象、人物和/或动物)来处理和显示视频流。

常规视频是或可被视为“非结构化数据”的高度混合集合，包括对象、人物和/或动物的人类可理解的图像表示(在下文中，为了简洁起见，“对象”是指一个或多个对象、人物和/或动物中的任何一者)。然而，常规视频流不包括将由人类用户能够识别的对象的图像表示的语义标签目录。继而，能够访问常规视频流的其他机器系统不能标识、使用和/或操纵图像流内的仅由像素值表示的对象的表示。

发明内容

根据一些具体实施，在具有一个或多个图像传感器、一个或多个处理器和非暂态存储器的第一电子设备处执行一种方法。该方法包括获得为多个像素提供像素值的第一非结构化视频流。第一非结构化视频流对应于在不同于第一电子设备的第二电子设备的辅助显示器上正在显示的第二非结构化视频流的一部分。获得该第一非结构化视频流包括经由一个或多个图像传感器获得包括第二非结构化视频流的一部分的传递性(pass-through)图像数据。该方法还包括为多个像素的第一部分生成相应的像素表征矢量。生成相应像素表征矢量中的每个像素表征矢量包括确定相应实例标签值。该方法还包括标识多个像素的第一部分内与特定实例标签值相关联的第一对象。该方法还包括生成对应于与第一对象相关联的像素的相应语义标签值。将相应语义标签值添加到与第一对象相关联的像素表征矢量。

根据一些具体实施，一种第一电子设备包括一个或多个图像传感器、一个或多个处理器、非暂态存储器和一个或多个程序；一个或多个程序被存储在非暂态存储器中并且被配置为由一个或多个处理器执行，并且一个或多个程序包括用于执行或导致执行本文所述的方法中的任一种方法的操作的指令。根据一些具体实施，一种非暂态计算机可读存储介质中存储有指令，当由第一电子设备的一个或多个处理器执行时，这些指令使得该设备执行或导致执行本文所述方法中的任一种方法的操作。根据一些具体实施，一种第一电子设备包括用于执行或导致执行本文所述的方法中的任一种方法的操作的构件。根据一些具体实施，一种用于在第一电子设备中使用的信息处理装置包括用于执行或导致执行本文所述方法中的任一种方法的操作的构件。

附图说明

为了更好地理解各种所述具体实施，应结合以下附图参考下面的具体实施方式，其中类似的附图标号在所有附图中指示对应的部分。

图1是根据一些具体实施的便携式多功能设备的示例的框图。

图2A至图2N是物理环境的示例，该物理环境包括显示增强现实(ER)内容的第一电子设备，该ER内容对应于在第二电子设备上正在显示的非结构化视频流内的语义标识对象。

图3A至图3J是基于对应于语义标识对象的ER示能表示的输入提供ER体验的第一电子设备的示例。

图4是根据一些具体实施的示例性操作环境的框图。

图5是根据一些具体实施的第一电子设备的示例性数据流程图。

图6是根据一些具体实施的示例性神经网络。

图7是根据一些具体实施的像素表征矢量的表示。

图8是根据一些具体实施的在语义上标识第一非结构化视频流内的对象的方法的流程图。

图9是根据一些具体实施的相对于第一非结构化视频流内的语义标识对象提供ER体验的方法的流程图。

图10是根据一些具体实施的第一电子设备的示例的框图。

发明内容

各种具体实施包括用于标识由非结构化视频流(例如，具有对应像素值的像素的集合)的像素值表示的对象并确定对应对象表示的语义特征的方法、系统和设备。在各种具体实施中，第一电子设备在第一电子设备确定并显示语义特征时显示非结构化视频流，使得能够实现在与第一电子设备分开的监视器上或在集成在第一电子设备内的显示器上的显示的连续性。

在各种具体实施中，第一电子设备显示与非结构化视频流内的语义特征相关的增强现实(ER)内容。在一些具体实施中，第一电子设备显示叠置在非结构化视频流上的ER内容。例如，在一些具体实施中，第一电子设备显示基于语义特征的目标效果器。又如，在一些具体实施中，第一电子设备显示关于对象、人物和/或动物的信息性ER内容。

具体实施方式

现在将详细地参考具体实施，这些具体实施的实施例在附图中示出。下面的详细描述中示出许多具体细节，以便提供对各种所描述的具体实施的充分理解。但是，对本领域的普通技术人员将显而易见的是，各种所描述的具体实施可以在没有这些具体细节的情况下被实践。在其他情况下，没有详细地描述众所周知的方法、过程、部件、电路和网络，从而不会不必要地使具体实施的各个方面晦涩难懂。

还将理解的是，虽然在一些情况下，术语“第一”、“第二”等在本文中用于描述各种元件，但是这些元件不应受到这些术语限制。这些术语只是用于将一个元件与另一元件区分开。例如，第一接触可被命名为第二接触，并且类似地，第二接触可被命名为第一接触，而不脱离各种所描述的具体实施的范围。第一接触和第二接触均为接触，但它们不是同一个接触，除非上下文另外明确指示。

在本文中对各种所述具体实施的描述中所使用的术语只是为了描述特定具体实施的目的，而并非旨在进行限制。如在对各种所述具体实施的描述中和所附权利要求书中所使用的那样，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文另外明确地指示。还将理解的是，本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是，术语“包括”(“includes”、“including”、“comprises”和/或“comprising”)在本说明书中使用时是指定存在所陈述的特征、整数、步骤、操作、元件和/或部件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其分组。

如本文中所使用，根据上下文，术语“如果”任选地被解释为意指“当……时”或“在……时”或“响应于确定”或“响应于检测到”。类似地，根据上下文，短语“如果确定……”或“如果检测到[所陈述的条件或事件]”任选地被解释为意指“在确定……时”或“响应于确定……”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。

物理布景是指各个人可在不使用电子系统的情况下感测和/或交互的世界。物理布景诸如物理公园包括物理元素，诸如物理野生动物、物理树木和物理植物。人们可例如使用一种或多种感觉(包括视觉、嗅觉、触觉、味觉和听觉)直接感测物理布景和/或以其他方式与物理布景进行交互。

与物理布景相比，增强型现实(ER)布景是指各种人通过使用电子系统可感测和/或以其他方式与之交互的完全地(或部分地)计算机生成的布景。在ER中，部分地监视人的移动，并且响应于此，以与一个或多个物理定律一致的方式来改变与ER布景中的至少一个虚拟对象对应的至少一个属性。例如，响应于ER系统检测到人向上看，ER系统可以以与此类声音和外观会在物理布景中改变的方式一致的方式来调整呈现给人的各种音频和图形。也可例如响应于移动的表示(例如，语音命令)而进行对ER布景中的虚拟对象的属性的调整。

人可以利用一种或多种感觉，诸如视觉、嗅觉、味觉、触觉和听觉来感测ER对象和/或与ER对象交互。例如，人可感测创建多维或空间声学布景的对象和/或与其交互。多维或空间声学布景为个人提供了在多维空间中对离散声源的感知。此类对象还可实现声学透明性，该声学透明性可在具有或没有计算机生成的音频的情况下选择性地结合来自物理布景的音频。在某些ER布景中，人可仅感测音频对象和/或仅与其交互。

虚拟现实(VR)是ER的一个示例。VR布景是指被配置为仅包括针对一种或多种感觉的计算机生成的感官输入的增强布景。VR布景包括人可以感测和/或交互的多个虚拟对象。人可通过在计算机生成的布景内模拟人动作中的至少一些动作和/或通过模拟人或其在计算机生成的布景内的存在来感测VR布景中的虚拟对象和/或与其交互。

混合现实(MR)是ER的另一个示例。MR布景是指被配置为将计算机生成的感官输入(例如，虚拟对象)与来自物理布景的感官输入或来自物理布景的感官输入的表示进行集成的增强布景。在现实频谱上，MR布景介于一端处的完全物理布景和另一端处的VR布景之间并且不包括这些布景。

在一些MR布景中，计算机生成的感官输入可基于来自物理布景的感官输入的变化而被调整。另外，用于呈现MR布景的一些电子系统可以检测相对于物理布景的位置和/或取向，以实现真实对象(即来自物理布景的物理元素或其表示)与虚拟对象之间的交互。例如，系统可检测移动并相应地调整计算机生成的感官输入，使得例如虚拟树相对于物理结构看起来是固定的。

增强现实(AR)是MR的示例。AR布景是指一个或多个虚拟对象叠加在物理布景(或其表示)之上的增强布景。例如，电子系统可包括不透明显示器和用于捕获物理布景的视频和/或图像的一个或多个成像传感器。例如，此类视频和/或图像可以是物理布景的表示。视频和/或图像与虚拟对象组合，其中该组合随后被显示在不透明显示器上。物理布景可由人经由物理布景的图像和/或视频间接地查看。因此，人可观察叠加在物理布景上的虚拟对象。当系统捕获物理布景的图像并且使用所捕获的图像在不透明显示器上显示AR布景时，所显示的图像被称为视频透传。另选地，透明或半透明显示器可被包括在用于显示AR布景的电子系统中，使得个体可通过透明或半透明显示器直接查看物理布景。虚拟对象可被显示在半透明或透明显示器上，使得个体观察叠加在物理布景上的虚拟对象。在另一个示例中，可利用投影系统以便将虚拟对象投影到物理布景上。例如，虚拟对象可在物理表面上被投影，或作为全息图，使得个体观察叠加在物理布景之上的虚拟对象。

AR布景也可指其中物理布景的表示被计算机生成的感官数据修改的增强布景。例如，物理布景的表示的至少一部分能够以图形方式修改(例如，放大)，使得所修改的部分仍可表示初始捕获的图像(但不是完全复制的版本)。另选地，在提供视频透传时，可修改一个或多个传感器图像，以便施加与由图像传感器捕获的视点不同的特定视点。再如，物理布景的表示的部分可通过以图形方式将该部分进行模糊处理或消除该部分而被改变。

增强虚拟(AV)是MR的另一个示例。AV布景是指虚拟的或计算机生成的布景结合来自物理布景的一个或多个感官输入的增强布景。此类感官输入可包括物理布景的一个或多个特征的表示。虚拟对象可例如结合与由成像传感器捕获的物理元素相关联的颜色。另选地，虚拟对象可采用与例如对应于物理布景的当前天气状况一致的特征，诸如经由成像识别的天气状况、在线天气信息和/或与天气相关的传感器。又如，AR公园可包括虚拟结构、植物和树木，尽管AR公园布景内的动物可包括从物理动物的图像准确复制的特征。

各种系统允许人们感测ER布景和/或与其交互。例如，头戴式系统可包括一个或多个扬声器和不透明显示器。又如，外部显示器(例如，智能电话)可结合到头戴式系统内。头戴式系统可包括用于捕获物理布景的音频的麦克风和/或用于捕获物理布景的图像/视频的图像传感器。头戴式系统中还可包括透明或半透明显示器。半透明或透明显示器可例如包括基板，(表示图像的)光通过该基板被引导到人的眼睛。显示器还可包含LED、OLED、硅基液晶、激光扫描光源、数字光投影仪或它们的任何组合。光透射穿过的基板可以是光学反射器、全息基板、光波导、光合路器或它们的任何组合。透明或半透明显示器可例如选择性地在透明/半透明状态和不透明状态之间转变。又如，电子系统可以是基于投影的系统。在基于投影的系统中，视网膜投影可用于将图像投影到人的视网膜上。另选地，基于投影的系统还可将虚拟对象投影到物理布景中，例如，诸如将虚拟对象投影为全息图或投影到物理表面上。ER系统的其他示例包括被配置为显示图形的窗口、头戴式耳机、耳机、扬声器布置、被配置为显示图形的透镜、平视显示器、被配置为显示图形的汽车挡风玻璃、输入机构(例如，具有或不具有触觉功能的控制器)、台式或膝上型计算机、平板电脑或智能电话。

图1是根据一些具体实施的便携式多功能设备100(为了简洁起见，在本文中有时也称为“第一电子设备100”)的示例的框图。第一电子设备100包括存储器102(其任选地包括一个或多个计算机可读存储介质)、存储器控制器122、一个或多个处理单元(CPU)120、外围设备接口118、输入/输出(I/O)子系统106、扬声器111、触敏显示器系统112、图像传感器143(例如，相机)、接触强度传感器165、音频传感器113(例如麦克风)、眼睛跟踪传感器164(例如，包括在头戴式设备(HMD)内)以及其他输入或控制设备116。在一些具体实施中，第一电子设备100对应于移动电话、平板电脑、膝上型电脑、可穿戴计算设备、头戴式设备(HMD)、头戴式壳体(例如，第一电子设备100滑动到头戴式壳体中或以其他方式附接到头戴式壳体)等中的一者。在一些具体实施中，头戴式壳体被成形为形成用于接收具有显示器的第一电子设备100的接收器。

在一些具体实施中，外围设备接口118、一个或多个处理单元120和存储器控制器122任选地在单个芯片诸如芯片103上实现。在一些其他具体实施中，它们任选地在独立的芯片上实现。

I/O子系统106将第一电子设备100上的输入/输出外围设备诸如触敏显示器系统112和其他输入或控制设备116与外围设备接口118耦接。I/O子系统106任选地包括显示控制器156、图像传感器控制器158、强度传感器控制器159、音频控制器157、眼睛跟踪控制器162和用于其他输入或控制设备的一个或多个输入控制器160。一个或多个输入控制器160从其他输入或控制设备116接收电信号/将电信号发送到该其他输入或控制设备。其他输入控制设备116任选地包括物理按钮(例如，下压按钮、摇臂按钮等)、拨号盘、滑动开关、操纵杆、点击轮等。在一些另选的具体实施中，一个或多个输入控制器160任选地与以下各项中的任一者耦接(或不与以下各项中的任一者耦接)：键盘、红外线端口、通用串行总线(USB)端口、触笔和/或指针设备诸如鼠标。一个或多个按钮任选地包括用于扬声器111和/或音频传感器113的音量控制的增大/减小按钮。一个或多个按钮任选地包括下压按钮。

触敏显示器系统112提供第一电子设备100与用户之间的输入接口和输出接口。显示控制器156从触敏显示器系统112接收电信号和/或将电信号发送至触敏显示器系统。触敏显示器系统112向用户显示视觉输出。视觉输出任选地包括图形、文本、图标、视频以及它们的任何组合(统称为“图形”)。在一些具体实施中，一些视觉输出或全部视觉输出对应于用户界面对象。如本文所用，术语“示能表示”是指用户交互式图形用户界面对象(例如，被配置为对被引向图形用户界面对象的输入进行响应的图形用户界面对象)。用户交互式图形用户界面对象的示例包括但不限于按钮、滑块、图标、可选择菜单项、开关、超链接或其他用户界面控件。

触敏显示器系统112具有基于触觉和/或触感接触来接受来自用户的输入的触敏表面、传感器或传感器组。触敏显示器系统112和显示控制器156(与存储器102中的任何相关联的模块和/或指令集一起)检测触敏显示器系统112上的接触(和该接触的任何移动或中断)，并且将检测到的接触转换为与被显示在触敏显示器系统112上的用户界面对象(例如，一个或多个软按键、图标、网页或图像)的交互。在示例性具体实施中，触敏显示器系统112和用户之间的接触点对应于用户的手指或触笔。

触敏显示器系统112任选地使用LCD(液晶显示器)技术、LPD(发光聚合物显示器)技术或LED(发光二极管)技术，但是在其他具体实施中使用其他显示技术。触敏显示器系统112和显示控制器156任选地使用现在已知的或以后将开发出的多种触摸感测技术中的任何技术以及其他接近传感器阵列或用于确定与触敏显示器系统112接触的一个或多个点的其他元件来检测接触及其任何移动或中断，该多种触摸感测技术包括但不限于电容性技术、电阻性技术、红外线技术和表面声波技术。

用户任选地使用任何合适的物体或附加物诸如触笔、手指等来与触敏显示器系统112接触。在一些具体实施中，将用户界面设计成与基于手指的接触和手势一起工作，由于手指在触摸屏上的接触区域较大，因此这可能不如基于触笔的输入精确。在一些具体实施中，第一电子设备100将基于手指的粗略输入转化为精确的指针/光标位置或命令以用于执行用户所期望的动作。

扬声器111和音频传感器113提供用户与第一电子设备100之间的音频接口。音频电路从外围设备接口118接收音频数据，将音频数据转换为电信号，并且将电信号传输到扬声器111。扬声器111将电信号转换为人类可听到的声波。音频电路还接收由音频传感器113(例如，麦克风)从声波转换的电信号。音频电路将电信号转换为音频数据，并且将音频数据传输到外围设备接口118以用于处理。音频数据任选地由外围设备接口118检索自和/或传输到存储器102和/或RF电路。在一些具体实施中，音频电路还包括耳麦插孔。该耳麦插孔提供音频电路与可移除的音频输入/输出外围设备之间的接口，该可移除的音频输入/输出外围设备为诸如仅输出的耳机或者具有输出(例如，单耳耳机或双耳耳机)和输入(例如，麦克风)两者的耳麦。

图像传感器143捕获静态图像和/或视频。在一些具体实施中，图像传感器143位于第一电子设备100的背面上，与第一电子设备100正面上的触摸屏相背对，使得触摸屏能够用作用于静态图像和/或视频图像采集的取景器。在一些具体实施中，另一图像传感器143位于第一电子设备100的正面上，从而获得该用户的图像(例如，用于自拍、用于当用户在触摸屏上观看其他视频会议参与者时进行视频会议等等)。在一些具体实施中，图像传感器对应于一个或多个HMD相机。

接触强度传感器165检测第一电子设备100上的接触的强度(例如，第一电子设备100的触敏表面上的触摸输入)。接触强度传感器165与I/O子系统106中的强度传感器控制器159耦接。接触强度传感器165任选地包括一个或多个压阻应变仪、电容式力传感器、电气力传感器、压电力传感器、光学力传感器、电容式触敏表面或其他强度传感器(例如，用于测量触敏表面上的接触的力(或压力)的传感器)。接触强度传感器165从物理环境接收接触强度信息(例如，压力信息或压力信息的代用物)。在一些具体实施中，至少一个接触强度传感器165与第一电子设备100的触敏表面并置排列或邻近。在一些具体实施中，至少一个接触强度传感器165位于第一电子设备100的背面上。

眼睛跟踪传感器164检测第一电子设备100的用户的眼睛注视，并且生成指示用户的眼睛注视的眼睛跟踪数据。在各种具体实施中，眼睛跟踪数据包括指示用户在显示面板上的固定点(例如，关注点)的数据，该显示面板为诸如头戴式设备(HMD)、头戴式壳体或平视显示器内的显示面板。

图2A至图2N是物理环境200的示例，该物理环境包括显示增强现实(ER)内容的第一电子设备201，该ER内容对应于在第二电子设备210上正在显示的非结构化视频流内的语义标识对象。物理环境200包括第一电子设备201、第二电子设备210、墙壁220和支承第二电子设备210的桌子230。根据各种具体实施，第一电子设备201与图1所示的多功能设备100类似，并且从该多功能设备修改而来。本领域的普通技术人员将理解，物理环境200可包括更少或附加的物理特征部，诸如电视墙壁安装架，而不是支承第二电子设备210的桌子230。

如图2A所示，第二电子设备210对应于显示第二非结构化视频流211(诸如流式传输视频内容、电影、图像幻灯片等)的电视。本领域的普通技术人员将会理解，第二电子设备210可对应于能够显示视频或图像内容的多种类型的电子设备中的任一者，诸如平板电脑、智能电话、膝上型电脑等。在一些具体实施中，第二非结构化视频流211对应于包括图像序列的常规视频流，每个图像包括具有对应值的多个像素。即，如图2A至图2N所示，第二非结构化视频流211包括指示正朝树211c行走以便走到阴凉处躲开太阳211b的狗211a的一组变化像素值。然而，值得注意的是，第二非结构化视频流211不包括或提供与像素相关联的语义信息。

第一电子设备201获得为多个像素提供像素值的第一非结构化视频流204。在一些具体实施中，第一非结构化视频流204包括第二非结构化视频流211的一部分或其表示。第一电子设备201相对于第二电子设备210定位(例如，成角度)，使得第一电子设备201的图像传感器(例如，后向相机)获得包括第二非结构化视频流211的所述一部分并且任选地包括物理环境200的其他物理特征部的传递性图像数据。例如，如图2A所示，第一电子设备201获得传递性图像数据，该传递性图像数据包括桌子230的相应表示203和对应于在第二电子设备210上正在显示的第二非结构化视频流211的第一非结构化视频流204。因此，第一非结构化视频流204包括狗240、太阳242和树244。在一些具体实施中，如图2A所示，第一电子设备201在用户界面202上渲染和显示(例如，经由图1中的触敏显示器系统112)传递性图像数据，该传递性图像数据包括桌子230的相应表示203和第一非结构化视频流204。

为了便于说明，在图2B中示出了物理环境200内的第一电子设备201的更大版本。第一电子设备201继续获得包括在第二电子设备210上正在显示的第二非结构化视频流211的传递性图像数据，该第二非结构化视频流包括移动得更靠近树211c的狗211a。因此，在图2B中，与图2A相比，第一电子设备201显示狗240已移动得更靠近树244。

第一电子设备201为第一非结构化视频流204中的所述多个像素的一部分生成相应像素表征矢量。生成相应像素表征矢量中的每个像素表征矢量包括确定相应实例标签值。下面详细描述相应像素表征矢量和实例标签值的生成。

第一电子设备201标识所述多个像素的所述一部分内与第一实例标签值相关联的第一对象。参考图2C，第一电子设备201将第一非结构化视频流204内的狗240标识成第一对象，如对应的对象标识符240a所示。本领域的普通技术人员将理解，在一些具体实施中，第一电子设备201显示具有不同特征(例如，不同形状、颜色、尺寸)的对象标识符240a，或者完全放弃显示对象标识符240a。在一些具体实施中，第一电子设备201标识第一非结构化视频流204内的多个对象。例如，参考图2C，第一电子设备201将太阳242标识成第二对象并且将树244标识成第三对象，如分别由对象标识符242a和对象标识符244a所指示。下文提供关于对象标识的进一步细节。

第一电子设备201生成对应于与第一对象相关联的像素的相应语义标签值。将相应语义标签值添加到与第一对象相关联的像素表征矢量。在一些具体实施中，第一电子设备201将相应语义标签值附加到与第一对象相关联的像素表征矢量。继续前面的示例，第一电子设备201为狗240生成相应语义标签值“金毛猎犬狗”，如图2D中的对应语义标签值标识符240b所示。本领域的普通技术人员将理解，在一些具体实施中，第一电子设备201生成并显示不同的或附加的对应语义标签值标识符240b(例如，“毛茸茸的朋友”)和/或完全放弃显示对应语义标签值标识符240b。在一些具体实施中，第一电子设备201生成对应于第一非结构化视频流204内的多个对象的多个相应语义标签值。例如，第一电子设备201生成用于太阳242的相应语义标签值“太阳”和用于树244的相应语义标签值“棕榈树”，如分别由图2D中的语义标签值标识符242b和语义标签值标识符244b所指示。下文详细说明相应语义标签值的生成。

如图2E至图2N所示，在一些具体实施中，第一电子设备201响应于获得针对对应于第一非结构化视频流204中的所标识对象的增强现实(ER)示能表示的输入，显示对应于所述所标识对象的ER内容。例如，如图2E所示，第一电子设备201获得对应于标识狗240的对象标识符240a的第一输入246。

如图2F所示，根据确定第一输入对应于第一输入类型，第一电子设备201显示对应于狗240的信息性ER内容248。在一些具体实施中，信息性ER内容基于相应语义标签值标识符240b“金毛猎犬狗”。即，信息性ER内容248包括关于金毛猎犬的各种事实，诸如其平均寿命、颜色和平均重量。

如图2G所示，第一电子设备201获得对应于标识狗240的对象标识符240a的第二输入250。第二输入250对应于与对应于图2E中的第一输入246的第一输入类型不同的第二输入类型。在一些具体实施中，第一输入类型对应于第一手势(例如，轻击输入或向左轻扫输入)，并且第二输入类型对应于不同于第一手势的第二手势(例如，长按压输入、力触摸输入或向右轻扫输入)。

在一些具体实施中，第一输入246和/或第二输入250对应于指示用户的注视位置的眼睛跟踪数据。例如，参考图2A和图4，眼睛跟踪数据指示用户450的注视位置对应于狗240。

如图2H所示，根据确定第二输入250对应于第二输入类型，第一电子设备201显示动物目标效果器目录252，包括对应于狗240的狗目标效果器252a以及狮子目标效果器252b和部分可见的猫目标效果器252c。在一些具体实施中，狗目标效果器252a基于对应于狗240的相应语义标签值“金毛猎犬狗”240b。动物目标效果器目录252中的每一者通过对应的一组预定义目标和对应的一组视觉渲染属性来表征。在各种具体实施中，目标实现器执行一个或多个动作以实现(例如，完成、满足或达到)一个或多个目标。本领域的普通技术人员将会知道，目标效果器目录可包括并非动物或除了动物之外的实体，诸如人(真实的或虚构的)、机器(例如，汽车、飞机等)、天气模式等。

动物目标效果器目录252还包括指示当前选择的目标效果器的当前选择指示符252d，其对应于图2H中的狮子目标效果器252b。如图2H中进一步所示，动物目标效果器目录252还包括目标效果器界面请求示能表示252e，其操作将在下文描述。

如图2I所示，第一电子设备201获得对应于相对于动物目标效果器目录252的滚动条的向下滚动操作的输入254。响应于获得图2I中的输入254，第一电子设备201向下滚动以便使猫目标效果器252c可见并且使狗目标效果器252a在图2J中可见。

如图2J所示，第一电子设备201获得对应于猫目标效果器252c的输入256。响应于获得图2J中的输入256，第一电子设备201将当前选择指示符252d从狮子目标效果器252b改变为猫目标效果器252c，如图2K所示。

如图2K所示，第一电子设备201获得对应于目标效果器界面请求示能表示252e的输入258。响应于获得图2K中的输入258，第一电子设备201将用户界面202从传递性图像数据改变为图2L中的目标效果器界面。目标效果器界面包括目标效果器窗格262、新容器示能表示270和浮现内容容器280。

目标效果器窗格262包括猫目标效果器容器264c内的猫目标效果器252c、狗目标效果器容器264a内的狗目标效果器252a以及狮子目标效果器容器264b内的狮子目标效果器252b。由于当前选择猫目标效果器252c(参见图2K中的当前选择指示符252d)，所以猫目标效果器252c定位在目标效果器窗格262的顶部并且相对于其他动物目标效果器放大。

在各种具体实施中，目标效果器执行一个或多个动作。在一些具体实施中，目标效果器执行一系列动作。在一些具体实施中，浮现内容容器280确定目标效果器要执行的动作。在一些具体实施中，目标效果器的动作与对应人物/事物的动作在一定相似度内。例如，在一些具体实施中，狗目标效果器252a通过追逐汽车、取球等的目标来表征。又如，在一些具体实施中，狮子目标效果器252b通过追逐羚羊、从湖泊饮水等的目标来表征。

在一些具体实施中，猫目标效果器容器264c包括用于操纵猫目标效果器252c的猫操纵示能表示266c，狗目标效果器容器264a包括用于操纵狗目标效果器252a的狗操纵示能表示266a，并且狮子目标效果器容器264b包括用于操纵狮子目标效果器252b的狮子操纵示能表示266b。例如，相应操纵示能表示使得能够实现对应的目标效果器的旋转、改变尺寸和/或改变位置。

在一些具体实施中，浮现内容容器280使得目标效果器能够执行满足目标效果器的目标(例如，一组预定义目标)的动作。在一些具体实施中，第一电子设备201接收用于在浮现内容容器280中实例化目标效果器的输入(例如，用户输入)。在此类具体实施中，在浮现内容容器280中实例化目标效果器之后，浮现内容容器280为目标效果器生成动作。例如，在一些具体实施中，浮现内容容器280合成满足目标效果器的一组预定义目标的动作。在一些具体实施中，浮现内容容器280从一组预定义的动作中选择动作。

在一些具体实施中，浮现内容容器280包括计算机介导的场景。例如，在一些具体实施中，计算机介导的场景形成浮现内容容器280的背景。在一些具体实施中，计算机介导的场景包括虚拟场景，该虚拟场景是真实世界场景的模拟替换。换句话讲，在一些具体实施中，计算机介导的场景由第一电子设备201模拟。在此类具体实施中，计算机介导的场景不同于第一电子设备201所在的真实世界场景。在一些具体实施中，计算机介导的场景包括作为真实世界场景的修改版本的增强场景。例如，在一些具体实施中，第一电子设备201修改(例如，增强)第一电子设备201所位于的真实世界场景以便生成计算机介导的场景。在一些具体实施中，第一电子设备201通过模拟第一电子设备201所在的真实世界场景的复制品来生成计算机介导的场景。在一些具体实施中，第一电子设备201通过从第一电子设备201所在的真实世界场景的模拟复制品移除和/或添加物品来生成计算机介导的场景。

在一些具体实施中，浮现内容容器280基于用户输入来生成。例如，在一些具体实施中，第一电子设备201接收指示用于浮现内容容器280的地形的用户输入。在此类具体实施中，第一电子设备201配置浮现内容容器280，使得浮现内容容器280包括经由用户输入指示的地形。在一些具体实施中，该用户输入指示环境条件。在此类具体实施中，第一电子设备201将浮现内容容器280配置为具有由用户输入指示的环境条件。在一些具体实施中，环境条件包括温度、湿度、压力、可见度、环境光水平、环境声级、一天中的时间(例如，上午、下午、傍晚或夜间)和降水(例如，多云、下雨或下雪)中的一者或多者。

在一些具体实施中，当选择新容器示能表示270时，第一电子设备201创建新的浮现内容容器。因此，在一些具体实施中，第一电子设备201显示多个浮现内容容器(例如，两个或更多个浮现内容，诸如与一个或多个附加浮现内容容器(未示出)相邻的浮现内容容器280)。

参考图2M，第一电子设备201检测对应于猫目标效果器容器264c的位置处的输入260。在图2M的示例中，输入260对应于对在浮现内容容器280中实例化猫目标效果器252c的请求。在图2M的示例中，检测输入260包括检测已选择猫目标效果器容器264c，并且猫目标效果器容器264c正被拖到对应于浮现内容容器280的显示区域中。在一些具体实施中，检测输入260包括检测猫目标效果器容器264c正被拖到浮现内容容器280中。

参考图2N，在检测到图2M所示的输入260之后，第一电子设备201在浮现内容容器280中实例化猫目标效果器252c。在图2N的示例中，浮现内容容器280包括猫目标效果器容器264c，因为正在设置浮现内容容器280。换句话讲，在图2N的示例中，浮现内容容器280处于编辑模式，在编辑模式中，目标效果器正被添加到浮现内容容器280。

如图2N所示，在各种具体实施中，浮现内容容器280包括各种容器示能表示282。在一些具体实施中，容器示能表示282被分组到容器示能表示条中。在各种具体实施中，容器示能表示282允许相对于浮现内容容器280执行各种操作。例如，在一些具体实施中，容器示能表示282包括截屏示能表示282a，该截屏示能表示响应于被选择而捕获浮现内容容器280的图像。在一些具体实施中，容器示能表示282包括共享示能表示282b，该共享示能表示响应于被选择而提供用于与其他设备(例如，同一用户的其他设备和/或其他用户的其他设备)共享浮现内容容器280的选项。

在一些具体实施中，容器示能表示282包括麦克风示能表示282c，该麦克风示能表示响应于被选择而允许第一电子设备201的用户与在浮现内容容器280中实例化的目标效果器进行交互。例如，在一些具体实施中，响应于检测到对麦克风示能表示282c的选择，浮现内容容器280接收音频输入。在此类具体实施中，浮现内容容器280使得在浮现内容容器280中实例化的目标效果器对音频输入作出响应。例如，浮现内容容器280改变实例化的目标效果器响应于音频输入而执行的动作。

在一些具体实施中，容器示能表示282包括扬声器示能表示282d，该扬声器示能表示在被选择时使得第一电子设备201的用户能够控制与浮现内容容器280相关联的音量(例如，使得用户能够收听由在浮现内容容器280中实例化的目标效果器所说的对话)。

在一些具体实施中，容器示能表示282包括内容回放示能表示，诸如倒带示能表示282e、播放示能表示282f和快进示能表示282g。在一些具体实施中，对播放示能表示282f的选择使得浮现内容容器280从编辑模式过渡到播放模式，在该播放模式中，浮现内容容器280中实例化的目标效果器开始执行其相应动作。在一些具体实施中，倒带示能表示282e在被选择时使得由浮现内容容器280显示的内容被倒带。在一些具体实施中，快进示能表示282g在被选择时使得由浮现内容容器280显示的内容被快进。在一些具体实施中，容器示能表示282包括记录示能表示282h，该记录示能表示在被选择时使得由浮现内容容器280显示的内容被记录。

在一些具体实施中，容器示能表示282包括添加目标效果器示能表示282i，该添加目标效果器示能表示在被选择时提供将目标效果器添加到浮现内容容器280的选项。在一些具体实施中，添加目标效果器示能表示282i允许已经在浮现内容容器280中实例化的目标效果器的附加实例被实例化。在一些具体实施中，添加目标效果器示能表示282i允许当前在浮现内容容器280中未实例化的目标效果器的实例被实例化。

在一些具体实施中，容器示能表示282包括重复目标效果器示能表示282j，该重复目标效果器示能表示在被选择时提供重复(例如，复制)已在浮现内容容器280中实例化的目标效果器的选项。在图2N的示例中，对重复目标效果器示能表示282j的选择提供用于重复已在浮现内容容器280中实例化的猫目标效果器252c的选项。

在一些具体实施中，容器示能表示282包括删除目标效果器示能表示282k，该删除目标效果器示能表示在被选择时提供用于删除在浮现内容容器280中实例化的目标效果器的选项。在图2N的示例中，对删除目标效果器示能表示282k的选择提供用于删除已在浮现内容容器280中实例化的猫目标效果器252c的选项。

图3A至图3J是基于对应于语义标识对象的ER示能表示的输入提供ER体验的第一电子设备201的示例。如图3A所示，第一电子设备201显示对应于包括狮子302的第一非结构化视频流的用户界面301。

在一些具体实施中，第一电子设备201通过经由图像传感器获得传递性图像数据来获得第一非结构化视频流，该传递性图像数据包括在第二电子设备上正在显示的第二非结构化视频流的一部分，诸如上文参考图2A至图2N所述。第一非结构化视频流对应于第二非结构化视频流的一部分(例如，一些或全部)。

在一些具体实施中，第一电子设备201独立于传递性图像数据来获得包括狮子302的第一非结构化视频流。换句话讲，第一电子设备201获得第一非结构化视频流，而不利用第一电子设备201的图像传感器来获得传递性图像数据。例如，在一些具体实施中，第一电子设备201从本地存储器(例如，非暂态存储器，诸如本地存储的视频文件)获得和/或从互联网下载(例如，在网站上流式传输)第一非结构化视频流。

在一些具体实施中，第一电子设备201通过生成对应的语义标签值例如“狮子”、“雄性”和“成年”来语义地标识狮子302，如下文所详述。参考图3B，第一电子设备201标识第一非结构化视频流内的狮子302，如对应的对象标识符302a所示。在一些具体实施中，对象标识符302a对应于ER示能表示。本领域的普通技术人员将会理解，对象标识符302a可采用任何形状或形式，包括基于语义标签值的信息性ER内容(例如，“这是成年雄性狮子”)和/或动画，诸如狮子302闪烁、改变颜色和/或相对于物理环境中的物理对象移动(例如，跳到桌子上，诸如图2A至图2N中所示的桌子203)。

在一些具体实施中，第一电子设备201基于针对对象标识符302a的输入来提供ER体验。如图3C所示，第一电子设备201获得对应于对象标识符302a的第一输入306。根据确定第一输入306对应于第一输入类型(例如，力触摸输入或长触摸输入)，第一电子设备201显示对应于图3D中的狮子302的信息性ER内容308。在一些具体实施中，信息性ER内容308基于对应于与狮子302相关联的像素的相应语义标签值。例如，如图3D所示，信息性ER内容308是基于所确定的对应于狮子302的语义标签值“狮子”、“雄性”和“成年”的组合。本领域的普通技术人员将会理解，可呈现其他形式的信息性ER内容，诸如所显示的图像和/或视频，或经由扬声器播放的音频剪辑(例如，预先录制的语音剪辑“这是狮子”)。

如图3E所示，第一电子设备201获得对应于对象标识符302a的第二输入310。根据确定第二输入310对应于与第一输入类型不同的第二输入类型(例如，轻击、双击)，第一电子设备201显示图3F中的动物目标效果器目录312。在一些具体实施中，动物目标效果器目录312类似于图2H至图2K中的动物目标效果器目录252。动物目标效果器目录312包括作为当前选择指示符312d的狮子目标效果器312a，因为经由图3E中的第二输入310选择了狮子302。动物目标效果器目录312还包括狗目标效果器312b和猫目标效果器312c。动物目标效果器目录312还包括目标效果器界面请求示能表示312e，其操作将在下文描述。

如图3G所示，第一电子设备201获得对应于目标效果器界面请求示能表示312e的输入314。响应于获得图3G中的输入314，第一电子设备201将用户界面301从第一非结构化视频流改变为图3H中的目标效果器界面。目标效果器界面包括目标效果器窗格316、新容器示能表示318(如上文参考图2L的新容器270所述)和浮现内容容器320。

目标效果器窗格316包括狮子目标效果器容器330a内的狮子目标效果器312a、狗目标效果器容器330b内的狗目标效果器312b以及猫目标效果器容器330c内的猫目标效果器312c。由于当前选择狮子目标效果器312a(参见图3G中的当前选择指示符312D)，所以狮子目标效果器312a定位在目标效果器窗格316的顶部并且相对于其他动物目标效果器放大。如上文参考图2L所述，在一些具体实施中，狮子目标效果器容器330a包括用于操纵狮子目标效果器312a的狮子操纵示能表示332a，狗目标效果器容器330b包括用于操纵狗目标效果器312b的狗操纵示能表示332b，并且猫目标效果器容器330c包括用于操纵猫目标效果器312c的猫操纵示能表示332c。

参考图3I，第一电子设备201检测对应于狮子目标效果器容器330a的位置处的输入340。在图3I的示例中，输入340对应于对在浮现内容容器320中实例化狮子目标效果器312a的请求。

参考图3J，在检测到图3I所示的输入340之后，第一电子设备201在浮现内容容器320中实例化狮子目标效果器312a。在图3J的示例中，浮现内容容器320包括狮子目标效果器容器330a，因为正在设置浮现内容容器320。换句话讲，在图3J的示例中，浮现内容容器320处于编辑模式，在该编辑模式中，目标效果器正被添加到浮现内容容器280。上文参考图2M和图2N提供了关于实例化目标效果器的附加细节。如图3J所示，在各种具体实施中，浮现内容容器320包括各种容器示能表示322。上文参考图2N提供了关于容器示能表示322及其子部件的附加细节。

图4是根据一些具体实施的示例性操作环境400的框图。尽管示出了相关特征，但本领域的普通技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的示例性具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，物理环境400包括控制器410、头戴式设备(HMD)401和第二电子设备210。

在一些具体实施中，控制器410被配置为管理和协调用户的ER体验。在一些具体实施中，控制器410包括软件、固件和/或硬件的合适组合。在一些具体实施中，控制器410是相对于物理布景405处于本地或远程位置的计算设备。例如，控制器410是位于物理布景405内的本地服务器。在另一示例中，控制器410是位于物理布景405之外的远程服务器(例如，云服务器、中央服务器等)。

在一些具体实施中，控制器410经由一个或多个有线或无线通信信道444(例如，蓝牙、IEEE 802.11x、IEEE 802.16x、IEEE 802.3x等)与第一电子设备201通信地耦接。在一些具体实施中，控制器410经由一个或多个有线或无线通信信道442(例如，蓝牙、IEEE802.11x、IEEE 802.16x、IEEE 802.3x等)与第二电子设备210通信地耦接。在一些具体实施中，HMD 401经由一个或多个有线或无线通信信道446(例如，蓝牙、IEEE 802.11x、IEEE802.16x、IEEE 802.3x等)与第二电子设备210通信地耦接。

参见图4，用户450佩戴的头戴式设备(HMD)401根据各种具体实施呈现(例如，显示)ER环境。在一些具体实施中，HMD 401包括显示ER环境的集成显示器(例如，内置显示器)。在一些具体实施中，HMD 401包括头戴式壳体。在各种具体实施中，头戴式壳体包括附接区，具有显示器的另一设备可附接到该附接区。例如，在一些具体实施中，第一电子设备201可附接到头戴式壳体。在各种具体实施中，头戴式壳体被成形为形成用于接收包括显示器的另一设备(例如，第一电子设备201)的接收器。例如，在一些具体实施中，第一电子设备201滑动/卡扣到头戴式壳体中或以其他方式附接到该头戴式壳体。在一些具体实施中，附接到头戴式壳体的设备的显示器呈现(例如，显示)ER环境。在各种具体实施中，第一电子设备201的示例包括智能电话、平板电脑、媒体播放器、膝上型电脑等。

在各种具体实施中，HMD 401被配置为基于指示用户450的注视位置的眼睛跟踪数据向用户450呈现ER体验。例如，在一些具体实施中，HMD 401包括获得眼睛跟踪数据的一个或多个眼睛跟踪传感器(例如，图1中的眼睛跟踪传感器164)。又如，在一些具体实施中，第一电子设备201滑动到头戴式壳体中或以其他方式附接到头戴式壳体，并且从所述一个或多个眼睛跟踪传感器(例如，图1中的眼睛跟踪传感器164)获得眼睛跟踪数据。在各种具体实施中，第一电子设备201被配置为不依赖于眼睛跟踪数据向用户450呈现ER体验。在一些具体实施中，控制器410和/或第二电子设备210的功能由HMD 401提供和/或与HMD 401结合。

根据一些具体实施，当用户450虚拟地和/或物理地存在于包括一个或多个物理对象(诸如图2A中的桌子230)的物理布景405内时，HMD 401向用户450呈现ER体验。在一些具体实施中，在呈现增强现实(AR)体验时，HMD 401被配置为呈现AR内容并使得能够实现物理布景405的光学透视。在一些具体实施中，在呈现虚拟现实(VR)体验时，HMD 401被配置为呈现VR内容并任选地使得能够实现物理布景405的视频透传。

在一些具体实施中，第二电子设备210被配置为向用户450呈现媒体内容(例如，视频和/或音频内容)。在一些具体实施中，第二电子设备210对应于电视或计算设备，诸如台式计算机、自助服务机、膝上型计算机、平板电脑、移动电话、可穿戴计算设备等。在一些具体实施中，第二电子设备210包括软件、固件和/或硬件的合适组合。

图5是根据一些具体实施的第一电子设备(例如，图2A至图2N和/或图3A至图3J中的第一电子设备201，诸如平板电脑、HMD、头戴式壳体、移动设备等)的示例性数据流程图500。数据流程图500包括促进第一非结构化视频流内一个或多个对象的语义标识的各种部件和/或子系统。第一非结构化视频流为多个像素提供像素值。在一些具体实施中，第一非结构化视频流对应于图像或视频数据，诸如一系列静止图像。

在一些具体实施中，第一电子设备通过利用图像传感器143获得包括在第二电子设备的辅助显示器上正在显示的第二非结构化视频流501的物理环境信息来获得第一非结构化视频流。例如，参考图2A，第一电子设备201获得与物理环境200相关联的信息，该物理环境包括墙壁220、在第二电子设备210(例如，电视)上正在显示的第二非结构化视频流和桌子230。在一些具体实施中，图像传感器143将物理环境信息转换为传递性图像数据502。在一些具体实施中，传递性图像数据502被存储在图像数据存储库504(例如，非暂态存储器)中。在一些具体实施中，实例分割分类器510和合成子系统560各自获得传递性图像数据502。在一些具体实施中，提供给实例分割分类器510的传递性图像数据502对应于像素数据506，包括对应于多个像素值的多个像素。

在一些具体实施中，数据流程图500包括在不利用图像传感器143的情况下获得第一非结构化视频流。例如，在一些具体实施中，第一电子设备从对应于本地非暂态存储器(例如，RAM)的图像数据存储库504获得第一非结构化视频流，诸如播放存储在用户机器的台式计算机上的视频文件。又如，在一些具体实施中，第一电子设备从远程位置获得第一非结构化视频流，诸如来自内容分发网络(CDN)的流式内容，并且提供第一非结构化视频流作为像素数据506。

在一些具体实施中，数据流程图500包括实例分割分类器510。实例分割分类器510生成由第一非结构化视频流提供的所述多个像素的一部分的相应像素表征矢量。生成相应像素表征矢量中的每个像素表征矢量包括确定相应实例标签值。实例标签值提供关于在一个或多个图像中有多少单独的对象的指示，但不传达关于对象的任何含义或理解。例如，三个实例标签值对应于“第一对象”、“第二对象”和“第三对象”，并且分别与狗、椅子和灯相关联。因此，实例标签不提供图像数据的语义表征。作为一个示例，参考图2B，第一电子设备201为对应于狗240的像素生成实例标签值“0”，为对应于太阳242的像素生成实例标签值“1”，并且为对应于树244的像素生成实例标签值“2”。又如，参考图6，像素表征矢量710-1...710-M包括相应的对应实例标签值730a-1...730a-M。在一些具体实施中，实例分割分类器510包括便于生成相应像素表征矢量的第一神经网络510a。在一些具体实施中，图5中的第一神经网络510a对应于图6中的神经网络600。实例分割分类器510向对象标识器520提供包括实例标签值的相应像素表征矢量。

在一些具体实施中，对象标识器520标识所述多个像素的所述一部分内(例如，像素数据506内)与第一实例标签值相关联的第一对象。在一些具体实施中，对象标识器520根据确定第一对象的像素表征矢量满足对象置信度阈值来标识第一对象。例如，在一些具体实施中，当足够小区域中有足够数量的像素与各自包括公共实例标签值(例如，指示相同对象)的相应像素表征矢量相关联时，满足对象置信度阈值。在一些具体实施中，对象标识器520逐个像素地标识对象。换句话讲，对象标识器520将包括在对应像素表征矢量内的标签值分配给每个像素。

在一些具体实施中，对象标识器520将所标识的第一对象和相应的像素表征矢量提供给语义分割分类器530。基于像素数据506，语义分割分类器430生成对应于与第一对象相关联的像素的相应语义标签值。语义分割分类器530将相应的语义标签值添加到与第一对象相关联的像素表征矢量。与实例标签值不同，语义标签值向像素数据506内的像素提供语义表征或含义/理解。在一些具体实施中，语义分割分类器530包括便于生成相应语义标签值的第二神经网络530a。在一些具体实施中，图5中的第二神经网络530a对应于图6中的神经网络600。

作为一个示例，参考图2A至图2N，第一电子设备201为对应于狗240的像素生成语义标签值“金毛猎犬狗”，并且生成对应于该语义标签值的文本ER内容248。在一些具体实施中，第一电子设备将ER内容存储在ER内容数据存储库中，诸如图5中的ER内容数据存储库540。继续先前的示例，第一电子设备201渲染文本ER内容248(例如，经由图5中的渲染子系统550)并将经渲染的文本ER内容与传递性图像数据合成(例如，经由图5中的合成子系统560)。继续该示例，第一电子设备201(例如，经由图5中的ER显示器570)显示图2F中的合成文本ER内容和传递性图像数据。

图6是根据一些具体实施的示例性神经网络600。在图6的示例中，神经网络600包括输入层620、第一隐藏层622、第二隐藏层624、分类层626以及矢量生成器628。虽然作为示例，神经网络600包括两个隐藏层，但是本领域的普通技术人员将从本公开理解，在各种具体实施中，也存在一个或多个附加隐藏层。添加附加隐藏层会增加计算复杂性和存储器需求，但可改善某些应用的性能。

在各种具体实施中，输入层620被耦接(例如，配置)以接收各种输入。例如，在一些具体实施中，输入层620从图像传感器143接收像素数据602(例如，图5中的像素数据506)。在各种具体实施中，输入层620包括多个LSTM逻辑单元620a，这些逻辑单元也被本领域的普通技术人员称为神经元的模型。在一些此类具体实施中，从特征部到LSTM逻辑单元620a的输入矩阵包括矩形矩阵。此矩阵的大小是特征部流中包含的特征部数量的函数。

在一些具体实施中，第一隐藏层622包括多个LSTM逻辑单元622a。在一些具体实施中，LSTM逻辑单元622a的数量在约10个至500个之间的范围内。本领域的普通技术人员将会理解，在此类具体实施中，每层的LSTM逻辑单元的数量比先前已知的方法(约为O(10¹)-O(10²))小几个数量级(约为O(10¹)-O(10²))，这允许此类具体实施被嵌入高度资源受限的设备中。如图6的示例所示，第一隐藏层622从输入层620接收其输入。

在一些具体实施中，第二隐藏层624包括多个LSTM逻辑单元624a。在一些具体实施中，LSTM逻辑单元624a的数量与输入层620中的LSTM逻辑单元620a的数量或第一隐藏层622中的LSTM逻辑单元622a的数量相同或类似。如图6的示例所示，第二隐藏层624从第一隐藏层622接收其输入。附加地或另选地，在一些具体实施中，第二隐藏层624从输入层620接收其输入。

在一些具体实施中，分类层626包括多个LSTM逻辑单元626a。在一些具体实施中，LSTM逻辑单元626a的数量与输入层620中的LSTM逻辑单元620a的数量、第一隐藏层622中的LSTM逻辑单元622a的数量或第二隐藏层624中的LSTM逻辑单元624a的数量相同或类似。在一些具体实施中，分类层626包括产生多个输出的多项式逻辑函数(例如，柔性最大值函数)的具体实施。

在一些具体实施中，矢量生成器628生成像素表征矢量，诸如像素表征矢量710-1...710-M，如图7所示。在一些具体实施中，矢量生成器628通过选择由分类层626提供的前N个候选动作而生成像素表征矢量。在一些具体实施中，前N个候选动作最有可能准确地表征像素数据602中的对应像素。在一些具体实施中，矢量生成器628为特定矢量内的对应标签值生成一组概率或置信度值。

图7是根据一些具体实施的像素表征矢量700的表示。像素表征矢量700的表示包括M个像素表征矢量710-1...710-M。如图7所示，像素表征矢量710-1...710-M中的每个像素表征矢量包括像素标识符(例如，第一像素720-1)、对应的实例标签值和对应的语义标签值。每个像素表征矢量与像素数据的特定像素或像素数据的多个像素相关联。

特定实例标签值用于区分一个对象与另一对象。虽然像素表征矢量710-1...710-M中的每个像素表征矢量包括一个实例标签值，但是在一些具体实施中，像素表征矢量710-1...710-M的一部分各自包括多个实例标签值。例如，在一些具体实施中，与桌子拐角的像素相关联的特定像素表征矢量具有用于桌子的第一实例标签值“0”和用于拐角的第二实例标签值“1”。在一些具体实施中，实例分割分类器诸如图5中的实例分割分类器510生成实例标签值。

另一方面，特定语义标签值提供与像素数据内的对应像素相关联的理解或含义。例如，第二像素表征矢量710-2可与图2A中的狗240的像素相关联，并且包括第一语义标签值730b-2“狗”、第二语义标签值730c-2“棕色”以及第三语义标签值730d-2“金毛猎犬”。在一些具体实施中，语义分割分类器(例如，图5中的语义分割分类器530)生成语义标签值并将语义标签值附加到相应的像素表征矢量。

图8是根据一些具体实施的在语义上标识第一非结构化视频流内的对象的方法800的流程图。在各种具体实施中，方法800或其部分由第一电子设备(例如，图2A至图2N和/或图3A至图3J中的第一电子设备201)执行。在各种具体实施中，方法800或其部分由图5中的数据流程图500和/或图6中的神经网络600执行。在一些具体实施中，方法800由处理逻辑部件(包括硬件、固件、软件或其组合)执行。在一些具体实施中，方法800由执行存储在非暂态计算机可读介质(例如，存储器)中的代码的处理器执行。简而言之，方法800包括通过利用实例分割并且任选地利用语义分割来标识第一非结构化视频流内的一个或多个对象。

如框802所示，方法800包括在第一电子设备处获得为多个像素提供像素值的第一非结构化视频流。在一些具体实施中，像素值是基于不同帧而时变的。

如框804所示，在一些具体实施中，第一非结构化视频流对应于在不同于第一电子设备的第二电子设备的辅助显示器上正在显示的第二非结构化视频流的一部分，如图2A至图2N所示。在一些具体实施中，第一非结构化视频流包括整个第二非结构化视频流，诸如当第一电子设备的图像传感器朝向第二电子设备取向以捕获第二电子设备的整个显示器时。在一些具体实施中，第一非结构化视频流包括整个第二非结构化视频流，诸如当第一电子设备的图像传感器朝向第二电子设备取向以捕获第二电子设备的整个显示器时。在一些具体实施中，第一非结构化视频流包括少于整个第二非结构化视频流，诸如当第一电子设备的图像传感器朝向第二电子设备取向以捕获少于第二电子设备的整个显示器时。在一些具体实施中，第一非结构化视频流对应于非结构化图像的序列或系列。在一些具体实施中，第一非结构化视频流对应于视频数据(例如，.mpeg、.avi等)和/或图像数据(例如，.jpg、.bmp等)。如框806所示，在一些具体实施中，方法800包括经由一个或多个图像传感器获得包括第二非结构化视频流的所述一部分的传递性图像数据。例如，参考图2A，第一电子设备201的后向相机获得与物理环境200相关联的传递性图像数据，该物理环境包括在第二电子设备210上正在显示的第二非结构化视频流211。

如框808所示，在一些具体实施中，方法800包括独立于第一电子设备的图像传感器来获得第一非结构化视频流。例如，在一些具体实施中，第一电子设备从集成在第一电子设备内的本地非暂态存储器(例如，RAM、硬盘驱动器、闪存存储器)获得第一非结构化视频流。又如，在一些具体实施中，第一电子设备的通信接口从远程位置获得第一非结构化视频流，诸如网络接口(例如，网络接口卡(NIC))从互联网获得视频文件。

如框808所示，方法800包括为所述多个像素的一部分生成相应像素表征矢量。如框810所示，生成相应像素表征矢量中的每个像素表征矢量包括确定相应实例标签值。实例标签值提供在图像或视频流中有多少分开的对象的指示。除指示一个对象与另一对象分开之外，实例标签不传达任何含义。

在一些具体实施中，实例分割分类器(例如，图5中的实例分割分类器510)生成相应的像素表征矢量。在一些具体实施中，实例分割分类器利用神经网络(例如，图5中的第一神经网络510a和/或图6中的神经网络600)来生成相应的像素表征矢量。在包括显示第一非结构化视频流的头戴式设备(HMD)的一些具体实施中，神经网络被包括在(例如，集成在)与HMD分开的基座单元中，以便防止HMD由于处理需求而过热。

如框812所示，方法800包括标识所述多个像素的所述一部分内与第一实例标签值相关联的第一对象。第一对象可对应于特征、人、动物等中的一者或多者。在一些具体实施中，第一对象对应于彼此相邻或彼此连续相关联的像素。例如，参考图2B，对应于狗240的右眼的像素与对应于狗240的左眼的像素相邻。在一些具体实施中，对象标识符(例如，图5中的对象标识符620)标识第一对象。

如框814所示，方法800包括生成对应于与第一对象相关联的像素的相应语义标签值。将相应语义标签值添加到与第一对象相关联的像素表征矢量。如框816所示，在一些具体实施中，方法800包括将相应语义标签值附加到与第一对象相关联的像素表征矢量。语义标签值提供关于第一对象的语义指示(例如，理解、含义)。例如，参考图2C和图2D，第一电子设备201生成包括对应于狗240的“金毛猎犬狗”的一个或多个语义标签值，并显示对应的语义指示240b。在一些具体实施中，语义分割分类器(例如，语义分割分类器530)生成相应语义标签值。例如，在一些具体实施中，语义分割分类器利用神经网络(例如，图5中的第二神经网络530a和/或图6中的神经网络600)来生成相应的语义标签值。在包括显示第一非结构化视频流的头戴式设备(HMD)的一些具体实施中，神经网络被包括在与HMD分开的基座单元中，以便防止HMD由于处理需求而过热。

如框818所示，在一些具体实施中，方法800包括标识所述多个像素的所述一部分内的附加对象。在一些具体实施中，方法800包括标识所述多个像素的所述一部分内与不同于第一实例标签值的第二实例标签值相关联的第二对象以及生成对应于第一非结构化视频流中与第二对象相关联的像素的附加语义标签值。将附加语义标签值添加到与第二对象相关联的像素表征矢量。例如，参考图2B，第一电子设备201标识对应于狗240的第一对象，并且标识对应于树244的第二对象。

图9是根据一些具体实施的相对于第一非结构化视频流内的语义标识对象提供ER体验的方法900的流程图。在各种具体实施中，方法900或其部分由第一电子设备(例如，图2A至图2N和/或图3A至图3J中的第一电子设备201)执行。在各种具体实施中，方法900或其部分由图5中的数据流程图500和/或图6中的神经网络600执行。在一些具体实施中，方法900由处理逻辑部件(包括硬件、固件、软件或其组合)执行。在一些具体实施中，方法900由执行存储在非暂态计算机可读介质(例如，存储器)中的代码的处理器执行。简而言之，方法900包括相对于第一非结构化视频流内的语义标识对象提供ER体验。

如框902所示，方法900包括在第一电子设备处通过利用实例标签值来标识第一非结构化视频流内的第一对象，诸如相对于图8所述。如框904所示，方法900包括生成对应于与第一对象相关联的像素的相应语义标签值。

如框906所示，在一些具体实施中，方法900包括经由第一电子设备的主显示器显示对应于第一非结构化视频流中的第一对象的增强现实(ER)内容。在一些具体实施中，ER内容叠置在第一非结构化视频流上。在一些具体实施中，ER内容邻近或靠近第一非结构化视频流内的第一对象叠置。

如框908所示，在一些具体实施中，ER内容基于对应于与第一对象相关联的像素的相应语义标签值。例如，参考图2D，第一电子设备201基于对应于狗240的一个或多个所确定的语义标签值在对应的狗240附近显示文本ER内容“金毛猎犬狗”240b。

如框910表示，在一些具体实施中，ER内容对应于第一ER示能表示。第一ER示能表示是输入可选择的，并且基于对第一ER示能表示的选择，第一电子设备可影响与第一非结构化视频流内的一个或多个所标识对象相关联的ER体验。例如，参考图3B，第一电子设备201在用户界面301内显示对应于第一非结构化视频流内的所标识的狮子302的对象标识符302a。

如框912所示，在一些具体实施中，方法900包括从一个或多个输入设备获得对应于第一ER示能表示的第一输入。在一些具体实施中，方法900包括确定第一输入的输入类型。如框914所示，响应于确定第一输入对应于第一输入类型，方法900继续到方法900的由框916表示的一部分(来自框914的“是”路径)。另一方面，如框918所示，响应于确定第一输入对应于不同于第一输入类型的第二输入类型，方法900继续到方法900的由框920表示的一部分。在一些具体实施中，响应于确定第一输入既不对应于第一输入类型也不对应于第二输入类型，方法900返回到方法900的由框912表示的部分(来自框918的“否”路径)，以便获得附加输入。

如框916所示，在一些具体实施中，响应于确定第一输入对应于第一输入类型(例如，单击输入)，方法900包括经由主显示器显示对应于第一对象的信息性ER内容。信息性ER内容基于对应于与第一对象相关联的像素的相应语义标签值。在一些具体实施中，显示信息性ER内容包括停止显示第一ER示能表示。在一些具体实施中，信息性ER内容基于对应的语义标签值。例如，参考图3D，信息性ER内容308被包括在对应的像素表征矢量内，该像素表征矢量包括值“狮子”作为特定语义标签值。在一些具体实施中，信息性ER内容基于对应像素表征矢量内的特定语义标签值，但不是语义标签值本身。例如，参考图3D，基于语义标签值“狮子”，第一电子设备201诸如通过获得关于语义标签值“狮子”的互联网搜索结果来获得并显示附加信息性ER内容308(例如，“平均寿命：10-14年”)。

另一方面，如框920所示，在一些具体实施中，响应于确定第一输入对应于不同于第一输入类型的第二输入类型(例如，力触摸输入或长触摸输入)，方法900包括经由主显示器基于对应于与第一对象相关联的像素的相应语义标签值显示目标效果器。目标效果器是通过一组预定义目标和一组视觉渲染属性来表征。在一些具体实施中，目标效果器被显示叠置在第一非结构化视频流上。在一些具体实施中，显示目标效果器包括停止显示第一ER示能表示。例如，响应于检测到图2G中对应于第二输入类型的第二输入250，第一电子设备201显示包括图2H中的各个目标效果器的动物目标效果器目录252。

如框922所示，在一些具体实施中，显示目标效果器包括在由上下文信息表征的浮现内容容器中实例化目标效果器。浮现内容容器使得目标效果器能够执行满足该组预定义目标的一组动作。例如，响应于检测到图3I中对应于请求实例化狮子目标效果器容器330a的输入340，第一电子设备201在图3J中的浮现内容容器320中实例化狮子目标效果器312a。

如框924所示，在一些具体实施中，方法900包括修改目标效果器。例如，在一些具体实施中，修改目标效果器包括经由主显示器显示与浮现内容容器相关联的第二ER示能表示，并且响应于经由所述一个或多个输入设备检测到对应于第二ER示能表示的第二输入，修改目标效果器。第二ER示能表示控制浮现内容容器的操作。又如，在一些具体实施中，修改目标效果器包括基于上下文信息和该组预定义目标的特定目标来生成该组动作的动作序列以及经由主显示器基于该动作序列来修改目标效果器。在一些具体实施中，神经网络(例如，图5中的神经网络600)生成该动作序列。例如，参考图2N和图3J，相应的浮现内容容器包括容器示能表示282和322，使得能够修改对应的实例化目标效果器252c和312a。

图10是根据一些具体实施的第一电子设备的示例的框图1000。尽管示出了一些具体特征，但本领域的普通技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，在一些具体实施中，第一电子设备包括一个或多个处理单元(CPU)1001、网络接口1002、一个或多个输入/输出(I/O)设备1003、编程接口1004、存储器1006以及用于互连这些部件和各种其他部件的一条或多条通信总线1005。在一些具体实施中，该一条或多条通信总线1005包括互连系统部件并控制系统部件之间的通信的电路。

存储器1006包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备，并且可包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器1006任选地包括相对于所述一个或多个CPU1001远程定位的一个或多个存储设备。存储器1006包括非暂态计算机可读存储介质。

在一些具体实施中，存储器1006或存储器1006的非暂态计算机可读存储介质存储以下程序、模块和数据结构或其子集，包括任选的操作系统1007、任选地包括第一神经网络1010(例如，图5中的第一神经网络510a)的实例分割分类器1008(例如，图5中的实例分割分类器510)、对象标识器1012(例如，图5中的对象标识器520)、任选地包括第二神经网络1016(例如，图5中的第二神经网络530a)的语义分割分类器1014(例如，图5中的语义分割分类器530)、渲染子系统1018(例如，图5中的渲染子系统550)和合成子系统1020(例如，图5中的合成子系统560)。

在一些具体实施中，实例分割分类器1008为由第一非结构化视频流提供的多个像素的一部分生成相应像素表征矢量。生成相应像素表征矢量中的每个像素表征矢量包括确定相应实例标签值。在一些具体实施中，实例分割分类器1008在生成相应像素表征矢量中利用第一神经网络1010。

在一些具体实施中，对象标识器1012标识所述多个像素的所述一部分内与第一实例标签值相关联的第一对象。

在一些具体实施中，语义分割分类器1014生成对应于与第一对象相关联的像素的相应语义标签值。将相应语义标签值添加到与第一对象相关联的像素表征矢量。在一些具体实施中，语义分割分类器1014在生成语义标签值中利用第二神经网络1016。在一些具体实施中，语义分割分类器1014将相应语义标签值附加到与第一对象相关联的像素表征矢量。

在一些具体实施中，渲染子系统1018渲染叠置在第一非结构化视频流上的ER内容。在一些具体实施中，合成子系统1020将所渲染的ER内容与经由第一电子设备的图像传感器获得的传递性图像数据合成。

此外，图10更多地用作存在于特定具体实施中的各种特征部的功能描述，而不是本文所述的具体实施的结构示意。如本领域的普通技术人员将认识到的，单独显示的项目可以组合，并且一些项目可以分开。例如，图10中单独示出的一些功能模块可以在单个模块中实现，并且单个功能块的各种功能可在各种具体实施中通过一个或多个功能块来实现。模块的实际数量和特定功能的划分以及如何在其中分配特征将根据具体实施而变化，并且在一些具体实施中，部分地取决于为特定实施方案选择的硬件、软件和/或固件的特定组合。

本公开描述了各种特征，其中没有一个特征能够单独实现本文所述的益处。应当理解，本文所述的各种特征可被组合、修改或省略，这对本领域的普通技术人员是显而易见的。本文具体描述的那些之外的其他组合和子组合对于普通技术人员而言将显而易见，并旨在形成本公开的一部分。本文结合各种流程图步骤和/或阶段描述了各种方法。应当理解，在很多情况下，某些步骤和/或阶段可被组合在一起，使得流程图中所示的多个步骤和/或阶段可作为单个步骤和/或阶段来被执行。另外，某些步骤和/或阶段可分成要独立执行的附加子部件。在一些情况下，可重新布置步骤和/或阶段的次序，并且可完全省略某些步骤和/或阶段。另外，本文所述的方法应被理解为可广泛解释的，使得也可执行除本文所示和所述那些之外的附加步骤和/或阶段。

本文所述的一些或所有方法和任务可由计算机系统执行和完全自动化。在一些情况下，计算机系统可包括通过网络进行通信和互操作以执行所述功能的多个不同的计算机或计算设备(例如，物理服务器、工作站、存储阵列等)。每个此类计算设备通常包括处理器(或多个处理器)，该处理器执行存储在存储器或其他非暂态计算机可读存储介质或设备中的程序指令或模块。本文所公开的各种功能可在此类程序指令中实现，但另选地可在计算机系统的专用电路(例如，ASIC或FPGA或GP-GPU)中实现所公开的功能中的一些或全部。在计算机系统包括多个计算设备的情况下，这些设备可位于同一位置或不位于同一位置。可通过将物理存储设备诸如固态存储器芯片和/或磁盘转换成不同状态来持久地存储所公开的方法和任务的结果。

本公开并不旨在限于本文所示的具体实施。对于本领域的技术人员而言，对本公开中描述的具体实施的各种修改可为显而易见的，并且可将本文所定义的一般原理应用于其他具体实施，而不脱离本公开的实质或范围。本文所提供的本发明的教导内容可应用于其他方法和系统，并且不限于上述方法和系统，并且可组合上述各种具体实施的元素和动作以提供更多具体实施。因此，本文描述的新颖方法和系统可以以多种其他形式来实现；此外，在不脱离本公开的实质的情况下，可以对本文所述的方法和系统的形式进行各种省略、替换和改变。所附权利要求及其等同内容旨在涵盖落入本公开的范围和实质内的此类形式或修改形式。

Claims

1.一种方法，所述方法包括：

在包括一个或多个处理器、一个或多个图像传感器和非暂态存储器的第一电子设备处：

获得为多个像素提供像素值的第一非结构化视频流，其中所述第一非结构化视频流对应于在不同于所述第一电子设备的第二电子设备的辅助显示器上正在显示的第二非结构化视频流的一部分，并且其中获得所述第一非结构化视频流包括经由所述一个或多个图像传感器获得包括所述第二非结构化视频流的所述一部分的传递性图像数据；

为所述多个像素的一部分生成相应像素表征矢量，其中生成所述相应像素表征矢量中的每一者包括确定相应实例标签值；

标识所述多个像素的所述一部分内与第一实例标签值相关联的第一对象；以及

生成对应于与所述第一对象相关联的像素的相应语义标签值，其中所述相应语义标签值被添加到与所述第一对象相关联的像素表征矢量。

2.根据权利要求1所述的方法，还包括将所述相应语义标签值附加到与所述第一对象相关联的所述像素表征矢量。

3.根据权利要求1和2中任一项所述的方法，还包括经由所述第一电子设备的主显示器显示对应于所述第一非结构化视频流中的所述第一对象的增强现实(ER)内容，其中所述ER内容叠置显示在所述传递性图像数据上。

4.根据权利要求3所述的方法，其中所述ER内容基于对应于与所述第一对象相关联的所述像素的所述相应语义标签值。

5.根据权利要求3所述的方法，其中所述ER内容对应于第一ER示能表示。

6.根据权利要求5所述的方法，响应于从一个或多个输入设备获得对应于所述第一ER示能表示的第一输入：

根据确定所述第一输入对应于第一输入类型，经由所述主显示器显示对应于所述第一对象的信息性ER内容，其中所述信息性ER内容基于对应于与所述第一对象相关联的所述像素的所述相应语义标签值；以及

根据确定所述第一输入对应于不同于所述第一输入类型的第二输入类型，经由所述主显示器基于对应于与所述第一对象相关联的所述像素的所述相应语义标签值显示目标效果器，其中所述目标效果器通过一组预定义目标和一组视觉渲染属性来表征。

7.根据权利要求6所述的方法，其中显示所述目标效果器包括在由上下文信息表征的浮现内容容器中实例化所述目标效果器，其中所述浮现内容容器使得所述目标效果器能够执行满足所述一组预定义目标的一组动作。

8.根据权利要求7所述的方法，还包括：

经由所述主显示器显示与所述浮现内容容器相关联的第二ER示能表示，其中所述第二ER示能表示控制所述浮现内容容器的操作；以及

响应于经由所述一个或多个输入设备检测到对应于所述第二ER示能表示的第二输入，修改所述目标效果器。

9.根据权利要求7所述的方法，还包括：

基于所述上下文信息和所述一组预定义目标中的特定目标生成所述一组动作中的动作序列；以及

经由所述主显示器基于所述动作序列修改所述目标效果器。

10.根据权利要求1至9中任一项所述的方法，其中所述相应像素表征矢量由实例分割分类器生成。

11.根据权利要求10所述的方法，其中所述相应语义标签值由不同于所述实例分割分类器的语义分割分类器生成。

12.根据权利要求1至11中任一项所述的方法，还包括：

标识所述多个像素的所述一部分内的与不同于所述第一实例标签值的第二实例标签值相关联的第二对象；以及

生成对应于与所述第一非结构化视频流中的所述第二对象相关联的像素的附加语义标签值，其中所述附加语义标签值被添加到与所述第二对象相关联的所述像素表征矢量。

13.根据权利要求1至12中任一项所述的方法，其中所述第一电子设备和所述第二电子设备彼此分开。

14.一种第一电子设备，所述第一电子设备包括：

一个或多个处理器；

非暂态存储器；

一个或多个图像传感器；和

一个或多个程序，其中所述一个或多个程序存储在所述非暂态存储器中并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于以下操作的指令：

15.根据权利要求14所述的第一电子设备，所述一个或多个程序包括用于执行以下操作的指令：

经由所述第一电子设备的主显示器显示对应于所述第一非结构化视频流中的所述第一对象的增强现实(ER)内容，其中所述ER内容叠置显示在所述传递性图像数据上。

16.根据权利要求15所述的第一电子设备，其中所述ER内容对应于第一ER示能表示。

17.根据权利要求16所述的第一电子设备，所述一个或多个程序包括用于执行以下操作的指令：

响应于从包括在所述第一电子设备中的一个或多个输入设备获得对应于所述第一ER示能表示的第一输入：

18.根据权利要求17所述的第一电子设备，其中显示所述目标效果器包括在由上下文信息表征的浮现内容容器中实例化所述目标效果器，其中所述浮现内容容器使得所述目标效果器能够执行满足所述一组预定义目标的一组动作。

19.根据权利要求18所述的第一电子设备，所述一个或多个程序包括用于执行以下操作的指令：

20.一种存储一个或多个程序的非暂态计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由具有一个或多个处理器和一个或多个图像传感器的第一电子设备执行时，使得所述第一电子设备：