CN113168235A

CN113168235A - 注视驱动的视频录制

Info

Publication number: CN113168235A
Application number: CN201980082400.2A
Authority: CN
Inventors: M·努尔卡米; R·德赛
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2018-12-14
Filing date: 2019-12-13
Publication date: 2021-07-23
Also published as: US11825103B2; US10951904B2; US20200195940A1; US11350113B2; EP3894995A2; WO2020123967A2; WO2020123967A3; US20210168387A1; US20220295084A1

Abstract

描述了用于注视驱动的视频录制的系统和方法。一些具体实施可包括访问使用一个或多个注视跟踪传感器捕获的注视数据；将时间滤波器应用于所述注视数据以获得平滑的注视估计；基于所述平滑的注视估计来确定感兴趣区域，其中所述感兴趣区域识别视场的子集；访问视频帧；将所述帧的与所述感兴趣区域相关联的部分录制为增强的视频帧，其中所述帧的所述部分对应于比所述帧更小的视场；以及存储、传输或显示增强的视频帧。

Description

注视驱动的视频录制

技术领域

本公开涉及注视驱动的视频录制。

背景技术

头戴式显示器用于为用户提供虚拟现实、增强现实和/或混合现实体验。可录制来自虚拟现实或混合现实体验的视频以供稍后回放或分析。注视跟踪传感器可用于提供对拍摄人当前正在观看的位置的指示。

发明内容

本文公开了注视驱动的视频录制的具体实施。

在第一方面，本说明书中描述的主题可体现在包括一个或多个注视跟踪传感器、一个或多个图像传感器和处理装置的系统中，该处理装置被配置为：访问使用一个或多个注视跟踪传感器捕获的注视数据；将时间滤波器应用于所述注视数据以获得平滑的注视估计；基于所述平滑的注视估计来确定感兴趣区域，其中所述感兴趣区域识别所述一个或多个图像传感器的视场的子集；访问使用所述一个或多个图像传感器捕获的视频帧；以及基于感兴趣区域将信号处理应用于视频帧以获得增强的视频帧。

在第二方面，本说明书中描述的主题可体现在方法中，该方法包括：访问使用一个或多个注视跟踪传感器捕获的注视数据；将时间滤波器应用于所述注视数据以获得平滑的注视估计；基于所述平滑的注视估计来确定感兴趣区域，其中所述感兴趣区域识别视场的子集；访问视频帧；基于所述感兴趣区域将信号处理应用于所述视频帧以获得增强的视频帧；以及存储、传输或显示增强的视频帧。

在第三方面，本说明书中描述的主题可体现在一种非暂态计算机可读存储介质中。该非暂态计算机可读存储介质可包括可执行指令，该可执行指令在由处理器执行时，使得执行操作，包括访问使用一个或多个注视跟踪传感器捕获的注视数据；将时间滤波器应用于所述注视数据以获得平滑的注视估计；基于所述平滑的注视估计来确定感兴趣区域，其中所述感兴趣区域识别视场的子集；访问视频帧；基于所述感兴趣区域将信号处理应用于所述视频帧以获得增强的视频帧；以及存储、传输或显示增强的视频帧。

在第四方面，本说明书中描述的主题可体现在包括一个或多个注视跟踪传感器、一个或多个图像传感器和处理装置的系统中，该处理装置被配置为：访问使用一个或多个注视跟踪传感器捕获的注视数据；基于所述注视数据来确定感兴趣区域，其中所述感兴趣区域识别所述一个或多个图像传感器的视场的子集；访问使用所述一个或多个图像传感器捕获的视频帧；并且将帧的与感兴趣区域相关联的部分录制为增强的视频帧，其中帧的该部分对应于比帧更小的视场。

在第五方面，本说明书中描述的主题可体现在方法中，该方法包括：访问使用一个或多个注视跟踪传感器捕获的注视数据；基于所述注视数据来确定感兴趣区域，其中所述感兴趣区域识别视场的子集；访问视频帧；将所述帧的与所述感兴趣区域相关联的部分录制为增强的视频帧，其中所述帧的所述部分对应于比所述帧更小的视场；以及存储、传输或显示增强的视频帧。

在第六方面，本说明书中描述的主题可体现在一种非暂态计算机可读存储介质中。该非暂态计算机可读存储介质可包括可执行指令，该可执行指令在由处理器执行时，使得执行操作，包括访问使用一个或多个注视跟踪传感器捕获的注视数据；基于所述注视数据来确定感兴趣区域，其中所述感兴趣区域识别视场的子集；访问视频帧；将所述帧的与所述感兴趣区域相关联的部分录制为增强的视频帧，其中所述帧的所述部分对应于比所述帧更小的视场；以及存储、传输或显示增强的视频帧。

附图说明

在阅读本公开时通过结合附图对以下具体实施方式得以最佳理解。应当强调的是，根据惯例，附图的各种特征部不是成比例的。相反，为了清楚起见，各种特征部的尺寸被任意扩大或缩小。

图1A是用于在具有静态感兴趣区域的混合现实或虚拟现实应用中录制视频的过程的示例的图示。

图1B是用于在具有注视驱动的感兴趣区域的混合现实或虚拟现实应用中录制视频的过程的示例的图示。

图1C是用于在具有平滑的注视驱动的感兴趣区域的混合现实或虚拟现实应用中录制视频的过程的示例的图示。

图2是用于在混合现实或虚拟现实应用中驱动视频录制的注视数据的示例的曲线图。

图3是被配置为启用注视驱动的视频处理的移动计算设备的示例的框图。

图4是被配置为启用注视驱动的视频处理的系统的示例的框图。

图5是被配置为启用注视驱动的视频处理的云服务器的示例的框图。

图6是用于注视驱动的视频处理的过程的示例的流程图。

图7是用于基于注视驱动的感兴趣区域中的对象来注释图像的过程的示例的流程图。

图8是用于基于注视数据和基于所识别的对象的显著性信息的组合来确定感兴趣区域的过程的示例的流程图。

具体实施方式

本文描述了一种系统和方法，该系统和方法提供注视驱动的信号处理以促进混合现实或虚拟现实应用，诸如混合现实录制。在混合现实录制中，可录制用户看到的一部分。用户看到的该部分(例如，包括使用安装在头戴式显示器上的一个或多个图像传感器捕获的经由头戴式显示器呈现给用户的视频帧和/或周围环境的视频帧)可被称为录制框。录制框可以是相对于视频输入的固定区域，但是随后用户可能正在查看该区域之外的录制将错过的感兴趣内容。本文提出的系统通过跟踪用户的注视来识别感兴趣区域，并在用户的注视移动时移动录制框。一个此类示例可以是注视位于录制框的中心，从而使录制框包含在原始帧中。录制框可以是各种形状，包括例如椭圆形、六边形或矩形等等。移动具有注视中心点的录制框可导致视频抖动。一些具体实施在注视中心点的上方运行平滑或稳定算法，以避免所录制的视频中的抖动并获得更愉快的录制体验。该想法包含除了混合现实录制以外的用例，诸如在感兴趣区域中运行特征提取；以及可变位分配，在感兴趣的区域中较高并且在周围区域中较低。

一些具体实施可提供优于早期视频编码系统的优点，诸如将计算资源(例如，存储器、带宽和/或处理器周期)更有效地聚焦在用户注视的视频的一部分上。一些具体实施可使得能够以更有效地表示用户的实际体验的方式录制混合现实或虚拟现实体验。

图1A是用于在具有静态感兴趣区域的混合现实或虚拟现实应用中录制视频的过程100的示例的图示。过程100将视频帧序列(110,112,114和116)作为输入并录制被称为录制框的视频帧的相应部分(120,122,124和126)。例如，视频帧(110,112,114和116)可包括使用一个或多个图像传感器捕获的视频数据(例如，包括用户附近的物理环境的图像)和/或向用户显示(例如，使用头戴式显示器或智能电话或平板电脑的触摸屏显示器显示)的虚拟环境的虚拟对象的图像。在该示例中，视频帧的部分(120,122,124和126)对应于静态感兴趣区域，其中录制框各自是位于视频的相应帧(110,112,114和116)的中心处的像素矩形。

从视频帧(110,112,114和116)中提取部分(120,122,124和126)，并且将这些部分(120,122,124和126)录制为静态视图视频130。例如，静态视图视频130可以是mp4文件，并且录制静态视图视频130可包括将视频帧的部分(120,122,124和126)作为输入传递到编码器以进行压缩，以准备存储和/或传输所得的静态视图视频130。静态视图视频130可能无法在原始视频帧(110,112,114和116)的捕获和/或呈现期间考虑用户的注视或焦点的变化，因此其可能无法准确地表示用户的混合现实或虚拟现实体验。

录制固定区域可能并不理想。用户正在观看的有趣事物可能发生在录制框之外，因此无法在录制中捕获。相反，可使用来自注视跟踪传感器的注视数据动态地识别感兴趣区域，并且可在用户的注视移动时移动录制框。在一些具体实施中，可确定感兴趣区域和录制框，使得注视处于录制框的中心，从而使录制框包含在原始帧中。例如，如果注视停留在视频帧的边缘或更远，则录制框可被设置在帧边缘上的最近位置处，在此处，录制框仍然是全尺寸的。录制框可以采用许多不同的形状，诸如椭圆形、六边形或矩形。

图1B是用于在具有注视驱动的感兴趣区域的混合现实或虚拟现实应用中录制视频的过程140的示例的图示。过程140将视频帧序列(110,112,114和116)作为输入并录制被称为录制框的视频帧的相应部分(150,152,154和156)。在该示例中，视频帧的部分(150,152,154和156)在不同时间对应于感兴趣区域，其中录制框各自是在视频帧(110,112,114和116)的捕获和/或呈现期间位于用户注视方向的当前估计附近的中心处的像素矩形。例如，在时间上对应于帧110的用户的注视数据可指示用户正在与视频帧110的左上部分对应的方向上注视。基于该注视数据，视频帧110的部分150可被选择用于录制。例如，在时间上对应于帧112的用户的注视数据可指示用户正在与帧112的右上部分对应的方向上注视。基于该注视数据，视频帧112的部分152可被选择用于录制。例如，在时间上对应于帧114的用户的注视数据可指示用户正在与帧114的左下部分对应的方向上注视。基于该注视数据，视频帧114的部分154可被选择用于录制。例如，在时间上对应于帧116的用户的注视数据可指示用户正在与帧116的右下部分对应的方向上注视。基于该注视数据，视频帧116的部分156可被选择用于录制。因此，基于注视数据确定的感兴趣区域以及对应的部分或录制框可在视频帧(110,112,114和116)序列中的相邻帧之间大幅度跳动，这可导致录制用户的混合现实或虚拟现实体验时发生抖动。

从视频帧(110,112,114和116)中提取部分(150,152,154和156)，并且将这些部分(150,152,154和156)录制为抖动视图视频160。例如，抖动视图视频160可以是mp4文件，并且录制抖动视图视频160可包括将视频帧的部分(150,152,154和156)作为输入传递到编码器以用于压缩，以准备存储、传输和/或显示所得的抖动视图视频160。抖动视图视频160可在原始视频帧(110,112,114和116)的捕获和/或呈现期间考虑用户的注视或焦点的变化，但由于用户围绕场景的精细快速的眼睛移动而引起的抖动和/或用户的注视数据中的噪声，可能令该抖动视图视频看起来不舒服。

例如，过程140可包括访问使用一个或多个注视跟踪传感器捕获的注视数据以及基于注视数据来确定感兴趣区域。感兴趣区域可识别视场的子集。例如，过程140可包括访问视频帧并将帧的与感兴趣区域相关联的部分录制为增强的视频帧，其中帧的该部分对应于比帧更小的视场。例如，过程140可包括存储、传输或显示增强的视频帧。

在一些具体实施中，可运行平滑或稳定算法以处理来自注视数据的注视中心点序列，以避免所录制的视频中的抖动，从而获得更愉快的录制体验。

图1C是用于在具有平滑的注视驱动的感兴趣区域的混合现实或虚拟现实应用中录制视频的过程170的示例的图示。过程170将视频帧序列(110,112,114和116)作为输入并录制被称为录制框的视频帧的相应部分(180,182,184和186)。在该示例中，视频帧的部分(180,182,184和186)在不同时间对应于感兴趣区域，其中录制框各自是在视频帧(110,112,114和116)的捕获和/或呈现期间位于用户注视方向的平滑估计附近的中心处的像素矩形。例如，在时间上对应于帧110的用户的平滑的注视估计可指示用户正在与帧110的左上部分对应的方向上注视。基于该平滑的注视估计，视频帧110的部分180可被选择用于录制。例如，在时间上对应于帧112的用户的平滑的注视估计可指示用户在与稍微高于帧112的中心并位于中心左侧的部分182对应的方向上注视，这可以是针对接近帧112时间的时间窗口的来自注视数据的注视位置的插值。基于该平滑的注视估计，视频帧112的部分182可被选择用于录制。例如，在时间上对应于帧114的用户的平滑的注视估计可指示用户在与稍微高于帧114的中心并位于中心左侧的部分184对应的方向上注视，这可以是针对接近帧114时间的时间窗口的来自注视数据的注视位置的插值。基于该平滑的注视估计，视频帧114的部分184可被选择用于录制。例如，在时间上对应于帧116的用户的平滑的注视估计可指示用户在与帧116的右下部分对应的方向上注视，这可以是针对接近帧116时间的时间窗口的来自注视数据的注视位置的插值。基于该平滑的注视估计，视频帧116的部分186可被选择用于录制。因此，基于平滑的注视估计的感兴趣区域以及对应的部分序列或录制框可在与用户注视的延长的关注时间段对应的视频帧(110,112,114和116)的不同区域之间平滑过渡。感兴趣区域的该平滑演变可导致用户的混合现实或虚拟现实体验的平滑录制。

从视频帧(110,112,114和116)中提取部分(180,182,184和186)，并且将这些部分(180,182,184和186)录制为平滑视图视频190。例如，平滑视图视频190可以是mp4文件，并且录制平滑视图视频190可包括将视频帧的部分(180,182,184和186)作为输入传递到编码器以进行压缩，以准备存储和/或传输所得的平滑视图视频190。平滑视图视频190可在原始视频帧(110,112,114和116)的捕获和/或呈现期间考虑用户的注视或焦点的变化，同时抑制注视数据中的噪声并提供用户的混合现实或虚拟现实体验的有用表示。

图2是用于在混合现实或虚拟现实应用中驱动视频录制的注视数据200的示例的曲线图。用注视中心对帧数来绘制注视数据，以示出在混合现实或虚拟现实体验期间所测量的注视的演变。为简单起见，注视中心被表示为一维的(例如，在输入视频的捕获和/或呈现期间的检测到的用户注视的水平偏移或竖直偏移)，但注视中心可演变，并且通常确实在两个维度上演变。实心黑点表示来自具有注视跟踪算法的注视跟踪传感器的注视中心数据点。空心圆点表示内插的注视位置，该内插注视位置已使用时间滤波来确定，以在时间上内插附近的数据点，从而确定平滑的注视估计。图2示出了注视数据的线性插值，但也可使用其他类型的插值。当帧的对应注视数据离附近时间或帧的数据太远时，内插注视位置可用作帧的平滑的注视估计。在曲线图上绘制的曲线示出了可用于识别演变的感兴趣区域的注视中心估计序列的示例，其可用于录制用户的混合现实或虚拟现实体验。

图3为移动计算设备300的示例的框图，该移动计算设备被配置为启用注视驱动的信号处理以促进混合现实或虚拟现实应用，诸如混合现实录制。移动计算设备300包括处理装置310、数据存储设备320、一个或多个注视跟踪传感器330、一个或多个图像传感器340、显示器350、网络接口360和可供处理装置310用来访问其他部件的互连件370。移动计算设备300可被配置为基于用户的注视数据来确定用户的感兴趣区域，并且执行信号处理以增强与感兴趣区域对应的视频的一部分。例如，移动计算设备300可被配置为实现图6的过程600。例如，移动计算设备300可被配置为实现图7的过程700。例如，移动计算设备300可被配置为实现图8的过程800。

处理装置310可操作为执行已存储在数据存储设备320中的指令。在一些具体实施中，处理装置310是具有随机存取存储器的处理器，用于在执行指令时临时存储从数据存储设备320读取的指令。处理装置310可包括单个或多个处理器，每个处理器具有单个或多个处理核心。另选地，处理装置310可包括能够操纵或处理数据的另一种类型的设备或多个设备。例如，数据存储设备320可为非易失性信息存储设备，诸如硬盘驱动器、固态驱动器、只读存储器设备(ROM)、光盘、磁盘或者任何其他合适类型的存储设备诸如非暂态计算机可读存储器。数据存储设备320可包括能够存储用于由处理装置310检索或处理的数据的另一种类型的设备或多个设备。处理装置310可经由互连件370访问和操纵存储在数据存储设备320中的数据。例如，数据存储设备320可存储可由处理装置310执行的指令，该指令在由处理装置310执行时使处理装置310执行操作(例如，实现图6的过程600的操作)。在一些具体实施中，处理装置310和数据存储设备320附接到显示器350。

一个或多个注视跟踪传感器330可被配置为检测用户眼睛的注视。例如，一个或多个注视跟踪传感器330可包括一个或多个图像传感器，该图像传感器可检测各种光谱(例如，红外光谱或可见光谱)和/或光源(例如，照射在用户眼睛处的红外光源)中的光。例如，一个或多个注视跟踪传感器330还可包括用于利用注视跟踪算法处理原始图像数据以生成注视数据的硬件和/或软件(例如，注视跟踪软件)，该注视数据包括注视点序列，每个注视点指定被观察用户的当前注视的方向或焦点。在一些具体实施中，一个或多个注视跟踪传感器330耦接(例如，附接)到显示器350(例如，头戴式显示器或平板电脑或智能电话的触摸屏显示器)。例如，一个或多个注视跟踪传感器330可被安装在该头戴式显示器的紧固制品(例如，眼镜框架或护目镜)上以使其指向佩戴头戴式显示器的用户的眼睛。例如，一个或多个注视跟踪传感器330可包括平板电脑或智能电话的前向相机，该前向相机被安装为使其指向握持设备并查看其触摸屏显示器的用户的眼睛。在一些具体实施中，可基于来自一个或多个注视跟踪传感器330的注视数据来确定在所附接的图像传感器或显示器的坐标中的用户的注视方向。

一个或多个图像传感器340可被配置为捕获图像，将入射在一个或多个图像传感器340上的光转换成一个或多个数字图像。在一些具体实施中，一个或多个图像传感器340耦接(例如，附接)到显示器350(例如，头戴式显示器)。一个或多个图像传感器340可检测特定光谱(例如，可见光谱和/或红外光谱)的光，并将构成图像的信息作为电信号(例如，模拟或数字信号)传送。例如，一个或多个图像传感器340可包括感测元件阵列，每个感测元件可用于输出表示入射光的信号作为具有表示所捕获场景的像素阵列的图像(例如，限定图像传感器所在的真实世界环境的图片)。例如，一个或多个图像传感器340可包括互补金属氧化物半导体(CMOS)中的电荷耦合器件(CCD)或有效像素传感器。在一些具体实施中，一个或多个图像传感器340包括模数转换器。例如，一个或多个图像传感器340可包括红外相机和可见光相机。一个或多个图像传感器340可包括被配置为捕获移动计算设备300附近的图像的图像传感器。在一些具体实施中，一个或多个图像传感器340包括围绕设备(例如，头戴式显示器410)布置的图像传感器阵列，以提供跨越广角的集合视场。例如，一个或多个图像传感器340可被布置为提供头戴式显示器周围区域的全景视图(例如，360度全景视图)。例如，一个或多个图像传感器340可通过相应的透镜(例如，鱼眼透镜或直线透镜)接收光。

显示器350包括屏幕、透镜或其他类型的光学组件，其被配置为将光引导到用户的眼睛，以使得能够向用户呈现图像(例如，视频帧)。例如，显示器350可包括触摸屏显示器，其中移动计算设备300为智能电话或平板电脑。在一些具体实施中，显示器350包括可通过紧固件(例如，头带或框架)保持在用户面部的适当位置的头戴式显示器(例如，智能眼镜)。在一些具体实施中，显示器350的屏幕直接定位在用户眼睛的前方。在一些具体实施中，显示器350包括光学组件(例如，透镜和/或反射镜)，其直接定位在用户眼睛的前方并且被配置为将来自显示器350的屏幕或投影仪的光引导到用户的眼睛。光学组件还可将来自用户周围环境的光引导到用户的眼睛。例如，光学组件可包括应用于透明遮阳板内表面的部分反射偏振膜。光学组件可用作光学组合器。例如，光学组件的透镜还可允许来自用户前方环境的光通过透镜以到达用户的眼睛并允许用户在他或她前面看到，同时在由覆盖在用户前方物理环境的视图上的显示器350呈现的图像中描绘虚拟环境的对象。

网络接口360促进与其他设备诸如云服务器的通信。例如，网络接口360可促进经由通信网络的通信。例如，网络接口360可促进经由Wi-Fi网络、蜂窝网络和/或有线网络的通信。例如，网络接口360可促进经由WiMAX网络的通信。例如，网络接口360可促进经由光纤网络的通信。

例如，互连件370可以是系统总线，或者有线或无线网络(例如，体域网)。

处理装置310可被配置为启用注视驱动的信号处理以促进混合现实或虚拟现实应用，诸如混合现实录制。例如，处理装置310可被配置为访问使用一个或多个注视跟踪传感器330捕获的注视数据，将时间滤波器应用于注视数据以获得平滑的注视估计，以及基于平滑的注视估计来确定感兴趣区域。例如，感兴趣区域可识别一个或多个图像传感器340的视场的子集。例如，处理装置310可被配置为访问使用一个或多个图像传感器340捕获的视频帧，以及基于感兴趣区域将信号处理应用于视频帧以获得增强的视频帧。例如，处理装置310可被配置为将帧的与感兴趣区域相关联的部分录制为增强的视频帧。例如，帧的该部分可对应于比帧更小的视场。例如，处理装置310可被配置为使用以下方法对帧进行编码：针对与感兴趣区域相关联的帧的第一部分，使用第一个每像素比特分配，并且针对该帧的第一部分之外的帧的一个或多个相应部分，使用比第一个每像素比特分配低的一个或多个每像素比特分配。例如，处理装置310可被配置为将计算机视觉处理应用于帧的与感兴趣区域相关联的部分，以检测出现在帧的该部分中的对象并确定对象的分类。例如，帧的该部分可对应于比帧更小的视场。例如，处理装置310可被配置为基于分类生成注释，并且将注释叠加在视频帧上以获得增强的视频帧。例如，显示器350可包括附接到一个或多个注视跟踪传感器330和一个或多个图像传感器340的头戴式显示器。例如，头戴式显示器可被配置为显示增强的视频帧。在一些具体实施中，时间滤波器包括卡尔曼滤波器。在一些具体实施中，时间滤波器包括注视数据在时间窗口中的移动平均值。例如，处理装置310可被配置为通过在时间窗口中将曲线拟合到注视数据来将时间滤波器应用于注视数据以获得平滑的注视估计。例如，处理装置310可被配置为通过以下方式基于平滑的注视估计来确定感兴趣区域：对视频帧应用计算机视觉处理以对出现在视频帧中的对象进行检测和分类，从而获得视频帧内与该对象相关联的位置；基于所述平滑的注视估计和所述对象的所述位置来确定所述感兴趣区域的成本函数的值；以及基于成本函数的值确定感兴趣区域。

图4为系统400的示例的框图，该系统被配置为启用注视驱动的信号处理以促进混合现实或虚拟现实应用，诸如混合现实录制。系统400包括头戴式显示器410和经由无线通信链路425通信的计算设备450。头戴式显示器410包括一个或多个注视跟踪传感器412、一个或多个图像传感器414、无线通信接口416、显示器422、可供头戴式显示器的部件可交换信息的互连件418(例如，在头戴式显示器410中的微控制器或其他处理装置的控制下，图4中未示出)，以及紧固制品420，该紧固制品被配置为将头戴式显示器410保持在佩戴该头戴式显示器410的用户的头部的适当位置。计算设备450包括处理装置460、数据存储设备470、无线通信接口480、用户界面490、网络接口492，以及处理装置460可通过其访问计算设备450的其他部件的互连件494。计算设备450可位于佩戴头戴式显示器410的用户附近，并且可执行计算任务以控制头戴式显示器410。例如，计算设备450可以是用户所在的房间中的桌子上的智能电话、平板电脑、台式计算机或家电(例如，智能电视或智能扬声器)，或者计算设备450可以是佩戴在用户的不同身体部位(例如，计算设备450可与胸部所穿的背心集成)的另一可穿戴设备。系统400可被配置为基于用户的注视数据来确定用户的感兴趣区域，并且执行信号处理以增强与感兴趣区域对应的视频的一部分。例如，系统400可被配置为实现图6的过程600。例如，系统400可被配置为实现图7的过程700。例如，系统400可被配置为实现图8的过程800。

一个或多个注视跟踪传感器412可被配置为检测用户眼睛的注视。例如，一个或多个注视跟踪传感器412可包括一个或多个图像传感器，该图像传感器可检测各种光谱(例如，红外光谱或可见光谱)和/或光源(例如，照射在用户眼睛处的红外光源)中的光。例如，一个或多个注视跟踪传感器412还可包括用于利用注视跟踪算法处理原始图像数据以生成注视数据的硬件和/或软件(例如，注视跟踪软件)，该注视数据包括注视点序列，每个注视点指定被观察用户的当前注视的方向或焦点。在一些具体实施中，一个或多个注视跟踪传感器412耦接(例如，附接)到显示器422。例如，一个或多个注视跟踪传感器412可被安装在该头戴式显示器410的紧固制品420(例如，眼镜框架或护目镜)上以使其指向佩戴头戴式显示器410的用户的眼睛。在一些具体实施中，可基于来自一个或多个注视跟踪传感器412的注视数据来确定在所附接的图像传感器或显示器的坐标中的用户的注视方向。

头戴式显示器410包括一个或多个图像传感器414。一个或多个图像传感器414可被配置为捕获图像，将入射在一个或多个图像传感器414上的光转换成一个或多个数字图像。一个或多个图像传感器414被耦接(例如，附接)到头戴式显示器410。一个或多个图像传感器414可检测特定光谱(例如，可见光谱和/或红外光谱)的光，并将构成图像的信息作为电信号(例如，模拟或数字信号)传送。例如，一个或多个图像传感器414可包括互补金属氧化物半导体(CMOS)中的电荷耦合器件(CCD)或有效像素传感器。在一些具体实施中，一个或多个图像传感器414包括模数转换器。例如，一个或多个图像传感器414可包括感测元件阵列，每个感测元件可用于输出表示入射光的信号作为具有表示所捕获场景的像素阵列的图像(例如，限定图像传感器所在的真实世界环境的图片)。例如，一个或多个图像传感器414可包括红外相机和可见光相机。一个或多个图像传感器414可包括被配置为捕获头戴式显示器410附近的图像的图像传感器。在一些具体实施中，一个或多个图像传感器414包括围绕头戴式显示器410布置的图像传感器阵列，以提供跨越广角的集体视野。例如，一个或多个图像传感器414可被布置为提供头戴式显示器410周围区域的全景视图(例如，360度全景视图)。例如，一个或多个图像传感器414可通过相应的透镜(例如，鱼眼透镜或直线透镜)接收光。

头戴式显示器410包括无线通信接口416。无线通信接口416促成与包括计算设备450的其他设备的通信。例如，无线通信接口416可促成经由Wi-Fi网络、蓝牙链路或ZigBee链路的通信。在一些具体实施中，无线通信接口416可用于从计算设备450接收数据和/或调用使用显示器422对虚拟环境的视图进行的呈现的指令。在一些具体实施中，无线通信接口416可用于将来自一个或多个注视跟踪传感器412的传感器数据和/或使用一个或多个图像传感器414捕获的图像传输至计算设备450。

头戴式显示器410包括显示器422。显示器422可被配置为呈现图像，从而将数字图像转换为从显示器422投射的光。显示器422可使用投射可见光谱中的光的像素阵列来投射光。显示器422可包括屏幕、透镜，或者被配置为将光引导到佩戴头戴式显示器410的用户的眼睛以使得能够向用户呈现图像(例如，视频帧)的其他类型的光学组件。例如，显示器422可包括屏幕，诸如液晶显示器(LCD)、发光二极管(LED)显示器(例如，OLED显示器)或其他合适的屏幕。例如，显示器422可包括投影仪。在一些具体实施中，显示器422的屏幕定位在用户眼睛的正前方。在一些具体实施中，显示器422包括光学组件(例如，透镜和/或反射镜)，其定位在用户眼睛的正前方并被配置为将来自显示器422的屏幕或投影仪的光引导到用户的眼睛。光学组件还可将来自用户周围环境的光引导到用户的眼睛。例如，光学组件可包括应用于透明遮阳板内表面的部分反射偏振膜。光学组件可用作光学组合器。例如，光学组件的透镜还可允许来自用户前方物理环境的光通过透镜以到达用户的眼睛并允许用户在他或她前面看到，同时在由覆盖在用户前方物理环境的视图上的显示器422呈现的图像中描绘虚拟环境的对象。在一些具体实施中，可调整光学组件(例如，透镜)的透明度以适合混合现实应用(例如，虚拟现实应用或增强现实应用)。

例如，互连件418可为系统总线，或者有线或无线网络(例如，体域网)。

头戴式显示器410包括紧固件420。紧固件420可被配置为当用户佩戴头戴式显示器410时将头戴式显示器410保持在用户的头部上的适当位置。例如，紧固件420可包括头带。例如，紧固件420可包括具有臂的框架，该臂搁置在用户的耳朵上并且将显示器422的透镜或屏幕保持在用户眼睛的前方。

计算设备450包括处理装置460。处理装置460可操作为执行已经存储在数据存储设备470中的指令。在一些具体实施中，处理装置460是具有随机存取存储器的处理器，用于在执行指令时临时地存储从数据存储设备470读取的指令。处理装置460可包括单个或多个处理器，每个处理器具有单个或多个处理核心。另选地，处理装置460可包括能够操纵或处理数据的另一类型的设备或多个设备。例如，数据存储设备470可为非易失性信息存储设备，诸如硬盘驱动器、固态驱动器、只读存储器设备(ROM)、光盘、磁盘，或者任何其他合适类型的存储设备诸如非暂态计算机可读存储器。数据存储设备470可包括能够存储用于由处理装置460检索或处理的数据的另一类型的设备或多个设备。处理装置460可经由互连件494访问和操纵存储在数据存储设备470中的数据。例如，数据存储设备470可存储可由处理装置460执行的指令，该指令在由处理装置460执行时使处理装置460执行操作(例如，实现图6的过程600的操作)。

计算设备450包括无线通信接口480。无线通信接口480促进与包括头戴式显示器410的其他设备的通信。例如，无线通信接口480可促成经由Wi-Fi网络、蓝牙链路或ZigBee链路的通信。无线通信接口480可用于与头戴式显示器410建立无线通信链路425。在一些具体实施中，无线通信接口480可用于从头戴式显示器410接收传感器数据(例如，运动传感器数据和/或图像)。在一些具体实施中，无线通信接口480可用于向头戴式显示器410传输数据和/或调用使用显示器422对虚拟环境的视图进行的呈现的指令。

在图4的示例中，计算设备450包括用户界面490。例如，用户界面490可包括触摸屏显示器。例如，用户界面490可包括被配置为接收语音命令的麦克风。例如，用户界面490可包括被配置为检测手势命令的图像传感器。例如，用户界面490可包括键盘、鼠标、操纵杆和/或另一种手持控制器。例如，用户界面490可使用户(例如，佩戴头戴式显示器410的用户)向在计算设备450上运行的增强现实应用输入命令和/或改变与增强现实应用的虚拟环境的对象相关联的过程的配置。

计算设备450包括网络接口492。网络接口492促进与其他设备诸如云服务器的通信。例如，网络接口492可促进经由通信网络的通信。例如，网络接口492可促进经由Wi-Fi网络、蜂窝网络和/或有线网络的通信。例如，网络接口492可促进经由WiMAX网络的通信。例如，网络接口492可促进经由光纤网络的通信。

例如，互连件494可为系统总线，或者有线或无线网络(例如，体域网)。

处理装置460可被配置为启用注视驱动的信号处理以促进混合现实或虚拟现实应用，诸如混合现实录制。例如，处理装置460可被配置为访问使用一个或多个注视跟踪传感器412捕获的注视数据，将时间滤波器应用于注视数据以获得平滑的注视估计，以及基于平滑的注视估计来确定感兴趣区域。例如，感兴趣区域可识别一个或多个图像传感器414的视场的子集。例如，处理装置460可被配置为访问使用一个或多个图像传感器414捕获的视频帧，以及基于感兴趣区域将信号处理应用于视频帧以获得增强的视频帧。例如，处理装置460可被配置为将帧的与感兴趣区域相关联的部分录制为增强的视频帧。例如，帧的该部分可对应于比帧更小的视场。例如，处理装置460可被配置为使用以下方法对帧进行编码：针对与感兴趣区域相关联的帧的第一部分，使用第一个每像素比特分配，并且针对该帧的第一部分之外的帧的一个或多个相应部分，使用比第一个每像素比特分配低的一个或多个每像素比特分配。例如，处理装置460可被配置为将计算机视觉处理应用于帧的与感兴趣区域相关联的部分，以检测出现在帧的该部分中的对象并确定对象的分类。例如，帧的该部分可对应于比帧更小的视场。例如，处理装置460可被配置为基于分类生成注释，并且将注释叠加在视频帧上以获得增强的视频帧。例如，头戴式显示器410可被配置为显示增强的视频帧。在一些具体实施中，时间滤波器包括卡尔曼滤波器。在一些具体实施中，时间滤波器包括注视数据在时间窗口中的移动平均值。例如，处理装置460可被配置为通过在时间窗口中将曲线拟合到注视数据来将时间滤波器应用于注视数据以获得平滑的注视估计。例如，处理装置460可被配置为通过以下方式基于平滑的注视估计来确定感兴趣区域：对视频帧应用计算机视觉处理以对出现在视频帧中的对象进行检测和分类，从而获得视频帧内与该对象相关联的位置；基于所述平滑的注视估计和所述对象的所述位置来确定所述感兴趣区域的成本函数的值；以及基于成本函数的值确定感兴趣区域。

在一些具体实施中(图4中未示出)，用于混合现实或虚拟现实应用的处理可分布在头戴式显示器410中的处理装置与处理装置460之间。例如，可在头戴式显示器410的处理装置上运行模拟过程以减少对虚拟环境的视图的更新的延迟，而与虚拟环境中的对象相关联的一个或多个过程可在处理装置460上运行以更新对象的状态。在一些具体实施中，可经由头戴式显示器410和计算设备450之间的无线通信链路425来传输现实片段。因此，头戴式显示器410的处理装置和处理装置460可作为分布在头戴式显示器410和计算设备450之间的单个处理装置运行，该单个处理装置运行混合现实或虚拟现实应用并实现本文所述的过程(例如，图6的过程600)。

图5为云服务器500的示例的框图，该云服务器被配置为启用注视驱动的信号处理以促进混合现实或虚拟现实应用，诸如混合现实录制。云服务器500包括处理装置510、数据存储设备520、网络接口530、用户界面540和可供处理装置510用来访问其他部件的互连件570。云服务器500可被配置为基于用户的注视数据来确定用户的感兴趣区域，并且执行信号处理以增强与感兴趣区域对应的视频的一部分。例如，云服务器500可被配置为实现图6的过程600。

处理装置510可用于执行已存储在数据存储设备520中的指令。在一些具体实施中，处理装置510是具有随机存取存储器的处理器，用于在执行指令时临时存储从数据存储设备520读取的指令。处理装置510可包括单个或多个处理器，每个处理器具有单个或多个处理核心。另选地，处理装置510可包括能够操纵或处理数据的另一种类型的设备或多个设备。例如，数据存储设备520可为非易失性信息存储设备，诸如硬盘驱动器、固态驱动器、只读存储器设备(ROM)、光盘、磁盘，或者任何其他合适类型的存储设备诸如非暂态计算机可读存储器。数据存储设备520可包括能够存储用于由处理装置510检索或处理的数据的另一种类型的设备或多个设备。处理装置510可经由互连件570访问和操纵存储在数据存储设备520中的数据。例如，数据存储设备520可存储可由处理装置510执行的指令，该指令在由处理装置510执行时使处理装置510执行操作(例如，实现图6的过程600的操作)。

网络接口530促进与其他设备，例如移动计算设备300或头戴式显示器410的通信。例如，网络接口530可促进经由通信网络的通信。例如，网络接口530可促进经由Wi-Fi网络、蜂窝网络和/或有线网络的通信。例如，网络接口530可促进经由WiMAX网络的通信。例如，网络接口530可促进经由光纤网络的通信。

在图5的示例中，云服务器500包括用户界面540。例如，用户界面540可包括触摸屏显示器。例如，用户界面540可包括键盘、鼠标、操纵杆和/或另一种手持控制器。例如，用户界面540可包括被配置为接收语音命令的麦克风。例如，用户界面540可包括被配置为检测手势命令的图像传感器。例如，用户界面540可使得用户(例如，系统管理员)能够向云服务器500输入命令以配置和/或保持混合现实录制的集合。

处理装置510可被配置为启用注视驱动的信号处理以促进混合现实或虚拟现实应用，诸如混合现实录制。例如，处理装置510可被配置为访问注视数据(例如，在用户查看和/或捕获与混合现实应用相关联的视频时检测到的用户的注视点序列)。例如，处理装置510可被配置为将时间滤波器应用于注视数据以获得平滑的注视估计，以及基于平滑的注视估计来确定感兴趣区域。例如，感兴趣区域可识别视场的子集。例如，处理装置510可被配置为访问视频帧(例如，在收集到该用户的注视数据时已向用户显示的视频帧)，以及基于感兴趣区域将信号处理应用于视频帧以获得增强的视频帧。例如，处理装置510可被配置为将帧的与感兴趣区域相关联的部分录制为增强的视频帧。例如，帧的该部分可对应于比帧更小的视场。例如，处理装置510可被配置为使用以下方法对帧进行编码：针对与感兴趣区域相关联的帧的第一部分，使用第一个每像素比特分配，并且针对该帧的第一部分之外的帧的一个或多个相应部分，使用比第一个每像素比特分配低的一个或多个每像素比特分配。例如，处理装置510可被配置为将计算机视觉处理应用于帧的与感兴趣区域相关联的部分，以检测出现在帧的该部分中的对象并确定对象的分类。例如，帧的该部分可对应于比帧更小的视场。例如，处理装置510可被配置为基于分类生成注释，以及将注释叠加在视频帧上以获得增强的视频帧。在一些具体实施中，时间滤波器包括卡尔曼滤波器。在一些具体实施中，时间滤波器包括注视数据在时间窗口中的移动平均值。例如，处理装置510可被配置为通过在时间窗口中将曲线拟合到注视数据来将时间滤波器应用于注视数据以获得平滑的注视估计。例如，处理装置510可被配置为通过以下方式基于平滑的注视估计来确定感兴趣区域：将计算机视觉处理应用于视频帧以对出现在视频帧中的对象进行检测和分类，从而获得视频帧内与该对象相关联的位置；基于所述平滑的注视估计和所述对象的所述位置来确定所述感兴趣区域的成本函数的值；以及基于成本函数的值确定感兴趣区域。

图6是用于注视驱动的视频处理的过程600的示例的流程图。过程600包括访问610使用一个或多个注视跟踪传感器捕获的注视数据；将时间滤波器应用于620注视数据以获得平滑的注视估计；基于平滑的注视估计来确定630感兴趣区域，其中感兴趣区域识别视场的子集；访问640视频帧；基于感兴趣区域将信号处理应用于650视频帧以获得增强的视频帧；以及存储、传输或显示660增强的视频帧。例如，过程600可由图3的移动计算设备300来实现。例如，过程600可由图4的系统400实现。例如，过程600可由图5的云服务器500来实现。

过程600包括访问610使用一个或多个注视跟踪传感器(例如，一个或多个注视跟踪传感器330或一个或多个注视跟踪传感器412)捕获的注视数据。例如，一个或多个注视跟踪传感器可包括一个或多个图像传感器，该图像传感器可检测各种光谱(例如，红外光谱或可见光谱)和/或光源(例如，照射在用户眼睛处的红外光源)中的光。例如，一个或多个注视跟踪传感器还可包括用于处理原始图像数据以生成注视数据的硬件和/或软件(例如，注视跟踪软件)。例如，注视数据可包括注视点序列，每个注视点指定在给定时间被观察的用户的注视的方向(例如，光线、旋转矩阵或四元数)或焦点(例如，作为三维空间或二维图像空间中的坐标)。在一些具体实施中，序列中的注视点与相关联视频的帧同步。在一些具体实施中，序列中的注视点与相关联视频的帧异步，并且在与相应视频帧对应的时间处的注视点可从来自序列的附近注视点内插(例如，使用重采样过程)。在一些具体实施中，一个或多个注视跟踪传感器耦接(例如，附接)到显示设备(例如，头戴式显示器、平板电脑或智能电话)。例如，一个或多个注视跟踪传感器可被安装在该头戴式显示器的紧固制品(例如，眼镜框架或护目镜)上以使其指向佩戴头戴式显示器的用户的眼睛。在一些具体实施中，可基于来自一个或多个注视跟踪传感器的注视数据来确定在所附接的图像传感器或显示器的坐标中的用户的注视方向。可以各种方式访问610注视数据。例如，可通过直接地从传感器读取或经由互连件(例如，互连件370)从存储器读取来访问610注视数据。例如，可经由通信链路(例如，无线通信链路425)接收注视数据来访问610注视数据。

过程600包括将时间滤波器应用于620注视数据以获得平滑的注视估计。例如，可将时间滤波器应用于620注视数据以减少将基于注视数据确定630的感兴趣区域中的抖动。在一些具体实施中，时间滤波器可以是应用于注视数据中注视点的滑动窗口(例如，持续时间为1秒或0.5秒的窗口)的有限脉冲响应滤波器。在一些具体实施中，可调谐注视数据的窗口的持续时间以减少抖动。例如，将时间滤波器应用于注视数据以获得平滑的注视估计可包括在时间窗口中将曲线拟合到注视数据。可将其他类型的平滑滤波器应用于620注视数据。例如，时间滤波器可包括注视数据在时间窗口中的移动平均值。例如，时间滤波器可包括卡尔曼滤波器。在一些具体实施中，可应用620卡尔曼滤波器来预测未来时间的注视方向。

过程600包括基于平滑的注视估计来确定630感兴趣区域。感兴趣区域识别视场的子集(例如，一个或多个图像传感器的阵列的视场或显示器上所示的视频的视场)。一旦确定630，感兴趣区域可用于将计算资源(例如，存储器、通信信道带宽和/或处理器周期)聚焦在与感兴趣区域对应的视频数据的一部分上，优先于可用视场的其他部分。例如，确定630感兴趣区域可包括将平滑的注视估计转换成一个或多个图像传感器和/或显示器的坐标系。例如，确定630感兴趣区域可包括在可用视场的边缘处检测并强制执行边界条件，使得感兴趣区域不移动到可用视场之外并且相对于可用视场保持一致的尺寸。在一些具体实施中，感兴趣区被确定630为视频数据帧内的区域(例如，像素的子集)。

过程600包括访问640视频帧。视频帧可使用一个或多个图像传感器(例如，一个或多个图像传感器340或一个或多个图像传感器414)捕获。在一些具体实施中，视频帧可描绘佩戴包括一个或多个图像传感器的头戴式显示器(例如，头戴式显示器410)的用户附近的空间区域。在使用一个或多个注视跟踪传感器观察用户时，可能已捕获视频帧以生成注视数据。在一些具体实施中，一个或多个图像传感器耦接(例如，附接)到一个或多个注视跟踪传感器(例如，头戴式显示器的一部分)。在一些具体实施中，视频帧可将虚拟环境的一个或多个虚拟对象描绘为混合现实或虚拟现实应用的一部分。例如，视频帧可以是基于用户的(例如，来自惯性测量单元的)头部取向数据来渲染并且在头戴式显示器(例如，VR护目镜)中呈现给用户的虚拟环境的视图。在使用一个或多个注视跟踪传感器来观察用户以生成注视数据时，可能已经(例如，使用头戴式显示器或触摸屏显示器)向用户显示视频帧。在一些具体实施中，显示器耦接(例如，附接)到一个或多个注视跟踪传感器(例如，作为头戴式显示器的一部分或作为智能电话或平板电脑的一部分)。例如，可通过直接从图像传感器读取，通过(例如经由互连件370)从存储器或另一存储设备读取图像，或者通过经由与另一设备的通信链路(例如，无线通信链路425或经由网络接口530)接收视频帧来访问640视频帧。

过程600包括基于感兴趣区域将信号处理应用于650视频帧以获得增强的视频帧。例如，基于感兴趣区域将信号处理应用于650视频帧以获得增强的视频帧可包括将帧的与感兴趣区域相关联的部分录制为增强的视频帧。帧的该部分对应于比帧更小的视场。例如，基于感兴趣区域将信号处理应用于650视频帧以获得增强的视频帧可包括使用比帧的其他部分更高的每像素比特分配来对帧的与感兴趣区域相关联的部分进行编码。例如，可使用以下方法对帧进行编码：针对与感兴趣区域相关联的帧的第一部分，使用第一个每像素比特分配，并且针对该帧的第一部分之外的帧的一个或多个相应部分，使用比第一个每像素比特分配低的一个或多个每像素比特分配。例如，基于感兴趣区域将信号处理应用于650视频帧以获得增强的视频帧可包括将计算机视觉处理应用于帧的与感兴趣区域相关联的部分并基于对出现在感兴趣区域中的对象的检测和/或分类来增强或修改视频帧(例如，将元数据添加到包括视频帧或覆盖视频帧中的注释的数据结构)。例如，图7的过程700可被实现为基于感兴趣区域将信号处理应用于650视频帧以获得增强的视频帧。在一些具体实施中，将计算机视觉处理应用于650与视频帧序列中的帧的与相应感兴趣区域相关联的部分，以在视频中搜索分类对象出现在当前感兴趣区域中的时间(例如，用户可能已经看到这些感兴趣对象的时间)。

过程600包括存储、传输或显示660增强的视频帧。例如，增强的视频帧可被存储660在存储器或其他数据存储设备(例如，数据存储设备320、数据存储设备470或数据存储设备520)中。例如，增强的视频帧可以经由通信接口(例如，网络接口360、网络接口492或网络接口530)传输660到另一设备。例如，增强的视频帧可以使用屏幕、投影仪或一些其他类型的显示器(例如，显示器350、显示器422或用户界面540)来显示660。

图7是用于基于注视驱动的感兴趣区域中的对象来注释图像的过程700的示例的流程图。过程700包括将计算机视觉处理应用于710帧的与感兴趣区域相关联的部分，以检测出现在帧的该部分中的对象并确定对象的分类；基于分类生成720注释；以及将注释叠加730在视频帧上以获得增强的视频帧。例如，过程700可由图3的移动计算设备300来实现。例如，过程700可由图4的系统400实现。例如，过程700可由图5的云服务器500来实现。

过程700包括将计算机视觉处理应用于710帧的与感兴趣区域相关联的部分，以检测出现在帧的该部分中的对象并确定对象的分类。帧的该部分对应于比帧更小的视场。例如，将计算机视觉处理应用于710帧的与感兴趣区域相关联的部分可包括将来自该部分的像素值输入到卷积神经网络，该卷积神经网络已被训练为对出现在相当于该部分大小的图像中的对象进行检测和分类。卷积神经网络可输出经检测的对象的分类。在一些具体实施中，可以将一个或多个变换(例如，傅里叶变换或小波变换)应用于帧的该部分，并且可以将所得的变换系数输入到神经网络。例如，分类可以包括类概率的向量。

方法700包括基于分类生成720注释。例如，注释可以包括与由用于确定分类的计算机视觉系统识别的类相关联的文本或另一个符号。例如，注释可以是在帧的与感兴趣区域相关联的部分中检测到的对象的类的类标签。例如，注释可以对应于分类中具有最大概率值的类，其中分类是类概率的向量。

过程700包括将注释叠加730在视频帧上以获得增强的视频帧。例如，能够以将文本写入到图像上的模式通过用颜色替换视频帧的像素值中的一些像素值来将注释的文本叠加730在视频帧上。在一些具体实施中，注释可以是半透明的，并且能够以形成注释的模式通过将偏移添加到视频帧的像素值来叠加730注释。

图8是用于基于注视数据和基于所识别的对象的显著性信息的组合来确定感兴趣区域的过程800的示例的流程图。过程800包括将计算机视觉处理应用于810视频帧以对出现在视频帧中的对象进行检测和分类，从而获得视频帧内与该对象相关联的位置；基于平滑的注视估计和对象的位置来确定820感兴趣区域的成本函数的值；以及基于成本函数的值确定830感兴趣区域。例如，过程800可由图3的移动计算设备300来实现。例如，过程800可由图4的系统400实现。例如，过程800可由图5的云服务器500来实现。

过程800包括将计算机视觉处理应用于810视频帧以对出现在视频帧中的对象进行检测和分类，从而获得视频帧内与该对象相关联的位置。例如，将计算机视觉处理应用于810视频帧可包括将来自该帧的像素值输入到卷积神经网络，该卷积神经网络已被训练为对出现在相当于该帧大小的图像中的对象进行检测和分类。卷积神经网络可输出经检测的对象的分类。在一些具体实施中，可以将一个或多个变换(例如，傅里叶变换或小波变换)应用于该帧，并且可以将所得的变换系数输入到神经网络。例如，分类可以包括类概率的向量。卷积神经网络可输出视频帧内检测到的对象的位置的指示。例如，与其中已检测到对象的帧内的像素块相关联的块索引可由卷积神经网络输出。在一些具体实施中，由神经网络处理多个标度和位置处的重叠块以对对象进行检测和/或分类。例如，该位置可以是与已在其中检测到对象的块(例如，在块的中心处)相关联的一对像素偏移。

过程800包括基于平滑的注视估计和对象的位置来确定820感兴趣区域的成本函数的值。成本函数可用于组合确定感兴趣区域的多个目标。例如，成本函数可包括基于注视估计(例如，平滑的注视估计)与候选的感兴趣区域内的点(例如，中心点)之间的距离的项。例如，成本函数可包括基于对象的位置(例如，在其中检测到对象的块的中心)与候选的感兴趣区域内的点(例如，中心点)之间的距离的项。例如，成本函数可包括基于注视估计与感兴趣区域之间的距离的项和基于对象的位置与感兴趣区域之间的距离的项的线性组合。

过程800包括基于成本函数的值确定830感兴趣区域。例如，可通过选择具有成本函数的最小关联值的候选感兴趣区域来确定830感兴趣区域。

上述公开的具体实施或具体实施的部分可采取计算机程序产品的形式，该计算机程序产品可从例如计算机可用介质或计算机可读介质访问。计算机可用介质或计算机可读介质可以是例如可有形地包含、存储、传送或传输程序或数据结构以供任何处理器使用或连接的任何设备。介质可以是(例如)电子设备、磁性设备、光学设备、电磁设备或半导体设备。也可使用其他合适的介质。此类计算机可用介质或计算机可读介质可被称为非暂态存储器或介质，并且可包括RAM或可随时间推移而变化的其他易失性存储器或存储设备。

物理环境是指人们在没有电子系统帮助的情况下能够感测和/或交互的物理世界。物理环境诸如物理公园包括物理物品，诸如物理树木、物理建筑物和物理人。人们能够诸如通过视觉、触觉、听觉、味觉和嗅觉来直接感测物理环境和/或与物理环境交互。

相反，计算机生成现实(CGR)环境是指人们经由电子系统感知和/或交互的完全或部分模拟的环境。在CGR中，跟踪人的物理运动的一个子集或其表示，并且作为响应，以符合至少一个物理定律的方式调节在CGR环境中模拟的一个或多个虚拟对象的一个或多个特征。例如，CGR系统可以检测人的头部转动，并且作为响应，以与此类视图和声音在物理环境中变化的方式类似的方式调节呈现给人的图形内容和声场。在一些情况下(例如，出于可达性原因)，对CGR环境中虚拟对象的特征的调节可以响应于物理运动的表示(例如，声音命令)来进行。

人可以利用其感觉中的任一者来感测CGR对象和/或与CGR对象交互，包括视觉、听觉、触觉、味觉和嗅觉。例如，人可以感测音频对象和/或与音频对象交互，该音频对象创建3D或空间音频环境，该3D或空间音频环境提供3D空间中点音频源的感知。又如，音频对象可以使能音频透明度，该音频透明度在有或者没有计算机生成的音频的情况下选择性地引入来自物理环境的环境声音。在某些CGR环境中，人可以感测和/或只与音频对象交互。

CGR的示例包括虚拟现实和混合现实。

虚拟现实(VR)环境是指被设计成对于一个或多个感觉完全基于计算机生成的感官输入的模拟环境。VR环境包括人可以感测和/或交互的多个虚拟对象。例如，树木、建筑物和代表人的化身的计算机生成的图像是虚拟对象的示例。人可以通过在计算机生成的环境内人的存在的模拟和/或通过在计算机生成的环境内人的物理移动的一个子组的模拟来感测和/或与VR环境中的虚拟对象交互。

与被设计成完全基于计算机生成的感官输入的VR环境相比，混合现实(MR)环境是指被设计成除了包括计算机生成的感官输入(例如，虚拟对象)之外还引入来自物理环境的感官输入或其表示的模拟环境。在虚拟连续体上，混合现实环境是完全物理环境作为一端和虚拟现实环境作为另一端之间的任何状况，但不包括这两端。

在一些MR环境中，计算机生成的感官输入可以对来自物理环境的感官输入的变化进行响应。另外，用于呈现MR环境的一些电子系统可以跟踪相对于物理环境的位置和/或取向，以使虚拟对象能够与真实对象(即，来自物理环境的物理物品或其表示)交互。例如，系统可以导致移动使得虚拟树木相对于物理地面看起来是静止的。

混合现实的示例包括增强现实和增强虚拟。

增强现实(AR)环境是指其中一个或多个虚拟对象叠加在物理环境或其表示之上的模拟环境。例如，用于呈现AR环境的电子系统可具有透明或半透明显示器，人可以透过该显示器直接查看物理环境。该系统可以被配置为在透明或半透明显示器上呈现虚拟对象，使得人利用该系统感知叠加在物理环境之上的虚拟对象。另选地，系统可以具有不透明显示器和一个或多个成像传感器，该成像传感器捕获物理环境的图像或视频，这些图像或视频是物理环境的表示。系统将图像或视频与虚拟对象组合，并在不透明显示器上呈现组合物。人利用系统经由物理环境的图像或视频而间接地查看物理环境，并且感知叠加在物理环境之上的虚拟对象。如本文所用，在不透明显示器上显示的物理环境的视频被称为“透传视频”，意味着系统使用一个或多个图像传感器捕获物理环境的图像，并且在不透明显示器上呈现AR环境时使用那些图像。进一步另选地，系统可以具有投影系统，该投影系统将虚拟对象投射到物理环境中，例如作为全息图或者在物理表面上，使得人利用该系统感知叠加在物理环境之上的虚拟对象。

增强现实环境也是指其中物理环境的表示被计算机生成的感官信息进行转换的模拟环境。例如，在提供透传视频中，系统可以对一个或多个传感器图像进行转换以施加与成像传感器所捕获的视角不同的选择视角(例如，视点)。又如，物理环境的表示可以通过图形地修改(例如，放大)其部分而进行转换，使得经修改部分可以是原始捕获图像的代表性的但不是真实的版本。再如，物理环境的表示可以通过以图形方式消除其部分或将其部分进行模糊处理而进行转换。

增强虚拟(AV)环境是指其中虚拟或计算机生成的环境结合来自物理环境的一个或多个感官输入的模拟环境。感官输入可以是物理环境的一个或多个特性的表示。例如，AV公园可以具有虚拟树木和虚拟建筑物，但人的脸部是从对物理人拍摄的图像逼真再现的。又如，虚拟对象可以采用一个或多个成像传感器所成像的物理物品的形状或颜色。再如，虚拟对象可以采用符合太阳在物理环境中的定位的阴影。

有许多不同类型的电子系统使人能够感测和/或与各种CGR环境交互。示例包括头戴式系统、基于投影的系统、平视显示器(HUD)、集成有显示能力的车辆挡风玻璃、集成有显示能力的窗户、被形成为被设计用于放置在人的眼睛上的透镜的显示器(例如，类似于隐形眼镜)、耳机/听筒、扬声器阵列、输入系统(例如，具有或不具有触觉反馈的可穿戴或手持控制器)、智能电话、平板电脑和台式/膝上型计算机。头戴式系统可以具有一个或多个扬声器和集成的不透明显示器。另选地，头戴式系统可以被配置为接受外部不透明显示器(例如，智能电话)。头戴式系统可以结合用于捕获物理环境的图像或视频的一个或多个成像传感器和/或用于捕获物理环境的音频的一个或多个麦克风。头戴式系统可以具有透明或半透明显示器，而不是不透明显示器。透明或半透明显示器可以具有媒介，代表图像的光通过该媒介被引导到人的眼睛。显示器可以利用数字光投影、OLED、LED、uLED、硅基液晶、激光扫描光源或这些技术的任意组合。媒介可以是光学波导、全息图媒介、光学组合器、光学反射器或它们的任意组合。在一个实施方案中，透明或半透明显示器可被配置为选择性地变得不透明。基于投影的系统可以采用将图形图像投影到人的视网膜上的视网膜投影技术。投影系统也可以被配置为将虚拟对象投影到物理环境中，例如作为全息图或在物理表面上。

提醒实现用于录制CGR环境的上述技术的实体遵守已确立的行业或政府隐私要求。例如，建议提供CGR录制特征的实体响应于用户的特定指令而开始录制，并且向用户识别此类录制的目的地。还建议这些实体采取措施以提醒用户当录制被传输到其本地设备以外(例如，上传到社交媒体网站等)时，它们可能由互联网用户和/或互联网实体进行处理和/或查看。不能排除这种可能性：如果恶意实体获得CGR录制，则该实体可能尝试在特定CGR会话期间在用户注视的地方进行反向工程。然而，需注意，不需要保存指示此类信息的元数据来实现上述技术。另外，具体实施可例如通过不时地改变所应用的时间滤波器来进一步模糊用户的精确注视。重要的是，应处理个人可识别信息数据(如果有的话)，以便使未授权的和/或无意的访问和/或使用的风险最小化。任何授权使用的性质也应向用户清楚地指示。

如上所述，本技术的一个方面是收集和使用可从各种源获得的数据，以改善计算机生成的现实体验。本公开预期，在一些实例中，这些所采集的数据可包括唯一地识别或可用于联系或定位特定人员的个人信息数据。此类个人信息数据可包括人口统计数据、基于定位的数据、电话号码、电子邮件地址、twitter ID、家庭地址、与用户的健康或健身等级相关的数据或记录(例如，生命信号测量、药物信息、锻炼信息)、出生日期或任何其他识别信息或个人信息。

本公开认识到在本发明技术中使用此类个人信息数据可用于使用户受益。例如，个人信息数据可用于更好地识别视场内的用户感兴趣的对象。此外，本公开还预期个人信息数据有益于用户的其他用途。例如，健康和健身数据可用于向用户的总体健康状况提供见解，或者可用作使用技术来追求健康目标的个人的积极反馈。

本公开设想负责采集、分析、公开、传输、存储或其他使用此类个人信息数据的实体将遵守既定的隐私政策和/或隐私实践。具体地，此类实体应当实行并坚持使用被公认为满足或超出对维护个人信息数据的隐私性和安全性的行业或政府要求的隐私政策和实践。此类政策应该能被用户方便地访问，并应随着数据的采集和/或使用变化而被更新。来自用户的个人信息应当被收集用于实体的合法且合理的用途，并且不在这些合法使用之外共享或出售。此外，应在收到用户知情同意后进行此类采集/共享。此外，此类实体应考虑采取任何必要步骤，保卫和保障对此类个人信息数据的访问，并确保有权访问个人信息数据的其他人遵守其隐私政策和流程。另外，这种实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和实践。此外，应当调整政策和实践，以便采集和/或访问的特定类型的个人信息数据，并适用于包括管辖范围的具体考虑的适用法律和标准。例如，在美国，对某些健康数据的收集或获取可能受联邦和/或州法律的管辖，诸如健康保险流通和责任法案(HIPAA)；而其他国家的健康数据可能受到其他法规和政策的约束并应相应处理。因此，在每个国家应为不同的个人数据类型保持不同的隐私实践。

不管前述情况如何，本公开还预期用户选择性地阻止使用或访问个人信息数据的实施方案。即本公开预期可提供硬件元件和/或软件元件，以防止或阻止对此类个人信息数据的访问。例如，就广告递送服务而言，本发明技术可被配置为在注册服务期间或之后任何时候允许用户选择“选择加入”或“选择退出”参与对个人信息数据的收集。除了提供“选择加入”和“选择退出”选项外，本公开设想提供与访问或使用个人信息相关的通知。例如，可在下载应用时向用户通知其个人信息数据将被访问，然后就在个人信息数据被应用访问之前再次提醒用户。

此外，本公开的目的是应管理和处理个人信息数据以最小化无意或未经授权访问或使用的风险。一旦不再需要数据，通过限制数据收集和删除数据可最小化风险。此外，并且当适用时，包括在某些健康相关应用程序中，数据去标识可用于保护用户的隐私。可在适当时通过移除特定标识符(例如，出生日期等)、控制所存储数据的量或特异性(例如，在城市级别而不是在地址级别收集位置数据)、控制数据如何被存储(例如，在用户之间聚合数据)和/或其他方法来促进去标识。

因此，虽然本公开广泛地覆盖了使用个人信息数据来实现一个或多个各种所公开的实施方案，但本公开还预期各种实施方案也可在无需访问此类个人信息数据的情况下被实现。即，本发明技术的各种实施方案不会由于缺少此类个人信息数据的全部或一部分而无法正常进行。例如，可基于非个人信息数据或绝对最小量的个人信息，诸如与用户相关联的设备所请求的内容、适用于计算机生成的现实系统的其他非个人信息或公开可用的信息)来识别感兴趣对象。

Claims

1.一种系统，包括：

一个或多个注视跟踪传感器；

一个或多个图像传感器；和

处理装置，所述处理装置被配置为：

访问使用所述一个或多个注视跟踪传感器捕获的注视数据；

将时间滤波器应用于所述注视数据以获得平滑的注视估计；

基于所述平滑的注视估计来确定感兴趣区域，其中所述感兴趣区域识别所述一个或多个图像传感器的视场的子集；

访问使用所述一个或多个图像传感器捕获的视频帧；以及

基于所述感兴趣区域将信号处理应用于所述视频帧以获得增强的视频帧。

2.根据权利要求1所述的系统，其中所述处理装置被配置为通过执行包括以下各项的操作来基于所述感兴趣区域将信号处理应用于所述视频帧以获得所述增强的视频帧：

将所述帧的与所述感兴趣区域相关联的部分录制为所述增强的视频帧，其中所述帧的所述部分对应于比所述帧更小的视场。

3.根据权利要求1所述的系统，其中所述处理装置被配置为通过执行包括以下各项的操作来基于所述感兴趣区域将信号处理应用于所述视频帧以获得所述增强的视频帧：

使用以下方法对所述帧进行编码：针对与所述感兴趣区域相关联的所述帧的第一部分，使用第一个每像素比特分配，并且针对所述帧的所述第一部分之外的所述帧的一个或多个相应部分，使用比所述第一个每像素比特分配低的一个或多个每像素比特分配。

4.根据权利要求1至3中任一项所述的系统，其中所述处理装置被配置为通过执行包括以下各项的操作来基于所述感兴趣区域将信号处理应用于所述视频帧以获得所述增强的视频帧：

将计算机视觉处理应用于所述帧的与所述感兴趣区域相关联的部分以检测出现在所述帧的所述部分中的对象，以及确定所述对象的分类，其中所述帧的所述部分对应于比所述帧更小的视场；

基于所述分类生成注释；以及

将所述注释叠加在所述视频帧上以获得所述增强的视频帧。

5.根据权利要求1至4中任一项所述的系统，所述系统包括：

附接到所述一个或多个注视跟踪传感器和所述一个或多个图像传感器的头戴式显示器，其中所述头戴式显示器被配置为显示所述增强的视频帧。

6.根据权利要求1至5中任一项所述的系统，其中所述时间滤波器包括卡尔曼滤波器。

7.根据权利要求1至5中任一项所述的系统，其中所述时间滤波器包括所述注视数据在时间窗口中的移动平均值。

8.根据权利要求1至5中任一项所述的系统，其中所述处理装置被配置为通过执行包括以下各项的操作来将所述时间滤波器应用于所述注视数据以获得所述平滑的注视估计：

在时间窗口中将曲线拟合到所述注视数据。

9.根据权利要求1至8中任一项所述的系统，其中所述处理装置被配置为通过执行包括以下各项的操作来基于所述平滑的注视估计确定所述感兴趣区域：

将计算机视觉处理应用于所述视频帧以对出现在所述视频帧中的对象进行检测和分类，从而获得所述视频帧内与所述对象相关联的位置；

基于所述平滑的注视估计和所述对象的所述位置来确定所述感兴趣区域的成本函数的值；以及

基于所述成本函数的所述值确定所述感兴趣区域。

10.一种方法，所述方法包括：

访问使用一个或多个注视跟踪传感器捕获的注视数据；

将时间滤波器应用于所述注视数据以获得平滑的注视估计；

基于所述平滑的注视估计来确定感兴趣区域，其中所述感兴趣区域识别视场的子集；

访问视频帧；

基于所述感兴趣区域将信号处理应用于所述视频帧以获得增强的视频帧；以及

存储、传输或显示所述增强的视频帧。

11.根据权利要求10所述的方法，其中基于所述感兴趣区域将信号处理应用于所述视频帧以获得所述增强的视频帧包括：

12.根据权利要求10所述的方法，其中基于所述感兴趣区域将信号处理应用于所述视频帧以获得所述增强的视频帧包括：

13.根据权利要求10至12中任一项所述的方法，其中基于所述感兴趣区域将信号处理应用于所述视频帧以获得所述增强的视频帧包括：

基于所述分类生成注释；以及

将所述注释叠加在所述视频帧上以获得所述增强的视频帧。

14.根据权利要求10至13中任一项所述的方法，其中所述时间滤波器包括卡尔曼滤波器。

15.根据权利要求10至13中任一项所述的方法，其中所述时间滤波器包括所述注视数据在时间窗口中的移动平均值。

16.根据权利要求10至13中任一项所述的方法，其中将所述时间滤波器应用于所述注视数据以获得所述平滑的注视估计包括：

在时间窗口中将曲线拟合到所述注视数据。

17.根据权利要求10至16中任一项所述的方法，其中基于所述平滑的注视估计来确定所述感兴趣区域包括：

基于所述成本函数的所述值确定所述感兴趣区域。

18.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质包括可执行指令，所述可执行指令当由处理器执行时使得执行包括以下各项的操作：

访问使用一个或多个注视跟踪传感器捕获的注视数据；

将时间滤波器应用于所述注视数据以获得平滑的注视估计；

访问视频帧；

存储、传输或显示所述增强的视频帧。

19.根据权利要求18所述的非暂态计算机可读存储介质，其中用于基于所述感兴趣区域将信号处理应用于所述视频帧以获得所述增强的视频帧的所述可执行指令包括当由处理器执行时使得执行包括以下各项的操作的可执行指令：

20.根据权利要求18所述的非暂态计算机可读存储介质，其中用于基于所述感兴趣区域将信号处理应用于所述视频帧以获得所述增强的视频帧的所述可执行指令包括当由处理器执行时使得执行包括以下各项的操作的可执行指令：

21.根据权利要求18至20中任一项所述的非暂态计算机可读存储介质，其中用于基于所述感兴趣区域将信号处理应用于所述视频帧以获得所述增强的视频帧的所述可执行指令包括当由处理器执行时使得执行包括以下各项的操作的可执行指令：

基于所述分类生成注释；以及

将所述注释叠加在所述视频帧上以获得所述增强的视频帧。

22.根据权利要求18至21中任一项所述的非暂态计算机可读存储介质，其中所述时间滤波器包括卡尔曼滤波器。

23.根据权利要求18至21中任一项所述的非暂态计算机可读存储介质，其中所述时间滤波器包括所述注视数据在时间窗口中的移动平均值。

24.根据权利要求18至21中任一项所述的非暂态计算机可读存储介质，其中用于将所述时间滤波器应用于所述注视数据以获得所述平滑的注视估计的所述可执行指令包括当由处理器执行时使得执行包括以下各项的操作的可执行指令：

在时间窗口中将曲线拟合到所述注视数据。

25.根据权利要求18至24中任一项所述的非暂态计算机可读存储介质，其中用于基于所述平滑的注视估计来确定所述感兴趣区域的所述可执行指令包括当由处理器执行时使得执行包括以下各项的操作的可执行指令：

基于所述成本函数的所述值确定所述感兴趣区域。

26.一种系统，包括：

一个或多个注视跟踪传感器；

一个或多个图像传感器；和

处理装置，所述处理装置被配置为：

访问使用所述一个或多个注视跟踪传感器捕获的注视数据；

基于所述注视数据来确定感兴趣区域，其中所述感兴趣区域识别所述一个或多个图像传感器的视场的子集；

访问使用所述一个或多个图像传感器捕获的视频帧；以及

将所述帧的与所述感兴趣区域相关联的部分录制为增强的视频帧，其中所述帧的所述部分对应于比所述帧更小的视场。

27.根据权利要求26所述的系统，其中所述处理装置被配置为通过执行包括以下各项的操作来基于所述注视数据确定所述感兴趣区域：

基于所述注视数据和所述对象的所述位置来确定所述感兴趣区域的成本函数的值；以及

基于所述成本函数的所述值确定所述感兴趣区域。

28.一种方法，包括：

访问使用一个或多个注视跟踪传感器捕获的注视数据；

基于所述注视数据来确定感兴趣区域，其中所述感兴趣区域识别视场的子集；

访问视频帧；

将所述帧的与所述感兴趣区域相关联的部分录制为增强的视频帧，其中所述帧的所述部分对应于比所述帧更小的视场；以及

存储、传输或显示所述增强的视频帧。

29.根据权利要求28所述的方法，其中基于所述注视数据来确定所述感兴趣区域包括：

基于所述成本函数的所述值确定所述感兴趣区域。