CN110856035B

CN110856035B - 处理图像数据以执行对象检测

Info

Publication number: CN110856035B
Application number: CN201910667027.9A
Authority: CN
Inventors: 达仁·克罗克斯福德; 罗伯托·洛佩斯门德斯
Original assignee: ARM Ltd
Current assignee: ARM Ltd
Priority date: 2018-07-24
Filing date: 2019-07-23
Publication date: 2024-01-26
Anticipated expiration: 2039-07-23
Also published as: US10943115B2; US20200034617A1; CN110856035A

Abstract

本公开涉及处理图像数据以执行对象检测。本公开的示例涉及用于执行对象检测的方法。在一个这样的示例中，接收表示图像的数据。该图像包括至少一个目标区域和另一区域。至少一个目标区域可使用指示图像的观察者的注视方向的数据来识别。使用第一处理方案处理数据的第一部分，以在图像的至少一个目标区域中执行对象检测。数据的第一部分表示图像的至少一个目标区域。使用不同的第二处理方案处理数据的第二部分。数据的第二部分表示图像的另一区域。

Description

处理图像数据以执行对象检测

技术领域

本发明涉及用于执行对象检测的方法、装置和计算机可读介质。

背景技术

检测和识别图像内对象的能力在如下许多类型的系统中都有应用，例如虚拟现实(VR)、增强现实(AR)、混合现实(MR)、智能眼镜和/或计算机视觉系统。然而，对象检测可能是计算成本很高的任务，尤其是对于相对较大的图像。

这样的高质量、高分辨率图像正变得越来越广泛。例如，在显示图像或视频的显示器面板非常靠近观察者的情况下，例如在头戴式显示器(HMD)布置中，可能需要高分辨率和/或高帧速率视频数据以便提供视觉满意度。此外，这样的设备可能需要图像或视频数据被基本上实时地捕获、处理和显示。因此，高效处理是这种系统中的一个重要考虑因素。

一些图像处理系统可能会受到物理约束，例如为了便于穿戴。例如，一些系统可能需要相对较小和/或较轻。这可能是HMD、智能眼镜等的情况。为了在这样的物理约束下操作，这样的系统可以配备有限的处理、电源、存储和/或电池能力。

发明内容

根据本公开的第一方面，提供了一种执行对象检测的方法，包括：接收表示图像的数据，所述图像包括至少一个目标区域和另一区域，所述至少一个目标区域能够使用指示所述图像的观察者的注视方向的数据来识别；使用第一处理方案处理所述数据的第一部分以在所述图像的至少一个目标区域中执行对象检测，所述第一部分表示所述至少一个目标区域；以及使用不同的第二处理方案处理所述数据的第二部分，所述第二部分表示所述另一区域。

根据本公开的第二方面，提供了一种用于执行对象检测的装置，该装置包括：接收器，该接收器被配置为接收表示图像的数据，所述图像包括至少一个目标区域和另一区域，所述至少一个目标区域能够使用指示所述图像的观察者的注视方向的数据来识别；以及处理器，该处理器被配置为：使用第一处理方案处理所述数据的第一部分以在所述图像的所述至少一个目标区域中执行对象检测，所述第一部分表示所述至少一个目标区域；以及使用不同的第二处理方案处理所述数据的另一部分，所述另一部分表示所述另一区域。

根据本公开的第三方面，提供了一种非暂时性计算机可读存储介质，其包括一组计算机可读指令，该组计算机可读指令当由至少一个处理器执行时，使得所述至少一个处理器：接收表示图像的数据，所述图像包括至少一个目标区域和另一区域，所述至少一个目标区域能够使用指示所述图像的观察者的注视方向的数据来识别；使用第一处理方案处理所述数据的第一部分以在所述图像的所述至少一个目标区域中执行对象检测，所述第一部分表示所述至少一个目标区域；以及使用不同的第二处理方案处理所述数据的另一部分，所述另一部分表示所述另一区域。

本发明的另外的特征和优点将通过对本发明的优选实施例的以下描述而变得显而易见，以下描述是参考附图仅通过示例的方式给出的。

附图说明

图1示意性地示出了用于实现图像处理流水线的系统。

图2示意性地示出了根据示例的执行对象检测的方法。

图3示意性地示出了根据示例的用于实现图像处理流水线的系统。

图4示意性地示出了示例图像，其中可以使用诸如图2的方法之类的方法来执行对象检测。

图5示意性地示出了用于实现诸如图2的方法之类的方法的装置。

具体实施方式

针对上下文提供的图1示意性地示出了用于实现图像处理流水线的系统100。系统100可以形成VR、AR、MR和/或计算机视觉(CV)装备的部分。系统100的组件中一些或全部可被包括在可穿戴设备(例如HMD或智能眼镜)中。系统100可以形成机器人绘图和/或导航装备、自主车辆装备和/或无人驾驶飞行器装备的部分。在其他示例中，系统100可以形成其他图像处理布置的部分。例如，系统100可以形成电视、移动设备或视频游戏装备的部分。

系统100包括图像处理装置110。图像处理装置110被布置为接收、处理、生成、存储和/或输出图像数据。图像处理装置110可以形成片上系统(SOC)布置的部分或包括片上系统(SOC)布置。

图像处理装置110包括经由至少一个总线115进行通信耦合的多个处理器组件。至少一个总线115具有有限的带宽。由处理器组件执行的操作可以由硬件和/或软件执行。每个处理器组件可以使用机器可读指令和适当编程或配置的硬件(例如电路)来实现。每个处理器组件可以包括微处理器、微控制器、处理器模块或子系统、可编程集成电路、可编程门阵列或其他计算设备。处理器组件可以包括多个位于同一位置的处理器或多个位于不同位置的处理器。在一些示例中，装置110包括计算机可使用的易失性和/或非易失性存储器，其被配置为存储处理器组件的信息和/或指令。计算机可使用的易失性和/或非易失性存储器可以与总线115耦合。计算机可使用的存储器可以包括随机存取存储器(RAM)和/或只读存储器(ROM)。

在该示例中，图像处理装置110包括图像信号处理器(ISP)112、中央处理单元(CPU)114、图形处理单元(GPU)116、CV引擎118、显示器控制器120和存储器控制器125。ISP112、CPU 114、GPU 116、CV引擎118、显示器控制器120和存储器控制器125中的每一个可以包括装置110的处理器组件。与图1的示例中所示的组件相比，装置110可能包括更多、更少和/或不同的组件。例如，装置110可以包括视频解码器和/或一个或多个外围设备或输入/输出设备。

存储器控制器125可以包括动态存储器控制器(DMC)。存储器控制器125与存储器130耦合。存储器控制器125被配置为管理进出存储器130的数据流。存储器130可以包括主存储器，或者被称为“初级存储器”。存储器130可以是外部存储器，这在于存储器130位于图像处理装置110的外部。例如，存储器130可以包括“片外”存储器。存储器130可以包括计算设备的中央存储器，装置110位于该计算设备内。存储器130具有的存储容量可能大于CPU114和/或GPU 116的(一个或多个)存储器缓存。在一些示例中，存储器130被包括在图像处理装置110中。例如，存储器130可以包括“片上”存储器。存储器130例如可以包括磁盘或光盘和磁盘驱动器或固态驱动器(SSD)。在一些示例中，存储器130包括同步动态随机存取存储器(SDRAM)。例如，存储器130可以包括双数据速率同步动态随机存取存储器(DDR-SDRAM)。存储器130可以被布置为存储对应于一个或多个图像的图像数据，每个图像对应于视频中的不同帧。所存储的图像数据可以对应于视频流中的连续图像。存储器130可以包括被布置为存储图像数据的帧缓冲器。

在该示例中，ISP 112被配置为从传感器140接收信号数据。例如，ISP 112可以被配置为从与ISP 112通信耦合的图像传感器接收图像数据。传感器140可以被包括在相机中。例如，传感器140可以被包括在“挂耳式”相机中，“挂耳式”相机被布置为捕获观察者正在观看的场景的表示。所接收到的信号数据可以包括模拟或数字数据。这样的图像传感器可以包括多个传感器像素，给定的传感器像素被配置为输出对应于该传感器像素的信号数据。由ISP 112接收的信号数据可以包括原始传感器数据。例如，传感器数据可以包括原始图像数据。原始图像数据包括由图像传感器生成的未处理或最小处理的数据。ISP 112可以被配置为处理从传感器140接收的图像数据。在一些示例中，ISP 112被配置为从视频解码器(未显示)接收和处理图像数据。视频解码器可以被配置为接收编码图像或视频数据，并对所接收到的编码数据进行解码。视频解码器可以输出经解码的图像数据。根据一些示例，视频解码器可用于图像传感器140的附加或替代。ISP112被配置为经由总线115和存储器控制器125将经处理的数据输出到存储器130。例如，经处理的数据可以输出到存储器130中的帧缓冲器。

CPU 114可以包括被配置为处理图像或视频数据的图像或视频处理器。CPU 114可以配备各种图像处理相关的功能。例如，CPU 114可以被配置为执行对象检测和/或识别任务等。CPU 114可以被配置为从存储器130或ISP 114获取图像数据。CPU 114可以被配置为经由总线115和存储器控制器125将经处理的数据输出到存储器130。

GPU 116被配置为处理图像或视频数据。GPU 116包括的内核或处理单元的数量可能比CPU 114中的内核的数量更多。与CPU 114的任何内核相比，GPU 116的每个内核单独地可能相对较慢和/或不复杂。因此，与CPU 114的给定内核相比，GPU 116的给定内核可能不太适合执行复杂的计算任务。然而，由于GPU 116可以并行地执行相对较大数量的进程，因此，GPU 116中的内核数量相对较大使得某些计算任务(例如具有相对较高并行度的任务)能够更有效地由GPU 116执行(相比于由CPU 114执行)。GPU 116比CPU 114更有效地执行与图像相关的计算任务的示例包括但不限于图像渲染过程，例如纹理映射、渲染多边形、着色、几何计算和运动补偿。GPU 116可以被配置为执行对象检测和/或识别任务。GPU116也可用于执行与图像无关的任务。GPU 116可以被配置为从存储器130获得图像数据。在一些示例中，GPU 116直接从CPU 114或另一处理单元(例如ISP 112)获得图像数据。GPU 116被配置为处理图像数据，例如生成经渲染的图像，并经由总线115和存储器控制器125将所生成的数据输出到存储器130。例如，所生成的数据可以存储在帧缓冲器中。

CV引擎118被配置为处理图像或视频数据。在一些示例中，CV引擎118被包括在CPU114和/或GPU 116中。也就是说，CV功能可以并入到CPU 114和/或GPU 116中。在其他示例中，CV引擎118是单独的处理组件。CV功能可以包括图像数据的处理，以提取描述图像内容的相对较高级别的信息。可以提取高维数据，以产生数字或符号信息，例如以决策的形式。所提取的信息可以与决策制定过程结合使用，以引出行动和/或进一步理解图像。CV功能可以包括执行对象检测和/或识别。CV功能可以包括其他任务，例如运动估计、场景重建或图像恢复。在一些示例中，CV功能包括执行即时定位与地图构建(SLAM)。SLAM包括生成和/或更新环境地图，同时确定和/或跟踪环境中传感器的位置。SLAM处理可能涉及标识和定位环境中的对象，并将这些所标识的对象用作语义上的“标志”，以促进环境的准确和/或有效地图构建。

执行对象检测和/或识别可能涉及使用一个或多个经训练的人工神经网络(ANN)。与一些已知技术相比，使用ANN来执行对象检测和/或识别可能会提高对象检测和/或识别的准确性和/或可靠性。ANN可以被训练为检测和定位图像中的对象，和/或使用多个预定义的对象类或类型对这些对象进行分类。

CV引擎118可以被配置为从存储器130获得图像数据。在一些示例中，CV引擎118直接从CPU 114、GPU 116或ISP 112获得图像数据。CV引擎118被配置为处理图像数据，例如在图像中执行对象检测，并将数据(例如指示所检测的和/或分类的对象的数据)输出到存储器130。

在一些示例中，图像处理装置110与显示器设备(未显示)通信耦合。显示器设备的示例包括但不限于HMD、显示屏、电视、显示器面板和可穿戴显示器装备。显示器设备可以被布置为远离图像处理装置110。在一些示例中，显示器设备和图像处理装置110可以被布置在分开的物理外壳中。在其他示例中，显示器设备和图像处理装置110被包括在同一物理外壳中。装置110可经由显示器接口(未显示)与显示器设备耦合。显示器接口可以被称为“显示器链路”。显示器接口可以包括显示器串行接口(DSI)。DSI是通过它可以将图像或视频数据流式传输到显示器的接口。

显示器控制器120可称为“显示器处理器”。显示器控制器120可以包括视频移位器。显示器控制器120可以被配置为从存储器130(例如经由总线115)获得图像或视频数据。在一些情况下，显示器控制器120被配置为直接从CPU 114、GPU 116或CV引擎118接收图像或视频数据，而没有图像数据首先被存储在存储器130中和从存储器130中取回。显示器控制器120可以被配置为处理所获得的图像或视频数据并生成串行位流。串行位流是位的序列。所生成的串行位流随后可用于输出图像或视频信号。串行位流可以被输出以用于经由显示器接口传输到显示器设备。在一些示例中，显示器控制器120负责视频定时信号。视频定时信号可用于同步分量视频数据。分量视频数据是被分成两个或更多个分量通道的视频数据。例如，视频数据可以被分成单独的颜色通道。显示器控制器120可以配置有各种其他图像或视频处理功能。例如，显示器控制器120可以配置有放大和/或缩小功能。

与图1的示例中所示的那些组件相比，系统100可能包括更多、更少和/或不同的组件。

图像数据可能相对较大，尤其是当更高分辨率、更高频率和/或更高像素密度的视频显示器的使用增加时。例如，一些AR、VR或MR系统需要一个或两个高分辨率显示器，例如一个或两个1920×1080像素显示器，每个显示器都以高频率(例如90或120Hz)工作，以便在保持高等级的感知视觉质量的同时，将显示器置于用户眼睛附近。

执行对象检测可能是计算成本很高的任务，需要相对大量的处理能力和/或存储。基于ANN的目标检测可能特别耗费资源，尽管它可能比其他对象检测方法更准确和/或更可靠。此外，执行准确对象检测所需的处理、存储、功率和/或时间可能随图像大小而增加。在一些系统中，可能需要执行“连续”对象检测，例如，对于接收和处理实时视频流的“常开”CV或AR系统。为了对实时视频流的连续帧执行准确和/或可靠的对象检测，延迟也是一个考虑因素。一些系统可能没有配备足够的计算能力(例如在处理硬件、存储和/或电源方面)来足够快地处理相对较大的图像，或甚至根本无法处理。

图2示意性地示出了根据本公开的一方面的用于执行对象检测的方法200。方法200的至少一部分可由图1中所示的图像处理装置110实现。

在示例中，方法200的至少一部分由存储在非暂时性存储介质上的可执行代码实现，该非暂时性存储介质包括指令，指令当由至少一个处理器执行时，使至少一个处理器执行本文所述的方法200的至少一部分。在另一种情况下，方法200的至少一部分由至少一个ASIC实现。ASIC可以是标准的、完全定制的或部分定制的。在一个示例中，ASIC可以具有结构化设计。ASIC可以包括至少一个微处理器和/或至少一个存储器块。在另一示例中，ASIC包括至少一个门阵列，例如现场可编程门阵列。现场可编程门阵列可以包括可编程逻辑块的阵列和可重构互连的层次结构。在一些示例中，可编程逻辑块的阵列可以包括诸如触发器之类的存储器元件。计算机可读指令可以从机器可读介质中取回，该机器可读介质例如为可以包含、存储或维护程序和数据以供指令执行系统使用或与指令执行系统结合的任何介质。在这种情况下，机器可读介质可以包括许多物理介质中的任何一种，例如电子介质、磁性介质、光学介质、电磁介质或半导体介质。合适的机器可读介质的更具体示例包括但不限于硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器或便携式磁盘。

在方框210处，接收表示图像的数据。在一些示例中，图像是视频的帧，视频包括多个这样的帧的序列。

在一些示例中，所接收的数据包括从图像传感器输出的原始图像数据。数据可以包括像素数据。例如，可以经由传感器接口从图像传感器接收数据。从图像传感器接收的数据可以是未压缩或压缩的数据。对原始图像数据进行操作使得所述方法能够由ISP执行，ISP与图像传感器通信耦合并且被布置为直接或间接地从图像传感器接收信号数据。在一些示例中，所接收到的数据包括从视频解码器输出的解码图像数据。

在一些示例中，表示图像的数据是从存储器接收的。例如，数据可以包括在由处理实体(例如ISP、CPU或GPU)生成之后存储在存储器中(例如帧缓存器中)的经处理的数据。因此，所接收的数据可以包括经处理的数据或原始图像数据。

该图像包括至少一个目标区域和另一区域。至少一个目标区域可使用指示图像的观察者的注视方向的数据来识别。在一些示例中，至少一个目标区域对应于图像中观察者的的视野。至少一个目标区域可以精确地对应于该观察者的视野，或者，例如可以略大于但包含该观察者的视野。至少一个目标区域可以包括至少一个感兴趣的区域。在一个示例中，至少一个目标区域对应于观察者的一个或多个固定点，例如，因为(一个或多个)固定点可以在图像的至少一个目标区域内。至少一个目标区域可以包括多个目标区域或仅一个目标区域。当图像是360度环境(例如古典音乐会)时，体验该环境的用户(例如通过使用虚拟现实HMD或移动电话)可能只能在任何给定时间查看环境的子区域，而不是整个环境。图像的另一区域可能在图像的观察者的视野外部。在一些示例中，另一区域围绕至少一个目标区域。另一区域可以对应于观察者没有看到和/或不太可能看到的区域。例如，该另一区域可以包括图像中围绕聚焦区域的一个或多个外围区域。

在一些示例中，接收指示观察者的注视方向的数据。至少一个目标区域可使用指示注视方向的数据来识别。指示注视方向的数据可以包括眼睛跟踪数据。眼睛跟踪数据可以由眼睛跟踪传感器生成。如此，可以从眼睛跟踪传感器接收指示观察者的注视方向的数据。例如，这种传感器可以布置在HMD中。在一些示例中，指示注视方向的数据包括指示至少一个目标区域的数据。指示至少一个目标区域的数据可能是基于眼睛跟踪数据得出的。如此，可以直接或间接从眼睛跟踪机制获得指示注视方向的数据。在一些示例中，没有使用眼睛跟踪机制获得指示注视方向的数据。例如，可以使用头部跟踪机制获得指示注视方向的数据。指示注视方向的数据可以包括指示观察者正在查看和/或预计将要查看的图像区域的数据。

在方框220处，处理数据的第一部分。数据的第一部分表示至少一个目标区域。数据的第一部分使用第一处理方案进行处理。在一些示例中，第一处理方案涉及以第一等级的视觉质量进行处理。例如，第一处理方案可以涉及以第一空间和/或时间分辨率进行处理。在一些示例中，第一处理方案涉及以第一处理速率进行处理。处理速率可以对应于处理数据的频率。在一些示例中，第一处理方案涉及根据第一压缩比进行压缩。对数据的第一部分进行处理，以在图像的至少一个目标区域中执行对象检测，如下面更详细描述的。

在方框230处，使用不同的第二处理方案处理数据的第二部分。第二部分表示另一区域。如此，图像可以包括多个区域，并且不同的处理方案可以用于处理表示每个不同区域的图像数据。

在一些示例中，处理数据的第二部分包括丢弃数据的第二部分。例如，数据的第二部分可以被删除，或者在其他情况下不用于进一步处理。通过丢弃数据的第二部分，可以对图像进行裁剪，使得另一区域不再由所产生的图像数据表示。例如，可以裁剪图像，以仅保留与观察者的注视方向相关的至少一个目标区域。通过丢弃数据的第二部分，与不丢弃数据的第二部分的情况相比，随后处理、传输和/或存储的图像数据量减少。因此，可以减少下游图像处理阶段(例如在对象检测状态下)的延迟和功耗。在其他示例中，数据的第二部分没有被丢弃。

在第一处理方案涉及以第一等级的视觉质量进行处理的示例中，第二处理方案可以涉及以不同的第二等级的视觉质量进行处理。例如，第二处理方案可以涉及以比第一处理方案中使用的质量等级更低的质量等级进行处理。第二处理方案可以涉及以比第一处理方案中使用的空间和/或时间分辨率更低的空间和/或时间分辨率进行处理。与以较高质量等级进行处理相比，以较低质量等级进行处理可能会减少处理能力和/或时间的量。因此，可以重新分配和/或集中有限的处理资源，以优先考虑观察者正在查看的图像区域，例如至少一个目标区域。因此，通过减少对外围区域的处理，处理图像数据可以变得更有效。将处理资源集中在观察者正在查看和/或可能正在查看的图像区域中可以使用于将图像作为整体进行处理的处理资源整体上减少，和/或可以使目标区域的可用处理资源增加，从而使得该目标区域中的处理更有效和/或更高效。在一些示例中，第二处理方案涉及以比第一处理方案中使用的质量等级更高的质量等级进行处理。

在第一处理方案涉及以第一处理速率进行处理的示例中，第二处理方案可以涉及以不同的第二处理速率进行处理。例如，第二处理方案可以涉及以低于第一处理方案的频率处理图像数据。在要处理包括图像序列的视频流的情况下，第一处理方案可以涉及处理序列中的每个图像，而第二处理方案可以涉及仅处理序列中的每个第二、第三或第四图像。如此，与第一处理方案相比，当使用第二处理方案时，可以减少处理负担。通过降低另一区域的处理速率，图像数据的处理可以变得更有效。另外地或替代地，处理资源可以从另一区域离开而集中到至少一个目标区域上。在一些示例中，第二处理方案涉及以高于第一处理方案的频率处理图像数据。

在第一处理方案涉及根据第一压缩比进行压缩的示例中，第二处理方案可以涉及根据不同的第二压缩比进行压缩。在一些例子中，第二压缩比高于第一压缩比。例如，第一压缩比(作为未压缩大小和压缩大小之间的比)可以是3:2，并且第二压缩比可以是3:1。如此，所接收的数据的另一部分可能比所接收的数据的第一部分压缩程度更高。在一些示例中，第二压缩比低于第一压缩比。如此，第一数据的另一部分可能比所接收的数据的第一部分压缩程度更低。

在一些示例中，处理所接收的数据的给定部分包括丢弃所接收的数据的给定部分中预定数量的最低有效位(LSB)。与丢弃LSB以外的位相比，丢弃LSB可能会减少视觉质量的损失量。预定数量与给定部分相关联。在这样的示例中，第一处理方案可以涉及丢弃第一数量的LSB，并且第二处理方案可以涉及丢弃不同的第二数量的LSB。如此，对于图像的不同区域可能会丢弃不同数量的LSB。例如，对于至少一个目标区域，可以丢弃较小数量的位，该至少一个目标区域可以用于以相对较高的质量等级显示，而对于另一区域，可以丢弃较大数量的位，该另一区域可以用于以相对较低的质量等级显示。在一些示例中，将丢弃另一区域的所有位。换句话说，在这种示例中，第一数据的第二部分可以被完全丢弃。

在一些示例中，第一处理方案涉及对所接收的数据的第一部分执行无损或视觉无损压缩。无损压缩是一种类型的数据压缩，其中，原始未压缩的数据可以由压缩的数据重建。视觉无损压缩是一种类型的有损压缩，其中眼睛无法检测到由于压缩和解压缩而丢失的数据。在一些示例中，所接收的数据的第一部分没有被压缩。处理所接收的数据的另一部分可以包括对所接收的数据的进另一部分执行有损压缩。在有损压缩中，并非所有未压缩的数据都可以从压缩和解压缩过程中恢复。

通过使用不同的压缩比来处理所接收的数据的第一部分和第二部分，可以减少用于表示图像的数据量，而不会降低感知的视觉质量等级。减少用于表示图像的数据量有助于更有效的图像数据处理。另外，减少用于表示图像的数据量可以减少接收、处理、生成和/或输出这种数据中的延迟，而无需增加图像处理系统的互连或显示链接的带宽。

在一些示例中，处理所接收的数据的第一部分包括得出第一处理数据，处理所接收的数据的第二部分包括得出第二处理数据。在示例中，第一处理数据和第二处理数据中只有第一处理数据被输出。如此，在这样的示例中，没有输出第二处理数据。例如，第一处理数据可以被输出到存储器和/或可以被传输到显示器设备。与第一处理数据和第二处理数据都被输出的情况相比，第一处理数据和第二处理数据中只输出第一处理数据减少了要存储、传输和/或进一步处理的数据量。

如上所述，对所接收的图像数据的第一部分进行处理以在至少一个目标区域中执行对象检测。在一些示例中，使用第二处理方案来处理所接收的数据的第二部分包括在图像的另一区域中执行对象检测。然而，在其他示例中，在图像的另一区域中不执行对象检测。

在一些示例中，使用第一处理方案处理所接收的数据的第一部分包括使用第一人工神经网络(ANN)来在至少一个目标区域中执行对象检测和/或对象识别。第一ANN可以具有第一网络结构，例如，层和神经元的第一配置。

在一些示例中，第二处理方案涉及使用第二ANN。例如，第二ANN可以用于在图像的另一区域中执行对象检测和/或识别。与第一ANN相比，第二ANN可以具有不同数量的层和/或不同数量的神经元。如此，与第一ANN相比，第二ANN可以具有不同的网络结构。第二ANN可能比第一ANN更小和/或不复杂。如此，与使用第一ANN相比，使用第二ANN可能在处理器方面更不密集和/或花费更少的时间。然而，与第一ANN相比，第二ANN在执行对象检测和/或对象识别方面可能较不准确和/或较不可靠。因此，对于图像的至少一个目标区域，可以使用相对复杂但精细的ANN来执行对象检测和/或识别任务，而对于另一图像区域，可以使用相对简单但计算量更轻的ANN。因此，通过将处理资源集中在观察者正在查看或可能正在查看的(一个或多个)图像区域上，可以更有效地部署这样的资源。

在一些示例中，第二ANN具有与第一ANN相同的结构。在一些示例中，第二处理方案涉及使用第一ANN。如此，第一处理方案和第二处理方案都可能涉及使用相同的ANN。在这样的示例中，对于不同的图像区域，第一ANN的输入可能不同。例如，至少一个目标区域的图像数据可以以比另一区域的图像数据更高的质量等级和/或更高的速率输入到第一ANN。在一些示例中，第一ANN可针对至少一个目标区域与第一数量的对象类结合使用，并针对另一区域与不同的第二数量的对象类结合使用。例如，与第二处理方案相比，可以在第一处理方案中使用更多数量的对象类。

在一些示例中，使用第一处理方案处理所接收的数据的第一部分包括在至少一个目标区域中执行对象识别。执行对象识别可以包括执行对象检测。在一些示例中，对象检测是在初始处理阶段执行的，而对象识别是在后续处理阶段执行的，例如，用于识别或分类(一个或多个)所检测的对象。使用第二处理方案处理所接收的数据的第二部分可以包括不在图像的另一区域中执行对象识别。如此，对象检测可以在至少一个目标区域和另一区域两者中执行，但对象识别可以仅在至少一个目标区域中执行。因此，与执行对象识别相关联的处理资源从观察者不在查看的图像区域离开而朝向观察者正在查看的图像区域集中。如此，在对象识别处理方面，观察者实际查看的对象可能优先于观察者未查看和/或观察者无法区分的对象，例如图像的外围区域中的对象。

在一些示例中，使用第一处理方案处理所接收的数据的第一部分包括在图像的至少一个目标区域中利用第一辨别能力来执行对象识别。使用第二处理方案处理所接收的数据的第二部分可以包括在图像的另一区域中利用不同的第二辨别能力来执行对象识别。辨别能力可能与区分视觉相似对象的能力有关。例如，给定的辨别能力可以对应于可利用其区分对象的敏感度或粒度等级。辨别能力可以基于用于执行对象识别的ANN的结构和/或训练。辨别能力可以附加地或替代地基于对象识别中所使用的不同对象类的数量。使用第一处理方案可以涉及能够区分具有给定相似度等级的两个对象，而使用第二处理方案可以涉及无法区分这两个对象。

在一些示例中，使用第一处理方案处理所接收的数据的第一部分包括在至少一个目标区域中使用第一数量的对象类来执行对象识别。使用第二处理方案处理所接收的数据的第二部分可以包括在图像的另一区域中使用不同的第二数量的对象类来执行对象识别。对象类的第一数量可以大于对象类的第二数量。如此，至少一个目标区域中的对象识别可能比另一区域中的对象识别具有更精细的粒度。与(一个或多个)目标区域和另一区域两者使用相同数量的对象类的情况相比，通过针对另一区域使用较少的对象类，另一区域中的对象识别可能需要较少的计算和/或处理能力。如此，对于执行(一个或多个)目标区域中的对象识别的任务，可以减少和/或重新分配用于处理另一区域的处理资源。在一些示例中，对象类的第一数量小于类的第二数量。

通过提高处理效率和/或减少用于执行对象检测的处理资源的量，可以使用具有相对较小的形状因子和/或有限处理能力的硬件来执行这样的对象检测任务。例如，这样的对象检测任务可以由可穿戴设备执行，而无需将这样的处理任务卸载到另一计算实体或网络实体。通过在可穿戴设备上本地执行这样的处理任务，可以进一步减少执行对象检测的延迟，并可以增加可穿戴设备的功能。

在一些示例中，使用第三处理方案处理所接收的数据的第三部分。第三处理方案不同于第一处理方案和第二处理方案两者。所接收的数据的第三部分表示图像中位于至少一个目标区域和另一区域之间的区域。在所述至少一个目标区域包括聚焦区域并且所述另一区域包括外围区域的情况下，由所接收的数据的第三部分表示的图像的区域可以处于聚焦区域和外围区域中间。在一些示例中，根据另外的处理方案来对所接收的数据的另一部分进行处理。

在一些示例中，得出了环境的地图表示。该地图表示是至少部分基于对所接收的图像数据的第一部分的处理而得出的。得出地图表示可以形成SLAM过程的一部分。如此，SLAM处理可以集中在观察者正在查看的(一个或多个)图像区域和/或远离观察者不在查看的(一个或多个)图像区域。利用对象识别和场景理解的SLAM处理(例如所谓的“语义上的SLAM”)可以通过将处理集中在观察者正在查看的(一个或多个)图像区域来变得更有效。

人类视觉系统具有可变的视觉锐度。人眼的大部分感觉器官(receptor)位于中央凹(fovea)中，中央凹是眼睛中负责敏锐的中央视觉的区域。与全视野相比，中央凹是小的。对于一些显示器，例如近眼显示器，眼睛在任何时刻只能感知显示器上的信息的一个子集。对于一些图像，例如分辨率为1920×1080像素，大约图像分辨率的35％或672×378像素足以覆盖人的中央凹。这相比于整个图像，像素少大约8倍。中央凹处理采用图像数据处理，以将处理资源集中在中央凹区域。在观察者正在查看的区域中，可以使用更多的处理资源来处理图像数据，而在观察者未在查看的区域中，可以使用更少的处理资源来处理图像数据。由于观察者无法轻易区分外围图像区域中的对象，因此在一些情况下(例如在有限硬件资源可用的情况下)，在这些区域中执行对象检测和/或识别可能会导致资源使用效率低下。因此，相比于在整个图像(包括对象无法由观察者区分的区域)上执行对象检测和/或识别的情况，将目标检测和/或识别集中在中央凹区域可以更有效地使用处理资源。

在接收表示渲染图像的数据之前，在一些示例中，所述图像的至少一个目标区域可以在第一质量等级下渲染，并且该渲染图像的另一区域可以在不同的第二质量等级下渲染。例如，图像可以由GPU渲染。在一些示例中，由所接收的图像数据表示的图像是中央凹渲染过程的结果。中央凹渲染涉及以较高的质量等级(例如分辨率)渲染与观察者的中央凹的当前固定点相对应的图像区域，以及以较低的质量等级渲染其他图像区域(例如外围区域)。例如，通过以较低分辨率渲染图像的外围区域，而不是以最高分辨率渲染整个图像，中央凹渲染可以减少GPU上的渲染负担。可以基于眼睛跟踪数据执行中央凹渲染。在这样的示例中，已经用于中央凹渲染的眼睛跟踪数据可以重新用于中央凹对象检测处理。相比于获得单独的眼睛跟踪数据以执行中央凹对象检测处理的情况，这可能会减少生成、传输、处理和/或接收的数据量。在其他示例中，至少一个目标区域和另一区域以相同的质量等级渲染。如此，在一些示例中不会执行中央凹渲染。

图3示意性地示出了根据示例的用于实现图像处理流水线的系统300。系统300的组件可以被配置为执行本文所述方法的至少一部分。图3中所描绘的一些项目与图1中所示的项目类似。因此，对应附图标记(递增200)用于类似项目。

在该示例中，系统300包括眼睛跟踪设备350。眼睛跟踪设备350被配置为执行眼睛跟踪，也称为注视跟踪。眼睛跟踪设备350可以包括一个或多个眼睛跟踪传感器，所述一个或多个眼睛跟踪传感器被配置为跟踪眼睛运动和/或确定图像的观察者的注视位置和/或注视方向。在一些示例中，眼睛跟踪设备350可以被包括在显示器设备(未显示)中。例如，在显示器设备包括HMD的情况下，眼睛跟踪设备350可以形成HMD的一部分和/或安装在HMD上。在其他示例中，眼睛跟踪设备350与显示器设备分开。

眼睛跟踪设备350被配置为生成眼睛跟踪数据355。眼睛跟踪数据355可用于识别与观察者的注视方向相关联的至少一个目标图像区域。眼睛跟踪数据355可以与观察者的至少一只眼睛的中央凹的当前固定点有关。所述至少一个目标区域可以图像中与以观察者的至少一只眼睛的中央凹的当前固定点为中心的子区域相关。

眼睛跟踪设备350被配置为将眼睛跟踪数据355输出到图像处理装置310。在一些示例中，眼睛跟踪数据355经由一个或多个外围设备由图像处理装置310接收。眼睛跟踪数据355可以作为元数据被接收。已由图像处理装置310接收到的眼睛跟踪数据355可以存储在存储器中，例如，存储在中央存储器330和/或本地或“片上”存储器中。

图像处理装置310被配置为使用眼睛跟踪数据355对所接收的图像数据进行中央凹计算，以便可以在图像的至少一个目标区域中执行对象检测。图像处理装置310被配置为以不同的方式处理不同的图像区域。独立处理的图像区域的数量可以是常量或变量。根据示例，可独立处理的图像区域彼此可以具有相同的大小或不同的大小。

在一些示例中，ISP 312被配置为接收眼睛跟踪数据355或由此得出的数据，以使ISP 312能够推断出观察者正在查看给定图像的哪个(哪些)区域。ISP 312被配置为使用第一处理方案处理所接收的图像数据(例如原始图像数据)的第一部分，第一部分表示观察者正在查看的(一个或多个)区域，并且使用不同的第二处理方案处理所接收的图像数据的另一部分，另一部分表示图像的另一区域，例如外围区域。例如，ISP 312可以被配置为丢弃所接收到的图像数据的另一部分。如此，ISP 312可以被配置为裁剪所接收的图像，以便仅保留和/或输出(一个或多个)目标区域。在一些示例中，ISP 312被配置为比压缩图像数据的第一部分更强地压缩表示另一区域的另一部分。在一些示例中，ISP 312被配置为仅压缩第一部分和另一部分中的另一部分。ISP 312可以被配置为将使用图像数据的第一部分得出的数据输出到帧缓冲器。

通过将ISP 312配置为执行中央凹计算，可以在例如由CPU 314、GPU 316、CV引擎318和显示器控制器320中的一个或多个执行后续图像处理阶段之前在图像处理流水线的早期获得处理资源、存储和/或功耗的节约。此外，通过将ISP 312配置为执行中央凹计算，可以使用除中央凹图像传感器以外的图像传感器。对于不同的图像区域，中央凹图像传感器具有不同的传感器像素密度。然而，可能难以改变这样的区域的位置，例如考虑到观察者的不同注视方向。此外，这样的中央凹传感器可能相对昂贵，并且可能需要中央凹感测“始终打开”，因为中央凹传感器具有固定配置。通过将ISP 312配置为执行中央凹计算，可以使用标准图像传感器，并且可以选择性地使用中央凹处理，例如，可以根据需要“打开”或“关闭”中央凹处理，并且可以适应观察者的不同注视方向。

在一些示例中，CPU 314、GPU 316和CV引擎318中的一个或多个被配置为执行中央凹计算。除执行中央凹计算的ISP 312之外或者替代ISP 312，这样的实体可以执行中央凹计算。例如，CV引擎318可以被配置为接收图像数据，使用第一处理方案处理图像的目标区域以在目标区域中执行对象检测，并使用不同的第二处理方案处理图像的另一区域。CV引擎318可以被配置为接收眼睛跟踪数据355或由此得出的数据，以使CV引擎318能够推断观察者正在查看给定图像的哪个(哪些)区域。所接收的图像数据可能已经进行了中央凹计算，例如由上游ISP 312执行的中央凹压缩和/或裁剪。在其他示例中，由CV引擎318接收的图像数据可能没有经过上游中央凹计算。

图4示意性地示出了图像400。例如，图像400可从视频数据中获得。图像400可以基于从一个或多个图像传感器输出的捕获图像数据获得。图像400可以描绘场景。

图像400包括目标区域410。目标区域410是与图像400相关的感兴趣区域。目标区域410可以对应于图像400中观察者当前正在查看和/或可能查看的区域。目标区域410是与图像400相关的感兴趣区域，因为观察者可能对目标区域410中的图像的质量等级和/或图像处理等级特别敏感。在示例图像400中，目标区域410对应于图像400中包括汽车412的区域。尽管目标区域410在图4中被描绘为矩形，但它可以采用不同的形式。例如，在一些示例中，目标区域410可以是圆形的。目标区域410可以对应于图像400中感兴趣的项目的轮廓，例如汽车412的轮廓。

图像可以包括一个或多个目标区域。例如，图像可以包括与相应的不同观察者关联的多个目标区域，其中多个观察者同时查看图像。

图像400包括另一区域420。另一区域420可以对应于图像400中观察者当前不在查看和/或不太可能查看的区域。在示例图像400中，另一区域420对应于图像400中包括奶牛422和狗424的区域。观察者不太可能区分比目标区域410更远的区域中的对象，和/或不太可能感知比目标区域410更远的区域420中的图像的质量等级。例如，观察汽车412的观察者可能没有注意到或可能无法区分奶牛422或狗424，因为它们在观察者的中央凹区域外部。在该示例中，另一区域420围绕目标区域410。图像可以包括一个或多个这样的另一区域。

在图像400的至少目标区域410中执行对象检测，例如检测汽车412的存在。例如，为了计算机视觉的目的，可以执行对象检测。在一些情况下，对象检测也在另一区域420中执行，例如检测奶牛422和/或狗424的存在。然而，在一些情况下，在另一区域420中不执行对象检测，从而与对整个图像执行对象检测的情况相比，减少了处理资源。如此，对象检测可以仅在观察者正在查看和/或可能正在查看的图像的(一个或多个)区域中执行，并且在观察者无法轻易区分对象的图像的(一个或多个)区域中，可能不执行对象检测。

在一些示例中，在图像400的至少目标区域410中执行对象识别，以例如识别汽车412。对象识别可以包括从多个可能的对象类或类型中识别对象类或类型。所标识的对象类或类型对应于特定检测到的对象。例如，汽车412可以被识别为汽车，而不是船或火车。在示例中，基于目标区域410中的对象识别，汽车412可以被识别为具有特定的品牌或型号。

在一些示例中，对象识别可以在目标区域410和另一区域420两者中执行。在一些这样的示例中，辨别能力和/或可能的对象类的数量可能在目标区域410和另一区域420之间不同。例如，在目标区域410中，可以区分两种不同车型的汽车。然而，在另一区域420中，由于在另一区域420中使用的辨别能力和/或对象类的数量减少，可能无法区分不同车型的汽车或不同类型的动物等。

图5示意性地示出了用于实现方法(例如参考图2所述的方法200)的装置500。装置500可以包括以下项中的一个或多个或被包括在以下项中：上述图像处理装置110、310，ISP112、312，CPU 114、314，GPU 116、316或计算机视觉引擎118、318。

装置500包括接收器510。

接收器510被配置为接收表示图像的数据。该图像包括至少一个目标区域和另一区域。至少一个目标区域可使用指示图像的观察者的注视方向的数据来识别。因此，至少一个目标区域与观察者的注视方向相关联。例如，至少一个目标区域可以对应于观察者的中央凹的当前固定点。

装置500还包括处理器520。处理器520可使用机器可读指令和适当编程或配置的硬件(例如电路)来实现。

处理器520被配置为使用第一处理方案处理表示图像的数据的第一部分，以在图像的至少一个目标区域中执行对象检测。第一部分表示至少一个目标区域。

处理器520还被配置为使用不同的第二处理方案处理表示图像的数据的第二部分。另一部分表示与至少一个目标区域不同的另一区域。例如，另一区域可以包括图像的外围区域。

处理器520还被配置为输出至少第一处理数据。例如，至少第一处理数据可以经由显示器接口输出到显示器设备。

上述示例与图像数据有关。在其他示例中，其他类型的信号数据以类似的方式处理。其他类型的信号数据的示例包括但不限于音频数据、体积信号数据和视频数据。

上述示例与执行对象检测有关。在其他示例中，不执行对象检测。在这样的其他示例中，中央凹处理可应用于其他计算机视觉任务，例如运动估计、场景重建或图像恢复。

要理解的是，关于任何一个示例所描述的任何特征可单独使用，或与所描述的其它特征组合使用，并且还可以与任何其他示例中的一个或多个特征或任何其他示例的任何组合一起组合使用。此外，在不偏离由所附权利要求限定的本发明范围的情况下，也可采用以上未描述的等效物和修改。

Claims

1.一种执行对象检测的方法，包括：

接收表示图像的数据，所述图像包括至少一个目标区域和另一区域，所述至少一个目标区域能够使用指示所述图像的观察者的注视方向的数据来识别；

使用第一处理方案处理所述数据的第一部分以在所述图像的所述至少一个目标区域中执行对象检测，所述第一部分表示所述至少一个目标区域；以及

使用不同的第二处理方案处理所述数据的第二部分，所述第二部分表示所述另一区域，

其中，使用所述第一处理方案处理所述数据的所述第一部分包括在所述至少一个目标区域中利用第一辨别能力执行对象识别，所述第一辨别能力对应于第一敏感度，所述第一处理方案能够利用所述第一敏感度区分对象，

其中，使用所述第二处理方案处理所述数据的所述第二部分包括在所述另一区域中利用不同的第二辨别能力执行对象识别，所述第二辨别能力对应于第二敏感度，所述第二处理方案能够利用所述第二敏感度区分对象，并且

其中，所述第一辨别能力大于所述第二辨别能力。

2.根据权利要求1所述的方法，其中，处理所述数据的所述第二部分包括丢弃所述数据的所述第二部分。

3.根据权利要求1所述的方法，其中，所述第一处理方案涉及以第一等级的视觉质量进行处理，并且所述第二处理方案涉及以不同的第二等级的视觉质量进行处理；或者所述第一处理方案涉及以第一处理速率进行处理，并且所述第二处理方案涉及以不同的第二处理速率进行处理；或者所述第一处理方案涉及根据第一压缩比进行压缩，并且所述第二处理方案涉及以不同的第二压缩比进行压缩。

4.根据权利要求1所述的方法，其中，处理所述数据的所述第一部分包括得出第一处理数据，并且处理所述数据的所述第二部分包括得出第二处理数据，所述方法包括仅输出所述第一处理数据和所述第二处理数据中的所述第一处理数据。

5. 根据权利要求1所述的方法，其中，所接收的表示所述图像的数据包括：

从图像传感器输出的原始图像数据；或

从视频解码器输出的解码图像数据。

6.根据权利要求1所述的方法，其中，使用所述第一处理方案处理所述数据的所述第一部分包括使用第一人工神经网络以在所述至少一个目标区域中执行对象检测和/或对象识别，

其中，所述第二处理方案涉及使用：

第二人工神经网络，与所述第一人工神经网络相比，所述第二人工神经网络具有不同数量的层和/或不同数量的神经元；或

所述第一人工神经网络。

7.根据权利要求1所述的方法，其中，使用所述第一处理方案处理所述数据的所述第一部分包括：

在所述至少一个目标区域中使用第一数量的对象类执行对象识别，其中，使用所述第二处理方案处理所述数据的所述第二部分包括在所述另一区域中使用不同的第二数量的对象类执行对象识别。

8.根据权利要求1所述的方法，所述方法包括：

使用第三处理方案处理所述数据的第三部分，所述第三处理方案不同于所述第一处理方案和所述第二处理方案，所述第三部分表示所述图像的位于所述至少一个目标区域和所述另一区域之间的区域；

至少部分基于所述数据的所述第一部分的处理得出环境的地图表示；或

从眼睛跟踪传感器接收指示所述观察者的注视方向的数据，并且使用指示所述观察者的注视方向的数据识别所述至少一个目标区域。

9. 一种用于执行对象检测的装置，所述装置包括：

接收器，其被配置为接收表示图像的数据，所述图像包括至少一个目标区域和另一区域，所述至少一个目标区域能够使用指示所述图像的观察者的注视方向的数据来识别；以及

处理器，其被配置为：

使用第一处理方案处理所述数据的第一部分，以在所述图像的所述至少一个目标区域中执行对象检测，所述第一部分表示所述至少一个目标区域；并且

其中，所述第一辨别能力大于所述第二辨别能力。

10.一种非暂时性计算机可读存储介质，包括一组计算机可读指令，所述一组计算机可读指令在由至少一个处理器执行时，使得所述至少一个处理器：

使用第一处理方案处理所述数据的第一部分，以在所述图像的所述至少一个目标区域中执行对象检测，所述第一部分表示所述至少一个目标区域；以及

其中，所述第一辨别能力大于所述第二辨别能力。