CN111295872B

CN111295872B - 获得场景中的对象的图像数据方法、系统以及可读介质

Info

Publication number: CN111295872B
Application number: CN201880072057.9A
Authority: CN
Inventors: F.特尔哈尔; N.范德斯塔普; H.M.斯托金; M.普林斯; S.甘克尔
Original assignee: Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO; Koninklijke KPN NV
Current assignee: Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO; Koninklijke KPN NV
Priority date: 2017-11-10
Filing date: 2018-11-09
Publication date: 2022-09-09
Anticipated expiration: 2038-11-09
Also published as: EP3707892A1; US11582383B2; US20210112193A1; EP3707892B1; WO2019092161A1; CN111295872A

Abstract

提供了一种方法和处理器系统，该方法和处理器系统分析可以从捕获场景的深度信息的距离传感器获得的深度图，以识别对象在该场景中的位置。因此，可以在包括该对象的场景中识别出感兴趣区域，并且可以选择性地获得该感兴趣区域的图像数据而不是包含该对象的整个场景的图像数据。此图像数据可以通过被配置用于捕获该场景的可见光信息的图像传感器获取。通过仅选择性地获得该感兴趣区域内的图像数据而不是所有图像数据，可以实现对该图像数据的可能的进一步处理的计算复杂度、该图像数据的存储和/或该图像数据的传输的改进。

Description

获得场景中的对象的图像数据方法、系统以及可读介质

技术领域

本发明涉及一种用于获得场景中的对象的图像数据的方法和处理器系统。本发明进一步涉及一种包括用于使处理器系统执行该方法的指令的计算机程序。本发明进一步涉及一种被配置用于经由网络将对象的图像数据提供给另一网络实体的处理器系统。

背景技术

现如今，相机无处不在，并且被包括在诸如智能电话、平板计算机、数字助理、膝上型计算机、监视器等设备中，或者被实施为诸如安全相机、动作相机等独立设备。

存在利用所获取的图像数据的各种应用。这些应用的子集专门利用捕获的场景内的特定对象的图像数据。此处，术语‘捕获的场景’是指物理世界的在相机的视野内并由相机成像的一部分。对象可以是在图像数据中可见的任何对象，并且通常是诸如人、动物、艺术品等物理对象。

例如，在基于视频的虚拟现实（VR）会议（也称为‘VR社交’）中，可以用相机记录参与者。然而，由相机捕获的图像数据不仅示出参与者，而且通常还示出参与者的周围环境。通常期望在VR环境中仅示出参与者，例如，不示出他/她的周围环境。这样，可能需要先对图像数据进行处理，以将参与者的图像数据与他/她的周围环境的图像数据分离开。这些周围事物通常也被称为‘背景’，而对象（例如人）被称为‘前景’。这种处理可以包括将所谓的‘背景去除’技术应用于场景的图像数据。背景去除也被称为前景提取，并且通常可以利用前景/背景分割技术来达成对象的空间分割。

还存在专门利用捕获的场景内特定对象的图像数据的其他应用。例如，在涉及在博物馆中保护画作的安全应用中，可能期望例如通过检测人是否进入画作周围的安全界限来监视特定画作。然而，可以将安全相机定位成使得其视野还包括在画作前方的、允许人进入并且因此安全应用对其较不感兴趣的观看区域。

然而，对特定应用而言，处理图像数据的实体可能首先需要获得所有图像数据，以使所有图像数据在本地可用。此处，‘所有图像数据’可以是指由相机捕获的整个图像，例如，对应于相机的（基本上）整个视野。获得此图像数据可能涉及经由诸如内部或外部总线或网络等带宽受限链路来接收图像数据。不利地，这可能导致带宽受限链路的带宽被超过，或者至少被消耗了很大一部分。获得所有图像数据可能还需要在处理图像数据的实体处的大量存储空间。另一缺点是，可能会对所有图像数据应用由实体执行的处理（例如背景去除），这可能是计算密集型的。

发明内容

将有利的是，能够以解决上述缺点中的至少一个的方式获得场景中的对象的图像数据。

根据本发明的第一方面，可以提供一种用于使用距离传感器和图像传感器来获得场景中的对象的图像数据的方法，其中，该距离传感器与该图像传感器可以具有已知的空间关系，该距离传感器可以被配置用于捕获该场景的深度信息，并且该图像传感器可以被配置用于捕获该场景的可见光信息。该方法可以包括：

- 获得通过该距离传感器获取的该场景的深度图；

- 分析该深度图以识别该场景中的感兴趣区域，其中，该感兴趣区域包含该对象；

- 生成指示该感兴趣区域的选择数据；以及

- 基于该选择数据，选择性地获得该感兴趣区域的图像数据，其中，该图像数据是通过该图像传感器获取的。

根据本发明的另一方面，提供了一种包括计算机程序的暂态或非暂态计算机可读介质。该计算机程序可以包括用于使处理器系统执行该方法的指令。

根据本发明的又一方面，可以提供一种可以被配置用于使用距离传感器和图像传感器来获得场景中的对象的图像数据的处理器系统，其中，该距离传感器与该图像传感器可以具有已知的空间关系，该距离传感器可以被配置用于捕获该场景的深度信息，并且该图像传感器可以被配置用于捕获该场景的可见光信息。该系统可以包括：

- 通信接口，该通信接口连接到诸如总线或网络等带宽受限链路；

- 处理器，该处理器被配置用于：

经由该通信接口获得通过该距离传感器获取的该场景的深度图；

分析该深度图以识别该场景中的包含该对象的感兴趣区域；

生成指示该感兴趣区域的选择数据；以及

基于该选择数据并使用该通信接口，选择性地获得通过该图像传感器获取的该感兴趣区域的图像数据。

上述措施本质上可以涉及使用距离传感器来获取场景的深度信息，基于该深度信息来确定包括该对象的场景中的感兴趣区域，然后选择性地获得该感兴趣区域的图像数据而不是该场景的所有图像数据。因此，此处，术语‘选择性地获得’可以是指仅获得感兴趣区域的图像数据、或者仅获得具有很小的空间裕量的此图像数据。

随着距离传感器的日趋商品化，并且越来越多的应用利用可通过距离传感器感测到的场景的深度信息，如今这样的距离传感器被广泛使用。在许多但不是全部情况下，通过这样的距离传感器获得的深度图也可以由使用对象的图像数据的同一应用使用。例如，在VR社交中，深度图可以用于背景去除/前景提取。

发明人已经设计出使用场景的这种深度图来识别对象在场景中的位置。即，在深度图中通常可以容易地识别出对象。例如，当对象在物理世界中沿着距离传感器的感测方向与其周围环境分开时，也可以在深度图中清晰地识别出该对象。例如，在人坐在墙壁前方的情况下，这个人可以由深度图中指示与深度图中的墙壁的表示相比与距离传感器更近的接近度的深度值来表示。这样，可以在包括该对象的场景中识别出感兴趣区域，并且可以选择性地获得该感兴趣区域的图像数据而不是包含该对象的整个场景的图像数据。

这可以提供一个或多个优点。例如，深度图通常在大小上小于场景的图像，并且因此在经由带宽受限链路获得时需要较少的带宽、在本地存储时需要较少的存储空间等。例如，深度图通常仅包括一个通道，即，深度信息，而可见光图像通常是以彩色采集的，并且因此可能包括三个通道，例如R、G、B或Y、U、V。另外，深度图可以固有地具有比可见光图像低的空间分辨率，例如由于距离传感器的空间分辨率比图像传感器的空间分辨率低。尽管如此，此较低的空间分辨率仍能足以识别感兴趣区域。

作为特定示例，假设RGB传感器的分辨率为1920 × 1080像素，并且距离传感器的分辨率为512 × 424像素。现在假定RGB传感器针对每种颜色使用每像素8位，并且深度图也使用每像素8位。于是，一个RGB帧会使用1920 × 1080 × 3 × 8 = 49766400位（大约6兆字节），而一个深度图会使用512 × 424 × 8 = 1736704位（大约0.2兆字节）。如果感兴趣区域是整个传感器的空间分辨率的50%，则使用深度图（耗费0.2 MB）将节省RGB数据的一半，即，3 MB。即使当不使用深度数据进行前景/背景分割时，这也是非常值得的。即使感兴趣区域正在使用RGB传感器的大部分也是如此，例如，即使只有10%的RGB数据落在感兴趣区域之外，这10%仍然是0.6 MB，仍然是深度图数据的耗费的3倍。

另一优点在于，可以避免需要将图像数据的特定于应用的处理（诸如在VR社交的情况下的背景去除）应用到所有的图像数据。相反，处理图像数据的实体可以仅需要将处理应用于感兴趣区域的图像数据。因此，可以减少这种类型的处理的计算复杂度，并且从而降低功耗，这进而可以延长电池寿命。

在上文和下文中，术语：

‘距离传感器’可以是指被配置用于感测场景的深度信息的传感器（例如感测元件或设备），该感测可以基于包括但不限于飞行时间（ToF）、结构光、立体三角测量、干涉测量等已知原理。例如，距离传感器可以由单个ToF传感器、红外投影仪和红外相机的组合、被布置用于立体观察的两个可见光相机等表示。

‘图像传感器’可以是指被配置用于感测场景的可见光信息的传感器（例如感测元件或设备），该传感器还可以感测诸如红外和UV的邻近波长。例如，图像传感器可以是相机的一部分，该相机进一步包括一个或多个透镜。图像传感器的示例是众所周知的CCD和CMOS传感器。

‘……具有已知的空间关系’可以是指距离传感器与图像传感器对同一场景（例如，物理世界的同一部分）进行成像，或者具有相对于物理世界重叠的视野，在这种情况下，该重叠对于分析深度图并生成选择数据的实体是已知的。例如，可以通过校准或通过以已知方式物理地布置距离传感器和图像传感器来量化这种重叠。

‘深度图’可以是指类似图像的数据结构，该数据结构包含指示距离传感器到距离传感器的视野中的相应位置的距离的值。该距离可以表达为绝对深度值（例如，以厘米或米为单位）、表达为相对深度值（例如，从0到1），还可以通过指示所述深度的值（例如，通过视差值）来表示。用于深度值与视差值之间进行转换的方法本身就是距离成像领域的技术人员已知的。

‘感兴趣区域’可以是小于整个图像但通常大于对象的区域。例如，感兴趣区域可以通过边界框或在检测到的对象周围与其相距一定裕量的其他几何形状来构造。存在裕量的原因可能是对象的空间边界可能仅是粗略的，而非可在深度图中精确识别出的。存在裕量的另一原因可能是感兴趣区域可能被限制为特定形状（例如矩形），该形状除了对象之外可能还涵盖更多的图像数据。

‘选择数据’可以表示指示感兴趣区域的空间位置和空间范围的数据。例如，选择数据可以包括定义边界框的角点的坐标、指示边界框的中心和大小的列表，或者通常可以包括多边形的轮廓线。在可获得呈空间分割形式的图像数据的一些实施例中，选择数据可以表示一个或多个空间片段的标识符。选择数据还可以表示空间掩模，诸如二元掩模，其中，值‘1’指示像素是感兴趣区域的一部分，而值‘0’则指示像素不是感兴趣区域的一部分。

如此，处理器系统可以例如是包括距离传感器的相机设备（例如包括相机和距离传感器的移动电话），或者其中两个相机都用作距离传感器的立体相机设备。如上所述，图像传感器与距离传感器可以具有已知的空间关系，这意味着通过图像传感器获得的图像数据与通过距离传感器获得的深度图可以具有已知的、优选地固定的空间关系。

在实施例中，选择性地获得该感兴趣区域的图像数据可以包括经由诸如总线或网络等带宽受限链路选择性地接收该感兴趣区域的图像数据。例如，该方法可以由与图像传感器分离或者通常与提供图像数据的实体分离的处理器系统通过带宽受限链路来执行，该带宽受限链路例如是内部总线、诸如通用串行总线（USB）的外部总线、或诸如蓝牙对等网络、局域网和/或互联网的网络。这样，可以减少总线或网络的带宽分配。

在实施例中，选择性地获得该感兴趣区域的图像数据可以包括：配置该图像传感器以选择性地获取该感兴趣区域内的该场景的可见光信息，和/或从包括在该图像传感器中或连接到该图像传感器的存储器中选择性地读出该感兴趣区域的图像数据。在本实施例中，该图像传感器可以是可由生成该选择数据的实体来控制的，或者至少是可由例如图像传感器的可访问的内部存储器以低水平访问的。在前一种情况下，可以例如使用诸如在[2]、[3]和[4]（参见具体实施方式中的参考文献清单）中描述的‘部分捕获’的技术通过图像传感器选择性地获取感兴趣区域的图像数据。在后一种情况下，可以通过图像传感器完整地捕获场景，但是仅从图像传感器、例如从包括在图像传感器中或直接连接到图像传感器的存储器中选择性地读出场景。

在实施例中，可以经由网络通过流式传输从媒体源访问通过该图像传感器获取的该场景的图像数据，并且选择性地接收该图像数据可以包括向该媒体源发信号通知该选择数据，以请求选择性地流式传输该感兴趣区域的图像数据。该图像数据可以通过流式传输从媒体源（例如，可以被实施为处理器系统并被配置用于充当媒体流的网络可访问源的网络实体）获得。此处，同样可以选择性地获得该感兴趣区域的图像数据，即，通过向该媒体源发信号通知该选择数据，这可以使该媒体源能够选择性地流式传输该感兴趣区域的图像数据。例如，该媒体源可以简单地选择性地编码并且然后流式传输该感兴趣区域的图像数据。在另一示例中，该图像数据可以通过例如[5]中描述的图块流式传输获得，并且该选择数据可以被生成为包括一个或多个图块的标识符，该一个或多个图块包括该感兴趣区域的图像数据。为此目的，可以使用本身已知并且定义可用于流式传输的不同图块之间的空间关系的空间关系描述数据。

根据本发明的又另一方面，提供了一种可以被配置为媒体源的处理器系统，该处理器系统可以包括：

- 存储介质，该存储介质用于至少临时存储以下各项：

- 场景的至少一个深度图，该至少一个深度图是通过被配置用于捕获该场景的深度信息的距离传感器获取的

- 该场景的至少一个可见光图像，该至少一个可见光图像是通过被配置用于捕获该场景的可见光信息的图像传感器获取的，该图像传感器与该距离传感器具有已知的空间关系；

- 网络接口，该网络接口连接到包括带宽受限链路的网络，以使该处理器系统能够与媒体客户端进行通信；

- 处理器，该处理器被配置用于经由该网络接口：

向该媒体客户端提供该深度图；

从该媒体客户端接收指示相对于该场景的感兴趣区域的选择数据；并且

基于该选择数据，将该感兴趣区域的图像数据选择性地传输到该媒体客户端。

媒体客户端可以是例如增强现实或虚拟现实渲染系统或媒体渲染系统，诸如，包括电视、头戴式显示器、VR/AR眼镜、用户设备或移动电话、平板计算机、膝上型计算机的显示设备。特别地，包括这种显示设备的媒体客户端或者可连接到这种显示设备的媒体客户端或媒体渲染系统（其中，诸如在虚拟会议系统或任何VR社交系统中，在一个视图中需要组合多个对象或人和/或在不同背景或周围环境中的对象或人必须被合并）都可以从本发明中受益。

在实施例中，识别该场景中的感兴趣区域可以包括将对象检测技术应用于该深度图，和/或基于对象的指示与深度传感器的接近度的深度值来在该深度图中识别该对象。对象检测本身在可见光图像和深度图中两者中都是已知的，并且可以基于包括启发法和机器学习在内的各种技术。此处，‘检测’可以是指对检测对象在深度图内的空间位置，其可以但不必与明确或隐含地检测对象的存在整体地组合。也可以使用相对简单的技术进行对象检测。例如，可以识别超过绝对或相对阈值的深度值的连通集，并因此推测该连通集表示前景对象。所产生的掩模可以表示检测到的对象，并且可以通过图像形态学算子进行后处理。

在实施例中，该深度图可以是在第一时间实例时通过该距离传感器获取的，选择性地获得的图像数据可以是在时间上晚于该第一时间实例的第二时间实例时通过该图像传感器获取的，并且生成该选择数据可以包括补偿该对象在该第一时间实例到该第二时间实例之间相对于该场景的移动。可能的是，选择性地获得的图像数据是或者只能是在比获取从中确定感兴趣区域的深度图的时刻更晚的时刻获取的。这可能有多种原因。例如，深度图的分析可能要花费一定的时间，因此，如果使用选择数据来获取图像，则将在稍晚的第二时间实例时固有地获取图像。如果对象保持相对于场景静止，则选择数据也可以应用于在第二时间实例时获取的图像。然而，如果对象移动，则选择数据可能会定义在第二时间实例时不再完全包含对象的感兴趣区域。因此，可以补偿对象的这种推测的移动。例如，可以对该感兴趣区域的轮廓加上裕量，和/或可以基于对该对象的移动的预测或估计来调整该感兴趣区域的空间位置。例如，基于对该对象的移动的预测来调整该感兴趣区域的空间位置可以包括：将运动估计应用于在不同时间实例时获取的至少两个深度图来确定该对象的移动并将所述移动外推到该第二时间实例。应当理解的是，也可以不直接使用深度图来执行预测，例如，在基于先前确定的多个感兴趣区域、基于从多个提取的前景所产生前景来执行预测的情况下。

本领域技术人员应当理解的是，可以以认为有用的任何方式来组合本发明的上述实施例、实施方式和/或方面中的两个或更多个。

与所描述的两种处理器系统、方法和计算机程序中的另一个相对应的两种系统、方法和计算机程序中的任何一个的修改和变型都可以在本说明书的基础上由本领域技术人员执行。

附图说明

本发明的这些和其他方面根据在下文中描述的实施例是显而易见的并且将参考所述实施例得以阐明。在附图中，

图1示出了相机和处理器系统，该相机包括距离传感器和图像传感器，该处理器系统被配置用于分析由相机提供的深度图，以识别包含对象的感兴趣区域并生成标识该感兴趣区域的选择数据，从而选择性地获得该感兴趣区域的图像数据；

图2示出了图像内的感兴趣区域的示例；

图3示出了处理器系统与相机之间的用于选择性地获得感兴趣区域的图像数据的消息交换；

图4示出了图像的图块表示的示例，其中，感兴趣区域由所述图块表示中的图块的子集表示；

图5示出了媒体客户端与媒体源之间的消息交换，其中，感兴趣区域的图像数据通过流式传输获得；

图6示出了媒体客户端与媒体源之间的消息交换，其中，媒体源向媒体客户端‘推送’数据和指令；

图7展示了对象移动的预测；

图8提供了发送方系统的概图；

图9提供了渲染系统的概图；以及

图10示出了示例性数据处理系统。

应当注意的是，在不同附图中具有相同附图标记的项具有相同结构特征和相同功能或者是相同的信号。如果已经说明了这种项的功能和/或结构，则在具体实施方式中不需要对其进行重复说明。

附图标记和缩写词清单

提供以下附图标记和缩写词清单是为了便于对附图的阐释，并且不应该被解释为限制权利要求。

050 带宽受限链路

100 处理器系统

105 被配置为媒体客户端的处理器系统

120 通信接口

140 处理器

142 深度处理器

144 图像处理器

160 数据存储装置

200 相机

220 距离传感器

240 图像传感器

300 处理器系统

305 被配置为媒体源的处理器系统

320 通信接口

340 处理器

360 数据存储装置

400 深度图

402 对象掩模

410 选择数据

420 图像

422、424 图像的图块表示

430 感兴趣区域

432 感兴趣区域的图像数据

440 表示感兴趣区域的图块

442-446 不同时间实例时表示感兴趣区域的图块

450 对象

452 对象的图像数据

500 确定ROI

502 重复发送深度图，确定ROI

510 去除背景

512 去除背景，更新ROI

520 流式传输前景

1000 示例性数据处理系统

1002 处理器

1004 存储器元件

1006 系统总线

1008 本地存储器

1010 大容量存储设备

1012 输入设备

1014 输出设备

1016 网络适配器

1018 应用程序

具体实施方式

以下实施例涉及或关于基于在空间上指示感兴趣区域的选择数据来选择性地获得场景中的感兴趣区域的图像数据。选择数据可以通过分析场景的深度图来生成，并且感兴趣区域可以被确定以包括场景中的对象。一个非限制性示例是对象可以是人。

在下文中，描述了例如为基于视频的VR会议向感兴趣区域的图像数据应用背景去除/前景提取的特定实施例或示例，这会在小标题‘前景提取’下进行更详细的描述。此处，对象还可以表示为‘前景对象’或简单地表示为‘前景’。然而，如在介绍性的部分中已经指出的，感兴趣区域的这种图像数据也可以用于各种其他用例，例如，在存储安全视频片段时减少存储空间或在执行图像增强时降低计算复杂度。基于本披露，与这样的其他用例有关的另外的实施例在技术人员的能力范围内。

处理器系统和相机实施例

图1示出了第一实施例，其中，提供了包括距离传感器220和图像传感器240的相机200。这种类型的相机本身是已知的，例如采用微软Kinect或雷蛇观星者（RazerStargazer）或华硕Zenfone AR的形式，并且可以使用传感器，例如在发明内容中描述的各种类型的距离传感器。作为具有单独的距离传感器220的替代方案，相机200也可以包括以立体的方式与首先提及的图像传感器240布置在一起的附加的图像传感器。在此示例中，这两个图像传感器可以共同表示基于立体三角测量原理运行的距离传感器220。

在特定示例中，相机200可以是具有图像传感器240的所谓的RGB-D相机，该图像传感器被配置用于获取具有R、G和B颜色分量的彩色图像数据，而距离传感器220可以提供包括深度（D）值的深度数据。在下文中，这种彩色图像数据可以被称为‘彩色图像’或简单地由标签‘颜色’来指代。应当理解的是，还可以获取和/或获得呈任何其他已知的颜色格式（包括但不限于YUV或HSV）的彩色图像数据。另外，代替三分量彩色图像数据，还可以获取任何其他数量的分量，包括一个（单色）。

还如图1所示，可以提供处理器系统100，该处理器系统可以经由带宽受限链路050（诸如内部总线、外部总线或网络）连接到相机200。处理器系统100可以被配置用于经由带宽受限链路050来获得由距离传感器获取的场景的深度图400。处理器系统100可以包括深度处理器142，该深度处理器可以被配置用于分析深度图400以识别场景中的感兴趣区域、特别是包含前景对象的感兴趣区域，并且用于生成指示感兴趣区域的选择数据410。在此示例中，处理器系统100可以例如经由带宽受限链路050将选择数据410提供给相机200。这进而可以使相机200经由带宽受限链路050向处理器系统100提供感兴趣区域的图像数据432。注意，多个链路（例如，总线或网络）可以共同形成相机与处理器系统之间的连接。例如，可以针对上行链路和下行链路使用不同的网络，或者可以针对深度数据和图像数据使用不同的链路。

在特定示例中，可以在处理器系统100配置图像传感器240以选择性地获取感兴趣区域内的场景的可见光信息的基础上，选择性地获得感兴趣区域的图像数据432，例如，如[2]或[3]中描述的。在此示例中，选择数据410可以伴随有控制数据和/或配置数据，以实现对图像传感器240的所述配置。在另一特定示例中，可以以处理器系统100、并且具体地图像处理器144从包括在图像传感器240中或连接到其的存储器（未示出）中选择性地读出图像数据432的方式来选择性地获得感兴趣区域的图像数据432。在又一示例中，图像传感器240可以捕获整个场景，其中，相机包括基于所接收的选择数据410来选择性地输出感兴趣区域的图像数据432的处理器（未示出）。

根据上述基于视频的VR会议的用例，深度处理器142可以另外地生成表示前景对象的掩模402（例如，如也在‘前景提取’下所述的），并且处理器系统100可以进一步包括可以被配置用于基于掩模402将前景提取应用于图像数据432来选择性地获得前景对象的图像数据452并例如向基于视频的VR会议中的其他参与者输出该图像数据的图像处理器144。

进一步参考图1，一个特定示例可以被描述如下。此示例还讨论了所分析的深度图与选择性地获得的图像数据之间的时间关系。此处，相机200可以是通过USB连接（带宽受限链路050）连接到个人计算机（简称为‘PC’，代表处理器系统100）的RGB-D相机。

PC 100可以首先参考基本上同时获取的图像和深度图的组合来取得参考RGB-D图像。然后，PC 100可以取得深度图的流，该深度图的流可以随时间推移顺序地被获取。每个深度图可以用时间戳或序列号来编码。然后，PC 100可以从每个后续深度图中减去参考深度图，并且可选地对结果进行后处理，以获得表示前景对象的深度掩模。此深度掩模在图1中被指示为‘深度前景’402。然后，PC 100可以基于深度掩模来确定感兴趣区域。例如，感兴趣区域可以是包围前景对象同时在前景对象周围加上裕量的矩形区域。然后，可以从相机200获得感兴趣区域的图像数据。这样的图像数据可以在时间上与从中确定感兴趣区域的深度图相对应，例如，这两者与相同的时间戳或序列号相关联。然而，这可能需要相机缓冲图像数据。可替代地，可以在例如接收到选择数据之后的稍晚时刻获取图像数据，并且因此图像数据可以与稍晚的时间戳或序列号相关联。

图2示出了图像420内的感兴趣区域430的示例，该区域可以通过选择数据在空间上定义。此处，感兴趣区域430被定义为在坐标（800，230）与（1200，850）之间的矩形区域。此处示出的对象是人，具体地是他/她的上半身和头部。

图3示出了相机200与处理器系统100之间的消息交换的示例。此示例还讨论了所分析的深度图与选择性地获得的图像数据之间的时间关系。此处和关于消息交换的随后的附图中，消息交换中涉及的实体由相应竖线表示，其中，水平箭头指示消息交换，并且纵轴表示时间轴。

在此示例中，相机200可以被配置或修改成用于支持对RGB图像的部分捕获，例如，该相机可以支持基于感兴趣区域（ROI）的捕获。此外，相机200可以支持请求具有一定时间戳或序列号的图像。相机200可以进一步被配置用于缓冲一定数量的图像，以允许处理器系统100确定感兴趣区域并请求感兴趣区域的具有特定时间戳或序列号的图像数据432。因此，处理器系统100可以请求在时间T1时获取的、具有标记为‘REQ（深度_T1）’的消息的深度图。相机200可以通过提供深度图来做出响应（参见标记为‘深度_T1’的箭头）。处理器系统100然后可以分析深度图以确定500感兴趣区域（参见标记为‘确定ROI’的框），并基于该感兴趣区域来请求在时间T1时获取的、具有标记为‘REQ（图像_T1，ROI）’的消息的感兴趣区域的图像数据。相机200可以通过提供感兴趣区域的图像数据来做出响应（参见标记为‘图像_ T1，ROI’的箭头）。然后，处理器系统100可以执行背景去除510（参见标记为‘去除背景’的框），并且将前景对象的图像数据流式传输520到例如另一实体（参见标记为‘流式传输前 景_图像’的箭头）。这种背景去除可能涉及例如用诸如绿色等纯色替换背景，或者通过将背景的透明度设置为100%等。

在一些实施例中，处理器系统100可能需要知道一方面所接收的感兴趣区域的图像数据与另一方面整个图像之间的空间关系。此信息可以由以‘有状态’的方式操作的处理器系统100提供，例如通过例如与时间戳或序列号相关联地缓冲选择数据来提供。另外地或可替代地，相机200可以例如通过包括与诸如[5]中描述的“空间关系描述符元数据”在类型上类似的位置元数据的来连同图像数据一起指示空间关系。这可以允许处理器系统100将来自T1的深度数据与来自T1的部分图像数据进行匹配。另一替代方案是，处理器系统100可以将感兴趣区域的图像数据与深度数据进行匹配，使得深度数据在空间上与图像数据相匹配，并且可以执行对象的前景提取。

媒体客户端和媒体源实施例

图1至图3涉及通过相机选择性地获取和/或从相机选择性地获得的感兴趣区域的图像数据。参考图4至图7描述的其他类型的实施例涉及通过媒体客户端经由网络从媒体源选择性地获得感兴趣区域的图像数据。此处，媒体源可以是存储图像数据和深度图的媒体服务器，但是该媒体服务器可以不包括或不直接连接到图像传感器和/或距离传感器。可替代地，媒体源可以是包括或直接连接到图像传感器和/或距离传感器的设备，并且该设备可以使捕获的图像数据和/或（多个）深度图可经由网络访问。例如，媒体源可以由智能电话或联网的相机来表示，并且在电信背景下也可以称为‘终端’或‘终端设备’。

媒体客户端可以是网络节点，该网络节点可以被配置用于处理从媒体源获得的图像数据，例如以为基于视频的VR会议执行背景去除，并且可以被配置用于从媒体服务器选择性地获得感兴趣区域的图像数据。媒体客户端可以位于网络中，在一些实施例中，位于媒体源附近或前景图像的最终目的地附近，例如，在诸如5G移动边缘计算机（MEC）的边缘节点中。

媒体客户端还可以是例如增强现实或虚拟现实渲染系统或媒体渲染系统，诸如，包括电视、头戴式显示器、VR/AR眼镜、用户设备或移动电话、平板计算机、膝上型计算机的显示设备。特别地，包括这种显示设备的媒体客户端或者可连接到这种显示设备的媒体客户端或媒体渲染系统（其中，诸如在虚拟会议系统或任何VR社交系统中，在一个视图中需要组合多个对象或人和/或在不同背景或周围环境中的对象或人必须被合并）都可以从本发明中受益。

选择性地获得感兴趣区域的图像数据可以包括媒体客户端经由网络从媒体源请求参考深度图。然后，媒体客户端可以例如以如参考图1至图3描述的方式从媒体源请求一个或多个深度图，以识别感兴趣区域。在确定了感兴趣区域之后，媒体客户端可以从媒体源请求感兴趣区域的图像数据。

在图4至图7的示例中，通过流式传输（例如通过基于图块的流式传输）将感兴趣区域的图像数据提供给媒体客户端。这种基于图块的流式传输或图块流式传输在本领域中是已知的，参见例如[5]。简要地说并且也如图4所示，可以将图像空间分割为图块422。可以使用可以被包括在MPD（媒体呈现描述）中的空间关系描述（SRD）来描述图块之间的空间关系。然后，可以单独地请求图块。在此示例中，使用了所谓的高效视频编码（HEVC）图块，其中，根据当前的HEVC规范 [https://www.itu.int/rec/T-REC-H.265-201612-I/en] 将图像分为5行和5列，这对于全HD图片而言最大。因此，每个图块的大小可以是384 × 216像素，从而建立了如图4所示的25图块表示。

媒体客户端可以在确定感兴趣区域之后将此区域映射到选定数量的图块，或者直接将感兴趣区域确定为选定数量的图块。在确定了选定数量的图块之后，可以例如以选择数据的形式向媒体源标识对这些图块的选择。因此，感兴趣区域可以被表达为对图块422中的一个或多个的选择。例如，在图4的示例中，感兴趣区域440可以由图块中的2 × 4块（例如，对8个图块的选择）来表示。媒体源因此可以通过仅流式传输图块440来流式传输感兴趣区域的图像数据。

可替代地，例如，除了基于图块的流式传输之外，可以使用图像数据的空间分割流式传输的另一种形式。又一替代方案是，媒体源可以例如根据由媒体客户端提供的坐标或其他类型的选择数据而不是依赖于对一个或多个预定义空间片段的选择来简单地裁剪或选择性地编码感兴趣区域。另一替代方案是，可以用一种颜色替换感兴趣区域之外的所有图像数据，从而用统一的颜色替换此‘外围（outside）’图像数据，这可以被更高效地编码。即使随后传输的数据可能具有原始图像数据的分辨率，但该数据也会被更高效地编码，因此也允许节省带宽受限链路的带宽。

图5示出了消息交换，展示了上述通过流式传输获得感兴趣区域的图像数据。该消息交换应用于流式传输，包括但不限于基于图块的流式传输。

在图5中，示出了媒体客户端105通过标记为‘REQ（深度流）’的消息来请求媒体源305开始流式传输深度流，例如深度图的流。作为响应，媒体源305可以将深度流流式传输到媒体客户端105（参见标签‘深度流’）。然后，媒体客户端305可以基于深度流来确定500感兴趣区域（参见标记为‘确定ROI’的框），并且基于所确定的感兴趣区域，通过标记为‘REQ（图 像流，ROI）’的消息来请求图像流。在基于图块的流式传输的情况下，该消息可以包含对一个或多个图块的选择。可替代地，该消息可以包含对另一种类型的空间片段的选择，或者简单地包含表示感兴趣区域的坐标（例如，在SRD中的坐标）或掩模等。作为响应，媒体源305可以流式传输感兴趣区域的图像数据（参见标签‘图像_ROI流式传输’）。然后，媒体客户端105可以执行背景去除512（参见标记为‘去除背景’的框），并且将前景对象的图像数据流式传输520到例如另一实体（参见标签‘流式传输前景_图像’）。

在连续或半连续过程中，媒体客户端105可以基于深度流中的一个或多个稍后接收到的深度图来监视感兴趣区域。如果对象开始移动，则媒体客户端105可以更新512感兴趣区域的定义，也如‘去除背景’之后的标签‘更新ROI’所示。这可能引起选择数据的更新，该更新可以直接或以另一种形式提供给媒体源305（参见标记为‘更新（ROI）’的箭头）。在基于图块的流式传输的情况下，这可能使媒体源305停止流式传输一个或多个图块并且开始流式传输一个或多个其他图块。当通过某种形式的HTTP自适应流式传输（诸如DASH或HLS）执行流式传输时，客户端可以通过连续请求整个流中的较小时间片段来请求流式传输。然后，可以通过请求某些片段中的特定感兴趣区域来执行对此感兴趣区域的请求，并且可以通过例如使用基于图块流式传输的方法简单地请求片段中的其他空间部分来执行对该感兴趣区域的更新。

在图5以及其他附图的示例中，深度图可以用于确定感兴趣区域，还可以用于去除所接收的感兴趣区域的图像数据中的背景。在一些实施例中，前一个或多个深度图可以仅用于确定感兴趣区域。一旦接收到感兴趣区域的图像数据，然后就可以开始背景去除。

在一些实施例中，深度图和图像可以一起传输。在这些实施例中，不需要使用序列号或时间戳，因为每个深度图都直接链接到其伴随的图像。在这样的实施例中，一方面，深度图可以用于确定‘未来’图像中的感兴趣区域，因为该深度图用作对感兴趣区域的图像数据的后续请求的基础。因此，感兴趣区域可以有效地表示对象的位置的预测。另一方面，深度图可以用于去除感兴趣区域的‘当前’图像数据中的背景。

图5的示例基于‘拉取’机制，其中，媒体客户端105（例如，网络节点）从媒体源305（例如，终端）请求数据。代替拉取模型，还可以使用‘推送’机制，其中，媒体源可以将数据和/或指令‘推送’到媒体客户端。

图6示出了这种‘推送’机制的示例，其中，媒体源305可以实例化媒体客户端105上的功能以辅助媒体源建立推送机制。首先，媒体源305可以指示媒体客户端105建立到特定网络目的地的前景对象的图像数据的流，如图6中通过标记为‘创建前景流（目的地）’的消息所示。目的地可以例如由目的地地址、端口号和要使用的协议来指定。为此目的，可以使用TURN（IETF RFC 5766中继穿越绕行NAT，IETF RFC 5766 Traversal Using Relaysaround NAT），或者至少使用TURN的原理，因为TURN通常允许客户端（此处为媒体源）指示中继服务器（此处为媒体客户端）分配用于对流进行中继的部分，其中，客户端可以指示服务器将信道绑定到特定目的地对等端。

随后，可以向媒体客户端105提供包括深度图、并且可选地包括图像的参考，如图6中通过标记为‘供应参考（深度，图像）’的消息所示。接下来，媒体源305可以向媒体客户端105发送深度图，并请求媒体客户端指定感兴趣区域（参见标记为‘REQ_ROI（深度_图）’的消息）。对感兴趣区域的这种指定可以采取如先前参考选择数据所讨论的任何适合的形式。在此特定示例中，来自DASH的SRD [5]可以用于描述矩形感兴趣区域。例如，可以将整个图像划分为16 × 9个图块（水平×垂直），并且媒体客户端可以确定500与从（8，4）到（9，5）的图块（例如，最左上角为（8，4）的2 × 2的图块部分）相对应的感兴趣区域，请参见图6中的标签‘确定ROI’。

媒体客户端105可以例如以包括字符串（0,8,4,2,2,16,9）的选择数据的形式来发送对感兴趣区域的指定（参见标记为‘ROI’的消息），该字符串可以根据以下语法来定义：

属性名称	属性值	注释
			source_id（源_id）	0	内容源的唯一标识符，用于示出空间部分属于什么内容
object_x（对象_x）	8	图块左上角的x坐标
			object_y（对象_y）	4	图块左上角的y坐标
object_width（对象_宽度）	2	图块的宽度
			object_height（对象_高度）	2	图块的高度
total_width（总_宽度）	16	内容的总宽度
			total_height（总_高度）	9	内容的总高度

在媒体源305接收到对感兴趣区域的指定之后，媒体源可以选择性地流式传输感兴趣区域的图像数据，同时可选地，还可以选择性地流式传输感兴趣区域中的深度值例如而不是全部深度图（参见标签‘流式传输ROI（深度，图像）’）。然后，媒体客户端105可以执行背景去除并更新512所请求的ROI（参见标记为‘去除背景，更新ROI’的框），并且将前景对象的图像数据流式传输520到例如另一实体（参见标记为‘流式传输前景_图像’的箭头）。在图6的示例中，还示出了媒体源305定期地向媒体客户端发送整个深度图以更新ROI（参见表示重复‘REQ_ROI（深度_图）’和‘ROI’的大括号502）。这可以促进对象检测，如在一些情况下，例如在大幅度或不规则移动的情况下，无法以媒体客户端当前可从先前的深度图中的感兴趣区域获得的深度值来（完全地）示出对象。

通常，存在多种对图6所示的推送机制的替代方案。例如，可以连续地流式传输整个深度图，并且订阅/通知原理可以用于接收媒体客户端对感兴趣区域的选择的更新。这可以避免对象未被在媒体客户端当前可获得的深度值（完全地）示出的情况。尽管如此，仍然可以选择性地流式传输例如感兴趣区域内的图像数据。

另一替代方案是，仅流式传输感兴趣区域内的图像数据和深度值，并使用预测来随时间推移地调整感兴趣区域。再次，可以使用订阅/通知原理来接收感兴趣区域更新，因为可以在媒体客户端上预测感兴趣区域。

又一替代方案是，媒体客户端可以连续地将检测到的对象的空间位置（例如，坐标）发送到媒体源。然后，媒体源可以执行上述预测，并且确定将哪个感兴趣区域内的图像数据流式传输到媒体客户端。

图7展示了在基于图块的流式传输的背景下的对象移动的预测，这由被划分为标记为A1至C3的9个区域的图像的基于图块的表示424来展示。前景对象在时间T1 442时在中心处被示出，位于区域B2的中心。如在T2 444和T3 446所示的，此前景对象可能在向右移动。如果外推此移动，则预期前景对象将从区域B2移动到C2。在这种情况下，感兴趣区域在开始时可能仅包括区域B2，但是在T3之后可能扩展为也包括C2。如果前景对象继续向右移动并整个到达区域C2，则可以从感兴趣区域中省略B2。这样的移动以及因此其预测通常也可以是水平的、竖直的或对角的，并且速度和加速度/减速度可以发生变化。

前景提取

以下讨论如何执行背景去除/前景提取，在一些实施例中，可以例如为基于视频的VR会议向选择性地获得的感兴趣区域的图像数据应用该背景去除/前景提取。从图像分析、图像处理和计算机视觉的领域中已知各种这样的技术[1]。一个特定示例是，前景提取可以涉及首先捕获没有前景对象的参考，其中，该参考包括深度图并且可选地包括可见光图像。对于现在可以示出前景对象的后续深度图，可以从当前深度图中减去参考深度图，从而获得呈具有（有效）非零值的深度值形式的前景对象的指示。此后，此相减结果也简单地称为前景深度图。

然而，相减的结果可能是有噪声的。例如，在前景深度图的与前景对象相对应的区域中可能存在‘孔’。因此，可以使用已知技术对结果进行后处理。例如，1）可以用更高的值替换零和负值；2）仅将深度值在期望范围（其可以是动态范围）内的像素可以选择为前景；以及3）可以使用侵蚀和膨胀操作来填充孔。

当然，并非所有出现在相减结果中的对象都可以对应于期望的‘前景’对象，因为可能存在相对于场景进入、离开或更改位置的其他对象。因此，可以进行连通分量分析[6]、[7]，以使得能够在例如对象‘人’与‘桌子’之间进行区分，尽管不是在语义上。因此，前景深度图中的对象可以根据期望进行单独寻址，并且被包括在感兴趣区域中或从感兴趣区域中排除。可替代地，可以使用语义对象标记[8]，但这可能受限于先验（训练）信息和有限数量的类别。注意，连通分量分析和类似技术可以允许补偿例如由于相机的摇摄或背景的实际移动而产生的移动的背景，即，通过允许选择场景中的特定对象。

现在，可以将感兴趣区域确定为例如前景深度图中的感兴趣对象附近的边界框或类似的几何构造。可替代地，可以直接将前景深度图用作表示前景对象、并且因此感兴趣区域的掩模。这可能在深度图与图像之间存在像素到像素的映射时效果最好。如果不是这种情况，则可能需要用于此映射的校正步骤，该步骤可以包括例如使用基于特征的单应性计算来对图像上的深度图进行扭曲。这样，还可以考虑仿射变换，这可以更准确地选择对象。掩模可以用于选择性地读出图像传感器、读出连接到图像传感器的存储器，或者通常用于选择性地获得感兴趣区域的图像数据。

一般说明

通常，术语‘获得’可以是指‘接收’，并且术语‘提供’可以是指例如经由内部总线、外部总线或网络的‘发送’。

代替产生深度图的距离传感器，也可以使用产生热图并且可以用于基于对象的热签名来选择包含对象的感兴趣区域的热传感器。因此，对‘深度’的任何提及（如形容词或名词），都可以替代地作必要的变通而理解为‘热’。

除了深度图之外，还可以使用图像数据来选择感兴趣区域。这可以实现对感兴趣区域的更准确的选择。例如，可以基于深度数据和/或图像数据来确定例如用于适应对象相对于场景和/或图像传感器的空间位置的变化而进行的对感兴趣区域的更新。

可以以本身已知的任何方式来定义感兴趣区域，例如，将其定义为边界框，还可以通过非矩形形状（例如，使用几何形状、使用公式、使用对不属于区域部分的‘否定（negative）’描述等）来定义感兴趣区域。

一旦已经确定了初始感兴趣区域，现在也就可以选择性地获得例如作为感兴趣区域内的深度值的深度图。为了允许对象移动，可以使用运动预测和/或空间裕量。

在一些实施例中，前景提取可以不利用深度图，而例如使用在不包含对象的参考图像与包含对象的稍后图像之间的‘差’图像。在这样的实施例中，深度图可以是低分辨率的，因为深度图仅或主要用于识别感兴趣区域，而非用于提取实际前景。

图像传感器可以是被配置用于部分捕获的CMOS传感器。

距离传感器和图像传感器可以被组合在一个设备中，也可以被分开地设置但在空间和时间上对准。

对于移动的相机或移动的背景，可以连续地更新参考深度图和/或图像，以允许从深度图和/或图像中提取前景。

当对象在一定时间段内未移动时，可以仅每X帧（例如，每隔一帧、每10帧等）取得深度图。

如果深度图与图像之间在分辨率、视点或透视方面存在差异，则可以使用空间映射将一个映射到另一个。

如果深度图与伴随的图像（例如，以MPEG-TS）一起传输，则可以省略时间戳或序列号。

如果仅输出图像的感兴趣区域（例如，在用于基于视频的VR会议的流式传输的情况下），则可以在流中将感兴趣区域的坐标指示为例如元数据，以使得当对象正在移动但由于感兴趣区域的更新而在流式传输的图像数据中看起来是静态的时，可以例如也以移动的方式恰当地显示图像数据。

在一些实施例中，选择数据可以作为例如信号或存储在暂态或非暂态计算机可读介质上的数据而提供。

在一些实施例中，可以提供可以包括可见光图像传感器并且可选地包括距离传感器的相机。如本说明书中所描述的，该相机可以被配置用于使得能够选择性捕获或从选择数据所定义的感兴趣区域的图像数据的存储器选择性读出。另外地或可替代地，相机可以包括被配置用于基于选择数据选择性地输出所述图像数据的处理器。

处理器系统

图8示出了处理器系统100的更详细的视图，该处理器系统可以被配置用于分析深度图以识别场景中的感兴趣区域，并且用于生成选择数据。图8的处理器系统100可以对应于参考图1、图3以及其他附图描述的处理器系统100，和/或对应于如参考图5、图6以及其他附图描述的媒体客户端105。

处理器系统100被示出为包括通信接口120，该通信接口用于获得通过距离传感器获取的场景的深度图，并且用于选择性地获得感兴趣区域的图像数据。例如，通信接口可以是到内部总线或外部总线（诸如通用串行总线（USB））的通信接口，经由该通信接口可以访问距离传感器和/或图像传感器。可替代地，通信接口可以是网络接口，包括但不限于，例如基于Wi-Fi、蓝牙、ZigBee、4G移动通信、或5G移动通信的无线网络接口，或例如基于以太网或光纤的有线网络接口。在这种情况下，处理器系统100可以例如经由网络从媒体源（诸如图9所示的媒体源）访问深度图和图像数据。例如，网络接口可以是局域网（LAN）网络接口，还可以是连接到例如互联网的广域网（WAN）的网络接口。

图8进一步示出了处理器系统100包括数据存储器160（诸如，内部存储器、硬盘、固态驱动器或其阵列），该数据存储器可以用于缓冲数据，例如深度图和感兴趣区域的图像数据。处理器系统100可以进一步包括处理器140，该处理器可以例如通过硬件设计或软件被配置用于执行参考图1、图3、图5、图6以及其他附图描述的操作，例如至少关于分析深度图以识别场景中的感兴趣区域以及后续生成选择数据的操作。例如，处理器140可以通过单个中央处理单元（CPU）来实施，还可以通过这种CPU和/或其他类型的处理单元的组合或系统来实施。

处理器系统100可以通过（单个）设备或装置来实施。例如，处理器系统100可以实施为智能电话、个人计算机、膝上型计算机、平板计算机设备、游戏机、机顶盒、电视、监视器、投影仪、智能手表、智能眼镜、媒体播放器、媒体记录器等，并且在电信的背景下也可以称为‘终端’或‘终端设备’。处理器系统100还可以通过此类设备或装置的分布式系统来实施。后者的示例可以是处理器系统100的功能分布在网络中的不同网络元件上。

图9示出了可以被配置为媒体源的处理器系统300的更详细的视图。图9的处理器系统300可以对应于如参考图5、图6以及其他附图描述的媒体源305。

可以看出，处理器系统300包括用于与如图8中描述的处理器系统100通信的网络接口320。网络接口320可以采取任何合适的形式，包括但不限于参考图8的处理器系统100的网络接口120所描述的形式。

处理器系统300可以进一步包括处理器340，该处理器可以例如通过硬件设计或软件被配置用于执行参考图5、图6以及其他附图描述的关于媒体源的操作。处理器340可以通过单个中央处理单元（CPU）来实施，还可以通过这种CPU和/或其他类型的处理单元的组合或系统来实施。处理器系统300可以进一步包括用于至少临时存储场景的至少一个深度图和/或场景的至少一个可见光图像的存储介质360。存储介质360可以采取任何适合的形式，包括但不限于参考图8的处理器系统100的存储介质160所描述的形式。

处理器系统300可以通过（单个）设备或装置来实施。处理器系统300还可以通过此类设备或装置的分布式系统来实施。后者的示例可以是处理器系统300的功能分布在网络中的不同网络元件上。在特定示例中，处理器系统300可以通过诸如服务器等网络节点或诸如5G移动边缘计算机（MEC）等边缘节点来实施。

通常，图8的处理器系统100和图9的处理器系统300每个都可以被实施为设备或装置，或者在设备或装置中实施。该设备或装置可以包括一个或多个执行适当软件的（微）处理器。这两种系统中的任一系统的处理器可以通过这些（微）处理器中的一个或多个来实施。实施任一系统的功能的软件可能已经被下载和/或存储在对应的一个或多个存储器中，例如，在诸如RAM等易失性存储器中或诸如闪存等非易失性存储器中。可替代地，任一系统的处理器可以以可编程逻辑的形式在设备或装置中实施，例如，实施为现场可编程门阵列（FPGA）。任何输入接口和/或输出接口可以通过设备或装置的相应接口（诸如网络接口）来实施。通常，任一系统的每个单元都可以以电路的形式来实施。注意，任一系统也可以以例如涉及不同的设备的分布式方式来实施。

注意，在本说明书中（例如在权利要求的任一项中）描述的任何方法都可以在计算机上实施为计算机实施的方法、专用硬件或二者的组合。用于计算机的指令（例如可执行代码）可以例如以一系列机器可读物理标记的形式和/或作为具有不同电（例如，磁或光）属性或值的一系列元素存储在计算机可读介质上。可执行代码可以以暂态或非暂态的方式存储。计算机可读介质的示例包括存储器设备、光学存储设备、集成电路、服务器、在线软件等。

图10是展示了可以在本说明书中描述的实施例中使用的示例性数据处理系统的框图。这样的数据处理系统包括本说明书中描述的数据处理实体，包括但不限于，处理器系统、媒体客户端、媒体源等。

数据处理系统1000可以包括通过系统总线1006耦合到存储器元件1004的至少一个处理器1002。这样，数据处理系统可以将程序代码存储在存储器元件1004内。进一步地，处理器1002可以执行经由系统总线1006从存储器元件1004访问的程序代码。一方面，数据处理系统可以被实施为适合于存储和/或执行程序代码的计算机。然而，应当理解的是，数据处理系统1000可以以包括处理器和存储器、能够执行本说明书中描述的功能的任何系统的形式来实施。

存储器元件1004可以包括一个或多个物理存储器设备，诸如本地存储器1008和一个或多个大容量存储设备1010。本地存储器可以是指通常在程序代码的实际执行期间使用的随机存取存储器或（多个）其他非持久性存储器设备。大容量存储设备可以被实施为硬盘驱动器、固态盘或其他持久性数据存储设备。数据处理系统1000还可以包括提供对至少一些程序代码的临时存储的一个或多个高速缓存存储器（未示出），以减少在执行期间必须从大容量存储设备1010中取得程序代码的次数。

被描绘为输入设备1012和输出设备1014的输入/输出（I/O）设备可以可选地耦合到数据处理系统。输入设备的示例可以包括但不限于例如麦克风、键盘、诸如鼠标等定点设备、游戏控制器、蓝牙控制器、VR控制器和基于手势的输入设备等。输出设备的示例可以包括但不限于例如监视器或显示器、扬声器等。输入设备和/或输出设备可以直接或通过中间I/O控制器耦合到数据处理系统。网络适配器1016也可以耦合到数据处理系统，以使该数据处理系统能够通过中间私有或公共网络耦合到其他系统、计算机系统、远程网络设备和/或远程存储设备。网络适配器可以包括：用于接收由所述系统、设备和/或网络传输到所述数据的数据的数据接收器、以及用于将数据发射到所述系统、设备和/或网络的数据传输器。可以与数据处理系统1000一起使用的不同类型的网络适配器的示例是调制解调器、线缆调制解调器和以太网卡。

如图10所示，存储器元件1004可以存储应用程序1018。应当理解的是，数据处理系统1000可以进一步执行可以促进应用程序的执行的操作系统（未示出）。以可执行程序代码的形式实施的应用程序可以由数据处理系统1000例如通过处理器1002执行。响应于执行应用程序，数据处理系统可以被配置用于执行将在本文中进一步详细描述的一个或多个操作。

在一方面，例如，数据处理系统1000可以表示在本说明书中由数字100、105、300、305指示的实体之一，例如，处理器系统、媒体源或媒体客户端。在那种情况下，应用程序1018可以表示在被执行时将数据处理系统1000配置用于执行本文中参考所述实体描述的功能的应用程序。

参考文献

[1] Camplani, M. 和Salgado, L., (2014), Background foregroundsegmentation with RGB-D Kinect data: An efficient combination of classifiers[使用RGB-D Kinect数据进行背景前景分割：分类器的有效组合], Journal of VisualCommunication and Image Representation [视觉通信和图像表示期刊], 25 (1), 122-136.

[2] Caselle, Michele等,“Ultrafast streaming camera platform forscientific applications [用于科学应用的超快速流传输相机平台]”, IEEETransactions on Nuclear Science [IEEE核科学汇刊], 60.5 (2013): 3669-3677.

[3] Schrey, Olaf等,“A 1 K/spl times/1 K high dynamic range CMOS imagesensor with on-chip programmable region-of-interest readout [具有片上可编程感兴趣区域读数的1 K × 1 K高动态范围CMOS图像传感器]”, IEEE Journal of Solid-State Circuits [IEEE固态电路期刊], 37.7 (2002): 911-915.

[4] Barber, Charles P. 等,“Reading apparatus having partial frameoperating mode [具有部分帧操作模式的读取装置]”, 美国专利号8,702,000, 2014年4月22日.

[5] Ochi, Daisuke等,“Live streaming system for omnidirectional video[用于全向视频的实时流式传输系统]”, Virtual Reality (VR) [虚拟现实（VR）], 2015,IEEE.

[6] https://en.wikipedia.org/wiki/Connected-component_labeling

[7] Samet, H., Tamminen, M., (1988),“Efficient Component Labeling ofImages of Arbitrary Dimension Represented by Linear Bintrees [对由线性二叉树表示的任意维图像的有效分量标记]”, IEEE Transactions on Pattern Analysis andMachine Intelligence [IEEE模式分析和机器智能汇刊], IEEE, 10 (4): 579. doi:10.1109/34.3918.

[8] Camplani, M. 和Salgado, L., (2014), Background foregroundsegmentation with RGB-D Kinect data: An efficient combination of classifiers[使用RGB-D Kinect数据进行背景前景分割：分类器的有效组合], Journal of VisualCommunication and Image Representation [视觉通信和图像表示期刊], 25 (1), 122-136.

在权利要求书中，放在括号中的任何参考标记都不应该被解释为限制权利要求。使用动词“包括”及其词形变化不排除权利要求中所述的元件或步骤之外的元件或步骤的存在。在元件前的冠词“一个”或“一种”并不排除存在多个此类元件。本发明可以通过包括几个不同元件的硬件并且通过适当编程的计算机来实施。在列举了几个装置的设备权利要求中，这些装置中的几个可以由同一硬件来实施。在互不相同的从属权利要求中记载了某些措施的事实并不意味着不能有利地使用这些措施的组合。

Claims

1.一种使用距离传感器和图像传感器来获得场景中的对象的图像数据的方法，其中，该距离传感器与该图像传感器具有已知的空间关系，该距离传感器被配置用于捕获该场景的深度信息，该图像传感器被配置用于捕获该场景的可见光信息，该方法包括：

- 获得通过该距离传感器获取的该场景的深度图；

- 生成指示该感兴趣区域的选择数据；以及

2.根据权利要求1所述的方法，其中，选择性地获得该感兴趣区域的图像数据包括经由诸如总线或网络等带宽受限链路选择性地接收该感兴趣区域的图像数据。

3.根据权利要求1或2所述的方法，其中，选择性地获得该感兴趣区域的图像数据包括：

- 配置该图像传感器以选择性地获取在该感兴趣区域内的该场景的可见光信息；和/或

- 从包括在该图像传感器中或连接到该图像传感器的存储器中选择性地读出该感兴趣区域的图像数据。

4.根据权利要求1或2所述的方法，其中，

- 可经由网络通过流式传输从媒体源访问通过该图像传感器获取的该场景的图像数据；并且

- 选择性地接收该图像数据包括向该媒体源发信号通知该选择数据，以请求选择性地流式传输该感兴趣区域的图像数据。

5.根据权利要求4所述的方法，其中，

- 可经由该网络通过基于图块的流式传输从该媒体源访问通过该图像传感器获取的该场景的图像数据；并且

- 该选择数据被生成为包括一个或多个图块的标识符，该一个或多个图块包括该感兴趣区域的图像数据，其中，所述选择数据是基于定义可用于流式传输的不同图块之间的空间关系的空间关系描述数据而生成的。

6.根据权利要求1或2所述的方法，其中，识别该场景中的感兴趣区域包括：

- 获得通过该距离传感器在该对象不存在时获取的该场景的第一深度图；

- 获得通过该距离传感器在该对象存在时获取的该场景的第二深度图；

- 基于该第一深度图与该第二深度图的比较来识别该场景中的感兴趣区域。

7.根据权利要求1或2所述的方法，其中，识别该场景中的感兴趣区域包括：

- 将对象检测技术应用于该深度图；和/或

- 基于对象的指示与深度传感器的接近度的深度值来在该深度图中识别该对象。

8.根据权利要求1或2所述的方法，其中，

- 该深度图是在第一时间实例时通过该距离传感器获取的；

- 选择性地获得的图像数据是在时间上晚于该第一时间实例的第二时间实例时通过该图像传感器获取的；并且

- 生成该选择数据包括补偿该对象在该第一时间实例到该第二时间实例之间相对于该场景的移动。

9.根据权利要求8所述的方法，其中，所述补偿该对象的移动包括以下各项中的至少一项：

- 向该感兴趣区域的轮廓加上裕量；以及

- 通过将运动估计应用于在不同时间实例时获取的至少两个深度图来确定该对象的移动并将所述移动外推到该第二时间实例，来基于对该对象的移动的预测来调整该感兴趣区域的空间位置。

10.根据权利要求1或2所述的方法，进一步包括将背景去除技术应用于该感兴趣区域的图像数据，以去除该图像数据中在该对象周围的背景。

11.一种包括计算机程序的暂态或非暂态计算机可读介质，该计算机程序包括用于使处理器系统执行根据权利要求1至10中任一项所述的方法的指令。

12.一种被配置用于使用距离传感器和图像传感器来获得场景中的对象的图像数据的处理器系统，其中，该距离传感器与该图像传感器具有已知的空间关系，该距离传感器被配置用于捕获该场景的深度信息，该图像传感器被配置用于捕获该场景的可见光信息，并且该处理器系统包括：

- 处理器，该处理器被配置用于：

分析该深度图以识别该场景中的包含该对象的感兴趣区域；

生成指示该感兴趣区域的选择数据；并且

13.根据权利要求12所述的处理器系统，其中，

- 该处理器系统包括并且经由该通信接口和内部总线连接到该距离传感器和该图像传感器，或者

- 该处理器系统经由该通信接口和外部总线连接到该距离传感器和该图像传感器。

14.根据权利要求13所述的处理器系统，其中，该处理器被配置用于经由该通信接口：

15.根据权利要求12所述的处理器系统，其中，

- 该通信接口是连接到包括带宽受限链路的网络的网络接口；

- 可经由该网络通过流式传输从媒体源访问通过该图像传感器获取的该场景的图像数据；并且

- 该处理器被配置用于使用该网络接口向该媒体源发信号通知该感兴趣区域的空间位置，以请求选择性地流式传输该感兴趣区域的图像数据。

16.一种被配置为媒体源的处理器系统，该处理器系统包括：

- 存储介质，该存储介质用于至少临时存储以下各项：

- 网络接口，该网络接口连接到包括带宽受限链路的网络，以使该处理器系统能够与诸如根据权利要求12或15所述的处理器系统的媒体客户端进行通信；

- 处理器，该处理器被配置用于经由该网络接口：

向该媒体客户端提供该深度图；