CN107408205B

CN107408205B - 用红外成像区分前景和背景

Info

Publication number: CN107408205B
Application number: CN201680015051.9A
Authority: CN
Inventors: C·雷曼; E·巴苏姆; Y·沈; S·P·斯塔取涅克; S·伊扎迪
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2015-03-11
Filing date: 2016-02-19
Publication date: 2020-10-09
Anticipated expiration: 2036-02-19
Also published as: CN107408205A; EP3268897A1; WO2016144500A1; US20160269714A1; US9955140B2

Abstract

标识红外图像内包括呈现在预定义范围内的红外强度值的像素的初始候选前景区域。基于初始候选前景区域的像素的红外强度值估计初始候选前景区域内的表面的深度。基于身体‑模型估计，将初始候选前景区域扩展为经扩展候选前景区域。身体模型估计以初始候选前景区域、表面的深度，和/或通过面部识别标识的人类受试者的面部中的一个或多个为种子。基于红外图像的每个像素相对于经扩展候选前景区域的距离，该像素被标识为前景像素或背景像素之一。被标识为背景像素的像素可在对应可见光图像内被修改。

Description

用红外成像区分前景和背景

背景

现代通信网络允许人们通过共享视频或静态图像彼此通信。实时视频会议是这种形式的通信的一个示例。包含相机的移动设备(诸如智能电话或平板计算机)的普及使得用户能够捕捉视频或静态图像并将其与来自几乎任务位置的其它用户共享。

概述

提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征，也不旨在用于限制所要求保护主题的范围。此外，所要求保护的主题不限于解决在本公开的任一部分中所提及的任何或所有缺点的实现。

标识红外图像内包括呈现在预定义范围内的红外强度值的像素的初始候选前景区域。基于初始候选前景区域内的像素的红外强度值，估计初始候选前景区域内的表面的深度。基于身体-模型估计，将初始候选前景区域扩展为经扩展候选前景区域。身体模型估计以初始候选前景区域、表面的深度，和/或通过面部识别在初始候选前景区域内标识的人类受试者的面部中的一个或多个为种子(seed)。基于红外图像的每个像素相对于经扩展候选前景区域的距离，将该像素标识为前景像素或背景像素之一。被标识为背景像素的像素可在对应可见光图像内被修改。

附图简述

图1描绘了其中针对红外和可见光对场景成像的示例使用环境。

图2是描绘用于通过在相应IR图像中区分前景与背景来修改VL图像的示例成像方法的流程图。

图3是描绘用于标识红外图像内的前景和背景像素的示例成像方法的流程图。

图4是描绘用于标识红外图像内的前景和背景像素的示例处理流水线的示意图。

图5是描绘一种示例计算系统的示意图。

详细描述

深度成像可在各种上下文中使用，诸如用于人类身体部位跟踪的自然用户界面、前景对象从背景对象的绿色筛选、以及对象的三维(3D)扫描。用于深度成像的先前方案依赖于专门的深度相机，该深度相机通常使用立体成像、结构化照射和/或飞行时间来检测深度。这些专门的深度相机尚未胜过目前被集成在各种消费者电子产品中的传统二维(2D)相机的普遍性。对专门的深度相机的依赖可能限制深度相机的采用，这是由于其增加的能耗、增加的计算处理功率、增加的成本、以及设备形状因子约束的考虑。

本公开涉及通过使用场景的红外(IR)成像将图像内的前景与背景区分开，即使使用的是非结构化、漫射IR和/或近IR照射的不可见形式。图1描绘了其中针对IR和可见光(VL)对场景成像的示例使用环境100。

在使用环境100内，用户110操作计算设备112来捕捉场景114的图像或视频。在此特定示例中，计算设备112采用手持式移动客户端计算设备(例如智能电话)的形式。然而，计算设备112可采用其它适当形式。

在此示例中，场景114包括用户110或该用户的一部分作为前景分量，并进一步包括位于用户110后的背景分量116。用户110可操作计算设备112以通过通信网络120与其它计算设备(诸如举例而言计算设备130)通信。例如，用户110可参与通过通信网络120与另一用户的实时视频通信。在示例实现中，用户110传送场景114的经修改版本124作为图像或视频。在此示例中，场景114的背景分量116已被修改以获得经修改背景分量126。经修改背景分量126在图1中被描绘为背景分量116的模糊化版本。然而，背景分量可按如将在本文中描述的其它方式修改，包括用不同主题来取代背景分量。

场景114可由计算设备112使用各种不同技术捕捉。作为示例，场景114可由计算设备112经由计算设备112的可见光(VL)相机作为VL图像134捕捉。VL图像可采取例如RGB图像或灰度图像的形式。此外，场景114可由计算设备112经由计算设备112的IR相机作为IR图像144捕捉。计算设备112的VL相机和IR相机可采用组合VL/IR相机的形式，或可转而形成计算设备112的两个不同相机。

图2是描绘用于通过在相应IR图像中区分前景与背景来修改VL图像的示例成像方法200的流程图。如先前参考图1描述的，VL和IR图像可被处理以区分场景的前景和背景分量，这可使得能够修改背景分量。然而，方法200的各方面可在其它上下文中使用，诸如举例而言自然用户界面上下文内的人类身体部位跟踪。而且，尽管方法200不需要使用专门建造的三维(3D)相机，然而方法200的各方面可被用来向3D处理流水线提供种子信息，该3D处理流水线处理来自飞行时间、结构化光、或立体3D相机的图像/视频。

在210，该方法包括获得经由IR相机捕捉的一个或多个IR图像。IR相机针对测量IR相机的每个像素在所观察到的场景内的相对IR(和/或不可见、近IR)光强度。二维(2D)矩阵中的每个像素地址处的测量的IR强度可作为(例如，范围从0-255的)IR强度值被记录。在210处获得的IR图像可以是经由IR相机捕捉的、共同形成基于时间的IR图像系列的多个IR图像之一。基于时间的IR图像系列可形成例如IR视频。

在212，该方法包括获得经由VL相机捕捉的一个或多个VL图像。VL相机针对一个或多个可见光通道(诸如红、绿、蓝、灰度等)测量针对VL相机的每个像素在所观察到的场景中的相对可见光强度。对于每个通道，2D矩阵中的每个像素地址处的因通道而异的VL强度可作为(例如，针对该信道的范围从0-255的)VL强度值被记录。在212处获得的VL图像可以是经由VL相机捕捉的、共同形成基于时间的VL图像系列的多个VL图像之一。基于时间的VL图像系列可形成例如VL视频。

每个VL和IR图像包括像素的二维布置(例如，阵列)。图像的每个像素可由相应的像素标识符标识，像素标识符使得该像素能够与该图像的其它像素相区分。每个图像，无论是IR图像还是VL图像，可由相应的图像标识符标识，图像标识符使得该图像能够与其它图像相区分。图像标识符可进一步标识图像在基于时间的图像系列内的相对位置或定时。在至少一些实现中，IR图像可基于其相应的图像标识符被布置在基于时间的IR图像系列中。类似地，VL图像可基于其相应的图像标识符被布置在基于时间的VL图像系列中。在至少一些实现中，图像标识符可采取图像文件的元数据组件的形式，图像文件进一步包含该图像。

IR图像和VL图像可以基于其相应的图像标识符和/或序列与彼此时间配准以提供经时间配准的IR或VL视频。例如，在214，该方法包括执行该一个或多个IR图像与该一个或多个VL图像的时间配准。每个IR图像可与相应的VL图像时间配准。在至少一些实现中，时间配准可通过由计算设备执行的配准模块来执行。

在一示例中，IR和VL图像的时间配准可包括将IR图像的标识符与VL图像的相应标识符进行匹配。标识符可包括基于时间的标识符组件，诸如举例而言时间戳。在另一示例中，IR和VL图像可通过以每个VL图像在基于时间的VL图像系列内的相应次序或位置参考每个IR图像在基于时间的IR图像系列内的相对次序或位置来彼此时间配准。时间配准可针对每对IR和VL图像执行以形成经时间配准的IR和VL视频。

在至少一些实现中，IR和VL相机可能在物理维度中彼此间隔开和/或可能具有不同视点。即使在时间配准之后，不同间隔和/或视点可导致IR和VL图像的主题之间的视差或空间未对准。这种视差或空间未对准可能在利用相同相机或等同视点来捕捉IR和VL图像的相机系统中不存在。

为了减少或消除经时间配准的IR和VL图像之间的视差或空间未对准，在216，该方法包括执行每对经时间配准的IR和VL图像的空间配准。在至少一些实现中，空间配准可通过由计算设备执行的配准模块来动态执行。取代动态配准或作为动态配准的种子(seed)，可基于VL和IR相机的已知视点和相机所成像的主题的假定距离来推断初始空间配准。例如，基于普通用户握持智能电话距其面部的平均距离，可假定十八英寸的成像距离。

在空间配准时，通过向IR图像应用空间变换函数，每个IR图像可被翘曲(warp)以更紧密地与相应的VL图像对齐。可基于已知视点和假定的成像距离向每个IR和/或VL图像应用一致的空间变换函数，或可基于一个或多个距离估计输入来动态调整空间变换(例如，距离的先前帧评估)。可针对时间系列的每对IR和VL图像重复这一过程以获得经空间配准的视频。

在至少一些实现中，VL相机和IR相机可具有相同的分辨率，然而等同的分辨率不是必然需要的。无论相机具有相同还是不同的分辨率，VL相机的像素均可在物理空间和时间域中被配准到IR相机的像素。以此方式，通过考虑来自VL相机和IR相机的相应经配准像素，可针对所观察场景的每个区域确定VL和IR强度信息。

从VL和/或IR图像收集的数据可以布置在几乎任何适当数据结构中，包括但不限于：包括用于通过IR相机成像的每个像素的IR强度值，以及通过VL相机成像的每个像素的VL(例如红/绿/蓝彩色和/或灰度)强度值的一个或多个矩阵。尽管附图描绘的示例可仅包括VL或IR图像的单个帧，但是要理解，所观察场景内的人类受试者可能以任何适当速率被持续观察并建模(例如，每秒30、60、120帧)。相应地，可针对每个这样观察的帧收集IR和/或VL数据。可经由一个或多个应用编程接口(API)使所收集数据可用和/或如下所述地进一步分析所收集数据。

在218，本方法包括处理IR图像和/或VL图像以区分前景和背景。在218处的处理可根据例如参考图3和4详细描述的处理流水线执行。然而，可以使用其它适当处理技术。

取决于实现，图2的过程214、216和218可按不同次序和/或并行执行。例如，用于区分前景和背景的过程218可在214处的时间配准之前和/或在216处的空间配准之前执行。相应地，要理解，图2中描绘的处理次序是成像方法的非限制性示例。

在220，该方法包括针对一个或多个IR图像内被标识为背景像素的一些或所有像素来修改该一个或多个对应VL图像内的对应像素以获得一个或多个经修改VL图像。

图像的背景像素可使用任何适当图像处理技术或技术组合来修改。作为示例，修改可包括向背景像素应用一个或多个预定义过滤器。这些过滤器可修改背景像素的相对和/或绝对颜色、对比度、强度等和/或布置以提供图像的背景分量的整体视觉效果。一个非限制性示例包括修改场景的背景以相对于所观察到的背景更亮或更暗。另一非限制性示例包括将观察到的多色背景改变为单色背景。

修改背景像素可包括模糊化或取代背景像素。图像或视频的背景分量的模糊化和/或取代可增强关于背景分量内的对象的隐私性。例如，如图1中所描绘的，位于场景的背景中的文本信息(例如密码)和/或对象可被模糊化以增强隐私性。背景像素的取代还可提供绿色筛选效果，其中位于前景中的对象看上去与实际不存在于被成像场景中的取代背景主题处于相同场景内。

在至少一些实现中，模糊化图像的背景像素可包括采样围绕所关心像素的像素群，以及基于所采样的像素群的组合(例如平均)来调整所关心像素的强度值。对于位于前景像素附近或周边的背景像素，所采样像素的组合可采取排除或降低前景像素对该组合的影响的加权平均的形式。这种方法可用于减少前景像素周围的光晕的出现。

在至少一些实现中，用于图像或视频的背景分量的取代内容可以是用户定义的或用户以其它方式可选择的。作为示例，用户可捕捉或下载被用来取代另一图像或视频的背景分量的取代VL图像或视频。

图像的修改可以按层执行。例如，整个可见光图像可被模糊化以获得经修改图像的第一层，且形成第二层的前景分量可被覆盖到第一层上以模糊化第一层的底层模糊化前景分量。为了取代背景分量，诸如以提供绿色筛选效果，整个取代图像可形成第一层，第一层被用包括原始图像的前景分量的第二层覆盖以模糊化取代图像的底层部分。在至少一些实现中，VL图像的修改可通过由计算设备执行的VL图像修改模块来执行。

在222，该方法包括将该一个或多个VL图像作为具有经修改背景像素的一个或多个经修改VL图像输出。输出该一个或多个经修改VL图像的非限制性示例可包括：(1)将该一个或多个经修改VL图像传送至存储设备以被存储以供稍后检索，(2)将该一个或多个经处理VL图像传送至图形显示器以供呈现，和/或(3)通过通信网络将该一个或多个经处理VL图像传送至另一计算设备。

方法200可被应用于图像的时间系列以获得经修改的VL视频。例如，方法200可包括获得经由IR相机捕捉的多个IR图像以及经由VL相机捕捉的多个VL图像。每个VL图像可与该多个IR图像的相应IR图像时间配准和空间配准。对于每个对应的IR和VL图像对，VL图像的像素可基于被标识为背景像素的对应IR像素来修改。该多个VL图像可作为经修改的VL视频被输出，其中每个经修改的VL图像具有经修改的背景像素。

图3是描绘用于标识红外图像内的前景和背景像素的示例成像方法300的流程图。方法300是可在方法200的过程218处执行以区分图像中的前景和背景的处理的一个非限制性示例。

在310，该方法包括获得IR图像，诸如先前参考图2的过程210描述的。在一示例中，IR图像是经由观察IR照射场景的IR相机捕捉的，该IR照射场景包括一个或多个人类受试者或该一个或多个人类受试者的部分。该IR照射可以是例如非结构化且漫射的。该IR图像可以是形成IR相机捕捉的IR视频的多个IR图像时间系列之一。IR图像的每个像素可包括相关联的IR强度值。

对于每个IR图像，在312，该方法包括标识该IR图像内的包括呈现预定义范围内的红外强度值的像素的初始候选前景区域。在一示例中，初始候选前景区域可通过以下来标识：将该红外图像的个体像素的红外强度值与该预定义范围进行比较以获得呈现在该预定义范围内的红外强度值的像素集合。

在此示例的进一步方面中，如果阈值数量的像素或阈值比例的像素呈现在该预定义范围内的强度，以由此将小的或被隔离的像素区域从被标识为初始候选前景区域的区域中排除，则初始候选前景区域可被标识。在过程312处标识的初始候选前景区域可以是在方法300的过程312处标识的个体IR图像内的多个初始候选前景区域之一。

作为示例，该预定义范围可包括与人类皮肤相对应的IR强度值。在此示例内，该预定义范围可进一步包括与被所定义的红外照射条件照射的位于来自该IR相机的深度范围内的人类皮肤相对应的IR强度值。该深度范围可定义用于将前景与背景分割的远场和/或近场深度阈值。

在至少一些实现中，预定义范围可以是IR强度值的多个预定义范围之一。取决于实现，两个或更多个预定义范围可对应于至少部分彼此交叠的IR强度值，或这些范围可以是不交叠的。IR强度值的多个预定义范围可被用来适应不同的皮肤颜色/色调(例如，深色对比亮色皮肤)和/或位于距IR相机不同距离处的类似的皮肤颜色/色调。

在至少一些实现中，该预定义范围可通过机器学习算法在位于被IR照射条件照射的距红外训练相机一深度范围内的一个或多个人类训练受试者上的先前训练获得。机器学习算法的训练可包括测量跨各种深度的各种人类受试者的皮肤IR响应。人类受试者可被选择以使得可能人类皮肤色调全域被充分代表。典型地，在具有不同的皮肤色调的多个人类受试者上执行训练。然而，取决于实现，可执行较不严格的训练。测量的IR响应可与从人类训练受试者测量反射IR的深度相关联。红外训练相机可以是与捕捉在过程300获得的红外图像的红外相机具有相同或基本类似的配置的相同或等同型号的红外相机或相机系统，其包括提供相同或类似IR照射条件的IR源。训练可被用来获得具有部分交叠或不交叠的IR强度值的IR强度值的两个或更多个预定义范围以适应各种不同的皮肤颜色/色调和/或距离范围。

在进一步实现中，如参考图4所述，IT强度值的预定义范围可通过向红外图像或其一部分应用面部识别以标识人类受试者的面部来获得。可从人类受试者的面部测量一个或多个红外强度值。该预定义范围可基于从人类受试者的面部测量的该一个或多个红外强度值来设置或更新。此方法可作为机器学习算法的补充或替代来使用。而且，可使用用于选择预定义范围的附加和/或替代方法。

在314，该方法包括基于初始候选前景区域内的像素的红外强度值来估计初始候选前景区域内的表面的深度。在至少一些实现中，通过参考个体IR强度值和深度值之间的预定义关系，可以在314针对初始候选前景区域的一些或全部像素估计深度。此预定义关系可以从例如针对给定IR照明条件的跨一深度范围的针对人类皮肤的机器学习算法的先前训练获得。

在IR图像内搜索人类受试者的上下文中，在初始候选前景区域内估计的表面的深度提供对于给定IR照明条件人类受试者距IR相机的距离的近似。这种距离的近似可被用来估计IR图像的帧内的人类受试者或其一部分的相对大小，并可被用来进一步约束在IR图像内或在相应VL图像内的后续搜索。

例如，在318，该方法包括标识面部搜索区域，该面部搜索区域基于在初始候选前景区域内估计的表面的深度来确定大小和/或相对于IR图像定位。该面部搜索区域的大小可被设置成针对在初始候选前景区域内估计的表面的深度来适应人类受试者的面部或头部的估计大小。

作为示例，对于指示人类受试者位于距IR相机更远处的更大的估计深度，所表示的面部搜索区域可具有更小的大小来适应该面部在该更大深度处的预期图像大小，同时还限制面部搜索区域的大小。继续此示例，对于指示人类受试者位于距IR相机更近处的更小的估计深度，所表示的面部搜索区域可具有更大的大小来适应该面部在该更小深度处的预期图像大小，同时还限制面部搜索区域的大小。

在一示例中，面部搜索区域可被定位成完全围绕或至少部分包括初始候选前景区域。如果在312处标识两个或更多个初始候选前景区域，则可针对每个初始候选前景区域标识针对该初始候选前景区域设置大小和/或定位的相应面部搜索区域。

在318，该方法包括应用初始被约束到面部搜索区域的面部识别，以标识人类受试者的面部。将面部识别约束到面部搜索区域可显著减少用于标识IR图像内的人类受试者的面部的计算资源量和/或时间量。

初始地将面部识别约束于面部搜索区域可包括初始地在面部搜索区域内应用面部识别。如果在面部搜索区域内标识了人类受试者的面部，则面部识别可不被应用于该面部搜索区域外的IR图像。然而，如果在该面部搜索区域内没有标识人类受试者的面部，则可任选地向IR图像的在面部搜索区域外的其它区域应用面部识别，或者可中断面部识别从而将面部识别唯一约束于面部搜索区域。

在320，该方法包括基于身体-模型估计将初始候选前景区域扩展到经扩展候选前景区域。该身体-模型估计可被用来近似人类受试者的其它身体部分在IR图像的帧内的位置。在至少一些实现中，身体-模型估计可以以下的一者或多者为种子：(1)在312处标识的初始候选前景区域，(2)在314处的在初始候选前景区域内估计的表面的深度，和/或(3)在318处标识的人类受试者的面部(例如，图像内的面部的大小、位置、定向、和/或身份(包括已知皮肤色调))。

在322，该方法包括基于IR图像的每个像素相对于经扩展候选前景区域的距离将该像素标识为前景图形或背景图像之一。在一示例实现中，基于该像素相对于经扩展候选前景区域的距离，位于经扩展候选前景区域内的每个像素可被标识为前景像素，而位于经扩展候选前景区域外的每个像素可被标识为前景像素或背景像素。在此示例中，位于经扩展候选前景区域外的部分或全部像素可被标识为背景像素。

在至少一些实现中，可基于每个像素距经扩展候选前景区域的距离向该像素赋予加权。在其中像素被相对于前景像素加权的示例中，被赋予像素的更大的加权可对应于距经扩展候选前景区域的更小的距离，而被赋予像素的更小的加权可对应于距经扩展候选前景区域的更大的距离。在其中像素被相对于背景像素加权的示例中，被赋予像素的更大的加权可对应于距经扩展候选前景区域的更大的距离，而被赋予像素的更小的加权可对应于距经扩展候选前景区域的更小的距离。

在至少一些实现中，距离可作为所关心像素和经扩展候选前景区域的最近像素之间的最短测地距离或最短欧几里得距离被测量。测地距离可沿着位于所关心像素和经扩展候选前景区域的最近像素之间的各像素间的光强度的最小梯度。测地距离可相对于IR图像的IR强度的梯度和/或被配准到该IR图像的VL图像的VL强度的梯度测量。

除了基于距离的加权或者作为其替代，将IR图像的每个像素标识为前景像素或背景像素可以基于前一帧中该像素(例如，相同像素位置)的先前确定。对于前一帧中被标识为前景像素的像素，该像素可趋向于当前帧中的前景像素加权。对于前一帧中被标识为背景像素的像素，该像素可趋向于当前帧中的背景像素加权。基于其在前一帧中的先前确定加权像素用于减少在图像的时间系列中前景和背景像素之间的改变的次数或频率。相应地，对帧之间的背景和前景像素的先前确定的使用可被用来减少基于时间的经修改VL图像系列中的闪烁的出现(其中背景像素已被修改)。

在其中使用加权的示例中，至少部分基于被赋予该像素的加权，红外图像的每个像素可被标识为前景像素或背景像素。基于前一帧中像素的先前确定赋予该像素的加权可与基于距离赋予该像素的加权相组合以确定该像素是前景像素还是背景像素。然而，基于用于区分背景和前景像素的其它因素，这些加权可个体地或与一个或多个加权组合地使用。

可使用其它适当技术来将像素标识为前景或背景像素。在一示例中，在322处将每个像素标识为前景像素或背景像素的过程可附加或替换地基于针对该像素确定的概率。可通过计算前景区域的前景直方图和背景区域的背景直方图，以及使用这两个直方图来计算新像素是前景像素还是背景像素的概率，来针对每个像素确定概率。

方法300可进一步包括：使用其它形式的计算机视觉来更改经扩展候选前景区域的大小和/或形状。作为示例，边缘检测和/或形状识别可被应用于IR图像和/或其经配准VL图像以更改经扩展候选前景区域相对于身体-模型估计的大小或形状以更紧密地符合人类受试者的所观察到的身体、服饰、头发等的轮廓。

图4是描绘用于标识红外图像内的前景和背景像素的示例处理流水线400的示意图。处理流水线400是图3的方法300和图2的过程218的应用的非限制性示例。取决于实现，穿过流水线400的过程流可采取若干不同路径。

在第一示例中，基于IR的皮肤检测和/或基于IR的深度检测可在面部检测之前并且与面部检测连续地执行。在此第一示例中，基于IR的皮肤检测和/或基于IR的深度检测在430处在IR图像410上执行以标识初始候选前景区域412。初始候选前景区域可为后续面部检测提供种子。流水线400的此方面可对应于先前描述图3的过程312。在至少一些实现中，基于IR的皮肤检测可通过由计算设备执行的IR深度-皮肤模块执行。

IR图像410的个体像素的示例在图4中被描绘，其中像素432具有在与一深度范围内的人类皮肤相对应的IR强度值的预定义范围之外的IR强度值，且因此被从初始候选前景区域412省略。作为对比，位于初始候选前景区域412内的像素434、436和438呈现在该预定义范围内的IR反射值。

作为在430处执行的基于IR的皮肤检测和/或基于IR的深度检测的一部分，在初始候选前景区域412内的深度被部分基于在像素434、436和438处测量的IR强度值估计。流水线400的此方面可对应于先前描述图3的过程314。在至少一些实现中，基于IR的深度检测可通过由计算设备执行的IR深度-检测模块执行。

图4进一步描绘了其中红外图像410除先前描述的区域412之外还包括另一初始候选前景区域439的示例。在此示例中，区域412对应于人类受试者的面部区域，而区域439对应于人类受试者的颈部区域。在其它示例中，红外图像可包括两个或更多个人类受试者，其中每个人类受试者被一个或多个初始候选前景区域标识。

继续此第一示例，任选地在440处执行面部检测，其中基于初始候选前景区域内的表面的估计深度来相对于初始候选前景区域412设置面部搜索区域442的边界框的大小和/或位置。随后在面部搜索区域内执行面部识别来标识人类受试者的面部444。流水线400的此方面可对应于先前描述的图3的过程316和318。在至少一些实现中，可通过由包括面部识别组件的计算设备执行的面部检测模块执行面部检测。在一些示例中，440处的面部检测可从过程流省略。

在第二示例中，面部检测可在基于IR的皮肤检测和/或基于IR的深度检测之前并且与之成系列地执行。在此第二示例中，可在450处对IR图像执行面部检测以标识在451处指示的人类受试者的面部。替换地或附加地，面部检测可在450处在与IR图像410配准的对应VL图像420上执行，以基于VL强度值标识人类受试者的面部。在VL图像内标识的面部可通过配准被转换为经配准IR图像的相应像素，或反之亦然。

在至少一些实现中，面部检测可被用于在基于IR的皮肤检测和/或基于IR的深度检测之前估计人类受试者的面部的深度。作为示例，可基于面部特征(诸如眼睛、鼻子、嘴巴、耳朵、脸颊等)的或面部特征之间的侧量的距离估计面部的深度。在此上下文中，面部特征间的距离可基于像素数量和/或基于与图像的帧大小的比较来测量。随后可将面部特征之间的测量的距离与面部-模型比较，其任选地可作为与所标识的面部相对应的简档的一部分被保存，以获得该图像内的面部的深度的估计。

基于IR的皮肤检测和/或基于IR的深度检测可以任选地在454处在IR图像410上执行以标识初始候选前景区域455。IR图像内的面部的位置和/或先前在450处获得的估计的深度可随后在454被基于IR的皮肤检测/或基于IR的深度检测用作种子。

作为示例，基于IR的皮肤检测可至少初始被约束到面部451或面部周围的面部区域452。作为另一示例，用于标识初始候选前景区域的IR强度值的预定义范围可基于在面部处测量的IR强度值来设置或更新。在此示例中，例如可在位于先前通过面部检测450标识的面部451处的像素458、460和462处测量IR强度值。IR强度值可被用来设置或更新IR强度值的预定义范围以用于面部或面部区域外的附加搜索。例如，可将示例像素456的IR强度值与该预定义范围相比较。在图4中描绘的示例中，像素456没有呈现在该预定义范围内的IR强度值，且因此被从初始候选前景区域455排除。图4进一步描绘了其中红外图像410包括通过基于IR的皮肤检测标识的附加初始候选前景区域464的示例。

在第三示例中，430处的基于IR的皮肤检测和/或深度检测可与450处的面部检测并行执行。在此示例中，皮肤、深度、和/或面部检测可彼此独立地执行以提供用于身体估计的种子。此处，对串行的面部检测440和基于IR的皮肤检测和/或基于IR的深度检测454的使用可从流水线400省略。

身体估计可在470处执行以获得通过流水线400的前述过程流中的任一者获得的经扩展初始候选前景区域472。作为示例，经扩展初始候选前景区域472可基于以以下的一者或多者为种子的身体-模型估计：(1)初始候选前景区域412、439、455、464等，(2)通过基于IR的深度检测和/或面部检测标识的表面的深度(包括通过面部检测获得的面部的深度450)，和/或(3)通过面部检测标识的人类受试者的面部。在至少一些实现中，身体-模型可包括相对于初始候选前景区域和/或人类受试者的面部被设置大小和/或定位的骨骼框架474。流水线400的此方面可对应于先前描述图3的过程320。在至少一些实现中，身体估计可通过由计算设备执行的身体估计模块执行。

前景和背景分割可在480处执行，以基于经扩展候选前景区域区分IR图像和/或相应VL图像中的前景和背景。如前所述，可基于距经扩展候选前景区域的距离向个体像素分配概率。附加地或替换地，各种计算机视觉技术可被用来扩展或收缩经扩展候选前景区域的大小和/或形状，诸如通过向IR图像和/或配准到IR图像的相应VL图像应用边缘检测、形状识别等。

在至少一些实现中，本文中描述的方法和过程可以与一个或多个计算设备的计算系统绑定。具体而言，这样的方法和过程可被实现为计算机应用程序或服务、应用编程接口(API)、库和/或其他计算机程序产品。

作为非限制性示例，本文所述的关于区分图像中的前景和背景的处理技术可通过由用户操作的客户端计算设备执行。作为另一非限制性示例，这些处理技术可被实现服务的服务器计算机或服务器系统执行，该服务通过通信网络从客户端计算设备接收图像并执行本文描述的过程中的一个或多个。在一示例中，此服务可采取受托管通信服务的形式，该受托管服务促成通信网络上的两个或更多个客户端计算设备之间的图像和/或视频通信。作为又一非限制性示例，这些处理技术可分布于客户端计算设备和服务器计算机或服务器系统之间或之中。

图5示意性地示出了可执行上述方法和过程中的一个或多个的计算系统500的非限制性实施例。以简化形式示出了计算系统500。计算系统500可采取以下形式：一个或多个个人计算机、服务器计算机、平板计算机、家庭娱乐计算机、网络计算设备、游戏设备、移动计算设备、移动通信设备(例如，智能电话)和/或其他计算设备。

计算系统500包括逻辑机502和存储机504。计算系统500可任选地包括输入子系统506、显示子系统508、通信子系统510和/或在图5中未示出的其他组件。

逻辑机502包括被配置成执行指令的一个或多个物理设备。例如，逻辑机可被配置成执行作为以下各项的一部分的指令：一个或多个应用、服务、程序、例程、库、对象、组件、数据结构、或其他逻辑构造。这种指令可被实现以执行任务、实现数据类型、转换一个或多个部件的状态、实现技术效果、或以其他方式得到期望结果。

逻辑机可包括被配置成执行软件指令的一个或多个处理器。作为补充或替换，逻辑机可包括被配置成执行硬件或固件指令的一个或多个硬件或固件逻辑机。逻辑机的处理器可以是单核或多核，且在其上执行的指令可被配置为串行、并行和/或分布式处理。逻辑机的各个组件可任选地分布在两个或更多单独设备上，这些设备可以位于远程和/或被配置成进行协同处理。逻辑机的各方面可由以云计算配置进行配置的可远程访问的联网计算设备来虚拟化和执行。

存储机504包括被配置成保持可由逻辑机执行以实现此处所述的方法和过程的指令的一个或多个物理设备。在实现这些方法和过程时，可以变换存储机504的状态(例如，保存不同的数据)。

作为非限制性示例，由存储机504保持并能由逻辑机502执行的指令可包括先前描述的模块中的一个或多个，包括：(1)基于IR的皮肤检测模块，(2)基于IR的深度检测模块，(3)面部检测模块，(4)身体估计模块，(5)分割模块，(6)配准模块，和/或(7)VL图像修改摸块。

存储机504可以包括可移动和/或内置设备。存储机504可包括光学存储器(例如，CD、DVD、HD-DVD、蓝光盘等)、半导体存储器(例如，RAM、EPROM、EEPROM等)和/或磁存储器(例如，硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等)等等。存储机504可包括易失性、非易失性、动态、静态、读/写、只读、随机存取、顺序存取、位置可寻址、文件可寻址和/或内容可寻址设备。

可以理解，存储机504包括一个或多个物理设备。然而，本文描述的指令的各方面可替换地通过不由物理设备在有限时长内持有的通信介质(例如，电磁信号、光信号等)来传播。

逻辑机502和存储机504的各方面可被一起集成到一个或多个硬件逻辑组件中。这些硬件逻辑组件可包括例如现场可编程门阵列(FPGA)、程序和应用专用的集成电路(PASIC/ASIC)、程序和应用专用的标准产品(PSSP/ASSP)、片上系统(SOC)以及复杂可编程逻辑器件(CPLD)。

术语“模块”、“程序”和“引擎”可用于描述被实现为执行一个特定功能的计算系统500的一方面。在某些情况下，可以通过执行由存储机502所保持的指令的逻辑机504来实例化模块、程序或引擎。将理解，不同的模块、程序、和/或引擎可以从相同的应用、服务、代码块、对象、库、例程、API、函数等实例化。类似地，相同的模块、程序和/或引擎可由不同的应用、服务、代码块、对象、例程、API、功能等来实例化。术语“模块”、“程序”和“引擎”意在涵盖单个或成组的可执行文件、数据文件、库、驱动程序、脚本、数据库记录等。

应当理解，如此处所使用的“服务”可以是跨越多个用户会话可执行的应用程序。服务可对一个或更多系统组件、程序、和/或其他服务可用。在某些实现中，服务可以在一个或多个服务器计算设备上运行。

在被包括时，显示子系统508可用于呈现由存储机504保持的数据的视觉表示。此视觉表示可采用图形用户界面(GUI)的形式。由于本文所描述的方法和过程改变了由存储机保持的数据，并由此变换了存储机的状态，因此同样可以转变显示子系统508的状态以视觉地表示底层数据的改变。显示子系统508可包括使用实质上任何类型的技术的一个或多个显示设备。可将这样的显示设备与逻辑机502和/或存储机504组合在共享封装中，或者这样的显示设备可以是外围显示设备。

当被包括时，输入子系统506可包括诸如键盘、鼠标、触摸屏或游戏控制器等一个或多个用户输入设备或者与这些用户输入设备对接。在一些实施例中，输入子系统可以包括或相接于所选择的自然用户输入(NUI)部件。这样的部件可以是集成式的或者是外设，并且输入动作的转换和/或处理可以在板上或板下处理。示例NUI部件可包括用于语言和/或语音识别的话筒；用于机器视觉和/或姿势识别的红外、VL/色彩、立体显示器和/或深度相机；用于运动检测和/或意图识别的头部跟踪器、眼睛跟踪器、加速计和/或陀螺仪；以及用于评估脑部活动的电场感测部件。

图5进一步描绘了可形成输入子系统506的一部分或与输入子系统506对接的相机系统520形式的用户输入设备的非限制性示例。相机系统520包括VL相机522、IR相机524、以及IR源526。尽管VL相机522和红外相机524被描绘为图5中的独立的或可区分的相机，然而在至少一些实现中，组合相机可用作VL相机522和IR相机524两者。在这种情况下，VL相机522和IR相机524可在同一位置和/或集成到共同的相机。IR源526可包括用于照射被IR相机524捕捉的场景的一个或多个IR和/或近IR光源。在至少一些实现中，IR源526提供非结构化的、漫射的IR和/或近IR照射。

当包括通信子系统510时，通信子系统510可被配置成将计算系统500与一个或多个其他计算设备通信地耦合。通信子系统500可包括与一个或多个不同通信协议兼容的有线和/或无线通信设备。作为非限制性示例，通信子系统可被配置成用于经由无线电话网络或者有线或无线局域网或广域网来进行通信。在一些实施例中，通信子系统可允许计算系统500经由诸如因特网这样的网络将消息发送至其他设备以及/或者从其他设备接收消息。

在一个示例中，一种成像方法包括：获得经由红外相机捕捉的红外图像，标识所述红外图像内包括呈现在预定义范围内的红外强度值的像素的初始候选前景区域，基于所述初始候选前景区域内的像素的红外强度值估计所述初始候选前景区域内的表面的深度，以及基于以所述初始候选前景区域为种子的身体-模型估计以及在所述初始候选前景区域内估计的表面的深度来将所述初始候选前景区域扩展为经扩展候选前景区域。在一个示例中，该成像方法进一步包括基于所述红外图像的每个像素相对于所述经扩展候选前景区域的距离来将该像素标识为前景像素或背景像素之一。在一个示例中，该成像方法进一步包括获得经由可见光相机捕捉的与所述红外图像时间配准且空间配准的可见光图像，以及对于所述红外图像的被标识为背景像素的一些或全部像素，修改所述可见光图像中的相应背景像素。在一个示例中，该成像方法进一步包括获得经由所述红外相机捕捉的多个红外图像，其中所述红外图像是所述多个红外图像之一，获得经由所述可见光相机捕捉的多个可见光图像，其中每个可见光图像与所述多个红外图像的相应红外图像时间配准且空间配准，对于所述多个红外图像中的每个红外图像，并且针对该红外图像的像素中被标识为背景像素的一些或全部像素，修改与该红外图像时间配准且空间配准的可见光图像中的相应背景像素，以及将所述多个可见光图像作为可见光视频输出，其中每个可见光图像具有经修改的背景像素。在一个示例中，在该成像方法内，位于所述经扩展候选前景区域内的每个像素被标识为前景像素，且位于所述经扩展候选前景区域外的一些或全部像素被标识为背景像素。在一个示例中，该成像方法进一步包括基于每个像素相对于所述经扩展候选前景区域的距离将该像素作为前景像素或背景像素之一来进行加权，至少部分基于分配给所述红外图像的每个像素的加权将该像素标识为前景像素或背景像素之一，以及其中所述距离为测地距离，所述测地距离沿着位于每个像素和所述经扩展候选前景区域的最近像素之间的各像素间的光强度的最小梯度。在一个示例中，该成像方法进一步包括基于每个像素在前一帧中的先前确定来将该像素作为前景像素或背景像素之一来进行加权，以及至少部分基于分配给所述红外图像的每个像素的加权将该像素标识为前景像素或背景像素之一。在一个示例中，在该成像方法内，所述预定义范围包括与位于由红外照射条件照射的距所述红外相机一深度范围内的人类皮肤相对应的红外强度值。在一个示例中，在该成像方法内，所述预定义范围通过机器学习算法在位于被所述红外照射条件照射的距红外训练相机一深度范围内的一个或多个人类训练受试者上的先前训练获得。在一个示例中，在该成像方法内，标识所述初始候选前景区域包括将所述红外图像的个体像素的红外强度值与所述预定义范围进行比较，以获得呈现在所述预定义范围内的红外强度值的像素集合。在一个示例中，在该成像方法内，所述初始候选前景区域是多个初始候选前景区域之一，其中所述多个初始候选前景区域中的每一个包括阈值数量的或阈值比例的呈现在所述预定义范围内的红外强度值的像素。在一个示例中，该成像方法进一步包括向所述红外图像应用面部识别来标识人类受试者的面部，测量来自所述人类受试者的所述面部的一个或多个红外强度值，以及基于从所述人类受试者的所述面部测量的所述一个或多个红外强度值来设置所述预定义范围。

在一个示例中，一种成像方法包括获得经由红外相机捕捉的被红外照射的场景的红外图像，标识所述红外图像内包括呈现在预定义范围内的红外强度值的像素的初始候选前景区域，基于所述初始候选前景区域内的像素的红外强度值估计所述初始候选前景区域内的表面的深度，标识面部搜索区域，所述面部搜索区域基于在所述初始候选前景区域内估计的表面的深度设置大小，应用面部识别以标识人类面部，所述面部识别初始约束于所述面部搜索区域，基于以所述人类受试者的面部为种子的身体-模型估计将所述初始候选前景区域扩展为经扩展候选前景区域，以及基于所述红外像素的每个像素相对于所述经扩展候选前景区域的距离将该像素标识为前景像素或背景像素之一。在一个示例中，该成像方法进一步包括获得经由可见光相机捕捉的与所述红外图像时间配准且空间配准的可见光图像，以及针对所述红外图像的被标识为背景像素的一些或全部像素，修改所述可见光图像中的相应背景像素。在一个示例中，该成像方法进一步包括基于每个像素相对于所述经扩展候选前景区域的距离确定该像素是前景像素的加权，其中将每个像素标识为前景像素或背景像素之一基于针对该像素确定的加权，且如果每个像素更靠近所述经扩展候选前景区域则所确定的该像素是前景像素的加权更大且如果该像素更远离所述经扩展候选前景区域则该像素是前景像素的加权更小。在一个示例中，在该成像方法内，所述距离为测地距离，所述测地距离沿着位于每个像素和所述经扩展候选前景区域的最近像素之间的各像素间的光强度的最小梯度。在一个示例中，在该成像方法内，位于所述经扩展候选前景区域内的每个像素被标识为前景像素，且位于所述经扩展候选前景区域外的一些或全部像素被标识为背景像素。在一个示例中，在该成像方法内，所述预定义范围包括与位于由红外照射条件照射的距所述红外相机一深度范围内的人类皮肤相对应的红外强度值。在一个示例中，在该成像方法内，所述预定义范围通过机器学习算法在位于被所述红外照射条件照射的距红外训练相机一深度范围内的一个或多个人类训练受试者上的先前训练获得。

在一个示例中，一种计算系统包括用于捕捉形成红外视频的红外图像和形成可见光视频的可见光图像的相机系统，所述红外图像与所述可见光图像配准，用于执行指令的逻辑机，以及存储机，所述存储机保持能由所述逻辑机执行以进行以下操作的指令：对于经由所述红外相机捕捉的每个红外图像，标识该红外图像内呈现在预定义范围内的红外强度值的初始候选前景区域，基于该红外图像的相应像素的红外强度值估计所述初始候选前景区域内的表面的深度，基于以所述初始候选前景区域为种子的身体-模型估计以及在所述初始候选前景区域内估计的表面的深度将所述初始候选前景区域扩展为经扩展候选前景区域，基于该红外图像的每个像素相对于所述经扩展候选前景区域的距离将该像素标识为前景像素或背景像素之一，针对该红外图像的被标识为背景像素的一些或全部像素，修改所述多个可见光图像的与该红外图像时间配准且空间配准的可见光图像的相应背景像素，以及将所述多个可见光图像作为所述可见光视频输出，其中每个可见光图像具有经修改的背景像素。

将会理解，本文描述的配置和/或方式本质是示例性的，这些具体实施例或本文示例不应被视为限制性的，因为许多变体是可能的。本文描述的具体例程或方法可以表示任何数量的处理策略中的一个或多个。如此，所示和/或所述的各种动作可以以所示和/或所述顺序、以其他顺序、并行地执行，或者被省略。同样，上述过程的次序可以改变。

本公开的主题包括本文公开的各种过程、系统和配置以及其他特征、功能、动作和/或性质的所有新颖和非显而易见的组合和子组合，以及其任何和所有等同物。

Claims

1.一种成像方法，包括：

获得经由红外相机捕捉的红外图像；

标识所述红外图像内包括呈现在预定义范围内的红外强度值的像素的初始候选前景区域；

基于所述初始候选前景区域内的像素的红外强度值，估计所述初始候选前景区域内的表面的深度；以及

基于以所述初始候选前景区域为种子的身体-模型估计以及在所述初始候选前景区域内估计的表面的深度，将所述初始候选前景区域扩展为经扩展候选前景区域，其中所述身体-模型估计被用来近似人类受试者的身体部分在所述红外图像的帧内的位置。

2.如权利要求1所述的方法，其特征在于，进一步包括：

基于所述红外图像的每个像素相对于所述经扩展候选前景区域的距离，将该像素标识为前景像素或背景像素之一。

3.如权利要求2所述的方法，其特征在于，进一步包括：

获得经由可见光相机捕捉的与所述红外图像时间配准且空间配准的可见光图像；以及

针对所述红外图像的被标识为背景像素的一些或全部像素，修改所述可见光图像中的相应背景像素。

4.如权利要求3所述的方法，其特征在于，进一步包括：

获得经由所述红外相机捕捉的多个红外图像，其中所述红外图像是所述多个红外图像之一；

获得经由所述可见光相机捕捉的多个可见光图像，其中每个可见光图像与所述多个红外图像的相应红外图像时间配准且空间配准；

针对所述多个红外图像中的每个红外图像，并且针对该红外图像的像素中被标识为背景像素的一些或全部像素，修改与该红外图像时间配准且空间配准的可见光图像中的相应背景像素；以及

将所述多个可见光图像作为可见光视频输出，其中每个可见光图像具有经修改的背景像素。

5.如权利要求2所述的方法，其特征在于，位于所述经扩展候选前景区域内的每个像素被标识为前景像素，而位于所述经扩展候选前景区域外的一些或全部像素被标识为背景像素。

6.如权利要求2所述的方法，其特征在于，进一步包括：

基于每个像素相对于所述经扩展候选前景区域的距离，将该像素作为前景像素或背景像素之一来进行加权；

至少部分基于分配给所述红外图像的每个像素的加权，将该像素标识为前景像素或背景像素之一；以及

其中所述距离为测地距离，所述测地距离沿着位于每个像素和所述经扩展候选前景区域的最近像素之间的各像素间的光强度的最小梯度。

7.如权利要求1所述的方法，其特征在于，进一步包括：

基于每个像素在前一帧中的先前确定来将该像素作为前景像素或背景像素之一来进行加权；以及

至少部分基于分配给所述红外图像的每个像素的加权，将该像素标识为前景像素或背景像素之一。

8.如权利要求1所述的方法，其特征在于，所述预定义范围包括与位于由红外照射条件照射的距所述红外相机一深度范围内的人类皮肤相对应的红外强度值。

9.如权利要求8所述的方法，其特征在于，所述预定义范围通过机器学习算法在位于被所述红外照射条件照射的距红外训练相机一深度范围内的一个或多个人类训练受试者上的先前训练获得。

10.如权利要求1所述的方法，其特征在于，标识所述初始候选前景区域包括，将所述红外图像的个体像素的红外强度值与所述预定义范围进行比较以获得呈现在所述预定义范围内的红外强度值的像素集合。

11.如权利要求10所述的方法，其特征在于，所述初始候选前景区域是多个初始候选前景区域之一，其中所述多个初始候选前景区域中的每一个初始候选前景区域包括阈值数量的或阈值比例的呈现在所述预定义范围内的红外强度值的像素。

12.如权利要求1所述的方法，其特征在于，进一步包括：

向所述红外图像应用面部识别来标识人类受试者的面部；

测量来自所述人类受试者的所述面部的一个或多个红外强度值；以及

基于从所述人类受试者的所述面部测量的所述一个或多个红外强度值来设置所述预定义范围。

13.一种存储有指令的计算机可读存储介质，所述指令在被执行时，使得计算机执行权利要求1-12中的任一项所述的方法。

14.一种计算机系统，包括用于执行权利要求1-12中的任一项所述的方法的装置。

15.一种成像方法，包括：

获得经由红外相机捕捉的被红外照射的场景的红外图像；

标识所述红外图像内包括呈现在预定义范围内的红外强度值的初始候选前景区域；

基于所述初始候选前景区域内的像素的红外强度值，估计所述初始候选前景区域内的表面的深度；

标识面部搜索区域，所述面部搜索区域基于在所述初始候选前景区域内估计的表面的深度来被设置大小；

应用面部识别以标识人类面部，所述面部识别初始约束于所述面部搜索区域；

基于以所述人类受试者的面部为种子的身体-模型估计将所述初始候选前景区域扩展为经扩展候选前景区域，其中所述身体-模型估计被用来近似所述人类受试者的身体部分在所述红外图像的帧内的位置；以及

基于所述红外像素的每个像素相对于所述经扩展候选前景区域的距离，将该像素标识为前景像素或背景像素之一。

16.如权利要求15所述的方法，其特征在于，进一步包括：

17.如权利要求15所述的方法，其特征在于，进一步包括：

基于每个像素相对于所述经扩展候选前景区域的距离，确定该像素作为前景像素的加权；

其中将每个像素标识为前景像素或背景像素之一是基于针对该像素确定的加权的；以及

其中如果每个像素更靠近所述经扩展候选前景区域，则所确定的该像素作为前景像素的加权更大，而如果该像素更远离所述经扩展候选前景区域，则该像素作为前景像素的加权更小。

18.如权利要求17所述的方法，其特征在于，所述距离为测地距离，所述测地距离沿着位于每个像素和所述经扩展候选前景区域的最近像素之间的各像素间的光强度的最小梯度。

19.如权利要求15所述的方法，其特征在于，位于所述经扩展候选前景区域内的每个像素被标识为前景像素，而位于所述经扩展候选前景区域外的一些或全部像素被标识为背景像素。

20.如权利要求15所述的方法，其特征在于，所述预定义范围包括与位于由红外照射条件照射的距所述红外相机一深度范围内的人类皮肤相对应的红外强度值。

21.如权利要求19所述的方法，其特征在于，所述预定义范围通过机器学习算法在位于被所述红外照射条件照射的距红外训练相机一深度范围内的一个或多个人类训练受试者上的先前训练获得。

22.一种存储有指令的计算机可读存储介质，所述指令在被执行时，使得计算机执行权利要求15-21中的任一项所述的方法。

23.一种计算机系统，包括用于执行权利要求15-21中的任一项所述的方法的装置。

24.一种计算系统，包括：

用于捕捉形成红外视频的红外图像和形成可见光视频的可见光图像的相机系统，所述红外图像与所述可见光图像配准；

用于执行指令的逻辑机；以及

存储机，所述存储机保持能由所述逻辑机执行以进行以下操作的指令：

针对经由所述红外相机捕捉的每个红外图像，

标识该红外图像内呈现在预定义范围内的红外强度值的初始候选前景区域，

基于该红外图像的相应像素的红外强度值，估计所述初始候选前景区域内的表面的深度，

基于以所述初始候选前景区域为种子的身体-模型估计以及在所述初始候选前景区域内估计的表面的深度，将所述初始候选前景区域扩展为经扩展候选前景区域，其中所述身体-模型估计被用来近似人类受试者的身体部分在所述红外图像的帧内的位置，

基于该红外图像的每个像素相对于所述经扩展候选前景区域的距离，将该像素标识为前景像素或背景像素之一，

针对该红外图像的被标识为背景像素的一些或全部像素，修改所述多个可见光图像的与该红外图像时间配准且空间配准的可见光图像的相应背景像素，以及

将所述多个可见光图像作为所述可见光视频输出，其中每个可见光图像具有经修改的背景像素。