CN110248085B

CN110248085B - 用于图像序列的图像中的对象边界稳定化的装置和方法

Info

Publication number: CN110248085B
Application number: CN201910150091.XA
Authority: CN
Inventors: D·乌斯考夫; M·格哈拉维-阿尔克汉萨利
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2018-03-06
Filing date: 2019-02-28
Publication date: 2021-08-06
Anticipated expiration: 2039-02-28
Also published as: EP3537378B1; JP2019160298A; US20190279371A1; KR20190106698A; EP3537378A1; KR102169431B1; CN110248085A; US10643336B2; JP6889417B2

Abstract

公开了用于图像帧序列的图像中的对象边界稳定化的图像处理装置和方法的各个方面。图像处理装置包括图像处理器，该图像处理器从第一类型的传感器接收场景的深度图像和从第二类型的传感器接收场景的彩色图像。场景可以包括至少感兴趣对象。通过对接收到的深度图像进行深度阈值化操作来生成感兴趣对象的第一对象蒙版。呈现在第一对象蒙版的第一对象边界上的悬垂像素伪影被移除。在彩色图像上使用移动模板滤波器来平滑第一对象边界。基于第一对象边界的平滑生成具有第二对象边界的第二对象蒙版。基于生成的第二对象蒙版从彩色图像提取感兴趣对象。

Description

用于图像序列的图像中的对象边界稳定化的装置和方法

技术领域

本公开的各种实施例涉及对象分割和图像背景替换技术。更具体而言，本公开的各种实施例涉及用于图像帧序列的图像中的对象边界稳定化的图像处理装置和方法。

背景技术

视频监控系统、机器人和汽车工业领域中的机器视觉系统以及消费者电子(CE)设备领域中的最新进展主要归功于图像处理技术的快速技术发展。虽然已知各种对象分割方法将图像的前景对象从背景分离，但复杂性、准确性和计算资源要求基于要实现的目标而变化。在基于深度的对象分割方法中，与单独使用彩色图像的方法相比，为对象分割使用深度图可以允许避免对象描绘过程中的许多不确定性。提供深度图的现有深度传感器仍然缺乏准确性并且对于匹配RGB相机的增加的分辨率是滞后的。例如，深度图可以包含阴影区块，其中来自深度传感器的红外(IR)发射器的光不传播，导致深度未知的区块。此外，深度图在对象的边界处可能是最不确定的，其中深度急剧下降，并且在图像帧之间强烈波动。现代深度传感器的深度图中的不完善导致被分割的对象的边界上的显著波动，尤其在图像帧序列的帧之间可见，例如电影或其它视频。结果产生的伪影对于观看者来说在视觉上是令人不愉快的。因此，可能期望减少边界波动的量并稳定对象边界用于精确的对象分割和增强的背景替换。

通过将所描述的系统与本公开的一些方面进行比较，如在本申请的其余部分中并参考附图所阐述的，常规和传统方法的进一步限制和缺点对于本领域技术人员将变得明晰。

发明内容

如在权利要求中更完整地阐述的，基本上如至少一个附图所示和/或结合至少一个附图所描述的，提供用于图像帧序列的图像中的对象边界稳定化的图像处理装置和方法。

通过阅读本公开的以下详细描述以及附图，可以认识到本公开的这些和其它特征及优点，其中相同的标号始终指相同的部件。

附图说明

图1A是图示根据本公开实施例的用于图像帧序列的图像中的对象边界稳定化的示例性网络环境的框图。

图1B图示了根据本公开实施例的场景的示例性彩色图像和深度图像，以描绘由示例性图像处理装置处理的深度图像中的不同伪影。

图2是图示根据本公开实施例的示例性图像处理装置的框图。

图3A至图3M共同图示了根据本公开实施例的用于图像帧序列的图像中的对象边界稳定化的图2的图像处理装置的示例性操作。

图4A和图4B共同描绘了图示根据本公开实施例的用于图像帧序列的图像中的对象边界稳定化的示例性方法的流程图。

具体实施方式

可以在所公开的用于图像帧序列的图像中的对象边界稳定化的图像处理装置和方法中找到以下所述的实现。本公开的示例性方面可以包括图像处理装置和方法，其包括从第一类型的传感器接收场景的深度图像和从第二类型的传感器接收场景的彩色图像。第一类型的传感器可以与第二类型的传感器不同。场景可以包括至少感兴趣对象。可以通过对接收到的深度图像进行深度阈值化操作来获得感兴趣对象的第一对象蒙版。可以移除呈现在第一对象蒙版的第一对象边界上的悬垂像素伪影。在移除悬垂像素伪影之后，可以在彩色图像上使用移动模板滤波器来平滑第一对象蒙版的第一对象边界。可以基于第一对象边界的平滑来生成具有第二对象边界的第二对象蒙版。可以基于所生成的具有第二对象边界的第二对象蒙版来从彩色图像提取感兴趣对象。

根据实施例，场景的彩色图像的处理可以限于用于从彩色图像中提取感兴趣对象的第一类型传感器的视场(FOV)。可以通过深度阈值化操作排除大于阈值深度值的多个深度值。阈值深度值可以与和感兴趣对象的第一对象蒙版的像素相关联的最大深度值对应。

根据实施例，可以从深度图像中移除零深度伪影。零深度伪影可以与深度图像中具有未知深度值的区块对应。可以基于指定的准则将与未知深度值相关联的像素分类为背景像素或前景像素。另外，还可以从深度图像中移除由感兴趣对象的一部分在第一对象蒙版上投射(cast)的红外(IR)阴影。可以动态地更新彩色图像中第一对象蒙版之外的背景区域，以移除IR阴影。

根据实施例，移动模板滤波器可以置于彩色图像上，以涵盖第一对象边界的边界像素，使得移动模板滤波器包括位于第一对象蒙版的内部区域中的第一像素集合和位于第一对象蒙版之外的外部区域中的第二像素集合。可以搜索沿着移动模板滤波器内的第一对象边界的法线具有最大图像梯度的像素。第一对象边界的法线可以定义计算图像梯度的方向。根据实施例，可以计算第一像素集合与第二像素集合之间的颜色值和亮度值的差异。可以基于计算出的第一像素集合与第二像素集合之间的颜色值和亮度值的差异而将边界像素识别为用于平滑第一对象边界的候选像素。

根据实施例，提取出的感兴趣对象可以被嵌入到为感兴趣对象提供新背景的新图像中。可以将混合操作应用于新图像中的感兴趣对象的第二对象边界，用于与新背景的平滑的颜色-亮度混合。可以更新第二对象边界的边界像素的颜色值或亮度值中的至少一个。更新可以基于边界像素的颜色值或亮度值与邻近边界像素的像素集合之间的差异来发生。邻近边界像素的像素集合包括第二对象蒙版内的第一数量的像素和新图像的新背景中的第二数量的像素。

图1A是图示根据本公开实施例的用于图像帧序列的图像中的对象边界稳定化的示例性网络环境的框图。参考图1A，示出了网络环境100。网络环境100可以包括图像处理装置102、传感器电路104、服务器106和通信网络108。根据实施例，传感器电路104可以与图像处理装置102集成。根据实施例，传感器电路104可以是通信耦合到图像处理装置102的外部传感器设备。传感器电路104可以包括第一类型的传感器104a和第二类型的传感器104b。图像处理装置102和服务器106可以经由通信网络108彼此通信耦合。

图像处理装置102可以包括合适的电路、接口和/或代码，其可以被配置为从第一类型的传感器104a接收场景的深度图，和从第二类型的传感器104b接收同一场景的彩色图像。可以同时接收深度图和彩色图像用于处理。由第一类型的传感器104a(诸如深度传感器)和第二类型的传感器104b捕获的场景可以包括一个或多个对象。一个或多个对象的示例可以包括但不限于人类对象、动物、移动对象、变形对象，或者非人类或无生命对象(诸如机器人或关节状对象)。关节状对象是指具有经由关节附接的并且可以相对于彼此移动的部分的对象。图像处理装置102可以被配置为利用深度图和彩色图像两者来准确地识别并细化感兴趣对象的边界。深度图中的典型伪影(其是诸如第一类型的传感器104a之类的深度传感器的特性)可以通过图像处理装置102的顺序细化操作来被移除。图像处理装置102可以被配置为执行顺序细化操作，以减少感兴趣对象的对象边界波动的量。图像处理装置102可以被配置为基于具有细化对象边界的细化对象蒙版从彩色图像中提取感兴趣对象。提取出的感兴趣对象可以被嵌入到新图像中，该新图像为感兴趣对象提供新背景。图像处理装置102的示例可以包括但不限于数码相机、便携式相机、头戴式设备(HMD)、监控装备、智能电话、智能眼镜、基于虚拟现实、混合现实或增强现实的设备、计算设备和/或其它消费者电子(CE)设备。

传感器电路104可以包括合适的逻辑、电路、接口和/或代码，其可被配置为同时捕获同一场景的深度图和彩色图像。传感器电路104可以包括第一类型的传感器104a和第二类型的传感器104b。第一类型的传感器104a可以包括深度传感器和红外(IR)发射器。深度传感器可以是IR深度传感器。第二类型的传感器104b可以是图像传感器(例如，RGB相机)，其可以捕获彩色图像(诸如RGB图像)。传感器电路104可以被配置为将深度图和彩色图像存储在本地缓冲器、存储器和/或服务器106中。

服务器106可以包括合适的电路、接口和/或代码，其可以被配置为存储由图像处理装置102捕获的图像帧序列和深度图。服务器106的示例可以包括但不限于数据库服务器、文件服务器、应用服务器、云服务器、web服务器或其组合。

通信网络108可以包括通信介质，图像处理装置102可以通过该通信介质与服务器106通信耦合。通信网络108的示例可以包括但不限于因特网、云网络、无线保真(Wi-Fi)网络、局域网(LAN)和/或城域网(MAN)。网络环境100中的各种设备可以被配置为根据各种有线和无线通信协议连接到通信网络108。这种有线和无线通信协议的示例可以包括但不限于以下中的至少一个：传输控制协议和因特网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)、文件传输协议(FTP)、ZigBee、EDGE、IEEE 802.11、光保真(Li-Fi)、802.16、IEEE 802.11s、IEEE 802.11g、多跳通信、无线接入点(AP)、设备到设备通信、蜂窝通信协议或蓝牙(BT)通信协议，包括其变体和/或其组合。

在操作中，图像处理装置102可以被配置为从第一类型的传感器104a接收场景的深度图像，和从第二类型的传感器104b接收场景的彩色图像。场景可以包括一个或多个前景对象，例如，要被分段的感兴趣对象。图像处理装置102可以被配置为将场景的彩色图像的处理限制到第一类型的传感器104a的视场(FOV)，例如，如图1B中所示。

图1B图示了根据本公开实施例的场景的示例性彩色图像和深度图像，以描绘由示例性图像处理装置处理的深度图像中的不同伪影。参考图1B，示出了场景114的示例性彩色图像(诸如RGB图像110a)以及示例性深度图(诸如深度图像112a)。RGB图像110a包括以RGB颜色通道表示的第一前景对象118a、第二前景对象120a和背景116a。深度图像112a包括第一前景对象118a的第一深度表示118b、第二前景对象120a的第二深度表示120b以及背景116a的第三深度表示116b。在深度图像112a中还示出了某些阴影区块，诸如区域122a、122b、122c、122d和124。

图像处理装置102可以被配置为通过对接收到的深度图像112a的深度阈值化操作来获得感兴趣对象(诸如第一前景对象118a)的第一对象蒙版。图像处理装置102可以被配置为通过深度阈值化操作排除大于阈值深度值的多个深度值。例如，来自传感器电路104的位于小于某米数深度(诸如1.5深度值)的所有像素可以被认为属于(一个或多个)前景对象，并可以相应地可以生成(一个或多个)对象蒙版。阈值深度值与和感兴趣对象(诸如第一前景对象118a)的第一对象蒙版的像素相关联的最大深度值对应。

在某些情况下，深度图像112a可以包括阴影区块，例如，如区域122a、122b、122c和122d中所示。由第一类型的传感器104a的IR发射器发射的IR光不能传播到所捕获的场景114的某些区块。光不有效传播的这些区块通常在深度图像112a中显现为阴影区块，并且具有未知的深度值。未知深度值也可以称为零深度或未定义深度值。例如，区域122a指场景114的在第一类型的传感器104a的FOV之外的区块。区域122a可以包含由第一类型的传感器104a报告的零深度值。因此，为了解析区域122a中的0深度伪影，图像处理装置102可以被配置为将场景114的RGB图像110a的处理限制到第一类型的传感器104a的FOV，如例如在图1B中由平行虚线所示。

区域122b可以指深度图像112a的第三深度表示116b中的区块(即，其与背景116a对应)，它也可以包含零深度值。区域122b可以具有带非零深度区域的边界，其中区域122b附近的非零深度区域之间的差异可以大于阈值深度值。换句话说，与和区域122b共享边界的附近非零深度区域相比，区域122b可以指示场景114的深度的大幅下降。区域122c可以指深度图像112a的第三深度表示116b中的阴影区块，它也可以包含零深度值。区域122c中的零深度值可以是由前景对象(诸如第一前景对象118a)在背景116a上投射的区域122c中的IR阴影的结果。

在某些情况下，前景对象(诸如第一前景对象118a)的一部分可以在其自身上投射阴影，如区域122d所示。因此，区域122d也可以包含零深度值，因为由第一类型的传感器104a的IR发射器发射的IR光不能传播到区域122d。图像处理装置102可以被配置为从深度图像112a移除零深度伪影。零深度伪影与深度图像112a中具有未知深度值的区域(例如，区域122a、122b、122c和122d)对应。图像处理装置102可以被配置为基于指定的准则将与未知深度值相关联的像素分类为背景像素或前景像素。可以进行像素的分类，以获得感兴趣对象的正确对象蒙版(诸如第一对象蒙版)。像素的分类和指定的准则在例如图3A至图3I中详细描述。

根据实施例，图像处理装置102可以被配置为移除呈现在第一对象蒙版的第一对象边界上的悬垂像素伪影。“悬垂”或悬垂像素伪影可以通过在与深度图像112a中的IR阴影区块相邻的第一对象边界处的显著波动来表现(manifest)。在那些IR阴影区块(诸如区域124)中，在第一对象边界处，对象边界波动可以以从帧到帧和从像素到像素的方式发生。区域124指示深度图像112a中的混沌深度(如由第一类型的传感器104a报告的)，这导致在感兴趣对象(诸如第一前景对象118a)的第一对象边界处及其周围的悬垂像素伪影。在图3A和图3C中进一步示出并描述悬垂像素伪影的示例。图像处理装置102可以被配置为当像素在3×3像素附近具有至少一个深度未定义的像素(例如，包含零深度值的像素)时将像素标记为悬垂像素。

根据实施例，图像处理装置102可以被配置为在移除零深度伪影和悬垂像素伪影之后在RGB图像110a上使用移动模板滤波器来平滑第一对象蒙版的第一对象边界。在图3A、图3E、图3F、图3G、图3H和图3I中详细描述了平滑操作。图像处理装置102可以被配置为基于第一对象边界的平滑来生成具有第二对象边界的第二对象蒙版。图像处理装置102可以被配置为基于所生成的具有第二对象边界的第二对象蒙版从RGB图像110a提取感兴趣对象。图像处理装置102可以被配置为将提取出的感兴趣对象嵌入到为感兴趣对象提供新背景的新图像中。图像处理装置102可以被配置为将混合操作应用于新图像中的感兴趣对象的第二对象边界，用于与新背景的平滑的颜色-亮度混合。例如，在图3A和图3M中详细描述了混合操作。

根据实施例，可以从图像帧序列的每个源彩色图像(诸如RGB图像110a)中提取感兴趣对象，并且实时或近实时地逐帧在视频的每个新图像帧中混合感兴趣对象。图像处理装置102还可以被配置为经由通信网络108将包括新图像帧中被嵌入的感兴趣对象和被替代背景以及后续图像帧的视频传送到服务器106。服务器106可以被配置为存储经修改的视频。

所公开的用于图像帧序列(诸如电影或其它视频)的图像中的对象边界稳定化的图像处理装置102可以在各种应用领域中实现，诸如视频监控、自动视频编辑系统、自动背景替换系统、或在图像帧的输入序列被捕获时跟踪在不同时间实例改变位置或朝向的对象。所公开的图像处理装置102和方法可以适于真实世界跟踪应用，诸如人类或其它关节状对象的视频监控、游戏系统中的对象跟踪、或新背景中对象的其它实时或近实时对象分割和混合。

图2是图示根据本公开实施例的示例性图像处理装置的框图。结合图1A和图1B的元件来解释图2。参考图2，示出了图像处理装置102。图像处理装置102可以包括一个或多个电路，诸如图像处理器202、存储器204、对象混合处理器206、I/O设备208和网络接口210。I/O设备208可以包括传感器电路104和显示器208A。在示例中，传感器电路104被示为图像处理装置102的集成单元。图像处理器202可以与存储器204、对象混合处理器206、I/O设备208、网络接口210和传感器电路104通信耦合。网络接口210可以促进经由通信网络108与服务器106的通信。

图像处理器202可以包括合适的逻辑、电路、接口和/或代码，其可以被配置为在移除不同类型的伪影(诸如零深度和悬垂像素伪影)之后在接收的彩色图像上使用移动模板滤波器来平滑第一对象蒙版的第一对象边界。图像处理器202可以被配置为基于第一对象边界的平滑来生成具有第二对象边界的第二对象蒙版。此后，可以基于所生成的具有第二对象边界的第二对象蒙版从彩色图像中提取感兴趣对象，其中第二对象边界是细化的对象边界。图像处理器202可以被配置为执行存储在存储器204中的指令集。可以基于本领域中已知的多种处理器技术来实现图像处理器202。图像处理器202的示例可以是精简指令集计算(RISC)处理器、专用集成电路(ASIC)处理器、复杂指令集计算(CISC)、硬件处理器、中央处理单元(CPU)和/或其它处理器或控制电路。

存储器204可以包括合适的逻辑、电路和/或接口，其可以被配置为将深度图和彩色图像存储在存储器204的本地图像缓冲器中。存储器204还可以存储可由图像处理器202执行的指令集。存储器204可以被配置为存储操作系统和相关联的应用。存储器204的实现的示例可以包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、硬盘驱动器(HDD)、固态驱动器(SSD)、CPU高速缓存和/或安全数字(SD)卡。

对象混合处理器206可以包括合适的逻辑、电路、接口和/或代码，其可以被配置为将混合操作应用于新图像中的感兴趣对象的第二对象边界，用于与新背景的平滑的颜色-亮度混合。对象混合处理器206可以被实现为单独的处理器(诸如协处理器)，或图像处理装置102中的电路。对象混合处理器206和图像处理器202可以被实现为执行对象混合处理器206和图像处理器202的功能的集成处理器或处理器集群。

I/O设备208可以包括合适的逻辑、电路、接口和/或代码，其可以被配置为接收输入并向用户提供输出。I/O设备208可以包括可以被配置为与图像处理器202通信的各种输入和输出设备。输入设备的示例可以包括但不限于触摸屏、键盘、鼠标、操纵杆、麦克风和/或传感器电路104。输出设备的示例可以包括但不限于显示器208A和/或扬声器。

显示器208A可以包括合适的逻辑、电路、接口和/或代码，其可以被配置为渲染提取出的感兴趣对象。根据实施例，显示器208A可以能够接收来自用户的输入。在这种情况下，显示器208A可以是使用户能够提供输入的触摸屏。触摸屏可以与电阻式触摸屏、电容式触摸屏或热触摸屏中的至少一个对应。根据实施例，显示器208A可以通过虚拟小键盘、触控笔、基于手势的输入和/或基于触摸的输入来接收输入。显示器208A可以通过若干已知技术实现，诸如但不限于液晶显示(LCD)显示器、发光二极管(LED)显示器、等离子体显示器和/或有机LED(OLED)显示技术和/或其它显示器中的至少一种。根据实施例，显示器208A可以指智能眼镜设备的显示屏、透视显示器、基于投影的显示器、电致变色显示器、切割形状显示器和/或透明显示器。透视显示器可以是透明或半透明显示器。根据实施例，透视显示器和/或基于投影的显示器可以生成具有透明背景的提取出的感兴趣对象在距离用户眼睛(诸如用户)的预定距离处漂浮在空中的光学错觉，从而提供增强的用户体验。

网络接口210可以包括合适的逻辑、电路、接口和/或代码，其可以被配置为促进经由通信网络108的图像处理装置102和服务器106之间的通信。网络接口210可以通过使用各种已知技术来实现，以支持图像处理装置102与通信网络108的有线或无线通信。网络接口210可以包括但不限于天线、射频(RF)收发器、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、编码器-解码器(CODEC)芯片组、订户身份模块(SIM)卡和/或本地缓冲器。网络接口210可以经由无线通信与诸如因特网、内联网和/或无线网络(诸如蜂窝电话网络、无线局域网(LAN)和/或城域网(MAN))之类的网络进行通信。无线通信可以使用多种通信标准、协议和技术中的任何一种，诸如全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、宽带码分多址(W-CDMA)、长期演进(LTE)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、无线保真(Wi-Fi)(诸如IEEE 802.11a、IEEE 802.11b、IEEE 802.11g和/或IEEE802.11n)、因特网协议语音(VoIP)、光保真(Li-Fi)、Wi-MAX、电子邮件协议、即时消息传递和/或短消息服务(SMS)。

如图1A和图1B中所述，由图像处理装置102执行的功能和/或操作可以由图像处理器202和/或对象混合处理器206执行。由图像处理器202和对象混合处理器206执行的其它操作例如在图3A至图3M、图4A和图4B中进一步描述。

图3A至图3M共同图示了根据本公开实施例的用于图像帧序列的图像中的对象边界稳定化的图2的图像处理装置的示例性操作。结合图1A、图1B和图2中的元件描述图3A至图3M。参考图3A，示出了根据本公开实施例的对象蒙版细化和混合到新背景中的对象的示例性处理流水线300。

在302处，图像处理器202可以被配置为从第一类型的传感器104a接收场景114的深度图像112a，和从第二类型的传感器104b接收场景114的RGB图像110a。在304处，图像处理器202可以被配置为通过对接收的深度图像112a的深度阈值化操作来获得具有感兴趣对象(诸如第一前景对象118a)的第一对象边界304B的第一对象蒙版304A。与远离场景114中第一类型的传感器104a的对象相比，位于第一类型的传感器104a附近的对象可以具有更小的深度。在某些情况下，如果诸如第二前景对象120a之类的对象在场景114中处于与深度阈值化操作中的第一前景对象118a相似的深度，那么还可以获得附加蒙版304C。这种附加蒙版304C可以稍后被丢弃。图像处理器202可以被配置为估计感兴趣对象(诸如第一前景对象118a)的最大深度值。此后，通过深度阈值化操作，图像处理器202可以被配置为排除大于阈值深度值的所有深度值。可以基于与感兴趣对象(诸如第一前景对象118a)的像素相关联的估计的最大深度值来动态地计算阈值深度值。从现代深度传感器(诸如第一类型的传感器104a)接收的深度信息通常是不完善的，因此深度图像112a包含阴影区块(诸如区域122a至122d以及区域124)，如图1B中观察到并讨论的。深度图(诸如深度图像112a)中的不完善可以导致对象的边界(诸如第一对象边界304B)上的显著波动，尤其是在图像帧序列的帧之间可见。因此，如果基于常规的基于深度的分割方法基于所获得的对象蒙版直接分割对象，那么它可能向观看者提供令人不愉快的伪影。因此，图像处理器202执行一系列细化操作，以减少第一对象边界304B上的波动的量。具有第一对象边界304B的第一对象蒙版304A可以由图像处理器202适当地细化。

在306A处，图像处理器202可以被配置为移除第一对象蒙版304A上及其周围的点状伪影。点状伪影与零深度伪影对应。例如，从图3B可以详细地理解第一对象蒙版304A上及其周围的零深度伪影的移除。现在参考图3B，示出了零深度分类图318以描述第一对象蒙版304A上及其周围的零深度(或点状)伪影的移除。零深度分类图318包括第一对象蒙版304A、附加蒙版304C和背景区域320(由虚线图案表示)。背景区域320可以是黑色或单色的，并且包括区域322A和322B。区域322A和322B与经处理的区域对应，其中零深度伪影被处理并被更新为非零深度像素。

图像处理器202可以被配置为在深度图像112a中找到与非零深度区域具有边界的一个或多个零深度连接区块(诸如图1B和图3A中所示的区域122b；图3B中未示出)。与和区域122b共享边界的附近非零深度区域相比，区域122b可以指示场景114的深度的大幅下降。在某些情况下，大多数边界像素(即与区域122b共享边界的像素)可以包含大于前景对象(诸如第一前景对象118a)的最大深度的深度值。在此类情况下，图像处理器202可以被配置为在第一细化操作中将一个或多个零深度连接区块(诸如区域122b)分类为具有非零深度值。分类的深度值可以类似于边界像素(即与区域122b共享边界的像素)的深度值。然后，在一个或多个零深度连接区块中深度值被分类为非零深度值的像素例如由图3B中的零深度分类图318中的区域322A表示。根据实施例，图像处理器202可以被配置为在零深度分类图318中以与背景区域320不同的颜色(例如，青色)对区域322A涂色(in-paint)。因此，来自区域122b的零深度伪影(其指示场景114(图1B)的深度的大幅下降)在第一细化操作中被移除。

根据实施例，图像处理器202可以被配置为将包括第一对象边界304B的第一对象蒙版304A的所有像素以及附加蒙版304C分类为前景像素。此类前景像素可以在零深度分类图318中以不同的颜色(例如，红色)被标记。此类前景像素可以包含小于用于深度阈值化操作的阈值深度值的深度。例如，来自传感器电路104的位于小于1.5米深度(即1.5深度值)的所有像素可以被认为属于(一个或多个)前景对象并且在零深度分类图318中以不同颜色(例如，红色)被标记。此后，从例如(一个或多个)前景对象(诸如第一前景对象118a和第二前景对象120a)的最左侧像素(边界像素)开始，图像处理器202可以被配置为以某个方向检查一行中的下一个像素(即，从(一个或多个)前景对象的边界像素朝着背景区域320逐行)，直到遇到非零深度像素。例如，从第一对象蒙版304A的第一对象边界304B的最左边界像素开始，图像处理器202可以被配置为朝着如箭头标记324所示的左方向检查一行中的后续像素，直到遇到非零深度像素。在像素具有大于第一前景对象118a的最大深度值的深度值的情况下，具有非零深度值的所有被检查像素被分类为背景像素。可以从附加蒙版304C的边界像素起执行类似的检查，如箭头标记326所示，以及具有非零深度值的像素的分类。因此，可以基于分类移除先前包含非零深度伪影或点状伪影的区域322B。区域322B可以与深度图像112a(图1B和图3A)中的区域122c和124对应，其中像素的分类被更新。区域322B可以由零深度分类图318中的独特颜色(例如绿色)表示。

现在返回到图3A，在306B处，图像处理器202可以被配置为动态地更新RGB图像110a中的第一对象蒙版304A外部的背景116a。具有零深度值的背景116a中的一些像素实际上属于背景区域的知识可以用于RGB图像110a的背景116a的动态更新，从而消除背景116a中的某些盲点或点状伪影。换句话说，更新后的背景116a可以是没有前景对象(诸如第一前景对象118a和第二前景对象120a)以及盲点或点状伪影的RGB背景图像。

在308处，图像处理器202可以被配置为移除呈现在第一对象蒙版304A的第一对象边界304B上的悬垂像素伪影。在移除第一对象蒙版304A周围的点状伪影或某些零深度伪影之后，可以移除呈现在第一对象蒙版304A的第一对象边界304B上的悬垂像素伪影。从图3C可以进一步理解悬垂像素伪影的移除。现在参考图3C，在示例中示出了悬垂像素伪影326。悬垂像素伪影326可以通过与深度图像112a中的IR阴影区块相邻的第一对象边界304B处的显著波动来表明。在那些IR阴影区块(诸如区域124(图1B和图3A))中，在第一对象边界304B处，对象边界波动可以以从帧到帧和从像素到像素的方式发生。如在深度图像112a中在区域124(图1B和3A)中所示，由于混沌深度引起悬垂像素伪影326。图像处理器202可以被配置为当像素在“3×3”像素附近具有至少一个深度未定义的像素(例如，包含零深度值的像素)时，将像素贴标签为第一对象边界304B处的悬垂像素。一旦悬垂像素伪影326被识别并被贴标签，悬垂像素伪影326就可以被移除。

现在返回到图3A，在310处，图像处理器202可以被配置为从第一对象蒙版304A移除自阴影。从图3D中可以进一步理解从第一对象蒙版304A移除自阴影。现在参考图3D，在第一对象蒙版304A中示出了自阴影区域328。在某些情况下，前景对象(诸如第一前景对象118a)的一部分可以在其自身上投射阴影，称为自阴影。自阴影区域328与区域122d(图1B和图3A)对应。因此，自阴影区域328中的像素还可以包含零深度值，因为由第一类型的传感器104a的IR发射器发射的IR光不能传播到某些区块，从而导致第一对象蒙版304A中的自阴影区域328。在RGB图像110a中第一对象蒙版304A之外的零深度伪影的移除以及第一对象蒙版304A之外的背景116a的动态更新之后，图像处理器202可以被配置为处理第一对象蒙版304A内的像素。在像素在第一前景对象118a的第一对象蒙版304A中具有零深度值的情况下，在第一对象蒙版304A内具有零深度值的所有经处理的像素可以被分类为前景像素。

现在再次返回到图3A，在312处，图像处理器202可以被配置为在RGB图像110a上使用移动模板滤波器来平滑第一对象蒙版304A的第一对象边界304B。使用移动模板滤波器来平滑第一对象边界304B可以例如从图3E、图3F、图3G、图3H和图3I详细地理解。现在参考图3E，示出了移动模板滤波器330、法线330A(由箭头标记指示)、外部带332、内部带334和边界像素带336、以及边界像素带336的锚像素336a。图像处理器202可以被配置为定义感兴趣对象(诸如第一前景对象118a)的初始对象边界。存储在存储器204中的分割算法可以用于在移除所有伪影(诸如零深度伪影、悬垂像素伪影326和自阴影)之后定义初始对象边界(诸如第一对象边界304B)。边界像素的像素坐标由图像处理器202获得。

移动模板滤波器330可以是沿着边界像素带336移动的基于模板的移动窗口。根据实施例，移动模板滤波器330的模板形状可以是圆形的。在一些实施例中，模板的形状可以是椭圆形或多边形，而不限制本公开的范围。外部带332(由点图案表示)是在第一对象蒙版304A的第一对象边界304B之外的一组邻近像素，如示例中所示。内部带334(由成角度的线图案表示)是在第一对象蒙版304A的第一对象边界304B内的一组邻近像素，如示例中所示。边界像素带336包括第一对象蒙版304A的第一对象边界304B的边界像素。边界像素带336由外部带332和内部带334之间的白色像素表示。

根据实施例，移动模板滤波器330可以置于RGB图像110a上，以涵盖第一对象边界304B的边界像素(诸如锚像素336a)，使得移动模板滤波器可以包括位于第一对象蒙版304A的内部区域(诸如内部带334)中的第一像素集合以及位于第一对象蒙版304A之外的外部区域中(诸如外部带332中)的第二像素集合。换句话说，移动模板滤波器330内的像素在边界像素的任一侧形成两个子集，第一像素集合(内部像素)和第二像素集合(外部像素)。当移动模板滤波器330以边界像素(即锚像素336a)为中心时，划分成第一像素集合和第二像素集合的精确划分可以发生。第一对象边界304B的法线330A(由箭头表示)可以定义搜索移动模板滤波器330的最佳位置的方向。

根据实施例，图像处理器202可以被配置为顺序地将移动模板滤波器330应用于沿着通过锚像素336a的法线330A的像素。图像处理器202可以被配置为计算移动模板滤波器330内第一像素集合与第二像素集合之间的颜色值和亮度值的差异。换句话说，当移动模板滤波器330沿着边界像素移动时在移动模板滤波器330的每个位置处，可以计算第一像素集合与第二像素集合之间的颜色-亮度的差异。移动模板滤波器330沿着法线330A的位置(其提供颜色-亮度的最大差异)可以是用于细化第一对象边界304B的候选。换句话说，图像处理器202可以被配置为基于计算出的第一像素集合与第二像素集合之间的颜色值和亮度值的差异将边界像素识别为用于平滑第一对象边界304B的候选像素。移动模板滤波器330具有充当灵活和有向滤波器的许多优点。例如，可以将移动模板滤波器330的几何形状调整为对象边界(诸如第一对象边界304B)的局部几何形状。另外，通过移动模板滤波器330进行的平滑对于非局部亮度变换是不变的。另外，通过移动模板滤波器330进行的平滑化非常快，具有边界像素数量乘以搜索长度和移动模板滤波器330中的像素总数的简化复杂度。

参考图3F至图3I，示出了第一对象蒙版304A的示例性调整，其中调整可以在对象蒙版(诸如第一对象蒙版304A)内。现在参考图3F，示出了初始对象蒙版338A(由白色像素表示)和初始背景340A(由点像素表示)。初始对象蒙版338A与第一对象蒙版304A对应。初始背景340A与背景116a对应。参考图3G，进一步示出了带342(由线图案表示)以调整初始对象蒙版338A。带342可以与内部带334(图3E)对应。参考图3H，进一步示出了带342内的经调整的对象边界344。图像处理器202可以被配置为找到具有沿着移动模板滤波器330内初始对象蒙版338A的初始对象边界(诸如第一对象蒙版304A的第一对象边界304B)的(图3E的)法线330A的最大图像梯度的像素。初始对象边界的(图3E的)法线330A定义计算图像梯度的方向。沿着法线330A具有最大图像梯度的某些像素(诸如像素346)定义经调整的对象边界344。参考图3I，示出了经调整的背景340B、经调整的对象蒙版338B、经调整的对象边界344以及具有最大图像梯度的像素346。经调整的对象蒙版338B与第二对象蒙版对应，并且经调整的对象边界344与第二对象蒙版的第二对象边界对应。在一些实施例中，通过将移动平均(诸如通过使用移动模板滤波器330)应用于对象的边界(诸如第一对象边界304B)，可以显著减小帧之间的对象边界的波动。移动模板滤波器330的最佳长度可以取决于彩色图像的尺寸。例如，对于高清晰度(HD)图像，移动模板滤波器330的最佳长度可以是大约21个像素。

现在参考图3J，示出了具有第二对象边界348B的第二对象蒙版348A。第二对象蒙版348A的位置与第一前景对象118a的当前位置对应。图像处理器202可以被配置为基于第一对象边界304B的平滑来生成具有第二对象边界348B的第二对象蒙版348A。因此，图像处理器202为了对象边界稳定化和减少初始对象边界(诸如第一对象边界304B)上的波动的量而执行一系列细化操作(例如，如图3A和图3B至图3I中的处理流水线300中所示的操作306A、306B、308、310和312)。

参考图3K，示出了示例性最终分割结果350，诸如从RGB图像110a的背景116a描绘的第一前景对象118a。图像处理器202可以被配置为基于所生成的具有第二对象边界348B的第二对象蒙版348A从RGB图像110a提取感兴趣对象(诸如第一前景对象118a)。所生成的具有第二对象边界348B的第二对象蒙版348A与具有细化的第一对象边界304B的细化的第一对象蒙版304A对应。最终分割结果350可以没有任何伪影(诸如零深度或点状伪影、悬垂像素伪影326、自阴影等)。

现在返回到图3A，在314处，图像处理器202可以被配置为检索新的RGB图像，以向第一前景对象118a提供新的背景。新RGB图像可以与RGB图像110a不同。图3L图示了用于提取出的感兴趣对象(诸如第一前景对象118a)的背景替换操作。现在参考图3L，示出了图像352和图像352的背景354。图像处理装置102可以被配置为将提取出的感兴趣对象(诸如第一前景对象118a)嵌入到提供新背景(诸如用于第一前景对象118a的背景354)的新图像(诸如图像352)中。通常，由于第一前景对象118a与新背景(诸如背景354)之间的颜色-亮度值的改变，提取出的感兴趣对象(诸如第一前景对象118a)在新背景中的嵌入是显著的。

现在返回到图3A，在316处，对象混合处理器206可以被配置为最终将混合操作应用于具有新背景的第二对象边界348B，用于到新背景的平滑的颜色-亮度过渡。图3M图示了应用于新图像中的感兴趣对象的细化对象边界的混合操作，用于与新背景的平滑的颜色-亮度混合。现在参考图3M，示出了对象外部的层356、对象旁边的内部层358和第二对象边界348B。对象外部的层356是指第二对象边界348B之外的背景像素。根据实施例，对象外部的层356中选择的像素的数量可以取决于新图像的图像分辨率，以及最终分割结果350的像素级准确度的程度。例如，对象外部的层356可以是在第二对象边界348B之外的新背景(诸如新背景354)的三个背景像素层。在一些实施例中，对象外部的层356可以是第二对象边界348B之外的新背景的一个像素层。对象旁边的内部层358是指第二对象边界348B内的第一前景对象118a的前景像素。对象混合处理器206可以被配置为将混合操作应用于新图像(诸如图像352)中的感兴趣对象(诸如第一前景对象118a)的第二对象边界348B，以用于与新背景(诸如背景354)的平滑的颜色-亮度混合。对象混合处理器206可以被配置为确定第二对象边界348B的边界像素是否位于显著不同(就其颜色-亮度而言)的对象旁边的内部层358的内部像素与对象外部的层356的外部像素之间。在内部像素与外部像素的颜色-亮度值的差异大于阈值数的此类情况下，对象混合处理器206则可以被配置为改变边界像素的颜色-亮度值，以提供平滑的混合。换句话说，可以更新第二对象边界348B的边界像素的颜色值或亮度值中的至少一个。可以基于边界像素与邻近边界像素的像素集合之间的颜色值或亮度值的差异来完成更新。邻近边界像素的像素集合包括感兴趣对象(即对象旁边的内部层358)内的第一数量的像素和新图像(诸如图像352)的新背景中(即在背景354的对象外部的层356中)的第二数量的像素。例如，用于边界像素的新颜色-亮度值可以被设置为内部像素和外部像素的50-50％混合。第二对象边界348B的这种1像素混合与对象边界稳定化相结合可以提供准确且没有视觉上可感知的伪影的混合。

图4A和图4B共同描绘了图示根据本公开实施例的用于图像帧序列的图像中的对象边界稳定化的示例性方法的流程图。参考图4A和图4B，示出了流程图400。结合图1A、图1B、图2和图3A至图3M的元件，描述在图像处理装置102中实现的流程图400。该方法开始于402并前进到404。

在404处，可以从第一类型的传感器104a接收场景的深度图像并从第二类型的传感器104b接收场景的彩色图像。场景可以包括至少感兴趣对象。图像处理器202可以被配置为从第一类型的传感器104a(例如，深度传感器)接收场景(例如，场景114)的深度图像(例如，深度图像112a)。图像处理器202还可以从第二类型的传感器104b(例如，RGB图像传感器)接收同一场景的彩色图像(例如，RGB图像110a)。在一些实施例中，其中传感器电路104是通信耦合到图像处理装置102的外部传感器设备的，深度图像和彩色图像可以由图像处理器202经由网络接口210接收。

在406处，可以将场景的彩色图像的处理限制到第一类型的传感器104a的FOV。换句话说，可以处理场景的彩色图像直到彩色图像的等同于捕获同一场景的深度图像的第一类型的传感器104a的FOV的区块。例如，如图1B中所示，为了解析区域122a中的0深度伪影，图像处理器202可以被配置为将场景114的RGB图像110a的处理限制到第一类型的传感器104a的FOV，如由平行点线所示。

在408处，可以通过对接收到的深度图像的深度阈值化操作来获得感兴趣对象的第一对象蒙版。可以通过深度阈值化操作排除大于阈值深度值的多个深度值，以获得第一对象蒙版。阈值深度值可以与和感兴趣对象的第一对象蒙版的像素相关联的最大深度值对应。例如，图像处理器202可以被配置为通过对接收到的深度图像112a(图3A)的深度阈值化操作来获得具有感兴趣对象(诸如第一前景对象118a)的第一对象边界304B的第一对象蒙版304A。从现代深度传感器(诸如第一类传感器104a)接收的深度信息通常是不完善的，因此深度图像112a包含阴影区块，诸如区域122a至122d以及区域124，如图1B中所观察到并讨论的。深度图(诸如深度图像112a)中的不完善会导致对象的边界(诸如第一对象边界304B)上的显著波动，尤其是在图像帧序列的帧之间可见。

在410处，可以从深度图像移除零深度伪影。零深度伪影可以与深度图像中具有未知深度值的区块对应。可以基于指定的准则将与未知深度值相关联的像素分类为背景像素或前景像素，用于移除零深度伪影。例如，图像处理器202可以被配置为移除第一对象蒙版304A上及其周围的点状伪影，如操作306A所示。点状伪影与零深度伪影对应。通过图3B中的零深度分类图318进一步描述在第一对象蒙版304A上及其周围移除零深度伪影的示例。

在412处，可以移除呈现在第一对象蒙版的第一对象边界上的悬垂像素伪影。例如，图像处理器202可以被配置为移除呈现在第一对象蒙版304A的第一对象边界304B上的悬垂像素伪影326，如图3C中所描述的。图像处理器202可以被配置为当像素在“3×3”像素附近具有至少一个深度未定义的像素(例如，包含零深度值的像素)时将像素贴标签为第一对象边界304B处的悬垂像素。一旦悬垂像素伪影326被识别并被贴标签，悬垂像素伪影326就可以被移除。

在414处，可以从深度图像中移除由感兴趣对象的一部分投射在第一对象蒙版上的IR阴影。例如，图像处理器202可以被配置为从第一对象蒙版304A移除自阴影。图3D图示了在示例中移除第一对象蒙版304A中的自阴影区域328。根据实施例，可以在移除IR阴影之前在彩色图像中动态更新第一对象蒙版之外的背景区域。

在416处，在移除悬垂像素伪影和其它伪影之后，可以在彩色图像上使用移动模板滤波器来平滑第一对象蒙版的第一对象边界。可以从图3E、图3F、图3G、图3H和图3I理解使用移动模板滤波器330对第一对象边界304B的平滑。

在418处，可以基于第一对象边界的平滑来生成具有第二对象边界的第二对象蒙版。例如，图像处理器202可以被配置为基于第一对象边界304B的平滑来生成具有第二对象边界348B的第二对象蒙版348A，如图3J中所示和描述的。

在420处，可以基于所生成的具有第二对象边界的第二对象蒙版来从彩色图像提取感兴趣对象。在图3K中示出并描述了感兴趣对象提取的示例，其中可以从RGB图像110a的背景116a描绘最终分割结果350(诸如第一前景对象118a)。

在422处，可以将提取出的感兴趣对象嵌入到为感兴趣对象提供新背景的新图像中。例如，如图3L中所示和描述的，图像处理装置102可以被配置为将提取出的感兴趣对象(诸如第一前景对象118a)嵌入到提供新背景(诸如用于第一前景对象118a的背景354)的新图像(诸如图像352)中。

在424处，可以将混合操作应用于新图像中的感兴趣对象的第二对象边界，用于与新背景的平滑的颜色-亮度混合。图3M中描述了混合操作的示例。对象混合处理器206可以被配置为将混合操作应用于新图像(诸如图像352)中的感兴趣对象(诸如第一前景对象118a)的第二对象边界348B，用于与新背景(诸如背景354)的平滑的颜色-亮度混合。

在426处，可以检查是否处理了图像帧序列的所有图像帧(诸如彩色图像)。在没有处理图像帧序列的所有图像帧的情况下，对于下一图像帧，控制可返回到404以重复对象提取和混合处理。该处理可以一直重复到处理了图像帧序列的全部为止，并且生成具有被替换的背景的新视频。在处理了图像帧序列的所有图像帧的情况下，控制然后可以转到结束428。

根据本公开的实施例，公开了一种用于图像帧序列的图像(例如，RGB图像110a)中的对象边界稳定化的图像处理系统。该图像处理系统可以包括图像处理装置102(图1A)，其可以包括至少一个图像处理器(诸如图像处理器202(图2))。图像处理器202可以被配置为从第一类型的传感器104a接收场景(例如，场景114)的深度图像(例如，深度图像112a)，和从第二类型的传感器104b接收场景的彩色图像(例如，RGB图像110a)。场景可以包括至少感兴趣对象(例如，第一前景对象118a)。图像处理器202还可以被配置为通过对接收到的深度图像的深度阈值化操作来获得感兴趣对象的第一对象蒙版(例如，第一对象蒙版304A)。图像处理器202还可以被配置为移除呈现在第一对象蒙版的第一对象边界(例如，第一对象边界304B)上的悬垂像素伪影(例如，悬垂像素伪影326)。图像处理器202还可以被配置为在移除悬垂像素伪影之后在彩色图像上使用移动模板滤波器(例如，移动模板滤波器330)来平滑第一对象蒙版的第一对象边界。图像处理器202还可以被配置为基于第一对象边界的平滑来生成具有第二对象边界(例如，第二对象边界348B)的第二对象蒙版(例如，第二对象蒙版348A)。图像处理器202还可以被配置为基于所生成的具有第二对象边界的第二对象蒙版从彩色图像中提取感兴趣对象(例如，最终分割结果350)。

在基于深度的对象分割和对象混合方法中存在某些挑战。在基于深度的对象分割方法中，与单独使用彩色图像(例如，RGB图像110a)的方法相比，使用深度图用于对象分割可以允许避免对象描绘过程中的许多不确定性。但是，提供深度图像(例如深度图)的现有深度传感器(诸如第一类型的传感器104a)仍然缺乏准确性并且对于匹配RGB相机(诸如第二类型的传感器104b)的增加的分辨率是滞后的。例如，来自深度传感器的接收的深度图像112a可以包含阴影区块，其中来自深度传感器的红外(IR)发射器的光不传播，从而导致具有未知深度的区块，造成零深度伪影。零深度伪影与深度图像112a中具有未知深度值的区块(例如，区域122a、122b、122c和122d)对应。此外，深度信息在对象的边界处可以是最不确定的，其中深度急剧下降并且在图像帧之间强烈波动。现代深度传感器的深度信息中的不完善导致被分割对象的边界上的显著波动，尤其是在图像帧序列(例如，电影或其它视频)的帧之间可见。结果产生的伪影是明显的并且在视觉上令观看者不愉快。例如，悬垂像素伪影326是由于混沌深度造成的，如在深度图像112a中的区域124(图1B和图3A)中所示。另外，在某些情况下，前景对象(诸如第一前景对象118a)的一部分可以在其自身上投射阴影，称为自阴影。自阴影区域328与区域122d(图1B和图3A)对应。所公开的用于图像帧序列的图像中的对象边界稳定化的图像处理装置102和方法解决了基于深度的对象分割的上述挑战。图像处理器202可以被配置为执行顺序细化操作，以减少感兴趣对象的对象边界波动的量。图像处理器202可以被配置为利用深度图像和彩色图像两者来准确地识别感兴趣对象的边界。深度图中的典型伪影(其是诸如第一类型的传感器104a之类的深度传感器的特性)可以通过顺序细化操作被移除，例如，如由图3A的处理流水线300中的操作304、306A、306B、308、310、312和316所描述的。另外，移动模板滤波器330具有充当灵活和有向滤波器的许多优点。例如，可以将移动模板滤波器330的几何形状调整为对象边界(诸如第一对象边界304B)的局部几何形状。另外，通过移动模板滤波器330进行平滑对于非局部亮度变换是不变的。另外，与常规方法相比，通过移动模板滤波器330进行平滑非常快，具有边界像素数量乘以搜索长度和移动模板滤波器330中的像素总数的简化复杂性。

此外，由于第一前景对象118a与新背景(诸如背景354)之间的颜色-亮度值的改变，提取出的感兴趣对象(诸如第一前景对象118a)在新背景中的嵌入通常是明显的。但是，当对象混合处理器206将混合操作应用于具有新背景的第二对象边界348B时，如图3M中所示，可以实现到新背景的平滑的颜色-亮度过渡。在某些情况下，第二对象边界348B的这种1像素混合与对象边界稳定化相结合可以提供准确且视觉上无伪影的混合。与常规的基于深度的对象分割方法相比，由图像处理器202和对象混合处理器206执行的操作使得图像处理装置102本身在移除不同伪影之后通过使用移动模板滤波器330更加健壮地用于对象边界稳定化。

本公开的各种实施例可以提供一种非瞬态计算机可读介质和/或存储介质，其中存储有可由机器和/或计算机执行的用于在图像帧序列的图像中对象边界稳定化的指令集。该指令集可以使机器和/或计算机从第一类型的传感器104a接收场景(例如，场景114)的深度图像(例如，深度图像112a)，和从第二类型的传感器104b接收该场景的彩色图像(例如，RGB图像110a)。场景可以包括至少感兴趣对象(例如，第一前景对象118a)。可以通过对接收到的深度图像的深度阈值化操作来生成感兴趣对象的第一对象蒙版(例如，第一对象蒙版304A)。可以移除呈现在第一对象蒙版的第一对象边界(例如，第一对象边界304B)上的悬垂像素伪影(例如，悬垂像素伪影326)。在移除悬垂像素伪影之后，可以在彩色图像上使用移动模板滤波器(例如，移动模板滤波器330)来平滑第一对象蒙版的第一对象边界。可以基于第一对象边界的平滑来生成具有第二对象边界(例如，第二对象边界348B)的第二对象蒙版(例如，第二对象蒙版348A)。可以基于所生成的具有第二对象边界的第二对象蒙版来从彩色图像提取感兴趣对象(例如，最终分割结果350)。

本公开可以用硬件或硬件和软件的组合来实现。本公开可以以集中方式、以至少一个计算机系统或以其中不同元件可以跨若干互连计算机系统分布的分布式方式实现。适于执行本文描述的方法的计算机系统或其它装置可以是适合的。硬件和软件的组合可以是具有计算机程序的通用计算机系统，该计算机程序在被加载和被执行时可以控制计算机系统，使得它执行本文描述的方法。本公开可以以包括还执行其它功能的集成电路的一部分的硬件来实现。

本公开还可以嵌入在计算机程序产品中，其中计算机程序产品包括使得能够实现本文所述的方法的所有特征，并且当其被加载到计算机系统中时能够执行这些方法。在此背景下，计算机程序指以任何语言、代码或符号形式的指令集的任何表示，所述指令集意图使具有信息处理能力的系统直接地或者在以下：a)转换成另一种语言、代码或符号；b)在不同材料形式中再现的任何一个或两者之后执行特定的功能。

虽然已参考某些实施例对本公开进行了描述，但是本领域技术人员将理解的是，在不背离本公开的范围的情况下，可以进行各种改变并且等价物可以被替换。此外，在不背离其范围的情况下，可以进行许多修改以使特定的情形或材料适于本公开的教导。因此，本公开不意图限于所公开的特定实施例，而是本公开将包括属于所附权利要求的范围内的所有实施例。

Claims

1.一种图像处理装置，包括：

至少一个图像处理器，被配置为：

从第一类型的传感器接收场景的深度图像，和从第二类型的传感器接收所述场景的彩色图像，其中所述场景至少包括感兴趣对象，以及其中深度图像包括与彩色图像对应的深度表示；

通过对接收到的所述深度图像进行深度阈值化操作，获得所述感兴趣对象的第一对象蒙版，以产生至少包括所述第一对象蒙版的阈值深度图像；

移除在所述阈值深度图像中的所述第一对象蒙版的第一对象边界上呈现的悬垂像素伪影，其中悬垂像素伪影指由标记为悬垂像素的像素形成的伪影，标记为悬垂像素的像素在其3×3像素附近具有至少一个深度未定义的像素；

在移除所述悬垂像素伪影之后，将移动模板滤波器置于所述彩色图像上以涵盖与所述阈值深度图像中的所述第一对象蒙版的所述第一对象边界对应的所述彩色图像中的边界上的多个边界像素中的至少一个边界像素；以及

在移除所述悬垂像素伪影之后，在所述彩色图像中的所述边界的法线方向上计算所述移动模板滤波器内的像素的图像梯度；

基于具有最大图像梯度的像素来定义第二对象边界；以及

基于具有所述第二对象边界的第二对象蒙版，从所述彩色图像中提取所述感兴趣对象。

2.如权利要求1所述的图像处理装置，其中所述至少一个图像处理器还被配置为处理所述场景的所述彩色图像直到所述彩色图像的等同于所述第一类型的传感器的视场(FOV)的区块，用于所述感兴趣对象从所述彩色图像中的所述提取。

3.如权利要求1所述的图像处理装置，其中所述至少一个图像处理器还被配置为通过所述深度阈值化操作排除大于阈值深度值的多个深度值，其中所述阈值深度值与和所述感兴趣对象的所述第一对象蒙版的像素相关联的最大深度值对应。

4.如权利要求1所述的图像处理装置，其中所述至少一个图像处理器还被配置为从所述深度图像中移除零深度伪影，其中零深度伪影与所述深度图像中具有未知深度值的区块对应。

5.如权利要求4所述的图像处理装置，其中所述至少一个图像处理器还被配置为基于指定的准则将与所述未知深度值相关联的像素分类为背景像素或前景像素。

6.如权利要求1所述的图像处理装置，其中所述至少一个图像处理器还被配置为从所述深度图像中移除由所述感兴趣对象的一部分在所述第一对象蒙版上投射的红外(IR)阴影。

7.如权利要求1所述的图像处理装置，其中所述至少一个图像处理器还被配置为动态地更新所述彩色图像中的所述第一对象蒙版之外的背景区域。

8.如权利要求1所述的图像处理装置，其中将所述移动模板滤波器置于所述彩色图像上包括，所述移动模板滤波器包括位于所述彩色图像中的所述边界之内的内部区域中的第一像素集合和位于所述彩色图像中的所述边界之外的外部区域中的第二像素集合。

9.如权利要求8所述的图像处理装置，其中所述至少一个图像处理器还被配置为计算所述第一像素集合与所述第二像素集合之间的颜色值和亮度值的差异。

10.如权利要求9所述的图像处理装置，其中所述至少一个图像处理器还被配置为基于计算出的所述第一像素集合与所述第二像素集合之间所述颜色值和所述亮度值的所述差异将边界像素识别为用于所述第一对象边界的平滑的候选像素。

11.如权利要求1所述的图像处理装置，其中所述至少一个图像处理器还被配置为将提取出的感兴趣对象嵌入到为所述感兴趣对象提供新背景的新图像中。

12.如权利要求11所述的图像处理装置，其中所述至少一个图像处理器还被配置为将混合操作应用于所述新图像中的所述感兴趣对象的所述第二对象边界，用于与所述新背景的平滑的颜色混合-亮度混合。

13.如权利要求12所述的图像处理装置，其中所述至少一个图像处理器还被配置为执行以下中的至少一个：基于所述第二对象边界的边界像素与和所述边界像素相邻的像素集合的颜色值之间的差异来更新所述第二对象边界的所述边界像素的颜色值，或基于所述第二对象边界的边界像素与和所述边界像素相邻的像素集合的亮度值之间的差异来更新所述第二对象边界的所述边界像素的亮度值，其中所述像素集合包括所述第二对象蒙版内的第一数量的像素和所述新图像的所述新背景中的第二数量的像素。

14.一种用于对象边界稳定化的方法，包括：

在包括至少一个图像处理器的图像处理装置中：

由所述至少一个图像处理器从第一类型的传感器接收场景的深度图像，和从第二类型的传感器接收所述场景的彩色图像，其中所述场景至少包括感兴趣对象，以及其中深度图像包括与彩色图像对应的深度表示；

由所述至少一个图像处理器通过对接收到的所述深度图像进行深度阈值化操作而获得所述感兴趣对象的第一对象蒙版，以产生至少包括所述第一对象蒙版的阈值深度图像；

由所述至少一个图像处理器移除在所述阈值深度图像中的所述第一对象蒙版的第一对象边界上呈现的悬垂像素伪影，其中悬垂像素伪影指由标记为悬垂像素的像素形成的伪影，标记为悬垂像素的像素在其3×3像素附近具有至少一个深度未定义的像素；

在移除所述悬垂像素伪影之后，由所述至少一个图像处理器将移动模板滤波器置于所述彩色图像上以涵盖与所述阈值深度图像中的所述第一对象蒙版的所述第一对象边界对应的所述彩色图像中的边界上的多个边界像素中的至少一个边界像素；以及

基于具有最大图像梯度的像素来定义第二对象边界；以及

由所述至少一个图像处理器基于具有所述第二对象边界的第二对象蒙版，从所述彩色图像中提取所述感兴趣对象。

15.如权利要求14所述的方法，还包括由所述至少一个图像处理器处理所述场景的所述彩色图像直到所述彩色图像的等同于所述第一类型的传感器的视场(FOV)的区块，用于所述感兴趣对象从所述彩色图像中的所述提取。

16.如权利要求14所述的方法，还包括由所述至少一个图像处理器通过所述深度阈值化操作排除大于阈值深度值的多个深度值，其中所述阈值深度值与和所述感兴趣对象的所述第一对象蒙版的像素相关联的最大深度值对应。

17.如权利要求14所述的方法，还包括由所述至少一个图像处理器从所述深度图像中移除零深度伪影，其中零深度伪影与所述深度图像中具有未知深度值的区块对应。

18.如权利要求17所述的方法，还包括由所述至少一个图像处理器基于指定的准则将与所述未知深度值相关联的像素分类为背景像素或前景像素。

19.如权利要求14所述的方法，还包括由所述至少一个图像处理器从所述深度图像中移除由所述感兴趣对象的一部分在所述第一对象蒙版上投射的红外(IR)阴影。

20.如权利要求14所述的方法，还包括由所述至少一个图像处理器动态地更新所述彩色图像中的所述第一对象蒙版之外的背景区域。

21.如权利要求14所述的方法，其中将所述移动模板滤波器置于所述彩色图像上包括，所述移动模板滤波器包括位于所述彩色图像中的所述边界之内的内部区域中的第一像素集合和位于所述彩色图像中的所述边界之外的外部区域中的第二像素集合。

22.如权利要求21所述的方法，还包括由所述至少一个图像处理器计算所述第一像素集合与所述第二像素集合之间的颜色值和亮度值的差异。

23.如权利要求22所述的方法，还包括由所述至少一个图像处理器基于计算出的所述第一像素集合与所述第二像素集合之间所述颜色值和所述亮度值的所述差异将边界像素识别为用于所述第一对象边界的平滑的候选像素。

24.如权利要求14所述的方法，还包括由所述至少一个图像处理器将提取出的感兴趣对象嵌入到为所述感兴趣对象提供新背景的新图像中。

25.如权利要求24所述的方法，还包括由所述至少一个图像处理器将混合操作应用于所述新图像中的所述感兴趣对象的所述第二对象边界，用于与所述新背景的平滑的颜色混合-亮度混合。

26.如权利要求25所述的方法，还包括由所述至少一个图像处理器执行以下中的至少一个：基于所述第二对象边界的边界像素与和所述边界像素相邻的像素集合的颜色值之间的差异来更新所述第二对象边界的所述边界像素的颜色值，或基于所述第二对象边界的边界像素与和所述边界像素相邻的像素集合的亮度值之间的差异来更新所述第二对象边界的所述边界像素的亮度值，其中所述像素集合包括所述第二对象蒙版内的第一数量的像素和所述新图像的所述新背景中的第二数量的像素。