CN113424223B

CN113424223B - 彩色图像帧序列中的基于多个神经网络的对象分割

Info

Publication number: CN113424223B
Application number: CN202080014193.XA
Authority: CN
Inventors: 武田浩行; M·格哈拉维-阿尔克汉萨利
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2019-02-21
Filing date: 2020-02-19
Publication date: 2023-08-08
Anticipated expiration: 2040-02-19
Also published as: KR20210112364A; EP3912130A1; US10839517B2; JP7289435B2; JP2022525845A; US20200273176A1; WO2020170167A1; CN113424223A

Abstract

提供了用于在彩色图像帧中进行对象分割的图像处理装置和方法。图像处理装置基于第一神经网络模型分别为彩色图像帧序列的第一彩色图像帧和即将到来的彩色图像帧中的感兴趣对象生成第一前景掩模和第二前景掩模。图像处理装置基于第一前景掩模和第二前景掩模的插值来确定第三前景掩模，并且通过使用第二神经网络模型将第三前景掩模更新为第四前景掩模。图像处理装置通过分别使用第一前景掩模、第二前景掩模和第四前景掩模从至少第一彩色图像帧、即将到来的彩色图像帧和中间彩色图像帧分割感兴趣对象。

Description

彩色图像帧序列中的基于多个神经网络的对象分割

对相关申请的交叉引用/通过引用并入

没有。

技术领域

本公开的各种实施例涉及基于学习的图像处理、计算机视觉和相机技术。更具体而言，本公开的各种实施例涉及用于基于多个神经网络在彩色图像帧序列中进行对象分割的图像处理装置和方法。

背景技术

图像处理、计算机视觉和相机技术领域的发展已带来各种图像处理系统和技术的进步，诸如对象分割。常规的对象分割装置可以基于不同的对象分割技术从场景的图像中分割感兴趣对象(诸如，人体或人脸)。这样的对象分割技术的示例可以包括基于压缩、基于颜色、基于深度、基于直方图、基于语义分割或基于场景解析的对象分割技术。

当前，在常规的基于颜色的分割方法中的一种中，可以基于从捕获的图像中移除预定的静态背景图像来从捕获的图像中分割出感兴趣对象。但是，为了生成预定的静态背景图像，常规的对象分割装置可能需要首先捕获在场景中不存在感兴趣对象时的场景的图像序列，这可能是不期望的。场景的预定静态背景图像可以从捕获的图像序列生成。常规的背景图像移除方法可能还需要使用静态相机从场景中捕获图像序列。相机位置的任何轻微移动或干扰都可能需要重新估计静态背景图像。

在另一个常规的基于深度的方法中，常规的对象分割装置可以通过使用可以由深度传感器捕获的深度图像来分割感兴趣对象。在深度传感器捕获包括无效深度值的嘈杂的深度图像的情况下，常规的对象分割装置可能会错误且不准确地从捕获的图像中分割出感兴趣对象。其它常规的语义分割或基于场景分析的对象分割技术通常分为两类。第一类仅使用彩色图像并且相对准确，但是处理和分割对象的速度太慢。这进而会使这种常规的语义分割或基于场景分析的对象分割技术在实际应用中不可行，而第二类相对较快但不准确。

如本申请的其余部分以及参考附图所阐述的，通过将所描述的系统与本公开的一些方面进行比较，常规和传统方法的其它限制和缺点对于本领域技术人员将变得清楚。

发明内容

如在权利要求中更完整阐述的，基本如至少一个图所示和/或结合至少一个图所描述的，提供了一种用于基于多个神经网络在彩色图像帧序列中进行对象分割的图像处理装置和方法。

可以通过阅读以下对本公开的详细描述以及附图来理解本公开的这些和其它特征以及优点，在附图中，相同的参考标记始终表示相同的部分。

附图说明

图1是图示根据本公开实施例的用于基于多个神经网络在彩色图像帧序列中进行对象分割的图像处理装置的网络环境的框图。

图2是图示根据本公开实施例的用于基于多个神经网络在彩色图像帧序列中进行对象分割的示例性图像处理装置的框图。

图3A图示了根据本公开实施例的用于基于两个卷积神经网络(CNN)从彩色图像帧序列进行对象分割的示例性处理流水线。

图3B图示了根据本公开实施例的用于图3A的第二CNN的示例性训练数据集准备。

图3C图示了根据本公开实施例的两个前景掩模的示例性线性插值。

图3D图示了根据本公开实施例的到图3A的第二CNN的示例性输入以生成用于中间图像帧的前景掩模。

图4是图示根据本公开实施例的用于基于多个神经网络在彩色图像帧序列中进行对象分割的示例性方法的流程图。

具体实施方式

可以在用于基于多个神经网络在彩色图像帧序列中进行对象分割的图像处理装置和方法中找到各种实施方式。本公开的示例性方面可以包括图像处理装置，该图像处理装置可以被配置为利用多个神经网络模型(诸如第一神经网络模型和第二神经网络模型)，以分割彩色图像帧序列中的感兴趣对象(诸如人类对象)。第一神经网络模型可以是预先训练的模型，诸如卷积神经网络(CNN)。通常，为神经网络(诸如CNN)准备训练数据集很麻烦，因为通常会为训练数据集手动创建准确的输出。因此，一旦第一神经网络模型可用，就可以基于第一神经网络模型的输入-输出图像对和不同视频来生成用于第二神经网络模型的训练数据集，而无需手动创建真实的前景掩模，其也被称为用于第二神经网络模型的地面真相(ground truth)。

与常规的方法相对照地，所公开的图像处理装置从彩色图像帧序列中实时或接近实时地精确分割可能是变形或移动对象的感兴趣对象。与常规的对象分割方法相比，从彩色图像帧序列中分割感兴趣对象所采用的两种不同的神经网络模型可以确保最小的分割误差并提高每帧的处理速度以从彩色图像帧序列中分割出感兴趣对象。

图1是图示根据本公开实施例的用于基于多个神经网络在彩色图像帧序列中进行对象分割的图像处理装置的网络环境的框图。参考图1，示出了网络环境100。网络环境100可以包括图像处理装置102和服务器104。图像处理装置102可以包括一个或多个传感器，诸如图像传感器102A。图像处理装置102可以经由通信网络106通信地耦合到服务器104。还示出了场景108，其包括多个对象，诸如人类对象108A、无生命的对象108B(例如，家具)和有生命的对象108C(例如，动物)。图像传感器102A可以被配置为从图像处理装置102的视场捕获场景108的彩色图像帧110序列。图像处理装置102还可以包括第一神经网络模型112A和第二神经网络模型112B。

图像处理装置102可以包括合适的逻辑、电路系统、接口和/或代码，其可以被配置为从图像传感器102A接收彩色图像帧110序列。图像处理装置102还可以被配置为从彩色图像帧110序列中分割诸如人类对象108A之类的感兴趣对象。图像处理装置102的功能可以在诸如高速计算设备或相机之类的便携式设备和/或诸如服务器104之类的非便携式设备中实现。图像处理装置102的示例可以包括但不限于数码相机、数码摄像机、相机电话、智能电话、虚拟现实设备、游戏控制台、移动设备或硬件视频播放器。图像处理装置102的其它示例可以包括但不限于电视、家庭娱乐系统、增强现实设备和智能可穿戴设备(诸如智能眼镜)。

图像传感器102A可以包括合适的逻辑、电路系统、接口和/或代码，其可以被配置为捕获场景108的彩色图像帧110序列。可以在至少一种颜色模型(诸如红、绿和蓝(RGB)颜色模型，色相、饱和度和亮度(HSB)颜色模型，青色、黄色、洋红色和黑色(CYMK)颜色模型，或LAB颜色模型(其中L代表亮度，A和B是色度分量))中捕获彩色图像帧110序列。图像传感器102A可以具有合适的光学仪器，诸如聚焦透镜，其可以聚焦场景108和/或场景108中的特定感兴趣对象。图像传感器102A的实施方式的示例可以包括但不限于基于半导体电荷耦合器件(CCD)的图像传感器、基于互补金属氧化物半导体(CMOS)的图像传感器、具有全局快门的背光CMOS传感器、基于绝缘体上硅(SOI)的单芯片图像传感器、基于N型金属氧化物半导体的图像传感器、平板检测器或其它图像传感器。在一些实施例中，除了图像传感器102A之外，深度传感器也可以被用于捕获与场景108的彩色图像帧110序列对应的深度图像序列。在一些实施例中，图像传感器102A可以被集成在图像处理装置102内。在一些实施例中，图像传感器102A可以不集成在图像处理装置102内。在这种情况下，图像传感器102A可以经由各种有线和无线通信协议与图像处理装置102通信地耦合。

服务器104可以包括合适的逻辑、电路系统和接口，其可以被配置为存储用于神经网络模型(诸如第一神经网络模型112A和/或第二神经网络模型112B)的训练数据。服务器104的示例可以包括但不限于数据库服务器、文件服务器、Web服务器、云服务器、应用服务器、大型机服务器或其它类型的服务器。

通信网络106可以包括通信介质，图像处理装置102和服务器104可以通过该通信介质彼此通信。通信网络106的示例可以包括但不限于互联网、云网络、无线保真(Wi-Fi)网络、个人局域网(PAN)、局域网(LAN)或城域网(MAN)。根据各种有线和无线通信协议，网络环境100中的各种设备可以被配置为连接到通信网络106。这样的有线和无线通信协议的示例可以包括但不限于传输控制协议和互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)、文件传输协议(FTP)、Zig Bee、EDGE、IEEE 802.11、光保真(Li-Fi)、802.16、IEEE 802.11s、IEEE802.11g、多跳通信、无线接入点(AP)、设备到设备通信、蜂窝通信协议和蓝牙(BT)通信协议中的至少一种。

可以在图像处理装置102中提供第一神经网络模型112A和第二神经网络模型112B。根据实施例，第一神经网络模型112A可以是第一卷积神经网络(CNN)，并且第二神经网络模型112B可以是可以与第一CNN不同的第二CNN。第一神经网络模型112A和第二神经网络模型112B的其它示例可以包括机器学习模型、深度学习模型、诸如递归神经网络(RNN)、CNN或基于长短期记忆(LSTM)的RNN、基于连接器时间分类(CTC)的RNN或生成对抗网络(GAN)。在一些实施例中，第一神经网络模型112A或第二神经网络模型112B中的至少一个可以被实现为图像处理装置102中的专用神经网络电路系统。在一些实施例中，第一神经网络模型112A或第二神经网络模型112B可以作为神经模式或基于人工智能(AI)的应用存储在图像处理装置102中。

根据实施例，第一神经网络模型112A可以是预先训练的模型。在部署在图像处理装置102处之前，可以用图像对集合来训练第一神经网络模型112A。图像对集合中的每个图像对可以包括彩色图像帧和前景掩模图像。每个图像对可以至少包括要分割的感兴趣对象。在一个示例中，服务器104可以被配置为存储第一神经网络模型112A。服务器104可以被配置为通过使用测试场景的测试视频来利用图像对集合训练第一神经网络模型112A。

第一神经网络模型112A可以包括神经模式，该神经模式具有布置为多层的多个互连处理单元，诸如输入层、一个或多个隐藏层和输出层。层中的每个处理单元可以通过不同的连接强度或参数(也称为权重)互连。

在第一神经网络模型112A的训练期间，图像对集合的输入彩色图像可以经由输入层传递通过第一神经网络模型112A。在一些情况下，也可以在输入层中提供定义感兴趣对象的特点的一个或多个特征。初始前景掩模图像的输出可以由输出层生成。在第一神经网络模型112A在训练的初始阶段生成前景掩模图像的不准确输出的情况下，可以将准确的前景掩模图像提供给第一神经网络模型112A。然后可以将准确的前景掩模(也称为真实前景掩模图像)与第一神经网络模型112A的先前输出进行比较。作为准确前景掩模与第一神经网络模型112A的先前输出的比较的结果的差异可以被传递回第一神经网络模型112A。下次可以相应地调整权重。因此，为CNN准备训练数据集通常很麻烦。

在一些情况下，通常会手动创建真实的输出，诸如真实的前景掩模图像。但是，随着通过使用测试视频的不同彩色图像帧(例如，RGB输入帧)进行训练，第一神经网络模型112A可以学习并变得能够为在其上进行训练的感兴趣对象生成前景掩模图像的准确输出。例如，在感兴趣对象是人类形状的对象的情况下，第一神经网络模型112A一旦被训练，就可以针对具有人类形状的对象的测试视频或新视频的任意输入彩色图像帧预测并输出准确的前景掩模图像。多个互连的处理单元中的处理单元的数量不仅可以定义神经网络(诸如第一CNN)的计算复杂度，而且有助于维持与神经网络的输出相关的准确性。处理单元的数量越多，计算复杂度就将越高。与第二神经网络模型112B相比，第一神经网络模型112A(例如，第一CNN)可以是计算繁重的CNN。第一神经网络模型112A的训练可以是一次性活动。为了对象分割的目的，第一神经网络模型112A一旦被训练，就可以被使用和/或部署在各种电子设备(诸如图像处理装置102)中。

在操作中，图像传感器102A可以被配置为捕获场景108的彩色图像帧110序列。在一些实施例中，图像处理装置102可以被配置为从服务器104接收第一神经网络模型112A和第二神经网络模型112B。在一些实施例中，第一神经网络模型112A和第二神经网络模型112B可以被预先安装和/或预先配置在图像处理装置102中。

图像处理装置102还可以被配置为基于第一神经网络模型112A在彩色图像帧110序列中的第一彩色图像帧110A中生成诸如人类对象108A之类的感兴趣对象的第一前景掩模。图像处理装置102可以被配置为利用第一神经网络模型112A从彩色图像帧110序列中的任意输入彩色图像帧中估计感兴趣对象的前景掩模，诸如第一前景掩模。前景掩模(诸如第一前景掩模)估计可以独立于来自任意输入彩色图像的一个或多个先前彩色图像帧或后续彩色图像帧的图像信息。换句话说，对于感兴趣对象，第一神经网络模型112A(例如，作为预先训练的模型的第一CNN)可能不需要任何参考帧来生成不同的前景掩模，诸如第一前景掩模。

图像处理装置102还可以被配置为基于第一神经网络模型112A在即将到来的与彩色图像帧序列110中的第一彩色图像帧110A不相邻的彩色图像帧中生成诸如人类对象108A之类的感兴趣对象的第二前景掩模。例如，与第一彩色图像帧110A不相邻的即将到来的彩色图像帧可以是彩色图像帧110序列中的第三彩色图像帧110C。

图像处理装置102还可以被配置为基于第一前景掩模和第二前景掩模的插值来确定第三前景掩模。根据示例性实施例，插值可以是第一前景掩模和第二前景掩模的线性插值。根据替代实施例，插值可以是第一前景掩模和第二前景掩模的非线性插值。可以存在可以由图像处理装置102实现以确定第三前景掩模的不同插值技术。线性插值技术的示例可以包括但不限于基于求平均的插值、双线性插值、线性样条插值和其它线性多项式插值。非线性插值技术的示例可以包括但不限于余弦插值和其它非线性多项式插值。

在线性插值中，可以将两个掩模帧(诸如第一前景掩模和第二前景掩模)的平均值作为粗糙的前景掩模，其可以是第三前景掩模。根据实施例，图像处理装置102还可以被配置为应用近似操作，其中根据第一前景掩模的第一对象边界和第二前景掩模的第二对象边界对感兴趣对象的对象边界进行近似和归一化，以生成第三前景掩模。

根据实施例，图像处理装置102还可以被配置为通过使用第二神经网络模型112B将第三前景掩模更新为表示第三前景掩模的精细的前景掩模的第四前景掩模。第二神经网络模型112B可以至少在循环时间参数上与第一神经网络模型112A不同。循环时间参数指示当输入彩色图像帧通过诸如第一神经网络模型112A或第二神经网络模型112B之类的神经网络模型时，为彩色图像帧110序列中的输入彩色图像帧生成输出前景掩模的总时间。与第一神经网络模型112A相比，第二神经网络模型112B可以具有更少的循环时间并且可以更快。因此，第二神经网络模型112B也可以被称为计算轻型CNN，它可以输出与计算繁重的CNN(诸如第一神经网络模型112A(例如，第一CNN))一样准确的掩模。

图像处理装置102还可以被配置为基于第一神经网络模型112A的输入-输出图像对来训练第二神经网络模型112B，使得通过使用第二神经网络模型112B生成的精细的前景掩模与由第一神经网络模型112A(例如，第一计算繁重的CNN)生成的前景掩模之间的差异被最小化。可以基于中间彩色图像帧(诸如第二彩色图像帧110B)和确定的第三前景掩模来生成第四前景掩模。中间彩色图像帧(诸如第二彩色图像帧110B)可以位于第一彩色图像帧110A和即将到来的彩色图像帧(诸如第三彩色图像帧110C)之间。

图像处理装置102还可以被配置为通过使用第一前景掩模从至少第一彩色图像帧110A和通过使用第二前景掩模从即将到来的彩色图像帧(诸如第三彩色图像帧110C)分割感兴趣对象。图像处理装置102还可以被配置为通过使用第四前景掩模从中间彩色图像帧(诸如第二彩色图像帧110B)分割感兴趣对象。因此，与非连续帧的第一集合中的每个帧(例如，彩色图像帧110序列的第一彩色图像帧110A、第三彩色图像帧110C以及每个其它非相邻图像帧)对应的不同输出前景掩模可以基于第一神经网络模型112A来生成。

图像处理装置102还可以被配置为通过使用与非连续帧的第一集合中的每一帧对应的不同输出前景掩模从彩色图像帧110序列的非连续帧的第一集合中分割感兴趣对象(诸如人类对象108A)。类似地，与非连续帧的第二集合中的每一帧(例如，彩色图像帧110序列中的第二彩色图像帧110B以及每个其它中间图像帧，它们彼此不相邻)对应的不同输出前景掩模可以基于第二神经网络模型112B来生成。图像处理装置102还可以被配置为通过使用与非连续帧的第二集合中的每一帧对应的不同输出前景掩模从彩色图像帧110序列的非连续帧的第二集合中分割感兴趣对象(诸如人类对象108A)。

图2是图示根据本公开实施例的用于基于多个神经网络在彩色图像帧序列中进行对象分割的示例性图像处理装置的框图。结合图1中的元素对图2进行解释。参考图2，示出了图像处理装置102的框图200。图像处理装置102可以包括控制电路系统202。控制电路系统202可以包括一个或多个专用处理单元，诸如对象分割电路204。图像处理装置102还可以包括存储器206、网络接口208以及一个或多个输入/输出(I/O)设备(诸如I/O设备210)。图像处理装置102还可以包括图像传感器102A。存储器206可以被配置为存储第一神经网络模型112A和第二神经网络模型112B。在一些实施例中，可以结合图像处理装置102中的AI加速器电路来实现第一神经网络模型112A和第二神经网络模型112B。

控制电路系统202可以包括合适的逻辑、电路系统、接口和/或代码，其可以被配置为从彩色图像帧110序列中的每一个中分割感兴趣对象。控制电路系统202可以通信地耦合到对象分割电路204、存储器206、网络接口208、I/O设备210和神经网络模型(诸如第一神经网络模型112A和第二神经网络模型112B)。在一些实施例中，可以基于本领域中已知的多种处理器技术来实现控制电路系统202。控制电路系统202的实施方式的示例可以是图形处理单元(GPU)、精简指令集计算(RISC)处理器、专用集成电路(ASIC)处理器、复杂指令集计算(CISC)处理器、微控制器、中央处理器(CPU)和/或其它控制电路。

对象分割电路204可以包括合适的逻辑、电路系统、接口和/或代码，其可以被配置为通过使用不同的神经网络模型(诸如第一神经网络模型112A和第二神经网络模型112B)从彩色图像帧110序列中分割感兴趣对象。对象分割电路204的实施方式的示例可以是协处理器、图形处理单元(GPU)、中央处理单元(CPU)、精简指令集计算(RISC)处理器、专用集成电路(ASIC)处理器、复杂指令集计算(CISC)处理器、微控制器和/或其它控制电路。

存储器206可以包括合适的逻辑、电路系统和/或接口，其可以被配置为存储可由控制电路系统202和对象分割电路204执行的指令。存储器206可以被配置为存储从图像传感器102A接收到的彩色图像帧110序列。存储器206可以包括第一神经网络模型112A和第二神经网络模型112B。存储器206的实施方式的示例可以包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、硬盘驱动器(HDD)、固态驱动器(SSD)、CPU高速缓存和/或安全数字(SD)卡。

网络接口208可以包括合适的逻辑、电路系统、接口和/或代码，其可以被配置为与多个电子设备(诸如，计算机、智能电话或服务器104)连接并与之通信。网络接口208可以被配置为实现已知技术来支持无线通信。网络接口208可以包括但不限于天线、射频(RF)收发器、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、编解码器(CODEC)芯片组、订户识别模块(SIM)卡和/或本地缓冲器。网络接口208可以被配置为经由离线和在线无线通信与网络通信，网络诸如互联网、内联网和/或无线网络，诸如蜂窝电话网络、无线局域网(WLAN)、个人局域网和/或城域网(MAN)。无线通信可以使用多种通信标准、协议和技术中的任何一种，诸如全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、宽带码分多址(W-CDMA)、码分多址(CDMA)、LTE、时分多址(TDMA)、蓝牙、无线保真(Wi-Fi)(诸如，IEEE802.11、IEEE 802.11b、IEEE 802.11g、IEEE 802.11n和/或任何其它IEEE802.11协议)、互联网协议语音(VoIP)、Wi-MAX、物联网(IoT)技术、机器类型通信(MTC)技术、电子邮件协议、即时消息传送和/或短消息服务(SMS)。

I/O设备210可以包括适当的逻辑、电路系统、接口和/或代码，其可以被配置为从一个或多个用户接收输入。I/O设备210还可以被配置为向一个或多个用户提供输出。I/O设备210可以包括可以被配置为与控制电路系统202通信的各种输入和输出设备。输入设备的示例可以包括但不限于触摸屏、物理输入按钮、操纵杆、麦克风、图像捕获设备(例如，图像传感器102A)和/或对接站。输出设备的示例可以包括但不限于内置显示屏、触摸屏显示器和/或扬声器。可以例如在图3A、3B、3C和3D中详细描述控制电路系统202的操作。

图3A图示了根据本公开实施例的用于基于两个卷积神经网络(CNN)从彩色图像帧序列进行对象分割的示例性处理流水线。参考图3A，示出了处理流水线300。在处理流水线300中，示出了本文描述的操作的集合。

在操作中，图像传感器102A可以被配置为捕获可以包括一个或多个对象的彩色图像帧302序列。可替代地，控制电路系统202可以被配置为检索存储在存储器206中的彩色图像帧302序列。彩色图像帧302序列可以包括第一RGB帧302A、第二RGB帧302B和第三RGB帧302C。存储器206还可以被配置为存储第一CNN 304A和第二CNN 304B。第一CNN 304A和第二CNN 304B可以分别与第一神经网络模型112A和第二神经网络模型112B对应。类似地，第一RGB帧、第二RGB帧和第三RGB帧可以分别与彩色图像帧110序列的第一彩色图像帧110A、第二彩色图像帧110B和第三彩色图像帧110C对应。

控制电路系统202可以被配置为在彩色图像帧302序列的第一彩色图像帧(诸如第一RGB帧302A)中为感兴趣对象(诸如人类对象308)生成第一前景掩模306A。第一RGB帧302A可以通过第一CNN 304A，该第一CNN 304A可以是经训练的CNN，以生成第一前景掩模306A。控制电路系统202还可以被配置为基于第一神经网络模型112A为即将到来的彩色图像帧(诸如第三RGB帧302C)中的感兴趣对象(诸如人类对象308)生成第二前景掩模306B。即将到来的彩色图像帧(诸如第三RGB帧302C)可以不与彩色图像帧302序列中的第一彩色图像帧(诸如第一RGB帧302A)相邻。

控制电路系统202还可以被配置为基于第一前景掩模306A和第二前景掩模306B的线性插值310来确定第三前景掩模306C。控制电路系统202还可以被配置为通过使用线性插值310来计算两个掩模帧(诸如第一前景掩模306A和第二前景掩模306B)的平均值。计算出的平均值可以与粗略的前景掩模(其可以是第三前景掩模306C)对应。

在实施例中，第二CNN 304B可以被预先训练以用于粗略的前景掩模(即，第三前景掩模306C)的精细。在替代实施例中，可能需要在特定训练数据上训练第二CNN 304B，以用于粗略的前景掩模(即，第三前景掩模306C)的精细。因此，控制电路系统202可以被配置为生成特定训练数据，即，可以包括与第三前景掩模306C(即，粗略的前景掩模)级联的彩色图像帧302序列的中间RGB帧(诸如第二RGB帧302B)的级联图像帧。级联图像帧可以是4通道RGB-M图像，其中RGB可以与中间“RGB”帧的RGB颜色通道对应，而“M”可以与第三前景掩模306C的掩模或二值颜色(即，黑和白)对应。而且，控制电路系统202可以被配置为通过将第一CNN 304A直接应用于第二RGB帧302B上来生成中间测试掩模(如图3B中所讨论的)。

控制电路系统202还可以被配置为基于中间测试掩模和第二CNN 304B的部分或未经训练的版本的输出来训练第二CNN 304B。中间测试掩模可以充当地面真相掩模或精确参考掩模，以用于估计第二CNN 304B的最优权重参数。在训练阶段中，对于第二CNN 304B的每个输出，可以基于第二CNN 304B的估计的前景掩模与中间测试掩模的差异来使第二CNN304B的训练误差最小。一旦训练误差被最小化，第二CNN 304B就可以被配置为输出第四前景掩模306D，使得第二CNN 304B的准确性与第一CNN 304A的准确性几乎相同，并且与第一CNN 304A相比，用于生成输出的循环时间更少。第四前景掩模306D可以是用于感兴趣对象(诸如对于中间RGB帧(诸如第二RGB帧302B)的人类对象308)的准确掩模。例如，在图3B、3C和3D中详细描述了为第二CNN 304B准备训练数据集的细节。

控制电路系统202还可以被配置为通过使用第二CNN 304B来生成表示第三前景掩模306C的精细的前景掩模的第四前景掩模306D。第二CNN 304B可以是计算轻型CNN，其可以如计算繁重的CNN(诸如第一CNN 304A)那样输出准确的掩模。可以在第二CNN304B的训练阶段实现第二CNN 304B的可比的准确性。计算轻型CNN可以表示，与第一CNN 304A相比，第二CNN 304B可以具有更少的循环时间并且可以更快。可以基于到第二CNN 304B的确定的第三前景掩模306C和中间彩色图像帧(诸如第二RGB帧302B)的输入来生成第四前景掩模306D。

由于第二CNN 304B取得包括与第二RGB帧302B级联的第三前景掩模306C的4通道图像数据作为RGB-M输入，因此循环时间较少，因为第4通道可以与第三前景掩模306C(即，粗略的前景掩模)形式的二值图像表示对应。

图3B图示了根据本公开实施例的用于图3A的第二CNN的示例性训练数据集准备。参考图3B，示出了帧的集合(诸如彩色图像帧302序列的RGB帧302A、302B和302C)、第一CNN304A、以及与帧集合中的每个帧(诸如RGB帧302A、302B和302C)对应的不同的输出前景掩模。

根据实施例，一旦第一CNN 304A和来自第一CNN 304A的帧集合中的每个帧(例如，RGB帧302A、302B和302C)所对应的不同输出前景掩模可用，就可以生成用于第二CNN 304B的训练数据集。控制电路系统202可以被配置为基于第一CNN 304A的多个输入-输出图像对来训练第一CNN 304A。第一CNN 304A的多个输入-输出图像对可以包括第一RGB帧302A、第二RGB帧302B和第三RGB帧302C以及对应的输出前景掩模(诸如第一前景掩模306A、前景掩模306E和第三前景掩模306C)。前景掩模306E可以与用于训练第二CNN 304B(即，计算轻型CNN)的地面真相掩模或中间测试掩模对应。类似地，控制电路系统202可以被配置为用第一CNN304A处理彩色图像帧302序列中的至少一些帧(即，帧的集合)或所有输入RGB帧，并为彩色图像帧302序列的每个输入RGB帧生成前景掩模。

第一CNN 304A的多个输入-输出图像对可以用作第二CNN304B的训练数据集，所述第一CNN 304A的多个输入-输出图像对包括彩色图像帧302序列的不同输入RGB帧和用于每个输入RGB帧的对应的前景掩模。基于第一CNN 304A的多个输入-输出图像对，第二CNN304B的训练可以是高效的，因为可以避免手动创建真实前景掩模(也称为用于第二CNN304B的地面真相)的需要。

图3C图示了根据本公开实施例的两个前景掩模的示例性线性插值。参考图3C，示出了由第一CNN 304A生成的第一前景掩模306A和第二前景掩模306B的线性插值310。

控制电路系统202可以被配置为应用近似操作，其中感兴趣对象(诸如人类对象308)的对象边界从第一前景掩模306A的第一对象边界312A和第二前景掩模306B的第二对象边界312B近似并归一化，以生成第三前景掩模306C。在线性插值310中，可以将两个掩模帧(诸如第一前景掩模306A和第二前景掩模306B)的平均值取作粗略的前景掩模(其可以是第三前景掩模306C)。第一前景掩模306A和第二前景掩模306B之间的共有区域被示为点线区域。第一前景掩模306A和第二前景掩模306B的不共有的面积可以被平均或近似。

图3D示出了根据本公开实施例的到图3A的第二CNN的示例性输入，以生成用于中间图像帧的前景掩模。参考图3D，示出了用于第一RGB帧302A和第三RGB帧302C之间的第二RGB帧302B(即，中间帧)的第三前景掩模306C(即，粗略的前景掩模)。而且，示出了级联帧314以及作为第三前景掩模306C的更新的第四前景掩模306D。

为了将第三前景掩模306C更新为第四前景掩模306D，控制电路系统202可以被配置为通过第二RGB帧302B(诸如在第t帧与第t+2帧之间的第t+1帧)与第三前景掩膜306C(即，粗略的前景掩膜)的级联316来生成级联帧314。级联帧314可以是4通道图像(即，RGB通道和掩模)。

控制电路系统202还可以被配置为通过使用级联帧314作为到第二CNN 304B的输入来训练第二CNN 304B。第二CNN 304B可以在针对权重集合的迭代集合中的每个迭代中输出前景掩模，权重可以基于针对第二CNN 304B的训练误差在对应的迭代中进行调整。可以训练第二CNN 304B，使得每次迭代中来自第二CNN 304B的输出前景掩模与前景掩模306E(即，由第一CNN 304A生成的地面真相掩模或中间测试掩模)之间的差异最小化。前景掩模306E(即，中间测试掩模)可以用作地面真相掩模或精确的参考掩模，以用于估计第二CNN304B的最优权重参数。在每次迭代中来自第二CNN 304B的输出前景掩模与前景掩模306E之间的差异的最小化可以与针对第二CNN 304B(即，计算轻型CNN)的训练误差的最小化对应。

一旦训练误差被最小化，控制电路系统202就可以被配置为通过使用第二CNN304B将第三前景掩模306C更新为第四前景掩模306D。第四前景掩模306D可以表示第三前景掩模306C的精细的前景掩模。第三前景掩模306C可以基于第三前景掩模306C和中间彩色图像帧(即，可以位于第一RGB帧302A和第三RGB帧302C之间的第二RGB帧302B)被更新为第四前景掩模306D。更具体而言，第二CNN 304B可以输出第四前景掩模306D，使得第二CNN 304B的准确性与第一CNN 304A的准确性几乎相同，与第一CNN 304A相比，用于生成第四前景掩模306D的循环时间更少。第四前景掩模306D可以是用于感兴趣对象(诸如用于第二RGB帧302B的人类对象308)的准确掩模。

对象分割电路204还可以被配置为通过使用第一前景掩模306A从至少第一RGB帧302A、通过使用第二前景掩模306B从第三RGB帧302C以及通过使用第四前景掩模306D从第二RGB帧302B分割感兴趣对象(诸如人类对象308)。

图4是图示根据本公开实施例的用于基于多个神经网络在彩色图像帧序列中进行对象分割的示例性方法的流程图。参考图4，示出了流程图400。可以在图像处理装置102中执行示例性方法的操作。操作可以从402开始并且前进到404。

在404处，可以捕获彩色图像帧110序列。控制电路系统202可以被配置为控制图像传感器102A以捕获彩色图像帧110序列。

在406处，可以基于第一神经网络模型112A为彩色图像帧110序列中的第一彩色图像帧110A中的感兴趣对象生成第一前景掩模。控制电路系统202可以被配置为基于第一神经网络模型112A为彩色图像帧110序列中的第一彩色图像帧110A中的感兴趣对象生成第一前景掩模。

在408处，可以基于第一神经网络模型112A为与彩色图像帧110序列的第一彩色图像帧110A不相邻的即将到来的彩色图像帧中的感兴趣对象生成第二前景掩模。控制电路系统202可以被配置为基于第一神经网络模型112A为与彩色图像帧110序列的第一彩色图像帧110A不相邻的即将到来的彩色图像帧中的感兴趣对象生成第二前景掩模。

在410处，可以基于第一前景掩模和第二前景掩模的插值来确定第三前景掩模。控制电路系统202可以被配置为基于第一前景掩模和第二前景掩模的插值来确定第三前景掩模。插值可以是线性插值，其中第一前景掩模和第二前景掩模的平均值可以产生第三前景掩模(粗略的前景掩模)。

在412处，基于所确定的第三前景掩模以及位于第一彩色图像帧110A和即将到来的彩色图像帧之间的中间彩色图像帧，可以通过使用第二神经网络模型112B将第三前景掩模更新为可以表示第三前景掩模的精细的前景掩模的第四前景掩模。控制电路系统202可以被配置为通过使用第二神经网络模型112B将第三前景掩模更新为可以表示第三前景掩模的精细的前景掩模的第四前景掩模。可以基于所确定的第三前景掩模以及位于第一彩色图像帧110A和即将到来的彩色图像帧之间的中间彩色图像帧来更新第三前景掩模。

在414处，可以通过使用第一前景掩模从至少第一彩色图像帧110A、通过使用第二前景掩模从即将到来的彩色图像帧以及通过使用第四前景掩模从中间彩色图像帧中分割感兴趣对象。控制电路系统202可以被配置为通过使用第一前景掩模从至少第一彩色图像帧110A、通过使用第二前景掩模从即将到来的彩色图像帧并且通过使用第四前景掩模从中间彩色图像帧中分割感兴趣对象。控制结束。

本公开的各种实施例可以提供在其上存储有可由机器和/或计算机执行以操作用于基于多个神经网络在彩色图像帧序列中进行对象分割的图像处理装置的指令的非暂态计算机可读介质和/或存储介质。指令可以使机器和/或计算机执行包括彩色图像帧序列的捕获的操作。操作还包括第一神经网络模型和第二神经网络模型的存储。操作还包括基于第一神经网络模型为彩色图像帧序列中的第一彩色图像帧中的感兴趣对象生成第一前景掩模。操作还包括基于第一神经网络模型为彩色图像帧序列中的与第一彩色图像帧不相邻的即将到来的彩色图像帧中的感兴趣对象生成第二前景掩模。操作还包括基于第一前景掩模和第二前景掩模的插值来确定第三前景掩模。操作还包括通过使用第二神经网络模型将第三前景掩模更新为表示第三前景掩模的精细的前景掩模的第四前景掩模。基于所确定的第三前景掩模以及位于第一彩色图像帧和即将到来的彩色图像帧之间的中间彩色图像帧来更新第三前景掩模。操作还包括通过使用第一前景掩模从至少第一彩色图像帧、通过使用第二前景掩模从即将到来的彩色图像帧以及通过使用第四前景掩模从中间彩色图像帧中分割感兴趣对象。

可以在用于基于多个神经网络在彩色图像帧序列中进行对象分割的图像处理装置和方法中找到本公开的某些实施例。本公开的各种实施例可以提供图像处理装置102(图1)，其可以包括存储器206(图2)、图像传感器102A和控制电路系统202(图2)。图像传感器102A可以被配置为捕获彩色图像帧110序列。存储器206可以被配置为存储第一神经网络模型112A和第二神经网络模型112B。控制电路系统202可以被配置为基于第一神经网络模型112A为彩色图像帧110序列中的第一彩色图像帧110A中的感兴趣对象生成第一前景掩模。控制电路系统202还可以被配置为基于第一神经网络模型112A为彩色图像帧110A序列的与第一彩色图像帧110A不相邻的即将到来的彩色图像帧中的感兴趣对象生成第二前景掩模。控制电路系统202还可以被配置为基于第一前景掩模和第二前景掩模的插值来确定第三前景掩模。控制电路系统202还可以被配置为通过使用第二神经网络模型112B将第三前景掩模更新为表示第三前景掩模的精细的前景掩模的第四前景掩模。可以基于所确定的第三前景掩模以及位于第一彩色图像帧110A和即将到来的彩色图像帧之间的中间彩色图像帧来更新第三前景掩模。控制电路系统202还可以被配置为通过使用第一前景掩模从至少第一彩色图像帧110A、通过使用第二前景掩模从即将到来的彩色图像帧以及通过使用第四前景掩模从中间彩色图像帧中分割感兴趣对象。

根据实施例，第一神经网络模型112A可以是用图像对集合进行训练的预先训练的模型。图像对集合中的每个图像对可以包括彩色图像帧和前景掩模图像。每个图像对可以至少包括将被分割的感兴趣对象。

根据实施例，控制电路系统202可以被配置为独立于来自彩色图像帧110序列中的任意输入彩色图像的一个或多个先前彩色图像帧或后续彩色图像帧的图像信息，利用第一神经网络模型112A估计该任意输入彩色图像帧中的感兴趣对象的前景掩模。

根据实施例，第一神经网络模型112A可以是第一卷积神经网络，并且第二神经网络模型112B可以是不同于第一卷积神经网络的第二卷积神经网络。第一神经网络模型112A可以至少在循环时间参数上与第二神经网络模型112B不同。循环时间参数可以指示当输入彩色图像帧通过神经网络模型时，为彩色图像帧110序列中的输入彩色图像帧生成输出前景掩模的总时间。与第一神经网络模型112A相比，第二神经网络模型112B具有更少的循环时间并且更快。根据实施例，控制电路系统202可以被配置为基于第一神经网络模型112A的输入-输出图像对来训练第二神经网络模型112B。

根据实施例，控制电路系统202可以被配置为基于第一神经网络模型112A将第一彩色图像帧110A分类为前景区域和背景区域。前景区域可以被映射到作为二值图像的所生成的第一前景掩模。

根据实施例，控制电路系统202还可以被配置为基于第一神经网络模型112A将即将到来的彩色图像帧分类为前景区域和背景区域。前景区域可以被映射到作为二值图像的所生成的第二前景掩模。

根据实施例，插值可以是第一前景掩模和第二前景掩模的线性插值。在第一前景掩模和第二前景掩模的线性插值中，控制电路系统202可以被配置为应用近似操作，其中感兴趣对象的对象边界从第一前景掩模的第一对象边界和第二前景掩模的第二对象边界被近似并归一化，以生成作为二值图像的第三前景掩模。

根据实施例，控制电路系统202可以被配置为通过使用基于第一神经网络模型112A生成的非连续帧的第一集合中的每个帧所对应的不同的输出前景掩模，来从彩色图像帧110序列的非连续帧的第一集合中分割感兴趣对象。不同的输出前景掩模可以至少包括第一前景掩模和第二前景掩模。

根据实施例，控制电路系统202还可以被配置为通过使用基于第二神经网络模型112B生成的非连续帧的第二集合中的每个帧所对应的不同的输出前景掩模，来从感兴趣对象序列的非连续帧的第二集合中分割感兴趣对象。不同的输出前景掩模可以至少包括第四前景掩模。

本公开可以用硬件、或硬件和软件的组合来实现。本公开可以以集中式方式、以至少一个计算机系统或以分布式的方式来实现，其中不同的元件可以分布在多个互连的计算机系统上。适于执行本文描述的方法的计算机系统或其它装置可能是合适的。硬件和软件的组合可以是具有计算机程序的通用计算机系统，该计算机程序在被加载和执行时可以控制计算机系统，以使其执行本文描述的方法。本公开可以用包括还执行其它功能的集成电路的一部分的硬件来实现。

本公开还可以被嵌入计算机程序产品中，该计算机程序产品包括使得能够实现本文描述的方法的所有特征，并且当其被加载到计算机系统中时，能够执行这些方法。在本文中，计算机程序是指以任何语言、代码或符号表示的指令集的任何表达，这些指令旨在使具有信息处理能力的系统直接执行特定功能，或者在以下中的一者或两者之后执行特定功能：a)转换成另一种语言、代码或符号；b)以不同的物质形式复制。

虽然已经参考某些实施例描述了本公开，但是本领域技术人员将理解，在不偏离本公开的范围的情况下，可以进行各种改变并且可以替换等同物。另外，在不偏离本公开的范围的情况下，可以做出许多修改以使特定情况或材料适于本公开的教导。因此，意图是本公开不限于所公开的特定实施例，而是本公开将包括落入所附权利要求的范围内的所有实施例。

Claims

1.一种图像处理装置，包括：

图像传感器，被配置为捕获彩色图像帧序列；

存储器，被配置为存储第一神经网络模型和第二神经网络模型；以及

控制电路系统，被配置为：

基于第一神经网络模型，为彩色图像帧序列中的第一彩色图像帧中的感兴趣对象生成第一前景掩模；

基于第一神经网络模型，为彩色图像帧序列中的与第一彩色图像帧不相邻的即将到来的彩色图像帧中的所述感兴趣对象生成第二前景掩模；

基于第一前景掩模和第二前景掩模的插值来确定第三前景掩模；

通过使用第二神经网络模型，基于所确定的第三前景掩模以及位于第一彩色图像帧和所述即将到来的彩色图像帧之间的中间彩色图像帧，将第三前景掩模更新为第四前景掩模，第四前景掩模表示第三前景掩模的精细的前景掩模；以及

通过使用第一前景掩模从至少第一彩色图像帧、通过使用第二前景掩模从所述即将到来的彩色图像帧以及通过使用第四前景掩模从所述中间彩色图像帧分割所述感兴趣对象。

2.根据权利要求1所述的图像处理装置，其中第一神经网络模型是用图像对集合训练的预先训练的模型，其中图像对集合中的每个图像对包括彩色图像帧和前景掩模图像，以及其中每个图像对至少包括要分割的所述感兴趣对象。

3.根据权利要求1所述的图像处理装置，其中控制电路系统被配置为独立于来自彩色图像帧序列中的任意输入彩色图像的一个或多个先前彩色图像帧或后续彩色图像帧的图像信息，利用第一神经网络模型估计该任意输入彩色图像帧中的所述感兴趣对象的前景掩模。

4.根据权利要求1所述的图像处理装置，其中第一神经网络模型是第一卷积神经网络，并且第二神经网络模型是与第一卷积神经网络不同的第二卷积神经网络。

5.根据权利要求1所述的图像处理装置，其中第一神经网络模型至少在循环时间参数上与第二神经网络模型不同，

其中循环时间参数指示当彩色图像帧序列中的输入彩色图像帧通过神经网络模型时，为该输入彩色图像帧生成输出前景掩模的总时间，以及

其中与第一神经网络模型相比，第二神经网络模型具有更少的循环时间并且更快。

6.根据权利要求5所述的图像处理装置，其中控制电路系统被配置为基于第一神经网络模型的输入-输出图像对来训练第二神经网络模型。

7.根据权利要求1所述的图像处理装置，其中控制电路系统还被配置为基于第一神经网络模型将第一彩色图像帧分类为前景区域和背景区域，其中该前景区域被映射到作为二值图像的所生成的第一前景掩模。

8.根据权利要求1所述的图像处理装置，其中控制电路系统还被配置为基于第一神经网络模型将所述即将到来的彩色图像帧分类为前景区域和背景区域，其中该前景区域被映射到作为二值图像的所生成的第二前景掩模。

9.根据权利要求1所述的图像处理装置，其中所述插值能够是第一前景掩模和第二前景掩模的线性插值。

10.根据权利要求9所述的图像处理装置，其中在第一前景掩模和第二前景掩模的线性插值中，控制电路系统被配置为应用近似操作，其中所述感兴趣对象的对象边界根据第一前景掩模的第一对象边界和第二前景掩模的第二对象边界被近似并归一化，以生成作为二值图像的第三前景掩模。

11.根据权利要求1所述的图像处理装置，其中控制电路系统还被配置为通过使用基于第一神经网络模型生成的、与彩色图像帧序列中的非连续帧的第一集合中的每个帧对应的不同的输出前景掩模，来从非连续帧的第一集合分割所述感兴趣对象，其中该不同的输出前景掩模至少包括第一前景掩模和第二前景掩模。

12.根据权利要求11所述的图像处理装置，其中控制电路系统还被配置为通过使用基于第二神经网络模型生成的、与感兴趣对象序列中的非连续帧的第二集合中的每个帧对应的不同的输出前景掩模，来从非连续帧的第二集合分割感兴趣对象，其中该不同的输出前景掩模至少包括第四前景掩模。

13.一种用于图像处理的方法，包括：

在包括图像传感器、存储第一神经网络模型和第二神经网络模型的存储器以及控制电路系统的图像处理装置中：

由图像传感器捕获彩色图像帧序列；

由控制电路系统基于第一神经网络模型，为彩色图像帧序列中的第一彩色图像帧中的感兴趣对象生成第一前景掩模；

由控制电路系统基于第一神经网络模型，为彩色图像帧序列中的与第一彩色图像帧不相邻的即将到来的彩色图像帧中的所述感兴趣对象生成第二前景掩模；

由控制电路系统基于第一前景掩模和第二前景掩模的插值来确定第三前景掩模；

由控制电路系统通过使用与第一神经网络模型不同的第二神经网络模型，基于根据所述插值生成的第三前景掩模以及位于第一彩色图像帧和所述即将到来的彩色图像帧之间的中间彩色图像帧，将第三前景掩模更新为第四前景掩模，第四前景掩模表示第三前景掩模的精细的前景掩模；以及

由控制电路系统通过使用第一前景掩模从至少第一彩色图像帧、通过使用第二前景掩模从所述即将到来的彩色图像帧以及通过使用第四前景掩模从所述中间彩色图像帧分割所述感兴趣对象。

14.根据权利要求13所述的方法，其中第一神经网络模型是用图像对集合训练的预先训练的模型，其中图像对集合中的每个图像对包括彩色图像帧和前景掩模图像，以及其中每个图像对至少包括要分割的所述感兴趣对象。

15.根据权利要求13所述的方法，还包括：由控制电路系统独立于来自彩色图像帧序列中的任意输入彩色图像的一个或多个先前彩色图像帧或后续彩色图像帧的图像信息，基于第一神经网络模型估计该任意输入彩色图像帧中的所述感兴趣对象的前景掩模。

16.根据权利要求13所述的方法，其中第一神经网络模型是第一卷积神经网络，并且第二神经网络模型是与第一卷积神经网络不同的第二卷积神经网络。

17.根据权利要求13所述的方法，其中第一神经网络模型至少在循环时间参数上与第二神经网络模型不同，

18.根据权利要求13所述的方法，还包括：由控制电路系统基于第一神经网络模型的输入-输出图像对来训练第二神经网络模型。

19.根据权利要求13所述的方法，还包括：由控制电路系统通过使用第一神经网络模型将第一彩色图像帧分类为前景区域和背景区域，其中该前景区域被映射到作为二值图像的所生成的第一前景掩模。

20.根据权利要求13所述的方法，其中所述插值能够是第一前景掩模和第二前景掩模的线性插值。