CN113436220B

CN113436220B - 一种基于深度图分割的图像背景估计方法

Info

Publication number: CN113436220B
Application number: CN202110593174.3A
Authority: CN
Inventors: 马天龙; 杨舒文
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2022-04-05
Anticipated expiration: 2041-05-28
Also published as: CN113436220A

Abstract

本发明公开了一种基于深度图分割的图像背景估计方法，其特点是该方法利用预训练好的深度补全网络，以RGB图像作为指导对深度图像进行空洞填充；将直方图统计得到深度图像的全局统计特征作为多层感知机的输入，得到的两个自适应阈值，利用两个阈值计算背景图掩码，将掩码与原图像求交即可得到预测的背景部分。本发明与现有技术相比具有识别的准确度高，根据深度图统计特征求出分割所需的阈值，不需要手工为每幅图设定阈值，具有一定的便利性，降低了深度图像中不完整信息对分割结果的影响，较好解决了不完整深度信息背景识别和背景分割的难题。

Description

一种基于深度图分割的图像背景估计方法

技术领域

本发明涉及数字图像处理技术领域，具体的说是一种基于深度图分割的图像背景估计方法。

背景技术

随着计算机算力的大幅提升以及工业界对图像信号的智能化处理需求的增加，移除图像中的背景部分并提取关键目标信息成为图像处理中重要的预处理步骤。在一些交互式游戏、手势识别及人体检测与识别中，背景移除也起到了至关重要的作用，其会直接影响到识别检测的准确率。

目前，最常用的背景移除方法是基于颜色或灰度的背景减法，即将图像与提前拍摄好的背景图像做差，如果像素差值小于某个阈值，则判定该像素点为背景的一部分。直观上背景减法是将待处理图像与背景图像上颜色或灰度值相近的部分去掉。基于颜色或灰度的背景减法操作简单且识别速度快，但这种方法有以下几点问题：

如果前景部分区域与背景颜色相似，那么该方法会将这部分区域误当成背景删除，使得获取的图像存在许多空洞。另外，物体投射到背景的投影也会被该方法误认为是前景。当然，这些问题可以通过计算对强度变化不太敏感的颜色空间(如色调、对数颜色)的差来弱化这些问题，但结果与预期还是有很大差异。

和灰度图以及彩色图相比，深度图本身就具有易区分的前后层次关系，所以用深度图来进行背景估计相比灰度图和彩色图更具优势。但由于深度相机精度不高，拍摄出来的深度信息非常稀疏，深度图像可能会包含很多空洞，这对后续的背景分割操作带来诸多不便。因此，如何利用不完整的深度信息进行背景识别是本发明需要解决的关键问题。

发明内容

本发明的目的是针对现有技术的不足而设计的一种基于深度图分割的图像背景估计方法，采用彩色RGB图像和深度图像的特征融合，通过解码得到完整深度图像，以及多层感知机求出深度图像的自适应阈值，并利用该阈值对图像进行分割得到背景部分，大大降低了深度图像中不完整信息对分割结果的影响，方法简便，识别的准确度高，较好解决了不完整深度信息背景识别和背景分割的难题。

实现本发明目的的具体技术方案是：一种基于深度图分割的图像背景估计方法，其特点包括下述步骤：

(一)预训练深度补全网络模型

1-1：将NYU Depth V2数据集采集的彩色RGB图像、原始深度图像以及人工标注后的深度图像作为训练集和验证集，所述训练集和验证集按9:1进行采集；所述人工标注即对深度图中的空洞进行填充。

1-2：定义以彩色RGB图像作为指导，对原始深度图像进行空洞填充的深度补全网络模型，所述深度补全网络模型是通过RGB编码器和深度编码器分别提取RGB图像和深度图像的特征，然后对两特征进行特征融合后输入到深度解码器中去预测补全后的完整深度图，利用求得的深度图和人工标注深度图构建损失函数，具体操作包括如下步骤：

1-2-1：提取图像特征

用两个resnet-50网络分别提取RGB图像和深度图像的特征，每个网络先对图像进行卷积操作，之后包括4个残差块，其中，第一个残差块包括9个卷积网络；第二个残差块包括12个卷积网络；第三个残差块包括18卷积网络；第四个残差块包括9个卷积网络；然后将RGB图像和深度图像分别输入到两个网络中得到RGB图像特征及深度图像特征。

1-2-2：特征融合

采用对应元素相加的方式对上述两空间维度一样的RGB图像特征和深度图像特征进行融合。

1-2-3：深度解码

将上述融合后的特征作为深度解码器的输入，得到补全后的完整深度图，所述深度解码器由4个上采样模块组成，每个上采样模块由一层上采样层和卷积层构成。

1-2-4：损失函数构建

上述解码操作得到的预测深度图

和人工标注的深度图y尺寸，以及对应像素点的深度值应该一致，所用的损失函数为下述b式表示的Berhu loss函数：

其中：

即标注深度图与预测深度图的差值；

i指的是同一批训练数据中每张图片的每一个像素点坐标。

1-3：根据上述的训练集对模型进行预训练并在验证集上进行验证，保存在验证集上取得最好结果时的训练模型参数。

(二)补全原始深度图像

利用上述预训练好的深度补全网络对原始深度图像进行深度补全，其具体步骤如下：

2-1：将上述最佳模型参数加载在深度补全网络模型上，利用深度摄像机拍摄的彩色RGB图像和对应的待填充的原始深度图像作为模型输入，其输出结果即为补全后的完整深度图。

(三)深度图全局统计

对深度补全后的深度图进行直方图统计得到深度图的深度值统计直方图，作为图像的深度图全局统计特征，其具体步骤如下：

3-1：定义像素值范围为[0,L-1]的深度图像D的直方图是离散函数h_Dk＝n_k，其中，n_k是图像中像素值为k的像素个数。

3-2：定义f₁(D)＝(h_D(0),h_D(1),…,h_D(L-1))为维度大小为L深度图像的全局统计特征向量，通过计数方法即可得到深度图像的直方图，从而得到深度图像的全局统计特征向量。

(四)计算分割阈值

构建一个用于通过深度图像计算自适应阈值的多层感知机，利用上述全局统计特征作为多层感知机的输入，预测两个自适应阈值，其具体步骤如下：

4-1：构建一个用于通过深度图像计算自适应阈值的多层感知机，所述多层感知机由两层全连接层构成，最后一层输出的两个值即为预测得到的两个自适应阈值。

4-2：通过人工标注的方式构造训练集，该训练集包括补全后的深度图像以及人工标注好的两个自适应阈值。用均方误差(MSE)作为损失函数，在上述训练集训练多层感知机。

4-3：将(三)步骤中的深度图像的全局统计特征向量作为多层感知机的输入，得到两个自适应阈值g,g，其中：g不大于g。

(五)预测背景

利用上述求得的两个阈值计算背景图掩码，将掩码与原图像求交即可得到预测的背景部分，其具体步骤如下：

5-1：设深度图像D的背景图掩码为MASK_D，掩码上位与坐标x,y的掩码值由下述a式求得：

其中：g₁和g₂为多层感知机预测得到的两个自适应阈值。

5-2：用背景图掩码与原图像求交得到图像的背景部分。

本发明与现有技术相比具有以下有益的技术效果：

1)方法简便，识别的准确度高。

2)根据深度图统计特征求出分割所需的阈值，不需要手工为每幅图设定阈值，具有一定的便利性。

3)大大降低了深度图像中不完整信息对分割结果的影响，较好解决了不完整深度信息背景识别和背景分割的难题。

附图说明

图1为本发明的流程图；

图2为实施例示意图。

具体实施方式

以下通过具体实施例对本发明作进一步的详细说明。

实施例1

参阅附图1～图2，本发明包括以下步骤：

(一)预训练深度补全网络模型

1-1：以从NYU Depth V2数据集采集得到的彩色RGB图像、原始深度图像以及人工标注后的深度图像作为训练集和验证集，所述训练集和验证集采集比例为9:1；所述人工标注即对深度图中的空洞进行填充。

1-2：定义以彩色RGB图像作为指导，可以对原始深度图像进行空洞填充的深度补全网络模型，所述深度补全网络模型通过RGB编码器和深度编码器分别提取RGB图像和深度图像的特征，然后对两者特征进行特征融合并输入到深度解码器中去预测补全后的完整深度图，利用求得的深度图和人工标注深度图构建损失函数，具体包括如下子步骤：

1-2-1：用两个resnet-50网络分别提取RGB图像和深度图像的特征，每个网络先对图像进行卷积操作，之后包括4个残差块。第一个残差块包括9个卷积网络，第二个残差块包括12个卷积网络，第三个残差块包括18卷积网络，最后一个残差块包括9个卷积网络。将RGB图像和深度图像分别输入到两个网络中得到RGB图像特征及深度图像特征。

1-2-2：将步骤1-2-1得到的RGB图像特征和深度图像特征，以对应元素相加的方式对两者特征进行融合；

1-2-3：将步骤1-2-2产生的融合后的特征作为深度解码器的输入，得到补全后的完整深度图，其中深度解码器由4个上采样模块组成，每个上采样模块由一层上采样层和卷积层构成。

1-2-4：上述解码操作得到的预测深度图y和人工标注的深度图y尺寸以及对应像素点的深度值应该一致。所用的损失函数为下述b式表示的Berhu loss函数：

其中：

即标注深度图与预测深度图的差值；

这里i指的是同一批训练数据中每张图片的每一个像素点坐标。

(二)补全原始深度图像

利用上述预训练好的深度补全网络对原始深度图像进行深度补全，具体步骤如下：

2-1：让深度补全网络模型加载上述得到的最佳模型参数，将用深度摄像机拍摄得到的彩色RGB图像和对应的待填充的原始深度图像作为模型输入，输出结果，该结果即为补全后的完整深度图。

(三)深度图全局统计

对深度补全后的深度图按下述步骤进行直方图统计，并将得到深度图的深度值统计直方图作为图像的深度图全局统计特征，具体包括如下步骤：

3-1：定义深度值范围为[0,L-1]的深度图像D的直方图是离散函数h_D(k)＝n_k，其中：n_k是图像中深度值为k的像素个数。

3-2：定义f_d(D)＝(h_D(0),h_D(1),…,h_D(L-1))为维度大小为L深度图像的全局统计特征向量，通过计数方法即可得到深度图像的直方图，从而得到深度图像的全局统计特征向量。

(四)计算分割阈值

构建一个用于通过深度图像计算自适应阈值的多层感知机，利用上述全局统计特征作为多层感知机的输入，预测两个自适应阈值，具体包括如下子步骤：

4-1：构建一个用于通过深度图像计算自适应阈值的多层感知机，所述多层感知机由两层全连接层构成，第一层全连接层输入维度为L，输出维度为2000，第二层全连接层输入维度为最后一层输出的两个值即为预测得到的两个自适应阈值。

4-2：通过人工标注的方式构造训练集，该训练集包括补全后的深度图像以及人工标注好的两个自适应阈值，用均方误差(MSE)作为损失函数，在上述训练集训练多层感知机。

4-3：将步骤(三)中得到的深度图像的全局统计特征向量作为多层感知机的输入得到两个自适应阈值g₁,g₂，其中g₁不大于g₂。

(五)预测背景

利用上述求得的两个阈值计算背景图掩码，将掩码与原图像求交即可得到预测的背景部分，具体包括如下步骤：

5-1：设深度图像D的背景图掩码为MASK_D，掩码上位与坐标(x,y)的掩码值由下述a式求得：

其中：g₁和g₂为多层感知机预测得到的两个自适应阈值；

5-2：用背景图掩码与原图像求交得到图像的背景部分。

本发明根据深度图统计特征求出分割所需的阈值，不需要手工为每幅图设定阈值，具有一定的便利性。基于补全后的深度图进行背景识别，相较过去利用不完整深度图进行背景估计，提高了识别的准确度。

以上各实施例只是对本发明做进一步说明，并非用以限制本发明专利，凡为本发明等效实施，均应包含于本发明专利的权利要求范围之内。

Claims

1.一种基于深度图分割的图像背景估计方法，其特征在于包括以下具体步骤：

(一)补全网络模型

采用预训练好的深度补全网络，以RGB图像作为指导对深度图像进行空洞填充，具体包括：

1-2-1：提取图像特征

用两个resnet-50网络分别提取RGB图像和深度图像的特征，每个网络先对图像进行卷积操作，之后包括4个残差块，其中，第一个残差块包括9个卷积网络；第二个残差块包括12个卷积网络；第三个残差块包括18卷积网络；第四个残差块包括9个卷积网络；然后将RGB图像和深度图像分别输入到两个网络中得到RGB图像特征及深度图像特征；

1-2-2：特征融合

采用对应元素相加的方式对上述两空间维度一样的RGB图像特征和深度图像特征进行融合；

1-2-3：深度解码

将上述融合后的特征作为深度解码器的输入，得到补全后的完整深度图，所述深度解码器由4个上采样模块组成，每个上采样模块由一层上采样层和卷积层构成；

1-2-4：损失函数构建

上述解码操作得到的预测深度图

其中：

即标注深度图与预测深度图的差值；

i指的是同一批训练数据中每张图片的每一个像素点坐标；

(二)补全原始深度图像

利用上述预训练好的深度补全网络按下述步骤对原始深度图像进行深度补全：

(三)深度图全局统计

对深度补全后的深度图按下述步骤进行直方图统计，并将得到深度图的深度值统计直方图作为图像的深度图全局统计特征；

(四)计算分割阈值

构建一个用于通过深度图像计算自适应阈值的多层感知机，利用上述全局统计特征作为多层感知机的输入，预测两个自适应阈值；

(五)预测背景

利用上述求得的两个阈值计算背景图掩码，将掩码与原图像求交即可得到预测的背景部分。

2.根据权利要求1所述基于深度图分割的图像背景估计方法，其特征在于所述步骤(一)具体包括：

1-1：将NYU Depth V2数据集采集的彩色RGB图像、原始深度图像以及人工标注后的深度图像作为训练集和验证集，所述训练集和验证集按9∶1进行采集；所述人工标注即对深度图中的空洞进行填充；

1-2：定义以彩色RGB图像作为指导，对原始深度图像进行空洞填充的深度补全网络模型，所述深度补全网络模型是通过RGB编码器和深度编码器分别提取RGB图像和深度图像的特征，然后对两特征进行特征融合后输入到深度解码器中去预测补全后的完整深度图，利用求得的深度图和人工标注深度图构建损失函数；

3.根据权利要求1所述基于深度图分割的图像背景估计方法，其特征在于所述步骤(二)具体包括：

2-1：将最佳模型参数加载在深度补全网络模型上，利用深度摄像机拍摄的彩色RGB图像和对应的待填充的原始深度图像作为模型输入，其输出结果即为补全后的完整深度图。

4.根据权利要求1所述基于深度图分割的图像背景估计方法，其特征在于所述步骤(三)具体包括：

3-1：定义像素值范围为[0,L-1]的深度图像D的直方图是离散函数h_D(k)＝n_k，其中，n_k是图像中像素值为k的像素个数；

5.根据权利要求1所述基于深度图分割的图像背景估计方法，其特征在于所述步骤(四)具体包括：

4-1：构建一个用于通过深度图像计算自适应阈值的多层感知机，所述多层感知机由两层全连接层构成，最后一层输出的两个值即为预测得到的两个自适应阈值；

4-2：通过人工标注的方式构造训练集，该训练集包括补全后的深度图像以及人工标注好的两个自适应阈值，用均方误差(MSE)作为损失函数，在上述训练集训练多层感知机；

4-3：将步骤(三)中的深度图像的全局统计特征向量作为多层感知机的输入，得到两个自适应阈值g₁,g₂，其中：g₁不大于g₂。

6.根据权利要求1所述基于深度图分割的图像背景估计方法，其特征在于所述步骤(五)具体包括：

其中：g₁和g₂为多层感知机预测得到的两个自适应阈值；

5-2：用背景图掩码与原图像求交得到图像的背景部分。