CN110956681B

CN110956681B - 一种结合卷积网络和邻域相似性的人像背景自动替换方法

Info

Publication number: CN110956681B
Application number: CN201911086344.8A
Authority: CN
Inventors: 郑河荣; 周善业
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2023-06-30
Anticipated expiration: 2039-11-08
Also published as: CN110956681A

Abstract

本发明涉及一种结合卷积网络和邻域相似性的人像背景自动替换方法，本发明首先采用卷积网络进行目标对象分割，得到人脸前景的初始轮廓。然后针对分割后的人像边界不光滑问题，采用随机全局采样，扩大采样范围，增加相邻像素的相似性约束，提高透明度的连续性。该发明通过卷积网络实现人类图像分割，提高了复杂背景的人脸背景替换准确率。此外，发明采用邻域颜色相似性约束，使人像边界更平滑，提高了人脸背景替换的轮廓质量。解决了现有人像背景替换技术存在分割不准确、分割边界不平滑的问题。

Description

一种结合卷积网络和邻域相似性的人像背景自动替换方法

技术领域

本发明涉及计算机视觉的深度学习及机器视觉领域，尤其涉及一种结合卷积网络和邻域相似性的人像背景自动替换方法。

背景技术

随着社会的发展，人们办理证件的数量在不断增加，有些证件对照片的背景有严格限制。比如，在公安局拍摄身份证照片要求背景透明；办理签证是要求签证照片是白色背景；办理养老金申请表格要求证件照红色背景等。人像背景替换技术就是在一副图片中提取人像区域，将背景区域替换为指定颜色。该技术首先利用图像分割技术获得人像区域和背景区域的掩码图像，然后通过图像合成技术更新背景区域的颜色。

对于人像自动背景替换问题，一类是根据颜色进行背景分离操作。例如CN108683865A先采用绿幕抠图算法对原始图片进行处理；再使用阴影分离算法得到前景图像的运动物体；最后使用图像合成算法，将前景和预设背景融合，得到最终的图像。通过这种方法，可以提取更准确的前景图像，并将分离的前景合成更丰富的背景中，提高了子弹时间的酷炫特效，增强了用户体验。CN105678724A先基于图像当前帧的RGB分量，计算出绿色差值，并基于绿色差值得到最初的阿尔法图像；再利用所述绿色差值对初始阿尔法通道图像进行柔化处理，得到第一阿尔法通道图像；然后基于环境光因子对所述阿尔法通道图像进行柔化处理，得到最终阿尔法通道图像；最后对阿尔法通道图像、待合成的背景图像和经处理的前景图像进行合成。该发明对现有的基于绿幕抠图的方案进行改进，增加了柔化和去环境光处理，从而使图像更加柔化、自然。CN109819182A先获取当前图像确定主色；再对图像颜色和图像边沿主色进行量化统计，得到图像背景的颜色值和背景主色；通过计算得到一层透明度、二层透明度、综合透明度；最后将指定的背景图像和综合透明度采用公式进行背景替换，得到最终的图像。该方法根据视频的场景特征进行了背景颜色确认过程，提高了获取的背景颜色的准确性。

另外一类是更为一般化的自动背景替换算法。这类算法不考虑背景颜色，通过图像分割自动分离出人像前景和背景。例如CN109344724A先获取原始人脸图像,提取人脸关键点；再根据关键点,提取进行人脸位置矫正；对矫正后的图像进行分解,将矫正图像分解为背景区域,前景区域以及不确定区域；最后对背景区域进行背景替换。该方法能够解决目前无法对采集的照片进行自动处理,减少人工操作,提高照片处理的效率。CN109377445A基于预设的训练样本集中的样本组确定当前的训练数据；将训练数据输入初始网络模型，输出初始特征图；对初始特征图进行融合处理，得到最终特征图；根据最终特征图确定当前合成图像；获取当前合成图像和预设的标准合成图像之间的匹配损失函数值；继续向初始网络模型输入下一组训练数据进行训练，直至匹配损失函数值收敛，结束训练，得到目标模型。该方法将目标图像和替换图像输入至训练好的目标模型中，即可得到替换背景后的合成图像，操作过程简单且输出的合成图像效果准确稳定。但是由于人像照片会出现头发等精细结构，仅仅使用分割算法会出现边界区域粗糙，后续背景替换后会导致边界出现锯齿形的轮廓。

发明内容

本发明为克服上述的不足之处，目的在于提供一种结合卷积网络和邻域相似性的人像背景自动替换方法，本发明首先采用卷积网络进行目标对象分割，得到人脸前景的初始轮廓。然后针对分割后的人像边界不光滑问题，采用随机全局采样，扩大采样范围，增加相邻像素的相似性约束，提高透明度的连续性。该发明通过卷积网络实现人类图像分割，提高了复杂背景的人脸背景替换准确率。此外，发明采用邻域颜色相似性约束，使人像边界更平滑，提高了人脸背景替换的轮廓质量。解决了现有人像背景替换技术存在分割不准确、分割边界不平滑的问题。

本发明是通过以下技术方案达到上述目的：一种结合卷积网络和邻域相似性的人像背景自动替换方法，包括如下步骤：

(1)初始训练数据采集及标注；

(1.1)利用相机拍摄纯色背景的人像图片，以及没有人像的背景图片；

(1.2)将人像图片中的人像和背景图片中的背景进行融合，得到合成图片；

(1.3)对合成图片进行预处理，并进行人工标注，与原图组成图像对的作为初始训练集；选取部分图像作为训练集，余下的作为测试集；

(2)全卷积神经网络学习模型的构建及训练，并采用训练好的网络模型对测试图像进行预测，输出图像中的人像区域以及背景区域；

(3)图像透明度计算以及背景替换；

(3.1)对步骤(2)预测的图像边界进行形态学膨胀与腐蚀，得到三分图；

(3.2)结合原图和三分图中的前景和背景区域进行边界采样和全局随机采样，得到候选的前景背景样本集；

(3.3)建立二维搜索空间，再采用随机搜索的方法对每个未知像素进行最优样本对的选择,确认合适的样本对；

(3.4)通过公式计算得到每个像素的透明度；

(3.5)将透明度图像、待合成的背景图像和预测的人像图像进行合成，达到背景替换的效果。

作为优选，所述步骤(1.3)对合成图片进行预处理为通过边缘算法对边界点邻域进行线性插

计算，拓展为宽高比例358：441的图像。

作为优选，所述步骤(2)具体如下：

(2.1)基于TensorFlow深度学习框架，借助DeeplabV3+网络理论技术构建全卷积神经网络学习模型，其中，该模型由编码器和解码器构成，其中将原图片作为编码器的输入，编码器的输出是一维特征向量，然后将该向量作为解码器的输入，解码器的输出是预测结果；

(2.2)用训练集的数据来训练全卷积网络模型，采用测试集来验证该模型，直到测试集的平均交并比MIOU准确不在提升；

(2.3)采用训练好的深度全卷积网络模型，对测试图像进行预测，输出图像中的人像区域以及背景区域。

作为优选，所述的编码器具体如下：编码器先使用1个1*1的普通卷积，1个3*3空洞率为6的空洞卷积，1个3*3空洞率为12的空洞卷积，1个3*3空洞率为18的空洞卷积，一个全局池化，通过这些卷积操作得到不同维度的特征；通过空间金子塔结构将这些特征融合再一起，最后通过1个1*1的卷积，得到256维的深度语义特征。

作为优选，所述的解码器具体如下：解码器先使用1个1*1的卷积，得到低层次的语义特征，然后将编码器的特征进行上采样操作得到新特征，并进行叠加；再对叠加结果进行普通卷积操作，最后进行采样因子为4的上采样操作，得到预测结果。

作为优选，所述在三分图中，人像区域的透明度为0，背景区域的透明度为1，边界区域的透明度未知，需要计算。

作为优选，所述步骤(3.3)具体为：

(i)建立二维搜索空间，对于给定的前景样本集{(Fⁱ)|i＝0,1,2...N_F-1}和背景样本集{(B^j)|j＝0，1，2...N_B-1},采用颜色强度对两个集合进行排序,再将这两个集合组成一个二维搜索空间，坐标系里的每个点(i,j)都代表一个样本对(Fⁱ,B^j)；

(ii)在该空间内随机一个点作为初始点，通过迭代的方法找到合适的点(F_i,B_j)，迭代次数为10次，损失函数为

ε(Fⁱ,B^j)＝ε_c(Fⁱ,B^j)+ε_s(Fⁱ)+ε_s(B^j)

其中

ε_c表示的是真实像素I和估计像素/>

的颜色距离，ε_s表示的是未知像素I到样本对(Fⁱ,B^j)的欧拉距离，X_I,/>

表示未知像素、前景像素、背景像素的空间坐标；D_F,D_B表示未知像素到前景样本集和背景样本集的最短距离；

其中，迭代的方法步骤如下：对于每一个样本点,我们按公式

更新当前样本点；其中ε是上文中的损失函数,φ(x',y')是二维搜索空间相邻的点,即(Fⁱ,B^j).通过比较搜索空间内相邻的点,可以找到更好的样本对；按照公式/>

制定新的规则,在全局范围内产生一个搜索序列/>

然后在这个序列里面，通过公式/>

找到最优样本对作为当前样本对；其中ω_F,ω_B分别表示前景样本集和背景样本集的大小,β＝0.5,ωβ^k是第k次的搜索步长；R_k＝[-1,1]里面的随机数,表示搜索的方向.通过比较搜索空间内其它位置的点,找到更合适的样本对。

作为优选，所述步骤(3.4)所述的公式如下：

本发明的有益效果在于：本发明用编码器解码器结构的语义分割的模型用于提取人像区域，使用空间金字塔模型作为编码器结构，来获得不同尺度的上下文信息，并且捕获更深的语义信息；使用一个简单高效的解码器结构来恢复空间信息，提取物体的边界。这种编码器解码器结构能够有效预测复杂背景情况下的人物像素和边界，最大限度提高模型对人物的识别能力，提高语义分割的效果。另外一方面，采用全局随机采样扩大采样范围，从而使采样结果能够反映图像前景和背景的实际颜色分布，保证候选样本集的多样性；将相邻像素的样本对也作为当前像素的样本对选择，通过能量最小化函数对上述约束条件进行最优化处理；最终计算出每个像素的透明度，使得合成的图片在边缘区域更加自然。本发明将目标图像输入到训练好的模型，再经过简单的计算得到透明度图像，最后将背景图像替换即可得到合成图像。该方法能够实现全自动人像背景替换，提高了复杂背景下的人像背景替换准确率和边界质量。

附图说明

图1是本发明的方法流程示意图；

图2是本发明实施例的全卷积神经网络框架示意图；

图3是本发明实施例的透明度计算方法的示意图。

具体实施方式

下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不仅限于此：

实施例：本实施例中，人像图片内容定义为：个人半身或全身正面日常生活照片。由于人工收集样本图像具有周期长、数量少、成本高等特点，不能完全满足模型训练需要的大量样本图像，因此需要采取其他方法进行样本图像的增强处理，能在一定程度上提高模型训练的识别率。如图1所示，一种结合卷积网络和邻域相似性的人像背景自动替换方法主要包括初始训练数据采集及标注、全卷积神经网络学习模型的构建及训练、图像透明度的计算及背景替换这几个主要过程，具体如下：

步骤一、初始训练数据采集及标注；

步骤1.1：利用相机拍摄纯色背景的人像图片，以及拍摄没有人像的背景图片；

步骤1.2：将人像图片中的人像和背景图片中的背景相融合，筛选共计产生30万张样本图片，其中人像图片300张，背景图片1000张。

步骤1.3：对所有合成图像进行预处理。由于采集的样本图片规格大小不一，需要通过边缘算法对边界点邻域进行线性插

计算来拓展为宽高比例358：441的图像，这样能有效的避免样本图像直接缩放而造成图形畸变的问题；

步骤1.4：对上面合成图像进行标注，与原图像组成图像对作为的初始训练集；随机选取10％的样本作为训练集，余下的90％样本作为测试集。其中标签0表示背景，标签1表示人像；

步骤二：全卷积神经网络学习模型的构建及训练；

步骤2.1：本方法基于TensorFlow深度学习框架，借助DeeplabV3+网络理论技术构建网络模型，如图2所示；

步骤2.2：构造编码器，该编码器先使用1个1*1的普通卷积，1个3*3空洞率为6的空洞卷积，1个3*3空洞率为12的空洞卷积，1个3*3空洞率为18的空洞卷积，一个全局池化，通过这些卷积操作得到不同维度的特征。通过空间金子塔结构将这些特征融合再一起，最后通过1个1*1的卷积，得到256维的深度语义特征。

步骤2.3：构造解码器，该解码器先使用1个1*1的卷积，得到低层次的语义特征，然后将编码器的特征进行上采样操作得到新特征，并进行叠加；再对叠加结果进行普通卷积操作，最后进行采样因子为4的上采样操作，得到预测结果。

步骤2.4：训练网络模型，用训练集来训练语义分割模型，采用测试集来验证该模型，直到测试集的平均交并比MIOU(MeanIntersection over Union)准确度不再提升。

步骤2.5：对测试图片进行像素分类，输入为一张任意大小、三通道的RGB图片，经过模型计算，最终对图像的每一个像素预测是否为前景或背景。输出图片中每一个像素的标签，最终输出为一个二值图。

步骤三：图像透明度计算以及背景替换；

步骤3.1：对步骤二预测的图像边界进行形态学膨胀和腐蚀，得到三分图，其中人像区域的透明度为0，背景区域的透明度为1，以及边界区域的透明度需要计算；

步骤3.2：结合原图和三分图中的前景和背景区域，在边界区域进行采样，得到候选的前景背景样本集，减少计算的复杂性；并在全局区域进行随机采样，扩大采样范围，保证样本集的多样性；

步骤3.3：再采用随机搜索的方法，对每个未知像素进行最优样本对的选择,确认合适的样本对。先建立二维搜索空间，对于给定的前景样本集{(Fⁱ)|i＝0，1，2...N_F-1}和背景样本集{(B^j)|j＝0，1，2...N_B-1},采用颜色强度对两个集合进行排序,再将这两个集合组成一个二维搜索空间.坐标系里的每个点(i,j)都代表一个样本对(Fⁱ,B^j)。再在该空间内随机一个点作为初始点，最后通过迭代的方法找到合适的点(F_i,B_j)，迭代次数为10次，损失函数为ε(Fⁱ,B^j)＝ε_c(Fⁱ,B^j)+ε_s(Fⁱ)+ε_s(B^j)，其中

这里ε_c表示的是真实像素I和估计像素/>

表示未知像素、前景像素、背景像素的空间坐标.D_F,D_B表示未知像素到前景样本集和背景样本集的最短距离。迭代步骤如下：对于每一个样本点,我们按公式

更新当前样本点；其中ε是上文中的损失函数,φ(x',y')是二维搜索空间相邻的点,也就是上文说的(Fⁱ,B^j).通过比较搜索空间内相邻的点,可以找到更好的样本对.我们按照公式/>

制定新的规则,在全局范围内产生一个搜索序列/>

然后在这个序列里面，通过公式/>

找到最优样本对作为当前样本对.其中ω_F,ω_B分别表示前景样本集和背景样本集的大小,β＝0.5,ωβ^k是第k次的搜索步长；R_k＝[-1,1]里面的随机数,表示搜索的方向.通过比较搜索空间内其它位置的点,找到更合适的样本对；

步骤3.4：找到合适的样本对后，通过公式

计算得到所有像素的透明度，如图3所示；

步骤3.5：将透明度图像、待合成的背景图像和感兴趣的人像图像进行合成，达到背景替换的效果。

经过以上步骤的操作，即可实现人像的背景替换。

以上的所述乃是本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。

Claims

1.一种结合卷积网络和邻域相似性的人像背景自动替换方法，其特征在于，包括如下步骤：

(1)初始训练数据采集及标注；

(3)图像透明度计算以及背景替换；

(3.3)建立二维搜索空间，再采用随机搜索的方法对每个未知像素进行最优样本对的选择,确认合适的样本对；具体如下：

ε(Fⁱ,B^j)＝ε_c(Fⁱ,B^j)+ε_s(Fⁱ)+ε_s(B^j)

其中

ε_c表示的是真实像素I和估计像素/>

其中，迭代的方法步骤如下：对于每一个样本点,我们按公式

更新当前样本点；其中ε是上文中的损失函数,φ(x',y')是二维搜索空间相邻的点,即(Fⁱ,B^j).通过比较搜索空间内相邻的点,找到更好的样本对；按照公式/>

制定新的规则,在全局范围内产生一个搜索序列/>

然后在这个序列里面，通过公式/>

找到最优样本对作为当前样本对；其中ω_F,ω_B分别表示前景样本集和背景样本集的大小,β＝0.5,ωβ^k是第k次的搜索步长；R_k＝[-1,1]里面的随机数,表示搜索的方向.通过比较搜索空间内其它位置的点,找到更合适的样本对；

(3.4)通过公式计算得到每个像素的透明度；

2.根据权利要求1所述的一种结合卷积网络和邻域相似性的人像背景自动替换方法，其特征在于：所述步骤(1.3)对合成图片进行预处理为通过边缘算法对边界点邻域进行线性插

计算，拓展为宽高比例358：441的图像。

3.根据权利要求1所述的一种结合卷积网络和邻域相似性的人像背景自动替换方法，其特征在于：所述步骤(2)具体如下：

4.根据权利要求3所述的一种结合卷积网络和邻域相似性的人像背景自动替换方法，其特征在于：所述的编码器具体如下：编码器先使用1个1*1的普通卷积，1个3*3空洞率为6的空洞卷积，1个3*3空洞率为12的空洞卷积，1个3*3空洞率为18的空洞卷积，一个全局池化，通过这些卷积操作得到不同维度的特征；通过空间金子塔结构将这些特征融合再一起，最后通过1个1*1的卷积，得到256维的深度语义特征。

5.根据权利要求3所述的一种结合卷积网络和邻域相似性的人像背景自动替换方法，其特征在于：所述的解码器具体如下：解码器先使用1个1*1的卷积，得到低层次的语义特征，然后将编码器的特征进行上采样操作得到新特征，并进行叠加；再对叠加结果进行普通卷积操作，最后进行采样因子为4的上采样操作，得到预测结果。

6.根据权利要求1所述的一种结合卷积网络和邻域相似性的人像背景自动替换方法，其特征在于：在三分图中，人像区域的透明度为0，背景区域的透明度为1，边界区域的透明度未知，需要计算。

7.根据权利要求1所述的一种结合卷积网络和邻域相似性的人像背景自动替换方法，其特征在于：所述步骤(3.4)中的公式如下：