CN113989460A

CN113989460A - 用于增强现实场景的实时天空替换特效控制方法及装置

Info

Publication number: CN113989460A
Application number: CN202111215497.5A
Authority: CN
Inventors: 王欣捷; 吕清轩; 董军宇; 魏志强; 傅红波; 金小刚
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2021-10-19
Filing date: 2021-10-19
Publication date: 2022-01-28
Anticipated expiration: 2041-10-19
Also published as: CN113989460B

Abstract

本发明公开了用于增强现实场景的实时天空替换特效控制方法及装置，所述方法包括：利用移动设备摄像头获取视频帧图像；利用深度学习对每帧图像进行二值语义分割，得到粗略的天空区域掩码图；利用惯性传感器数据和每帧图像对天空区域掩码图进行细化和稳定；使用抠图算法为掩码图增加alpha值；利用最终的掩码图将虚拟场景与原视频帧图像进行混合，输出带有虚拟天空和其他虚拟三维物体的增强现实效果。通过本发明解决了在移动设备上无法实现高效实时的天空替换的问题，实现了增强现实中对天空替换效果的控制。

Description

用于增强现实场景的实时天空替换特效控制方法及装置

技术领域

本发明属于图像处理技术领域，涉及增强现实技术，特别涉及一种用于增强现实场景的实时天空替换特效控制方法及装置。

背景技术

增强现实(AR)技术的发展模糊了现实和虚拟世界之间的界限，而天空区域在日常环境中无处不在，对它的增强功能开始在AR应用中引起关注。例如，AR观星应用可以帮助用户通过交互式AR实时识别恒星、星座、行星等。天空替换问题是实现该功能的核心问题之一，也是最具有挑战性的问题。在移动AR应用中，我们期望用户用手机的摄像头举起手机就能获得实时的天空替换效果——天空区域被准确地分离出来，并被一个虚拟天空代替。此外，用户可以自由移动手机，以获得虚拟天空与现实混合的沉浸式体验。解决这个问题可以实现更多AR应用，如显示罕见的天文景观，展示幻想中的天体，直观地了解天气现象，创造烟花等。

为了实现图像或视频中的天空替换，可以利用抠图方法来提取每个单独视频帧的天空区域。然而，这些技术对实现我们的目标有局限性，因为(1)抠图方法往往需要用户互动；(2)抠图方法通常计算速度过慢，无法在实时状态下运行，特别是在移动设备上。除了抠图方法外，近年来出现了一些专门用于替换天空的视频编辑方法，然而，它们中的大多数都需要较高的算力，或者不支持实时运行。此外，上述这些方法都没有考虑到AR中的虚拟—真实世界融合，因为它们主要关注的是离线图像或视频。

因此，移动AR应用的实时天空替换问题带来了现有图像(视频)编辑方法所不具备的新挑战。首先，我们必须在移动处理器上以低延迟和低计算量提取天空区域。其次，我们要实现视频帧在时间上的一致性，这意味着提取的区域不能有明显的不稳定(抖动)。第三，我们希望最终的合成效果在视觉上足够美观，尤其是在天空和非天空区域的交界处不能出现明显的硬边缘。最后，我们必须确保该解决方案能够被有效地整合到一个实时的移动AR应用系统中。

目前还没有一种现有的方法能够在移动设备上以较低的计算量实现实时的天空替换，而且要保证较好的视觉效果。

发明内容

针对现有技术存在的不足，本发明提供一种用于增强现实场景的实时天空替换特效控制方法及装置，解决的技术问题是如何在算力有限的移动设备上快速而准确地实时提取相机画面中的天空区域。

为了解决上述技术问题，本发明采用的技术方案是：

首先，本发明提供一种用于增强现实场景的实时天空替换特效控制方法，包括以下步骤：

步骤101、利用移动设备摄像头获取视频帧图像；

步骤102、将视频帧图像降采样缩小图像大小，利用深度学习对每帧图像进行二值语义分割，得到粗略的天空区域掩码图；

步骤103、利用惯性传感器数据和每帧图像对粗略的天空区域掩码图进行细化和稳定；

步骤104、使用快速抠图算法为掩码图增加alpha值；

步骤105、将最终的掩码图上采样到原始视频帧图像大小，然后将虚拟场景与原视频帧图像进行混合，输出带有虚拟天空和其他虚拟三维物体的增强现实效果。

进一步的，步骤102中利用深度学习对每帧图像进行二值语义分割，得到粗略的天空区域掩码图，具体包括以下步骤：

步骤201、设计深度学习网络模型，该模型包含编码器和解码器，编码器减小特征图大小，解码器接收不同分辨率的特征并将它们融合在一起，最后采用softmax层进行语义分割结果的预测；

步骤202、采用小批量随机梯度下降法(mini-batch SGD)来优化网络，并设置参数；

步骤203、使用ADE20K和SkyFinder两个数据集进行网络模型的训练；在训练过程中，对数据集进行三个增强操作，包括随机翻转、随机选择和随机亮度，使网络模型能够更好地适应空间位置和亮度变化的天空特征；

步骤204、在PC平台上构建和训练上述网络模型，使用第三方推理引擎将网络模型部署到移动端设备中。

进一步的，步骤103的具体步骤如下：

步骤301、从网络模型中获取粗略的天空区域分割结果；

步骤302、设计基于时间一致性的约束，通过惯性传感器数据在视频的前一帧和当前帧之间进行像素级的对应，以优化天空区域中的错误分割结果；

步骤303、设计基于位置一致性的约束，通过惯性传感器数据识别地平线在设备取景框中的位置，消除那些在地平线以下误被识别为天空区域的错误像素；

步骤304、设计自适应的颜色一致性约束，利用天空区域的色彩特征和局部色彩特征来优化具有复杂边界的物体和靠近天空区域但与天空颜色明显不同的物体；

步骤305、将上述三个约束统一到表达式中，从而并行地实现像素级优化，提升计算效率。

进一步的，步骤302设计基于时间一致性的约束

t表示帧的序号，i表示像素的序号；使用单应矩阵H_Δt来获得第t-1帧和第t帧之间天空区域的像素级对应，公式如下：

其中K是相机投影或内在矩阵，R_t表示第t帧的旋转矩阵，

表示第t-1帧的旋转矩阵的逆，单应矩阵H_Δt能够将第t-1帧像素重新投影，使其与第t帧的像素对齐；

最后，计算约束

的时间一致性：在第t帧，每个像素

的计算方法如下：

其中下标为t-1的变量代表在第t-1帧中计算的值，并通过H_Δt进行重投影到第t帧；ε_temp是误差系数；

I为移动设备的相机帧彩色图像，f_i ^seg∈[0,1]代表从步骤301获得的网络模型输出的第i个像素的分割值，这个值表示一个像素是否为天空区域的概率，所有的f_i ^seg组成了一个向量f^seg，通过使用阈值0.5可以将f^seg进行二值分类，得到P^seg，P^seg是一个二维向量阵列，组成一张黑白图，即初步的天空分割掩码图。

进一步的，步骤303设计基于位置一致性的约束

该约束利用下列公式获得：

UV_i是帧的二维索引的UV坐标，UV_i.y表示帧的垂直方向；上述公式(3)表示通过KR_tK^-1转换UV坐标的y方向后，天空区域不允许出现在下部；smooth(x)∈[0,1]是平滑过渡函数。

进一步的，步骤304设计自适应的颜色一致性约束

时，用I^sky表示从I中复制的彩色图像，但只包含天空区域的像素，图像其他部分的颜色总是被设置为黑色；用N表示I、f^seg、P^seg和I^sky中所有像素的个数，用N^sky来表示属于天空区域的像素个数；

首先，需计算出天空区域的平均颜色c^sky＝(R,G,B)：使用一个具有k×k内核的像素均值滤波对图像进行降采样，得到均值，I^sky的均值

与P^seg的均值

为：

这两个值通过进行log_kN次均值滤波降采样获得，其总时间复杂度为O(klog_kN)；将上述等式代入c^sky的计算方程

中，可以得到：

该等式的计算复杂度同样为O(klog_kN)；

然后，设计自适应的颜色一致性约束

颜色一致性约束

的任务是评估一个像素是否更接近于天空的平均色c^sky，还是更接近于该像素邻近像素的平均色

即

这里R是用来选取周围像素的正方形区域ω的边长，引入变量

来表示像素的二值分类结果，

和

表示如下：

使用HSV空间来计算颜色距离函数D，ε_col是一个阈值，表示颜色一致性约束的有效范围。

进一步的，将如前所述的三个约束统一到表达式中，从而并行地实现像素级优化，提升计算效率；设最终输出的区域分类结果为P_i,t，则基于单个像素的约束表达式如下：

其中P_i,t和P_i,t-1分别表示最终优化后的像素二值分类结果。

为时间一致性约束，

为位置一致性约束，

与

为自适应的颜色一致性约束；

表示第t帧的像素二值分类结果，所有的P_i,t组成了最终优化后的第t帧的天空区域掩码图P_t。

本发明还提供一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行如前所述的用于增强现实场景的实时天空替换特效控制方法。

与现有技术相比，本发明优点在于：

本发明通过利用语义分割网络模型获得粗略的天空区域掩码图，利用惯性传感器数据和每帧图像对天空区域掩码图进行细化和稳定，使用快速抠图算法为掩码图增加alpha值，利用最终的掩码图将虚拟场景与原视频帧图像进行混合，输出带有虚拟天空和其他虚拟三维物体的增强现实效果，解决了在移动设备上无法实现高效实时的天空替换的问题，实现了增强现实中对天空替换效果的控制。

并且，通过本发明使用的时间一致性约束，提取的区域像素帧之间的抖动会被纠正，实现视频帧在时间上的一致性；通过本发明的位置一致性约束，可以消除那些在地平线以下误被识别为天空区域的错误像素；通过本发明的颜色一致性约束，最终的合成效果具有较好的视觉效果，尤其是天空和非天空区域的交界处，不会出现明显的硬边缘。通过本发明可以实现多种应用，如增强现实广告、超自然艺术、特殊天气演示等。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1的用于增强现实场景的实时天空替换特效控制方法的流程图；

图2为本发明实施例1的利用深度学习对每帧图像进行二值语义分割的流程图；

图3为本发明实施例1的利用惯性传感器数据和每帧图像对粗略的天空区域掩码图进行细化和稳定的示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

实施例1

本发明为了在增强现实场景中进行实时天空替换，首先以移动端设备的相机帧图像和惯性传感器(IMU)数据作为输入，并使用一个高效的、预训练的图像语义分割网络来估计天空区域，以获得粗略的掩码图。然后，使用IMU数据，通过不同的约束条件来完善该掩码图，以保持时间、位置和颜色的一致性。之后，利用抠图方法给掩码图增加更多的边缘细节和软过渡。最终，使用优化后的天空区域掩码图将虚拟场景与原视频帧图像进行混合，输出带有虚拟天空和其他虚拟三维物体的增强现实效果。

具体实施方法如图1所示的用于增强现实场景的实时天空替换特效控制方法的流程图，包括以下步骤：

步骤101、利用移动设备摄像头获取视频帧图像；

步骤102、将视频帧图像降采样到640*360，利用深度学习对每帧图像进行二值语义分割，得到粗略的天空区域掩码图；

步骤104、使用快速抠图算法为掩码图增加alpha值；

在此实施例中，所述步骤102中利用深度学习对每帧图像进行二值语义分割，得到粗略的天空区域掩码图，具体地，如图2所示，具体包括以下步骤：

步骤201、设计深度学习网络模型，该模型包含编码器和解码器，编码器不断将特征图的大小减少到原始输入图像的1/32，解码器接收不同分辨率的特征并将它们融合在一起，最后采用一个softmax层进行语义分割结果的预测，其中该网络模型的目标函数定义为交叉熵损失函数。

步骤202、采用小批量随机梯度下降法(mini-batch SGD)来优化网络，并设置参数；其中动量设置为0.9，权重衰减设置为为5e-4，每次迭代的批次大小设定为4。学习率策略中的初始率乘以

其中iter为迭代次数。

步骤203、使用ADE20K和SkyFinder两个数据集进行网络模型的训练；ADE20K(《Scene Parsing through ADE20K Dataset》)数据集包含了室内和室外的天空信息，以保证普适性。然而，由于缺乏不同天气条件下天空区域的视觉信息，限制了分割的识别能力。因此，使用SkyFinder(《SkyFinder:Attribute-Based Sky Image Search》)数据集来消除天气的影响。丢弃数据集中所有尺寸小于480*480的图像数据以适应网络模型的裁剪尺寸。

此外，在训练过程中，对数据集进行三个增强操作，包括随机翻转、随机选择和随机亮度，使网络模型能够更好地适应空间位置和亮度变化的天空特征。

例如可在PC平台上使用PyTorch(《Pytorch:An imperative style,high-performance deep learning library》)来构建和训练上述网络模型。完成训练后，利用第三方推理引擎MNN(《Mnn:A universal and efficient inference engine》)将网络模型部署到移动端设备中，将输入图像的分辨率设置为480*480或者640*360，在主流的移动端手机上可以达到实时的推理速度。

在此实施例中，所述步骤103利用惯性传感器数据和每帧图像对粗略的天空区域掩码图进行细化和稳定，具体地，如图3所示，具体步骤如下：

步骤301、从网络模型中获取粗略的天空区域分割结果。

设I为移动设备的相机帧彩色图像，也是本方法的一个输入变量。f_i ^seg∈[0,1]代表从网络模型输出的第i个像素的分割值，这个值表示一个像素是否为天空区域的概率，所有的f_i ^seg组成了一个向量f^seg，通过使用阈值0.5可以将f^seg进行二值分类，得到P^seg，P^seg是一个二维向量阵列，组成一张黑白图，即初步的天空分割掩码图。

步骤302、设计基于时间一致性的约束

这里t表示帧的序号，i表示像素的序号；通过惯性传感器(IMU)数据在视频的前一帧和当前帧之间进行像素级的对应，以优化天空区域中的错误分割结果，如对云的错误分割。

具体地，从用户的视角来看，天空区域可以被认为是无限远处；同时，手持设备的移动在短时间内是相对连续的，因此天空区域的运动位移可以在两个相邻的帧之间被忽略。基于

这些观察结果，使用单应矩阵H_Δt来获得第t-1帧和第t帧之间天空区域的像素级对应，公式如下：

其中K是相机投影(或内在)矩阵，R_t表示第t帧的旋转矩阵，

表示第t-1帧的旋转矩阵的逆，这两个矩阵可以很容易地从IMU数据中获得。单应矩阵H_Δt能够将第t-1帧像素重新投影，使其与第t帧的像素对齐。

最后，计算约束

的时间一致性：在第t帧，每个像素

的计算方法如下：

其中下标为t-1的变量代表表示在第t-1帧中计算的值，并通过H_Δt进行重投影到第t帧；在实践中，H_Δt直接作用于GPU上采样纹理的UV坐标。ε_temp是误差系数。上述方程的作用是在连续的帧之间尽可能地保持天空区域的分割结果一致性。

实验证明，由于网络模型输出的分割结果导致天空区域中一些假阴性像素带来了帧之间的抖动，在使用时间一致性约束后，这些像素会被纠正。

步骤303、设计基于位置一致性的约束

通过惯性传感器数据识别地平线在设备取景框中的位置，消除那些在地平线以下误被识别为天空区域的错误像素。

当使用者严格垂直手持设备时，天空区域不可能出现在相机取景器的下半部分，即地平线以下的区域(这里假定使用者站在或靠近地面，而不是在高空中)。然而，在实践中，设备的局部坐标系的垂直方向并不总是垂直于地面的，因为用户在拍摄时可能会自由地旋转设备。通过IMU数据可以获取重力的方向，从而估计地平线在取景器中的具体位置。从IMU数据中得到的旋转矩阵R_t实际上是从相机空间到世界空间的旋转矩阵，而相机投影矩阵K有助于将帧图像从本地相机坐标系转化为世界空间坐标系。该约束利用下列公式获得：

UV_i是帧的二维索引的UV坐标，UV_i.y表示帧的垂直方向；上述公式(3)表示通过KR_tK^-1转换UV坐标的y方向后，天空区域不允许出现在下部；smooth(x)∈[0,1]是平滑过渡函数，以避免产生锐利的边界。

在实践中，可以用smooth(x)＝0.5+0.5*tanh(20x)作为平滑过渡。实验证明，由不同IMU数据约束的对齐天空区域，即使用IMU数据来确定地平线的位置，地平线以下的区域永远不会有天空像素。并且，位置约束能对日常拍摄场景中假阳性像素进行修正，需要说明的是，该约束并不能对地平线以上的非天空物体(如树木和建筑，或者抬起设备往高处拍摄时遮挡了使用者的物体)进行修正。这些物体将在颜色一致性约束中被完善。

步骤304、设计自适应的颜色一致性约束

利用天空区域的色彩特征和局部色彩特征来优化具有复杂边界的物体和靠近天空区域但与天空颜色明显不同的物体。

在使用场景中，可能有一些靠近天空区域的物体具有复杂的边界，从而导致错误的分割结果。这些物体或像素不能被时间一致性或位置一致性约束所优化，因为它们往往靠近分割边界，这些像素不能被IMU数据所对齐，也不能被判断为地平线以下的区域。为了解决这个问题，使用自适应的颜色一致性约束，利用天空区域的色彩特征和局部色彩特征来改善那些与天空区域有明显不同颜色的像素。

为了清楚起见，需要引入一些记号。由于本约束与IMU数据无关，只讨论某一时刻的一帧数据的优化，可以忽略表示时间的下标t。I^sky表示从I中复制的彩色图像(I已经在前文中给出解释)，但只包含天空区域的像素(即图像其他部分的颜色总是被设置为黑色)。用N表示I、f^seg、P^seg和I^sky中所有像素的个数，因为这些图像在GPU中作为采样纹理时具有相同的尺寸。同样地，用N^sky来表示属于天空区域的像素个数。

首先，利用这些记号计算出天空区域的平均颜色c^sky＝(R,G,B)，这是一个三通道的颜色向量。不能简单地利用平均值公式

来计算，该公式的时间复杂度为O(N)，这样会导致计算效率非常低，无法实现实时计算。相反地，本实施例利用一种加速策略，基于均值滤波的思想，使用一个具有k×k内核的像素均值滤波对图像进行降采样，从而得到均值。

I^sky的均值

与P^seg的均值

为：

这两个值通过进行log_kN次均值滤波降采样获得，其总时间复杂度为O(klog_kN)；将上述等式代入c^sky的计算方程中，可以得到：

该等式的计算复杂度同样为O(klog_kN)。

然后，设计自适应的颜色一致性约束

颜色一致性约束

即

这里R是用来选取周围像素的正方形区域ω的边长，引入变量

来表示像素的二值分类结果，

和

表示如下：

使用HSV空间来计算颜色距离函数D，因为HSV模型更适合于人类对颜色相似性的感知(详见《Hue and Saturation in the RGB Color Space》一文)。ε_col是一个阈值，表示颜色一致性约束的有效范围。值得指出的是，这种简单的基于颜色的分类并不总能产生良好的优化效果，因此，用这种方法只优化那些fi_i ^seg的值在0.5左右的像素，而不是对整个图像产生影响。试验证明，图像中像素颜色的D值更接近于

时，这些像素会被成功地修改为正确的值；并且边界周围的颜色经过过颜色一致性约束的优化之后，这类错误就不那么明显了。

设最终输出的区域分类结果为P_i,t，则基于单个像素的约束表达式如下：

其中P_i,t和P_i,t-1分别表示最终优化后的像素二值分类结果。

为时间一致性约束，

为位置一致性约束，

与

为自适应的颜色一致性约束；

表示第t帧的像素二值分类结果，前文提到的P^seg是一个向量，因此带有下标i的

表示单个像素，t表示第t帧；所有的P_i,t组成了最终优化后的第t帧的天空区域掩码图P_t。

在此实施例中，所述使用快速抠图算法为掩码图增加alpha值，具体实施如下：

步骤401、在使用场景中，有些像素可能属于天空区域，也可能属于非天空区域。而P_t关注的是整体分类的正确性，但无法在区域的分割边界产生柔和过渡。这样的像素需要额外的alpha值，它们与边缘的形状有关。本实施例利用了一种高效的抠图方法GuidedImage Filtering来产生alpha值，该抠图方法是由He等人提出的，用于图像抠图、去噪等任务。Guided Image Filtering将本实施例优化后的天空区域掩码图作为输入，并产生带有额外alpha值的抠图结果。在实践中，使用这个方法的快速版本(《Fast guided filter》)来得到最终的掩码图Q＝G(I,P,ε_mat,R_mat,s_aat)。其中G(x)表示其引导滤波函数，ε_mat、R_mat和s_mat分别为正则化参数、滤波窗口的大小和下采样率，具体实现过程可参考作者的文章，此处不再赘述。这个并行步骤的逐像素时间复杂度为

实施例2

本发明还提供一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行如前实施例1所述的用于增强现实场景的实时天空替换特效控制方法，此处不再赘述。

本领域的技术人员应该明白，以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。