CN116797768A - 全景图像减少现实的方法和装置 - Google Patents
全景图像减少现实的方法和装置 Download PDFInfo
- Publication number
- CN116797768A CN116797768A CN202310603253.7A CN202310603253A CN116797768A CN 116797768 A CN116797768 A CN 116797768A CN 202310603253 A CN202310603253 A CN 202310603253A CN 116797768 A CN116797768 A CN 116797768A
- Authority
- CN
- China
- Prior art keywords
- layout
- image
- panoramic image
- features
- masked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 239000011159 matrix material Substances 0.000 claims abstract description 74
- 238000012545 processing Methods 0.000 claims abstract description 61
- 230000004927 fusion Effects 0.000 claims description 58
- 230000006870 function Effects 0.000 claims description 46
- 230000008439 repair process Effects 0.000 claims description 46
- 238000010586 diagram Methods 0.000 claims description 43
- 238000000605 extraction Methods 0.000 claims description 40
- 238000004590 computer program Methods 0.000 claims description 18
- 238000003860 storage Methods 0.000 claims description 17
- 238000007499 fusion processing Methods 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 9
- 230000000873 masking effect Effects 0.000 claims description 8
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 230000008485 antagonism Effects 0.000 claims description 5
- 230000008447 perception Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 description 16
- 238000011176 pooling Methods 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 8
- 230000009466 transformation Effects 0.000 description 8
- 230000003190 augmentative effect Effects 0.000 description 7
- 239000004973 liquid crystal related substance Substances 0.000 description 7
- 238000010606 normalization Methods 0.000 description 7
- 230000004913 activation Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 5
- 238000010276 construction Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000009877 rendering Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241001602688 Pama Species 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 230000003292 diminished effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000002910 structure generation Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
Abstract
本公开提供一种全景图像减少现实的方法和装置,应用于室内场景,包括:基于获取到的被掩码的布局边界图像、掩码图像、被掩码的全景图像,生成布局特征,布局特征表征原始的全景图像在布局层面的结构特征,基于获取到的被掩码的全景图像、原始的全景图像,生成室内场景的结构化区域对应的风格矩阵,风格矩阵表征结构化区域对应的结构语义信息,根据风格矩阵对预设的结构化掩码进行填充处理,得到结构化区域纹理特征,根据布局特征和结构化区域纹理特征进行全景图像修复处理,得到被掩码的全景图像对应的减少现实的预测图像,可以使得真实感修复能力与边界结构保持相结合,也可以在生成包括逼真的背景纹理的同时保留室内场景的结构。
Description
技术领域
本公开涉及图像处理技术领域,尤其涉及一种全景图像减少现实的方法和装置。
背景技术
减少现实是通过在全景图像上绘制待移除对象的蒙版区域,并在蒙版区域渲染物体后面场景的真值来实现的,这种渲染操作在图像处理术语中称为图像修复。
在现有技术中,图像修复主要为二维图像修复,且主要通过最近邻搜索或复制相关块来生成真实感纹理。
然而,当该方法应用于三维图像的修复时,修复后的图像的真实感相对较差。
发明内容
本公开提供一种全景图像减少现实的方法和装置,应用于室内场景,用以提高减少现实的有效性和可靠性。
第一方面,本公开提供一种全景图像减少现实的方法,应用于室内场景,所述方法包括:
基于获取到的被掩码的布局边界图像、掩码图像、被掩码的全景图像,生成布局特征,其中,所述布局特征表征原始的全景图像在布局层面的结构特征;
基于获取到的被掩码的全景图像、原始的全景图像,生成室内场景的结构化区域对应的风格矩阵,其中,所述风格矩阵表征所述结构化区域对应的结构语义信息;
根据所述风格矩阵对预设的结构化掩码进行填充处理,得到结构化区域纹理特征;
根据所述布局特征和所述结构化区域纹理特征进行全景图像修复处理,得到所述被掩码的全景图像对应的减少现实的预测图像。
在一些实施例中,基于获取到的被掩码的布局边界图像、掩码图像、被掩码的全景图像,生成布局特征,包括:
基于所述被掩码的布局边界图像、所述掩码图像、所述被掩码的全景图像,进行布局边界预测,得到边界布局图;
对所述边界布局图进行结构特征提取处理,得到布局边界特征;
根据所述布局边界特征、所述掩码图像、所述被掩码的全景图像,生成所述布局特征。
在一些实施例中,所述边界布局图是基于预先训练的布局边界预测模型得到的;所述布局边界预测模型包括依次连接的下采样卷积层、转换器块、转置卷积上采样卷积层。
在一些实施例中,所述布局边界特征是基于布局特征提取模型得到的;所述布局特征提取模型包括依次连接的下采样门控卷积层、扩张卷积残差块、上采样门控卷积层。
在一些实施例中,所述被掩码的布局边界图像是对所述原始的全景图像中的目标对象进行预测得到的曼哈顿布局边界,并对所述曼哈顿布局边界进行掩码处理得到的;
其中,所述目标对象包括墙壁、天花板、地板。
在一些实施例中,所述曼哈顿布局边界是基于预先训练的布局结构图像生成模型确定的,所述布局结构图像生成模型包括依次连接的编码器和解码器,所述编码器的输入为所述原始的全景图像,所述解码器的输出为曼哈顿布局边界。
在一些实施例中,所述编码器包括卷积层、以及分别与所述卷积层的输出连接的噪声线性整流函数和池化层;
所述解码器包括上采样层、以及与所述上采样层的输出依次连接的卷积层和激活层。
在一些实施例中,基于获取到的被掩码的全景图像、原始的全景图像,生成室内场景的结构化区域对应的风格矩阵,包括:
根据所述目标对象,对所述被掩码的全景图像进行结构化分割处理,得到包括所述目标对象对应的结构化区域的结构化区域图;
根据所述结构化区域图的结构语义信息,构建所述风格矩阵。
在一些实施例中,所述结构化区域图是基于预先训练的结构编码器对所述被掩码的全景图像进行处理得到的;所述结构编码器包括跳跃连接的下采样卷积层和上采样卷积层。
在一些实施例中,所述风格矩阵是基于预先训练的语义先验编码器对所述结构化区域图和所述原始的全景图像进行处理得到的;所述语义先验编码器包括依次连接的卷积层、转置卷积层、平均池化层。
在一些实施例中,根据所述风格矩阵对预设的结构化掩码进行填充处理,得到结构化区域纹理特征,包括:
根据所述风格矩阵、预设的高斯噪声、所述布局特征、所述结构化掩码进行局部特征提取处理,得到初始局部纹理;
根据所述风格矩阵对所述掩码图像对应的修复区域的初始局部纹理进行修复,得到所述结构化区域纹理特征。
在一些实施例中,所述结构化区域纹理特征是基于预先训练的残差网络模型生成的,所述残差网络模型的输入为所述风格矩阵、预设的高斯噪声、所述布局特征、所述结构化掩码;所述残差网络模型包括卷积层,所述残差网络模型的卷积层包括依次连接的构建模块、噪声线性整流函数、卷积核。
在一些实施例中,根据所述布局特征和所述结构化区域纹理特征进行全景图像修复处理,得到所述被掩码的全景图像对应的减少现实的预测图像,包括:
对所述布局特征进行卷积处理,得到第一卷积布局特征;
将所述第一卷积布局特征和所述结构化区域纹理特征进行融合处理,得到组合特征;
对所述布局特征进行卷积处理,得到第二卷积布局特征,并对所述布局特征进行全局特征提取处理,得到全局特征;
对所述第二卷积布局特征和所述全局特征进行融合处理,得到频域布局特征;
对所述组合特征和所述频域布局特征进行融合处理,得到所述预测图像。
在一些实施例中,所述预测图像是基于预先训练的傅里叶卷积融合模型对所述布局特征和所述结构化区域纹理特征进行处理得到的;所述傅里叶卷积融合模型包括下采样卷积层、傅里叶卷积融合层、上采样卷积层、光谱变换块、融合模块。
在一些实施例中,所述预测图像是基于预先训练的修复网络模型生成的,所述修复网络模型的输入为所述边界布局图、所述掩码图像、所述被掩码的全景图像;
所述修复网络模型是基于融合损失函数训练得到的,所述融合损失函数是对绝对误差损失函数、对抗性损失函数、高级合成感知损失函数进行融合得到的。
第二方面,本公开提供一种全景图像减少现实的装置,应用于室内场景,所述装置包括:
第一生成单元,用于基于获取到的被掩码的布局边界图像、掩码图像、被掩码的全景图像,生成布局特征,其中,所述布局特征表征原始的全景图像在布局层面的结构特征;
第二生成单元,用于基于获取到的被掩码的全景图像、原始的全景图像,生成室内场景的结构化区域对应的风格矩阵,其中,所述风格矩阵表征所述结构化区域对应的结构语义信息;
填充单元,用于根据所述风格矩阵对预设的结构化掩码进行填充处理,得到结构化区域纹理特征;
修复单元,用于根据所述布局特征和所述结构化区域纹理特征进行全景图像修复处理,得到所述被掩码的全景图像对应的减少现实的预测图像。
在一些实施例中,所述第一生成单元,包括:
预测子单元,用于基于所述被掩码的布局边界图像、所述掩码图像、所述被掩码的全景图像,进行布局边界预测,得到边界布局图;
提取子单元,用于对所述边界布局图进行结构特征提取处理,得到布局边界特征;
生成子单元,用于根据所述布局边界特征、所述掩码图像、所述被掩码的全景图像,生成所述布局特征。
在一些实施例中,所述边界布局图是基于预先训练的布局边界预测模型得到的;所述布局边界预测模型包括依次连接的下采样卷积层、转换器块、转置卷积上采样卷积层。
在一些实施例中,所述布局边界特征是基于布局特征提取模型得到的;所述布局特征提取模型包括依次连接的下采样门控卷积层、扩张卷积残差块、上采样门控卷积层。
在一些实施例中,所述被掩码的布局边界图像是对所述原始的全景图像中的目标对象进行预测得到的曼哈顿布局边界,并对所述曼哈顿布局边界进行掩码处理得到的;
其中,所述目标对象包括墙壁、天花板、地板。
在一些实施例中,所述曼哈顿布局边界是基于预先训练的布局结构图像生成模型确定的,所述布局结构图像生成模型包括依次连接的编码器和解码器,所述编码器的输入为所述原始的全景图像,所述解码器的输出为曼哈顿布局边界。
在一些实施例中,所述编码器包括卷积层、以及分别与所述卷积层的输出连接的噪声线性整流函数和池化层;
所述解码器包括上采样层、以及与所述上采样层的输出依次连接的卷积层和激活层。
在一些实施例中,所述第二生成单元,包括:
分割子单元,用于根据所述目标对象,对所述被掩码的全景图像进行结构化分割处理,得到包括所述目标对象对应的结构化区域的结构化区域图;
构建子单元,用于根据所述结构化区域图的结构语义信息,构建所述风格矩阵。
在一些实施例中,所述结构化区域图是基于预先训练的结构编码器对所述被掩码的全景图像进行处理得到的;所述结构编码器包括跳跃连接的下采样卷积层和上采样卷积层。
在一些实施例中,所述风格矩阵是基于预先训练的语义先验编码器对所述结构化区域图和所述原始的全景图像进行处理得到的;所述语义先验编码器包括依次连接的卷积层、转置卷积层、平均池化层。
在一些实施例中,所述填充单元,包括:
第一处理子单元,用于根据所述风格矩阵、预设的高斯噪声、所述布局特征、所述结构化掩码进行局部特征提取处理,得到初始局部纹理;
修复子单元,用于根据所述风格矩阵对所述掩码图像对应的修复区域的初始局部纹理进行修复,得到所述结构化区域纹理特征。
在一些实施例中,所述结构化区域纹理特征是基于预先训练的残差网络模型生成的,所述残差网络模型的输入为所述风格矩阵、预设的高斯噪声、所述布局特征、所述结构化掩码;所述残差网络模型包括卷积层,所述残差网络模型的卷积层包括依次连接的构建模块、噪声线性整流函数、卷积核。
在一些实施例中,所述修复单元,包括:
卷积子单元,用于对所述布局特征进行卷积处理,得到第一卷积布局特征;
第一融合子单元,用于将所述第一卷积布局特征和所述结构化区域纹理特征进行融合处理,得到组合特征;
第二处理子单元,用于对所述布局特征进行卷积处理,得到第二卷积布局特征,并对所述布局特征进行全局特征提取处理,得到全局特征;
第二融合子单元,用于对所述第二卷积布局特征和所述全局特征进行融合处理,得到频域布局特征;
第三融合子单元,用于对所述组合特征和所述频域布局特征进行融合处理,得到所述预测图像。
在一些实施例中,所述预测图像是基于预先训练的傅里叶卷积融合模型对所述布局特征和所述结构化区域纹理特征进行处理得到的;所述傅里叶卷积融合模型包括下采样卷积层、傅里叶卷积融合层、上采样卷积层、光谱变换块、融合模块。
在一些实施例中,所述预测图像是基于预先训练的修复网络模型生成的,所述修复网络模型的输入为所述边界布局图、所述掩码图像、所述被掩码的全景图像;
所述修复网络模型是基于融合损失函数训练得到的,所述融合损失函数是对绝对误差损失函数、对抗性损失函数、高级合成感知损失函数进行融合得到的。
第三方面,本公开提供一种处理器可读存储介质,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使所述处理器执行如第一方面所述的方法。
第四方面,本公开提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如第一方面所述的方法。
第五方面,本公开提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面所述的方法。
本公开提供的全景图像减少现实的方法和装置,应用于室内场景,包括:基于获取到的被掩码的布局边界图像、掩码图像、被掩码的全景图像,生成布局特征,其中,布局特征表征原始的全景图像在布局层面的结构特征,基于获取到的被掩码的全景图像、原始的全景图像,生成室内场景的结构化区域对应的风格矩阵,其中,风格矩阵表征结构化区域对应的结构语义信息,根据风格矩阵对预设的结构化掩码进行填充处理,得到结构化区域纹理特征,根据布局特征和结构化区域纹理特征进行全景图像修复处理,得到被掩码的全景图像对应的减少现实的预测图像,在本实施例中,通过生成表征原始的全景图像在布局层面的结构特征的布局特征、以及表征结构化区域对应的结构语义信息的风格矩阵,以基于风格矩阵填充得到结构化区域纹理特征,并基于布局特征和结构化区域纹理特征进行修复,得到预测图像的技术特征,可以使得真实感修复能力与边界结构保持相结合,更好地恢复场景结构,也可以探索结构与纹理之间的互补性,从而在生成包括逼真的背景纹理的背景图像的同时保留室内场景的结构,即可以提高预测图像的准确性和可靠性,使得预测图像中的待移除对象的背景图像可以高度还原真实场景的图像。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为相关技术中室内场景的全景图像DR的实现原理;
图2为本公开一个实施例的全景图像减少现实的方法的示意图;
图3为本公开的另一实施例的全景图像减少现实的方法的示意图;
图4为本公开的实施例的全景图像减少现实的方法的原理示意图;
图5为本公开的实施例的结构化区域纹理提取模型的原理示意图;
图6为本公开的实施例的傅里叶卷积融合模型的原理示意图;
图7为本公开的实施例的技术方案与相关技术中的技术方案的效果比对结果示意图;
图8为本公开的实施例的技术方案与相关技术中的技术方案的指标比对结果示意图;
图9为本公开的实施例的技术方案与相关技术中的技术方案的效果比对结果示意图;
图10为本公开实施例的全景图像减少现实的装置的示意图;
图11为用来实施本公开实施例的全景图像减少现实的方法的电子设备的示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
应该理解的是,本公开实施例中术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的那些组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
本公开实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本公开实施例中术语“多个”是指两个或两个以上,其它量词与之类似。
本公开中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明(Unless otherwiseindicated)。应该理解这样使用的用语在适当情况下可以互换,例如能够根据本公开实施例图示或描述中给出那些以外的顺序实施。
本公开中使用的术语“单元/模块”,是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。
为便于读者对本公开地理解,现对本公开所涉及的至少部分术语解释如下:
增强现实(Augmented Reality,AR)是一种利用计算机技术和图形学方法,将虚拟物体添加到现实世界中,使其存在于同一图像或空间中的实时交互式可视化方法。
混合现实技术(Mixed Reality,MR)是虚拟现实技术的进一步发展,该技术通过在虚拟环境中引入现实场景信息,在虚拟世界、现实世界和用户之间搭起一个交互反馈的信息回路,以增强用户体验的真实感。
深度学习(Deep Learning,DL)是机器学习(Machine Learning,ML)领域中一个子领域,是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。
减少现实(Diminished Reality,DR)是指,将现实世界中的物理对象从用户的视觉感知中移除。
图像修复是指,通过在全景图像上绘制待移除对象的蒙版区域,并在蒙版区域渲染物体后面场景的真实值来实现的渲染操作。
其中,AR作为室内设计展示的一种重要方法,可以帮助用户直观地了解室内的整体空间的位置关系和大小。用户可以将设计好的室内场景模型放入相应的现实世界或根据被设计的室内场景空间拍摄的全景图像中,并且可以将相应的虚拟对象(如家具)移动到现实场景中合适的位置,从而在现实世界中体验虚拟设计效果。
通常情况下,室内场景是布置好的,一些现有的真实对象会在设计过程中被替换。在这种情况下,虚拟对象与真实对象有部分重叠,真实对象无法被虚拟对象完全覆盖,因此AR的效果会大大减弱,而且将室内场景中的所有真实对象搬走也是不太实际的。
因此,除了在现实场景中添加虚拟对象外,将现实场景中的真实对象进行虚拟移除也是非常重要的,这一过程被称为DR。现实场景的DR应用可以在感知环境的同时隐藏、消除和透视对象。与AR和MR将虚拟对象添加到现实场景相比,DR需要检测不需要的真实对象,并在生成的图像中用隐藏的背景替换它们。在室内场景中,最基本的操作包括移除室内杂物(如家具和其他非永久性物体),被移除的室内杂物可以通过交互掩码来定义或通过语义和实例分割来定义。
在相关技术中,可以通过重投影的方法合成隐藏的背景图像,然而,这种方法使用同一场景的不同视点的多个摄像机观测来生成背景图像,但针对室内场景,待移除对象背后的背景是未知的。例如,待移除对象-家具通常是靠墙壁放置,无论从什么角度看,家具的背景都是被遮挡的,所以多摄像头的方式无法实现室内场景下的背景图像还原。
也可以采用合理生成的方法生成背景图像,而不是恢复真实的背景图像。例如,可以分析待移除对象的附近区域,以从附近区域的图像中恢复待移除对象的背景图像。然而,该类方法通常局限于小的去除区域和规则场景。
相对而言,在室内场景中,室内场景的结构推理对DR很重要,它不仅改善了纹理重投影和视差效果,而且为图像编辑操作提供了基础。
示例性的,图1为相关技术中室内场景的全景图像DR的实现原理。其中,目标图像(Target image)为需要待移除对象对应的图像;目标掩码(Target mask)可以附加到原始的全景图像(Orginal image),以将目标图像变为目标掩码;结构化区域(Source are)是从结构上对原始的全景图像进行划分得到的多个区域,如墙壁对应的区域、天花板对应的区域、地板对应的区域;结构化掩码(Source mask),期望使用结构化区域的纹理特征,对结构化掩码对应的结构区域进行填充,从而得到DR预测图像(Diminished image)。
结合上述分析可知,相关技术可以采用二维图像修复方法得到背景图像,且主要通过最近邻搜索或复制相关块来生成真实纹理。在大区域纹理重复的情况下,破损图像可以进行逼真的修复。随着深度学习的发展,该修复任务被建模为学习受损图像与输入原始未受损图像间的函数映射的条件生成。其中,可以采用语义和结构等条件信息来辅助修补任务,如线条、边缘和近似图像等。
例如,基于深度学习的图像修补方法将边缘(canny)等信息作为重要的先验信息进行。又如,考虑到边缘保持结构生成的重要性,基于对抗边缘学习的生成图像修复方法(EdgeConnect)将图像修补问题分为结构预测和图像补全两部分,并以边缘映射的形式对缺失区域的图像结构进行预测。又如,增量结构增强型修复模型(ZITS)将辅助信息增量地添加到训练后的修复模型中,无需再训练。又如,门控卷积(GateConv)方法从大量的例子中自动学习掩码,支持用户使用自由形式的掩码作为输入来指导修复。又如,马尔可夫(Markov)对抗网络提出了一种训练有效纹理合成的方法,该方法反映了不同尺度下特征融合的重要性。又如,基于傅里叶卷积的鲁棒分辨率大掩码修复(LaMa)提出了一种基于傅里叶卷积的高分辨率鲁棒大掩模修复方法,该方法增加了修复网络和损失函数的接受域,可以在较大空白区域修复图像。
然而,上述方法为二维图像修复方法,而全景图像是等距投影(ERP)的,因此,将上述方法应用于全景图像的修复时,会由于等矩形投影而引起两级失真问题,即上述方法不能直接应用于全景图像的修复任务。
在基于全景图像的修复任务中,室内场景的减少现实(PanoDR)通过预测室内的结构来引导同一场景中背景图像的生成,达到背景图像重建的目的。
例如,室内场景即时自动清空方法(Instant)基于全场景与空场景的几何差异,采用端到端的方法计算图像中杂波的注意掩码,该注意掩码通过门控卷积传播,门控卷积驱动输出图像及其深度的生成。又如,基于立方体地图的360度全景图像修复网络(PIINET)通过立方体映射和等矩形投影之间的转换,将二维图像的修补方法应用于全景图像。
随着消费级360度摄像头的普及,单镜头就可以实现低成本、高质量的场景捕捉,这也推动了室内场景的理解领域的发展。用于全景场景理解的全屋三维(3D)上下文模型(PanoContext)使用球形全景图像估计室内场景(如房间)布局,可以实现从单视角重建室内场景。除了对室内场景的结构理解外,全景图像还提供了对整体场景的语义内容的理解,如语义分割。考虑到场景理解对场景重建的重要性,PanoDR将全景图像语义先验信息应用于图像修复,有助于恢复完整的曼哈顿边界。
DR也可以看作是一个图像转换任务,因为它将全景图像中室内场景的纹理部分映射到蒙版区域部分。在这种情况下,视觉内容和风格的保存是非常重要的。例如,可以将条件生成对抗网络(Gans)作为迁移问题的通用解决方案,其中,语义合成可以使用语义标记,根据语义映射重建图像,保留类之间的边界。然而,由于归一化层倾向于模糊语义输入,所以在由堆叠卷积、归一化和非线性层构建的深层中保存语义信息是困难的,因此,可以引入空间自适应归一化,其中,输入映射通过空间自适应学习转换调节归一化层中的激活。进一步的,可以引入逐区域的风格矩阵,并允许用户为每个语义区域选择不同风格的输入图像。PanoDR将上述方法应用于室内场景的全景图像,如可以基于像素级语义先验将每个像素映射到天花板、墙壁和地板等类型,同时利用构建模块(SEAN)对进行修复。
然而,上述方法可以在二维图像中学习有意义的语义,并为缺失区域生成连贯的结构和纹理,但产生的背景图像缺乏真实感。对于全景图像的等矩形投影算法存在结构失真问题,导致结构难以恢复。此外,由于全景图像具有全向性,即不同方向之间具有连续关系,因此,这将导致平滑的边界和将全景图像转换为二维图像进行修复时产生纹理伪影。
为了避免上述技术问题,本公开提出了经创造性劳动的技术构思:在二维图像修复网络的基础上,为学习室内场景的全景图像的整体结构,基于预先训练的结构恢复模块提取结构布局特征,以使得真实感修复能力与边界结构保持相结合,更好地恢复场景结构;然后为了保持生成区域纹理与全景图像的其他区域纹理一致性,基于结构化区域纹理提取模块聚合局部纹理特征以恢复被移除物体区域;且基于傅里叶卷积融合模块融合局部纹理特征和结构布局特征,以探索结构与纹理之间的互补性,从而在生成逼真的背景纹理的同时保留室内场景的结构。
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,并不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
基于上述技术构思,本公开提供了一种全景图像减少现实的方法,可以应用于室内场景。
请参阅图2,图2为本公开一个实施例的全景图像减少现实的方法的示意图,如图2所示,该方法包括:
S201:基于获取到的被掩码的布局边界图像、掩码图像、被掩码的全景图像,生成布局特征,其中,布局特征表征原始的全景图像在布局层面的结构特征。
示例性的,本实施例的执行主体可以为全景图像减少现实的装置,该装置可以为服务器,也可以为终端设备,也可以为处理器,也可以为芯片,等等,此处不再一一列举。本实施例以服务器为例进行示范性地阐述。
例如,若装置为服务器,则装置具体可以为云端服务器,也可以为本地服务器;装置具体可以为独立的服务器,也可以为服务器集群,本实施例不做限定。
其中,被掩码的布局边界图像为对曼哈顿布局边界进行掩码而得到的图像,曼哈顿布局边界为用于表征原始的全景图像的布局边界,在室内场景中,曼哈顿布局边界可以理解为墙壁对墙壁的边界,天花板对墙壁的边界,墙壁对地板的边界。
掩码图像为包括掩码的图像。被掩码的全景图像为基于掩码图像对原始的全景图像进行掩码而得到的图像。原始的全景图像为未被掩码的图像,即为拍摄到的室内场景的三维图像。
布局特征表征的是结构特征,且具体为原始的全景图像在布局层面的结构特征,如原始的全景图像在墙壁、天花板、地板的布局层面的结构特征。其中,结构特征可以理解为符合曼哈顿布局的边界特征。
应该理解的是,本实施例对获取被掩码的布局边界图像、掩码图像、被掩码的全景图像的方式不做限定,例如:
一个示例中,服务器可以与采集装置连接,并接收由采集装置发送的被掩码的布局边界图像、掩码图像、被掩码的全景图像。
另一个示例中,服务器可以提供载入图像的工具,用户可以通过该载入图像的工具将被掩码的布局边界图像、掩码图像、被掩码的全景图像传输至服务器。
其中,载入图像的工具可以为用于与外接设备连接的接口,如用于与其他存储设备连接的接口,通过该接口获取外接设备传输的被掩码的布局边界图像、掩码图像、被掩码的全景图像;载入图像的工具也可以为显示装置,如服务器可以在显示装置上输入载入图像功能的界面,用户可以通过该界面将被掩码的布局边界图像、掩码图像、被掩码的全景图像导入至服务器。
S202:基于获取到的被掩码的全景图像、原始的全景图像,生成室内场景的结构化区域对应的风格矩阵,其中,风格矩阵表征结构化区域对应的结构语义信息。
结合上述分析,结构化区域可以理解室内场景中的不同目标对象各自对应的区域,目标对象包括墙壁、天花板、地板,也就是说,结构化区域可以包括墙壁对应的区域、天花板对应的区域、地板对应的区域。
相应的,结构语义信息可以理解为结构化区域在目标对象的类型的语义的信息。风格矩阵可以进一步理解为结构化区域在目标对象的类型的维度的风格代码,如墙壁对应的风格矩阵表征墙壁在结构上的风格代码,天花板对应的风格矩阵表征天花板在结构上的风格代码,地板对应的风格矩阵表征地板在结构上的风格代码。
同理,关于获取被掩码的全景图像、原始的全景图像的方式,可以参见上述示例的实现原理,此处不再赘述。
S203:根据风格矩阵对预设的结构化掩码进行填充处理,得到结构化区域纹理特征。
本实施例对结构化掩码的内容不做限定,例如,可以基于需求、历史记录、以及试验等方式确定。
基于上述分析可知,风格矩阵可以用于表征多个结构化区域各自对应的结构语义信息,则在该步骤中,可以基于该风格矩阵对结构化掩码中各结构化区域各结构化掩码进行填充处理,从而得到结构化区域纹理特征。
以风格矩阵包括墙壁对应的风格矩阵为例,可以基于墙壁对应的结构语义信息(即墙壁对应的风格矩阵,进一步可以为墙壁对应的风格代码)对结构化掩码中墙壁对应的掩码进行填充处理,从而得到结构化区域纹理特征中与墙壁对应的结构化区域纹理特征。
S204:根据布局特征和结构化区域纹理特征进行全景图像修复处理,得到被掩码的全景图像对应的减少现实的预测图像。
示例性的,在得到布局特征和结构化区域纹理特征之后,可以基于布局特征和结构化区域纹理特征对待移除对象的背景图像进行修复预测,从而得到包括被待移除对象的背景图像的预测图像,即预测图像中包括待移除对象的背景图像,还包括非待移除对象的背景图像。
基于上述分析可知,本公开提供了一种全景图像减少现实的方法,该方法可以应用于室内场景,该方法包括:基于获取到的被掩码的布局边界图像、掩码图像、被掩码的全景图像,生成布局特征,其中,布局特征表征原始的全景图像在布局层面的结构特征,基于获取到的被掩码的全景图像、原始的全景图像,生成室内场景的结构化区域对应的风格矩阵,其中,风格矩阵表征结构化区域对应的结构语义信息,根据风格矩阵对预设的结构化掩码进行填充处理,得到结构化区域纹理特征,根据布局特征和结构化区域纹理特征进行全景图像修复处理,得到被掩码的全景图像对应的减少现实的预测图像,在本实施例中,通过生成表征原始的全景图像在布局层面的结构特征的布局特征、以及表征结构化区域对应的结构语义信息的风格矩阵,以基于风格矩阵填充得到结构化区域纹理特征,并基于布局特征和结构化区域纹理特征进行修复,得到预测图像的技术特征,可以使得真实感修复能力与边界结构保持相结合,更好地恢复场景结构,也可以探索结构与纹理之间的互补性,从而在生成包括逼真的背景纹理的背景图像的同时保留室内场景的结构,即可以提高预测图像的准确性和可靠性,使得预测图像中的待移除对象的背景图像可以高度还原真实场景的图像。
结合上述分析可知,可以基于深度学习的方式修复得到被移除对象的背景图像,本公开也可以采用深度学习的方式获取预测图像,为了便于读者更深刻地理解本公开的实现原理,现结合图3至图9对本公开的全景图像减少现实的方法进行详细阐述。
其中,图3为本公开的另一实施例的全景图像减少现实的方法的示意图,该方法可以应用于室内场景,如图3所示,该方法包括:
S301:从获取到的原始的全景图像中,预测得到曼哈顿布局边界,并对曼哈顿布局边界进行掩码处理,得到被掩码的布局边界图像。
应该理解的是,为了避免繁琐地陈述,关于本实施例与上述实施例中相同或相似的技术特征,本实施例不再赘述。
例如,关于获取原始的全景图像的实现方式,可以参见上述示例。又如,关于本实施例的执行主体,可以参见上述示例。
示例性的,被掩码的布局边界图像是对原始的全景图像中的目标对象进行预测得到的曼哈顿布局边界,并对曼哈顿布局边界进行掩码处理得到的,其中,目标对象包括墙壁、天花板、地板。
例如,原始的全景图像中包括房间,则可以从原始的全景图像中预测房间的曼哈顿布局边界。
在一些实施例中,曼哈顿布局边界是基于预先训练的布局结构图像生成模型确定的,布局结构图像生成模型包括依次连接的编码器和解码器,编码器的输入为原始的全景图像,解码器的输出为曼哈顿布局边界。
本实施例对布局结构图像生成模型的训练方式不做限定,例如,可以获取样本数据,以基于样本数据对基础网络模型进行训练,以训练基础网络模型学习预测曼哈顿布局边界的能力,从而得到布局结构图像生成模型。
在一些实施例中,编码器包括卷积层、以及分别与卷积层的输出连接的噪声线性整流函数(ReLU)和池化层。解码器包括上采样层、以及与上采样层的输出依次连接的卷积层和激活层(Sigmoid)。
示例性的,布局结构图像生成模型可以采用布局网络(LayoutNet),LayoutNet包括编码器和解码器,编码器的输入为原始的全景图像,编码器可以通过6通道使用对齐方法将分辨率为512x1024(透视图为512x512)的原始的全景图像与位于三个正交消失方向上的曼哈顿线段特征图拼接在一起。
其中,编码器包含7层卷积核为3x3的卷积层,每个卷积层后跟一个ReLU操作和一个下采样因子为2的(最大)池化层。第一个卷积层可以包含32个原始的全景图像的图像特征,在每次卷积层后将尺寸加倍,确保从高分辨率的原始的全景图像中更好地学习图像特征。
解码器可以为布局边界图预测器,布局边界图预测器的输入为编码器输出的图像特征,输出为边曼哈顿布局边界。曼哈顿布局边界可以包括原始的全景图像中的墙壁对墙壁、天花板对墙壁、墙壁对地板的边界的三通道概率预测,包括可见边界和遮挡边界。
解码器可以包括7层最近邻上采样层,每层最近邻上采样层的输出可以连接一个卷积核大小为3x3的卷积层,最后一层是Sigmoid,可以向每个卷积层添加跳跃连接,以防止最近邻上采样层的上采样操作的预测结果发生偏移。
S302:基于被掩码的布局边界图像、掩码图像、被掩码的全景图像,进行布局边界预测,得到边界布局图。
在一些实施例中,边界布局图是基于预先训练的布局边界预测模型得到的;布局边界预测模型包括依次连接的下采样卷积层、转换器(Transformer)块、转置卷积上采样卷积层。布局边界预测模型的输入为被掩码的布局边界图像、掩码图像、被掩码的全景图像,输出为边界布局图。
示例性的,布局边界预测模型可以采用Transformer作为主干网络,以即便是在输入的图像为较低分辨率下的情况下,主干网络Transformer也可以恢复被遮挡的边界布局图。
如图4所示,布局边界预测模型的输入为被掩码的布局边界图像(Masked layoutLm)、掩码图像(M sk M)、被掩码的全景图像(Masked image Im),布局边界预测模型包括3层(如图3所示的×3,后文类似描述不再赘述)下采样卷积层(Conv-layers)、8层Transformer块(blocks)、3层转置卷积上采样卷积层(TConv-layers)。为减少注意力学习的计算负担,拼接后的被掩码的布局边界图像、掩码图像、被掩码的全景图像的映射被送入3层卷积生成下采样层进行下采样,而后送入Transformer块,以由Transformer块恢复下采样后的特征,最后利用3层转置卷积上采样卷积层将恢复特征进行上采样,得到边界布局图(Restored layout Rm)。
在Transformer块中,可以交替使用轴向注意力机制和标准注意力机制来克服标准注意力的二次复杂度问题,并在每个轴向注意力块中使用位置编码。3层转置卷积上采样卷积层可以上采样到512x256的分辨率,以生成完整的边界布局图。
S303:对边界布局图进行结构特征提取处理,得到布局边界特征。
在一些实施例中,布局边界特征是基于布局特征提取模型得到的;布局特征提取模型包括依次连接的下采样门控卷积层、扩张卷积残差块、上采样门控卷积层。其中,布局特征提取模型的输入为边界布局图,输出为布局边界特征。
如图4所示,布局特征提取模型包括3层下采样门控卷积层(GateConvDownsample)、3层扩张卷积残差块和3层上采样门控卷积层(GateConv Upsample)。其中,下采样门控卷积层可以理解为编码器,上采样门控卷积层可以理解为解码器,门控卷积层可以选择性地传递有用的特征。
其中,在布局结构图像生成模型、布局边界预测模型、布局特征提取模型相互结合的情况下,可以解决相关技术中由于室内场景的全景图像两级失真带来的布局结构扭曲问题,提取室内场景的布局边界特征,以用于后续在同一室内场景下的移除对象后的背景图像的重建,保证生成真实的室内场景的布局结构。
相应的,在一些实施例中,如图4所示,我们可以将具有布局结构图像生成模型、布局边界预测模型、布局特征提取模型各自对应的功能的模型称为结构修复模型(Structurerestoration module,SRM)。即结构修复模型包括依次连接布局结构图像生成模型、布局边界预测模型、布局特征提取模型。
在训练结构修复模型时,可以采用“整体训练”的方式,也可以采用“分体训练”的方式,本实施例不做限定。“整体训练”的方式可以理解为将布局结构图像生成模型、布局边界预测模型、布局特征提取模型作为一个整体进行训练。“分体训练”的方式可以理解为分别训练布局结构图像生成模型、布局边界预测模型、布局特征提取模型。
S304:根据布局边界特征、掩码图像、被掩码的全景图像,生成布局特征。
如图4所示,可以对掩码图像和被掩码的全景图像进行级联,而后与布局边界特征进行融合(如相加的操作),而后进行下采样,从而得到布局特征,下采样具体可以采用如图4所示的3层下采样层实现。
S305:根据室内场景中的目标对象,对被掩码的全景图像进行结构化分割处理,得到包括目标对象对应的结构化区域的结构化区域图。
在一些实施例中,结构化区域图是基于预先训练的结构编码器对被掩码的全景图像进行处理得到的;结构编码器包括跳跃连接的下采样卷积层和上采样卷积层。
示例性的,目标对象包括墙壁、天花板、地板,则结构编码器可以将室内场景分割成包括3个结构化区域(包括墙壁对应的结构化区域、天花板对应的结构化区域、地板对应的结构化区域)的结构化区域图。
如图5所示,结构编码器(Structure Encoder)的输入为被掩码的全景图像,输出为结构化区域图(Structure region S)。其中,结构编码器包括跳跃连接的4层下采样卷积层和4层上采样卷积层,可以采用归一化和ReLU执行激活操作。
S306:根据结构化区域图的结构语义信息,构建风格矩阵。
在一些实施例中,风格矩阵是是基于预先训练的语义先验编码器对结构化区域图和原始的全景图像进行处理得到的;语义先验编码器包括依次连接的卷积层、转置卷积层、平均池化层。
如图5所示,语义先验编码器(Semantic prior encoder)的输入为结构化区域图和原始的全景图像,输出为512x3维的风格矩阵(Style matrix),3表示结构化区域的数量,风格矩阵的每一列对应一个结构化区域的结构语义信息的风格代码。具体的,如图5所示,语义先验编码器可以包括4层卷积层、4层转置卷积层、1层平均池化层(Region-wiseaverage pooling),平均池化层可以排除原始的全景图像中不相关的纹理信息。
S307:根据风格矩阵对预设的结构化掩码进行填充处理,得到结构化区域纹理特征。
在一些实施例中,S307可以包括如下步骤:
第一步骤:根据风格矩阵、预设的高斯噪声、布局特征、结构化掩码进行局部特征提取处理,得到初始局部纹理。
第二步骤:根据风格矩阵对掩码图像对应的修复区域的初始局部纹理进行修复,得到结构化区域纹理特征。
在一些实施例中,结构化区域纹理特征是基于预先训练的残差网络(SEANResNet)模型生成的,如图5所示,残差网络模型的输入为风格矩阵、预设的高斯噪声、布局特征、结构化掩码;残差网络模型包括卷积层,残差网络模型的卷积层包括依次连接的构建(SEAN)模块、ReLU、卷积核。
示例性的,残差网络模型的输入为经过1x1卷积层转换后的风格矩阵、预设的高斯噪声、布局特征、结构化掩码,输出为结构化区域纹理特征。残差网络模型包括3个卷积层,每个卷积层包括SEAN模块(如图5中所示的SEAN)、ReLU、一个3x3的卷积核(如图5所示的3x3Conv)。
同理,在本实施例中,在结构编码器、语义先验编码器、残差网络模型相互结合的情况下,可以解决室内场景的减少现实任务中生成结构化区域纹理特征不真实的问题,通过结合结构语义信息提取到高度贴合真实的结构化区域纹理特征。相应的,如图4所示,我们可以将具有结构编码器、语义先验编码器、残差网络模型各自对应的功能的模型称为结构化区域纹理提取模型(structured region texture extraction module,SRTE-M)。
S308:根据布局特征和结构化区域纹理特征进行全景图像修复处理,得到被掩码的全景图像对应的减少现实的预测图像。
在一些实施例中,S308可以包括如下步骤:
第一步骤:对布局特征进行卷积处理,得到第一卷积布局特征。
第二步骤:将第一卷积布局特征和结构化区域纹理特征进行融合处理,得到组合特征。
第三步骤:对布局特征进行卷积处理,得到第二卷积布局特征,并对布局特征进行全局特征提取处理,得到全局特征。
第四步骤:对第二卷积布局特征和全局特征进行融合处理,得到频域布局特征。
第五步骤:对组合特征和频域布局特征进行融合处理,得到预测图像。
在一些实施例中,如图4所示,预测图像是基于预先训练的傅里叶卷积融合模型对布局特征和结构化区域纹理特征进行处理得到的。其中,傅里叶卷积融合模型可以包括下采样卷积层、傅里叶卷积融合层、上采样卷积层、光谱变换块、融合模块。
在另一些实施例中,下采样卷积层为与傅里叶卷积融合模型的输出连接的层。例如,如图4所示,傅里叶卷积融合模型的输出与下采样卷积层连接,下采样卷积层为3层,下采样卷积层的输出为预测图像。
示例性的,傅里叶卷积融合模型可以为快速傅里叶卷积融合模型(fast fourierconvolution fusion,FFCF),傅里叶卷积融合模型包括3层下采样卷积层、9层(快速)傅里叶卷积融合层、3层上采样卷积层。
在一些实施例中,如图6所示,傅里叶卷积融合模型包括卷积层、傅里叶卷积融合层、光谱变换块、归一化和ReLU层、融合模块。
结合上述第一步骤和图6,可以将布局特征输入至卷积层,得到第一卷积布局特征。
结合上述第二步骤和图6,可以基于傅里叶卷积融合层将第一卷积布局特征和结构化区域纹理特征进行融合处理,且在此基础上,可以在归一化和ReLU层进行激活,得到组合特征。
结合上述第三步骤和图6,可以将布局特征分别输入至卷积层和光谱变换块,并由傅里叶卷积融合层对卷积层和光谱变换块的输出结果进行融合处理,且在此基础上,可以在归一化和ReLU层进行激活,得到频域布局特征。
结合上述第五步骤和图6,可以将组合特征和频域布局特征输入至融合模块,该融合模块包括一个级联层和三个卷积层,融合模块的输出结果经过上采样后,生成被掩码的全景图像的修复输出,即得到图4所示的预测图像。
其中,在傅里叶卷积融合模型和结构化区域纹理提取模型的相互作用下,完成纹理修复,因此,如图4所示,可以将具有傅里叶卷积融合模型和结构化区域纹理提取模型各自对应的功能的模型称为修复网络模型(inpainting network)。
如图7所示,第一列为室内场景下的两个不同的全景图像(panorama image),第二列为与第一列中全景图像对应的透视图像(perspective image),第三列为采用相关技术中的方案得到的预测图像,第四列为采用本公开实施例的方案得到的预测图像,第五列为第一列中的全景图像对应的真值。
结合图7可知,相对而言,采用本公开实施例提供的方案得到的预测图像能更好的与真值贴合,具有较高还原真值的能力,即具有较高的准确性和可靠性。
结合上述分析,可以基于深度学习的方式得到预测图像,而基于深度学习的方式需要预先构建模型,如上实施例所述的结构修复模型、结构化区域纹理提取模型、傅里叶卷积融合模型,且构建模型需要样本数据实现,本实施例中,样本数据可以为预先构建的结构化全景图像数据集。例如,我们可以在相关技术中的结构化三维(Structured3D)数据集的基础上,构建结构化全景图像数据集(SD)。
示例性的,结构化全景图像数据集包括多组(如14528组)室内场景的全景图像,每组全景图像包括将待移除对象移除前后的全景图像、待移除对象的掩码图像、全景图像的边界布局图和曼哈顿布局边界,分辨率为1024x512。
其中,为了确定待移除对象,可以利用每组室内场景的语义标签,随机选择由可用前景的最大连通分量组成的目标边缘,并对其进行填充,以表示待移除对象,称为掩膜。
Structured3D数据集中包括多组空室内场景和满室内场景各自对应的全景图像,针对每一组空室内场景和满室内场景各自对应的全景图像,可以将满室内场景的全景图像中待移除对象的区域替换为空室内场景相应位置的背景图像,以构建全景图像减少现实的基准图像(GT)。其中,空室内场景是指没有待移除对象的室内场景,满室内场景是指包括待移除对象的室内场景。
其中,Structured3D数据集中的空室内场景的全景图像为提取满室内场景的全景图像中的前景对象,并减去待移除对象,以生成没有待移除对象的前景图像,而后将前景图像添加至空室内场景的全景图像中,以避免由于图像是基于物理光线进行渲染的,而待移除对象对应的替换区域与原始区域之间会存在光照差异的弊端。
Structured3D数据集中包括结构化布局的连接点位置,根据连接点在全景图像上重建结构化布局边界更新上述基准图。进一步,可以使用不同颜色填充结构化布局的不同区域(如红色表示天花板,蓝色表示墙壁,绿色表示地板),从而得到最终的基准图。
相应的,以训练布局结构图像生成模型为例,可以将结构化全景图像数据集中的待移除对象前的全景图像作为用于预测曼哈顿布局边界的图像,将结构化全景图像数据集中的曼哈顿布局边界作为真值,通过计算预测值(预测的像素概率)与真值(曼哈顿布局边界中的像素概率)的二元交叉熵误差,以将二元交叉熵误差作为损失达到更好的训练效果。
以训练布局边界预测模型为例,可以将结构化全景图像数据集中的待移除对象的掩码图像、待移除对象前的被掩码图像掩码的全景图像、被掩码图像掩码的曼哈顿布局边界作为用于预测边界布局图的图像,将结构化全景图像数据集中的边界布局图作为真值,训练得到布局边界预测模型。
以训练傅里叶卷积融合模型为例,可以将布局边界预测模型的输出作为傅里叶卷积融合模型的部分输入,并结合结构化全景图像数据集中的被掩码图像掩码的待移除对象前的全景图像、掩码图像用于得到预测图像,并将移除待移除对象后的全景图像作为预测图像的真值,以训练得到傅里叶卷积融合模型。
结合上述分析可知,修复网络模型可以包括傅里叶卷积融合模型和结构化区域纹理提取模型,可以基于结构化全景图像数据集中训练得到修复网络模型。
示例性的,预测图像是基于预先训练的修复网络模型生成的,修复网络模型的输入为边界布局图、掩码图像、被掩码的全景图像。
在一些实施例中,修复网络模型是基于融合损失函数训练得到的,融合损失函数是对绝对误差(L1)损失函数、对抗性损失函数、高级合成感知损失函数进行融合得到的。
其中,L1损失函数表征预测图像与真值之间的差异信息。对抗性损失函数是将预测图像和真值分别输入至预设的生成器和鉴别器得到的、用于表征预测图像和真值之间的差异信息。
示例性的,L1损失函数可以基于式1确定,式1:
其中,为0-1之间的掩码,/>为预测图像,/>为预测图像对应的真值(如上述结构化全景图像数据集中的基准图像中的预测图像对应的真值图像),⊙为乘法操作,/>中的1为被遮挡区域。
高级合成感知损失函数可以基于式2确定,式2:
其中, 为平均操作,Φ为网络激活层,Ω为结构化区域特征,N表示特征映射中特征元素总数,为矩阵函数,Pj和Sj是预设特征集,λprep和λstyle为预设系数,可以基于需求、历史记录、以及试验等方式确定,如λprep可以为0.12,λstyle可以为40.0。
对抗性损失函数可以基于式3确定,式3:
其中, 为鉴别器损失,/>为生成器损失,/>为特征匹配损失,G为生成器,D鉴别器记。
融合损失函数可以基于式4确定,式4:
同理,λL1、λadv、λprec为预设系数,可以基于需求、历史记录、以及试验等方式确定,如λL1为10.0,λadv为10.0,λprec为30.0。
结合上述分析可知,我们在相关技术中的Structured3D数据集的基础上,构建结构化全景图像数据集,我们可以将结构化全景图像数据集分为三个部分,分别为训练集、验证集、测试集,以在训练集上训练修复网络模型,在验证集上评估修复网络模型,一旦找到的最佳的参数,就在测试集上最后测试一次,测试集上的误差作为泛化误差的近似。
其中,在验证集上评估修复网络模型时,可以采用一个或多个指标,如平均绝对误差(MeanAbsolute Error,MAE)指标、峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)指标、结构相似度(Structural Similarity,SSIM)指标、学习感知相似度(LearnedPerceptual Image Patch Similarity,LPIPS)指标。
图8为本公开的修复网络模型与相关技术中5种图像修复模型在上述各指标下的评估比对结果。如图8所示,相关技术中的5种图像修复模型包括二维图像修复模型和三维图像修复模型PanoDR,且二维图像修复模型具体包括基于因果的时间序列域泛化(causal-based time series domain generalization,CTSDG)模型、ZITS、潜在扩散模型(LatentDiffusion Models,LDMs)、LaMa。
结合图8可知,PanoDR与二维图像修复模型相比,LaMa相对具有更好的性能,这可能是由于PanoDR方法没有平滑填充区域的边界。就PSNR指标而言,LaMa的性能相对最好。而就其他指标而言,本公开的修复网络模型取得了较高的LPIPS指标,表明本公开的修复网络模型的恢复的全景图像(即预测图像)更接近真实值。此外,本公开的修复网络模型在SSIM指标和MAE指标上取得了更好的性能。这表明本公开的方法能够更好地恢复全景图像中被去除区域的结构和纹理信息。
结合上述分析,本公开的方法可以基于SRM和SRTE-M实现,图8中还包括了针对SRM和SRTE-M的消融实验的结果,以评估SRM和SRTE-M各自对应的有效性。
结合图8可知,相对而言,SRM的性能要优于SRTE-M的性能。这是因为SRTE-M以结构化区域作为输入,在提供局部纹理信息的同时,也提供了局部结构信息,从而恢复了全景图像中被掩盖区域的局部信息。
其中,可以基于图形处理器(graphics processing unit,GPU)运行本公开修复网络模型,使用学习率为6e-4的优化器,一个1000步的热身(warmup)和余弦衰减,SRTE-M中使用的结构编码器使用优化器的默认参数进行优化,学习率为0.0001,批量大小为4,傅里叶卷积融合模型使用优化器进行训练,生成器的学习率为1e-3,鉴别器的学习率为1e-4,输入的全景图像分辨率为512×256,傅里叶卷积融合模型利用的权值初始化结构编码器的权值,其他模型的权值初始化为0且正态分布为0.02。
此外,为了更好地表明本公开的修复网络模型的优势,我们将本公开的方法与其他方法进行了定性比较,比较结果可以参阅图9。
如图9所示,本公开的方法比其他方法更精确地恢复了全景图像的曼哈顿结构,并且生成的纹理更符合地面真实值。PanoDR虽然存在明显的纹理拼接痕迹,但能够较好地恢复全景图像的结构信息。此外,LaMa恢复的全景图像纹理更加平滑,但在室内结构的恢复上仍存在一定偏差。相比于其他方法,本公开的方法结合了全景图像的布局边界信息并提取了结构化区域信息,有利于更真实准确的图像复原。
基于上述技术构思,本公开提供了一种全景图像减少现实的装置,该装置可以应用于室内场景。
请参阅图10,图10为本公开实施例的全景图像减少现实的装置的示意图,如图10所示,该装置1000包括:
第一生成单元1001,用于基于获取到的被掩码的布局边界图像、掩码图像、被掩码的全景图像,生成布局特征,其中,所述布局特征表征原始的全景图像在布局层面的结构特征。
第二生成单元1002,用于基于获取到的被掩码的全景图像、原始的全景图像,生成室内场景的结构化区域对应的风格矩阵,其中,所述风格矩阵表征所述结构化区域对应的结构语义信息。
填充单元1003,用于根据所述风格矩阵对预设的结构化掩码进行填充处理,得到结构化区域纹理特征。
修复单元1004,用于根据所述布局特征和所述结构化区域纹理特征进行全景图像修复处理,得到所述被掩码的全景图像对应的减少现实的预测图像。
在一些实施例中,第一生成单元1001,包括:
预测子单元,用于基于所述被掩码的布局边界图像、所述掩码图像、所述被掩码的全景图像,进行布局边界预测,得到边界布局图;
提取子单元,用于对所述边界布局图进行结构特征提取处理,得到布局边界特征;
生成子单元,用于根据所述布局边界特征、所述被掩码的布局边界图像、所述被掩码的全景图像,生成所述布局特征。
在一些实施例中,所述边界布局图是基于预先训练的布局边界预测模型得到的;所述布局边界预测模型包括依次连接的下采样卷积层、转换器块、转置卷积上采样卷积层。
在一些实施例中,所述布局边界特征是基于布局特征提取模型得到的;所述布局特征提取模型包括依次连接的下采样门控卷积层、扩张卷积残差块、上采样门控卷积层。
在一些实施例中,所述被掩码的布局边界图像是对所述原始的全景图像中的目标对象进行预测得到的曼哈顿布局边界,并对所述曼哈顿布局边界进行掩码处理得到的;
其中,所述目标对象包括墙壁、天花板、地板。
在一些实施例中,所述曼哈顿布局边界是基于预先训练的布局结构图像生成模型确定的,所述布局结构图像生成模型包括依次连接的编码器和解码器,所述编码器的输入为所述原始的全景图像,所述解码器的输出为曼哈顿布局边界。
在一些实施例中,所述编码器包括卷积层、以及分别与所述卷积层的输出连接的噪声线性整流函数和池化层;
所述解码器包括上采样层、以及与所述上采样层的输出依次连接的卷积层和激活层。
在一些实施例中,第二生成单元1002,包括:
分割子单元,用于根据所述目标对象,对所述被掩码的全景图像进行结构化分割处理,得到包括所述目标对象对应的结构化区域的结构化区域图;
构建子单元,用于根据所述结构化区域图的结构语义信息,构建所述风格矩阵。
在一些实施例中,所述结构化区域图是基于预先训练的结构编码器对所述被掩码的全景图像进行处理得到的;所述结构编码器包括跳跃连接的下采样卷积层和上采样卷积层。
在一些实施例中,所述风格矩阵是基于预先训练的语义先验编码器对所述结构化区域图和所述原始的全景图像进行处理得到的;所述语义先验编码器包括依次连接的卷积层、转置卷积层、平均池化层。
在一些实施例中,填充单元1003,包括:
第一处理子单元,用于根据所述风格矩阵、预设的高斯噪声、所述布局特征、所述结构化掩码进行局部特征提取处理,得到初始局部纹理;
修复子单元,用于根据所述风格矩阵对所述掩码图像对应的修复区域的初始局部纹理进行修复,得到所述结构化区域纹理特征。
在一些实施例中,所述结构化区域纹理特征是基于预先训练的残差网络模型生成的,所述残差网络模型的输入为所述风格矩阵、预设的高斯噪声、所述布局特征、所述结构化掩码;所述残差网络模型包括卷积层,所述残差网络模型的卷积层包括依次连接的构建模块、噪声线性整流函数、卷积核。
在一些实施例中,修复单元1004,包括:
卷积子单元,用于对所述布局特征进行卷积处理,得到第一卷积布局特征;
第一融合子单元,用于将所述第一卷积布局特征和所述结构化区域纹理特征进行融合处理,得到组合特征;
第二处理子单元,用于对所述布局特征进行卷积处理,得到第二卷积布局特征,并对所述布局特征进行全局特征提取处理,得到全局特征;
第二融合子单元,用于对所述第二卷积布局特征和所述全局特征进行融合处理,得到频域布局特征;
第三融合子单元,用于对所述组合特征和所述频域布局特征进行融合处理,得到所述预测图像。
在一些实施例中,所述预测图像是基于预先训练的傅里叶卷积融合模型对所述布局特征和所述结构化区域纹理特征进行处理得到的;所述傅里叶卷积融合模型包括下采样卷积层、傅里叶卷积融合层、上采样卷积层、光谱变换块、融合模块。
在一些实施例中,所述预测图像是基于预先训练的修复网络模型生成的,所述修复网络模型的输入为所述边界布局图、所述掩码图像、所述被掩码的全景图像;
所述修复网络模型是基于融合损失函数训练得到的,所述融合损失函数是对绝对误差损失函数、对抗性损失函数、高级合成感知损失函数进行融合得到的。
需要说明的是,本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的实施例,本公开还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图11所示,设备1100包括计算单元1101,其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序,来执行各种适当的动作和处理。在RAM 1103中,还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
设备1100中的多个部件连接至I/O接口1105,包括:输入单元1106,例如键盘、鼠标等;输出单元1107,例如各种类型的显示器、扬声器等;存储单元1108,例如磁盘、光盘等;以及通信单元1109,例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理,例如全景图像减少现实的方法。例如,在一些实施例中,全景图像减少现实的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时,可以执行上文描述的全景图像减少现实的方法的一个或多个步骤。备选地,在其他实施例中,计算单元1101可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行全景图像减少现实的方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机可执行指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机可执行指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些处理器可执行指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的处理器可读存储器中,使得存储在该处理器可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些处理器可执行指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样,倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内,则本公开也意图包含这些改动和变型在内。
Claims (10)
1.一种全景图像减少现实的方法,应用于室内场景,其特征在于,所述方法包括:
基于获取到的被掩码的布局边界图像、掩码图像、被掩码的全景图像,生成布局特征,其中,所述布局特征表征原始的全景图像在布局层面的结构特征;
基于获取到的被掩码的全景图像、原始的全景图像,生成室内场景的结构化区域对应的风格矩阵,其中,所述风格矩阵表征所述结构化区域对应的结构语义信息;
根据所述风格矩阵对预设的结构化掩码进行填充处理,得到结构化区域纹理特征;
根据所述布局特征和所述结构化区域纹理特征进行全景图像修复处理,得到所述被掩码的全景图像对应的减少现实的预测图像。
2.根据权利要求1所述的方法,其特征在于,基于获取到的被掩码的布局边界图像、掩码图像、被掩码的全景图像,生成布局特征,包括:
基于所述被掩码的布局边界图像、所述掩码图像、所述被掩码的全景图像,进行布局边界预测,得到边界布局图;
对所述边界布局图进行结构特征提取处理,得到布局边界特征;
根据所述布局边界特征、所述掩码图像、所述被掩码的全景图像,生成所述布局特征。
3.根据权利要求1所述的方法,其特征在于,所述被掩码的布局边界图像是对所述原始的全景图像中的目标对象进行预测得到的曼哈顿布局边界,并对所述曼哈顿布局边界进行掩码处理得到的;
其中,所述目标对象包括墙壁、天花板、地板。
4.根据权利要求3所述的方法,其特征在于,基于获取到的被掩码的全景图像、原始的全景图像,生成室内场景的结构化区域对应的风格矩阵,包括:
根据所述目标对象,对所述被掩码的全景图像进行结构化分割处理,得到包括所述目标对象对应的结构化区域的结构化区域图;
根据所述结构化区域图的结构语义信息,构建所述风格矩阵。
5.根据权利要求1所述的方法,其特征在于,根据所述风格矩阵对预设的结构化掩码进行填充处理,得到结构化区域纹理特征,包括:
根据所述风格矩阵、预设的高斯噪声、所述布局特征、所述结构化掩码进行局部特征提取处理,得到初始局部纹理;
根据所述风格矩阵对所述掩码图像对应的修复区域的初始局部纹理进行修复,得到所述结构化区域纹理特征。
6.根据权利要求1所述的方法,其特征在于,根据所述布局特征和所述结构化区域纹理特征进行全景图像修复处理,得到所述被掩码的全景图像对应的减少现实的预测图像,包括:
对所述布局特征进行卷积处理,得到第一卷积布局特征;
将所述第一卷积布局特征和所述结构化区域纹理特征进行融合处理,得到组合特征;
对所述布局特征进行卷积处理,得到第二卷积布局特征,并对所述布局特征进行全局特征提取处理,得到全局特征;
对所述第二卷积布局特征和所述全局特征进行融合处理,得到频域布局特征;
对所述组合特征和所述频域布局特征进行融合处理,得到所述预测图像。
7.根据权利要求2-6中任一项所述的方法,其特征在于,所述预测图像是基于预先训练的修复网络模型生成的,所述修复网络模型的输入为所述边界布局图、所述掩码图像、所述被掩码的全景图像;
所述修复网络模型是基于融合损失函数训练得到的,所述融合损失函数是对绝对误差损失函数、对抗性损失函数、高级合成感知损失函数进行融合得到的。
8.一种全景图像减少现实的装置,应用于室内场景,其特征在于,包括:
第一生成单元,用于基于获取到的被掩码的布局边界图像、掩码图像、被掩码的全景图像,生成布局特征,其中,所述布局特征表征原始的全景图像在布局层面的结构特征;
第二生成单元,用于基于获取到的被掩码的全景图像、原始的全景图像,生成室内场景的结构化区域对应的风格矩阵,其中,所述风格矩阵表征所述结构化区域对应的结构语义信息;
填充单元,用于根据所述风格矩阵对预设的结构化掩码进行填充处理,得到结构化区域纹理特征;
修复单元,用于根据所述布局特征和所述结构化区域纹理特征进行全景图像修复处理,得到所述被掩码的全景图像对应的减少现实的预测图像。
9.一种处理器可读存储介质,其特征在于,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使所述处理器执行权利要求1至7中任一项所述的方法。
10.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310603253.7A CN116797768A (zh) | 2023-05-26 | 2023-05-26 | 全景图像减少现实的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310603253.7A CN116797768A (zh) | 2023-05-26 | 2023-05-26 | 全景图像减少现实的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116797768A true CN116797768A (zh) | 2023-09-22 |
Family
ID=88043158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310603253.7A Pending CN116797768A (zh) | 2023-05-26 | 2023-05-26 | 全景图像减少现实的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116797768A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117438056A (zh) * | 2023-12-20 | 2024-01-23 | 达州市中心医院(达州市人民医院) | 用于消化内镜影像数据的编辑筛选与存储控制方法和系统 |
-
2023
- 2023-05-26 CN CN202310603253.7A patent/CN116797768A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117438056A (zh) * | 2023-12-20 | 2024-01-23 | 达州市中心医院(达州市人民医院) | 用于消化内镜影像数据的编辑筛选与存储控制方法和系统 |
CN117438056B (zh) * | 2023-12-20 | 2024-03-12 | 达州市中心医院(达州市人民医院) | 用于消化内镜影像数据的编辑筛选与存储控制方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11257298B2 (en) | Reconstructing three-dimensional scenes in a target coordinate system from multiple views | |
US11393158B2 (en) | Utilizing voxel feature transformations for deep novel view synthesis | |
CN108895981A (zh) | 一种三维测量方法、装置、服务器和存储介质 | |
Vitoria et al. | Semantic image inpainting through improved wasserstein generative adversarial networks | |
KR20210058320A (ko) | 단일 입력 영상을 이용한 3d 모델 생성 방법 및 이를 위한 장치 | |
CN113850900A (zh) | 三维重建中基于图像和几何线索恢复深度图的方法及系统 | |
Liu et al. | High-quality textured 3D shape reconstruction with cascaded fully convolutional networks | |
CN114758337B (zh) | 一种语义实例重建方法、装置、设备及介质 | |
CN115272437A (zh) | 一种基于全局与局部特征的图像深度估计方法及装置 | |
CN116797768A (zh) | 全景图像减少现实的方法和装置 | |
CN115797561A (zh) | 三维重建方法、设备及可读存储介质 | |
Pesavento et al. | Super-resolution 3d human shape from a single low-resolution image | |
Hara et al. | Enhancement of novel view synthesis using omnidirectional image completion | |
CN115713585B (zh) | 纹理图像重建方法、装置、计算机设备和存储介质 | |
CN117252984A (zh) | 三维模型生成方法、装置、设备、存储介质及程序产品 | |
CN111754561A (zh) | 基于自监督深度学习的光场图像深度恢复方法及系统 | |
CN116258756A (zh) | 一种自监督单目深度估计方法及系统 | |
CN115908753A (zh) | 一种全身人体网格表面重建方法及相关装置 | |
CN115775300A (zh) | 人体模型的重建方法、人体重建模型的训练方法及装置 | |
US20230145498A1 (en) | Image reprojection and multi-image inpainting based on geometric depth parameters | |
CN112995433B (zh) | 一种时序视频生成方法、装置、计算设备及存储介质 | |
CN116883770A (zh) | 深度估计模型的训练方法、装置、电子设备及存储介质 | |
CN114299105A (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN113205579A (zh) | 三维重建方法、装置、设备及存储介质 | |
Azaria et al. | Geometry Enhancements from Visual Content: Going Beyond Ground Truth |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |