CN113240701A - 一种非绿幕下的实时高分辨率戏曲人物抠图方法 - Google Patents
一种非绿幕下的实时高分辨率戏曲人物抠图方法 Download PDFInfo
- Publication number
- CN113240701A CN113240701A CN202110618876.2A CN202110618876A CN113240701A CN 113240701 A CN113240701 A CN 113240701A CN 202110618876 A CN202110618876 A CN 202110618876A CN 113240701 A CN113240701 A CN 113240701A
- Authority
- CN
- China
- Prior art keywords
- network
- foreground
- matting
- resolution
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000007670 refining Methods 0.000 claims abstract description 4
- 238000010586 diagram Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 8
- 230000000694 effects Effects 0.000 abstract description 4
- 238000004364 calculation method Methods 0.000 abstract description 3
- 238000002474 experimental method Methods 0.000 abstract description 2
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 description 5
- 238000011176 pooling Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 241000272470 Circus Species 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006748 scratching Methods 0.000 description 1
- 230000002393 scratching effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种非绿幕下的实时高分辨率戏曲人物抠图方法,首先提前捕获一张背景图,然后将图片与背景图输入到Base网络中进行计算,得出低分辨率的结果,之后由Refiner网络对局部位置进行细化,对抠图内容进行完善;本发明对Base网络进行了改进,引入了MobileNetV3作为BackBone结构,同时将网络的第一层卷积层更改为接收输入图像和背景图像的6个通道;过两个网络使抠图效果更加精细,同时改进的网络提高了抠图的效率,提高了实时处理的效率,实验表明对图像的粗粒度处理速度有很大提升,极大提高了抠图的实时性,解决了无法在自然背景下实现高分辨率抠图的问题。
Description
技术领域
本发明属于计算机图形学处理技术领域,具体涉及一种非绿幕下的实时高分辨率戏曲人物抠图方法。
背景技术
秦腔起源于古代陕西、甘肃一带,是我国传统戏剧最具表现性的剧种之一。秦腔艺术在我国有几千年的传承历史,堪称中国戏曲的鼻祖,为中华民族戏曲的融合、发展、演变起到至关重要的作用。目前由于秦腔艺术创新性不足等原因致使秦腔这一艺术形式逐渐淡出大众视线。对于戏曲人物进行抠图便于对戏曲人物进行分析整理和二次创作,对戏曲艺术的创新发展有着积极的推动作用。
传统的非基于学习的抠图算法需要手动标记三色图,并求解三色图的未知区域中的α蒙版。目前的许多方法依赖于蒙版数据集来学习抠图,例如上下文感知抠图、索引抠图、基于采样的抠图和基于不透明度传播的抠图。这些方法的性能取决于标记的质量。对于已知自然背景(非绿幕下)的抠图已有的一个方法是预先捕获一张背景图片,通过上下文切换块构建的编码器和解码器预测α蒙版和前景层,但该方法的分辨率限制在512×512,运行速度仅为8fps。此外,还有直接从图像中解决α蒙版的方法,均存在要求抠图的图像分辨率不易过高的问题,通常无法推广。
发明内容
针对现有技术存在的不足,本发明的目在于提供一种非绿幕下的实时高分辨率戏曲人物抠图方法,实现高分辨率图像处理,能够实现更准确更精细的戏曲人物图像抠图。
为了实现上述目的,本发明采用以下技术方案予以实现:
一种非绿幕下的实时高分辨率戏曲人物抠图方法,包括以下步骤:
步骤一:输入以戏曲人物为主体的图片I以及一张提前捕获的背景图片B;
步骤二:将输入图片I和背景图B进行下采样,并将图片I和图片B的分辨率设置为同一值;
步骤三:将Base网络中的BackBone模块中的网络更改为MobileNetV3,此外将网络第一层卷积更改为图片输入通道;将下采样之后的值输入到Base网络中计算出低分辨率图像以产生粗粒度结果和误差预测图Ec,粗粒度结果为Alpha值、前景残差FR和一个32通道的隐藏特征Hc;
其中,前景残差FR由预测的前景值和输入图像得到;
FR=F-I
其中,F为预测的前景图,I为输入的图像;
步骤四:将Base网络处理的粗粒度结果作为Refiner网络的输入,对预测误差最大的位置块进行细化,该Refiner网络仅对基于误差预测图Ec选择的块进行操作;
步骤五:依据Refiner网络得到的Alpha值和前景残差FR得到抠图后的结果,即得到戏曲人物的抠像。
进一步,所述步骤三中采用MobileNetV3作为Base网络的BackBone,MobileNetV3将其1×1的卷积层放在avg pooling后面,利用avg pooling将特征图维度降低,然后再利用1×1的卷积提高维度。
进一步,所述步骤三中本发明将MobileNetV3网络的第一层卷积更改为接受输入图像和背景图像的6个通道。
进一步,所述步骤四中执行两个阶段的细化,首先是原始分辨率的1/2,然后是完全分辨率。
进一步,细化时,通过两层3×3卷积、Batch Normalization和ReLU将块的维度降低到4×4,然后再将得到的中间特征上采样到8×8,之后在通过两层3×3卷积、BatchNormalization和ReLU得到4×4的α蒙版、前景残差FR,换入上一网络中的对应位置完成对局部的细化。
进一步,所述步骤五中得到的人物抠像结果即恢复后的前景图F是通过将前景残差FR加入到输入图像I中进行适当的收缩得到;
F=max(min(FR+I,1),0)
其中,FR为前景残差,I为输入的图像。
进一步,所述Base网络的损失函数是其输入的损失的加和:
所述Refiner网络的损失为:
Lrefine=Lα+LF (7)
其中,Lα指α蒙版与其梯度上的损失;LF指前景残差的损失。
本发明具有以下效果:
本发明公开了一种非绿幕下的实时高分辨率戏曲人物抠图方法,首先提前捕获一张背景图,然后将图片与背景图输入到Base网络中进行计算,得出低分辨率的结果,之后由Refiner网络对局部位置进行细化,对抠图内容进行完善;本发明对Base网络进行了改进,引入了MobileNetV3作为BackBone结构,同时将网络的第一层卷积层更改为接收输入图像和背景图像的6个通道;过两个网络使抠图效果更加精细,同时改进的网络提高了抠图的效率,提高了实时处理的效率,实验表明对图像的粗粒度处理速度有很大提升,极大提高了抠图的实时性。仅借助手机摄像机等便利设备拍摄的照片便可实现精细的抠图结果,解决了无法在自然背景下实现高分辨率抠图的问题。
本发明对主干网络进行了改进,Base网络由backbone、ASPP和解码器三个模块组成,采用MobileNetV3作为编码器主干。在MobileNetV2中在网络结构的最后一部分用1×1的卷积层来提高特征图的维度,但这造成了一定的延时。为提高实时性,采用了MobileNetV3在保证精度的同时提高了处理效率。MobileNetV3将该1×1的卷积层放在avgpooling后面,利用avg pooling将特征图大小由7×7降到1×1,然后再利用1×1的卷积提高维度。
本发明通过求解前景残差FR,将低分辨率的前景残差应用到高分辨率的输入图像上的形式改善我们的架构,在4K视频和高清视频上运行,并产生比BGM更高质量的结果,实现更准确、更精细的戏曲人物图像抠图。
附图说明
图1是本发明的Base网络结构图;
图2是本发明的Refiner网络结构图;
图3是通过改进的抠图方法的MobileNetV3网络结构图;
图4a是本发明的输入戏曲人物图像;
图4b是本发明的输入戏曲中提前捕获的背景图;
图5是通过改进后的抠图方法的Alpha图;
图6通过改进后的抠图方法的预测误差图;
图7是通过改进后的抠图方法生成的效果图。
具体实施方式
以下结合实施例对本发明的具体内容做进一步详细解释说明。
步骤一:输入以戏曲人物为主体的图片I以及一张提前捕获的背景图片B。
步骤二:将输入图片I和背景图B进行下采样,并将图片I和图片B的分辨率设置为同一值。
步骤三:将下采样之后的值输入到Base网络中进行操作计算出低分辨率图像以产生粗粒度结果和误差预测图Ec。将原网络中的BackBone模块中的网络更改为MobileNetV3实现,此外将网络第一层卷积更改为图片输入通道。
步骤四:将Base网络处理的粗粒度结果作为Refiner网络的输入,该网络仅对基于误差预测图Ec选择的块进行操作。我们执行两个阶段的细化,首先是原始分辨率的1/2,然后是完全分辨率。减少了冗余计算,恢复了高分辨率的抠图细节。
如图1-3所示,在Refiner网络中,本发明首先对Base网络输出的α蒙版、前景残差FR、隐藏特征H进行双线性重采样并连成特征,之后选取预测误差最大的位置块进行细化,通过两层3×3卷积、Batch Normalization和ReLU将块的维度降低到4×4,然后再将这些中间特征上采样到8×8,之后在通过两层3×3卷积、Batch Normalization和ReLU得到4×4的α蒙版、前景残差FR。换入上一网络中的对应位置,即可完成对局部的细化。
在细化位置的选择上,我们ground-truth误差图定义为E*=|α-α*|,我们计算预测误差和ground-truth误差之间的均方误差作为损失:
LE=||E-E*||2 (5)
其中,LE指预测误差和真实误差之间的均方误差;E指预测误差值;E*指ground-truth误差。
步骤五:依据Refiner网络得到的Alpha值和前景残差FR得到抠图后的结果。
使用F=max(min(FR+I,1),0)从预测的前景残差FR中获得前景层。
如图4a和图4b所示,中将以戏曲人物为前景的图片I以及一张提前捕获的背景图片B作为输入,将输入图片I与背景图B的分辨率设置统一。由Base网络进行粗粒度处理之后可得到如图5Alpha图和图6预测误差图。之后选取预测误差最大的位置块进行细化可得到细化之后的alpha值和前景残差FR。最后由公式F=max(min(FR+I,1),0)可得到恢复后的前景F即人物抠像,如图7所示。
在上述步骤五中的Base网络由backbone、ASPP和解码器三个模块组成。其中backbone模块由MobileV3网络实现。ASPP模块遵循了DeepLabV3中提出的ASPP模块的原始实现。ASPP模块由多个扩张率分别为3、6和9的膨胀卷积滤波器组成。解码器网络采用双线性上采样,通过3×3卷积和RELU激活实现。
在上述步骤五中,对求得的alpha值进行损失计算,我们在α蒙版与其梯度上使用L1损失:
在上述步骤五中求其恢复后的前景图F,对此计算损失,其中对α*>0的像素计算L1损失:
LF=||(α*>0)*(F-F*)||1 (4)
其中,LF指前景残差FR的损失函数值;F指前景值;F*指预测的前景值。我们仅在α*>0上计算损失。
Claims (7)
1.一种非绿幕下的实时高分辨率戏曲人物抠图方法,其特征在于包括以下步骤:
步骤一:输入以戏曲人物为主体的图片I以及一张提前捕获的背景图片B;
步骤二:将输入图片I和背景图B进行下采样,并将图片I和图片B的分辨率设置为同一值;
步骤三:将Base网络中的BackBone模块中的网络更改为MobileNetV3,此外将网络第一层卷积更改为图片输入通道;将下采样之后的值输入到Base网络中计算出低分辨率图像以产生粗粒度结果和误差预测图Ec,粗粒度结果为Alpha值、前景残差FR和一个32通道的隐藏特征Hc;
其中,前景残差FR由预测的前景值和输入图像得到;
FR=F-I
其中,F为预测的前景图,I为输入的图像;
步骤四:将Base网络处理的粗粒度结果作为Refiner网络的输入,对预测误差最大的位置块进行细化,该Refiner网络仅对基于误差预测图Hc选择的块进行操作;
步骤五:依据Refiner网络得到的Alpha值和前景残差FR得到抠图后的结果,即得到戏曲人物的抠像。
2.根据权利要求1所述的一种非绿幕下的实时高分辨率戏曲人物抠图方法,其特征在于:所述步骤三中采用MobileNetV3作为Base网络的BackBone,MobileNetV3将其1×1的卷积层放在avg pooling后面,利用avg pooling将特征图维度降低,然后再利用1×1的卷积提高维度。
3.根据权利要求1所述的一种非绿幕下的实时高分辨率戏曲人物抠图方法,其特征在于:所述步骤三中本发明将MobileNetV3网络的第一层卷积更改为接受输入图像和背景图像的6个通道。
4.根据权利要求1所述的一种非绿幕下的实时高分辨率戏曲人物抠图方法,其特征在于:所述步骤四中执行两个阶段的细化,首先是原始分辨率的1/2,然后是完全分辨率。
5.根据权利要求4所述的一种非绿幕下的实时高分辨率戏曲人物抠图方法,其特征在于:细化时,通过两层3×3卷积、Batch Normalization和ReLU将块的维度降低到4×4,然后再将得到的中间特征上采样到8×8,之后在通过两层3×3卷积、Batch Normalization和ReLU得到4×4的α蒙版、前景残差FR,换入上一网络中的对应位置完成对局部的细化。
6.根据权利要求1所述的一种非绿幕下的实时高分辨率戏曲人物抠图方法,其特征在于:所述步骤五中得到的人物抠像结果即恢复后的前景图F是通过将前景残差FR加入到输入图像I中进行适当的收缩得到;
F=max(min(FR+I,1),0)
其中,FR为前景残差,I为输入的图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110618876.2A CN113240701B (zh) | 2021-06-03 | 2021-06-03 | 一种非绿幕下的实时高分辨率戏曲人物抠图方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110618876.2A CN113240701B (zh) | 2021-06-03 | 2021-06-03 | 一种非绿幕下的实时高分辨率戏曲人物抠图方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113240701A true CN113240701A (zh) | 2021-08-10 |
CN113240701B CN113240701B (zh) | 2024-02-27 |
Family
ID=77136711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110618876.2A Active CN113240701B (zh) | 2021-06-03 | 2021-06-03 | 一种非绿幕下的实时高分辨率戏曲人物抠图方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113240701B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114399454A (zh) * | 2022-01-18 | 2022-04-26 | 平安科技(深圳)有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN118134955A (zh) * | 2024-05-07 | 2024-06-04 | 江苏物润船联网络股份有限公司 | 基于人工智能的无绿幕人像自动抠图方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200364870A1 (en) * | 2019-05-14 | 2020-11-19 | University-Industry Cooperation Group Of Kyung Hee University | Image segmentation method and apparatus, and computer program thereof |
CN112446380A (zh) * | 2019-09-02 | 2021-03-05 | 华为技术有限公司 | 图像处理方法和装置 |
CN112489056A (zh) * | 2020-12-01 | 2021-03-12 | 叠境数字科技(上海)有限公司 | 一种适用于移动端的实时人体抠图方法 |
-
2021
- 2021-06-03 CN CN202110618876.2A patent/CN113240701B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200364870A1 (en) * | 2019-05-14 | 2020-11-19 | University-Industry Cooperation Group Of Kyung Hee University | Image segmentation method and apparatus, and computer program thereof |
CN112446380A (zh) * | 2019-09-02 | 2021-03-05 | 华为技术有限公司 | 图像处理方法和装置 |
CN112489056A (zh) * | 2020-12-01 | 2021-03-12 | 叠境数字科技(上海)有限公司 | 一种适用于移动端的实时人体抠图方法 |
Non-Patent Citations (2)
Title |
---|
冉清;冯结青;: "人体前景的自动抠图算法", 计算机辅助设计与图形学学报, no. 02 * |
张万绪;史剑雄;陈晓璇;汪霖;赵明;周延;牛进平;: "基于稀疏表示与引导滤波的图像超分辨率重建", 计算机工程, no. 09 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114399454A (zh) * | 2022-01-18 | 2022-04-26 | 平安科技(深圳)有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN118134955A (zh) * | 2024-05-07 | 2024-06-04 | 江苏物润船联网络股份有限公司 | 基于人工智能的无绿幕人像自动抠图方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113240701B (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11429824B2 (en) | Method and system of deep supervision object detection for reducing resource usage | |
CN108921786B (zh) | 基于残差卷积神经网络的图像超分辨率重构方法 | |
CN113240701A (zh) | 一种非绿幕下的实时高分辨率戏曲人物抠图方法 | |
CN112543317B (zh) | 高分辨率单目2d视频到双目3d视频的转制方法 | |
CN109102462A (zh) | 一种基于深度学习的视频超分辨率重建方法 | |
CN108376392A (zh) | 一种基于卷积神经网络的图像运动模糊去除方法 | |
CN110570377A (zh) | 一种基于组归一化的快速图像风格迁移方法 | |
CN113096017A (zh) | 基于深度坐标注意力网络模型的图像超分辨率重建方法 | |
CN112489056A (zh) | 一种适用于移动端的实时人体抠图方法 | |
CN112288630A (zh) | 一种基于改进的广泛深度神经网络的超分辨率图像重建方法及系统 | |
CN114723760B (zh) | 人像分割模型的训练方法、装置及人像分割方法、装置 | |
CN111654621B (zh) | 一种基于卷积神经网络模型的双焦相机连续数字变焦方法 | |
CN108989731A (zh) | 一种提高视频空间分辨率的方法 | |
WO2023066173A1 (zh) | 图像处理方法、装置及存储介质、电子设备 | |
CN113112401A (zh) | 一种基于跨尺度纹理迁移的图像超分辨率方法 | |
Tang et al. | Very deep residual network for image matting | |
CN103312941A (zh) | 基于凸优化理论的视频联合去噪及超分辨率方法和系统 | |
CN114359044A (zh) | 一种基于参考图像的图像超分辨率系统 | |
Guo et al. | Pft-ssr: Parallax fusion transformer for stereo image super-resolution | |
CN110378850A (zh) | 一种结合块匹配和神经网络的变焦图像生成方法 | |
CN115457266A (zh) | 基于注意力机制的高分辨率实时自动绿幕抠像方法及系统 | |
CN101276476A (zh) | 对2d卡通动画的前景背景分离方法 | |
CN116579940A (zh) | 一种基于卷积神经网络的实时低照度图像增强方法 | |
CN110853040B (zh) | 一种基于超分辨率重建的图像协同分割方法 | |
CN115482265A (zh) | 一种基于连续视频流的室外场景深度补全方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |