CN113240701A - 一种非绿幕下的实时高分辨率戏曲人物抠图方法 - Google Patents

一种非绿幕下的实时高分辨率戏曲人物抠图方法 Download PDF

Info

Publication number
CN113240701A
CN113240701A CN202110618876.2A CN202110618876A CN113240701A CN 113240701 A CN113240701 A CN 113240701A CN 202110618876 A CN202110618876 A CN 202110618876A CN 113240701 A CN113240701 A CN 113240701A
Authority
CN
China
Prior art keywords
network
foreground
matting
resolution
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110618876.2A
Other languages
English (en)
Other versions
CN113240701B (zh
Inventor
周明全
杨雪
冯龙
耿国华
李蕊
白涛
李启航
刘阳洋
周蓬勃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern University
Original Assignee
Northwestern University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern University filed Critical Northwestern University
Priority to CN202110618876.2A priority Critical patent/CN113240701B/zh
Publication of CN113240701A publication Critical patent/CN113240701A/zh
Application granted granted Critical
Publication of CN113240701B publication Critical patent/CN113240701B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种非绿幕下的实时高分辨率戏曲人物抠图方法,首先提前捕获一张背景图,然后将图片与背景图输入到Base网络中进行计算,得出低分辨率的结果,之后由Refiner网络对局部位置进行细化,对抠图内容进行完善;本发明对Base网络进行了改进,引入了MobileNetV3作为BackBone结构,同时将网络的第一层卷积层更改为接收输入图像和背景图像的6个通道;过两个网络使抠图效果更加精细,同时改进的网络提高了抠图的效率,提高了实时处理的效率,实验表明对图像的粗粒度处理速度有很大提升,极大提高了抠图的实时性,解决了无法在自然背景下实现高分辨率抠图的问题。

Description

一种非绿幕下的实时高分辨率戏曲人物抠图方法
技术领域
本发明属于计算机图形学处理技术领域,具体涉及一种非绿幕下的实时高分辨率戏曲人物抠图方法。
背景技术
秦腔起源于古代陕西、甘肃一带,是我国传统戏剧最具表现性的剧种之一。秦腔艺术在我国有几千年的传承历史,堪称中国戏曲的鼻祖,为中华民族戏曲的融合、发展、演变起到至关重要的作用。目前由于秦腔艺术创新性不足等原因致使秦腔这一艺术形式逐渐淡出大众视线。对于戏曲人物进行抠图便于对戏曲人物进行分析整理和二次创作,对戏曲艺术的创新发展有着积极的推动作用。
传统的非基于学习的抠图算法需要手动标记三色图,并求解三色图的未知区域中的α蒙版。目前的许多方法依赖于蒙版数据集来学习抠图,例如上下文感知抠图、索引抠图、基于采样的抠图和基于不透明度传播的抠图。这些方法的性能取决于标记的质量。对于已知自然背景(非绿幕下)的抠图已有的一个方法是预先捕获一张背景图片,通过上下文切换块构建的编码器和解码器预测α蒙版和前景层,但该方法的分辨率限制在512×512,运行速度仅为8fps。此外,还有直接从图像中解决α蒙版的方法,均存在要求抠图的图像分辨率不易过高的问题,通常无法推广。
发明内容
针对现有技术存在的不足,本发明的目在于提供一种非绿幕下的实时高分辨率戏曲人物抠图方法,实现高分辨率图像处理,能够实现更准确更精细的戏曲人物图像抠图。
为了实现上述目的,本发明采用以下技术方案予以实现:
一种非绿幕下的实时高分辨率戏曲人物抠图方法,包括以下步骤:
步骤一:输入以戏曲人物为主体的图片I以及一张提前捕获的背景图片B;
步骤二:将输入图片I和背景图B进行下采样,并将图片I和图片B的分辨率设置为同一值;
步骤三:将Base网络中的BackBone模块中的网络更改为MobileNetV3,此外将网络第一层卷积更改为图片输入通道;将下采样之后的值输入到Base网络中计算出低分辨率图像以产生粗粒度结果和误差预测图Ec,粗粒度结果为Alpha值、前景残差FR和一个32通道的隐藏特征Hc
其中,前景残差FR由预测的前景值和输入图像得到;
FR=F-I
其中,F为预测的前景图,I为输入的图像;
步骤四:将Base网络处理的粗粒度结果作为Refiner网络的输入,对预测误差最大的位置块进行细化,该Refiner网络仅对基于误差预测图Ec选择的块进行操作;
步骤五:依据Refiner网络得到的Alpha值和前景残差FR得到抠图后的结果,即得到戏曲人物的抠像。
进一步,所述步骤三中采用MobileNetV3作为Base网络的BackBone,MobileNetV3将其1×1的卷积层放在avg pooling后面,利用avg pooling将特征图维度降低,然后再利用1×1的卷积提高维度。
进一步,所述步骤三中本发明将MobileNetV3网络的第一层卷积更改为接受输入图像和背景图像的6个通道。
进一步,所述步骤四中执行两个阶段的细化,首先是原始分辨率的1/2,然后是完全分辨率。
进一步,细化时,通过两层3×3卷积、Batch Normalization和ReLU将块的维度降低到4×4,然后再将得到的中间特征上采样到8×8,之后在通过两层3×3卷积、BatchNormalization和ReLU得到4×4的α蒙版、前景残差FR,换入上一网络中的对应位置完成对局部的细化。
进一步,所述步骤五中得到的人物抠像结果即恢复后的前景图F是通过将前景残差FR加入到输入图像I中进行适当的收缩得到;
F=max(min(FR+I,1),0)
其中,FR为前景残差,I为输入的图像。
进一步,所述Base网络的损失函数是其输入的损失的加和:
Figure BDA0003098809340000031
其中,
Figure BDA0003098809340000032
指α蒙版与其梯度上的损失;
Figure BDA0003098809340000033
指前景残差的损失;
Figure BDA0003098809340000034
指预测误差和ground-truth误差之间的均方误差;
所述Refiner网络的损失为:
Lrefine=Lα+LF (7)
其中,Lα指α蒙版与其梯度上的损失;LF指前景残差的损失。
本发明具有以下效果:
本发明公开了一种非绿幕下的实时高分辨率戏曲人物抠图方法,首先提前捕获一张背景图,然后将图片与背景图输入到Base网络中进行计算,得出低分辨率的结果,之后由Refiner网络对局部位置进行细化,对抠图内容进行完善;本发明对Base网络进行了改进,引入了MobileNetV3作为BackBone结构,同时将网络的第一层卷积层更改为接收输入图像和背景图像的6个通道;过两个网络使抠图效果更加精细,同时改进的网络提高了抠图的效率,提高了实时处理的效率,实验表明对图像的粗粒度处理速度有很大提升,极大提高了抠图的实时性。仅借助手机摄像机等便利设备拍摄的照片便可实现精细的抠图结果,解决了无法在自然背景下实现高分辨率抠图的问题。
本发明对主干网络进行了改进,Base网络由backbone、ASPP和解码器三个模块组成,采用MobileNetV3作为编码器主干。在MobileNetV2中在网络结构的最后一部分用1×1的卷积层来提高特征图的维度,但这造成了一定的延时。为提高实时性,采用了MobileNetV3在保证精度的同时提高了处理效率。MobileNetV3将该1×1的卷积层放在avgpooling后面,利用avg pooling将特征图大小由7×7降到1×1,然后再利用1×1的卷积提高维度。
本发明通过求解前景残差FR,将低分辨率的前景残差应用到高分辨率的输入图像上的形式改善我们的架构,在4K视频和高清视频上运行,并产生比BGM更高质量的结果,实现更准确、更精细的戏曲人物图像抠图。
附图说明
图1是本发明的Base网络结构图;
图2是本发明的Refiner网络结构图;
图3是通过改进的抠图方法的MobileNetV3网络结构图;
图4a是本发明的输入戏曲人物图像;
图4b是本发明的输入戏曲中提前捕获的背景图;
图5是通过改进后的抠图方法的Alpha图;
图6通过改进后的抠图方法的预测误差图;
图7是通过改进后的抠图方法生成的效果图。
具体实施方式
以下结合实施例对本发明的具体内容做进一步详细解释说明。
步骤一:输入以戏曲人物为主体的图片I以及一张提前捕获的背景图片B。
步骤二:将输入图片I和背景图B进行下采样,并将图片I和图片B的分辨率设置为同一值。
步骤三:将下采样之后的值输入到Base网络中进行操作计算出低分辨率图像以产生粗粒度结果和误差预测图Ec。将原网络中的BackBone模块中的网络更改为MobileNetV3实现,此外将网络第一层卷积更改为图片输入通道。
步骤四:将Base网络处理的粗粒度结果作为Refiner网络的输入,该网络仅对基于误差预测图Ec选择的块进行操作。我们执行两个阶段的细化,首先是原始分辨率的1/2,然后是完全分辨率。减少了冗余计算,恢复了高分辨率的抠图细节。
如图1-3所示,在Refiner网络中,本发明首先对Base网络输出的α蒙版、前景残差FR、隐藏特征H进行双线性重采样并连成特征,之后选取预测误差最大的位置块进行细化,通过两层3×3卷积、Batch Normalization和ReLU将块的维度降低到4×4,然后再将这些中间特征上采样到8×8,之后在通过两层3×3卷积、Batch Normalization和ReLU得到4×4的α蒙版、前景残差FR。换入上一网络中的对应位置,即可完成对局部的细化。
在细化位置的选择上,我们ground-truth误差图定义为E*=|α-α*|,我们计算预测误差和ground-truth误差之间的均方误差作为损失:
LE=||E-E*||2 (5)
其中,LE指预测误差和真实误差之间的均方误差;E指预测误差值;E*指ground-truth误差。
步骤五:依据Refiner网络得到的Alpha值和前景残差FR得到抠图后的结果。
使用F=max(min(FR+I,1),0)从预测的前景残差FR中获得前景层。
如图4a和图4b所示,中将以戏曲人物为前景的图片I以及一张提前捕获的背景图片B作为输入,将输入图片I与背景图B的分辨率设置统一。由Base网络进行粗粒度处理之后可得到如图5Alpha图和图6预测误差图。之后选取预测误差最大的位置块进行细化可得到细化之后的alpha值和前景残差FR。最后由公式F=max(min(FR+I,1),0)可得到恢复后的前景F即人物抠像,如图7所示。
在上述步骤五中的Base网络由backbone、ASPP和解码器三个模块组成。其中backbone模块由MobileV3网络实现。ASPP模块遵循了DeepLabV3中提出的ASPP模块的原始实现。ASPP模块由多个扩张率分别为3、6和9的膨胀卷积滤波器组成。解码器网络采用双线性上采样,通过3×3卷积和RELU激活实现。
在上述步骤五中,对求得的alpha值进行损失计算,我们在α蒙版与其梯度上使用L1损失:
Figure BDA0003098809340000061
其中,Lα指α的L1损失;α指α蒙版值,其值介于0和1之间;α*指ground-truth值,
Figure BDA0003098809340000062
指其梯度值。
在上述步骤五中求其恢复后的前景图F,对此计算损失,其中对α*>0的像素计算L1损失:
LF=||(α*>0)*(F-F*)||1 (4)
其中,LF指前景残差FR的损失函数值;F指前景值;F*指预测的前景值。我们仅在α*>0上计算损失。

Claims (7)

1.一种非绿幕下的实时高分辨率戏曲人物抠图方法,其特征在于包括以下步骤:
步骤一:输入以戏曲人物为主体的图片I以及一张提前捕获的背景图片B;
步骤二:将输入图片I和背景图B进行下采样,并将图片I和图片B的分辨率设置为同一值;
步骤三:将Base网络中的BackBone模块中的网络更改为MobileNetV3,此外将网络第一层卷积更改为图片输入通道;将下采样之后的值输入到Base网络中计算出低分辨率图像以产生粗粒度结果和误差预测图Ec,粗粒度结果为Alpha值、前景残差FR和一个32通道的隐藏特征Hc
其中,前景残差FR由预测的前景值和输入图像得到;
FR=F-I
其中,F为预测的前景图,I为输入的图像;
步骤四:将Base网络处理的粗粒度结果作为Refiner网络的输入,对预测误差最大的位置块进行细化,该Refiner网络仅对基于误差预测图Hc选择的块进行操作;
步骤五:依据Refiner网络得到的Alpha值和前景残差FR得到抠图后的结果,即得到戏曲人物的抠像。
2.根据权利要求1所述的一种非绿幕下的实时高分辨率戏曲人物抠图方法,其特征在于:所述步骤三中采用MobileNetV3作为Base网络的BackBone,MobileNetV3将其1×1的卷积层放在avg pooling后面,利用avg pooling将特征图维度降低,然后再利用1×1的卷积提高维度。
3.根据权利要求1所述的一种非绿幕下的实时高分辨率戏曲人物抠图方法,其特征在于:所述步骤三中本发明将MobileNetV3网络的第一层卷积更改为接受输入图像和背景图像的6个通道。
4.根据权利要求1所述的一种非绿幕下的实时高分辨率戏曲人物抠图方法,其特征在于:所述步骤四中执行两个阶段的细化,首先是原始分辨率的1/2,然后是完全分辨率。
5.根据权利要求4所述的一种非绿幕下的实时高分辨率戏曲人物抠图方法,其特征在于:细化时,通过两层3×3卷积、Batch Normalization和ReLU将块的维度降低到4×4,然后再将得到的中间特征上采样到8×8,之后在通过两层3×3卷积、Batch Normalization和ReLU得到4×4的α蒙版、前景残差FR,换入上一网络中的对应位置完成对局部的细化。
6.根据权利要求1所述的一种非绿幕下的实时高分辨率戏曲人物抠图方法,其特征在于:所述步骤五中得到的人物抠像结果即恢复后的前景图F是通过将前景残差FR加入到输入图像I中进行适当的收缩得到;
F=max(min(FR+I,1),0)
其中,FR为前景残差,I为输入的图像。
7.根据权利要求1所述的一种非绿幕下的实时高分辨率戏曲人物抠图方法,其特征在于:所述Base网络的损失函数是其输入的损失的加和:
Figure FDA0003098809330000021
其中,
Figure FDA0003098809330000022
指α蒙版与其梯度上的损失;
Figure FDA0003098809330000023
指前景残差的损失;
Figure FDA0003098809330000024
指预测误差和ground-truth误差之间的均方误差;
所述Refiner网络的损失为:
Lrefine=Lα+LF (7)
其中,Lα指α蒙版与其梯度上的损失;LF指前景残差的损失。
CN202110618876.2A 2021-06-03 2021-06-03 一种非绿幕下的实时高分辨率戏曲人物抠图方法 Active CN113240701B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110618876.2A CN113240701B (zh) 2021-06-03 2021-06-03 一种非绿幕下的实时高分辨率戏曲人物抠图方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110618876.2A CN113240701B (zh) 2021-06-03 2021-06-03 一种非绿幕下的实时高分辨率戏曲人物抠图方法

Publications (2)

Publication Number Publication Date
CN113240701A true CN113240701A (zh) 2021-08-10
CN113240701B CN113240701B (zh) 2024-02-27

Family

ID=77136711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110618876.2A Active CN113240701B (zh) 2021-06-03 2021-06-03 一种非绿幕下的实时高分辨率戏曲人物抠图方法

Country Status (1)

Country Link
CN (1) CN113240701B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114399454A (zh) * 2022-01-18 2022-04-26 平安科技(深圳)有限公司 图像处理方法、装置、电子设备及存储介质
CN118134955A (zh) * 2024-05-07 2024-06-04 江苏物润船联网络股份有限公司 基于人工智能的无绿幕人像自动抠图方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200364870A1 (en) * 2019-05-14 2020-11-19 University-Industry Cooperation Group Of Kyung Hee University Image segmentation method and apparatus, and computer program thereof
CN112446380A (zh) * 2019-09-02 2021-03-05 华为技术有限公司 图像处理方法和装置
CN112489056A (zh) * 2020-12-01 2021-03-12 叠境数字科技(上海)有限公司 一种适用于移动端的实时人体抠图方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200364870A1 (en) * 2019-05-14 2020-11-19 University-Industry Cooperation Group Of Kyung Hee University Image segmentation method and apparatus, and computer program thereof
CN112446380A (zh) * 2019-09-02 2021-03-05 华为技术有限公司 图像处理方法和装置
CN112489056A (zh) * 2020-12-01 2021-03-12 叠境数字科技(上海)有限公司 一种适用于移动端的实时人体抠图方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
冉清;冯结青;: "人体前景的自动抠图算法", 计算机辅助设计与图形学学报, no. 02 *
张万绪;史剑雄;陈晓璇;汪霖;赵明;周延;牛进平;: "基于稀疏表示与引导滤波的图像超分辨率重建", 计算机工程, no. 09 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114399454A (zh) * 2022-01-18 2022-04-26 平安科技(深圳)有限公司 图像处理方法、装置、电子设备及存储介质
CN118134955A (zh) * 2024-05-07 2024-06-04 江苏物润船联网络股份有限公司 基于人工智能的无绿幕人像自动抠图方法

Also Published As

Publication number Publication date
CN113240701B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
US11429824B2 (en) Method and system of deep supervision object detection for reducing resource usage
CN108921786B (zh) 基于残差卷积神经网络的图像超分辨率重构方法
CN113240701A (zh) 一种非绿幕下的实时高分辨率戏曲人物抠图方法
CN112543317B (zh) 高分辨率单目2d视频到双目3d视频的转制方法
CN109102462A (zh) 一种基于深度学习的视频超分辨率重建方法
CN108376392A (zh) 一种基于卷积神经网络的图像运动模糊去除方法
CN110570377A (zh) 一种基于组归一化的快速图像风格迁移方法
CN113096017A (zh) 基于深度坐标注意力网络模型的图像超分辨率重建方法
CN112489056A (zh) 一种适用于移动端的实时人体抠图方法
CN112288630A (zh) 一种基于改进的广泛深度神经网络的超分辨率图像重建方法及系统
CN114723760B (zh) 人像分割模型的训练方法、装置及人像分割方法、装置
CN111654621B (zh) 一种基于卷积神经网络模型的双焦相机连续数字变焦方法
CN108989731A (zh) 一种提高视频空间分辨率的方法
WO2023066173A1 (zh) 图像处理方法、装置及存储介质、电子设备
CN113112401A (zh) 一种基于跨尺度纹理迁移的图像超分辨率方法
Tang et al. Very deep residual network for image matting
CN103312941A (zh) 基于凸优化理论的视频联合去噪及超分辨率方法和系统
CN114359044A (zh) 一种基于参考图像的图像超分辨率系统
Guo et al. Pft-ssr: Parallax fusion transformer for stereo image super-resolution
CN110378850A (zh) 一种结合块匹配和神经网络的变焦图像生成方法
CN115457266A (zh) 基于注意力机制的高分辨率实时自动绿幕抠像方法及系统
CN101276476A (zh) 对2d卡通动画的前景背景分离方法
CN116579940A (zh) 一种基于卷积神经网络的实时低照度图像增强方法
CN110853040B (zh) 一种基于超分辨率重建的图像协同分割方法
CN115482265A (zh) 一种基于连续视频流的室外场景深度补全方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant