CN113936028A - 结合自动产生三元图与深层空洞卷积网络之数字抠像技术 - Google Patents
结合自动产生三元图与深层空洞卷积网络之数字抠像技术 Download PDFInfo
- Publication number
- CN113936028A CN113936028A CN202111212954.5A CN202111212954A CN113936028A CN 113936028 A CN113936028 A CN 113936028A CN 202111212954 A CN202111212954 A CN 202111212954A CN 113936028 A CN113936028 A CN 113936028A
- Authority
- CN
- China
- Prior art keywords
- image
- matting
- network
- stage
- deep
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000010586 diagram Methods 0.000 claims abstract description 63
- 238000013528 artificial neural network Methods 0.000 claims description 34
- 238000012549 training Methods 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 8
- 230000001537 neural effect Effects 0.000 claims description 8
- 238000007670 refining Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 13
- 239000002131 composite material Substances 0.000 abstract 1
- 239000011800 void material Substances 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 4
- 244000025254 Cannabis sativa Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000011248 coating agent Substances 0.000 description 2
- 238000000576 coating method Methods 0.000 description 2
- 241001282153 Scopelogadus mizolepis Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明涉及数字抠像技术领域的自动产生三元图与深层空洞卷积网络之数字抠像技术,此技术与数字抠像有关,数字抠像之目的在于撷取影像中之前景物,之后可将其置放于各种不同的背景中,产生不同特效的合成影像。本发明包括自动产生影像的三元图、深层空洞卷积网络提升抠像解析度和多阶段数字抠像一次完成。
Description
技术领域
本发明涉及数字抠像技术领域,具体涉及自动产生三元图与深层空洞卷积网络之数字抠像技术。
背景技术
数字抠像问题可以数学式子表示为I=αF+(1-α)B,其中I为输入影像,F和B分别代表前景与背景影像,每个像素的α值介于0和1之间,描述该像素被前景物覆盖的程度,α值所形成的影像称为α影像。上式中只有I是已知,其余F、B和α均为未知,因此数字抠像问题是一种所谓条件不足的问题。要解决这类的问题需要引进额外的信息或条件,数字抠像技术因此被分成了两大类:以草涂和以三元图为基础的技术类。
很明显地,三元图所能提供的信息要比草涂来得多。一张三元图是由三个区域所构成:白色、黑色以及灰色区域,分别对应影像中的前景物、背景区域、和不确定地区。通常以三元图为基础的技术其抠像结果,会比以草涂为主的结果好。本发明即以三元图作为主要的额外信息来源。但是现有以三元图为主的抠像技术存在有以下的缺点:1)三元图的取得不容易,2)三元图虽可由手工制作,但质量不稳定,3)又在数量庞大时非常费时。本发明针对以上缺点提出可自动产生影像三元图的技术。
近年来深度学习及其应用,在各种不同领域中被广泛探讨。这种基于深度学习发展的技术,较传统技术最大的好处是,前者有自我学习的能力,无论是在程序设计时或未来在使用程序时,都不必有太多人力的介入,相当方便;此外在改善输出质量时,可藉由加强训练来达成,不必重新改写程序。目前以深度学习为基础的抠像技术也在陆续发表中,由于仍处在初期发展阶段,在效益上还无法达到传统技术的水平,仍存在着许多可以改进的空间。本发明所提之技术即建立在深度学习的概念上,集结了两个现有著名的深层神经网络以及一自创的空洞卷积神经网络。空洞卷积网络引进目的,在于它可以提升侦测不同解析度特征的能力。
即现有的三元里抠像技术存在的缺陷有:1)取三元图的抠像结果比取草涂的抠像结果要不容易。2)三元图手工制作时,质量不稳定,且在数量庞大时非常费时。
发明内容
本发明的目的是解决以上缺陷,提供自动产生三元图与深层空洞卷积网络之数字抠像技术。
本发明的目的是通过以下方式实现的:结合自动产生三元图与深层空洞卷积网络之数字抠像技术,包括自动产生影像的三元图、深层空洞卷积网络提升抠像解析度和多阶段数字抠像一次完成,
所述自动产生影像的三元图T包括输入影像I、前景物、两个深层神经网络和三元图T:首先利用输入影像设备输入输入影像I,再利用训练数据训练两个深层神经网络分别对输入影像I进行不同精度的侦测定位前景物,两个深层神经网络的输出结果分别为图像F1和F2,最后运用计算式有T=(F2-F1)/2+F1算出三元图T;
所述深层空洞卷积网络提升抠像解析度,包括卷积层、滤波器和解析度,卷积层包括空洞卷积层与一般卷积层,卷积层的主要工作为输入影像I与滤波器进行卷积运算,滤波器包括空洞滤波器和核心滤波器,空洞滤波器具有不同大小的空洞率,核心滤波器具有不同大小的接收场,空洞率大的滤波器覆盖的空间范围大,侦测前景物的高解析度特征,接收场大的滤波器,侦测前景物的大尺度特征,
所述多阶段数字抠像一次完成,包括抠像的有三个阶段:第一阶段制作输入影像I的三元图T、第二阶段进行数字影像的抠像和第三阶段前景物的撷取,
所述第一阶段制作输入影像I的三元图T为两个深层神经网络分别对输入影像I进行不同精度的侦测以定位前景物,之后结合侦测结果自动产生出三元图T;
所述第二阶段进行数字影像的抠像为深层空洞卷积网络与神经模块结合形成抠像神经网络,抠像神经网络输出的结果为α影像,
所述第三阶段前景物的撷取,α影像联合输入影像I根据式子有I=αF+(1-α)B,推导出前景影像F和背景影像B,第一阶段制作输入影像I的三元图T、第二阶段进行数字影像的抠像和第三阶段前景物的撷取不用分段执行,一次完成,亦即只要输入影像I,即可迅速输出α、F和B。
上述说明中,作为优选的方案,所述神经模块包括编码-解码网络和精炼网络,深层空洞卷积网络先和编码-解码网络并联后,再与精炼网络串联,形成抠像神经网络。
上述说明中,作为优选的方案,所述深层空洞卷积网络包含有三个空洞卷积层和二个一般卷积层,三个空洞卷积层分别使用有六空洞率滤波器、十二空洞率滤波器和十八空洞率滤波器。
上述说明中,作为优选的方案,所述是空洞卷积层或是一般的卷积层,每个卷积层均使用有十六个滤波器,空洞卷积层与一般卷积层之间的连接方式为一个一般卷积层的输出结合三个空洞卷积层的输出,再一起输入另一个一般卷积层。
本发明所产生的有益效果如下:结合自动产生三元图与深层空洞卷积网络之数字抠像技术,其特征在于,包括自动产生影像的三元图、深层空洞卷积网络提升抠像解析度和多阶段数字抠像一次完成,
所述自动产生影像的三元图T包括输入影像I、前景物、两个深层神经网络和三元图T:首先利用输入影像设备输入输入影像I,再利用训练数据训练两个深层神经网络分别对输入影像I进行不同精度的侦测以定位前景物,两个深层神经网络的输出结果分别为图像F1和F2,最后运用计算式有T=(F2-F1)/2+F1算出三元图T,之后再根据上述T=(F2-F1)/2+F1,即可结合出三元图T,整个过程不需要外力介入,可以完全自动达成。
所述深层空洞卷积网络提升抠像解析度,包括卷积层、滤波器和解析度,卷积层包括空洞卷积层与一般卷积层,卷积层的主要工作为输入影像I与滤波器进行卷积运算,滤波器包括空洞滤波器和核心滤波器,空洞滤波器具有不同大小的空洞率,核心滤波器具有不同大小的接收场,空洞率大的滤波器覆盖的空间范围大,侦测高解析度的特征,接收场大的滤波器,侦测大尺度的特征,
所述多阶段数字抠像一次完成,包括抠像的有三个阶段:第一阶段制作输入影像I的三元图T、第二阶段进行数字影像的抠像和第三阶段前景物的撷取,
所述第一阶段制作输入影像I的三元图T为两个深层神经网络分别对前景物进行不同精度的侦测,之后结合侦测结果自动产生出三元图T;
所述第二阶段进行数字影像的抠像为深层空洞卷积网络与神经模块结合形成抠像神经网络,抠像神经网络输出的结果为α影像,
所述第三阶段前景物的撷取,α影像联合输入影像I根据式子有I=αF+(1-α)B,推导出前景影像F和背景影像B,第一阶段制作输入影像I的三元图T、第二阶段进行数字影像的抠像和第三阶段前景物的撷取不用分段执行,一次完成,亦即只要输入影像I,即可迅速输出α、F和B。
附图说明
图1为本发明中数字抠像例子的示意图,其中第一幅图为输入影像I、第二幅图为抠出之前景物和第三幅图为置入于不同背景的示意图;
图2为本发明中数字抠像系统之流程图;
图3为本发明中额外的信息的示意图其中第一幅图为输入影像I,第二幅图为草涂,第三幅图为三元图;
图4本发明中三元图的产生过程的示意图;
图5本发明中抠像神经网络流程图的示意图;
图6本发明中不同接收场三乘三、五乘五和七乘七的滤波器的示意图;
图7本发明中空洞率为一、二和三的三乘三滤波器的示意图;
图8本发明中空洞卷积网络架构的示意图;
图9本发明中抠像神经网络架构的示意图;
图10本发明中三元图产生实例的示意图,其中第一幅图为输入影像I、第二幅图为F1、第三幅图为F2和第四幅图为三元图T;
图11本发明中施作例子的示意图,其中第一幅图为输入影像I、第二幅图为α影像、第三幅图为前景影像F和第四幅图为背景影像B。
具体实施方式
为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。以下结合附图对本发明进行详细的描述。
请参阅图1-11,其具体实施的所述自动产生影像的三元图T包括输入影像I中的前景物、两个深层神经网络和三元图T:首先利用输入影像设备输入输入影像I,再利用训练数据训练两个深层神经网络分别对输入影像I进行不同精度的侦测以定位前景物,深层神经网络训练时所需之训练数据,有以下几种来源:(1)学术机构,例如PASCAL VOC数据库;(2)研究网站,例如alphamatting.com网页;(3)企业单位,例如Adobe研究中心;(4)自行制作,利用图像处理工具和作图工具。训练数据是以输入数据和输出结果成对的方式呈现给神经网络作训练。两个深层神经网络的输出结果分别为图像F1和F2,最后运用计算式有T=(F2-F1)/2+F1算出三元图T;
所述深层空洞卷积网络提升抠像解析度,包括卷积层、滤波器和解析度,卷积层包括空洞卷积层与一般卷积层,卷积层的主要工作为输入影像I与滤波器进行卷积运算,滤波器包括空洞滤波器和核心滤波器,空洞滤波器具有不同大小的空洞率,核心滤波器具有不同大小的接收场,空洞率大的滤波器覆盖的空间范围大,侦测高解析度的特征,接收场大的滤波器,侦测大尺度的特征。深层空洞卷积网络包含有三个空洞卷积层和二个一般卷积层,三个空洞卷积层分别使用有六空洞率滤波器、十二空洞率滤波器和十八空洞率滤波器,空洞卷积层或是一般的卷积层,每个卷积层均使用有十六个滤波器,空洞卷积层与一般卷积层之间的连接方式为一个一般卷积层的输出结合三个空洞卷积层的输出,再一起输入另一个一般卷积层。
所述多阶段数字抠像一次完成,包括抠像的有三个阶段:第一阶段制作输入影像I的三元图T、第二阶段进行数字影像的抠像和第三阶段前景物的撷取,
所述第一阶段制作输入影像I的三元图T为两个深层神经网络分别对前景物进行不同精度的侦测,之后结合侦测结果自动产生出三元图T;
所述第二阶段进行数字影像的抠像为深层空洞卷积网络与神经模块结合形成抠像神经网络,抠像神经网络输出的结果为α影像,神经模块包括编码-解码网络和精炼网络,深层空洞卷积网络先和编码-解码网络并联后,再与精炼网络串联,形成抠像神经网络。神经模块是作者事先就训练好了的网络,而空洞卷积网络本身没有参数需要藉由训练来学习,所以抠像神经网络在此不必作训练。
所述第三阶段前景物的撷取,α影像联合输入影像I根据式子有I=αF+(1-α)B,推导出前景影像F和背景影像B,第一阶段制作输入影像I的三元图T、第二阶段进行数字影像的抠像和第三阶段前景物的撷取不用分段执行,一次完成,亦即只要输入影像I,即可迅速输出α、F和B。
以上内容是结合具体的优选实施例对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应视为本发明的保护范围。
Claims (4)
1.结合自动产生三元图与深层空洞卷积网络之数字抠像技术,其特征在于,包括自动产生影像的三元图、深层空洞卷积网络提升抠像解析度和多阶段数字抠像一次完成,
所述自动产生影像的三元图T包括输入影像I、前景物、两个深层神经网络和三元图T:首先利用输入影像设备输入输入影像I,再利用训练数据训练两个深层神经网络分别对输入影像I进行不同精度的侦测定位前景物,两个深层神经网络的输出结果分别为图像F1和F2,最后运用计算式有T=(F2-F1)/2+F1算出三元图T;
所述深层空洞卷积网络提升抠像解析度,包括卷积层、滤波器和解析度,卷积层包括空洞卷积层与一般卷积层,卷积层的主要工作为输入影像I与滤波器进行卷积运算,滤波器包括空洞滤波器和核心滤波器,空洞滤波器具有不同大小的空洞率,核心滤波器具有不同大小的接收场,空洞率大的滤波器覆盖的空间范围大,侦测前景物的高解析度特征,接收场大的滤波器,侦测前景物的大尺度特征,
所述多阶段数字抠像一次完成,包括抠像的有三个阶段:第一阶段制作输入影像I的三元图T、第二阶段进行数字影像的抠像和第三阶段前景物的撷取,
所述第一阶段制作输入影像I的三元图T为两个深层神经网络分别对输入影像I进行不同精度的侦测以定位前景物,之后结合侦测结果自动产生出三元图T;
所述第二阶段进行数字影像的抠像为深层空洞卷积网络与神经模块结合形成抠像神经网络,抠像神经网络输出的结果为α影像,
所述第三阶段前景物的撷取,α影像联合输入影像I根据式子有I=αF+(1-α)B,推导出前景影像F和背景影像B,第一阶段制作输入影像I的三元图T、第二阶段进行数字影像的抠像和第三阶段前景物的撷取不用分段执行,一次完成,亦即只要输入影像I,即可迅速输出α、F和B。
2.根据权利要求1所述结合自动产生三元图与深层空洞卷积网络之数字抠像技术,其特征在于,所述神经模块包括编码-解码网络和精炼网络,深层空洞卷积网络先和编码-解码网络并联后,再与精炼网络串联,形成抠像神经网络。
3.根据权利要求1所述结合自动产生三元图与深层空洞卷积网络之数字抠像技术,其特征在于,所述深层空洞卷积网络包含有三个空洞卷积层和二个一般卷积层,三个空洞卷积层分别使用有六空洞率滤波器、十二空洞率滤波器和十八空洞率滤波器。
4.根据权利要求1所述结合自动产生三元图与深层空洞卷积网络之数字抠像技术,其特征在于,所述是空洞卷积层或是一般的卷积层,每个卷积层均使用有十六个滤波器,空洞卷积层与一般卷积层之间的连接方式为一个一般卷积层的输出结合三个空洞卷积层的输出,再一起输入另一个一般卷积层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111212954.5A CN113936028B (zh) | 2021-10-19 | 2021-10-19 | 一种结合自动产生三元图与深层空洞卷积网络之数字抠像系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111212954.5A CN113936028B (zh) | 2021-10-19 | 2021-10-19 | 一种结合自动产生三元图与深层空洞卷积网络之数字抠像系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113936028A true CN113936028A (zh) | 2022-01-14 |
CN113936028B CN113936028B (zh) | 2024-09-06 |
Family
ID=79280378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111212954.5A Active CN113936028B (zh) | 2021-10-19 | 2021-10-19 | 一种结合自动产生三元图与深层空洞卷积网络之数字抠像系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113936028B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111161277A (zh) * | 2019-12-12 | 2020-05-15 | 中山大学 | 一种基于深度学习的自然图像抠图方法 |
CN111724400A (zh) * | 2020-06-29 | 2020-09-29 | 北京高思博乐教育科技股份有限公司 | 视频自动抠像方法及系统 |
US20200380665A1 (en) * | 2018-02-16 | 2020-12-03 | Panasonic Intellectual Property Management. Co,, Ltd. | Processing method for performing process on image and processing device using the processing method |
WO2021051520A1 (zh) * | 2019-09-18 | 2021-03-25 | 平安科技(深圳)有限公司 | 图像识别、训练识别模型的方法、相关设备及存储介质 |
-
2021
- 2021-10-19 CN CN202111212954.5A patent/CN113936028B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200380665A1 (en) * | 2018-02-16 | 2020-12-03 | Panasonic Intellectual Property Management. Co,, Ltd. | Processing method for performing process on image and processing device using the processing method |
WO2021051520A1 (zh) * | 2019-09-18 | 2021-03-25 | 平安科技(深圳)有限公司 | 图像识别、训练识别模型的方法、相关设备及存储介质 |
CN111161277A (zh) * | 2019-12-12 | 2020-05-15 | 中山大学 | 一种基于深度学习的自然图像抠图方法 |
CN111724400A (zh) * | 2020-06-29 | 2020-09-29 | 北京高思博乐教育科技股份有限公司 | 视频自动抠像方法及系统 |
Non-Patent Citations (1)
Title |
---|
李华;张超;权巍;韩成;翟宏宇;刘婷婷;: "一种基于Kinect深度图的人像自动抠像算法", 长春理工大学学报(自然科学版), no. 06, 15 December 2016 (2016-12-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN113936028B (zh) | 2024-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111292264B (zh) | 一种基于深度学习的图像高动态范围重建方法 | |
CN112733950A (zh) | 一种基于图像融合与目标检测结合的电力设备故障诊断方法 | |
CN110599445A (zh) | 一种电网螺母和销的目标鲁棒检测与缺陷识别方法及装置 | |
CN112884758B (zh) | 一种基于风格迁移方法的缺陷绝缘子样本生成方法及系统 | |
CN112287941B (zh) | 一种基于自动字符区域感知的车牌识别方法 | |
CN113344826A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
CN115330653A (zh) | 基于边窗滤波的多源图像融合方法 | |
CN111275642B (zh) | 一种基于显著性前景内容的低光照图像增强方法 | |
CN114372931A (zh) | 一种目标对象虚化方法、装置、存储介质及电子设备 | |
CN115841438A (zh) | 基于改进gan网络的红外图像与可见光图像融合方法 | |
CN117557774A (zh) | 一种基于改进YOLOv8的无人机图像小目标检测方法 | |
CN114140366A (zh) | 一种红外图像与可见光图像融合方法、系统、设备及终端 | |
CN112330562B (zh) | 一种异构遥感图像变换方法及系统 | |
CN112215766B (zh) | 一种图像复原与图像增强相融合的图像去雾方法及其卷积网络 | |
CN116452469B (zh) | 一种基于深度学习的图像去雾处理方法及装置 | |
Wang et al. | Improvement of non-maximum suppression in RGB-D object detection | |
CN113936028A (zh) | 结合自动产生三元图与深层空洞卷积网络之数字抠像技术 | |
CN113962332B (zh) | 基于自优化融合反馈的显著目标识别方法 | |
CN116109813A (zh) | 一种钻锚孔识别方法、系统、电子设备及介质 | |
Bhuvaneswari et al. | An efficient method for digital imaging of ancient stone inscriptions | |
Motayyeb et al. | Enhancing contrast of images to improve geometric accuracy of a UAV photogrammetry project | |
CN112347972A (zh) | 一种基于深度学习的高动态感兴趣区域图像处理方法 | |
CN116912149B (zh) | 图像增强方法、装置及电子设备 | |
CN117809169B (zh) | 一种小样本水下声呐图像分类方法及其模型搭建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |