CN111696026A - 基于l0正则项的可逆灰度图算法、计算设备 - Google Patents
基于l0正则项的可逆灰度图算法、计算设备 Download PDFInfo
- Publication number
- CN111696026A CN111696026A CN202010370633.7A CN202010370633A CN111696026A CN 111696026 A CN111696026 A CN 111696026A CN 202010370633 A CN202010370633 A CN 202010370633A CN 111696026 A CN111696026 A CN 111696026A
- Authority
- CN
- China
- Prior art keywords
- image
- residual
- color
- map
- reversible
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002441 reversible effect Effects 0.000 title claims abstract description 57
- 230000006835 compression Effects 0.000 claims abstract description 35
- 238000007906 compression Methods 0.000 claims abstract description 35
- 238000004040 coloring Methods 0.000 claims abstract description 29
- 238000003860 storage Methods 0.000 claims abstract description 12
- 238000000034 method Methods 0.000 claims description 44
- 238000012549 training Methods 0.000 claims description 36
- 238000009826 distribution Methods 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 27
- 238000005457 optimization Methods 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 230000000007 visual effect Effects 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 7
- 238000005315 distribution function Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000002238 attenuated effect Effects 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000012938 design process Methods 0.000 claims description 3
- 230000000670 limiting effect Effects 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 238000011084 recovery Methods 0.000 claims description 3
- 230000002829 reductive effect Effects 0.000 claims description 3
- 238000005406 washing Methods 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 15
- 230000009467 reduction Effects 0.000 description 13
- 238000013507 mapping Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000001427 coherent effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000004042 decolorization Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000005184 irreversible process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于L0正则项的可逆灰度图算法、计算设备,算法首先获取数据集,数据集中具有多张彩色图像;设计编码器和解码器;然后利用编码器将每张彩色图像的色彩信息编码到残差图,其中,在编码器的末端利用L0正则化层对残差图进行稀疏度约束,得到稀疏化的残差图;选取每张彩色图像在CIE Lab颜色空间的L通道灰度图进行有损压缩,得到占用较小存储空间的参考灰度图;再针对每张彩色图像,利用解码器将稀疏化的残差图与参考灰度图相结合,生成与原彩色图像近似的可逆灰度图,可逆灰度图上色后即得与原彩色图像基本相同的还原图像。本发明实现了图像的可靠去色与图像的高质量还原上色。
Description
技术领域
本发明涉及图像上色和图像去色技术领域,特别涉及一种基于L0正则项的可逆灰度图算法、计算设备。
背景技术
彩色图转换为灰度图,在美学艺术,黑白图片打印等方面有着重要应用。然而,通过现有去色方法得到的灰度图片,因为通道削减(Channel Reduction)的原因,损失了重要的彩色信息,所以不能被很好地还原回相应的彩色图片。与此同时,已有的上色方法,数据驱动(Data-Driven)上色法或者外加提示(External Hints)上色法,都不能产生视觉可信的上色结果。数据驱动上色法是直接用神经网络拟合灰度图到彩色图的映射函数(MappingFunction),由于上色是个一对多问题,即对一张灰度图,可以有不同的上色结果,就像一个人的衣服可以是红色,也可以是蓝色,因此数据驱动上色法会导致上色不准确,颜色过于平均。而对于外加提示上色法,由于外部的提示过于稀疏(Sparsity)而导致上色不够准确,因此也不能实现较好的上色。
以上方法的效果差,原因在于对灰度图进行上色本质上是一个一对多的映射问题,因此诸多上色方法都不能对灰度图进行可靠上色,即将灰度图恢复成初始的彩色效果。为了解决这一问题,有人提出了可逆灰度图的方案,将彩色信息通过设计好的编码器编码进可逆灰度图中,然后使用设计好的解码器将可逆灰度图中彩色编码信息及上下文的灰度信息综合考虑后,实现对彩色信息的可靠还原。但是当这个可逆灰度图被编码进相当多的彩色信息后,由于图片的大小问题,可逆灰度图并不适合用作实际的存储和传输。这是因为生成的灰度图必须存储在位图中,因此不能与现有的有损压缩算法兼容,如果使用现有的有损压缩算法将编码器输出的灰度图压缩,虽然减小了灰度图的大小,但是存储于可逆灰度图中的彩色信息却也被损坏了,这将导致色彩扭曲,产生错误的上色结果。另一方面,因为已有的有损压缩算法是不可微的,所以也不能直接将压缩算法添加进模型的训练过程中进行训练。
发明内容
本发明的第一目的在于克服现有技术的缺点与不足,提供一种基于L0正则项的可逆灰度图算法,该算法实现了图像的可靠去色与图像的高质量还原上色。
本发明的第二目的在于提供一种计算设备。
本发明的第一目的通过下述技术方案实现:一种基于L0正则项的可逆灰度图算法,步骤如下:
S1、获取数据集,数据集中具有多张彩色图像;
S2、设计编码器和解码器;
S3、利用编码器将每张彩色图像的色彩信息编码到残差图,其中,在编码器的末端利用L0正则化层对残差图进行稀疏度约束,得到稀疏化的残差图;
选取每张彩色图像在CIE Lab颜色空间的L通道灰度图进行有损压缩,得到占用较小存储空间的参考灰度图;
S4、对于每张彩色图像,利用解码器将稀疏化的残差图与参考灰度图相结合,生成与原彩色图像近似的可逆灰度图,可逆灰度图上色后即得与原彩色图像基本相同的还原图像。
优选的,编码器为深度神经网络,其网络结构包括依次连接的两个步长为1的卷积层、两个步长为2的卷积层、九个残差层、不多于两个的反卷积层和L0正则化层;
步长为1的卷积层用于浅层特征提取;步长为2的卷积层用于下采样去除冗余信息;残差层用于深度提取色彩特征;
反卷积层用于将特征还原为输入图像的空间大小并生成残差图,反卷积层的数量由残差图所需的分辨率决定,不同层数的反卷积层生成不同分辨率的残差图;
L0正则化层用于约束残差图中的零元素数量,L0正则化层实质上是一个二进制门开关,数值1表示此像素的彩色信息被保留,而数值0则表示此像素被丢弃。
更进一步的,编码器的设计过程如下:
S21、从数据集中随机地选取M张彩色图像作为训练集,并对训练集进行预处理:将彩色图像经放大或缩小后裁剪为统一的分辨率,将其转化为编码器网络可以批量处理的数据结构;
S22、为了获得更好的网络收敛性质,首先对编码器除L0正则化层之外的网络进行训练:
设定初始学习率、初始训练周期和模型的训练批量数,设定所有二进制门为1,然后对网络进行训练,其中,训练集中的彩色图像在RGB色彩空间下的RGB三通道值作为网络的输入,网络输出的是彩色图像对应的残差图,当达到预设的初始训练周期时,学习率衰减为0;
S23、将L0正则化层加入到上述训练后的网络,然后再对整个深度神经网络训练额外的训练周期,使用Adam优化器来优化整个网络的权重,最终得到编码器。
更进一步的,对于L0正则化层,其生成稀疏化的残差图即是求解残差图R的L0范式‖R‖0;
在设计L0正则化层时,考虑到L0范式‖R‖0的不可微性质,‖R‖0很难得到最优解,故提出如下策略求解‖R‖0:
(1)重参数策略:
其中,R是残差图,G是掩码图,i,j是图中元素的坐标,是指反卷积层输出的残差图和对应的掩码图的相应元素相乘,当相乘结果为1时,表示该元素成功通过二进制门;L0范式‖R‖0在此处表示的是成功通过这些门的元素数量;
(2)硬分布函数:
由于G是一个离散的随机变量序列,适用的范围在{0,1}之间,不能使用基于梯度的优化方法来求解期望方程,故引入一个连续的随机变量序列C,C满足硬分布h(·),对C使用一个hard Sigmoid rectification函数t(·)来获取二进制门,即:
C~h(C|δ),G=t(C)=min(1,max(0,C))
其中,δ是h(·)的参数;
为了更好地模拟二进制门,引入一个hard sigmoid激活函数,二进制门非零的概率可以被计算为:
h(C≠0|δ)=1-H(C≤0|δ);
(3)二次重参数策略:
为了平稳优化δ,将硬分布h(C)的期望转化为一个参数噪声较少的分布v(ψ),即:
其中,o(·)是带有参数δ和参数ψ的可微分的确定性函数,然后通过门特卡罗近似,将如上方程变成关于参数δ的可微分方程:
G(k)=t(o(δ,ψ(k))),ψ(k)~v(ψ)
其中,K表明ψ(k)的采样次数;G(k)和ψ(k)均是第K次采样的参数数值;
式中,唯一需要学习的参数是logξi,j;
当L0稀疏度损失被正确训练后,便能提取出具有差异化的彩色信息,并将其编码进残差图中;通过设置不同的L0稀疏度,就可以获得含有不同信息量的残差图。
更进一步的,解码器为深度神经网络,其网络结构包括依次连接的两个步长为2的卷积层,九个残差层和不多于两个的反卷积层;
其中,解码器的反卷积层数量由输入的残差图大小和参考灰度图大小决定,并且,编码器中所移除的反卷积层可根据参考灰度图的大小添加到解码器网络中;
当编码器生成的残差图与参考灰度图分辨率相同时,解码器直接将两者按照元素级别进行相加,即可生成可视化的可逆灰度图;
当编码器生成的残差图与参考灰度图分辨率不同时,残差图依次经过卷积层、残差层和反卷积层处理,得到的上采样后的残差图和参考灰度图的分辨率及特征通道数一致,然后再将残差图和参考灰度图相加,即可生成可逆灰度图。
约束条件具体如下:
其中,I(i)表示的是第i张输入图;O(i)表示的是第i张输出图;M表示的是数据集中的图像总数;‖·‖1表示的是L1范式;
(2)感知损失用于强制实现重构图像和原始彩图在视觉上的相似性,给定I(i)和O(i)作为成对的输入,采用VGG16网络的第三个卷积层来对感知损失进行建模,让表示特定层的输出特征,即和感知损失被建模为:
其中,‖·‖F表示的是弗罗贝尼乌斯范数;
约束(1)和(2)用于对重构质量加以限制;
‖·‖0是L0范式;λ是一个平衡因子,权衡了重构的损失和洗漱度的限制;‖R‖0=#{p|Rp≠0}是残差图R的L0范式,p是计数算子#的输出,用于统计输出的残差图R中0的个数;θ是整个网络模型的各层卷积网络的权重总和;‖R‖0=#{p|Rp≠0}和θ表示的是整个模型f(·)的参数。
优选的,在步骤S1中,通过爬虫获取Pascal VOC 2012数据集中的多张彩色图像,并使用Python读取彩色图像为内存中的二进制数据流。
优选的,有损压缩的方法包括JPEG压缩、CWC压缩和OIC压缩。
本发明的第二目的通过下述技术方案实现:一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现本发明第一目的所述的基于L0正则项的可逆灰度图算法。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明基于L0正则项的可逆灰度图算法,没有像现有方法一样直接生成一个可逆灰度图,而是将整个中间结果切分为两个部分,第一部分将彩色信息编码进残差图中,其只占用了非常小的存储空间,而第二部分则将彩图在CIE Lab空间中的L通道灰度图压缩。这两部分在被解码器预处理后,以特定形式结合在一起,实现彩色信息与内容信息的融合,最后用于彩图的解码。这是从稀疏编码的角度提出的一种新的图像去色与图像上色的策略,有效解决了因为传统去色方法造成的色彩信息缺失问题,实现了图像的可靠去色与图像的高质量还原上色。
(2)本发明设计了用于彩色信息编码和解码的深度神经网络,利用编码器提取彩色信息并将其编码进一张残差图之中,利用解码器将这一残差图和有损压缩后的传统灰度图结合成可逆灰度图,从而可以用于彩色图像的恢复与还原。在这一过程中,不可微的有损压缩方式产生的灰度图以端到端的方式结合进解码网络之中,以此巧妙地绕开了有损压缩的不可微本质。因此,解码器可以在结合了任意的有损压缩方法后仍然保持端到端的可训练性,使得本发明算法更具有实用性以及可靠的色彩还原效果。
(3)本发明提出了一个L0正则化层来对编码器的输出图像的稀疏度进行约束,使得彩色信息被包含在一个非常稀疏的残差图中,从而减少了图像占用的存储空间,而残差图在与任意的压缩方法得到的灰度图相结合后,生成的可逆灰度图能够解决现有的可逆灰度图在传输和存储过程中占用较大空间的问题,具有非常好的实用性。
附图说明
图1是本发明基于L0正则项的可逆灰度图算法的流程图。
图2是不同的压缩方法下的色彩还原效果对比图。
图3是色彩还原效果与残差图中非零元素数量的关系。
图4是三种不同大小的残差图产生的色彩还原效果对比图。
图5(a)是原彩色图像。
图5(b)是图5(a)的残差图。
图5(c)是图5(a)的还原图像。
图5(d)是图5(a)和图5(c)的差别图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
本实施例公开了一种基于L0正则项的可逆灰度图算法,如图1所示,步骤如下:
S1、获取数据集,数据集中具有多张彩色图像。
本实施例具体是通过爬虫获取Pascal VOC 2012数据集中的多张彩色图像,并使用Python读取彩色图像为内存中的二进制数据流。Pascal VOC 2012数据集包含了各种风格以及各种内容的图片,非常有利于模型对色彩信息的学习和提炼。
S2、设计编码器和解码器。
其中,编码器和解码器均为深度神经网络,具体可采用Pytorch深度学习框架来编写神经网络。
对于编码器,其网络结构包括依次连接的两个步长为1的卷积层、两个步长为2的卷积层、九个残差层、不多于两个的反卷积层和L0正则化层:
步长为1的卷积层用于浅层特征提取;步长为2的卷积层用于下采样去除冗余信息;残差层用于深度提取色彩特征。
反卷积层用于将特征还原为输入图像的空间大小并生成残差图,反卷积层的数量由残差图所需的分辨率决定,不同层数的反卷积层生成不同分辨率的残差图。比如说,如果要求残差图大小为512*512,则不用上采样,反卷积层数量为0;如果要求残差图大小为256*256,就上采样一次,反卷积层数量为1;如果要求大小为128*128,就上采样两次,反卷积层数量为2。
L0正则化层用于约束残差图中的零元素数量,生成稀疏化的残差图。L0正则化层实质上是一个二进制门开关,数值1表示此像素的彩色信息被保留,而数值0则表示此像素被丢弃。
编码器的设计过程如下:
S21、从数据集中随机地选取M张彩色图像作为训练集,并对训练集进行预处理:将彩色图像经放大或缩小后裁剪为统一的分辨率,将其转化为编码器网络可以批量处理的数据结构。在本实施例中,训练集图像分辨率统一为256*256。
这里的预处理是为了避免出现pytorch数组的维度不一致问题,使网络能够批量训练,加快训练速度。训练完成之后,输入编码器的图像不用再先做预处理,输入图像可为单个并且大小任意。
S22、为了获得更好的网络收敛性质,首先对编码器除L0正则化层之外的网络进行训练:
设定初始学习率、初始训练周期和模型的训练批量数,设定所有二进制门为1,然后对网络进行训练,其中,训练集中的彩色图像在RGB色彩空间下的RGB三通道值作为网络的输入,网络输出的是彩色图像对应的残差图,当达到预设的初始训练周期时,学习率衰减为0。
在本实施例中,初始学习率为0.2,初始训练周期为100个,额外训练周期为100个,训练批量数为8。
S23、将L0正则化层加入到上述训练后的网络,然后再对整个深度神经网络训练额外的训练周期,使用Adam优化器来优化整个网络的权重,最终得到编码器。Adam优化器是一种梯度下降法。
对于L0正则化层,其生成稀疏化的残差图即是求解残差图R的L0范式‖R‖0。在设计L0正则化层时,考虑到L0范式‖R‖0的不可微性质,‖R‖0很难得到最优解,故提出如下策略求解‖R‖0:
(1)重参数策略(re-parametrization strategy):
其中,R是残差图,G是掩码图,i,j是图中元素的坐标,是指反卷积层输出的残差图和对应的掩码图的相应元素相乘,当相乘结果为1时,表示该元素成功通过二进制门;L0范式‖R‖0在此处表示的是成功通过这些门的元素数量;
(2)硬分布函数:
由于G是一个离散的随机变量序列,适用的范围在{0,1}之间,不能使用基于梯度的优化方法来求解期望方程,故引入一个连续的随机变量序列C,C满足硬分布h(·)(hardconcrete distribution),对C使用一个hard Sigmoid rectification函数t(·)来获取二进制门,即:
C~h(C|δ),G=t(C)=min(1,max(0,C))
其中,δ是h(·)的参数;此处采用了hard concrete分布,可以避免特征元素的收缩。
为了更好地模拟二进制门,引入一个hard sigmoid激活函数,而不是ReLU函数,二进制门非零的概率可以被计算为:
h(C≠0|δ)=1-H(C≤0|δ);
(3)二次重参数策略:
为了平稳优化δ,将硬分布h(C)的期望转化为一个参数噪声较少的分布v(ψ),即:
其中,o(·)是带有参数δ和参数ψ的可微分的确定性函数,然后通过门特卡罗近似,将如上方程变成关于参数δ的可微分方程:
G(k)=t(o(δ,ψ(k))),ψ(k)~v(ψ)
其中,K表明ψ(k)的采样次数;G(k)和ψ(k)均是第K次采样的参数数值;
式中,唯一需要学习的参数是logξi,j;
当L0稀疏度损失被正确训练后,便能提取出具有差异化的彩色信息,并将其编码进残差图中;通过设置不同的L0稀疏度,就可以获得含有不同信息量的残差图。
对于解码器,其网络结构包括依次连接的两个步长为2的卷积层,九个残差层和不多于两个的反卷积层;
其中,解码器的反卷积层数量由输入的残差图大小和参考灰度图大小决定,并且,编码器中所移除的反卷积层可根据参考灰度图的大小添加到解码器网络中,这一设计有助于随需求动态调整残差图中残差块的大小,使之具备不同数量的彩色信息。
当编码器生成的残差图与参考灰度图分辨率相同时,解码器直接将两者按照元素级别进行相加,即可生成可视化的可逆灰度图;
当编码器生成的残差图与参考灰度图分辨率不同时,残差图依次经过卷积层、残差层和反卷积层处理,得到的上采样后的残差图和参考灰度图的分辨率及特征通道数一致,然后再将残差图和参考灰度图相加,即可生成可逆灰度图。
与对残差图直接进行线性插值的方式相比,这里利用反卷积层对残差特征进行上采样提取,有助于对少量且稀疏的残差特征进行更好的表达。
约束条件具体如下:
其中,I(i)表示的是第i张输入图;O(i)表示的是第i张输出图;M表示的是数据集中的图像总数;‖·‖1表示的是L1范式;
尽管像素一致性损失保证了重构图片和原始彩图的像素水平上的相似,但是它无法保证重构效果符合人眼的视觉体验,因为其忽视了彩图中重要的视觉信息,因此引入如下感知损失。
(2)感知损失用于强制实现重构图像和原始彩图在视觉上的相似性(如全局对比度,锐度,等等),给定I(i)和O(i)作为成对的输入,采用VGG16网络的第三个卷积层来对感知损失进行建模,让表示特定层的输出特征,即和VGG16是常用于特征提取的网络结构,可以综合不同水平的特征来评估两张图片在人类视觉层面的相似度,感知损失被建模为:
其中,‖·‖F表示的是弗罗贝尼乌斯范数;
约束(1)和(2)用于对重构质量加以限制;
‖·‖0是L0范式;λ是一个平衡因子,权衡了重构的损失和洗漱度的限制;‖R‖0=#{p|Rp≠0}是残差图R的L0范式,p是计数算子#的输出,用于统计输出的残差图R中0的个数;θ是整个网络模型的各层卷积网络的权重总和;‖R‖0=#{p|Rp≠0}和θ表示的是整个模型f(·)的参数。
S3、利用编码器将每张彩色图像的色彩信息编码到残差图,色彩信息存于残差块中,其中,在编码器的末端利用L0正则化层对残差图进行稀疏度约束以降低残差块大小,得到稀疏化的残差图。
选取每张彩色图像在CIE Lab颜色空间的L通道灰度图进行有损压缩,得到占用较小存储空间的参考灰度图。有损压缩的方法包括JPEG压缩、CWC压缩和OIC压缩。
S4、对于每张彩色图像,利用解码器将稀疏化的残差图与参考灰度图相结合,生成与原彩色图像近似的可逆灰度图,可逆灰度图上色后即得与原彩色图像基本相同的还原图像。
由于彩色维度的削减与恢复是一个不可逆的过程,对灰度图进行重上色会在视觉上产生明显的扭曲,而本实施例算法没有像现有方法一样直接生成一个可逆灰度图,而是将整个中间结果切分为两个部分,第一部分将彩色信息编码进残差图中,其只占用了非常小的存储空间,而第二部分则将彩图在CIE Lab空间中的L通道灰度图压缩。这两部分在被解码器预处理后,以特定形式结合在一起,实现彩色信息与内容信息的融合,最后用于彩图的解码。通过这种方法,编码器将专注于将色彩藏入残差图中,而一个不可微的有损压缩算子被非显性地作为第二部分的输入,被加入到解码器中,以此巧妙地绕开了有损压缩的不可微本质。因此,解码器可以在结合了任意的有损压缩方法后仍然保持端到端的可训练性,使得方法更具有实用性以及可靠的色彩还原效果。本实施例算法输出的可逆灰度图与原彩色图像近似,视觉效果良好。生成的可逆灰度图可用于展示、存储和传输,比如利用可逆灰度图进行打印/印刷,可得到与原彩色图像视觉效果基本一致的印刷品。
此外,可以使用通用的图像相似度比较指标PSNR(峰值信噪比)和SSIM(结构相似性)来评估色彩还原效果。PSNR和SSIM数值越大越好,一般的上色方法只有27-31的PSNR,而本实施例的PSNR能够突破31,可参见图5(c)。
在本实施例中,除了使用JPEG压缩参考灰度图外,本实施例还对其他压缩方法做了相应的对照实验。由图2可以看出,其他压缩方法运用本实施例算法的表现得比JPEG要好,PSNR和SSIM更大,还原效果甚至接近没有压缩的版本,可见,本实施例可逆灰度图算法尤其是在更先进的压缩方法上表现得尤为突出。
此外,在应用可逆灰度图算法时,为了能够根据现实需求来平衡图片质量和残差图大小,还通过两个因子来控制残差图大小,第一个因子为残差图中非零元素的数量,第二个因子是残差图的分辨率。残差图中的非零元素个数可以用来衡量模型的压缩效率。
具体来说,可以通过调整权重(quality values)在残差图中获得了不同数量的非零元素。结果如图3所示,横坐标轴是残差图中非零元素的数量,纵坐标轴是表示色彩还原效果的PSNR值,由图3可见,重构质量和非零元素的数量成正比例关系。这表明,彩色信息可以被较少数量但包含差异性信息的元素所表示。
而在另一方面,PSNR的表现在非零元素个数为5000的时候降低至22dB,这表明非零元素的过度降低造成的信息过度缺少,已经超出了网络的解码能力。由此可见,15000个非零元素的存留(节约了76.9%的像素空间)对于还原质量和压缩率做出了一个平衡。
另外,本实施例也展示了极端测试下算法的可行性。在只包括约8000个非零元素(像素总数为65000个,节约了87.7%的像素空间)的情况下,解码出的图3仍然可以保持25dB的PSNR。
在第二个因子的应用中,可以通过动态设置反卷积层的数量来进行灵活调整残差图的大小。图4表示的是三种不同大小的残差图产生的还原效果。可以看出,在即使非常低的四分之一原图长宽的分辨率的情况下,也能还原出具有良好视觉效果的彩图,而这残差图只占用了极小的存储空间。
实施例2
本实施例公开了一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现实施例1所述的基于L0正则项的可逆灰度图算法,具体如下:
S1、获取数据集,数据集中具有多张彩色图像;
S2、设计编码器和解码器;
S3、利用编码器将每张彩色图像的色彩信息编码到残差图,其中,在编码器的末端利用L0正则化层对残差图进行稀疏度约束,得到稀疏化的残差图;
选取每张彩色图像在CIE Lab颜色空间的L通道灰度图进行有损压缩,得到占用较小存储空间的参考灰度图;
S4、对于每张彩色图像,利用解码器将稀疏化的残差图与参考灰度图相结合,生成与原彩色图像近似的可逆灰度图,可逆灰度图上色后即得与原彩色图像基本相同的还原图像。
本实施例中所述的计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑或其他具有处理器功能的终端设备。
例如,在含有一张NVIDIA Geforce GTX 1080Ti显卡的电脑上,使用Pytorch实现上述可逆灰度图算法。
在含有17125张彩色图片的Pascal VOC 2012数据集中,取出其中的13470张图片用于指导模型的训练,图片大小调整为256*256的分辨率,而剩余的图片则用于模型的测试。采用压缩率为70%的JPEG压缩方法来压缩彩色图片对应的灰度图。
由于数值较低的像素值在视觉上不利于观察,而伪彩色数值映射显示技术通过数值范围映射的手段,用于将数值较低的像素值范围投射到整个色彩空间范围,因此可以用其反映图中的微小数值差异。因此这里通过彩色映射表(colormap)将残差图映射进伪彩色空间,这一空间的数值范围是[0,255]。
图5(a)为原彩色图像。图5(b)为编码器输出的原彩色图像的残差图,代表可逆灰度图与传统的去色灰度图之间的差值,比如图中特定位置的像素差值,由图5(b)残差图中大片的灰白色可知,由残差图和参考灰度图结合成的可逆灰度图与传统的去色灰度图的差异甚小。
图5(c)为由解码器输出的可逆灰度图上色后的还原图像,图5(c)右下角的数值32.077/0.925表示PSNR/SSIM。由图5(a)和图5(c)可得,还原图像与原彩图的差距不大,可以符合人眼的视觉体验,还原效果好。
图5(d)为原彩色图像和还原图像的差别图,代表还原图像和原彩色图像之间的差值。图5(d)右下角的数值5.176表示MAE。差别图(difference maps)的像素数值范围被设定在[0,32]。由图5(d)可知,图中大片的灰白色可以说明本算法实现了可靠的上色效果,同时也说明可逆灰度图通过数值较小的像素值存储了原图必要的彩色信息,因此可以节省存储空间和传输带宽。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一种基于L0正则项的可逆灰度图算法,其特征在于,步骤如下:
S1、获取数据集,数据集中具有多张彩色图像;
S2、设计编码器和解码器;
S3、利用编码器将每张彩色图像的色彩信息编码到残差图,其中,在编码器的末端利用L0正则化层对残差图进行稀疏度约束,得到稀疏化的残差图;
选取每张彩色图像在CIE Lab颜色空间的L通道灰度图进行有损压缩,得到占用较小存储空间的参考灰度图;
S4、对于每张彩色图像,利用解码器将稀疏化的残差图与参考灰度图相结合,生成与原彩色图像近似的可逆灰度图,可逆灰度图上色后即得与原彩色图像基本相同的还原图像。
2.根据权利要求1所述的基于L0正则项的可逆灰度图算法,其特征在于,编码器为深度神经网络,其网络结构包括依次连接的两个步长为1的卷积层、两个步长为2的卷积层、九个残差层、不多于两个的反卷积层和L0正则化层;
步长为1的卷积层用于浅层特征提取;步长为2的卷积层用于下采样去除冗余信息;残差层用于深度提取色彩特征;
反卷积层用于将特征还原为输入图像的空间大小并生成残差图,反卷积层的数量由残差图所需的分辨率决定,不同层数的反卷积层生成不同分辨率的残差图;
L0正则化层用于约束残差图中的零元素数量,L0正则化层实质上是一个二进制门开关,数值1表示此像素的彩色信息被保留,而数值0则表示此像素被丢弃。
3.根据权利要求2所述的基于L0正则项的可逆灰度图算法,其特征在于,编码器的设计过程如下:
S21、从数据集中随机地选取M张彩色图像作为训练集,并对训练集进行预处理:将彩色图像经放大或缩小后裁剪为统一的分辨率,将其转化为编码器网络可以批量处理的数据结构;
S22、为了获得更好的网络收敛性质,首先对编码器除L0正则化层之外的网络进行训练:
设定初始学习率、初始训练周期和模型的训练批量数,设定所有二进制门为1,然后对网络进行训练,其中,训练集中的彩色图像在RGB色彩空间下的RGB三通道值作为网络的输入,网络输出的是彩色图像对应的残差图,当达到预设的初始训练周期时,学习率衰减为0;
S23、将L0正则化层加入到上述训练后的网络,然后再对整个深度神经网络训练额外的训练周期,使用Adam优化器来优化整个网络的权重,最终得到编码器。
4.根据权利要求3所述的基于L0正则项的可逆灰度图算法,其特征在于,对于L0正则化层,其生成稀疏化的残差图即是求解残差图R的L0范式‖R‖0;
在设计L0正则化层时,考虑到L0范式‖R‖0的不可微性质,‖R‖0很难得到最优解,故提出如下策略求解‖R‖0:
(1)重参数策略:
其中,R是残差图,G是掩码图,i,j是图中元素的坐标,是指反卷积层输出的残差图和对应的掩码图的相应元素相乘,当相乘结果为1时,表示该元素成功通过二进制门;L0范式‖R‖0在此处表示的是成功通过这些门的元素数量;
(2)硬分布函数:
由于G是一个离散的随机变量序列,适用的范围在{0,1}之间,不能使用基于梯度的优化方法来求解期望方程,故引入一个连续的随机变量序列C,C满足硬分布h(·),对C使用一个hard Sigmoid rectification函数t(·)来获取二进制门,即:
C~h(C|δ),G=t(C)=min(1,max(0,C))
其中,δ是h(·)的参数;
为了更好地模拟二进制门,引入一个hard sigmoid激活函数,二进制门非零的概率可以被计算为:
h(C≠0|δ)=1-H(C≤0|δ);
(3)二次重参数策略:
为了平稳优化δ,将硬分布h(C)的期望转化为一个参数噪声较少的分布v(ψ),即:
其中,o(·)是带有参数δ和参数ψ的可微分的确定性函数,然后通过门特卡罗近似,将如上方程变成关于参数δ的可微分方程:
G(k)=t(o(δ,ψ(k))),ψ(k)~v(ψ)
其中,K表明ψ(k)的采样次数;G(k)和ψ(k)均是第K次采样的参数数值;
式中,唯一需要学习的参数是logξi,j;
当L0稀疏度损失被正确训练后,便能提取出具有差异化的彩色信息,并将其编码进残差图中;通过设置不同的L0稀疏度,就可以获得含有不同信息量的残差图。
6.根据权利要求3所述的基于L0正则项的可逆灰度图算法,其特征在于,解码器为深度神经网络,其网络结构包括依次连接的两个步长为2的卷积层,九个残差层和不多于两个的反卷积层;
其中,解码器的反卷积层数量由输入的残差图大小和参考灰度图大小决定,并且,编码器中所移除的反卷积层可根据参考灰度图的大小添加到解码器网络中;
当编码器生成的残差图与参考灰度图分辨率相同时,解码器直接将两者按照元素级别进行相加,即可生成可视化的可逆灰度图;
当编码器生成的残差图与参考灰度图分辨率不同时,残差图依次经过卷积层、残差层和反卷积层处理,得到的上采样后的残差图和参考灰度图的分辨率及特征通道数一致,然后再将残差图和参考灰度图相加,即可生成可逆灰度图。
约束条件具体如下:
其中,I(i)表示的是第i张输入图;O(i)表示的是第i张输出图;M表示的是数据集中的图像总数;‖·‖1表示的是L1范式;
(2)感知损失用于强制实现重构图像和原始彩图在视觉上的相似性,给定I(i)和O(i)作为成对的输入,采用VGG16网络的第三个卷积层来对感知损失进行建模,让表示特定层的输出特征,即和感知损失被建模为:
其中,‖·‖F表示的是弗罗贝尼乌斯范数;
约束(1)和(2)用于对重构质量加以限制;
‖·‖0是L0范式;λ是一个平衡因子,权衡了重构的损失和洗漱度的限制;‖R‖0=#{p|Rp≠0}是残差图R的L0范式,p是计数算子#的输出,用于统计输出的残差图R中0的个数;θ是整个网络模型的各层卷积网络的权重总和;‖R‖0=#{p|Rp≠0}和θ表示的是整个模型f(·)的参数。
8.根据权利要求1所述的基于L0正则项的可逆灰度图算法,其特征在于,在步骤S1中,通过爬虫获取Pascal VOC 2012数据集中的多张彩色图像,并使用Python读取彩色图像为内存中的二进制数据流。
9.根据权利要求1所述的基于L0正则项的可逆灰度图算法,其特征在于,有损压缩的方法包括JPEG压缩、CWC压缩和OIC压缩。
10.一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1至9中任一项所述的基于L0正则项的可逆灰度图算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010370633.7A CN111696026B (zh) | 2020-05-06 | 2020-05-06 | 基于l0正则项的可逆灰度图算法、计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010370633.7A CN111696026B (zh) | 2020-05-06 | 2020-05-06 | 基于l0正则项的可逆灰度图算法、计算设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111696026A true CN111696026A (zh) | 2020-09-22 |
CN111696026B CN111696026B (zh) | 2023-06-23 |
Family
ID=72476918
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010370633.7A Active CN111696026B (zh) | 2020-05-06 | 2020-05-06 | 基于l0正则项的可逆灰度图算法、计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111696026B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113362409A (zh) * | 2021-05-28 | 2021-09-07 | 北京百度网讯科技有限公司 | 图像上色及其模型训练方法、装置、电子设备、存储介质 |
CN114648531A (zh) * | 2022-05-20 | 2022-06-21 | 领伟创新智能系统(浙江)有限公司 | 基于色彩通道亮度分布的太阳能面板表面灰尘辨识方法 |
CN115049541A (zh) * | 2022-07-14 | 2022-09-13 | 广州大学 | 基于神经网络与图像隐写的可逆灰度方法、系统及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180075581A1 (en) * | 2016-09-15 | 2018-03-15 | Twitter, Inc. | Super resolution using a generative adversarial network |
CN110428473A (zh) * | 2019-06-18 | 2019-11-08 | 南昌大学 | 一种基于辅助变量的对抗生成网络的彩色图像灰度化方法 |
CN110570484A (zh) * | 2019-08-12 | 2019-12-13 | 浙江大学 | 一种图像解耦表征下的文本指导图像上色方法 |
-
2020
- 2020-05-06 CN CN202010370633.7A patent/CN111696026B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180075581A1 (en) * | 2016-09-15 | 2018-03-15 | Twitter, Inc. | Super resolution using a generative adversarial network |
CN110428473A (zh) * | 2019-06-18 | 2019-11-08 | 南昌大学 | 一种基于辅助变量的对抗生成网络的彩色图像灰度化方法 |
CN110570484A (zh) * | 2019-08-12 | 2019-12-13 | 浙江大学 | 一种图像解耦表征下的文本指导图像上色方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113362409A (zh) * | 2021-05-28 | 2021-09-07 | 北京百度网讯科技有限公司 | 图像上色及其模型训练方法、装置、电子设备、存储介质 |
CN113362409B (zh) * | 2021-05-28 | 2023-10-31 | 北京百度网讯科技有限公司 | 图像上色及其模型训练方法、装置、电子设备、存储介质 |
CN114648531A (zh) * | 2022-05-20 | 2022-06-21 | 领伟创新智能系统(浙江)有限公司 | 基于色彩通道亮度分布的太阳能面板表面灰尘辨识方法 |
CN115049541A (zh) * | 2022-07-14 | 2022-09-13 | 广州大学 | 基于神经网络与图像隐写的可逆灰度方法、系统及装置 |
CN115049541B (zh) * | 2022-07-14 | 2024-05-07 | 广州大学 | 基于神经网络与图像隐写的可逆灰度方法、系统及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111696026B (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8223837B2 (en) | Learning-based image compression | |
CN1954344B (zh) | 高动态范围图像的编码、解码和表示 | |
CN111696026A (zh) | 基于l0正则项的可逆灰度图算法、计算设备 | |
US10909728B1 (en) | Learned lossy image compression codec | |
Peter et al. | Turning diffusion-based image colorization into efficient color compression | |
CN114581544A (zh) | 图像压缩方法、计算机设备及计算机存储介质 | |
CN111669587A (zh) | 一种视频图像的拟态压缩方法、装置、存储介质及终端 | |
CN110136057B (zh) | 一种图像超分辨率重建方法、装置及电子设备 | |
CN110717868A (zh) | 视频高动态范围反色调映射模型构建、映射方法及装置 | |
CN111429357B (zh) | 训练数据确定方法、视频处理方法、装置、设备及介质 | |
CN112365422A (zh) | 基于深层聚合网络的不规则缺失图像修复方法及其系统 | |
CN111881920B (zh) | 一种大分辨率图像的网络适配方法及神经网络训练装置 | |
CN117079083B (zh) | 图像修复模型训练方法、装置、电子设备及存储介质 | |
CN111627077B (zh) | 一种医疗图像的处理方法及其压缩、还原系统 | |
US20240054605A1 (en) | Methods and systems for wavelet domain-based normalizing flow super-resolution image reconstruction | |
WO2023118317A1 (en) | Method and data processing system for lossy image or video encoding, transmission and decoding | |
CN116416216A (zh) | 基于自监督特征提取的质量评价方法、存储介质及终端 | |
US20220303557A1 (en) | Processing of Chroma-Subsampled Video Using Convolutional Neural Networks | |
US20220164934A1 (en) | Image processing method and apparatus, device, video processing method and storage medium | |
CN113554719B (zh) | 一种图像编码方法、解码方法、存储介质及终端设备 | |
CN113038134B (zh) | 一种图片处理方法、智能终端及存储介质 | |
US20140126831A1 (en) | Method for the Reconstruction of Compressed Digital Image Data | |
CN113393543B (zh) | 高光谱图像压缩方法、装置、设备及可读存储介质 | |
CN116012266B (zh) | 图像去噪方法、系统、设备及存储介质 | |
Al Falahi et al. | Comparitive Analysis and Findings on Dct & Lbg Compression Techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |