CN111127336B - 一种基于自适应选择模块的图像信号处理方法 - Google Patents
一种基于自适应选择模块的图像信号处理方法 Download PDFInfo
- Publication number
- CN111127336B CN111127336B CN201911129305.1A CN201911129305A CN111127336B CN 111127336 B CN111127336 B CN 111127336B CN 201911129305 A CN201911129305 A CN 201911129305A CN 111127336 B CN111127336 B CN 111127336B
- Authority
- CN
- China
- Prior art keywords
- module
- image
- output
- shape
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 84
- 238000012549 training Methods 0.000 claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 22
- 238000013528 artificial neural network Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 21
- 230000003044 adaptive effect Effects 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 14
- 229910052757 nitrogen Inorganic materials 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 2
- 230000008707 rearrangement Effects 0.000 claims description 2
- 230000008014 freezing Effects 0.000 claims 1
- 238000007710 freezing Methods 0.000 claims 1
- 238000002474 experimental method Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000003909 pattern recognition Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000001795 light effect Effects 0.000 description 1
- 229910052698 phosphorus Inorganic materials 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G06T5/73—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G06T5/70—
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Processing (AREA)
Abstract
本发明属于数字图像处理技术领域,具体为一种基于自适应选择模块的图像信号处理方法。本发明方法包括:建立多任务RAW图像数据集;根据元数据对RAW图像预处理,包括:将单通道的RAW图像重排列为图像尺寸减半三RGBG四个通道,黑电平矫正和归一化;训练ISP深度神经网络;训练去噪声、去运动模糊处理模块,去除噪声、运动模糊;结合各处理模块训练注意力选择模块;ISP网络是端到端网络,测试时将预处理后的RAW图像载入,即可生成RGB图像。实验表明,本发明可以在单个深度神经网络中自适应地选择处理模块以应对包含不同类型失真的复杂情况,从而生成高质量的RGB图像。
Description
技术领域
本发明属于数字图像处理技术领域,具体涉及一种图像信号处理方法。
背景技术
由相机传感器转化成数字信号存储,单通道、12或14位深的照片原始数据称为RAW图像。集成在硬件中的图像信号处理器(Image Signal Processor,简称ISP)通过一系列图像处理操作,将RAW图像转为我们最终看到的RGB图像。主要的图像处理操作有去马赛克(四通道、尺寸减半的RAW图像到三通道、原尺寸的输出)、白平衡(去除环境光影响恢复真实色彩)和色彩空间转换(相机RGB空间到sRGB空间)等。
近年来,随着深度学习的快速发展,尝试用深度神经网络取代硬件实现ISP的工作取得了一定进展:Chen等人提出了一个用于RAW图像暗光增强和去噪的网络SID[2],相比处理丢失大量信息并严重受到错误白平衡干扰的RGB图像,取得了更好的视觉效果;Schwartz等人提出了一个ISP网络DeepISP[3],采用双线性插值直接放大尺寸减半的RAW图像,之后分两路分别学习图像细节的恢复和全局变换方式的色彩校正。
现有方法均存在一定缺陷:SID仅使用一个简单的U-Net网络结构实现所有的ISP功能,视觉效果并不理想;DeepISP处理插值放大的RAW图像对显存需求过高,并且全局方式的色彩校正会产生伪影和错误色彩。另外,两者每次都使用同一相机型号拍摄的RAW图像数据集训练网络,忽略了不同相机RGB色彩空间之间的区别,泛化性能有限。
噪声和运动模糊通常在ISP将RAW图像转为RGB图像后进行处理,这会使两者的数学建模发生变化,增加处理难度。Brooks等人提出了一个算法[4]来模拟逆向的ISP,将RGB图像转回RAW图像之后添加高斯噪声,使用这些合成数据训练的去噪网络取得了更好的效果。然而,算法模拟的逆向ISP难以还原真实的RAW图像,仍然不符合现实情况。
而去模糊任务目前通用的合成带模糊图像方式是对高速相机拍摄的数张清晰RGB图像取平均,如Zhang等人提出的网络DMPHN[5]。事实上,景物的运动在被相机传感器捕捉到时会存储在原始数据中,经ISP处理后运动模糊的性质发生通道相关的改变,所以在RGB图像上简单取平均的合成方式也不符合现实情况。
发明内容
本发明的目的在于提供一种基于自适应选择模块的图像信号处理方法,以克服现有技术的不足。
本发明提供的基于自适应选择模块的图像信号处理方法,主要有以下几个贡献:一是通过深度神经网络,实现比传统算法更高效、视觉效果更好的RAW图像信号处理;二是在图像信号处理过程中完成去噪和去运动模糊任务,相比基于RGB图像的方法更符合现实情况;三是通过注意力选择模块,在单个深度神经网络中自适应地选择处理模块以应对包含不同类型失真的复杂情况。
本发明提供的基于自适应选择模块的图像信号处理方法,具体步骤如下。
(一)建立多任务RAW图像数据集
本发明在FiveK图像数据集的基础上建立了一个多任务RAW图像数据集,其中每张RAW图像对应一张人工处理得到的RGB图像作为参考图像,并在原始数据上添加噪声或运动模糊。
依据泊松-高斯噪声模型,本发明添加噪声的计算方式如下:
其中,I是输入RAW图像,Inoise是添加噪声后的RAW图像,σs是服从正态分布的信号相关高斯噪声的标准差,σc是服从正态分布的随机高斯噪声的标准差。本发明中,σs和σc取值均为0.02。因为直接添加在原始数据上,ISP处理后会自然形成通道相关且放大的噪声建模,更符合现实情况。
本发明添加运动模糊的计算方式如下:
其中,Iblur是添加运动模糊后的RAW图像,是分通道卷积操作,Kblur是随机绘制运动轨迹归一化得到的kxk大小的运动模糊核。本发明中,k取值为32。因为添加在尺寸减半的原始数据上,ISP处理后会自然形成通道相关且放大的模糊建模,与现实的相机抖动更加接近。
(二)根据元数据对RAW图像预处理
从RAW元数据中读取相机滤色器的色彩排列方式和相机型号,找到对应的黑电平值。预处理过程包括:将单通道的RAW图像重排列为RGBG四个通道(图像尺寸减半),黑电平矫正和归一化。
考虑滤色器采用Bayer阵列的相机,其色彩排列方式可能存在以下四种:RGBG、GRGB、BGRG和GBGR。本发明中通过删除第一行或第一列,确保所有输入RAW图像的色彩排列方式统一为RGBG,避免在通道重排列时发生错乱。
黑电平矫正和归一化的计算方式如下:
其中,Inorm是归一化到[0,1]的RAW图像,b是相机型号对应的黑电平值,m是RAW图像位深对应的像素最大值。
(三)训练ISP深度神经网络
将预处理后的四通道、尺寸减半的RAW图像载入ISP网络,通过深度神经网络生成三通道、原尺寸的RGB图像。本发明中,不考虑噪声和运动模糊的常规ISP网络由4个编码模块、4个译码模块和1个核预测上采样模块组成。编码模块利用一个步长为2的3x3卷积层从上一模块中提取特征,后接一个3x3卷积层作为常规处理模块。译码模块利用一个2x2反卷积层和特征图拼接从上一模块中还原低级特征,同样后接一个常规处理模块。较小尺度的编码模块和译码模块额外包含一个用来获得全局感受野的池化Non-Local模块。核预测上采样模块为每个像素预测一个单独的卷积核,生成三通道、原尺寸的输出图像。
本发明中,训练常规ISP网络使用的损失函数如下:
L=L1+0.5*Lssim
其中,L1是L1距离损失,Lssim是基于评价指标MSSSIM的结构相似性损失,L是两者加权组成的完整的常规ISP网络损失函数。
本发明中,池化Non-Local模块中,工作的具体步骤如下:
1:输入通过一个1x1卷积层,输出张量的形状为N*C*H*W,调整为NHW*C;
2:输入通过第二个1x1卷积层,输出张量的形状为N*C*H*W;
3:和常规Non-Local模块不同,对步骤2输出分别采用一个自适应最大值池化和一个自适应均值池化并求和,目的为加快运算速度和减少显存占用。再通过一个1x1卷积层,输出张量的形状固定为N*C*16*16,调整为C*256N;
4:对步骤1和步骤3输出做矩阵相乘,输出张量的形状为NHW*256N;
5:对步骤4输出采用softmax操作,作为步骤6输出的空间注意力系数;
6:输入通过第三个1x1卷积层,输出张量的形状为N*C*H*W,和步骤3一样采用自适应池化和1x1卷积,输出张量的形状调整为256N*C;
7:对步骤5和步骤6输出做矩阵相乘,再通过一个1x1卷积层,输出张量的形状调整回N*C*H*W,与输入求和。这里相当于获得了全局的感受野。
本发明中,核预测上采样模块中,工作的具体步骤如下:
1:最后一个译码模块的输出通过一个3x3卷积层,输出张量的形状为N*36*H*W;
2:对步骤1输出采用PixelShuffle上采样,输出张量的形状为N*9*2H*2W;
3:对步骤2输出采用softmax操作,其9个通道即为预测的每个像素的卷积核;
4:最后一个译码模块的输出通过另一个1x1卷积层,输出张量的形状为N*3*H*W;
5:对步骤4输出采用最近邻上采样,输出张量的形状为N*3*2H*2W;
6:对步骤5输出采用3x3的unfold滑窗操作,输出张量的形状为N*3*9*2H*2W,其维度2的9个通道即为每个像素3x3邻域的像素值;
7:使用步骤3输出作为卷积核对步骤6输出卷积,输出张量的形状为N*3*2H*2W。
(四)训练去噪声模块、去运动模糊处理模块
噪声和运动模糊通常在ISP将RAW图像转为RGB图像后进行处理,这会使两者的数学建模复杂化,应尝试在图像信号处理过程中完成去噪和去模糊任务。无论是否存在失真,去马赛克、白平衡和色彩空间转换都是图像信号处理的必需功能,因此本发明中冻结上一步骤训练的常规ISP网络除处理模块和核预测上采样模块外所有参数(即对于不同任务,共享这部分参数),将常规处理模块替换为去噪处理模块或去模糊处理模块进行训练。去噪处理模块和去模糊处理模块都是由两个3x3卷积层和一个PReLU激活函数组成的残差单元。由于运动模糊图像普遍存在非像素级对齐的问题,本发明中使用非对齐损失函数训练。
训练去噪处理模块使用的损失函数和常规ISP网络相同,而训练去模糊处理模块使用的非对齐损失函数,具体步骤如下:
1:将生成RGB图像I和参考图像GT分别载入训练好的VGG-16网络,提取两者在“conv1_2”层和“conv2_2”层的特征图,自适应池化到64x64大小;
2:步骤1输出张量的形状为N*C*64*64,调整为4096N*C,视作4096N个C维向量。定义提取自I的向量x和提取自GT的向量y的距离为两者的余弦距离加其坐标的L2距离:
3:对步骤2输出依次正则化、指数化和归一化,与L1损失加权(目的为减少只使用VGG提取特征计算损失函数产生的伪纹理)组成完整的非对齐损失函数:
(五)结合各处理模块训练注意力选择模块
本发明中ISP网络共享部分参数,仅在针对不同任务训练的处理模块和核预测上采样模块有所区别。为实现在单个网络中自适应地选择处理模块以应对包含不同类型失真的复杂情况,每组处理模块后接一个注意力选择模块为三者输出计算通道注意力系数,其中对应通道的系数和为1。训练策略为先冻结其他参数,仅对注意力选择模块和核预测上采样模块进行训练,之后再用较小的学习率微调ISP网络的所有参数。
本发明中,训练注意力选择模块的具体步骤如下:
1:常规处理模块、去噪处理模块和去模糊处理模块的输出分别通过一个1x1卷积层并求和,输出张量的形状为N*C*H*W;
2:对步骤1输出采用一个全局均值池化,输出张量的形状为N*C*1*1;
3:步骤2输出通过两个1x1卷积层,输出张量的形状为N*3C*1*1;
4:对步骤3输出采用softmax操作,得到为三个模块预测的通道注意力系数;
5:使用步骤4输出的系数对三个模块的输出加权求和,输出张量的形状为N*C*H*W。
训练注意力选择模块和微调全部参数使用的损失函数和去模糊处理模块相同。本发明的ISP网络是一个端到端网络,测试时将预处理后的RAW图像载入,即可生成RGB图像。
本发明的有益效果在于:一是通过使用池化Non-Local模块和核预测上采样模块的深度神经网络,实现比传统算法更高效、视觉效果更好的RAW图像信号处理;二是在图像信号处理过程中使用相应的处理模块完成去噪和去运动模糊任务,相比基于RGB图像的方法更符合现实情况;三是通过注意力选择模块,在单个深度神经网络中自适应地选择处理模块以应对包含不同类型失真的复杂情况。实验结果表明,本发明可以生成高质量的RGB图像。
附图说明
图1为本发明的深度神经网络结构图。
图2为本发明的池化Non-Local模块结构图。
图3为本发明的注意力选择模块结构图。
图4为本发明处理常规RAW图像的效果图。
图5为本发明处理带噪声RAW图像的效果图。
图6为本发明处理带运动模糊RAW图像的效果图。
具体实施方式
对于一张可能包含噪声或运动模糊的RAW图像,需要生成RGB图像,可以采用图1所示的深度神经网络进行图像信号处理。
具体实施方法如下。
(1)建立多任务RAW图像数据集
本发明在FiveK数据集的基础上建立了一个多任务RAW图像数据集,其中每张RAW图像对应一张人工处理得到的RGB图像作为参考图像。在原始数据上分别添加噪声或运动模糊,相比在ISP处理后的RGB图像上添加,更符合现实情况。
(2)根据元数据对RAW图像预处理
从RAW元数据中读取相机传感器的色彩排列方式和相机型号,找到对应的黑电平值。预处理过程包括将单通道的RAW图像重排列为RGBG四个通道(图像尺寸减半),黑电平矫正和归一化。
(3)训练ISP深度神经网络
将预处理后的四通道、尺寸减半的RAW图像载入ISP网络,通过深度神经网络生成三通道、原尺寸的RGB图像。本发明中,不考虑噪声和运动模糊的常规ISP网络由4个编码模块、4个译码模块和1个核预测上采样模块组成。编码模块利用一个步长为2的3x3卷积层从上一模块中提取特征,后接一个3x3卷积层作为常规处理模块。译码模块利用一个2x2反卷积层和特征图拼接从上一模块中还原低级特征,同样后接一个常规处理模块。较小尺度的编码模块和译码模块额外包含一个用来获得全局感受野的池化Non-Local模块。核预测上采样模块为每个像素预测一个单独的卷积核,生成三通道、原尺寸的最终输出图像。
(4)训练去噪声、去运动模糊处理模块
噪声和运动模糊通常在ISP将RAW图像转为RGB图像后进行处理,这会使两者的数学建模复杂化,应尝试在图像信号处理过程中完成去噪和去模糊任务。无论是否存在失真,去马赛克、白平衡和色彩空间转换都是图像信号处理的必需功能,因此本发明中冻结上一步骤训练的常规ISP网络除处理模块和核预测上采样模块外所有参数(即对于不同任务,共享这部分参数),将常规处理模块替换为去噪处理模块或去模糊处理模块进行训练。去噪处理模块和去模糊处理模块都是由两个3x3卷积层和一个PReLU激活函数组成的残差单元。由于运动模糊图像普遍存在非像素级对齐的问题,本发明中使用非对齐损失函数训练。
(5)结合各处理模块训练注意力选择模块
本发明中ISP网络共享部分参数,仅在针对不同任务训练的处理模块和核预测上采样模块有所区别。为实现在单个网络中自适应地选择处理模块以应对包含不同类型失真的复杂情况,每组处理模块后接一个注意力选择模块为三者的输出计算通道注意力系数,其中对应通道的系数和为1。训练策略为先冻结其他参数,仅对注意力选择模块和核预测上采样模块进行训练,之后再用较小的学习率微调ISP网络的所有参数。
本发明的ISP网络是一个端到端网络,测试时将预处理后的RAW图像载入,即可生成RGB图像。图4为本发明处理常规RAW图像和传统ISP算法DCRaw,以及现有深度学习方法SID[2]和DeepISP[3]的对比结果,其中深度学习方法均使用和本发明相同的训练数据集重新训练,保证了比较的公平性。图5为本发明处理带噪声RAW图像和现有方法的对比结果。图6为本发明处理带运动模糊RAW图像和现有方法的对比结果。可以看出,本发明无论是在常规、带噪声还是带运动模糊的RAW图像上,生成RGB图像的真实性和美观度都要优于DCRaw、SID[2]和DeepISP[3]。
参考文献
[1]V.Bychkovsky,S.Paris,E.Chan,and F.Durand,“Learningphotographicglobal tonal adjustment with a database of input/output imagepairs,”in IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2011.
[2]C.Chen,Q.Chen,J.Xu and V.Koltun,“Learning to See in the Dark,”inIEEE Conference on Computer Vision and Pattern Recognition(CVPR),2018.
[3]E.Schwartz,R.Giryes and A.Bronstein,“DeepISP:Towards Learning anEnd-to-End Image Processing Pipeline”IEEE Transactions on Image Processing,2018.
[4]T.Brooks,B.Mildenhall,T.Xue,J.Chen,D.Sharlet,and J.Barron,“Unprocessing Images for Learned Raw Denoising”,in IEEE Conference onComputer Vision and Pattern Recognition(CVPR),2019.
[5]H.Zhang,Y.Dai,H.Li and P.Koniusz,“Deep Stacked Hierarchical Multi-patch Network for Image Deblurring”,in IEEE Conference on Computer Vision andPattern Recognition(CVPR),2019.。
Claims (8)
1.一种基于自适应选择模块的图像信号处理方法,其特征在于,具体步骤如下:
(一)建立多任务RAW图像数据集
在用于图像增强任务的FiveK图像数据集基础上建立一个多任务RAW图像数据集,其中每张RAW图像对应一张人工处理得到的RGB图像作为参考图像;在原始数据上分别添加噪声或运动模糊;
(二)根据元数据对RAW图像预处理
从RAW元数据中读取相机传感器的色彩排列方式和相机型号,找到对应的黑电平值;预处理过程包括:将单通道的RAW图像重排列为图像尺寸减半三RGBG四个通道,黑电平矫正和归一化;
(三)训练ISP深度神经网络
将预处理后的四通道、尺寸减半的RAW图像载入ISP网络,通过深度神经网络生成三通道、原尺寸的RGB图像;其中,不考虑噪声和运动模糊的常规ISP网络由4个编码模块、4个译码模块和1个核预测上采样模块组成;编码模块利用一个步长为2的3x3卷积层从上一模块中提取特征,后接一个3x3卷积层作为常规处理模块;译码模块利用一个2x2反卷积层和特征图拼接从上一模块中还原低级特征,同样后接一个常规处理模块;较小尺度的编码模块和译码模块额外包含一个用来获得全局感受野的池化Non-Local模块;核预测上采样模块为每个像素预测一个单独的卷积核,生成三通道、原尺寸的输出图像;
(四)训练去噪声、去运动模糊处理模块
为了在图像信号处理过程中完成去噪和去模糊任务;冻结上一步骤训练的常规ISP网络除处理模块和核预测上采样模块外所有参数,将所述的常规处理模块替换为去噪处理模块或去模糊处理模块进行训练;去噪处理模块和去模糊处理模块都是由两个3x3卷积层和一个PReLU激活函数组成的残差单元;由于运动模糊图像普遍存在非像素级对齐的问题,训练中使用非对齐损失函数;
(五)结合各处理模块训练注意力选择模块
为实现在单个网络中自适应地选择处理模块以应对包含不同类型失真的复杂情况,每组处理模块后接一个注意力选择模块为三者输出计算通道注意力系数,其中对应通道的系数和为1;训练策略为先冻结其他参数,仅对注意力选择模块和核预测上采样模块进行训练,之后再用较小的学习率微调ISP网络的所有参数。
2.根据权利要求1所述的基于自适应选择模块的图像信号处理方法,其特征在于,步骤(一)中,所述在原始数据上添加噪声,依据泊松-高斯噪声模型,添加噪声的计算方式如下:
其中,I是输入RAW图像,Inoise是添加噪声后的RAW图像,σs是服从正态分布的信号相关高斯噪声的标准差,σc是服从正态分布的随机高斯噪声的标准差;
所述在原始数据上添加运动模糊,其计算方式如下:
其中,Iblur是添加运动模糊后的RAW图像,是分通道卷积操作,Kblur是随机绘制运动轨迹归一化得到的kxk大小的运动模糊核。
3.根据权利要求2所述的基于自适应选择模块的图像信号处理方法,其特征在于,步骤(二)中,所述将单通道的RAW图像重排列为图像尺寸减半三RGBG四个通道,是考虑滤色器采用Bayer阵列的相机,其色彩排列方式可能存在以下四种:RGBG、GRGB、BGRG和GBGR;故通过删除第一行或第一列,确保所有输入RAW图像的色彩排列方式统一为RGBG,避免在通道重排列时发生错乱;
所述黑电平矫正和归一化的计算方式如下:
其中,Inorm是归一化到[0,1]的RAW图像,b是相机型号对应的黑电平值,m是RAW图像位深对应的像素最大值。
4.根据权利要求3所述的基于自适应选择模块的图像信号处理方法,其特征在于,步骤(三)中,所述训练常规ISP网络使用的损失函数如下:
L=L1+0.5*Lssim
其中,L1是L1距离损失,Lssim是基于评价指标MSSSIM的结构相似性损失,GT为参考图像,L是两者加权组成的完整的常规ISP网络损失函数。
5.根据权利要求4所述的基于自适应选择模块的图像信号处理方法,其特征在于,步骤(三)中,所述池化Non-Local模块中,工作的具体步骤如下:
(1)输入通过一个1x1卷积层,输出张量的形状为N*C*H*W,调整为NHW*C;
(2)输入通过第二个1x1卷积层,输出张量的形状为N*C*H*W;
(3)对步骤(2)输出分别采用一个自适应最大值池化和一个自适应均值池化并求和,以加快运算速度和减少显存占用;再通过一个1x1卷积层,输出张量的形状固定为N*C*16*16,调整为C*256N;
(4)对步骤(1)和步骤(3)输出做矩阵相乘,输出张量的形状为NHW*256N;
(5)对步骤(4)输出采用softmax操作,作为步骤(6)输出的空间注意力系数;
(6)输入通过第三个1x1卷积层,输出张量的形状为N*C*H*W,和步骤(3)一样采用自适应池化和1x1卷积,输出张量的形状调整为256N*C;
(7)对步骤(5)和步骤(6)输出做矩阵相乘,再通过一个1x1卷积层,输出张量的形状调整回N*C*H*W,与输入求和;这里相当于获得了全局的感受野。
6.根据权利要求5所述的基于自适应选择模块的图像信号处理方法,其特征在于,步骤(三)中,所述核预测上采样模块中,工作的具体步骤如下:
(1)最后一个译码模块的输出通过一个3x3卷积层,输出张量的形状为N*36*H*W;
(2)对步骤(1)输出采用PixelShuffle上采样,输出张量的形状为N*9*2H*2W;
(3)对步骤(2)输出采用softmax操作,其9个通道即为预测的每个像素的卷积核;
(4)最后一个译码模块的输出通过另一个1x1卷积层,输出张量的形状为N*3*H*W;
(5)对步骤(4)输出采用最近邻上采样,输出张量的形状为N*3*2H*2W;
(6)对步骤(5)输出采用3x3的unfold滑窗操作,输出张量的形状为N*3*9*2H*2W,其维度2的9个通道即为每个像素3x3邻域的像素值;
(7)使用步骤(3)输出作为卷积核对步骤(6)输出卷积,输出张量的形状为N*3*2H*2W。
7.根据权利要求6所述的基于自适应选择模块的图像信号处理方法,其特征在于,步骤(四)中,所述训练去模糊处理模块使用的非对齐损失函数,具体获取步骤如下:
(1)将生成RGB图像I和参考图像GT分别载入训练好的VGG-16网络,提取两者在“conv1_2”层和“conv2_2”层的特征图,自适应池化到64x64大小;
(2)步骤(1)输出张量的形状为N*C*64*64,调整为4096N*C,视作4096N个C维向量;定义提取自I的向量x和提取自GT的向量y的距离为两者的余弦距离加其坐标的L2距离:
(3)对步骤(2)输出依次正则化、指数化和归一化,与L1损失加权,组成完整的非对齐损失函数:
L1是L1距离损失。
8.根据权利要求1所述的基于自适应选择模块的图像信号处理方法,其特征在于,步骤(五)中,所述注意力选择模块的具体步骤如下:
(1)常规处理模块、去噪处理模块和去模糊处理模块的输出分别通过一个1x1卷积层并求和,输出张量的形状为N*C*H*W;
(2)对步骤(1)输出采用一个全局均值池化,输出张量的形状为N*C*1*1;
(3)步骤(2)输出通过两个1x1卷积层,输出张量的形状为N*3C*1*1;
(4)对步骤(3)输出采用softmax操作,得到为三个模块预测的通道注意力系数;
(5)使用步骤(4)输出的系数对三个模块的输出加权求和,输出张量的形状为N*C*H*W;
训练注意力选择模块和微调全部参数使用的损失函数和去模糊处理模块相同;
由于ISP网络是一个端到端网络,测试时将预处理后的RAW图像载入,即可生成RGB图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911129305.1A CN111127336B (zh) | 2019-11-18 | 2019-11-18 | 一种基于自适应选择模块的图像信号处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911129305.1A CN111127336B (zh) | 2019-11-18 | 2019-11-18 | 一种基于自适应选择模块的图像信号处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111127336A CN111127336A (zh) | 2020-05-08 |
CN111127336B true CN111127336B (zh) | 2023-05-02 |
Family
ID=70495975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911129305.1A Active CN111127336B (zh) | 2019-11-18 | 2019-11-18 | 一种基于自适应选择模块的图像信号处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111127336B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11540798B2 (en) | 2019-08-30 | 2023-01-03 | The Research Foundation For The State University Of New York | Dilated convolutional neural network system and method for positron emission tomography (PET) image denoising |
CN113674364A (zh) * | 2020-05-14 | 2021-11-19 | 索尼公司 | 信息处理设备和方法、计算机可读存储介质 |
CN111709983A (zh) * | 2020-06-16 | 2020-09-25 | 天津工业大学 | 一种基于卷积神经网络和光场图像的气泡流场三维重建方法 |
CN113301221B (zh) * | 2021-03-19 | 2022-09-09 | 西安电子科技大学 | 一种深度网络相机图像处理方法及终端 |
CN113112424A (zh) * | 2021-04-08 | 2021-07-13 | 深圳思谋信息科技有限公司 | 图像处理方法、装置、计算机设备和存储介质 |
CN113112428A (zh) * | 2021-04-16 | 2021-07-13 | 维沃移动通信有限公司 | 图像处理方法、装置、电子设备及可读存储介质 |
CN113449691A (zh) * | 2021-07-21 | 2021-09-28 | 天津理工大学 | 一种基于非局部注意力机制的人形识别系统及方法 |
CN113344827B (zh) * | 2021-08-05 | 2021-11-23 | 浙江华睿科技股份有限公司 | 一种图像去噪方法、图像去噪网络运算单元及设备 |
CN113850741B (zh) * | 2021-10-10 | 2023-04-07 | 杭州知存智能科技有限公司 | 图像降噪方法、装置、电子设备以及存储介质 |
CN113824945B (zh) * | 2021-11-22 | 2022-02-11 | 深圳深知未来智能有限公司 | 一种基于深度学习的快速自动白平衡和颜色矫正方法 |
CN114331916B (zh) * | 2022-03-07 | 2022-07-22 | 荣耀终端有限公司 | 图像处理方法及电子设备 |
CN116402724B (zh) * | 2023-06-08 | 2023-08-11 | 江苏游隼微电子有限公司 | 一种ryb格式的raw图像色彩还原方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108376392A (zh) * | 2018-01-30 | 2018-08-07 | 复旦大学 | 一种基于卷积神经网络的图像运动模糊去除方法 |
CN109214990A (zh) * | 2018-07-02 | 2019-01-15 | 广东工业大学 | 一种基于Inception模型的深度卷积神经网络图像去噪方法 |
CN109447918A (zh) * | 2018-11-02 | 2019-03-08 | 北京交通大学 | 基于注意力机制的单幅图像去雨方法 |
CN109903237A (zh) * | 2019-01-23 | 2019-06-18 | 复旦大学 | 一种基于分离低高频的多尺度人脸图像去模糊算法 |
CN109903292A (zh) * | 2019-01-24 | 2019-06-18 | 西安交通大学 | 一种基于全卷积神经网络的三维图像分割方法及系统 |
WO2019136946A1 (zh) * | 2018-01-15 | 2019-07-18 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及系统 |
CN110113593A (zh) * | 2019-06-11 | 2019-08-09 | 南开大学 | 基于卷积神经网络的宽基线多视点视频合成方法 |
CN110196980A (zh) * | 2019-06-05 | 2019-09-03 | 北京邮电大学 | 一种基于卷积网络在中文分词任务上的领域迁移 |
-
2019
- 2019-11-18 CN CN201911129305.1A patent/CN111127336B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019136946A1 (zh) * | 2018-01-15 | 2019-07-18 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及系统 |
CN108376392A (zh) * | 2018-01-30 | 2018-08-07 | 复旦大学 | 一种基于卷积神经网络的图像运动模糊去除方法 |
CN109214990A (zh) * | 2018-07-02 | 2019-01-15 | 广东工业大学 | 一种基于Inception模型的深度卷积神经网络图像去噪方法 |
CN109447918A (zh) * | 2018-11-02 | 2019-03-08 | 北京交通大学 | 基于注意力机制的单幅图像去雨方法 |
CN109903237A (zh) * | 2019-01-23 | 2019-06-18 | 复旦大学 | 一种基于分离低高频的多尺度人脸图像去模糊算法 |
CN109903292A (zh) * | 2019-01-24 | 2019-06-18 | 西安交通大学 | 一种基于全卷积神经网络的三维图像分割方法及系统 |
CN110196980A (zh) * | 2019-06-05 | 2019-09-03 | 北京邮电大学 | 一种基于卷积网络在中文分词任务上的领域迁移 |
CN110113593A (zh) * | 2019-06-11 | 2019-08-09 | 南开大学 | 基于卷积神经网络的宽基线多视点视频合成方法 |
Non-Patent Citations (2)
Title |
---|
任静静 等.基于快速卷积神经网络的图像去模糊.《 计算机辅助设计与图形学学报》.2017,(第8期),1444-1456. * |
周彧聪,刘轶,王锐.互补学习:一种面向图像应用和噪声标注的深度神经网络训练方法.《计算机研究与发展 》.2018,(第12期),2647-2659. * |
Also Published As
Publication number | Publication date |
---|---|
CN111127336A (zh) | 2020-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111127336B (zh) | 一种基于自适应选择模块的图像信号处理方法 | |
Syu et al. | Learning deep convolutional networks for demosaicing | |
CN114140353B (zh) | 一种基于通道注意力的Swin-Transformer图像去噪方法及系统 | |
CN107123089B (zh) | 基于深度卷积网络的遥感图像超分辨重建方法及系统 | |
CN111402146B (zh) | 图像处理方法以及图像处理装置 | |
CN112233038A (zh) | 基于多尺度融合及边缘增强的真实图像去噪方法 | |
CN109785252B (zh) | 基于多尺度残差密集网络夜间图像增强方法 | |
CN111161178A (zh) | 基于生成式对抗网络的单幅低光图像增强方法 | |
CN112435191B (zh) | 一种基于多个神经网络结构融合的低照度图像增强方法 | |
CN112465727A (zh) | 基于HSV色彩空间和Retinex理论的无正常光照参考的低照度图像增强方法 | |
CN111986084A (zh) | 一种基于多任务融合的多相机低光照图像质量增强方法 | |
Guo et al. | Joint denoising and demosaicking with green channel prior for real-world burst images | |
CN112348747A (zh) | 图像增强方法、装置及存储介质 | |
WO2021110262A1 (en) | Noise reconstruction for image denoising | |
CN113850741B (zh) | 图像降噪方法、装置、电子设备以及存储介质 | |
CN112508812A (zh) | 图像色偏校正方法、模型训练方法、装置及设备 | |
CN114219722A (zh) | 一种利用时频域层级处理的低光照图像增强方法 | |
Zhao et al. | Deep pyramid generative adversarial network with local and nonlocal similarity features for natural motion image deblurring | |
CN115272072A (zh) | 一种基于多特征图像融合的水下图像超分辨率方法 | |
CN113284061A (zh) | 一种基于梯度网络的水下图像增强方法 | |
CN112819705A (zh) | 一种基于网状结构与长距离相关性的真实图像去噪方法 | |
CN117333398A (zh) | 一种基于自监督的多尺度图像去噪方法及装置 | |
CN115311149A (zh) | 图像去噪方法、模型、计算机可读存储介质及终端设备 | |
EP4302258A1 (en) | Noise reconstruction for image denoising | |
Zhang et al. | An effective image restorer: Denoising and luminance adjustment for low-photon-count imaging |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |