CN113850367B - 网络模型的训练方法、图像处理方法及其相关设备 - Google Patents
网络模型的训练方法、图像处理方法及其相关设备 Download PDFInfo
- Publication number
- CN113850367B CN113850367B CN202111013231.2A CN202111013231A CN113850367B CN 113850367 B CN113850367 B CN 113850367B CN 202111013231 A CN202111013231 A CN 202111013231A CN 113850367 B CN113850367 B CN 113850367B
- Authority
- CN
- China
- Prior art keywords
- image
- training
- network model
- training image
- color
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 233
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000003672 processing method Methods 0.000 title claims abstract description 33
- 238000012545 processing Methods 0.000 claims description 73
- 238000004590 computer program Methods 0.000 claims description 18
- 230000008447 perception Effects 0.000 claims description 11
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000015556 catabolic process Effects 0.000 claims description 4
- 238000006731 degradation reaction Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 24
- 230000009467 reduction Effects 0.000 abstract description 19
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 18
- 238000004422 calculation algorithm Methods 0.000 description 15
- 230000003287 optical effect Effects 0.000 description 10
- 238000007726 management method Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000005070 sampling Methods 0.000 description 7
- 238000013500 data storage Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000009825 accumulation Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 230000011514 reflex Effects 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000005562 fading Methods 0.000 description 2
- 230000004304 visual acuity Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007850 degeneration Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4053—Super resolution, i.e. output image resolution higher than sensor resolution
-
- G06T5/70—
-
- G06T5/73—
-
- G06T5/80—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Abstract
本申请提供了一种网络模型的训练方法、图像处理方法及其相关设备,涉及图像技术领域,该网络模型的训练方法包括:获取第一训练图像对;利用第一训练图像对,对初始生成器进行训练,得到中间生成器;获取第二训练图像对;利用第一训练图像对和第二训练图像对,对初始网络模型进行训练,得到第一目标网络模型。本申请利用深度学习的方法,通过联合进行去马赛克、降噪和超分,在将RAW域的图像转换为RGB域的图像的过程中,以实现降低噪声、减少鬼影、提升图像的清晰度的目的。
Description
技术领域
本申请涉及图像处理领域,尤其涉及一种网络模型的训练方法、图像处理方法及其相关设备。
背景技术
随着电子设备的广泛使用,使用电子设备进行拍照已经成为人们生活中的一种日常行为方式。以电子设备为手机为例,随之出现了各种提升图像质量的技术,例如:去马赛克(demosaic)、降噪(denoise)、超分(super-resolution,SR)等。
现有技术中,针对手机获取的原始图像,即位于RAW域的图像,通常会先进行降噪和超分,然后进行去马赛克。但是,上述方案存在降噪能力差,处理后的图像具有鬼影(antific)等问题。因此,亟待一种新的图像处理方法,来有效提高获取的图像的质量。
发明内容
本申请提供一种网络模型的训练方法、图像处理方法及其相关设备,利用深度学习的方法,通过联合进行去马赛克、降噪和超分,在将RAW域的图像转换为RGB域的图像的过程中,以实现降低噪声、减少鬼影、提升图像的清晰度的目的。
为达到上述目的,本申请采用如下技术方案:
第一方面,提供一种网络模型的训练方法,该方法包括:获取第一训练图像对,第一训练图像对包括彩色训练图像和与彩色训练图像对应的第二训练图像;利用第一训练图像对,对初始生成器进行训练,得到中间生成器;获取第二训练图像对,第二训练图像对包括第一原始图像和配准后的第二彩色图像;利用第一训练图像对和所述第二训练图像对,对初始网络模型进行训练,得到第一目标网络模型,其中,初始网络模型包括中间生成器和判别器。
本申请实施例提供了一种网络模型的训练方法,不仅构建了一个包括中间生成器和判别器的初始网络模型,还利用新的训练数据构成方法,生成接近真实数据的第二训练图像对,并利用第一训练图像对和第二训练图像对,来训练初始网络模型,从而可以得到能联合实现去马赛克、降噪、超分,以及从RAW域转换为RGB域,并且拟合能力强、处理效果好的第一目标网络模型。
在第一方面一种可能的实现方式中,获取第一训练图像对,包括:获取彩色训练图像;对彩色训练图像进行退化处理,得到位于RAW域的第一训练图像;对第一训练图像增加噪声,得到第二训练图像;将彩色训练图像和第二训练图像进行配对,得到一组第一训练图像对。在该实现方式中,通过将彩色训练图像退化成干净的拜尔格式图像,即,位于RAW域的第一训练图像,并在第一训练图像中增加噪声,以模仿真实处理过程中的输入图像,从而可以减小与真实数据之间误差,使得后续利用第一训练图像对训练模型时,可以提高模型的训练效果。
在第一方面一种可能的实现方式中,利用第一训练图像对,对初始生成器进行训练,得到中间生成器,包括:将第一训练图像对中的第二训练图像输入初始生成器进行处理,得到位于RGB域的第三训练图像;利用平均绝对误差公式,确定彩色训练图像和第三训练图像之间的第一平均绝对误差损失值;根据第一平均绝对误差损失值调整初始生成器,得到中间生成器。在该实现方式中,利用第一训练图像对中的第二训练图像和彩色训练图像对初始生成器进行训练,可以使得生成的中间生成器能够对位于RAW域的输入图像进行去马赛克和降噪处理,进而可以使得中间生成器在后续使用过程中,减少误差累积,降低鬼影出现。
在第一方面一种可能的实现方式中,获取第二训练图像对,包括:利用第一摄像头,获取第一原始图像和第一彩色图像,并利用第二摄像头获取第二彩色图像;第一彩色图像的分辨率低于第二彩色图像的分辨率,第一原始图像的分辨率和第一彩色图像的分辨率相同;以第一彩色图像为基准,对第二彩色图像进行配准,得到配准后的第二彩色图像;将第一原始图像和配准后的第二彩色图像进行配对,得到第二训练图像对。
其中,第一彩色图像可以称为低清彩色图像,第一原始图像可以称为低清原始图像,第二彩色图像可以称为高清彩色图像。
在该实现方式中,通过利用不同摄像头采集分辨率不同的低清彩色图像和高清彩色图像,并以低清彩色图像为基准,对高清彩色图像进行配准,得到配准后的高清彩色图像,从而可以得到匹配度更高、更真实的第二训练图像对。
在第一方面一种可能的实现方式中,利用第一训练图像对和第二训练图像对,对初始网络模型进行训练,得到第一目标网络模型,包括:将第一训练图像对和第二训练图像对,输入初始网络模型进行处理;根据第一训练图像对和/或第二训练图像对,确定感知损失值、第二平均绝对误差损失值和GAN损失值;根据感知损失值、第二平均绝对误差损失值和GAN损失值,调整初始网络模型,得到第一目标网络模型。在该实现方式中,通过在输入数据中增加真实的第二训练图像对,来增加初始网络模型的超分能力,从而可以提高训练后的第一目标网络模型的网络性能,使第一目标网络模型联合实现去马赛克、降噪和超分的功能,并且,联合实现从RAW域至RGB域的转换。
在第一方面一种可能的实现方式中,根据第一训练图像对和/或第二训练图像对,确定感知损失值、第二平均绝对误差损失值和GAN损失值,包括:利用LPISP或VGG模型,确定第一训练图像对的感知损失值和/或确定第二训练图像对的感知损失值;利用平均绝对误差公式,确定第一训练图像对的第二平均绝对误差损失值和/或确定第二训练图像对的第二平均绝对误差损失值;利用判别器,确定第一训练图像对的GAN损失值和/或确定第二训练图像对的GAN损失值。
在第一方面一种可能的实现方式中,噪声包括:散粒噪声和/或读出噪声。
在第一方面一种可能的实现方式中,初始生成器以Unet模型为基模型;初始生成器还包括:残差密集块、注意力模块和拼接层;残差密集块由多层卷积层密集性连接构成,残差密集块用于提取特征;注意力模块用于施加注意力机制;拼接层用于特征拼接。在该实现方式中,通过在初始生成器中引入残差密集块,可以提升初始生成器的感受野和编解码能力。此外,还考虑到图像重构过程中的空间信号和通道信息,由此,在初始生成器中引入注意力模块,同时加入了拼接层,复用低分辨率特征,从而使得后续进行图像处理时,中间生成器可以极大地利用输入图像的编码信息,同时,避免梯度消失问题。
在第一方面一种可能的实现方式中,训练方法还包括:对第一目标网络模型进行蒸馏,得到第二目标网络模型;将第二目标网络模型作为第一目标网络模型。
第二方面,提供了一种网络模型的训练装置,该装置包括用于执行以上第一方面或第一方面的任意可能的实现方式中各个步骤的单元。
第三方面,提供了一种图像处理方法,该方法包括:检测到用户在电子设备上的第一操作,第一操作是指用户用于指示采集原始图像的操作;响应于第一操作,电子设备采集原始图像;利用以上第一方面或第一方面的任意可能的实现方式中得到的第一目标网络模型,对原始图像进行处理,得到拍摄图像。
本申请实施例提供了一种图像处理方法,通过利用第一目标网络模型对原始图像进行去马赛克、降噪和超分,以及从RAW域至RGB域的转换处理,从而可以得到解析力强、清晰度高的拍摄图像。
第四方面,提供了一种图像处理装置,该装置包括用于执行以上第三方面或第三方面的任意可能的实现方式中各个步骤的单元。
第五方面,提供了一种电子设备,包括摄像头、处理器和存储器;摄像头,用于获取原始图像;存储器,用于存储可在处理器上运行的计算机程序;处理器,用于执行如第三方面中提供的图像处理方法中进行处理的步骤。
第六方面,提供了一种芯片,包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有芯片的设备执行如第一方面或第一方面的任意可能的实现方式中提供的网络模型的训练方法,和/或,如第三方面中提供的图像处理方法。
第七方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,使处理器执行如第一方面或第一方面的任意可能的实现方式中提供的网络模型的训练方法,和/或,如第三方面提供的图像处理方法。
第八方面,提供了一种计算机程序产品,计算机程序产品包括存储了计算机程序的计算机可读存储介质,计算机程序使得计算机执行如第一方面或第一方面的任意可能的实现方式中提供的网络模型的训练方法,和/或,如第三方面提供的图像处理方法。
附图说明
图1为现有技术得到的拍摄图像;
图2为本申请实施例提供的第一阶段的流程示意图;
图3为本申请实施例提供的第二阶段的流程示意图;
图4为本申请实施例提供的一种初始生成器的结构示意图;
图5为图4所示的初始生成器对应的网络结构参数;
图6为本申请实施例提供的一种残差密集块的结构示意图;
图7为本申请实施例提供的一种第三阶段的流程示意图;
图8为本申请实施例提供的另一种第三阶段的流程示意图;
图9为本申请实施例提供的第四阶段的流程示意图;
图10为本申请实施例提供的一种判别器的结构示意图;
图11为图10所示的判别器对应的网络结构参数;
图12为本申请实施例提供的电子设备的界面示意图;
图13为本申请实施例提供的一种图像处理方法的流程示意图;
图14为本申请实施例提供的电子设备的结构示意图;
图15为本申请实施例提供的软件系统的示意图;
图16为本申请实施例提供的一种图像处理装置的结构示意图;
图17为本申请实施例提供的一种芯片的结构示意图。
附图标记:
10-取景窗口;11-拍摄键;12-初始生成器;13-中间生成器;14-判别器;15-初始网络模型;16-第一目标网络模型;17-第二目标网络模型。
具体实施方式
下面将结合附图,对本申请中的技术方案进行描述。
在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,在本申请实施例的描述中,“多个”是指两个或多于两个。
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
首先,对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
1、RGB(red,green,blue)颜色空间,指的是一种与人的视觉系统结构相关的颜色模型。根据人眼睛的结构,将所有颜色都当作是红色、绿色和蓝色的不同组合。
2、像素值,指的是位于RGB颜色空间的彩色图像中每个像素对应的一组颜色分量。例如,每个像素对应一组三基色分量,其中,三基色分量分别为红色分量R、绿色分量G和蓝色分量B。
3、拜耳格式(bayer pattern)彩色滤波阵列(color filter array,CFA),图像由实际的景物转换为图像数据时,通常是图像传感器分别接收红色通道信号、绿色通道信号和蓝色通道信号,三个通道信号的信息,然后将三个通道信号的信息合成彩色图像,但是,这种方案中每个像素位置处都对应需要三块滤镜,价格昂贵且不好制作,因此,可以在图像传感器表面覆盖一层彩色滤波阵列,以获取三个通道信号的信息。拜耳格式彩色滤波阵列指的是滤镜以棋盘格式进行排布,例如,该拜耳格式彩色滤波阵列中的最小重复单元为:一个获取红色通道信号的滤镜、两个获取绿色通道信号的滤镜、一个获取蓝色通道信号的滤镜以2×2的方式排布。
4、拜耳格式图像(bayer image),即基于拜耳格式彩色滤波阵列的图像传感器输出的图像。该图像中的多种颜色的像素以拜耳格式进行排布。其中,拜耳格式图像中的每个像素仅对应一种颜色的通道信号。示例性的,由于人的视觉对绿色较为敏感,所以可以设定绿色像素(对应绿色通道信号的像素)占全部像素的50%,蓝色像素(对应蓝色通道信号的像素)和红色像素(对应红色通道信号的像素)各占全部像素的25%。其中,拜耳格式图像的最小重复单元为:一个红色像素、两个绿色像素和一个蓝色像素以2×2的方式排布。
5、配准(image registration),指的是在同一区域内以不同成像手段所获得的不同图像的地理坐标的匹配。其中,包括几何纠正、投影变换与统一比例尺三方面的处理。
6、降噪(denoise),指的是减少图像中噪声的过程。一般方法有均值滤波、高斯滤波、双边滤波等。
7、感受野,机器视觉领域的深度神经网络中有一个概念叫做感受野;感受野用于表示网络内部的不同位置的神经元对原图像的感受范围的大小。
以上是对本申请实施例所涉及的名词的简单介绍,以下不再赘述。
随着电子设备的广泛使用,使用电子设备进行拍照已经成为人们生活中的一种日常行为方式。以手机为例,相关技术中,为了提高拍照质量,业界提出了在利用电子设备中的图像传感器获取到原始图像之后,将原始图像发送给图像信号处理器(image signalprocessing,ISP),以进行一系列的图像处理,例如,去马赛克、降噪、超分等,由此来提升拍摄的图像质量。
但是,针对上述方案,由于多个处理之间是线性进行的,可能存在一定的误差积累,而且上述处理通常利用的是一些传统算法,所以,得到的拍摄图像存在降噪能力差,具有鬼影,甚至具有强烈的涂抹感等问题。
示例性的,图1示出了现有技术得到的拍摄图像。如图1中的(a)所示,图像中具有明显的鬼影,线条处解像力太差,无法解析出线条,导致文字不清楚。如图1中的(b)所示,该图像噪声明显偏大。如图1中的(c)所示,该图像有严重的涂抹感。以上都是拍照过程中经常遇到的图像基础质量问题。
即使现有技术中还有一些处理方法可以利用网络模型来联合实现降噪和去马赛克功能,或者,可以来联合实现降噪和超分功能,但是拍摄的图像依然存在上述各自质量问题。
针对现有问题,分析得出一部分原因是因为传统算法中所利用的网络模型拟合能力较差,另一部分原因是:在传统算法中,训练网络模型时所使用的训练数据集和真实数据存在较大差异,由此,才会导致得到的拍摄图像出现鬼影、高频信息丢失等问题。
有鉴于此,本申请实施例提供了一种网络模型的训练方法和一种图像处理方法,在训练过程中,利用新的构造数据的方法,来构造更真实的训练数据,以训练网络模型,由此来提升网络模型的处理效果。而在图像处理过程中,利用该网络模型代替传统算法,通过对输入图像联合进行去马赛克、降噪以及超分处理,从而可以有效降低图像噪声、鬼影和涂抹感等问题,进而可以提升输出图像的解析力和清晰度,实现提高拍摄图像的质量的目的。
通过上述描述可知,导致拍摄图像出现鬼影等问题的主要原因为:在传统算法中,所利用的网络模型的拟合能力较差,以及训练网络模型时所使用的训练数据集和真实数据存在较大差异,对此,本申请针对上述两个原因,均做出了改进。不仅构建了一个新的初始网络模型,还利用新的训练数据构成方法,生成接近真实数据的训练数据,并利用生成的训练数据,来训练新的初始网络模型,从而可以得到拟合能力强、处理效果好的第一目标网络模型。
下面结合说明书附图,先对本申请实施例所提供的初始网络模型,以及初始网络模型的训练方法进行详细介绍。
本申请实施例提供的初始网络模型的训练方法包括以下四个阶段,分别为第一阶段、第二阶段、第三阶段和第四阶段。
图2示出了第一阶段的流程示意图。如图2所示,第一阶段10,用于为第二阶段20和第四阶段40构造训练数据。该第一阶段10包括以下S11至S13:
S11、获取彩色训练图像,并对彩色训练图像进行退化处理,将彩色训练图像退化为位于RAW域的第一训练图像。
应理解,这里的彩色训练图像指的是高分辨率(high resolution,HR)的、位于RGB域的高清彩色训练图像,该图像中的每个像素均包括三基色像素值。其中,彩色训练图像可以为电子设备通过摄像头拍摄到的图像,也可以为从电子设备内部获得的图像(例如,电子设备的相册中存储的图像,或者,电子设备从云端获得的图像),或者从其他设备获取的图像,本申请实施例对此不进行任何限制。
应理解,退化处理可以理解为将图像从RGB域转换为RAW域的处理过程。其中,例如,可以利用Cycle ISP进行退化处理。
应理解,第一训练图像位于RAW域,也就是说,第一训练图像为拜耳格式图像。此时,第一训练图像保留有较多的细节内容、数据量大。
S12、针对第一训练图像,增加噪声,以得到携带噪声的且位于RAW域的第二训练图像。
可选地,该噪声可以包括:散粒噪声(shot noise)和/或读出噪声(read noise)。
应理解,通过增加噪声可以模仿进行图像处理时,实际输入图像所携带的真实噪声。此处,噪声还可以为其他种类的噪声或为多种噪声的组合,具体可以根据需要进行设置和更改,本申请实施例对此不进行任何限制。
应理解,第二训练图像位于RAW域,也就是说,第二训练图像为拜耳格式图像。
S13、将彩色训练图像和第二训练图像进行配对,得到一组第一训练图像对。
应理解,配对指的是将彩色训练图像与由彩色训练图像处理得到的第二训练图像进行关联,形成对应关系。由此,当彩色训练图像包括多帧时,根据S11和S12,可以得到对应的多帧第二训练图像,由此,将彩色训练图像和对应的第二训练图像进行配对,可以得到多组第一训练图像对。
在第一阶段中,本申请通过将彩色训练图像退化成干净的拜尔格式图像,即,位于RAW域的第一训练图像,并在第一训练图像中增加噪声,以模仿真实处理过程中的输入图像,从而可以减小与真实数据之间误差,使得后续利用第一训练图像对训练模型时,可以提高模型的训练效果。
图3示出了第二阶段的流程示意图。如图3所示,第二阶段20,用于对初始生成器12进行训练,得到初步训练好的中间生成器13,以使得中间生成器13可以联合实现去马赛克和降噪处理功能。该第二阶段20包括以下S21至S23:
S21、将第一训练图像对中的第二训练图像输入初始生成器12进行处理,得到位于RGB域的第三训练图像。
应理解,初始生成器12用于对第二训练图像联合进行去马赛克和降噪处理。同时,初始生成器12还可以将图像从RAW域转换至RGB域,由此,第三训练图像经过初始生成器12处理后为位于RGB域的图像。RGB域即指的是RGB颜色空间。
可选地,初始生成器12以Unet模型为基模型,在此基础上,本申请在初始生成器12的结构中,还引入了残差密集(residual in residual dense block,RRDB)模块、注意力模块和拼接层(short connection)。
应理解,残差密集块用于提取图像的特征信息;注意力模块用于实现注意力机制,使初始生成器12更关注重要特征,使重要特征在处理过程中权重更大,例如,针对红绿蓝三通道,需要初始生成器12在处理图像时更关注绿色通道,则可以增大绿色通道对应的权重系数,而对其他两个通道对应的权重系数进行减小。拼接层用于实现特征拼接。
示例性的,图4示出了本申请实施例提供的一种初始生成器12的结构示意图。图5示出了图4所示的初始生成器12对应的网络结构参数。
如图4和图5所示,初始生成器12可以包括自上而下的4个平行层,在U形的每一平行层进行解码和编码,且均使用残差密集块。应理解,每一平行层设置的残差密集块的数量,具体可以根据需要进行设置,本申请实施例对此不进行任何限制。示例性的,在图4中,第一平行层至第三平行层均设置了4个残差密集块,第四平行层设置了3个残差密集块。
在左边的解码阶段,首先,先通过第一平行层中的卷积层对输入图像进行通道增加,得到多个通道图,相当于放大输入图像的特征;然后,利用2个残差密集块提取特征信息,此处,结合计算能力考虑,2个残差密集块即可提取足够的特征信息。
然后,将第一平行层中的第2个残差密集块提取的特征信息通过卷积进行下采样,再输入第二平行层的2个残差密集块中继续提取特征信息。应理解,通过卷积进行下采样,可以缩小图像尺寸,增大感受野,获取到更多图像的局部信息。
同理,将第二平行层中的第2个残差密集块中提取的特征信息通过卷积进行下采样,再输入第三平行层中的2个残差密集块中提取特征信息。将第三平行层中的第2个残差密集块中提取的特征信息通过卷积继续进行下采样,再输入第四平行层中的3个残差密集块中继续提取特征信息。应理解,第四平行层相对于其他平行层多设置1个残差密集块,使得卷积的更深,得到的特征维度更高,更抽象,同时拟合的函数更多,最后使得图像效果更好,但是相应的,计算量也会增加。
在右边的编码阶段,首先,将第四平行层中的第3个残差密集块提取的特征信息通过反卷积进行上采样,再与第三平行层中的第2个残差密集块提取的特征信息,利用拼接层进行特征拼接,将拼接后的特征信息传输至注意力模块调整权重,再通过2个残差密集块进行特征提取。应理解,上采样操作用于放大图像特征的尺寸,提高图像分辨率;比如,上采样操作可以是指采用内插值方法,即在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素。
然后,将第三平行层中的第4个残差密集块提取的特征信息通过反卷积进行上采样,再与第二平行层中的第2个残差密集块提取的特征信息,利用拼接层进行特征拼接,将拼接后的特征信息传输至注意力模块调整权重,再通过2个残差密集块进行特征提取。
同理,将第二平行层中的第4个残差密集块提取的特征信息通过反卷积进行上采样,再与第一平行层中的第2个残差密集块提取的特征信息,利用拼接层进行特征拼接,将拼接后的特征信息传输至注意力模块调整权重,再通过2个残差密集块进行特征提取;接着传输至卷积层还原出位于RGB域的图像,作为输出图像。
应理解,图5示出的初始生成器12的网络结构参数仅为一种示例,具体可以根据需要进行修改和调整,本申请对此不进行任何限制。
示例性的,图6示出了图4中的一种残差密集块的结构示意图。
如图6所示,残差密集块由四层卷积层密集性连接构成。例如,第二卷积层的输入为:第一卷积层的输出与第一卷积层的输入之和;第三卷积层的输入为:第二卷积层的输出与第二卷积层的输入、第一卷积层的输入之和;第四卷积层的输入为:第三卷积层的输出与第三卷积层的输入、第二卷积层的输入、第一卷积层的输入之和。
其中,残差密集块还可以由四层以上的卷积层密集性连接构成,具体层数以及连接方式可以根据需要进行设置和更改,本申请实施例对此不进行任何限制。
当然,初始生成器12包括的每个残差密集块的结构可以相同,也可以不相同,具体可以根据需要需要进行设置和更改,本申请实施例对此不进行任何限制。
应理解,在上述初始生成器12中,注意力模块可以设置在拼接层之后,也可以设置在拼接层之前,也就是说,进行特征拼接和调整权重的顺序可以互换,具体可以根据需要进行设置和更改,本申请实施例对此不进行任何限制。
其中,若将注意力模块设置在拼接层之后,则可以实现对拼接后的特征施加注意力机制;若将注意力模块设置在拼接层之前,则可以实现对拼接前的特征施加注意力机制,而又由于拼接前的特征包含更多的图像编码和解码信息,有利于重构图像,由此,更期望将注意力模块设置在拼接层之前。
还应理解,由于下采样和上采样次数相同,由此,处理得到的输出图像和输入图像的尺寸相同,若相对于输入图像,想要放大输出图像时,则可以增加上采样的次数,具体次数可以根据需要进行设置和更改,本申请实施例对此不进行任何限制。
结合图4至图6,将第二训练图像作为输入图像,输入上述初始生成器12进行处理,则可以得到作为输出图像的第三训练图像。其中,处理得到的第三训练图像和第二训练图像尺寸相同。
S22、确定彩色训练图像和第三训练图像之间的第一平均绝对误差损失值(meanabsolute error,MAE)。
在一个示例中,第一平均绝对误差损失值MAE是通过以下平均绝对误差公式计算得到的:
其中,yi用于指示第i个样本真实值;f(xi)用于指示第i个模型预测值。
应理解,结合上述S22,彩色训练图像中的像素值相当于样本真实值,第三训练图像中的像素值相当于模型预测值,由此,利用上述公式,可以计算得到彩色训练图像和第三训练图像之间距离的平均值,也即第一平均绝对误差损失值。
S23、根据第一平均绝对误差损失值的大小,调整初始生成器12的参数,直至第一平均绝对误差损失值收敛,由此,得到中间生成器13。
例如,当彩色训练图像和第三训练图像之间的第一平均绝对误差损失值大于预设第一平均绝对误差损失值时,说明第三训练图像与真实的彩色训练图像差距还是较大,进而说明初始生成器12的去马赛克和降噪效果还是比较差,由此,需要调整初始生成器12中相应的参数,然后,再次执行S21至S23,将第一训练图像对中的第二训练图像输入已训练过一次的初始生成器12,利用输出的图像与彩色训练图像再次计算第一平均绝对误差损失值,判断此次确定的第一平均绝对误差损失值是否小于预设平均绝对误差值。
如果还是大于预设平均绝对误差值,则可以多次循环执行S21至S23,直至确定出的第一平均绝对误差损失值小于预设均绝对误差损失值,由此,可训练得到去马赛克和降噪效果较好的中间生成器13。
在第二阶段中,本申请通过在初始生成器12中引入残差密集块,可以提升初始生成器12的感受野和编解码能力。此外,还考虑到图像重构过程中的空间信号和通道信息,由此,在初始生成器12中引入注意力模块,同时加入了拼接层,复用低分辨率特征(lowresolution feature),从而使得后续进行图像处理时,中间生成器13可以极大地利用输入图像的编码信息,同时,避免梯度消失问题(gradient vanishing problem)。
基于此,在第二阶段中,利用第一训练图像对中的第二训练图像和彩色训练图像对初始生成器12进行训练,可以使得生成的中间生成器13能够对位于RAW域的输入图像进行去马赛克和降噪处理,进而可以使得中间生成器13在后续使用过程中,减少误差累积,降低鬼影出现。
图7示出了一种第三阶段的流程示意图。图8示出了另一种第三阶段的流程示意图。如图7和图8所示,第三阶段30,用于为第四阶段40构造训练数据,该第三阶段30包括以下S31至S33。
S31、获取第一原始图像、第一彩色图像和第二彩色图像。
其中,第一原始图像位于RAW域,第一彩色图像和第二彩色图像均位于RGB域。第一原始图像、第一彩色图像和第二彩色图像为对同一待拍摄场景进行拍摄的图像。
应理解,第一彩色图像的分辨率低于第二彩色图像的分辨率,第一原始图像的分辨率和第一彩色图像的分辨率相同,也就是说,第一原始图像的分辨率也低于第二彩色图像的分辨率的分辨率。由此,第一原始图像可以称为低清原始图像,第一彩色图像可以称为低清彩色图像,第二彩色图像可以称为高清彩色图像,以下示例相同,后续不再赘述。
一种示例中,如图7所示,可以利用第一摄像头获取低清原始图像和低清彩色图像,利用第二摄像头获取高清彩色图像。其中,第一摄像头和第二摄像头可以分布在同一电子设备上,也可以分布在两个电子设备上。例如,第一摄像头为手机上的摄像头,第二摄像头为单反相机的摄像头,将手机固定到单反相机上,对同一物体进行拍摄,保证拍摄的物体在手机和单反相机上的中间点对齐,或者,保证两者的视场角基本一致。
另一种示例中,如图8所示,可以利用第一摄像头获取低清原始图像,将低清原始图像输入图4中初步训练成的中间生成器13中,经过去马赛克和降噪处理后,可以得到低清原始图像对应的低清彩色图像。同时,利用第二摄像头获取高清彩色图像。
S32、以低清彩色图像为基准,对高清彩色图像进行配准,得到配准后的高清彩色图像。
其中,可以利用光流(optical flow)算法进行配准。
光流算法指的是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性,来找到上一帧与当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运行信息的一种方法。例如,针对图像可以进行逐点匹配或对一组点进行跟踪,通过计算图像上像素点的偏移量,从而形成一个光流场,通过这个光流场,进行像素级别的图像配准。
S33、将低清原始图像和配准后的高清彩色图像进行配对,得到第二训练图像对。
应理解,配对指的是将低清原始图像与配准后的高清彩色图像进行关联,形成对应关系。由此,当低清原始图像、低清彩色图像和高清彩色图像均包括多帧时,根据S31和S32,可以得到多组第二训练图像对。
在第三阶段中,本申请通过以低清彩色图像为基准,对高清彩色图像进行配准,得到配准后的高清彩色图像,从而可以得到匹配度更高、更真实的第二训练图像对。
图9示出了一种第四阶段的流程示意图。第四阶段40,用于利用第一阶段10和第三阶段30构造的训练数据对初始网络模型15进行训练,以得到既能去马赛克、降噪,又能起到超分功能的第一目标网络模型16。该第四阶段40包括以下S41至S44:
S41、将第一训练图像对和第二训练图像对,输入初始网络模型15进行处理。
其中,初始网络模型15包括图4中的中间生成器13,以及判别器14。
图10示出了本申请实施例提供的一种判别器14的结构示意图。图11示出了图10所示的判别器对应的网络结构参数。
如图10和图11所示,判别器14可以以Patch Gan网络模型为基模型,例如,该判别器14包括:三个包括卷积层、实例归一化层和激活层(PRelu)的子模块,以及位于输入和输出处的两组卷积层。其中,针对子模块的数量和结构,以及卷积层的数量,本申请实施例均不进行任何限制。当然,判别器14还可以包括其他层,本申请实施例对此也不进行任何限制。
其中,Patch Gan网络模型的输出,代表输入图像中的一个感受野,对应输入图像中的一个小Patch。由此,以此为基模型的判别器能够极大保证输出图像和输入图像在内容和纹理上的相似性,保证高分辨率图像的生成,即实现超分功能。
应理解,图11示出的判别器14的网络结构参数仅为一种示例,具体可以根据需要进行修改和调整,本申请对此不进行任何限制。
应理解,本申请可以将中间生成器13输出的图像,输入上述能实现超分功能的判别器14中,从而可以输出高分辨率图像。
S42、确定感知损失值(perceptual loss)、第二平均绝对误差损失值以及GAN损失值。
可选地,可以利用LPISP模型或VGG模型,来确定第一训练图像对中的第二训练图像和彩色训练图像,两个图像之间的感知损失值,和/或,来确定第二训练图像对中的低清原始图像和配准后的高清彩色图像,两个图像之间的感知损失值。
可选地,可以利用S22中所述的平均绝对误差公式,来确定第一训练图像对中的第二训练图像和彩色训练图像,两个图像之间的第二平均绝对误差损失值,和/或,来确定第二训练图像对中的低清原始图像和配准后的高清彩色图像,两个图像之间的第二平均绝对误差损失值。
可选地,可以利用判别器来确定第一训练图像对中的第二训练图像和高清彩色训练图像,两个图像之间的GAN损失值,和/或,来确定第二训练图像对中的低清原始图像和配准后的高清彩色图像,两个图像之间的GAN损失值。
S43、根据感知损失值、第二平均绝对误差损失值和GAN损失值,对初始网络模型15中的中间生成器13的参数进行调整,根据GAN损失值对初始网络模型15中的判别器14的参数进行调整,得到第一目标网络模型16。
应理解,根据感知损失值对中间生成器13进行调整,可以使得训练成的第一目标网络模型16,后续在进行图像处理时,生成的图像更符合人类感知。
根据第二平均绝对误差损失值对中间生成器13进行调整,可以使得训练成的第一目标网络模型16,后续在进行图像处理时,生成的图像更接近真实的图像。
根据GAN损失值对判别器14进行调整,可以使得判别器14更准确判断生成的图像是否更接近真实图像,从而使得训练成的第一目标网络模型16,后续在进行图像处理时,实现超分功能,进而使得生成的图像能恢复更多的细节。
S44、从第一目标网络模型16中蒸馏出第二目标网络模型17。
应理解,由于性能限制,训练生成的第一目标网络模型16有可能不能直接部署到电子设备上,由此,可以从第一目标网络模型16中蒸馏出一个可以同样联合实现去马赛克、降噪和超分功能的第二目标网络模型17,然后,将第二目标网络模型17再部署到电子设备上。
在第四阶段,通过在输入数据中增加真实的第二训练图像对,来增加初始网络模型的超分能力,从而可以提高训练后的第一目标网络模型的网络性能,使第一目标网络模型联合实现去马赛克、降噪和超分的功能,并且,联合实现从RAW域至RGB域的转换。
应理解,上述举例说明是为了帮助本领域技术人员理解本申请实施例,而非要将本申请实施例限于所例示的具体数值或具体场景。本领域技术人员根据所给出的上述举例说明,显然可以进行各种等价的修改或变化,这样的修改或变化也落入本申请实施例的范围内。
下面结合上述训练成的第一目标网络模型,或者,蒸馏出的第二目标网络模型所当作第一目标网络模型,对本申请实施例提供的图像处理方法进行详细说明。
图13为本申请实施例所示的一种图像处理方法的流程示意图。该图像处理方法应用于包括摄像头的电子设备。如图13所示,该图像处理方法50包括:S51至S54。
S51、电子设备启动相机,并显示预览界面,预览界面包括第一控件。
S52、电子设备检测到用户在预览界面上对第一控件的第一操作。
S52、响应于第一操作,摄像头采集原始图像。其中,原始图像为位于RAW域的图像,原始图像为拜耳格式图像。
应理解,摄像头可以为主摄摄像头、长焦摄像头、超长焦摄像头、广角摄像头、超广角摄像头等,对于摄像头的种类和数量,本申请实施例对此不进行任何限制。
S54、将原始图像输入第一目标网络模型进行处理,得到拍摄图像。
其中,拍摄图像为位于RGB域的图像。
应理解,当对第一目标网络模型进行蒸馏,得到第二目标网络模型时,在上述S54中,也可以将原始图像输入第二目标网络模型进行处理,也即,将第二目标网络模型当作第一目标网络模型,由此,可以得到拍摄图像。
在一个示例中,图12为电子设备的显示界面的示意图。
如图12中的(a)所示,为电子设备的图形用户界面(graphical user interface,GUI)。当电子设备检测到用户点击界面上的相机应用的图标的操作后,可以启动相机应用,显示如图12中的(b)所示的另一GUI,该GUI可以称为预览界面。
该预览界面上可以包括取景窗口10。在预览状态下,该取景窗口10内可以实时显示预览图像。该预览界面还可以包括多种拍摄模式选项以及第一控件,即,拍摄键11。该多种拍摄模式选项例如包括:拍照模式、录像模式等,拍摄键11用于指示当前拍摄模式为拍照模式、录像模式或者为其他模式。其中,相机应用打开时一般默认处于拍照模式。
示例性的,如图12中的(b)所示,当电子设备启动相机应用后,电子设备运行图像处理方法对应的程序,响应于用户对拍摄键11的点击操作,获取并存储拍摄图像。
应理解,待拍摄场景中有一位女士,在进行拍照时,利用相关技术获取到的拍摄图像通常噪声比较大、还会出现鬼影等问题。但是,通过本申请的图像处理方法有效的解决这些问题,得到高解析力、高清晰度的拍摄图像。
在一个示例中,本地设备可以从执行设备获取蒸馏出的第二目标网络模型17的相关参数,将第二目标网络模型17部署在本地设备上,利用该第二目标网络模型17进行图像处理。
在另一个示例中,执行设备上可以直接部署第二目标网络模型17,执行设备通过从本地设备获取原始图像,并根据第二目标网络模型17对原始图像进行图像处理等。
其中,执行设备可以与其它计算设备配合使用,例如:数据存储器、路由器、负载均衡器等设备。执行设备可以布置在一个物理站点上,或者分布在多个物理站点上。执行设备可以使用数据存储系统中的数据,或者调用数据存储系统中的程序代码来实现本申请实施例的图像处理方法。
需要说明的是,上述执行设备也可以称为云端设备,此时执行设备可以部署在云端。
用户可以操作各自的本地设备与执行设备进行交互。每个本地设备可以表示任何计算设备,例如,个人计算机、计算机工作站、智能手机、平板电脑、智能摄像头、智能汽车或其他类型蜂窝电话、媒体消费设备、可穿戴设备、机顶盒、游戏机等。每个用户的本地设备可以通过任何通信机制/通信标准的通信网络与执行设备进行交互,通信网络可以是广域网、局域网、点对点连接等方式,或它们的任意组合。
本申请实施例提供的图像处理方法,通过利用第一目标网络模型对原始图像进行去马赛克、降噪和超分,以及从RAW域至RGB域的转换处理,从而可以得到解析力强、清晰度高的拍摄图像。
上文结合图1至图13,详细描述了本申请实施例的网络模型的训练方法、图像处理方法,下面将结合图14至图16,详细描述本申请适用的电子设备的软件系统、硬件系统、装置以及芯片。应理解,本申请实施例中的软件系统、硬件系统、装置以及芯片可以执行前述本申请实施例的各种网络模型的训练方法、图像处理方法,即以下各种产品的具体工作过程,可以参考前述方法实施例中的对应过程。
图14示出了本申请提供的一种电子设备的结构示意图。电子设备100可用于实现上述方法实施例中描述的图像处理方法。
电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
其中,控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
处理器110可以运行本申请实施例提供的图像处理方法的软件代码,拍摄得到清晰度较高的图像。充电管理模块140用于从充电器接收充电输入。电源管理模块141用于连接电池142,充电管理模块140与处理器110。电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。显示屏194用于显示图像,视频等。显示屏194包括显示面板。
摄像头193用于捕获图像。可以通过应用程序指令触发开启,实现拍照功能,如拍摄获取任意场景的图像。摄像头可以包括成像镜头、滤光片、图像传感器等部件。物体发出或反射的光线进入成像镜头,通过滤光片,最终汇聚在图像传感器上。图像传感器主要是用于对拍照视角中的所有物体(也可称为待拍摄场景、目标场景,也可以理解为用户期待拍摄的场景图像)发出或反射的光汇聚成像;滤光片主要是用于将光线中的多余光波(例如除可见光外的光波,如红外)滤去;图像传感器主要是用于对接收到的光信号进行光电转换,转换成电信号,并输入处理器130进行后续处理。其中,摄像头193可以位于电子设备100的前面,也可以位于电子设备100的背面,摄像头的具体个数以及排布方式可以根据需求设置,本申请不做任何限制。
示例性的,电子设备100包括前置摄像头和后置摄像头。例如,前置摄像头或者后置摄像头,均可以包括1个或多个摄像头。以电子设备100具有1个后置摄像头为例,这样,电子设备100启动启动1个后置摄像头进行拍摄时,可以使用本申请实施例提供的图像处理方法。或者,摄像头设置于电子设备100的外置配件上,该外置配件可旋转的连接于手机的边框,该外置配件与电子设备100的显示屏194之间所形成的角度为0-360度之间的任意角度。比如,当电子设备100自拍时,外置配件带动摄像头旋转到朝向用户的位置。当然,手机具有多个摄像头时,也可以只有部分摄像头设置在外置配件上,剩余的摄像头设置在电子设备100本体上,本申请实施例对此不进行任何限制。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。内部存储器121还可以存储本申请实施例提供的图像处理方法的软件代码,当处理器110运行所述软件代码时,执行图像处理方法的流程步骤,得到清晰度较高的图像。内部存储器121还可以存储拍摄得到的图像。
当然,本申请实施例提供的图像处理方法的软件代码也可以存储在外部存储器中,处理器110可以通过外部存储器接口120运行所述软件代码,执行图像处理方法的流程步骤,得到清晰度较高的图像。电子设备100拍摄得到的图像也可以存储在外部存储器中。
应理解,用户可以指定将图像存储在内部存储器121还是外部存储器中。比如,电子设备100当前与外部存储器相连接时,若电子设备100拍摄得到1帧图像时,可以弹出提示信息,以提示用户将图像存储在外部存储器还是内部存储器;当然,还可以有其他指定方式,本申请实施例对此不进行任何限制;或者,电子设备100检测到内部存储器121的内存量小于预设量时,可以自动将图像存储在外部存储器中。
电子设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
可以理解的是,本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
上文详细描述了电子设备100的硬件系统,下面介绍电子设备100的软件系统。软件系统可以采用分层架构、事件驱动架构、微核架构、微服务架构或云架构,本申请实施例以分层架构为例,示例性地描述电子设备100的软件系统。
如图15所示,采用分层架构的软件系统分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,软件系统可以分为五层,从上至下分别为应用层210、应用框架层220、硬件抽象层230、驱动层240以及硬件层250。
应用层210可以包括相机、图库应用程序,还可以包括日历、通话、地图、导航、WLAN、蓝牙、音乐、视频、短信息等应用程序。
应用框架层220为应用层210的应用程序提供应用程序访问接口和编程框架。
例如,应用框架层220包括相机访问接口,该相机访问接口用于通过相机管理和相机设备来提供相机的拍摄服务。
应用框架层220中的相机管理用于管理相机。相机管理可以获取相机的参数,例如判断相机的工作状态等。
应用框架层220中的相机设备用于提供不用相机设备以及相机管理之间的数据访问接口。
硬件抽象层230用于将硬件抽象化。比如,硬件抽象层230可以包相机硬件抽象层以及其他硬件设备抽象层;相机硬件抽象层中可以包括相机设备1、相机设备2等;相机硬件抽象层可以与相机算法库相连接,相机硬件抽象层可以调用相机算法库中的算法。
驱动层240用于为不同的硬件设备提供驱动。比如,驱动层可以包括相机驱动;数字信号处理器驱动以及图形处理器驱动。
硬件层250可以包括传感器、图像信号处理器、数字信号处理器、图形处理器以及其他硬件设备。其中,传感器可以包括传感器1、传感器2等,还可以包括深度传感器(timeof flight,TOF)和多光谱传感器。
下面结合显示拍照场景,示例性说明电子设备100的软件系统的工作流程。
当用户在触摸传感器180K上进行单击操作时,相机APP被单击操作唤醒后,通过相机访问接口调用相机硬件抽象层的各个相机设备。示例性的,相机硬件抽象层判断出当前变焦倍数处于[0.6,0.9]变焦倍数范围之间,由此,可以通过向相机设备驱动下发调用广角摄像头的指令,同时相机算法库开始加载本申请实施例所利用的第二目标网络模型17中的算法。
当硬件层的传感器被调用后,例如,调用广角摄像头中的传感器1获取原始图像后,将原始图像发送给图像信号处理进行配准等初步处理,处理后经相机设备驱动返回硬件抽象层,再利用加载的相机算法库中的算法进行处理,例如利用第二目标网络模型17,按照本申请实施例提供的相关处理步骤进行处理,得到拍摄图像。其中,第二目标网络模型17可以通过数字信号处理器驱动调用数字信号处理器、图形处理器驱动调用图形处理器进行处理。
将得到的拍摄图像经相机硬件抽象层、相机访问接口发送回相机应用进行显示和存储。
图16是本申请实施例提供的图像处理装置的示意图。
应理解,图像处理装置300可以执行图13所示的图像处理方法;图像处理装置300包括:获取单元310和处理单元320。还应理解,第一目标网络模型16或第二目标网络模型17可以部署于图像处理装置300中。
获取单元310,用于检测用户在预览界面上对第一控件的第一操作。
处理单元320,用于响应于第一操作,指示摄像头采集原始图像。
处理单元320,还用于将原始图像输入第一目标网络模型16或第二目标网络模型17进行处理,得到拍摄图像。
需要说明的是,上述图像处理装置300以功能单元的形式体现。这里的术语“单元”可以通过软件和/或硬件形式实现,对此不作具体限定。
例如,“单元”可以是实现上述功能的软件程序、硬件电路或二者结合。所述硬件电路可能包括应用特有集成电路(application specific integrated circuit,ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。
因此,在本申请的实施例中描述的各示例的单元,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机指令;当所述计算机可读存储介质在图像处理装置上运行时,使得该图像处理装置执行如图13所示的方法。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本申请实施例还提供了一种包含计算机指令的计算机程序产品,当其在图像处理装置上运行时,使得图像处理装置可以执行图13所示的方法。
图17为本申请实施例提供的一种芯片的结构示意图。图16所示的芯片可以为通用处理器,也可以为专用处理器。该芯片包括处理器401。其中,处理器401用于支持图像处理装置执行图13所示的技术方案。
可选的,该芯片还包括收发器402,收发器402用于接受处理器401的控制,用于支持通信装置执行图13所示的技术方案。
可选的,图17所示的芯片还可以包括:存储介质403。
需要说明的是,图17所示的芯片可以使用下述电路或者器件来实现:一个或多个现场可编程门阵列(field programmable gate array,FPGA)、可编程逻辑器件(programmable logic device,PLD)、控制器、状态机、门逻辑、分立硬件部件、任何其他适合的电路、或者能够执行本申请通篇所描述的各种功能的电路的任意组合。
上述本申请实施例提供的电子设备、图像处理装置、计算机存储介质、计算机程序产品、芯片均用于执行上文所提供的方法,因此,其所能达到的有益效果可参考上文所提供的方法对应的有益效果,在此不再赘述。
应理解,上述只是为了帮助本领域技术人员更好地理解本申请实施例,而非要限制本申请实施例的范围。本领域技术人员根据所给出的上述示例,显然可以进行各种等价的修改或变化,例如,上述检测方法的各个实施例中某些步骤可以是不必须的,或者可以新加入某些步骤等。或者上述任意两种或者任意多种实施例的组合。这样的修改、变化或者组合后的方案也落入本申请实施例的范围内。
还应理解,上文对本申请实施例的描述着重于强调各个实施例之间的不同之处,未提到的相同或相似之处可以互相参考,为了简洁,这里不再赘述。
还应理解,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
还应理解,本申请实施例中,“预先设定”、“预先定义”可以通过在设备(例如,包括电子设备)中预先保存相应的代码、表格或其他可用于指示相关信息的方式来实现,本申请对于其具体的实现方式不做限定。
还应理解,本申请实施例中的方式、情况、类别以及实施例的划分仅是为了描述的方便,不应构成特别的限定,各种方式、类别、情况以及实施例中的特征在不矛盾的情况下可以相结合。
还应理解,在本申请的各个实施例中,如果没有特殊说明以及逻辑冲突,不同的实施例之间的术语和/或描述具有一致性、且可以相互引用,不同的实施例中的技术特征根据其内在的逻辑关系可以组合形成新的实施例。
最后应说明的是:以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (15)
1.一种网络模型的训练方法,其特征在于,包括:
获取第一训练图像对,所述第一训练图像对包括彩色训练图像和与所述彩色训练图像对应的第二训练图像,所述第二训练图像是由所述彩色训练图像处理后得到的;
利用所述第一训练图像对,对初始生成器进行训练,得到中间生成器;
获取第二训练图像对,所述第二训练图像对包括第一原始图像和配准后的第二彩色图像,所述配准后的第二彩色图像是由第二彩色图像与第一彩色图像配准后得到的;
利用所述第一训练图像对和所述第二训练图像对,对初始网络模型进行训练,得到第一目标网络模型,其中,所述初始网络模型包括所述中间生成器和判别器。
2.根据权利要求1所述的网络模型的训练方法,其特征在于,所述获取第一训练图像对,包括:
获取所述彩色训练图像;
对所述彩色训练图像进行退化处理,得到位于RAW域的第一训练图像;
对所述第一训练图像增加噪声,得到所述第二训练图像;
将所述彩色训练图像和所述第二训练图像进行配对,得到一组所述第一训练图像对。
3.根据权利要求1或2所述的网络模型的训练方法,其特征在于,所述利用所述第一训练图像对,对初始生成器进行训练,得到中间生成器,包括:
将所述第一训练图像对中的所述第二训练图像输入所述初始生成器进行处理,得到位于RGB域的第三训练图像;
利用平均绝对误差公式,确定所述彩色训练图像和所述第三训练图像之间的第一平均绝对误差损失值;
根据所述第一平均绝对误差损失值调整所述初始生成器,得到所述中间生成器。
4.根据权利要求3所述的网络模型的训练方法,其特征在于,所述获取第二训练图像对,包括:
利用第一摄像头,获取第一原始图像和第一彩色图像,并利用第二摄像头获取第二彩色图像;所述第一彩色图像的分辨率低于所述第二彩色图像的分辨率,所述第一原始图像的分辨率和所述第一彩色图像的分辨率相同;
以所述第一彩色图像为基准,对所述第二彩色图像进行配准,得到所述配准后的第二彩色图像;
将所述第一原始图像和所述配准后的第二彩色图像进行配对,得到第二训练图像对。
5.根据权利要求3所述的网络模型的训练方法,其特征在于,所述获取第二训练图像对,包括:
利用第一摄像头,获取第一原始图像,并利用第二摄像头获取第二彩色图像;
将所述第一原始图像输入所述中间生成器,得到第一彩色图像;
以所述第一彩色图像为基准,对所述第二彩色图像进行配准,得到所述配准后的第二彩色图像;
将所述第一原始图像和所述配准后的第二彩色图像进行配对,得到第二训练图像对。
6.根据权利要求4或5所述的网络模型的训练方法,其特征在于,所述利用所述第一训练图像对和所述第二训练图像对,对初始网络模型进行训练,得到第一目标网络模型,包括:
将所述第一训练图像对和所述第二训练图像对,输入所述初始网络模型进行处理;
根据所述第一训练图像对和/或所述第二训练图像对,确定感知损失值、第二平均绝对误差损失值和GAN损失值;
根据所述感知损失值、所述第二平均绝对误差损失值和所述GAN损失值,调整所述初始网络模型,得到所述第一目标网络模型。
7.根据权利要求6所述的网络模型的训练方法,其特征在于,所述根据所述第一训练图像对和/或所述第二训练图像对,确定所述感知损失值、所述第二平均绝对误差损失值和所述GAN损失值,包括:
利用LPISP或VGG模型,确定所述第一训练图像对的感知损失值和/或确定所述第二训练图像对的感知损失值;
利用平均绝对误差公式,确定所述第一训练图像对的第二平均绝对误差损失值和/或确定所述第二训练图像对的第二平均绝对误差损失值;
利用所述判别器,确定所述第一训练图像对的GAN损失值和/或确定所述第二训练图像对的GAN损失值。
8.根据权利要求2所述的网络模型的训练方法,其特征在于,所述噪声包括:散粒噪声和/或读出噪声。
9.根据权利要求1所述的网络模型的训练方法,其特征在于,所述初始生成器以Unet模型为基模型;
所述初始生成器还包括:残差密集块、注意力模块和拼接层;所述残差密集块由多层卷积层密集性连接构成,所述残差密集块用于提取特征;所述注意力模块用于施加注意力机制;所述拼接层用于特征拼接。
10.根据权利要求1所述的网络模型的训练方法,其特征在于,所述训练方法还包括:
对所述第一目标网络模型进行蒸馏,得到第二目标网络模型;
将所述第二目标网络模型作为所述第一目标网络模型。
11.一种图像处理方法,其特征在于,所述方法包括:
检测到用户在电子设备上的第一操作,所述第一操作是指所述用户用于指示采集原始图像的操作;
响应于所述第一操作,所述电子设备采集所述原始图像;
利用如权利要求1至10中任一项得到的所述第一目标网络模型,对所述原始图像进行处理,得到拍摄图像。
12.一种电子设备,其特征在于,包括摄像头、处理器和存储器;
所述摄像头,用于获取原始图像;
所述存储器,用于存储可在所述处理器上运行的计算机程序;
所述处理器,用于执行如权利要求11所述的图像处理方法中进行处理的步骤。
13.一种芯片,其特征在于,包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行如权利要求1至10中任一项所述的网络模型的训练方法,和/或,如权利要求11所述的图像处理方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,使所述处理器执行如权利要求1至10中任一项所述的网络模型的训练方法,和/或,如权利要求11所述的图像处理方法。
15.一种计算机程序产品,其特征在于,所述计算机程序产品包括存储了计算机程序的计算机可读存储介质,计算机程序使得计算机执行如权利要求1至10中任一项所述的网络模型的训练方法,和/或,如权利要求11所述的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111013231.2A CN113850367B (zh) | 2021-08-31 | 2021-08-31 | 网络模型的训练方法、图像处理方法及其相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111013231.2A CN113850367B (zh) | 2021-08-31 | 2021-08-31 | 网络模型的训练方法、图像处理方法及其相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113850367A CN113850367A (zh) | 2021-12-28 |
CN113850367B true CN113850367B (zh) | 2022-08-26 |
Family
ID=78976758
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111013231.2A Active CN113850367B (zh) | 2021-08-31 | 2021-08-31 | 网络模型的训练方法、图像处理方法及其相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113850367B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114781446B (zh) * | 2022-04-11 | 2022-12-09 | 山东省人工智能研究院 | 一种基于hin网络和梯度差损失的心电信号降噪方法 |
CN115013771A (zh) * | 2022-05-23 | 2022-09-06 | 南通大学 | 一种用于小区监测的智慧路灯 |
CN115115512B (zh) * | 2022-06-13 | 2023-10-03 | 荣耀终端有限公司 | 一种图像超分网络的训练方法及装置 |
CN115359105B (zh) * | 2022-08-01 | 2023-08-11 | 荣耀终端有限公司 | 景深扩展图像生成方法、设备及存储介质 |
CN115170893B (zh) * | 2022-08-29 | 2023-01-31 | 荣耀终端有限公司 | 共视档位分类网络的训练方法、图像排序方法及相关设备 |
CN115424118B (zh) * | 2022-11-03 | 2023-05-12 | 荣耀终端有限公司 | 一种神经网络训练方法、图像处理方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113177888A (zh) * | 2021-04-27 | 2021-07-27 | 北京有竹居网络技术有限公司 | 超分修复网络模型生成方法、图像超分修复方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7215242B2 (ja) * | 2019-03-08 | 2023-01-31 | 富士フイルムビジネスイノベーション株式会社 | 画像処理装置及びプログラム |
CN112750081A (zh) * | 2021-01-18 | 2021-05-04 | 北京小米松果电子有限公司 | 图像处理方法、装置及存储介质 |
-
2021
- 2021-08-31 CN CN202111013231.2A patent/CN113850367B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113177888A (zh) * | 2021-04-27 | 2021-07-27 | 北京有竹居网络技术有限公司 | 超分修复网络模型生成方法、图像超分修复方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113850367A (zh) | 2021-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113850367B (zh) | 网络模型的训练方法、图像处理方法及其相关设备 | |
WO2021051996A1 (zh) | 一种图像处理的方法和装置 | |
CN109636754B (zh) | 基于生成对抗网络的极低照度图像增强方法 | |
CN108391060B (zh) | 一种图像处理方法、图像处理装置和终端 | |
WO2020152521A1 (en) | Systems and methods for transforming raw sensor data captured in low-light conditions to well-exposed images using neural network architectures | |
CN114693580B (zh) | 图像处理方法及其相关设备 | |
CN115550570B (zh) | 图像处理方法与电子设备 | |
CN116744120B (zh) | 图像处理方法和电子设备 | |
US20240119566A1 (en) | Image processing method and apparatus, and electronic device | |
CN116055895B (zh) | 图像处理方法及其装置、芯片系统和存储介质 | |
CN115633262B (zh) | 图像处理方法和电子设备 | |
CN115767290B (zh) | 图像处理方法和电子设备 | |
CN115359105B (zh) | 景深扩展图像生成方法、设备及存储介质 | |
CN115358937B (zh) | 图像去反光方法、介质及电子设备 | |
EP4175275A1 (en) | White balance processing method and electronic device | |
WO2023124202A1 (zh) | 图像处理方法与电子设备 | |
CN115550575B (zh) | 图像处理方法及其相关设备 | |
CN113287147A (zh) | 一种图像处理方法及装置 | |
WO2022115996A1 (zh) | 图像处理方法及设备 | |
CN115988311A (zh) | 图像处理方法与电子设备 | |
CN116128739A (zh) | 下采样模型的训练方法、图像处理方法及装置 | |
CN115767287B (zh) | 图像处理方法与电子设备 | |
CN116051368B (zh) | 图像处理方法及其相关设备 | |
CN116245741B (zh) | 图像处理方法及其相关设备 | |
CN116723417B (zh) | 一种图像处理方法和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230912 Address after: 201306 building C, No. 888, Huanhu West 2nd Road, Lingang New Area, Pudong New Area, Shanghai Patentee after: Shanghai Glory Smart Technology Development Co.,Ltd. Address before: Unit 3401, unit a, building 6, Shenye Zhongcheng, No. 8089, Hongli West Road, Donghai community, Xiangmihu street, Futian District, Shenzhen, Guangdong 518040 Patentee before: Honor Device Co.,Ltd. |
|
TR01 | Transfer of patent right |