CN113554047A - 图像处理模型的训练方法、图像处理方法及对应的装置 - Google Patents
图像处理模型的训练方法、图像处理方法及对应的装置 Download PDFInfo
- Publication number
- CN113554047A CN113554047A CN202010335224.3A CN202010335224A CN113554047A CN 113554047 A CN113554047 A CN 113554047A CN 202010335224 A CN202010335224 A CN 202010335224A CN 113554047 A CN113554047 A CN 113554047A
- Authority
- CN
- China
- Prior art keywords
- image
- loss
- network
- result
- total
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4053—Super resolution, i.e. output image resolution higher than sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4046—Scaling the whole image or part thereof using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4053—Super resolution, i.e. output image resolution higher than sensor resolution
- G06T3/4076—Super resolution, i.e. output image resolution higher than sensor resolution by iteratively correcting the provisional high resolution image using the original low-resolution image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/759—Region-based matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Abstract
本申请提供了一种图像处理模型的训练方法、图像处理方法及对应的装置。图像处理模型的训练方法包括:获取样本图像和第一参照图像;样本图像的信息量和分辨率,分别低于第一参照图像的信息量和分辨率;将样本图像输入图像处理模型中的生成网络,通过生成网络对样本图像进行超分处理和下采样处理,生成并输出至少一个结果图像;根据第一参照图像确定至少一个结果图像的图像总损失;根据图像总损失对生成网络的参数进行调整,使调整后的生成网络输出的至少一个结果图像的图像总损失满足图像损失条件。本申请实施例的训练方式更加简便高效,可以提升图像处理模型的处理能力,提升图像处理模型输出图像的视觉质量。
Description
技术领域
本申请涉及图像处理技术领域,具体而言,本申请涉及一种图像处理模型的训练方法、图像处理方法及对应的装置。
背景技术
深度学习技术在过去的5年中取得了突飞猛进的发展。各大企业投入了巨大资本和人力进行深度学习技术研究,不断推出其特有的产品和技术。当前深度学习技术主要用来解决的问题包括:推荐引擎、图像分类、图像搜索、人脸识别、年龄识别、语音识别等。深度学习技术在类人类数据感知领域取得了突破性的进展,例如描述图像内容、识别图像中的复杂环境下的物体以及在嘈杂环境中进行语音识别。同时,深度学习技术还可以解决图像生成和融合的问题。与传统的方法相比,深度学习技术类似一个巨大的滤波器。
人脸清晰化(又称人脸幻想)是随着深度学习技术发展而新兴的一种图像处理技术。该技术可以将一幅非常不清晰的人脸照片恢复成一张清晰的照片。在老照片处理、照片美化领域有着巨大的应用空间。
利用深度学习进行人脸清晰化的一种典型技术为,通过三个彼此完全独立的模型(解码器1、编码器和解码器2)完成人脸清晰化的任务,在训练过程中,对上述三个模型分别进行训练,在对解码器2进行训练时,只能基于解码器2的输出来更新相应参数。该训练方法较为繁琐,效率较低,且训练出的模型的质量较差,最终输出的图像整体视觉质量较差,相对于原始输入的图像而言图像质量没有太大的提升。
发明内容
本申请针对现有方式的缺点,提出一种图像处理模型的训练方法、图像处理方法及对应的装置,用以解决现有技术存在的模型训练方法效率低且训练出的模型质量较差的技术问题。
第一方面,本申请实施例提供了一种图像处理模型的训练方法,包括:
获取样本图像和第一参照图像;样本图像的信息量和分辨率,分别低于第一参照图像的信息量和分辨率;
将样本图像输入图像处理模型中的生成网络,通过生成网络对样本图像进行超分处理和下采样处理,生成并输出至少一个结果图像;
根据第一参照图像确定至少一个结果图像的图像总损失;
根据图像总损失对生成网络的参数进行调整,使调整后的生成网络输出的至少一个结果图像的图像总损失满足图像损失条件。
第二方面,本申请实施例提供了一种图像处理方法,包括:
获取待处理的图像;
将待处理的图像输入图像处理模型,基于图像处理模型中的生成网络的输出,得到处理后的图像;图像处理模型是通过本申请实施例第一方面提供的图像处理模型的训练方法训练得到的。
第三方面,本申请实施例提供了一种图像处理模型的训练装置,包括:
图像获取模块,用于获取样本图像和第一参照图像;样本图像的图像质量和图像分辨率,分别低于第一参照图像的图像质量和图像分辨率;
图像生成模块,用于将样本图像输入图像处理模型中的生成网络,通过生成网络对样本图像进行超分处理和下采样处理,生成并输出至少一个结果图像;
图像损失确定模块,用于根据第一参照图像确定至少一个结果图像的图像总损失;
生成网络调整模块,用于根据图像总损失对生成网络的参数进行调整,使调整后的生成网络输出的至少一个结果图像的图像总损失满足图像损失条件。
第四方面,本申请实施例提供了一种图像处理装置,包括:
图像获取模块,用于获取待处理的图像;
图像处理模块,用于将待处理的图像输入图像处理模型,基于图像处理模型中的生成网络的输出,得到处理后的图像;图像处理模型是通过本申请实施例第一方面提供的图像处理模型的训练方法训练得到的。
第五方面,本申请实施例提供一种图像处理设备,包括:
存储器;
处理器,与存储器电连接;
存储器存储有计算机程序,计算机程序由处理器执行以实现本申请实施例第一方面提供的图像处理模型的训练方法。
第六方面,本申请实施例提供一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现本申请实施例第一方面提供的图像处理模型的训练方法。
本申请实施例提供的技术方案,至少具有如下有益效果:
本申请实施例可对图像处理模型的整体进行训练,相对于现有有技术中对各个模型单独进行训练的方式,本申请实施例的训练方式更加简便高效;本申请实施例可基于图像处理模型中生成网络的至少一个输出进行训练,基于不同的输出,可以更全面且精确地确定出输出的图像总损失,基于该图像总损失,可更精确地对生成网络的参数进行调整,提高生成网络对输入图像的处理能力,例如对人脸图像的清晰化能力,输出视觉质量更高的图像。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为卷积神经网络的一种结构示意图;
图2为本申请实施例中DEMUX层的原理示意图;
图3为本申请实施例中MUX层的原理示意图;
图4为本申请实施例中的一种生成网络的结构示意图;
图5为本申请实施例中的另一种生成网络的结构示意图;
图6为本申请实施例中的一种鉴别网络的结构示意图;
图7为本申请实施例提供的一种图像处理模型的训练方法的流程示意图;
图8为本申请实施例中对生成网络进行训练的部分原理示意图;
图9为本申请实施例提供的另一种图像处理模型的训练方法的部分流程示意图;
图10为本申请实施例中对鉴别网络进行训练的部分原理示意图;
图11为本申请实施例提供的一种图像处理方法的流程示意图;
图12为采用本申请实施例提供的图像处理方法进行图像处理的效果示意图;
图13为本申请实施例提供的一种图像处理模型的训练装置的结构框架示意图;
图14为本申请实施例提供的一种图像处理装置的结构框架示意图;
图15为本申请实施例提供的一种图像处理设备的结构框架示意图。
具体实施方式
下面详细描述本申请,本申请的实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的部件或具有相同或类似功能的部件。此外,如果已知技术的详细描述对于示出的本申请的特征是不必要的,则将其省略。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
首先对本申请涉及的部分术语进行介绍和解释:
卷积神经网络:
卷积神经网络是神经网络的一种特殊结构,将图像作为系统的输入、输出并用卷积核替代标量的权值。一个三层结构的卷积神经网络如图1所示,该网络具有4个输入,隐藏层中具有3个输出,输出层含有2个输出,最终系统输出两幅图像。每个模块表示一个卷积核,k表示输入层编号,i和j表示输入和输出的单位编号。偏置是一组叠加在卷积层输出上的标量。叠加了偏置的卷积层输出接下来会进入到激活层(通常为RELU或者sigmoid函数)。经过训练后,系统的卷积核和偏置是固定的,训练则是通过一组匹配的输入输出以及优化算法对卷积核和偏置进行参数调优。通常情况下每个卷积层可包含数十个或数百个卷积核,深度神经网络往往包含5层以上的卷积层。
DEMUX层:
DEMUX层的作用是将一个二维矩阵进行分解,分解为4个长、宽均为原矩阵一半的小矩阵,如图2所示。
应用在图像处理中,DEMUX层可以对图像像素进行置乱,将一幅图像分解成4幅小图像,其中小图像的长宽均为原图像的1/2,在卷积神经网络中可以作为下采样层使用。
MUX层:
MUX层的作用是进行二维矩阵的组合,可以将4个大小一致的小矩阵组合成为一个大矩阵,其中大矩阵的长、宽均为小矩阵的2倍,如图3所示。
应用在图像处理中,MUX层可以对图像进行像素置乱,将4幅小图组合成一副大图,其中大图的长宽均为小图的2倍,在卷积神经网络中可以作为上采样层使用。
结合图2和图3可以看出,MUX和DEMUX互为逆运算,且在处理过程中仅对像素的位置按一定的规则进行了重新排布,并没有丢失任何像素信息,因此MUX和DEMUX可以无损失地对图像进行上、下采样处理。
损失函数:
1)内容损失:
分析网络中,每一个卷积层的输出都是输入图像的特征。假设某个具有Nl个卷积核的卷积层,其输出包含Nl个特征图像,假设每个特征图像的尺寸都是Ml(特征图像的宽×高)。这样l层的输出可以存储在矩阵 中。表示第l层中第i个卷积核输出的特征图像中第j个位置的值。
其中,Lcontent表示内容损失;C1为一个常数,用于对结果进行标准化处理。
2)对抗损失:
鉴别网络(或称鉴别器)的对抗损失函数为:
L_D=-Ex~Pdata(x)[log D(x)]-Ez~Pz(z)[1-log D(G(z))] 表达式(2)
生成网络(或称生成器)的对抗损失函数为:
L_G=Ex~Pdata(x)[log D(x)]+Fz~Pz(z)[1-log D(G(z))] 表达式(3)
在表达式(2)和表达式(3)中,D为鉴别网络,G为生成网络;L_D为鉴别网络输出结果的对抗损失,L_G为生成网络输出结果的对抗损失;z为生成网络的输入,Pz为生成网络的输入集合;x为某个真样本,Pdata为真样本集,即能够使鉴别网络输出为1的集合;D(x)为真样本输入到鉴别网络后得到的结果,G(z)为生成网络的输出结果;Ex~Pdata(x)表示x从真样本集中取样,对于任意的x执行后续的运算;Ez~Pz(z)表示z从生成网络的输入集合Pz中取样,对于任意的z执行后续的运算。
3)加权L1损失
若训练数据集中含有成对的数据,则可以利用加权L1损失对输出图像加以约束,以便获得更好的图像还原度。L1损失的定义如下:
L1=0.299*(abs(Ri-Rg))+0.587*(abs(Gi-Gg))+0.114*(abs(Bi-Bg))
表达式(4)
在表达式(4)中,Ri、Gi、Bi分别为输出结果的R、G、B通道,Rg、Gg、Bg分别为数据集中高质量(相对于训练数据集中的图像质量而言,图像质量可由图像的信息量来表征,信息量可进一步由信息熵来表征)图像的R、G、B通道,abs()为求绝对值运算。在训练过程中,为了获取更好的图像观看体验,加权L1损失的权重不宜设置过高,在表达式(4)中,R、G、B通道权重分别设置为0.299、0.587、0.114,该权重值不作为对本申请实施例中加权L1损失的限定,可以根据实际情况替换为其它权重值。
4)眼睛区域损失
为了提高生成的人像照片的真实性,特别是眼睛部分的真实性和对称性,本申请提出了一种新的眼睛区域损失,令总眼部区域的高为h,宽为w,则定义眼睛区域损失如下:
Leye=Lcontent(Oeye,Geye)+Lcontent(Oeye[:,0:0.5w],Oeye[:,0.5w:w])+Lcontent(Geye[:,0:0.5w],Geye[:,0.5w:w]) 表达式(5)
在表达式(5)中,Oeye为输出图像的总眼部区域,Geye为高质量(相对于原始输入的图像的质量而言)图像的总眼部区域,Lcontent(Oeye,Geye)为二者的内容损失。若定义总眼部区域最左端(左、右以人眼观察纸面或显示界面的图像的角度为准)的宽度值为0,最右端的宽度值为w,则Oeye[:,0:0.5w]表示输出图像的总眼部区域中的左半边区域,Oeye[:,0.5w:w]表示总眼部区域中的右半边区域,Geye[:,0:0.5w]表示高质量图像中总眼部区域的左半边区域,Geye[:,0.5w:w]表示高质量图像中总眼部区域的右半边区域;Lcontent(Oeye[:,0:0.5w],Oeye[:,0.5w:w])表示输出图像的总眼部区域中的左半边区域和右半边区域的内容损失,Lcontent(Geye[:,0:0.5w],Geye[:,0.5w:w]表示高质量图像中总眼部区域的左半边区域和右半边区域的内容损失。
眼睛区域损失可以加强输出图像的眼部区域与高质量图像的逼近程度,同时约束其左右对称性与高质量图像一致。
本申请实施例中的损失函数可以是交叉熵损失函数、铰链损失函数(HingeLoss)、指数损失函数(Exponential Loss)、Softmax损失函数等现有的任意一种损失函数,可根据实际需求进行选择,本申请实施例中所列举的损失函数仅为示例,不构成对本申请的限制。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。
本申请实施例提供了一种图像处理模型,包括:生成网络;该生成网络可用于对输入该生成网络的图像进行超分(即超分辨率,Super Resolution)处理和下采样处理,生成并输出至少一个结果图像;至少一个结果图像可包括第一结果图像、第二结果图像和第三结果图像的至少一个。
在一个可选的实施方式中,如图4所示,该生成网络包括:依次级联的第一超分子网络、下采样子网络和第二超分子网络。
第一超分子网络,用于对输入该第一超分子网络的图像(如图4中的Input)进行超分处理,得到第一特征图像;下采样子网络,用于对所述第一特征图像特征进行下采样处理,得到至少一个第二特征图像;第二超分模块,用于对所述第二特征图像进行超分处理,生成并输出第一结果图像(如图4中的output),该第一结果图像为生成网络输出的最终结果图像。
在另一个可选的实施方式中,如图5所示,第一超分子网络、下采样子网络和第二超分子网络的基础上,该生成网络还包括:级联于第一超分子网络之后的第一特征提取子网络和级联于下采样子网络之后的第二特征提取子网络。
第一特征提取子网络,用于对第一超分子网络输出的第一特征图像进行特征提取,得到并输出第二结果图像(如图5中的Output_tmp1);第二特征提取子网络,用于对下采样模块输出的第二特征图像进行特征提取,生成并输出第三结果图像(如图5中的Output_Tmp2)。第二结果图像和第三结果图像均为生成网络输出的中间结果图像。
在又一个可选的实施方式中,第一超分子网络、下采样子网络和第二超分子网络的基础上,该生成网络还包括:级联于所述第一超分子网络之后的第一特征提取子网络,或,级联于所述下采样子网络之后的第二特征提取子网络。第一特征提取子网络和第二特征提取子网络的功能如前所述。
可选的,第一超分子网络和第二超分子网络均包括多个级联的卷积块(convs),本申请实施例对第一超分子网络和第二超分子网络中卷积块的数量不作限定。
在一个可选的实施方式中,第一超分子网络和第二超分子网络的至少部分卷积块为第一卷积块,其余卷积块为第二卷积块;其中,第一卷积块包括依次级联的至少一个卷积层、和级联在至少一个卷积层之后的上采样层,第二卷积块包括依次级联的至少一个卷积层。
在一个示例中,可将图4或图5中第一超分子网络中的前三个convs以及第二超分子网络中的前三个convs均设置为第一卷积块,第一超分子网络中的第四个convs以及第二超分子网络中的第四个convs均设置为第二卷积块。
在另一个示例中,可将图4或图5中第一超分子网络的前两个convs以及第二超分子网络中的前两个convs均设置为第一卷积块,第一超分子网络的后两个convs以及第二超分子网络中的后两个卷积块设置为第二卷积块。
在其它示例中,对于第一超分子网络和第二超分子网络,还可根据实际需求采用其它的卷积块设置方式,第一超分子网络和第二超分子网络可根据实际需求采用相同的卷积块设置方式,也可以采用不同的卷积块设置方式。
可选的,第一卷积块中的上采样层可以是如前所述的MUX层。
可选的,本申请实施例中的下采样模块包括并列的第一下采样分支和第二下采样分支;第一下采样分支可以包括多个级联的卷积块convs,本申请实施例对第一下采样分支中卷积块的数量不作限定;第二下采样分支可以包括下采样层。
在一个可选的实施方式中,第一下采样分支中的卷积块可以设置为第三卷积块,该第三卷积块中包括依次级联的至少一个卷积层、和级联在至少一个卷积层之后的下采样层。
可选的,第一下采样分支中的下采样层和第二下采样分支中的下采样层均可以是如前所述的DEMUX层。
可选的,本申请实施例中的第一特征提取子网络和第二特征提取子网络均包括依次级联的至少一个卷积块,本申请实施例对第一特征提取子网络和第二特征提取子网络中卷积块的数量不作限定。
在一个可选的实施方式中,第一特征提取子网络和第二特征提取子网络中的卷积块均可以设置为第二卷积块,该第二卷积块的结构如前所述。
可选的,本申请实施例提供的图像处理模型,还包括:鉴别网络;该鉴别网络,用于对输入该鉴别网络的图像进行鉴别,确定输入的图像是否具备预设特征,并输出图像标签。鉴别网络级联于生成网络之后时,可用于约束生成网络的输出,具体地,接收生成网络输出的至少一个结果图像,对该至少一个结果图像进行鉴别。
鉴别网络输出的图像标签用于表征鉴别网络对输入的图像的鉴别结果。该图像标签可用“1”或“0”来表示,也可用“真”或“假”来表示,“1”和“真”均表示图像中具备预设特征;“0”和“假”均表示图像中不具备预设特征。
在一个可选的实施方式中,本申请实施例中的鉴别网络包括多个卷积层(conv)、池化层(Pool)、全连接层(FC)和激活层(sigmoid),各层的级联方式如图6所示,其中,卷积层和池化层用于对输入的图像进行处理,然后经过全连接层和激活层获得输出的标量值。
可选的,本申请实施例中的鉴别网络可设置至少一个,其具体数量可与生成网络输出的结果图像的数量相同,每个鉴别网络接收生成网络的一个结果图像,对该结果图像进行鉴别,从而实现对生成网络输出的各个结果图像的鉴别。
在一个示例中,可采用三个鉴别网络,分别接收生成网络输出的第一结果图像、第二结果图像以及第三结果图像,在对图像处理模型的训练过程中,采用多个鉴别网络可实现对生成网络输出的第一结果图像、第二结果图像以及第三结果图像的约束。
本申请实施例提供的图像处理模型在图像处理过程中以及训练过程中的具体应用,将在后续实施例结合图像处理方法和图像处理模型的训练方法详述。
本申请实施例提供了一种图像处理模型的训练方法,如图7所示,该训练方法包括:
S701,获取样本图像和第一参照图像。
本申请实施例中样本图像的信息量和分辨率,分别低于所述第一参照图像的信息量和分辨率。
在后文的具体示例中,将信息量和分辨率相对较低的样本图像称为低质量低分辨率图像,将信息量和分辨率相对较高的第一参照图像称为高质量高分辨率图像。
S702,将样本图像输入图像处理模型中的生成网络,通过生成网络对样本图像进行超分处理和下采样处理,生成并输出至少一个结果图像。
在一个可选的实施方式中,当生成网络包括依次级联的第一超分子网络、下采样子网络和第二超分子网络时,将样本图像输入第一超分子网络,通过第一超分子网络对样本图像进行超分处理,得到第一特征图像;通过下采样子网络对第一特征图像进行下采样处理,得到至少一个第二特征图像;通过第二超分子网络对第二特征图像进行超分处理,得到并输出第一结果图像;第一特征图像的分辨率高于样本图像的分辨率,第二特征图像的分辨率低于第一特征图像的分辨率,第一结果图像的分辨率高于第二特征图像的分辨率。
第一超分子网络、下采样网络和第二超分子网络的级联关系以及具体结构如前所述,此处不再赘述。
基于上述方式,结合图4或图5可以看出,本申请实施例可通过第一超分子网络对输入的样本图像进行了超分处理(第一次超分处理),得到一个高分辨率图像(即第一特征图像,该图像相对于样本图像而言称为高分辨率图像);通过下采样子网络对第一特征图像进行下采样处理,得到一个低分辨率图像(即第二特征图像,该图像相对于第一特征图像而言称为低分辨率图像);进而通过第二超分子网络对第二特征图像进行超分处理(第二次超分处理),得到并输出一个高分辨率图像(即第一结果图像Output,该图像相对于样本图像或第二特征图像而言称为高分辨率图像),从而提升样本图像的分辨率。
可选的,当下采样子网络包括并列的第一下采样分支和第二下采样分支时,通过下采样子网络对第一特征图像进行下采样处理,得到至少一个第二特征图像,包括:通过第一下采样分支对第一超分子网络得到的第一特征图像进行下采样处理,得到一个第二特征图像;通过第二下采样分支对第一超分子网络得到的第一特征图像进行下采样处理,得到另一个第二特征图像;第二下采样分支得到的第二特征图像的信息量大于第一下采样分支得到的第二特征图像的信息量。
第一下采样分支和第二下采样分支的结构如前所述,此处不再赘述。
本申请实施例通过设置第二下采样分支,可得到信息量相对较高的第二特征图像,与第一下采样分支得到的第二特征图像共同作为第二超分子网络的输入,第二下采样分支输出的第二特征图像可弥补第一下采样分支输出的第二特征图像信息量不足的缺点,提高输入第二超分子网络的图像的图像特征信息,使得第二超分子网络在输出最终结果时保留尽量多的图像特征信息,从而增加最终结果(即第一结果图像)的信息量,提高处理后的图像的清晰度,得到高质量高分辨率图像。
在另一个可选的实施方式中,如图5所示,当生成网络还包括第一特征提取子网络和第二特征提取子网络时,通过该第一特征提取子网络对第一特征图像进行特征提取,得到并输出第二结果图像Output_tmp1;通过第二特征提取子网络对第二特征图像进行特征提取,得到并输出第三结果图像Output_tmp2。
在又一个可选的实施方式中,当生成网络包括第一特征提取子网络时,通过所述第一特征提取子网络对所述第一特征图像进行特征提取,得到并输出第二结果图像;当生成网络包括第二特征提取子网络时,通过所述第二特征提取子网络对所述第二特征图像进行特征提取,得到并输出第三结果图像。
第一特征提取子网络和/或第二特征提取子网络的级联方式以及具体结构如前所述,此处不再赘述。
通过第一特征提取子网络和/或第二特征提取子网络输出的两个结果图像或任一结果图像,均可用于计算生成网络输出图像的图像总损失(计算方式将在后续实施例中详述),从而实现多尺度约束,提高训练精细度,以提高训练后的图像处理模型的质量。
S703,根据第一参照图像确定至少一个结果图像的图像总损失。
在一个可选的实施方式中,当生成网络包括依次级联的第一超分子网络、下采样子网络和第二超分子网络时,根据第一参照图像,确定第一结果图像的第一图像损失,作为图像总损失。
在另一个可选的实施方式中,当生成网络还包括第一特征提取子网络和第二特征提取子网络时,根据第一参照图像生成第二参照图像;根据第一参照图像和第二参照图像,确定第一结果图像、第二结果图像和第三结果图像的图像总损失。
可选的,根据第一参照图像确定第一结果图像的第一图像损失和第二结果图像的第二图像损失,根据第二参照图像确定第三结果图像的第三图像损失,根据第一图像损失、第二图像损失和第三图像损失确定图像总损失。
在又一个可选的实施方式中,当生成网络包括第一特征提取子网络时,根据第一参照图像,确定第一结果图像和第二结果图像的图像总损失;当生成网络包括第二特征提取子网络时,根据第一参照图像生成第二参照图像,根据第一参照图像和第二参照图像,确定第一结果图像和第三结果图像的图像总损失。
可选的,当生成网络包括第一特征提取子网络时,根据第一参照图像确定第一结果图像的第一图像损失和第二结果图像的第二图像损失,根据第一图像损失和第二图像损失确定图像总损失;当生成网络包括第二特征提取子网络时,根据第一参照图像确定第一结果图像的第一图像损失,根据第二参照图像确定第三结果图像的第三图像损失,根据第一图像损失和第三图像损失确定图像总损失。
可选的,根据第一参数图像生成第二参数图像,包括:对第一参照图像进行下采样处理,得到第二参照图像;第二参照图像的信息量与第一参照图像的信息量相同,第二参照图像的分辨率低于第一参照图像的分辨率,第一参照图像的尺寸与样本图像的尺寸相同。
第一参照图像和第二参照图像均可存储于数据集中,方便后续调用。
可选的,图像总损失包括:内容损失、对抗损失、加权L1损失和眼睛区域损失中的至少一种损失。可选的,第一图像损失、第二图像损失和第三图像损失均可包括:内容损失、对抗损失、加权L1损失和眼睛区域损失中的至少一种损失。
可选的,当所述图像总损失包括所述加权L1损失和所述眼睛区域损失中的至少一种损失时,所述根据所述第一参照图像确定至少一个所述结果图像的图像总损失,包括以下至少一种损失确定方式:
方式一:根据至少一个结果图像和第一参照图像的像素值差值,确定所述加权L1损失;方式二:根据至少一个结果图像中的眼部区域和第一参照图像中的眼部区域的内容损失,确定眼睛区域损失。
可选地,根据至少一个结果图像中的眼部区域和第一参照图像中的眼部区域的内容损失,确定眼睛区域损失,包括:
对于每个结果图像,分别确定结果图像中的总眼部区域和第一参照图像的总眼部区域的内容损失、以及结果图像中的第一眼部区域和第二眼部区域的内容损失,分别作为总内容损失和结果图像内容损失;确定第一参照图像中的第一眼部区域和第二眼部区域的内容损失,作为参照图像内容损失;根据总内容损失、结果图像内容损失和参照图像内容损失,确定结果图像和第一参照图像的眼睛区域损失。
在结果图像和第一参照图像中,总眼部区域包括第一眼部区域和第二眼部区域,第一眼部区域和第二眼部区域不重叠。
在一个可选的实施方式中,第一眼部区域可以是总眼部区域中的左半边区域,第二眼部区域可以是总眼部区域中的右半边区域,左半边区域和右半边区域的划分可参照前述的表达式(5)的相关内容,即对于高为h、宽为w的总眼部区域,将从左至右计算的0至0.5w的区域作为左半边区域,0.5w至w的区域作为右半边区域;也可以从右至左进行计算或划分。
在另一个可选的实施方式中,第一眼部区域可以是总眼部区域中的上半部分区域,第二眼部区域可以是总眼部区域中的下半部分区域,上半部分区域和下半部分区域的划分可以是如下方式:对于高为h、宽为w的总眼部区域,将从上至下计算的0至0.5h的区域作为上半部分区域,0.5h至h的区域作为下半部分区域;采用该种划分方式时,眼睛区域损失的计算方式仍可采用表达式(5)的方式,将表达式(5)中的w改为h即可;也可以从下至上进行计算和划分。
在其它可选的实施方式中,第一眼部区域和第二眼部区域的划分还可以根据实际需要,采用其它划分方式,例如左半边区域和右半边区域不是以0.5w为界的等分方式,而是成一定比例的划分,此处不再一一列举。
本申请实施例中的左、右、上、下均以人眼观察纸面或显示界面的图像的角度为准。
在一个可选的实施方式中,根据总内容损失、结果图像内容损失和参照图像内容损失,确定结果图像和第一参照图像的眼睛区域损失,包括:将总内容损失、结果图像内容损失和参照图像内容损失的和,作为结果图像和第一参照图像的眼睛区域损失。
图8示出了对生成网络(Generator)进行训练的部分训练原理,下面参照图8,对图像总损失的确定方式作进一步介绍:
图8中的低质量低分辨率(Low quality Low resolution)图像为样本图像,高质量高分辨率(High quality High resolution)图像为第一参照图像,高质量低分辨率(High quality Low resolution)图像为第二参照图像。
在图8的示例中,将低质量低分辨率图像输入生成网络Generator中,可以得到三个输出图像,分别为第二超分模块输出的第一结果图像Output、第一特征提取模块输出的第二结果图像Output_tmp1、第二特征提取模块输出的第三结果图像Output_tmp2。
对于Output和Output_tmp1,根据高质量高分辨率图像,可分别计算得到Output的第一图像损失Loss_out和Output_tmp1的第二图像损失Loss_tmp_1。
对于Output_tmp2,通过BICUBIC方法对高质量高分辨率图像进行下采样后,可得到与低质量低分辨率尺寸相等的高质量低分辨率图像,根据该高质量低分辨率图像,可计算得到Output_tmp2的第三图像损失Loss_tmp_2。
计算出的Loss_out、Loss_tmp_1和Loss_tmp_2均可包括内容损失、对抗损失、加权L1损失和眼睛区域损失中的至少一种,该四种损失的具体计算方法可参照前述表达式(1)以及表达式(3)-(5)的相关内容,此处不再赘述,其中,将表达式(3)应用于本申请实施例时,第一参照图像可作为“真”样本集Pdata。
以同时包含上述四种损失为例,第一图像损失可通过如下方式得到:
loss_out=a*Lcontent(hh,output)+b*L_G(output)+c*L1(hh,output)+d*Leye(hheye,outputeye) 表达式(6)
第二图像损失可通过如下方式得到:
loss_tmp_1=a*Lcontent(hh,output_tmp1)+b*L_G(output_tmp1)+c*L1(hh,,out_tmp1)+d*Leye(hheye,out_tmp1eye)
表达式(7)
第三图像损失可通过如下方式得到:
loss_tmp_2=a*Lcontent(hl,output_tmp2)+b*L_G(output_tmp2)+c*L1(hl,out_tmp2)+d*Leye(hleye,out_tmp2eye)
表达式(8)
在表达式(6)-(8)中,hh表示高质量高分辨率图像,hl表示高质量低分辨率图像,hheye表示高质量高分辨率图像中的眼部区域图像,hleye表示高质量低分辨率图像中的眼部区域图像,outputeye、out_tmp1eye、out_tmp2eye分别表示对应的结果图像中的眼部区域图像,a、b、c、d分别为内容损失Lcontent、对抗损失L_G、加权L1损失L1、眼睛区域损失Leye的权重参数。
图像总损失LOSS可通过如下方式计算得出:
LOSS=α*loss_out+β*loss_tmp_1+γ*loss_tmp_2 表达式(9)
在表达式(9)中,α、β、γ分别为loss_out、oss_tmp_1、loss_tmp_2的权重参数。
本申请实施例中的权重参数均可根据实际需求设置。
S704,根据图像总损失对生成网络的参数进行调整,使调整后的生成网络输出的至少一个结果图像的图像总损失满足图像损失条件。
本申请实施例中的图像损失条件可根据实际需求设定,例如根据实际需求设置一个损失阈值,若图像总损失小于该损失阈值,则认为图像总损失满足图像损失条件。
可选地,如图9所示,本申请实施例提供的图像处理模型方法,还包括如下步骤S901-S904:
S901,将第一参照图像和生成网络输出的至少一个结果图像输入图像处理模型中的鉴别网络。
可选地,对于两个以上的鉴别网络,将第一参照图像分别输入各鉴别网络中,将生成网络输出的每一个结果图像分别输入至一个鉴别网络中。
S902,通过鉴别网络对第一参照图像和至少一个结果图像进行鉴别,确定第一参照图像和至少一个结果图像是否具备预设特征,输出参照图像标签和结果图像标签。
参照图像标签表征对第一参照图像的鉴别结果,结果图像标签表征对至少一个结果图像的鉴别结果。
可选地,对于两个以上的鉴别网络,通过每个鉴别网络对第一参照图像和输入该鉴别网络中的一个结果图像进行鉴别,确定第一参照图像和输入的该结果图像是否具备预设特征。
S903,根据参照图像标签,确定结果图像标签的对抗损失。
可选地,通过损失构建模块,根据参照图像标签确定结果图像标签的对抗损失。损失构建模块计算对抗损失的原理可参照前述的表达式(2)的相关内容,此处不再赘述。
S904,根据对抗损失对鉴别网络的参数进行调整,使调整后的鉴别网络输出的结果图像标签的对抗损失满足对抗损失条件。
可选地,通过优化器,根据对抗损失对鉴别网络的参数进行调整。优化器可是基于现有的多种优化算法中的任意一种算法的优化器,多种优化算法包括SGD(StochasticGradient Descent,随机梯度下降法)、BGD(Batch Gradient Descent,批量梯度下降法)和ADAM算法等。
图10示出了对鉴别网络的一种训练方式,如图10所示,将生成网络(Generator)输出的结果图像作为假样本(Fake samples)输入至对应的鉴别网络(Discriminator)中,获得鉴别网络输出的假标签(F);将数据库(Dataset)中的高质量高分辨率图像作为真样本(True samples)输入至同样的鉴别网络中,获得鉴别网络输出的真标签(T);鉴别网络输出真标签和假标签通过的损失构建模块(Loss Build)产生对抗损失Loss,再通过优化器(Optimization)调整鉴别网络的参数。
基于同一发明构思,本申请实施例提供了一种图像处理方法,如图11所示,该图像处理方法包括:
S1101,获取待处理的图像。
待处理的图像可以是人脸图像,也可以是其它图像,如物品图像、风景图像等。
S1102,将所述待处理的图像输入图像处理模型,基于图像处理模型中的生成网络的输出,得到处理后的图像。
本申请实施例中的图像处理模型是通过本申请实施例提供的图像处理模型的任意一种训练方法训练得到的。
可选地,本申请实施例提供的图像处理方法,还包括:基于所述图像处理模型中的鉴别网络的输出,得到所述处理后的图像的图像标签;所述图像标签表征所述处理后的图像是否具备预设特征。
本申请实施例采用的训练后的图像处理模型的图像处理能力较强,基于该图像处理模型,采用本申请实施例提供的图像处理方法,可对原始图像进行更精细的图像处理,得到视觉质量较高的处理后的图像。
以人脸图像的清晰化处理为例,采用本申请实施例的图像处理方法对原始图像进行清晰化处理后,输出的处理后的图像的视觉效果如图12所示,由图12可以看出,采用本申请实施例的图像处理方法处理后的图像清晰度相比于原始图像清晰度有大幅度的提升,相比于现有技术处理后的图像的清晰度,采用本申请实施例的图像处理方法处理后的图像清晰度更高,可见本申请实施例的图像处理方法对人脸图像的清晰化处理效果更好。
基于同一发明构思,本申请实施例提供的一种图像处理模型的训练装置,如图13所示,该训练装置包括:图像获取模块1301、图像生成模块1302、图像损失确定模块1303以及生成网络调整模块1304。
图像获取模块1301,用于获取样本图像和第一参照图像;样本图像的信息量和分辨率,分别低于第一参照图像的信息量和分辨率。
图像生成模块1302,用于将样本图像输入图像处理模型中的生成网络,通过生成网络对样本图像进行超分处理和下采样处理,生成并输出至少一个结果图像。
图像损失确定模块1303,用于根据第一参照图像确定至少一个结果图像的图像总损失。
生成网络调整模块1304,用于根据图像总损失对生成网络的参数进行调整,使调整后的生成网络输出的至少一个结果图像的图像总损失满足图像损失条件。
在一个可选的实施方式,图像生成模块1302具体用于:将样本图像输入生成网络中的第一超分子网络,通过第一超分子网络对样本图像进行超分处理,得到第一特征图像;第一特征图像的分辨率高于样本图像的分辨率;通过生成网络中的下采样子网络对第一特征图像进行下采样处理,得到至少一个第二特征图像;第二特征图像的分辨率低于第一特征图像的分辨率;通过生成网络中的第二超分子网络对第二特征图像进行超分处理,得到并输出第一结果图像;第一结果图像的分辨率高于第二特征图像的分辨率。
可选的,图像生成模块1302具体用于:通过下采样子网络中的第一下采样分支对第一特征图像进行下采样处理,得到一个第二特征图像;通过下采样网络中的第二下采样分支对第一特征图像进行下采样处理,得到另一个第二特征图像;第二下采样分支得到的第二特征图像的信息量大于第一下采样分支得到的第二特征图像的信息量。
在另一个可选的实施方式中,图像生成模块1302具体用于:通过生成网络中的第一特征提取子网络对第一特征图像进行特征提取,得到并输出第二结果图像;通过生成网络中的第二特征提取子网络对第二特征图像进行特征提取,得到并输出第三结果图像。
在又一个可选的实施方式中,图像生成模块1302具体用于:通过第一特征提取子网络对第一特征图像进行特征提取,得到并输出第二结果图像;或,通过第二特征提取子网络对第二特征图像进行特征提取,得到并输出第三结果图像。
在一个可选的实施方式中,图像损失确定模块1303具体用于:根据第一参照图像,确定第一结果图像的第一图像损失,作为图像总损失。
在另一个可选的实施方式中,图像损失确定模块1303具体用于:根据第一参照图像生成第二参照图像;根据第一参照图像和第二参照图像,确定第一结果图像、第二结果图像和第三结果图像的图像总损失。
在又一个可选的实施方式中,图像损失确定模块1303具体用于:根据第一参照图像,确定第一结果图像和第二结果图像的图像总损失;或,根据第一参照图像生成第二参照图像,根据第一参照图像和第二参照图像,确定第一结果图像和第三结果图像的图像总损失。
可选的,图像损失确定模块1303具体用于当图像总损失包括加权L1损失和眼睛区域损失中的至少一种损失时,执行以下至少一种损失确定方式:方式一,根据至少一个结果图像和第一参照图像的像素值差值,确定加权L1损失;方式二,根据至少一个结果图像中的眼部区域和第一参照图像中的眼部区域的内容损失,确定眼睛区域损失。
可选的,图像损失确定模块1303具体用于:对于每个结果图像,分别确定结果图像中的总眼部区域和第一参照图像的总眼部区域的内容损失、以及结果图像中的第一眼部区域和第二眼部区域的内容损失,分别作为总内容损失和结果图像内容损失;确定第一参照图像中的第一眼部区域和第二眼部区域的内容损失,作为参照图像内容损失;根据总内容损失、结果图像内容损失和参照图像内容损失,确定结果图像和第一参照图像的眼睛区域损失;在结果图像和第一参照图像中,总眼部区域包括第一眼部区域和第二眼部区域,第一眼部区域和第二眼部区域不重叠。
可选的,本申请实施提供的图像处理模型的训练装置还包括:图像鉴别模块、标签损失确定模块和鉴别网络调整模块。
图像鉴别模块用于:将第一参照图像和至少一个结果图像输入图像处理模型中的鉴别网络,通过鉴别网络对第一参照图像和至少一个结果图像进行鉴别,确定第一参照图像和至少一个结果图像是否具备预设特征,输出参照图像标签和结果图像标签;参照图像标签表征对第一参照图像的鉴别结果,结果图像标签表征对至少一个结果图像的鉴别结果;标签损失确定模块用于:根据参照图像标签,确定结果图像标签的对抗损失;鉴别网络调整模块用于:根据对抗损失对鉴别网络的参数进行调整,使调整后的鉴别网络输出的结果图像标签的对抗损失满足对抗损失条件。
基于同一发明构思,本申请实施例提供的一种图像处理装置,如图14所示,该图像处理装置1400包括:图像获取模块1401和图像处理模块1402。
图像获取模块1401,用于获取待处理的图像。
图像处理模块1402,用于将待处理的图像输入图像处理模型,基于图像处理模型中的生成网络的输出,得到处理后的图像;图像处理模型是通过本申请实施例提供的图像处理模型的任意一种训练方法训练得到的,该训练方法可参照前述实施例,此处不再赘述。
可选的,本申请实施例提供的图像处理装置还包括:图像鉴别模块;该图像鉴别模块用于:基于图像处理模型中的鉴别网络的输出,得到处理后的图像的图像标签;图像标签表征处理后的图像是否具备预设特征。
本申请实施例提供的图像处理模型的训练装置1300可执行本申请实施例提供的任意一种图像处理模型的训练方法,本申请实施例提供的图像处理装置1400可执行本申请实施例提供的任意一种图像处理方法,其实现原理相类似,本实施例中未详细示出的内容可参照前面所述的各实施例,此处不再赘述。
基于同一发明构思,本申请实施例提供了一种图像处理设备,该图像处理设备包括:存储器和处理器,存储器与处理器电连接。
存储器上存储有计算机程序,该计算机程序由处理器执行以实现本申请实施例所提供的任意一种图像处理方法,和/或,图像处理模型的任意一种训练方法。
本技术领域技术人员可以理解,本申请实施例提供的图像处理设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中。
本申请在一个可选实施例中提供了一种图像处理设备,如图15所示,该图像处理设备1500包括:存储器1501和处理器1502,存储器1501和处理器1502电连接,如通过总线1503连接。
存储器1501可以是ROM(Read-Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,可以是RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead-Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
处理器1502可以是CPU(Central Processing Unit,中央处理器)、通用处理器,DSP(Digital Signal Processor,数据信号处理器)、ASIC(Application SpecificIntegrated Circuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器802也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线1503可包括一通路,在上述组件之间传送信息。总线可以是PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图15中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选地,图像处理设备1500还可以包括收发器1504。收发器1504可用于信号的接收和发送。收发器1504可以允许图像处理设备1500与其他设备进行无线或有线通信以交换数据。需要说明的是,实际应用中收发器1504不限于一个。
可选地,图像处理设备1500还可以包括输入单元1505。输入单元1505可用于接收输入的数字、字符、图像和/或声音信息,或者产生与电子设备1500的用户设置以及功能控制有关的键信号输入。输入单元1505可以包括但不限于触摸屏、物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆、拍摄装置、拾音器等中的一种或多种。
可选地,图像处理设备1500还可以包括输出单元1506。输出单元1506可用于输出或展示经过处理器1502处理的信息。输出单元1506可以包括但不限于显示装置、扬声器、振动装置等中的一种或多种。
虽然图15示出了具有各种装置的图像处理设备1500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
可选的,存储器1501用于存储执行本申请方案的应用程序代码,并由处理器1502来控制执行。处理器1502用于执行存储器1501中存储的应用程序代码,以实现本申请实施例提供的图像处理模型的任意一种训练方法。
本申请实施例提供的图像处理设备,与前面所述的各实施例具有相同的发明构思,该图像处理设备中未详细示出的内容可参照前面所述的各实施例,在此不再赘述。
基于同一发明构思,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现本申请实施例所提供的任意一种图像处理方法,和/或,图像处理模型的任意一种训练方法。
该计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM、RAM、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
本申请实施例提供了一种计算机可读存储介质适用于上述图像处理方法和/或图像处理模型的训练方法的各种可选实施方式,在此不再赘述。
本申请实施例提供的计算机可读存储介质,与前面所述的各实施例具有相同的发明构思,该计算机可读存储介质中未详细示出的内容可参照前面所述的各实施例,在此不再赘述。
应用本申请实施例,至少能够实现如下有益效果:
1)本申请实施例可对图像处理模型的整体进行训练,相对于现有有技术中对各个模型单独进行训练的方式,本申请实施例的训练方式更加简便高效;本申请实施例可基于图像处理模型中生成网络的至少一个输出进行训练,基于不同的输出,可以更全面且精确地确定出输出的图像总损失,基于该图像总损失,可更精确地对生成网络的参数进行调整,提高生成网络对输入图像的处理能力,例如对人脸图像的清晰化能力,输出视觉质量更高的图像。
2)本申请实施例在训练过程中可对生成网络的多个输出分别计算图像损失,进而根据各个输出的图像损失确定的图像总损失,从而实现基于多个输出的多尺度约束,通过多尺度约束的方式可充分利用原始输入图像和处理过程中的图像信息,进而提升对生成网络的训练质量,使训练出的生成网络具备更强的图像处理能力,大幅提高生成网络输出图像的视觉质量。
3)本申请实施例中生成网络的下采样子网络可以包括两个下采样分支,在对第一超分子网络输出的第一特征图像进行不同的下采样处理后,可得到信息量不同的两个第二特征图像,两个第二特征图像可互相补充,相对于单一输入的方式,使输入第二超分子网络的特征图像保留较多的信息量,进而使第二超分子多络的输出图像在分辨率较高的同时信息量也较多,输出图像的视觉质量较好。
4)本申请实施例中的第二下采样分支可实现跨层链接,即将第一超分子网络的输出与第二超分子网络的输入直接链,实现特征信息的无损传播;具体地,第二下采样分支采用一个下采样层(如DEMUX层)对第一特征图像进行无损下采样处理,处理后的图像不作其它处理直接输入第二超分子网络,相对于第一下采样分支中的多层卷积和下采样,第二下采样分支可以较大程度的减少图像的信息损失以更好的弥补第一下采样分支输出图像的不足,使输入第二超分子网络的图像保留较多的信息。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
在本申请的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (13)
1.一种图像处理模型的训练方法,其特征在于,包括:
获取样本图像和第一参照图像;所述样本图像的信息量和分辨率,分别低于所述第一参照图像的信息量和分辨率;
将所述样本图像输入图像处理模型中的生成网络,通过所述生成网络对所述样本图像进行超分处理和下采样处理,生成并输出至少一个结果图像;
根据所述第一参照图像确定至少一个所述结果图像的图像总损失;
根据所述图像总损失对所述生成网络的参数进行调整,使调整后的所述生成网络输出的至少一个所述结果图像的所述图像总损失满足图像损失条件。
2.根据权利要求1所述的训练方法,其特征在于,所述生成网络包括依次级联的第一超分子网络、下采样子网络和第二超分子网络;
以及,所述将所述样本图像输入所述图像处理模型的生成网络,通过所述生成网络对所述样本图像进行超分处理和下采样处理,生成并输出至少一个结果图像,包括:
将所述样本图像输入所述第一超分子网络,通过所述第一超分子网络对所述样本图像进行超分处理,得到第一特征图像;所述第一特征图像的分辨率高于所述样本图像的分辨率;
通过所述下采样子网络对所述第一特征图像进行下采样处理,得到至少一个第二特征图像;所述第二特征图像的分辨率低于所述第一特征图像的分辨率;
通过所述第二超分子网络对所述第二特征图像进行超分处理,得到并输出第一结果图像;所述第一结果图像的分辨率高于所述第二特征图像的分辨率。
3.根据权利要求2所述的训练方法,其特征在于,所述下采样子网络包括并列的第一下采样分支和第二下采样分支;
以及,所述通过所述下采样子网络对所述第一特征图像进行下采样处理,得到至少一个第二特征图像,包括:
通过所述第一下采样分支对所述第一特征图像进行下采样处理,得到一个第二特征图像;
通过所述第二下采样分支对所述第一特征图像进行下采样处理,得到另一个第二特征图像;所述第二下采样分支得到的所述第二特征图像的信息量大于所述第一下采样分支得到的所述第二特征图像的信息量。
4.根据权利要求2所述的训练方法,其特征在于,所述生成网络还包括:级联于所述第一超分子网络之后的第一特征提取子网络和级联于所述下采样子网络之后的第二特征提取子网络;
以及,所述将所述样本图像输入所述图像处理模型中的生成网络,通过所述生成网络对所述样本图像进行超分处理和下采样处理,生成并输出至少一个结果图像,还包括;
通过所述第一特征提取子网络对所述第一特征图像进行特征提取,得到并输出第二结果图像;
通过所述第二特征提取子网络对所述第二特征图像进行特征提取,得到并输出第三结果图像;
以及,所述根据所述第一参照图像确定所述至少一个结果图像的图像总损失,还包括:
根据所述第一参照图像生成第二参照图像;
根据所述第一参照图像和所述第二参照图像,确定所述第一结果图像、所述第二结果图像和所述第三结果图像的图像总损失。
5.根据权利要求2所述的训练方法,其特征在于,所述生成网络还包括:级联于所述第一超分子网络之后的第一特征提取子网络,或,级联于所述下采样子网络之后的第二特征提取子网络;
以及,所述将所述样本图像输入所述图像处理模型的生成网络,通过所述生成网络对所述样本图像进行超分处理和下采样处理,生成并输出至少一个结果图像,还包括:
通过所述第一特征提取子网络对所述第一特征图像进行特征提取,得到并输出第二结果图像;或,通过所述第二特征提取子网络对所述第二特征图像进行特征提取,得到并输出第三结果图像;
以及,所述根据所述第一参照图像确定所述至少一个结果图像的图像总损失,包括:
根据所述第一参照图像,确定所述第一结果图像和所述第二结果图像的图像总损失;
或,根据所述第一参照图像生成第二参照图像,根据所述第一参照图像和所述第二参照图像,确定所述第一结果图像和所述第三结果图像的图像总损失。
6.根据权利要求1所述的训练方法,其特征在于,所述图像总损失均包括:内容损失、对抗损失、加权L1损失和眼睛区域损失中的至少一种损失;
以及,当所述图像总损失包括所述加权L1损失和所述眼睛区域损失中的至少一种损失时,所述根据所述第一参照图像确定至少一个所述结果图像的图像总损失,包括以下至少一种损失确定方式:
根据至少一个所述结果图像和所述第一参照图像的像素值差值,确定所述加权L1损失;
根据至少一个所述结果图像中的眼部区域和所述第一参照图像中的眼部区域的内容损失,确定所述眼睛区域损失。
7.根据权利要求6所述的训练方法,其特征在于,所述根据至少一个所述结果图像中的眼部区域和所述第一参照图像中的眼部区域的内容损失,确定所述眼睛区域损失,包括:
对于每个所述结果图像,分别确定所述结果图像中的总眼部区域和所述第一参照图像的总眼部区域的内容损失、以及所述结果图像中的第一眼部区域和第二眼部区域的内容损失,分别作为总内容损失和结果图像内容损失;
确定所述第一参照图像中的第一眼部区域和第二眼部区域的内容损失,作为参照图像内容损失;在所述结果图像和所述第一参照图像中,所述总眼部区域包括所述第一眼部区域和所述第二眼部区域,所述第一眼部区域和所述第二眼部区域不重叠;
根据所述总内容损失、结果图像内容损失和参照图像内容损失,确定所述结果图像和所述第一参照图像的所述眼睛区域损失。
8.根据权利要求1所述的训练方法,其特征在于,还包括:
将所述第一参照图像和至少一个所述结果图像输入所述图像处理模型中的鉴别网络;
通过所述鉴别网络对所述第一参照图像和至少一个所述结果图像进行鉴别,确定所述第一参照图像和至少一个所述结果图像是否具备预设特征,输出参照图像标签和结果图像标签;所述参照图像标签表征对所述第一参照图像的鉴别结果,所述结果图像标签表征对至少一个所述结果图像的鉴别结果;
根据所述参照图像标签,确定所述结果图像标签的对抗损失;
根据所述对抗损失对所述鉴别网络的参数进行调整,使调整后的鉴别网络输出的结果图像标签的对抗损失满足对抗损失条件。
9.一种图像处理方法,其特征在于,包括:
获取待处理的图像;
将所述待处理的图像输入图像处理模型,基于所述图像处理模型中的生成网络的输出,得到处理后的图像;所述图像处理模型是通过权利要求1-8中任一项所述的图像处理模型的训练方法训练得到的。
10.一种图像处理模型的训练装置,其特征在于,
图像获取模块,用于获取样本图像和第一参照图像;所述样本图像的图像质量和图像分辨率,分别低于所述第一参照图像的图像质量和图像分辨率;
图像生成模块,用于将所述样本图像输入图像处理模型中的生成网络,通过所述生成网络对所述样本图像进行超分处理和下采样处理,生成并输出至少一个结果图像;
图像损失确定模块,用于根据所述第一参照图像确定至少一个所述结果图像的图像总损失;
生成网络调整模块,用于根据所述图像总损失对所述生成网络的参数进行调整,使调整后的所述生成网络输出的至少一个所述结果图像的所述图像总损失满足图像损失条件。
11.一种图像处理装置,其特征在于,包括:
图像获取模块,用于获取待处理的图像;
图像处理模块,用于将所述待处理的图像输入图像处理模型,基于所述图像处理模型中的生成网络的输出,得到处理后的图像;所述图像处理模型是通过权利要求1-8中任一项所述的图像处理模型的训练方法训练得到的。
12.一种图像处理设备,其特征在于,包括:
存储器;
处理器,与所述存储器电连接;
所述存储器存储有计算机程序,所述计算机程序由所述处理器执行以实现:权利要求1-8中任一项所述的图像处理模型的训练方法,和/或,权利要求9中所述的图像处理方法。
13.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时实现:权利要求1-8中任一项所述的图像处理模型的训练方法,和/或,权利要求9所述的图像处理方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010335224.3A CN113554047A (zh) | 2020-04-24 | 2020-04-24 | 图像处理模型的训练方法、图像处理方法及对应的装置 |
PCT/CN2021/086243 WO2021213188A1 (zh) | 2020-04-24 | 2021-04-09 | 图像处理模型的训练方法、图像处理方法及对应的装置 |
US17/631,481 US20220301106A1 (en) | 2020-04-24 | 2021-04-09 | Training method and apparatus for image processing model, and image processing method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010335224.3A CN113554047A (zh) | 2020-04-24 | 2020-04-24 | 图像处理模型的训练方法、图像处理方法及对应的装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113554047A true CN113554047A (zh) | 2021-10-26 |
Family
ID=78101407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010335224.3A Pending CN113554047A (zh) | 2020-04-24 | 2020-04-24 | 图像处理模型的训练方法、图像处理方法及对应的装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220301106A1 (zh) |
CN (1) | CN113554047A (zh) |
WO (1) | WO2021213188A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024030074A3 (en) * | 2022-08-02 | 2024-04-04 | Alibaba Innovation Private Limited | End-to-end optimization of adaptive spatial resampling towards machine vision |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115147280B (zh) * | 2022-07-15 | 2023-06-02 | 北京百度网讯科技有限公司 | 深度学习模型的训练方法、图像处理方法、装置和设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10002415B2 (en) * | 2016-04-12 | 2018-06-19 | Adobe Systems Incorporated | Utilizing deep learning for rating aesthetics of digital images |
CN108596830B (zh) * | 2018-04-28 | 2022-04-22 | 国信优易数据股份有限公司 | 一种图像风格迁移模型训练方法以及图像风格迁移方法 |
CN109389156B (zh) * | 2018-09-11 | 2022-05-03 | 深圳大学 | 一种图像定位模型的训练方法、装置及图像定位方法 |
CN110009003A (zh) * | 2019-03-14 | 2019-07-12 | 北京旷视科技有限公司 | 图像处理与图像比对模型的训练方法、装置和系统 |
-
2020
- 2020-04-24 CN CN202010335224.3A patent/CN113554047A/zh active Pending
-
2021
- 2021-04-09 WO PCT/CN2021/086243 patent/WO2021213188A1/zh active Application Filing
- 2021-04-09 US US17/631,481 patent/US20220301106A1/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024030074A3 (en) * | 2022-08-02 | 2024-04-04 | Alibaba Innovation Private Limited | End-to-end optimization of adaptive spatial resampling towards machine vision |
Also Published As
Publication number | Publication date |
---|---|
WO2021213188A1 (zh) | 2021-10-28 |
US20220301106A1 (en) | 2022-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109191382B (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
Chen et al. | Fsrnet: End-to-end learning face super-resolution with facial priors | |
WO2020168844A1 (en) | Image processing method, apparatus, equipment, and storage medium | |
CN114913565B (zh) | 人脸图像检测方法、模型训练方法、装置及存储介质 | |
CN111767979A (zh) | 神经网络的训练方法、图像处理方法、图像处理装置 | |
CN112132959B (zh) | 数字岩心图像处理方法、装置、计算机设备及存储介质 | |
CN113284051B (zh) | 一种基于频率分解多注意力机制的人脸超分辨方法 | |
Panetta et al. | Tmo-net: A parameter-free tone mapping operator using generative adversarial network, and performance benchmarking on large scale hdr dataset | |
Yan et al. | SRGAT: Single image super-resolution with graph attention network | |
CN112541864A (zh) | 一种基于多尺度生成式对抗网络模型的图像修复方法 | |
CN109816612A (zh) | 图像增强方法和装置、计算机可读存储介质 | |
CN114418030B (zh) | 图像分类方法、图像分类模型的训练方法及装置 | |
CN109816659B (zh) | 图像分割方法、装置及系统 | |
CN114511576B (zh) | 尺度自适应特征增强深度神经网络的图像分割方法与系统 | |
CN116580257A (zh) | 特征融合模型训练及样本检索方法、装置和计算机设备 | |
WO2021213188A1 (zh) | 图像处理模型的训练方法、图像处理方法及对应的装置 | |
Du et al. | Blind image denoising via dynamic dual learning | |
CN112949707A (zh) | 一种基于多尺度语义信息监督的跨模态人脸图像生成方法 | |
CN113379606B (zh) | 一种基于预训练生成模型的人脸超分辨方法 | |
Li et al. | Image super-resolution reconstruction based on multi-scale dual-attention | |
Zhu et al. | An improved generative adversarial networks for remote sensing image super-resolution reconstruction via multi-scale residual block | |
CN112634136B (zh) | 一种基于图像特征快速拼接的图像超分辨率方法及其系统 | |
CN110427892B (zh) | 基于深浅层自相关融合的cnn人脸表情特征点定位方法 | |
CN115984911A (zh) | 属性生成对抗网络以及基于该网络的人脸图像连续变换方法 | |
CN113674383A (zh) | 生成文本图像的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |