CN116385270A - 一种基于多重损失和分辨率的图像转图像的方法 - Google Patents
一种基于多重损失和分辨率的图像转图像的方法 Download PDFInfo
- Publication number
- CN116385270A CN116385270A CN202310412411.0A CN202310412411A CN116385270A CN 116385270 A CN116385270 A CN 116385270A CN 202310412411 A CN202310412411 A CN 202310412411A CN 116385270 A CN116385270 A CN 116385270A
- Authority
- CN
- China
- Prior art keywords
- image
- resolution
- images
- loss
- different resolutions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000009467 reduction Effects 0.000 claims description 7
- 230000010354 integration Effects 0.000 claims 1
- 230000011218 segmentation Effects 0.000 claims 1
- 230000006872 improvement Effects 0.000 description 6
- 239000004973 liquid crystal related substance Substances 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4007—Interpolation-based scaling, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G06T3/04—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4023—Decimation- or insertion-based scaling, e.g. pixel or line decimation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4046—Scaling the whole image or part thereof using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明公开了一种基于多重损失和分辨率的图像转图像的方法,包括:获取输入图像,并对图像进行多分辨率预处理;将得到的不同分辨率图像输入到已经训练好的深度模型;其中,深度模型根据多个不同的分辨率,先从低分辨率模块至高分辨率模块依次进行训练,再进行整个模型的联合训练;在模型训练中,构造的损失函数包括:每个分辨率下的生成图像和真实图像之间的L1损失、由判别模型判断的生成图像是否真实的损失和生成图像和真实图像之间的风格损失;不同分辨率的图像通过深度模型进行整合最终得到相对应的图像。本发明充分利用图像的不同分辨率信息,结合应用多重损失训练好的深度模型,可以有效提高转换图像的质量。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于多重损失和分辨率的图像转图像的方法。
背景技术
随着互联网的快速发展,内容分享已经成为了当前的一个热点;而在内容分享领域,图像生成是其中非常重要的一项技术。图像生成领域存在大量的子任务,其中由图像生成图像是一个非常有价值的应用问题。由图像生成图像任务又可称为图像转图像,该任务是将输入图像生成另一张图像;常见的应用包括风格迁移、转换等等。
对于图像转图像任务,当前主流技术都是采用深度模型;具体而言,可以细分为三个大类:一类是采用对抗生成网络框架,通过使用深度卷积神经网络作为生成器,并搭配相应的判别器网络进行训练;一类是采用变分自编码器模型,通过采用编码解码结构进行图像到图像生成;最后一类是采用扩散模型,通过扩散过程来完成相应的任务。
但无论采用上述的哪类方法,都会用到深度模型,会涉及到深度模型的训练问题。如何训练得到一个更好的生成深度模型,使得模型可以生成更高质量的图像仍然是一个非常困难的问题。
发明内容
针对现有技术中存在的不足之处,本发明提供一种基于多重损失和分辨率的图像转图像的方法,其通过采用多重损失和多重分辨率框架,充分利用不同分辨率下的尺度信息,可以有效提高生成图像的质量。
本发明公开了一种基于多重损失和分辨率的图像转图像的方法,包括:
获取输入图像,并对图像进行多分辨率预处理;
将得到的不同分辨率图像输入到已经训练好的深度模型;其中,所述深度模型根据多个不同的分辨率,先从低分辨率模块至高分辨率模块依次进行训练,再进行整个模型的联合训练;在模型训练中,构造的损失函数包括:每个分辨率下的生成图像和真实图像之间的L1损失、由判别模型判断的生成图像是否真实的损失和生成图像和真实图像之间的风格损失;
不同分辨率的图像通过深度模型进行整合最终得到相对应的图像。
作为本发明的进一步改进,所述图像包括轮廓图像、分割图像和真实图像。
作为本发明的进一步改进,所述对图像进行多分辨率预处理,包括:
对输入的图像进行缩小操作,得到包括原图在内的多个不同分辨率的图像。
作为本发明的进一步改进,采用插值法对输入的图像进行缩小操作,所述插值法包括最近邻插值法、双线性插值法、双三次插值法和Lanczos插值法中的一种。
作为本发明的进一步改进,不同分辨率的图像对应输入至深度模型的不同分辨率的模块中。
作为本发明的进一步改进,不同分辨率的图像通过深度模型进行整合最终得到相对应的图像,包括:
不同分辨率的图像通过深度模型的不同模块后,其编码的特征根据分辨率的大小进行逐层融合,之后通过联级的解码器生成相应的图像。
作为本发明的进一步改进,深度模型在训练时,输入N个不同分辨率的图像,则其输出也有N个不同分辨率;训练好的深度模型在使用时,输入N个不同分辨率的图像,输出和原始输入图像一样尺寸的图像。
与现有技术相比,本发明的有益效果为:
本发明充分利用图像的不同分辨率信息,结合应用多重损失训练好的深度模型,可以有效提高转换图像的质量。
附图说明
图1为本发明公开的一种基于多重损失和分辨率的图像转图像的方法的流程图;
图2为本发明公开的图像转图像的深度模型的示意图;
图3为本发明公开的深度模型在训练中的多输出示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
如图1所示,本发明提供一种基于多重损失和分辨率的图像转图像的方法,包括:
步骤1、获取输入图像,并对图像进行多分辨率预处理;其中,
输入图像根据不同任务可以是不同的图像,比如:轮廓图像、分割图像以及真实图像等等;
图像的多分辨率预处理包括:采用插值法对输入的图像进行缩小操作,得到包括原图在内的多个不同分辨率的图像;其中,插值法包括最近邻插值法、双线性插值法、双三次插值法、Lanczos插值法等等,通常而言,是按1/2的缩小比例依次进行缩放,从而得到不同分辨率的图像。例如,在高分辨率原图的基础上进行一次1/2缩小,得到中分辨率图;在中分辨率图的基础上再进行一次1/2缩小,得到低分辨率图。
步骤2、将得到的不同分辨率图像输入到已经训练好的深度模型;其中,
如图2所示,本发明的深度模型的输入为多个不同分辨率的图像,且不同分辨率的图像对应输入至深度模型的不同分辨率的模块中,然后通过多个卷积层进行特征提取;此外,不同分辨率的图像所提取的特征也会依次进行融合。如图3所示,深度模型在训练时,输入N个不同分辨率的图像,则其输出也有N个不同分辨率。训练时,深度模型根据多个不同的分辨率,先从低分辨率模块至高分辨率模块依次进行训练,再进行整个模型的联合训练;在模型训练中,构造的损失函数包括:每个分辨率下的生成图像和真实图像之间的L1损失、由判别模型判断的生成图像是否真实的损失和生成图像和真实图像之间的风格损失。训练好的深度模型在使用时,输入N个不同分辨率的图像,输出和原始输入图像一样尺寸的图像。
步骤3、不同分辨率的图像通过深度模型进行整合最终得到相对应的图像;具体包括:
不同分辨率的图像通过深度模型的不同模块后,其编码的特征根据分辨率的大小进行逐层融合,之后通过联级的解码器生成相应的图像。具体的:最高分辨率的图像提取过一次特征以后,该特征会融合到下一个分辨率提取到的特征之后;按上述方式依次融合以后,最后得到维度相同的特征,然后该特征会通过解码器生成相应的图像;该解码器结构可以简单参考图2和图3。特别的是,该解码器的每个模块都会和不同分辨率图像的输入模块进行连接,在特征依次通过解码器每个模块的同时,输入的不同分辨率的特征也会依次和相应特征进行融合,然后输入下一个解码器模块,最终融合所有分辨率的图像特征生成相应的图像。
实施例:
本发明提供一种基于多重损失和分辨率的图像转图像的方法,包括:
S1、以宽和高分别为1024的轮廓图像作为输入图像为例,采用插值法,如双线性插值算法,得到512×512的中分辨轮廓图像;再采用插值法,如双线性插值算法,对512×512的中分辨轮廓图像进行插值,得到256×256的低分辨率图像。
S2、将上述三个分辨率的图像输入深度模型中,以图2为例,高分辨率图像会输入深度模型中的编码器的第一个模块,中分辨率图像会输入编码器的第二个模块,低分辨率图像会输入编码器的第三个模块;其中,
深度模型在训练时,输入上述三种分辨率的图像,模型会相应地输出三种分辨率图像,以图3为例,深度模型的解码器的最后一个模块会输出高分辨率的图像,解码器的倒数第二个模块会输出中分辨率的图像,解码器的倒数第三个模块会输出低分辨率的图像;针对轮廓图像所对应的真实图像,采用和轮廓图像一样的插值算法,可以得到相应的不同分辨率的真实图像;相应地,根据上述三个分辨率下的生成图像和真实图像之间的L1损失、由判别模型判断的生成图像是否真实的损失、生成图像和真实图像之间的风格损失,可以得到相应的损失函数,经过训练以后,可以得到训练好的模型。
S3、利用训练好的模型,输入上述三种分辨率的轮廓图像,生成最高分辨率所对应的真实图像。具体地,将三种分辨率的轮廓图像,依次分别输入编码器的第一、第二和第三个模块,然后这些图像经过编码器的其他模块以后,输入到解码器的第一个模块中,此外三种分辨率图像通过编码器的第一、第二和第三个模块后得到的特征,也会输入到解码器相对应的最后一个、倒数第二和倒数第三个模块中,最终解码器最后一个模块会输出高分辨率的真实图像。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于多重损失和分辨率的图像转图像的方法,其特征在于,包括:
获取输入图像,并对图像进行多分辨率预处理;
将得到的不同分辨率图像输入到已经训练好的深度模型;其中,所述深度模型根据多个不同的分辨率,先从低分辨率模块至高分辨率模块依次进行训练,再进行整个模型的联合训练;在模型训练中,构造的损失函数包括:每个分辨率下的生成图像和真实图像之间的L1损失、由判别模型判断的生成图像是否真实的损失和生成图像和真实图像之间的风格损失;
不同分辨率的图像通过深度模型进行整合最终得到相对应的图像。
2.如权利要求1所述的基于多重损失和分辨率的图像转图像的方法,其特征在于,所述图像包括轮廓图像、分割图像和真实图像。
3.如权利要求1所述的基于多重损失和分辨率的图像转图像的方法,其特征在于,所述对图像进行多分辨率预处理,包括:
对输入的图像进行缩小操作,得到包括原图在内的多个不同分辨率的图像。
4.如权利要求3所述的基于多重损失和分辨率的图像转图像的方法,其特征在于,采用插值法对输入的图像进行缩小操作,所述插值法包括最近邻插值法、双线性插值法、双三次插值法和Lanczos插值法中的一种。
5.如权利要求1所述的基于多重损失和分辨率的图像转图像的方法,其特征在于,不同分辨率的图像对应输入至深度模型的不同分辨率的模块中。
6.如权利要求1所述的基于多重损失和分辨率的图像转图像的方法,其特征在于,不同分辨率的图像通过深度模型进行整合最终得到相对应的图像,包括:
不同分辨率的图像通过深度模型的不同模块后,其编码的特征根据分辨率的大小进行逐层融合,之后通过联级的解码器生成相应的图像。
7.如权利要求1所述的基于多重损失和分辨率的图像转图像的方法,其特征在于,深度模型在训练时,输入N个不同分辨率的图像,则其输出也有N个不同分辨率;训练好的深度模型在使用时,输入N个不同分辨率的图像,输出和原始输入图像一样尺寸的图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310412411.0A CN116385270A (zh) | 2023-04-18 | 2023-04-18 | 一种基于多重损失和分辨率的图像转图像的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310412411.0A CN116385270A (zh) | 2023-04-18 | 2023-04-18 | 一种基于多重损失和分辨率的图像转图像的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116385270A true CN116385270A (zh) | 2023-07-04 |
Family
ID=86973132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310412411.0A Pending CN116385270A (zh) | 2023-04-18 | 2023-04-18 | 一种基于多重损失和分辨率的图像转图像的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116385270A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109903223A (zh) * | 2019-01-14 | 2019-06-18 | 北京工商大学 | 一种基于稠密连接网络与生成式对抗网络的图像超分辨率方法 |
CN110136063A (zh) * | 2019-05-13 | 2019-08-16 | 南京信息工程大学 | 一种基于条件生成对抗网络的单幅图像超分辨率重建方法 |
CN112001863A (zh) * | 2020-08-28 | 2020-11-27 | 太原科技大学 | 一种基于深度学习的欠曝光图像恢复方法 |
US11373274B1 (en) * | 2021-03-17 | 2022-06-28 | Si Analytics Co., Ltd. | Method for super resolution imaging based on deep learning |
-
2023
- 2023-04-18 CN CN202310412411.0A patent/CN116385270A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109903223A (zh) * | 2019-01-14 | 2019-06-18 | 北京工商大学 | 一种基于稠密连接网络与生成式对抗网络的图像超分辨率方法 |
CN110136063A (zh) * | 2019-05-13 | 2019-08-16 | 南京信息工程大学 | 一种基于条件生成对抗网络的单幅图像超分辨率重建方法 |
CN112001863A (zh) * | 2020-08-28 | 2020-11-27 | 太原科技大学 | 一种基于深度学习的欠曝光图像恢复方法 |
US11373274B1 (en) * | 2021-03-17 | 2022-06-28 | Si Analytics Co., Ltd. | Method for super resolution imaging based on deep learning |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xiao et al. | Satellite video super-resolution via multiscale deformable convolution alignment and temporal grouping projection | |
Wu et al. | Fastfcn: Rethinking dilated convolution in the backbone for semantic segmentation | |
Lan et al. | MADNet: a fast and lightweight network for single-image super resolution | |
Bashir et al. | A comprehensive review of deep learning-based single image super-resolution | |
CN108985181B (zh) | 一种基于检测分割的端对端人脸标注方法 | |
CN110136062B (zh) | 一种联合语义分割的超分辨率重建方法 | |
Wang et al. | Contextual transformation network for lightweight remote-sensing image super-resolution | |
EP3644270A1 (en) | Image processing device, imaging device, image processing method, program, and storage medium | |
Liu et al. | An attention-based approach for single image super resolution | |
CN110490082B (zh) | 一种有效融合神经网络特征的道路场景语义分割方法 | |
Zhang et al. | Accurate and efficient image super-resolution via global-local adjusting dense network | |
CN115358932B (zh) | 一种多尺度特征融合的人脸超分辨率重构方法及系统 | |
CN111899169B (zh) | 一种基于语义分割的人脸图像的分割网络的方法 | |
CN110853039B (zh) | 一种多数据融合的草图图像分割方法、系统、装置及存储介质 | |
CN111914654A (zh) | 一种文本版面分析方法、装置、设备和介质 | |
CN115775316A (zh) | 基于多尺度注意力机制的图像语义分割方法 | |
Esmaeilzehi et al. | UPDResNN: A deep light-weight image upsampling and deblurring residual neural network | |
Liu et al. | A deep recursive multi-scale feature fusion network for image super-resolution | |
Sui et al. | Gcrdn: Global context-driven residual dense network for remote sensing image super-resolution | |
CN114419060A (zh) | 皮肤镜图像分割方法与系统 | |
CN114529450B (zh) | 基于改进深度迭代协作网络的人脸图像超分辨方法 | |
Zhou et al. | RISTRA: Recursive Image Super-resolution Transformer with Relativistic Assessment | |
Dai et al. | CFGN: A Lightweight Context Feature Guided Network for Image Super-Resolution | |
CN116029905A (zh) | 一种基于渐进差值互补的人脸超分辨率重构方法及系统 | |
Park et al. | Image super-resolution using dilated window transformer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |