CN116385270A - 一种基于多重损失和分辨率的图像转图像的方法 - Google Patents

一种基于多重损失和分辨率的图像转图像的方法 Download PDF

Info

Publication number
CN116385270A
CN116385270A CN202310412411.0A CN202310412411A CN116385270A CN 116385270 A CN116385270 A CN 116385270A CN 202310412411 A CN202310412411 A CN 202310412411A CN 116385270 A CN116385270 A CN 116385270A
Authority
CN
China
Prior art keywords
image
resolution
images
loss
different resolutions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310412411.0A
Other languages
English (en)
Inventor
虞钉钉
徐清
王晓梅
沈伟林
沈旭立
曹培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huayuan Computing Technology Shanghai Co ltd
Original Assignee
Huayuan Computing Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huayuan Computing Technology Shanghai Co ltd filed Critical Huayuan Computing Technology Shanghai Co ltd
Priority to CN202310412411.0A priority Critical patent/CN116385270A/zh
Publication of CN116385270A publication Critical patent/CN116385270A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4007Interpolation-based scaling, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06T3/04
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4023Decimation- or insertion-based scaling, e.g. pixel or line decimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4046Scaling the whole image or part thereof using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种基于多重损失和分辨率的图像转图像的方法,包括:获取输入图像,并对图像进行多分辨率预处理;将得到的不同分辨率图像输入到已经训练好的深度模型;其中,深度模型根据多个不同的分辨率,先从低分辨率模块至高分辨率模块依次进行训练,再进行整个模型的联合训练;在模型训练中,构造的损失函数包括:每个分辨率下的生成图像和真实图像之间的L1损失、由判别模型判断的生成图像是否真实的损失和生成图像和真实图像之间的风格损失;不同分辨率的图像通过深度模型进行整合最终得到相对应的图像。本发明充分利用图像的不同分辨率信息,结合应用多重损失训练好的深度模型,可以有效提高转换图像的质量。

Description

一种基于多重损失和分辨率的图像转图像的方法
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于多重损失和分辨率的图像转图像的方法。
背景技术
随着互联网的快速发展,内容分享已经成为了当前的一个热点;而在内容分享领域,图像生成是其中非常重要的一项技术。图像生成领域存在大量的子任务,其中由图像生成图像是一个非常有价值的应用问题。由图像生成图像任务又可称为图像转图像,该任务是将输入图像生成另一张图像;常见的应用包括风格迁移、转换等等。
对于图像转图像任务,当前主流技术都是采用深度模型;具体而言,可以细分为三个大类:一类是采用对抗生成网络框架,通过使用深度卷积神经网络作为生成器,并搭配相应的判别器网络进行训练;一类是采用变分自编码器模型,通过采用编码解码结构进行图像到图像生成;最后一类是采用扩散模型,通过扩散过程来完成相应的任务。
但无论采用上述的哪类方法,都会用到深度模型,会涉及到深度模型的训练问题。如何训练得到一个更好的生成深度模型,使得模型可以生成更高质量的图像仍然是一个非常困难的问题。
发明内容
针对现有技术中存在的不足之处,本发明提供一种基于多重损失和分辨率的图像转图像的方法,其通过采用多重损失和多重分辨率框架,充分利用不同分辨率下的尺度信息,可以有效提高生成图像的质量。
本发明公开了一种基于多重损失和分辨率的图像转图像的方法,包括:
获取输入图像,并对图像进行多分辨率预处理;
将得到的不同分辨率图像输入到已经训练好的深度模型;其中,所述深度模型根据多个不同的分辨率,先从低分辨率模块至高分辨率模块依次进行训练,再进行整个模型的联合训练;在模型训练中,构造的损失函数包括:每个分辨率下的生成图像和真实图像之间的L1损失、由判别模型判断的生成图像是否真实的损失和生成图像和真实图像之间的风格损失;
不同分辨率的图像通过深度模型进行整合最终得到相对应的图像。
作为本发明的进一步改进,所述图像包括轮廓图像、分割图像和真实图像。
作为本发明的进一步改进,所述对图像进行多分辨率预处理,包括:
对输入的图像进行缩小操作,得到包括原图在内的多个不同分辨率的图像。
作为本发明的进一步改进,采用插值法对输入的图像进行缩小操作,所述插值法包括最近邻插值法、双线性插值法、双三次插值法和Lanczos插值法中的一种。
作为本发明的进一步改进,不同分辨率的图像对应输入至深度模型的不同分辨率的模块中。
作为本发明的进一步改进,不同分辨率的图像通过深度模型进行整合最终得到相对应的图像,包括:
不同分辨率的图像通过深度模型的不同模块后,其编码的特征根据分辨率的大小进行逐层融合,之后通过联级的解码器生成相应的图像。
作为本发明的进一步改进,深度模型在训练时,输入N个不同分辨率的图像,则其输出也有N个不同分辨率;训练好的深度模型在使用时,输入N个不同分辨率的图像,输出和原始输入图像一样尺寸的图像。
与现有技术相比,本发明的有益效果为:
本发明充分利用图像的不同分辨率信息,结合应用多重损失训练好的深度模型,可以有效提高转换图像的质量。
附图说明
图1为本发明公开的一种基于多重损失和分辨率的图像转图像的方法的流程图;
图2为本发明公开的图像转图像的深度模型的示意图;
图3为本发明公开的深度模型在训练中的多输出示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
如图1所示,本发明提供一种基于多重损失和分辨率的图像转图像的方法,包括:
步骤1、获取输入图像,并对图像进行多分辨率预处理;其中,
输入图像根据不同任务可以是不同的图像,比如:轮廓图像、分割图像以及真实图像等等;
图像的多分辨率预处理包括:采用插值法对输入的图像进行缩小操作,得到包括原图在内的多个不同分辨率的图像;其中,插值法包括最近邻插值法、双线性插值法、双三次插值法、Lanczos插值法等等,通常而言,是按1/2的缩小比例依次进行缩放,从而得到不同分辨率的图像。例如,在高分辨率原图的基础上进行一次1/2缩小,得到中分辨率图;在中分辨率图的基础上再进行一次1/2缩小,得到低分辨率图。
步骤2、将得到的不同分辨率图像输入到已经训练好的深度模型;其中,
如图2所示,本发明的深度模型的输入为多个不同分辨率的图像,且不同分辨率的图像对应输入至深度模型的不同分辨率的模块中,然后通过多个卷积层进行特征提取;此外,不同分辨率的图像所提取的特征也会依次进行融合。如图3所示,深度模型在训练时,输入N个不同分辨率的图像,则其输出也有N个不同分辨率。训练时,深度模型根据多个不同的分辨率,先从低分辨率模块至高分辨率模块依次进行训练,再进行整个模型的联合训练;在模型训练中,构造的损失函数包括:每个分辨率下的生成图像和真实图像之间的L1损失、由判别模型判断的生成图像是否真实的损失和生成图像和真实图像之间的风格损失。训练好的深度模型在使用时,输入N个不同分辨率的图像,输出和原始输入图像一样尺寸的图像。
步骤3、不同分辨率的图像通过深度模型进行整合最终得到相对应的图像;具体包括:
不同分辨率的图像通过深度模型的不同模块后,其编码的特征根据分辨率的大小进行逐层融合,之后通过联级的解码器生成相应的图像。具体的:最高分辨率的图像提取过一次特征以后,该特征会融合到下一个分辨率提取到的特征之后;按上述方式依次融合以后,最后得到维度相同的特征,然后该特征会通过解码器生成相应的图像;该解码器结构可以简单参考图2和图3。特别的是,该解码器的每个模块都会和不同分辨率图像的输入模块进行连接,在特征依次通过解码器每个模块的同时,输入的不同分辨率的特征也会依次和相应特征进行融合,然后输入下一个解码器模块,最终融合所有分辨率的图像特征生成相应的图像。
实施例:
本发明提供一种基于多重损失和分辨率的图像转图像的方法,包括:
S1、以宽和高分别为1024的轮廓图像作为输入图像为例,采用插值法,如双线性插值算法,得到512×512的中分辨轮廓图像;再采用插值法,如双线性插值算法,对512×512的中分辨轮廓图像进行插值,得到256×256的低分辨率图像。
S2、将上述三个分辨率的图像输入深度模型中,以图2为例,高分辨率图像会输入深度模型中的编码器的第一个模块,中分辨率图像会输入编码器的第二个模块,低分辨率图像会输入编码器的第三个模块;其中,
深度模型在训练时,输入上述三种分辨率的图像,模型会相应地输出三种分辨率图像,以图3为例,深度模型的解码器的最后一个模块会输出高分辨率的图像,解码器的倒数第二个模块会输出中分辨率的图像,解码器的倒数第三个模块会输出低分辨率的图像;针对轮廓图像所对应的真实图像,采用和轮廓图像一样的插值算法,可以得到相应的不同分辨率的真实图像;相应地,根据上述三个分辨率下的生成图像和真实图像之间的L1损失、由判别模型判断的生成图像是否真实的损失、生成图像和真实图像之间的风格损失,可以得到相应的损失函数,经过训练以后,可以得到训练好的模型。
S3、利用训练好的模型,输入上述三种分辨率的轮廓图像,生成最高分辨率所对应的真实图像。具体地,将三种分辨率的轮廓图像,依次分别输入编码器的第一、第二和第三个模块,然后这些图像经过编码器的其他模块以后,输入到解码器的第一个模块中,此外三种分辨率图像通过编码器的第一、第二和第三个模块后得到的特征,也会输入到解码器相对应的最后一个、倒数第二和倒数第三个模块中,最终解码器最后一个模块会输出高分辨率的真实图像。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于多重损失和分辨率的图像转图像的方法,其特征在于,包括:
获取输入图像,并对图像进行多分辨率预处理;
将得到的不同分辨率图像输入到已经训练好的深度模型;其中,所述深度模型根据多个不同的分辨率,先从低分辨率模块至高分辨率模块依次进行训练,再进行整个模型的联合训练;在模型训练中,构造的损失函数包括:每个分辨率下的生成图像和真实图像之间的L1损失、由判别模型判断的生成图像是否真实的损失和生成图像和真实图像之间的风格损失;
不同分辨率的图像通过深度模型进行整合最终得到相对应的图像。
2.如权利要求1所述的基于多重损失和分辨率的图像转图像的方法,其特征在于,所述图像包括轮廓图像、分割图像和真实图像。
3.如权利要求1所述的基于多重损失和分辨率的图像转图像的方法,其特征在于,所述对图像进行多分辨率预处理,包括:
对输入的图像进行缩小操作,得到包括原图在内的多个不同分辨率的图像。
4.如权利要求3所述的基于多重损失和分辨率的图像转图像的方法,其特征在于,采用插值法对输入的图像进行缩小操作,所述插值法包括最近邻插值法、双线性插值法、双三次插值法和Lanczos插值法中的一种。
5.如权利要求1所述的基于多重损失和分辨率的图像转图像的方法,其特征在于,不同分辨率的图像对应输入至深度模型的不同分辨率的模块中。
6.如权利要求1所述的基于多重损失和分辨率的图像转图像的方法,其特征在于,不同分辨率的图像通过深度模型进行整合最终得到相对应的图像,包括:
不同分辨率的图像通过深度模型的不同模块后,其编码的特征根据分辨率的大小进行逐层融合,之后通过联级的解码器生成相应的图像。
7.如权利要求1所述的基于多重损失和分辨率的图像转图像的方法,其特征在于,深度模型在训练时,输入N个不同分辨率的图像,则其输出也有N个不同分辨率;训练好的深度模型在使用时,输入N个不同分辨率的图像,输出和原始输入图像一样尺寸的图像。
CN202310412411.0A 2023-04-18 2023-04-18 一种基于多重损失和分辨率的图像转图像的方法 Pending CN116385270A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310412411.0A CN116385270A (zh) 2023-04-18 2023-04-18 一种基于多重损失和分辨率的图像转图像的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310412411.0A CN116385270A (zh) 2023-04-18 2023-04-18 一种基于多重损失和分辨率的图像转图像的方法

Publications (1)

Publication Number Publication Date
CN116385270A true CN116385270A (zh) 2023-07-04

Family

ID=86973132

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310412411.0A Pending CN116385270A (zh) 2023-04-18 2023-04-18 一种基于多重损失和分辨率的图像转图像的方法

Country Status (1)

Country Link
CN (1) CN116385270A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109903223A (zh) * 2019-01-14 2019-06-18 北京工商大学 一种基于稠密连接网络与生成式对抗网络的图像超分辨率方法
CN110136063A (zh) * 2019-05-13 2019-08-16 南京信息工程大学 一种基于条件生成对抗网络的单幅图像超分辨率重建方法
CN112001863A (zh) * 2020-08-28 2020-11-27 太原科技大学 一种基于深度学习的欠曝光图像恢复方法
US11373274B1 (en) * 2021-03-17 2022-06-28 Si Analytics Co., Ltd. Method for super resolution imaging based on deep learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109903223A (zh) * 2019-01-14 2019-06-18 北京工商大学 一种基于稠密连接网络与生成式对抗网络的图像超分辨率方法
CN110136063A (zh) * 2019-05-13 2019-08-16 南京信息工程大学 一种基于条件生成对抗网络的单幅图像超分辨率重建方法
CN112001863A (zh) * 2020-08-28 2020-11-27 太原科技大学 一种基于深度学习的欠曝光图像恢复方法
US11373274B1 (en) * 2021-03-17 2022-06-28 Si Analytics Co., Ltd. Method for super resolution imaging based on deep learning

Similar Documents

Publication Publication Date Title
Xiao et al. Satellite video super-resolution via multiscale deformable convolution alignment and temporal grouping projection
Wu et al. Fastfcn: Rethinking dilated convolution in the backbone for semantic segmentation
Lan et al. MADNet: a fast and lightweight network for single-image super resolution
Bashir et al. A comprehensive review of deep learning-based single image super-resolution
CN108985181B (zh) 一种基于检测分割的端对端人脸标注方法
CN110136062B (zh) 一种联合语义分割的超分辨率重建方法
Wang et al. Contextual transformation network for lightweight remote-sensing image super-resolution
EP3644270A1 (en) Image processing device, imaging device, image processing method, program, and storage medium
Liu et al. An attention-based approach for single image super resolution
CN110490082B (zh) 一种有效融合神经网络特征的道路场景语义分割方法
Zhang et al. Accurate and efficient image super-resolution via global-local adjusting dense network
CN115358932B (zh) 一种多尺度特征融合的人脸超分辨率重构方法及系统
CN111899169B (zh) 一种基于语义分割的人脸图像的分割网络的方法
CN110853039B (zh) 一种多数据融合的草图图像分割方法、系统、装置及存储介质
CN111914654A (zh) 一种文本版面分析方法、装置、设备和介质
CN115775316A (zh) 基于多尺度注意力机制的图像语义分割方法
Esmaeilzehi et al. UPDResNN: A deep light-weight image upsampling and deblurring residual neural network
Liu et al. A deep recursive multi-scale feature fusion network for image super-resolution
Sui et al. Gcrdn: Global context-driven residual dense network for remote sensing image super-resolution
CN114419060A (zh) 皮肤镜图像分割方法与系统
CN114529450B (zh) 基于改进深度迭代协作网络的人脸图像超分辨方法
Zhou et al. RISTRA: Recursive Image Super-resolution Transformer with Relativistic Assessment
Dai et al. CFGN: A Lightweight Context Feature Guided Network for Image Super-Resolution
CN116029905A (zh) 一种基于渐进差值互补的人脸超分辨率重构方法及系统
Park et al. Image super-resolution using dilated window transformer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination