CN116883236B - 图像超分方法以及图像数据处理方法 - Google Patents
图像超分方法以及图像数据处理方法 Download PDFInfo
- Publication number
- CN116883236B CN116883236B CN202310591727.0A CN202310591727A CN116883236B CN 116883236 B CN116883236 B CN 116883236B CN 202310591727 A CN202310591727 A CN 202310591727A CN 116883236 B CN116883236 B CN 116883236B
- Authority
- CN
- China
- Prior art keywords
- image
- sample
- features
- sub
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 238000003672 processing method Methods 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 134
- 238000000605 extraction Methods 0.000 claims description 82
- 230000004927 fusion Effects 0.000 claims description 34
- 230000003190 augmentative effect Effects 0.000 claims description 14
- 230000000694 effects Effects 0.000 abstract description 31
- 230000007547 defect Effects 0.000 abstract description 5
- 230000000007 visual effect Effects 0.000 description 23
- 239000013598 vector Substances 0.000 description 20
- 238000012545 processing Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 238000003062 neural network model Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 12
- 238000004590 computer program Methods 0.000 description 11
- 230000007812 deficiency Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 230000009466 transformation Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- RRNIZKPFKNDSRS-UHFFFAOYSA-N Bensulide Chemical compound CC(C)OP(=S)(OC(C)C)SCCNS(=O)(=O)C1=CC=CC=C1 RRNIZKPFKNDSRS-UHFFFAOYSA-N 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 1
- 241000282376 Panthera tigris Species 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000013398 bayesian method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本说明书实施例提供图像超分方法以及图像数据处理方法,其中所述图像超分方法包括:获取参考图像和初始分辨率的初始图像,将参考图像和初始图像输入图像超分模型,获得目标分辨率的目标图像,其中,目标分辨率高于初始分辨率,图像超分模型是根据第一样本子图像和第二样本子图像训练得到的,第一样本子图像和第二样本子图像为同一样本图像的子图像,第一样本子图像的图像语义特征和第二样本子图像的图像特征用于图像超分模型的训练。基于同一样本图像的子图像的图像语义特征和的图像特征,对图像超分模型的训练,避免了样本数量的不足导致训练效果不足,提升了图像超分模型的模型性能,提升了对于图像细节的生成能力,提升了图像超分的超分效果。
Description
技术领域
本说明书实施例涉及计算机技术领域,特别涉及一种图像超分方法。
背景技术
随着计算机技术的发展,利用训练得到的图像超分模型,用于提升图像的分辨率,在图像处理领域得到愈发广泛的应用。
目前,基于样本图像对应的文本信息,引导图像超分模型的训练,有效地提升了图像超分模型的模型性能,提升了对于图像细节的生成能力,提升了图像超分的超分效果,使得图像超分对于细节的生成能力得到极大提升。然而,具有对应的文本信息的样本图像数量不足,在面对图像超分模型的大规模训练时,样本数量的不足引发模型的训练效果不足,进而降低了图像超分的超分效果。因此,亟需一种可以提升超分效果的图像超分方法。
发明内容
有鉴于此,本说明书实施例提供了一种图像超分方法。本说明书一个或者多个实施例同时涉及另一种图像超分方法,一种图像数据处理方法,一种图像超分装置,另一种图像超分装置,一种图像数据装置,一种增强现实AR设备或虚拟现实VR设备,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种图像超分方法,包括:
获取参考图像和初始分辨率的初始图像;
将参考图像和初始图像输入图像超分模型,获得目标分辨率的目标图像,其中,目标分辨率高于初始分辨率,图像超分模型是根据第一样本子图像和第二样本子图像训练得到的,第一样本子图像和第二样本子图像为同一样本图像的子图像,第一样本子图像的图像语义特征和第二样本子图像的图像特征用于图像超分模型的训练。
根据本说明书实施例的第二方面,提供了一种图像超分方法,应用于云侧设备,包括:
接收端侧设备发送的初始分辨率的初始图像;
获取初始图像对应的参考图像;
将参考图像和初始图像输入图像超分模型,获得目标分辨率的目标图像,其中,目标分辨率高于初始分辨率,图像超分模型是根据第一样本子图像和第二样本子图像训练得到的,第一样本子图像和第二样本子图像为同一样本图像的子图像,第一样本子图像的语义特征和第二样本子图像的图像特征用于图像超分模型的训练;
将目标图像发送至端侧设备。
根据本说明书实施例的第三方面,提供了一种图像数据处理方法,应用于云侧设备,包括:
获取样本图像,对样本图像进行拆分,得到第一样本子图像和第二样本子图像;
降低第二样本子图像的图像分辨率,得到第三样本子图像;
将第一样本子图像和第三样本子图像输入图像超分模型,获得预测子图像;
基于预测子图像和第二样本子图像,计算得到损失值;
基于损失值,调整图像超分模型的参数,在达到预设训练结束条件的情况下,得到训练完成的图像超分模型;
将图像超分模型的模型参数发送至端侧设备。
根据本说明书实施例的第四方面,提供了一种图像超分装置,包括:
第一获取模块,被配置为获取参考图像和初始分辨率的初始图像;
第一超分模块,被配置为将参考图像和初始图像输入图像超分模型,获得目标分辨率的目标图像,其中,目标分辨率高于初始分辨率,图像超分模型是根据第一样本子图像和第二样本子图像训练得到的,第一样本子图像和第二样本子图像为同一样本图像的子图像,第一样本子图像的图像语义特征和第二样本子图像的图像特征用于图像超分模型的训练。
根据本说明书实施例的第五方面,提供了一种图像超分装置,应用于云侧设备,包括:
接收模块,被配置为接收端侧设备发送的初始分辨率的初始图像;
第二获取模块,被配置为获取初始图像对应的参考图像;
第二超分模块,被配置为将参考图像和初始图像输入图像超分模型,获得目标分辨率的目标图像,其中,目标分辨率高于初始分辨率,图像超分模型是根据第一样本子图像和第二样本子图像训练得到的,第一样本子图像和第二样本子图像为同一样本图像的子图像,第一样本子图像的语义特征和第二样本子图像的图像特征用于图像超分模型的训练;
第一发送模块,被配置为将目标图像发送至端侧设备。
根据本说明书实施例的第六方面,提供了一种图像数据处理装置,应用于云侧设备,包括:
第三获取模块,被配置为获取样本图像,对样本图像进行拆分,得到第一样本子图像和第二样本子图像;
降低模块,被配置为降低第二样本子图像的图像分辨率,得到第三样本子图像;
预测模块,被配置为将第一样本子图像和第三样本子图像输入图像超分模型,获得预测子图像;
计算模块,被配置为基于预测子图像和第二样本子图像,计算得到损失值;
调整模块,被配置为基于损失值,调整图像超分模型的参数,在达到预设训练结束条件的情况下,得到训练完成的图像超分模型;
第二发送模块,被配置为将图像超分模型的模型参数发送至端侧设备。
根据本说明书实施例的第七方面,提供了一种增强现实AR设备或虚拟现实VR设备,包括:
存储器、处理器和显示器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现如下步骤:
获取参考图像和初始分辨率的初始图像;
将参考图像和初始图像输入图像超分模型,获得目标分辨率的目标图像,其中,目标分辨率高于初始分辨率,图像超分模型是根据第一样本子图像和第二样本子图像训练得到的,第一样本子图像和第二样本子图像为同一样本图像的子图像,第一样本子图像的图像语义特征和第二样本子图像的图像特征用于图像超分模型的训练;
将目标图像通过增强现实AR设备或虚拟现实VR设备的显示器进行展示。
根据本说明书实施例的第八方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述图像超分方法或者图像数据处理方法的步骤。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述图像超分方法或者图像数据处理方法的步骤。
根据本说明书实施例的第五方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述图像超分方法或者图像数据处理方法的步骤。
本说明书一个或多个实施例中,获取参考图像和初始分辨率的初始图像,将参考图像和初始图像输入图像超分模型,获得目标分辨率的目标图像,其中,目标分辨率高于初始分辨率,图像超分模型是根据第一样本子图像和第二样本子图像训练得到的,第一样本子图像和第二样本子图像为同一样本图像的子图像,第一样本子图像的图像语义特征和第二样本子图像的图像特征用于图像超分模型的训练。通过同一样本图像的子图像,即基于第一样本子图像的图像语义特征和第二样本子图像的图像特征,对图像超分模型的训练,避免了基于样本图像对应的文本信息,引导图像超分模型的训练,避免了样本数量的不足引发模型的训练效果不足,提升了图像超分模型的模型性能,提升了对于图像细节的生成能力,提升了图像超分的超分效果。
附图说明
图1是本说明书一个实施例提供的一种图像超分方法的流程图;
图2是本说明书一个实施例提供的另一种图像超分方法的流程图;
图3是本说明书一个实施例提供的一种图像数据处理方法的流程图;
图4是本说明书一个实施例提供的一种图像超分方法中图像超分模型的模型训练示意图;
图5是本说明书一个实施例提供的一种图像超分方法的前端示意图;
图6是本说明书一个实施例提供的一种应用于人像照片超分的图像超分方法的处理过程流程图;
图7是本说明书一个实施例提供的一种图像超分装置的结构示意图;
图8是本说明书一个实施例提供的另一种图像超分装置的结构示意图;
图9是本说明书一个实施例提供的一种图像数据处理装置的结构示意图;
图10是本说明书一个实施例提供的一种增强现实AR设备或虚拟现实VR设备的结构框图;
图11是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
此外,需要说明的是,本说明书一个或多个实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
图像分辨率:指图像中存储的信息量,具体为每英寸图像内像素点个数,分辨率的单位为PPI(Pixels Per Inch),通常叫做像素每英寸,也可以为单个方向上的像素点个数相乘(×)的形式,例如,1960×1080表征横方向上有1960个像素点,纵方向上有1080个像素点。
超分:超分辨率算法,一种用于提升视觉图像的图像分辨率的算法。本质上是将输入图像看作一种添加了噪声的视觉图像,对视觉图像进行去噪处理,得到去噪后的视觉图像,实现了图像分辨率的提升。
语义信息:图像中像素之间的关联关系,用于表征图像的类别信息,是一种图像内容中蕴含的抽象信息,例如,某动物图像中该动物的像素之间的关联关系为:条纹图像、黄黑色,可以表征该动物的类别信息:老虎。对语义信息进行特征编码是一种对抽象信息进行语义特征编码,得到高维度(抽象)的特征编码向量。
图像信息:图像中像素的信息,包括像素的色度、位置等具体信息,对图像信息进行图像特征编码,得到低维度(具体)的特征编码向量。
特征推理:在引导特征(先验特征)的引导之下,对输入特征进行细粒度的特征变换,得到输出特征的过程。例如,输入特征为720×480的图像特征,在引导特征的引导下对输入特征进行各特征维度的特征变换,得到720×480的图像特征,作为输出特征。
CLIP模型(Contrastive Language-Image Pre-training,对比语言图像预训练模型):一种图文匹配模型,利用匹配的样本图像和样本文本构成样本对后,进行预训练得到的神经网络模型,其通过图文特征之间的相关性,得到良好的语义特征,具有良好的语义特征表征能力,其包括图像语义提取层和文本语义提取层。
CNN(ConvolutionalNeural Networks,卷积神经网络)模型:一种具有前向传播和反向传播的多层神经网络模型。
FCN模型(Fully ConvolutionNetwork,全卷积神经网络模型):一种具有一次前向传播机制和全连接形式的卷积层的神经网络模型。
VGG模型(Visual Geometry Group Network,视觉几何群网络模型):一种具有小卷积层、小池化层、层数更深特征图更宽特点的神经网络模型。
VIT模型(Vision Transformer,视觉翻译模型):一种针对于视觉图像处理的翻译模型,具有视觉注意力机制。
ResNet模型:一种具有超多层网络结构和残差处理模块的神经网络模型。包括ResNet-50,ResNet-101等。
Transformer(翻译)模型:一种基于注意力机制的神经网络模型,通过注意力机制提取、分析数据的特征,可以用于对自然语言数据,也可以用于图像数据。本说明书一个或多个实施例用于对图像数据的特征提取和分析。
BERT(Bidirectional Encoder Representation from Transformers,双向编码表征翻译)模型:一种双向注意力编码表征功能的神经网络模型。
U-Net模型(U型神经网络模型):一种采用拼接的方式融合深浅层特征的U型(编码层尺寸递减和解码层尺寸递增)的神经网络模型。
VAE(Variational Auto-Encoder,可变自动编码)模型:一种基于变分推断(Variational Inference,Variational Bayesian Methods)的概率模型,是一种具有图像生成功能的神经网络模型。
GAN(GenerativeAdversarial Network,生成对抗)模型:一种用于图像生成的神经网络模型,包含一个生成器(Generator)和一个判别器(Discriminator),通过对生成器和判别器的轮流训练,得到高准确度的生成器来生成图像。
Diffusion(扩散)模型:一种利用前向过程(加噪)和反向过程(去噪)实现的图像生成模型。
增强现实(AugmentedReality,AR)技术:一种将虚拟视觉图像与物理世界融合的图像处理技术,广泛运用了多媒体、三维建模、实时跟踪及注册、智能交互、传感等多种技术手段,将生成的虚拟视觉图像进行模拟仿真后,应用到物理世界中,使得虚拟视觉图像和物理世界互为补充,从而实现对物理世界的感官增强。具体通过AR设备实现,例如,AR环境设备、AR穿戴设备等。
虚拟现实技术(Virtual Reality,缩写为VR):又称虚拟实境或灵境技术,是一种用虚拟信息代替物理世界的图像处理技术,广泛运用了多媒体、三维建模、实时跟踪及注册、智能交互、传感等多种技术手段,将生成的虚拟视觉图像进行模拟仿真后,替换物理世界,使得用户产生处于虚拟世界的感觉。具体通过VR设备实现,例如,VR环境设备、VR穿戴设备等。
在本说明书中,提供了一种图像超分方法,本说明书同时涉及另一种图像超分方法,一种图像数据处理方法,一种图像超分装置,另一种图像超分装置,一种图像数据装置,一种增强现实AR设备或虚拟现实VR设备,一种计算设备,一种计算机可读存储介质以及一种计算机程序,在下面的实施例中逐一进行详细说明。
参见图1,图1示出了本说明书一个实施例提供的一种图像超分方法的流程图,包括如下具体步骤:
步骤102:获取参考图像和初始分辨率的初始图像。
本说明书实施例应用于具有图像超分功能的应用、网页或者小程序。具体可以部署在云侧设备,也可以部署在端侧设备(客户端或者服务端)。
参考图像为用于引导图像超分的视觉图像,参考图像包含有对应于初始图像的语义信息,参考图像可以为高分辨率,也可以为低分辨率,只需包含对应的语义信息,因而,在对于训练完成的图形超分模型,参考图像可以为纯色图。初始图像为待实现图像超分的视觉图像,初始图像的图像分辨率为初始分辨率,初始分辨率为待提升的图像分辨率,低于图像超分后的目标分辨率,初始图像与参考图像包含的语义信息相对应。例如,初始图像为人物A的第一照片,参考图像为人物A的第二照片,第二照片包含有对应于第一照片的人物语义信息,第一照片的图像分辨率为720×480。
获取参考图像和初始分辨率的初始图像,可以为直接获取到参考图像和初始图像,例如,接收用户上传的参考图像和初始图像,又例如,从图像数据库中获取初始图像和初始图像对应的参考图像。也可以为获取初始图像后,再获取到初始图像对应的参考图像,例如,接收用户上传的初始图像,从图像数据库中获取初始图像对应的参考图像,其中,获取的方式可以为基于初始图像的图像标识,也可以为基于初始图像的图像特征进行特征相似度查询,并且,图像数据库为本地图像数据库或者远程图像数据库,也可以为开源图像数据库,在此不作限定。
示例性地,接收用户上传的初始分辨率(720×480)的人物A的第一照片,从本地图像数据库获取第一照片对应的人物A的第二照片。
获取参考图像和初始分辨率的初始图像,为后续进行图像超分,提供了用于引导图像超分的参考图像基础,并且提供了图像超分的初始图像基础。
步骤104:将参考图像和初始图像输入图像超分模型,获得目标分辨率的目标图像,其中,目标分辨率高于初始分辨率,图像超分模型是根据第一样本子图像和第二样本子图像训练得到的,第一样本子图像和第二样本子图像为同一样本图像的子图像,第一样本子图像的图像语义特征和第二样本子图像的图像特征用于图像超分模型的训练。
图像超分模型为具有图像超分功能的神经网络模型,图像超分模型通过对低分辨率的视觉图像的图像特征进行特征推理,得到高分辨率的目标图像,图像超分模型通过图像特征编码、特征推理和图像特征解码,实现图像超分。图像超分模型可以为一种具有图像特征编码、特征推理和图像特征解码功能的神经网络模型,也可以是通过具有图像特征编码、特征推理和图像特征解码的多个神经网络模型组合而成的,在此不作限定。图像超分模型是根据第一样本子图像和第二样本子图像训练得到的,其中,第一样本子图像为训练过程中用于引导图像超分的视觉图像,第二样本子图像为训练过程中的样本图像。图像超分模型的训练是一种有监督训练,第一样本子图像用于引导训练过程中的图像超分,第二样本子图像为训练过程中图像超分的输入,并作为与后续图像超分后的预测结果进行对比的标签。第一样本子图像和第二样本子图像为同一样本图像的子图像,因此,第一样本子图像包含有对应于第二样本子图像的语义信息,例如,对人物的样本图像进行上下裁切,第一样本子图像为上半部分的子图像,第二样本子图像为下半部分的子图像。第一样本子图像的图像语义特征作为一次训练迭代中的引导特征,第二样本子图像的图像特征作为该次训练迭代中的输入特征,其中,第二样本子图像的图像特征可以为直接作为输入特征,也可以在降低第二样本子图像的图像分辨率后进行特征编码得到输入特征,在此不作限定。
目标图像为初始图像经过图像超分的视觉图像,目标分辨率高于初始图像的初始分辨率,但图像超分前后初始图像和目标图像中的图像内容需要保持一致。例如,初始图像为人物A的720×480分辨率下的第一照片,目标图像为1960×1080分辨率下的第一照片。
将参考图像和初始图像输入图像超分模型,获得目标分辨率的目标图像,具体方式为:将参考图像和初始图像输入图像超分模型,基于参考图像中语义信息的引导,对初始图像进行图像超分,获得目标分辨率的目标图像。更进一步地,基于参考图像中语义信息的引导,对初始图像进行图像超分,获得目标分辨率的目标图像,具体方式为:根据参考图像的图像语义特征,对初始图像进行图像超分,获得目标分辨率的目标图像。进一步地,根据参考图像的图像语义特征,对初始图像进行图像超分,获得目标分辨率的目标图像,具体方式为:根据参考图像的图像语义特征,对初始图像的图像特征进行特征推理,获得目标分辨率的目标图像。
需要说明的是,在参考图像中包含的语义信息的引导下,实现对初始图像中细节图像内容的高分辨率生成,实现了更为准确的图像超分。例如,初始图像为包含一个男人和一个女人的风景照片,参考图像为一个男人和一个女人的特写照片,在参考图像中包含的语义信息“一个男人和一个女人”的引导下,对初始图像中一个男人和一个女人这一细节图像内容的高分辨率生成,得到目标分辨率的目标图像。是一种以引导图的形式实现的图像超分方法。
示例性地,将初始分辨率(720×480)的人物A的第一照片和人物A的第二照片输入图像超分模型,基于人物A的第二照片中语义信息“人物A(男性、40岁、黑皮肤……)”的引导,对人物A的第一照片进行图像超分,获得目标分辨率(1960×1080)的人物A的第一照片。
本说明书实施例中,获取参考图像和初始分辨率的初始图像,将参考图像和初始图像输入图像超分模型,获得目标分辨率的目标图像,其中,目标分辨率高于初始分辨率,图像超分模型是根据第一样本子图像和第二样本子图像训练得到的,第一样本子图像和第二样本子图像为同一样本图像的子图像,第一样本子图像的图像语义特征和第二样本子图像的图像特征用于图像超分模型的训练。通过同一样本图像的子图像,即基于第一样本子图像的图像语义特征和第二样本子图像的图像特征,对图像超分模型的训练,避免了基于样本图像对应的文本信息,引导图像超分模型的训练,避免了样本数量的不足引发模型的训练效果不足,提升了图像超分模型的模型性能,提升了对于图像细节的生成能力,提升了图像超分的超分效果。
在本说明书一种可选实施例中,其中,图像超分模型包括图像语义提取层、图像编码层、特征推理层和解码层;
对应地,步骤104包括如下具体步骤:
将参考图像输入图像语义提取层,得到图像语义特征,将初始图像输入图像编码层,得到初始图像特征;
将图像语义特征和初始图像特征输入特征推理层,根据图像语义特征,对初始图像特征进行特征推理,得到目标图像特征;
将目标图像特征输入解码层,得到目标分辨率的目标图像。
图像超分模型的图像超分功能是通过图像特征编码、特征推理和图像特征解码功能实现的,图像超分模型包括用于图像特征编码的图像编码层,用于特征推理的特征推理层和用于图像特征解码的解码层,另外,还包括用于提取图像语义特征的图像语义提取层。其中,图像编码层通过对输入的图像进行低维度的图像特征编码,得到低维度的图像特征。图像语义提取层通过对输入的图像进行高维度的图像语义特征编码,得到高维度的图像语义特征。特征推理层在输入的高维度的图像语义特征的引导下,通过对输入的低维度的图像特征进行特征推理,即利用特征推理层对其进行特征变换,得到对应的低维度的目标图像特征。解码层通过对低维度的目标图像特征进行特征解码,得到目标分辨率的目标图像。图像编码层和解码层可以为CNN模型、FCN模型、VGG模型、VIT模型、ResNet模型等模型的编码层和解码层,图像语义提取层可以为CLIP模型、FCN模型、VGG模型、VIT模型、ResNet模型等模型的图像特征提取层,特征推理层可以为U-Net模型、VAE模型、GAN模型、Diffusion模型等模型的特征变换层。
图像语义特征为包含参考图像中语义信息的高维度的特征编码向量,初始图像特征为初始图像中图像信息的低维度的特征编码向量,目标图像特征为根据参考图像中语义信息推理得到图像信息的低维度的特征编码向量。
将参考图像输入图像语义提取层,得到图像语义特征,具体方式为:将参考图像输入图像语义提取层,对参考图像中语义信息进行语义特征编码,得到图像语义特征。将初始图像输入图像编码层,得到初始图像特征,具体方式为:将初始图像输入图像编码层,对初始图像中图像信息进行图像特征编码,得到初始图像特征。将目标图像特征输入解码层,得到目标分辨率的目标图像,具体方式为:将目标图像特征输入解码层,对目标图像特征进行图像特征解码,得到目标分辨率的目标图像。
需要说明的是,特征推理层中进行图像特征推理,是以图像语义特征为全局特征约束,对初始图像特征进行特征重建,该特征重建具体是以图像语义特征为先验特征,对初始图像特征进行特征变换实现的。
示例性地,将人物A的第二照片输入图像语义提取层,对第二照片中语义信息“人物A(男性、40岁、黑皮肤……)”进行语义特征编码,得到图像语义特征Embedding_Image,将初始分辨率(720×480)的人物A的第一照片输入图像编码层,对第一照片中图像信息进行图像特征编码,得到初始图像特征Feature_Image,将图像语义特征和初始图像特征输入特征推理层,根据图像语义特征,对初始图像特征进行特征推理,得到目标图像特征Feature_TargetImage,将目标图像特征输入解码层,对目标图像特征进行图像特征解码,得到(1960×1080)的人物A的第一照片。
本说明书实施例中,将参考图像输入图像语义提取层,得到图像语义特征,将初始图像输入图像编码层,得到初始图像特征,将图像语义特征和初始图像特征输入特征推理层,根据图像语义特征,对初始图像特征进行特征推理,得到目标图像特征,将目标图像特征输入解码层,得到目标分辨率的目标图像,通过图像语义提取层、图像编码层、特征推理层和解码层的逐层特征处理,实现了高准确度的图像语义提取、图像编码、特征推理和图像解码,进一步提升了对于图像细节的生成能力,进一步提升了图像超分的超分效果。
在本说明书一种可选实施例中,其中,图像超分模型还包括文本语义提取层和语义特征融合层;
对应地,将参考图像输入图像语义提取层,得到图像语义特征,包括如下具体步骤:
获取参考图像对应的参考文本;
将参考图像输入图像语义编码层,得到初始图像语义特征,将参考文本输入文本语义提取层,得到文本语义特征;
将初始图像语义特征和文本语义特征输入语义特征融合层,对初始图像语义特征和文本语义特征进行特征融合,得到图像语义特征。
参考文本为与参考图像具有对应的语义信息的文本内容。例如,参考图像为一个男人和一个女人的特写照片,在参考图像中包含的语义信息“一个男人和一个女人”,参考文本为:一个男人和一个女人。
初始图像语义特征为参考图像中语义信息的高维度的特征编码向量。文本语义提取层通过对输入的文本进行文本特征编码,得到文本语义特征。文本语义特征为文本中语义信息的特征编码向量。特征融合层通过对输入的多个特征编码向量进行融合处理,得到一个融合特征编码向量,其中,融合处理包括但不限于:特征维度(特征空间)对齐后进行拼接,特征维度(特征空间)对齐后进行加权处理,利用映射矩阵将多个特征编码向量映射得到一个融合特征编码向量,在此不作限定。图像语义特征为一种包含参考图像中语义信息和参考文本中语义信息的多模态特征编码向量,是一种高维度的特征编码向量。文本语义提取层可以为CLIP模型、Transformer模型、BERT模型、BERT模型等模型的文本特征提取层。特征融合层为具有特征融合功能的模型功能层,其将多模态的特征向量相融合,得到更为全面的图像语义特征,用于后续的特征推理,特征融合层是预训练的。
获取参考图像对应的参考文本,可以为接收用户上传的参考文本,也可以为从文本数据库中查询得到参考图像对应的参考文本,还可以为利用文本生成算法,生成对应于参考图像对应的参考文本,在此不作限定。
将参考图像输入图像语义编码层,得到初始图像语义特征,具体方式为:将参考图像输入图像语义提取层,对参考图像中语义信息进行图像语义特征编码,得到初始图像语义特征。将参考文本输入文本语义提取层,得到文本语义特征,具体方式为:将参考文本输入文本语义提取层,对参考文本中语义信息进行文本语义特征编码,得到文本语义特征。
示例性地,从本地数据库获取第二照片对应的描述文本:A人物是一个皮肤黝黑的汉子,看着40岁上下的年纪……。将第二照片输入图像语义提取层,对第二照片中语义信息“人物A(男性、40岁、黑皮肤……)”进行图像语义特征编码,得到初始图像语义特征Embedding_Image’。将描述文本输入文本语义提取层,对描述文本中语义信息“A人物、皮肤黝黑、汉子、40岁上下的年纪”进行文本语义特征编码,得到文本语义特征Embedding_Txt。将初始图像语义特征和文本语义特征输入语义特征融合层,对初始图像语义特征和文本语义特征进行特征融合,得到图像语义特征Embedding_Image。
本说明书实施例中,获取参考图像对应的参考文本,将参考图像输入图像语义编码层,得到初始图像语义特征,将参考文本输入文本语义提取层,得到文本语义特征,将初始图像语义特征和文本语义特征输入语义特征融合层,对初始图像语义特征和文本语义特征进行特征融合,得到图像语义特征。提升了图像超分的通用性,并且,更为全面的图像语义特征用于引导图像超分,更进一步提升了对于图像细节的生成能力,更进一步提升了图像超分的超分效果。
在本说明书一种可选实施例中,图像超分模型通过下述步骤训练得到:
获取样本图像,对样本图像进行拆分,得到第一样本子图像和第二样本子图像;
降低第二样本子图像的图像分辨率,得到第三样本子图像;
将第一样本子图像和第三样本子图像输入图像超分模型,获得预测子图像;
基于预测子图像和第二样本子图像,计算得到损失值;
基于损失值,调整图像超分模型的参数,在达到预设训练结束条件的情况下,得到训练完成的图像超分模型。
样本图像为用于图像超分模型训练的样本视觉图像,包括多个样本图像。样本图像可以为图像生成得到的,例如,利用文本生成图像的图像生成模型,生成多个样本图像,也可以为从样本数据库中获取得到的,其中,样本数据库可以为历史数据库,也可以为开源数据库,在此不作限定。图像超分模型的训练过程中,为了保证训练得到的图像超分模型可以对低分辨率的视觉图像进行图像超分,得到高分辨率的视觉图像,样本图像的图像分辨率为高分辨率,保证拆分得到的第二样本子图像为高分辨率,使得第二样本子图像作为标签样本图像与预测子图像进行比较,确定损失值。
第一样本子图像和第二样本子图像为对样本图像进行图像拆分得到的子图像,例如,对分辨率为1960×1080的样本图像进行左右等分,得到两张980×1080的子图像,由于第一样本子图像和第二样本子图像为同一样本图像进行拆分得到的子图像,因而两者自然而然包含对应的语义信息。需要说明的是,第一样本子图像和第二样本子图像是为了方便表述,可以对样本图像进行多份拆分,得到多个子图像。在图像超分模型的训练过程中,第一样本子图像为用于引导图像超分的子图像,第三样本子图像为待实现图像超分的低分辨率的样本子图像,是一种训练样本图像,第二样本子图像为用于确定图像超分结果损失值的高分辨率的样本子图像,是一种标签样本图像。预测子图像为对第三样本子图像进行图像超分得到的预测结果,预测子图像为高分辨率的视觉图像。
损失值为预测子图像和第二样本子图像之间的图像特征损失值,表征了预测结果和标签样本图像之间的图像损失值,反映了图像超分模型的图像超分性能。损失值可以为交叉熵损失值、距离损失值、余弦损失值、L1损失值或者L2损失值等。
预设训练结束条件为预先设定的迭代训练的结束判断条件。预设训练结束条件包括但不限于:预设损失值阈值,预设迭代次数、预设训练时长和预设训练样本数量。
将第一样本子图像和第三样本子图像输入图像超分模型,获得预测子图像,具体方式为:将第一样本子图像和第二样本子图像输入图像超分模型,基于第一样本子图像中语义信息的引导,对第二样本子图像进行图像超分,获得预测子图像。更进一步地,基于第一样本子图像中语义信息的引导,对第二样本子图像进行图像超分,获得预测子图像,具体方式为:根据第一样本子图像的样本图像语义特征,对第二样本子图像进行图像超分,获得预测子图像。进一步地,根据第一样本子图像的样本图像语义特征,对第二样本子图像进行图像超分,获得预测子图像,具体方式为:根据第一样本子图像的样本图像语义特征,对第二样本子图像的样本图像特征进行特征推理,获得预测子图像。
降低第二样本子图像的图像分辨率,可以通过相关算法实现,例如,利用确定大小的图像滑动窗口,确定该滑动窗口中任一像素的色度值为该滑动窗口中各像素的色度值图像,也可以为利用图像处理模型实现降低图像分辨率,在此不作限定。
基于损失值,调整图像超分模型的参数,具体方式为:基于损失值,利用梯度更新法,调整图像超分模型的参数。其中,调整图像超分模型为调整图像语义提取层、图像编码层、特征推理层和解码层中一个或多个的参数。
需要说明的是,图像超分模型的训练为大规模的模型训练方法,用于训练的样本图像的数量极大,由于本说明书实施例中,直接对样本图像进行拆分得到第一样本子图像,作为对图像超分中的引导信息,无需文本作为引导信息,因而,为了保证训练效率,对多个样本图像进行划分,得到多个批次(Batch)的样本图像,进行多批次训练。
示例性地,从开源数据库中获取100000张样本图像,对100000张样本图像SampleImage进行上下等拆分,得到100000张第一样本子图像SampleImage_i(i∈[1,100000])和100000张第二样本子图像SampleImage_j(j∈[1,100000]),降低第二样本子图像的图像分辨率,得到100000张第三样本子图像SampleImage_k(k∈[1,100000]),将第一样本子图像和第二样本子图像输入图像超分模型,基于第一样本子图像中语义信息的引导,对第二样本子图像进行图像超分,获得100000张预测子图像PredictImage_l(l∈[1,100000]),基于预测子图像和第二样本子图像:计算得到损失值Loss,基于损失值,利用梯度更新法,调整图像超分模型的参数,在达到预设损失值阈值的情况下,得到训练完成的图像超分模型。
本说明书实施例中,获取样本图像,对样本图像进行拆分,得到第一样本子图像和第二样本子图像,降低第二样本子图像的图像分辨率,得到第三样本子图像,将第一样本子图像和第三样本子图像输入图像超分模型,获得预测子图像,基于预测子图像和第二样本子图像,计算得到损失值,基于损失值,调整图像超分模型的参数,在达到预设训练结束条件的情况下,得到训练完成的图像超分模型。通过对同一样本图像进行拆分,得到第一样本子图像和第二样本子图像,并降低了第二样本子图像的图像分辨率得到第三样本子图像,并基于第一样本子图像和第三样本子图像,对图像超分模型的训练,避免了基于样本图像对应的文本信息,引导图像超分模型的训练,避免了样本数量的不足引发模型的训练效果不足,提升了图像超分模型的模型性能。
在本说明书一种可选实施例中,其中,图像超分模型包括图像语义提取层、图像编码层、特征推理层和解码层;
对应地,将第一样本子图像和第三样本子图像输入图像超分模型,获得预测子图像,包括如下具体步骤:
将第一样本子图像输入图像语义提取层,得到样本图像语义特征,将第三样本子图像输入图像编码层,得到样本初始图像特征;
将样本图像语义特征和样本初始图像特征输入特征推理层,根据样本图像语义特征,对样本初始图像特征进行特征推理,得到预测图像特征;
将预测图像特征输入解码层,得到预测子图像。
样本图像语义特征为包含第一样本自图像中语义信息的高维度的特征编码向量,样本初始图像特征为第二样本自图像中图像信息的低维度的特征编码向量,预测图像特征为根据第一样本子图像中语义信息推理得到的图像信息的低维度的特征编码向量。
将第一样本子图像输入图像语义提取层,得到样本图像语义特征,具体方式为:将第一样本子图像输入图像语义提取层,对第一样本子图像中语义信息进行语义特征编码,得到样本图像语义特征。将第三样本子图像输入图像编码层,得到样本初始图像特征,具体方式为:将第三样本子图像输入图像编码层,对第三样本子图像中图像信息进行图像特征编码,得到样本初始图像特征。
需要说明的是,特征推理层中进行图像特征推理,是以样本图像语义特征为全局特征约束,对样本初始图像特征进行特征重建,该特征重建具体是以样本图像语义特征为先验特征,对样本初始图像特征进行特征变换实现的。
示例性地,将100000张第一样本子图像SampleImage_i(i∈[1,100000])输入图像语义提取层,得到对应的样本图像语义特征Embedding_SampleImage_i(i∈[1,100000]),将100000张第三样本子图像SampleImage_k(k∈[1,100000])输入图像编码层,得到对应的样本初始图像特征Feature_SampleImage_k(k∈[1,100000]),将样本图像语义特征和样本初始图像特征输入特征推理层,根据样本图像语义特征,对样本初始图像特征进行特征推理,得到100000张预测图像特征Feature_PredictImage_l(l∈[1,100000]),将预测图像特征输入解码层,得到100000张预测子图像PredictImage_l(l∈[1,100000])。
本说明书实施例中,将第一样本子图像输入图像语义提取层,得到样本图像语义特征,将第三样本子图像输入图像编码层,得到样本初始图像特征,将样本图像语义特征和样本初始图像特征输入特征推理层,根据样本图像语义特征,对样本初始图像特征进行特征推理,得到预测图像特征,将预测图像特征输入解码层,得到预测子图像。通过图像语义提取层、图像编码层、特征推理层和解码层的逐层特征处理,实现了高准确度的图像语义提取、图像编码、特征推理和图像解码,得到更为准确的预测子图像,提升了模型的训练效率和训练效果。
在本说明书一种可选实施例中,将样本图像语义特征和样本初始图像特征输入特征推理层,根据样本图像语义特征,对样本初始图像特征进行特征推理,得到预测图像特征,包括如下具体步骤:
将样本图像语义特征和样本初始图像特征输入特征推理层,根据样本图像语义特征,对样本初始图像特征进行特征推理,得到参考预测图像特征;
将参考预测图像特征确定为样本初始图像特征,返回执行将样本图像语义特征和样本初始图像特征输入特征推理层的步骤,在达到预设推理结束条件的情况下,确定参考预测图像特征为预测图像特征。
由于图像超分本质上是对视觉图像进行去噪处理的过程,因而,可以将特征推理层的输出重新确定为输入特征,重新输入特征推理层进行特征推理(去噪),得到去噪后的输出特征,提升了最终推理得到的预测图像特征的准确度。
预设推理结束条件为预先设定的迭代特征推理的结束判断条件,预设推理结束条件为图像超分模型训练的超参数。预设推理结束条件包括但不限于:预设图像特征评分,例如,置信度评分,特征距离评分等,预设推理迭代次数。
示例性地,将样本图像语义特征Embedding_SampleImage_i(i∈[1,100000])和样本初始图像特征Feature_SampleImage_k(k∈[1,100000])输入特征推理层,根据样本图像语义特征,对样本初始图像特征进行特征推理,得到参考预测图像特征Feature_RefImage_l(l∈[1,100000]),将参考预测图像特征确定为样本初始图像特征,返回执行将样本图像语义特征和样本初始图像特征输入特征推理层的步骤,在达到预设推理结束条件的情况下,确定参考预测图像特征Feature_RefImage_l(l∈[1,100000])为预测图像特征Feature_PredictImage_l(l∈[1,100000])。
本说明书实施例中,将样本图像语义特征和样本初始图像特征输入特征推理层,根据样本图像语义特征,对样本初始图像特征进行特征推理,得到参考预测图像特征,将参考预测图像特征确定为样本初始图像特征,返回执行将样本图像语义特征和样本初始图像特征输入特征推理层的步骤,在达到预设推理结束条件的情况下,确定参考预测图像特征为预测图像特征。提升了特征推理得到的预测图像特征的特征准确度,得到更为准确的预测子图像,进一步提升了模型的训练效率和训练效果。
在本说明书一种可选实施例中,其中,预设推理结束条件为预设图像特征评分或者预设推理迭代次数。
预设图像特征评分为预先设定的针对图像特征的特征可信度的评分。例如,特征置信度评分,特征距离评分(特征数值的变化次数)。预设推理迭代次数为预先设定的特征推理的迭代次数。
示例性地,将样本图像语义特征Embedding_SampleImage_i(i∈[1,100000])和样本初始图像特征Feature_SampleImage_k(k∈[1,100000])输入特征推理层,根据样本图像语义特征,对样本初始图像特征进行特征推理,得到参考预测图像特征Feature_RefImage_l(l∈[1,100000]),将参考预测图像特征确定为样本初始图像特征,返回执行将样本图像语义特征和样本初始图像特征输入特征推理层的步骤,在达到预设推理迭代次数t=10的情况下,确定参考预测图像特征Feature_RefImage_l(l∈[1,100000])为预测图像特征Feature_PredictImage_l(l∈[1,100000])。
本说明书实施例中,基于预设图像特征评分或者预设推理迭代次数,进行特征推理的迭代结束判断,提升了判断的准确度。
在本说明书一种可选实施例中,其中,图像超分模型还包括文本语义提取层和语义特征融合层;
对应地,将第一样本子图像输入图像语义提取层,得到样本图像语义特征,包括如下具体步骤:
获取第一样本子图像对应的样本文本;
将第一样本子图像输入图像语义提取层,得到样本初始图像语义特征,将样本文本输入文本语义提取层,得到样本文本语义特征;
将样本初始图像语义特征和样本文本语义特征输入语义特征融合层,对样本初始图像语义特征和样本文本语义特征进行特征融合,得到样本图像语义特征。
样本文本为与第一样本子图像具有对应的语义信息的文本内容。由于第一样本子图像是对样本图像进行拆分得到的,因而,样本图像也与样本图像对应。例如,样本图像为一个男人和一个女人的特写照片,对其进行拆分,得到第一样本子图像,在第一样本子图像中包含的语义信息“一个男人和一个女人”,样本文本为:一个男人和一个女人。样本文本可以为与第一样本子图像一一对应,也可以为多个第一样本子图像对应一个样本文本,用以减少训练样本的构建难度。
样本文本语义特征为样本文本中语义信息的特征编码向量。样本图像语义特征为一种包含第一样本子图像中语义信息和样本文本中语义信息的多模态特征编码向量,是一种高维度的特征编码向量。
获取第一样本子图像对应的样本文本,为与样本图像共同获取。
将第一样本子图像输入图像语义提取层,得到样本初始图像语义特征,具体方式为:将第一样本子图像输入图像语义提取层,对第一样本子图像中语义信息进行图像语义特征编码,得到样本初始图像语义特征。将样本文本输入文本语义提取层,得到样本文本语义特征,具体方式为:将样本文本输入文本语义提取层,对样本文本中语义信息进行文本语义特征编码,得到样本文本语义特征。
示例性地,获取100000张第一样本子图像SampleImage_i(i∈[1,100000])对应的100000份样本文本SampleTxt_i(i∈[1,100000]),将第一样本子图像输入图像语义提取层,对第一样本子图像中语义信息进行图像语义特征编码,得到样本初始图像语义特征Embedding_SampleImage_i’(i∈[1,100000]),将样本文本输入文本语义提取层,对样本文本中语义信息进行文本语义特征编码,得到样本文本语义特征Embedding_SampleTxt_i(i∈[1,100000]),将样本初始图像语义特征和样本文本语义特征输入语义特征融合层,对样本初始图像语义特征和样本文本语义特征进行特征融合,得到样本图像语义特征Embedding_SampleImage_i(i∈[1,100000])。
本说明书实施例中,获取第一样本子图像对应的样本文本,将第一样本子图像输入图像语义提取层,得到样本初始图像语义特征,将样本文本输入文本语义提取层,得到样本文本语义特征,将样本初始图像语义特征和样本文本语义特征输入语义特征融合层,对样本初始图像语义特征和样本文本语义特征进行特征融合,得到样本图像语义特征。提升了图像超分的通用性,并且,更为全面的样本图像语义特征用于引导图像超分,更进一步提升了对于图像细节的生成能力,更进一步提升了模型训练的训练效果和训练效率。
在本说明书一种可选实施例中,基于损失值,调整图像超分模型的参数,包括如下具体步骤:
基于损失值,调整特征推理层的参数。
一般地,图像超分模型中图像编码层、图像语义提取层、文本语义提取层和解码层可以预先通过预训练得到,需要针对图像超分的核心模块——特征推理层进行训练,针对性地提升图像超分模型的图像超分效果,可以将图像编码层、图像语义提取层、文本语义提取层和解码层的参数进行固定,只调整特征推理层的参数。
基于损失值,调整特征推理层的参数,具体方式为:基于损失值,利用梯度更新法,调整特征推理层的参数。
示例性地,基于损失值Loss,利用梯度更新法,调整特征推理层的参数。
本说明书实施例中,基于损失值,调整特征推理层的参数,针对性地提升了图像超分模型的模型性能,提升了模型训练的训练效率。
参见图2,图2示出了本说明书一个实施例提供的另一种图像超分方法的流程图,该方法应用于云侧设备,包括如下具体步骤:
步骤202:接收端侧设备发送的初始分辨率的初始图像;
步骤204:获取初始图像对应的参考图像;
步骤206:将参考图像和初始图像输入图像超分模型,获得目标分辨率的目标图像,其中,目标分辨率高于初始分辨率,图像超分模型是根据第一样本子图像和第二样本子图像训练得到的,第一样本子图像和第二样本子图像为同一样本图像的子图像,第一样本子图像的语义特征和第二样本子图像的图像特征用于图像超分模型的训练;
步骤208:将目标图像发送至端侧设备。
本说明书实施例应用于具有图像超分功能的应用、网页或者小程序等的云侧设备,上述云侧设备上部署有图像超分模型,用于实现图像超分功能。云侧设备为一种具有网络云的虚拟设备,端侧设备为一种实体设备。端侧设备和云侧设备之间具有网络连接,构建有数据链路实现数据传输。云侧设备配置有更大的存储空间和更高的算力。
步骤204中,获取初始图像对应的参考图像,为从图像数据库中获取初始图像对应的参考图像,其中,获取的方式可以为基于初始图像的图像标识,也可以为基于初始图像的图像特征进行特征相似度查询,并且,图像数据库为本地图像数据库或者远程图像数据库,也可以为开源图像数据库,在此不作限定。
步骤206与上述图1实施例中步骤104一致,已经在上述图1实施例中进行详细说明,在此不再赘述。
本说明书实施例中,接收端侧设备发送的初始分辨率的初始图像,获取初始图像对应的参考图像,将参考图像和初始图像输入图像超分模型,获得目标分辨率的目标图像,其中,目标分辨率高于初始分辨率,图像超分模型是根据第一样本子图像和第二样本子图像训练得到的,第一样本子图像和第二样本子图像为同一样本图像的子图像,第一样本子图像的语义特征和第二样本子图像的图像特征用于图像超分模型的训练,将目标图像发送至端侧设备。通过同一样本图像的子图像,即基于第一样本子图像的图像语义特征和第二样本子图像的图像特征,对图像超分模型的训练,避免了基于样本图像对应的文本信息,引导图像超分模型的训练,避免了样本数量的不足引发模型的训练效果不足,提升了图像超分模型的模型性能,提升了对于图像细节的生成能力,提升了图像超分的超分效果,同时,通过云侧设备实现了图像超分,降低了端侧设备的算力成本和存储成本,提升了用户体验。
参见图3,图3示出了本说明书一个实施例提供的一种图像数据处理方法,该方法应用于云侧设备,包括如下具体步骤:
步骤302:获取样本图像,对样本图像进行拆分,得到第一样本子图像和第二样本子图像;
步骤304:降低第二样本子图像的图像分辨率,得到第三样本子图像;
步骤306:将第一样本子图像和第三样本子图像输入图像超分模型,获得预测子图像;
步骤308:基于预测子图像和第二样本子图像,计算得到损失值;
步骤310:基于损失值,调整图像超分模型的参数,在达到预设训练结束条件的情况下,得到训练完成的图像超分模型;
步骤312:将图像超分模型的模型参数发送至端侧设备。
本说明书实施例应用于具有模型训练功能的云侧设备。云侧设备为提供模型训练功能的网络云设备,为一种虚拟设备。端侧设备为提供图像超分功能的终端设备,是一种实体设备。端侧设备和云侧设备之间具有网络连接,构建有数据链路实现数据传输。云侧设备的算力性能和存储性能高于端侧设备。
本说明书实施例中,步骤302至步骤310已在上述图1实施例中详细说明,在此不再赘述。
本说明书实施例中,获取样本图像,对样本图像进行拆分,得到第一样本子图像和第二样本子图像,降低第二样本子图像的图像分辨率,得到第三样本子图像,将第一样本子图像和第三样本子图像输入图像超分模型,获得预测子图像,基于预测子图像和第二样本子图像,计算得到损失值,基于损失值,调整图像超分模型的参数,在达到预设训练结束条件的情况下,得到训练完成的图像超分模型,将图像超分模型的模型参数发送至端侧设备。通过对同一样本图像进行拆分,得到第一样本子图像和第二样本子图像,并降低了第二样本子图像的图像分辨率得到第三样本子图像,并基于第一样本子图像和第三样本子图像,对图像超分模型的训练,避免了基于样本图像对应的文本信息,引导图像超分模型的训练,避免了样本数量的不足引发模型的训练效果不足,提升了图像超分模型的模型性能,同时,通过云侧设备实现了图像超分模型的训练,降低了端侧设备的算力成本,提升了模型训练效率和训练效果,提升了用户体验。
图4示出了本说明书一个实施例提供的一种图像超分方法中图像超分模型的模型训练示意图,如图4所示:
获取样本图像和样本图像对应的样本文本,对样本图像进行拆分,得到第一样本子图像和第二样本子图像,对第二样本子图像进行降低分辨率,得到第三样本子图像。将样本文本输入图像超分模型的文本语义提取层,得到样本文本语义特征,将第一样本子图像输入图像超分模型的图像语义提取层,得到样本初始图像语义特征,将第三样本子图像输入图像超分模型的图像编码层,得到样本图像特征。将样本文本语义特征和样本初始图像语义特征输入图像超分模型的特征融合层,得到样本图像语义特征。将样本图像语义特征和样本初始图像特征输入特征推理层,根据样本图像语义特征,对样本初始图像特征进行特征推理,得到参考预测图像特征,将参考预测图像特征确定为样本初始图像特征,返回执行将样本图像语义特征和样本初始图像特征输入特征推理层的步骤,在达到预设迭代次数的情况下,确定参考预测图像特征为预测图像特征。将预测图像特征输入图像超分模型的解码层,得到预测子图像,基于预测子图像和第二样本子图像,计算损失值,基于损失值,调整特征推理层的参数,在满足预设训练结束条件的情况下,得到训练完成的图像超分模型。
图5示出了本说明书一个实施例提供的一种图像超分方法的前端示意图,如图5所示:
在装载有图像超分模型对应的图像超分应用的移动终端上,图像超分应用的第一界面中,预设有初始图像预览区、“加载初始图像”控件和“图像超分”控件,用户先点选“加载初始图像”控件,将初始分辨率的初始图像加载至图像超分应用的客户端,并显示在初始图像预览区中,再点选“图像超分”控件,对初始图像进行图像超分,在图像超分完成后,图像超分应用的当前界面跳转至第二界面,第二界面中,预设有目标图像预览区、“下载”控件、“复制”控件和“返回”控件,目标图像预览区中渲染有目标分辨率的目标图像,用户可以通过点选对应的控件实现对应的功能。
下述结合附图6,以本说明书提供的图像超分方法在人像照片超分的应用为例,对所述图像超分方法进行进一步说明。其中,图6示出了本说明书一个实施例提供的一种应用于人像照片超分的图像超分方法的处理过程流程图,包括如下具体步骤:
步骤602:获取样本图像和样本图像对应的样本文本;
步骤604:对样本图像进行拆分,得到第一样本子图像和第二样本子图像;
步骤606:降低第二样本子图像的图像分辨率,得到第三样本子图像;
步骤608:将第一样本子图像输入图像语义提取层,得到样本初始图像语义特征,将样本文本输入文本语义提取层,得到样本文本语义特征;
步骤610:将样本初始图像语义特征和样本文本语义特征输入语义特征融合层,对样本初始图像语义特征和样本文本语义特征进行特征融合,得到样本图像语义特征;
步骤612:将第三样本子图像输入图像编码层,得到样本初始图像特征;
步骤614:将样本图像语义特征和样本初始图像特征输入特征推理层,根据样本图像语义特征,对样本初始图像特征进行特征推理,得到预测图像特征,将参考预测图像特征确定为样本初始图像特征,返回执行将样本图像语义特征和样本初始图像特征输入特征推理层的步骤,在达到预设推理结束条件的情况下,确定参考预测图像特征为预测图像特征;
步骤616:基于预测子图像和第二样本子图像,计算得到损失值;
步骤618:基于损失值,调整图像超分模型的参数,在达到预设训练结束条件的情况下,得到训练完成的图像超分模型;
步骤620:接收用户发送的初始分辨率的初始人脸照片;
步骤622:从开源图像数据库中获取初始人脸照片对应的参考人像照片;
步骤624:将参考人脸照片输入图像语义提取层,得到图像语义特征,将初始人脸照片输入图像编码层,得到初始人脸照片特征;
步骤626:将图像语义特征和初始人脸照片特征输入特征推理层,根据图像语义特征,对初始人脸照片特征进行特征推理,得到目标图像特征;
步骤628:将目标图像特征输入解码层,得到目标分辨率的目标人脸照片,并将目标人脸照片反馈给用户。
本说明书实施例中,使用多模态语义提取层提取引导图像超分的图像语义特征,实现对图像超分模型的训练,使得训练得到的图像超分模型具有更好的通用性和更准确的图像超分性能,并且提升了训练效率,通过同一样本图像的子图像,即基于第一样本子图像的图像语义特征和第二样本子图像的图像特征,对图像超分模型的训练,避免了基于样本图像对应的文本信息,引导图像超分模型的训练,避免了样本数量的不足引发模型的训练效果不足,提升了图像超分模型的模型性能,提升了对于人像照片中照片细节的生成能力,提升了图像超分的超分效果,提升了用户体验。
与上述方法实施例相对应,本说明书还提供了图像超分装置实施例,图7示出了本说明书一个实施例提供的一种图像超分装置的结构示意图。如图7所示,该装置包括:
第一获取模块702,被配置为获取参考图像和初始分辨率的初始图像;
第一超分模块704,被配置为将参考图像和初始图像输入图像超分模型,获得目标分辨率的目标图像,其中,目标分辨率高于初始分辨率,图像超分模型是根据第一样本子图像和第二样本子图像训练得到的,第一样本子图像和第二样本子图像为同一样本图像的子图像,第一样本子图像的图像语义特征和第二样本子图像的图像特征用于图像超分模型的训练。
可选地,其中,图像超分模型包括图像语义提取层、图像编码层、特征推理层和解码层;
对应地,第一超分模块704被进一步配置为:
将参考图像输入图像语义提取层,得到图像语义特征,将初始图像输入图像编码层,得到初始图像特征;将图像语义特征和初始图像特征输入特征推理层,根据图像语义特征,对初始图像特征进行特征推理,得到目标图像特征;将目标图像特征输入解码层,得到目标分辨率的目标图像。
可选地,其中,图像超分模型还包括文本语义提取层和语义特征融合层;
对应地,第一超分模块704被进一步配置为:
获取参考图像对应的参考文本;将参考图像输入图像语义编码层,得到初始图像语义特征,将参考文本输入文本语义提取层,得到文本语义特征;将初始图像语义特征和文本语义特征输入语义特征融合层,对初始图像语义特征和文本语义特征进行特征融合,得到图像语义特征。
可选地,该装置还包括:
训练模块,被配置为获取样本图像,对样本图像进行拆分,得到第一样本子图像和第二样本子图像;降低第二样本子图像的图像分辨率,得到第三样本子图像;将第一样本子图像和第三样本子图像输入图像超分模型,获得预测子图像;基于预测子图像和第二样本子图像,计算得到损失值;基于损失值,调整图像超分模型的参数,在达到预设训练结束条件的情况下,得到训练完成的图像超分模型。
可选地,其中,图像超分模型包括图像语义提取层、图像编码层、特征推理层和解码层;
对应地,训练模块被进一步配置为:
将第一样本子图像输入图像语义提取层,得到样本图像语义特征,将第三样本子图像输入图像编码层,得到样本初始图像特征;将样本图像语义特征和样本初始图像特征输入特征推理层,根据样本图像语义特征,对样本初始图像特征进行特征推理,得到预测图像特征;将预测图像特征输入解码层,得到预测子图像。
可选地,训练模块被进一步配置为:
将样本图像语义特征和样本初始图像特征输入特征推理层,根据样本图像语义特征,对样本初始图像特征进行特征推理,得到参考预测图像特征;将参考预测图像特征确定为样本初始图像特征,返回执行将样本图像语义特征和样本初始图像特征输入特征推理层的步骤,在达到预设推理结束条件的情况下,确定参考预测图像特征为预测图像特征。
可选地,其中,图像超分模型还包括文本语义提取层和语义特征融合层;
对应地,训练模块被进一步配置为:
获取第一样本子图像对应的样本文本;将第一样本子图像输入图像语义提取层,得到样本初始图像语义特征,将样本文本输入文本语义提取层,得到样本文本语义特征;将样本初始图像语义特征和样本文本语义特征输入语义特征融合层,对样本初始图像语义特征和样本文本语义特征进行特征融合,得到样本图像语义特征。
可选地,训练模块被进一步配置为:
基于损失值,调整特征推理层的参数。
本说明书实施例中,通过同一样本图像的子图像,即基于第一样本子图像的图像语义特征和第二样本子图像的图像特征,对图像超分模型的训练,避免了基于样本图像对应的文本信息,引导图像超分模型的训练,避免了样本数量的不足引发模型的训练效果不足,提升了图像超分模型的模型性能,提升了对于图像细节的生成能力,提升了图像超分的超分效果。
上述为本实施例的一种图像超分装置的示意性方案。需要说明的是,该图像超分装置的技术方案与上述的图像超分方法的技术方案属于同一构思,图像超分装置的技术方案未详细描述的细节内容,均可以参见上述图像超分方法的技术方案的描述。
与上述方法实施例相对应,本说明书还提供了图像超分装置实施例,图8示出了本说明书一个实施例提供的另一种图像超分装置的结构示意图。如图8所示,该装置应用于云侧设备,该装置包括:
接收模块802,被配置为接收端侧设备发送的初始分辨率的初始图像;
第二获取模块804,被配置为获取初始图像对应的参考图像;
第二超分模块806,被配置为将参考图像和初始图像输入图像超分模型,获得目标分辨率的目标图像,其中,目标分辨率高于初始分辨率,图像超分模型是根据第一样本子图像和第二样本子图像训练得到的,第一样本子图像和第二样本子图像为同一样本图像的子图像,第一样本子图像的语义特征和第二样本子图像的图像特征用于图像超分模型的训练;
第一发送模块808,被配置为将目标图像发送至端侧设备。
本说明书实施例中,通过同一样本图像的子图像,即基于第一样本子图像的图像语义特征和第二样本子图像的图像特征,对图像超分模型的训练,避免了基于样本图像对应的文本信息,引导图像超分模型的训练,避免了样本数量的不足引发模型的训练效果不足,提升了图像超分模型的模型性能,提升了对于图像细节的生成能力,提升了图像超分的超分效果,同时,通过云侧设备实现了图像超分,降低了端侧设备的算力成本和存储成本,提升了用户体验。
上述为本实施例的一种图像超分装置的示意性方案。需要说明的是,该图像超分装置的技术方案与上述的图像超分方法的技术方案属于同一构思,图像超分装置的技术方案未详细描述的细节内容,均可以参见上述图像超分方法的技术方案的描述。
与上述方法实施例相对应,本说明书还提供了图像数据处理装置实施例,图9示出了本说明书一个实施例提供的一种图像数据处理装置的结构示意图。如图9所示,该装置应用于云侧设备,该装置包括:
第三获取模块902,被配置为获取样本图像,对样本图像进行拆分,得到第一样本子图像和第二样本子图像;
降低模块904,被配置为降低第二样本子图像的图像分辨率,得到第三样本子图像;
预测模块906,被配置为将第一样本子图像和第三样本子图像输入图像超分模型,获得预测子图像;
计算模块908,被配置为基于预测子图像和第二样本子图像,计算得到损失值;
调整模块910,被配置为基于损失值,调整图像超分模型的参数,在达到预设训练结束条件的情况下,得到训练完成的图像超分模型;
第二发送模块912,被配置为将图像超分模型的模型参数发送至端侧设备。
本说明书实施例中,通过对同一样本图像进行拆分,得到第一样本子图像和第二样本子图像,并降低了第二样本子图像的图像分辨率得到第三样本子图像,并基于第一样本子图像和第三样本子图像,对图像超分模型的训练,避免了基于样本图像对应的文本信息,引导图像超分模型的训练,避免了样本数量的不足引发模型的训练效果不足,提升了图像超分模型的模型性能,同时,通过云侧设备实现了图像超分模型的训练,降低了端侧设备的算力成本,提升了模型训练效率和训练效果,提升了用户体验。
上述为本实施例的一种图像数据处理装置的示意性方案。需要说明的是,该图像数据处理装置的技术方案与上述的图像数据处理方法的技术方案属于同一构思,图像数据处理装置的技术方案未详细描述的细节内容,均可以参见上述图像数据处理方法的技术方案的描述。
图10示出了本说明书一个实施例提供的一种增强现实AR设备或虚拟现实VR设备的结构框图,该设备1000包括但不限于存储器1010、处理器1020和显示器1030,处理器1020、存储器1010和显示器1030通过总线1040相连接.
存储器1010用于存储计算机可执行指令,处理器1020用于执行计算机可执行指令,该计算机可执行指令被处理器1020执行时实现如下步骤:
获取参考图像和初始分辨率的初始图像;
将参考图像和初始图像输入图像超分模型,获得目标分辨率的目标图像,其中,目标分辨率高于初始分辨率,图像超分模型是根据第一样本子图像和第二样本子图像训练得到的,第一样本子图像和第二样本子图像为同一样本图像的子图像,第一样本子图像的图像语义特征和第二样本子图像的图像特征用于图像超分模型的训练;
将目标图像通过增强现实AR设备1000或虚拟现实VR设备1000的显示器1030进行展示。
本说明书实施例中,通过同一样本图像的子图像,即基于第一样本子图像的图像语义特征和第二样本子图像的图像特征,对图像超分模型的训练,避免了基于样本图像对应的文本信息,引导图像超分模型的训练,避免了样本数量的不足引发模型的训练效果不足,提升了图像超分模型的模型性能,提升了对于图像细节的生成能力,提升了图像超分的超分效果,并将目标图像通过增强现实AR设备或虚拟现实VR设备的显示器进行展示,提升了用户体验。
上述为本实施例的一种增强现实AR设备或虚拟现实VR设备的示意性方案。需要说明的是,该增强现实AR设备或虚拟现实VR设备的技术方案与上述的图像超分方法的技术方案属于同一构思,增强现实AR设备或虚拟现实VR设备的技术方案未详细描述的细节内容,均可以参见上述图像超分方法的技术方案的描述。
图11示出了本说明书一个实施例提供的一种计算设备的结构框图。该计算设备1100的部件包括但不限于存储器1110和处理器1120。处理器1120与存储器1110通过总线1130相连接,数据库1150用于保存数据。
计算设备1100还包括接入设备1140,接入设备1140使得计算设备1100能够经由一个或多个网络1160通信。这些网络的示例包括公用交换电话网(PSTN,PublicSwitchedTelephone Network)、局域网(LAN,LocalAreaNetwork)、广域网(WAN,WideAreaNetwork)、个域网(PAN,Personal Area Network)或诸如因特网的通信网络的组合。接入设备1140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,network interface controller))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,Wireless Local Area Network)无线接口、全球微波互联接入(Wi-MAX,WorldwideInteroperability for Microwave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near FieldCommunication)。
在本说明书的一个实施例中,计算设备1100的上述部件以及图11中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图11所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备1100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或个人计算机(PC,Personal Computer)的静止计算设备。计算设备1100还可以是移动式或静止式的服务器。
其中,处理器1120用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述图像超分方法或者图像数据处理方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的图像超分方法和图像数据处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述图像超分方法或者图像数据处理方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述图像超分方法或者图像数据处理方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的图像超分方法和图像数据处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述图像超分方法或者图像数据处理方法的技术方案的描述。
本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述图像超分方法或者图像数据处理方法的步骤。
上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的图像超分方法和图像数据处理方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述图像超分方法或者图像数据处理方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据专利实践的要求进行适当的增减,例如在某些地区,根据专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。
Claims (13)
1.一种图像超分方法,包括:
获取参考图像和初始分辨率的初始图像;
将所述参考图像输入图像超分模型的图像语义提取层,得到图像语义特征,其中,所述图像超分模型包括所述图像语义提取层、图像编码层、特征推理层和解码层,所述图像超分模型是根据第一样本子图像和第二样本子图像训练得到的,所述第一样本子图像和所述第二样本子图像为同一样本图像的子图像,所述第一样本子图像的图像语义特征和所述第二样本子图像的图像特征用于所述图像超分模型的训练;
将所述初始图像输入所述图像编码层,得到初始图像特征;
将所述图像语义特征和所述初始图像特征输入所述特征推理层,根据所述图像语义特征,对所述初始图像特征进行特征推理,得到目标图像特征;
将所述目标图像特征输入所述解码层,得到目标分辨率的目标图像,其中,所述目标分辨率高于所述初始分辨率。
2.根据权利要求1所述的方法,其中,所述图像超分模型还包括文本语义提取层和语义特征融合层;
所述将所述参考图像输入所述图像语义提取层,得到图像语义特征,包括:
获取所述参考图像对应的参考文本;
将所述参考图像输入所述图像语义编码层,得到初始图像语义特征,将所述参考文本输入所述文本语义提取层,得到文本语义特征;
将所述初始图像语义特征和所述文本语义特征输入所述语义特征融合层,对所述初始图像语义特征和所述文本语义特征进行特征融合,得到图像语义特征。
3.根据权利要求1或2所述的方法,所述图像超分模型通过下述步骤训练得到:
获取样本图像,对所述样本图像进行拆分,得到第一样本子图像和第二样本子图像;
降低所述第二样本子图像的图像分辨率,得到第三样本子图像;
将所述第一样本子图像和第三样本子图像输入图像超分模型,获得预测子图像;
基于所述预测子图像和所述第二样本子图像,计算得到损失值;
基于所述损失值,调整所述图像超分模型的参数,在达到预设训练结束条件的情况下,得到训练完成的图像超分模型。
4.根据权利要求3所述的方法,其中,所述图像超分模型包括图像语义提取层、图像编码层、特征推理层和解码层;
所述将所述第一样本子图像和第三样本子图像输入图像超分模型,获得预测子图像,包括:
将所述第一样本子图像输入所述图像语义提取层,得到样本图像语义特征,将所述第三样本子图像输入所述图像编码层,得到样本初始图像特征;
将所述样本图像语义特征和所述样本初始图像特征输入所述特征推理层,根据所述样本图像语义特征,对所述样本初始图像特征进行特征推理,得到预测图像特征;
将所述预测图像特征输入所述解码层,得到预测子图像。
5.根据权利要求4所述的方法,所述将所述样本图像语义特征和所述样本初始图像特征输入所述特征推理层,根据所述样本图像语义特征,对所述样本初始图像特征进行特征推理,得到预测图像特征,包括:
将所述样本图像语义特征和所述样本初始图像特征输入所述特征推理层,根据所述样本图像语义特征,对所述样本初始图像特征进行特征推理,得到参考预测图像特征;
将所述参考预测图像特征确定为样本初始图像特征,返回执行所述将所述样本图像语义特征和所述样本初始图像特征输入所述特征推理层的步骤,在达到预设推理结束条件的情况下,确定参考预测图像特征为预测图像特征。
6.根据权利要求5所述的方法,其中,所述预设推理结束条件为预设图像特征评分或者预设推理迭代次数。
7.根据权利要求4所述的方法,其中,所述图像超分模型还包括文本语义提取层和语义特征融合层;
所述将所述第一样本子图像输入所述图像语义提取层,得到样本图像语义特征,包括:
获取所述第一样本子图像对应的样本文本;
将所述第一样本子图像输入所述图像语义提取层,得到样本初始图像语义特征,将所述样本文本输入所述文本语义提取层,得到样本文本语义特征;
将所述样本初始图像语义特征和所述样本文本语义特征输入所述语义特征融合层,对所述样本初始图像语义特征和所述样本文本语义特征进行特征融合,得到样本图像语义特征。
8.根据权利要求4所述的方法,所述基于所述损失值,调整所述图像超分模型的参数,包括:
基于所述损失值,调整所述特征推理层的参数。
9.一种图像超分方法,应用于云侧设备,包括:
接收端侧设备发送的初始分辨率的初始图像;
获取所述初始图像对应的参考图像;
将所述参考图像输入图像超分模型的图像语义提取层,得到图像语义特征,其中,所述图像超分模型包括所述图像语义提取层、图像编码层、特征推理层和解码层,所述图像超分模型是根据第一样本子图像和第二样本子图像训练得到的,所述第一样本子图像和所述第二样本子图像为同一样本图像的子图像,所述第一样本子图像的图像语义特征和所述第二样本子图像的图像特征用于所述图像超分模型的训练;
将所述初始图像输入所述图像编码层,得到初始图像特征;
将所述图像语义特征和所述初始图像特征输入所述特征推理层,根据所述图像语义特征,对所述初始图像特征进行特征推理,得到目标图像特征;
将所述目标图像特征输入所述解码层,得到目标分辨率的目标图像,其中,所述目标分辨率高于所述初始分辨率;
将所述目标图像发送至所述端侧设备。
10.一种图像数据处理方法,应用于云侧设备,包括:
获取样本图像,对所述样本图像进行拆分,得到第一样本子图像和第二样本子图像;
降低所述第二样本子图像的图像分辨率,得到第三样本子图像;
将所述第一样本子图像和第三样本子图像输入图像超分模型,获得预测子图像;
基于所述预测子图像和所述第二样本子图像,计算得到损失值;
基于所述损失值,调整所述图像超分模型的参数,在达到预设训练结束条件的情况下,得到训练完成的图像超分模型;
将所述图像超分模型的模型参数发送至端侧设备。
11.一种增强现实AR设备或虚拟现实VR设备,包括:
存储器、处理器和显示器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现如下步骤:
获取参考图像和初始分辨率的初始图像;
将所述参考图像输入图像超分模型的图像语义提取层,得到图像语义特征,其中,所述图像超分模型包括所述图像语义提取层、图像编码层、特征推理层和解码层,所述图像超分模型是根据第一样本子图像和第二样本子图像训练得到的,所述第一样本子图像和所述第二样本子图像为同一样本图像的子图像,所述第一样本子图像的图像语义特征和所述第二样本子图像的图像特征用于所述图像超分模型的训练;
将所述初始图像输入所述图像编码层,得到初始图像特征;
将所述图像语义特征和所述初始图像特征输入所述特征推理层,根据所述图像语义特征,对所述初始图像特征进行特征推理,得到目标图像特征;
将所述目标图像特征输入所述解码层,得到目标分辨率的目标图像,其中,所述目标分辨率高于所述初始分辨率;
将所述目标图像通过所述增强现实AR设备或所述虚拟现实VR设备的显示器进行展示。
12.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至10任意一项所述方法的步骤。
13.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至10任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310591727.0A CN116883236B (zh) | 2023-05-22 | 2023-05-22 | 图像超分方法以及图像数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310591727.0A CN116883236B (zh) | 2023-05-22 | 2023-05-22 | 图像超分方法以及图像数据处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116883236A CN116883236A (zh) | 2023-10-13 |
CN116883236B true CN116883236B (zh) | 2024-04-02 |
Family
ID=88257468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310591727.0A Active CN116883236B (zh) | 2023-05-22 | 2023-05-22 | 图像超分方法以及图像数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116883236B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117745725B (zh) * | 2024-02-20 | 2024-05-14 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像处理方法、图像处理模型训练方法、三维医学图像处理方法、计算设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110084775A (zh) * | 2019-05-09 | 2019-08-02 | 深圳市商汤科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
WO2020062191A1 (zh) * | 2018-09-29 | 2020-04-02 | 华为技术有限公司 | 图像处理方法、装置及设备 |
CN112785499A (zh) * | 2020-12-31 | 2021-05-11 | 马培峰 | 超分辨率重建模型训练方法及计算机设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220292650A1 (en) * | 2021-03-15 | 2022-09-15 | Adobe Inc. | Generating modified digital images using deep visual guided patch match models for image inpainting |
-
2023
- 2023-05-22 CN CN202310591727.0A patent/CN116883236B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020062191A1 (zh) * | 2018-09-29 | 2020-04-02 | 华为技术有限公司 | 图像处理方法、装置及设备 |
CN112088393A (zh) * | 2018-09-29 | 2020-12-15 | 华为技术有限公司 | 图像处理方法、装置及设备 |
CN110084775A (zh) * | 2019-05-09 | 2019-08-02 | 深圳市商汤科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN112785499A (zh) * | 2020-12-31 | 2021-05-11 | 马培峰 | 超分辨率重建模型训练方法及计算机设备 |
Non-Patent Citations (1)
Title |
---|
Unsupervised face super-resolution via gradient enhancement and semantic guidance;Luying Li等;The Visual Computer;20210723(第37期);2855-2867 * |
Also Published As
Publication number | Publication date |
---|---|
CN116883236A (zh) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543714B (zh) | 数据特征的获取方法、装置、电子设备及存储介质 | |
CN109784181B (zh) | 图片水印识别方法、装置、设备及计算机可读存储介质 | |
CN116883236B (zh) | 图像超分方法以及图像数据处理方法 | |
US20230177643A1 (en) | Image super-resolution | |
CN114820871B (zh) | 字体生成方法、模型的训练方法、装置、设备和介质 | |
CN115761222B (zh) | 图像分割方法、遥感图像分割方法以及装置 | |
CN115601485B (zh) | 任务处理模型的数据处理方法及虚拟人物动画生成方法 | |
CN111562915A (zh) | 前端代码生成模型的生成方法和装置 | |
CN114972944B (zh) | 视觉问答模型的训练方法及装置、问答方法、介质、设备 | |
CN116385848A (zh) | 基于稳定扩散模型的ar显示装置像质提升与智能交互方法 | |
CN114913061A (zh) | 一种图像处理方法、装置、存储介质及电子设备 | |
CN116980541A (zh) | 视频编辑方法、装置、电子设备以及存储介质 | |
CN117093864A (zh) | 文本生成模型训练方法以及装置 | |
CN116737150A (zh) | 一种页面生成方法及装置 | |
CN116258647B (zh) | 图像去噪方法,天气图像修复方法及计算设备 | |
CN111553961B (zh) | 线稿对应色图的获取方法和装置、存储介质和电子装置 | |
CN116778011B (zh) | 图像生成方法 | |
CN117745725B (zh) | 图像处理方法、图像处理模型训练方法、三维医学图像处理方法、计算设备及存储介质 | |
CN118132988A (zh) | 机器学习模型训练方法、基于文本的图像搜索方法、自动问答方法、计算设备、计算机可读存储介质及计算机程序产品 | |
Quan et al. | GIGAN: Self‐supervised GAN for generating the invisible using cycle transformation and conditional normalization | |
CN116824308B (zh) | 图像分割模型训练方法与相关方法、装置、介质及设备 | |
CN117540789B (zh) | 模型训练方法、面部表情迁移方法、装置、设备及介质 | |
CN116109896A (zh) | 图像识别方法及图像识别的数据处理方法 | |
CN116932742A (zh) | 摘要提取方法以及装置 | |
CN116612495A (zh) | 图像处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |