CN117593611A - 模型训练方法、图像重建方法、装置、设备及存储介质 - Google Patents

模型训练方法、图像重建方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117593611A
CN117593611A CN202410081662.XA CN202410081662A CN117593611A CN 117593611 A CN117593611 A CN 117593611A CN 202410081662 A CN202410081662 A CN 202410081662A CN 117593611 A CN117593611 A CN 117593611A
Authority
CN
China
Prior art keywords
image
definition
feature vector
low
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410081662.XA
Other languages
English (en)
Other versions
CN117593611B (zh
Inventor
毕涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honor Device Co Ltd
Original Assignee
Honor Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honor Device Co Ltd filed Critical Honor Device Co Ltd
Priority to CN202410081662.XA priority Critical patent/CN117593611B/zh
Publication of CN117593611A publication Critical patent/CN117593611A/zh
Application granted granted Critical
Publication of CN117593611B publication Critical patent/CN117593611B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请用于提供一种模型训练方法、图像重建方法、装置、设备及存储介质,该模型训练方法包括:确定包括多个图像对的第一训练数据集,每个所述图像对包括第一低清图像和第一高清图像;利用特征提取器获取所述第一低清图像的低清特征向量以及所述第一高清图像的第一高清特征向量;将所述低清特征向量和所述第一高清特征向量输入特征生成网络进行处理,得到重建高清特征向量和预测噪声;将所述第一低清图像和所述重建高清特征向量输入图像重建器进行处理,得到第一重建图像;基于所述第一重建图像和所述第一高清图像之间的第一损失函数,以及所述预测噪声和所述前向模块添加的随机噪声之间的第二损失函数,更新所述特征生成网络中至少所述反向模块。

Description

模型训练方法、图像重建方法、装置、设备及存储介质
技术领域
本申请涉及图像处理技术领域,尤其涉及一种模型训练方法、图像重建方法、装置、设备及存储介质。
背景技术
在日常生活中,由于拍摄设备抖动、场景恶劣、年代久远、存储空间有限以及信息传输损失等原因,可能会造成图像画质模糊、清晰度低。尤其在长焦摄影领域,经常因为需要手持拍摄设备进行远距离高倍率拍摄,而导致成片质量不佳。对于质量不佳的低清图像,可以通过图像超分、图像降噪、图像去模糊或夜景增强等手段来进行图像重建,以提升图像清晰度。
目前,图像重建的方法主要包括传统方法和基于机器学习的方法。其中,传统方法主要通过信号处理领域中的信号重建理论来实现,例如傅里叶变换、多项式插值等。虽然传统方法实现简单,但重建得到的图像细节信息丢失严重、边缘模糊、锯齿状明显。基于机器学习的方法是输入低清图像,通过图像重建模型重建低清图像得到高分辨率的重建图像。基于机器学习的方法中最常用的图像重建模型是卷积神经网络(Convolutional NeuralNetworks,CNN)模型,在对低清图像进行处理时,CNN模型仅基于低清图像的特征信息对图像进行重建,图像重建质量仍然有待提高。
发明内容
本申请的一些实施方式提供了一种模型训练方法、图像重建方法、装置、设备及存储介质,以下从多个方面介绍本申请,以下多个方面的实施方式和有益效果可互相参考。
第一方面,本申请实施方式提供了一种模型训练方法,应用于电子设备,所述方法包括:
确定包括多个图像对的第一训练数据集,每个所述图像对包括第一低清图像和第一高清图像;
利用特征提取器获取所述第一低清图像的低清特征向量以及所述第一高清图像的第一高清特征向量;
将所述低清特征向量和所述第一高清特征向量输入特征生成网络进行处理,所述特征生成网络包括前向模块和反向模块,其中,所述前向模块对所述第一高清特征向量进行加噪处理以输出加噪后的第一高清特征向量,并且,所述反向模块以所述低清特征向量为条件,对所述加噪后的第一高清特征向量进行降噪处理,得到重建高清特征向量和预测噪声;
将所述第一低清图像和所述重建高清特征向量输入图像重建器进行处理,得到第一重建图像;
基于所述第一重建图像和所述第一高清图像之间的第一损失函数,以及所述预测噪声和所述前向模块添加的随机噪声之间的第二损失函数,更新所述特征生成网络中至少所述反向模块,以获得更新后的反向模块,其中,所述反向模块用于构建图像重建模型,并且,所述反向模块用于接收来自目标低清图像的目标低清特征向量和随机噪声,生成对应的目标高清特征向量以输出至所述图像重建器。
根据本申请实施方式,先通过在前一训练阶段(下文表示为Stage1)预先训练得到特征提取器和图像重建器,在后一训练阶段(下文表示为Stage2)训练特征生成网络时,固定Stage1阶段训练得到的特征提取器和图像重建器的网络参数,只更新特征生成网络中至少所述反向模块的网络参数,能够保证特征生成网络可以生成与Stage1阶段训练得到的特征提取器所提取的高清特征向量相同的特征向量,并且采用反向模块得到的预测噪声和实际添加噪声之间的损失函数,对模型收敛更加友好,能够大大提升模型的收敛速度,提升训练得到的整个图像重建模型的重建效果。
并且,通过借助特征提取网络Diffusion的生成能力,用低清图像特征作为条件来生成高清特征向量,能够解决在推理阶段无法获取到图像的高清图像特征的问题。本申请实施方式中的高清特征向量和低清特征向量优选为一维的特征向量,特征提取网络Diffuion既不是作用于图像域,也不是作用于二维潜空间(Latent)域,而仅仅是作用于一维的特征空间,因此特征提取网络可以选择轻量化的网络结构,而且降噪过程的迭代步数也可大幅减小,进而能够得到更加轻量化的图像重建模型,提高图像重建模型的训练速度和效率。
在一些实施方式中,所述图像重建器用于接收第一低清图像和来自所述反向模块的重建高清特征向量,并以所述重建高清特征向量为先验辅助信息,基于所述第一低清图像进行图像重建,得到第一重建图像。
在一些实施方式中,所述特征提取器用于基于所述第一低清图像生成所述低清特征向量以输出至所述反向模块,并且基于所述第一高清图像生成所述第一高清特征向量以输出至所述前向模块。
根据本申请实施方式,通过在Stage2阶段采用相同的特征提取器提取低清图像和高清图像的特征信息,能够保证提取的特征信息在同一个特征域,保证训练得到的反向模块能够得到图像中的高频特征信息,从而进一步提升训练得到的整个图像重建模型的重建效果。
在一些实施方式中,所述前向模块对所述第一高清特征向量进行加噪处理以输出加噪后的第一高清特征向量,包括:所述前向模块对所述第一高清特征向量添加预设数量步的随机噪声,得到加噪后的第一高清特征向量;
所述反向模块以所述低清特征向量为条件,对所述加噪后的第一高清特征向量进行降噪处理,得到重建高清特征向量和预测噪声,包括:所述反向模块以所述低清特征向量为条件,对所述加噪后的第一高清特征向量进行预设数量步的迭代降噪,得到重建高清特征向量和预测噪声。
本申请实施方式中,每次训练过程中加噪和降噪处理的步数可以在训练过程中进行控制,优选为每次迭代训练过程中加噪和降噪处理的步数是不固定的。通过不固定加噪和降噪处理的步数,能够提升训练得到的反向模块生成高清特征向量的准确性,进而提升训练得到的整个图像重建模型的重建效果。
在一些实施方式中,所述特征提取器和所述图像重建器利用以下方法训练得到:
确定包括多个图像对的第二训练数据集,每个所述图像对包括第二低清图像和第二高清图像;
利用特征提取器获取所述第二高清图像的第二高清特征向量;
将所述第二低清图像和所述第二高清特征向量输入图像重建器进行处理,其中,所述图像重建器以所述第二高清特征向量为先验辅助信息,基于所述第二低清图像进行图像重建,得到第二重建图像;
基于所述第二重建图像和所述第二高清图像之间的第三损失函数,更新所述特征提取器和所述图像重建器,以获得更新后的特征提取器和图像重建器。
根据本申请实施方式,通过在Stage1阶段使用高清图像输入特征提取器提取其中的高频特征信息,并将得到的高清特征向量引入图像重建器作为先验辅助信息,帮助图像重建器完成端到端的图像重建,以更加有效的恢复图像缺失的高频信息,能够提升训练得到的图像重建器的重建精度,进而提升整个图像重建模型的重建效果。
在一些实施方式中,所述特征提取器用于基于所述第二高清图像生成所述第二高清特征向量以输出至所述图像重建器。
在一些实施方式中,所述特征提取器用于构建图像重建模型,并且,所述特征提取器用于基于所述目标低清图像生成所述目标低清特征向量以输出至所述反向模块。
在一些实施方式中,所述图像重建器用于构建图像重建模型,并且,所述图像重建器用于接收目标低清图像和来自所述反向模块的目标高清特征向量,并以所述目标高清特征向量为先验辅助信息,基于所述目标低清图像进行图像重建,得到目标重建图像。
根据本申请实施方式,通过根据训练得到的特征提取器、反向模块和图像重建器构建图像重建模型,能够借助特征提取网络Diffusion的生成能力,用低清图像特征作为条件来生成高清特征向量,并将其作为先验辅助信息,帮助图像重建器完成端到端的图像重建,以更加有效的恢复图像缺失的高频信息,提升了整个图像重建模型的重建效果。
在一些实施方式中,所述特征提取器为包括自注意力层的神经网络;所述图像重建器为包括交叉注意力层的神经网络,所述交叉注意力层用于通过交叉注意力的方式,对基于所述第二低清图像得到的潜空间特征向量和输入的所述第二高清特征向量进行融合。
根据本申请实施方式,通过在特征提取器中加入自注意力层,能够保证特征提取器提取到的特征向量涵盖全局的重要信息,从而提升图像重建器的重建精度,提高重建得到的图像的清晰度。并且,通过采用交叉注意力的连接方式,将特征提取器提取到的高清特性向量连接到图像重建器的主干中,建立高频特征和潜空间特征之间的有效关联,能够进一步提升图像重建器的重建精度,提升重建得到的图像的清晰度。
第二方面,本申请实施方式提供了一种图像重建方法,应用于电子设备,所述方法包括:
获取待重建的目标低清图像;
利用特征提取器获取所述目标低清图像的目标低清特征向量;
利用如上述的模型训练方法训练得到的反向模块,以所述目标低清特征向量为条件,基于随机噪声进行降噪处理,生成目标高清特征向量;
利用图像重建器,基于所述目标高清特征向量和所述目标低清图像进行图像重建,得到目标重建图像。
在一些实施方式中,所述特征提取器和所述图像重建器是利用如上述的方法训练得到的。
第二方面能达到的有益效果可参考本申请第一方面任一实施方式的有益效果,此处不再赘述。
第三方面,本申请实施方式提供了一种模型训练装置,所述装置包括:
第一确定模块,用于确定包括多个图像对的第一训练数据集,每个所述图像对包括第一低清图像和第一高清图像;
第一获取模块,用于利用特征提取器获取所述第一低清图像的低清特征向量以及所述第一高清图像的第一高清特征向量;
第一输入模块,用于将所述低清特征向量和所述第一高清特征向量输入特征生成网络进行处理,所述特征生成网络包括前向模块和反向模块,其中,所述前向模块对所述第一高清特征向量进行加噪处理以输出加噪后的第一高清特征向量,并且,所述反向模块以所述低清特征向量为条件,对所述加噪后的第一高清特征向量进行降噪处理,得到重建高清特征向量和预测噪声;
第二输入模块,用于将所述第一低清图像和所述重建高清特征向量输入图像重建器进行处理,得到第一重建图像;
第一训练模块,用于基于所述第一重建图像和所述第一高清图像之间的第一损失函数,以及所述预测噪声和所述前向模块添加的随机噪声之间的第二损失函数,更新所述特征生成网络中至少所述反向模块,以获得更新后的反向模块,其中,所述反向模块用于构建图像重建模型,并且,所述反向模块用于接收来自目标低清图像的目标低清特征向量和随机噪声,生成对应的目标高清特征向量以输出至所述图像重建器。
第三方面能达到的有益效果可参考本申请第一方面任一实施方式的有益效果,此处不再赘述。
第四方面,本申请实施方式提供了一种图像重建装置,所述装置包括:
第二获取模块,用于获取待重建的目标低清图像;
第三获取模块,用于利用特征提取器获取所述目标低清图像的目标低清特征向量;
特征生成模块,用于利用如上述的模型训练方法训练得到的反向模块,以所述目标低清特征向量为条件,基于随机噪声进行降噪处理,生成目标高清特征向量;
图像重建模块,用于利用图像重建器,基于所述目标高清特征向量和所述目标低清图像进行图像重建,得到目标重建图像。
第四方面能达到的有益效果可参考本申请第一方面任一实施方式的有益效果,此处不再赘述。
第五方面,本申请实施方式提供了一种电子设备,包括:存储器,用于存储由电子设备的一个或多个处理器执行的指令;处理器,当处理器执行存储器中的指令时,可使得电子设备执行本申请第一方面或第二方面任一实施方式提供的方法。第五方面能达到的有益效果可参考本申请第一方面任一实施方式的有益效果,此处不再赘述。
第六方面,本申请实施方式提供了一种计算机可读存储介质,计算机可读存储介质上存储有指令,该指令在计算机上执行时使得计算机执行本申请第一方面或第二方面任一实施方式提供的方法。第六方面能达到的有益效果可参考本申请第一方面任一实施方式的有益效果,此处不再赘述。
附图说明
图1a为本申请一个实施例提供的图像去模糊的场景示意图;
图1b为本申请一个实施例提供的通过图像重建模型进行图像去模糊的场景示意图;
图2a为一些实施例提供的模型训练过程的训练阶段Stage1的示意图;
图2b为一些实施例提供的模型训练过程的训练阶段Stage2的示意图;
图2c为一些实施例提供的图像重建模型的结构示意图;
图3a为本申请一个实施例提供的电子设备的结构示意图;
图3b为本申请一个实施例提供的电子设备的软件结构框图;
图4为本申请一个实施例提供的模型训练方法的流程图;
图5a为本申请一个实施例提供的特征提取器的结构示意图;
图5b为本申请一个实施例提供的训练阶段Stage1的模型训练过程的示意图;
图5c为本申请一个实施例提供的图像重建器的结构示意图;
图6为本申请一个实施例提供的训练阶段Stage2的模型训练过程的示意图;
图7为本申请一个实施例提供的图像重建模型的结构示意图;
图8为本申请另一个实施例提供的模型训练方法的流程图;
图9a为本申请一个实施例提供的图像重建方法的流程图;
图9b为本申请一个实施例提供的长焦模糊图像经过图像重建后的重建结果示意图;
图9c为本申请一个实施例提供的抖动模糊图像经过图像重建后的重建结果示意图;
图10为本申请一个实施例提供的模型训练装置的结构示意图;
图11为本申请一个实施例提供的图像重建装置的结构示意图;
图12为本申请一个实施例提供的片上系统(System on Chip,SOC)的结构示意图。
实施方式
本申请的说明性实施例包括但不限于一种模型训练方法、图像重建方法、装置、设备及存储介质。下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
本申请实施例提供的方法可以应用于手机、平板电脑和服务器等电子设备进行图像复原类任务的场景中。例如,可以应用于对由于进行长焦拍摄、拍摄设备和被摄对象之间有相对运动(例如拍摄设备抖动、被摄对象运动)或者设备虚焦等原因而得到的画质模糊、清晰度低的拍摄图像进行图像去模糊的场景中;或者可以应用于对由于年代久远、存储空间有限、信息传输损失等原因造成的画质模糊、清晰度低的图像进行图像超分的场景中;或者还可以应用于对由于场景恶劣等原因而得到的噪点较多或者画质模糊、清晰度低的拍摄图像进行图像降噪或者夜景增强等的场景中。
图1a示出了本申请一个实施例提供的图像去模糊的场景示意图。如图1a所示,当用户手持手机进行远距离高倍率拍摄时,通过手机中的长焦镜头和传感器进行图像采集可以得到拍摄图像并传输至手机中的图像信号处理器(Image Signal Processor,ISP)。ISP可以对接收到的拍摄图像进行加工处理,包括但不限于旋转、缩放、锐化和色彩空间转换等,最终得到并输出YUV格式的拍摄图像。但是在长焦拍摄时,由于长焦镜头本身的光学质素限制,导致容易出现对焦失准或者防抖功能无法满足远距离的拍摄需求,而使得拍摄图像质量不佳的问题。
为了提升图像清晰度,可以通过预先训练一个图像重建模型,将拍摄得到的画质模糊、清晰度低的低清图像输入该图像重建模型,以恢复低清图像缺失的高频信息,重建得到对应的高清图像。示例性地,如图1b所示,手机中的传感器可以将采集到的质量不佳的低清图像传输至手机中的ISP。ISP可以对接收到的低清图像进行前处理,以将该低清图像由RAW格式转换为RGB格式,得到RGB格式的低清图像,并传输至手机中的神经网络处理器(Neural-Network Processing Unit,NPU)。NPU可以利用预先训练的图像重建模型,对来自ISP的RGB格式的低清图像进行去模糊处理,以得到RGB格式的高清图像,并传输至ISP。ISP可以对来自NPU的高清图像进行后处理,以将该高清图像由RGB格式转换为YUV格式并出图。
需要说明的是,图1a和图1b所示的图像去模糊的场景只是一种示例,本申请实施例对此并不做限定。本申请实施例对去模糊处理的时机也不做具体限定,在一些实施例中,也可以在ISP对获取到的图像进行加工处理完成得到YUV格式的低清图像后,再将其传输至NPU,由NPU利用预先训练的图像重建模型,对来自ISP的YUV格式的低清图像进行去模糊处理,以得到YUV格式的高清图像并出图。
在一些实施例中,参考说明书附图2a至图2c,为了提高训练得到的图像重建模型的重建效果,手机可以先进行图像数据预处理,以构建包括多个图像对的训练数据集,每个图像对包括低清图像和高清图像。再利用构建的训练数据集,通过两个训练阶段(前一训练阶段下文表示为Stage1,后一训练阶段下文表示为Stage2)来训练得到图像重建模型。其中,每个图像对中的低清图像和高清图像是内容相同但具有不同清晰度的图像。
具体地,在进行图像数据预处理时,手机可以先获取多个高清图像,对各个高清图像进行数据退化处理,得到对应的低清图像,将各个高清图像和与之对应的低清图像进行配对即可得到多个图像对。例如,退化后的低清图像相比于高清图像像素更加平滑或者具有更多的噪点,清晰度更低。其中,对高清图像进行数据退化处理采用的数据退化方式因应用场景的不同而不同,可根据实际应用场景选择合适的退化方式,本申请实施例对此不做具体限制。例如,在图像去模糊的场景中,手机可以对高清图像进行模糊化处理,以减少高清图像中的高频信息,得到对应的低清图像。例如,模糊化后的低清图像相比于高清图像像素更加平滑,清晰度更低。在图像降噪的场景中,手机可以对高清图像进行加噪处理,以增加高清图像中的噪点信息,得到对应的低清图像。例如,加噪后的低清图像相比于高清图像具有更多的噪点。
如图2a所示,在训练阶段Stage1中,手机可以先构建一个特征提取器(Extractor)和一个图像重建器(Restormer)。特征提取器的输入数据为低清图像和高清图像,输出数据为一个包括低清图像和高清图像中的特征信息的特征向量。图像重建器为一个端到端的CNN模型,图像重建器的输入数据为低清图像,输出数据为重建图像。特征提取器所提取的特征向量可以通过自适应实例归一化(Adaptive Instance Normalization,AdaIN)的方式穿插到图像重建器的多个不同层中,以将来自特征提取器的特征向量Z1与图像重建器中的潜空间特征F1进行融合,得到融合后的特征输入下一层。
在训练阶段Stage1中,手机可以将训练数据集中各个图像对中的高清图像和低清图像分别输入特征提取器中,利用特征提取器获取包括低清图像和高清图像中的特征信息的特征向量。再将训练数据集中各个图像对中的低清图像和特征提取器得到的特征向量输入图像重建器中进行处理,利用图像重建器基于低清图像,并结合来自特征提取器的特征向量进行图像重建,得到重建图像。最后手机可以基于得到的重建图像和对应的高清图像计算损失函数的值,并基于计算得到的损失函数的值更新特征提取器和图像重建器的模型参数,得到更新后的特征提取器和图像重建器。经过多次迭代训练,即可以得到训练好的特征提取器和图像重建器。其中,损失函数可以根据实际需要进行选择,例如可以为像素损失函数(Pixel Loss)或者感知损失函数(Perceptual Loss)等等,本申请实施例对此不做具体限制。
如图2b所示,在训练阶段Stage2中,手机可以先复制一个训练好的特征提取器,将该特征提取器进行降维处理,使得其输入由6通道降为3通道,得到一个新的特征提取器,记为特征提取器2。特征提取器2的输入数据为低清图像,输出数据为一个包括低清图像中的特征信息的特征向量。Stage1中训练好的特征提取器则记为特征提取器1。特征提取器1的输入数据为低清图像和高清图像,输出数据为一个包括低清图像和高清图像中的特征信息的特征向量。
在训练阶段Stage2中,手机还可以先构建一个特征生成网络(Diffusion),特征生成网络可以包括前向模块(Forward Process)和反向模块(Reverse Process)。其中,前向模块的输入数据为来自特征提取器1的特征向量,前向模块用于对来自特征提取器1的特征向量进行固定步数的加噪处理。反向模块的输入数据为来自前向模块的加噪后的特征向量和来自特征提取器2的特征向量,反向模块用于以来自特征提取器2的特征向量为条件,对来自前向模块的加噪后的特征向量进行固定步数的降噪处理。其中,前向模块在加噪处理过程中添加的噪声可以为随机噪声,该随机噪声的类型可以根据实际需要进行选择,例如可以为随机高斯噪声等等,本申请实施例对此不做具体限制。
在训练阶段Stage2中,手机可以将训练数据集中各个图像对中的高清图像和低清图像输入特征提取器1中,利用特征提取器1获取包括低清图像和高清图像中的特征信息的特征向量。手机可以将特征提取器1得到的特征向量输入前向模块进行固定步数的加噪处理,得到加噪后的特征向量并输出至反向模块。再将训练数据集中各个图像对中的低清图像输入特征提取器2中,利用特征提取器2获取包括低清图像中的特征信息的特征向量并输出至反向模块。反向模块可以以来自特征提取器2的特征向量为条件,对来自前向模块的加噪后的特征向量进行固定步数的降噪处理,得到降噪后的特征向量。然后手机可以将反向模块得到的降噪后的特征向量及其对应的低清图像输入图像重建器中进行处理,利用图像重建器基于低清图像,并结合来自反向模块的降噪后的特征向量进行图像重建,得到重建图像。
最后,手机可以基于得到的重建图像及其对应的高清图像计算损失函数1的值,基于反向模块得到的降噪后的特征向量与特征提取器1得到的特征向量计算损失函数2的值,并基于计算得到的两个损失函数的值更新特征提取器2、特征生成网络和图像重建器的模型参数,得到更新后的特征提取器2、特征生成网络和图像重建器。经过多次迭代训练,可以得到训练好的特征提取器2、特征生成网络和图像重建器。其中,损失函数1和损失函数2可以根据实际需要进行选择,例如损失函数1可以为像素损失函数(Pixel Loss)或者感知损失函数(Perceptual Loss)等等,损失函数2可以为L1损失函数等等,本申请实施例对此不做具体限制。
需要说明的是,在该实施例中,训练阶段Stage1和Stage2中使用的训练数据集可以相同,也可以不相同。通过两个训练阶段Stage1和Stage2的训练,即可得到最终的特征提取器2、特征生成网络和图像重建器。
如图2c所示,利用训练好的特征提取器2、特征生成网络中的反向模块以及图像重建器即可形成最终的图像重建模型。手机在利用训练得到的图像重建模型对目标低清图像进行处理得到目标高清图像的过程中,可以将目标低清图像输入至特征提取器2得到对应的目标低清特征向量,并输出至特征生成网络的反向模块。反向模块可以以来自特征提取器2的目标低清特征向量为条件,从随机噪声开始进行固定步数的降噪处理,得到降噪后的特征向量并输出至图像重建器。图像重建器可以基于目标低清图像,结合来自反向模块的降噪后的特征向量进行图像重建,得到目标重建图像。
其中,反向模块使用的随机噪声与训练阶段Stage2中前向模块在加噪处理过程中添加的随机噪声可以为相同类型的随机噪声,该随机噪声的类型也可以根据实际需要进行选择,仅需使得两个阶段使用的随机噪声类型相同即可,例如可以均为随机高斯噪声等等,本申请实施例对此不做具体限制。
但是,在训练阶段Stage2中的特征提取器1和特征提取器2是两个不同的网络模型,二者提取的特征不在同一个特征域,导致特征生成网络得到的特征的物理意义不明确,从而使得训练得到的图像重建模型的精度不高。并且,在训练阶段Stage2中更新了特征提取器2、特征生成网络以及图像重建器三者的模型参数,这使得训练阶段Stage1和Stage2相对割裂。再加上特征生成网络只做固定步数的迭代,且特征生成网络的损失是在固定步数的迭代后生成的一维特征向量之间的损失,对模型收敛很不友好,极大地影响了模型的收敛速度,以及训练得到的图像重建模型的重建效果。
为了解决上述问题,本申请实施例提供了一种模型训练方法、图像重建方法。利用该模型训练方法所获得的模型,用于图像重建中,可以应用于图像去模糊、图像超分、图像降噪或者夜景增强等图像复原类任务的场景中。经由本申请提供的模型训练方法,可以获得更加轻量化的图像重建模型,并加快训练过程中模型的收敛速度,提高最终训练得到的图像重建模型的精度。
根据本申请的一种实施方式,先通过在Stage1阶段预先训练得到特征提取器和图像重建器。在接下来的Stage2阶段训练特征生成网络时,固定Stage1阶段训练得到的特征提取器和图像重建器的网络参数,只更新特征生成网络中至少反向模块的网络参数,能够保证特征生成网络可以生成与Stage1阶段训练得到的特征提取器所提取的高清特征向量相同的特征向量,并且采用反向模块得到的预测噪声和实际添加噪声之间的损失函数,对模型收敛更加友好,能够大大提升模型的收敛速度,提升训练得到的整个图像重建模型的重建效果。
并且,通过借助特征提取网络Diffusion的生成能力,用低清图像特征作为条件来生成高清特征向量,能够解决在推理阶段无法获取到图像的高清图像特征的问题。本申请实施方式中的特征提取网络作用于一维的特征空间,因此特征提取网络可以选择轻量化的网络结构,而且降噪过程的迭代步数也可大幅减小,进而能够得到更加轻量化的图像重建模型,提高图像重建模型的训练速度和效率。
根据本申请的另一种实施方式,通过在Stage2阶段采用相同的特征提取器提取低清图像和高清图像的特征信息,能够保证提取的特征信息在同一个特征域,保证训练得到的反向模块能够得到图像中的高频特征信息,从而进一步提升训练得到的整个图像重建模型的重建效果。
根据本申请的另一种实施方式,通过在Stage1阶段使用高清图像输入特征提取器提取其中的高频特征信息,并将得到的高清特征向量引入图像重建器作为先验辅助信息,帮助图像重建器完成端到端的图像重建,以更加有效的恢复图像缺失的高频信息,能够提升训练得到的图像重建器的重建精度,进而提升整个图像重建模型的重建效果。
根据本申请另一种实施方式,通过在特征提取器中加入自注意力层,能够保证特征提取器提取到的特征向量涵盖全局的重要信息,从而提升图像重建器的重建精度,提高重建得到的图像的清晰度。并且,通过采用交叉注意力的连接方式,将特征提取器提取到的高清特性向量连接到图像重建器的主干中,建立高频特征和潜空间特征之间的有效关联,能够进一步提升图像重建器的重建精度,提升重建得到的图像的清晰度。
需要说明的是,在上文的实施例中,电子设备可以为具有图像处理功能的任何电子设备,本申请实施例对电子设备的形式不作限定,电子设备可以为手机、平板、笔记本电脑、可穿戴设备(如可穿戴手表/手环)、超级移动个人计算机(Ultra-Mobile PersonalComputer,UMPC)、上网本、个人数字助理(Personal Digital Assistant,PDA)、智慧屏、服务器等具有图像处理功能的电子设备,本申请实施例对电子设备的设备类型不做具体限定。
下面结合电子设备的具体结构对本申请实施例的方法进行描述。图3a所示的设备300示例性地是作为运行图像重建方法的设备。
图3a示出了本申请一个实施例提供的电子设备300的结构示意图。电子设备300可以包括处理器310,外部存储器接口320,内部存储器321,通用串行总线(Universal SerialBus,USB)接口330,充电管理模块340,电源管理模块341,电池342,天线1,天线2,移动通信模块350,无线通信模块360,音频模块370,扬声器370A,受话器370B,麦克风370C,耳机接口370D,传感器模块380,按键390,马达391,指示器392,摄像头393,显示屏394,以及用户标识模块(Subscriber Identification Module,SIM)卡接口395等。其中传感器模块380可以包括压力传感器380A,陀螺仪传感器380B,气压传感器380C,磁传感器380D,加速度传感器380E,距离传感器380F,接近光传感器380G,指纹传感器380H,温度传感器380J,触摸传感器380K,环境光传感器380L,骨传导传感器380M等。
处理器310可以包括一个或多个处理单元,例如:处理器310可以包括应用处理器(Application Processor,AP),调制解调处理器,图形处理器(Graphics ProcessingUnit,GPU),图像信号处理器ISP,控制器,视频编解码器,数字信号处理器(Digital SignalProcessor,DSP),基带处理器,和/或神经网络处理器NPU等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。例如,处理器310可以用于执行本申请实施例中的图像重建方法。
处理器310可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器310中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器310中的存储器为高速缓冲存储器。该存储器可以保存处理器310刚用过或循环使用的指令或数据。如果处理器310需要再次使用该指令或数据,可从存储器中直接调用。避免了重复存取,减少了处理器310的等待时间,因而提高了系统的效率。
在一些实施例中,处理器310可以包括一个或多个接口。接口可以包括集成电路(Inter-Integrated Circuit,I2C)接口,集成电路内置音频(Inter-Integrated CircuitSound,I2S)接口,脉冲编码调制(Pulse Code Modulation,PCM)接口,通用异步收发传输器(Universal Asynchronous Receiver/Transmitter,UART)接口,移动产业处理器接口(Mobile Industry Processor Interface,MIPI),通用输入输出(General-PurposeInput/Output,GPIO)接口,用户标识模块(Subscriber Identity Module,SIM)接口。
I2C接口是一种双向同步串行总线,包括一根串行数据线(Serial Data Line,SDA)和一根串行时钟线(Derail Clock Line,SCL)。在一些实施例中,处理器310可以包含多组I2C总线。处理器310可以通过不同的I2C总线接口分别耦合触摸传感器380K,充电器,闪光灯,摄像头393等。例如:处理器310可以通过I2C接口耦合触摸传感器380K,使处理器310与触摸传感器380K通过I2C总线接口通信,实现电子设备300的触摸功能。
MIPI接口可以被用于连接处理器310与显示屏394,摄像头393等外围器件。MIPI接口包括摄像头串行接口(Camera Serial Interface,CSI),显示屏串行接口(DisplaySerial Interface,DSI)等。在一些实施例中,处理器310和摄像头393通过CSI接口通信,实现电子设备300的拍摄功能。处理器310和显示屏394通过DSI接口通信,实现电子设备300的显示功能。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备300的结构限定。在本申请另一些实施例中,电子设备300也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
电子设备300通过GPU,显示屏394,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏394和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器310可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏394用于显示图像,视频等。显示屏394包括显示面板。显示面板可以采用液晶显示屏(Liquid Crystal Display,LCD),有机发光二极管(Organic Light-EmittingDiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(Active-MatrixOrganic Light Emitting Diode,AMOLED),柔性发光二极管(Flex Light-EmittingDiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(Quantum Dot LightEmitting Diodes,QLED)等。在一些实施例中,电子设备300可以包括1个或N个显示屏394,N为大于1的正整数。
电子设备300可以通过ISP,摄像头393,视频编解码器,GPU,显示屏394以及应用处理器等实现拍摄功能。
ISP用于处理摄像头393反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头393中。
摄像头393用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(Charge Coupled Device,CCD)或互补金属氧化物半导体(Complementary Metal-Oxide-Semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备300可以包括1个或N个摄像头393,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备300在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
NPU为神经网络(Neural-Network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备300的智能认知等应用,例如:图像识别,图像处理,人脸识别,语音识别,文本理解等。例如,NPU可以用于执行本申请实施例中的图像重建方法。
在一些实施例中,NPU可以在推理阶段,借助特征提取网络Diffusion的生成能力,用特征提取器提取的低清图像特征作为条件来生成高清特征向量,并将其作为先验辅助信息,帮助图像重建器完成端到端的图像重建,以更加有效的恢复图像缺失的高频信息,提升了整个图像重建模型的重建效果。
在一些实施例中,特征提取器和图像重建器可以通过Stage1阶段训练得到,特征生成网络可以通过Stage2阶段训练得到。在Stage1阶段,可以使用高清图像输入特征提取器提取其中的高频特征信息,并将其得到的高清特征向量引入图像重建器作为先验辅助信息,帮助图像重建器完成端到端的图像重建,以更加有效的恢复图像缺失的高频信息,能够提升训练得到的图像重建器的重建精度,进而提升整个图像重建模型的重建效果。在Stage2阶段训练特征生成网络时,可以固定Stage1阶段训练得到的特征提取器和图像重建器的网络参数,只更新特征生成网络中至少反向模块的网络参数,并且采用反向模块得到的预测噪声和实际添加噪声之间的损失函数,对模型收敛更加友好,能够大大提升模型的收敛速度,提升训练得到的整个图像重建模型的重建效果。
内部存储器321可以用于存储计算机可执行程序代码,可执行程序代码包括指令。内部存储器321可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备300使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器321可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(Universal Flash Storage,UFS)等。处理器310通过运行存储在内部存储器321的指令,和/或存储在设置于处理器中的存储器的指令,执行电子设备300的各种功能应用以及数据处理。
在一些实施例中,内部存储器321中可以存储有图像重建方法的指令,处理器310或其中的NPU可以通过运行图像重建方法指令,使得处理器310或其中的NPU可以借助特征提取网络Diffusion的生成能力,用特征提取器提取的低清图像特征作为条件来生成高清特征向量,并将其作为先验辅助信息,帮助图像重建器完成端到端的图像重建,以更加有效的恢复图像缺失的高频信息,提升了整个图像重建模型的重建效果。
陀螺仪传感器380B可以用于确定电子设备300的运动姿态。在一些实施例中,可以通过陀螺仪传感器380B确定电子设备300围绕三个轴(即x,y和z轴)的角速度。陀螺仪传感器380B可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器380B检测电子设备300抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消电子设备300的抖动,实现防抖。
距离传感器380F,用于测量距离。电子设备300可以通过红外或激光测量距离。在一些实施例中,拍摄场景,电子设备300可以利用距离传感器380F测距以实现快速对焦。
环境光传感器380L用于感知环境光亮度。电子设备300可以根据感知的环境光亮度自适应调节显示屏394亮度。环境光传感器380L也可用于拍照时自动调节白平衡。环境光传感器380L还可以与接近光传感器380G配合,检测电子设备300是否在口袋里,以防误触。
指纹传感器380H用于采集指纹。电子设备300可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
触摸传感器380K,也称“触控器件”。触摸传感器380K可以设置于显示屏394,由触摸传感器380K与显示屏394组成触摸屏,也称“触控屏”。触摸传感器380K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏394提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器380K也可以设置于电子设备300的表面,与显示屏394所处的位置不同。
电子设备300的软件系统可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本申请实施例以分层架构的Android系统为例,示例性说明电子设备300的软件结构。其中,本申请对电子设备的操作系统的类型不做限定。例如,Android系统、Linux系统、Windows系统、iOS系统、鸿蒙操作系统(Harmony Operating System,鸿蒙OS)等。
图3b是本申请实施例的电子设备300的软件结构框图。如图3b所示,分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android系统分为四层,从上至下分别为应用程序层(Application,APP),应用程序框架层(APP Framework),安卓运行时(Android Runtime)和系统库(Libraries),以及内核层(Kernel)。
应用程序层可以包括一系列应用程序包。
如图3b所示,应用程序包可以包括图库,相机,地图,导航,音乐,视频,游戏,聊天,购物,出行等应用程序。应用程序层还可以包括图3b所示应用之外的其他应用程序,例如,运动,日历,通话,WLAN,蓝牙,短信息等。
应用程序框架层为应用程序层的应用程序提供应用编程接口(ApplicationProgramming Interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。
如图3b所示,应用程序框架层可以包括窗口管理器,内容提供器,视图系统,电话管理器,资源管理器,通知管理器等。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
电话管理器用于提供电子设备300的通信功能。例如通话状态的管理(包括接通,挂断等)。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,电子设备振动,指示灯闪烁等。
Android Runtime包括系统库和虚拟机。Android Runtime负责安卓系统的调度和管理。
系统库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
系统库可以包括多个功能模块。例如:表面管理器(Surface Manager),媒体库(Media Libraries),三维图形处理库(例如:OpenGL ES),2D图形引擎(例如:SGL)等。
表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D和3D图层的融合。
媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。
三维图形处理库用于实现三维图形绘图,图像渲染,合成和图层处理等。
2D图形引擎是2D绘图的绘图引擎。
内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动。
可以理解的是,本申请实施例示意的结构并不构成对电子设备300的具体限定。在本申请另一些实施例中,电子设备300可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
以下介绍本申请一个实施例提供的模型训练方法的具体流程。
本申请实施例提供的模型训练方法可以应用于服务器中。该服务器可以是独立的服务器或者是多个服务器组成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)以及大数据和人工智能平台等基础云计算服务的云服务器。
参考说明书附图4,图4示出了本申请一个实施例提供的模型训练方法的流程图。该方法示例性地可以利用作为服务器的电子设备通过数据预处理阶段确定模型的训练数据,通过两个训练阶段Stage1和Stage2来训练得到图像重建模型。具体地,如图4所示,该方法可以包括步骤S401-S408。
S401:服务器确定包括多个图像对的模型训练数据集(作为第一训练数据集和第二训练数据集的实例),每个图像对包括模型训练低清图像(作为第一低清图像和第二低清图像的实例)和模型训练高清图像(作为第一高清图像和第二高清图像的实例)。
本申请实施例中,在数据预预处理阶段中,服务器可以准备包括多个图像对的配对数据集,作为模型训练数据集,以在训练阶段Stage1中训练特征提取器和图像重建器。其中,每个图像对可以包括模型训练低清图像和模型训练高清图像。每个图像对中的模型训练低清图像和模型训练高清图像可以是内容相同但具有不同清晰度的图像。
具体地,服务器可以先获取多个模型训练高清图像,对各个模型训练高清图像进行数据退化处理,得到对应的模型训练低清图像。将各个模型训练高清图像和与之对应的模型训练低清图像进行配对,即可得到多个图像对。
其中,对模型训练高清图像进行数据退化处理采用的数据退化方式因应用场景的不同而不同,可根据实际应用场景选择合适的退化方式,本申请实施例对此不做具体限制。例如,在图像去模糊的场景中,可以对模型训练高清图像进行模糊化处理,以减少模型训练高清图像中的高频信息,得到对应的模型训练低清图像。在图像降噪的场景中,可以对模型训练高清图像进行加噪处理,以增加模型训练高清图像中的噪点信息,得到对应的模型训练低清图像。
S402:服务器利用特征提取器获取模型训练高清图像的模型训练高清特征向量(作为第二高清特征向量的实例)。
本申请实施例中,在训练阶段Stage1中,服务器可以预先构建特征提取器,特征提取器类似于嵌入表达(Embedding)或者编码器(Encoder),用于将二维高清图像编码成一维的高清特征向量。具体地,为了提取出高清图像中的重要特征信息并将其压缩在一维特征向量中,可以在特征提取器中加入自注意力层。也就是说,特征提取器可以为包括一层或者多层自注意力层(Self Attention Block)的神经网络。
可以理解,在特征提取器中引入自注意力层,使得特征提取器可以从全局视野去审视图像,并提取重要的高清特征信息保存在一维的特征向量中。
示例性地,特征提取器可以为加入自注意力层的AlexNet网络结构。在AlexNet网络结构中,3*227*227的输入图像经过第一个卷积层可以生成96*55*55的特征图,然后经过第一个最大池化层生成96*27*27的特征图,再依次经过多个不同卷积层和池化层的交叉处理,得到256*6*6的特征图,然后再经过三个全连接层,最终输出1*1000的一维特征向量。其中,卷积层、最大池化层和全连接层的参数均可以根据实际需要进行配置,例如第一个卷积层的内核大小(Kernel Size)可以配置为11*11,步长(Stride)可以配置为4,内核数(Kernels)可以配置为96核,第一个最大池化层的内核大小(Kernel Size)可以配置为3*3,步长(Stride)可以配置为2,本申请实施例对此不做具体限制。
本申请实施例中,自注意力层可以加在AlexNet网络结构中的任意一个卷积层或者池化层之后,也可以同时加在多个卷积层或者池化层之后,只需要注意不可加在全连接层之后即可,因为全连接层的输出是一维特征,而自注意力层的输入通常是二维特征图,二者相互冲突。在实际应用中,可以将自注意力层理解为特殊的卷积层,但是相比于卷积层更利于关注并提取全局特征,而普通的卷积层的视野受限,一般只关注局部特征。示例性地,参考说明书附图5a,可以在第一个卷积层和第三个卷积层之后加入自注意力层510,得到包括两层自注意力层的特征提取器。需要说明的是,上述将自注意力层加在第一个卷积层和第三个卷积层之后的实施方式只是一种示例,在实际应用中,本领域技术人员可以根据实际需要确定自注意力层的位置和数量,本申请实施例对此不做具体限制。
需要说明的是,图5a所示的特征提取器只是一种示例,本申请实施例对特征提取器的结构不做具体限定,本领域技术人员可以根据实际需要进行设计,只需保证输入输出维度正确即可,例如保证特征提取器的输入为二维的图像,输出为一维的特征向量即可。在一些实施例中,特征提取器提取的特征向量也可以不限定为一维的,本领域技术人员可以根据实际需要进行确定,例如还可以为二维的。
本申请实施例中,参考说明书附图5b,服务器可以将模型训练数据集中各个图像对中的模型训练高清图像输入预先构建的特征提取器,特征提取器可以基于模型训练高清图像生成包括模型训练高清图像中的特征信息的模型训练高清特征向量,并输出至图像重建器的交叉注意力层,从而辅助图像重建器完成低清图像的重建工作。其中,交叉注意力层的结构将在后面进行具体说明。
在实际应用中,由于一维的特性向量的数据量更少,后续特征生成网络需要对特征提取器提取的特征向量进行加噪和降噪处理,将其设置为一维的能够降低特征生成网络处理数据的压力,加快模型的训练速度和效率,特征生成网络也可以选择轻量化的模型结构,而且加噪和降噪处理的迭代步数的设置也可以大幅度减少,有利于得到更加轻量化的图像重建模型,因此本申请实施例中特征提取器提取的特征向量优选为一维的特征向量。
S403:服务器将模型训练低清图像和模型训练高清特征向量输入图像重建器进行处理,得到第一阶段重建图像(作为第二重建图像的实例)。
本申请实施例中,在训练阶段Stage1中,服务器还可以预先构建图像重建器,图像重建器用于在一维的高清特征向量的辅助下,对二维低清图像进行重建,得到清晰度更高的重建图像。图像重建器的输入可以包括低清图像和特征提取器所提取的一维的高清特征向量,输出可以为重建得到的高清图像。
本申请实施例中,图像重建器的结构可以根据实际需要进行设计,例如可以为一个端到端的CNN模型,例如Unet网络模型等,本申请实施例对图像重建器的结构不做具体限定。可选择地,图像重建器中可以引入交叉注意力层(Cross Attention Block)、自注意力层和/或Resnet层(Resnet Block)等等。
示例性地,参考说明书附图5c,以图像重建器为Unet网络模型为例,图像重建器可以包括4个编码块(编码块1~4)、4个解码块(解码块1~4)和1个中间层,图中所示每个块(Block)中示于上方一行的维度代表该Block的输入特征图维度,示于下方一行的维度代表该Block的输出特征图维度。例如,编码块1中示于上方一行的维度N*3*256*256代表该Block的输入特征图维度为N*3*256*256,示于下方一行的维度N*64*128*128代表该Block的输出特征图维度为N*64*128*128。需要说明的是,在卷积神经网络中常用四维矩阵的形式来描述原始图像和网络中间层产生的特征图,即N*C*W*H。其中N代表批大小(BatchSize),也就是同时输入到网络中的图像数量。C代表通道数,比如彩色图像的通道数为3,灰度图像的通道数为1,输出特征图的通道数可以在设计网络结构的卷积层时进行人为设置。W和H代表特征图或图像的长宽尺寸。
需要说明的是,图像重建器中编码块、解码块及中间层的数量均是可变的,本领域技术人员可以根据实际需要进行设计,一般只需要保证编码块的个数等于解码块的个数即可。
具体地,编码块和解码块的内部结构可以根据实际需要进行设计,例如对于编码块可以设计3层卷积层加1层池化层,利用池化层完成尺寸的降采样,对于解码块可以设计为3层卷积层加1层反卷积层,利用反卷积层完成尺寸的上采样,本申请实施例对编码块和解码块的内部结构不做具体限定。
如图5c所示,模型右侧箭头表示跳跃连接,即把编码块输出的特征图与对应解码块的输入特征图在通道C上直接进行拼接合并,再输入该解码块继续后续处理。例如,解码块2的输入特征图继承自解码块1,应该是N*128*32*32,编码块3的输出特征图为N*128*32*32,二者合并后维度变成N*256*32*32,再输入给解码块2继续后续处理。
本申请实施例中,特征提取器所提取的高清特征向量可以通过交叉注意力的方式穿插到图像重建器的不同层中,用于提供低清图像所损失的高频信息。也就是说,图像重建器可以为包括一层或者多层交叉注意力层的神经网络,该交叉注意力层可以用于通过交叉注意力的方式,对基于输入的低清图像得到的潜空间特征向量和输入的一维的高清特征向量进行融合。
示例性地,对于图5c所示的图像重建器,可以在图像重建器的部分或者全部的编码块和解码块中加入交叉注意力层,以将特征提取器所提取的高清特征向量穿插到图像重建器中。例如,如图5c所示,可以在每个编码块和解码块中均加入交叉注意力层,以插入特征提取器所提取的高清特征向量。可选择地,可以在编码块和解码块中的两层卷积层中间增加一个注意力层,并且/或者在卷积层和反卷积层之间增加一个注意力层,本申请实施例对交叉注意力层的位置和数量均不做具体限制。
具体地,交叉注意力层的结构如图5b所示,交叉注意力层包括2个输入,其中一个输入是交叉注意力层上一层的输出特征图(即为潜空间特征F2),另一个输入是特征提取器提取的高清特征向量Z2。采用交叉注意力的方式对特征提取器所提取的高清特征向量Z2与图像重建器中的潜空间特征F2进行融合的过程中,通过计算潜空间特征F2和高清特征向量Z2之间的相似度,可以得到一个注意力矩阵(Attention Map),用于加权融合这两种特征得到融合后的特征输入交叉注意力层的下一层。
可以理解,通过交叉注意力的方式对高清特征向量与潜空间特征进行融合,更多地考虑了全局信息,能够提高图像重建器得到的重建图像的精度,提高图像重建的效果。
在一些可能的实施例中,特征提取器所提取的高清特征向量还可以通过其他方式穿插到图像重建器的不同层中,例如可以包括但不限于AdaIN的方式。采用AdaIN的方式将特征提取器所提取的高清特征向量穿插到图像重建器中的具体内容,可以参考图2a所示实施例中的相关内容或者可以参考现有的资料,本申请实施例在此不再赘述。
在一个示例中,还可以通过将特征提取器提取的N*1*256的一维高清特征向量Z2重塑成N*1*16*16的二维特征图,并将N*1*16*16的二维特征图调整大小到N*1*W*H,然后和图像重建器中某一层的输出特征图(即为潜空间特征F2)进行点对点的相乘,以对特征提取器所提取的高清特征向量Z2与图像重建器中的潜空间特征F2进行融合的方式,将特征提取器所提取的高清特征向量穿插到图像重建器中。
需要说明的是,上述几种穿插方式只是示例,并不构成对本申请实施例的限制,在实际应用中,本领域技术人员可以根据实际需要进行设计,仅需使得特征提取器提取的高清特征向量与图像重建器中的潜空间特征能够融合以获取特征中的信息即可。
本申请实施例中,参考说明书附图5b,服务器可以将模型训练数据集中各个图像对中的模型训练低清图像和特征提取器得到的模型训练高清特征向量输入图像重建器进行处理,其中,图像重建器可以以模型训练高清特征向量为先验辅助信息,基于模型训练低清图像进行图像重建,得到第一阶段重建图像。
S404:服务器基于第一阶段重建图像和模型训练高清图像之间的感知损失函数(作为第三损失函数的实例),更新特征提取器和图像重建器,以获得更新后的特征提取器和图像重建器。
本申请实施例中,服务器可以基于图像重建器得到的第一阶段重建图像及其对应的模型训练高清图像计算感知损失函数的值,并基于计算得到的感知损失函数的值更新特征提取器和图像重建器的模型参数,得到更新后的特征提取器和图像重建器。经过重复步骤S401至步骤S404进行多次迭代训练,即可以得到训练好的特征提取器和图像重建器。
需要说明的是,上述以感知损失函数作为训练阶段Stage1的损失函数的实施方式只是一种示例,本申请实施例对训练阶段Stage1的损失函数不做具体限定,本领域技术人员可以根据实际需要进行选择,例如还可以为Pixel Loss、生成对抗网络损失函数(GANLoss)、L1损失函数、L2损失函数等等。
S405:服务器利用训练好的特征提取器获取模型训练低清图像的低清特征向量以及模型训练高清图像的模型训练高清特征向量。
本申请实施例中,可以直接利用步骤S401中服务器在数据预预处理阶段准备的模型训练数据集,在训练阶段Stage2中训练特征生成网络。通过两个训练阶段Stage1和Stage2的训练,即可训练得到最终的特征提取器、特征生成网络和图像重建器。
需要说明的是,上述直接利用步骤S401中服务器在数据预预处理阶段准备的模型训练数据集训练特征生成网络的实施方式只是一种示例,在实际应用中,训练阶段Stage1中使用的第二训练数据集和训练阶段Stage2中使用的第一训练数据集可以相同,也可以不相同,本申请实施例对此不做具体限制。
在一些实施例中,服务器也可以准备与步骤S401中准备的模型训练数据集包括不同图像对的模型训练数据集,在训练阶段Stage2中训练特征生成网络。其中,每个图像对也可以包括模型训练低清图像和模型训练高清图像,每个图像对中的模型训练低清图像和模型训练高清图像也可以是内容相同但具有不同清晰度的图像。具体地,获取图像对的方式可以与步骤S401中获取图像对的方式相同,可以参考步骤S401中的具体内容,本申请实施例在此不再赘述。
本申请实施例中,在训练阶段Stage2中,服务器可以先复制一个在训练阶段Stage1中训练好的特征提取器,其模型参数和网络结构保持不变,但是输入为低清图像,输出为包括低清图像中的特性信息的一维特征向量,作为特征生成网络的反向模块(ReverseProcess)进行降噪处理的条件(Condition)。
本申请实施例中,参考说明书附图6,在训练阶段Stage2中,服务器可以将模型训练数据集中各个图像对中的模型训练低清图像和模型训练高清图像分别输入一个特征提取器。其中一个特征提取器可以用于基于模型训练低清图像生成包括低清图像中的特征信息的低清特征向量,以输出至特征生成网络的反向模块,另一个特征提取器可以用于基于模型训练高清图像生成包括模型训练高清图像中的特征信息的模型训练高清特征向量,以输出至特征生成网络的前向模块(Forward Process)。
S406:服务器将低清特征向量和模型训练高清特征向量输入特征生成网络进行处理,得到重建高清特征向量和预测噪声。
本申请实施例中,由于在推理阶段无法获取到图像的高清图像特征,因此可以通过借助Diffusion的生成能力,用低清图像特征作为条件来生成高清特征向量,来弥补低清图像损失的图像细节,以达到提升图像清晰度的目的。
具体地,在训练阶段Stage2中,服务器还可以先构建一个特征生成网络Diffusion,特征生成网络可以包括前向模块和反向模块。其中,前向模块的输入数据为特征提取器得到的模型训练高清特征向量,前向模块可以用于对模型训练高清特征向量进行加噪处理以输出加噪后的模型训练高清特征向量。反向模块的输入数据为前向模块得到的加噪后的模型训练高清特征向量和特征提取器得到的低清特征向量,反向模块可以用于以特征提取器得到的低清特征向量为条件,对前向模块得到的加噪后的模型训练高清特征向量进行降噪处理,以得到预测的重建高清特征向量和预测噪声。
其中,前向模块在加噪处理过程中添加的噪声可以为随机噪声,该随机噪声的类型可以根据实际需要进行选择,例如可以为随机高斯噪声等等,本申请实施例对此不做具体限制。
需要说明的是,特征生成网络的diffusion方法是一种逐步生成高质量图像的技术,通过逐渐融合低清特征,渐进地完善图像。分阶段的运行过程中每个步骤引入更多的细节。diffusion的更细节的原理本申请实施例在此不再赘述。
本申请实施例中,参考说明书附图6,在训练阶段Stage2中,服务器可以将特征提取器得到的模型训练高清特征向量输入至特征生成网络的前向模块进行加噪处理,以得到加噪后的模型训练高清特征向量并输出至特征生成网络的反向模块。服务器还可以将特征提取器得到的低清特征向量输入至特征生成网络的反向模块,反向模块可以以特征提取器得到的低清特征向量为条件,对前向模块得到的加噪后的模型训练高清特征向量进行降噪处理,以得到重建高清特征向量和预测噪声,并将重建高清特征向量输出至图像重建器,从而辅助图像重建器完成低清图像的重建工作。
可以理解,由于特征生成网络既不是作用于图像域,也不是作用于二维latent域,而仅仅是作用于一维的特征空间,因此特征生成网络可以选择轻量化的网络结构,有利于整个图像重建模型的轻量化。
在一个可能的实施例中,在前向加噪过程,前向模块对模型训练高清特征向量进行加噪处理以输出加噪后的模型训练高清特征向量,可以包括:前向模块对模型训练高清特征向量添加预设数量步的随机高斯噪声(作为随机噪声的实例),得到加噪后的模型训练高清特征向量,并输入到反向迭代降噪过程中进行迭代降噪。
相应地,在反向迭代降噪过程中,反向模块以低清特征向量为条件,对加噪后的模型训练高清特征向量进行降噪处理,得到重建高清特征向量和预测噪声,可以包括:反向模块以低清特征向量为条件,对加噪后的模型训练高清特征向量进行预设数量步的迭代降噪,得到重建高清特征向量和预测噪声。其中,在反向迭代降噪过程中,来自模型训练低清图像的低清特征向量可以作为条件指导整个降噪过程。
其中,预设数量的值可以在训练过程中进行控制,每次迭代训练过程中添加随机噪声和降噪处理的步数可以不相同,也可以相同,但优选为不相同。也就是说,本申请实施例中在训练阶段Stage2中,每次迭代训练过程中添加随机噪声和降噪处理的步数可以是不固定的。
可以理解,由于特征生成网络既不是作用于图像域,也不是作用于二维latent域,而仅仅是作用于一维的特征空间,因此特征生成网络中迭代步数的设置也可大幅减小,从而能够加快模型的训练速度和效率。示例性地,通常特征生成网络的迭代步数设置为0-1000,而本申请实施例中的特征生成网络的迭代步数仅需设置为0-20即可。
S407:服务器将模型训练低清图像和重建高清特征向量输入训练好的图像重建器进行处理,得到第二阶段重建图像(作为第一重建图像的实例)。
本申请实施例中,在训练阶段Stage2中,服务器可以将模型训练数据集中各个图像对中的模型训练低清图像和特征生成网络的反向模块得到的重建高清特征向量输入训练好的图像重建器进行处理。其中,图像重建器可以用于接收模型训练低清图像和来自反向模块的重建高清特征向量,并以重建高清特征向量为先验辅助信息,基于模型训练低清图像进行图像重建,得到第二阶段重建图像。
具体地,特征生成网络的反向模块得到的重建高清特征向量,可以如训练阶段Stage1中特征提取器所提取的高清特征向量一样,通过交叉注意力的方式或者其他方式穿插到图像重建器的不同层中,从而辅助图像重建器完成低清图像的重建工作。
S408:服务器基于第二阶段重建图像和模型训练高清图像之间的感知损失函数(作为第一损失函数的实例),以及预测噪声和前向模块添加的随机噪声之间的Epsilon损失函数(作为第二损失函数的实例),更新特征生成网络中至少反向模块,以获得更新后的反向模块。
本申请实施例中,在训练阶段Stage2中,服务器可以将训练阶段Stage1训练好的特征提取器和图像重建器的模型参数固定,并基于图像重建器得到的第二阶段重建图像及其对应的模型训练高清图像计算感知损失函数的值,基于反向模块输出的预测噪声和前向模块添加的随机噪声计算Epsilon损失函数的值,并基于计算得到的两个损失函数的值,更新特征生成网络中前向模块和反向模块的模型参数,得到更新后的特征生成网络。经过重复步骤S405至步骤S408进行多次迭代训练,即可以得到训练好的反向模块。
需要说明的是,上述以感知损失函数作为训练阶段Stage2的第一损失函数,以Epsilon损失函数作为训练阶段Stage2的第二损失函数的实施方式只是一种示例,本申请实施例对训练阶段Stage2的损失函数不做具体限定,本领域技术人员可以根据实际需要进行选择,例如第一损失函数还可以为Pixel Loss、GAN Loss、L1损失函数、L2损失函数等等。
本申请实施例中,参考说明书附图7,训练好的特征提取器、反向模块和图像重建器可以用于构建图像重建模型。在推理阶段中,如图7所示,特征提取器可以用于基于待重建的目标低清图像生成目标低清特征向量以输出至反向模块。反向模块可以用于接收来自目标低清图像的目标低清特征向量和随机噪声,生成对应的目标高清特征向量以输出至图像重建器。图像重建器用于接收目标低清图像和来自反向模块的目标高清特征向量,并以目标高清特征向量为先验辅助信息,基于目标低清图像进行图像重建,得到目标重建图像。利用基于训练得到的特征提取器、反向模块和图像重建器构建的图像重建模型,对待重建的目标低清图像进行处理得到目标高清图像的具体实现过程将在后续进行详细描述。
可以理解,本申请实施例通过在Stage1阶段预先训练得到特征提取器和图像重建器,在Stage2阶段训练特征生成网络时,固定Stage1阶段训练得到的特征提取器和图像重建器的网络参数,只更新特征生成网络中至少反向模块的网络参数,能够保证特征生成网络可以生成与Stage1阶段训练得到的特征提取器所提取的高清特征向量相同的特征向量,并且采用反向模块得到的预测噪声和实际添加噪声之间的损失函数,对模型收敛更加友好,能够大大提升模型的收敛速度,提升训练得到的整个图像重建模型的重建效果。
并且,通过借助特征提取网络Diffusion的生成能力,用低清图像特征作为条件来生成高清特征向量,能够解决在推理阶段无法获取到图像的高清图像特征的问题。本申请实施方式中的特征提取网络可以选择轻量化的网络结构,而且降噪过程的迭代步数也可大幅减小,进而能够得到更加轻量化的图像重建模型,提高图像重建模型的训练速度和效率。
以下介绍本申请另一个实施例提供的模型训练方法的具体流程。
本申请实施例提供的模型训练方法可以应用于服务器中。该服务器可以是独立的服务器或者是多个服务器组成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)以及大数据和人工智能平台等基础云计算服务的云服务器。
参考说明书附图8,图8示出了本申请另一个实施例提供的模型训练方法的流程图。该方法可以示例性地可以利用作为服务器的电子设备通过数据预处理阶段确定模型的训练数据,基于预设的特征提取器和图像重建器来训练得到特征提取网络的反向模块,进而结合特征提取器和图像重建器得到图像重建模型。在一些实现方式中,特征提取器和图像重建器可以是预设的,无需关注其训练过程。具体地,如图8所示,该方法可以包括步骤S801-S805。
S801:服务器确定包括多个图像对的模型训练数据集(作为第一训练数据集的实例),每个图像对包括模型训练低清图像(作为第一低清图像的实例)和模型训练高清图像(作为第一高清图像的实例)。
S802:服务器利用特征提取器获取模型训练低清图像的低清特征向量以及模型训练高清图像的模型训练高清特征向量(作为第一高清特征向量的实例)。
S803:服务器将低清特征向量和模型训练高清特征向量输入特征生成网络进行处理,得到重建高清特征向量和预测噪声。
S804:服务器将模型训练低清图像和重建高清特征向量输入图像重建器进行处理,得到模型训练重建图像(作为第一重建图像的实例)。
S805:服务器基于模型训练重建图像和模型训练高清图像之间的感知损失函数(作为第一损失函数的实例),以及预测噪声和前向模块添加的随机噪声之间的Epsilon损失函数(作为第二损失函数的实例),更新特征生成网络中至少反向模块,以获得更新后的反向模块。
本申请实施例中,经过重复步骤S801至步骤S805进行多次迭代训练,即可以得到训练好的反向模块。利用特征提取器、图像重建器以及训练好的反向模块可以构建图像重建模型。
需要说明的是,本申请实施例中步骤S801至步骤S805中的具体内容可以参考图4所示实施例中步骤S401、步骤S405至步骤S408中的相关内容,本申请实施例在此不再赘述。
需要说明的是,虽然上述两个实施例是以服务器作为实施模型训练方法的设备来进行的说明,但是在一些实现方式中,也可以是以具有图3a所示的硬件结构和如图3b所示的软件结构的设备来实施模型训练方法,本申请实施例对此不做具体限制。
下面将通过图9a至图9c详细描述本申请一个实施例提供的图像重建方法。
本申请实施例提供的图像重建方法可以应用于具有如图3a所示的硬件结构和如图3b所示的软件结构的电子设备中。或者比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置等类似的硬件结构和软件结构的电子设备中。下面以手机拍摄照片的场景为例,对本申请实施例提供的图像重建方法进行详细的说明。本申请实施例中,手机包括摄像头,并且支持长焦拍摄。
参考说明书附图9a,图9a示出了本申请一个实施例提供的图像重建方法的流程图,该方法可以应用于手机中,由手机中的NPU执行。具体地,如图9a所示,该方法可以包括步骤S901-S904。
S901:NPU获取待重建的目标低清图像。
本申请实施例中,待重建的目标低清图像因应用场景的不同而不同。例如,在图像去模糊的场景中,目标低清图像可以为由于进行长焦拍摄、手机和被摄对象之间有相对运动(例如手机抖动、被摄对象运动)或者手机虚焦等原因而得到的画质模糊、清晰度低的拍摄图像;在图像降噪的场景中,目标低清图像可以为由于场景恶劣等原因而得到的噪点较多或者画质模糊、清晰度低的拍摄图像。在上述两个场景中,NPU可以从ISP中获取到待重建的目标低清图像。又例如,在图像超分的场景中,目标低清图像可以为由于年代久远、存储空间有限、信息传输损失等原因造成的画质模糊、清晰度低的图像。在上述场景中,NPU可以从手机的内存中获取存储的待重建的目标低清图像。
S902:NPU利用特征提取器获取目标低清图像的目标低清特征向量。
本申请实施例中,在推理阶段中,NPU可以将目标低清图像输入至特征提取器,以得到对应的包括目标低清图像中的特性信息的目标低清特征向量,并作为条件输出至特征生成网络的反向模块。其中,特征提取器可以采用如图4至图8所示的实施例提供的模型训练方法训练得到,特征提取器的具体内容可以参考图4至图8所示的实施例中的相关内容,本申请实施例在此不再赘述。
S903:NPU利用反向模块,以目标低清特征向量为条件,基于随机噪声进行降噪处理,生成目标高清特征向量。
本申请实施例中,在推理阶段中,NPU可以将特征提取器得到的目标低清特征向量输入至特征生成网络的反向模块,反向模块可以以特征提取器得到的目标低清特征向量为条件,从随机噪声开始进行降噪处理,得到包括低清图像所损失的高频信息的目标高清特征向量并输出至图像重建器,以辅助图像重建器进行图像重建。其中,反向模块可以采用如图4至图8所示的实施例提供的模型训练方法训练得到,反向模块的具体内容可以参考图4至图8所示的实施例中的相关内容,本申请实施例在此不再赘述。
具体地,反向模块使用的随机噪声与训练阶段Stage2中前向模块在加噪处理过程中添加的随机噪声可以为相同类型的随机噪声,该随机噪声的类型也可以根据实际需要进行选择,仅需使得两个阶段使用的随机噪声类型相同即可,例如可以均为随机高斯噪声等等,本申请实施例对此不做具体限制。
S904:NPU利用图像重建器,基于目标高清特征向量和目标低清图像进行图像重建,得到目标重建图像。
本申请实施例中,在推理阶段中,NPU可以将目标低清图像和反向模块得到的目标高清特征向量输入至图像重建器,图像重建器可以以反向模块得到的目标高清特征向量为先验辅助信息,基于目标低清图像进行图像重建,以有效的恢复低清图像缺少的高频信息,得到目标重建图像。其中,图像重建器可以采用如图4至图8所示的实施例提供的模型训练方法训练得到,图像重建器的具体内容可以参考图4至图8所示的实施例中的相关内容,本申请实施例在此不再赘述。
示例性地,采用本申请实施例提供的图像重建方法,利用训练得到的图像重建模型对图9b中所示的长焦模糊的低清图像进行图像重建,可以得到图9b中所示的增强后的高清图像,对图9c中所示的抖动模糊的低清图像进行图像重建,可以得到图9c中所示的增强后的高清图像。从图9b和图9c中可以看出,本申请实施例提供的方法可以大大提升图像的清晰度。
需要说明的是,图9a所示实施例中步骤S901-步骤S904的其他具体内容可以参考图4至图8所示实施例的相关内容,本申请实施例在此不再赘述。
参考说明书附图10,图10示出了本申请一个实施例提供的模型训练装置1000的结构示意图,该装置1000可以设置于电子设备中,该装置1000可以包括:
第一确定模块1010,用于确定包括多个图像对的第一训练数据集,每个图像对包括第一低清图像和第一高清图像;
第一获取模块1020,用于利用特征提取器获取第一低清图像的低清特征向量以及第一高清图像的第一高清特征向量;
第一输入模块1030,用于将低清特征向量和第一高清特征向量输入特征生成网络进行处理,特征生成网络包括前向模块和反向模块,其中,前向模块对第一高清特征向量进行加噪处理以输出加噪后的第一高清特征向量,并且,反向模块以低清特征向量为条件,对加噪后的第一高清特征向量进行降噪处理,得到重建高清特征向量和预测噪声;
第二输入模块1040,用于将第一低清图像和重建高清特征向量输入图像重建器进行处理,得到第一重建图像;
第一训练模块1050,用于基于第一重建图像和第一高清图像之间的第一损失函数,以及预测噪声和前向模块添加的随机噪声之间的第二损失函数,更新特征生成网络中至少反向模块,以获得更新后的反向模块,其中,反向模块用于构建图像重建模型,并且,反向模块用于接收来自目标低清图像的目标低清特征向量和随机噪声,生成对应的目标高清特征向量以输出至图像重建器。
在一个可能的实施例中,该装置1000还可以包括:
第二确定模块,用于确定包括多个图像对的第二训练数据集,每个图像对包括第二低清图像和第二高清图像;
第四获取模块,用于利用特征提取器获取第二高清图像的第二高清特征向量;
第三输入模块,用于将第二低清图像和第二高清特征向量输入图像重建器进行处理,其中,图像重建器以第二高清特征向量为先验辅助信息,基于第二低清图像进行图像重建,得到第二重建图像;
第二训练模块,用于基于第二重建图像和第二高清图像之间的第三损失函数,更新特征提取器和图像重建器,以获得更新后的特征提取器和图像重建器。
参考说明书附图11,图11示出了本申请一个实施例提供的图像重建装置1100的结构示意图,该装置1100可以设置于电子设备中,该装置1100可以包括:
第二获取模块1110,用于获取待重建的目标低清图像;
第三获取模块1120,用于利用特征提取器获取目标低清图像的目标低清特征向量;
特征生成模块1130,用于利用如图4至图8所示实施例提供的方法训练得到的反向模块,以目标低清特征向量为条件,基于随机噪声进行降噪处理,生成目标高清特征向量;
图像重建模块1140,用于利用图像重建器,基于目标高清特征向量和目标低清图像进行图像重建,得到目标重建图像。
本申请一个实施例还提供一种电子设备,包括:
存储器,用于存储由该电子设备的一个或多个处理器执行的指令;以及
处理器,当该处理器执行该存储器中的该指令时,可使得该电子设备执行上述实施例中图4至图8所示的模型训练方法,或者执行上述实施例中图9a所示的图像重建方法。
本申请一个实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器运行时,使得处理器执行上述实施例中图4至图8所示的模型训练方法,或者执行上述实施例中图9a所示的图像重建方法。
本申请一个实施例还提供一种包含指令的计算机程序产品,当该计算机程序产品在电子设备上运行时,使得处理器执行上述实施例中图4至图8所示的模型训练方法,或者执行上述实施例中图9a所示的图像重建方法。
现在参考说明书附图12,所示为根据本申请的一个实施例的SoC(System onChip,片上系统)1200的框图。在图12中,相似的部件具有同样的附图标记。另外,虚线框是更先进的SoC的可选特征。在图12中,SoC1200包括:互连单元1250,其被耦合至处理器1210;系统代理单元1270;总线控制器单元1280;集成存储器控制器单元1240;一组或一个或多个协处理器1220,其可包括集成图形逻辑、图像处理器、音频处理器和视频处理器;静态随机存取存储器(Static Random Access Memory,SRAM)单元1230;直接存储器存取(DirectMemory Access,DMA)单元1260。在一个实施例中,协处理器1220包括专用处理器,诸如例如网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、或嵌入式处理器等。
静态随机存取存储器(SRAM)单元1230中可以包括用于存储数据和/或指令的一个或多个有形的、非暂时性计算机可读存储介质。计算机可读存储介质中可以存储有指令,具体而言,存储有该指令的暂时和永久副本。该指令可以包括:由处理器中的至少一个单元执行时使Soc1200执行根据上述实施例中的模型训练方法和/或图像重建方法,具体可参照上述实施例中图4至图8所示的模型训练方法和/或图9a所示的图像重建方法,本申请实施例在此不再赘述。
本申请公开的机制的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合中。本申请的实施例可实现为在可编程系统上执行的计算机程序或程序代码,该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。
可将程序代码应用于输入指令,以执行本申请描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的,处理系统包括具有诸如例如数字信号处理器(Digital Signal Processor,DSP)、微控制器、专用集成电路(Application Specific Integrated Circuit,ASIC)或微处理器之类的处理器的任何系统。
程序代码可以用高级程序化语言或面向对象的编程语言来实现,以便与处理系统通信。在需要时,也可用汇编语言或机器语言来实现程序代码。事实上,本申请中描述的机制不限于任何特定编程语言的范围。在任一情形下,该语言可以是编译语言或解释语言。
在一些情况下,所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如,计算机可读)存储介质承载或存储在其上的指令,其可以由一个或多个处理器读取和执行。例如,指令可以通过网络或通过其他计算机可读介质分发。因此,机器可读介质可以包括用于以机器(例如,计算机)可读的形式存储或传输信息的任何机制,包括但不限于,软盘、光盘、光碟、光盘只读存储器(Compact Disc Read Only Memory,CD-ROMs)、磁光盘、只读存储器(Read OnlyMemory,ROM)、随机存取存储器(RAM)、可擦除可编程只读存储器(Erasable ProgrammableRead Only Memory,EPROM)、电可擦除可编程只读存储器(Electrically ErasableProgrammable Read Only Memory,EEPROM)、磁卡或光卡、闪存、或用于利用因特网以电、光、声或其他形式的传播信号来传输信息(例如,载波、红外信号数字信号等)的有形的机器可读存储器。因此,机器可读介质包括适合于以机器(例如,计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。
在附图中,可以以特定布置和/或顺序示出一些结构或方法特征。然而,应该理解,可能不需要这样的特定布置和/或排序。而是,在一些实施例中,这些特征可以以不同于说明书附图中所示的方式和/或顺序来布置。另外,在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征,并且在一些实施例中,可以不包括这些特征或者可以与其他特征组合。
需要说明的是,本申请各设备实施例中提到的各单元/模块都是逻辑单元/模块,在物理上,一个逻辑单元/模块可以是一个物理单元/模块,也可以是一个物理单元/模块的一部分,还可以以多个物理单元/模块的组合实现,这些逻辑单元/模块本身的物理实现方式并不是最重要的,这些逻辑单元/模块所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外,为了突出本申请的创新部分,本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的单元/模块引入,这并不表明上述设备实施例并不存在其他的单元/模块。
需要说明的是,在本申请的示例和说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
虽然通过参照本申请的某些优选实施例,已经对本申请进行了图示和描述,但本领域的普通技术人员应该明白,可以在形式上和细节上对其作各种改变,而不偏离本申请的精神和范围。

Claims (15)

1.一种模型训练方法,应用于电子设备,其特征在于,所述方法包括:
确定包括多个图像对的第一训练数据集,每个所述图像对包括第一低清图像和第一高清图像;
利用特征提取器获取所述第一低清图像的低清特征向量以及所述第一高清图像的第一高清特征向量;
将所述低清特征向量和所述第一高清特征向量输入特征生成网络进行处理,所述特征生成网络包括前向模块和反向模块,其中,所述前向模块对所述第一高清特征向量进行加噪处理以输出加噪后的第一高清特征向量,并且,所述反向模块以所述低清特征向量为条件,对所述加噪后的第一高清特征向量进行降噪处理,得到重建高清特征向量和预测噪声;
将所述第一低清图像和所述重建高清特征向量输入图像重建器进行处理,得到第一重建图像;
基于所述第一重建图像和所述第一高清图像之间的第一损失函数,以及所述预测噪声和所述前向模块添加的随机噪声之间的第二损失函数,更新所述特征生成网络中至少所述反向模块,以获得更新后的反向模块,其中,所述反向模块用于构建图像重建模型,并且,所述反向模块用于接收来自目标低清图像的目标低清特征向量和随机噪声,生成对应的目标高清特征向量以输出至所述图像重建器。
2.根据权利要求1所述的方法,其特征在于,所述特征提取器和所述图像重建器利用以下方法训练得到:
确定包括多个图像对的第二训练数据集,每个所述图像对包括第二低清图像和第二高清图像;
利用特征提取器获取所述第二高清图像的第二高清特征向量;
将所述第二低清图像和所述第二高清特征向量输入图像重建器进行处理,其中,所述图像重建器以所述第二高清特征向量为先验辅助信息,基于所述第二低清图像进行图像重建,得到第二重建图像;
基于所述第二重建图像和所述第二高清图像之间的第三损失函数,更新所述特征提取器和所述图像重建器,以获得更新后的特征提取器和图像重建器。
3.根据权利要求2所述的方法,其特征在于,所述特征提取器用于构建图像重建模型,并且,所述特征提取器用于基于所述目标低清图像生成所述目标低清特征向量以输出至所述反向模块。
4.根据权利要求2所述的方法,其特征在于,所述特征提取器用于基于所述第一低清图像生成所述低清特征向量以输出至所述反向模块,并且基于所述第一高清图像生成所述第一高清特征向量以输出至所述前向模块。
5.根据权利要求2所述的方法,其特征在于,所述特征提取器用于基于所述第二高清图像生成所述第二高清特征向量以输出至所述图像重建器。
6.根据权利要求2所述的方法,其特征在于,所述图像重建器用于构建图像重建模型,并且,所述图像重建器用于接收目标低清图像和来自所述反向模块的目标高清特征向量,并以所述目标高清特征向量为先验辅助信息,基于所述目标低清图像进行图像重建,得到目标重建图像。
7.根据权利要求2所述的方法,其特征在于,所述图像重建器用于接收第一低清图像和来自所述反向模块的重建高清特征向量,并以所述重建高清特征向量为先验辅助信息,基于所述第一低清图像进行图像重建,得到第一重建图像。
8.根据权利要求2所述的方法,其特征在于,所述特征提取器为包括自注意力层的神经网络;所述图像重建器为包括交叉注意力层的神经网络,所述交叉注意力层用于通过交叉注意力的方式,对基于所述第二低清图像得到的潜空间特征向量和输入的所述第二高清特征向量进行融合。
9.根据权利要求1所述的方法,其特征在于,所述前向模块对所述第一高清特征向量进行加噪处理以输出加噪后的第一高清特征向量,包括:
所述前向模块对所述第一高清特征向量添加预设数量步的随机噪声,得到加噪后的第一高清特征向量;
所述反向模块以所述低清特征向量为条件,对所述加噪后的第一高清特征向量进行降噪处理,得到重建高清特征向量和预测噪声,包括:
所述反向模块以所述低清特征向量为条件,对所述加噪后的第一高清特征向量进行预设数量步的迭代降噪,得到重建高清特征向量和预测噪声。
10.一种图像重建方法,应用于电子设备,其特征在于,所述方法包括:
获取待重建的目标低清图像;
利用特征提取器获取所述目标低清图像的目标低清特征向量;
利用如权利要求1~9任意一项所述的方法训练得到的反向模块,以所述目标低清特征向量为条件,基于随机噪声进行降噪处理,生成目标高清特征向量;
利用图像重建器,基于所述目标高清特征向量和所述目标低清图像进行图像重建,得到目标重建图像。
11.根据权利要求10所述的方法,其特征在于,所述特征提取器和所述图像重建器是利用如权利要求2所述的方法训练得到的。
12.一种模型训练装置,其特征在于,所述装置包括:
第一确定模块,用于确定包括多个图像对的第一训练数据集,每个所述图像对包括第一低清图像和第一高清图像;
第一获取模块,用于利用特征提取器获取所述第一低清图像的低清特征向量以及所述第一高清图像的第一高清特征向量;
第一输入模块,用于将所述低清特征向量和所述第一高清特征向量输入特征生成网络进行处理,所述特征生成网络包括前向模块和反向模块,其中,所述前向模块对所述第一高清特征向量进行加噪处理以输出加噪后的第一高清特征向量,并且,所述反向模块以所述低清特征向量为条件,对所述加噪后的第一高清特征向量进行降噪处理,得到重建高清特征向量和预测噪声;
第二输入模块,用于将所述第一低清图像和所述重建高清特征向量输入图像重建器进行处理,得到第一重建图像;
第一训练模块,用于基于所述第一重建图像和所述第一高清图像之间的第一损失函数,以及所述预测噪声和所述前向模块添加的随机噪声之间的第二损失函数,更新所述特征生成网络中至少所述反向模块,以获得更新后的反向模块,其中,所述反向模块用于构建图像重建模型,并且,所述反向模块用于接收来自目标低清图像的目标低清特征向量和随机噪声,生成对应的目标高清特征向量以输出至所述图像重建器。
13.一种图像重建装置,其特征在于,所述装置包括:
第二获取模块,用于获取待重建的目标低清图像;
第三获取模块,用于利用特征提取器获取所述目标低清图像的目标低清特征向量;
特征生成模块,用于利用如权利要求1~9任意一项所述的方法训练得到的反向模块,以所述目标低清特征向量为条件,基于随机噪声进行降噪处理,生成目标高清特征向量;
图像重建模块,用于利用图像重建器,基于所述目标高清特征向量和所述目标低清图像进行图像重建,得到目标重建图像。
14.一种电子设备,其特征在于,包括:
存储器,用于存储由所述电子设备的一个或多个处理器执行的指令;
处理器,当所述处理器执行所述存储器中的所述指令时,可使得所述电子设备执行权利要求1~11任一项所述的方法的各个步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有指令,该指令在计算机上执行时使得计算机执行权利要求1~11任一项所述的方法的各个步骤。
CN202410081662.XA 2024-01-19 2024-01-19 模型训练方法、图像重建方法、装置、设备及存储介质 Active CN117593611B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410081662.XA CN117593611B (zh) 2024-01-19 2024-01-19 模型训练方法、图像重建方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410081662.XA CN117593611B (zh) 2024-01-19 2024-01-19 模型训练方法、图像重建方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN117593611A true CN117593611A (zh) 2024-02-23
CN117593611B CN117593611B (zh) 2024-05-17

Family

ID=89920634

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410081662.XA Active CN117593611B (zh) 2024-01-19 2024-01-19 模型训练方法、图像重建方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117593611B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109102462A (zh) * 2018-08-01 2018-12-28 中国计量大学 一种基于深度学习的视频超分辨率重建方法
US20200311878A1 (en) * 2019-04-01 2020-10-01 Canon Medical Systems Corporation Apparatus and method for image reconstruction using feature-aware deep learning
US20210104023A1 (en) * 2020-05-18 2021-04-08 Shanghai United Imaging Healthcare Co., Ltd. Systems and methods for image reconstruction
WO2022143921A1 (zh) * 2020-12-31 2022-07-07 华为技术有限公司 一种图像重建方法、相关装置及系统
CN115115512A (zh) * 2022-06-13 2022-09-27 荣耀终端有限公司 一种图像超分网络的训练方法及装置
CN115456918A (zh) * 2022-11-11 2022-12-09 之江实验室 一种基于小波高频通道合成的图像去噪方法及装置
CN116362991A (zh) * 2023-01-17 2023-06-30 清华大学深圳国际研究生院 一种基于域对齐gan先验的盲脸恢复方法
CN116681584A (zh) * 2023-04-06 2023-09-01 长春理工大学 一种多级扩散图像超分辨算法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109102462A (zh) * 2018-08-01 2018-12-28 中国计量大学 一种基于深度学习的视频超分辨率重建方法
US20200311878A1 (en) * 2019-04-01 2020-10-01 Canon Medical Systems Corporation Apparatus and method for image reconstruction using feature-aware deep learning
US20210104023A1 (en) * 2020-05-18 2021-04-08 Shanghai United Imaging Healthcare Co., Ltd. Systems and methods for image reconstruction
WO2022143921A1 (zh) * 2020-12-31 2022-07-07 华为技术有限公司 一种图像重建方法、相关装置及系统
CN115115512A (zh) * 2022-06-13 2022-09-27 荣耀终端有限公司 一种图像超分网络的训练方法及装置
CN115456918A (zh) * 2022-11-11 2022-12-09 之江实验室 一种基于小波高频通道合成的图像去噪方法及装置
CN116362991A (zh) * 2023-01-17 2023-06-30 清华大学深圳国际研究生院 一种基于域对齐gan先验的盲脸恢复方法
CN116681584A (zh) * 2023-04-06 2023-09-01 长春理工大学 一种多级扩散图像超分辨算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张超 等: "基于生成对抗网络的无透镜成像方法", 光学学报, vol. 40, no. 16, 16 May 2020 (2020-05-16), pages 93 - 101 *

Also Published As

Publication number Publication date
CN117593611B (zh) 2024-05-17

Similar Documents

Publication Publication Date Title
CN113538273B (zh) 图像处理方法及图像处理装置
WO2021078001A1 (zh) 一种图像增强方法及装置
CN113706414B (zh) 视频优化模型的训练方法和电子设备
CN115061770B (zh) 显示动态壁纸的方法和电子设备
JP2017537403A (ja) 超解像画像を生成するための方法、装置およびコンピュータ・プログラム・プロダクト
CN115633262B (zh) 图像处理方法和电子设备
CN113705665B (zh) 图像变换网络模型的训练方法和电子设备
CN113099146A (zh) 一种视频生成方法、装置及相关设备
CN113538227B (zh) 一种基于语义分割的图像处理方法及相关设备
CN111612723B (zh) 图像修复方法及装置
CN115150542B (zh) 一种视频防抖方法及相关设备
CN116757970B (zh) 视频重建模型的训练方法、视频重建方法、装置及设备
CN115908120B (zh) 图像处理方法和电子设备
CN116055895B (zh) 图像处理方法及其装置、芯片系统和存储介质
CN112714263A (zh) 视频生成方法、装置、设备及存储介质
CN117593611B (zh) 模型训练方法、图像重建方法、装置、设备及存储介质
CN116233626A (zh) 图像处理方法、装置及电子设备
WO2022115996A1 (zh) 图像处理方法及设备
CN116128739A (zh) 下采样模型的训练方法、图像处理方法及装置
CN114693538A (zh) 一种图像处理方法及装置
CN116740777B (zh) 人脸质量检测模型的训练方法及其相关设备
CN116205806B (zh) 一种图像增强方法及电子设备
CN117156261B (zh) 图像处理方法及相关设备
CN116757963B (zh) 图像处理方法、电子设备、芯片系统及可读存储介质
CN115601536B (zh) 一种图像处理方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant