CN113066017A - 一种图像增强方法、模型训练方法及设备 - Google Patents

一种图像增强方法、模型训练方法及设备 Download PDF

Info

Publication number
CN113066017A
CN113066017A CN202110221451.8A CN202110221451A CN113066017A CN 113066017 A CN113066017 A CN 113066017A CN 202110221451 A CN202110221451 A CN 202110221451A CN 113066017 A CN113066017 A CN 113066017A
Authority
CN
China
Prior art keywords
image
lookup table
pixel
information
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110221451.8A
Other languages
English (en)
Other versions
CN113066017B (zh
Inventor
汪涛
李勇
彭竞阳
马翼鹏
王宪
宋风龙
颜友亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202110221451.8A priority Critical patent/CN113066017B/zh
Publication of CN113066017A publication Critical patent/CN113066017A/zh
Application granted granted Critical
Publication of CN113066017B publication Critical patent/CN113066017B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06CDIGITAL COMPUTERS IN WHICH ALL THE COMPUTATION IS EFFECTED MECHANICALLY
    • G06C3/00Arrangements for table look-up, e.g. menstruation table
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Computer Hardware Design (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Facsimile Image Signal Circuits (AREA)

Abstract

本申请实施例公开了一种图像增强方法、模型训练方法及设备,可应用于人工智能领域中的图像处理领域,包括:通过第一神经网络层对输入图像提取特征,得到第一特征,并分别通过第二神经网络层及第三神经网络层对第一特征进行像素分类和图像分类,分别生成第一分类信息和第二分类信息,再基于第一分类信息、第二分类信息以及空间感知三维查找表(3D LUT)得到目标查找表,该空间感知三维查找表根据各图像类别及各像素类别构建得到;最后根据输入图像及目标查找表得到增强图像。本申请方法相对传统三维查找表提升了处理能力,解决了基于传统三维查找表的增强方法中由于信息少从而容易产生不精确结果(如,局部产生错误颜色、出现伪影等)的问题。

Description

一种图像增强方法、模型训练方法及设备
技术领域
本申请涉及图像处理领域,尤其涉及一种图像增强方法、模型训练方法及设备。
背景技术
图像增强是一种改善图像视觉效果的方法,通常来说,图像增强的主要目的是为了改善图像的视觉效果,提高图像的清晰度,例如,去雾、去雨、去噪、色彩增强、超分辨重建等。传统的图像增强方法主要分为基于空域和频域的方法,基于空域的方法是直接对图像进行处理;基于频域的方法是在图像的某种变换域内对图像的变换系数进行修正,然后再反变换到原来的空域,得到增强的图像。
随着深度学习技术的发展,基于深度学习的图像增强方法的增强效果已超过传统方法。一般来说,复杂模型相对简单模型能取得更优的增强效果,但缺陷是模型的网络结构复杂,计算、存储等开销大,从而难以应用在手机等算力不高的终端设备上。目前一种解决方式是通过卷积神经网络(convolutional neural networks,CNN)对全分辨率的输入图像进行下采样,并对下采样得到的低分辨率图像进行特征提取,学习到三维查找表(3-dimention look-up-table,3D LUT),然后根据三维查找表中输入-输出像素的映射关系,对输入图像的每个输入像素进行转换,得到增强结果。
上述这种方案计算、存储开销小,速度快,但由于三维查找表中表征的仅仅是输入像素与输出像素之间的映射关系,所以该方案稳定性差,例如,容易产生不精确的局部信息,甚至产生错误的颜色或者伪影,图像增强的失败率高。
发明内容
本申请实施例提供了一种图像增强方法、模型训练方法及设备,用于根据输入图像中的每个像素点的像素类别以及构建的空间感知三维查找表得到目标查找表,并基于该目标查找表实现对输入图像的增强,相对传统三维查找表提升了处理能力,解决了基于传统三维查找表的增强方法中由于信息少(仅有像素值)从而容易产生不精确结果(如,局部产生错误颜色、出现伪影等)的问题。
基于此,本申请实施例提供以下技术方案:
第一方面,本申请实施例首先提供一种图像增强方法,可用于人工智能领域中,具体可应用于计算机领域中的图像处理领域,该方法包括:首先,执行设备通过第一神经网络层对输入图像进行特征提取,得到第一特征,该第一神经网络层包括神经网络的多个层,其中,该第一神经网络层中除最后一层外的其它层的输出都可称为中间特征。得到的第一特征可以作为第二神经网络层的输入,由执行设备通过第二神经网络层进行像素分类,生成第一分类信息。具体地,执行设备首先可以通过第二神经网络层的部分层(可称为第一子层)对第一特征以及第一神经网络层的各中间特征进行特征提取,得到第二特征,在本申请的一些实施方式中,该第二神经网络层的第一子层进行特征提取的过程可以是执行连续的卷积操作/上采样操作;之后,再通过第二神经网络层的另一部分子层(可称为第二子层)对得到的第二特征进行像素分类,生成第一分类信息,该第一分类信息用于表征目标输入像素信息属于各像素类别的概率。其中,该目标输入像素信息用于表征输入图像中的任意一个位置处的像素点的像素值以及该像素点在该输入图像中所处的位置,像素类别的种类数可以预先设定,例如,像素类别的种类数可用M表示,是一个超参数,每种像素类别可用
Figure BDA0002955261000000021
表示,其中,
Figure BDA0002955261000000022
也就是输入图像上某个特定位置处像素的像素类别为
Figure BDA0002955261000000023
该像素类别
Figure BDA0002955261000000024
表征的是在输入图像I中的空间位置(h,w)处的输入像素I(h,w),且该输入像素I(h,w)的像素类别为m的分类概率为
Figure BDA0002955261000000025
执行设备基于第一神经网络层和第二神经网络层得到了输入图像的第一分类信息之后,将进一步基于该第一分类信息以及空间感知三维查找表得到一个目标查找表,该空间感知三维查找表用于表征输入像素信息(可以是任意一张图像上的像素信息,是泛指)与输出像素信息之间的映射关系,该输入像素信息包括输入像素点的像素值、该输入像素点在图像中所处的位置和该输入像素点所属的像素类别(普通的三维感知查找表只是包含输入像素点的像素值),目标查找表则用于表征目标输入像素信息与目标输出像素信息之间的映射关系,目标输入像素信息则为该输入图像中的一个像素信息。执行设备在得到目标查找表之后,就可以根据输入图像以及得到的该目标查找表进行图像增强,从而得到与该输入图像对应的增强图像。
在本申请上述实施方式中,执行设备根据输入图像中的每个像素点的像素类别以及构建的空间感知三维查找表得到目标查找表,并基于该目标查找表实现对输入图像的增强,相对传统三维查找表提升了处理能力,解决了基于传统三维查找表的增强方法中由于信息少(只有像素值)从而容易产生不精确结果(如,局部产生错误颜色、出现伪影等)的问题。
在第一方面的一种可能实现方式中,空间感知三维查找表可以由M个子三维查找表构建得到,一个子三维查找表对应一个像素类别。其中,M为上述所述像素类别的种类数,并且,这M个子三维查找表中的每一个子三维查找表用于表征图像中的像素信息属于某个特定像素类别m的输入像素对输出像素的映射关系,像素类别m为M中的任意一种像素类别,M≥1。
在本申请上述实施方式中,具体阐述了本申请构建的空间感知三维查找表的一种构建方式,相比传统的三维查找表,该空间感知三维查找表具备更多的信息(如,像素类别信息),该空间感知三维查找表中的每个子三维查找表对应一种像素类别,基于该空间感知三维查找表的图像增强方法更加稳定,增强结果更精确。
在第一方面的一种可能实现方式中,在构建好该空间感知三维查找表后,就可基于得到的第一分类信息以及该空间感知三维查找表得到目标查找表。具体地,在本申请的一些实施方式中,执行设备基于第一分类信息以及空间感知三维查找表得到目标查找表的原则是直接根据第一分类信息从M个子三维查找表中得到最终的一个目标查找表,具体的实现方式可以是:执行设备根据第一预测分类信息对M个子三维查找表进行加权求和,得到目标查找表。
在本申请上述实施方式中,具体阐述了执行设备如何基于第一分类信息以及空间感知三维查找表得到目标查找表,经过该过程得到的目标查找表融合了像素类别的细节信息,提高了模型精度。
在第一方面的一种可能实现方式中,执行设备得到的第一特征除了作为第二神经网络层的输入外,还可以由执行设备通过第三神经网络层进行图像分类,生成第二分类信息。具体地,得到的第一特征还可以作为第三神经网络层的输入,再由执行设备通过第三神经网络层对输入的第一特征进行图像分类,生成第二分类信息,该第二分类信息用于表征输入图像属于各图像类别的概率,其中,图像类别的种类数可以预先设定,图像类别的种类数可用T表示,是一个超参数,每种图像类别可用wt表示,其中,
Figure BDA0002955261000000031
wt表征对应图像类别的概率信息。在这种情况下,基于第一分类信息以及空间感知三维查找表得到目标查找表,空间感知三维查找表根据各像素类别构建得到就包括:执行设备基于第一神经网络层、第二神经网络层以及第三神经网络层得到了输入图像的第一分类信息和第二分类信息之后,将进一步基于该第一分类信息、该第二分类信息以及空间感知三维查找表得到一个目标查找表,需要注意的是,在同时考虑像素类别和图像类别的情况下,输入像素信息除了包括输入像素点的像素值、所述输入像素点在图像中所处的位置、所述输入像素点所属的像素类别之外,还包括输入像素信息所来自的图像所属的图像类别。
在本申请上述实施方式中,执行设备根据输入图像的图像类别、输入图像中的每个像素点的像素类别以及构建的空间感知三维查找表得到目标查找表,并基于该目标查找表实现对输入图像的增强,相对传统三维查找表提升了处理能力,解决了基于传统三维查找表的增强方法中由于信息少从而容易产生不精确结果(如,局部产生错误颜色、出现伪影等)的问题。
在第一方面的一种可能实现方式中,空间感知三维查找表可以由T×M个子三维查找表构建得到,一个子三维查找表对应一个图像类别以及一个像素类别,其中,T为上述所述的图像类别的种类数,M为上述所述的像素类别的种类数,并且,这T×M个子三维查找表中的每一个用于表征图像属于某个特定图像类别t、且图像中的像素信息属于某个特定像素类别m的输入像素对输出像素的映射关系,图像类别t为T中的任意一种图像类别,像素类别m为M中的任意一种像素类别。
在本申请上述实施方式中,具体阐述了本申请构建的空间感知三维查找表的构建方式,相比传统的三维查找表,该空间感知三维查找表具备更多的信息(如,图像类别信息、像素类别信息),基于该空间感知三维查找表的图像增强方法更加稳定,增强结果更精确。
在第一方面的一种可能实现方式中,在构建好该空间感知三维查找表后,就可基于得到第一分类信息、得到的第二分类信息以及该空间感知三维查找表得到目标查找表。具体地,在本申请的一些实施方式中,基于第一分类信息、第二分类信息以及空间感知三维查找表得到目标查找表的原则是先根据图像类别从T×M个子三维查找表中得到M个子查找表,然后再根据像素类别从这M个子查找表中得到最终的一个目标查找表,具体的实现方式可以是:首先,根据第二预测分类信息对空间感知三维查找表进行T维度上的加权求和,得到M个第一子查找表,然后,根据第一预测分类信息对得到的M个第一子查找表进行加权求和,得到最终的目标查找表。
在本申请上述实施方式中,具体阐述了执行设备如何基于第一分类信息、第二分类信息以及空间感知三维查找表得到目标查找表,经过该过程得到的目标查找表融合了图像类别、像素类别的细节信息,提高了模型精度。
在第一方面的一种可能实现方式中,根据输入图像以及目标查找表,得到与输入图像对应的增强图像的方式具体可以是:对输入图像的每个像素信息的邻域子三维查找表执行插值操作,得到与该输入图像对应的增强图像,具体地,可以是从输入图像确定第一输入像素信息,该第一输入像素信息用于表征输入图像中的任意一个像素点的像素值以及该像素点在输入图像中所处的位置;之后,根据第一输入像素信息确定所述第一输入像素信息的邻域输入像素信息(如,该第一输入像素信息周围的8个输入像素信息,即所述的邻域输入像素信息),并根据该第一输入像素信息对应的第一目标查找表确定该邻域输入像素信息对应的第二目标查找表(第二目标查找表可以是一个或多个);最后,对该第一目标查找表与该第二目标查找表执行插值操作,得到与该输入图像对应的增强图像。
在本申请上述实施方式中,进行插值操作可以进一步提升增强结果的平滑性与鲁棒性。
在第一方面的一种可能实现方式中,通过第一神经网络层对输入图像进行特征提取,得到第一特征的过程还可以是:先通过该第一神经网络层的一部分层(可称为第一神经网络层的第一子层)对输入图像进行下采样操作,得到降低了分辨率的目标图像。由于该第一子层的作用是执行下采样操作,因此该第一神经网络层的第一子层也可称为下采样单元。之后,再通过第一神经网络层的另一部分层(可称为第二神经网络层的第二子层)对得到的目标图像进行特征提取,得到第一特征,该第一神经网络层的第二子层进行特征提取的过程可以是执行连续的卷积操作和下采样操作。第一神经网络层执行多次下采样操作的目的是减少计算量,加快图像增强的处理速度。例如,如果输入模型的输入图像是4k/8k图像的情况时,图像增强过程可加快处理速度,做到实时的图像增强。
在本申请上述实施方式中,得到的第一特征是经过了下采样(即降低了分辨率)操作的特征,后续操作基于该下采样的特征进行操作,从而可减少计算量,加快图像增强的处理速度,提高实时性。
在第一方面的一种可能实现方式中,像素类别可以至少基于如下一种属性划分:颜色、亮度、语义信息(即语义分割结果)、深度、频谱或其他任何可以对图像进行划分的属性(也可以同时多种属性共同作用),具体此处不做限定。例如,假设像素类别是根据亮度信息进行分类,那么亮度可与具体的像素值相关,例如,可设定像素值x的取值范围为0≤x≤n1(如,0≤x≤50)时为低亮度,像素值x的取值范围为n1<x≤n2(如,50<x≤200)时为中亮度,像素值x的取值范围为n2<x≤255(如,200<x≤255)时为高亮度。还需要注意的是,这里仅是以划分3种亮度区域为例进行示意,在实际应用中,可划分为更多或更少的亮度区域,具体此处不做限定。
在本申请上述实施方式中,说明了像素类别的几种划分方式,具备广泛性。
第二方面,本申请实施例还提供一种模型的训练方法,该模型包括第一神经网络层、第二神经网络层以及空间感知三维查找表,该方法可以包括:首先,训练设备通过第一神经网络层对输入的训练图像进行特征提取,得到第一特征,该第一神经网络层包括神经网络的多个层,其中,该第一神经网络层中除最后一层外的其它层的输出都可称为中间特征。得到的第一特征再由训练设备通过第二神经网络层进行像素分类,生成第一预测分类信息。具体地,训练设备首先可以通过第二神经网络层的部分层(可称为第一子层)对第一特征以及第一神经网络层的各中间特征进行特征提取,得到第二特征;之后,再通过第二神经网络层的另一部分子层(可称为第二子层)对得到的第二特征进行像素分类,生成第一预测分类信息,该第一预测分类信息用于表征目标输入像素信息属于各像素类别的预测概率。其中,该目标输入像素信息用于表征训练图像中的任意一个位置处的像素点的像素值以及该像素点在该训练图像中所处的位置,像素类别的种类数可以预先设定,例如,像素类别的种类数可用M表示,是一个超参数,在对模型进行训练前设定M的具体取值,每种像素类别可用
Figure BDA0002955261000000051
表示,其中,
Figure BDA0002955261000000052
也就是训练图像上某个特定位置处像素的像素类别为
Figure BDA0002955261000000053
该像素类别
Figure BDA0002955261000000054
表征的是在训练图像I中的空间位置(h,w)处的输入像素I(h,w),且该输入像素I(h,w)的像素类别为m的分类概率为
Figure BDA0002955261000000055
训练设备基于第一神经网络层和第二神经网络层得到了训练图像的第一预测分类信息之后,将进一步基于该第一预测分类信息以及空间感知三维查找表得到一个目标查找表,该空间感知三维查找表用于表征输入像素信息(可以是任意一张图像上的像素信息,是泛指)与输出像素信息之间的映射关系,该输入像素信息包括输入像素点的像素值、该输入像素点在图像中所处的位置和该输入像素点所属的像素类别(普通的三维感知查找表只是包含输入像素点的像素值),目标查找表则用于表征目标输入像素信息与目标输出像素信息之间的映射关系,目标输入像素信息则为该输入图像中的一个像素信息。训练设备在得到目标查找表之后,就可以根据输入的训练图像以及得到的该目标查找表进行图像增强,从而得到与该训练图像对应的增强图像。得到与该训练图像对应的增强图像后,训练设备会进一步利用损失函数对该模型进行迭代训练,直至模型收敛,该损失函数就用于表征增强图像与真实图像之间的差异,该真实图像与该训练图像是对应的。例如,假设训练图像是模糊图像,那么真实图像就是对应拍摄到的一张不模糊的真实图像,每个训练图像都有一个对应的真实图像,用于与输出的增强图像进行比较,并通过损失函数对模型的各个参数进行调整,直至模型收敛。
在本申请上述实施方式中,具体阐述了一种新的模型结构以及对该模型的具体训练过程,由于该训练过程用到了图像的像素类别信息(即第一预测分类信息),相比于传统的基于三维查找表的图像增强方法,本申请实施例构建的空间感知三维查找表由于考虑了像素类别,从而可解决了基于传统三维查找表的增强方法中由于信息少(仅有像素值)从而容易产生不精确结果(如,局部产生错误颜色、出现伪影等)的问题。
在第二方面的一种可能实现方式中,所述空间感知三维查找表根据所述各像素类别构建得到包括:空间感知三维查找表可以由M个子三维查找表构建得到,一个子三维查找表对应一个像素类别。其中,M为上述所述像素类别的种类数,并且,这M个子三维查找表中的每一个子三维查找表用于表征图像中的像素信息属于某个特定像素类别m的输入像素对输出像素的映射关系,像素类别m为M中的任意一种像素类别,M≥1。
在本申请上述实施方式中,具体阐述了本申请构建的空间感知三维查找表的一种构建方式,相比传统的三维查找表,该空间感知三维查找表具备更多的信息(如,像素类别信息),该空间感知三维查找表中的每个子三维查找表对应一种像素类别,基于该空间感知三维查找表的图像增强方法更加稳定,增强结果更精确。
在第二方面的一种可能实现方式中,训练设备可基于第一预测分类信息以及该空间感知三维查找表得到目标查找表。具体地,在本申请的一些实施方式中,训练设备基于第一预测分类信息以及空间感知三维查找表得到目标查找表的原则是直接根据第一预测分类信息从M个子三维查找表中得到最终的一个目标查找表,具体的实现方式可以是:训练设备根据第一预测分类信息对M个子三维查找表进行加权求和,得到目标查找表。
在本申请上述实施方式中,具体阐述了训练设备如何基于第一分类信息以及空间感知三维查找表得到目标查找表,经过该过程得到的目标查找表融合了像素类别的细节信息,提高了模型精度。
在第二方面的一种可能实现方式中,模型还可以包括第三神经网络层,在这种情况下,训练设备得到的第一特征除了作为第二神经网络层的输入外,还可以由训练设备通过第三神经网络层进行图像分类,生成第二预测分类信息。具体地,训练设备得到的第一特征还可以作为第三神经网络层的输入,再由训练设备通过第三神经网络层对输入的第一特征进行图像分类,生成第二预测分类信息,该第二预测分类信息用于表征输入的训练图像属于各图像类别的预测概率,其中,图像类别的种类数可以预先设定,图像类别的种类数可用T表示,是一个超参数,在对模型进行训练前设定T的具体取值,每种图像类别可用wt表示,其中,
Figure BDA0002955261000000061
wt表征对应图像类别的概率信息。在这种情况下,基于第一预测分类信息以及空间感知三维查找表得到目标查找表,空间感知三维查找表根据各像素类别构建得到就包括:训练设备基于第一神经网络层、第二神经网络层以及第三神经网络层得到了训练图像的第一预测分类信息和第二预测分类信息之后,将进一步基于该第一预测分类信息、该第二预测分类信息以及空间感知三维查找表得到一个目标查找表,同样需要注意的是,在同时考虑像素类别和图像类别的情况下,输入像素信息除了包括输入像素点的像素值、所述输入像素点在图像中所处的位置、所述输入像素点所属的像素类别之外,还包括输入像素信息所来自的图像所属的图像类别。
在本申请上述实施方式中,具体阐述了一种新的模型结构以及对该模型的具体训练过程,由于该训练过程同时用到了图像类别(即第二预测分类信息)信息、像素类别信息(即第一预测分类信息),相比于传统的基于三维查找表的图像增强方法,本申请实施例构建的空间感知三维查找表由于考虑了图像类别和像素类别,从而可解决了基于传统三维查找表的增强方法中由于信息少从而容易产生不精确结果(如,局部产生错误颜色、出现伪影等)的问题。
在第二方面的一种可能实现方式中,空间感知三维查找表可以由T×M个子三维查找表构建得到,一个子三维查找表对应一个图像类别以及一个像素类别,其中,T为上述所述的图像类别的种类数,M为上述所述的像素类别的种类数,并且,这T×M个子三维查找表中的每一个用于表征图像属于某个特定图像类别t、且图像中的像素信息属于某个特定像素类别m的输入像素对输出像素的映射关系,图像类别t为T中的任意一种图像类别,像素类别m为M中的任意一种像素类别。
在本申请上述实施方式中,具体阐述了本申请构建的空间感知三维查找表的构建方式,相比传统的三维查找表,该空间感知三维查找表具备更多的信息(如,图像类别信息、像素类别信息),基于该空间感知三维查找表的图像增强方法更加稳定,增强结果更精确。
在第二方面的一种可能实现方式中,在构建好该空间感知三维查找表后,就可基于得到第一预测分类信息、得到的第二预测分类信息以及该空间感知三维查找表得到目标查找表。具体地,在本申请的一些实施方式中,基于第一预测分类信息、第二预测分类信息以及空间感知三维查找表得到目标查找表的原则是先根据图像类别从T×M个子三维查找表中得到M个子查找表,然后再根据像素类别从这M个子查找表中得到最终的一个目标查找表,具体的实现方式可以是:首先,根据第二预测分类信息对空间感知三维查找表进行T维度上的加权求和,得到M个第一子查找表,然后,根据第一预测分类信息对得到的M个第一子查找表进行加权求和,得到最终的目标查找表。
在本申请上述实施方式中,具体阐述了如何基于第一预测分类信息、第二预测分类信息以及空间感知三维查找表得到目标查找表,经过该过程得到的目标查找表融合了图像类别、像素类别的细节信息,提高了模型精度。
在第二方面的一种可能实现方式中,根据输入的训练图像以及目标查找表,得到与训练图像对应的增强图像的方式具体可以是:对输入的训练图像的每个像素信息的邻域子三维查找表执行插值操作,得到与该训练图像对应的增强图像,具体地,可以是从训练图像确定第一输入像素信息,该第一输入像素信息用于表征训练图像中的任意一个像素点的像素值以及该像素点在训练图像中所处的位置;之后,根据第一输入像素信息确定所述第一输入像素信息的邻域输入像素信息(如,该第一输入像素信息周围的8个输入像素信息,即所述的邻域输入像素信息),并根据该第一输入像素信息对应的第一目标查找表确定该邻域输入像素信息对应的第二目标查找表;最后,对该第一目标查找表与该第二目标查找表执行插值操作,得到与该训练图像对应的增强图像。
在本申请上述实施方式中,进行插值操作可以进一步提升增强结果的平滑性与鲁棒性。
在第二方面的一种可能实现方式中,通过第一神经网络层对输入的训练图像进行特征提取,得到第一特征的过程还可以是:通过该第一神经网络层的一部分层(即第一神经网络层的第一子层)对输入的训练图像进行下采样操作,得到降低了分辨率的目标图像。由于该第一子层的作用是执行下采样操作,因此该第一神经网络层的第一子层也可称为下采样单元。之后,再通过第一神经网络层的另一部分层(即第一神经网络层的第二子层)对得到的目标图像进行特征提取,得到第一特征,该第一神经网络层的第二子层进行特征提取的过程可以是执行连续的卷积操作和下采样操作。第一神经网络层执行多次下采样操作的目的是减少计算量,加快图像增强的处理速度。例如,如果输入模型的训练图像是4k/8k图像的情况时,图像增强过程可加快处理速度,做到实时的图像增强。
在本申请上述实施方式中,得到的第一特征是经过了下采样(即降低了分辨率)操作的特征,后续操作基于该下采样的特征进行操作,从而可减少计算量,加快图像增强的处理速度,提高实时性。
在第二方面的一种可能实现方式中,像素类别可以至少基于如下一种属性划分:颜色、亮度、语义信息(即语义分割结果)、深度、频谱或其他任何可以对图像进行划分的属性(也可以同时多种属性共同作用),具体此处不做限定。例如,假设像素类别是根据亮度信息进行分类,那么亮度可与具体的像素值相关,例如,可设定像素值x的取值范围为0≤x≤n1(如,0≤x≤50)时为低亮度,像素值x的取值范围为n1<x≤n2(如,50<x≤200)时为中亮度,像素值x的取值范围为n2<x≤255(如,200<x≤255)时为高亮度。还需要注意的是,这里仅是以划分3种亮度区域为例进行示意,在实际应用中,可划分为更多或更少的亮度区域,具体此处不做限定。
在本申请上述实施方式中,说明了像素类别的几种划分方式,具备广泛性。
本申请实施例第三方面还提供一种构建空间感知三维查找表的方法,该方法可以包括:首先,确定像素类别的种类数M,并根据该像素类别的种类数M得到由M个子三维查找表构成的空间感知三维查找表,每个子三维查找表可以是一个N×N×N的大小数据结构,即Key-value表项,用于实现输入像素对输出像素的映射。其中,每个子三维查找表用于表征针对某种特定像素类别的像素映射关系,当访问该空间感知三维查找表时,除了与输入像素信息的像素值相关(该输入像素信息包括输入像素点的像素值、该输入像素点在图像中所处的位置和该输入像素点所属的像素类别),还与该像素具体的像素类别信息相关,这样在本质上解决了传统三维查找表缺乏空间信息的问题。
在第三方面的一种可能实现方式中,为了兼顾不同的场景(即图像所属的图像类别),本申请构建的空间感知的三维查找表还可以包含T个上述所述的空间感知三维查找表的子单元,每个子单元为M个N×N×N大小的子三维查找表,因此,该空间感知的三维查找具体为T×M×N×N×N×3尺寸的数据结构,其中,T和M均为超参数,T表征的是上述所述的图像类别的种类数,M表征的是上述所述的像素类别的种类数,N表征的是一个子三维查找表在R/G/B空间的尺寸,3表示R/G/B三通道。
这里需要说明的是,构建好的空间感知三维查找表与上述所述的第一神经网络层、第二神经网络层、第三神经网络层一起构成本申请实施例构建的模型,对模型的训练过程同时也对该空间感知三维查找表所表征的映射关系进行了训练。
本申请实施例第四方面提供一种执行设备,该执行设备具有实现上述第一方面或第一方面任意一种可能实现方式的方法的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。
本申请实施例第五方面提供一种训练设备,该训练设备具有实现上述第二方面或第二方面任意一种可能实现方式的方法的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。
本申请实施例第六方面提供一种执行设备,可以包括存储器、处理器以及总线系统,其中,存储器用于存储程序,处理器用于调用该存储器中存储的程序以执行本申请实施例第一方面或第一方面任意一种可能实现方式的方法。
本申请实施例第七方面提供一种训练设备,可以包括存储器、处理器以及总线系统,其中,存储器用于存储程序,处理器用于调用该存储器中存储的程序以执行本申请实施例第二方面或第二方面任意一种可能实现方式的方法。
本申请第八方面提供一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机可以执行上述第一方面或第一方面任意一种可能实现方式的方法,或,使得计算机可以执行上述第二方面或第二方面任意一种可能实现方式的方法。
本申请实施例第九方面提供了一种计算机程序,当其在计算机上运行时,使得计算机可以执行上述第一方面或第一方面任意一种可能实现方式的方法,或,使得计算机可以执行上述第二方面或第二方面任意一种可能实现方式的方法。
本申请实施例第十方面提供了一种芯片,该芯片包括至少一个处理器和至少一个接口电路,该接口电路和该处理器耦合,至少一个接口电路用于执行收发功能,并将指令发送给至少一个处理器,至少一个处理器用于运行计算机程序或指令,其具有实现如上述第一方面或第一方面任意一种可能实现方式的方法的功能,或,其具有实现如上述第二方面或第二方面任意一种可能实现方式的方法的功能,该功能可以通过硬件实现,也可以通过软件实现,还可以通过硬件和软件组合实现,该硬件或软件包括一个或多个与上述功能相对应的模块。此外,该接口电路用于与该芯片之外的其它模块进行通信,例如,该接口电路可将芯片上训练得到的模型发送给目标设备(如,手机、个人电脑、智能车等)。
附图说明
图1为本申请实施例提供的一种图像语义分割示意图;
图2为本申请实施例提供的不同模型结构对图像的增强效果的对比示意图;
图3为本申请实施例提供的人工智能主体框架的一种结构示意图;
图4为本申请实施例提供的模型的一种结构示意图;
图5为本申请实施例提供的模型的另一种结构示意图;
图6为本申请实施例提供的图像增强系统的一种系统架构图;
图7为本申请实施例提供的模型的训练方法的一种流程示意图;
图8为本申请实施例提供的模型对输入的图像进行处理的一种流程示意图;
图9为本申请实施例提供的对图像中各个像素点的分类结果进行可视化处理后的对比示意图;
图10为本申请实施例提供的传统三维查找表与构建的空间感知三维查找表的对比示意图;
图11为本申请实施例提供的空间感知三维查找表一个结构示意图;
图12为本申请实施例提供的基于第一预测分类信息以及第二预测分类信息从空间感知三维查找表得到目标查找表的一个示意图;
图13为本申请实施例提供的基于输入的图像与目标查找表得到增强图像的一个流程示意图;
图14为本申请实施例提供的图像增强方法的一种流程示意图;
图15为本申请实施例提供的图像增强方法的一种具体实现方式的示意图;
图16为本申请实施例提供的训练好的模型用于处理图像增强任务的一个示意图;
图17为本申请实施例提供的本申请方法与基准方法的性能比较结果图;
图18为本申请实施例提供的本申请方法与基准方法的视觉效果比较图;
图19为本申请实施例提供的本申请方法与基准方法的运行时间比较图;
图20为本申请实施例提供的本申请方法与基准方法的能效分析图;
图21为本申请实施例提供的执行设备的一个示意图;
图22为本申请实施例提供的训练设备的一个示意图;
图23为本申请实施例提供的训练设备的另一示意图;
图24为本申请实施例提供的执行设备的另一示意图;
图25为本申请实施例提供的芯片的一种结构示意图。
具体实施方式
本申请实施例提供了一种图像增强方法、模型训练方法及设备,用于根据输入图像的图像类别、输入图像中的每个像素点的像素类别以及构建的空间感知三维查找表得到目标查找表,并基于该目标查找表实现对输入图像的增强,相对传统三维查找表提升了处理能力,解决了基于传统三维查找表的增强方法中由于信息少(仅有像素值)从而容易产生不精确结果(如,局部产生错误颜色、出现伪影等)的问题。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
本申请实施例涉及了许多关于神经网络的相关知识,为了更好地理解本申请实施例的方案,下面先对本申请实施例可能涉及的相关术语和概念进行介绍。应理解的是,相关的概念解释可能会因为本申请实施例的具体情况有所限制,但并不代表本申请仅能局限于该具体情况,在不同实施例的具体情况可能也会存在差异,具体此处不做限定。
(1)神经网络
神经网络可以是由神经单元组成的,具体可以理解为具有输入层、隐含层、输出层的神经网络,一般来说第一层是输入层,最后一层是输出层,中间的层数都是隐含层。其中,具有很多层隐含层的神经网络则称为深度神经网络(deep neural network,DNN)。神经网络中的每一层的工作可以用数学表达式
Figure BDA0002955261000000101
来描述,从物理层面,神经网络中的每一层的工作可以理解为通过五种对输入空间(输入向量的集合)的操作,完成输入空间到输出空间的变换(即矩阵的行空间到列空间),这五种操作包括:1、升维/降维;2、放大/缩小;3、旋转;4、平移;5、“弯曲”。其中1、2、3的操作由
Figure BDA0002955261000000102
完成,4的操作由“+b”完成,5的操作则由“a()”来实现。这里之所以用“空间”二字来表述是因为被分类的对象并不是单个事物,而是一类事物,空间是指这类事物所有个体的集合,其中,W是神经网络各层的权重矩阵,该矩阵中的每一个值表示该层的一个神经元的权重值。该矩阵W决定着上文所述的输入空间到输出空间的空间变换,即神经网络每一层的W控制着如何变换空间。训练神经网络的目的,也就是最终得到训练好的神经网络的所有层的权重矩阵。因此,神经网络的训练过程本质上就是学习控制空间变换的方式,更具体的就是学习权重矩阵。
需要注意的是,在本申请实施例中,基于机器学习任务所采用的模型,本质都是神经网络。
(2)损失函数
在训练神经网络的过程中,因为希望神经网络的输出尽可能的接近真正想要预测的值,可以通过比较当前网络的预测值和真正想要的目标值,再根据两者之间的差异情况来更新每一层神经网络的权重矩阵(当然,在第一次更新之前通常会有初始化的过程,即为神经网络中的各层预先配置参数),比如,如果网络的预测值高了,就调整权重矩阵让它预测低一些,不断的调整,直到神经网络能够预测出真正想要的目标值。因此,就需要预先定义“如何比较预测值和目标值之间的差异”,这便是损失函数(loss function)或目标函数(objective function),它们是用于衡量预测值和目标值的差异的重要方程。其中,以损失函数举例,损失函数的输出值(loss)越高表示差异越大,那么神经网络的训练就变成了尽可能缩小这个loss的过程。
在神经网络的训练过程中,可以采用误差反向传播(back propagation,BP)算法修正初始的神经网络模型中参数的大小,使得神经网络模型的重建误差损失越来越小。具体地,前向传递输入信号直至输出会产生误差损失,通过反向传播误差损失信息来更新初始的神经网络模型中的参数,从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动,旨在得到最优的神经网络模型的参数,例如权重矩阵。
(3)图像增强
图像增强也可称为图像质量增强,是指依据图像所存在的问题,按特定的需要突出一副图像中某些信息,同时,抑制(如,削弱、去除等)某些信息的处理方法,其主要目的是使得针对给定图像的应用场合,处理后的图像相比原来的图像更加有效,同时可提高图像质量(如,提高清晰度),例如,对图像的亮度、颜色、对比度、饱和度、动态范围等进行处理,以满足某种特定指标。
一般来说,传统的图像增强方法根据增强处理过程所在的空间不同,可分为基于空域和频域的方法。基于空域的方法直接对图像进行处理;基于频域的方法是在图像的某种变换域内对图像的变换系数进行修正,然后再反变换到原来的空域,得到增强的图像。
近年来,随着机器学习的发展,机器学习已经广泛应用到各个领域,尤其是在计算机视觉领域中的多种任务取得了令人瞩目的效果。目前,基于机器学习的图像增强方法也有很多,例如,可应用在图像复原(image restoration)和图像质量增强(image qualityenhancement)等领域。本申请实施例所述的图像增强方法,就是基于机器学习的图像增强方法。
(4)查找表(look-up-table,LUT)
查找表简称LUT,是一种数据集结构,通过输入数据可直接查询对应的输出数据。
(5)峰值信噪比(peak signal-to-noise ratio,PSNR)
PSNR是一种评价图像的客观标准,是一个表示信号最大可能功率和影响它的表示精度的破坏性噪声功率的比值的工程术语。PSNR经常用作图像处理等领域中信号重建质量的测量方法,通常简单地通过均方误差进行定义。一般而言,PSNR越高,表征与真值(groundtruth,GT)的差距越小。
(6)感受野(receptive field)
感受野是神经网络中的一个术语,用来表示神经网络内部处于不同位置的神经元对原始输入图像的感受范围的大小。神经元的感受野的值越大,表示其能接触到的原始输入图像的范围就越大,也意味着该神经元可能蕴含更为全局、语义层次更高的特征;而感受野的值越小,则表示其包含的特征越趋向于局部和细节。感受野的值可以大致用来判断神经网络中每一层的抽象层次。
(7)图像语义分割(semantic segmentation)
图像语义分割可简称为语义分割,是图像处理技术中关于图像理解的重要一环,也是人工智能领域中一个重要的分支。图像语义分割即是对图像中每一个像素进行分类,确定每个像素的类别(如属于背景、人或车等),从而进行区域划分。具体来说,就是将图像按照某种规则(如光照、类别、颜色等)将像素细分成不同子区域的过程。如图1所示,图1为本申请实施例提供的一种图像语义分割示意图,在图1中,将图像在像素级别按照类别划分成不同的子区域,图中不同的灰度代表不同的子区域,如建筑物、天空、植物。
在介绍本申请实施例前,先对目前几种常见的基于机器学习的图像增强方法进行简单介绍,使得后续便于理解本申请实施例。
方式一:针对基于机器学习的图像增强方法,一般来说,模型的网络结构越复杂,可取得更优的图像增强效果。以图2中的图像基础质量增强为例,左上角子图为原始输入图像,右下角子图为真值,右上角子图为一个简单结构的CNN(网络计算量27.8GFLOPS)的增强结果(可称为M-1),左下角子图为一个复杂结构的CNN(网络计算量4956GFLOPS)的增强结果(可称为M-2),由此可以看到,复杂的网络产生与真值更加接近的增强结果,也即是PSNR和结构相似性(structural similarity,SSIM)更高,同时图像颜色、亮度、对比度也与真值更加接近。基于此,一种典型的图像增强方法是以原始尺寸图像作为输入图像,学习像素到像素(pixel-to-pixel)的映射关系或者转换关系,典型的网络结构为UNet(一种类似U形结构的神经网络)和残差网络(residual network,ResNet),以Unet结构为例,该方法通过不断的下采样和上采样进行局部和全局特征提取,并采用跳连接对相同尺寸的特征进行融合,从而实现图像质量增强。该方法由于网络结构深,卷积具有较大的感受野,在去噪、色彩增强、超分等多个任务中均具有较强的能力。
由上述方式一可知,该方法的网络结构复杂,计算、存储等开销大,需要耗费的算力大,难以应用在手机等弱计算能力的终端设备上。
方式二:为了解决方式一种消耗算力大的问题,另一种图像增强方法是以下采样的图像作为输入图像,学习全局的一种变换因子或者映射曲线,然后把该全局变换因子或者映射曲线应用到全分辨率的每个像素上。具体地,通过CNN对下采样的低分辨率图像进行特征提取,学习到三维查找表,然后根据三维查找表中输入-输出像素的映射关系,对输入图像的每个输入像素进行转换,得到增强结果。
由上述方式二可知,这种方案计算、存储开销小,速度快,但由于三维查找表中表征的仅仅是输入像素与输出像素之间的映射关系,所以该方案稳定性差,例如,容易产生不精确的局部信息,甚至产生错误的颜色或者伪影,图像增强的失败率高。
综上所述,一种即能减少计算量、又能提高图像增强效果以及稳定性的图像增强方法亟待推出。
下面结合附图,对本申请的实施例进行描述。本领域普通技术人员可知,随着技术的发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
首先对人工智能系统总体工作流程进行描述,请参见图3,图3示出的为人工智能主体框架的一种结构示意图,下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。其中,“智能信息链”反映从数据的获取到处理的一列过程。举例来说,可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中,数据经历了“数据—信息—知识—智慧”的凝练过程。“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程,反映人工智能为信息技术产业带来的价值。
(1)基础设施
基础设施为人工智能系统提供计算能力支持,实现与外部世界的沟通,并通过基础平台实现支撑。通过传感器与外部沟通;计算能力由智能芯片(CPU、NPU、GPU、ASIC、FPGA等硬件加速芯片)提供;基础平台包括分布式计算框架及网络等相关的平台保障和支持,可以包括云存储和计算、互联互通网络等。举例来说,传感器和外部沟通获取数据,这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。
(2)数据
基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本,还涉及到传统设备的物联网数据,包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。
(3)数据处理
数据处理通常包括数据训练,机器学习,深度学习,搜索,推理,决策等方式。
其中,机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。
推理是指在计算机或智能系统中,模拟人类的智能推理方式,依据推理控制策略,利用形式化的信息进行机器思维和求解问题的过程,典型的功能是搜索与匹配。
决策是指智能信息经过推理后进行决策的过程,通常提供分类、排序、预测等功能。
(4)通用能力
对数据经过上面提到的数据处理后,进一步基于数据处理的结果可以形成一些通用的能力,比如可以是算法或者一个通用系统,例如,翻译,文本的分析,计算机视觉的处理,语音识别,图像的识别等等。
(5)智能产品及行业应用
智能产品及行业应用指人工智能系统在各领域的产品和应用,是对人工智能整体解决方案的封装,将智能信息决策产品化、实现落地应用,其应用领域主要包括:智能终端、智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶、智慧城市等。
本申请实施例首先提供了一种用于图像增强的模型,该模型可以包括第一神经网络层、第二神经网络层以及空间感知三维查找表,该模型也可以包括第一神经网络层、第二神经网络层、第三神经网络层以及空间感知三维查找表,具体此处不做限定,本申请实施例可以应用在该模型的网络结构优化设计上,而通过本申请实施例优化过结构的模型(即训练后的模型)具体可用于人工智能领域中的图像处理领域,具体地,可应用于图像处理领域的图像增强领域中。训练后的模型的处理对象为图像,以提高图像的增强效果。
接下来介绍本申请实施例提供的模型的结构,请参阅图4,图4为本申请实施例提供的模型400的一种结构示意图,该模型400具体可以包括:第一神经网络层401、第二神经网络层402、第三神经网络层403以及空间感知三维查找表404。基于该模型400,对本申请实施例提供的图像增强方法的原理进行简单介绍:首先,通过第一神经网络401对输入图像进行特征提取,得到第一特征,该第一特征再由第三神经网络层403以及第二神经网络层402分别进行图像分类以及像素分类,从而得到第二分类信息以及第一分类信息(若是训练阶段,则为第二预测分类信息和第一预测分类信息),第二分类信息可用一维向量[T]表示,T表示图像类别的种类数,该一维向量[T]的每个元素用于表征该输入图像属于每个图像类别的概率(如,是“人像”、“室内家居”、“室外风景”、“建筑物”等的概率分别是多少);该第一分类信息则可用三维矩阵[H,W,M]表示,其中,H/W分别为输入图像的高/宽,M为像素类别的种类数,例如,假设以亮度表征像素的类别属性,那么在输入图像中某个特定位置(h,w)像素属于“高亮”、“中亮”、“低亮”的概率分别是多少(假设M=3)。最后基于该第二分类信息、第一分类信息以及构建的空间感知三维查找表404得到与输入图像对应的增强图像。需要注意的是,空间感知三维查找表404是事先构建得到,是自定义的V=[T,M,N,N,N,3]大小的三维查找表,其中,[N,N,N]为数据结构大小,分别对应R/G/B三个通道,M即为上述所述的像素类别的种类数,T则为上述所述的图像类别的种类数。该空间感知三维查找表404实质表征的一种映射关系,可通过对模型的迭代训练学习得到。
需要说明的是,在本申请的一些实施方式中,本申请实施例提供的模型还可以不包括第三神经网络层,请参阅图5,图5为本申请实施例提供的模型500的一种结构示意图,该模型500具体可以包括:第一神经网络层501、第二神经网络层502以及空间感知三维查找表503。在这种情况下,本申请实施例提供的图像增强方法的原理就是:首先,通过第一神经网络501对输入图像进行特征提取,得到第一特征,该第一特征再由第二神经网络层502进行像素分类(此时就不进行图像分类了),从而得到第一分类信息(若是训练阶段,则为第一预测分类信息)。该第一分类信息可用三维矩阵[H,W,M]表示,其中,H/W分别为输入图像的高/宽,M为像素类别的种类数,例如,假设以亮度表征像素的类别属性,那么在输入图像中某个特定位置(h,w)像素属于“高亮”、“中亮”、“低亮”的概率分别是多少(假设M=3)。最后基于该第一分类信息以及构建的空间感知三维查找表503得到与输入图像对应的增强图像。需要注意的是,当模型500仅包括第一神经网络层501、第二神经网络层502以及空间感知三维查找表503时,事先构建的空间感知三维查找表503是自定义的V=[M,N,N,N,3]大小的三维查找表,其中,[N,N,N]为数据结构大小,分别对应R/G/B三个通道,M即为上述所述的像素类别的种类数。该空间感知三维查找表503实质表征的依然一种映射关系,可通过对模型的迭代训练学习得到。
此外,为了便于理解本方案,先结合图6对本申请实施例提供的图像增强系统的系统架构进行介绍,请先参阅图6,图6为本申请实施例提供的图像增强系统的一种系统架构图。在图6中,图像增强系统包括执行设备210、训练设备220、数据库230、客户设备240、数据存储系统250和数据采集设备260,执行设备210中包括计算模块211。其中,数据采集设备260用于获取用户需要的开源的大规模数据集(即训练集,训练集中包括训练图像),并将训练集存入数据库230中,训练设备220基于数据库230中的维护的训练集对本申请构建的模型201进行训练,该模型201可以是图4对应实施例所描述的模型400的结构,具体请参阅上述图4对应的实施例;该模型201也可以是图5对应实施例所描述的模型500的结构,具体请参阅上述图5对应的实施例,此处不予赘述。训练得到的训练后的模型201再在执行设备210上进行运用。执行设备210可以调用数据存储系统250中的数据、代码等,也可以将数据、指令等存入数据存储系统250中。数据存储系统250可以置于执行设备210中,也可以为数据存储系统250相对执行设备210是外部存储器。
经由训练设备220训练得到的训练后的模型201可以应用于不同的系统或设备(即执行设备210)中,具体可以是边缘设备或端侧设备,例如,手机、平板、笔记本电脑、监控系统(如,摄像头)、安防系统等等。在图6中,执行设备210配置有I/O接口212,与外部设备进行数据交互,“用户”可以通过客户设备240向I/O接口212输入数据。如,客户设备240可以是监控系统的摄像设备,通过该摄像设备拍摄的图像作为输入数据(即输入图像)输入至执行设备210的计算模块211,由计算模块211对输入的图像进行图像增强后得到增强图像,再将该增强图像输出至摄像设备或直接在执行设备210的显示界面(若有)进行显示或保存在执行设备210的存储介质上,以用于后续的下游任务;此外,在本申请的一些实施方式中,客户设备240也可以集成在执行设备210中,如,当执行设备210为手机时,则可以直接通过该手机获取到待增强图像(如,可以通过该手机的摄像头拍摄到的图像,或,通过该手机接收到的其他设备发送的图像等,此处对待增强图像的来源方式不做限定),再由该手机内的计算模块211对该待增强图像进行图像增强,得到增强图像,并直接将得到的增强图像呈现在手机的显示界面或进行保存。此处对执行设备210与客户设备240的产品形态不做限定。
值得注意的,图6仅是本申请实施例提供的一种系统架构的示意图,图中所示设备、器件、模块等之间的位置关系不构成任何限制,例如,在图6中,数据存储系统250相对执行设备210是外部存储器,在其它情况下,也可以将数据存储系统250置于执行设备210中;在图6中,客户设备240相对执行设备210是外部设备,在其他情况下,客户设备240也可以集成在执行设备210中。
还需要说明的是,本申请实施例所述的模型201的训练可以是在云侧实现,例如,可以由云侧的训练设备220(该训练设备220可设置在一个或多个服务器或者虚拟机上)获取训练集,并根据训练集内的多组训练图像对该模型201进行训练,得到训练后的模型201,之后,该训练后的模型201再发送给执行设备210进行应用,例如,发送给执行设备210进行下游任务,示例性地,图6对应的系统架构中所述,就是由训练设备220对该模型201进行训练,训练后的模型201再发送给执行设备210进行使用;上述实施例所述的模型201的训练也可以是在终端侧实现,即训练设备220可以是位于终端侧,例如,可以由终端设备(如,手机、智能手表等)、轮式移动设备(如,自动驾驶车辆、辅助驾驶车辆等)等获取训练集,并根据训练集内的多组训练图像对该模型201进行训练,得到训练后的模型201,该训练后的模型201就可以直接在该终端设备使用,也可以由该终端设备发送给其他的设备进行使用。具体本申请实施例对模型201在哪个设备(云侧或终端侧)上进行训练或应用不做限定。
由于模型的应用一般分为两个阶段,分别为训练阶段和推理阶段,下面分别从这两个阶段,对本申请实施例提供的模型的训练方法和图像增强方法的具体流程进行描述。
一、训练阶段
本申请实施例中,训练阶段指的是上述图6中训练设备220对模型201执行训练操作的过程。由于模型201即可以是图4对应实施例所述的模型400的结构,也可以是图5对应实施例所述的模型500的结构,不同的地方仅在于模型是否包括第三神经网络层,下面进行详细阐述。具体地,请参阅图7,图7为本申请实施例提供的模型的训练方法的一种流程示意图,该模型包括第一神经网络层、第二神经网络层、第三神经网络层以及空间感知三维查找表,该方法具体可以包括如下步骤:
701、训练设备通过第一神经网络层对训练图像进行特征提取,得到第一特征。
首先,训练设备通过第一神经网络层对输入的训练图像进行特征提取,得到第一特征,该第一神经网络层包括神经网络的多个层,其中,该第一神经网络层中除最后一层外的其它层的输出都可称为中间特征。
具体地,在本申请的一些实施方式中,可以通过该第一神经网络层的一部分层(可称为第一神经网络层的第一子层)对输入的训练图像进行下采样操作,得到降低了分辨率的目标图像。由于该第一子层的作用是执行下采样操作,因此该第一神经网络层的第一子层也可称为下采样单元。之后,再通过第一神经网络层的另一部分层(可称为第一神经网络层的第二子层)对得到的目标图像进行特征提取,得到第一特征,该第一神经网络层的第二子层进行特征提取的过程可以是执行连续的卷积操作和下采样操作。由于该第一神经网络层的第二子层的作用是提取特征,因此该第一神经网络层的第二子层也可称为编码器或特征提取器。
为便于理解,下面以图8为例进行示意(图8示意的模型包括了第三神经网络层,实际也可以不包括,此处不做限定):假设输入第一神经网络层800的训练图像I的原始尺寸为[H,W,3],经过该第一神经网络层800的第一子层801执行下采样操作后,生成降低了分辨率的目标图像Ilow,可用[H0,W0,3]表示,其中,H0<H,W0<W,在图8中,示意的是H0=256,W0=256。之后,该第一神经网络层800的第二子层802接收该目标图像Ilow作为输入,经过连续的卷积操作和下采样操作生成分辨率降低、通道维度增加的中间特征以及最后一层输出的第一特征F,在本申请的一些实施方式中,最后输出的第一特征F分辨率最低,如图8所示。
需要注意的是,在本申请上述实施例中,第一神经网络层执行多次下采样操作的目的是减少计算量,加快图像增强的处理速度。例如,如果输入模型的图像是4k/8k图像的情况时,图像增强过程可加快处理速度,做到实时的图像增强。
但在其他的一些实施方式中,如果设备对实时性要求不高,则第一神经网络层可以只做简单的特征提取,即可不需要进行连续的下采样操作,是否需要进行下采样操作根据实际需求设定,具体此处不做限定,但为便于阐述,本申请下述实施例均以需要进行下采样为例进行示意。
702、训练设备通过第二神经网络层的第一子层对第一特征及中间特征进行特征提取,得到第二特征,并通过第二神经网络层的第二子层对第二特征进行像素分类,生成第一预测分类信息,该第一预测分类信息用于表征目标输入像素信息属于各像素类别的预测概率,该目标输入像素信息用于表征训练图像中的任意一个像素点的像素值以及该像素点在该训练图像中所处的位置。
由步骤701得到的第一特征再由训练设备通过第二神经网络层进行像素分类,生成第一预测分类信息。具体地,训练设备首先可以通过第二神经网络层的部分层(可称为第二神经网络层的第一子层)对第一特征以及第一神经网络层的各中间特征进行特征提取,得到第二特征,在本申请的一些实施方式中,该第二神经网络层的第一子层进行特征提取的过程可以是执行连续的卷积操作/上采样操作;之后,再通过第二神经网络层的另一部分子层(可称为第二神经网络层的第二子层)对得到的第二特征进行像素分类,生成第一预测分类信息,该第一预测分类信息用于表征目标输入像素信息属于各像素类别的预测概率。其中,该目标输入像素信息用于表征训练图像中的任意一个位置处的像素点的像素值以及该像素点在该训练图像中所处的位置,像素类别的种类数可以预先设定,例如,像素类别的种类数可用M表示,是一个超参数,在对模型进行训练前设定M的具体取值,每种像素类别可用
Figure BDA0002955261000000171
表示,其中,
Figure BDA0002955261000000172
也就是训练图像上某个特定位置处像素的像素类别为
Figure BDA0002955261000000173
该像素类别
Figure BDA0002955261000000174
表征的是在训练图像I中的空间位置(h,w)处的输入像素I(h,w),且该输入像素I(h,w)的像素类别为m的分类概率为
Figure BDA0002955261000000175
需要说明的是,针对第二神经网络层,本申请可以不使用专用的损失函数进行约束,而是让网络自适应学习。这样对于具体的图像,得到的分类信息可以是颜色、亮度、语义信息(即语义分割结果)、深度信息(即图像中物体的距离远近)、频谱信息以及其他任何可以对图像进行划分的属性(也可以同时多种属性共同作用)。如图9所示,对图像中各个像素点的分类结果进行了可视化,不同灰度代表不同概率,暗色代表高概率,淡色代表低概率。可以看出,第一幅图像(即图9中的左上角的图像)中根据语义信息进行分类,可分为人群、天空、建筑物三个语义区域;第二幅图像(即图9中的左下角的图像)中根据亮度信息进行分类,分为中亮度、低亮度、高亮度三个亮度区域。
需要注意的是,在本申请的一些实施方式中,假设像素类别是根据亮度信息进行分类,那么亮度可与具体的像素值相关,例如,可设定像素值x的取值范围为0≤x≤n1(如,0≤x≤50)时为低亮度,像素值x的取值范围为n1<x≤n2(如,50<x≤200)时为中亮度,像素值x的取值范围为n2<x≤255(如,200<x≤255)时为高亮度。还需要注意的是,这里仅是以划分3种亮度区域为例进行示意,在实际应用中,可划分为更多或更少的亮度区域,具体此处不做限定。
在本申请实施例中,第二神经网络层的作用是进行像素分类,因此该第二神经网络层也可称为像素分类器。
依然以图8为例继续示意:第二神经网络层804接收第一神经网络层800的第二子层802产生的第一特征F以及第一神经网络层800的第二子层802中不同分辨率的中间特征(即图8中的局部特征融合(local concat)的操作)作为输入,经过连续的卷积/上采样操作得到与第一子层801输出的目标图像Ilow尺寸一致的第二特征,并最终经过尺寸恢复/卷积(resize/conv)等操作生成与原始输入图像I分辨率一致的最终像素类别结果
Figure BDA0002955261000000176
其中M为超参数,表示像素类别的种类数。对于某个特定的分类结果
Figure BDA0002955261000000177
表征在空间位置(h,w)的输入像素I(h,w),该像素类别m的分类概率为
Figure BDA0002955261000000181
703、训练设备通过第三神经网络层对第一特征进行图像分类,生成第二预测分类信息,该第二预测分类信息用于表征训练图像属于各图像类别的预测概率。
需要说明的是,在本申请的一些实施方式中,由步骤701得到的第一特征除了作为第二神经网络层的输入外,还可以由训练设备通过第三神经网络层进行图像分类,生成第二预测分类信息。具体地,由步骤701得到的第一特征还可以作为第三神经网络层的输入,再由训练设备通过第三神经网络层对输入的第一特征进行图像分类,生成第二预测分类信息,该第二预测分类信息用于表征输入的训练图像属于各图像类别的预测概率,其中,图像类别的种类数可以预先设定,图像类别的种类数可用T表示,是一个超参数,在对模型进行训练前设定T的具体取值,每种图像类别可用wt表示,其中,
Figure BDA0002955261000000182
wt表征对应图像类别的概率信息。
例如,当图像类别事先设定为“人像”、“室内家居”、“室外风景”、“建筑物”4个类别时,则T=4,得到的第二分类信息可用一维向量[T]表示,即[T]=[w0,w1,w2,w3],且该一维向量[T]内的各元素wt已进行归一化处理。例如,假设该[T]=[0.95,0.01,0.02,0.02],则该第二分类信息表示输入的训练图像为“人像”的预测概率是0.95,为“室内家居”的预测概率是0.01,为“室外风景”的预测概率是0.02,为“建筑物”的预测概率是0.02。
具体地,在本申请的一些实施方式中,该第三神经网络层进行图像分类的过程可以是经过连续的实例归一化(instance normalization,IN)/池化层(Pooling)/全连接层(full connection,FC)执行的操作。此外,在本申请实施例中,第三神经网络层的作用是对第一特征进行图像分类,因此该第三神经网络层也可称为图像分类器。
依然以图8为例继续示意:第三神经网络层803接收第一神经网络层800的第二子层802产生的第一特征F作为输入,经过连续的IN/Pooling/FC等操作,生成一维向量
Figure BDA0002955261000000183
其中,T为超参数,表示图像类别的种类数,wt表示对应图像类别的概率。
需要注意的是,在本申请的一些实施方式中,若包括步骤703,则步骤702与步骤703之间没有执行的先后顺序,即:训练设备可以先执行步骤702,再执行步骤703;训练设备也可以先执行步骤703,再执行步骤702;训练设备还可以同时执行步骤702和步骤703,具体此处不做限定。
还需要说明的是,本申请实施例步骤702和步骤703中第二神经网络层和第三神经网络层的输入都是第一特征,即由第一神经网络层先进行了特征提取,然后第二神经网络层和第三神经网络层共享该第一特征进行后续操作,共享特征的好处在于减少计算量,加快训练速度或推理速度。若用户对运算速率没有高要求,那么在本申请的一些实现方式中,也可以是不共享特征(即模型可以不需要第一神经网络层先行提取第一特征),可以是由第二神经网络层和第三神经网络层各自对输入的训练图像进行特征提取,各自得到第一特征,提取的过程与上述第一神经网络层的提取过程类似,此处不予赘述。
704、训练设备基于该第一预测分类信息以及空间感知三维查找表得到目标查找表,该空间感知三维查找表根据各像素类别构建得到。
在本申请的一种实现方式中,若不包括步骤703,也就是模型不包括第三神经网络层,如图5对应实施例所述的模型500,则训练设备基于该第一预测分类信息以及空间感知三维查找表得到目标查找表的过程可以是:训练设备基于第一神经网络层和第二神经网络层得到了训练图像的第一预测分类信息之后,将进一步基于该第一预测分类信息以及空间感知三维查找表得到一个目标查找表,其中,该空间感知三维查找表用于表征输入像素信息(可以是任意一张图像上的像素信息,是泛指)与输出像素信息之间的映射关系,该输入像素信息包括输入像素点的像素值、该输入像素点在图像中所处的位置和该输入像素点所属的像素类别(普通的三维感知查找表只是包含输入像素点的像素值),目标查找表则用于表征目标输入像素信息与目标输出像素信息之间的映射关系,目标输入像素信息则为该输入图像中的一个像素信息。也就是说,该空间感知三维查找表是根据各像素类别构建得到。具体地,在这种情况下,空间感知三维查找表可以由M个子三维查找表构建得到,其中,M为上述所述像素类别的种类数,并且,这M个子三维查找表中的每一个子三维查找表用于表征图像中的像素信息属于某个特定像素类别m的输入像素对输出像素的映射关系,像素类别m为M中的任意一种像素类别,M≥1。
在本申请的另一种实现方式中,若包括步骤703,也就是模型包括第三神经网络层,如图4对应实施例所述的模型400,则训练设备基于该第一预测分类信息以及空间感知三维查找表得到目标查找表的过程可以是:训练设备基于第一神经网络层、第二神经网络层以及第三神经网络层得到了训练图像的第一预测分类信息和第二预测分类信息之后,将进一步基于该第一预测分类信息、该第二预测分类信息以及空间感知三维查找表得到一个目标查找表,该空间感知三维查找表根据各图像类别以及各像素类别构建得到。具体地,在这种情况下,空间感知三维查找表可以由T×M个子三维查找表构建得到,其中,T为上述所述的图像类别的种类数,M为上述所述的像素类别的种类数,并且,这T×M个子三维查找表中的每一个用于表征图像属于某个特定图像类别t、且图像中的像素信息属于某个特定像素类别m的输入像素对输出像素的映射关系,图像类别t为T中的任意一种图像类别,像素类别m为M中的任意一种像素类别。
为便于理解,下面对如何构建得到空间感知三维查找表的具体实现方式进行阐述,请参阅图10,图10中的(a)子示意图是一个传统的三维查找表的示意图,传统的三维查找表可用如下式(1)表示:
Figure BDA0002955261000000191
其中,i,j,
Figure BDA0002955261000000192
为i,j,k=0,1,2,…,N-1的简写形式,表征查找表U中i/j/k(分别对应R/G/B三个颜色通道)三个维度的访问坐标,具体地,i/j/k是像素值R/G/B的等比例缩小。具体而言,其定义了一个N×N×N的大小数据结构,即Key-value表项,用于实现输入像素对输出像素的映射。即针对给定的输入像素(相对于查表的输入key),直接从表项中获取对应的增强结果(相对于表项的value)。对于给定的输入像素
Figure BDA0002955261000000193
其增强后的输出像素
Figure BDA0002955261000000194
可以根据如下公式(2)获得。根据输入像素的值
Figure BDA0002955261000000195
访问查找表U,并获取对应位置的“输入-输出”映射关系
Figure BDA0002955261000000196
从而直接读取增强后的结果
Figure BDA0002955261000000197
Figure BDA0002955261000000201
可以看出,在传统的三维查找表中,该映射关系仅仅与输入的像素值相关,与像素的空间位置、像素的具体语义信息均无关;对于具有相同像素值、不同空间位置、不同语义信息的输入像素,具有相同的增强结果。这种映射关系简化了三维查找表的设计难度,但对于图像增强的稳定性较差,容易产生不精确的局部信息,甚至产生错误的颜色以及伪影。
因此,本申请实施例构建了一种新的三维查找表,该新的三维查找表可称为空间感知三维查找表,在一种实现方式中(即模型不包括第三神经网络层的情况),空间感知三维查找表可以先由M个N×N×N大小的子三维查找表构成,如图10中的(b)子示意图所示,每个子三维查找表用于表征针对某种特定像素类别的像素映射关系,M表示像素类别的种类数。其中,像素类别信息
Figure BDA0002955261000000202
是空间感知的,与其邻域像素相关。在融合像素类别信息之后,当访问该空间感知三维查找表时,除了与输入像素的像素值
Figure BDA0002955261000000203
相关,还与该像素具体的像素类别信息
Figure BDA0002955261000000204
相关,这样在本质上解决了传统三维查找表缺乏空间信息的问题。本申请把这种融入像素类别信息的三维查找表定义为空间感知三维查找表,其映射关系用
Figure BDA0002955261000000205
表示,其输入-输出映射关系如下公式(3)所示:
Figure BDA0002955261000000206
需要说明的是,在本申请的另一些实施方式中(即模型包括第三神经网络层的情况),为了兼顾不同的场景(即图像所属的图像类别),本申请构建的空间感知的三维查找表还可以包含T个上述所述的空间感知三维查找表的子单元,每个子单元为M个N×N×N大小的子三维查找表,因此,该空间感知的三维查找具体为T×M×N×N×N×3尺寸的数据结构,可记为
Figure BDA0002955261000000207
如图11所示,图11示意的申请构建的空间感知三维查找表的另一个示意图,其中,T和M均为超参数,T表征的是上述所述的图像类别的种类数,M表征的是上述所述的像素类别的种类数,N表征的是一个子三维查找表在R/G/B空间的尺寸,3表示R/G/B三通道。
这里需要说明的是,构建好的空间感知三维查找表与上述所述的第一神经网络层、第二神经网络层、第三神经网络层一起构成本申请实施例构建的模型,对模型的训练过程同时也对该空间感知三维查找表所表征的映射关系进行了训练。
由上述图10和图11对应实施例所述可知,根据模型是否包括第三神经网络层,构建的空间感知三维查找表略有不同:若该模型包括第三神经网络层(如,图4中的模型400),构建的空间感知三维查找表可以是如图11所示的形式,即该空间感知三维查找表由T×M个子三维查找表构建得到;若该模型不包括第三神经网络层(如,图5中的模型500),构建的空间感知三维查找表可以是如图10中的(b)子示意图所示的形式,即该空间感知三维查找表由M个子三维查找表构建得到。下面基于这两种不同的空间感知三维查找表分别进行阐述:
a、空间感知三维查找表由T×M个子三维查找表构建得到。
在构建好该空间感知三维查找表后,训练设备就可基于步骤702得到第一预测分类信息、步骤703得到的第二预测分类信息以及该空间感知三维查找表得到目标查找表。具体地,在本申请的一些实施方式中,训练设备基于第一预测分类信息、第二预测分类信息以及空间感知三维查找表得到目标查找表的原则是先根据图像类别从T×M个子三维查找表中得到M个子查找表,然后再根据像素类别从这M个子查找表中得到最终的一个目标查找表,具体的实现方式可以是:首先,训练设备根据第二预测分类信息对空间感知三维查找表进行T维度上的加权求和,得到M个第一子查找表,然后,根据第一预测分类信息对得到的M个第一子查找表进行加权求和,得到最终的目标查找表。
为便于理解,下面详细进行说明:具体请参阅图12,图12为本申请实施例提供的基于第二预测分类信息[T]以及第一预测分类信息[H,W,M]从该空间感知三维查找表得到目标查找表的一个示意图,首先,根据第三神经网络层输出的第二预测分类信息
Figure BDA0002955261000000211
Figure BDA0002955261000000212
在图像类别的维度对构建的空间感知三维查找表在T维度进行加权求和,即将一维向量[T]=(w0,w1,……,wT-1)与空间感知三维查找表里各自对应的v0,v1,……,vT-1进行加权求和,生成M个第一子查找表,对于输入的不同训练图像,产生不同的第二预测分类信息wt,最终得到的M个第一子查找表也不同,从而实现图像级别的场景自适应,这M个第一子查找表可用如下公式(4)表示:
Figure BDA0002955261000000213
对于输出像素
Figure BDA0002955261000000214
与输入像素
Figure BDA0002955261000000215
的关系,可以通过如下公式(5)表示:
Figure BDA0002955261000000216
在得到M个第一子查找表后,对于某个特定位置、特定取值的输入像素(即目标输入像素信息),根据该第一预测分类信息[H,W,M]对M个第一子查找表进行加权求和,实现像素级空间自适应。具体为,对于某个输入像素,其包含像素的像素值信息以及像素类别信息,根据像素值信息访问R/G/B维度索引对应的查找表,以及像素分类信息访问该索引位置对应的M个第一子查找表。假定Xh,w={Xh,w,r,Xh,w,g,Xh,w,b}表示在空间位置(h,w)输入像素值,那么空间感知三维查找表R/G/B维度的索引信息(i,j,k)可以通过如下公式(6)获得:
Figure BDA0002955261000000217
其中,
Figure BDA0002955261000000218
Cmax为R/G/B颜色通道对应的最大值,
Figure BDA0002955261000000219
为向上求整操作。具体如图13所示,根据(i,j,k)值索引空间感知查找表,可以得到M个对应的第一子查找表
Figure BDA00029552610000002110
结合该像素值对应的第一预测分类信息
Figure BDA00029552610000002111
进行融合操作,得到融合空间像素分类信息的单个空间感知查找表(即目标查找表)。此时经过该目标查找表得到的增强后的结果
Figure BDA00029552610000002112
可用公式(7)表示:
Figure BDA00029552610000002113
Figure BDA0002955261000000221
b、空间感知三维查找表由M个子三维查找表构建得到。
在构建好该空间感知三维查找表后,训练设备可基于步骤702得到第一预测分类信息以及该空间感知三维查找表得到目标查找表。具体地,在本申请的一些实施方式中,训练设备基于第一预测分类信息以及空间感知三维查找表得到目标查找表的原则是直接根据第一预测分类信息从M个子三维查找表中得到最终的一个目标查找表,具体的实现方式可以是:训练设备根据第一预测分类信息对M个子三维查找表进行加权求和,得到目标查找表。需要注意的是,方式b得到目标查找表的方式与上述方式a得到目标查找表的方式类似,不同的地方仅在于不需要先从T×M个子三维查找表中先求得M个第一子查找表(方式b中的M个子三维查找表就相当于方式a中的M个第一子查找表),其余部分可参阅方式a中的描述,此处不予赘述。
705、训练设备根据该训练图像以及该目标查找表,得到与该训练图像对应的增强图像。
训练设备在得到目标查找表之后,就可以根据输入的训练图像以及得到的该目标查找表进行图像增强,从而得到与该训练图像对应的增强图像。具体可参阅图13所示。
需要注意的是,为了进一步提升增强结果的平滑性与鲁棒性,在空间感知三维查找表中,还可以对训练图像的每个像素信息的邻域子三维查找表执行插值操作,得到与该训练图像对应的增强图像。具体地,对当前(i,j,k)位置的邻域(如2×2×2邻域)的子查找表进行插值(如三线性插值),得到最终的增强结果{Yh,w,c|c∈{r,g,b}},该最终的增强结果可用如下公式(8)表示:
Figure BDA0002955261000000222
Figure BDA0002955261000000223
Figure BDA0002955261000000224
由于第二神经网络层产生的是第一预测分类信息,因此该第一预测分类信息考虑了邻域的相关信息,且是像素级精度的,因此本申请实施例提供的模型训练方法能实现更好的图像增强效果。
706、训练设备利用损失函数对该模型进行迭代训练,直至模型收敛。
上述步骤701至步骤705是训练设备针对一张训练图像的训练过程,在步骤705中得到与该训练图像对应的增强图像后,训练设备会进一步利用损失函数对该模型进行迭代训练,直至模型收敛,该损失函数就用于表征增强图像与真实图像之间的差异,该真实图像与该训练图像是对应的。例如,假设训练图像是模糊图像,那么真实图像就是对应拍摄到的一张不模糊的真实图像,每个训练图像都有一个对应的真实图像,用于与输出的增强图像进行比较,并通过损失函数对模型的各个参数进行调整,直至模型收敛。
需要注意的是,在本申请的一些实施方式中,用到的相关损失函数可以包括:重建损失(reconstruction loss)、色彩损失(color loss)、感知损失(perception loss)、平滑损失(smooth loss)、单调性损失(monotonicity loss)等。
在本申请上述实施方式中,具体阐述了一种新的模型结构以及对该模型的具体训练过程,当该模型不包括第三神经网络层时,该模型的训练过程用到了像素类别信息(即第一预测分类信息);当该模型包括第三神经网络层时,则该模型的训练过程则同时用到了图像类别(即第二预测分类信息)信息、像素类别信息(即第一预测分类信息),相比于传统的基于三维查找表的图像增强方法,本申请实施例构建的空间感知三维查找表由于考虑了像素类别/图像类别,从而可解决了基于传统三维查找表的增强方法中由于信息少从而容易产生不精确结果(如,局部产生错误颜色、出现伪影等)的问题。
二、推理阶段
本申请实施例中,推理阶段指的是上述图6中执行设备210利用训练后的模型201对输入图像进行具体的图像增强的过程。类似地,由于模型201即可以是图4对应实施例所述的模型400的结构,也可以是图5对应实施例所述的模型500的结构,不同的地方仅在于模型是否包括第三神经网络层,下面进行详细阐述。
需要注意的是,在推理阶段,本申请实施例提供的图像增强方法中所采用的是上述所述训练后得到的模型(即迭代训练后得到的收敛模型),也就是在图14对应的实施例中,当模型为图4对应实施例所述的模型400的结构,那么所涉及的第一神经网络层、第二神经网络层、第三神经网络层以及空间感知三维查找表均是指训练后的第一神经网络层、训练后的第二神经网络层、训练后的第三神经网络层以及训练后的空间感知三维查找表;当模型为图5对应实施例所述的模型500的结构,那么所涉及的第一神经网络层、第二神经网络层以及空间感知三维查找表均是指训练后的第一神经网络层、训练后的第二神经网络层以及训练后的空间感知三维查找表,后续不再赘述。
具体地,请参阅图14,图14为本申请实施例提供的图像增强方法的一种流程示意图,该方法具体可以包括如下步骤:
1401、执行设备通过第一神经网络层对输入图像进行特征提取,得到第一特征。
首先,执行设备通过第一神经网络层对输入图像进行特征提取,得到第一特征,该第一神经网络层包括神经网络的多个层,其中,该第一神经网络层中除最后一层外的其它层的输出都可称为中间特征。
具体地,在本申请的一些实施方式中,可以通过该第一神经网络层的一部分层(即第一神经网络层的第一子层)对输入图像进行下采样操作,得到降低了分辨率的目标图像;之后,再通过第一神经网络层的另一部分层(即第一神经网络层的第二子层)对得到的目标图像进行特征提取,得到第一特征,该第一神经网络层的第二子层进行特征提取的过程可以是执行连续的卷积操作和下采样操作。
本申请实施例中,步骤1401的具体实现方式与上述步骤701的区别仅在于:步骤1401的执行主体为执行设备,且处理的对象不是训练图像而是输入图像(即待处理的真实图像),其余部分可以参阅图7对应实施例中步骤701的描述,此处不做赘述。
1402、执行设备通过第二神经网络层的第一子层对该第一特征以及中间特征进行特征提取,得到第二特征,并通过第二神经网络层的第二子层对第二特征进行像素分类,生成第一分类信息,该第一分类信息用于表征目标输入像素信息属于各像素类别的概率,该目标输入像素信息用于表征该输入图像中的任意一个像素点的像素值以及该像素点在该输入图像中所处的位置。
由步骤1401得到的第一特征可以作为第二神经网络层的输入,由执行设备通过第二神经网络层进行像素分类,生成第一分类信息。具体地,执行设备首先可以通过第二神经网络层的部分层(可称为第一子层)对第一特征以及第一神经网络层的各中间特征进行特征提取,得到第二特征,在本申请的一些实施方式中,该第二神经网络层的第一子层进行特征提取的过程可以是执行连续的卷积操作/上采样操作;之后,再通过第二神经网络层的另一部分子层(可称为第二子层)对得到的第二特征进行像素分类,生成第一分类信息,该第一分类信息用于表征目标输入像素信息属于各像素类别的概率。其中,该目标输入像素信息用于表征输入图像中的任意一个位置处的像素点的像素值以及该像素点在该输入图像中所处的位置,像素类别的种类数可以预先设定,例如,像素类别的种类数可用M表示,是一个超参数,每种像素类别可用
Figure BDA0002955261000000241
表示,其中,
Figure BDA0002955261000000242
也就是输入图像上某个特定位置处像素的像素类别为
Figure BDA0002955261000000243
该像素类别
Figure BDA0002955261000000244
表征的是在输入图像I中的空间位置(h,w)处的输入像素I(h,w),且该输入像素I(h,w)的像素类别为m的分类概率为
Figure BDA0002955261000000245
1403、执行设备通过第三神经网络层对该第一特征进行图像分类,生成第二分类信息,该第二分类信息用于表征该输入图像属于各图像类别的概率。
需要说明的是,在本申请的一些实施方式中,由步骤1401得到的第一特征除了作为第二神经网络层的输入外,还可以由执行设备通过第三神经网络层进行图像分类,生成第二分类信息。具体地,由步骤1401得到的第一特征还可以作为第三神经网络层的输入,再由执行设备通过第三神经网络层对输入的第一特征进行图像分类,生成第二分类信息,该第二分类信息用于表征输入图像属于各图像类别的概率,其中,图像类别的种类数可以预先设定,图像类别的种类数可用T表示,是一个超参数,每种图像类别可用wt表示,其中,
Figure BDA0002955261000000246
wt表征对应图像类别的概率信息。
具体地,在本申请的一些实施方式中,该第三神经网络层进行图像分类的过程可以是经过连续的IN/Pooling/FC执行的操作。
需要注意的是,在本申请的一些实施方式中,若包括步骤1403,则步骤1402与步骤1403之间没有执行的先后顺序,即:执行设备可以先执行步骤1402,再执行步骤1403;执行设备也可以先执行步骤1403,再执行步骤1402;执行设备还可以同时执行步骤1402和步骤1403,具体此处不做限定。
同样地,本申请实施例步骤1402和步骤1403中第二神经网络层和第三神经网络层的输入都是第一特征,即由第一神经网络层先进行了特征提取,然后第二神经网络层和第三神经网络层共享该第一特征进行后续操作,共享特征的好处在于减少计算量,加快训练速度或推理速度。若用户对运算速率没有高要求,那么在本申请的一些实现方式中,也可以是不共享特征(即模型可以不需要第一神经网络层先行提取第一特征),可以是由第二神经网络层和第三神经网络层各自对输入的训练图像进行特征提取,各自得到第一特征,提取的过程与上述第一神经网络层的提取过程类似,此处不予赘述。
1404、执行设备基于该第一分类信息以及空间感知三维查找表得到目标查找表,该空间感知三维查找表根据各像素类别构建得到。
在本申请的一种实现方式中,若不包括步骤1403,也就是模型不包括第三神经网络层,如图5对应实施例所述的模型500,则执行设备基于该第一分类信息以及空间感知三维查找表得到目标查找表的过程可以是:执行设备基于第一神经网络层和第二神经网络层得到了输入图像的第一分类信息之后,将进一步基于该第一分类信息以及空间感知三维查找表得到一个目标查找表,同样地,该空间感知三维查找表用于表征输入像素信息(可以是任意一张图像上的像素信息,是泛指)与输出像素信息之间的映射关系,该输入像素信息包括输入像素点的像素值、该输入像素点在图像中所处的位置和该输入像素点所属的像素类别(普通的三维感知查找表只是包含输入像素点的像素值),目标查找表则用于表征目标输入像素信息与目标输出像素信息之间的映射关系,目标输入像素信息则为该输入图像中的一个像素信息。也就是说,该空间感知三维查找表根据各像素类别构建得到。具体地,在这种情况下,空间感知三维查找表可以由M个子三维查找表构建得到,其中,M为上述所述像素类别的种类数,并且,这M个子三维查找表中的每一个子三维查找表用于表征图像中的像素信息属于某个特定像素类别m的输入像素对输出像素的映射关系,像素类别m为M中的任意一种像素类别,M≥1。
在本申请的另一种实现方式中,若包括步骤1403,也就是模型包括第三神经网络层,如图4对应实施例所述的模型400,则执行设备基于该第一分类信息以及空间感知三维查找表得到目标查找表的过程可以是:执行设备基于第一神经网络层、第二神经网络层以及第三神经网络层得到了输入图像的第一分类信息和第二分类信息之后,将进一步基于该第一分类信息、该第二分类信息以及空间感知三维查找表得到一个目标查找表,在本申请实施例中,在同时考虑像素类别和图像类别的情况下,输入像素信息除了包括输入像素点的像素值、所述输入像素点在图像中所处的位置、所述输入像素点所属的像素类别之外,还包括输入像素信息所来自的图像所属的图像类别。也就是说,该空间感知三维查找表根据各图像类别以及各像素类别构建得到。具体地,在这种情况下,空间感知三维查找表可以由T×M个子三维查找表构建得到,其中,T为上述所述的图像类别的种类数,M为上述所述的像素类别的种类数,并且,这T×M个子三维查找表中的每一个用于表征图像属于某个特定图像类别t、且图像中的像素信息属于某个特定像素类别m的输入像素对输出像素的映射关系,图像类别t为T中的任意一种图像类别,像素类别m为M中的任意一种像素类别。
需要注意的是,本申请实施例空间感知三维查找表的构建具体可参阅图7对应实施例中步骤704的描述,此处不做赘述。
同样地,根据模型是否包括第三神经网络层,构建的空间感知三维查找表略有不同:若该模型包括第三神经网络层(如,图4中的模型400),构建的空间感知三维查找表可以是如图10中的(b)子示意图所示的形式,即该空间感知三维查找表由M个子三维查找表构建得到;若该模型不包括第三神经网络层(如,图5中的模型500),构建的空间感知三维查找表可以是如图11所示的形式,即该空间感知三维查找表由T×M个子三维查找表构建得到。下面基于这两种不同的空间感知三维查找表分别进行阐述:
a、空间感知三维查找表由T×M个子三维查找表构建得到。
在构建好该空间感知三维查找表后,执行设备就可基于步骤1402得到第一分类信息、步骤1403得到的第二分类信息以及该空间感知三维查找表得到目标查找表。具体地,在本申请的一些实施方式中,执行设备基于第一分类信息、第二分类信息以及空间感知三维查找表得到目标查找表的原则是先根据图像类别从T×M个子三维查找表中得到M个子查找表,然后再根据像素类别从这M个子查找表中得到最终的一个目标查找表,具体的实现方式可以是:首先,执行设备根据第二分类信息对空间感知三维查找表进行T维度上的加权求和,得到M个第一子查找表,然后,根据第一分类信息对得到的M个第一子查找表进行加权求和,得到最终的目标查找表。
b、空间感知三维查找表由M个子三维查找表构建得到。
在构建好该空间感知三维查找表后,执行设备可基于步骤1402得到第一分类信息以及该空间感知三维查找表得到目标查找表。具体地,在本申请的一些实施方式中,执行设备基于第一分类信息以及空间感知三维查找表得到目标查找表的原则是直接根据第一分类信息从M个子三维查找表中得到最终的一个目标查找表,具体的实现方式可以是:执行设备根据第一预测分类信息对M个子三维查找表进行加权求和,得到目标查找表。需要注意的是,方式b得到目标查找表的方式与上述方式a得到目标查找表的方式类似,不同的地方仅在于不需要先从T×M个子三维查找表中先求得M个第一子查找表(方式b中的M个子三维查找表就相当于方式a中的M个第一子查找表),其余部分可参阅方式a中的描述,此处不予赘述。
需要说明的是,在本申请实施例中,如何得到目标查找表的实现方式具体可参阅图7对应实施例中步骤704中的描述,不同地方仅在于步骤704中的图像是训练图像,而本步骤1404输入的是真实图像,步骤704中的执行主体是训练设备,本步骤1404的执行主体是执行设备,此处不做赘述。
1405、执行设备根据该输入图像以及该目标查找表,得到与该输入图像对应的增强图像。
执行设备在得到目标查找表之后,就可以根据输入图像以及得到的该目标查找表进行图像增强,从而得到与该输入图像对应的增强图像。
同样需要注意的是,为了进一步提升增强结果的平滑性与鲁棒性,在空间感知三维查找表中,还可以对输入图像的每个像素信息的邻域子三维查找表执行插值操作,得到与该输入图像对应的增强图像。具体的插值操作可参阅图7对应实施例中步骤705的描述,此处不做赘述。
为便于理解,下面以图15为例,对本申请实施例提供的图像增强方法的一种具体实现方式进行示意,在该实例中,模型中包括第三神经网络层:
首先,模型(指训练后的模型)中第一神经网络层接收给定的输入图像I,该输入图像I的原始尺寸假设为[H,W,3],之后由第一神经网络层的第一子层(即下采样单元)对该输入图像执行下采样操作,生成降低了分辨率的目标图像Ilow,如[256,256,3]分辨率;接着第一神经网络层的第二子层接收下采样的低分辨率的目标图像Ilow作为输入,经过连续的卷积和下采样操作生成分辨率进一步降低、通道维度增加的中间特征。并且在第一神经网络层的第二子层的最后一层(即分辨率最低处)输出第一特征F,得到的该第一特征F再分别作为第二神经网络层的输入和第三神经网络层的输入。其中,第三神经网络层接收该第一特征F作为输入,经过连续的IN/Pooling/FC等操作,生成图像级别的场景分类信息,即第二分类信息,该第二分类信息可用以为向量[T]表示,并且
Figure BDA0002955261000000271
第二神经网络层接收到该第一特征F以及第一神经网络层的第二子层中不同分辨率的中间特征作为输入,经过连续的卷积/上采样/resize/conv等操作生成与原始输入图像I分辨率一致的最终的像素分类结果,即第一分类信息,该第一分类信息可用三维矩阵[H,W,M]表示,并且
Figure BDA0002955261000000272
在得到第二分类信息
Figure BDA0002955261000000273
后,可先根据该第二分类信息和空间感知三维查找表
Figure BDA0002955261000000274
Figure BDA0002955261000000275
在图像级别的场景维度(即[T]维度)对空间感知三维查找表V进行加权求和,生成M个子三维查找表,具体操作如公式4所述,此处不予赘述。在得到第一分类信息
Figure BDA0002955261000000276
后,再根据该第一分类信息和得到的M个子三维查找表,在像素级别的维度对M个子三维查找表进行加权求和,从而得到最终的目标查找表。需要注意的是,对于输入图像I中的某个具体的输入像素,其融合操作可参阅上述公式(7),此处不予赘述。最后,为了进一步提升增强结果的平滑性与鲁棒性,在空间感知三维查找表V中,对输入图像I中每个像素对应的子三维查找表位置的邻域(如2×2×2邻域)子三维查找表进行插值(如三线性插值),得到最终的增强图像O,具体可参阅上述公式(8),此处不予赘述。
在本申请上述实施方式中,执行设备根据输入图像的图像类别、输入图像中的每个像素点的像素类别以及构建的空间感知三维查找表得到目标查找表,并基于该目标查找表实现对输入图像的增强,相对传统三维查找表提升了处理能力,解决了基于传统三维查找表的增强方法中由于信息少(仅有像素值)从而容易产生不精确结果(如,局部产生错误颜色、出现伪影等)的问题。
需要说明的是,本申请实施例构建的模型结构(即图4或图5对应实施例所述的模型)以及经过训练得到的训练后的模型可以应用在多种图像增强任务中,在实际应用中,由于智能安防、智慧城市、智能终端等领域中都可以用到本申请实施例中训练好的模型来进行图像增强任务处理,如图16所示,训练后的模型可用于去噪、去模糊、去雨等图像增强任务,下面将对多个落地到产品的多个应用场景进行介绍。
(1)相机图片的修复
相机照片修复是一项非常重要的技术,在处理手机成像效果等场景中具有重大的使用价值,目前相机图像修复的主要方法是采用多个针对不同图像增强任务的卷积神经网络模型进行的,使用本申请构建的模型结构,计算、存储开销更小,运行速度快,可以以极小的计算/存储开销对4K/8K等超高清图像实现实时图像质量增强。
(2)手机拍照优化
本申请训练好的模型可用于终端(如,手机、智能手表、个人电脑等)的拍照优化,以终端为手机为例,当用户使用手机拍照时,自动抓取人脸、动物等目标,可以帮助手机自动对焦、美化等。若手机与被拍摄对象距离较远时,手机拍摄到的图像可能不太清楚,因此本申请训练好的模型就可应用于手机,该训练好的模型有效保留了图像像素的更多信息,如不仅包括像素点的像素值,还包括各像素点所处图像中的空间位置,优化后的图像画质也比现有神经网络优化的图像更清晰,可以给用户带来更好的用户体验,提升手机产品品质。
需要说明的是,本申请所述的训练好的模型不仅可以应用于上述所述的应用场景中,还可以应用在人工智能领域的各个细分领域中,如,电子屏幕显示、自动驾驶、视频监控等多种应用场景中的图像/视频质量增强任务中,都可使用本方法和训练后的模型,只要能使用神经网络的领域和设备,都可应用本申请实施例提供的训练好的模型,此处不再举例示意。
为了对本申请实施例所带来的有益效果有更为直观的认识,以下对本申请实施例所带来的技术效果作进一步的对比。具体地,在给定的训练集、测试集上,测试本申请实施例所述方法以及基准算法1至基准算法7的图像增强的效果,其中,基准算法1为RSGU算法,详细参考文献《Range scaling global u-net for perceptual image enhancement onmobile devices.ECCV 2018》;基准算法2为DPED方法,详细参考文献《Dslr-qualityphotos on mobile devices with deep convolutional networks》;基准算法3为HPEU方法,详细参考文献《Hybrid image enhancement with progressive laplacian enhancingunit.ACM MM 2019》。基准算法4为HDRNet方法,详细参考文献《Deep bilateral learningfor real-time image enhancement.ACM TOG 2017》。基准算法5为HPU方法,详细参考文献《Underexposed photo enhancement using deep illumination estimation.CVPR2019》。基准算法6为Deep LPF方法,详细参考文献《Deeplpf:Deep local parametricfilters for image enhancement.CVPR 2020》。基准算法7为3D LUT方法(即传统的三维查找表),详细参考文献《Learning image-adaptive3d lookup tables for highperformance photo enhancement in real-time.TPAMI 2020》。本申请实施例提供的方法与如上几个基准算法进行比较,具有如下效果:
(1)更好的客观指标
在开源数据集上进行测试,本申请上述方法与已有的几种基准方法相比,具有更好的PSNR/SSIM(越大越好)、LPIPS(越小越好),具体如图17所示。
(2)更好的视觉效果
本申请的方法在亮度、颜色、动态范围、局部对比度等与GT更加接近,且没有伪影。如图18所示,DPED方法的增强结果是天空存在严重的色阶;HPEU/HDRNet方法的增强结果是颜色偏色,总体偏黄;Deep LPF方法的结果是天空不平滑,且存在伪影;传统的3D LUT方法的结果是天空色彩饱和度低,实线框内墙体局部区域颜色偏黄,虚线框内局部区域亮度低、细节模糊。本申请所述的方法,在传统3D LUT的基础上,融入了空间信息,局部亮度、颜色、对比度均有很大的提升,与GT更加接近。
(3)更快的速度
在V100 GPU平台中,本申请的方法处理一张4K图像仅仅需要4.39ms,比传统的3DLUT速度稍慢,但是远远快于其他基准方法,具体如图19所示。
(4)更好的能效效果
首先,对近几年图像增强领域最先进(state-of-the-art,SOTA)方法的能效图进行总结,横坐标是针对不同分辨率图像的处理时间,纵坐标是在HDR+公开数据集上的性能。垂直虚线是实时处理(33ms/image)的分界线,水平虚线是截止当前为止SOTA性能(即最好的性能)。可以看到,当前还没有一个算法在取得SOTA性能的同时,能对4K分辨率图像进行实时处理。而本申请的方法在保证图像增强效果的同时,可以较小的算力和处理时间实现对超高分辨率(如4K/8K分辨率图像)图像的增强。如图20所示,综合考虑增强效果,本申请的方法处于图20中能效图左上角的位置,具有最好的性能以及第二快的速度,使得本申请训练后的模型能在弱计算能力设备(例如手机等消费级终端产品)上进行部署。相对于原始没有增加空间信息的3D LUT方法,在基准数据集上有2dB以上的性能提升。
在上述实施例的基础上,为了更好的实施本申请实施例的上述方案,下面还提供用于实施上述方案的相关设备。具体参阅图21,图21为本申请实施例提供的一种执行设备的示意图,该执行设备2100具体可以包括:特征提取模块2101、第一分类模块2102、计算模块2104以及获取模块2105,其中,特征提取模块2101,用于通过第一神经网络层对输入图像进行特征提取,得到第一特征,其中,该第一神经网络层中除最后一层外的其他层的输出为中间特征;第一分类模块2102,用于通过第二神经网络层的第一子层对所述第一特征以及所述中间特征进行特征提取,得到第二特征,并通过所述第二神经网络层的第二子层对所述第二特征进行像素分类,生成第一分类信息,所述第一分类信息用于表征目标输入像素信息属于各像素类别的概率,所述目标输入像素信息用于表征所述输入图像中的任意一个像素点的像素值以及所述像素点在所述输入图像中所处的位置;计算模块2104,用于基于所述第一分类信息以及空间感知三维查找表(3D LUT)得到目标查找表,该空间感知三维查找表用于表征输入像素信息与输出像素信息之间的映射关系,该输入像素信息包括输入像素点的像素值、该输入像素点在图像中所处的位置和该输入像素点所属的像素类别,该目标查找表用于表征该目标输入像素信息与目标输出像素信息之间的映射关系;获取模块2105,用于根据所述输入图像以及所述目标查找表,得到与所述输入图像对应的增强图像。
在本申请上述实施方式中,执行设备2100根据输入图像中的每个像素点的像素类别以及构建的空间感知三维查找表得到目标查找表,并基于该目标查找表实现对输入图像的增强,相对传统三维查找表提升了处理能力,解决了基于传统三维查找表的增强方法中由于信息少从而容易产生不精确结果(如,局部产生错误颜色、出现伪影等)的问题。
在一种可能的设计中,空间感知三维查找表可以由M个子三维查找表构建得到,其中,M为上述所述像素类别的种类数,一个子三维查找表对应一个像素类别。并且,这M个子三维查找表中的每一个子三维查找表用于表征图像中的像素信息属于某个特定像素类别m的输入像素对输出像素的映射关系,像素类别m为M中的任意一种像素类别,M≥1。
在本申请上述实施方式中,具体阐述了本申请构建的空间感知三维查找表的一种构建方式,相比传统的三维查找表,该空间感知三维查找表具备更多的信息(如,像素类别信息),该空间感知三维查找表中的每个子三维查找表对应一种像素类别,基于该空间感知三维查找表的图像增强方法更加稳定,增强结果更精确。
在一种可能的设计中,所述计算模块2104,具体用于:根据所述第一分类信息对所述M个子三维查找表进行加权求和,得到所述目标查找表。
在本申请上述实施方式中,具体阐述了计算模块2104如何基于第一分类信息以及空间感知三维查找表得到目标查找表,经过该过程得到的目标查找表融合了像素类别的细节信息,提高了模型精度。
在一种可能的设计中,所述执行设备2100还可以包括第二分类模块2103,该第二分类模型2103用于通过第三神经网络层对所述第一特征进行图像分类,生成第二分类信息,所述第二分类信息用于表征所述输入图像属于各图像类别的概率,图像类别的种类数预先设定。并且在这种情况下,所述计算模块2104,还用于基于所述第一分类信息、所述第二分类信息以及空间感知三维查找表得到目标查找表,需要注意的是,在同时考虑像素类别和图像类别的情况下,输入像素信息除了包括输入像素点的像素值、所述输入像素点在图像中所处的位置和所述输入像素点所属的像素类别之外,还包括输入像素信息所来自的图像所属的图像类别。
在本申请上述实施方式中,执行设备2100根据输入图像的图像类别、输入图像中的每个像素点的像素类别以及构建的空间感知三维查找表得到目标查找表,并基于该目标查找表实现对输入图像的增强,相对传统三维查找表提升了处理能力,解决了基于传统三维查找表的增强方法中由于信息少从而容易产生不精确结果(如,局部产生错误颜色、出现伪影等)的问题。
在一种可能的设计中,所述空间感知三维查找表根据所述各图像类别以及所述各像素类别构建得到包括:所述空间感知三维查找表由T×M个子三维查找表构建得到,一个子三维查找表对应一个图像类别以及一个像素类别,其中,T为所述图像类别的种类数,M为所述像素类别的种类数,每个子三维查找表用于表征图像属于目标图像类别、且图像中的像素信息属于目标像素类别的输入像素对输出像素的映射关系,所述目标图像类别为所述T中的任意一种图像类别,所述目标像素类别为所述M中的任意一种像素类别,T≥1,M≥1。
在本申请上述实施方式中,具体阐述了本申请构建的空间感知三维查找表的构建方式,相比传统的三维查找表,该空间感知三维查找表具备更多的信息(如,图像类别信息、像素类别信息),基于该空间感知三维查找表的图像增强方法更加稳定,增强结果更精确。
在一种可能的设计中,所述计算模块2104,具体还用于:根据所述第二分类信息对所述空间感知三维查找表进行T维度上的加权求和,得到M个第一子查找表;根据所述第一分类信息对所述M个第一子查找表进行加权求和,得到所述目标查找表。
在本申请上述实施方式中,具体阐述了计算模块2104如何基于第一分类信息、第二分类信息以及空间感知三维查找表得到目标查找表,经过该过程得到的目标查找表融合了图像类别、像素类别的细节信息,提高了模型精度。
在一种可能的设计中,获取模块2105,具体用于:对该输入图像的每个像素信息的邻域子三维查找表执行插值操作,得到与该输入图像对应的增强图像,具体地,可以是从输入图像确定第一输入像素信息,该第一输入像素信息用于表征输入图像中的任意一个像素点的像素值以及该像素点在输入图像中所处的位置;之后,根据第一输入像素信息确定所述第一输入像素信息的邻域输入像素信息(如,该第一输入像素信息周围的8个输入像素信息,即所述的邻域输入像素信息),并根据该第一输入像素信息对应的第一目标查找表确定该邻域输入像素信息对应的第二目标查找表(第二目标查找表可以是一个或多个);最后,对该第一目标查找表与该第二目标查找表执行插值操作,得到与该输入图像对应的增强图像。
在本申请上述实施方式中,获取模块2105进行插值操作可以进一步提升增强结果的平滑性与鲁棒性。
在一种可能的设计中,特征提取模块2101,具体用于:通过该第一神经网络层的第一子层对该输入图像执行下采样操作,得到目标图像;通过该第一神经网络层的第二子层对该目标图像进行特征提取,得到第一特征。
在本申请上述实施方式中,得到的第一特征是经过了下采样(即降低了分辨率)操作的特征,后续操作基于该下采样的特征进行操作,从而可减少计算量,加快图像增强的处理速度,提高实时性。
在一种可能的设计中,像素类别可以至少基于如下一种属性划分:颜色、亮度、语义信息(即语义分割结果)、深度、频谱等或其他任何可以对图像进行划分的属性(也可以同时多种属性共同作用),具体此处不做限定。
在本申请上述实施方式中,说明了像素类别的几种划分方式,具备广泛性。
需要说明的是,执行设备2100中各模块/单元之间的信息交互、执行过程等内容,与本申请中图14对应的方法实施例基于同一构思,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
本申请实施例还提供一种训练设备,具体参阅图22,图22为本申请实施例提供的一种训练设备的示意图,该训练设备2200具体可以包括:特征提取模块2201、第一分类模块2202、计算模块2204、获取模块2205以及迭代触发模块2206,其中,特征提取模块2201,用于通过第一神经网络层对训练图像进行特征提取,得到第一特征,其中,所述第一神经网络层中除最后一层外的其他层的输出为中间特征;第一分类模块2202,用于通过第二神经网络层的第一子层对所述第一特征以及所述中间特征进行特征提取,得到第二特征,并通过所述第二神经网络层的第二子层对所述第二特征进行像素分类,生成第一预测分类信息,所述第一预测分类信息用于表征目标输入像素信息属于各像素类别的预测概率,所述目标输入像素信息用于表征所述训练图像中的任意一个像素点的像素值以及所述像素点在所述训练图像中所处的位置,像素类别的种类数预先设定;计算模块2204,用于基于所述第一预测分类信息以及空间感知三维查找表(3D LUT)得到目标查找表,该空间感知三维查找表用于表征输入像素信息(可以是任意一张图像上的像素信息,是泛指)与输出像素信息之间的映射关系,该输入像素信息包括输入像素点的像素值、该输入像素点在图像中所处的位置和该输入像素点所属的像素类别(普通的三维感知查找表只是包含输入像素点的像素值),目标查找表则用于表征目标输入像素信息与目标输出像素信息之间的映射关系,目标输入像素信息则为该输入图像中的一个像素信息;获取模块2205,用于根据所述训练图像以及所述目标查找表,得到与所述训练图像对应的增强图像;迭代触发模块2206,用于利用损失函数对模型进行迭代训练,直至所述模型收敛,所述损失函数用于表征所述增强图像与真实图像之间的差异,所述真实图像与所述训练图像对应,所述模块包括所述第一神经网络层、所述第二神经网络层以及所述空间感知三维查找表。
在本申请上述实施方式中,具体阐述了一种新的模型结构以及对该模型的具体训练过程,由于该训练过程用到了图像的像素类别信息(即第一预测分类信息),相比于传统的基于三维查找表的图像增强方法,本申请实施例构建的空间感知三维查找表由于考虑了像素类别,从而可解决了基于传统三维查找表的增强方法中由于信息少从而容易产生不精确结果(如,局部产生错误颜色、出现伪影等)的问题。
在一种可能的设计中,所述空间感知三维查找表根据所述各像素类别构建得到包括:所述空间感知三维查找表由M个子三维查找表构建得到,一个子三维查找表对应一个像素类别。其中,M为所述像素类别的种类数,每个子三维查找表用于表征像素信息属于目标像素类别的输入像素对输出像素的映射关系,所述目标像素类别为所述M中的任意一种像素类别,M≥1。
在本申请上述实施方式中,具体阐述了本申请构建的空间感知三维查找表的一种构建方式,相比传统的三维查找表,该空间感知三维查找表具备更多的信息(如,像素类别信息),该空间感知三维查找表中的每个子三维查找表对应一种像素类别,基于该空间感知三维查找表的图像增强方法更加稳定,增强结果更精确。
在一种可能的设计中,所述计算模块2204,具体用于:根据所述第一预测分类信息对所述M个子三维查找表进行加权求和,得到所述目标查找表。
在本申请上述实施方式中,具体阐述了计算模块2204如何基于第一分类信息以及空间感知三维查找表得到目标查找表,经过该过程得到的目标查找表融合了像素类别的细节信息,提高了模型精度。
在一种可能的设计中,所述模型还包括第三神经网络层,所述训练设备2200还包括第二分类模块2203,该第二分类模块2203,用于通过所述第三神经网络层对所述第一特征进行图像分类,生成第二预测分类信息,所述第二预测分类信息用于表征所述训练图像属于各图像类别的预测概率,图像类别的种类数预先设定。在这种情况下,所述计算模块2204,还用于:基于所述第一预测分类信息、所述第二预测分类信息以及空间感知三维查找表得到目标查找表,同样需要注意的是,在同时考虑像素类别和图像类别的情况下,输入像素信息除了包括输入像素点的像素值、所述输入像素点在图像中所处的位置、所述输入像素点所属的像素类别之外,还包括输入像素信息所来自的图像所属的图像类别。
在本申请上述实施方式中,具体阐述了一种新的模型结构以及对该模型的具体训练过程,由于该训练过程同时用到了图像类别(即第二预测分类信息)信息、像素类别信息(即第一预测分类信息),相比于传统的基于三维查找表的图像增强方法,本申请实施例构建的空间感知三维查找表由于考虑了图像类别和像素类别,从而可解决了基于传统三维查找表的增强方法中由于信息少从而容易产生不精确结果(如,局部产生错误颜色、出现伪影等)的问题。
在一种可能的设计中,空间感知三维查找表可以由T×M个子三维查找表构建得到,一个子三维查找表对应一个图像类别以及一个像素类别,其中,T为上述所述的图像类别的种类数,M为上述所述的像素类别的种类数,并且,这T×M个子三维查找表中的每一个用于表征图像属于某个特定图像类别t、且图像中的像素信息属于某个特定像素类别m的输入像素对输出像素的映射关系,图像类别t为T中的任意一种图像类别,像素类别m为M中的任意一种像素类别。
在本申请上述实施方式中,具体阐述了本申请构建的空间感知三维查找表的构建方式,相比传统的三维查找表,该空间感知三维查找表具备更多的信息(如,图像类别信息、像素类别信息),基于该空间感知三维查找表的图像增强方法更加稳定,增强结果更精确。
在一种可能的设计中,计算模块2204,具体用于:根据该第二预测分类信息对该空间感知三维查找表进行T维度上的加权求和,得到M个第一子查找表;根据该第一预测分类信息对该M个第一子查找表进行加权求和,得到该目标查找表。
在本申请上述实施方式中,具体阐述了计算模块2204如何基于第一预测分类信息、第二预测分类信息以及空间感知三维查找表得到目标查找表,经过该过程得到的目标查找表融合了图像类别、像素类别的细节信息,提高了模型精度。
在一种可能的设计中,获取模块2205,具体用于:对该训练图像的每个像素信息的邻域子三维查找表执行插值操作,得到与该训练图像对应的增强图像,具体地,可以是从训练图像确定第一输入像素信息,该第一输入像素信息用于表征训练图像中的任意一个像素点的像素值以及该像素点在训练图像中所处的位置;之后,根据第一输入像素信息确定所述第一输入像素信息的邻域输入像素信息(如,该第一输入像素信息周围的8个输入像素信息,即所述的邻域输入像素信息),并根据该第一输入像素信息对应的第一目标查找表确定该邻域输入像素信息对应的第二目标查找表;最后,对该第一目标查找表与该第二目标查找表执行插值操作,得到与该训练图像对应的增强图像。
在本申请上述实施方式中,获取模块2205进行插值操作可以进一步提升增强结果的平滑性与鲁棒性。
在一种可能的设计中,特征提取模块2201,具体用于:通过该第一神经网络层的第一子层对该训练图像进行下采样操作,得到目标图像。
在本申请上述实施方式中,得到的第一特征是经过了下采样(即降低了分辨率)操作的特征,后续操作基于该下采样的特征进行操作,从而可减少计算量,加快图像增强的处理速度,提高实时性。
在一种可能的设计中,像素类别可以至少基于如下一种属性划分:颜色、亮度、语义信息(即语义分割结果)、深度、频谱等或其他任何可以对图像进行划分的属性(也可以同时多种属性共同作用),具体此处不做限定。
在本申请上述实施方式中,说明了像素类别的几种划分方式,具备广泛性。
需要说明的是,训练设备2200中各模块/单元之间的信息交互、执行过程等内容,与本申请中图7对应的方法实施例基于同一构思,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
接下来介绍本申请实施例提供的另一种训练设备,请参阅图23,图23为本申请实施例提供的训练设备的一种结构示意图,训练设备2300上可以部署有图22对应实施例中所描述的训练设备2200,用于实现图22对应实施例中训练设备2200的功能,具体的,训练设备2300由一个或多个服务器实现,训练设备2300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)2322和存储器2332,一个或一个以上存储应用程序2342或数据2344的存储介质2330(例如一个或一个以上海量存储设备)。其中,存储器2332和存储介质2330可以是短暂存储或持久存储。存储在存储介质2330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对训练设备2300中的一系列指令操作。更进一步地,中央处理器2322可以设置为与存储介质2330通信,在训练设备2300上执行存储介质2330中的一系列指令操作。
训练设备2300还可以包括一个或一个以上电源2326,一个或一个以上有线或无线网络接口2350,一个或一个以上输入输出接口2358,和/或,一个或一个以上操作系统2341,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本申请实施例中,中央处理器2322,用于执行图7对应实施例中的训练设备执行的模型的训练方法。例如,中央处理器2322可以用于:首先,通过第一神经网络层对输入的训练图像进行特征提取,得到第一特征,该第一神经网络层包括神经网络的多个层,其中,该第一神经网络层中除最后一层外的其它层的输出都可称为中间特征。得到的第一特征再作为第三神经网络层的输入,再通过第三神经网络层对输入的第一特征进行图像分类,生成第二预测分类信息,该第二预测分类信息用于表征输入的训练图像属于各图像类别的预测概率,其中,图像类别的种类数可以预先设定,图像类别的种类数可用T表示,是一个超参数,在对模型进行训练前设定T的具体取值,每种图像类别可用wt表示,其中,
Figure BDA0002955261000000341
wt表征对应图像类别的概率信息。得到的第一特征除了作为第三神经网络层的输入外,还需通过第二神经网络层进行像素分类,生成第一预测分类信息。具体地,首先可以通过第二神经网络层的部分层(可称为第一子层)对第一特征以及第一神经网络层的各中间特征进行特征提取,得到第二特征,在本申请的一些实施方式中,该第三神经网络层的第一子层进行特征提取的过程可以是执行连续的卷积操作/上采样操作;之后,再通过第三神经网络的另一部分子层(可称为第二子层)对得到的第二特征进行像素分类,生成第一预测分类信息,该第一预测分类信息用于表征目标输入像素信息属于各像素类别的预测概率。其中,该目标输入像素信息用于表征训练图像中的任意一个位置处的像素点的像素值以及该像素点在该训练图像中所处的位置,像素类别的种类数可以预先设定,例如,像素类别的种类数可用M表示,是一个超参数,在对模型进行训练前设定M的具体取值,每种像素类别可用
Figure BDA0002955261000000342
表示,其中,
Figure BDA0002955261000000343
也就是训练图像上某个特定位置处像素的像素类别为
Figure BDA0002955261000000344
该像素类别
Figure BDA0002955261000000345
表征的是在训练图像I中的空间位置(h,w)处的输入像素I(h,w),且该输入像素I(h,w)的像素类别为m的分类概率为
Figure BDA0002955261000000346
之后,基于第一神经网络层、第二神经网络层以及第三神经网络层得到了训练图像的第一预测分类信息和第二预测分类信息之后,将进一步基于该第一预测分类信息、该第二预测分类信息以及空间感知三维查找表得到一个目标查找表,该空间感知三维查找表根据各图像类别以及各像素类别构建得到。在得到目标查找表之后,就可以根据输入的训练图像以及得到的该目标查找表进行图像增强,从而得到与该训练图像对应的增强图像。在得到与该训练图像对应的增强图像后,进一步利用损失函数对该模型进行迭代训练,直至模型收敛,该损失函数就用于表征增强图像与真实图像之间的差异,该真实图像与该训练图像是对应的。例如,假设训练图像是模糊图像,那么真实图像就是对应拍摄到的一张不模糊的真实图像,每个训练图像都有一个对应的真实图像,用于与输出的增强图像进行比较,并通过损失函数对模型的各个参数进行调整,直至模型收敛。
需要说明的是,中央处理器2322执行上述各个步骤的具体方式,与本申请中图7对应的方法实施例基于同一构思,其带来的技术效果也与本申请上述实施例相同,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
接下来介绍本申请实施例提供的一种执行设备,请参阅图24,图24为本申请实施例提供的执行设备的一种结构示意图,执行设备2400具体可以表现为各种终端设备,如虚拟现实VR设备、手机、平板、笔记本电脑、智能穿戴设备、监控数据处理设备或者雷达数据处理设备等,此处不做限定。其中,执行设备2400上可以部署有图21对应实施例中所描述的执行设备2100,用于实现图21对应实施例中执行设备2100的功能。具体的,执行设备2400包括:接收器2401、发射器2402、处理器2403和存储器2404(其中执行设备2400中的处理器2403的数量可以一个或多个,图24中以一个处理器为例),其中,处理器2403可以包括应用处理器24031和通信处理器24032。在本申请的一些实施例中,接收器2401、发射器2402、处理器2403和存储器2404可通过总线或其它方式连接。
存储器2404可以包括只读存储器和随机存取存储器,并向处理器2403提供指令和数据。存储器2404的一部分还可以包括非易失性随机存取存储器(non-volatile randomaccess memory,NVRAM)。存储器2404存储有处理器和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。
处理器2403控制执行设备2400的操作。具体的应用中,执行设备2400的各个组件通过总线系统耦合在一起,其中总线系统除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都称为总线系统。
本申请上述图14或图15对应实施例揭示的方法可以应用于处理器2403中,或者由处理器2403实现。处理器2403可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器2403中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器2403可以是通用处理器、数字信号处理器(digital signalprocessing,DSP)、微处理器或微控制器,还可进一步包括专用集成电路(applicationspecific integrated circuit,ASIC)、现场可编程门阵列(field-programmable gatearray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。该处理器2403可以实现或者执行本申请图14或图15对应的实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器2404,处理器2403读取存储器2404中的信息,结合其硬件完成上述方法的步骤。
接收器2401可用于接收输入的数字或字符信息,以及产生与执行设备2400的相关设置以及功能控制有关的信号输入。发射器2402可用于通过第一接口输出数字或字符信息;发射器2402还可用于通过第一接口向磁盘组发送指令,以修改磁盘组中的数据;发射器2402还可以包括显示屏等显示设备。
本申请实施例中,在一种情况下,处理器2403,用于通过训练后的模型对输入的目标图像进行图像增强处理,得到对应的增强图像。该训练后的模型可以是经过本申请图7对应的训练方法得到,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有用于进行信号处理的程序,当其在计算机上运行时,使得计算机执行如前述所示实施例描述的训练设备所执行的步骤,或者,使得计算机执行如前述图14或图15所示实施例描述的执行设备所执行的步骤。
本申请实施例提供的训练设备、执行设备等具体可以为芯片,芯片包括:处理单元和通信单元,该处理单元例如可以是处理器,所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令,以使训练设备内的芯片执行上述所示实施例描述的训练设备所执行的步骤,或者,使得执行设备内的芯片执行如前述图14或图15所示实施例描述的执行设备所执行的步骤。
可选地,所述存储单元为所述芯片内的存储单元,如寄存器、缓存等,所述存储单元还可以是所述无线接入设备端内的位于所述芯片外部的存储单元,如只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)等。
具体的,请参阅图25,图25为本申请实施例提供的芯片的一种结构示意图,所述芯片可以表现为神经网络处理器NPU 200,NPU 200作为协处理器挂载到主CPU(Host CPU)上,由Host CPU分配任务。NPU的核心部分为运算电路2003,通过控制器2004控制运算电路2003提取存储器中的矩阵数据并进行乘法运算。
在一些实现中,运算电路2003内部包括多个处理单元(process engine,PE)。在一些实现中,运算电路2003是二维脉动阵列。运算电路2003还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中,运算电路2003是通用的矩阵处理器。
举例来说,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路从权重存储器2002中取矩阵B相应的数据,并缓存在运算电路中每一个PE上。运算电路从输入存储器2001中取矩阵A数据与矩阵B进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器(accumulator)2008中。
统一存储器2006用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(direct memory access controller,DMAC)2005,DMAC被搬运到权重存储器2002中。输入数据也通过DMAC被搬运到统一存储器2006中。
总线接口单元2010(bus interface unit,简称BIU),用于AXI总线与DMAC和取指存储器(Instruction Fetch Buffer,IFB)2009的交互。
总线接口单元2010,用于取指存储器2009从外部存储器获取指令,还用于存储单元访问控制器2005从外部存储器获取输入矩阵A或者权重矩阵B的原数据。
DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器2006或将权重数据搬运到权重存储器2002中或将输入数据数据搬运到输入存储器2001中。
向量计算单元2007包括多个运算处理单元,在需要的情况下,对运算电路的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。主要用于神经网络中非卷积/全连接层网络计算,如Batch Normalization(批归一化),像素级求和,对特征平面进行上采样等。
在一些实现中,向量计算单元2007能将经处理的输出的向量存储到统一存储器2006。例如,向量计算单元2007可以将线性函数和/或非线性函数应用到运算电路2003的输出,例如对卷积层提取的特征平面进行线性插值,再例如累加值的向量,用以生成激活值。在一些实现中,向量计算单元2007生成归一化的值、像素级求和的值,或二者均有。在一些实现中,处理过的输出的向量能够用作到运算电路2003的激活输入,例如用于在神经网络中的后续层中的使用。
控制器2004连接的取指存储器(instruction fetch buffer)2009,用于存储控制器2004使用的指令;
统一存储器2006,输入存储器2001,权重存储器2002以及取指存储器2009均为On-Chip存储器。外部存储器私有于该NPU硬件架构。
其中,上述任一处提到的处理器,可以是一个通用中央处理器,微处理器,ASIC,或一个或多个用于控制上述第一方面方法的程序执行的集成电路。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本申请提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,训练设备,或者网络设备等)执行本申请各个实施例所述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。

Claims (39)

1.一种图像增强方法,其特征在于,包括:
通过第一神经网络层对输入图像进行特征提取,得到第一特征,其中,所述第一神经网络层中除最后一层外的其他层的输出为中间特征;
通过第二神经网络层的第一子层对所述第一特征以及所述中间特征进行特征提取,得到第二特征,并通过所述第二神经网络层的第二子层对所述第二特征进行像素分类,生成第一分类信息,所述第一分类信息用于表征目标输入像素信息属于各像素类别的概率,所述目标输入像素信息用于表征所述输入图像中的任意一个像素点的像素值以及所述像素点在所述输入图像中所处的位置;
基于所述第一分类信息以及空间感知三维查找表(3D LUT)得到目标查找表,所述空间感知三维查找表用于表征输入像素信息与输出像素信息之间的映射关系,所述输入像素信息包括输入像素点的像素值、所述输入像素点在图像中所处的位置和所述输入像素点所属的像素类别,所述目标查找表用于表征所述目标输入像素信息与目标输出像素信息之间的映射关系;
根据所述输入图像以及所述目标查找表,得到与所述输入图像对应的增强图像。
2.根据权利要求1所述的方法,其特征在于,
所述空间感知三维查找表由M个子三维查找表构建得到,其中,M为所述像素类别的种类数,一个所述子三维查找表对应一个所述像素类别,M≥1。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一分类信息以及空间感知三维查找表(3D LUT)得到目标查找表包括:
根据所述第一分类信息对所述M个子三维查找表进行加权求和,得到所述目标查找表。
4.根据权利要求1所述的方法,其特征在于,在通过第一神经网络层对输入图像进行特征提取,得到第一特征之后,所述方法还包括:
通过第三神经网络层对所述第一特征进行图像分类,生成第二分类信息,所述第二分类信息用于表征所述输入图像属于各图像类别的概率;
所述基于所述第一分类信息以及空间感知三维查找表(3D LUT)得到目标查找表包括:
基于所述第一分类信息、所述第二分类信息以及空间感知三维查找表得到目标查找表,所述输入像素信息还包括所述输入像素信息所来自的图像所属的图像类别。
5.根据权利要求4所述的方法,其特征在于,
所述空间感知三维查找表由T×M个子三维查找表构建得到,其中,T为所述图像类别的种类数,M为所述像素类别的种类数,一个所述子三维查找表对应一个所述图像类别以及一个所述像素类别,T≥1,M≥1。
6.根据权利要求5所述的方法,其特征在于,所述基于所述第一分类信息、所述第二分类信息以及空间感知三维查找表得到目标查找表包括:
根据所述第二分类信息对所述空间感知三维查找表进行T维度上的加权求和,得到M个第一子查找表;
根据所述第一分类信息对所述M个第一子查找表进行加权求和,得到所述目标查找表。
7.根据权利要求2-3或5-6中任一项所述的方法,其特征在于,所述根据所述输入图像以及所述目标查找表,得到与所述输入图像对应的增强图像包括:
从所述输入图像确定第一输入像素信息,所述第一输入像素信息用于表征所述输入图像中的任意一个像素点的像素值以及所述像素点在所述输入图像中所处的位置;
根据所述第一输入像素信息确定所述第一输入像素信息的邻域输入像素信息;
根据所述第一输入像素信息对应的第一目标查找表确定所述邻域输入像素信息对应的第二目标查找表;
对所述第一目标查找表与所述第二目标查找表执行插值操作,得到与所述输入图像对应的增强图像。
8.根据权利要求1-7中任一项所述的方法,其特征在于,所述通过第一神经网络层对输入图像进行特征提取,得到第一特征包括:
通过所述第一神经网络层的第一子层对所述输入图像执行下采样操作,得到目标图像;
通过所述第一神经网络层的第二子层对所述目标图像进行特征提取,得到第一特征。
9.根据权利要求1-8中任一项所述的方法,其特征在于,所述像素类别至少基于如下一种属性划分:
颜色、亮度、语义信息、深度或频谱。
10.一种模型的训练方法,其特征在于,所述模型包括第一神经网络层、第二神经网络层以及空间感知三维查找表,所述方法包括:
通过第一神经网络层对训练图像进行特征提取,得到第一特征,其中,所述第一神经网络层中除最后一层外的其他层的输出为中间特征;
通过第二神经网络层的第一子层对所述第一特征以及所述中间特征进行特征提取,得到第二特征,并通过所述第二神经网络层的第二子层对所述第二特征进行像素分类,生成第一预测分类信息,所述第一预测分类信息用于表征目标输入像素信息属于各像素类别的预测概率,所述目标输入像素信息用于表征所述训练图像中的任意一个像素点的像素值以及所述像素点在所述训练图像中所处的位置;
基于所述第一预测分类信息以及空间感知三维查找表(3D LUT)得到目标查找表,所述空间感知三维查找表用于表征输入像素信息与输出像素信息之间的映射关系,所述输入像素信息包括输入像素点的像素值、所述输入像素点在图像中所处的位置和所述输入像素点所属的像素类别,所述目标查找表用于表征所述目标输入像素信息与目标输出像素信息之间的映射关系;
根据所述训练图像以及所述目标查找表,得到与所述训练图像对应的增强图像;
利用损失函数对所述模型进行迭代训练,直至所述模型收敛,所述损失函数用于表征所述增强图像与真实图像之间的差异,所述真实图像与所述训练图像对应。
11.根据权利要求10所述的方法,其特征在于,所述空间感知三维查找表根据所述各像素类别构建得到包括:
所述空间感知三维查找表由M个子三维查找表构建得到,其中,M为所述像素类别的种类数,一个所述子三维查找表对应一个所述像素类别,M≥1。
12.根据权利要求11所述的方法,其特征在于,所述基于所述第一预测分类信息以及空间感知三维查找表(3D LUT)得到目标查找表包括:
根据所述第一预测分类信息对所述M个子三维查找表进行加权求和,得到所述目标查找表。
13.根据权利要求10所述的方法,其特征在于,所述模型还包括第三神经网络层,在通过第一神经网络层对训练图像进行特征提取,得到第一特征之后,所述方法还包括:
通过所述第三神经网络层对所述第一特征进行图像分类,生成第二预测分类信息,所述第二预测分类信息用于表征所述训练图像属于各图像类别的概率;
所述基于所述第一预测分类信息以及空间感知三维查找表(3D LUT)得到目标查找表包括:
基于所述第一预测分类信息、所述第二预测分类信息以及空间感知三维查找表得到目标查找表,所述输入像素信息还包括所述输入像素信息所来自的图像所属的图像类别。
14.根据权利要求13所述的方法,其特征在于,所述空间感知三维查找表根据所述各图像类别以及所述各像素类别构建得到包括:
所述空间感知三维查找表由T×M个子三维查找表构建得到,其中,T为所述图像类别的种类数,M为所述像素类别的种类数,一个所述子三维查找表对应一个所述图像类别以及一个所述像素类别,T≥1,M≥1。
15.根据权利要求14所述的方法,其特征在于,所述基于所述第一预测分类信息、所述第二预测分类信息以及空间感知三维查找表(3D LUT)得到目标查找表包括:
根据所述第二预测分类信息对所述空间感知三维查找表进行T维度上的加权求和,得到M个第一子查找表;
根据所述第一预测分类信息对所述M个第一子查找表进行加权求和,得到所述目标查找表。
16.根据权利要求11-12或14-15中任一项所述的方法,其特征在于,所述根据所述训练图像以及所述目标查找表,得到与所述训练图像对应的增强图像包括:
从所述训练图像确定第一输入像素信息,所述第一输入像素信息用于表征所述训练图像中的任意一个像素点的像素值以及所述像素点在所述训练图像中所处的位置;
根据所述第一输入像素信息确定所述第一输入像素信息的邻域输入像素信息;
根据所述第一输入像素信息对应的第一目标查找表确定所述邻域输入像素信息对应的第二目标查找表;
对所述第一目标查找表与所述第二目标查找表执行插值操作,得到与所述训练图像对应的增强图像。
17.根据权利要求10-16中任一项所述的方法,其特征在于,所述通过第一神经网络层对训练图像进行特征提取,得到第一特征包括:
通过所述第一神经网络层的第一子层对所述训练图像进行下采样操作,得到目标图像;
通过所述第一神经网络层的第二子层对所述目标图像进行特征提取,得到第一特征。
18.根据权利要求10-17中任一项所述的方法,其特征在于,所述像素类别至少基于如下一种属性划分:
颜色、亮度、语义信息、深度或频谱。
19.一种执行设备,其特征在于,包括:
特征提取模块,用于通过第一神经网络层对输入图像进行特征提取,得到第一特征,其中,所述第一神经网络层中除最后一层外的其他层的输出为中间特征;
第一分类模块,用于通过第二神经网络层的第一子层对所述第一特征以及所述中间特征进行特征提取,得到第二特征,并通过所述第二神经网络层的第二子层对所述第二特征进行像素分类,生成第一分类信息,所述第一分类信息用于表征目标输入像素信息属于各像素类别的概率,所述目标输入像素信息用于表征所述输入图像中的任意一个像素点的像素值以及所述像素点在所述输入图像中所处的位置;
计算模块,用于基于所述第一分类信息以及空间感知三维查找表(3D LUT)得到目标查找表,所述空间感知三维查找表用于表征输入像素信息与输出像素信息之间的映射关系,所述输入像素信息包括输入像素点的像素值、所述输入像素点在图像中所处的位置和所述输入像素点所属的像素类别,所述目标查找表用于表征所述目标输入像素信息与目标输出像素信息之间的映射关系;
获取模块,用于根据所述输入图像以及所述目标查找表,得到与所述输入图像对应的增强图像。
20.根据权利要求19所述的执行设备,其特征在于,所述空间感知三维查找表根据所述各像素类别构建得到包括:
所述空间感知三维查找表由M个子三维查找表构建得到,其中,M为所述像素类别的种类数,一个所述子三维查找表对应一个所述像素类别,M≥1。
21.根据权利要求20所述的执行设备,其特征在于,所述计算模块,具体用于:
根据所述第一分类信息对所述M个子三维查找表进行加权求和,得到所述目标查找表。
22.根据权利要求19所述的执行设备,其特征在于,所述执行设备还包括:
第二分类模块,用于通过第三神经网络层对所述第一特征进行图像分类,生成第二分类信息,所述第二分类信息用于表征所述输入图像属于各图像类别的概率;
所述计算模块,还用于:
基于所述第一分类信息、所述第二分类信息以及空间感知三维查找表得到目标查找表,所述输入像素信息还包括所述输入像素信息所来自的图像所属的图像类别。
23.根据权利要求22所述的执行设备,其特征在于,所述空间感知三维查找表根据所述各图像类别以及所述各像素类别构建得到包括:
所述空间感知三维查找表由T×M个子三维查找表构建得到,其中,T为所述图像类别的种类数,M为所述像素类别的种类数,一个所述子三维查找表对应一个所述图像类别以及一个所述像素类别,T≥1,M≥1。
24.根据权利要求23所述的执行设备,其特征在于,所述计算模块,具体还用于:
根据所述第二分类信息对所述空间感知三维查找表进行T维度上的加权求和,得到M个第一子查找表;
根据所述第一分类信息对所述M个第一子查找表进行加权求和,得到所述目标查找表。
25.根据权利要求20-21或23-24中任一项所述的执行设备,其特征在于,所述获取模块,具体用于:
从所述输入图像确定第一输入像素信息,所述第一输入像素信息用于表征所述输入图像中的任意一个像素点的像素值以及所述像素点在所述输入图像中所处的位置;
根据所述第一输入像素信息确定所述第一输入像素信息的邻域输入像素信息;
根据所述第一输入像素信息对应的第一目标查找表确定所述邻域输入像素信息对应的第二目标查找表;
对所述第一目标查找表与所述第二目标查找表执行插值操作,得到与所述输入图像对应的增强图像。
26.根据权利要求19-25中任一项所述的执行设备,其特征在于,所述特征提取模块,具体用于:
通过所述第一神经网络层的第一子层对所述输入图像执行下采样操作,得到目标图像;
通过所述第一神经网络层的第二子层对所述目标图像进行特征提取,得到第一特征。
27.一种训练设备,其特征在于,包括:
特征提取模块,用于通过第一神经网络层对训练图像进行特征提取,得到第一特征,其中,所述第一神经网络层中除最后一层外的其他层的输出为中间特征;
第一分类模块,用于通过第二神经网络层的第一子层对所述第一特征以及所述中间特征进行特征提取,得到第二特征,并通过所述第二神经网络层的第二子层对所述第二特征进行像素分类,生成第一预测分类信息,所述第一预测分类信息用于表征目标输入像素信息属于各像素类别的预测概率,所述目标输入像素信息用于表征所述训练图像中的任意一个像素点的像素值以及所述像素点在所述训练图像中所处的位置;
计算模块,用于基于所述第一预测分类信息以及空间感知三维查找表(3D LUT)得到目标查找表,所述空间感知三维查找表用于表征输入像素信息与输出像素信息之间的映射关系,所述输入像素信息包括输入像素点的像素值、所述输入像素点在图像中所处的位置和所述输入像素点所属的像素类别,所述目标查找表用于表征所述目标输入像素信息与目标输出像素信息之间的映射关系;
获取模块,用于根据所述训练图像以及所述目标查找表,得到与所述训练图像对应的增强图像;
迭代触发模块,用于利用损失函数对模型进行迭代训练,直至所述模型收敛,所述损失函数用于表征所述增强图像与真实图像之间的差异,所述真实图像与所述训练图像对应,所述模块包括所述第一神经网络层、所述第二神经网络层以及所述空间感知三维查找表。
28.根据权利要求27所述的训练设备,其特征在于,所述空间感知三维查找表根据所述各像素类别构建得到包括:
所述空间感知三维查找表由M个子三维查找表构建得到,其中,M为所述像素类别的种类数,一个所述子三维查找表对应一个所述像素类别,M≥1。
29.根据权利要求28所述的训练设备,其特征在于,所述计算模块,具体用于:
根据所述第一预测分类信息对所述M个子三维查找表进行加权求和,得到所述目标查找表。
30.根据权利要求27所述的训练设备,其特征在于,所述模型还包括第三神经网络层,所述训练设备还包括:
第二分类模块,用于通过所述第三神经网络层对所述第一特征进行图像分类,生成第二预测分类信息,所述第二预测分类信息用于表征所述训练图像属于各图像类别的预测概率;
所述计算模块,还用于:
基于所述第一预测分类信息、所述第二预测分类信息以及空间感知三维查找表得到目标查找表,所述输入像素信息还包括所述输入像素信息所来自的图像所属的图像类别。
31.根据权利要求30所述的训练设备,其特征在于,所述空间感知三维查找表根据所述各图像类别以及所述各像素类别构建得到包括:
所述空间感知三维查找表由T×M个子三维查找表构建得到,其中,T为所述图像类别的种类数,M为所述像素类别的种类数,一个所述子三维查找表对应一个所述图像类别以及一个所述像素类别,T≥1,M≥1。
32.根据权利要求31所述的训练设备,其特征在于,所述计算模块,具体还用于:
根据所述第二预测分类信息对所述空间感知三维查找表进行T维度上的加权求和,得到M个第一子查找表;
根据所述第一预测分类信息对所述M个第一子查找表进行加权求和,得到所述目标查找表。
33.根据权利要求28-29或31-32中任一项所述的训练设备,其特征在于,所述获取模块,具体用于:
从所述训练图像确定第一输入像素信息,所述第一输入像素信息用于表征所述训练图像中的任意一个像素点的像素值以及所述像素点在所述训练图像中所处的位置;
根据所述第一输入像素信息确定所述第一输入像素信息的邻域输入像素信息;
根据所述第一输入像素信息对应的第一目标查找表确定所述邻域输入像素信息对应的第二目标查找表;
对所述第一目标查找表与所述第二目标查找表执行插值操作,得到与所述训练图像对应的增强图像。
34.根据权利要求27-33中任一项所述的训练设备,其特征在于,所述特征提取模块,具体用于:
通过所述第一神经网络层的第一子层对所述训练图像进行下采样操作,得到目标图像;
通过所述第一神经网络层的第二子层对所述目标图像进行特征提取,得到第一特征。
35.一种执行设备,包括处理器和存储器,所述处理器与所述存储器耦合,其特征在于,
所述存储器,用于存储程序;
所述处理器,用于执行所述存储器中的程序,使得所述执行设备执行如权利要求1-9中任一项所述的方法。
36.一种训练设备,包括处理器和存储器,所述处理器与所述存储器耦合,其特征在于,
所述存储器,用于存储程序;
所述处理器,用于执行所述存储器中的程序,使得所述训练设备执行如权利要求10-18中任一项所述的方法。
37.一种计算机可读存储介质,包括程序,当其在计算机上运行时,使得计算机执行如权利要求1-18中任一项所述的方法。
38.一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如权利要求1-18中任一项所述的方法。
39.一种芯片,所述芯片包括处理器与数据接口,所述处理器通过所述数据接口读取存储器上存储的指令,执行如权利要求1-18中任一项所述的方法。
CN202110221451.8A 2021-02-27 2021-02-27 一种图像增强方法、模型训练方法及设备 Active CN113066017B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110221451.8A CN113066017B (zh) 2021-02-27 2021-02-27 一种图像增强方法、模型训练方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110221451.8A CN113066017B (zh) 2021-02-27 2021-02-27 一种图像增强方法、模型训练方法及设备

Publications (2)

Publication Number Publication Date
CN113066017A true CN113066017A (zh) 2021-07-02
CN113066017B CN113066017B (zh) 2023-03-10

Family

ID=76559422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110221451.8A Active CN113066017B (zh) 2021-02-27 2021-02-27 一种图像增强方法、模型训练方法及设备

Country Status (1)

Country Link
CN (1) CN113066017B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114463196A (zh) * 2021-12-28 2022-05-10 浙江大学嘉兴研究院 一种基于深度学习的图像校正方法
CN114723610A (zh) * 2022-06-10 2022-07-08 武汉海微科技有限公司 图像智能处理方法、装置、设备及存储介质
CN115982418A (zh) * 2023-03-17 2023-04-18 亿铸科技(杭州)有限责任公司 一种提升ai计算芯片超分运算性能的方法
WO2023108568A1 (zh) * 2021-12-16 2023-06-22 京东方科技集团股份有限公司 图像处理的模型训练方法及装置、存储介质、电子设备
CN116703791A (zh) * 2022-10-20 2023-09-05 荣耀终端有限公司 图像的处理方法、电子设备及可读介质
WO2023179482A1 (zh) * 2022-03-25 2023-09-28 华为技术有限公司 一种图像处理方法、神经网络的训练方法以及相关设备
CN116993619A (zh) * 2023-08-29 2023-11-03 荣耀终端有限公司 图像处理方法及相关设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070160285A1 (en) * 2002-05-01 2007-07-12 Jay Stephen Gondek Method and apparatus for associating image enhancement with color
CN105095892A (zh) * 2014-05-16 2015-11-25 上海市上海中学 基于图像处理的学生文档管理系统
CN109583324A (zh) * 2018-11-12 2019-04-05 武汉大学 一种基于单点多盒检测器的指针仪表读数自动识别方法
US20190122378A1 (en) * 2017-04-17 2019-04-25 The United States Of America, As Represented By The Secretary Of The Navy Apparatuses and methods for machine vision systems including creation of a point cloud model and/or three dimensional model based on multiple images from different perspectives and combination of depth cues from camera motion and defocus with various applications including navigation systems, and pattern matching systems as well as estimating relative blur between images for use in depth from defocus or autofocusing applications
US20190333627A1 (en) * 2018-04-25 2019-10-31 Sota Precision Optics, Inc. Dental imaging system utilizing artificial intelligence
CN110909589A (zh) * 2018-09-18 2020-03-24 迪尔公司 谷粒质量控制系统和方法
US20200311945A1 (en) * 2019-03-26 2020-10-01 Samsung Electronics Co., Ltd. Image processing apparatus and image processing method thereof

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070160285A1 (en) * 2002-05-01 2007-07-12 Jay Stephen Gondek Method and apparatus for associating image enhancement with color
CN105095892A (zh) * 2014-05-16 2015-11-25 上海市上海中学 基于图像处理的学生文档管理系统
US20190122378A1 (en) * 2017-04-17 2019-04-25 The United States Of America, As Represented By The Secretary Of The Navy Apparatuses and methods for machine vision systems including creation of a point cloud model and/or three dimensional model based on multiple images from different perspectives and combination of depth cues from camera motion and defocus with various applications including navigation systems, and pattern matching systems as well as estimating relative blur between images for use in depth from defocus or autofocusing applications
US20190333627A1 (en) * 2018-04-25 2019-10-31 Sota Precision Optics, Inc. Dental imaging system utilizing artificial intelligence
CN110909589A (zh) * 2018-09-18 2020-03-24 迪尔公司 谷粒质量控制系统和方法
CN109583324A (zh) * 2018-11-12 2019-04-05 武汉大学 一种基于单点多盒检测器的指针仪表读数自动识别方法
US20200311945A1 (en) * 2019-03-26 2020-10-01 Samsung Electronics Co., Ltd. Image processing apparatus and image processing method thereof

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王云艳 等: "基于Sobel算子滤波的图像增强算法", 《计算机应用与软件》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023108568A1 (zh) * 2021-12-16 2023-06-22 京东方科技集团股份有限公司 图像处理的模型训练方法及装置、存储介质、电子设备
CN114463196A (zh) * 2021-12-28 2022-05-10 浙江大学嘉兴研究院 一种基于深度学习的图像校正方法
CN114463196B (zh) * 2021-12-28 2023-07-25 浙江大学嘉兴研究院 一种基于深度学习的图像校正方法
WO2023179482A1 (zh) * 2022-03-25 2023-09-28 华为技术有限公司 一种图像处理方法、神经网络的训练方法以及相关设备
CN114723610A (zh) * 2022-06-10 2022-07-08 武汉海微科技有限公司 图像智能处理方法、装置、设备及存储介质
CN116703791A (zh) * 2022-10-20 2023-09-05 荣耀终端有限公司 图像的处理方法、电子设备及可读介质
CN116703791B (zh) * 2022-10-20 2024-04-19 荣耀终端有限公司 图像的处理方法、电子设备及可读介质
CN115982418A (zh) * 2023-03-17 2023-04-18 亿铸科技(杭州)有限责任公司 一种提升ai计算芯片超分运算性能的方法
CN116993619A (zh) * 2023-08-29 2023-11-03 荣耀终端有限公司 图像处理方法及相关设备
CN116993619B (zh) * 2023-08-29 2024-03-12 荣耀终端有限公司 图像处理方法及相关设备

Also Published As

Publication number Publication date
CN113066017B (zh) 2023-03-10

Similar Documents

Publication Publication Date Title
CN113066017B (zh) 一种图像增强方法、模型训练方法及设备
US20200311871A1 (en) Image reconstruction method and device
US20210350168A1 (en) Image segmentation method and image processing apparatus
CN110532871B (zh) 图像处理的方法和装置
WO2021073493A1 (zh) 图像处理方法及装置、神经网络的训练方法、合并神经网络模型的图像处理方法、合并神经网络模型的构建方法、神经网络处理器及存储介质
WO2020192483A1 (zh) 图像显示方法和设备
EP3933693B1 (en) Object recognition method and device
WO2021043168A1 (zh) 行人再识别网络的训练方法、行人再识别方法和装置
US11232286B2 (en) Method and apparatus for generating face rotation image
WO2022116856A1 (zh) 一种模型结构、模型训练方法、图像增强方法及设备
CN108335306B (zh) 图像处理方法及装置、电子设备和存储介质
EP4105877A1 (en) Image enhancement method and image enhancement apparatus
WO2022134971A1 (zh) 一种降噪模型的训练方法及相关装置
CN111402130B (zh) 数据处理方法和数据处理装置
CN110222717B (zh) 图像处理方法和装置
WO2021018106A1 (zh) 行人检测方法、装置、计算机可读存储介质和芯片
US20230177641A1 (en) Neural network training method, image processing method, and apparatus
CN113065645B (zh) 孪生注意力网络、图像处理方法和装置
CN113011562A (zh) 一种模型训练方法及装置
CN113065635A (zh) 一种模型的训练方法、图像增强方法及设备
WO2024002211A1 (zh) 一种图像处理方法及相关装置
CN114359289A (zh) 一种图像处理方法及相关装置
CN113066018A (zh) 一种图像增强方法及相关装置
CN113284055A (zh) 一种图像处理的方法以及装置
EP4283876A1 (en) Data coding method and related device

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant