CN115053256A - 空间自适应图像滤波 - Google Patents

空间自适应图像滤波 Download PDF

Info

Publication number
CN115053256A
CN115053256A CN201980102145.3A CN201980102145A CN115053256A CN 115053256 A CN115053256 A CN 115053256A CN 201980102145 A CN201980102145 A CN 201980102145A CN 115053256 A CN115053256 A CN 115053256A
Authority
CN
China
Prior art keywords
image
sub
filters
filter
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980102145.3A
Other languages
English (en)
Inventor
菲利普斯·科基诺斯
伊奥安尼斯·马拉斯
马提奥·麦乔尼
斯特凡诺斯·扎菲里乌
格雷戈里·斯拉堡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN115053256A publication Critical patent/CN115053256A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20004Adaptive image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20004Adaptive image processing
    • G06T2207/20008Globally adaptive
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20004Adaptive image processing
    • G06T2207/20012Locally adaptive
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20192Edge enhancement; Edge preservation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

一种用于变换输入图像的图像处理器,所述图像处理器用于实现经过训练的人工智能模型,其中所述图像处理器用于:接收所述输入图像;基于(i)所述输入图像的内容和/或(ii)从所述输入图像中提取的特征,通过所述经过训练的人工智能模型处理所述图像以:(i)确定一组图像滤波器;(ii)对于所述图像的多个子区域中的每一个,从所述一组图像滤波器中选择图像滤波器;对于所述图像的多个子区域中的每一个,将相应的图像滤波器应用于所述子区域或应用于从所述子区域中提取的特征。这样可以用可微的方式从离散的可学习和去相关的滤波器组中选择滤波器,以实现基于内容的空间适应。

Description

空间自适应图像滤波
技术领域
本发明涉及图像处理,尤其涉及图像滤波。
背景技术
卷积是一种数学运算,表示一个信号移位到另一个信号上时的重叠量。卷积是卷积神经网络(convolutional neural network,CNN)的非常重要的一部分,它使用卷积层从图像(或前一层的输出)中提取特征。在CNN中,学习卷积滤波器权重(形成核),并且通过该过程,卷积层提取有助于解决图像去噪或分类等特定任务的优化信息。
因此,在许多图像处理和高级计算机视觉问题中,卷积(一般而言)和卷积层(具体而言)用作成功分析图像的基本运算。可学习核的共享可以使用一种简单的方法来提取特定于任务的特征。此外,这些运算可以通过优化和并行的方式实现,从而支持快速处理任意大小的图像和视频。
除了卷积的优越性之外,学习了核之后,任何输入的处理在设计上都是相同的。具体而言,卷积的内容无关性源自这样的事实:相同的核被应用于任何图像的所有位置而不管内容如何;一种称为空间同变性的属性。
然而,在实践中,内容和条件都是不同的,这不可避免地迫使部署更多的训练数据、增强和可学习的参数,这些数据构成了解决手头问题的简单方案。一种范式转换方法是使用内容自适应滤波,其根据从图像或数据集导出的统计线索来调节输入的处理。因此,不同的图像将根据所描述的内容进行独特的分析。
之前人们已经提出了一些方法来实现内容自适应。非局部均值和双边滤波利用特征和邻域统计信息来根据内容调整图像滤波。随着深度学习的出现,其中许多空间变化技术都以可微的方式被引入到现有的神经网络中用作层。
许多计算机视觉方法严重依赖卷积层的平移同变性和空间共享属性,而没有明确考虑输入内容。通常,在执行卷积时,无论内容如何,在任何图像的所有位置上都应用相同的核。然而在实践中,图像中不同区域的图像内容大不相同。为了应对这种可变性,卷积神经网络需要更多的训练数据(更大的数据集和/或数据增强)和更多的可学习参数,这会增加内存和运行时间。
最近,已经开发出深度神经网络,这种深度神经网络可以预测每个像素需要使用的卷积核。在实践中,这可能会受到限制,因为需要学习大量参数才能预测大型卷积核,例如在图像分类深度CNN中常见的那些参数。例如,在以下文献中,使用具有数百万个参数的深度神经网络,来预测一组/突发图像需要如何正确对齐并随后合并为一个无伪影图像:BenMildenhall等人,“使用核预测网络进行突发去噪”,IEEE计算机视觉和模式识别会议论文集,2018年。
需要开发一种能解决这些问题的方法。
发明内容
根据一个方面,提供了一种用于变换输入图像的图像处理器,所述图像处理器用于实现经过训练的人工智能模型,其中所述图像处理器用于:接收所述输入图像;基于(i)所述输入图像的内容和/或(ii)从所述输入图像中提取的特征,通过所述经过训练的人工智能模型处理所述图像以:(i)确定一组图像滤波器;(ii)对于所述图像的多个子区域中的每一个,从所述一组图像滤波器中选择图像滤波器;对于所述图像的多个子区域中的每一个,将相应的图像滤波器应用于所述子区域或应用于从所述子区域中提取的特征。
所述多个子区域中的每一个可以是所述输入图像的像素。像素是所述图像中组成图像的许多区域之一。例如,图像可以包括64×64像素。这可以允许基于所述像素的内容或所述像素周围的区域来确定应用于所述图像的每个像素的滤波器。
对于所述图像的所述多个子区域中的每一个,可以将所述选择的图像滤波器应用于从所述子区域中提取的所述特征,从所述输入图像的所述子区域中提取的所述特征以张量的形式来定义。这可以允许在图像处理操作的中间阶段应用所述滤波器。
所述图像处理器还可用于,对于所述图像的所述多个子区域中的每一个,基于(i)所述图像的相应子区域的内容和/或(ii)从所述图像的所述相应子区域中提取的特征,从所述一组图像滤波器中选择图像滤波器。这可以允许将适当的滤波器应用于所述图像的特定像素。
所述图像处理器还可用于,对于所述图像的所述多个子区域中的每一个,基于(i)所述图像的相应子区域周围的区域的内容和/或(ii)从所述图像的所述相应子区域周围的所述区域中提取的特征,从所述一组图像滤波器中选择图像滤波器。考虑子区域周围的区域,例如像素,可以允许将适当的滤波器应用于所述图像的特定像素。
所述经过训练的人工智能模型可以是卷积神经网络。这可以是一种方便的实现方式。
所述卷积神经网络可以包括正则化器,所述正则化器对所述学习的一组图像滤波器施加可变性。在训练期间对所述滤波器组进行正则化以进行去相关,可以产生一组独特且多样的算子。
所述一组图像滤波器可以包括预定义数量的离散滤波器。所述一组图像滤波器中的每个图像滤波器对于所述组中的其它成员可以是唯一的。这可以避免一组冗余核。
所述一组图像滤波器中的每个图像滤波器可以是一个核。核是一组滤波器。这可以允许在图像操作中将多个滤波器应用于图像的子区域。
所述一组图像滤波器可以包括具有至少两种不同大小的核。因此所述方法可以支持任意大小的核。
所述图像处理器可用于执行以下图像操作中的一项或多项:去马赛克、超限分辨、语义分割和图像分类。因此,所述方法可用于一系列低层和高层计算机视觉问题。
根据第二方面,提供了一种在用于变换输入图像的图像处理器处实现的方法,所述图像处理器用于实现经过训练的人工智能模型,所述方法包括:接收所述输入图像;基于(i)所述输入图像的内容和/或(ii)从所述输入图像中提取的特征,通过所述经过训练的人工智能模型处理所述图像以:(i)确定一组图像滤波器;(ii)对于所述图像的多个子区域中的每一个,从所述一组图像滤波器中选择图像滤波器;对于所述图像的多个子区域中的每一个,将相应的图像滤波器应用于所述子区域或应用于从所述子区域中提取的特征。
所述多个子区域中的每一个可以是所述输入图像的像素。这可以允许基于所述像素的内容或所述像素周围的区域来确定应用于所述图像的每个像素的滤波器。
所述一组图像滤波器可以包括预定义数量的离散滤波器。获得一组可学习和去相关的滤波器或核可以促进基于内容的图像增强。
附图说明
现将参考附图通过示例的方式对本发明进行描述。在附图中:
图1示出了在用于变换输入图像的图像处理器处实现的方法的示例;
图2示出了本文所述方法应用于空间自适应滤波单元中的输入图像的示例;
图3示出了用于实现本文所述方法的相机的示例;
图4(a)至图4(j)示出了本文所述方法与其它方法在空间自适应数据集上的比较。
具体实施方式
本文描述了用于图像处理器的滤波单元,该滤波单元可以从离散的可学习和去相关的滤波器组中执行滤波器的可微选择。可以按像素(或图像的其它子区域)进行所述选择,因此计算可根据输入的内容在空间上变化。可以使用紧凑型CNN网络来执行滤波器的选择,该网络通过隐式训练以基于其从输入中提取的特征来选择滤波器。最终结果是以在空间上变化的方式将滤波器应用到待滤波的图像或张量。
在CNN中实现卷积层的一种常见方法是使用支持大小为k的核
Figure BDA0003636419450000031
(一组滤波器)与输入
Figure BDA0003636419450000032
之间的矩阵向量积。核W将输入通道cin线性变换为cout,其在设计时考虑了通道间的相关性。
输出
Figure BDA0003636419450000033
的形式为:
Figure BDA0003636419450000034
其中邻域定义为
Figure BDA0003636419450000035
如等式(1)所示,相同的权重应用于x的每个位置。这是卷积层的一个已知属性,称为平移同变性。虽然这一推动了计算机视觉任务的进步,但所有位置之间的权重共享并不能有效地正确产生空间变化的输出。这种固有的失败源于以下事实:来自所有图像位置的损失梯度被输入到全局核中,而全局核经过训练以最小化所有位置的误差。在实践中,同样的问题出现在需要密集预测或回归的各种问题中,例如图像分割、恢复和增强。
本文所述方法并未如上所述在所有像素上应用相同的核,而是通过从离散组中选择哪些滤波器(或核)应该部署在图像的哪些位置上来选择性地打破同变性。这称为空间变化卷积。优选地,核
Figure BDA0003636419450000036
的群组包含n个离散核。在这种情况下,空间变化卷积层定义为:
Figure BDA0003636419450000037
其中z∈Rh×w×n是一个单热编码索引,指示应为每个像素选择组中n个核中的哪一个核。选择索引z是从核选择机制f预测的,该机制给定图像作为输入进行滤波,即z=f(x)。从等式2中可以看出,图像的不同区域用不同的核
Figure BDA0003636419450000038
进行滤波,从而选择性地打破卷积层的平移同变性属性。
现在将描述核选择机制的示例。
可以使用可用的训练数据来学习基于输入内容的核的离散选择。为了提取感兴趣的特征,可以使用紧凑型CNN来接收图像或嵌入x∈Rh×w×n作为输入并提供概率
Figure BDA0003636419450000039
作为输出。这些概率表示每个滤波器最适合特定像素的可能性。可以通过最小化特定任务的损失来隐式训练CNN,以从组中选择最优核,这也是同时学习的。
优选地,可以将选择应用为离散的,并且根据核选择CNN在每个像素上部署来自组的最可靠的arg max zij核。然而,arg max函数是不可微的,因此不适合用作现代深度学习文献中的核心组件。
离散选择的问题可以用Gumbel-Max Trick的可微松弛化来解决(如以下文献中所述:Emil Julius Gumbel,“极值统计理论和一些实际应用:系列讲座(Statistical theoryof extreme values and some practical applications:a series of lectures)”,第33期,美国政府印刷局,1954年,以及Xu Jia、Bert De Brabandere、Tinne Tuytelaars和LucV Gool,“动态滤波网络(Dynamic filter networks)”,神经信息处理系统进展,第667-675页,2016年),其中提出可以将离散随机变量的采样转换为给定的确定性选择。
Gumbel-Trick的arg max运算可以用可微的soft max以及温度τ代替,如下所示:
Figure BDA0003636419450000041
当τ→0时,函数渐近地逼近argmax函数,而在τ→∞时,近似返回来自均匀分布的样本。
可采用直通型Gumbel-softmax估计器,该估计器在前向传递时将选择离散为二元,而后向传递则是基于连续选择概率z计算的。该直通型估计器允许更快的收敛和直观的核选择图,而无论前向和后向传递之间存在明显的不一致,理论上会导致有偏差的梯度估计。
鲁棒选择的首选组件是正则化器,它对可学习滤波器组施加可变性。这种形式的正则化会惩罚简单方案,其中所有滤波器都相同,每个像素的滤波器选择可以像随机一样好。同时,在深度神经网络中使用时,彼此不同的滤波器充当唯一的线性算子或特征提取器。它们的应用将产生不同的结果,这将通过抑制任何冗余来增加可学习的滤波器或核组的表达度。为了最大限度地提高不相似性和可变性,可以对一组核之间的余弦距离进行惩罚。这可以通过先归一化,再在矩阵
Figure BDA0003636419450000042
上堆叠所有核来实现,其中np是核中参数的数量,然后最小化正则化损失:
Figure BDA0003636419450000043
其中I是单位矩阵。
在部署不同支持大小的核的情况下,可以在形成矩阵Wf之前将核填充到最大支持大小。可以根据以下条件对模型进行去相关正则化以及任务特定损失训练:
Figure BDA0003636419450000044
在使用多个滤波模块的情况下,正则化损失可以是各个损失的平均值。
为了解决空间同变卷积滤波的局限性,本文所述的内容自适应滤波技术根据从图像或数据集导出的统计线索来调节输入的处理。因此,将基于所描绘的内容对不同的图像进行独特分析。
对于图像的多个子区域中的每一个,所述单元可以基于(i)所述图像的相应子区域的内容和/或(ii)从所述图像的所述相应子区域中提取的特征,从所述一组图像滤波器中选择图像滤波器。所述单元可以基于子区域或子区域周围区域的内容(或从其提取的特征)从所述一组图像滤波器中选择图像滤波器。这可以允许将适当的滤波器应用于所述图像的特定子区域。
与传统CNN类似,在卷积层中,学习一组卷积核以提供特定于任务的滤波器。然而,还学习滤波器选择机制,该机制可识别在每个像素上应用哪个核。这样,卷积滤波可以在图像中因像素而异。
因此,该方法有两个主要的相互关联的特征:
-(从离散集中)选择要应用于图像或张量中每个像素的最优滤波器。滤波器选择机制可以使用轻量级卷积神经网络实现为分类器。
-在训练期间学习特定于任务的滤波器,这允许形成一组离散的滤波器。对滤波器之间的冗余进行惩罚,以便产生彼此唯一的集合。
在推断时,在每个像素处选择最优滤波器,从而产生空间变化的卷积。这根据图像内容在局部调整处理。这两个特征可以实现对图像的与内容相关的滤波,以处理图像处理和计算机视觉任务。
与在所有像素上应用相同的核不同的是,本文所述的技术可以通过从离散组中选取哪些核应该部署在图像的哪个位置来选择性地打破同变性。所述核组可以包含预定义数量的离散核。获取一组可学习和去相关的核可以促进基于内容的图像增强。
滤波器选择机制是使用可用的训练数据学习的。为了提取感兴趣的特征,可以使用紧凑型CNN来接收图像或嵌入作为输入并提供概率作为输出。可以隐含地训练CNN来从组中选择最优核,这也是通过将任务特定的损失最小化来同时学习的。
优选地,选择是离散的,并且对于每个像素,根据核选择CNN通过部署可微选择技术来部署来自组的最可靠的核(即,对于特定像素具有最高概率的滤波器)。
鲁棒选择的首选组件是正则化器,它对可学习的核组施加可变性。这种形式的正则化会惩罚简单方案,其中所有核都相同,每个像素的核选择可以像随机一样好。同时,在深度神经网络中使用时,彼此不同的核充当唯一的线性算子或特征提取器。它们的应用将产生不同的结果,这将通过抑制任何冗余来增加可学习的核组的表达度。为了最大限度地提高不相似性和可变性,对一组核之间的余弦距离进行惩罚。
图1示出了在用于变换输入图像的图像处理器处实现的方法100的示例,所述图像处理器用于实现经过训练的人工智能模型。在步骤101中,所述方法包括接收所述输入图像。在步骤102中,基于(i)所述输入图像的内容和/或(ii)从所述输入图像中提取的特征,通过所述经过训练的人工智能模型处理所述图像以:(i)确定一组图像滤波器;(ii)对于所述图像的多个子区域中的每一个,从所述一组图像滤波器中选择图像滤波器。在步骤103中,对于图像的多个子区域中的每一个,将相应的图像滤波器应用于所述子区域或应用于从所述子区域中提取的特征。
图2示出了本方法应用于空间自适应滤波单元中的输入图像201。所述单元计算核Wi的像素选择,如202至205所示。然后,根据预测的选择模式将核Wi应用于原始输入。所述单元的输出是具有任意数目的输出通道的张量,如206所示。
图3示出了用于实现图像处理器以处理由相机301中的图像传感器302拍摄的图像的相机示例。此类相机301通常具备一些板载处理能力。这可以由处理器所述304提供。所述处理器304还可用于所述设备的基本功能。所述相机通常还包括存储器303。
所述收发器305能够通过网络与其它实体310、311通信。这些实体可以在物理上远离所述相机301。所述网络可以是公共可访问网络,例如互联网。所述实体310、311可以基于云。在一个示例中,实体310是计算实体,实体311是命令和控制实体。这些实体都是逻辑实体。在实践中,它们每个都可以由一个或多个物理设备(例如服务器和数据存储)提供,并且两个或多个实体的功能可以由单个物理设备提供。实现实体的每个物理设备都包括处理器和存储器。所述设备还可以包括收发器,用于向相机301的所述收发器305发送数据和从所述收发器接收数据。所述存储器以非瞬态方式存储可由所述处理器执行以按照本文所述的方式实现相应实体的代码。
所述命令和控制实体311可以训练在系统的每个模块中使用的人工智能模型。这通常是计算密集型任务,即使可以有效地描述结果模型,因此在云中执行算法的开发可能是有效的,其中可以预期有大量的能量和计算资源可用。可以预期,这比在典型相机上形成此类模型更有效。
在一种实现方式中,一旦在云端开发了深度学习算法,所述命令和控制实体就可以自动形成相应的模型并将其传输到相关的相机设备。在该示例中,所述系统由处理器304在相机301处实现。
在另一种可能的实现方式中,可以由相机传感器302捕获图像,并且可以由收发器305将图像数据发送到云端以在所述系统中进行处理。然后所得到的目标图像可以发送回所述相机301,如图3中的312所示。
因此,所述方法可以通过多种方式部署,例如在云中、在设备上或者在专用硬件中。如上所述,云设施可以执行训练以开发新算法或改进现有算法。根据靠近数据语料库的计算能力,训练可以在靠近源数据的地方进行,也可以在云中进行,例如使用推理引擎。所述系统还可以在相机、专用硬件或云中实现。
所述方法适用于线性和非线性的低层和高层计算机视觉问题,例如密集预测和回归任务以及标准图像分类。所述单元可用于替代标准神经网络中的卷积层,用于图像去马赛克、超限分辨、图像分类和分割等任务,或用于这些任务的组合(如联合去噪和去马赛克问题)。
所述方法可应用于去马赛克和超限分辨问题的显式线性领域,其中运行时性能很重要。在这两个问题中,在一些实现方式中,实验结果超过了竞争线性方法的性能,同时用常用的非线性方法获得了具有竞争力精度。此外,所提出的滤波单元可代替文献中针对上述问题以及分类和分割任务提出的已建立的深度神经网络中的卷积层。
对于线性情况,作为第一步,所述方法可以作为图像处理任务的单次线性方案进行训练和测试。请注意,虽然核选择机制是非线性的,但是所选择的每个像素的核的应用构成了一个纯线性变换。尽管所述方法的表达度受到这种形式的限制,但最终结果是一个实时运行的应用,并且在更复杂的非线性系统中实现了具有竞争力的性能。同时,所述方法允许具有不同支持大小的核组。
图4(a)至图4(j)显示了本文所述方法与其它方法在空间自适应数据集(Spatially Adaptive Dataset,SAD)上的比较。SAD包含尺寸为89×89的图像,具有从(0;1]采样的随机均匀色噪声,以及从尺寸为87×87的预定义方形网格中随机采样的黑色像素,如图4(a)所示。其目的是将所有黑色像素扩大到5×5黑色正方形,其设计为没有重叠,如图4(g)的地面真值所示,同时保持所有其它值不变。最小最优解包括两个滤波器;一个Dirac和一个零滤波器。对于具有随机噪声的像素,只有Dirac滤波器在滤波后使其保持不变,而零滤波器会将黑色像素扩大到方形。因此,该最小最优解可以表征为最小值和最优值。请注意,位于输入图像中的黑色像素可以使用两个滤波器进行滤波,而没有任何差异,如图4(j)所示。图4(a)至图4(j)所示的检查方法包括图4(b)中的全卷积神经网络(fully-convolutional neural network,FCNN)、图4(h)中的残余FCNN、图4(c)中的核预测网络(kernel prediction network,KPN)以及图4(i)中描述的方法。所有上述方法都经过训练,以最小化输出和地面真值之间的l1损失,并具有大致相同数量的参数(近35K)。从图4(a)至图4(j)中可以看出,仅依赖平移不变卷积的方法可能无法产生足够的结果,原因在于它们将相同的核应用于输入图像的每个位置。因此,在此实现方式中,其它方法很难学习到正确的映射。图4(f)中显示了两个已学习的滤波器,旁边图4(j)中显示了滤波器选择热图。
本文所述的方法并未调制或预测核,而是从离散的可学习和去相关的滤波器组中执行滤波器的可微选择,以实现基于内容的空间适应。可以有利地对图像的每个像素进行选择,因此计算图根据输入的内容在空间上变化。可以使用紧凑型CNN网络来执行滤波器的选择,该网络可以通过隐式训练以基于其从输入中提取的特征来选择滤波器,最终结果是滤波器在待滤波的图像或张量上的空间变化应用。最终结果是以在空间上变化的方式将滤波器应用到待滤波的图像或张量。
该公式允许以最小的开销进行快速稳健的核选择,这主要取决于一组核的数量。因此,它可以支持任意大小的核。
同时,可以在训练期间对这组滤波器或核进行正则化以进行去相关,从而构成一组独特且多样的算子。换言之,这组正则化的滤波器或核被施加了高可变性,从而避免了简单方案的一组冗余核。
已经在多个计算机视觉任务中通过实验观察到性能改进,这为空间适应性的需求和选择性滤波的好处提供了强有力的经验证据。该技术可以提高图像恢复的图像质量。同时,与现有的高层计算机视觉任务的分类方法相比,所述方法可以实现更好的每像素或每幅图像的分类。
空间变化卷积可以允许所述方法产生具有零误差的输出并学习最优滤波器集。可以生成滤波器选择热图来描述每像素选择的滤波器。可以看出在两个最优滤波器之间的选择是否是产生最小误差的合适选择。与KPN相比,所述方法能够实现更低的误差,而KPN无法预测需要这种滤波器的大多数像素的Dirac滤波器。
关于计算开销,空间变化卷积可以使用标准的im2col和col2im运算以并行方式实现,这些运算根据核支持大小将图像的空间分辨率分解为适当的块。之后,可以使用如等式(2)中描述的每像素矩阵向量运算轻松对这些块进行滤波。相同的实现方式也是已知的空间不变卷积的快速方案,但是现代计算库应用了一组低层优化技术来显著减少执行时间。
所述滤波单元可以部署为独立单元或作为深度神经网络的一部分。
本文所述的处理器和方法特别有利于在运行时间很重要的应用场景中使用。所述单元可以连续地与深度神经网络结合用作标准卷积层的替代方案,并通过空间变化的计算来增强原始架构,这反过来可以显著改善性能。
因此,本方法提供了非常吸引人的空间适应性优势;而这是许多标准卷积单元(如CNN中常见的卷积单元)中缺少的一个重要部分。
申请方在此单独公开本文描述的每个单独特征及两个或两个以上此类特征的任意组合。以本领域技术人员的普通知识,能够基于本说明书将此类特征或组合作为整体实现,而不考虑此类特征或特征的组合是否能解决本文所公开的任何问题;且不对权利要求书的范围造成限制。本申请表明本发明的各方面可由任何这类单独特征或特征的组合构成。鉴于前文描述可在本发明的范围内进行各种修改对本领域技术人员来说是显而易见的。

Claims (15)

1.一种用于变换输入图像的图像处理器,其特征在于,所述图像处理器用于实现经过训练的人工智能模型,所述图像处理器用于:
接收(101)所述输入图像(201);
基于(i)所述输入图像的内容和/或(ii)从所述输入图像中提取的特征,通过所述经过训练的人工智能模型处理(102)所述图像以:
(i)确定一组图像滤波器(202、203、204、205);
(ii)对于所述图像的多个子区域中的每一个,从所述一组图像滤波器中选择图像滤波器;
对于所述图像的所述多个子区域中的每一个,将所述相应的图像滤波器应用(103)于所述子区域或应用于从所述子区域中提取的特征。
2.根据权利要求1所述的图像处理器,其特征在于,所述多个子区域中的每一个是所述输入图像的像素。
3.根据权利要求1或2所述的图像处理器,其特征在于,对于所述图像的所述多个子区域中的每一个,将所述选择的图像滤波器应用于从所述子区域中提取的所述特征,从所述输入图像的所述子区域中提取的所述特征以张量的形式来定义。
4.根据上述权利要求中任一项所述的图像处理设备,其特征在于,所述图像处理器还用于,对于所述图像的所述多个子区域中的每一个,基于(i)所述图像的所述相应子区域的内容和/或(ii)从所述图像的所述相应子区域中提取的特征,从所述一组图像滤波器中选择图像滤波器。
5.根据上述权利要求中任一项所述的图像处理设备,其特征在于,所述图像处理器还用于,对于所述图像的所述多个子区域中的每一个,基于(i)所述图像的相应子区域周围的区域的内容和/或(ii)从所述图像的所述相应子区域周围的所述区域中提取的特征,从所述一组图像滤波器中选择图像滤波器。
6.根据上述权利要求中任一项所述的图像处理设备,其特征在于,所述经过训练的人工智能模型是卷积神经网络。
7.根据权利要求6所述的图像处理器,其特征在于,所述卷积神经网络包括正则化器,所述正则化器对所述学习的一组图像滤波器施加可变性。
8.根据上述权利要求中任一项所述的图像处理设备,其特征在于,所述一组图像滤波器包括预定义数量的离散滤波器。
9.根据上述权利要求中任一项所述的图像处理设备,其特征在于,所述一组图像滤波器中的每个图像滤波器对于所述组中的其它成员是唯一的。
10.根据上述权利要求中任一项所述的图像处理设备,其特征在于,所述一组图像滤波器中的每个图像滤波器是一个核。
11.根据权利要求10所述的图像处理设备,其特征在于,所述一组图像滤波器包括具有至少两种不同大小的核。
12.根据上述权利要求中任一项所述的图像处理设备,其特征在于,所述图像处理器用于执行以下图像操作中的一项或多项:去马赛克、超限分辨、语义分割和图像分类。
13.一种在用于变换输入图像的图像处理器处实现的方法(100),其特征在于,所述图像处理器用于实现经过训练的人工智能模型,所述方法包括:
接收(101)所述输入图像(201);
基于(i)所述输入图像的内容和/或(ii)从所述输入图像中提取的特征,通过所述经过训练的人工智能模型处理(102)所述图像以:
(i)确定一组图像滤波器(202、203、204、205);
(ii)对于所述图像的多个子区域中的每一个,从所述一组图像滤波器中选择图像滤波器;
对于所述图像的所述多个子区域中的每一个,将所述相应的图像滤波器应用(103)于所述子区域或应用于从所述子区域中提取的特征。
14.根据权利要求13所述的方法,其特征在于,所述多个子区域中的每一个是所述输入图像的像素。
15.根据权利要求13或14所述的方法,其特征在于,所述一组图像滤波器包括预定义数量的离散滤波器。
CN201980102145.3A 2019-11-14 2019-11-14 空间自适应图像滤波 Pending CN115053256A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2019/081370 WO2021093958A1 (en) 2019-11-14 2019-11-14 Spatially adaptive image filtering

Publications (1)

Publication Number Publication Date
CN115053256A true CN115053256A (zh) 2022-09-13

Family

ID=68583415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980102145.3A Pending CN115053256A (zh) 2019-11-14 2019-11-14 空间自适应图像滤波

Country Status (4)

Country Link
US (1) US20220277430A1 (zh)
EP (1) EP4049236A1 (zh)
CN (1) CN115053256A (zh)
WO (1) WO2021093958A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023102868A1 (en) * 2021-12-10 2023-06-15 Intel Corporation Enhanced architecture for deep learning-based video processing
CN114513662B (zh) * 2022-04-19 2022-06-17 北京云中融信网络科技有限公司 一种qp自适应环内滤波方法、系统、电子设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070183684A1 (en) * 2006-02-08 2007-08-09 Bhattacharjya Anoop K Systems and methods for contrast adjustment
US11321613B2 (en) * 2016-11-17 2022-05-03 Irida Labs S.A. Parsimonious inference on convolutional neural networks
CN108520505B (zh) * 2018-04-17 2021-12-03 上海交通大学 基于多网络联合构建与自适应选择的环路滤波实现方法

Also Published As

Publication number Publication date
WO2021093958A1 (en) 2021-05-20
EP4049236A1 (en) 2022-08-31
US20220277430A1 (en) 2022-09-01

Similar Documents

Publication Publication Date Title
Krull et al. Noise2void-learning denoising from single noisy images
EP3738082B1 (en) Accelerated quantized multiply-and-add operations
CN112767468B (zh) 基于协同分割与数据增强的自监督三维重建方法及系统
JP6656111B2 (ja) 画像のノイズを除去する方法及びシステム
US10535141B2 (en) Differentiable jaccard loss approximation for training an artificial neural network
CN108701210B (zh) 用于cnn网络适配和对象在线追踪的方法和系统
Xu et al. A fast patch-dictionary method for whole image recovery
US20220277430A1 (en) Spatially adaptive image filtering
CN113065645B (zh) 孪生注意力网络、图像处理方法和装置
CN112614072B (zh) 一种图像复原方法、装置、图像复原设备及存储介质
CN114746895A (zh) 用于图像去噪的噪声重构
WO2022100490A1 (en) Methods and systems for deblurring blurry images
Song et al. Multistage curvature-guided network for progressive single image reflection removal
Nam et al. Learning srgb-to-raw-rgb de-rendering with content-aware metadata
Rao et al. A clustering approach to optimize online dictionary learning
Wang et al. Tuning-free plug-and-play hyperspectral image deconvolution with deep priors
US20240020796A1 (en) Noise reconstruction for image denoising
Guo et al. ROUTE: Robust Outlier Estimation for Low Rank Matrix Recovery.
WO2022193514A1 (en) End to end differentiable machine vision systems, methods, and media
Hajmohammadi et al. Parallel hybrid bispectrum-multi-frame blind deconvolution image reconstruction technique
Srinivasan et al. An Efficient Video Inpainting Approach Using Deep Belief Network.
Wu et al. RDS-denoiser: a detail-preserving convolutional neural network for image denoising
Jebril et al. Cuckoo optimization algorithm (COA) for image processing
Liu et al. Towards a Unified Approach to Single Image Deraining and Dehazing
Richmond et al. Non-uniform blind image deblurring using an algorithm unrolling neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination