CN114862752A - 分类图的置信度辅助上采样 - Google Patents

分类图的置信度辅助上采样 Download PDF

Info

Publication number
CN114862752A
CN114862752A CN202210112014.7A CN202210112014A CN114862752A CN 114862752 A CN114862752 A CN 114862752A CN 202210112014 A CN202210112014 A CN 202210112014A CN 114862752 A CN114862752 A CN 114862752A
Authority
CN
China
Prior art keywords
pixel
neighboring
confidence
class
neighboring pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210112014.7A
Other languages
English (en)
Inventor
拉玛.迈蒂利.瓦达利
迈尤兰.维杰
奥列格.谢尔盖耶维奇.霍鲁日
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN114862752A publication Critical patent/CN114862752A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/18Image warping, e.g. rearranging pixels individually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/23Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on positionally close patterns or neighbourhood relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

一种用于分类图的置信度辅助上采样的系统和方法。在一些实施例中,该方法包括:确定图像的第一像素的类别,第一像素具有多个邻近像素,每个邻近像素具有类别;以及基于所确定的类别来处理图像。该确定可以包括:计算每个邻近像素的置信度加权度量,该置信度加权度量基于每个邻近像素当中的最大置信度值;以及基于每个邻近像素的置信度加权度量并基于邻近像素之一的类别来确定第一像素的类别。

Description

分类图的置信度辅助上采样
相关申请的交叉引用
本申请要求于(i)2021年2月3日提交的标题为“通过置信度加权辅助的分类图的增强最邻近上采样”的美国临时申请第63/145,193号,以及于(ii)2021年8月18日提交的标题为“通过置信度加权辅助的分类图的增强最邻近上采样”的美国临时申请第63/234,649号的优先权和权益,该两件专利申请的全部内容通过引用方式并入本文。
技术领域
根据本公开的实施例的一个或多个方面涉及分类图生成,并且更具体地,涉及上采样分类图的生成。
背景技术
在用于处理图像和用于产生分类图的系统和方法中,上采样可能是计算上的负担,其复杂度可能是O(N*C)(即,N*C的数量级),其中N是像素的数目,并且C是分类数据的基数。此外,最邻近上采样的相关技术方法可能具有低复杂度,但是也可能具有较低的质量,例如,它可能受到边缘处锯齿伪影的影响。
因此,需要一种用于分类图的上采样的改进的系统和方法。
发明内容
根据本公开的实施例,提供了一种方法,包括:确定图像的第一像素的类别,第一像素具有多个邻近像素,每个邻近像素具有类别;以及基于所确定的类别处理图像,该确定包括:计算每个邻近像素的置信度加权度量,该置信度加权度量基于每个邻近像素当中的最大置信度值;以及基于每个邻近像素的置信度加权度量并基于邻近像素之一的类别来确定第一像素的类别。
在一些实施例中,置信度加权度量还基于空间滤波器函数(spatial filterfunction)。
在一些实施例中,空间滤波器函数对于第一邻近像素比对于第二邻近像素具有更大的值,第一像素离第一邻近像素比离第二邻近像素更近。
在一些实施例中:空间滤波器函数在(x2–x)(y2–y)/((x2–x1)(y2–y1))的30%内,x1和y1是第一邻近像素的坐标,x2和y2是第二邻近像素的坐标,并且x和y是第一像素的坐标。
在一些实施例中,对于每个邻近像素,空间滤波器函数在第一像素和邻近像素之间的坐标差的高斯函数的30%内。
在一些实施例中,置信度加权度量还基于范围滤波器函数(range filterfunction)。
在一些实施例中,范围滤波器函数对于第一邻近像素比对于第二邻近像素具有更大的值,第一像素在强度上离第一邻近像素比离第二邻近像素更近。
在一些实施例中,置信度加权度量还基于空间滤波器函数。
在一些实施例中,确定第一像素的类别包括将第一像素的类别确定为邻近像素中具有最大置信度加权度量的像素的类别。
在一些实施例中,确定第一像素的类别包括将第一像素的类别确定为该类别中所有邻近像素的置信度加权度量之和最大的类别。
根据本公开的实施例,提供了一种包括处理电路的系统,处理电路被配置为:确定图像的第一像素的类别,第一像素具有多个邻近像素,每个邻近像素具有类别;以及基于所确定的类别处理图像,该确定包括:对每个邻近像素计算置信度加权度量,该置信度加权度量基于每个邻近像素的最大置信度值;以及基于每个邻近像素的置信度加权度量并基于邻近像素之一的类别来确定第一像素的类别。
在一些实施例中,置信度加权度量还基于空间滤波器函数。
在一些实施例中,空间滤波器函数对于第一邻近像素比对于第二邻近像素具有更大的值,第一像素离第一邻近像素比离第二邻近像素更近。
在一些实施例中:空间滤波器函数在(x2–x)(y2–y)/((x2–x1)(y2–y1))的30%内,x1和y1是第一邻近像素的坐标,x2和y2是第二邻近像素的坐标,并且x和y是第一像素的坐标。
在一些实施例中,对于每个邻近像素,空间滤波器函数在第一像素和邻近像素之间的坐标差的高斯函数的30%内。
在一些实施例中,置信度加权度量还基于范围滤波器函数。
在一些实施例中,范围滤波器函数对于第一邻近像素比对于第二邻近像素具有更大的值,第一像素在强度上离第一邻近像素比离第二邻近像素更近。
在一些实施例中,置信度加权度量还基于空间滤波器函数。
在一些实施例中,确定第一像素的类别包括将第一像素的类别确定为邻近像素中具有最大置信度加权度量的像素的类别。
根据本公开的实施例,提供了一种系统,包括用于处理的装置,该用于处理的装置被配置为:确定图像的第一像素的类别,第一像素具有多个邻近像素,每个邻近像素具有类别;以及基于所确定的类别处理图像,该确定包括:计算每个邻近像素的置信度加权度量,该置信度加权度量基于每个邻近像素的最大置信度值;以及基于每个邻近像素的置信度加权度量并基于邻近像素之一的类别来确定第一像素的类别。
附图说明
参考说明书、权利要求书和附图,将会理解和明白本公开的这些以及其他特征和优点,其中:
图1A是用于分析图像的系统的框图;
图1B是用于分析图像的系统的框图;
图2是示出根据本公开的实施例的上采样电路的输入和输出的框图;
图3是根据本公开的实施例的上采样像素和四个邻近像素的图;
图4是根据本公开的实施例的用于分析图像的系统的框图;
图5A是用于分析图像的流水线(pipeline)的框图;
图5B是用于分析图像的流水线的框图;
图5C是根据本公开的实施例的用于分析图像的流水线的框图;
图6是根据本公开的实施例的经处理图像;
图7A是根据本公开的实施例的经处理图像的放大部分;
图7B是根据本公开的实施例的经处理图像的放大部分;
图7C是根据本公开的实施例的经处理图像的放大部分;以及
图8是根据本公开的实施例的方法的流程图。
具体实施方式
下面结合附图阐述的详细描述旨在作为根据本公开提供的用于分类图的上采样的系统和方法的示例性实施例的描述,并且不旨在代表可以构建或利用本公开的唯一形式。描述结合所示实施例阐述了本公开的特征。然而,应当理解,相同或等效的功能和结构可以通过不同的实施例来完成,这些实施例也包含在本公开的范围内。如本文别处所示,相似的元素编号旨在表示相似的元素或特征。
在计算机视觉和图像处理的领域,从低分辨率图像(image)或图(map)到高分辨率的2-D插值(即上采样)是一种常见的操作。随着计算机视觉中深度学习应用的出现,预测像素级分类数据的神经网络变得非常重要。这种神经网络可以接收图像并产生分类图。例如,对于背景前面的植物的图像(例如,如下面讨论的图6和图7A-图7C中),分类图可以是其中每个像素被指派类别的图,例如,如果像素被归类为背景的一部分,则为零,并且如果像素是植物的一部分,则为一。在背景前面有猫、狗和植物的图像中,分类图的每个像素可以被归类为四个对应类别之一。在产生这种分类图的神经网络中,神经网络的中间特征图可以包括包含四个通道的置信体积(confidence volume),该四个通道包括为每个像素指定该像素是猫的部分的概率的置信体积的第一通道,为每个像素指定该像素是狗的部分的概率的置信体积的第二通道,为每个像素指定该像素是植物的部分的概率的置信体积的第三通道,以及为每个像素指定该像素是背景的部分的概率的置信体积的第四通道。
在相关技术的神经网络中,对于神经网络的大多数层,神经网络可以以比输入分辨率更低的分辨率操作。为了在神经网络的输出获得以输入分辨率的分类图(即,具有与输入图像相同分辨率的输出图),可以在最终层中使用双线性上采样。这种神经网络如图1A所示。它包括特征提取和编码电路105(在该电路内,特征图尺寸显著减小,如该电路的锥度(taper)所示)、解码器110(在该电路内,特征图尺寸略微增大)、双线性上采样电路115(在该电路内,特征图尺寸进一步增大)和产生分类图的argmax电路120。双线性上采样电路115的输出可以是由C个通道组成的置信体积,其中C是类别的数目,置信体积的每个通道包括以与输入图像相同的分辨率(H×W)的图。然后,argmax电路可以为输出特征图的每个像素指派置信度(即,对应于类别的通道中像素的置信度)最大的类别。
在图1A的实施例中,对logits的体积进行上采样需要基本计算,具有时间复杂度为O(N*C),其中,N是像素的数目,并且C是分类数据的基数(即,类别或通道的数目)。该计算负担可能使这种方法不适用于某些实时应用。
相比之下,首先以较低的分辨率推导2-D分类图,并且然后只对分类图进行上采样,可能仅具有O(N)的复杂度。然而,缺乏有效和快速的对分类数据上采样的方法可能是这种优化的障碍。分类值彼此之间可能不遵循任何排序或关系。因此,诸如双线性插值或多项式插值等插值方法可能不直接适用。如图1B所示,可以替代使用最邻近插值来对分类数据进行上采样。在图1B的实施例中,解码器110的输出是argmax电路120的输入,该电路接收置信体积的C个低分辨率(H/s×W/s)通道,并从它们生成单个低分辨率(H/s×W/s)分类图。然后,可以使用例如最邻近上采样电路125将该低分辨率分类图上采样为全分辨率(H×W)分类图。
然而,由于在与对应于不同类别的区域的边界相对应的边缘缺乏像素支持,最邻近上采样可能引入混叠。这种混叠可能以不期望的阶梯形状和边缘处锯齿伪影的形式表现出来(如下面在图7B的上下文中所讨论的)。
在一些实施例中,这些问题通过使用从计算角度来看不是过度负担的上采样函数来减轻。上采样函数使用基于置信度加权度量的方法来确定高分辨率分类图(其可以称为目标分类图T)。对于每个目标像素,在低分辨率分类图(其可以称为源分类图S)中定义对应的像素邻域(neighborhood)。可以为每个邻近源像素计算置信度加权度量。然后,目标像素值可以被设置为等于(i)具有最高置信度加权度量的邻近源像素的分类值,或者(ii)该类别中所有邻近像素的置信度加权度量之和最大的类别。
过程如图2所示。到分类上采样电路205(其可以是或包括处理电路(下面将进一步详细讨论))的输入可以包括低分辨率分类图210、低分辨率置信度图215和高分辨率引导图像220(其被示为灰度图像,但其可以是彩色图像);分类上采样电路205的输出可以是高分辨率分类图225。如下面进一步详细讨论的,神经网络可以生成每通道的置信体积的一个低分辨率通道;置信图215可以在每个像素中容纳置信体积的通道的对应像素在通道上的最大值。
图3示出了目标高分辨率分类图的像素p及其四个邻近像素q11、q12、q21和q22在低分辨率分类图210和低分辨率置信度图215中的位置。仅显示一个目标像素;如果示出了所有目标像素,那么在一些实施例中,在四个邻近像素q11、q12、q21和q22之间将存在大量目标像素。在一些实施例中,可以使用多于四个邻近像素(例如,9个或更多个像素,其可以排列成正方形或准圆形邻域,其可以从正方形的角附近省略一些像素)。
在一些实施例中,置信度加权度量是作为(i)置信度图(ii)到最邻近的几何接近度的测量(measure)和(iii)高分辨率引导图像的测光(即,强度或颜色)的函数来计算的。然后,可以基于像素的邻近像素的置信度加权度量来确定目标高分辨率分类图的每个像素的类别(如下面进一步详细讨论的)。图4是这种实施例的框图。在图4的实施例中,解码器110的输出被馈送到argmax电路405,其生成类别图(类别图的每个元素是在通道上的、argmax电路405的输入的置信体积的通道上的argmax)并被馈送到max电路407,其生成每个以低分辨率的置信度图(置信度图的每个元素是在通道上的、max电路407的输入的置信体积的通道上的最大值)。然后,置信度辅助上采样电路使用(如图2所示)低分辨率分类图210、低分辨率置信度图215和高分辨率引导图像220来生成目标高分辨率分类图。置信度加权度量的使用可能涉及很少的复杂性,并且因此通常非常适合于实时分析,并且它可以减轻最邻近上采样可能展现出的阶梯或锯齿伪影。
在一些实施例中,置信度加权度量被定义为
Figure BDA0003495071120000061
其中:
Ωp表示目标像素(p)的邻域S,
Cq是在q的置信度值(来自置信度图215),
I是高分辨率的引导图像,
f(.)是空间滤波器函数,并且
g(.)是以在p↑的图像值为中心的范围滤波器函数。
对q∈Ωp,q表示T中对应的高分辨率坐标。
空间滤波器f(.)可以是考虑到接近度q到p的任何合适的函数,例如,通常对比离目标像素更远的邻近像素更重地加权靠近目标像素的邻近像素的任何函数。例如,空间滤波器可以是随着减小距离而单调增大的函数。在一些实施例中,空间滤波器使用双线性权重,像素q11的权重计算如下:
f=(x2–x)(y2–y)/((x2–x1)(y2–y1)),
其中x1和y1是像素q11的坐标,x2和y2是像素q22的坐标,并且x和y是像素p的坐标。在其他实施例中,空间滤波器是以p为中心的高斯函数;例如,像素q11的权重可以等于或正比于exp(-((x–x1)2+(y–y1)2)/w2),其中w是高斯函数的宽度。在一些实施例中,空间滤波器近似等于这样的函数,例如,它在这样的函数的30%内。
范围滤波器g(.)可以测量高分辨率引导图像中的像素q和像素p之间的测光接近度(强度或颜色)。范围滤波器的选择可能取决于应用。范围滤波器可以是考虑引导图像中以q和p为像素值的相似性的任何合适的函数,例如,通常对比具有与目标像素的值更不同的值的邻近像素更重地加权具有与目标像素的值相似的值(例如,强度或颜色)的邻近像素的任何函数。例如,当目标像素在强度上比第二邻近像素更靠近第一邻近像素时,范围滤波器函数对于第一邻近像素可以具有比对于第二邻近像素更大的值。如本文所使用的,当第一像素比第二像素“在强度上更接近”于目标像素时,这意味着第一像素的强度和目标像素的强度之间的差小于第二像素的强度和目标像素的强度之间的差。在一些实施例中,范围滤波器是以
Figure BDA0003495071120000071
为中心的高斯,例如对像素q11其可以等于或正比于
Figure BDA0003495071120000072
其中,
Figure BDA0003495071120000073
是在引导图像中、在与目标像素p相同的坐标处的像素的强度,
Figure BDA0003495071120000074
是在引导图像中、在与邻近像素q11相同的位置处的像素的强度,以及w是高斯函数的宽度。在其他实施例中,范围滤波器可以是引导图像的对应像素的颜色分量之间的矢量差(例如,红、绿、蓝(RGB)矢量之间的差)或者亮度和色度(YUV)分量之间的差的函数(例如,高斯函数)。在一些实施例中,范围滤波器近似等于这样的函数,例如,它在这样的函数的30%内。如本文所使用的,“范围滤波器函数”是计算对两个像素的显示值(例如,显示的颜色的强度或方面)相同程度的测量的函数。
在一些实施例中,在用于计算置信度加权度量的表达式中,并非所有三个因式Cq、f(q,p)和
Figure BDA0003495071120000075
都存在。例如,空间滤波器函数f(.)可以被设置为1以忽略空间分量,或者范围滤波函数g(.)可以被设置为1以忽略测光分量(或者两者都可以被设置为1)。
一旦为每个邻近像素计算了置信度加权度量,就可以基于每个邻近像素的置信度加权度量并且基于一个(或多个)邻近像素的类别来确定目标像素的类别。例如,可以将在p的插值(i)设置为等于当使用argmax运算时具有最高置信度加权度量wp的Ωp中的邻近像素的分类值,或者(ii)基于可以称为分类值上的加权直方图或“模式滤波器”的方法来设置。
如果使用argmax运算,则在p的分类值(即
Figure BDA0003495071120000081
)可指派如下:
Figure BDA0003495071120000082
其中
Figure BDA0003495071120000083
该运算将目标像素的类别设置为等于具有最高置信度加权度量的邻近像素的类别。
如果使用模式滤波器,则可以在加权直方图上计算模式:
Figure BDA0003495071120000084
其中
Figure BDA0003495071120000085
Figure BDA0003495071120000086
L表示一组可能的分类值,并且
h(l)是为在邻域Ωp中的l∈L计算的加权直方图。
该运算将目标像素的类别设置为该类别中所有邻近像素上的置信度加权度量之和最大的类别。模式滤波器是统计模式的变体;如果所有邻近像素的置信度加权度量相同,则由模式滤波器返回的类别是邻近像素的类别集合的统计模式。
图5A-图5C示出了三种处理方法的相关技术流水线。这些图中指定的图像尺寸(dimension)只是示例,基于应用要求可能会有所不同。在图5A的实施例中,其示出了用于logits的双线性上采样的流水线(对应于图1A),输入图像505由双线性尺寸调整(bilinearresizing)电路510处理以产生尺寸调整后的图像515,该图像由神经网络520处理,产生logits的第一数组525。然后,边缘感知上采样电路530使用输入图像505作为引导图像对logits的第一数组525进行上采样,以形成logits的第二数组535。然后,双线性上采样电路540从logits的第二数组535产生logits的第三数组545,并且从logits的第三数组545,argmax电路550生成高分辨率分类图555(或者,在分割的情况下,产生分割图),以及max电路560生成高分辨率置信度图565。
在图5B的实施例中,其示出了用于分割图(对应于图1B)的最邻近上采样的流水线,以与图5A中相同的方式产生logits的第二数组535。然后,argmax电路550从logits的第二数组535生成低分辨率分割图552,其被最邻近上采样电路554转换为高分辨率分类图555,以及max电路560从logits的第二数组535生成低分辨率置信度图562(其可以与图2的置信度图215相同),其被双线性尺寸调整电路564调整尺寸以形成高分辨率置信度图565。
在图5C的实施例中,其示出了由置信度加权辅助(对应于图4)的分类图的最邻近上采样的流水线,低分辨率分割图552和低分辨率置信度图562以与图5B中相同的方式产生。然后,置信度辅助上采样电路570使用输入图像505作为引导图像,基于低分辨率置信度图562对低分辨率分割图552执行上采样,以形成高分辨率分类图555。置信度辅助上采样电路570可以执行本文描述的一种或多种方法,包括为目标像素的多个邻近像素中的每一个计算置信度加权度量,并且例如使用argmax方法或模式滤波器方法为目标像素指派类别。
图6是由图4和图5C的实施例处理的彩色图像的灰度版本,其中灰色重叠形状示出了分割算法识别为对应于图像中所示植物的区域。图7A-图7C是图像的一部分(图6中虚线矩形中的部分)的放大图,示出了用(i)图1A和图5A、(ii)图1B和图5B、(iii)图4和图5C的三种相应分割算法处理图像的结果。阶梯和锯齿伪影在图7B中特别明显。
图8是一些实施例中的方法的流程图。该方法包括在805确定图像的第一像素的类别,第一像素具有多个邻近像素,每个邻近像素具有类别;以及在810,基于所确定的类别处理图像。图像可以是高分辨率输入图像505(其也可以用作引导图像),并且高分辨率分割图555的生成可以对应于确定高分辨率输入图像505的每个像素的类别。在810,图像505的处理可以包括,例如,不同地处理图像的不同部分(对应于不同的类别),例如,模糊被分类为背景的像素区域,或者增亮对应于一个类别的区域并且变暗对应于另一类别的区域。如本文所使用的,“处理图像”意味着直接处理图像,或者处理基于图像执行的其他处理步骤的任何产品。这样,处理图像可以包括(或由其组成)在其他处理步骤中使用高分辨率分割图555(例如,在基于机器视觉的载具导航算法中,将摄像机视野中的对象归类为不同类别(例如,其他载具、建筑物、街道标志或行人))。
如本文所使用的,某事物的“一部分”意味着该事物的“至少一些”,并因此可能意味着少于该事物的全部或者该事物的全部。因此,事物的“一部分”包括作为特例的整个事物,即整个事物是该事物的一部分的示例。如本文所使用的,当第二数量在第一数量X的“Y以内”时,这意味着第二数量至少是X-Y,并且第二数量最多是X+Y。如本文所使用的,当第二数目在第一数目的“Y%以内”时,这意味着第二数目至少是第一数目的(1-Y/100)倍,并且第二数目最多是第一数目的(1+Y/100)倍。如本文所使用的,术语“或”应该被解释为“和/或”,使得例如,“A或B”是指“A”或“B”或者“A和B”中的任何一个。
术语“处理电路”和“用于处理的装置”中的每一个在本文用来表示用于处理数据或数字信号的硬件、固件和软件的任何组合。处理电路硬件可以包括例如专用集成电路(ASIC)、通用或专用中央处理单元(CPU)、数字信号处理器(DSP)、图形处理单元(GPU)和可编程逻辑器件,诸如现场可编程门阵列(FPGA)。在本文所使用的处理电路中,每个功能或者由被配置为执行该功能的硬件(即,硬连线)来执行,或者由被配置为运行存储在非暂时性存储介质中的指令的更通用的硬件(诸如,CPU)来执行。处理电路可以在单个印刷电路板(PCB)上制造,或者分布在几个互连的PCB上。处理电路可以包含其他处理电路;例如,处理电路可以包括互连在PCB上的两个处理电路,FPGA和CPU。
如本文所使用的,术语“数组”指的是有序的数字集合,而不管如何存储(例如,是存储在连续的存储器位置中,还是存储在链表中)。如本文所使用的,当方法(例如,调整)或第一数量(例如,第一变量)被称为“基于”第二数量(例如,第二变量)时,这意味着第二数量是到该方法的输入或影响第一数量,例如,第二数量可以是计算第一数量的到函数的输入(例如,唯一的输入,或几个输入之一),或者第一数量可以等于第二数量,或者第一数量可以与第二数量相同(例如,存储在存储器中的一个或多个相同位置)。如本文所使用的,“基于”意味着“至少部分基于”,即,被描述为基于第二数量的第一数量也可以基于第三数量。
应当理解,尽管术语“第一”、“第二”、“第三”等,在本文可以用来描述各种元素、组件、区域、层和/或部分,但这些元素、组件、区域、层和/或部分不应该被这些术语所限制。这些术语仅用于区分一个元素、组件、区域、层或部分与另一个元素、组件、区域、层或部分。因此,在不脱离本发明构思的精神和范围的情况下,本文讨论的第一元素、组件、区域、层或部分可以被称为第二元素、组件、区域、层或部分。
本文使用的术语仅用于描述特定实施例的目的,并不旨在限制本发明的概念。如本文所使用的,术语“基本上”、“大约”和类似的术语被用作近似术语,而不是程度术语,并且旨在说明本领域普通技术人员将会认识到的测量或计算值中的固有偏差。
如本文所使用的,单数形式“一”和“一个”旨在也包括复数形式,除非上下文清楚地指出不是这样。将进一步理解,当在本说明书中使用时,术语“包括”和/或“包含”指定所陈述的特征、整数、步骤、操作、元素和/或组件的存在,但是不排除一个或多个其他特征、整数、步骤、操作、元素、组件和/或其组合的存在或添加。如本文所用,术语“和/或”包括一个或多个相关列出项目的任何和所有组合。当在元素列表之前,诸如“至少一个”的表达式修改整个元素列表,并不修改列表中的单个元素。此外,当描述本发明构思的实施例时,使用“可以”是指“本公开的一个或多个实施例”。此外,术语“示例性的”旨在指示例或说明。如本文所使用的,术语“使用”、“使用中”和“使用过”可被认为分别与术语“利用”、“利用中”和“利用过”同义。
本文所列举的任何数值范围旨在包括归入所列举的范围内的相同数值精度的所有子范围。例如,“1.0至10.0”或“1.0至10.0之间”的范围旨在包括所列举的最小值1.0和所列举的最大值10.0之间(并包括这两者)的所有子范围,即具有等于或大于1.0的最小值和等于或小于10.0的最大值,诸如例如2.4至7.6。类似地,被描述为“10的35%以内”的范围旨在包括所列举的最小值6.5(即(1–35/100)乘以10)和所列举的最大值13.5(即(1+35/100)乘以10)之间(并包括这两者)的所有子范围,即,具有等于或大于6.5的最小值和等于或小于13.5的最大值,诸如例如7.4至10.6。本文所列举的任何最大数值限制旨在包括其中被归入的所有较低数值限制,而本说明书所列举的任何最小数值限制旨在包括其中被归入的所有较高数值限制。
尽管本文已经具体描述和示出了用于分类图的上采样的系统和方法的示例性实施例,但是许多修改和变化对于本领域技术人员来说是显而易见的。因此,应当理解,根据本公开的原理构造的用于分类图的上采样的系统和方法可以不同于本文具体描述的方式来实施。本发明也在以下权利要求及其等同物中定义。

Claims (20)

1.一种用于分类图生成的方法,包括:
确定图像的第一像素的类别,第一像素具有多个邻近像素,每个邻近像素具有类别;以及
基于所确定的类别处理图像,
所述确定包括:
计算每个邻近像素的置信度加权度量,所述置信度加权度量基于每个邻近像素当中的最大置信度值;以及
基于每个邻近像素的置信度加权度量并基于邻近像素之一的类别来确定第一像素的类别。
2.根据权利要求1所述的方法,其中置信度加权度量还基于空间滤波器函数。
3.根据权利要求2所述的方法,其中空间滤波器函数对于第一邻近像素比对于第二邻近像素具有更大的值,第一像素离第一邻近像素比离第二邻近像素更近。
4.根据权利要求3所述的方法,其中:
空间滤波器函数在(x2–x)(y2–y)/((x2–x1)(y2–y1))的30%内,
x1和y1是第一邻近像素的坐标,
x2和y2是第二邻近像素的坐标,以及
x和y是第一像素的坐标。
5.根据权利要求4所述的方法,其中对于每个邻近像素,空间滤波器函数在第一像素和邻近像素之间的坐标差的高斯函数的30%内。
6.根据权利要求1所述的方法,其中置信度加权度量还基于范围滤波器函数。
7.根据权利要求6所述的方法,其中范围滤波器函数对于第一邻近像素比对于第二邻近像素具有更大的值,第一像素在强度上离第一邻近像素比离第二邻近像素更近。
8.根据权利要求6所述的方法,其中置信度加权度量还基于空间滤波器函数。
9.根据权利要求1所述的方法,其中确定第一像素的类别包括将第一像素的类别确定为邻近像素中具有最大置信度加权度量的像素的类别。
10.根据权利要求1所述的方法,其中确定第一像素的类别包括将第一像素的类别确定为这样的类别:该类别中的所有邻近像素上的置信度加权度量之和最大。
11.一种包括处理电路的系统,该处理电路被配置成:
确定图像的第一像素的类别,第一像素具有多个邻近像素,每个邻近像素具有类别;以及
基于所确定的类别处理图像,
所述确定包括:
计算每个邻近像素的置信度加权度量,所述置信度加权度量基于每个邻近像素的最大置信度值;以及
基于每个邻近像素的置信度加权度量并基于邻近像素之一的类别来确定第一像素的类别。
12.根据权利要求11所述的系统,其中置信度加权度量还基于空间滤波器函数。
13.根据权利要求12所述的系统,其中空间滤波器函数对于第一邻近像素比对于第二邻近像素具有更大的值,第一像素离第一邻近像素比离第二邻近像素更近。
14.根据权利要求13所述的系统,其中:
空间滤波器函数在(x2–x)(y2–y)/((x2–x1)(y2–y1))的30%内,
x1和y1是第一邻近像素的坐标,
x2和y2是第二邻近像素的坐标,以及
x和y是第一像素的坐标。
15.根据权利要求14所述的系统,其中,对于每个邻近像素,空间滤波器函数在第一像素和邻近像素之间的坐标差的高斯函数的30%内。
16.根据权利要求11所述的系统,其中置信度加权度量还基于范围滤波器函数。
17.根据权利要求16所述的系统,其中范围滤波器函数对于第一邻近像素比对于第二邻近像素具有更大的值,第一像素在强度上离第一邻近像素比离第二邻近像素更近。
18.根据权利要求16所述的系统,其中置信度加权度量还基于空间滤波器函数。
19.根据权利要求11所述的系统,其中确定第一像素的类别包括将第一像素的类别确定为邻近像素中具有最大置信度加权度量的像素的类别。
20.一种包括用于处理的装置的系统,该用于处理的装置被配置成:
确定图像的第一像素的类别,第一像素具有多个邻近像素,每个邻近像素具有类别;以及
基于所确定的类别处理图像,
所述确定包括:
计算每个邻近像素的置信度加权度量,所述置信度加权度量基于每个邻近像素的最大置信度值;以及
基于每个邻近像素的置信度加权度量并基于邻近像素之一的类别来确定第一像素的类别。
CN202210112014.7A 2021-02-03 2022-01-29 分类图的置信度辅助上采样 Pending CN114862752A (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US202163145193P 2021-02-03 2021-02-03
US63/145,193 2021-02-03
US202163234649P 2021-08-18 2021-08-18
US63/234,649 2021-08-18
US17/503,121 2021-10-15
US17/503,121 US11995156B2 (en) 2021-02-03 2021-10-15 Confidence aided upsampling of categorical maps

Publications (1)

Publication Number Publication Date
CN114862752A true CN114862752A (zh) 2022-08-05

Family

ID=82403216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210112014.7A Pending CN114862752A (zh) 2021-02-03 2022-01-29 分类图的置信度辅助上采样

Country Status (5)

Country Link
US (2) US11995156B2 (zh)
KR (1) KR20220112211A (zh)
CN (1) CN114862752A (zh)
DE (1) DE102022102541A1 (zh)
TW (1) TW202303518A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI806243B (zh) * 2021-11-17 2023-06-21 瑞昱半導體股份有限公司 超解析度影像產生裝置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9269184B2 (en) 2009-05-21 2016-02-23 Sony Computer Entertainment America Llc Method and apparatus for rendering image based projected shadows with multiple depth aware blurs
CN102714726B (zh) 2010-01-15 2015-03-25 杜比实验室特许公司 使用元数据的用于时间缩放的边缘增强
US8471932B2 (en) * 2010-09-30 2013-06-25 Apple Inc. Spatial filtering for image signal processing
EP3869797B1 (en) 2012-08-21 2023-07-19 Adeia Imaging LLC Method for depth detection in images captured using array cameras
KR101664758B1 (ko) 2012-09-21 2016-10-10 노키아 테크놀로지스 오와이 비디오 코딩 방법 및 장치
WO2017004803A1 (en) * 2015-07-08 2017-01-12 Xiaoou Tang An apparatus and a method for semantic image labeling
US10679326B2 (en) 2015-11-24 2020-06-09 Canon Kabushiki Kaisha Image data processing apparatus and image data processing method that determine confidence data indicating a level of confidence in a pixel value in high resolution image data
WO2017132600A1 (en) * 2016-01-29 2017-08-03 Intuitive Surgical Operations, Inc. Light level adaptive filter and method
US10284810B1 (en) 2017-11-08 2019-05-07 Qualcomm Incorporated Using low-resolution frames to increase frame rate of high-resolution frames
US11347965B2 (en) 2019-03-21 2022-05-31 Illumina, Inc. Training data generation for artificial intelligence-based sequencing
US11895409B2 (en) * 2020-08-20 2024-02-06 Qualcomm Incorporated Image processing based on object categorization

Also Published As

Publication number Publication date
US20220245407A1 (en) 2022-08-04
TW202303518A (zh) 2023-01-16
KR20220112211A (ko) 2022-08-10
US11995156B2 (en) 2024-05-28
US20240281502A1 (en) 2024-08-22
DE102022102541A1 (de) 2022-08-04

Similar Documents

Publication Publication Date Title
US11610082B2 (en) Method and apparatus for training neural network model used for image processing, and storage medium
US10679351B2 (en) System and method for semantic segmentation of images
US20240281502A1 (en) Confidence aided upsampling of categorical maps
JP6088792B2 (ja) 画像検出装置及び制御プログラム並びに画像検出方法
GB2580671A (en) A computer vision system and method
CN112348815A (zh) 图像处理方法、图像处理装置以及非瞬时性存储介质
US9367920B2 (en) Method and apparatus for processing images
US20120121166A1 (en) Method and apparatus for three dimensional parallel object segmentation
JP5653141B2 (ja) 画像処理方法、画像処理装置、及び、プログラム
CN115331245B (zh) 一种基于图像实例分割的表格结构识别方法
US20220319145A1 (en) Image processing device, image processing method, moving device, and storage medium
CN107704847B (zh) 一种人脸关键点的检测方法
CN112132164B (zh) 目标检测方法、系统、计算机装置及存储介质
CN109741358B (zh) 基于自适应超图学习的超像素分割方法
EP2782065B1 (en) Image-processing device removing encircling lines for identifying sub-regions of image
JP4639754B2 (ja) 画像処理装置
CN116612041A (zh) 基于超像素分析的低照度图像增强方法及系统
CN113935934A (zh) 图像处理方法、装置、电子设备和计算机可读存储介质
CN113343987A (zh) 文本检测处理方法、装置、电子设备及存储介质
JP7360303B2 (ja) 画像処理装置および画像処理方法
CN112001949A (zh) 确定目标点移动速度的方法、装置、可读存储介质及设备
CN115619678A (zh) 一种图像变形的矫正方法、装置、计算机设备及存储介质
CN113033593A (zh) 基于深度学习的文本检测训练方法及装置
CN111753573B (zh) 二维码图像识别方法、装置、电子设备以及可读存储介质
CN118379696B (zh) 一种船舶目标检测方法、装置及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination