CN110428422A - 超像素采样网络 - Google Patents
超像素采样网络 Download PDFInfo
- Publication number
- CN110428422A CN110428422A CN201910333965.5A CN201910333965A CN110428422A CN 110428422 A CN110428422 A CN 110428422A CN 201910333965 A CN201910333965 A CN 201910333965A CN 110428422 A CN110428422 A CN 110428422A
- Authority
- CN
- China
- Prior art keywords
- pixel
- super
- differentiable
- sampling network
- simple linear
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005070 sampling Methods 0.000 title claims abstract description 46
- 238000013528 artificial neural network Methods 0.000 claims abstract description 12
- 230000008878 coupling Effects 0.000 claims description 3
- 238000010168 coupling process Methods 0.000 claims description 3
- 238000005859 coupling reaction Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 238000003475 lamination Methods 0.000 claims 3
- 238000000034 method Methods 0.000 description 20
- 238000003860 storage Methods 0.000 description 20
- 238000004422 calculation algorithm Methods 0.000 description 19
- 238000004891 communication Methods 0.000 description 17
- 238000012545 processing Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 238000013507 mapping Methods 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 9
- 238000012549 training Methods 0.000 description 7
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000005622 photoelectricity Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/187—Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种超像素采样网络。超像素采样网络利用耦合到可微分简单线性迭代聚类组件的神经网络从由神经网络输出的一组像素特征来确定像素‑超像素关联。超像素采样网络通过多次迭代计算更新的超像素中心和最终像素‑超像素关联。
Description
相关申请的交叉引用
根据美国法典第35篇第119(e)条,本申请要求于2018年5月1日提交的序列号为62/665,325的美国申请的优先权和权益,其内容通过引用整体并入本文。
背景技术
超像素是通过基于低级图像特性对图像像素进行分组而形成的图像的过分割。超像素提供图像内容在视觉上有意义的细分,从而减少用于后续图像处理的图像基元的数量。由于其代表性和计算效率,超像素已成为已建立的低/中级图像表示,并广泛用于计算机视觉算法,例如物体检测、语义分割、显著性估计、光流估计、深度估计、跟踪等。超像素尤其广泛用于传统的能量最小化框架中,其中较少数量的图像基元降低了优化复杂性。
已经针对广泛的计算机视觉问题采用了深度学习技术。除少数方法外,超像素几乎不与现代深度网络结合使用。这有两个主要原因:1)构成了大多数深度架构的基础的标准卷积运算,通常在规则网格点阵(lattice)上定义,并且在不规则超像素点阵上运算时变得效率低下;2)现有的超像素算法是不可微分的,因此在深度网络中利用超像素将不可微分的模块引入了其他端到端的可训练网络架构中。
发明内容
本文公开了用于实现用于超像素分割的深度可微分算法的系统的实施例。通过放宽简单线性迭代聚类(SLIC)中存在的最近邻约束,将SLIC超像素算法转换为可微分算法。这种可微分算法使能端到端训练,并允许利用深度网络学习超像素,而不是使用传统的手工制作特征。深度网络与可微分SLIC的组合形成了端对端可训练的超像素算法,即超像素采样网络(SSN)。
与传统的超像素算法相比,SSN具有以下特性:
1.端到端可训练:SSN是端到端可训练的,并可以高效地集成到其他深度网络架构中。
2.灵活且任务特定:SSN使能采用灵活的损失函数学习,从而致使学习特定任务的超像素。
3.最先进的性能:SSN在许多类型的数据集上可能优于传统的超像素算法,使机器或计算机能够在确定超像素时更高效地运行。
4.有利的运行时间:与传统的超像素算法相比,SSN在运行时间方面也具有更高效的运行时间,因此使能在大型数据集上进行学习,并在许多实际应用中实现更高的效率。
附图说明
为了容易地识别对任何特定元件或动作的讨论,参考标号中的最显著的一个或更多个数字指的是首先引入该元件的图号。
图1示出了超像素采样网络100的实施例。
图2示出了超像素采样网络200的实施例。
图3示出了超像素化方法300的实施例。
图4为计算系统400的框图,在计算系统400中可以呈现或实行本文引入的技术。
图5为可以包含本发明的实施例的计算装置500的示例性框图。
具体实施方式
除非另有明确说明或暗示,否则本文使用的术语应当提供其在本领域中的常规含义。
“可微分算法”是指采用全部连续的且可微分的计算分量的算法。
“最近邻约束”指的是属于同一群集/邻域的项的距离限制。
“端到端训练”指的是在没有监督(手动)干预的情况下从采样数据集学习的网络。
“深度网络”是指具有多于一个隐藏层的神经网络。
公开了一种超像素采样网络(SSN),其利用可微分线性聚类技术,该技术改善了传统的不可微分SLIC超像素算法。虽然SLIC算法有几种不同的变体,但在原始形式中,SLIC是在五维位置和颜色空间(通常为缩放的XY Lab空间)中对图像像素执行的k均值聚类。形式上,给定图像在n个像素处具有5维XY Lab特征,超像素计算的任务是将每个像素分配给m个超像素中的一个,即,计算像素-超像素关联图,H∈{0,1,...,m-1}n×1。然后SLIC算法进行如下操作。首先,在5维空间中对初始聚类(超像素)中心进行采样,可以通过基于图像梯度的一些局部扰动在像素网格上均匀地进行采样。给定这些初始超像素中心S0,SLIC算法以迭代方式进行,在每次迭代t中具有以下两个步骤:
1.像素-超像素关联:将每个像素与五维空间中最近的超像素中心相关联,即,计算每个像素p处的新的超像素分配,
其中D表示距离计算,D(a,b)=||a-b||2。
2.超像素中心更新:对每个超像素聚类内的像素特征(XY Lab)进行平均以获得新的超像素聚类中心St。对于每个超像素i,计算该聚类的几何中心。
其中Zt i表示超像素聚类i中的像素数量。
重复像素-超像素关联和超像素中心更新,直到收敛或者固定次数的迭代。因为在所有像素和超像素之间计算等式1中的距离D是耗时的,所以可以将该计算约束到每个超像素中心周围的固定邻域。最后,根据应用程序,可能还有一个额外的步骤来强制每个超像素聚类中的像素之间的空间连接。
SLIC中的计算表明,由于像素-超像素关联的计算而产生不可微分性,其涉及不可微分的最近邻操作。该最近邻计算形成SLIC超像素聚类的核心,因此难以避免该操作。
将最近邻操作转换为可微分操作。不是计算硬像素-超像素关联,H∈{0,1,...,m-1}n×1(利用等式1),而是计算像素和超像素之间的软关联具体地,对于迭代t处的像素p和超像素i,SLIC中的最近邻计算(等式1)替换为下面的像素-超像素关联:
用像素特征的权重之和替换新的超像素聚类中心(等式2)的计算,
其中Zti=∑pQt pi是归一化常数。列标准化的Qt可以被称为Q^t,因此,超像素中心更新是Q的大小是n×m,并且即使对于少量的超像素m,在所有像素和超像素之间计算Qpi可能是低效的。因此,来自每个像素的距离计算可以仅限于九(9)个周围的超像素。对于特定超像素中的每个像素,仅对周围超像素进行考虑来计算关联。这将Q的大小从n×m减小到n×9,使其在计算和存储方面都高效。现在,每个SLIC迭代中的计算都是可微分的,并且这种修改的算法是可微分的SLIC。由于这种新的超像素算法是可微分的,因此可以将其集成到深度网络架构中。不使用手动设计的像素特征Ip,而是使用深度特征提取器,并且整个网络都是端到端训练的。将上述计算中的图像特征Ip(等式3和4)替换为使用深度网络计算的k维像素特征深度网络与可微分SLIC的耦合是超像素采样网络(SSN)。
如图1所示,超像素采样网络100由两部分组成:深度网络102,其在每个像素处生成特征,然后将其传递到可微分SLIC 104以进行超像素提取。
首先使给定输入图像通过深度网络102以在每个像素处产生特征。然后将这些深度特征传递到可微分SLIC 104上,SLIC 104执行迭代聚类,产生所需的超像素。超像素采样网络100是端对端可训练的。超像素采样网络100的可微分性质允许利用灵活的损失函数来学习特定任务的超像素。超像素采样网络100可以与利用超像素的语义分割网络和视觉任务一起使用,例如确定与光流边界而不是标准对象边界更好地对准的超像素。
参考图2,超像素采样网络200包括深度网络102和可微分SLIC 104。深度网络102进一步包括卷积层202、卷积层204、卷积层206、卷积层208、卷积层210、卷积层212、双线性上采样器214、双线性上采样器216以及卷积层218。可微分SLIC 104进一步包括像素-超像素关联器220和超像素中心计算器222。可以根据图3描述的过程操作超像素采样网络200。
深度网络102是具有一个或更多个卷积层的卷积神经网络(CNN)。每个卷积层与批量范数(Batch Norm,BN)和修正线性单元(ReLU)非线性(nonlinearity)交织。来自深度网络102的特征随后将被传递到可微分SLIC中的迭代更新以生成超像素。卷积层202、卷积层204、卷积层208、卷积层212和卷积层218对输入执行卷积。卷积层206和卷积层210利用最大池化以增加网络的感受域,最大池化分别在卷积层204和卷积层208之后以因子2对输入信号进行下采样。双线性上采样器214和双线性上采样器216用于分别对卷积层208和卷积层212的输出进行双线性上采样。卷积层218将卷积层204、双线性上采样器214和双线性上采样器216的输出进行拼接(concatenate),并执行最终卷积。每个卷积层可以由3×3个滤波器组成,输出通道的数量设置为64,除了可以输出k-5个通道的卷积层218之外。该k-5个通道的输出与给定图像的XY Lab(x、y、r、g、b)拼接,从而在每个像素处产生k维特征。将所得到的k维像素特征传递到像素-超像素关联器220和超像素中心计算器222,其迭代地更新像素-超像素关联和超像素中心以进行v次迭代。迭代次数v可以是预定数量的,或者可以是基于先前的迭代(例如紧接在前的迭代)或基于阈值内的超像素的收敛来确定的。超像素采样网络200是端对端可训练的。
端到端可训练超像素采样网络200可以利用灵活的损失函数,其可以学习特定任务的超像素。超像素采样网络200可以与任何特定任务的损失函数耦合,从而导致学习针对下游计算机视觉任务而优化的超像素。超像素采样网络200可以学习可有效地表示场景特征的超像素,例如语义标签、光流、深度等。作为示例,如果存在下游语义分割任务,则所产生的超像素可以遵循语义边界。为了优化表示效率,可以使用特定任务的重建损失和紧凑性损失的组合。
像素属性(例如,语义标签或光流值)表示为例如,R可以是语义标签或光流图。在训练期间可以利用R来为超像素采样网络200学习预测适合于表示R的超像素。如前所述,可以使用列标准化关联矩阵Q^将像素属性映射到超像素上,其中然后使用行标准化关联矩阵Q~将得到的超像素表示映射回像素表示R*,R*=Q~S,其中R*∈Rn×l。然后重建损失给出为:
其中L表示特定任务的损失函数。对于分割任务,交叉熵损失用于L并且利用L1范数来学习用于光流的超像素。这里,Q表示在可微分SLIC的最终迭代之后的关联矩阵Qv。
除了优化表示效率之外,还可以利用紧凑性损失来影响超像素以在空间上紧凑,即在每个超像素聚类内具有较低的空间方差。Ixy表示位置像素特征。将这些位置特征映射到超像素表示,Sxy=Q^TIxy。然后,通过将相同的超像素位置特征分配给属于该超像素的所有像素,使用硬关联H而不是软关联Q来执行对像素表示的逆映射,紧凑性损失定义为以下L2范数:
该损失影响超像素使其在位置特征上具有较低的变化。然而,由于硬分配紧凑性损失关于H不可微分,但是关于超像素特征Sxy可微分,因此仍然可以与深度网络102一起使用。超像素采样网络200的灵活性使得能够利用许多其他损失函数。总损失可以是这两个损失函数的组合,L=Lrecon+λLcompact。比率λ的值可以设置为10-5。
可以在Caffe神经网络框架中利用CUDA将可微分SLIC 104实现为神经网络层。缩放的XY Lab位置和颜色特征可以用作超像素采样网络200的输入,其中位置和颜色特征尺度分别表示为γpos和γcolor。γcolor的值与超像素的数量无关,并且设置为0.26,颜色值在0到255之间。γpos的值可能取决于超像素的数量,γpos=ηmax(mw/nw,mh/nh),其中mw、nw和mh、nh分别表示沿图像宽度和高度的超像素和像素的数量。η可以采用数值2.5。
在训练期间,可以使用尺寸为201×201和100个超像素的图像块。在数据增强方面,可以利用左右翻转和图像块的随机缩放。可以使用批量大小为8且学习率为0.0001的亚当随机优化。可以训练模型进行500K迭代,并且基于验证准确度选择最终训练的模型。对于消融研究,可以使用变化的参数训练模型以进行200K迭代。将可微分的SLIC 104的5次迭代(v=5)用于训练,以及在测试时使用10次迭代。
参考图3,超像素化(superpixelation)方法300从接收图像开始(框302)。然后利用CNN执行深度图像特征提取(框304)。初始化超像素聚类中心(框306)。初始中心可以是初始常规超像素网格中的平均像素特征。然后,对于v次迭代,更新像素-超像素关联(框308)和超像素中心(框310)。一旦执行了多次迭代(判定框312),就输出最终的像素-超像素关联(框314)。迭代次数可以是预定的或者是由超像素化方法300接收到的,或者迭代次数可以由超像素化方法300通过像素-超像素关联的收敛来确定,例如通过将当前迭代与上一次迭代的差与阈值进行比较。尽管可以利用软像素-超像素关联Q,但是可以将软关联转换为硬关联H。此外,可以在每个超像素聚类内的像素上实施空间连接。这可以通过将小于特定阈值的超像素与周围的超像素合并,然后为每个空间连接的分量分配不同的聚类ID来实现。
对于利用超像素的一些下游应用,将像素表示映射到超像素表示上,反之亦然。利用提供硬聚类的传统超像素算法,这种从像素到超像素表示的映射是通过在每个聚类内部进行平均来完成的(参见上面的等式2)。从超像素到像素表示的逆映射是通过将相同的超像素特征分配给属于该超像素的所有像素来完成的。使用从SSN获得的硬聚类,也可以将相同的像素-超像素映射与SSN超像素一起使用。由SSN生成的软像素-超像素关联也可以用于像素和超像素表示之间的映射。等式4已经描述了从像素到超像素表示的映射,其是与列标准化Q矩阵的转置的简单矩阵乘法:S=Q^TF,其中F和S分别表示像素和超像素表示。从超像素到像素表示的逆映射是通过将表示为Q~的行标准化Q与超像素表示相乘来完成的,F=Q~S。因此,将像素和超像素表示之间的映射给出为与关联矩阵的简单矩阵乘法并且是可微分的。
图4是计算系统400的一个实施例的框图,其中可以实现本发明的一个或更多个方面。计算系统400包括系统数据总线432、CPU 402、输入设备408、系统存储器404、图形处理系统406和显示设备410。在备选实施例中,CPU 402、图形处理系统406的部分、系统数据总线432或其任何组合可以集成到单个处理单元中。此外,图形处理系统406的功能可以包括在芯片组中或一些其他类型的专用处理单元或协同处理器中。
如图所示,系统数据总线432连接CPU 402、输入设备408、系统存储器404和图形处理系统406。在备选实施例中,系统存储器404可以直接连接到CPU 402。CPU 402从输入设备408接收用户输入,执行存储在系统存储器404中的编程指令,对存储在系统存储器404中的数据进行操作以执行计算任务。系统存储器404通常包括用于存储编程指令和数据的动态随机存取存储器(DRAM)。图形处理系统406接收由CPU 402发送的指令,并处理指令以在显示设备410上渲染和显示图形图像。
还如图所示,系统存储器404包括应用程序412、API 414(应用程序编程接口)和图形处理单元驱动器416(GPU驱动器)。应用程序412生成对API 414的调用以产生期望的一组计算结果。例如,应用程序412可以将着色程序发送到API 414以在图形处理单元驱动器416内进行处理。
图形处理系统406包括GPU 418(图形处理单元)、片上GPU存储器422、片上GPU数据总线436、GPU本地存储器420和GPU数据总线434。GPU 418配置成经由片上GPU数据总线436与片上GPU存储器422通信和经由GPU数据总线434与GPU本地存储器420通信。GPU 418可以接收由CPU 402发送的指令,处理指令,并将结果存储在GPU本地存储器420中。随后,GPU418可以在显示设备410上显示存储在GPU本地存储器420中的某些图形图像。
GPU 418包括一个或更多个逻辑块424。逻辑块424可以实现本文描述的超像素技术的实施例。
可以为GPU 418提供任何数量的片上GPU存储器422和GPU本地存储器420,包括没有,并且可以使用片上GPU存储器422、GPU本地存储器420和系统存储器404的任何组合以用于存储器操作。
片上GPU存储器422配置成包括GPU编程428和片上缓冲器430。GPU编程428可以经由系统数据总线432从图形处理单元驱动器416传输到片上GPU存储器422。GPU编程428可以包括逻辑块424。
GPU本地存储器420通常包括较便宜的片外动态随机存取存储器(DRAM),并且还用于存储GPU 418所采用的数据和编程。如图所示,GPU本地存储器420包括帧缓冲器426。帧缓冲器426可以例如存储如可以用于驱动显示设备410的图像(例如图形表面)的数据。帧缓冲器426可以包括多于一个表面,使得GPU 418可以渲染一个表面,而第二表面用于驱动显示设备410。
显示设备410是能够发出与输入数据信号对应的视觉图像的一个或更多个输出设备。例如,可以使用液晶显示器或任何其他合适的显示系统来构建显示设备。通常通过扫描存储在帧缓冲器426中的一帧或更多帧图像数据的内容来生成到显示设备410的输入数据信号。
图5是可以包含本发明的实施例的计算设备500的示例性框图。图5仅示出了用于实行本文描述的技术过程的各方面的机器系统,并且不限制权利要求的范围。本领域普通技术人员将认识到其他变型、修改和替代方案。在一个实施例中,计算设备500通常包括监视器或图形用户界面502、数据处理系统520、通信网络接口512、输入设备508、输出设备506等。
如图5中所描绘的,数据处理系统520可以包括一个或更多个处理器504,其经由总线子系统518与多个外围设备通信。这些外围设备可以包括输入设备508、输出设备506、通信网络接口512、以及如易失性存储器510和非易失性存储器514的存储子系统。
易失性存储器510和/或非易失性存储器514可以存储计算机可执行指令,从而形成逻辑522,当应用于处理器504并由处理器504执行时,实现本文公开的过程的实施例。
输入设备508包括用于向数据处理系统520输入信息的设备和机构。这些设备和机构可以包括键盘、小键盘、包含在监视器或图形用户界面502中的触摸屏、诸如如语音识别系统、麦克风的音频输入设备和其他类型的输入设备等。在各种实施例中,输入设备508可以体现为计算机鼠标、轨迹球、跟踪板、操纵杆、无线遥控器、绘图板、语音命令系统、眼睛跟踪系统等。输入设备508通常允许用户通过诸如点击按钮等的命令来选择出现在监视器或图形用户界面502上的对象、图标、控制区域、文本等。
输出设备506包括用于从数据处理系统520输出信息的设备和机构。这些设备和机构可以包括本领域所熟知的监视器或图形用户界面502、扬声器、打印机、红外LED等。
通信网络接口512向通信网络(例如,通信网络516)和数据处理系统520外部的设备提供接口。通信网络接口512可以用作从其他系统接收数据和向其他系统发送数据的接口。通信网络接口512的实施例可以包括以太网接口、调制解调器(电话、卫星、电缆、ISDN)、(异步)数字用户线(DSL)、火线接口(FireWire)、USB、诸如蓝牙或Wi-Fi的无线通信接口、近场通信无线接口、蜂窝接口等。
通信网络接口512可以经由天线、电缆等耦合到通信网络516。在一些实施例中,通信网络接口512可以物理地集成在数据处理系统520的电路板上,或者在一些情况下可以用软件或固件实现,例如“软调制解调器”等。
计算设备500可以包括使用诸如HTTP、TCP/IP、RTP/RTSP、IPX、UDP等协议在网络上进行通信的逻辑。
易失性存储器510和非易失性存储器514是有形介质的示例,其配置成存储计算机可读数据和指令以实现本文描述的过程的各种实施例。其他类型的有形介质包括可移动存储器(例如,可插拔USB存储器设备、移动设备SIM卡)、诸如CD-ROM、DVD之类的光学存储介质、诸如闪存之类的半导体存储器、非暂时性只读存储器(ROMS)、电池支持的易失性存储器、网络存储设备等。易失性存储器510和非易失性存储器514可以配置成存储基本编程和数据构造,这些基本编程和数据构造提供所公开的过程和落入本发明的范围内的其他实施例的功能。
实现本发明实施例的逻辑522可以存储在易失性存储器510和/或非易失性存储器514中。可以从易失性存储器510和/或非易失性存储器514读取所述逻辑522并由处理器504执行。易失性存储器510和非易失性存储器514还可以提供储存库,用于存储由逻辑522使用的数据。
易失性存储器510和非易失性存储器514可以包括多个包含有用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)和存储只读非暂时性指令的只读存储器(ROM)的存储器。易失性存储器510和非易失性存储器514可以包括文件存储子系统,其为程序和数据文件提供持久(非易失性)存储。易失性存储器510和非易失性存储器514可以包括诸如可移动闪存的可移动存储系统。
总线子系统518提供用于使数据处理系统520的各种组件和子系统能够按预期彼此通信的机制。虽然将通信网络接口512示意性地描绘为单个总线,但是总线子系统518的一些实施例可以使用多个不同的总线。
对于本领域普通技术人员来说显而易见的是,计算设备500可以是诸如智能电话、台式计算机、膝上型计算机、机架式计算机系统、计算机服务器或者平板电脑设备之类的设备。如本领域公知的,计算设备500可以实现为多个联网计算设备的集合。此外,计算设备500通常包括操作系统逻辑(未示出),其类型和性质在本领域中是公知的。
解释
“电路”是指具有至少一个分立电路的电路,具有至少一个集成电路的电路,具有至少一个专用集成电路的电路,形成由计算机程序配置的通用计算设备的电路(例如,由至少部分地执行本文所述的过程或设备的计算机程序配置的通用计算机,或由至少部分地执行本文所述的过程或设备的计算机程序配置的微处理器),形成存储器设备的电路(例如,随机存取存储器的形式),或形成通信设备的电路(例如,调制解调器、通信交换机或光电设备)。
“固件”指的是体现为存储在只读存储器或介质中的处理器可执行指令的软件逻辑。
“硬件”指的是体现为模拟或数字电路的逻辑。
“逻辑”是指机器存储器电路、非暂时性机器可读介质和/或电路,其通过其材料和/或材料-能量配置构成可用于影响器件的操作的控制和/或程序信号,和/或设置和(例如电阻、阻抗、电容、电感、电流/电压额定值等)值。磁介质、电子电路、电气和光学存储器(易失性和非易失性)和固件都是逻辑的示例。逻辑特别排除纯信号或软件本身(但不排除包含软件的机器存储器,从而形成物质配置)。
“软件”指的是在机器存储器(例如,读/写易失性或非易失性存储器或介质)中实现为处理器可执行指令的逻辑。
这里,对“一个实施例”或“实施例”的引用不一定是指相同的实施例,尽管它们可以。除非上下文明确要求,否则在整个说明书和权利要求书中,应将词语“包括”,“包含”等解释为包含性意义而不是排他性或穷举性意义;也就是说,在“包括但不限于”的意义上。除非明确地限于单个或多个,否则使用单数或复数的单词也分别包括复数或单数。另外,当在本申请中使用时,词语“本文”,“上述”,“下述”和类似含义的词语在本申请中作为整体而不是指本申请的任何特定部分。当权利要求中使用“或”一词来引用两个或更多个项目的列表时,除非明确限于一个或另一个,该单词将涵盖对该单词的所有以下解释:列表中的任何项目,列表中的所有项目以及列表中的项目的任何组合。本文未明确定义的任何术语具有其相关领域的技术人员通常理解的常规含义。
本文描述的各种逻辑功能操作可以在使用反映所述操作或功能的名词或名词短语引用的逻辑中实现。例如,关联操作可以由“关联器”或“相关器”执行。同样,可以通过“开关”执行,“选择器”选择等来进行切换。
Claims (20)
1.一种超像素采样网络,包括:
神经网络;以及
与所述神经网络耦合的可微分简单线性迭代聚类组件;
所述神经网络从图像生成一组像素特征;以及
所述可微分简单线性迭代聚类组件进行:
确定初始超像素中心;
从所述一组像素特征和所述初始超像素中心确定像素-超像素关联;
确定更新的超像素中心;以及
其中所述可微分简单线性迭代聚类组件操作多次迭代,每次迭代利用所述更新的超像素中心来计算所述像素-超像素关联,所述可微分简单线性迭代聚类组件输出具有最终像素-超像素关联的所述图像。
2.如权利要求1所述的超像素采样网络,其中所述神经网络和所述可微分简单线性迭代聚类组件是端到端可训练的,所述可微分简单线性迭代聚类组件利用软像素-超像素关联。
3.如权利要求2所述的超像素采样网络,其中所述可微分简单线性迭代聚类组件还将所述软像素-超像素关联转换为硬像素-超像素关联。
4.如权利要求1所述的超像素采样网络,其中所述像素-超像素关联由下式确定:
5.如权利要求1所述的超像素采样网络,其中所述更新的超像素中心由下式确定:
6.如权利要求1所述的超像素采样网络,其中将所述最终像素-超像素关联转换为空间连接的像素-超像素关联。
7.如权利要求1所述的超像素采样网络,其中所述可微分简单线性迭代聚类组件利用重建损失函数。
8.如权利要求7所述的超像素采样网络,其中所述重建损失函数是:
9.如权利要求1所述的超像素采样网络,其中所述可微分简单线性迭代聚类组件利用紧凑性损失函数。
10.如权利要求9所述的超像素采样网络,其中所述紧凑性损失函数为:
11.如权利要求1所述的超像素采样网络,其中所述可微分简单线性迭代聚类组件进一步利用紧凑性损失函数和重建损失函数之和。
12.如权利要求11所述的超像素采样网络,其中所述紧凑性损失函数按级数10-5的系数缩放。
13.如权利要求1所述的超像素采样网络,其中所述初始超像素中心在所述图像上均匀确定。
14.如权利要求1所述的超像素采样网络,其中迭代次数基于当前迭代的所述像素-超像素关联与先前迭代的所述像素-超像素关联的收敛。
15.如权利要求1所述的超像素采样网络,其中所述可微分简单线性迭代聚类组件进一步确定低于阈值大小的小超像素,并将每个所述小超像素与周围超像素合并,所述可微分简单线性迭代聚类组件为每个空间连接组件分配不同的聚类ID。
16.如权利要求1所述的超像素采样网络,其中所述神经网络进一步包括:
第一卷积层,用于:
接收所述图像;以及
将所述图像卷积成第一卷积层输出;
第二卷积层,用于将所述第一卷积层输出卷积成第二卷积层输出;
第一池化层,用于将所述第二卷积层输出池化成第一池化层输出;
第三卷积层,用于将所述第一池化层输出卷积成第三卷积层输出;
第二池化层,用于将所述第三卷积层输出池化成第二池化层输出;
第四卷积层,用于将所述第二池化层输出卷积成第四卷积层输出;
第一双线性上采样器,用于将所述第三卷积层输出上采样为第一双线性上采样器输出;
第二双线性上采样器,用于将所述第四卷积层输出上采样为第二双线性上采样器输出;
最终卷积层,用于:
将所述图像、所述第二卷积层输出、所述第一双线性上采样器输出和所述第二双线性上采样器输出进行拼接;以及
通过卷积生成所述一组像素特征。
17.一种超像素采样网络,包括:
神经网络,用于输入图像并从所述图像生成一组像素特征;以及
可微分简单线性迭代聚类组件,与所述神经网络耦合;
所述可微分简单线性迭代聚类组件用于通过从所述一组像素特征和初始超像素中心中确定像素-超像素关联,并用于输出具有所述像素-超像素关联的所述图像。
18.如权利要求17所述的超像素采样网络,所述可微分简单线性迭代聚类组件通过生成更新的超像素中心。
19.如权利要求17所述的超像素采样网络,其中所述神经网络和所述可微分简单线性迭代聚类组件是端到端可训练的。
20.如权利要求19所述的超像素采样网络,其中:
由所述可微分简单线性迭代聚类组件确定的所述像素-超像素关联是软像素-超像素关联;以及
所述可微分简单线性迭代聚类组件将所述软像素-超像素关联转换为硬像素-超像素关联。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862665325P | 2018-05-01 | 2018-05-01 | |
US62/665,325 | 2018-05-01 | ||
US16/130,871 US10789678B2 (en) | 2018-05-01 | 2018-09-13 | Superpixel sampling networks |
US16/130,871 | 2018-09-13 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110428422A true CN110428422A (zh) | 2019-11-08 |
CN110428422B CN110428422B (zh) | 2024-05-24 |
Family
ID=68385105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910333965.5A Active CN110428422B (zh) | 2018-05-01 | 2019-04-24 | 超像素采样网络 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10789678B2 (zh) |
CN (1) | CN110428422B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926596A (zh) * | 2021-02-10 | 2021-06-08 | 北京邮电大学 | 基于循环神经网络的实时超像素分割方法及系统 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10853704B2 (en) | 2018-12-18 | 2020-12-01 | Clarifai, Inc. | Model-based image labeling and/or segmentation |
CN114484148B (zh) * | 2022-02-15 | 2024-01-02 | 河海大学常州校区 | 一种地下管道检测机器人检测系统及检测方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104143186A (zh) * | 2014-07-04 | 2014-11-12 | 华南理工大学 | 一种slic超像素分块优化方法 |
CN104376330A (zh) * | 2014-11-19 | 2015-02-25 | 西安电子科技大学 | 基于超像素散射机制的极化sar图像舰船目标检测方法 |
US20150262367A1 (en) * | 2014-03-12 | 2015-09-17 | Nokia Corporation | Method and Apparatus for Image Segmentation Algorithm |
CN105118049A (zh) * | 2015-07-22 | 2015-12-02 | 东南大学 | 一种基于超像素聚类的图像分割方法 |
US20160012161A1 (en) * | 2012-08-31 | 2016-01-14 | Fujitsu Limited | Solar panel deployment configuration and management |
CN106446914A (zh) * | 2016-09-28 | 2017-02-22 | 天津工业大学 | 基于超像素和卷积神经网络的道路检测 |
CN107103326A (zh) * | 2017-04-26 | 2017-08-29 | 苏州大学 | 基于超像素聚类的协同显著性检测方法 |
CN107392925A (zh) * | 2017-08-01 | 2017-11-24 | 西安电子科技大学 | 基于超像素编码和卷积神经网络的遥感影像地物分类方法 |
US20180027224A1 (en) * | 2016-07-19 | 2018-01-25 | Fotonation Limited | Systems and Methods for Estimating and Refining Depth Maps |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5748329A (en) * | 1996-03-08 | 1998-05-05 | Industrial Technology Research Institute | Method and apparatus for adaptive color scanning/printing data correction employing neural networks |
US10867416B2 (en) * | 2017-03-10 | 2020-12-15 | Adobe Inc. | Harmonizing composite images using deep learning |
-
2018
- 2018-09-13 US US16/130,871 patent/US10789678B2/en active Active
-
2019
- 2019-04-24 CN CN201910333965.5A patent/CN110428422B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160012161A1 (en) * | 2012-08-31 | 2016-01-14 | Fujitsu Limited | Solar panel deployment configuration and management |
US20150262367A1 (en) * | 2014-03-12 | 2015-09-17 | Nokia Corporation | Method and Apparatus for Image Segmentation Algorithm |
CN104143186A (zh) * | 2014-07-04 | 2014-11-12 | 华南理工大学 | 一种slic超像素分块优化方法 |
CN104376330A (zh) * | 2014-11-19 | 2015-02-25 | 西安电子科技大学 | 基于超像素散射机制的极化sar图像舰船目标检测方法 |
CN105118049A (zh) * | 2015-07-22 | 2015-12-02 | 东南大学 | 一种基于超像素聚类的图像分割方法 |
US20180027224A1 (en) * | 2016-07-19 | 2018-01-25 | Fotonation Limited | Systems and Methods for Estimating and Refining Depth Maps |
CN106446914A (zh) * | 2016-09-28 | 2017-02-22 | 天津工业大学 | 基于超像素和卷积神经网络的道路检测 |
CN107103326A (zh) * | 2017-04-26 | 2017-08-29 | 苏州大学 | 基于超像素聚类的协同显著性检测方法 |
CN107392925A (zh) * | 2017-08-01 | 2017-11-24 | 西安电子科技大学 | 基于超像素编码和卷积神经网络的遥感影像地物分类方法 |
Non-Patent Citations (5)
Title |
---|
WENLIN CHEN: "Learning with Scalability and Compactness", WASHINGTON UNIVERSITY OPEN SCHOLARSHIP, pages 4 - 8 * |
刘丹;刘学军;王美珍;: "一种多尺度CNN的图像语义分割算法", 遥感信息, no. 01, pages 57 - 64 * |
杨艳;许道云;: "优化加权核K-means聚类初始中心点的SLIC算法", 计算机科学与探索, no. 03 * |
薛萍;: "基于超像素特征表示的图像前景背景分割算法", 西安科技大学学报, vol. 37, no. 05, pages 731 - 735 * |
马军福;魏玮;: "一种改进的快速SLIC分割算法", 计算机工程与科学, no. 02 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926596A (zh) * | 2021-02-10 | 2021-06-08 | 北京邮电大学 | 基于循环神经网络的实时超像素分割方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
US10789678B2 (en) | 2020-09-29 |
US20190340728A1 (en) | 2019-11-07 |
CN110428422B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107358293B (zh) | 一种神经网络训练方法及装置 | |
CN109934697A (zh) | 一种基于图结构模型的信用风险控制方法、装置以及设备 | |
CN109711481A (zh) | 用于画作多标签识别的神经网络、相关方法、介质和设备 | |
CN110428422A (zh) | 超像素采样网络 | |
CN106951962A (zh) | 用于神经网络的复合运算单元、方法和电子设备 | |
CN112801279A (zh) | 用于卷积神经网络的超像素方法 | |
CN106649542A (zh) | 用于视觉问答的系统和方法 | |
CN114881237B (zh) | 量子计算处理方法、装置及电子设备 | |
CN110309835B (zh) | 一种图像局部特征提取方法及装置 | |
CN109242013A (zh) | 一种数据标注方法、装置、电子设备及存储介质 | |
CN108280451A (zh) | 语义分割及网络训练方法和装置、设备、介质、程序 | |
CN107256424A (zh) | 三值权重卷积网络处理系统及方法 | |
CN110058936A (zh) | 用于确定专用处理资源的资源量的方法、设备和计算机程序产品 | |
CN108875931A (zh) | 神经网络训练及图像处理方法、装置、系统 | |
CN107506376A (zh) | 获取区域内信息点数据的客户端 | |
CN109460794A (zh) | 一种数据特征提取方法、系统及电子设备和存储介质 | |
CN106779055B (zh) | 图像特征提取方法和装置 | |
CN115222845A (zh) | 样式字体图片生成方法、装置、电子设备和介质 | |
CN108876716A (zh) | 超分辨率重建方法及装置 | |
CN114386503A (zh) | 用于训练模型的方法和装置 | |
CN113762109B (zh) | 一种文字定位模型的训练方法及文字定位方法 | |
CN113516029B (zh) | 基于部分标注的图像人群计数方法、装置、介质及终端 | |
CN109359542A (zh) | 基于神经网络的车辆损伤级别的确定方法及终端设备 | |
CN109376344A (zh) | 表单的生成方法及终端设备 | |
Nguyen et al. | Space–time recurrent memory network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |