CN109598725B - 改进图像分割学习方法和装置及使用其的测试方法和装置 - Google Patents
改进图像分割学习方法和装置及使用其的测试方法和装置 Download PDFInfo
- Publication number
- CN109598725B CN109598725B CN201811147163.7A CN201811147163A CN109598725B CN 109598725 B CN109598725 B CN 109598725B CN 201811147163 A CN201811147163 A CN 201811147163A CN 109598725 B CN109598725 B CN 109598725B
- Authority
- CN
- China
- Prior art keywords
- filter
- filters
- feature maps
- image
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 112
- 238000003709 image segmentation Methods 0.000 title claims abstract description 41
- 238000010998 test method Methods 0.000 title claims description 5
- 230000008569 process Effects 0.000 claims abstract description 70
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000004364 calculation method Methods 0.000 claims abstract description 13
- 238000012360 testing method Methods 0.000 claims description 36
- 230000010339 dilation Effects 0.000 claims description 11
- 238000004891 communication Methods 0.000 claims description 9
- 230000003247 decreasing effect Effects 0.000 claims description 4
- 238000004513 sizing Methods 0.000 claims 1
- 238000013527 convolutional neural network Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 16
- 230000000694 effects Effects 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
公开了一种通过使用学习装置来改进图像分割的方法。该方法包括以下步骤:(a)如果获得训练图像,则通过编码层和解码层获取第(2‑K)至第(2‑1)特征图,并从与第(2‑K)至第(2‑1)特征图中的从H个滤波器获得的H个特征图分别对应的第1至第H损失层中获取第1至第H损失;以及(b)在执行反向传播过程时,执行以下过程:允许第(2‑M)滤波器将卷积运算应用于从第(2‑(M‑1))滤波器中继的第(M‑1)2调整特征图,从而获得第M1临时特征图;将通过第M1临时特征图计算第M损失得到的第M2调整特征图中继至第(2‑(M+1))滤波器;以及调整第(1‑1)滤波器至第(1‑K)滤波器和第(2‑K)至第(2‑1)滤波器的参数的至少一部分。
Description
技术领域
本发明涉及一种用于改进图像分割的学习方法和学习装置及使用其的测试方法和测试装置,更具体地说,涉及一种通过使用学习装置改进图像分割的学习方法和学习装置,以及使用它们的测试方法和测试装置,其中,学习装置包括:(i)编码层,具有通过将一个或多个卷积运算应用于作为训练图像的输入图像来分别生成第(1-1)特征图至第(1-K)特征图的第(1-1)滤波器至第(1-K)滤波器中的每一个;(ii)解码层,具有通过将一个或多个去卷积运算应用于1-K特征图来分别生成第(2-K)特征图至第(2-1)特征图的第(2-K)滤波器至第(2-1)滤波器中的每一个;以及(iii)第1损失层至第H损失层,分别与包括在解码层中的K个滤波器中的H个滤波器交互,学习方法包括以下步骤:(a)如果获得输入图像,则学习装置通过编码层和解码层获取第(2-K)特征图至第(2-1)特征图,并从与第(2-K)特征图至第(2-1)特征图中的从H个滤波器获得的H个特征图中的每一个分别对应的第1损失层至第H损失层中获取第1损失至第H损失;(b)在执行反向传播过程时,学习装置执行以下过程:(1)允许第(2-M)滤波器将卷积运算应用于从第(2-(M-1))滤波器中继的第(M-1)2调整特征图,从而获得第M1临时特征图;(2)将通过利用第M1临时特征图计算第M损失得到的第M2调整特征图中继至第(2-(M+1))滤波器;以及(3)调整第(1-1)滤波器至第(1-K)滤波器和第(2-K)滤波器至第(2-1)滤波器的参数的至少一部分,其中M是大于或等于2且小于或等于K-1的整数,其中,作为步骤(b)的初始状态,第1损失层计算对应于第(2-1)特征图的第1损失,第(2-1)滤波器对第1损失应用卷积运算从而获取第12调整特征图,并且第(2-1)滤波器将第12调整特征图中继至第(2-2)滤波器。
背景技术
深度卷积神经网络,或深度CNN,是深度学习领域显著发展的核心。尽管CNN在20世纪90年代已经被用于解决字符识别问题,但直到最近CNN才在机器学习中得到广泛应用。由于最近的研究,卷积神经网络(CNN)已经成为机器学习领域非常有用和强大的工具。例如,在2012年,深度CNN在年度软件竞赛ImageNet大规模视觉识别挑战赛中的表现明显优于其竞争对手,并赢得了比赛。
因此,出现了使深度学习技术适应图像分割的新趋势。作为参考,图像分割可以包括将输入图像(例如,训练图像或测试图像)划分为多个语义片段并且确定具有清晰边界的一组语义片段以使得语义片段共同覆盖整个输入图像的过程。图像分割的结果是所谓的标签图像。
图1是示意性地示出根据现有技术的使用CNN来学习图像分割的过程的图。参考图1,通过多个卷积滤波器对输入图像多次应用卷积运算,获得对应于输入图像(即训练图像)的特征图。然后,通过多个去卷积滤波器对来自卷积层的最终输出多次应用去卷积运算,获得对应于输入图像的标签图像。
详细地,通过卷积运算对输入图像进行编码并通过去卷积运算对特征图进行解码以获得标签图像的CNN的配置被称为编码-解码网络,即U-Net。在编码过程期间,每当应用卷积运算时,每个卷积滤波器的输出的大小减小到其输入的大小的一半,而输出的通道数增加到其输入的两倍。这是为了通过缩小输入图像的大小或其对应的特征图的大小来减少计算量,从而在利用减少的计算量的优势的同时通过增加的通道数提取复杂图案。通常,经过各个卷积滤波器使得输入图像的大小或其对应的特征图的大小缩小1/2的比例并且其通道数加倍。
此外,缩小大小的特征图移除其多个高频区域并保留关于其低频区域的信息,所述低频区域表示输入图像的语义和细节部分,例如,天空、道路、建筑和汽车等。输入图像的这些有意义的部分用于通过在解码过程期间执行去卷积运算来推断标签图像。
此外,对于采用深度学习的CNN的学习过程,计算作为地面真值(GT)标签图像与从训练图像预测的标签图像之间的差的损失。并且在反向传播过程期间,计算的损失在作为与生成标签图像的方向相反方向的反向方向上被中继。然而,存在的问题是,由于在反向方向传播回来,损失的值越来越小,并且变得太小而不能调整U-Net上每个滤波器的参数。
因此,本发明的发明人提出了一种可以解决上述问题的新方法。
发明内容
本发明的一个目的是提供一种用于在能够执行图像分割的CNN的学习过程期间防止在反向传播过程期间损失减少的方法。
本发明的另一个目的是提供一种用于在反向传播过程中通过计算解码层中每个滤波器的每个相应损失找到每个滤波器的最佳参数的方法。
本发明的又一个目的是提供一种用于通过使用每个滤波器的最佳参数精确地执行图像分割的方法。
根据本发明的一个方面,提供了一种用于通过使用学习装置来改进图像分割的学习方法,其中,所述学习装置包括:(i)编码层,具有通过将一个或多个卷积运算应用于作为输入图像的训练图像来分别生成第(1-1)特征图至第(1-K)特征图的第(1-1)滤波器至第(1-K)滤波器中的每一个;(ii)解码层,具有通过将一个或多个去卷积运算应用于1-K特征图来分别生成第(2-K)特征图至第(2-1)特征图的第(2-K)滤波器至第(2-1)滤波器中的每一个;以及(iii)第1损失层至第H损失层,分别与包括在解码层中的K个滤波器中的H个滤波器交互,所述学习方法包括以下步骤:(a)如果获得输入图像,则学习装置通过编码层和解码层获取第(2-K)特征图至第(2-1)特征图,并从与第(2-K)特征图至第(2-1)特征图中的从H个滤波器获得的H个特征图中的每一个分别对应的第1损失层至第H损失层中获取第1损失至第H损失;(b)在执行反向传播过程时,学习装置执行以下过程:(1)允许第(2-M)滤波器将卷积运算应用于从第(2-(M-1))滤波器中继的第(M-1)2调整特征图,从而获得第M1临时特征图;(2)将通过利用第M1临时特征图计算第M损失得到的第M2调整特征图中继至第(2-(M+1))滤波器;以及(3)调整第(1-1)滤波器至第(1-K)滤波器和第(2-K)滤波器至第(2-1)滤波器的参数的至少一部分,其中M是大于或等于2且小于或等于K-1的整数,其中,作为步骤(b)的初始状态,第1损失层计算对应于第(2-1)特征图的第1损失,第(2-1)滤波器对第1损失应用卷积运算从而获取第12调整特征图,并且第(2-1)滤波器将第12调整特征图中继至第(2-2)滤波器。
根据本发明的另一方面,提供了一种用于对作为输入图像的测试图像执行图像分割的测试方法,包括以下步骤:(a)测试装置在如下条件下获取测试图像:(I)学习装置包括:(i)编码层,具有通过将一个或多个卷积运算应用于训练图像来分别生成第(1-1)特征图至第(1-K)特征图的第(1-1)滤波器至第(1-K)滤波器中的每一个;(ii)解码层,具有通过将一个或多个去卷积运算应用于1-K特征图来分别生成第(2-K)特征图至第(2-1)特征图的第(2-K)滤波器至第(2-1)滤波器中的每一个;以及(iii)第1损失层至第H损失层,分别与包括在解码层中的K个滤波器中的H个滤波器交互;(II)如果获得输入图像,则学习装置通过编码层和解码层获取第(2-K)特征图至第(2-1)特征图,并从与第(2-K)特征图至第(2-1)特征图中的从H个滤波器获得的H个特征图中的每一个分别对应的第1损失层至第H损失层中获取第1损失至第H损失;(III)在执行反向传播过程时,学习装置执行以下过程:(1)允许第(2-M)滤波器将卷积运算应用于从第(2-(M-1))滤波器中继的第(M-1)2调整特征图,从而获得第M1临时特征图;(2)将通过利用第M1临时特征图计算第M损失得到的第M2调整特征图中继至第(2-(M+1))滤波器;以及(3)调整第(1-1)滤波器至第(1-K)滤波器和第(2-K)滤波器至第(2-1)滤波器的参数的至少一部分,其中M是大于或等于2且小于或等于K-1的整数,其中,作为(III)的初始状态,第1损失层计算对应于第(2-1)特征图的第1损失,第(2-1)滤波器对第1损失应用卷积运算从而获取第12调整特征图,并且第(2-1)滤波器将第12调整特征图中继至第(2-2)滤波器;以及(IV)学习装置获取第(2-K)滤波器至第(2-1)滤波器和第(1-1)滤波器至第(1-K)滤波器的调整参数;以及(b)测试装置通过利用第(2-K)滤波器至第(2-1)滤波器和第(1-1)滤波器至第(1-K)滤波器的调整参数对获取的测试图像执行图像分割。
根据本发明的又一方面,提供了一种用于改进图像分割的学习装置,其中,学习装置包括:(i)编码层,具有通过将一个或多个卷积运算应用于作为输入图像的训练图像来分别生成第(1-1)特征图至第(1-K)特征图的第(1-1)滤波器至第(1-K)滤波器中的每一个;(ii)解码层,具有通过将一个或多个去卷积运算应用于1-K特征图来分别生成第(2-K)特征图至第(2-1)特征图的第(2-K)滤波器至第(2-1)滤波器中的每一个;以及(iii)第1损失层至第H损失层,分别与包括在解码层中的K个滤波器中的H个滤波器交互,所述学习装置包括:通信部,用于接收输入图像;处理器,用于执行以下过程:(I)如果获得输入图像,则通过编码层和解码层获取第(2-K)特征图至第(2-1)特征图,并从与第(2-K)特征图至第(2-1)特征图中的从H个滤波器获得的H个特征图中的每一个分别对应的第1损失层至第H损失层中获取第1损失至第H损失;(II)在执行反向传播过程时,(i)允许第(2-M)滤波器将卷积运算应用于从第(2-(M-1))滤波器中继的第(M-1)2调整特征图从而获得第M1临时特征图;(ii)将通过利用第M1临时特征图计算第M损失得到的第M2调整特征图中继至第(2-(M+1))滤波器;以及(iii)调整第(1-1)滤波器至第(1-K)滤波器和第(2-K)滤波器至第(2-1)滤波器的参数的至少一部分,其中M是大于或等于2且小于或等于K-1的整数,并且其中,作为初始状态,第1损失层计算对应于第(2-1)特征图的第1损失,第(2-1)滤波器对第1损失应用卷积运算从而获取第12调整特征图,并且第(2-1)滤波器将第12调整特征图中继至第(2-2)滤波器。
根据本发明的又一方面,提供了一种用于对作为输入图像的测试图像执行图像分割的测试装置,包括:通信部,用于在如下条件下获取测试图像:(I)学习装置包括:(i)编码层,具有通过将一个或多个卷积运算应用于训练图像来分别生成第(1-1)特征图至第(1-K)特征图的第(1-1)滤波器至第(1-K)滤波器中的每一个;(ii)解码层,具有通过将一个或多个去卷积运算应用于1-K特征图来分别生成第(2-K)特征图至第(2-1)特征图的第(2-K)滤波器至第(2-1)滤波器中的每一个;以及(iii)第1损失层至第H损失层,分别与包括在解码层中的K个滤波器中的H个滤波器交互;(II)如果获得训练图像,则学习装置通过编码层和解码层获取第(2-K)特征图至第(2-1)特征图,并从与第(2-K)特征图至第(2-1)特征图中的从H个滤波器获得的H个特征图中的每一个分别对应的第1损失层至第H损失层中获取第1损失至第H损失;(III)在执行反向传播过程时,学习装置执行以下过程:(1)允许第(2-M)滤波器将卷积运算应用于从第(2-(M-1))滤波器中继的第(M-1)2调整特征图,从而获得第M1临时特征图;(2)将通过利用第M1临时特征图计算第M损失得到的第M2调整特征图中继至第(2-(M+1))滤波器;以及(3)调整第(1-1)滤波器至第(1-K)滤波器和第(2-K)滤波器至第(2-1)滤波器的参数的至少一部分,其中M是大于或等于2且小于或等于K-1的整数,其中,作为(III)的初始状态,第1损失层计算对应于第(2-1)特征图的第1损失,第(2-1)滤波器对第1损失应用卷积运算从而获取第12调整特征图,并且第(2-1)滤波器将第12调整特征图中继至第(2-2)滤波器;以及(IV)学习装置获取第(2-K)滤波器至第(2-1)滤波器和第(1-1)滤波器至第(1-K)滤波器的调整参数;以及处理器,通过利用第(2-K)滤波器至第(2-1)滤波器和第(1-1)滤波器至第(1-K)滤波器的调整参数,所述处理器对所获取的测试图像执行图像分割或支持另一装置对所获取的测试图像执行图像分割。
附图说明
通过下面结合附图对优选实施例的描述,本发明的上述和其它目的和特征将变得显而易见,其中:
图1是示意性地示出根据现有技术的能够执行图像分割的CNN的学习过程的图;
图2A和图2B是示出根据本发明的一个示例实施例的包括能够通过使用多个损失层执行图像分割的CNN的学习装置的学习过程的图;
图3是示出根据本发明的一个示例实施例的获取第1损失的过程的图;
图4是示出根据本发明的一个示例实施例的获取调整特征图的过程的图;
图5是示意性地示出用于通过调整地面真值(GT)标签图像的通道数改变GT标签图像的大小的方法的图;
图6A和图6B是示出根据本发明另一示例实施例的包括能够通过使用多个损失层执行图像分割的CNN的学习装置的学习过程的图;
图7A和图7B是示出根据本发明的又一示例实施例的包括能够通过使用多个损失层执行图像分割的CNN的学习装置的学习过程的图。
具体实施方式
为了使本发明的目的、技术方案和优点清楚,参考附图,附图通过图示的方式示出了可以实施本发明的更详细的示例实施例。足够详细地描述了这些实施例,以使本领域技术人员能够实施本发明。
应该理解,本发明的各个实施例虽然不同,但不一定是相互排斥的。例如,在不脱离本发明的精神和范围的情况下,可以在其他实施例中实现本文中结合一个实施例描述的特定特征、结构或特性。另外,应该理解,在不脱离本发明的精神和范围的情况下,可以修改每个公开的实施例中的各个元件的位置或布置。因此,以下详细描述不应被视为具有限制意义,并且本发明的范围仅由所附权利要求限定,并由权利要求以及权利要求所赋予的等同物的全部范围适当地解释。在附图中,相同的附图标记在若干视图中指代相同或相似的特征。
在下文中,将参考附图详细描述本发明的优选实施例,以便本领域技术人员可以容易地实现本发明。
图2A和图2B是示出根据本发明的一个示例实施例的包括能够通过使用多个损失层执行图像分割的CNN的学习装置的学习过程的图。
采用具有多个损失层的CNN的学习装置(未示出)可以包括通信部(未示出)和处理器(未示出)。具体地,通信部可以接收训练图像作为输入图像,并且处理器可以被配置为执行将至少一个卷积运算应用于训练图像以获取特征图然后对该特征图应用至少一个去卷积运算以获取标签图像的过程。此外,处理器可以在反向传播过程期间通过将多个损失中继回每个滤波器来执行优化U-Net上的每个滤波器的参数的过程。
此外,学习装置可以包括:编码层,具有K个滤波器,即第(1-1)至第(1-K)滤波器;解码层,具有K个滤波器,即第(2-1)至第(2-K)滤波器,每个滤波器对应于第(1-1)至第(1-K)滤波器中的每一个;以及第1至第K损失层,分别与第(2-1)至第(2-K)滤波器交互。
参照图2A和图2B,可以通过接收训练图像作为输入图像来启动学习过程。然后,将输入图像提供给编码层中的第(1-1)滤波器。编码层中的第(1-1)至第(1-K)滤波器执行卷积运算以获得从输入图像导出的特征图,即编码特征图。
具体地,如图2A和图2B所示,第(1-1)滤波器接收输入图像,执行卷积运算以生成第(1-1)特征图,并将第(1-1)特征图中继到(1-2)滤波器。然后,第(1-2)滤波器接收第(1-1)特征图,执行卷积运算以生成第(1-2)特征图,并将第(1-2)特征图中继到(1-3)滤波器。从上述说明书中可以推断出,编码层中的其余各个滤波器继续这样的过程,并最终前进至第(1-K)滤波器以生成第(1-K)特征图。
这里,第(1-1)至第(1-K)滤波器中的每一个的输出的大小例如减小到其输入的大小一半。因此,减少了计算量。此外,每当应用卷积运算时,输出的通道数增加到其输入的通道数的两倍。
例如,如果第(1-1)特征图的大小是320×240并且其通道数是8,则(i)第(1-2)特征图的大小是160×120并且其通道数是16,(ii)第(1-3)特征图的大小为80×60并且其通道数是32,依此类推。
此后,通过再次参照图2A和图2B,将1-K特征图提供给解码层以产生标签图像。解码层中的第(2-K)至第(2-1)滤波器执行去卷积运算以获得标签图像。
在从第(1-K)滤波器接收到第(1-K)特征图之后,包括解码滤波器(即第(2-K)至第(2-1)滤波器)的解码层将去卷积运算应用于第(1-K)特征图,从而获取标签图像。通过执行去卷积运算,从第(1-K)特征图导出的各个特征图(即解码特征图)的大小顺序地增加,同时其通道数顺序地减少。解码层中的滤波器可以保留关于编码特征图的边缘的信息,并且可以减少除了关于其边缘的信息之外的其他部分的信息,从而产生标签图像。
如图2A和图2B所示,第(2-K)滤波器接收第(1-K)特征图并执行去卷积运算以生成第(2-K)特征图,并将第(2-K)特征图中继到第(2-(K-1))滤波器。第(2-(K-1))滤波器遵循上述相同的过程以生成第(2-(K-1))特征图并将第(2-(K-1))特征图中继到第(2-(K-2))滤波器。从以上描述可以推断,解码层中的其余各个滤波器继续这样的过程,并最终前进至第(2-1)滤波器以生成第(2-1)特征图。
这里,第(2-1)至第(2-K)滤波器中的每一个的输出的大小是其输入的大小的两倍,而第(2-1)至第(2-K)滤波器中的每一个的输出的通道数减少到其输入的通道数的一半。
例如,如果第(2-K)特征图的大小是20×15并且其通道数是128,则第(2-(K-1))特征图的大小是40×30并且其通道数是64。同样,第(2-(K-2))特征图的大小为80×60,并且其通道数为32。
因此,第(1-(K-1))特征图的大小和通道数与第(2-K)特征图的大小和通道数彼此相同,并且第(1-1)特征图的大小和通道数等于第(2-2)特征图的大小和通道数。从以上描述可以推断出,输入图像(即训练图像)的大小与第(2-1)特征图(即标签图像)的大小彼此相同。
再次参照图2A和图2B,解码层中的第(2-1)至第(2-K)滤波器分别与第1至第K损失层交互。第1至第K损失层分别计算第1至第K损失,损失层为相应的滤波器(即第(2-1)至第(2-K)滤波器)提供各损失。通过比较地面真值(GT)标签图像与由第(2-1)至第(2-K)滤波器生成的解码特征图的每一个计算第1至第K损失。
这里,在第1至第K损失层与第(2-1)至第(2-K)滤波器之间可以存在第(3-1)至第(3-K)滤波器(未示出),其中第(3-1)至第(3-K)滤波器是滤波器大小为1×1的卷积滤波器,能够调整解码特征图的每一个的通道数。
在反向传播过程中,第(2-1)至第(2-K)滤波器中的每一个利用其由每个相应的损失层计算的相应损失从而产生每个相应的临时特征图,然后产生每个相应的调整特征图。当然,可以在反向传播过程中通过反向遍历U-Net生成多个临时特征图和调整特征图。之后将公开该过程的细节。
学习装置通过反向传播过程调整U-Net上的滤波器(即第(1-1)至第(1-K)滤波器和第(2-K)至第(2-1)滤波器)中的至少一个的参数,以最小化第1损失的值。也就是说,可以通过这种反向传播过程找到并计算参数的最佳值。
在图2A和图2B中,由第(1-K)滤波器生成的第(1-K)特征图是最有影响的特征图,因为它包含指示输入图像内的有意义的分段单元的语义信息。此外,第(1-K)特征图是所有特征图中的最小特征图。因此,第(1-K)特征图对估计要通过解码层获取的标签图像具有显著影响。如果包含在第(1-K)特征图中的语义信息不正确并且有意义的分段单元被错误表示,则估计的标签图像可能是错误的。
根据传统技术之一,损失层可以连接到U-Net上的最后一个滤波器,即第(2-1)滤波器,并且计算的损失可以在反向传播过程中被反向中继到U-Net上的滤波器的每一个。这种传统技术采用单个的最终损失。当计算的损失从第(2-1)滤波器传播回第(2-K)滤波器时,损失的值变得越来越小,并且最终变得太小而不能用于调整参数。
因此,根据本发明的一个具体实施例,解码层的滤波器的每一个分别连接到损失层的每一个并与损失层的每一个交互。计算各个特征图的各自的损失以生成用于调整参数的临时特征图和调整特征图。
此外,在图2A和图2B中,损失层的每一个计算各损失的值。解码层中的各个滤波器将卷积运算应用于从其对应的先前滤波器获得的各个调整特征图作为其输入,从而生成各个临时特征图。然后,解码层中的各个滤波器通过使用各损失和各临时特征图新产生各个调整特征图作为其输出,并将它们分别中继到它们相应的下一个滤波器。
图3是示出根据本发明的一个示例实施例的在反向传播过程期间获取第1损失的过程的图。
第1损失层通过计算GT标签图像与从第(2-1)特征图导出的估计的标签图像之间的差来产生第1损失。作为参考,可以通过对第(2-1)特征图应用预定操作(未示出)来获取估计的标签图像。然而,在附图中,假设第(2-1)特征图是估计的标签图像,因此第(2-1)特征图被提供给图3中的第1损失层。
通常,可能存在用于计算损失的各种方法,所述损失是GT标签图像和估计的标签图像之间的差。基本上,可以采用欧几里德损失层来计算损失,欧几里德损失层可以用以下等式描述:
等式1计算两个输入的差的平方和。
首先,将通过使用等式1计算的第1损失(在图3中表示为E_1)提供给第(2-1)滤波器。第(2-1)滤波器将卷积运算应用于第1损失(即E_1),并产生第1调整特征图(下文称为第12调整特征图,并在图3中表示为D_1)。
详细地,可以通过以下等式获取第12调整特征图(即D_1):
D_1=E_1⊙W(2-1)(等式2)
这里,符号⊙代表卷积运算,D_1是第12调整特征图,E_1是第1损失,W(2-1)代表第(2-1)滤波器的权重。
在通过应用与第1损失层相关联并且设置在第(2-1)滤波器与第1损失层之间的卷积滤波器获取第12调整特征图的情况下,可以应用以下等式:
D_1=(E_1⊙W(3-1))⊙W(2-1)(等式3)
同样,W(3-1)代表第(3-1)滤波器的权重,第(3-1)滤波器是与第1损失层相关联的卷积滤波器。无论在生成D_1时采用哪个等式,D_1都被中继至第(2-2)滤波器。
这里,作为过程的初始状态,可以通过没有先前滤波器可以将任何调整特征图中继到第(2-1)滤波器的事实来解释第11临时特征图的不存在。因此,第(2-1)滤波器可以仅从第1损失层接收第1损失,并且对第1损失应用卷积运算,从而获取第12调整特征图。
图4是示出根据本发明的一个示例实施例的在反向传播过程期间获取调整特征图的过程的图。
参照图4,第(2-M)滤波器在反向传播过程期间从第(2-(M-1))滤波器接收第(M-1)2调整特征图。并且第M损失层通过识别GT标签图像与第(2-M)特征图之间的差来计算第M损失。计算出的第M损失可以被传送至第(2-M)滤波器。
如上所述,可以采用欧几里德损失层,或者可以使用用于计算损失的各种已知方法中的任何一种,来计算损失。并且如上所述,第(2-M)滤波器可以接收第M损失,对该第M损失利用与第M损失层相关联的卷积滤波器进一步执行卷积运算。
在反向传播过程期间,第(2-M)滤波器可以从第(2-(M-1))滤波器接收第(M-1)2调整特征图(即D_(M-1)),并且可以通过使用第(2-M)滤波器的权重(即参数)将卷积运算应用于第(M-1)2调整特征图,因此第(2-M)滤波器可以生成第M1临时特征图(即D_(M-1)⊙WM)。并且第(2-M)滤波器可以将第M损失添加至第M1临时特征图以生成第M2调整特征图(即D_M)。然后,可以将第M2调整特征图传播回第(2-(M+1))滤波器。
详细地,可以通过以下等式从第(2-M)滤波器获取第M2调整特征图(即D_M):
D_M=(D_(M-1))⊙WM+E_M(M≥2)(等式4)
这里,符号⊙代表卷积运算,(D_(M-1)⊙WM)是第M1临时特征图,D_(M-1)和D_M分别代表第(M-1)2调整特征图和第M2调整特征图,WM代表第(2-M)滤波器的权重(即参数),E_M代表第M损失。
在通过利用与第M损失层相关联的卷积滤波器的滤波器权重执行卷积运算获取E_M然后将E_M传递至第(2-M)滤波器的情况下,可以将以下等式应用于第(2-M)滤波器以获取D_M(即,第M2调整特征图):
D_M=(D_(M-1))⊙WM+(E_M)⊙W3-M(M≥2)(等式5)
这里,W(3-M)是与第M损失层相关联的卷积滤波器的权重(即参数)。
具体地,在计算从第(2-M)特征图获取的估计标签图像与第M损失层处的GT标签图像之间的损失时,由于GT标签图像与从第(2-M)特征图获取的估计标签图像之间的大小和通道数的区别,可能无法直接计算损失。
因此,第1至第K损失层可以分别包括第(3-1)至第(3-K)滤波器(未示出),第(3-1)至第(3-K)滤波器是分别对应于第1至第K损失层的卷积滤波器。此外,第(3-1)至第(3-K)滤波器中的每一个可以通过分别对第(2-1)至第(2-K)特征图中的每一个执行卷积运算,将第(2-1)至第(2-K)特征图中的每一个的通道数调整为与GT标签图像的通道数相同。另外,包括在第1至第K损失层中的第(3-1)至第(3-K)滤波器可以将GT标签图像的通道数调整为与第(2-1)至第(2-K)特征图中的每一个的通道数匹配。这里,第(3-1)至第(3-K)滤波器中的每一个的滤波器大小是1×1,并且第(3-1)至第(3-K)滤波器可以调整GT标签图像的通道数或第(2-1)至第(2-K)特征图中的每一个的通道数,但不限于此。
作为参考,由于与包括在解码层中的滤波器的每一个交互的损失层的每一个计算损失的每一个,因此GT标签图像可能需要分别缩小大小以对应于特征图的每一个的大小的每一个。也就是说,由于第(2-M)特征图的大小是第(2-(M-1))特征图的大小的一半,在第(2-M)损失层获取的GT标签图像的大小是第(2-(M-1))损失层所需的GT标签图像的大小的一半。
图5是示意性地示出用于通过调整GT标签图像的通道数改变GT标签图像的大小的方法的图。
减小GT标签图像大小的另一种方法是在保持原始GT标签图像的通道数的同时调整其大小。在调整GT标签图像的大小的情况下,因为GT标签图像的背景和前景(即对象)的所有像素值被表示为整数,采用最近邻方法。然而,根据最近邻方法,在缩小GT标签图像的大小的过程中不可避免地会产生误差。这些误差将通过特征图的大小逐渐增大的上层的滤波器而放大,然而误差将通过特征图的大小连续减小的下层的滤波器而减小。
为了解决上述问题,作为图5所示的示例,第M损失层通过调整GT标签图像的通道数将GT标签图像的大小与第(2-M)特征图的大小相匹配。这种方法可以应用于与上层的滤波器交互的损失层,但是不限于此。
例如,如图5所示,假设第(2-M)特征图的大小是320×240并且GT标签图像的大小是640×480,则大小为640×480的GT标签图像可能无法直接从大小为320×240的第(2-M)特征图中减去。因此,第M损失层通过滤波器大小为1×1的卷积运算将GT标签图像的通道数增加4倍。因此,大小为640×480的GT标签图像可以缩小为具有320×240的大小和四倍的通道数。也就是说,大小为640×480的GT标签图像的像素被移位到各个通道以缩小GT标签图像的大小,因此GT标签图像的大小被重新缩放为4倍通道(4(ch.))×320×240。
换句话说,第M损失层将具有“a”个通道和640×480大小的GT标签图像调整为具有“4×a”个通道和320×240大小的GT标签图像。并且第M损失层通过滤波器大小为1×1的第(3-M)滤波器将具有“b”个通道和320×240大小的第(2-M)特征图调整为具有“4×a”个通道和320×240大小的特征图。然后,第M损失层计算从上述特征图获取的估计标签图像与具有相同大小320×240和相同通道数“4×a”的重新缩放的GT标签图像之间的损失。
图6A和图6B是示出根据本发明另一示例实施例的能够通过使用学习装置执行图像分割的CNN的学习过程的图。
随着每个特征图的大小减小,各个特征图的通道数增加。因此,在解码层下部的滤波器(即,处理具有更小大小和更多通道数的特征图的下层滤波器)可以通过1×1卷积运算调整GT标签图像的大小而不是调整其通道数,以便排除下面描述的问题。
假设包括在解码层中的所有滤波器通过卷积运算接收具有增加的通道数的GT标签图像,由于通过卷积运算产生庞大的通道数的过程可能超过滤波器的容量,所以损失可能增大。这里,卷积运算由如图5所示的滤波器大小为1×1的第(3-1)至第(3-K)滤波器执行。
通常,卷积滤波器的大小越大或卷积滤波器的数量越大,卷积运算的性能越高。例如,3×3或5×5卷积滤波器的容量肯定会超过1×1卷积滤波器的容量。因此,由于1×1卷积滤波器的大小,1×1卷积滤波器处理计算量的能力可能是有限的。此外,如果要处理的计算量增加,则1×1卷积滤波器的性能可能较差。
因此,在第1至第K损失层中,具有更大的特征图的大小的T个上损失层(即,第1至第T损失层)分别调整GT标签图像的通道数以减小其大小,而具有更小的特征图的大小的K-T个下损失层(即,第(T+1)至第K损失层)分别调整GT标签图像的大小以减小其大小。也就是说,下损失层在通过使用最近邻方法调整GT标签图像的大小的同时保留GT标签图像的通道数。此外,通过1×1卷积运算,第2-(T+1)至第(2-K)特征图中的每一个的通道数被减少到与GT标签图像的通道数相同的通道数,从而使得从下层的各个特征图获取的估计标签图像以及它们对应的GT标签图像的大小和通道数相等,以便计算各损失。并且,上损失层增加GT标签图像的通道数以减小其大小,从而使得从上层的各个特征图获取的估计标签图像与它们对应的GT标签图像的大小相同。另外,通过1×1卷积运算,第(2-1)至第(2-T)特征图中的每一个的通道数被调整为与GT标签图像的通道数相同,然后,计算各损失。然而,不需要能够执行图像分割的CNN的学习过程来区分用于获取上损失层的各损失的方法和用于获取下损失层的各自的损失的方法。
如上所述,与对来自所有损失层的各个损失使用相同的方法相比,区分用于获取上损失层的各损失的方法和用于获取下损失层的各自的损失的方法可以极大地有助于减少各个损失。
再次参照图6A和图6B,学习装置还可以包括具有第(4-1)至第(4-K)滤波器(即中间滤波器)的中间层。中间滤波器可以通过使用关于第(1-1)至第(1-K)特征图的信息来生成第(4-1)至第(4-K)特征图。第(4-1)至第(4-K)滤波器中的每一个可以对第(1-1)至第(1-K)特征图中的每一个应用扩张卷积运算,从而分别产生第(4-1)至第(4-K)特征图,然后可以将第(4-1)至第(4-K)特征图的每一个中继到第(2-1)至第(2-K)滤波器的每一个。然后,第(2-1)至第(2-K)滤波器可以通过进一步使用第(4-1)至第(4-K)特征图来产生第(2-1)至第(2-K)特征图。
中间滤波器,即第(4-1)至第(4-K)滤波器,可以通过感受野(receptive field)增加的一个或多个扩张卷积运算提取关于第(1-1)至第(1-K)特征图中的每一个的边缘的信息。因此,第(2-1)至第(2-K)滤波器可以利用提取的关于编码特征图的边缘的信息,并且更多这样的信息可以在解码层中被移交给下一个滤波器,同时执行解码过程。
另外,学习装置可以允许第(2-1)至第(2-K)滤波器的至少一部分通过使用第(4-1)至第(4-K)特征图的至少一部分来生成特征图。也就是说,扩张卷积运算可以选择性地应用于第(1-1)至第(1-K)特征图,以获得它们对应的第(4-1)至第(4-K)特征图。
这里,中间滤波器执行扩张卷积运算,但不限于此。例如,视情况而定,至少部分中间滤波器可以执行卷积运算。同时,由中间滤波器生成的特征图可以由包括在解码层中的滤波器直接或间接地引用。
图7A和图7B是示出根据本发明的又一示例实施例的能够执行图像分割的CNN的学习过程的图。除了损失层不与包括在解码层中的滤波器的一部分交互之外,图7A和图7B中所示的学习过程类似于图2A和图2B中所示的学习过程。也就是说,损失层可以与包括在解码层中的滤波器的一部分相关联。
参照图7A和图7B,从解码层中的第(2-1)至第(2-K)滤波器中选择的H个滤波器(即第(2-1)至第(2-H)所选滤波器)可以与第1至第H损失层交互。这里,第(2-1)至第(2-H)所选滤波器从解码层的上侧到其下侧列举。
与该K个滤波器(即第(2-1)至第(2-K)滤波器)相比,相同的附图标记可以不指代相同的部件。例如,该H个滤波器中的第(2-2)所选滤波器可以指代与该K个滤波器中的第(2-2)滤波器不同的滤波器。作为参考,H是大于零且小于K的正整数。如图7A和图7B所示,该H个滤波器标记在括号中。
在图7A和图7B中,学习装置可以包括分别与包括在解码层中的第(2-1)至第(2-H)所选滤波器交互的第1至第H损失层。此外,学习装置可以执行分别计算来自第1至第H损失层的第1至第H损失的过程,其中各H个损失对应于从解码层中的H个滤波器获取的H个特征图中的每一个。
在损失层没有连接到解码层中的所有滤波器但是连接到其部分滤波器的情况下,损失层的数量和计算量减少。此外,即使损失层的数量减少,也可以保持学习过程的效率,因为仍然可以通过在反向传播过程期间使用连接到解码层中的滤波器的一部分的损失层来生成调整特征图。
具体地,(i)与包含最有影响力和最重要的信息的第(1-K)特征图相关的第(2-K)滤波器和(ii)能够产生标签图像的第(2-1)滤波器与它们相应的损失层交互是可取的。
因此,重申采用如本发明所公开的多损失层可以消除特征图内的大量噪声。与单个最终损失层连接到解码层中的最后一个滤波器的传统技术相比,根据本发明可以极大地改进图像分割的性能。
图2A和图2B至图7A和图7B示出了根据本发明的学习装置和使用该学习装置的学习方法。作为参考,学习装置可以通过执行反向传播过程找到最佳参数,而用于进行图像分割的测试装置可以不执行该过程。
这里,将简要描述用于执行图像分割的测试装置(未示出)的配置和相应功能。测试装置利用通过上述学习过程找到的参数并对测试图像执行图像分割。测试装置可以是与上述学习装置相同的装置,或者可以是不同的装置。
用于对作为输入图像的测试图像执行图像分割的测试装置(未示出)包括通信部(未示出)和处理器(未示出)。通信部可以被配置为与外部装置通信。
具体地,通信部可以被配置为在如下条件下获取测试图像:(I)学习装置包括:(i)编码层,具有通过将一个或多个卷积运算应用于训练图像来分别生成第(1-1)至第(1-K)特征图的第(1-1)至第(1-K)滤波器中的每一个;(ii)解码层,具有通过将一个或多个去卷积运算应用于1-K特征图来分别生成第(2-K)至第(2-1)特征图的第(2-K)至第(2-1)滤波器中的每一个;以及(iii)第1至第H损失层,分别与包括在解码层中的K个滤波器中的H个滤波器交互;(II)如果获得训练图像,则学习装置通过编码层和解码层获取第(2-K)至第(2-1)特征图,并从与第(2-K)至第(2-1)特征图中的从H个滤波器获得的H个特征图中的每一个分别对应的第1至第H损失层获取第1至第H损失;(III)在执行反向传播过程时,学习装置执行以下过程:(1)允许第(2-M)滤波器将卷积运算应用于从第(2-(M-1))滤波器中继的第(M-1)2调整特征图从而获得第M1临时特征图;(2)将通过利用第M1临时特征图计算第M损失得到的第M2调整特征图中继至第(2-(M+1))滤波器;以及(3)调整第(1-1)至第(1-K)滤波器和第(2-K)至第(2-1)滤波器的参数的至少一部分,其中M是大于或等于2且小于或等于K-1的整数,其中,作为(III)的初始状态,第1损失层计算对应于第(2-1)特征图的第1损失,第(2-1)滤波器对第1损失应用卷积运算从而获取第12调整特征图,并且第(2-1)滤波器将第12调整特征图中继至第(2-2)滤波器;以及(IV)学习装置获取第(2-K)至第(2-1)滤波器和第(1-1)至第(1-K)滤波器的调整参数。
此外,处理器可以被配置为通过使用解码层和编码层中的至少部分滤波器(即第(2-K)至第(2-1)滤波器和第(1-1)至第(1-K)滤波器)的调整参数对所获取的测试图像执行图像分割。
本发明具有如下效果:通过将解码层中的滤波器中的每一个与计算损失的损失层中的每一个相连接,来校正从各个单独的损失层获得的解码层中的各个滤波器的损失。
另外,本发明具有另一效果:在反向传播过程中通过在将损失传播回每个滤波器时防止损失减少而反映正确的损失。
此外,本发明具有另一效果:提供学习环境,其中在反向传播过程中通过在每个滤波器上反映正确的损失找到每个滤波器的最佳参数。
此外,本发明还具有另一效果:提供图像的测试环境,其中通过为每个滤波器找到最佳参数而精确地执行图像分割。
如上所述的本发明的实施例可以通过可记录到计算机可读介质的各种计算机装置以可执行程序命令的形式实现。计算机可读介质可以单独地或组合地包括程序命令、数据文件和数据结构。记录到介质的程序命令可以是为本发明专门设计的组件,或者对于计算机软件领域的技术人员可用。计算机可读记录介质包括:诸如硬盘、软盘和磁带的磁介质;诸如CD-ROM和DVD的光学介质;诸如光盘的磁光介质;诸如ROM、RAM的硬件装置;以及专门用于存储和执行程序的闪存。程序命令不仅包括由编译器产生的机器语言代码,还包括可由通过计算机执行的解释器等使用的高级代码。上述硬件装置可以不止作为软件模块工作来执行本发明的动作,并且它们在相反的情况下可以做同样的工作。
如上所述,已经通过诸如详细组件、有限实施例和附图的具体事项解释了本发明。虽然已经关于优选实施例示出和描述了本发明,但是,本领域技术人员将理解,在不脱离如在以下权利要求中限定的本发明的精神和范围的情况下,可以进行各种改变和修改。
因此,本发明的思想不应局限于所解释的实施例,并且以下专利权利要求以及包括与专利权利要求等同或等同的变化的所有内容都属于本发明的思想范畴。
Claims (18)
1.一种用于通过使用学习装置来改进图像分割的学习方法,其中,所述学习装置包括:(i)编码层,具有通过将一个或多个卷积运算应用于作为输入图像的训练图像来分别生成第(1-1)特征图至第(1-K)特征图的第(1-1)滤波器至第(1-K)滤波器中的每一个;(ii)解码层,具有通过将一个或多个去卷积运算应用于1-K特征图来分别生成第(2-K)特征图至第(2-1)特征图的第(2-K)滤波器至第(2-1)滤波器中的每一个;以及(iii)第1损失层至第H损失层,分别与包括在所述解码层中的K个滤波器中的H个滤波器交互,所述学习方法包括以下步骤:
(a)如果获得所述输入图像,则所述学习装置通过所述编码层和所述解码层获取或支持另一装置获取所述第(2-K)特征图至第(2-1)特征图,并且获取或支持另一装置从与所述第(2-K)特征图至第(2-1)特征图中的从H个所选择的滤波器获得的H个特征图中的每一个分别对应的所述第1损失层至所述第H损失层中获取第1损失至第H损失;以及
(b)在执行反向传播过程时,所述学习装置执行以下过程:(1)允许第(2-M)滤波器将卷积运算应用于从第(2-(M-1))滤波器中继的第(M-1)2调整特征图,从而获得第M1临时特征图;(2)将通过利用所述第M1临时特征图计算第M损失得到的第M2调整特征图中继至所述第(2-(M+1))滤波器;以及(3)调整所述第(1-1)滤波器至所述第(1-K)滤波器和所述第(2-K)滤波器至所述第(2-1)滤波器的参数的至少一部分,其中M是大于或等于2且小于或等于K-1的整数,
其中,作为所述步骤(b)的初始状态,所述第1损失层计算对应于所述第(2-1)特征图的所述第1损失,所述第(2-1)滤波器对所述第1损失应用卷积运算从而获取第12调整特征图,并且所述第(2-1)滤波器将所述第12调整特征图中继至第(2-2)滤波器,
其中,所述学习装置允许与包括在所述编码层与所述解码层之间的中间层中的中间滤波器中的每一个分别对应的所述第(1-1)特征图至所述第(1-K)特征图的至少一部分被输入到所述中间滤波器中的每一个,并且其中,所述学习装置允许所述第(2-1)滤波器至所述第(2-K)滤波器的至少一部分通过进一步使用从一个或多个中间滤波器获取的特定特征图来获得所述第(2-1)特征图至所述第(2-K)特征图的至少一部分,
其中,如果包括第(4-1)滤波器至第(4-K)滤波器的所述中间滤波器执行一个或多个扩张卷积运算,则所述学习装置执行以下过程:通过所述第(4-1)滤波器至所述第(4-K)滤波器对所述第(1-1)特征图至所述第(1-K)特征图中的每一个应用所述扩张卷积运算获得第(4-1)特征图至第(4-K)特征图;以及分别将所述第(4-1)特征图至所述第(4-K)特征图中继到所述第(2-1)滤波器至所述第(2-K)滤波器。
2.根据权利要求1所述的方法,其中,所述第1损失层至所述第H损失层通过将第1地面真值标签图像至第H地面真值标签图像与由第(3-1)滤波器至第(3-H)滤波器中的每一个对所述H个特征图中的每一个应用一个或多个卷积运算生成的第(3-1)特征图至第(3-H)特征图分别进行比较,来分别计算所述第1损失至所述第H损失。
3.根据权利要求2所述的方法,其中,所述第(3-1)滤波器至所述第(3-H)滤波器中的每一个的大小是1×1,并且通过对所述H个特征图中的每一个应用一个或多个卷积运算,所述第(3-1)特征图至所述第(3-H)特征图中的每一个的通道数被控制为等于所述第1地面真值标签图像至所述第H地面真值标签图像中的每一个的通道数,并且其中,所述第1地面真值标签图像至所述第H地面真值标签图像中的每一个的大小被控制为对应于所述第(3-1)特征图至所述第(3-H)特征图中的每一个的大小。
4.根据权利要求3所述的方法,其中,通过分别调整原始地面真值标签图像的通道数,并通过分别改变所述原始地面真值标签图像的大小以使所述原始地面真值标签图像的大小与所述H个特征图中的每一个的大小相匹配,来获取所述第1地面真值标签图像至所述第H地面真值标签图像的至少一部分。
5.根据权利要求4所述的方法,其中,通过增加所述原始地面真值标签图像的通道数,并通过(i)所述原始地面真值标签图像的大小和(ii)所述H个特征图中的每一个的大小的比率的每一个减小所述原始地面真值标签图像的大小,来调整所述原始地面真值标签图像的通道数。
6.根据权利要求4所述的方法,其中,通过分别调整所述原始地面真值标签图像的大小以使所述原始地面真值标签图像的大小与所述H个特征图中的每一个的大小相匹配,来获得所述第1地面真值标签图像至所述第H地面真值标签图像的至少一部分。
7.根据权利要求4所述的方法,其中,如果t是大于或等于1且小于H的整数,则所述学习装置允许H个损失层中的第1损失层至第t损失层通过分别调整所述原始地面真值标签图像的通道数来分别改变所述原始地面真值标签图像的大小,而所述学习装置允许第(t+1)损失层至第H损失层通过分别调整所述原始地面真值标签图像的大小来分别改变所述原始地面真值标签图像的大小,并且其中,如果t是等于H的整数,则所述学习装置允许所述第1损失层至所述第H损失层通过分别调整所述原始地面真值标签图像的通道数来分别改变所述原始地面真值标签图像的大小。
8.根据权利要求7所述的方法,其中,在保持所述原始地面真值标签图像的通道数的同时,分别调整所述原始地面真值标签图像的大小。
9.一种用于对作为输入图像的测试图像执行图像分割的测试方法,包括以下步骤:
(a)测试装置在如下条件下获取或支持另一装置获取所述测试图像:(I)学习装置包括:(i)编码层,具有通过将一个或多个卷积运算应用于训练图像来分别生成第(1-1)特征图至第(1-K)特征图的第(1-1)滤波器至第(1-K)滤波器中的每一个;(ii)解码层,具有通过将一个或多个去卷积运算应用于1-K特征图来分别生成第(2-K)特征图至第(2-1)特征图的第(2-K)滤波器至第(2-1)滤波器中的每一个;以及(iii)第1损失层至第H损失层,分别与包括在所述解码层中的K个滤波器中的H个滤波器交互;(II)如果获得训练图像,则所述学习装置通过所述编码层和所述解码层获取所述第(2-K)特征图至所述第(2-1)特征图,并从与所述第(2-K)特征图至所述第(2-1)特征图中的从H个滤波器获得的H个特征图中的每一个分别对应的所述第1损失层至所述第H损失层中获取第1损失至第H损失;(III)在执行反向传播过程时,所述学习装置执行以下过程:(1)允许第(2-M)滤波器将卷积运算应用于从第(2-(M-1))滤波器中继的第(M-1)2调整特征图,从而获得第M1临时特征图;(2)将通过利用所述第M1临时特征图计算第M损失得到的第M2调整特征图中继至所述第(2-(M+1))滤波器;以及(3)调整所述第(1-1)滤波器至第(1-K)滤波器和所述第(2-K)滤波器至所述第(2-1)滤波器的参数的至少一部分,其中M是大于或等于2且小于或等于K-1的整数,其中,作为(III)的初始状态,所述第1损失层计算对应于第(2-1)特征图的所述第1损失,所述第(2-1)滤波器对所述第1损失应用卷积运算从而获取第12调整特征图,并且所述第(2-1)滤波器将所述第12调整特征图中继至第(2-2)滤波器;以及(IV)所述学习装置获取所述第(2-K)滤波器至所述第(2-1)滤波器和所述第(1-1)滤波器至所述第(1-K)滤波器的调整参数;以及
(b)通过利用所述第(2-K)滤波器至所述第(2-1)滤波器和所述第(1-1)滤波器至所述第(1-K)滤波器的调整参数,所述测试装置对获取的测试图像执行图像分割或支持另一装置对获取的测试图像执行图像分割,
其中,所述学习装置允许与包括在所述编码层与所述解码层之间的中间层中的中间滤波器中的每一个分别对应的所述第(1-1)特征图至所述第(1-K)特征图的至少一部分被输入到所述中间滤波器中的每一个,并且其中,所述测试装置允许所述第(2-1)滤波器至所述第(2-K)滤波器的至少一部分通过进一步使用从一个或多个中间滤波器获取的特定特征图来获得所述第(2-1)特征图至所述第(2-K)特征图的至少一部分,
其中,如果包括第(4-1)滤波器至第(4-K)滤波器的所述中间滤波器执行一个或多个扩张卷积运算,则所述测试装置执行以下过程:通过所述第(4-1)滤波器至所述第(4-K)滤波器对所述第(1-1)特征图至所述第(1-K)特征图中的每一个应用所述扩张卷积运算获得第(4-1)特征图至第(4-K)特征图;以及分别将所述第(4-1)特征图至所述第(4-K)特征图中继到所述第(2-1)滤波器至所述第(2-K)滤波器。
10.一种用于改进图像分割的学习装置,其中,所述学习装置包括:(i)编码层,具有通过将一个或多个卷积运算应用于作为输入图像的训练图像来分别生成第(1-1)特征图至第(1-K)特征图的第(1-1)滤波器至第(1-K)滤波器中的每一个;(ii)解码层,具有通过将一个或多个去卷积运算应用于1-K特征图来分别生成第(2-K)特征图至第(2-1)特征图的第(2-K)滤波器至第(2-1)滤波器中的每一个;以及(iii)第1损失层至第H损失层,分别与包括在所述解码层中的K个滤波器中的H个滤波器交互,所述学习装置包括:
通信部,用于接收所述输入图像;
处理器,用于执行以下过程:(I)如果获得所述输入图像,则,所述处理器通过所述编码层和所述解码层获取或支持另一装置获取所述第(2-K)特征图至所述第(2-1)特征图,并且获取或支持另一装置从与所述第(2-K)特征图至所述第(2-1)特征图中的从H个滤波器获得的H个特征图中的每一个分别对应的所述第1损失层至所述第H损失层中获取第1损失至第H损失;以及(II)在执行反向传播过程时,(i)允许第(2-M)滤波器将卷积运算应用于从第(2-(M-1))滤波器中继的第(M-1)2调整特征图,从而获得第M1临时特征图;(ii)将通过利用所述第M1临时特征图计算第M损失得到的第M2调整特征图中继至所述第(2-(M+1))滤波器;以及(iii)调整所述第(1-1)滤波器至所述第(1-K)滤波器和所述第(2-K)滤波器至所述第(2-1)滤波器的参数的至少一部分,
其中,M是大于或等于2且小于或等于K-1的整数,并且其中,作为初始状态,所述第1损失层计算对应于所述第(2-1)特征图的所述第1损失,所述第(2-1)滤波器对所述第1损失应用卷积运算从而获取第12调整特征图,并且所述第(2-1)滤波器将所述第12调整特征图中继至第(2-2)滤波器,
其中,所述处理器被配置为允许与包括在所述编码层与所述解码层之间的中间层的中间滤波器中的每一个分别对应的所述第(1-1)特征图至所述第(1-K)特征图的至少一部分被输入到所述中间滤波器中的每一个,并且所述第(2-1)滤波器至所述第(2-K)滤波器的至少一部分通过进一步使用从一个或多个中间滤波器获取的特定特征图以获得所述第(2-1)特征图至所述第(2-K)特征图的至少一部分,
其中,如果包括第(4-1)滤波器至第(4-K)滤波器的所述中间滤波器执行一个或多个扩张卷积运算,则所述处理器被配置为执行以下过程:通过所述第(4-1)滤波器至所述第(4-K)滤波器对所述第(1-1)特征图至所述第(1-K)特征图中的每一个应用所述扩张卷积运算获得第(4-1)特征图至第(4-K)特征图,以及分别将所述第(4-1)特征图至所述第(4-K)特征图中继到所述第(2-1)滤波器至所述第(2-K)滤波器。
11.根据权利要求10所述的学习装置,其中,所述处理器被配置为允许所述第1损失层至所述第H损失层通过将第1地面真值标签图像至第H地面真值标签图像与由第(3-1)滤波器至第(3-H)滤波器中的每一个对所述H个特征图中的每一个应用一个或多个卷积运算生成的第(3-1)特征图至第(3-H)特征图分别进行比较,来分别计算所述第1损失至所述第H损失。
12.根据权利要求11所述的学习装置,其中,所述第(3-1)滤波器至所述第(3-H)滤波器中的每一个的大小是1×1,并且通过对所述H个特征图中的每一个应用一个或多个卷积运算,所述第(3-1)特征图至所述第(3-H)特征图中的每一个的通道数被配置为等于所述第1地面真值标签图像至所述第H地面真值标签图像中的每一个的通道数,并且其中,所述第1地面真值标签图像至所述第H地面真值标签图像中的每一个的大小被配置为对应于所述第(3-1)特征图至所述第(3-H)特征图中的每一个的大小。
13.根据权利要求12所述的学习装置,其中,所述处理器被配置为通过分别调整原始地面真值标签图像的通道数,并通过分别改变所述原始地面真值标签图像的大小以使所述原始地面真值标签图像的大小与所述H个特征图中的每一个的大小相匹配,来获取所述第1地面真值标签图像至所述第H地面真值标签图像的至少一部分。
14.根据权利要求13所述的学习装置,其中,所述处理器被配置为通过增加所述原始地面真值标签图像的通道数,并通过(i)所述原始地面真值标签图像的大小和(ii)所述H个特征图中的每一个的大小的比率的每一个减小所述原始地面真值标签图像的大小,来调整所述原始地面真值标签图像的通道数。
15.根据权利要求13所述的学习装置,其中,所述处理器被配置为通过分别调整所述原始地面真值标签图像的大小以使所述原始地面真值标签图像的大小与所述H个特征图中的每一个的大小相匹配,来获得所述第1地面真值标签图像至所述第H地面真值标签图像的至少一部分。
16.根据权利要求13所述的学习装置,其中,如果t是大于或等于1且小于H的整数,则所述处理器被配置为允许H个损失层中的第1损失层至第t损失层通过分别调整所述原始地面真值标签图像的通道数来分别改变所述原始地面真值标签图像的大小,而所述处理器被配置为允许第(t+1)损失层至第H损失层通过分别调整所述原始地面真值标签图像的大小来分别改变所述原始地面真值标签图像的大小,并且其中,如果t是等于H的整数,则所述处理器被配置为允许所述第1损失层至所述第H损失层通过分别调整所述原始地面真值标签图像的通道数来分别改变所述原始地面真值标签图像的大小。
17.根据权利要求16所述的学习装置,其中,所述处理器被配置为在保持所述原始地面真值标签图像的通道数的同时,分别调整所述原始地面真值标签图像的大小。
18.一种用于对作为输入图像的测试图像执行图像分割的测试装置,包括:
通信部,用于在如下条件下获取或支持另一装置获取测试图像:(I)学习装置包括:(i)编码层,具有通过将一个或多个卷积运算应用于训练图像来分别生成第(1-1)特征图至第(1-K)特征图的第(1-1)滤波器至第(1-K)滤波器中的每一个;(ii)解码层,具有通过将一个或多个去卷积运算应用于1-K特征图来分别生成第(2-K)特征图至第(2-1)特征图的第(2-K)滤波器至第(2-1)滤波器中的每一个;以及(iii)第1损失层至第H损失层,分别与包括在解码层中的K个滤波器中的H个滤波器交互;(II)如果获得训练图像,则所述学习装置通过所述编码层和所述解码层获取所述第(2-K)特征图至所述第(2-1)特征图,并从与所述第(2-K)特征图至所述第(2-1)特征图中的从H个滤波器获得的H个特征图中的每一个分别对应的所述第1损失层至所述第H损失层中获取第1损失至第H损失;(III)在执行反向传播过程时,所述学习装置执行以下过程:(1)允许第(2-M)滤波器将卷积运算应用于从第(2-(M-1))滤波器中继的第(M-1)2调整特征图,从而获得第M1临时特征图;(2)将通过利用所述第M1临时特征图计算第M损失得到的第M2调整特征图中继至所述第(2-(M+1))滤波器;以及(3)调整所述第(1-1)滤波器至所述第(1-K)滤波器和所述第(2-K)滤波器至所述第(2-1)滤波器的参数的至少一部分,其中M是大于或等于2且小于或等于K-1的整数,其中,作为(III)的初始状态,所述第1损失层计算对应于第(2-1)特征图的所述第1损失,所述第(2-1)滤波器对所述第1损失应用卷积运算从而获取第12调整特征图,并且所述第(2-1)滤波器将所述第12调整特征图中继至第(2-2)滤波器;以及(IV)所述学习装置获取所述第(2-K)滤波器至所述第(2-1)滤波器和所述第(1-1)滤波器至所述第(1-K)滤波器的调整参数;以及
处理器,通过利用所述第(2-K)滤波器至所述第(2-1)滤波器和所述第(1-1)滤波器至所述第(1-K)滤波器的调整参数,所述处理器对所获取的测试图像执行图像分割或支持另一装置对所获取的测试图像执行图像分割,
其中,所述处理器被配置为允许第(2-1)滤波器至第(2-K)滤波器的至少一部分通过进一步使用从包括在所述编码层与所述解码层之间的中间层中的中间滤波器获取的特定特征图来获得所述第(2-1)特征图至所述第(2-K)特征图的至少一部分,并且被配置为为所述中间滤波器在所述第(1-1)特征图至所述第(1-K)特征图中选择输入,
其中,如果包括第(4-1)滤波器至第(4-K)滤波器的所述中间滤波器执行一个或多个扩张卷积运算,则所述处理器被配置为执行以下过程:通过所述第(4-1)滤波器至所述第(4-K)滤波器对所述第(1-1)特征图至所述第(1-K)特征图中的每一个应用所述扩张卷积运算获得第(4-1)特征图至第(4-K)特征图;以及分别将所述第(4-1)特征图至所述第(4-K)特征图中继到所述第(2-1)滤波器至所述第(2-K)滤波器。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/723,597 | 2017-10-03 | ||
US15/723,597 US9947103B1 (en) | 2017-10-03 | 2017-10-03 | Learning method and learning device for improving image segmentation and testing method and testing device using the same |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109598725A CN109598725A (zh) | 2019-04-09 |
CN109598725B true CN109598725B (zh) | 2023-05-05 |
Family
ID=61872655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811147163.7A Active CN109598725B (zh) | 2017-10-03 | 2018-09-29 | 改进图像分割学习方法和装置及使用其的测试方法和装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9947103B1 (zh) |
EP (1) | EP3467713B1 (zh) |
JP (1) | JP6720264B2 (zh) |
KR (1) | KR102144381B1 (zh) |
CN (1) | CN109598725B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10997450B2 (en) * | 2017-02-03 | 2021-05-04 | Siemens Aktiengesellschaft | Method and apparatus for detecting objects of interest in images |
CN108108738B (zh) * | 2017-11-28 | 2018-11-16 | 北京达佳互联信息技术有限公司 | 图像处理方法、装置及终端 |
US10565476B1 (en) * | 2018-09-04 | 2020-02-18 | StradVision, Inc. | Method and computing device for generating image data set for learning to be used for detection of obstruction in autonomous driving circumstances and learning method and learning device using the same |
US10303980B1 (en) * | 2018-09-05 | 2019-05-28 | StradVision, Inc. | Learning method, learning device for detecting obstacles and testing method, testing device using the same |
US10579924B1 (en) * | 2018-09-17 | 2020-03-03 | StradVision, Inc. | Learning method, learning device with multi-feeding layers and testing method, testing device using the same |
US10304009B1 (en) * | 2018-10-08 | 2019-05-28 | StradVision, Inc. | Learning method and testing method for object detector based on R-CNN, and learning device and testing device using the same |
US10311321B1 (en) * | 2018-10-26 | 2019-06-04 | StradVision, Inc. | Learning method, learning device using regression loss and testing method, testing device using the same |
US10373317B1 (en) * | 2019-01-22 | 2019-08-06 | StradVision, Inc. | Learning method and learning device for attention-driven image segmentation by using at least one adaptive loss weight map to be used for updating HD maps required to satisfy level 4 of autonomous vehicles and testing method and testing device using the same |
US10311578B1 (en) * | 2019-01-23 | 2019-06-04 | StradVision, Inc. | Learning method and learning device for segmenting an image having one or more lanes by using embedding loss to support collaboration with HD maps required to satisfy level 4 of autonomous vehicles and softmax loss, and testing method and testing device using the same |
US10872297B2 (en) * | 2019-01-30 | 2020-12-22 | StradVision, Inc. | Learning method and learning device for generating training data from virtual data on virtual world by using generative adversarial network, to thereby reduce annotation cost required in training processes of neural network for autonomous driving, and a testing method and a testing device using the same |
US10776673B2 (en) * | 2019-01-31 | 2020-09-15 | StradVision, Inc. | Learning method and learning device for sensor fusion to integrate information acquired by radar capable of distance estimation and information acquired by camera to thereby improve neural network for supporting autonomous driving, and testing method and testing device using the same |
US10373004B1 (en) * | 2019-01-31 | 2019-08-06 | StradVision, Inc. | Method and device for detecting lane elements to plan the drive path of autonomous vehicle by using a horizontal filter mask, wherein the lane elements are unit regions including pixels of lanes in an input image |
US10762393B2 (en) * | 2019-01-31 | 2020-09-01 | StradVision, Inc. | Learning method and learning device for learning automatic labeling device capable of auto-labeling image of base vehicle using images of nearby vehicles, and testing method and testing device using the same |
KR102361444B1 (ko) | 2020-03-06 | 2022-02-11 | 주식회사 테스트웍스 | 다각형 기반의 객체 인식 성능 보정 장치 및 방법 |
KR102345799B1 (ko) * | 2021-02-23 | 2021-12-31 | 인그래디언트 주식회사 | Cnn 기반의 자동 라벨 마스크 교정 방법 및 이를 이용한 시스템 |
CN114399440B (zh) * | 2022-01-13 | 2022-12-13 | 马上消费金融股份有限公司 | 图像处理方法、图像处理网络训练方法、装置及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107092661A (zh) * | 2017-03-28 | 2017-08-25 | 桂林明辉信息科技有限公司 | 一种基于深度卷积神经网络的图像检索方法 |
CN107122809A (zh) * | 2017-04-24 | 2017-09-01 | 北京工业大学 | 基于图像自编码的神经网络特征学习方法 |
CN107169535A (zh) * | 2017-07-06 | 2017-09-15 | 谈宜勇 | 生物多光谱图像的深度学习分类方法及装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9646055B2 (en) | 2014-04-03 | 2017-05-09 | Facebook, Inc. | Blending search results on online social networks |
CN104700099B (zh) * | 2015-03-31 | 2017-08-11 | 百度在线网络技术(北京)有限公司 | 识别交通标志的方法和装置 |
US9940539B2 (en) * | 2015-05-08 | 2018-04-10 | Samsung Electronics Co., Ltd. | Object recognition apparatus and method |
US10115032B2 (en) | 2015-11-04 | 2018-10-30 | Nec Corporation | Universal correspondence network |
EP3380859A4 (en) | 2015-11-29 | 2019-07-31 | Arterys Inc. | AUTOMATED SEGMENTATION OF CARDIAC VOLUME |
US10373073B2 (en) * | 2016-01-11 | 2019-08-06 | International Business Machines Corporation | Creating deep learning models using feature augmentation |
US9773196B2 (en) * | 2016-01-25 | 2017-09-26 | Adobe Systems Incorporated | Utilizing deep learning for automatic digital image segmentation and stylization |
US10726326B2 (en) * | 2016-02-24 | 2020-07-28 | International Business Machines Corporation | Learning of neural network |
-
2017
- 2017-10-03 US US15/723,597 patent/US9947103B1/en active Active
-
2018
- 2018-09-05 EP EP18192803.7A patent/EP3467713B1/en active Active
- 2018-09-29 CN CN201811147163.7A patent/CN109598725B/zh active Active
- 2018-10-02 KR KR1020180117308A patent/KR102144381B1/ko active IP Right Grant
- 2018-10-03 JP JP2018188342A patent/JP6720264B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107092661A (zh) * | 2017-03-28 | 2017-08-25 | 桂林明辉信息科技有限公司 | 一种基于深度卷积神经网络的图像检索方法 |
CN107122809A (zh) * | 2017-04-24 | 2017-09-01 | 北京工业大学 | 基于图像自编码的神经网络特征学习方法 |
CN107169535A (zh) * | 2017-07-06 | 2017-09-15 | 谈宜勇 | 生物多光谱图像的深度学习分类方法及装置 |
Non-Patent Citations (4)
Title |
---|
Deeply-supervised CNN for prostate segmentation;Qikui Zhu;《2017 International Joint Conference on Neural Networks (IJCNN)》;20170730;第1743-1751页 * |
Large Kernel Matters-Improve Semantic By Global Convolutional Network;Chao Peng;《2017 IEEE Conference on Computer Vision and Pattern Recognition》;20170330;第178-182页 * |
Qikui Zhu.Deeply-supervised CNN for prostate segmentation.《2017 International Joint Conference on Neural Networks (IJCNN)》.2017, * |
卷积神经网络中减少训练样本时间方法研究;范青;《电脑知识与技术》;20161125(第33期);第173-176页 * |
Also Published As
Publication number | Publication date |
---|---|
EP3467713A8 (en) | 2019-06-05 |
KR20190039383A (ko) | 2019-04-11 |
EP3467713B1 (en) | 2022-08-17 |
KR102144381B1 (ko) | 2020-08-13 |
US9947103B1 (en) | 2018-04-17 |
JP2019067403A (ja) | 2019-04-25 |
EP3467713A1 (en) | 2019-04-10 |
JP6720264B2 (ja) | 2020-07-08 |
CN109598725A (zh) | 2019-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109598725B (zh) | 改进图像分割学习方法和装置及使用其的测试方法和装置 | |
CN109658417B (zh) | 改进图像分割学习方法和装置及使用其的测试方法和装置 | |
EP3467721B1 (en) | Method and device for generating feature maps by using feature upsampling networks | |
CN108664981B (zh) | 显著图像提取方法及装置 | |
US9984325B1 (en) | Learning method and learning device for improving performance of CNN by using feature upsampling networks, and testing method and testing device using the same | |
CN111968123B (zh) | 一种半监督视频目标分割方法 | |
CN109670575B (zh) | 用于同时执行激活和卷积运算的方法和装置及其学习方法和学习装置 | |
KR20190041921A (ko) | 액티베이션 연산과 컨벌루션 연산을 동시에 수행하기 위한 방법 및 장치 그리고 이를 위한 학습 방법 및 학습 장치 | |
KR20120066462A (ko) | 얼굴 인식 방법 및 시스템, 얼굴 인식을 위한 학습용 특징 벡터 추출 장치 및 테스트용 특징 벡터 추출 장치 | |
CN111488901A (zh) | 在cnn中从多个模块内的输入图像提取特征的方法及装置 | |
CN113313720A (zh) | 对象分割方法和装置 | |
CN109035178B (zh) | 一种应用于图像去噪的多参数取值调优方法 | |
CN114091648A (zh) | 基于卷积神经网络的图像分类方法、装置及卷积神经网络 | |
CN112085652A (zh) | 一种图像处理的方法、装置、计算机存储介质及终端 | |
CN113256643A (zh) | 一种人像分割模型的训练方法、存储介质及终端设备 | |
CN111602145A (zh) | 卷积神经网络的优化方法及相关产品 | |
CN112634224B (zh) | 基于目标影像的病灶检测方法和装置 | |
US8994730B2 (en) | Optimizing edge crossing computations when creating a drawing of a directed graph having a minimum number of edge crossings | |
EP3905240A1 (en) | Speech recognition of overlapping segments | |
CN111798859B (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
CN110059707B (zh) | 图像特征点的优化方法、装置和设备 | |
US11853864B2 (en) | Data processing apparatus and data processing method for executing processing using neural network | |
CN114240746A (zh) | 一种基于高频信息引导的hf-net深度图像超分辨方法及系统 | |
CN110827284A (zh) | 优化部件分析模型编解码器网络及快速语义分割方法 | |
CN115546252A (zh) | 一种基于互相关匹配增强孪生网络的目标跟踪方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |